CN114793437A - 用于从多肽上切割n端氨基酸的方法和试剂 - Google Patents

用于从多肽上切割n端氨基酸的方法和试剂 Download PDF

Info

Publication number
CN114793437A
CN114793437A CN202080031976.9A CN202080031976A CN114793437A CN 114793437 A CN114793437 A CN 114793437A CN 202080031976 A CN202080031976 A CN 202080031976A CN 114793437 A CN114793437 A CN 114793437A
Authority
CN
China
Prior art keywords
optionally
membered heteroaryl
polypeptide
alkyl
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080031976.9A
Other languages
English (en)
Inventor
凯文·L·冈德森
黄菲
罗伯特·C·詹姆斯
卢卡·蒙弗雷戈拉
斯蒂芬三世·韦雷斯皮
周·艾瑞克·村宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Encodia Inc
Original Assignee
Encodia Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Encodia Inc filed Critical Encodia Inc
Publication of CN114793437A publication Critical patent/CN114793437A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K17/00Carrier-bound or immobilised peptides; Preparation thereof
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07DHETEROCYCLIC COMPOUNDS
    • C07D231/00Heterocyclic compounds containing 1,2-diazole or hydrogenated 1,2-diazole rings
    • C07D231/02Heterocyclic compounds containing 1,2-diazole or hydrogenated 1,2-diazole rings not condensed with other rings
    • C07D231/10Heterocyclic compounds containing 1,2-diazole or hydrogenated 1,2-diazole rings not condensed with other rings having two or three double bonds between ring members or between ring members and non-ring members
    • C07D231/12Heterocyclic compounds containing 1,2-diazole or hydrogenated 1,2-diazole rings not condensed with other rings having two or three double bonds between ring members or between ring members and non-ring members with only hydrogen atoms, hydrocarbon or substituted hydrocarbon radicals, directly attached to ring carbon atoms
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/48Hydrolases (3) acting on peptide bonds (3.4)
    • C12N9/485Exopeptidases (3.4.11-3.4.19)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y304/00Hydrolases acting on peptide bonds, i.e. peptidases (3.4)
    • C12Y304/19Omega peptidases (3.4.19)
    • C12Y304/19003Pyroglutamyl-peptidase I (3.4.19.3)

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Peptides Or Proteins (AREA)
  • Heterocyclic Carbon Compounds Containing A Hetero Ring Having Nitrogen And Oxygen As The Only Ring Hetero Atoms (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及从多肽上切割N端氨基酸的方法,所述多肽可以呈游离形式或缀合至载剂或表面,如珠子。其提供了使多肽的N端胺活化以促进N端氨基酸的环状加合物的形成从而导致N端氨基酸从多肽上切割的方法。所述方法可用于测序和/或分析多肽。例如,所述方法可以与本文所述的用于测序和/或分析的方法组合,这些方法采用分子识别事件的条形编码和核酸编码,和/或可检测标记。本发明还提供了可用于实践这些方法的化合物和试剂盒。

Description

用于从多肽上切割N端氨基酸的方法和试剂
相关申请的交叉引用
本申请要求于2019年4月30日提交的美国临时专利申请第62/841,171号的优先权,所述美国临时专利申请的公开内容出于所有目的通过引用整体并入本文。
ASCII文本上的序列表
本专利或申请文件含有以计算机可读ASCII文本格式提交的序列表(文件名:4614-2001440_20200422_SeqList_ST25.txt,记录时间:2020年4月22日,大小:54,3804字节)。序列表文件的内容通过引用整体并入本文。
技术领域
本公开涉及用于分析多肽的方法、试剂和试剂盒。在一些实施例中,本方法、试剂和试剂盒采用温和条件去除多肽的N端氨基酸,并且可以用于修饰和去除多肽的一个或多个N端氨基酸,并且它们可以很容易地应用于多肽分析和/或序列测定。
背景技术
蛋白质在细胞生物学和生理学中起着不可或缺的作用,发挥并促进了许多不同的生物学功能。由于翻译后修饰(PTM)引入了额外的多样性,因此不同蛋白质分子的库很广泛,比转录组要复杂得多。另外,细胞内的蛋白质响应于环境、生理状态和疾病状态而动态地改变(表达水平和修饰状态)。因此,蛋白质含有大量尚未开发的相关信息,尤其是相对于基因组信息而言。一般而言,相对于基因组学分析,蛋白质组学分析的创新一直滞后。在基因组学领域,新一代测序(NGS)通过一次仪器运行即可分析数十亿个DNA序列,从而改变了该领域,而在蛋白质分析和肽测序中,通量仍然有限。
然而,迫切需要这种蛋白质信息,以更好地理解健康和疾病中的蛋白质组动力学,并帮助实现精准医疗。因此,开发“下一代”工具以最小化和高度并行化蛋白质组学信息的收集引起了人们极大的兴趣。
出于以下几个原因,高度平行的蛋白质大分子表征和识别具有挑战性。由于一些关键挑战,基于亲和力的测定通常很难使用。一个重要的挑战是将一组亲和剂的读出与一组同源大分子多路复用(multiplexing);另一个挑战是使亲和剂与脱靶大分子之间的交叉反应最小化;第三个挑战是开发高效的高通量读出平台。这个问题的一个实例发生在蛋白质组学中,其中一个目标是鉴定和定量样品中的大部分或全部蛋白质。另外,令人期望的是,在单分子水平上表征蛋白质上的各种翻译后修饰(PTM)。当前,这是一项以高通量方式完成的艰巨任务。通过肽测序(埃德曼(Edman)降解或质谱法)直接表征蛋白质提供了有用的方法。然而,这两种方法都不是非常并行或高通量。
基于埃德曼降解的肽段测序由Pehr Edman于1950年首次提出;即,通过一系列化学修饰和下游HPLC分析(后来被质谱分析取代)逐步去除肽上的N端氨基酸。在第一步中,在弱碱性条件(NMP/甲醇/H2O)下用异硫氰酸苯酯(PITC)修饰N端氨基酸,以形成苯基硫代氨基甲酰基(PTC)衍生物。在第二步中,将PTC修饰的氨基用酸(无水TFA)处理以产生切割的环状ATZ(2-苯胺基-5(4)-噻唑啉酮)修饰的氨基酸,从而在肽上留下一个新的N端。将切割的环状ATZ-氨基酸转化为苯基硫代乙内酰脲(PTH)氨基酸衍生物,并通过反相HPLC进行分析。该过程以迭代方式继续,直到包括肽序列的一些或全部氨基酸已从N端去除并被鉴定。一般而言,埃德曼降解肽测序速度较慢,并且通量有限,每天只有几个肽。此外,由于切割步骤使用非常强的酸(通常是无水TFA),因此该方法与含有酸敏感性部分(如寡核苷酸或多核苷酸)的样品不相容。因此需要用于多肽测序的改进方法。
因此,本领域仍然需要与大分子测序和/或分析相关的改进技术,其应用到蛋白质测序和/或分析,以及用于实现这些的产品、方法和试剂盒。此外,还需要高度平行、准确、灵敏和高通量的蛋白质测序方法,所述方法同时还需要足够温和以避免降解待分析的蛋白质样品中常见的其它材料,如寡核苷酸或多核苷酸。本发明解决了这种需要和相关的需要,并提供了一种更温和、更灵活的埃德曼降解替代方案,用于从多肽上切割或选择性地切割N端氨基酸并鉴定被去除的氨基酸。
参考以下详细描述,本发明的这些方面和其它方面将变得显而易见。为此,本文阐述了各种参考文献,这些参考文献更详细地描述了某些背景信息、程序、化合物和/或组合物,并且各自通过引用整体并入本文
发明内容
发明内容并不旨在用于限制所要求保护的主题的范围。根据包含在附图和所附权利要求书中公开的那些方面的详细描述,所要求保护的主题的其它特征、细节、效用和优点将变得显而易见。
在一方面,本发明提供了一种从任何长度的多肽上切割或选择性地切割N端氨基酸(NTAA)的方法。具体地说,其提供了从式(I)的肽类化合物上切割N端氨基酸残基的方法
Figure BDA0003324885590000031
其中所述方法包括:
(1)将所述肽类化合物转化为式(II)的胍基衍生物:
Figure BDA0003324885590000032
或其互变异构体;以及
(2)使所述胍基衍生物与合适的培养基接触以产生式(III)化合物
Figure BDA0003324885590000033
其中:
R1为R3、NHR3、-NHC(O)-R3或-NH-SO2-R3
R2为H、R4、OH、OR4、NH2或-NHR4
R3为H或选自苯基、5元杂芳基、6元杂芳基、C1-3卤代烷基和C1-6烷基的任选取代的基团,
其中任选的取代基是选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2、CON(R')2、苯基、5元杂芳基、6元杂芳基和C1-6烷基的一个到三个成员,其中所述苯基、5元杂芳基、6元杂芳基和C1-6烷基各自任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代;
其中每个R'独立地为H或C1-3烷基;
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
并且其中位于同一氮上的两个R'或两个R"可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代;
RAA1和RAA2各自独立地为选择的氨基酸侧链;
并且将RAA1和/或RAA2连接到最近的N原子的虚线半圆表示RAA1和/或RAA2可以任选地环化到指定的N原子上;并且
Z为-COOH、CONH2或任选地附着至载剂或固体支持物的氨基酸或多肽。
本文提供了将肽类化合物转化为式(II)化合物的不同方法以及用于这些方法的新试剂。其可以用于由α-氨基酸组成的任何合适的多肽,所述α-氨基酸可以是天然的、合成的或翻译后修饰的。一般而言,本文提供的描述和方法可适用于β氨基酸的修饰、切割、处理和/或接触。例如,异天冬氨酸是生物学相关的β氨基酸,其可以如本文所述被修饰、切割、处理和/或接触。
在另一方面,本发明提供了可用于本文公开的方法中的化合物。例如,本发明提供了式(AB)化合物
Figure BDA0003324885590000041
其中:
R2为H、R4、OH、OR4、NH2或-NHR4
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
环A和环B各自独立地为含有至多三个N原子作为环成员的5元杂芳基环,并且任选地稠合至额外的苯基或5-6元杂芳基环,并且其中所述5元杂芳基环和任选的稠合苯基或5-6元杂芳基环各自任选地被选自C1-4烷基、C1-4烷氧基、-OH、卤代、C1-4卤代烷基、NO2、COOR、CONR2、-SO2R*、-NR2、苯基和5-6元杂芳基的一个或两个基团取代;
其中每个R独立地选自H和任选地被OH、OR*、-NH2、-NHR*或-NR*2取代的C1-3烷基;并且
每个R*为C1-3烷基,其任选地被OH、氧代、C1-2烷氧基或CN取代;
其中位于同一N上的两个R、或两个R"、或两个R*可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
条件是环A和环B并非都是未经取代的咪唑,并且环A和环B并非都是未经取代的苯并三唑;
或其盐。
这些化合物可用于活化NTAA以进一步修饰或从多肽上切割,以及用于本文公开的用于使用这种切割方法分析多肽的方法,包含提供关于所述多肽的氨基酸序列的信息。
在另一方面,本发明提供了式(II)化合物,所述化合物是其中NTAA已被活化用于进一步修饰和/或切割的多肽。这些化合物可用作本文公开的用于对多肽进行分析或测序的某些方法中的中间体,因为它们可以在允许NTAA切割的温和条件下被诱导进行NTAA残基的切割,而不会损坏酸敏感性物质,如样品中可能存在的多核苷酸,并且可以与所述多肽缀合,并且如本文所述用于捕获关于所述多肽的序列的信息。例如,本发明提供了式(II)化合物:
Figure BDA0003324885590000051
或其互变异构体,
其中:
R1为R3、NHR3、-NHC(O)-R3或-NH-SO2-R3
R2为H、R4、OH、OR4、NH2或-NHR4
R3为H或选自苯基、5元杂芳基、6元杂芳基、C1-3卤代烷基和C1-6烷基的任选取代的基团,
其中任选的取代基是选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2、CON(R')2、苯基、5元杂芳基、6元杂芳基和C1-6烷基的一个到三个成员,其中所述苯基、5元杂芳基、6元杂芳基和C1-6烷基各自任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代;
其中每个R'独立地为H或C1-3烷基;
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
其中位于同一N上的两个R'或两个R"可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
RAA1和RAA2各自独立地选自H和任选地被独立地选自-OR5、-N(R5)2、-SR5、-SeR5、-COOR5、CON(R5)2、-NR5-C(=NR5)-N(R5)2、苯基、咪唑基和吲哚基的一个或两个基团取代的C1-6烷基,其中苯基、咪唑基和吲哚基各自任选地被卤代、C1-3烷基、C1-3卤代烷基、-OH、C1-3烷氧基、CN、COOR5或CON(R5)2取代;
每个R5独立地选自H和C1-2烷基;
并且Z为-COOH、CONH2或任选地附着至载剂或表面的氨基酸或多肽;或其盐。
式(II)化合物是本文所述的方法中特别有用的中间体,因为它们在pH约5-10的温和条件下容易在官能化的N端氨基酸(NTAA)处发生内部环化,这导致NTAA的切割。本发明进一步提供了两种在温和条件下制备这些化合物的方法:式(II)化合物的形成和式(II)化合物中NTAA的消除均在不引起核酸降解的温和条件下发生在与多肽相同的培养基中。这对于本文描述的一些方法是重要的,其中所关注的多肽可以与充当记录标签的核酸混合或缀合,以捕获关于在每个步骤被去除的NTAA的信息。
本发明进一步提供了如本文进一步描述的式(IV)的多肽类化合物,所述多肽类化合物是多肽的有用活化形式,其可以在非常温和且具有选择性的条件下制备,并且可以进一步被修饰以在温和条件下进行NTAA消除或切割。例如,本发明提供了式(IV)化合物
Figure BDA0003324885590000071
其中:
R2为H、R4、OH、OR4、NH2或-NHR4
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
其中位于同一N上的两个R"可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
环A为含有至多三个N原子作为环成员的5元杂芳基环,并且任选地稠合至额外的苯基或5-6元杂芳基环,并且其中所述5元杂芳基环和任选的稠合苯基或5-6元杂芳基环各自任选地被选自C1-4烷基、C1-4烷氧基、-OH、卤代、C1-4卤代烷基、NO2、COOR、CONR2、-SO2R*、-NR2、苯基和5-6元杂芳基的一个或两个基团取代;
其中每个R独立地选自H和任选地被OH、OR*、-NH2、-NHR*或-NR*2取代的C1-3烷基;并且
每个R*为C1-3烷基,其任选地被OH、氧代、C1-2烷氧基或CN取代;
其中位于同一N上的两个R、或两个R"、或两个R*可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
RAA1和RAA2各自独立地为选择的氨基酸侧链;
并且将RAA1和/或RAA2连接到最近的N原子的虚线半圆表示RAA1和/或RAA2可以任选地环化到指定的N原子上;并且
Z为-COOH、CONH2或任选地附着至载剂或固体支持物的氨基酸或多肽;
或其盐。
在另一方面,本发明提供了通过从多肽上切割或选择性地切割NTAA来鉴定所述多肽的N端氨基酸的方法。这可以在令人惊讶的温和条件下使用本文的方法来完成,所述温和条件与酸敏感性材料(如多核苷酸)的存在相容。这种特征特别有价值,因为如本文进一步公开的,多核苷酸可以存在于所关注的多肽样品中,并且甚至可以出于各种目的与多肽缀合。例如,本发明提供了一种鉴定式(I)的肽类化合物的N端氨基酸残基的方法:
Figure BDA0003324885590000081
其中所述方法包括:
(1)将式(I)化合物转化为式(II)的胍基衍生物或其互变异构体:
Figure BDA0003324885590000082
其中:
R1为R3、NHR3、-NHC(O)-R3或-NH-SO2-R3
R2为H、R4、OH、OR4、NH2或NHR4
R3为H或选自苯基、5元杂芳基、6元杂芳基、C1-3卤代烷基和C1-6烷基的任选取代的基团,
其中任选的取代基是选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2、CON(R')2、苯基、5元杂芳基、6元杂芳基和C1-6烷基的一个到三个成员,其中所述苯基、5元杂芳基、6元杂芳基和C1-6烷基各自任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代;
其中每个R'独立地为H或C1-3烷基;
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
其中位于同一N上的两个R"可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
RAA1和RAA2各自独立地为选择的氨基酸侧链;
并且将RAA1和/或RAA2连接到最近的N原子的虚线半圆表示RAA1和/或RAA2可以任选地环化到指定的N原子上;并且
并且Z为-COOH、CONH2或任选地附着至载剂或表面的氨基酸或多肽;
(2)使胍基衍生物与合适的培养基接触以诱导消除经修饰的N端氨基酸并产生至少一种选自以下的切割产物:
Figure BDA0003324885590000091
(当R1分别为NHR3、-NHC(O)-R3或-NH-SO2-R3时)
或其互变异构体;以及
(3)确定所述至少一种切割产物的结构或身份以鉴定所述式(I)化合物的N端氨基酸。
在一些方面提供了用于分析多肽的方法,所述方法包括以下步骤:(a)提供任选地与记录标签直接或间接相关的多肽;(b)用本文进一步描述的化学试剂将所述多肽的N端氨基酸(NTAA)官能化;(c)使所述多肽与第一结合剂接触,所述第一结合剂包括能够与官能化的NTAA结合的第一结合部分和(c1)带有关于所述第一结合剂的标识信息的第一编码标签,或(c2)第一可检测标记;以及(d)(d1)将所述第一编码标签的信息转移至所述记录标签以生成延伸型记录标签并分析所述延伸型记录标签,或(d2)检测所述第一可检测标记。在一些实施例中,步骤(a)包括提供所述多肽和连接到支持物(例如,固体支持物)的相关记录标签。
例如,本发明提供了一种用于分析多肽的方法,所述方法包括以下步骤:
(a)提供任选地与记录标签直接或间接相关的多肽;
(b)用化学试剂将所述多肽的N端氨基酸(NTAA)官能化,其中所述化学试剂选自:
(b1)式(AA)化合物:
Figure BDA0003324885590000101
其中:
R2为H或R4
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
其中位于同一N上的两个R"可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
环A为含有至多三个N原子作为环成员的5元杂芳基环,并且任选地稠合至额外的苯基或5-6元杂芳基环,并且其中所述5元杂芳基环和任选的稠合苯基或5-6元杂芳基环各自任选地被选自C1-4烷基、C1-4烷氧基、-OH、卤代、C1-4卤代烷基、NO2、COOR、CONR2、-SO2R*、-NR2、苯基和5-6元杂芳基的一个或两个基团取代;
或环A为含有至多三个N原子作为环成员的5元杂芳基环,并且任选地稠合至额外的苯基或5-6元杂芳基环,并且其中所述5元杂芳基环和任选的稠合苯基或5-6元杂芳基环各自任选地被选自C1-4烷基、C1-4烷氧基、-OH、卤代、C1-4卤代烷基、NO2、COOR、CONR2、-SO2R*、-NR2、B(OR)2、Bpin(硼酰频哪醇酯)、苯基和5-6元杂芳基的一个或两个基团取代;
其中每个R独立地选自H和任选地被OH、OR*、-NH2、-NHR*或-NR*2取代的C1-3烷基;并且
每个R*为C1-3烷基,其任选地被OH、氧代、C1-2烷氧基或CN取代;
其中位于同一N上的两个R或两个R*可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;或
(b2)式R3-NCS的化合物;
其中R3为H或选自苯基、5元杂芳基、6元杂芳基、C1-3卤代烷基和C1-6烷基的任选取代的基团,
其中任选的取代基是选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2、CON(R')2、苯基、5元杂芳基、6元杂芳基和C1-6烷基的一个到三个成员,其中所述苯基、5元杂芳基、6元杂芳基和C1-6烷基各自任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代;
其中每个R'独立地为H或C1-3烷基;
其中位于同一N上的两个R'可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
以提供初始NTAA官能化的多肽;
任选地用式R2-NH2的胺或用二杂亲核试剂处理所述初始NTAA官能化的多肽,以形成二级NTAA官能化的多肽;
并且任选地用合适的培养基处理所述初始NTAA官能化的多肽或所述二级NTAA官能化的多肽,以消除NTAA并形成N端截短的多肽;
(c)使所述多肽与第一结合剂接触,所述第一结合剂包括能够与所述多肽、或所述初始NTAA官能化的多肽、或所述二级NTAA官能化的多肽、或所述N端截短的多肽结合的第一结合部分;以及
(c1)带有关于所述第一结合剂的标识信息的第一编码标签,或
(c2)第一可检测标记;
(d)(d1)将所述第一编码标签的信息(如果存在的话)转移至所述记录标签以生成延伸型记录标签并分析所述延伸型记录标签,或
(d2)检测所述第一可检测标记(如果存在的话)。
在一些实施例中,步骤(a)包括在溶液中提供与相关记录标签连接的多肽。在一些实施例中,步骤(a)包括提供与记录标签间接相关的多肽。在一些实施例中,所述多肽不与步骤(a)中的记录标签相关联。在一个实施例中,所述记录标签和/或所述多肽被配置成直接或间接固定到支持物上。在另外的实施例中,所述记录标签被配置成固定到所述支持物上,从而固定与所述记录标签相关的多肽。在另一个实施例中,所述多肽被配置成固定到所述支持物上,从而固定与所述多肽相关的记录标签。在又一个实施例中,所述记录标签和所述多肽中的每一个被配置成固定到所述支持物上。仍在另一个实施例中,所述记录标签和所述多肽被配置成当两者都固定到所述支持物上时共定位。在一些实施例中,用于在记录标签和结合到多肽的结合剂的编码标签之间转移信息的(i)多肽和(ii)记录标签之间的距离为小于约10-6nm、约10-6nm、约10-5nm、约10-4nm、约0.001nm、约0.01nm、约0.1nm、约0.5nm、约1nm、约2nm、约5nm或大于约5nm,或上述范围之间的任何值。
在另一方面,本发明提供了用于实施本文所述方法的试剂盒。例如,本发明提供了一种用于分析多肽的试剂盒,包含确定所述多肽的NTAA或确定所述多肽的至少一部分氨基酸序列,从N端氨基酸开始。在一方面,本发明提供了这样的试剂盒,其包括:
(a)用于将所述多肽的N端氨基酸(NTAA)官能化的试剂,其中所述试剂包括式(AA)化合物:
Figure BDA0003324885590000121
其中环A选自:
Figure BDA0003324885590000131
Figure BDA0003324885590000132
以及
Figure BDA0003324885590000133
其中:
每个Rx、Ry和Rz独立地选自H、卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#、C(O)N(R#)2,并且苯基任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代,
并且位于环的相邻原子上的两个Rx、Ry或Rz可以任选地一起形成稠合至所述环的苯基、5元杂芳基或6元杂芳基,并且所述稠合的苯基、5元杂芳基或6元杂芳基可以任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代;
其中每个R#独立地为H或C1-2烷基;并且其中位于同一氮上的两个R#可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代;
(b)多种结合剂,每种结合剂包括能够在多肽的NTAA通过与式(AA)化合物反应而被官能化之前或之后结合所述NTAA的结合部分;以及
(b1)带有关于所述结合剂的标识信息的编码标签,或
(b2)可检测标记;以及
(c)用于将所述第一编码标签的信息转移至所述记录标签以生成延伸型记录标签的试剂;以及任选的
(d)用于分析所述延伸型记录标签的试剂或用于检测所述第一可检测标记的试剂。
本文提供了包括结合部分的结合剂,所述结合部分能够结合经修饰的多肽的N端部分,例如,用任何试剂处理的多肽,所述试剂被提供用于将所述多肽的N端氨基酸(NTAA)官能化。在一些方面,提供了包括多种结合剂的试剂盒。
在下面的详细说明和实例中描述了本发明的其它方面和实施例。
附图说明
本专利或申请文件含有至少一幅彩色附图。在请求并支付必要的费用后,官方将会提供带有一幅或多幅彩色附图的本专利或专利申请公开物的副本。
将参考附图通过举例描述本发明的非限制性实施例,附图是示意性的并且不旨在按比例绘制。为了说明的目的,在说明对于本领域的普通技术人员理解本发明来说不是必需的情况下,未在每个附图中标记每个组分,也未示出本发明的每个实施例的每个组分。
图1A展示了图中所示的功能元件的图例。因此,在一个实施例中,本文提供了记录标签或延伸型记录标签,其包括:一个或多个通用引物序列(或一对或多对通用引物序列,例如,在记录标签或延伸型记录标签的5'端的一对通用引物的一个通用引物和3'端的一对通用引物中的另一个通用引物);一个或多个条形码序列,所述条形码序列可以鉴定多个记录标签或延伸型记录标签中的记录标签或延伸型记录标签;一个或多个UMI序列;一个或多个间隔子序列;和/或一个或多个编码器序列(也被称为编码序列,例如,编码标签的编码序列)。在某些实施例中,延伸型记录标签包括(i)一个通用引物序列、一个条形码序列、一个UMI序列和一个间隔子(均来自未延伸的记录标签);(ii)串联排列的一个或多个“盒”,每个盒包括结合剂的编码器序列、UMI序列和间隔子,并且每个盒包括来自编码标签的序列信息;以及(iii)另一个通用引物序列,其可以由第n个结合循环中的编码剂的编码标签提供,其中n是整数,表示此后需要测定读出的结合循环的数量。在一个实施例中,在将通用引物序列引入延伸型重新编码标签之后,结合循环可以继续,延伸型记录标签可以进一步延伸,并且可以引入一个或多个额外的通用引物序列。在所述情况下,可以使用通用引物序列的任何组合来完成延伸型记录标签的扩增和/或测序。图1B展示了将蛋白质代码转导或转化为核酸(例如,DNA)代码的一般概述,其中多个蛋白质或多肽被片段化为多个肽,然后将所述多个肽转化为表示多个肽的延伸型记录标签文库。延伸型记录标签构成了表示肽序列的DNA编码文库(DEL)。可以适当修改文库以在任何下一代测序(NGS)平台上进行测序。
图1C-1D展示了用于记录标签编码的多肽分析的方法的实例。图1C展示了这样一种方法,其中(i)核苷酸-肽缀合物被捕获在固体表面上;(ii)将NTAA用化学试剂(如本文所述的式(AA)或R3-NCS的化合物)官能化;(iii)带有编码标签的识别元件锚定在基底上;(iv)使用延伸将编码标签信息转移至记录标签;并且(v)NTAA被消除。可以对多肽中的多个氨基酸重复步骤(ii)-(v)的循环。图1D展示了这样一种方法,其中(i)核苷酸-肽缀合物被捕获在固体表面上;(ii)带有编码标签的识别元件锚定在基底上;(iii)使用延伸将编码标签信息转移至记录标签;(iv)将NTAA用化学试剂(如本文所述的式(AA)或R3-NCS的化合物)官能化;并且(v)NTAA被消除。可以对多肽中的多个氨基酸重复步骤(ii)-(v)的循环。
图1E-1F展示了使用替代检测方法的多肽分析方法的实例。在图1E中描述的方法中,(i)肽被捕获在固体表面上;(ii)将NTAA用化学试剂(如本文所述的式(AA)或R3-NCS的化合物)官能化;(iii)带有检测元件(如荧光团)的识别元件锚定在基底上;(iv)检测元件被检测到;并且(v)NTAA被消除。可以对多肽中的多个氨基酸重复步骤(ii)-(v)的循环。图1F示出了这样一种方法,其中(i)肽被捕获在固体表面上;(ii)带有检测元件(如荧光团)的识别元件锚定在基底上;(iii)检测元件被检测到;(iv)将NTAA用类似于式I-VII的试剂官能化;并且(v)NTAA被消除。可以对多肽中的多个氨基酸重复步骤(ii)-(v)的循环。
图1G展示了用于核酸筛选的方法。(A)示出了本文详述的核苷酸反应性的固相筛选的实例。将表面锚定的寡核苷酸用化学试剂(如本文所述的式(AA)或R3-NCS的化合物)处理。之后,切割寡核苷酸并进行质量分析。(B)示出了“无反应”(左)和“检测到反应”(右)的图。
图1H展示了使用本文详述的连接元件的记录标签编码的多肽分析的单循环方法的实例。在所述方法中,(i)核苷酸-肽缀合物被捕获在固体表面上;(ii)将NTAA用化学试剂官能化,所述化学试剂包括能够形成共价键的配体,如本文所述的式(AA)-Q的化合物,其中Q是能够(例如,与结合剂)形成共价键的配体;(iii)带有编码标签的识别元件锚定在基底上;(iv)引发反应,自发的或受刺激的,将识别元件连接到多肽上;(v)使用延伸将编码标签信息转移至记录标签;并且(vi)NTAA-识别元件复合物被消除。
图2A-2D展示了根据本文公开的方法的多肽分析的实例,其使用结合剂(例如,抗体、抗运载蛋白(anticalin)、N-识别蛋白(例如,ATP依赖性Clp蛋白酶衔接蛋白(ClpS))、适配子等及其变体/同源物)的多个循环,所述结合剂包括与固定蛋白相互作用的编码标签,所述固定蛋白与单个或多个记录标签共定位或共标记。在此实例中,记录标签由通用引发位点、条形码(例如,分区条形码、隔室条形码和/或级分条形码)、任选的唯一分子标识符(UMI)序列和任选的间隔子序列(Sp)组成,所述间隔子序列用于编码标签和记录标签(或延伸型记录标签)之间的信息转移。间隔子序列(Sp)在所有结合循环中可以是恒定的、是结合剂特异性的,和/或是结合循环数特异性的(例如,用于“计时”结合循环)。在此实例中,编码标签包括提供结合剂(或一类结合剂,例如,一类均与末端氨基酸(如经修饰的N端Q,如图3所示)特异性结合的结合剂)的标识信息的编码器序列、任选的UMI和间隔子序列,所述间隔子序列与记录标签上的互补间隔子序列杂交,从而有助于将编码标签信息转移到记录标签(例如,通过引物延伸,在本文也被称为聚合酶延伸)。连接也可用于转移序列信息,并且在这种情况下,可以使用间隔子序列但不是必需的。
图2A-2D展示了根据本文公开的方法的多肽分析的实例,其使用结合剂(例如,抗体、抗运载蛋白(anticalin)、N-识别蛋白(例如,ATP依赖性Clp蛋白酶衔接蛋白(ClpS))、适配子等及其变体/同源物)的多个循环,所述结合剂包括与固定蛋白相互作用的编码标签,所述固定蛋白与单个或多个记录标签共定位或共标记。在此实例中,记录标签由通用引发位点、条形码(例如,分区条形码、隔室条形码和/或级分条形码)、任选的唯一分子标识符(UMI)序列和任选的间隔子序列(Sp)组成,所述间隔子序列用于编码标签和记录标签(或延伸型记录标签)之间的信息转移。间隔子序列(Sp)在所有结合循环中可以是恒定的、是结合剂特异性的,和/或是结合循环数特异性的(例如,用于“计时”结合循环)。在此实例中,编码标签包括提供结合剂(或一类结合剂,例如,一类均与末端氨基酸(如经修饰的N端Q,如图3所示)特异性结合的结合剂)的标识信息的编码器序列、任选的UMI和间隔子序列,所述间隔子序列与记录标签上的互补间隔子序列杂交,从而有助于将编码标签信息转移到记录标签(例如,通过引物延伸,在本文也被称为聚合酶延伸)。连接也可用于转移序列信息,并且在这种情况下,可以使用间隔子序列但不是必需的。
图2A展示了通过同源结合剂与多肽(如蛋白质或蛋白质复合物)的循环性结合以及从结合剂的编码标签到多肽的记录标签的对应信息转移来创建延伸型记录标签的过程。在一系列连续的结合和编码标签信息转移步骤之后,产生了最终的延伸型记录标签,其含有结合剂编码标签信息,包含为结合剂(例如,抗体1(Ab1)、抗体2(Ab2)、抗体3(Ab3)、……抗体“n”(Abn))提供标识信息的来自“n”个结合循环的编码器序列、来自记录标签的条形码/任选的UMI序列、来自结合剂编码标签的任选的UMI序列,并且在文库构建体的每一端侧接通用引发序列,以便于通过数字下一代测序进行扩增和/或分析。
图2B展示了用带DNA条形码的记录标签标记蛋白质的方案的实例。在顶部图片中,N-羟基琥珀酰亚胺(NHS)是一种胺反应性官能团,而二苯并环辛基(DBCO)是一种应变炔烃,其可用于“点击”偶联到固体基底的表面。在此方案中,记录标签通过NHS部分与蛋白质的赖氨酸(K)残基(和任选的N端氨基酸)的ε胺偶联。在下部图片中,异双功能接头NHS-炔烃用于标记赖氨酸(K)残基的ε胺,以产生炔烃“点击”部分。然后可以通过标准点击化学轻松地将叠氮化物标记的DNA记录标签附着到这些反应性炔基上。此外,DNA记录标签还可以设计有正交甲基四嗪(例如,mTet或pTet)部分,用于通过逆电子需求狄尔斯-阿尔德(iEDDA)反应下游偶联到反式环辛烯(TCO)衍生的测序基底。
图2C展示了使用记录标签的蛋白质分析方法的两个实例。在顶部图片中,多肽通过捕获剂固定在固体支持物上并任选地交联。蛋白质或捕获剂可以共定位或用记录标签标记。在底部图片中,带有相关记录标签的蛋白质直接固定在固体支持物上。
图2D展示了使用同源结合剂的DNA编码和所得延伸型记录标签的测序的简单蛋白质免疫测定的总体工作流程的实例。在循环性结合分析之前,可以通过记录标签对蛋白质进行样品条形编码(即,索引)并合并样品,从而大大提高样品通量并节省结合试剂。这种方法实际上是执行反相蛋白质测定(RPPA)的一种数字化、更简单且更具可延伸性的方法,允许以定量方式同时测量大量生物样品中的蛋白质水平(如表达水平)。
图3A-D展示了通过构建表示多肽序列的延伸型记录标签(例如,DNA序列)进行基于降解的多肽测序测定的过程。这是通过埃德曼降解样方法完成的,所述方法使用循环性过程,如末端氨基酸官能化(例如,N端氨基酸(NTAA)官能化)、编码标签信息转移到附着在多肽上的记录标签、末端氨基酸消除(例如,NTAA消除),并以循环方式重复该过程,例如,全部在固体支持物上。提供了来自肽的N端降解的延伸型记录标签的示例性构建的概述:(A)将多肽的N端氨基酸官能化(例如,用苯基硫代氨基甲酰基(PTC)、二硝基苯基(DNP)、磺酰基硝基苯基(SNP)、乙酰基或胍基部分);(B)示出了结合剂和结合到官能化的NTAA上的相关编码标签;(C)示出了与固体支持物(例如,珠子)结合并与记录标签(例如,通过三功能接头)相关的多肽,其中在结合剂与多肽的NTAA结合时,将编码标签的信息转移到记录标签(例如,通过引物延伸)以生成延伸型记录标签;(D)通过化学或生物(例如,酶促)方式消除官能化的NTAA,以暴露新的NTAA。如箭头所示,循环重复“n”次以生成最终的延伸型记录标签。最终的延伸型记录标签任选地侧接通用引发位点,以促进下游扩增和/或DNA测序。正向通用引发位点(例如,Illumina的P5-S1序列)可以是初始记录标签设计的一部分,而反向通用引发位点(例如,Illumina的P7-S2'序列)可以作为记录标签延伸的最后一步添加。可以独立于结合剂进行所述最后一步。在一些实施例中,基于降解的肽多肽测序测定的过程中步骤的顺序可以颠倒或移动。例如,在一些实施例中,步骤(A)的末端氨基酸官能化可以在多肽与结合剂和/或相关的编码标签结合(步骤(B))之后进行。在一些实施例中,步骤(A)的末端氨基酸官能化可以在多肽结合支持物(步骤(C))之后进行。
图4A-B展示了根据本文公开的方法的示例性蛋白质测序工作流程。图4A展示了具有以浅灰色虚线勾勒出的替代模式的示例性工作流程,在由箭头链接的框中示出了特定实施例。工作流每个步骤的替代模式显示在箭头下方的框中。图4B展示了进行循环性结合和编码标签信息转移步骤以提高信息转移效率的选项。每个分子可以采用多个记录标签。此外,对于给定的结合事件,可以多次进行编码标签信息到记录标签的转移,或者可替代地,可以采用表面扩增步骤来创建延伸型记录标签文库的拷贝等。
图5A-B展示了使用引物延伸将结合剂的编码标签的标识信息转移到与多肽相关的记录标签以生成延伸型记录标签的延伸型记录标签的示例性构建的概述。包括带有关于结合剂的标识信息的唯一编码器序列的编码标签任选地在每端侧接共同间隔子序列(Sp')。图5A展示了NTAA结合剂,其包括与多肽的NTAA结合的编码标签,所述多肽用记录标签标记并与珠子连接。记录标签通过互补间隔子序列退火至编码标签(Sp退火至Sp'),并且引物延伸反应介导使用间隔子(Sp)作为引发位点将编码标签信息转移到记录标签。编码标签被图示为双链体,其在结合剂远端的末端有一个单链间隔子(Sp')序列。这种配置最大限度地减少了编码标签与记录标签中的内部位点的杂交,并有利于记录标签的末端间隔子(Sp)序列与编码标签的单链间隔子悬垂(Sp')杂交。此外,延伸型记录标签可以与一种或多种寡核苷酸(例如,与编码器和/或间隔子序列互补的寡核苷酸)预退火,以阻断编码标签与内部记录标签序列元件的杂交。图5B示出了在“n”个结合循环(“***”表示未在延伸型记录标签中示出的居间结合循环)后产生的最终延伸型记录标签以及编码标签信息的转移和在3'端的通用引发位点添加。
图6展示了通过酶促连接将编码标签信息转移到延伸型记录标签。示出了两种不同的多肽及其各自的记录标签,与记录标签延伸并行进行。可以通过设计双链编码标签来促进连接,使得间隔子序列(Sp')在与记录标签上的互补间隔子(Sp)退火的一条链上具有“粘性末端”悬垂。双链编码标签的互补链在与记录标签连接后将信息转移至记录标签。互补链可以包括另一个间隔子序列,其可与连接前的记录标签的Sp相同或不同。当使用连接来延伸记录标签时,延伸的方向可以是5'到3',如图所示,或任选的3'到5'。
图7展示了通过化学连接将编码标签信息转移到记录标签以将记录标签或延伸型记录标签的3'核苷酸连接到编码标签的5'核苷酸(或其补体)而不将间隔子序列插入到延伸型记录标签中的“无间隔子”方法。延伸型记录标签和编码标签的朝向也可以颠倒,使得记录标签的5'端连接到编码标签(或补体)的3'端。在所示的实例中,记录标签(“记录辅助”)上的互补“辅助”寡核苷酸序列与编码标签之间的杂交用于稳定复合物,以实现记录标签与编码标签互补链的特异性化学连接。所得的延伸型记录标签没有间隔子序列。还展示了化学连接的“点击化学”形式(例如,使用叠氮化物和炔烃部分(显示为三线符号)),其可以采用DNA、PNA或类似的核酸聚合物。
图8A-B展示了在N端氨基酸降解之前将肽的翻译后修饰(PTM)信息写入延伸型记录标签中的示例性方法。图8A:包括带有关于结合剂的标识信息的编码标签的结合剂(例如,包括带有磷酸酪氨酸抗体标识信息的编码标签的磷酸酪氨酸抗体)能够与肽结合。如果磷酸酪氨酸存在于记录标签标记的肽中,如图所示,则在磷酸酪氨酸抗体与磷酸酪氨酸结合时,编码标签和记录标签通过互补间隔子序列退火,并且编码标签信息被转移到记录标签以生成延伸型记录标签。图8B:延伸型记录标签可以包括肽的初级氨基酸序列(例如,“aa1”、“aa2”、“aa3”、……、“aaN”)和翻译后修饰(例如,“PTM1”、“PTM2”)的编码标签信息。
图9A-B展示了结合剂与多肽结合的多个循环的过程,以及将附着于结合剂的编码标签的信息转移至多个记录标签中的单个记录标签的过程,例如,所述多个记录标签共定位于附着于固体支持物(例如,珠子)的单个多肽的位点,从而生成共同表示多肽信息(例如,样品中存在或不存在、水平或量、结合物文库的结合概况、活性或反应性、氨基酸序列、翻译后修饰、样品来源或其任何组合)的多个延伸型记录标签。在此附图中,仅出于举例的目的,每个循环涉及将结合剂与多肽的N端氨基酸(NTAA)结合,通过将编码标签信息转移到记录标签来记录结合事件,然后去除NTAA以暴露新的NTAA。图9A展示了在固体支持物上的多个记录标签(例如,包括通用正向引发序列和UMI),其可用于与多肽结合的结合剂。单个记录标签具有与结合剂的编码标签内的共同间隔子序列互补的共同间隔子序列(Sp),其可用于引发延伸反应以将编码标签信息转移到记录标签。例如,多个记录标签可以与支持物上的多肽共定位,并且所述记录标签中的一些记录标签可能比其它记录标签更靠近分析物。在一方面,可以控制相对于支持物上的多肽密度的记录标签的密度,使得统计上每个多肽将具有多个记录标签(例如,至少约两个、约五个、约十个、约20个、约50个、约100个、约200个、约500个、约1000个、约2000个、约5000个或更多个),其可用于与该多肽结合的结合剂。这种模式对于分析样品中的低丰度蛋白质或多肽特别有用。尽管图9A显示不同的记录标签在循环1-3的每个循环中被延伸(例如,结合剂中的循环特异性条形码或在每个结合/反应循环中单独添加的循环特异性条形码可用于“计时”结合/反应),设想的是,延伸型记录标签可以在任何一个或多个后续结合循环中被进一步延伸,并且所得延伸型记录标签池可以是仅延伸一次、延伸两次、延伸三次或延伸更多次的记录标签的混合。
图9B展示了用于每个连续结合循环的循环特异性NTAA结合剂的不同池,每个池具有循环特异性序列,如循环特异性间隔子序列。可替代地,循环特异性序列可以在与结合剂分开的试剂中提供。
图10A-C展示了一种示例性模式,其包括将附着于结合剂的编码标签的信息转移至多个记录标签中的记录标签的多个循环,所述多个记录标签共定位于附着于固体支持物(例如,珠子)的单个多肽的位点,从而生成共同表示多肽的多个延伸型记录标签。在此附图中,仅出于举例的目的,多肽是肽并且每轮加工涉及与NTAA结合,记录结合事件,随后去除NTAA以暴露新的NTAA。图10A展示了与多肽共定位在固体支持物上的多个记录标签(包括通用正向引发序列和UMI),优选地,每个珠子有单分子。单个记录标签在其3'端具有不同的间隔子序列,具有不同的“循环特异性”序列(例如,C1、C2、C3...Cn)。优选地,每个珠子上的记录标签共享相同的UMI序列。在第一个结合循环(循环1)中,多种NTAA结合剂与多肽接触。循环1中使用的结合剂具有共同的5'-间隔子序列(C'1),其与记录标签的循环1C1间隔子序列互补。循环1中使用的结合剂还具有与循环2间隔子C2互补的3'-间隔子序列(C'2)。在结合循环1中,第一NTAA结合剂与多肽的游离N端结合,并且第一编码标签的信息通过引物延伸从与互补C'1间隔子序列杂交的C1序列转移到同源记录标签。在去除NTAA以暴露新的NTAA之后,结合循环2使多个NTAA结合剂与多肽接触,这些结合剂具有与循环1结合剂的3'-间隔子序列相同的循环2 5'-间隔子序列(C'2)和共同的循环3 3'-间隔子序列(C'3)。第二NTAA结合剂与多肽的NTAA结合,并且第二编码标签的信息通过引物延伸从互补的C2和C'2间隔子序列转移到同源记录标签。这些循环重复至“n”个结合循环,其中最后一个延伸型记录标签被通用反向引发序列封端,从而生成与单个多肽共定位的多个延伸型记录标签,其中每个延伸型记录标签具有来自一个结合循环的编码标签信息。由于在每个连续结合循环中使用的每个结合剂集合在编码标签中都具有循环特异性间隔子序列,所以结合循环信息可以与所得延伸型记录标签中的结合剂信息相关联。图10B展示了用于每个连续结合循环的循环特异性结合剂的不同池,每个池具有循环特异性间隔子序列。图10C展示了如何使用循环特异性间隔子序列基于延伸型记录标签的PCR组装以序列顺序组装延伸型记录标签的集合(例如,所述延伸型记录标签共定位在多肽位点),从而提供多肽的有序序列。在一些实施例中,在连接之前通过扩增生成每个延伸型记录标签的多个拷贝。
图11A-B展示了从记录标签到编码标签或双标签构建体的信息转移。(A)和(B)中展示了两种记录结合信息的方法。结合剂可以是本文所述的任何类型的结合剂;仅出于说明性目的示出了抗磷酸酪氨酸结合剂。对于延伸型编码标签或双标签构建,并非将结合信息从编码标签转移到记录标签,而是将信息从记录标签转移到编码标签以生成延伸型编码标签(图11A),或将信息从记录标签和编码标签转移到第三个形成双标签的构建体(图11B)。双标签和延伸型编码标签包括记录标签(含有条形码、任选的UMI序列和任选的隔室标签(CT)序列(未示出))和编码标签的信息。可以将双标签和延伸型编码标签从记录标签中洗脱、收集、并任选地在下一代测序仪上扩增和读出。
图12A-D展示了结合事件的PNA组合性条形码/UMI记录标签和双标签检测的设计。在图12A中,展示了通过四个基本PNA字符序列(A、A'-B、B'-C和C')的化学连接构建组合性PNA条形码/UMI。包含了杂交DNA臂,以创建无间隔子的组合性模板,用于PNA条形码/UMI的组合性组装。化学连接用于将退火的PNA“字符”缝合在一起。图12B示出了将记录标签的PNA信息转移到DNA中间体的方法。DNA中间体能够将信息转移到编码标签。即,将互补的DNA字符序列退火至PNA,并进行化学连接(如果发现使用PNA模板的连接酶,则任选地进行酶促连接)。在图12C中,DNA中间体被设计为通过间隔子序列Sp与编码标签相互作用。链置换引物延伸步骤置换连接的DNA,并将记录标签信息从DNA中间体转移到编码标签,以生成延伸型编码标签。可以将终止子核苷酸并入DNA中间体的末端以防止编码标签信息通过引物延伸转移到DNA中间体。图12D:可替代地,可以将信息从编码标签转移到DNA中间体以生成双标签构建体。可以将终止子核苷酸并入编码标签的末端以防止记录标签信息从DNA中间体转移到编码标签。
图13A-E展示了在隔室条形码珠上的蛋白质组划分,以及随后通过乳液融合PCR组装双标签以生成表示肽序列组成的元件文库。肽的氨基酸含量可随后通过N端测序或可替代地通过氨基酸特异性化学标记或与编码标签相关联的结合剂的连接(共价或非共价)来表征。编码标签包括通用引发序列,以及用于氨基酸身份的编码器序列、隔室标签和氨基酸UMI。信息转移后,将双标签通过记录标签UMI映射回原始分子。在图13A中,蛋白质组被划分为具有条形码珠的液滴。带有相关记录标签(包括隔室条形码信息)的肽附着在珠子表面。破坏液滴乳液,从而释放出带有经划分的肽的条形码珠。在图13B中,将肽上的特定氨基酸残基用与位点特异性标记部分缀合的DNA编码标签进行化学标记。DNA编码标签包括氨基酸条形码信息和任选的氨基酸UMI。图13C:将标记的肽-记录标签复合物从珠子中释放出来。图13D:将标记的肽-记录标签复合物乳化成纳米或微乳液,使得每个隔室平均有少于一个肽-记录标签复合物。图13E:乳液融合PCR将记录标签信息(例如,隔室条形码)转移到所有附着在氨基酸残基上的DNA编码标签。
图14展示了由乳化的肽记录标签-编码标签复合物生成延伸型编码标签。将来自图13C的肽复合物与PCR试剂共乳化成液滴,每个液滴平均有一个肽复合物。使用三引物融合PCR方法扩增与肽相关的记录标签,将扩增的记录标签与多个结合剂编码标签或共价标记的氨基酸的编码标签融合,通过引物延伸延伸编码标签以将肽UMI和隔室标签信息从记录标签转移到编码标签,并扩增得到的延伸型编码标签。每个液滴有多个延伸型编码标签种类,存在针对每个氨基酸编码器序列-UMI编码标签的不同种类。以这种方式,可以确定肽内氨基酸的身份和计数。U1通用引物和Sp引物被设计成具有比U2tr通用引物更高的熔解Tm。这使得两步PCR成为可能,其中在较高的退火温度下进行前几个循环以扩增记录标签,然后逐步降低Tm,使得记录标签和编码标签在PCR期间彼此引发以产生延伸型编码标签,并且使用U1和U2tr通用引物引发所得延伸型编码标签产物的扩增。在某些实施例中,可以通过使用光不稳定的3'封闭基团来防止来自U2tr引物的过早聚合酶延伸(Young等人,2008,《化学通讯(Chem.Commun.)》(Camb)4:462-464)。在第一轮PCR扩增记录标签和第二轮融合PCR步骤(其中编码标签Sptr引发编码标签在记录标签的扩增的Sp'序列上的延伸)之后,去除U2tr的3'封闭基团,并启动更高温度的PCR以使用U1和U2tr引物扩增延伸型编码标签。
图15展示了使用蛋白质组划分和条形编码促进蛋白质的增强的可映射性和定相。在多肽测序中,蛋白质通常被消化成肽。在这个过程中,关于源自亲本蛋白质分子的单个多肽之间的关系以及它们与亲本蛋白质分子的关系的信息丢失。为了重建此信息,将单个肽序列映射回它们可能源自的蛋白质序列集合。对于短和/或部分肽序列,并且随着集合的大小和复杂性(例如,蛋白质组序列复杂性)增加,在这样的集合中找到唯一匹配的任务变得更加困难。将蛋白质组划分到带条形码(例如,带隔室标签)的隔室或分区中,随后将蛋白质消化成肽,以及将隔室标签与肽连接,减少了肽序列需要映射到的“蛋白质”空间,从而大大简化了复杂蛋白质样品情况下的任务。在蛋白质消化成肽之前用唯一分子标识符(UMI)标记蛋白质有助于将肽映射回原始蛋白质分子,并允许对源自同一蛋白质分子的翻译后修饰(PTM)变体之间的定相信息进行注释,并鉴定单个蛋白质型。图15A示出了蛋白质组划分的实例,其包括用包括分区条形码的记录标签标记蛋白质,并随后将其片段化成记录标签标记的肽。图15B:对于部分肽序列信息或甚至只是组成信息,这种映射是高度简并的。然而,部分肽序列或组成信息与来自同一蛋白质的多个肽的信息相结合,允许对原始蛋白质分子进行唯一鉴定。
图16展示了带隔室标签的珠子序列设计的示例性模式。隔室标签包括用于鉴定单个隔室的X5-20条形码和用于鉴定隔室标签连接的肽的N5-10唯一分子标识符(UMI),其中X和N表示简并核碱基或核碱基字符(例如,SEQ ID NO:137)。隔室标签可以是单链(上图)或双链(下图)。任选地,隔室标签可以是包括肽序列的嵌合分子,所述肽序列具有用于连接所关注的肽的蛋白质连接酶(例如,蝶豆粘酶(butelase)I;CGSNVH;SEQ ID NO:138)的识别序列(左图)。可替代地,可以在隔室标签上包含化学部分,用于偶联所关注的肽(例如,如右图所示的叠氮化物)。
图17A-B展示了:(A)表示多个肽的多个延伸型记录标签;以及(B)通过标准杂交捕获技术富集靶标肽的示例性方法。例如,杂交捕获富集可以使用一种或多种生物素化的“诱饵”寡核苷酸,其与表示所关注的一种或多种肽(“靶标肽”)的延伸型记录标签杂交,所述延伸型记录标签来自表示肽文库的延伸型记录标签文库。诱饵寡核苷酸:靶标延伸型记录标签杂交对在杂交后通过生物素标签从溶液中下拉,以生成表示所关注的一种或多种肽的延伸型记录标签的富集级分。例如,可以使用链霉亲和素包被的磁珠实现延伸型记录标签的分离(“下拉”)。生物素部分与珠子上的链霉亲和素结合,通过在去除或交换溶液的同时使用磁铁定位珠子来实现分离。可以任选地在杂交捕获测定的杂交步骤中包含与表示不需要的或过量的肽的延伸型记录标签竞争性杂交的非生物素化的竞争剂富集寡核苷酸,以调节富集的靶标肽的量。非生物素化的竞争剂寡核苷酸竞争与靶标肽的杂交,但由于缺少生物素部分,在捕获步骤期间未捕获杂交双链体。因此,可以通过在大动态范围内调整竞争剂寡核苷酸与生物素化的“诱饵”寡核苷酸的比率来调节富集的延伸型记录标签级分。这一步对于解决样品内蛋白质丰度的动态范围问题很重要。
图18A-B展示了将单个细胞和大量蛋白质组划分到单独液滴中的示例性方法,每个液滴包括珠子,所述珠子具有多个附着于其上的隔室标签以将肽与其来源的蛋白质复合物相关联,或与源自单个细胞的蛋白质相关联。隔室标签包括条形码。液滴形成后液滴成分的操作:(A)将单个细胞划分到单个液滴中,然后进行细胞裂解以释放细胞蛋白质组,并通过蛋白质水解将细胞蛋白质组消化成肽,并在充分的蛋白质水解后使蛋白酶失活;(B)将大量蛋白质组划分到多个液滴中,其中单个液滴包括蛋白质复合物,然后进行蛋白质水解以将蛋白质复合物消化成肽,并在充分的蛋白质水解后使蛋白酶失活。在光笼中的二价阳离子光释放以使蛋白酶活化之后,热不稳定的金属蛋白酶可用于将封装的蛋白质消化成肽。可以将蛋白酶在充分的蛋白水解后热灭活,或者可以螯合二价阳离子。液滴含有杂交或可释放的隔室标签,其包括能够连接到肽的N端或C端氨基酸的核酸条形码(与记录标签分开)。
图19A-B展示了将单个细胞和大量蛋白质组划分到单独液滴中的示例性方法,每个液滴包括具有多个双功能记录标签的珠子,隔室标签附着于所述珠子上以将肽与其来源的蛋白质或蛋白质复合物相关联,或将蛋白质与来源的单个细胞相关联。液滴形成后液滴成分的操作:(A)将单个细胞划分到单个液滴中,然后进行细胞裂解以释放细胞蛋白质组,并通过蛋白质水解将细胞蛋白质组消化成肽,并在充分的蛋白质水解后使蛋白酶失活;(B)将大量蛋白质组划分到多个液滴中,其中单个液滴包括蛋白质复合物,然后进行蛋白质水解以将蛋白质复合物消化成肽,并在充分的蛋白质水解后使蛋白酶失活。在光笼中的二价阳离子(例如,Zn2+)光释放之后,热不稳定的金属蛋白酶可用于将封装的蛋白质消化成肽。可以将蛋白酶在充分的蛋白水解后热灭活,或者可以螯合二价阳离子。液滴含有杂交或可释放的隔室标签,其包括能够连接到肽的N端或C端氨基酸的核酸条形码(与记录标签分开)。
图20A-L展示了附着于肽的带隔室条形码的记录标签的生成。隔室条形编码技术(例如,微流体液滴中的条形码珠等)可用于将隔室特异性条形码转移到封装在特定隔室内的分子内容物。(A)在特定的实施例中,将蛋白质分子变性,并将赖氨酸残基(K)的ε-胺基团与活化的通用DNA标签分子(包括通用引发序列(U1),如5'端的NHS部分所示)化学缀合。在通用DNA标签与多肽缀合后,去除多余的通用DNA标签。(B)将带通用DNA标签的多肽与结合至珠子的核酸分子杂交,其中与单个珠子结合的核酸分子包括唯一的隔室标签(条形码)序列群。通过将样品分成不同的物理隔室,如液滴(由虚线椭圆表示),可以发生隔室化。可替代地,隔室化可以通过将标记的多肽固定在珠子表面上直接完成,例如,通过将多肽上的通用DNA标签退火至珠子上的隔室DNA标签,而不需要额外的物理分离。单个多肽分子仅与单个珠子相互作用(例如,单个多肽不跨越多个珠子)。然而,多种多肽可以与同一个珠子相互作用。除了隔室条形码序列(BC)外,与珠子结合的核酸分子还可以由共同Sp(间隔子)序列、唯一分子标识符(UMI)和与多肽DNA标签互补的序列U1'组成。(C)在带通用DNA标签的多肽退火至与珠子结合的隔室标签后,隔室标签通过附着接头的切割从珠子中释放出来。(D)使用源自珠子的隔室标签核酸分子作为模板通过基于聚合酶的引物延伸对退火的U1 DNA标签引物进行延伸。引物延伸步骤可以在隔室标签从珠子上释放后进行,如(C)所示,或者任选地,在隔室标签仍然附着在珠子上时进行(未示出)。这有效地将来自珠子上的隔室标签的条形码序列写入多肽上的U1 DNA-标签序列。这个新序列构成了记录标签。引物延伸后,使用蛋白酶,例如Lys-C(在赖氨酸残基的C端切割)、Glu-C(在谷氨酸残基的C端切割和谷氨酸残基的较低程度)或如蛋白酶K等随机蛋白酶,将多肽切割成肽片段。(E)将每个肽片段用延伸型DNA标签序列标记,所述序列在其C端赖氨酸上构成记录标签,用于本文公开的下游肽测序。(F)将带记录标签的肽通过应变炔烃标记DBCO与叠氮化物珠子偶联。叠氮化物珠子任选地还含有与记录标签互补的捕获序列,以促进DBCO-叠氮化物固定的效率。应注意的是,将肽从原始珠子中去除并重新固定到新的固体支持物(例如,珠子)上允许肽之间的最佳分子间间距以促进如本文公开的肽测序方法。图20G-L展示了与图20A-F中所示的概念相似的概念,不同之处在于,使用DNA标签与炔烃预标记的多肽的点击化学偶联(如图2B中所述)。叠氮化物和mTet化学是正交的,从而允许与DNA标签的点击缀合和与测序基底的点击iEDDA缀合(mTet和TCO)。
图21展示了使用流动聚焦T形接头用珠子进行单个细胞和带隔室标签(例如,条形码)隔室化的示例性方法。通过两种水流,可以在液滴形成时轻松启动细胞裂解和蛋白酶活化(Zn2+混合)。
图22A-B展示了示例性标签化细节。(A)使用蝶豆粘酶I的肽连接将隔室标签(DNA肽嵌合体)附着到肽上。(B)在肽测序开始之前将隔室标签信息转移到相关的记录标签。任选地,在将信息转移到记录标签之后,可以使用内肽酶AspN切割隔室标签,所述内肽酶选择性地将肽键N端切割为天冬氨酸残基。
图23A-C:用于组织切片的基于空间蛋白质组学的分析的基于阵列的条形码。(A)将一组空间编码的DNA条形码(由BCij表示的特征条形码)与组织切片(FFPE或冷冻)相结合。在一个实施例中,组织切片是固定的和透化的。在一些实施例中,阵列特征尺寸小于细胞尺寸(对于人类细胞为~10μm)。(B)将阵列安装的组织切片用试剂处理以逆转交联(例如,使用柠康酸酐的抗原修复方案(Namimatsu、Ghazizadeh等人,2005年),然后用位点反应性DNA标记其中的蛋白质,所述方案有效地用DNA记录标签标记所有蛋白质分子(例如,赖氨酸标记,在抗原修复后释放)。标记和洗涤后,阵列结合的DNA条形码序列被切割并允许扩散到安装的组织切片中并与附着在其中的蛋白质上的DNA记录标签杂交。(C)现在对阵列安装的组织进行聚合酶延伸,以将杂交的条形码的信息转移到标记蛋白质的DNA记录标签上。在转移条形码信息后,将阵列安装的组织从载玻片上刮下,任选地用蛋白酶消化,并将蛋白质或肽提取到溶液中。
图24A-B展示了两种不同的示例性DNA靶标多肽(AB和CD),它们被固定在珠子上并通过附着在编码标签上的结合剂进行测定。该模型系统用于说明编码标签从结合剂转移到近端报告标签的单分子行为。在一些实施例中,编码标签通过引物延伸并入延伸型重新编码标签中。图24A展示了AB多肽与A特异性结合剂(“A'”,与AB多肽的“A”组分互补的寡核苷酸序列)的相互作用和相关编码标签的信息通过引物延伸向记录标签的转移,以及与B特异性结合剂(“B'”,与AB多肽的“B”组分互补的寡核苷酸序列)的相互作用和相关编码标签的信息通过引物延伸向重新编码标签的转移。编码标签A和B的序列不同,为了便于识别,本图中的编码标签长度也不同。不同的长度有助于通过凝胶电泳分析编码标签转移,但其并不是不是下一代测序分析所必需的。A'和B'结合剂的结合被图示为单个结合循环的替代可能性。如果添加第二个循环,则延伸型记录标签将被进一步延伸。根据在第一个和第二个循环中添加A'或B'结合剂中的哪一种结合剂,延伸型记录标签可以含有AA、AB、BA和BB形式的编码标签信息。因此,延伸型记录标签含有关于结合事件顺序以及结合剂身份的信息。类似地,图24B展示了CD多肽与C特异性结合剂(“C'”,与CD多肽的“C”组分互补的寡核苷酸序列)的相互作用和相关编码标签的信息通过引物延伸向记录标签的转移,以及与D特异性结合剂(“D'”,与CD多肽的“D”组分互补的寡核苷酸序列)的相互作用和相关编码标签的信息通过引物延伸向记录标签的转移。编码标签C和D的序列不同,为了便于识别,本图中的编码标签长度也不同。不同的长度有助于通过凝胶电泳分析编码标签转移,但其并不是不是下一代测序分析所必需的。C'和D'结合剂的结合被图示为单个结合循环的替代可能性。如果添加第二个循环,则延伸型记录标签将被进一步延伸。根据在第一个和第二个循环中添加C'或D'结合剂中的哪一种结合剂,延伸型记录标签可以含有CC、CD、DC和DD形式的编码标签信息。编码标签可以任选地包括UMI。在编码标签中包含UMI允许记录有关结合事件的额外信息;其允许在单个结合剂水平下区分结合事件。如果单个结合剂可以参与多于一个结合事件(例如,所述单个结合剂的结合亲和力使得它可以足够频繁地脱离和重新结合以参与多于一个事件),则这可能是有用的。其也可用于纠错。例如,在某些情况下,编码标签可能会在同一个结合循环中两次或多次将信息转移到记录标签。使用UMI将揭示这些可能是重复的信息转移事件,所有这些事件都与单个结合事件相关联。
图25展示了示例性的DNA靶标多肽(AB),并被固定在珠子上并通过附着在编码标签上的结合剂进行测定。A特异性结合剂(“A'”,与AB多肽的A组分互补的寡核苷酸)与AB多肽相互作用,标签相关编码标签的信息通过连接转移到记录标签。B特异性结合剂(“B'”,与AB多肽的B组分互补的寡核苷酸)与AB多肽相互作用,标签相关编码标签的信息通过连接转移到记录标签。编码标签A和B的序列不同,为了便于识别,本图中的编码标签长度也不同。不同的长度有助于通过凝胶电泳分析编码标签转移,但其并不是不是下一代测序分析所必需的。
图26A-B展示了用于通过引物延伸进行结合/编码标签转移的示例性DNA-肽多肽。图26A展示了固定在珠子上的示例性寡核苷酸-肽靶标多肽(“A”寡核苷酸-cMyc肽)。cMyc特异性结合剂(例如抗体)与多肽的cMyc肽部分相互作用,并且相关编码标签的信息被转移到记录标签。可以通过凝胶电泳分析cMyc编码标签的信息向记录标签的转移。图26B展示了固定在珠子上的示例性寡核苷酸-肽靶标多肽(“C”寡核苷酸-血凝素(HA)肽)。HA特异性结合剂(例如抗体)与多肽的HA肽部分相互作用,并且相关编码标签的信息被转移到记录标签。可以通过凝胶电泳分析编码标签的信息向记录标签的转移。cMyc抗体-编码标签和HA抗体-编码标签的结合被图示为单个结合循环的替代可能性。如果执行第二个结合循环,则延伸型记录标签将被进一步延伸。根据在第一个和第二个结合循环中添加cMyc抗体-编码标签或HA抗体-编码标签中的哪一个,延伸型记录标签可以含有cMyc-HA、HA-cMyc、cMyc-cMyc和HA-HA形式的编码标签信息。尽管未图示,也可引入额外的结合剂以实现对多肽的A和C寡核苷酸组分的检测。因此,可以通过将信息转移到记录标签和读出延伸型记录标签来分析包括不同类型主链的杂合多肽,所述延伸型记录标签含有关于结合事件顺序以及结合剂身份的信息。
图27A-B展示了用于生成纠错条形码的实例。(A)使用命令参数[create.dnabarcodes(n=15,dist=10)]从源自R软件包“DNABarcodes”(https://bioconductor.riken.jp/packages/3.3/bioc/manuals/DNABarcodes/man/DNABarcodes.pdf)的77个条形码的集合中选择65个纠错条形码的子集(SEQ ID NO:1-65,表1)。该算法生成15聚体的“汉明(Hamming)”条形码,其可以将替换错误纠正到四个替换的距离,并检测出九个替换的错误。65个条形码的子集是通过过滤掉没有表现出各种纳米孔电流水平(对于基于纳米孔的测序)或与该集合中其它成员过于相关的条形码而创建的。(B)穿过孔的15聚体条形码的预测纳米孔电流水平的绘图。预测的电流是通过以下步骤计算的:将每个15聚体条形码字符拆分为11个重叠的5聚体字符的复合集,并使用5聚体R9纳米孔电流水平查找表(template_median68pA.5mers.model(https://github.com/jts/nanopolish/tree/master/etc/r9-models)来预测条形码穿过纳米孔时的对应电流水平,一次一个碱基。从(B)中可以看出,所述65个条形码的集合针对其每个成员展示出唯一的电流特征信息(current signature)。
Figure BDA0003324885590000281
图27C:示出了使用重叠的DTR和DTR引物集合生成PCR产物作为用于纳米孔测序的模型延伸型记录标签。然后连接PCR扩增子以形成连接的延伸型记录标签模型。图27D:如图27C所示生成示例性“延伸型记录标签”模型的纳米孔测序读段(读取长度为734个碱基;SEQID NO:168)。MinIon R9.4 Read的质量得分为7.2(读取质量差)。然而,即使读取质量较差(Qscore=7.2),也可以使用lalign轻松鉴定条形码序列。下划线为15聚体间隔子元件。条形码可以按正向或反向朝向对齐,由BC或BC'名称表示(BC 9–SEQ ID NO:9;BC 1'–SEQ IDNO:66;BC 11'–SEQ ID NO:76;BC 4–SEQ ID NO:4;BC 1–SEQ ID NO:1;BC 12–SEQ ID NO:12;BC 2–SEQ ID NO:2;BC 11–SEQ ID NO:11)。
图28A-D展示了用记录标签对蛋白质进行分析物特异性标记的实例。(A)靶向呈天然构象的所关注蛋白质分析物的结合剂包括分析物特异性条形码(BCA'),所述分析物特异性条形码与DNA记录标签上的互补分析物特异性条形码(BCA)杂交。可替代地,可以通过可切割接头将DNA记录标签附着到结合剂,然后将DNA记录标签直接“点击”到蛋白质上,并从结合剂上切割下来(通过可切割接头)。DNA记录标签包括反应性偶联部分(如点击化学试剂(例如叠氮化物、mTet等),用于与所关注的蛋白质和其它功能性组分(例如,通用引发序列(P1)、样品条形码(BCS)、分析物特异性条形码(BCA)和间隔子序列(Sp))偶联。样品条形码(BCS)也可用于标记和区分来自不同样品的蛋白质。DNA记录标签还可以包括正交偶联部分(例如,mTet),用于随后与基底表面偶联。对于记录标签与所关注蛋白质的点击化学偶联,用DNA记录标签上的点击化学偶联部分的点击化学偶联部分同源物(例如,蛋白质上的炔烃部分与DNA记录标签上的叠氮化物部分同源)预先标记蛋白质。用于用偶联部分标记DNA记录标签以进行点击化学偶联的试剂的实例包含用于赖氨酸标记的炔烃-NHS试剂,用于光亲和标记的炔烃-二苯甲酮试剂等。(B)在结合剂与近端靶蛋白结合后,记录标签上的反应性偶联部分(例如,叠氮化物)共价附着到近端蛋白质上的同源点击化学偶联部分(示出为三线符号)。(C)在用记录标签标记靶标蛋白质分析物后,通过使用尿嘧啶特异性切除试剂(例如,USERTM)消化尿嘧啶(U)来去除附着的结合剂。(D)使用合适的生物缀合化学反应,如点击化学(炔烃-叠氮化物结合对、甲基四嗪(mTET)-反式环辛烯(TCO)结合对等),将DNA记录标签标记的靶标蛋白质分析物固定到基底表面。在某些实施例中,使用结合剂池和记录标签池在包括许多不同的靶标蛋白质分析物的单个试管中进行整个靶蛋白-记录标签标记测定。在使用包括样品条形码(BCS)的记录标签对样品内的蛋白质分析物进行靶向标记后,可以在(D)中的固定步骤之前合并多个蛋白质分析物样品。因此,在某些实施例中,数百个样品中多达数千种蛋白质分析物可以在单管下一代蛋白质测定(NGPA)中进行标记和固定,从而大大节省了昂贵的亲和试剂(例如,抗体)。
图29A-E展示了DNA记录标签与多肽缀合的实例。(A)将变性的多肽用双功能点击化学试剂(如炔烃-NHS酯(乙炔-PEG-NHS酯)试剂或炔烃-二苯甲酮)标记,以生成炔烃标记的(三线符号)多肽。炔烃也可以是应变炔烃,如环辛炔,包含二苯并环辛基(DBCO)等。(B)示出了化学偶联到炔烃标记的多肽的DNA记录标签设计的实例。记录标签包括通用引发序列(P1)、条形码(BC)和间隔子序列(Sp)。将记录标签用mTet部分标记以偶联到基底表面,并用叠氮化物部分标记以与经标记的多肽的炔烃部分偶联。(C)将变性的、炔烃标记的蛋白质或多肽通过炔烃和叠氮化物部分用记录标签进行标记。任选地,记录标签标记的多肽可以进一步用隔室条形码标记,例如,通过退火至附着于隔室珠子的互补序列和引物延伸(也被称为聚合酶延伸),或如图20H-J所示。(D)记录标签标记的多肽的蛋白酶消化产生了记录标签标记的肽群。在一些实施例中,一些肽不会被任何记录标签标记。在其它实施例中,一些肽可以附有一个或多个记录标签。(E)使用TCO基团官能化的基底表面与附着在肽上的记录标签的mTet部分之间的逆电子需求狄尔斯-阿尔德(iEDDA)电击化学反应将记录标签标记的肽固定到基底表面上。在某些实施例中,可以在所示的不同阶段之间采用清理步骤。使用正交点击化学(例如,叠氮化物-炔烃和mTet-TCO)既允许使用记录标签对多肽进行点击化学标记,也允许将记录标签标记的肽通过点击化学固定到基底表面上(参见,McKay等人,2014,《化学生物学(Chem.Biol.)》21:1075-1101,其通过引用整体并入)。
图30A-E展示了在多肽的初始DNA标签标记之后将样品条形码写入记录标签的示例性过程。(A)将变性的多肽用双功能点击化学试剂(如炔烃-NHS试剂或炔烃-二苯甲酮)标记,以生成炔烃标记的多肽。(B)在对多肽进行炔烃(或替代性点击化学部分)标记后,将包括通用引发序列(P1)并用叠氮化物部分和mTet部分标记的DNA标签通过叠氮化物-炔烃相互作用偶联至多肽。应当理解,可以采用其它点击化学相互作用。(C)包括样品条形码信息(BCS')和其它记录标签功能性组分(例如,通用引发序列(P1')、间隔子序列(Sp'))的记录标签DNA构建体通过互补通用引发序列(P1-P1')退火至DNA标签标记的多肽。记录标签信息通过聚合酶延伸转移到DNA标签上。(D)记录标签标记的多肽的蛋白酶消化产生了记录标签标记的肽群。(E)使用TCO基团官能化的表面与附着在肽上的记录标签的mTet部分之间的逆电子需求狄尔斯-阿尔德(iEDDA)电击化学反应将记录标签标记的肽固定到基底表面上。在某些实施例中,可以在所示的不同阶段之间采用清理步骤。使用正交点击化学(例如,叠氮化物-炔烃和mTet-TCO)既允许使用记录标签对多肽进行点击化学标记,也允许将记录标签标记的多肽通过点击化学固定到基底表面上(参见,McKay等人,2014,《化学生物学》21:1075-1101,其通过引用整体并入)。
图31A-E展示了用于对多肽进行条形编码的珠子隔室化的实例。(A)使用标准生物缀合或光亲和标记技术,用异双功能点击化学试剂在溶液中标记多肽。可能的标记位点包含赖氨酸残基的ε-胺(例如,与所示的NHS-炔烃)或肽的碳主链(例如,与二苯甲酮-炔烃)。(B)将包括通用引发序列(P1)的叠氮化物标记的DNA标签与经标记的多肽的炔烃部分偶联。(C)DNA标签标记的多肽通过互补DNA序列(P1和P1')退火至DNA记录标签标记的珠子。珠子上的DNA记录标签包括间隔子序列(Sp')、隔室条形码序列(BCP')、任选的唯一分子标识符(UMI)和通用序列(P1')。将DNA记录标签信息通过聚合酶延伸(可替代地,可以采用连接)转移到多肽上的DNA标签。信息转移后,所得多肽包括多个记录标签,所述多个记录标签含有几个功能元件,包含隔室条形码。(D)记录标签标记的多肽的蛋白酶消化产生了记录标签标记的肽群。将记录标签标记的肽与珠子分离,并且(E)重新固定到测序基底上(例如,如图所示,使用mTet和TCO部分之间的iEDDA点击化学)。
图32A-H展示了用于下一代蛋白质测定(NGPA)的工作流程的实例。将蛋白质样品用DNA记录标签进行标记,所述DNA记录标签由几个功能单元组成,例如,通用引发序列(P1)、条形码序列(BC)、任选的UMI序列和间隔子序列(Sp)(用结合剂编码标签实现信息转移)。(A)将经标记的蛋白质(被动地或共价地)固定到基底(例如,珠子、多孔珠或多孔基质)上。(B)将基底用蛋白质封闭,并任选地添加与间隔子序列互补的竞争剂寡核苷酸(Sp'),以最大限度地减少分析物记录标签序列的非特异性相互作用。(C)将分析物特异性抗体(带有相关编码标签)与基底结合蛋白一起孵育。编码标签可以包括用于后续尿嘧啶特异性切割的尿嘧啶碱基。(D)抗体结合后,多余的竞争剂寡核苷酸(Sp')(如果添加的话)将被洗掉。编码标签通过互补间隔子序列瞬时退火至记录标签,并且在引物延伸反应中将编码标签信息转移到记录标签,以生成延伸型记录标签。如果固定的蛋白质是变性的,则可以在碱性洗涤条件下(如使用0.1N NaOH)去除结合的抗体和退火的编码标签。如果固定的蛋白质呈天然构象,则可能需要较温和的条件来去除结合的抗体和编码标签。图片E-H中概述了较温和的抗体去除条件的实例。(E)在将信息从编码标签转移到记录标签后,使用尿嘧啶特异性切除试剂(例如,USERTM)酶混合物将编码标签在其尿嘧啶位点处切刻(切割)。(F)使用高盐、低/高pH洗涤从蛋白质中去除结合的抗体。保持附着于抗体的截短的DNA编码标签很短,并且也会迅速被洗脱。较长的DNA编码标签片段可能会或可能不会保持与记录标签退火。(G)第二个结合循环在步骤(B)-(D)中开始,并且第二个引物延伸步骤通过引物延伸将编码标签信息从第二抗体转移到延伸型记录标签。(H)两个结合循环的结果是附着到记录标签的第一抗体和第二抗体的结合信息的连接。
图33A-D展示了使用多种结合剂和酶促介导的顺序信息转移的单步骤下一代蛋白质测定(NGPA)。NGPA测定,其中固定的蛋白质分子同时被两种同源结合剂(例如,抗体)结合。在多个同源抗体结合事件之后,使用组合的引物延伸和DNA切刻步骤将信息从结合抗体的编码标签转移到记录标签。编码标签中的插入符号(^)表示双链DNA切刻核酸内切酶位点。在图33A中,在互补间隔子序列杂交后的引物延伸步骤中,与蛋白质的表位1(Epi#1)结合的抗体的编码标签将编码标签信息(例如,编码器序列)转移到记录标签。在图33B中,一旦形成延伸型记录标签和编码标签之间的双链DNA双链体,则使用切刻核酸内切酶(如Nt.BsmAI)切割编码标签,所述切刻核酸内切酶仅切割双链DNA底物上的一条DNA链,其在37℃下有活性。在切割步骤之后,由截短的编码标签结合剂和延伸型记录标签形成的双链体在热力学上不稳定并解离。较长的编码标签片段可能会或可能不会保持与记录标签退火。在图33C中,这允许来自与蛋白质的表位#2(Epi#2)结合的抗体的编码标签通过互补间隔子序列退火至延伸型记录标签,并且通过引物延伸将信息从Epi#2抗体的编码标签转移到延伸型记录标签,使所述延伸型记录标签被进一步延伸。在图33D中,再一次,在Epi#2抗体的延伸型记录标签和编码标签之间形成双链DNA双链体之后,通过切刻核酸内切酶(如Nb.BssSI)对编码标签进行切刻。在某些实施例中,优选地,在引物延伸(也被称为聚合酶延伸)期间使用非链置换聚合酶。非链置换聚合酶可防止切割的编码标签末节(stub)延伸超过一个碱基,所述切割的编码标签末节保持与记录标签退火。可以重复图A-D的过程,直到近端结合的结合剂的所有编码标签都被杂交、到延伸型记录标签的信息转移和切刻步骤“消耗”。编码标签可以包括与对给定分析物(例如,同源蛋白)具有特异性的所有结合剂(例如,抗体)相同的编码器序列,可以包括表位特异性编码器序列,或者可以包括唯一分子标识符(UMI)以区分不同的分子事件。
图34A-C展示了使用基底表面上的反应性部分的滴定来控制记录标签-肽固定化密度的实例。在图34A中,可以通过控制基底表面上的功能性偶联部分的密度来滴定基底表面上的肽密度。这可以通过使用适当比率的活性偶联分子与“虚拟”偶联分子对基底表面进行衍生化来实现。在所示实例中,将NHS-PEG-TCO试剂(活性偶联分子)与NHS-mPEG(虚拟分子)以定义的比率组合,以使用TCO对胺表面进行衍生化。官能化的PEG具有从300到超过40,000的各种分子量。在图34B中,使用琥珀酰亚胺基4-(N-马来酰亚胺甲基)环己烷-1(SMCC)双功能交联剂将双功能5'胺DNA记录标签(mTet是其它功能性部分)偶联至肽的N端Cys残基。使用间四嗪-叠氮化物由叠氮化物-dT组创建记录标签上的内部mTet-dT组。在图34C中,使用mTet和TCO的iEDDA点击化学反应将记录标签标记的肽固定到图34A中的活化的基底表面。mTet-TCO iEDDA偶联反应非常快速、高效和稳定(mTet-TCO比Tet-TCO更稳定)。
图35A-C展示了下一代蛋白质测序(NGPS)结合循环特异性编码标签的实例。(A)使用循环特异性N端氨基酸(NTAA)结合剂编码标签设计NGPS测定。NTAA结合剂(例如,对N端DNP标记的酪氨酸具有特异性的抗体)与肽的DNP标记的NTAA结合,所述肽与包括通用引发序列(P1)、条形码(BC)和间隔子序列(Sp)的记录标签相关联。当结合剂与肽的同源NTAA结合时,与NTAA结合剂相关的编码标签进入记录标签附近并通过互补间隔子序列退火至记录标签。将编码标签信息通过引物延伸转移到记录标签。为了跟踪编码标签表示哪个结合循环,编码标签可以包括循环特异性条形码。在某些实施例中,与分析物结合的结合剂的编码标签具有与循环数无关的相同编码器条形码,其与唯一的结合循环特异性条形码组合。在其它实施例中,用于分析物结合剂的编码标签包括用于组合的分析物-结合循环信息的唯一编码器条形码。在任何一种方法中,在每个结合循环中都可以针对结合剂的编码标签使用共同间隔子序列。(B)在此实例中,来自每个结合循环的结合剂具有短的结合循环特异性条形码以鉴定结合循环,所述结合循环特异性条形码与鉴定结合剂的编码器条形码一起提供鉴定特定结合剂-结合循环组合的唯一组合条形码。(C)在完成结合循环后,可以使用封端循环步骤将延伸型记录标签转化为可扩增的文库,其中,例如,包括连接到通用引发序列P2和间隔子序列Sp'的通用引发序列P1'的帽最初通过互补的P1和P1'序列退火至延伸型记录标签,以使帽靠近延伸型记录标签。延伸型记录标签和帽退火和引物延伸中的互补的Sp和Sp'序列将第二个通用引物序列(P2)添加到延伸型记录标签。
图36A-E展示了基于DNA的模型系统的实例,所述模型系统用于证明从编码标签到记录标签的信息转移。示例性结合和分子内写入由寡核苷酸模型系统证明。编码标签中的靶向剂A'和B'被设计成与记录标签中的靶标结合区域A和B杂交。通过以相同的浓度合并两个重新编码标签saRT_Abc_v2(A靶标)和saRT_Bbc_V2(B靶标)来制备记录标签(RT)混合物。记录标签在其5'端被生物素化,并且含有唯一的靶标结合区域、通用正向引物序列、唯一DNA条形码和8个碱基的共同间隔子序列(Sp)。编码标签含有唯一编码器条形码碱基,其侧接8个碱基的共同间隔子序列(Sp'),其中之一通过聚乙二醇接头共价连接到A或B靶标剂。在图36A中,生物素化的记录标签寡核苷酸(saRT_Abc_v2和saRT_Bbc_V2)连同生物素化的Dummy-T10寡核苷酸一起被固定在链霉亲和素珠上。记录标签被设计成具有A或B捕获序列(分别由同源结合剂-A'和B'识别)和对应的条形码(rtA_BC和rtB_BC)以鉴定结合靶标。该模型系统中的所有条形码均选自65个15聚体条形码的集合(SEQ ID NO:1-65)。在一些情况下,为了便于凝胶分析,将15聚体条形码组合起来构成更长的条形码。具体地说,rtA_BC=BC_1+BC_2;rtB_BC=BC_3。还合成了与记录标签的A和B序列同源的结合剂的两个编码标签,即CT_A'-bc(编码器条形码=BC_5)和CT_B'-bc(编码器条形码=BC_5+BC_6)。在编码标签退火至珠固定记录标签之前,选择性地将与编码标签序列的一部分(留下单链Sp'序列)互补的封闭性寡核苷酸(DupCT_A'BC和DupCT_AB'BC)预退火至编码标签。链置换聚合酶在聚合酶延伸期间去除封闭性寡核苷酸。条形码键(插图)表示将15聚体条形码分配给记录标签和编码标签中的功能条形码。在图36B中,记录标签条形码设计和编码标签编码器条形码设计提供了对记录标签和编码标签之间“分子内”与“分子间”相互作用的简单凝胶分析。在此设计中,不需要的“分子间”相互作用(带有B'编码标签的记录标签和带有A'编码标签的B记录标签)生成的凝胶产物比所需的“分子内”(带有A'编码标签的记录标签;带有B'编码标签的B记录标签)相互作用产物长或短15个碱基。引物延伸步骤将A'和B'编码标签条形码(ctA'_BC、ctB'_BC)更改为反向补体条形码(ctA_BC和ctB_BC)。在图36C中,引物延伸测定证明了从编码标签到记录标签的信息转移,以及通过退火的端帽(EndCap)寡核苷酸上的引物延伸添加衔接子序列用于PCR分析。图36D示出了通过使用Dummy-T20寡核苷酸滴定记录标签的表面密度来优化“分子内”信息转移。将生物素化的记录标签寡核苷酸与生物素化的Dummy-T20寡核苷酸以1:0、1:10、一直下降到1:10000的各种比率混合。在降低的记录标签密度(1:103和1:104)下,“分子内”相互作用优于“分子间”相互作用。在图36E中,作为DNA模型系统的简单延伸,展示了包括Nano-Tag15肽-链霉亲和素结合对的简单蛋白质结合系统(KD~4nM)(Perbandt等人,2007,《蛋白质(Proteins)》67:1147-1153),但可以采用任何数量的肽结合剂模型系统。Nano-Tag15肽序列是(fM)DVEAWLGARVPLVET(SEQ ID NO:131)(fM=甲酰基-Met)。Nano-Tag15肽进一步包括短的、灵活的接头肽(GGGGS;SEQ ID NO:140)和用于与DNA记录标签偶联的半胱氨酸残基。其它示例肽标签-同源结合剂对包含:钙调蛋白结合肽(CBP)-钙调蛋白(KD~2pM)(Mukherjee等人,2015,《分子生物学杂志(J.Mol.Biol.)》427:2707-2725)、淀粉样蛋白-β(Aβ16–27)肽-US7/Lcn2抗运载蛋白(0.2nM)(Rauth等人,2016,《生物化学杂志(Biochem.J.)》473:1563-1578)、PA标签/NZ-1抗体(KD~400pM)、FLAG-M2 Ab(28nM)、HA-4B2 Ab(1.6nM)和Myc-9E10 Ab(2.2nM)(Fujii等人,2014,《蛋白质表达与纯化(Protein Expr.Purif.)》95:240-247)。作为通过引物延伸从结合剂的编码标签到记录标签的分子内信息转移的测试,与互补DNA序列“A”结合的寡核苷酸“结合剂”可用于测试和开发。这种杂交事件的亲和力基本上大于fM。链霉亲和素可用作Nano-tag15肽表位的测试结合剂。肽标签-结合剂相互作用具有高亲和力,但很容易被酸性和/或高盐洗涤破坏(Perbandt等人,同上)。
图37A-B展示了使用纳米乳液或微乳液PCR将信息从UMI标记的N端或C端转移到多肽的DNA标签标记体的实例。在图37A中,将多肽在其N端或C端用包括唯一分子标识符(UMI)的核酸分子标记。UMI可以侧接用于引发后续PCR的序列。然后在内部位点用单独的DNA标签对多肽进行“体标记”,所述标签包括与侧接UMI的引发序列互补的序列。在图37B中,将所得标记的多肽乳化并进行乳液PCR(ePCR)(可替代地,可以进行乳液体外转录-RT-PCR(IVT-RT-PCR)反应或其它合适的扩增反应)以扩增N端或C端UMI。形成微乳液或纳米乳液,使得平均液滴直径为50-1000nm,并且平均每个液滴存在少于一种多肽。PCR前后液滴内容物的快照分别显示在左侧图片和右侧图片中。UMI扩增子通过互补的引发序列与内部多肽体DNA标签杂交,并且UMI信息通过引物延伸从扩增子转移到内部多肽体DNA标签。
图38展示了单细胞蛋白质组学的实例。将细胞封装并溶解在含有聚合物形成性亚基(例如,丙烯酰胺)的液滴中。聚合物形成性亚基是聚合的(例如,聚丙烯酰胺),并且蛋白质与聚合物基质交联。破坏乳液液滴,并释放出聚合凝胶珠,其含有附着在可渗透聚合物基质上的单细胞蛋白裂解物。通过在裂解和封装缓冲液中包含如脲等变性剂,使蛋白质以其天然构象或变性状态与聚合物基质交联。使用本领域已知的和本文公开的多种方法将包括隔室条形码和其它记录标签组分(例如,通用引发序列(P1)、间隔子序列(Sp)、任选的唯一分子标识符(UMI))的记录标签附着到蛋白质上,包含用条形码珠进行乳化,或组合性索引。含有单细胞蛋白的聚合凝胶珠也可以在添加记录标签后进行蛋白酶消化,以生成适用于肽测序的记录标签标记的肽。在某些实施例中,聚合物基质可以被设计成溶解在合适的添加剂中,如二硫化物交联聚合物,所述聚合物在暴露于如三(2-羧乙基)膦(TCEP)或二硫苏糖醇(DTT)等还原剂例时断裂。
图39A-E展示了使用双功能N端氨基酸(NTAA)修饰剂和嵌合消除试剂增强氨基酸消除反应的实例。(A)和(B)将附着到固相基底的肽用双功能NTAA修饰剂修饰,如生物素-苯基异硫氰酸酯(PITC)。(C)使用链霉亲和素-埃德曼酶(Edmanase)嵌合蛋白将低亲和力埃德曼酶(>μM Kd)募集到生物素-PITC标记的NTAA。(D)由于生物素-链霉亲和素相互作用导致有效局部浓度增加,埃德曼酶消除的效率大大提高。(E)经切割的生物素-PITC标记的NTAA和相关的链霉亲和素-埃德曼酶嵌合蛋白在消除后扩散。还可以采用许多其它生物缀合募集策略。叠氮化物修饰的PITC是可商购的(4-叠氮苯基异硫氰酸酯,Sigma),从而允许通过与炔烃-生物素的点击化学反应将叠氮化物-PITC转化为PITC的其它生物缀合物,如生物素-PITC。
图40A-I展示了由蛋白质裂解物(可以封装在凝胶珠中)生产C端记录标签标记的肽的实例。(A)使变性的多肽与酸酐反应以标记赖氨酸残基。在一个实施例中,炔烃(mTet)取代的柠康酸酐+丙酸酐的混合物用于用mTet标记赖氨酸。(显示为条纹矩形)。(B)结果是炔烃(mTet)标记的多肽,其中一部分赖氨酸被丙酸基团封闭(在多肽链上显示为正方形)。炔烃(mTet)部分可用于基于点击化学的DNA标记。(C)针对炔烃或mTet部分分别使用叠氮化物或反式环辛烯(TCO)标记,通过点击化学附着DNA标签(显示为实心矩形)。(D)使用图31所示的引物延伸步骤将条形码和功能元件(如间隔子(Sp)序列和通用引物序列)附加到DNA标签上,以产生记录标签标记的多肽。条形码可以是样品条形码、分区条形码、隔室条形码、空间位置条形码等,或其任何组合。(E)用蛋白酶或化学方法将所得的记录标签标记的多肽片段化为记录标签标记的肽。(F)为了说明,示出了标有两个记录标签的肽片段。(G)将包括与记录标签中的通用引发序列互补的通用引发序列的DNA标签连接到肽的C端。C端DNA标签还包括用于将肽缀合到表面的部分。(H)C端DNA标签中的互补通用引发序列和随机选择的记录标签退火。使用分子内引物延伸反应将信息从记录标签转移到C端DNA标签。(I)肽上的内部记录标签通过马来酸酐与赖氨酸残基偶联,这种偶联在酸性pH下是可逆的。在酸性pH下将内部记录标签从肽的赖氨酸残基上切下,从而留下C端记录标签。新暴露的赖氨酸残基可以任选地用不可水解的酸酐(如丙酸酐)封闭。
图41展示了用于NGPS测定的实施例的示例性工作流程。
图42A-D展示了下一代蛋白质测序(NGPS或ProteoCode)测序测定的示例性步骤。记录标签标记的表面结合肽上的N端氨基酸(NTAA)乙酰化或酰胺化步骤可以在NTAA结合剂结合之前或之后发生,具体取决于NTAA结合剂已被工程化为与乙酰化NTAA结合还是与天然NTAA结合。在第一种情况下,(A)肽最初在NTAA处通过化学方法使用乙酸酐或通过酶促方法使用N端乙酰转移酶(NAT)进行乙酰化。(B)NTAA被NTAA结合剂识别,如工程化抗运载蛋白、氨酰tRNA合成酶(aaRS)、ClpS等。DNA编码标签附着到结合剂并包括鉴定特定NTAA结合剂的条形码编码器序列。(C)在NTAA结合剂与乙酰化NTAA结合后,DNA编码标签通过互补序列瞬时退火至记录标签,并且编码标签信息通过聚合酶延伸转移到记录标签。在替代实施例中,将记录标签信息通过聚合酶延伸转移到编码标签。(D)通过工程化的酰基肽水解酶(APH)将乙酰化NTAA从肽上切割下来,所述酶催化乙酰化肽的末端乙酰化氨基酸的水解。消除乙酰化NTAA后,从新暴露的NTAA的乙酰化开始,循环重复自身。N端乙酰化用作NTAA修饰/消除的示例性模式,但其它N端部分(如胍基部分)可以被消除化学的伴随变化所取代。如果采用胍基化,则可以在温和条件下使用0.5-2%NaOH溶液切割胍基化的NTAA(参见Hamada,2016,其通过引用整体并入)。APH是一种丝氨酸肽酶,能够催化从封闭肽中去除Nα-乙酰化氨基酸,它属于脯氨酰寡肽酶(POP)家族(clan SC,S9家族)。它是真核细胞、细菌和古细菌细胞中N端乙酰化蛋白质的关键调节剂。
图43A-B展示了示例性记录标签-编码标签设计特征。(A)示例性记录标签相关蛋白(或肽)和具有相关编码标签的结合的结合剂(例如,抗运载蛋白)的结构。将胸苷(T)碱基插入编码标签上的间隔子(Sp')和条形码(BC')序列之间,以适应在引物延伸反应中添加的随机非模板化3'末端腺苷(A)。(B)将DNA编码标签通过SpyCatcher-SpyTag蛋白-肽相互作用附着到结合剂(例如,抗运载蛋白)。
图44A-E展示了使用切割剂与记录标签的杂交来增强NTAA切割反应的实例。在图44A-B中,附着到固相基底(例如,珠子)的记录标签标记的肽在NTAA(Mod)处被修饰或标记。在图44C中,将用于消除NTAA的切割酶(例如,酰基肽水解酶(APH)、氨肽酶(AP)、埃德曼酶等)附着至包括与记录标签上的通用引发序列互补的通用引发序列的DNA标签。通过消除酶的DNA标签和记录标签上的互补通用引发序列的杂交,将切割酶募集到官能化的NTAA。在图44D中,杂交步骤大大提高了切割酶对NTAA的有效亲和力。(E)消除的NTAA扩散开来,并且可以通过剥离杂交的DNA标签来去除相关的切割酶。
图45展示了使用肽连接酶+蛋白酶+二氨基肽酶的示例性循环性降解肽测序。Butelase I将TEV-Butelase I肽底物(TENLYFQNHV,SEQ ID NO:132)连接到查询肽的NTAA。Butelase在肽底物的C端需要一个NHV基序。连接后,使用烟草蚀刻病毒(TEV)蛋白酶切割谷氨酰胺(Q)残基后的嵌合肽底物,从而留下具有附着至查询肽的N端的天冬酰胺(N)残基的嵌合肽。从N端切割两个氨基酸残基的二氨基肽酶(DAP)或二肽基肽酶将添加N的查询肽缩短两个氨基酸,从而有效地去除了查询肽上的天冬酰胺残基(N)和原始NTAA。使用本文提供的结合剂读取新暴露的NTAA,然后对于测序的“n”个氨基酸重复整个循环“n”次。使用链霉亲和素-DAP金属酶嵌合蛋白并将生物素部分连接到N端天冬酰胺残基上可以控制DAP持续合成能力。
图46A-C展示了通过将单链DNA编码标签连接到单链DNA记录标签的示例性“无间隔子”编码标签转移。通过将编码标签与记录标签连接来直接转移单链DNA编码标签,以生成延伸型记录标签。(A)通过单链DNA连接的基于DNA的模型系统概述。与编码标签缀合的靶向剂B'序列被设计成用于检测记录标签中的B DNA靶标。ssDNA记录标签saRT_Bbca_ssLig是5'磷酸化的和3'生物素化的,并且由6个碱基的DNA条形码BCa、通用正向引物序列和靶标DNA B序列组成。编码标签CT_B'bcb_ssLig含有通用反向引物序列、尿嘧啶碱基和唯一的6个碱基的编码器条形码BCb。编码标签通过聚乙二醇接头与B'DNA序列共价连接。附着在编码标签上的B'序列与附着在记录标签上的B序列的杂交使记录标签的5'磷酸基团和编码标签的3'羟基在固体表面上紧密接近,从而导致通过连接酶(如CircLigase II)的单链DNA连接进行信息转移。(B)确认单链DNA连接的凝胶分析。单链DNA连接测定证明结合信息从编码标签转移到记录标签。47个碱基的记录标签与49个碱基的编码标签的连接产物的大小为96个碱基。鉴于在存在同源saRT_Bbca_ssLig记录标签的情况下观察到连接的产物条带,而在存在非同源saRT_Abcb_ssLig记录标签的情况下未观察到产物条带,证明了特异性。(C)编码标签的多循环信息转移。将第一个循环的连接产物用USER酶处理以生成游离的5'磷酸化末端,用于第二个循环的信息转移。
图47A-B展示了通过将双链DNA编码标签连接到双链DNA记录标签的示例性编码标签转移。基于DNA的模型系统证明了通过双链DNA连接进行编码标签的多重信息转移。(A)通过双链DNA连接的基于DNA的模型系统概述。制备与编码标签缀合的靶向剂A'序列,用于检测记录标签中的靶标结合剂A。记录标签和编码标签均由两条具有4个碱基悬垂的链组成。当编码标签中的靶向剂A'与固定在固体表面上的记录标签中的靶标结合剂A杂交时,两个标签的邻近悬垂端杂交,从而导致通过连接酶(如T4 DNA连接酶)通过双链DNA连接进行信息转移。(B)确认双链DNA连接的凝胶分析。双链DNA连接测定证明A/A'结合信息从编码标签转移到记录标签。76和54个碱基的记录标签与双链编码标签的连接产物的大小分别为116个碱基和111个碱基。第一个循环的连接产物由USER酶(NEB)消化,并用于第二个循环测定。在大约150个碱基处观察到第二个循环的连接产物条带。
图48A-E展示了示例性的基于肽和基于DNA的模型系统,用于证明利用多个循环的从编码标签到记录标签的信息转移。序列肽和DNA模型系统证明了多重信息转移。(A)基于肽的模型系统中第一个循环的概述。制备与编码标签缀合的靶向剂抗PA抗体,用于在第一个循环的信息转移时检测记录标签中的PA-肽标签。此外,还使用Nanotag肽或淀粉样蛋白β(Aβ)肽生成了肽记录标签复合物阴性对照。含有A序列靶标剂、poly-dT、通用正向引物序列、唯一DNA条形码BC1和BC2以及8个碱基的共同间隔子序列(Sp)的记录标签amRT_Abc分别通过5'端的胺基和内部炔基共价附着到肽和固体支持物。含有侧接8个碱基的共同间隔子序列(Sp)的唯一编码器条形码BC5'的编码标签amCT_bc5分别在5'端和3'端共价连接到抗体和C3接头。当抗PA抗体与PA标签肽-记录标签(RT)复合物结合时,通过聚合酶延伸完成从编码标签到记录标签的信息转移。(B)基于DNA的模型测定中第二个循环的概述。制备与编码标签连接的靶向剂A'序列,用于检测记录标签中的A序列靶标剂。含有8个碱基的共同间隔子序列(Sp')、唯一编码器条形码BC13'、通用反向引物序列的编码标签CT_A'_bc13。当A'序列与A序列杂交时,通过聚合酶延伸完成从编码标签到记录标签的信息转移。(C)用于PCR分析的记录标签扩增。使用P1_F2和Sp/BC2引物集合通过18个循环的PCR扩增固定的记录标签。在大约56bp处观察到记录标签密度依赖性PCR产物。(D)确认第一循环延伸测定的PCR分析。使用P1_F2和Sp/BC5引物集合通过21个循环的PCR扩增第一循环延伸型记录标签。在复合物的不同密度滴定过程中,针对PA-肽RT复合物,在大约80bp处观察到来自第一循环延伸型产物的PCR产物的强条带。针对Nano和Aβ肽复合物,在最高复合物密度下也观察到一个小的本底条带,其表面上是由于非特异性结合。(E)确认第二循环延伸测定的PCR分析。使用P1_F2和P2_R1引物集合通过21个循环的PCR扩增第二延伸型记录标签。对于所有肽固定的珠子,在117个碱基对处观察到相对强的PCR产物条带,其仅对应于原始记录标签(BC1+BC2+BC13)上的第二循环延伸型产物。仅当在测定中使用PA标签固定的珠子时,在93个碱基对处观察到对应于第一循环延伸型记录标签(BC1+BC2+BC5+BC13)上的第二循环延伸型产物的条带。
图49A-B使用p53蛋白质测序作为实例来说明蛋白质型的重要性和测序读段的稳健可映射性,如使用单分子方法获得的测序读段。左图的图49A显示完整的蛋白质型可以被消化成片段,每个片段可以包括一个或多个甲基化氨基酸、一个或多个磷酸化氨基酸或没有翻译后修饰。翻译后修饰信息可以与测序读段一起分析。右图示出了沿蛋白质的各种翻译后修饰。图49B示出了使用分区的映射读段,例如,在对整个人类蛋白质组进行爆炸后,读段“CPXQXWXDXT”(SEQ ID NO:170,其中X=任何氨基酸)唯一映射回p53(在CPVQLWVDST序列处,SEQ ID NO:169)。测序读段不必很长–例如,大约10-15个氨基酸序列可以提供足够的信息来鉴定蛋白质组内的蛋白质。测序读段可以重叠,并且重叠序列处的序列信息冗余可以用于推断和/或验证整个多肽序列。
图50A-C展示了使用mRNA展示用DNA记录标签标记蛋白质或肽。
图51A-E展示了通过N端二肽结合分区条形码标记的肽的单循环蛋白质鉴定。
图52A-E展示了通过N端二肽结合剂对肽固定的分区条形码珠的单循环蛋白质鉴定。
图53A-D示出了具有SEQ ID NO:171(TTT/i5OCTdU/TTUCGTAGTCCGCGACACTAGTAAGCCGGTATATCAACTGAGTG)中的序列的DNA的质谱分析,所述DNA经历了水(图53A)、水合肼(图53B)、水合肼/Tris缓冲液(图53C)和盐酸肼(图53D):这些附图显示,核酸对于本文用于从多肽中消除官能化NTAA的条件是稳定的。
图54示出了在经历双-(4-三氟甲基吡唑)甲亚胺和N-乙基吗啉缓冲液后对具有SEQ ID NO:171(TTT/i5OCTdU/TTUCGTAGTCCGCGACACTAGTAAGCCGGTATATCAACTGAGTG)中的序列的DNA进行的质谱分析,并证明了核酸在用于形成式(II)化合物的条件下是稳定的。
图55A描绘了示例性测定,包含修饰(例如,官能化)和消除用示例性化学试剂处理的肽的N端氨基酸(NTAA)、将示例性结合剂与经修饰的NTAA结合,并通过将信息从与结合剂相关的编码标签转移到与肽相关的记录标签进行编码。图55B是使用F-结合剂(顶部)或L-结合剂(底部)在肽分析测定中评估的各种肽(SEQ ID NO:157-161、162-166)的编码总结。
具体实施方式
在下面的描述中阐述了许多具体细节,以提供对本公开的透彻理解。提供这些细节用于实例的目的,并且可以在没有这些具体细节中的一些或全部的情况下,根据权利要求书实践所要求保护的主题。应当理解,在不背离所要求保护的主题的范围的情况下,可以使用其它实施例并且可以进行结构上的改变。应当理解,一个或多个单独实施例中描述的各种特征和功能不会将所述特征和功能的适用范围限制于描述所述特征和功能的特定实施例。相反,所述特征和功能可以单独地或以某种组合应用于本公开的一个或多个其它实施例,而不管是否描述了此类实施例,以及此类特征是否作为所述实施例的一部分来呈现。为了清楚起见,没有详细描述与所要求保护的主题相关的技术领域中已知的技术材料,从而不会不必要地使所要求保护的主题模糊。
本申请中提及的所有出版物,包含专利文件、科学文章和数据库,出于所有目的通过引用整体并入本文,其程度与每个单独出版物通过引用分别并入的程度相同。引用出版物或文件并不意味着承认它们中的任何一个都是相关的现有技术,也不构成对这些出版物或文件的内容或日期的任何承认。
所有标题都为了方便读者,并且除非如此规定,否则不应当用于限制在标题后的文本的含义。
所提供的实施例的实践将采用在本领域技术人员的技能范围内的有机化学、聚合物技术、分子生物学(包含重组技术)、细胞生物学、生物化学和测序技术的常规技术和描述的一些材料、步骤、术语和技术。此类常规技术包含多肽和蛋白质合成和修饰、多核苷酸和/或寡核苷酸合成和修饰、聚合物阵列合成、多核苷酸和/或寡核苷酸的杂交和连接、杂交检测和核苷酸测序。合适的技术的具体说明可以参考本文的实例。然而,当然也可以使用其它等效的常规程序。此类常规技术和描述可以在标准实验室手册中找到,如Green等人编辑,《基因组分析:实验室手册丛书(Genome Analysis:A Laboratory Manual Series)》(第I-IV卷)(1999);Weiner、Gabriel、Stephens编辑,《基因变异:实验室手册(GeneticVariation:A Laboratory Manual)》(2007);Dieffenbach、Dveksler编辑,《PCR引物:实验室手册(PCR Primer:A Laboratory Manual)》(2003);Bowtell和Sambrook,《DNA微阵列:分子克隆手册(DNA Microarrays:A Molecular Cloning Manual)》(2003);Mount,《生物信息学:序列和基因组分析(Bioinformatics:Sequence and Genome Analysis)》(2004);Sambrook和Russell,《分子克隆的浓缩方案:实验室手册(Condensed Protocols fromMolecular Cloning:A Laboratory Manual)》(2006);以及Sambrook和Russell,《分子克隆:实验室手册(Molecular Cloning:A Laboratory Manual)》(2002)(均来自冷泉港实验室出版社(Cold Spring Harbor Laboratory Press));Ausubel等人编辑,《当代分子生物学实验指南(Current Protocols in Molecular Biology)》(1987);T.Brown编辑,《基本分子生物学(Essential Molecular Biology)》(1991),IRL出版社(IRL Press);Goeddel编辑,《基因表达技术(Gene Expression Technology)》(1991),学术出版社(AcademicPress);A.Bothwell等人编辑,《真核基因的克隆和分析方法(Methods for Cloning andAnalysis of Eukaryotic Genes)》(1990),Bartlett出版社(Bartlett Publ.);M.Kriegler,《基因转移和表达(Gene Transfer and Expression)》(1990),Stockton出版社(Stockton Press);R.Wu等人编辑,《重组DNA方法(Recombinant DNA Methodology)》(1989),学术出版社;M.McPherson等人,《PCR:一种实用方法(PCR:A PracticalApproach)》(1991),牛津大学出版社IRL出版社;Stryer,《生物化学(Biochemistry)》(第4版)(1995),W.H.弗里曼(W.H.Freeman),纽约N.Y.;Gait,《寡核苷酸合成:一种实用方法(Oligonucleotide Synthesis:A Practical Approach)》(2002),IRL出版社,伦敦;Nelson和Cox,Lehninger,《生物化学原理(Principles of Biochemistry)》,(2000),第3版,W.H.弗里曼出版社(W.H.Freeman Pub.),纽约,N.Y.;Berg等人,《生物化学》,(2002),第5版,W.H.弗里曼出版社,纽约,N.Y.,所述文献中的每一个均出于所有目的通过引用整体并入本文。
介绍和概述
蛋白质或多肽分析物的分子识别和表征通常使用免疫测定法进行。有许多不同的免疫测定格式,包含ELISA、多路复用ELISA(例如,斑点抗体阵列、液体颗粒ELISA阵列)、数字ELISA(例如,Quanterix、Singulex)、反相蛋白质阵列(RPPA)等。这些不同的免疫分析平台都面临着相似的挑战,包含开发高亲和力和高特异性(或选择性)抗体(结合剂)、在样品水平和分析物水平上多路复用的能力有限、灵敏度和动态范围有限,以及交叉-反应性和本底信号有限。
结合剂不可知的方法,如通过肽测序(埃德曼降解或质谱法)直接表征蛋白质,提供了有用的替代方法。然而,这两种方法都不是非常并行或高通量。一般而言,埃德曼降解肽测序方法速度较慢,并且通量有限,每天只有几个肽。其还采用了强酸性反应步骤,所述强酸性反应步骤与寡核苷酸不相容,因为已知这些寡核苷酸在这种强酸性条件下会降解。
因此,本领域仍然需要与大分子(例如,多肽或多核苷酸)测序和/或分析相关的改进技术,其应用到蛋白质测序和/或分析,以及用于实现这些的产品、方法和试剂盒。需要高度平行、准确、灵敏和高通量的蛋白质组学技术。参考以下详细描述,本发明的这些方面和其它方面将变得显而易见。为此,本文阐述了各种参考文献,这些参考文献更详细地描述了某些背景信息、程序、化合物和/或组合物,并且各自通过引用整体并入本文。
本公开提供了用于从肽分子修饰和去除N端氨基酸的方法。由于这些方法温和且具有选择性,因此它们可用于与其它材料缀合的蛋白质,例如,蛋白质或寡糖载剂,并且可以在存在酸敏感性材料(如寡糖和寡核苷酸)的情况下应用这些方法。此外,由于这些方法形成了相当稳定的活化中间体,然后应用第二组条件来引起N端氨基酸的切割,因此可以反复使用这些方法来从多肽的N端去除两个、三个、十个或更多个氨基酸。因此,所述方法可用于通过从多肽的N端去除一个或多个氨基酸残基来选择性地修饰多肽。
本文公开的方法,如埃德曼降解,切割N端氨基酸以留下缺少起始多肽的N端氨基酸残基的截短多肽。它们还形成切割产物,如埃德曼降解,其可以通过鉴定N端氨基酸被移除来表征。尤其是对于来自天然来源的多肽,其通常主要或完全由21种常见的蛋白质氨基酸组成,当将本文的方法应用于多肽时,存在方便的方法来鉴定可预测形成的切割产物。因此,通过对多肽按顺序应用N端切割方法,可以通过鉴定每次迭代中释放的切割产物来确定多肽中的氨基酸序列。
在一些实施例中,用于处理多肽和切割N端氨基酸的方法用于确定多肽的至少一部分的序列。在一些方面,所提供的方法可用于基于降解的多肽测序测定的背景中。在一些实施例中,确定多肽的至少一部分的序列包含执行如国际专利公开号WO 2017/192633、WO2019/089836、WO 2019/089851中所述的任何方法。在一些情况下,通过构建表示多肽序列的延伸型记录标签(例如,DNA序列),如延伸型记录标签,来分析多肽的序列。在一些实施例中,所述测定包含包括NTAA官能化和NTAA去除的循环。在一些实施例中,所述测定包含将编码标签信息(例如,与结合剂连接)转移到附着至多肽的记录标签。在一些实施例中,多肽分析测定的一个或多个步骤以循环方式重复。例如,本公开提供的用于分析多肽的方法包括多个结合循环,其中多肽与多种结合剂接触,并且结合剂的连续结合将基于核酸的编码标签形式的历史结合信息转移到与多肽相关的至少一个记录标签。以这种方式,以核酸格式生成了含有关于多个结合事件的信息的历史记录。
因此,本发明提供了用于通过按顺序去除N端氨基酸并分析每个步骤释放的切割产物以确定在该步骤中哪个氨基酸被切割来对多肽进行测序的方法。在一些实施例中,本发明提供了用于通过在包含NTAA结合的基于核酸编码的分析方法中按顺序去除N端氨基酸来对多肽进行测序的方法。
本发明还提供了可用于去除多肽的N端氨基酸的试剂、制备这些试剂的方法以及包括用于执行本发明方法的合适试剂的试剂盒。
由于切割N端氨基酸的方法使用温和的试剂和条件,所以这些方法可以应用于还含有酸敏感性材料的样品。例如,含有所关注多肽的样品也可能含有寡核苷酸,所述寡核苷酸可用于编码有关样品的信息以进行自动化加工:而采用强酸切割NTAA的典型埃德曼条件预计会降解此类寡核苷酸,本方法可在不降解寡核苷酸的情况下用于此类样品。
本发明的其它方面和优点将从下面的详细描述和实施例中得到理解。
定义
除非另有定义,否则本文所使用的所有技术术语和科学术语均具有与本公开所属领域的普通技术人员通常所理解的含义相同的含义。如果本章节中陈述的定义与在通过引用并入本文的专利、申请、公开的申请和其它出版物中陈述的定义相反或在其它方面不一致,则在本章节中陈述的定义优先于通过引用并入本文的定义。
如本文所使用的,除非上下文另有明确指示,否则单数形式“一个/种(a/an)”和“所述(the)”包含复数指示物。因此,例如,提及“肽”包含一种或多种肽,或肽的混合物。而且,除非在本文中使用特别说明或从上下文显而易见,否则术语“或”应理解为是包括性的,并且涵盖“或”和“与”两者。
如本文所使用的,术语“约”是指本技术领域的技术人员容易知道的各个值的通常误差范围。本文中对“约”值或参数的提及包含(并描述)针对该值或参数本身的实施例。例如,提及“大约X”的描述包含对“X”的描述。
应理解,本文所述的本发明的方面和实施例包含“由方面和实施例组成”和/或“基本上由方面和实施例组成”。
贯穿本公开,此发明的各个方面均以范围格式呈现。应当了解,采用范围格式的描述仅为了方便和简洁起见,并且不应当被解释为是对本发明的范围的固定限制。因此,应当将范围的描述视为已明确公开了所有可能的子范围以及该范围内的单独数值。例如,对如1到6等范围的描述应当被视为已经明确公开了如1到3、1到4、1到5、2到4、2到6、3到6等子范围,以及该范围内的单独数字,例如1、2、3、4、5和6。无论范围的广度如何,这都适用。
如本文所使用的,术语“大分子”涵盖由较小亚基组成的大分子。大分子的实例包含但不限于肽、多肽、蛋白质、核酸、碳水化合物、脂质、大环化合物。大分子还包含由共价连接在一起的两种或更多种类型的大分子的组合组成的嵌合大分子(例如,与核酸连接的肽)。大分子还可以包含“大分子组合体”,其由两个或更多个大分子的非共价复合物组成。大分子组合体可以由相同类型的大分子(例如,蛋白质-蛋白质)或由两种以上不同类型的大分子(例如,蛋白质-DNA)组成。
如本文所使用的,术语“多肽”涵盖肽和蛋白质,并且是指包括通过肽键连接的两个或更多个氨基酸的链的分子。在一些实施例中,多肽包括2到1000个氨基酸,例如,具有多于20到30个氨基酸。然而,应当理解的是,当多次应用于多肽时,逐步N端氨基酸切割最终可产生较小的寡肽,并最终产生三肽和二肽,最后产生单个剩余氨基酸。为简单起见,当所述方法被描述为应用于多肽时,所述方法旨在包含更小的寡肽,直至二肽。在一些实施例中,多肽不包括二级、三级或更高级结构。在一些实施例中,所述多肽是蛋白质;在其它实施例中,其可以是蛋白质的切割产物,或者其可以是较短的氨基酸链。在一些实施例中,蛋白质包括30个或更多个氨基酸,例如,具有多于50个氨基酸。在一些实施例中,除一级结构外,蛋白质还包括二级、三级或更高级结构。
当多肽是天然来源时,多肽的氨基酸最典型地是L-氨基酸,因为蛋白质氨基酸都是L-构型。然而,这些方法同样适用于切割D-构型的N端氨基酸,因此用于所述方法的多肽残基也可以是具有α-氨基酸主链的D-氨基酸、D-氨基酸和L-氨基酸的混合物、经修饰的氨基酸、氨基酸类似物、氨基酸模拟物或其任何组合。一般而言,本文提供的描述和方法可适用于至少一些β氨基酸的修饰、切割、处理和/或接触。例如,异天冬氨酸是生物学相关的β氨基酸,其可以如本文所述被修饰、切割、处理和/或接触。
多肽可以是天然存在的、合成产生的或重组表达的。多肽可以合成产生、分离、重组表达,或者它们可以通过上述方法的组合产生。多肽还可以包括修饰氨基酸链的额外基团,例如,通过翻译后修饰添加到氨基酸残基侧链基团的官能团。聚合物可以是直链或支链的,其可以包括经修饰的氨基酸,并且其可以被非氨基酸中断,尽管所述方法可能不会切割不具有α-氨基核心结构的氨基酸。所述术语还涵盖天然修饰或通过干预修饰的氨基酸聚合物;例如,二硫键的形成、糖基化、脂质化、乙酰化、磷酸化或任何其它操作或修饰,如与标记组分的缀合。
如本文所使用的,术语“氨基酸”是指在乙酸基团的α位包括胺基的有机化合物,并且乙酸部分也可以在α碳处含有侧链。如本文所使用的,除非另有限制,否则其包含具有α-氨基酸核心结构和α碳上的零个、一个或两个烃基以及氨基的天然和非天然化合物。这些烃基可以在不干扰本文所述方法的情况下广泛变化。通常,常见的天然氨基酸包括对每个氨基酸具有特异性的侧链,并且氨基加上乙酸部分和任选的侧链一起作为肽的单体亚基,通常被称为氨基酸残基。该术语还包含具有通过连接到氨基而形成5-6元环的侧链的氨基酸;脯氨酸就是这种氨基酸的一个实例。氨基酸特别包含20种标准的、天然存在的或规范的氨基酸加上硒代半胱氨酸,虽然不太常见,但它是天然蛋白质氨基酸之一,并且该术语还包含非标准氨基酸和经修饰的氨基酸。标准的天然存在的蛋白质氨基酸包含丙氨酸(A或Ala)、半胱氨酸(C或Cys)、天冬氨酸(D或Asp)、谷氨酸(E或Glu)、苯丙氨酸(F或Phe)、甘氨酸(G或Gly)、组氨酸(H或His)、异亮氨酸(I或Ile)、赖氨酸(K或Lys)、亮氨酸(L或Leu)、蛋氨酸(M或Met)、天冬酰胺(N或Asn)、脯氨酸(P或Pro)、谷氨酰胺(Q或Gln)、精氨酸(R或Arg)、硒代半胱氨酸(Sec)、丝氨酸(S或Ser)、苏氨酸(T或Thr)、缬氨酸(V或Val)、色氨酸(W或Trp)和酪氨酸(Y或Tyr)。
用于本文方法的多肽中的氨基酸可以是L-氨基酸或D-氨基酸。非标准氨基酸可以是天然存在或化学合成的经修饰的氨基酸、氨基酸类似物、氨基酸模拟物、非标准蛋白原氨基酸或非蛋白原氨基酸。非标准氨基酸的实例包含但不限于吡咯赖氨酸和N-甲酰甲硫氨酸、脯氨酸和丙酮酸衍生物(如羟脯氨酸)、3-取代的丙氨酸衍生物、甘氨酸衍生物、环-取代的苯丙氨酸和酪氨酸衍生物、线性核心氨基酸、N-甲基氨基酸。在优选的实施例中,本发明的多肽由蛋白质氨基酸组成,并且任选地包含这些氨基酸的天然存在的翻译后修饰。
虽然本发明的方法通常可用于任何多肽,但有时制备多肽以提高本文所述方法的可靠性和效率是有利的。例如,由于本发明的方法通过使多肽的N端胺基官能化而操作,它们也可以修饰可能存在于多肽上别处的某些官能团。一个实例是赖氨酸,其可能存在于多肽中并具有游离的-NH2基团。在一些实施例中,可能有用的是,对可能存在的任何赖氨酸-NH2进行修饰,这可以使用本领域已知的方法进行。此外,虽然当脯氨酸是NTAA时,本发明的方法能够修饰和消除脯氨酸,但为了效率,在修饰NTAA以进行切割的过程之前或过程期间用酶(例如,脯氨酸氨肽酶或脯氨酸亚氨基肽酶(PIP))处理多肽有时是有帮助的。因此,本发明的方法可以包含以下任选的步骤:用一种或多种酶(例如,脯氨酸氨肽酶、脯氨酸亚氨基肽酶(PIP)、焦谷氨酸氨肽酶(pGAP)、天冬酰胺酰胺水解酶、肽谷氨酰胺酶天冬酰胺酶、蛋白质谷氨酰胺酶或其同系物)处理多肽以去除多肽的N端氨基酸;并且用于实践本发明方法的试剂盒可以任选地包含去除多肽的N端氨基酸以供以这种方式使用的一种或多种酶(例如,脯氨酸氨肽酶、脯氨酸亚氨基肽酶(PIP)、焦谷氨酸氨肽酶(pGAP)、天冬酰胺酰胺水解酶、肽谷氨酰胺酶天冬酰胺酶、蛋白质谷氨酰胺酶或其同系物)。
如本文所使用的,术语“翻译后修饰”及其变体是指在肽被核糖体翻译完后在肽上发生的修饰。翻译后修饰可以是共价修饰或酶促修饰。翻译后修饰的实例包含但不限于酰化、乙酰化、烷基化(包含甲基化)、生物素化、丁酰化、氨基甲酰化、羰基化、脱酰胺基、脱亚氨基、二苯甲酰胺形成、二硫键形成、消除、黄素附着、甲酰化、γ-羧化、谷氨酰化、糖基化(glycylation)、糖基化(glycosylation)、糖基磷脂酰肌醇化(glypiation)、血红素C附着、羟基化、乙酰化形成、碘化、异戊二烯基化、脂质化、脂酰化、丙二酰化、甲基化、肉豆蔻酰化、氧化、棕榈酰化、聚乙二醇化、磷酸戊二烯酰化、磷酸化、异戊烯化、丙酰化、亚视黄基席夫碱形成、S-谷胱甘肽化、S-亚硝基化、S-亚磺酰化、硒化、琥珀酰化、硫化、泛素化和C端酰胺化。翻译后修饰包含肽的氨基末端和/或羧基末端的修饰。末端氨基的修饰包含但不限于脱氨基、N-低级烷基、N-二-低级烷基和N-酰基修饰。末端羧基的修饰包含但不限于酰胺、低级烷基酰胺、二烷基酰胺和低级烷基酯修饰(例如,其中低级烷基为C1-C4烷基)。翻译后修饰还包含落在氨基和羧基末端之间的氨基酸的修饰,如但不限于上述修饰。术语翻译后修饰还可以包含包括一种或多种可检测标记的肽修饰。在一些实施例中,该术语不包括多肽N端氨基酸的氨基的修饰。
如本文所使用的,术语“蛋白质组”可以包含由任何生物体的基因组、细胞、组织或生物体在某个时间表达的蛋白质、多肽或肽(包含其缀合物或复合物)的完整集合。在一方面,它是在给定时间,在给定条件下在给定类型的细胞或生物体中表达的蛋白质的集合。蛋白质组学是对蛋白质组的研究。例如,“细胞蛋白质组”可以包含在特定的一组环境条件下(例如暴露于激素刺激下)在特定细胞类型中发现的蛋白质的集合。生物体的完整蛋白质组可以包含来自所有各种细胞蛋白质组的蛋白质的完整集合。蛋白质组还可以包含某些亚细胞生物系统中的蛋白质的集合。例如,病毒中的所有蛋白质都可以被称为病毒蛋白质组。如本文所使用的,术语“蛋白质组”包含蛋白质组的子集,所述蛋白质组包含但不限于激酶组;分泌组;受体组(例如,GPCRome);免疫蛋白质组;营养蛋白质组;通过翻译后修饰(例如,磷酸化、泛素化、甲基化、乙酰化、糖基化、氧化、脂质化和/或亚硝基化)定义的蛋白质组子集,如磷酸化蛋白质组(例如,磷酸酪氨酸蛋白质组、酪氨酸蛋白质组和酪氨酸磷酸化蛋白质组)、糖蛋白组等;与组织或器官、发育阶段或生理或病理状况相关的蛋白质组子集;与细胞过程(如细胞循环、分化(或去分化)、细胞死亡、衰老、细胞迁移、转化或转移)有关的蛋白质组子集;或其任何组合。如本文所使用的,术语“蛋白质组学”是指细胞、组织和体液内的蛋白质组的定量分析,以及细胞内和组织内蛋白质组的相应空间分布。此外,蛋白质组学研究还包含蛋白质组的动态状态,其随生物学和特定的生物学或化学刺激而不断变化的时间。
如本文所使用的,术语“结合剂”是指与多肽或多肽的组分或特征结合、关联、联合、识别所述多肽或多肽的组分或特征或与其组合的核酸分子、肽、多肽、蛋白质、碳水化合物或小分子。结合剂可以与多肽或多肽的组分或特征形成共价缔合或非共价缔合。结合剂也可以是由两种或更多种类型的分子组成的嵌合结合剂,如核酸分子-肽嵌合结合剂或碳水化合物-肽嵌合结合剂。结合剂可以是天然存在的、合成产生的或重组表达的分子。结合剂可以结合多肽的单个单体或亚基(例如,多肽的单个氨基酸)或结合多肽的多个连接的亚基(例如,较长肽、多肽或蛋白质分子的二肽、三肽或更高阶肽)。结合剂可以结合线性分子或具有三维结构(也被称为构象)的分子。例如,抗体结合剂可以结合线性肽、多肽或蛋白质,或结合构象肽、多肽或蛋白质。结合剂可以结合至肽、多肽或蛋白质分子的N端肽、C端肽或中间肽。结合剂可以结合肽分子的N端氨基酸、C端氨基酸或中间氨基酸。相对于未经修饰或未标记的氨基酸,结合剂可以优选地结合经化学修饰或标记的氨基酸(例如,已被试剂(如本文所述的式(AA)化合物)官能化的氨基酸)。例如,结合剂可以优选地结合已经用乙酰基部分、鸟苷基部分、丹磺酰基部分、PTC部分、DNP部分、SNP部分等官能化的氨基酸,而非不具有所述部分的氨基酸。结合剂可以结合肽分子的翻译后修饰。结合剂可表现出与多肽组分或特征的选择性结合(例如,结合剂可选择性地结合20种可能的天然氨基酸残基之一,并以非常低的亲和力结合其它19种天然氨基酸残基或根本不与所述其它19种天然氨基酸残基结合)。结合剂可以表现出较少的选择性结合,其中结合剂能够结合多肽的多种组分或特征(例如,结合剂可以以相似的亲和力结合至两个或更多个不同的氨基酸残基)。结合剂包括编码标签,所述编码标签可以通过接头(linker)与编码标签结合剂连接。
如本文所使用的,术语“荧光团”是指在一个波长吸收电磁能并在另一波长重新发射能量的分子。荧光团可以是包含荧光染料和蛋白质的分子或分子的一部分。此外,荧光团可以通过化学、遗传或其它方式与另一分子连接或融合,以产生已用荧光团“标签化”的分子。
如本文所使用的,术语“接头”是指用于连接两个分子的核苷酸、核苷酸类似物、氨基酸、肽、多肽或非核苷酸化学部分中的一个或多个。接头可用于将结合剂与编码标签连接、将记录标签与多肽连接、将多肽与固体支持物连接、将记录标签与固体支持物连接等。在某些实施例中,接头通过酶促反应或者化学反应(例如,点击化学)连接两个分子。
如本文所使用的,术语“配体”是指与本文所述的化合物连接的任何分子或部分。“配体”可以指附着于化合物的一种或多种配体。在一些实施例中,配体是侧基或结合位点(例如,结合剂结合的位点)。
如本文所使用的,术语“非同源结合剂”是指与以高亲和力结合在特定结合循环反应中被询问的多肽特征、组分或亚基的“同源结合剂”相比,不能结合或以低亲和力结合相应的多肽特征、组分或亚基的结合剂。例如,如果在结合反应中询问肽分子的酪氨酸残基,则非同源结合剂是以低亲和力结合酪氨酸残基或根本不与酪氨酸残基结合的结合剂,使得在适于将编码标签信息从同源结合剂转移到记录标签的条件下,非同源结合剂不能有效地将编码标签信息转移到记录标签。可替代地,如果在结合反应中询问肽分子的酪氨酸残基,则非同源结合剂是以低亲和力结合酪氨酸残基或根本不与酪氨酸残基结合的结合剂,使得在对于涉及延伸型编码标签而不是延伸型记录标签的实施例合适的条件下,记录标签信息不能有效地转移到编码标签。
在肽链的一端具有游离氨基的末端氨基酸在本文中被称为“N端氨基酸”(NTAA)。注意,如本文的一些结构中所描绘的,氨基酸的侧链,包含NTAA,可以任选地环化到胺上;因此,如果侧链(如脯氨酸的侧链)环化到胺上,则游离氨基可能不是-NH2。然而,其是可接近的和亲核的胺,根据本文所述的方法进行官能化,并且官能化的NTAA在所述方法的切割条件下仍然进行消除。
链另一端的末端氨基酸通常具有游离羧基,并且在本文中被称为“C端氨基酸”(CTAA)。多肽通常通过C端氨基酸的羧基附着到载剂或表面;例如,CTAA通常用于将多肽附着或缀合到颗粒上以进行固相肽合成。本发明的方法可用于从附着到固体表面(如颗粒或珠子或载玻片)的此类C端缀合多肽和附着到载剂(如寡糖或其它载剂)的多肽以及游离多肽切割N端氨基酸残基。
构成肽的氨基酸可以按顺序编号,其中肽的长度为“n”个氨基酸。如本文所使用的,NTAA被认为是第n个氨基酸(在本文中也称为“n NTAA”)。使用此命名法,下一个氨基酸是n-1氨基酸,然后是n-2氨基酸,依此类推,即从N端到C端沿着肽段的长度递减。在某些实施例中,NTAA、CTAA或两者可以用化学部分官能化。
如本文所使用的,术语“条形码”是指约2个到约30个碱基(例如,2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个或30个碱基)的核酸分子,其提供多肽、结合剂、来自结合循环的结合剂集合、样品多肽、样品集合、隔室内的多肽(例如,液滴、珠子或分开的位置)、隔室集合内的多肽、多肽级分(fraction)、多肽级分集合、空间区域或空间区域集合、多肽文库或结合剂文库的唯一标识符标签或来源信息。条形码可以是人工序列或天然存在的序列。在某些实施例中,条形码群中的每个条形码是不同的。在其它实施例中,条形码群中的一部分条形码是不同的,例如,在条形码群中至少约10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、97%或99%的条形码是不同的。条形码的数量可以是随机生成的,也可以是非随机生成的。在某些实施例中,条形码群是纠错条形码。条形码可用于对多路复用的测序数据进行解卷积运算,并鉴定衍生自单个多肽、样品、文库等的序列读段。条形码还可用于对已分布到小隔室中的多肽集合进行解卷积以增强映射。例如,并非将肽映射回蛋白质组,而是将肽映射回其起源的蛋白质分子或蛋白质复合物。
“样品条形码”,也被称为“样品标签”,鉴定多肽衍生自哪个样品。
“空间条形码”鉴定多肽源自的2-D或3-D组织切片的哪个区域。空间条形码可用于组织切片上的分子病理学。空间条形码允许对来自组织切片的多个样品或文库进行多路复用测序。
如本文所使用,术语“编码标签”是指具有任何合适的长度(例如,约2个碱基到约100个碱基的核酸分子,包含包括2和100以及其间数字的任何整数)的多核苷酸,所述多核苷酸包括其相关联的结合剂的标识信息。“编码标签”也可以由“可测序的聚合物”制成(参见例如,Niu等人,2013,《自然化学(Nat.Chem.)》5:282-292;Roy等人,2015,《自然通讯(Nat.Commun.)》6:7237;Lutz,2015,《大分子(Macromolecules)》48:4759-4767;所述参考文献中的每一个均通过引用整体并入)。编码标签可以包括编码器序列,其任选地在一侧上侧接一个间隔子,或者在每一侧上侧接间隔子。编码标签还可以包括任选的UMI和/或可任的结合循环特异性条形码。编码标签可以是单链或双链的。双链编码标签可以包括平末端、悬垂末端或两者。编码标签可以指直接附着于结合剂的编码标签,指与直接附着于结合剂的编码标签杂交的互补序列(例如,用于双链编码标签),或指存在于延伸型记录标签中的编码标签信息。在某些实施例中,编码标签可以进一步包括结合循环特异性间隔子或条形码、唯一分子标识符、通用引发位点或其任何组合。
在一些实施例中,“编码器序列”或“编码器条形码”是指长度为约2个碱基到约30个碱基(例如2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个或30个碱基)的核酸分子,所述核酸分子提供其相关联的结合剂的标识信息。编码器序列可以唯一地鉴定其相关联的结合剂。在某些实施例中,编码器序列提供与其相关联的结合剂的标识信息以及使用所述结合剂的结合循环的标识信息。在其它实施例中,编码器序列与编码标签内的单独的结合循环特异性条形码结合。可替代地,编码器序列可以将其相关联的结合剂鉴定为两种或更多种不同结合剂的集合中的成员。在一些实施例中,这种程度的鉴定就足以用于分析目的。例如,在涉及结合至氨基酸的结合剂的一些实施例中,仅知道肽在特定位置包括两个可能的氨基酸之一就足够了,而非最终鉴定该位置处的氨基酸残基。在另一个实例中,通用编码器序列用于多克隆抗体,所述多克隆抗体包括识别蛋白质靶标的多于一个表位并具有变化特异性的抗体的混合物。在其它实施例中,在编码器序列鉴定可能的结合剂集合的情况下,可以使用顺序解码方法来产生每种结合剂的唯一鉴定。这是通过在重复的结合循环中改变给定结合剂的编码器序列来实现的(参见,Gunderson等人,2004,《基因组研究(Genome Res.)》14:870-7)。来自每个结合循环的部分鉴定的编码标签信息,当与来自其它循环的编码信息组合时,会为结合剂生成唯一的标识符,例如,编码标签的特定组合而非单个编码标签(或编码器序列)提供结合剂的唯一标识信息。优选地,结合剂文库内的编码器序列具有相同或相似数目的碱基。
如本文所使用的,术语“结合循环特异性标签”、“结合循环特异性条形码”或“结合循环特异性序列”是指用于鉴定在特定结合循环内使用的结合剂的文库的唯一序列。结合循环特异性标签的长度可以包括约2个碱基到约8个碱基(例如,2个、3个、4个、5个、6个、7个或8个碱基)。结合循环特异性标签可以作为间隔子序列的一部分、编码器序列的一部分、UMI的一部分或作为编码标签内的单独组分而并入结合剂的编码标签内。
如本文所使用的,术语“间隔子”(Sp)是指长度为约1个碱基到约20个碱基(例如,1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个碱基)的核酸分子,其出现在记录标签或编码标签的末端。在某些实施例中,间隔子序列在一端或两端侧接编码标签的编码器序列。结合剂与多肽结合后,分别在其相关联的编码标签和记录标签上的互补间隔子序列之间进行退火,可以通过引物延伸反应或连接将结合信息转移至记录标签、编码标签或双标签构建体。Sp'是指与Sp互补的间隔子序列。优选地,结合剂文库内的间隔子序列具有相同数目的碱基。可以在结合剂文库中使用通用(共享或相同)的间隔子。间隔子序列可以具有“循环特异性”序列,以便追踪在特定结合循环中使用的结合剂。间隔子序列(Sp)在所有结合循环中可以是恒定的,对于特定类别的多肽是特异性的,或者可以是结合循环数特异性的。多肽类别特异性间隔子允许存在于来自完整的结合/延伸循环的延伸型记录标签中的同源结合剂的编码标签信息退火至在后续结合循环中通过类别特异性间隔子识别相同类别多肽的另一结合剂的编码标签。只有正确的同源对的顺序结合才能导致相互作用的间隔子元件和有效的引物延伸。间隔子序列可以包括足够数量的碱基,以退火至记录标签中的互补间隔子序列,从而启动引物延伸(也被称为聚合酶延伸)反应,或为连接反应提供“夹板(splint)”,或介导“粘性末端”的连接反应。间隔子序列可以包括比编码标签内的编码器序列数量更少的碱基。
如本文所使用的,术语“记录标签”是指部分(例如,化学偶联部分)、核酸分子或可测序的聚合物分子(参见例如,Niu等人,2013,《自然化学》5:282-292;Roy等人,2015,《自然通讯》6:7237;Lutz,2015,《大分子》48:4759-4767;所述参考文献中的每一个均通过引用整体并入),可以将编码标签的标识信息转移至所述记录标签,或者可以将与记录标签相关联的大分子的标识信息(例如,UMI信息)从所述记录标签转移至编码标签。标识信息可以包括表征分子的任何信息,如与身份、样品、级分、分区、空间位置、相互作用的相邻分子、循环数等有关的信息。此外,UMI信息的存在也可以归类为标识信息。在某些实施例中,在结合剂结合多肽之后,来自与结合剂连接的编码标签的信息在结合剂与多肽结合之时可被转移至与该多肽相关联的记录标签。在其它实施例中,在结合剂结合多肽之后,来自与多肽相关联的记录标签的信息在结合剂与多肽结合之时可被转移至与结合剂连接的编码标签。重新编码标签可以直接连接到多肽,可以通过多功能接头与多肽连接,也可以由于其在固体支持物上的邻进性(proximity)(或共定位性(co-localization))而与多肽关联。记录标签可以通过其5'端或3'端或内部位置连接,只要该链接与用于将编码标签信息转移至记录标签的方法相容,反之亦然。记录标签可以进一步包括其它功能性组分,例如,通用引发位点、唯一分子标识符、条形码(例如,样品条形码、级分条形码、空间条形码、隔室标签等)、与编码标签的间隔子序列互补的间隔子序列或其任何组合。在其中聚合酶延伸用于将编码标签信息转移至记录标签的实施例中,记录标签的间隔子序列优选在记录标签的3'端。
如本文所使用的,术语“引物延伸”,也被称为“聚合酶延伸”,是指由核酸聚合酶(例如,DNA聚合酶)催化的反应,由此退火至互补链的核酸分子(例如,寡核苷酸引物、间隔子序列)以互补链为模板通过聚合酶延伸。
如本文所使用的,术语“唯一分子标识符”或“UMI”是指长度为约3个到约40个碱基(3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个或40个碱基)的核酸分子,其为UMI连接到的每种多肽或结合剂提供唯一的标识符标签。多肽UMI可用于对来自多个延伸型记录标签的测序数据进行计算解卷积(computationally deconvolute),以鉴定来自单个多肽的延伸型记录标签。结合剂UMI可用于鉴定与特定多肽结合的每个单独的结合剂。例如,UMI可用于鉴定对于特定肽分子发生的对单个氨基酸具有特异性的结合剂的单个结合事件的数目。应当理解,当在结合剂或多肽的上下文中均提及UMI和条形码时,条形码指的是除单个结合剂或多肽的UMI以外的标识信息(例如,样品条形码、隔室条形码、结合循环条形码)。
如本文所使用的,术语“通用引发位点”或“通用引物”或“通用引发序列”是指可以用于文库扩增和/或用于测序反应的核酸分子。通用引发位点可以包含但不限于用于PCR扩增的引发位点(引物序列)、退火至可在某些下一代测序平台中进行桥扩增的流通池表面上的互补寡核苷酸的流通池衔接子序列、测序引发位点或其组合。通用引发位点可用于其它类型的扩增,包含通常与下一代数字测序结合使用的扩增。例如,延伸型记录标签分子可以被环化(circularized),并且通用引发位点用于滚环扩增以形成可用作测序模板的DNA纳米球(Drmanac等人,2009,《科学(Science)》327:78-81)。可替代地,记录标签分子可通过从通用引发位点通过聚合酶延伸直接环化并直接测序(Korlach等人,2008,《美国国家科学院院刊(Proc.Natl.Acad.Sci.)》105:1176-1181)。当与“通用引发位点”或“通用引物”一起使用时,术语“正向”也可以被称为“5'”或“有义”。当与“通用引发位点”或“通用引物”一起使用时,术语“反向”也可以被称为“3'”或“反义”。
如本文所使用的,术语“延伸型记录标签”是指至少一个结合剂的编码标签(或其互补序列)的信息在结合剂与多肽结合之后已被转移至其上的记录标签。编码标签的信息可以直接(例如,连接)或间接(例如,引物延伸)转移至记录标签。编码标签的信息可以以酶或化学方式转移至记录标签。延伸型记录标签可以包括1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个、100个、125个、150个、175个、200个或更多个编码标签的结合剂信息。延伸型记录标签的碱基序列可以反映由其编码标签鉴定的结合剂的结合的时间和序列顺序(sequential order),可以反映由编码标签鉴定的结合剂的结合的部分序列顺序,或者可以不反映任何由编码标签鉴定的结合剂的结合顺序。在某些实施例中,延伸型记录标签中存在的编码标签信息表示被分析的多肽序列的至少25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性。在延伸型记录标签不表示具有100%同一性的被分析的多肽序列的某些实施例中,错误可能归因于结合剂的脱靶结合,或归因于“缺失”的结合循环(例如,由于因引物延伸反应失败,结合剂在结合循环期间未能与多肽结合),或归因于两者。
如本文所使用的,术语“延伸型编码标签”是指至少一个记录标签(或其互补序列)的信息在与编码标签连接的结合剂结合到与记录标签相关联的多肽之后已被转移至其上的编码标签。记录标签的信息可以直接(例如,连接)或间接(例如,引物延伸)转移至编码标签。记录标签的信息可以以酶或化学方式转移。在某些实施例中,延伸型编码标签包括反映一个结合事件的一个记录标签的信息。如本文所使用的,术语“双标签”或“双标签构建体”或“双标签分子”是指至少一个记录标签(或其互补序列)和至少一个编码标签(或其互补序列)的信息在与编码标签连接的结合剂结合到与记录标签相关联的多肽之后已被转移至其上的核酸分子(参见例如,图11B)。记录标签和编码标签的信息可以间接地转移至双标签(例如,引物延伸)。记录标签的信息可以以酶或化学方式转移。在某些实施例中,双标签包括记录标签的UMI、记录标签的隔室标签、记录标签的通用引发位点、编码标签的UMI、编码标签的编码器序列、结合循环特异性条形码、编码标签的通用引发位点或其任何组合。
如本文所使用的,术语“固体支持物”、“固体表面”或“固体基底”或“基底”是指任何固体材料,包含多孔和无孔材料,多肽可以通过本领域已知的任何方式(包含共价和非共价相互作用,或其任何组合)直接或间接地与所述固体材料缔合。固体支持物可以是二维的(例如,平面表面)或三维的(例如,凝胶基质或珠子)。固体支持物可以是任何支持物表面,包含但不限于珠子、微珠、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、尼龙、硅晶片芯片、流通芯片、流通池、包含信号转导电子器件的生物芯片、通道、微量滴定孔、ELISA板、旋转干涉盘、PTFE膜、硝化纤维素膜、基于硝酸纤维素的聚合物表面、聚合物基质、纳米颗粒或微球。用于固体支持物的材料包含但不限于丙烯酰胺、琼脂糖、纤维素、葡聚糖、硝酸纤维素、玻璃、金、石英、聚酯、聚丙烯酸酯、聚苯乙烯、聚乙烯醋酸乙烯酯、聚丙烯、聚甲基丙烯酸酯、聚乙烯、聚环氧乙烷、聚硅酸盐、聚碳酸酯、聚乙烯醇(PVA)、特氟隆、碳氟化合物、尼龙、硅橡胶、聚酐、聚乙醇酸、聚氯乙烯、聚乳酸、聚原酸酯、官能化硅烷、聚富马酸丙酯、胶原蛋白、糖胺聚糖、聚氨基酸、葡聚糖或其任何组合。固体支持物进一步包含薄膜、膜、瓶、盘、纤维、编织纤维、成型聚合物,如管、颗粒、珠子、微球、微粒或其任何组合。例如,当固体表面是珠子时,珠子可以包含但不限于陶瓷珠、聚苯乙烯珠、聚合物珠、聚丙烯酸酯珠、甲基苯乙烯珠、琼脂糖珠、纤维素珠、葡聚糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠、受控孔珠、基于二氧化硅的珠子或其任何组合。珠子可以是球形的或不规则形状的。珠子的尺寸范围可以在纳米级(例如,100nm)到毫米级(例如,1mm)的范围内。在某些实施例中,珠子的尺寸范围为约0.2微米到约200微米,或约0.5微米到约5微米。在一些实施例中,珠子的直径可以为约1、1.5、2、2.5、2.8、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、15或20μm。在某些实施例中,“珠子”固体支持物可以指单个珠子或多个珠子。在一些实施例中,固体表面是纳米颗粒。在某些实施例中,纳米颗粒的尺寸范围为直径约1nm到约500nm、例如,介于约1nm和约20nm之间、介于约1nm和约50nm之间、介于约1nm和约100nm之间、介于约10nm和约50nm之间、介于约10nm和约100nm之间、介于约10nm和约200nm之间、介于约50nm和约100nm之间、介于约50nm和约150之间、介于约50nm和约200nm之间、介于约100nm和约200nm之间或介于约200nm和约500nm之间。在一些实施例中,纳米颗粒的直径可以为约10nm、约50nm、约100nm、约150nm、约200nm、约300nm或约500nm。在一些实施例中,纳米颗粒的直径小于约200nm。
在许多情况下,本文所述的化合物能够与酸或碱形成盐,并且本发明旨在包含这些化合物的稳定盐。实际上,在某些情况下,例如出于稳定性或溶解性的原因,使用或分离盐而不是中性化合物是有利的;并且在某些情况下,化合物在将其产生为盐的培养基中制备,或者在产生盐的培养基中使用。此外,包括多肽或氨基酸的化合物通常包含适合成盐的一个或多个可离子化基团。因此,本发明包含接受酸性质子的化合物的酸加成盐,和容易提供质子的化合物的碱加成盐,以及具有酸性和碱性两种性质的化合物的两性离子形式,许多多肽都是这种情况。
对于含有碱性氮的本发明化合物,合适的盐可以通过本领域可用的任何适合的方法制备,例如,用以下酸处理游离碱:无机酸,如盐酸、氢溴酸、硫酸、氨基磺酸、硝酸、硼酸、磷酸等;或有机酸,如乙酸、苯乙酸、丙酸、硬脂酸、乳酸、抗坏血酸、马来酸、羟基马来酸、羟乙基磺酸、琥珀酸、戊酸、富马酸、丙二酸、丙酮酸、草酸、乙醇酸、水杨酸、油酸、棕榈酸、月桂酸;吡喃糖苷酸,如葡糖醛酸或半乳糖醛酸;α-羟基酸,如扁桃酸、柠檬酸或酒石酸;氨基酸,如天冬氨酸或谷氨酸;芳香族酸,如苯甲酸、2-乙酰氧基苯甲酸、萘甲酸或肉桂酸;磺酸,如月桂基磺酸、p-甲苯磺酸、甲磺酸或乙磺酸;或任何相容的酸混合物,如本文作为实例给出的酸;以及根据本发明技术的普通技术水平被视为等效物或可接受的取代物的任何其它酸和其混合物。
合适的盐的实例包含硫酸盐、焦硫酸盐、硫酸氢盐、亚硫酸盐、重亚硫酸盐、磷酸盐、磷酸一氢盐、磷酸二氢盐、偏磷酸盐、焦磷酸盐、氯化物、溴化物、碘化物、乙酸盐、丙酸盐、癸酸盐、辛酸盐、丙烯酸盐、甲酸盐、异丁酸盐、己酸盐、庚酸盐、丙炔酸盐、草酸盐、丙二酸盐、琥珀酸盐、辛二酸盐、癸二酸盐、富马酸盐、马来酸盐、丁炔-1,4-二酸盐、己炔-1,6-二酸盐、苯甲酸盐、氯苯甲酸盐、甲基苯甲酸盐、二硝基苯甲酸酯、羟基苯甲酸盐、甲氧基苯甲酸盐、邻苯二甲酸盐、磺酸盐、甲基磺酸盐、丙基磺酸盐、苯磺酸盐、二甲苯磺酸盐、萘-1-磺酸盐、萘-2-磺酸盐、苯乙酸盐、苯丙酸盐、苯丁酸盐、柠檬酸盐、乳酸盐、γ-羟基丁酸盐、乙醇酸盐、酒石酸盐和扁桃酸盐。
可以用碱处理具有酸性部分的本发明化合物以产生具有带正电荷的抗衡离子的盐,并且这些盐也适用于本发明的化合物和方法。它们包含盐,如钠、锂、钾、钙、镁、铵、烷基化铵、季铵等。除这些之外,碱可以是环胺,如哌啶、哌嗪、吗啉、DBU、DABCO、N-甲基吗啉、吡啶、DMAP和类似的接受质子的化合物,包含可能过量存在于形成本发明化合物的反应混合物中,因此至少在反应混合物中可与化合物形成盐的二杂亲核试剂(如肼)。术语“盐(salt或salts)”旨在包含所有这些类型的盐。
如本文所使用的,术语“核酸分子”或“多核苷酸”是指含有通过3'-5'磷酸二酯键连接的脱氧核糖核苷酸或核糖核苷酸的单链或双链多核苷酸,以及多核苷酸类似物。核酸分子包含但不限于DNA、RNA和cDNA。多核苷酸类似物可以具有除天然多核苷酸中发现的标准磷酸二酯连接以外的主链,以及任选地具有除核糖或脱氧核糖以外的经修饰的一个或多个糖部分。多核苷酸类似物含有能够通过Watson-Crick碱基配对与标准多核苷酸碱基氢键合的碱基,其中类似物主链以允许在寡核苷酸类似分子和标准多核苷酸中的碱基之间以序列特异性方式形成这种氢键合的方式呈现碱基。多核苷酸类似物的实例包含但不限于异种核酸(XNA)、桥连核酸(BNA)、二醇核酸(GNA)、肽核酸(PNA)、γPNA、吗啉代多核苷酸、锁核酸(LNA)、苏糖核酸(TNA)、2'-O-甲基多核苷酸、2'-O-烷基核糖基取代的多核苷酸、硫代磷酸酯多核苷酸和硼酸磷酸酯多核苷酸。多核苷酸类似物可以具有嘌呤或嘧啶类似物、包含例如7-脱氮嘌呤类似物、8-卤代嘌呤类似物、5-卤代嘧啶类似物或可与任何碱基配对的通用碱基类似物,包含次黄嘌呤、硝基唑、异卡比丁酮类似物、唑羧酰胺和芳香族三唑类似物或具有额外功能的碱基类似物,如用于亲和结合的生物素部分。在一些实施例中,核酸分子或寡核苷酸是经修饰的寡核苷酸。在一些实施例中,核酸分子或寡核苷酸是具有伪互补碱基的DNA、具有受保护碱基的DNA、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、γPNA分子或吗啉代DNA或其组合。在一些实施例中,核酸分子或寡核苷酸是主链修饰的、糖修饰的或核碱基修饰的。在一些实施例中,核酸分子或寡核苷酸具有核碱基保护基团(如Alloc)、亲电保护基团(如硫烷)、乙酰基保护基团、硝基苄基保护基团、磺酸酯保护基团或传统的碱基不稳定的保护基团。
如本文所使用的,“核酸测序”是指确定核酸分子或核酸分子样品中核苷酸的顺序。
如本文所使用的,“下一代测序”是指允许并行测序数百万至数十亿个分子的高通量测序方法。下一代测序方法的实例包含合成测序、连接测序、杂交测序、聚合酶集落测序(polony sequencing)、离子半导体测序和焦磷酸测序。通过将引物附着至固体基底并将互补序列附着至核酸分子,可以通过引物将核酸分子与固体基底杂交,然后可以使用聚合酶扩增在固体基底的离散区域中生成多个拷贝(这些分组有时被称为聚合酶集落或克隆)。因此,在测序过程中,可以对特定位置的核苷酸进行多次测序(例如,数百或数千次)–这种覆盖深度称为“深度测序”。高通量核酸测序技术的实例包含Illumina、BGI、Qiagen、Thermo-Fisher和Roche提供的平台,包含如平行微珠阵列、合成测序、连接测序、毛细管电泳、电子微芯片、“生物芯片”、微阵列、平行微芯片和单分子阵列等格式,由Service审查(《科学》311:1544-1546,2006)。
如本文所使用的,“单分子测序”或“第三代测序”是指下一代测序方法,其中通过对单个DNA分子进行测序来生成来自单分子测序仪器的读段。与依靠扩增来并行克隆许多DNA分子以分阶段进行测序的下一代测序方法不同,单分子测序可以询问DNA的单分子,并且不需要扩增或同步。单分子测序包含在每个碱基并入后需要暂停测序反应的方法(“洗涤和扫描”循环)和不需要在读取步骤之间停止的方法。单分子测序方法的实例包含单分子实时测序(Pacific Biosciences)、基于纳米孔的测序(Oxford Nanopore)、双链体中断纳米孔测序以及使用高级显微镜对DNA进行直接成像。
如本文所使用的,“分析”多肽是指对多肽的全部或部分组分进行鉴定、检测、定量、表征、区分或其组合。例如,分析肽、多肽或蛋白质包含确定肽的全部或部分氨基酸序列(连续或非连续)。分析多肽还包含对多肽的组分的部分鉴定。例如,多肽蛋白质序列中氨基酸的部分鉴定可以鉴定蛋白质中的氨基酸属于可能的氨基酸的子集。分析通常从对n NTAA的分析开始,然后进行到肽的下一个氨基酸(即n-1、n-2、n-3等)。这是通过消除n NTAA,从而将肽的n-1氨基酸转化为N端氨基酸(在本文中被称为“n-1NTAA”)来实现的。分析肽还可以包含确定肽上翻译后修饰的存在和频率,其可以包含或可以不包含关于肽上翻译后修饰的序列顺序的信息。分析肽还可以包含确定肽中表位的存在和频率,其可以包含或可以不包含关于表位在肽内的序列顺序或位置的信息。分析肽可以包含组合不同类型的分析,例如获得表位信息?氨基酸序列信息、翻译后修饰信息或其任何组合。
如本文所使用的,术语“隔室”是指从多肽样品中分离(separate或isolate)多肽子集的物理区域或体积。例如,隔室可以将单个细胞与其它细胞分开,或者将样品蛋白质组的子集与样品蛋白质组的其余部分分开。隔室可以是水性隔室(例如,微流体液滴)、固体隔室(例如,板、管、小瓶、凝胶珠子上的微微量滴定孔(picotiter well)或微量滴定孔(microtiter well))或表面上的分开区域。隔室可以包括一个或多个可固定多肽的珠子。
如本文所使用的,术语“隔室标签”或“隔室条形码”是指约4个碱基到约100个碱基(包含4个碱基、100个碱基以及其间的任何整数)的单链或双链核酸分子,其包括一个或多个隔室(例如,微流体液滴)内的成分(例如,单个细胞的蛋白质组)的标识信息。隔室条形码鉴定已经从多个(例如,数百万到数十亿个)隔室被分成相同的物理隔室或隔室组的样品中的多肽的子集。因此,即使在将成分合并在一起之后,隔室标签也可用于区分源自具有相同隔室标签的一个或多个隔室的成分以及具有不同隔室标签的另一隔室中的成分。通过用唯一的隔室标签标记每个隔室内或两个或更多个隔室内的蛋白质和/或肽,可以鉴定出来自单个隔室或隔室组内相同蛋白质、蛋白质复合物或细胞的肽。隔室标签包括条形码和任选的通用引物,所述条形码任选地在一侧或两侧侧接间隔子序列。所述间隔子序列可以与记录标签的间隔子序列互补,从而能够将隔室标签信息转移到记录标签。隔室标签还可以包括通用引发位点、唯一分子标识符(用于提供与其附着的肽的标识信息)或两者,特别是对于其中隔室标签包括将在本文所述的下游肽分析方法中使用的记录标签的实施例。隔室标签可以包括用于偶联至肽的功能性部分(例如,醛、NHS、mTet、炔烃等)。可替代地,隔室标签可以包括肽,所述肽包括蛋白质连接酶的识别序列,以允许隔室标签与所关注的肽连接。隔室可以包括单个隔室标签、针对任选的UMI序列保存的多个相同的隔室标签、或两个或更多个不同的隔室标签。在某些实施例中,每个隔室包括唯一的隔室标签(一对一映射)。在其它实施例中,来自较大隔室群的多个隔室包括相同的隔室标签(多对一映射)。隔室标签可以与隔室内的固体支持物(例如,珠子)连接,或者可以与隔室本身的表面(例如,微微量滴定孔的表面)连接。可替代地,隔室标签可以在隔室内的溶液中游离。
如本文所使用的,术语“分区”是指将唯一条形码分配(例如,随机分配)给来自样品内多肽群的多肽亚群。在某些实施例中,可以通过将多肽分配到隔室中来实现划分。分区可以由单个隔室内的多肽或来自一组隔室的多个隔室内的多肽组成。
如本文所使用的,“分区标签”或“分区条形码”是指约4个碱基到约100个碱基(包含4个碱基、100个碱基以及其间的任何整数)的单链或双链核酸分子,其包括分区的标识信息。在某些实施例中,多肽的分区标签是指由将多肽划分到用相同条形码标记的一个或多个隔室中而产生的相同的隔室标签。
如本文所使用的,术语“级分”是指样品内的多肽子集,已使用物理或化学分离方法将其从样品或细胞器的其余部分分选,如按大小、疏水性、等电点、亲和力等进行分级。分离方法包含HPLC分离、凝胶分离、亲和分离、细胞分级、细胞器分级、组织分级等。如流体流动、磁性、电流、质量、密度等物理性质也可以用于分离。
如本文所使用的,术语“级分条形码”是指约4个碱基到约100个碱基(包含4个碱基、100个碱基以及其间的任何整数)的单链或双链核酸分子,其包括级分内的多肽的标识信息。
如本文所使用的,术语“脯氨酸氨肽酶”是指能够从多肽中特异性地切割N端脯氨酸的酶。具有这种活性的酶是本领域众所周知的,并且也可以称为脯氨酸亚氨基肽酶或PAP。已知的单体PAP包含来自凝结芽孢杆菌(B.coagulans)、德氏乳杆菌(L.delbrueckii)、淋病奈瑟菌(N.gonorrhoeae)、脑膜炎黄杆菌(F.meningosepticum)、粘质沙雷氏菌(S.marcescens)、嗜酸热原体菌(T.acidophilum)、植物乳杆菌(L.plantarum)的家族成员(MEROPS S33.001)(Nakajima、Ito等人,2006)(Kitazono、Yoshimoto等人,1992)。已知的多聚体PAP包含汉斯德巴氏酵母菌(D.hansenii)(Bolumar、Sanz等人,2003)和来自其它物种的类似同源物(Basten、Moers等人,2005)。可以采用PAP的天然或工程化变体/突变体。
如本文所使用的,术语“烷基”是指并包含具有指定碳原子数(即,C1-C10或C1-10表示一到十个碳)的饱和的直链和支链一价烃结构及其组合。特定的烷基是具有1到20个碳原子的烷基(“C1-C20烷基”)。更特别的烷基是具有1到8个碳原子的烷基(“C1-C8烷基”)、3到8个碳原子的烷基(“C3-C8烷基”)、1到6个碳原子的烷基(“C1-C6烷基”)、1到5个碳原子的烷基(“C1-C5烷基”)或1到4个碳原子的烷基(“C1-C4烷基”),除非另有说明。烷基实例包含但不限于如甲基、乙基、正丙基、异丙基、正丁基、叔丁基、异丁基、仲丁基等基团,例如正戊基、正己基、正庚基、正辛基的同系物和异构体等。
如本文所使用的,“烯基”是指不饱和的直链或支链一价烃链或其组合,其具有至少一个烯键式不饱和位点(即,具有至少一个式C=C的部分)并且具有指定的碳原子数(即,C2-C10表示二到十个碳原子)。烯基可以是“顺式”或“反式”构型或可替代地是“E”或“Z”构型。特定的烯基是具有2到20个碳原子的烯基(“C2-C20烯基”)、具有2到8个碳原子的烯基(“C2-C8烯基”)、具有2到6个碳原子的烯基(“C2-C6烯基”)或具有2到4个碳原子的烯基(“C2-C4烯基”)。烯基的实例包含但不限于如乙烯基(ethenyl或vinyl)、丙-1-烯基、丙-2-烯基(或烯丙基)、2-甲基丙-1-烯基、丁-1-烯基、丁-2-烯基、丁-3-烯基、丁-1,3-二烯基、2-甲基丁-1,3-二烯基等基团、其同系物和异构体等。
术语“氨基烷基”是指被一或多个-NH2基团取代的烷基。在某些实施例中,氨基烷基被一个、两个、三个、四个、五个或更多个-NH2基团取代。氨基烷基可以任选地被一个或多个本文所述的额外取代基取代。
如本文所使用的,“芳基”或“Ar”是指具有单个环(例如,苯基)或多个稠合环(例如,萘基或蒽基)的不饱和芳香族碳环基团,所述稠合环可以是芳香族的或可以不是芳香族的。在一个变形中,芳基含有6到14个环状碳原子。具有多于一个环(其中至少一个环为非芳香族)的芳基可以在芳香族环位置处或在非芳香族环位置处连接至母体结构。在一个变形中,具有多于一个环(其中至少一个环为非芳香族)的芳基在芳香族环位置处连接至母体结构。在一些实施例中,苯基是优选的芳基。
如本文所使用的,术语“芳基烷基”是指通过如本文定义的烷基附接到母体分子部分的如本文定义的芳基。芳基烷基的代表性实例包含但不限于苄基、2-苯乙基、3-苯丙基、2-萘-2-基乙基等。
如本文所使用的,术语“环烷基”是指并包含环状一价烃结构,其可以是完全饱和的、单不饱和或多不饱和的,但其是非芳香族的,具有指定的碳原子数(例如,C1-C10表示一到十个碳)。环烷基可以由一个环组成(如环己基),或由多个环组成(如金刚烷基),但不包括芳基。包括多于一个环的环烷基可以是稠合、螺环或桥连的,或其组合。在一些实施例中,环烷基是具有3到13个环状碳原子的环烃。在一些实施例中,环烷基是具有3到8个环状碳原子的环烃(“C3-C8环烷基”)。环烷基的实例包含但不限于环丙基、环丁基、环戊基、环己基、1-环己烯基、3-环己烯基、环庚基、降冰片基等。
如本文所使用的,“卤素”表示氯、氟、溴或碘。术语“卤代”表示氯、氟、溴或碘。
如本文所使用的,“卤代烷基”是指如上文所描述的烷基,其中烷基上的一个或多个氢原子已经被卤代基团替代。此类基团的实例包含但不限于氟烷基,如氟乙基、三氟甲基、二氟甲基、三氟乙基等。
如本文所使用的,术语“杂芳基”是指并包含具有1到10个环状碳原子和至少一个环状杂原子的不饱和芳香族环状基团,包含但不限于如氮、氧和硫等杂原子,其中氮和硫原子被任选地氧化,并且氮原子被任选地季铵化。应当理解,杂芳基环中杂原子的选择和顺序必须符合标准化合价要求并提供芳香族环特征,并且还必须提供对于在本文所述的反应中使用而言足够稳定的环。通常,除非另外说明,否则杂芳基环具有5-6个环原子和1-4个杂原子,所述杂原子选自N、O和S;双环杂芳基含有两个5-6元环,它们共享一个键并含有选自N、O和S的至少一个杂原子和至多5个杂原子作为环成员。杂芳基可以在环状碳或环状杂原子处附着于分子的其余部分,在这种情况下,杂原子通常为氮。杂芳基可以含有额外的稠合环(例如,1到3个环),包含额外的稠合芳基、杂芳基、环烷基和/或杂环基环。杂芳基的实例包含但不限于吡唑基、咪唑基、三唑基、吡咯基、吡啶基、嘧啶基、吡嗪基、哒嗪基、三嗪基、噻吩基、呋喃基、噻唑基等。
如本文所使用的,术语“杂环(heterocycle)”,“杂环(heterocyclic)”或“杂环基(heterocyclyl)”是指具有1到10个环状碳原子和1到4个环状杂原子的饱和或不饱和非芳香族基团,如氮、硫或氧等,其中氮和硫原子被任选地氧化,并且氮原子被任选地季铵化。杂环基可以具有一个环或多个稠合环,但不包括杂芳基。包括多于一个环的杂环可以是稠合、螺环或桥连的,或其任何组合。在稠合环系统中,一个或多个稠合环可以是芳基或杂芳基。杂环基的实例包含但不限于四氢吡喃基、二氢吡喃基、哌啶基、哌嗪基、吡咯烷基、噻唑啉基、噻唑烷基、四氢呋喃基、四氢噻吩基、2,3-二氢苯并[b]噻吩-2-基、4-氨基-2-氧嘧啶-1(2H)-基等。
如本文所使用的,术语“副产物”是指在具有官能化的NTAA的多肽的产生或随后反应期间形成的副产物,如下式的硫脲
Figure BDA0003324885590000611
或如本文所述的式(II)化合物或式(IV)化合物,其中副产物通过官能化多肽的水解、分子内环化或氧化产生,然后官能化多肽经历朝着NTAA切割方向发展的反应,如在方案I中描绘的反应。本文描述了副产物的实例。在一些实施例中,在被设计用于从多肽上切割NTAA的一系列步骤之后,副产物可以保留修饰形式的NTAA。在本文的一些方法中,可以在NTAA切割方法中包含鉴定或检测一种或多种所述副产物的任选的步骤。
术语“取代的”是指指定的基团或部分带有一个或多个取代基以代替未经取代的基团的氢原子,包含但不限于以下取代基:如烷氧基、酰基、酰氧基、羰基烷氧基、酰胺基、氨基、氨酰基、氨基羰氨基、氨基羰氧基、环烷基、环烯基、芳基、杂芳基、芳氧基、氰基、叠氮基、卤基、羟基、硝基、羧基、硫醇基、硫代烷基、环烷基、环烯基、烷基、烯基、炔基、杂环基、芳烷基、氨基磺酰基、磺酰基氨基、磺酰基、氧基、羰基亚烷基烷氧基等。术语“未经取代的”是指指定的基团不带有取代基。术语“任选地被取代”是指指定的基团未被取代或被一个或多个取代基取代,因此包含该基团的经取代和未经取代的形式。在使用术语“经取代的”来描述结构系统的情况下,取代意指在系统上的任何化合价允许的位置处发生。
如本文所使用的,术语“二杂亲核试剂”是指在杂原子(通常是氮)处具有亲核特性的化合物,所述杂原子与另一个杂原子直接键合。典型的实例包含具有通过单键附着到另一个杂原子的氮的胺化合物,所述杂原子通常选自N、O和S。常见的实例是肼和羟胺化合物。胺氮可以被取代,只要它保留亲核特性,并且所附着的N、O或S也可以被取代。用于本发明的方法和试剂盒的一些合适的二杂亲核试剂包含:
Figure BDA0003324885590000621
如本领域中众所周知的,本文描述或描绘的结构可能能够形成多个互变异构体。存在的特定互变异构体通常取决于溶剂、pH和其它环境因素以及结构本身。此处示出了互变异构的实例,其中可以绘制至少三种不同的互变异构体来表示一种化合物:
Figure BDA0003324885590000622
当化合物可以以多于一种互变异构形式存在时,通常描绘或描述一种互变异构体,并且该结构被理解为表示每个稳定的互变异构体以及互变异构体的混合物。具体地说,被羟基或胺基取代的胍基和杂芳基通常能够存在于多个互变异构体中,并且一个互变异构体的描述或描绘被理解为包含同一化合物的其它互变异构体。
本发明的方法利用新颖的方式来使N端氨基酸官能化,以形成如本文所述的式(II)化合物,并在pH 5-10左右的温和条件下诱导消除这些化合物的官能化NTAA,如方案I中所示。
方案I.
Figure BDA0003324885590000631
这些反应,如方案I中所示,导致在温和条件下从多肽上裂切割NTAA,从而实现用于从多肽中去除NTAA的新方法。与埃德曼降解一样,每个NTAA的切割都会产生副产物,所述副产物由被去除的NTAA的结构决定并因此指示其结构。由于该方法可以重复使用,以从多肽中一次去除一个NTAA,因此本发明包含使用这些反应和中间体对多肽进行测序的方法,从N端开始,一次去除一个NTAA,并鉴定每个切割副产物以鉴定刚被去除的NTAA。
所涉及的温和反应条件使得在存在酸敏感性部分(如核酸)的情况下进行这些反应成为可能。本文提供的数据,参见实施例和图53-54,表明核酸对于根据本发明的方法用于活化(例如,官能化)NTAA的条件和用于去除官能化的NTAA的条件是稳定的。因此,这些方法可以与利用核酸标签的技术相结合,以记录有关在反应发生时被官能化和去除的每个NTAA的信息。如本文数据所示,核酸对于用于多肽的NTAA的官能化和切割的条件是稳定的。因此,本发明还提供了将本文公开的NTAA切割化学与核酸结合使用的方法,所述核酸可用于在官能化和切割反应发生时记录有关多肽的序列信息。这提供了一种产生编码关于多肽结构的信息的多核苷酸的方法,从而允许用户利用本领域已知的快速且稳健的测序方法来读取原始多核苷酸的序列。这些方法在本文的图1-55中示出。
以下列举的实施例表示本发明的某些方面。
1.一种从式(I)的肽类化合物上切割N端氨基酸残基的方法
Figure BDA0003324885590000641
其中所述方法包括:
(1)将所述肽类化合物转化为式(II)的胍基衍生物或其互变异构体:
Figure BDA0003324885590000642
以及
(2)使所述胍基衍生物与合适的培养基接触以产生式(III)化合物
Figure BDA0003324885590000643
其中:
R1为R3、NHR3、-NHC(O)-R3或-NH-SO2-R3
R2为H、R4、OH、OR4、NH2或-NHR4
R3为H或选自苯基、5元杂芳基、6元杂芳基、C1-3卤代烷基和C1-6烷基的任选取代的基团,
其中任选的取代基是选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2、CON(R')2、苯基、5元杂芳基、6元杂芳基和C1-6烷基的一个到三个成员,其中所述苯基、5元杂芳基、6元杂芳基和C1-6烷基各自任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代;
其中每个R'独立地为H或C1-3烷基;
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
并且其中位于同一氮上的两个R'或两个R"可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代;
RAA1和RAA2各自独立地为选择的氨基酸侧链;
并且将RAA1和/或RAA2连接到最近的N原子的虚线半圆表示RAA1和/或RAA2可以任选地环化到指定的N原子上;并且
Z为-COOH、CONH2或任选地附着至载剂或固体支持物的氨基酸或多肽。
在此方法的许多实施例中,式(II)化合物中的R1和R2并不都是H。在此实施例的优选实例中,R2为H或R4。RAA1和RAA2各自表示氨基酸侧链,其可以是天然氨基酸或非天然氨基酸的侧链。氨基酸侧链可以具有翻译后修饰。在此实施例的特定实例中,RAA1和RAA2独立地选自常见氨基酸或蛋白质氨基酸,并且可以任选地被修饰以包含通常存在于体内天然蛋白质上的一种或多种PTM。这些实施例中的5元杂芳基通常是包括选自N、O和S的一个到三个杂原子作为环成员的5元环。这些实施例中的6元杂芳基通常是包括一个到三个氮原子作为环成员的6元环。
2.根据实施例1所述的方法,其中Z是多肽。
3.根据实施例1或2所述的方法,其中Z是附着于固体支持物的多肽。
4.根据实施例3所述的方法,其中将所述多肽直接或间接附着到所述固体支持物。
在此实施例中,可以通过常规方法将多肽Z直接附着到固体支持物上,通常利用C端羧基与所述固体支持物上的胺或羟基形成酰胺或酯。可替代地,所述多肽可以通过任何合适的连接基团连接到所述固体支持物;因此,在一些实施例中,所述多肽可以附着到核酸上,所述核酸进而附着到所述固体支持物上,通过共价方式或通过非共价方式(如结合到所述固体支持物上的互补序列)。
5.根据实施例4所述的方法,其中将所述多肽共价附着到所述固体支持物。
6.根据实施例1到5中任一项所述的方法,其中将所述多肽附着到核酸上,所述核酸任选地共价连接至固体支持物。
在这些实施例中的一些实施例中,所述多肽附着至在溶液中游离的核酸,从而充当载剂。在这些实施例中的一些实施例中,所述多肽通常通过共价附着而附着至核酸。在这些实施例中的一些实施例中,所述核酸通过非共价力(如通过与固定在固体支持物上的互补核酸结合)而被固定到固体支持物上。在这些实施例中的其它实施例中,所述核酸共价附着至固体支持物。
7.根据实施例1到6中任一项所述的方法,其中所述固体支持物是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、PTFE膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。
8.根据实施例7所述的方法,其中所述支持物是聚苯乙烯珠、聚丙烯酸酯珠、聚合物珠、琼脂糖珠、纤维素珠、葡聚糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠、受控孔珠、基于二氧化硅的珠子或其任何组合。
9.根据实施例1到8中任一项所述的方法,其中将所述多肽直接或间接附着到载剂。合适的载剂包含核酸、寡糖、可用于追踪或鉴定多肽的标记(如荧光团)以及可用于定位多肽的结合基团(如抗生物素蛋白或链霉抗生物素蛋白)。
10.根据实施例1到9中任一项所述的方法,其中式(I)化合物中的至少一个氨基酸侧链包括翻译后修饰。PTM可能位于RAA1或RAA2上,或位于基团Z中的氨基酸侧链上。
11.根据实施例1到10中任一项所述的方法,其中用于步骤(2)的所述合适的培养基具有高于5,优选地介于约5和14之间的pH,并且任选地包含氢氧化物、碳酸盐、磷酸盐、硫酸盐或胺。在一些实施例中,所述pH介于5和13之间,或介于7和10之间。在一些实施例中,所述pH介于5和9之间。在一些实施例中,所述合适的培养基是包括一些水并具有介于约8和14之间的pH的碱性培养基,并且任选地包括氢氧化铵或肼。在一些实施例中,所述合适的培养基包括缓冲剂,以帮助将pH保持在7和14之间,或8和13之间。
12.根据实施例11所述的方法,其中所述合适的培养基包括氨或氨基化合物。
在实施例1到12中的任一个中,所述合适的培养基可以包括任选地与水混溶性溶剂(如乙腈、THF或DMSO)组合的氨或氢氧化铵。当如实施例1所述,式(II)化合物中的R2为H且R1为任选取代的苯基、5元杂芳基、6元杂芳基或C1-6烷基时,所述培养基可以包括氢氧化铵,通常介于5%氢氧化铵和20%氢氧化铵之间,用于步骤2。第二步的条件还可以包含将混合物加热至高于环境温度的温度,例如加热至介于40℃和100℃之间的温度,通常介于45℃和75℃之间。
13.根据实施例11所述的方法,其中所述培养基包括二杂亲核试剂。
在这些实施例中,所述二杂亲核试剂通常是肼或羟胺化合物,如选自以下这些化合物的化合物:
Figure BDA0003324885590000671
当式(II)中的R2为H并且式(II)中的R1为NH2或NHR4时,所述方法特别适用。在这些实施例中,肼或式R4-NH-NH2的经取代的肼可用于形成式(II)化合物,例如通过以下实施例18中的反应,并促进官能化NTAA的消除以提供式(III)化合物。
14.根据实施例1到13中任一项所述的方法,其中R2为H,并且任选地R1不是H。
15.根据实施例1到14中任一项所述的方法,其中R1为NH2
16.根据实施例1到14中任一项所述的方法,其中R1为任选地被卤代、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'或CON(R')2取代的苯基,其中每个R'独立地为H或C1-3烷基,
并且其中位于同一氮上的两个R'可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代。
17.根据实施例1所述的方法,其中所述式(I)化合物具有式(IA):
Figure BDA0003324885590000681
并且所述式(III)化合物是式(IIIA)化合物:
Figure BDA0003324885590000682
其中n是1到1000的整数;
RAA1和RAA2如实施例1中所定义;
将RAA1和RAA2和RAA3连接相邻N原子的虚线半圆表示RAA1和/或RAA2和/或RAA3可以任选地环化到指定的相邻N原子上;并且
每个RAA3独立地选自氨基酸侧链,包含天然和非天然氨基酸;
并且Z'为OH或NH2,或者Z'为附着到载剂或固体支持物上的O或N。
在这些实施例中,n通常介于1和500之间,或介于1和100之间。
18.根据实施例1到14中任一项所述的方法,其中通过以下步骤来产生式(II)的胍基衍生物:将式(I)的肽类化合物转化为式(IV)化合物:
Figure BDA0003324885590000683
其中环A为含有至多三个N原子作为环成员的5-6元杂芳基环,其任选地稠合至额外的5-6元杂芳基或苯基环,并且其中所述5-6元杂芳基环和任选的额外的5-6元杂芳基或苯基环各自任选地被选自C1-4烷基、C1-4烷氧基、-OH、卤代、C1-4卤代烷基、NO2、COOR、CONR2、-SO2R*和-NR2的至多四个基团取代;
其中每个R独立地选自H和任选地被OH、OR*、-NH2和-NR*2取代的C1-3烷基;并且
每个R*为C1-3烷基,其任选地被OH、C1-2烷氧基、-NH2或CN取代;
或其盐;
其中位于同一氮上的两个R或两个R*可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代;
将RAA1和RAA2连接到最近的N原子的虚线半圆表示RAA1和/或RAA2任选地环化到指定的N原子上;
然后将此化合物与二杂亲核试剂接触,任选地在存在缓冲液的情况下,以产生式(II)化合物。
在这些实施例中,R2、RAA1、RAA2和Z如实施例1中所定义,或者它们可以如前述实施例中的任一个中所定义。在这些实施例的优选实例中,A是含有至多三个N原子作为环成员的5元杂芳基环,并且当存在时,5-6元杂芳基通常是包括选自N、O和S的一个到三个杂原子作为环成员的5元环,或包括一个到三个氮原子作为环成员的6元环。将所述化合物与二杂亲核试剂接触的步骤可以包括使式(IV)化合物与肼或C1-C6烷基肼接触,任选地在存在提供介于8和13之间的pH的磷酸盐或碳酸盐缓冲液的情况下。
19.根据实施例18所述的方法,其中通过以下步骤来将式(I)的肽类化合物转化为式(IV)化合物:使式(I)化合物与下式化合物接触:
Figure BDA0003324885590000691
其中:
R2为H、R4、OH、OR4、NH2或-NHR4
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,其中每个R"独立地为H或C1-3烷基;
环A为含有至多三个N原子作为环成员的5元杂芳基环,并且任选地稠合至额外的苯基或5-6元杂芳基环,并且其中所述5元杂芳基环和任选的稠合苯基或5-6元杂芳基环各自任选地被选自C1-4烷基、C1-4烷氧基、-OH、卤代、C1-4卤代烷基、NO2、COOR、CONR2、-SO2R*、-NR2、苯基和5-6元杂芳基的一个或两个基团取代;
其中每个R独立地选自H和任选地被OH、OR*、-NH2、-NHR*或-NR*2取代的C1-3烷基;并且
每个R*为C1-3烷基,其任选地被OH、氧代、C1-2烷氧基或CN取代;
其中位于同一N上的两个R、或两个R"、或两个R*可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基和CN的一个或两个基团取代;
以形成式(IV)化合物。
在此实施例的优选实例中,R2为H或R4。在此方法的许多实施例中,式(II)化合物中的R1和R2并不都是H。当存在时,5-6元杂芳基通常是包括选自N、O和S的一个到三个杂原子作为环成员的5元杂芳基环,或包括一个到三个氮原子作为环成员的6元杂芳基环。
20.根据实施例18或19所述的方法,其中环A选自:
Figure BDA0003324885590000701
Figure BDA0003324885590000702
以及
Figure BDA0003324885590000703
其中:
每个Rx、Ry和Rz独立地选自H、卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#、C(O)N(R#)2,并且苯基任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代,
并且位于环的相邻原子上的两个Rx、Ry或Rz可以任选地一起形成稠合至所述环的苯基、5元杂芳基或6元杂芳基,并且所述稠合的苯基、5元杂芳基或6元杂芳基可以任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代;
其中每个R#独立地为H或C1-2烷基;并且其中位于同一氮上的两个R#可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代;
或其盐。
在这些实施例中,当存在时,5元杂芳基可以是包括选自N、O和S的一个到三个杂原子作为环成员的5元环,并且当存在时,6元杂芳基可以是包括一个到三个氮原子作为环成员的6元环。
21.根据实施例20所述的方法,其中环A选自:
Figure BDA0003324885590000711
Figure BDA0003324885590000721
以及
Figure BDA0003324885590000722
22.根据实施例1所述的方法,其中通过以下步骤来产生所述式(II)化合物:使式(I)化合物与式R3-NCS的异硫氰酸酯接触以形成下式的硫脲化合物
Figure BDA0003324885590000723
或其盐;其中
R3为H或选自苯基、5元杂芳基、6元杂芳基、C1-3卤代烷基和C1-6烷基的任选取代的基团,
其中任选的取代基是选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2、CON(R')2、苯基、5元杂芳基、6元杂芳基和C1-6烷基的一个到三个成员,其中所述苯基、5元杂芳基、6元杂芳基和C1-6烷基各自任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代;
其中每个R'独立地为H或C1-3烷基;
将RAA1和RAA2连接到最近的N原子的虚线半圆表示RAA1和/或RAA2可以任选地环化到指定的N原子上;
然后使所述硫脲化合物与式R2-NH2的胺化合物接触;
以产生式(II)化合物。
23.根据实施例22所述的方法,其中R3为任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代的苯基,
其中每个R'独立地为H或C1-3烷基,并且其中位于同一氮上的两个R'可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代。
24.根据实施例18到23中任一项所述的方法,其中步骤(2)中的所述合适的培养基包括NH3或式(C1-6)烷基-NH2的胺。
25.根据实施例24所述的方法,其中步骤(2)包括在包括氢氧化铵的混合物中加热式(II)化合物。
26.根据实施例18到23中任一项所述的方法,其中步骤(2)中的所述合适的培养基包括二杂亲核试剂。
在这些实施例中,所述二杂亲核试剂通常是肼或羟胺化合物。当式(II)中的R2为H并且式(II)中的R1为NH2或NHR4时,所述方法特别适用。在这些实施例中,肼或式R4-NH-NH2的经取代的肼可用于形成式(II)化合物,例如通过以下实施例18中的反应,并促进官能化NTAA的消除以提供式(III)化合物。
27.根据实施例26所述的方法,其中所述二杂亲核试剂选自:
Figure BDA0003324885590000731
28.根据实施例1到27中任一项所述的方法,其中RAA1和RAA2各自独立地选自H和任选地被独立地选自-OR5、-N(R5)2、-SR5、-SeR5、-COOR5、CON(R5)2、-NR5-C(=NR5)-N(R5)2、苯基、咪唑基和吲哚基的一个或两个基团取代的C1-6烷基,其中苯基、咪唑基和吲哚基各自任选地被卤代、C1-3烷基、C1-3卤代烷基、-OH、C1-3烷氧基、CN、COOR5或CON(R5)2取代;
每个R5独立地选自H和C1-2烷基,并且其中位于同一氮上的两个R5可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代。
29.根据实施例1到28中任一项所述的方法,其中每个RAA1和RAA2独立地选自蛋白质氨基酸的侧链,任选地包含一个或多个翻译后修饰。
30.一种下式化合物:
Figure BDA0003324885590000741
其中:
R2为H、R4、OH、OR4、NH2或-NHR4
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中每个苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
环A和环B各自独立地为含有至多三个N原子作为环成员的5元杂芳基环,并且各自任选地稠合至额外的苯基或5-6元杂芳基环,并且其中所述5元杂芳基环和任选的稠合苯基或5-6元杂芳基环各自任选地被选自C1-4烷基、C1-4烷氧基、-OH、卤代、C1-4卤代烷基、NO2、COOR、CONR2、-SO2R*、-NR2、苯基和5-6元杂芳基的一个或两个基团取代;
其中每个R独立地选自H和任选地被OH、OR*、-NH2、-NHR*或-NR*2取代的C1-3烷基;并且
每个R*为C1-3烷基,其任选地被OH、氧代、C1-2烷氧基或CN取代;
其中位于同一N上的两个R、或两个R"、或两个R*可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
条件是环A和环B并非都是未经取代的咪唑,并且环A和环B并非都是未经取代的苯并三唑;
或其盐。
在此实施例的优选实例中,R2为H或R4。在这些实施例中,在这些实施例中,当存在时,5元杂芳基可以是包括选自N、O和S的一个到三个杂原子作为环成员的5元环,并且当存在时,6元杂芳基可以是包括一个到三个氮原子作为环成员的6元环。在这些实施例中的一些实施例中,环A和环B均不是未经取代的咪唑或未经取代的苯并三唑。
31.根据实施例30所述的化合物,其中R2为H。
32.根据实施例30或31所述的化合物,其中环A和环B相同。此实施例的具体化合物包含:
Figure BDA0003324885590000751
33.根据实施例30到32中任一项所述的化合物,其中每个5-6元杂芳基环独立地选择并且含有选自N、O和S的1或2个杂原子作为环成员。在这些实施例中,存在的每个5元杂芳基可以是包括选自N、O和S的一个或两个杂原子作为环成员的5元环,并且6元杂芳基可以是包括一个到两个氮原子作为环成员的6元环。
34.根据实施例30到33中任一项所述的化合物,其中环A和环B选自:
Figure BDA0003324885590000761
Figure BDA0003324885590000762
以及
Figure BDA0003324885590000763
其中:
每个Rx、Ry和Rz独立地选自H、卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#、C(O)N(R#)2,并且苯基任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代,
并且位于环的相邻原子上的两个Rx、Ry或Rz可以任选地一起形成稠合至所述环的苯基、5元杂芳基或6元杂芳基,并且所述稠合的苯基、5元杂芳基或6元杂芳基可以任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代;
其中每个R#独立地为H或C1-2烷基;并且其中位于同一氮上的两个R#可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代;
或其盐。
在这些实施例中,存在的每个5元杂芳基可以是包括选自N、O和S的一个到三个杂原子作为环成员的5元环,并且6元杂芳基可以是包括一个到三个氮原子作为环成员的6元环。
35.根据实施例34所述的化合物,其中环A和环B相同并且选自:
Figure BDA0003324885590000771
Figure BDA0003324885590000772
以及
Figure BDA0003324885590000773
36.根据实施例30所述的化合物,其选自以下:
Figure BDA0003324885590000781
37.一种式(II)化合物:
Figure BDA0003324885590000782
或其互变异构体,
其中:
R1为R3、NHR3、-NHC(O)-R3或-NH-SO2-R3
R2为H、R4、OH、OR4、NH2或-NHR4
R3为H或选自苯基、5元杂芳基、6元杂芳基、C1-3卤代烷基和C1-6烷基的任选取代的基团,
其中任选的取代基是选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2、CON(R')2、苯基、5元杂芳基、6元杂芳基和C1-6烷基的一个到三个成员,其中所述苯基、5元杂芳基、6元杂芳基和C1-6烷基各自任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代;
其中每个R'独立地为H或C1-3烷基;
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
其中位于同一N上的两个R'或两个R"可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
RAA1和RAA2各自独立地选自H和任选地被独立地选自-OR5、-N(R5)2、-SR5、-SeR5、-COOR5、CON(R5)2、-NR5-C(=NR5)-N(R5)2、苯基、咪唑基和吲哚基的一个或两个基团取代的C1-6烷基,其中苯基、咪唑基和吲哚基各自任选地被卤代、C1-3烷基、C1-3卤代烷基、-OH、C1-3烷氧基、CN、COOR5或CON(R5)2取代;
每个R5独立地选自H和C1-2烷基;
并且Z为-COOH、CONH2或任选地附着至载剂或表面的氨基酸或多肽;或其盐。
在此实施例的优选实例中,R2为H或R4。在一些实例中,R1和R2并不都是H。在这些实施例中的某些实施例中,存在的每个5元杂芳基可以是包括选自N、O和S的一个到三个杂原子作为环成员的5元环,并且6元杂芳基可以是包括一个到三个氮原子作为环成员的6元环。
38.根据实施例30所述的化合物,其中R1为NH2
39.根据实施例30所述的化合物,其中R1为R3,并且R3任选地不是H。
40.根据实施例30到32中任一项所述的化合物,其中R2为H。
41.根据实施例37到40中任一项所述的化合物,其中Z是附着于固体支持物的多肽。
42.根据实施例41所述的化合物,其中所述多肽直接或间接附着到所述固体支持物。
43.根据实施例37到42中任一项所述的化合物,其中所述多肽附着到核酸上,所述核酸任选地共价附着至固体支持物。
44.根据实施例42或43所述的化合物,其中所述固体支持物是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、PTFE膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。
45.根据实施例44所述的化合物,其中所述支持物是聚苯乙烯珠、聚丙烯酸酯珠、聚合物珠、琼脂糖珠、纤维素珠、葡聚糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠、受控孔珠、基于二氧化硅的珠子或其任何组合。
46.根据实施例37到45中任一项所述的化合物,其在8或低于8的pH下分离。
47.一种式(IV)化合物:
Figure BDA0003324885590000801
R2为H、R4、OH、OR4、NH2或-NHR4
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
其中位于同一N上的两个R"可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
环A为含有至多三个N原子作为环成员的5元杂芳基环,并且任选地稠合至额外的苯基或5-6元杂芳基环,并且其中所述5元杂芳基环和任选的稠合苯基或5-6元杂芳基环各自任选地被选自C1-4烷基、C1-4烷氧基、-OH、卤代、C1-4卤代烷基、NO2、COOR、CONR2、-SO2R*、-NR2、苯基和5-6元杂芳基的一个或两个基团取代;
其中每个R独立地选自H和任选地被OH、OR*、-NH2、-NHR*或-NR*2取代的C1-3烷基;并且
每个R*为C1-3烷基,其任选地被OH、氧代、C1-2烷氧基或CN取代;
其中位于同一N上的两个R、或两个R"、或两个R*可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
RAA1和RAA2各自独立地为选择的氨基酸侧链;
并且将RAA1和/或RAA2连接到最近的N原子的虚线半圆表示RAA1和/或RAA2可以任选地环化到指定的N原子上;并且
Z为-COOH、CONH2或任选地附着至载剂或固体支持物的氨基酸或多肽;
或其盐。
在此实施例的优选实例中,R2为H或R4。在这些实施例中的某些实施例中,存在的每个5元杂芳基可以是包括选自N、O和S的一个到三个杂原子作为环成员的5元环,并且6元杂芳基可以是包括一个到三个氮原子作为环成员的6元环。
48.根据实施例47所述的化合物,其中R2为H。
49.根据实施例47或48所述的化合物,其中环A选自:
Figure BDA0003324885590000811
Figure BDA0003324885590000812
以及
Figure BDA0003324885590000813
其中:
每个Rx、Ry和Rz独立地选自H、卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#、C(O)N(R#)2,并且苯基任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代,
并且位于环的相邻原子上的两个Rx、Ry或Rz可以任选地一起形成稠合至所述环的苯基、5元杂芳基或6元杂芳基,并且所述稠合的苯基、5元杂芳基或6元杂芳基可以任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代;
其中每个R#独立地为H或C1-2烷基;并且其中位于同一氮上的两个R#可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代;
或其盐。
50.根据实施例47到49中任一项所述的化合物,其中环A选自:
Figure BDA0003324885590000821
Figure BDA0003324885590000822
以及
Figure BDA0003324885590000823
51.根据实施例47到50中任一项所述的化合物,其中Z是附着于固体支持物的氨基酸或多肽。
52.根据实施例51所述的化合物,其中Z是直接或间接附着到固体支持物的多肽。
53.根据实施例52所述的化合物,其中所述多肽共价附着到所述固体支持物。
54.根据实施例47到53中任一项所述的化合物,其中Z是附着到核酸上的氨基酸或多肽,所述核酸任选地共价附着至固体支持物。
55.根据实施例47到54中任一项所述的化合物,其中所述固体支持物是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、PTFE膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。
56.根据实施例55所述的化合物,其中所述固体支持物是聚苯乙烯珠、聚丙烯酸酯珠、聚合物珠、琼脂糖珠、纤维素珠、葡聚糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠、受控孔珠、基于二氧化硅的珠子或其任何组合。
57.根据实施例47到50中任一项所述的化合物,其中所述式(IV)化合物是下式化合物:
Figure BDA0003324885590000831
其中n是1到1000的整数;
RAA1、RAA2和每个RAA3独立地选自天然蛋白质氨基酸的侧链,任选地包括翻译后修饰;并且
Z'为OH或NH2或直接或间接连接至载剂或固体支持物的氨基酸。
在此实施例的优选实例中,R2为H或R4。在此实施例的实例中,n为1-500,或者n为1-100。在这些实施例中的某些实施例中,存在的每个5元杂芳基可以是包括选自N、O和S的一个到三个杂原子作为环成员的5元环,并且6元杂芳基可以是包括一个到三个氮原子作为环成员的6元环。
58.根据实施例47到57中任一项所述的化合物,其包括至少一个具有化学或生物修饰的氨基酸侧链。
59.一种鉴定式(I)的肽类化合物的N端氨基酸残基的方法:
Figure BDA0003324885590000832
其中所述方法包括:
(1)将式(I)化合物转化为式(II)的胍基衍生物或其互变异构体:
Figure BDA0003324885590000841
其中:
R1为R3、NHR3、-NHC(O)-R3或-NH-SO2-R3
R2为H、R4、OH、OR4、NH2或-NHR4
R3为H或选自苯基、5元杂芳基、6元杂芳基、C1-3卤代烷基和C1-6烷基的任选取代的基团,
其中任选的取代基是选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2、CON(R')2、苯基、5元杂芳基、6元杂芳基和C1-6烷基的一个到三个成员,其中所述苯基、5元杂芳基、6元杂芳基和C1-6烷基各自任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代;
其中每个R'独立地为H或C1-3烷基;
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
其中位于同一N上的两个R'或两个R"可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
RAA1和RAA2各自独立地为选择的氨基酸侧链,任选地包含翻译后修饰;
并且将RAA1和/或RAA2连接到最近的N原子的虚线半圆表示RAA1和/或RAA2可以任选地环化到指定的N原子上;并且
并且Z为-COOH、CONH2或任选地附着至载剂或固体表面的氨基酸或多肽;
(2)使胍基衍生物与合适的培养基接触以诱导消除经修饰的N端氨基酸并产生至少一种选自以下的切割产物:
Figure BDA0003324885590000851
(当R1分别为NHR3、-NHC(O)-R3或-NH-SO2-R3时)
或其互变异构体;以及
(3)确定所述至少一种切割产物的结构或身份以鉴定所述式(I)化合物的N端氨基酸。
在此实施例的优选实例中,R2为H或R4。在此实施例的某些实例中,R1和R2并不都是H。在这些实施例中的某些实施例中,存在的每个5元杂芳基可以是包括选自N、O和S的一个到三个杂原子作为环成员的5元环,并且6元杂芳基可以是包括一个到三个氮原子作为环成员的6元环。
60.根据实施例59所述的方法,其中RAA1和RAA2各自独立地选自H和任选地被独立地选自-OR5、-N(R5)2、-SR5、-SeR5、-COOR5、CON(R5)2、-NR5-C(=NR5)-N(R5)2、苯基、咪唑基和吲哚基的一个或两个基团取代的C1-6烷基,其中苯基、咪唑基和吲哚基各自任选地被卤代、C1-3烷基、C1-3卤代烷基、-OH、C1-3烷氧基、CN、COOR5或CON(R5)2取代;并且
每个R5独立地选自H和C1-2烷基。
61.根据实施例59或60所述的方法,其中RAA1是所述蛋白质氨基酸之一的侧链。
62.根据实施例59到61中任一项所述的方法,其中RAA2是所述蛋白质氨基酸之一的侧链。
63.根据实施例59到62中任一项所述的方法,其中R1为任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代的苯基,
其中每个R'独立地为H或C1-3烷基。
64.根据实施例59到62中任一项所述的方法,其中R1为NH2
65.根据实施例59到64中任一项所述的方法,其中R2为H。
66.根据实施例59到65中任一项所述的方法,其中Z是附着于固体支持物的氨基酸或多肽。
67.根据实施例59到66中任一项所述的方法,其中所述固体支持物是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、PTFE膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。
68.根据实施例59到67中任一项所述的方法,其中将所述式(I)化合物转化为式(II)化合物的步骤包括使所述式(I)化合物与式(AA)化合物接触:
Figure BDA0003324885590000861
其中:
R2为H、R4、OH、OR4、NH2或-NHR4
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
环A为含有至多三个N原子作为环成员的5元杂芳基环,并且任选地稠合至额外的苯基或5-6元杂芳基环,并且其中所述5元杂芳基环和任选的稠合苯基或5-6元杂芳基环各自任选地被选自C1-4烷基、C1-4烷氧基、-OH、卤代、C1-4卤代烷基、NO2、COOR、CONR2、-SO2R*、-NR2、苯基和5-6元杂芳基的一个或两个基团取代;
其中每个R独立地选自H和任选地被OH、OR*、-NH2、-NHR*或-NR*2取代的C1-3烷基;并且
每个R*为C1-3烷基,其任选地被OH、氧代、C1-2烷氧基或CN取代;
其中位于同一N上的两个R、或两个R"、或两个R*可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
以形成式(IV)化合物
Figure BDA0003324885590000871
然后使式(IV)化合物与二杂亲核试剂接触以形成所述式(II)化合物和根据实施例59所述的切割产物中的至少一种。
在此实施例的优选实例中,R2为H或R4。在这些实施例中的某些实施例中,存在的每个5元杂芳基可以是包括选自N、O和S的一个到三个杂原子作为环成员的5元环,并且6元杂芳基可以是包括一个到三个氮原子作为环成员的6元环。
69.根据实施例68所述的方法,其中所述二杂亲核试剂选自
Figure BDA0003324885590000872
70.根据实施例59到69中任一项所述的方法,其中将所述式(I)化合物转化为式(II)化合物的步骤包括使所述式(I)化合物与式R3-NCS的化合物接触以形成下式的硫脲
Figure BDA0003324885590000881
或其盐,其中:
R3为H或选自苯基、5元杂芳基、6元杂芳基、C1-3卤代烷基和C1-6烷基的任选取代的基团,
其中任选的取代基是选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2、CON(R')2、苯基、5元杂芳基、6元杂芳基和C1-6烷基的一个到三个成员,其中所述苯基、5元杂芳基、6元杂芳基和C1-6烷基各自任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代;
其中每个R'独立地为H或C1-3烷基;
RAA1、RAA2、R2和Z如实施例59中所定义,并且将RAA1和RAA2连接到最近的N原子的虚线半圆表示RAA1和/或RAA2可以任选地环化到指定的N原子上;
然后使所述硫脲化合物与式R2-NH2的胺接触以产生所述式(II)化合物。
在此方法的一些实施例中,R3是任选地经取代的苯基。
71.根据实施例59到70中任一项所述的方法,其中R2为H。
72.一种用于分析多肽的方法,其包括以下步骤:
(a)提供任选地与记录标签直接或间接相关的多肽;
(b)用化学试剂将所述多肽的N端氨基酸(NTAA)官能化,其中所述化学试剂是:
(b1)式(AA)化合物:
Figure BDA0003324885590000882
其中:
R2为H、R4、OH、OR4、NH2或-NHR4
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
每个环A为含有至多三个N原子作为环成员的5元杂芳基环,并且任选地稠合至额外的苯基或5-6元杂芳基环,并且其中所述5元杂芳基环和任选的稠合苯基或5-6元杂芳基环各自任选地被选自C1-4烷基、C1-4烷氧基、-OH、卤代、C1-4卤代烷基、NO2、COOR、CONR2、-SO2R*、-NR2、苯基和5-6元杂芳基的一个或两个基团取代;
其中每个R独立地选自H和任选地被OH、OR*、-NH2、-NHR*或-NR*2取代的C1-3烷基;并且
每个R*为C1-3烷基,其任选地被OH、氧代、C1-2烷氧基或CN取代;
其中位于同一N上的两个R或两个R"或两个R*可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
(b2)式R3-NCS的化合物;
其中R3为H或选自苯基、5元杂芳基、6元杂芳基、C1-3卤代烷基和C1-6烷基的任选取代的基团,
其中任选的取代基是选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2、CON(R')2、苯基、5元杂芳基、6元杂芳基和C1-6烷基的一个到三个成员,其中所述苯基、5元杂芳基、6元杂芳基和C1-6烷基各自任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代;
其中每个R'独立地为H或C1-3烷基;
其中位于同一N上的两个R'可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
以提供初始NTAA官能化的多肽;
任选地用式R2-NH2的胺或用二杂亲核试剂处理所述初始NTAA官能化的多肽,以形成二级NTAA官能化的多肽;
并且任选地用合适的培养基处理所述初始NTAA官能化的多肽或所述二级NTAA官能化的多肽,以消除NTAA并形成N端截短的多肽;
(c)使所述多肽与第一结合剂接触,所述第一结合剂包括能够与所述多肽、或所述初始NTAA官能化的多肽、或所述二级NTAA官能化的多肽、或所述N端截短的多肽结合的第一结合部分;以及
(c1)带有关于所述第一结合剂的标识信息的第一编码标签,或
(c2)第一可检测标记;
(d)(d1)将所述第一编码标签的信息(如果存在的话)转移至所述记录标签以生成延伸型记录标签并分析所述延伸型记录标签,或
(d2)检测所述第一可检测标记(如果存在的话)。
在此实施例的优选实例中,R2为H或R4。在此实施例的一些实例中,R1和R2并不都是H。在一些实例中,R3是任选地经取代的苯基。在这些实施例中的某些实施例中,存在的每个5元杂芳基可以是包括选自N、O和S的一个到三个杂原子作为环成员的5元环,并且6元杂芳基可以是包括一个到三个氮原子作为环成员的6元环。
73.根据实施例72所述的方法,其进一步包括重复步骤(b)到(d)以确定所述多肽的至少一部分的序列。
74.根据实施例72或实施例73所述的方法,其中所述结合部分能够结合至:
所述多肽的非官能化NTAA;
所述初始NTAA官能化的多肽;或者
所述二级NTAA官能化的多肽;或者
所述N端截短的多肽。
75.根据实施例74中任一项所述的方法,其中所述结合部分能够结合至:
使所述多肽与所述式(AA)化合物接触后来自步骤(b1)的产物;
使所述多肽与式R3-NCS的化合物接触后来自步骤(b2)的产物;或者
与式R2-NH2的胺或与二杂亲核试剂接触的来自步骤(b1)的产物;或者
与式R2-NH2的胺或与二杂亲核试剂接触的来自步骤(b2)的产物。
76.根据实施例72到75中任一项所述的方法,其中步骤(a)进一步包括在适合切割多肽的N端氨基酸的条件下使多肽与一种或多种酶(例如,脯氨酸氨肽酶、脯氨酸亚氨基肽酶(PIP)、焦谷氨酸氨肽酶(pGAP)、天冬酰胺酰胺水解酶、肽谷氨酰胺酶天冬酰胺酶、蛋白质谷氨酰胺酶或其同系物)接触。
77.根据实施例72到75中任一项所述的方法,其中:
步骤(a)包括提供所述多肽和连接到支持物(例如,固体支持物)的相关记录标签;
步骤(a)包括在溶液中提供与相关记录标签连接的多肽;
步骤(a)包括提供与记录标签间接相关的多肽;或者
所述多肽不与步骤(a)中的记录标签相关联。
78.根据实施例72或77所述的方法,其中:
步骤(b)在步骤(c)之前进行;
步骤(b)在步骤(d)之前进行;
步骤(b)在步骤(c)之后和步骤(d)之前进行;
步骤(b)在步骤(c)和步骤(d)之后进行;
步骤(c)在步骤(b)之前进行;
步骤(c)在步骤(b)之后进行;和/或
步骤(c)在步骤(d)之前进行。
79.根据实施例72或77所述的方法,其中:
步骤(a)、(b)、(c1)和(d1)按序列顺序发生;
步骤(a)、(c1)、(b)和(d1)按序列顺序发生;
步骤(a)、(c1)、(d1)和(b)按序列顺序发生;
步骤(a)、(b1)、(c1)和(d1)按序列顺序发生;
步骤(a)、(b2)、(c1)和(d1)按序列顺序发生;
步骤(a)、(c1)、(b1)和(d1)按序列顺序发生;
步骤(a)、(c1)、(b2)和(d1)按序列顺序发生;
步骤(a)、(c1)、(d1)和(b1)按序列顺序发生;
步骤(a)、(c1)、(d1)和(b2)按序列顺序发生;
步骤(a)、(b)、(c2)和(d2)按序列顺序发生;
步骤(a)、(c2)、(b)和(d2)按序列顺序发生;或者
步骤(a)、(c2)、(d2)和(b)按序列顺序发生。
80.根据实施例72到79中任一项所述的方法,其中步骤(c)进一步包括使所述多肽与第二(或更高阶)结合剂接触,所述第二结合剂包括能够结合除步骤(b)的官能化NTAA之外的官能化NTAA的第二(或更高阶)结合部分和带有关于所述第二(或更高阶)结合剂的标识信息的编码标签。
81.根据实施例80所述的方法,其中:
所述多肽与所述第二(或更高阶)结合剂的接触按序列顺序发生在所述多肽与所述第一结合剂接触之后;或者
所述多肽与所述第二(或更高阶)结合剂的接触与所述多肽与所述第一结合剂的接触同时发生。
82.根据实施例72到81中任一项所述的方法,其中所述多肽是来自生物样品的蛋白质或蛋白质的片段。
83.根据实施例72到82中任一项所述的方法,其中所述记录标签包括核酸、寡核苷酸、经修饰的寡核苷酸、DNA分子、具有伪互补碱基的DNA、具有受保护碱基的DNA、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、γPNA分子或吗啉代DNA或其组合。
84.根据实施例83所述的方法,其中:
所述DNA分子是主链修饰的、糖修饰的或核碱基修饰的;或者
所述DNA分子具有核碱基保护基团(如Alloc)、亲电保护基团(如硫烷)、乙酰基保护基团、硝基苄基保护基团、磺酸酯保护基团或传统的碱基不稳定的保护基团(包含Ultramild试剂)。
85.根据实施例72到84中任一项所述的方法,其中所述记录标签包括通用引发位点。
86.根据实施例85所述的方法,其中所述通用引发位点包括用于扩增、测序或两者的引发位点。
87.根据实施例72到86所述的方法,其中所述记录标签包括唯一分子标识符(UMI)。
88.根据实施例72到87中任一项所述的方法,其中所述记录标签包括条形码。
89.根据实施例72到88中任一项所述的方法,其中所述记录标签在其3'-末端包括间隔子。
90.根据实施例72到89中任一项所述的方法,其中将所述多肽和所述相关的记录标签共价连接至所述支持物。
91.根据实施例72到90中任一项所述的方法,其中所述支持物是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、PTFE膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。
92.根据实施例91所述的方法,其中:
所述支持物包括金、银、半导体或量子点;
所述纳米颗粒包括金、银或量子点;或者
所述支持物是聚苯乙烯珠、聚丙烯酸酯珠、聚合物珠、琼脂糖珠、纤维素珠、葡聚糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠、受控孔珠、基于二氧化硅的珠子或其任何组合。
93.根据实施例72到92中任一项所述的方法,其中将多种多肽和相关的记录标签连接至支持物。
94.根据实施例93所述的方法,其中所述多种多肽在所述支持物上间隔开,其中所述多肽之间的平均距离为约≥20nm。
95.根据实施例72到94中任一项所述的方法,其中所述结合剂的所述结合部分包括肽或蛋白质。
96.根据实施例72到95中任一项所述的方法,其中所述结合剂的所述结合部分包括氨肽酶或其变体、突变体或经修饰的蛋白质;氨酰tRNA合成酶或其变体、突变体或经修饰的蛋白质;抗运载蛋白或其变体、突变体或经修饰的蛋白质;ClpS(如ClpS2)或其变体、突变体或经修饰的蛋白质;UBR盒蛋白或其变体、突变体或经修饰的蛋白质;或结合氨基酸的经修饰的小分子,即万古霉素或其变体、突变体或经修饰的分子;或抗体或其结合片段;或其任何组合。
97.根据实施例72到96中任一项所述的方法,其中:
所述结合剂结合单个氨基酸残基(例如,N端氨基酸残基、C端氨基酸残基或内部氨基酸残基)、二肽(例如,N端二肽、C端二肽或内部二肽)、三肽(例如,N端三肽、C端三肽或内部三肽)或所述多肽的翻译后修饰;或者
所述结合剂结合NTAA官能化的单氨基酸残基、NTAA官能化的二肽、NTAA官能化的三肽或NTAA官能化的多肽。
98.根据实施例72到97中任一项所述的方法,其中所述结合剂的所述结合部分能够选择性地结合所述多肽。
99.根据实施例72到98中任一项所述的方法,其中所述编码标签是DNA分子、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、γPNA分子或其组合。
100.根据实施例72到99中任一项所述的方法,其中所述编码标签包括编码器或条形码序列。
101.根据实施例72到100中任一项所述的方法,其中所述编码标签进一步包括间隔子、结合循环特异性序列、唯一分子标识符、通用引发位点或其任何组合。
102.根据实施例72到101中任一项所述的方法,其中所述结合部分和所述编码标签通过接头连接。
103.根据实施例72到102中任一项所述的方法,其中所述结合部分和所述编码标签通过SpyTag/SpyCatcher肽-蛋白质对、SnoopTag/SnoopCatcher肽-蛋白质对或HaloTag/HaloTag配体对连接。
104.根据实施例72到103中任一项所述的方法,其中:
将所述编码标签的信息转移至所述记录标签是由DNA连接酶或RNA连接酶介导的;
将所述编码标签的信息转移至所述记录标签是由DNA聚合酶、RNA聚合酶或逆转录酶介导的;或者
将所述编码标签的信息转移至所述记录标签是由化学连接介导的。
105.根据实施例104所述的方法,其中使用单链DNA进行所述化学连接。
106.根据实施例105所述的方法,其中使用双链DNA进行所述化学连接。
107.根据实施例72到106中任一项所述的方法,其中分析所述延伸型记录标签包括核酸测序方法。
108.根据实施例107所述的方法,其中:
所述核酸测序方法是合成测序、连接测序、杂交测序、聚合酶集落测序、离子半导体测序和焦磷酸测序;或者
所述核酸测序方法是单分子实时测序、基于纳米孔的测序或使用高级显微镜对DNA进行直接成像。
109.根据实施例72到108中任一项所述的方法,其中在分析之前扩增所述延伸型记录标签。
110.根据实施例72到109中任一项所述的方法,其进一步包括添加循环标记的步骤。
111.根据实施例110所述的方法,其中所述循环标记提供关于所述结合剂与所述多肽结合的顺序的信息。
112.根据实施例110或实施例111所述的方法,其中:
将所述循环标记添加到所述编码标签中;
将所述循环标记添加到所述记录标签中;
将所述循环标记添加到所述结合剂中;或者
独立于所述编码标签、记录标签和结合剂添加所述循环标记。
113.根据实施例72到112中任一项所述的方法,其中包含在所述延伸型记录标签上的编码标签信息的顺序提供关于信息结合剂与所述多肽结合的顺序的信息。
114.根据实施例72到113中任一项所述的方法,其中包含在所述延伸型记录标签上的所述编码标签信息的频率提供关于信息结合剂与所述多肽结合的频率的信息。
115.根据实施例72到114中任一项所述的方法,其中并行分析表示多种多肽的多个延伸型记录标签。
116.根据实施例115所述的方法,其中在多路复用测定中分析表示多种多肽的所述多个延伸型记录标签。
117.根据实施例115或116所述的方法,其中所述多个延伸型记录标签在分析之前经历靶标富集测定。
118.根据实施例115到117中任一项所述的方法,其中所述多个延伸型记录标签在分析之前经历扣除测定。
119.根据实施例115到118中任一项所述的方法,其中所述多个延伸型记录标签在分析之前经历归一化测定以减少高度丰富的种类。
120.根据实施例72到119中任一项所述的方法,其包括用非酸性培养基处理所述NTAA官能化的多肽以消除NTAA。
121.根据实施例120所述的方法,其中所述合适的培养基具有介于5和14之间的pH。在一些实施例中,所述pH介于8和14之间,或介于8和13之间。
122.根据实施例120或实施例121所述的方法,其中步骤(2)中的所述合适的培养基包括NH3或伯胺。
123.根据实施例120到122中任一项所述的方法,其中消除NTAA在步骤(a)、步骤(b)、步骤(c)和/或步骤(d)中进行。
124.根据实施例72到123中任一项所述的方法,其中在合适的条件下通过化学切割消除所述NTAA。
125.根据实施例124的方法,其中通过由氨、伯胺或二杂亲核试剂诱导的化学切割来消除所述NTAA。
126.根据实施例124所述的方法,其中所述化学切割由氨诱导。
127.根据实施例126所述的方法,其中所述化学切割由式R2-NH2的伯胺诱导,其中R2为C1-6烷基,其任选地被选自卤代、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基。
128.根据实施例126所述的方法,其中所述化学切割由选自以下的二杂亲核试剂诱导
Figure BDA0003324885590000961
129.根据实施例72到128中任一项所述的方法,其中至少一种结合剂结合末端氨基酸残基、末端二氨基酸残基或末端三氨基酸残基。
130.根据实施例72到129中任一项所述的方法,其中所述至少一种结合剂结合经翻译后修饰的氨基酸。
131.根据实施例72到130中任一项所述的方法,其中所述化学试剂包括式(AA)化合物:
Figure BDA0003324885590000971
其中环A选自:
Figure BDA0003324885590000972
Figure BDA0003324885590000973
以及
Figure BDA0003324885590000974
其中:
每个Rx、Ry和Rz独立地选自H、卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#、C(O)N(R#)2,并且苯基任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代,
并且位于环的相邻原子上的两个Rx、Ry或Rz可以任选地一起形成稠合至所述环的苯基、5元杂芳基或6元杂芳基,并且所述稠合的苯基、5元杂芳基或6元杂芳基可以任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代;
其中每个R#独立地为H或C1-2烷基;并且其中位于同一氮上的两个R#可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代。
在这些实施例中的某些实施例中,存在的每个5元杂芳基可以是包括选自N、O和S的一个到三个杂原子作为环成员的5元环,并且6元杂芳基可以是包括一个到三个氮原子作为环成员的6元环。用于本文方法和试剂盒的式(AA)化合物的具体实例包含:
Figure BDA0003324885590000981
132.根据实施例131所述的方法,其中环A选自:
Figure BDA0003324885590000982
Figure BDA0003324885590000991
以及
Figure BDA0003324885590000992
133.根据实施例72到132中任一项所述的方法,其中所述化学试剂为式R3-NCS的化合物,其中R3为任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代的苯基,
其中每个R'独立地为H或C1-3烷基,
并且其中位于同一氮上的两个R'可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代。
134.根据实施例72到133中任一项所述的方法,其中R2为H。
135.一种用于分析多肽的试剂盒,其包括:
(a)用于将所述多肽的N端氨基酸(NTAA)官能化的试剂,其中所述试剂包括式(AA)化合物:
Figure BDA0003324885590000993
其中每个环A选自:
Figure BDA0003324885590001001
Figure BDA0003324885590001002
以及
Figure BDA0003324885590001003
R2为H、R4、OH、OR4、NH2或-NHR4
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
每个Rx、Ry和Rz独立地选自H、卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#、C(O)N(R#)2,并且苯基任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代,
并且位于环的相邻原子上的两个Rx、Ry或Rz可以任选地一起形成稠合至所述环的苯基、5元杂芳基或6元杂芳基,并且所述稠合的苯基、5元杂芳基或6元杂芳基可以任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代;
其中每个R#独立地为H或C1-2烷基;
并且其中位于同一氮上的两个R#可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代;
(b)多种结合剂,每种结合剂包括能够在多肽的NTAA通过与式(AA)化合物反应而被官能化之前或之后结合所述NTAA的结合部分;
(b1)带有关于所述结合剂的标识信息的编码标签,或
(b2)可检测标记;以及
(c)用于将所述第一编码标签的信息转移至所述记录标签以生成延伸型记录标签的试剂;以及任选的
(d)用于分析所述延伸型记录标签的试剂或用于检测所述第一可检测标记的试剂。
在优选的实施例中,R2为H。在这些实施例中的某些实施例中,存在的每个5元杂芳基可以是包括选自N、O和S的一个到三个杂原子作为环成员的5元环,并且6元杂芳基可以是包括一个到三个氮原子作为环成员的6元环。
136.根据实施例135所述的试剂盒,其中所述结合部分能够结合至:
非官能化的NTAA或已被(a)中的所述试剂官能化的NTAA。
137.根据实施例135或136所述的试剂盒,其进一步包括用于提供任选地与记录标签直接或间接相关的多肽的试剂。
138.根据实施例135到137中任一项所述的试剂盒,其中:
用于提供所述多肽的所述试剂被配置成提供所述多肽和连接到支持物(例如,固体支持物)的相关记录标签;
用于提供所述多肽的所述试剂被配置成在溶液中提供与记录标签直接相关的多肽;
用于提供所述多肽的所述试剂被配置成提供与记录标签间接相关的多肽;或者
用于提供所述多肽的所述试剂被配置成提供不与记录标签相关联的多肽。
139.根据实施例135到138中任一项所述的试剂盒,其中所述试剂盒进一步包括二杂亲核试剂。
140.根据实施例139所述的试剂盒,其中所述二杂亲核试剂选自:
Figure BDA0003324885590001021
141.根据实施例135到140中任一项所述的试剂盒,其中所述试剂盒包括两种或更多种不同的结合剂。
142.根据实施例135到141中任一项所述的试剂盒,其进一步包括用于消除官能化的NTAA以暴露新的NTAA的试剂。
143.根据实施例141或实施例142所述的试剂盒,其中:
用于消除所述官能化的NTAA的所述试剂包括氨、伯胺或二杂亲核试剂。
144.根据实施例142到143中任一项所述的试剂盒,其中用于消除所述官能化的NTAA的所述试剂包括pH介于7和14之间的缓冲剂。在一些实施例中,所述pH介于8和14之间,并且在一些实施例中,所述pH介于8和13之间。
145.根据实施例135到144中任一项所述的试剂盒,其中所述记录标签包括通用引发位点。
146.根据实施例145所述的试剂盒,其中所述通用引发位点包括用于扩增、测序或两者的引发位点。
147.根据实施例135到146中任一项所述的试剂盒,其中所述记录标签包括唯一分子标识符(UMI)。
148.根据实施例135到147中任一项所述的试剂盒,其中:
所述记录标签包括条形码;或者
所述记录标签在其3'末端包括间隔子。
149.根据实施例135到148中任一项所述的试剂盒,其中用于提供所述多肽和连接到支持物的相关记录标签的所述试剂提供所述多肽和所述支持物上的所述相关记录标签的共价连接。
150.根据实施例145到149中任一项所述的试剂盒,其中所述支持物是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、PTFE膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。
151.根据实施例150所述的试剂盒,其中:
所述支持物包括金、银、半导体或量子点;
所述纳米颗粒包括金、银或量子点;或者
所述支持物是聚苯乙烯珠、聚丙烯酸酯珠、聚合物珠、琼脂糖珠、纤维素珠、葡聚糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠、受控孔珠、基于二氧化硅的珠子或其任何组合。
152.根据实施例135到151中任一项所述的试剂盒,其中用于提供所述多肽和连接到支持物的相关记录标签的所述试剂提供多种多肽和连接到支持物的相关记录标签。
153.根据实施例152所述的试剂盒,其中所述多种多肽在所述支持物上间隔开,其中所述多肽之间的平均距离为约≥20nm。
154.根据实施例135到153中任一项所述的试剂盒,其中所述结合剂是肽或蛋白质。
155.根据实施例135到154中任一项所述的试剂盒,其中所述结合剂包括氨肽酶或其变体、突变体或经修饰的蛋白质;氨酰tRNA合成酶或其变体、突变体或经修饰的蛋白质;抗运载蛋白或其变体、突变体或经修饰的蛋白质;ClpS或其变体、突变体或经修饰的蛋白质;或结合氨基酸的经修饰的小分子,即万古霉素或其变体、突变体或经修饰的分子;或抗体或其结合片段;或其任何组合。
156.根据实施例135到155中任一项所述的试剂盒,其中所述结合剂结合单个氨基酸残基(例如,N端氨基酸残基、C端氨基酸残基或内部氨基酸残基)、二肽(例如,N端二肽、C端二肽或内部二肽)、三肽(例如,N端三肽、C端三肽或内部三肽)或所述分析物或多肽的翻译后修饰。
157.根据实施例135到156中任一项所述的试剂盒,其中所述结合剂结合NTAA官能化的单氨基酸残基、NTAA官能化的二肽、NTAA官能化的三肽或NTAA官能化的多肽。
158.根据实施例135到157中任一项所述的试剂盒,其中所述结合剂能够选择性地结合所述多肽。
159.根据实施例135到158中任一项所述试剂盒,其中所述编码标签是DNA分子、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、γPNA分子或其组合。
160.根据实施例135到159中任一项所述的试剂盒,其中所述编码标签包括编码器或条形码序列。
161.根据实施例135到160中任一项所述的试剂盒,其中所述编码标签进一步包括间隔子、结合循环特异性序列、唯一分子标识符、通用引发位点或其任何组合。
162.根据实施例135到161中任一项所述的试剂盒,其中:
所述结合剂中的所述结合部分和所述编码标签通过接头连接;或者
所述结合部分和所述编码标签通过SpyTag/SpyCatcher肽-蛋白质对、SnoopTag/SnoopCatcher肽-蛋白质对或HaloTag/HaloTag配体对连接。
163.根据实施例135到162中任一项所述的试剂盒,其中:
用于将所述编码标签的信息转移至所述记录标签的所述试剂包括DNA连接酶或RNA连接酶;
用于将所述编码标签的信息转移至所述记录标签的所述试剂包括DNA聚合酶、RNA聚合酶或逆转录酶;或者
用于将所述编码标签的信息转移至所述记录标签的所述试剂包括化学连接试剂。
164.根据实施例163所述的试剂盒,其中:
所述化学连接试剂用于单链DNA;或者
所述化学连接试剂用于双链DNA。
165.根据实施例135到164中任一项所述的试剂盒;
其进一步包括由两种DNA或RNA连接酶变体、腺苷酸化变体和组成型非腺苷酸化变体组成的连接试剂;或者
其进一步包括由DNA或RNA连接酶和DNA/RNA去腺苷酸酶组成的连接试剂。
166.根据实施例135到165中任一项所述的试剂盒,其中所述试剂盒另外包括用于核酸测序方法的试剂。
167.根据实施例166所述的试剂盒,其中:
所述核酸测序方法是合成测序、连接测序、杂交测序、聚合酶集落测序、离子半导体测序和焦磷酸测序;或者
所述核酸测序方法是单分子实时测序、基于纳米孔的测序或使用高级显微镜对DNA进行直接成像。
168.根据实施例135到167中任一项所述的试剂盒,其中所述试剂盒另外包括用于扩增所述延伸型记录标签的试剂。
169.根据实施例135到168中任一项所述的试剂盒,其进一步包括用于添加循环标记的试剂。
170.根据实施例169所述的试剂盒,其中所述循环标记提供关于所述结合剂与所述多肽结合的顺序的信息。
171.根据实施例169或实施例170所述的试剂盒,其中:
所述循环标记可以被添加到所述编码标签中;
所述循环标记可以被添加到所述记录标签中;
所述循环标记可以被添加到所述结合剂中;或者
可以独立于所述编码标签、记录标签和结合剂添加所述循环标记。
172.根据实施例135到171中任一项所述的试剂盒,其中包含在所述延伸型记录标签上的编码标签信息的顺序提供关于信息结合剂与所述多肽结合的顺序的信息。
173.根据实施例135到172中任一项所述的试剂盒,其中包含在所述延伸型记录标签上的所述编码标签信息的频率提供关于信息结合剂与所述多肽结合的频率的信息。
174.根据实施例135到173中任一项所述的试剂盒,其被配置用于分析来自样品的一种或多种多肽,所述样品包括多种蛋白质复合物、蛋白质或多肽。
175.根据实施例174所述的试剂盒,其进一步包括用于将所述样品内的所述多种蛋白质复合物、蛋白质或多肽划分到多个隔室中的装置,其中每个隔室包括任选地连接到支持物(例如,固体支持物)的多个隔室标签,其中所述多个隔室标签在单个隔室内相同并且不同于其它隔室的隔室标签。
176.根据实施例174或175所述的试剂盒,其进一步包括用于将所述多种蛋白质复合物、蛋白质和/或多肽片段化成多种多肽的试剂。
177.根据实施例176所述的试剂盒,其中:
所述隔室是微流体液滴;
所述隔室是微孔;或者
所述隔室是表面上的分离区域。
178.根据实施例173到177中任一项所述的试剂盒,其中每个隔室平均包括单个细胞。
179.根据实施例173到178中任一项所述的试剂盒,其进一步包括用于用多个通用DNA标签标记所述多种蛋白质复合物、蛋白质、或多肽的试剂。
180.根据实施例175到179中任一项所述的试剂盒,其中用于将所述隔室标签信息转移到与多肽相关的所述记录标签的所述试剂包括引物延伸或连接试剂。
181.根据实施例175到180中任一项所述的试剂盒,其中:
所述支持物是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、PTFE膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球;或者
所述支持物包括珠子。
182.根据实施例181所述试剂盒,其中所述珠子是聚苯乙烯珠、聚丙烯酸酯珠、聚合物珠、琼脂糖珠、纤维素珠、葡聚糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠、受控孔珠、基于二氧化硅的珠子或其任何组合。
183.根据实施例175到182中任一项所述的试剂盒,其中所述隔室标签包括单链或双链核酸分子。
184.根据实施例175到183中任一项所述的试剂盒,其中所述隔室标签包括条形码和任选的UMI。
185.根据实施例184所述的试剂盒,其中:
所述支持物是珠子并且所述隔室标签包括条形码,进一步地,其中包括与其连接的所述多个隔室标签的珠子是通过分离和合并合成形成的;或者
所述支持物是珠子并且所述隔室标签包括条形码,进一步地,其中包括与其连接的多个隔室标签的珠子是通过单独合成或固定形成的。
186.根据实施例175到185中任一项所述的试剂盒,其中所述隔室标签是记录标签内的组分,其中所述记录标签任选地进一步包括间隔子、条形码序列、唯一分子标识符、通用引发位点或其任何组合。
187.根据实施例175到185中任一项所述的试剂盒,其中所述隔室标签进一步包括能够与所述多种蛋白质复合物、蛋白质或多肽上的内部氨基酸、所述肽主链或N端氨基酸反应的功能性部分。
188.根据实施例187所述的试剂盒,其中:
所述功能性部分是醛、叠氮化物/炔、用于施陶丁格反应(Staudinger reaction)的部分、或马来酰亚胺/硫醇、或环氧化物/亲核试剂、或逆电子需求狄尔斯-阿尔德(iEDDA)基团;或者所述功能性部分是醛基。
189.根据实施例175到188中任一项所述的试剂盒,其中所述多个隔室标签通过以下方式形成的:将隔室标签印刷、点样、喷墨到隔室中,或其组合。
190.根据实施例175到189中任一项所述的试剂盒,其中所述隔室标签进一步包括多肽。
191.根据实施例190所述的试剂盒,其中所述隔室标签多肽包括蛋白质连接酶识别序列。
192.根据实施例191所述的试剂盒,其中所述蛋白质连接酶是butelase I或其同系物。
193.根据实施例175到192中任一项所述的试剂盒,其中用于使所述多种多肽片段化的所述试剂包括蛋白酶。
194.根据实施例193所述的试剂盒,其中所述蛋白酶是金属蛋白酶。
195.根据实施例194所述的试剂盒,其进一步包括用于调节所述金属蛋白酶的活性的试剂,例如,用于光活化释放所述金属蛋白酶的金属阳离子的试剂。
196.根据实施例175到195中任一项所述的试剂盒,其进一步包括用于在将所述多种多肽划分到所述多个隔室中之前从所述样品中减去一种或多种丰度蛋白质的试剂。
197.根据实施例175到196中任一项所述的试剂盒,其进一步包括用于在将所述多种多肽与所述隔室标签连接之前从所述支持物释放所述隔室标签的试剂。
198.根据实施例197所述的试剂盒,其进一步包括用于将带隔室标签的多肽连接到与记录标签相关的支持物的试剂。
199.根据实施例175到198中任一项所述的试剂盒,其进一步包括去除所述多肽的N端氨基酸的一种或多种酶,例如,脯氨酸氨肽酶、脯氨酸亚氨基肽酶(PIP)、焦谷氨酸氨肽酶(pGAP)、天冬酰胺酰胺水解酶、肽谷氨酰胺酶天冬酰胺酶、蛋白质谷氨酰胺酶或其同系物。
200.一种包括结合部分的结合剂,所述结合部分能够结合具有根据实施例37所述的式(II)
Figure BDA0003324885590001081
或根据实施例47所述的式(IV)
Figure BDA0003324885590001082
的经修饰多肽的N端部分,或根据实施例22所述的式
Figure BDA0003324885590001083
的硫脲,或选自以下的副反应产物
Figure BDA0003324885590001084
(II-亚氨基乙内酰脲),
Figure BDA0003324885590001085
(II-亚氨基噁唑烷),以及
Figure BDA0003324885590001086
(II-脲)。
其中R1、R2、Z、RAA1和RAA2如针对式(II)所定义,例如在实施例37中;
或下式的副产物:
Figure BDA0003324885590001091
(IV-脲-1),以及
Figure BDA0003324885590001092
(IV-乙内酰脲);
Figure BDA0003324885590001093
(IV-噁唑烷酮),
其中R1、R2、环A、Z、RAA1和RAA2如针对式(IV)所定义,例如在实施例47中。
201.根据实施例200所述的结合剂,其中所述结合剂结合包括所述多肽的N端氨基酸残基、N端二肽或N端三肽的经修饰多肽的N端部分。
202.根据实施例200或201所述的结合剂,其包括氨肽酶或其变体、突变体或经修饰的蛋白质;氨酰tRNA合成酶或其变体、突变体或经修饰的蛋白质;抗运载蛋白或其变体、突变体或经修饰的蛋白质;ClpS或其变体、突变体或经修饰的蛋白质;或结合氨基酸的经修饰的小分子,即万古霉素或其变体、突变体或经修饰的分子;或抗体或其结合片段;或其任何组合
203.根据实施例200到202中任一项所述的结合剂,其能够选择性地结合所述多肽。
204.根据实施例200到203中任一项所述的结合剂,其进一步包括编码标签,所述编码标签包括关于所述结合部分的标识信息。
205.根据实施例204所述的结合剂,其中所述结合剂和所述编码标签通过接头或结合对连接。
206.根据实施例204或实施例205所述的结合剂,其中所述编码标签是DNA分子、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、γPNA分子或其组合。
207.根据实施例204到206中任一项所述的结合剂,其中所述编码标签进一步包括间隔子、结合循环特异性序列、唯一分子标识符、通用引发位点或其任何组合。
208.一种试剂盒,其包括多个根据实施例200到207中任一项所述的结合剂。
分析多肽的方法
在一些实施例中,所提供的用于从多肽切割氨基酸的方法和试剂适用于分析多肽的方法。在一些实施例中,使用本文描述的用于切割N端氨基酸(NTAA)的任何方法和试剂在循环过程中切割多肽。在一些实施例中,循环过程包含NTAA的官能化,然后是NTAA的消除或去除。在一些实施例中,通过蛋白质分析方法对去除的NTAA进行分析。在一些实施例中,多肽分析方法包含以下循环:NTAA官能化、NTAA消除、NTAA通过结合剂结合以及信息从结合剂(例如,与结合剂相关联的编码标签)转移到与多肽相关联的记录标签。
在用于分析多肽的方法的一些实施例中,步骤(a)包括提供与支持物(例如,固体支持物)连接的多肽。在用于分析多肽的方法的一些实施例中,步骤(a)包括提供所述多肽和连接到支持物(例如,固体支持物)的相关记录标签。在一些实施例中,步骤(a)包括在溶液中提供与相关记录标签连接的多肽。在一些实施例中,步骤(a)包括提供与记录标签间接相关的多肽。在一些实施例中,所述多肽不与步骤(a)中的记录标签相关联。在一个实施例中,所述记录标签和/或所述多肽被配置成直接或间接固定到支持物上。在另外的实施例中,所述记录标签被配置成固定到所述支持物上,从而固定与所述记录标签相关的多肽。在另一个实施例中,所述多肽被配置成固定到所述支持物上,从而固定与所述多肽相关的记录标签。在又一个实施例中,所述记录标签和所述多肽中的每一个被配置成固定到所述支持物上。仍在另一个实施例中,所述记录标签和所述多肽被配置成当两者都固定到所述支持物上时共定位。在一些实施例中,用于在记录标签和结合到多肽的结合剂的编码标签之间转移信息的(i)多肽和(ii)记录标签之间的距离为小于约10-6nm、约10-6nm、约10-5nm、约10-4nm、约0.001nm、约0.01nm、约0.1nm、约0.5nm、约1nm、约2nm、约5nm或大于约5nm,或上述范围之间的任何值。
在一些实施例中,基于降解的肽或多肽测序测定的过程中的一些步骤的顺序可以颠倒或以各种顺序进行。例如,在一些实施例中,可以在多肽与结合剂结合之前和/或之后进行NTAA官能化。在本文描述的任何方法的一些实施例中,在多肽与第一结合剂接触(步骤(c))之前,将多肽的N端氨基酸(NTAA)官能化(步骤(b))。在一些实施例中,在多肽与第一结合剂接触(步骤(c))之后,但在转移信息(步骤(d1))或检测第一可检测标记(步骤(d2))之前,将多肽的N端氨基酸(NTAA)官能化(步骤(b))。在一些实施例中,在多肽与第一结合剂接触(步骤(c))之后并在转移信息(步骤(d1))或检测第一可检测标记(步骤(d2))之后,将多肽的N端氨基酸(NTAA)官能化(步骤(b))。在一些实施例中,在多肽与第一结合剂接触(步骤(c))之后,并在转移信息(步骤(d1))或检测第一可检测标记(步骤(d2))之后,将多肽的N端氨基酸(NTAA)官能化(步骤(b))。在一些实施例中,在多肽的N端氨基酸(NTAA)被官能化(步骤(b))之前,使多肽与结合剂接触(步骤(c))。在一些实施例中,在多肽的N端氨基酸(NTAA)被官能化(步骤(b))之后,使多肽与结合剂接触(步骤(c))。在一些实施例中,在转移信息(步骤(d))之前,使多肽与结合剂接触(步骤(c))。在一些实施例中,一种或多种结合剂从多肽中去除或释放。例如,可以在NTAA官能化之前或之后执行从多肽中去除结合剂。在一些情况下,在转移信息或检测到可检测标记之后,从多肽中去除或释放结合剂。
在一些方面提供了用于分析多肽的方法,所述方法包括以下步骤:(a)提供任选地与记录标签直接或间接相关的多肽;(b)用化学试剂将所述多肽的N端氨基酸(NTAA)官能化以产生官能化的NTAA;(c)使所述多肽与第一结合剂接触,所述第一结合剂包括能够与官能化的NTAA结合的第一结合部分和(c1)带有关于所述第一结合剂的标识信息的第一编码标签,或(c2)第一可检测标记;(d)(d1)将所述第一编码标签的信息转移至所述记录标签以生成第一延伸型记录标签并分析所述延伸型记录标签,或(d2)检测所述第一可检测标记,以及(e)消除所述官能化的NTAA以暴露新的NTAA。在一些实施例中,步骤(a)包括提供所述多肽和连接到支持物(例如,固体支持物)的相关记录标签。在一些实施例中,步骤(a)包括在溶液中提供与相关记录标签连接的多肽。在一些实施例中,步骤(a)包括提供与记录标签间接相关的多肽。在一些实施例中,所述多肽不与步骤(a)中的记录标签相关联。在本文描述的任何方法的一些实施例中,用于使多肽的N端氨基酸(NTAA)官能化的步骤(b)的化学试剂包括选自以下的化合物:式(AA)或式(AB)中任一个的化合物,或其盐或缀合物,如本文所述。在本文描述的任何方法的一些实施例中,用于使多肽的N端氨基酸(NTAA)官能化的步骤(b)的化学试剂包括式R3-NCS的化合物或其盐或缀合物,如本文所述。在一些实施例中,用式R2-NH2的胺或用二杂亲核试剂进一步处理所述多肽,以形成二级官能化的NTAA。
在一些实施例中,所述方法进一步包含(f)用化学试剂对所述多肽的新NTAA进行官能化以产生新官能化的NTAA;(g)使所述多肽与第二(或更高阶)结合剂接触,所述第二结合剂包括能够与新官能化的NTAA结合的第二(或更高阶)结合部分和(g1)带有关于所述第二(或更高阶)结合剂的标识信息的第二编码标签,或(g2)第二可检测标记;(h)(h1)将所述第二编码标签的信息转移至所述第一延伸型记录标签以生成第二延伸型记录标签并分析所述第二延伸型记录标签,或(h2)检测所述第二可检测标记,以及(i)消除所述官能化的NTAA以暴露新的NTAA。在本文描述的任何方法的一些实施例中,用于使多肽的N端氨基酸(NTAA)官能化的步骤(f)的化学试剂包括选自以下的化合物:式(AA)中任一个的化合物或其盐或缀合物,如本文所述。在本文描述的任何方法的一些实施例中,用于使多肽的N端氨基酸(NTAA)官能化的步骤(f)的化学试剂包括选自以下的化合物:式(AA)化合物、式(AB)化合物、式R3-NCS的化合物、式R2-NH2的胺或具有二杂亲核试剂的胺,或其盐或缀合物,如本文所述,或其任何组合。用于本文方法和试剂盒的合适的式(AA)化合物包含:
Figure BDA0003324885590001121
在任何此类实施例的一些实施例中,结合剂(例如,一阶、二阶或任何更高阶的结合剂)能够结合或被配置成结合非官能化的NTAA或官能化的NTAA。在一些实施例中,所述官能化的NTAA是初始官能化的NTAA或二级官能化的NTAA。在一些实施例中,所述官能化的NTAA是用选自以下的化合物处理的NTAA:式(AA)、式(AB)中任一个的化合物、式R3-NCS的化合物、式R2-NH2的胺或具有二杂亲核试剂的胺,或其盐或缀合物,如本文所述,或其任何组合。在一些实例中,所述官能化的NTAA是在使所述多肽与所述式(AA)化合物接触后来自步骤(b1)的产物。在一些实例中,所述官能化的NTAA是在使所述多肽与式R3-NCS的化合物接触后来自步骤(b2)的产物。在一些实例中,所述官能化的NTAA是与式R2-NH2的胺或与二杂亲核试剂进一步接触的来自步骤(b1)的产物。在一些实例中,所述官能化的NTAA是与式R2-NH2的胺或与二杂亲核试剂进一步接触的来自步骤(b2)的产物。
在一些实施例中,结合剂(例如,一阶、二阶或任何更高阶的结合剂)能够结合或被配置成结合来自用选自以下的化合物处理多肽而得到的副产物:式(AA)、式(AB)中任一个的化合物、式R3-NCS的化合物、式R2-NH2的胺或具有二杂亲核试剂的胺,或其盐或缀合物,如本文所述,或其任何组合。步骤1中可能出现的副产物是通过在pH升高(例如,pH>8)和/或系统温度升高期间发生的某些条件生成的。针对所有NTAA形成的一般副产物被描述为1)亚氨基乙内酰脲;其中相邻的酰胺与官能化的N端氨基酸的亚氨基碳发生分子内反应以产生乙内酰脲样环,和2)脲;其中官能化的N端氨基酸经历源自溶剂的碱促水解。可由如本文所述的式(II)化合物产生的副产物包含:
Figure BDA0003324885590001131
(II-亚氨基乙内酰脲),
Figure BDA0003324885590001132
(II-亚氨基噁唑烷),
以及
Figure BDA0003324885590001133
(II-脲)。
其中R1、R2、Z、RAA1和RAA2如针对式(II)所定义,例如在实施例37中。
可由如本文所述的式(IV)化合物产生的副产物包含:
Figure BDA0003324885590001141
(IV-脲-1),
以及
Figure BDA0003324885590001142
(IV-乙内酰脲);
Figure BDA0003324885590001143
(IV-噁唑烷酮),
其中R1、R2、环A、Z、RAA1和RAA2如针对式(IV)所定义,例如,在实施例47中。
在一些情况下,这些副产物被认为是不可逆的,并且随后消除或去除NTAA是不可能的。在本发明方法的一些实施例中,可以使用对这些副产物中的一种或多种副产物具有特异性的结合剂来检测这些种类的出现并确定NTAA的身份,即使NTAA没有被切割。
在一些情况下,根据NTAA侧链的功能存在警告。在一些情况下,当N端氨基酸是脯氨酸时,在N端官能化后,相邻的酰胺与官能化的N端反应以环化并形成[5,5]双环。当N端残基是天冬酰胺时,侧链的末端酰胺也可以与官能化的N端反应以形成嘧啶酮。当N端是丝氨酸或苏氨酸时,伯羟基氧或仲羟基氧可以与官能化的N端亚胺反应并环化以形成亚氨基噁唑啉。类似地,如果N端残基是半胱氨酸,硫醇将与官能化的N端胺形成环化产物,从而产生亚氨基噻唑啉。所有这些副产物都可以与二杂亲核试剂反应以形成氨基胍中间体,然后可以消除所述氨基胍中间体。
在本文提供的任何方法的一些实施例中,多肽与记录标签直接相关。在一些实施例中,多肽与支持物(例如,固体支持物)上的记录标签直接相关。在一些实施例中,多肽与溶液中的记录标签直接相关。在一些实施例中,多肽与记录标签间接相关。在一些实施例中,多肽与支持物(例如,固体支持物)上的记录标签间接相关。在一些实施例中,多肽与溶液中的记录标签间接相关。
在本文提供的任何方法的一些实施例中,多肽不与寡核苷酸(如记录标签)相关联。在一些实施例中,用于分析多肽的方法包括以下步骤:(a)提供多肽;(b)用化学试剂将所述多肽的N端氨基酸(NTAA)官能化;(c)使所述多肽与第一结合剂接触,所述第一结合剂包括能够与官能化的NTAA结合的第一结合部分和(c2)第一可检测标记;以及(d2)检测所述第一可检测标记。在一些实施例中,所述方法进一步包括(e)消除官能化的NTAA以暴露新的NTAA。
在一些实施例中,步骤(b)在步骤(c)之前、步骤(c)之后和步骤(d2)之前或步骤(d2)之后进行。在一些实施例中,步骤(a)、(b)、(c)和(d2)按序列顺序发生。在一些实施例中,步骤(a)、(c)、(b)和(d2)按序列顺序发生。在一些实施例中,步骤(a)、(c)、(d2)和(b)按序列顺序发生。在本文描述的任何方法的一些实施例中,用于使多肽的N端氨基酸(NTAA)官能化的步骤(b)的化学试剂包括选自以下的化合物:式(AA)、式(AB)中任一个的化合物、式R3-NCS的化合物、式R2-NH2的胺或具有二杂亲核试剂的胺,或其盐或缀合物,如本文所述,或其任何组合。
在一些实施例中,步骤(a)、(b)、(c1)和(d1)按序列顺序发生。在一些实施例中,步骤(a)、(c1)、(b)和(d1)按序列顺序发生。在一些实施例中,步骤(a)、(c1)、(d1)和(b)按序列顺序发生。在一些实施例中,步骤(a)、(b2)、(c1)和(d1)按序列顺序发生。在一些实施例中,步骤(a)、(b1)、(c1)和(d1)按序列顺序发生。在一些实施例中,步骤(a)、(c1)、(b1)和(d1)按序列顺序发生。在一些实施例中,步骤(a)、(c1)、(b2)和(d1)按序列顺序发生。在一些实施例中,步骤(a)、(c1)、(d1)和(b1)按序列顺序发生。在一些实施例中,步骤(a)、(c1)、(d1)和(b2)按序列顺序发生。在一些实施例中,步骤(a)、(b)、(c2)和(d2)按序列顺序发生。在一些实施例中,步骤(a)、(c2)、(b)和(d2)按序列顺序发生。在一些实施例中,步骤(a)、(c2)、(d2)和(b)按序列顺序发生。
在一些实施例中,所述方法进一步包含(f)用化学试剂对所述多肽的新NTAA进行官能化以产生新官能化的NTAA;(g)使所述多肽与第二(或更高阶)结合剂接触,所述第二结合剂包括能够与新官能化的NTAA结合的第二(或更高阶)结合部分和(g2)第二可检测标记;(h2)检测所述第二可检测标记,以及(i)消除所述官能化的NTAA以暴露新的NTAA。在一些实施例中,步骤(f)在步骤(g)之前、步骤(g)之后和步骤(h2)之前或步骤(h2)之后进行。在一些实施例中,步骤(f)、(g)和(h2)按序列顺序发生。在一些实施例中,步骤(g)、(f)和(h2)按序列顺序发生。在一些实施例中,步骤(g)、(h2)和(f)按序列顺序发生。在本文描述的任何方法的一些实施例中,用于使多肽的N端氨基酸(NTAA)官能化的步骤(f)的化学试剂包括选自以下的化合物:式(AA)、式(AB)中任一个的化合物、式R3-NCS的化合物、式R2-NH2的胺或具有二杂亲核试剂的胺,或其盐或缀合物,如本文所述,或其任何组合。
在本文描述的任何方法的一些实施例中,在多肽与结合剂接触(步骤(c)或步骤(g))之前,将多肽的N端氨基酸(NTAA)官能化(步骤(b)或步骤(f))。在一些实施例中,在多肽与结合剂接触(步骤(c)或步骤(g))之后,但在转移信息(步骤(d1)或步骤(h1))或检测可检测标记(步骤(d2)或步骤(h2))之前,将多肽的N端氨基酸(NTAA)官能化(步骤(f))。在一些实施例中,在多肽与结合剂接触(步骤(c)或步骤(g))之后并在转移信息(步骤(d1)或步骤(h1))或检测可检测标记(步骤(d2)或步骤(h2))之后,将多肽的N端氨基酸(NTAA)官能化(步骤(b)或步骤(f))。
在本文描述的任何方法的一些实施例中,针对多肽中的多个氨基酸重复步骤(f)、(g)、(h)和(i)。在一些实施例中,针对多肽中的两个或更多个氨基酸重复步骤(f)、(g)、(h)和(i)。在一些实施例中,针对至多约10个氨基酸、至多约20个氨基酸、至多约30个氨基酸、至多约40个氨基酸、至多约50个氨基酸、至多约60个氨基酸、至多约70个氨基酸、至多约80个氨基酸、至多约90个氨基酸或至多约100个氨基酸重复步骤(f)、(g)、(h)和(i)。在一些实施例中,针对至多约100个氨基酸重复步骤(f)、(g)、(h)和(i)。在一些实施例中,针对至少约100个氨基酸、至少约200个氨基酸或至少约500个氨基酸重复步骤(f)、(g)、(h)和(i)。
在一些实施例中,步骤(c)进一步包括使所述多肽与第二(或更高阶)结合剂接触,所述第二结合剂包括能够结合除步骤(b)的官能化NTAA之外的官能化NTAA的第二(或更高阶)结合部分和带有关于所述第二(或更高阶)结合剂的标识信息的编码标签。在一些实施例中,所述多肽与所述第二(或更高阶)结合剂的接触按序列顺序发生在所述多肽与所述第一结合剂接触之后。在一些实施例中,所述多肽与所述第二(或更高阶)结合剂的接触与所述多肽与所述第一结合剂的接触同时发生。在一些实施例中,所述多肽与所述第二(或更高阶)结合剂的接触按序列顺序发生在所述多肽与所述第一结合剂接触之后。在一些实施例中,所述多肽与所述第二(或更高阶)结合剂的接触与所述多肽与所述第一结合剂的接触同时发生。
在一些实施例中,所述第二(或更高阶)结合剂可以在与第一结合剂分开的结合循环反应中与多肽接触。在一些实施例中,所述更高阶结合剂是第三(或更高阶结合剂)。所述第三(或更高阶)结合剂可以在与第一结合剂和第二结合剂分开的结合循环反应中与多肽接触。在一个实施例中,第n个结合剂在第n个结合循环处与多肽接触,并且信息从(第n个结合剂的)第n个编码标签转移到在第(n-1)个结合循环中形成的延伸型记录标签以形成进一步延伸的记录标签(第n个延伸型记录标签),其中n为2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或约50、约100、约150、约200或更多的整数。类似地,第(n+1)个结合剂在第(n+1)个结合循环处与多肽接触,依此类推。
可替代地,所述第三(或更高阶)结合剂可以在与第一结合剂和第二结合剂一起的单一结合循环反应中与多肽接触。在这种情况下,可以使用结合循环特异性序列,如结合循环特异性编码标签。例如,编码标签可以包括结合循环特异性间隔子序列,使得只有在信息从第n个编码标签转移到第(n-1)个延伸型记录标签以形成第n个延伸型记录标签之后,第(n+1)个结合剂(其可能已经结合到分析物上或可能未结合到分析物上)才能够将第(n+1)个结合标签的信息转移到第n个延伸型记录标签。
在一些实施例中,多肽是通过使来自生物样品的蛋白质片段化而获得的。生物样品的实例包含但不限于细胞(原代细胞和培养的细胞系)、细胞裂解物或提取物、细胞器或囊泡,包含外泌体、组织和组织提取物;活检;粪便;体液(如血液、全血、血清、血浆、尿液、淋巴液、胆汁、脑脊液、间质液、房水或玻璃体液、初乳、痰液、羊水、唾液、肛门和阴道分泌物、汗液和精液、渗出液、渗出液(例如,从脓肿或任何其它感染或炎症部位获得的液体)或从几乎任何生物体的关节(正常关节或受类风湿性关节炎、骨关节炎、痛风或化脓性关节炎等疾病影响的关节)获得的液体,其中哺乳动物来源的样品,包含含有微生物组的样品,是优选的,而人类来源的样品,包含含有微生物组的样品,是特别优选的;环境样品(如空气、农业、水和土壤样品);微生物样品,包含来自微生物生物膜和/或群落的样品,以及微生物孢子;研究样品,包含细胞外液、来自细胞培养物的细胞外上清液、细菌中的包涵体、细胞隔室(包含线粒体隔室)和细胞周质)。
在一些实施例中,所述记录标签包括核酸、寡核苷酸、经修饰的寡核苷酸、DNA分子、具有伪互补碱基的DNA、具有受保护碱基的DNA、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、γPNA分子或吗啉代DNA或其组合。在一些实施例中,所述DNA分子是主链修饰的、糖修饰的或核碱基修饰的。在一些实施例中,所述DNA分子具有核碱基保护基团(如Alloc)、亲电保护基团(如硫烷)、乙酰基保护基团、硝基苄基保护基团、磺酸酯保护基团或传统的碱基不稳定的保护基团(包含Ultramild试剂)。
在一些实施例中,所述记录标签包括通用引发位点。在一些实施例中,所述通用引发位点包括用于扩增、测序或两者的引发位点。在一些实施例中,所述记录标签包括唯一分子标识符(UMI)。在一些实施例中,所述记录标签包括条形码。在一些实施例中,所述记录标签在其3'末端包括间隔子。在一些实施例中,所述记录标签在其5'末端包括间隔子。在一些实施例中,所述多肽和所述相关的记录标签共价连接至所述支持物。
在一些实施例中,所述支持物是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。在一些实施例中,所述支持物包括金、银、半导体或量子点。在一些实施例中,所述纳米颗粒包括金、银或量子点。在一些实施例中,所述支持物是聚苯乙烯珠、聚合物珠、琼脂糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠或受控孔珠。
在一些实施例中,多种多肽和相关的记录标签连接至支持物。在一些实施例中,所述多种多肽在所述支持物上间隔开,其中所述多肽之间的平均距离为约≥20nm。在一些实施例中,所述多肽之间的平均距离为约≥30nm、约≥40nm、约≥50nm、约≥60nm、约≥70nm、约≥80nm、约≥100nm或约≥500nm。在一些实施例中,所述多肽之间的平均距离为约≤500nm、约≤100nm、约≤80nm、约≤70nm、约≤60nm、约≤50nm、约≤40nm、约≤30nm或约≤20nm。
在一些实施例中,所述结合剂的所述结合部分包括肽或蛋白质。在一些实施例中,所述结合剂的所述结合部分包括氨肽酶或其变体、突变体或经修饰的蛋白质;氨酰tRNA合成酶或其变体、突变体或经修饰的蛋白质;抗运载蛋白或其变体、突变体或经修饰的蛋白质;ClpS(如ClpS2)或其变体、突变体或经修饰的蛋白质;UBR盒蛋白或其变体、突变体或经修饰的蛋白质;或结合氨基酸的经修饰的小分子,即万古霉素或其变体、突变体或经修饰的分子;或抗体或其结合片段;或其任何组合。
在一些实施例中,所述结合剂结合单个氨基酸残基(例如,N端氨基酸残基、C端氨基酸残基或内部氨基酸残基)、二肽(例如,N端二肽、C端二肽或内部二肽)、三肽(例如,N端三肽、C端三肽或内部三肽)或所述多肽的翻译后修饰。在一些实施例中,所述结合剂结合NTAA官能化的单氨基酸残基、NTAA官能化的二肽、NTAA官能化的三肽或NTAA官能化的多肽。
在一些实施例中,所述结合剂的所述结合部分能够选择性地结合所述多肽。在一些实施例中,所述结合剂选择性地结合官能化NTAA。例如,在将NTAA用化学试剂处理或官能化后,所述结合剂可以选择性地结合NTAA,其中所述化学试剂包括至少一种选自本文中提供的任何化合物的化合物,如式(AA)化合物、式(AB)化合物、式R3-NCS的化合物、式R2-NH2的胺或具有二杂亲核试剂的胺,或其盐或缀合物,如本文所述。在一些实施例中,所述结合剂是非同源结合剂。在一些方面,所述结合剂被配置成结合或识别多肽的一部分,所述部分包括用如本文所述的化学试剂处理或官能化的NTAA。在一些情况下,所述结合剂可以结合经化学修饰的NTAA和一个或多个额外的氨基酸残基。
在一些实施例中,至少一种结合剂结合末端氨基酸残基、末端二氨基酸残基或末端三氨基酸残基。在一些实施例中,至少一种结合剂结合经翻译后修饰的氨基酸。在一些情况下,所述结合剂结合非官能化或非化学修饰的NTAA。在一些情况下,所述结合剂结合官能化的NTAA或经化学修饰的NTAA。在一些实施例中,所述官能化的NTAA是用选自以下的化合物处理的NTAA:式(AA)、式(AB)中任一个的化合物、式R3-NCS的化合物、式R2-NH2的胺或具有二杂亲核试剂的胺,或其盐或缀合物,如本文所述,或其任何组合。在一些实施例中,结合剂(例如,一阶、二阶或任何更高阶的结合剂)能够结合或被配置成结合来自用选自以下的化合物处理多肽而得到的副产物:式(AA)、式(AB)中任一个的化合物、式R3-NCS的化合物、式R2-NH2的胺或具有二杂亲核试剂的胺,或其盐或缀合物,如本文所述,或其任何组合。
在一些实施例中,所述编码标签是DNA分子、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、γPNA分子或其组合。在一些实施例中,所述编码标签包括编码器或条形码序列。在一些实施例中,所述编码标签进一步包括间隔子、结合循环特异性序列、唯一分子标识符、通用引发位点或其任何组合。在一些实施例中,所述编码标签包括核酸、寡核苷酸、经修饰的寡核苷酸、DNA分子、具有伪互补碱基的DNA、具有受保护碱基的DNA、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、γPNA分子或吗啉代DNA或其组合。在一些实施例中,所述DNA分子是主链修饰的、糖修饰的或核碱基修饰的。在一些实施例中,所述DNA分子具有核碱基保护基团(如Alloc)、亲电保护基团(如硫烷)、乙酰基保护基团、硝基苄基保护基团、磺酸酯保护基团或传统的碱基不稳定的保护基团(包含Ultramild试剂)。
在一些实施例中,所述结合部分和所述编码标签通过接头连接。在一些实施例中,所述结合部分和所述编码标签通过SpyTag/SpyCatcher肽-蛋白质对、SnoopTag/SnoopCatcher肽-蛋白质对或HaloTag/HaloTag配体对连接。
在一些实施例中,将所述编码标签的信息转移至所述记录标签是由DNA连接酶或RNA连接酶介导的。在一些实施例中,将所述编码标签的信息转移至所述记录标签是由DNA聚合酶、RNA聚合酶或逆转录酶介导的。在一些实施例中,将所述编码标签的信息转移至所述记录标签是由化学连接介导的。在一些实施例中,使用单链DNA进行所述化学连接。在一些实施例中,使用双链DNA进行所述化学连接。
在一些实施例中,分析所述延伸型记录标签包括核酸测序方法。在一些实施例中,所述核酸测序方法是合成测序、连接测序、杂交测序、聚合酶集落测序、离子半导体测序和焦磷酸测序。在一些实施例中,所述核酸测序方法是单分子实时测序、基于纳米孔的测序或使用高级显微镜对DNA进行直接成像。
在一些实施例中,在分析之前对所述延伸型记录标签进行扩增。可以使用本领域已知的任何方法,例如使用PCR或线性扩增方法来扩增所述延伸型记录标签。
在一些实施例中,所述方法进一步包含添加循环标记的步骤。在一些实施例中,所述循环标记提供关于所述结合剂与所述多肽结合的顺序的信息。在一些实施例中,将所述循环标记添加到所述编码标签中。在一些实施例中,将所述循环标记添加到所述记录标签中。在一些实施例中,将所述循环标记添加到所述结合剂中。在一些实施例中,独立于所述编码标签、记录标签和结合剂添加所述循环标记。
在一些实施例中,包含在所述延伸型记录标签上的编码标签信息的顺序提供关于信息结合剂与所述多肽结合的顺序的信息。在一些实施例中,包含在所述延伸型记录标签上的所述编码标签信息的频率提供关于信息结合剂与所述多肽结合的频率的信息。
在一些实施例中,并行分析表示多种多肽的多个延伸型记录标签。在一些实施例中,在多路复用测定中分析表示多种多肽的所述多个延伸型记录标签。在一些实施例中,所述多个延伸型记录标签在分析之前经历靶标富集测定。在一些实施例中,所述多个延伸型记录标签在分析之前经历扣除测定。在一些实施例中,所述多个延伸型记录标签在分析之前经历归一化测定以减少高度丰富的种类。在本文公开的任何实施例中,可以合并多个多肽样品,其中每个样品内的一群多肽用包括样品特异性条形码的记录标签进行标记。此类多肽样品池可在单反应管内经历结合循环。
在一些实施例中,通过化学消除或酶促消除从多肽中消除NTAA。在一些实施例中,通过用碱、胺或二杂亲核试剂或其任何组合进行处理来消除NTAA。末端氨基酸部分的官能化和消除将在以下章节进行更详细的讨论。
在一些方面,提供了对多肽进行测序的方法,所述方法包括:(a)将多肽固定到支持物或基底上,或在溶液中提供多肽;(b)用化学试剂将所述多肽的N端氨基酸(NTAA)官能化,其中所述化学试剂包括如本文所述的式(AB)化合物或式(AA)化合物;(c)使所述多肽与多种结合剂接触,所述多种结合剂各自包括能够与官能化的NTAA结合的结合部分和可检测标记;(d)检测与所述多肽结合的结合剂的可检测标记,从而鉴定所述多肽的N端氨基酸;(e)消除官能化的NTAA以暴露新的NTAA;以及(f)重复步骤(b)到(d)或步骤(b)到(e)以确定所述多肽的至少一部分的序列。
在一些实施例中,步骤(b)在步骤(c)之前进行。在一些实施例中,步骤(b)在步骤(c)之后和步骤(d)之前进行。在一些实施例中,步骤(b)在步骤(c)和步骤(d)之后进行。在一些实施例中,步骤(a)、(b)、(c)、(d)和(e)按序列顺序发生。在一些实施例中,步骤(a)、(c)、(b)、(d)和(e)按序列顺序发生。在一些实施例中,步骤(a)、(c)、(d)、(b)和(e)按序列顺序发生。
在本文描述的任何方法的一些实施例中,多肽是通过使来自生物样品的蛋白质片段化而获得的。在一些实施例中,所述支持物或基底是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。
在本文描述的任何方法的一些实施例中,通过化学切割或酶促切割从多肽中消除NTAA。在一些实施例中,通过用胺、碱或二杂亲核试剂或其任何组合进行处理来消除NTAA。
在本文描述的任何方法的一些实施例中,多肽共价固定到所述支持物或基底上。在一些实施例中,所述支持物或基底是光学透明的。在一些实施例中,所述支持物或基底包括多个空间解析的附着点,并且步骤a)包括将多肽固定到所述空间解析的附着点。
在本文描述的任何方法的一些实施例中,所述结合剂的所述结合部分包括肽或蛋白质。
在一些实施例中,所述结合剂的所述结合部分包括氨肽酶或其变体、突变体或经修饰的蛋白质;氨酰tRNA合成酶或其变体、突变体或经修饰的蛋白质;抗运载蛋白或其变体、突变体或经修饰的蛋白质;ClpS(如ClpS2)或其变体、突变体或经修饰的蛋白质;UBR盒蛋白或其变体、突变体或经修饰的蛋白质;或结合氨基酸的经修饰的小分子,即万古霉素或其变体、突变体或经修饰的分子;或抗体或其结合片段;或其任何组合。
在一些实施例中,所述化学试剂包括下式的缀合物:
Figure BDA0003324885590001221
其中R2和环A如上述任一实施例中针对式(AA)所定义,并且Q为配体;
Figure BDA0003324885590001222
其中R3如上述任一实施例中针对式(III)所定义,并且Q为配体。
在一些实施例中,用于将多肽的末端氨基酸官能化的化学试剂包括式(AA)-Q的缀合物,如上所定义,并且Q是配体。
在一些实施例中,配体Q是侧基或结合位点(例如,结合剂结合的位点)。在一些实施例中,所述多肽与结合剂共价结合。在一些实施例中,多肽包括官能化的NTAA,其包含能够与结合剂共价结合的配体基团。在某些实施例中,多肽包括具有式(AA)-Q化合物的官能化的NTAA,其中Q与结合剂共价结合。在一些实施例中,进行偶联反应以在多肽和结合剂之间产生共价连接(例如,配体Q和结合剂上的官能团之间的共价连接)。
在一些实施例中,用于将多肽的末端氨基酸官能化的化学试剂包括式(I)-Q的缀合物
Figure BDA0003324885590001223
在一些实施例中,Q选自由以下组成的组:-C1-6烷基、-C2-6烯基、-C2-6炔基、芳基、杂芳基、杂环基、-N=C=S、-CN、-C(O)Rn、-C(O)ORo、--SRp或-S(O)2Rq;其中-C1-6烷基、-C2-6烯基、-C2-6炔基、芳基、杂芳基和杂环基各自未被取代或被取代,并且Rn、Ro、Rp和Rq各自独立地选自由以下组成的组:-C1-6烷基、-C1-6卤代烷基、-C2-6烯基、-C2-6炔基、芳基、杂芳基和杂环基。在一些实施例中,Q选自由以下组成的组:
Figure BDA0003324885590001231
Figure BDA0003324885590001232
在一些实施例中,Q是荧光团。在一些实施例中,Q选自镧系元素、铕、铽、XL665、d2、量子点、绿色荧光蛋白、红色荧光蛋白、黄色荧光蛋白、荧光素、若丹明、曙红、德克萨斯红、花青、吲哚羰花青(indocarbocyanine)、奥卡羰花青(ocacarbocyanine)、硫羰花青(thiacarbocyanine)、部花青、吡啶基噁唑、苯并噁二唑、级联蓝、尼罗红、噁嗪170、吖啶橙、原黄素、金胺、孔雀石绿结晶紫、卟啉酞菁和胆红素。
在一些实施例中,提供了对样品中的多个多肽分子进行测序的方法,所述方法包括:(a)将样品中的多肽分子固定到支持物或基底上的多个空间解析的附着点;
(b)用化学试剂将所述多肽分子的N端氨基酸(NTAA)官能化,其中所述化学试剂包括选自由以下组成的组的化合物:
(i)式(AA)化合物,和
(ii)式R3-NCS的化合物;
(c)使所述多肽与多种结合剂接触,所述多种结合剂各自包括能够与官能化的NTAA结合的结合部分和可检测标记;
(d)对于空间解析并固定到支持物或基底上的多个多肽分子,光学检测与每个多肽结合的探针的荧光标记;
(e)消除每个多肽的官能化的NTAA;以及
(f)重复步骤b)到d)以确定空间解析并固定到支持物或基底上所述多个多肽分子中的一个或多个多肽分子的至少一部分的序列。在一些实施例中,所述多肽进一步与步骤(b)中的式R2-NH2的胺或与二杂亲核试剂接触。
在一些实施例中,步骤(b)在步骤(c)之前进行。在一些实施例中,步骤(b)在步骤(c)之后和步骤(d)之前进行。在一些实施例中,步骤(b)在步骤(c)和步骤(d)之后进行。在一些实施例中,步骤(a)、(b)、(c)、(d)和(e)按序列顺序发生。在一些实施例中,步骤(a)、(c)、(b)、(d)和(e)按序列顺序发生。在一些实施例中,步骤(a)、(c)、(d)、(b)和(e)按序列顺序发生。在一些实施例中,通常在步骤(a)-(e)之前或之后包含使多肽与一种或多种酶接触以消除NTAA(例如,脯氨酸氨肽酶)的额外步骤。在一些实施例中,通过化学和/或生物(例如,酶促)方式消除官能化的NTAA,以暴露新的NTAA。
在一些实施例中,提供了对样品中的多个多肽分子进行测序的方法,所述方法包括用化学试剂对多肽的N端氨基酸(NTAA)进行官能化,并使多肽与能够结合至官能化的NTAA的结合剂接触。在一些方面,结合剂包括编码标签,所述编码标签含有关于所述结合剂的标识信息。在一些方面,除了结合部分之外,结合剂进一步包括一种或多种可检测标记,如荧光标记。在本文呈现的任何方法的一些实施例中,所述荧光标记是荧光部分、颜色编码的纳米颗粒或量子点。
在本文呈现的任何方法的一些实施例中,所述样品包括生物流体、细胞提取物或组织提取物。在一些实施例中,所述方法进一步包括将步骤e)中确定的至少一个多肽分子的序列与参考蛋白质序列数据库进行比较。在一些实施例中,所述方法进一步包括比较步骤e)中确定的每个多肽的序列、将相似的多肽序列分组并计数每个相似多肽序列的实例数。
在一些实施例中,使用包括式(AA)化合物的化学试剂对NTAA进行的官能化和随后的消除如以下方案中所描绘:
Figure BDA0003324885590001241
其中R1和R2如上所定义且RAA1是多肽的NTAA的侧链。
在一些实施例中,消除步骤的产物由已从多肽中消除的官能化的NTAA的氨基酸侧链确定。在一些实施例中,已从多肽中消除的官能化的NTAA的产物呈线性形式。在一些实施例中,消除步骤的产物由两个末端氨基酸组成。在一些实施例中,已从多肽中消除的官能化的NTAA包括环。在一些实施例中,用式(AA)化合物官能化的NTAA的消除产物包括选自以下的化合物:
Figure BDA0003324885590001251
以及它们的互变异构体。这些产物中的每一个产物都包含已被移除的NTAA的侧链,因此环切割产物的鉴定提供了被移除的NTAA的身份。
在某些实施例中,NTAA在NTAA官能化步骤之前已经被封闭(具体地说,蛋白质的原始N端)。如果是这样,有许多方法可以解除N端封闭,如用酰基肽水解酶(APH)去除N-乙酰基封闭(Farries、Harris等人,1991)。解除肽的N端封闭的许多其它方法是本领域已知的(参见,例如,Krishna等人,1991,《分析生物化学(Anal.Biochem.)》199:45-50;Leone等人,2011,《蛋白质科学实验指南(Curr.Protoc.Protein Sci.)》,第11章:Unit 11.7;Fowler等人,2001,《蛋白质科学实验指南》,第11章:Unit 11.7,所述文献中的每一个均通过引用整体并入本文)。
在一些实施例中,多肽是通过使来自生物样品的蛋白质片段化而获得的。生物样品的实例包含但不限于细胞(原代细胞和培养的细胞系)、细胞裂解物或提取物、细胞器或囊泡,包含外泌体、组织和组织提取物;活检;粪便;体液(如血液、全血、血清、血浆、尿液、淋巴液、胆汁、脑脊液、间质液、房水或玻璃体液、初乳、痰液、羊水、唾液、肛门和阴道分泌物、汗液和精液、渗出液、渗出液(例如,从脓肿或任何其它感染或炎症部位获得的液体)或从几乎任何生物体的关节(正常关节或受类风湿性关节炎、骨关节炎、痛风或化脓性关节炎等疾病影响的关节)获得的液体,其中哺乳动物来源的样品,包含含有微生物组的样品,是优选的,而人类来源的样品,包含含有微生物组的样品,是特别优选的;环境样品(如空气、农业、水和土壤样品);微生物样品,包含来自微生物生物膜和/或群落的样品,以及微生物孢子;研究样品,包含细胞外液、来自细胞培养物的细胞外上清液、细菌中的包涵体、细胞隔室(包含线粒体隔室)和细胞周质)。肽、多肽、蛋白质或蛋白质复合物可以包括标准的、天然存在的氨基酸、经修饰的氨基酸(例如,翻译后修饰)、氨基酸类似物、氨基酸模拟物或其任何组合。
在本文描述的任何方法的一些实施例中,多肽共价固定到支持物或基底上。在一些实施例中,所述支持物或基底可以是任何支持物表面,包含但不限于珠子、微珠、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、PTFE膜、尼龙、硅晶片芯片、流通池、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。用于固体支持物的材料包含但不限于丙烯酰胺、琼脂糖、纤维素、葡聚糖、硝酸纤维素、玻璃、金、石英、聚苯乙烯、聚乙烯醋酸乙烯酯、聚丙烯、聚酯、聚甲基丙烯酸酯、聚丙烯酸酯、聚乙烯、聚环氧乙烷、聚硅酸盐、聚碳酸酯、聚乙烯醇(PVA)、特氟隆、碳氟化合物、尼龙、硅橡胶、二氧化硅、聚酐、聚乙醇酸、聚氯乙烯、聚乳酸、聚原酸酯、官能化硅烷、聚富马酸丙酯、胶原蛋白、糖胺聚糖、聚氨基酸或其任何组合。在某些实施例中,固体支持物是珠子,例如,聚苯乙烯珠、聚合物珠、聚丙烯酸酯珠、琼脂糖珠、纤维素珠、葡聚糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠、基于二氧化硅的珠子或受控孔珠,或其任何组合。
在一些方面,提供了对多肽进行测序的方法,所述方法包括:(a)将多肽固定到支持物或基底上,或在溶液中提供多肽;(b)用化学试剂将所述多肽的N端氨基酸(NTAA)官能化,其中所述化学试剂包括选自由以下组成的组的化合物:
(i)式(AA)化合物:
Figure BDA0003324885590001261
或其盐或缀合物,
其中:
R2为H或R4
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
其中位于同一N上的两个R"可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;环A为含有至多三个N原子作为环成员的5元杂芳基环,并且任选地稠合至额外的苯基或5-6元杂芳基环,并且其中所述5元杂芳基环和任选的稠合苯基或5-6元杂芳基环各自任选地被选自C1-4烷基、C1-4烷氧基、-OH、卤代、C1-4卤代烷基、NO2、COOR、CONR2、-SO2R*、-NR2、苯基和5-6元杂芳基的一个或两个基团取代;
其中每个R独立地选自H和任选地被OH、OR*、-NH2、-NHR*或-NR*2取代的C1-3烷基;并且
每个R*为C1-3烷基,其任选地被OH、氧代、C1-2烷氧基或CN取代;
其中位于同一N上的两个R或两个R*可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
下式化合物
R3-N=C=S
其中R3为选自苯基、5元杂芳基、6元杂芳基、C1-3卤代烷基和C1-6烷基的任选取代的基团,
其中任选的取代基是选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2、CON(R')2、苯基、5元杂芳基、6元杂芳基和C1-6烷基的一个到三个成员,其中所述苯基、5元杂芳基、6元杂芳基和C1-6烷基各自任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代;
其中每个R'独立地为H或C1-3烷基;
其中位于同一N上的两个R'可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代。
末端氨基酸(TAA)官能化和消除方法
在某些实施例中,多肽的末端氨基酸(例如,NTAA或CTAA)被官能化。在一些实施例中,在本文所述的方法中使多肽与结合剂接触之前,末端氨基酸被官能化。在一些实施例中,在本文所述的方法中使多肽与结合剂接触之后,末端氨基酸被官能化。
在一些实施例中,末端氨基酸通过使多肽与化学试剂接触而被官能化。在一些实施例中,待官能化的末端氨基酸是N端氨基酸,其可用上述式(AA)试剂或上述式R3-NCS的试剂官能化。在每种情况下,最初形成的官能化的NTAA然后可以在温和条件下转化为式(II)化合物
Figure BDA0003324885590001281
或其互变异构体
如本文所述。
式(II)化合物经历切割以去除官能化的NTAA,从而留下NTAA被去除的对应于起始多肽的截短的多肽。消除官能化的NTAA提供了切割副产物。
在一些实施例中,消除步骤的产物包括已从多肽中消除的官能化的NTAA。在一些实施例中,已从多肽中消除的官能化的NTAA的产物呈线性形式。在一些实施例中,已从多肽中消除的官能化的NTAA包括环。在一些实施例中,已从多肽中消除的官能化的NTAA包括环。在一些实施例中,用式(AA)化合物官能化的NTAA的消除产物包括选自以下的化合物:
Figure BDA0003324885590001282
Figure BDA0003324885590001283
以及它们的互变异构体。这些产物中的每一个产物都包含已被移除的NTAA的侧链,因此环切割产物的鉴定提供了被移除的NTAA的身份。
在本文提供的任何实施例中,通过合适的试剂去除官能化的NTAA。通常,用于去除NTAA的调配物是在用于在约5-10的pH下在非亲核培养基中去除NTAA的1-100mM合适试剂。所述培养基通常包括缓冲剂,如磷酸钠/钾、PBS、乙酸盐、碳酸盐、碳酸氢盐、叔胺盐(例如,N-乙基吗啉乙酸盐、三乙基乙酸铵、HEPES、MOPS、MES、POPSO、CAPSO、其它Good's缓冲液等)、氯化物或TRIS。所述培养基通常是水性的并且任选地包括0-80%的水混溶性有机溶剂,如二甲亚砜、N,N-二甲基甲酰胺、N,N-二甲基乙酰胺、甲醇、N-甲基吡咯烷酮、乙醇或乙腈或其中两个或更多个的组合。通常将混合物在25℃–100℃的培养基中保持10-60分钟,以去除NTAA。合适培养基的实例是含有磷酸盐、氯化钠、tween 20(表面活性剂)的水,pH为5-10,并在25℃–60℃下加热1到60分钟,其含有合适的试剂,如二杂亲核试剂。在一些实施例中,使用包含0.1M到2.0M磷酸钠、磷酸钾、磷酸铯或磷酸铵缓冲液或碳酸钠、碳酸钾或碳酸铵缓冲液的水性调配物在50-100℃、pH 5.5-9.5下进行5-60分钟消除。在一些实施例中,用于NTAA消除的合适试剂包括氢氧化物、氨或二杂亲核试剂,通常浓度为0.15M–4.5M
在一些实施例中,使用氨或氢氧化铵去除官能化的NTAA。在一些实施例中,通过用二杂亲核试剂(如肼或本文所述的肼衍生物之一)进行处理来诱导官能化的NTAA的消除。在一些实施例中,可以使用不含胺的缓冲溶液去除官能化的NTAA,所述缓冲溶液通常为弱酸性或弱碱性(pH 5-9)培养基,并且在其它实施例中,氨或二杂亲核胺(如选自以下组A的一种)存在于培养基中。
组A:
Figure BDA0003324885590001291
存在于培养基中以促进官能化的NTAA的消除。在优选的实施例(NTH)中,二杂亲核试剂是肼。
在一些实施例中,可以用一种或多种酶处理多肽以消除NTAA。在一些实例中,可用酶处理多肽以消除官能化的NTAA。在一些情况下,在修饰NTAA的过程之前、期间或之后用一种或多种酶处理多肽。本发明的方法可以包含在用任何提供的化学试剂处理之前、期间或之后用酶处理多肽以去除一种或多种NTAA的任选的步骤;并且用于实践本发明方法的试剂盒可以任选地包含酶以去除一种或多种NTAA,以供以这种方式使用。在任何此类实施例的一些实施例中,可以用酶的组合处理多肽以去除一种或多种NTAA。在一些实施例中,通过化学和/或生物(例如,酶促)方式消除样品中各种多肽的官能化NTAA以暴露新的NTAA。
在一些实施例中,酶从作为天冬酰胺的多肽中消除NTAA。在一些实施例中,酶从作为脯氨酸的多肽中消除NTAA。在一些实施例中,酶从作为丝氨酸的多肽中消除NTAA。在一些实施例中,酶从作为苏氨酸的多肽中消除NTAA。在一些实施例中,酶从作为谷氨酰胺的多肽中消除NTAA。在一些实例中,可以用酶处理天冬酰胺以将残基转化为天冬氨酸。在一些实例中,可以用酶处理谷氨酰胺以将残基转化为谷氨酸。参见例如,Ito等人,2012,《应用与环境微生物学(Appl Environ Microbiol.)》78(15):5182–5188;Yamaguchi等人,2001,《欧洲生物化学杂志(Eur J Biochem.)》268(5):1410-21;Stewart等人,1994,《生物化学杂志(JBiol Chem.)》269(38):23509-17;Stewart等人,1995,《生物化学杂志》270(1):25-8。
在一些情况下,焦谷氨酸在自然界中存在于肽和蛋白质的N端。其是一种普遍存在于植物、细菌和哺乳动物细胞中的天然氨基酸,并以信号传导肽和免疫球蛋白的形式发挥重要的生物学功能(Eduardo等人,(2010)《神经内分泌学前沿(Front Neuroendocrinol)》,31(2),134–156;Bochtler等人,(2018)《微生物学前沿(Front.Microbiol.)》,9:230;Pohl等人,(1991)《美国国家科学院院刊(Proceedings of the National Academy ofSciences)》,88(22)10059-10063;Wu等人,(2017)《mBio》8(1)e02231-16)。当N端谷氨酰胺或谷氨酸的氨基与其侧链自发或在谷氨酰胺环化酶的辅助下环化时就会出现所述焦谷氨酸(Schilling等人,(2008)《生物化学(Biological Chemistry)》,389(8),983-991)。在实验室中,当用弱酸处理或在升高的温度下处理时,N端焦谷氨酸肽也可以很容易地从其N端谷氨酰胺肽对应物转化。在一个实例中,使用应变促进的炔-叠氮化物环加成(SPAAC)反应将N端谷氨酰胺肽缀合到表面可能会导致焦谷氨酸盐的形成。在缀合反应期间,将叠氮肽在100mM HEPES(pH 7.5)中在60℃下用DBCO珠处理过夜,并且N端谷氨酰胺环化以提供焦谷氨酸。
在另一个实例中,当用化学试剂(例如,二杂环甲亚胺)处理时,肽可以形成焦谷氨酸。例如,在N端氨基酸是谷氨酰胺(Gln;Q)的情况下,源自N端胺的环化容易在谷氨酰胺侧链的伯酰胺上发生,从而导致焦谷氨酸盐的形成。在此步骤期间,P1氨基酸被消除,并且新形成的N端谷氨酰胺可能环化形成焦谷氨酸。例如,焦谷氨酸可能在消除反应条件下与1M磷酸铵(pH 6.0)在95℃下反应30分钟形成。一旦形成焦谷氨酸,曾经的N端胺就不能再进行官能化,可能令人期望的是,在应用上述化学NTAA消除方法之前使用酶促方法从N端去除焦谷氨酸。在另一个实例中,在N端氨基酸是丝氨酸(Ser,S)的情况下,源自丝氨酸侧链到经修饰的N端胺的环化导致形成亚氨基噁唑烷。一旦发生亚氨基噁唑烷形成,可能令人期望的是,在应用上述化学NTAA消除方法之前使用酶促方法从N端去除亚氨基噁唑烷。
在一些具体实例中,将多肽用脯氨酸氨肽酶、脯氨酸亚氨基肽酶(PIP)、焦谷氨酸氨肽酶(pGAP)、天冬酰胺酰胺水解酶、肽谷氨酰胺酶天冬酰胺酶和/或蛋白质谷氨酰胺酶或其同系物进行处理。这可以在应用如本文所述的化学NTAA消除步骤之前完成。在一些实施例中,酶处理与使用提供的化学试剂的处理和/或在多肽分析测定中进行的步骤相容。参见例如,Ito等人,2012,《应用与环境微生物学》78(15):5182–5188;Yamaguchi等人,2001,《欧洲生物化学杂志》268(5):1410-21;Stewart等人,1994,《生物化学杂志》269(38):23509-17;Stewart等人,1995,《生物化学杂志》270(1):25-8。
在一些实施例中,所述方法包含用化学试剂对多肽的N端氨基酸(NTAA)进行官能化、使多肽与能够结合官能化的NTAA的结合剂接触、用酶处理多肽(例如,以转化或去除NTAA)并消除官能化的NTAA以暴露新的NTAA(例如,使用化学试剂)。在一些方面,用酶处理多肽(例如,以转化或去除NTAA)可以按相对于用其它试剂处理多肽的各种顺序进行。在一些实例中,用酶处理多肽(例如,以转化或去除NTAA)是在使多肽与能够结合官能化的NTAA的结合剂接触之后进行的。在一些特定情况下,用酶处理多肽(例如,以转化或去除NTAA)是在用化学试剂对多肽的N端氨基酸(NTAA)进行官能化之后进行的。在一些情况下,可以用多于一种酶(例如,一次一种酶或作为混合物)处理多肽以转化和/或去除各种NTAA。
多肽
在一些方面,本公开涉及多肽的分析和修饰。多肽可以包括L-氨基酸、D-氨基酸或两者。多肽可以包括标准的、天然存在的氨基酸、经修饰的氨基酸(例如,翻译后修饰)、氨基酸类似物、氨基酸模拟物或其任何组合。在一些实施例中,所述多肽是天然存在的、合成产生的或重组表达的。在任何前述实施例中,所述多肽可以进一步包括翻译后修饰。
标准的天然存在的氨基酸包含丙氨酸(A或Ala)、半胱氨酸(C或Cys)、天冬氨酸(D或Asp)、谷氨酸(E或Glu)、苯丙氨酸(F或Phe)、甘氨酸(G或Gly)、组氨酸(H或His)、异亮氨酸(I或Ile)、赖氨酸(K或Lys)、亮氨酸(L或Leu)、蛋氨酸(M或Met)、天冬酰胺(N或Asn)、脯氨酸(P或Pro)、谷氨酰胺(Q或Gln)、精氨酸(R或Arg)、丝氨酸(S或Ser)、苏氨酸(T或Thr)、缬氨酸(V或Val)、色氨酸(W或Trp)和酪氨酸(Y或Tyr)。非标准氨基酸包含硒代半胱氨酸、吡咯赖氨酸和N-甲酰基甲硫氨酸、β-氨基酸、同位氨基酸(Homo-amino acids)、脯氨酸和丙酮酸衍生物、3-取代的丙氨酸衍生物、甘氨酸衍生物、环-取代的苯丙氨酸和酪氨酸衍生物、线性核心氨基酸和N-甲基氨基酸。
根据本文公开的方法分析的多肽可以从合适的来源或样品获得,包含但不限于:生物样品,如细胞(原代细胞和培养的细胞系)、细胞裂解物或提取物、细胞器或囊泡,包含外泌体、组织和组织提取物;活检;粪便;体液(如血液、全血、血清、血浆、尿液、淋巴液、胆汁、脑脊液、间质液、房水或玻璃体液、初乳、痰液、羊水、唾液、肛门和阴道分泌物、汗液和精液、渗出液、渗出液(例如,从脓肿或任何其它感染或炎症部位获得的液体)或从几乎任何生物体的关节(正常关节或受类风湿性关节炎、骨关节炎、痛风或化脓性关节炎等疾病影响的关节)获得的液体,其中哺乳动物来源的样品,包含含有微生物组的样品,是优选的,而人类来源的样品,包含含有微生物组的样品,是特别优选的;环境样品(如空气、农业、水和土壤样品);微生物样品,包含来自微生物生物膜和/或群落的样品,以及微生物孢子;研究样品,包含细胞外液、来自细胞培养物的细胞外上清液、细菌中的包涵体、细胞隔室(包含线粒体隔室)和细胞周质)。
在某些实施例中,所述多肽是蛋白质或蛋白质复合物。例如,所述多肽的氨基酸序列信息和翻译后修饰被转导到可通过下一代测序方法分析的核酸编码文库中。
多肽可以包括L-氨基酸、D-氨基酸或两者。多肽可以包括标准的、天然存在的氨基酸、经修饰的氨基酸(例如,翻译后修饰)、氨基酸类似物、氨基酸模拟物或其任何组合。在一些实施例中,所述多肽是天然存在的、合成产生的或重组表达的。在任何前述实施例中,所述多肽可以进一步包括翻译后修饰。
标准的天然存在的氨基酸包含丙氨酸(A或Ala)、半胱氨酸(C或Cys)、天冬氨酸(D或Asp)、谷氨酸(E或Glu)、苯丙氨酸(F或Phe)、甘氨酸(G或Gly)、组氨酸(H或His)、异亮氨酸(I或Ile)、赖氨酸(K或Lys)、亮氨酸(L或Leu)、蛋氨酸(M或Met)、天冬酰胺(N或Asn)、脯氨酸(P或Pro)、谷氨酰胺(Q或Gln)、精氨酸(R或Arg)、丝氨酸(S或Ser)、苏氨酸(T或Thr)、缬氨酸(V或Val)、色氨酸(W或Trp)和酪氨酸(Y或Tyr)。非标准氨基酸包含硒代半胱氨酸、吡咯赖氨酸和N-甲酰基甲硫氨酸、β-氨基酸、同位氨基酸(Homo-amino acids)、脯氨酸和丙酮酸衍生物、3-取代的丙氨酸衍生物、甘氨酸衍生物、环-取代的苯丙氨酸和酪氨酸衍生物、线性核心氨基酸和N-甲基氨基酸。
多肽或氨基酸的翻译后修饰(PTM)可以是一个或多个氨基酸侧链的化学修饰或酶促修饰,并且可以发生在多肽的一个或多个氨基酸侧链上。在本文的化合物和方法的一些实施例中,蛋白质氨基酸或常见天然氨基酸之一的至少一个侧链包括PTM。翻译后修饰的实例包含但不限于酰化、乙酰化、烷基化(包含甲基化)、叠氮化、生物素化、丁酰化、氨基甲酰化、羰基化、瓜氨酸化、脱酰胺基、脱亚氨基、二苯甲酰胺形成、二硫键形成、消除、黄素附着、甲酰化、γ-羧化、谷氨酰化、糖基化(glycylation)、糖基化(例如,S-连接、N-连接、O-连接、C-连接、磷酸糖基化)、糖基磷脂酰肌醇化(glypiation)、血红素C附着、羟基化、乙酰化形成、碘化、异戊二烯化、脂质化、脂酰化、丙二酰化、甲基化、肉豆蔻酰化、氧化、棕榈酰化、聚乙二醇化、磷酸戊二烯酰化、磷酸化、异戊烯化、炔丙基化、丙酰化、亚视黄基席夫碱形成、S-谷胱甘肽化、S-亚硝基化、S-亚磺酰化、硒化、琥珀酰化、硫酸化、磺基糖基化、亚磺化、SUMO化、泛素化和C端酰胺化。翻译后修饰包含肽、多肽或蛋白质的氨基末端和/或羧基末端的修饰。末端氨基的修饰包含但不限于脱氨基、N-低级烷基、N-二-低级烷基和N-酰基修饰。末端羧基的修饰包含但不限于酰胺、低级烷基酰胺、二烷基酰胺和低级烷基酯修饰(例如,其中低级烷基为C1-C4烷基)。翻译后修饰还包含落在肽、多肽或蛋白质的氨基和羧基末端之间的氨基酸的修饰,如但不限于上述修饰。翻译后修饰可以调节细胞内蛋白质的“生物学”,例如,其活性、结构、稳定性或定位。磷酸化是最常见的翻译后修饰,并且在蛋白质的调节中(尤其是在细胞信号传导中)起重要作用(Prabakaran等人,(2012)《威利跨学科综述-系统生物学和医学(Wiley Interdiscip Rev Syst Biol Med)》4:565-583)。已显示向蛋白质中添加糖(例如糖基化)可促进蛋白质折叠、提高稳定性并改变调节功能。脂质对蛋白质的附着使得能够靶向细胞膜。
在某些实施例中,本文方法中使用的多肽可以从更大的蛋白质或蛋白质复合物中片段化。例如,片段化的多肽可以通过从样品(如生物样品)中片段化多肽、蛋白质或蛋白质复合物来获得。多肽、蛋白质或蛋白质复合物可以通过本领域已知的任何方式片段化,包含通过蛋白酶或内肽酶片段化。在一些实施例中,多肽、蛋白质或蛋白质复合物的片段化是通过使用特定蛋白酶或内肽酶来靶向的。特定的蛋白酶或内肽酶在特定的共有序列处结合并切割(例如,对ENLYFQ\S共有序列具有特异性的TEV蛋白酶,SEQ ID NO:141)。在其它实施例中,通过使用非特异性蛋白酶或内肽酶,肽、多肽或蛋白质的片段化是非靶向的或随机的。非特异性蛋白酶可在特定氨基酸残基而非共有序列处结合和切割(例如,蛋白酶K是非特异性丝氨酸蛋白酶)。蛋白酶和内肽酶是本领域公知的,可用于将蛋白质或多肽切割成更小的肽片段的蛋白酶和内切酶的实例包含蛋白酶K、胰蛋白酶、糜蛋白酶、胃蛋白酶、嗜热菌蛋白酶、凝血酶、因子Xa、弗林蛋白酶、内肽酶、木瓜蛋白酶、胃蛋白酶、枯草杆菌蛋白酶、弹性蛋白酶、肠激酶、GenenaseTMI、内切蛋白酶LysC、内切蛋白酶AspN、内切蛋白酶GluC等。(Granvogl等人,2007,《分析和生物分析化学(Anal Bioanal Chem)》389:991-1002)。在某些实施例中,肽、多肽或蛋白质被蛋白酶K或任选地蛋白酶K的不耐热形式片段化以能够快速失活。蛋白酶K在变性试剂(如脲和SDS)中非常稳定,从而能够消化完全变性的蛋白质。蛋白质和多肽片段化成肽可以在附着DNA标签或DNA记录标签之前或之后进行。
在一些实施例中,首先用一种或多种酶处理待分析的多肽以转化或去除特定氨基酸。例如,将多肽用脯氨酸氨肽酶、脯氨酸亚氨基肽酶(PIP)、焦谷氨酸氨肽酶(pGAP)、N端天冬酰胺酰胺水解酶(例如NTAN1/PNAD或NH2端天冬酰胺脱酰胺酶或NH2端天冬酰胺酰胺水解酶)、肽谷氨酰胺酶天冬酰胺酶和/或蛋白质谷氨酰胺酶或其同系物进行处理。在一些实施例中,待分析的多肽首先在适合去除N端脯氨酸(如果存在的话)的条件下与脯氨酸氨肽酶接触。
化学试剂也可用于将蛋白质消化成肽片段。化学试剂可在特定氨基酸残基处切割(例如,溴化氰水解甲硫氨酸残基C端的肽键)。用于将多肽或蛋白质片段化为较小肽段的化学试剂包含溴化氰(CNBr)、羟胺、肼、甲酸、BNPS-粪臭素[2-(2-硝基苯基亚磺酰基)-3-甲基吲哚]、碘代苯甲酸、NTCB+Ni(2-硝基-5-硫代氰基苯甲酸)等。
在某些实施例中,在酶促或化学消除后,所得多肽片段具有大致相同的所需长度,例如,约10个氨基酸到约70个氨基酸、约10个氨基酸到约60个氨基酸、约10个氨基酸到约50个氨基酸、约10到约40个氨基酸、约10到约30个氨基酸、约20个氨基酸到约70个氨基酸、约20个氨基酸到约60个氨基酸、约20个氨基酸到约50个氨基酸、约20到约40个氨基酸、约20到约30个氨基酸、约30个氨基酸到约70个氨基酸、约30个氨基酸到约60个氨基酸、约30个氨基酸到约50个氨基酸或约30个氨基酸到约40个氨基酸。可以优选地通过用包括含有蛋白酶或内肽酶消除位点的肽序列的短测试FRET(荧光共振能量转移)多肽掺入蛋白质或多肽样品来实时监测消除反应。在完整的FRET肽中,荧光基团和淬灭基团附着到含有消除位点的肽序列的任一端,并且淬灭基团和荧光团之间的荧光共振能量转移导致低荧光。在通过蛋白酶或内肽酶消除测试肽后,猝灭剂和荧光团被分离,从而导致荧光大幅增加。当达到一定的荧光强度时,可以停止消除反应,从而实现可重现的消除终点。
多肽样品可以在附着于固体支持物之前经历蛋白质分级方法,其中蛋白质或肽通过一种或多种性质(如细胞位置、分子量、疏水性或等电点)进行分离,或蛋白质富集方法。可替代地,或另外,蛋白质富集方法可用于选择特定蛋白质或肽(参见例如,Whiteaker等人,2007,《分析生物化学》362:44-54,其通过引用整体并入)或选择特定的翻译后修饰(参见例如,Huang等人,2014.《色谱杂志(J.Chromatogr.A)》1372:1-17,其通过引用整体并入)。可替代地,一个或多个特定类别的蛋白质(如免疫球蛋白或免疫球蛋白(Ig)同种型,如IgG)可被亲和富集或选择用于分析。就免疫球蛋白分子而言,对序列的分析和参与亲和结合的高变序列的丰度或频率是特别感兴趣的,特别当它们响应于疾病进展而变化或与健康、免疫和/或疾病表型相关时。也可以使用标准免疫亲和方法从样品中扣除过丰富的蛋白质。消耗丰富的蛋白质对于血浆样品很有用,因为血浆样品中超过80%的蛋白质成分是白蛋白和免疫球蛋白。有几种商业产品可用于去除蛋白质含量过高的血浆样品,如PROTIA和PROT20(Sigma-Aldrich)。
在某些实施例中,多肽通过标准胺偶联化学用DNA记录标签进行标记(参见例如,图2B、2C、28、29、31、40)。(例如,赖氨酸残基的)ε-氨基和N端氨基特别容易被胺反应性偶联剂标记,这取决于反应的pH(Mendoza和Vachet,2009)。在特定的实施例中(参见例如,图2B和图29),记录标签由反应性部分(例如,用于与固体表面、多功能接头或多肽缀合)、接头、通用引发序列、条形码(例如,隔室标签、分区条形码、样品条形码、级分条形码或其任何组合)、任选的UMI和用于促进信息传输到编码标签/从编码标签转移的间隔子(Sp)序列组成。在另一个实施例中,可以首先用通用DNA标签对蛋白质进行标记,然后通过酶促或化学偶联步骤将条形码-Sp序列(表示样品、隔室、载玻片上的物理位置等)附着到蛋白质上。(参见例如,图20、30、31、40)。通用DNA标签包括用于标记多肽的短的核苷酸序列,并可用作条形码(例如,隔室标签、记录标签等)的附着点。例如,记录标签可以在其末端包括与通用DNA标签互补的序列。在某些实施例中,通用DNA标签是通用引发序列。当经标记的蛋白质上的通用DNA标签与记录标签(例如,结合到珠子上)中的互补序列杂交时,退火的通用DNA标签可以通过引物延伸而延伸,从而将记录标签信息转移到带DNA标签的蛋白质上。在特定的实施例中,在蛋白酶消化成肽之前用通用DNA标签标记蛋白质。然后可以将消化的经标记的肽上的通用DNA标签转化为信息丰富且有效的记录标签。
在某些实施例中,多肽可以通过已知方法,如亲和捕获试剂(和任选地共价交联)固定到固体支持物上,其中记录标签与亲和捕获试剂直接相关,或者可替代地,可以用记录标签将蛋白质直接固定到固体支持物上(参见例如,图2C)。
提供连接到支持物或在溶液中的多肽
在一些实施例中,本公开的多肽连接至固体支持物的表面(也被称为“基底表面”)。所述固体支持物可以是任何多孔或无孔的支持物表面,包含但不限于珠子、微珠、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、尼龙、硅晶片芯片、流通池、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。用于固体支持物的材料包含但不限于丙烯酰胺、琼脂糖、纤维素、硝酸纤维素、玻璃、金、石英、聚苯乙烯、聚乙烯醋酸乙烯酯、聚丙烯、聚甲基丙烯酸酯、聚乙烯、聚环氧乙烷、聚硅酸盐、聚碳酸酯、特氟隆、碳氟化合物、尼龙、硅橡胶、聚酐、聚乙醇酸、聚乳酸、聚原酸酯、官能化硅烷、聚富马酸丙酯、胶原蛋白、糖胺聚糖、聚氨基酸或其任何组合。固体支持物进一步包含薄膜、膜、瓶、盘、纤维、编织纤维、成型聚合物管、颗粒、珠子、微粒或其任何组合。例如,当固体表面是珠子时,珠子可以包含但不限于聚苯乙烯珠、聚合物珠、琼脂糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠或受控孔珠。
在某些实施例中,固体支持物是流通池。流通池配置可能因不同的下一代测序平台而异。例如,Illumina流通池是类似于显微镜载玻片的平面光学透明表面,其含有结合到其表面的寡核苷酸锚定草坪。模板DNA包括连接到与流通池表面上的寡核苷酸互补的末端的接头。适应的单链DNA与流通池结合,并在测序前通过固相“桥式”PCR进行扩增。454流通池(454Life Sciences)支持“微微量滴定(picotiter)”板,即具有~160万个75-皮升孔的光纤载玻片。每个单独的剪切模板DNA分子均被捕获在单独的珠子上,并且每个珠子被分隔在油乳液内的水性PCR反应混合物的私人液滴中。将模板通过PCR在珠子表面进行克隆扩增,然后将载有模板的珠子分配到微微量滴定板的孔中进行测序反应,理想情况下每孔只有一个或更少的珠子。应用生物系统公司(Applied Biosystems)的SOLiD(支持的寡核苷酸连接和检测)仪器与454系统一样,通过乳液PCR扩增模板分子。在剔除不含扩增模板的珠子的步骤之后,将珠子结合的模板沉积在流通池上。流通池也可以是简单的过滤器滤芯,如TWISTTM DNA合成柱(Glen Research)。
在某些实施例中,固体支持物是珠子,其可以指单个珠子或多个珠子。在一些实施例中,珠子与将用于下游分析的选定的下一代测序平台(例如,SOLiD或454)相容。在一些实施例中,固体支持物是琼脂糖珠、顺磁珠、聚苯乙烯珠、聚合物珠、丙烯酰胺珠、实心珠、多孔珠、玻璃珠或受控孔珠。在另外的实施例中,珠子可以用结合官能团(例如,胺基、亲和配体(如用于结合生物素标记的多肽、抗体的链霉亲和素))包被,以促进与多肽的结合。
蛋白质、多肽或肽可以通过本领域已知的任何方式(包含共价和非共价相互作用,或其任何组合)直接或间接地连接到固体支持物上(参见例如,Chan等人,2007,《公共科学图书馆综合(PLoS One)》2:e1164;Cazalis等人,《生物缀合化学(Bioconj.Chem.)》15:1005-1009;Soellner等人,2003,《美国化学学会杂志(J.Am.Chem.Soc.)》125:11790-11791;Sun等人,2006,《生物缀合化学》17-52-57;Decreau等人,2007,《有机化学杂志(J.Org.Chem.)》72:2794-2802;Camarero等人,2004,《美国化学学会杂志》126:14730-14731;Girish等人,2005,《生物有机与药物化学快报(Bioorg.Med.Chem.Lett.)》15:2447-2451;Kalia等人,2007,《生物缀合化学》18:1064-1069;Watzke等人,2006,《应用化学国际版-英语(Angew Chem.Int.Ed.Engl.)》45:1408-1412;Parthasarathy等人,2007,《生物缀合化学》18:469-476;和《生物缀合技术(Bioconjugate Techniques)》,G.T.Hermanson,学术出版社(Academic Press)(2013),并且这些文献各自通过引用整体并入本文)。例如,肽可以通过连接反应连接到固体支持物上。可替代地,固体支持物可以包含促进将肽直接或间接连接到固体支持物的药剂或涂层。任何合适的分子或材料均可用于此目的,包含蛋白质、核酸、碳水化合物和小分子。例如,在一个实施例中,所述药剂是亲和分子。在另一个实例中,所述药剂是叠氮基团,所述基团可以与另一个分子中的炔基反应以促进固体支持物和另一个分子之间的缔合或结合。
可以使用被称为“点击化学”的方法将蛋白质、多肽或肽连接到固体支持物。为此,可以使用任何快速且基本上不可逆的反应将蛋白质、多肽或肽附着到固体支持物上。示例性反应包含叠氮化物和炔烃的铜催化反应形成三唑(Huisgen 1,3-偶极环加成)、应变促进的叠氮化物炔烃环加成(SPAAC)、二烯和亲二烯体的反应(狄尔斯-阿尔德)、应变促进的炔-硝酮环加成、应变的烯烃与叠氮化物、四嗪或四唑的反应、烯烃和叠氮化物[3+2]环加成、烯烃和四嗪的逆电子需求狄尔斯-阿尔德(IEDDA)反应(例如,间四嗪(mTet)或苯基四嗪(pTet)和反式环辛烯(TCO);或pTet和烯烃)、烯烃和四唑的光反应、叠氮化物和膦的施陶丁格连接,以及各种置换反应,如通过对亲电子原子进行亲核攻击来置换离去基团(Horisawa2014,Knall,Hollauf等人2014)。示例性置换反应包含胺与以下物质的反应:活化酯;N-羟基琥珀酰亚胺酯;异氰酸酯;异硫氰酸酯、醛、环氧化物等。
在一些实施例中,多肽和固体支持物通过能够通过两个互补反应性基团的反应形成的官能团连接,例如作为前述“点击”反应之一的产物的官能团。在各种实施例中,官能团可以通过醛、肟、腙、酰肼、炔、胺、叠氮化物、酰肼、酰卤、腈、硝酮、巯基、二硫化物、磺酰卤、异硫氰酸酯、酰亚胺酯、活化酯(例如,N-羟基琥珀酰亚胺酯、戊炔酸STP酯)、酮、α,β-不饱和羰基、烯烃、马来酰亚胺、α-卤代酰亚胺、环氧化物、氮丙啶、四嗪、四唑、膦、生物素或硫杂丙环官能团与互补反应性基团的反应形成。示例性反应是胺(例如,伯胺)与N-羟基琥珀酰亚胺酯或异硫氰酸酯的反应。
在其它实施例中,所述官能团包括烯烃、酯、酰胺、硫酯、二硫化物、碳环、杂环或杂芳基。在另外的实施例中,所述官能团包括烯烃、酯、酰胺、硫酯、硫脲、二硫化物、碳环、杂环或杂芳基。在其它实施例中,所述官能团包括酰胺或硫脲。在一些更具体的实施例中,官能团是三唑基官能团、酰胺或硫脲官能团。
在一些实施例中,iEDDA点击化学用于将多肽固定到固体支持物上,因为它在低输入浓度下是快速的并且提供高产率。在另一个实施例中,在iEDDA点击化学反应中使用间四嗪而不是四嗪,因为间四嗪具有改进的键稳定性。在另一个实施例中,在iEDDA点击化学反应中使用苯基四嗪(pTet)。
在一些实施例中,将基底表面用TCO官能化,并且将记录标签标记的蛋白质、多肽、肽通过附着的间四嗪部分固定到TCO包被的基底表面(图34)。
在一些实施例中,多肽通过其C端氨基酸、N端氨基酸或内部氨基酸(例如,通过胺、羧基或巯基)被固定到固体支持物的表面。用于偶联胺基的标准活化支持物包含CNBr活化的支持物、NHS活化的支持物、醛活化的支持物、吖内酯活化的支持物和CDI活化的支持物。用于羧基偶联的标准活化支持物包含偶联至胺支持物的碳二亚胺活化的羧基部分。半胱氨酸偶联可以采用马来酰亚胺、碘乙酰基和吡啶基二硫化物活化的支持物。肽羧基末端固定化的另一种模式使用脱水胰蛋白酶,其是胰蛋白酶的催化惰性衍生物,可结合在C端含有赖氨酸或精氨酸残基的肽而不切割所述肽。
在某些实施例中,通过固体表面结合的接头与蛋白质、多肽或肽的赖氨酸基团的共价连接,将多肽固定到固体支持物上。
记录标签可以在固定到固体支持物之前或之后附着到蛋白质、多肽或肽。例如,蛋白质、多肽或肽可以首先用记录标签进行标记,然后通过包括用于偶联的两个功能性部分的记录标签固定到固体表面上(参见图28)。记录标签的一个功能性部分与蛋白质偶联,另一个功能性部分将记录标签标记的蛋白质固定到固体支持物上。
在其它实施例中,在用记录标签标记蛋白质、多肽或肽之前,将多肽固定到固体支持物上。例如,可以首先用反应性基团(如点击化学部分)对蛋白质进行衍生化。然后可以将活化的蛋白质分子附着到合适的固体支持物上,然后使用互补点击化学部分用记录标签进行标记。例如,可以将用炔烃和mTet部分衍生的蛋白质固定到用叠氮化物和TCO衍生的珠子上,并附着到用叠氮化物和TCO标记的记录标签上。
应当理解,本文提供的用于将多肽附着至固体支持物的方法也可用于将记录标签附着至固体支持物或将记录标签附着至多肽。
在某些实施例中,固体支持物的表面被钝化(封闭),以使对结合剂的非特异性吸收最小化。“钝化”表面是指已经用外层材料处理以使结合剂的非特异性结合最小化的表面。使表面钝化的方法包含来自荧光单分子分析文献的标准方法,包含用以下聚合物使表面钝化:如聚乙二醇(PEG)(Pan等人,2015,《生物物理学(Phys.Biol.)》12:045006)、聚硅氧烷(例如,Pluronic F-127)、星形聚合物(例如,星形PEG)(Groll等人,2010,《酶学方法(Methods Enzymol.)》472:1-18)、疏水性二氯二甲基硅烷(DDS)+自组装Tween-20(Hua等人,2014,《自然方法(Nat.Methods)》11:1233-1236)和类金刚石碳(DLC)、DLC+PEG(Stavis等人,2011,《美国国家科学院院刊》108:983-988)和两性离子部分(例如,美国专利申请公开US2006/0183863)。除了共价表面改性外,还可以使用许多钝化剂,包含表面活性剂,如Tween-20、溶液中的聚硅氧烷(Pluronic系列)、聚乙烯醇(PVA),以及蛋白质,如BSA和酪蛋白。可替代地,当将蛋白质、多肽或肽固定到固体基底上时,可以通过掺入竞争剂或“虚拟”反应性分子,在固体基底的表面上或体积内滴定所述蛋白质、多肽或肽的密度(参见图36A)。
合适的间隔频率可以使用功能测定凭经验确定并且可以通过稀释和/或通过掺入竞争基底表面上的附着位点的“虚拟”间隔分子来实现。例如,PEG-5000(MW~5000)用于封闭基底表面(例如,珠子表面)上肽之间的间隙空间。此外,肽与功能性部分偶联,所述功能性部分也附着于PEG-5000分子。在优选的实施例中,这通过将NHS-PEG-5000-TCO+NHS-PEG-5000-甲基的混合物与胺衍生的珠子偶联来实现。滴定两种PEG之间的化学计量比(TCO对比甲基)以在基底表面上生成适当密度的功能性偶联部分(TCO基团);甲基-PEG对偶联呈惰性。可以通过测量表面TCO基团的密度来计算TCO基团之间的有效间距。在某些实施例中,固体表面上偶联部分(例如,TCO)之间的平均间距为至少50nm、至少100nm、至少250nm或至少500nm。在珠子的PEG5000-TCO/甲基衍生化之后,将表面上过量的NH2基团用反应性酸酐(例如乙酸或琥珀酸酐)淬灭。
在一些实施例中,所述间距是通过在基底表面上滴定可用附着分子的比率来实现的。在一些实例中,将基底表面(例如,珠子表面)用经活化剂(例如,活化剂是EDC和Sulfo-NHS)处理的羧基(COOH)官能化。在一些优选的实施例中,基底表面(例如,珠子表面)包括NHS部分。在一些实施例中,将mPEGn-NH2和NH2-PEGn-mTet的混合物加入到活化的珠子中(其中n是任何数字,如1-100)。滴定mPEG3-NH2(不可用于偶联)和NH2-PEG24-mTet(可用于偶联)之间的比率,以生成适当密度的功能性部分,其可用于将分析物附着至基底表面。在某些实施例中,固体表面上偶联部分(例如,NH2-PEG4-mTet)之间的平均间距为至少50nm、至少100nm、至少250nm或至少500nm。在一些具体实施例中,NH2-PEGn-mTet与mPEG3-NH2的比率为约1:1000或大于1:1000、约1:10,000或大于1:10,000、约1:100,000或大于1:100,000或约1:1,000,000或大于1:1,000,000。在一些另外的实施例中,捕获核酸附着至NH2-PEGn-mTet。
在多种多肽固定在同一固体支持物上的某些实施例中,多肽可以适当地间隔以减少交叉结合或分子间事件的发生或防止交叉结合或分子间事件,例如,其中结合剂结合第一多肽并且其编码标签信息被转移到与相邻多肽相关的记录标签,而不是与所述第一多肽相关的记录标签。为了控制固体支持物上的多肽间距,可以在基底表面上滴定功能性偶联基团(例如,TCO)的密度(参见图34)。在一些实施例中,多种多肽在固体支持物(例如,多孔支持物)的表面上或体积内间隔开约50nm到约500nm、或约50nm到约400nm、或约50nm到约300nm、或约50nm到约200nm、或约50nm到约100nm的距离。在一些实施例中,多种多肽在固体支持物的表面上以至少50nm、至少60nm、至少70nm、至少80nm、至少90nm、至少100nm、至少150nm、至少200nm、至少250nm、至少300nm、至少350nm、至少400nm、至少450nm或至少500nm的平均距离间隔开。在一些实施例中,多种多肽在固体支持物的表面上以至少50nm的平均距离间隔开。在一些实施例中,多肽在固体支持物的表面上或体积内间隔开,使得根据经验,分子间到分子内事件的相对频率<1:10;<1:100;<1:1,000;或<1:10,000。合适的间隔频率可以使用功能测定凭经验确定(参见实例31)并且可以通过稀释和/或通过掺入竞争基底表面上的附着位点的“虚拟”间隔分子来实现。
例如,如图34所述,PEG-5000(MW~5000)用于封闭基底表面(例如,珠子表面)上肽之间的间隙空间。此外,肽与功能性部分偶联,所述功能性部分也附着于PEG-5000分子。在一些实施例中,这通过将NHS-PEG-5000-TCO+NHS-PEG-5000-甲基的混合物与胺衍生的珠子偶联来实现(参见图34)。滴定两种PEG之间的化学计量比(TCO对比甲基)以在基底表面上生成适当密度的功能性偶联部分(TCO基团);甲基-PEG对偶联呈惰性。可以通过测量表面TCO基团的密度来计算TCO基团之间的有效间距。在某些实施例中,固体表面上偶联部分(例如,TCO)之间的平均间距为至少50nm、至少100nm、至少250nm或至少500nm。在珠子的PEG5000-TCO/甲基衍生化之后,将表面上过量的NH2基团用反应性酸酐(例如乙酸或琥珀酸酐)淬灭。
在特定实施例中,多肽和/或记录标签以一定密度固定在基底或支持物上,使得(i)结合至第一多肽的编码剂(具体地说,结合的编码剂中的编码标签)与(ii)第二多肽和/或其记录标签之间的相互作用被减少、最小化或完全消除。因此,可以减少、最小化或消除由“分子间”接合产生的假阳性测定信号。
在某些实施例中,针对每种类型的多肽确定基底上的多肽和/或记录标签的密度。例如,变性多肽链越长,密度应越低,以减少、最小化或防止“分子间”相互作用。在某些方面,增加多肽分子和/或记录标签之间的间距(即,降低密度)会增加当前公开的测定的信号背景比。
在一些实施例中,多肽分子和/或记录标签以约0.0001个分子/μm2、0.001个分子/μm2、0.01个分子/μm2、0.1个分子/μm2、1个分子/μm2、约2个分子/μm2、约3个分子/μm2、约4个分子/μm2、约5个分子/μm2、约6个分子/μm2、约7个分子/μm2、约8个分子/μm2、约9个分子/μm2或约10个分子/μm2的平均密度沉积或固定在基底上。在其它实施例中,多肽和/或记录标签以约15、约20、约25、约30、约35、约40、约45、约50、约55、约60、约65、约70、约75、约80、约85、约90、约95、约100、约105、约110、约115、约120、约125、约130、约135、约140、约145、约150、约155、约160、约165、约170、约175、约180、约185、约190、约195、约200或约200个分子/μm2的平均密度沉积或固定在基底上。在其它实施例中,多肽和/或记录标签以约1个分子/mm2、约10个分子/mm2、约50个分子/mm2、约100个分子/mm2、约150个分子/mm2、约200个分子/mm2、约250个分子/mm2、约300个分子/mm2、约350个分子/mm2、400个分子/mm2、约450个分子/mm2、约500个分子/mm2、约550个分子/mm2、约600个分子/mm2、约650个分子/mm2、约700个分子/mm2、约750个分子/mm2、约800个分子/mm2、约850个分子mm2、约900个分子/mm2、约950个分子/mm2或约1000个分子/mm2的平均密度沉积或固定。在其它实施例中,多肽和/或记录标签以介于约1×103和约0.5×104个分子/mm2之间、介于约0.5×104和约1×104个分子/mm2之间、介于约1×104和约0.5×105个分子/mm2之间、介于约0.5×105和约1×105个分子/mm2之间、介于约1×105和约0.5×106个分子/mm2之间或介于约0.5×106和约1×106个分子/mm2之间的平均密度沉积或固定在基底上。在其它实施例中,沉积或固定在基底上的多肽和/或记录标签的平均密度可以是例如介于约1个分子/cm2和约5个分子/cm2之间、介于约5个和约10个分子/cm2之间、介于约10个和约50个分子/cm2之间、介于约50个和约100个分子/cm2之间、介于约100个和约0.5×103个分子/cm2之间、介于约0.5×103个和约1×103个分子/cm2之间、介于1×103个和约0.5×104个分子/cm2之间、介于约0.5×104个和约1×104个分子/cm2之间、介于约1×104个和约0.5×105个分子/cm2之间、介于约0.5×105个和约1×105个分子/cm2之间、介于约1×105个和约0.5×106个分子/cm2之间或介于约0.5×106个和约1×106个分子/cm2之间。
在某些实施例中,控制溶液中结合剂的浓度以减少测定的本底和/或假阳性结果。
在一些实施例中,结合剂的浓度可以为约0.0001nM、约0.001nM、约0.01nM、约0.1nM、约1nM、约2nM、约5nM、约10nM、约20nM、约50nM、约100nM、约200nM、约500nM或约1000nM。在其它实施例中,用于测定的可溶性缀合物的浓度介于约0.0001nM和约0.001nM之间、介于约0.001nM和约0.01nM之间、介于约0.01nM和约0.1nM之间、介于约0.1nM和约1nM之间、介于约1nM和约2nM之间、介于约2nM和约5nM之间、介于约5nM和约10nM之间、介于约10nM和约20nM之间、介于约20nM和约50nM之间、介于约50nM和约100nM之间、介于约100nM和约200nM之间、介于约200nM和约500nM之间、介于约500nM和约1000nM之间或大于约1000nM。
在一些实施例中,可溶性结合剂分子与固定多肽和/或记录标签之间的比率可以为约0.00001:1、约0.0001:1、约0.001:1、约0.01:1、约0.1:1、约1:1、约2:1、约5:1、约10:1、约15:1、约20:1、约25:1、约30:1、约35:1、约40:1、约45:1、约50:1、约55:1、约60:1、约65:1、约70:1、约75:1、约80:1、约85:1、约90:1、约95:1、约100:1、约104:1、约105:1、约106:1或更高,或以上所列比率之间的任何比率。可溶性结合剂分子与固定多肽和/或记录标签之间的较高比率可用于驱动结合和/或编码标签/重新编码标签信息转移完成。这对于检测和/或分析样品中的低丰度多肽可能特别有用。
记录标签
至少一个记录标签直接或间接地与多肽相关或共定位,并连接到固体支持物上(参见例如图5)。记录标签可以包括DNA、RNA或多核苷酸类似物,包含PNA、γPNA、GNA、BNA、XNA、TNA、多核苷酸类似物或其组合。记录标签可以是单链的,也可以是部分或完全双链的。记录标签可以具有平末端或悬垂末端。在某些实施例中,在结合剂与多肽结合时,将结合剂的编码标签的标识信息转移到记录标签以生成延伸型记录标签。可以在后续的结合循环中进一步延伸至延伸型记录标签。
可以通过本领域已知的任何方式,包含共价和非共价相互作用或其任何组合,将记录标签直接或间接地(例如,通过接头)连接至固体支持物。例如,记录标签可以通过连接反应连接到固体支持物上。可替代地,固体支持物可以包含促进将记录标签直接或间接连接到固体支持物的药剂或涂层。在以下文献中描述了将核酸分子固定到固体支持物(例如,珠子)上的策略:美国专利5,900,481;Steinberg等人(2004,《生物聚合物(Biopolymers)》73:597-605);Lund等人,1988(《核酸研究(Nucleic Acids Res.)》16:10861-10880);以及Steinberg等人(2004,《生物聚合物》73:597-605),所述文献中的每一个均通过引用整体并入本文。
在某些实施例中,多肽和相关记录标签的共定位是通过将多肽和记录标签缀合至直接附着于固体支持物表面的双功能接头来实现的Steinberg等人(2004,《生物聚合物》73:597-605)。在另外的实施例中,使用三功能部分衍生固体支持物(例如,珠子),并且所得双功能部分与多肽和记录标签均偶联。
方法和试剂(例如,点击化学试剂和光亲和标记试剂),如被描述用于连接多肽和固体支持物的方法和试剂,也可以用于连接记录标签。
在特定的实施例中,单个记录标签附着至多肽,优选地通过附着至去封闭的N端或C端氨基酸。在另一个实施例中,多个记录标签附着至多肽,优选地附着至赖氨酸残基或肽主链。在一些实施例中,用多个记录标签标记的多肽被片段化或消化成更小的肽,每个肽平均用一个记录标签标记。
在某些实施例中,记录标签包括任选的唯一分子标识符(UMI),其为与UMI相关联的每种多肽提供唯一标识符标签。UMI可以为约3个到约40个碱基、约3个到约30个碱基、约3个到约20个碱基、或约3个到约10个碱基、或约3个到约8个碱基。在一些实施例中,UMI的长度为约3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基、16个碱基、长度为17个碱基、18个碱基、19个碱基、20个碱基、25个碱基、30个碱基、35个碱基或40个碱基。UMI可用于对来自多个延伸型记录标签的测序数据进行解卷积,以鉴定来自单个多肽的序列读段。在一些实施例中,在多肽文库内,每种多肽与单个记录标签相关联,每个记录标签包括唯一UMI。在其它实施例中,记录标签的多个拷贝与单个多肽相关联,记录标签的每个拷贝包括相同的UMI。在一些实施例中,UMI具有与结合剂的编码标签内的间隔子或编码器序列不同的碱基序列,以有助于在序列分析期间区分这些组分。
在某些实施例中,记录标签包括条形码,例如,除UMI以外(如果存在的话)。条形码是长度为约3个到约30个碱基、约3个到约25个碱基、约3个到约20个碱基、约3个到约10个碱基、约3个到约10个碱基、约3个到约8个碱基的核酸分子。在一些实施例中,条形码的长度为约3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基、20个碱基、25个碱基或30个碱基。在一个实施例中,条形码允许对多个样品或文库进行多路复用测序。条形码可用于鉴定多肽所衍生自的分区、级分、隔室、样品、空间位置或文库。条形码可用于对多路复用序列数据进行解卷积并鉴定来自单个样品或文库的序列读段。例如,条形码珠可用于涉及乳液和样品划分的方法,例如,用于蛋白质组划分的目的。
条形码可以表示隔室标签,其中隔室(如液滴、微孔、固体支持物上的物理区域等)被分配唯一的条形码。隔室与特定条形码的关联可以通过多种方式实现,如通过将单个条形码珠封装在隔室中,例如,通过将带条形码的液滴直接合并或添加到隔室,通过将条形码试剂直接打印或注入隔室等。隔室内的条形码试剂用于向隔室内的多肽或其片段添加隔室特异性条形码。当应用于将蛋白质划分到隔室中时,条形码可用于将经分析的肽映射回隔室中的原始蛋白质分子。这可以极大地促进蛋白质鉴定。隔室条形码也可用于鉴定蛋白质复合物。
在其它实施例中,可以向表示隔室群的子集的多个隔室分配表示所述子集的唯一条形码。
可替代地,条形码可以是样品标识条形码。样品条形码可用于对单个反应容器中的一组样品或固定到单个固体基底或固体基底集合(例如,平面载玻片、单个管或容器中包含的珠群等)的一组样品进行多路复用分析。可以将来自许多不同样品的多肽用带有样品特定条形码的记录标签进行标记,然后在固定到固体支持物、进行循环性结合和记录标签分析之前将所有样品合并在一起。可替代地,样品可以分开保存,直到创建DNA编码文库,并在DNA编码文库的PCR扩增期间附着样品条形码,然后在测序前混合在一起。在测定不同丰度类别的分析物(例如,蛋白质)时,这种方法可能很有用。例如,可以对样品进行分割和条形码化,一部分使用结合剂加工成低丰度分析物,另一部分使用结合剂加工成高丰度分析物。在特定的实施例中,所述方法有助于调整特定蛋白质分析物测定的动态范围以位于蛋白质分析物的标准表达水平的“最佳点(sweet spot)”内。
在某些实施例中,来自多个不同样品的多肽用含有样品特异性条形码的记录标签进行标记。多样品条形码多肽可以在循环性结合反应之前混合在一起。以这种方式,有效地创建了数字反相蛋白质阵列(RPPA)的高度多路复用替代方案(Guo、Liu等人2012,Assadi、Lamerz等人2013,Akbani、Becker等人2014,Creighton和Huang 2015)。数字RPPA样测定的创建在翻译研究、生物标志物验证、药物发现、临床和精准医学中具有许多应用。
在某些实施例中,记录标签包括通用引发位点,例如,正向或5'通用引发位点。通用引发位点是可用于引发文库扩增反应和/或测序的核酸序列。通用引发位点可以包含但不限于用于PCR扩增的引发位点、退火至流通池表面上的互补寡核苷酸的流通池衔接子序列(例如,Illumina下一代测序)、测序引发位点或其组合。通用引发位点可以是约10个碱基到约60个碱基。在一些实施例中,通用引发位点包括Illumina P5引物(5'-AATGATACGGCGACCACCGA-3'-SEQ ID NO:133)或Illumina P7引物(5'-CAAGCAGAAGACGGCATACGAGAT-3'-SEQ ID NO:134)。
在某些实施例中,记录标签在其末端(例如,3'端)包括间隔子。如本文所使用的,在记录标签的上下文中提及间隔子序列包含与其同源结合剂相关联的间隔子序列相同的间隔子序列,或与与其同源结合剂相关联的间隔子序列互补的间隔子序列。记录标签上的末端(例如,3')间隔子允许在第一个结合循环期间将同源结合剂的标识信息从其编码标签转移到记录标签(例如,通过用于引物延伸或粘性末端连接的互补间隔子序列的退火)。
在一个实施例中,间隔子序列的长度为约1-20个碱基,长度为约2-12个碱基,或长度为5-10个碱基。间隔子的长度可取决于用于将编码标签信息转移至记录标签的引物延伸反应的温度和反应条件等因素。
在优选的实施例中,记录中的间隔子序列被设计成与记录标签中的其它区域具有最小的互补性;同样,编码标签中的间隔子序列应与所述编码标签中的其它区域具有最小的互补性。换句话说,记录标签和编码标签的间隔子序列应该与存在于所述记录标签或编码标签中的以下组分具有最小的序列互补性:如唯一分子标识符、条形码(例如,隔室、分区、样品、空间位置)、通用引物序列、编码器序列、循环特异性序列等。
如针对结合剂间隔子所述,在一些实施例中,与多肽文库相关的记录标签共享共同间隔子序列。在其它实施例中,与多肽文库相关的记录标签具有与其同源结合剂的结合循环特异性间隔子序列互补的结合循环特异性间隔子序列,其在使用非级联延伸型记录标签时可能很有用(参见图10)。
可以在事后连接延伸型记录标签的集合(参见例如图10)。结合循环完成后,将珠子固体支持物置于乳液中,每个珠子平均包括一种或少于一种多肽,每种多肽具有共定位在多肽位点处的延伸型记录标签的集合。形成乳液,使得每个液滴平均被最多1个珠子占据。在乳液中执行任选的组装PCR反应以扩增与珠子上的多肽共定位的延伸型记录标签,并通过在单独的延伸型记录标签上的不同循环特异性序列之间引发以共线顺序组装它们(Xiong、Peng等人2008)。然后破坏乳液,并对组装的延伸型记录标签进行排序。
在另一个实施例中,DNA记录标签由通用引发序列(U1)、一个或多个条形码序列(BC)和对第一个结合循环具有特异性的间隔子序列(Sp1)组成。在第一个结合循环中,结合剂采用由Sp1互补间隔子、编码器条形码和任选的循环条形码以及第二间隔子元件(Sp2)组成的DNA编码标签。使用至少两个不同的间隔子元件的效用在于,第一个结合循环选择潜在的几个DNA记录标签中的一个,并且单个DNA记录标签被延伸,从而导致在延伸型DNA记录标签的末端产生一个新的Sp2间隔子元件。在第二个和随后的结合循环中,结合剂仅含有Sp2'间隔子而不是Sp1'。以这种方式,在随后的循环中,只有来自第一个循环的单个延伸型记录标签被延伸。在另一个实施例中,第二个和随后的循环可以菜用结合剂特异性间隔子。
在一些实施例中,记录标签包括从5'到3'的方向:通用正向(或5')引发序列、UMI和间隔子序列。在一些实施例中,记录标签包括从5'到3'的方向:通用正向(或5')引发序列、任选的UMI、条形码(例如,样品条形码、分区条形码、隔室条形码、空间条形码或其任何组合)和间隔子序列。在一些其它实施例中,记录标签包括从5'到3'的方向:通用正向(或5')引发序列、条形码(例如,样品条形码、分区条形码、隔室条形码、空间条形码或其任何组合)、任选的UMI和间隔子序列。
组合性方法可用于从经修饰的DNA和PNA生成UMI。在一个实例中,可以通过“化学连接”短字符序列的集合(4-15聚体)来构建UMI,这些序列被设计为彼此正交(Spiropulos和Heemstra 2012)。DNA模板用于指导“字符”聚合物的化学连接。DNA模板由杂交臂构成,所述杂交臂通过在溶液中将子组分混合在一起,从而能够组装组合性模板结构(参见图12C)。在某些实施例中,该设计中没有“间隔子”序列。字符空间的大小可以从10个字符到10,000个或更多个字符不等。在某些实施例中,选择字符,使得它们彼此不同而无法交叉杂交,但具有相对一致的杂交条件。在一个实施例中,字符的长度将在10个碱基的数量级上,子集中有约1000个字符(这仅占10聚体字符空间总数(~410=100万个字符)的0.1%)。这些字符的集合(子集中有1000个)可以连接在一起以生成复杂度=1000n次幂的最终组合性UMI。对于连接在一起的4个字符,这创建了1012个不同元件的UMI多样性。这些UMI序列将在单分子水平上附加到多肽。在一个实施例中,UMI的多样性超过了UMI所附着的多肽分子的数量。以这种方式,UMI唯一地鉴定所关注的多肽。组合性字符UMI的使用有助于在高错误率测序仪(例如,纳米孔测序仪、纳米间隙隧道测序等)上读出,因为读取多碱基长度的字符不需要单碱基解析。组合性字符方法还可用于生成记录标签或编码标签的其它身份信息组分,如隔室标签、分区条形码、空间条形码、样品条形码、编码器序列、循环特异性序列和条形码。与具有容错字符(代码)的纳米孔测序和DNA编码信息相关的方法是本领域已知的(参见例如,Kiah等人,2015,《用于DNA序列图谱的代码(Codes for DNA sequence profiles.)》IEEE国际信息理论研讨会(ISIT);Gabrys等人,2015,《用于基于DNA的存储的非对称李距离代码(Asymmetric Lee distance codes for DNA-based storage.)》IEEE信息理论研讨会(ISIT);Laure等人,2016,“二维编码:使用有意分散性来增强序列编码聚合物条形码的信息容量(Coding in 2D:Using Intentional Dispersity to Enhance the InformationCapacity of Sequence-Coded Polymer Barcodes.)”《应用化学国际版(Angew.Chem.Int.Ed.)》doi:10.1002/anie.201605279;Yazdi等人,2015,《IEEE分子、生物和多尺度通信汇刊(IEEE Transactions on Molecular,Biological and Multi-ScaleCommunications)》1:230-248;以及Yazdi等人,2015,《科学报告(Sci Rep)》5:14138,所述文献中的每一个均通过引用整体并入)。因此,在某些实施例中,本文所述的任何实施例中的延伸型记录标签、延伸型编码标签或双标签构建体由鉴定组分(例如,UMI、编码器序列、条形码、隔室标签、循环特异性序列等)组成,所述鉴定组分是纠错码。在一些实施例中,纠错码选自:汉明码、李距离码、非对称李距离码、里德-所罗门码和Levenshtein-Tenengolts码。对于纳米孔测序,电流或离子通量分布和不对称碱基调用错误是所采用的纳米孔类型和生物化学所固有的,并且这些信息可用于使用上述纠错方法设计更可靠的DNA代码。采用强大的DNA纳米孔测序条形码的替代方法,可以直接使用条形码序列的电流或离子通量特征(美国专利第7,060,507号,其通过引用整体并入),从而完全避免DNA碱基调用,并通过映射回预测的电流/通量特征而立即鉴定条形码序列,如Laszlo等人所述(2014,《自然生物技术(Nat.Biotechnol.)》32:829-833,其通过引用整体并入)。在本文中,Laszlo等人描述了生物纳米孔MspA在通过纳米孔传递不同字符串时生成的电流特征,以及通过将所得电流特征映射回对来自一系列序列的可能的电流特征的计算机预测来映射和鉴定DNA链的能力(2014,《自然生物技术》32:829-833)。类似的概念可以应用于DNA代码和基于纳米间隙隧道电流的DNA测序所生成的电信号(Ohshiro等人,2012,《科学报告》2:501)。
因此,在某些实施例中,编码标签、记录标签或两者的鉴定组分能够生成独特的电流或离子通量或光学特征,其中本文提供的任何方法的分析步骤包括检测独特的电流或离子通量或光学特征,以鉴定所述鉴定组分。在一些实施例中,所述鉴定组分选自编码器序列、条形码、UMI、隔室标签、循环特异性序列或其任何组合。
在某些实施例中,样品内的全部或大量多肽(例如,至少50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%或100%)都用记录标签进行标记。可以在将多肽固定到固体支持物之前或之后进行多肽的标记。
在其它实施例中,样品内的多肽的子集用记录标签进行标记。在特定的实施例中,来自样品的多肽的子集经历用记录标签进行的靶向(分析物特异性)标记。可以使用靶蛋白特异性结合剂(例如,抗体、适配子等)来实现蛋白质的靶向记录标签标记,所述结合剂与短的靶标特异性DNA捕获探针(例如,分析物特异性条形码)相连,所述探针退火至记录标签中的互补靶标特异性诱饵序列,例如,分析物特异性条形码(参见图28A)。记录标签包括存在于靶蛋白上的同源反应性部分的反应性部分(例如,点击化学标记、光亲和标记)。例如,记录标签可以包括用于与炔烃衍生的蛋白质相互作用的叠氮化物部分,或者记录标签可以包括用于与天然蛋白质相互作用的二苯甲酮等(参见图28A-B)。在靶蛋白被靶蛋白特异性结合剂结合时,记录标签和靶蛋白通过其对应的反应性部分偶联(参见图28B-C)。在用记录标签标记靶蛋白后,可以通过消化与靶蛋白特异性结合剂连接的DNA捕获探针来去除靶蛋白特异性结合剂。例如,DNA捕获探针可以被设计成含有尿嘧啶碱基,然后用尿嘧啶特异性切除试剂(例如,USERTM)靶向所述尿嘧啶碱基进行消化,并且可以将靶蛋白特异性结合剂与靶蛋白分离。
在一个实例中,可以用DNA捕获探针(例如,图28中的分析物条形码BCA)标记对一组靶蛋白具有特异性的抗体,所述探针与用互补诱饵序列设计的记录标签(例如,图28中的分析物条形码BCA')杂交。蛋白质的样品特异性标记可以通过使用DNA捕获探针标记的抗体与包括样品特异性条形码的记录标签上的互补诱饵序列杂交来实现。
在另一个实例中,靶蛋白特异性适配子用于样品内蛋白质子集的靶向记录标签标记。靶标特异性适配子与DNA捕获探针相连,所述探针与记录标签中的互补诱饵序列退火。记录标签包括反应性化学或光反应性化学探针(例如二苯甲酮(BP)),用于与具有对应的反应性部分的靶蛋白偶联。适配子与其靶蛋白分子结合,使记录标签与靶蛋白紧密接近,从而导致记录标签与靶蛋白的偶联。
先前已经描述了使用附着在小分子蛋白质亲和配体上的光反应性化学探针进行的光亲和(PA)蛋白质标记(Park、Koh等人2016)。典型的光反应化学探针包含基于二苯甲酮(反应性双自由基,365nm)、苯基二氮丙啶(反应性碳,365nm)和苯叠氮(反应性氮烯自由基,260nm)的探针,这些探针在如前所述的照射波长下被活化(Smith和Collins 2015)。在优选的实施例中,使用Li等人公开的方法将蛋白质样品内的靶蛋白用包括样品条形码的记录标签进行标记,在所述方法中,二苯甲酮标记的记录标签中的诱饵序列与附着到同源结合剂的DNA捕获探针杂交(例如,核酸适配子(参见图28)(Li、Liu等人2013)。对于光亲和标记的蛋白质靶标,与抗体相比,更优选使用DNA/RNA适配子作为靶蛋白特异性结合剂,因为光亲和力部分可以自标记抗体而不是靶蛋白。相比之下,光亲和标记对核酸的效率不如蛋白质,因此使适配子成为DNA定向化学或光标记的较好载剂。与光亲和标记相似,也可以采用与Rosen等人所述方法相似的方法,在适配子结合位点附近对反应性赖氨酸(或其它部分)进行DNA定向化学标记。(Rosen、Kodal等人2014,Kodal、Rosen等人2016)。
在前述实施例中,除杂交之外的其它类型的连接可用于连接靶标特异性结合剂和记录标签(参见图28A)。例如,两个部分可以使用接头共价连接,所述接头被设计成:一旦捕获的靶蛋白(或其它多肽)与记录标签共价连接,接头就会被切割并释放结合剂,如图28B中所示。合适的接头可以附着至记录标签的不同位置,如3'端,或附着至记录标签5'端的接头内。
结合剂和编码标签
本文所述的方法使用能够结合多肽的结合剂。结合剂可以是能够与多肽的组分或特征结合的任何分子(例如,肽、多肽、蛋白质、核酸、碳水化合物、小分子等)。结合剂可以是天然存在的、合成产生的或重组表达的分子。结合剂可结合多肽的单个单体或亚基(例如,单个氨基酸)或结合多肽的多个连接的亚基(例如,较长多肽分子的二肽、三肽或更高阶肽)。在一些实施例中,所述结合剂结合非官能化的NTAA或官能化的NTAA。在一些实施例中,所述官能化的NTAA可以包含用选自以下的化合物处理的NTAA:式(AA)、式(AB)中任一个的化合物、式R3-NCS的化合物、式R2-NH2的胺或具有二杂亲核试剂的胺,或其盐或缀合物,如本文所述,或其任何组合。在一些实施例中,结合剂(例如,一阶、二阶或任何更高阶的结合剂)能够结合或被配置成结合来自用选自以下的化合物处理多肽而得到的副产物:式(AA)、式(AB)中任一个的化合物、式R3-NCS的化合物、式R2-NH2的胺或具有二杂亲核试剂的胺,或其盐或缀合物,如本文所述,或其任何组合。本文还提供了包括多种结合剂的试剂盒。
在某些实施例中,结合剂可以被设计成共价结合。共价结合可以被设计成在结合至正确的部分时是有条件的或有利的。例如,NTAA及其NTAA特异性同源结合剂可各自用反应性基团修饰,使得一旦NTAA特异性结合剂结合到同源NTAA,则进行偶联反应以创建二者之间的共价连接。结合剂与缺乏同源反应性基团的其它位置的非特异性结合不会导致共价连接。在一些实施例中,多肽包括能够与结合剂形成共价键的配体。在一些实施例中,多肽包括官能化的NTAA,其包含能够与结合剂共价结合的配体基团。结合剂与其靶标之间的共价结合使得可以使用更严格的洗涤来去除非特异性结合的结合剂,从而提高了测定的特异性。
在某些实施例中,结合剂可以是选择性结合剂。如本文所使用的,选择性结合是指相对于结合到不同配体(例如,氨基酸或氨基酸类),结合剂优先结合到特定配体(例如,氨基酸或氨基酸类)的能力。选择性通常被称为结合剂的复合物中一个配体被另一配体置换的反应的平衡常数。通常,这种选择性与配体的空间几何形状和/或配体与结合剂结合的方式和程度相关,如通过氢键合、疏水结合和/或范德华力(Van der Waals force)(非共价相互作用)或通过与结合剂的可逆或不可逆共价附着。还应该理解,选择性可以是相对的,而不是绝对的,并且不同的因素可以影响相同,包含配体浓度。因此,在一个实例中,结合剂选择性地结合二十种标准氨基酸之一。在非选择性结合的实例中,结合剂可以结合二十种标准氨基酸中的两个或更多个。
在本文公开的方法的实践中,结合剂选择性地结合多肽的特征或组分的能力仅需要足以允许将其编码标签信息转移至与多肽相关的记录标签、将记录标签信息转移至编码标签、或将编码标签信息和记录标签信息转移至双标签分子。因此,选择性仅需要相对于多肽所暴露的其它结合剂。还应理解,结合剂的选择性不必对特定氨基酸是绝对的,而是可以对一类氨基酸(如具有非极性或非极性侧链的氨基酸、或具有带(正或负)电侧链的氨基酸、或具有芳香族侧链的氨基酸、或具有某些特定类别或尺寸的侧链的氨基酸等)具有选择性。
在特定的实施例中,结合剂对所关注的多肽具有高亲和力和高选择性。具体地说,具有低解离速率的高的结合亲和力对于编码标签和记录标签之间的信息转移是有效的。在某些实施例中,结合剂具有<500nM、<100nM、<50nM、<10nM、<5nM、<1nM、<0.5nM或<0.1nM的Kd。在特定的实施例中,将结合剂以其Kd>10X、>100X或>1000X的浓度添加至多肽以驱动结合至完成。抗体与单个蛋白质分子的结合动力学的详细讨论在Chang等人的文章中进行了描述(Chang、Rissin等人2012)。
为了增加结合剂对肽的小N端氨基酸(NTAA)的亲和力,可以使用“免疫原性”半抗原(如二硝基苯酚(DNP))来修饰NTAA。这可以通过使用Sanger试剂二硝基氟苯(DNFB)的循环测序方法来实现,所述试剂将DNP基团附着至NTAA的胺基。市售抗DNP抗体的亲和力在低nM范围内(
Figure BDA0003324885590001501
LO-DNP-2)(Bilgicer、Thomas等人2009);因此,有理由认为,应该有可能将高亲和力的NTAA结合剂加工成许多用DNP修饰的NTAA(通过DNFB),同时实现对特定NTAA的良好结合选择性。在另一个实例中,可以通过使用4-磺酰基-2-硝基氟苯(SNFB)用磺酰基硝基苯酚(SNP)修饰NTAA。类似的亲和力增强也可用如乙酰基或脒基(胍基)等其它NTAA修饰剂来实现。
在某些实施例中,结合剂可以结合肽分子的NTAA、CTAA、介于中间的氨基酸、二肽(两个氨基酸的序列)、三肽(三个氨基酸的序列)或更高阶的肽。在一些实施例中,结合剂文库中的每种结合剂选择性地结合特定氨基酸,例如二十种标准天然存在的氨基酸之一。标准的天然氨基酸包含丙氨酸(A或Ala)、半胱氨酸(C或Cys)、天冬氨酸(D或Asp)、谷氨酸(E或Glu)、苯丙氨酸(F或Phe)、甘氨酸(G或Gly)、组氨酸(H或His)、异亮氨酸(I或Ile)、赖氨酸(K或Lys)、亮氨酸(L或Leu)、蛋氨酸(M或Met)、天冬酰胺(N或Asn)、脯氨酸(P或Pro)、谷氨酰胺(Q或Gln)、精氨酸(R或Arg)、丝氨酸(S或Ser)、苏氨酸(T或Thr)、缬氨酸(V或Val)、色氨酸(W或Trp)和酪氨酸(Y或Tyr)。在一些实施例中,结合剂结合未经修饰的或天然的氨基酸。在一些实施例中,结合剂结合肽分子的未经修饰的或天然的二肽(两个氨基酸的序列)、三肽(三个氨基酸的序列)或更高阶的肽。在一些实例中,结合剂可以结合至N端或C端二氨基酸部分。结合剂可以被设计成对天然或未经修饰的NTAA具有高亲和力,对天然或未经修饰的NTAA具有高特异性,或两者兼有。在一些实施例中,可以使用噬菌体展示通过有前景的亲和支架的定向进化来开发结合剂。
在一些实施例中,结合剂是部分特异性或选择性的。在一些方面,结合剂优先结合一个或多个氨基酸。例如,相比其它氨基酸,结合剂可以优先结合氨基酸A、C和G。在一些其它实例中,结合剂可以选择性地或特异性地结合多于一个氨基酸。在一些方面,结合剂还可优选来自所述末端氨基酸的第二、第三、第四、第五等位置处的一个或多个氨基酸。在一些情况下,结合剂优先结合特定的末端氨基酸和一个或多个倒数第二的氨基酸。在一些情况下,结合剂优先结合一个或多个特定的末端氨基酸和一个倒数第二的氨基酸。例如,结合剂可以优先结合AA、AC和AG,或者结合剂可以优先结合AA、CA和GA。在一些具体实例中,具有不同特异性的结合剂可以共享相同的编码标签。在一些具体情况下,结合剂对N端氨基酸的化学修饰至少具有部分选择性。例如,结合剂可以优先结合经化学修饰的AA、经化学修饰的AC和经化学修饰的AG。
在某些实施例中,结合剂可以结合氨基酸的翻译后修饰。在一些实施例中,肽包括一个或多个翻译后修饰,其可以相同或不同。肽的NTAA、CTAA、介于中间的氨基酸或其组合可以被翻译后修饰。氨基酸的翻译后修饰包含酰化、乙酰化、烷基化(包含甲基化)、生物素化、丁酰化、氨基甲酰化、羰基化、脱酰胺基、脱亚氨基、二苯甲酰胺形成、二硫键形成、消除、黄素附着、甲酰化、γ-羧化、谷氨酰化、糖基化(glycylation)、糖基化(glycosylation)、糖基磷脂酰肌醇化(glypiation)、血红素C附着、羟基化、乙酰化形成、碘化、异戊二烯基化、脂质化、脂酰化、丙二酰化、甲基化、肉豆蔻酰化、氧化、棕榈酰化、聚乙二醇化、磷酸戊二烯酰化、磷酸化、异戊烯化、丙酰化、亚视黄基席夫碱形成、S-谷胱甘肽化、S-亚硝基化、S-亚磺酰化、硒化、琥珀酰化、硫化、泛素化和C端酰胺化(另参见,Seo和Lee,2004,《生物化学与分子生物学杂志(J.Biochem.Mol.Biol.)》37:35-44)。
在某些实施例中,凝集素被用作用于检测蛋白质、多肽或肽的糖基化状态的结合剂。凝集素是可以选择性识别游离碳水化合物或糖蛋白的聚糖表位的碳水化合物结合蛋白。识别各种糖基化状态(例如,核心岩藻糖、唾液酸、N-乙酰-D-乳糖胺、甘露糖、N-乙酰-葡糖胺)的凝集素列表包含:A、AAA、AAL、ABA、ACA、ACG、ACL、AOL、ASA、BanLec、BC2L-A、BC2LCN、BPA、BPL、Calsepa、CGL2、CNL、Con、ConA、DBA、Discoidin、DSA、ECA、EEL、F17AG、Gal1、Gal1-S、Gal2、Gal3、Gal3C-S、Gal7-S、Gal9、GNA、GRFT、GS-I、GS-II、GSL-I、GSL-II、HHL、HIHA、HPA、I、II、Jacalin、LBA、LCA、LEA、LEL、Lentil、Lotus、LSL-N、LTL、MAA、MAH、MAL_I、Malectin、MOA、MPA、MPL、NPA、Orysata、PA-IIL、PA-IL、PALa、PHA-E、PHA-L、PHA-P、PHAE、PHAL、PNA、PPL、PSA、PSL1a、PTL、PTL-I、PWM、RCA120、RS-Fuc、SAMB、SBA、SJA、SNA、SNA-I、SNA-II、SSA、STL、TJA-I、TJA-II、TxLCI、UDA、UEA-I、UEA-II、VFA、VVA、WFA、WGA(参见Zhang等人,2016,《MABS》8:524-535)。
在某些实施例中,结合剂可以结合经修饰或标记的NTAA(例如,已被试剂官能化的NTAA,所述试剂包括:式(AA)、式(AB)中任一个的化合物、式R3-NCS的化合物、式R2-NH2的胺或具有二杂亲核试剂的胺,或其盐或缀合物,如本文所述,或其任何组合)。经修饰或标记的NTAA可以是用PITC、1-氟-2,4-二硝基苯(桑格试剂,DNFB)、丹磺酰氯(DNS-Cl或1-二甲氨基萘-5-磺酰氯)、4-磺酰基-2-硝基氟苯(SNFB)、乙酰化试剂、胍基化试剂、硫代酰化试剂、硫代乙酰化试剂、或硫代苄基化试剂或包括以下各项的试剂官能化的NTAA:式(AA)化合物、式(AB)化合物、式R3-NCS的化合物、式R2-NH2的胺或具有二杂亲核试剂的胺,或其盐或缀合物,如本文所述,或其任何组合。
在某些实施例中,结合剂可以是适配子(例如,肽适配子、DNA适配子或RNA适配子)、抗体、抗运载蛋白(anticalin)、ATP依赖性Clp蛋白酶衔接蛋白(ClpS)、抗体结合片段、抗体模拟物、肽、肽模拟物、蛋白质或多核苷酸(例如,DNA、RNA、肽核酸(PNA)、γPNA、桥接核酸(BNA)、异种核酸(XNA)、甘油核酸(GNA)或苏糖核酸(TNA),或其变体)。
如本文所使用的,术语抗体在广义上不仅包含完整的抗体分子,例如但不限于免疫球蛋白A、免疫球蛋白G、免疫球蛋白D、免疫球蛋白E和免疫球蛋白M,而且还包含抗体分子的任何免疫反应性组分,所述组分免疫特异性地结合到至少一个表位。抗体可以是天然存在的、合成产生的或重组表达的。抗体可以是融合蛋白。抗体可以是抗体模拟物。抗体的实例包含但不限于Fab片段、Fab'片段、F(ab')2片段、单链抗体片段(scFv)、微型抗体、双抗体、交联抗体片段、AffibodyTM、纳米抗体、单结构域抗体、DVD-Ig分子、α体、亲和体、亲和素、环氧化物、分子等。使用抗体工程或蛋白质工程技术衍生的免疫反应产物也明确地在术语抗体的含义内。抗体和/或蛋白质工程的详细描述,包含相关方案,可以在以下文献中找到:J.Maynard和G.Georgiou,2000,《生物医学工程年报(Ann.Rev.Biomed.Eng.)》2:339-76;《抗体工程(Antibody Engineering)》,编者:R.Kontermann和S.Dubel,《施普林格实验室手册(Springer Lab Manual)》,施普林格出版社(Springer Verlag)(2001);美国专利第5,831,012号;以及S.Paul,《抗体工程方案(Antibody Engineering Protocols)》,胡马纳出版社(Humana Press)(1995)。
与抗体一样,可以使用已知方法产生特异性识别肽的核酸和肽适配子。适配子以高度特异性的、构象依赖性的方式结合靶分子,通常以非常高的亲和力结合,但如果需要的话,可以选择具有较低结合亲和力的适配子。已经显示适配子基于非常小的结构差异(如甲基或羟基的存在或不存在)来区分靶标,并且某些适配子可以区分D-对映体和L-对映体。已经获得了结合小分子靶标的适配子,所述小分子靶标包含药物、金属离子和有机染料、肽、生物素和蛋白质,包含但不限于链霉抗生物素蛋白、VEGF和病毒蛋白质。已经显示适配子在生物素化、荧光素标记后以及附着于玻璃表面和微球后仍具有功能活性。(参见,Jayasena,1999,《临床化学(Clin Chem)》45:1628-50;Kusser2000,《生物技术杂志(J.Biotechnol.)》74:27-39;Colas,2000,《化学生物学的最新观点(Curr Opin Chem Biol)》4:54-9)。还描述了特异性结合精氨酸和AMP的适配子(参见,Patel和Suri,2000,《生物技术杂志(J.Biotech.)》74:39-60)。Gold等人已经公开了与特定氨基酸结合的寡核苷酸适配子(1995,《生物化学年鉴(Ann.Rev.Biochem.)》64:763-97)。还描述了结合氨基酸的RNA适配子(Ames和Breaker,2011,《RNA生物学(RNA Biol.)》8;82-89;Mannironi等人,2000,《RNA》6:520-27;Famulok,1994,《美国化学学会杂志》116:1698-1706)。
可以通过经遗传工程修饰天然存在或合成产生的蛋白质以在氨基酸序列中引入一个或多个突变来产生与多肽(例如,NTAA、CTAA或经翻译后修饰的氨基酸或肽)的特定组分或特征结合的工程化蛋白质来制造结合剂。例如,可以修饰外肽酶(例如,氨肽酶、羧肽酶)、外蛋白酶、突变的外蛋白酶、突变的抗运载蛋白、突变的ClpS、抗体或tRNA合成酶以产生选择性地结合特定NTAA的结合剂。在另一个实例中,可以修饰羧肽酶以产生选择性地结合特定CTAA的结合剂。还可以设计或修饰并利用结合剂来特异性结合经修饰的NTAA或经修饰的CTAA,例如具有翻译后修饰的(例如,磷酸化的NTAA或磷酸化的CTAA)或已被标记(例如,PTC、1-氟-2,4-二硝基苯(使用桑格试剂,DNFB)、丹磺酰氯(使用DNS-Cl或1-二甲基氨基萘-5-磺酰氯),或使用硫代酰化试剂、硫代乙酰化试剂、乙酰化试剂、酰胺化(胍基化)试剂或硫代苄基化试剂)修饰的。还可以设计或修饰并利用结合剂来特异性地结合经修饰的NTAA,或由以下各项修饰:式(AA)化合物、式(AB)化合物、式R3-NCS的化合物、式R2-NH2的胺或具有二杂亲核试剂的胺,或其盐或缀合物,如本文所述,或其任何组合。用于蛋白质定向进化的策略是本领域已知的(例如,Yuan等人,2005,《微生物学和分子生物学综述(Microbiol.Mol.Biol.Rev.)》69:373-392),并且包含噬菌体展示、核糖体展示、mRNA展示、CIS展示、CAD展示、乳液、细胞表面展示法、酵母表面展示、细菌表面展示等。
在一些实施例中,可以使用选择性地结合官能化NTAA的结合剂。例如,可使NTAA与异硫氰酸苯酯(PITC)反应形成苯基硫代氨基甲酰基-NTAA衍生物。以这种方式,可以将结合剂形成为选择性地结合苯基硫代氨基甲酰基部分的苯基以及NTAA的α-碳R基团。以这种方式使用PITC允许随后通过埃德曼降解消除NTAA,如下所述。在另一个实施例中,可使NTAA与桑格试剂(DNFB)反应,以生成经DNP标记的NTAA(参见图3)。任选地,DNFB与离子液体一起使用,如DNFB高度可溶的1-乙基-3-甲基咪唑鎓双[(三氟甲基)磺酰基]酰亚胺([emim][Tf2N])。以这种方式,可以将结合剂工程化,以选择性地结合DNP与NTAA上的R基团的组合。DNP部分的添加为结合剂与NTAA的相互作用提供了更大的“处理”,并应导致更高的亲和力相互作用。在又一个实施例中,结合剂可以是已经被工程化为识别经DNP标记的NTAA的氨肽酶,所述NTAA提供对肽的氨肽酶降解的循环控制。一旦消除了经DNP标记的NTAA,将进行另一个DNFB衍生化循环,以结合并消除新暴露的NTAA。在优选的特定实施例中,氨肽酶是单体金属蛋白酶,如被锌活化的氨肽酶(Calcagno和Klein 2016)。在另一个实例中,结合剂可以选择性地结合用磺酰硝基苯酚(SNP)修饰的NTAA,例如,通过使用4-磺酰-2-硝基氟苯(SNFB)。在又一个实施例中,结合剂可以选择性地结合乙酰化或酰胺化的NTAA。在一些实施例中,结合剂可以结合用以下各项修饰的NTAA:式(AA)化合物、式(AB)化合物、式R3-NCS的化合物、式R2-NH2的胺或具有二杂亲核试剂的胺,或其盐或缀合物,如本文所述,或其任何组合。
可用于使NTAA官能化的其它试剂包含异硫氰酸三氟乙酯、异硫氰酸烯丙酯和二甲氨基偶氮苯异硫氰酸酯。
在存在离子液体的情况下,异硫氰酸盐已被证明对伯胺具有增强的反应性。离子液体是有机化学反应中极好的溶剂(并充当催化剂),并且可以促进异硫氰酸酯与胺的反应以形成硫脲。一个实例是使用离子液体1-丁基-3-甲基-咪唑鎓四氟硼酸盐[Bmim][BF4],通过异硫氰酸苯酯(PITC)快速且有效地对芳香族和脂肪族胺进行官能化(Le、Chen等人2005)。埃德曼降解涉及异硫氰酸酯(如PITC)与肽的氨基N端的反应。因此,在一个实施例中,离子液体用于通过提供更温和的官能化和消除条件来提高埃德曼消除过程的效率。例如,与标准埃德曼PITC衍生化条件下的官能化(在55℃下采用含有吡啶、乙醇和ddH2O(1:1:1vol./vol./vol.)的溶液中的5%(vol./vol.)PITC,持续60分钟)相比,在25℃下使用离子液体[Bmim][BF4]中的5%(vol./vol.)PITC持续10分钟效率更高(Wang、Fang等人2009)。在优选的实施例中,内部赖氨酸、酪氨酸、组氨酸和半胱氨酸氨基酸在片段化成肽之前在多肽内被封闭。以这种方式,在肽测序反应过程中,只有NTAA的肽α-胺基可以进行修饰。这在使用DNFB(桑格试剂)和丹磺酰氯时是尤为相关的。
可以对结合剂进行工程化以使其对经修饰的NTAA具有高亲和力、对经修饰的NTAA具有高特异性,或两者兼有。在一些实施例中,可以使用噬菌体展示通过有前景的亲和支架的定向进化来开发结合剂。
已经描述了结合并切割单个或一小组标记的(生物素化的)NTAA的工程化氨肽酶突变体(参见PCT公开号WO2010/065322,其通过引用整体并入)。氨肽酶是从蛋白质或肽的N端切割氨基酸的酶。天然氨肽酶具有非常有限的特异性,并且通常以连续方式消除N端氨基酸,一个接一个地切割一个氨基酸(Kishor等人,2015,《分析生物化学》488:6-8)。然而,已经鉴定了残基特异性氨肽酶(Eriquez等人,《临床微生物学杂志(J.Clin.Microbiol.)》1980,12:667-71;Wilce等人,1998,《美国国家科学院院刊》95:3472-3477;Liao等人,2004,《科学学报(Prot.Sci.)》13:1802-10)。氨肽酶可以被工程化为特异性地结合20种不同的NTAA,这些NTAA表示用特定部分(例如,PTC、DNP、SNP、用二杂环甲亚胺修饰的部分等)标记的标准氨基酸。通过使用仅在存在标记的情况下具有活性(例如,结合活性或催化活性)的工程化氨肽酶,可以控制肽的N端的逐步降解。在另一个实例中,Havranak等人(美国专利公开2014/0273004)描述了工程化氨酰基tRNA合成酶(aaRS)作为特定的NTAA结合剂。aaRS的氨基酸结合口袋具有结合同源氨基酸的固有能力,但通常显示出较差的结合亲和力和特异性。而且,这些天然氨基酸结合剂不能识别N端标记。aaRS支架的定向进化可用于生成在N端标记的情况下识别N端氨基酸的更高亲和力、更高特异性的结合剂。
在另一个实例中,在文献中也描述了高选择性工程化ClpS。Emili等人描述了通过噬菌体展示对大肠杆菌ClpS蛋白进行定向进化,从而产生四种不同的变体,这些变体能够选择性地结合天冬氨酸、精氨酸、色氨酸和亮氨酸残基的NTAA(美国专利9,566,335,其通过引用整体并入)。在一个实施例中,结合剂的结合部分包括参与天然N端蛋白质识别和结合的衔接蛋白的进化保守的ClpS家族的成员或其变体。细菌中的ClpS衔接蛋白家族描述于以下文献中:Schuenemann等人,(2009),“ClpAP衔接蛋白ClpS在大肠杆菌中识别N端规则基底的结构基础(Structural basis of N-end rule substrate recognition inEscherichia coli by the ClpAP adaptor protein ClpS)”《欧洲分子生物中心报告(EMBO Reports)》10(5)以及Roman-Hernandez等人,(2009),“N端规则衔接蛋白ClpS选择基底的分子基础(Molecular basis of substrate selection by the N-end rule adaptorprotein ClpS)”《美国科学院院报(PNAS)》106(22):8888-93。另请参见Guo等人,(2002),《生物化学杂志(JBC)》277(48):46753-62和Wang等人,(2008),“N端规则识别的分子基础(The molecular basis of N-end rule recognition)”,《分子细胞(Molecular Cell)》32:406-414。在一些实施例中,对应于在Schuenemann等人中鉴定的ClpS疏水结合口袋的氨基酸残基被修饰,以生成具有期望选择性的结合部分。
在一个实施例中,结合部分包括UBR box识别序列家族的成员,或UBR box识别序列家族的变体。在以下文献中描述了UBR识别盒:Tasaki等人(2009),《生物化学杂志》284(3):1884-95。例如,结合部分可以包括UBR1、UBR2或其突变体、变体或同源物。
在某些实施例中,除了结合部分之外,结合剂进一步包括一种或多种可检测标记,如荧光标记。在一些实施例中,结合剂不包括多核苷酸,如编码标签。任选地,结合剂包括合成或天然抗体。在一些实施例中,结合剂包括适配子。在一个实施例中,结合剂包括多肽,如衔接蛋白的ClpS家族的经修饰成员,如大肠杆菌ClpS结合多肽的变体,以及可检测标记。在一个实施例中,可检测标记是光学可检测的。在一些实施例中,可检测标记包括荧光部分、颜色编码的纳米颗粒、量子点或其任何组合。在一个实施例中,标记包括包围核心染料分子的聚苯乙烯染料,如FluoSphereTM、尼罗红、荧光素、罗丹明、衍生的罗丹明染料(如TAMRA)、荧光粉、聚美他定(polymethadine)染料、荧光亚磷酰胺、德克萨斯红、绿色荧光蛋白、吖啶、花青、花青5染料、花青3染料、5-(2'-氨基乙基)-氨基萘-1-磺酸(EDANS)、BODIPY、120ALEXA或前述任何一种的衍生物或修饰。在一个实施例中,可检测标记对光漂白具有抗性,同时在唯一的和容易检测的波长下产生大量信号(如光子),具有高信噪比。
在特定的实施例中,抗运载蛋白被工程化为对经标记的NTAA(例如DNP、SNP、乙酰化的、用二杂环甲亚胺修饰的等)具有高亲和力和高特异性。某些种类的抗运载蛋白支架由于其β桶状结构而具有适合于结合单个氨基酸的形状。N端氨基酸(无论是否经过修饰)可以潜在地适装配被识别在“β桶状”桶中。已经描述了具有工程化的新颖结合活性的高亲和力抗运载蛋白(Skerra,2008,《欧洲生化学会联合会杂志(FEBS J.)》275:2677-2683)。例如,对荧光素和洋地黄毒苷具有高亲和力结合(低nM)的抗运载蛋白已被工程化(Gebauer和Skerra 2012)。Banta等人也审查了用于新结合功能的替代支架的工程化(2013,《生物医学工程年报》15:93-113)。
通过使用单价结合剂的二价或更高阶多聚体,可以将给定的单价结合剂的功能亲和力(亲合力)增加至少一个数量级(Vauquelin和Charlton 2013)。亲合力是指多个同时发生的非共价结合相互作用的累积强度。单个结合相互作用可以容易地解离。然而,当同时存在多个结合相互作用时,单个结合相互作用的瞬时解离不能使结合蛋白扩散开,并且结合相互作用可能被恢复。用于增加结合剂的亲合力的替代方法是在附着于结合剂的编码标签和与多肽相关联的记录标签中包含互补序列。
在一些实施例中,可以使用选择性地结合经修饰的C端氨基酸(CTAA)的结合剂。羧肽酶是切割/消除含有游离羧基的末端氨基酸的蛋白酶。许多羧肽酶表现出氨基酸优先性,例如,羧肽酶B优先在如精氨酸和赖氨酸等碱性氨基酸处切割。可以修饰羧肽酶以产生选择性地结合特定氨基酸的结合剂。在一些实施例中,可以将羧肽酶工程化为选择性地结合CTAA的修饰部分以及α-碳R基团。因此,工程化羧肽酶可以在C端标记的背景下特异性识别表示标准氨基酸的20种不同的CTAA。通过使用仅在存在标记的情况下具有活性(例如,结合活性或催化活性)的工程化羧肽酶,可以控制从肽的C端逐步降解。在一个实例中,CTAA可以被对硝基苯胺基或7-氨基-4-甲基香豆素基团修饰。
可被工程化为生成用于本文所述方法的结合剂的其它潜在支架包含:抗运载蛋白、氨基酸tRNA合成酶(aaRS)、ClpS、
Figure BDA0003324885590001571
AdnectinTM、T细胞受体、锌指蛋白、硫氧还蛋白、GST A1-1、DARPin、affimer、affilitin、α体、avimer、Kunitz结构域肽、单体、单结构域抗体、EETI-II、HPSTI、内体、脂质运载蛋白、PHD-finger、V(NAR)LDTI、evibody、Ig(NAR)、knottin、maxibody、新制癌菌素(neocarzinostatin)、pVIII、淀粉酶抑肽(tendamistat)、VLR、蛋白A支架、MTI-II、大肠杆菌素(ecotin)、GCN4、Im9、kunitz结构域、微体、PBP、反式体、四连接素、WW结构域、CBM4-2、DX-88、GFP、iMab、Ldl受体结构域A、Min-23、PDZ-结构域、禽胰多肽、卡律蝎毒素/10Fn3、结构域抗体(Dab)、a2p8锚蛋白重复序列、昆虫防御A肽、设计的AR蛋白、C型凝集素结构域、葡萄球菌核酸酶、Src同源结果域3(SH3)或Src同源结构域2(SH2)。
可以设计结合剂以承受更高的温度和温和的变性条件(例如,存在脲、硫氰酸胍、离子溶液等)。变性剂的使用有助于减少表面结合肽中的二级结构,如α-螺旋结构、β-发夹、β-链和其它此类结构,它们可能会干扰结合剂与线性肽表位的结合。在一个实施例中,使用如1-乙基-3-甲基咪唑乙酸盐([EMIM]+[ACE]等离子液体在结合循环期间减少肽二级结构(Lesch、Heuer等人2015)。
在一些方面,结合剂包括编码标签,所述编码标签含有关于所述结合剂的标识信息。例如,与特定结合剂相关联的编码标签信息可以呈能够并且适合于使用多种方法转移到记录标签的任何格式。在一些方面,除了结合部分之外,结合剂进一步包括一种或多种可检测标记,如荧光标记。所描述的结合剂可以包括含有关于结合剂的标识信息的编码标签。编码标签是约3个碱基到约100个碱基的核酸分子,所述核酸分子为其关联的结合剂提供唯一标识信息。编码标签可以包括约3个到约90个碱基、约3个到约80个碱基、约3个到约70个碱基、约3个到约60个碱基、约3个碱基到约50个碱基、约3个碱基到约40个碱基、约3个碱基到约30个碱基、约3个碱基到约20个碱基、约3个碱基到约10个碱基或约3个碱基到约8个碱基。在一些实施例中,编码标签的长度为约3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基、16个碱基、17个碱基、18个碱基、19个碱基、20个碱基、25个碱基、30个碱基、35个碱基、40个碱基、55个碱基、60个碱基、65个碱基、70个碱基、75个碱基、80个碱基、85个碱基、90个碱基、95个碱基或100个碱基。编码标签可以由DNA、RNA、多核苷酸类似物或其组合组成。多核苷酸类似物包含PNA、γPNA、BNA、GNA、TNA、LNA、吗啉代多核苷酸、2'-O-甲基多核苷酸、烷基核糖基取代的多核苷酸、硫代磷酸酯多核苷酸和7-脱氮嘌呤类似物。
编码标签包括编码器序列,所述编码器序列提供关于相关结合剂的标识信息。编码器序列为约3个碱基到约30个碱基、约3个碱基到约20个碱基、约3个碱基到约10个碱基或约3个碱基到约8个碱基。在一些实施例中,编码器序列的长度为约3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基、20个碱基、25个碱基或30个碱基。编码器序列的长度决定了可以生成的唯一编码器序列的数量。较短的编码序列生成较少数量的唯一编码序列,这在使用少量结合剂时可能有用。当分析一群多肽时,可能需要更长的编码器序列。例如,5个碱基的编码器序列将具有式5'-NNNNN-3'(SEQ ID NO:135),其中N可以是任何天然存在的核苷酸或类似物。使用四种天然存在的核苷酸A、T、C和G,长度为5个碱基的唯一编码器序列的总数为1,024。在一些实施例中,可以通过排除例如其中所有碱基相同、至少三个连续碱基相同或两者兼有的编码器序列来减少唯一编码器序列的总数。在具体实施例中,>50个唯一编码器序列的集合用于结合剂文库。
在一些实施例中,对编码标签或记录标签的鉴定组分(例如编码器序列、条形码、UMI、隔室标签、分区条形码、样品条形码、空间区域条形码、循环特异性序列或其任何组合)执行汉明距离、李距离、非对称李距离、里德-所罗门、Levenshtein-Tenengolt或类似的纠错方法。汉明距离是指两个相等长度的字符串之间不同位置的数量。其测量将一个字符串更改为另一个字符串所需的最少替换次数。通过选择相距合理距离的编码器序列,可以使用汉明距离来校正错误。因此,在编码器序列为5个碱基的实例中,可用编码器序列的数量减少到256个唯一编码器序列(汉明距离为1→44个编码器序列=256个编码器序列)。在另一个实施例中,编码器序列、条形码、UMI、隔室标签、循环特异性序列或其任何组合被设计成通过循环解码过程容易地被读出(Gunderson,2004,《基因组研究》14:870-7)。在另一个实施例中,编码器序列、条形码、UMI、隔室标签、分区条形码、空间条形码、样品条形码、循环特异性序列或其任何组合被设计成通过低准确度纳米孔测序被读出,因为不需要单碱基解析,而是需要读取多个碱基(长度为约5-20个碱基)的字符。可用于本公开的方法中的15聚体、纠错汉明条形码的子集在SEQ ID NO:1-65中列出,其对应的反向互补序列在SEQ IDNO:66-130中列出。
在一些实施例中,结合剂文库中的每种唯一的结合剂具有唯一编码器序列。例如,可将20个唯一编码器序列用于与20种标准氨基酸结合的20种结合剂的文库。额外的编码标签序列可以用于鉴定经修饰的氨基酸(例如,翻译后修饰的氨基酸)。在另一个实例中,可以将30个唯一编码器序列用于与20种标准氨基酸和10种翻译后修饰的氨基酸(例如,磷酸化的氨基酸、乙酰化的氨基酸、甲基化的氨基酸)结合的30种结合剂的文库。在其它实施例中,两种或更多种不同的结合剂可以共享相同的编码器序列。例如,各自结合至不同标准氨基酸的两种结合剂可以共享相同的编码器序列。
在某些实施例中,编码标签进一步包括位于一端或两端的间隔子序列。间隔子序列为约1个碱基到约20个碱基、约1个碱基到约10个碱基、约5个碱基到约9个碱基或约4个碱基到约8个碱基。在一些实施例中,间隔子的长度为约1个碱基、2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基或20个碱基。在一些实施例中,编码标签内的间隔子比编码器序列短,例如,比编码器序列短至少1个碱基、2个碱基、约3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基、20个碱基或25个碱基。在其它实施例中,编码标签内的间隔子与编码器序列的长度相同。在某些实施例中,间隔子是结合剂特异性的,使得来自先前结合循环的间隔子仅与来自当前结合循环中的适当结合剂的间隔子相互作用。实例是包含有间隔子序列的同源抗体对,其仅允许在两个抗体按顺序结合多肽的情况下进行信息转移。间隔子序列可用作引物延伸反应的引物退火位点,或连接反应中的夹板或粘性末端。编码标签上的5'间隔子(参见图5A,“*Sp”)可以任选地含有与记录标签上的3间隔子的伪互补碱基以增加Tm(Lehoud等人,2008,《核酸研究(Nucleic Acids Res.)》36:3409-3419)。
在一些实施例中,结合剂集合内的编码标签共享测定中使用的共同间隔子序列(例如,在多结合循环方法中使用的结合剂的整个文库在其编码标签中具有共同间隔子)。在另一个实施例中,编码标签由结合循环标签组成,从而鉴定特定的结合循环。在其它实施例中,结合剂文库内的编码标签具有结合循环特异性间隔子序列。在一些实施例中,编码标签包括一个结合循环特异性间隔子序列。例如,第一个结合循环中使用的结合剂的编码标签包括“循环1”特异性间隔子序列,第二个结合循环中使用的结合剂的编码标签包括“循环2”特异性间隔子序列,依此类推,至多“n”个结合循环。在另外的实施例中,第一个结合循环中使用的结合剂的编码标签包括“循环1”特异性间子隔序列和“循环2”特异性间隔子序列,第二个结合循环中使用的结合剂的编码标签包括“循环2”特异性间隔子序列和“循环3”特异性间隔子序列,依此类推,至多“n”个结合循环。该实施例可用于非级联延伸型记录标签在结合循环完成后的后续PCR组装(参见图10)。在一些实施例中,间隔子序列包括足够数量的碱基以退火至记录标签或延伸型记录标签中的互补间隔子序列,以启动引物延伸反应或粘性末端连接反应。
当记录标签群与多肽相关时,循环特异性间隔子序列也可用于将编码标签的信息连接到单个记录标签上。第一个结合循环将信息从编码标签转移至随机选择的记录标签,并且随后的结合循环只能使用循环依赖性间隔子序列来引发延伸型记录标签。更具体地说,第一个结合循环中使用的结合剂的编码标签包括“循环1”特异性间子隔序列和“循环2”特异性间隔子序列,第二个结合循环中使用的结合剂的编码标签包括“循环2”特异性间隔子序列和“循环3”特异性间隔子序列,依此类推,至多“n”个结合循环。来自第一个结合循环的结合剂的编码标签能够通过互补的循环1特异性间隔子序列退火至记录标签。在将编码标签信息转移至记录标签时,循环2特异性间隔子序列位于结合循环1结束时延伸型记录标签的3'末端。来自第二个结合循环的结合剂的编码标签能够通过互补的循环2特异性间隔子序列退火至延伸型记录标签。在将编码标签信息转移至延伸型记录标签时,循环3特异性间隔子序列位于结合循环2结束时延伸型记录标签的3'末端,依此类推,至多“n”个结合循环。该实施例规定,在多个结合循环中的特定结合循环中转移结合信息将仅发生在经历了先前结合循环的(延伸型)记录标签上。然而,有时结合剂将无法与同源多肽结合。在每个结合循环之后作为“追逐”步骤包括结合循环特异性间隔子的寡核苷酸可用于使结合循环保持同步,即使出现结合循环失败的事件。例如,如果同源结合剂在结合循环1期间未能与多肽结合,则在结合循环1之后使用包括循环1特异性间隔子、循环2特异性间隔子和“空”编码器序列的寡核苷酸添加追踪步骤。“空”编码器序列可以是不存在编码器序列,或者优选地,肯定地鉴定“空”结合循环的特定条形码。“空”寡核苷酸能够通过循环1特异性间隔子退火至记录标签,并且循环2特异性间隔子被转移至记录标签上。因此,尽管结合循环1事件失败,但来自结合循环2的结合剂能够通过循环2特异性间隔子退火至延伸型记录标签。“空”寡核苷酸将结合循环1标记为延伸型记录标签内的失败结合事件。
在一些优选的实施例中,结合循环特异性编码器序列用于编码标签中。结合循环特异性编码器序列可以通过使用完全唯一的分析物(例如,NTAA)-结合循环编码器条形码或通过组合使用连接到循环特异性条形码的分析物(例如,NTAA)编码器序列来实现(参见图35)。使用组合方法的优点是需要设计的条形码总数更少。对于跨10个循环使用的20种分析物结合剂的集合,只需要设计20个分析物编码器序列条形码和10个结合循环特异性条形码。相比之下,如果将结合循环直接嵌入结合剂编码器序列中,那么总共可能需要设计200个独立的编码器条形码。直接在编码器序列中嵌入结合循环信息的优点是,当采用纠错条形码时,可以使编码标签的总长度最小化。在一些实施例中,纠错条形码可用于纳米孔读出。容错条形码的使用允许使用更容易出错但具有其它优势(如分析速度快、成本更低和/或仪器更便携)的测序平台和方法进行高度准确的条形码鉴定。一个这样的实例是基于纳米孔的测序读出。在一些实施例中,与用于在交替循环中结合的结合剂相关的编码标签包括不同的结合循环特异性间隔子序列。例如,第一个结合循环中使用的结合剂的编码标签包括“循环1”特异性间隔子序列,第二个结合循环中使用的结合剂的编码标签包括“循环2”特异性间隔子序列、第三个结合循环中使用的结合剂的编码标签包括“循环1”特异性间隔子序列,第四个结合循环中使用的结合剂的编码标签包括“循环2”特异性间隔子序列。以这种方式,并非每个循环都需要循环特异性间隔子。
在一些实施例中,编码标签包括靠近结合剂的第二(3')间隔子序列内的可切割或可切刻(nickable)DNA链(参见图32)。例如,3'间隔子可以具有一个或多个尿嘧啶碱基,所述一个或多个尿嘧啶碱基可以被尿嘧啶特异性切除试剂(USER)切刻。USER在尿嘧啶的位置处生成单个核苷酸间隙。在另一个实例中,3'间隔子可以包括仅水解双链体的一条链的切刻核酸内切酶的识别序列。优选地,用于切割或切刻3'间隔子序列的酶仅作用于一条DNA链(编码标签的3'间隔子),使得双链体内属于(延伸型)记录标签的另一条链保持完整。这些实施例在分析呈天然构象的蛋白质的测定中特别有用,因为其允许在引物延伸发生后从(延伸型)记录标签非变性去除结合剂,并在可用于后续结合循环的延伸型记录标签上留下单链DNA间隔子序列。
编码标签也可以被设计成含有回文序列。将回文序列包含在编码标签中允许新生的、正在增长的、延伸型记录标签在编码标签信息被转移时自身折叠。延伸型记录标签被折叠成更紧凑的结构,从而有效地减少了不需要的分子间结合和引物延伸事件。
在一些实施例中,编码标签包括分析物特异性间隔子,其能够仅在先前用识别相同分析物的结合剂延伸过的记录标签上引发延伸。可以使用包括分析物特异性间隔子和编码器序列的编码标签从一系列结合事件中构建延伸型记录标签。在一个实施例中,第一结合事件采用具有编码标签的结合剂,所述编码标签由通用3'间隔子引物序列和5'末端处的分析物特异性间隔子序列组成,用于下一个结合循环;随后的结合循环然后使用具有经编码的分析物特异性3'间隔子序列的结合剂。这种设计导致只能从一系列正确的同源结合事件中创建可扩增的文库元件。脱靶和交叉反应性结合相互作用将导致不可扩增的延伸型记录标签。在一个实例中,在两个结合循环中使用针对特定多肽分析物的一对同源结合剂来鉴定分析物。第一同源结合剂含有编码标签,所述编码标签由用于在记录标签的通用间隔子序列上引发延伸的通用间隔子3'序列和5'端处的经编码的分析物特异性间隔子组成,其将在下一个结合循环中使用。对于匹配的同源结合剂对,第二结合剂的3'分析物特异性间隔子与第一结合剂的5'分析物特异性间隔子相匹配。以这种方式,只有结合剂同源对的正确结合才会产生可扩增的延伸型记录标签。交叉反应性结合剂将无法在记录标签上引发延伸,并且不会生成可扩增的延伸型记录标签产物。这种方法极大地增强了本文公开的方法的特异性。相同的原理可以应用于其中采用了3个结合循环的三联体结合剂集合。在第一个结合循环中,记录标签上的通用3'Sp序列与结合剂编码标签上的通用间隔子相互作用。引物延伸将编码标签信息(包含分析物特异性5'间隔子)转移至记录标签。随后的结合循环采用结合剂的编码标签上的分析物特异性间隔子。
在某些实施例中,编码标签可以进一步包括编码标签所连接的结合剂的唯一分子标识符。结合剂的UMI可用于利用延伸型编码标签或双标签分子进行测序读出的实施例中,其与编码器序列组合提供关于结合剂的身份和多肽的唯一结合事件的数量的信息。
在另一个实施例中,编码标签包含随机序列(一组N,其中N=从A、C、G、T中随机选择,或从一组字符中随机选择)。经过一系列的“n”个结合循环并将编码标签信息转移到(延伸型)记录标签上,最终的延伸型记录标签产物将由一系列这些随机化的序列组成,这些序列共同形成“复合型”唯一分子标识符(UMI),用于最终的延伸型记录标签。例如,如果每个编码标签含有(NN)序列(4*4=16个可能的序列),经过10个测序循环后,将形成10个分布式2聚体的组合集,从而创建1610~1012个可能的复合型UMI序列的总多样性,用于延伸型记录标签产物。鉴于肽测序实验使用约109个分子,这种多样性足以为测序实验创建有效的UMI集合。通过在编码标签内简单地使用更长的随机化区域(NNN、NNNN、NNNNN等;SEQ ID NO:135和136),可以实现增加的多样性。
编码标签可以包含并入3'间隔子序列的3'端的终止子核苷酸。在结合剂与多肽结合并且它们对应的编码标签和记录标签通过互补间隔子序列退火后,引物延伸可能将信息从编码标签转移至记录标签,或者将信息从记录标签转移至编码标签。在编码标签的3'端添加终止子核苷酸可防止将记录标签信息转移至编码标签。应理解,对于本文所述的涉及生成延伸型编码标签的实施例,可能优选的是,在记录标签的3'端包含终止子核苷酸以防止编码标签信息转移至记录标签。
编码标签可以是单链分子、双链分子或部分双链的分子。编码标签可以包括平末端、悬垂末端或其中之一。在一些实施例中,编码标签是部分双链的,这防止编码标签退火至正在增长的延伸型记录标签中的内部编码器和间隔子序列。在一些实施例中,编码标签可以包括发夹(hairpin)。在某些实施例中,发夹包括通过核酸链连接的相互互补的核酸区域。在一些实施例中,核酸发夹还可以进一步包括从双链茎段延伸的一个或多个3'和/或5'单链区域。在一些实例中,发夹包括单链核酸。
通过本领域已知的任何方式,包含共价和非共价相互作用,将编码标签直接或间接连接到结合剂。在一些实施例中,编码标签可以通过酶促或化学方式与结合剂连接。在一些实施例中,编码标签可以通过连接与结合剂连接。在其它实施例中,编码标签通过亲和结合对(例如,生物素和链霉亲和素)与结合剂连接。
在一些实施例中,结合剂通过SpyCatcher-SpyTag相互作用与编码标签连接(参见图43B)。SpyTag肽通过自发的异肽连接与SpyCatcher蛋白形成不可逆的共价键,从而提供了一种遗传编码的方式来创建抵抗力和苛刻条件的肽相互作用(Zakeri等人,2012,《美国国家科学院院刊》109:E690-697;Li等人,2014,《分子生物学杂志》426:309-317)。结合剂可以表达为包括SpyCatcher蛋白的融合蛋白。在一些实施例中,将SpyCatcher蛋白附加在结合剂的N端或C端。可以使用标准缀合化学方法将SpyTag肽与编码标签偶联(《生物缀合技术》,G.T.Hermanson,学术出版社(2013))。
在其它实施例中,结合剂通过SnoopTag-SnoopCatcher肽-蛋白质相互作用与编码标签连接。SnoopTag肽与SnoopCatcher蛋白形成异肽键(Veggiani等人,Proc.《美国国家科学院院刊》,(2016)113:1202-1207)。结合剂可以表达为包括SnoopCatcher蛋白的融合蛋白。在一些实施例中,将SnoopCatcher蛋白附加在结合剂的N端或C端。可以使用标准缀合化学方法将SnoopTag肽与编码标签偶联。
在其它实施例中,结合剂通过
Figure BDA0003324885590001641
蛋白融合标签及其化学配体与编码标签连接。HaloTag是一种经修饰的卤代烷脱卤酶,其被设计用于与合成配体(HaloTag配体)共价结合(Los等人,(2008)《ACS化学生物学(ACS Chem.Biol.)》3:373-382)。合成配体包括附着至各种有用分子的氯代烷烃接头。HaloTag和氯烷烃接头之间形成共价键,所述共价键具有很高的特异性,在生理条件下会迅速发生,并且基本上是不可逆的。
在某些实施例中,多肽还与非同源结合剂接触。如本文所使用的,非同源结合剂是指对与所考虑的特定多肽不同的多肽特征或组分具有选择性的结合剂。例如,如果n NTAA是苯丙氨酸,并且肽分别与对苯丙氨酸、酪氨酸和天冬酰胺具有选择性的三种结合剂接触,则对苯丙氨酸有选择性的结合剂将是能够选择性地结合第n个NTAA(即,苯丙氨酸)的第一结合剂,而其它两种结合剂将是该肽的非同源结合剂(因为它们对除了苯丙氨酸以外的NTAA具有选择性)。然而,酪氨酸和天冬酰胺结合剂可以是样品中其它肽的同源结合剂。如果随后从肽上切割了n NTAA(苯丙氨酸),从而将肽的n-1氨基酸转化为n-1NTAA(例如,酪氨酸),然后使该肽与相同的三种结合剂接触,对酪氨酸有选择性的结合剂将是能够选择性地结合n-1NTAA(即,酪氨酸)的第二结合剂,而其它两种结合剂则是非同源结合剂(因为它们对除酪氨酸以外的NTAA具有选择性)。
因此,应当理解,药剂是结合剂还是非同源结合剂将取决目前可用于结合的特定多肽特征或组分的性质。而且,如果在多路复用反应中分析了多种多肽,则一种多肽的结合剂可以是另一种多肽的非同源结合剂,反之亦然。因此,应当理解,以下关于结合剂的描述适用于本文所述的任何类型的结合剂(即,同源和非同源结合剂)。
编码标签信息到记录标签的循环性转移
在本文所述的方法中,一旦结合剂与多肽结合,其连接的编码标签的标识信息就会被转移至与该多肽相关联的记录标签,从而生成“延伸型记录标签”。延伸型记录标签可以包括来自结合剂的编码标签的信息,所述信息表示所执行的每个结合循环。然而,延伸型记录标签也可能经历“缺失”的结合循环,例如,因为结合剂未能与多肽结合,这是由于因引物延伸反应失败导致的编码标签缺失、损坏或有缺陷。即使发生结合事件,信息从编码标签到记录标签的转移也可能不完整或低于100%准确,例如,因为编码标签已损坏或有缺陷,这是由于在引物延伸反应中引入了错误)。因此,延伸型记录标签可以表示已在其相关多肽上发生的结合事件的100%,或至多95%、90%、85%、80%、75%、70%、65%、60%、65%、55%、50%、45%、40%、35%、30%。此外,存在于延伸型记录标签中的编码标签信息可以具有对应的编码标签的至少30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或100%同一性。
在某些实施例中,延伸型记录标签可以包括来自多个编码标签的信息,所述信息表示多个连续结合事件。在这些实施例中,单个连接的延伸型记录标签可以表示单个多肽(参见图2A)。如本文所指,将编码标签信息转移至记录标签还包含转移至延伸型记录标签,如在涉及多个连续结合事件的方法中会发生的。
在某些实施例中,结合事件信息以循环方式从编码标签转移到记录标签(参见图2A和2C)。通过要求至少两个不同的编码标签(鉴定两个或多个独立的结合事件)映射到同一类结合剂(与特定蛋白质同源),可以在测序后从信息上过滤掉交叉反应性结合事件。任选的样品或隔室条形码可以包含在记录标签中,以及任选的UMI序列。编码标签还可以含有任选的UMI序列以及编码器和间隔子序列。通用引发序列(U1和U2)也可以包含在延伸型记录标签中,用于扩增和NGS测序(参见图2A)。
可以使用多种方法将与特定结合剂相关联的编码标签信息转移至记录标签。在某些实施例中,编码标签的信息通过引物延伸转移到记录标签(Chan、McGregor等人2015)。通过使用退火的编码标签作为模板,记录标签或延伸型记录标签的3'末端上的间隔子序列与编码标签的3'末端上的互补间隔子序列退火,并且聚合酶(例如,链置换聚合酶)延伸记录标签序列(参见图5-7)。在一些实施例中,与编码标签编码器序列和5'间隔子互补的寡核苷酸可以预退火至编码标签,以防止编码标签与存在于延伸型记录标签中的内部编码器和间隔子序列杂交。编码标签上的3'末端间隔子保持单链,优选地与记录标签上的末端3'间隔子结合。在其它实施例中,新生记录标签可以用单链结合蛋白包被,以防止编码标签退火至内部位点。可替代地,新生记录标签也可以用RecA(或相关的同源物,如uvsX)包被,以促进3'末端浸入完全双链的编码标签中(Bell等人,2012,《自然》491:274-278)。该配置防止双链编码标签与内部记录标签元件相互作用,但是易于受到延伸型记录标签的RecA包被的3'尾的链入侵(Bell等人,2015,《Elife》4:e08646)。单链结合蛋白的存在可以促进链置换反应。
在一些实施例中,用于引物延伸的DNA聚合酶具有链置换活性并且具有有限的3'-5外切核酸酶活性或缺乏3'-5外切核酸酶活性。此类聚合酶的许多实例中的几个实例包含Klenow exo-(DNA Pol 1的Klenow片段)、T4 DNA聚合酶exo-、T7 DNA聚合酶exo(测序酶2.0)、Pfu exo-、Vent exo-、Deep Vent exo-、Bst DNA聚合酶大片段exo-、Bca Pol、9°NPol和Phi29Pol exo-。在优选的实施例中,DNA聚合酶在室温和至多45℃下是有活性的。在另一个实施例中,采用嗜热聚合酶的“热启动”形式,使得聚合酶被活化并在约40℃-50℃下使用。示例性的热启动聚合酶是Bst 2.0热启动DNA聚合酶(新英格兰生物实验室)。
用于链置换复制的添加剂包含细菌、病毒或真核来源的多种单链DNA结合蛋白(SSB蛋白)中的任一种,如大肠杆菌的SSB蛋白、噬菌体T4基因32产物、噬菌体T7基因2.5蛋白、噬菌体Pf3 SSB、复制蛋白A RPA32和RPA14亚基(Wold,1997);其它DNA结合蛋白,如腺病毒DNA结合蛋白、单纯疱疹蛋白ICP8、BMRF1聚合酶辅助亚基、疱疹病毒UL29SSB样蛋白;已知参与DNA复制的多种复制复合蛋白中的任一种,如噬菌体T7解旋酶/引物酶、噬菌体T4基因41解旋酶、大肠杆菌Rep解旋酶、大肠杆菌recBCD解旋酶、recA、大肠杆菌和真核拓扑异构酶(Champoux,2001)。
错误引发或自引发事件,如当重新编码标签的末端间隔子序列引发延伸时,通过在引物延伸反应中包含单链结合蛋白(T4基因32、大肠杆菌SSB等)、DMSO(1-10%)、甲酰胺(1-10%)、BSA(10-100ug/ml)、TMACl(1-5mM)、硫酸铵(10-50mM)、甜菜碱(1-3M)、甘油(5-40%)或乙二醇(5-40%),可以使自扩增最小化。
大多数A型聚合酶都缺乏3'核酸外切酶活性(内源性或工程去除),如Klenow外切酶、T7 DNA聚合酶外切酶(测序酶2.0),而Taq聚合酶则催化非模板化的核苷酸添加,优选地,双链体扩增产物的3’平末端的腺苷碱基(较小程度的G碱基,取决于序列背景)。对于Taq聚合酶,3'嘧啶(C>T)可最大限度地减少非模板化的腺苷添加,而3'嘌呤核苷酸(G>A)有利于非模板化的腺苷添加。在使用Taq聚合酶进行引物延伸的实施例中,将胸苷碱基放置在远离结合剂的间隔子序列和相邻的条形码序列(例如,编码器序列或循环特异性序列)之间的编码标签中,可在记录标签的间隔子序列的3'末端零星地包含非模板化腺苷核苷酸。(图43A)。以这种方式,延伸型记录标签(带有或不带有非模板化腺苷碱基)可以退火至编码标签,并经历引物延伸。
可替代地,可以通过采用突变型聚合酶(嗜温或嗜热)减少非模板碱基的添加,其中非模板化末端转移酶活性由于一个或多个点突变而大大降低,尤其是在O-螺旋区域(参见美国专利7,501,237)(Yang、Astatke等人2002)。Pfu exo-,缺乏3'外切核酸酶并具有链置换能力,也没有非模板化的末端转移酶活性。
在另一个实施例中,聚合酶延伸缓冲液由40-120mM缓冲剂(如pH值为6-9的Tris-乙酸盐、Tris-HCl、HEPES等)组成。
通过在记录/延伸型记录标签中包含伪互补碱基,可以最大程度地减少由延伸型记录标签的末端间隔子序列与延伸型记录标签的内部区域的自退火引发的自引发/错误引发事件(Lahoud、Timoshchuk等人2008)、(Hoshika、Chen等人2010)。伪互补碱基显示由于化学修饰的存在而彼此形成双链体的杂交亲和力显著降低。然而,许多伪互补修饰碱基可以与天然DNA或RNA序列形成强碱基对。在某些实施例中,编码标签间隔子序列由多个A和T碱基组成,并且使用亚磷酰胺寡核苷酸合成将市售的伪互补碱基2-氨基腺嘌呤和2-硫胸腺嘧啶并入记录标签中。通过向反应中添加伪互补核苷酸,可以在引物延伸期间将额外的伪互补碱基并入延伸型记录标签中(Gamper、Arar等人2006)。
为了使溶液中的编码标签标记的结合剂与固定蛋白的记录标签的非特异性相互作用最小化,将与记录标签间隔子序列互补的竞争剂(也被称为封闭性)寡核苷酸加入到结合反应中,以最大限度地减少非特异性相互作用(图32A-D)。封闭性寡核苷酸相对较短。多余的竞争剂寡核苷酸在引物延伸之前从结合反应中被洗掉,这有效地将退火的竞争剂寡核苷酸与记录标签分离,尤其是在暴露于略微升高的温度(例如,30-50℃)时。封闭性寡核苷酸可在其3'端包括终止子核苷酸以防止引物延伸。
在某些实施例中,在引物延伸反应条件下,记录标签上的间隔子序列与编码标签上的互补间隔子序列的退火是亚稳态的(即,退火Tm类似于反应温度)。这允许编码标签的间隔子序列取代与记录标签的间隔子序列退火的任何封闭性寡核苷酸。
与特定结合剂相关联的编码标签信息也可以通过连接转移到记录标签上(参见例如图6和7)。连接可以是平末端连接或粘性末端连接。连接可以是酶连接反应。连接酶的实例包含但不限于CV DNA连接酶、T4 DNA连接酶、T7 DNA连接酶、T3 DNA连接酶、Taq DNA连接酶、大肠杆菌DNA连接酶、9°N DNA连接酶、
Figure BDA0003324885590001681
可替代地,连接可以是化学连接反应(参见图7)。在图示中,无间隔子连接是通过使用“记录辅助”序列与编码标签上的臂的杂交来实现的。退火的补体序列使用标准化学连接或“点击化学”进行化学连接(Gunderson、Huang等人1998,Peng、Li等人2010,El-Sagheer、Cheong等人2011,El-Sagheer、Sanzone等人2011,Sharma、Kent等人2012,Roloff和Seitz 2013,Litovchick、Clark等人2014,Roloff、Ficht等人2014)。
在另一个实施例中,可以使用公开的技术通过化学连接实现PNA的转移。PNA的结构使得其具有5'N端胺基和非反应性的3'C端酰胺基。PNA的化学连接需要将末端修饰为具有化学活性。这通常是通过使用半胱氨酰部分衍生5'N端和使用硫酯部分衍生3'C端来完成的。使用标准天然化学连接条件,这种经修饰的PNA很容易偶联(Roloff等人,2013,《生物有机与药物化学(Bioorgan.Med.Chem.)》21:3458-3464)。
在一些实施例中,可以使用拓扑异构酶转移编码标签信息。拓扑异构酶可用于将记录标签上的带拓扑电荷的3'磷酸连接到编码标签(或其互补物)的5'端(Shuman等人,1994,《生物化学杂志(J.Biol.Chem.)》269:32678-32684)。
如本文所述,结合剂可以结合翻译后修饰的氨基酸。因此,在某些实施例中,延伸型记录标签包括与多肽的氨基酸序列和翻译后修饰相关的编码标签信息。在一些实施例中,在检测和消除末端氨基酸(例如,NTAA)之前完成对内部翻译后修饰的氨基酸(例如,磷酸化、糖基化、琥珀酰化、泛素化、S-硝基化、甲基化、N-乙酰化、脂化等)的检测。在一个实例中,肽与结合剂接触以进行PTM修饰,并且相关的编码标签信息被转移到如上所述的记录标签(参见图8A)。一旦完成与氨基酸修饰有关的编码标签信息的检测和转移,就可以使用N端或C端降解方法在检测和转移初级氨基酸序列的编码标签信息之前去除PTM修饰基团。因此,得到的延伸型记录标签表明肽序列中存在翻译后修饰,尽管不是序列顺序,以及初级氨基酸序列信息(参见图8B)。
在一些实施例中,内部翻译后修饰的氨基酸的检测可以与初级氨基酸序列的检测同时进行。在一个实例中,NTAA(或CTAA)与对翻译后修饰的氨基酸具有特异性的结合剂接触,单独或作为结合剂文库(例如,由用于20种标准氨基酸和选定的翻译后修饰氨基酸的结合剂组成的文库)的一部分。随后进行末端氨基酸消除和与结合剂(或结合剂文库)接触的连续循环。因此,得到的延伸型记录标签表明在初级氨基酸序列的上下文中翻译后修饰的存在和顺序。
在某些实施例中,记录标签的集合可用于每个多肽以提高编码标签信息转移的整体稳健性和效率(参见例如,图9)。使用与给定多肽相关联的记录标签集合而不是单个记录标签可提高文库构建的效率,因为编码标签与记录标签的潜在偶联产量更高,以及文库的整体产量更高。单个连接的延伸型记录标签的产量直接取决于连接的逐步产量,而能够接受编码标签信息的多个记录标签的使用不会遭受连接的指数损失。
图9和10中示出这种实施例的实例。在图9A和10A中,多个记录标签与固体支持物上的单个多肽相关联(通过空间共定位或将单个多肽限制在单个珠子上)。结合剂以循环方式暴露于固体支持物,并且它们对应的编码标签在每个循环中将信息转移到共定位的多个记录标签之一。在图9A所示的实例中,结合循环信息被编码到编码标签上的间隔子中。对于每个结合循环,结合剂集合都标有指定的循环特异性间隔子序列(图9A和9B)。例如,在NTAA结合剂的情况下,相同氨基酸残基的结合剂用不同的编码标签标记或在间隔子序列中包括循环特异性信息以表示结合剂身份和循环数。
如图9A所示,在第一个结合循环(循环1)中,多种NTAA结合剂与多肽接触。循环1中使用的结合剂具有共同间隔子序列,其与记录标签的间隔子序列互补。循环1中使用的结合剂还具有包括循环1特异性序列的3'-间隔子序列。在结合循环1期间,第一NTAA结合剂结合多肽的游离末端,第一编码标签和记录标签中的共同间隔子序列的互补序列退火,并且第一编码标签的信息通过引物延伸从共同间隔子序列转移到同源记录标签。在去除NTAA以暴露新的NTAA之后,结合循环2接触多个NTAA结合剂,这些结合剂具有与记录标签的间隔子序列互补的共同间隔子序列。循环2中使用的结合剂还具有包括循环2特异性序列的3'-间隔子序列。第二NTAA结合剂与多肽的NTAA结合,并且第二编码标签的信息通过引物延伸转移到记录标签。重复这些循环至“n”个结合循环,从而生成与单个多肽共定位的多个延伸型记录标签,其中每个延伸型记录标签具有来自一个结合循环的编码标签信息。由于在每个连续结合循环中使用的每个结合剂集合在编码标签中都具有循环特异性间隔子序列,所以结合循环信息可以与所得延伸型记录标签中的结合剂信息相关联
在替代实施例中,多个记录标签与固体支持物(例如,珠子)上的单个多肽相关联,如图9A所示,但在这种情况下,特定结合循环中使用的结合剂具有编码标签,所述编码标签侧接用于当前结合循环的循环特异性间隔子和用于下一个结合循环的循环特异性间隔子(图10A和10B)。这种设计的原因是支持最终组装PCR步骤(图10C),以将延伸型记录标签群转化为单个共线延伸型记录标签。在测序之前,可以对单个共线延伸型记录标签文库进行富集、扣除和/或归一化方法。在第一个结合循环(循环1)中,在第一结合剂结合时,包括循环1特异性间隔子(C'1)的编码标签的信息被转移到在其末端包括互补循环1特异性间隔子(C1)的记录标签。在第二个结合循环(循环2)中,在第二结合剂结合时,包括循环2特异性间隔子(C'2)的编码标签的信息被转移到在其末端包括互补循环2特异性间隔子(C2)的不同记录标签。这个过程一直持续到第n个结合循环。在一些实施例中,将延伸型记录标签中的第n个编码标签用通用反向引发序列进行封端,例如,通用反向引发序列可以作为第n个编码标签设计的一部分被并入,或者通用反向引物序列可以在第n个结合循环后的后续反应(如使用加尾引物的扩增反应)中加入。在一些实施例中,在每个结合循环处,多肽暴露于连接到编码标签的结合剂集合,所述编码标签包括关于其对应结合剂的标识信息和结合循环信息(图9和图10)。在特定的实施例中,在第n个结合循环完成后,将用延伸型记录标签的珠子基底置于油乳液中,使得平均小于或大约等于1个珠子/液滴。然后使用组装PCR来扩增来自珠子的延伸型记录标签,并且通过用单独的延伸型记录标签内的循环特异性间隔子序列引发,将多个单独的记录标签组装成共线顺序(图10C)(Xiong等人,2008,《欧洲微生物学会联合会微生物学评论(FEMS Microbiol.Rev.)》32:522-540)。可替代地,在每个结合循环期间或之后,可以将循环特异性间隔子单独添加到延伸型记录标签中,而不是将循环特异性间隔子与结合剂的编码标签一起使用。相比于表示单个多肽的单个连接的延伸型记录标签,使用一组共同表示单个多肽的延伸型记录标签的一个优点是,更高浓度的记录标签可以提高编码标签信息的转移效率。此外,可以多次重复结合循环以确保完成同源结合事件。此外,延伸型记录标签的表面扩增可能能够提供信息转移的冗余(参见图4B)。如果编码标签信息并不总是被转移,则在大多数情况下应该仍然可以使用编码标签信息的不完整集合来鉴定具有非常高信息含量的多肽,如蛋白质。即使是短肽也可以包含大量可能的蛋白质序列。例如,10聚体肽具有2010个可能的序列。因此,可能含有缺失和/或歧义的部分或不完整序列通常仍然可以被唯一地映射。
在其中查询处于其天然构象的蛋白质的一些实施例中,循环性结合测定是用带有编码标签的结合剂进行的,所述编码标签由靠近结合剂的间隔子元件内的可切割或可切刻DNA链组成(图32)。例如,靠近结合剂的间隔子可以具有一个或多个尿嘧啶碱基,所述一个或多个尿嘧啶碱基可以被尿嘧啶特异性切除试剂(USER)切刻。在另一个实例中,靠近结合剂的间隔子可以包括仅水解双链体的一条链的切刻核酸内切酶的识别序列。这种设计允许从延伸型记录标签中非变性地去除结合剂,并为随后的免疫测定循环创建自由的单链DNA间隔子元件。在一些实施例中,将尿嘧啶碱基并入编码标签中以允许在引物延伸步骤之后酶促结合剂的USER去除(图32E-F)。在尿嘧啶的USER切除后,可以在各种温和条件下去除结合剂和截短的编码标签,所述条件包含高盐(4M NaCl,25%甲酰胺)和温和加热,以破坏蛋白质-结合剂相互作用。在记录标签上保持退火的其它截短的编码标签DNA末节(图32F)在稍微升高的温度下很容易解离。
由靠近结合剂的间隔子元件内的可切割或可切刻DNA链组成的编码标签也允许用于从多个结合的结合剂转移编码标签信息的单一均相测定(参见图33)。在一些实施例中,靠近结合剂的编码标签包括切刻核酸内切酶序列基序,在dsDNA上下文中,其在限定的序列基序处被切刻核酸内切酶识别并切刻。多种结合剂结合后,组合的聚合酶延伸(无链置换活性)+切刻核酸内切酶试剂混合物用于生成编码标签向近端记录标签或延伸型记录标签的重复转移。在每个转移步骤之后,所得的延伸型记录标签-编码标签双链体被切刻核酸内切酶切刻,从而释放附着到结合剂的截短的间隔子并暴露延伸型记录标签3'间隔子序列,所述序列能够退火至额外的近端结合的结合剂的编码标签(图33B-D)。切刻基序在编码标签间隔子序列中的放置旨在创建亚稳杂交体,其可以很容易地与未切割的编码标签间隔子序列交换。以这种方式,如果两个或更多个结合剂同时结合同一蛋白质分子,则通过将来自多重结合的结合剂的编码标签信息连接到记录标签上的结合信息发生在单一反应混合物中,无需任何循环试剂交换(图33C-D)。该实施例对于下一代蛋白质测定(NGPA)特别有用,尤其是针对蛋白质上的多价表位的多克隆抗体(或单克隆抗体的混合群)。
对于涉及分析变性蛋白质、多肽和肽的实施例,可以在引物延伸后通过使用高度变性条件(例如,0.1-0.2N NaOH、6M尿素、2.4M异硫氰酸胍、95%甲酰胺等)去除结合的结合剂和退火的编码标签。
记录标签信息到编码标签或双标签结构的循环性转移
在另一方面,可以将信息从包括任选的UMI序列(例如鉴定特定肽或蛋白质分子)和至少一个条形码(例如,隔室标签、分区条形码、样品条形码、空间位置条形码等)的记录标签转移到编码标签,从而生成延伸型编码标签,而不是在结合剂与多肽结合之后将信息从编码标签写入记录标签(参见图11A)。在某些实施例中,在每个结合循环之后,以及任选地在埃德曼降解化学步骤之前,收集结合剂和相关的延伸型编码标签。在某些实施例中,编码标签包括结合循环特异性标签。在完成所有的结合循环(如检测循环性埃德曼降解中的NTAA)后,可以对完整的延伸型编码标签集合进行扩增和测序,并根据UMI(肽身份)、编码器序列(NTAA结合剂)、隔室标签(单个细胞或蛋白质组的子集)、结合循环特异性序列(循环数)或其任何组合之间的关联确定肽上的信息。具有相同隔室标签/UMI序列的文库元件映射回相同的细胞、蛋白质组的子集、分子等,并且可以重建肽序列。在记录标签在埃德曼降解过程期间承受太多损坏的情况下,该实施例可能是有用的。
本文提供了用于分析多种多肽的方法,所述方法包括:(a)提供多种多肽和连接至固体支持物的相关记录标签;(b)使所述多种多肽与能够结合所述多种多肽的多种结合剂接触,其中每种结合剂包括带有关于所述结合剂的标识信息的编码标签;(c)(i)将多肽相关型记录标签的信息转移到与所述多肽结合的结合剂的编码标签上,以生成延伸型编码标签(参见图11A);或(ii)将与所述多肽结合的结合剂的多肽相关型记录标签和编码标签的信息转移到双标签构建体上(参见图11B);(d)收集所述延伸型编码标签或双标签结构;(e)任选地针对一个或多个结合循环重复步骤(b)–(d);(f)分析延伸型编码标签或双标签结构的集合。
在某些实施例中,可以使用引物延伸步骤完成从记录标签到编码标签的信息转移,其中记录标签的3'末端任选地被封闭以防止记录标签的引物延伸(参见例如,图11A)。可以在每次结合事件和信息转移完成后收集所得的延伸型编码标签和相关的结合剂。在图11B所示的实例中,记录标签由通用引发位点(U2')、条形码(例如,隔室标签“CT”)、任选的UMI序列和共同间隔子序列(Sp1)组成。在某些实施例中,条形码是表示单个隔室的隔室标签,并且UMI可用于将序列读段映射回被查询的特定蛋白质或肽分子。如图11B中的实例所示,编码标签由共同间隔子序列(Sp2')、结合剂编码器序列和通用引发位点(U3)组成。在引入编码标签标记的结合剂之前,与记录标签的U2'通用引发位点互补并包括通用引发序列U1和循环特异性标签的寡核苷酸(U2)退火至记录标签U2'。另外,衔接子序列Sp1'-Sp2退火至记录标签Sp1。所述衔接子序列还能够与编码标签上的Sp2'序列相互作用,从而使记录标签和编码标签彼此接近。在结合事件之前或之后执行间隙填充延伸连接测定。如果在结合循环之前执行间隙填充,则使用结合循环后引物延伸步骤来完成双标签形成。在经过多次结合循环收集双标签后,对双标签集合进行测序,并将其通过UMI序列映射回原始肽分子。据了解,为了最大限度地发挥功效,UMI序列的多样性必须超过由UMI标记的单个分子的数量的多样性。
在某些实施例中,可以通过使来自生物样品的蛋白质片段化而获得多肽。
记录标签可以是DNA分子、RNA分子、PNA分子、BNA分子、XNA分子、LNA分子、γPNA分子或其组合。记录标签包括鉴定与其相关的多肽的UMI。在某些实施例中,记录标签进一步包括隔室标签。记录标签还可以包括通用引发位点,其可用于下游扩增。在某些实施例中,所述记录标签在其3'末端包括间隔子。间隔子可以与编码标签中的间隔子互补。记录标签的3'末端可以被封闭(例如,光不稳定的3'封闭基团)以防止记录标签被聚合酶延伸,从而促进多肽相关型记录标签的信息转移到编码标签或多肽相关型记录标签和编码标签的信息转移到双标签构建体。
编码标签包括鉴定编码剂所连接的结合剂的编码器序列。在某些实施例中,编码标签进一步包括所述编码标签所连接的每种结合剂的唯一分子标识符(UMI)。编码标签可以包括通用引发位点,其可用于下游扩增。编码标签可以在其3'末端包括间隔子。间隔子可以与记录标签中的间隔子互补,并可用于启动引物延伸反应以将记录标签信息转移到编码标签。编码标签还可以包括结合循环特异性序列,用于鉴定延伸型编码标签或双标签源自的结合循环。
记录标签的信息向编码标签的转移可以通过引物延伸或连接来实现。记录标签和编码标签的信息向双标签构建体的转移可以使用间隙填充反应、引物延伸反应或两者来生成。
双标签分子包括类似于延伸型记录标签的功能性组分的功能性组分。双标签分子可以包括源自记录标签的通用引发位点、源自记录标签的条形码(例如,隔室标签)、源自记录标签的任选的唯一分子标识符(UMI)、源自编码标签的编码器序列、源自编码标签的任选的唯一分子标识符、结合循环特异性序列、源自记录标签的任选的间隔子和源自编码标签的通用引发位点。
在某些实施例中,可以使用条形码编码字符的组合性连接来生成记录标签。组合性编码字符的使用提供了一种方法,通过该方法可以使用退火和化学连接将信息从PNA记录标签转移到编码标签或双标签构建体(参见例如,图12A-D)。在其中分析本文公开的肽的方法涉及通过埃德曼降解消除末端氨基酸的某些实施例中,可能令人期望的是,使用对埃德曼降解的苛刻条件具有抵抗力的记录标签,如PNA。埃德曼降解方案中的一个苛刻步骤是无水TFA处理,以消除N端氨基酸。这一步通常会破坏DNA。与DNA相比,PNA对酸水解具有很强的抵抗力。PNA面临的挑战是信息转移的酶促方法变得更加困难,即通过化学连接进行信息转移是优选的模式。在图11B中,记录标签和编码标签信息是使用酶促间隙填充延伸连接步骤写入的,但目前这不适用于PNA模板,除非开发了使用PNA的聚合酶。由于需要化学连接,产物不易扩增,因此将条形码和UMI从PNA记录标签写入编码标签是有困难的。化学连接的方法在文献中已被广泛描述(Gunderson等人1998,《基因组研究》8:1142-1153;Peng等人,2010,《欧洲有机化学杂志(Eur.J.Org.Chem.)》4194-4197;El-Sagheer等人,2011,《有机和生物分子化学(Org.Biomol.Chem.)》9:232-235;El-Sagheer等人,2011,《美国国家科学院院刊(Proc.Natl.Acad.Sci.USA)》108:11338-11343;Litovchick等人,2014,《人工DNA、PNA和XNA(Artif.DNA PNA XNA)》5:e27896;Roloff等人,2014,《分子生物学方法(MethodsMol.Biol.)》1050:131-141)。
为了创建组合性PNA条形码和UMI序列,可以组合性地连接来自n聚体文库的一组PNA字符。如果每个PNA字符源自1,000个字符的空间,则四个组合的序列生成的编码空间为1,0004=1012个代码。以这种方式,从4,000个不同的DNA模板序列的起始集合中,可以生成超过1012个PNA代码(图12A)。通过调整连接的字符的数量,或者调整基本字符的数量,可以生成更小或更大的编码空间。因此,使用与PNA记录标签杂交的DNA序列的信息转移可以使用DNA字符组装杂交和化学连接来完成(参见图12B)。在PNA模板上组装DNA字符并对DNA字符进行化学连接后,所得的中间体可用于将信息转移到编码标签/从编码标签传输(参见图12C和图12D)。
在某些实施例中,所述多肽和相关的记录标签共价连接至所述固体支持物。所述固体支持物可以是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、PTFE膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。所述固体支持物可以是聚苯乙烯珠、聚丙烯酸酯珠、聚合物珠、琼脂糖珠、纤维素珠、葡聚糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠、受控孔珠、基于二氧化硅的珠子或其任何组合。在一些实施例中,所述支持物包括金、银、半导体或量子点。在一些实施例中,所述支持物是纳米颗粒,并且所述纳米颗粒包括金、银或量子点。在一些实施例中,所述支持物是聚苯乙烯珠、聚丙烯酸酯珠、聚合物珠、琼脂糖珠、纤维素珠、葡聚糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠、受控孔珠、基于二氧化硅的珠子或其任何组合。
在某些实施例中,所述结合剂是蛋白质或多肽。在一些实施例中,所述结合剂是经修饰的或变体氨肽酶、经修饰的或变体氨酰基tRNA合成酶、经修饰的或变体抗运载蛋白、经修饰的或变体ClpS、或经修饰的或变体抗体或其结合片段。在某些实施例中,所述结合剂结合肽的单个氨基酸残基、二肽、三肽或翻译后修饰。在一些实施例中,所述结合剂结合N端氨基酸残基、C端氨基酸残基或内部氨基酸残基。在一些实施例中,所述结合剂结合N端肽、C端肽或内部肽。在一些实施例中,所述结合剂是肽的翻译后修饰的氨基酸的位点特异性共价标记。
在某些实施例中,在步骤(b)中使多种多肽与多种结合剂接触后,将包括多肽和相关结合剂的复合物从固体支持物解离并划分到液滴或微流体液滴的乳液中。在一些实施例中,每个微流体液滴包括至多一个复合物,所述复合物包括多肽和结合剂。
在某些实施例中,在生成延伸型编码标签或双标签构建体之前扩增记录标签。在包括多肽和相关结合剂的复合物被划分到液滴或微流体液滴中以使得每个液滴至多有一个复合物的实施例中,记录标签的扩增提供额外的记录标签作为用于将信息转移到编码标签或双标签构建体的模板(参见图13和图14)。乳液融合PCR可用于将记录标签信息转移到编码标签或创建双标签构建体的群体。
可以在分析之前对生成的延伸型编码标签或双标签构建体的集合进行扩增。延伸型编码标签或双标签构建体的集合的分析可以包括核酸测序方法。合成测序、连接测序、杂交测序、聚合酶集落测序、离子半导体测序和焦磷酸测序。所述核酸测序方法可以是单分子实时测序、基于纳米孔的测序或使用高级显微镜对DNA进行直接成像。
埃德曼降解和化学标记N端胺的方法(如PITC、桑格试剂(DNFB)、SNFB、乙酰化试剂、酰胺化(胍基化)试剂等)也可以在标准核酸或PNA碱基(如腺嘌呤、鸟嘌呤和胞嘧啶)上官能化内部氨基酸和环外胺。在某些实施例中,在测序之前,将肽的赖氨酸残基的ε-胺用酸酐、胍化剂或类似的封闭剂封闭。尽管DNA碱基的环外胺与肽的N端伯胺的反应性要低得多,但控制胺反应剂对N端胺的反应性,从而减少对DNA碱基上的内部氨基酸和环外胺的非靶标活性对于测序测定而言是至关重要的。可以通过调节反应条件(如pH、溶剂(水性与有机、非质子、非极性、极性非质子、离子液体等)、碱和催化剂、助溶剂、温度和时间)来调节修饰反应的选择性。另外,DNA碱基上环外胺的反应性受DNA呈ssDNA形式还是dsDNA形式的调节。为了使修饰最小化,在NTAA化学修饰之前,可以将记录标签与互补DNA探针杂交:P1'、{样品BCs}'、{Sp-BC}'等。在另一个实施例中,也可以使用具有受保护的环外胺的核酸(Ohkubo、Kasuya等人2008)。在又一个实施例中,“反应性较低”的胺标记化合物,如SNFB,减轻了DNA上内部氨基酸和外环胺的脱靶标记(Carty和Hirs 1968)。SNFB的反应性低于DNFB,因为对磺酰基对对硝基的吸电子性更强,从而导致SNFB的氟取代活性低于DNFB。
通过仔细选择化学和反应条件(浓度、温度、时间、pH、溶剂类型等),可以滴定偶联条件和偶联试剂以优化NTAA ε-修饰并最大限度地减少脱靶氨基酸修饰或DNA修饰。例如,已知DNFB在非质子溶剂(如乙腈)中比在水中更容易与仲胺反应。环外胺的轻度修饰仍可允许互补探针与序列杂交,但可能会破坏基于聚合酶的引物延伸。还可以保护外环胺同时仍然允许氢键合。这在最近的一份出版物中有所描述,其中受保护的碱基仍然能够与所关注的靶标杂交(Ohkubo、Kasuya等人2008)。在一个实施例中,在DNA编码标签模板上的记录标签延伸期间,使用工程化聚合酶并入具有受保护的碱基的核苷酸。在另一个实施例中,在PNA记录标签模板上的编码标签延伸期间,使用工程化聚合酶并入记录标签PNA模板上的核苷酸(具有或不具有受保护的碱基)。在另一个实施例中,可以通过将外源寡核苷酸退火至PNA记录标签来将信息从记录标签转移到编码标签。通过选择在序列空间中不同的UMI,如基于n聚体字符组装的设计,可以促进杂交的特异性(Gerry、Witowski等人1999)。虽然埃德曼样N端肽降解测序可用于确定肽的线性氨基酸序列,但可以使用替代实施例通过利用延伸型记录标签、延伸型编码标签和双标签的方法来执行肽的部分组成分析。结合剂或化学标记可用于鉴定肽的N端和内部氨基酸或氨基酸修饰。化学试剂可以以位点特异性方式共价修饰氨基酸(例如,标记)(Sletten和Bertozzi 2009,Basle、Joubert等人2010)(Spicer和Davis2014)。可以将编码标签附着到靶向单个氨基酸的化学标记剂上,以促进位点特异性标记的氨基酸的编码和后续鉴定(参见图13)。
肽组成分析不需要肽的循环性降解,因此避免了将含有标签的DNA暴露于苛刻的埃德曼化学的问题。在循环性结合模式中,还可以采用延伸型编码标签或双标签来提供组成信息(氨基酸或二肽/三肽信息)、PTM信息和主要氨基酸序列。在一个实施例中,可以使用本文描述的延伸型编码标签或双标签方法来读出所述组成信息。如果与UMI和隔室标签信息相结合,则延伸型编码标签或双标签的集合将提供有关肽及其起源的一种或多种隔室蛋白质的组成信息。映射回相同隔室标签(和表面上起源的蛋白质分子)的延伸型编码标签或双标签的集合是映射具有部分组成信息的肽的强大工具。将带隔室标签的肽的集合映射回有限的蛋白质分子子集,而不是映射回整个蛋白质组,大大增加了映射的唯一性。
本文使用的结合剂可以识别单个氨基酸、二肽、三肽或甚至更长的肽序列基序。Tessler(2011,“数字蛋白质分析:通过单分子检测进行蛋白质诊断和蛋白质组学的技术(Digital Protein Analysis:Technologies for Protein Diagnostics and Proteomicsthrough Single Molecule Detection.)”Ph.D.,华盛顿大学圣路易斯分校(WashingtonUniversity in St.Louis))证明,可以为带电二肽表位的子集生成相对选择性的二肽抗体(Tessler 2011)。定向进化对替代性蛋白质支架(例如,aaRS、抗运载蛋白、ClpS等)和适配子的应用可用于延伸二肽/三肽结合剂的集合。来自二肽/三肽组成分析的信息加上映射回单个蛋白质分子可能足以唯一地鉴定和定量每个蛋白质分子。最多总共有400种可能的二肽组合。然而,最常见和最具抗原性(带电、亲水、疏水)二肽的一个子集应该足以生成结合剂。这个数量可以构成40-100种不同结合剂的集合。对于40种不同结合剂的集合,平均10聚体肽具有约80%的机会被至少一种结合剂结合。将此信息与源自同一蛋白质分子的所有肽相结合可以允许鉴定蛋白质分子。可以结合有关肽及其来源的蛋白质的所有这些信息,以提供更准确和精确的蛋白质序列表征。
最近提出了一种使用部分肽序列信息的数字蛋白质表征测定(Swaminathan等人,2015,《美国科学公共图书馆-计算生物学(PLoS Comput.Biol.)》11:e1004080)(Yao、Docter等人2015)。即,所述方法采用氨基酸的荧光标记,这些氨基酸很容易使用标准化学物质进行标记,如半胱氨酸、赖氨酸、精氨酸、酪氨酸、天冬氨酸/谷氨酸(Basle、Joubert等人2010)。部分肽序列信息的挑战在于,映射回蛋白质组是一对多的关联,没有鉴定出唯一的蛋白质。这种一对多映射问题可以通过将整个蛋白质组空间减少到肽映射回的有限蛋白质分子子集来解决。从本质上讲,单个部分肽序列可以映射回100或1000个不同的蛋白质序列,然而如果已知几个肽的集合(例如,源自单个蛋白质分子的消化的10个肽)都映射回包含在隔室内蛋白质分子子集中的单个蛋白质分子,则更容易推断蛋白质分子的身份。例如,源自同一分子的所有肽的肽蛋白质组图的交集极大地限制了可能的蛋白质身份集合(参见图15)。
具体地说,通过创新地使用隔室标签和UMI,部分肽序列或组成的可映射性得到显著增强。即,蛋白质组最初被划分到条形码隔室中,其中隔室条形码还附着到UMI序列。隔室条形码是隔室独有的序列,而UMI是隔室内每个条形码分子独有的序列(参见图16)。在一个实施例中,使用类似于PCT公开WO2016/061517中公开的方法,所述公开通过引用整体并入,通过DNA标签标记的多肽与珠子表面的直接相互作用,通过与附着在珠子上的DNA隔室条形码杂交来完成这种划分(参见图31)。引物延伸步骤将信息从与珠子连接的隔室条形码转移到多肽上的DNA标签(图20)。在另一个实施例中,这种划分是通过将含有UMI的条形码珠和蛋白质分子共同封装到乳液的液滴中来完成的。此外,液滴任选地含有将蛋白质消化成肽的蛋白酶。许多蛋白酶可用于消化带报告基因标签的多肽(Switzar、Giera等人2013)。酶促连接酶(如butelase I)与蛋白酶的共同封装可能需要对该酶进行修饰,如聚乙二醇化,以使其对蛋白酶消化具有抗性(Frokjaer和Otzen 2005,Kang、Wang等人2010)。消化后,肽被连接到条形码-UMI标签。在一些实施例中,条形码-UMI标签保留在珠子上以促进下游生化操作(参见图13)。
在条形码-UMI连接到肽后,破坏乳液并收获珠子。带条形码的肽可以通过它们的主要氨基酸序列或它们的氨基酸组成来表征。关于肽的两种类型的信息都可用于将其映射回蛋白质组的子集。一般而言,序列信息映射回比组成信息小得多的蛋白质组子集。尽管如此,通过将来自多种肽的信息(序列或组成)与相同的隔室条形码相结合,可以唯一地鉴定肽源自的一种或多种蛋白质。以这种方式,可以表征和定量整个蛋白质组。可以通过执行肽测序反应以及表示肽序列的DNA编码文库(DEL)的延伸型记录标签创建来获得肽上的主要序列信息。在一些实施例中,记录标签由隔室条形码和UMI序列组成。将该信息与从编码标签转移的主要或PTM氨基酸信息一起使用,以生成最终的映射肽信息。
肽序列信息的替代方案是生成与隔室条形码和UMI相连的肽氨基酸或二肽/三肽组成信息。这是通过对具有带UMI条形码的肽的珠子进行氨基酸标记步骤来实现的,在所述步骤中,将每个肽上的选定氨基酸(内部)用包括氨基酸代码信息和另一个氨基酸UMI(AAUMI)的DNA标签进行位点特异性标记(参见图13)。最容易进行化学标记的氨基酸(AA)是赖氨酸、精氨酸、半胱氨酸、酪氨酸、色氨酸和天冬氨酸/谷氨酸,但也可以为其它AA制定标记方案(Mendoza和Vachet 2009)。给定的肽可能含有几个相同类型的AA。可以凭借附着的AAUMI标记区分相同类型的多个氨基酸的存在。每个标记分子在DNA标签内都有不同的UMI,从而可以对氨基酸进行计数。化学标记的替代方案是用结合剂“标记”AA。例如,用包括AA代码信息和AAUMI的编码标签标记的酪氨酸特异性抗体可用于标记肽的所有酪氨酸。这种方法的警告是大体积抗体遇到的空间位阻,理想情况下,出于此目的将使用较小的scFv、抗运载蛋白或ClpS变体。
在一个实施例中,在标记AA之后,信息在记录标签和与肽上结合或共价偶联的结合剂相关的多个编码标签之间转移,方法是通过将肽复合物分隔开,使得每个液滴含有单个肽,并执行乳液融合PCR以构建表征分隔肽的氨基酸组成的延伸型编码标签或双标签集合。在对双标签进行测序后,可以将具有相同条形码的肽的信息映射回单个蛋白质分子。
在特定的实施例中,带标签的肽复合物从珠子解离(参见图13),划分到小的迷你隔室(例如,微乳液)中,使得平均只有单个标记的/结合的结合剂肽复合物驻留在给定的隔间中。在特定的实施例中,这种划分是通过产生微乳液液滴来实现的(Shim、Ranasinghe等人2013,Shembekar、Chaipan等人2016)。除了肽复合物外,PCR试剂还与三种引物(U1、Sp和U2tr)共同封装在液滴中。液滴形成后,在更高的退火温度下执行几个循环的乳液PCR(约5-10个循环),使得仅U1和Sp退火并扩增记录标签产物(参见图13)。在最初的5-10个PCR循环后,降低退火温度,使得氨基酸代码标签上的U2tr和Sptr参与扩增,然后再执行约10个轮次。三引物乳液PCR有效地将肽UMI条形码与所有AA代码标签结合,从而生成肽及其氨基酸组成的双标签文库表示。也可以采用执行三引物PCR和标签连接的其它方式。另一个实施例是使用通过光去封闭活化的3'封闭的U2引物,或添加油溶性还原剂以启动不稳定封闭的3'核苷酸的3'去封闭。在乳液PCR后,可以使用常用引物进行另一轮PCR,以格式化用于NGS测序的文库元件。
以这种方式,文库元件的不同序列组分用于计数和分类目的。对于给定的肽(由隔室条形码-UMI组合鉴定),存在许多文库元件,每个元件都具有标识AA代码标签和AA UMI(参见图13)。AA代码和相关的UMI用于计数给定肽中给定氨基酸类型的出现次数。因此,肽(可能是GluC、LysC或Endo AsnN消化物)通过其氨基酸组成表征(例如,2个Cys、1个Lys、1个Arg、2个Tyr等),而不考虑空间排序。尽管如此,这提供了足够的特征来将肽映射到蛋白质组的子集,并且当与来自同一蛋白质分子的其它肽结合使用时,可以唯一地鉴定和定量蛋白质。
延伸型记录标签、延伸型编码标签或双标签的处理和分析
可以使用多种核酸测序方法处理和分析表示所关注多肽的延伸型记录标签、延伸型编码标签和双标签文库。测序方法的实例包含但不限于链终止测序(桑格测序);下一代测序方法,如合成测序、连接测序、杂交测序、聚合酶集落测序、离子半导体测序和焦磷酸测序;以及第三代测序方法,如单分子实时测序、基于纳米孔的测序、双链体中断测序以及使用高级显微镜对DNA进行直接成像。
可以以多种方式扩增延伸型记录标签、延伸型编码标签或双标签的文库。延伸型记录标签、延伸型编码标签或双标签的文库可以经历指数扩增,例如,通过PCR或乳液PCR。已知乳液PCR可产生更均匀的扩增(Hori、Fukano等人2007)。可替代地,延伸型记录标签、延伸型编码标签或双标签的文库可以经历线性扩增,例如,通过使用T7 RNA聚合酶的模板DNA的体外转录。可以使用与包含在其中的通用正向引发位点和通用反向引发位点相容的引物来扩增延伸型记录标签、延伸型编码标签或双标签的文库。延伸型记录标签、延伸型编码标签或双标签的文库也可以使用加尾引物进行扩增,以将序列添加到延伸型记录标签、延伸型编码标签或双标签的5'端、3'端或两端。可添加到延伸型记录标签、延伸型编码标签或双标签末端的序列包含文库特异性索引序列以允许在单次测序运行中多路复用多个文库、衔接子序列、读取引物序列或用于使延伸型记录标签、延伸型编码标签或双标签的文库与测序平台相容的任何其它序列。为下一代测序做准备的文库扩增的实例如下:使用从~1mg珠子(~10ng)、200uM dNTP、1μM正向和反向扩增引物、0.5μl(1U)Phusion热启动酶(新英格兰生物实验室)洗脱的延伸型记录标签文库设置20μl PCR反应体积,并使其经受以下循环条件:98℃持续30秒,然后是98℃持续10秒、60℃持续30秒、72℃持续30秒的20个循环,然后是72℃持续7分钟,然后保持在4℃。
在某些实施例中,在扩增之前、期间或之后,可以对延伸型记录标签、延伸型编码标签或双标签的文库进行靶标富集。靶标富集可用于在测序前从延伸型记录标签、延伸型编码标签或双标签的文库中选择性地捕获或扩增表示所关注多肽的延伸型记录标签。用于蛋白质测序的靶标富集是具有挑战性的,因为产生针对靶蛋白的高特异性结合剂的成本高且困难。众所周知,抗体是非特异性的,并且很难在数千种蛋白质中进行规模生产。本公开的方法通过将蛋白质密码转化为核酸密码来规避该问题,所述核酸密码然后可以利用可用于DNA文库的广泛的靶向DNA富集策略。所关注的肽可以通过富集其对应的延伸型记录标签而在样品中富集。靶向富集的方法是本领域已知的,并且包含杂交捕获测定、基于PCR的测定,如TruSeq定制扩增子(Illumina)、挂锁探针(也被称为分子倒置探针)等(参见,Mamanova等人,2010,《自然方法》7:111-118;Bodi等人,《生物分子技术杂志(J.Biomol.Tech.)》2013,24:73-86;Ballester等人,2016,《分子诊断专家意见(ExpertReview of Molecular Diagnostics)》357-372;Mertes等人,2011,《功能基因组学简介(Brief Funct.Genomics)》10:374-386;Nilsson等人,1994,《科学》265:2085-8;所述文献中的每一个均通过引用整体并入本文)。
在一个实施例中,延伸型记录标签、延伸型编码标签或双标签的文库通过基于杂交捕获的测定进行富集(参见例如,图17A和图17B)。在基于杂交捕获的测定中,延伸型记录标签、延伸型编码标签或双标签的文库与用亲和标签(例如,生物素)标记的靶标特异性寡核苷酸或“诱饵寡核苷酸”杂交。将与靶标特异性寡核苷酸杂交的延伸型记录标签、延伸型编码标签或双标签使用亲和配体(例如,链霉亲和素包被的珠子)通过其亲和标签“下拉”,并洗去本底(非特异性)延伸型记录标签(参见例如,图17)。然后获得富集的延伸型记录标签、延伸型编码标签或双标签用于阳性富集(例如,从珠子中洗脱)。
对于通过基于阵列的“原位”寡核苷酸合成和随后寡核苷酸池的扩增合成的诱饵寡核苷酸,可以通过在给定的寡核苷酸阵列内采用几个通用引物集合将竞争性诱饵工程化到所述池中。对于每种类型的通用引物,生物素化的引物与非生物素化的引物的比率控制着富集率。使用几种引物类型可以将几种富集比率设计到最终的寡核苷酸诱饵池中。
诱饵寡核苷酸可以被设计成与表示所关注多肽的延伸型记录标签、延伸型编码标签或双标签互补。诱饵寡核苷酸与延伸型记录标签、延伸型编码标签或双标签中的间隔子序列的互补程度可以为0%到100%,以及介于两者之间的任何整数。该参数可以通过一些富集实验轻松优化。在一些实施例中,在编码标签设计中使间隔子相对于编码器序列的长度最小化,或者将间隔子设计成使得它们不可用于与诱饵序列杂交。一种方法是使用在存在辅因子的情况下形成二级结构的间隔子。这种二级结构的实例是G-四链体,其是由两个或更多个鸟嘌呤四联体彼此堆叠形成的结构(Bochman、Paeschke等人2012)。鸟嘌呤四联体是由四个鸟嘌呤碱基通过Hoogsteen氢键结合形成的方形平面结构。在存在阳离子(例如,K+离子对比Li+离子)的情况下稳定G-四链体结构。
为了使所采用的诱饵寡核苷酸的数量最小化,可以通过生物信息学鉴定来自每种蛋白质的一组相对独特的肽,并且只有那些与所关注肽的对应延伸型记录标签文库表示互补的诱饵寡核苷酸被用于杂交捕获测定。也可以使用相同或不同的诱饵集合进行连续的轮次或富集。
为了在表示其片段(例如,肽)的延伸型记录标签、延伸型编码标签或双标签的文库中富集全长的多肽,可以跨蛋白质的整个核酸表示设计“平铺”诱饵寡核苷酸。
在另一个实施例中,可以使用引物延伸和基于连接的介导的扩增富集(AmpliSeq、PCR、TruSeq TSCA等)对富含表示多肽子集的文库元件的级分进行选择和模块化。竞争性寡核苷酸也可用于调节引物延伸、连接或扩增的程度。在最简单的实施中,这可以通过混合包括通用引物尾的靶标特异性引物和缺少5'通用引物尾的竞争性引物来实现。在初始引物延伸后,仅具有5'通用引发序列的引物可以被扩增。具有和不具有通用引物序列的引物的比率控制扩增的靶标的级分。在其它实施例中,包含杂交但非延伸的引物可用于调节经历引物延伸、连接或扩增的文库元件的级分。
靶向富集方法也可用于负选择模式,以在测序前从文库中选择性地去除延伸型记录标签、延伸型编码标签或双标签。因此,在上述使用生物素化的诱饵寡核苷酸和链霉亲和素包被珠子的实例中,上清液被保留用于测序,而与珠子结合的诱饵-寡核苷酸:延伸型记录标签、延伸型编码标签或双标签杂交体不被分析。可以去除的不需要的延伸型记录标签、延伸型编码标签或双标签的实例是表示过度丰富的多肽种类(例如,蛋白质、白蛋白、免疫球蛋白等)的核酸。
与靶标杂交但缺乏生物素部分的竞争剂寡核苷酸诱饵也可用于杂交捕获步骤,以调节任何特定基因座富集的级分。竞争剂寡核苷酸诱饵与标准生物素化的诱饵竞相与靶标杂交,从而有效调节富集期间下拉的靶标的级分(图17)。可以使用这种竞争性抑制方法将蛋白质表达的十个动态范围压缩几个数量级,特别是对于如白蛋白等过度丰富的种类而言。因此,相对于标准杂交捕获,针对给定基因座捕获的文库元件的级分可以从100%调节到低至0%富集。
此外,文库归一化技术可用于从延伸型记录标签、延伸型编码标签或双标签文库中去除过度丰富的种类。这种方法最适合于确定长度的文库,所述文库来源于通过位点特异性蛋白酶消化生成的肽,如胰蛋白酶、LysC、GluC等。在一个实例中,可以通过使双链文库变性并允许文库元件再退火来实现归一化。由于双分子杂交动力学的二级速率常数,丰富的文库元件比不丰富的文库元件更快地再退火(Bochman、Paeschke等人2012)。可以使用本领域已知的方法,如在羟基磷灰石柱上进行色谱法(VanderNoot等人,2012,《生物技术(Biotechniques)》53:373-380)或用来自堪察加蟹(Kamchatka crab)的双链特异性核酸酶(DSN)处理文库,所述双链体特异性核酸酶破坏dsDNA文库元件(Shagin等人,2002,《基因组研究》12:1935-42),将ssDNA文库元件与丰富的dsDNA文库元件分离。
附着于固体支持物之前的多肽和/或所得延伸型记录标签文库的分级、富集和扣除方法的任何组合可以节省测序读段并改进低丰度种类的测量。
在一些实施例中,延伸型记录标签、延伸型编码标签或双标签的文库通过连接或末端互补PCR连接,以产生分别包括多个不同的延伸型记录标签、延伸型编码标签或双标签的长DNA分子(Du等人,2003,《生物技术》35:66-72;Muecke等人,2008,《结构(Structure)》16:837-841;美国专利第5,834,252号,所述文献中的每一个均通过引用整体并入本文)。对于通过纳米孔测序装置分析DNA的长链的纳米孔测序,该实施例是优选的。
在一些实施例中,对延伸型记录标签、延伸型编码标签或双标签进行直接的单分子分析(参见例如,Harris等人,2008《科学》320:106-109)。可以直接在固体支持物上对延伸型记录标签、延伸型编码标签或双标签进行分析,所述固体支持物如适合负载到流通池表面(任选地微池图案化)的流通池或珠子,其中所述流通池或珠子可以与单分子测序仪或单分子解码仪集成在一起。对于单分子解码,几轮合并的荧光标记的解码寡核苷酸的杂交(Gunderson等人,2004,《基因组研究》14:970-7)可用于确定延伸型记录标签内的编码标签的身份和顺序。在一些实施例中,结合剂可以用如上所述的循环特异性编码标签进行标记(另参见,Gunderson等人,2004,《基因组研究》14:970-7)。循环特异性编码标签对表示单个多肽的单个连接的延伸型记录标签或表示单个多肽的延伸型记录标签的集合都起作用。
在对延伸型记录标签、延伸型编码标签或双标签文库进行测序之后,所得序列可以被其UMI折叠,然后与其对应的多肽相关联并与蛋白质组的整体比对。所得序列也可以通过其隔室标签折叠并与其对应的隔室蛋白质组相关联,在特定的实施例中,所述隔室蛋白质组仅含有单个或数量非常有限的蛋白质分子。蛋白质鉴定和定量都可以很容易地根据所述数字肽信息得出。
在一些实施例中,可以针对特定的测序分析平台优化编码标签序列。在特定的实施例中,测序平台是纳米孔测序。在一些实施例中,测序平台的每碱基错误率>5%、>10%、>15%、>20%、>25%或>30%。例如,如果要使用纳米孔测序仪器分析延伸型记录标签,则可以将条形码序列(例如,编码器序列)设计成在通过纳米孔的过程中在电学上可最佳区分。考虑到纳米孔测序的单碱基准确度仍然相当低(75%-85%),但“编码器序列”的确定应该准确得多(>99%),根据本文所述方法的肽测序可能非常适合纳米孔测序。此外,一种被称为双链体中断纳米孔测序(DI)的技术可用于纳米孔链测序,而无需分子马达,这大大简化了系统设计(Derrington、Butler等人2010)。通过DI纳米孔测序读出延伸型记录标签需要将连接的延伸型记录标签文库中的间隔子元件与互补寡核苷酸退火。本文使用的寡核苷酸可以包括LNA,或其它经修饰的核酸或类似物以增加所得双链体的有效Tm。当用这些双链体间隔子区域装饰的单链延伸型记录标签通过孔时,双链区将在收缩区暂时停滞,从而能够读出与双链体区域相邻的大约三个碱基的电流。在DI纳米孔测序的特定实施例中,编码器序列以这样的方式设计:即,与间隔子元件相邻的三个碱基产生最大程度的电可区分纳米孔信号(Derrington等人,2010,《美国国家科学院院刊》107:16060-5)。作为无马达DI测序的替代方案,间隔子元件可以被设计成采用二级结构,如G-四联体,当延伸型记录标签、延伸型编码标签或双标签通过纳米孔时,其会暂时停止延伸型核酸,从而能够读出相邻的编码器序列(Shim、Tan等人2009,Zhang、Zhang等人2016)。在经过停止之后,下一个间隔子将再次做出暂时停止,从而能够读出下一个编码器序列,依此类推。
本文公开的方法可用于同时对多种多肽进行分析,包含检测、定量和/或测序(多路复用)。如本文所使用的,多路复用是指在同一测定中分析多种多肽。多种多肽可以衍生自相同的样品或不同的样品。多种多肽可以衍生自相同的受试者或不同的受试者。被分析的多种多肽可以是不同的多肽,或者是衍生自不同样品的相同多肽。多种多肽包含2个或更多种多肽、5个或更多种多肽、10个或更多种多肽、50个或更多种多肽、100个或更多种多肽、500个或更多种多肽、1000个或更多种多肽、5,000个或更多种多肽、10,000个或更多种多肽、50,000个或更多种多肽、100,000个或更多种多肽、500,000个或更多种多肽或1,000,000个或更多种多肽。
样品多路复用可以通过记录标签标记的多肽样品的前部条形编码来实现。每个条形码表示一个不同的样品,并且可以在进行循环性结合测定或序列分析之前合并样品。通过这种方式,可以在单个管中同时加工许多条形码标记的样品。所述方法是对在反相蛋白质阵列(RPPA)上进行免疫测定的一项重大改进(Akbani、Becker等人2014,Creighton和Huang 2015,Nishizuka和Mills 2016)。以这种方式,本公开实质上以简单的工作流程提供了高度数字化的样品和分析物多路复用替代方案以替代RPPA测定。
通过循环轮次的NTAA鉴定、记录标签延伸和NTAA消除来表征多肽
在某些实施例中,本公开提供的用于分析多肽的方法包括多个结合循环,其中多肽与多种结合剂接触,并且结合剂的连续结合将基于核酸的编码标签形式的历史结合信息转移到与多肽相关的至少一个记录标签。以这种方式,以核酸格式生成了含有关于多个结合事件的信息的历史记录。
在涉及使用基于N端降解的方法分析肽多肽的方法的实施例中(参见图3、图4、图41和图42),在第一结合剂与n个氨基酸的肽的n NTAA接触并结合后,将第一结合剂的编码标签信息转移到与肽相关的记录标签,从而生成一阶延伸型记录标签,如本文所述消除nNTAA。n NTAA的消除将肽的n-1氨基酸转化为N端氨基酸,其在本文中被称为n-1NTAA。如本文所述,n NTAA可以任选地用一个部分(例如,PTC、DNP、SNP、乙酰基、脒基、用二杂环甲亚胺修饰等)官能化,这在与切割酶结合时特别有用,所述切割酶被工程化为与官能化形式的NTAA结合。在一些实施例中,官能化的NTAA包含能够与结合剂共价结合的配体基团。如果nNTAA被官能化,则n-1NTAA被相同的部分官能化。使第二结合剂与肽接触并与n-1NTAA结合,并且将第二结合剂的编码标签信息转移至一阶延伸型记录标签,从而生成二阶延伸型记录标签(例如,用于生成表示肽的连接的第n阶延伸型记录标签),或转移至不同的记录标签(例如,用于生成共同表示肽的多个延伸型记录标签)。n-1NTAA的消除将肽的n-2氨基酸转化为N末端氨基酸,其在本文中被称为n-2NTAA。可以如上所述对至多n个氨基酸进行额外的结合、转移、消除和任选的NTAA官能化,以生成第n阶延伸型记录标签或n个单独的延伸型记录标签,这些记录标签共同表示肽。如本文所使用的,当用于指结合剂、编码标签或延伸型记录标签时,n“阶”是指其中使用结合剂及其相关的编码标签的n个结合循环,或其中创建延伸型记录标签的n个结合循环。
在一些实施例中,第一结合剂和第二结合剂与多肽以及任选的任何其它结合剂(例如,第三结合剂、第四结合剂、第五结合剂等)的接触在同一时间进行。例如,可以将第一结合剂和第二结合剂,以及任选的任何其它阶的结合剂合并在一起,例如以形成结合剂的文库。在另一个实例中,第一结合剂和第二结合剂,以及任选的任何其它阶的结合剂,不是被合并在一起,而是被同时添加到多肽中。在一个实施例中,结合剂文库包括至少20种结合剂,其选择性结合20种标准的天然存在的氨基酸。
在其它实施例中,使第一结合剂和第二结合剂,以及任选的任何其它阶的结合剂,以单独的结合循环分别与多肽接触,并按序列顺序加入。在某些实施例中,并行地同时使用多种结合剂。这种并行方法节省了时间并减少了非同源结合剂对同源结合剂结合的位点的非特异性结合(因为结合剂处于竞争状态)。
通过本文描述的方法生成的最终延伸型记录标签的长度取决于多种因素,包含编码标签(例如,编码器序列和间隔子)的长度、记录标签(例如,唯一分子标识符、间隔子、通用引发位点、条形码)的长度、进行的结合循环的数目以及来自每个结合循环的编码标签是否是被转移到相同的延伸型记录标签或多个延伸型记录标签。在表示肽并由埃德曼降解类似消除方法产生的连接的延伸型记录标签的实例中,如果编码标签具有5个碱基的编码器序列,其两侧各有5个碱基的间隔子,则表示肽的结合剂历史的最终延伸型记录标签的编码标签信息为10个碱基x循环数。对于20个循环的运行,延伸型记录为至少200个碱基(不包含初始记录标签序列)。该长度与标准的下一代测序仪器相容。
在最终结合循环之后以及将最终结合剂的编码标签信息转移到延伸型记录标签之后,可以通过经由连接、引物延伸或本领域已知的其它方法添加通用反向引发位点来对所述记录标签进行封端。在一些实施例中,记录标签中的通用正向引发位点与附加到最终延伸型记录标签上的通用反向引发位点相容。在一些实施例中,通用反向引发位点是Illumina P7引物(5'-CAAGCAGAAGACGGCATACGAGAT-3'-SEQ ID NO:134)或Illumina P5引物(5'-AATGATACGGCGACCACCGA-3'-SEQ ID NO:133)。根据记录标签的链义,可以附加有义或反义P7。延伸型记录标签文库可以直接从固体支持物(例如,珠子)上切割或扩增,并用于传统的下一代测序测定和方案。
在一些实施例中,引物延伸反应在单链延伸型记录标签的文库上进行以复制其互补链。
NGPS肽测序测定,其可以被称为ProteoCode,包括循环进程中的几个化学和酶促步骤。NGPS测序是单分子这一事实赋予该过程几个关键优势。单分子测定的第一个关键优势是对各种循环化学/酶促步骤中的低效率具有稳健性。这是通过使用编码标签序列中存在的循环特异性条形码来实现的。
使用循环特异性编码标签,跟踪来自每个循环的信息。由于这是一种单分子测序方法,即使在测序过程中的每个结合/转移循环中达到70%的效率也足以生成可映射的序列信息。例如,十个碱基的肽序列“CPVQLWVDST”(SEQ ID NO:169)在我们的序列平台上可能读作“CPXQXWXDXT”(SEQ ID NO:170)(其中X=任何氨基酸;通过循环数跟踪推断氨基酸的存在)。这种部分氨基酸序列读段足以使用BLASTP将其唯一地映射回人类p53蛋白。因此,我们的任何流程都不必完美才能稳健。此外,当循环特异性条形码与我们的划分概念相结合时,蛋白质的绝对鉴定可以通过仅从10个位置中鉴定出的几个氨基酸来完成,因为我们知道哪个肽集合映射到原始蛋白质分子(通过隔室条形码)。
用于本发明的合适的测序方法包含但不限于杂交测序、合成测序技术(例如,HiSeqTM和SolexaTM,Illumina)、SMRTTM(单分子实时)技术(Pacific Biosciences)、真正的单分子测序(例如,HeliScopeTM,Helicos Biosciences)、大规模并行下一代测序(例如,SOLiDTM、Applied Biosciences;Solexa和HiSeqTM,Illumina)、大规模并行半导体测序(例如,Ion Torrent)、焦磷酸测序技术(例如,GS FLX和GS Junior Systems,Roche/454)和纳米孔序列(例如,Oxford Nanopore Technologies)。
通过分级、隔室化和有限结合能力树脂进行蛋白质归一化。
蛋白质组学分析的主要挑战之一是解决样品内蛋白质丰度的大动态范围。蛋白质在血浆中跨越超过10个数量级的动态范围(即使是“前20名”耗尽血浆)。在某些实施例中,在分析之前从样品中减去某些蛋白质种类(例如,高丰度蛋白质)。例如,这可以使用市售的蛋白质消耗试剂来完成,如Sigma的PROT20免疫消耗试剂盒,其可以消耗前20名血浆蛋白质。另外,有一种方法可以将动态范围大大降低到可管理的3-4个数量级,这将非常有用。在某些实施例中,可以通过使用标准分级方法对蛋白质样品进行划分,包含电泳和液相色谱法(Zhou、Ning等人2012),或将级分分配到负载有有限能力的蛋白质结合珠子/树脂(例如羟基化的二氧化硅颗粒)的隔室中(McCormick 1989)并洗脱结合的蛋白质来调节蛋白质样品动态范围。每个分隔部分中的过量蛋白质被洗掉。
电泳方法的实例包含毛细管电泳(CE)、毛细管等电聚焦(CIEF)、毛细管等速电泳(CITP)、自由流动电泳、凝胶洗脱液相级分截留电泳(GELFrEE)。液相色谱蛋白质分离方法的实例包含反相(RP)、离子交换(IE)、尺寸排阻(SE)、亲水相互作用等。隔室分区的实例包含乳液、液滴、微孔、平坦基底上的物理分离区域等。示例性蛋白质结合珠子/树脂包含用酚基或羟基衍生的二氧化硅纳米颗粒(例如,来自安捷伦科技公司(Agilent Technologies)的StrataClean树脂、来自LabTech的RapidClean等)。通过限制珠子/树脂的结合能力,在给定级分中洗脱的高丰度蛋白质将仅部分结合到珠子上,并去除多余的蛋白质。
单细胞或分子子采样的蛋白质组划分
在另一方面,本公开提供了用于使用条形编码和划分技术对样品中的蛋白质进行大规模平行分析的方法。当前的蛋白质分析方法涉及将蛋白质多肽片段化为适合肽测序的较短肽分子。因此,使用此类方法获得的信息受到片段化步骤的限制,并且排除了例如蛋白质的长程连续性信息,包含翻译后修饰、每个样品中发生的蛋白质-蛋白质相互作用、样品中存在的蛋白质群的组成或蛋白质多肽的来源,如来自特定细胞或细胞群。蛋白质分子内翻译后修饰的长程信息(例如,蛋白质型表征)提供了更完整的生物学图景,并且关于哪些肽属于哪种蛋白质分子的长程信息提供了肽序列到潜在蛋白质序列的更稳健的映射(参见图15A)。当肽测序技术仅提供不完整的氨基酸序列信息(如仅来自5种氨基酸类型的信息)时,这一点尤其重要。通过使用本文公开的划分方法,结合来自相同蛋白质分子的许多肽的信息,可以更准确地评估蛋白质分子(例如蛋白质型)的身份。隔室标签与源自相同隔室的蛋白质和肽的缔合促进了分子和细胞信息的重建。在典型的蛋白质组分析中,细胞被裂解并且蛋白质被消化成短肽,从而破坏关于哪些蛋白质来自哪种细胞或细胞类型以及哪些肽来自哪种蛋白质或蛋白质复合物的全局信息。这种全局信息对于理解细胞和组织内的生物学和生物化学非常重要。
划分是指将唯一条形码随机分配给来自样品内多肽群的多肽亚群。可以通过将多肽分配到隔室中来实现划分。分区可以由单个隔室内的多肽或来自一组隔室的多个隔室内的多肽组成。
从多个(例如,数百万至数十亿)隔室中分离到同一物理隔室或隔室组中或在同一物理隔室或隔室组上的多肽子集或蛋白质样品子集通过唯一隔室标签来鉴定。因此,即使在将成分合并在一起之后,隔室标签也可用于区分源自具有相同隔室标签的一个或多个隔室的成分以及具有不同隔室标签的另一个隔室(或隔室组)中的成分。
本公开提供了通过将复杂蛋白质组样品(例如,多个蛋白质复合物、蛋白质或多肽)或复杂细胞样品划分到多个隔室中来增强蛋白质分析的方法,其中每个隔室包括多个隔室标签,这些隔室标签在单个隔室内相同(除了任选的UMI序列)并且与其它隔室的隔室标签不同(参见图18-20)。隔室任选地包括固体支持物(例如,珠子),多个隔室标签与所述固体支持物连接。多个蛋白质复合物、蛋白质或多肽被片段化成多个肽,然后在足以允许多个肽与多个隔室中的多个隔室标签退火或连接的条件下与多个隔室标签接触,从而生成多个带隔室标签的肽。可替代地,在足以允许多个蛋白质复合物、蛋白质或多肽与多个隔室中的多个隔室标签退火或连接的条件下,将多个蛋白质复合物、蛋白质或多肽连接至多个隔室标签,从而生成多个带隔室标签的蛋白质复合物、蛋白质、多肽。然后从多个隔室中收集带隔室标签的蛋白质复合物、蛋白质或多肽,并任选地将其片段化成多个带隔室标签的肽。根据本文所述的任何方法分析一个或多个带隔室标签的肽。
在某些实施例中,隔室标签信息通过引物延伸(图5)或连接(图6)转移到与多肽(例如,肽)相关的记录标签。
在一些实施例中,隔室标签在隔室内的溶液中是游离的。在其它实施例中,隔室标签直接连接到隔室的表面(例如,微量滴定板或微微量滴定板的孔底)或隔室内的珠子或珠子。
隔室可以是水性隔室(例如,微流体液滴)或固体隔室。固体隔室包含,例如,纳米颗粒、微球、微量滴定孔或微微量滴定孔或阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、尼龙、硅晶片芯片、流通池、流通芯片、包含信号转导电子器件的生物芯片、ELISA板、旋转干涉盘、硝酸纤维素膜或基于硝酸纤维素的聚合物表面上的分离区域。在某些实施例中,每个隔室平均含有单个细胞。
固体支持物可以是任何支持物表面,包含但不限于珠子、微珠、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、PTFE膜、PTFE膜、尼龙、硅晶片芯片、流通池、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。用于固体支持物的材料包含但不限于丙烯酰胺、琼脂糖、纤维素、葡聚糖、硝酸纤维素、玻璃、金、石英、聚苯乙烯、聚乙烯醋酸乙烯酯、聚丙烯、聚酯、聚甲基丙烯酸酯、聚丙烯酸酯、聚乙烯、聚环氧乙烷、聚硅酸盐、聚碳酸酯、聚乙烯醇(PVA)、特氟隆、碳氟化合物、尼龙、硅橡胶、聚酐、聚乙醇酸、聚乳酸、聚原酸酯、官能化硅烷、聚富马酸丙酯、聚氯乙烯、胶原蛋白、糖胺聚糖、聚氨基酸或其任何组合。在某些实施例中,固体支持物是聚苯乙烯珠、聚丙烯酸酯珠、聚合物珠、琼脂糖珠、纤维素珠、葡聚糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠、受控孔珠、基于二氧化硅的珠子或其任何组合。
Shembekar等人综述了将样品划分到具有带隔室标签的珠子的隔室中的各种方法(Shembekar、Chaipan等人2016)。在一个实例中,将蛋白质组通过乳液划分到液滴中,以使得能够使用本文公开的方法记录关于蛋白质分子和蛋白质复合物的全局信息(参见例如,图18和图19)。在某些实施例中,蛋白质组与带隔室标签的珠子、可活化蛋白酶(直接或间接通过热、光等)和经工程改造为具有蛋白酶抗性的肽连接酶(例如,经修饰的赖氨酸、聚乙二醇化等)一起被划分在隔室(例如,液滴)中。在某些实施例中,可以用变性剂处理蛋白质组以评估蛋白质或多肽的肽成分。如果需要关于蛋白质天然状态的信息,则可以将相互作用的蛋白质复合物划分到隔室中,用于随后分析由此衍生的肽。
隔室标签包括条形码,所述条形码任选地在一侧或两侧侧接间隔子或通用引物序列。所述引物序列可以与记录标签的3'序列互补,从而能够通过引物延伸反应将隔室标签信息转移到记录标签(参见图22A-B)。条形码可以由附着到固体支持物或隔室的单链核酸分子或其与固体支持物或隔室杂交的互补序列或两条链组成(参见例如,图16)。隔室标签可以包括用于偶联至肽的功能性部分,例如,附着到间隔子。在一个实例中,功能性部分(例如,醛)是能够与多个肽上的N端氨基酸残基反应的部分。在另一个实例中,功能性部分能够与多个肽上的内部氨基酸残基(例如,赖氨酸或用“点击”反应性部分标记的赖氨酸)反应。在另一个实施例中,功能性部分可以简单地是能够与DNA标签标记的蛋白质杂交的互补DNA序列。可替代地,隔室标签可以是嵌合分子,所述嵌合分子进一步包括包含蛋白质连接酶(例如,butelase I或其同系物)的识别序列的肽,以允许隔室标签与所关注的肽连接(参见图22A)。隔室标签可以是较大核酸分子内的组分,所述较大核酸分子任选地进一步包括用于提供关于与其相连的肽的标识信息的唯一分子标识符、间隔子序列、通用引发位点或其任何组合。该UMI序列通常在隔室内的隔室标签群中不同。在某些实施例中,隔室标签是记录标签内的组分,使得用于提供单独隔室信息的相同标签也用于记录与其附着的肽的单独肽信息。
在某些实施例中,隔室标签可以通过将隔室标签印刷、点样、喷墨到隔室中来形成。在某些实施例中,形成多个带隔室标签的珠子,其中每个珠子存在一种条形码类型,通过如以下文献中所述的分离和合并寡核苷酸连接或合成:Klein等人,2015,《细胞(Cell)》161:1187-1201;Macosko等人,2015,《细胞》161:1202-1214;以及Fan等人,2015,《科学》347:1258367。也可以通过单独合成或固定来形成带隔室标签的珠子。在某些实施例中,带隔室标签的珠子进一步包括双功能记录标签,其中一部分包括包含记录标签的隔室标签,而另一部分包括可偶联的消化肽的功能性部分(图19和图20)。
在某些实施例中,将多个隔室内的多个蛋白质或多肽用蛋白酶片段化成多个肽。蛋白酶可以是金属蛋白酶。在某些实施例中,通过金属阳离子的光活化释放来调节金属蛋白酶的活性。可以使用的内肽酶的实例包含:胰蛋白酶、糜蛋白酶、弹性蛋白酶、嗜热菌蛋白酶、胃蛋白酶、梭菌蛋白酶、谷氨酰内肽酶(GluC)、内肽酶ArgC、肽酰-asp金属内肽酶(AspN)、内肽酶LysC和内肽酶LysN。它们的活化方式取决于缓冲液和二价阳离子的要求。任选地,在将蛋白质或多肽充分消化成肽片段后,蛋白酶被灭活(例如,热、氟油或硅油可溶性抑制剂,如二价阳离子螯合剂)。
在具有隔室标签的肽条形编码的某些实施例中,通过将DNA标签缀合至蛋白质赖氨酸基团的ε-胺部分或间接通过点击化学连接至预先标记有反应性点击部分(如炔烃)的蛋白质/多肽,用DNA标签标记蛋白质分子(任选地,变性多肽)(参见图2B和图20A)。然后将DNA标签标记的多肽划分到包括隔室标签(例如,结合到液滴内所含的珠子的DNA条形码)的隔室中(参见图20B),其中隔室标签含有鉴定每个隔室的条形码。在一个实施例中,单一蛋白质/多肽分子与与珠子相关联的单一种类的DNA条形码共同封装(参见图20B)。在另一个实施例中,隔室可以构成珠子的表面,所述珠子具有类似于PCT公开WO2016/061517(通过引用整体并入)中描述的标签的附着的隔室(珠子)标签,不同之处在于,应用于蛋白质而不是DNA。隔室标签可以包括条形码(BC)序列、通用引发位点(U1')、UMI序列和间隔子序列(Sp)。在一个实施例中,伴随着划分或在划分之后,隔室标签从珠子上切割并与附着于多肽的DNA标签杂交,例如分别通过DNA标签和隔室标签上的互补U1和U1'序列。为了在珠子上进行划分,DNA标签标记的蛋白质可以直接与珠子表面的隔室标签杂交(参见图20C)。在此杂交步骤之后,从隔室中提取带有杂交DNA标签的多肽(例如,乳液“破裂”,或从珠子上切下的隔室标签),并使用基于聚合酶的引物延伸步骤将条形码和UMI信息写入到多肽上的DNA标签以产生带隔室条形码的记录标签(参见图20D)。可以使用LysC蛋白酶消化将多肽切割成在其C端赖氨酸处标记的成分肽,其带有含有通用引发序列、隔室标签和UMI的记录标签(参见图20E)。在一个实施例中,LysC蛋白酶被设计成耐受带有DNA标签的赖氨酸残基。将所得的记录标签标记的肽以适当的密度固定在固体基底(例如,珠子)上,以使带记录标签的肽之间的分子间相互作用最小化(参见图20E和20F)。
肽与隔室标签的附着(或反之亦然)可以直接连接至固定化的隔室标签,或其互补序列(如果是双链的)。可替代地,隔室标签可以从隔室的固体支持物或表面分离,并且肽和溶液相隔室标签连接在隔室内。在一个实施例中,隔室标签上(例如,寡核苷酸末端)上的功能性部分是醛,其通过席夫碱直接偶联到肽的胺N端(参见图16)。在另一个实施例中,隔室标签被构建为包括用于蛋白质连接酶的肽基序(n-X…XXCGSHV-c;SEQ ID NO:139)的核酸-肽嵌合分子。使用肽连接酶,如butelase I或其同系物,将核酸-肽隔室标签构建体与消化的肽缀合。Butelase I和其它天冬酰胺内肽酶(AEP)同源物可用于将寡核苷酸-肽隔室标签构建体的C端连接到消化肽的N端(Nguyen、Wang等人2014,Nguyen、Cao等人2015)。该反应快速且高效。所得的带隔室标签的肽随后可以固定到固体支持物上,用于本文所述的核酸肽分析。
在某些实施例中,在将隔室标签与多个片段化肽连接之前,释放连接至固体支持物或隔室表面的隔室标签(参见图18)。在一些实施例中,在从多个隔室收集带隔室标签的肽之后,将带隔室标签的肽与与记录标签相关联的固体支持物连接。然后可以将隔室标签信息从带隔室标签的肽上的隔室标签转移到相关的记录标签(例如,通过从记录标签和隔室标签内的互补间隔子序列引发的引物延伸反应)。在一些实施例中,然后在根据本文描述的方法进行肽分析之前从带隔室标签的肽中去除隔室标签。在另外的实施例中,最初用于消化多种蛋白质的序列特异性蛋白酶(例如,Endo AspN)也用于在将隔室标签信息转移到相关记录标签后从肽的N端去除隔室标签(参见图22B)。
用于基于隔室的划分的方法包含通过使用T形接头和流动聚焦的微流体装置形成液滴、使用搅拌生成乳液或通过具有小孔的膜(例如,轨道蚀刻膜)进行挤出等(参见图21)。隔室化的一个挑战是解决隔室的内部问题。在某些实施例中,可能难以在隔室内进行一系列不同的生化步骤,因为交换流体组分具有挑战性。如前所述,可以通过将试剂添加到乳液的氟油中来改变液滴内部的有限特征,如pH、螯合剂、还原剂等。然而,在水相和有机相中均具有溶解性的化合物的数量是有限的。一种方法是将隔室中的反应限制为基本上将条形码转移到所关注的分子。
在用由隔室标签(条形码)组成的记录标签标记蛋白质/肽后,将蛋白质/肽以合适的密度固定在固体支持物上以促进信息从结合的同源结合剂的编码标签到附着在结合肽或蛋白质分子上的对应记录标签的分子内转移。通过控制固体支持物表面上分子的分子间间距,使分子间信息转移最小化。
在某些实施例中,隔室标签不需要对于隔室群中的每个隔室是唯一的。隔室群中的隔室子集(两个、三个、四个或更多个)可以共享相同的隔室标签。例如,每个隔室可以由一群珠子表面组成,其用于从样品中捕获多肽亚群(每个珠子捕获许多分子)。此外,珠子包括可以附着到捕获的多肽的隔室条形码。每个珠子只有一个隔室条形码序列,但此隔室条形码可以被复制到隔室内的其它珠子上(许多珠子映射到相同的条形码)。在物理隔室和隔室条形码之间可以存在(尽管不是必需的)多对一映射,此外,在隔室内的多肽之间可以存在(尽管不是必需的)多对一映射。分区条形码被定义为将唯一条形码分配给来自样品内多肽群的多肽子采样。所述分区条形码可以由相同的隔室条形码组成,这些条形码是由用相同条形码标记的隔室内的多肽划分产生的。物理隔室的使用有效地对原始样品进行子采样,以提供分区条形码的分配。例如,提供了标记有10,000个不同隔室条形码的珠子的集合。此外,假设在给定的测定中,测定中使用了100万个珠子。平均而言,每个隔室条形码有100个珠子(泊松分布)。进一步假设,珠子捕获1000万个多肽的聚集体。平均而言,每个珠子有10个多肽,每个隔室条形码有100个隔室,每个分区条形码实际上有1000个多肽(由100个不同物理隔室的100个隔室条形码组成)。
在另一个实施例中,通过在N端或C端或两者处用可扩增的DNA UMI标签(例如,记录标签)标记多肽(化学或酶促)来实现多肽的单分子划分和分区条形编码(参见图37)。如图2B所示,通过非特异性光标记或特异性化学附着于反应性氨基酸(如赖氨酸),将DNA标签附着到多肽的主体(内部氨基酸)。通过酶促乳液PCR(Williams、Peisajovich等人2006,Schutze、Rubelt等人2011)或乳液体外转录/逆转录(IVT/RT)步骤将来自附着到肽末端的记录标签的信息转移到DNA标签。在优选的实施例中,采用纳米乳液,使得平均而言,每个乳液液滴少于单个多肽,尺寸为50nm-1000nm(Nishikawa、Sunami等人2012,Gupta、Eral等人2016)。此外,PCR的所有组分都包含在水性乳液混合物中,所述混合物包含引物、dNTP、Mg2+、聚合酶和PCR缓冲液。如果使用IVT/RT,则记录标签设计有T7/SP6 RNA聚合酶启动子序列,以生成与附着在多肽主体上的DNA标签杂交的转录本(Ryckelynck、Baudrey等人2015)。逆转录酶(RT)将信息从杂交的RNA分子复制到DNA标签。以这种方式,乳液PCR或IVT/RT可用于有效地将信息从末端记录标签转移到附着在多肽主体上的多个DNA标签。
通过在珠中凝胶化来封装细胞内容物是用于单细胞分析的有用方法(Tamminen和Virta2015,Spencer、Tamminen等人2016)。对单细胞液滴进行条形编码可以使来自单个细胞的所有组分都使用相同的标识符进行标记(Klein、Mazutis等人2015,Gunderson、Steemers等人2016,Zilionis、Nainys等人2017)。隔室条形编码可以通过多种方式完成,包含通过液滴连接将唯一条形码直接并入每个液滴中(Raindance)、通过将条形码珠引入液滴中(10X基因组学)或使用分离池组合性条形编码对封装和凝胶化后的液滴组分进行组合性条形编码,如Gunderson等人(Gunderson、Steemers等人2016)和PCT公开WO2016/130704所述,其通过引用整体并入。类似的组合性标记方案也可以应用于细胞核,如Adey等人所述(Vitak、Torkenczy等人2017)。
上述液滴条形编码方法已被用于DNA分析但未用于蛋白质分析。调整上述液滴条形编码平台以处理蛋白质需要几个创新步骤。首先是条形码主要由DNA序列组成,并且需要将所述DNA序列信息赋予蛋白质分析物。对于DNA分析物,将DNA信息转移到DNA分析物上相对简单。相比之下,将DNA信息转移到蛋白质上更具挑战性,尤其是当蛋白质被变性并消化成肽以进行下游分析时。这要求每个肽都标记有隔室条形码。挑战在于,一旦细胞被封装在液滴中,就很难使蛋白质变性、对所得多肽进行蛋白酶消化并同时用DNA条形码标记肽。与液滴中的细胞不同,将细胞封装在聚合物中形成液滴并将其聚合(凝胶化)到可放入水性缓冲液中的多孔珠中提供了执行多个不同反应步骤的媒剂(Tamminen和Virta 2015,Spencer、Tamminen 2016)(Gunderson、Steemers等人2016)。优选地,封装的蛋白质与凝胶基质交联,以防止所述蛋白质随后从凝胶珠中扩散。这种凝胶珠格式允许凝胶内夹带的蛋白质通过化学方式或酶促方式变性、用DNA标签标记、进行蛋白酶消化并进行许多其它干预。图38描绘了凝胶基质中单个细胞的示例性封装和裂解。
组织和单细胞空间蛋白质组学
条形码的另一种用途是将表面上的组织空间分割成空间分布的DNA条形码序列的阵列。如果组织蛋白用包括条形码的DNA记录标签进行标记,所述条形码反映了安装在阵列表面上的细胞组织内蛋白质的空间位置,则组织切片内蛋白质分析物的空间分布可以在序列分析后重建,就像空间转录组学所做的那样,如Stahl等人(2016,《科学》353(6294):78-82)和Crosetto等人所述(Corsetto、Bienko等人2015年)。空间条形码的附着可以通过从阵列中释放阵列结合的条形码并将它们扩散到组织切片中来完成,可替代地,组织切片中的蛋白质可以用DNA记录标签标记,然后用蛋白酶消化蛋白质以释放可以扩散并杂交至阵列上的空间条形码的标记肽。然后可以将条形码信息(以酶促或化学方式)转移到附着在肽上的记录标签。
组织内蛋白质的空间条形编码可以通过将用DNA记录标签化学标记的固定/透化组织切片放置在空间编码的DNA阵列上来实现,其中阵列上的每个特征具有在空间上可鉴定的条形码(参见图23)。为了将阵列条形码附着到DNA标签上,可以用蛋白酶消化组织切片,从而释放DNA标签标记的肽,这些肽可以扩散并杂交至与组织切片相邻的近端阵列特征。可以使用化学/酶促连接或聚合酶延伸将阵列条形码信息转移到DNA标签上。可替代地,可以切割阵列上的条形码序列并使其扩散到组织切片上的近端区域并与其中的DNA标签标记的蛋白质杂交,而不是使标记的肽扩散到阵列表面。同样,可以通过化学/酶促连接或聚合酶延伸转移条形编码信息。在第二种情况下,可以在转移条形码信息后进行蛋白酶消化。任一种方法的结果都是记录标签标记的蛋白质或肽的集合,其中记录标签包括带有蛋白质/肽在起始组织内位置的二维空间信息的条形码。此外,可以表征翻译后修饰的空间分布。这种方法提供了一种灵敏且高度多路复用的原位数字免疫组织化学测定,并应构成现代分子病理学的基础,从而实现更准确的诊断和预后。
在另一个实施例中,可以在细胞内使用空间条形编码,以鉴定细胞器和细胞隔室内的蛋白质成分/PTM(Christoforou等人,2016,《自然通讯》7:8992,其通过引用整体并入)。可以使用多种方法来提供细胞内空间条形码,这些条形码可以附着到近端蛋白质上。在一个实施例中,细胞或组织可以被亚细胞分级成组成细胞器,并且不同的蛋白质细胞器部分被条形码化。空间细胞标记的其它方法在Marx,2015,《自然方法》12:815-819的评论中进行了描述,所述评论通过引用整体并入;本文可以使用类似的方法。
试剂盒
在一些方面,提供了用于分析多肽的试剂盒,所述试剂盒含有(a)用于提供任选地与记录直接或间接相关的多肽的试剂;(b)用于使多肽的末端氨基酸官能化的试剂,其选自如本文所述的式(AA)化合物或如本文所述的式R3-NCS化合物;(c)结合剂,其包括能够与官能化的末端氨基酸结合的结合部分和(c1)带有关于所述第一结合剂的标识信息的编码标签,或(c2)可检测标记;以及(d)用于将所述第一编码标签的信息转移至所述记录标签以生成延伸型记录标签的试剂;以及任选的(e)用于分析所述延伸型记录标签的试剂或用于检测所述第一可检测标记的试剂。
在本文提供的任何试剂盒的一些实施例中,Q选自由以下组成的组:-C1-6烷基、-C2-6烯基、-C2-6炔基、芳基、杂芳基、杂环基、-N=C=S、-CN、-C(O)Rn、-C(O)ORo、--SRp或-S(O)2Rq;其中-C1-6烷基、-C2-6烯基、-C2-6炔基、芳基、杂芳基和杂环基各自未被取代或被取代,并且Rn、Ro、Rp和Rq各自独立地选自由以下组成的组:-C1-6烷基、-C1-6卤代烷基、-C2-6烯基、-C2-6炔基、芳基、杂芳基和杂环基。在一些实施例中,Q选自由以下组成的组:
Figure BDA0003324885590001951
Figure BDA0003324885590001952
在本文提供的任何试剂盒的一些实施例中,Q是荧光团。
在本文提供的任何试剂盒的一些实施例中,所述结合剂结合末端氨基酸残基、末端二氨基酸残基或末端三氨基酸残基。在一些实施例中,所述结合剂结合经翻译后修饰的氨基酸。
在本文提供的任何试剂盒的一些实施例中,所述记录标签包括核酸、寡核苷酸、经修饰的寡核苷酸、DNA分子、具有伪互补碱基的DNA、具有受保护碱基的DNA、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、γPNA分子或吗啉代DNA或其组合。在一些实施例中,所述DNA分子是主链修饰的、糖修饰的或核碱基修饰的。在一些实施例中,所述DNA分子具有核碱基保护基团(如Alloc)、亲电保护基团(如硫烷)、乙酰基保护基团、硝基苄基保护基团、磺酸酯保护基团或传统的碱基不稳定的保护基团(包含Ultramild试剂)。在一些实施例中,所述记录标签包括通用引发位点。在一些实施例中,所述通用引发位点包括用于扩增、测序或两者的引发位点。在一些实施例中,所述记录标签包括唯一分子标识符(UMI)。在一些实施例中,所述记录标签包括条形码。在一些实施例中,所述记录标签在其3'末端包括间隔子。
在本文提供的任何试剂盒的一些实施例中,用于提供所述多肽和连接到支持物的相关记录标签的所述试剂提供所述多肽和所述支持物上的所述相关记录标签的共价连接。在一些实施例中,所述支持物是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。在一些实施例中,所述支持物包括金、银、半导体或量子点。在一些实施例中,所述支持物是纳米颗粒,并且所述纳米颗粒包括金、银或量子点。在一些实施例中,所述支持物是聚苯乙烯珠、聚合物珠、琼脂糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠或受控孔珠。
在本文提供的任何试剂盒的一些实施例中,用于提供所述多肽和连接到支持物的相关记录标签的所述试剂提供多种多肽和连接到支持物的相关记录标签。在一些实施例中,所述多种多肽在所述支持物上间隔开,其中所述多肽之间的平均距离为约≥20nm。
在一些方面,提供了用于分析多肽的试剂盒,所述试剂盒含有一种或多种如本文提供的结合剂。在本文提供的任何试剂盒的一些实施例中,所述结合剂是肽或蛋白质。在一些实施例中,所述结合剂包括氨肽酶或其变体、突变体或经修饰的蛋白质;氨酰tRNA合成酶或其变体、突变体或经修饰的蛋白质;抗运载蛋白或其变体、突变体或经修饰的蛋白质;ClpS或其变体、突变体或经修饰的蛋白质;或结合氨基酸的经修饰的小分子,即万古霉素或其变体、突变体或经修饰的分子;或抗体或其结合片段;或其任何组合。在一些实施例中,所述结合剂结合单个氨基酸残基(例如,N端氨基酸残基、C端氨基酸残基或内部氨基酸残基)、二肽(例如,N端二肽、C端二肽或内部二肽)、三肽(例如,N端三肽、C端三肽或内部三肽)或所述多肽的翻译后修饰。在一些实施例中,所述结合剂能够选择性地结合所述多肽。在一些实施例中,所述结合剂结合NTAA官能化的单氨基酸残基、NTAA官能化的二肽、NTAA官能化的三肽或NTAA官能化的多肽。例如,能够结合官能化的NTAA的一种或多种结合剂是用选自以下的化合物处理的NTAA:式(AA)、式(AB)中任一个的化合物、式R3-NCS的化合物、式R2-NH2的胺或具有二杂亲核试剂的胺,或其盐或缀合物,如本文所述,或其任何组合。在一些实施例中,所述结合剂能够结合或被配置成结合来自用任何提供的化学试剂处理多肽的副产物。
在本文提供的任何试剂盒的一些实施例中,所述编码标签是DNA分子、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、γPNA分子或其组合。在一些实施例中,所述编码标签包括编码器或条形码序列。在一些实施例中,所述编码标签进一步包括间隔子、结合循环特异性序列、唯一分子标识符、通用引发位点或其任何组合。在一些实施例中,所述编码标签包括核酸、寡核苷酸、经修饰的寡核苷酸、DNA分子、具有伪互补碱基的DNA、具有受保护碱基的DNA、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、γPNA分子或吗啉代DNA或其组合。在一些实施例中,所述DNA分子是主链修饰的、糖修饰的或核碱基修饰的。在一些实施例中,所述DNA分子具有核碱基保护基团(如Alloc)、亲电保护基团(如硫烷)、乙酰基保护基团、硝基苄基保护基团、磺酸酯保护基团或传统的碱基不稳定的保护基团(包含Ultramild试剂)。
在本文提供的任何试剂盒的一些实施例中,所述结合剂中的所述结合部分和所述编码标签通过接头连接。在一些实施例中,所述结合部分和所述编码标签通过SpyTag/SpyCatcher肽-蛋白质对、SnoopTag/SnoopCatcher肽-蛋白质对或HaloTag/HaloTag配体对连接。
在本文提供的任何试剂盒的一些实施例中,用于将所述编码标签的信息转移至所述记录标签的所述试剂包括DNA连接酶或RNA连接酶。在一些实施例中,用于将所述编码标签的信息转移至所述记录标签的所述试剂包括DNA聚合酶、RNA聚合酶或逆转录酶。在一些实施例中,用于将所述编码标签的信息转移至所述记录标签的所述试剂包括化学连接试剂。在一些实施例中,所述化学连接试剂用于单链DNA。在一些实施例中,所述化学连接试剂用于双链DNA。
在本文提供的任何试剂盒的一些实施例中,其进一步包括由两种DNA或RNA连接酶变体、腺苷酸化变体和组成型非腺苷酸化变体组成的连接试剂。在一些实施例中,所述试剂盒进一步包括由DNA或RNA连接酶和DNA/RNA去腺苷酸酶组成的连接试剂。在一些实施例中,所述试剂盒另外包括用于核酸测序方法的试剂。在一些实施例中,所述核酸测序方法是合成测序、连接测序、杂交测序、聚合酶集落测序、离子半导体测序和焦磷酸测序。在一些实施例中,所述核酸测序方法是单分子实时测序、基于纳米孔的测序或使用高级显微镜对DNA进行直接成像。
在本文提供的任何试剂盒的一些实施例中,所述试剂盒另外包括用于扩增所述延伸型记录标签的试剂。在本文提供的任何试剂盒的一些实施例中,所述试剂盒另外包括用于添加循环标记的试剂。在一些实施例中,所述循环标记提供关于所述结合剂与所述多肽结合的顺序的信息。在一些实施例中,所述循环标记可以被添加到所述编码标签中。在一些实施例中,所述循环标记可以被添加到所述记录标签中。在一些实施例中,所述循环标记可以被添加到所述结合剂中。在一些实施例中,可以独立于所述编码标签、记录标签和结合剂添加所述循环标记。在一些实施例中,包含在所述延伸型记录标签上的编码标签信息的顺序提供关于信息结合剂与所述多肽结合的顺序的信息。在一些实施例中,包含在所述延伸型记录标签上的所述编码标签信息的频率提供关于信息结合剂与所述多肽结合的频率的信息。
在本文提供的任何试剂盒的一些实施例中,所述试剂盒被配置用于分析来自样品的一种或多种多肽,所述样品包括多种蛋白质复合物、蛋白质或多肽。
在本文提供的任何试剂盒的一些实施例中,所述试剂盒进一步包括用于将所述样品内的所述多种蛋白质复合物、蛋白质或多肽划分到多个隔室中的装置,其中每个隔室包括任选地连接到支持物(例如,固体支持物)的多个隔室标签,其中所述多个隔室标签在单个隔室内相同并且不同于其它隔室的隔室标签。在一些实施例中,所述隔室是物理隔室、珠子和/或表面区域。在一些实施例中,所述隔室是珠子的表面。在一些实施例中,所述隔室是含有条形码珠的物理隔室。在其它实施例中,所述隔室是条形码珠的表面。
在本文提供的任何试剂盒的一些实施例中,所述试剂盒进一步包括用于将所述多种蛋白质复合物、蛋白质和/或多肽片段化成多种多肽的试剂。在一些实施例中,所述隔室是微流体液滴。在一些实施例中,所述隔室是微孔。在一些实施例中,所述隔室是表面上的分离区域。在一些实施例中,每个隔室平均包括单个细胞。
在本文提供的任何试剂盒的一些实施例中,所述试剂盒进一步包括用于用多个通用DNA标签标记所述多种蛋白质复合物、蛋白质、或多肽的试剂。
在本文提供的任何试剂盒的一些实施例中,用于将所述隔室标签信息转移到与多肽相关的所述记录标签的所述试剂包括引物延伸或连接试剂。在一些实施例中,所述隔室标签包括单链或双链核酸分子。在一些实施例中,所述隔室标签包括条形码和任选的UMI。在一些实施例中,所述支持物是珠子并且所述隔室标签包括条形码,进一步地,其中包括与其连接的所述多个隔室标签的珠子是通过分离和合并合成形成的。在一些实施例中,所述支持物是珠子并且所述隔室标签包括条形码,进一步地,其中包括与其连接的多个隔室标签的珠子是通过单独合成或固定形成的。在一些实施例中,所述支持物是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。在一些实施例中,所述珠子是聚苯乙烯珠、聚合物珠、琼脂糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠或受控孔珠。在一些实施例中,所述支持物包括金、银、半导体或量子点。在一些实施例中,所述支持物是纳米颗粒,并且所述纳米颗粒包括金、银或量子点。在一些实施例中,所述支持物是聚苯乙烯珠、聚合物珠、琼脂糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠或受控孔珠。
在本文提供的任何试剂盒的一些实施例中,所述隔室标签是记录标签内的组分,其中所述记录标签任选地进一步包括间隔子、条形码序列、唯一分子标识符、通用引发位点或其任何组合。在一些实施例中,所述隔室标签进一步包括能够与多个蛋白质复合物、蛋白质或多肽上的内部氨基酸、肽主链或N端氨基酸反应的功能性部分。在一些实施例中,功能性部分是醛、叠氮化物/炔、或马来酰亚胺/硫醇、或环氧化物/亲核试剂、或逆电子需求狄尔斯-阿尔德(iEDDA)基团、或用于施陶丁格反应(Staudinger reaction)的部分。在一些实施例中,功能性部分是醛基。在一些实施例中,所述多个隔室标签通过以下形成:将隔室标签印刷、点样、喷墨到隔室中,或其组合。在一些实施例中,所述隔室标签进一步包括多肽。在一些实施例中,所述隔室标签多肽包括蛋白质连接酶识别序列。
在本文提供的任何试剂盒的一些实施例中,所述试剂盒包括蛋白质连接酶,其中所述蛋白质连接酶是butelase I或其同系物。在本文提供的任何试剂盒的一些实施例中,其中用于使所述多种多肽片段化的所述试剂包括蛋白酶。在一些实施例中,所述蛋白酶是金属蛋白酶。
在本文提供的任何试剂盒的一些实施例中,所述试剂盒进一步包括用于调节所述金属蛋白酶的活性的试剂,例如,用于光活化释放所述金属蛋白酶的金属阳离子的试剂。在一些实施例中,所述试剂盒进一步包括用于在将所述多种多肽划分到所述多个隔室中之前从所述样品中减去一种或多种丰度蛋白质的试剂。在一些实施例中,所述隔室是物理隔室、珠子和/或表面区域。在一些实施例中,所述隔室是珠子的表面。在一些实施例中,所述隔室是含有条形码珠的物理隔室。在其它实施例中,所述隔室是条形码珠的表面。
在一些实施例中,所述试剂盒进一步包括用于在将所述多种多肽与所述隔室标签连接之前从所述支持物释放所述隔室标签的试剂。在一些实施例中,所述试剂盒进一步包括用于将带隔室标签的多肽连接到与记录标签相关的支持物的试剂。
在其它方面,提供了用于筛选多肽官能化试剂、氨基酸消除试剂和/或反应条件的试剂盒,所述试剂盒包括:(a)多核苷酸;(b)多肽官能化试剂和/或氨基酸消除试剂;以及(c)用于评估所述多肽官能化试剂、所述氨基酸消除试剂和/或多肽官能化或消除的反应条件对所述多核苷酸的影响的装置。在一些实施例中,多肽官能化试剂包括如本文所述的式(AA)化合物或其盐或缀合物。
在一些方面,用于对多肽进行测序的试剂盒,所述试剂盒包括:(a)用于将多肽固定到支持物或基底上的试剂,或用于在溶液中提供多肽的试剂;(b)用于使所述多肽的N端氨基酸(NTAA)官能化的试剂,其中所述试剂包括如本文所述的式(AA)化合物或式R3-NCS化合物。
在一些实施例中,所述试剂盒另外包括用于消除官能化的NTAA以暴露新的NTAA的试剂。
在一些实施例中,所述试剂盒进一步包含从多肽转化或去除特定氨基酸残基的酶,例如,脯氨酸氨肽酶、脯氨酸亚氨基肽酶(PIP)、焦谷氨酸氨肽酶(pGAP)、天冬酰胺酰胺水解酶、肽谷氨酰胺酶天冬酰胺酶和/或蛋白质谷氨酰胺酶或其同系物。
在本文描述的任何试剂盒的一些实施例中,其中所述多肽是通过使来自生物样品的蛋白质片段化而获得的。在一些实施例中,所述支持物或基底是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。
在本文所述的任何试剂盒的一些实施例中,用于消除官能化的NTAA的试剂是式R2-NH2的胺、胺碱、二杂亲核试剂或碱;或其任何组合。在一些实施例中,所述多肽共价固定到支持物或载剂上。在一些实施例中,所述支持物或载剂是光学透明的。在一些实施例中,所述支持物或载剂包括多个空间解析的附着点,并且步骤a)包括将多肽固定到所述空间解析的附着点。
在一些实施例中,所述结合剂的所述结合部分包括肽或蛋白质。在一些实施例中,所述结合剂的所述结合部分包括氨肽酶或其变体、突变体或经修饰的蛋白质;氨酰tRNA合成酶或其变体、突变体或经修饰的蛋白质;抗运载蛋白或其变体、突变体或经修饰的蛋白质;ClpS(如ClpS2)或其变体、突变体或经修饰的蛋白质;UBR盒蛋白或其变体、突变体或经修饰的蛋白质;或结合氨基酸的经修饰的小分子,即万古霉素或其变体、突变体或经修饰的分子;或抗体或其结合片段;或其任何组合。
在本文所述的任何试剂盒的一些实施例中,所述化学试剂包括选自由以下组成的组的缀合物:
Figure BDA0003324885590002001
其中环A选自:
Figure BDA0003324885590002011
Figure BDA0003324885590002012
以及
Figure BDA0003324885590002013
其中:
每个Rx、Ry和Rz独立地选自H、卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#、C(O)N(R#)2,并且苯基任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代,
并且位于环的相邻原子上的两个Rx、Ry或Rz可以任选地一起形成稠合至所述环的苯基,并且所述稠合的苯基可以任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代;
其中每个R#独立地为H或C1-2烷基,并且位于同一氮上的两个R#可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代;并且
Q为配体。
在一些实施例中,所述试剂盒另外包括用于消除官能化的NTAA以暴露新的NTAA的试剂,如本文所述。所述试剂可以是氨、氢氧化铵、伯胺、碱(如氢氧化物)或二杂亲核试剂(如肼、羟胺、经取代的肼和C1-4烷氧基胺)。在本文所述的任何试剂盒的一些实施例中,所述样品包括生物流体、细胞提取物或组织提取物。在本文所述的任何试剂盒的一些实施例中,所述荧光标记是荧光部分、颜色编码的纳米颗粒或量子点。
实例
提供以下实例以说明而非限制本文所提供的本发明的方法、组合物和用途。
实例1:N端氨基酸官能化和从多肽中消除
本实例描述了对用多肽进行的反应的评估,包含肽的N端氨基酸(NTAA)的修饰(例如,官能化)和所述经修饰的NTAA的去除(例如,消除)。
一般而言,所测试的方法包含用异硫氰酸酯或其衍生物(R1)处理肽以通过形成硫脲来官能化NTAA,然后使用第二试剂(R2)将硫脲在NTAA处转化为胍,如方案1所示。然后用碱处理多肽以消除NTAA。在某些情况下,可以在官能化和消除之间用碘甲烷或其它氧化试剂处理硫脲。此外,可以使用在形成对应的胍后促进环消除的其它碱,包含但不限于0.1MNaOH、0.1M LiOH、0.1M Na3PO4和0.1M K2CO3缓冲液等。
在以下肽序列上测试了NTAA的官能化和消除:GRFSGIY(SEQ ID NO:142)、AALAY(SEQ ID NO:143)、FGAALAWK(N3)(SEQ ID NO:144)和WTQIFGA(SEQ ID NO:145)。如下所述在溶液中处理多肽:将1mM测试肽(具有表2A中所示的序列)和3mM异硫氰酸苯酯(PITC)悬浮在乙腈/0.5M醋酸三乙胺(TEAA)(1:1)中。将混合物在60℃下加热30分钟。然后,加入等体积的28%氢氧化铵。将混合物在60℃下加热1小时。为了进行分析,将一部分洗脱材料注入LCMS并通过UV进行监测。如表2A所示,观察到的所有四种经处理的肽的质量表明,末端氨基酸通过先后用PITC和氢氧化铵处理而被修饰和去除。
Figure BDA0003324885590002021
另外,在基本上如上所述的反应中测试了各种试剂,不同之处在于,表2B中的所示肽在第一步中用各种异硫氰酸酯衍生物处理并且在第二步中用氢氧化铵、甲胺、异丙胺或乙醇胺处理。通过观察到的经处理的肽的质量来证实使用试剂观察到的官能化和消除,如表2所示。
Figure BDA0003324885590002031
类似于上文测试的官能化和消除反应,还用肼和羟胺代替氢氧化铵测试了各种肽。如下所述在溶液中处理多肽:将1mM测试肽(具有表3中所示的序列)和10mM异硫氰酸苯酯(PITC)悬浮在乙腈/0.5M醋酸三乙胺(TEAA)(1:1)中。将混合物在60℃下加热30分钟。修饰后,用等体积的肼(50~60%)处理混合物。将消除反应在60℃下进行3小时或在80℃下进行1小时。使用与上述方法类似的方法,观察到的所有经处理的肽的质量表明NTAA被修饰和去除。据观察,在反应60℃下进行1小时后,约60%的肽显示出NTAA消除,当反应在60℃下进行3小时或在80℃下进行1小时时,>95%的肽显示出NTAA消除。在用肼进行的反应中,消除反应的pH约为12,并且不需要任何额外的碱缓冲液。
在一些情况下,用经取代的肼或羟胺HCl(20%)代替肼。
Figure BDA0003324885590002041
实例2:二杂环甲亚胺的合成
本实例描述了用于制备二杂环甲亚胺试剂的合成程序。
通用程序A:
向配备有磁力搅拌棒的玻璃小瓶中加入100mg溴化氰(0.95mmol)并溶解在1-2mL丙酮中,并在冰浴上冷却直至以后使用。在单独的小瓶中,将1.97mmol杂环溶解在5-6mL乙醇中,并将溶液与冷却的丙酮溶液混合。在加入800μL的2M NaOH(水溶液)之前,将溶液在0℃搅拌5分钟。在1小时的过程中使剧烈搅拌的溶液达到室温。形成沉淀,过滤固体,并用冷乙醇洗涤。所得固体无需进一步纯化即可获得(>95%纯度,20-60%产率)。
通用程序B:
向配备有磁力搅拌棒的玻璃小瓶中加入100mg溴化氰(0.95mmol)并溶解在1-2mL二氯甲烷中,并在4℃下储存直至进一步使用。在单独的小瓶中,将1.97mmol杂环溶解在5mL二氯甲烷中。向其中加入3mmol三乙胺(或二异丙基乙胺),并搅拌10分钟或直至所有固体溶解。然后将该溶液滴加到含溴化氰的溶液中。将反应在25℃下搅拌1-18小时。完成时,通过薄层色谱法(TLC)监测,将反应真空浓缩并负载到正相硅胶塞上。通过正相快速色谱法(0-60%乙酸乙酯/正庚烷)获得产物。合并含有所需产物的级分并浓缩,以提供分离的产物(>95%纯度,40-85%产率)。
使用提供的程序制备的示例性二杂环甲亚胺试剂包含:双-(4-三氟甲基吡唑)甲亚胺、双(苯并三唑)甲亚胺、双-吡唑甲亚胺、双-(3-三氟甲基吡唑)甲亚胺、双-(4-甲基吡唑)甲亚胺、双-(4-硝基咪唑)甲亚胺和双-(3,5-二甲基吡唑)甲亚胺。
Figure BDA0003324885590002051
双-(4-三氟甲基吡唑)甲亚胺。按照通用程序B制备。
1H NMR(400MHz,DMSO-d6):δ10.758(1H,s),9.171(1H,s),8.883(1H,s),8.412(1H,s),8.343(1H,s)
Figure BDA0003324885590002052
双-(4-甲基吡唑)甲亚胺。按照通用程序B制备。1H NMR(400MHz,DMSO-d6):δ9.273(1H,s),8.212(1H,s),7.986(1H,s),7.759(1H,s),7.718(1H,s),2.109(3H,s),2.058(3H,s)
Figure BDA0003324885590002053
双-(3-三氟甲基吡唑)甲亚胺。按照通用程序A制备。1H NMR(400MHz,DMSO-d6):δ10.915(1H,s),8.705(1H,d,J=2Hz),8.427(1H,d,J=2Hz),7.147(1H,d,J=2Hz),7.102,d,J=2Hz)
实例3:N端氨基酸官能化和消除的评估
本实例展示了用二杂环甲亚胺处理的肽的N端氨基酸(NTAA)的修饰(例如,官能化)和NTAA的去除(例如消除)(参见方案1)。使用如实例2中所述的通用程序A和B分离各种二杂环甲亚胺。在用以下试剂处理的肽中评估官能化和消除:双-(4-三氟甲基吡唑)甲亚胺、双-(苯并三唑)甲亚胺、双-(吡唑)甲亚胺、双-(3-三氟甲基吡唑)甲亚胺和双-(4-甲基吡唑)甲亚胺、双-(3,5-二甲基吡唑)甲亚胺、双-(咪唑)甲亚胺和双-(4-硝基咪唑)甲亚胺。
A.NTAA的官能化和消除:
将溶解在二甲基亚砜(DMSO)中的5μL的6个池的等分试样(10mM)添加到85μL的缓冲液(pH范围为6到9)和25μL的乙腈(20%)中,每个池中有10个具有不同氨基酸序列的肽,其长度为5到10个氨基酸。向其中加入10μL的150mM二杂环甲亚胺/DMSO,充分混合,并在40℃下反应1小时。一小时时间点后,从反应中取出等分试样,用乙酸水溶液猝灭,并通过LCMS进行分析。加入50%肼衍生物的等分试样(20μL;于水中或DMSO中),使有效肼浓度达到11%,并在40℃下反应1小时。完成时,用1M乙酸(水溶液)淬灭反应并通过LCMS监测。如表4A所示,可以以1-97%的产率获得所得的期望产物(去除了NTAA的肽)。
Figure BDA0003324885590002061
在一些情况下,通过使用二杂亲核盐作为肼衍生物分离N-氨基胍中间体,以置换杂环甲亚胺官能化的肽,而不产生去除了NTAA的期望产物肽。使用这种方法,中间体的分离可以提供对反应的额外控制(例如,减少水解或乙内酰脲的副产物形成)。测试的另外的反应条件包含将系统的pH提高到9(使用磷酸三钠、氢氧化钠、氢氧化锂、氢氧化钾或其它pH≥9的缓冲液),然后将N-杂胍转化为期望的产物(去除了NTAA的肽),如表4B所示。
Figure BDA0003324885590002071
B.肼缓冲液组合
在存在肼和各种缓冲液的情况下评估用4-(三氟甲基)吡唑甲脒处理的肽的N端氨基酸(NTAA)的去除。将4-(三氟甲基)吡唑甲脒官能化的肽通过制备型HPLC纯化。将纯化的肽溶解在DMSO中至5mM的浓度。将5μL肽溶液添加到35μL不同缓冲液(表5)中,并将10μL的55%水合肼添加到溶液中。将反应物置于热混合器中并在40℃下反应1小时。完成时,用1M乙酸淬灭反应并通过LCMS监测。分析表明,使用各种缓冲液会导致期望的N端氨基酸水解、氨基胍中间体和不期望的乙内酰脲产物的量不同(表5)。在一些情况下,使用0.7M Tris缓冲液产生了期望的N端氨基酸水解、氨基胍中间体和相对少量的乙内酰脲产物。
Figure BDA0003324885590002072
实例4:用二杂亲核试剂和二杂环甲亚胺处理DNA
将SEQ ID NO:171(TTT/i5OCTdU/TTUCGTAGTCCGCGACACTAGTAAGCCGGTATATCAACTGAGTG
])中列出的DNA序列(1μmol)溶解在1mL水中。准备了四个试管,并将DNA用水作为对照或用各种肼处理,如下所示:
条件1:将5μL DNA溶液与45μL水混合,并在40℃下加热1小时。
条件2:将5μL DNA溶液与35μL水和10μL水合肼(50%水溶液)混合,并将混合物在40℃下加热1小时。
条件3:将5μL DNA溶液与35μL Tris缓冲液(1M)和10μL水合肼(50%水溶液)混合,并将混合物在40℃下加热1小时。
条件4:将5μL DNA溶液与35μL水和10μL盐酸肼(50%水溶液)混合,并将混合物在40℃下加热1小时。然后将条件1-4的混合物冻干过夜并按质量分析。图53A、53B、53C和53D分别显示了具有SEQ ID NO:171中的序列的DNA在条件1、2、3和4下的质量分析。在各种肼处理后观察到完整的DNA。将SEQ ID NO:171中列出的DNA序列(1μmol)溶解在1mL水中。将10μLDNA溶液与10μL双-(4-三氟甲基吡唑)甲亚胺(150mM,DMSO)和80μL N-乙基吗啉缓冲液(0.2M,pH=8.0)混合,并将混合物在40℃下加热1小时。然后将混合物冻干过夜并按质量分析。在用双-(4-三氟甲基吡唑)甲亚胺处理后观察到完整的DNA(图54)。
实例5:使用示例性二杂环甲亚胺进行N端氨基酸(NTAA)官能化和消除的DNA编码 测定
本实例展示了ProteoCode测定,包含修饰(例如,官能化)和消除用二杂环甲亚胺处理的肽的N端氨基酸(NTAA)。还执行了结合剂与经修饰的NTAA的结合以及通过将信息从与结合剂相关联的编码标签转移到与肽相关联的记录标签从而生成延伸型记录标签来进行编码,如图55A所示。使用识别经修饰的NTAA(“mod”)的结合剂(苯丙氨酸(F)和亮氨酸(L)结合剂)的池来进行结合和编码。
Figure BDA0003324885590002091
将用DNA记录标签标记的肽固定在基底上(肽序列如SEQ ID NO:152-167、172-173中所示)。执行至多四个消除循环,然后进行结合和编码。例如,用示例性二杂环甲亚胺作为NTAA官能化试剂来处理肽。对于官能化处理,将测定珠与150μL的15mM二-(4-三氟甲基-吡唑-1-基)甲亚胺、200mM MOPS、pH7.6、50%DMA一起在40℃下孵育30分钟。用200μLPBST将珠子洗涤3次。官能化后,将测定珠用150μL的7%盐酸肼/PBS(pH 7.0)在40℃下处理30分钟。在PBST洗涤3次后,通过将测定珠与150μL的1M磷酸铵(pH 6.0)一起在95℃下孵育30分钟来进行消除处理。然后用200μL PBST将珠子洗涤3次。在任何肼处理和消除处理之前进行将F和L-结合剂与官能化的NTAA(4-三氟甲基吡唑-1-基碳脒基)-肽)结合和编码的第一个循环(F-编码,图55B的顶部图片;L-编码,图55B的底部图片)。在经过一个、两个、三个或四个消除循环后在官能化后进行F和L-结合剂的结合/编码,用于后续循环,如图所示。
在完成结合、编码和描述的官能化和消除循环后,将延伸型记录标签用衔接子序列封端,进行PCR扩增,并通过下一代测序(NGS)进行分析。图55B显示了使用mod-F-结合剂和mod-L结合剂检测对于具有指示的N端的5个残基的肽的化学循环依赖性编码效率。示出了九个含F和L的肽的数据,其中F或L残基逐步通过肽的前5个位置。随着每个连续残基被消除,N端修饰的F或L残基暴露在珠子上的肽之一上,并由对应的mod-F或mod-L结合剂检测,并伴随有DNA编码。如图所示,如编码水平升高所示,观察到经修饰的NTAA的官能化和结合。还观察到,在消除暴露F或L残基的其它残基后,每个结合剂在适当的循环中检测到对应的经修饰残基,因此实现了消除。总之,观察到官能化(NTF)后F-结合剂和L-结合剂编码的增加并检测到消除(NTE),这证明了示例性二杂环甲亚胺在编码测定中用于消除NTAA并作为由所示示例性结合剂识别的修饰的用途。
实例6:通过脯氨酸亚氨基肽酶(PIP)从表面锚定肽上切割N端脯氨酸残基。
本实例描述了使用示例性氨基酸切割酶、脯氨酸亚氨基肽酶(PIP;例如,分类在MEROPS家族S33.001或S33.008中,或UniProt登录号P46547或P42786中)从表面锚定肽进行的N端脯氨酸切割的评估。
一般而言,测试的方法包含将具有叠氮化物官能团的N端脯氨酸肽缀合至DBCO修饰的琼脂糖珠,并用PIP处理表面锚定肽以消除脯氨酸氨基酸残基。为了分析PIP切割的完成情况,使用胰蛋白酶进一步从表面切割所得肽并通过LCMS进行分析。
为了将肽锚定到表面,将1mM叠氮肽在60℃下在100mM HEPES(pH 7.5)中用DBCO珠处理过夜。在反应后,将珠子用100mM NaOH洗涤三次,然后用PBST洗涤三次。将珠子重新悬浮在PBST中。测试的示例性叠氮肽在SEQ ID NO:174-190中列出,其中脯氨酸位于N端P1位置,并且K(N3)是叠氮基赖氨酸。将表面锚定的N端脯氨酸肽在50mM HEPES(pH 8)中用4μMPIP处理。将混合物在25℃下加热22小时。反应后,将珠子用50mM HEPES(pH 8)洗涤并重新悬浮在100μL 50mM HEPES(pH 8)中。将珠子用0.4ug测序级胰蛋白酶在37℃下消化1小时。将含有肽片段的胰蛋白酶消化混合物的上清液注入LCMS进行分析。
为了分析LCMS数据,确定了对应于含有P2-P6位置残基的肽片段和含有P7-p10位置残基的肽片段的原始质量计数。例如,在SEQ ID NO:174,PAAEIRGDVRGGK(N3)中提供的肽中,粗体部分和下划线部分表示所分析的两个肽片段。确定两个片段的比率(Rexp)并与标准品(Rstd)进行比较以确定切割产率。如表7所示,观察到N端脯氨酸从含有P2-P6位置残基的肽片段切割,如通过所述N端脯氨酸肽的切割产率所确定的。在一些情况下,除了用化学试剂(例如二杂环甲亚胺)处理之外,还可以使用酶来切割特定的氨基酸。在一些情况下,酶可以是PIP或其片段的功能性同系物。
Figure BDA0003324885590002111
实例7:通过焦谷氨酸氨肽酶(pGAP)从表面锚定肽上切割N端焦谷氨酸。
本实例描述了使用示例性酶焦谷氨酸氨肽酶(pGAP,UniProtKB登录号:A0A5C0XQC7)从表面锚定肽进行的N端焦谷氨酸切割的评估。
在一些情况下,当用二杂环甲亚胺处理时,具有P2谷氨酰胺的肽可以经历消除步骤。在此步骤期间,P1氨基酸被消除,并且新形成的N端谷氨酰胺可能环化形成焦谷氨酸。在一个实例中,焦谷氨酸可能在消除反应条件下与1M磷酸铵(pH 6.0)在95℃下反应30分钟形成。由于焦谷氨酸的环状结构,在一些情况下,可能令人期望的是,使用酶促方法(如通过用pGAP进行处理)从N端去除焦谷氨酸。
为了评估pGAP切割的活性,如实例6中所述将具有叠氮化物官能团的肽缀合至DBCO修饰的琼脂糖珠,并用pGAP酶处理表面锚定的N端焦谷氨酸肽以消除焦谷氨酸氨基酸残基。为了分析pGAP切割的完成情况,使用胰蛋白酶进一步从表面切割所得肽并通过LCMS进行分析。
在SEQ ID NO:191-207中列出的示例性肽序列上测试了焦谷氨酸从N端焦谷氨酸肽的切割,其中焦谷氨酸(pQ)位于N端P1位置。将表面锚定的N端焦谷氨酸肽在1x pGAP缓冲液(50mM磷酸钠缓冲液(pH 7.0)、10mM DTT、1mM EDTA)中用250uU pfu pGAP在80℃下处理2小时。然后将珠子在滤板上用50mM HEPES(pH 8)洗涤并重新悬浮在100μL50mM HEPES(pH8)中。将珠子用0.4ug测序级胰蛋白酶在37℃下消化1小时。为了分析,将胰蛋白酶消化混合物的上清液注入LCMS中。使用基本上如实例6中所述的方法,通过分析对应于含有P2-P6位置残基的肽片段和含有P7-P10位置残基的肽片段的原始质量计数来分析数据。例如,在SEQID NO:191,
Figure BDA0003324885590002122
中提供的肽中,粗体部分和下划线部分表示所分析的两个肽片段。如表8所示,观察到N端焦谷氨酸肽从含有P2-P6位置残基的肽片段切割,如通过N端焦谷氨酸肽的切割产率所确定的。
Figure BDA0003324885590002121
还研究了来自除嗜热古细菌(Pyrococcus furiosus)之外的生物体的pGAP酶的同系物。例如,将来自荧光假单胞菌(Pseudomonas fluorescens)(UniProtKB登录号:A0A1B3DC66)、霍氏格里蒙菌(Grimontia hollisae)(UniProtKB登录号:A0A377J8L7)、微白黄链霉菌(Streptomyces albidoflavus)(UniProtKB登录号:A0A4R8P3K1)和草甸山岗单胞菌(Ollimonas pratensis)(UniProtKB登录号:A0A127R4R6)的pGAP在大肠杆菌中表达,并用镍树脂柱纯化。将表面锚定的N端焦谷氨酸肽在1x pGAP缓冲液中用来自各种生物体的1μM pGAP在40℃下处理2小时。然后如上所述对珠子进行消化和分析。下表9中列出了不同pGAP对N端焦谷氨酸的切割产率。在一些情况下,pGAP或其功能性同系物或片段可用于处理多肽。
Figure BDA0003324885590002131
本公开的范围不旨在限于特定的所公开实施例,所述实施例是为了说明本发明的各个方面而提供的。根据本文的描述和教导,对所描述的组合物和方法的各种修改将变得显而易见。在不脱离本公开的真实范围和精神的情况下,普通技术人员可以实践此类改变,并且此类改变旨在落入本发明的范围内。根据以上详细描述和普通从业者的技术水平,可以对实施例做出这些和其它改变。一般而言,在以下权利要求书中,所使用的术语不应当被解释为将权利要求书限制于本说明书和权利要求书中所公开的特定实施例,而是应当被解释为包含所有可能的实施例连同此类权利要求有权获得的等效物的整个范围。因此,权利要求书并不受实例的限制。
参考文献:
Harlow,Ed和David Lane.《使用抗体(Using Antibodies.)》冷泉港,纽约:冷泉港实验室出版社(Cold Spring Harbor Laboratory Press),1999。
Hennessy BT,Lu Y,Gonzalez-Angulo AM等人“反相蛋白质阵列在非显微解剖人类乳腺癌功能蛋白质组研究中的实用性的技术评估(A Technical Assessment of theUtility of Reverse Phase Protein Arrays for the Study of the FunctionalProteome in Non-microdissected Human Breast Cancers.)”《临床蛋白质组学(Clinical proteomics.)》2010;6(4):129-151。
Davidson,G.R.,S.D.Armstrong和R.J.Beynon(2011).“N端的位置蛋白质组学作为蛋白质组简化的一种手段(Positional proteomics at the N-terminus as a meansof proteome simplification.)”《分子生物学方法》753:229-242。
Zhang,L.,Luo,S.和Zhang,B.(2016).“凝集素微阵列用于评估治疗性蛋白质的糖基化的用途(The use of lectin microarray for assessing glycosylation oftherapeutic proteins.)”《mAbs》8,524–535。
Akbani,R.,K.F.Becker,N.Carragher,T.Goldstein,L.de Koning,U.Korf,L.Liotta,G.B.Mills,S.S.Nishizuka,M.Pawlak,E.F.Petricoin,3rd,H.B.Pollard,B.Serrels和J.Zhu(2014).“实现反相蛋白质阵列在临床、翻译和基础研究中的前景:研讨会报告:RPPA(反相蛋白质阵列)协会(Realizing the promise of reverse phaseprotein arrays for clinical,translational,and basic research:a workshopreport:the RPPA(Reverse Phase Protein Array)society.)”《分子细胞蛋白质组学(Mol Cell Proteomics)》13(7):1625-1643。
Amini,S.,D.Pushkarev,L.Christiansen,E.Kostem,T.Royce,C.Turk,N.Pignatelli,A.Adey,J.O.Kitzman,K.Vijayan,M.Ronaghi,J.Shendure,K.L.Gunderson和F.J.Steemers(2014).“通过保持邻接的转座和组合索引进行单倍型解析的全基因组测序(Haplotype-resolved whole-genome sequencing by contiguity-preservingtransposition and combinatorial indexing.)”《自然遗传学(Nat Genet)》46(12):1343-1349。
Assadi,M.,J.Lamerz,T.Jarutat,A.Farfsing,H.Paul,B.Gierke,E.Breitinger,M.F.Templin,L.Essioux,S.Arbogast,M.Venturi,M.Pawlak,H.Langen和T.Schindler(2013).“使用反相蛋白质阵列对福尔马林固定和石蜡包埋的组织样品进行多重蛋白质分析(Multiple protein analysis of formalin-fixed and paraffin-embedded tissuesamples with reverse phase protein arrays.)”《分子细胞蛋白质组学》12(9):2615-2622。
Bailey,J.M.和J.E.Shively(1990).“羧基末端测序:C端肽基乙内酰脲的形成和水解(Carboxy-terminal sequencing:formation and hydrolysis of C-terminalpeptidylthiohydantoins.)”《生物化学》29(12):3145-3156。
Bandara,H.M.,D.P.Kennedy,E.Akin,C.D.Incarvito和S.C.Burdette(2009).“使用ZinCleav-1光致释放Zn2+:一种基于硝基苄基的笼状复合物(Photoinduced release ofZn2+ with ZinCleav-1:a nitrobenzyl-based caged complex.)”《无机化学(InorgChem)》48(17):8445-8455。
Bandara,H.M.,T.P.Walsh和S.C.Burdette(2011).“受TPEN启发的第二代Zn2+光笼:表征和洞察ZinCleav螯合剂的解笼锁量子产率(A Second-generation photocage forZn2+ inspired by TPEN:characterization and insight into the uncaging quantumyields of ZinCleav chelators.)”《化学(Chemistry)》17(14):3932-3941。
Basle,E.,N.Joubert和M.Pucheault(2010).“内源性氨基酸的蛋白质化学修饰(Protein chemical modification on endogenous amino acids.)”《化学与生物(Chem Biol)》17(3):213-227。
Bilgicer,B.,S.W.Thomas,3rd,B.F.Shaw,G.K.Kaufman,V.M.Krishnamurthy,L.A.Estroff,J.Yang和G.M.Whitesides(2009).“一种从生物体液中纯化二价活性单克隆IgG抗体的非色谱方法(A non-chromatographic method for the purification of abivalently active monoclonal IgG antibody from biological fluids.)”《美国化学 学会杂志》131(26):9361-9367。
Bochman,M.L.,K.Paeschke和V.A.Zakian(2012).“DNA二级结构:G-四链体结构的稳定性和功能(DNA secondary structures:stability and function of G-quadruplexstructures.)”《遗传学自然评论(Nat Rev Genet)》13(11):770-780。
Borgo,B.和J.J.Havranek(2014).“酶特异性的基序指导重新设计(Motif-directed redesign of enzyme specificity.)”《蛋白质科学(Protein Sci)》23(3):312-320。
Brouzes,E.,M.Medkova,N.Savenelli,D.Marran,M.Twardowski,J.B.Hutchison,J.M.Rothberg,D.R.Link,N.Perrimon和M.L.Samuels(2009).“用于单细胞高通量筛选的液滴微流体技术(Droplet microfluidic technology for single-cell high-throughputscreening.)”《美国国家科学院院刊》106(34):14195-14200。
Brudno,Y.,M.E.Birnbaum,R.E.Kleiner和D.R.Liu(2010).“肽核酸的体外翻译、选择和扩增系统(An in vitro translation,selection and amplification system forpeptide nucleic acids.)”《自然化学生物学(Nat Chem Biol)》6(2):148-155。
Calcagno,S.和C.D.Klein(2016).“通过锌活化的恶性疟原虫甲硫氨酸氨肽酶1b对N端甲硫氨酸进行加工(N-Terminal methionine processing by the zinc-activatedPlasmodium falciparum methionine aminopeptidase 1b.)”《应用微生物学和生物技术 (Appl Microbiol Biotechnol.)》
Cao,Y.,G.K.Nguyen,J.P.Tam和C.F.Liu(2015).“Butelase介导的蛋白质硫酯合成及其在串联化学酶促连接中的应用(Butelase-mediated synthesis of proteinthioesters and its application for tandem chemoenzymatic ligation.)”《化学通讯 (Camb)》51(97):17289-17292。
Carty,R.P.和C.H.Hirs(1968).“用4-磺酰氧基-2-硝基氟苯修饰牛胰核糖核酸酶A。经修饰蛋白的分离和鉴定(Modification of bovine pancreatic ribonuclease Awith 4-sulfonyloxy-2-nitrofluorobenzene.Isolation and identification ofmodified proteins.)”《生物化学杂志》243(20):5244-5253。
Chan,A.I.,L.M.McGregor和D.R.Liu(2015).“DNA编码化学文库的新选择方法(Novel selection methods for DNA-encoded chemical libraries.)”《化学生物学的最 新观点》26:55-61。
Chang,L.,D.M.Rissin,D.R.Fournier,T.Piech,P.P.Patel,D.H.Wilson和D.C.Duffy(2012).“单分子酶联免疫吸附测定:理论考虑(Single molecule enzyme-linked immunosorbent assays:heoretical considerations.)”《免疫学方法杂志(J Immunol Methods)》378(1-2):102-115。
Chang,Y.Y.和C.H.Hsu(2015).“用于来自硫磺叶菌的Nα-乙酰转移酶Ard1的基底特异性乙酰化的结构基础(Structural basis for substrate-specific acetylation ofNalpha-acetyltransferase Ard1 from Sulfolobus solfataricus.)”《科学报告》5:8673。
Christoforou,A.,C.M.Mulvey,L.M.Breckels,A.Geladaki,T.Hurrell,P.C.Hayward,T.Naake,L.Gatto,R.Viner,A.Martinez Arias和K.S.Lilley(2016).“小鼠多能干细胞空间蛋白质组的草图(A draft map of the mouse pluripotent stem cellspatial proteome.)”《自然通讯》7:8992。
Creighton,C.J.和S.Huang(2015).“信号通路中的反相蛋白质阵列:数据集成的观点(Reverse phase protein arrays in signaling pathways:a data integrationperspective.)”《药物设计开发与治疗(Drug DesDevel Ther)》9:3519-3527。
Crosetto,N.,M.Bienko和A.van Oudenaarden(2015).“空间解析转录组学及其它(Spatially resolved transcriptomics and beyond.)”《遗传学自然评论》16(1):57-66。
Cusanovich,D.A.,R.Daza,A.Adey,H.A.Pliner,L.Christiansen,K.L.Gunderson,F.J.Steemers,C.Trapnell和J.Shendure(2015).“通过组合细胞索引对染色质可及性进行多重单细胞分析(Multiplex single-cell profiling of chromatinaccessibility by combinatorial cellular indexing.)”《科学》348(6237):910-914。
Derrington,I.M.,T.Z.Butler,M.D.Collins,E.Manrao,M.Pavlenok,M.Niederweis和J.H.Gundlach(2010).“使用MspA进行纳米孔DNA测序(Nanopore DNAsequencing with MspA.)”《美国国家科学院院刊》107(37):16060-16065。
El-Sagheer,A.H.,V.V.Cheong和T.Brown(2011).“通过狄尔斯-阿尔德反应快速化学连接寡核苷酸(Rapid chemical ligation of oligonucleotides by the Diels-Alder reaction.)”《有机与生物分子化学(Org Biomol Chem)》9(1):232-235。
El-Sagheer,A.H.,A.P.Sanzone,R.Gao,A.Tavassoli和T.Brown(2011).“可被DNA聚合酶读取并在大肠杆菌中发挥作用的生物相容性人工DNA接头(Biocompatibleartificial DNA linker that is read through by DNA polymerases and isfunctional in Escherichia coli.)”《美国国家科学院院刊》108(28):11338-11343。
Emili,A.,M.McLaughlin,K.Zagorovsky,J.B.Olsen,W.C.W.Chan和S.S.Sidhu(2017).“蛋白质测序方法和试剂(Protein Sequencing Method and Reagents.)”USPTO.USA,多伦多大学管理委员会(The Governing Council of University ofToronto).9,566,335B1。
Erde,J.,R.R.Loo和J.A.Loo(2014).“增强型FASP(eFASP)可增加定量蛋白质组学实验的蛋白质组覆盖率和样品回收率(Enhanced FASP(eFASP)to increase proteomecoverage and sample recovery for quantitative proteomic experiments.)”《蛋白组 学研究杂志(J Proteome Res)》13(4):1885-1895。
Farries,T.C.,A.Harris,A.D.Auffret和A.Aitken(1991).“用酰基肽水解酶从封闭肽中去除N-乙酰基。酶的稳定性及其在蛋白质测序中的应用(Removal of N-acetylgroups from blocked peptides with acylpeptide hydrolase.Stabilization of theenzyme and its application to protein sequencing.)”《欧洲生物化学杂志》196(3):679-685。
Feist,P.和A.B.Hummon(2015).“蛋白质组学挑战:用于生物样品中微克级蛋白质分析的样品制备技术(Proteomic challenges:sample preparation techniques formicrogram-quantity protein analysis from biological samples.)”《国际分子科学学 报(Int J Mol Sci)》16(2):3537-3563。
Friedmann,D.R.和R.Marmorstein(2013).“非组蛋白乙酰转移酶的结构和机制(Structure and mechanism of non-histone protein acetyltransferase enzymes.)”《欧洲生化学会联合会杂志》280(22):5570-5581。
Frokjaer,S.和D.E.Otzen(2005).“蛋白质药物稳定性:调配物挑战(Proteindrug stability:a formulation challenge.)”《自然评论:药物发现(Nat Rev Drug Discov)》4(4):298-306。
Fujii,Y.,M.Kaneko,M.Neyazaki,T.Nogi,Y.Kato和J.Takagi(2014).“PA标签:一种多功能蛋白质标签化系统,其使用针对源自人足蛋白的十二肽的超高亲和力抗体(PAtag:a versatile protein tagging system using a super high affinity antibodyagainst a dodecapeptide derived from human podoplanin.)”《蛋白质表达与纯化》95:240-247。
Gebauer,M.和A.Skerra(2012).“基于脂质运载蛋白支架的抗运载蛋白小工程化结合蛋白(Anticalins small engineered binding proteins based on the lipocalinscaffold.)”《酶学方法》503:157-188。
Gerry,N.P.,N.E.Witowski,J.Day,R.P.Hammer,G.Barany和F.Barany(1999).“用于多重检测低丰度点突变的通用DNA微阵列方法(Universal DNA microarray method formultiplex detection of low abundance point mutations.)”《分子生物学杂志》292(2):251-262。
Gogliettino,M.,M.Balestrieri,E.Cocca,S.Mucerino,M.Rossi,M.Petrillo,E.Mazzella和G.Palmieri(2012).“来自硫磺叶菌的新型酰基肽水解酶的鉴定和表征:结构和功能的见解(Identification and characterisation of a novel acylpeptidehydrolase from Sulfolobus solfataricus:structural and functional insights.)”《公共科学图书馆综合》7(5):e37921。
Gogliettino,M.,A.Riccio,M.Balestrieri,E.Cocca,A.Facchiano,T.M.D'Arco,C.Tesoro,M.Rossi和G.Palmieri(2014).“一类新型双功能酰基肽水解酶——在南极鱼Trematomus bernacchii的抗氧化防御系统中的潜在作用(A novel class ofbifunctional acylpeptide hydrolases--potential role in the antioxidantdefense systems of the Antarctic fish Trematomus bernacchii.)”《欧洲生化学会联 合会杂志》281(1):401-415。
Granvogl,B.,M.Ploscher和L.A.Eichacker(2007).“用于基于质谱的蛋白质组学的凝胶内消化样品制备(Sample preparation by in-gel digestion for massspectrometry-based proteomics.)”《分析和生物分析化学》389(4):991-1002。
Gu,L.,C.Li,J.Aach,D.E.Hill,M.Vidal和G.M.Church(2014).“DNA条形码蛋白质的多重单分子相互作用分析(Multiplex single-molecule interaction profiling ofDNA-barcoded proteins.)”《自然》515(7528):554-557。
Gunderson,K.L.,X.C.Huang,M.S.Morris,R.J.Lipshutz,D.J.Lockhart和M.S.Chee(1998).“通过连接到完整的n聚体DNA阵列而进行突变检测(Mutation detectionby ligation to complete n-mer DNA arrays.)”《基因组研究》8(11):1142-1153。
Gunderson,K.L.,F.J.Steemers,J.S.Fisher和R.Rigatti(2016).“用于分析细胞组分的方法和组合物(Methods and Compositions for Analyzing CellularComponents.)”WIPO,因美纳公司(Illumina,Inc.)。
Gunderson,K.L.,F.J.Steemers,J.S.Fisher和R.Rigatti(2016).“用于分析细胞组分的方法和组合物”,因美纳公司。
Guo,H.,W.Liu,Z.Ju,P.Tamboli,E.Jonasch,G.B.Mills,Y.Lu,B.T.Hennessy和D.Tsavachidou(2012).“从福尔马林固定、石蜡包埋的组织中提取蛋白质以用于反相蛋白质阵列的有效程序(An efficient procedure for protein extraction from formalin-fixed,paraffin-embedded tissues for reverse phase protein arrays.)”《蛋白组科 学(Proteome Sci)》10(1):56。
Hamada,Y.(2016).“通过N-酰胺化进行的肽的新型N端降解反应(A novel N-terminal degradation reaction of peptides via N-amidination.)”《生物有机化学与 医药化学快报(Bioorg Med Chem Lett)》26(7):1690-1695。
Hermanson,G.(2013).《生物缀合技术(Bioconjugation Techniques)》,学术出版社(Academic Press)。
Hernandez-Moreno,A.V.,F.Villasenor,E.Medina-Rivero,N.O.Perez,L.F.Flores-Ortiz,G.Saab-Rincon和G.Luna-Barcenas(2014).“重组亮氨酸氨肽酶的动力学和构象稳定性研究(Kinetics and conformational stability studies ofrecombinant leucine aminopeptidase.)”《国际生物大分子杂志(Int J Biol Macromol)》64:306-312。
Hori,M.,H.Fukano和Y.Suzuki(2007).“通过乳液PCR均匀扩增多个DNA(Uniformamplification of multiple DNAs by emulsion PCR.)”《生物化学与生物物理研究通讯 (Biochem Biophys Res Commun)》352(2):323-328。
Horisawa,K.(2014).“使用点击化学对生物分子进行特异性和定量标记(Specific and quantitative labeling of biomolecules using click chemistry.)”《生理学前沿(Front Physiol)》5:457。
Hoshika,S.,F.Chen,N.A.Leal和S.A.Benner(2010).“人工遗传系统:PCR和多重PCR中的自我回避DNA(Artificial genetic systems:self-avoiding DNA in PCR andmultiplexed PCR.)”《应用化学国际英文版》49(32):5554-5557。
Hughes,A.J.,D.P.Spelke,Z.Xu,C.C.Kang,D.V.Schaffer和A.E.Herr(2014).“单细胞蛋白质印迹(Single-cell western blotting.)”《自然方法》11(7):749-755。
Hughes,C.S.,S.Foehr,D.A.Garfield,E.E.Furlong,L.M.Steinmetz和J.Krijgsveld(2014).“使用顺磁珠技术进行超灵敏蛋白质组分析(Ultrasensitiveproteome analysis using paramagnetic bead technology.)”《分子系统生物学(Mol Syst Biol)》10:757。
Hughes,T.V.等人,《有机化学杂志(J.Org.Chem.)》63,401-402(1998)。
Kang,C.C.,K.A.Yamauchi,J.Vlassakis,E.Sinkala,T.A.Duncombe和A.E.Herr(2016).“单细胞解析蛋白质印迹(Single cell-resolution western blotting.)”《自然 实验手册(Nat Protoc)》11(8):1508-1530。
Kang,T.S.,L.Wang,C.N.Sarkissian,A.Gamez,C.R.Scriver和R.C.Stevens(2010).“将可注射的蛋白质治疗剂转化为口服形式:用于苯丙酮尿症的苯丙氨酸解氨酶(Converting an injectable protein therapeutic into an oral form:phenylalanineammonia lyase for phenylketonuria.)”《分子遗传学与代谢(Mol Genet Metab)》99(1):4-9。
Katritzky等人,《有机化学杂志》65,8080-8082(2000)。
Katritzky,A.R.和B.V.Rogovoy(2005).“鸟苷酸化剂的最新进展(Recentdevelopments in guanylating agents.)”ARKIVOC iv(为纪念Nikolai Zefirov教授而出版):49-87。
Klein,A.M.,L.Mazutis,I.Akartuna,N.Tallapragada,A.Veres,V.Li,L.Peshkin,D.A.Weitz和M.W.Kirschner(2015).“应用于胚胎干细胞的单细胞转录组学的液滴条形编码(Droplet barcoding for single-cell transcriptomics applied toembryonic stem cells.)”《细胞》161(5):1187-1201。
Knall,A.C.,M.Hollauf和C.Slugovc(2014).“降冰片烯和3,6-二吡啶-2-基-1,2,4,5-四嗪的逆电子需求狄尔斯-阿尔德反应(iEDDA)的动力学研究(Kinetic studies ofinverse electron demand Diels-Alder reactions(iEDDA)of norbornenes and 3,6-dipyridin-2-yl-1,2,4,5-tetrazine.)”《四面体快报(Tetrahedron Lett)》55(34):4763-4766。
Kozlov,I.A.,E.R.Thomsen,S.E.Munchel,P.Villegas,P.Capek,A.J.Gower,S.J.Pond,E.Chudin和M.S.Chee(2012).“用于蛋白质组学的高度可延伸的基于肽的测定系统(A highly scalable peptide-based assay system for proteomics.)”《公共科学图 书馆综合》7(6):e37441。
Le,Z.G.,Z.C.Chen,Y.Hu和Q.G.Zheng(2005).“离子液体中的有机反应:离子液体促进二取代和三取代的硫脲衍生物的有效合成(Organic Reactions in Ionic Liquids:Ionic Liquid-promoted Efficient Synthesis of Disubstituted and TrisubstitutedThioureas Derivatives.)”《中国化学快报(Chinese Chemical Letters)》16(2):201-204。
Lesch,V.,A.Heuer,V.A.Tatsis,C.Holm和J.Smiatek(2015).“在水性离子液体存在下的肽:作为变性剂或保护剂的可调共溶质?(Peptides in the presence of aqueousionic liquids:tunable co-solutes as denaturants or protectants?)”《物理化学化 学物理(Phys Chem ChemPhys)》17(39):26049-26053。
Li,G.,Y.Liu,Y.Liu,L.Chen,S.Wu,Y.Liu和X.Li(2013).“通过DNA模板化学对小分子结合蛋白进行光亲和标记(Photoaffinity labeling of small-molecule-bindingproteins by DNA-templated chemistry.)”《应用化学国际英文版》52(36):9544-9549。
Litovchick,A.,M.A.Clark和A.D.Keefe(2014).“使用寡核苷酸标签的化学连接对小分子文库进行DNA编码的通用策略(Universal strategies for the DNA-encodingof libraries of small molecules using the chemical ligation ofoligonucleotide tags.)”《人工DNA PNA XNA》5(1):e27896。
Liu,R.,J.E.Barrick,J.W.Szostak和R.W.Roberts(2000).“用于体外蛋白质选择的RNA-蛋白质融合物的优化合成(Optimized synthesis of RNA-protein fusions forin vitro protein selection.)”《酶学方法》318:268-293。
Liu,Y.和S.Liang(2001).“使用三苄基甲硅烷基异硫氰酸酯对肽和蛋白质进行化学羧基末端序列分析(Chemical carboxyl-terminal sequence analysis of peptidesand proteins using tribenzylsilyl isothiocyanate.)”《蛋白质化学杂志(J Protein Chem)》20(7):535-541。
Lundblad,R.L.(2014).《用于蛋白质修饰的化学试剂(Chemical reagents for protein modification.)》Boca Raton,CRC出版社/泰勒和弗朗西斯集团(CRC Press/Taylor&Francis Group.)。
Mashaghi,S.和A.M.van Oijen(2015).“微滴反应的外部控制(External controlof reactions in microdroplets.)”《科学报告》5:11837。
McCormick,R.M.(1989).“用于DNA纯化的固相萃取程序(A solid-phaseextraction procedure for DNA purification.)”《分析生物化学》181(1):66-74。
Mendoza,V.L.和R.W.Vachet(2009).“通过氨基酸特异性共价标记和质谱法探测蛋白质结构(Probing protein structure by amino acid-specific covalent labelingand mass spectrometry.)”《质谱综述(Mass Spectrom Rev)》28(5):785-815。
Mikami,T.,T.Takao,K.Yanagi和H.Nakazawa(2012).“肽的N(α)选择性乙酰化(N(alpha)Selective Acetylation of Peptides.)”《质谱(东京)(Mass Spectrom(Tokyo))》1(2):A0010。
Moghaddam,M.J.,L.de Campo,N.Kirby和C.J.Drummond(2012).“螯合DTPA两亲物:离子可调自组装结构和钆复合物(Chelating DTPA amphiphiles:ion-tunable self-assembly structures and gadolinium complexes.)”《物理化学化学物理》14(37):12854-12862。
Mukherjee,S.,M.Ura,R.J.Hoey和A.A.Kossiakoff(2015).“基于钙调素-钙调素结合肽相互作用的超高亲和力和可逆性的新型多功能固定标签(A New VersatileImmobilization Tag Based on the Ultra High Affinity and Reversibility of theCalmodulin-Calmodulin Binding Peptide Interaction.)”《分子生物学杂志》427(16):2707-2725。
Namimatsu,S.,M.Ghazizadeh和Y.Sugisaki(2005).“用柠康酸酐和热逆转福尔马林固定的影响:一种通用的抗原修复方法(Reversing the effects of formalinfixation with citraconic anhydride and heat:a universal antigen retrievalmethod.)”《组织化学与细胞化学杂志(JHistochem Cytochem)》53(1):3-11。
Nguyen,G.K.,Y.Cao,W.Wang,C.F.Liu和J.P.Tam(2015).“使用Butelase 1和Thiodepsipeptide对肽和蛋白质进行位点特异性N端标记(Site-Specific N-TerminalLabeling of Peptides and Proteins using Butelase 1and Thiodepsipeptide.)”《应 用化学国际英文版》54(52):15694-15698。
Nguyen,G.K.,S.Wang,Y.Qiu,X.Hemu,Y.Lian和J.P.Tam(2014).“Butelase 1是一种Asx特异性连接酶,可实现肽大环化和合成(Butelase 1is an Asx-specific ligaseenabling peptide macrocyclization and synthesis.)”《自然化学生物学》10(9):732-738。
Nirantar,S.R.和F.J.Ghadessy(2011).“编码相互作用蛋白质对的基因的隔室化连接(Compartmentalized linkage of genes encoding interacting protein pairs.)”《蛋白质组学(Proteomics)》11(7):1335-1339。
Nishizuka,S.S.和G.B.Mills(2016).“使用反相蛋白质阵列发现整合癌症生物标志物的新时代(New era of integrated cancer biomarker discovery using reverse-phase protein arrays.)”《药物代谢和药代动力学(Drug Metab Pharmacokinet)》31(1):35-45。
Ohkubo,A.,R.Kasuya,K.Sakamoto,K.Miyata,H.Taguchi,H.Nagasawa,T.Tsukahara,T.Watanobe,Y.Maki,K.Seio和M.Sekine(2008).“受保护的DNA探针能够在不去除碱基保护基团的情况下进行强杂交(Protected DNA Probes'capable of stronghybridization without removal of base protecting groups.)”《核酸研究》36(6):1952-1964。
Ojha,B.,A.K.Singh,M.D.Adhikari,A.Ramesh和G.Das(2010).“2-烷基丙二酸:两亲螯合剂和金属酶的有效抑制剂(amphiphilic chelator and a potent inhibitor ofmetalloenzyme.)”《物理化学杂志B版(J Phys Chem B)》114(33):10835-10842。
Peng,X.,H.Li和M.Seidman(2010).“模板介导的点击反应:PNA-DNA、PNA-PNA(或肽)连接和单核苷酸鉴别(PNA-DNA,PNA-PNA(or Peptide)Ligation,and SingleNucleotide Discrimination.)”《欧洲有机化学杂志》2010(22):4194-4197。
Perbandt,M.,O.Bruns,M.Vallazza,T.Lamla,C.Betzel和V.A.Erdmann(2007).“与模拟生物素结合基序的新型高亲和力肽标签复合的链霉亲和素的高分辨率结构(Highresolution structure of streptavidin in complex with a novel high affinitypeptide tag mimicking the biotin binding motif.)”《蛋白质》67(4):1147-1153。
Rauth,S.,D.Hinz,M.Borger,M.Uhrig,M.Mayhaus,M.Riemenschneider和A.Skerra(2016).“具有针对阿尔茨海默β-淀粉样肽的聚集封闭活性的高亲和力抗运载蛋白(High-affinity Anticalins with aggregation-blocking activity directedagainst the Alzheimer beta-amyloid peptide.)”《生物化学杂志》473(11):1563-1578。
Ray,A.和B.Norden(2000).“肽核酸(PNA):其医疗和生物技术应用以及对未来的承诺(Peptide nucleic acid(PNA):its medical and biotechnical applications andpromise for the future.)”《美国实验生物学会联合会杂志(FASEB J)》14(9):1041-1060。
Ren等人,《标记化合物和放射性药物杂志(J.Label Compd.Radiopharm.)》53,239-268(2010)。
Riley,N.M.,A.S.Hebert和J.J.Coon(2016).“蛋白质组学进入快通道(Proteomics Moves into the Fast Lane.)”《细胞系统(Cell Syst)》2(3):142-143。
Roloff,A.,S.Ficht,C.Dose和O.Seitz(2014).“官能化肽核酸的DNA模板天然化学连接:一种用于核酸单碱基特异性检测的多功能工具(DNA-templated native chemicalligation of functionalized peptide nucleic acids:a versatile tool for singlebase-specific detection of nucleic acids.)”《分子生物学方法》1050:131-141。
Roloff,A.和O.Seitz(2013).“在PCR期间,反应性在DNA模板化天然化学PNA连接中的作用(The role of reactivity in DNA templated native chemical PNA ligationduring PCR.)”《生物有机化学与医药化学(Bioorg Med Chem)》21(12):3458-3464。
Sakurai,K.,T.M.Snyder和D.R.Liu(2005).“DNA模板化的官能团转化使使用小分子试剂的序列程序化合成成为可能(DNA-templated functional group transformationsenable sequence-programmed synthesis using small-molecule reagents.)”《美国化 学学会杂志》127(6):1660-1661。
Schneider,K.和B.T.Chait(1995).“含有7-脱氮-鸟苷和7-脱氮-腺苷的核酸的稳定性提高可以使通过基质辅助激光解吸质谱法进行快速DNA测序成为可能(Increasedstability of nucleic acids containing 7-deaza-guanosine and 7-deaza-adenosinemay enable rapid DNA sequencing by matrix-assisted laser desorption massspectrometry.)”《核酸研究》23(9):1570-1575。
Selvaraj,R.和J.M.Fox(2013).“反式环辛烯——一种用于生物正交标记的稳定、贪婪的亲二烯体(trans-Cyclooctene--a stable,voracious dienophile forbioorthogonal labeling.)”《化学生物学的最新观点》17(5):753-760。
Sharma,A.K.,A.D.Kent和J.M.Heemstra(2012).“使用分裂适配子连接的酶联小分子检测(Enzyme-linked small-molecule detection using split aptamerligation.)”《分析物化学》84(14):6104-6109。
Shembekar,N.,C.Chaipan,R.Utharala和C.A.Merten(2016).“基于液滴的微流体在药物发现、转录组学和高通量分子遗传学中的应用(Droplet-based microfluidics indrug discovery,transcriptomics and high-throughput molecular genetics.)”《芯片 实验室(Lab Chip)》16(8):1314-1331。
Shenoy,N.R.,J.E.Shively和J.M.Bailey(1993).“C端测序研究:用于合成肽基乙内酰脲的新试剂(Studies in C-terminal sequencing:new reagents for thesynthesis of peptidylthiohydantoins.)”《蛋白质化学杂志》12(2):195-205。
Shim,J.U.,R.T.Ranasinghe,C.A.Smith,S.M.Ibrahim,F.Hollfelder,W.T.Huck,D.Klenerman和C.Abell(2013).“用于单分子计数免疫测定的飞升微流体液滴的超快速生成(Ultrarapid generation of femtoliter microfluidic droplets for single-molecule-counting immunoassays.)”《ACS纳米(ACS Nano)》7(7):5955-5964。
Shim,J.W.,Q.Tan和L.Q.Gu(2009).“在纳米孔纳米腔中折叠和展开G-四链体适配子的单分子检测(Single-molecule detection of folding and unfolding of the G-quadruplex aptamer in a nanopore nanocavity.)”《核酸研究》37(3):972-982。
Sidoli,S.,Z.F.Yuan,S.Lin,K.Karch,X.Wang,N.Bhanu,A.M.Arnaudo,L.M.Britton,X.J.Cao,M.Gonzales-Cope,Y.Han,S.Liu,R.C.Molden,S.Wein,L.Afjehi-Sadat和B.A.Garcia(2015).“在自下而上的蛋白质组学PTM分析中使用非常规疏水性酸酐进行组蛋白衍生的缺点(Drawbacks in the use of unconventional hydrophobicanhydrides for histone derivatization in bottom-up proteomics PTM analysis.)”《蛋白质组学》15(9):1459-1469。
Sletten,E.M.和C.R.Bertozzi(2009).“生物正交化学:在功能的海洋中寻找选择性(fishing for selectivity in a sea of functionality.)”《应用化学国际英文版》48(38):6974-6998。
Spencer,S.J.,M.V.Tamminen,S.P.Preheim,M.T.Guo,A.W.Briggs,I.L.Brito,A.W.D,L.K.Pitkanen,F.Vigneault,M.P.Juhani Virta和E.J.Alm(2016).“通过epicPCR对单个细胞进行大规模并行测序将功能基因与系统发育标记联系起来(Massively parallelsequencing of single cells by epicPCR links functional genes withphylogenetic markers.)”《国际微生物生态学学会杂志(ISMEJ)》10(2):427-436。
Spicer,C.D.和B.G.Davis(2014).“选择性化学蛋白质修饰(Selective chemicalprotein modification.)”《自然通讯》5:4740。
Spiropulos,N.G.和J.M.Heemstra(2012).“DNA邻近连接中的模板效应允许在生物流体中使用非生物正交化学(Templating effect in DNA proximity ligationenables use of non-bioorthogonal chemistry in biological fluids.)”《人工DNA PNA XNA》3(3):123-128。
Switzar,L.,M.Giera和W.M.Niessen(2013).“蛋白质消化:可用技术和最新发展的概述(Protein digestion:an overview of the available techniques and recentdevelopments.)”《蛋白组学研究杂志》12(3):1067-1077。
Tamminen,M.V.和M.P.Virta(2015).“来自混合微生物细胞群的单个微生物基因组的基于单一基因的区分(Single gene-based distinction of individual microbialgenomes from a mixed population of microbial cells.)”《微生物学前沿》6:195。
Tessler,L.(2011).《数字蛋白质分析:通过单分子检测的蛋白质诊断和蛋白质组 学技术(Digital Protein Analysis:Technologies for Protein Diagnostics and Proteomics through Single-Molecule Detection.)》Ph.D.,华盛顿大学圣路易斯分校(WASHINGTON UNIVERSITY IN ST.LOUIS)。
Tyson,J.和J.A.Armour(2012).“使用乳液单倍型融合PCR确定结构复杂区域的单倍型(Determination of haplotypes at structurally complex regions usingemulsion haplotype fusion PCR.)”《BMC基因组学(BMC Genomics)》13:693。
Vauquelin,G.和S.J.Charlton(2013).“探索亲合力:了解二价和异二价配体在功能亲和力和靶标停留时间方面的潜在收益(Exploring avidity:understanding thepotential gains in functional affinity and target residence time of bivalentand heterobivalent ligands.)”《英国药理学杂志(Br J Pharmacol)》168(8):1771-1785。
Veggiani,G.,T.Nakamura,M.D.Brenner,R.V.Gayet,J.Yan,C.V.Robinson和M.Howarth(2016).“使用双肽强力胶构建的可编程聚蛋白(Programmable polyproteamsbuilt using twin peptide superglues.)”《美国国家科学院院刊》113(5):1202-1207。
Wang,D.,S.Fang和R.M.Wohlhueter(2009).“用异硫氰酸酯类似物对肽进行N端衍生化,其促进埃德曼型切割并提高电喷雾电离串联质谱分析的灵敏度(N-terminalderivatization of peptides with isothiocyanate analogues promoting Edman-typecleavage and enhancing sensitivity in electrospray ionization tandem massspectrometry analysis.)”《分析物化学》81(5):1893-1900。
Williams,B.A.和J.C.Chaput(2010).“使用异双功能交联剂合成肽-寡核苷酸缀合物(Synthesis of peptide-oligonucleotide conjugates using aheterobifunctional crosslinker.)”《核酸化学实验室指南(Curr Protoc Nucleic Acid Chem)》第4章:Unit4 41。
Wu,H.和N.K.Devaraj(2016).“逆电子需求狄尔斯-阿尔德生物正交反应(InverseElectron-Demand Diels-Alder Bioorthogonal Reactions.)”《当代化学专题杂志(Top Curr Chem(J))》374(1):3。
Xiong,A.S.,R.H.Peng,J.Zhuang,F.Gao,Y.Li,Z.M.Cheng和Q.H.Yao(2008).“化学基因合成:策略、软件、纠错和应用程序(Chemical gene synthesis:strategies,softwares,error corrections,and applications.)”《欧洲微生物学会联合会微生物学 评论》32(3):522-540。
Yao,Y.,M.Docter,J.van Ginkel,D.de Ridder和C.Joo(2015).“通过指纹识别的单分子蛋白质测序:计算评估(Single-molecule protein sequencing throughfingerprinting:computational assessment.)”《物理生物学(Phys Biol)》12(5):055003。
Zakeri,B.,J.O.Fierer,E.Celik,E.C.Chittock,U.Schwarz-Linek,V.T.Moy和M.Howarth(2012).“通过改造细菌粘附素,肽标签与蛋白质形成快速共价键(Peptide tagforming a rapid covalent bond to a protein,through engineering a bacterialadhesin.)”《美国国家科学院院刊》109(12):E690-697。
Zhang,L.,K.Zhang,S.Rauf,D.Dong,Y.Liu和J.Li(2016).“人类端粒序列与G-四链体配体相互作用的单分子分析(Single-Molecule Analysis of Human TelomereSequence Interactions with G-quadruplex Ligand.)”《分析物化学》88(8):4533-4540。
Zhou,H.,Z.Ning,A.E.Starr,M.Abu-Farha和D.Figeys(2012).“自上而下蛋白质组学的进展(Advancements in top-down proteomics.)”《分析物化学》84(2):720-734。
Zilionis,R.,J.Nainys,A.Veres,V.Savova,D.Zemmour,A.M.Klein和L.Mazutis(2017).“使用液滴微流体技术进行单细胞条形编码和测序(Single-cell barcoding andsequencing using droplet microfluidics.)”《自然实验手册》12(1):44-73。
Bachor等人,《分子多样性(Mol.Divers.)》2013,17,605-611。
Bader等人,《职业和环境卫生档案(Arch Occup Environ Healt)》,1994,65(6),411-414。
Barrett等人,《四面体快报》,1985,26(36),4375-4378。
Bentley等人,《生物化学杂志》1973(135),507-511。
Bentley等人,《生物化学杂志》1976(153),137-138。
Bhattacharjree等人,《化学科学杂志(J.Chem.Sci.)》2016,128(6):875-881。
Borgo等人,《蛋白质科学》2015,24(4),571-579。
Buckingham等人,《美国化学学会杂志》1970,92(19),5571-5579。
Chi等人,2015,《欧洲化学杂志(Chem.Eur.J.)》2015,21,10369-10378。
Fang等人,《肽科学(Peptide Science)》,2010,96(1),97-102。
Hamada,Y.,《生物有机与药物化学快报(Bioog.Med.Chem.Lett.)》2016,26,1690-1695。
Huo等人,《美国化学学会杂志》2007,139,9819-9822
Katritzky等人,《Arkivoc》2005,iv,49-87。
Krishna等人,《蛋白质科学》1992,1(5),582-589。
Kwon等人,《有机化学快报(Org.Lett.)》2014,16,6048-6051。
Martin等人,《有机金属(Organometallics.)》2006,34,1787-1801。
Musiol等人,《有机化学快报》,2001,3(15),2341-2344。
Proulx等人,《肽科学》,2016,106(5),726-736。
Rydberg等人,《毒物学化学研究(Chem.Res.Toxicol.)》,2002,15(4),570-581。
Sutton等人,《化学研究记述(Acc.Chem.Res.)》1987,20(10),357-364。
Tam等人,2007,《美国化学学会杂志》2007,129,12670-12671。
Tian等人,《美国化学学会杂志》,2016,138(43),第14234-14237页。
Tornqvist等人,《分析生物化学》1986,154,255-266
Vigneron等人,《美国国家科学院院刊》1996,93,9682-9686。
Wu等人,《美国化学学会杂志》2016,138(44),14554-14557
Xu等人,《有机金属》2015,34,1787-1801。
Yong等人,《有机化学杂志》1997,62,1540-1542。
Zhang等人,《有机化学快报》,2001,3(15),2341-2344。
Basten,D.E.,A.P.Moers,A.J.Ooyen和P.J.Schaap(2005).“黑曲霉脯氨酰氨肽酶的表征(Characterisation of Aspergillus niger prolyl aminopeptidase.)”《分子遗 传学与基因组学(Mol Genet Genomics)》272(6):673-679。
Bolumar,T.,Y.Sanz,M.C.Aristoy和F.Toldra(2003).“汉森德巴利酵母中精氨酰氨肽酶的纯化和性质(Purification and properties of an arginyl aminopeptidasefrom Debaryomyces hansenii.)”《国际食品微生物学杂志(Int J Food Microbiol)》86(1-2):141-151。
Chanalia,P.,D.Gandhi,P.Attri和S.Dhanda(2018).“来自益生菌L的低分子量脯氨酸亚氨基肽酶的提取、纯化和表征。植物用于肉嫩化(Extraction,purification andcharacterization of low molecular weight Proline iminopeptidase fromprobiotic L.plantarum for meat tenderization.)”《国际生物大分子杂志》109:651-663。
Kitazono,A.,T.Yoshimoto和D.Tsuru(1992).“来自凝结芽孢杆菌的脯氨酸亚氨基肽酶基因的克隆、测序和高表达(Cloning,sequencing,and high expression of theproline iminopeptidase gene from Bacillus coagulans.)”《细菌学杂志(J Bacteriol)》174(24):7919-7925。
Nakajima,Y.,K.Ito,M.Sakata,Y.Xu,K.Nakashima,F.Matsubara,S.Hatakeyama和T.Yoshimoto(2006).“粘质沙雷氏菌脯氨酰氨肽酶乙酰化羟脯氨酸活性位点异常的额外空间和高活性(Unusual extra space at the active site and high activity foracetylated hydroxyproline of prolyl aminopeptidase from Serratiamarcescens.)”《细菌学杂志》188(4):1599-1606。
WO2011/126903
WO 2012/101654
WO 2006/17409
EP2862856
序列表
<110> Encodia公司(Encodia, Inc.)
GUNDERSON, Kevin L.
HUANG, Fei
JAMES, Robert C.
MONFREGOLA, Luca
VERESPY III, Stephen
ZHOU, Eric C.
<120> 用于从多肽上切割N端氨基酸的方法和试剂
<130> 4614-2001440
<150> 62/841,171
<151> 2019-04-30
<160> 207
<170> PatentIn 3.5版
<210> 1
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_1
<400> 1
atgtctagca tgccg 15
<210> 2
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_2
<400> 2
ccgtgtcatg tggaa 15
<210> 3
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_3
<400> 3
taagccggta tatca 15
<210> 4
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_4
<400> 4
ttcgatatga cggaa 15
<210> 5
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_5
<400> 5
cgtatacgcg ttagg 15
<210> 6
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_6
<400> 6
aactgccgag attcc 15
<210> 7
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_7
<400> 7
tgatcttagc tgtgc 15
<210> 8
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_8
<400> 8
gagtcggtac cttga 15
<210> 9
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_9
<400> 9
ccgcttgtga tctgg 15
<210> 10
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_10
<400> 10
agatagcgta ccgga 15
<210> 11
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_11
<400> 11
tccaggctca tcatc 15
<210> 12
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_12
<400> 12
gagtactaga gccaa 15
<210> 13
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_13
<400> 13
gagcgtcaat aacgg 15
<210> 14
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_14
<400> 14
gcggtatcta cactg 15
<210> 15
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_15
<400> 15
cttctccgaa gagaa 15
<210> 16
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_16
<400> 16
tgaagcctgt gttaa 15
<210> 17
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_17
<400> 17
ctggatggtt gtcga 15
<210> 18
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_18
<400> 18
actgcacggt tccaa 15
<210> 19
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_19
<400> 19
cgagagatgg tcctt 15
<210> 20
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_20
<400> 20
tcttgagaga caaga 15
<210> 21
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_21
<400> 21
aattcgcact gtgtt 15
<210> 22
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_22
<400> 22
gtagtgccgc taaga 15
<210> 23
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_23
<400> 23
cctatagcac aatcc 15
<210> 24
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_24
<400> 24
atcaccgagg ttgga 15
<210> 25
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_25
<400> 25
gattcaacgg agaag 15
<210> 26
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_26
<400> 26
acgaacctcg cacca 15
<210> 27
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_27
<400> 27
aggacttcaa gaaga 15
<210> 28
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_28
<400> 28
ggttgaatcc tcgca 15
<210> 29
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_29
<400> 29
aaccaacctc tagcg 15
<210> 30
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_30
<400> 30
acgcgaatat ctaac 15
<210> 31
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_31
<400> 31
gttgagaatt acacc 15
<210> 32
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_32
<400> 32
ctctctctgt gaacc 15
<210> 33
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_33
<400> 33
gccatcagta agaga 15
<210> 34
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_34
<400> 34
gcaacgtgaa ttgag 15
<210> 35
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_35
<400> 35
ctaagtagag ccaca 15
<210> 36
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_36
<400> 36
tgtctgttgg aagcg 15
<210> 37
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_37
<400> 37
ttaatagaca gcgcg 15
<210> 38
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_38
<400> 38
cgacgctcta acaag 15
<210> 39
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_39
<400> 39
catggcttat tgaga 15
<210> 40
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_40
<400> 40
actaggtatg gccgg 15
<210> 41
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_41
<400> 41
gtcctcgtct atcct 15
<210> 42
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_42
<400> 42
taggattccg ttacc 15
<210> 43
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_43
<400> 43
tctgaccacc ggaag 15
<210> 44
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_44
<400> 44
agagtcacct cgtgg 15
<210> 45
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_45
<400> 45
ctgatgtagt cgaag 15
<210> 46
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_46
<400> 46
gtcggttgcg gatag 15
<210> 47
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_47
<400> 47
tcctcctcct aagaa 15
<210> 48
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_48
<400> 48
attcggtcca cttca 15
<210> 49
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_49
<400> 49
ccttacaggt ctgcg 15
<210> 50
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_50
<400> 50
gatcattggc caatt 15
<210> 51
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_51
<400> 51
ttcaaggctg agttg 15
<210> 52
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_52
<400> 52
tggctcgatt gaatc 15
<210> 53
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_53
<400> 53
gtaagccatc cgctc 15
<210> 54
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_54
<400> 54
acacatgcgt agaca 15
<210> 55
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_55
<400> 55
tgctatggat tcaag 15
<210> 56
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_56
<400> 56
ccacgaggct tagtt 15
<210> 57
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_57
<400> 57
ggccaactaa ggtgc 15
<210> 58
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_58
<400> 58
gcacctattc gacaa 15
<210> 59
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_59
<400> 59
tggacacgat cggct 15
<210> 60
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_60
<400> 60
ctataattcc aacgg 15
<210> 61
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_61
<400> 61
aacgtggtta gtaag 15
<210> 62
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_62
<400> 62
caaggaacga gtggc 15
<210> 63
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_63
<400> 63
caccagaacg gaaga 15
<210> 64
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_64
<400> 64
cgtacggtca agcaa 15
<210> 65
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_65
<400> 65
tcggtgacag gctaa 15
<210> 66
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_1 REV
<400> 66
cggcatgcta gacat 15
<210> 67
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_2 REV
<400> 67
ttccacatga cacgg 15
<210> 68
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_3 REV
<400> 68
tgatataccg gctta 15
<210> 69
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_4 REV
<400> 69
ttccgtcata tcgaa 15
<210> 70
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_5 REV
<400> 70
cctaacgcgt atacg 15
<210> 71
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_6 REV
<400> 71
ggaatctcgg cagtt 15
<210> 72
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_7 REV
<400> 72
gcacagctaa gatca 15
<210> 73
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_8 REV
<400> 73
tcaaggtacc gactc 15
<210> 74
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_9 REV
<400> 74
ccagatcaca agcgg 15
<210> 75
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_10 REV
<400> 75
tccggtacgc tatct 15
<210> 76
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_11 REV
<400> 76
gatgatgagc ctgga 15
<210> 77
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_12 REV
<400> 77
ttggctctag tactc 15
<210> 78
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_13 REV
<400> 78
ccgttattga cgctc 15
<210> 79
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_14 REV
<400> 79
cagtgtagat accgc 15
<210> 80
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_15 REV
<400> 80
ttctcttcgg agaag 15
<210> 81
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_16 REV
<400> 81
ttaacacagg cttca 15
<210> 82
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_17 REV
<400> 82
tcgacaacca tccag 15
<210> 83
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_18 REV
<400> 83
ttggaaccgt gcagt 15
<210> 84
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_19 REV
<400> 84
aaggaccatc tctcg 15
<210> 85
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_20 REV
<400> 85
tcttgtctct caaga 15
<210> 86
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_21 REV
<400> 86
aacacagtgc gaatt 15
<210> 87
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_22 REV
<400> 87
tcttagcggc actac 15
<210> 88
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_23 REV
<400> 88
ggattgtgct atagg 15
<210> 89
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_24 REV
<400> 89
tccaacctcg gtgat 15
<210> 90
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_25 REV
<400> 90
cttctccgtt gaatc 15
<210> 91
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_26 REV
<400> 91
tggtgcgagg ttcgt 15
<210> 92
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_27 REV
<400> 92
tcttcttgaa gtcct 15
<210> 93
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_28 REV
<400> 93
tgcgaggatt caacc 15
<210> 94
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_29 REV
<400> 94
cgctagaggt tggtt 15
<210> 95
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_30 REV
<400> 95
gttagatatt cgcgt 15
<210> 96
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_31 REV
<400> 96
ggtgtaattc tcaac 15
<210> 97
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_32 REV
<400> 97
ggttcacaga gagag 15
<210> 98
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_33 REV
<400> 98
tctcttactg atggc 15
<210> 99
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_34 REV
<400> 99
ctcaattcac gttgc 15
<210> 100
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_35 REV
<400> 100
tgtggctcta cttag 15
<210> 101
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_36 REV
<400> 101
cgcttccaac agaca 15
<210> 102
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_37 REV
<400> 102
cgcgctgtct attaa 15
<210> 103
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_38 REV
<400> 103
cttgttagag cgtcg 15
<210> 104
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_39 REV
<400> 104
tctcaataag ccatg 15
<210> 105
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_40 REV
<400> 105
ccggccatac ctagt 15
<210> 106
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_41 REV
<400> 106
aggatagacg aggac 15
<210> 107
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_42 REV
<400> 107
ggtaacggaa tccta 15
<210> 108
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_43 REV
<400> 108
cttccggtgg tcaga 15
<210> 109
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_44 REV
<400> 109
ccacgaggtg actct 15
<210> 110
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_45 REV
<400> 110
cttcgactac atcag 15
<210> 111
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_46 REV
<400> 111
ctatccgcaa ccgac 15
<210> 112
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_47 REV
<400> 112
ttcttaggag gagga 15
<210> 113
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_48 REV
<400> 113
tgaagtggac cgaat 15
<210> 114
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_49 REV
<400> 114
cgcagacctg taagg 15
<210> 115
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_50 REV
<400> 115
aattggccaa tgatc 15
<210> 116
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_51 REV
<400> 116
caactcagcc ttgaa 15
<210> 117
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_52 REV
<400> 117
gattcaatcg agcca 15
<210> 118
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_53 REV
<400> 118
gagcggatgg cttac 15
<210> 119
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_54 REV
<400> 119
tgtctacgca tgtgt 15
<210> 120
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_55 REV
<400> 120
cttgaatcca tagca 15
<210> 121
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_56 REV
<400> 121
aactaagcct cgtgg 15
<210> 122
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_57 REV
<400> 122
gcaccttagt tggcc 15
<210> 123
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_58 REV
<400> 123
ttgtcgaata ggtgc 15
<210> 124
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_59 REV
<400> 124
agccgatcgt gtcca 15
<210> 125
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_60 REV
<400> 125
ccgttggaat tatag 15
<210> 126
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_61 REV
<400> 126
cttactaacc acgtt 15
<210> 127
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_62 REV
<400> 127
gccactcgtt ccttg 15
<210> 128
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_63 REV
<400> 128
tcttccgttc tggtg 15
<210> 129
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_64 REV
<400> 129
ttgcttgacc gtacg 15
<210> 130
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸条形码 BC_65 REV
<400> 130
ttagcctgtc accga 15
<210> 131
<211> 16
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> 甲酰-蛋氨酸
<400> 131
Met Asp Val Glu Ala Trp Leu Gly Ala Arg Val Pro Leu Val Glu Thr
1 5 10 15
<210> 132
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<400> 132
Thr Glu Asn Leu Tyr Phe Gln Asn His Val
1 5 10
<210> 133
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸引物
<400> 133
aatgatacgg cgaccaccga 20
<210> 134
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸引物
<400> 134
caagcagaag acggcatacg agat 24
<210> 135
<211> 5
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸
<220>
<221> misc_feature
<222> (1)..(5)
<223> n = A、T、C或G
<400> 135
nnnnn 5
<210> 136
<211> 4
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸
<220>
<221> misc_feature
<222> (1)..(4)
<223> n = A、T、C或G
<400> 136
nnnn 4
<210> 137
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 示例性隔室标签
<220>
<221> misc_feature
<222> (1)..(10)
<223> n = A、T、C或G
<400> 137
nnnnnnnnnn 10
<210> 138
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 连接酶肽基序
<400> 138
Cys Gly Ser Asn Val His
1 5
<210> 139
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 连接酶肽基序
<220>
<221> MISC_FEATURE
<222> (1)..(1)
<223> xaa =任何氨基酸
<400> 139
Xaa Cys Gly Ser His Val
1 5
<210> 140
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 接头
<400> 140
Gly Gly Gly Gly Ser
1 5
<210> 141
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> TEV蛋白酶共有序列
<400> 141
Glu Asn Leu Tyr Phe Gln Ser
1 5
<210> 142
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<400> 142
Gly Arg Phe Ser Gly Ile Tyr
1 5
<210> 143
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<400> 143
Ala Ala Leu Ala Tyr
1 5
<210> 144
<211> 8
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (8)..(8)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 144
Phe Gly Ala Ala Leu Ala Trp Lys
1 5
<210> 145
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<400> 145
Trp Thr Gln Ile Phe Gly Ala
1 5
<210> 146
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 消除后的肽
<400> 146
Thr Gln Ile Phe Gly Ala
1 5
<210> 147
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 消除后的肽
<220>
<221> MISC_FEATURE
<222> (7)..(7)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 147
Gly Ala Ala Leu Ala Trp Lys
1 5
<210> 148
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> 消除后的肽
<400> 148
Ala Leu Ala Tyr
1
<210> 149
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 消除后的肽
<400> 149
Arg Phe Ser Gly Ile Tyr
1 5
<210> 150
<211> 8
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (8)..(8)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 150
Phe His Ala Ala Leu Ala Trp Lys
1 5
<210> 151
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 消除后的肽
<220>
<221> MISC_FEATURE
<222> (7)..(7)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 151
His Ala Ala Leu Ala Trp Lys
1 5
<210> 152
<211> 22
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (22)..(22)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 152
Tyr Ala Glu Ala Leu Ala Glu Ser Ala Phe Ser Gly Val Ala Arg Gly
1 5 10 15
Asp Val Arg Gly Gly Lys
20
<210> 153
<211> 21
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (21)..(21)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 153
Ala Glu Ala Leu Ala Glu Ser Ala Phe Ser Gly Val Ala Arg Gly Asp
1 5 10 15
Val Arg Gly Gly Lys
20
<210> 154
<211> 20
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (20)..(20)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 154
Glu Ala Leu Ala Glu Ser Ala Phe Ser Gly Val Ala Arg Gly Asp Val
1 5 10 15
Arg Gly Gly Lys
20
<210> 155
<211> 19
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (19)..(19)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 155
Ala Leu Ala Glu Ser Ala Phe Ser Gly Val Ala Arg Gly Asp Val Arg
1 5 10 15
Gly Gly Lys
<210> 156
<211> 18
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (18)..(18)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 156
Leu Ala Glu Ser Ala Phe Ser Gly Val Ala Arg Gly Asp Val Arg Gly
1 5 10 15
Gly Lys
<210> 157
<211> 17
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (17)..(17)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 157
Ala Glu Ser Ala Phe Ser Gly Val Ala Arg Gly Asp Val Arg Gly Gly
1 5 10 15
Lys
<210> 158
<211> 16
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (16)..(16)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 158
Glu Ser Ala Phe Ser Gly Val Ala Arg Gly Asp Val Arg Gly Gly Lys
1 5 10 15
<210> 159
<211> 15
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (15)..(15)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 159
Ser Ala Phe Ser Gly Val Ala Arg Gly Asp Val Arg Gly Gly Lys
1 5 10 15
<210> 160
<211> 14
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (14)..(14)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 160
Ala Phe Ser Gly Val Ala Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 161
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 161
Phe Ser Gly Val Ala Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 162
<211> 12
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (12)..(12)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 162
Ser Gly Val Ala Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 163
<211> 21
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (21)..(21)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 163
Leu Ala Gly Glu Leu Ala Gly Glu Leu Ala Gly Glu Ile Arg Gly Asp
1 5 10 15
Val Arg Gly Gly Lys
20
<210> 164
<211> 22
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (22)..(22)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 164
Glu Leu Ala Gly Glu Leu Ala Gly Glu Leu Ala Gly Glu Ile Arg Gly
1 5 10 15
Asp Val Arg Gly Gly Lys
20
<210> 165
<211> 23
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (23)..(23)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 165
Gly Glu Leu Ala Gly Glu Leu Ala Gly Glu Leu Ala Gly Glu Ile Arg
1 5 10 15
Gly Asp Val Arg Gly Gly Lys
20
<210> 166
<211> 24
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (24)..(24)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 166
Ala Gly Glu Leu Ala Gly Glu Leu Ala Gly Glu Leu Ala Gly Glu Ile
1 5 10 15
Arg Gly Asp Val Arg Gly Gly Lys
20
<210> 167
<211> 19
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (19)..(19)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 167
Phe Ala Phe Ala Gly Val Ala Met Pro Arg Gly Ala Glu Asp Val Arg
1 5 10 15
Gly Gly Lys
<210> 168
<211> 734
<212> DNA
<213> 人工序列
<220>
<223> 扩展型记录标签构建体
<400> 168
aatcacggta caagtcactc atccgtacgc tatctgagaa tcgtccagat ccggcatgct 60
agtatctggt gcagactacg attgttacag atcactcaga tgatgagcac agaaaatcgt 120
cgaatcttcc atcaccatcg aacagttacg attaatgtag tccgcacaat cgaatgtcta 180
acatgccgaa tcccggacgt ctccagcttc taaaccaaca gtagtcgcac aaatcattgt 240
acggtacaag atctaacgag agatgatcgg atctgaccac tttaaacact gattacgcag 300
actacgatta cgatttaaga atcctcgtcc ggtacaatca tagtccgcac aatcaaccgt 360
gtcatgtgaa gatcagatcg atctcgaata gcgtaccaga cagtgatctt gcaaatcgta 420
atgtgtccgc gccaatcgat agccatgaat cccagtcgat ctcccgcttg tgatctggcg 480
atcgccttgt accgtcgtac gatttgagat cacctcgtta actcaagcta aagatcgtcc 540
ggatcgcttt ataaacatct gattgcgcgg tacgattatc gtagtccgca catatcgaac 600
ctgttgaaga tccggatcgt ctctccaggc tcatcatccg agtgatcctt gcaaataatc 660
atgtccgcac catcaggtgt ctaacgcttg ccggatccga atcgatctct ccaggctcat 720
catcgaagtg atgt 734
<210> 169
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<400> 169
Cys Pro Val Gln Leu Trp Val Asp Ser Thr
1 5 10
<210> 170
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (3)..(3)
<223> xaa =任何氨基酸
<220>
<221> MISC_FEATURE
<222> (5)..(5)
<223> xaa =任何氨基酸
<220>
<221> MISC_FEATURE
<222> (7)..(7)
<223> xaa =任何氨基酸
<220>
<221> MISC_FEATURE
<222> (9)..(9)
<223> xaa =任何氨基酸
<400> 170
Cys Pro Xaa Gln Xaa Trp Xaa Asp Xaa Thr
1 5 10
<210> 171
<211> 48
<212> DNA
<213> 人工序列
<220>
<223> 合成寡核苷酸
<220>
<221> misc_feature
<222> (4)..(4)
<223> n =内部5-辛二炔基dU
<400> 171
tttnttucgt agtccgcgac actagtaagc cggtatatca actgagtg 48
<210> 172
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 172
Phe Leu Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 173
<211> 28
<212> PRT
<213> 人工序列
<220>
<223> 测定肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端去甲基化丙氨酸
<220>
<221> MISC_FEATURE
<222> (28)..(28)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 173
Ala Glu Ser Ala Glu Ser Ala Ser Arg Phe Ser Gly Val Ala Met Pro
1 5 10 15
Gly Ala Glu Asp Asp Val Val Gly Ser Gly Ser Lys
20 25
<210> 174
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 174
Pro Ala Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 175
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 175
Pro Asp Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 176
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 176
Pro Glu Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 177
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 177
Pro Phe Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 178
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 178
Pro Gly Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 179
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 179
Pro His Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 180
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 180
Pro Ile Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 181
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 181
Pro Leu Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 182
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 182
Pro Met Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 183
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 183
Pro Asn Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 184
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 184
Pro Pro Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 185
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 185
Pro Gln Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 186
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 186
Pro Ser Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 187
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 187
Pro Thr Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 188
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 188
Pro Val Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 189
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 189
Pro Trp Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 190
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 190
Pro Tyr Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 191
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端吡咯烷酮羧酸
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 191
Gln Ala Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 192
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端吡咯烷酮羧酸
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 192
Gln Asp Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 193
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端吡咯烷酮羧酸
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 193
Gln Glu Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 194
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端吡咯烷酮羧酸
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 194
Gln Phe Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 195
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端吡咯烷酮羧酸
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 195
Gln Gly Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 196
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端吡咯烷酮羧酸
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 196
Gln His Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 197
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端吡咯烷酮羧酸
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 197
Gln Ile Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 198
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端吡咯烷酮羧酸
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 198
Gln Leu Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 199
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端吡咯烷酮羧酸
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 199
Gln Met Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 200
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端吡咯烷酮羧酸
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 200
Gln Asn Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 201
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端吡咯烷酮羧酸
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 201
Gln Pro Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 202
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端吡咯烷酮羧酸
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 202
Gln Gln Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 203
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端吡咯烷酮羧酸
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 203
Gln Ser Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 204
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端吡咯烷酮羧酸
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 204
Gln Thr Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 205
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端吡咯烷酮羧酸
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 205
Gln Val Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 206
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端吡咯烷酮羧酸
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 206
Gln Trp Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10
<210> 207
<211> 13
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<220>
<221> MOD_RES
<222> (1)..(1)
<223> N端吡咯烷酮羧酸
<220>
<221> MISC_FEATURE
<222> (13)..(13)
<223> 在侧链上具有叠氮化物取代的C端赖氨酸
<400> 207
Gln Tyr Ala Glu Ile Arg Gly Asp Val Arg Gly Gly Lys
1 5 10

Claims (214)

1.一种从式(I)的肽类化合物上切割N端氨基酸残基的方法
Figure FDA0003324885580000011
其中所述方法包括:
(1)将所述肽类化合物转化为式(II)的胍基衍生物:
Figure FDA0003324885580000012
或其互变异构体;以及
(2)使所述胍基衍生物与合适的培养基接触以产生式(III)化合物
Figure FDA0003324885580000013
其中:
R1为R3、NHR3、-NHC(O)-R3或-NH-SO2-R3
R2为H或R4
R3为H或选自苯基、5元杂芳基、6元杂芳基、C1-3卤代烷基和C1-6烷基的任选取代的基团,
其中任选的取代基是选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2、CON(R')2、苯基、5元杂芳基、6元杂芳基和C1-6烷基的一个到三个成员,其中所述苯基、5元杂芳基、6元杂芳基和C1-6烷基各自任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代;
其中每个R'独立地为H或C1-3烷基;
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
并且其中位于同一氮上的两个R'或两个R"可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代;
RAA1和RAA2各自独立地为选择的氨基酸侧链;
并且将RAA1和/或RAA2连接到最近的N原子的虚线半圆表示RAA1和/或RAA2可以任选地环化到指定的N原子上;并且
Z为-COOH、CONH2或任选地附着至载剂或固体支持物的氨基酸或多肽。
2.根据权利要求1所述的方法,其中Z是多肽。
3.根据权利要求1或2所述的方法,其中Z是附着至固体支持物的多肽。
4.根据权利要求3所述的方法,其中将所述多肽直接或间接附着至所述固体支持物。
5.根据权利要求4所述的方法,其中将所述多肽共价附着至所述固体支持物。
6.根据权利要求1到5中任一项所述的方法,其中将所述多肽附着到核酸上,所述核酸任选地共价连接至固体支持物。
7.根据权利要求1到6中任一项所述的方法,其中所述固体支持物是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、PTFE膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。
8.根据权利要求7所述的方法,其中所述支持物是聚苯乙烯珠、聚丙烯酸酯珠、聚合物珠、琼脂糖珠、纤维素珠、葡聚糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠、受控孔珠、基于二氧化硅的珠子或其任何组合。
9.根据权利要求1到8中任一项所述的方法,其中将所述多肽直接或间接附着至载剂。
10.根据权利要求1到9中任一项所述的方法,其中式(I)化合物中的至少一个氨基酸侧链包括翻译后修饰。
11.根据权利要求1到10中任一项所述的方法,其中用于步骤(2)的所述合适的培养基具有大于约5的pH。
12.根据权利要求1到10中任一项所述的方法,其中用于步骤(2)的所述合适的培养基具有介于约5和14之间的pH,并且任选地包含氢氧化物、碳酸盐、磷酸盐、硫酸盐或胺。
13.根据权利要求1到10中任一项所述的方法,其中用于步骤(2)的所述合适的培养基具有介于约5和9之间的pH,并且任选地包含氢氧化物、碳酸盐、磷酸盐、硫酸盐或胺。
14.根据权利要求11所述的方法,其中所述合适的培养基包括氨或氨基化合物。
15.根据权利要求11到14中任一项所述的方法,其中所述培养基包括二杂亲核试剂。
16.根据权利要求1到15中任一项所述的方法,其中R2是H并且任选地R1不是H。
17.根据权利要求1到16中任一项所述的方法,其中R1是NH2
18.根据权利要求1到16中任一项所述的方法,其中R1为任选地被卤代、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'或CON(R')2取代的苯基,其中每个R'独立地为H或C1-3烷基,
并且其中位于同一氮上的两个R'可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代。
19.根据权利要求1所述的方法,其中所述式(I)化合物具有式(IA):
Figure FDA0003324885580000031
并且所述式(III)化合物是式(IIIA)化合物:
Figure FDA0003324885580000032
其中n是1到1000的整数;
RAA1和RAA2如权利要求1中所定义;
将RAA1和RAA2和RAA3连接相邻N原子的虚线半圆表示RAA1和/或RAA2和/或RAA3可以任选地环化到指定的相邻N原子上;并且
每个RAA3独立地选自氨基酸侧链,包含天然和非天然氨基酸;
并且Z'为OH或NH2,或者Z'为附着到载剂或固体支持物上的O或N。
20.根据权利要求1到14中任一项所述的方法,其中通过以下步骤来产生式(II)的胍基衍生物:将式(I)的肽类化合物转化为式(IV)化合物:
Figure FDA0003324885580000041
其中环A为含有至多三个N原子作为环成员的5-6元杂芳基环,其任选地稠合至额外的5-6元杂芳基或苯基环,并且其中所述5-6元杂芳基环和任选的额外的5-6元杂芳基或苯基环各自任选地被选自C1-4烷基、C1-4烷氧基、-OH、卤代、C1-4卤代烷基、NO2、COOR、CONR2、-SO2R*和-NR2的至多四个基团取代;
其中每个R独立地选自H和任选地被OH、OR*、-NH2和-NR*2取代的C1-3烷基;并且
每个R*为C1-3烷基,其任选地被OH、C1-2烷氧基、-NH2或CN取代;
或其盐;
其中位于同一氮上的两个R或两个R*可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代;
将RAA1和RAA2连接到最近的N原子的虚线半圆表示RAA1和/或RAA2任选地环化到指定的N原子上;
然后将此化合物与二杂亲核试剂接触,任选地在存在缓冲液的情况下,以产生式(II)化合物。
21.根据权利要求20所述的方法,其中通过以下步骤来将式(I)的肽类化合物转化为式(IV)化合物:使式(I)化合物与下式化合物接触:
Figure FDA0003324885580000042
其中:
R2为H或R4
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
环A为含有至多三个N原子作为环成员的5元杂芳基环,并且任选地稠合至额外的苯基或5-6元杂芳基环,并且其中所述5元杂芳基环和任选的稠合苯基或5-6元杂芳基环各自任选地被选自C1-4烷基、C1-4烷氧基、-OH、卤代、C1-4卤代烷基、NO2、COOR、CONR2、-SO2R*、-NR2、B(OR)2、Bpin(硼酰频哪醇酯)、苯基和5-6元杂芳基的一个或两个基团取代;
其中每个R独立地选自H和任选地被OH、OR*、-NH2、-NHR*或-NR*2取代的C1-3烷基;并且
每个R*为C1-3烷基,其任选地被OH、氧代、C1-2烷氧基或CN取代;
其中位于同一N上的两个R、或两个R"、或两个R*可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基和CN的一个或两个基团取代;
以形成式(IV)化合物。
22.根据权利要求20或21所述的方法,其中环A选自:
Figure FDA0003324885580000051
Figure FDA0003324885580000052
以及
Figure FDA0003324885580000053
其中:
每个Rx、Ry和Rz独立地选自H、卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#、C(O)N(R#)2,并且苯基任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代,
并且位于环的相邻原子上的两个Rx、Ry或Rz可以任选地一起形成稠合至所述环的苯基、5元杂芳基或6元杂芳基,并且所述稠合的苯基、5元杂芳基或6元杂芳基可以任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代;
其中每个R#独立地为H或C1-2烷基;并且其中位于同一氮上的两个R#可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代;
或其盐。
23.根据权利要求22所述的方法,其中环A选自:
Figure FDA0003324885580000061
Figure FDA0003324885580000071
以及
Figure FDA0003324885580000072
24.根据权利要求1所述的方法,其中通过以下步骤来产生所述式(II)化合物:使式(I)化合物与式R3-NCS的异硫氰酸酯接触以形成下式的硫脲化合物
Figure FDA0003324885580000073
或其盐;其中
R3为H或选自苯基、5元杂芳基、6元杂芳基、C1-3卤代烷基和C1-6烷基的任选取代的基团,
其中任选的取代基是选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2、CON(R')2、苯基、5元杂芳基、6元杂芳基和C1-6烷基的一个到三个成员,其中所述苯基、5元杂芳基、6元杂芳基和C1-6烷基各自任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代;
其中每个R'独立地为H或C1-3烷基;
将RAA1和RAA2连接到最近的N原子的虚线半圆表示RAA1和/或RAA2可以任选地环化到指定的N原子上;
然后使所述硫脲化合物与式R2-NH2的胺化合物接触;
以产生式(II)化合物。
25.根据权利要求24所述的方法,其中R3为任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代的苯基,
其中每个R'独立地为H或C1-3烷基,并且其中位于同一氮上的两个R'可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代。
26.根据权利要求20到25中任一项所述的方法,其中步骤(2)中的所述合适的培养基包括NH3或式(C1-6)烷基-NH2的胺。
27.根据权利要求26所述的方法,其中步骤(2)包括在包括氢氧化铵的混合物中加热式(II)化合物。
28.根据权利要求20到25中任一项所述的方法,其中步骤(2)中的所述合适的培养基包括二杂亲核试剂。
29.根据权利要求28所述的方法,其中所述二杂亲核试剂选自:
Figure FDA0003324885580000081
30.根据权利要求1到29中任一项所述的方法,其中RAA1和RAA2各自独立地选自H和任选地被独立地选自-OR5、-N(R5)2、-SR5、-SeR5、-COOR5、CON(R5)2、-NR5-C(=NR5)-N(R5)2、苯基、咪唑基和吲哚基的一个或两个基团取代的C1-6烷基,其中苯基、咪唑基和吲哚基各自任选地被卤代、C1-3烷基、C1-3卤代烷基、-OH、C1-3烷氧基、CN、COOR5或CON(R5)2取代;
每个R5独立地选自H和C1-2烷基,并且其中位于同一氮上的两个R5可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代。
31.根据权利要求1到30中任一项所述的方法,其中每个RAA1和RAA2独立地选自蛋白质氨基酸的侧链,任选地包含一个或多个翻译后修饰。
32.一种下式化合物:
Figure FDA0003324885580000091
其中:
R2为H或R4
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
环A和环B各自独立地为含有至多三个N原子作为环成员的5元杂芳基环,并且任选地稠合至额外的苯基或5-6元杂芳基环,并且其中所述5元杂芳基环和任选的稠合苯基或5-6元杂芳基环各自任选地被选自C1-4烷基、C1-4烷氧基、-OH、卤代、C1-4卤代烷基、NO2、COOR、CONR2、-SO2R*、-NR2、苯基和5-6元杂芳基的一个或两个基团取代;
其中每个R独立地选自H和任选地被OH、OR*、-NH2、-NHR*或-NR*2取代的C1-3烷基;并且
每个R*为C1-3烷基,其任选地被OH、氧代、C1-2烷氧基或CN取代;
其中位于同一N上的两个R、或两个R"、或两个R*可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
条件是环A和环B并非都是未经取代的咪唑,并且环A和环B并非都是未经取代的苯并三唑;
或其盐。
33.根据权利要求32所述的化合物,其中R2是H。
34.根据权利要求32或33所述的化合物,其中环A和环B相同。
35.根据权利要求32到34中任一项所述的化合物,其中每个5-6元杂芳基环独立地选择并且含有选自N、O和S的1或2个杂原子作为环成员。
36.根据权利要求32到35中任一项所述的化合物,其中环A和环B选自:
Figure FDA0003324885580000101
Figure FDA0003324885580000102
以及
Figure FDA0003324885580000103
其中:
每个Rx、Ry和Rz独立地选自H、卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#、C(O)N(R#)2,并且苯基任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代,
并且位于环的相邻原子上的两个Rx、Ry或Rz可以任选地一起形成稠合至所述环的苯基、5元杂芳基或6元杂芳基,并且所述稠合的苯基、5元杂芳基或6元杂芳基可以任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代;
其中每个R#独立地为H或C1-2烷基;并且其中位于同一氮上的两个R#可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代;
或其盐。
37.根据权利要求36所述的化合物,其中环A和环B相同并且选自:
Figure FDA0003324885580000111
Figure FDA0003324885580000112
以及
Figure FDA0003324885580000113
38.根据权利要求32所述的化合物,其选自以下:
Figure FDA0003324885580000121
39.一种式(II)化合物:
Figure FDA0003324885580000122
或其互变异构体,
其中:
R1为R3、NHR3、-NHC(O)-R3或-NH-SO2-R3
R2为H或R4
R3为H或选自苯基、5元杂芳基、6元杂芳基、C1-3卤代烷基和C1-6烷基的任选取代的基团,
其中任选的取代基是选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2、CON(R')2、苯基、5元杂芳基、6元杂芳基和C1-6烷基的一个到三个成员,其中所述苯基、5元杂芳基、6元杂芳基和C1-6烷基各自任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代;
其中每个R'独立地为H或C1-3烷基;
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
其中位于同一N上的两个R'或两个R"可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
RAA1和RAA2各自独立地选自H和任选地被独立地选自-OR5、-N(R5)2、-SR5、-SeR5、-COOR5、CON(R5)2、-NR5-C(=NR5)-N(R5)2、苯基、咪唑基和吲哚基的一个或两个基团取代的C1-6烷基,其中苯基、咪唑基和吲哚基各自任选地被卤代、C1-3烷基、C1-3卤代烷基、-OH、C1-3烷氧基、CN、COOR5或CON(R5)2取代;
每个R5独立地选自H和C1-2烷基;
并且Z为-COOH、CONH2或任选地附着至载剂或表面的氨基酸或多肽;或其盐。
40.根据权利要求39所述的化合物,其中R1是NH2
41.根据权利要求39所述的化合物,其中R1是R3,并且R3任选地不是H。
42.根据权利要求39到41中任一项所述的化合物,其中R2是H。
43.根据权利要求39到42中任一项所述的化合物,其中Z是附着至固体支持物的多肽。
44.根据权利要求43所述的化合物,其中所述多肽直接或间接附着至所述固体支持物。
45.根据权利要求39到44中任一项所述的化合物,其中所述多肽附着到核酸上,所述核酸任选地共价附着至固体支持物。
46.根据权利要求44或45所述的化合物,其中所述固体支持物是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、PTFE膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。
47.根据权利要求46所述的化合物,其中所述支持物是聚苯乙烯珠、聚丙烯酸酯珠、聚合物珠、琼脂糖珠、纤维素珠、葡聚糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠、受控孔珠、基于二氧化硅的珠子或其任何组合。
48.根据权利要求39到47中任一项所述的化合物,其在8或低于8的pH下分离。
49.一种式(IV)化合物:
Figure FDA0003324885580000141
其中:R2为H或R4
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
其中位于同一N上的两个R"可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
环A为含有至多三个N原子作为环成员的5元杂芳基环,并且任选地稠合至额外的苯基或5-6元杂芳基环,并且其中所述5元杂芳基环和任选的稠合苯基或5-6元杂芳基环各自任选地被选自C1-4烷基、C1-4烷氧基、-OH、卤代、C1-4卤代烷基、NO2、COOR、CONR2、-SO2R*、-NR2、苯基和5-6元杂芳基的一个或两个基团取代;
其中每个R独立地选自H和任选地被OH、OR*、-NH2、-NHR*或-NR*2取代的C1-3烷基;并且
每个R*为C1-3烷基,其任选地被OH、氧代、C1-2烷氧基或CN取代;
其中位于同一N上的两个R、或两个R"、或两个R*可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
RAA1和RAA2各自独立地为选择的氨基酸侧链;
并且将RAA1和/或RAA2连接到最近的N原子的虚线半圆表示RAA1和/或RAA2可以任选地环化到指定的N原子上;并且
Z为-COOH、CONH2或任选地附着至载剂或固体支持物的氨基酸或多肽;
或其盐。
50.根据权利要求49所述的化合物,其中R2是H。
51.根据权利要求49或50所述的化合物,其中环A选自:
Figure FDA0003324885580000151
Figure FDA0003324885580000152
以及
Figure FDA0003324885580000153
其中:
每个Rx、Ry和Rz独立地选自H、卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#、C(O)N(R#)2,并且苯基任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代,
并且位于环的相邻原子上的两个Rx、Ry或Rz可以任选地一起形成稠合至所述环的苯基、5元杂芳基或6元杂芳基,并且所述稠合的苯基、5元杂芳基或6元杂芳基可以任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代;
其中每个R#独立地为H或C1-2烷基;并且其中位于同一氮上的两个R#可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代;
或其盐。
52.根据权利要求49到51中任一项所述的化合物,其中环A选自:
Figure FDA0003324885580000161
Figure FDA0003324885580000162
以及
Figure FDA0003324885580000163
53.根据权利要求49到52中任一项所述的化合物,其中Z是附着至固体支持物的氨基酸或多肽。
54.根据权利要求53所述的化合物,其中Z是直接或间接附着至固体支持物的多肽。
55.根据权利要求54所述的化合物,其中所述多肽共价附着至所述固体支持物。
56.根据权利要求49到55中任一项所述的化合物,其中Z是附着到核酸上的氨基酸或多肽,所述核酸任选地共价附着至固体支持物。
57.根据权利要求49到56中任一项所述的化合物,其中所述固体支持物是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、PTFE膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。
58.根据权利要求57所述的化合物,其中所述支持物是聚苯乙烯珠、聚丙烯酸酯珠、聚合物珠、琼脂糖珠、纤维素珠、葡聚糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠、受控孔珠、基于二氧化硅的珠子或其任何组合。
59.根据权利要求49到51中任一项所述的化合物,其中所述式(IV)化合物是下式化合物:
Figure FDA0003324885580000171
其中n是1到1000的整数;
RAA1、RAA2和每个RAA3独立地选自天然蛋白质氨基酸的侧链,任选地包括翻译后修饰;并且
Z'为OH或NH2或直接或间接连接至载剂或固体支持物的氨基酸。
60.根据权利要求49到59中任一项所述的化合物,其包括至少一个具有化学或生物修饰的氨基酸侧链。
61.一种鉴定式(I)的肽类化合物的N端氨基酸残基的方法:
Figure FDA0003324885580000172
其中所述方法包括:
(1)将式(I)化合物转化为式(II)的胍基衍生物或其互变异构体:
Figure FDA0003324885580000173
其中:
R1为R3、NHR3、-NHC(O)-R3或-NH-SO2-R3
R2为H或R4
R3为H或选自苯基、5元杂芳基、6元杂芳基、C1-3卤代烷基和C1-6烷基的任选取代的基团,
其中任选的取代基是选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2、CON(R')2、苯基、5元杂芳基、6元杂芳基和C1-6烷基的一个到三个成员,其中所述苯基、5元杂芳基、6元杂芳基和C1-6烷基各自任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代;
其中每个R'独立地为H或C1-3烷基;
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
其中位于同一N上的两个R'或两个R"可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
RAA1和RAA2各自独立地为选择的氨基酸侧链;
并且将RAA1和/或RAA2连接到最近的N原子的虚线半圆表示RAA1和/或RAA2可以任选地环化到指定的N原子上;并且
并且Z为-COOH、CONH2或任选地附着至载剂或表面的氨基酸或多肽;
(2)使胍基衍生物与合适的培养基接触以诱导消除经修饰的N端氨基酸并产生至少一种选自以下的切割产物:
Figure FDA0003324885580000181
Figure FDA0003324885580000191
(当R1分别为NHR3、-NHC(O)-R3或-NH-SO2-R3时)
或其互变异构体;以及
(3)确定所述至少一种切割产物的结构或身份以鉴定所述式(I)化合物的N端氨基酸。
62.根据权利要求61所述的方法,其中RAA1和RAA2各自独立地选自H和任选地被独立地选自-OR5、-N(R5)2、-SR5、-SeR5、-COOR5、CON(R5)2、-NR5-C(=NR5)-N(R5)2、苯基、咪唑基和吲哚基的一个或两个基团取代的C1-6烷基,其中苯基、咪唑基和吲哚基各自任选地被卤代、C1-3烷基、C1-3卤代烷基、-OH、C1-3烷氧基、CN、COOR5或CON(R5)2取代;并且
每个R5独立地选自H和C1-2烷基。
63.根据权利要求61或62所述的方法,其中RAA1是所述蛋白质氨基酸之一的侧链。
64.根据权利要求61到63中任一项所述的方法,其中RAA2是所述蛋白质氨基酸之一的侧链。
65.根据权利要求61到64中任一项所述的方法,其中R1为任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代的苯基,
其中每个R'独立地为H或C1-3烷基。
66.根据权利要求61到64中任一项所述的方法,其中R1是NH2
67.根据权利要求61到66中任一项所述的方法,其中R2是H。
68.根据权利要求61到67中任一项所述的方法,其中Z是附着至固体支持物的氨基酸或多肽。
69.根据权利要求61到68中任一项所述的方法,其中所述固体支持物是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、PTFE膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。
70.根据权利要求61到69中任一项所述的方法,其中将所述式(I)化合物转化为式(II)化合物的步骤包括使所述式(I)化合物与式(AA)化合物接触:
Figure FDA0003324885580000201
其中:
R2为H或R4
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
其中位于同一N上的两个R"可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;环A为含有至多三个N原子作为环成员的5元杂芳基环,并且任选地稠合至额外的苯基或5-6元杂芳基环,并且其中所述5元杂芳基环和任选的稠合苯基或5-6元杂芳基环各自任选地被选自C1-4烷基、C1-4烷氧基、-OH、卤代、C1-4卤代烷基、NO2、COOR、CONR2、-SO2R*、-NR2、苯基和5-6元杂芳基的一个或两个基团取代;
其中每个R独立地选自H和任选地被OH、OR*、-NH2、-NHR*或-NR*2取代的C1-3烷基;并且
每个R*为C1-3烷基,其任选地被OH、氧代、C1-2烷氧基或CN取代;
其中位于同一N上的两个R、或两个R"、或两个R*可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
以形成式(IV)化合物
Figure FDA0003324885580000211
然后使式(IV)化合物与二杂亲核试剂接触以形成所述式(II)化合物和根据权利要求59所述的切割产物中的至少一种。
71.根据权利要求70所述的方法,其中所述二杂亲核试剂选自
Figure FDA0003324885580000212
72.根据权利要求61到71中任一项所述的方法,其中将所述式(I)化合物转化为式(II)化合物的步骤包括使所述式(I)化合物与式R3-NCS的化合物接触以形成下式的硫脲
Figure FDA0003324885580000213
或其盐,其中:
R3为H或选自苯基、5元杂芳基、6元杂芳基、C1-3卤代烷基和C1-6烷基的任选取代的基团,
其中任选的取代基是选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2、CON(R')2、苯基、5元杂芳基、6元杂芳基和C1-6烷基的一个到三个成员,其中所述苯基、5元杂芳基、6元杂芳基和C1-6烷基各自任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代;
其中每个R'独立地为H或C1-3烷基;
RAA1、RAA2、R2和Z如权利要求59中针对式(I)所定义,并且将RAA1和RAA2连接到最近的N原子的虚线半圆表示RAA1和/或RAA2可以任选地环化到指定的N原子上;
然后使所述硫脲化合物与式R2-NH2的胺接触以产生所述式(II)化合物。
73.根据权利要求61到72中任一项所述的方法,其中R2是H。
74.一种用于分析多肽的方法,其包括以下步骤:
(a)提供任选地与记录标签直接或间接相关的多肽;
(b)用化学试剂将所述多肽的N端氨基酸(NTAA)官能化,其中所述化学试剂是:
(b1)式(AA)化合物:
Figure FDA0003324885580000221
其中:
R2为H或R4
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R'独立地为H或C1-3烷基;
每个环A为含有至多三个N原子作为环成员的5元杂芳基环,并且任选地稠合至额外的苯基或5-6元杂芳基环,并且其中所述5元杂芳基环和任选的稠合苯基或5-6元杂芳基环各自任选地被选自C1-4烷基、C1-4烷氧基、-OH、卤代、C1-4卤代烷基、NO2、COOR、CONR2、-SO2R*、-NR2、苯基和5-6元杂芳基的一个或两个基团取代;
其中每个R独立地选自H和任选地被OH、OR*、-NH2、-NHR*或-NR*2取代的C1-3烷基;并且
每个R*为C1-3烷基,其任选地被OH、氧代、C1-2烷氧基或CN取代;
其中位于同一N上的两个R、或两个R"、或两个R*可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
(b2)式R3-NCS的化合物;
其中R3为H或选自苯基、5元杂芳基、6元杂芳基、C1-3卤代烷基和C1-6烷基的任选取代的基团,
其中任选的取代基是选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2、CON(R')2、苯基、5元杂芳基、6元杂芳基和C1-6烷基的一个到三个成员,其中所述苯基、5元杂芳基、6元杂芳基和C1-6烷基各自任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代;
其中每个R'独立地为H或C1-3烷基;
其中位于同一N上的两个R'可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,并且任选地被选自卤代、C1-2烷基、OH、氧代、C1-2烷氧基或CN的一个或两个基团取代;
以提供初始NTAA官能化的多肽;
任选地用式R2-NH2的胺或用二杂亲核试剂处理所述初始NTAA官能化的多肽,以形成二级NTAA官能化的多肽;
并且任选地用合适的培养基处理所述初始NTAA官能化的多肽或所述二级NTAA官能化的多肽,以消除NTAA并形成N端截短的多肽;
(c)使所述多肽与第一结合剂接触,所述第一结合剂包括能够与所述多肽、或所述初始NTAA官能化的多肽、或所述二级NTAA官能化的多肽、或所述N端截短的多肽结合的第一结合部分;以及
(c1)带有关于所述第一结合剂的标识信息的第一编码标签,或
(c2)第一可检测标记;
(d)(d1)将所述第一编码标签的信息(如果存在的话)转移至所述记录标签以生成延伸型记录标签并分析所述延伸型记录标签,或
(d2)检测所述第一可检测标记(如果存在的话)。
75.根据权利要求74所述的方法,其进一步包括重复步骤(b)到(d)以确定所述多肽的至少一部分的序列。
76.根据权利要求74或权利要求75所述的方法,其中所述结合部分能够结合至:
所述多肽的非官能化NTAA;
所述初始NTAA官能化的多肽;或者
所述二级NTAA官能化的多肽;或者
所述N端截短的多肽。
77.根据权利要求74到76中任一项所述的方法,其中所述结合部分能够结合至:
使所述多肽与所述式(AA)化合物接触后来自步骤(b1)的产物;
使所述多肽与式R3-NCS的化合物接触后来自步骤(b2)的产物;或者
与式R2-NH2的胺或与二杂亲核试剂接触的来自步骤(b1)的产物;或者
与式R2-NH2的胺或与二杂亲核试剂接触的来自步骤(b2)的产物。
78.根据权利要求74到77中任一项所述的方法,其中步骤(a)进一步包括在适合切割N端氨基酸的条件下使所述多肽与酶接触。
79.根据权利要求78所述的方法,其中所述酶是脯氨酸氨肽酶、脯氨酸亚氨基肽酶(PIP)、焦谷氨酸氨肽酶(pGAP)、天冬酰胺酰胺水解酶、肽谷氨酰胺酶天冬酰胺酶、蛋白质谷氨酰胺酶或其同系物。
80.根据权利要求74到79中任一项所述的方法,其中:
步骤(a)包括提供所述多肽和连接到支持物(例如,固体支持物)的相关记录标签;
步骤(a)包括在溶液中提供与相关记录标签连接的多肽;
步骤(a)包括提供与记录标签间接相关的多肽;或者
所述多肽不与步骤(a)中的记录标签相关联。
81.根据权利要求74到80中任一项所述的方法,其中:
步骤(b)在步骤(c)之前进行;
步骤(b)在步骤(d)之前进行;
步骤(b)在步骤(c)之后和步骤(d)之前进行;
步骤(b)在步骤(c)和步骤(d)之后进行;
步骤(c)在步骤(b)之前进行;
步骤(c)在步骤(b)之后进行;和/或
步骤(c)在步骤(d)之前进行。
82.根据权利要求74到80中任一项所述的方法,其中:
步骤(a)、(b)、(c1)和(d1)按序列顺序发生;
步骤(a)、(c1)、(b)和(d1)按序列顺序发生;
步骤(a)、(c1)、(d1)和(b)按序列顺序发生;
步骤(a)、(b1)、(c1)和(d1)按序列顺序发生;
步骤(a)、(b2)、(c1)和(d1)按序列顺序发生;
步骤(a)、(c1)、(b1)和(d1)按序列顺序发生;
步骤(a)、(c1)、(b2)和(d1)按序列顺序发生;
步骤(a)、(c1)、(d1)和(b1)按序列顺序发生;
步骤(a)、(c1)、(d1)和(b2)按序列顺序发生;
步骤(a)、(b)、(c2)和(d2)按序列顺序发生;
步骤(a)、(c2)、(b)和(d2)按序列顺序发生;或者
步骤(a)、(c2)、(d2)和(b)按序列顺序发生。
83.根据权利要求74到82中任一项所述的方法,其中步骤(c)进一步包括使所述多肽与第二(或更高阶)结合剂所述第二结合剂包括能够结合除步骤(b)的官能化NTAA之外的官能化NTAA的第二(或更高阶)结合部分和带有关于所述第二(或更高阶)结合剂的标识信息的编码标签。
84.根据权利要求83所述的方法,其中:
所述多肽与所述第二(或更高阶)结合剂的接触按序列顺序发生在所述多肽与所述第一结合剂接触之后;或者
所述多肽与所述第二(或更高阶)结合剂的接触与所述多肽与所述第一结合剂的接触同时发生。
85.根据权利要求74到84中任一项所述的方法,其中所述多肽是来自生物样品的蛋白质或蛋白质的片段。
86.根据权利要求74到85中任一项所述的方法,其中所述记录标签包括核酸、寡核苷酸、经修饰的寡核苷酸、DNA分子、具有伪互补碱基的DNA、具有受保护碱基的DNA、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、γPNA分子或吗啉代DNA或其组合。
87.根据权利要求86所述的方法,其中:
所述DNA分子是主链修饰的、糖修饰的或核碱基修饰的;或者
所述DNA分子具有核碱基保护基团(如Alloc)、亲电保护基团(如硫烷)、乙酰基保护基团、硝基苄基保护基团、磺酸酯保护基团或传统的碱基不稳定的保护基团(包含Ultramild试剂)。
88.根据权利要求74到87中任一项所述的方法,其中所述记录标签包括通用引发位点。
89.根据权利要求88所述的方法,其中所述通用引发位点包括用于扩增、测序或两者的引发位点。
90.根据权利要求74到89所述的方法,其中所述记录标签包括唯一分子标识符(UMI)。
91.根据权利要求74到90中任一项所述的方法,其中所述记录标签包括条形码。
92.根据权利要求74到91中任一项所述的方法,其中所述记录标签在其3'末端包括间隔子。
93.根据权利要求74到92中任一项所述的方法,其中将所述多肽和所述相关的记录标签共价连接至所述支持物。
94.根据权利要求74到93中任一项所述的方法,其中所述支持物是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、PTFE膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。
95.根据权利要求94所述的方法,其中:
所述支持物包括金、银、半导体或量子点;
所述纳米颗粒包括金、银或量子点;或者
所述支持物是聚苯乙烯珠、聚丙烯酸酯珠、聚合物珠、琼脂糖珠、纤维素珠、葡聚糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠、受控孔珠、基于二氧化硅的珠子或其任何组合。
96.根据权利要求74到95中任一项所述的方法,其中将多种多肽和相关的记录标签连接至支持物。
97.根据权利要求96所述的方法,其中所述多种多肽在所述支持物上间隔开,其中所述多肽之间的平均距离为约≥20nm。
98.根据权利要求74到97中任一项所述的方法,其中所述结合剂的所述结合部分包括肽或蛋白质。
99.根据权利要求74到98中任一项所述的方法,其中所述结合剂的所述结合部分包括氨肽酶或其变体、突变体或经修饰的蛋白质;氨酰tRNA合成酶或其变体、突变体或经修饰的蛋白质;抗运载蛋白或其变体、突变体或经修饰的蛋白质;ClpS(如ClpS2)或其变体、突变体或经修饰的蛋白质;UBR盒蛋白或其变体、突变体或经修饰的蛋白质;或结合氨基酸的经修饰的小分子,即万古霉素或其变体、突变体或经修饰的分子;或抗体或其结合片段;或其任何组合。
100.根据权利要求74到99中任一项所述的方法,其中
所述结合剂结合单个氨基酸残基(例如,N端氨基酸残基、C端氨基酸残基或内部氨基酸残基)、二肽(例如,N端二肽、C端二肽或内部二肽)、三肽(例如,N端三肽、C端三肽或内部三肽)或所述多肽的翻译后修饰;或者
所述结合剂结合NTAA官能化的单氨基酸残基、NTAA官能化的二肽、NTAA官能化的三肽或NTAA官能化的多肽。
101.根据权利要求74到100中任一项所述的方法,其中所述结合剂的所述结合部分能够选择性地结合所述多肽。
102.根据权利要求74到101中任一项所述的方法,其中所述编码标签是DNA分子、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、γPNA分子或其组合。
103.根据权利要求74到102中任一项所述的方法,其中所述编码标签包括编码器或条形码序列。
104.根据权利要求74到103中任一项所述的方法,其中所述编码标签进一步包括间隔子、结合循环特异性序列、唯一分子标识符、通用引发位点或其任何组合。
105.根据权利要求74到104中任一项所述的方法,其中所述结合部分和所述编码标签通过接头连接。
106.根据权利要求74到105中任一项所述的方法,其中所述结合部分和所述编码标签通过SpyTag/SpyCatcher肽-蛋白质对、SnoopTag/SnoopCatcher肽-蛋白质对或HaloTag/HaloTag配体对连接。
107.根据权利要求74到106中任一项所述的方法,其中
将所述编码标签的信息转移至所述记录标签是由DNA连接酶或RNA连接酶介导的;
将所述编码标签的信息转移至所述记录标签是由DNA聚合酶、RNA聚合酶或逆转录酶介导的;或者
将所述编码标签的信息转移至所述记录标签是由化学连接介导的。
108.根据权利要求107所述的方法,其中使用单链DNA进行所述化学连接。
109.根据权利要求107所述的方法,其中使用双链DNA进行所述化学连接。
110.根据权利要求74到109中任一项所述的方法,其中分析所述延伸型记录标签包括核酸测序方法。
111.根据权利要求110所述的方法,其中:
所述核酸测序方法是合成测序、连接测序、杂交测序、聚合酶集落测序、离子半导体测序和焦磷酸测序;或者
所述核酸测序方法是单分子实时测序、基于纳米孔的测序或使用高级显微镜对DNA进行直接成像。
112.根据权利要求74到111中任一项所述的方法,其中在分析之前扩增所述延伸型记录标签。
113.根据权利要求74到112中任一项所述的方法,其进一步包括添加循环标记的步骤。
114.根据权利要求113所述的方法,其中所述循环标记提供关于所述结合剂与所述多肽结合的顺序的信息。
115.根据权利要求113或权利要求114所述的方法,其中:
将所述循环标记添加到所述编码标签中;
将所述循环标记添加到所述记录标签中;
将所述循环标记添加到所述结合剂中;或者
独立于所述编码标签、记录标签和结合剂添加所述循环标记。
116.根据权利要求74到115中任一项所述的方法,其中包含在所述延伸型记录标签上的编码标签信息的顺序提供关于信息结合剂与所述多肽结合的顺序的信息。
117.根据权利要求74到116中任一项所述的方法,其中包含在所述延伸型记录标签上的所述编码标签信息的频率提供关于信息结合剂与所述多肽结合的频率的信息。
118.根据权利要求74到117中任一项所述的方法,其中并行分析表示多种多肽的多个延伸型记录标签。
119.根据权利要求118所述的方法,其中在多路复用测定中分析表示多种多肽的所述多个延伸型记录标签。
120.根据权利要求118或119所述的方法,其中所述多个延伸型记录标签在分析之前经历靶标富集测定。
121.根据权利要求118到120中任一项所述的方法,其中所述多个延伸型记录标签在分析之前经历扣除测定。
122.根据权利要求118到121中任一项所述的方法,其中所述多个延伸型记录标签在分析之前经历归一化测定以减少高度丰富的种类。
123.根据权利要求74到122中任一项所述的方法,其包括用合适的培养基处理所述NTAA官能化的多肽以消除NTAA。
124.根据权利要求123所述的方法,其中所述合适的培养基具有大于约5的pH。
125.根据权利要求123中任一项所述的方法,其中所述合适的培养基具有介于约5和14之间的pH,并且任选地包含氢氧化物、碳酸盐、磷酸盐、硫酸盐或胺。
126.根据权利要求123中任一项所述的方法,其中所述合适的培养基具有介于约5和9之间的pH,并且任选地包含氢氧化物、碳酸盐、磷酸盐、硫酸盐或胺。
127.根据权利要求123到126中任一项所述的方法,其中所述合适的培养基包括NH3或伯胺。
128.根据权利要求123到127中任一项所述的方法,其中在步骤(c)和/或步骤(d)之后进行消除NTAA。
129.根据权利要求74到128中任一项所述的方法,其中在合适的条件下通过化学切割消除所述NTAA。
130.根据权利要求129所述的方法,其中通过由氨、伯胺或二杂亲核试剂诱导的化学切割来消除所述NTAA。
131.根据权利要求130所述的方法,其中所述化学切割由氨诱导。
132.根据权利要求130所述的方法,其中所述化学切割由式R2-NH2的伯胺诱导,其中R2为C1-6烷基,其任选地被选自卤代、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基。
133.根据权利要求130所述的方法,其中所述化学切割由选自以下的二杂亲核试剂诱导:
Figure FDA0003324885580000301
134.根据权利要求74到133中任一项所述的方法,其中至少一种结合剂结合末端氨基酸残基、末端二氨基酸残基或末端三氨基酸残基。
135.根据权利要求74到134中任一项所述的方法,其中至少一种结合剂结合经翻译后修饰的氨基酸。
136.根据权利要求74到135中任一项所述的方法,其中所述化学试剂包括式(AA)化合物:
Figure FDA0003324885580000302
其中环A选自:
Figure FDA0003324885580000311
Figure FDA0003324885580000312
以及
Figure FDA0003324885580000313
其中:
每个Rx、Ry和Rz独立地选自H、卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#、C(O)N(R#)2,并且苯基任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代,
并且位于环的相邻原子上的两个Rx、Ry或Rz可以任选地一起形成稠合至所述环的苯基、5元杂芳基或6元杂芳基,并且所述稠合的苯基、5元杂芳基或6元杂芳基可以任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代;
其中每个R#独立地为H或C1-2烷基;并且其中位于同一氮上的两个R#可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代。
137.根据权利要求136所述的方法,其中环A选自:
Figure FDA0003324885580000321
Figure FDA0003324885580000322
以及
Figure FDA0003324885580000323
138.根据权利要求74到137中任一项所述的方法,其中所述化学试剂为式R3-NCS的化合物,其中R3为任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR'、-N(R')2和CON(R')2的一个或两个成员取代的苯基,
其中每个R'独立地为H或C1-3烷基,
并且其中位于同一氮上的两个R'可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代。
139.根据权利要求74到138中任一项所述的方法,其中R2是H。
140.一种用于分析多肽的试剂盒,其包括:
(a)用于将所述多肽的N端氨基酸(NTAA)官能化的试剂,其中所述试剂包括式(AA)化合物:
Figure FDA0003324885580000331
其中每个环A选自:
Figure FDA0003324885580000332
Figure FDA0003324885580000333
以及
Figure FDA0003324885580000334
R2为H、R4、OH、OR4、NH2或-NHR4
R4为C1-6烷基,其任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、5元杂芳基和6元杂芳基的一个或两个成员取代,其中所述苯基、5元杂芳基和6元杂芳基任选地被选自卤代、-OH、C1-3烷基、C1-3烷氧基、C1-3卤代烷基、NO2、CN、COOR"和CON(R")2的一个或两个成员取代,
其中每个R"独立地为H或C1-3烷基;
每个Rx、Ry和Rz独立地选自H、卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#、C(O)N(R#)2,并且苯基任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代,
并且位于环的相邻原子上的两个Rx、Ry或Rz可以任选地一起形成稠合至所述环的苯基、5元杂芳基或6元杂芳基,并且所述稠合的苯基、5元杂芳基或6元杂芳基可以任选地被选自卤代、C1-2烷基、C1-2卤代烷基、NO2、SO2(C1-2烷基)、COOR#和C(O)N(R#)2的一个或两个基团取代;
其中每个R#独立地为H或C1-2烷基;
并且其中位于同一氮上的两个R#可以任选地一起形成4-7元杂环,所述杂环任选地含有选自N、O和S的额外杂原子作为环成员,其中所述4-7元杂环任选地被选自卤代、OH、OMe、Me、氧代、NH2、NHMe和NMe2的一个或两个基团取代;
(b)多种结合剂,每种结合剂包括能够在多肽的NTAA通过与式(AA)化合物反应而被官能化之前或之后结合所述NTAA的结合部分;
以及
(b1)带有关于所述结合剂的标识信息的编码标签,或
(b2)可检测标记;以及
(c)用于将所述第一编码标签的信息转移至所述记录标签以生成延伸型记录标签的试剂;以及任选的
(d)用于分析所述延伸型记录标签的试剂或用于检测所述第一可检测标记的试剂。
141.根据权利要求140所述的试剂盒,其中所述结合部分能够结合至:
非官能化的NTAA或已被(a)中的所述试剂官能化的NTAA。
142.根据权利要求140或141所述的试剂盒,其进一步包括用于提供任选地与记录标签直接或间接相关的多肽的试剂。
143.根据权利要求140到142中任一项所述的试剂盒,其中:
用于提供所述多肽的所述试剂被配置成提供所述多肽和连接到支持物(例如,固体支持物)的相关记录标签;
用于提供所述多肽的所述试剂被配置成在溶液中提供与记录标签直接相关的多肽;
用于提供所述多肽的所述试剂被配置成提供与记录标签间接相关的多肽;或者
用于提供所述多肽的所述试剂被配置成提供不与记录标签相关联的多肽。
144.根据权利要求140到143中任一项所述的试剂盒,其中所述试剂盒进一步包括二杂亲核试剂。
145.根据权利要求144所述的试剂盒,其中所述二杂亲核试剂选自:
Figure FDA0003324885580000351
146.根据权利要求140到145中任一项所述的试剂盒,其中所述试剂盒包括两种或更多种不同的结合剂。
147.根据权利要求140到146中任一项所述的试剂盒,其进一步包括用于消除官能化的NTAA以暴露新的NTAA的试剂。
148.根据权利要求146或权利要求147所述的试剂盒,其中:
用于消除所述官能化的NTAA的所述试剂包括氨、伯胺或二杂亲核试剂。
149.根据权利要求147到148中任一项所述的试剂盒,其中用于消除所述官能化的NTAA的所述试剂包括缓冲剂,所述缓冲剂具有大于约5的合适pH。
150.根据权利要求140到149中任一项所述的试剂盒,其中所述记录标签包括通用引发位点。
151.根据权利要求150所述的试剂盒,其中所述通用引发位点包括用于扩增、测序或两者的引发位点。
152.根据权利要求140到151中任一项所述的试剂盒,其中所述记录标签包括唯一分子标识符(UMI)。
153.根据权利要求405到152中任一项所述的试剂盒,其中:
所述记录标签包括条形码;或者
所述记录标签在其3'末端包括间隔子。
154.根据权利要求140到153中任一项所述的试剂盒,其中用于提供所述多肽和连接到支持物的相关记录标签的所述试剂提供所述多肽和所述支持物上的所述相关记录标签的共价连接。
155.根据权利要求140到154中任一项所述的试剂盒,其中所述支持物是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、PTFE膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球。
156.根据权利要求155所述的试剂盒,其中:
所述支持物包括金、银、半导体或量子点;
所述纳米颗粒包括金、银或量子点;或者
所述支持物是聚苯乙烯珠、聚丙烯酸酯珠、聚合物珠、琼脂糖珠、纤维素珠、葡聚糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠、受控孔珠、基于二氧化硅的珠子或其任何组合。
157.根据权利要求140到156中任一项所述的试剂盒,其中用于提供所述多肽和连接到支持物的相关记录标签的所述试剂提供多种多肽和连接到支持物的相关记录标签。
158.根据权利要求157所述的试剂盒,其中所述多种多肽在所述支持物上间隔开,其中所述多肽之间的平均距离为约≥20nm。
159.根据权利要求140到158中任一项所述的试剂盒,其中所述结合剂是肽或蛋白质。
160.根据权利要求140到159中任一项所述的试剂盒,其中所述结合剂包括氨肽酶或其变体、突变体或经修饰的蛋白质;氨酰tRNA合成酶或其变体、突变体或经修饰的蛋白质;抗运载蛋白或其变体、突变体或经修饰的蛋白质;ClpS或其变体、突变体或经修饰的蛋白质;或结合氨基酸的经修饰的小分子,即万古霉素或其变体、突变体或经修饰的分子;或抗体或其结合片段;或其任何组合。
161.根据权利要求140到160中任一项所述的试剂盒,其中所述结合剂结合单个氨基酸残基(例如,N端氨基酸残基、C端氨基酸残基或内部氨基酸残基)、二肽(例如,N端二肽、C端二肽或内部二肽)、三肽(例如,N端三肽、C端三肽或内部三肽)或所述分析物或多肽的翻译后修饰。
162.根据权利要求140到161中任一项所述的试剂盒,其中所述结合剂结合NTAA官能化的单氨基酸残基、NTAA官能化的二肽、NTAA官能化的三肽或NTAA官能化的多肽。
163.根据权利要求140到162中任一项所述的试剂盒,其中所述结合剂能够选择性地结合所述多肽。
164.根据权利要求140到163中任一项所述的试剂盒,其中所述编码标签是DNA分子、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、γPNA分子或其组合。
165.根据权利要求140到164中任一项所述的试剂盒,其中所述编码标签包括编码器或条形码序列。
166.根据权利要求140到165中任一项所述的试剂盒,其中所述编码标签进一步包括间隔子、结合循环特异性序列、唯一分子标识符、通用引发位点或其任何组合。
167.根据权利要求140到166中任一项所述的试剂盒,其中:
所述结合剂中的所述结合部分和所述编码标签通过接头连接;或者
所述结合部分和所述编码标签通过SpyTag/SpyCatcher肽-蛋白质对、SnoopTag/SnoopCatcher肽-蛋白质对或HaloTag/HaloTag配体对连接。
168.根据权利要求140到167中任一项所述的试剂盒,其中:
用于将所述编码标签的信息转移至所述记录标签的所述试剂包括DNA连接酶或RNA连接酶;
用于将所述编码标签的信息转移至所述记录标签的所述试剂包括DNA聚合酶、RNA聚合酶或逆转录酶;或者
用于将所述编码标签的信息转移至所述记录标签的所述试剂包括化学连接试剂。
169.根据权利要求168所述的试剂盒,其中:
所述化学连接试剂用于单链DNA;或者
所述化学连接试剂用于双链DNA。
170.根据权利要求140到169中任一项所述的试剂盒;
其进一步包括由两种DNA或RNA连接酶变体、腺苷酸化变体和组成型非腺苷酸化变体组成的连接试剂;或者
其进一步包括由DNA或RNA连接酶和DNA/RNA去腺苷酸酶组成的连接试剂。
171.根据权利要求140到170中任一项所述的试剂盒,其中所述试剂盒另外包括用于核酸测序方法的试剂。
172.根据权利要求171所述的试剂盒,其中:
所述核酸测序方法是合成测序、连接测序、杂交测序、聚合酶集落测序、离子半导体测序和焦磷酸测序;或者
所述核酸测序方法是单分子实时测序、基于纳米孔的测序或使用高级显微镜对DNA进行直接成像。
173.根据权利要求140到172中任一项所述的试剂盒,其中所述试剂盒另外包括用于扩增所述延伸型记录标签的试剂。
174.根据权利要求140到173中任一项所述的试剂盒,其进一步包括用于添加循环标记的试剂。
175.根据权利要求174所述的试剂盒,其中所述循环标记提供关于所述结合剂与所述多肽结合的顺序的信息。
176.根据权利要求174或权利要求175所述的试剂盒,其中:
所述循环标记可以被添加到所述编码标签中;
所述循环标记可以被添加到所述记录标签中;
所述循环标记可以被添加到所述结合剂中;或者
可以独立于所述编码标签、记录标签和结合剂添加所述循环标记。
177.根据权利要求140到176中任一项所述的试剂盒,其中包含在所述延伸型记录标签上的编码标签信息的顺序提供关于信息结合剂与所述多肽结合的顺序的信息。
178.根据权利要求140到177中任一项所述的试剂盒,其中包含在所述延伸型记录标签上的所述编码标签信息的频率提供关于信息结合剂与所述多肽结合的频率的信息。
179.根据权利要求140到178中任一项所述的试剂盒,其被配置用于分析来自样品的一种或多种多肽,所述样品包括多种蛋白质复合物、蛋白质或多肽。
180.根据权利要求179所述的试剂盒,其进一步包括用于将所述样品内的所述多种蛋白质复合物、蛋白质或多肽划分到多个隔室中的装置,其中每个隔室包括任选地连接到支持物(例如,固体支持物)的多个隔室标签,其中所述多个隔室标签在单个隔室内相同并且不同于其它隔室的隔室标签。
181.根据权利要求179或180所述的试剂盒,其进一步包括用于将所述多种蛋白质复合物、蛋白质和/或多肽片段化成多种多肽的试剂。
182.根据权利要求181所述的试剂盒,其中:
所述隔室是微流体液滴;
所述隔室是微孔;或者
所述隔室是表面上的分离区域。
183.根据权利要求178到182中任一项所述的试剂盒,其中每个隔室平均包括单个细胞。
184.根据权利要求178到183中任一项所述的试剂盒,其进一步包括用于用多个通用DNA标签标记所述多种蛋白质复合物、蛋白质、或多肽的试剂。
185.根据权利要求180到184中任一项所述的试剂盒,其中用于将所述隔室标签信息转移到与多肽相关的所述记录标签的所述试剂包括引物延伸或连接试剂。
186.根据权利要求180到185中任一项所述的试剂盒,其中:
所述支持物是珠子、多孔珠、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、PTFE膜、尼龙、硅晶片芯片、流通芯片、包含信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、纳米颗粒或微球;或者
所述支持物包括珠子。
187.根据权利要求186所述的试剂盒,其中所述珠子是聚苯乙烯珠、聚丙烯酸酯珠、聚合物珠、琼脂糖珠、纤维素珠、葡聚糖珠、丙烯酰胺珠、实心珠、多孔珠、顺磁珠、玻璃珠、受控孔珠、基于二氧化硅的珠子或其任何组合。
188.根据权利要求180到187中任一项所述的试剂盒,其中所述隔室标签包括单链或双链核酸分子。
189.根据权利要求180到188中任一项所述的试剂盒,其中所述隔室标签包括条形码和任选的UMI。
190.根据权利要求189所述的试剂盒,其中:
所述支持物是珠子并且所述隔室标签包括条形码,进一步地,其中包括与其连接的所述多个隔室标签的珠子是通过分离和合并合成形成的;或者
所述支持物是珠子并且所述隔室标签包括条形码,进一步地,其中包括与其连接的多个隔室标签的珠子是通过单独合成或固定形成的。
191.根据权利要求180到190中任一项所述的试剂盒,其中所述隔室标签是记录标签内的组分,其中所述记录标签任选地进一步包括间隔子、条形码序列、唯一分子标识符、通用引发位点或其任何组合。
192.根据权利要求180到190中任一项所述的试剂盒,其中所述隔室标签进一步包括能够与多个蛋白质复合物、蛋白质或多肽上的内部氨基酸、肽主链或N端氨基酸反应的功能性部分。
193.根据权利要求192所述的试剂盒,其中:
所述功能性部分是醛、叠氮化物/炔、用于施陶丁格反应(Staudinger reaction)的部分、或马来酰亚胺/硫醇、或环氧化物/亲核试剂、或逆电子需求狄尔斯-阿尔德(iEDDA)基团;或者
所述功能性部分是醛基。
194.根据权利要求180到193中任一项所述的试剂盒,其中所述多个隔室标签通过以下形成:将隔室标签印刷、点样、喷墨到隔室中,或其组合。
195.根据权利要求180到194中任一项所述的试剂盒,其中所述隔室标签进一步包括多肽。
196.根据权利要求195所述的试剂盒,其中所述隔室标签多肽包括蛋白质连接酶识别序列。
197.根据权利要求196所述的试剂盒,其中所述蛋白质连接酶是butelase I或其同系物。
198.根据权利要求180到197中任一项所述的试剂盒,其中用于使所述多种多肽片段化的所述试剂包括蛋白酶。
199.根据权利要求198所述的试剂盒,其中所述蛋白酶是金属蛋白酶。
200.根据权利要求199所述的试剂盒,其进一步包括用于调节所述金属蛋白酶的活性的试剂,例如,用于光活化释放所述金属蛋白酶的金属阳离子的试剂。
201.根据权利要求180到200中任一项所述的试剂盒,其进一步包括所述试剂盒进一步包括用于在将所述多种多肽划分到所述多个隔室中之前从所述样品中减去一种或多种丰度蛋白质的试剂。
202.根据权利要求180到201中任一项所述的试剂盒,其进一步包括用于在将所述多种多肽与所述隔室标签连接之前从所述支持物释放所述隔室标签的试剂。
203.根据权利要求202所述的试剂盒,其进一步包括用于将带隔室标签的多肽连接到与记录标签相关的支持物的试剂。
204.根据权利要求180到203中任一项所述的试剂盒,其进一步包括去除所述多肽的N端氨基酸的一种或多种酶。
205.根据权利要求204所述的试剂盒,其中所述酶是脯氨酸氨肽酶、脯氨酸亚氨基肽酶(PIP)、焦谷氨酸氨肽酶(pGAP)、天冬酰胺酰胺水解酶、肽谷氨酰胺酶天冬酰胺酶、蛋白质谷氨酰胺酶或其同系物。
206.一种包括结合部分的结合剂,所述结合部分能够结合具有根据权利要求39所述的式(II)
Figure FDA0003324885580000411
或根据权利要求49所述的式(IV)
Figure FDA0003324885580000412
的经修饰多肽的N端部分,或根据权利要求24所述的式
Figure FDA0003324885580000413
的硫脲,
或选自以下的副反应产物
Figure FDA0003324885580000414
以及
Figure FDA0003324885580000421
其中R1、R2、Z、RAA1和RAA2如针对式(II)所定义,例如在权利要求39中;
或下式的副产物:
Figure FDA0003324885580000422
以及
Figure FDA0003324885580000423
其中R1、R2、环A、Z、RAA1和RAA2如针对式(IV)所定义,例如在权利要求49中。
207.根据权利要求206所述的结合剂,其中所述结合剂结合包括所述多肽的N端氨基酸残基、N端二肽或N端三肽的经修饰多肽的N端部分。
208.根据权利要求206或权利要求207所述的结合剂,其包括氨肽酶或其变体、突变体或经修饰的蛋白质;氨酰tRNA合成酶或其变体、突变体或经修饰的蛋白质;抗运载蛋白或其变体、突变体或经修饰的蛋白质;ClpS或其变体、突变体或经修饰的蛋白质;或结合氨基酸的经修饰的小分子,即万古霉素或其变体、突变体或经修饰的分子;或抗体或其结合片段;或其任何组合
209.根据权利要求206到208中任一项所述的结合剂,其能够选择性地结合所述多肽。
210.根据权利要求206到209中任一项所述的结合剂,其进一步包括编码标签,所述编码标签包括关于所述结合部分的标识信息。
211.根据权利要求210所述的结合剂,其中所述结合剂和所述编码标签通过接头或结合对连接。
212.根据权利要求210或权利要求211所述的结合剂,其中所述编码标签是DNA分子、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、γPNA分子或其组合。
213.根据权利要求210到212中任一项所述的结合剂,其中所述编码标签进一步包括间隔子、结合循环特异性序列、唯一分子标识符、通用引发位点或其任何组合。
214.一种试剂盒,其包括多个根据权利要求206到213中任一项所述的结合剂。
CN202080031976.9A 2019-04-30 2020-04-24 用于从多肽上切割n端氨基酸的方法和试剂 Pending CN114793437A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962841171P 2019-04-30 2019-04-30
US62/841,171 2019-04-30
PCT/US2020/029969 WO2020223133A1 (en) 2019-04-30 2020-04-24 Methods and reagents for cleavage of the n-terminal amino acid from a polypeptide

Publications (1)

Publication Number Publication Date
CN114793437A true CN114793437A (zh) 2022-07-26

Family

ID=73029127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080031976.9A Pending CN114793437A (zh) 2019-04-30 2020-04-24 用于从多肽上切割n端氨基酸的方法和试剂

Country Status (5)

Country Link
US (1) US20220227889A1 (zh)
EP (1) EP3962930A4 (zh)
CN (1) CN114793437A (zh)
CA (1) CA3138511A1 (zh)
WO (1) WO2020223133A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201715684D0 (en) * 2017-09-28 2017-11-15 Univ Gent Means and methods for single molecule peptide sequencing
WO2023019163A1 (en) * 2021-08-11 2023-02-16 Board Of Regents, The University Of Texas System Methods and compositions for edman-like reactions
WO2023074937A1 (ko) * 2021-10-27 2023-05-04 주식회사 오토텍바이오 Ubr 박스 도메인 리간드로의 화합물
EP4206674A1 (en) 2021-12-28 2023-07-05 Encodia, Inc. High-throughput serotyping and antibody profiling assays

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1280613A (zh) * 1997-10-28 2001-01-17 澳大利亚国立大学 编码哺乳动物内切葡糖醛酸糖苷酶的分离的核酸分子及其应用
CN101528921A (zh) * 2006-01-20 2009-09-09 细胞信号技术有限公司 人非小细胞肺癌中的易位和突变的ros激酶
WO2017192633A1 (en) * 2016-05-02 2017-11-09 Procure Life Sciences Inc. Macromolecule analysis employing nucleic acid encoding

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7041472B2 (en) * 2002-12-25 2006-05-09 Shimadzu Corporation Method for selectively collecting N-terminal peptide fragment of protein
WO2019089846A1 (en) * 2017-10-31 2019-05-09 Encodia, Inc. Methods and compositions for polypeptide analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1280613A (zh) * 1997-10-28 2001-01-17 澳大利亚国立大学 编码哺乳动物内切葡糖醛酸糖苷酶的分离的核酸分子及其应用
CN101528921A (zh) * 2006-01-20 2009-09-09 细胞信号技术有限公司 人非小细胞肺癌中的易位和突变的ros激酶
WO2017192633A1 (en) * 2016-05-02 2017-11-09 Procure Life Sciences Inc. Macromolecule analysis employing nucleic acid encoding

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NONE: "Di(pyrazol-1-yl)methanimine", PUBCHEM CID 89557419, pages 2 *
NONE: "Unk-Tyr-Met(O)-Phe-DL-Ala-OMe", PUBCHEM CID 733456676, pages 2 *

Also Published As

Publication number Publication date
EP3962930A1 (en) 2022-03-09
WO2020223133A1 (en) 2020-11-05
EP3962930A4 (en) 2024-03-27
US20220227889A1 (en) 2022-07-21
CA3138511A1 (en) 2020-11-05
WO2020223133A8 (en) 2021-12-16

Similar Documents

Publication Publication Date Title
US11959922B2 (en) Macromolecule analysis employing nucleic acid encoding
US20240125792A1 (en) Kits for analysis using nucleic acid encoding and/or label
US20230340458A1 (en) Methods and kits using nucleic acid encoding and/or label
US20200348307A1 (en) Methods and compositions for polypeptide analysis
CN114793437A (zh) 用于从多肽上切割n端氨基酸的方法和试剂
CN114126476A (zh) 用于蛋白质的空间分析的方法及相关试剂盒
CN113557299A (zh) 加速多肽分析反应的方法和组合物及相关用途

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40077845

Country of ref document: HK