CN115485563A

CN115485563A - 肽和蛋白c-端标记

Info

Publication number: CN115485563A
Application number: CN202180026285.4A
Authority: CN
Inventors: E·V·安斯林; E·马科特; C·J·霍华德二世; J·斯瓦米纳坦; A·M·巴尔多; C·M·辛森; B·弗洛伊德; L·张
Original assignee: University of Texas System
Current assignee: University of Texas System
Priority date: 2020-02-18
Filing date: 2021-02-18
Publication date: 2022-12-16
Also published as: EP4107530A4; US20230076975A1; JP2023514316A; WO2021168083A1; EP4107530A1

Abstract

本文描述了用于选择性地切割肽或蛋白的C‑端氨基酸的方法。本文所述的方法可以用于例如单分子肽或蛋白测序。

Description

肽和蛋白C-端标记

本申请要求2020年2月18日提交的美国临时申请系列号62/978,035的优先权的权益，其整个内容特此通过引用并入。

关于联邦资助的研究的声明

本发明是在美国国立卫生研究院颁布的第R35 GM122480号基金的政府支持下完成的。美国政府具有本发明的某些权利。

背景技术

合成技术已被开发用于选择性地和有效地标记肽分子上的反应性氨基酸侧链。还已经探索了区分N-端氨基酸和内部氨基酸残基(例如，赖氨酸)的方法。然而，用于有区分地将化学柄连接到肽或蛋白的C-端的方法不适用于通用程序。这在本质上是具有挑战性的，因为例如，(i)酸性氨基酸残基(例如，天冬氨酸和谷氨酸)的反应性是相似的，并且(ii)残基的酸性侧链比C-端酸性部分丰富约50倍。诸如在蛋白质组学研究中，需要克服通过C-端将蛋白和肽连接到固定柄而不因末端氨基酸的身份而产生任何偏差的挑战。

发明内容

本文描述了选择性地修饰蛋白和肽的C-端羧酸的组合物和方法(例如，化学法和酶促方法)。连接方法包括使用例如基于噁唑酮的化学、光氧化还原化学、羧肽酶(例如，羧肽酶Y)和肽连接酶(例如，Omniligase)。在另一个方面，本文描述了包含用于选择性地使肽C-端反应的柄的组合物，在下文中被称作C-端偶联试剂。本文所述的方法和组合物可以提供肽的异质群体，所述肽都含有恒定的C-端偶联试剂，其任选地构造用于任何数目的应用，诸如、例如，蛋白和肽的(i)表面固定化、(ii)多路化(例如，经由化学条形码)、(iii)富集、(iv)荧光测序(例如，单分子蛋白测序)和(v)纳米孔易位和测序。

例如，图1A举例说明了本文所述的化合物和方法的区分能力。肽、蛋白或其组合的C-端羧酸残基可以使用酶促方法、化学方法或其组合在包含羧酸残基的内部氨基酸(例如，谷氨酸和天冬氨酸)之间进行区分。本文所述的方法和组合物可以产生通过C-端氨基酸残基修饰(例如，偶联至C-端偶联试剂)的蛋白、肽或其组合。在某些实施方案中，使用本文所述的组合物和方法，可以将肽、蛋白或其组合的C-端羧酸残基与含有羧酸氨基酸残基的内部氨基酸残基区分开。取决于柄的组成(例如，图1B)，可以如本文所述操纵这些蛋白、肽或其组合以实现多种蛋白组学应用，诸如、例如荧光测序(图2)。在某些实施方案中，本文所述的方法和组合物适用于蛋白、肽或其组合的单分子荧光测序。选择性地标记蛋白或肽的C-端(例如，使C-端偶联试剂偶联至蛋白或肽C-端)可以提供例如用于偶联至表面的柄、用于确定肽或蛋白位置的参照以及用于确定肽或者蛋白身份的条形码。

在某些方面，本文描述了一种用于加工包含C-端和内部氨基酸残基的肽或蛋白的方法，所述C-端含有第一羧酸部分，所述内部氨基酸残基含有第二羧酸部分，所述方法包含使所述第一羧酸部分优先于所述第二羧酸部分与反应试剂(例如，C-端偶联试剂)偶联。在某些实施方案中，使所述第一羧酸部分与所述反应试剂偶联比使所述第二羧酸部分与所述反应试剂偶联优先至少50％。在某些实施方案中，使所述第一羧酸部分与所述反应试剂偶联比使所述第二羧酸部分与所述反应试剂偶联优先至少75％。在某些实施方案中，使所述第一羧酸部分与所述反应试剂偶联比使所述第二羧酸部分与所述反应试剂偶联优先至少90％。在某些实施方案中，使所述第一羧酸部分与所述反应试剂偶联比使所述第二羧酸部分与所述反应试剂偶联优先至少95％。在某些实施方案中，使所述第一羧酸部分与所述反应试剂偶联比使所述第二羧酸部分与所述反应试剂偶联优先至少98％。在某些实施方案中，使所述第一羧酸部分与所述反应试剂偶联比使所述第二羧酸部分与所述反应试剂偶联优先至少99％。在某些实施方案中，使所述第一羧酸部分与所述反应试剂偶联比使所述第二羧酸部分与所述反应试剂偶联优先至少99.99％。在某些实施方案中，所述肽或所述蛋白被固定化(例如，至基底诸如载玻片、纳米颗粒或微米颗粒)。

在某些方面，本文描述了一种用于加工包含C-端和内部氨基酸残基的肽或蛋白的方法，所述C-端含有第一羧酸部分(例如，C-端氨基酸羧基且无C-端侧链)，所述内部氨基酸残基含有第二羧酸部分，所述方法包含使所述固定化的肽或所述蛋白的所述第一羧酸部分优先于所述肽或蛋白的所述第二羧酸部分与反应试剂偶联。在某些实施方案中，所述肽或所述蛋白是固定化的。

在某些方面，本文描述了一种用于加工包含C-端和内部氨基酸残基的肽或蛋白的方法，所述C-端含有第一羧酸部分，所述内部氨基酸残基含有第二羧酸部分，所述方法包含使所述肽或蛋白的所述第一羧酸部分优先于所述肽或蛋白的所述第二羧酸部分与反应试剂偶联，其中所述反应试剂包含官能化部分、富集部分或其组合。

在某些方面，本文描述了一种用于加工包含C-端和内部氨基酸残基的肽或蛋白的方法，所述C-端含有第一羧酸部分，所述内部氨基酸残基含有第二羧酸部分，所述方法包含在没有使反应试剂(例如，C-端偶联试剂)偶联至所述第二羧酸部分的情况下使所述反应试剂偶联至所述第一羧酸部分。在某些实施方案中，所述肽或蛋白包含至少两个内部氨基酸残基，其中所述至少两个内部氨基酸残基中的至少一个包含所述第二羧酸部分。在某些实施方案中，所述肽或蛋白包含至少20个内部氨基酸残基，其中所述至少20个内部氨基酸残基中的至少一个包含第二羧酸部分。

在某些实施方案中，所述反应试剂包含标记。在某些实施方案中，所述标记包含光学标记(例如荧光团)、核酸分子(例如，DNA、RNA、PNA)、可电离的分子(例如，溴、胺、磷酸盐)、聚乙烯间隔物、聚精氨酸肽或其任意组合。在某些实施方案中，所述核酸分子包含核酸条形码。

在某些实施方案中，所述反应试剂包含亲核体或亲电体。在某些实施方案中，所述亲核体包含胺、醇、硫化物、氰酸盐、硫氰酸盐、带负电荷的物质或其任意组合。在某些实施方案中，所述亲电体包含Michael受体、烯烃、二烯、丙烯酰胺、N-(丙-2-炔-1-基)甲基丙烯酰胺、异氰酸盐、异硫氰酸盐、构象限制的部分(例如，氧杂环丙烷、α,β-不饱和羰基)、乙烯基砜或其任意组合。

在某些实施方案中，所述反应试剂包含官能化部分、富集部分或其组合。在某些实施方案中，所述官能化部分包含炔烃、叠氮化物、荧光团、生物素、核酸分子(例如，RNA、DNA、PNA)、氨基酸、肽、固体支持珠或树脂或其任意组合。在某些实施方案中，所述富集部分包含炔烃、叠氮化物、荧光团、生物素、核酸分子(例如，RNA、DNA、PNA)、氨基酸、肽、固体支持珠或树脂或其任意组合。

在某些实施方案中，所述方法进一步包含用至少一种化学试剂、至少一种酶或其组合处理所述肽或蛋白。在某些实施方案中，所述至少一种化学试剂是光催化剂。在某些实施方案中，所述光催化剂是光黄素。在某些实施方案中，所述至少一种化学试剂与所述肽或蛋白反应以形成所述肽或蛋白的噁唑酮中间体。在某些实施方案中，所述至少一种化学试剂包含乙酸酐、羟基苯并三唑(HOBT)、羟基氮杂苯并三唑(HOAT)、2-硝基-5-硫代苯甲酸(NTCB)或其组合。在某些实施方案中，所述至少一种酶是内肽酶、外肽酶、羧肽酶、酰胺酶、水解酶、蛋白水解酶、肽连接酶或其任意组合。在某些实施方案中，所述肽连接酶是Omniligase。在某些实施方案中，所述肽连接酶是在水中催化肽偶联的酶。在某些实施方案中，所述羧肽酶是羧肽酶Y。在某些实施方案中，所述蛋白水解酶是嗜热菌蛋白酶。

在某些实施方案中，所述方法包含切割多个肽或蛋白，其中所述多个肽或蛋白包含所述肽或蛋白。在某些实施方案中，所述反应试剂基本上不会偶联至所述肽或蛋白的(i)所述至少一个内部氨基酸残基和(ii)N-端氨基酸残基。在某些实施方案中，所述反应试剂基本上不会偶联至所述肽或蛋白的任何内部氨基酸残基。

在某些实施方案中，所述至少一个内部氨基酸残基是天然氨基酸。在某些实施方案中，所述至少一个所述内部氨基酸残基包含选自由以下组成的组的官能团：胺、羧酸、吲哚、醇、硫醇、硫醚、酚、酰胺、胍和咪唑。在某些实施方案中，所述至少一个所述内部氨基酸残基包含选自由胺、羧酸和硫醇组成的组的官能团。在某些实施方案中，所述至少一个所述内部氨基酸残基是非天然氨基酸。

在某些实施方案中，在使所述反应试剂偶联至所述第一羧酸部分之前修饰所述肽或蛋白或其组合的所述至少一个内部氨基酸残基、所述N-端氨基酸残基。在某些实施方案中，在使所述反应试剂偶联至所述第一羧酸部分之后修饰所述肽或蛋白或其组合的所述至少一个内部氨基酸残基、所述N-端氨基酸残基。在某些实施方案中，可逆地修饰所述肽或蛋白。

在某些实施方案中，所述至少一个内部氨基酸残基选自由以下组成的组：半胱氨酸、赖氨酸、酪氨酸、色氨酸、丝氨酸、组氨酸、苏氨酸和精氨酸、磷酸化的氨基酸、翻译后修饰的氨基酸或其任意组合。在某些实施方案中，所述至少一个内部氨基酸残基选自由半胱氨酸和赖氨酸组成的组。在某些实施方案中，所述至少一个内部氨基酸残基偶联至至少一个标记。在某些实施方案中，所述多个内部氨基酸残基中的每个内部氨基酸偶联至所述至少一个标记。在某些实施方案中，所述至少一个标记对应于针对每个内部氨基酸类型的不同标记。

在某些实施方案中，所述至少一个标记是光学标记。在某些实施方案中，所述光学标记是荧光团。

在某些实施方案中，所述方法进一步包含生产经标记的肽或蛋白用于表面固定化、样品多路化、样品富集、测序、靶标鉴定、质谱法或其任意组合。在某些实施方案中，所述测序是单分子测序、纳米孔测序、荧光测序或其组合。

在某些实施方案中，所述方法进一步包含从生物样品分离所述肽或蛋白。在某些实施方案中，所述生物样品来源于组织、血液、尿、唾液、淋巴液或其任意组合。在某些实施方案中，所述肽或蛋白是重组的或合成的肽或蛋白。

在某些实施方案中，所述方法进一步包含消化所述肽或蛋白。在某些实施方案中，所述方法进一步包含(i)分离所述肽或蛋白，(ii)固定化所述肽或蛋白至固体支持物，(iii)标记至少一个内部氨基酸残基，和(iv)从所述固体支持物释放所述肽或蛋白。在某些实施方案中，所述固定化所述肽或蛋白包含使所述肽或蛋白的N-端氨基酸残基偶联至与所述固体支持物偶联的捕获部分。在某些实施方案中，所述捕获部分包含醛。在某些实施方案中，所述捕获部分包含吡啶甲醛或其类似物。

通过引用并入

在本说明书中提及的所有出版物、专利和专利申请都通过引用并入本文，其程度如同明确地且单独地指出每篇单独的出版物、专利或专利申请通过引用并入。

附图说明

在所附权利要求书中具体阐述本发明的特征。参考以下阐述示例性实施方案(其中利用了本发明的原理)及其附图的详细描述将更好地理解本发明的特征和优点，其中：

图1A和1B是(A)用于配体偶联的C-端羧酸连接和(B)C-端偶联试剂设计的示意图。

图2是利用C-端连接的荧光测序技术的原理的图示。

图3描绘了化学方法的一个例子，所述化学方法包含用于用C-端偶联试剂标记C-端羧酸的噁唑酮化学。

图4A和4B描绘了用叠氮化物柄标记肽的末端羧酸的MS波谱证据。将具有序列H₂N-ELYAEKVATR-OH(SEQ ID NO:22)的肽缀合至亲核柄(H₂N-PEG4-叠氮化物)。进行产物的12min LC/MS分离(图4A)，并且MS1波谱(m/z-716.7，具有+2电荷)指示期望产物(图4B)。

图5A-H显示了光氧化还原催化的血管紧张素的C-端的缀合的反应方案(Asp-Arg-Val-Tyr-Ile-His-Pro＝SEQ ID NO:23)。图5B和图5C显示了与12-分钟LC分离上的523-524(5B,血管紧张素-洗脱峰在5.3分钟)和594-595(5C,血管紧张素C-端加合物e)对应的质量范围的提取离子色谱图。图5D-5H代表图5B和5C的高分辨率图像。

图6显示了C-端偶联试剂的一个例子，所述C-端偶联试剂包含：(a)用于偶联至肽C-端羧酸残基的胺或Michael受体，(b)用于通过杂交进行检测的带条形码的核酸寡聚体，和(c)用于与炔烃官能化的表面进行点击化学固定化的炔烃残基。

图7解释了来自不同样品的多路化肽用于通过荧光测序技术进行鉴定和定量的示意图。

图8提供了用于光氧化还原C-端标记测定的台式装置的照片。

图9A提供了光氧化还原C-端标记反应的方案。

图9B提供了来自血管紧张素II的光氧化还原C-端标记测定的液相色谱法-质谱法(LCMS)结果。

图9C提供了降冰片烯酮标记的血管紧张素II的质谱图。

图10A总结了通过光氧化还原偶联测定用降冰片烯酮对胰蛋白酶处理的牛血清白蛋白(BSA)、人蛋白分离物和酵母蛋白分离物的C-端标记效率。

图10B总结了通过光氧化还原偶联测定用降冰片烯酮对GluC和胰蛋白酶消化的牛血清白蛋白(BSA)、人蛋白分离物和酵母蛋白分离物的C-端标记效率。

图11总结了多种氨基酸的肽终止的C-端标记效率。

图12小图A提供了一种肽荧光测序方案，其包含C-端和选择性氨基酸侧链标记。

图12小图B提供了多个基底固定化的、荧光标记的肽的荧光图像。

图12小图C提供了来自图12小图A中概述的测定的肽计数，其中使用血管紧张素、包含序列AK*AGANY{PRA}R-ONH₂(SEQ ID NO:24)的肽、和无肽水。

图13提供了包含不同C-端氨基酸类型的肽的可变C-端标记效率的表。

具体实施方式

使肽或蛋白的C-端羧酸选择性地反应并非易事，因为例如肽和蛋白的C-端羧酸与包含羧酸部分的氨基酸残基(例如，谷氨酸和天冬氨酸)之间的化学相似性。选择性地靶向C-端羧基的能力在蛋白组学领域具有宽广潜力。将C-端标记与官能化亲核柄的设计相结合，为单分子蛋白测序、质谱法、肽纯化和纳米孔技术中的许多方法提供了实用性。在一个方面，本文描述了例如，(a)使试剂(例如，C-端偶联试剂)与肽或蛋白的C-端氨基酸选择性地反应的方法，(b)可以选择性地与肽或蛋白的C-端氨基酸反应的组合物和试剂(例如，C-端偶联试剂)，和(c)使用本文所述的C-端选择性试剂的许多蛋白质组学技术的应用和方法，诸如、例如，单分子蛋白测序。

术语和定义：

本文中使用的单数形式“a”、“an”和“所述”包括复数指示物，除非上下文另外清楚地指明。因而，例如，对“an agent(一种试剂)”的提及包括多种这样的试剂，且对“所述细胞”的提及包括对一种或多种细胞(或多个细胞)和本领域技术人员已知的其等同物的提及，诸如此类。当在本文中为物理性质(诸如分子量)或化学性质(诸如化学式)使用范围时，意图包括范围的所有组合和子组合以及在其中的具体实施方案。当提及数字或数值范围时，术语“约”意味着所提及的数字或数值范围是在实验变异性内(或在统计实验误差内)的近似值，并因此，数字或数值范围可以在所述数字或数值范围的1％至15％之间变化。术语“包含”(和有关的术语诸如“涵盖”或“含有”或“具有”或“包括”)无意排除以下情况：在本文描述的其它某些实施方案中，例如，在任何物质组分、组合物、方法或过程等的一个实施方案中，其可以“由所描述的特征组成”或“基本上由所描述的特征组成”。

本文中使用的术语“基本上”或“基本”通常表示，与参考(诸如、例如，实体的原始组成或状态)相比，至少约60％或60％、约70％或70％、或约或在75％、80％、85％、90％、95％、96％、97％、98％、99％或更高。因而，“基本上”不偶联至内部氨基酸的试剂指示，至少约60％或60％、约70％或70％、或约或在75％、80％、85％、90％、95％、96％、97％、98％、99％或更高量的该试剂未与内部氨基酸反应。

本文中使用的术语“选择性的”或“选择性地”通常表示对一种组合物比对另一种组合物优先至少约50％或50％、约60％或60％、约70％或70％、或约或在75％、80％、85％、90％、95％、96％、97％、98％、99％或100％。例如，对肽或蛋白的C-端氨基酸“有选择性”的反应，是指与肽或氨蛋白的C-端氨基酸的反应比与其另一基团(诸如、例如，肽或蛋白的内部氨基酸)的反应优先约50％或50％、约60％或60％、约70％或70％、或约或在75％、80％、85％、90％、95％、96％、97％、98％、99％或100％。

本文中使用的术语“氨基酸”一般表示这样的有机化合物：其含有至少一个氨基基团-NH₂(其可以以其离子化形式-NH₃ ⁺存在)和一个羧基基团-COOH(其可以以其离子化形式-COO^-存在)，其中所述羧酸在中性pH去质子化，具有式⁺NH₃CHRCOO^-。氨基酸具有一个N(氨基)-端残基区域和一个C(羧基)-端残基区域，因此肽也具有一个N(氨基)-端残基区域和一个C(羧基)-端残基区域。氨基酸的类型可以包括被视作“天然的”的至少20种，因为它们构成哺乳动物中的大多数生物蛋白，并包括氨基酸，诸如、例如赖氨酸、半胱氨酸、酪氨酸、苏氨酸等。氨基酸也可以根据其侧链进行分组，诸如(在中性pH)具有羧酸基团的那些氨基酸，包括天冬氨酸或天冬氨酸盐/酯(Asp；D)和谷氨酸或谷氨酸盐/酯(Glu；E)；和碱性氨基酸(在中性pH)，包括赖氨酸(Lys；L)、精氨酸(Arg；N)和组氨酸(His；H)。

本文中使用的术语“端”被称作单数末端(terminus)和复数末端(termini)。“N-端氨基酸残基”可以表示在肽或蛋白的末端处具有游离NH₂或NH₃的氨基酸残基。“C-端氨基酸残基”可以表示在肽或蛋白的末端处具有游离COOH或COO^-的氨基酸残基。

本文中使用的术语“侧链”、“残基”或“R”表示连接到α-碳(偶联氨基酸的胺基和羧酸基的碳)的基团，其提供氨基酸的每种类型(例如，天然氨基酸)。R基团具有多种形状、大小、电荷和反应性，诸如、例如，带电荷的极性侧链(例如，带正电荷的或带负电荷的，诸如、例如，赖氨酸(⁺)、精氨酸(⁺)、组氨酸(⁺)、天冬氨酸根(^-)和谷氨酸根(^-))；氨基酸还可以是碱性的(例如，赖氨酸)或酸性的(例如，谷氨酸)；不带电荷的极性侧链可以包含基团，诸如、例如，羟基、酰胺基或巯基(例如，半胱氨酸)，其可以是化学反应性的侧链(例如，可以与另一个半胱氨酸、丝氨酸(Ser)和苏氨酸(Thr)形成键的巯基)；天冬酰胺(Asn)、谷氨酰胺(Gln)和酪氨酸(Tyr)；非极性疏水氨基酸侧链(例如，甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸)，其具有大小范围在从甲基基团(例如，丙氨酸)至异构丁基基团(例如，亮氨酸和异亮氨酸)的范围内的脂族烃侧链；具有硫醇醚侧链的甲硫氨酸(Met)；具有环状吡咯烷侧基的脯氨酸(Pro)。苯丙氨酸(对于其苯基部分)(Phe)和色氨酸(Trp)(对于其吲哚基团)含有芳族侧链，其特征是体积大且缺乏极性。

可以用名称、3-字母代码或1-字母代码来表示氨基酸，分别例如，半胱氨酸，Cys，C；赖氨酸，Lys，K；色氨酸，Trp，W。

“非天然”氨基酸是既非在遗传密码中天然编码或发现的氨基酸，也非在哺乳动物和植物中通过从头代谢途径产生的氨基酸。它们可以通过添加在自然界氨基酸上通常不存在或罕见的侧链来合成。例子可以包括：β-氨基酸(例如，β-丙氨酸)、高氨基酸(例如，高丝氨酸)、脯氨酸衍生物(例如，顺式-4-羟基-D-脯氨酸)、3-取代的丙氨酸衍生物(例如，3,3-二苯基-D-丙氨酸)、甘氨酸衍生物(例如，肌氨酸)、环取代的苯丙氨酸和酪氨酸衍生物(分别例如，4-氯-L-苯丙氨酸和3-氯-L-酪氨酸)、直链核心氨基酸(例如，4-氨基-3-羟基丁酸)和N-甲基氨基酸(例如，L-相思豆氨酸)。

本文中使用的β氨基酸是非天然氨基酸，其氨基基团与β碳键合，而不是如在20种标准生物氨基酸中那样与α-碳键合。唯一常见的天然存在的β氨基酸是β-丙氨酸。

如本文中使用的，本文中使用的术语“氨基酸序列”、“肽”、“肽序列”、“多肽”、“寡肽”、“多肽序列”和“寡肽序列”表示通过肽(酰胺)键或肽键类似物共价地连接的至少2个氨基酸或氨基酸类似物。术语肽包括氨基酸或氨基酸类似物的寡聚体和聚合物。术语肽也包括可以被称作寡肽的分子，其可以含有从约两(2)个至约二十(20)个氨基酸。术语肽可以包括通常被称作多肽的分子，其通常含有超过二十(20)个氨基酸。术语肽也包括通常被称作蛋白的分子，其可以含有至少约二十(20)个氨基酸和确定结构特征的集合(例如，二级、三级和四级结构的集合)。肽的氨基酸可以是L-氨基酸或D-氨基酸。肽、多肽或蛋白可以是合成的、重组的或天然存在的。合成的肽是通过人工方式在体外产生的肽。

本文中使用的术语“荧光”表示已吸收不同波长光的物质所发射的可见光。荧光可以提供基于特定波长的荧光发射而追踪和/或分析生物分子的非破坏性方式。蛋白(包括抗体)、肽、核酸、寡核苷酸(包括单链的和双链的引物)可以用多种被称为荧光团的外源荧光分子“标记”。

本文中使用的“单分子水平”的肽测序表示从单独(即单个)肽分子获得的氨基酸序列信息，所述肽分子可以与多种肽分子混合。本发明不必限于其中从单个肽分子获得的氨基酸序列信息是单个肽分子的完整或连续氨基酸序列的方法。获得仅部分氨基酸序列信息可能就足够，从而允许鉴定肽或蛋白。部分氨基酸序列信息，包括例如在单个肽分子内的特定氨基酸残基(即，赖氨酸)的图样，可能足以独特地鉴定单个肽分子。例如，可以对照给定生物体的已知蛋白质组来搜索指示在单个肽分子内的赖氨酸分子分布的氨基酸图样，诸如，例如，X-X-X-Lys-X-X-X-X-Lys-X-Lys(SEQ ID NO:25)，以鉴定所述单个肽分子。单分子水平的肽测序无意限于鉴定在单个肽分子中的赖氨酸残基图样；任何氨基酸残基(包括多个氨基酸残基)的序列信息可以用于鉴定不同肽分子的混合物中的单个肽分子。

本文中使用的“单分子灵敏度”表示从不同肽分子的混合物中的单独肽分子获取数据(包括，例如，氨基酸序列信息)的能力。在一个非限制性实施例中，可以将多种肽分子的混合物固定化在固体表面上(包括，例如，载玻片或其表面已被化学修饰的载玻片)。这可以包括同时记录分布在玻璃表面上的多个单独(即单个)肽分子的荧光强度的能力。可以以这种方式应用的光学装置是商购可得的。例如，配备全内反射照明和增强型电荷耦合器件(CCD)检测器的常规显微镜是可用的(参见Braslaysky等人,2003)。使用高灵敏度CCD照相机的成像允许仪器同时记录分布在表面上的多个单独(即单个)肽分子的荧光强度。可以使用图像分离器执行图像采集，所述图像分离器引导光穿过两个带通滤光片(每个适合一种荧光分子)，以在CCD表面上记录为两个并排图像。使用带有自动聚焦控制的电动显微镜载物台对流动池中的多个载物台位置成像，可以允许在一个实验中对数百万个(或者更多个)单独的单个肽进行测序。

本文中使用的术语“单细胞蛋白组学”表示对细胞的蛋白质组的研究。蛋白质组可以是单个细胞的。蛋白质组可以是细胞簇的。细胞簇可以是至少两个细胞。细胞簇可以是2、5、10、20、30、40、50、60、70、80、90、100个或更多个细胞。细胞簇可以是2-10个细胞。在某些实施方案中，单细胞的蛋白质组包含蛋白、肽或其组合。在某些实施方案中，研究蛋白质组包含确定至少一种肽、蛋白或其组合的氨基酸序列。在某些实施方案中，通过对肽、蛋白或其组合进行测序来确定氨基酸序列。细胞可以是真核的、原核的或太古的。

本文中使用的术语“支持物”表示作为固体或半固体支持物。在某些实施方案中，所述支持物是珠或树脂。

本文中使用的术语“条形码”或“条形码序列”表示可以被识别以将一种探针、肽、蛋白或其任意组合与另一种探针、肽、蛋白或其任意组合区分开的分子。一般而言，条形码或条形码序列对分子进行标记或提供某种分子以某种标识。条形码可以是人工分子或天然存在的分子。在某些实施方案中，条形码群体中的至少一部分条形码包含与所述条形码群体中的另一种条形码不同的条形码。在某些实施方案中，至少约10％、20％、30％、40％、50％、60％、70％、80％、90％、95％、99％或更多的条形码是不同的。条形码群体中不同条形码的多样性可以是随机产生的或非随机产生的。

本文中使用的术语“核酸条形码序列”表示具有特定核酸序列的分子。通常，核酸条形码序列可以包括一个或多个可以用于识别一个或多个特定核酸的核苷酸序列。核酸条形码序列可以是人工序列，或可以是天然存在的序列。核酸条形码序列可以包含至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或更多个连续核苷酸。在某些实施方案中，核酸条形码序列包含至少约10、20、30、40、50、60、70、80、90、100个或更多个连续核苷酸。在某些实施方案中，包含条形码的核酸群体中的至少一部分核酸条形码序列是不同的。在某些实施方案中，至少约10％、20％、30％、40％、50％、60％、70％、80％、90％、95％、99％或更多的核酸条形码序列是不同的。包含核酸条形码序列的核酸群体中不同核酸条形码序列的多样性可以是随机产生的或非随机产生的。

本文中使用的术语“核酸”通常表示任何长度的核苷酸的聚合形式，无论是核糖核苷酸(RNA)、脱氧核糖核苷酸(DNA)还是肽核酸(PNA)，其包含嘌呤和嘧啶碱基，或者其它天然的、化学或生物化学修饰的、非天然的或衍生的核苷酸碱基。多核苷酸的骨架可以包含糖和磷酸基团，如通常可以在RNA或DNA中发现的，或可以包含修饰的或被取代的糖或磷酸基团。多核苷酸可以包含修饰的核苷酸，诸如甲基化的核苷酸和核苷酸类似物。核苷酸的序列可以被非核苷酸组分中断。因此，术语核苷、核苷酸、脱氧核苷和脱氧核苷酸通常包括类似物诸如本文所述的那些。这些类似物是具有与天然存在的核苷或核苷酸相同的一些结构特征的那些分子，使得当掺入核酸或寡核苷序列中时，它们允许与溶液中天然存在的核酸序列杂交。通常，这些类似物是通过替换和/或修饰碱基、核糖或磷酸二酯部分而从天然存在的核苷和核苷酸衍生出的。可以根据需要定制变化以使杂交体形成稳定或失稳或增强与互补核酸序列杂交的特异性。核酸分子可以是DNA分子。核酸分子可以是RNA分子。

测序反应可以包含例如毛细管测序、下一代测序、Sanger测序、通过合成实现的测序、单分子纳米孔测序、通过连接实现的测序、通过杂交实现的测序、通过纳米孔电流限制实现的测序或其组合。通过合成实现的测序可以包含可逆终止子测序、持续单分子测序、连续核苷酸流测序或其组合。单分子测序可以提供单分子分辨率。连续核苷酸流测序可以包含焦磷酸测序、pH介导的测序、半导体测序或其组合。进行一个或多个测序反应可以包含全基因组测序或外显子组测序。杂交反应可以包含例如荧光原位杂交(FISH)、DNA漆、多条形码识别(例如，MER-FISH)。

测序反应或杂交反应可以包含一个或多个捕获探针或一个或多个捕获探针文库。所述一个或多个捕获探针文库中的至少一个可以包含针对1、2、3、4、5、6、7、8、9、10、11、12、13、14、15个或更多个基因组区域的一个或多个捕获探针。捕获探针文库可以是至少部分互补的。捕获探针文库可以是完全互补的。捕获探针文库可以是至少约5％、10％、15％、20％、％、25％、30％、35％、40％、45％、50％、55％、60％、70％、80％、90％、95％、97％或更高百分比互补的。

本文公开的方法和系统可以进一步包含对一个或多个不含捕获探针的核酸分子进行一个或多个测序反应或杂交反应。本文公开的方法和系统可以进一步包含对包含一个或多个不含捕获探针的核酸分子的一个或多个子集进行一个或多个测序反应或杂交反应。

本文中使用的术语“标记”是向分子引入化学基团，这产生某种形式的可测量信号。这样的信号可以包括、但不限于荧光、可见光、质量、辐射或核酸序列。

本文中使用的C₁-C_x包括C₁-C₂,C₁-C₃……C₁-C_x。仅作为例子，被命名为“C₁-C₄”的基团指示，在所述部分中存在1-4个碳原子，即含有1个碳原子、2个碳原子、3个碳原子或4个碳原子的基团。因而，仅作为例子，“C₁-C₄烷基”指示，在烷基基团中存在1-4个碳原子，即，所述烷基基团选自甲基、乙基、丙基、异丙基、正丁基、异丁基、仲丁基和叔丁基。

“烷基”基团表示脂族烃基。烷基基团是支链或直链。在某些实施方案中，所述“烷基”基团具有1-10个碳原子，即C₁-C₁₀烷基。每当它在本文中出现时，数值范围诸如“1-10”表示在给定范围内的每个整数；例如，“1-10个碳原子”是指，烷基基团由1个碳原子、2个碳原子、3个碳原子、4个碳原子、5个碳原子、6个碳原子、等等、一直到10个碳原子且包括10个碳原子组成，尽管本定义也涵盖在没有指出数值范围的情况下术语“烷基”的出现。在某些实施方案中，烷基是C₁-C₆烷基。在一个方面，所述烷基是甲基、乙基、丙基、异丙基、正丁基、异丁基、仲丁基或叔丁基。典型的烷基基团包括但绝不限于甲基、乙基、丙基、异丙基、丁基、异丁基、仲丁基、叔丁基、戊基、新戊基或己基。

“亚烷基”基团表示二价烷基基团。上述单价烷基基团中的任一个可以通过从烷基除去第二个氢原子而产生亚烷基。在某些实施方案中，亚烷基是C₁-C₆亚烷基。在其它实施方案中，亚烷基是C₁-C₄亚烷基。在某些实施方案中，亚烷基包含1-4个碳原子(例如，C₁-C₄亚烷基)。在其它实施方案中，亚烷基包含1-3个碳原子(例如，C₁-C₃亚烷基)。在其它实施方案中，亚烷基包含1-2个碳原子(例如，C₁-C₂亚烷基)。在其它实施方案中，亚烷基包含1个碳原子(例如，C₁亚烷基)。在其它实施方案中，亚烷基包含2个碳原子(例如，C₂亚烷基)。在其它实施方案中，亚烷基包含2-4个碳原子(例如，C₂-C₄亚烷基)。典型的亚烷基基团包括但不限于-CH₂-、-CH(CH₃)-、-C(CH₃)₂-、-CH₂CH₂-、-CH₂CH(CH₃)-、-CH₂C(CH₃)₂-、-CH₂CH₂CH₂-、-CH₂CH₂CH₂CH₂-等。

术语“烯基”表示其中存在至少一个碳-碳双键的烷基基团的类型。在一个实施方案中，烯基基团具有式-C(R)＝CR₂，其中R表示烯基基团的剩余部分，其可以相同或不同。在某些实施方案中，R是H或烷基。在某些实施方案中，烯基选自乙烯基(即，乙烯基)、丙烯基(即，烯丙基)、丁烯基、戊烯基、戊二烯基等。烯基基团的非限制性例子包括-CH＝CH₂、-C(CH₃)＝CH₂、-CH＝CHCH₃、-C(CH₃)＝CHCH₃和-CH₂CH＝CH₂。

术语“炔基”表示其中存在至少一个碳-碳三键的烷基基团的类型。在一个实施方案中，炔基基团具有式-C≡C-R，其中R表示炔基基团的剩余部分。在某些实施方案中，R是H或烷基。在某些实施方案中，炔基选自乙炔基、丙炔基、丁炔基、戊炔基、己炔基等。炔基基团的非限制性例子包括-C≡CH、-C≡CCH₃、-C≡CCH₂CH₃、-CH₂C≡CH。

“烷氧基”基团表示(烷基)O-基团，其中烷基如本文中定义。

术语“烷基胺”表示-N(烷基)_xH_y基团，其中x是0且y是2，或其中x是1且y是1，或其中x是2且y是0。

术语“芳族”表示具有含有4n+2个π电子的离域π-电子系统的平面环，其中n是整数。术语“芳族”包括碳环芳基(“芳基”，例如，苯基)和杂环芳基(或“杂芳基”或“杂芳族”)基团(例如，吡啶)。该术语包括单环或稠环多环(即，共享邻近碳或氮原子对的环)基团。

术语“碳环的”或“碳环”表示这样的环或环系统：其中形成环主链的原子都是碳原子。该术语因而将碳环与“杂环的”环或“杂环”(其中环主链含有至少一个不同于碳的原子)区分开。在某些实施方案中，二环碳环的两个环中的至少一个是芳族。在某些实施方案中，二环碳环的两个环是芳族。碳环包括环烷基和芳基。

术语“氧代”表示C＝O。

本文中使用的术语“芳基”表示这样的芳族环：其中形成环的每个原子是碳原子。在一个方面，芳基是苯基或萘基。在某些实施方案中，芳基是苯基。在某些实施方案中，芳基是C₆-C₁₀芳基。取决于结构，芳基基团是单价基团或二价基团(即，亚芳基基团)。

术语“环烷基”表示单环或多环脂族、非芳族基团，其中形成环的每个原子(即骨架原子)是碳原子。在某些实施方案中，环烷基是螺环或桥连化合物。在某些实施方案中，环烷基任选地与芳族环稠合，且连接点是在非芳族环碳原子的碳处。环烷基基团包括具有3-10个环原子的基团。在某些实施方案中，环烷基基团选自环丙基、环丁基、环戊基、环戊烯基、环己基、环己烯基、环庚基、环辛基、螺[2.2]戊基、降冰片基和二环[1.1.1]戊基。在某些实施方案中，环烷基是C₃-C₆环烷基。在某些实施方案中，环烷基是单环环烷基。单环环烷基包括但不限于环丙基、环丁基、环戊基、环己基、环庚基和环辛基。多环环烷基包括，例如，金刚烷基、降冰片基(即，二环[2.2.1]庚烷基)、降冰片烯基、十氢萘基、7,7-二甲基-二环[2.2.1]庚烷基等。

术语“卤代”或可替换地“卤素”或“卤化物”是指氟代、氯代、溴代或碘代。在某些实施方案中，卤代是氟代、氯代或溴代。

术语“卤代烷基”表示这样的烷基：其中一个或多个氢原子被卤素原子替换。在一个方面，氟代烷基是C₁-C₆氟代烷基。

术语“氟代烷基”表示这样的烷基：其中一个或多个氢原子被氟原子替换。在一个方面，氟代烷基是C₁-C₆氟代烷基。在某些实施方案中，氟代烷基选自三氟甲基、二氟甲基、氟甲基、2,2,2-三氟乙基、1-氟甲基-2-氟乙基等。

术语“杂烷基”表示这样的烷基基团：其中所述烷基的一个或多个骨架原子选自除碳以外的原子，例如，氧、氮(例如，-NH-、-N(烷基)-)、硫或其组合。杂烷基在杂烷基的碳原子处连接至分子的其余部分。在一个方面，杂烷基是C₁-C₆杂烷基。

术语“亚杂烷基”表示二价杂烷基基团。

术语“杂环”或“杂环的”表示在环中含有1-4个杂原子的杂芳族环(也被称作杂芳基)和杂环烷基环(也被称作杂脂环族基团)，其中环中的每个杂原子选自O、S和N，其中每个杂环基团在其环系统中具有3-10个原子，且前提条件是，任何环均不含有两个邻近的O或S原子。在某些实施方案中，杂环是单环的、二环的、多环的、螺环的或桥连的化合物。非芳族杂环基团(也被称作杂环烷基)包括在其环系统中具有3-10个原子的环，且芳族杂环基团包括在其环系统中具有5-10个原子的环。杂环基团包括苯并稠合的环系统。非芳族杂环基团的例子是吡咯烷基、四氢呋喃基、二氢呋喃基、四氢噻吩基、噁唑烷酮基、四氢吡喃基、二氢吡喃基、四氢噻喃基、哌啶基、吗啉基、硫代吗啉基、氧硫杂环己烷基、哌嗪基、氮杂环丙基、氮杂环丁基、氧杂环丁基、硫杂环丁基、高哌啶基、氧杂环庚烷基、硫杂环庚烷基、氧杂氮杂环庚三烯基、二氮杂环庚三烯基、硫杂氮杂环庚三烯基、1,2,3,6-四氢吡啶基、吡咯啉-2-基、吡咯啉-3-基、吲哚啉基、2H-吡喃基、4H-吡喃基、二氧杂环己烷基、1,3-二氧杂环戊烷基、吡唑啉基、二硫杂环己烷基、二硫杂环戊烷基、二氢吡喃基、二氢噻吩基、二氢呋喃基、吡唑烷基、咪唑啉基、咪唑烷基、3-氮杂双环[3.1.0]己烷基、3-氮杂双环[4.1.0]庚烷基、3H-吲哚基、吲哚啉-2-酮基、异吲哚啉-1-酮基、异吲哚啉-1,3-二酮基、3,4-二氢异喹啉-1(2H)-酮基、3,4-二氢喹啉-2(1H)-酮基、异吲哚啉-1,3-二亚硫酰基、苯并[d]噁唑-2(3H)-酮基、1H-苯并[d]咪唑-2(3H)-酮基、苯并[d]噻唑-2(3H)-酮基和喹嗪基。芳族杂环基团的例子是吡啶基、咪唑基、嘧啶基、吡唑基、三唑基、吡嗪基、四唑基、呋喃基、噻吩基、异噁唑基、噻唑基、噁唑基、异噻唑基、吡咯基、喹啉基、异喹啉基、吲哚基、苯并咪唑基、苯并呋喃基、噌啉基、吲唑基、吲嗪基、酞嗪基、哒嗪基、三嗪基、异吲哚基、喋啶基、嘌呤基、噁二唑基、噻二唑基、呋咱基、苯并呋咱基、苯并噻吩基、苯并噻唑基、苯并噁唑基、喹唑啉基、喹喔啉基、萘啶基和呋喃并吡啶基。前述基团是C-附着的(或C-连接的)或N-附着的，只要这样是可能的。例如，从吡咯衍生出的基团包括吡咯-1-基(N-附着的)或吡咯-3-基(C-附着的)。进一步，从咪唑衍生出的基团包括咪唑-1-基或咪唑-3-基(二者是N-附着的)或咪唑-2-基、咪唑-4-基或咪唑-5-基(都是C-附着的)。杂环基团包括苯并稠合的环系统。非芳族杂环任选地被一个或两个氧代(＝O)部分取代，诸如吡咯烷-2-酮。在某些实施方案中，二环杂环的两个环中的至少一个是芳族的。在某些实施方案中，二环杂环的两个环是芳族的。

术语“杂芳基”或可替换地“杂芳族”表示包括一个或多个选自氮、氧和硫的环杂原子的芳基基团。杂芳基基团的示例性例子包括单环杂芳基和二环杂芳基。单环杂芳基包括吡啶基、咪唑基、嘧啶基、吡唑基、三唑基、吡嗪基、四唑基、呋喃基、噻吩基、异噁唑基、噻唑基、噁唑基、异噻唑基、吡咯基、哒嗪基、三嗪基、噁二唑基、噻二唑基和呋咱基。二环杂芳基包括吲嗪、吲哚、苯并呋喃、苯并噻吩、吲唑、苯并咪唑、嘌呤、喹嗪、喹啉、异喹啉、噌啉、酞嗪、喹唑啉、喹喔啉、1,8-萘啶和喋啶。在某些实施方案中，杂芳基在环中含有0-4个N原子。在某些实施方案中，杂芳基在环中含有1-4个N原子。在某些实施方案中，杂芳基在环中含有0-4个N原子、0-1个O原子和0-1个S原子。在某些实施方案中，杂芳基在环中含有1-4个N原子、0-1个O原子和0-1个S原子。在某些实施方案中，杂芳基是C₁-C₉杂芳基。在某些实施方案中，单环杂芳基是C₁-C₅杂芳基。在某些实施方案中，单环杂芳基是5-元或6-元杂芳基。在某些实施方案中，二环杂芳基是C₆-C₉杂芳基。

“杂环烷基”或“杂脂环族”基团表示包括至少一个选自氮、氧和硫的杂原子的环烷基基团。在某些实施方案中，杂环烷基与芳基或杂芳基稠合。在某些实施方案中，所述杂环烷基是噁唑烷酮基、吡咯烷基、四氢呋喃基、四氢噻吩基、四氢吡喃基、四氢噻喃基、哌啶基、吗啉基、硫代吗啉基、哌嗪基、哌啶-2-酮基、吡咯烷-2,5-二亚硫酰基、吡咯烷-2,5-二酮基、吡咯烷酮基、咪唑烷基、咪唑烷-2-酮基或噻唑烷-2-酮基。术语杂脂环族也包括碳水化合物(包括、但不限于单糖类、二糖类和寡糖类)的所有环形式。在一个方面，杂环烷基是C₂-C₁₀杂环烷基。在另一个方面，杂环烷基是C₄-C₁₀杂环烷基。在某些实施方案中，杂环烷基在环中含有0-2个N原子。在某些实施方案中，杂环烷基在环中含有0-2个N原子、0-2个O原子和0-1个S原子。

术语“键”或“单键”表示两个原子之间的化学键，或当通过该键连接的原子被视作较大子结构的一部分时，两个部分之间的化学键。在一个方面，当本文描述的基团是键时，所提及的基团不存在，由此允许在剩余的所指基团之间形成键。

术语“部分”表示分子的特定区段或官能团。化学部分经常是公认的嵌入或附加到分子的化学实体。

术语“任选地被取代”或“被取代”是指，所提及的基团任选地被一个或多个另外基团取代。在一些其它的实施方案中，任选的取代基个别地和独立地选自D、卤素、-CN、-NH₂、-NH(烷基)、-N(烷基)₂、-OH、-CO₂H、-CO₂烷基、-C(＝O)NH₂、-C(＝O)NH(烷基)、-C(＝O)N(烷基)₂、-S(＝O)₂NH₂、-S(＝O)₂NH(烷基)、-S(＝O)₂N(烷基)₂、-CH₂CO₂H、-CH₂CO₂烷基、-CH₂C(＝O)NH₂、-CH₂C(＝O)NH(烷基)、-CH₂C(＝O)N(烷基)₂、-CH₂S(＝O)₂NH₂、-CH₂S(＝O)₂NH(烷基)、-CH₂S(＝O)₂N(烷基)₂、烷基、烯基、炔基、环烷基、氟代烷基、杂烷基、烷氧基、氟代烷氧基、杂环烷基、芳基、杂芳基、芳氧基、烷基硫基、芳基硫基、烷基亚砜、芳基亚砜、烷基砜和芳基砜。术语“任选地被取代”或“被取代”是指，所提及的基团任选地被一个或多个另外基团取代，所述另外基团个别地和独立地选自D、卤素、-CN、-NH₂、-NH(烷基)、-N(烷基)₂、-OH、-CO₂H、-CO₂烷基、-C(＝O)NH₂、-C(＝O)NH(烷基)、-C(＝O)N(烷基)₂、-S(＝O)₂NH₂、-S(＝O)₂NH(烷基)、-S(＝O)₂N(烷基)₂、烷基、环烷基、氟代烷基、杂烷基、烷氧基、氟代烷氧基、杂环烷基、芳基、杂芳基、芳氧基、烷基硫基、芳基硫基、烷基亚砜、芳基亚砜、烷基砜和芳基砜。在一些其它的实施方案中，任选的取代基独立地选自D、卤素、-CN、-NH₂、-NH(CH₃)、-N(CH₃)₂、-OH、-CO₂H、-CO₂(C₁-C₄烷基)、-C(＝O)NH₂、-C(＝O)NH(C₁-C₄烷基)、-C(＝O)N(C₁-C₄烷基)₂、-S(＝O)₂NH₂、-S(＝O)₂NH(C₁-C₄烷基)、-S(＝O)₂N(C₁-C₄烷基)₂、C₁-C₄烷基、C₃-C₆环烷基、C₁-C₄氟代烷基、C₁-C₄杂烷基、C₁-C₄烷氧基、C₁-C₄氟代烷氧基、-SC₁-C₄烷基、-S(＝O)C₁-C₄烷基和-S(＝O)₂C₁-C₄烷基。在某些实施方案中，任选的取代基独立地选自D、卤素、-CN、-NH₂、-OH、-NH(CH₃)、-N(CH₃)₂、-CH₃、-CH₂CH₃、-CF₃、-OCH₃和-OCF₃。在某些实施方案中,被取代的基团是被上述基团中的一个或两个取代。在某些实施方案中,被取代的基团是被上述基团中的一个取代。在某些实施方案中，在脂族碳原子(无环或环状)上的任选取代基包括氧代(＝O)。

如本文中所述的，术语“柄”表示可以偶联至蛋白或肽的C-端羧酸的分子。柄可以包含主链(例如，亚烷基、聚乙二醇和酰胺基)、亲核体(例如，胺或硫醇)、亲电体(例如，Michael受体)、检测单元(例如，荧光团、核酸寡聚体或带电荷基团)、官能化单元(例如，生物素、叠氮化物、炔烃、硫醇、烯烃、羧酸或胺)或其任意组合。柄可以包含至少一个接头。

如本文中所述的“接头”偶联至少两个分子。在某些实施方案中，接头直接地或间接地偶联至少两个分子。接头可以是用于标记氨基酸侧链的双功能分子。该分子的一个末端可以包含氨基酸特异性的官能团(例如，用于标记半胱氨酸上的巯基残基的碘乙酰胺)，且另一个末端可以是适合用于标记的不同官能团。如果不需要附着报告物，那么所述官能团可以是惰性基团(例如，烷烃)。标签分子的报告末端可以是荧光团。标签可以包含至少一个可以产生独特信号(例如，荧光信号或电信号)的带电荷分子。

术语“报告物”或“标签”表示产生可识别信号的分子。报告物的例子包括荧光团(例如，荧光团簇)、可以杂交的DNA分子、或产生独特电信号状态的分子。

本文中使用的术语“反应试剂”通常表示与肽或蛋白反应的化学或生物试剂。“反应试剂”可以选择性地与肽或蛋白的C-端氨基酸反应。

本文中使用的术语“内部氨基酸残基”通常表示在肽或蛋白的C-端氨基酸残基或N-端氨基酸残基之间的氨基酸残基。

本文中使用的术语“亲核体”通常表示贡献电子对以与另一种化学物质(例如，第二原子)形成化学键的化学物质(例如，第一原子)。可以充当亲核体的原子的例子是卤素(例如，氟、氯、溴、碘)、氧、硫、氮和碳。亲核体的例子包括但不限于富含电子的化学物质、带负电荷的化学物质、胺、醇、硫醇、硫化物、炔烃、烯烃、羧酸、腈、水、叠氮化物、亚硝酸盐、羟胺、肼和卡巴肼。本文中使用的术语“亲电体”通常表示接受电子对以与另一种化学物质(例如，第二原子)形成化学键的化学物质(例如，第一原子)。可以充当亲电体的原子的例子是氢、卤素、硫和碳。亲电体的例子包括但不限于贫电子的化学物质、带正电荷的化学物质、烯烃、二烯、酰化物、丙烯酰胺、氰酸盐、羧酸、酰胺、酯、砜、醛和共轭系统(例如，Michael受体或共轭芳族系统)。例如，亲核体可以与亲电体反应以在该亲核体和该亲电体之间形成化学键。

本文中使用的术语“官能化部分”通常表示附着至母体分子并且可以被化学修饰以提供操纵母体分子的途径的化学物质。

本文中使用的术语“富集部分”通常表示附着至母体分子并且可以被化学修饰以提供增加样品中母体分子的相对量的途径的化学物质。

化合物

本公开内容提供了用于标记C-端氨基酸的C-端偶联试剂。C-端偶联试剂可以包含：(i)选择性地偶联至肽C-端羧酸(例如，形成共价键)的部分，诸如亲核体(例如，噁唑酮-或酶-型亲核体(例如，胺))或Michael受体(例如，光氧化还原-型Michael受体)；和(ii)至少一个用于C-端肽的表面固定化和/或富集的功能柄(例如，炔烃、叠氮化物、生物素或核酸(例如，RNA、DNA和PNA))(图1B)。所述C-端偶联试剂可以包含肽或核酸。所述肽或核酸可以包含含有至少一个官能团(例如，核酸寡聚体、荧光团、炔烃、叠氮化物和生物素)的至少一个内部氨基酸链。所述肽可以包含至少1、2、5、10、20、30、40、50、60、70、80、90、100个或更多个氨基酸。所述肽可以包含至少1、2、5、10、20、30、40、50、60、70、80、90、100个或更多个官能团。官能团可以是惰性基团，诸如，诸如烷烃，或反应性官能团，诸如硫醇。所述肽或核酸可以是肽或核酸条形码。多种C-端偶联试剂可以包含多种条形码，例如以实现样品之间蛋白的相对定量，对批效应的控制。本文描述的C-端偶联试剂的设计的例子显示在图1B和图6中。

本公开内容的各个方面提供了组合物，其包含偶联至C-端偶联试剂并固定化至固体支持物的肽。所述肽可以通过C-端偶联试剂(例如，C-端偶联试剂可以偶联至肽并偶联至固体支持物)、通过其N-端或通过内部氨基酸残基(例如，所述肽的半胱氨酸巯基可以偶联至与固体支持物偶联的马来酰亚胺接头)偶联至固体支持物。

所述C-端偶联试剂可以含有1、2或3个柄。柄可以给C-端偶联试剂赋予性质(例如，荧光或电荷)。柄可以构造用于检测(例如，可以包含可检测部分诸如荧光团)、表面固定化(例如，可以包含构造成与基底固定化的叠氮化物偶联的炔烃)、富集(例如，可以包含蛋白纯化标签诸如His-标签或FLAG-标签)、纳米孔测序(例如，可以包含这样的部分：其包含多个带正电荷的残基以增强电梯度介导的迁移)或化学偶联(例如，铜介导的对目标物质诸如荧光团的置换)或其任意组合。柄可以通过一个或多个接头(例如，寡乙二醇接头)连接至C-端偶联试剂。

所述C-端偶联试剂可以构造用于表面固定化。例如，所述C-端偶联试剂可以包含柄，所述柄包含构造成偶联至官能化表面上的叠氮基的炔烃基，由此能够通过选择性反应偶联至所述表面(例如，固定化可以仅发生在C-端偶联试剂偶联的肽和表面结合的叠氮基之间)。C-端偶联试剂可以包含构造用于点击化学、第尔斯-阿尔德反应、硫醇-烯化学、酰胺偶联或其任意组合的柄。

本文中公开的某些方面提供了用于标记包含C-端和内部氨基酸残基的肽或蛋白的化合物，所述C-端含有第一羧酸部分，所述内部氨基酸残基含有第二羧酸部分，其中所述化合物构造成相对于所述第二羧酸部分优先偶联至所述第一羧酸部分，其中所述化合物具有式(I)的结构：

其中：

L¹、L²和L³是独立地被取代的接头、未被取代的接头或键；

R¹包含C-端偶联试剂；

R²包含含有可检测部分的柄；

R³包含含有富集部分的柄；

X的每个实例独立地选自C-H、氨基酸或核苷酸，且

n是1-12。

在某些情况下，R¹包含C-端偶联试剂，其构造成相对于含羧酸的氨基酸侧链(例如，谷氨酸或天冬氨酸的侧链)选择性地偶联至肽C-端羧酸。

在某些情况下，R²和L²不存在(例如，被氢或烷烃替代)。在某些情况下，R³和L³不存在。在某些情况下，R²、R³、L²和L³不存在。

在某些情况下，所述化合物包含-L²-R²的多个实例，其中-L²-R²的不同实例可以不同或相同。

所述化合物可以具有式(Ia)的结构：

其中：

L¹、L²和L³独立地是键、被取代的或未被取代的亚烷基、被取代的或未被取代的烯基、被取代的或未被取代的炔基、被取代的或未被取代的杂烷基、-(R⁴)O(R⁴)-、氧代、-(R⁵)N(R⁶)(＝O)(R⁵)-；

R¹是C-端偶联试剂；

R²是检测部分、反应试剂或其任意组合；

R³是表面官能化或表面富集部分；

X的每个实例独立地选自C-H、氨基酸或核苷酸，

R⁴是键、H、被取代的或未被取代的亚烷基、被取代的或未被取代的烯基、被取代的或未被取代的炔基、或被取代的或未被取代的杂烷基；

R⁵是键、H、被取代的或未被取代的亚烷基、被取代的或未被取代的烯基、被取代的或未被取代的炔基、被取代的或未被取代的杂烷基；

R⁶是H或被取代的或未被取代的烷基；且

n是1-12。

在某些情况下，R¹包含亲核体。在某些情况下，所述亲核体包含胺、醇、硫化物、带负电荷的物质或其任意组合。在某些情况下，所述胺是伯胺。在某些情况下，所述胺是仲胺。在某些情况下，所述胺是叔胺。在某些情况下，所述醇是伯醇。在某些情况下，所述醇是仲醇。在某些情况下，所述醇是叔醇。在某些情况下，R¹包含亲电体。在某些情况下，所述亲电体选自Michael受体、烯烃、二烯、丙烯酰胺、N-(丙-2-炔-1-基)甲基丙烯酰胺、异氰酸盐、异硫氰酸盐、氧杂环丙烷、α,β-不饱和羰基、乙烯基砜、降冰片酮或其任意组合。在某些情况下，R¹包含Michael受体。所述Michael受体可以包含α,β-不饱和酮、α,β-不饱和羧酸酯、α,β-不饱和酯、α,β-不饱和酰胺、α,β-不饱和腈、硝基烯烃(例如，2-硝基二环[2.2.1]庚-2-烯)、α,β-不饱和砜或其任意组合。所述Michael受体可以是空间受限的Michael受体(例如，Michaelα,β-不饱和位置可以排列在二环基团内，诸如二环庚烷)。[请相应编辑–受限的、含单羰基的化合物可以是使用光氧化还原化学作用于C-端的一般化合物名称]

本公开内容的各个方面提供了C-端偶联试剂，其包含含有桥连多环烷基或杂烷基结构的Michael受体。由于其空间体积，这样的Michael受体可以赋予增强的对C-端羧基基团的选择性(例如，相对于天冬氨酸和谷氨酸侧链羧基基团)，且在某些情况下，赋予更低的反应性。桥连多环结构可以包含任选地被取代的桥连二环C₅-C₁₄结构，诸如二环[1.1.1]戊烷、二环[2.1.1]己烷、二环[2.2.1]庚烷、二环[2.2.2]辛烷或二环[3.3.1]壬烷。桥连多环结构可以包含任选地被取代的桥连三环结构，诸如三环[2.2.1.0^2,6]庚烷或三环[5.2.1.0² ^,6]癸烷。在某些情况下，所述Michael受体包含直接结合至桥连多环结构的α,β-不饱和碳(例如，羰基或硝基)和吸电子基团(例如，

)。在某些情况下，所述Michael受体包含在桥连多环结构内的α,β-不饱和碳。例如，所述化合物可以包含C-端反应性的Michael受体，所述Michael受体包含

或其衍生物。

在某些情况下，所述Michael受体包含式(II)的结构、或其盐、溶剂化物、互变异构体或N-氧化物：

其中R⁷和R⁸一起形成桥连二环或三环C₅-C₁₄烷基或杂烷基结构，其任选地被R¹¹的一个或多个实例取代；

R⁹、R¹⁰、以及R¹¹的每个实例独立地选自由以下组成的组：氢、卤素、羟基、任选地被取代的芳基、任选地被取代的杂芳基、任选地被取代的环烷基、任选地被取代的杂环烷基、任选地被取代的胺、-C(＝O)-R¹²、任选地被取代的烷基、任选地被取代的烯基、任选地被取代的炔基、任选地被取代的烷氧基、任选地被取代的卤代烷基、任选地被取代的亚杂烷基和任选地被取代的卤代烷氧基，或R⁹和R¹⁰一起形成环烷基、杂环烷基、芳基或杂芳基；且

R¹²的每个实例独立地选自由以下组成的组：氢、卤素、羟基、任选地被取代的烷基、任选地被取代的羟基烷基、任选地被取代的亚杂烷基、任选地被取代的烷氧基、任选地被取代的卤代烷基和任选地被取代的卤代烷氧基。

在某些情况下，R⁷和R⁸一起形成桥连二环C₅-C₁₄烷基或杂烷基结构，其任选地被R¹¹的一个或多个实例取代。在某些情况下，R⁷和R⁸一起形成桥连二环C₆-C₁₀烷基或杂烷基结构，其任选地被R¹¹的一个或多个实例取代。在某些情况下，R⁷和R⁸一起形成桥连二环C₇-C₉烷基或杂烷基结构，其任选地被R¹¹的一个或多个实例取代。在某些情况下，R⁷和R⁸一起形成被R¹¹的至少一个实例取代的桥连二环C₇-C₉烷基或杂烷基结构。在某些情况下，R⁷和R⁸一起形成被R¹¹的至少一个实例取代的桥连二环C₈-C₁₀烷基或杂烷基结构。

在某些情况下，R⁹、R¹⁰、以及R¹¹的每个实例独立地选自由以下组成的组：氢、卤素、羟基、-C(＝O)-R¹²、任选地被取代的烷基、任选地被取代的烯基、任选地被取代的炔基、任选地被取代的烷氧基和任选地被取代的卤代烷基。在某些情况下，R⁹和R¹⁰中的至少一个是氢。在某些情况下，R⁹和R¹⁰中的至少一个不是氢。在某些情况下，R⁹和R¹⁰是氢。在某些情况下，R¹¹的每个实例不是氢。在某些情况下，R¹¹的每个实例选自由C₁-C₄烷基组成的组。在某些情况下，R¹¹的每个实例是甲基。

在某些情况下，任选地被取代表示羟基、卤素、-NH₂、烷基、烯基或炔基取代。在某些情况下，任选地被取代表示羟基、-NH₂或烷基取代。

在某些情况下，所述Michael受体包含降冰片烯酮部分或其衍生物。在某些情况下，所述降冰片烯酮包含亚甲基降冰片酮或其衍生物。在某些情况下，所述Michael受体包含3-亚甲基-2-降冰片酮或其衍生物。

C-端修饰的方法

蛋白、肽或其组合可以包含C-端氨基酸残基。蛋白、肽或其组合可以来源于，例如，细胞裂解物、生物流体(例如，血液、血浆、尿、唾液)或其组合。蛋白、肽或其组合可以是重组的、合成的或其组合。使用例如抗体拉下(pull down)方法(例如，免疫沉淀)、亲和力拉下方法、谷胱甘肽-S-转移酶(GST)拉下方法、串联亲和纯化(TAP)方法或其任意组合，可以富集蛋白、肽或其组合。通过蛋白分离方法(例如，色谱法和电泳)可以提取蛋白、肽或其组合。肽、蛋白或其组合可以从细胞、生物流体或其组合产生，并可以使用色谱法(例如，基于尺寸排阻、离子交换和亲和力的色谱法)或其它基于凝胶的提取方法(例如，琼脂糖)分离。

可以将蛋白、肽或其组合消化成蛋白、肽或其组合的肽片段。通过例如酶或小分子(例如，溴化氰、NTCB(2-硝基-5-硫代苯甲酸和异硫氰酸盐)，可以完成消化。所述酶可以是蛋白水解酶。所述酶可以是内切蛋白水解酶(例如，胰蛋白酶和Glu-C)。来源于蛋白、肽或其组合的肽片段可以含有包含末端羧酸的C-端氨基酸。本文公开的消化方法可以产生各种长度的肽片段。一种方法可以产生具有至少10个氨基酸、至少12个氨基酸、至少15个氨基酸、至少20个氨基酸、至少25个氨基酸、至少30个氨基酸、至少40个氨基酸、至少50个氨基酸、至少60个氨基酸、至少70个氨基酸或至少80个氨基酸的平均长度的肽片段。例如，消化方法可以包含产生平均长度为55-70个氨基酸的肽片段的单突变蛋白酶。一种方法可以产生具有至多80、至多70、至多60、至多50、至多40、至多30、至多25、至多20、至多15、至多10、至多8或至多5个氨基酸的平均长度的肽片段。例如，消化方法可以包含胰蛋白酶消化，并可以由此产生平均长度为7至15个氨基酸的肽片段。

一种方法可以产生包含相同C-端氨基酸的肽片段。选择性C-端标记的挑战源于某些C-端偶联试剂表现出的可变的氨基酸类型亲和力。C-端偶联试剂可以包含对不同类型的C-端氨基酸的一系列亲和力。例如，如图11所示，降冰片烯酮C-端偶联试剂可以包含对半胱氨酸和缬氨酸C-端氨基酸羧基基团的高亲和力，和对组氨酸C-端氨基酸羧基基团的相对低的亲和力。因此，一种方法可以包含GluC消化，并由此构造成产生具有谷氨酸和天冬氨酸C-端的肽片段。一种方法可以包含肠激酶或凝血酶消化，并由此构造成产生具有赖氨酸C-端的肽片段。一种方法可以包含因子Xa消化，并由此构造成产生具有精氨酸C-端的肽片段。一种方法可以包含TEV蛋白酶消化，并由此构造成产生具有谷氨酰胺C-端的肽。

蛋白、肽或其组合可以包含反应性的氨基酸残基(例如，内部氨基酸侧链残基、N-端氨基酸胺或侧链残基)。可以保护蛋白、肽或其组合的反应性的氨基酸残基(例如，可逆地偶联至保护试剂以减少反应性的氨基酸残基的反应性)。可以在标记C-端氨基酸之前保护反应性的氨基酸残基。反应性的氨基酸残基可以可逆地或不可逆地反应。保护反应性的氨基酸残基可以阻止或消除在C-端标记反应过程中可以形成的副产物的形成。可以在分离蛋白、肽或其组合之前或之后修饰反应性氨基酸。在分离蛋白、肽或其组合之前的修饰可以是翻译后修饰。翻译后修饰可以包括，例如，磷酸化、泛素化、甲基化、乙酰化、酰化、羧基化、亚硝酰化、瓜氨酸化或其任意组合。反应性的氨基酸残基可以包括，例如，半胱氨酸、N-端、赖氨酸、酪氨酸、丝氨酸、苏氨酸、精氨酸、组氨酸、天冬氨酸、谷氨酸、谷氨酰胺、脯氨酸和色氨酸。

在C-端标记之前或之后封闭亲核侧链的例子包括：

a)半胱氨酸：在半胱氨酸残基上的巯基可以可逆地或不可逆地用半胱氨酸反应性接头诸如含有碘乙酰胺或马来酰亚胺的化合物标记。

b)N-端氨基酸：在蛋白、肽或其组合的N-端处的氨基基团可以通过亲电体(例如，吡啶甲醛(pyridine carboxaldehyde,PCA))选择性地封闭。可以在液相或固相中封闭N-端(例如，将亲电体连接至固体支持物)。可以封闭N-端氨基基团以提供可逆的保护基。

c)赖氨酸：胺侧链可以用琥珀酰亚胺基酯、赖氨酸选择性的甲基转移酶、乙烯基砜、氨基甲酸酯、硫代氨基甲酸酯、碳酸酯、硫代碳酸酯、磺酰氯、四氟苯基(TFP)酯、羰基叠氮化物、醛或其任意组合标记。

封闭亲核侧链的其它例子包括在例如以下文献中公开的组合物和方法：Basle等人,Protein Chemical Modification on Endogenous Amino Acids,Chemistry andBiology,17,2010年3月26日。本文提供的用于封闭亲核侧链的例子无意是限制性的。可以用对氨基酸类型有选择性的反应试剂封闭肽或蛋白的任何亲核氨基酸侧链。可能没有必要封闭肽或蛋白的氨基酸侧链来使本文所述的组合物选择性地与肽或蛋白的C-端氨基酸反应。

可以在修饰C-端之前或之后释放蛋白、肽或其组合。在某些情况下，可以执行以下操作：(1)收集或分离多个肽，(2)将肽固定化在固体支持物上(例如，用半胱氨酸选择性的捕获部分或PCA-珠捕获化学(例如，通过N-端胺的缀合))，(3)将肽C-端与C-端偶联试剂缀合，(4)标记蛋白、肽或其组合的侧链，和(5)释放蛋白、肽或其组合用于下游分析。

化学方法

本公开内容的各种方法包含在偶联C-端偶联试剂之前衍生化肽C-端。所述衍生化可以增加C-端对C-端偶联试剂的反应性。所述衍生化可以增加对C-端偶联试剂的选择性。所述衍生化可以是酶促的。所述衍生化可以是非酶促的。所述衍生化可以包含单个步骤(例如，肽C-端的噁唑酮衍生化)或多个步骤。所述衍生化可以包含向噁唑酮中间体的C-端转化、C-端的氨甲酰化、向呋喃二酮的C-端转化、C-端酰胺化、C-端脱羧(例如，脱羧烷基化)或其任意组合。

肽C-端可以衍生化以形成噁唑酮中间体，从而实现特定的C-端反应，尽管难以区分C-端与Asp/Glu侧链。当前的鉴别方法受到限制，至少因为它们：(i)具有低衍生化效率，(ii)不含有官能化部分或富集部分(例如，双功能柄)，(iii)不反应以提供显著产率(例如，至少约90％、95％、99％、99.9％或更多的C-端反应的肽或蛋白)来执行蛋白组学(例如，测序)，(iv)需要使用不适合肽、蛋白或其组合的有机试剂和高温，和/或(v)不提供相对于Asp/Glu的显著特异性(与内部氨基酸残基相比，对C-端氨基酸残基的特异性为至少约10:1、100:1、1,000:1或更高)以执行蛋白组学(例如，测序)。本文公开的许多方法和组合物提供了C-端选择性噁唑酮环形成的改造形式，以允许双功能柄附着到C-端，而不与天冬氨酸或谷氨酸残基上的内部酸性基团反应。

噁唑酮环可以直接与C-端偶联试剂反应，或可以在与C-端偶联试剂反应之前被活化(例如，通过偶联至羟基苯并三唑(HoBT))。活化噁唑酮中间体可以增加包含C-端偶联试剂和肽C-端的偶联步骤的产率和特异性。例如，活化噁唑酮中间体可以增加其亲电性，从而能够使用较低亲核性(并因此能够使用较低交叉反应性和较高特异性)的C-端偶联试剂。这样的机制的一个例子如图3所示。

本公开内容的一种方法可以包含使C-端偶联试剂与肽C-端直接反应。可以构造成区分肽C-端的羧基的化学方法的一个例子是光氧化还原化学。因此，本公开内容提供了针对肽和蛋白(例如，胰岛素)的选择性C-端标记优化的光氧化还原方法和试剂(例如，光氧化还原催化剂)。一种光氧化还原催化剂或方法可以基于其还原电势的差异区分内部羧酸和C-端羧酸(例如，C-端可能比内部羧酸残基更容易还原)。例如，黄素光催化剂可以包含与羧基侧链相比对C-端羧酸的至少3倍特异性、至少5倍特异性、至少8倍特异性、至少10倍特异性、至少12倍特异性、至少15倍特异性、至少20倍特异性、至少25倍特异性、至少50倍特异性、至少100倍特异性或至少200倍特异性。

可以针对C-端选择性而优化光催化剂活化。在某些情况下，用相对低功率的光可以实现光催化剂活化，由此将非选择性的、混杂的光催化剂行为最小化。例如，可以用小于2瓦特(W)光、小于1.5W光、小于1W光小于750mW光、小于500mW光、小于400mW光、小于300mW光、小于200mW光、小于150mW光、小于120mW光、小于100mW光、小于80mW光、小于60mW光或小于50mW光实现光催化剂活化。类似地，利用狭窄带宽(例如，在半数最大强度的整个宽度)光进行光催化剂活化可以增强C-端羧酸选择性。因此，用小于60nm带宽光(例如，来自光致激发源诸如灯的390-490nm光)、小于50nm带宽光、小于40nm带宽光、小于30nm带宽光、小于25nm带宽光、小于20nm带宽光、小于15nm带宽光、小于12nm带宽光、小于10nm带宽光、小于8nm带宽光、小于6nm带宽光、小于5nm带宽光、小于3nm带宽光或小于2nm带宽光可以实现光催化剂活化。光源可以包含滤光片(例如，窄带通滤光片)以控制到达样品的光的带宽。光源可以提供具有350nm至550nm、400nm至700nm、350nm至400nm、400nm至450nm、450nm至500nm、500nm至550nm、或550nm至600nm的中心波长的光。例如，光催化方法可以利用具有220mW的功率和25nm的带宽的450nm(蓝色)LED光源。照射可以进行至少0.25小时、至少0.5小时、至少0.75小时、至少1小时、至少1.5小时、至少2小时、至少2.5小时、至少3小时、至少3.5小时、至少4小时、至少5小时、至少6小时、至少7小时、至少8小时、至少9小时、至少10小时、至少11小时或至少12小时。

用于光氧化还原化学的Michael受体可以是，例如，被取代的或未被取代的(unsubstantial)降冰片酮、丙二酸盐或马来酰亚胺。所述Michael受体可以是，例如，降冰片烯酮变体、3-亚甲基-2-降冰片酮、亚乙基丙二酸二乙酯或马来酰亚胺。其它Michael受体可以包括，例如，被取代的烯烃、二烯、丙烯酰胺、N-(丙-2-炔-1-基)甲基丙烯酰胺、异氰酸盐、异硫氰酸盐、氧杂环丙烷、α,β-不饱和羰基、降冰片酮、乙烯基砜或其任意组合。

酶促方法

C-端标记可以包含酶促连接。酶促连接策略的原理是改变内肽酶和外肽酶的切割性能的用途以进行肽连接(例如，通过在改变的酶构象下偶联适当的亲核体)。酶可以对不同的氨基酸类型具有不同程度的特异性。酶(例如，羧肽酶Y)可以对C-端氨基酸具有广泛的特异性，或者可以对C-端氨基酸类型具有严格的要求(例如，嗜热菌蛋白酶)。其它类别的修饰酶(例如，酰胺酶)可以用于C-端标记。

本文描述了包含用受体(例如，固定的分子衔接子诸如C-端偶联试剂)酶标记供体(例如，肽、蛋白或其组合)的羧基末端的方法。酶的活性可以取决于或独立于靶肽上的C-端氨基酸的类型。例如，羧肽酶可以表现出C-端氨基酸类型无关的活性。相反，肽连接酶(例如，Omniligase变体胸腺素-α-1)可以包含C-端氨基酸类型依赖性活性(例如，对含有脯氨酸C-端的肽无反应性，对含有两性离子赖氨酸和精氨酸C-端的肽具有高活性)。可以改变肽连接酶的N-端连接酶活性的用途，用于肽、蛋白或其组合的C-端标记反应。

羧肽酶Y是一种通常用于除去C-端氨基酸的酵母丝氨酸蛋白酶，并且它可以具有转肽酶活性。羧肽酶可以介导亲核柄与蛋白、肽或其组合的C-端的连接。所述连接可以涉及对蛋白、肽或其组合的仅C-端肽的选择性和阳性富集。本文所述的方法和组合物可以经改造以将亲核柄附着至肽、蛋白或其组合的C-端。

Omniligase是一种可以进行转肽反应的经工程改造的subtiligase，并由EnzyPepB.V(Geleen,荷兰)销售。分子内连接反应可以涉及酰基修饰的氨基酸酯(例如，被取代的Cam-酯)(构成供体肽或蛋白的C-端末端)与受体肽或蛋白的游离N-端胺的反应。有效连接反应的氨基酸选择可能存在偏差。这种偏差可以减少连接的肽或蛋白的数目，但可以携带包含供体或受体肽或蛋白分子的可允许氨基酸序列的信息。本文描述了Omniligase反应，并可以用于将恒定的“受体”柄连接到单独肽、蛋白或其组合的N-端。

可以改变Omniligase反应性的连接活性的用途，以将异质池中每种肽、蛋白或其组合的C-端与恒定亲核柄(受体)连接。这可以通过将肽或蛋白的酸性末端活化成酯形式(例如，烷基酯或Cam-酯)来实现。酸性末端可以用HCl的甲醇溶液活化成酯形式。连接接头后，可以将Asp/Glu侧链封端为酯。肽或蛋白的酯可以在高pH(pH 12)下水解，以显示标准的酸性侧链。转肽反应可以在固相固定化的肽或蛋白中或在液相中进行。转肽反应可以在液相中进行。

可以使用C-端氨基酸残基的侧链实现肽或蛋白固定化。例如，在用NTCB(2-硝基-5-硫代苯甲酸)化学消化蛋白裂解物的情况下，肽、蛋白及其组合可以以半胱氨酸作为C-端氨基酸残基。含巯基的侧链可以用柄官能化，所述柄包含碘乙酰胺基团和用于表面固定化的适当官能团。作为另一个例子，在胰蛋白酶消化后，在C-端具有赖氨酸的肽可以通过与柄反应的ε-胺固定化至表面。在这些方法中，在谷氨酸、天冬氨酸和C-端氨基酸上的酸性残基可用于反应。因此，本公开内容的一种方法可以包含通过内部氨基酸残基、N-端氨基酸末端胺或侧链、或C-端氨基酸侧链将肽固定化至表面，并将C-端氨基酸偶联至C-端偶联试剂。在某些情况下，所述肽在偶联至C-端偶联试剂之前被固定化至表面。在某些情况下，所述肽在固定化至表面之前偶联至C-端偶联试剂。

标记肽或蛋白的C-端的方法

在某些方面，本文中公开了一种用于加工包含C-端和内部氨基酸残基的肽或蛋白的方法，所述C-端含有第一羧酸部分，所述内部氨基酸残基含有第二羧酸部分，所述方法包含使所述第一羧酸部分优先于所述第二羧酸部分与反应试剂(例如，C-端偶联试剂)偶联。所述C-端偶联试剂可以以至少约10％、至少约20％、至少约30％、至少约40％、至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约99％、至少约99.9％或至少约99.99％或更大的效率相对于第二羧酸部分优先偶联至第一羧酸部分。所述C-端偶联试剂可以以约10％至约99.99％、约50％至99.99％、约90％至约99.99％、或95％至99.99％的效率相对于第二羧酸部分优先偶联至第一羧酸部分。所述反应试剂可以不与第二羧酸部分反应。所述反应试剂可以仅与第一羧酸部分反应。在某些情况下，所述肽或蛋白不包含第二羧酸部分。所述肽或蛋白可以包含不包含羧酸侧链的氨基酸残基。

在某些方面，本文中公开了一种用于加工包含C-端和内部氨基酸残基的肽或蛋白的方法，所述C-端含有第一羧酸部分，所述内部氨基酸残基含有第二羧酸部分，所述方法包含在没有使反应试剂(例如，C-端偶联试剂)偶联至所述第二羧酸部分的情况下使所述反应试剂偶联至所述第一羧酸部分。所述肽或蛋白可以包含至少约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000个或更多的内部氨基酸残基。所述肽或蛋白可以包含至多约1,000、900、800、700、600、500、400、300、200、100、90、80、70、60、50、45、40、35、30、25、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2个或更少的内部氨基酸残基。所述肽或蛋白可以包含从约2至约1,000个、约10至约100个、或约10至约50个内部氨基酸残基。至少两个内部氨基酸残基中的至少一个或多个可以包含第二羧酸部分。例如，如果肽或蛋白包含100个内部氨基酸残基，所述100个内部氨基酸残基中的1、2、3、4、5、6、7、8、9、10、15、20、30、40、50个或更多个可以包含第二羧酸部分。

在某些方面，本文描述了一种用于加工包含C-端和内部氨基酸残基的肽或蛋白的方法，所述C-端含有第一羧酸部分，所述内部氨基酸残基含有第二羧酸部分，所述方法包含使所述固定化的肽或蛋白的所述第一羧酸部分优先于所述固定化的肽或蛋白的所述第二羧酸部分与C-端偶联试剂偶联。在某些情况下，所述肽或蛋白被固定化至表面诸如玻片(例如，显微镜载玻片)、珠或孔板孔的表面。

在某些方面，本文描述了一种用于加工包含C-端和内部氨基酸残基的肽或蛋白的方法，所述C-端含有第一羧酸部分，所述内部氨基酸残基含有第二羧酸部分，所述方法包含使所述肽或蛋白的所述第一羧酸部分优先于所述肽或蛋白的所述第二羧酸部分与C-端偶联试剂偶联，其中所述反应试剂包含官能化部分、富集部分或其组合。

C-端偶联试剂可以包含柄。所述柄可以包含光学标记，诸如、例如，荧光染料、量子点、发光染料或FRET受体或供体。所述柄可以包含核酸分子，诸如、例如，DNA条形码或用于在纳米级形貌(DNA-PAINT)测定中成像的DNA点积累。所述柄可以包含可电离的分子，诸如、例如，串联质量标签(TMT)或同量异序(isobaric)标签。所述柄可以包含电化学可检测标记(例如，包含特征性还原或氧化电势的部分，诸如二茂铁)。所述柄可以包含聚乙烯间隔物。所述柄可以包含聚精氨酸肽。所述柄可以包含光学标记(例如荧光团)、核酸分子(例如，DNA、RNA、PNA)、可电离的分子(例如，溴、胺、磷酸盐)、聚乙烯间隔物、聚精氨酸肽或其任意组合。

C-端偶联试剂可以包含羧酸捕获部分，诸如亲核体(例如，伯胺)。C-端偶联试剂可以包含亲电体。所述反应试剂可以包含亲核体和亲电体。所述亲核体可以包含，例如，胺、醇、硫化物、氰酸盐、硫氰酸盐、去质子化的原子或其任意组合。所述亲电体可以包含Michael受体、烯烃、二烯、丙烯酰胺、N-(丙-2-炔-1-基)甲基丙烯酰胺、异氰酸盐、异硫氰酸盐、构象限制的部分(例如，氧杂环丙烷、α,β-不饱和羰基、降冰片酮)、乙烯基砜或其任意组合。

C-端偶联试剂可以包含柄，所述柄包含官能化部分、富集部分或其组合。所述富集部分可以实现C-端官能化的肽的纯化，例如通过亲和色谱法或免疫沉淀。所述官能化部分可以构造成偶联至捕获试剂，诸如结合基底的(例如，结合珠或载玻片的)捕获试剂。官能化部分或富集部分可以包含炔烃、叠氮化物、荧光团、生物素、核酸分子(例如，RNA、DNA、PNA)、氨基酸、肽(例如，表位诸如FLAG-标签)、固体支持物珠或树脂或其任意组合。

一种方法可以包含用至少一种化学试剂、至少一种酶或其组合处理所述肽或蛋白。至少一种化学试剂、至少一种酶或其组合可以选择性地活化肽或蛋白的C-端氨基酸残基(例如，用于偶联至C-端偶联试剂)。至少一种化学试剂可以是光催化剂。光催化剂可以是，例如，黄素(例如，核黄素、光黄素)。至少一种化学试剂可以与肽或蛋白的C-端氨基酸反应以形成所述肽或蛋白的所述C-端氨基酸的噁唑酮中间体。噁唑酮中间体可以与C-端偶联试剂反应，或可以在与C-端偶联试剂反应之前被活化。至少一种化学试剂可以是，例如，乙酸酐、羟基苯并三唑(HOBT)、羟基氮杂苯并三唑(HOAT)、2-硝基-5-硫代苯甲酸(NTCB)或其组合。至少一种酶可以是肽酶、酰胺酶(amindase)、水解酶或其任意组合。至少一种酶可以是，例如，内肽酶、外肽酶、羧肽酶、酰胺酶、水解酶、蛋白水解酶、肽连接酶或其任意组合。肽连接酶可以是Omniligase或其修饰衍生物。羧肽酶可以是，例如，羧肽酶A、羧肽酶B、羧肽酶C、羧肽酶Y或其修饰衍生物。羧肽酶可以是羧肽酶Y。蛋白水解酶可以是嗜热菌蛋白酶或其修饰衍生物。

所述方法可以包含切割多个肽或蛋白，其中所述多个肽或蛋白包含所述肽或蛋白。所述肽或蛋白可以不包含第二羧酸部分。所述多个肽或蛋白可以包含至少一个具有第二羧酸部分的肽或蛋白。

C-端偶联试剂可以对以下残基是惰性的(例如，基本上不偶联以下残基)：所述肽或蛋白的(i)至少一个内部氨基酸残基和(ii)N-端氨基酸残基。C-端偶联试剂可以对所述肽或蛋白的至少一个内部氨基酸残基是惰性的。所述反应试剂可以对所述肽或蛋白的N-端氨基酸残基是惰性的。C-端偶联试剂可以对所述肽或蛋白的内部氨基酸残基是惰性的。C-端偶联试剂对所述肽或蛋白的内部氨基酸残基是惰性的。至少一个内部氨基酸残基可以是天然的或非天然的氨基酸。所述至少一个所述内部氨基酸残基可以包含选自以下的官能团：胺、羧酸、吲哚、伯醇、仲醇、硫醇、硫醚、酚、酰胺、胍、咪唑或其任意组合。在将反应试剂偶联至第一羧酸部分之前，可以修饰所述肽或蛋白的至少一个内部氨基酸残基、N-端氨基酸残基或其组合。在将反应试剂偶联至第一羧酸部分之后，可以修饰所述肽或蛋白的至少一个内部氨基酸残基、N-端氨基酸残基或其组合。在将反应试剂偶联至第一羧酸部分之前或之后，可以修饰所述肽或蛋白的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或更多个氨基酸类型。在将反应试剂偶联至第一羧酸部分之前或之后，可以修饰所述肽或蛋白的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或更多个氨基酸类型和N-端氨基酸。经修饰的内部氨基酸类型可以是半胱氨酸、赖氨酸、酪氨酸、色氨酸、丝氨酸、苏氨酸、精氨酸或任何翻译后修饰或其组合。

至少一个内部氨基酸残基可以偶联至至少一个标记。多个内部氨基酸残基可以各自偶联至至少一个标记(例如，5个标记可以分别偶联至5个内部氨基酸残基)。肽或蛋白的每个内部氨基酸可以偶联至至少一个标记。所述肽或蛋白的氨基酸类型(例如，赖氨酸、胱氨酸、丝氨酸等)的每个内部氨基酸可以偶联至至少一个标记。所述肽或蛋白的氨基酸类型(例如，赖氨酸、胱氨酸、丝氨酸等)的每个内部氨基酸可以偶联至相同类型的标记试剂。至少一个标记可以对应于针对不同内部氨基酸类型的不同标记。例如，所述肽或蛋白的每个赖氨酸可以偶联至红色荧光标记，而每个丝氨酸可以偶联至绿色荧光标记。至少一个标记可以是光学可检测标记。光学标记可以是荧光染料或FRET供体或受体。光学标记可以是荧光团。至少一个标记可以包含赖氨酸特异性的标记、半胱氨酸特异性的标记、羧酸侧链(例如，谷氨酸和天冬氨酸)特异性的标记、色氨酸特异性的标记、酪氨酸特异性的标记、组氨酸特异性的标记、精氨酸特异性的标记、丝氨酸特异性的标记、苏氨酸特异性的标记或其任意组合。至少一个标记可以进一步包含非天然氨基酸(例如，氯酪氨酸)或翻译后修饰的氨基酸(例如，磷酸酪氨酸)特异性的标记。

所述方法可以进一步包含生产经标记的肽或蛋白，其用于表面固定化、样品多路化、样品富集、测序、靶标鉴定、质谱法或其任意组合。所述测序可以是单分子测序、纳米孔测序、荧光测序或其组合。所述测序可以是核酸测序或肽测序。所述测序可以包含Edman降解。

所述方法可以进一步包含从生物样品分离所述肽或蛋白。所述生物样品可以衍生自，例如，组织、血液、尿、唾液、淋巴液或其任意组合。所述方法可以进一步包含消化所述肽或蛋白。所述方法可以进一步包含：(i)从生物样品分离所述肽或蛋白，(ii)将所述肽或蛋白固定化至固体支持物，(iii)标记至少一个内部氨基酸残基，和(iv)从所述固体支持物释放所述肽或蛋白。所述固定化可以包含将所述肽或蛋白的N-端氨基酸残基偶联至与固体支持物偶联的捕获部分。所述捕获部分可以包含醛，诸如、例如，吡啶甲醛或其衍生物。

所述肽或蛋白可以是重组的或合成的肽或蛋白。

所述蛋白或肽可以被反应试剂可逆地修饰。所述蛋白或肽可以被反应试剂不可逆地修饰。

质谱法

本文所述的组合物和方法可用于肽和蛋白鉴定。将官能团添加到肽C-端用于改进的质谱分析(例如，溴标签)的能力可以实现肽定量和鉴定。例如，C-端蛋白组学中的技术(例如，消化的蛋白的C-端肽的富集和鉴定)可以使用这样的标记策略。与用于标记肽的N-端(例如，利用对赖氨酸残基的交叉反应性)的同量异序标签方法类似，同量异序标签可以用于标记肽的C-端。同量异序标签可以用于多路化来自不同样品的蛋白样品以及获得不同样品中肽、蛋白或其组合的相对定量。通过使肽或蛋白的N和C端残基带上标签，样品中的多路化数目可以加倍。通过选择性地标记C-端在肽和蛋白鉴定方面的另一个改进是用于串联质谱法。蛋白或肽的C-端可以提供高电荷基团(例如，带正电荷的胺、溴或带负电荷的磷酸根)。标记肽或蛋白的C-端可以确保基本上所有的肽片段都可以以同等效率电离，从而允许更准确的蛋白和肽鉴定。

测序

本文所述的组合物和方法可用于肽和蛋白测序。

纳米孔测序

纳米孔测序是生物聚合物(诸如、例如多核苷酸)的第三代测序方法。生物和固态方法都存在。所述方法可以利用电泳将聚合物运输穿过小孔，诸如、例如，孔蛋白、解叠酶-蛋白酶孔复合物或在金属或金属合金中的纳米大小孔。这些小孔可以嵌入表面(例如，脂质膜或金属或金属合金)以形成多孔表面。可以从系统测量电流，并且可以测量每个聚合物亚基的电信号差异，以确定该聚合物亚基的身份(例如，DNA和RNA碱基)。在某些情况下，某个氨基酸或氨基酸类型(例如，肽中的所有赖氨酸)可以偶联至在孔运输期间提供可识别电信号的标记。可替换地或与电流测量联合，可以光学监测生物聚合物穿过孔的易位。例如，所述孔可以包含FRET供体，其被构造成活化在生物聚合物上的FRET受体，使得生物聚合物穿过孔的易位可以产生时间可分辨的FRET信号。肽可以包含多个标记，每个标记在穿过孔易位后产生信号。信号可以鉴定肽的氨基酸(例如，鉴定产生信号的标记所偶联的氨基酸的类型)或序列(例如，三个连续氨基酸如赖氨酸-苏氨酸-酪氨酸的序列)。所述系统可以被构造成量化肽或其部分(例如，单独的氨基酸)。纳米孔测序测定可以鉴定肽(例如，与C-端偶联试剂偶联的肽)的残基或序列。考虑到本文所述的方法和组合物，纳米孔测序的生物聚合物也可以改造为条形码。

C-端偶联试剂可以包含可检测标记(例如，包含可检测部分(诸如荧光团)的柄)，其可以在纳米孔测序测定中提供信息。可检测标记可以包含条形码(例如，核酸或肽条形码)。条形码可以包含信息。例如，核酸或肽条形码的序列可以鉴定衍生出C-端标签肽的样品或细胞(例如，来自细胞分选实验的单个细胞或来自菌落的细胞)。在某些情况下，用纳米孔测序鉴定C-端偶联试剂的条形码序列。在某些情况下，通过纳米孔测序鉴定与肽偶联(例如，通过C-端偶联试剂)的核酸条形码的序列和肽的序列。在某些情况下，可检测标记可以是光学可检测标记，诸如荧光染料、FRET供体或受体或猝灭剂。在某些情况下，可检测标记可以是电化学可检测标记(例如，可以包含特征性氧化或还原电势)。

可检测标记可以在穿过孔易位后产生信号。例如，光学可检测标记可以在运输经过孔偶联的FRET供体或受体后产生FRET信号，或者电化学可检测标记可以在运输穿过孔期间经历可检测的氧化或还原。穿过孔的C-端运输的检测可以提高纳米孔测序方法的准确度。例如，采用可检测地标记的肽C-端的纳米孔测序方法可以区分孔易位事件的开始或结束，并从而区分在时间上间隔很近的两个肽易位。采用可检测地标记的肽C-端的纳米孔测序方法可以能够鉴定肽的长度。例如，一种方法可以包含选择性地标记对象肽C-端(用第一可检测标记(例如，偶联包含红色染料的C-端偶联试剂))和N-端(例如，胺或包含蓝色染料的N-端特异性的标记)，使得可以在孔易位事件期间鉴定对象肽的第一个和最后一个位置。

可检测标记还可以在运输穿过孔之前或之后提供可检测信号。例如，荧光标记可以实现在穿过多孔膜的易位之前和之后标签肽的定量，例如以实现易位效率的定量。

C-端偶联试剂可以包含影响孔易位效率的柄。多种纳米孔测序方法用电势驱动孔或膜易位，所述电势诱导带电荷物质移动(例如，穿过孔)。虽然这样的技术可以适用于天然地带有净负电荷的核酸，但是电势驱动的肽的孔易位往往更具挑战性，因为肽可以含有正的、负的(例如，天冬氨酸残基)、中性的(例如，苯丙氨酸残基)和两性离子的取代基(例如，ADP-核糖基化的精氨酸)。因此，在任何多个肽中，通常只有一个子集将响应于电势而穿过孔或膜移位。本公开内容提供了用于克服该限制的组合物和方法。在某些情况下，C-端偶联试剂可以包含带电荷的标记，诸如聚精氨酸或聚谷氨酸寡肽标记。由这样的标记提供的正电荷或负电荷可以提高C-端偶联试剂偶联的肽响应于电势穿过孔或膜移位的效率或速率。

C-端偶联试剂还可以包含对孔或偶联至孔的物质的亲和性。例如，C-端偶联试剂可以偶联至包含对孔蛋白的结合亲和力的配体，由此将C-端偶联试剂(以及与之偶联的任何肽)定位至孔，并增加所述肽的孔易位的可能性。

本公开内容的一种方法可以包含将C-端偶联试剂偶联至肽并使所述肽易位穿过孔(例如，纳米孔)，在所述易位后检测来自所述肽、与其偶联的C-端偶联试剂或其组合的信号。所述肽可以衍生自病毒、细胞或组织样品(例如，通过裂解或匀浆化)。所述肽可以通过切割另一种蛋白或肽(例如，化学方法，诸如用溴化氰，或酶促方法，例如胰蛋白酶消化)而衍生出。所述C-端偶联试剂可以包含可检测标记。可检测标记可以包含核苷酸或肽序列。可检测标记可以包含光学或电化学可检测部分。C-端试剂可以包含影响孔易位速率的标记。

所述信号可以鉴定肽的氨基酸。所述信号可以鉴定肽序列的至少一部分。所述信号可以鉴定与C-端偶联试剂偶联的条形码的序列和肽序列的至少一部分。所述信号可以包含多个独特信号(例如，来自肽的多个氨基酸残基的多个信号)。所述方法可以包含标记所述肽的N-端或内部氨基酸，所述标记被构造成在所述肽穿过所述孔的所述转位期间提供从所述肽检测到的所述信号。N-端或内部氨基酸标记可以是氨基酸类型特异性的标记。在这样的情况下，所述信号可以鉴定所述氨基酸类型。肽可以包含多个N-端或内部氨基酸标记。在某些情况下，标记单一类型的多个氨基酸(例如，标记肽中的所有赖氨酸残基)。在某些情况下，将两种或更多种类型的氨基酸偶联至氨基酸类型鉴定标记(例如，每个赖氨酸用红色染料标记，且每个半胱氨酸用绿色染料标记)。一种方法可以包含标记至少一种、至少两种、至少三种、至少四种或至少五种类型的氨基酸。氨基酸类型特异性的标记可以被构造成偶联(例如，选择性地偶联)至赖氨酸、半胱氨酸、含羧酸侧链的氨基酸(例如，天冬氨酸和谷氨酸)、酪氨酸、色氨酸、精氨酸、组氨酸、丝氨酸、苏氨酸或其任意组合。氨基酸类型特异性的标记可以构造成偶联至非天然的或翻译后修饰的氨基酸，诸如磷酸酪氨酸。

荧光测序

荧光测序可以为蛋白和肽的测序提供单分子分辨率(Swaminathan,2010；美国专利号9,625,469；美国专利申请系列号15/461,034；美国专利申请系列号15/510,962)。荧光测序的标志之一是将荧光团或其它标记偶联至对象蛋白或肽(例如，待荧光测序的肽)的特定类型的氨基酸残基。这可以涉及用标记部分标记一个或多个氨基酸残基。荧光测序方法可以包含标记对象蛋白或肽中的单一类型的氨基酸(例如，每个赖氨酸或每个半胱氨酸)。荧光测序方法可以包含标记对象蛋白或肽中的多种类型的氨基酸(例如，赖氨酸和酪氨酸)。荧光测序方法可以包含标记对象肽或蛋白中的一种、两种、三种、四种、五种、六种或更多种不同类型的氨基酸残基。可以使用的标记部分包括例如荧光团、生色团和猝灭剂。多个氨基酸残基可以包括，例如，N-端氨基酸、半胱氨酸、赖氨酸、谷氨酸、天冬氨酸、色氨酸、酪氨酸、丝氨酸、苏氨酸、精氨酸、组氨酸、甲硫氨酸或其任意组合。这些氨基酸残基中的每一个可以用不同的标记部分标记。多个氨基酸残基可以用相同的标记部分标记，诸如天冬氨酸和谷氨酸或天冬酰胺和谷氨酰胺。

标记特异性是许多荧光测序方法中的重大挑战。在许多情况下，标记可以包含对多种氨基酸类型的反应性。例如，一些马来酰亚胺标记可以与半胱氨酸、赖氨酸和N-端胺反应。区分类似反应性氨基酸残基可以需要标记步骤的精确排序。在上述马来酰亚胺实例中，赖氨酸可以按照如下方式区别于半胱氨酸：首先使半胱氨酸与半胱氨酸特异性的标记步骤(例如，在pH 7-8的碘乙酰胺偶联)反应，由此防止在随后的赖氨酸标记步骤中的进一步半胱氨酸标记。一种方法可以包含在赖氨酸标记之前进行半胱氨酸标记。一种方法可以包含在谷氨酸标记之前进行半胱氨酸标记。一种方法可以包含在天冬氨酸标记之前进行半胱氨酸标记。一种方法可以包含在色氨酸标记之前进行半胱氨酸标记。一种方法可以包含在酪氨酸标记之前进行半胱氨酸标记。一种方法可以包含在丝氨酸标记之前进行半胱氨酸标记。一种方法可以包含在苏氨酸标记之前进行半胱氨酸标记。一种方法可以包含在组氨酸标记之前进行半胱氨酸标记。一种方法可以包含在精氨酸标记之前进行半胱氨酸标记。一种方法可以包含在谷氨酸盐标记之前进行赖氨酸标记。一种方法可以包含在天冬氨酸盐标记之前进行赖氨酸标记。一种方法可以包含在色氨酸标记之前进行赖氨酸标记。一种方法可以包含在酪氨酸标记之前进行赖氨酸标记。一种方法可以包含在丝氨酸标记之前进行赖氨酸标记。一种方法可以包含在苏氨酸标记之前进行赖氨酸标记。一种方法可以包含在精氨酸标记之前进行赖氨酸标记。一种方法可以包含在色氨酸标记之前进行羧酸侧链(例如，谷氨酸和天冬氨酸侧链)标记。一种方法可以包含在酪氨酸标记之前进行羧酸侧链(例如，谷氨酸和天冬氨酸侧链)标记。一种方法可以包含在丝氨酸标记之前进行羧酸侧链(例如，谷氨酸和天冬氨酸侧链)标记。一种方法可以包含在苏氨酸标记之前进行羧酸侧链(例如，谷氨酸和天冬氨酸侧链)标记。一种方法可以包含在组氨酸标记之前进行羧酸侧链(例如，谷氨酸和天冬氨酸侧链)标记。一种方法可以包含在精氨酸标记之前进行羧酸侧链(例如，谷氨酸和天冬氨酸侧链)标记。一种方法可以包含至少2个、至少3个、至少4个、至少5个或至少6个氨基酸标记步骤，所述步骤以构造成以最小化或防止标记交叉反应性(例如，标记超过预期的一个或多个类型的氨基酸)的顺序执行。

本公开内容提供了相对于含有羧基的氨基酸侧链(例如，天冬氨酸和谷氨酸侧链)选择性地标记C-端羧基基团的试剂、组合物和方法。差别地标记肽的C-端(例如，用C-端捕获试剂)和含有羧基的氨基酸侧链可以实现在肽固定化(例如，通过偶联至C-端的C-端捕获试剂)或肽分析(例如，荧光测序)之前的多个标记步骤。

因此，本公开内容提供了包含以下步骤的方法：(i)将反应试剂(例如，C-端偶联试剂)选择性地偶联至肽的C-端羧酸，和(ii)将标记偶联至所述肽的N-端氨基酸或内部氨基酸。在某些情况下，所述将所述反应试剂选择性地偶联至所述肽的所述C-端羧酸在所述将所述标记偶联至所述肽的所述N-端氨基酸或所述内部氨基酸之后。在某些情况下，所述将所述标记偶联至所述肽的所述N-端氨基酸或所述内部氨基酸在所述将所述反应试剂选择性地偶联至所述肽的所述C-端羧酸之后。所述标记可以是氨基酸类型特异性的标记，诸如赖氨酸特异性的标记、半胱氨酸特异性的标记、酪氨酸特异性的标记、色氨酸特异性的标记、组氨酸特异性的标记、丝氨酸特异性的标记、苏氨酸特异性的标记、特异性的标记、精氨酸特异性的标记、谷氨酸特异性的标记、天冬氨酸特异性的标记、N-端胺特异性的标记或其任意组合。在某些情况下，所述标记是赖氨酸特异性的标记、半胱氨酸特异性的标记、谷氨酸特异性的标记、天冬氨酸特异性的标记、N-端胺特异性的标记或其任意组合。

一种方法可以包含用来自C-端偶联试剂的信号定量来自样品的肽。一种方法可以包含用C-端偶联试剂标记样品中肽的C-端，除去(例如，通过洗涤)未反应的C-端偶联试剂，和定量在样品中存在的C-端偶联试剂。

在某些情况下，所述方法包含标记所述肽的多个氨基酸(例如，半胱氨酸、赖氨酸和N-端氨基酸)。在这样的情况下，所述将所述反应试剂选择性地偶联至所述肽的所述C-端羧酸可以在将第一标记(例如，氨基酸类型特异性的标记)偶联至所述肽的第一氨基酸之后，且在将第二标记(例如，氨基酸类型特异性的标记，其具有不同于第一标记的氨基酸类型特异性)偶联至所述肽的第二氨基酸之前。例如，肽标记方法可以包含在选择性地标记C-端羧酸之前标记至少1种、至少2种、至少3种、至少4种或至少5种类型的氨基酸，且可以进一步包含在所述C-端羧酸的所述标记之后标记至少1种、至少2种、至少3种、至少4种或至少5种类型的氨基酸。

虽然该技术可以与标记部分(诸如上述的那些)一起使用，但其它标记部分可以用于荧光测序类方法中，诸如合成的寡核苷酸或肽-核酸。具体地，在本申请中使用的标记部分可能适合于耐受除去一个或多个氨基酸残基的条件。可以在本发明方法中使用的潜在标记部分的一些非限制性例子包括，例如，在红至红外光谱中发射荧光信号的那些，诸如Alexa

染料、Atto染料、Janelia

染料、罗丹明染料或其它类似染料。能够耐受除去氨基酸残基的条件的这些染料中的每种的例子包括Alexa

罗丹明B、四甲基罗丹明、Janelia

Alexa

Atto647N和(5)6-萘基荧光素。标记部分可以是荧光肽或蛋白或量子点。

荧光测序可以包含通过诸如Edman降解的技术除去肽并随后可视化。连续肽除去可以产生序列或位置特异性的信息。例如，在N-端氨基酸除去步骤以后荧光的减少可指示标记的氨基酸在肽N-端被去除，并因此可指示特定类型的氨基酸在肽N-端被去除。每个氨基酸残基的除去可以用多种不同的技术完成，包括Edman降解和蛋白水解性裂解。所述技术可以包括使用Edman降解来除去末端氨基酸残基。可替换地，所述技术可以涉及使用酶除去末端氨基酸残基。这些末端氨基酸残基可以从肽链的C-端或N-端除去。在使用Edman降解的情况下，在肽链的N-端的氨基酸残基被除去。

对肽序列测序或成像的方法可以包含将肽固定化在表面上。通过将肽来源的半胱氨酸残基、肽N末端或肽C末端与表面或与偶联至表面的试剂偶联，可以将肽固定化至表面。通过使半胱氨酸残基与表面或与偶联至表面的捕获试剂反应，可以固定化肽。通过将肽C-端与C-端偶联试剂(例如，包含式(I)的捕获试剂)偶联，并将C-端偶联试剂偶联至表面或与表面偶联的试剂，可以固定化肽。可以将肽固定化在表面上。所述表面可以在可见光谱和/或红外光谱上是光学透明的。所述表面可以具有低折射率(例如，1.3至1.6的折射率)。所述表面可以是10-50nm厚、20至80nm厚、50至200nm厚、100至500nm厚、200至800nm厚、500nm和1μm厚、1至5μm厚、2至10μm厚、5至20μm厚、20至50μm厚、50至200μm厚、200至500μm厚或大于500μm厚。所述表面可以对有机溶剂具有化学抗性。所述表面可以对强酸诸如三氟乙酸或硫酸具有化学抗性。大范围的基底(如含氟聚合物(Teflon-AF(杜邦)、

(AsahiGlass,日本))、芳族聚合物(聚二甲苯(聚对二甲苯,Kisco,Calif.)、聚苯乙烯、聚甲基丙烯酸甲酯)和金属表面(金涂层))、涂布方案(自旋涂布、浸渍涂布、金属电子束沉积、热气相沉积和等离子体增强的化学气相沉积)和官能化方法(聚烯丙胺接枝、在PECVD中使用氨气、长链端官能化氟代烷烃的掺杂等)可以在本文所述的方法中用作有用表面。在本文所述的方法中可以使用由

制成的20nm厚的光学透明的含氟聚合物表面。本文中使用的表面可以进一步用多种氟代烷烃衍生化，所述氟代烷烃将隔离用于测序的肽和经修饰的用于选择的靶标。可替换地，氨基硅烷改性表面可以用于本文所述的方法中。所述方法可以包含将肽固定化在珠、树脂、凝胶、石英颗粒、玻璃珠或其组合的表面上。在某些非限制性例子中，所述方法考虑使用已经固定化在

珠、

树脂或其它类似珠或树脂的表面上的肽。本文中使用的表面可以涂覆有聚合物，诸如聚乙二醇。表面可以被胺官能化或硫醇官能化。

本文描述的测序技术涉及对肽或蛋白成像以确定与肽偶联的一个或多个标记部分(例如，氨基酸标记)的存在。测序技术可以包含对多个肽或蛋白成像以确定一个或多个标记部分在来自多个肽的单独的肽上的存在。测序技术可以包含对至少10³、至少10⁴、至少10⁵、至少10⁶、至少10⁷、至少10⁸或更多蛋白或肽进行成像(例如，对包含至少10³至至少10⁸蛋白或肽的表面的一部分进行成像)。这些图像可以在每次除去氨基酸残基后拍摄，并因此可以确定特定氨基酸在肽序列中的位置。例如，C-端固定化的肽可以包含KDDYAGGGAAGKDA(SEQ ID NO:26，其中‘K’表示赖氨酸，‘D’表示天冬氨酸，‘Y’表示酪氨酸，‘A’表示丙氨酸，且‘G’表示甘氨酸)的序列(从N-端到C-端)，并可以包含与每个赖氨酸和酪氨酸残基偶联的标记。包含C-端固定化的肽的第一图像可以指示肽中存在两个赖氨酸和一个酪氨酸。可以除去N-端氨基酸(例如，通过Edman降解)，使得包含C-端固定化的肽的第二图像可以指示肽中存在一个赖氨酸和一个酪氨酸。可以重复该过程，直到为肽鉴定出KXXYXXXXXXXKX(SEQID NO:27)的序列，其中‘X’指示非赖氨酸、非酪氨酸的氨基酸，‘K’指示赖氨酸，且‘Y’指示酪氨酸。本公开内容的一种方法可以鉴定特定氨基酸在肽序列中的位置。可以使用一种方法来确定特定氨基酸残基在肽序列中的位置，或者这些结果可以用于确定肽序列中的氨基酸残基的完整列表。一种方法可以包含确定一种或多种氨基酸残基在肽序列中的位置，并将这些位置与已知肽序列进行对比，这可以鉴定肽序列中氨基酸残基的完整列表。例如，鉴定人蛋白的40个氨基酸片段中的赖氨酸和半胱氨酸的位置可以唯一地鉴定所述蛋白(例如，只有一种人蛋白含有在所述40个氨基酸片段中鉴定出的赖氨酸和半胱氨酸残基的特定模式)。

成像方法可能涉及多种不同的分光光度计测量和显微术方法，诸如荧光测定法、漫反射、干涉测量散射、Raman、共振增强的Raman、红外吸光度、可见光吸光度、紫外吸光度和荧光。荧光方法可以采用诸如荧光偏振、Forster共振能量转移(FRET)或时间分辨荧光等荧光技术。分光光度计测量或显微术方法可以用于确定与单个肽偶联的一个或多个荧光团的存在。这样的成像方法可以用于确定标记在特定肽序列上的存在或不存在。在除去氨基酸残基并对对象肽进行成像的重复循环之后，可以确定标记的氨基酸残基在肽中的位置。

可以使用本文所述的方法和组合物来确定蛋白或肽的长度。C-端偶联试剂可以包含条形码(例如，荧光团或核酸寡聚体)，其可以用于确定肽分子的长度。可以记录下每个降解循环(例如，Edman降解)；计录的总和可以对应于在肽或蛋白中存在的氨基酸的数目。荧光团的除去或荧光杂交事件的缺失可以指示在肽或蛋白中存在的氨基酸的数目。

C-端肽富集

本公开内容的各个方面提供了用反应试剂选择性地官能化肽C-端的方法。所述反应试剂可以包含用于纯化肽(例如，生物素)的功能柄。蛋白或肽的C-端氨基酸可能是蛋白中含有功能柄的唯一氨基酸。在标记后蛋白、肽或其组合的蛋白酶消化可以产生不与反应试剂偶联的肽片段，且因此不含功能柄(例如，生物素)。例如，某个20个氨基酸的肽的C-端可以偶联至C-端偶联试剂，并然后在其第10个氨基酸处被切割，从而产生包含原始肽的前10个氨基酸且无C-端偶联试剂的第一肽片段，以及包含原始肽的后10个氨基酸的包含与反应试剂偶联的C-端的第二肽片段。因此，蛋白或肽的片段化(例如，蛋白酶消化)可以产生多个肽片段，其中所述多个肽片段中仅单个肽片段偶联至反应试剂(并从而偶联至功能柄诸如生物素)。

一种方法可以包含用反应试剂功能柄(例如，生物素)进行的选择性肽富集。这样的方法(例如，对生物素标记的肽的基于链菌亲和素的富集)可以从复杂混合物中富集肽亚群。也可以通过共价地固定化肽分子用于荧光测序的不同功能柄对肽、蛋白或其组合进行捕获。本文所述的方法和组合物可以通过增加样品中蛋白、肽或其组合的相对定量来提供对有限数目的蛋白、肽或其组合的改进的分析。通过使用选择性柄的C-端标记可以改善样品中蛋白、肽或其组合的化学计量。

多路化

本公开内容的一种方法可以包含同时分析从多个独特样品(例如，不同的细胞培养物或活组织检查样品)来源的多个肽，其中来自所述多个肽的肽可以用C-端偶联试剂标记，所述C-端偶联试剂包含鉴定所述肽所来源的样品的柄(例如，核酸条形码或荧光团)。

图7显示了通过多路化进行肽鉴定和定量的示意图。所述柄可以包含核酸寡聚体(例如，图6)。核酸寡聚体的序列可以反映样品身份(例如，条形码)。源自某一样品的所有肽可以含有相同的核酸寡聚体序列。在不同样品上的C-端连接反应可以包含独特条形码。肽、蛋白或其组合可以在相同的反应瓶中混合。肽、蛋白或其组合可以用例如荧光团标记。在固定化至表面以后，可以与每个已知条形码杂交的寡核苷酸的连续流或平行流可以与肽接触。寡核苷酸可以含有光谱区分的荧光团。寡核苷酸的定位可以表示肽或蛋白的样品身份。例如，可以将第一样品与包含第一条形码的第一反应试剂接触，可以将第二样品与包含第二条形码的第二反应试剂接触，并可以将第三样品与包含第三条形码的第三反应试剂接触。在混合(例如，在反应试剂偶联后将第一、第二和第三样品组合)之后，可以通过条形码鉴定来确定每种肽的来源样品。通过将样品身份归于每种肽、蛋白或其组合，最终分析可以指示定量的变化以及对大量样品进行测序的能力。例如，通过将每个样品与包含独特柄(例如，具有区分性吸收或发射特征的荧光团)的反应试剂接触，可以在多个样品中同时测量蛋白表达。

选择性地标记肽上的C-端残基将是用于研究蛋白组学的许多高灵敏度分析方法的重要突破。例如，选择性的末端氨基酸标记可以实现来自于复杂混合物的肽的选择性固定和差异标记。这可以极大地提高某些蛋白分析方法(例如纳米孔测序)的实用性，所述分析方法可以为宽范围的系统提供准确的和可再现的蛋白检测和定量。纳米孔测序可以提供一种在同一纳米孔实验中多路化来自不同样品的蛋白的途径。这些较新方法中的一些是荧光测序、纳米孔介导的蛋白测序或许多基于N-端亲和力试剂的肽测序方法。这是最可能的，因为肽的末端识别将导致向固体表面的固定化的选择性或产生用于跨孔易位的差异带电末端。

样品类型

本文所述的方法可以包含分析生物样品。生物样品可以来源于受试者(例如，患者或研究参与者)、组织样品(例如，经工程改造的组织样品)、细胞培养物(例如，人细胞系或细菌菌落)、细胞(例如，在单细胞分选测定中分离的细胞)或其部分(例如，来自细胞的细胞器或来自血液样品的外泌体)。生物样品可以是合成的，诸如合成肽的组合物。样品可以包含单一物质或者多种物质的混合物。生物样品可以包含来自单个生物体、来自遗传上几乎相同的生物体集落或来自多个生物体(例如，来自人消化道的肠上皮细胞和微生物群(microbiota))的生物材料。可以将生物样品分级分离(例如，从全血分离血浆)、过滤或减少组分(例如，从血浆除去高丰度蛋白诸如白蛋白和铜蓝蛋白)。

样品可以包含来自受试者、组织样品、细胞培养物、细胞或其部分的生物分子的全部或子集。例如，来自受试者的样品可以包含在该受试者中存在的大多数蛋白，或者可以包含来自该受试者的蛋白的小子集。生物样品可以包含体液诸如脑脊液、唾液、尿、泪液、血液、血浆、血清、乳房抽吸物、前列腺液、精液、粪便、羊水、眼内流体、粘液或其任意组合。生物样品可以包含组织培养物，例如肿瘤样品，或来自肾、肝、肺、胰腺、胃、肠、膀胱、卵巢、睾丸、皮肤、结肠直肠、乳房、脑、食管、胎盘或前列腺的组织。

生物样品可以包含可以测量或鉴定其存在或不存在的分子。生物样品可以包含大分子，诸如、例如，多肽或蛋白。大分子可以被分离(例如，与其来源的其它组分分离)或纯化，使得大分子占组成重量(例如，按干重或包括溶剂)的至少0.5％、至少1％、至少2％、至少3％、至少4％、至少5％、至少7.5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％、至少90％、至少95％、至少98％或至少99％。生物样品可以是复杂的，并且可以包含多个组分(例如，不同的多肽、来自原发病患者的CSF的异源样品)。生物样品可以包含细胞或组织的组分、细胞或组织提取物、或其分级分离的裂解物。可以将生物样品基本纯化成含有单一类型的分子(肽、核酸、脂质、小分子)。生物样品可以包含为本公开内容的方法(例如，消化、C-端标记或荧光测序)构造的多个肽。

与本公开内容一致的方法可以包含从生物样品中分离、富集或纯化生物分子、生物大分子结构(例如，细胞器或核糖体)、细胞或组织。一种方法可以利用生物样品作为感兴趣的生物物质的来源。例如，测定可以从血液或血浆样品衍生出蛋白诸如α突触核蛋白，细胞诸如循环肿瘤细胞(CTC)，或核酸诸如无细胞DNA。一种方法可以从生物样品诸如两种不同细胞类型衍生出多个独特生物物质。在这样的情况下，可以将独特生物物质分离进行不同分析(例如，可以将CTC裂解物和血沉棕黄层蛋白分离并单独分析)，或者合并进行共同分析。在分析之前，可以对生物物质进行匀浆化、破碎或裂解。在特定情况下，可以收集匀浆物、破碎产物或裂解物中的一种或多种物质进行分析。例如，一种方法可以包含在液体活组织检查期间收集循环肿瘤细胞，任选地分离单独的循环肿瘤细胞、裂解循环肿瘤细胞，和从得到的裂解物分离肽，并通过本公开内容的荧光测序方法分析肽。一种方法可以包含使用C-端捕获试剂从样品中捕获肽，并分析肽(例如，通过荧光测序方法)。

与本公开内容一致的方法可以包含核酸分析，诸如测序、DNA印迹或表现遗传分析。核酸分析可以与第二分析方法(诸如本公开内容的荧光测序方法)并行进行。第二分析方法的核酸和受试者可以来源于同一受试者或同一样品。例如，一种方法可以包含从人血浆样品收集无细胞DNA和肽，对无细胞DNA测序(例如，以鉴定癌症标志物)，并对血浆蛋白进行蛋白质组学分析。

实施例

实施例1：基于噁唑酮的化学

本实施例提供了一种用于将反应试剂偶联至肽C-端并将柄偶联至C-端结合的反应试剂从而产生C-端标记的肽的方法。图3提供了C-端标记方法的概述。将肽(301，约1mg作为干燥物质)溶解在乙酸酐和乙酸(95:5v/v)中，并然后在70℃温育1小时，并在快速真空中干燥，从而产生噁唑酮中间体302。在H₂O/乙腈(50:50v/v)中重新悬浮后，加入HoBT和三乙胺(300mM)，并使反应混合物温育约1分钟以水解在反应期间形成的酸酐。然后将得到的HOBt-衍生化的肽303与50mM的包含柄304的反应试剂组合，涡旋，并在室温温育4小时，产生与肽的C-端偶联的反应试剂305。提供肽用于下游分析(例如，测序)。可以在下游分析之前或之后纯化肽、蛋白或其组合。柄可以被构造用于选择性纯化(例如，所述柄可以包含用于基于Streptactin的纯化的Strep-标签)。

实施例2:光氧化还原化学

本实施例涵盖使肽与包含Michael受体的反应试剂选择性地反应。在该实施例中，将Michael受体直接偶联至不经先前衍生化(例如，在偶联至反应性柄之前将C-端转化成反应性噁唑酮)的肽C-端。如图5A所示，用光黄素光催化剂和全光谱LED光源进行血管紧张素II的C-端特异性标记。可以使用由风扇或其它冷却源供能的冷却系统。以对象血管紧张素片段的量的30％mol/mol加入光黄素。在所述实施例中，亚乙基丙二酸二乙酯(例如，20当量)被用作Michael受体，其被构造成偶联至血管紧张素II肽的C-端。可以合成具有末端功能柄(例如，炔烃或叠氮化物)或用于加条形码的功能柄(例如，核酸条形码)的其它Michael受体。相反，可以在C-端偶联之后将功能柄附加至反应试剂(例如，通过在反应试剂的乙酯部分处的亲核取代)。

将1mg的血管紧张素-II溶解在300μL水中，并与300μL的16.6％甘油(例如，补至总量在1mL中达到5％)和100μL的0.1M柠檬酸钠缓冲液(pH3.5)组合。在4-打兰瓶中将所得混合物与缓冲液、甘油、光黄素光催化剂和Michael受体(2-亚乙基丙二酸二乙酯)组合。所述反应在室温在LED光下进行12h(过夜)。将总体积补足至1mL。近40-50％的血管紧张素II C-端与Michael受体缀合。LC-MS1迹线突出显示了在粗终产物中观察到的产物(图5B-D)。

实施例3：羧肽酶连接

通过在0.1M HCl的甲醇溶液中温育干燥的肽2小时，将肽、蛋白或其组合上的羧酸基团酯化(例如，烷基酯(例如，甲基酯)、芳基酯、硫酯)。除去过量的酯化试剂和水，留下肽、蛋白或其组合的盐。在其它变体中，通过用10mM乙酸水溶液作为缓冲液的透析，分离肽、蛋白或其组合。

将酯化的肽、蛋白或其组合溶解在约50μL的溶解缓冲液(50mM醋酸钠；1％SDS，pH5.5)中。在某些情况下，使用1X PBS缓冲液(pH 7.2)溶解肽、蛋白或其组合。在预冷却的微量离心管中，加入150μL的硼酸钠缓冲液(0.1M；pH 12.5)和20μL的150mM亲核柄。使用生物胞素酰胺，其在一端含有生物素且胺为反应性部分。将50μL的羧肽酶Y酶(0.1mg/mL；约10单位/mg)沿侧面添加到混合物中。向混合物中加入150μL的肽-酯，并在室温温育30分钟至2小时。所得溶液的pH为约11.6。增加的温育时间会从肽、蛋白或其组合除去酯基，且转肽反应不再继续。

羧基酰氨基甲基(Cam)酯或被取代的Cam酯(例如，-Cam-Leu-OH和-Cam-Leu-NH₂)可以偶联至供体肽或蛋白的C-端。可以加入-Cam-Leu-NH₂，在供体肽或蛋白的酯化过程中具有最小自酯化。使用Fmoc-Leu-rink酰胺树脂可以产生Cam酯。

可以在固相或液相中进行转肽反应。如果进行液相反应，可以用亲电体(例如，PCA)封闭N-端肽。与C-端偶联的官能团可以用于固定化至显微镜载玻片的表面。

实施例4：肽连接酶连接

将Cam酯洗涤多次，并在室温用20％哌啶在DMF中的溶液去保护两次各20分钟。用DMF广泛洗涤树脂。在酸裂解之前，将羟乙酸(即，羟基乙酸)的羧酸通过酰胺偶联化学偶联至树脂上的胺(例如，将1.5当量的羟基乙酸、1.2当量的HCTU和6当量的DIPEA与去保护的Leu-rink酰胺树脂混合3h)。将它用TFA混合液(例如，95％TFA、2.5％H₂O和2.5％三异丙基硅烷)裂解以释放HO-Cam-Leu-NH₂分子。

将具有受保护的胺的肽、蛋白或其组合与5当量的Leu取代的Cam醇混合，溶解在干燥DCM中，并冷却至0℃。在一个另外的小瓶中，将1.2当量的N-(3-二甲基氨基丙基)-N′-乙基碳二亚胺盐酸盐(EDC)和0.1当量的4-二甲基氨基吡啶(DMAP)溶解在干燥DCM中并冷却至0℃。在氮气下，将两个小瓶混合并在室温搅拌3小时。最终产物是供体肽混合物上的所有酸性基团转化为Leu取代的Cam酯。然后将肽溶解在HEPES缓冲液(pH 8.0)中以进行Omniligase介导的连接反应。

将75μL的酯化的肽(约1mg)与2.5μL的TCEP(100mg/mL TCEP.HCl在水中)和25μL的亲核柄混合。向混合物中加入2μL的Ominiligase(10U/mL)，并在室温温育2小时。酯化的肽与固定的接头(供体)分子连接。通过用氢氧化钡将pH升高至12，水解酯化的天冬氨酸和谷氨酸的侧链。

实施例5：采用降冰片烯酮反应试剂的C-端标记

作为另一个例子，优化了肽混合物的C-端特异性标记程序以与使用光氧化还原化学的原理的降冰片烯酮变体偶联。建立光氧化还原仪器-Lumidox II系统(AnalyticalSales and Services,New Jersey)，其配备功率水平为110mW的Blue LED(445nm)，并定时6h温育。一个主动冷却基地(Analytical Sales and Services,NJ)和一个台式风扇持续运行以保持内容物冷却。装置的照片如图8所示。

C-端反应的试剂在三种组合物中提供：(a)肽混合物901(1nmol至1μmol)，溶解在100uL缓冲液诸如水、磷酸盐缓冲液、酸性缓冲液诸如柠檬酸盐等中，(b)光催化剂混合物-光黄素(0.1mg/mL)-1％至40％mol/mol的肽)，溶解在60μL DMSO溶剂(它可以被水取代)中，和(c)10当量的含降冰片烯酮910的反应试剂-溶解在20μL DMSO中。使用的含降冰片烯酮的反应试剂为-(i)降冰片烯酮910和(ii)定制合成的降冰片烯酮-PEG4-炔烃911。将反应混合物用甲酸铯缓冲液(pH 3.5)补足至500μL。

首先用血管紧张素-II肽对反应进行优化，并在图9B中显示了指示C-端降冰片烯酮对血管紧张素标记的LCMS迹线。在图9C中所示的高分辨率串联质谱测定法迹线指示，降冰片烯酮仅在C-端羧酸处特异性反应，而不在内部谷氨酸处反应。

用更复杂的蛋白质组学样品重复该方法，所述样品含有从100μg的牛血清白蛋白(BSA)、酵母和人蛋白分离物产生的胰蛋白酶消化的肽。标记C-端的效率平均为65％。图10A。对BSA、人蛋白和酵母蛋白胰蛋白酶消化产物的gluC消化产物进行额外测定，从而使C-端标记效率提高近90％。图10B。胰蛋白酶和gluC分别产生赖氨酸/精氨酸和天冬氨酸/谷氨酸作为末端残基。这指示将这种C-端标记化学与普通蛋白质组学蛋白酶一起使用的可行性。

实施例6：末端氨基酸类型对标记效率的影响

为了理解是否有任何末端氨基酸类型影响标记效率，我们进行了两组正交实验。在第一类实验中，合成了20种单独的肽，各自具有不同的C-端氨基酸并包含序列LYRAGX-OH(SEQ ID NO:28，其中‘X’代表20种不同的典型氨基酸中的任一种)，并一式三份地测定了降冰片烯酮偶联效率。作为阴性对照，我们使用C-端酰胺合成肽LRWAG-ONH₂(SEQ ID NO:29)进行标记，其指示包含被封闭免于降冰片烯酮标记的C-端酰胺的肽。通过LC-MS分析仪器(Agilent)分析肽产物，所述仪器配有水+0.1％甲酸/乙腈+0.1％甲酸的12min 5-95％梯度。如总结测定结果的图13所示，具有亮氨酸C-端的肽提供了最高的C-端标记产率，而具有色氨酸、半胱氨酸和酰胺C-端的肽提供了最低的C-端标记产率。

第二类正交实验利用由切割特定氨基酸类型的N末端肽键的蛋白酶消化的蛋白产生的肽中末端氨基酸的变异性。N-端特异性蛋白酶——AspN、LysN和Lysarginase，并且消化的BSA蛋白、酵母和人蛋白分离物用于产生具有不同末端氨基酸的肽。通过分析用降冰片烯酮Michael受体标记和未标记的末端氨基酸的频率，鉴定标记肽中基于其氨基酸的偏差程度(图11)。在实验之间观察到标记效率的变化，这源于在具有大背景光催化剂和降冰片烯酮的复杂样品中分离和鉴定经修饰的肽的固有挑战。常用的纯化步骤诸如C-18尖部净化或SP3珠无法将光催化剂与肽分离。可以想象，优化条件，诸如温育时间、溶液中DMSO的百分比、光强度，将进一步提高用于蛋白质组学应用的C-端加合物形成的标记效率。

实施例7：采用选择性C-端标记的肽测序

本实施例证实了C-端选择性标记作为荧光测序实验中的肽固定化手段的实用性。在荧光测序实验中，如图12小图A所示，执行一系列标记和基底固定化步骤，其中使用血管紧张素、无肽水作为阴性对照，并使用序列AK*AGANY{PRA}R-ONH2(SEQ ID NO:24；*＝Atto647N荧光团；PRA＝炔丙基甘氨酸)的肽作为阳性对照。降冰片烯酮-PEG4-接头用作Michael受体。在荧光测序之前，我们按以下顺序进行一系列步骤，其中使用血管紧张素作为阳性对照，水作为阴性对照。步骤为：图12小图A(1)C-端光氧化还原化学，将炔烃部分缀合至肽的C-端末端(如实施例5所述)；图12小图A(2)通过N-端胺将肽固定化在第一固相支持物上；图12小图A(3)通过HCTU/DIEA介导的与胺-叠氮化物的酰胺偶联来标记内部酸性残基；图12小图A(4)用无铜点击化学进行的荧光Atto647N-PEG4-DBCO缀合。将标记的肽从树脂上切割，并将N-端去保护，并然后通过降冰片烯酮-PEG4-接头固定化至表面，图12小图A(5)。使用荧光测序技术对大约100,000个荧光点(包含荧光标记的肽和未反应的荧光团)进行测序，图12小图B。将荧光测序结果表示为连续Edman降解循环后失去荧光强度的肽的频率。图12小图C。

这些实施例扩展了光氧化还原化学对肽和其它聚合物上的C端羧酸选择性和区别性的用途。所述方法的描述和演示将使其在不同的蛋白质组学技术中具有广泛的实用性。

尽管在本文中已经显示和描述了本发明的优选实施方案，但是本领域技术人员将会明白，这样的实施方案仅作为例子提供。本发明无意受限于在说明书内提供的具体实施例。虽然已经参考前述说明书描述了本发明，但本文实施方案的描述和例证无意以限制性含义进行解释。现在本领域技术人员会做出众多变体、变化和置换而不脱离本发明。此外，应当理解，本发明的所有方面不限于本文阐述的具体叙述、构型或相对比例，其取决于各种条件和变量。应当理解，本文所述的发明的实施方案的各种替代方案可以用于实践本发明。因此，考虑本发明还应涵盖任何这样的替代、修改、变化或等效物。以下权利要求意图限定本发明的范围，并且由此覆盖在这些权利要求和它们的等同方案的范围内的方法和结构。

序列表

<110> 德克萨斯大学系统董事会

<120> 肽和蛋白C-端标记

<130> UTFB.P1217WO

<150> US 62/978,035

<151> 2020-02-18

<160> 29

<170> PatentIn 3.5版

<210> 1

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 1

Leu Tyr Arg Ala Gly Leu

1 5

<210> 2

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 2

Leu Tyr Arg Ala Gly Ile

1 5

<210> 3

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 3

Leu Tyr Arg Ala Gly Val

1 5

<210> 4

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 4

Leu Tyr Arg Ala Gly Glu

1 5

<210> 5

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 5

Leu Tyr Arg Ala Gly Ala

1 5

<210> 6

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 6

Leu Tyr Arg Ala Gly Gln

1 5

<210> 7

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 7

Leu Tyr Arg Ala Gly Asp

1 5

<210> 8

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 8

Leu Tyr Arg Ala Gly Lys

1 5

<210> 9

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 9

Leu Tyr Arg Ala Gly Asn

1 5

<210> 10

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 10

Leu Tyr Arg Ala Gly Met

1 5

<210> 11

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 11

Leu Tyr Arg Ala Gly Phe

1 5

<210> 12

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 12

Leu Tyr Arg Ala Gly Ser

1 5

<210> 13

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 13

Leu Tyr Arg Ala Gly Pro

1 5

<210> 14

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 14

Leu Tyr Arg Ala Gly Thr

1 5

<210> 15

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 15

Leu Tyr Arg Ala Gly Arg

1 5

<210> 16

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 16

Leu Tyr Arg Ala Gly Tyr

1 5

<210> 17

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 17

Leu Tyr Arg Ala Gly Gly

1 5

<210> 18

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 18

Leu Tyr Arg Ala Gly His

1 5

<210> 19

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 19

Leu Tyr Arg Ala Gly Trp

1 5

<210> 20

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 20

Leu Tyr Arg Ala Gly Cys

1 5

<210> 21

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 21

Leu Tyr Arg Ala Gly Pro

1 5

<210> 22

<211> 10

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 22

Glu Leu Tyr Ala Glu Lys Val Ala Thr Arg

1 5 10

<210> 23

<211> 7

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 23

Asp Arg Val Tyr Ile His Pro

1 5

<210> 24

<211> 8

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 24

Ala Lys Ala Gly Ala Asn Tyr Arg

1 5

<210> 25

<211> 11

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<220>

<221> 杂项特征

<222> (1)..(3)

<223> Xaa可以是任何天然存在的氨基酸

<220>

<221> 杂项特征

<222> (5)..(8)

<223> Xaa可以是任何天然存在的氨基酸

<220>

<221> 杂项特征

<222> (10)..(10)

<223> Xaa可以是任何天然存在的氨基酸

<400> 25

Xaa Xaa Xaa Lys Xaa Xaa Xaa Xaa Lys Xaa Lys

1 5 10

<210> 26

<211> 14

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 26

Lys Asp Asp Tyr Ala Gly Gly Gly Ala Ala Gly Lys Asp Ala

1 5 10

<210> 27

<211> 13

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<220>

<221> 杂项特征

<222> (2)..(3)

<223> Xaa可以是任何天然存在的氨基酸

<220>

<221> 杂项特征

<222> (5)..(11)

<223> Xaa可以是任何天然存在的氨基酸

<220>

<221> 杂项特征

<222> (13)..(13)

<223> Xaa可以是任何天然存在的氨基酸

<400> 27

Lys Xaa Xaa Tyr Xaa Xaa Xaa Xaa Xaa Xaa Xaa Lys Xaa

1 5 10

<210> 28

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<220>

<221> 杂项特征

<222> (6)..(6)

<223> Xaa可以是任何天然存在的氨基酸

<400> 28

Leu Tyr Arg Ala Gly Xaa

1 5

<210> 29

<211> 5

<212> PRT

<213> 人工序列

<220>

<223> 合成的肽

<400> 29

Leu Arg Trp Ala Gly

1 5

Claims

1.一种用于加工包含C-端和内部氨基酸的肽的方法，所述C-端含有第一羧酸部分，所述内部氨基酸含有第二羧酸部分，所述方法包含使所述肽或蛋白的所述第一羧酸部分优先于所述肽或蛋白的所述第二羧酸部分与C-端偶联试剂偶联。

2.根据权利要求1所述的方法，其中使所述第一羧酸部分与所述反应试剂偶联比使所述第二羧酸部分与所述反应试剂偶联优先至少50％。

3.根据权利要求2所述的方法，其中使所述第一羧酸部分与所述反应试剂偶联比使所述第二羧酸部分与所述反应试剂偶联优先至少75％。

4.根据权利要求3所述的方法，其中使所述第一羧酸部分与所述反应试剂偶联比使所述第二羧酸部分与所述反应试剂偶联优先至少90％。

5.根据权利要求4所述的方法，其中使所述第一羧酸部分与所述反应试剂偶联比使所述第二羧酸部分与所述反应试剂偶联优先至少99％。

6.一种用于加工包含C-端和内部氨基酸的肽的方法，所述C-端含有第一羧酸部分，所述内部氨基酸含有第二羧酸部分，所述方法包含在没有使反应试剂偶联至所述第二羧酸部分的情况下使所述反应试剂偶联至所述第一羧酸部分。

7.根据权利要求6所述的方法，其中所述肽包含至少两个内部氨基酸，其中所述至少两个内部氨基酸中的至少一个包含所述第二羧酸部分。

8.根据权利要求7所述的方法，其中所述肽包含至少20个内部氨基酸，其中所述至少20个内部氨基酸中的至少一个包含第二羧酸部分。

9.根据权利要求6所述的方法，其中所述反应试剂包含标记。

10.根据权利要求9所述的方法，其中所述标记包含光学标记、核酸分子、肽、可电离的分子、聚乙烯间隔物、聚精氨酸肽或其任意组合。

11.根据权利要求10所述的方法，其中所述核酸分子包含核酸条形码。

12.根据权利要求6所述的方法，其中所述反应试剂包含亲核体或亲电体。

13.根据权利要求12所述的方法，其中所述亲核体包含胺、醇、硫化物、硫醇、氰酸盐、硫氰酸盐或其任意组合。

14.根据权利要求12所述的方法，其中所述亲电体包含Michael受体、烯烃、二烯、丙烯酰胺、N-(丙-2-炔-1-基)甲基丙烯酰胺、异氰酸盐、异硫氰酸盐、氧杂环丙烷、α,β-不饱和羰基、乙烯基砜或其任意组合。

15.根据权利要求14所述的方法，其中所述Michael受体包含3-亚甲基-2-降冰片酮或其衍生物。

16.根据权利要求6所述的方法，其中所述反应试剂包含官能化部分、富集部分或其组合。

17.根据权利要求16所述的方法，其中所述官能化部分包含炔烃、叠氮化物、荧光团、生物素、核酸分子、氨基酸、肽、固体支持物珠或树脂或其任意组合。

18.根据权利要求16所述的方法，其中所述富集部分包含炔烃、叠氮化物、荧光团、生物素、核酸分子、氨基酸、肽、固体支持物珠或树脂或其任意组合。

19.根据权利要求6所述的方法，所述方法进一步包含，在所述使所述反应试剂偶联至所述第一羧酸部分之前，衍生化所述第一羧酸部分。

20.根据权利要求19所述的方法，其中所述衍生化包含使所述第一羧酸反应以形成噁唑酮部分。

21.根据权利要求20所述的方法，其中所述衍生化包含在所述使所述反应试剂偶联至所述第一羧酸部分之前活化所述噁唑酮部分。

22.根据权利要求19所述的方法，其中所述衍生化包含光催化偶联。

23.根据权利要求22所述的方法，其中所述光催化偶联包含黄素光催化剂。

24.根据权利要求23所述的方法，其中所述黄素光催化剂是光黄素催化剂或其衍生物。

25.根据权利要求22所述的方法，其中所述衍生化包含使所述第一羧酸与乙酸酐、羟基苯并三唑(HOBT)、羟基氮杂苯并三唑(HOAT)、2-硝基-5-硫代苯甲酸(NTCB)、或其衍生物或组合反应。

26.根据权利要求19所述的方法，其中所述衍生化是酶促的。

27.根据权利要求26所述的方法，其中所述衍生化包含至少一种选自以下的酶：内肽酶、外肽酶、羧肽酶、酰胺酶、水解酶、蛋白水解酶、肽连接酶、及其任何突变体、片段和组合。

28.根据权利要求27所述的方法，其中所述肽连接酶是催化肽偶联的酶。

29.根据权利要求27所述的方法，其中所述羧肽酶是羧肽酶Y。

30.根据权利要求27所述的方法，其中所述蛋白水解酶是嗜热菌蛋白酶。

31.根据权利要求6所述的方法，所述方法进一步包含通过切割第二肽或蛋白而产生所述肽。

32.根据权利要求6所述的方法，其中所述反应试剂基本上不会偶联至所述肽或蛋白的(i)所述至少一个内部氨基酸和(ii)N-端氨基酸。

33.根据权利要求6所述的方法，其中所述反应试剂基本上不会偶联至所述肽或蛋白的任何内部氨基酸。

34.根据权利要求6所述的方法，其中所述至少一个内部氨基酸是天然存在的、非翻译后修饰的氨基酸。

35.根据权利要求6所述的方法，其中所述肽或蛋白包含第二内部氨基酸，所述第二内部氨基酸包含选自由以下组成的组的官能团：胺、羧酸、吲哚、醇、硫醇、硫醚、酚、酰胺和咪唑。

36.根据权利要求6所述的方法，其中所述肽或蛋白包含第二内部氨基酸，其中所述第二内部氨基酸残基是非天然氨基酸。

37.根据权利要求32所述的方法，其中在使所述反应试剂偶联至所述第一羧酸部分之前修饰所述肽或蛋白或其组合的所述至少一个内部氨基酸、所述N-端氨基酸。

38.根据权利要求32所述的方法，其中在使所述反应试剂偶联至所述第一羧酸部分之后修饰所述肽或蛋白或其组合的所述至少一个内部氨基酸、所述N-端氨基酸或其组合。

39.根据权利要求37或38所述的方法，其中所述修饰是可逆修饰。

40.根据权利要求6所述的方法，其中所述内部氨基酸偶联至至少一个标记。

41.根据权利要求6所述的方法，其中所述肽或蛋白包含偶联至多个标记的多个内部氨基酸。

42.根据权利要求41所述的方法，其中所述多个标记包含氨基酸类型特异性的标记。

43.根据权利要求42所述的方法，其中来自所述多个标记中的一个标记包含光学标记。

44.根据权利要求43所述的方法，其中所述光学标记是荧光团。

45.根据权利要求6所述的方法，其中所述反应试剂构造用于表面固定化、样品富集、测序、靶标鉴定、质谱法、电泳或其任意组合。

46.根据权利要求45所述的方法，其中所述测序是单分子测序、纳米孔测序、荧光测序或其组合。

47.根据权利要求6所述的方法，所述方法进一步包含从生物样品分离所述肽或蛋白。

48.根据权利要求47所述的方法，其中所述生物样品来源于组织、血液、尿、唾液、淋巴液或其任意组合。

49.根据权利要求6所述的方法，其中所述肽或蛋白是重组的或合成的肽或蛋白。

50.根据权利要求6所述的方法，所述方法进一步包含消化所述肽或蛋白。

51.根据权利要求6所述的方法，所述方法进一步包含(i)固定化所述肽或蛋白至固体支持物，(ii)标记至少一个内部氨基酸，和(iii)从所述固体支持物释放所述肽或蛋白。

52.根据权利要求51所述的方法，其中所述固定化包含使所述反应试剂偶联至所述固体支持物。

53.根据权利要求51所述的方法，其中所述固定化所述肽或蛋白包含使所述肽或蛋白的N-端氨基酸偶联至与所述固体支持物偶联的捕获部分。

54.权利要求52或53中的任一个的方法，其中所述捕获部分包含醛。

55.权利要求52或53中的任一个的方法，其中所述捕获部分包含吡啶甲醛或其类似物。

56.一种用于加工包含C-端和内部氨基酸的肽或蛋白的方法，所述C-端含有第一羧酸部分，所述内部氨基酸含有第二羧酸部分，所述方法包含使所述肽或蛋白的所述第一羧酸部分优先于所述肽或蛋白的所述第二羧酸部分与反应试剂偶联，其中所述反应试剂包含官能化部分、富集部分或其组合。

57.一种组合物，其包含：

(A)包含一个或多个氨基酸的肽；

(B)固体支持物；和

(C)功能柄；

其中所述肽偶联至所述固体支持物和所述功能柄。

58.根据权利要求57所述的组合物，其中所述肽通过所述功能柄偶联至所述固体支持物。

59.一种用于加工肽的方法，其中所述肽包含N-端氨基酸、多个内部氨基酸、和C-端羧酸：

i)使反应试剂选择性地偶联至所述C-端羧酸，和

ii)使标记偶联至所述N-端氨基酸或所述多个内部氨基酸中的一个内部氨基酸。

60.根据权利要求59所述的方法，其中i)中的所述偶联在ii)中的所述偶联之前。

61.根据权利要求59所述的方法，其中ii)中的所述偶联在i)中的所述偶联之前。

62.权利要求59或60中的任一个的方法，其中所述标记是氨基酸类型特异性的标记。

63.根据权利要求62所述的方法，其中所述氨基酸类型特异性的标记是赖氨酸特异性的标记、半胱氨酸特异性的标记、酪氨酸特异性的标记、色氨酸特异性的标记、组氨酸特异性的标记、丝氨酸特异性的标记、苏氨酸特异性的标记、特异性的标记、精氨酸特异性的标记、谷氨酸特异性的标记、天冬氨酸特异性的标记、N-端胺特异性的标记或其任意组合。

64.根据权利要求63所述的方法，其中所述氨基酸类型特异性的标记是赖氨酸特异性的标记、半胱氨酸特异性的标记、谷氨酸特异性的标记、天冬氨酸特异性的标记、N-端胺特异性的标记或其任意组合。

65.根据权利要求59-64中的任一项所述的方法，所述方法进一步包含在ii)中的所述偶联之后检测所述标记。

66.根据权利要求65所述的方法，其中所述检测包含光学检测。

67.根据权利要求62所述的方法，其中所述标记包含多个氨基酸类型特异性的标记，且ii)中的所述偶联包含使至少所述多个氨基酸类型特异性的标记的子集偶联至至少所述内部氨基酸的子集。

68.根据权利要求67所述的方法，其中在i)中的所述偶联之前使来自所述多个氨基酸类型特异性的标记的第一标记偶联至来自所述至少所述内部氨基酸的所述子集的氨基酸，并在i)中的所述偶联之后使来自所述多个氨基酸类型特异性的标记的第二标记偶联至来自所述至少所述内部氨基酸的所述子集的氨基酸。

69.权利要求67或68中的任一个的方法，其中所述多个氨基酸类型特异性的标记包含赖氨酸特异性的标记、半胱氨酸特异性的标记、酪氨酸特异性的标记、色氨酸特异性的标记、组氨酸特异性的标记、丝氨酸特异性的标记、苏氨酸特异性的标记、特异性的标记、精氨酸特异性的标记、谷氨酸和天冬氨酸特异性的标记、N-端胺特异性的标记或其任意组合。

70.根据权利要求69所述的方法，其中所述多个氨基酸类型特异性的标记包含赖氨酸特异性的标记、半胱氨酸特异性的标记、谷氨酸和天冬氨酸特异性的标记、N-端胺特异性的标记或其任意组合。

71.根据权利要求67-70中的任一项所述的方法，所述方法进一步包含在ii)中的所述偶联之后检测至少所述多个氨基酸类型特异性的标记的子集。

72.根据权利要求71所述的方法，其中所述检测包含区分所述至少所述多个氨基酸类型特异性的标记的所述子集中的至少两个。

73.根据权利要求71所述的方法，其中所述检测包含鉴定来自所述多个氨基酸特异性的标记的标记。

74.根据权利要求71-73中的任一项所述的方法，其中所述检测包含鉴定所述肽的序列中包含不与标记偶联的氨基酸的位置。

75.根据权利要求71所述的方法，其中所述检测包含光学检测。

76.根据权利要求59-75中的任一项所述的方法，所述方法进一步包含以下步骤：使用所述反应试剂使所述C-端氨基酸偶联至基底，由此使所述肽固定化至所述基底。

77.根据权利要求76所述的方法，其中所述固定化在i)和ii)的所述偶联之后。

78.根据权利要求59-77中的任一项所述的方法，所述方法进一步包含电泳运输所述肽，且其中与电泳运输未偶联至所述反应试剂的肽的速率相比，所述反应试剂增加所述电泳运输所述肽的速率。

79.根据权利要求78所述的方法，其中所述电泳运输所述肽包含使所述肽穿过孔易位。

80.根据权利要求79所述的方法，其中所述孔包含FRET供体，且所述标记包含FRET受体。

81.根据权利要求79所述的方法，其中所述孔包含FRET受体，且所述标记包含FRET供体。

82.根据权利要求59-81中的任一项所述的方法，所述方法进一步包含使用所述反应试剂或其部分亲和纯化所述肽。

83.根据权利要求59-82中的任一项所述的方法，所述方法进一步包含检测与所述反应试剂偶联的可检测部分。

84.根据权利要求83所述的方法，其中所述检测与所述反应试剂偶联的所述可检测部分包含定量所述反应试剂。

85.一种C-端偶联试剂，其包含：

(a)反应性部分，其相对于肽内部氨基酸羧基基团选择性地偶联至肽C-端；和

(b)功能柄。

86.根据权利要求85所述的C-端偶联试剂，其中所述反应性部分相对于肽内部氨基酸羧基基团以至少75％特异性偶联至肽C-端。

87.根据权利要求86所述的C-端偶联试剂，其中所述反应性部分相对于肽内部氨基酸羧基基团以至少90％特异性偶联至肽C-端。

88.根据权利要求87所述的C-端偶联试剂，其中所述反应性部分相对于肽内部氨基酸羧基基团以至少99％特异性偶联至肽C-端。

89.根据权利要求85-88中的任一项所述的C-端偶联试剂，其中所述反应性部分包含醇、硫化物、硫醇、Michael受体、烯烃、二烯、丙烯酰胺、N-(丙-2-炔-1-基)甲基丙烯酰胺、异氰酸盐、异硫氰酸盐、氧杂环丙烷、α,β-不饱和羰基、乙烯基砜或其任意组合。

90.根据权利要求89所述的C-端偶联试剂，其中所述Michael受体包含降冰片烯酮。

91.根据权利要求85-90中的任一项所述的C-端偶联试剂，其中所述反应性部分是可光活化部分。

92.根据权利要求85-91中的任一项所述的C-端偶联试剂，其中所述功能柄包含富集部分。

93.根据权利要求92所述的C-端偶联试剂，其中所述富集部分包含抗体、表位、炔烃、叠氮化物、荧光团、生物素、核酸分子、氨基酸、肽、固体支持物珠或树脂、蛋白亲和标签、金属离子、金属离子亲和标签、凝集素亲和标签、生物素、白蛋白结合蛋白、碱性磷酸酶、钙调蛋白结合肽、纤维素结合结构域、甲壳质结合结构域、胆碱结合结构域、FLAG标签、E2表位、半乳糖结合蛋白、EE标签、HA标签、组氨酸亲和标签、His标签、麦芽糖结合蛋白、Myc标签、Arg-标签、Asp标签、Cys标签、Phe标签、链霉亲和素结合肽、strep标签、链霉亲和素、streptactin、SUMO标签、泛素、泛素结合结构域或其任何部分或组合。

94.根据权利要求85-93中的任一项所述的C-端偶联试剂，其中所述功能柄构造成增强它所偶联的肽的电泳迁移率。

95.根据权利要求85-94中的任一项所述的C-端偶联试剂，其中所述功能柄包含可检测部分。

96.根据权利要求95所述的C-端偶联试剂，其中所述可检测部分包含荧光团、染料、FRET供体、FRET受体、氧化还原活性部分、质量标签或其任意组合。

97.根据权利要求85-96中的任一项所述的C-端偶联试剂，其中所述功能柄包含化学偶联试剂。

98.根据权利要求97所述的C-端偶联试剂，其中所述化学偶联试剂包含炔烃、叠氮化物、蒽、芘、硫醇或其任意组合。

99.根据权利要求85-98中的任一项所述的C-端偶联试剂，其中所述功能柄包含多个选自由以下组成的组的部分：富集部分、电泳迁移率增强剂、可检测部分和化学偶联试剂。