CN114127281A

CN114127281A - 邻近相互作用分析

Info

Publication number: CN114127281A
Application number: CN201980072599.0A
Authority: CN
Inventors: 马克·S·朱; 凯文·L·冈德森
Original assignee: Encodia Inc
Current assignee: Encodia Inc
Priority date: 2018-09-04
Filing date: 2019-09-04
Publication date: 2022-03-01
Also published as: EP3847253A4; EP3847253A1; CA3111472A1; US20210254047A1; AU2019334983A1; WO2020051162A1

Abstract

本公开涉及用于评估样品中多肽和部分之间的同一性和空间关系的方法。在一些实施例中，多肽和部分都是较大多肽的一部分，并且本发明的方法可用于评估相同多肽或蛋白质中的多肽和部分之间的同一性和空间关系。在其他实施例中，多肽和部分属于不同的分子，并且本方法可用于评估不同分子(例如，蛋白质‑蛋白质复合物，蛋白质‑DNA复合物或蛋白质‑RNA复合物)中多肽和部分之间的同一性和空间关系。

Description

邻近相互作用分析

相关申请案的交叉引用

本申请要求于2018年9月4日提交的美国临时专利申请第62/726,933号，于2018年9月4日提交的美国临时专利申请第62/726,959号和于2019年3月1日提交的美国临时专利申请第62/812,861号的优先权，出于所有目的将其公开内容和内容以引用的方式整体并入。

提交关于ASCII文本文件的序列表

以下关于ASCII文本文件的提交内容通过引用整体并入本文：序列表(文件名：4614-2000940_SeqList_ST25_20190829；记录日期：2019年8月29日；大小：1021字节)的计算机可读形式(CRF)。

技术领域

本公开涉及用于评估样品中多肽和部分(moiety)之间的同一性和空间关系的方法。在一些实施例中，多肽和部分都是较大多肽的一部分，并且本发明的方法可用于评估相同多肽或蛋白质中的多肽和部分之间的同一性和空间关系。在其他实施例中，多肽和部分属于不同的分子，并且本方法可用于评估不同分子(例如，蛋白质-蛋白质复合物，蛋白质-DNA复合物或蛋白质-RNA复合物)中多肽和部分之间的同一性和空间关系。

背景技术

蛋白质在细胞和有机体生理学中起关键作用。蛋白质组学是在全球水平上对蛋白质进行的研究，包括测量蛋白质丰度、蛋白质相互作用和蛋白质修饰。这些蛋白质测量阐明蛋白质如何在细胞内、组织内和生物体内使用。此外，组织或体液例如血液或血浆内的蛋白质标记物的鉴定可用作反映特定疾病或病症状态的预后或诊断测定，并提供监测疾病或病症进展的手段。血浆内蛋白质的测量特别有用，因为血液浸泡体内大部分组织，从全身的细胞和组织中采集潜在的蛋白质生物标记物。蛋白质组学中的主要挑战是蛋白质的整体分析困难，并且目前的工具很大程度上是不充分的。此外，最普遍的蛋白质组学分析的方法，即使用质谱法进行自下向上的肽测序，首先将完整多肽消化成肽，其随后在LC-MS/MS中分析。将多肽消化成肽破坏了蛋白质-蛋白质相互作用，并且破坏了关于给定分子上翻译后修饰(PTM)的精确组合同一性的单分子信息，即，破坏了蛋白质形式信息。自上而下质谱法已用于解析蛋白质形式，但仍有许多限制(Kilpatrick and Kilpatrick 2017)。因此，需要一种稳健的技术来保留关于蛋白质-蛋白质相互作用的信息和关于单分子蛋白质形式的信息(特别是关于给定分子的PTM的组合)。

因此，本领域仍然需要与评估或分析样品中多肽和部分之间的同一性和空间关系有关的改进技术。本公开满足了这些和其他需要。

参考以下详细描述，本发明的各方面将是容易理解的。为此，本文阐述了各种参考文献，其更详细地描述了某些背景信息、工艺、化合物和/或组合物，并且每个都通过引用整体并入本文。

发明内容

本发明内容不旨在用于限制所要求保护的主题的范围。根据包括附图和所附权利要求中公开的那些方面的详细描述，所要求保护的主题的其它特征、细节、用途和优点将变得容易理解。

在一个方面，本公开提供了用于评估样品中的多肽和某部分之间的同一性和空间关系的方法，方法包括：a)在所述样品中的多肽的位点和样品中的某部分的位点之间形成连接结构，所述连接结构包括与所述多肽的位点缔合的多肽标签以及与所述部分的位点缔合的部分标签，其中所述多肽标签和所述部分标签缔合；b)在所述缔合的多肽标签和所述部分标签之间转移信息或连接所述缔合的多肽标签和所述部分标签以形成共享的唯一分子标识符(UMI)和/或条形码；c)通过从所述部分解离所述多肽并从所述部分标签解离所述多肽标签，同时维持所述多肽与所述多肽标签之间的缔合并维持所述部分与所述部分标签之间的缔合来打破所述连接结构；以及d)评估所述多肽标签和所述多肽的至少部分序列，以及评估所述部分标签和所述部分的至少部分同一性；其中所述多肽标签和所述部分标签的被评估部分包含共享的唯一分子标识符(UMI)和/或条形码，其指示所述样品中所述多肽的位点和所述某部分的位点在空间上的邻近性。

在一个方面，本公开提供了一种用于评估样品中的多肽与部分之间的同一性和空间关系的方法，该方法包括：a)提供预组装结构，预组装结构在中间部分包含共享的唯一分子标识符(UMI)和/或条形码，UMI和/或条形码在一侧侧接多肽标签并且在另一侧侧接部分标签(moiety tag)；b)通过将所述预组装结构的所述多肽标签与所述多肽的位点缔合并且将所述预组装结构的所述部分标签与所述部分的位点缔合，在样品中的多肽的位点与所述样品中的某部分的位点之间形成连接结构；c)通过从所述部分解离所述多肽并从所述部分标签解离所述多肽标签，同时维持所述多肽与所述多肽标签之间的缔合并维持所述某某部分与所述部分标签之间的缔合来破坏连接结构；以及d)评估所述多肽标签和所述多肽的至少部分序列，以及评估所述部分标签和所述部分的至少部分同一性；其中所述多肽标签和所述部分标签的被评估部分包含共享的唯一分子标识符(UMI)和/或条形码，其指示所述样品中所述多肽的位点和所述部分的位点在空间上的邻近性。

本文还提供了用于评估样品中的多肽和部分之间的同一性和空间关系的方法，方法包含：a)在所述样品中的多肽的位点和样品中的部分的位点之间形成连接结构，所述连接结构包含与所述多肽的位点缔合的多肽标签以及与所述部分的位点缔合的部分标签，其中所述多肽标签和所述部分标签缔合；b)在缔合的所述多肽标签与所述部分标签之间转移信息以形成共享的唯一分子标识符(UMI)和/或条形码，其中共享的UMI和/或条形码形成为分离的记录多核苷酸；c)通过从所述部分解离所述多肽并从所述部分标签解离所述多肽标签，同时维持所述多肽与所述多肽标签之间的缔合并维持所述部分与所述部分标签之间的缔合来破坏连接结构；d)评估所述多肽标签和所述多肽的至少部分序列，以及评估所述部分标签和所述部分的至少部分同一性；以及e)评估所述分离的记录多核苷酸以建立多肽的位点与部分的位点之间的空间关系。

在一些实施例中，本方法和组合物的原理可以应用于，或可以适于应用于本领域或相关应用中已知的多肽分析测定。例如，本方法和组合物的原理可应用于或可适于应用于美国临时专利申请第62/330,841号，第62/339,071号，第62/376,886号，第62/579,844号，第62/582,312，62/583,448号，第62/579,870，62/579,840号，第62/582,916号，国际专利申请公开第WO 2019/089836号，第WO 2019/089846号，第WO 2019/089851号，以及国际专利申请第PCT/US2017/030702号(公布为WO2017/192633 A1)中所公开和/或要求保护的组合物、试剂盒和方法。

附图说明

通过参考附图的示例方式描述本发明的非限制性实施例，其是示意性的并且不旨在按比例绘制。出于说明的目的，并非每个部件都标记在每个图中，也未示出本发明的每个实施例中对于本领域普通技术人员来说理解本发明不是必需的每个部件。

图1示出了用于通过邻近标记进行缔合的示例性工作流程。可以记录多肽内或缔合的蛋白质之间的肽区域的邻近性，并在消化成肽片段和ProteoCode测序之后(参见例如，美国临时专利申请第62/330,841号，第62/339,071号，第62/376,886号，第62/579,844号，第62/582,312号，第62/583,448号，第62/579,870号，第62/579,840号，和第62/582,916号，国际专利申请公开第WO 2019/089836号，第WO 2019/089846号，第WO 2019/089851号，以及国际专利申请第PCT/US2017/030702号，其以WO2017/192633 A1公开，共享的UMI可用于映射“邻近肽”。(A)利用DNA标签来标记包括具有P多肽和M部分的蛋白质复合物的蛋白质样品(在这种情况下是另一种多肽)。(B)允许邻近DNA标签(在多肽内以及在P和M多肽单位之间)相互作用和交换信息。在所示实例中，引物延伸用于在邻近标签之间或从一个标签到另一个标签转移信息。(C)解离蛋白质复合物，对半胱氨酸、赖氨酸等反应性氨基酸残基进行加帽。(D)利用内切蛋白酶如胰蛋白酶消化变性多肽。(E)所得肽片段包含各种类型的片段，其包括利用含有共有UMI信息的邻近记录标签(rTags)标记的肽，利用记录标签(w/o共有的UMI信息)标记的肽，以及未标记的肽。(F)将rTag标记的肽固定在合适的测序基板上进行ProteoCode肽测序。(G)完成ProteoCode肽测序，通过鉴定共有的UMI序列来确定邻近缔合肽。

图2示出了邻近编码标签的示例性格式和设计。(A)用于双侧邻近延伸编码的DNA邻近编码标签。(B)用于单侧邻近延伸编码的DNA邻近编码标签。(C)用于邻近连接编码的DNA邻近编码标签。(D)用于邻近连接的DNA邻近编码标签(与外源UMI序列交替形成)。(E)包含UMI的DNA标签附着于P(或M)。DNA标签3'部分的互补引物与附着于P的DNA标签杂交。互补标签包含可选的UMI和缀合功能元件(在所示实例中，BP-苯甲酮)。BP元件附着于M区，后续引物延伸步骤转移UMI信息。杂交或连接以及随后与M功能性缀合的事件中类似的序列可用于方案B-D。(F)多点附着示意图。DNA标签可以在缀合至P-M复合物之前预杂交，或者可以先缀合后杂交。通过引物延伸将信息从P标签转移到两个M标签。也可以使用其它方法，包括连接，双链和单链连接。

图3说明了通过DNA标记和邻近延伸的大分子和大分子复合物的示例性邻近编码。(A)具有嵌入的条形码/UMI的DNA标签附着于多肽分子。相邻DNA标签之间的邻近延伸导致标签之间的单向或双向信息转移(取决于标签设计)。最终结果是邻近的DNA标记位点共享UMI/条形码信息。然后将多肽裂解成肽片段，其中许多肽片段利用含有邻近UMI信息的DNA标签(B)标记。(B)蛋白质复合物可利用UMI/条形码DNA标签标记，使标签通过邻近延伸来交换信息。虚线说明含有共享的UMI/条形码信息的延伸DNA标签。共享的UMI信息然后可用于重建相互作用蛋白质的同一性(即，A与B相互作用)。

图4说明通过含有UMI/条形码的DNA交联剂的DNA交联对大分子和大分子复合物的示例性邻近编码。(A)含有用于偶联多肽骨架的UMI/条形码序列和苯甲酮(BP)的DNA交联剂。BP DNA交联剂交联了多肽上的两个邻近位点。BP是为了说明的目的而示出的(Park,Koh等.2016)，但是可以使用与肽骨架或氨基酸侧链反应的任何化学缀合试剂(Hermanson2013)。在切割为肽后，利用共享UMI信息的邻近DNA标签标记肽的子集。(B)具有UMI的DNA交联剂用于标记蛋白质复合物中的邻近位点。在标记后，邻近蛋白质含有共享UMI信息的DNA标签。

图5示出邻近DNA交联剂的示例性序列设计。框P和框M分别示出与P多肽和M部分的附着，应理解为存在于整个说明中。(A)设计如下DNA标签，其能够邻近延伸并格式化以用作下游ProteoCode肽/蛋白质分析的“记录标签”。(B)显示的标签使用BP标记肽位点，但是可以使用肽骨架或肽氨基酸残基的任何化学反应性基团。双链DNA交联剂的序列结构显示具有用于转化为记录标签的不同序列元件。F1-具有内置限制性酶(RE)位点的正向引物序列，Sp1＝用于引发的间隔区1，Sp2＝用于引发的间隔区2，UMI＝唯一分子标识符，缩写表示补体序列。通过两个寡核苷酸退火来构建双链DNA交联标签，一个含有UMI，另一个能够在UMI寡核苷酸上引发。引物延伸步骤将UMI写到另一条链上，产生dsDNA交联标签。限制酶消化可用于除去交联标签的区域以将其制备成“记录标签”形式。(C)将带有DNA标签的肽固定在测序基板上后，Spl和Sp2序列可以转化为Sp序列(记录标签结构)用于NGPS测序分析。

图6示出了用于在测序基板上直接化学固定化或杂交/连接固定化的DNA标签的设计。DNA标签和肽之间的接头可以附着至5'末端(A)或通过内部连接附着于DNA(B)。在C-E中所示的实例中，使用内部接头来实现DNA标签的5'磷酸化末端与测序基板上的DNA发夹捕获探针的有效杂交。(C-E)具有附着的DNA标签的肽通过固定的DNA捕获探针退火至测序基板。退火后，DNA记录标签与表面捕获探针连接。

图7示出了用于通过邻近标记进行缔合的示例性工作流程。(A)利用DNA标签来标记包括具有P,多肽,和M,部分(在这种情况下是另一种多肽)的蛋白质复合物的蛋白质样品。(B)允许邻近DNA标签(在多肽内以及在P和M多肽单位之间)相互作用。在所示实例中，引物延伸用于在多肽标签和部分标签之间转移信息以产生分离的记录多核苷酸。(C)解离蛋白质复合物，并且可选地对半胱氨酸、赖氨酸等活性氨基酸残基进行加帽。(D)利用内切蛋白酶消化变性多肽。(E)所得肽片段包含各种类型的片段，其包括利用含有共有UMI信息的邻近记录标签(rTags)标记的肽，利用记录标签(w/o共有的UMI信息)标记的肽，未标记的肽，以及分离的记录多核苷酸。(F)收集并分析分离的记录多核苷酸，并将rTag标记的肽固定在合适的测序基板上进行ProteoCode肽测序。(G)完成ProteoCode肽测序，通过鉴定共有的UMI序列来确定邻近缔合肽。

图8描绘了基于连接的邻近循环。多肽和部分利用DNA标签标记，DNA标签用于引物延伸以产生双链DNA标签产物(图8A-8B)。连接热循环产生记录，该记录提供关于多肽与部分的邻近的信息(图8C-8D)。

图9A-9C描绘了与多肽标签和与一个或多个部分标签分离的记录多核苷酸的产生。在一个示例性实施例中，多肽在空间上邻近第一部分(M1)和第二部分(M2)。两个或多个分离的记录多核苷酸以成对的连接结构形成，这表明P在空间上邻近M1和M2。此外，在M1和M3或M2和M4之间形成进一步的分离记录多核苷酸，表明M1和M3以及M2和M4在空间上邻近。在一些实施例中，空间邻近的多肽和一个或多个部分(例如P-M1-M3)通过来自一个或多个分离的记录多核苷酸的间接或重叠信息指示(图9C)。

图10A-10B描绘了用于标记邻近分子和蛋白质分析的示例性模型系统。图10A(左上)以示意图形式示出了三个分子：DNA 1，DNA 2，以及肽(SEQ ID NO:1中规定的K(生物素)GSGSK(N3)GSGSRFAGVAMPGAEDDVVGSGS-K(N3)-NH2)。这些组分在示例7中用于构建多肽的位点和部分的位点之间的模型连接结构。DNAl的5'端由被设计成与DNAl'杂交的24nt序列组成，DNA l'是附着于珠粒的互补捕获序列。UMI-1是用作唯一分子标识符的随机化序列；sp是用于连接加帽序列和能够进行NGS测序的编码序列的间隔区序列；“U”表示尿嘧啶碱基，在从DNA 1到DNA2的信息转移后，其可被切割以除去下游的PEG接头-sp'-UMI-1'-OL'序列。该部分用于从DNA 1到DNA 2的信息转移和/或在DNA 1和DNA 2之间形成连接结构。转移后的除去消除了由于信息转移而在DNA 1和DNA 2之间产生的互补性，允许DNA 1-部分和DNA2-肽复合物在胰蛋白酶切割后在温和条件下分离。这使得胰蛋白酶切割以及随后DNA 2-肽复合物与DNA 2'捕获序列的杂交和连接能够在温和、均相条件下进行。DNA 1的3'末端的OL'序列与DNA 2的3'末端的OL互补，使聚合酶以DNAl为模板延伸DNA 2。复制在PEG接头处终止。DNA 2的5'端由被设计成与DNA 2'杂交的24nt序列组成，DNA 2'是附着于珠粒的互补捕获序列。该肽含有紧邻单个胰蛋白酶切割位点下游的单个苯丙氨酸(F)。这样，胰蛋白酶处理可以产生两个亚肽。为了说明的目的，这些在示例1中被称为在氨基末端含有F的模型肽，以及在N末端含有与赖氨酸(K)连接的生物素的模型部分。DNA 1和DNA 2各自含有DBCO(未在示意图中示出)以使得能够通过合适的方法例如点击化学连接到肽中的N3(叠氮化物)部分，如在上中图所示。右上图和左下图示出了含有DNA 1和DNA 2捕获序列混合物的珠粒(图中未区分)。在左下图中，显示了通过DNAl捕获序列在珠粒上捕获的DNA l-DNA 2-肽复合物。通过在该捕获步骤中暂时阻断DNA 2'捕获序列，完成通过DNA 1而不是通过DNA 2的捕获。在捕获复合物后，通过分子内延伸(即在单个DNA 1-DNA 2-肽复合物内)发生信息转移，如下中图所示。在右下图中，USER切割和冲洗从DNA 1除去分子内延伸产生的互补区。这使得肽-DNA 2片段能够在胰蛋白酶化之后在温和条件下释放。

图10B为了连续性的目的，在左上方概括了图10A的右下方。图10B在顶部中间示出了部分-DNA 1和肽-DNA 2复合物，其通过附着于固体支持物的它们各自的DNA 1'和DNA 2'捕获序列捕获。右上图和中下图示出了评估多肽序列和部分的编码过程，其中seqA和seqB分别识别部分(生物素，“B”)和肽(苯丙氨酸，“F”)结合剂。右下图显示了加帽步骤，其使用sp序列来添加R1，加帽序列，以使得能够通过NGS进行随后的序列分析。

具体实施方式

为了提供对本公开的透彻理解，在以下描述中阐述了许多具体细节。提供这些细节是为了示例的目的，并且所要求保护的主题可以根据没有这些具体细节中的一些或全部的权利要求来实施。应当理解，在不脱离所要求保护的主题的范围的情况下，可以使用其他实施例并且可以进行结构改变。应当理解，在一个或多个单独实施例中描述的各种特征和功能在它们的可应用性方面不限于描述它们的特定实施例。无论是否描述了这样的实施例，以及是否将这样的特征呈现为所描述的实施例的一部分，它们都可以单独地或以某种组合应用于本公开的一个或多个其他实施例。为了清楚起见，没有详细描述与所要求保护的主题相关的技术领域中已知的技术材料，从而不会不必要地模糊所要求保护的主题。

在本申请中提及的所有出版物，包括专利文献、科学论文和数据库，出于所有目的通过引用以其整体并入，其程度如同每个单独的出版物通过引用单独并入一样。对这些出版物或文献的引用并非旨在承认它们中的任何一个是相关的现有技术，也不构成对这些出版物或文献的内容或日期的任何承认。

所有标题是为了方便读者，并且不应用于限制标题后面的文本的含义，除非如此指定。

除非另有说明，所提供的实施例的实施将采用有机化学、聚合物技术、分子生物学(包括重组技术)、细胞生物学、生物化学和测序技术的常规技术和描述，这些技术和描述在本领域技术人员的技能范围内。这些常规技术包括多肽和蛋白质合成和修饰，多核苷酸和/或寡核苷酸合成和修饰，聚合物阵列合成，多核苷酸和/或寡核苷酸的杂交和连接，杂交检测，以及核苷酸测序。合适技术的具体说明可参考本文的示例。然而，当然也可以使用其它等效的常规程序。这样的常规技术和描述可以在标准实验手册中找到，例如Green等人，Eds.，基因组分析：实验室手册系列(Genome Analysis:A Laboratory Manual Series)(第I-IV卷)(1999)；Weiner，Gabriel，Stephens，Eds.，遗传变异：实验室手册(GeneticVariation:A Laboratory Manual)(2007)；Dieffenbach，Dveksler，Eds.，PCR引物：实验室手册(PCR Primer:A Laboratory Manual)(2003)；Bowtell和Sambrook，DNA微阵列：分子克隆手册(DNA Microarrays:A Molecular Cloning Manual)(2003)；Mount，生物信息学：序列和基因组分析(Bioinformatics:Sequence and Genome Analysis)(2004)；Sambrook和Russell，分子克隆浓缩规程：实验室手册(Condensed Protocols from MolecularCloning:A Laboratory Manual)(2006)；以及Sambrook和Russell，分子克隆:实验室手册(Molecular Cloning:A Laboratory Manual)(2002)(全部来自冷泉港实验室出版社)；Ausubel等人，eds.，分子生物学实验指南(Current Protocols in Molecular Biology)(1987)；T.Brown ed.，基本分子生物学(Essential Molecular Biology)(1991)，IRLPress；Goeddel ed.，基因表达技术(Gene Expression Technology)(1991)，AcademicPress；A.Bothwell等人.eds.，真核生物基因的克隆和分析方法(Methods for Cloningand Analysis of Eukaryotic Genes)(1990)，Bartlett Publ.；M.Kriegler，基因转移和表达(Gene Transfer and Expression(1990)，Stockton Press；R.Wu等人，eds.，重组DNA的方法(Recombinant DNA Methodology)(1989)，Academic Press；M.McPherson等人，PCR：一种实用方法(PCR:A Practical Approach)(1991)，IRL Press at Oxford UniversityPress；Stryer，生物化学(Biochemistry)(4th Ed.)(1995)，W.H.Freeman，New York N.Y.；Gait，寡核苷酸合成：一种实用方法(Oligonucleotide Synthesis:A PracticalApproach)(2002)，IRL Press，London；Nelson and Cox，Lehninger,生物化学原理(Principles of Biochemistry)(2000)3rd Ed.，W.H.Freeman Pub.，New York，N.Y.；Berg,等人，生物化学(Biochemistry)(2002)5th Ed.，W.H.Freeman Pub.，New York，N.Y.，所有这些文献在此全文引入作为参考。

本文提供了用于评估样品中多肽和一个或多个部分之间的空间关系的方法和途径。在一些实施例中，所提供的方法还包括大分子分析、识别和/或测序。在一些实施例中，多肽和部分之间的空间关系通过在样品中的多肽的位点和所述样品中的部分的位点之间形成连接结构来评估。在一些实施例中，连接结构包含与所述多肽的位点缔合的多肽标签以及与所述部分的位点缔合的部分标签，其中所述多肽标签和所述部分标签缔合。在一些实施例中，该方法还包含评估多肽标签和部分标签。在一些情况下，评估用于使用多重大分子结合测定来确定多肽标签的序列(例如，部分序列(partial sequence))和部分(moiety)的同一性(例如，部分序列或同一性)。在一些实施例中，结合测定将来自大分子结合测定的信息转化为核酸分子库，用于通过下一代测序读出。

用于确定生物系统中发生的分子相互作用的现有方法包括成像和显微术技术，例如，

或荧光共振能量转移(FRET)技术。测量蛋白质相互作用的其它生物化学测定包括酵母双杂交测定、亲和纯化测定、质谱法以及共免疫沉淀技术。然而，仍然需要用于评估高通量的大分子(例如，多肽或多核苷酸)的空间相互作用的改进技术，并且可以检测也可以提供样品中分子的同一性/序列的各种分子之间的多于一种的相互作用，以及需要用于实现这些的产品、相关方法和试剂盒。在一些实施例中，需要用于评估分子的同一性和评估准确、灵敏和/或高通量的空间关系的技术和方法。在一些实施例中，所提供的方法允许克服约束的评估、分析和/或测序，以实现对分子之间的空间关系和分子的同一性(例如，序列)的准确、灵敏和/或高通量评估。

在一些情况下，所提供的方法允许在不需要特异性结合试剂的情况下识别邻近的分子，以便检测需要关于空间相互作用的信息的分子靶标。在一些实例中，所提供的用于评估空间邻近性的方法不需要特异性靶结合部分，比如抗体或其结合片段以与特异性分子靶标结合。在一些实施例中，本公开部分地提供用于分析分子(例如，蛋白质、多肽、部分等)的邻近性，用于评估分子之间的相互作用，和/或用于映射两个或更多个分子之间的相互作用的方法。在一些实施例中，所提供的方法包含连接能够结合多种多肽和部分的多肽标签和部分标签。在一些实施例中，所提供的方法的示例性优点包括评估样品中邻近的许多分子(例如，多肽和部分)的相互作用的能力。

在一些实施例中，靶标多肽是较大多肽的一部分，并且部分也是相同的较大多肽的一部分。在一些实施例中，所提供的方法用于分析均是较大多肽的一部分的多肽和部分，并且所述分析可用于测序中的应用。在一些实施例中，所述方法包括评估多肽和部分的至少部分序列。在一些情况下，多肽和部分的序列信息可用于识别肽序列匹配。在一些实例中，所提供的方法允许增加测序应用(包括将序列映射至多肽)的置信度和/或准确度。

在一些实施例中，所提供的方法可以提供这样的益处：与使用用于识别蛋白质而没有邻近分子的信息的方法可能需要的更长和/或更准确的序列相比，可以使用更短和/或更不准确的序列。在一些实施例中，所提供的方法可以与物理分区一起使用。在一些实施例中，所提供的方法允许使用邻近性信息来构建网络，使得不需要物理分区。

定义

除非另外定义，否则本文使用的所有技术和科学术语具有与本公开所属的领域中普通技术人员通常理解的相同的含义。如果本章节阐述的定义与通过引用并入本文的专利、申请、公开的申请和其他出版物中阐述的定义相反或不一致，则本章节阐述的定义优于通过引用并入本文的定义。

正如这里所使用的，单数形式“一个(a)”、“一个(an)”及“所述”包含提及物的复数形式，除非另有说明。因此，例如，提及的“肽”包括一种或多种肽或肽的混合物。此外，除非特别说明或从上下文中显而易见，否则如本文所用，术语“或”应理解为包括在内并涵盖“或”和“和”两者。

如本文所用，术语“大分子”涵盖由较小亚基组成的大的分子。大分子的实例包括但不限于肽、多肽、蛋白质、核酸、碳水化合物、脂质、大环化合物。大分子还包括嵌合大分子，其由两种或多种类型的大分子共价连接在一起(例如，肽连接到核酸)的组合组成。大分子还可包括“大分子组装体”，其由两种或更多种大分子的非共价复合物组成。大分子组装体可以由相同类型的大分子(例如蛋白质-蛋白质)或两种不同类型的大分子(例如蛋白质-DNA)组成。

如本文所用，术语“多肽”包括肽和蛋白质，并且是指包含通过肽键连接的两个或更多个氨基酸的链的分子。在一些实施例中，多肽包含2至50个氨基酸，例如具有超过20-30个氨基酸。在一些实施例中，肽不包含二级、三级或更高级结构。在一些实施例中，多肽是一种蛋白质。在一些实施例中，蛋白质包含30个或更多个氨基酸，例如具有超过50个氨基酸。在一些实施例中，除了一级结构之外，蛋白质还包含二级、三级或更高级结构。多肽的氨基酸最典型地是L-氨基酸，但也可以是D-氨基酸、修饰的氨基酸、氨基酸类似物、氨基酸模拟物，或其任何组合。多肽可以是天然发生的、合成产生的、或重组表达的。多肽可以是合成产生的、分离的、重组表达的，或通过上述方法的组合产生的。多肽还可以包含修饰氨基酸链的其他基团，例如，通过翻译后修饰添加的官能团。聚合物可以是直链或支链的，它可以包含修饰的氨基酸，并且它可以被非氨基酸中断。该术语还涵盖已经天然或通过干预修饰的氨基酸聚合物；例如，二硫键形成，糖基化，脂质化，乙酰化，磷酸化或任何其他操作或修饰，例如与标记组分缀合。

如本文所用，术语“氨基酸”是指包含胺基、羧酸基、和对每个氨基酸特异的侧链的有机化合物，其用作肽的单体亚基。氨基酸包括20种标准的，天然存在的或典型的氨基酸以及非标准氨基酸。标准的天然氨基酸包括丙氨酸(A或Ala)、半胱氨酸(C或Cys)、天冬氨酸(D或Asp)、谷氨酸(E或Glu)、苯丙氨酸(F或Phe)、甘氨酸(G或Gly)、组氨酸(H或His)、异亮氨酸(I或Ile)、赖氨酸(K或Lys)、亮氨酸(L或Leu)、蛋氨酸(M或Met)、天冬酰胺(N或Asn)、脯氨酸(P或Pro)、谷氨酰胺(Q或Gln)、精氨酸(R或Arg)、丝氨酸(S或Ser)、苏氨酸(T或Thr)、缬氨酸(V或Val)、色氨酸(W或Trp)，和酪氨酸(Y或Tyr)。氨基酸可以是L-氨基酸或D-氨基酸。非标准氨基酸可以是修饰氨基酸、氨基酸类似物、氨基酸模拟物、非标准蛋白原氨基酸或天然存在或化学合成的非蛋白原氨基酸。非标准氨基酸的实例，包括但不限于，硒代半胱氨酸、吡咯赖氨酸和N-甲酰基甲硫氨酸、β-氨基酸、同源氨基酸、脯氨酸和丙酮酸衍生物、3-取代丙氨酸衍生物、甘氨酸衍生物、环-取代的苯丙氨酸和酪氨酸衍生物、线性核心氨基酸、N-甲基氨基酸。

如本文所用，术语“翻译后修饰”是指在肽被核糖体翻译完成后在肽上发生的修饰。翻译后修饰可以是共价化学修饰或酶修饰。翻译后修饰的实例，包括但不限于，酰化、乙酰化、烷基化(包括甲基化)、生物素化、丁酰化、氨基甲酰化、羰基化、脱酰胺、deiminiation、二萘胺形成、二硫桥形成、消除(eliminylation)、黄素附着、甲酰化、γ-羧化、谷氨酰化、甘氨酰化、糖基化、glypiation、血红素C附着、羟基化、hypusine形成、碘化、异戊二烯化、脂化(lipidation)、脂质化(lipoylation)、丙酰化、甲基化、肉豆蔻酰化、氧化、棕榈酰化、聚乙二醇化、磷酸酯化、磷酸化、异戊烯化、丙酰化、视黄基希夫碱基形成(retinylidene Schiff base formation)、S-谷胱甘肽化、S-亚硝基化，S-亚磺酰化、硒化、琥珀酰化、硫化、泛素化和C-末端酰胺化。翻译后修饰包括肽的氨基末端和/或羧基末端的修饰。末端氨基的修饰包括但不限于脱氨基、N-低级烷基、N-二低级烷基和N-酰基修饰。末端羧基的修饰包括但不限于酰胺、低级烷基酰胺、二烷基酰胺和低级烷基酯改性(例如，其中低级烷基是C₁-C₄烷基)。翻译后修饰还包括，例如但不限于上述的落在氨基和羧基末端之间的氨基酸的修饰。术语翻译后修饰还可以包括包含一种或多种可检测标签的肽修饰。

如本文所用，术语“结合剂”是指与多肽或多肽的组分或特征结合、缔合、联合、识别或与组合的核酸分子、肽、多肽、蛋白质、碳水化合物或小分子。结合剂可以与多肽或多肽的组分或特征形成共价缔合或非共价缔合。结合剂也可以是嵌合结合剂，由两种或多种类型的分子组成，例如核酸分子-肽嵌合结合剂或碳水化合物-肽嵌合结合剂。结合剂可以是天然发生的，合成产生的或重组表达的分子。结合剂可以结合多肽的单个单体或亚基(例如，多肽的单个氨基酸)或结合多肽(例如,长肽的二肽、三肽、更高级肽，多肽或蛋白质分子)的多个连接的亚基。结合剂可以结合线性分子或具有三维结构(也称为构象)的分子。例如，抗体结合剂可以与线性肽、多肽或蛋白质结合，或与构象肽、多肽或蛋白质结合。结合剂可以结合N-末端肽，C-末端肽，或肽、多肽或蛋白质分子的中间肽。结合剂可以结合肽分子的N-末端氨基酸，C-末端氨基酸或中间氨基酸。与未被修饰或标记的氨基酸相比，结合剂可以优选地与化学修饰的或标记的氨基酸(例如，如国际专利申请第WO 2019/089846号所描述的已经被包含式(I)-式(VII)中的任一种的化合物的试剂官能化的氨基酸)结合。例如，与不具有所述部分的氨基酸相比，结合剂可以优选结合至已被乙酰基部分、cbz部分、脒基部分、氨基胍部分、丹酰基部分、苯硫代氨基甲酰基(PTC)部分、二硝基苯基(DNP)部分、磺酰基硝基苯基(SNP)部分等。结合剂可以结合肽分子的翻译后修饰。结合剂可以表现出与多肽的组分或特征的选择性结合(例如，结合剂可以选择性地结合20种可能的天然氨基酸残基中的一种并且与其它19种天然氨基酸残基以非常低的亲和力结合或者根本不结合)。结合剂可以表现出较低的选择性结合，其中结合剂能够结合多肽的多种组分或特征(例如，结合剂可以以相似的亲和力与两种或更多种不同氨基酸残基结合)。结合剂包含编码标签，其可以通过接头与结合剂连接。

如本文所用，术语“荧光团”是指在一个波长下吸收电磁能并在另一波长下再发射能量的分子。荧光团可以是包括荧光染料和蛋白质的分子或分子的一部分。另外，荧光团可以化学地、遗传地或以其他方式连接或融合至另一分子以产生已经用荧光团“标记”的分子。

如本文所用，术语“接头”是指用于连接两个分子的核苷酸、核苷酸类似物、氨基酸、肽、多肽或非核苷酸化学基团中的一种或多种。接头可用于结合结合剂和编码标签、结合记录标签和多肽、结合多肽和固体支持物、结合记录标签和固体支持物等。在某些实施例中，接头通过酶促反应或化学反应(例如，点击化学)连接两个分子。

本文所用的术语“配体”是指与本文所述的化合物连接的任何分子或部分。“配体”可以指与化合物附着的一个或多个配体。在一些实施例中，配体是侧基或结合位点(例如，结合剂结合的位点)。

如本文所用，术语“蛋白质组”可包括由任何生物体的基因组、细胞、组织或生物体在某个时间表达的整组蛋白质、多肽或肽(包括其缀合物或复合物)。在一个方面，它是在给定的条件下、在给定的时间、在给定类型的细胞或生物体中表达的蛋白质。蛋白质组学是对蛋白质组的研究。例如，“细胞蛋白质组”可以包括在特定环境条件组(例如，暴露于激素刺激)下在特定细胞类型中发现的蛋白质的集合。生物体的完整蛋白质组可包括来自所有各种细胞蛋白质组的完整组的蛋白质。蛋白质组也可包括某些亚细胞生物系统中蛋白质的收集。例如，病毒中的所有蛋白质可称为病毒蛋白质组。如本文所用，术语“蛋白质组”包括蛋白质组的子集，包括但不限于激酶组；分泌体；受体组(例如，GPCRome)；免疫蛋白酶体；营养蛋白质组；由翻译后修饰(例如，磷酸化，泛素化，甲基化，乙酰化，糖基化，氧化，脂质化和/或亚硝基化)定义的蛋白质组子集，例如磷酸蛋白质组(例如，磷酸酪氨酸-蛋白质组，酪氨酸-激酶组和酪氨酸-磷酸化)，糖蛋白质组等；与组织或器官、发育阶段或生理或病理状况相关的蛋白质组子集；与细胞过程如细胞周期，分化(或去分化)，细胞死亡，衰老，细胞迁移，转化或转移相关的蛋白质组子集；或其任何组合。如本文所用，术语“蛋白质组学”是指蛋白质组的定量分析，例如，细胞内的蛋白质组，组织内的蛋白质组和体液内的蛋白质组，以及细胞内和组织内的蛋白质组的相应空间分布。此外，蛋白质组学研究包括蛋白质组的动态状态，随着生物学功能以及定义的生物或化学刺激在时间内的持续变化。

如本文所用，术语“非同源结合剂”是指相较于“同源结合剂”而言，其在特定结合循环反应中，不能以低亲和力结合多肽特征、组分、或被测亚基的结合剂，而“同源结合剂”，其以高亲和力结合相应的多肽特征、组分、或亚基。例如，如果肽分子的酪氨酸残基在结合反应中被测，则非同源结合剂是指以低亲和力结合或根本不结合所述酪氨酸残基的那些结合剂，使得在适合将编码标签信息从同源结合剂转移到所述记录标签的条件下，所述非同源结合剂不能将编码标签信息转移到所述记录标签。或者，如果在结合反应中肽分子的酪氨酸残基被测，则非同源结合剂是以低亲和力结合或根本不结合所述酪氨酸残基的那些试剂，使得在适合于涉及延伸编码标签而不是延伸记录标签的实施例的条件下，记录标签信息不能有效地转移至编码标签。

具有自由氨基的肽链一端的末端氨基酸在本文中称为“N-末端氨基酸”(NTAA)。具有自由羧基的链另一端的末端氨基酸在本文中称为“C-末端氨基酸”(CTAA)。构成肽的氨基酸可以按顺序编号，其中肽的长度为“n”个氨基酸。如本文所用，NTAA被认为是第n氨基酸(在本文中也称为“第n NTAA”)。使用这种命名法，下一个氨基酸是第n-1个氨基酸，然后是第n-2个氨基酸，依此类推从N-末端到C-末端的肽长度。在某些实施例中，NTAA、CTAA或两者可以用化学部分官能化。

如本文所用，术语“条形码”是指约2至约30个碱基的核酸分子(例如，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29或30个碱基)，其为多肽，结合剂，来自结合循环的结合剂组，样品多肽，样品组，隔室内(例如，液滴、珠粒或隔离的位置)的多肽，隔室内的多肽集，多肽分级物，多肽的分级物集，空间区域或空间区域集，多肽库或结合剂库提供唯一标识符标签或起源信息。条形码可以是人工序列或天然发生的序列。在某些实施例中，条形码群内的每个条形码是不同的。在其他实施例中，条形码群中的一部分条形码是不同的，例如，条形码群中至少约10％，15％，20％，25％，30％，35％，40％，45％，50％，55％，60％，65％，70％，75％，80％，85％，90％，95％，97％或99％的条形码是不同的。条形码群可以随机生成或非随机生成。在某些实施例中，条形码群是纠错条形码。条形码可用于计算地解卷积多路复用测序数据并识别源自单个多肽、样品、库等的序列读数。条形码还可以用于对多肽集合进行去卷积，多肽集合已经分布到小隔室中以增强映射。例如，不是将肽映射回蛋白质组，而是将肽映射回其起源蛋白质分子或蛋白质复合物。

“样品条形码”，也称为“样品标签”，识别多肽来自哪个样品。

“空间条形码”识别多肽衍生的2D或3D组织切片的区域。空间条形码可用于组织切片上的分子病理学。空间条形码允许来自组织切片的多个样品或库的多重测序。

如本文所用，术语“编码标签”是指任何合适长度的多核苷酸，例如约2个碱基至约100个碱基，包括任何包括2和100且在其间的整数的核酸分子，其包含它的相关结合剂的识别信息。“编码标签”也可以由“可测序聚合物”制成(参见，例如，Niu等人，2013，Nat.Chem.5:282-292；Roy等人，2015，Nat.Commun.6:7237；Lutz，2015，Macromolecules48:4759-4767；其中每一篇均通过引用整体并入)。编码标签可以包含编码器序列，其可选地在一侧侧接一个间隔区或在每侧侧接间隔区。编码标签还可以由可选的UMI和/或可选的结合循环特异性条形码组成。编码标签可以是单链或双链的。双链编码标签可包含平端、突出端或两者。编码标签可以指直接连接到结合剂的编码标签、与直接连接到结合剂的编码标签杂交的互补序列(例如，用于双链编码标签)、或延伸记录标签中的编码标签信息。在某些实施例中，编码标签可以进一步包含结合循环特异性间隔区或条形码、唯一分子标识符、通用引发位点或其任何组合。

如本文所用，术语“编码器序列”或“编码器条形码”是指约2个碱基至约30个碱基的(例如，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29或30个碱基)长度的核酸分子，提供其相关结合剂的识别信息。编码器序列可以唯一地识别其缔合的结合试剂。在某些实施例中，编码器序列提供其相关结合剂以及使用该结合剂的结合循环的识别信息。在其它实施例中，编码器序列与编码标签内的单独的结合循环特异性条形码组合。或者，编码器序列可以将其缔合的结合试剂识别为属于包含两个或更多个不同结合剂的组的成员。在一些实施例中，这种水平的识别足以用于分析目的。例如，在涉及结合氨基酸的结合剂的一些实施例中，知道肽在特定位置包含两种可能的氨基酸之一可能就足够了，而不用明确地识别该位置的氨基酸残基。在另一个实例中，共同的编码器序列用于多克隆抗体，其包含识别蛋白质靶标的一个以上表位的抗体的混合物，并且具有不同的特异性。在其它实施例中，在编码器序列识别一组可能的结合剂的情况下，可以使用次序解码方法来产生每个结合剂的独特识别。这是通过在重复的结合循环中改变给定结合剂的编码序列来实现的(参见Gunderson等，2004，Genome Res.14:870-7)。当与来自其他循环的编码信息组合时，来自每个结合循环的部分识别编码标签信息为结合试剂产生的唯一标识符，例如，编码标签而不是单独的编码标签(或编码器序列)的特定组合提供为结合试剂产生独特标识信息。优选地，结合剂库内的编码序列具有相同或相似数量的碱基。

如本文所用，术语“结合循环特异性标签”，“结合循环特异性条形码”或“结合循环特异性序列”是指用于识别在特定结合循环内使用的结合剂库的独特序列。结合循环特异性标签可包含约2个碱基至约8个碱基(例如，2，3，4，5，6，7，或8个碱基)的长度。结合循环特异性标签可以并入结合剂的编码标签内，作为间隔区序列的一部分、编码器序列的一部分、UMI的一部分、或作为编码标签内的单独组分。

如本文所用，术语“间隔区”(Sp)是指长度约1碱基至约20个碱基(例如，1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，或20个碱基)的核酸分子，其存在于记录标签或编码标签的末端。在某些实施例中，间隔区序列在一端或两端侧接编码标签的编码序列。在结合剂与多肽结合后，在缔合的编码标签上和记录标签上的互补间隔区序列之间的分别退火，让结合信息通过引物延伸反应或连接转移到记录标签、编码标签或双标签构建体。Sp'指与Sp互补的间隔区序列。优选地，结合剂库内的间隔区序列具有相同数量的碱基。可以在结合剂库中使用共同的(共有的或相同的)间隔区。间隔区序列可具有“循环特异性”序列，以跟踪特定结合循环中使用的结合剂。间隔区序列(Sp)在所有结合循环中可以是恒定的，对特定类别的多肽是特异性的，或者是结合循环数特异性的。多肽类别特异性间隔区允许将来自于完成的结合/延伸循环中的延伸记录标签中存在的同源结合剂的编码标签信息退火到另一个结合剂的所编码标签，该另一结合剂在随后的结合循环中通过所述类别特异性间隔区识别相同类别的多肽。只有正确的同源对的顺序结合才能产生相互作用的间隔区元件和有效的引物延伸。间隔区序列可包含足够数量的碱基以与记录标签中的互补间隔区序列退火以引发引物延伸(也称为聚合酶延伸)反应，或提供用于连接反应的“夹板”，或介导“粘性末端”连接反应。间隔区序列可包含比编码标签内的编码器序列更少数量的碱基。

如本文所用，术语“记录标签”是指某部分，例如，化学偶联部分，核酸分子或可测序聚合物分子(参见，例如，Niu等人，2013，Nat.Chem.5:282-292；Roy等人，2015，Nat.Commun.6:7237；Lutz，2015，Macromolecules 48:4759-4767；每一个都是通过引用而整体并入)，可以将编码标签的识别信息转移到编码标签，或者可以将关于与记录标签缔合的大分子的识别信息(例如，UMI信息)从编码标签转移到编码标签。识别信息可以包含表征分子的任何信息，例如关于样品，级分，分区，空间位置，相互作用的相邻分子，循环数等的信息。另外，UMI信息的存在也可以被分类为识别信息。在某些实施例中，在结合剂结合多肽后，来自与结合剂连接的编码标签的信息能转移到与多肽缔合的记录标签，同时结合剂结合到多肽上。在其他实施例中，在结合剂结合多肽后，来自与多肽缔合的记录标签的信息可以转移到与结合剂连接的编码标签，同时结合剂结合到多肽上。重新编码标签可以直接与多肽连接、通过多功能接头与多肽连接、或者借助于其在固体支持物上的相近(或共定位)而与多肽结合。记录标签可以通过其5'端或3'端或内部位点连接，只要该连接与用于将编码标签信息转移到所述记录标签的方法兼容，反之亦然。记录标签还可以包含其它功能组分，例如通用引发位点、唯一分子标识符、条形码(例如，样品条形码、分级物条形码、空间条形码、隔室标签等)、与编码标签的间隔区序列互补的间隔区序列，或其任何组合。在使用聚合酶延伸将编码标签信息转移到记录标签的实施例中，记录标签的间隔区序列优选位于记录标签的3'末端。

如本文所用，术语“引物延伸”，也称为“聚合酶延伸”，是指由核酸聚合酶(例如，DNA聚合酶)催化的反应，其中与互补链退火的核酸分子(例如，寡核苷酸引物、间隔区序列)使用所述互补链作为模板通过聚合酶延伸。

如本文所用，术语“唯一分子标识符”或“UMI”是指约3至约40个碱基(3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、或40个碱基)长度的核酸分子，为每个与UMI连接的多肽或结合剂提供独特标识符标签。多肽UMI可用于从多个延伸记录标签计算去卷积测序数据，以识别源自单个多肽的延伸记录标签。通过折叠(collapsing)对唯一的UMI的NGS读数，多肽UMI可用于准确地计数起始多肽分子。结合剂UMI可用于识别结合特定多肽的每种单个分子结合剂。例如，UMI可用于识别对特定肽分子发生的单个氨基酸特异性的结合剂的个体结合事件的数量。应当理解，当UMI和条形码都在结合剂或多肽的背景下被引用时，所述条形码指的个体结合剂或多肽的除UMI之外的识别信息(例如，样品条形码、隔室条形码、结合循环条形码)。

如本文所用，术语“通用引发位点”或“通用引物”或“通用引发序列”是指核酸分子，其可用于库扩增和/或测序反应。通用引发位点可以包括，但不限于用于PCR扩增的引发位点(引物序列)、与流通槽表面上的互补寡核苷酸退火的流通槽适配序列(其促使在一些下一代测序平台中进行桥扩增)、测序引发位点、或其组合。通用引发位点可用于其他类型的扩增，包括通常与下一代数字测序结合使用的扩增。例如，延伸记录标签分子可以环化，并且通用引发位点用于滚环扩增以形成可以用作测序模板的DNA纳米球(Drmanac等人，2009，Science 327:78-81)。或者，记录标签分子可以通过来自通用引发位点的聚合酶延伸直接环化和测序(Korlach等人，2008，Proc.Natl.Acad.Sci.105:1176-1181)。当在“通用引发位点”或“通用引物”的上下文中使用时，术语“正向”也可称为“5'”或“有义”。当在“通用引发位点”或“通用引物”的上下文中使用时，术语“反向”也可称为“3'”或“反义”。

如本文所用，术语“延伸记录标签”是指记录标签，至少一种结合剂的编码标签(或其互补序列)的信息在结合剂与多肽结合后已转移到记录标签。编码标签的信息可以直接(例如，连接)或间接(例如引物延伸)转移到记录标签。编码标签的信息可以酶促或化学地转移到所述记录标签。延伸记录标签可以包含1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31，32，33，34，35，36，37，38，39，40，45，50，55，60，65，70，75，80，85，90，95，100，125，150，175，200或更多个编码标签的结合剂信息。延伸记录标签的碱基序列可以反映由其编码标签识别的结合剂的结合时间和顺序，可以反映由编码标签识别的结合剂的部分结合顺序，或者可以不反映任何由编码标签识别的结合剂的结合顺序。在某些实施例中，延伸记录标签中存在的编码标签信息至少25％，30％，35％，40％，45％，50％，55％，60％，65％，70％，75％。，80％，85％，90％，91％，92％，93％，94％，95％，96％，97％，98％，99％或100％同一性代表所分析的多肽序列。在延伸记录标签不以100％同一性代表分析的多肽序列的某些实施例中，错误可能是由于结合剂的脱靶结合，或由于“错过的”结合循环(例如，因为结合剂在结合循环期间不能与多肽结合，因为引物延伸反应失败)，或两者兼而有之。

如本文所用，术语“延伸编码标签”是指在结合编码标签的结合剂与大分子结合后，至少一个记录标签(或其互补序列)的信息转移到其的编码标签，记录标签与缔合。记录标签的信息可以直接(例如，连接)或间接(例如引物延伸)转移到编码标签。记录标签的信息可以酶促或化学方式转移。在某些实施例中，延伸编码标签包含记录标签的信息，反映一个结合事件。如本文所用，术语“双标签”或“双标签构建体”或“双标签分子”是指核酸分子，至少一个记录标签(或其互补序列)和至少一个编码标签(或其互补序列)的信息在与编码标签连接的结合剂结合后转移到该核酸分子，编码标签与结合剂结合，记录标签与多肽结合(参见，例如，国际专利申请公开号WO 2017/192633的图11B)。记录标签与多肽记录标签和编码标签的信息可以间接地(例如，引物延伸)转移到双标签。记录标签的信息可以酶促或化学方式转移。在某些实施例中，双标签包含记录标签的UMI、记录标签的隔室标签、记录标签的通用引发位点、编码标签的UMI、编码标签的编码序列、结合循环特异性条形码、编码标签的通用引发位点、或其任何组合。

如本文所用，术语“固体支持物”、“固体表面”、“固体基板”、“测序基板”或“基板”是指任何固体材料，包括多孔和非多孔材料，大分子(例如，肽)可以是通过本领域已知的手段，包括共价和非共价相互作用，或其任何组合，直接或间接结合上去。固体支持物可以是二维的(例如平面表面)或三维的(例如凝胶矩阵或珠粒)。固体支持物可以是任何支持表面，包括但不限于，珠粒、微珠、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、尼龙、硅晶芯片、流控芯片、流通槽、包括信号转导电子器件的生物芯片、通道、微量滴定孔、ELISA板、旋转干涉测量盘、硝酸纤维素膜、基于硝酸纤维素的聚合物表面、聚合物矩阵、纳米颗粒、或微球。用于固体支持物的材料包括但不限于丙烯酰胺、琼脂糖、纤维素、硝化纤维素、玻璃、金、石英、聚苯乙烯、聚乙烯乙酸乙烯酯、聚丙烯、聚甲基丙烯酸酯、聚乙烯、聚环氧乙烷、聚硅酸盐、聚碳酸酯、特氟隆、碳氟化合物、尼龙、硅橡胶、聚酸酐、聚乙醇酸、聚乳酸、聚原酸酯、官能化硅烷、聚丙基延胡索酸酯、胶原、糖胺聚糖、聚氨基酸、葡聚糖、或其任何组合。固体支持物还包括薄膜、膜、瓶、盘、纤维、编织纤维、成形聚合物，例如管、颗粒、珠粒、微球、微粒、或其任何组合。例如，当固体表面是珠粒时，珠粒可以包括但不限于陶瓷珠粒、聚苯乙烯珠粒、聚合物珠粒、甲基苯乙烯珠粒、琼脂糖珠粒、丙烯酰胺珠粒、实心核心珠粒、多孔珠粒、顺磁珠粒，玻璃珠粒或可控孔珠粒。珠粒可以是球形或不规则形状。珠粒或支持物可以是多孔的。珠粒的尺寸可以为纳米(例如，100nm)至毫米(例如，1mm)。在某些实施例中，珠粒的尺寸范围为约0.2微米至约200微米，或约0.5微米至约5微米。在一些实施例中，珠粒可以是约1μm，1.5μm，2μm，2.5μm，2.8μm，3μm，3.5μm，4μm，4.5μm，5μm，5.5μm，6μm，6.5μm，7μm，7.5μm，8，8.5μm，9μm，9.5μm，10μm，10.5μm，15μm，或20μm的直径。在某些实施例中，“珠粒”固体支持物可以指单个珠粒或多个珠粒。在一些实施例中，固体表面是纳米颗粒。在某些实施例中，纳米颗粒的尺寸范围为直径从约1nm至约500nm，例如，在约1nm和约20nm之间，在约1nm和约50nm之间，在约1nm和约100nm之间，在约10nm和约50nm之间，在约10nm和约100nm之间，在约10nm和约200nm之间，在约50nm和约100nm之间，在约50nm和约150nm之间，在约50nm和约200nm之间，在约100nm和约200nm之间，或在约200nm和约500nm之间。在一些实施例中，纳米颗粒的直径可以为约10nm，约50nm，约100nm，约150nm，约200nm，约300nm或约500nm。在一些实施例中，纳米颗粒的直径小于约200nm。

如本文所用，术语“核酸分子”或“多核苷酸”是指含有通过3'-5'磷酸二酯键连接的脱氧核糖核苷酸或核糖核苷酸的单链或双链多核苷酸，以及多核苷酸类似物。核酸分子包括但不限于DNA、RNA和cDNA。多核苷酸类似物可以具有除天然多核苷酸中发现的标准磷酸二酯键以外的连接，并且可选地具有核糖或脱氧核糖以外的修饰的糖基。多核苷酸类似物含有能够通过Watson-Crick碱基配对与标准多核苷酸碱基形成氢键的碱基，其中所述类似物骨架以允许寡核苷酸类似物分子与标准多核苷酸中的碱基之间的序列特异性方式的氢键的方式呈现所述碱基。多核苷酸类似物的实例包括，但不限于异种核酸(XNA)、桥接核酸(BNA)、乙二醇核酸(GNA)、肽核酸(PNAs)、γPNA、吗啉代多核苷酸、锁核酸(LNAs)、苏糖核酸(TNA)、2'-O-甲基多核苷酸、2'-O-烷基核糖基取代的多核苷酸、硫代磷酸酯多核苷酸、和硼磷酸盐多核苷酸。多核苷酸类似物可具有嘌呤或嘧啶类似物，包括例如7-脱氮嘌呤类似物、8-卤嘌呤类似物、5-卤代嘧啶类似物、或可与任何碱基配对的通用碱类似物，其包括次黄嘌呤、硝基唑、异喹诺酮类似物、唑类羧酰胺和芳族三唑类似物、或具有额外功能的碱基类似物，例如用于亲和结合的生物素基团。在一些实施例中，核酸分子或寡核苷酸是修饰的寡核苷酸。在一些实施例中，核酸分子或寡核苷酸是具有伪互补碱基的DNA、具有受保护碱基的DNA、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、PNA分子或吗啉代DNA，或其组合。在一些实施例中，核酸分子或寡核苷酸是骨架修饰的、糖修饰的或核碱基修饰的。在一些实施例中，核酸分子或寡核苷酸具有核碱基保护基，如Alloc，亲电子保护基，如thiranes，乙酰基保护基，硝基苄基保护基，磺酸酯保护基，或传统的碱不稳定保护基。

如本文所用，“核酸测序”指确定核酸分子或核酸分子样品中核苷酸的顺序。

如本文所用，“下一代测序”是指高通量测序方法，其允许并行测序数百万至数十亿的分子。下一代测序方法的实例包括通过合成法测序，连接测序、杂交测序、Polony测序、离子半导体测序和焦磷酸测序。通过将引物连接到固体基板和与核酸分子的互补序列，核酸分子可以通过引物与固体基板杂交，然后通过使用聚合酶在固体基板上的离散区域中产生多个拷贝来扩增(这些分组有时被称为聚合酶克隆)。因此，在测序过程中，特定位置的核苷酸可以被多次测序(例如，数百次或数千次)-这种覆盖深度被称为“深度测序”。高通量核酸测序技术的实例包括Illumina、BGI、Qiagen、Thermo-Fisher和Roche提供的平台，包括如Service(Science 311:1544-1546，2006)所综述的平行珠粒阵列、合成测序、连接测序、毛细管电泳、电子微芯片、“生物芯片”、微阵列、平行微芯片和单分子阵列格式。

如本文所用，“单分子测序”或“第三代测序”是指新一代测序方法，其中来自单分子测序仪器的读数通过对单个DNA分子的测序产生。与依赖于扩增以平行克隆许多DNA分子以便以分阶段方法进行测序的下一代测序方法不同，单分子测序审查单个DNA分子并且不需要扩增或同步。单分子测序包括需要在每次碱基并入入(“冲洗和扫描”循环)后暂停测序反应的方法和不需要在读取步骤之间停止的方法。单分子测序方法的实例包括单分子实时测序(Pacific Biosciences)、基于纳米孔的测序(Oxford Nanopore)、双链中断纳米孔测序，以及用高级显微镜的直接成像DNA。

如本文所用，“分析”多肽意指多肽的全部或部分组分进行量化、表征、区分或其它们的组合。例如，分析肽、多肽或蛋白质包括测定肽的全部或部分氨基酸序列(连续或非连续)。分析多肽还包括对多肽的组分的部分识别。例如，部分识别多肽蛋白质序列中的氨基酸可以将蛋白质中的氨基酸识别为属于可能的氨基酸子集。分析通常从分析第n NTAA开始，然后进行到肽的下一个氨基酸(即，n-1、n-2、n-3等等)。这通过消除第n NTAA，从而将肽的第n-1个氨基酸转化为N-末端氨基酸(本文称为“第(n-1)个NTAA”)来实现。分析所述肽还可以包括确定肽上翻译后修饰的存在和频率，其可以包括或不包括关于肽上翻译后修饰的先后顺序的信息。分析肽还可以包括确定肽中表位的存在和频率，其可以包括或不包括关于在肽内的表位的顺序或位置的信息。分析肽可以包括组合不同类型的分析，例如获得表位信息、氨基酸序列信息、翻译后修饰信息、或其任何组合。

如本文所用，术语“隔室”是指从多肽样品中分离或隔离多肽子集的物理区域或体积。例如，隔室可以将单个细胞与其他细胞分离，或者将样品蛋白质组的子集与样品的蛋白质组的其余部分分开。隔室可以是含水隔室(例如，微流体液滴)、固体隔室(例如，板上的Picotiter孔或微量滴定孔、管、小瓶、凝胶珠粒)，珠粒表面，多孔珠粒内部或表面上的分离区域。隔室可包含一个或多个可固定多肽的珠粒。

如本文所用，术语“隔室标签”或“隔室条形码”是指包含在一个或多个隔室内(例如，微流体液滴或珠粒表面)的组分(例如，单个细胞的蛋白质组)的识别信息的约4个碱基至约100个碱基(包括4个碱基，100个碱基和其间的任何整数)的单链或双链核酸分子。隔室条形码识别样品中的多肽子集，其已经从多个(例如，数百万到数十亿)隔室分离进入相同的物理隔室或隔室组。因此，即使在将组分汇集在一起之后，隔室标签也可用于区分来自具有相同隔室标签的一个或多个隔室的成分与具有不同隔室标签的另一隔室中的成分。通过用独特的隔室标签标记每个隔室内或两个或更多个隔室的组内的蛋白质和/或肽，可以识别衍生自相同蛋白质、蛋白质复合物或单个隔室或隔室组内的细胞的肽。隔室标签包含条形码和可选的通用引物，条形码可选地在一侧或两侧侧接间隔区序列。间隔区序列可以与记录标签的间隔区序列互补，使得能够将隔室标签信息转移到记录标签。隔室标签还可以包含通用引发位点、唯一分子标识符(用于提供与其连接的肽的识别信息)或两者，特别是对于隔室标签中包含用于下述肽分析方法的记录标签的实施例。隔室标签可包含用于偶联肽的官能部分(例如，醛、NHS、mTet、炔等)。或者，隔室标签可包含肽，肽包含对蛋白连接酶的识别序列，以允许将隔室标签连接至目标肽。隔室可以包括单个隔室标签、为可选的UMI序列预留的多个相同的隔室标签、或者两个或更多个不同的隔室标签。在某些实施例中，每个隔室包含独特隔室标签(一对一映射)。在其它实施例中，来自较大隔室群的多个隔室包含相同的隔室标签(多对一映射)。隔室标签可以连接到隔室(例如，珠粒)内的固体支持物上或者连接到隔室自身的表面(例如，picotiter孔的表面)。或者，隔室标签在隔室内的溶液中可以是游离。

如本文所用，术语“分区”是指将独特条形码分配(例如，随机分配)给来自样品内的多肽群的多肽亚群。在某些实施例中，可以通过将多肽分配到隔室中来实现分区。分区可以由单个隔室内的多肽或来自一组隔室的多个隔室内的多肽组成。

如本文所用，“分区标签”或“分区条形码”是指包含约4个碱基至约100个碱基(包括4个碱基，100个碱基和其间的任何整数)的单链或双链核酸分子，其包含分区的识别信息。在某些实施例中，用于多肽的分区标签是指由将多肽分区成用相同条形码标记的隔室产生的相同隔室标签。

如本文所用，术语“分级物”是指样品中的多肽的子集，该样品已经采用物理或化学分离方法从其余样品或细胞器挑选出来，例如按大小、疏水性、等电点、亲和力等分级。分离方法包括HPLC分离、凝胶分离、亲和分离、细胞分馏、细胞器分馏、组织分馏等。流体流动性、磁性、电流、质量、密度及其类似物理性质也可用于分离。

如本文所用，术语“分级物条形码”是指包含约4个碱基至约100个碱基(包括4个碱基，100个碱基，以及其间的任何整数)的单链或双链核酸分子，其包含对分级物中多肽的识别信息。

I.通过形成链接结构进行邻近相互作用分析的方法

在一个方面，本公开提供了用于评估样品中的多肽和部分之间的同一性和空间关系的方法，方法包含：a)在所述样品中的多肽的位点和样品中的部分的位点之间形成连接结构，所述连接结构包含与所述多肽的位点缔合的多肽标签以及与所述部分的位点缔合的部分标签，其中所述多肽标签和所述部分标签缔合；b)在缔合的所述多肽标签和所述部分标签之间转移信息或连接所述缔合的多肽标签和所述部分标签以形成共享的唯一分子标识符(UMI)和/或条形码；c)通过从所述部分解离所述多肽并从所述部分标签解离所述多肽标签，同时维持所述多肽与所述多肽标签之间的缔合并维持所述部分与所述部分标签之间的缔合来破坏连接结构；以及d)评估所述多肽标签和所述多肽的至少部分序列，以及评估所述部分标签和所述部分的至少部分同一性；其中所述多肽标签和所述部分标签的所述评估部分包含共享的唯一分子标识符(UMI)和/或条形码，其指示所述样品中所述多肽的位点和所述部分的位点在空间上的邻近性。

本文还提供了用于评估样品中的多肽和部分之间的同一性和空间关系的方法，其包括：a)在所述样品中的多肽的位点和样品中的部分的位点之间形成连接结构，所述连接结构包含与所述多肽的位点缔合的多肽标签以及与所述部分的位点缔合的部分标签，其中所述多肽标签和所述部分标签缔合；b)在所述缔合的多肽标签与所述部分标签之间转移信息以形成共享的唯一分子标识符(UMI)和/或条形码，其中共享的UMI和/或条形码形成为分离的记录多核苷酸；c)通过从所述部分解离所述多肽并从所述部分标签解离所述多肽标签，同时维持所述多肽与所述多肽标签之间的缔合并维持所述部分与所述部分标签之间的缔合来破坏连接结构；d)评估所述多肽标签和所述多肽的至少部分序列，以及评估所述部分标签和所述部分的至少部分同一性；以及e)评估所述分离的记录多核苷酸以建立多肽的位点与部分的位点之间的空间关系。在一些实施例中，步骤e)在多肽的位点与部分的两个或更多个位点或两个或更多个部分之间建立空间关系。在一些实施例中，分离的记录多核苷酸从所述多肽标签和/或所述部分标签中释放。

在本方法中可以使用任何合适的部分。例如，所述部分可以是原子、无机部分、有机部分或其复合物。有机部分可以是氨基酸，多肽(例如，肽或蛋白质)，核苷，核苷酸，多核苷酸(例如，寡核苷酸或核酸)，维生素，单糖，低聚糖，碳水化合物，脂质及其复合物。在一些实施例中，所述部分可包含多肽。在其它实施例中，所述部分可包含多核苷酸。

在一些实施例中，多肽和/或部分具有三维结构。在一些实施例中，多肽和部分属于不同的分子，并且本方法可用于评估不同分子(例如，蛋白质-蛋白质复合物，蛋白质-DNA复合物或蛋白质-RNA复合物)中多肽和部分之间的同一性和空间关系。大分子组装体可以由相同类型的大分子(例如蛋白质-蛋白质)或两种或多种不同类型的大分子(例如蛋白质-DNA)组成。在其它实施例中，多肽和所述部分属于相同的大分子。

A.示例性标签和组分

在本方法中可以使用任何合适的多肽标签。例如，多肽标签可以是原子\无机部分、有机部分或其复合物。有机部分可以是氨基酸，多肽(例如，肽或蛋白质)，核苷，核苷酸，多核苷酸(例如，寡核苷酸或核酸)，维生素，单糖，低聚糖，碳水化合物，脂质及其复合物。在一些实施例中，多肽标签可包含多核苷酸。

在本方法中可以使用任何合适的部分标记。例如，部分标签可以是原子、无机部分、有机部分或其复合物。有机部分可以是氨基酸，多肽(例如，肽或蛋白质)，核苷，核苷酸，多核苷酸(例如，寡核苷酸或核酸)，维生素，单糖，低聚糖，碳水化合物，脂质及其复合物。在一些实施例中，部分标签可以包含多核苷酸。

多肽标签和部分标签都可以包含多核苷酸。在一些实施例中，多肽标签包含UMI和/或条形码。在一些实施例中，部分标签包含UMI和/或条形码。在一些实施例中，多肽标签包含第一多核苷酸,并且部分标签包含第二多核苷酸，第一和第二多核苷酸包含互补序列，并且多肽标签和部分标签经由互补序列缔合。在一些实施例中，序列和互补序列包含回文序列。在一些实施例中，多肽标签和/或部分标签不包含回文序列。

在一些实施例中，多肽标签和部分标签用于产生分离的记录多核苷酸。在一些实施例中，分离的记录多核苷酸是或包含DNA或RNA分子。在一些实施例中，分离的记录多核苷酸包含关于一种或多种多肽和/或一种或多种部分的信息。

在一些实施例中，多肽标签和分离的记录多核苷酸包含互补序列。在一些实施例中，多肽标签和分离的记录多核苷酸通过互补序列缔合。在一些实施例中，部分标签和分离的记录多核苷酸包含互补序列。在一些情况下，部分标签和分离的记录多核苷酸通过互补序列缔合。

在一些实施例中，多肽标签和部分标签各自包含一条或多条排列成双链回文区、双链条形码区和/或引物结合区的核酸链。在一些情况下，多肽标签和部分标签按列出的顺序包含以下：回文区-条形码区-引物结合区。在一些实施例中，多肽标签和部分标签各自包含发夹结构，所述发夹结构具有部分双链的引物结合区、双链条形码区、双链回文区以及含有靶结合部分的单链环区。在一些实施例中，终止聚合的分子位于双链回文区和环区之间。

在一些实施例中，部分标签和/或多肽标签包含一条或多条排列成双链回文区、双链条形码区和/或引物结合区的核酸链。在一些实施例中，标签被布置成形成发夹结构，所述发夹结构是连续核苷酸的单段，该单段连续核苷酸折叠并形成被称为“茎”的双链区以及被称为“环”的单链区。当相同核酸碱基的两个区域的核苷酸彼此配对(分子内碱基配对原理)时形成双链区。

在一些实施例中，多肽标签和/或部分标签包含两条平行的核酸链(例如，作为两条分离的核酸，或作为连续折叠的发夹结构)。其中一条链称为“互补链”而另一条链称为“置换链”。互补链通常含有引物结合区，或引物结合区的至少单链片段，其中引物结合(例如，杂交等)。互补链和置换链至少通过双链条形码区和通过双链回文区彼此结合。如本文所述，“置换链”是最初由新产生的半记录置换的链，并且当置换链“重新结合”到互补链时，依次置换新产生的半记录。

如果两个核酸或两个核酸区域通过瓦特生-克里克相互作用(也称为杂交)彼此碱基配对或结合以形成双链核酸分子，则它们彼此“互补”。如本文所用，“结合”是指至少两个分子之间的缔合，这归因于例如在生理条件下的静电、疏水、离子和/或氢键相互作用。

核酸的“双链区”是指含有两条平行核酸链的核酸(例如，DNA或RNA)的区域，所述两条平行核酸链通过互补嘌呤(例如，腺嘌呤和鸟嘌呤)和嘧啶(例如，胸腺嘧啶、胞嘧啶和尿嘧啶)之间的氢键彼此结合，从而形成双螺旋。在一些实施例中，形成双链区的两条平行核酸链是邻接核酸链的一部分。例如，多肽标签和部分标签可以包含发夹结构或附着于发夹结构。

“双链回文区”是指与一条链上的5'(5个引物)至3'(3个引物)或与之形成双螺旋的互补链上的5'至3'读取的核苷酸序列相同的核酸(例如，cDNA或RNA)的区域。

在一些实施例中，回文序列允许彼此邻近的多肽标签和部分标签的连接。与引物结合区结合的引物的聚合酶延伸产生“半记录”，其指新产生的核酸链。半记录的产生置换多肽或部分标签的一条链，称为“置换链”。置换链依次置换半记录的一部分(通过与它的“互补链”结合)，从3'端开始，使得包含回文序列的半记录的3'端与类似地从邻近条形码化核酸置换的另一半记录结合。

在一些实施例中，双链回文区的长度为4-10个核苷酸碱基对。即，在一些实施例中，双链回文区可包含与4-10个分别互补的核苷酸结合的4-10个连续核苷酸。例如，双链回文区可以具有4、5、6、7、8、9或10个核苷酸碱基对的长度。在一些实施例中，双链回文区可以具有5或6个核苷酸碱基对的长度。在一些实施例中，双链回文区域长于10个核苷酸碱基对。例如，双链回文区可以具有4-50个核苷酸碱基对的长度。在一些实施例中，双链回文区的长度为4-40、4-30或4-20个核苷酸碱基对。

双链回文区可以包含鸟嘌呤(G)、胞嘧啶(C)、腺嘌呤(A)和/或胸腺嘧啶(T)。在一些实施例中，G和C核苷酸碱基对(G/C)相对于A和T核苷酸碱基对(A/T)的百分比大于50％。例如，G/C相对于双链回文区A/T的百分比可以为50％至100％。在一些实施例中，G/C相对于A/T的百分比大于60％，65％，70％，75％，80％，85％，90％，95％。

在一些实施例中，双链回文区可以包括偶数个核苷酸碱基对，尽管本公开的双链回文区不限于此。例如，双链回文区可以包括4、6、8或10个核苷酸碱基对。或者，双链回文区可包含5、7或9个核苷酸碱基对。

在多个多肽和部分标签中，典型地，双链回文区对于多个标签中的每个标签是相同的，使得接近部分标签的多肽标签能够通过产生的含有回文序列的半记录而彼此结合。然而，在一些实施例中，双链回文区可以仅在多肽/部分标签的亚组中相同，使得两个不同的亚组含有两个不同的双链回文区。

“引物结合区”是指包含部分标签或多肽标签的核酸(例如，DNA或RNA)的区域，其中单链引物(例如，DNA或RNA引物)结合以开始复制。引物结合区可以是单链区或部分双链区，部分双链区指既含有单链片段又含有双链片段的区域。引物结合区可以包含随机或合理设计顺序的核苷酸的任何组合。在一些实施例中，引物结合区的长度为4至40个核苷酸(或核苷酸碱基对，或核苷酸和核苷酸碱基对的组合，这取决于引物结合区的单链和/或双链性质)。例如，引物结合区可以具有4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31，32，33，34，35，36，37，38，39或40个核苷酸(和/或整个核苷酸碱基对)的长度。在一些实施例中，引物结合区可以具有4至10，4至15，4至20，4至25，4至30，4至35或4至40个核苷酸(和/或核苷酸碱基对)的长度。在一些实施例中，引物结合区长于40个核苷酸。例如，引物结合区可以具有4至100个核苷酸的长度。在一些实施例中，引物结合区具有4至90，4至80，4至70，4至60或4至50个核苷酸的长度。

在一些实施例中，设计引物结合区以适应多于一种(例如，2或3种不同的)引物的结合。“引物”是用作核酸合成起点的单链核酸。聚合酶向引物添加核苷酸以产生新的核酸链。本公开的引物设计为与多肽标签或部分标签的引物结合区互补并结合。因此，引物长度和组成(例如，核苷酸组成)至少部分地取决于多肽或部分标签的引物结合区的长度和组成。在一些实施例中，引物具有4至40个核苷酸的长度。例如，引物可以具有4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31，32，33，34，35，36，37，38，39或40个核苷酸的长度。在一些实施例中，引物可以具有4至10，4至15，4至20，4至25，4至30，4至35或4至40个核苷酸的长度。

为了例如限制与符合其几何标准的引物的结合，可以存在成对或其它组合(例如，任何几何形状的三联体或更多)连接的引物。所显示的刚性双链连接在部分标签和多肽标签之间实施最小和最大距离。双链“尺子”结构域可以是任何长度(例如，2至100个核苷酸，或更多个),并且可以任选地包括条形码本身，该条形码通过信息内容连接两个半部，只要它们在加工过程中分离。在一些实施例中，双链尺子结构域是复杂结构，例如2-，3-，或4-DNA螺旋束，DNA纳米结构，例如DNA折纸结构，或增加或改变尺子硬度/刚性的其它结构，所述双链尺子结构域在部分标签和可产生记录的多肽标签之间实施典型距离。

“链置换聚合酶”是指能够置换核酸合成过程中遇到的下游核酸(例如，DNA)的聚合酶。不同的聚合酶可以具有不同程度的置换活性。链置换聚合酶的实例包括但不限于Bst大片段聚合酶(例如，新英格兰生物实验室(NEB)#M0275，phi 29聚合酶(例如，NEB#M0269)，Deep VentR聚合酶，克列诺片段聚合酶以及修饰的Taq聚合酶。考虑了其它链置换聚合酶。

在一些实施例中，引物包含相对于单链引物结合区的至少一个核苷酸错配。这样的错配可用于促进半记录从部分标签和/或多肽标签的互补链置换。在一些实施例中，引物包含至少一个人工接头。

在一些实施例中，通过置换聚合酶延伸引物(与引物结合位点结合)通常通过存在终止聚合的分子或修饰来终止。因此，在一些实施例中，部分标签和/或多肽标签可包含终止聚合的分子或修饰。终止聚合的分子或修饰(“阻聚剂”或“阻断剂”)通常位于部分标签或多肽标签的双链区，邻近双链回文区，使得聚合终止引物延伸通过双链回文区。对于以发夹形式排列的部分或多肽标签，终止聚合的分子或修饰可以位于双链回文区和发夹环之间。在一些实施例中，终止聚合的分子是合成的非DNA接头，例如，三甘醇间隔区，如Int间隔区9(iSp9)，C3间隔区或间隔区18(集成DNA技术公司，IDT)。应当理解，如本文提供的，可以使用终止通过聚合酶的聚合的任何非天然接头。此类分子和修饰的其他非限制性实例包括三碳连接(/iSpC3/)，(IDT)，ACRYDITE^TM(IDT)，腺苷酸化，叠氮化物，洋地黄毒苷元(NHS酯)，胆甾烯基-TEG(IDT)，I-LINKER^TM(IDT)，以及3-氰基乙烯基咔唑(CNVK)及其变体。典型地，但不总是，短接头(例如，iSp9)导致更快的反应时间。

在一些实施例中，终止聚合的分子是单一的或成对的非天然核苷酸序列，例如iso-dG和iso-dC(IDT)，它们分别是胞嘧啶和鸟嘌呤的化学变体。Iso-dC将与iso-dG碱基配对(氢键)，但不与dG碱基配对。类似地，Iso-dG将与Iso-dC碱基配对，但不与dC碱基配对。通过在发夹的相对侧上成对掺入这些核苷酸，在阻聚剂位置，聚合酶将停止，因为在溶液中没有互补核苷酸在该位置添加。

在一些实施例中，通过在反应中将dNTP浓度(例如，从200μm)降低至100μm，10μm，1μm或更低来提高“阻聚剂”或“阻断剂”修饰的执行效率。

包含终止聚合的分子或修饰通常在部分标签或多肽标签的双链区(例如，发夹结构的茎区)产生“隆起”，因为该分子或修饰不是配对的。因此，在一些实施例中，部分和/或多肽标签被设计成与分子或修饰相反地包括单个核苷酸(例如，胸腺嘧啶)，相同核苷酸(例如，胸腺嘧啶二聚体(TT)或三聚体(TTT))中的至少两个，或非天然修饰。

在一些方面，为了防止聚合酶延伸部分标签和/或多肽标签的末端(例如，5'或3'端)，可以使用聚T序列(例如，2，3，4，5，7，8，9或10个胸腺嘧啶核苷酸的序列)。或者，可向标签的末端(例如，5'或3'端)添加合成碱基(例如，反向dT)或其它修饰以防止标签的不期望的聚合。其它终止分子(阻止不打算延伸的3'端延伸的分子)包括但不限于iso-dG和iso-dC或其它非天然核苷酸或修饰。

在一些实施例中，半记录的产生置换部分标签或多肽标签的一条链。该置换的链依次从3'端开始置换半记录的一部分。在一些实施例中，通过与终止聚合的分子或修饰相邻的“双链置换区”促进半记录的这种置换。在部分标签和/或多肽标签具有发夹结构的实施例中，双链置换区可以位于终止聚合的分子或修饰与发夹环之间。双链置换区可以包含随机或合理设计顺序的核苷酸的任何组合。在一些实施例中，双链置换区的长度为2-10个核苷酸碱基对。例如，双链置换区可以具有2、3、4、5、6、7、8、9或10个核苷酸碱基对的长度。在一些实施例中，双链回文区可以具有5或6个核苷酸碱基对的长度。在一些实施例中，双链回文区可以仅含有C和G核苷酸的组合。

在一些实施例中，还可以通过修改反应条件来促进半记录的置换。例如，一些自循环反应可包括硫代磷酸核苷酸(2'-脱氧核苷α-硫醇2'-脱氧核苷α-硫醇三磷酸产品，Trilink生物技术)替代天然可溶性dNTPs用于新链产生。这些在杂交中不如天然dNTPs稳定，并且导致半记录和茎之间减弱的相互作用。它们可以以任何组合使用(例如，具有天然T、C和G碱基的硫代磷酸酯A，或混合物的其他组合或比率)。可以进行其它这样的化学修饰以削弱半记录配对并促进置换。

在一些实施例中，部分标签和/或多肽标签本身可被修饰，在一些实施例中利用非天然核苷酸修饰，非天然核苷酸用于替代以增强发夹结构。在这样的实施例中，产生半记录的置换聚合酶仍可打开并复制茎，但在链置换期间，茎序列再杂交在能量上优于使用茎模板的半记录杂交。非天然核苷酸的非限制性实例包括5-甲基dC(5-甲基脱氧胞苷；当替代dC时，每次核苷酸插入，该分子使核酸的解链温度增加多达5℃)，2，6-二氨基嘌呤(每次插入，该分子可将解链温度增加多达1-2℃)，超级T(5-羟基丁基)-2'-脱氧尿苷也提高了核酸的解链温度)，和/或锁定的核酸(LNA)。它们可出现在发夹结构的任一条链或两条链中。

在一些实施例中，可以使用非天然核苷酸在新半记录序列和茎之间引入错配。例如，如果在茎的模板链中存在isoG核苷酸，在一些情况下，聚合酶将错误地添加可用于延伸半记录的可溶性核苷酸之一，并且在这样做时在新半记录与茎之间产生“隆起”，非常类似于(包括在引物中的)隆起。在某些方面，它将起到削弱半记录-模板相互作用和促进置换的相同目的。

在一些实施例中，部分标签和/或多肽标签被布置成形成发夹结构，发夹结构是连续核苷酸的单段，该单段连续核苷酸折叠并形成被称为“茎”的双链区以及被称为“环”的单链区。在一些实施例中，双链环区具有3-50个核苷酸的长度。例如，单链环区可以具有3、4、5、6、7、8、9或10个核苷酸的长度。在一些实施例中，单链环区可以具有3至10，3至15，3至20，3至25，3至30，3至35，3至40，3至45或3至50个核苷酸的长度。在一些实施例中，单链环区长于50个核苷酸。例如，单链环区可以具有3至200个核苷酸的长度。在一些实施例中，单链环区具有3至175，3至150，3至100或3至75个核苷酸的长度。在一些实施例中，环区包括分子内碱基配对的较小区域。在一些实施例中，发夹环允许部分标签和/或多肽标签相对于靶标结合部分定向的灵活性。即，环通常允许部分标签或多肽标签相对于靶标结合部分占据各种位置和角度，从而允许与大量邻近标签(例如，附着于其它靶标)连续相互作用。

在一些实施例中，部分标签和/或多肽标签包含至少一个锁定的核酸(LNA)核苷酸或其他修饰的碱基。LNA对或其它经修饰的碱基对可用作部分标签和/或多肽标签的双链区中的较强(或较弱)碱基对，由此偏置链置换反应。在一些实施例中，至少一个LNA分子位于标签的互补链上，在双链条形码区和单链引物结合区之间。

部分标记和/或多肽标记可以是DNA，例如D型DNA和L型DNA和RNA，及其各种修饰。核酸修饰包括碱基修饰、糖修饰和骨架修饰。下文提供此类修饰的非限制性示例。

可根据本公开使用的修饰的核酸(例如，DNA变体)的示例包括但不限于，L-DNA(DNA的骨架对映异构体，文献中已知的)，肽核酸(PNA)bisPNA夹，伪互补PNA，锁定的核酸(LNA)以及上述的共核酸，如DNA-LNA共核酸。因此，本公开考虑包含DNA、RNA、LNA、PNA或其组合的纳米结构。应理解，本公开的方法和组合物中使用的核酸在性质上可以是均质的或异质的。作为一个示例，核酸在性质上可以完全是DNA，或者它们可以由DNA和非DNA(例如，LNA)单体或序列组成。因此，可以使用核酸元件的任何组合。核酸修饰可以使核酸在某些条件下更稳定和/或更不易降解。例如，在一些实施例中，核酸是核酸酶抗性的。

本文还提供了多个部分标签和多肽标签。“多个”包含至少两个标签。在一些实施例中，多个标签包含2至2百万个标签(例如，独特标签)。例如，多个标签可以包含100，500，1000，5000，10000，100000，1000000或更多的标签。本公开不限于该方面。

B.信息转移

缔合的多肽标签和部分标签之间的信息可以以任何合适的方式转移以形成共享的UMI和/或条形码。在一些实施例中，可以将缔合的多肽标签和部分标签之间的信息转移至分离的记录多核苷酸(例如，图7C)。在一些实施例中，分离的记录多核苷酸是包含共享的UMI和/或条形码的新形成的多肽。

在一些实施例中，在缔合的多肽标签与部分标签之间转移信息包含延伸多肽标签的第一多核苷酸和部分标签的第二多核苷酸两者以形成共享的UMI和/或条形码。在其他实施例中，在缔合的多肽标签与部分标签之间转移信息包含延伸多肽标签的第一多核苷酸和部分标签的第二多核苷酸之一以形成共享的UMI和/或条形码。在一些实施例中，多肽标签包含双链多核苷酸，并且部分标签包含双链多核苷酸，并且在缔合的多肽标签与部分标签之间转移信息包含连接双链多核苷酸以形成共享的UMI和/或条形码。共享的UMI和/或条形码可以包含双链多核苷酸的序列。共享的UMI和/或条形码还可以包含双链多核苷酸之一的序列。在一些实施例中，在缔合的多肽标签和部分标签之间转移信息包含延伸多肽标签和部分标签，然后进行连接反应以形成双链分离的记录多核苷酸，该记录多核苷酸包含来自多肽标签和部分标签(例如，共享的UMI和/或条形码)的信息。

在一些实施例中，共享的UMI和/或条形码包含关于一种或多种多肽和/或一种或多种部分的信息。

在一些实施例中，缔合的多肽标签和部分标签之间的信息转移可由聚合酶(例如聚合酶，DNA聚合酶，RNA聚合酶或逆转录酶)介导。在其它实施例中，缔合的多肽标签和部分标签之间的信息转移可以通过连接酶(例如，DNA连接酶，ssDNA连接酶(例如，Circligase)，dsDNA连接酶，或RNA连接酶)介导。在其它实施例中，缔合的多肽标签和部分标签之间的信息转移可由拓扑异构酶介导。在其它实施例中，缔合的多肽标记和部分标记之间的信息转移可通过化学连接介导。在一些实施例中，缔合的多肽标签和部分标签之间的信息转移可以通过延伸和/或连接介导。

在连接结构中，多肽标签和部分标签可以任何合适的方式缔合。在一些实施例中，多肽标签和部分标签之间的连接结构以及它们各自的多肽和部分可以使用如Schenider等描述的共价交联方法连接，以及在用于蛋白质组应用的交联质谱法中的Holding(Holding2015，Schneider，Belsom等人，2018)。在一些实施例中，在连接结构中，多肽标签和部分标签可以稳定或共价缔合。在其它实施例中，在连接结构中，多肽标签和部分标签可以瞬时缔合。多肽标签和部分标签之间的缔合可随时间或本发明方法的执行而变化。在多肽标签和部分标签之间的信息转移之前和之后，多肽标签和部分标签之间的缔合可以不同。例如，在连接结构中，多肽标签和部分标签可以在多肽标签和部分标签之间的信息转移之前瞬时缔合。在多肽标签和部分标签之间的信息转移之后，多肽标签和部分标签之间的缔合可以变得更加稳定。在其它实施例中，在连接结构中，多肽标签和部分标签可直接缔合。在其它实施例中，在连接结构中，多肽标签和部分标签可以例如经由多肽标签和部分标签之间的接头或UMI间接缔合。

在所提供的任何实施例的一些中，在连接结构中，多肽标签和分离的记录多核苷酸直接缔合。在所提供的任何实施例的一些中，在连接结构中，部分标签和分离的记录多核苷酸直接缔合。在一些实施例中，在连接结构中，多肽标签和部分标签可通过分离的记录多核苷酸缔合。在一些实施例中，经由分离的记录多核苷酸在多肽标签与部分标签之间形成的连接结构是瞬时的。在一些实施例中，分离的记录多核苷酸通过多肽标签和/或部分标签之间的延伸形成。在一些实施例中，分离的记录多核苷酸包含与多肽标签和/或部分标签互补的序列。在一些实施例中，分离的记录多核苷酸通过连接形成。在一些实施例中，分离的记录多核苷酸通过多肽标签和/或部分标签的连接形成。

在形成连接结构时，任何合适数量的多肽标签可与多肽的合适数量的位点缔合。例如，在形成连接结构中，单个多肽标签可以与多肽的单个位点缔合，单个多肽标签可以与多肽的多个位点缔合，或多个多肽标签可以与多肽的多个位点缔合。类似地，在形成连接结构中，任何合适数量的部分标签可与合适数量的部分位点缔合。例如，在形成连接结构中，单个部分标签可以与部分的单个位点缔合，单个部分标签可以与部分的多个位点缔合，或多个部分标签可以与部分的多个位点缔合。

在一些实施例中，缔合的多肽标签和部分标签之间的信息转移使用循环退火、延伸和连接。例如，在一些情况下，使用多肽标签和部分标签作为模板以产生双链DNA标签(例如，使用引物延伸)。在一些实施例中，双链DNA标签(例如，多肽标签和部分标签)被连接。在一些实施例中，DNA标签是或包含分离的记录多核苷酸。在一些实施例中，进一步PCR扩增分离的记录多核苷酸。

在一些实施例中，缔合的多肽标签和部分标签之间转移至分离的记录多核苷酸的信息可由聚合酶(例如，DNA聚合酶，RNA聚合酶或逆转录酶)介导。在一些实施例中，转移基于“自动循环”反应(参见例如，Schaus等人，Nat Comm(2017)8:696；美国专利申请公开第US2018/0010174号，以及国际专利申请公开第WO 2018/017914号和第WO 2017/143006号)。在形成分离的记录多核苷酸的重复自动循环的一些实施例中，反应在37℃或大约37℃在置换聚合酶存在下进行。与多肽和部分缔合的多肽标签和部分标签分别被条形码化，并且被设计为使得在置换聚合酶和通用可溶性引物的存在下，部分标签和/或多肽标签指导重复产生邻近标签的记录的自动循环过程。在一些具体的实施例中，用于转移信息的自动循环方法包括1)应用成对的引物交换发夹作为多肽或部分标签，其中单独延伸至结合的半记录，2)链置换和3'回文结构域杂交，和3)半记录延伸至分离的记录多核苷酸。

在一些进一步的实施例中，该方法包括，在第一步骤中，可溶性通用引物在共同的单链引物结合区处结合多肽标签和部分标签中的每一个，置换聚合酶使引物延伸通过条形码区和回文区至终止聚合的分子或修饰(例如，合成的非DNA接头)，由此产生“半记录”，其是指新产生的核酸链)。其次，通过“链置换”机制将半记录从条形码化的多肽或部分标记中部分置换(参见，例如，Yurke等人，Nature 406:605-608，2000；和Zhang等人,NatureChemistry 3:103-113，2011，其各自通过引用并入本文)，并且邻近的半记录通过3'回文区彼此杂交。第三，通过条形码区和引物结合区延伸半记录，释放可溶的、分离的记录多核苷酸，其包括来自多肽标签和部分标签的信息。与相同或其他分子配对(其他多肽-部分配对或相互作用)相缔合的多肽标签和部分标签经历类似的循环以形成分离的记录多核苷酸。

在一些实施例中，在循环反应终止时，收集、制备、扩增、分析和/或测序(例如，使用平行下一代测序技术)分离的记录多核苷酸。在一些实施例中，对分离的记录多核苷酸进行测序，从而产生测序数据。在一些实施例中，收集和修饰分离的记录多核苷酸。在一些实施例中，分离的记录多核苷酸被收集并附着(例如，级联的)。在一些实施例中，所述方法包含在评估分离的记录多核苷酸之前连结收集的分离的记录多核苷酸。例如，在一些实施例中，所述级联由连接酶或Gibson装配介导。在一些实施例中，使用任何合适的技术或程序分析、评估或测序连结的分离的记录多核苷酸。例如，将级联的分离的记录多核苷酸成串测序。在一些实施例中，使用纳米孔测序对级联的多核苷酸进行测序。

在一些实施例中，评估分离的记录多核苷酸，并且评估共享的唯一分子标识符(UMI)和/或条形码指示多肽的位点和所述部分的位点在空间上接近。在一些实施例中，序列数据代表大分子的空间构型，并且在一些情况下代表大分子的连接性和/或相互作用。在一些实施例中，所述方法还包括重建和/或统计分析。在一些实施例中，测序数据提供了关于两种或更多种分子相互作用的信息。

在其它实施例中，可以通过连接酶，例如DNA连接酶，ssDNA连接酶(例如Circligase)，dsDNA连接酶或RNA连接酶介导缔合的多肽标签和部分标签之间至分离的记录多核苷酸的信息转移。在其它实施例中，缔合的多肽标签和部分标签之间至分离的记录多核苷酸的信息转移可由拓扑异构酶介导。在其它实施例中，缔合的多肽标记和部分标记之间的信息转移可通过化学连接介导。在一些实施例中，缔合的多肽标签和/或部分标签与分离的记录多核苷酸之间的信息转移可通过延伸和/或连接介导。

在一些实施例中，所述方法在多肽标签和所述部分的多于一个位点或多于一个部分之间形成多个分离的记录多肽。

在一些实施例中，连接结构在多肽的位点和部分的一个或多个位点之间或在多肽标签和一个或多个部分之间形成。在一些实施例中，一个或多个连接结构在多肽的位点与部分的两个或更多个位点或两个或更多个部分之间形成。在一些实施例中，连接结构在多肽的位点和部分的1，2，3，4，5，6，7，8，9，10或更多个位点之间或在多肽的位点和1，2，3，4，5，6，7，8，9，10或更多个部分之间形成。在一些实施例中，部分的位点各自属于不同的多肽或蛋白质。在一些实施例中，这些部分的位点各自是多肽上的不同位点。在一些实例中，在多肽的位点与部分1的位点之间，在多肽的位点与部分2的位点之间，在多肽的位点与部分3的位点之间等等形成连接结构。在一些实施例中，多肽的相同位点可以以成对的方式形成具有在该部分上的一个以上的位点或具有一个以上的部分的连接结构(参见例如图9A-9C)。在一些实施例中，第一连接结构在多肽和第一部分(M1)之间形成，解离，并且第二或后续连接结构在多肽和第二或后续部分(M2)之间形成。在一些实施例中，重叠的UMI和/或条形码指示多肽与M1和M2形成连接结构。在一些实施例中，来自两个或更多个共有UMI和/或条形码的信息指示多肽的位点和每个部分M1和M2的位点在空间上接近。在一些实例中，来自两个或更多个分离的记录多核苷酸的间接或重叠成对的信息指示具有两个或更多个部分的多肽的空间邻近性信息(图9C)。

在缔合的多肽标签与部分标签之间转移信息或者连接缔合的多肽标签与部分标签形成任何数量的共享的唯一分子标识符(UMI)和/或条形码。例如，在缔合的多肽标签和部分标签之间转移信息或连接缔合的多肽标签和部分标签以形成单个共享的唯一分子标识符(UMI)和/或条形码。单个共享的唯一分子标识符(UMI)和/或条形码可以包含任何合适的物质或序列。在一些实施例中，单个共享的唯一分子标识符(UMI)和/或条形码可以通过将来自多肽标签和/或部分标签的多个序列，例如，多个UMI和/或条形码进行组合而形成。在一些示例中，共享的UMI和/或条形码是复合标签或复合UMI，其包含UMI的序列和/或多肽标签的条形码以及UMI的序列和/或部分标签的条形码。在另一个示例中，在缔合的多肽标签与部分标签之间转移信息或连接缔合的多肽标签与部分标签可以形成多个共享的唯一分子标识符(UMI)和/或条形码。

UMI可以包含任何合适的物质或序列。在一些实施例中，UMI具有适当地或足够低的在样本中偶然发生多次的概率。在其它实施例中，UMI包含含有约3个核苷酸至约40个核苷酸的多核苷酸。UMI多核苷酸中的核苷酸可以是或可以不是连续的。在其它实施例中，UMI中的多核苷酸包含简并序列。在其它实施例中，UMI中的多核苷酸不包含简并序列。在其它实施例中，UMI包含核酸、寡核苷酸、修饰的寡核苷酸、DNA分子、具有伪互补碱基的DNA、具有受保护碱基的DNA、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、γPNA分子或吗啉代DNA，或其组合。DNA分子可以是骨架修饰的、糖修饰的或核碱基修饰的。DNA分子还可以具有核碱基保护基，如Alloc，亲电子保护基，如thiarane，乙酰基保护基，硝基苄基保护基，磺酸酯保护基，或传统的碱不稳定保护基，其包括Ultramild试剂。

多肽标签和部分标签可以使用任何合适的技术或程序彼此解离。例如，如果多肽标签和部分标签经由多肽-多肽，多肽-多核苷酸或多核苷酸-多核苷酸相互作用彼此缔合，则多肽标签和部分标签可以使用适于破坏此类多肽-多肽，多肽-多核苷酸或多核苷酸-多核苷酸相互作用的任何技术或程序彼此解离。在一些实施例中，在连接结构中，共享的UMI和/或条形码包含互补多核苷酸杂交体，并且使多肽标签与部分标签解离包含使互补多核苷酸杂交体变性。

多肽和部分可以使用任何合适的技术或程序彼此解离。例如，如果多肽和部分经由多肽-多肽或多肽-多核苷酸相互作用彼此缔合，则多肽和部分可使用适于破坏此类多肽-多肽或多肽-多核苷酸相互作用的任何技术或程序彼此解离。在一些实施例中，多肽和部分都是较大多肽的一部分，并且将多肽从部分解离包含将较大多肽片段化成肽片段。可以使用任何合适的技术或程序将较大的多肽片段化。例如，可以通过蛋白酶消化将较大的多肽片段化成肽片段。可以使用任何合适的蛋白酶。例如，蛋白酶可以是外肽酶如氨肽酶或羧肽酶。在另一个示例中，蛋白酶可以是内肽酶或内蛋白酶，如胰蛋白酶，LysC，LysN，ArgC，胰凝乳蛋白酶，胃蛋白酶，嗜热菌蛋白酶，木瓜蛋白酶或弹性蛋白酶。(参见例如，Switzar，Giera等人，2013)。在一些实施例中，在多肽与部分彼此解离之后执行多肽的至少部分序列和部分的至少部分同一性的评估。例如，解离的多肽和部分可以用于肽或多肽测序测定(例如，通过构建延伸的记录标签进行的基于降解的多肽测序测定)。在一些情况下，解离的多肽和部分可以用于包含末端氨基酸的循环除去的测定中。

本发明的方法可用于评估样品中多肽和部分之间的同一性和空间关系，而不管该多肽和部分是否属于同一分子。例如，靶标多肽和部分可以属于两种不同的分子。在另一个实例中，靶标多肽和部分可以是相同分子的部分。

在一些实施例中，靶标多肽是较大多肽的一部分，并且部分也是相同的较大多肽的一部分。该部分可以是任何合适的物质或其复合物。例如，该部分可以包含氨基酸或多肽。该部分氨基酸或多肽可包含一个或多个修饰的氨基酸。示例性的修饰氨基酸包括糖基化氨基酸，磷酸化氨基酸，甲基化氨基酸，酰化氨基酸，羟脯氨酸或硫酸化氨基酸。糖基化氨基酸可包含N-连接或O-连接糖基部分。磷酸化氨基酸可以是磷酸酪氨酸，磷酸丝氨酸或磷酸苏氨酸。酰化氨基酸可以包含法呢基，肉豆蔻酰基或棕榈酰基部分。硫酸化氨基酸可以是磺基酪氨酸或二硫键的一部分。

在其他实施例中，该部分可以是与样品中的多肽结合、复合或紧邻的分子的一部分。该部分可以是任何合适的物质或其复合物。例如，该部分可以是原子，氨基酸，多肽，核苷，核苷酸，多核苷酸，维生素，单糖，低聚糖，碳水化合物，脂质或其复合物。在具体的实施例中，该部分包含氨基酸或多肽。该部分氨基酸或多肽可包含一个或多个修饰的氨基酸。示例性的修饰氨基酸包括糖基化氨基酸，磷酸化氨基酸，甲基化氨基酸，酰化氨基酸，羟脯氨酸或硫酸化氨基酸。糖基化氨基酸可包含N-连接或O-连接糖基部分。磷酸化氨基酸可以是磷酸酪氨酸，磷酸丝氨酸或磷酸苏氨酸。酰化氨基酸可以包含法呢基，肉豆蔻酰基或棕榈酰基部分。硫酸化氨基酸可以是磺基酪氨酸或二硫键的一部分。

在一些实施例中，多肽和部分可以属于同一蛋白质复合物中的两种不同蛋白质。在其它实施例中，该部分可以是与样品中的多肽结合、复合或紧邻的多核苷酸分子(例如，DNA或RNA分子)的一部分。

可以使用任何合适的技术或程序来评估多肽标签，部分标签，多肽的至少部分序列和/或该部分的至少部分同一性。例如，如果多肽标签，部分和/或部分标签包含多肽和/或多核苷酸，则可以使用用于评估多肽和/或多核苷酸的同一性或序列的任何合适的技术或程序。类似地，用于评估多肽的任何合适的技术或程序可用于评估多肽的至少部分序列。

在一些实施例中，多肽标签和/或部分标签包含多肽，多肽标签和/或部分标签可以使用结合测定(例如，免疫测定法)来评估。示例性免疫测定包括酶联免疫吸附测定(ELISA)，免疫印迹，免疫沉淀，放射免疫测定(RIA)，免疫染色，乳胶凝集，间接血细胞凝集测定(IHA)，补体结合，间接免疫荧光测定(IFA)，比浊法，流式细胞术测定，表面等离振子共振(SPR)，化学发光测定，侧流免疫测定，u-捕获测定，抑制测定以及亲和测定。

在一些实施例中，多肽标签和/或部分标签包含多核苷酸，例如DNA或RNA。在评估之前或同时，可以扩增多核苷酸。可以使用任何合适的技术或程序扩增多肽标签和/或部分标签中的多核苷酸。例如，可以使用聚合酶链反应(PCR)，链置换扩增(SDA)，转录介导的扩增(TMA)，连接酶链反应(LCR)，基于核酸序列的扩增(NASBA)，引物延伸，滚环扩增(RCA)，自主序列复制系统(3SR)，或者环介导的等温扩增(LAMP)的程序来扩增多核苷酸。

可以使用任何合适的技术或程序来评估该多肽的至少部分序列或所述部分的至少部分同一性。如果所述部分包含多肽，则多肽和部分两者的至少部分序列可通过任何合适的多肽测序技术或程序来评估。例如，多肽和部分两者的至少部分序列可以通过N-末端氨基酸分析，C-末端氨基酸分析，Edman降解和质谱鉴定来评估。在一些实施例中，多肽和部分中的一者或两者的至少部分序列可通过使用结合或识别大分子的至少一部分的关联结合剂(例如，抗体或单克隆抗体的混合群体)来评估。在另一个示例中，多肽和部分两者的至少部分序列可以通过在美国临时专利申请第62/330,841号，第62/339,071号，第62/376,886号，第62/579,844号，第62/582,312号，第62/583,448号，第62/579,870号，第62/579,840号，以及第62/582,916号，以及国际专利申请第PCT/US2017/030702号(公开为WO 2017/192633 A1)中公开和/或要求保护的技术或程序来评估。在一些实施例中，在评估多肽的至少部分序列和/或部分的至少部分同一性之前，将多肽和部分彼此解离并固定在支持物上。在一些方面，使用包括或使用DNA和/或DNA编码的方法进行多肽的至少部分序列或部分的至少部分同一性的评估。

在一些实施例中，使用包含以下步骤的程序评估多肽的至少部分序列：a1)提供多肽以及作为记录标签的缔合多肽标签；b1)使多肽与能够结合多肽的第一结合剂接触，其中第一结合剂包含具有关于第一结合剂的识别信息的第一编码标签；c1)将第一编码标签的信息转移到记录标签，以生成第一次序延伸记录标签；d1)分析第一次序延伸记录标签。该步骤a1)可以进一步包含提供结合到固体支持物上的多肽以及缔合的多肽标签。所述方法可进一步包括使多肽与第二(或更高次序)结合剂接触，第二(或更高次序)结合剂包含能够结合多肽的第二(或更高次序)结合部分以及具有关于第二(或更高次序)结合剂识别信息的编码标签，将第二(或更高次序)编码标签的信息转移到第一次序延伸记录标签以产生第二次序(或更高次序)延伸记录标签，并且分析第二次序(或更高次序)延伸记录标签。

在一些实施例中，使用包含以下步骤的程序评估多肽的至少部分序列：a1)提供多肽以及作为记录标签的缔合多肽标签；b1)使多肽与能够结合多肽的N末端-氨基酸(NTAA)的第一结合剂接触，其中第一结合剂包含具有关于第一结合剂的识别信息的第一编码标签；c1)将第一编码标签的信息转移到记录标签，以生成第一次序延伸记录标签；d1)分析该延伸记录标签。该方法可以进一步包含提供结合到固体支持物上的多肽以及缔合的多肽标签。该方法还包含使靶标多肽与包含第二(或更高次序)编码标签的第二(或更高次序)结合剂接触，第二(或更高次序)编码标签具有关于第二(或更高次序)结合剂的识别信息，其中第二(或更高次序)结合剂能够结合除多肽的NTAA之外的NTAA。多肽与第二(或更高次序)结合剂之间的接触可以以任何合适的方式进行。例如，在多肽与第一结合剂接触后，接着可以使多肽与第二(或更高次序)结合剂接触。在另一示例中，多肽与第二(或更高次序)结合剂接触可以跟多肽与第一结合剂接触同时发生。

在一些实施例中，使用包含以下步骤的程序评估多肽的至少部分序列：a1)提供多肽以及作为记录标签的缔合多肽标签；b1)使多肽与能够结合多肽的N末端氨基酸(NTAA)的第一结合剂接触，其中第一结合剂包含具有关于第一结合剂的识别信息的第一编码标签；c1)将第一编码标签的信息转移到记录标签，以生成第一次序延伸记录标签；d1)除去NTAA，暴露出靶标多肽的新NTAA；e1)使多肽与第二(或更高次序)结合剂接触，第二(或更高次序)结合剂包含具有关于第二(或更高次序)结合剂的识别信息的第二(或更高次序)编码标签，其中第二(或更高次序)结合剂能够结合新NTAA，其中第二(或更高次序)结合剂包含具有关于第二(或更高次序)结合剂的识别信息的第二编码标签；f1)将第二(或更高次序)编码标签的信息转移到第一延伸记录标签，以生成第二(或更高次序)延伸记录标签；g1)分析第二(或更高次序)延伸记录标签。步骤d1)-g1)可以重复一次或多次。该方法可以进一步包含提供结合到固体支持物上的多肽和相关的多肽标签。

在一些实施例中，使用包含以下步骤的程序评估多肽的至少部分序列：a1)提供多肽以及作为记录标签的缔合多肽标签；b1)修饰多肽的N末端氨基酸(NTAA)，例如利用化学剂修饰；c1)使多肽与能够结合修饰的NTAA的第一结合剂接触，其中第一结合剂包含具有关于第一结合剂的识别信息的第一编码标签；d1)将第一编码标签的信息转移到记录标签，以生成第一次序延伸记录标签；e1)分析第一次序延伸记录标签。该步骤a1)可以进一步包含提供结合到固体支持物上的多肽以及缔合的多肽标签。该方法还包含使多肽与包含第二(或更高次序)编码标签的第二(或更高次序)结合剂接触，第二(或更高次序)编码标签具有关于第二(或更高次序)结合剂的识别信息，其中第二(或更高次序)结合剂能够结合除步骤b1)的修饰的NTAA之外的修饰的NTAA。多肽与第二(或更高次序)结合剂之间的接触可以以任何合适的方式进行。例如，在多肽与第一结合剂接触后，接着可以使多肽与第二(或更高次序)结合剂接触。在另一示例中，多肽与第二(或更高次序)结合剂接触可以跟多肽与第一结合剂接触同时发生。

在一些实施例中，分析第一次序和/或第二次序(或更高次序)延伸记录标签也评估多肽标签。

在一些实施例中，该部分包含部分多肽，并且使用包含以下步骤的程序评估部分的至少部分同一性或序列：a2)提供部分多肽以及作为记录标签的缔合部分标签；b2)使部分多肽与能够结合部分多肽的第一结合剂接触，其中第一结合剂包含具有关于第一结合剂的识别信息的第一编码标签；c2)将第一编码标签的信息转移到记录标签，以生成第一次序延伸记录标签；d2)分析第一次序延伸记录标签。所述方法可进一步包含使部分多肽与第二(或更高次序)结合剂接触，第二(或更高次序)结合剂包含能够结合部分多肽的第二(或更高次序)结合部分以及具有关于第二(或更高次序)结合剂识别信息的编码标签，将第二(或更高次序)编码标签的信息转移到第一次序扩展记录标签以产生第二次序(或更高次序)扩展记录标签，并且分析第二次序(或更高次序)扩展记录标签。

在一些实施例中，使用包含以下步骤的程序评估部分的至少部分同一性或序列：a2)提供部分多肽以及作为记录标签的缔合部分标签；b2)使部分多肽与能够结合部分多肽的N末端氨基酸(NTAA)的第一结合剂接触，其中第一结合剂包含具有关于第一结合剂的识别信息的第一编码标签；c2)将第一编码标签的信息转移到记录标签，以生成第一次序延伸记录标签；d2)分析该延伸记录标签。该方法可以进一步包含提供结合到固体支持物上的部分多肽以及缔合的多肽标签。该方法还包含使部分多肽与包含第二(或更高次序)编码标签的第二(或更高次序)结合剂接触，第二(或更高次序)编码标签具有关于第二(或更高次序)结合剂的识别信息，其中第二(或更高次序)结合剂能够结合除多肽的NTAA之外的NTAA。部分多肽与第二(或更高次序)结合剂之间的接触可以以任何合适的方式进行。例如，在部分多肽与第一结合剂接触后，接着可以使部分多肽与第二(或更高次序)结合剂接触。在另一示例中，部分多肽与第二(或更高次序)结合剂接触可以跟部分多肽与第一结合剂接触同时发生。

在一些实施例中，使用包含以下步骤的程序评估部分多肽的至少部分序列：a2)提供部分多肽以及作为记录标签的缔合部分标签；b2)使部分多肽与能够结合部分多肽的N末端氨基酸(NTAA)的第一结合剂接触，其中第一结合剂包含具有关于第一结合剂的识别信息的第一编码标签；c2)将第一编码标签的信息转移到记录标签，以生成第一次序延伸记录标签；d2)除去NTAA，暴露出部分多肽的新NTAA；e2)使部分多肽与第二(或更高次序)结合剂接触，第二(或更高次序)结合剂包含具有关于第二(或更高次序)结合剂的识别信息的第二(或更高次序)编码标签，其中第二(或更高次序)结合剂能够结合新NTAA，其中第二(或更高次序)结合剂包含具有关于第二(或更高次序)结合剂的识别信息的第二编码标签；f2)将第二(或更高次序)编码标签的信息转移到第一延伸记录标签，以生成第二(或更高次序)延伸记录标签；g2)分析第二(或更高次序)延伸记录标签。步骤d2)-g2)可以重复一次或多次。该方法可以进一步包含提供结合到固体支持物上的多肽和缔合的多肽标签。

在一些实施例中，使用包含以下步骤的程序评估部分多肽的至少部分序列：a2)提供部分多肽以及作为记录标签的缔合部分标签；b2)修饰部分多肽的N末端氨基酸(NTAA)，例如利用化学剂修饰；c2)使部分多肽与能够结合修饰的NTAA的第一结合剂接触，其中第一结合剂包含具有关于第一结合剂的识别信息的第一编码标签；d2)将第一编码标签的信息转移到记录标签，以生成第一次序延伸记录标签；e2)分析第一次序延伸记录标签。该步骤a2)可以进一步包含提供连接到固体支持物上的多肽以及缔合的部分标签。该方法还包含使部分多肽与包含第二(或更高次序)编码标签的第二(或更高次序)结合剂接触，第二(或更高次序)编码标签具有关于第二(或更高次序)结合剂的识别信息，其中第二(或更高次序)结合剂能够结合除步骤b2)的修饰的NTAA之外的修饰的NTAA。部分多肽与第二(或更高次序)结合剂之间的接触可以以任何合适的方式进行。例如，在部分多肽与第一结合剂接触后，接着可以使部分多肽与第二(或更高次序)结合剂接触。在另一示例中，部分多肽与第二(或更高次序)结合剂接触可以跟部分多肽与第一结合剂接触同时发生。

在一些实施例中，本文所述的方法使用能够结合大分子(例如，多肽或部分)的结合剂。结合剂可以是能够结合多肽的组分或特征的任何分子(例如，肽、多肽、蛋白质、核酸、碳水化合物、小分子、以及类似物)。结合剂可以是天然存在的、合成产生的、或重组表达的分子。在一些实施例中，用于工程化结合剂的支架可以来自任何物种，例如人，非人，转基因的。结合剂可结合多肽的单个单体或亚基(例如，单个氨基酸)或结合多肽的多个连接的亚基(例如，较长多肽分子的二肽、三肽或更高次序肽)，或结合表位。

在某些实施例中，结合剂可以设计来共价结合。共价结合可以设计为与正确基团结合时是有条件的或偏爱的。例如，NTAA及其同源NTAA特异性结合剂可各自用反应基团修饰，使得一旦NTAA特异性结合剂与同源NTAA结合，就进行偶联反应以在其二者之间产生共价连接。结合剂与缺乏同源反应基团的其他位置的非特异性结合不会导致共价连接。在一些实施例中，多肽包含能够与结合剂形成共价键的配体。在一些实施例中，多肽包含官能化NTAA，官能化NTAA包含能够共价结合到结合剂的配体基团。结合剂与其靶标之间的共价结可以合允许更严格的冲洗用于除去非特异性结合的结合剂。

在某些实施例中，结合剂可以是选择性结合剂。如本文所用，选择性结合是指结合剂相对于结合到不同配体(例如，氨基酸或氨基酸类)优先结合特定配体(例如，氨基酸或氨基酸类)的能力。选择性通常指一种配体被具有结合剂的复合物中的另一配体置换的反应的平衡常数。通常，这种选择性与配体的空间几何形状和/或所述配体与结合剂结合的方式和程度有关，例如通过氢键或范德华力(非共价互作)或通过可逆或不可逆的与结合剂的共价连接。还应该理解，选择性可以是相对的，并且与绝对相反，并且其可以被包括配体浓度在内的不同的因素影响。因此，在一个实例中，结合剂选择性地结合所述二十种标准氨基酸中的一种。在一些示例中，结合剂结合N-末端氨基酸残基，C-末端氨基酸残基或内部氨基酸残基。

在一些实施例中，结合剂是部分特异性或选择性。在一些方面，结合剂优先结合一种或多种氨基酸。在一些示例中，结合剂可以结合二十种标准氨基酸中的两种或更多种。例如，结合剂可以相对于其他氨基酸优先结合氨基酸A、C和G。在一些其他示例中，结合剂可以选择性地或特异性地结合多于一个氨基酸。在一些方面，结合剂还可优选在距离末端氨基酸的第二，第三，第四，第五等位置处具有一个或多个氨基酸。在一些情况下，结合剂优先结合特异性末端氨基酸和一个或多个倒数第二位氨基酸。在一些情况下，结合剂优先结合一个或多个特异性末端氨基酸和一个倒数第二位氨基酸。例如，结合剂可以优先结合AA、AC和AG，或结合剂可以优先结合AA、CA和GA。在一些具体实例中，具有不同特异性的结合剂可以共享相同的编码标签。在一些实施例中，结合剂可在靶标的一些或全部位置中表现出靶标结合偏好的灵活性和可变性。在一些实例中，结合剂可具有对一种或多种特异性靶标末端氨基酸的偏好，并且具有对倒数第二位的靶标的灵活偏好。在一些其它实例中，结合剂可在倒数第二位氨基酸位置具有对一种或多种特异性靶标氨基酸的偏好，并且在末端氨基酸位置具有对靶标的灵活偏好。在一些实施例中，结合剂对包含末端氨基酸和大分子的其它组分的靶标是选择性的。在一些实例中，结合剂对包含末端氨基酸和肽骨架的至少一部分的靶标是选择性的。在一些具体示例中，结合剂对包含末端氨基酸和酰胺肽骨架的靶标具有选择性。在一些情况下，肽骨架包含天然肽骨架或翻译后修饰。在一些实施例中，结合剂表现出变构结合。

在本文公开的方法的实践中，结合剂选择性结合大分子(例如多肽)的特征或组分的能力仅需要足以允许将其编码标签信息转移至与多肽缔合的记录标签。因此，选择性仅需要相对于多肽所暴露的其它结合剂。还应该理解，结合剂的选择性不必绝对地对特定氨基酸，而是可以对一类氨基酸有选择性，例如具有极性或非极性侧链的氨基酸、或具有带电荷(正或负)侧链的氨基酸，或具有芳香族侧链的，或一些特定类别或大小的侧链的氨基酸，和类似的氨基酸。在一些实施例中，结合剂选择性结合大分子的特征或组分的能力通过比较结合剂的结合能力来表征。例如，可以将结合剂与靶标的结合能力与结合不同靶标的结合剂的结合能力进行比较，例如，将对一类氨基酸具有选择性的结合剂与对不同类氨基酸具有选择性的结合剂进行比较。在一些实例中，将对非极性侧链具有选择性的结合剂与对极性侧链具有选择性的结合剂进行比较。在一些实施例中，与对肽的不同特征、组分或一个或多个氨基酸具有选择性的结合剂相比，对肽的特征、组分或一个或多个氨基酸具有选择性的结合剂表现出至少更高的结合，至少有1X，至少有2X，至少有5X，至少有10X，至少有50X，至少有100X，至少有500X。

在一个具体实施例中，结合剂对大分子具有高亲和力和高选择性。特别地，具有低解离速率的高结合亲和力可以对于编码标签和记录标签之间的信息转移是有效的。在某些实施例中，结合剂具有约≤500nM，<200nM，<100nM，<50nM，<10nM，<5nM，<1nM，<0.5nM或<0.1nM的Kd。在一些情况下，结合剂具有约<100nM的Kd。在一个具体实施例中，将结合剂以>10×、>100×或>1000×其K_d的浓度加入到多肽中，以使其结合至完成。例如，在Chang等人，J Immunol Methods(2012)378(1-2):102-115中描述了抗体与单个蛋白质分子的结合动力学的详细讨论.

在某些实施例中，结合剂可以结合NTAA、CTAA、干预氨基酸、二肽(两个氨基酸的序列)、三肽(三个氨基酸的序列)、或肽分子的更高次序肽。在一些实施例中，结合剂库中的每种结合剂选择性结合特定氨基酸，例如二十种标准天然存在的氨基酸之一。标准的天然氨基酸包括丙氨酸(A或Ala)、半胱氨酸(C或Cys)、天冬氨酸(D或Asp)、谷氨酸(E或Glu)、苯丙氨酸(F或Phe)、甘氨酸(G或Gly)、组氨酸(H或His)、异亮氨酸(I或Ile)、赖氨酸(K或Lys)、亮氨酸(L或Leu)、蛋氨酸(M或Met)、天冬酰胺(N或Asn)、脯氨酸(P或Pro)、谷氨酰胺(Q或Gln)、精氨酸(R或Arg)、丝氨酸(S或Ser)、苏氨酸(T或Thr)、缬氨酸(V或Val)、色氨酸(W或Trp)，和酪氨酸(Y或Tyr)。在一些实施例中，结合剂结合未修饰的或天然的氨基酸。在一些示例中，结合剂结合修饰的或天然二肽(两个氨基酸的序列)、三肽(三个氨基酸的序列)、或肽分子的更高次序肽。为了使天然的或未修饰的NTAA具有高亲和力、天然的或未修饰的NTAA具有高度特异性，或两者兼而有之，可以工程化改造结合剂。在一些实施例中，可以通过使用噬菌体展示定向进化有表现好的亲和支架来开发结合剂。

在一些实施例中，结合剂可以结合天然的或未修饰的或未标记的末端氨基酸。在某些实施例中，结合剂可结合到修饰或标记的末端氨基酸(例如，经官能化或修饰的NTAA)。在一些实施例中，结合剂可以结合化学或酶促修饰的末端氨基酸。修饰或标记的NTAA可以是用PITC、1-氟-2，4-二硝基苯(Sanger试剂，DNFB)、苯甲氧基碳酰氯或苄氧羰基氯(Cbz-Cl)，N-(苄氧羰基氧基)琥珀酰亚胺(Cbz-OSu或Cbz-O-NHS)、丹磺酰氯(DNS-Cl，或1-二甲基氨基萘-5-磺酰氯)、4-磺酰基-2-硝基氟苯(SNFB)、乙酰化试剂、胍基化试剂、硫代酰化试剂、硫代乙酰化试剂、或硫代苄基化试剂之一官能化的NTAA。在一些示例中，结合剂通过与试剂接触或使用国际专利公开第WO 2019/089846号描述的方法结合氨基酸。在一些情况下，结合剂结合由胺修饰试剂标记的氨基酸。

在一些实施例中，结合剂衍生自生物来源、天然来源、非天然来源或合成来源。在一些实例中，结合剂衍生自蛋白质从头设计(Huang等人,(2016)537(7620):320-327)).在一些实例中，结合剂具有根据第一原理设计的结构、序列和/或活性。在某些实施例中，结合剂可以是适体(例如，肽适体、DNA适体、或RNA适体)，肽类，氨基酸结合蛋白或酶，抗体或其特异性结合片段，抗体结合片段，抗体模拟物，肽，肽模拟物、蛋白质、或多核苷酸(例如，DNA、RNA、肽核酸(PNA)，gPNA，桥接核酸(BNA)，异种核酸(XNA)，甘油核酸(GNA)，或苏糖核酸(TNA)、或其变体)。

可以设计来用于产生本文所述方法的结合剂的潜在支架包括：anticalin，脂质运载蛋白，氨基酸tRNA合成酶(aaRS)，ClpS，

Adnectin^TM，T细胞受体，锌指蛋白，硫氧还蛋白，GST A1-1，DARPin，affimer，affitin，alphabody，avimer，Kunitz结构域肽，单体，单结构域抗体，EETI-II，HPSTI，胞内抗体，PHD指，V(NAR)LDTI，evibody，Ig(NAR)，knottin，maxibody，微体，新抑癌蛋白，pVIII，淀粉酶抑肽，VLR，蛋白A支架，MTI-II，ecotin，GCN4，Im9，kunitz结构域，PBP，反式体，四连接素，WW结构域，CBM4-2，DX-88，GFP，iMab，Ldl受体结构域A，Min-23，PDZ结构域，禽胰腺多肽，卡律蝎毒素/10Fn3，结构域抗体(Dab)，a2p8锚蛋白重复，昆虫防御A肽，设计的AR蛋白，C型凝集素结构域，葡萄球菌核酸酶，Src同源结构域3(SH3)，或Src同源结构域2(SH2)。在一些实施例中，结合剂衍生自结合一个或多个氨基酸的酶(例如，氨肽酶)。在某些实施例中，结合剂可以衍生自anticalin或ATP-依赖性Clp蛋白酶衔接蛋白(Clps)。

在一些实施例中，结合剂还包含含有关于所述结合剂的识别信息的编码标签。编码标签是约3碱基至约100个碱基的核酸分子，其为其相关结合剂提供独特的识别信息。编码标签可包含约3至约90个碱基，约3至约80个碱基，约3至约70个碱基，约3至约60个碱基，约3个碱基至约50个碱基，约3个碱基至约40个碱基，约3个碱基至约30个碱基，约3个碱基至约20个碱基，约3个碱基至约10个碱基，或约3个碱基至约8个碱基。在一些实施例中，编码标签是约3个碱基，4个碱基，5个碱基，6个碱基，7个碱基，8个碱基，9个碱基，10个碱基，11个碱基，12个碱基，13个碱基，14个碱基，15个碱基，16个碱基，17个碱基，18个碱基，19个碱基，20个碱基，25个碱基，30个碱基，35个碱基，40个碱基，55个碱基，60个碱基，65个碱基，70个碱基，75个碱基，80个碱基，85个碱基，90个碱基，95个碱基，或100个碱基。编码标签可以由DNA、RNA、多核苷酸类似物、或其组合组成。多核苷酸类似物包括PNA、gPNA、BNA、GNA、TNA、LNA，吗啉代多核苷酸、2'-O-甲基多核苷酸、烷基核糖基取代的多核苷酸、硫代磷酸酯多核苷酸和7-脱氮嘌呤类似物。

编码标签包含编码器序列，其提供关于相关结合剂的识别信息。编码序列为约3个碱基至约30个碱基，约3个碱基至约20个碱基，约3个碱基至约10个碱基，或约3个碱基至约8个碱基。在一些实施例中，编码序列为约3个碱基，4个碱基，5个碱基，6个碱基，7个碱基，8个碱基，9个碱基，10个碱基，11个碱基，12个碱基，13个碱基，14个碱基，15个碱基，20个碱基，25个碱基或30个碱基的长度。在一些实施例中，编码器序列的长度决定了可以生成的独特编码器序列的数量。较短的编码序列产生较少数量的独特编码序列，这在使用少量结合剂时可能是有用的。在特定实施例中，一组>50个独特编码器序列用于结合剂库。

在一些实施例中，结合剂库内的每种独特结合剂具有独特编码序列。例如，20种独特的编码序列可用于结合20种标准氨基酸的20种结合剂的库。额外的编码标签序列可用于识别修饰的氨基酸(例如，翻译后修饰的氨基酸)。在另一个实例中，30种独特编码序列可用于结合20种标准氨基酸和10种翻译后修饰氨基酸(例如磷酸化氨基酸、乙酰化氨基酸、甲基化氨基酸)的30种结合剂的库。在其它实施例中，两个或更多个不同的结合剂可以共享相同的编码器序列。例如，各自结合不同的标准氨基酸的两种结合剂可以共享相同的编码序列。

在某些实施例中，编码标签还在一端或两端包含间隔区序列。间隔区序列为约1个碱基至约20个碱基，约1个碱基至约10个碱基，约5个碱基至约9个碱基，或约4个碱基至约8个碱基。在一些实施例中，间隔区的长度约1个碱基，2个碱基，3个碱基，4个碱基，5个碱基，6个碱基，7个碱基，8个碱基，9个碱基，10个碱基，11个碱基，12个碱基，13个碱基，14个碱基，15个碱基、或20个碱基。在一些实施例中，编码标签内的间隔区比编码序列短，例如，至少1个碱基，2个碱基，3个碱基，4个碱基，5个碱基，6个碱基，7个碱基，8个碱基，9个碱基，10个碱基，11个碱基，12个碱基，13个碱基，14个碱基，15个碱基，20个碱基或25个碱基。在其它实施例中，编码标签内的间隔区与编码器序列的长度相同。在某些实施例中，间隔区是结合剂特异性的，使得来自先前结合循环的间隔区仅与来自当前结合循环中的适合结合剂的间隔区相互作用。一个示例是含有间隔区序列的同源抗体对，仅当两种抗体顺序结合多肽时，允许转移信息。间隔区序列可用作引物延伸反应的引物退火位点，或连接反应中的夹板或粘端。编码标签上的5'间隔区可选地包含记录标签上的3'间隔区的伪互补碱基以增加T_m(Lehoudden等人,2008,Nucleic Acids Res.36:3409-3419)。在其它实施例中，结合剂库内的编码标签不具有结合循环特异性间隔区序列。

在一些实施例中，结合剂集合内的所述编码标签共享测定中使用的共同间隔区序列(例如，在多重结合循环方法中使用的整个结合剂库在其编码标签中具有共同的间隔区)。在另一个实施例中，编码标签包含结合循环标签，识别特定的结合循环。在其它实施例中，结合剂库内的编码标签具有结合循环特异性间隔区序列。在一些实施例中，编码标签包含一个结合循环特异性间隔区序列。例如，用于第一结合循环中的结合剂的编码标签包含“循环1”特异性间隔区序列，用于第二结合循环的结合剂的编码标签包含“循环2”特异性间隔区序列，等等达到“n”个结合循环。在进一步的实施例中，用于第一结合循环的结合剂的编码标签包含“循环1”特异性间隔区序列和“循环2”特异性间隔区序列，用于第二结合循环的结合剂的编码标签包括“循环2”特异性间隔区序列和“循环3“特异性间隔区序列，等等至“n”结合循环。在一些实施例中，间隔区序列包含足够数量的碱基以与记录标签或延伸记录标签中的互补间隔区序列退火以引发引物延伸反应或粘性末端连接反应。

在一些实施例中，与用于在交替循环中结合的结合剂相关的编码标签包含不同的结合循环特异性间隔区序列。例如，用于在第一结合循环中使用的结合剂的编码标签包含“循环1”特异性间隔区序列，用于在第二结合循环中使用的结合剂的编码标签包含“循环2”特异性间隔区序列，用于在第三结合循环中使用的结合剂的编码标签也包含“循环1”特异性间隔区序列，用于在第四结合循环中使用的结合剂的编码标签包含“循环2”特异性间隔区序列。以这种方式，每个周期不需要周期特异性间隔区。

当记录标签群与多肽相缔合时，循环特异性间隔区序列也可用于将编码标签的信息级联到单个记录标签上。第一结合循环将信息从编码标签转移到随机选择的记录标签，随后的结合循环可以通过循环依赖的间隔区序列仅引发所述延伸记录标签。更具体地，在第一结合循环中使用的结合剂的编码标签包括“循环1”特异性间隔区序列和“循环2”特异性间隔区序列，在第二结合循环中使用的结合剂的编码标签包括“循环2”特异性间隔区序列和“循环3”特异性间隔区序列，等等至“n”结合循环。来自第一结合循环的结合剂的编码标签能够通过互补循环1特异性间隔区序列与记录标签退火。在将编码标签信息转移到记录标签时，循环2特异性间隔区序列在结合循环1结束时位于延伸记录标签的3'末端。来自第二结合循环的结合剂的编码标签能够通过互补的循环2特异性间隔区序列与延伸记录标签退火。在将编码标签信息转移到延伸记录标签时，循环3特异性间隔区序列在结合周期2结束时位于延伸记录标签的3'末端，依此类推走完“n”个结合循环。该实施例规定，多个结合循环间的某个特定结合循环中的结合信息的转移将仅发生在已经经历先前结合循环的(延伸的)记录标签上。然而，有时结合剂不能与同源多肽结合。在每个结合循环后包含结合循环特异性间隔区的寡核苷酸作为“追踪”步骤可用于保持所述结合循环同步，即使结合循环事件失败也是如此。例如，如果同源结合剂在结合循环1期间不能结合多肽，则在结合循环1之后用包含循环1特异性间隔区、循环2特异性间隔区和“无效”编码序列的寡核苷酸来增加追踪步骤。“无效”编码器序列可以缺编码器序列，或者优选地，是明确识别“无效”结合循环的特异性条形码。“无效”寡核苷酸能够通过循环1特异性间隔区与记录标签退火，并且循环2特异性间隔区被转移至记录标签。因此，尽管结合循环1事件失败，来自结合循环2的结合剂仍然能够通过所述循环2特异性间隔区与延伸记录标签退火。“无效”寡核苷酸将结合循环1标记为延伸记录标签内的失败结合事件。

在一些实施例中，编码标签在邻近结合剂的第二(3')间隔区序列内包含可裂解或可缺刻的DNA链。例如，3'间隔区可具有一个或多个尿嘧啶碱基，其可被尿嘧啶特异性切除试剂(USER)切刻。USER在尿嘧啶的位置产生单核苷酸间隙。在另一个实例中，3'间隔区可包含对切刻核酸内切酶的识别序列，其仅水解双链体的一条链。优选地，用于裂解或切刻3'间隔区序列的酶仅作用于一条DNA链(编码标签的3'间隔区)，使得属于(延伸的)记录标签的双链体内的另一条链保持完整。这些实施例在对天然构象蛋白质的分析中特别有用，因为它允许在引物延伸发生后从(延伸的)记录标签中非变性除去结合剂，并在可用于后续结合循环的延伸记录标签上留下单链DNA间隔区序列。

在某些实施例中，编码标签可以进一步包含连接在编码标签的结合剂的唯一分子标识符。

编码标签可包括在3'间隔区序列的3'端并入的终止子核苷酸。在结合剂与多肽结合并且其相应的编码标签和记录标签通过互补的间隔区序列退火后，引物延伸可以将信息从编码标签转移到记录标签，或者将信息从记录标签转移到编码标签。在编码标签的3'末端添加终止子核苷酸可防止记录标签信息转移编码标签。应当理解，对于本文涉及生成延伸编码标签的实施例，优选在记录标签的3'端包括终止子核苷酸，以防止编码标签信息转移到记录标签。

编码标签可以是单链分子、双链分子或部分双链。编码标签可包括平端、悬挂端或一样一个。在一些实施例中，编码标签是部分双链的，其防止编码标签与延长的延伸记录标签中的内部编码器和间隔区序列退火。在一些实施例中，编码标签包含发夹。在某些实施例中，发夹包含通过核酸链连接的相互互补的核酸区。在一些实施例中，核酸发夹还可以进一步包含从双链茎段延伸的3'和/或5'单链区。在一些实例中，发夹包含单链核酸。

在一些实例中，编码标签可包括在3'间隔区序列的3'端并入的终止子核苷酸。在结合剂与大分子结合并且其相应的编码标签和记录标签通过互补的间隔区序列退火后，引物延伸可以将信息从编码标签转移到记录标签，或者将信息从记录标签转移到编码标签。在编码标签的3'末端添加终止子核苷酸可防止记录标签信息转移编码标签。应当理解，对于本文涉及生成延伸编码标签的实施例，优选在记录标签的3'端包括终止子核苷酸，以防止编码标签信息转移到记录标签。

编码标签通过本领域已知的任何方式，包括共价和非共价相互作用，直接或间接地与结合剂连接。在一些实施例中，编码标签可以酶促或化学方式与结合剂连接。在一些实施例中，编码标签可以通过连接与结合剂结合。在其他实施例中，编码标签通过亲和结合对(例如，生物素和链霉亲和素)与结合剂连接。在一些情况下，编码标签可以连接到非天然氨基酸的结合剂上，例如通过与非天然氨基酸的共价相互作用。

在一些实施例中，通过SpyCatcher-SpyTag相互作用将结合剂连接至编码标签。SpyTag肽通过自发的异肽连接与SpyCatcher蛋白形成不可逆的共价键，从而提供遗传编码方式以产生抵抗力和苛刻条件的肽相互作用(Zakeri等人，2012，Proc.Natl.Acad.Sci.109:E690-697；Li等人，2014，J.Mol.Biol.426:309-317)。结合剂可以表达为包含SpyCatcher蛋白的融合蛋白。在一些实施例中，SpyCatcher蛋白附加在结合剂的N-末端或C-末端。可以使用标准缀合化学法(Bioconjugate Techniques，G.T.Hermanson，Academic Press(2013))将SpyTag肽偶联至编码标签。在一些实施例中，使用基于酶的策略将结合剂连接至编码标签。在一个实例中，使用蛋白质(例如，SpyLigase)将结合剂连接至编码标签(Fierer等人，Proc Natl Acad Sci USA，2014Apr1；111(13):E1176–E1181)。

在其他实施例中，通过SnoopTag-SnoopCatcher肽-蛋白质相互作用将结合剂连接至编码标签。SnoopTag肽与SnoopCatcher蛋白形成异肽键(Veggiani等人,Proc.Natl.Acad.Sci.USA，2016，113:1202-1207)。结合剂可以表达为包含SnoopCatcher蛋白的融合蛋白。在一些实施例中，SnoopCatcher蛋白附加在结合剂的N-末端或C-末端。可以使用标准缀合化学将SnoopTag肽偶联至编码标签。

在其它实施例中，结合剂通过

蛋白质融合标签及其化学配体结合到编码标签。HaloTag是改性的卤代烷脱卤素酶，其被设计来与合成配体(HaloTag配体)共价结合(Los等人，2008，ACS Chem.Biol.3:373-382)。合成配体包含附着到各种有用分子的氯代烷烃接头。在HaloTag和高度特异性的氯代烷烃接头之间形成共价键，是在生理条件下快速发生，并且基本上是不可逆的。

在一些情况下，通过使用酶附着(缀合)将结合剂连接到编码标签上，例如分选酶介导的标记(参见例如，Jouro，Antos等人，Curr Protoc Protein Sci.(2009)CHAPTER 15:Unit–15.3；国际专利公开第WO2013003555号)。分选酶催化转肽酶反应(例如参见，Falck等人，Antibodies(2018)7(4):1-19)).在一些方面，结合剂用一个或多个N-末端或C-末端甘氨酸残基修饰或连接至一个或多个N-末端或C-末端甘氨酸残基。

在一些实施例中，使用π-夹介导的半胱氨酸生物缀合将结合剂连接至编码标签(参见，例如，Zhang等人，Nat Chem.(2016)8(2):120-128)。

在一些实施例中，结合剂直接或间接连接到多聚化结构域。因此，本文提供了包含一种或多种结合剂的单体、二聚体和更高次序(例如，3，4，5或更高次序)多聚体多肽。在一些具体实施例中，结合剂是二聚体的。在一些实例中，本发明的两种多肽可以共价或非共价地彼此附着以形成二聚体。

在一些实施例中，分析第一次序和/或第二次序(或更高次序)延伸记录标签也评估部分标签。

在一些实施例中，第一次序和/或第二次序(或更高次序)延伸记录标签包含多核苷酸，例如DNA或RNA，并且评估第一次序和/或第二次序(或更高次序)延伸记录标签中的多核苷酸的至少部分序列以评估多肽的至少部分序列和/或部分，和/或评估多肽标签和/或部分标签。可以使用任何合适的技术或程序来评估多核苷酸序列。例如，多核苷酸序列可以使用Maxam-Gilbert测序，链终止法，鸟枪法测序，桥接PCR，单分子实时测序，离子半导体(离子流测序)，合成测序，连接测序(SOLiD测序)，链终止(Sanger测序)，大规模平行标记测序(MPSS)，polony测序，454焦磷酸测序，Illumina(Solexa)测序，DNA纳米球测序，heliscope单分子测序，单分子实时(SMRT)测序，纳米孔DNA测序，隧道电流DNA测序，杂交测序，质谱法测序，微流体Sanger测序，基于显微术的技术，RNAP测序或体外病毒高通量测序来评估。

本发明的方法可用于评估样品中多肽和部分之间的任何合适类型的空间邻近性。在一些实施例中，多肽和部分都是较大多肽的一部分。在一些示例中，较大多肽具有一级蛋白质结构，并且多肽和部分在空间上邻近一级蛋白质结构。在一些实例中，较大的多肽具有二级、三级和/或四级蛋白质结构，并且多肽和部分在空间上邻近二级、三级和/或四级蛋白质结构。

在其它实施例中，多肽和部分属于两种不同的分子。例如，多肽和部分可以属于同一蛋白质复合物中的两种不同蛋白质。在其它示例中，该部分可以是与样品中的多肽结合、复合或紧邻的多核苷酸分子(例如，DNA或RNA分子)的一部分。在这些实施例中，本发明的方法可用于评估不同分子之间或之中的任何合适类型的空间邻近性，例如，蛋白质复合物，蛋白质-DNA复合物或蛋白质-RNA复合物中的不同亚单位之间或之中的空间邻近性。

II.使用预组装结构的邻近相互作用分析的方法

在一个方面，本公开提供了一种用于评估样品中的多肽与部分之间的同一性和空间关系的方法，该方法包括：a)提供预组装结构，预组装结构在中间部分包含共享的唯一分子标识符(UMI)和/或条形码，UMI和/或条形码在一侧侧接多肽标签并且在另一侧侧接部分标签；b)通过将所述预组装结构的所述多肽标签与所述多肽的位点缔合并且将所述预组装结构的所述部分标签与所述部分的位点缔合，在样品中的多肽的位点与所述样品中的部分的位点之间形成连接结构；c)通过从所述部分解离所述多肽并从所述部分标签解离所述多肽标签，同时维持所述多肽与所述多肽标签之间的缔合并维持所述部分与所述部分标签之间的缔合来破坏连接结构；以及d)评估所述多肽标签和所述多肽的至少部分序列，以及评估所述部分标签和所述部分的至少部分同一性；其中所述多肽标签和所述部分标签的所述评估部分包含共享的唯一分子标识符(UMI)和/或条形码，其指示所述样品中所述多肽的位点和所述部分的位点在空间上的邻近性。

在本方法中可以使用任何合适的部分标签。例如，部分标签可以是原子、无机部分、有机部分或其复合物。有机部分可以是氨基酸，多肽(例如，肽或蛋白质)，核苷，核苷酸，多核苷酸(例如，寡核苷酸或核酸)，维生素，单糖，低聚糖，碳水化合物，脂质及其复合物。在一些实施例中，部分标签可以包含多核苷酸。

多肽标签和部分标签都可以包含多核苷酸。在一些实施例中，多肽标签包含UMI和/或条形码。在一些实施例中，部分标签包含UMI和/或条形码。在一些实施例中，多肽标签包含第一多核苷酸,并且部分标签包含第二多核苷酸，第一和第二多核苷酸包含互补序列，并且多肽标签和部分标签经由互补序列缔合。

在一些实施例中，预组装结构包含一个或多个条形码或一个或多个UMI。在一些示例中，每个预组装结构包含两个条形码。在一些示例中，每个预组装结构包含两个UMI。在一些实施例中，建立每个预组装的两个或更多个缔合的UMI的关系或缔合。在一些实施例中，评估(例如，测序)预组装结构的两个或更多个缔合的UMI以建立UMI彼此的关系或缔合。在一些情况下，两个或更多个UMI被合成为预组装结构。在一些情况下，两个或更多个UMI连接(直接地或经由接头间接地)以形成预组装的结构。在一些实施例中，例如通过将包含预组装结构的一个UMI的DNA与多肽和部分连接，并且将包含预组装结构的一个UMI的DNA与部分连接，将预组装结构连接至多肽和部分。在一些情况下，在将预组装结构连接至多肽和部分之后，预组装结构的两个或更多个UMI彼此解离(同时每个UMI保持与多肽或部分缔合)。在一些实施例中，每个预组装的两个或更多个缔合的UMI的关系或缔合在使UMI彼此解离之前建立。在一些实施例中，在使两个或更多个相缔合的UMI彼此解离之前执行对两个或更多个相缔合的UMI的评估。在一些实施例中，所述方法包括解离预组装结构的两个或更多个UMI和解离多肽和部分。

在一些实施例中，预组装结构包含可裂解或可缺刻的DNA链(例如在第一UMI和第二UMI之间)。例如，预组装结构可具有一个或多个尿嘧啶碱基，其可被尿嘧啶特异性切除试剂(USER)切刻。

在一些实施例中，预组装结构包含UMI的互补序列。在一些实施例中，预组装结构包含单链DNA、双链DNA复合物、DNA双链体或DNA发夹。在一些实施例中，通过从预组装结构中的模板UMI序列延伸或连接以产生预组装结构中的UMI序列的互补序列来合成或产生包含UMI的预组装结构。

在一些实施例中，所述方法提供包含DNA交联剂的预组装结构，DNA交联剂包含用于直接或间接连接至多肽和邻近部分的UMI或条形码(图4A-4B)。在一些实例中，利用DNA复合物(例如DNA交联剂)或其一部分邻近标记或附着于DNA复合物的多肽和部分彼此解离。在多肽和部分解离后，多肽保持与包含UMI或条形码的DNA复合物(例如，DNA交联剂)的一条链的附着，并且部分保持与包含UMI或条形码的DNA复合物(例如，DNA交联剂)的至少部分互补链的附着(图5A-5C)。在一些实施例中，DNA复合物(例如，DNA交联剂(或其一部分)经由酶促(例如，连接)或化学方法直接或间接(例如，连接至附着的核酸)连接至多肽和部分。

在连接结构中，多肽标签和部分标签可以任何合适的方式缔合。在一些实施例中，在连接结构中，多肽标签和部分标签可以稳定缔合。在其它实施例中，在连接结构中，多肽标签和部分标签可以瞬时缔合。多肽标签和部分标签之间的缔合可随时间或本发明方法的执行而变化。在其它实施例中，在连接结构中，多肽标签和部分标签可直接缔合。在其它实施例中，在连接结构中，多肽标签和部分标签可以例如经由多肽标签和部分标签之间的接头或UMI间接缔合。在一些实施例中，通过使预组装结构(例如，DNA交联剂)的多肽标签与多肽的位点缔合并且使所述预组装结构的部分标签与所述部分的位点缔合来形成连接结构。

所形成的连接结构可以包含任何合适数量的共享的唯一分子标识符(UMI)和/或条形码。例如，形成的连接结构可包含单个共享的唯一分子标识符(UMI)和/或条形码。在另一个示例中，形成的连接结构可以包含多个共享的唯一分子标识符(UMI)和/或条形码。在一些示例中，共享的UMI和/或条形码是复合标签或复合UMI，其包含UMI的序列和/或多肽标签的条形码以及UMI的序列和/或部分标签的条形码。

UMI和/或条形码可以包含任何合适的物质或序列。在一些实施例中，UMI具有适当地或足够低的在样本中偶然发生多次的概率。在其它实施例中，UMI包含含有约3个核苷酸至约40个核苷酸的多核苷酸。UMI多核苷酸中的核苷酸可以是或可以不是连续的。在其它实施例中，UMI中的多核苷酸包含简并序列。在其它实施例中，UMI中的多核苷酸不包含简并序列。在其它实施例中，UMI包含核酸、寡核苷酸、修饰的寡核苷酸、DNA分子、具有伪互补碱基的DNA、具有受保护碱基的DNA、RNA分子、BNA分子、XNA分子、LNA分子、PNA分子、γPNA分子或吗啉代DNA，或其组合。DNA分子可以是骨架修饰的、糖修饰的或核碱基修饰的。DNA分子还可以具有核碱基保护基，如Alloc，亲电子保护基，如thiarane，乙酰基保护基，硝基苄基保护基，磺酸酯保护基，或传统的碱不稳定保护基，其包括Ultramild试剂。

多肽和部分可以使用任何合适的技术或程序彼此解离。例如，如果多肽和部分经由多肽-多肽或多肽-多核苷酸相互作用彼此缔合，则多肽和部分可使用适于破坏此类多肽-多肽或多肽-多核苷酸相互作用的任何技术或程序彼此解离。在一些实施例中，多肽和部分都是较大多肽的一部分，并且将多肽从部分解离包含将较大多肽片段化成肽片段。可以使用任何合适的技术或程序将较大的多肽片段化。例如，可以通过蛋白酶消化将较大的多肽片段化成肽片段。可以使用任何合适的蛋白酶。例如，蛋白酶可以是外肽酶如氨肽酶或羧肽酶。在另一个示例中，蛋白酶可以是内肽酶或内蛋白酶，如胰蛋白酶，LysC，LysN，ArgC，胰凝乳蛋白酶，胃蛋白酶，嗜热菌蛋白酶，木瓜蛋白酶或弹性蛋白酶。(参见例如，Switzar，Giera等人，2013)。

可以使用任何合适的技术或程序来评估该多肽的至少部分序列或所述部分的至少部分同一性。如果所述部分包含多肽，则多肽和部分两者的至少部分序列可通过任何合适的多肽测序技术或程序来评估。例如，多肽和部分两者的至少部分序列可以通过N-末端氨基酸分析，C-末端氨基酸分析，Edman降解和质谱鉴定来评估。在另一个示例中，多肽和部分两者的至少部分序列可以通过在美国临时专利申请第62/330,841号，第62/339,071号，第62/376,886号，第62/579,844号，第62/582,312号，第62/583,448号，第62/579,870号，第62/579,840号，以及第62/582,916号，以及国际专利申请第PCT/US2017/030702号(公开为WO 2017/192633 A1)中公开和/或要求保护的技术或程序来评估。例如，用于评估本文提供的大分子(例如，多肽)的任何技术或程序，例如在第I节中描述的多肽，可用于评估多肽的至少部分序列或部分的至少部分同一性。

在一些实施例中，使用包含以下步骤的程序评估多肽的至少部分序列：a1)提供多肽以及作为记录标签的缔合多肽标签；b1)修饰多肽的N末端氨基酸(NTAA)，例如利用化学剂修饰；c1)使多肽与能够结合修饰的NTAA的第一结合剂接触，其中第一结合剂包含具有关于第一结合剂的识别信息的第一编码标签；d1)将第一编码标签的信息转移到记录标签，以生成第一次序延伸记录标签；e1)分析第一次序延伸记录标签。该步骤a1)可以进一步包含提供结合到固体支持物上的多肽以及缔合的多肽标签。该方法还包含使多肽与包含第二(或更高次序)编码标签的第二(或更高次序)结合剂接触，第二(或更高次序)编码标签具有关于第二(或更高次序)结合剂的识别信息，其中第二(或更高次序)结合剂能够结合除步骤b1)的修饰的NTAA之外的修饰的NTAA。多肽与第二(或更高次序)结合剂之间的接触可以以任何合适的方式进行。例如，在靶标多肽与第一结合剂接触后，接着可以使多肽与第二(或更高次序)结合剂接触。在另一示例中，多肽与第二(或更高次序)结合剂接触可以跟多肽与第一结合剂接触同时发生。

在一些实施例中，使用包含以下步骤的程序评估部分多肽的至少部分序列：a2)提供部分多肽以及作为记录标签的缔合部分标签；b2)修饰部分多肽的N末端氨基酸(NTAA)，例如利用化学剂修饰；c2)使部分多肽与能够结合修饰的NTAA的第一结合剂接触，其中第一结合剂包含具有关于第一结合剂的识别信息的第一编码标签；d2)将第一编码标签的信息转移到记录标签，以生成第一次序延伸记录标签；e2)分析第一次序延伸记录标签。该步骤a2)可以进一步包含提供连接到固体支持物上的多肽以及缔合的部分标签。该方法还包含使多肽与包含第二(或更高次序)编码标签的第二(或更高次序)结合剂接触，第二(或更高次序)编码标签具有关于第二(或更高次序)结合剂的识别信息，其中第二(或更高次序)结合剂能够结合除步骤b1)的修饰的NTAA之外的修饰的NTAA。部分多肽与第二(或更高次序)结合剂之间的接触可以以任何合适的方式进行。例如，在部分多肽与第一结合剂接触后，接着可以使部分多肽与第二(或更高次序)结合剂接触。在另一示例中，部分多肽与第二(或更高次序)结合剂接触可以跟部分多肽与第一结合剂接触同时发生。

本发明的方法可用于评估样品中多肽和部分之间的任何合适类型的空间邻近性。在一些实施例中，多肽和部分都是较大多肽的一部分。在一些示例中，较大多肽具有一级蛋白质结构，并且多肽和部分在空间上邻近一级蛋白质结构。在一些实例中，较大的多肽具有二级、三级和/或四级蛋白质结构，并且多肽和部分在空间上邻近二级、三级和/或四级蛋白质结构。在其它实施例中，多肽和部分属于两种不同的分子。例如，多肽和部分可以属于同一蛋白质复合物中的两种不同蛋白质。在其它示例中，该部分可以是与样品中的多肽结合、复合或紧邻的多核苷酸分子(例如，DNA或RNA分子)的一部分。在这些实施例中，本发明的方法可用于评估不同分子之间或之中的任何合适类型的空间邻近性，例如蛋白质复合物，蛋白质-DNA复合物或蛋白质-RNA复合物中的不同亚单位之间或之中的空间邻近性。

III.本方法的用途

本方法可用于任何合适的目的。在一些实施例中，本发明的方法可用于评估样品中单一多肽和单一部分之间的空间关系。在其它实施例中，本发明的方法可用于评估样品中单个多肽和多个部分之间的空间关系。在其它实施例中，本发明的方法可用于评估样品中多个多肽和多个部分之间的空间关系。

在一些实施例中，多肽和部分均属于同一分子，并且本方法用于识别和/或评估同一分子中多肽和部分之间的相互作用。例如，部分可以是多肽的相同蛋白质中的部分氨基酸或部分多肽，并且本方法用于识别和/或评估多肽与蛋白质中的部分氨基酸或部分多肽之间的相互作用。在另一个实例中，本发明的方法用于识别和/或评估相同蛋白质中的相互作用区或域。在另一个示例中，部分是修饰的部分氨基酸或修饰的部分多肽，并且本方法用于识别和/或评估蛋白质中多肽与修饰的部分氨基酸或修饰的部分多肽之间的相互作用。在一些实施例中，多肽和部分都是较大多肽的一部分，并且多肽和部分在空间上邻近二级、三级和/或四级蛋白质结构。

在一些实施例中，本发明的方法可进一步包含在分析之前例如通过交联保留靶标分子的结构。例如，靶标分子可以是靶标蛋白质，并且本发明的方法可以进一步包括在分析之前例如通过交联保留靶标蛋白质的结构。在这样的示例中，本发明的方法可用于识别和/或评估靶标蛋白质中的二硫键。

在一些实施例中，部分属于与包含靶标多肽的靶标蛋白质结合、复合或紧邻的分子，并且本方法用于识别和/或评估样品中靶标蛋白质和与靶标蛋白质结合、复合或紧邻的分子之间的相互作用。例如，部分可以是部分蛋白质中的部分氨基酸或部分多肽，部分氨基酸或部分多肽与包含靶标多肽的靶标蛋白质结合、复合或紧邻，并且本方法用于识别和/或评估样品中靶标蛋白质和部分蛋白质之间的相互作用。在另一个实例中，本方法用于识别和/或评估靶标蛋白质和与靶标蛋白质结合、复合或紧邻的部分蛋白质中的相互作用区或域，例如，以便识别和/或评估参与蛋白质亚单位结合或复合，或蛋白质-配体结合或复合的相互作用区或域。在又一个实例中，本方法用于评估两个或更多个多肽区或域属于相同蛋白质、相同蛋白质结合对或相同蛋白质复合物的概率。

在一些实施例中，评估多肽的至少部分序列和部分的至少部分同一性与形成多肽和部分之间的连接结构分开进行。例如，在多肽与部分之间形成连接结构之后并且在多肽标签与部分标签之间转移信息以形成共享的唯一分子标识符和/或条形码之后，进行多肽的至少部分序列和部分的至少部分同一性的评估。在一些示例中，在多肽与部分解离之后执行多肽的至少部分序列和部分的至少部分同一性的评估。在一些方面，在将多肽(具有缔合的多肽标签)固定在支持物上之后，并且在将部分(具有缔合的部分标签)固定在固体支持物上之后，进行多肽的至少部分序列和部分的至少部分同一性的评估。在任何这样的实施例的一些中，评估多肽的至少部分序列和部分的至少部分同一性包括使多肽和部分与一种或多种结合剂接触。在一些示例中，按如下步骤执行多肽和部分与一种或多种结合剂的接触：在多肽和部分之间形成连接结构之后，以及在多肽标签和部分标签之间转移信息以形成共享的唯一分子标识符和/或条形码之后；在多肽与部分解离之后；在将多肽(具有缔合的多肽标签)固定在支持物上之后并且在将部分(具有缔合的部分标签)固定在固体支持物上之后。

在一些实施例中，本方法还包含物理分区步骤，例如，通过乳剂或其他物理分区技术进行分区。在一些实施例中，本方法不包含物理分区步骤。

在一些实施例中，本发明的方法还包含在分析中限制蛋白质的数量，例如限制蛋白质的平均数。分析中蛋白质的数量可以通过任何合适的技术或程序来限制。例如，可以通过稀释来限制蛋白质的数量。在另一个示例中，蛋白质的数量可以通过将蛋白质结合到固体支持物如珠粒来限制。在一些实施例中，进行成对或相互作用的多肽和部分在固体支持物上的固定化以实现期望的取样。在一些情况下，进行多肽和部分的固定以增加多肽和部分都固定在同一固体支持物上的可能性。在一些实例中，将多肽或部分(及其缔合标签)固定在固体支持物上，然后将多肽与部分解离，并且将多肽或部分中的另一者固定在相同的固体支持物(例如，相同的珠粒)上。

在一些实施例中，本发明的方法可用于分析天然构象的蛋白质。在一些实施例中，多肽和部分之间的连接结构的形成是在样品中的多肽和部分上执行的，样品是相互作用的或空间接近的，同时各自保持其二级、三级和/或四级蛋白质结构。在其它实施例中，本发明的方法可用于分析变性或复性的蛋白质。

在一些实施例中，本发明的方法可用于分析蛋白质组，例如整个蛋白质组。蛋白质组可以是病毒的蛋白质组，病毒级分，细胞级分，细胞器，细胞，组织，器官，生物体或生物样品。

本发明的方法可用于评估任何合适的样品中多肽和部分之间的空间关系。在一些实施例中，本发明的方法可用于评估生物样品(例如，血液，血浆，血清或尿液样品)中靶标多肽和部分之间的空间关系。

在一些实施例中，本发明的方法可以例如在溶液中均匀地进行。在一些实施例中，本发明的方法可以例如在悬浮液中非均匀地进行。

IV.用于评估空间关系的试剂盒和制品

本文提供了用于评估样品中的一种或多种多肽与一种或多种部分之间的空间关系的试剂盒，包括使用本文提供的任何方法。在一个方面，试剂盒还包含描述使用本文提供的方法评估样品的方法的说明。在一些实施例中，本文提供用于分析大分子的方法的试剂盒和组分，该方法包含：a)在所述样品中的多肽的位点和样品中的部分的位点之间形成连接结构，所述连接结构包括与所述多肽的位点缔合的多肽标签以及与所述部分的位点缔合的部分标签，其中所述多肽标签和所述部分标签缔合；b)在所述缔合的多肽标签和所述部分标签之间转移信息或连接所述缔合的多肽标签和所述部分标签以形成共享的唯一分子标识符(UMI)和/或条形码；c)通过从所述部分解离所述多肽并从所述部分标签解离所述多肽标签，同时维持所述多肽与所述多肽标签之间的缔合并维持所述部分与所述部分标签之间的缔合来破坏连接结构；以及d)评估所述多肽标签和所述多肽的至少部分序列，以及评估所述部分标签和所述部分的至少部分同一性；其中所述多肽标签和所述部分标签的所述评估部分包含共享的唯一分子标识符(UMI)和/或条形码，其指示所述样品中所述多肽的位点和所述部分的位点在空间上的邻近性。

在一些实施例中，本文提供了用于评估多肽和部分之间的同一性和空间关系的方法中的试剂盒和组分，该方法包含：a)在所述样品中的多肽的位点和样品中的部分的位点之间形成连接结构，所述连接结构包含与所述多肽的位点缔合的多肽标签以及与所述部分的位点缔合的部分标签，其中所述多肽标签和所述部分标签缔合；b)在缔合的所述多肽标签与所述部分标签之间转移信息以形成共享的唯一分子标识符(UMI)和/或条形码，其中共享的UMI和/或条形码形成为分离的记录多核苷酸；c)通过从所述部分解离所述多肽并从所述部分标签解离所述多肽标签，同时维持所述多肽与所述多肽标签之间的缔合并维持所述部分与所述部分标签之间的缔合来破坏连接结构；d)评估所述多肽标签和所述多肽的至少部分序列，以及评估所述部分标签和所述部分的至少部分同一性；以及e)评估所述分离的记录多核苷酸以建立多肽的位点与部分的位点之间的空间关系。

在一些实施例中，本文提供用于方法的试剂盒和组分，用于a)提供预组装结构，预组装结构在中间部分包含共享的唯一分子标识符(UMI)和/或条形码，UMI和/或条形码在一侧侧接多肽标签并且在另一侧侧接部分标签；b)通过将所述预组装结构的所述多肽标签与所述多肽的位点缔合并且将所述预组装结构的所述部分标签与所述部分的位点缔合，在样品中的多肽的位点与所述样品中的部分的位点之间形成连接结构；c)通过从所述部分解离所述多肽并从所述部分标签解离所述多肽标签，同时维持所述多肽与所述多肽标签之间的缔合并维持所述部分与所述部分标签之间的缔合来破坏连接结构；以及d)评估所述多肽标签和所述多肽的至少部分序列，以及评估所述部分标签和所述部分的至少部分同一性；其中所述多肽标签和所述部分标签的所述评估部分包含共享的唯一分子标识符(UMI)和/或条形码，其指示所述样品中所述多肽的所述位点和所述部分的位点在空间上的邻近性。

在一些实施例中，本文提供的试剂盒包括用于执行评估空间相互作用和/或关系的方法的组分、包含所述组分的反应混合物组合物以及用于构建反应混合物的试剂盒。

在一些实施例中，试剂盒包含一个或多个多肽标签和一个或多个部分标签；用于在样品中形成多肽和部分之间的连接结构的试剂；以及用于评估部分与多肽的至少部分序列的同一性的试剂。在一些实施例中，试剂盒还包含用于评估多肽之间的同一性和空间关系的说明。在一些实施例中，试剂盒包含用于制备样品的说明。在一些实施例中，试剂盒包含组分，例如第I节和第II节中描述的多肽和多核苷酸。

在一些实施例中，试剂盒包含一个或多个多肽标签和一个或多个部分标签；用于在样品中形成多肽和部分之间的连接结构的试剂，其中连接结构形成为分离的记录多核苷酸；以及用于评估部分与多肽的至少部分序列的同一性的试剂。在任何提供的实施例的一些中，试剂盒进一步包含用于分析分离的记录多核苷酸的试剂。

在所提供的任何实施例的一些中，试剂盒还包含一个或多个用于连接(例如，酶或化学连接，夹板连接，粘端连接，单链(ss)连接例如ssDNA连接，或其任何组合)的试剂，聚合酶介导的反应(例如，单链核酸或双链核酸的引物延伸)，或其任何组合完成。在一些实施例中，连接试剂是(i)化学连接试剂或生物连接试剂，例如，连接酶，例如用于连接单链核酸或双链核酸的DNA连接酶或RNA连接酶，或(ii)用于单链核酸或双链核酸引物延伸的试剂，可选地，其中试剂盒还包含连接试剂，连接试剂包含至少两种连接酶或其变体(例如，至少两种DNA连接酶，或至少两种RNA连接酶，或至少一种DNA连接酶和至少一种RNA连接酶)，其中至少两种连接酶或其变体包含腺苷酸化连接酶和组成型非腺苷酸化连接酶，或可选地其中试剂盒还包含连接试剂，连接试剂包含DNA或RNA连接酶和DNA/RNA脱腺苷酸化酶。

在一些实施例中，试剂盒包含用于评估部分的同一性和多肽的至少部分序列的试剂。在某些情况下，试剂盒包含结合剂库，其中每个结合剂包含结合部分和编码聚合物，编码聚合物包含关于结合部分的识别信息，在一些实施例中，结合部分能够结合片段的一个或多个N-末端、内部或C-末端氨基酸，或能够结合通过官能化试剂修饰的一个或多个N-末端、内部或C-末端氨基酸；

在一些实施例中，试剂盒包含用于提供与多肽标签直接或间接缔合的多肽以及用于提供与部分标签直接或间接缔合的部分的试剂；用于官能化多肽的N-末端氨基酸(NTAA)的试剂；第一结合剂或第一可检测标记，第一结合剂包含能够结合官能化NTAA的第一结合部分以及具有关于所述第一结合剂的识别信息的第一编码标签；以及用于将第一编码标签的信息转移到记录标签以生成延伸记录标签的试剂。在一些实施例中，试剂盒还包含用于分析延伸记录标签的试剂或用于检测第一可检测标签的试剂。

在一些实施例中，试剂盒另外包含用于消除官能化NTAA以暴露新的NTAA的试剂。可以使用任何合适的除去试剂。在一些实施例中，除去的氨基酸是使用本文提供的任何方法或试剂修饰的氨基酸。例如，试剂可以包含酶或化学试剂以除去一个或多个末端氨基酸。例如，在一些情况下，用于消除官能化NTAA的试剂是羧肽酶，氨肽酶，或二肽基肽酶，二肽氨基肽酶，或其变体，突变体或修饰的蛋白质；水解酶或其变体，突变体或修饰的蛋白质；温和型埃德曼降解试剂；Edmanase酶；TFA；碱；或其任何组合。在一些情况下，除去试剂包含三氟乙酸或盐酸。在一些示例中，除去试剂包含酰肽水解酶(APH)。在一些实施例中，除去试剂包括羧肽酶或氨肽酶或其变体，突变体或修饰的蛋白质；水解酶或其变体，突变体或修饰的蛋白质；温和型埃德曼降解试剂；Edmanase酶；无水TFA，碱；或其任何组合。在一些实施例中，温和型埃德曼降解试剂使用二氯酸或一氯酸；温和型埃德曼降解试剂使用TFA、TCA或DCA；或温和型埃德曼降解试剂使用三乙胺、三乙醇胺或三乙基乙酸铵(Et₃NHOAc)。

在一些情况下，用于除去氨基酸的试剂包含碱。在一些实施例中，碱是氢氧化物、烷基化胺、环胺、碳酸盐缓冲剂或金属盐。在一些实例中，氢氧化物是氢氧化钠；烷基化胺选自甲胺，乙胺，丙胺，二甲胺，二乙胺，二丙胺，三甲胺，三乙胺，三丙胺，环己胺，苄胺，苯胺，二苯胺，N,N-二异丙基乙胺(DIPEA)和二异丙基氨基酰胺锂(LDA)；环胺选自吡啶，嘧啶，咪唑，吡咯，吲哚，哌啶，吡咯烷(prolidine)，1,8-二氮杂双环[5.4.0]十一碳-7-烯(DBU)，1,5-二氮杂双环[4.3.0]壬-5-烯(DBN)；碳酸盐缓冲液包括碳酸钠，碳酸钾，碳酸钙，碳酸氢钠，碳酸氢钾或碳酸氢钙；金属盐包含银；或金属盐为AgClO₄。

在一些实施例中，所述方法还包括使多肽与肽偶联试剂接触。在一些实施例中，肽偶联试剂是碳二亚胺化合物。在一些示例中，碳二亚胺化合物是二异丙基碳二亚胺(DIC)或1-乙基-3-(3-二甲基氨基丙基)碳二亚胺(EDC)。

在一个方面，试剂盒还包含与所提供的方法一起使用的缓冲液。在一些实例中，试剂盒还包含洗涤剂或表面活性剂。在一些实施例中，所提供的试剂盒包括用于多肽标签和部分标签之间的信息转移、用于多核苷酸的延伸、用于引物延伸反应和/或用于连接反应的缓冲液。在一个方面，试剂盒还包含一种或多种用于实施根据本发明的任何方法的方法的溶液或缓冲液(例如，Tris，MOPS等)。

在任何前述实施例中，试剂盒可以包含支持物或基板，例如刚性固体支持物，柔性固体支持物或软固体支持物，并且包括多孔支持物或非多孔支持物。

在任何前述实施例中，试剂盒可以包括支持物，支持物包含珠粒、多孔珠粒、多孔基质、阵列、表面、玻璃表面、硅表面、塑料表面、载玻片、过滤器、尼龙、芯片、硅晶芯片、流通芯片、包括信号转导电子器件的生物芯片、孔、微量滴定孔、板、ELISA板、盘、旋转干涉测量盘、膜、硝化纤维素膜、基于硝化纤维素的聚合物表面、纳米颗粒(例如，包含金属，如磁性纳米颗粒(Fe₃O₄)、金纳米颗粒和/或银纳米颗粒)、量子点、纳米壳、纳米微球，或其任何组合。在一个实施例中，支持物包含聚苯乙烯珠粒、聚合物珠粒、琼脂糖珠粒、丙烯酰胺珠粒、固体核心珠粒、多孔珠粒、顺磁珠粒、玻璃珠粒或可控孔珠粒，或其任何组合。在一些实施例中，支持物或基板包含多个空间分辨的附着点。

在任何提供的实施例中，试剂盒可以在序列反应、平行反应，或序列和平行反应的组合中包含支持物和/或可以用于分析多种分析物(例如，多肽)。在一个实施例中，分析物在支持物上以等于或大于约10nm，等于或大于约15nm，等于或大于约20nm，等于或大于约50nm，等于或大于约100nm，等于或大于约150nm，等于或大于约200nm，等于或大于约250nm，等于或大于约300nm，等于或大于约350nm，等于或大于约400nm，等于或大于约450nm，或等于或大于约500nm的平均距离间隔。

在一些实施例中，试剂盒还包含一个或多个容器或器皿，例如用于实施所述使用方法的管状容器(例如试管，毛细管，Eppendorf管)。在一些示例中，各组分在单独的器皿中提供。

在一个方面，试剂盒进一步包含一种或多种寡核苷酸，并且在一个方面(可选地)游离核苷酸，并且在一个方面(可选地)进行PCR反应，滚环复制，连接酶链反应，逆转录，核酸标记或标记反应或其衍生方法的足够的游离核苷酸。

在一个方面，试剂盒还包含至少一种酶，其中在一个方面(可选地)，酶是聚合酶。在一个方面，试剂盒还包含一种或多种寡核苷酸，游离核苷酸和至少一种聚合酶或酶，其能够在PCR反应，滚环复制，连接酶链反应，逆转录或其衍生方法中扩增核酸。一种或多种寡核苷酸可以与来自对象(例如，来自动物，植物，昆虫，酵母，病毒，噬菌体，线虫，细菌或真菌)的样品的核酸特异性杂交。

在一些实施例中，试剂盒还包含用于纯化、分离和/或收集多肽、部分、标签和/或多核苷酸(例如分离的记录多核苷酸)的试剂和组分。在一些实施例中，试剂盒还包含用于连结和收集多肽、部分、标签和/或多核苷酸(例如，分离的记录多核苷酸)的试剂。在一些实施例中，试剂盒还包括用于制备样品的说明。在一些情况下，试剂盒包含用于核酸(例如DNA)分离、沉淀和/或收集的试剂和组分。

示例性实施例

提供的实施例包括：

1.一种用于评估样品中多肽与部分之间的同一性和空间关系的方法，所述方法包含：

a)在样品中的多肽的位点和所述样品中的部分的位点之间形成连接结构，所述连接结构包含与所述多肽的位点缔合的多肽标签以及与所述部分的位点缔合的部分标签，其中所述多肽标签和所述部分标签缔合；

b)在所述缔合的多肽标签和所述部分标签之间转移信息或连接所述缔合的多肽标签和所述部分标签以形成共享的唯一分子标识符(UMI)和/或条形码；

c)通过从所述部分解离所述多肽并从所述部分标签解离所述多肽标签，同时维持所述多肽与所述多肽标签之间的缔合并维持所述部分与所述部分标签之间的缔合来破坏所述连接结构；以及

d)评估所述多肽标签和所述多肽的至少部分序列，以及评估所述部分标签以及所述部分的至少部分同一性，

其中所述多肽标签和所述部分标签的所述评估部分包含所述共享的唯一分子标识符(UMI)和/或条形码，其指示所述样品中所述多肽的位点和所述部分的位点在空间上的邻近性。

2.根据实施例1所述的方法，其中，所述部分包含多肽。

3.根据实施例1所述的方法，其中，所述部分包含多核苷酸。

4.根据实施例1-3中任一项所述的方法，其中，所述多肽标签包含多核苷酸。

5.根据实施例1-4中任一项所述的方法，其中，所述部分标签包含多核苷酸。

6.根据实施例5所述的方法，其中，所述多肽标签包含第一多核苷酸，并且所述部分标签包含第二多核苷酸，所述第一和第二多核苷酸包含互补序列，并且所述多肽标签和所述部分标签经由所述互补序列缔合。

7.根据实施例6所述的方法，其中，在所述缔合的多肽标签与部分标签之间转移信息包含延伸所述多肽标签的第一多核苷酸和所述部分标签的第二多核苷酸两者以形成所述共享的UMI和/或条形码。

8.根据实施例6所述的方法，其中，在所述缔合的多肽标签与部分标签之间转移信息包含延伸所述多肽标签的第一多核苷酸和所述部分标签的第二多核苷酸之一以形成所述共享的UMI和/或条形码。

9.根据实施例5所述的方法，其中，所述多肽标签包含双链多核苷酸，并且所述部分标签包含双链多核苷酸，并且在所述缔合的多肽标签与部分标签之间转移信息包含连接所述双链多核苷酸以形成所述共享的UMI和/或条形码。

10.根据实施例9所述的方法，其中，所述共享的UMI和/或条形码包含所述双链多核苷酸的序列。

11.根据实施例9所述的方法，其中，所述共享的UMI和/或条形码包含所述双链多核苷酸之一的序列。

12.根据实施例1-11中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述部分标签稳定缔合。

13.根据实施例1-11中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述部分标签瞬时缔合。

14.根据实施例1-13中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述部分标签直接缔合。

15.根据实施例1-13中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述部分标签例如经由所述多肽标签和所述部分标签之间的接头或UMI间接缔合。

16.一种用于评估样品中多肽与部分之间的同一性和空间关系的方法，所述方法包含：

b)在所述缔合的多肽标签与所述部分标签之间转移信息以形成共享的唯一分子标识符(UMI)和/或条形码，其中所述共享的UMI和/或条形码形成为分离的记录多核苷酸；

c)通过从所述部分解离所述多肽并从所述部分标签解离所述多肽标签，同时维持所述多肽与所述多肽标签之间的缔合并维持所述部分与所述部分标签之间的缔合来破坏所述连接结构；

d)评估所述多肽标签和所述多肽的至少部分序列，以及评估所述部分标签和所述部分的至少部分同一性；以及

e)评估所述分离的记录多核苷酸以建立所述多肽的位点与所述部分的位点之间的空间关系。

17.根据实施例16所述的方法，其中，所述多肽标签和所述部分标签包含多核苷酸。

18.根据实施例16或实施例17所述的方法，其中，所述连接结构经由所述分离的记录多核苷酸在所述多肽标签与所述部分标签之间形成。

19.根据实施例16-18中任一项所述的方法，其中，所述方法在所述多肽标签与所述部分的多于一个位点或多于一个部分之间形成多个分离的记录多肽。

20.根据实施例16-19中任一项所述的方法，其中步骤e)在所述多肽的位点与所述部分的两个或更多个位点或两个或更多个部分之间建立所述空间关系。

21.根据实施例16-20中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述分离的记录多核苷酸瞬时缔合。

22.根据实施例16-21中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述分离的记录多核苷酸直接缔合。

23.根据实施例16-22中任一项所述的方法，其中，在所述连接结构中，所述部分标签和所述分离的记录多核苷酸瞬时缔合。

24.根据实施例16-23中任一项所述的方法，其中，在所述连接结构中，所述部分标签和所述分离的记录多核苷酸直接缔合。

25.根据实施例16-24中任一项所述的方法，其中，所述分离的记录多核苷酸是通过延伸，例如引物延伸形成。

26.根据实施例16-24中任一项所述的方法，其中，所述分离的记录多核苷酸由连接形成。

27.根据实施例16-26中任一项所述的方法，其中，所述分离的记录多核苷酸从所述多肽标签和所述部分标签中释放。

28.根据实施例16-27中任一项所述的方法，进一步包含在评估所述分离的记录多核苷酸之前收集所述分离的记录多核苷酸。

29.根据实施例28所述的方法，其中，评估所述分离的记录多核苷酸包含对所述收集的共享的唯一分子标识符(UMI)和/或条形码进行测序，从而产生测序数据。

30.根据实施例16-29中任一项所述的方法，进一步包含在评估所述分离的记录多核苷酸之前连结所述收集的分离的记录多核苷酸。

31.根据实施例30所述的方法，其中，评估所述分离的记录多核苷酸包含对所述级联的分离的记录多核苷酸进行测序。

32.根据实施例1-31中任一项所述的方法，其中，在形成所述连接结构中，单个多肽标签与所述多肽的单个位点缔合，单个多肽标签与所述多肽的多个位点缔合，或多个所述多肽标签与所述多肽的多个位点缔合。

33.根据实施例1-32中任一项所述的方法，其中，在形成所述连接结构中，单个部分标签与所述部分的单个位点缔合，单个部分标签与所述部分的多个位点缔合，或多个所述部分标签与所述部分的多个位点缔合。

34.根据实施例1-33中任一项所述的方法，其中，在所述缔合的多肽标签与所述部分标签之间转移信息或连接所述缔合的多肽标签与所述部分标签形成单个共享的唯一分子标识符(UMI)和/或条形码。

35.根据实施例34所述的方法，其中，所述单个共享的唯一分子标识符(UMI)和/或条形码是通过将来自所述多肽标签和/或所述部分标签的多个序列，例如，多个UMI和/或条形码进行组合而形成。

36.根据实施例1-33中任一项所述的方法，其中，在所述缔合的多肽标签与所述部分标签之间转移信息或连接所述缔合的多肽标签与所述部分标签形成多个共享的唯一分子标识符(UMI)和/或条形码。

37.根据实施例1-36中任一项所述的方法，其中，在所述连接结构中，所述共享的UMI和/或条形码包含互补多核苷酸杂交体，并且使所述多肽标签与所述部分标签解离包含使所述互补多核苷酸杂交体变性。

38.根据实施例1-37中任一项所述的方法，其中，所述多肽和所述部分都是较大多肽的一部分，并且将所述多肽从所述部分解离包含将所述较大多肽片段化成肽片段。

39.根据实施例38所述的方法，其中，通过蛋白酶消化将所述较大多肽片段化成肽片段。

40.根据实施例1-39中任一项所述的方法，其中，所述部分是与所述样品中的多肽结合、复合或紧邻的分子的一部分。

41.根据实施例40所述的方法，其中，所述多肽和所述部分属于同一蛋白质复合物中的两种不同蛋白质。

42.根据实施例40所述的方法，其中，所述部分是与所述样品中的多肽结合、复合或紧邻的多核苷酸分子的一部分。

43.根据实施例1-42中任一项所述的方法，其中，所述多肽的至少部分序列使用包含以下步骤的程序评估：

a1)提供所述多肽以及用作记录标签的所述缔合的多肽标签；

b1)使所述多肽与能够结合所述多肽的第一结合剂接触，其中所述第一结合剂包含具有关于所述第一结合剂的识别信息的第一编码标签；

c1)将所述第一编码标签的信息转移到所述记录标签，以产生第一次序延伸记录标签；以及

d1)分析所述第一次序延伸记录标签。

44.根据实施例43所述的方法，其中，分析所述第一次序延伸记录标签还评估所述多肽标签。

45.根据实施例1-44中任一项所述的方法，其中，所述部分包含部分多肽，并且使用包含以下步骤的程序来评估所述部分的至少部分同一性：

a2)提供所述部分多肽以及用作记录标签的所述缔合的部分标签；

b2)使所述部分多肽与能够结合所述部分多肽的第一结合剂接触，其中所述第一结合剂包含具有关于所述第一结合剂的识别信息的第一编码标签；

c2)将所述第一编码标签的信息转移到所述记录标签，以产生第一次序延伸记录标签；以及

d2)分析所述第一次序延伸记录标签。

46.根据实施例45所述的方法，其中，分析所述第一次序延伸记录标签还评估所述部分标签。

47.一种用于评估样品中多肽与部分之间的同一性和空间关系的方法，所述方法包含：

a)提供预组装结构，所述预组装结构在中间部分包含共享的唯一分子标识符(UMI)和/或条形码，所述UMI和/或条形码在一侧侧接多肽标签并且在另一侧侧接部分标签；

b)通过将所述预组装结构的所述多肽标签与所述多肽的位点缔合并且将所述预组装结构的所述部分标签与所述部分的所述位点缔合，在样品中的多肽的位点与所述样品中的所述部分的位点之间形成连接结构；

其中所述多肽标签和所述部分标签的所述评估部分包含所述共享的唯一分子标识符(UMI)和/或条形码，其指示所述样品中所述多肽的所述位点和所述部分的所述位点在空间上的邻近性。

48.根据实施例47所述的方法，其中，所述部分包含多肽。

49.根据实施例47所述的方法，其中，所述部分包含多核苷酸。

50.根据实施例47-49中任一项所述的方法，其中，所述多肽标签包含多核苷酸。

51.根据实施例47-50中任一项所述的方法，其中，所述部分标签包含多核苷酸。

52.根据实施例47-51中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述部分标签稳定缔合。

53.根据实施例47-51中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述部分标签瞬时缔合。

54.根据实施例47-53中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述部分标签直接缔合。

55.根据实施例47-53中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述部分标签例如经由所述多肽标签和所述部分标签之间的接头或UMI间接缔合。

56.根据实施例47-55中任一项所述的方法，其中，在形成所述连接结构中，单个多肽标签与所述多肽的单个位点缔合，单个多肽标签与所述多肽的多个位点缔合，或多个所述多肽标签与所述多肽的多个位点缔合。

57.根据实施例47-56中任一项所述的方法，其中，在形成所述连接结构中，单个部分标签与所述部分的单个位点缔合，单个部分标签与所述部分的多个位点缔合，或多个所述部分标签与所述部分的多个位点缔合。

58.根据实施例47-57中任一项所述的方法，其中，所述形成的连接结构包含单个共享的唯一分子标识符(UMI)/条形码。

59.根据实施例47-57中任一项所述的方法，其中，所述形成的连接结构包含多个共享的唯一分子标识符(UMI)/条形码。

60.根据实施例47-57中任一项所述的方法，其中，所述多肽标签包含第一多核苷酸，所述部分标签包含第二多核苷酸。

61.根据实施例47-60中任一项所述的方法，其中，在所述连接结构中，所述共享的UMI和/或条形码包含互补多核苷酸杂交体，并且使所述多肽标签与所述部分标签解离包含使所述互补多核苷酸杂交体变性。

62.根据实施例47-61中任一项所述的方法，其中，所述多肽和所述部分都是较大多肽的一部分，并且将所述多肽从所述部分解离包含将所述较大多肽片段化成肽片段。

63.根据实施例62所述的方法，其中，通过蛋白酶消化将所述较大多肽片段化成肽片段。

64.根据实施例47-63中任一项所述的方法，其中，所述部分是与所述样品中的多肽结合、复合或紧邻的分子的一部分。

65.根据实施例64所述的方法，其中，所述多肽和所述部分属于同一蛋白质复合物中的两种不同蛋白质。

66.根据实施例64所述的方法，其中，所述部分是与所述样品中的多肽结合、复合或紧邻的多核苷酸分子的一部分。

67.根据实施例47-66中任一项所述的方法，其中，所述多肽的至少部分序列使用包含以下步骤的程序评估：

a3)提供所述多肽以及用作记录标签的所述缔合的多肽标签；

b3)使所述多肽与能够结合所述多肽的第一结合剂接触，其中所述第一结合剂包含具有关于所述第一结合剂的识别信息的第一编码标签；

c3)将所述第一编码标签的信息转移到所述记录标签，以产生第一次序延伸记录标签；以及

d3)分析所述第一次序延伸记录标签。

68.根据实施例67所述的方法，其中，分析所述第一次序延伸记录标签还评估所述多肽标签。

69.根据实施例47-68中任一项所述的方法，其中，所述部分包含部分多肽，并且使用包含以下步骤的程序来评估所述部分的至少部分同一性：

a4)提供所述部分多肽以及用作记录标签的所述缔合的部分标签；

b4)使所述部分多肽与能够结合所述部分多多肽的第一结合剂接触，其中所述第一结合剂包含具有关于所述第一结合剂的识别信息的第一编码标签；

c4)将所述第一编码标签的信息转移到所述记录标签，以产生第一次序延伸记录标签；以及

d4)分析所述第一次序延伸记录标签。

70.根据实施例69所述的方法，其中，分析所述第一次序延伸记录标签还评估所述部分标签。

71.根据实施例1-70中任一项所述的方法，其中，在形成所述多肽的位点与所述部分的位点之间的连接结构之后执行所述多肽的至少部分序列和所述部分的至少部分同一性的评估。

72.根据实施例1-71中任一项所述的方法，其中，在所述多肽与所述部分解离之后执行所述多肽的至少部分序列和所述部分的至少部分同一性的评估。

73.根据实施例43-46和67-70中任一项所述的方法，其中，在所述多肽和所述部分之间形成连接结构之后执行所述多肽和所述部分与一种或多种结合剂的接触。

74.根据实施例43-46、67-70和73中任一项所述的方法，其中，在所述多肽与所述部分解离之后执行所述多肽和所述部分与一种或多种结合剂的接触。

75.一种用于评估样品中多肽和部分之间的同一性和空间关系的试剂盒，包含：

(a)一个或多个多肽标签和一个或多个部分标签；

(b)用于在样品中形成多肽和部分之间的连接结构的试剂；以及

(c)用于评估所述部分的同一性和所述多肽的至少部分序列的试剂。

76.一种用于评估样品中多肽和部分之间的同一性和空间关系的试剂盒，包含：

(a)一个或多个多肽标签和一个或多个部分标签；

(b)用于在样品中形成多肽和部分之间的连接结构的试剂，其中所述连接结构形成为分离的记录多核苷酸；以及

77.根据实施例76所述的试剂盒，进一步包含一种或多种用于分析所述分离的记录多核苷酸的试剂。

78.根据实施例75-77中任一项所述的试剂盒，其中，所述用于评估所述部分的同一性和所述多肽的至少部分序列的试剂包含结合剂库，其中每种结合剂包含结合部分和编码聚合物，所述编码聚合物包含关于所述结合部分的识别信息，其中所述结合部分能够结合至所述片段的一个或多个N-末端、内部或C-末端氨基酸，或能够结合至通过官能化试剂修饰的一个或多个N-末端、内部或C-末端氨基酸。

79.一种用于评估空间关系的试剂盒，包含：

(a)用于提供与多肽标签直接或间接缔合的多肽以及用于提供与部分标签直接或间接缔合的部分的试剂；

(b)用于官能化所述多肽的N-末端氨基酸(NTAA)的试剂；

(c)第一结合剂，其包含能够结合官能化NTAA的第一结合部分和(c1)具有关于第一结合剂的识别信息的第一编码标签，或(c2)第一可检测标签；和

(d)试剂，其将第一编码标签的信息转移到记录标签，以产生延伸记录标签；并且

(e)用于分析延伸记录标签的试剂或用于检测第一可检测标签的试剂。

80.根据实施例79所述的试剂盒，其中，所述试剂盒另外包含用于消除官能化NTAA以暴露新的NTAA的试剂。

81.根据实施例80所述的试剂盒，其中，所述用于消除官能化NTAA的试剂是羧肽酶或氨肽酶或其变体，突变体或修饰的蛋白质；水解酶或其变体，突变体或修饰的蛋白质；温和型埃德曼降解试剂；Edmanase酶；TFA；碱；或其任何组合。

82.根据实施例75-79中任一项所述的试剂盒，进一步包含支持物或基板。

83.根据实施例82所述的试剂盒，其中，所述支持物或基板是珠粒、多孔珠粒、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、尼龙、硅晶芯片、流通芯片、包括信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉测量盘、硝酸纤维素膜、硝化纤维素基聚合物表面、纳米颗粒或微球。

84.根据实施例82或实施例83所述的试剂盒，其中，所述支持物或基板包含多个空间分辨的附着点。

示例

提供以下实施例以说明但不限制本文提供的方法、组合物和用途。

示例1：成对缔合

在本实施例中，肽1(Pep 1)和肽2(Pep 2)是蛋白质1的亚序列。含有UMI的DNA标签共价附着于蛋白质样品中的位点。这些位点应该平均适当地隔开，以便优化每个测定设计的有用信息的产量。

在蛋白质样品中，具有UMI 1的DNA标签与Pep 1连接，具有UMI 2的DNA标签与Pep2连接。设计DNA标签，使得UMI序列可以通过DNA聚合酶例如利用作为引物的通用互补3'端从一个标签复制到另一个标签。进行复制标签信息的反应，例如利用DNA聚合酶执行放入退火+延伸的循环。(参见例如，Assarsson，Lundberg等人，2014)。借助于接近，UMI 1和UMI 2互写。在一些示例中，只执行单个扩展周期，以便形成唯一的标签对。其它变化也是可能的，其中序列在多个标签之间传播。这种系统应该被设计成不产生不需要的标签多聚体或至少使其最小化。

接下来，裂解蛋白质1并处理肽-UMI-标签对，以产生NGPS数据。结合UMI的DNA标签在NGPS测定中用作记录标签(或写入到记录标签)。如下NGS测序和序列分析，提取以下序列构建体：

{Pep1，UMI1-UMI2}

{Pep2，UMI2-UMI1}

假设UMI 1和UMI 2是一级近似“唯一的”(即，具有适当低的在样品中多次偶然发生的概率)，我们可以使用该信息以高置信度推断Pep 1和Pep 2在蛋白质样品中非常接近。特别是如果我们根据经验调整和校准系统，使得使用缔合分区(PBA)连接的肽很可能是相同蛋白质的一部分，我们可以推断Pep 1和Pep 2可能是单一蛋白质的子序列。该附加信息不是单独从NGPS获得的。当与肽序列数据结合时，它允许我们以更高的置信度识别蛋白质序列，因为我们可以寻找肽序列匹配的一致对(或更多)。

示例2：网络重构

不要求肽对来自相同的蛋白质。在一些示例中，将PBA方法应用于复合蛋白质样品。样品用DNA标签标记，如示例1所述形成UMI对。在一些情况下，UMI对将缔合蛋白质的子序列(顺式蛋白质缔合或CPA)。在其他情况下，将在蛋白质之间形成UMI对(反式-蛋白质缔合或TPA)。在复合蛋白质样品中，可以存在CPA和TPA的混合物。

即使每个蛋白质只有一个CPA，PBA也显著增加了唯一识别蛋白质的能力。然而，通过重构对的网络来获得额外的性能。例如，如果Pep 3和Pep 4是蛋白质2的亚序列。让我们假设PBA使以下缔合：

来自蛋白质1的Pep 1和来自蛋白质2的Pep 3。

来自蛋白质1的Pep 2和来自蛋白质2的Pep 4。

假设我们可以将Pep 1和Pep 2映射到蛋白质1，但是我们不能将Pep 3和Pep 4映射到蛋白质1。然而，我们可以推断Pep 3和Pep 4具有属于相同蛋白质(或邻近蛋白质1的蛋白质的小亚群)的合理可能性。因此，我们可以使用这种“分区”信息来识别高可能性匹配，并且一起启动成对关系的网络，该网络允许我们使用比没有PBA所需要的更短和更不准确的序列、使用PBA来识别蛋白质。

PBA可以与物理分区一起使用。然而，由于这种“网络”效应，通常不需要物理分区。PBA可以本体进行而不需要乳液，或其它复杂的分区技术。取而代之的是，基于“虚拟”邻近度的分区在分子水平上被建立并且以信息性的方式被重建。

在一些示例中，优选限制充分紧邻以产生成对的编码的蛋白质的数量，优选地，PBA将产生许多相对离散的“网络”，而不是一个大的、弥散的网络，其原则上可以包含整个蛋白质样品。限制缔合在一起的蛋白质的平均数量的简单方法包括稀释和物理分离，例如通过吸附或其它附着于固体支持物如珠粒。

示例3：利用DNA标签标记蛋白质和蛋白质复合物

由侧接UMI/条形码和5'偶联部分的共同引物序列(用于直接或间接偶联至多肽)组成的DNA标签能够偶联至天然蛋白质或蛋白质复合物。许多标准生物偶联方法(例如，Hermanson 2013)可用于将DNA标签直接偶联至反应性氨基酸残基(例如，Lys，Cys，酪氨酸等，参见Ref)，或经由异双官能接头间接偶联。例如，异双功能接头，如NHS-PEGl 1-mTet，可用于在缓冲液如50mM硼酸钠或HEPES(pH 8.5)中化学标记赖氨酸残基，并产生正交化学“点击”基团，用于随后偶联至具有5'反式环辛烷(TCO)基团的DNA标签。在用NHS-PEG11-mTet进行赖氨酸标记后，使用10k MWCO过滤器或反相纯化树脂(RP-S)除去过量的NHS-PEG11-mTet接头。

将5'TCO标记的DNA标签与在1X PBS缓冲液(pH 7.5)中的mTet标记的蛋白质偶联。可以通过在mTet清除剂树脂上进行清除来除去过量的DNA标签。在除去过量的DNA标签后，使用基于邻近的引物延伸步骤在邻近的DNA标签之间转移信息。具体地，允许邻近的DNA标签在延伸缓冲液(50mM Tris-Cl(pH 7.5)，2mM MgSO4，125μM dNTPs，50mM氯化钠，1mM二硫苏糖醇，0.1％Tween-20和0.1mg/mL BSA)中在室温退火5分钟，短暂2分钟后，执行加热步骤至45℃。退火后，将克列诺exo-DNA聚合酶(NEB，5U/μL)添加至珠粒以达到0.125U/μl的最终浓度，并且在23℃下孵育5分钟。引物延伸后，通过添加尿素至8M使蛋白质和蛋白质复合物变性来淬灭反应。

示例4：加工邻近DNA标记的多肽

在引物延伸和蛋白质变性后，变性的多肽在剩余的未反应半胱氨酸或赖氨酸残基处被酰化，然后用内肽酶，如胰蛋白酶，lysc，argc等进行蛋白酶消化。标记肽上的邻近延伸的DNA标签在我们的NGPS蛋白编码测定中充当记录标签，如PCT/US2017/030702中所述。通过直接化学缀合或通过与直接附着于测序基板的DNA捕获探针的杂交捕获和连接，将DNA标记的肽固定到测序基板(例如，珠粒)上(参见例如，图6)。

在DNA-肽构建体附着于测序基板后，存在至少两种DNA标签(参见，例如，图5C)，一种DNA标签类型包括3'Spl'序列，并且另一种DNA标签类型包括3'Sp2'序列。这两种序列类型通过退火转化引物(Sp2-Sp'和Spl-Spl)转化为通用Sp间隔区序列。在这些引物序列上的延伸产生用于ProteoCode测序的最终记录标记。

示例5：基于连接的邻近循环

本示例描述了使用基于连接的邻近循环评估多肽和一个或多个部分的邻近相互作用的方法。多肽和部分各自用DNA标签标记。设计DNA标签以便通过循环延伸、连接和变性相互作用。

在给定循环的第一步骤中，共同引物退火至DNA标签的3'端上的F'位点。多肽上的DNA标签被定向为其3'端远离多肽和额外的T碱基，并且部分上的DNA标签被定向为使得其3'端附着于部分并且5'端是游离的(图8A)。在一些实施例中，可以反向设计。在F引物与DNA标签(多肽标签和部分标签)退火后，引物延伸产生双链DNA标签产物，并且聚合酶的A延伸酶活性在与部分的DNA标签退火的双链DNA标签产物上产生A突出(图8B)。部分标签上的A突出和多肽标签上的T突出使得能够连接(图8C)。部分DNA标签的5'端是非磷酸化且不可连接的，而F引物的5'端是磷酸化且可连接的。如图8D所示，连接产生分离的记录的P-M₁多核苷酸。在一些情况下，多肽在空间上邻近一个以上的部分(例如，M1，M2等)。循环退火，延伸和连接产生P-M₁，P-M₂等的多个线性记录(例如分离的记录多核苷酸)(图9A-9B)。来自多个分离的记录多核苷酸的间接或重叠信息进一步指示具有两个或更多个部分的多肽的空间邻近性信息(图9C)。

按如下执行循环退火、延伸、连接：50μl反应物包括在1X Ext-Lig缓冲液(20mMTris-HCl，pH 8.0，25mM乙酸钾，2mM乙酸镁，1mM NAD，200μM dNTPs，除了500μM的dATP，10mMDTT，0.1％Triton X-100)中的100ngDNA标记的蛋白质复合物，200nM F引物，0.5U Taq聚合酶(NEB)，和2U Pfu DNA连接酶(D540K突变体)(美国专利第US 5,427,930号；Tanabe等人，Archaea(2015)2015:267570))。该反应在以下条件下循环30个循环：94℃，进行2分钟，然后60℃，进行1分钟，40℃，进行5分钟，94℃，进行30秒，进行30个循环。在F引物存在下延伸连接热循环后，使用F和R引物使用标准PCR条件对所得记录进行PCR扩增。

可以使用所提供的方法来确定P与相邻的M₁、M₂等的邻近性。P和部分M₁、M₂的序列或同一性进一步使用ProteoCode测序确定(例如，参见，国际专利申请公开第WO 2017/192633号)。

示例6：连结DNA库用于纳米孔测序

使用VeraSeq 2.0Ultra DNA聚合酶，利用5'磷酸化引物对DNA库进行PCR扩增(20个循环)，以产生适合于平端连接的库扩增子(约20ng/μL PCR产率)。为了连结PCR产物，将20μL PCR反应液与20μL 2X快速连接酶缓冲液和1μL快速连接酶(NEB)混合，并在室温下孵育约16小时。使用Zymo纯化柱纯化所得的连接产物，长度为约0.5-2kb(可能也是一些环状产物的混合物)，并洗脱到20μL水中。通过使用基于转座酶的衔接子添加的快速测序制备试剂盒(SQK-RAD002)制备所得级联的产物用于纳米孔测序，并在MinION Mk 1B(R9.4)装置上分析。连结DNA库的其它方法包括使用Gibson装配、Schlecht等描述的方法，并且还可以用于连结如上所述的DNA库，并用于纳米孔测序(Schlecht等人，(2017)Sci Rep 7(1):5252)。

示例7：肽的标记和邻近分子之间的信息转移

本实施例描述了在邻近模型系统中多肽的两个部分之间的信息转移：肽(部分)的含有生物素的部分以及肽(部分)的含有苯丙氨酸(F)的部分。

通过合成的寡核苷酸的延伸和连接来制备多肽标签(DNA 1)，其包含如图10A所示的互补间隔区(sp'和sp)，PEG接头和互补UMI序列(UMI 1和UMI 1')。DNAl的3'端包含与DNA2上的OL区互补的重叠区(OL')。

部分标签(DNA 1)和肽标签(DNA 2)与根据SEQ ID NO:1)的模型多肽(K(生物素)GSGSK(N3)GSGSRFAGVAMPGAEDDVVGSGS-K(N3)-NH2)连接，该模型多肽在N末端含有生物素，并且含有内部的苯丙氨酸。使用DBCO点击反应将DNA1和DNA 2标签与肽连接，其中在100mMHEPES(pH 7.5)和150mM氯化钠缓冲液中混合DNA 1(5μM)，DNA 2(5μM)和肽(1μM)，并在60℃下加热过夜。因为每个肽具有两个DNA附着位点，所以产生了三种不同的产物：具有两个DNA1附着的肽，具有两个DNA 2附着的肽，或具有DNA 1和DNA 2附着的肽。仅附着于DNA 1和DNA2的肽含有用于信息转移的必要的杂交区。为了除去游离的过量DNA，使用链霉亲和素珠粒(MyOne Streptavidin T1，Thermo Fisher，USA)通过与生物素结合来分离多肽与DNA的复合物。将二十(20)μL的反应混合物与链霉亲和素珠粒(10μL)在25℃下孵育40分钟。除去上清液并用PBS+0.1％Tween 20冲洗两次后，在60℃下将样品在20μL的95％甲酰胺中洗脱5分钟。作为对照，将DNA 3寡核苷酸与与SEQ ID NO:1相同的肽孵育，除了其仅含有1个叠氮基。通过在60℃孵育过夜制备DNA 3-肽复合物以产生对照复合物，并如前所述纯化。通过在15％变性聚丙烯酰胺(TBU)凝胶上的迁移率变动来确认纯化前后DNA与多肽的附着。

纯化的DNA 1-DNA 2-肽复合物在磁性琼脂糖珠粒上通过DNA 1的杂交和将DNA 1连接到珠粒附着的DNA 1捕获DNA上而被捕获(图10A)。通过设计，珠粒包含两种类型的捕获DNA，一种具有与DNA 1互补的区域，另一种具有与DNA 2互补的区域。然而，DNA 2的杂交位点利用互补单链DNA预阻断，以能够通过DNA1捕获。等浓度的纯化DBCO点击反应混合物含有DNA 1-DNA 2-肽和DNA 3-肽(总浓度：0.1nM)，将该混合物与磁性琼脂糖珠粒混合并在缓冲液(含有5X SSC，0.02％SDS和15％甲酰胺)中与琼脂糖珠粒杂交，然后用PBS+0.1％Tween20冲洗并连接。连接后，用0.1M氢氧化钠+0.1％Tween 20冲洗未连接的基板和用于DNA 2的捕获DNA阻断剂。

对于DNA1和DNA 2之间的信息转移，在dNTP混合物(每种125μM)，50mM Tris-HCl(pH 7.5)，2mM MgSO₄，50mM NaCl，1mM DTT，0.1％Tween 20和0.1mg/mL BSA的存在下使用0.125U/μL克列诺片段(3'->5'exo-)(KF^-)。将反应物在37℃下孵育5分钟，以使用DNA 1作为模板进行DNA 2的分子内延伸。

在信息转移后，通过在存在的单个尿嘧啶(U)处切割，破坏DNA 1和DNA2(多肽和部分标签)之间的连接结构(图10A)。在存在来自NEB的1X CutSmart缓冲液的情况下，裂解反应包含0.05U/μL的USER Enzyme，0.2U/μL的T4 PNK，1mM ATP，5mM DTT，在37℃下孵育60分钟。接下来，进行胰蛋白酶消化以将肽与部分(在该示例中，分别为模型多肽的含F部分以及模型多肽的含生物素的部分)分离，如图10B所示。在37℃下用0.02mg/mL胰蛋白酶，0.1％Tween 20，500mM氯化钠和50mM HEPE(pH 8.0)消化2小时。在胰蛋白酶裂解反应期间，分离的部分-DNA 2通过与珠粒附着的DNA 2捕获DNA杂交而被重新捕获。用PBS+0.1％Tween冲洗后，如前面第一次连接所述，将样品在快速连接酶混合物中在25℃下孵育30分钟，以共价连接部分-DNA 2与珠粒附着的DNA 2捕获DNA。

通过在dNTP(每种125μM)的存在下将寡核苷酸(R1'-sp')添加至如先前所描述的具有珠粒的KF^-反应混合物中来进行最终加帽步骤，以产生在3'端具有用于DNA 1和DNA 2两者的端序列(R1)的最终产物，如图10B所示。将R1和另一个DNA区(在DNA 1和DNA 2的5'端)用作NGS的接头PCR的退火位点。通过衔接子和索引PCR扩增并引入结合位点和索引序列后，用MiSeq试剂盒v3(Illumina，USA)对样品进行测序。使用MiSeq测序扩增子并计数。

展示信息转移的结果示于表1中。在重复实验中检测到491个信息转移事件的平均值(重复1＝617，重复2＝365)。通过识别DNA 1和DNA 2之间的唯一UMI-1匹配来检测事件，所述匹配对应于单个肽-DNA 1和部分-DNA 2构建体之间的独特配对。

表1.信息转移结果

为了检测本实验的背景，在第一杂交/连接步骤期间将对照样品DNA 3-肽与DNA1-DNA 2-肽以等比例混合。DNA 3和DNA 2的NGS输出比率等于或小于0.0066，表明几乎所有的信息转移事件发生在图10B中的相同分子内。

总之，该示例证明在模型多肽中肽和部分(肽的含生物素和F的部分)之间的信息转移在低背景下是有效的。

在一些情况下，在上述最终加帽步骤之前，针对多肽的至少部分序列和部分的至少部分同一性来评估多肽和部分(图10B)。执行编码步骤以评估肽的序列的至少一部分。含有关于结合剂的信息的具有编码标记寡核苷酸的结合剂可识别N-末端氨基酸或识别多肽或部分的一部分。在结合剂结合至其对应靶标之后，编码标签的3'-间隔区'与连接至相同肽的DNA寡核苷酸的3'-间隔区杂交。与肽连接的DNA可以通过用KF^-延伸来复制编码标签来延伸，结果，将来自编码标签的信息转移至与肽连接的DNA序列(DNA 1和DNA 2)用于分析。

然后在该编码步骤之后是如以上描述的最后的加帽步骤，其中在dNTP(例如，每种125μM)的存在下，将含有通用引发序列的寡核苷酸(R1'-sp')加入到具有这些肽(与DNA 1和DNA 2相缔合)的KF^-反应混合物中以产生用于NGS读出的最终产物。

示例8：使用结合剂的混合物对编码功能的评估

该示例描述了使用识别肽的一部分(例如，N-末端氨基酸)的结合剂进行的示例性编码测定。

在用于评估多肽和部分的至少一部分的示例性模型系统中，在编码测定中评估包含附着于DNA记录标签的苯丙氨酸(F-肽)和附着于DNA记录标签的生物素的肽。还包括不与肽上的生物素或N-末端苯丙氨酸(F)结合的结合剂作为阴性对照。将当苯丙氨酸是N-末端氨基酸残基(F-结合剂)时结合苯丙氨酸的两百(200)nM示例性结合剂，识别生物素的44nM单链链霉亲和素结合剂(mSA-结合剂)，以及200nM阴性对照结合剂与连接到记录标签的生物素和连接到记录标签的F-肽(在N-末端的F)一起孵育。将各自与识别结合剂的相应编码标签连接的结合剂与缀合有生物素-记录标签缀合物和F-肽-记录标签缀合物的珠粒一起孵育。在结合和冲洗之后，通过在含有0.125单位/μL克列诺片段(3'->5'exo-)(MCLAB，USA)，dNTP混合物(每种125μM)，50mM Tris-HCl(pH 7.5)，2mM MgSO₄，50mM NaCl，1mM DTT，0.1％Tween 20，和0.1mg/mL BSA的溶液中孵育珠粒来实现通过延伸将编码标签信息转移至记录标签。将反应物在37℃下孵育5分钟。编码后冲洗珠粒。对该方法的延伸记录标签进行PCR扩增，并进行新一代测序技术(NGS)分析。

如表2中的NGS结果所示，mSA和F-结合剂能够结合并编码它们相应的靶标，并且测试的结合剂对于不是结合剂靶标的肽显示低编码信号。

表2.对mSA结合剂和F结合剂的编码产率

示例性优点

对于衍生自单一蛋白质(或物理分区)的每种肽，不需要与来自蛋白质的其它肽(或物理分区)具有相同的条形码。每个位点(甚至在相同的蛋白质内)可以具有不同的序列标识符，例如，常称为UMI。可以批量处理蛋白质，不需要珠粒等。为了方便和/或帮助促进，可以使用固体支持物，但是原则上该方法可以在溶液中对任意复杂的样品进行。例如，可以批量对整个蛋白质组样品分区。相反，在计算上进行繁重的提升。

当在复合物中的天然蛋白质上进行时，PBA可用于重建蛋白质复合物。当在复性蛋白质上进行时，PBA可用于识别具有缔合倾向的蛋白质。

PBA可用于结合其它类型的分子，例如DNA-蛋白质复合物。PBA可以与样品条形码一起使用，使得多个样品可以被汇集并一起分析。

本公开不旨在将范围限于所提供的具体公开的实施例，例如，用于说明本发明的各个方面的那些实施例。根据本文的描述和教导，对所述组合物和方法的各种修改将变得容易理解。在不脱离本公开的真实范围和精神的情况下可以实践这些变化，并且这些变化旨在落入本公开的范围内。可以对根据以上详细描述的实施例进行这些和其他改变。通常，在以下权利要求中，所使用的术语不应被解释为将权利要求限制于说明书和权利要求中公开的特定实施例，而是应该被解释权利要求有权要求包括所有可能的实施例以及全部等同范围。因此，权利要求不受本公开的限制。

引用的参考文献：

US 2015/0224466 A1；

US 2010/0136544 A1；

美国专利第9,029,085 B2号；

美国专利第9,085,798 B2号；

美国专利第6,511,809 B2号；

WO 2017/192633 A1；

WO 2016/123419 A1；

WO 2015/070037 A2；

WO 2016/130704 A2；

WO 2017/075265 A1；

WO 2016/061517 A2；

WO 2015/042506 A1；

WO 2016/0138086 A1；

Abe，H.，Y.Kondo，H.Jinmei，N.Abe，K.Furukawa，A.Uchiyama，S.Tsuneda，K.Aikawa，I.Matsumoto和Y.Ito(2008).“用于RNA和DNA信号扩增的快速DNA化学连接(Rapid DNA chemical ligation for amplification of RNA and DNA signal)”.Bioconjug Chem 19(1):327-333；

Assarsson，E.，M.Lundberg，G.Holmquist，J.Bjorkesten，S.B.Thorsen，D.Ekman，A.Eriksson，E.Rennel Dickens，S.Ohlsson，G.Edfeldt，A.C.Andersson，P.Lindstedt，J.Stenvang，M.Gullberg和S.Fredriksson(2014).“显示高灵敏度、特异性和优异可扩展性的均相96-plex PEA免疫测定(Homogenous 96-plex PEA immunoassay exhibiting highsensitivity，specificity，and excellent scalability)”.PLoS One 9(4):e95192；

El-Sagheer，A.H.，V.V.Cheong和T.Brown(2011).“通过Diels-Alder反应进行寡核苷酸的快速化学连接(Rapid chemical ligation of oligonucleotides by theDiels-Alder reaction)”.Org Biomol Chem 9(1):232-235；

El-Sagheer，A.H.，A.P.Sanzone，R.Gao，A.Tavassoli和T.Brown(2011).“通过DNA聚合酶读取并在大肠杆菌中具有功能的生物相容性人工DNA接头(Biocompatibleartificial DNA linker that is read through by DNA polymerases and isfunctional in Escherichia coli)”.Proc Natl Acad Sci U S A 108(28):11338-11343；

Hermanson，G.(2013).Bioconjugation Techniques，Academic Press；

Holding，A.N.(2015).“XL-MS：蛋白质交联与质谱分析的联用(XL-MS:Proteincross-linking coupled with mass spectrometry)”Methods 89:54-63；

Kilpatrick，L.E和E.L.Kilpatrick(2017).“优化高分辨率质谱以识别完整蛋白质的低丰度翻译后修饰(Optimizing High-Resolution Mass Spectrometry for theIdentification of Low-Abundance Post-Translational Modifications of IntactProteins)”.J Proteome Res 16(9):3255-3265；

Park，J.，M.Koh，J.Y.Koo，S.Lee和S.B.Park(2016).“用于有效地去卷积靶标蛋白质的与光亲和接头特异性结合的蛋白质的研究(Investigation of Specific BindingProteins to Photoaffinity Linkers for Efficient Deconvolution of TargetProtein)”。ACS Chem Biol 11(1):44-52；

Schaus，T.E.，et al.(2017).“一种自动循环邻近记录的DNA纳米观测仪(A DNAnanoscope via auto-cycling proximity recording)”.Nat Commun 8(1):696.

Schneider，M.，A.Belsom和J.Rappsilber(2018).“通过交联/质谱分析测定蛋白质三级结构(Protein Tertiary Structure by Crosslinking/Mass Spectrometry)”.Trends Biochem Sci 43(3):157-169；以及

Switzar，L.，M.Giera和W.M.Niessen(2013).“蛋白质消化：现有技术的概述和最新进展(Protein digestion:an overview of the available techniques and recentdevelopments)”J Proteome Res 12(3):1067-1077。

SEQUENCE LISTING

<110> Encodia公司.

马克·朱

凯文·冈德森

<120> 邻近相互作用分析

<130> 4614-2000940

<150> US 62/726,933

<151> 2018-09-04

<150> US 62/726,959

<151> 2018-09-04

<150> US 62/812,861

<151> 2019-03-01

<160> 1

<170> PatentIn version 3.5

<210> 1

<211> 30

<212> PRT

<213> Artificial Sequence

<220>

<223> Synthetic Peptide: Biotin and F containing peptide

<220>

<221> MISC_FEATURE

<222> (1)..(1)

<223> Biotin

<220>

<221> MOD_RES

<222> (6)..(6)

<223> Azide Modification

<220>

<221> MOD_RES

<222> (30)..(30)

<223> Azide Modification

<220>

<221> MISC_FEATURE

<222> (30)..(30)

<223> Amine

<400> 1

Lys Gly Ser Gly Ser Lys Gly Ser Gly Ser Arg Phe Ala Gly Val Ala

1 5 10 15

Met Pro Gly Ala Glu Asp Asp Val Val Gly Ser Gly Ser Lys

20 25 30

Claims

2.根据权利要求1所述的方法，其中，所述部分包含多肽。

3.根据权利要求1所述的方法，其中，所述部分包含多核苷酸。

4.根据权利要求1-3中任一项所述的方法，其中，所述多肽标签包含多核苷酸。

5.根据权利要求1-4中任一项所述的方法，其中，所述部分标签包含多核苷酸。

6.根据权利要求5所述的方法，其中，所述多肽标签包含第一多核苷酸，并且所述部分标签包含第二多核苷酸，所述第一和第二多核苷酸包含互补序列，并且所述多肽标签和所述部分标签经由所述互补序列缔合。

7.根据权利要求6所述的方法，其中，在所述缔合的多肽标签与部分标签之间转移信息包含延伸所述多肽标签的第一多核苷酸和所述部分标签的第二多核苷酸两者以形成所述共享的UMI和/或条形码。

8.根据权利要求6所述的方法，其中，在所述缔合的多肽标签与部分标签之间转移信息包含延伸所述多肽标签的第一多核苷酸和所述部分标签的第二多核苷酸之一以形成所述共享的UMI和/或条形码。

9.根据权利要求5所述的方法，其中，所述多肽标签包含双链多核苷酸，并且所述部分标签包含双链多核苷酸，并且在所述缔合的多肽标签与部分标签之间转移信息包含连接所述双链多核苷酸以形成所述共享的UMI和/或条形码。

10.根据权利要求9所述的方法，其中，所述共享的UMI和/或条形码包含所述双链多核苷酸的序列。

11.根据权利要求9所述的方法，其中，所述共享的UMI和/或条形码包含所述双链多核苷酸之一的序列。

12.根据权利要求1-11中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述部分标签稳定缔合。

13.根据权利要求1-11中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述部分标签瞬时缔合。

14.根据权利要求1-13中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述部分标签直接缔合。

15.根据权利要求1-13中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述部分标签例如经由所述多肽标签和所述部分标签之间的接头或UMI间接缔合。

17.根据权利要求16所述的方法，其中，所述多肽标签和所述部分标签包含多核苷酸。

18.根据权利要求16或权利要求17所述的方法，其中，所述连接结构经由所述分离的记录多核苷酸在所述多肽标签与所述部分标签之间形成。

19.根据权利要求16-18中任一项所述的方法，其中，所述方法在所述多肽标签与所述部分的多于一个位点或多于一个部分之间形成多个分离的记录多肽。

20.根据权利要求16-19中任一项所述的方法，其中步骤e)在所述多肽的位点与所述部分的两个或更多个位点或两个或更多个部分之间建立所述空间关系。

21.根据权利要求16-20中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述分离的记录多核苷酸瞬时缔合。

22.根据权利要求16-21中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述分离的记录多核苷酸直接缔合。

23.根据权利要求16-22中任一项所述的方法，其中，在所述连接结构中，所述部分标签和所述分离的记录多核苷酸瞬时缔合。

24.根据权利要求16-23中任一项所述的方法，其中，在所述连接结构中，所述部分标签和所述分离的记录多核苷酸直接缔合。

25.根据权利要求16-24中任一项所述的方法，其中，所述分离的记录多核苷酸是通过延伸，例如引物延伸形成。

26.根据权利要求16-24中任一项所述的方法，其中，所述分离的记录多核苷酸由连接形成。

27.根据权利要求16-26中任一项所述的方法，其中，所述分离的记录多核苷酸从所述多肽标签和所述部分标签中释放。

28.根据权利要求16-27中任一项所述的方法，进一步包含在评估所述分离的记录多核苷酸之前收集所述分离的记录多核苷酸。

29.根据权利要求28所述的方法，其中，评估所述分离的记录多核苷酸包含对所述收集的共享的唯一分子标识符(UMI)和/或条形码进行测序，从而产生测序数据。

30.根据权利要求16-29中任一项所述的方法，进一步包含在评估所述分离的记录多核苷酸之前连结所述收集的分离的记录多核苷酸。

31.根据权利要求30所述的方法，其中，评估所述分离的记录多核苷酸包含对所述级联的分离的记录多核苷酸进行测序。

32.根据权利要求1-31中任一项所述的方法，其中，在形成所述连接结构中，单个多肽标签与所述多肽的单个位点缔合，单个多肽标签与所述多肽的多个位点缔合，或多个所述多肽标签与所述多肽的多个位点缔合。

33.根据权利要求1-32中任一项所述的方法，其中，在形成所述连接结构中，单个部分标签与所述部分的单个位点缔合，单个部分标签与所述部分的多个位点缔合，或多个所述部分标签与所述部分的多个位点缔合。

34.根据权利要求1-33中任一项所述的方法，其中，在所述缔合的多肽标签与所述部分标签之间转移信息或连接所述缔合的多肽标签与所述部分标签形成单个共享的唯一分子标识符(UMI)和/或条形码。

35.根据权利要求34所述的方法，其中，所述单个共享的唯一分子标识符(UMI)和/或条形码是通过将来自所述多肽标签和/或所述部分标签的多个序列，例如，多个UMI和/或条形码进行组合而形成。

36.根据权利要求1-33中任一项所述的方法，其中，在所述缔合的多肽标签与所述部分标签之间转移信息或连接所述缔合的多肽标签与所述部分标签形成多个共享的唯一分子标识符(UMI)和/或条形码。

37.根据权利要求1-36中任一项所述的方法，其中，在所述连接结构中，所述共享的UMI和/或条形码包含互补多核苷酸杂交体，并且使所述多肽标签与所述部分标签解离包含使所述互补多核苷酸杂交体变性。

38.根据权利要求1-37中任一项所述的方法，其中，所述多肽和所述部分都是较大多肽的一部分，并且将所述多肽从所述部分解离包含将所述较大多肽片段化成肽片段。

39.根据权利要求38所述的方法，其中，通过蛋白酶消化将所述较大多肽片段化成肽片段。

40.根据权利要求1-39中任一项所述的方法，其中，所述部分是与所述样品中的多肽结合、复合或紧邻的分子的一部分。

41.根据权利要求40所述的方法，其中，所述多肽和所述部分属于同一蛋白质复合物中的两种不同蛋白质。

42.根据权利要求40所述的方法，其中，所述部分是与所述样品中的多肽结合、复合或紧邻的多核苷酸分子的一部分。

43.根据权利要求1-42中任一项所述的方法，其中，所述多肽的至少部分序列使用包含以下步骤的程序评估：

a1)提供所述多肽以及用作记录标签的所述缔合的多肽标签；

d1)分析所述第一次序延伸记录标签。

44.根据权利要求43所述的方法，其中，分析所述第一次序延伸记录标签还评估所述多肽标签。

45.根据权利要求1-44中任一项所述的方法，其中，所述部分包含部分多肽，并且使用包含以下步骤的程序来评估所述部分的至少部分同一性：

d2)分析所述第一次序延伸记录标签。

46.根据权利要求45所述的方法，其中，分析所述第一次序延伸记录标签还评估所述部分标签。

b)通过将所述预组装结构的所述多肽标签与所述多肽的所述位点缔合并且将所述预组装结构的所述部分标签与所述部分的所述位点缔合，在样品中的多肽的位点与所述样品中的所述部分的位点之间形成连接结构；

48.根据权利要求47所述的方法，其中，所述部分包含多肽。

49.根据权利要求47所述的方法，其中，所述部分包含多核苷酸。

50.根据权利要求47-49中任一项所述的方法，其中，所述多肽标签包含多核苷酸。

51.根据权利要求47-50中任一项所述的方法，其中，所述部分标签包含多核苷酸。

52.根据权利要求47-51中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述部分标签稳定缔合。

53.根据权利要求47-51中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述部分标签瞬时缔合。

54.根据权利要求47-53中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述部分标签直接缔合。

55.根据权利要求47-53中任一项所述的方法，其中，在所述连接结构中，所述多肽标签和所述部分标签例如经由所述多肽标签和所述部分标签之间的接头或UMI间接缔合。

56.根据权利要求47-55中任一项所述的方法，其中，在形成所述连接结构中，单个多肽标签与所述多肽的单个位点缔合，单个多肽标签与所述多肽的多个位点缔合，或多个所述多肽标签与所述多肽的多个位点缔合。

57.根据权利要求47-56中任一项所述的方法，其中，在形成所述连接结构中，单个部分标签与所述部分的单个位点缔合，单个部分标签与所述部分的多个位点缔合，或多个所述部分标签与所述部分的多个位点缔合。

58.根据权利要求47-57中任一项所述的方法，其中，所述形成的连接结构包含单个共享的唯一分子标识符(UMI)/条形码。

59.根据权利要求47-57中任一项所述的方法，其中，所述形成的连接结构包含多个共享的唯一分子标识符(UMI)/条形码。

60.根据权利要求47-57中任一项所述的方法，其中，所述多肽标签包含第一多核苷酸，所述部分标签包含第二多核苷酸。

61.根据权利要求47-60中任一项所述的方法，其中，在所述连接结构中，所述共享的UMI和/或条形码包含互补多核苷酸杂交体，并且使所述多肽标签与所述部分标签解离包含使所述互补多核苷酸杂交体变性。

62.根据权利要求47-61中任一项所述的方法，其中，所述多肽和所述部分都是较大多肽的一部分，并且将所述多肽从所述部分解离包含将所述较大多肽片段化成肽片段。

63.根据权利要求62所述的方法，其中，通过蛋白酶消化将所述较大多肽片段化成肽片段。

64.根据权利要求47-63中任一项所述的方法，其中，所述部分是与所述样品中的多肽结合、复合或紧邻的分子的一部分。

65.根据权利要求64所述的方法，其中，所述多肽和所述部分属于同一蛋白质复合物中的两种不同蛋白质。

66.根据权利要求64所述的方法，其中，所述部分是与所述样品中的多肽结合、复合或紧邻的多核苷酸分子的一部分。

67.根据权利要求47-66中任一项所述的方法，其中，所述多肽的至少部分序列使用包含以下步骤的程序评估：

a3)提供所述多肽以及用作记录标签的所述缔合的多肽标签；

d3)分析所述第一次序延伸记录标签。

68.根据权利要求67所述的方法，其中，分析所述第一次序延伸记录标签还评估所述多肽标签。

69.根据权利要求47-68中任一项所述的方法，其中，所述部分包含部分多肽，并且使用包含以下步骤的程序来评估所述部分的至少部分同一性：

d4)分析所述第一次序延伸记录标签。

70.根据权利要求69所述的方法，其中，分析所述第一次序延伸记录标签还评估所述部分标签。

71.根据权利要求1-70中任一项所述的方法，其中，在形成所述多肽的位点与所述部分的位点之间的连接结构之后执行所述多肽的至少部分序列和所述部分的至少部分同一性的评估。

72.根据权利要求1-71中任一项所述的方法，其中，在所述多肽与所述部分解离之后执行所述多肽的至少部分序列和所述部分的至少部分同一性的评估。

73.根据权利要求43-46和67-70中任一项所述的方法，其中，在所述多肽和所述部分之间形成连接结构之后执行所述多肽和所述部分与一种或多种结合剂的接触。

74.根据权利要求43-46、67-70和73中任一项所述的方法，其中，在所述多肽与所述部分解离之后执行所述多肽和所述部分与一种或多种结合剂的接触。

(a)一个或多个多肽标签和一个或多个部分标签；

77.根据权利要求76所述的试剂盒，进一步包含一种或多种用于分析所述分离的记录多核苷酸的试剂。

78.根据权利要求75-77中任一项所述的试剂盒，其中，所述用于评估所述部分的同一性和所述多肽的至少部分序列的试剂包含结合剂库，其中每种结合剂包含结合部分和编码聚合物，所述编码聚合物包含关于所述结合部分的识别信息，其中所述结合部分能够结合至所述片段的一个或多个N-末端、内部或C-末端氨基酸，或能够结合至通过官能化试剂修饰的一个或多个N-末端、内部或C-末端氨基酸。

79.一种用于评估空间关系的试剂盒，包含：

(b)用于官能化所述多肽的N-末端氨基酸(NTAA)的试剂；

80.根据权利要求79所述的试剂盒，其中，所述试剂盒另外包含用于消除官能化NTAA以暴露新的NTAA的试剂。

81.根据权利要求80所述的试剂盒，其中，所述用于消除官能化NTAA的试剂是羧肽酶或氨肽酶或其变体，突变体或修饰的蛋白质；水解酶或其变体，突变体或修饰的蛋白质；温和型埃德曼降解试剂；Edmanase酶；TFA；碱；或其任何组合。

82.根据权利要求75-79中任一项所述的试剂盒，进一步包含支持物或基板。

83.根据权利要求82所述的试剂盒，其中，所述支持物或基板是珠粒、多孔珠粒、多孔基质、阵列、玻璃表面、硅表面、塑料表面、过滤器、膜、尼龙、硅晶芯片、流通芯片、包括信号转导电子器件的生物芯片、微量滴定孔、ELISA板、旋转干涉测量盘、硝酸纤维素膜、硝化纤维素基聚合物表面、纳米颗粒或微球。

84.根据权利要求82或权利要求83所述的试剂盒，其中，所述支持物或基板包含多个空间分辨的附着点。