CN117887804A

CN117887804A - 用于识别或量化在生物样品中的靶标的方法和组合物

Info

Publication number: CN117887804A
Application number: CN202311572899.XA
Authority: CN
Inventors: 马龙·斯托基斯; 皮特·斯密博特; 布莱恩·侯克-卢米斯
Original assignee: New York Genome Center Inc
Current assignee: New York Genome Center Inc
Priority date: 2017-02-02
Filing date: 2018-02-02
Publication date: 2024-04-16
Also published as: FI3583214T3; EP4324931A2; ES2968290T3; WO2018144813A1; US20180251825A1; CN110475864A; EP3583214A1; DK3583214T3; EP3583214B1; EP3583214A4; CN110475864B; US20210371914A1

Abstract

描述了包括一个或多个构建体的组合物、试剂盒和方法，每个构建体包括配体，该配体通过连接体与例如寡核苷酸序列的聚合物构建体连接或缀合，每个配体特异性结合位于细胞中或细胞表面上的单个靶标。聚合物构建体包括a)扩增柄；b)特异性识别单个配体的条形码；c)可选的独特分子标识符，该独特分子标识符定位于邻近条形码的5'或3'端；和d)锚，该锚用于与互补序列杂交，例如，用于产生双链寡核苷酸。这些组合物用在包括高通量方法的方法中，用于检测生物样品中的一个或多个靶标或表位。在高通量方法中还使用这些组合物用于通过同时检测位于细胞中或细胞上的一个或多个表位及其转录组来表征细胞。

Description

用于识别或量化在生物样品中的靶标的方法和组合物

相关专利申请

本专利申请要求2017年12月21日提交的美国临时专利申请No.62/609332、2017年12月15日提交的美国临时专利申请No.62/599450、2017年9月15日提交的美国临时专利申请No.62/559228、2017年8月23日提交的美国临时专利申请No.62/549189、2017年6月5日提交的美国临时专利申请No.62/515180和2017年2月2日提交的美国临时专利申请No.62/453726的权益。上述申请的全部内容(包括所有文本、表格、附图和序列)通过引用并入本文。

关于联邦政府资助的研究或开发的声明

本发明是在由美国国立卫生研究院授予的项目号R21-HG-009748的政府支持下进行的。政府对本发明有一定的权利。以电子形式递交的材料的引用并入

申请人在此通过引用并入以电子形式一同提交的序列表材料。该文件标记为“NYGLIPP35PCT_ST25.txt”，日期为2018年1月23日，包含11kB。

背景技术

在异质群体中表征个体细胞的能力在生物学研究和临床诊断中变得越来越重要。已证明现代单细胞RNA-seq(scRNA-seq)方法的无偏差和高通量性质对于描述异质细胞群非常有价值^1-3。在单细胞基因组学之前，常规地使用策划组的针对细胞表面蛋白质的荧光标记的抗体(其通常是细胞活性和功能的可靠指标)来描述细胞状态⁷。最近的研究⁸,⁹已经证明了将来自细胞分选仪的“索引分选”测量值与单细胞转录组学相结合的潜能；该过程允许将免疫表型映射到转录组衍生的聚类。然而，基于液滴微流控^1-3、微孔^47,48或组合索引^20,30的大规模平行方法与细胞计数不兼容，因此不能用蛋白质信息增强。同时测量单细胞中转录物和蛋白质的靶向方法在规模上有局限性，或者只能并行分析几个基因和蛋白质^10-14。

传统上，大多数分类方法依赖于细胞表面蛋白质的光学检测。分选细胞的下游分析为细胞表型和表征提供了另外的信息层。随着过去几年高通量测序成本的降低，出现了各种实验室方法来分离和测序单细胞的RNA内容(单细胞RNA测序，scRNA-seq)。最初的单细胞测序方法采用荧光激活细胞分选(FACS)以将细胞从群体分离并划分到微量滴定板的各个孔中，以便将它们的转录组的内容与特定细胞表面标志物的表达相关联。FACS/scRNA-seq方法虽然有效，但具有相对低的通量和实验偏差，因为只有先验选择的细胞类型被分选和测序。因此，这些方法不适合于发现新细胞群或用于表征需要分析数万个细胞的复杂组织。

从基于板的方法转变到Fluidigm和Wafergen开发的微流控/纳米孔方法允许研究人员扩展到巨大数量的细胞，缓解通量瓶颈，避开FACS遇到的实验偏差，并使scRNA-seq所需的细胞捕获过程和文库制备过程自动化。最近采用基于液滴的微流控方法，如Dropseq¹、InDrop²、10X Genomics³和Illumina/Bio-Rad产品，已允许scRNA-seq扩展到大量细胞。目前基于液滴的微流控平台以超过每秒1,000个液滴的速率产生纳升级大小的油包水乳液。具有独特分子条形码的微粒与细胞共封装在液滴中，允许对源自相同细胞的转录物进行分组。该方法通过每次实验产生数万个个体单细胞反应而显著提高了通量，同时实现与纳升体积试剂使用相关的显著成本降低。虽然单细胞基因组学中基于液滴的进展显著改变了scRNA-seq实验的规模，但这些方法存在关键的缺点：所有基于液滴的单细胞RNA测序方法都丢失了除了总体上蛋白质水平或特别是细胞表面蛋白质表达以外的重要表型信息(表1)。

目前同时检测和/或测量单细胞中的转录物和蛋白质的方法基于使用有限数量的标志物的索引细胞分选与基于板的RNA测序^8,9组合或者邻位连接测定(PLA及其衍生技术)与数字PCR^10-13或质谱流式细胞术¹⁴组合。这些测定的规模有限和/或只能并行分析几个基因和蛋白质(参见表1以比较不同的技术)。

虽然转录组可以充当细胞状态的详细读数，但已经表明，mRNA丰度通常不能良好代表蛋白质水平，特别是在发育过程中^4-6。细胞表面标志物的表达传统上通过细胞计数法经由荧光标记的抗体测量，并且复杂细胞群可以通过它们表达的标志物的组合来表征。例如，近年来已经基于免疫系统和神经系统中的蛋白质标志物确定了细胞类型的精细地图⁷。这引领使用细胞计数法作为许多疾病领域的诊断和监测工具，最突出的是肿瘤学和免疫学。然而，基于FACS的方法在可以同时测定的标志物的数量方面，由于选择用于分析的细胞因已知表面标志物的选择而具有偏差的事实而受到限制。

因此，需要更有效的组合物和方法用于定性和定量分析众多细胞靶标(和其他靶标)，以用于诊断和研究应用。

发明内容

在一个方面，组合物包括构建体，该构建体包括通过连接体与聚合物构建体(即寡核苷酸序列)连接或缀合的配体。配体被设计为与生物样品中的靶标特异性结合。聚合物构建体，例如，寡核苷酸序列，包括扩增柄；特异性识别配体的条形码；可选的随机分子标签(RMT)或独特分子标识符(UMI)，以下称为“UMI”，其定位于邻近条形码的5'或3'端；和锚，该锚用于与捕获序列杂交并用于随后产生双链序列，该捕获序列包括与锚互补的序列。

在另一方面，配体和聚合物构建体之间的连接体可以是可切割的共价键。

在另一方面，组合物可以进一步含有一个或多个“另外的”构建体，该“另外的”构建体与组合物中任何其他构建体的不同之处至少在于靶标、配体和条形码以及UMI中的至少一个。在又进一步的方面，组合物包括一个或多个“基本上相同”的构建体。在某些实施方式中，每个“基本上相同”的构建体与组合物中任何其他参考构建体(例如，“第一”构建体或“另外的”构建体)的不同之处仅在于可选的UMI的序列的身份或没有来自参考构建体的UMI。

在又另一方面，试剂盒包括一个或多个本文描述的组合物和实施方式，以及可选的用于实施一个或多个方法的试剂。

在另一方面，用于检测生物样品中的一个或多个靶标的方法使用本文描述的一个或多个组合物和构建体。在一个方面，靶标是细胞表面抗原或表位，并且组合物含有针对该靶标的单个构建体，即“第一”构建体。在另一个实施方式中，如上文所述和下文所限定的，组合物含有多个“基本上相同”的构建体(即与“第一”构建体基本上相同)，或针对不同的靶标并因此具有不同组分的一个或多个“另外的”构建体。该方法涉及使生物样品与一个或多个上述组合物接触。另外的步骤涉及洗涤以去除未结合的构建体，和/或使各个构建体中的每个锚序列与捕获序列杂交。另一步骤涉及延伸与锚序列杂交的捕获，以将构建体条形码、UMI和扩增柄复制到双链序列上。然后扩增或检测聚合物构建体条形码序列以鉴定生物样品是否表达或含有单个靶标、一个或多个另外的靶标，或多个靶标的组合。可替换地，样品中靶标的表达水平通过检测通过处理的样品中任何UMI的量或两个或更多个UMI的平均量归一化的相应的聚合物构建体条形码的量来确定。

在另一方面，如上所述的方法包括在洗涤步骤后从与一个或多个针对检测一个或多个靶标的构建体结合的生物样品中分离个体细胞、细胞片段或细胞群。又另一步骤涉及用与扩增柄退火的引物扩增双链序列。

在又进一步的方面，方法使用本文描述的组合物通过同时检测位于细胞中或细胞上的一个或多个表位和/或其转录组来表征细胞。一种这样的方法包括使含有细胞的生物样品与一个或多个本文描述的组合物接触。在该方法的一个实施方式中，配体是与位于细胞中或细胞表面上的靶向表位特异性结合的抗体或其片段。这样的方法可以使用Drop-seq¹技术的步骤，例如，将与一个或多个构建体结合的个体单细胞封装到含有微流控珠的水滴中。每个珠与捕获寡核苷酸序列缀合。细胞裂解后，细胞中的mRNA和构建体寡核苷酸序列与珠上的捕获寡核苷酸的多聚T序列退火。从与珠退火的序列产生含有珠条形码序列和细胞mRNA的反转录物的双链cDNA以及含有珠条形码序列和构建体寡核苷酸序列的双链DNA。产生含有来自细胞转录物的cDNA和含有构建体寡核苷酸序列的DNA的扩增文库。在该方法中，文库的转录组同时与通过特异性识别的构建体上的抗体所识别的细胞相关联。通过使用本文描述的组合物，使用聚合物构建体条形码序列鉴定单细胞是否表达靶向表位。同时文库的转录组与鉴定为表达靶标的细胞相关联。

在又另一方面，上述构建体用于批量条形码编码或细胞“散列标签化(hashtagging)”的方法中。上述构建体，例如，与细胞结合的抗体或任何配体，与寡核苷酸序列缀合或缔合，该寡核苷酸序列包括扩增柄；特异性识别配体的条形码；可选的随机分子标签(RMT)或独特分子标识符(UMI)，以下称为“UMI”，其定位于邻近条形码的5'或3'端；和锚，例如多聚A序列，如本文描述的其用于在合并之前标记样品内的每个细胞。然后将用这样的构建体标记的若干样品合并，然后通过使用如本文描述的scRNA-seq或CITE-seq方法分析。用于标记样品内每个细胞的构建体具有与用于scRNA-seq或CITE-seq方法不同的扩增柄序列。标记中的这种复用(multiplexing)允许明确地确定大多数双联体(doublets)和控制批次效应的能力。

本文提出的一些方面是用于在多重测定中检测样品或靶标的方法，该方法包括：a)使第一样品与第一构建体接触，该第一构建体包括与第一寡核苷酸连接的第一配体，其中第一配体与第一靶标特异性结合，并且第一寡核苷酸包括：i)第一扩增柄，ii)特异性识别第一样品的第一条形码，和iii)第一锚。在一些方面，该方法进一步包括：b)使第二样品与第二构建体接触，该第二构建体包括与第二寡核苷酸连接的第二配体，其中第二配体与第二靶标特异性结合，并且第二寡核苷酸包括：i)第二扩增柄，ii)特异性识别第二样品的第二条形码，和iii)第二锚。在一些实施方式中，第一靶标和第二靶标是相同的靶标，并且可选地，第一扩增柄和第二扩增柄基本上相同，并且可选地，第一锚和第二锚基本上相同。在一些方面，该方法进一步包括：c)使第一和第二样品与第三构建体接触，该第三构建体包括与第三寡核苷酸连接的第三配体，其中第三配体与第三靶标特异性结合，并且第三寡核苷酸包括：(i)第三扩增柄，(ii)特异性识别第三配体的第三条形码，和(iii)第三锚。在一些方面，该方法进一步包括d)使第一和第二样品与第四构建体接触，该第四构建体包括与第四寡核苷酸连接的第四配体，其中第四配体与第四靶标特异性结合，并且第四寡核苷酸包括：i)第四扩增柄，ii)特异性识别第四配体的第四条形码，和iii)第四锚。

在一些实施方式中，第三扩增柄和第四扩增柄基本上相同，并且不同于第一扩增柄和第二扩增柄。在一些实施方式中，第一锚、第二锚、第三锚和第四锚基本上相同，并且可选地包括长度为至少10个核苷酸的多聚A序列。在一些实施方式中，第三靶标和第四靶标是不同的靶标，并且可选地，第三靶标不同于第一或第二靶标，并且可选地，第四靶标不同于第一或第二靶标。

在一些方面，该方法进一步包括e)使第三样品与第五构建体接触，该第五构建体包括与第五靶标特异性结合的第五配体，其中第五靶标可选地与第一靶标相同，并且第五配体与第五寡核苷酸连接，该第五寡核苷酸包括：i)第五扩增柄，该第五扩增柄可选地与第一扩增柄基本上相同，ii)特异性识别第三样品的第五条形码，和iii)第五锚，该第五锚可选地与第一锚基本上相同，并且可选地包括多聚A序列。

在一些方面，该方法进一步包括f)使第一和第二样品以及可选地另外的样品与包括第六配体的第六构建体接触，其中第六配体与第六靶标特异性结合，并与第六寡核苷酸连接，该第六寡核苷酸包括：i)第六扩增柄，该第六扩增柄可选地与第三扩增柄基本上相同，ii)特异性识别第六靶的第六条形码，和iii)第六锚，该第六锚可选地与第三锚相同，并且可选地包括多聚A序列。

在一些实施方式中，第一和第二样品、可选地一个或多个另外的样品，包括一个或多个细胞，并且第一、第二、第三、第四、第五和第六靶标存在于一个或多个细胞中的至少一个中或其表面上。在一些实施方式中，(a)、(b)、(c)、(d)、(e)或(f)的接触包括使第一样品、第二样品和可选的另外样品的一个或多个细胞与第一、第二、第三、第四、第五或第六构建体接触。在一些实施方式中，第一和第二样品、可选地一个或多个另外的样品，包括一个或多个细胞器、线粒体、外来体、脂质体、合成或天然存在的囊泡、微囊泡、外体(ectosomes)、细胞核、细菌、病毒、珠、颗粒、微粒、纳米颗粒、大分子以及合成或天然存在的脂质、磷脂或膜球，并且第一、第二、第三、第四、第五和第六靶标存在于一个或多个细胞器、线粒体、外来体、脂质体、合成或天然存在的囊泡、微囊泡、外体、细胞核、细菌、病毒、珠、颗粒、微粒、纳米颗粒、大分子以及合成或天然存在的脂质、磷脂或膜球中的至少一个中或其表面上。在一些实施方式中，(a)、(b)、(c)、(d)、(e)或(f)的接触包括使第一样品、第二样品和可选的另外的样品的一个或多个细胞器、线粒体、外来体、脂质体、合成或天然存在的囊泡、微囊泡、外体、细胞核、细菌、病毒、珠、颗粒、微粒、纳米颗粒、大分子以及合成或天然存在的脂质、磷脂或膜球与第一、第二、第三、第四、第五或第六构建体接触。在一些实施方式中，(a)和(b)以及可选地(e)的接触在(c)、(d)或(f)中任一个的接触之前发生。在一些实施方式中，(c)、(d)或(f)的接触包括使第一样品、第二样品和可选地另外的样品的混合物与第三、第四或第六构建体接触。在一些实施方式中，第一、第二、第三、第四、第五或第六配体包括抗体或其抗原结合片段。在一些实施方式中(i)第一、第二、第三、第四、第五或第六锚分别位于第一、第二、第三、第四、第五或第六扩增柄的3'，且分别位于第一、第二、第三、第四、第五或第六条形码的3'；并且可选地，(ii)第一、第二、第三、第四、第五或第六扩增柄分别位于第一、第二、第三、第四、第五或第六条形码的5'，且分别位于第一、第二、第三、第四、第五或第六锚的5'。在一些实施方式中，该方法进一步包括在步骤(a)、(b)、(c)、(d)、(e)或(f)中的任何一个或多个之后洗涤第一样品、第二样品或第一样品和第二样品以及可选地另外的样品的混合物，以去除未结合的构建体。在一些实施方式中，在(a)、(b)、(c)、(d)、(e)或(f)之后，将第一、第二或第三样品中的一个的第一单细胞封装在第一液滴中，该第一液滴包括与多个第一捕获寡核苷酸缀合的第一珠，该第一捕获寡核苷酸从5'至3'包括第七扩增柄、识别第一珠的第七条形码和与第一、第二、第三、第四、第五或第六锚序列互补的序列，并且可选地将第一、第二或第三样品中的一个的第二单细胞封装在第二液滴中，该第二液滴包括与多个第二捕获寡核苷酸缀合的第二珠，该第二捕获寡核苷酸从5'至3'包括第七扩增柄、识别第二珠的第八条形码和与第一、第二、第三、第四、第五或第六锚序列互补的序列。在一些实施方式中，该方法进一步包括使第一和第二单细胞裂解，从而提供封装在第一液滴中的第一裂解物和封装在第二液滴中的第二裂解物，其中第一和第二裂解物可选地包括mRNA。在一些实施方式中，该方法进一步包括使第一和第二细胞的裂解物与聚合酶接触。在一些实施方式中，该方法进一步包括产生第一、第二、第三、第四、第五或第六寡核苷酸的cDNA和双链寡核苷酸序列。

在一些方面，本文提出了一种用于检测生物样品中的一个或多个靶标的方法，该方法包括使生物样品与以下中的一个或多个接触：a)包括第一构建体的组合物，该第一构建体包括通过连接体与聚合物构建体连接或缀合的第一配体，所述第一配体与第一靶标特异性结合，并且所述聚合物构建体包括：扩增柄；特异性识别所述第一配体的条形码；可选的独特分子标识符，该独特分子标识符定位于邻近条形码的5'或3'端；和锚，该锚用于与捕获序列杂交，该捕获序列包括与所述锚互补的序列；b)包括至少一个另外的构建体的组合物，该构建体包括通过连接体与另外的聚合物构建体连接或缀合的另外的配体，所述另外的配体与另外的靶标特异性结合，并且所述另外的聚合物构建体包括扩增柄；特异性识别所述另外的配体的另外的条形码；可选的另外的独特分子标识符，该另外的独特分子标识符定位于邻近另外的条形码的5'或3'端；和锚，该锚用于与捕获序列杂交，该捕获序列包括与所述锚互补的序列；和c)包括一个或多个基本上相同的构建体的组合物，每个基本上相同的构建体与任何其他参考第一构建体或另外的构建体的不同之处在于其可选的独特分子标识符(UMI)的序列或没有UMI。

在一些方面，本文提出了一种用于检测生物样品中的一个或多个表位的高通量方法，该方法包括使生物样品与以下中的一个或多个接触(i)包括第一构建体的组合物，第一构建体包括与第一表位特异性结合的第一抗体或其片段，所述第一抗体或片段通过连接体与第一聚合物构建体连接或缀合，其中第一聚合物构建体包括：扩增柄；条形码序列，该条形码序列从辨识不同表位的任何其他抗体或片段中特异性识别所述第一抗体或片段；可选的独特分子标识符序列，该独特分子标识符序列定位于邻近条形码的5'或3'端；和锚序列，该锚序列用于与捕获序列杂交，该捕获序列包括与所述锚互补的序列；(ii)包括至少一个另外的构建体的(i)的组合物，该另外的构建体包括通过连接体与另外的聚合物构建体连接或缀合的另外的抗体或其片段，所述另外的抗体或其片段与另外的表位特异性结合，并且所述另外的聚合物构建体包括：扩增柄；特异性识别所述另外的抗体或其片段的另外的条形码；可选的另外的独特分子标识符，该另外的独特分子标识符定位于邻近另外的条形码的5'或3'端；和(i)的锚序列，其中所述另外的构建体与组合物中的任何其他构建体的不同之处在于其抗体、表位、条形码和UMI；和(iii)包括一个或多个基本上相同的构建体的(i)或(ii)的组合物，每个基本上相同的构建体与任何其他参考第一构建体或另外的构建体的不同之处在于其可选的独特分子标识符(UMI)的序列或没有UMI。

在一些方面，本文提出了一种用于检测在至少第一和第二样品中的至少两个靶标的方法，该方法包括：a)使第一样品与第一构建体接触，该第一构建体包括与第一寡核苷酸连接的第一配体，其中第一配体与第一靶标特异性结合，并且该第一寡核苷酸包括：i)第一扩增柄，ii)特异性识别第一样品的第一条形码，和iii)包括多聚A序列的锚；b)使第二样品与第二构建体接触，该第二构建体包括与第二寡核苷酸连接的第一配体，其中第二寡核苷酸包括：i)第一扩增柄，ii)特异性识别第二样品的第二条形码，和iii)锚；c)使第一和第二样品与第三构建体接触，该第三构建体包括与第三寡核苷酸连接的第二配体，其中第二配体与第二靶标特异性结合，并且第三寡核苷酸包括：(i)第二扩增柄，(ii)特异性识别第二配体的第三条形码，和(iii)锚；和d)使第一和第二样品与第四构建体接触，该第四构建体包括与第四寡核苷酸连接的第三配体，其中第三配体与第三靶标特异性结合，并且第四寡核苷酸包括：i)第二扩增柄，ii)特异性识别第三配体的第四条形码，和iii)锚。

在一些方面，本文提出了一种试剂盒，该试剂盒包括：a)第一构建体，该第一构建体包括与第一寡核苷酸连接的第一配体，其中第一配体与第一靶标特异性结合，并且第一寡核苷酸包括：i)第一扩增柄，ii)第一独特条形码，该第一独特条形码被配置为特异性识别第一样品，和iii)包括多聚A序列的锚；b)第二构建体，该第二构建体包括与第二寡核苷酸连接的第一配体，其中该第二寡核苷酸包括：i)第一扩增柄，ii)第二独特条形码，该第二独特条形码被配置为特异性识别第二样品，和iii)锚；c)第三构建体，该第三构建体包括与第三寡核苷酸连接的第二配体，其中第二配体与第二靶标特异性结合，并且该第三寡核苷酸包括：(i)第二扩增柄，(ii)第三独特条形码，该第三独特条形码被配置为特异性识别第二配体，和(iii)锚；和d)第四构建体，该第四构建体包括与第四寡核苷酸连接的第三配体，其中该第三配体与第三靶标特异性结合，并且第四寡核苷酸包括：i)第二扩增柄，ii)第四独特条形码，该第四独特条形码被配置为特异性识别第三配体，和iii)锚。

在一些方面，本文提出了一种包括构建体的组合物，该构建体包括与寡核苷酸连接的配体，其中配体与靶标特异性结合，并且寡核苷酸包括：i)扩增柄，ii)独特条形码，该独特条形码被配置为特异性识别第一样品，和iii)锚，该锚可选地包括多聚A序列。

在又另一方面，本文描述的方法是高通量方法并采用其他已知的检测和测序技术。

这些组合物和方法的其他方面和优点在以下对其优选实施方式的具体描述中进一步描述。

附图说明

图1A至1C是显示CITE-seq过程和组分能够同时检测单细胞转录组和蛋白质标志物的示意图。

图1A是显示本文描述的构建体的实施方式的图示，其中抗体(配体)与聚合物构建体连接，在该实施方式中，聚合物构建体是寡核苷酸序列二硫桥(连接体)，且含有功能序列组分(扩增柄和PCR柄)和独特抗体标识符条形码，随后是多聚A尾巴(锚)。

图1B是显示Drop-seq珠是含有聚合物构建体寡核苷酸序列的微粒的图示，该寡核苷酸序列具有以下功能特征：扩增柄(PCR柄)、独特细胞条形码，随后是独特分子标识符(UMI)和多聚T尾巴(锚)。

图1C是CITE-seq方案的实施方式的示意图。将细胞与抗体一起温育(1)，洗涤(2)并通过微流控芯片，其中将单细胞和一个珠封装在液滴中(3)和(4)。细胞裂解(5)后，mRNA和抗体-寡核苷酸构建体与Drop-seq珠结合(6)。在液滴乳液破裂后实施成批反转录和模板转换(7)。在SMART PCR后，可以根据大小分离全长cDNA(8a)和抗体-寡核苷酸构建体产物(8b)并各自扩增。

图1D是显示本文描述的构建体的实施方式的图示，其中抗体(配体)与聚合物构建体连接，该聚合物构建体含有功能序列组分(扩增柄和PCR柄)和独特抗体标识符条形码，随后是多聚A尾巴(锚)。

图2A至2E是显示CITE-seq在混合实验中准确识别不同种类的图。

图2A是凝胶电泳结果以及检测到的分子的图示。抗体-寡核苷酸复合物(1)表现为琼脂糖凝胶上高分子量涂片，并且可以通过还原二硫键(2)而裂开。

图2B是图示两个抗体-寡核苷酸的图。抗小鼠整合素β-1(CD29)抗体与条形码编码的寡核苷酸1相连接，该条形码编码的寡核苷酸1含有二硫桥连接体、扩增柄(也称为公共序列或PCR柄)、独特抗体标识符条形码(5'-ATGTCCT-3')和含有4个核苷酸的UMI，随后是多聚A尾巴(上图)。抗人CD29抗体与条形码编码的寡核苷酸2相连接，该条形码编码的寡核苷酸2含有二硫桥、公共序列(扩增柄、PCR柄)、独特抗体标识符条形码(5'-GCCATTA-3')和含有4个核苷酸的UMI，随后是多聚A尾巴(下图)。

图2C是衍生自抗体-寡核苷酸的全长cDNA和寡核苷酸的凝胶电泳和毛细管电泳迹线的结果。在反转录和SMART PCR之后，可以观察到两个不同的产物群(右面)。这些可以按大小分离成全长cDNA(上图，毛细管电泳迹线)和抗体-寡核苷酸产物(下图)并各自扩增。

图2D是显示在相同测序运行中获得的来自RNA-seq以及小鼠和人抗体特异性寡核苷酸序列的读数的点图。将人和小鼠细胞与对人或小鼠细胞表面标志物(整合素β，CD29)特异的寡核苷酸标签化的抗体一起温育。然后使细胞以较高浓度通过Drop-seq工作流以允许多细胞封装。然后通过mRNA测序确定每个液滴中的种类(散点图上的点)(人RNA：除了少量异常值之外用实线圈出；小鼠RNA：除了少量异常值之外用虚线圈出；混合种类RNA：除了上面提到的一些异常值之外的其余点)。

图2E是显示通过对mRNA和由其产生的cDNA测序来对计数细胞进行初步分类的点图。代表人细胞和小鼠细胞的点分别用实线圈和虚线圈标记。

图3A是展示用本文描述的10种CITE-seq抗体构建体标记的8,700个单核血细胞的CITE-seq分析结果的图，该CITE-seq抗体构建体具有表2中列出的组分(参见下面的实施例7)。使用整合了蛋白质和RNA测量值的典型相关分析进行tSNE(t分布随机邻域嵌入)34和聚类。这些数据表明CITE-seq允许脐带血单核细胞的增强的细胞聚类和分类。

图3B是仅使用RNA数据对图3A的相同数据集的CITE-seq分析。图中的符号是Mono(代表单核细胞)，B代表B细胞，T代表T细胞，NK代表自然杀伤细胞，DC代表常规树突细胞，pDC代表浆细胞样DC，Pre代表前体，并且Ery代表成红细胞。比较图3A和图3B，证明了使用多模态数据时的增强的分辨率。

图3C显示选择抗体，即表2(参见实施例7)的编号1、3、4、6、7和9的构建体的CITE-seq抗体数据的双轴图。这些数据表明，与通过流式细胞术获得的信息相比，使用CITE-seq方法学和组合物可以获得图中每个单细胞(每个点)的转录组。因此，细胞可以基于它们的RNA数据、蛋白质数据或两者来被进一步分析和分类。

图4是通过在如本文描述的CITE-seq分析中复用使用表2(实施例7)的10种抗体构建体标记的8,700个单核血细胞产生的一系列双轴图。显示了所有10种抗体的CITE-seq抗体数据的双轴图。这些数据可相比于通过流式细胞术获得的信息，使用CITE-seq方法学和组合物还可以获得图中每个单细胞(每个点)的转录组。因此，细胞可以基于它们的RNA数据、蛋白质数据或两者来被进一步分析和分类。

图5A是显示约4,000个外周血单核细胞(PBMC)的RNA聚类的图，该外周血单核细胞含有B细胞、NK细胞、小鼠细胞、自然杀伤T细胞、单核细胞、CD16单核细胞、CD4细胞和CD8细胞。使用利用RNA表达数据的典型相关分析进行tSNE(t-分布随机邻域嵌入)34和聚类。

图5B显示了在暴露于表3中所述的组合物的B细胞、NK细胞、小鼠细胞、自然杀伤T细胞、单核细胞、CD16单核细胞、CD4细胞和CD8细胞的聚类中CLR(中心化对数比)转化的ADT(抗体衍生标签)水平的6个直方图谱。一种这样的组合物包括配体，该配体是抗CD3抗体、抗CD4抗体或抗CD8抗体，其共价(直接)连接至聚合物构建体，该聚合物构建体在该实施例中是DNA寡核苷酸，其含有与Illumina Truseq Small RNA兼容的扩增柄；10个核苷酸的条形码，该条形码对于每种抗体是独特的，以识别配体；和30个核苷酸的多聚A尾巴锚，该锚用于与包括与锚互补的序列的捕获序列杂交。其他这样的组合物包括配体，该配体是抗CD3抗体、抗CD4抗体或抗CD8抗体，其通过如原理论证实验(图1-图4)中使用的链霉亲和素-生物素连接(SAV)与聚合物相连接，该聚合物在该实施例中是DNA寡核苷酸，其含有与IlluminaTruseq Small RNA兼容的扩增柄；10个核苷酸条形码，该条形码对于每种抗体是独特的，以识别配体；和30个核苷酸的多聚A尾巴锚，该锚用于与包括与锚互补的序列的捕获序列杂交。不同群体(例如，NK细胞、CD4、CD8)中的直方图谱在SAV和直接缀合之间是相当的。

图6A-图6F显示了使用DNA条形码编码的抗体的样品复用。

图6A是通过细胞散列(cell hashing)的样品复用的示意概览。将来自不同样品的细胞与辨识广泛存在的细胞表面蛋白质的DNA条形码编码的抗体一起温育。抗体上不同的条形码(称为“散列标签”寡核苷酸('hashtag'-oligos)，HTO)允许将多个样品合并到一个单细胞RNA测序实验中。测序后，可以基于HTO水平将细胞分类为它们的来源样品。

图6B是显示了遍及所有细胞条形码的HTO A和HTO B的原始计数的代表性散点图。两个轴都以99.9％的分位数裁剪，以排除视觉异常值。

图6C是基于我们的分类的所有归一化和规模化的HTO水平的热图。双联体和多联体表达多于一个HTO。阴性群体含有HEK-293T和小鼠NIH-3T3细胞，其作为阴性对照加标到实验中。具有多个“散列标签”信号的细胞可能是双联体，并且这些细胞的频率与实施例10中描述的测定的预期多联体率匹配。

图6D示出了HTO数据集的tSNE嵌入。细胞根据我们的分类进行着色和标记。显然存在八个单细胞体聚类和所有28个交叉样品双联体聚类。

图6E显示被表征为单细胞体(红色)、双联体(紫色)或阴性(灰色)的细胞中每个细胞条形码的RNA UMI的分布。

图6F显示单细胞表达谱的基于转录组的聚类，揭示散布在供体之间的不同免疫细胞群。B，B细胞；T，T细胞；NK，自然杀伤细胞；mono，单核细胞；DC，树突细胞；pDC，浆细胞样树突细胞；和浆细胞。细胞根据如图6D中的它们的HTO分类(供体ID)着色。

图7A-图7E显示使用demuxlet校验细胞“散列”。

图7A显示比较demuxlet和HTO分类的行归一化“混淆矩阵”。对角线上的每个值表示从demuxlet接收相同分类的给定HTO分类的条形码的分数。

图7B是对于一致性和非一致性的单细胞体的最高表达的HTO的计数分布。根据细胞“散列”，两个组具有相同的分类强度。

图7C显示非一致性的单细胞体具有较低的UMI计数，表明缺乏测序深度导致来自demuxlet的“不确定”召唤。

图7D是非一致性和一致性的多联体的RNA UMI分布。只有一致性的多联体表现出增加的分子复杂性，这表明两种方法都是在非一致性的情况下保守地优先召唤(overcalling)多联体。

图7E显示demuxlet将较低的多联体后验概率指定给非一致性召唤。

图8A-图8F显示细胞“散列”使得能够进行有效的实验优化和低质量细胞的识别。图8A至图8C是显示用于评估一组CITE-seq免疫表型分型抗体的最佳染色浓度的滴定系列的性能结果的图。针对每次测试使用的不同浓度描绘了CD8(图8A)CD45RA(图8B)和CD4(图8C)的归一化ADT计数。

图8D显示滴定曲线，其描绘了滴定系列中这三种抗体的染色指数(SI)。在与制造商推荐的流式细胞术抗体的典型染色浓度相似的水平下，这些抗体的信噪比开始饱和。

图8E显示使用HTO分类可以将具有低UMI计数的细胞与环境RNA区分开。将单细胞体群组分类为经典造血细胞群。

图8F显示分类为“阴性”的条形码不分组为聚类，并且可能代表仅含有环境RNA的“空”液滴。

具体实施方式

本文描述的组合物增加了各种测定方法学的灵敏度。使用该组合物和方法检测复杂环境中的多个靶标是高度可扩展的，并且仅受特定配体(例如，可用的抗体)数量的限制，与受到可用荧光团的光谱重叠限制的荧光测定方法不同。例如，流式细胞术允许每个细胞最多15个参数的常规测量^17,18。本文描述的采用配体(例如抗体)的分子条形码编码的组合物允许复用至实际上任何数量，并且甚至应该超过基于质谱流式细胞术的并行化(CyTOF最多100个标签)¹⁸。

例如，下面详细描述的组合物和方法的一个方面允许以每个实验数万个细胞的规模同时测量大量已认可的基于抗体的标志物以及无偏差的单细胞转录组数据。使用本文描述的组合物，我们将该技术称为通过测序的转录组和表位的细胞索引(CITE-seq)。然而，其他技术可以使用所描述的组合物来增强对细胞类型和细胞群的研究和理解，比如编目健康个体中的细胞类型或研究发育和疾病中的转录后基因调节。通过使用本文描述的组合物，可以增强用于测定各种疾病状态的任何数量的诊断技术和应用的效率。本文描述的方法和组合物通过以前所未有的规模结合来自相同单细胞的蛋白质和转录物两者的信息，极大地扩展了单细胞表型分型的能力。

I.方法和组合物的组分

在本文讨论的组合物和方法的描述中，各种组分可以通过使用具有与本发明所属领域的普通技术人员通常理解的含义相同的技术和科学术语和参考公开文本来定义。这样的文本为本领域技术人员提供了对本申请中使用的许多术语的一般指导。提供本说明书中包含的定义是为了清楚地描述本文的组分和组合物，而不旨在限制要求保护的发明。

如本文所用，术语“构建体”是指化学合成的或基因工程化的组合，其包括通过连接体与至少一种聚合物构建体(例如，在一个实施方式中，寡核苷酸序列)连接(共价连接，非共价连接或如本文描述的其他方式连接)的配体。每个聚合物构建体包括若干功能要素：扩增柄；特异性识别所连接的配体的条形码；可选的独特分子标识符，该独特分子标识符定位于邻近条形码的5'或3'端；和锚，该锚用于与包括与锚互补的序列的捕获序列杂交。构建体的这些组分可以以任何顺序发生。在一个实施方式中，组分从5'至3'排列：配体、连接体、扩增柄、条形码和锚，其中UMI在条形码的任一端。在另一个实施方式中，组分从3'至5'排列：配体、连接体、扩增柄、条形码和锚，其中UMI在条形码的任一端。在还有其他实施方式中，构建体的这些要素可以是以任何其他顺序。在又一个实施方式中，构建体包括与多个相同聚合物构建体连接的单个配体。在一个实施方式中，每个聚合物构建体与配体直接连接(每个聚合物构建体一个连接)。在另一个实施方式中，聚合物构建体作为多联体与配体连接(每个单个配体连接多个聚合物构建体)。例如，单个配体(即单克隆抗体)可以与1至50个聚合物构建体连接。

单链核酸通常包括5'(5-prime)端和3'(3-prime)端。因此，术语5'和3'是指核酸单链上的相对位置。因此，核酸的某些要素或序列(例如，柄、条形码和锚)的相对位置可以按照从5'至3'，或者可替换地从3'至5'的先后顺序指定。例如，核酸可以从5'至3'包括，柄、条形码和锚，并且可以表示为：5'-柄-条形码-锚-3'。在上面的示例中，条形码和锚可以被称为柄的3'。而且，在上面的示例中，柄和条形码可以被称为锚的5'。此外，上面的示例中的柄的位置也可以被称为邻近条形码。类似地，条形码可以被称为位于柄和锚的侧面。因此，本领域技术人员将知道位置术语3'和5'的含义。除非另外明确指出，否则本文所用的这种位置语言并不意味着不在参考要素之间不插入另外的核酸序列。例如，在上面的示例中，在柄和条形码之间可以存在另外的序列(例如，UMI)。

如本文所用的术语“聚合物”是指多个单体组分的任何骨架，其可以起到结合所选配体和/或锚组分并用于下游测定的作用。该测定可以利用一个或多个酶的活性，例如反转录酶、DNA或RNA聚合酶、DNA或RNA连接酶等。这样的聚合物或单体组分包括寡核苷酸(例如，DNA、RNA、合成或重组DNA或RNA碱基或者DNA或RNA碱基的类似物)、肽核酸(即，合成核酸类似物，其中天然核苷酸碱基与肽样骨架而不是DNA和RNA中发现的糖磷酸骨架连接)、锁定核酸(LNA；参见，例如，Grunweller A和Hartmann RK，“Locked nucleic acidoligonucleotides:the next generation of antisense agents？”BioDrugs2007.21(4)：235-43)，或聚酰胺聚合物(参见，例如，Dervan,PB和Burli,RW，“Sequence-specific DNArecognition by polyamides”，Curr.Opn Chem.Biol.1999,3:688-693)。为了简单和易于理解，在整个说明书中，聚合物构建体或其功能组分(例如，锚、条形码、UMI或扩增柄)也可以例示为特定聚合物或单体组分，比如寡核苷酸序列、核酸、核酸序列等。然而，在本说明书中无论何处使用术语“寡核苷酸”、“核酸”或“核苷酸”或单体或聚合物的类似具体示例，还应理解为意指聚合物构建体或组分可以由本段所述的任何合适的聚合物形成。

在整个说明书中使用术语“第一”、“另外的”和“基本上相同”作为参考术语以区分构建体的各种形式和组分。例如，“第一构建体”可以定义具有某些特定组分的构建体，其中单个特定的“第一”配体结合特定的“第一”靶标。“第一”条形码针对第一配体是特异的；UMI仅识别“第一”聚合物构建体，并且锚结合特定的互补序列。术语“另外的构建体”是指与本文定义的组合物和方法中使用的任何其他构建体的不同之处在于靶标、配体和条形码的身份的构建体(例如，第二、第三或第四构建体)。在一个实施方式中，另外的构建体与组合物或方法中的其他构建体的不同之处在于靶标、配体、条形码、UMI和锚的身份。每个另外的构建体包括通过连接体与另外的聚合物构建体连接或缀合的另外的配体。另外的配体与不同于第一靶标的另外的靶标特异性结合。配体和另外的聚合物构建体之间的连接体可以与第一构建体中的连接体相同或不同。另外的聚合物构建体在其功能要素的身份方面也不同。扩增柄可以与第一构建体中使用的扩增柄相同或不同。然而，特异性识别另外的配体的另外的条形码不识别任何其他配体。定位于邻近另外的条形码的5'或3'端的可选的另外的UMI，针对另外的聚合物构建体是特异的。在又一个实施方式中，另外的锚具有相同或不同的序列，用于与相比于第一锚所结合的捕获互补序列相同或不同的捕获互补序列杂交。在一个实施方式中，在所描述的组合物或方法中每个“另外的”构建体的每个“另外的”配体、“另外的”靶标、“另外的”条形码和“另外的”UMI组分不同于任何其他构建体中的相应组分。

因此，除非另有说明，否则术语“第一”、“第二”、“第三”、“第四”、“第五”、“第六”、“第七”和“第八”指的是本发明的要素(例如，构建体、配体、条形码、寡核苷酸、捕获寡核苷酸、珠、靶标、锚、扩增柄等)，其中所述的“第一”、“第二”、“第三”、“第四”、“第五”、“第六”、“第七”和“第八”要素可以相同或可以不同。

术语“特异性结合”或“特异性地结合”是指相对于其他靶标(例如，其他分子、其他肽或其他抗原)配体优先与指定靶标结合，其通过例如合适的体外测定(例如，Elisa、免疫印迹、流式细胞术等)确定。与靶标特异性结合的配体表现出与靶标的特异性结合相互作用，该特异性结合相互作用以约2倍或更多倍，通常约10倍或更多倍，有时约100倍或更多倍，1000倍或更多倍，10,000倍或更多倍，100,000倍或更多倍，或1,000,000倍或更多倍区别于与其他靶标(例如，任何其他蛋白质、抗原、分子等)的非特异性结合相互作用。

除非另有明确说明，否则本文所用的术语“基本上”意为至少75％，至少80％，至少90％或至少95％。在一些实施方式中，两个或更多个核酸基本上相同。基本上相同的两个或更多个核酸或其部分是指具有至少75％，至少80％，至少85％，至少90％，至少95％，至少99％或100％的同一性百分比的两个或更多个核酸的核苷酸序列(例如，两个或更多个寡核苷酸、捕获寡核苷酸、锚、扩增柄、条形码等)。术语“百分比相同”或“百分比同一性”是指两个氨基酸序列之间的序列同一性。可以通过比较每个序列中可以为比较目的而比对的位置来确定同一性。当比较的序列中的等同位置被相同的核苷酸占据时，那么核酸序列在该位置是相同的。同一性的百分比的表达是指在比较序列共有的相应位置的相同核苷酸或其衍生物或变体的数量的函数(例如，由比对限定)。可以使用各种比对算法和/或程序来确定百分比同一性，其非限制性示例包括FASTA、BLAST或ENTREZ。FASTA和BLAST可以作为GCG序列分析包(威斯康辛州，威斯康辛大学麦迪逊分校)的一部分获得，并且可以与例如默认设置一起使用。ENTREZ可通过马里兰州，贝塞斯达的国家生物技术信息中心、国家医学图书馆、美国国立卫生研究院获得。

术语“基本上/大致相同的”构建体是指与参考构建体，例如，“第一”构建体或特定的另外的构建体的不同之处仅在于可选的独特分子标识符的序列或构建体中没有独特分子标识符的一些构建体或组分。在一个实施方式中，每一个基本上相同的构建体与参考(第一或另外的)构建体共有相同的靶标、配体、扩增柄、条形码和锚。在另一个实施方式中，每一个基本上相同的构建体与参考(第一或另外的)构建体共有相同的靶标、配体、条形码和锚。在一个实施方式中，与“第一构建体”基本上相同的构建体与参考“第一”构建体的不同之处在于UMI的序列和/或UMI是否存在。在另一个实施方式中，基本上相同的另外的构建体与参考另外的构建体的不同之处在于UMI和扩增柄。

本文所用的用于描述构建体组分之间的相互作用的术语“连接(attachment)”或“连接(attach)”意为共价连接或各种非共价类型的连接。用于组装本文描述的构建体的其他连接性化学物质包括但不限于硫醇-马来酰亚胺、硫醇-卤代乙酸酯、胺-NHS、胺-异硫氰酸酯、叠氮化物-炔(CuAAC)、四唑-环辛烯(iEDDA)(参见，例如，参考文献24和其中的其他参考文献)。在一个实施方式中，每个聚合物构建体通过不可逆的共价连接与配体连接。在另一个实施方式中，每个聚合物构建体通过可切割的共价连接(例如二硫键或光可切割的连接体)与配体连接。

如本文所用，“靶标”是指任何天然存在的或合成的生物或化学分子。在一个实施方式中，靶标是指在细胞表面上表达的任何生物或化学分子。在一些实施方式中，靶标是指外来体、细胞核、细胞器、病毒或细菌的表面上或内部的任何生物或化学分子。在某些实施方式中，靶标是细胞表面蛋白质。在一些实施方式中，靶标是细胞。在一些实施方式中，靶标是细胞核、外来体、细菌或噬菌体。在另一个实施方式中，靶标是指细胞内表达的任何生物或化学分子。在另一个实施方式中，靶标是指天然存在的、合成的、重组工程化的或分离的靶标的文库、组或混合物中存在的任何生物或化学分子。在另一个实施方式中，靶标是指生物样品中存在的任何生物或化学分子。对应的术语“第一靶标”和每个“另外的靶标”(例如，第二、第三、第四靶标等)是指不同的靶标。第一和另外的靶标可以独立地选自由多个相同或不同靶标形成的肽、蛋白质、抗体或抗体片段、亲和体、核糖核酸序列或脱氧核糖核酸序列、适体、脂质、多糖、凝集素或嵌合分子。在下面的实施例中，靶标是细胞表面抗原或表位。

在一些实施方式中，样品是生物样品。如本文所用，本文描述的方法中使用的“生物样品”是指含有一个或多个选定靶标的天然存在的样品或有意设计或合成的样品或文库。在一个实施方式中，样品含有细胞或细胞片段的群，该细胞片段包括但不限于细胞膜组分、外来体和亚细胞组分。细胞可以是同源细胞群，比如特定类型的分离细胞，或不同细胞类型的混合物，比如来自人或哺乳动物或其他种类的生物流体或组织。用于该方法和与组合物一起使用的还有其他样品包括但不限于血液样品(包括血清、血浆、全血和外周血)、唾液、尿液、阴道或宫颈分泌物、羊水、胎盘液、脑脊髓液，或浆液、粘膜分泌物(例如口腔、阴道或直肠分泌物)。还有其他样品包括组织或细胞裂解物的血液衍生的或活检衍生的生物样品(即，衍生自组织和/或细胞的混合物)。其他合适的组织包括头发、指甲等。还有其他样品包括抗体文库、抗体片段和抗体模拟物，如亲和体。这样的样品可以进一步用盐水、缓冲液或生理学上可接受的稀释剂稀释。可替换地，通过常规手段浓缩这样的样品。还有其他样品可以被合成或设计化学分子、蛋白质、抗体或本文描述的任何其他靶标的集合。样品通常获自或衍生自特定来源、受试者或患者。在一些实施方式中，样品通常获自，衍生自特定实验、批次、运行或重复或与特定实验、批次、运行或重复相关。因此，在某些实施方式中，可以使用本文描述的方法或组合物识别和/或区分多个样品(例如，衍生自不同来源、不同受试者或不同运行的样品)中的每一个。在一些实施方式中，通过本文描述的散列标签化方法检测、跟踪、标签化和/或识别样品。在一些实施方式中，通过本文描述的散列标签化方法确定样品的存在、量或不存在。在某些实施方式中，通过本文描述的散列标签化方法检测、跟踪、标签化和/或识别衍生自特定样品或来源的靶标(例如，细胞、细胞核、蛋白质等)。

在某些实施方式中，样品包括一个或多个细胞器、线粒体、外来体、脂质体、合成或天然存在的囊泡、微囊泡、外体、细胞核、细菌、病毒、噬菌体、珠、颗粒、微粒、纳米颗粒、大分子、合成或天然存在的脂质或膜、磷脂膜、膜球等或其组合。在一些实施方式中，样品包括一个或多个细胞。在一些实施方式中，样品包括一个或多个细胞核。一个或多个靶标可以存在于细胞器、线粒体、外来体、脂质体、合成或天然存在的囊泡、微囊泡、大囊泡(macrovesicle)、外体、细胞核、细菌、病毒、噬菌体、珠、颗粒、微粒、纳米颗粒、大分子、合成或天然存在的脂质膜、磷脂膜或膜球或脂质球。

在这些组合物和方法中使用的“配体”是指任何天然存在的或合成的生物或化学分子，其用于与单个识别的靶标特异性结合。结合可以是共价的或非共价的，即，缀合或通过考虑配体及其相应靶标的性质的任何已知的手段。术语“第一配体”和“另外的配体”是指与不同靶标或靶标的不同部分结合的配体。例如，多个“第一配体”在相同位点与相同的靶标结合。多个另外的配体与不同于第一配体且不同于任何另外的配体的靶标结合。配体(例如，第一配体和另外的配体，例如，第二、第三、第四和第五配体等)可以独立地选自肽、蛋白质、抗体或抗体片段(例如，抗体的抗原结合部分)、抗体模拟物、亲合体、核糖核酸或脱氧核糖核酸序列、适体、脂质、多糖、凝集素或由多个相同或不同配体形成的嵌合分子。配体的另外的非限制性示例包括Fab、Fab'、F(ab')2、Fv片段、单链Fv(scFv)、双抗体(Dab)、合成抗体(synbody)、纳米抗体、BiTE、SMIP、DARPins、DNL、Duocalin、adnectin、fynomer、KunitzDomains Albu-dab、DART、DVD-IG、Covx-体、肽体、scFv-Ig、SVD-Ig、dAb-Ig、“杵臼”结构抗体(Knob-in-Holes)、triomAb等，或其组合。在一些实施方式中，配体是重组或天然存在的蛋白质。在某些实施方式中，配体是单克隆或多克隆抗体或其片段。在一个实施方式中，构建体的配体也可以用一个或多个可检测标记直接标记，比如荧光团(参见下面讨论的标记)，其可以通过独立于测量或检测本文另有说明的聚合物构建体的方法的方法测量。

抗体的抗体片段或抗原结合片段是指与靶标特异性结合的抗体的一部分，并且可以包括Fab、Fab'、F(ab')2、Fv片段、单链Fv(scFv)、scFv-Ig和可以与靶标特异性结合的抗体的其他片段或部分。

如本文所用，术语“可检测标记”意为根据所采用的测定形式，能够提供可检测信号的试剂、部分或化合物。标记可以与构建体整体缔合，或仅与配体缔合，或与聚合物构建体或其功能部分缔合。可替换地，可以针对构建体的每个组分使用不同的标记。这样的标记能够单独或与其他组合物或化合物协同提供可检测信号。在一个实施方式中，标记理想地是相互作用的以产生可检测信号。最理想的是，标记在视觉上例如，色度上是可检测的。各种酶系统起到揭示测定中的色度信号的作用，例如葡萄糖氧化酶(其使用葡萄糖作为底物)释放过氧化物作为产物，其在过氧化物酶和氢供体(比如四甲基联苯胺(TMB))存在下产生看做蓝色的氧化的TMB。其他示例包括辣根过氧化物酶(HRP)或碱性磷酸酶(AP)，以及与葡萄糖-6-磷酸脱氢酶结合的己糖激酶，其与ATP、葡萄糖和NAD+反应以产生NADH，以及其他产物，NADH被检测为在340nm波长处增加的吸光度。可用于所描述的方法和构建体的还有其他标记系统可通过其他手段检测，例如，在适用的测定中，其中嵌入染料的有色乳胶微粒(Bangs Laboratories，印第安纳州)可用于代替酶以提供指示标记的配体或构建体存在的视觉信号。还有其他标记包括荧光化合物、荧光团、放射性化合物或元素。在一个实施方式中，荧光可检测的荧光染料，例如异硫氰酸荧光素(FITC)、藻红蛋白(PE)、别藻蓝蛋白(APC)、柯里膦-O(CPO)或串联染料，PE-cyanin-5或-7(PC5或PC7))、PE-Texas Red(ECD)、PE-cyanin-5.5、罗丹明、PerCP和Alexa染料。根据测定方法，其中可以使用这样的标记的组合，比如Texas Red和罗丹明、FITC+PE、FITC+PECy5和PE+PECy7等。用于标记配体和/或聚合物构建体的任何组分的合适标记的选择和/或产生在本说明书提供的本领域技术范围内。

本文描述的组合物和方法的其他组分也可以被可检测地标记。除了标记配体之外或可替换地，聚合物构建体可以用一个或多个可检测标记来标记，比如荧光团和下面限定的其他标记。这些标记的检测通过独立于本文描述的方法的方法进行，用于测量聚合物构建体或其组分。另外或可替换地，可以标记配体和聚合物构建体，使得当组装成最终构建体时，成功的组装是可检测的，比如用于产生最终构建体。另外或可替换地，在下面描述的方法中，捕获聚合物可以用一个或多个可检测标记来标记。另外或可替换地，可检测标记可用于下面描述的方法中，以提供成功结合的指示。例如，固定有捕获聚合物的基板可以用一个或多个可检测标记来标记。另外或可替换地，一个或多个可检测标记可用于显示捕获聚合物和聚合物构建体的成功结合。在另一个实施方式中，可以标记捕获聚合物与基板的成功结合。另外或可替换地，聚合物构建体和固定有捕获聚合物的基板的成功缔合可以用一个或多个可检测标记来标记。此外，这样的标记可用于指示配体和捕获聚合物的成功缔合。另外或可替换地，这样的标记可用于指示配体与固定有捕获聚合物的基板的缔合。还考虑了这些方法和组合物中可检测标记的还有其他用途。

如本文所用，“抗体或片段”是单克隆抗体、合成抗体、重组抗体、嵌合抗体、人源化抗体、人抗体、CDR嫁接抗体、可结合两个或更多个靶标的多特异性结合构建体、双重特异性抗体(dual specific antibody)、双特异性抗体或多特异性抗体，或亲和力成熟抗体、单个抗体链或scFv片段、双抗体、包括互补scFv(串联scFv)或双特异性串联scFv的单链、Fv构建体、二硫键连接的Fv、Fab构建体、Fab'构建体、F(ab')2构建体、Fc构建体、已去除对单克隆抗体功能不必要的结构域的单价或二价构建体、含有一个V_L、一个V_H抗原结合结构域和一个或两个恒定“效应子”结构域(其可选地通过连接体结构域连接)的单链分子、没有铰链区的单价抗体、单结构域抗体、双变量结构域免疫球蛋白(DVD-Ig)结合蛋白或纳米抗体。该定义还包括抗体模拟物，比如亲和体，即一类工程化亲和蛋白质，通常是小的(～6.5kDa)单结构域蛋白质，其可以由于对任何给定的蛋白质靶标的高亲和力和特异性而分离。

“连接体”是指用于将配体与构建体的聚合物构建体/寡核苷酸序列部分连接或缔合的任何部分。因此，在一个实施方式中，连接体是共价键。在另一个实施方式中，连接体是非共价键。在另一个实施方式中，连接体由至少一个至约25个原子构成。因此，在各种实施方式中，连接体由至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个原子形成。在又一个实施方式中，连接体是至少一个至约60个核酸。因此，在各种实施方式中，连接体由至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59，最多60个核酸的序列形成。在又一个实施方式中，连接体是指至少一个至约30个氨基酸。因此，在各种实施方式中，连接体由至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29，最多约30个氨基酸的序列形成。在还有其他实施方式中，连接体可以是较大的化合物或共价或非共价缔合的两个或更多个化合物。在还有其他实施方式中，连接体可以是本文定义的连接体的组合。在一个实施方式中用于组合物和方法的构建体中的连接体是可切割的。在一个实施方式中用于组合物和方法的构建体中的连接体是不可切割的。非限制性地，在一个实施方式中，连接体是可切割的连接体，例如二硫键或光可切割键。在下面的实施例中，例示的连接体包括生物素通过二硫键与构建体寡核苷酸序列结合的复合物，其中链霉亲和素与配体融合。在另一个实施方式中，生物素与配体结合，并且链霉亲和素与构建体寡核苷酸序列融合。尽管实施例显示了例示的连接体与构建体的寡核苷酸的5'端结合，但在其他实施方式中，连接体可以与构建体的任何寡核苷酸序列部分共价连接或缀合。在又一个实施方式中，当配体是重组或合成的抗体时，可以将连接体工程化到抗体序列中以促进与聚合物构建体的1:1偶联，从而简化配体、构建体和/或聚合物构建体的制备。例如，为了这样的目的，可以将连接体工程化到选定的配体(例如抗体)或聚合物构建体或组分中。另外或可替换地，在相同细胞中产生时配体与聚合物构建体连接。参见，例如，/>Vector Systems Technical Manual(TM254-修订版5/17)描述的/>方案，PromegaCorporation的2017版权所有；和Janssen D.B.，“Evolving haloalkalinedehalogenase”，Curr.Opin.Chem.Biol.，2004,8:150-159。

“聚合物构建体”或“构建体寡核苷酸序列”是构建体的与配体缔合的部分。如上所述，该缔合可以是共价的、非共价的或通过任何合适的缀合并采用任何合适的连接体。聚合物构建体由一系列功能聚合物要素(例如，如上文定义的各自具有如本文所定义的功能的核酸序列或其他聚合物)形成。配体可以在其5'端或任何其他部分处与构建体寡核苷酸序列连接，条件是连接或缀合不妨碍构建体寡核苷酸序列的组分的功能。如上所述，针对每个“第一”或“另外的”构建体寡核苷酸序列，这些组分是扩增柄；条形码，可选的UMI和锚。通常，聚合物构建体可以为适应其功能组分长度的任何长度。在一个实施方式中，聚合物构建体的长度在20和100个单体组分(例如，核酸碱基)之间。在一些实施方式中，构建体寡核苷酸序列的长度为至少20、30、40、50、60、70、80、90或超过100个单体组分(例如，核酸碱基)。在其他实施方式中，构建体寡核苷酸的长度为200至约400个单体组分(例如，核苷酸)。在一个实施方式中，聚合物构建体通常由脱氧核糖核酸(DNA)组成。在一个实施方式中，构建体寡核苷酸是DNA序列。在其他实施方式中，构建体寡核苷酸或其部分包括修饰的DNA碱基。DNA碱基的修饰在本领域中是已知的，并且可以包括含有标记的化学修饰的碱基。在其他实施方式中，构建体寡核苷酸或其部分包括核糖核酸(RNA)序列或修饰的核糖核苷酸碱基。RNA碱基的修饰在本领域中是已知的，并且可以包括含有标记的化学修饰的碱基。在还有其他实施方式中，构建体寡核苷酸序列的不同部分可以包括DNA和RNA、修饰的碱基或修饰的聚合物连接(包括但不限于PNA和LNA)。关于寡核苷酸修饰的描述，参见商业供应商，例如，Integrated DNA Technologies，美国网站；Custom Oligonucleotide ModificationsGuide，Sigma-Aldrich，www.sigmaaldrich.com/technical-documents/articles/biology/custom-dna-oligos-modifications.html，和Modified Oligonucleotides,TriLink,www.trilinkbiotech.com/oligo/modifiedoligos.asp。如上所述，在还有其他实施方式中，聚合物构建体由聚酰胺、PNA等构成。

如本文所用，术语“扩增柄”是指构建体寡核苷酸序列的功能组分，其本身是提供用于扩增构建体寡核苷酸序列的退火位点的寡核苷酸或多核苷酸序列。扩增柄可以由DNA、RNA、PNA、修饰的碱基或这些碱基的组合或者聚酰胺等的聚合物形成。在一个实施方式中，扩增柄的长度为约10个这样的单体组分(例如，核苷酸碱基)。在其他实施方式中，扩增柄的长度为至少约5至100个单体组分(例如，核苷酸)。因此，在各种实施方式中，扩增柄由至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、80、91、92、93、94、95、96、97、98、99或最多100个单体组分(例如，核酸)的序列形成。在一个实施方式中，当存在于第一或另外的构建体寡核苷酸序列中时，根据意图用于扩增的技术，扩增柄可以相同或不同。在某些实施方式中，扩增柄可以是适合作为用于各种扩增技术的退火位点的通用序列。扩增技术包括但不限于基于DNA聚合酶的扩增系统，比如聚合酶链反应(PCR)、实时PCR、环介导等温扩增(LAMP、MALBAC)、链置换扩增(SDA)、多重置换扩增(MDA)、重组酶聚合酶扩增(RPA)和通过任何数量的DNA聚合酶(例如，T4 DNA聚合酶、Sulfulobus DNA聚合酶、Klenow DNA聚合酶、Bst聚合酶、Phi29聚合酶)的聚合以及基于RNA聚合酶的扩增系统(比如T7-RNA-聚合酶扩增、T3-RNA-聚合酶扩增和SP6-RNA-聚合酶扩增)、基于核酸序列的扩增(NASBA)、自主序列复制(3SR)、滚环扩增(RCA)、连接酶链反应(LCR)、解旋酶依赖性扩增(HDA)、分支扩增方法和RNA-seq ²³。参见，例如，参考文献27。

术语“条形码”或“构建体条形码”描述了限定的聚合物(例如，多核苷酸)，当它是聚合物构建体的功能要素时，该聚合物对单个配体是特异的。如本文描述的各种方法中所使用的，术语条形码可以是“细胞条形码”或“基板条形码”，其描述了特异性识别特定细胞或基板(例如，Drop-seq微珠)的限定的多核苷酸。在任一实施方式中，条形码可由DNA、RNA、修饰的碱基或这些碱基的组合以及上文限定的任何其他聚合物的限定序列形成。在一个实施方式中，条形码的长度为约2至4个单体组分(例如核苷酸碱基)。在其他实施方式中，条形码的长度为至少约1至100个单体组分(例如核苷酸)。因此，在各种实施方式中，条形码由至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、80、91、92、93、94、95、96、97、98、99或最多100个单体组分(例如核酸)的序列形成。

术语“独特分子标识符”(UMI)，也等同地称为“随机分子标签”(RMT)，是如上所述的聚合物的单体组分(例如核苷酸碱基)的随机序列，当它是聚合物构建体的功能要素时，它针对该聚合物构建体是特异的。UMI允许识别与之缔合的聚合物构建体/构建体寡核苷酸序列的扩增复制物。在本文的方法和组合物的描述中，一个或多个UMI可以与单个聚合物构建体/构建体寡核苷酸序列缔合。在组合物中UMI可以定位于条形码的5'或3'。在另一个实施方式中，作为所描述方法的一部分，UMI可以插入聚合物/构建体寡核苷酸序列中。在本文描述的方法的一个实施方式中，根据使用哪种RNA测序方法，在该方法期间添加UMI。然而，并非所有RNA-seq方法都利用UMI。在下面描述的单细胞液滴RNA测序的实施例中，在反转录期间引入另一个UMI。每个UMI针对其构建体寡核苷酸序列是特异的。因此，当组合物或方法包括多个“第一构建体”时，每个第一构建体仅在其UMI的序列上不同。每个另外的构建体也将具有其自己的UMI，该UMI不存在于重复的另外的构建体上或者不存在于在靶标、配体、条形码和锚特异性上彼此不同的另外的构建体上。与本文描述的各种方法中使用的类似，UMI可以与在特定测定形式中使用的聚合物(例如寡核苷酸或多核苷酸序列)缔合，或与固定在基板上的聚合物(例如寡核苷酸或多核苷酸)缔合。针对每个聚合物构建体(例如寡核苷酸或多核苷酸)的每个UMI不同于组合物或方法中使用的任何其他UMI。在任何实施方式中，UMI由DNA、RNA、修饰的碱基或这些碱基的组合或上文确认的聚合物的其他单体的随机序列形成。在一个实施方式中，UMI的长度为约8个单体组分(例如，核苷酸)。在其他实施方式中，每个UMI的长度可以为至少约1至100个单体组分，例如核苷酸。因此，在各种实施方式中，UMI由至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、80、91、92、93、94、95、96、97、98、99或至多100个单体组分(例如核酸)的随机序列形成。

如本文所用，术语“锚”是指限定的聚合物，例如多核苷酸或寡核苷酸序列，其被设计为与另一个寡核苷酸序列(例如捕获聚合物、捕获寡核苷酸、引物等)杂交。在聚合物构建体的一个实施方式中，设计锚用于产生双链构建体寡核苷酸序列的目的。在一些实施方式中，锚定位于寡核苷酸序列(例如，构建体寡核苷酸序列)的3'端。在其他实施方式中，锚定位于构建体寡核苷酸序列的5'端。在一些实施方式中，每个锚针对其意向的互补序列是特异的。例如，在某些实施方式中，锚被配置为与捕获寡核苷酸的3'端杂交使得捕获寡核苷酸的3'端充当可以在聚合酶存在下产生寡核苷酸的第二互补链的引物。在某些实施方式中，当组合物或方法包括多个“第一构建体”时，每个第一构建体具有相同的锚序列。在一个实施方式中，每个另外的锚具有不同的另外的序列，其与不同的互补序列杂交。在其他实施方式中，根据测定方法步骤，每个另外的锚可以具有与第一或其他构建体相同的锚序列。当在本文描述的各种方法中使用时，锚可以与游离的互补序列杂交或与固定在基板上的互补序列杂交。在某些实施方式中，锚可以由选定聚合物(例如，DNA、RNA、修饰的碱基或这些碱基的组合、PNA、聚酰胺等)的单体的序列形成。在一个实施方式中，锚的长度为约3至15个单体组分(例如核苷酸)。在其他实施方式中，每个锚的长度可以为至少约3至100个单体组分(例如，核苷酸)。在一些实施方式中，锚(在长度上)包括3至100、3至50、3至30、5至30、10至20、5至20或5至15个单体组分(例如，核苷酸)。在各种实施方式中，锚由至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、80、91、92、93、94、95、96、97、98、99或最多100个单体组分(例如，核酸)的序列形成。在一些实施方式中，并且如实施例中所示，锚序列包括多聚A序列或由多聚A序列组成。在某些实施方式中，多聚A序列包括核酸序列，该核酸序列包括10个或更多个(例如，10-40，10-30或10-20个)连续的腺苷核苷酸、腺苷核苷酸的衍生物或变体等，或其组合。在另一个实施方式中，锚序列包括多聚T序列或由多聚T序列组成。在另一个实施方式中，锚序列是多聚G序列。在又一个实施方式中，锚序列可以是随机序列，条件是它可以与其意向的互补序列(例如，捕获寡核苷酸、扩增引物等)杂交。例如，在一些实施方式中，本文描述的方法可以利用多个寡核苷酸(例如，包括与寡核苷酸连接的配体的多个构建体)，其中一些或所有寡核苷酸包括不同的锚(即，具有不同核酸序列的锚，或具有基本上不同的核酸序列的锚)。在一些实施方式中，本文描述的方法可以利用多个寡核苷酸(例如，包括与寡核苷酸连接的配体的多个构建体)，其中一些或全部寡核苷酸包括相同的锚。在一些实施方式中，本文描述的方法可以利用多个寡核苷酸(例如，包括与寡核苷酸连接的配体的多个构建体)，其中一些或全部寡核苷酸包括基本上相同的锚(例如，包括基本上相同的核酸序列)。在一些实施方式中，本文描述的方法可以利用多个寡核苷酸(例如，包括与寡核苷酸连接的配体的多个构建体)，其中一些或全部寡核苷酸包括含有多聚A序列的锚。在一些实施方式中，多个锚的多聚A序列基本上相同。如本领域技术人员所理解的，基本上相同的多聚A序列可以在长度上基本上不同。在一些实施方式中，多聚A序列(例如，锚的多聚A序列)是被配置为与多聚T序列(例如，包括多聚T序列的寡核苷酸或捕获寡核苷酸)杂交的核酸。如本领域技术人员所理解的，根据杂交条件，多聚A序列可以包括一个、两个、三个或四个非多聚A核苷酸并仍然有效地与多聚T序列杂交，从而提供包括一个、两个、三个或更多个错配的退火的多聚A-多聚T复合物。因此，在一些实施方式中，多聚A序列是包括至少70％，至少75％，至少80％，至少85％，至少90％，至少95％或100％腺苷核苷酸、腺苷类似物、腺苷变体或其组合的核酸序列。

在一些实施方式中，寡核苷酸包括多聚T序列。在一些实施方式中，捕获寡核苷酸包括多聚T序列(例如，3'多聚T序列)。在一些实施方式中，本文描述的方法可以利用多个寡核苷酸(例如，多个捕获寡核苷酸)，其中一些或所有寡核苷酸包括多聚T序列。在一些实施方式中，多个寡核苷酸的多聚T序列基本上相同。在一些实施方式中，多个捕获寡核苷酸(例如，多个不同的捕获寡核苷酸，例如，不同的珠特异性捕获寡核苷酸)包括基本上相同的多聚T序列。如本领域技术人员所理解的，基本上相同的多聚T序列可以在长度上基本上不同。在一些实施方式中，多聚T序列(在长度上)包括3至100、3至50、3至30、5至30、10至20、5至20或5至15个连续核苷酸(例如，核苷酸)。在某些实施方式中，多聚T序列包括含有3个或更多个、10个或更多个、3至100、3至50、3至30、5至30、10至20、5至20或5至15个连续的胸苷核苷酸、胸苷核苷酸的衍生物或变体等或其组合的核酸序列。在一些实施方式中，多聚T序列(例如，捕获寡核苷酸的多聚T序列)是配置成与多聚A序列杂交的核酸。如本领域技术人员所理解的，根据杂交条件，多聚T序列可以包括一个、两个、三个或四个非胸苷核苷酸并仍然有效地与多聚A序列杂交，从而提供包括一个、两个、三个或更多个错配的退火的多聚A-多聚T复合物。因此，在一些实施方式中，多聚T序列是包括至少70％，至少75％，至少80％，至少85％，至少90％，至少95％或100％胸苷核苷酸、胸苷类似物、胸苷变体或其组合的核酸序列。在一些实施方式中，多聚T序列包括一个或多个尿嘧啶核苷酸或其衍生物。

“捕获寡核苷酸(capture oligonucleotide)”或“捕获寡核苷酸(captureoligo)”或“捕获聚合物”是聚合序列，例如寡核苷酸，其至少包括与锚互补的序列。在一些实施方式中，捕获聚合物/寡核苷酸不是第一构建体或另外的构建体的一部分；相反，它是属于构建体-纯化试剂盒或mRNA-测序试剂盒的任何聚合序列或寡核苷酸。如本文所用，术语“互补序列”是指锚序列(或其他核酸，例如，引物或捕获寡核苷酸)意图与其杂交的序列，通常产生杂交的双链复合物。在聚合酶存在下，杂交的复合物通常可以在存在核酸模板的3'方向上延伸。因此，在某些实施方式中，与锚互补的序列可以与锚序列杂交，从而提供用于扩增和/或产生双链序列的引物。在某些实施方式中，捕获聚合物/寡核苷酸序列可以含有可用作扩增柄和可选地一个或多个独特分子标识符和条形码序列的序列。在下述方法中，捕获聚合物/寡核苷酸的延伸(伴随其互补序列与锚序列杂交)将条形码、UMI和扩增柄从第一构建体或另外的构建体复制到捕获聚合物/寡核苷酸上。在任何实施方式中，捕获聚合物/寡核苷酸及其互补序列可以由DNA、RNA、修饰的碱基或这些碱基的组合或如上文定义的任何其他聚合物组分形成。根据所涉及的测定步骤和预期的靶标，捕获序列可以在生物样品中是不受阻碍的或“游离”的。在一个实施方式中，捕获聚合物/寡核苷酸含有互补序列，该互补序列是设计用于参与扩增聚合物构建体/构建体寡核苷酸序列的引物序列。在另一个实施方式中，捕获序列固定在基板上。与锚序列类似，每个捕获序列的长度可以为至少约3至约100个单体单元(例如，核苷酸)。因此，在各种实施方式中，捕获序列或其互补序列由至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、80、91、92、93、94、95、96、97、98、99或最多100个单体单元(例如，核酸)的序列形成。在一个实施方式中，并且如实施例中所示，当锚序列是多聚A序列时，捕获寡核苷酸含有互补序列多聚T序列。在另一个实施方式中，捕获寡核苷酸含有多聚A序列。在又一个实施方式中，互补序列可以是无规聚合物，例如，寡核苷酸序列，条件是它可以与其意向的锚序列杂交。

本文中同义使用的术语“细胞散列标签化”、“细胞散列”或“散列标签化”是指标签化样品、样品内容物或源自相同的样品或来源(例如，从相同的受试者、相同的患者、相同的批次、相同的运行等获得的样品)的靶标的新方法，其中该样品意图后续与多个不同的样品混合用于复用。在一些实施方式中，散列标签化方法包括使样品的靶标与一个或多个构建体接触，该构建体包括识别样品的独特条形码。在散列标签化方法中使用两个或更多个构建体来标签化相同的样品的情况下，有时所有构建体包括相同的条形码。在一些实施方式中，其中在散列标签化方法中使用两个或更多个构建体来标签化相同的样品的情况下，所有构建体包括相同的扩增柄或基本上相同的扩增柄。用于散列标签化多个样品的靶标可以是相同或不同的靶标。在一些实施方式中，第一样品用第一构建体标签化，第二样品用第二构建体标签化，并且第三样品用第三构建体标签化，其中每个构建体被配置为与相同的靶标特异性结合，然而第一、第二和第三构建体中的每个包括基本上不同的可区分条形码。在洗去未结合的构建体后，可以合并样品用于使用本文描述的方法进一步分析。散列标签化允许每个样品和源自相同的样品的靶标的后续检测、跟踪和/或定量。

在一些实施方式中，如上所述的一个第一构建体用于标记样品中的所有细胞，然后合并多个细胞样品并且然后使用具有不同的扩增柄序列的其他这样的构建体实施其他scRNA seq或CITE-seq方法。在反转录时，细胞散列标签构建体的寡核苷酸部分被转化为“散列标签”，其能够将异质混合物中的每个细胞识别并指定至其各自的原始群体。因此，细胞-散列标签构建体用于识别特定样品的所有细胞的目的。细胞-散列标签构建体中的配体可以是针对广泛表达的蛋白质的抗体池或针对这样的蛋白质的单个抗体，或任何其他细胞结合配体。因为细胞散列标签的扩增柄序列与CITE-seq方法中使用的第一构建体或另外的构建体的扩增柄序列不同，所以可以通过CITE-seq方法跟踪所识别样品的个体细胞，该CITE-seq方法通常用于识别在差异表达特定细胞表面蛋白质的样品中的细胞。

术语“固定化”意为捕获聚合物/寡核苷酸序列与固体基板连接，经由通过电荷-电荷相互作用或疏水相互作用的物理吸附、共价键合、链霉亲和素-生物素相互作用或亲和偶联而导致移动性降低或丧失，参见，例如，参考文献28和29。

术语“基板”意为微粒(珠)、微流控微粒(珠)、载玻片、多孔板或芯片。基板是常规的，并且可以是玻璃、塑料或适用于特定测定或诊断方案的任何常规材料。参见，例如，参考文献1和31。

术语“一(a)”或“一(an)”是指一个或多个。例如，“表达盒”理解为代表一个或多个这样的盒。因此，术语“一(a)”(或“一(an)”)、“一个或多个”和“至少一个”在本文中可互换使用。

如本文所用，除非另有说明，否则术语“约”意为与给定参考值相差±10％的可变性。

词语“包括(comprise)”、“包括(comprises)”和“包括(comprising)”应以包括在内而不是排他性的方式解释，即包括其他未指定的组件或过程步骤。

词语“由......组成(consist)”、“由......组成(consisting)”及其变体应以排他性而不是包括在内的方式解释，即排除未具体叙述的组件或步骤。

如本文所用，短语“本质上由......组成”将所描述组合物或方法的范围限制于指定的材料或步骤和那些不会实质上影响所描述或要求保护的方法或组合物的基本和新颖特性的那些材料或步骤。在本说明书中，无论何处将方法或组合物描述为“包括”某些步骤或特征，其还意味着涵盖本质上由那些步骤或特征组成以及由那些步骤或特征组成的相同方法或组合物。

为了简单和易于理解，在整个说明书中，提供某些具体实施例以教导本文描述的组合物和方法的各种要素的构建、使用和操作。这样的具体实施例不旨在限制本说明书的范围。

II.组合物

用于本文描述的方法的组合物包括一个或多个构建体、第一构建体和另外的构建体，以及如上所述的各种选择的构建体组分。组合物的组分的选择将取决于所寻求的靶标的身份、采用的RNA测序和扩增方案以及测定方法的目的。在下面的方法部分中，例示的方法采用Drop-seq方法；然而，可以使用其他方法。使用的方法可以规定构成组合物的上述各种组分的选择和组成。因此，组合物的以下描述不是详尽的，并且本领域技术人员可以基于本文提供的教导设计许多不同的组合物。组合物还可以含有在合适的载体或赋形剂中的构建体。每个组合物的要素将取决于其将被采用的测定形式。

在一个实施方式中，组合物包括“第一”构建体，其包括通过连接体与聚合物构建体(例如构建体寡核苷酸序列)连接或缀合的“第一”配体。在该实施方式中，构建体寡核苷酸序列包括a)扩增柄；b)特异性识别第一配体的条形码；c)可选的独特分子标识符，其定位于邻近条形码的5'或3'端；和d)锚(例如，具有至少3个核苷酸)，其用于与包括与锚互补的序列的捕获寡核苷酸序列杂交。在一个实施方式中，第一配体与位于细胞中或细胞表面上的第一靶标(比如细胞表面抗原或表位)特异性结合。

在另一个实施方式中，组合物包括多个基本上相同的“第一”构建体，其中每个基本上相同的第一构建体与参考“第一”构建体的不同之处仅在于可选的独特分子标识符的序列或构建体中没有该独特分子标识符。组合物的又一个实施方式包括至少一个另外的构建体，其包括通过连接体与另外的构建体寡核苷酸序列连接或缀合的另外的配体，另外的配体与位于细胞中或细胞表面上的另外的靶标特异性结合，并且另外的构建体寡核苷酸序列包括：a)扩增柄；b)特异性识别另外的配体的另外的条形码；c)可选的另外的独特分子标识符，其定位于邻近另外的条形码的5'或3'端；和d)具有至少3个核苷酸的锚，其用于与互补序列杂交。在一个实施方式中，扩增柄或锚也与组合物中任何其他构建体中的相应组分不同。具体标识为“另外的”组分的组分不同于组合物中任何其他构建体中的相应组分。在另一个实施方式中，组合物包括多个基本上相同的“另外的”构建体，其中每个基本上相同的另外的构建体与参考“另外的”构建体的不同之处仅在于可选的独特分子标识符的序列或构建体中没有独特分子标识符。单个组合物中构建体的数量仅受期望识别和/或量化的靶标的数量的限制。

如下面实施例中所描述的，在一个特定组合物中，第一配体或另外的配体是抗体或抗体片段，并且第一靶标或另外的靶标是细胞表面表位。在另一个特定组合物中，第一配体或另外的配体是抗体或抗体片段，并且第一靶标或另外的靶标是细胞内蛋白质。可以用如上面讨论的配体和靶标的各种组合制备任何数量的组合物。例如，细胞散列标签构建体优选使用靶向广泛表达的细胞蛋白质的配体，其基于如本文描述的这些构建体相比于CITE-seq构建体的预期用途的差异。

在另一个组合物中，第一构建体包括通过连接体与构建体寡核苷酸序列连接或缀合的第一抗体或其片段，第一抗体或其片段与位于细胞表面的第一表位序列特异性结合，并且构建体寡核苷酸序列包括：扩增柄；特异性识别第一抗体或片段的条形码；可选的独特分子标识符，其定位于邻近条形码的5'或3'端；和具有至少3个核苷酸的多聚A锚序列，其用于与多聚T序列杂交。这种类型的组合物是特别合适的，其中互补的多聚T序列固定在基板(例如，微流控珠)上。如下面实施例中所描述的，该组合物的构建体含有连接体，该连接体包括通过二硫键与构建体寡核苷酸序列的5'端结合的生物素；和与抗体或抗体片段融合的链霉亲和素。可以设计另一个组合物，其含有多个这些第一构建体，它们的不同之处仅在于可选的独特分子标识符的序列或构建体中没有独特分子标识符。

在又进一步的实施方式中，组合物含有至少一个另外的构建体，其包括至少一个与位于细胞中或细胞表面上的另外的表位特异性结合的另外的抗体或其片段。另外的抗体或片段通过连接体与另外的构建体寡核苷酸序列缀合，其中另外的构建体寡核苷酸序列从5'至3'包括：扩增柄；另外的条形码序列，其从辨识另外的表位的任何其他抗体或片段中特异性识别该另外的抗体或片段；可选的另外的独特分子标识符序列，其定位于邻近条形码的5'或3'端；和具有至少3个核苷酸的多聚A序列，其被设计用于与多聚T序列杂交，其中该另外的组分不同于任何其他构建体中的相应组分。在另一个实施方式中，扩增柄或锚与组合物中任何其他构建体中的相应组分不同。

另一个示例性特定组合物含有抗体模拟物作为第一配体，并且第一靶标是存在于活检组织的生物样品中的细胞内表达蛋白质。第一构建体包括抗体模拟物，其被设计用于与靶蛋白结合，该靶蛋白与构建体寡核苷酸序列通过连接体(例如二硫键连接体)共价连接。构建体寡核苷酸序列以5'至3'的顺序包括：扩增柄；特异性识别第一抗体模拟物的条形码；定位于邻近条形码的5'端的UMI；和多聚A锚序列。该组合物还含有一个或多个基本上相同的第一构建体，其中每个基本上相同的第一构建体与参考“第一构建体”的不同之处在于含有UMI的不同序列。在一个实施方式中，基本上相同的构建体不含UMI。

在又进一步的示例性实施方式中，组合物含有两个另外的构建体。每个另外的构建体包括不同的抗体模拟物，其特异性结合活检组织样品中存在的不同蛋白质。两个另外的构建体中的每个包括通过连接体与其另外的构建体寡核苷酸序列缀合的抗体模拟物。每个连接体可以是如上面教导的可选的化学结构。在一个这样的另外的构建体中，构建体寡核苷酸序列从3'至5'包括：扩增柄；条形码序列，其从辨识来自第一构建体的不同蛋白质靶标的任何其他抗体或片段中特异性识别该另外的抗体模拟物；和另外的不同UMI序列，其定位于邻近条形码的3'端；以及具有至少5个核苷酸的多聚A序列，其被设计用于与多聚T序列杂交。在另一个实施方式中，第二另外的构建体从5'至3'包括：扩增柄；条形码序列，其特异性识别抗体模拟物，该抗体模拟物不同于第一构建体和第一另外的构建体的抗体模拟物，并且其辨识不同于第一构建体或第一另外的构建体的第三蛋白质靶标。该第二另外的构建体不含UMI但含有具有至少3个核苷酸的多聚A序列，其被设计用于与多聚T序列杂交。这两个另外的构建体具有靶标、抗体模拟配体、条形码和UMI(如果存在)，它们的相应组分彼此不同，并且与“第一”构建体和组合物中存在的任何基本上相同的“第一”构建体中的相应组分不同。应进一步理解，如上所述，组合物还可以具有一个或多个基本上相同的另外的构建体，其与参考另外的构建体在UMI上不同。

如上所述的许多其他类型的配体、靶标、样品、UMI和条形码可用于产生如本文描述的各种各样的组合物。

还提供了含有组合物的试剂盒。根据组合物将与之一起使用的扩增和分析方法和方案，这样的试剂盒将含有一个或多个第一构建体或另外的构建体、一个或多个防腐剂、稳定剂或缓冲剂，以及这样的合适的测定和扩增试剂。试剂盒中的还有其他组分包括用于切割连接体的可选试剂、洗涤缓冲液、封闭溶液、裂解缓冲液和封装溶液、可检测标记、固定化基板、用于酶标记的可选的基板，以及其他实验室项目。

III.组合物的使用方法

通过采用任何数量的用于检测的测定和方法，上述组合物和试剂盒可用于不同环境中以检测不同的靶标或者总体的靶标。

在一个实施方式中，用于检测生物样品中的一个或多个靶标的方法使用本文描述的组合物。该方法包括使生物样品与一个或多个上述组合物接触的步骤。在一个实施方式中，使样品与包括第一构建体的组合物接触，该第一构建体具有通过连接体与聚合物构建体(例如，构建体寡核苷酸序列)连接或缀合的第一配体。在一个实施方式中，第一配体与位于细胞中或细胞表面上的第一靶标(比如细胞表面表位)特异性结合。构建体寡核苷酸序列包括：扩增柄；特异性识别第一配体的条形码；可选的独特分子标识符，其定位于邻近条形码的5'或3'端；和锚，其用于与互补序列杂交以产生双链寡核苷酸序列。在另一个实施方式中，使生物样品与包括基本上相同的“第一”构建体的组合物接触，其中每个基本上相同的第一构建体与参考“第一”构建体的不同之处仅在于可选的UMI的序列或构建体中没有UMI。因此，生物样品与多个针对相同的细胞表面表位靶标的配体接触。

在该方法的又另一个实施方式中，使样品与上述第一构建体(或多个第一构建体)接触；和包括至少一个另外的构建体的组合物。另外的配体通过连接体与另外的构建体寡核苷酸序列共价连接或缀合，另外的配体与位于细胞中或细胞表面上的另外的靶标特异性结合。因此，在一个实施方式中，另外的靶标是不同的细胞表面表位。另外的构建体寡核苷酸序列包括：扩增柄；特异性识别另外的配体的另外的条形码；可选的另外的独特分子标识符，其定位于邻近另外的条形码的5'或3'端；和具有至少3个核苷酸的锚，其用于与互补序列杂交以产生双链寡核苷酸序列，其中另外的组分与组合物中任何其他构建体中的相应组分不同。在又一个实施方式中，扩增柄或锚与组合物中任何其他构建体中的相应组分不同。应当理解，在该实施方式中，可以如上所述设计任何数量的另外的构建体以根据需要结合尽可能多的细胞表位，这仅受配体的选择和数量限制。如本文描述的，在另一个实施方式中，组合物可以含有一个或多个基本上相同的“另外的”构建体，其中每个基本上相同的另外的构建体与参考“另外的”构建体的不同之处仅在于可选的UMI的序列或构建体中没有UMI。

在这样的方法中，在生物样品中的细胞与第一构建体中的第一配体和另外的构建体中所需数量的另外的配体之间发生接触和结合之后，洗涤生物样品以除去未结合的构建体，如果有的话。然后针对与其靶表位结合的每个构建体，将锚序列与其相应的捕获寡核苷酸互补序列杂交。这可以通过添加引物作为捕获互补序列或固定在基板(比如珠、载玻片、多孔板或芯片)上的捕获寡核苷酸互补序列而发生。在某些实施方式中，互补序列的5'端进一步包括：另外的扩增柄；特异性识别捕获寡核苷酸序列与之结合的基板的另外的条形码；和可选的另外的独特分子标识符，其定位于邻近另外的条形码的5'或3'端，识别每个捕获寡核苷酸序列。

一旦具有其互补序列的捕获寡核苷酸存在于样品中，就可以发生双链寡核苷酸序列的产生。在某些实施方式中，该方法还包括可选地将一个或多个UMI插入到邻近条形码的5'或3'端的位置或任何其他部分，条件是插入不妨碍锚杂交之前或之后构建体寡核苷酸序列的组分的功能。

在一个实施方式中，检测方法包括检测来自每个第一构建体和另外的构建体的构建体条形码序列，以鉴定生物样品是否表达或含有第一靶标(例如，表位)、另外的靶标(例如，一个或多个另外的细胞表面表位)或第一靶标和另外的靶标的组合(例如，多个不同的表位)。

在这种检测方法的又一个实施方式中，通过检测相应构建体条形码的量来确定生物样品中第一靶标或另外的靶标的表达水平。在一个实施方式中，通过归一化至任一个独特分子标识符的量或者两个或更多个独特分子标识符的平均量来进行检测。

该方法的各种实施方式可以包括在洗涤步骤之前向生物样品中仅添加含有第一构建体的组合物，或者同时或顺序添加含有另外的构建体的组合物。进一步的方法步骤可以包括在接触步骤之前或在洗涤步骤之后将生物样品分离成个体细胞或细胞群。另一步骤涉及延伸与锚序列杂交的捕获寡核苷酸，以将构建体条形码、UMI和扩增柄复制到双链序列上。在锚杂交和/或插入UMI后，在锚和与扩增柄退火的引物杂交后也可以产生双链寡核苷酸序列。

在一些实施方式中，寡核苷酸包括一个或多个条形码。任何合适的条形码可用于本文描述的组合物或方法。条形码通常包括或由相对短的核酸序列组成，例如，2至50、2至30、2至20、2至15、10-20、4至15或2至5个连续核苷酸，其中条形码的核苷酸序列对于核酸、寡核苷酸、寡核苷酸群(例如，多个基本上相同的寡核苷酸)、基本上相同的构建体群、样品、样品源、配体、批次、运行或其组合是独特的。例如，对于与第一配体连接的寡核苷酸是独特的条形码可用于在检测条形码序列后(例如，通过测序或其他合适的方法)鉴定第一配体的存在或量。因此，对于与第一配体连接的寡核苷酸是独特的条形码可用于特异性识别在包括其他配体、其他核酸、其他寡核苷酸和其他条形码的多重样品中的配体(例如，第一配体、第二配体或另外的配体)的存在、量或不存在。这样的条形码可以称为“配体特异性”条形码，或特异性识别配体(例如，第一配体或任何特定配体)的条形码。类似地，对于寡核苷酸、样品、珠、批次或运行是独特的条形码可用于特异性识别在包括多个其他寡核苷酸、样品、珠、批次或运行的多重样品中的特定寡核苷酸、样品、珠、批次或运行。可用于特异性识别样品的条形码可以称为“样品特异性”条形码，或者特异性识别样品的条形码。可用于特异性识别珠的条形码可以称为“珠特异性”条形码，或特异性识别珠的条形码。可用于特异性识别寡核苷酸或核酸的条形码可以分别称为“寡核苷酸特异性”条形码或“核酸特异性”条形码。在一些实施方式中，寡核苷酸包括独特分子标识符(UMI)。在某些实施方式中，UMI包括独特条形码，该独特条形码从本文描述的组合物或方法中使用的所有其他寡核苷酸中特异性识别个体寡核苷酸。

在一些实施方式中，可以使用本文描述的方法和组合物来确定样品、靶标、构建体或寡核苷酸的存在、量或不存在。在一些实施方式中，在多重测定中确定样品、靶标、构建体或寡核苷酸的量包括确定样品、靶标、构建体或寡核苷酸的绝对量、近似量、平均量(mean)、平均量(average)或相对量。因此，在某些实施方式中，本文描述的方法和组合物可用于在多重测定中定量样品、靶标、构建体或寡核苷酸的量。

在一些实施方式中，寡核苷酸包括扩增柄。任何合适的扩增柄可用于本文描述的组合物或方法。在一些实施方式中，扩增柄包括相对短长度的连续氨基酸，其整合到本文描述的寡核苷酸或核酸中。扩增柄可以是任何合适的长度。在一些实施方式中，扩增柄的长度为5至50、5至40、5至35、5至25或5至15个核苷酸。在某些实施方式中，扩增柄用于核酸的捕获和/或扩增和/或测序。扩增柄可以包括适合于引物结合、捕获、通过聚合酶延伸和/或通过聚合酶扩增的任何核酸序列。在一些实施方式中，扩增柄包括引物结合位点。在一些实施方式中，引物包括与扩增柄基本上相同的核酸序列。在某些实施方式中，寡核苷酸包括插入的核酸，其侧翼为5'和3'扩增柄或其互补物，其中侧翼扩增柄有助于插入的核酸的扩增。

该方法的另一种变化涉及在锚与互补序列杂交之前或之后从构建体切割配体。又另一个实施方式涉及在需要时裂解细胞。在各种实施方式中，裂解技术可以涉及将细胞暴露于洗涤剂、洗涤剂-缓冲溶液，比如RIPA缓冲液、IP-裂解缓冲液、M-PER或B-PER试剂溶液(Pierce Chemical)等。配体-寡核苷酸构建体可以与除了细胞表面抗体以外的靶标和除了本文讨论的抗体以外的配体一起使用。

进一步的实施方式涉及在接触步骤之前或在与第一构建体或另外的构建体顺序接触步骤之间的细胞透化和可选的固定程序。在各种实施方式中，透化技术可以涉及将生物样品暴露于有机溶剂(例如但不限于甲醇和丙酮)、洗涤剂(比如Saponin^TM、Triton X-100^TM和Tween-20^TM)、其他对于本领域技术人员而言可用的试剂(比如锌盐溶液³²、eBioscience^TM Intracellular Fixation&Permeabilization Buffer Set和FIX&Cell Fixation&Cell Permeabilization Kit)及其任意组合。在透化之前或期间，固定步骤是可选的。固定技术是本领域技术人员已知的，例如使生物样品与含有交联固定剂(比如甲醛、戊二醛和其他醛)的溶液接触，沉淀固定剂(比如甲醇、乙醇、丙酮和乙酸)、氧化剂(比如四氧化锇、重铬酸钾、铬酸和高锰酸钾)、汞剂、苦味酸盐、Hepes-谷氨酸缓冲介导的有机溶剂保护效应(HOPE)固定剂、2,4,6-三甲基吡啶、eBioscience^TM IntracellularFixation&Permeabilization Buffer Set、FIX&/>Cell Fixation&CellPermeabilization Kit或其任何组合。在又进一步的实施方式中，涉及在透化后检索足够数量和质量的构建体、DNA或RNA的另外的步骤。例如，参见参考文献33。

此外，这些方法可以采用检测方案，包括但不限于PCR、免疫PCR ¹⁵和邻近连接或邻近延伸测定¹⁶方案、PEA²⁶、RCA²⁵、测序和荧光杂交方案。

在又进一步的实施方式中，该方法是高通量方法。在一个实施方式中，本文描述的组合物用于高通量方案，比如以下。用于检测生物样品中的一个或多个表位的高通量方法可以采用含有相同或不同的样品的数百或数千个孔。该方法包括使生物样品与包括第一构建体的组合物接触，该第一构建体包括与第一表位特异性结合的第一抗体或其片段，第一抗体或片段通过连接体与构建体寡核苷酸序列连接或缀合，其中构建体寡核苷酸序列包括：扩增柄；条形码序列，其从辨识不同表位的任何其他抗体或片段中特异性识别第一抗体或片段；可选的独特分子标识符序列，其定位于邻近条形码的5'或3'端；和锚序列(例如，具有至少3个核苷酸)，其用于与互补序列杂交以产生双链寡核苷酸序列。

在类似的实施方式中，组合物包括一个或多个基本上相同的构建体，其中每个基本上相同的第一构建体与参考(例如，“第一”或“另外的”)构建体的不同之处仅在于可选的独特分子标识符的序列或没有独特分子标识符。在另一个实施方式中，组合物包括至少一个另外的构建体，其包括通过连接体与另外的构建体寡核苷酸序列连接或缀合的另外的抗体或其片段。另外的抗体或其片段与另外的表位特异性结合。另外的构建体寡核苷酸序列包括：相同或不同的扩增柄；特异性识别另外的抗体或其片段的另外的条形码；可选的另外的独特分子标识符，其定位于邻近另外的条形码的5'或3'端；和相同或不同的锚，其中另外的靶标和另外的抗体或片段配体、可选的UMI和另外的条形码组分与组合物中任何其他构建体的相应组分不同。

高通量方案还涉及洗涤生物样品以除去未结合的构建体；将构建体寡核苷酸序列通过它们各自的锚与相应的互补序列退火并产生双链寡核苷酸序列。在锚杂交之前或之后，还可以可选地将UMI插入到邻近条形码的5'或3'端的位置。

此后，这样的方法涉及检测构建体条形码序列以鉴定生物样品(或存在于各个孔中的样品)是否表达或含有第一靶标、另外的靶标，或第一靶标和另外的靶标的组合。可替换地，生物样品中第一靶标或另外的靶标的表达水平通过检测相应条形码的量而产生。在一个实施方式中，所述检测通过归一化为独特分子标识符的量或两个或更多个独特分子标识符的平均量来进行。

高通量方法还可以包括在洗涤步骤之前向生物样品中同时或顺序添加一个或多个第一构建体和另外的构建体。该方法还可以包括在洗涤后将与一个或多个第一构建体或另外的构建体结合的生物样品分离成个体细胞或细胞群；和用与扩增柄退火的引物扩增双链寡核苷酸序列。可以包括与检测中使用的测定方案协调的组合物的任何其他参数。

在下面的实施例中讨论了在靶标检测方法中使用本文描述的组合物的又一个具体实施方式。本文描述的组合物被设计并用来克服目前存在的用于检测和/或测量单细胞中的RNA转录物和蛋白质的方法(即，液滴技术)的限制。被称为通过测序的转录组和表位的细胞索引(CITE-seq)的方法使用本文描述的组合物来以高通量方式同时表征来自相同细胞的转录组和可能无限数量的细胞表面标志物。它将无偏差的全基因组表达谱与使用液滴微流控测量数千个单细胞中的特定蛋白质标志物相结合。除了向单细胞转录组数据添加额外维度之外，还可以使用该组合物。该方法提供了更详细的细胞群的表征，但也允许以前所未有的深度研究单细胞中转录后(和翻译后)基因调控。

如下面详细描述的，采用混合的人和小鼠细胞的悬浮液和Drop-seq方案，伴随包括单克隆抗体作为构建体配体的构建体，该构建体配体与含有独特抗体标识符序列(条形码)的构建体寡核苷酸连接。用配体-寡核苷酸序列构建体(在这些情况下是寡核苷酸标签化的抗体)标记细胞悬浮液，并且随后在微流控装置中将单细胞封装成纳升大小的水滴。在每个液滴中，抗体和cDNA分子用相同的独特条形码索引并转化成文库，该文库被独立地扩增并以适当的比例混合用于在相同泳道中测序。如下面实施例中所报道的，发明人能够基于人和小鼠细胞的种类特异性细胞表面蛋白质并且独立地基于它们的转录组来明确地识别人和小鼠细胞。

通过在不同实验室环境中对微型液滴实施CITE-seq，利用高信息含量单细胞转录组学和蛋白质组学分析可以理解细胞过程和疾病状态。作为一个实施方式，该CITE-seq方法可用于表征造血系统。CITE-seq允许通过同时测量基因表达水平和细胞表面蛋白质来深入表征单细胞，其具有高度可扩展性，仅受到可获得的特异性抗体数量的限制，并且与其他单细胞测序系统兼容。在这样的已知的单细胞测序平台中，适合与本文描述的组合物和方法整合的是Drop-seq方法，包括但不限于微流控方法、基于板的方法或微孔方法、Seq-Well^TM方法³⁵和基本方案的改编方案，以及InDrop^TM方法²(1 Cell Bio)。在另一个实施方式中，适合与本文描述的组合物和方法整合的单细胞测序平台是10x genomics single cell3’solution(www.10xgenomics.com/single-cell/)³，或single cell V(D)J solution(www.10xgenomics.com/vdj/，在Chromium控制器或专用的Chromium单细胞控制器上运行)。用于与本文描述的CITE-seq组合的还有其他有用的测序方案包括Wafergen iCell8^TM方法^3,38-40(www.wafergen.com/products/icell8-single-cell-system)；Microwell-seq方法⁴¹、Fluidigm C1^TM方法^42-44和等效的单细胞产物。可与本文描述的组合物和方法一起使用的还有其他已知测序方案包括BD Resolve^TM单细胞分析平台³⁷(源自Cyto-seq)和ddSeq⁶(来自Bio-/>SureCell^TM WTA 3′Library Prep Kit for the ddSEQ^TMSystem，2017，出版号1070-2016-014-B，Illumina Inc.,Bio-Rad Laboratories,Inc.)。在还有其他实施方式中，本文描述的组合物和方法可与基于组合索引的方法(sci-RNA-seq^TM方法²⁰或SPLiT-seq^TM方法³⁰)和空间转录组学，或可相比的空间分辨测序方法³⁶一起使用。本文描述的方法和组合物还可以用作针对标准索引分选(FACS)和基于mRNA测序的方法的附加信息层。在一个实施方式中，例如，标准FACS组用可通过基于板的测序检测到的其他CITE-seq标签化的抗体补充。还有其他测序方案可以与本文具体描述的组合物和方法组合。

任何合适的核酸测序方法可用于测序本文描述的核酸和/或检测本文描述的各种核酸、构建体、靶标、寡核苷酸、扩增产物和条形码的存在、不存在或量。

因此，通过同时检测位于细胞中或细胞上的一个或多个表位和转录组来表征细胞的高通量方法涉及使含有细胞的生物样品与一个或多个上述组合物接触。在一个实施方式中，组合物包括与位于细胞中或细胞表面上的第一表位特异性结合的第一抗体或其片段，第一抗体或片段通过连接体与构建体寡核苷酸序列缀合，其中构建体寡核苷酸序列包括：扩增柄；条形码序列，其从辨识不同表位的任何其他抗体或片段中特异性识别第一抗体或片段；可选的独特分子标识符序列，其定位于邻近条形码的5'或3'端；和具有至少3个核苷酸的多聚A序列，其设计用于与固定在微流控珠上的多聚T序列杂交。在另一个实施方式中，组合物包括一个或多个基本上相同的“第一”构建体，其中每个基本上相同的第一构建体与参考“第一”构建体的不同之处仅在于可选的独特分子标识符的序列或没有独特分子标识符。

在又另一个实施方式中，组合物进一步包括至少一个另外的构建体，其包括通过连接体与另外的构建体寡核苷酸序列缀合的另外的抗体或其片段，另外的抗体或其片段与另外的表位特异性结合，并且另外的构建体寡核苷酸序列从5'至3'包括：扩增柄；特异性识别另外的抗体或其片段的另外的条形码；可选的另外的独特分子标识符，其定位于邻近另外的条形码的5'或3'端；和锚，其中另外的组分不同于组合物中任何其他构建体中的相应组分。在洗涤步骤之前可以将组合物同时或顺序添加到生物样品中。在另一个实施方式中，组合物包括一个或多个基本上相同的“另外的”构建体，其中每个基本上相同的另外的构建体与参考“另外的”构建体的不同之处仅在于可选的独特分子标识符的序列或没有独特分子标识符。

在这样的方法中，将与一个或多个构建体结合的个体单细胞与一个珠封装到水滴中，其中每个珠与包括含有3'多聚T序列的独特细胞条形码序列的构建体缀合。使每个液滴中的单细胞裂解，其中细胞中的mRNA和来自抗体或片段的构建体寡核苷酸与珠的多聚T序列退火。从与珠退火的序列产生含有细胞条形码序列的双链cDNA和细胞mRNA的反转录物，以及含有细胞条形码序列和构建体寡核苷酸序列的双链DNA。该方法还可以包括在退火或杂交步骤之前或之后可选地将一个或多个独特分子标识符插入到邻近另外的条形码的5'或3'端的位置的步骤。

此外，这样的方法涉及通过扩增创建含有来自靶细胞的转录组的cDNA和含有构建体寡核苷酸序列的DNA的文库。在一个实施方式中，检测构建体条形码序列以鉴定单细胞是否表达第一表位。在该方法的另一个实施方式中，通过检测构建体条形码的量来确定单细胞中第一表位的表达水平。在该方法的又一个实施方式中，通过归一化任何独特分子标识符的量或者两个或更多个独特分子标识符的平均量来进行检测。基本上同时，将文库的转录组与通过结合和识别第一构建体和/或另外的构建体而识别的细胞相关联。

考虑到使用本文提供的教导可以在构建体中产生的变体的数量，可以使用采用这些组合物的许多其他方法用于快速和复杂的靶标识别。

为了有助于定义细胞的表型，必须了解特定表面蛋白质标志物的存在与否和/或这些标志物的翻译后修饰。如下面的实施例中所展示的，本文描述的组合物和方法在一个方面提供了基于测序的方法，该方法将公认的蛋白质标志物的高度多重的基于配体(例如，基于抗体)的检测与数千个单细胞的并行无偏差转录组分析相结合。具体地，这些实施例展示了一种新方法，其可以并行地分析数千个细胞上的许多靶标(例如，细胞标志物)和单细胞转录组。这些组合物和方法允许以大的和意想不到的规模和详细度进行采集点(point-of-collection)细胞和单细胞分析。

在进一步的实施方式中，作为本文描述的任何方法的另外的步骤，可以首先通过以下进行细胞-散列标签化步骤：用相同的“第一构建体”标记待分析的样品中的每个细胞，然后合并多个这样的散列标签化的样品用于进一步分析。进一步分析包括通过本文描述的任何方法进行分析。细胞散列标签构建体的寡核苷酸部分，特别是扩增柄序列，与在“进一步的”分析方法中使用的那些不同，其允许经受那些方法的样品的细胞散列标签化。在合并经受另外的分析的样品之前进行的这种“散列标签化”方法具有若干优点。复用能够节省成本和控制批次效应(例如，同时进行处理/未处理的过程)。细胞散列标签构建体允许明确地确定大多数双联体。最后，这两个优点的结合允许我们使基于液滴的scRNA-seq实验极大地过载(即，每个泳道使用20,000个细胞，而不是4,000个细胞)，从而降低实验成本并增加实验产生的信息。该散列标签化实施方式可用于复用相同基因型的样品，而无需对样品进行基因分型。

在更进一步的实施方式中，散列标签化方法可以扩展到条形码编码或识别细胞核以及其他细胞组件。

更进一步的实施方式如以下“Al”至“E36”。

Al.一种包括第一构建体的组合物，该第一构建体包括通过连接体与聚合物构建体连接或缀合的第一配体，所述第一配体与第一靶标特异性结合，并且所述聚合物构建体包括：

a)扩增柄；

b)特异性识别所述第一配体的条形码；

c)可选的独特分子标识符，其定位于邻近条形码的5'或3'端；和

d)锚，其用于与包括与所述锚互补的序列的捕获序列杂交。A2.根据实施方式A1所述的组合物，其包括至少一个另外的构建体，该构建体包括通过连接体与另外的聚合物构建体连接或缀合的另外的配体，所述另外的配体与另外的靶标特异性结合，并且所述另外的聚合物构建体包括：

a)扩增柄；

b)特异性识别所述另外的配体的另外的条形码；

c)可选的另外的独特分子标识符，其定位于邻近另外的条形码的5'或3'端，和

d)具有至少3个核苷酸的锚，其用于与包括与所述锚互补的序列的捕获序列杂交。

A3.根据实施方式A2所述的组合物，其中每个另外的构建体的所述另外的配体、另外的靶标、另外的条形码和另外的UMI组分不同于组合物中任何其他构建体中的相应组分。

A4.根据实施方式A1至A3中任一项所述的组合物，其包括一个或多个基本上相同的构建体，每个基本上相同的构建体与单个参考构建体的不同之处仅在于其可选的独特分子标识符(UMI)的序列或没有参考构建体的UMI。

A5.根据实施方式A1至A4中任一项所述的组合物，其中所述第一配体或另外的配体独立地是任何天然存在的、重组的或合成的生物或化学分子。

A6.根据实施方式A1至A5中任一项所述的组合物，其中所述第一靶标或另外的靶标独立地是在细胞表面上或细胞内表达的任何生物或化学分子。

A7.根据实施方式A5或A6中任一项所述的组合物，其中所述生物或化学分子独立地选自肽、蛋白质、抗体或抗体片段、亲和体、核糖核酸序列或脱氧核糖核酸序列、适体、脂质、多糖、凝集素或由多个相同或不同的所述第一配体或靶标形成的嵌合分子。

A8.根据实施方式A1至A7中任一项所述的组合物，其中所述第一配体是天然存在的、合成的或重组的抗体、抗体片段或亲和体，并且所述第一靶标是位于细胞中或细胞表面上的表位。

A9.根据实施方式A1至A8中任一项所述的组合物，其中所述扩增柄是具有约10个核苷酸碱基的多核苷酸序列，其提供用于扩增聚合物构建体的退火位点。

A10.根据实施方式A1至A9中任一项所述的组合物，其中条形码是针对单个第一配体或另外的配体特异的具有至少2个核苷酸碱基的限定多核苷酸序列。

A11.根据实施方式A1至A10中任一项所述的组合物，其中独特分子标识符是具有约8个核苷酸碱基的随机核酸序列，其允许识别所述聚合物构建体的复制物。

A12.根据实施方式A1至A11中任一项所述的组合物，其中锚是具有至少3个核苷酸碱基的多核苷酸或寡核苷酸序列，其与其捕获序列的互补序列杂交。

A13.根据实施方式A12所述的组合物，其中所述锚序列是多聚A序列或多聚T序列，或随机寡核苷酸序列。

A14.根据实施方式A1至A13中任一项所述的组合物，其中所述捕获寡核苷酸序列包括与第一构建体或另外的构建体的锚序列互补的序列。

A15.根据实施方式A14所述的组合物，其中所述捕获寡核苷酸序列进一步包括一个或多个扩增柄序列、UMI和它自己的条形码序列。

A16.根据实施方式A1至A15中任一项所述的组合物，其中所述捕获序列通过共价连接、通过电荷-电荷相互作用或疏水相互作用的物理吸附、链霉亲和素-生物素相互作用或亲和偶联而固定于固体基板上。

A17.根据实施方式A16所述的组合物，其中所述基板是珠、微流控珠、载玻片、多孔板或芯片。

A18.根据实施方式A1至A17中任一项所述的组合物，其中所述捕获互补序列是设计用于参与扩增构建体寡核苷酸序列的游离序列或引物序列。

A19.根据实施方式A1所述的组合物，其中第一构建体包括通过连接体与聚合物构建体连接或缀合的第一抗体或其片段，所述第一抗体或其片段与位于细胞表面的第一表位序列特异性结合，并且所述聚合物构建体包括：

a)扩增柄；

b)特异性识别所述第一抗体或片段的条形码；

d)具有至少3个核苷酸的多聚A锚序列，其用于与捕获多聚T序列杂交。

A20.根据实施方式A19所述的组合物，其中所述捕获序列固定在微流控珠上。

A21.根据实施方式A19所述的组合物，其中连接体包括通过二硫键与聚合物构建体的5'端结合的生物素；和与抗体或抗体片段融合的链霉亲和素。

A22.根据实施方式A19至A21中任一项所述的组合物，其包括至少一个另外的构建体，该另外的构建体包括至少一个与位于细胞中或细胞表面上的另外的表位特异性结合的另外的抗体或其片段，所述另外的抗体或片段通过连接体与另外的聚合物构建体缀合，其中另外的聚合物构建体包括：

a)扩增柄；

b)另外的条形码序列，其从辨识不同表位的任何其他抗体或片段中特异性识别所述另外的抗体或片段，

c)可选的另外的独特分子标识符序列，其定位于邻近条形码的5'或3'端，和

d)捕获序列，其包括被设计用于与多聚T序列杂交的具有至少3个核苷酸的多聚A序列，

其中所述另外的抗体、另外的表位、另外的条形码和另外的UMI组分不同于组合物中任何其他构建体中的相应组分。

A23.根据实施方式A19至A22中任一项所述的组合物，其包括一个或多个基本上相同的构建体，其中每个基本上相同的构建体与组合物中的任何其他参考构建体的不同之处在于具有不同的可选的独特分子标识符或没有可选的独特分子标识符。

A24.根据实施方式A1至A23中任一项所述的组合物，其进一步包括在合适制剂中的一个或多个防腐剂、稳定剂、缓冲剂。

A25.一种试剂盒，其包括一个或多个实施方式A1至A24所述的组合物和可选的试剂，该试剂包括用于切割连接体的试剂、洗涤缓冲液、封闭溶液、裂解缓冲液、封装溶液。

A26.一种用于检测生物样品中的一个或多个靶标的方法，该方法包括使生物样品与以下中的一个或多个接触：

a.包括第一构建体的组合物，该第一构建体包括通过连接体与聚合物构建体连接或缀合的第一配体，所述第一配体特异性结合第一靶标，并且所述聚合物构建体包括：扩增柄；特异性识别所述第一配体的条形码；可选的独特分子标识符，其定位于邻近条形码的5'或3'端；和锚，其用于与包括与所述锚互补的序列的捕获序列杂交；

b.包括至少一个另外的构建体的组合物，该构建体包括通过连接体与另外的聚合物构建体连接或缀合的另外的配体，所述另外的配体与另外的靶标特异性结合，并且所述另外的聚合物构建体包括扩增柄；特异性识别所述另外的配体的另外的条形码；可选的另外的独特分子标识符，其定位于邻近另外的条形码的5'或3'端；和用于与包括与所述锚互补的序列的捕获序列杂交的锚；和

c.包括一个或多个基本上相同的构建体的组合物，每个基本上相同的构建体与任何其他参考第一构建体或另外的构建体的不同之处在于其可选的独特分子标识符(UMI)的序列或没有UMI。

A27.根据实施方式A26所述的方法，其进一步包括洗涤生物样品以除去接触步骤的未结合构建体。

A28.根据实施方式A26或A27所述的方法，其进一步包括：

将锚序列与包括与所述锚互补的序列的捕获寡核苷酸序列杂交并产生双链寡核苷酸序列；

延伸与锚序列杂交的捕获寡核苷酸，以将构建体条形码、UMI和扩增柄复制到双链序列上；和

扩增或检测序列。

A29.根据实施方式A28所述的方法，其中所述扩增或检测包括检测构建体条形码序列以鉴定生物样品是否表达或含有第一靶标、另外的靶标或第一靶标和另外的靶标的组合。

A30.根据实施方式A28所述的方法，其中所述扩增或检测包括通过检测由任何一个独特分子标识符的量或两个或更多个独特分子标识符的平均量归一化的相应构建体条形码的量来确定生物样品中第一靶标或另外的靶标的表达水平。

A31.根据实施方式A26至A30中任一项所述的方法，其进一步包括邻近每个构建体的条形码的5'或3'端插入一个或多个独特分子标识符。

A32.根据实施方式A27所述的方法，其中接触步骤包括将一个或多个实施方式A1至A24的组合物同时或顺序添加到所述生物样品中。

A33.根据实施方式A28至A32中任一项所述的方法，其进一步包括在杂交步骤之前从与一个或多个所述第一构建体或另外的构建体结合的生物样品中分离个体细胞或细胞群。

A34.根据实施方式A28至A33中任一项所述的方法，其中延伸步骤进一步包括用与扩增柄退火的引物扩增双链寡核苷酸序列。

A35.根据实施方式A26至A34中任一项所述的方法，其中该方法是高通量方法。

A36.根据实施方式A26至A35中任一项所述的方法，其中捕获序列固定在基板上。

A37.根据实施方式A36所述的方法，其中基板是珠、载玻片、多孔板或芯片。

A38.根据实施方式A36或A37所述的方法，其中捕获序列进一步包括另外的扩增柄；特异性识别捕获序列所结合的基板的另外的条形码；和可选的另外的独特分子标识符，其定位于邻近另外的条形码的5'或3'端，识别每个捕获序列。

A39.根据实施方式A26至A38中任一项所述的方法，其中所述生物样品是所述细胞或组织的相同细胞、细胞组分或细胞膜组分、组织或裂解物的群体或者不同细胞、细胞组分或细胞膜组分、组织或裂解物的混合物。

A40.一种用于检测生物样品中的一个或多个表位的高通量方法，该方法包括使生物样品与以下中的一个或多个接触：

i.包括第一构建体的组合物，该第一构建体包括与第一表位特异性结合的第一抗体或其片段，所述第一抗体或片段通过连接体与第一聚合物构建体连接或缀合，其中第一聚合物构建体包括：扩增柄；条形码序列，其从辨识不同表位的任何其他抗体或片段中特异性识别所述第一抗体或片段；可选的独特分子标识符序列，其定位于邻近条形码的5'或3'端；和锚序列，其用于与包括与所述锚互补的序列的捕获序列杂交；

ii.包括至少一个另外的构建体的(i)的组合物，该另外的构建体包括通过连接体与另外的聚合物构建体连接或缀合的另外的抗体或其片段，所述另外的抗体或其片段与另外的表位特异性结合，并且所述另外的聚合物构建体包括：扩增柄；特异性识别所述另外的抗体或其片段的另外的条形码；可选的另外的独特分子标识符，其定位于邻近另外的条形码的5'或3'端；和(i)的锚序列，其中所述另外的构建体与组合物中的任何其他构建体的不同之处在于其抗体、表位、条形码和UMI；和

iii.包括一个或多个基本上相同的构建体的(i)或(ii)的组合物，每个基本上相同的构建体与任何其他参考第一构建体或另外的构建体的不同之处在于其可选的独特分子标识符(UMI)的序列或没有UMI。

A41.根据实施方式A40所述的方法，其进一步包括洗涤生物样品以除去未结合的构建体。

A42.根据实施方式A40或A41所述的方法，其进一步包括

使所述构建体锚序列与接触的样品的捕获寡核苷酸序列退火并产生双链寡核苷酸序列。

A43.根据实施方式A40至A42中任一项所述的方法，其进一步包括：

扩增或检测序列。

A44.根据实施方式A43所述的方法，其中所述扩增步骤包括检测构建体条形码序列以鉴定生物样品是否表达或含有第一靶标、另外的靶标，或第一靶标和另外的靶标的组合。

A45.根据实施方式A43所述的方法，其中所述扩增步骤包括通过检测由任何一个独特分子标识符的量或两个或更多个独特分子标识符的平均量归一化的相应构建体条形码的量来确定生物样品中第一靶标或另外的靶标的表达水平。

A46.根据实施方式A40至A45中任一项所述的方法，其进一步包括邻近每个构建体的条形码的5'或3'端插入一个或多个独特分子标识符。

A47.根据实施方式A40所述的方法，其中接触步骤进一步包括同时或顺序将组合物(i)、(ii)、(iii)添加到所述生物样品中。

A48.根据实施方式A40至A47中任一项所述的方法，其进一步包括从与一个或多个所述第一构建体或另外的构建体结合的生物样品中分离个体细胞、细胞组分或膜组分、组织或相同细胞的群体以进一步分析。

A49.根据实施方式A43所述的方法，其中延伸步骤进一步包括用与扩增柄退火的引物扩增双链寡核苷酸序列。

A50.根据实施方式A40至A49中任一项所述的方法，其中捕获序列固定在基板上。

A51.根据实施方式A50所述的方法，其中基板是珠、载玻片、多孔板或芯片。

A52.根据实施方式A40至A51中任一项所述的方法，其中捕获序列进一步包括扩增柄；特异性识别特定基板的条形码；和可选的另外的独特分子标识符，其定位于邻近扩增柄的3'端或所述条形码的3'端。

A53.一种高通量方法，其用于通过同时检测位于细胞中或细胞上的一个或多个表位以及转录组来表征细胞，该方法包括使含有细胞的生物样品与以下中的一个或多个接触：

i.包括第一构建体的组合物，该第一构建体包括与位于细胞中或细胞表面上的第一表位特异性结合的第一抗体或其片段，所述第一抗体或片段通过连接体与第一聚合物构建体缀合，其中第一聚合物构建体包括：扩增柄；条形码序列，其从辨识不同表位的任何其他抗体或片段中特异性识别所述第一抗体或片段；可选的独特分子标识符序列，其定位于邻近条形码的5'或3'端；和多聚A锚序列，其设计用于与包括固定在微流控珠上的多聚T序列的捕获寡核苷酸序列杂交；

ii.包括至少一个另外的构建体的(i)的组合物，该另外的构建体包括通过连接体与另外的聚合物构建体缀合的另外的抗体或其片段，所述另外的抗体或其片段与另外的表位特异性结合，并且所述另外的聚合物构建体包括：(i)的扩增柄；特异性识别所述另外的抗体或其片段的另外的条形码；可选的另外的独特分子标识符，其定位于邻近另外的条形码的5'或3'端；和(i)的所述锚，其中所述另外的抗体或片段、另外的条形码、另外的UMI和另外的表位与组合物中任何其他构建体中的相应组分不同；和

A54.根据实施方式A53所述的方法，其进一步包括将与一个或多个构建体结合的个体单细胞封装到具有一个所述珠的水滴中，其中每个珠与包括独特珠条形码序列、可选的UMI和3'多聚T序列的捕获序列缀合。

A55.根据实施方式A54所述的方法，其进一步包括：

使每个液滴中的单细胞裂解，其中细胞和所述聚合物构建体中的mRNA从抗体或片段释放，与捕获序列的多聚T序列退火；和

从与珠(A)退火的序列产生含有珠条形码序列的双链cDNA和细胞mRNA的反转录物，以及含有珠条形码序列和聚合物构建体的双链DNA。

A56.根据实施方式A55所述的方法，其进一步包括通过扩增创建包括(A)的cDNA和含有(B)的聚合物构建体的DNA的文库；和检测序列。

A57.根据实施方式A56所述的方法，其中检测步骤包括检测构建体条形码序列以鉴定单细胞是否表达第一表位。

A58.根据实施方式A56所述的方法，其中检测步骤包括通过检测由任何独特分子标识符的量或两个或更多个独特分子标识符的平均量归一化的构建体条形码的量来确定单细胞中第一表位或另外的表位的表达水平。

A59.根据实施方式A57或A58中任一项所述的方法，进一步包括将文库的转录组或文库的转录组的组分与识别其上的靶标表位的细胞相关联。

A60.根据实施方式A53至A59中任一项所述的方法，其中接触步骤进一步包括同时或顺序将组合物(i)、(ii)、(iii)加入所述生物样品中。

Bl.一种用于检测在至少第一和第二样品中的至少两个靶标的方法，该方法包括：

a)使第一样品与第一构建体接触，该第一构建体包括与第一寡核苷酸连接的第一配体，其中该第一配体与第一靶标特异性结合，并且第一寡核苷酸包括：

i)第一扩增柄，

ii)特异性识别第一样品的第一条形码，和

iii)包括多聚A序列的锚；

b)使第二样品与第二构建体接触，该第二构建体包括与第二寡核苷酸连接的第一配体，其中第二寡核苷酸包括：

i)第一扩增柄，

ii)特异性识别第二样品的第二条形码，和

iii)锚；

c)使第一和第二样品与第三构建体接触，该第三构建体包括与第三寡核苷酸连接的第二配体，其中第二配体与第二靶标特异性结合，并且第三寡核苷酸包括：

(i)第二扩增柄，

(ii)特异性识别第二配体的第三条形码，和

(iii)锚；和

d)使第一和第二样品与第四构建体接触，该第四构建体包括与第四寡核苷酸连接的第三配体，其中第三配体与第三靶标特异性结合，并且第四寡核苷酸包括：

i)第二扩增柄，

ii)特异性识别第三配体的第四条形码，和

iii)锚。

B2.如实施方式B1所述的方法，其中第一和第二样品包括细胞。

B3.如实施方式B1或B2所述的方法，其中c)的接触包括使第一或第二样品的细胞与第三构建体接触，并且d)的接触包括使第一和第二样品的细胞与第四构建体接触。

B4.如实施方式B1至B3中任一项所述的方法，其中a)和b)的接触在c)或d)的接触之前进行。

B5.如实施方式B1至B4中任一项所述的方法，其中c)的接触包括使第一和第二样品的混合物与第三构建体接触，并且d)的接触包括使混合物与第四构建体接触。

B6.如实施方式B1至B5中任一项所述的方法，其中第一、第二或第三配体包括抗体或其抗原结合片段。

B7.如实施方式B1至B6中任一项所述的方法，其中(i)第一寡核苷酸的锚位于第一寡核苷酸的第一扩增柄的3'和第一条形码的3'；(ii)第二寡核苷酸的锚位于第二寡核苷酸的第一扩增柄的3'和第二条形码的3'；(iii)第三寡核苷酸的锚位于第三寡核苷酸的第二扩增柄的3'和第三条形码的3'；并且(iv)第四寡核苷酸的锚位于第四寡核苷酸的第二扩增柄的3'和第四条形码的3'。

B8.如实施方式B1至B7中任一项所述的方法，其中(i)第一寡核苷酸的第一扩增柄位于第一条形码的5'和第一寡核苷酸的锚的5'；(ii)第二寡核苷酸的第一扩增柄位于第二条形码的5'和第二寡核苷酸的锚的5'；(iii)第三寡核苷酸的第二扩增柄位于第三条形码的5'和第三寡核苷酸的锚的5'；并且(iv)第四寡核苷酸的第二扩增柄位于第四条形码的5'和第四寡核苷酸的锚的5'。

B9.如实施方式B2至B8中任一项所述的方法，其中第一、第二和第三靶标包括位于第一和第二样品的一个或多个细胞中或其表面上的蛋白质或分子。

B10.如实施方式B1至B9中任一项所述的方法，其中多聚A序列包括含有10个或更多个连续腺苷核苷酸的序列，或腺苷核苷酸的衍生物。

B11.如实施方式B1至B10中任一项所述的方法，其中第一配体、第二配体和第三配体包括抗体或其抗原结合片段。

B12.如实施方式B1至B11中任一项所述的方法，其进一步包括在步骤a)之后洗涤第一样品和在步骤b)之后洗涤第二样品以除去未结合的构建体。

B13.如实施方式B1至B12中任一项所述的方法，其中步骤a)的接触在接触步骤b)之前、之后或同时进行。

B14.如实施方式B1至B13中任一项所述的方法，其中步骤c)的接触在接触步骤d)之前、之后或同时进行。

B15.如实施方式B1至B14中任一项所述的方法，其进一步包括在步骤c)之后或在步骤d)之后洗涤第一和第二样品以除去未结合的构建体。

B16.如实施方式B2至B15中任一项所述的方法，其进一步包括，在c)和d)之后，将第一样品的第一单细胞封装在第一液滴中，该第一液滴包括与多个第一捕获寡核苷酸缀合的第一珠，该第一捕获寡核苷酸从5'至3'包括：第三扩增柄；识别第一珠的第五条形码和多聚T序列，并且将第二样品的第二单细胞封装在第二液滴中，该第二液滴包括与多个第二捕获寡核苷酸缀合的第二珠，该第二捕获寡核苷酸从5'至3'包括：第三扩增柄、识别第二珠的第六条形码和多聚T序列。

B17.如实施方式B16所述的方法，其进一步包括使第一和第二单细胞裂解，从而提供封装在第一液滴中的第一裂解物和封装在第二液滴中的第二裂解物，其中第一和第二裂解物包括mRNA。

B18.如实施方式B16或B17所述的方法，其进一步包括使第一和第二细胞的裂解物与聚合酶接触。

B19.如实施方式B16至B18中任一项所述的方法，其进一步包括产生cDNA和第一、第二、第三和第四寡核苷酸的双链寡核苷酸序列。

B20.如实施方式B16至B19中任一项所述的方法，其进一步包括扩增或检测第一、第二、第三、第四、第五和第六条形码序列。

B21.如实施方式B20所述的方法，其中扩增或检测包括确定第一和第二样品中第二或第三靶标的存在与否。

B22.如实施方式B1至B21中任一项所述的方法，其中第一、第二、第三或第四寡核苷酸，或第一或第二捕获寡核苷酸包括UMI。

C1.一种试剂盒，其包括：

a)第一构建体，其包括与第一寡核苷酸连接的第一配体，其中第一配体与第一靶标特异性结合，并且第一寡核苷酸包括：

i)第一扩增柄，

ii)第一独特条形码，其被配置为特异性识别第一样品，和

iii)包括多聚A序列的锚；

b)第二构建体，其包括与第二寡核苷酸连接的第一配体，其中第二寡核苷酸包括：

i)第一扩增柄，

ii)第二独特条形码，其被配置为特异性识别第二样品，和

iii)锚；

c)第三构建体，其包括与第三寡核苷酸连接的第二配体，其中第二配体与第二靶标特异性结合，并且第三寡核苷酸包括：

(i)第二扩增柄，

(ii)第三独特条形码，其被配置为特异性识别第二配体，和

(iii)锚；和

d)第四构建体，其包括与第四寡核苷酸连接的第三配体，其中第三配体与第三靶标特异性结合，并且第四寡核苷酸包括：

i)第二扩增柄，

ii)第四独特条形码，其被配置为特异性识别第三配体，和

iii)锚。

C2.如实施方式B1所述的试剂盒，其进一步包括多个珠，其中每个珠独立地与多个捕获寡核苷酸缀合，该捕获寡核苷酸包括：

i)第四扩增柄

ii)针对每个珠独特的珠特异性条形码；和

iii)多聚T序列。

C3.如实施方式C1或C2所述的试剂盒，其中第一、第二或第三配体包括抗体或其抗原结合片段。

C4.如实施方式C1至C3中任一项所述的试剂盒，其中(i)第一寡核苷酸的锚位于第一寡核苷酸的第一扩增柄的3'和第一条形码的3'；(ii)第二寡核苷酸的锚位于第二寡核苷酸的第一扩增柄的3'和第二条形码的3'；(iii)第三寡核苷酸的锚位于第三寡核苷酸的第二扩增柄的3'和第三条形码的3'；并且(iv)第四寡核苷酸的锚位于第四寡核苷酸的第二扩增柄的3'和第四条形码的3'。

C5.如实施方式C1至C4中任一项所述的试剂盒，其中(i)第一寡核苷酸的第一扩增柄位于第一条形码的5'和第一寡核苷酸的锚的5'；(ii)第二寡核苷酸的第一扩增柄位于第二条形码的5'和第二寡核苷酸的锚的5'；(iii)第三寡核苷酸的第二扩增柄位于第三条形码的5'和第三寡核苷酸的锚的5'；并且(iv)第四寡核苷酸的第二扩增柄位于第四条形码的5'和第四寡核苷酸的锚的5'。

C6.如实施方式C1至C5中任一项所述的试剂盒，其中第一、第二和第三靶标包括位于细胞中或细胞表面上的蛋白质或分子。

C7.如实施方式C1至C6中任一项所述的试剂盒，其中多聚A序列包括含有10个或更多个连续腺苷核苷酸的序列，或腺苷核苷酸的衍生物。

C8.如实施方式C2至C7中任一项所述的试剂盒，其中多聚T序列包括含有10个或更多个连续胸苷核苷酸的序列，或胸苷核苷酸的衍生物。

C9.如实施方式C2至C7中任一项所述的试剂盒，其中多聚T序列包括含有10个或更多个连续尿苷核苷酸的序列，或尿苷核苷酸的衍生物。

D1.一种组合物，其包括构建体，该构建体包括与寡核苷酸连接的配体，其中该配体与靶标特异性结合，并且该寡核苷酸包括：

i)扩增柄，

ii)独特条形码，其被配置为特异性识别第一样品，和

iii)包括多聚A序列的锚。

D2.如实施方式D1所述的组合物，其中配体包括抗体或其抗原结合片段。

D3.如实施方式D1或D2所述的组合物，其中多聚A序列包括含有10个或更多个连续腺苷核苷酸的序列，或腺苷核苷酸的衍生物。

D4.如实施方式D1至D3中任一项所述的组合物，其中(i)锚位于扩增的3'和独特条形码的3'。

D5.如实施方式D1至D4中任一项所述的组合物，扩增柄位于独特条形码的5'和锚的5'。

D6.如实施方式D1至D5中任一项所述的组合物，其中靶标包括位于细胞内或细胞表面上的蛋白质或分子。

E1.一种用于检测在至少第一和第二样品中的至少两个靶标的方法，该方法包括：

a)使第一样品与第一构建体接触，该第一构建体包括与第一寡核苷酸连接的第一配体，其中第一配体与第一靶标特异性结合，并且第一寡核苷酸包括：

i)第一扩增柄，

ii)特异性识别第一样品的第一条形码，和

iii)包括多聚A序列的锚；

i)第一扩增柄，

ii)特异性识别第二样品的第二条形码，和

iii)锚；

(i)第二扩增柄，

(ii)特异性识别第二配体的第三条形码，和

(iii)锚；和

i)第二个扩增柄，

ii)特异性识别第三配体的第四条形码，和

iii)锚。

E2.如实施方式E1所述的方法，其中第一和第二样品包括细胞。

E3.如实施方式E1或E2所述的方法，其中c)的接触包括使第一或第二样品的细胞与第三构建体接触，并且d)的接触包括使第一和第二样品的细胞与第四构建体接触。

E4.如实施方式E1至E3中任一项所述的方法，其中a)和b)的接触在c)或d)接触之前进行。

E5.如实施方式E1至E4中任一项所述的方法，其中c)的接触包括使第一和第二样品的混合物与第三构建体接触，并且d)的接触包括使混合物与第四构建体接触。

E6.如实施方式E1至E5中任一项所述的方法，其中第一、第二或第三配体包括抗体或其抗原结合片段。

E7.如实施方式E1至E6中任一项所述的方法，其中(i)第一寡核苷酸的锚位于第一寡核苷酸的第一扩增柄的3'和第一条形码的3'；(ii)第二寡核苷酸的锚位于第二寡核苷酸的第一扩增柄的3'和第二条形码的3'；(iii)第三寡核苷酸的锚位于第三寡核苷酸的第二扩增柄的3'和第三条形码的3'；并且(iv)第四寡核苷酸的锚位于第四寡核苷酸的第二扩增柄的3'和第四条形码的3'。

E8.如实施方式E1至E7中任一项所述的方法，其中(i)第一寡核苷酸的第一扩增柄位于第一条形码的5'和第一寡核苷酸的锚的5'；(ii)第二寡核苷酸的第一扩增柄位于第二条形码的5'和第二寡核苷酸的锚的5'；(iii)第三寡核苷酸的第二扩增柄位于第三条形码的5'和第三寡核苷酸的锚的5'；并且(iv)第四寡核苷酸的第二扩增柄位于第四条形码的5'和第四寡核苷酸的锚的5'。

E9.如实施方式E2至E8中任一项所述的方法，其中第一、第二和第三靶标包括位于第一和第二样品的一个或多个细胞中或其表面上的蛋白质或分子。

E10.如实施方式E1至E9中任一项所述的方法，其中多聚A序列包括含有10个或更多个连续腺苷核苷酸的序列，或腺苷核苷酸的衍生物。

E11.如实施方式E1至E10中任一项所述的方法，其进一步包括在步骤a)之后洗涤第一样品和在步骤b)之后洗涤第二样品以除去未结合的构建体。

E12.如实施方式E1至E11中任一项所述的方法，其中步骤a)的接触在接触步骤b)之前、之后或同时进行。

E13.如实施方式E1至E12中任一项所述的方法，其中步骤c)的接触在接触步骤d)之前、之后或同时进行。

E14.如实施方式E1至E13中任一项所述的方法，其进一步包括在步骤c)之后或在步骤d)之后洗涤第一和第二样品以除去未结合的构建体。

E15.如实施方式E2至E14中任一项所述的方法，其进一步包括：在c)和d)之后，将第一样品的第一单细胞封装在第一液滴中，该第一液滴包括与多个第一捕获寡核苷酸缀合的第一珠，该第一捕获寡核苷酸从5'至3'包括：第三扩增柄、识别第一珠的第五条形码和多聚T序列；和将第二样品的第二单细胞封装在第二液滴中，该第二液滴包括与多个第二捕获寡核苷酸缀合的第二珠，该第二捕获寡核苷酸从5'至3'包括：第三扩增柄、识别第二珠的第六条形码和多聚T序列。

E16.如实施方式E15所述的方法，其进一步包括，使第一和第二单细胞裂解，从而提供封装在第一液滴中的第一裂解物和封装在第二液滴中的第二裂解物，其中第一和第二裂解物包括mRNA。

E17.如实施方式E15或E16所述的方法，其进一步包括使第一和第二细胞的裂解物与聚合酶接触。

El8.如实施方式E15至E17中任一项所述的方法，其进一步包括产生cDNA和第一、第二、第三和第四寡核苷酸的双链寡核苷酸序列。E19.如实施方式E15至E18中任一项所述的方法，其进一步包括扩增或检测第一、第二、第三、第四、第五和第六条形码序列。

E20.如实施方式E19所述的方法，其中扩增或检测包括确定第一和第二样品中第二或第三靶标的存在与否。

E21.如实施方式E1至E20中任一项所述的方法，其中第一、第二、第三或第四寡核苷酸，或第一或第二捕获寡核苷酸包括UMI。

E22.一种试剂盒，其包括：

a)第一构建体，其包括与第一寡核苷酸连接的第一配体，其中该第一配体与第一靶标特异性结合，并且第一寡核苷酸包括：

i)第一扩增柄，

ii)第一独特条形码，其被配置为特异性识别第一样品，和

iii)包括多聚A序列的锚；

i)第一扩增柄，

ii)第二独特条形码，其被配置为特异性识别第二样品，和

iii)锚；

(i)第二扩增柄，

(ii)第三独特条形码，其被配置为特异性识别第二配体，和

(iii)锚；和

d)第四构建体，其包括与第四寡核苷酸连接的第三配体，其中第三配体与第三靶标特异性结合，并且该第四寡核苷酸包括：

i)第二扩增柄，

ii)第四独特条形码，其被配置为特异性识别第三配体，和

iii)锚。

E23.如实施方式E22的试剂盒，其进一步包括多个珠，其中每个珠独立地与多个捕获寡核苷酸缀合，该捕获寡核苷酸包括：

i)第四扩增柄

ii)针对每个珠是独特的珠特异性条形码；和

iii)多聚T序列。

E24.如实施方式E22或E23所述的试剂盒，其中第一、第二或第三配体包括抗体或其抗原结合片段。

E25.如实施方式E22至E24中任一项所述的试剂盒，其中(i)第一寡核苷酸的锚位于第一寡核苷酸的第一扩增柄的3'和第一条形码的3'；(ii)第二寡核苷酸的锚位于第二寡核苷酸的第一扩增柄的3'和第二条形码的3'；(iii)第三寡核苷酸的锚位于第三寡核苷酸的第二扩增柄的3'和第三条形码的3'；并且(iv)第四寡核苷酸的锚位于第四寡核苷酸的第二扩增柄的3'和第四条形码的3'。

E26.如实施方式E22至E25中任一项所述的试剂盒，其中(i)第一寡核苷酸的第一扩增柄位于第一条形码的5'和第一寡核苷酸的锚的5'；(ii)第二寡核苷酸的第一扩增柄位于第二条形码的5'和第二寡核苷酸的锚的5'；(iii)第三寡核苷酸的第二扩增柄位于第三条形码的5'和第三寡核苷酸的锚的5'；并且(iv)第四寡核苷酸的第二扩增柄位于第四条形码的5'和第四寡核苷酸的锚的5'。

E27.如实施方式E22至E26中任一项所述的试剂盒，其中第一、第二和第三靶标包括位于细胞中或细胞表面上的蛋白质或分子。

E28.如实施方式E22至E27中任一项所述的试剂盒，其中多聚A序列包括含有10个或更多个连续腺苷核苷酸的序列，或腺苷核苷酸的衍生物。

E29.如实施方式E23至E28中任一项所述的试剂盒，其中多聚T序列包括含有10个或更多个连续胸苷核苷酸的序列，或胸苷核苷酸的衍生物。

E30.如实施方式E23至E28中任一项所述的试剂盒，其中多聚T序列包括含有10个或更多个连续尿苷核苷酸的序列，或尿苷核苷酸的衍生物。

E31.一种包括构建体的组合物，该构建体包括与寡核苷酸连接的配体，其中该配体与靶标特异性结合，并且该寡核苷酸包括：

i)扩增柄，

ii)独特条形码，其被配置为特异性识别第一样品，和

iii)包括多聚A序列的锚。

E32.如实施方式E31的组合物，其中配体包括抗体或其抗原结合片段。

E33.如实施方式E31或E32的组合物，其中多聚A序列包括含有10个或更多个连续腺苷核苷酸的序列，或腺苷核苷酸的衍生物。

E34.如实施方式E31至E33中任一项所述的组合物，其中(i)锚位于扩增的3'和独特条形码的3'。

E35.如实施方式E31至E34中任一项所述的组合物，扩增柄位于独特条形码的5'和锚的5'。

E36.如实施方式E31至E35中任一项所述的组合物，其中靶标包括位于细胞中或细胞表面上的蛋白质或分子。

以下实施例公开了CITE-seq方法和细胞散列标签化方法，仅作为本文描述的组合物的用途的两个实施方式。这些实施例应被解释为涵盖由于本文提供的教导而变得明显的任何和所有变化。

实施例

实施例1：抗体-寡核苷酸复合物的设计和验证

设计具有以下特性的抗体寡核苷酸：用于下一代测序文库制备的通用扩增柄(PCR柄)、针对每个抗体特异的独特条形码序列，和在3'端的多聚A延长段(stretch)(图1A)。产生两个抗体寡核苷酸。抗小鼠整合素β-1(CD29)抗体与条形码编码的寡核苷酸1相连接，该条形码编码的寡核苷酸1含有二硫桥、公共序列(扩增柄、PCR柄)、独特抗体标识符条形码(5'-ATGTCCT-3')和含有4个核苷酸的UMI，随后是多聚A尾巴(图2B，上图)。抗人CD29抗体与条形码编码的寡核苷酸2相连接，该条形码编码的寡核苷酸2含有二硫桥、公共序列(扩增柄、PCR柄)、独特抗体标识符条形码(5'-GCCATTA-3')和含有4个核苷酸的UMI，随后是多聚A尾巴(下图)。

对于实施例1至7中呈现的实验，寡核苷酸在寡核苷酸的5'端用生物素和二硫键修饰，并与链霉亲和素修饰的抗体结合。寡核苷酸可以通过还原二硫键从抗体释放。具体地，针对实施例1至7采用常用的将抗体与寡核苷酸相连接的链霉亲和素-生物素(SAV)相互作用¹⁹。使用市售的链霉亲和素标记抗体试剂盒(通常用于FACS的后续荧光团标记)。将抗体与生物素化的寡核苷酸相连接(图2A，泳道和小图#1)。还原寡核苷酸5'端的二硫键从抗体释放这些寡核苷酸(图2A，泳道和小图#2)。其他有用的连接化学物质包括但不限于硫醇-马来酰亚胺、硫醇-卤代乙酸酯、胺-NHS、胺-异硫氰酸酯、叠氮化物-炔(CuAAC)、四唑-环辛烯(iEDDA，在实施例7中使用)⁴⁵(参考文献25、45和46以及其中的参考文献)，并且可以是可切割的或不可切割的共价连接。

实施例2：方法和材料

抗体与DNA条形码编码的寡核苷酸的缀合。

高度特异性、流式细胞术测试的单克隆抗体与含有独特抗体-标识符序列和多聚A尾巴的寡核苷酸缀合。

我们采用常用的链霉亲和素-生物素相互作用将寡核苷酸与抗体连接¹⁹。使用LYNXRapid Streptavidin Antibody Conjugation Kit(Bio-Rad，美国)，根据制造商的说明书通过修改，进行链霉亲和素标记抗体。具体地，我们用10μg链霉亲和素标记了15μg抗体。在该比例下，每个抗体分子将缀合平均两个链霉亲和素四聚体，这导致每个抗体上平均8个针对生物素的结合位点。在IDT(美国)购买了具有5'胺修饰的DNA寡核苷酸，并根据制造商的说明书(EZ Biotin SS NHS，Thermo Fisher Scientific，美国)使用NHS化学法将其生物素化。在一些实施方式中，可选的二硫键允许用还原剂使寡核苷酸与抗体分离。可能不需要针对所有应用使寡核苷酸与抗体分离。通过凝胶过滤(Micro Biospin 6，Bio-Rad)和乙醇沉淀除去过量的生物素-NHS。将链霉亲和素标记的抗体与等摩尔比的生物素化的寡核苷酸(假定平均每个抗体两个链霉亲和素四聚体)在4℃下在含有0.5M NaCl和0.02％Tween的PBS中温育过夜。使用具有50KDa MW截止值的离心过滤器(Millipore，美国)从抗体中除去未结合的寡核苷酸。通过4％琼脂糖凝胶电泳验证去除过量的寡核苷酸。在4℃下将抗体-寡核苷酸缀合物储存在补充有叠氮化钠(0.05％)和BSA(1μg/μl)的PBS中。

用于CITE-seq的抗体列表

使用的抗体和克隆号是CD3e(克隆号UCHT1，BioLegend，美国)；CD19(克隆HIB19，BioLegend，美国)；CD4(克隆号RPA-T4，BioLegend，美国)；CD8a(克隆号RPA-T8，BioLegend，美国)；CD56(克隆号MEM-188，BioLegend，美国)；CD16(克隆号B73.1，BioLegend，美国)；CD11c(克隆号B-ly6，BD Pharmingen，美国)；CCR7(克隆号150603，R&D Systems，美国)；CCR5(克隆号J418F1，BioLegend，美国)；CD34(克隆号581，BioLegend，美国)；CD14(克隆号M5E2，BioLegend，美国)；CD10(克隆号HI10a，BioLegend，美国)；CD45RA(克隆号HI 100，BioLegend，美国)；D29(克隆号MAl-19105，Thermo Fisher，美国)；CD29(克隆号MA5-16707，Thermo Fisher，美国)；CD2(克隆号RPA-2.10，BioLegend，美国)；CD57(克隆号H-NK1，BioLegend，美国)。参见参考文献46、补充表2，其通过引用并入本文。

抗体寡核苷酸序列。

在与mRNA同时的反转录期间我们利用常用反转录酶⁵⁶的DNA依赖性DNA聚合酶活性将CITE-seq DNA寡核苷酸转化为cDNA。MMLV反转录酶的DNA依赖性DNA聚合酶活性是公认的。所有SMART(RNA模板5'端的转换机制)文库制备方案(例如，被Clontech商业化)依赖于该活性。在RNA模板端处RT酶转换为模板转换寡核苷酸(TSO)，用于进一步的cDNA合成。单细胞RNA-seq方案(包括10x Genomics和Drop-seq)也完全依赖于该活性，以将PCR柄附加到全长cDNA的5'端。PCR柄用于随后的扩增。根据应用，必须根据用于RNA读数的哪个序列读长改变抗体条形码编码的寡核苷酸中的PCR扩增柄(例如，10x Single Cell 3’v1使用读长1，而Drop-seq和10x Single Cell 3’v2使用读长2)。我们的原理论证人和小鼠抗体-条形码编码的寡核苷酸设计包括：

UMI，其对于Drop-seq和10x方案是多余的，因为在反转录时向cDNA添加UMI。抗体缀合的寡核苷酸上的UMI可用于其中UMI不是scRNA-seq文库制备方案的一部分的该方法的其他迭代。

种类混合，Drop-seq(含有Nextera读长2柄)。

BC6:/5AmMC12/GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGGCCAATNNBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA SEQ ID NO:1

BC12:/5AmMC12/GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGCTTGTANNBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA SEQ ID NO:2

种类混合，10x(single cell 3’版本1,Nextera读长1柄).BC6:/5AmMC12/TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGGCCAATNNBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA SEQID NO:3

BC12:/5AmMC12/TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGCTTGTANNBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA SEQ ID NO:4

CBMC分析–(Drop-seq和10x v2兼容寡核苷酸,

含有TruSeq small RNA读长2柄).v2_BC1:/5Am

MC12/CCTTGGCACCCGAGAATTCCAATCACGBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA SEQID NO:5

v2_BC2:/5AmMC12/CCTTGGCACCCGAGAATTCCACGATGTBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA SEQ ID NO:6

v2_BC3:/5AmMC12/CCTTGGCACCGAGAATTCCATTAGGCBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA SEQ ID NO:7

v2_BC4:/5AmMC12/CCTTGGCACCCGAGAATTCCATGACCABAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA SEQ ID NO:8

v2_BC6:/5AmMC12/CCTTGGCACCCGAGAATTCCAGCCAATBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA SEQ ID NO:9

v2_BC9:/5AmMC12/CCTTGGCACCCGAGAATTCCAGATCAGBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA SEQ ID NO:10

v2_BC10:/5AmMC12/CCTTGGCACCCGAGAATTCCATAGCTTBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA SEQ ID NO:11

v2_BC12:/5AmMC12/CCTTGGCACCCGAGAATTCCACTTGTABAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA SEQ ID NO:12

v2_BC8:/5AmMC12/CCTTGGCACCCGAGAATTCC

AACTTGABAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

AAA SEQ ID NO:13

v2_BC11:/5AmMC12/CCTTGGCACCCGAGAATTCC AGGCTACBAAAAAAAAAAAAAAAAAAAAAAAAAAAAA AAA SEQ ID NO:14

v2_BC13:/5AmMC12/CCTTGGCACCCGAGAATTCC AAGTCAABAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA SEQ ID NO:15

v2_BC14:/5AmMC12/CCTTGGCACCCGAGAATTCC AAGTTCCBAAAAAAAAAAAAAAAAAAAAAAAAAAAAA SEQ ID NO:16

v2_BC5:/5AmMC12/CCTTGGCACCCGAGAATTCC AACAGTGBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA A SEQ ID NO:17

用CITE-seq的DNA条形码编码的抗体对细胞“染色”。

将大约500,000个细胞重悬于含有2％BSA和0.01％Tween的冷PBS中，并通过40μm细胞过滤器(Falcon，美国)过滤以除去潜在的团块和大颗粒。然后将细胞与Fc受体阻断(TruStain FcX，BioLegend，美国)一起温育10分钟以阻断非特异性抗体结合。随后，将细胞与条形码编码的抗体的混合物在4℃一起温育30分钟。对于流式细胞术应用，如制造商(BioLegend，美国)所推荐的，每次测试的抗体浓度为1μg。通过以下将细胞洗涤3次：在含有2％BSA和0.01％Tween的PBS中再悬浮，然后离心(～480g，4℃下5分钟)并更换上清液。最后一次洗涤后，将细胞以适当的细胞浓度重悬于PBS中，用于Drop-seql或10x Genomics3应用。

Drop-seq平台上的CITE-seq。

如所述通过修改进行Drop-seq。对于人/小鼠混合实验，以400细胞/μL的浓度加载细胞以实现高双联体率。对于PBMC实验，以150细胞/μL加载细胞。将cDNA扩增10个循环，然后用Ampure Beads(Beckman Coulter，美国)将产物按大小分离成含有抗体衍生标签(ADT)的<300nt片段和含有衍生自细胞mRNA的cDNA的>300nt片段。使用附加用于在Illumina流动池上聚类的P5和P7序列的特异性引物将ADT扩增10个额外的循环。可替换地，可以使用针对抗体寡核苷酸和Drop-seq珠-RT寡核苷酸的特异性引物在RNA-cDNA扩增后直接从彻底洗涤的Dropseq珠扩增抗体标签。如所述的，通过标签片段化(tagmentation)将衍生自mRNA的cDNA转化为测序文库¹。定量后，将文库以所需浓度合并(10％的ADT的泳道、90％cDNA文库)。根据制造商的说明书(Illumina，美国)，在具有v2 chemistry的HiSeq2500Rapid Run上进行测序。

10x平台上的CITE-seq。

根据制造商的说明书(10x Genomics，美国)通过修改进行10x单细胞运行。对于人/小鼠混合实验(在Single Cell 3’版本1上运行)，加载～17,000个细胞以产生具有中/高双联体率的～10,000个细胞。对于CBMC分析(在Single Cell 3’版本2上运行)，加载～7,000个细胞以获得～4,000个细胞的产量。对于CBMC分析，我们以低频率(～4％)加标小鼠细胞。这允许我们绘制抗体信噪比截止值并估计我们实验中的真实双联体率(4％)，并将这些比率与设备制造商提供的估计值(～3.1％)(见下文)进行比较。将cDNA扩增10个循环，然后用Ampure Beads(Beckman Coulter，美国)将产物按大小分离成含有抗体衍生标签(ADT)的<300nt片段和含有衍生自细胞mRNA的cDNA的>300nt片段。使用附加用于在Illumina流动池上聚类的P5和P7序列的特异性引物将ADT扩增10个额外的循环。使用基于标签片段化的方法产生来自衍生自RNA的cDNA的测序文库，该方法类似于用于Drop-seq的Single Cell 3’v1实验中使用的方法，或根据制造商的针对Single Cell 3’v2实验的说明书。如上所述合并ADT和cDNA文库并测序。

细胞培养。

HeLa(人)、4T1(小鼠)和3T3(小鼠)细胞根据标准程序在37°伴随5％CO2下保持在补充有10％胎牛血清(FBS，Thermo Fisher，美国)的Dulbecco's Modified Eagle'sMedium(Thermo Fisher，美国)中。对于种类混合实验，将HeLa和4T1细胞以相等比例混合，并如上所述与DNA条形码编码的CITE-seq抗体一起温育。对于低频小鼠加标，在进行CITE-seq之前将～5％3T3细胞混入CBMC池中。

血液单核细胞。

如所述的从脐带血(纽约血液中心)中分离脐带血单核细胞(CBMC)。在分离期间和分离后将细胞保持在冰上。从Allcells(美国)获得外周血单核细胞。

比较流式细胞术和CITE-seq。

用来自靶向CD8a的相同单克隆抗体克隆(RPA-T8)的荧光团(CD8a-FITC，BioLegend，美国)标记的抗体和CITE-seq寡核苷酸标记的抗体的混合物，以制造商推荐的浓度(每次测试1ug，BioLegend，美国)将细胞染色。还用抗CD4-APC抗体(RPA-T4，BioLegend，美国)将细胞染色。使用Sony SH800细胞分选仪将细胞分选到不同CD8a表达水平的文库中，该分选仪按照制造商的说明书操作。然后将池分成两部分，并使用Sony SH800通过流式细胞术重新分析，或使用如上所述的Drop-seq处理用于CITE-seq。使用FlowJo v9(美国)绘制流式细胞术数据。

多参数流式细胞术。

用以下小鼠抗人抗体染色细胞，该抗体购自BD Biosciences(美国)。使用的抗体、克隆和荧光团是CD3e(克隆号SK7)Hilyte 750Allophycocyanin(H7APC)、CD4(克隆号SK3)Brilliant Blue(BB)630、CD8a(克隆号SK1)Phycoerythrin(PE)、CD14(克隆号M5E2)Brilliant Violet(BV)750、CD19(克隆号HIB19)BV570、CD11c(克隆号B-ly6)Cyanin5 PE、CD2(克隆号RPA-2.10)Brilliant Ultraviolet(BUV)805和CD57(克隆号，NK-1)BB790。在PBS中洗涤细胞并将它们固定在0.5％多聚甲醛中后，在BD Symphony A5流式细胞仪上获得样品，并使用FlowJo v9(美国)分析数据。

计算方法。

单细胞RNA数据处理和过滤。使用标准管道(来自McCarroll实验室的Drop-seq工具版本1.12)处理原始Drop-seq数据。使用Cell Ranger 1.2使用默认参数处理来自种类混合实验的10x数据，并且不施加进一步的过滤。使用与用于我们的Drop-seq数据相同的管道对来自CBMC实验(v2 chemistry)的10x数据进行处理。将读长与人参考序列GRCh37/hg19(CD8a FACS对照)或hg19和小鼠参考mm10串联(种类混合实验，CBMC)比对。

将种类混合实验的Drop-seq数据过滤以仅含有具有至少500个映射至人类基因的UMI或500个映射至小鼠基因的UMI的细胞。对于CD8a FACS比较数据，我们仅保留PCT_USABLE_BASES≥0.5(映射至mRNA的碱基部分，这是默认处理管道输出的度量的一部分)的细胞。我们进一步去除了检测到少于200个基因的任何细胞和具有高于或低于平均值超过3s.d.的UMI或基因总数(加入假计数后以log10计)的细胞。相同的过滤策略用于CBMC数据，唯一的区别是基因阈值为500。

单细胞ADT数据处理和过滤。

从fastq文件中的读长中直接提取抗体条形码和细胞条形码。由于抗体条形码在种类混合实验中是充分不同的，所以我们还计数了汉明距离小于4的序列。对于CBMC，我们计数了汉明距离小于2的序列。具有细胞条形码、分子条形码和抗体条形码的相同组合的读长仅计数一次。我们仅保留通过RNA特异性过滤器并且具有最小数量的总ADT计数(使用的最小计数：种类混合，10；CD8a FACS比较，1；CBMC，50)的细胞。

CBMC RNA归一化和聚类。

在读长比对和细胞过滤后，我们指定种类至每个细胞条形码。如果超过90％的UMI计数来自人基因，则细胞条形码被认为是人。如果它低于10％的UMI计数，则指定的种类是小鼠。10％和90％之间的人的细胞条形码被认为是混合种类。得到的指定是8,005人、579小鼠、33混合。除非另有说明，否则仅对来自人参考基因组的人细胞和基因进行分析。

我们将UMI计数的矩阵转换为对数归一化表达矩阵x其中

xi,j＝log{cij x 10,1000/mj)

其中ci,j是细胞j中基因i的分子计数，并且mj是细胞j的所有分子计数的总和。归一化后，将每个基因缩放至具有平均表达值0和方差1。

我们通过以下识别了556个高度可变的基因：将平滑线(LOESS，span＝0.33，degree＝2)拟合至log10(var(UMI)/mean(UMI))作为log10(mean(UMI))的函数并保持所有基因的标准化残差高于1且检测率为至少1％。

为了聚类细胞，我们进行了降维，然后是模块化优化。我们使用可变基因的表达矩阵运行主成分分析(PCA)。为了确定重要维度的数量，我们查看了连续特征值的百分比变化。特征为减少至少5％的最后特征值构成了我们的相当数量的维度(在这种情况下，数量为13)。对于聚类，我们使用模块化优化算法来查找数据中的社团结构⁵⁷。数据表示为加权网络，其中细胞是节点并且Jaccard相似度的平方作为边缘权重(基于重要PC的欧几里德距离和40的邻域大小(所有细胞的0.5％))。聚类算法，如在igraph R包的“cluster_louvain”函数中实施的，发现社团内相比于社团之间密度高的细胞划分。对于2D可视化，我们使用t-SNE进一步将数据的维度降低到2^58,34,59。

CBMC抗体衍生标签归一化和聚类。由于给定细胞的每个ADT计数可以解释为整体(指定给该细胞的所有ADT计数)的一部分，并且此实验中只有13个组分，我们将此数据类型视为组合数据并施加居中对数比率(CLR)转换⁶¹。明确地，我们为每个细胞生成了新的CLR转换的ADT向量y，其中

y＝clr(x)＝[ln((xl/g(x)),ln((x2/g(x)),…ln((x5/g(x))]，并且x是ADT计数的向量(包括每个分量的一个伪计数)，并且g(x)是x的几何平均值。

我们注意到不同抗体的ADT计数规模略有不同，这可能是由抗体特异性和/或表位丰度的差异引起的。为了补偿非特异性基线ADT信号中导致的移位，我们分别检测了人和小鼠细胞的所有抗体的CLR转换的ADT计数的密度分布。对于每个ADT，我们确定了小鼠细胞的平均值和方差，并限定了与种类无关的截止值(将“关闭”状态与存在蛋白质的“开启”状态分开)为比平均值大1s.d.。

为了基于ADT计数聚类细胞，采用与针对RNA数据相同的一般方法，只是不进行维数降低。相反，我们从每个抗体的CLR转换的ADT计数中减去小鼠衍生的截止值。基于欧几里德距离和细胞总数的0.5％的邻域大小，将细胞间权重进行Jaccard相似度的平方。

使用低频小鼠加标估计双联体率。

以低频率加标小鼠细胞允许我们估计我们的CMBC分析实验中的真实双联体率(4％)，并将这些与设备制造商提供的估计值(～3.1％)进行比较。为了估计我们实验中的双联体率，我们将液滴细胞捕获过程建模为泊松分布，加载速率为λ，并且固定小鼠分数为6.5％。我们优化了λ，使得模拟数据与观察到的种类分布最匹配。得到的λ为0.068，并且在模拟中观察到的双联体率(具有至少一个细胞的所有液滴中具有多于一个细胞的液滴的分数)为4％。

实施例3：混合样品中不同种类的识别

使用认可用于流式细胞术的条件(比如参考文献22)，将实施例1中描述的抗体-寡核苷酸复合物与细胞一起温育。洗涤细胞以除去未结合的抗体，然后在设计用于进行Drop-seq¹的微流控装置中将单细胞封装到纳升大小的水滴中(图1C)。在细胞裂解后(当裂解缓冲液接触细胞时其立即发生在液滴中)，细胞mRNA经由它们的多聚A尾巴与含有Drop-seq珠的多聚T(图1B)退火(图1C#6)。来自抗体的寡核苷酸也经由它们在3'端的多聚A延长段与Drop-seq珠退火。Drop-seq珠上的独特条形码序列索引每个共封装细胞的转录组。在破坏乳液并除去油之后，反转录延伸条形码编码的寡核苷酸以从mRNA和抗体衍生的寡核苷酸模板两者创建第一链cDNA。按大小分离cDNA和抗体衍生标签(图2C)并独立地转化成Illumina就绪文库。两种文库类型一起测序。由于分别产生文库的优点，文库的相对比例也被定制以确保获得适当的测序深度。

在独立制备如图2C所示用于测序的文库之前，产生cDNA文库和来自抗体标记的单细胞池的恢复寡核苷酸标签文库并将其物理分离。对恢复的寡核苷酸标签的文库进行测序。在独立地使用人和小鼠细胞的转录组数据识别它们之后(图2D和2E)，基于它们的种类特异性细胞表面蛋白质(图2D)明确识别了数十万个混合的人和小鼠细胞的悬浮液中的所有人细胞和所有小鼠细胞。通过转录组比对识别为含有人细胞(图2D和2E，由实线圈出)或小鼠细胞(图2D和2E，由虚线圈出)的绝大多数液滴也使用寡核苷酸标记方法被识别为具有相同的表面结合种类表位(图2D)。

在该实验中，故意使用高细胞浓度来获得高的双联体率(含有两个或更多个细胞的液滴)，以便将混合种类转录组数据与来自个体液滴的混合种类蛋白质信号相关联。参见，例如，图2D和2E，其中不在轴上的点是混合信号。含有人和小鼠细胞混合物的液滴也明显具有来自人和小鼠抗体两者的测序读长(图2D，未圈出的点)。该结果说明可以从一个液滴获得来自多个抗体的信号。

该方法被扩展为在数万个细胞中同时并行测量大量认可的基于抗体的细胞标志物和转录组。

进一步的实验产生定性的细胞表面蛋白质表达测量结合转录组范围的表达数据。进行实验以确认来自抗体上的寡核苷酸的信号反映细胞表面表位浓度。已经确定实验偏差来自以下来源：1)来自测序-文库PCR重复数据的人工信号，2)足够良好表征的抗体种类的交叉反应性和可用性，和3)寡核苷酸与抗体缀合的可变水平导致表位浓度估计不准确。

校正上面确定的偏差的方法包括以下内容。首先，通过使用构建到Drop-seq寡核苷酸设计中的独特分子标识符(UMI)过滤测序数据集中的PCR重复数据。其次，为了解决抗体交叉反应性，避免使用具有低特异性的抗体，而仅使用高度优化和测试的流式细胞术抗体用于基准实验。优化的抗体可从大的联合(consortia)获得，比如人类蛋白质图谱(HumanProtein Atlas)，其继续产生更多抗体以补充已存在的数千种特异性抗体池7。第三，根据制造商的文献，使用链霉亲和素-生物素缀合，估计大约4-12个寡核苷酸分子与每个抗体分子结合。

用于标记具有限定数量的寡核苷酸分子的抗体的不同抗体-寡核苷酸缀合策略(如上文在“连接”的定义中所确定的)被测试以便获得更定量的测量。将一个寡核苷酸分子标签化到每个抗体以及UMI的使用，使得该方法至少与基于免疫PCR的方法一样定量。为此目的，进行评估以测试在最终文库定量中是否可以从噪声中可靠地测量出单分子信号。最佳抗体浓度也通过如在流式细胞术中进行的用个体抗体的滴定实验来确定。作为参考标准，测试了使用相同细胞群的在流式细胞术运行中的相同单克隆抗体。这允许确定基于测序的核糖核酸测量的灵敏度和定量能力。

实施例4：骨髓和淋巴细胞谱系的识别

骨髓和淋巴细胞谱系已经通过流式细胞术中的细胞表面标志物表达进行了广泛研究，并且还可以基于它们的基因表达谱来被识别。辨识骨髓和淋巴谱系以及这些谱系中的特定细胞亚群的通用标志物的若干公认且高度特异的流式细胞术抗体与实施例1中描述的寡核苷酸相连接。

使用认可用于流式细胞术的条件将由此产生的抗体-寡核苷酸复合物与细胞一起温育。洗涤细胞以除去未结合的抗体，然后在设计用于进行Drop-seq¹的微流控装置中将单细胞封装到纳升大小的水滴中(图1C)。在细胞裂解后(当裂解缓冲液接触细胞时其立即发生在液滴中)，细胞mRNA经由它们的多聚A尾巴与含有Drop-seq珠的多聚T(图1B)退火。来自抗体的寡核苷酸也经由它们在3'端的多聚A延长段与Drop-seq珠退火。Drop-seq珠上的独特条形码序列索引每个共封装细胞的转录组。在破坏乳液并除去油之后，反转录延伸条形码编码的寡核苷酸以从mRNA和抗体衍生的寡核苷酸模板两者创建第一链cDNA。cDNA和抗体衍生标签按大小分离，转化成Illumina就绪文库并测序。

使用多数个抗体-寡核苷酸复合物来测试该方法的复用能力。在进一步的实验中，测试了超过100个抗体-寡核苷酸复合物。

实施例5：基于细胞内蛋白质表达的细胞识别

研究在信号传递特异性FACS测定¹⁸中用于细胞内抗体染色的不同的轻度细胞透化和固定程序来确定它们是否与RNA兼容。如实施例1中所述产生辨识细胞内蛋白质的抗体-寡核苷酸复合物。此外，在CITE-seq方案的温育步骤之前进行认可的透化和固定程序。基于细胞内表达的蛋白质和mRNAs转录物识别细胞。该方法不仅提供了细胞群的更详细的表征，而且还允许以前所未有的深度研究单细胞内转录后和翻译后基因调控。

实施例6：细胞的识别

实施例1至5中描述的方法适合于如上所述的其他基于液滴或微孔的单细胞测序技术。抗体寡核苷酸3'端的多聚A延长段允许在任何基于寡聚脱氧胸苷酸的mRNA-seq方案(比如Mortazavi等人描述的方案²³)中捕获。评估运行特定参数，并评价该方法对于商业上可获得的仪器(例如，10x Genomics)和正在开发的其他技术¹¹的效用。

实施例7：脐带血单核细胞的增强的细胞聚类和分类

对用本文描述的具有表2中列出的组分的10种抗体构建体标记的8,700个单核血细胞进行CITE-seq分析。使用整合了蛋白质和RNA测量值的典型相关分析进行tSNE(t分布随机邻域嵌入)³⁴和聚类。

/>

该分析的一个结果是图3A的斑点印迹。该图显示CITE-seq允许脐带血单核细胞的增强的细胞聚类和分类。

仅使用RNA数据对图3A的相同数据集进行另一次CITE-seq分析。例如，CD8和CD4 T细胞未分离成不同的群体。这些结果示于图3B中，其中点图显示在使用多模态数据时增强的分辨率。图中的符号是Mono(代表单核细胞)，B代表B细胞，T代表T细胞，NK代表自然杀伤细胞，DC代表常规树突细胞，pDC代表浆细胞样DC，Pre代表前体，并且Ery代表成红细胞。

最后，图3C显示选择抗体(即表2的No.1-10构建体)的CITE-seq抗体数据的双轴图。该数据可相比于通过流式细胞术获得的数据，显著不同在于当使用CITE-seq方法和构建体时，图中每个单细胞(每个点)的转录组也是可用的。因此，细胞可以基于它们的RNA数据、蛋白质数据或两者来进一步分析和分类。

通过在如本文描述的CITE-seq分析中复用使用用表2的10种抗体构建体标记的8,700个单核血细胞产生的另一系列双轴图。图4显示了表2的所有10种抗体构建体的CITE-seq抗体数据的双轴图。该数据可相比于通过流式细胞术获得的数据，显著不同在于当使用CITE-seq时还可获得这些图中每个单细胞(每个点)的转录组。因此，细胞可以基于它们的RNA数据、蛋白质数据或两者来被进一步分析和分类。

实施例8：CITE SEQ

我们描述通过测序的转录组和表位的细胞索引(CITE-seq)为一种这样方法，其中使用寡核苷酸标记的抗体将细胞蛋白质和转录组测量值整合成有效的单细胞读数。CITE-seq与现有的单细胞测序方法兼容，并且随着通量增加容易缩放规模。CITE-seq方法将高度多重的蛋白质标志物检测与用于数千个单细胞的无偏差转录组分析相结合。该方法容易适应于两种高通量scRNA-seq应用，并显示了多模态数据分析可以比单独的转录组测量实现更详细的细胞表型表征。

我们通过将抗体与寡核苷酸(oligonucleotide)(寡核苷酸(oligo))缀合设计了一种数字的、基于测序的蛋白质水平读数，该寡核苷酸可以被寡脱氧胸苷酸引物(用于大多数scRNA-seq文库制备)捕获，含有用于抗体识别的条形码且包括用于PCR扩增的柄。常用的链霉亲和素-生物素相互作用将寡核苷酸的5'端与抗体相连接。在可相比于流式细胞术染色方案的条件下，将抗体-寡核苷酸复合物与单细胞悬浮液一起温育；在该温育后，洗涤细胞以除去未结合的抗体并处理细胞用于scRNA-seq。在我们的实施例中，我们在设计用于进行Drop-seq¹的微流控装置中将单细胞封装到纳升大小的水滴中。在细胞在液滴中裂解后，细胞mRNA和抗体衍生的寡核苷酸都经由它们的3'多聚A尾巴与含有寡脱氧胸苷酸的Drop-seq珠退火，并在反转录期间被共享的细胞条形码索引。扩增的cDNA和抗体衍生的标签(ADT)可以按大小分离并独立地转化为Illumina测序文库。重要的是，因为两个文库类型是分开生成的，所以可以在合并的单个泳道中调整它们的相对比例，以确保获得每个文库所需的测序深度。参见，例如，参考文献46，以及网络数据，其通过引用并入本文。

为了评估我们的方法基于表面蛋白质表达来区分单细胞的能力，我们设计了原理论证“种类混合”实验，该实验利用种类特异性和高表达的标志物CD29(整合素β-1)。将人(HeLa)和小鼠(4T1)细胞的悬浮液与DNA条形码编码的抗小鼠和抗人CD29抗体的混合物一起温育。在洗涤去除未结合的抗体后，我们进行Drop-seq¹以研究转录物的起源种类与ADT之间的一致性。我们故意使用高细胞浓度来获得高的多联体率(含有两个或更多个细胞的液滴)，以将混合种类转录组数据与来自个体液滴的混合种类ADT信号相关联。通过转录组识别为含有人、小鼠或混合细胞的大多数液滴(97.2％)接收到相同的通过ADT计数的种类分类。基于RNA或ADT的细胞计数在两种方法之间高度相关，并且这证明了ADT信号的低丢失率。我们使用来自10x Genomics的商业可获得系统进行了相同的实验并获得了相当的结果。

我们试图表征CITEseq蛋白质读数的定量性质。流式细胞术是基于表面标志物的定量差异计算细胞亚群的黄金标准^47,48。因此，我们的目的是以流式细胞术为基准测试CITE-seq蛋白质检测的灵敏度，使用针对常见流式细胞术标志物的CITE-seq抗体来识别和区别免疫亚群。我们对相同的外周血单核细胞池的等分试样使用相同的抗体集进行多参数流式细胞术和CITE-seq实验。利用ADT水平，我们能够构建类似细胞计数的“双轴”门控图，并将这些定性和定量地与流式细胞术数据比较。与各种T细胞亚群、B细胞、浆细胞样、髓样树突细胞和单核细胞相关的基于标志物蛋白质的表达的细胞分布图非常相似。

接下来，我们询问CITE-seq是否可以观察到通过流式细胞术观察到的表达上的定量差异。为此，我们集中于标志物CD8a，因为其水平在免疫细胞群体中变化很大。我们将脐带血单核细胞(CBMC)与CITE-seq抗体缀合物和荧光团缀合的抗体一起温育，使得每个细胞上的一些CD8a表位将被荧光团标记，并且一些CD8a表位被寡核苷酸标记。基于CD8a荧光(非常高(+++)、高(++)、中等(+)和低(+/-))使细胞经受荧光激活细胞分选(FACS)到分离的池中。然后将每个池分开并分别通过流式细胞术和CITE-seq重新分析。对于由FACS限定的每个池，通过两种方法观察到相似的相对CD8a表达水平。我们得出结论，CITE-seq ADT水平与黄金标准流式细胞术一致，并且因此能够实现与转录组学一致的高分辨率免疫表型分型。

已经使用细胞表面标志物⁴⁷和scRNA-seq^3,9,49对免疫系统进行了广泛的分析，并且两种方法以一致性的比例可靠地识别相同的细胞类型。因此，复杂的免疫细胞群是用于验证CITE-seq的多模态读数的理想系统。我们制备了具有13个良好表征的单克隆抗体的CITE-seq组，该单克隆抗体辨识常规用作用于免疫细胞分类的标志物的细胞表面蛋白质。为了估计实验中的非特异性背景抗体结合，我们开发了一种低水平的“加标”对照。罕见加标小鼠细胞群应该容易在转录组学上区分，而不应该与我们的抗人抗体交叉反应；这将使我们能够直接从数据限定背景ADT水平。因此，我们将小鼠3T3成纤维细胞(～4％)加标到到我们的CBMC中，将细胞池与我们的CITE-seq抗体组一起温育，并对总共8,005个细胞运行10x Genomics单细胞工作流程。使用RNA表达的基于无监督图的聚类揭示了表达选择标志物基因的可辨识细胞类型。小鼠细胞分别聚类(数据未显示)并且显示出每个标志物低ADT计数，并且这允许我们设置信号相对于噪声的基线以更清晰地从阴性细胞群描绘阳性细胞群。通过该阈值化步骤，我们识别了三种没有特异性结合(即，没有超过背景信号的阈值)的抗体-寡核苷酸缀合物，并且将这些缀合物从进一步分析中排除。

在正确免疫群体中我们检测到强ADT富集——T细胞聚类中的CD3e；在很大程度上不重叠的T细胞亚群中的CD4和CD8a；几乎仅在B细胞中的CD19；NK聚类中的CD56、CD16和CD8a；以及单核细胞和树突细胞聚类中的CD11c和CD14。我们还识别了脐带血中少于2％的罕见前体细胞群(CD34+细胞)。对于相同基因每个细胞的ADT计数高于mRNA水平，并且不太容易发生“丢失”事件。与此一致，我们发现在单细胞基础上mRNA和ADT之间的相关性低，而当在聚类中平均表达时相关性较高。我们使用ADT水平和基于转录组的聚类信息来构建多模态CITE-seq“双轴”门控图；这揭示了被流式细胞术完善的类似的图谱。例如，我们可以解决T细胞中CD4和CD8a ADT水平的强烈反相关以及子集之间标志物表达的定量差异——这些包括NK细胞和T细胞之间CD8a的表达差异或者单核细胞和T细胞之间CD4的表达差异。此外，基于ADT水平的聚类导致清晰且一致的细胞类型分离(未显示数据图参见参考文献46)。

我们接下来询问，与单独的scRNA-seq相比，来自CITE-seq的多模态数据是否可以增强免疫细胞表型的表征。我们注意到在我们的转录组衍生的NK细胞聚类中CD56和CD16ADT水平的相反梯度，可能揭示CD56亮和CD56暗亚群^50,51；因此，我们基于CD56 ADT水平细分了我们的NK细胞聚类。当比较这些群组的分子谱时，我们观察到与文献^50,51高度一致的蛋白质和RNA变化。我们观察到在这两个亚群内CD16水平之间明显的互补性以及与相比于CD56ADT较低程度的CD8a ADT。对于之前已被表征为在这些亚型中差异表达的11种基因^50-52，我们检测到与10个实例中的文献(包括GZMB、GZMK和PRF1的那些)一致的上调或下调。这说明了整合和多模态的分析用于增强细胞表型的发现和描述的潜力，特别是当区分具有微妙转录组差异的细胞群时。

在scRNA-seq数据之上叠加另外的分子测量值的能力代表了单细胞研究界的一个令人兴奋的方向。CITE-seq能够以基于液滴的单细胞测序方法提供的规模对单细胞进行多模态分析。我们证明了多模态分析揭示单独使用scRNA-seq无法发现的表型的价值，并且我们还设想使用CITE-seq用于单细胞水平的转录后基因调控研究。与流式细胞术和质谱流式细胞术相比，寡核苷酸条形码编码的抗体的检测不受信号碰撞的限制；10个核苷酸的序列可以容易地编码比存在的人蛋白质更多的条形码，并且这能够用数十到数百个抗体的组进行大规模免疫表型分型。此外，用于细胞内细胞计数测定的温和细胞透化和固定程序也应该与CITE-seq兼容，并且它们可以显著扩展有用标志物的数量。

还可以设想CITE-seq的修改版本，其中仅在大规模并行尺度上分析ADT而不捕获细胞mRNA(通过测序的细胞计数)。

最后，我们已经示出CITE-seq与商业上可获得的单细胞平台(10x Genomics)完全兼容，并且应该容易地适应其他基于液滴、微孔和组合索引的高通量单细胞测序技术^{2,54,55,20,30}，而无需定制或伴随少量定制。

实施例9：CITE-SEQ变化

在一个实验中，从不同的缀合技术比较CITE-seq读数。一种技术使用先前在实施例1-8中描述的生物素-链霉亲和素(SAV)连接。抗体-寡核苷酸缀合的另一种方法采用如前所述的经由iEDDA化学的共价缀合⁴⁵。使用的iEDDA缀合化学可相比于商业上可获得的试剂盒(Innova Biosciences，Thunderlink PLUS试剂盒)中提供的缀合化学。

对用如本文描述的具有表3中列出的组分的6种抗体构建体之一标记的4000个外周血单核细胞(PBMC)进行CITE-seq分析。使用整合了蛋白质和RNA测量值的典型相关分析进行tSNE(t分布随机邻域嵌入)³⁴和聚类。

在附图5A和5B中，在SAV和直接缀合中不同群体(例如，NK细胞、CD4、CD8)的图谱(直方图)看起来相当。

实施例10：使用CITE-SEQ构建体的变化

尽管单细胞测序技术发展迅速，但是样品特异性批次效应、细胞双联体检测和生成大量数据集的成本仍然是突出的挑战。在这里，我们引入细胞“散列”，其中使用针对泛表达的表面蛋白质的寡核苷酸标签化的抗体独特地标记来自不同样品的细胞，该细胞随后可以合并。通过将这些标签与细胞转录物一起测序，我们可以将每个细胞指定至其原始样品，并鲁棒识别源自多个样品的双联体。我们通过在10x Chromium系统的单次运行中合并8个人PBMC样品来展示我们的方法，大大降低了我们的每个细胞的文库生成成本。细胞“散列”受到基于遗传变异的高级复用策略⁷¹的启发并对其补充，我们也利用它来验证我们的结果。因此，我们设想我们的方法将有助于推广单细胞复用对不同样品和实验设计的益处。

单细胞基因组学为转变我们对异质过程的理解和重建细胞类型的无监督分类法提供巨大的前景^63,64。随着研究进展到分析复杂的人组织^65,66甚至整个生物体^20,67，人们越来越认识到需要大规模并行技术和数据集才能发现罕见和微妙的细胞状态^1-3。虽然每个细胞的文库制备的成本已经下降，但是对于个体实验室和联合(比如人类细胞图谱⁶⁸)两者来说，常规分析数万至数十万个细胞仍然是昂贵的。广泛相关的挑战也仍然存在，包括对细胞双联体产生的人工信号的鲁棒识别或技术相关的批次效应⁶⁹。特别地，可靠地识别对应于多于一个细胞的表达谱(在此称为“多联体”)仍然是单细胞RNA-seq(scRNA-seq)分析中未解决的挑战，并且鲁棒解决方案将同时提高数据质量并能够增加实验通量。虽然与单细胞体相比多联体预期产生更高复杂度的文库，但是该信号的强度不足以进行明确的识别⁶⁹。类似地，已经证明在scRNA-seq实验的综合分析中技术和“批次”效应掩盖生物信号⁷⁰，因此需要实验解决方案来缓解这些挑战。

最近的发展已经深刻地展示了样品复用如何能够同时克服多个挑战^71,72。例如，demuxlet⁷¹算法能够将具有不同基因型的样品一起合并到单个scRNA-seq实验中。这里，样品特异性遗传多态性充当原始样品的指纹，因此可用于在测序后将每个细胞指定给个体。该工作流程还能够检测源自两个个体的多联体，以与复用的样品数量成正比的比率减少不能识别的多联体。虽然这种高级方法要求合并的样品来自先前基因分型的个体，但是原则上任何指定样品指纹(其可以与scRNA-seq一起测量)的方法将能够实现类似的策略。例如，样品复用经常用于流式细胞术和质谱流式细胞术中，其通过用针对相同的泛表达的表面蛋白质但分别与不同的荧光团或同位素缀合的抗体来标记不同的样品。

我们最近引入了CITE-seq⁴⁶，其中寡核苷酸标签化的抗体用于将细胞表面蛋白质的检测转化为与scRNA-seq一起可测序的读数。我们推断，针对广泛存在的表面蛋白质的限定的寡核苷酸标签化的抗体集可以独特地标记不同的实验样品。这使我们能够将这些合并在一起，并使用条形码编码的抗体信号作为指纹用于可靠的解复用(demultiplexing)。我们将此方法称为细胞“散列”，因为我们的寡核苷酸集限定了“查找表”以将每个复用的细胞指定至其原始样品。我们通过以下来展示这种方法：标记和合并8个人PBMC样品，并在基于单个液滴的scRNA-seq运行中同时运行它们。细胞散列标签允许鲁棒样品复用、确信的多联体识别，以及从环境RNA中分辨低质量细胞。除了实现商业scRNA-seq平台的“超载”以大幅降低成本之外，这种策略还代表了可以迎合任何生物样品或实验设计的用于双联体识别和复用的通用方法。

A.基于广泛存在的表面蛋白质表达的散列标签实现的解复用

我们试图使用我们的CITE-seq方法的修改方案，将基于抗体的复用策略^73,74扩展到scRNA-seq。我们选择了针对广泛存在且高表达的免疫表面标志物(CD45、CD98、CD44和CD11a)的单克隆抗体集，并且将这些抗体组合到8个相同的池(池A至H)中，并且随后将每个池与不同的散列标签寡核苷酸(以下称为HTO，图6A)缀合。HTO含有独特的12-bp条形码，其可以与细胞转录组一起测序，只需对标准scRNA-seq方案进行微小修改。与使用iEDDA点击化学将寡核苷酸与抗体共价连接的先前方法⁴⁵相比，我们利用改进的和简化的缀合化学。

我们设计我们的策略使能够同时进行CITE-seq和细胞“散列”，但是生成分开的测序文库。具体而言，HTO含有与我们的标准CITE-seq抗体衍生标签(ADT)不同的扩增柄。这允许HTO、ADT和scRNA-seq文库以所需的数量独立扩增和合并。值得注意的是，我们之前已观察到由于高表达的表位的极高的拷贝数而来自它们的抗体信号的鲁棒恢复。这与针对scRNA-seq数据观察到的广泛“丢失”水平形成对比，并且表明我们可以如实地从每个单细胞恢复HTO，使能够以高准确度指定至原始样品。

为了对我们的策略进行基准测试并展示其效用，我们从8个单独的人供体(称为供体A至H)获得PBMC，并且用我们的HTO缀合的抗体池中的一个独立染色每个样品，同时用CITE-seq的7个免疫表型标志物的池进行滴定实验。我们随后将所有细胞以相等的比例合并在一起，连同相等数量的未染色的HEK-293T细胞(和3％的小鼠NIH-3T3细胞)作为阴性对照，并且在10x Genomics Chromium Single Cell 3’v2系统上的单个泳道中运行池。按照Kang等人的方法⁷¹，我们“超载”了10x Genomics仪器，以显著更高的浓度加载细胞，预期产量为20,000个单细胞和5,000个多联体。基于泊松统计，4,365个多联体应代表来自不同样品的细胞组合，并且可能被放弃，导致未解析的多联体率为3.1％。值得注意的是，在没有复用的情况下实现类似的多联体率将产生～4,000个单细胞体。由于商业的基于液滴的系统每次运行的成本是固定的，因此复用允许以相同的成本分析多～400％的细胞。

我们根据标准方案进行划分和反转录，仅利用略微修改的下游扩增策略来产生转录组、HTO和ADT文库。我们在Illumina HiSeq2500(两个快速运行的流动池)上合并并测序这些，目标是在测序数据中三个文库贡献90％:5％:5％。此外，我们用Illumina InfiniumCoreExome阵列对所有8个PBMC样品和HEK-293T细胞进行基因分型，允许我们利用HTO和样品基因型(通过demuxlet⁷¹评估)两者作为独立的解复用方法。

当检查两个HTO计数的成对表达时，我们观察到类似于“种类混合”图的关系(图6B)，表明单细胞体之间的HTO信号的互斥性。延伸到成对分析之外，我们还开发了简单的统计模型，以将每个条形码分类为对于每个HTO是“阳性”或“阴性”的。简而言之，我们将每个HTO的“背景”信号独立地建模为负二项分布，基于所有HTO读长的初始K-中心点聚类的结果估计背景细胞。具有高于该分布的99％分位数的HTO信号的条形码被标记为“阳性”，并且多于一个HTO为“阳性”的条形码被标记为多联体。我们对所有检测到至少200个RNA UMI而无论HTO信号如何的条形码进行了分类。我们的分类(在图6C中显现为热图)表明清楚识别8个单细胞体群以及多联体群组。我们还识别了任何HTO背景信号可忽略不计的条形码(标记为“阴性”)，其主要由(87.5％)HEK和小鼠细胞组成。我们从下游分析中去除了所有HEK和小鼠细胞，其余条形码代表13,964个单细胞体和2,463个可识别的多联体，符合预期。我们的分类也与tSNE嵌入完全一致，仅使用8个HTO信号计算，这使得不仅能够清晰地显现8组单细胞体(供体A至H)，而且还可以显现代表所有可能的双联体组合的28个小群组(图6D)。此外，如所预期的，我们观察到多联体的RNA UMI/条形码的分布的明显正向移位(图6E)，而剩余的阴性条形码代表较少的UMI并且可以表示失败反应或仅含有环境RNA的“空”液滴。这些结果有力地表明HTO成功地将每个条形码指定至其原始样品中，并且能够实现跨样品多联体的鲁棒检测。对分类的单细胞体进行转录组聚类使得能够清楚地检测到9个造血亚群，这些亚群散布在所有8个供体中(图6F)。

B.基于基因型的解复用验证细胞“散列”

接下来，我们将我们的基于HTO的分类与通过demuxlet⁷¹获得的分类进行了比较。总的来说，我们观察到这些技术之间的强一致性，即使当考虑召唤的双联体中的精确样品混合物时也是如此(图7A)。探索分歧的范围，我们识别了1,138个条形码，其基于HTO水平分类为单细胞体，但是被demuxlet识别为“不确定”。值得注意的是，这些非一致性条形码的HTO分类强度(由指定给最高表达的HTO的读长的数量表示)与被两种方法都分类为单细胞体的条形码相同(图7B)。然而，非一致性条形码确实具有降低的RNA UMI计数(图7C)。我们得出结论，这些条形码可能无法在我们的浅层测序深度(其低于使用demuxlet的推荐深度)进行遗传分类，但是基于我们的HTO分类可能代表真正单细胞。

此外，我们还观察到接收两种技术之间非一致性的单细胞体/双联体分类的2,547个条形码(图7D)。我们注意到这确实反映了少数条形码(与12,676个一致性分类相比)，并且在这些非一致性的实例中，难以确定这些方法中哪个是正确的。然而，当我们检查每个分类群组的UMI分布时，我们观察到只有两种技术都分类为双联体的条形码表现出转录组复杂性的正向移位(图7D)。这表明这些非一致性召唤主要由真正单细胞体构成，但是可能由于环境RNA或HTO信号，代表来自两种方法的保守假阳性。与此解释一致的是，当我们将我们的分析限制于其中以>95％概率demuxlet召唤条形码为双细胞体的实例时，我们观察到非一致性召唤数量下降71％(图7E)。

C.细胞散列能够有效优化CITE-seq抗体组

我们的复用策略不仅能够实现跨供体的合并，还能够同时分析多个实验条件。这广泛适用于同时分析各种环境和遗传扰动，但是我们推断我们还可以有效地优化实验工作流程，比如CITE-seq实验的抗体浓度滴定。在流式细胞术中，抗体通常在大的稀释系列上单独运行以评估信噪比并确定最佳浓度⁷⁵。虽然如果作为单独的10x Genomics泳道运行，这样的实验将极其成本过高，但是我们推断我们可以使用细胞“散列”将这些实验复用在一起。

因此，我们将来自不同供体的PBMC温育，其中抗体浓度的稀释系列范围超过三个数量级。不同样品之间的CITE-seq抗体的浓度被错开以保持每个样品中抗体和寡核苷酸的总量一致。在样品解复用之后，我们检查了每种抗体的跨越所有浓度的ADT分布(图8A-图8C中的实施例)，并通过计算类似于用于流式细胞术优化的常用度量的染色指数来评估信噪比(图8D)。

所有抗体在阴性对照条件下仅显示背景信号，并且在0.06μg/试验时显示非常弱的信噪比。我们观察到大多数抗体的信噪比在0.5至1μg/试验的浓度范围内开始饱和，与流式细胞术的推荐浓度相当(图8D)。该实验打算作为概念论证；理想的滴定实验将针对所有条件使用来自相同供体的细胞以及更大范围的浓度，但是清楚地展示细胞“散列”如何可用于快速和有效地优化实验工作流程。

D.细胞散列标签使得能够区分低质量细胞和环境RNA

我们的细胞标签可以基于单个HTO的清晰表达区分单细胞和双联体，并且我们接着询问这个特征是否也可以区分低质量细胞和环境RNA。如果是这样，这将使我们能够减少我们的UMI“截止值”(先前设定为200)，并且将允许代表环境RNA的某些条形码可以比一些真正单细胞表达更多的UMI的可能性。大多数工作流程设置了严格的UMI截止值以排除所有环境RNA，使针对具有低RNA含量的细胞的scRNA-seq结果具有偏差，并且可能使细胞类型的比例估计偏颇。

实际上，当考虑含有50-200个UMI的3,473个条形码时，我们基于HTO分类恢复了954个另外的单细胞体，其中2,432个条形码被表征为阴性。我们将每个条形码分类为我们先前确定的9个造血细胞群中的一个(图6F)，并且在转录组tSNE嵌入上显现结果，独立地计算“单细胞体”和“阴性”群组两者。对于预测的单细胞体，条形码投射到在tSNE上始终分离的B、NK、T和骨髓群，表明这些条形码代表真正单细胞(图8E)。相反，“阴性”条形码没有基于它们的强制分类而分离，与这些条形码一致，反映了可能混合多个亚群的环境RNA混合物。因此，我们得出结论，通过提供独立于转录组的样品身份的读数，细胞“散列”可以帮助恢复否则难以与环境RNA区分的低质量的细胞(图8F)。

E.方法

PBMC基因分型：外周血单核细胞获自AllCells(美国)。使用All-prep试剂盒(Qiagen，美国)纯化基因组DNA，并使用Infinium core exome 24阵列(Illumina，美国)根据制造商的说明书进行基因分型。

细胞培养：HEK293T(人)和NIH-3T3(小鼠)细胞在37℃与5％CO₂下根据标准程序保持在补充有10％胎牛血清(Thermo Fisher，美国)的Dulbecco's Modified Eagle’sMedium(Thermo Fisher，美国)中。

抗体-寡核苷酸缀合物：针对CD8[克隆号：RPA-T8]、CD45RA[克隆号：HI100]、CD4[克隆号：RPA-T4]、HLA-DR[克隆号：L243]、CD3[克隆号：UCHT1]、CCR7[克隆号：G043H7]和PD-1[克隆号：EH12.2H7]的抗体-寡核苷酸缀合物由BioLegend(美国)提供，平均每个抗体含有1-2个缀合的寡核苷酸。

用于细胞散列的抗体作为纯化的未缀合的试剂从BioLegend获得(CD45[克隆号：HI30]、CD98[克隆号：MEM-108]、CD44[克隆号：BJ18]和CD11a[克隆号：HI111])，并且如先前所述，通过iEDDA-点击化学与HTO共价且不可逆地缀合⁴⁵。简而言之，将抗体洗涤到1X硼酸盐缓冲盐水(50mM硼酸盐、150mM NaCl pH 8.5)中，并使用Amicon Ultra 0.5ml 30kDa MWCO离心过滤器(Millipore)浓缩至1mg/ml。将甲基四氮嗪-PEG4-NHS酯(Click ChemistryTools，美国)溶解在干燥DMSO中，并以30倍过量加入到抗体中，并使其在室温下反应30分钟。通过加入甘氨酸淬灭残留的NHS基团，并且通过离心过滤除去未反应的标记。5'-胺HTO从Integrated DNA Technologies(美国)订购，并在补充有20％DMSO的1X硼酸盐缓冲盐水中与20倍过量的反式环辛烯-PEG4-NHS(Click Chemistry Tools，美国)反应30分钟。通过添加甘氨酸淬灭残留的NHS基团，并通过脱盐(Bio-Rad Micro Bio-Spin P6)除去残留的标记。通过将适当的标记抗体和HTO混合并在室温下温育至少1小时来形成抗体-寡核苷酸缀合物。通过加入反式环辛烯-PEG4-酸淬灭抗体上残留的甲基四嗪基团，并使用AmiconUltra 0.5ml 50kDa MWCO过滤器(Millipore，美国)离心过滤除去未反应的寡核苷酸。

抗体滴定系列：为了测试根据CITE-seq实验由BioLegend(美国)提供的抗体-寡核苷酸缀合物的最佳浓度，我们针对每种缀合物测试了5μg、3μg、1μg、0.5μg、0.25μg、0.06μg和0μg。不同批次错开滴定以使抗体和寡核苷酸的总浓度在条件之间保持一致(参见下表4)。

样品合并：将来自不同供体的PBMC用我们的HTO缀合的抗体池中的一个和用于CITE-seq的7种免疫表型标志物的池以不同的量独立染色(参见上文)。将所有8个PBMC样品以相等浓度合并，与作为阴性对照的未标记的HEK293T和小鼠3T3一起，并加载到10xChromium仪器中(参见下表5)。

10x Genomics仪器上的CITE-seq：如针对CITE-seq⁴⁶所述，用散列标签化抗体和CITE-seq抗体“染色”细胞。将“染色”并洗涤的细胞加载到10x Genomics single cell 3’v2工作流程中，并根据制造商的说明书进行处理直至cDNA扩增步骤(10x Genomics，美国)。将2pmol的HTO和ADT添加剂寡核苷酸加标到cDNA扩增PCR中，并根据10x Single Cell 3’v2方案(10x Genomics，美国)扩增cDNA。PCR之后，使用0.6X SPRI将源自细胞mRNA的大cDNA部分(保留在珠上)与含有ADT和散列标签的部分(上清液)分离。根据10x Genomics SingleCell 3’v2方案处理cDNA部分以产生转录组文库。加入另外1.4X反应体积的SPRI珠到ADT/散列标签部分使比率提高到2.0X。用80％乙醇洗涤珠，在水中洗脱，并且进行另外一轮2.0XSPRI以从cDNA扩增中去除过量的单链寡核苷酸。在最终洗脱后，建立分开的PCR以产生CITEseq ADT文库(SI-PCR和RPI-x引物)和散列标签文库(SI-PCR和D7xx_s)。针对CITE-seq的详细且定期更新的点对点方案、细胞散列标签化和未来更新可以在www.cite-seq.com上找到。

单细胞数据处理：将来自10x文库的具有四个不同条形码的Fastq文件合并在一起，并使用标准Drop-seq管道处理(Drop-seq工具vl.0，McCarroll Lab)。将读数与hg19-mm10级联参考比对，并且我们将原始数字表达矩阵中前50,000个细胞条形码包括作为从Drop-seq工具的输出。对于ADT和HTO量化，我们将先前开发的标签量化管道⁴⁶实施为python脚本，其可在https://github.com/Hoohm/CITE-seq-Count上获得，并使用默认参数运行(最大汉明距离为1)。

使用demuxlet对基因分型数据解复用：我们首先使用PLINK命令行工具(版本1.07)生成VCF文件，其含有来自Infinium core exome24阵列输出的个体基因型(GT)。该VCF文件(其含有8个PBMC供体以及HEK细胞的基因型信息)和来自Drop-seq管道的标签化bam文件用作demuxlet⁷¹的输入，伴随默认参数。

单细胞RNA数据处理：使用能够集成处理多模态(RNA、ADT、HTO)单细胞数据集的Seurat R包(版本2.1，Satija Lab)^78,79进行RNA数据的归一化和下游分析。我们使用CollapseSpeciesExpressionMatrix函数折叠了联合种类RNA表达矩阵，以仅包括前100个最高表达的小鼠基因(以及所有人基因)。

我们首先考虑了其中我们在转录组数据中检测到至少200个UMI的22,119个条形码集。由于HEK和3T3细胞未用HTO标记，所以我们基于它们的转录组识别了这些细胞。我们通过对500个最高表达基因进行PCA来进行低分辨率预聚类，然后是基于前五个主成分在距离矩阵上进行Louvain-Jaccard聚类^58,80,81。基于该聚类，我们识别了248个3T3细胞和3,401个HEK细胞，其余代表PBMC。

作为HEK身份的单独测试，我们检查了可能的HEK细胞的demuxlet基因型。我们通过demuxlet算法观察到1,668个条形码被分类为HEK，但是其转录组与PBMC聚类。与转录组分类的HEK细胞相比，这些细胞表达的UMI少十倍，并且不表达HEK特异性转录物(即NGFRAP1)，均与PBMC身份一致。因此，我们将这些条形码排除在所有进一步分析之外。

基于HTO水平的条形码分类：使用中心对数比(CLR)转换对HTO原始计数归一化，其中将计数除以跨细胞的HTO的几何平均值，并对数转换：

这里xi表示细胞i中指定HTO的计数，n为总细胞数，log表示自然对数。归一化的或原始的HTO计数的成对分析(图6B)揭示了互斥关系，然而确定阳性和阴性信号的确切截止值需要进一步分析。我们推断如果我们可以基于“阴性”细胞确定每个HTO的背景分布，那么相对于该分布的异常值将代表阳性信号。

为了有助于无监督识别“阴性”细胞，我们基于归一化的HTO数据对所有细胞进行了初始k-中心点聚类。我们设定k＝9，并观察到(如预期的)8个聚类对于表达特定HTO高度富集，而第9个聚类对于具有低表达所有HTO的细胞高度富集。这代表解复用问题的初始解决方案，其表明用于统计分析的可能的“阳性”和“阴性”细胞群。

在聚类之后，我们针对8个HTO中的每个独立地进行以下程序。我们识别了具有最高平均HTO表达的k-中心点聚类，并排除了这些细胞。在进一步排除最高0.5％的值作为潜在异常值之后，我们接下来将负二项分布拟合到剩余的HTO值。我们计算拟合分布的q＝0.99分位数，并基于该HTO特定值对数据集中的每个细胞阈值化。

我们使用该程序来确定每个条形码的“HTO分类”。仅对一个HTO呈阳性的条形码被分类为单细胞体。对两个或更多个HTO呈阳性的条形码被分类为双联体，并且基于样品ID的两个最高表达的HTO指定样品ID。对所有8个HTO均呈阴性的条形码被分类为“阴性”。

我们期望被分类为“单细胞体”的条形码代表单细胞，因为我们仅检测到单个HTO。然而，它们也可以代表具有HEK或3T3细胞的PBMC的双联体，因为后两个群体是未标记的并且代表阴性对照。实际上，当我们分析转录组注释为HEK或3T3细胞的细胞的“HTO分类”时，我们发现73.4％被注释为“阴性”，而29.2％被注释为单细胞体，与我们的“超载”10x实验中的预期比率完全一致。这些细胞出现在图6C中的热图中，但是所有HEK和3T3细胞都被排除在进一步分析之外。

对于HTO水平的二维显现(图1D)，我们使用从归一化的HTO数据计算的欧几里德距离作为tSNE的输入。如前所述，细胞基于它们的HTO分类被着色。对于基于转录组数据的显现和聚类(图6F)，我们首先对2,000个最高可变基因(由方差/平均值比确定)进行PCA，并且使用由前11个主成分限定的距离矩阵作为Seurat中tSNE和基于图的聚类的输入(图6E)。我们基于已知造血群体的典型标志物注释了9个聚类。

与demuxlet的比较：根据*.best输出文件中的BEST栏，将Demuxlet分类标记为单细胞体(SNG)、双联体(DBL)或不确定(AMB)。在图7E中，我们从同一文件中的PRB.DBL栏绘制双联体指定的后验概率。

计算抗体滴定的染色指数：为了评估CITE-seq实验的最佳染色效率，我们考虑了跨越一系列抗体浓度的细胞的ADT水平，如在滴定系列中复用的。使用原始计数的CLR转化将ADT水平归一化，使用与先前描述的HTO水平归一化相同的方法。

归一化后，我们基于流式细胞术中的标准方法计算染色指数，其检测阳性和阴性峰值中位数之间的差，除以阴性峰值的分散度(即平均绝对偏差的两倍)。

为了避免手动分类阳性和阴性峰，我们实施了可以缩放规模到多种抗体和浓度的自动化程序。为了近似阴性峰，我们利用未染色的对照细胞(供体H)。为了近似阳性峰，我们在每个滴定实验(供体A至供体G)中将ADT数据聚类。为了进行聚类，我们基于归一化的ADT水平计算了跨细胞的欧几里德距离矩阵，并使用此作为Seurat中FindClusters函数的输入，伴随默认参数。我们检查了结果以识别具有最大富集的ADT信号的聚类，并且将该聚类内的ADT水平的分布称为阳性峰。

区分低质量细胞与环境RNA：我们使用先前确定的HTO阈值对低质量条形码(表达50和200个UMI)进行HTO分类。对于每个条形码，我们将其表达分类为我们先前使用随机森林确定的9个造血群体中的一个，如R27中的ranger包中所实施的。我们首先在13,757个PBMC上训练分类器，使用2,000个最可变的基因作为输入，并将它们的聚类身份作为训练标记。然后，我们将此分类器应用于每个低质量条形码。我们注意到，此分类器保证为每个条形码返回结果。

实施例10中描述的该过程用于基于液滴的方法，但是也适用于基于微孔的方法。

可以使用组合分裂池(split-pool)散列标签化增加条形码的数量，从而增加双联体检测能力。如果第一轮条形码限定不同的条件或样品，则散列标签化方法是原位条形码方法(SPLiT-seq、sci-RNAseq)所固有的。与demuxlet相反，该方法可用于复用相同基因型的样品。无需对样品进行基因分型。该过程可以扩展到条形码编码的细胞核。

在这里，我们介绍了一种新的scRNA-seq复用方法，其中细胞用样品特异性“散列标签”标记，用于下游解复用和双联体检测。我们的方法是对先驱遗传复用策略的补充，其中每种策略具有独特的优势。遗传复用不利用外源条形码，因此在样品合并之前或之后不需要改变现有工作流程。相反，细胞“散列”需要与针对泛表达的表面蛋白质的抗体一起温育，但是可以复用具有相同基因型的样品。由于识别SNP所需的深度或读长长度增加(遗传方法)或HTO文库的测序(细胞“散列”；大约5％的转录组测序成本)，两种方法确实略微增加了下游测序成本。我们相信研究人员将从两种方法中受益，能够实现大范围实验设计的复用。特别地，我们设想我们的方法当处理经受不同扰动(或实验条件/优化，如我们的滴定实验)的遗传上相同的样品时最有用，或者当运行来自单个样品的细胞时降低双联体率。

通过实现细胞多联体的鲁棒识别，细胞“散列”和遗传复用都允许scRNA-seq平台的“超载”。我们在10x Genomics Chromium系统的背景下展示了这一点，但这种益处适用于任何依靠泊松负载进行细胞分离的单细胞技术。因此，文库制备的每细胞成本节省可以是显著的，随着复用的样品数量的增加接近一个数量级。值得注意的是，细胞“散列”甚至能够使单个样品高度复用，因为可以将细胞分成任意数量的池。如Kang等人71中清楚讨论的那样，文库制备的节省部分地被必须被测序和丢弃的源自多联体的读长抵消。尽管如此，随着测序成本的持续下降，以及实验设计寻求最小化技术驱动的批次效应，复用应该促进生成大型scRNA-seq和CITE-seq数据集。基于转录组数据的多联体的信息检测对于该领域仍然是重要的挑战，例如，识别源自相同样品内的两个细胞的双联体。

在我们目前的研究中，我们使用针对高表达和泛表达的淋巴细胞表面蛋白质的抗体池作为我们的HTO的载体。该策略旨在减轻任何一种标志物的表达的随机变化或细胞类型变化将在HTO恢复中引入偏差的可能性。向前发展，我们期望的是针对泛表达的标志物的更通用的抗体池用作用于造血系统之外的研究的通用细胞“散列”试剂。随着对单核测序76的兴趣日益增加，针对核蛋白质的另外的“散列”试剂集将进一步推广该方法。抗体/表位相互作用之外，细胞或细胞核，包括其他蛋白质：蛋白质相互作用，适体77，或寡核苷酸与细胞或细胞核的直接化学缀合。这些改进将进一步使复用策略能够推广到各种实验，无论种类、组织或技术如何。

每个专利、专利申请(包括美国临时专利申请No.62/453726、No.62/515180、No.62/549189、No.62/559228、No.62/599450和No.62/609332说明书)和出版物(包括整个说明书中引用的网站)以及在说明书中确认的序列通过引用并入本文。虽然已经参考特定实施方式描述了本发明，但是应理解，可以在不脱离本发明的精神的情况下进行修改。这样的修改旨在落入所附权利要求的范围内。

表7中的以下信息是针对含有在数字标识符<223>下的自由文字的序列提供的。

/>

参考文献

1.Macosko,E.Z.等.Highly Parallel Genome-wide Expression Profiling ofIndividual Cells Using Nanoliter Droplets.CELL 161,1202–1214(2015).

2.Klein,A.M.等.Droplet Barcoding for Single-Cell TranscriptomicsApplied to Embryonic Stem Cells.CELL 161,1187–1201(2015).

3.Zheng,G.X.Y.等.Massively parallel digital transcriptional profilingof single cells.bioRxiv 1–46(Cold Spring Harbor Labs Journals,2016).doi:10.1101/065912；还有,Nat.Commun.8,1–12(2017)；doi:10.1038/ncomms14049(2017).

4.B.等.Global quantification of mammalian geneexpression control.Nature 473,337–342(2011).

5.Grün,D.等.Conservation of mRNA and Protein Expression duringDevelopment of C.elegans.Cell Reports 6,565–577(2014).

6.Stoeckius,M.等.Global characterization of the oocyte-to-embryotransition in Caenorhabditis elegans uncovers a novel mRNA clearancemechanism.The EMBO Journal 33,1751–1766(2014).

7.Pontén,F.等.A global view of protein expression in human cells,tissues,and organs.Mol Syst Biol 5,337(2009).

8.Paul,F.等.Transcriptional Heterogeneity and Lineage Commitment inMyeloid Progenitors.CELL 163,1663–1677(2015).

9.Wilson,N.K.等.Combined Single-Cell Functional and Gene ExpressionAnalysis Resolves Heterogeneity within Stem Cell Populations.CELL STEM CELL16,712–724(2015).

10.A.等.Quantitative PCR analysis of DNA,RNAs,and proteinsin the same single cell.Clinical Chemistry 58,1682–1691(2012).

11.Genshaft,A.S.等.Multiplexed,targeted profiling of single-cellproteomes and transcriptomes in a single reaction.Genome Biol.17:188(2016).doi:10.1186/s13059-016-1045-6

12.Albayrak,C.等.Digital Quantification of Proteins and mRNA inSingle Mammalian Cells.Molecular Cell 61,914–924(2016).

13.Darmanis,S.等.Simultaneous Multiplexed Measurement of RNA andProteins in Single Cells.CellReports 14,380–389(2016).

14.Frei,A.P.等.Highly multiplexed simultaneous detection of RNAs andproteins in single cells.Nature Methods 13,269–275(2016).

15.Sano,T.等.Immuno-PCR:very sensitive antigen detection by means ofspecific antibody-DNA conjugates.SCIENCE-NEW YORK THEN…(1992).

16.Gullberg,M.等.A sense of closeness:protein detection by proximityligation.Current Opinion in Biotechnology 14,82–86(2003).

17.Chattopadhyay,P.K.&Roederer,M.Cytometry:Today’s technology andtomorrow’s horizons.Methods 57,251–258(2012).

18.Bendall,S.C.&Nolan,G.P.From single cells to deep phenotypes incancer.Nat Biotechnol 1–9(2012).doi:10.1038/nbt.2283

19.Adler,M.等.Sensitivity by combination:Immuno-PCR and relatedtechnologies.Analyst 133,702–18(2008).

20.Cao,Junyue等.Comprehensive single cell transcriptional profilingof a multicellular organism by combinatorial indexing.Sci.,357(6352):661-667(2017).

21.Bendall,S.C.&Nolan,G.P.From single cells to deep phenotypes incancer.Nat Biotechnol 1–9(2012).

22.Baumgarth,N.,Roederer,M.A practical approach to multicolor flowcytometry for immunophenotyping.J Immunol Methods 243,77-97(2000)

23.Mortazavi等.Mapping and quantifying mammalian transcriptomes byRNA-seq.Nature Methods 5,621-628(2008)

24.Hermanson,G.T.Bioconjugation Techniques.第二版.Academic Press,圣地亚哥,加利福尼亚州(2008)

25.Lizardi,P.M.等.Mutation detection and single-molecule countingusing isothermal rolling-circle amplification.Nat Genet.1998；19:225–232.

26.Assarsson,E.等.Homogenous 96-plex PEA immunoassay exhibiting highsensitivity,specificity,and excellent scalability.PLOS ONE.2014；9:e95192.

27.Fakruddin,MD等.“Nucleic acid amplification:Alternative methods ofpolymerase chain reaction.”Journal of Pharmacy and Bioallied Sciences 5.4(2013):245.

28.Nimse,SB等.Immobilization techniques for microarray:challenges andapplications.Sensors 14.12(2014):22208-22229.

29.Heise,C.和Bier,FF.Immobilization of DNA onmicroarrays.Immobilization of DNA on Chips II.Springer Berlin Heidelberg,2005.1-25.

30.Rosenberg,Alexander B.等.Scaling single cell transcriptomicsthrough split pool barcoding.bioRxiv(2017):105163

31.Li,Zhenhua等.DNA nanostructure-based universal microarray platformfor high-efficiency multiplex bioanalysis in biofluids.ACS applied materials&interfaces6(20)(2014):17944-17953

32.Zhao,Hong等.Cell fixation in zinc salt solution is compatible withDNA damage response detection by phospho-specific antibodies.Cytometry A部分79.6(2011):470-476.

33.Iglesias-Ussel,Maria,Luigi Marchionni和Fabio Romerio.Isolation ofmicroarray-quality RNA from primary human cells after intracellularimmunostaining and fluorescence-activated cell sorting.Journal ofImmunological Methods 391.1(2013):22-30.

34.L.J.P.van der Maaten和G.E.Hinton.Visualizing High-Dimensional DataUsing t-SNE.Journal of Machine Learning Research 9(2008年11月):2579-2605

35.Gierahn TM等,Seq-Well:portable,low-cost RNA sequencing of singlecells at high throughput.Nat.Methods,2017年4月,14(4):395-398(电子出版2017年2月13日)

36.Crosetto,Nicola,Magda Bienko和Alexander Van Oudenaarden.Spatiallyresolved transcriptomics and beyond.Nature Reviews Genetics 16.1(2015):57-66

37.Leah Cannon,Single Cell Analysis:A Mini-Report,lifesciencenetwork.com/blogs/leah-cannon/2017/03/21/single-cell-analysis-a-mini-report,2017年3月

38.Zhang,Kai等.Single-cell isolation by a modular single-cell pipettefor RNA-sequencing.Lab on a Chip 16.24(2016):4742-4748；

39.Poulin,Jean-Francois等.Disentangling neural cell diversity usingsingle-cell transcriptomics.Nature neuroscience 19.9(2016):1131-1141

40.Picelli,Simone.Single-cell RNA-sequencing:The future of genomebiology is now.RNA biology(2016):1-14)

41.Lai,Shujing等.Mapping Human Hematopoietic Hierarchy At Single CellResolution By Microwell-seq.bioRxiv(2017):127217

42.Xin,Yurong等.Use of the Fluidigm C1 platform for RNA sequencing ofsingle mouse pancreatic islet cells.Proceedings of the National Academy ofSciences(2016):201602306

43.Islam,Saiful等.Quantitative single-cell RNA-seq with uniquemolecular identifiers.Nature methods 11.2(2014):163-166

44.Wu,Angela R.等.Quantitative assessment of single-cell RNA-sequencing methods.Nature methods 11.1(2014):41-46

45.van Buggenum,MAGL等,A covalent and cleavable antibody-DNAconjugation strategy for sensitive protein detection via immuno-PCR,Sci.Reports,6:22675,DOI:10.1038/srep22675

46.Stoeckius M等,Simultaneous epitope and transcriptome measurementin single cells 2017年7月31日,Nature Methods 9,2579–10(2017).DOI:10.1038/NMeth.4380

47.Murphy,K.,Travers,P.&Walport,M.Janeway’s Immunobiology第七版(Garland Publishing,2008).

48.Robinson,J.P.&Roederer,M.,Flow Cytometry Strikes Gold,Science 350,739-740(2015).

49.Fan,H.C.,Fu,G.K.&Fodor,S.P.A.,Combinatorial labeling of singlecells for gene expression cytometry,Science 347,1258367(2015).

50.Poli,A.等,CD⁵⁶bright natural killer(NK)cells:an important NK cellsubset,Immunology 126,458–465(2009).

51.Ferlazzo,G.&Münz,C.J.,NK Cell Compartments and Their Activation byDendritic Cells,Immunol.172,1333–1339(2004).

52.Wendt,K.等,Gene and protein characteristics reflect functionaldiversity of CD⁵⁶dim and CD⁵⁶bright NK cells.,J.Leukoc.Biol.80,1529–1541(2006).

53.Shahi,P.,Kim,S.C.,Haliburton,J.R.,Gartner,Z.J.&Abate,A.R.,Abseq:Ultrahigh-throughput single cell protein profiling with droplet microfluidicbarcoding,Sci.Rep.7,44447(2017).

54.Yuan,J.&Sims,P.A.An Automated Microwell Platform for Large-ScaleSingle Cell RNA-Seq.Sci.Rep.6,33883(2016).

55.Gierahn,T.M.等.Seq-Well:portable,low-cost RNA sequencing of singlecells at high throughput,Nat.Methods 14,395–398(2017).

56.Baranauskas,A.等.Generation and characterization of new highlythermostable and processive M-MuLV reverse transcriptase variants,ProteinEng.Des.Sel.25,657–668(2012).

57.Breton,G.,Lee,J.,Liu,K.&Nussenzweig,M.C.Defining human dendriticcell progenitors by multiparametric flow cytometry,Nat.Protoc.10,1407–1422(2015).

58.Blondel,V.D.等.Fast unfolding of communities in large networks,J.Stat.Mech.2008,P10008(2008).

59.van der Maaten,L.J.Mach.Learn.Res.15,1–21(2014).

60.Stoeckius,M.&Smibert,Cite-seq,Protocol Exchange http://dx.doi.org/10.1038/protex.2017.068(31July 2017).

61.Aitchison,J.,Measures of location of compositional data sets.,Math.Geol.21(7):787–790(1989).

62.Kang,H.M.等,Multiplexing droplet-based single cell RNA-sequencingusing natural genetic barcodes,bioRxiv 118778；doi:https://doi.org/10.1101/118778

63.Stubbington,M.J.T.,Rozenblatt-Rosen,O.,Regev,A.&Teichmann,S.A.Single-cell transcriptomics to explore the immune systemin health anddisease.Science358,58–63(2017).

64.Tanay,A.&Regev,A.Scaling single-cell genomics from phenomenologyto mechanism.Nature 541,331–338(2017).

65.Villani,A.-C.等.Single-cell RNA-seq reveals new types of humanblood dendritic cells,monocytes,and progenitors.Science 356,(2017).

66.Velten,L.等.Human haematopoietic stem cell lineage commitment is acontinuous process.Nature Cell Biology 19,271–281(2017).

67.Karaiskos,N.等.The Drosophila embryo at single-cell transcriptomeresolution.Science 8,eaan3235–14(2017).

68.Regev,A.等.Science Forum:The Human Cell Atlas.eLife 6,e27041(2017).

69.Stegle,O.,Teichmann,S.A.&Marioni,J.C.Computational and analyticalchallenges in single-cell transcriptomics.Nature Publishing Group 16,133–145(2015).

70.Hicks,S.C.等.Missing data and technical variability in single-cellRNA-sequencing experiments.Biostatistics(2017).doi:10.1093/biostatistics/kxx053

71.Kang,H.M.等.Multiplexed droplet single-cell RNA-sequencing usingnatural genetic variation.Nature Biotechnology(2017).doi:10.1038/nbt.4042

72.Tung,P.-Y.等.Batch effects and the effective design of single-cellgene expression studies.Scientific Reports 7,39921(2017).

73.Krutzik,P.O.&Nolan,G.P.Fluorescent cell barcoding in flowcytometry allows highthroughput drug screening and signaling profiling.NatMeth 3,361–368(2006).

74.Lai,L.,Ong,R.,Li,J.&Albani,S.A CD45-based barcoding approach tomultiplex masscytometry(CyTOF).Cytometry 87,369–374(2015).

75.Hulspas,R.Titration of fluorochrome-conjugated antibodies forlabeling cell surface markers on live cells.Curr Protoc Cytom第6章,第6.29节(2010).

76.Lake,B.B.等.A comparative strategy for single-nucleus and single-cell transcriptomes confirms accuracy in predicted cell-type expression fromnuclear RNA.Scientific Reports 1–8(2017).doi:10.1038/s41598-017-04426-w

77.Delley,C.L.,liu,L.,Sarhan,M.F.&Abate,A.R.Combined aptamer andtranscriptome sequencing of single cells.bioRxiv 1–10(2017).doi:10.1101/228338

78.Satija,R.,Farrell,J.A.,Gennert,D.,Schier,A.F.&Regev,A.Spatialreconstruction of single-cell gene expression data.Nature Biotechnology 33,495–502(2015).

79.Butler,A.&Satija,R.Integrated analysis of single celltranscriptomic data across conditions,technologies,and species.bioRxiv(2017).doi:10.1101/164889

80.Levine,J.H.等.Data-Driven Phenotypic Dissection of AML RevealsProgenitor-like Cells that Correlate with Prognosis.Cell 162,184–197(2015).

81.Shekhar,K.等.Comprehensive Classification of Retinal BipolarNeurons by Single-Cell Transcriptomics.Cell 166,1308–1323.e30(2016).

82.Wright,M.N.&Ziegler,A.ranger:A Fast Implementation of RandomForests for High Dimensional Data in C and R.Journal of Statistical Software77,(2017).

Claims

1.一种用于在多重测定中检测样品或靶标的方法，所述方法包括：

a)使第一样品与第一构建体接触，所述第一构建体包括与第一寡核苷酸连接的第一配体，其中所述第一配体与第一靶标特异性结合，并且所述第一寡核苷酸包括：

i)第一扩增柄，

ii)第一条形码，其特异性识别所述第一样品，和

iii)第一锚。

2.根据权利要求1所述的方法，进一步包括：

b)使第二样品与第二构建体接触，所述第二构建体包括与第二寡核苷酸连接的第二配体，其中所述第二配体与第二靶标特异性结合，并且所述第二寡核苷酸包括：

i)第二扩增柄，

ii)第二条形码，其特异性识别所述第二样品，和

iii)第二锚。

3.根据权利要求1或2所述的方法，其中，所述第一靶标和所述第二靶标是相同的靶标，并且可选地，所述第一扩增柄和所述第二扩增柄大致相同，并且可选地，所述第一锚和所述第二锚大致相同。

4.根据权利要求2或3所述的方法，进一步包括：

c)使所述第一样品和所述第二样品与第三构建体接触，所述第三构建体包括与第三寡核苷酸连接的第三配体，其中所述第三配体与第三靶标特异性结合，并且所述第三寡核苷酸包括：

(i)第三扩增柄，

(ii)第三条形码，其特异性识别所述第三配体，和

(iii)第三锚。

5.根据权利要求4所述的方法，进一步包括：

d)使所述第一样品和所述第二样品与第四构建体接触，所述第四构建体包括与第四寡核苷酸连接的第四配体，其中所述第四配体特异性结合第四靶标，并且所述第四寡核苷酸包括：

i)第四扩增柄，

ii)第四条形码，其特异性识别所述第四配体，和

iii)第四锚。

6.根据权利要求4或5所述的方法，其中所述第三扩增柄和所述第四扩增柄大致相同，并且不同于所述第一扩增柄和所述第二扩增柄。

7.根据权利要求1至6中任一项所述的方法，其中所述第一锚、所述第二锚、所述第三锚和所述第四锚大致相同，并且可选地包括长度为至少10个核苷酸的多聚A序列。

8.根据权利要求1至7中任一项所述的方法，其中所述第三靶标和所述第四靶标是不同的靶标，并且可选地，所述第三靶标与所述第一靶标或所述第二靶标不同，并且可选地，所述第四靶标与所述第一靶标或所述第二靶标不同。

9.根据权利要求2至8中任一项所述的方法，进一步包括：

e)使第三样品与第五构建体接触，所述第五构建体包括与第五靶标特异性结合的第五配体，其中所述第五靶标可选地与所述第一靶标相同，并且所述第五配体与第五寡核苷酸连接，所述第五寡核苷酸包括：

i)第五扩增柄，所述第五扩增柄可选地与所述第一扩增柄大致相同，

ii)第五条形码，其特异性识别所述第三样品，和

iii)第五锚，所述第五锚可选地与所述第一锚大致相同，并且可选地包括多聚A序列。

10.根据权利要求5至9中任一项所述的方法，进一步包括：

f)使所述第一样品和所述第二样品以及可选地另外的样品与包括第六配体的第六构建体接触，其中所述第六配体与第六靶标特异性结合，并且与第六寡核苷酸连接，所述第六寡核苷酸包括：

i)第六扩增柄，所述第六扩增柄可选地与所述第三扩增柄大致相同，

ii)第六条形码，其特异性识别所述第六靶标，和

iii)第六锚，所述第六锚可选地与所述第三锚相同，并且可选地包括多聚A序列。

11.根据权利要求1至10中任一项所述的方法，其中所述第一样品和所述第二样品，以及可选地一个或多个另外的样品，包括一个或多个细胞，并且所述第一、第二、第三、第四、第五和第六靶标存在于所述一个或多个细胞中的至少一个中或其表面上。

12.根据权利要求11所述的方法，其中(a)、(b)、(c)、(d)、(e)或(f)的所述接触包括使所述第一样品、所述第二样品和可选的另外的样品的所述一个或多个细胞与所述第一、第二、第三、第四、第五或第六构建体接触。

13.根据权利要求1至10中任一项所述的方法，其中所述第一样品和所述第二样品，以及可选地一个或多个另外的样品，包括一个或多个细胞器、线粒体、外来体、脂质体、合成或天然存在的囊泡、微囊泡、外体、细胞核、细菌、病毒、珠、颗粒、微粒、纳米颗粒、大分子以及合成或天然存在的脂质、磷脂或膜球，并且所述第一、第二、第三、第四、第五和第六靶标存在于所述一个或多个细胞器、线粒体、外来体、脂质体、合成或天然存在的囊泡、微囊泡、外体、细胞核、细菌、病毒、珠、颗粒、微粒、纳米颗粒、大分子以及合成或天然存在的脂质、磷脂或膜球中的至少一个中或其表面上。

14.根据权利要求13所述的方法，其中(a)、(b)、(c)、(d)、(e)或(f)的所述接触包括使所述第一样品、所述第二样品和可选的另外的样品的所述一个或多个细胞器、线粒体、外来体、脂质体、合成或天然存在的囊泡、微囊泡、外体、细胞核、细菌、病毒、珠、颗粒、微粒、纳米颗粒、大分子以及合成或天然存在的脂质、磷脂或膜球与所述第一、第二、第三、第四、第五或第六构建体接触。

15.根据权利要求1至14中任一项所述的方法，其中(a)和(b)以及可选地(e)的所述接触在(c)、(d)或(f)中任一个的所述接触之前进行。

16.根据权利要求1至15中任一项所述的方法，其中(c)、(d)或(f)的所述接触包括使所述第一样品、所述第二样品和可选地另外的样品的混合物与所述第三、第四或第六构建体接触。

17.根据权利要求1至16中任一项所述的方法，其中所述第一、第二、第三、第四、第五或第六配体包括抗体或其抗原结合片段。

18.根据权利要求1至17中任一项所述的方法，其中(i)所述第一、第二、第三、第四、第五或第六锚分别位于所述第一、第二、第三、第四、第五或第六扩增柄的3'，且分别位于所述第一、第二、第三、第四、第五或第六条形码的3'；并且可选地，(ii)所述第一、第二、第三、第四、第五或第六扩增柄分别位于所述第一、第二、第三、第四、第五或第六条形码的5'，且分别位于所述第一、第二、第三、第四、第五或第六锚的5'。

19.根据权利要求1至18中任一项所述的方法，进一步包括在步骤(a)、(b)、(c)、(d)、(e)或(f)中的任何一个或多个之后洗涤所述第一样品、所述第二样品或所述第一样品和所述第二样品以及可选地另外的样品的混合物，以去除未结合的构建体。

20.根据权利要求11、12、15至19中任一项所述的方法，进一步包括在(a)、(b)、(c)、(d)、(e)或(f)之后，将所述第一、第二或第三样品中的一个的第一单细胞封装在第一液滴中，所述第一液滴包括与多个第一捕获寡核苷酸缀合的第一珠，所述第一捕获寡核苷酸从5'至3'包括第七扩增柄、识别所述第一珠的第七条形码和与所述第一、第二、第三、第四、第五或第六锚序列互补的序列，并且可选地将所述第一、第二或第三样品中的一个的第二单细胞封装在第二液滴中，所述第二液滴包括与多个第二捕获寡核苷酸缀合的第二珠，所述第二捕获寡核苷酸从5'至3'包括所述第七扩增柄、识别所述第二珠的第八条形码和与所述第一、第二、第三、第四、第五或第六锚序列互补的序列。

21.根据权利要求20所述的方法，进一步包括，使所述第一单细胞和所述第二单细胞裂解，从而提供封装在所述第一液滴中的第一裂解物和封装在所述第二液滴中的第二裂解物，其中所述第一裂解物和所述第二裂解物可选地包括mRNA。

22.根据权利要求20或21所述的方法，进一步包括使所述第一细胞和所述第二细胞的所述裂解物与聚合酶接触。

23.根据权利要求20至22中任一项所述的方法，进一步包括产生所述第一、第二、第三、第四、第五或第六寡核苷酸的cDNA和双链寡核苷酸序列。

24.根据权利要求20至23中任一项所述的方法，进一步包括扩增或检测所述第一、第二、第三、第四、第五或第六条形码序列。

25.根据权利要求24所述的方法，其中所述扩增或检测包括确定所述第一、第二和第三样品的存在、量或不存在，以及可选地，确定所述第一、第二、第三、第四、第五或第六靶标的存在、量或不存在。

26.根据权利要求1至25中任一项所述的方法，其中所述第一、第二、第三、第四、第五或第六寡核苷酸或者所述第一或第二捕获寡核苷酸包括UMI。

27.根据权利要求1至26中任一项所述的方法，其中所述第一、第二、第三、第四、第五和第六锚大致相同并且可选地包括多聚A序列。

28.根据权利要求24至27中任一项所述的方法，其中所述检测是通过包括杂交或核酸测序的过程进行的。

29.根据权利要求1至28中任一项所述的方法，其中所述第一、第二、第三、第四、第五和第六靶标独立地选自蛋白质、氨基酸、碳水化合物或多糖、脂质、核酸、化合物、分子、抗原、细胞、病毒、细菌等，或其组合。

30.根据权利要求1至29中任一项所述的方法，其中所述方法包括使多个样品接触多个构建体，所述多个构建体被配置为独立地检测多个样品和/或靶标的存在、量或不存在。

31.根据权利要求30所述的方法，其中所述多个样品包括2至1000个样品，所述多个构建体包括2至1000个构建体，并且所述多个靶标包括2至1000个靶标。

32.一种用于检测生物样品中的一个或多个靶标的方法，所述方法包括使所述生物样品与以下中的一个或多个接触：

a.包括第一构建体的组合物，所述第一构建体包括通过连接体与聚合物构建体连接或缀合的第一配体，所述第一配体与第一靶标特异性结合，并且所述聚合物构建体包括：扩增柄；特异性识别所述第一配体的条形码；可选的独特分子标识符，所述独特分子标识符定位于邻近所述条形码的5'或3'端；和锚，所述锚用于与捕获序列杂交，所述捕获序列包括与所述锚互补的序列；

b.包括至少一个另外的构建体的组合物，所述另外的构建体包括通过连接体与另外的聚合物构建体连接或缀合的另外的配体，所述另外的配体与另外的靶标特异性结合，并且所述另外的聚合物构建体包括扩增柄；特异性识别所述另外的配体的另外的条形码；可选的另外的独特分子标识符，所述另外的独特分子标识符定位于邻近所述另外的条形码的5'或3'端；和锚，所述锚用于与捕获序列杂交，所述捕获序列包括与所述锚互补的序列；和

c.包括一个或多个大致相同的构建体的组合物，每个大致相同的构建体与任何其他参考第一构建体或另外的构建体的不同之处在于其可选的独特分子标识符(UMI)的序列或没有所述UMI。

33.根据权利要求32所述的方法，进一步包括洗涤所述生物样品以去除接触步骤的未结合构建体。

34.根据权利要求32或33所述的方法，进一步包括：

使锚序列与包括与所述锚互补的序列的捕获寡核苷酸序列杂交并且产生双链寡核苷酸序列；

延伸与所述锚序列杂交的所述捕获寡核苷酸，以将所述构建体的条形码、UMI和扩增柄复制到双链序列上；和

扩增或检测所述序列。

35.根据权利要求34所述的方法，其中所述扩增或检测包括检测所述构建体条形码序列以鉴定所述生物样品是否表达或含有所述第一靶标、所述另外的靶标，或第一靶标和另外的靶标的组合。

36.根据权利要求34所述的方法，其中所述扩增或检测包括通过检测由任何一个独特分子标识符的量或两个或更多个独特分子标识符的平均量归一化的相应构建体的条形码的量来确定所述生物样品中所述第一靶标或另外的靶标的表达水平。

37.根据权利要求32至36中任一项所述的方法，进一步包括邻近每个构建体的条形码的5'或3'端插入一个或多个独特分子标识符。

38.根据权利要求32至37中任一项所述的方法，进一步包括在杂交步骤之前从生物样品中分离与一个或多个所述第一构建体或另外的构建体结合的个体细胞或细胞群。

39.根据权利要求32至38中任一项所述的方法，其中延伸步骤进一步包括用与所述扩增柄退火的引物扩增所述双链寡核苷酸序列。

40.根据权利要求32至39中任一项所述的方法，其中所述方法是高通量方法。

41.根据权利要求32至40中任一项所述的方法，其中所述捕获序列被固定在基板上。

42.根据权利要求41所述的方法，其中所述基板是珠、载玻片、多孔板或芯片。

43.根据权利要求32至42中任一项所述的方法，其中所述捕获序列进一步包括另外的扩增柄；另外的条形码，所述另外的条形码特异性识别与所述捕获序列结合的所述基板；和可选的另外的独特分子标识符，所述另外的独特分子标识符定位于邻近所述另外的条形码的5'或3'端，识别每个捕获序列。

44.根据权利要求32至43中任一项所述的方法，其中所述生物样品是所述细胞或组织的相同细胞、细胞组分或细胞膜组分、组织或裂解物的群体或者不同细胞、细胞组分或细胞膜组分、组织或裂解物的混合物。

45.一种用于检测生物样品中的一个或多个表位的高通量方法，所述方法包括使生物样品与以下中的一个或多个接触：

i.包括第一构建体的组合物，所述第一构建体包括与第一表位特异性结合的第一抗体或其片段，所述第一抗体或片段通过连接体与第一聚合物构建体连接或缀合，其中所述第一聚合物构建体包括：扩增柄；条形码序列，所述条形码序列从辨识不同表位的任何其他抗体或片段中特异性识别所述第一抗体或片段；可选的独特分子标识符序列，所述独特分子标识符序列定位于邻近所述条形码的5'或3'端；和锚序列，所述锚序列用于与捕获序列杂交，所述捕获序列包括与所述锚互补的序列；

ii.包括至少一个另外的构建体的(i)的组合物，所述另外的构建体包括通过连接体与另外的聚合物构建体连接或缀合的另外的抗体或其片段，所述另外的抗体或其片段与另外的表位特异性结合，并且所述另外的聚合物构建体包括：扩增柄；特异性识别所述另外的抗体或其片段的另外的条形码；可选的另外的独特分子标识符，所述另外的独特分子标识符定位于邻近所述另外的条形码的5'或3'端；和(i)的锚序列，其中所述另外的构建体与所述组合物中的任何其他构建体的不同之处在于其抗体、表位、条形码和UMI；和

iii.包括一个或多个大致相同的构建体的(i)或(ii)的组合物，每个大致相同的构建体与任何其他参考第一构建体或另外的构建体的不同之处在于其可选的独特分子标识符(UMI)的序列或没有所述UMI。

46.一种用于检测在至少第一样品和第二样品中的至少两个靶标的方法，所述方法包括：

a)使所述第一样品与第一构建体接触，所述第一构建体包括与第一寡核苷酸连接的第一配体，其中所述第一配体与第一靶标特异性结合，并且所述第一寡核苷酸包括：

i)第一扩增柄，

ii)第一条形码，其特异性识别所述第一样品，和

iii)包括多聚A序列的锚；

b)使所述第二样品与第二构建体接触，所述第二构建体包括与第二寡核苷酸连接的所述第一配体，其中所述第二寡核苷酸包括：

i)所述第一扩增柄，

ii)第二条形码，其特异性识别所述第二样品，和

iii)所述锚；

c)使所述第一样品和所述第二样品与第三构建体接触，所述第三构建体包括与第三寡核苷酸连接的第二配体，其中所述第二配体与第二靶标特异性结合，并且所述第三寡核苷酸包括：

(i)第二扩增柄，

(ii)第三条形码，其特异性识别所述第二配体，和

(iii)所述锚；和

d)使所述第一样品和所述第二样品与第四构建体接触，所述第四构建体包括与第四寡核苷酸连接的第三配体，其中所述第三配体与第三靶标特异性结合，并且所述第四寡核苷酸包括：

i)所述第二扩增柄，

ii)第四条形码，其特异性识别所述第三配体，和

iii)所述锚。

47.一种试剂盒，包括：

a)第一构建体，所述第一构建体包括与第一寡核苷酸连接的第一配体，其中所述第一配体与第一靶标特异性结合，并且所述第一寡核苷酸包括：

i)第一扩增柄，

ii)第一独特条形码，所述第一独特条形码被配置为特异性识别第一样品，和

iii)包括多聚A序列的锚；

b)第二构建体，所述第二构建体包括与第二寡核苷酸连接的所述第一配体，其中所述第二寡核苷酸包括：

i)所述第一扩增柄，

ii)第二独特条形码，所述第二独特条形码被配置为特异性识别第二样品，和

iii)所述锚；

c)第三构建体，所述第三构建体包括与第三寡核苷酸连接的第二配体，其中所述第二配体与第二靶标特异性结合，并且所述第三寡核苷酸包括：

(i)第二扩增柄，

(ii)第三独特条形码，所述第三独特条形码被配置为特异性识别所述第二配体，和

(iii)所述锚；和

d)第四构建体，所述第四构建体包括与第四寡核苷酸连接的第三配体，其中所述第三配体与第三靶标特异性结合，并且所述第四寡核苷酸包括：

i)所述第二扩增柄，

ii)第四独特条形码，所述第四独特条形码被配置为特异性识别所述第三配体，和

iii)所述锚。

48.一种组合物，所述组合物包括构建体，所述构建体包括与寡核苷酸连接的配体，其中所述配体与靶标特异性结合，并且所述寡核苷酸包括：

i)扩增柄，

ii)独特条形码，所述独特条形码被配置为特异性识别第一样品，和

iii)锚，所述锚可选地包括多聚A序列。