CN107614700A

CN107614700A - 基因型和表型偶联

Info

Publication number: CN107614700A
Application number: CN201680027423.XA
Authority: CN
Inventors: R·尼科尔; D·A·格里菲思; B·索德蒙; V·T·柯克
Original assignee: Paris Industrial Physics And Chemistry School; Broad Institute Inc
Current assignee: Paris Industrial Physics And Chemistry School; Ecole Superieure de Physique et Chimie Industrielles de Ville Paris; Broad Institute Inc
Priority date: 2015-03-11
Filing date: 2016-03-11
Publication date: 2018-01-19
Also published as: EP3268462B1; EP3268462A4; WO2016145409A1; US11873483B2; US20180112212A1; EP3268462A1

Abstract

本公开提供可用于用来源特异性核酸标识符(例如条形码)标记靶分子的方法和组合物，所述来源特异性核酸标识符随后可用于识别、定量或以其他方式表征来源于特定离散体积的靶分子的特征或活性。此类靶分子可包括由细胞所表达的多肽，其中编码所述多肽的核酸分子用相同或匹配的来源特异性核酸标识符标记。

Description

基因型和表型偶联

本公开的领域

本公开涉及用于用可索引化的核酸标识符对分子进行特异性标记的方法和组合物，所述可索引化的核酸标识符可将细胞或非细胞系统的基因型与所述细胞或非细胞系统的至少一种表型偶联。所述方法和组合物允许对多样化的偶联基因型和表型进行多重分析，同时维持关于样品或子样品来源的信息。

背景

现代基因工程化方法允许快速且廉价地制备核酸构建体和变体。可以高通量方式构建基因设计变更的高复杂性汇集物，从而提供巨大的探索给定设计空间的潜力。然而，对此类大型且复杂的基因变体汇集物的分析要求在例如评估所编码分子特性之后可容易地将个别变体彼此区别开来。一直以来都缺乏实现此要求的方法。因此对将特定所编码分子表型与高复杂性变体汇集物的对应基因型相联系的方法存在需要。

概要

本公开提供用于用特异性核酸条形码(例如来源特异性核酸条形码)对靶分子进行高通量标记的方法和组合物。可通过识别所述来源特异性核酸条形码，任选地结合识别额外的条形码的序列来确定来源于特定样品或其部分的靶分子和/或靶核酸的身份、数量和/或活性。使用此信息，可确定所述分子的特性。举例来说，可使用所公开的方法和组合物来确定诸如抗体或抗原等分子的亲和力和/或特异性。所公开的方法和组合物的其他方面允许将细胞或样品的基因型特征与表型特征配对，其中可跟踪在靶分子和/或靶核酸中观测到的变化，并且/或者将其与源样品和/或不同的测试条件和/或所接触的测试药剂等相关联。

公开了一种将靶分子集合分配给特定区室，同时维持关于靶分子来源(例如所述靶分子来自其中或被分隔至其中的区室或离散体积的来源)的信息的方法，这些信息可又与诸如以下的信息，例如包括但不限于所述区室中的所述分子所经受的条件相联系，所述方法包括：提供样品，所述样品包括细胞或非细胞系统；将来自样品的单个细胞或非细胞系统的一部分分隔至个别区室或离散体积中，其中各区室或离散体积进一步包括来源特异性条形码，其中所述来源特异性条形码包含独特核酸识别序列，所述独特核酸识别序列维持或带有关于所述样品中的所述细胞或非细胞系统，例如特定区室的来源(诸如区室或体积来源)的信息；用存在于个别区室中的来源特异性条形码对个别区室中的靶分子进行标记以形成来源标记式靶分子，其中来自各个别区室的来源标记式靶分子包含相同或匹配的独特索引化核酸识别序列中的至少一个；任选个别地或在多重系统中对靶分子进行加工；以及检测来源特异性条形码的核苷酸序列，由此将靶分子集合分配给特定个别区室，同时维持关于靶分子的区室来源的信息。

还公开了一种将靶分子集合分配给样品或样品集合中的靶核酸，同时维持关于靶分子和靶核酸的来源的信息的方法，其中样品包括细胞或非细胞系统，所述方法包括：提供样品，所述样品包括细胞或非细胞系统；将来自样品的单个细胞或非细胞系统的一部分分隔至个别区室中，其中各个别区室进一步包括来源特异性条形码，所述条形码包含独特核酸识别序列，所述独特核酸识别序列维持或带有关于所述样品中的所述细胞或非细胞系统的来源(诸如区室来源)的信息；用存在于个别区室中的来源特异性条形码对个别区室中的靶分子和靶核酸进行标记以形成来源标记式靶分子和来源标记式靶核酸，其中来自各个别区室的来源标记式靶分子包含相同或匹配的独特索引化核酸识别序列；任选个别地或在多重系统中对靶分子进行加工；以及检测来源特异性条形码的核苷酸序列，由此将靶分子集合分配给靶核酸，同时维持关于靶分子的样品来源(诸如区室来源)的信息。

进一步公开了一种测定测试药剂对靶分子的特异性的方法，所述方法包括：将靶分子集合分配给区室；使表达靶分子的细胞在分隔之前与用测试药剂特异性条形码标记的测试药剂的汇集物接触；分离与测试药剂结合的靶分子；以及测定测试药剂特异性条形码的序列和来源特异性条形码的序列，由此识别与靶分子结合的测试药剂。

进一步公开了一种测定测试药剂对靶分子的亲和力和/或特异性的方法，所述方法包括：将靶分子集合分配给区室；使带标记的靶分子与同可检测标记结合的测试药剂接触；使用可检测标记分离与测试药剂结合的带标记的靶分子；测定所分离的靶分子上的来源特异性条形码的序列；以及对与所分离的靶分子缔合的来源特异性条形码进行定量，由此确定测试药剂对靶分子的亲和力。

进一步公开了一种测定靶分子在细胞集合的表面上的表达的方法，所述方法包括：将靶分子集合分配给区室；使所要分隔的样品细胞与测试药剂的集合接触，所述测试药剂各自用独特测试药剂条形码标记；测定结合于细胞的测试药剂上的来源特异性条形码和测试药剂特异性条形码的序列，由此测定分子在细胞集合的表面上的表达。

进一步公开了一种从细胞群体识别具有感兴趣的比活性的蛋白质的方法，所述方法包括：将靶分子集合分配给区室；分离具有感兴趣的比活性的靶分子；识别所分离的具有感兴趣的比活性的靶分子的来源特异性条形码。

进一步公开了一种条形码标记复合物，所述条形码标记复合物包含固体或半固体基底，以及与其可逆偶联的多个条形码元件，其中所述条形码元件中的每一个包含索引核酸识别序列；以及特异性结合于靶核酸的核酸捕获序列和特异性结合于靶分子的特异性结合剂中的一者或多者。

如将变得显而易见的是，本公开提供若干优于现有技术的优点。举例来说，使用已确立的方法测定分子间亲和力(例如抗体与抗原之间)需要昂贵并且费劲的分析(例如ELISA)。此外，可使用本发明的方法和组合物评估第一蛋白质与第二蛋白质、蛋白质与核酸和/或第一核酸与第二核酸之间的分子间相互作用。本公开的方法通过利用多重测定的速度、低成本和容量以及与下一代测序的相容性而有助于分子间亲和力测定。这在例如设计高价值药物或亲和力结合试剂以及许多其他应用中提供大量益处。

根据以下详细描述，本公开的前述和其他目标和特征将变得更显而易见，以下详细描述是参考附图而进行。

附图简述

图1为示出对来自细胞集合的扩增子集合进行标记的示例性方法的示意图。

图2为示出包含用于根据图1的方法对扩增子集合进行标记的来源特异性条形码的珠粒的示例性组成的示意图。在此实例中，各水凝胶珠粒携带随机构建的多部分索引序列(例如D_i/C_i/B_i/A_i)加上实现基因特异性捕获/扩增以及文库构建的序列的克隆群体，G＝“通用”捕获序列；CL1＝可裂解接头1(旨在从珠粒释放的RNA或其他者)；P7序列；D_i＝随机选择的索引“D”(i＝例如1至192)；C_i＝随机选择的索引“C”(i＝例如1至192)；B_i＝随机选择的索引“B”(i＝例如1至192)；A_i＝随机选择的索引“A”(i＝例如1至192)；测序引物；V＝用于基因/扩增子特异性捕获的靶向序列；CL2＝可裂解接头2(旨在从捕获的Ab或蛋白质释放)；X＝捕获蛋白或抗体(例如用于抗体的蛋白质G)。

图3为示出包含用于对靶核酸与靶分子两者进行标记的来源特异性条形码的珠粒的示例性组成的示意图。在此实例中，各水凝胶珠粒携带(i)随机构建的多部分索引序列(D_i/C_i/B_i/A_i)加上实现基因特异性捕获/扩增和文库构建的序列的克隆群体，以及(ii)各自连接至例如同一多部分索引序列的克隆群体的抗体或蛋白质捕获序列的第二群体。这些多部分索引序列构成来源特异性条形码。G＝“通用”捕获序列；CL1＝可裂解接头1(旨在从珠粒释放的RNA或其他者)；P7序列；D_i＝随机选择的索引“D”(i＝例如1至192)；C_i＝随机选择的索引“C”(i＝例如1至192)；B_i＝随机选择的索引“B”(i＝例如1至192)；A_i＝随机选择的索引“A”(i＝例如1至192)；测序引物；V＝用于基因/扩增子特异性捕获的靶向序列；CL2＝可裂解接头2(旨在从捕获的Ab或蛋白质释放)；X＝捕获蛋白或抗体(例如用于抗体的蛋白质G)。

图4为示出用于使用带索引的水凝胶同时为扩增子和所表达抗体或蛋白质加条形码的示例性方法的示意图。简单地说，此示例性方法涉及以下步骤。将单个细胞和单个带索引的水凝胶珠粒例如封装于乳液微滴中。所述细胞表达例如抗体或蛋白质。在细胞溶解后，用来源特异性条形码来对所表达抗体和蛋白质以及核酸(例如mRNA或cDNA)加标签。然后可汇集多个带条形码的样品(例如通过破坏乳液)。可通过PCR检索个别构建体和/或可对带标记的抗体或蛋白质进行分析。

图5为示出对带标记的抗体的示例性亲和力分析的示意图。在破坏乳液之后，可使带标记的抗体暴露于散装抗原，并且例如捕获于柱上。然后可使来源特异性条形码从所捕获的抗体裂解并且测序。可分开地使标记未结合的抗体的来源特异性条形码裂解并且测序。可使用对相较于未结合的抗体保持结合的抗体的测序和丰度定量测定来归一化浓度。此外，可将此序列信息与来自带来源特异性条形码标记的核酸(例如mRNA或cDNA)的RNA-Seq信息组合，由此将基因型信息与表型信息偶联。

图6为示出用于使用带索引的水凝胶同时为扩增子和所表达的抗体或蛋白质加条形码的示例性替代方法的示意图。各水凝胶珠粒携带(i)随机构建的多部分索引序列(D_i/C_i/B_i/A_i)加上实现基因特异性捕获/扩增和文库构建的序列的克隆群体，以及(ii)各自连接至例如同一多部分索引序列的克隆群体的抗体或蛋白质捕获序列的第二群体。这些多部分索引序列构成来源特异性条形码。简单地说，所述方法包括以下步骤。将特异性结合剂表达细胞(例如B细胞)与单个带索引水凝胶珠粒和表达细胞表面抗原的靶细胞一起封装于乳液微滴中。允许细胞表达结合部分(例如抗体或蛋白质)，所述结合部分可被分泌并且随后结合于靶细胞上的细胞表面抗原。然后可溶解细胞，从而释放核酸、细胞表面抗原以及所结合的结合部分。然后可将结合部分和核酸用来源特异性条形码加以标记并且汇集(例如通过破坏乳液)。可通过PCR检索个别构建体和/或可对带标记的抗体或蛋白质进行分析。G＝“通用”捕获序列；CL1＝可裂解接头1(旨在从珠粒释放的RNA或其他者)；P7序列；D_i＝随机选择的索引“D”(i＝例如1至192)；C_i＝随机选择的索引“C”(i＝例如1至192)；B_i＝随机选择的索引“B”(i＝例如1至192)；A_i＝随机选择的索引“A”(i＝例如1至192)；测序引物；T＝用于基因/扩增子特异性捕获的靶向序列；CL2＝可裂解接头2(旨在从捕获的Ab或蛋白质释放)；X＝捕获蛋白或抗体(例如用于抗体的蛋白质G)。

图7为示出对例如根据图3中所示的方案标记的结合部分(例如抗体)的示例性亲和力分析的示意图。在破坏乳液之后，可使用细胞壁特异性亲和柱捕获带标记的特异性结合剂细胞表面抗原复合物。可分开地将来自结合和未结合级分中的每一者的来源特异性条形码裂解并且测序。可使用对相较于未结合的抗体保持结合的抗体的测序和丰度定量测定来归一化浓度。此外，可将此序列信息与来自带来源特异性条形码标记的核酸(例如mRNA或cDNA)的RNA-Seq信息组合，由此将基因型信息与表型信息偶联。

图8为带标签的抗原结构的示意图。所述结构包括由用生物素标记的单个抗原所结合的链霉亲和素以及用生物素标记的核酸，所述核酸包括核酸条形码，诸如本文所描述的那些条形码。

图9为水凝胶珠粒DNA条形码结构的示意图。

图10为示出诸如图9中所示的水凝胶珠粒的“分开-汇集”DNA条形码标记的实例的示意图。

图11为示出使用微流控装置将逆转录酶和其他试剂以及水凝胶珠粒封装至乳液滴中的示意图。

图12为示出乳液滴中的逆转录的示意图。

图13为示出从乳液滴中的逆转录获得的结果的示意图。

图14为示出将细胞和携带部分双链DNA分子的汇集物的水凝胶珠粒封装于乳液滴中的示意图。将乳液再注射于另一微流控装置中，在所述另一微流控装置中所述液滴与含有溶解缓冲液、RT和其缓冲液、DNA聚合酶、BclI限制酶的其他液滴融合。使用用电极产生的电场来实现融合，使得当施加电场时两种微滴合并。

图15为示出液滴内抗体的分泌的示意图。然后，将液滴与RT试剂合并。

图16为示出从乳液滴中的逆转录获得的结果的示意图。

图17为示出成批纯化和扩增的示意图。

图18为示出带标记的细胞与溶解试剂、DNA聚合酶、BclI限制酶以及携带部分双链DNA分子的汇集物的水凝胶珠粒一起微流控封装的示意图。

图19为示出从乳液滴中的逆转录获得的结果的示意图。

图20为示出成批纯化和扩增的示意图。

图21为带标记的抗体结构的示意图。

图22为示出单个细胞与用DNA标签标记的靶特异性抗体、溶解缓冲液、DNA聚合酶(新英格兰生物实验室克列诺片段(New England BioLabs Klenow Fragment)(3'—>5'exo-))和其缓冲液、BclI限制酶、带生物素标记的抗体以及水凝胶珠粒一起微流控封装的示意图，所述水凝胶珠粒携带部分双链DNA分子的汇集物，它们全部拥有相同的96个碱基对的DNA条形码；在每个水凝胶珠粒上此DNA条形码为不同的。

图23为示出BclI限制酶裂解和释放带条形码的寡核苷酸至液滴的整个体积中的示意图。同时，细胞溶解并且所释放的靶蛋白质将由带标记的抗体捕获，这将使其在水凝胶结合的带条形码DNA的单链部分上的互补序列退火，并且聚合酶将延长带条形码的DNA分子，从而拷贝DNA标签。这些抗体-靶标复合物由带生物素标记的抗体捕获。将DNA条形码添加至抗体结合的DNA标签赋予这些序列单细胞特异性。

图24为示出磷酸化靶蛋白质的回收以及磷酸化靶蛋白质与未磷酸化靶蛋白质的分离的示意图。

图25为带标记的抗体结构的示意图。

图26为示出单个细胞与溶解缓冲液、BclI限制酶、带生物素标记的抗体以及携带DNA条形码的水凝胶珠粒一起微流控封装的示意图，所述DNA条形码连接至用DNA标签标记的抗体。

图27为示出蛋白质捕获的示意图。

图28为示出抗体-蛋白质复合物回收的示意图。

图29为示出单个细胞与用DNA标签标记的靶特异性抗体、溶解缓冲液、逆转录酶和其缓冲液、DNA聚合酶、BclI限制酶、如上文所描述的带生物素标记的抗体以及水凝胶珠粒一起微流控封装的示意图，所述水凝胶珠粒携带部分双链DNA分子的汇集物，它们全部拥有相同的96个碱基对的DNA条形码；在每个水凝胶珠粒上此DNA条形码为不同的。

图30为示出微滴中的蛋白质捕获、RT以及DNA聚合的示意图。

图31为示出抗体-蛋白质复合物和cDNA回收的示意图。

图32为示出BclI限制酶裂解和释放带条形码的寡核苷酸至液滴的整个体积中的示意图。同时，细胞溶解并且所释放的mRNA将通过退火至所释放的带条形码DNA的单链部分而被捕获，并且逆转录酶将延长带条形码的DNA分子，从而拷贝mRNA序列。DNA条形码连接至cDNA序列赋予这些cDNA序列单细胞特异性。

图33为示出RT活性以及后续纯化和扩增步骤的结果的示意图。

图34示出了具有扩增的液滴中RT产物的琼脂糖凝胶以及在测序之前在Agilent的生物分析仪上进行的质量控制分析。

图35示出了对测序数据的分析的结果。上方示出了预期重链和轻链序列配对，而下方示出了测序数据中所获得的正确配对的数目和百分比。

图36为示出在缀合之前抗体标签(Ab-标签)的序列和结构的示意图。

图37为示出RT活性以及后续纯化和扩增步骤的结果的示意图。

图38示出了具有扩增的液滴中RT产物的琼脂糖凝胶以及在测序之前在Agilent的生物分析仪上进行的质量控制分析。

图39为示出测序数据分析的结果的图。以空心黑色轮廓柱示出Ab-标签1(输入中的那些)的预期比例。灰色柱示出读段中的Ab-标签1的比例。

详细说明

I.术语

除非另外指出，否则根据常规用法使用技术术语。分子生物学中的常用术语的定义可见于Benjamin Lewin,Genes IX,由琼斯和巴特利特出版社(Jones and Bartlet)出版,2008(ISBN 0763752223)；Kendrew等人(编),The Encyclopedia of MolecularBiology,由Blackwell Science Ltd.出版,1994(ISBN 0632021829)；以及RobertA.Meyers(编),Molecular Biology and Biotechnology:a Comprehensive DeskReference,由VCH Publishers,Inc.出版,1995(ISBN 9780471185710)；以及其他类似参考文献中。

如本文所用，除非上下文另外明确指示，否则单数形式“一个(种)(a/an)”和“所述”是指单数与复数两者。举例来说，术语“来源特异性条形码”包括单数或复数个来源特异性条形码并且可被视为等效于短语“至少一个来源特异性条形码”。

如本文所用，术语“包含”意指“包括”。因此，“来源特异性条形码”意指“包括来源特异性条形码”，而不排除其他要素。

虽然可使用许多类似或等效于本文所描述的方法和材料的方法和材料，但下文描述了特别适合的方法和材料。在矛盾的情况下，将以本说明书，包括术语的解释为准。此外，材料、方法以及实例仅为说明性的，并且不意在具限制性。

为便于综述本公开的各个实施方案，提供以下对术语的解释：

扩增：旨在增加核酸分子，诸如包括可索引化的核酸标识符(诸如如本文所描述的来源特异性条形码)的核酸分子的拷贝数。所得扩增产物典型地称为“扩增子”。核酸分子(诸如DNA或RNA分子)的扩增是指使用增加核酸分子(包括片段)的拷贝数的技术。在一些实例中，扩增子为来自细胞或非细胞系统的核酸，诸如已扩增的mRNA或DNA。

扩增的一个实例为聚合酶链反应(PCR)，其中使样品与一对寡核苷酸引物在允许所述引物杂交至样品中的核酸模板的条件下接触。引物在适合条件下延伸，从模板解离，重新退火，延伸，并且解离以扩增核酸的拷贝数。可重复此循环。可通过诸如电泳、限制性核酸内切酶裂解模式、寡核苷酸杂交或连接和/或核酸测序等技术来表征扩增产物。

体外扩增技术的其他实例包括定量实时PCR；逆转录酶PCR(RT-PCR)；实时PCR(rtPCR)；实时逆转录酶PCR(rt RT-PCR)；套式PCR；链置换扩增(参见美国专利号5,744,311)；无转录等温扩增(参见美国专利号6,033,881)；修复链反应扩增(参见WO 90/01069)；连接酶链反应扩增(参见欧洲专利公布EP-A-320 308)；间隙填充连接酶链反应扩增(参见美国专利号5,427,930)；偶联的连接酶检测和PCR(参见美国专利号6,027,889)；以及NASBA^TMRNA无转录扩增(参见美国专利号6,025,134)等。

抗体：至少包含特异性识别和结合抗原的表位的轻链和/或重链免疫球蛋白可变区(或其片段)的多肽配体，诸如蛋白质，或其片段。抗体可包括重链和轻链，其中的每一者具有可变区，称为可变重链(VH)区和可变轻链(VL)区。所述术语还包括重组形式，诸如嵌合抗体(例如人源化鼠抗体)、杂缀合抗体(诸如双特异性抗体)。抗体或其片段可为多特异性的，例如双特异性的。抗体包括所有已知形式的抗体和具有抗体样特性的其他蛋白质骨架。举例来说，抗体可为单克隆抗体、多克隆抗体、人类抗体、人源化抗体、双特异性抗体、单价抗体、嵌合抗体、免疫缀合物或具有抗体样特性的蛋白质骨架，诸如纤维粘连蛋白或锚蛋白重复序列。抗体可具有以下同型中的任一者：IgG(例如IgG1、IgG2、IgG3以及IgG4)、IgM、IgA(例如IgA1、IgA2以及IgAsec)、IgD或IgE。

在包括人类的大多数哺乳动物中，完整抗体具有由二硫键连接的至少两个重(H)链和两个轻(L)链。各重链包括重链可变区(V_H)和重链恒定区(C_H)。然而，还包括诸如可见于骆驼中的单链V_HH变体和其片段。重链恒定区包括三个结构域，即C_H1、C_H2和C_H3；以及C_H1与C_H2之间的铰链区。各轻链包括轻链可变区(V_L)和轻链恒定区。轻链恒定区包括结构域C_L。V_H和V_L区可进一步再分成称为互补决定区(CDR)的高变异性区域，其间散布有称为构架区(FR)的较保守的区域。各V_H和V_L由三个CDR和四个FR组成，从胺基端到羧基端按以下顺序排列∶FR1、CDR1、FR2、CDR2、FR3、CDR3、FR4。重链和轻链的可变区含有与抗原相互作用的结合结构域。

包括完整的免疫球蛋白以及其在本领域中熟知的变体和部分，诸如Fab片段、Fab'片段、F(ab)'₂片段、单链Fv蛋白质(“scFv”)以及二硫键稳定的Fv蛋白质(“dsFv”)Fd、Feb或SMIP。抗体片段可为例如由抗体片段形成的双功能抗体、三功能抗体、亲和体(affibody)、纳米抗体(nanobody)、适配体、结构域抗体、线性抗体、单链抗体或多特异性抗体。抗体片段的实例包括(i)Fab片段：由V_L、V_H、C_L以及C_H1结构域组成的单价片段；(ii)F(ab')₂片段：包括在铰链区由二硫桥键键联的两个Fab片段的二价片段；(iii)Fd片段：由V_H和C_H1结构域组成的片段；(iv)Fv片段：由抗体的单个臂的V_L和V_H结构域组成的片段；(v)dAb片段：包括V_H和V_L结构域的片段；(vi)dAb片段：由V_H结构域或V_HH结构域组成的片段(诸如纳米抗体^TM)；(vii)dAb片段：由V_H或V_L结构域组成的片段；(viii)分离的互补决定区(CDR)；以及(ix)可任选地由合成接头连接的两个或更多个分离的CDR的组合。此外，虽然Fv片段的两个结构域(V_L和V_H)是由单独的基因编码，但是它们可使用重组方法例如通过使它们能够被制成单个蛋白链的合成接头相连，在所述单个蛋白链中V_L和V_H区配对以形成单价分子(称为单链Fv(scFv))。可使用本领域技术人员已知的常规技术来获得抗体片段，并且在一些情况下，可以与完整抗体相同的方式加以使用。可通过重组DNA技术或通过完整免疫球蛋白的酶或化学裂解来产生抗原结合片段。抗体片段可进一步包括上文所描述的抗体片段中的任一者，外加额外的C端氨基酸、N端氨基酸或将个别片段隔开的氨基酸。

如果某一抗体包括衍生自第一物种的一个或多个可变区或恒定区以及衍生自第二物种的一个或多个可变区或恒定区，那么可将该抗体称为嵌合的。可例如通过基因工程化来构建嵌合抗体。嵌合抗体可包括属于不同物种(例如来自小鼠和人类)的免疫球蛋白基因区段。

人类抗体是指具有构架区与CDR区均衍生自人类免疫球蛋白序列的可变区的特定结合剂。此外，如果抗体含有恒定区，那么恒定区也衍生自人类免疫球蛋白序列。人类抗体可包括在人类免疫球蛋白序列中未识别出的氨基酸残基，诸如一个或多个序列变化，例如突变。可例如通过人类操纵来引入变化或额外的氨基酸。本公开的人类抗体不为嵌合的。

抗体可为人源化的，意味着抗体包括基本上衍生自非人类免疫球蛋白的一个或多个互补决定区(例如至少一个CDR)，或对抗体进行操纵以包括至少一个免疫球蛋白结构域，所述至少一个免疫球蛋白结构域具有包括基本上衍生自人类免疫球蛋白或抗体的可变构架区的可变区。

抗原或免疫原：可刺激动物中产生抗体或T细胞反应的化合物、组合物或物质，包括被注射或吸收至动物中的组合物。抗原与具有特异性体液或细胞免疫性的产物反应，所述产物包括由异源抗原(诸如所公开的抗原)诱导的那些产物。“表位”或“抗原决定簇”是指抗原中B细胞和/或T细胞对其作出反应的区域。在一个实施方案中，当呈现出表位与MHC分子相结合时，T细胞对表位作出反应。表位可由连续氨基酸或通过蛋白质的三级折叠而并置的不连续氨基酸形成。由连续氨基酸形成的表位典型地在暴露于变性溶剂后得以保留，而通过三级折叠而形成的表位典型地在用变性溶剂处理后丢失。表位典型地包括至少3个氨基酸，并且更通常，至少5个、约9个或约8-10个呈独特空间构象的氨基酸。测定表位的空间构象的方法包括例如x射线晶体照像术和核磁共振。

抗原的实例包括但不限于含有抗原决定簇(诸如由免疫细胞识别的那些抗原决定簇)的肽、脂质、多糖以及核酸。在一些实例中，抗原包括衍生自感兴趣的病原体的肽。示例性病原体包括细菌、真菌、病毒以及寄生虫。在特定实例中，抗原衍生自HIV，诸如gp120、gp140、gp160多肽或其抗原片段，诸如gp120外部结构域。

“靶表位”为抗原上特异性结合感兴趣的抗体(诸如单克隆抗体)的特异性表位。在一些实例中，靶表位包括接触感兴趣的抗体的氨基酸残基，使得靶表位可通过确定与感兴趣的抗体接触的氨基酸残基来选择。

生物素-16-UTP：在体外转录反应期间通过诸如T7、T3或SP6RNA聚合酶等RNA聚合酶容易地合并至RNA中的尿苷-5'-三磷酸的生物活性类似物。在一些实例中，在由探针DNA模板逆转录期间，例如在使用诸如T7、T3或SP6RNA聚合酶等RNA聚合酶的体外转录期间将生物素-16-UTP合并至来源特异性条形码(或任何其他条形码)中。

捕获部分：当连接至另一分子，诸如本文所公开的核酸条形码时，允许经由捕获部分与捕获部分所结合的东西，诸如特定表面和/或分子，诸如能够特异性结合于捕获部分的特异性结合分子的相互作用而捕获靶向探针的分子或其他物质。在特定实例中，捕获部分为生物素，并且捕获部分特异性结合剂为亲和素或链霉亲和素。

接触：以直接物理缔合的方式放置，包括以固体或液体形式，例如使样品与核酸条形码接触。

对检测来说足够的条件：容许检测所需活性，例如容许检测和/或定量核酸，诸如核酸条形码、转录产物和/或其扩增产物的任何环境。

对照：参考标准。对照可为指示基础水平或量或存在于组织或细胞或其群体(诸如正常非癌细胞)中的已知值或值范围。对照还可为细胞或组织对照，例如来自非患病状态和/或暴露于不同环境条件的组织。测试样品与对照样之间的差异可为增加或相反地为降低。该差异可为定性差异或定量差异，例如统计显著性差异。

共价键联：是指原子之间通过形成以原子之间共享电子对为特征的共价键而产生的共价键联。在一个实例中，共价键为氧与磷之间的键，诸如核酸链主链中的磷酸二酯键。在另一实例中，共价键为核酸条形码与固体或半固体基底，诸如珠粒，例如水凝胶珠粒之间的键。

检测：旨在确定药剂(诸如信号或特定核酸，诸如核酸条形码，或蛋白质)存在或不存在。在一些实例中，这可进一步包括在样品或样品级分(诸如特定细胞或多个细胞)中进行的定量。

可检测标记：直接或间接缀合至另一分子以有助于所述分子的检测的化合物或组合物。标记的特定非限制性实例包括荧光标签、酶键联以及放射性同位素。在一些实例中，使标记连接至抗体或核酸，以有助于对抗体或核酸特异性结合的分子的检测。在特定实例中，可检测标记包含核酸条形码，诸如来源特异性条形码。

DNA测序：测定给定DNA分子的核苷酸顺序的过程。通常，可使用自动化桑格测序(Sanger sequencing)(AB13730x1基因组分析仪)、在固体载体上进行的焦磷酸测序(454测序，Roche)、利用可逆终止的合成法测序(基因组分析仪)、连接法测序或利用虚拟终止子的合成法测序来进行测序。在一些实施方案中，通过DNA或RNA测序来测定核酸的同一性。通常，可使用自动化桑格测序(AB13730x1基因组分析仪)、在固体载体上进行的焦磷酸测序(454测序，Roche)、利用可逆终止的合成法测序(基因组分析仪)、连接法测序或利用虚拟终止子的合成法测序；Moleculo测序(参见Voskoboynik等人eLife2013 2:e00569以及2012年9月10日提交的美国专利申请号13/608,778)；DNA纳米球测序；单分子实时(SMRT)测序；纳米孔DNA测序；杂交测序；质谱测序；以及微流控桑格测序来进行测序。

在一些实施方案中，使用由Frederick Sanger研发的链终止法来进行DNA测序，并且因此称为“基于桑格法的测序”或“SBS”。此技术使用DNA合成反应的序列特异性终止，所述DNA合成反应使用修饰过的核苷酸基底。在模板DNA上的特定位点处通过使用在所述区与模板互补的短寡核苷酸引物来起始延伸。在存在四个脱氧核苷酸碱基(DNA砌块)以及低浓度的链终止核苷酸(最通常为二-脱氧核苷酸)的情况下使用DNA聚合酶来延伸寡核苷酸引物。通过DNA聚合酶实现的链终止核苷酸的有限合并产生一系列相关DNA片段，所述相关DNA片段仅在存在所述特定核苷酸的位置处终止。然后用聚丙烯酰胺凝胶或在填充有粘性聚合物的窄玻璃管(毛细管)中通过电泳对片段进行尺寸分离。作为使用带标记的引物的替代方案为替代地使用带标记的终止子；此方法通常称为“染料终止子测序”。

“焦磷酸测序”为一种基于阵列的方法，所述方法已由454Life Sciences商业化。在基于阵列的方法的一些实施方案中，将单链DNA退火至珠粒并且经由扩增。然后将这些DNA结合的珠粒与在ATP存在下产生光的酶一起放入光纤芯片上的孔中。当洗脱此芯片上的游离核苷酸时，随着发生PCR扩增并且当核苷酸与其互补碱基对接合时产生ATP而产生光。添加一个(或多个)核苷酸引起产生光信号的反应，所述光信号是诸如通过仪器内的电荷耦合装置(CCD)照相机来记录。信号强度与合并于单个核苷酸流中的核苷酸(例如均聚物延伸段)的数目成比例。

区室：可含有靶分子以及可索引化核酸标识符(例如核酸条形码)的离散体积或离散空间，诸如容器、贮器或其他任意界定的体积或空间或其任何组合，所述界定的体积或空间可通过防止和/或抑制靶分子迁移的特性来界定，例如通过诸如壁(例如孔壁)、管或微滴表面等可能不可渗透或半渗透的物理特性来界定的体积或空间；或如通过诸如化学、扩散速率限制性、电磁性或光照等其他手段来界定。“扩散速率限制性”(例如扩散界定的体积)意指仅某些分子或反应物可进入的空间，因为扩散限制有效地将空间或体积界定为将为两个平行薄层物流的情况，其中扩散将限制靶分子从一个物流迁移至另一个物流。“化学”界定的体积或空间意指仅某些靶分子因其化学或分子特性(诸如尺寸)而可存在的空间，其中例如凝胶珠粒可诸如依据珠粒的表面电荷、基质尺寸或其他物理特性阻止某些物质进入珠粒但不阻止其他物质，从而可允许对可进入珠粒内部的物质进行选择。“电磁”界定的体积或空间意指可使用靶分子或其载体的电磁特性(诸如电荷或磁性特性)来界定空间中的某些区，诸如将磁性粒子捕获于磁场内或直接捕获于磁体上的空间。“光学”界定的体积意指可通过用可见、紫外、红外或其他波长的光照射，使得仅所界定的空间或体积内的靶分子可被标记来界定的空间的任何区域。使用非壁或半渗透性物质的一个优点为一些试剂(诸如缓冲液、化学活化剂或其他药剂)可传递通过离散体积，而其他材料(诸如靶分子)可维持在离散体积或空间中。典型地，离散体积将包括适合用于在容许标记的条件下用可索引化核酸标识符标记靶分子的流体介质(例如水溶液、油、缓冲液和/或能够支持细胞生长的培养基)。适用于所公开的方法中的示例性离散体积或空间包括微滴(例如微流控微滴和/或乳液微滴)、水凝胶珠粒或其他聚合物结构(例如聚乙二醇二丙烯酸酯珠粒或琼脂糖珠粒)、组织载玻片(例如具有通过化学、光学或物理手段界定的特定区、体积或空间的固定福尔马林石蜡包埋的组织载玻片)、具有通过以有序阵列或不规则图案沉积试剂所界定的区的显微镜载玻片、管(诸如离心管、微量离心管、试管、比色皿、锥形管等)、瓶(诸如玻璃瓶、塑料瓶、陶瓷瓶、爱伦美氏烧瓶(Erlenmeyer flask)、闪烁瓶等)、孔(诸如板中的孔)、板、移液管或移液管端部等。在某些实施方案中，区室为油包水乳液中的水性微滴。

杂交：寡核苷酸和其类似物通过互补碱基之间的氢键键合杂交，所述氢键键合包括沃森-克里克(Watson-Crick)、霍氏(Hoogsteen)或反霍氏氢键键合。通常，核酸由含氮碱基组成，所述含氮碱基为嘧啶(胞嘧啶(C)、尿嘧啶(U)以及胸腺嘧啶(T))或嘌呤(腺嘌呤(A)和鸟嘌呤(G))。这些含氮碱基在嘧啶与嘌呤之间形成氢键，并且嘧啶键合至嘌呤称为“碱基配对”。更具体地说，A将氢键键合至T或U，而G将键合至C。“互补”是指在两个不同的核酸序列或相同核酸序列的两个不同区之间发生的碱基配对。

“可特异性杂交”和“特异性互补”为指示互补程度足以使得寡核苷酸(或其类似物)与DNA或RNA靶标之间发生稳定并且特异性的结合的术语。寡核苷酸或寡核苷酸类似物无需与其所要可特异性杂交的靶序列100％互补。当存在足以避免寡核苷酸或类似物在需要特异性结合的条件下非特异性结合至非靶序列的互补程度时，寡核苷酸或类似物可特异性杂交。此类结合称为特异性杂交。

分离的：“分离的”生物组分(诸如核酸)已被基本上分离或纯化而脱离所述组分天然存在的有机体细胞中的其他生物组分，例如染色质外DNA和RNA、蛋白质以及细胞器。所述术语还涵盖通过在宿主细胞中的重组表达制备的核酸和蛋白质以及化学合成的核酸。应了解，术语“分离的”不暗示生物组分不含痕量污染，并且可包括至少50％分离，诸如至少75％、80％、90％、95％、98％、99％或甚至100％分离的核酸分子。

表达水平：可指RNA表达水平、蛋白质表达水平或两者。

核酸(分子或序列)：脱氧核糖核苷酸或核糖核苷酸聚合物，包括但不限于cDNA、mRNA、基因组DNA以及合成的(诸如化学合成的)DNA或RNA或其杂交体。核酸可为双链(ds)或单链(ss)的。在单链的情况下，核酸可为有义链或反义链。核酸可包括天然核苷酸(诸如A、T/U、C以及G)，并且还可包括天然核苷酸的类似物，诸如带标记的核苷酸。核酸的一些实例包括本文所公开的探针。

DNA的聚合核苷酸的主要砌块为脱氧腺苷5'-三磷酸(dATP或A)、脱氧鸟苷5'-三磷酸(dGTP或G)、脱氧胞苷5'-三磷酸(dCTP或C)以及脱氧胸苷5'-三磷酸(dTTP或T)。RNA的聚合核苷酸的主要砌块为腺苷5'-三磷酸(ATP或A)、鸟苷5'-三磷酸(GTP或G)、胞苷5'-三磷酸(CTP或C)以及尿苷5'-三磷酸(UTP或U)。

在一些实例中，核苷酸包括含有已修饰碱基、已修饰糖部分以及已修饰磷酸酯主链的那些核苷酸，例如如Nazarenko等人的美国专利号5,866,336中所描述的。可用于在结构上的任何位置修饰核苷酸的已修饰碱基部分的实例包括但不限于：5-氟尿嘧啶、5-溴尿嘧啶、5-氯尿嘧啶、5-碘尿嘧啶、次黄嘌呤、黄嘌呤、乙酰胞密啶、5-(羧基羟基甲基)尿嘧啶、5-羧基甲基氨基甲基-2-硫尿苷、5-羧基甲基氨基甲基尿嘧啶、二氢尿嘧啶、β-D-半乳糖基辫苷(galactosylqueosine)、肌苷、N～6-异戊烯基腺嘌呤、1-甲基鸟嘌呤、1-甲基肌苷、2,2-二甲基鸟嘌呤、2-甲基腺嘌呤、2-甲基鸟嘌呤、3-甲基胞嘧啶、5-甲基胞嘧啶、N6-腺嘌呤、7-甲基鸟嘌呤、5-甲基氨基甲基尿嘧啶、甲氧基氨基甲基-2-硫尿嘧啶、β-D-甘露糖基辫苷、5'-甲氧基羧基甲基尿嘧啶、5-甲氧基尿嘧啶、2-甲硫基-N6-异戊烯基腺嘌呤、尿嘧啶-5-氧基乙酸、假尿嘧啶、辫苷、2-硫胞嘧啶、5-甲基-2-硫尿嘧啶、2-硫尿嘧啶、4-硫尿嘧啶、5-甲基尿嘧啶、尿嘧啶-5-氧基乙酸甲酯、尿嘧啶-S-氧基乙酸、5-甲基-2-硫尿嘧啶、3-(3-氨基-3-N-2-羧基丙基)尿嘧啶、2,6-二氨基嘌呤以及生物素化类似物等。可用于在结构上的任何位置修饰核苷酸的已修饰糖部分的实例包括但不限于阿拉伯糖、2-氟阿拉伯糖、木糖以及己糖，或磷酸酯主链的已修饰组分，诸如硫代磷酸酯、二硫代磷酸酯、氨基硫代磷酸酯、氨基磷酸酯、二氨基磷酸酯、甲基膦酸酯、烷基磷酸三酯或甲酰乙缩醛(formacetal)或其类似物。

核酸条形码、条形码、独特分子标识符或UMI：用作缔合分子(诸如靶分子和/或靶核酸)的标识符的核苷酸(例如DNA、RNA或其组合)的短序列。核酸条形码或UMI可具有至少例如4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、60、70、80、90或100个核苷酸的长度，并且可呈单链或双链形式。可将一个或多个核酸条形码和/或UMI连接或“作为标签连接”至靶分子和/或靶核酸。此连接可为直接(例如条形码共价或非共价结合至靶分子)或间接(例如经由额外的分子，例如特异性结合剂，诸如抗体(或其他蛋白质)或条形码接收衔接子(或其他核酸分子)的。可以组合方式用多个核酸条形码(诸如核酸条形码多联体)标记靶分子和/或靶核酸。典型地，使用核酸条形码来将目标分子和/或靶核酸标识为来自特定区室(例如离散体积)、具有特定物理特性(例如亲和力、长度、序列等)，或已经受某些处理条件。可将靶分子和/或靶核酸与多个核酸条形码缔合以提供关于所有这些特征(以及更多)的信息。另一方面，给定UMI群体的各成员典型地与相同特异性(例如离散体积特异性、物理特性特异性或治疗条件特异性)核酸条形码的特定集合的个别成员缔合(例如共价结合于或相同分子的组分)。因此，举例来说，来源特异性核酸条形码的集合的具有相同或匹配的条形码序列的各成员可与有区别的或不同的UMI缔合(例如共价结合于或相同分子的组分)。

核酸捕获序列：特异性结合另一核酸(诸如靶核酸和/或条形码，诸如来源特异性条形码或靶分子标识条形码等)的核酸序列。核酸捕获序列(例如DNA、RNA或杂交分子)可通过杂交或碱基配对相互作用来识别靶核酸分子(例如DNA或RNA分子)。此类捕获序列可为单链的或具有包括可杂交至靶核酸分子的序列的核酸序列的悬垂部分。在一些情况下，可例如通过连接或通过将核酸特异性结合剂与条形码合成为单个连续核酸来将核酸捕获序列连接至核酸条形码。杂交所需的序列长度可视例如核苷酸含量和所用的条件而变化，但一般来说，长度可为至少4、8、12、16、20、25、30、40、50、75或100个核苷酸。

引物：短核酸分子，诸如DNA寡核苷酸，例如至少15个核苷酸的序列，其可通过核酸杂交而退火至互补核酸分子以形成引物与核酸链之间的杂交体。可通过聚合酶使引物沿核酸分子延伸。因此，可使用引物来扩增核酸分子，其中引物的序列为对核酸分子具特异性，例如使得引物将在极其严格的杂交条件下杂交至核酸分子。引物的特异性随其长度增加而增加。因此，举例来说，与仅15个核苷酸的对应引物相比，包括30个连续核苷酸的引物将以更高特异性退火至序列。因此，为获得更大的特异性，可选择包括至少15、20、25、30、35、40、45、50或更多个连续核苷酸的探针和引物。

在特定实例中，引物的长度为至少15个核苷酸，诸如至少15个与核酸分子互补的连续核苷酸。可用于实践本公开的方法的引物的特定长度包括具有至少15、至少16、至少17、至少18、至少19、至少20、至少21、至少22、至少23、至少24、至少25、至少26、至少27、至少28、至少29、至少30、至少31、至少32、至少33、至少34、至少35、至少36、至少37、至少38、至少39、至少40、至少45、至少50或更多个与所要扩增的靶核酸分子互补的连续核苷酸的引物，诸如15-60个核苷酸、15-50个核苷酸或15-30个核苷酸的引物。

可使用引物对来进行核酸序列的扩增，例如通过PCR、实时PCR或本领域中已知的其他核酸扩增方法来实现。“上游”或“正向”引物为核酸序列上的参考点5'端的引物。“下游”或“反向”引物为核酸序列上的参考点3'端的引物。一般来说，扩增反应中包括至少一个正向和一个反向引物。可例如通过使用旨在用于所述目的的计算机程序诸如Primer(版本0.5，1991,Whitehead Institute for Biomedical Research,Cambridge,MA)从已知序列衍生PCR引物对。

例如Sambrook等人(1989)Molecular Cloning:A Laboratory Manual,ColdSpring Harbor,New York；Ausubel等人(1987)Current Protocols in MolecularBiology,Greene Publ.Assoc.&Wiley-Intersciences中描述了制备和使用引物的方法。在一个实例中，引物包括标记。

探针：能够杂交至特定核酸(诸如核酸条形码或靶核酸)的分离的核酸。可将可检测标记或报告分子连接至探针。典型标记包括放射性同位素、酶底物、辅因子、配体、化学发光或荧光剂、半抗原以及酶。在一些实例中，使用探针来分离和/或检测特定核酸。

例如在Sambrook等人,Molecular Cloning:A Laboratory Manual,Cold SpringHarbor Laboratory Press(1989)以及Ausubel等人,Current Protocols in MolecularBiology,Greene Publishing Associates and Wiley-Intersciences(1987)中论述了标记的方法和对选择适合于各种目的的标记的指导。

探针通常长度为约15个核苷酸至长度为约160个核苷酸，诸如15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160个与特定核酸分子互补的连续核苷酸，诸如50-140个核苷酸、75-150个核苷酸、60-70个核苷酸、30-130个核苷酸、20-60个核苷酸、20-50个核苷酸、20-40个核苷酸或20-30个核苷酸。

序列同一性/相似性：两个或更多个核酸序列或两个或更多个氨基酸序列之间的同一性/相似性是以所述序列之间的同一性或相似性来表示。序列同一性可以同一性百分比来度量；百分比越高，序列越同一。当使用标准方法比对时，核酸或氨基酸序列的同源物或直系同源物具有相对高的序列同一性/相似性程度。用于比较的序列比对方法为本领域中熟知的。以下文献中描述了各种程序和比对算法：Smith和Waterman,Adv.Appl.Math.2:482,1981；Needleman和Wunsch,J.Mol.Biol.48:443,1970；Pearson和Lipman,Proc.Natl.Acad.Sci.USA85:2444,1988；Higgins和Sharp,Gene,73:237-44,1988；Higgins和Sharp,CABIOS 5:151-3,1989；Corpet等人,Nuc.Acids Res.16:10881-90,1988；Huang等人Computer Appls.in the Biosciences 8,155-65,1992；以及Pearson等人,Meth.Mol.Bio.24:307-31,1994。Altschul等人,J.Mol.Biol.215:403-10,1990呈现了序列比对方法和同源性计算的细节考虑。NCBI基本局部比对检索工具(BLAST)(Altschul等人,J.Mol.Biol.215:403-10,1990)可购自若干来源，包括National Center for BiologicalInformation(NCBI,National Library of Medicine,Building38A,Room 8N805,Bethesda,MD 20894)以及因特网上，用于与序列分析程序blastp、blastn、blastx、tblastn以及tblastx结合使用。Blastn用于比较核酸序列，而blastp用于比较氨基酸序列。可在NCBI网站发现额外的信息。

在比对后，通过计算两个序列中存在相同的核苷酸或氨基酸残基的位置的数目来确定匹配数目。通过用匹配数目除以所识别序列中所示序列的长度，或除以铰接长度(诸如所识别序列中所示序列的100个连续核苷酸或氨基酸残基)，随后用所得值乘以100来确定序列同一性百分比。举例来说，当与具有1554个核苷酸的测试序列比对时具有1166处匹配的核酸序列与测试序列为75.0％同一的(1166÷1554*100＝75.0)。将序列同一性百分比值四舍五入至最接近的十分位。举例来说，75.11、75.12、75.13以及75.14向下舍入为75.1，而75.15、75.16、75.17、75.18以及75.19向上舍入为75.2。长度值将总是为整数。在另一实例中，与如下所识别序列的20个连续核苷酸比对的含有20个核苷酸的区域的靶序列含有与所述所识别序列拥有75％序列同一性(即15÷20*100＝75)的区域。

特异性结合剂：基本上或优先仅结合于确定靶标(诸如多肽蛋白质、酶、多糖、寡核苷酸、DNA、RNA、重组载体或小分子)的药剂。在一个实例中，“捕获部分特异性结合剂”能够结合于捕获部分，所述捕获部分键联至核酸，诸如核酸条形码。

核酸特异性结合剂基本上仅结合于确定核酸，诸如RNA，或核酸内的特定区。在一些实施方案中，特异性结合剂为核酸条形码，所述核酸条形码特异性结合于感兴趣的靶核酸。

蛋白质特异性结合剂基本上仅结合确定的蛋白质，或蛋白质内的特定区。举例来说，“特异性结合剂”包括抗体和基本上结合于指定多肽的其他药剂。抗体可为对多肽具特异性的单克隆或多克隆抗体，以及其免疫有效部分(“片段”)。可通过使用或修改常规程序容易地实现对特定药剂基本上仅结合于特定多肽的确定。一种适合的体外分析利用西方墨点程序(Western blotting procedure)(在许多标准文本中有描述，包括Harlow和Lane,Using Antibodies:A Laboratory Manual,CSHL,New York,1999)。

载体：可连接有东西(诸如核酸条形码，例如来源特异性条形码)的固体或半固体基底。连接可为可移除连接。适用于本公开的方法中的载体的非限制性实例包括水凝胶、细胞、珠粒、柱、过滤器、载玻片表面或区室(诸如微量滴定板中的孔)内壁或容器。在某些实施方案中，载体为偶联一个或多个来源特异性条形码的水凝胶(诸如水凝胶珠粒)。可使可逆偶联至载体的来源特异性条形码从载体脱离，例如来源特异性条形码上的裂解位点的酶裂解。载体可存在于如本文所阐述的区室中。在某些实施方案中，载体为存在于乳液微滴中的水凝胶珠粒。

靶分子：例如来源、表达、类型等信息为所需的一种分子，或在一些实例中为分子复合物。在一些实施方案中，根据本文所公开的方法标记靶分子。靶分子的实例包括但不限于肽、多肽、蛋白质、抗体、抗体片段、氨基酸、核酸(诸如RNA和DNA)、核苷酸、碳水化合物、多糖、脂质、小分子、有机分子、无机分子以及其复合物。在一些实例中，样品(诸如已分隔至诸如离散体积或空间等区室中的样品)中可存在多个靶分子(例如相同靶分子或不止一个不同的靶分子的多个拷贝)。在某些实施方案中，靶核酸分子(例如RNA分子)编码存在于区室中的多肽靶分子(例如蛋白质)。在特定实施方案中，多肽靶分子和核酸靶分子由存在于区室中的细胞或无细胞表达系统表达。

靶分子可由与核酸条形码缔合的特异性结合剂结合，使得靶分子用核酸条形码(例如来源特异性条形码和/或靶分子特异性条形码)标记。在诸如离散体积或空间等区室中可存在多个靶分子(例如相同靶分子的多个拷贝或不止一个不同的靶分子的多个拷贝)并且被标记。在某些实施方案中，靶核酸分子(诸如DNA或RNA分子)编码靶分子，诸如存在于相同区室中的靶蛋白质，并且靶核酸分子和多肽靶分子是用相同条形码或匹配条形码(例如被预识别为彼此对应的条形码)(诸如来源特异性核酸条形码)标记的。在特定实施方案中，靶分子和靶核酸分子由存在于特定区室中的细胞或无细胞表达系统表达。

靶核酸分子：存在或被认为存在于样品中的想要获得有关信息的任何核酸。在一些实施方案中，感兴趣的靶核酸为RNA，诸如mRNA，例如编码靶分子的mRNA。在一些实施方案中，感兴趣的靶核酸为DNA。

测试药剂：对影响(例如对感兴趣的细胞或靶分子的影响)进行测试的任何药剂。在一些实施方案中，测试药剂为诸如化学治疗剂、抗生素等化合物或甚至为具有未知生物特性的药剂。在一些实例中，测试药剂为多肽或蛋白质，诸如抗体、抗原或免疫原。

在容许结合的条件下：一个用以描述容许所需活性的任何环境，例如使得两个或更多个分子(诸如核酸分子和/或蛋白质分子)可结合的条件的短语。

下文描述适合用于实践或测试本公开的方法和材料。此类方法和材料仅为说明性的，并且不意在具限制性。可使用类似或等效于本文所描述的那些的其他方法和材料。举例来说，各种一般和更具体的参考文献中描述了本公开所属领域中熟知的常规方法，这些参考文献包括例如Sambrook等人,Molecular Cloning:A Laboratory Manual,第2版,ColdSpring Harbor Laboratory Press,1989；Sambrook等人,Molecular Cloning:ALaboratory Manual,第3版.,Cold Spring Harbor Press,2001；Ausubel等人,CurrentProtocols in Molecular Biology,Greene Publishing Associates,1992(和2000年的增刊)；Ausubel等人,Short Protocols in Molecular Biology:A Compendium of Methodsfrom Current Protocols in Molecular Biology,第4版,Wiley&Sons,1999；Harlow和Lane,Antibodies:A Laboratory Manual,Cold Spring Harbor Laboratory Press,1990；以及Harlow和Lane,Using Antibodies:A Laboratory Manual,Cold Spring HarborLaboratory Press,1999。此外，所述材料、方法以及实例仅为说明性的，并且不意在具限制性。

II.若干实施方案的描述

A引言

本公开提供用于用特异性核酸条形码对靶分子进行高通量标记的方法和组合物。可使用特异性标记靶分子的来源特异性核酸条形码，例如通过检测核酸条形码的序列(诸如通过测序或提供关于核酸序列的信息的其他方法)多重地确定靶分子的身份、数量和/或活性。因为来源特异性条形码可被追溯回到原始样品或子样品(例如个别区室)，所以可将来源于样品的靶分子和/或靶核酸分开、区别处理并且然后汇集用于多重分析。因此，本公开的方法和组合物可实现通过将关于不同靶分子、其来源、物理特性和/或不同处理条件的相关信息(诸如表型信息)与不同核酸条形码相关联而进行高度复杂的组合分析，所述不同核酸条形码可例如使用高通量测序技术从汇集的样品去卷积。

本公开的特征还为用相同或匹配的来源特异性核酸条形码同时对感兴趣的靶多肽(诸如抗体、抗原以及免疫原)以及DNA或RNA分子(例如编码共标记靶多肽的DNA(诸如cDNA)和/或RNA，或报告细胞系的DNA和/或RNA)进行共标记，从而实现例如感兴趣的基因型与表型的偶联。因而，本公开实现了候选靶分子的快速、大规模多重的筛选。本公开的方法可进一步用于以例如多部分DNA组件的形式，以大规模多重形式表征基因表达系统。

在所公开的方法应用于抗体的非限制性情况下，可测定抗体(或抗体集合)对特定靶标(诸如蛋白质和/或在蛋白质上可见的特定表位)的亲和力。在另一实例中，可使用本文所公开的方法潜在地测定感兴趣的细胞类型上的细胞表面标记物的表达，诸如相对表达。通过利用用可索引化核酸标识符标记的抗体的阵列或集合，可多重地分析细胞群体以测定个别细胞(例如被分隔至个别区室中的个别细胞)上所表达的细胞表面标记物。

在本公开的方法的各种实例中，可将个别细胞或分子的表型(例如由细胞产生的抗体的结合特征)与对应基因型(即核酸分子，诸如编码抗体的核酸分子)相联系。这可在由细胞产生的大量细胞或靶分子(例如抗体)的汇集和整体筛选(例如通过高度多重亲和力测量)之后进行。因此，本公开提供用于在(如果需要)大规模多重背景下将基因型与表型(例如抗体表达)偶联的高通量方法。

B.索引化方法

本文公开了例如通过将靶分子集合分配给样品或样品集合中的靶核酸，同时维持关于靶分子和靶核酸的样品来源的信息来将基因型至表型进行偶联或索引化的方法。换言之，使用本文所公开的方法，可将特定靶分子与特定靶核酸配对，或在一些情况下为靶核酸和靶分子集合。所公开的方法包括用与特定区室相关的不同核酸条形码标记靶分子和/或靶核酸，因此可在较晚的时间(例如在实验结束时)确定个别区室内或在个别区室内被标记的分子的来源。可用在将靶分子和/或靶核酸引入区室中或在区室中产生靶分子和/或靶核酸时已存在的核酸条形码标记靶分子和/或靶核酸。

所公开的方法的某些实施方案包括提供样品，所述样品包括细胞，或在一些情况下为非细胞系统，并且将来自样品的单个细胞或来自样品的非细胞系统的离散部分分隔至个别区室中。区室中的每一者还包括来源特异性条形码，所述来源特异性条形码包括独特核酸识别序列(诸如包括DNA、RNA或其组合的独特核酸识别序列)，所述独特核酸识别序列例如在汇集和分析之后维持或带有关于样品中的细胞或非细胞系统的来源的信息，诸如所标记的靶分子和/或靶核酸来自哪个区室。以此方式，用来源特异性条形码有效标记了区室，使得在整个实验和/或分析(例如将个别区室暴露于不同条件以测量所述条件对靶分子和/或靶核酸的影响的实验和/或分析)中，可使用来源特异性条形码来追踪区室的内容物。将存在于区室中的靶分子和/或靶核酸用存在于区室中的来源特异性条形码标记以形成来源标记式分子和/或来源标记式核酸。如上文所论述，各区室的来源标记式分子和/或来源标记式核酸带有相同或匹配的独特索引化核酸识别序列或来源特异性条形码。检测来源特异性条形码的核苷酸序列，由此将靶分子集合分配给样品或样品集合中的靶核酸，同时维持关于靶分子和靶核酸的样品或区室来源的信息。除其他序列(诸如靶核酸和/或其他条形码的序列)外，可通过本领域中已知的任何方法，诸如通过扩增、测序、杂交或其任何组合来检测来源特异性条形码的序列。

在一些实施方案中，使用所述方法来标记靶分子集合，所述靶分子为来自样品的核酸，诸如来自细胞、细胞集合或非细胞系统的扩增子。图1中示出了此方法的实例。在此类方法中，用特定来源特异性条形码(图2中示出了其实例)标记来自个别区室的核酸，而来自另一区室或多个其他区室的核酸是用不同的来源特异性条形码标记，从而允许对核酸的多重分析，例如研究例如当暴露于不同条件或属于不同细胞类型时在个别区室中的基因表达差异。

如本文所公开，使用独特核酸标识符(诸如核酸条形码)来标记靶分子和/或靶核酸，例如来源特异性条形码等。核酸标识符(诸如核酸条形码)可包括核苷酸短序列，所述核苷酸短序列可用作缔合分子、位置或条件的标识符。在某些实施方案中，核酸标识符进一步包括一个或多个独特分子标识符和/或条形码接收衔接子。核酸标识符的长度可为约例如4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、60、70、80、90或100个碱基对(bp)或核苷酸(nt)。在某些实施方案中，可通过组合随机选择的索引(例如约1、2、3、4、5、6、7、8、9或10个索引)以组合方式构建核酸标识符。各此类索引为具有不同序列的核苷酸(例如DNA、RNA或其组合)的短序列。索引的长度可为约例如4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25bp或nt。可例如通过分开-汇集合成法(诸如例如国际专利公布号WO 2014/047556和WO2014/143158中所描述的那些，这些专利公布各自以全文引用的方式并入本文中)来产生核酸标识符。

可将一个或多个核酸标识符(例如核酸条形码)连接或“作为标签连接”至靶分子。此连接可为直接(例如核酸标识符共价或非共价结合于靶分子)或间接(例如经由额外的分子)的。此类间接连接可例如包括结合于结合部分的条形码，所述结合部分识别靶分子。在某些实施方案中，将条形码连接至蛋白质G，并且靶分子为抗体或抗体片段。条形码连接至靶分子(例如蛋白质和其他生物分子)可使用本领域中熟知的标准方法来进行。举例来说，可经由半胱氨酸残基(例如C端半胱氨酸残基)来键联条形码。在其他实例中，可使用适当的组特异性试剂经由多肽上的多种官能团以化学方式将条形码引入多肽(例如抗体)中(参见例如www.drmr.com/abcon)。在某些实施方案中，如本文所描述，可经由与靶分子缔合(例如连接)的条形码接收衔接子来进行条形码标记。

可任选地用多个条形码(例如使用结合于特异性识别靶分子的一种或多种特异性结合剂的多个条形码)以组合方式标记靶分子，因此极大地增加特定条形码汇集物内可能的独特标识符的数目。在某些实施方案中，将条形码添加至连接至靶分子的增长条形码多联体中，例如一次一个。在其他实施方案中，在连接至靶分子之前将多个条形码组装。例如在国际专利公布号WO 2014/047561中描述了用于将多个条形码多联体化的组合物和方法，该国际专利公布以全文引用的方式并入本文中。

独特分子标识符为核酸条形码的亚型，其可用于例如针对可变扩增效率对样品进行归一化。举例来说，在以连接核酸条形码(例如拥有相同序列的多个条形码)的固体或半固体载体(例如水凝胶珠粒)为特征的各种实施方案中，可将条形码中的每一者进一步偶联至独特分子标识符，使得特定固体或半固体载体上的每个条形码接收不同的独特分子标识符。然后可例如将独特分子标识符转移至具有所缔合的条形码的靶分子，使得靶分子不仅接收核酸条形码，而且接收在来源于所述固体或半固体载体的标识符之中独特的标识符。

核酸标识符可进一步包括独特分子标识符和/或对例如连接了一个或多个所述核酸标识符的共同载体具特异性的额外条形码。因此，可将靶分子的汇集物例如添加至含有代表不同处理条件的多个固体或半固体载体(例如珠粒)的区室中(和/或例如可在引入靶分子汇集物之后将一个或多个额外的固体或半固体载体依序添加至区室中)，使得可随后通过对与其缔合的独特分子标识符进行测序来确定给定靶分子所暴露的条件的精确组合。

可通过本领域中已知的方法(诸如聚合酶链反应PCR)来扩增与来源特异性核酸条形码缔合(任选与如本文所描述的其他核酸条形码组合)的带标记的靶分子和/或靶核酸。举例来说，核酸条形码可含有通用引物识别序列，所述通用引物识别序列可由PCR引物结合用于PCR扩增和后续高通量测序。在某些实施方案中，核酸条形码包括或键联至测序衔接子(例如通用引物识别序列)，使得条形码和测序衔接子元件均偶联至靶分子。在特定实例中，例如使用PCR来扩增来源特异性条形码的序列。在一些实施方案中，来源特异性条形码进一步包含测序衔接子。在一些实施方案中，来源特异性条形码进一步包含通用引发位点。在一些实施方案中，可将核酸标识符(例如核酸条形码)连接至允许扩增和测序的序列(例如用于测序的P7(SEQ ID NO:11)、SBS3(SEQ ID NO:2)以及P5(SEQ ID NO:12)元件)。在某些实施方案中，核酸条形码可进一步包括用于连接至条形码末端的引物(例如单链DNA引物)的杂交位点。举例来说，来源特异性条形码可为包括条形码和用于特定引物的杂交位点的核酸。在特定实施方案中，来源特异性条形码的集合包括例如使用随机化寡核苷酸类型NNNNNNNNNNNN(SEQ ID NO:1)制备的独特引物特异性条形码。在本公开中提供了预期用于本发明中的条形码的其他长度和组分。

可任选地通过本领域中已知的任何方法(例如高通量测序的方法，也称为下一代测序或深度测序)对核酸条形码(或其多联体)、靶核酸分子(例如DNA或RNA分子)、编码靶肽或多肽的核酸和/或编码特异性结合剂的核酸进行测序。可对用条形码(例如来源特异性条形码)标记的核酸靶分子利用所述条形码来进行测序，以产生靶分子与条形码两者的单个读段和/或含有所述序列的重叠群，或其部分。示例性下一代测序技术包括例如测序、Ion Torrent测序、454测序、SOLiD测序以及纳米孔测序等。

在一些实施方案中，通过不基于测序的方法来测定所标记靶分子的序列。举例来说，可使用可变长度的探针或引物依据例如条形码的长度、靶核酸的长度或编码靶多肽的核酸的长度来辨别标记不同靶分子的条形码(例如来源特异性条形码)。在其他情况下，条形码可包括标识例如特定靶分子的分子类型(例如多肽、核酸、小分子或脂质)的序列。举例来说，在含有多个类型的靶分子的所标记靶分子的汇集物中，多肽靶分子可接收一个识别序列，而靶核酸分子可接收不同的识别序列。可使用此类识别序列来选择性扩增标记特定类型的靶分子的条形码，例如通过使用对特异于特定类型的靶分子的识别序列具特异性的PCR引物来实现。举例来说，可从汇集物选择性扩增标记多肽靶分子的条形码，由此仅检索来自靶分子汇集物的多肽子集的条形码。

在所公开方法的一些实施方案中，测定核酸(诸如核酸条形码)的身份包括通过核酸杂交进行检测。核酸杂交涉及在探针和其互补靶标可通过互补碱基配对形成稳定杂交双链体的条件下提供探针和靶核酸。然后典型地通过检测所连接的可检测标记，洗掉不形成杂交双链体的核酸，留下所要检测的杂交核酸。普遍认为，通过增加温度或降低含有核酸的缓冲液的盐浓度来使核酸变性。在低严格条件(例如低温和/或高盐)下，甚至在退火序列不完全互补的情况下也将形成杂交双链体(例如DNA:DNA、RNA:RNA或RNA:DNA)。因此，在较低严格性下，杂交的特异性降低。相反地，在较高严格性(例如较高温度或较低盐度)下，成功杂交需要较少的错配。本领域技术人员将了解，可设计杂交条件来提供不同严格程度。

一般来说，在杂交特异性(严格性)与信号强度之间存在一个权衡。因此，在一个实施方案中，以产生一致结果并且提供大于约10％背景强度的信号强度的最高严格性进行洗涤。因此，可以依次更高严格性的解决方案洗涤杂交阵列并且在每次洗涤之间进行读数。对由此产生的数据集合的分析将揭示一个洗涤严格性，超过该洗涤严格性杂交模式无明显改变，并且该洗涤严格性提供足够的关于感兴趣的特定寡核苷酸探针的信号。在一些实例中，使用北方墨点法(Northern blotting)或原位杂交(Parker和Barnes,Methods inMolecular Biology106:247-283,1999)；RNA酶保护分析(Hod,Biotechniques 13:852-4,1992)；以及基于PCR的方法，诸如逆转录聚合酶链反应(RT-PCR)(Weis等人,Trends inGenetics 8:263-4,1992)来检测RNA。

在一个实施方案中，通过检测连接至样品核酸的一个或多个标记来检测杂交的核酸。可通过许多方法中的任一者来合并标记。在一个实例中，在样品核酸的制备中在扩增步骤期间同时合并标记。因此，举例来说，使用标记的引物或标记的核苷酸的聚合酶链反应(PCR)将提供标记的扩增产物。在一个实施方案中，如上文所描述，使用标记的核苷酸(诸如荧光素标记的UTP和/或CTP)的转录扩增将标记合并至转录的核酸中。

适合使用的可检测标记包括通过光谱、光化学、生物化学、免疫化学、电学、光学或化学方法可检测的任何组合物。适用标记包括用于用带标记的链霉亲和素缀合物染色的生物素、磁性珠粒(例如DYNABEADS^TM)、荧光染料(例如荧光素、得克萨斯红(Texas red)、罗丹明(rhodamine)、绿色荧光蛋白等)、放射性标记(例如³H、¹²⁵I、³⁵S、¹⁴C或³²P)、酶(例如辣根过氧化物酶、碱性磷酸酶以及常用于ELISA中的其他酶)以及比色标记，诸如胶态金或有色玻璃或塑料(例如聚苯乙烯、聚丙烯、乳胶等)珠粒。教示此类标记的用途的专利包括美国专利号3,817,837；美国专利号3,850,752；美国专利号3,939,350；美国专利号3,996,345；美国专利号4,277,437；美国专利号4,275,149；以及美国专利号4,366,241。

检测此类标记的手段也是熟知的。因此，举例来说，可使用照相胶片或闪烁计数器来检测放射性标记，可使用光检测器检测发射光来检测荧光标记物。典型地通过为酶提供底物并且检测由酶对底物的作用产生的反应产物来检测酶标记，而比色标记是通过简单地目视观察有色标记来检测。

可在杂交之前或之后将标记添加至靶(样品)核酸中。所谓的“直接标记”为在杂交之前直接连接至靶(样品)核酸或合并至靶(样品)核酸中的可检测标记。相比之下，所谓的“间接标记”是在杂交之后连接至杂交双链体。通常，将间接标记连接至结合部分，所述结合部分在杂交之前已连接至靶核酸。因此，举例来说，可在杂交之前将靶核酸生物素化。在杂交之后，亲和素缀合的荧光团将结合带有生物素的杂交双链体，从而提供容易检测的标记(参见Laboratory Techniques in Biochemistry and Molecular Biology,第24卷:Hybridization With Nucleic Acid Probes,P.Tijssen编Elsevier,N.Y.,1993)。

在一些实施方案中，对靶分子进行标记包括将来源特异性条形码直接连接至靶分子。在一些实施方案中，对靶分子进行标记包括间接地将来源特异性条形码连接至靶分子。间接连接包括使靶分子特异性结合剂结合于靶分子，其中靶分子特异性结合剂间接或直接连接至来源特异性条形码，例如共价连接。在某些实施方案中，特异性结合剂为抗体，诸如完整抗体或抗体片段，诸如抗原结合片段。或者，特异性结合剂可为不为抗体的蛋白质或多肽。因此，特异性结合剂可为例如激酶、磷酸酶、蛋白酶体蛋白质、蛋白质伴侣、受体(例如先天免疫受体或信号肽受体)、合成抗体(synbody)、人造抗体、具有硫氧还蛋白折叠的蛋白质(例如二硫化物异构酶、DsbA、谷氧还蛋白、谷胱甘肽S-转移酶、集钙蛋白、谷胱甘肽过氧化物酶或谷胱甘肽过氧化物还原酶)、具有衍生自硫氧还蛋白折叠的折叠的蛋白质、重复蛋白、已知参与蛋白质复合物的蛋白质、本领域中已知为能够参与蛋白质-蛋白质相互作用的蛋白质的蛋白质或其任何变体(例如改变其结构或结合特性的变体)。特异性结合剂可为具有本领域中已知的蛋白质结合结构域的任何蛋白质或多肽，包括含有蛋白质结合结构域的任何天然或合成蛋白。特异性结合剂还可为具有本领域中已知的聚核苷酸结合结构域的任何蛋白质或多肽，包括含有聚核苷酸结合结构域的任何天然或合成蛋白。在一些情况下，特异性结合剂为重组特异性结合剂。

可例如将特异性结合剂(例如抗体)连接至核酸条形码(例如来源特异性条形码)。举例来说，特异性结合剂可包括半胱氨酸残基，所述半胱氨酸残基可连接至核酸条形码。在其他情况下，结合部分可为连接至条形码的核酸。连接至核酸条形码的特异性结合剂可识别感兴趣的靶分子。核酸条形码可将特异性结合剂标识为识别感兴趣的特定靶分子。核酸条形码可为例如在特异性结合剂已结合于靶分子之后可从特异性结合剂裂解的。

可例如在裂解之后对核酸条形码进行测序，以确定靶分子的存在、量或其他特征。在某些实施方案中，可将核酸条形码进一步连接至另一核酸条形码。举例来说，可在结合部分结合于靶分子或标签之后使核酸条形码从结合部分裂解(例如从靶分子裂解的编码肽标签)，并且然后可将核酸条形码连接至来源特异性条形码。可将所得核酸条形码多联体与其他此类多联体汇集在一起并且测序。可使用测序读段来识别哪些靶分子最初存在于哪个区室中。

在一些实施方案中，靶分子包含靶多肽，并且特异性结合于样品中的靶分子的特异性结合剂包含特异性结合于靶多肽的多肽特异性结合剂。在一些实施方案中，多肽特异性结合剂包括抗体或其片段和/或蛋白结合结构域或其片段，或特异性结合于靶多肽的核酸序列，例如如果靶多肽包括核酸结合结构域的话。在一些实施方案中，靶分子特异性结合剂特异性结合靶分子与来源特异性条形码两者。在一些实例中，将靶分子与结合靶分子与来源特异性条形码两者的靶分子特异性结合剂一起孵育，并且在分隔至个别区室中之前将不结合于靶分子和/或来源特异性条形码的靶分子特异性结合剂移除。在一些实例中，靶分子特异性结合剂包含靶分子特异性结合剂条形码，所述靶分子特异性结合剂条形码编码靶分子特异性结合剂的身份。在一些实例中，靶分子特异性结合剂条形码可经由碱基配对相互作用结合于来源特异性条形码。在特定实例中，来源特异性条形码为用于合成靶分子特异性结合剂条形码的互补链的引物。在一些实例中，除其他序列外，检测靶分子特异性结合剂条形码的序列。可通过本领域中已知的任何方法，诸如通过扩增、测序、杂交以及其任何组合来检测靶分子特异性结合剂条形码的序列。除来源特异性核酸条形码之外，可以特定方式基于靶分子的许多不同特性中的任一者和/或其所暴露的条件将靶分子用额外核酸条形码(任选地呈核酸条形码多联体形式)标记，从而有助于其他层面的表征。在其他实施方案中，靶分子为多肽，并且经由编码的半胱氨酸残基(例如C端半胱氨酸残基)将其用核酸条形码(诸如靶分子特异性结合剂和/或来源特异性条形码)直接标记。

在特定实例中，例如使用PCR来扩增靶分子特异性结合剂条形码的序列。可将编码抗原或特异性结合剂的核酸亚克隆至用于产生蛋白质的表达载体(例如用于在例如大肠杆菌(E.coli)中产生结合部分的表达载体)中。可例如通过亲和色谱法将所产生的结合部分纯化。在特异性结合剂包括基本上类似于抗体或抗体片段的一个或多个片段的实施方案中，可将片段合并至用于表达的已知抗体构架中。举例来说，如果特异性结合剂为scFv，那么可将scFv的重链和轻链序列克隆至用于表达IgG分子内的那些链的载体中。

在一些实施方案中，靶分子包含靶核酸，诸如DNA或RNA，并且特异性结合于样品中的靶分子的特异性结合剂包含特异性结合和/或杂交至靶核酸的核酸序列或核酸结合结构域。靶核酸包括RNA，诸如mRNA；以及DNA，诸如cDNA。在所公开方法的一些实施方案中，从靶核酸合成cDNA，其中cDNA包含靶核酸的核酸序列或其片段以及来源特异性条形码的序列。在一些实例中，来源特异性条形码为用于cDNA合成的引物。在某些实施方案中，靶核酸或其互补物编码感兴趣的多肽。在一些实施方案中，靶分子包含靶DNA，并且特异性结合于样品中的靶分子的特异性结合剂包含特异性结合和/或杂交至靶DNA的核酸序列或DNA结合结构域。

在一些实施方案中，将来源特异性条形码可逆偶联至固体或半固体基底。在一些实施方案中，来源特异性条形码进一步包含特异性结合于靶核酸的核酸捕获序列和/或特异性结合于靶分子的特异性结合剂。在特定实施方案中，来源特异性条形码包括两个或更多个来源特异性条形码群体，其中第一群体包含核酸捕获序列，而第二群体包含特异性结合于靶分子的特异性结合剂。图3中示出了此情况的示意图。在一些实例中，第一来源特异性条形码群体进一步包含靶核酸条形码，其中靶核酸条形码将所述群体标识为标记核酸的群体。在一些实例中，第二来源特异性条形码群体进一步包含靶分子条形码，其中靶分子条形码将所述群体标识为标记靶分子的群体。

核酸条形码可为例如在特异性结合剂已结合于靶分子之后可从特异性结合剂裂解的。在一些实施方案中，来源特异性条形码进一步包含一个或多个裂解位点。在一些实施方案中，对至少一个裂解位点进行定向，使得在所述位点处的裂解使来源特异性条形码从与其偶联的基底(诸如珠粒，例如水凝胶珠粒)释放。在一些实施方案中，对至少一个裂解位点进行定向，使得在所述位点处的裂解使来源特异性条形码从靶分子特异性结合剂释放。在一些实施方案中，裂解位点为酶裂解位点，诸如存在于特异性核酸序列中的核酸内切酶位点。在其他实施方案中，裂解位点为肽裂解位点，使得特定酶可裂解氨基酸序列。在其他实施方案中，裂解位点为化学裂解位点。

在一些实施方案中，来源特异性条形码中的每一者包含一个或多个索引、一个或多个实现基因特异性捕获和/或扩增的序列和/或一个或多个实现测序文库构建的序列。

在一些实施方案中，将靶分子连接至来源特异性条形码接收衔接子，诸如核酸。在一些实施方案中，来源特异性条形码接收衔接子包含突出，并且来源特异性条形码包含能够杂交至所述突出的序列。条形码接收衔接子为被配置成接受或接收核酸条形码(诸如来源特异性核酸条形码)的分子。举例来说，条形码接收衔接子可包括能够例如经由与核酸条形码的一部分或全部互补的序列杂交至给定条形码(例如来源特异性条形码)的单链核酸序列(例如突出)。在某些实施方案中，条形码的此部分为在个别条形码之间保持恒定的标准序列。杂交将条形码接收衔接子偶联至所述条形码。在一些实施方案中，可使条形码接收衔接子与靶分子缔合(例如连接)。因而，条形码接收衔接子可充当使来源特异性条形码连接至靶分子的构件。可根据本领域中已知的方法将条形码接收衔接子连接至靶分子。举例来说，可在半胱氨酸残基(例如C端半胱氨酸残基)处将条形码接收衔接子连接至多肽靶分子。可使用条形码接收衔接子来识别与一个或多个靶分子有关的特定条件，诸如来源细胞或来源区室。举例来说，靶分子可为由细胞表达的细胞表面蛋白，其接收细胞特异性条形码接收衔接子。在使细胞暴露于一种或多种条件时，可使条形码接收衔接子缀合至一个或多个条形码，使得可随后通过识别条形码接收衔接子/条形码多联体的序列来确定靶分子的原始来源细胞以及细胞所暴露于的各条件。

在一些实施方案中，将超过一种靶分子特异性结合剂连接至具有相同序列的核酸条形码，诸如来源特异性条形码等。在某些实施方案中，将超过一种靶分子特异性结合剂连接至具有不同序列的核酸条形码。在一些情况下，可将多个靶分子特异性结合剂添加至区室中。或者，可分开添加多种靶分子特异性结合剂。各不同的靶分子特异性结合剂可任选地例如与实验条件相关。

所公开方法的优良特性之一为可将样品(诸如多个区室的内容物)在单一反应(例如汇集的反应)中一起分析。因此，在一些实例中，汇集个别区室以形成汇集样品。可将根据所公开方法标记的来自多个区室的靶分子和/或靶核酸组合以形成汇集物。举例来说，可通过破坏乳液将多个乳液微滴中的标记的靶分子和/或靶核酸组合。因此，在一些实施方案中，破坏乳液。汇集物可包含来自大量个别区室或离散体积(例如至少2、3、4、5、6、7、8、9、10、20、30、40、50、100、500、1,000、2,500、5,000、10,000、50,000、100,000、500,000、1,000,000、2,000,000或更多个；在各种实例，例如利用板的那些实例中，这些数目可为例如至少6、24、96、192、384、1,536、3,456或9,600个)的标记的靶分子和/或靶核酸，因此有助于同时对非常大量的样品的加工(例如通过高度多重亲和力测量)，从而产生高效率。

可将带标记的靶分子和/或靶核酸从汇集物中分离。示例性分离技术包括但不限于亲和捕获、免疫沉淀、色谱法(例如尺寸排阻色谱法、疏水相互作用色谱法、反相色谱法、离子交换色谱法、亲和色谱法、金属结合色谱法、免疫亲和色谱法、高效液相色谱法(HPLC)以及液相色谱-质谱法(LC-MS))、电泳、杂交至捕获寡核苷酸、苯酚-氯仿萃取、微型柱纯化或乙醇或异丙醇沉淀。例如在Hedhammar等人(“Chromatographic methods for proteinpurification,”Royal Institute of Technology,Stockholm,Sweden)中详细描述了色谱法，该参考文献以引用的方式并入本文中。此类技术可利用捕获分子，所述捕获分子识别带标记的靶分子或与所述靶分子缔合的条形码或结合部分。举例来说，可使用蛋白质G通过亲和捕获来分离靶抗体。可将带标记的靶分子进一步用捕获标记(诸如生物素)进行标记。可同时或分开地分离多个靶分子(例如多个相同靶分子，或包括多个不同靶分子的靶分子群体)。

在一些实施方案中，来源特异性条形码进一步包括共价或非共价键联的捕获部分。因此，在一些实施方案中，用特异性结合捕获部分的特异性结合剂来捕获来源特异性条形码和结合或连接于其的包括捕获部分的任何东西。在一些实施方案中，将捕获部分吸附或以其他方式捕获于表面上。在特定实施方案中，例如通过在体外转录期间合并生物素-16-UTP对靶向探针用生物素进行标记，从而允许随后由链霉亲和素捕获。用于标记、捕获以及检测来源特异性条形码的其他手段包括：合并氨基烯丙基标记的核苷酸、合并巯基标记的核苷酸、合并含有烯丙基或叠氮基的核苷酸以及在Bioconjugate Techniques(第2版),Greg T.Hermanson,Elsevier(2008)中所描述的许多其他方法，该参考文献特定地以引用的方式并入本文中。在一些实施方案中，使用诸如合并氨基烯丙基标记的核苷酸随后将1-乙基-3-(3-二甲氨基丙基)碳酰二亚胺(EDC)偶联至羧基活化型固体载体等的方法或在Bioconjugate Techniques中所描述的其他方法将靶向探针在接触样品之前共价偶联至固体载体或其他捕获装置。在一些实施方案中，已将特异性结合剂例如固定于固体载体上，由此分离来源特异性条形码。

“固体或半固体载体(support/carrier)”预期为能够结合来源特异性条形码的任何载体。熟知载体包括水凝胶、玻璃、聚苯乙烯、聚丙烯、聚乙烯、右旋糖酐、尼龙(nylon)、淀粉酶、天然和修饰纤维素、聚丙烯酰胺、琼脂糖、辉长岩以及磁铁矿。出于本公开的目的，载体的性质可为在一些程度上可溶抑或不可溶。载体材料可具有实际上任何可能的结构构型，只要偶联的分子能够结合于靶探针即可。因此，载体构型可为球形的，如在珠粒中；或为圆柱形的，如在试管的内表面或棒状物的外表面。或者，表面可为平坦的，诸如薄片或测试条。因此，所述方法的一些实施方案包括例如从汇集样品选择性分离来源标记式分子和来源标记式核酸。在一些实施方案中，将细胞溶解。

靶分子包括存在于样品或子样品(诸如个别区室或区室集合)中的任何分子，关于其的信息为所需的，诸如表达、活性等。在某些实施方案中，可根据所公开方法标记和表征的靶分子包括多肽(诸如但不限于蛋白质、抗体、抗原、免疫原、蛋白质复合物以及肽)，所述多肽在一些情况下为修饰过的，诸如翻译后修饰，例如糖基化、乙酰基化、酰胺化、甲酰化、γ-羧基谷氨酸羟基化、甲基化、磷酸化、硫酸化或用吡咯烷酮羧酸修饰。本文公开的方法特别适合用于筛选抗体的文库。在特定实施方案中，靶分子为正关于活性(例如特异性和/或亲和力)进行筛选的抗体，诸如抗体集合。在一些实施方案中，抗体为抗HIV抗体，诸如抗gp41或gp120抗体。本文公开的方法还特别适合用于筛选潜在抗原或免疫原的文库，例如以测定其在引发对特定病原体的抗体反应(例如中和抗体反应)方面的潜在功效。在特定实施方案中，靶分子为正关于活性(例如特异性和/或亲和力)进行筛选的抗原或免疫原，诸如抗原或免疫原的集合。在一些实施方案中，抗原或免疫原为HIV抗原或免疫原，诸如gp41或gp120抗原或免疫原，例如gp41和/或gp120的免疫原性片段。靶分子还包括核酸(诸如DNA和RNA，例如mRNA和cDNA)、碳水化合物、脂质、小分子(诸如潜在或已实现的治疗剂)、化合物和无机化合物以及本文所描述的示例性靶分子类型的缀合物和复合物。靶分子可为天然、重组或合成的。如本文所公开，给定区室可包括一个或多个不同的靶分子，这意味着所述区室中可存在若干靶标。在一些情况下，区室可包括靶多肽分子和编码所述靶多肽分子的靶核酸分子，使得可容易测定编码靶多肽的核酸序列。因此，在某些情况下，多肽靶分子和核酸靶分子是由相同细胞产生。在特定情况下，将多肽靶分子和靶核酸用相同的来源特异性条形码或匹配的条形码标记。在一些实例中，靶分子不由靶核酸编码。靶分子可在细胞或提取物(诸如无细胞提取物)中被表达。在一些实施方案中，靶分子包含多肽、核酸、多糖和/或小分子。在特定实施方案中，多肽包含抗体、抗原或其片段。在特定实例中，靶分子代表随机突变的多肽的文库。在特定实施方案中，靶分子在细胞表面上表达，诸如细胞表面蛋白，或其片段，诸如蛋白质的细胞表面结构域。

在一些实例中，靶分子(任选地呈缔合形式)和靶核酸是由区室中的个别细胞产生。因此，在一些实例中，靶分子为多肽并且靶核酸编码其相应个别区室中的靶分子。在一些实例中，细胞为B细胞并且靶分子为抗体，并且靶核酸编码抗体。在一些实施方案中，靶分子存在于细胞的表面上。因此，在一些实施方案中，靶分子(诸如蛋白质或多肽)为通常在细胞表面上发现的靶分子。在其他实施方案中，靶分子(诸如蛋白质或多肽)通常不会在细胞表面上发现，而是诸如通过重组手段在细胞表面上加以表达。在某些情况下，靶分子通常在细胞内发现，诸如在细胞质中或在细胞器中。在这些实施方案中，可能需要将其中产生靶分子的细胞溶解以便对其进行标记。蛋白质或核酸靶分子可由细胞天然产生或可例如基于细胞中合成构建体的存在而重组产生。

在一些实施方案中，靶分子为可见于蛋白质或肽数据库(例如SWISS-PROT、TrEMBL、SBASE、PFAM或本领域中已知的其他数据库)中的蛋白质或肽，或其片段或变体。靶分子可为可(例如通过转录和/或翻译)从本领域中已知的核酸序列(诸如可见于核酸数据库(例如GenBank、TIGR或本领域中已知的其他数据库)中的核酸序列)衍生的蛋白质或肽，或其片段或变体。

诸如多肽等靶分子可任选地由一个或多个合成多基因基因构建体产生，所述一个或多个合成多基因基因构建体可如本文所描述在细胞中或在存在无细胞提取物的情况下存在于区室中。此类靶分子可包括例如抗体序列(例如CDR序列)的变体和/或抗体轻链和重链的各种组合。

靶分子可为对有机体来说为内源性的蛋白质或多肽，诸如由有机体的一个或多个细胞选择性表达或展示的蛋白质或多肽。举例来说，蛋白质或多肽可为由一个或多个细胞表达的细胞表面标记物。有机体可为例如真核生物(例如哺乳动物，诸如人类)、病毒、细菌或真菌。在一些实施方案中，多个不同的靶分子选自单个有机体。在替代实施方案中，多个不同的靶分子是从多个不同的有机体之中选出。

在所公开方法的一些实施方案中，将细胞固定。固定细胞的方法为本领域中熟知的并且包括例如用乙醛固定。在一些实施方案中，不将细胞固定。

在各种实施方案中，在细胞表面上展示或表达靶分子。因此，在蛋白质的情况下，靶分子可为例如抗体、细胞表面受体、信号传导蛋白、转运蛋白、细胞粘附蛋白、酶或其片段。细胞表面靶分子包括已知的跨膜蛋白，即已知具有一个或多个跨膜域的蛋白质、先前被识别为与细胞膜缔合的蛋白质或通过本领域中已知的一种或多种结构域预测方法预测具有一个或多个跨膜域的蛋白质。细胞表面靶分子可或者为此类蛋白质的片段。细胞表面靶分子可为内在膜蛋白质或外周膜蛋白，和/或可为具有存在于自然界中的、基本上类似于存在于自然界中的序列的、从存在于自然界中的序列工程化或以其他方式修饰的或例如通过分子生物学技术人工产生(例如融合蛋白)的序列的蛋白质或多肽。

靶分子也可以为核酸，诸如DNA或RNA分子。举例来说，可根据本公开的方法对从感兴趣的基因转录的RNA分子(或对应cDNA分子)进行标记并且随后分离，并且用其条形码标记加以测序。可同时对多个此类带标记的核酸进行标记，例如各核酸接收不同的条形码和/或一个或多个独特分子标识符和条形码接收衔接子。在某些实施方案中，核酸是由细胞、细胞溶解产物或无细胞提取物产生。在特定实施方案中，核酸是由微生物(诸如原核细胞)产生。在一些实施方案中，核酸靶分子编码同一区室中的多肽靶分子。

在一些实施方案中，靶分子可与患病的细胞或疾病病况有关。举例来说，靶分子可与癌细胞有关，例如由癌细胞选择性表达或不表达的蛋白质、多肽或核酸；或可特异性结合于此类蛋白质或多肽(例如抗体或其片段，例如如本文所描述)。在某些情况下，靶分子为肿瘤标记物，例如由肿瘤产生或由非癌细胞(例如基质细胞)响应于肿瘤的存在而产生的物质。许多肿瘤标记物并非仅仅由癌细胞表达，而是可以改变(即升高或降低)的水平在癌细胞中表达或以改变(即升高或降低)的水平在非癌细胞中响应于肿瘤的存在而表达。在一些实施方案中，靶分子可为结合本领域中已知的任何疾病或病状而被表达的蛋白质、多肽或核酸。

在一些实施方案中，样品包含一个或多个合成基因构建体，所述一个或多个合成基因构建体包含一个或多个连接至启动子的多肽编码序列，诸如合成基因构建体的集合，其任选地包含组合产生的部分。

如本文所公开的区室(诸如离散体积或空间)意指任何类型的区域或体积，所述任何类型的区域或体积可定义为带条形码的分子(诸如带标记的靶分子或带标记的核酸)在其之间不能自由逸出或移动的区域或体积。区室包括微滴，诸如来自油包水乳液或当沉积于表面上时的微滴，诸如例如沉积于载玻片上的微流控微滴。其他类型的区室包括但不限于管、孔、板、移液管、移液管尖端以及瓶。其他类型的区室包括诸如由暴露于光的区域、扩散极限或电磁手段界定的“实际”容器。此类区室还可通过以下形式存在：扩散界定的体积或空间，所述扩散界定的体积或空间因扩散限制有效界定空间故仅某些分子或反应物可进入，例如化学界定的体积或空间，其中仅某些靶分子由于其化学或分子特性(诸如尺寸)而可存在；或电磁界定的体积或空间，其中可使用靶分子或其载体的电磁特性(诸如电荷或磁性特性)来界定空间中的某些区。此类离散还可为光学界定的体积或空间，所述光学界定的体积或空间可通过用可见、紫外、红外或其他波长的光进行照射，使得仅所界定空间内的靶分子可被标记来界定。此类区室可由例如塑料、金属、复合材料和/或玻璃组成。此类区室可适合于放至离心机(例如微量离心机、超离心机、台式离心机、冷冻离心机或临床离心机)中。离散体积可自己作为单独实体或作为此类离散体积的阵列的一部分例如以条带、微孔板或微量滴定板形式而存在。区室的容量可为例如至少约1飞升(femtoliter，fl)至约1000ml，诸如约1fl、10fl、100fl、250fl、500fl、750fl、1皮升(picoliter，pl)、10pl、100pl、250pl、500pl、750pl、1nl、10nl、100nl、250nl、500nl、750nl、1μl、5μl、10μl、20μl、25μl、50μl、100μl、200μl、250μl、500μl、750μl、1ml、1.25ml、1.5ml、2ml、2.5ml、5ml、10ml、15ml、20ml、25ml、50ml、100ml、150ml、200ml、250ml、300ml、350ml、400ml、450ml、500ml、550ml、600ml、650ml、700ml、750ml、800ml、900ml或1000ml。

在某些实施方案中，区室为微滴，诸如乳液中的微滴和/或微流控微滴。在本公开的方法中可使用乳化来将样品或样品集合分离或分隔至一系列区室，例如具有单个细胞或非细胞样品(诸如无细胞提取物或无细胞转录物和/或无细胞翻译混合物)的离散部分的区室中。典型地，在与本文所公开的方法和组合物结合使用时，乳液将包括多个微滴，各微滴包括一个或多个靶分子和/或靶核酸以及来源特异性条形码，使得各微滴包括将其与其他微滴区别开的独特条形码。在本公开的方法中可使用乳化来将一个或多个靶分子在具有一个或多个核酸条形码(诸如来源特异性条形码)的乳液微滴中区室化。如本文所公开的乳液将典型地包括多个微滴，各微滴包括一个或多个靶分子、靶核酸以及一个或多个核酸条形码，诸如来源特异性条形码。可根据本领域中熟知的方法对乳液中的微滴进行分选和/或分离。举例来说，可使用常规荧光激活细胞分选(FACS)机器以每秒>10⁴个微滴的速率对含有荧光信号的双重乳液微滴进行分析和/或分选，并且已用来改善由单个细胞或由单个基因的体外翻译产生的酶活性(Aharoni等人,Chem Biol 12(12):1281-1289,2005；Mastrobattista等人,Chem Biol2(12):1291-1300,2005)。然而，乳液为高度多分散的，从而限制定量分析，并且难以添加新的试剂至预形成的微滴中(Griffiths等人,TrendsBiotechnol 24(9):395-402,2006)。然而，可通过使用以基于微滴的微流控系统为基础的方案克服这些限制(参见例如Teh等人,Lab on a chip 8(2):198-220,2008；Theberge等人,Angew Chem Int Ed Engl49(34):5846-5868,2010；以及Guo等人,Lab on a chip 12(12):2146,2012)，在所述基于微滴的微流控系统中可制备皮升体积的高度单分散微滴(Anna等人,Appl Phys Lett 82(3):364-366,2003)，将其融合(Song等人,Angew Chem IntEdit 42(7):767-772,2003；Chabert等人,Electrophoresis 26(19):3706-3715,2005)，分开(Song等人,Angew Chem Int Edit 42(7):767-772,2003；Link等人,Phys Rev Lett 92(5):054503,2004)，孵育(Song等人,Angew Chem Int Edit 42(7):767-772,2003；Frenz等人,Lab on a chip 9(10):1344-1348,2009)并且分选，以kHz频率荧光触发(Baret等人,Lab on a chip 9(13):1850-1858,2009)，诸如在以引用的方式并入本文中的Mazutis等人(Nat.Protoc.8(5):870-891,2013)中所描述的那些。如本文所公开，乳液可除靶分子、靶核酸以及来源特异性条形码外还包括各种化合物、酶或试剂。这些添加剂可在乳化之前包括在乳液溶液中。或者，可在乳化之后将添加剂添加至个别微滴中。

可通过本领域中已知的多种方法来实现乳液(参见例如US2006/0078888 A1，其中段落[0139]-[0143]以引用的方式并入本文中)。在一些实施方案中，乳液对例如达到95℃或更高的变性温度来说为稳定的。示例性乳液为油包水乳液。在一些实施方案中，乳液的连续相包括氟化油。乳液可含有表面活性剂或乳化剂(例如洗涤剂、阴离子表面活性剂、阳离子表面活性剂或两性表面活性剂)以稳定乳液。在特定实施方案中还可利用其他油/表面活性剂混合物，例如硅酮油。乳液可含于一个孔或多个孔(诸如板)中，以便容易操作。在一些实例中，将一个或多个靶分子、靶核酸以及核酸条形码区室化。乳液可为单分散乳液或多分散乳液。乳液中的各微滴可含有或平均含有0-1,000或更多个靶分子。举例来说，给定乳液微滴可含有0、10、20、30、40、50、100、200、300、400、500或更多个靶分子。在特定实施方案中，给定微滴可含有0、1、2或3个能够表达或分泌靶分子(例如靶分子的克隆群体)的细胞。平均来看，在四舍五入至最靠近的整数时，本公开中的乳液的微滴可含有0-3个能够表达或分泌靶分子的细胞，诸如0、1、2或3个能够表达或分泌靶分子的细胞。在一些实施方案中，各乳液微滴中能够表达或分泌靶分子的细胞的数目平均将为1，在0与1之间，或在1与2之间。在其他实施方案中，微滴可含有非细胞系统，诸如无细胞提取物。

在一些实施方案中，归因于与靶分子和核酸条形码的质量或尺寸、孔的尺寸或其组合有关的物理限制，可实现将靶分子、靶核酸以及核酸条形码区室化至孔中。孔可为光学纤维面板，其中将中央核心用酸(诸如核心覆层对其具抗性的酸)蚀刻。孔可为模制孔。可将孔覆盖以防止孔之间连通，使得存在于特定孔中的珠粒保持在孔内或防止其移动至不同孔中。覆盖物可为固体薄片或物理屏障，诸如氯丁橡胶垫片；或液体屏障，诸如氟化油。适用于本公开的方法为本领域中已知的(例如Shukla等人,J.Drug Targeting 13:7-18,2005；Koster等人,Lab on a Chip 8:1110-1115,2008)。

在某些实施方案中，将来自样品的单个细胞或非细胞系统的一部分与珠粒(诸如水凝胶珠粒)一起封装，所述珠粒包括与其可逆偶联的来源特异性条形码。图1中示出了展示此类封装的示意图。参考图1，例如使用PDMS芯片形成均匀尺寸的水凝胶珠粒(诸如PEG-DA珠粒)的集合。在一些实施方案中，将均匀尺寸的PEG-DA水凝胶珠粒与通用捕获寡核苷酸共聚合，所述通用捕获寡核苷酸可用于构建对于各珠粒来说独特的核酸识别序列。使用自动化技术和分开-汇集标记(参见例如国际专利公布号WO2014/047561，该国际专利公布特定地以引用的方式并入本文中)，可将独特核酸条形码添加至各珠粒中。使用微流控，可将个别珠粒放入单个液滴中并且然后添加单个细胞，使得乳液中的各液滴含有单个细胞和含有独特来源特异性条形码的单个水凝胶。如图1中所示，可使用此系统来用独特的条形码标记从细胞衍生的所有扩增子。如果然后破坏乳液，那么结果为根据微滴带条形码的扩增子的汇集样品。这些所有的扩增子可被追溯回到其所来源的单个细胞。如图2中所例示，在一些实施方案中，珠粒包括示例性珠粒和用于标记靶核酸的来源特异性条形码。在特定实施方案中，通过将单个珠粒递送至各区室来将来源特异性条形码递送至区室，其中各珠粒携带单个来源特异性条形码序列的多个拷贝。

在所述方法的一些实施方案中，使细胞与一种或多种测试药剂接触，诸如小分子、核酸、多肽或多糖。在特定实例中，多肽包含抗体或抗体片段。在一些实施方案中，还将测试药剂用来源特异性条形码标记。在一些实施方案中，将个别测试药剂用测试药剂特异性条形码进行标记。

在一些实施方案中，所述方法进一步包括扩增一个或多个来源特异性条形码、靶分子特异性结合剂条形码、测试药剂特异性条形码、靶核酸条形码以及靶分子条形码。

在一些实施方案中，所述方法进一步包括检测靶分子特异性结合剂条形码、测试药剂特异性条形码、靶核酸条形码以及靶分子条形码中的一种或多种，例如使用杂交、测序或其组合检测来源特异性条形码、靶分子特异性结合剂条形码、测试药剂特异性条形码、靶核酸条形码和/或靶分子条形码的序列。

在一些实施方案中，所述方法进一步包括对来源特异性条形码、靶分子特异性结合剂条形码、测试药剂特异性条形码、靶核酸条形码以及靶分子条形码中的一种或多种进行定量。

本公开的方面涉及测定测试药剂对一个或多个靶分子的特异性和/或亲和力的方法。所公开的方法包括使表达靶分子的细胞在分隔之前与用测试药剂特异性条形码标记的测试药剂的汇集物接触。将结合于测试药剂的靶分子分离，并且测定测试药剂特异性条形码的序列和来源特异性条形码的序列，由此识别结合于靶分子的测试药剂。在一些实施方案中，靶分子包含细胞表面蛋白，并且靶核酸编码细胞表面蛋白。在所述方法的一些实例中，从细胞中洗涤未结合的测试药剂。在一些实施方案中，靶核酸为cDNA或mRNA。所述方法的一些实施方案进一步包括用来源特异性条形码标记测试药剂。

测试药剂的实例包括小分子化合物、核酸、多肽(诸如蛋白质、抗体、抗原和/或免疫原)或多糖。在一些实施方案中，测试药剂的筛选涉及测试含有大量潜在调节剂化合物的组合文库。组合化学文库可为通过化学合成或生物合成，通过组合许多化学“砌块”(诸如试剂)而产生的多种化合物的集合。举例来说，通过对于给定化合物长度(例如多肽化合物中的氨基酸数目)来说以每一种可能的方式组合化学砌块(氨基酸)的集合来形成线性组合化学文库，诸如多肽文库。通过化学砌块的此类组合混合可合成数百万的化合物。

文库中可含有适当的药剂，例如组合文库中的合成或天然化合物。许多文库为可商购获得的或可容易地产生；用于随机和直接合成多种有机化合物和生物分子的手段，包括随机化寡核苷酸(诸如反义寡核苷酸和寡肽)的表达，也为已知的。或者，呈细菌、真菌、植物以及动物提取物形式的天然化合物的文库为可获得的或可容易地产生。另外，天然或合成产生的文库和化合物容易地通过常规化学、物理以及生物化学手段来加以修饰，并且可用于产生组合文库。此类文库适合用于筛选大量不同化合物。

使用本文所公开的方法识别的化合物可充当常规“先导化合物”或本身可用作潜在或实际治疗剂。在一些情况下，可识别候选药剂的汇集物并且进一步筛选以确定集合体中哪种个别药剂或哪些药剂子汇集物具有所需活性。

在其他实施方案中，测定测试药剂对靶分子的亲和力和/或特异性包括：使带标记的靶分子与同可检测标记结合的测试药剂接触；使用可检测标记分离结合于测试药剂的带标记的靶分子；测定分离的靶分子上的来源特异性条形码的序列；以及定量与分离的靶分子缔合的来源特异性条形码，由此确定测试药剂对靶分子的亲和力。在一些实例中，对未与测试药剂一起分离的来源特异性条形码进行定量以归一化浓度。在一些实施方案中，在分离之后将来源特异性条形码裂解。在一些实施方案中，将分离的条形码与靶核酸缔合，以测定结合于测试药剂的靶分子的序列。在一些实例中，靶分子包含多肽，诸如抗体、抗原和/或免疫原。在特定实例中，抗体包含抗HIV抗体，诸如抗gp41或抗gp120抗体，并且测试药剂包含潜在HIV免疫原的集合。在特定实例中，测试药剂包含抗体，并且靶分子包含表达于细胞表面上的蛋白质，例如测试药剂包含抗HIV抗体，诸如抗gp41或gp120抗体，并且靶分子包含HIV免疫原的集合。在一些实施方案中，所述方法包括测定靶分子对测试药剂的解离常数、缔合速率或解离速率中的一种或多种。

所公开方法的方面还涉及测定靶分子在细胞或细胞集合的表面上的表达。所述方法包括：将靶分子集合分配给样品或样品集合中的靶核酸；使所要分隔的样品细胞与各自用独特测试药剂条形码标记的测试药剂的集合接触；测定来源特异性条形码的序列，由此测定分子在细胞集合的表面上的表达。一些实例包括将分离的条形码与靶核酸缔合以测定结合于测试药剂的靶分子的序列。在特定实施方案中，靶分子包含对细胞表面标记物具特异性的多肽，诸如抗体。在一些实施方案中，将细胞表面上所表达的分子与细胞类型、细胞周期或细胞状态的其他度量相关联。

本公开的方面进一步涉及一种从细胞群体识别具有感兴趣的比活性的蛋白质的方法。所述方法包括：将靶分子集合分配给样品或样品集合中的靶核酸；分离具有感兴趣的比活性的靶分子；以及识别分离的具有感兴趣的比活性的靶分子的来源特异性条形码。在一些实施方案中，所述方法进一步包括通过匹配来源特异性核酸条形码的序列而识别编码蛋白质的靶核酸分子。在一些实例中，所述活性为抗原结合，并且蛋白质为抗体。在一些实施方案中，通过被识别为编码感兴趣的抗体的核酸分子的表达来制备感兴趣的抗体。

本公开的方面涉及测定细胞或细胞样品(诸如个别细胞)中的翻译后修饰靶分子(诸如靶蛋白质)的水平的方法。对任何翻译后修饰的确定均为可能的，例如例如糖基化、乙酰基化、酰胺化、甲酰化、γ-羧基谷氨酸羟基化、甲基化、磷酸化、硫酸化或用吡咯烷酮羧酸修饰。在所公开的方法中，使样品(诸如感兴趣的细胞的样品)与第一特异性结合剂和第二特异性结合剂接触，所述第一特异性结合剂在修饰位点特异性结合翻译后修饰靶分子，所述第二特异性结合剂在修饰位点特异性结合非翻译后修饰靶分子，其中第一和第二特异性结合是用特异性结合剂特异性条形码标记。将单个细胞分隔至个别区室中，其中各个别区室进一步包含来源特异性条形码，包含独特核酸识别序列，所述独特核酸识别序列维持或带有关于样品中的所分隔细胞的来源区室的信息。在一些实例中，将细胞溶解以释放细胞的内容物，使得特异性结合剂可相互作用并且因此结合区室中的靶分子。将个别区室中的第一特异性结合剂和第二特异性结合剂用存在于个别区室中的来源特异性条形码标记，并且分离靶分子，由此分离结合于靶分子的第一和第二特异性结合剂。来源特异性条形码和特异性结合剂条形码的序列存在于分离的特异性结合剂上，由此确定样品中翻译后修饰蛋白的存在。在一些实施方案中，所述方法包括对翻译后修饰和未修饰靶蛋白质的水平进行定量，例如以确定修饰与非修饰靶分子的比率。在一些实例中，分离包括使靶分子与第三特异性结合剂接触，所述第三特异性结合剂不结合修饰位点，其中第三特异性结合剂被可检测标记。在一些实施方案中，所述方法进一步包括用存在于个别区室中的来源特异性条形码标记个别区室中的靶核酸，以形成来源标记式靶核酸，其中来自各个别区室的来源标记式靶核酸包含与来源标记式靶分子相同或匹配的独特索引化核酸识别序列，并且然后检测来源特异性条形码的核苷酸序列，由此将靶蛋白质集合分配给样品或样品集合中的靶核酸，同时维持关于靶蛋白质和靶核酸的来源区室的信息。

C.示例性应用

1.基因型-表型偶联

本公开提供对所表达的靶分子(例如多肽、蛋白质、蛋白质复合物或任何其他基因产物)和编码所表达的靶分子的核酸(例如RNA或DNA)进行共检测的方法。在某些实施方案中，多个离散体积中的每一者含有一个或多个允许表达靶多肽分子的细胞。在表达和任选的细胞溶解之后，通过将离散体积维持在容许进行条形码标记的条件下将所表达的多肽用来源特异性核酸条形码标记。还将编码靶多肽分子的核酸分子(例如RNA或由其逆转录的cDNA)用来源特异性核酸条形码标记。

用于标记特定离散体积内的靶多肽分子和对应核酸分子的来源特异性核酸条形码典型地为匹配的核酸条形码。匹配的核酸条形码可为例如至少80％同一(例如80％、85％、90％、95％、99％或100％同一)。在某些实施方案中，匹配核酸条形码为100％同一。在其他实施方案中，匹配条形码可具有不同序列，但可基于其序列被识别为匹配对的成员(例如通过事先规定将两个特定条形码引入同一容器中，使得用这两个特定条形码标记的分子一定来源于同一容器)。可任选地将来源特异性核酸条形码引入结合于单个固体或半固体载体(诸如如本文所公开的珠粒)的离散体积中。在此类情况下，旨在用于结合于靶多肽分子的来源特异性核酸条形码可被包含在包括对靶多肽分子具特异性的亲和部分(例如抗体)的标签元件内，而旨在用于结合于对应核酸分子的来源特异性核酸条形码可被包含在包括对对应核酸分子具特异性的亲和部分(例如核酸分子)的标签元件内。

用来源特异性核酸条形码标记之后，可将靶多肽分子和/或对应核酸组合以形成汇集物，并且扩增相关条形码(以及任选的靶核酸分子)。可通过识别相关来源特异性核酸条形码的序列来确定汇集物中的给定靶多肽分子或核酸的源性离散体积。

在这些方法的某些变化型式中，在识别所述序列之前，可任选地分离汇集物的特定部分。举例来说，在靶多肽分子为抗体或其片段的情况下，可任选地在特定或变化的严格条件下在包括结合抗体的已固定的抗原的柱子上进行色谱分析，以容许分离例如具有特别高结合亲和力的抗体。在另一实例中，在靶多肽分子为包含抗原或免疫原的抗原的情况下，可使用包括已固定的抗体(或其抗原结合片段)的柱子进行色谱分析。在其他实例中，可评估除结合亲和力外的活性或特性。在任何情况下，可分离具有所需特征的特定靶多肽分子，并且可通过对来源特异性核酸条形码进行测序来确定靶多肽分子的身份或其他特征(例如活性和/或亲和力)。可通过使用测序以识别汇集的核酸样品中的匹配的来源特异性核酸条形码，并且然后任选地对连接至这些条形码的核酸进行测序来确定对应于所选靶多肽分子的表型的基因型。

在这些方法的其他变化型式中，不需要上文所描述的分离步骤。更确切地，将包括感兴趣的表位的肽或多肽用表位特异性核酸条形码标记。将这些肽或多肽与其所结合的在表面上表达抗体的细胞(例如B细胞(诸如通过体外免疫或从免疫供给者获得的B细胞)、杂交瘤或表达重组抗体的其他细胞)混合。从细胞中洗涤未结合的肽或多肽，然后将其分离在离散体积中(例如每个离散体积1个细胞)。然后，来源特异性核酸条形码可标记由细胞产生的抗体、编码抗体的核酸以及肽或多肽(或表位特异性核酸条形码)。可使用从多个离散体积汇集的带标记的分子的多重测序来将产生结合特定表位的抗体的细胞与对应编码序列相联系。

还包括使用由本公开的方法识别为编码感兴趣的抗体的核酸分子来制备抗体的方法。在这些方法中，使用本领域中的标准方法在细胞中表达所识别的核酸分子。

2.蛋白质组学

可将本文所公开的方法用于蛋白质组学应用中，以便例如评估在细胞中或无细胞系统中表达的各种蛋白质的表达水平和/或功能。蛋白质可任选地由合成构建体(例如多基因构建体)编码。在各种实例中，蛋白质为代谢路径的组分，并且可进行蛋白质组学分析，例如以组装和最佳化新颖路径和/或识别速率限制步骤。关于后者，基于分析结果，可改变路径的速率限制组分的表达以最佳化路径。例如在合成生物学中最佳化代谢工程化微生物的情形中可使用这些方法。

在其他应用中，可在对疾病(诸如癌症)的生物标记物的识别和验证中使用本文所公开的蛋白质组学方法，并且这些方法任选地可用于评估暴露于不同条件的细胞的蛋白质组变化。使用本公开的方法分析的不同蛋白质可为不同的路径组分和/或碱基序列的序列变体，在此情况下可使用所述方法来识别具有特定表达水平、稳定性或其他功能特征的变体。所评估的变化可在个别氨基酸取代至结构域或亚单位取代或交换范围内，并且可包括其许多组合。所述变化可为随机的或可通过例如混合和匹配衍生自例如不同物种的序列而产生。

3.细胞表面标记物分析

本公开提供通过加核酸条形码而大规模多重地进行细胞表面标记物(例如细胞表面蛋白)的识别和/或定量的方法。靶分子可为与条形码接收衔接子缔合的细胞表面标记物。举例来说，可将细胞表面标记物连接至寡核苷酸条形码接收衔接子，所述寡核苷酸条形码接收衔接子包括能够接收条形码的一部分的突出。条形码可例如包括能够杂交至条形码接收衔接子上的突出的对应突出。因此，可用条形码标记多个细胞表面标记物。条形码接收衔接子还可充当另一标识符。举例来说，离散体积中的细胞可表达细胞表面标记物，然后所述细胞表面标记物与条形码接收衔接子缔合。然后可将一个或多个条形码连接至各条形码接收衔接子。举例来说，离散体积中的和/或与由特定细胞表达的细胞表面标记物缔合的所有条形码接收衔接子均可接收相同的条形码。在某些实施方案中，各条形码接收衔接子对个别细胞表面标记物来说为不同的。在替代实施方案中，由特定细胞表达的细胞表面标记物全部接收相同的条形码接收衔接子。

可例如根据本文所描述的基因型-表型偶联方法使细胞表面标记物和编码细胞表面标记物的核酸(例如mRNA)与相同的条形码接收衔接子和/或条形码相缔合。在某些实施方案中，如果检测到了与细胞缔合的一个或多个条形码，但没有也检测到对应于细胞表面标记物的mRNA，那么可识别出不表达特定细胞表面标记物的细胞。

在细胞表面标记物相关应用的实例中，将各自表达不同的细胞表面特异性结合剂(例如细胞表面蛋白，诸如抗体)的多个细胞(例如B细胞)与用例如识别各独特类型的表位的寡核苷酸条形码标记的多个靶表位(例如HIV蛋白质的表位，诸如Gag、Pol、Env或Nef、gp120、gp41)混合。任选地，独特分子标识符与例如各表位特异性核酸条形码缔合。因此，HIV表位#1的各表位特异性核酸条形码例如将与不同独特分子标识符缔合，用于定量。寡核苷酸条形码可进一步包括例如独特分子标识符。可允许发生靶表位与细胞表面结合部分的结合，随后洗掉过量的表位。然后可将各细胞与其所表达的细胞表面结合部分和所结合的表位一起封装于离散体积(例如乳液微滴)中。可例如在离散体积中将细胞溶解以释放其内部内容物。离散体积可进一步包括来源特异性条形码，所述来源特异性条形码可用于标记细胞表面结合部分和/或靶表位。因而，细胞表面结合部分和/或靶表位可为本公开的靶分子。在一些情况下，来源特异性条形码还可标记例如编码细胞表面结合部分的核酸(例如编码细胞表面结合部分的mRNA或cDNA分子，诸如编码由B细胞产生的抗体的重链和/或轻链的RNA)，由此用相同条形码标记细胞表面结合部分和编码细胞表面结合部分的核酸。在某些情况下，将靶表位进一步用相同来源特异性条形码标记(例如通过将来源特异性条形码连接至已标记表位的寡核苷酸条形码来实现)。在一些情况下，将细胞表面结合部分、靶表位和/或编码细胞表面结合部分的核酸用相同或不同的条形码(例如，例如通过连接至同一载体，预先确定为彼此缔合的条形码)标记。可根据本公开的方法将标记细胞表面结合部分、靶表位和/或编码细胞表面结合部分的核酸的条形码汇集，分离，扩增并且/或者测序。通过对来源特异性核酸条形码以及表位特异性核酸条形码进行测序，可识别结合于各特定的感兴趣表位的抗体。此外，对与来源特异性核酸条形码缔合的RNA进行测序使得能够识别可用于制备和/或进一步表征感兴趣的抗体的抗体核酸序列。

4.亲和力分析

可使用本公开的方法来测定靶分子与另一分子(例如特异性结合剂)之间的结合亲和力。举例来说，可使用本领域中已知的方法来测量靶分子与另一分子(例如特异性结合剂)之间的结合相互作用的平衡常数(Kd)和解离速率(k_解离)。举例来说，如果将特异性结合剂连接至固体载体(例如柱、芯片、表面或珠粒)，那么可通过以各种量的缀合至条形码的靶标进行滴定来测量Kd。在孵育之后，可洗涤固体载体，并且可使条形码裂解并且测序以测定结合于特异性结合剂的靶标的量。可反向进行此分析，使靶分子结合于固体载体，而特异性结合剂缀合至条形码。替代方法涉及批量亲和纯化或分析的“夹心”形式，其中使靶分子与特异性结合剂(例如用诸如来源特异性条形码等条形码标记的特异性结合剂)复合，并且还与结合于固体载体的另一特异性结合剂复合。在此方法中，可不使靶分子直接连接至来源特异性条形码，而是相反地通过结合于用来源特异性条形码标记的特异性结合剂来进行标记。

还可通过添加将与靶分子竞争结合于特异性结合剂的分子以竞争形式来进行这些分析。可与靶分子同时，或在添加靶分子并且靶分子与特异性结合剂后续复合之后添加竞争者。可任选地使竞争者缀合至条形码。举例来说，竞争者可为靶分子，例如用来源特异性条形码标记的靶分子。在一些情况下，可通过添加能够与靶分子竞争结合于特异性结合剂的不带条形码的竞争分子来测定k_解离。可分离保持结合于载体的靶分子，并且可对与靶分子缔合的条形码进行测序以测定保持结合于载体的靶分子的量。

测量结合亲和力的示例性方法包括使带标记的靶分子特异性结合剂复合物结合于载体(例如经由连接至复合物的一种组分的生物素部分)。然后可使载体暴露于一种或多种洗涤条件。可分开地对在各次洗涤中移除的与靶分子缔合的条形码进行测序，以测定所述未结合级分的丰度。还可将所述条形码从在洗涤后仍结合于载体的复合物中裂解掉以测定结合级分的丰度。在某些实施方案中，允许结合级分保持结合于载体持续约一天至两天。可比较未结合级分和结合级分的相对丰度以确定解离速率。可以此方式进行多轮洗涤以产生Kd曲线。在一个替代实施方案中，可使用特异性结合剂来分离多个靶分子的级分(例如通过使用抗体作为特异性结合剂进行免疫沉淀)。可随后从特异性结合剂洗涤此结合级分或其一部分。可从结合和未结合级分分离与靶分子缔合的条形码。然后可计算结合和未结合级分中的靶分子的相对丰度以确定亲和力测量。可进行多轮洗涤，各后续洗涤移除结合级分的额外部分，并且对相关核酸条形码进行测序以产生亲合曲线。在一个实施方案中，在洗涤之前使靶分子结合于特异性结合剂持续约一天至两天。

5.报告细胞

可使用本公开的方法来分析靶分子(例如靶多肽分子)的特性。举例来说，靶分子可诱导细胞中的反应。在一些情况下，靶分子可为能够与细胞相互作用(例如通过结合于细胞表面受体)，由此诱导细胞中的下游效应的可溶性信号(例如分泌的蛋白质、肽、小分子或其他特异性结合剂)。示例性下游效应包括但不限于基因表达的变化(例如增加或降低)(例如mRNA表达水平的变化)、胞内信号传导路径的变化和/或细胞活性的活化或抑制(例如细胞增殖、细胞生长、细胞死亡、细胞形态变化和/或细胞活力变化)。

因此，在一些实施方案中，本公开的方法的离散体积可包括一个或多个报告细胞，靶分子可在其中诱导此类下游效应。举例来说，可通过与靶分子的直接或间接相互作用来改变(例如增加或减少)由报告细胞对一个或多个mRNA的表达。此类mRNA可例如编码靶分子，或者可不编码靶分子。在一些情况下，mRNA可编码所编码的肽标签。在某些实施方案中，将mRNA用来源特异性条形码(例如用以标记靶分子的相同来源特异性条形码)标记。举例来说，可将mRNA或对应cDNA连接至来源特异性条形码。随后可获得带标记的mRNA或cDNA(例如通过溶解报告细胞)，并且进行测序以确定靶分子如何改变报告细胞中mRNA的表达(例如通过测定特定离散体积中的各不同mRNA的量)。在某些实施方案中，将报告细胞溶解，并且将来自多个离散体积的用来源特异性条形码标记的mRNA汇集(例如与带标记的靶分子或带标记的标签一起)，扩增，并且测序。可在汇集、扩增和/或测序之前例如将带标记的mRNA转化为带标记的cDNA。在特定实施方案中，将报告细胞的整个转录组用来源特异性条形码标记，并且根据本领域中已知的RNA-seq方法进行测序。

6.蛋白质修饰检测

可使用本公开的方法来确定样品(诸如细胞和/或非细胞系统)中的蛋白质的修饰状态，诸如磷酸化状态。蛋白质可经历磷酸化翻译后修饰，例如酪氨酸激酶。在某些实施方案中，将对不同的测试蛋白质具特异性的抗体用不同的单链DNA标签标记。在存在或不存在测试药剂(诸如药物药剂或潜在药物药剂)的情况下，将感兴趣的细胞在适当的培养基中孵育。将细胞与用DNA标签标记的蛋白质靶特异性抗体，并且在一些情况下为带生物素标记的对缺乏磷酸化位点的靶结构域具特异性的抗体，以及水凝胶珠粒一起分隔至区室中，所述水凝胶珠粒携带与用DNA标签标记的靶特异性抗体的DNA标签互补的带条形码引物的混合物。

靶蛋白质特异性抗体可为可商购获得的，其已与生物素缀合，或可例如经由与赖氨酸残基的NHS-酯反应而用生物素修饰，或通过酰肼部分缀合至氧化的抗体碳水化合物残基而被修饰。用DNA标签标记的靶特异性抗体对靶蛋白质的磷酸化区具特异性。使用针对磷酸化蛋白质的一种抗体和针对未磷酸化蛋白质的抗体来编码针对各状态的特异性标签。在一些实例中，使用对蛋白质的不含磷酸化位点的结构域具特异性的包含可检测标记的第三抗体来标记结合型复合物。所述标记允许随后将抗体-靶复合物与未结合的抗体分离。或者，可通过尺寸排阻色谱法纯化复合物，而不使用第三抗体。

将区室与将发生裂解并且将带条形码的寡核苷酸释放至整个体积中的裂解剂一起孵育。同时，将细胞溶解并且所释放的靶蛋白质由带标记的抗体捕获，其将与其在水凝胶结合的带条形码DNA的单链部分上的互补序列退火，并且聚合酶将延长带条形码的DNA分子，从而拷贝DNA标签。这些抗体-靶标复合物由带生物素标记的抗体捕获。将DNA条形码添加至抗体结合的DNA标签赋予这些序列单细胞特异性。

在一个替代实施方案中，将对不同靶蛋白质具特异性的抗体用不同的双链DNA标签标记。对单细胞水平的靶蛋白质磷酸化数据进行定量，并且经由各DNA条形码的靶特异性DNA标签读段的数目与总靶蛋白质量相比较。还可从测序获得单细胞水平的mRNA表达和序列信息。

7.组合化学

本公开提供将靶分子与例如呈条形码多联体形式的多个核酸条形码偶联的方法。可使各条形码例如与特定条件(例如化合物(诸如小分子化合物、核酸、多肽或多糖)、温度、孵育时间、大气状况以及pH值)相关联，使得可通过对条形码进行测序来确定靶分子所暴露的条件的集合。在一些实施方案中，将各条形码在使靶分子暴露于与条形码相关的条件时添加至增长条形码多联体中，使得对条形码多联体进行测序可揭示靶分子暴露于各条件的顺序。可使条形码与亲和部分缔合，所述亲和部分可识别靶分子并且因此有助于条形码与靶分子的偶联。在某些实施方案中，使靶分子暴露于多种化合物(例如小分子、核酸、肽、多糖或其组合)，并且使化合物中的每一者与不同的核酸条形码缔合，所述不同的核酸条形码又可偶联至靶分子(例如通过将各条形码添加至增长条形码多联体)。举例来说，可使靶分子暴露于反应条件的集合，所述反应条件各自以特定化合物为特征，其中每次暴露使得添加不同的条形码至靶分子。因此，然后可通过对与靶分子缔合的条形码进行测序来确定靶分子所暴露的化合物和其暴露顺序。

D.组合物和试剂盒

本公开还涉及可用于执行本公开的方法的组合物和试剂盒。在一个实例中，所公开的组合物包括条形码标记复合物。条形码标记复合物包括固体或半固体基底(诸如珠粒，例如水凝胶珠粒)，以及与其可逆偶联的多个条形码元件，其中条形码元件中的每一者包含索引核酸识别序列(诸如RNA、DNA或其组合)，以及特异性结合于靶核酸的核酸捕获序列和特异性结合于靶分子的特异性结合剂中的一个或多个。在一些实例中，来源特异性条形码进一步包括一个或多个裂解位点。在一些实例中，对至少一个裂解位点进行定向，使得在所述位点处的裂解将来源特异性条形码从与其偶联的基底释放。在一些实例中，对至少一个裂解位点进行定向，使得在所述位点处的裂解使来源特异性条形码从靶分子特异性结合剂释放。在一些实例中，来源特异性条形码进一步包含共价或非共价键联的一个或多个捕获部分。在某些实例中，一个或多个捕获部分包含生物素，诸如生物素-16-UTP。在一些实例中，来源特异性条形码进一步包含测序衔接子或通用引发位点中的一个或多个。在一些实例中，靶分子特异性结合剂包含抗体或其片段、包含由靶分子识别的表位的多肽或肽或者核酸。在一些实例中，来源特异性条形码中的每一者包含一个或多个索引、一个或多个实现基因特异性捕获和/或扩增的序列和/或一个或多个实现测序文库构建的序列。在一些实例中，条形码中的每一者包含四个索引，所述四个索引可被组合组装。在一些实例中，实现测序文库构建的序列包含Illumina P7(SEQ ID NO:11)序列和/或Illumina测序引物。在一些实例中，条形码包含用于DNA合成的引物，诸如适合用于在DNA模板或RNA模板上进行DNA合成的引物。还公开可包括本文所公开的任何和所有组合物的试剂盒。

参考以下编号条目进一步定义本发明：

1.一种将偶联表型-基因型分配给与特定区室相关的靶分子集合的方法，所述方法包括：

提供样品，所述样品包括细胞或非细胞系统，其包含感兴趣的靶分子和/或编码感兴趣的靶分子的核酸；

将来自所述样品的细胞子集、单个细胞或所述非细胞系统的一部分分隔至个别区室中，其中各个别区室进一步包含来源特异性条形码，所述来源特异性条形码包含独特核酸识别序列，所述核酸识别序列维持或带有关于所述样品中所分隔的细胞或非细胞系统的来源区室的信息；

用存在于所述个别区室中的所述来源特异性条形码标记所述个别区室中的所述靶分子以形成来源标记式靶分子，其中来自各个别区室的所述来源标记式靶分子包含相同的独特索引化核酸识别序列或匹配的索引序列，任选地对所述靶分子根据其物理和化学特性进行进一步标记或分离，以提供也与所述来源特异性条形码相关的额外的特性或丰度信息；

将所述靶分子的特性与所述个别区室和/或所述区室中的细胞相关联

检测所述来源特异性条形码的核苷酸序列，由此将所述靶分子集合分配给特定区室和所述特定区室中的所述靶分子的特性。

2.如条目1所述的方法，其进一步包括，将所述靶分子集合分配给所述样品或集合样品中的靶核酸，其中所述样品包含，进一步包含感兴趣的靶核酸；并且所述方法进一步包括：

用存在于所述个别区室中的所述来源特异性条形码标记所述个别区室中的所述靶核酸以形成来源标记式靶核酸，其中来自各个别区室的所述来源标记式靶核酸包含与所述来源标记式靶分子相同或匹配的独特索引化核酸识别序列；

检测所述来源特异性条形码的核苷酸序列，由此将所述靶分子集合分配给所述样品或样品集合中的靶核酸，同时维持关于所述靶分子和所述靶核酸的来源区室的信息。

3.如条目1或2所述的方法，其中所述来源特异性条形码包括RNA、DNA或其组合。

4.如条目1至3中任一项所述的方法，其中使所述来源特异性条形码可逆偶联至固体或半固体基底。

5.如1至4中任一项条目所述的方法，其进一步包括将来自所述样品的所述单个细胞或所述非细胞系统的一部分与包含与其可逆偶联的所述来源特异性条形码的珠粒一起封装。

6.如条目1至5中任一项所述的方法，其中所述来源特异性条形码进一步包含特异性结合于所述靶核酸的核酸捕获序列和/或特异性结合于所述靶分子的特异性结合剂。

7.如条目6所述的方法，其中所述来源特异性条形码包含两个或更多个来源特异性条形码群体，其中第一群体包含所述核酸捕获序列，而第二群体包含特异性结合于所述靶分子的所述特异性结合剂。

8.如条目2至7中任一项所述的方法，其中所述靶核酸包括RNA或DNA。

9.如条目8所述的方法，其中所述靶核酸包括mRNA、基因组DNA或cDNA。

10.如条目2至9中任一项所述的方法，其进一步包括从所述靶核酸合成cDNA，其中所述cDNA包含所述靶核酸的核酸序列或其片段以及所述来源特异性条形码的序列。

11.如条目10所述的方法，其中所述来源特异性条形码为用于所述cDNA合成的引物。

12.如条目11所述的方法，其中所述靶核酸或其互补物编码感兴趣的多肽。

13.如条目7至12中任一项所述的方法，其中靶分子包含靶多肽，并且特异性结合于所述样品中的所述靶分子的所述特异性结合剂包含特异性结合于靶多肽的多肽特异性结合剂。

14.如条目13所述的方法，其中所述多肽特异性结合剂包含抗体或其片段和/或蛋白结合结构域或其片段，或特异性结合于所述靶多肽的核酸序列或表达特异性结合于所述靶多肽的细胞表面标记物的细胞。

15.如条目1至14中任一项所述的方法，其中所述靶分子包含靶DNA，并且特异性结合于所述样品中的所述靶分子的所述特异性结合剂包含特异性结合和/或杂交至所述靶DNA的核酸序列或DNA结合结构域。

16.如条目1至15中任一项所述的方法，其中所述来源特异性条形码进一步包含测序衔接子。

17.如条目1至16中任一项所述的方法，其中所述来源特异性条形码进一步包含通用引发位点。

18.如条目1至17中任一项所述的方法，其进一步包括汇集所述个别区室以形成汇集样品。

19.如条目18所述的方法，其进一步包括从所述汇集样品选择性分离所述来源标记式分子和来源标记式核酸。

20.如条目1至19中任一项所述的方法，其中所述来源特异性条形码进一步包含共价或非共价键联的一个或多个捕获部分。

21.如条目20所述的方法，其中分离所述来源标记式分子和来源标记式核酸包括经由所述一个或多个捕获部分捕获所述来源特异性条形码。

22.如条目20至21中任一项所述的方法，其中将所述一个或多个捕获部分用特异性结合于所述一个或多个捕获部分的捕获部分特异性结合剂捕获。

23.如条目20至22中任一项所述的方法，其中将所述一个或多个捕获部分捕获于固体载体上。

24.如条目22至23中任一项所述的方法，其中使所述捕获部分特异性结合剂连接至所述固体载体。

25.如条目20至24中任一项所述的方法，其中所述一个或多个捕获部分包含生物素。

26.如条目22至25中任一项所述的方法，其中所述捕获部分特异性结合剂包含链霉亲和素。

27.如条目1至26中任一项所述的方法，其中所述来源特异性条形码包含生物素-16-UTP。

28.如条目1至27中任一项所述的方法，其中所述靶分子的标记包括使所述来源特异性条形码直接连接至所述靶分子。

29.如条目1至28中任一项所述的方法，其中所述靶分子的标记包括使所述来源特异性条形码间接连接至所述靶分子。

30.如条目29中任一项所述的方法，其中间接连接包括使靶分子特异性结合剂结合于所述靶分子，其中所述靶分子特异性结合剂间接或直接连接至所述来源特异性条形码。

31.如条目30所述的方法，其中所述靶分子特异性结合剂包含抗体或其片段、特异性结合于所述靶分子的多肽或肽或者核酸。

32.如条目1至31中任一项所述的方法，其中所述来源特异性条形码进一步包含引物特异性区。

33.如条目1至32中任一项所述的方法，其中所述来源特异性条形码中的每一者进一步包含独特分子标识符。

34.如条目1至33中任一项所述的方法，其中所述来源特异性条形码中的每一者包含一个或多个索引、一个或多个实现基因特异性捕获和/或扩增的序列和/或一个或多个实现测序文库构建的序列。

35.如条目1至34中任一项所述的方法，其中使所述靶分子连接至来源特异性条形码接收衔接子。

36.如条目35所述的方法，其中所述来源特异性条形码接收衔接子包含核酸。

37.如条目36所述的方法，其中所述来源特异性条形码接收衔接子包含突出，并且所述来源特异性条形码包含能够杂交至所述突出的序列。

38.如条目30至37中任一项所述的方法，其中所述靶分子特异性结合剂特异性结合所述靶分子与所述来源特异性条形码两者。

39.如条目30至38中任一项所述的方法，其中将所述靶分子与结合所述靶分子与所述来源特异性条形码两者的所述靶分子特异性结合剂一起孵育，并且在分离至所述个别区室中之前将不结合于所述靶分子和/或来源特异性条形码的所述靶分子特异性结合剂移除。

40.如条目30至39中任一项所述的方法，其中所述靶分子特异性结合剂包含靶分子特异性结合剂条形码，所述靶分子特异性结合剂条形码编码所述靶分子特异性结合剂的身份。

41.如条目40所述的方法，其中包含所述靶分子特异性结合剂条形码的所述核酸可经由碱基配对相互作用结合于包含所述来源特异性条形码的所述核酸。

42.如条目40至41中任一项所述的方法，其中所述来源特异性条形码为用于合成所述靶分子特异性结合剂条形码的互补链的引物。

43.如条目40至42中任一项所述的方法，其进一步包括检测所述靶分子特异性结合剂条形码的序列。

44.如条目1至43中任一项所述的方法，其中通过将单个珠粒递送至各个别区室将所述来源特异性条形码递送至所述个别区室，其中各珠粒携带单个来源特异性条形码的多个拷贝。

45.如条目1至44中任一项所述的方法，其中所述区室包含乳液中的水性微滴。

46.如条目45所述的方法，其中所述乳液包含一种或多种表面活性剂，由此稳定所述乳液。

47.如条目45至46中任一项所述的方法，其中所述乳液包含连续相，并且所述乳液的所述连续相包含氟化油。

48.如条目46至47中任一项所述的方法，其中所述一种或多种表面活性剂包含一种或多种氟化表面活性剂。

49.如条目45至48中任一项所述的方法，其进一步包括破坏所述乳液，由此汇集所述个别区室的内容物。

50.如条目1至49中任一项所述的方法，其中所述靶分子包括多肽、核酸、多糖和/或小分子。

51.如条目50所述的方法，其中所述多肽包括抗体、抗原或其片段。

52.如条目1至51中任一项所述的方法，其中所述靶分子代表随机或系统突变的多肽的文库。

53.如条目1至52中任一项所述的方法，其中所述靶分子在细胞的表面上被表达。

54.如条目53所述的方法，其中所述靶分子包含细胞表面蛋白或其片段，诸如蛋白质的细胞表面结构域。

55.如条目1至54中任一项所述的方法，其中所述样品包含一个或多个细胞。

56.如条目1至55中任一项所述的方法，其中样品包含靶分子和靶核酸的所述非细胞系统。

57.如条目56所述的方法，其包括无细胞提取物或无细胞转录物和/或无细胞翻译混合物。

58.如条目1至57中任一项所述的方法，其中所述样品包含一个或多个合成基因构建体，所述一个或多个合成基因构建体包含可操作地连接至启动子的一个或多个多肽编码序列。

59.如条目58所述的方法，其中所述一个或多个合成基因构建体包含合成基因构建体的集合，所述集合任选包含组合产生的部分。

60.如条目7至59中任一项所述的方法，其中所述第一来源特异性条形码群体进一步包含靶核酸条形码，其中所述靶核酸条形码将所述群体标识为标记核酸的群体。

61.如条目7至60中任一项所述的方法，其中所述第二来源特异性条形码群体进一步包含靶分子条形码，其中所述靶分子条形码将所述群体标识为标记靶分子的群体。

62.如条目1至61中任一项所述的方法，其中所述来源特异性条形码进一步包含一个或多个裂解位点。

63.如条目62所述的方法，其中对至少一个裂解位点进行定向，使得在所述位点处的裂解使所述来源特异性条形码从与其偶联的基底释放。

64.如条目63所述的方法，其中所述基底包含所述珠粒。

65.如条目62至64中任一项所述的方法，其中对至少一个裂解位点进行定向，使得在所述位点处的裂解使所述来源特异性条形码从所述靶分子特异性结合剂释放。

66.如条目1至65中任一项所述的方法，其进一步包括溶解所述细胞。

67.如条目1至66中任一项所述的方法，其中任选呈缔合形式的所述靶分子和所述靶核酸是由所述个别区室中的所述个别细胞产生。

68.如条目1至67中任一项所述的方法，其中所述细胞为B细胞、浆母细胞或浆细胞，并且所述靶分子为抗体，并且所述靶核酸编码所述抗体。

69.如条目1至68中任一项所述的方法，其中所述靶分子为多肽，并且所述靶核酸编码其相应个别区室中的所述靶分子。

70.如条目1至69中任一项所述的方法，其中使所述细胞与一种或多种测试药剂接触。

71.如条目70所述的方法，其中所述测试药剂包括小分子、核酸、多肽或多糖。

72.如条目71所述的方法，其中所述多肽包含抗体或抗体片段。

73.如条目70至72中任一项所述的方法，其进一步包括用所述来源特异性条形码标记所述测试药剂。

74.如条目70至73中任一项所述的方法，其中将所述个别测试药剂用测试药剂特异性条形码标记。

75.如条目1至74中任一项所述的方法，其进一步包括扩增所述来源特异性条形码、所述靶分子特异性结合剂条形码、测试药剂特异性条形码、所述靶核酸条形码以及所述靶分子条形码中的一种或多种。

76.如条目1至75中任一项所述的方法，其进一步包括检测所述靶分子特异性结合剂条形码、测试药剂特异性条形码、所述靶核酸条形码以及所述靶分子条形码中的一种或多种。

77.如条目1至76中任一项所述的方法，其中检测所述来源特异性条形码、所述靶分子特异性结合剂条形码、测试药剂特异性条形码、所述靶核酸条形码和/或所述靶分子条形码的序列包括杂交、测序或其组合。

78.如条目1至77中任一项所述的方法，其进一步包括对所述来源特异性条形码、所述靶分子特异性结合剂条形码、测试-药剂特异性条形码、所述靶核酸条形码以及所述靶分子条形码中的一种或多种进行定量。

79.如条目1至78中任一项所述的方法，其进一步包括在分离之前，使所述细胞与特异性结合剂接触，所述特异性结合剂特异性结合于在所述细胞的表面上的靶分子。

80.如条目79所述的方法，其中所述特异性结合剂包含抗原，并且所述靶分子包含抗体。

81.如条目79至80中任一项所述的方法，其进一步包括在分离之后，溶解所述细胞，其中所述特异性结合剂由所述来源特异性条形码结合。

82.如条目81所述的方法，其中将所述抗原进一步用ssDNA或部分双链DNA标记，并且使用所述来源特异性条形码作为引物合成互补链。

83.如条目81至82中任一项所述的方法，其进一步包括从编码抗体重链和/或轻链的mRNA合成cDNA，其中所述来源特异性条形码引发所述cDNA合成。

84.如条目79至83中任一项所述的方法，其进一步包含汇集所述区室，并且使用所述抗原上的所述来源特异性条形码定量结合于各细胞表面上的所述抗体的抗原的量。

85.如条目79至84中任一项所述的方法，其进一步包括测定所述重链和/或轻链的序列，并且将所述序列分配给结合所述抗体的所述抗原。

86.如条目79至85中任一项所述的方法，其中所述抗原包含HIV抗原，诸如gp41和/或gp120。

87.一种测定测试药剂对靶分子的特异性的方法，所述方法包括根据条目1至78中的任一项将靶分子集合分配给区室，其中所述方法进一步包括：

在分离之前，使表达靶分子的细胞与用测试药剂特异性条形码标记的测试药剂的汇集物接触；

分离结合于测试药剂的所述靶分子；以及

测定所述测试药剂特异性条形码的序列以及所述来源特异性条形码的序列，由此识别结合于所述靶分子的所述测试药剂。

88.如条目87所述的方法，其中所述靶分子包含细胞表面蛋白，并且所述靶核酸编码所述细胞表面蛋白。

89.如条目87至88中任一项所述的方法，其进一步包括从所述细胞中洗涤未结合的测试药剂。

90.如条目87至89中任一项所述的方法，其中所述靶核酸为DNA或RNA。

91.如条目87至90中任一项所述的方法，其中所述靶核酸为cDNA或mRNA。

92.如条目87至91中任一项所述的方法，其进一步包括用所述来源特异性条形码标记所述测试药剂。

93.如条目87至92中任一项所述的方法，其中所述测试药剂包括小分子化合物、核酸、多肽或多糖。

94.一种测定测试药剂对靶分子的亲和力和/或特异性的方法，所述方法包括根据条目1至78中的任一项将靶分子集合分配给区室，其中所述方法进一步包括：

使带标记的靶分子与同可检测标记结合的测试药剂接触；

使用所述可检测标记分离结合于所述测试药剂的所述带标记的靶分子；

测定所分离的靶分子上的来源特异性条形码的序列；以及

定量与所述所分离的靶分子相关的所述来源特异性条形码，由此测定所述测试药剂对所述靶分子的亲和力。

95.如条目94所述的方法，其进一步包括对未与所述测试药剂一起分离的所述来源特异性条形码进行定量以归一化浓度。

96.如条目94至95中任一项所述的方法，其进一步包括在分离之后裂解所述来源特异性条形码。

97.如条目94至96中任一项所述的方法，其进一步包括将所述所分离的条形码与所述靶核酸缔合以测定结合于所述测试药剂的所述靶分子的序列。

98.如条目94至97中任一项所述的方法，其中所述靶分子包含多肽。

99.如条目98所述的方法，其中所述多肽包含抗体。

100.如条目99所述的方法，其中所述抗体包含抗HIV抗体，诸如抗gp41或抗gp120抗体，并且所述测试药剂包含潜在HIV抗原和/或免疫原的集合。

101.如条目100所述的方法，其中所述测试药剂包含抗体，并且所述靶分子包含在所述细胞的表面上表达的蛋白质。

102.如条目101所述的方法，其中所述测试药剂包含抗HIV抗体，诸如抗gp41或gp120抗体，并且所述靶分子包含HIV抗原和/或免疫原的集合。

103.如条目94至102中任一项所述的方法，其进一步包括测定所述靶分子对所述测试药剂的解离常数、缔合速率或解离速率中的一种或多种。

104.一种测定靶分子在细胞集合的表面上的表达的方法，所述方法包括根据条目1至78中的任一项将靶分子集合分配给区室，所述方法进一步包括：

使所要分隔的所述样品细胞与各自用独特测试药剂条形码标记的测试药剂的集合接触；

测定来源特异性条形码的序列，由此测定分子在所述细胞集合的表面上的表达。

105.如条目104所述的方法，其进一步包括使所分离的条形码与所述靶核酸缔合以测定结合于所述测试药剂的所述靶分子的序列。

106.如条目104至105中任一项所述的方法，其中所述测试药剂包含多肽。

107.如条目106所述的方法，其中所述多肽包含对细胞表面标记物具特异性的抗体。

108.如条目104至108中任一项所述的方法，其进一步包括使表达于所述细胞的表面上的分子与细胞类型、细胞周期或细胞状态的其他度量相关联。

109.一种从细胞群体识别具有感兴趣的比活性的蛋白质的方法，所述方法包括根据条目1至78中的任一项将靶分子集合分配给区室，所述方法进一步包括：

分离具有所述感兴趣的比活性的所述靶分子；以及

识别所分离的具有所述感兴趣的比活性的靶分子的所述来源特异性条形码。

110.如权利要求条目所述的方法，其进一步包括通过匹配来源特异性核酸条形码的序列来识别编码所述蛋白质的所述靶核酸分子。

111.如权利要求条目所述的方法，其中所述活性为抗原结合，并且蛋白质为抗体。

112.如权利要求条目所述的方法，其进一步包括通过被识别为编码感兴趣的抗体的核酸分子的表达来产生感兴趣的抗体。

113.一种检测和/或定量样品中翻译后修饰的靶分子的方法，所述方法包括根据条目1-78中的任一项将靶分子集合分配给特定区室，所述方法进一步包括：

使所带标记的靶分子与第一特异性结合剂和第二特异性结合剂接触，所述第一特异性结合剂在修饰位点处特异性结合所述翻译后修饰靶分子，所述第二特异性结合剂在修饰位点处特异性结合非翻译后修饰靶分子，其中所述第一和第二特异性结合是用特异性结合剂特异性条形码标记；

分离所述靶分子，由此分离结合于所述靶分子的所述特异性结合剂；

测定存在于所分离的特异性结合剂上的来源特异性条形码和所述特异性结合剂条形码的序列，由此确定所述样品中所述翻译后修饰蛋白质的存在。

114.如条目113所述的方法，其中所述翻译后修饰包括磷酸化。

115.如条目113至114中任一项所述的方法，其中所述分离包括使所述靶分子与第三特异性结合剂接触，所述第三特异性结合剂不结合所述修饰位点。

116.如条目113至115中任一项所述的方法，其中所述特异性结合剂包含抗体。

117.一种条形码标记复合物，其包含：

固体或半固体基底，以及

与其可逆偶联的多个条形码元件，其中所述条形码元件中的每一者包含索引核酸识别序列，以及特异性结合于靶核酸的核酸捕获序列和特异性结合于所述靶分子的特异性结合剂中的一个或多个。

118.如条目117所述的复合物，其中所述基底包含珠粒。

119.如条目117所述的复合物，其中所述基底包含水凝胶。

120.如条目117至119中任一项所述的复合物，其中所述来源特异性条形码进一步包含一个或多个裂解位点。

121.如条目120所述的复合物，其中对至少一个裂解位点进行定向，使得在所述位点处的裂解使所述来源特异性条形码从与其偶联的基底释放。

122.如条目117至121中任一项所述的复合物，其中对至少一个裂解位点进行定向，使得在所述位点处的裂解使所述来源特异性条形码从所述靶分子特异性结合剂释放。

123.如条目117至122中任一项所述的复合物，其中所述索引核酸识别序列包括RNA、DNA或其组合。

124.如条目117至123中任一项所述的复合物，其中所述来源特异性条形码包括RNA、DNA或其组合。

125.如条目117至124中任一项所述的复合物，其中所述来源特异性条形码进一步包含共价或非共价键联的一个或多个捕获部分。

126.如条目125所述的复合物，其中所述一个或多个捕获部分包含生物素。

127.如条目117至126中任一项所述的复合物，其中所述来源特异性条形码包含生物素-16-UTP。

128.如条目117至127中任一项所述的复合物，其中所述来源特异性条形码进一步包含测序衔接子。

129.如条目117至128中任一项所述的复合物，其中所述来源特异性条形码进一步包含通用引发位点。

130.如条目117至129中任一项所述的复合物，其中所述靶分子特异性结合剂包括抗体或其片段、包含由所述靶分子识别的表位的多肽或肽或者核酸。

131.如条目117至130中任一项所述的复合物，其中所述来源特异性条形码中的每一者包含一个或多个索引、一个或多个实现基因特异性捕获和/或扩增的序列和/或一个或多个实现测序文库构建的序列。

132.如条目131所述的复合物，其中所述条形码中的每一者包含四个索引。

133.如条目131至132中任一项所述的复合物，其中所述一个或多个索引为组合组装的。

134.如条目131至133中任一项所述的复合物，其中实现测序文库构建的所述序列中的每一者包含Illumina P7序列和/或Illumina测序引物。

135.如条目117至133中任一项所述的复合物，其中所述条形码中的每一者包含用于DNA合成的引物。

136.如条目135所述的复合物，其中所述引物适合用于在DNA模板或RNA模板上进行DNA合成。

137.一种测定样品中的翻译后修饰靶蛋白质的水平的方法，所述方法包括：

提供包含细胞的样品；

将单个细胞或所述样品的一部分与第一特异性结合剂和第二特异性结合剂一起共分隔至个别区室中，所述第一特异性结合剂在修饰位点处特异性结合所述翻译后修饰靶分子，所述第二特异性结合剂在修饰位点处特异性结合非翻译后修饰靶分子，其中所述第一和第二特异性结合是用特异性结合剂特异性条形码标记，其中各个别区室进一步包含来源特异性条形码，所述来源特异性条形码包含独特核酸识别序列，所述独特核酸识别序列维持或带有关于所述样品中的所分隔细胞的来源区室的信息；

用存在于所述个别区室中的所述来源特异性条形码标记所述个别区室中的所述第一特异性结合剂、所述第二特异性结合剂；

分离所述靶分子，由此分离结合于所述靶分子的所述第一和第二特异性结合剂；

检测存在于所述分离特异性结合剂上的来源特异性条形码和所述特异性结合剂条形码的核苷酸序列，由此确定所述样品中所述翻译后修饰蛋白质的存在。

138.如条目137所述的方法，其中所述翻译后修饰包括磷酸化。

139.如条目137至138中任一项所述的方法，其包括定量翻译后修饰和未修饰靶蛋白质的水平。

140.如条目137至139中任一项所述的方法，其中所述分离包括使所述靶分子与第三特异性结合剂接触，所述第三特异性结合剂不结合所述修饰位点，其中所述第三特异性结合剂为可检测地标记的。

141.如条目137至140中任一项所述的方法，其中所述特异性结合剂包含抗体。

142.如条目137至141中任一项所述的方法，其进一步包括用存在于所述个别区室中的所述来源特异性条形码标记所述个别区室中的靶核酸以形成来源标记式靶核酸，其中来自各个别区室的所述来源标记式靶核酸包含与所述来源标记式靶分子相同或匹配的独特索引化核酸识别序列；

检测所述来源特异性条形码的核苷酸序列，由此将所述靶蛋白质集合分配给所述样品或样品集合中的靶核酸，同时维持关于所述靶蛋白质和所述靶核酸的来源区室的信息。

以下实施例旨在说明但不限制本发明。

实施例

实施例1

靶分子的区室特异性标记

以下实施例展示使用本文中所阐述的方法对分子集合的标记。

在此实施例中，所选靶分子为抗原，即例如呈天然同种型(wtGP120)或呈N332A突变体同种型(gp120^N332A)形式的HIV包膜糖蛋白gp120。将抗原的两个同种型用两个不同的单链DNA标签标记。然后将展示对抗原的任一同种型具有亲和力的免疫球蛋白M(IgM)的B细胞与带标记的抗原的混合物一起孵育。然后洗涤细胞，并且使用微流控装置与溶解缓冲液、逆转录(RT)缓冲液和酶(RT酶、DNA聚合酶以及限制酶BclI)以及水凝胶珠粒一起封装于约100pL微滴中(Kim等人-Fabrication of monodisperse gel shells and functionalmicrogels in microfluidic devices.Angew Chem Int Ed Engl.2007；46(11):1819-22；Abate,A.R.等人-Beating Poisson encapsulation statistics using close-packedordering.Lab Chip(2009).9(18),2628-31.doi:10.1039/b909386a)，所述水凝胶珠粒携带与DNA标签以及重链和轻链抗体基因的mRNA互补的带条形码引物的混合物。

抗原的标记：

抗原连接至DNA标签可为直接(经由诸如NHS-酯反应等化学作用形成的共价键)或间接(非共价键合，诸如生物素-链霉亲和素相互作用)的。以下描述第二种情况。

带标记的抗原在其最后形式中被构造成生物素化抗原结合于链霉亲和素分子的一个口袋中，所述链霉亲和素分子有另外三个口袋由生物素化单链DNA标签结合(参见图8)。可直接以生物素化寡核苷酸形式获得DNA标签或通过PCR制备并且用λ核酸外切酶处理。以下描述第二种策略。

使用一对具有20个核苷酸(nt)的5'延伸的寡核苷酸，通过PCR形成DNA标签。所述寡核苷酸中的一个上的延伸为SBS3(ACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO:2))序列，而另一寡核苷酸上的延伸为随机选择的序列(诸如GGAGTTGTCCCAATTCTTGT(SEQ ID NO:3))，称为标签特异性引物(TSP)，所述标签特异性引物是所有抗原标签共同拥有的。扩增区为pUC19质粒的100碱基对(bp)序列。使用与第一引物集合的5'延伸相同的第二引物集合，即SBS3(SEQ ID NO:2)和TSP对此第一产物进行第二PCR扩增。第二集合的SBS3(SEQ ID NO:2)引物在其5'上带有生物素，并且TSP引物具有5'磷酸。然后将最终双链产物与λ核酸外切酶一起孵育，所述λ核酸外切酶靶向5'磷酸化链以进行降解，对另一链进行生物素保护。最终产物为单链5'生物素化DNA分子。通过在第一PCR步骤中改变质粒的扩增区，可使用此流程产生不同的DNA标签。其序列在两端约20nt上将为相同的，但中心将为不同的，从而为不同靶分子提供不同标签。

在此，通过针对两种型式的gp120抗原(wtGP120和gp120^N332A同种型)靶向pUC19质粒的两个不同区来制备两种不同的标签。

靶向的分子为展示生物素的重组抗原。首先将此抗原与10倍过量的游离链霉亲和素一起孵育，然后洗涤并且使用可商购获得的尺寸排阻柱纯化。然后将纯化的链霉亲和素结合的抗原与10倍过量的5'生物素化单链DNA分子(上文所描述的可商购获得的寡核苷酸或λ核酸外切酶的产物)一起孵育，然后再次洗涤并且使用尺寸排阻柱纯化。

最终产物为抗原，其生物素标签由链霉亲和素分子的一个口袋结合，另外三个口袋由5'生物素单链DNA标签占据。在此，在与细胞一起孵育之前将wtGP120-标签1和gp120^N332A-标签2的最终产物以相等比率混合(参见图8)。

细胞的标记：

在区室化之前，将各种细胞群体与带标记的抗原一起孵育20分钟，然后在大量的PBS中洗涤三次。在第一对照实验中，所述群体由具有确定的并且不同于wtGP120或gp120^N332A的亲和力的四种不同细胞系的混合物组成。在后续实验中，细胞群体来自于HIV感染患者的样品，诸如来自于在血清中显示广泛中和HIV-1抗体的患者，或处于不同感染阶段的患者。

水凝胶珠粒制备和带条形码寡核苷酸的合成：

在一些实例中，在微流控芯片中由PEG-DA寡聚物制备水凝胶珠粒，其中通过水动力流动聚焦使水性PEG-DA溶液分散以在氟化油连续相中形成微滴(Anna,S.,Bontoux,N.以及Stone,H.(2003).Forma tion of dispersions using“flow focusing”inmicrochannels.Applied Physics Letters,52(3),364-366.doi:10.1063/1.1537519)。然后经由UV活化光引发剂使珠粒交联。添加400μM的称为RanA的双链D NA寡核苷酸(双链体)，其在一个末端带有5'acrydite修饰而另一侧为4-nt 5'突出(顶部链：5'Acrydite-TCTTCACGGAACGA(SEQ ID NO:4)；底部链：5'磷酸-CAGT TCGTTCCGTGAAGA(SEQ ID NO:5))，并且经由PEG-DA寡聚物的丙烯酸酯末端基团与水凝胶基质共价交联。在聚合和在Tris-HClpH 7.4 20mM；NaCl 50mM；吐温(T ween)0.01％；EDTA 1mM中洗涤之后，使用T7DNA连接酶连接第一双链体，所述第一双链体在一侧具有与acrydite双链体的突出相容的4-nt 5'突出，而在另一侧具有与下游连接物相容的另一4-nt 5'突出。在其双链部分中，此第一双链体在序列中具有称为RanB的随机选择的8-nt序列(GACTAGAA(SEQ ID NO:6)，随后为BclI限制位点(TGATCA(SEQ ID NO:7)，随后为SBS12序列(GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:8))。

在连接和洗涤之后，通过在两个5'末端具有4-nt突出的20-nt DNA双链体的由T7DNA连接酶介导的四次连续连接来合成条形码。在各连接步骤中使用不同的4-nt突出确保仅可以正确顺序组装4个索引。为了形成多种多样的条形码，使水凝胶珠粒批料均等分布于96孔板的孔中。各孔含有具有被设计成保持明确的有至多三个错误的独特的20-nt序列(索引)的双链体，加上连接缓冲液以及酶。在连接孵育之后，将整个板的反应体积汇集于一个管中并且洗涤。以相同方式进行下一连接步骤：将汇集的批料均等分布于含有另一96个不同双链体的集合以及连接缓冲液和酶的新板中。此分开-汇集合成的组合多样性为96⁴(超过8400万)。最后，连接至新合成的条形码的最后的双链体为部分双链的，以允许通过T7DNA连接酶进行连接，并且以长单链3'末端终止(参见例如图9和10)。双链区为确定的接头序列(TACGCTACGGAACGA(SEQ ID NO:9)。单链区依次由随机化的12-nt序列(GNNNGNNGNNNG(SEQ ID NO:10)和用于引发逆转录的mRNA的反义序列或用于引发DNA聚合的TSP的反义序列组成。12-nt随机序列充当独特分子标识符(UMI)：它们允许将来源于不同RT引发事件的序列(具有不同UMI)与来源于相同cDNA的PCR扩增的序列(具有相同UMI)区别开(Shiroguchi,K.,Jia,T.Z.,Sims,P.A.以及Xie,X.S.(2012).Digital RNA sequencingminimizes sequence-dependent bias and amplification noise with optimizedsinglemolecule barcodes.Proceedings of the National Academy of Sciences,109(4),1347-1352.doi:10.1073/pnas.1118018109)。

此处通过限制酶裂解来释放寡核苷酸可通过用可连接至核酸的任何可裂解化学基团(诸如可光裂解或pH敏感部分)代替此序列来进行。

将表型编码至液滴中的DNA-DNA聚合和RT中：

使用微流控芯片，将带标记的细胞与溶解缓冲液、逆转录酶和其缓冲液、DNA聚合酶、BclI限制酶以及水凝胶珠粒一起封装于微滴中，所述水凝胶珠粒携带部分双链DNA分子的汇集物，它们全部拥有相同的DNA条形码；在每个水凝胶珠粒上此DNA条形码为不同的。在细胞封装时以泊松分布(Poisson distribution)来产生液滴，并且选择细胞浓度，使得每个微滴的平均细胞数目＜1，确保大部分的液滴不含超过一个细胞。之后，以紧密堆积的阵列的形式注射可变形水凝胶珠粒(Abate,A.R.等人(2009))，确保大多数液滴含有单个珠粒(图11)。水凝胶珠粒结合的DNA分子的单链部分依次由UMI序列(SEQID NO:10)以及对DNA标签的3'末端或抗体基因的重链和轻链mRNA的恒定(Fc)区的大部分5'末端来说反义的序列(在珠粒上相等比例的3类终止序列)组成。

然后将乳液在55℃下放置1小时30分。在此孵育期间，BclI限制酶将带条形码的寡核苷酸裂解并且释放至液滴的整个体积中。同时，将带标记的细胞溶解，并且所释放的mRNA退火至所释放的带条形码的寡核苷酸的单链部分上的互补序列，并且RT酶将延长带条形码DNA，从而拷贝抗体重链和轻链mRNA的序列。同时，抗原结合的DNA标签还退火至其在水凝胶结合的带条形码DNA的单链部分上的互补序列，并且聚合酶延伸带条形码的DNA分子，从而拷贝DNA标签。将DNA条形码添加至mRNA衍生的cDNA和抗原结合的DNA标签赋予这些序列单细胞特异性(参见例如图12)。

成批扩增和测序：

然后将乳液放置在70℃下以使RT酶失活，破坏乳液，并且回收水相，并且使用商业试剂盒(Agencourt RNAClean XP)纯化DNA。

然后，对于重链cDNA、轻链cDNA以及DNA标签，在单独的PCR中扩增cDNA和带条形码的标签。所用的引物匹配cDNA和DNA标签的末端，并且具有5'延伸，所述5'延伸含有测序所必需的序列，即锚定序列P7(CAAGCAGAAGACGGCATACGAGAT(SEQ ID NO:11))和P5(AATGATACGGCGACCACCGAGATCT(SEQ ID NO:12)(参见例如图13)。

实施例2

抗体分泌细胞的表型和序列回收

此实施例描述实施例1的变化型式，其适合于对所选抗体分泌细胞进行测序，例如以筛选能够结合于HIV gp120蛋白质的抗体。

在此实施例中，靶分子为抗原，即呈天然同种型(gp120^wt)或呈N332A突变体同种型(gp120^N332A)形式的HIV包膜糖蛋白gp120。将抗原的两个同种型用两个不同的单链DNA标签标记。使用微流控装置将浆细胞封装于约100pl微滴中，所述微滴包括培养基、带DNA标签(加条形码)的抗原以及水凝胶珠粒的混合物，所述水凝胶珠粒携带与DNA标签以及重链和轻链抗体基因的mRNA互补的带条形码引物的混合物。在37℃下孵育以允许从浆细胞分泌抗体之后，使用微流控装置使微滴与其他微滴融合，所述其他微滴含有溶解缓冲液、RT缓冲液以及酶(RT酶、DNA聚合酶以及限制酶，诸如限制酶BclI)以及水凝胶珠粒，所述水凝胶珠粒携带与DNA标签以及重链和轻链抗体基因的mRNA互补的带条形码引物的混合物。在55℃下孵育(此举促进通过BclI进行的酶促消化、mRNA的RT以及DNA聚合)之后，以化学方式破坏乳液并且回收水相。使用可商购获得的蛋白质-A/G琼脂糖树脂纯化抗体和相关DNA标签化(条形码)抗原。从蛋白质-A/G琼脂糖树脂流过中纯化cDNA。通过PCR分开地扩增抗原标签和cDNA并且送去测序。

如实施例1一般进行抗原的标记。

水凝胶珠粒制备和带条形码寡核苷酸的合成：

如实施例1一般来进行。

将表型编码至液滴中的DNA-DNA聚合和RT中：

如实施例1中所描述，使用微流控装置，将单个细胞与培养基和单个水凝胶珠粒一起区室化于微滴中，所述单个水凝胶珠粒携带部分双链的DNA分子，所述部分双链的DNA分子包含条形码，所述条形码在各水凝胶珠粒上为不同的。然后将收集的乳液在37℃下放置三十分钟至六小时，以使细胞分泌抗体(参见图14上方图和图15)。

将乳液再注射于另一微流控装置中，在所述另一微流控装置中液滴与含有溶解缓冲液、RT缓冲液和酶、DNA聚合酶以及BclI限制酶的其他液滴融合。使用用电极产生的电场来实现融合，使得当施加电场时两个微滴合并(Chabert,M.,Dorfman,K.以及Viovy,J.(2005).Droplet fusion by alternating current(AC)field electrocoalescence inmicrochannels.Electrophoresis,26(19),3706-3715.doi:10.1002/elps.200500109)(参见图14下方图和图15)。

如实施例1中所描述，然后将乳液在55℃下放置1小时30分，以进行寡核苷酸释放和RT。同时，抗原结合的DNA标签还退火至其在所释放的带条形码DNA的单链部分上的互补序列，并且聚合酶延伸带条形码的DNA分子，从而拷贝DNA标签。因此，经由RT产生重链和轻链的带条形码的cDNA，并且经由DNA聚合产生带条形码的抗原-DNA标签(参见例如图16)。

成批纯化和扩增以及测序：

然后将乳液放置在70℃下以使RT酶失活。在冰上冷却之后，在乳液的顶部添加未标记抗原的浓溶液，以阻止在破坏乳液之后来自一个液滴的游离标记抗原(和现在的带条形码的)结合于来自另一液滴的未结合的抗体(图17)。

接着破坏乳液并且回收水相。使用可商购获得的蛋白质-A/G琼脂糖树脂从此相中纯化抗体(结合于带条形码的标记抗原)。使用商业试剂盒(Agencourt RNAClean XP)从蛋白质-A/G琼脂糖树脂流过中纯化cDNA。

类似于实施例1，然后，对于重链cDNA、轻链cDNA以及DNA标签，在单独的PCR中扩增带条形码的cDNA和带条形码的标签。(图16和17)。所用的引物匹配cDNA和DNA标签的末端，并且具有5'延伸，所述5'延伸含有测序所必需的序列，即锚定序列P7(SEQ IDNO:11))和P5(SEQ ID NO:12)。

实施例3

通过测序进行血细胞计数

在此实施例中，将细胞与带DNA标签的抗体一起孵育，洗涤并且与DNA聚合酶、限制酶BclI以及水凝胶珠粒一起封装，所述水凝胶珠粒携带部分单链的带条形码的寡核苷酸(DNA标签的反义物质)。将乳液放置在55℃下以释放寡核苷酸并且触发DNA聚合(延伸带条形码的寡核苷酸，从而拷贝抗体结合的DNA标签)。然后测序揭示了结合于各细胞的所有抗体，指示细胞所展示的表面标记物。在某些实施例中，添加逆转录(RT)试剂以测定mRNA的序列或转录水平，在此情况下在封装之后将细胞溶解。

抗体的标记：

在一些实施例中，通过偶联至生物素对靶特异性抗体进行修饰，例如经由与赖氨酸残基的NHS-酯反应，或通过酰肼部分缀合至氧化的抗体碳水化合物残基。

如下标记生物素化靶特异性抗体(类似于实施例1，但使用生物素化抗体而不是生物素化抗原以及修改的纯化试剂盒)。首先将抗体与10倍过量的游离链霉亲和素一起孵育，然后洗涤并且使用可商购获得的蛋白质-A/G琼脂糖树脂纯化。然后将纯化的链霉亲和素结合的抗体与10倍过量的5'生物素化单链DNA分子一起孵育，然后再次洗涤并且使用可商购获得的蛋白质-A/G琼脂糖树脂纯化。最终产物为抗体，其生物素标签由链霉亲和素分子的一个口袋结合，而另外三个口袋由5'生物素单链DNA标签占据。

细胞的标记：

在区室化之前，将细胞群体与带标记的抗体一起孵育20分钟，然后在大量的PBS中洗涤三次。

水凝胶珠粒制备和带条形码寡核苷酸的合成：

如实施例1一般来进行。

将表型编码至液滴中的DNA-DNA聚合和(任选)RT中：

使用微流控芯片，将带标记的细胞与DNA聚合酶、BclI限制酶以及水凝胶珠粒一起封装于微滴中，所述水凝胶珠粒携带部分双链DNA分子的汇集物(图18)。如果要进行RT，那么还添加细胞溶解试剂。水凝胶珠粒结合的DNA的单链部分依次由UMI序列(SEQ ID NO:10)和对DNA标签的3'末端来说反义的序列组成。

然后将乳液在55℃下放置1小时30分。在此孵育期间，BclI限制酶将带条形码的寡核苷酸裂解并且释放至液滴的整个体积中。抗体结合的DNA标签退火至其在水凝胶结合的带条形码DNA的单链部分上的互补序列，并且聚合酶延伸带条形码的DNA分子，从而拷贝DNA标签(图19)。DNA条形码键联至抗体DNA标签赋予这些序列单细胞特异性。

在RT情况下，水凝胶珠粒结合的寡核苷酸汇集物的一部分与mRNA互补，并且通过在55℃下孵育来溶解细胞，以释放mRNA，所述mRNA退火至所释放的带条形码的寡核苷酸的单链部分上的互补序列，并且RT酶延伸带条形码DNA，从而拷贝mRNA的序列。

成批纯化和扩增以及测序：

然后将乳液放置在70℃下以使RT酶失活。在冰上冷却之后，破坏乳液并且回收水相，并且使用商业试剂盒(Agencourt RNAClean XP)纯化DNA。

然后通过PCR扩增带条形码的标签(和在RT情况下的cDNA)。所用的引物匹配标签的末端，并且具有5'延伸，所述5'延伸含有测序所必需的序列，即锚定序列P7(SEQ ID NO:11)和P5(SEQ ID NO:12)(图20)。

实施例4

蛋白质磷酸化分析

在此实施例中，靶分子为蛋白质，所述蛋白质经历磷酸化翻译后修饰，例如酪氨酸激酶表皮生长因子受体(EGFR)和Janus激酶2(JAK2)以及下游激酶磷酸化转录因子、信号转导和转录活化因子3(STAT3)。此实施例提供一种测量蛋白质磷酸化水平的方法。

将对不同靶蛋白质具特异性的抗体用不同的单链DNA标签标记(图21)。在存在或不存在测试药剂(诸如药物药剂或潜在药物药剂)的情况下，将感兴趣的细胞在适当的培养基中孵育。然后洗涤细胞，并且使用微流控装置与用DNA标签标记的靶特异性抗体、溶解缓冲液、PCR缓冲液以及酶(DNA聚合酶和限制酶BclI)、生物素标记的对缺乏磷酸化位点的靶结构域具特异性的抗体以及水凝胶珠粒(Abate,A.R.等人(2009))一起封装于约100pL微滴中，所述水凝胶珠粒携带与用DNA标签标记的靶特异性抗体的DNA标签互补的带条形码引物的混合物。

抗体的标记：

如实施例1中一般形成DNA标签。然而，可使用任何适合的质粒来产生标签，并且5'延伸是所有抗体标签共同拥有的(SEQ ID NO:3)，称为标签特异性引物(TSP)。通过扩增质粒的不同区来制备不同的标签，诸如此实施例所需的三种。

靶特异性抗体可为可商购获得的，其已与生物素缀合，或可经由与赖氨酸残基的NHS-酯反应而用生物素修饰，或通过酰肼部分缀合至氧化的抗体碳水化合物残基而被修饰。如实施例1中一般将生物素化靶特异性抗体用DNA标签标记。

最终产物为抗体，其生物素标签由链霉亲和素分子的一个口袋结合，而另外三个口袋由5'生物素单链DNA标签占据。在用于分析之前将带标记的靶特异性抗体以相等比率混合。

水凝胶珠粒制备和带条形码寡核苷酸的合成：

这是如实施例1中一般来进行，此实施例的UMI将来源于不同带DNA标签的靶特异性抗体而不是来自不同RT引发事件的序列区分开。

将表型编码至液滴中的DNA-DNA聚合中：

用DNA标签标记的靶特异性抗体对靶蛋白质的磷酸化区具特异性。使用针对磷酸化蛋白质的一种抗体和针对未磷酸化蛋白质的抗体来编码针对各状态的特异性标签。使用对蛋白质的不含磷酸化位点的结构域具特异性的第三抗体来标记结合型复合物。使用此实施例的“抗体的标记”部分的方法将此抗体用生物素标记。此抗体不具有DNA标签，并且被封装于所有微滴中。生物素标记允许随后将抗体-靶复合物与未结合的抗体分离。或者，可通过尺寸排阻色谱法纯化复合物，而不使用第三抗体。

使用微流控芯片，将单个细胞与用DNA标签标记的靶特异性抗体、溶解缓冲液、DNA聚合酶(新英格兰生物实验室克列诺片段(3'—>5'exo-))和其缓冲液、BclI限制酶、如上文所描述的带生物素标记的抗体以及水凝胶珠粒一起封装于微滴中，所述水凝胶珠粒携带部分双链DNA分子的汇集物，它们全部拥有相同的DNA条形码；此DNA条形码在每个水凝胶珠粒上为不同的。在细胞封装时以泊松分布来产生液滴，并且选择细胞浓度，使得每个微滴的平均细胞数目＜1，确保大部分的液滴不含超过一个细胞。以紧密堆积的阵列的形式注射可变形水凝胶珠粒(Abate,A.R.等人(2009))，确保大多数液滴含有单个珠粒(图22)。水凝胶珠粒结合的DNA分子的单链部分依次由UMI序列和对DNA标签的3'末端来说反义的序列组成。

然后将乳液在37℃下放置1小时30分。在此孵育期间，BclI限制酶将带条形码的寡核苷酸裂解并且释放至液滴的整个体积中。同时，细胞溶解并且所释放的靶蛋白质由带标记的抗体捕获，其将与其在水凝胶结合的带条形码DNA的单链部分上的互补序列退火，并且聚合酶延伸带条形码的DNA分子，从而拷贝DNA标签。这些抗体-靶标复合物由带生物素标记的抗体捕获。将DNA条形码添加至抗体结合的DNA标签赋予这些序列单细胞特异性(图23)。

磷酸化靶蛋白质的回收以及磷酸化靶蛋白质与未磷酸化靶蛋白质的分离：

将乳液放置在75℃下以使聚合酶失活，然后破坏乳液并且回收水相。然后经由链霉亲和素琼脂糖柱链霉亲和素琼脂糖柱)将磷酸化和未磷酸化蛋白质以及连接的抗体、DNA标签以及条形码与未结合的用DNA标签标记的抗体分离(图24)。或者，可通过尺寸排阻色谱法纯化复合物。

成批扩增和测序：

使用商业试剂盒(Agencourt AMPure XP)纯化带条形码的DNA标签。然后，对于来自磷酸化和未磷酸化蛋白质的标签，在单独的PCR中扩增带条形码的标签。所用的引物匹配DNA标签的末端，并且具有5'延伸，所述5'延伸含有测序所必需的序列，即锚定序列P7(SEQ ID NO:11)和P5(SEQ ID NO:12)。

经由关于各DNA条形码的靶特异性DNA标签读段的数目或UMI的数目对单细胞水平靶蛋白质磷酸化数据进行定量，并且与总靶蛋白质量相比较。

实施例5

替代蛋白质磷酸化分析

将对不同靶蛋白质具特异性的抗体用不同的双链DNA标签标记(图25)。在存在或不存在测试药剂(诸如药物药剂或潜在药物药剂)的情况下，将感兴趣的细胞在适当的培养基中孵育。然后洗涤细胞，并且使用微流控装置与溶解缓冲液、限制酶BclI、生物素标记的具对缺乏磷酸化位点的靶结构域特异性的抗体以及水凝胶珠粒(Abate,A.R.等人(2009))一起封装于约100pL微滴中，所述水凝胶珠粒携带带条形码引物，所述带条形码引物连接至用DNA标签标记的靶特异性抗体的DNA标签。

抗体的标记：

通过使具有以下描述的两个商业产生的寡核苷酸退火来形成DNA标签。一个具有磷酸酯封端的4核苷酸(nt)5'延伸，随后为30nt随机序列，然后为SBS3序列(SEQID NO:2)以及10nt随机序列。此4nt突出为所有标签共同拥有的，并且允许标签连接至带条形码的水凝胶珠粒。反向序列视用以使标签缀合至抗体的方法而定在5'末端由氨基、醛或NHS-酯修饰剂终止，并且具有10nt 5'单链突出作为柔性接头。通过改变30nt随机序列可通过此相同流程产生不同DNA标签。其序列在两端的核苷酸上将为相同的，但中心将为不同的，从而为不同靶抗体提供不同标签。

然后如下使退火的双链DNA标签缀合至靶特异性抗体。在Kozlov等人(Kozlov,I.A.等人-Efficient strategies for the conjugation of oligonucleotides toantibodies enabling highly sensitive protein detection.Biopolymers(2004).73(5),621-630.doi:10.1002/bip.20009))之后，经由形成腙键使具有5'4nt单链突出和醛5'修饰(在反向序列上)的标签缀合至抗体。首先将抗体与20倍过量的4-肼基烟酸琥珀酰亚胺酯丙酮腙(SANH；Solulink)一起在PBS中孵育。然后在Illustra NAP-5柱中(GEHealthcare)通过尺寸排阻色谱法将其纯化，并且在pH6.0下再悬浮于100mM柠檬酸盐缓冲液中。然后将抗体与10倍过量的DNA标签一起孵育，并且通过Illustra(GE Healthcare)尺寸排阻柱再次纯化。

最终产物为结合于5'醛双链DNA标签的抗体。在用于分析之前将带标记的靶特异性抗体以相等比率混合。

水凝胶珠粒制备和带条形码寡核苷酸的合成：

这是如实施例1中一般来进行。然而，连接至新合成的条形码的最后的双链体是以4nt 5'突出终止。此突出与所有靶特异性DNA标签共同拥有的5'4nt突出互补，从而允许其通过T7DNA连接酶连接至水凝胶珠粒。另外，使用UMI来将来源于不同的带DNA标签的靶特异性抗体而不是来自不同RT引发事件的序列区分开。

将表型编码至DNA中：

水凝胶珠粒携带部分双链DNA分子的汇集物，它们全部拥有相同的DNA条形码；此DNA条形码在每个水凝胶珠粒上为不同的，并且以4nt 5'突出终止。在用于分析之前，经由T7连接酶酶将用DNA标签标记的抗体连接至水凝胶珠粒。此举将靶特异性标签序列与水凝胶珠粒条形码键联。DNA标签与DNA条形码的此连接赋予靶分子单细胞特异性。

这些带标记的抗体对靶蛋白质的磷酸化区具特异性。使用针对磷酸化蛋白质的一种抗体和针对未磷酸化蛋白质的抗体来编码针对各状态的特异性标签。使用对蛋白质的不含磷酸化位点的结构域具特异性的第三抗体来标记结合型复合物。使用实施例4的“靶抗体的标记”部分的方法将此抗体用生物素标记。此抗体不具有DNA标签，并且被封装于所有微滴中。生物素标记允许随后将抗体-靶复合物与未结合的抗体分离。或者，可通过尺寸排阻色谱法纯化复合物，而不使用第三抗体。

使用微流控芯片，将单个细胞与溶解缓冲液、BclI限制酶、如上文所描述的带生物素标记的抗体以及水凝胶珠粒一起封装于微滴中，所述水凝胶珠粒携带DNA条形码，所述DNA条形码连接至用DNA标签标记的抗体。在细胞封装时以泊松分布来产生液滴，并且选择细胞浓度，使得每个微滴的平均细胞数目＜1，确保大部分的液滴不含超过一个细胞。以紧密堆积的阵列的形式注射可变形水凝胶珠粒(Abate,A.R.等人(2009))，确保大多数液滴含有单个珠粒(图26)。

然后将乳液在37℃下放置1小时30分。在此孵育期间，BclI限制酶将带条形码和带标记的抗体裂解并且释放至液滴整个体积中。同时，细胞溶解，并且释放的靶蛋白质由这些抗体捕获。这些抗体-靶标复合物由带生物素标记的抗体捕获(图27)。

破坏乳液并且回收水相。然后经由链霉亲和素琼脂糖柱(链霉亲和素琼脂糖柱)将磷酸化和未磷酸化蛋白质以及连接的抗体、DNA标签以及条形码与未结合的用DNA标签标记的抗体(图28)分离。或者，可通过尺寸排阻色谱法纯化复合物。

成批扩增和测序：

实施例6

替代蛋白质磷酸化分析

在此实施例中，靶分子为蛋白质，所述蛋白质经历磷酸化翻译后修饰，例如酪氨酸激酶表皮生长因子受体(EGFR)和Janus激酶2(JAK2)以及下游激酶磷酸化转录因子、信号转导和转录活化因子3(STAT3)。此实施例提供一种同时测量蛋白质磷酸化水平和对mRNA进行靶向测序以便测定靶序列和表达程度的方法。

将对不同的靶蛋白质特异性的抗体用不同的单链DNA标签标记。在存在或不存在测试药剂(诸如药物药剂或潜在药物药剂)的情况下，将感兴趣的细胞在适当的培养基中孵育。然后洗涤细胞，并且使用微流控装置与用DNA标签标记的靶特异性抗体、逆转录缓冲液和酶(逆转录酶、DNA聚合酶以及限制酶BclI)、生物素标记的对缺乏磷酸化位点的靶结构域具特异性的抗体以及水凝胶珠粒(Abate,A.R.等人(2009))一起封装于约100pL微滴中，所述水凝胶珠粒携带与标记的靶特异性抗体的DNA标签以及靶向的mRNA互补的带条形码引物的混合物。

抗体的标记如实施例4中一般形成DNA标签。

水凝胶珠粒制备和带条形码寡核苷酸的合成：

这是如实施例1中一般来进行，此实施例的UMI把来源于不同带DNA标签的靶特异性抗体以及来自不同RT引发事件的序列区分开。

将表型编码至液滴中的DNA-DNA聚合和RT中：

用DNA标签标记的靶特异性抗体对靶蛋白质的磷酸化区具特异性。使用针对磷酸化蛋白质的一种抗体以及针对未磷酸化蛋白质的抗体来编码针对各状态的特异性标签(参见例如图29)。使用对蛋白质的不含磷酸化位点的结构域具特异性的第三抗体来标记结合型复合物。使用实施例4的“靶分子的标记”部分的方法将此抗体用生物素标记。此抗体不具有DNA标签，并且被封装于所有微滴中。生物素标记允许随后将抗体-靶复合物与未结合的抗体分离。或者，可通过尺寸排阻色谱法纯化复合物，而不使用第三抗体。

使用微流控芯片，将单个细胞与用DNA标签标记的靶特异性抗体、溶解缓冲液、逆转录酶和其缓冲液、DNA聚合酶、BclI限制酶、如上文所描述的带生物素标记的抗体以及水凝胶珠粒一起封装于微滴中，所述水凝胶珠粒携带部分双链DNA分子的汇集物，它们全部拥有相同的DNA条形码；此DNA条形码在每个水凝胶珠粒上为不同的。水凝胶珠粒结合的DNA分子的单链部分依次由DNA接头序列、对DNA标签的3'末端反义的序列或靶向mRNA序列JAK2组成。在细胞封装时以泊松分布来产生液滴，并且选择细胞浓度，使得每个微滴的平均细胞数目＜1，确保大部分的液滴不含超过一个细胞。以紧密堆积的阵列的形式注射可变形水凝胶珠粒(Abate,A.R.等人(2009))，确保大多数液滴含有单个珠粒(图29、30)。

然后将乳液在55℃下放置1小时30分。在此孵育期间，BclI限制酶将带条形码的寡核苷酸裂解并且释放至液滴的整个体积中。同时，细胞溶解并且所释放的靶蛋白质由带标记的抗体捕获，其将与其在水凝胶结合的带条形码DNA的单链部分上的互补序列退火，并且聚合酶延伸带条形码的DNA分子，从而拷贝DNA标签。这些抗体-靶标复合物由带生物素标记的抗体捕获。同时，所释放的mRNA退火至对应所释放的带条形码的寡核苷酸的单链部分上的互补序列，并且RT酶延伸带条形码的DNA，从而拷贝靶mRNA的序列。将DNA条形码添加至抗体结合的DNA标签赋予这些序列单细胞特异性(图30)。

将乳液放置在70℃下以使聚合酶失活，然后破坏乳液并且回收水相。然后经由链霉亲和素琼脂糖柱(链霉亲和素琼脂糖柱)将磷酸化和未磷酸化蛋白质以及连接的抗体、DNA标签以及条形码与未结合的用DNA标签标记的抗体和来自RT的带条形码的cDNA分离(图31)。或者，可通过尺寸排阻色谱法纯化复合物。

成批扩增和测序：

使用商业试剂盒(Agencourt AMPure XP)纯化来自靶向的蛋白质的带条形码的DNA标签。使用商业试剂盒(Agencourt RNAClean XP)纯化来自RT DNA的cDNA。然后如来自RT的cDNA一般，对于来自磷酸化和未磷酸化蛋白质的标签，在单独的PCR中扩增带条形码的标签。所用的引物匹配DNA标签的末端，并且具有5'延伸，所述5'延伸含有测序所必需的序列，即锚定序列P7(SEQ ID NO:11)和P5(SEQ ID NO:12)。

经由关于各DNA条形码的靶特异性DNA标签读段的数目或UMI的数目对单细胞水平靶蛋白质磷酸化数据进行定量，并且与总靶蛋白质量相比较。还可从测序获得单细胞水平的mRNA表达和序列信息。

实施例7

在单细胞水平的抗体谱测序：

此实施例描述对编码构成抗体并给予其特异性的两个肽的两个mRNA进行测序的方法。在此实施例中，使用微流控装置将抗体产生细胞系(杂交瘤)的混合物封装于约100pl微滴中，所述微滴包括培养基、细胞溶解和逆转录试剂以及水凝胶珠粒的混合物，所述水凝胶珠粒携带与重链和轻链抗体基因的mRNA互补的带条形码引物的混合物。在55℃下孵育(此举使通过BclI进行的酶促消化、mRNA的RT以及DNA聚合成为可能)之后，以化学方式破坏乳液并且回收水相。使用固相可逆固定(SPRI)珠粒纯化cDNA并且在送去测序之前通过PCR扩增。

水凝胶珠粒制备和针对逆转录的官能化：

在微流控芯片中由PEG-DA寡聚物制备水凝胶珠粒，其中通过水动力流动聚焦使水性PEG-DA溶液分散以在氟化油连续相中形成微滴(Anna,S.,Bontoux,N.以及Stone,H.(2003).Formation of dispersions using“flow focusing"in microchannels.AppliedPhysics Letters,52(3),364-366.doi:10.1063/1.1537519)。然后经由UV活化光引发剂使珠粒交联。添加400μM的称为RanA的双链DNA寡核苷酸(双链体)，其在一个末端带有5'acrydite修饰而另一侧为4-nt 5'突出(顶部链：5'Acrydite-TCTTCACGGAACGA(SEQ ID NO:4)；底部链：5'磷酸-CAGTTCGTTCCGTGAAGA(SEQ ID NO:5))，并且经由PEG-DA寡聚物的丙烯酸酯末端基团与水凝胶基质共价交联。在聚合和在Tris-HCl pH 7.4 20mM；NaCl 50mM；吐温0.01％；EDTA 1mM中洗涤之后，使用T7DNA连接酶连接第一双链体，所述第一双链体在一侧具有与acrydite双链体的突出相容的4-nt 5'突出，而在另一侧具有与下游连接物相容的另一4-nt 5'突出。在其双链部分中，称为RanB的此第一双链体在序列中具有BclI限制位点(TGATCA(SEQ ID NO:13)，随后为更短型式的读段2序列(GTGTGCTCTTCCGATCT(SEQ ID NO:14))。

在连接和洗涤之后，通过在两个5'末端具有4-nt突出的20-ntDNA双链体的由T7DNA连接酶介导的四次连续连接来合成条形码。在各连接步骤中使用不同的4-nt突出确保仅可以正确顺序组装4个索引。为了形成多种多样的条形码，使水凝胶珠粒批料均等分布于96孔板的孔中。各孔含有具有被设计成保持明确的有至多三个错误的独特的20-nt序列(索引)的双链体，加上连接缓冲液以及酶。在连接孵育之后，将整个板的反应体积汇集于一个管中并且洗涤。以相同方式进行下一连接步骤：将汇集的批料均等分布于含有另一96个不同双链体的集合以及连接缓冲液和酶的新板中。此分开-汇集合成的组合多样性为96⁴(超过8400万)。最后，连接至新合成的条形码的最后的双链体为部分双链的，以允许通过T7DNA连接酶进行连接，并且以长单链3'末端终止(参见例如图9和10)。双链区为确定的接头序列(TACGCTACGGAACGA(SEQ ID NO:15)。单链区依次由随机化的5-nt序列(NNNNN(SEQID NO:16)和靶向的基因的互补序列组成。在此实施例中，我们使用两个略微简并的序列：旨在靶向每个杂交瘤细胞的轻链mRNA的HyLRT1(TTGATTTCCAGCTTGGTCCC(SEQ ID NO:17))，以及旨在靶向每个杂交瘤细胞的重链mRNA的HyHRT1(GGCCAGTGGATAGACYGATG(SEQ ID NO:18))。注意，可使用任何所公布的设计用于靶向轻链和重链mRNA的最大多样性的引物混合物。5-nt随机序列充当独特分子标识符(UMI)：它们允许将来源于不同RT引发事件的序列(具有不同UMI)与来源于相同cDNA的PCR扩增的序列(具有相同UMI)区别开(Shiroguchi,K.,Jia,T.Z.,Sims,P.A.以及Xie,X.S.(2012)).Digital RNA sequencing minimizessequence-dependent bias and amplification noise with optimized single-molecule barcodes.Proceedings of the National Academy of Sciences,709(4),1347-1352.doi:10.1073/pnas,1118018109)。

此处通过限制酶裂解释放寡核苷酸可通过用可连接至核酸的任何可裂解化学基团(诸如可光裂解或pH敏感部分)代替此序列来进行。

将表型编码至液滴中的DNA中：

使用微流控芯片，在λ＝0.04(0,008％的双重或更多的封装事件)的情况下，在泊松分布之后，将50 000个细胞封装于微滴中。细胞群由具有已知序列的杂交瘤细胞系的1:1:1混合物组成。

芯片的三重流设计使细胞与RT酶、BclI限制酶以及水凝胶珠粒在使其分散于100pl液滴中的喷嘴处来到一起，所述水凝胶珠粒携带部分双链DNA分子的汇集物(图1)。水凝胶珠粒结合的DNA的单链部分依次由UMI序列(SEQ ID NO:10)和对靶mRNA的3'末端来说反义的序列组成。

然后将乳液在55℃下放置1小时30分。在此孵育期间，BclI限制酶将带条形码的寡核苷酸释放至液滴的整个体积中，在所述液滴中它将遇到从溶解的细胞释放的mRNA。这两个结构退火在其互补序列上，并且RT酶延伸带条形码的DNA分子，从而拷贝mRNA序列(图32)。DNA条形码键联至cDNA赋予这些序列单细胞特异性。

成批纯化和扩增以及测序：

然后将乳液放置在70℃下以使RT酶失活。在冰上冷却之后，破坏乳液并且回收水相，并且使用Agencourt的RNAClean XP SPRI纯化DNA。

然后通过PCR扩增带条形码的cDNA：使用引物对40％的cDN A制剂进行第一15-循环PCR，所述引物匹配cDNA的2个末端并且带有5'延伸，所述5'延伸引入Illumina的读段1并且完成读段2序列。使用Agencourt的AMPure XP SPRI纯化PCR，并且放入整个产物以使用引物P7-读段2(C A AGC AGA AGAC GGC AT ACGAGA T GT GAC T GGAGTT C AGAC GT GT GCTCTTCCGATCT (SEQ ID NO:19))和P5-读段1(AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCT TCCGATCT(SEQ ID NO:20)来进行另一10-循环PCR(图33)。使用Agencourt的AMPure XP SPRI将所得物再一次纯化，并且在小体积(10至20μl)中洗脱并且沉积于1.5％琼脂糖凝胶上。从凝胶纯化具有预期尺寸的条带(对于轻链cDNA为约420bp，而重链为约500bp)，并且以等摩尔比率混合。在Agilent生物分析仪上并且在Illumina的MiSeq机器中检查此最终DNA制剂的尺寸纯度(图34)。

下一代测序(NGS)和数据的生物信息学分析：

对样品运行的操作为末端配对2x300bp：从两端对加工的各分子进行测序并且向内读取300个核苷酸。给定我们的产物尺寸，在两端的读段之间存在50-核苷酸至100-核苷酸重叠。

定制程序通过将类似条形码群集在一起来分析数据，提取相关的cDNA序列，并且计算相关序列的性质和频率(图35)。在各链的严格阈值为40个读段的情况下，获得5102对，其中96.4％为正确的(即重链和轻链对应于存在于我们的三个细胞系中的三种可能的缔合中的一种)。

实施例8

同时单细胞表型和转录水平重现：

B细胞和T细胞上的CytoSeq和RNAseq

以下实施例展示使用本文中所阐述的方法在单细胞水平进行的转录和表型信息的重现。

在此实施例中，使用用短RNA(或DNA)标签(Ab-标签)标记的抗体来标记细胞。各抗体上的Ab-标签将携带独特的序列以指示抗体的抗原特异性。在洗涤之后，将在微流控系统中使标记的细胞与携带带条形码的引物的水凝胶珠粒、细胞溶解试剂、逆转录酶(RT)以及dNTP一起在微滴中区室化。大部分微滴将不含超过一个细胞，并且含有单个细胞的大部分微滴将还含有单个水凝胶珠粒，所述单个水凝胶珠粒携带具有独特条形码的引物。使用限制酶(RE)将带条形码的引物从珠粒释放并且用以使用Ab-标签作为模板来引发cDNA合成。然后将破坏乳液，汇集微滴的内容物并且纯化cDNA以移除未合并的引物。然后将通过PCR扩增带条形码的cDNA以附上Illumina测序引物位点，并且使用NextSeq或HiSeq 150nt操作测序以定量与各细胞相关的Ab-标签。

标签可为RNA、DNA或RNA和DNA核苷酸的杂交替代型式；所有这些结构均可由RT酶用作模板。无论所用的模板是RNA、DNA还是杂交体，在整个文档通篇中一贯地将因RT酶活性而伸长的引物称为cDNA。注意，对于此实施例，可使用任何DNA聚合酶代替RT酶。

在此描述表型信息(CytoSeq)的同时重现以及RNAseq方法，所述RNAseq方法是用以分析在单细胞水平40个基因以及B淋巴细胞和T淋巴细胞的50:50混合物的表面标记物的转录水平，所述B淋巴细胞取自人类Ramos细胞系(ATCC CRL-1596)，所述T淋巴细胞取自人类Jurkatt细胞系(ATCC TIB-152)。四种细胞标记物抗体(CD1A、CD3D、CD72以及CD79B)将各自偶联至荧光抗体特异性寡核苷酸。T细胞更优先由CD1A和CD3D标记，而B细胞更优先由CD52和CD79B标记。在此测试中，各条形码将与T细胞型态(即各抗体类型的特异性核苷酸序列的组合)或B细胞型态完全相关；仅两细胞事件将导致具有混合型态的条形码的出现。

抗体-寡核苷酸缀合：

使用专用试剂盒(例如Innova Bioscience寡核苷酸缀合系统)可将抗体共价键联至DNA或RNA寡核苷酸核苷酸。简单地说，键联化学一方面是基于抗体赖氨酸残基的修饰，另一方面是基于位于寡核苷酸上的胺部分的活化。修饰的抗体和活化的寡核苷酸可彼此反应以形成共价键(缀合)。

已设计了具有尤其针对CytoSeq选择的几处修饰的双链RNA寡核苷酸(双链体)(图36)：顶部链序列含有BclI限制位点，随后为短型式的读段1序列(ACACGACGCTCTTCCGATCT(SEQ ID NO:21))，随后为4nt UMI，随后为每个抗体将不同的6-nt序列(抗体识别序列(AIS))，随后为每个顶部链共同拥有的称为TSP2的18-nt序列(TGAGTAAAGGAGAAGAAC(SEQ ID NO:22))。合成四个不同的顶部链，其各自具有其自己的AIS：ACATCG；GATCTT；CTGAGC以及TGCGAA以分别识别CD1A、CD3D、CD72以及CD79B抗体。底部链在序列中具有在BclI位点上的顶部链的互补序列以及短的读段1序列的一部分。它带有与抗体缀合所必需的3'胺修饰、键联至其5'末端的荧光团并且含有BclI限制位点。定了两种不同型式的此底部链，一个具有荧光团6-FAM(在495nm下激发)，而另一个具有荧光团TYE-655(665nm激发)。

在缀合之前，目标是要键联至B细胞特异性抗体(CD72和CD79B)的顶部链与6-FAM底部链退火，而T细胞特异性抗体(CD1A和CD3D)是与TYE-665底部链退火。在SDS-PAGE上验证缀合效率，并且在血细胞计数器上检验细胞标记功效。

细胞标记：

在封装于液滴中之前，遵循标准标记方案将B和T淋巴细胞的混合物用4种带标记的抗体混合物标记：将10⁶至10⁷个细胞在染色缓冲液(PBS，0.5％牛血清白蛋白(BSA)，2mMEDTA)中洗涤，在黑暗中并且在4℃下与4μg的带标记的抗体一起在100μl中孵育10分钟，并且最后用1ml的染色缓冲液洗涤两次。

水凝胶珠粒制备和针对逆转录的官能化：

在微流控芯片中由PEG-DA寡聚物制备水凝胶珠粒，其中通过水动力流动聚焦使水性PEG-DA溶液分散以在氟化油连续相中形成微滴(Anna,S.,Bontoux,N.以及Stone,H.(2003).Formation of dispersions using“flow focusing"in microchannels.AppliedPhysics Letters,52(3),364-366.doi:10.1063/1.1537519)。然后经由UV活化光引发剂使珠粒交联。添加400μM的称为RanA的双链DNA寡核苷酸(双链体)，其在一个末端带有5'acrydite修饰而另一侧为4-nt 5'突出(顶部链：5'Acrydite-TCTTCACGGAACGA(SEQ ID NO:4)；底部链：5'磷酸-CAGTTCGTTCCGTGAAGA(SEQ ID NO:5))，并且经由PEG-DA寡聚物的丙烯酸酯末端基团与水凝胶基质共价交联。在聚合和在Tris-HCl pH 7.4 20mM；NaCl 50mM；吐温0.01％；EDTA 1mM中洗涤之后，使用T7 DNA连接酶连接第一双链体，所述第一双链体在一侧具有与acrydite双链体的突出相容的4-nt 5'突出，而在另一侧具有与下游连接物相容的另一4-nt 5'突出。在其双链部分中，称为RanB的此第一双链体在序列中具有BclI限制位点(TGATCA(SEQ ID NO:7)，随后为更短型式的读段2序列(GTGTGCTCTTCCGATCT(SEQ ID NO:23))。

在连接和洗涤之后，通过在两个5'末端具有4-nt突出的20-ntDNA双链体的由T7DNA连接酶介导的四次连续连接来合成条形码。在各连接步骤中使用不同的4-nt突出确保仅可以正确顺序组装4个索引。为了形成多种多样的条形码，使水凝胶珠粒批料均等分布于96孔板的孔中。各孔含有具有被设计成保持明确的有至多三个错误的独特的20-nt序列(索引)的双链体，加上连接缓冲液以及酶。在连接孵育之后，将整个板的反应体积汇集于一个管中并且洗涤。以相同方式进行下一连接步骤：将汇集的批料均等分布于含有另一96个不同双链体的集合以及连接缓冲液和酶的新板中。此分开-汇集合成的组合多样性为96⁴(超过8400万)。最后，连接至新合成的条形码的最后的双链体为部分双链的，以允许通过T7DNA连接酶进行连接，并且以长单链3'末端终止(参见例如图9和10)。双链区为确定的接头序列(TACGCTACGGAACGA(SEQ ID NO:9)。单链区依次由随机化的5-nt序列(NNNNN(SEQ IDNO:24)、ASP2的用于引发RT(使用Ab-标签作为模板)的反义序列(GTTCTTCTCCTTTACTCA(SEQID NO:25))组成。5-nt随机序列充当独特分子标识符(UMI)：它们允许将来源于不同RT引发事件的序列(具有不同UMI)与来源于相同cDNA的PCR扩增的序列(具有相同UMI)区别开(Shiroguchi,K.,Jia,T.Z.,Sims,P.A.以及Xie,X.S.(2012).Digital RNA sequencingminimizes sequence-dependent bias and amplification noise with optimizedsingle-molecule barcodes.Proceedings of the National Academy of Sciences,109(4),1347-1352.doi:10.1073/pnas.1118018109)。

将表型编码至液滴中的DNA中：

使用微流控芯片，将带标记的细胞与RT酶、BclI限制酶以及水凝胶珠粒一起封装于微滴中，所述水凝胶珠粒携带部分双链DNA分子的汇集物(图18)。水凝胶珠粒结合的DNA的单链部分依次由UMI序列(SEQ ID NO:10)和对Ab-标签的3'末端来说反义的序列组成。

然后将乳液在55℃下放置1小时30分。在此孵育期间，BclI限制酶将带条形码的寡核苷酸和Ab-标签裂解并且释放至液滴的整个体积中。这两个结构在上其互补序列(TSP2有义和反义)退火，并且RT酶延伸带条形码的DNA分子，从而拷贝Ab-标签(图19)。DNA条形码键联至Ab-标签赋予这些序列单细胞特异性。

成批纯化和扩增以及测序：

然后通过PCR扩增带条形码的标签。所用的引物匹配标签的末端，并且具有5'延伸，所述5'延伸含有测序所必需的序列，即锚定序列P7(SEQ ID NO:11)和P5(SEQ ID NO:12)(图37)。

方法的灵敏度：

已使用游离可溶性Ab-标签替代标记的细胞进行了此方法。液滴中的Ab-标签的浓度为100pM，其对应于各液滴中约6000个Ab-标签分子。以各种比率(1:1(两次)；7:3；9:1(两次)或99:1)带进液滴的Ab-标签溶液为两种不同的Ab-标签(具有不同AIS的Ab-标签1和Ab-标签2)的混合物。将扩增的PCR产物在2％琼脂糖凝胶上纯化，在Agilent生物分析仪上检查尺寸纯度(图38)，并且放进Illumina的NextSeq机器中。对样品运行的操作为单读段150bp，其覆盖整个条形码和AIS。结果显示在输入中(封装之前)与在NGS数据(读段的分布)中的Ab-标签比率之间的良好相关性(图39)。值得注意地，在来自99:1比率的数据中我们能够检测到两种Ab-标签种类。这对应于小于70个分子的灵敏度。

本文中提到的所有出版物、专利以及专利申请以引用的方式并入本文中，所达到的程度与如果特定地并且个别地指示各个别出版物、专利或专利申请个别地以全文引用的方式并入一样。倘若在此申请中所阐述的定义以及以引用的方式并入本文中的文件中的那些之间存在差异，那么以本文阐述的定义为准。本公开的所描述方法、药物组合物以及试剂盒的各种修饰和变化对本领域技术人员来说将为显而易见的，而不会背离本发明的范围和精神。虽然已结合特定实施方案描述了本发明，但应了解能够进一步修改并且如所要求的本发明不应过度受限于此类特定实施方案。实际上，所描述的用于执行本发明的模式的对本领域技术人员来说明显的各种修改旨在在本发明的范围内。本申请旨在涵盖大体上遵循本发明的原理对本发明的任何改变、使用或改进，并且包括对本公开的此类背离在本发明所属领域内的已知惯例的范围内，并且可应用于本文之前所阐述的基本特征。

Claims

1.一种将所表达多肽的结合表型分配给潜在基因型、表达水平或两者的方法，其包括：

将样品或其一部分分隔至个别区室中，所述样品包括细胞、细胞群体或非细胞系统，其中所述个别区室包含来源特异性条形码和多肽捕获分子，其中所述来源特异性条形码包含标识所述个别区室的独特核酸序列，并且所述多肽捕获分子包含标识所述多肽捕获分子的捕获分子核酸标识符；

使各个别区室中所表达的靶多肽与所述多肽捕获分子结合以产生结合型靶多肽-多肽捕获分子复合物；

用所述来源特异性条形码对所表达靶核酸和所述结合型多肽捕获分子的所述捕获分子特异性核酸标识符进行标记，以产生带条形码的所表达靶核酸和带条形码的多肽捕获分子；

检测所述带条形码的所表达靶核酸和带条形码的捕获分子核酸标识符的序列；

根据共同的来源特异性条形码对所表达靶核酸和所表达靶多肽进行分组，由此识别由个别区室中所表达的靶多肽结合的多肽捕获分子以及相同个别区室中所表达的靶核酸的类型。

2.如权利要求1所述的方法，其中各个别区室包括单个细胞。

3.如权利要求1或3中任一项所述的方法，其中在将所述样品或其一部分分隔至个别区室中之前使所述多肽捕获分子与细胞或细胞群体的表面上所表达的靶多肽结合。

4.如权利要求1至3中任一项所述的方法，其进一步包括在使所述所表达靶多肽与所述多肽捕获分子结合之前溶解所述细胞或细胞群体。

5.如权利要求1至4中任一项所述的方法，其进一步包括在检测所述带标记的所表达靶核酸和带标记的捕获分子核酸标识符的所述序列之前汇集所有所述样品。

6.如权利要求1至5中任一项所述的方法，其进一步包括在检测所述带条形码的靶核酸和带条形码的捕获分子核酸标识符的所述序列之前对所述带条形码的所表达靶核酸和带条形码的捕获分子核酸标识符进行纯化。

7.如权利要求1至6中任一项所述的方法，其中来源特异性条形码包含第一来源特异性条形码类型，所述第一来源特异性条形码类型包含靶核酸结合序列；以及第二来源特异性条形码类型，所述第二来源特异性条形码类型包含捕获分子核酸标识符结合序列，其中对于给定的个别区室，所述第一和第二类型的来源特异性条形码包含相同或匹配的独特核酸序列，所述独特核酸序列标识所述个别区室。

8.如权利要求7所述的方法，其中所述来源特异性条形码进一步包含一个或多个引物序列、测序衔接子、一个或多个限制位点、用于促进来自所述样品的所述来源特异性条形码的富集的捕获部分或其组合。

9.如权利要求8所述的方法，其中所述引物序列为通用引物序列。

10.如权利要求7所述的方法，其中所述来源特异性条形码包括RNA、DNA或RNA与DNA的组合。

11.如权利要求1至7中任一项所述的方法，其中对所述所表达靶核酸和所述捕获分子核酸标识符进行标记包括向所述个别区室中引入试剂，所述试剂足以允许所述第一和第二类型的来源特异性条形码分别与所述靶核酸和所述多肽捕获分子的捕获分子核酸标识符杂交，并且充当模板以产生所有或一部分所述靶核酸和捕获分子特异性核酸标识符的cDNA拷贝，使得寡核苷酸条形码的序列合并在各靶核酸cDNA产物和捕获分子核酸标识符cDNA产物中。

12.如权利要求11所述的方法，其包括对所述cDNA产物进行扩增以及检测所述扩增的cDNA产物的序列。

13.如权利要求1至12中任一项所述的方法，其中使所述来源特异性条形码可逆或不可逆地连接至固体基底。

14.如权利要求13所述的方法，其中使所述来源特异性条形码通过连接至所述固体基底的表面的条形码接收衔接子而连接至所述固体基底。

15.如权利要求14所述的方法，其中所述条形码衔接子为与所述来源特异性寡核苷酸上的衔接子结合序列互补的核酸序列。

16.如权利要求13所述的方法，其中所述固体基底为水凝胶珠粒。

17.如权利要求13或16所述的方法，其中在对所述所表达靶核酸和所述多肽捕获分子的寡核苷酸标签进行标记之前，使所述寡核苷酸条形码从所述固体基底释放。

18.如权利要求17所述的方法，其中通过向各个别区室引入足以引起所述固体基底溶解或分解的条件或通过使所述来源特异性条形码从所述固体基底化学裂解、光致裂解或酶裂解来使所述寡核苷酸条形码从所述固体基底释放。

19.如权利要求1至18中任一项所述的方法，其中所述多肽捕获分子包括小分子、抗原、抗体、蛋白质结合结构域、核酸或多糖。

20.如权利要求19所述的方法，其中所述多肽捕获分子可辨别所述靶多肽的翻译后修饰。

21.如权利要求1至19中任一项所述的方法，其中所述所表达靶核酸编码相应的靶多肽。

22.如权利要求1至19中任一项所述的方法，其中所述多肽捕获分子为对对应靶多肽具特异性的抗体。

23.如权利要求1至19中任一项所述的方法，其中使所述靶多肽展示在所述细胞的表面上，并且所述多肽捕获分子为所述靶多肽的结合配偶体。

24.如权利要求23所述的方法，其中所述靶多肽为细胞表面受体，并且所述靶核酸为编码所述细胞表面受体的mRNA。

25.如权利要求1至19中任一项所述的方法，其中所述靶多肽为由所述细胞表达的抗体，并且所述多肽结合分子为对应抗体的抗原。

26.如权利要求25所述的方法，其中所述靶核酸包括编码轻链的mRNA、编码重链的mRNA、编码CDR的mRNA或其组合。

27.如权利要求25或26所述的方法，其中所述细胞为B细胞、T细胞、浆母细胞或浆细胞。

28.如权利要求1至27中任一项所述的方法，其中所述多肽捕获分子标识符直接或间接缀合至所述多肽捕获分子。

29.如权利要求28所述的方法，其中所述多肽捕获分子标识符是通过结合对间接结合，其中所述结合对的第一成员为所述多肽捕获分子的一部分或连接至所述多肽捕获分子，而所述结合对的第二成员为所述捕获分子标识符的一部分或连接至所述捕获分子标识符。

30.如权利要求29所述的方法，其中所述结合对为链霉亲和素-生物素。

31.如权利要求28所述的方法，其中使所述多肽捕获分子和所述捕获分子标识符结合于共同的基底。

32.如权利要求31所述的方法，其中所述多肽捕获分子和所述捕获分子标识符为生物素化的并且结合于共同的链霉亲和素基底。

33.如权利要求32所述的方法，其中使所述捕获分子标识符的多个拷贝结合于所述共同的链霉亲和素基底。

34.如权利要求1至34中任一项所述的方法，其中所述个别区室为在微流控装置上产生的单个微滴。

35.如权利要求1至34中任一项所述的方法，其中通过将包含所述细胞、细胞群体或非细胞系统的第一微滴与包含所述来源特异性条形码的第二微滴合并来形成所述单个微滴。

36.如权利要求34所述的方法，其中使所述第二微滴中的所述来源特异性条形码结合于单个固体基底

37.如权利要求34所述的方法，其进一步包括将所述单个微滴与包含额外试剂的第三微滴合并。

38.如权利要求37所述的方法，其中所述第三微滴包含以下中的一种或多种：细胞溶解试剂、逆转录试剂、用于从固体基底释放来源特异性条形码的限制酶、dNTP以及DNA聚合酶。

39.如权利要求34所述的方法，其中将额外试剂注入所述单个微滴中。

40.如权利要求39所述的方法，其中所述额外试剂为以下中的一种或多种：细胞溶解试剂、逆转录试剂、用于从固体基底释放来源特异性条形码的限制酶、dNTP以及DNA聚合酶

41.如权利要求1至40中任一项所述的方法，其进一步包括向各个别区室中引入第二类型的蛋白质捕获分子，所述蛋白质捕获分子对靶多肽具有与原始蛋白质捕获分子相同的结合亲和力并且包含捕获部分，其中所述第二蛋白质捕获分子结合所述同一靶多肽以与所述原始蛋白质捕获分子形成夹心复合物，其中所述夹心复合物可通过所述捕获部分从所述个别区室或汇集的个别区室纯化而来。

42.如权利要求1至41中任一项所述的方法，其中至少部分基于所述所检测到的来源特异性条形码来测定所述靶核酸和靶多肽的表达水平。