CN112004920A

CN112004920A - 用于单细胞和集合细胞的多重测量的系统和方法

Info

Publication number: CN112004920A
Application number: CN201880092114.XA
Authority: CN
Inventors: N·萨里格拉玛; A·萨特帕西; H·Y·昌; M·M·戴维斯
Original assignee: Leland Stanford Junior University
Current assignee: Leland Stanford Junior University
Priority date: 2018-02-05
Filing date: 2018-12-19
Publication date: 2020-11-27
Also published as: EP3749740C0; US20210213413A1; EP3749740A4; EP4299755A3; EP4299755A2; EP3749740A1; EP3749740B1; WO2019152108A1

Abstract

提供了可以结合T细胞受体测序(TCR‑seq)和使用测序的转座酶可及染色质测定(ATAC‑seq)的系统和方法和/或其各个方面。还提供了可以结合ATAC‑seq和扰动测序(扰动‑seq)的系统和方法和/或其各个方面。

Description

用于单细胞和集合细胞的多重测量的系统和方法

交叉引用

本申请要求于2018年2月5日提交的美国临时专利申请号62/626,603的权益，该申请的全部内容通过引用并入本文。

关于联邦资助研究的声明

本发明是在美国国立卫生研究院授予的合同HG007735下由政府支持完成的。政府拥有本发明的某些权利。

背景技术

可以出于多种目的来处理样品，例如鉴别样品内的物种。样品可以是生物学样品。可以处理生物学样品，例如用于检测疾病(例如，癌症)或鉴别特定物种。有多种处理样品的方法，例如聚合酶链式反应(PCR)和测序。

生物学样品可以在各种反应环境(例如，区室)中进行处理。区室可以是微流体装置内的孔或液滴或其他隔室。可以以使得生物学样品能够被分区和单独处理的方式采用区室来处理生物学样品。例如，这样的液滴可以与其他液滴流体隔离，从而使得能够精确控制液滴中的各自环境。

区室中的生物学样品可以经受各种过程，例如，化学过程或物理过程。区室中的样品可以经受加热或冷却或化学反应，例如以产生可进行定性或定量处理的物质。

发明内容

真核基因组被分级包装到染色质中，这样的包装的性质在基因调节中起着核心作用。对染色质的核蛋白结构中编码的表观遗传信息的主要见解来自用于单独测定染色质可及性(“开放染色质”)、核小体定位和转录因子(TF)占据的高通量、全基因组范围的方法。尽管存在已公开的方案，但这些方法需要数百万个细胞作为起始材料，涉及复杂且耗时的样品制备，并且无法同时探测核小体定位、染色质可及性和TF结合的相互影响。因此，本文认识到需要解决至少上文所述的问题。

在一方面，提供了一种处理免疫细胞的方法，其包括：(a)捕获免疫细胞，其中所述免疫细胞包含基因组脱氧核糖核酸(gDNA)和信使核糖核酸(mRNA)分子；(b)使来自免疫细胞的gDNA与转座酶接触以在标记反应中产生标记的gDNA片段；(c)从mRNA分子产生互补DNA(cDNA)分子，其中所述cDNA分子包含对应于免疫细胞基因组的V(D)J区的序列。

在一些实施方案中，免疫细胞是T细胞。

在一些实施方案中，免疫细胞是B细胞。

在一些实施方案中，捕获包括在区室中进行分区。在一些实施方案中，区室是腔室。在一些实施方案中，区室是孔。在一些实施方案中，区室是液滴。

在一些实施方案中，该方法还包括在(b)之前，裂解免疫细胞。

在一些实施方案中，捕获包括从多个免疫细胞中分离免疫细胞。在一些实施方案中，分离包括流式细胞术分选或磁性细胞分选。

在一些实施方案中，标记的gDNA片段各自包含一个或多个衔接子。在一些实施方案中，一个或多个衔接子包含衔接子序列。

在一些实施方案中，(c)包括使来自免疫细胞的mRNA分子与引物和逆转录酶接触。在一些实施方案中，引物包含以下序列：特异于mRNA分子的序列或靶向mRNA分子的序列。

在一些实施方案中，mRNA分子包含T细胞受体α(TRA)或T细胞受体β(TRB)RNA分子。在一些实施方案中，mRNA分子包含T细胞受体α(TRA)和T细胞受体β(TRB)RNA分子。在一些实施方案中，(c)包括使mRNA分子与引物接触，其中所述引物包含以下序列：特异于编码TRA和TRB RNA分子的恒定区的序列或靶向编码TRA和TRB RNA分子的恒定区的序列。

在一些实施方案中，该方法还包括使标记的gDNA片段和cDNA分子与多个引物和聚合酶接触，以产生标记的gDNA片段扩增子或cDNA分子扩增子。在一些实施方案中，该方法还包括使标记的gDNA片段和cDNA分子与多个引物和聚合酶接触，以产生标记的gDNA片段扩增子和cDNA分子扩增子。在一些实施方案中，多个引物的至少一个子集各自包含以下序列：特异于编码T细胞受体(TCR)的恒定区或可变区的序列或靶向编码T细胞受体(TCR)的恒定区或可变区的序列。在一些实施方案中，多个引物的至少一个子集各自包含以下序列：特异于编码T细胞受体(TCR)的恒定区和可变区的序列或靶向编码T细胞受体(TCR)的恒定区和可变区的序列。

在一些实施方案中，该方法还包括从标记的基因组DNA片段和cDNA分子产生扩增子，其中扩增子各自包含鉴别免疫细胞的条形码序列。在一些实施方案中，各自包含鉴别免疫细胞的条形码序列的扩增子是从标记的gDNA片段或cDNA分子的其他扩增子产生的。在一些实施方案中，该方法还包括对扩增子进行测序。在一些实施方案中，该方法还包括在免疫细胞中确定基因组DNA的可及基因组DNA与对应于来自免疫细胞的基因组的V(D)J区的序列之间的相关性。

在一些实施方案中，该方法还包括对标记的gDNA片段和cDNA分子或其衍生物进行测序。

根据权利要求1所述的方法，所述方法还包括在(b)之后，终止所述标记反应。在一些实施方案中，终止包括使用螯合剂。在一些实施方案中，标记反应包括螯合来自转座酶的转座酶复合物所需的二价金属离子，并从标记的gDNA片段释放转座酶复合物。在一些实施方案中，螯合剂选自乙二胺四乙酸(EDTA)、次氮基乙酸(NTA)和二亚乙基三胺五乙酸(DTPA)。

在一些实施方案中，标记反应包括使用去污剂。在一些实施方案中，去污剂是非离子表面活性剂。在一些实施方案中，去污剂是乙氧基化壬基酚。

在另一方面，提供了一种处理免疫细胞的方法，其包括：(a)捕获免疫细胞，其中所述免疫细胞包含基因组脱氧核糖核酸(gDNA)和信使核糖核酸(mRNA)分子；(b)从免疫细胞的mRNA分子的可及gDNA和互补DNA(cDNA)产生标记的gDNA片段，其中所述cDNA分子包含对应于免疫细胞基因组的V(D)J区的序列；以及(c)从标记的gDNA片段或其衍生物和cDNA分子或其衍生物的一个或多个测序读数映射可及基因组DNA与对应于V(D)J区的序列之间的相关性。

在另一方面，提供了一种处理细胞的方法，其包括：(a)捕获细胞，其中所述细胞包含基因组脱氧核糖核酸(gDNA)和指导核糖核酸(gRNA)分子，或其gRNA鉴别条形码。(b)使来自细胞的可及gDNA与转座酶接触以在标记反应中产生标记的gDNA片段；以及(c)从gRNA分子或其gRNA鉴别条形码产生互补DNA(cDNA)分子。

在一些实施方案中，细胞是免疫细胞。在一些实施方案中，免疫细胞是T细胞。在一些实施方案中，免疫细胞是B细胞。

在一些实施方案中，该方法还包括在(b)之前裂解细胞。

在一些实施方案中，捕获包括从多个细胞中分离细胞。

在一些实施方案中，其条形码中的条形码鉴别gRNA分子中的gRNA分子的身份。在一些实施方案中，条形码附接至gRNA分子。

在一些实施方案中，gRNA分子包含被配置为靶向与转录因子、染色质修饰剂或非编码RNA相关的序列的靶序列。在一些实施方案中，gRNA分子包含多个不同的靶序列。在一些实施方案中，gRNA分子中的第一gRNA分子包含多个不同靶序列中的第一靶序列，并且其中gRNA分子中的第二gRNA分子包含多个不同靶序列中的第二靶序列，其中第一靶序列和第二靶序列不同。

在一些实施方案中，该方法还包括在(a)之前，将gRNA分子引入细胞。

在一些实施方案中，(c)包括使来自细胞的gRNA分子或其条形码与引物和逆转录酶接触。在一些实施方案中，引物包含反向引物，该反向引物包含特异于gRNA分子的3'末端或靶向gRNA分子的3'末端的序列。在一些实施方案中，该方法还包括使gRNA分子与另一组引物接触，所述另一组引物包括正向引物，所述正向引物包含特异于gRNA分子的5'可变末端或靶向gRNA分子的5'可变末端的序列。

在一些实施方案中，该方法还包括使标记的gDNA片段和cDNA分子与多个引物和聚合酶接触，以产生标记的gDNA片段扩增子或cDNA分子扩增子。在一些实施方案中，该方法还包括使标记的gDNA片段和cDNA分子与多个引物和聚合酶接触，以产生标记的gDNA片段扩增子和cDNA分子扩增子。

在一些实施方案中，该方法还包括从标记的基因组DNA片段和cDNA分子产生扩增子，其中扩增子各自包含鉴别细胞的条形码序列。在一些实施方案中，各自包含鉴别细胞的条形码序列的扩增子是从标记的gDNA片段或cDNA分子的其他扩增子产生的。在一些实施方案中，该方法还包括对扩增子进行测序。

在一些实施方案中，该方法还包括响应于gRNA分子的gRNA分子的扰动而确定细胞中基因组DNA的可及性之间的相关性。

在一些实施方案中，该方法还包括在(b)之后，终止标记反应。在一些实施方案中，终止包括使用螯合剂。在一些实施方案中，标记反应包括螯合来自转座酶的转座酶复合物所需的二价金属离子，并从标记的gDNA片段释放转座酶复合物。在一些实施方案中，螯合剂选自乙二胺四乙酸(EDTA)、次氮基乙酸(NTA)和二亚乙基三胺五乙酸(DTPA)。

本公开内容的另一方面提供了用于条形码化、处理和分析来自细胞的核酸分子的系统、方法和组合物。

本公开内容的另一方面提供了一种包含机器可执行代码的非暂时性计算机可读介质，该机器可执行代码在由一个或多个计算机处理器执行时，实现上文或本文其他地方所述的任何方法。

本公开内容的另一方面提供了一种系统，该系统包括一个或多个计算机处理器和耦合到其上的计算机存储器。该计算机存储器包括机器可执行代码，该机器可执行代码在由一个或多个计算机处理器执行时实现上文或本文其他地方所述的任何方法。

根据以下详细描述，本公开内容的其他方面和优点对于本领域技术人员将变得明显，其中仅示出和描述了本公开内容的举例说明性实施方案。将会认识到，本公开内容能够具有其他和不同的实施方案，并且其若干细节能够在各种明显的方面进行修改，所有这些都不脱离本公开内容。因此，附图和描述本质上应被认为是举例说明性的，而不是限制性的。

通过引用并入

本说明书中提及的所有出版物、专利和专利申请都以相同的程度通过引用并入本文，就好像每个单独的出版物、专利或专利申请被明确地并单独地指出通过引用并入一样。在通过引用并入的出版物和专利或专利申请与本说明书中包含的公开内容相抵触的程度上，本说明书旨在取代和/或优先于任何这样的矛盾的材料。

附图简要说明

在所附权利要求中具体阐述了本发明的新颖特征。通过参考下面的示出了利用本发明的原理的举例说明性实施方案的详细描述以及附图(也称为“图…”和“附图…”)将获得对本发明的特征和优点的更好的理解，其中：

图1示出了使用测序的转座酶可及染色质的转录物索引测定(T-ATAC-seq)的示例性方案和/或工作流程。

图2显示了饼状图，其指示来自T细胞的T细胞受体测序(TCR-seq)和ATAC-seq数据的重叠。

图3显示了遵循质量控制过滤器的图。

图4示出了聚集(小图A)和单细胞T-ATAC-seq(小图B)谱特征的比较。

图5显示了细胞中T细胞受体α(TRA)或T细胞受体β(TRB)重排的热图。

图6展示了使用TCR-Seq克隆鉴别小鼠或人类基因组。

图7A显示了从T-ATAC-seq生成的鉴别表观基因组特征的图。图7B显示了图7A的基因组轨迹的放大图。

图8显示了与其他细胞类型相比，Jurkat细胞的转录因子(TF)偏差z得分的热图。

图9显示了ATAC-seq片段计数的热图。

图10显示了集合T细胞亚型的表观基因组概况的图。

图11显示了集合T细胞亚型的表观基因组概况的图。

图12是显示了最高改变的ATAC-seq峰的簇的热图。

图13显示了从ATAC-seq获得的免疫学特征。

图14显示了集合ATAC-seq谱的PC得分的皮尔逊相关性图。

图15显示了在原代人T细胞中进行T-ATAC-seq分析的工作流程。

图16显示了各种T细胞的t-SNE投影。

图17显示了聚集的单细胞群体中TF偏倚校正的偏差富集的图。

图18显示了突出显示基序可及性的单个T细胞的t-SNE投影的图。

图19显示了针对聚集的T_H17细胞相对聚集的幼稚细胞中的差异以及针对聚集的记忆细胞相对聚集的幼稚细胞排序的平均偏倚校正偏差。

图20显示了热图，其显示了包含来自聚集的单细胞的所示基序的峰中的ATAC-seq片段计数。

图21显示了对于两个记忆T细胞克隆(顶部和底部)，克隆细胞相对非克隆记忆T细胞中的TF偏差富集。

图22显示了来自白血病患者的T细胞样品中的T-ATAC-seq分析的工作流程。

图23显示了来自患有疾病状况的患者的外周血样品中TRB重排的热图。

图24显示了来自健康和患病患者样品的幼稚和记忆T细胞的t-SNE投影。

图25显示了峰中ATAC-seq片段计数的热图。

图26显示了从GREAT分析获得的TRB7-9特异性ATAC-seq峰的MSigDB扰动特征。

图27显示了相对于CD26+细胞，聚集的CD26–细胞中TF偏倚校正的偏差富集。

图28显示了概述在IFC中的每个微流体腔室中发生的生物化学反应的T-ATAC-seq方案。

图29显示了Jurkat细胞的FACS分析。

图30显示了在单个实验中单个Jurkat细胞的ATAC-seq质量测量。

图31显示了在单个Jurkat细胞中的ATAC-seq片段3102和TCR-seq配对末端读段的比较。

图32显示了单细胞TCR-seq和ATAC-seq数据的重叠。

图33图A显示了来自单个Jurkat细胞的T-ATAC-seq数据的t-SNE投影。

图34显示了与聚集的单个细胞相比，Jurkat细胞中集合ATAC-seq数据中TF z得分的Spearman相关性图。

图35显示了预门控的活细胞的直方图。

图36显示了CD4+T细胞亚型的分选后纯度的图。

图37显示了T-ATAC-seq数据质量控制过滤器。

图38显示了来自单个细胞中的T-ATAC-seq的TCR-seq谱的质量测量图。

图39显示了单细胞和集合细胞的PC得分的皮尔逊相关性。

图40显示了所有细胞(小图A)或原代人T细胞(小图B)的PCA得分的t-SNE投影。

图41显示了针对集合T细胞ATAC-seq谱的TF偏差z得分的热图。

图42显示了细胞亚型中TF偏差z得分富集(平均差)的比较。

图43显示了分选的单细胞亚型的t-SNE投影。

图44显示了细胞亚型中TF基序可及性的细胞间改变。

图45示出单个T细胞的t-SNE投影。

图46显示了单个幼稚、记忆和TH17细胞的TF偏差z得分的皮尔逊相关性。

图47显示了使用T-ATAC-seq和immunoSEQ分析证实在克隆CTCL细胞中获得的TCRβ序列。

图48显示了CD26+和CD26-CTCL细胞的代表性FACS策略和分选后纯度。

图49显示了CTCL患者#2和#3中CD26+和CD26-CD4+T细胞群体中存在扩增的TCR克隆。

图50显示了与所有其他T细胞相比，聚集的克隆T细胞中的TF偏倚校正的偏差富集。

图51显示了来自tcr.buenrostrolab.com软件的浏览器屏幕截图，其中显示了下拉菜单选项来导航单细胞TF偏差得分和TCR序列。图52显示了描述传统的成簇的规则间隔的短回文重复序列(CRISPR)筛选的示意图。

图53显示了扰动-ATAC的工作流程的示意图。

图54显示了可以从扰动-ATAC数据中询问的生物学问题类别的概述。

图55显示了扰动-ATAC方案、慢病毒构建体以及用于指导RNA检测的测序文库的产生的示意图。

图56显示了来自用两种指导构建体之一转导的细胞库的指导条形码读数的散点图。

图57显示了每个细胞的峰区域中的ATAC片段和ATAC片段的分数的散点图。

图58显示了ATAC片段大小分布的密度直方图，指示了在合并的单细胞和大块细胞中转录起始位点周围的ATAC插入的预期的核小体定相和相对频率。

图59显示了SPI1基因的基因组基因座的图。

图60显示了鉴别为在批量ATAC-seq中改变的个体基因组区域的合并的单细胞的可及性的箱形图。

图61显示了包含SPI1基序的区域的相对可及性的图。

图62显示了每个细胞的总指导条形码测序读数的直方图。

图63显示了在每个细胞中鉴别出的第二最常见的指导条形码的直方图。

图64显示了ATAC片段和片段在峰区域中的分数的散点图。

图65显示了细胞(行)相对指导条形码(列)的热图，其指示与每个条形码相关联的总读数的比例。

图66显示了火山图，以鉴别携带非靶向指导和靶向各种基因的指导的细胞之间的显著改变的基因组特征。

图67显示了受扰动的因子相对基因组注释的热图。

图68小图A显示了热图，其指示了单次扰动时显著改变的特征数量、基因组区域或在改变的峰处侧翼相对中心核小体占据的比例的定量。

图69显示了鉴别在细胞间表现出相关活性的基因组特征的示例性工作流程图。

图70显示了在非靶向细胞中的特征之间的皮尔逊相关性的热图。

图71显示了热图，其展示了非靶向细胞与IRF8敲低细胞之间的相关性的差异。

图72显示了热图，其展示了非靶向细胞(下半部分)和IRF8(上半部分)敲低细胞中的模块5特征相关性。

图73显示了热图，其展示了非靶向细胞(下半部分)和DNMT3A(上半部分)敲低细胞中的模块2特征相关性。

图74显示了具有线性最佳拟合曲线的细胞可及性的散点图，表明在特定条件下的相关性。

图75显示了与AP1和IKZF1的IRF8辅助因子活性的假设模型。

图76显示了通过扰动在模块内改变的特征-特征相关性的分数的热图，显示了在不同扰动下对特定模块的特定影响。

图77显示了基于整合在每个单敲低条件下的可及性的加性模型，在双敲低环境中计算预期可及性的示意图。

图78显示了代表在相应的单或双敲低条件下1221个单个细胞的SPI1结合位点(左)和IKZF1结合位点(右)可及性的分布的箱形图。

图79显示了上位相互作用的观察到的7902相对预期的7904可及性的散点图。每个点代表两个受扰动的因子配对中的单个注释。

图80显示了每个特征的经背景校正的相互作用程度的直方图。

图81展示了观察到的相互作用相对预期的相互作用的散点图。

图82显示了在耗竭EZH2和一种其他因子的细胞中，在H3K27me3标记的区域中观察到的8202相对预期的8204可及性改变的散点图。

图83显示了对于H3K27me3峰的各种子集，EZH2敲低细胞与对照细胞相比的相对可及性的散点图。

图84显示了热图，该热图指示了在GM12878中由H3K27me3标记的区域处由于EZH2耗竭而导致的可及性的改变并展示了在每种其他特定细胞类型中的H3K27ac标记。

图85显示了示意图，其指示了聚集与具有3D染色质接触区域的自身免疫疾病相关的SNP的工作流程。

图86显示了每种自身免疫性疾病和扰动的SNP接触特征集的可及性的绝对改变的热图。

图87显示了人表皮和表皮分化的细胞培养模型系统的示意图。

图88显示了表皮细胞的TF特征活性的tSNE投影。

图89显示了通过拟时间相对TF特征活性排序的细胞的热图。

图90显示了来自分化的每一天的细胞的拟时间值的密度直方图。

图91显示了TF活性的tSNE投影。

图92显示了用于指导RNA身份的直接测序读出的sgRNA表达载体和文库扩增的示意图。

图93显示了sgRNA身份(列)相对单个细胞(行)的热图，其指示了与每个sgRNA相关的所有读数的比例。

图94显示了遗传扰动相对TF特征的热图，其指示了扰动细胞相对非靶向(NT)细胞中的TF特征的活性。

图95显示了SPRR2E基因的基因组基因座的图。

图96显示了靶向的基因(因子)和基因组区域集(特征)之间的正调节和负调节的呈现。

图97显示了热图，该热图展示了代表沿分化轨迹的进展的八个箱中的每个箱中的细胞的频率。

图98显示了扰动相对特征模块的热图。

图99显示了每种相互作用类别的代表性峰信号。

图100显示了双敲除细胞中观察到的相对预期的可及性的散点图。

图101显示了在相同细胞中各种基因敲除的情况下特征(行)的改变的活性以及它们的预期活性的热图。

图102显示了属于每个类别的相互作用特征的比例的条形图。

图103显示了热图，其指示对应于成对的TF对的基因组重叠或基因表达相关性的显著性。

图104显示了热图，其指示在双敲除细胞中表现出协同行为的基因组区域的相对可及性。

图105显示了用于在共占据的基因座处维持可及性的KLF4和ZNF750冗余性的假设模型。

图106显示了用于分区单个生物颗粒的微流体通道结构的实例。

图107显示了用于将携带条形码的珠子递送至液滴的微流体通道结构的实例。

图108显示了用于共分区生物颗粒和试剂的微流体通道结构的实例。

图109显示了用于将珠子受控地分区到离散的液滴中的微流体通道结构的实例。

图110显示了用于增加液滴产生吞吐量的微流体通道结构的实例。

图111显示了用于增加液滴产生吞吐量的微流体通道结构的另一实例。

图112A显示了具有用于受控分区的几何特征的微流体通道结构的另一实例的截面图。图112B显示了图112A的通道结构的透视图。

图113示出了携带条形码的珠子的实例。

图114显示了被编程或以其他方式配置以实现本文提供的方法的计算机系统。

图116显示了编码用于CRISPRi的sgRNA以及包含指导条形码的选择标记的慢病毒质粒的示意图。

图117显示了计算流程的概观，该计算流程获取GBC的测序读数并产生每个细胞的指导识别的最终表。

图118显示了关于用于每细胞测序深度和背景读数的过滤参数的推导的细节。

图119显示了指示随机指导或针对扰动-ATAC选择的指导的sgRNA序列错配的计数的条形图。

图120显示了基于错配的贡献来计算预测的脱靶CRISPRi活性的工作流程。

图121显示了用靶向特定基因的sgRNA转导后，CRISPRi基因表达敲低的qPCR验证。

图122显示了条形图，其指示基于ATAC峰接近性和与非靶向细胞相比观察到的可及性的sgRNA错配基因座的类别。

图123显示了基于chromVAR特征偏差z得分在GM12878实验中测定的所有细胞的tSNE图。

图124显示了对于EBER1、EBF1、EZH2或SPI1靶向的细胞中的显著改变的特征，单细胞可及性相对于非靶向细胞中的平均可及性的小提琴图。

图125显示了在敲低条件下的可及性的散点图，NFKB1相对RELA(左)或EBER1相对EBER1(右)。

图126显示了每个单个扰动条件的火山图，将扰动的细胞与非靶向对照细胞进行比较。

图127显示了描述从亚核小体区域产生短(＜100bp)ATAC片段和跨越核小体保护区域的大片段(180-247bp)的示意图。

图128显示了GM12878中与CTCF ChIP seq峰重叠的CTCF基序区域的亚核小体和核小体片段信号的元曲线。

图129显示了在差异可及区域的亚核小体和核小体信号的元曲线。

图130显示了用于基因组特征的相关矩阵的热图。

图131显示了每个模块中的关键特征的列表。

图132显示了IRF8敲低细胞中的基因组特征的相关矩阵的热图。

图133显示了在非靶向和DNMT3A敲低细胞中CTCF和SMAD5特征的单细胞可及性的箱形图。

图134显示了NFKB1敲低细胞(底部)和RELA敲低细胞(顶部)之间的特征相关性的差异的热图。

图135显示了在非靶向细胞或EBER2敲低细胞中模块1相对模块5的特征相关性的热图。

图136显示了对于SPI1敲低相对非靶向1细胞的特征相关性的改变的直方图，用于给出关于用于指定改变的相关性的阈值的信息。

图137显示了基于5％FDR阈值的计数和突出显示的最高改变的相关性特征的表。

图138显示了用于sgRNA和Cas9表达的慢病毒质粒的示意图。

图139显示了每个靶基因的在sgRNA 3'末端周围100bp的Sanger测序轨迹。

图140显示了编码用于CRISPR敲除的sgRNA的慢病毒质粒的示意图。

图141显示了映射到sgRNA可变序列的每个细胞的读数的分布。对于每个板，鉴别出清晰的高读数模式，并用于确定深度截止值。

图142显示了映射到已知sgRNA序列的每个细胞的所有读数的比例的分布。

图143显示了与背景(第三最常见)指导序列相关的每个细胞的读数的比例的分布。

图144显示了与第二最常见的指导相关联的读数的比例的分布。

图145显示了与通过最终过滤器的所有细胞的两个指导序列相关的读数的比例的散点图。

图146显示了指示在靶向的细胞中获得可及性的ZNF750结合位点的信号轨迹，指示ZNF750的阻遏活性。

图147显示了未受扰动的角质形成细胞的主成分(PC)值的散点图。

图148显示了嵌入在PC空间中的所有扰动的和非靶向细胞的1397PC值的散点图。

图149显示了在双敲除细胞中观察到的相对预期的(基于加性模型)可及性的散点图。

图150显示了单敲除细胞相对双敲除中特征的绝对log2倍数改变的散点图(r～0.18)。

发明详述

尽管本文已经示出和描述了本发明的各种实施方案，但是对于本领域技术人员而言明显的是，这些实施方案仅以示例的方式提供。在不脱离本发明的情况下，本领域技术人员可以想到许多改变、变化和替换。应当理解，可以采用本文所述的本发明的实施方案的各种替代方案。

除非本文另外定义，否则本文所用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同含义。尽管与本文所述相似或等同的任何方法和材料均可用于本发明的实践或测试中，但仍描述了优选的方法和材料。

在将值描述为范围的情况下，将理解的是，该公开内容包括在该范围内的所有可能的子范围的公开内容，以及落入该范围内的特定数值，而不管是否明确说明了特定数值或特定子范围。如本文所使用的术语“约”或“近似”是指对于特定值而言在可接受的误差范围内，如本领域技术人员所确定的，这将部分取决于如何测量或确定该值，即测量系统的局限性。例如，按照相关领域的惯例，“约”可以表示1个标准偏差或多于1个标准偏差。可替代地，“约”可以表示给定值的最高20％、最高10％、最高5％或最高1％的范围。

除非另有说明，否则相应地核酸以5'至3'的方向从左至右书写；氨基酸序列以氨基至羧基的方向从左至右书写。

本文提供的标题不是对本发明的各个方面或实施方案的限制。因此，下面整体上定义的术语通过参考整个说明书更完整地定义。

除非另有定义，否则本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同含义。Singleton等人,DICTIONARY OF MICROBIOLOGY ANDMOLECULAR BIOLOGY,2D ED.,John Wiley and Sons,New York(1994)和Hale&Markham,THEHARPER COLLINS DICTIONARY OF BIOLOGY,Harper Perennial,N.Y.(1991)给本领域技术人员提供了本文中使用的许多术语的一般含义。尽管如此，为了清楚和易于参考，下面定义了某些术语。

如本文所使用的术语“样品”通常是指受试者的生物学样品。生物学样品可以包含任何数量的大分子，例如细胞大分子。在一个实施方案中，广义上使用的该术语是指任何含有DNA或RNA的植物、动物或病毒材料，诸如例如从个体分离的组织或液体(包括但不限于血浆、血清、脑脊液、淋巴、眼泪、唾液和组织切片)或从体外细胞培养成分分离的组织或液体以及来自环境的样品。样品可以是细胞样品。样品可以是细胞系或细胞培养物样品。样品可以包括一种或多种细胞。样品可以包括一种或多种微生物。生物学样品可以是核酸样品或蛋白质样品。生物学样品也可以是碳水化合物样品或脂质样品。生物学样品可以来源于另一样品。样品可以是组织样品，例如，活检、组织芯活检、针抽出物或细针抽出物。样品可以是流体样品，例如，血液样品、尿液样品或唾液样品。样品可以是皮肤样品。样品可以是颊拭子。样品可以是血浆或血清样品。样品可以是无细胞的样品。无细胞样品可以包括细胞外多核苷酸。可以从身体样品中分离细胞外多核苷酸，所述身体样品可以选自血液、血浆、血清、尿液、唾液、粘膜排泄物、痰、粪便和眼泪。

如本文所使用的术语“核酸样品”通常是指含有核酸的样品。本文中使用的核酸样品可能很复杂，因为它们包含多个不同的包含序列的分子。来自哺乳动物(例如，小鼠或人)的基因组DNA样品是复杂样品的类型。复杂样品可能具有超过约10⁴、10⁵、10⁶或10⁷、10⁸、10⁹或10¹⁰个不同的核酸分子。DNA靶标可以来自任何来源，例如，基因组DNA或人工DNA构建体。本文中可以使用任何含有核酸的样品，例如，来自组织培养细胞的基因组DNA或组织样品。

如本文所使用的术语“混合物”通常是指散布的并且没有以任何特定顺序排列的元素的组合。混合物是异质的，并且不能在空间上分离为其不同的成分。元素的混合物的实例包括溶解在相同水溶液中的许多不同元素和在随机位置(即，没有特定顺序)附接至固体支持物上的许多不同元素。混合物是不可寻址的。为了举例说明，如在本领域中众所周知的，空间上分离的表面结合的多核苷酸的阵列不是表面结合的多核苷酸的混合物，因为表面结合的多核苷酸的种类在空间上是清楚的并且阵列是可寻址的。

如本文所使用的术语“核苷酸”通常包括不仅包含已知的嘌呤和嘧啶碱基，而且还包含已被修饰的其他杂环碱基的那些部分。这样的修饰包括甲基化的嘌呤或嘧啶、酰化的嘌呤或嘧啶、烷基化的核糖或其他杂环。另外，术语“核苷酸”包括包含半抗原或荧光标记并且不仅可以包含常规的核糖和脱氧核糖而且还可以包含其他糖的那些部分。修饰的核苷或核苷酸还包括对糖部分的修饰，例如其中一个或多个羟基被卤素原子或脂族基团取代，或被官能化为醚、胺等。

如本文可互换使用的，术语“核酸”、“寡核苷酸”和“多核苷酸”通常是指描述任何长度的聚合物，例如，大于约2个碱基、大于约10个碱基、大于约100个碱基、大于约500个碱基、大于1000个碱基、大于10,000个碱基、大于100,000个碱基、大于约1,000,000个、多至约10¹⁰个或更多个碱基，其由核苷酸(例如，脱氧核糖核苷酸或核糖核苷酸)组成，并且可以酶促或合成(例如美国专利号5,948,902和其中引用的参考文献中所述的PNA)产生，它们可以以类似于两种天然存在的核酸的序列特异性方式与天然存在的核酸杂交，例如，可以参与沃森-克里克碱基配对相互作用。天然存在的核苷酸包括鸟嘌呤、胞嘧啶、腺嘌呤、胸腺嘧啶、尿嘧啶(分别为G、C、A、T和U)。DNA和RNA分别具有脱氧核糖和核糖糖主链，而PNA的主链由通过肽键连接的重复的N-(2-氨乙基)-甘氨酸单元组成。在PNA中，各种嘌呤和嘧啶碱基通过亚甲基羰基键连接至主链。锁核酸(LNA)(通常称为不可及的RNA)是修饰的RNA核苷酸。LNA核苷酸的核糖部分被连接2'氧和4'碳的额外桥修饰。该桥将核糖“锁”在3'-endo(North)构象(其通常见于A型双链体中)中。可以根据需要将LNA核苷酸与寡核苷酸中的DNA或RNA残基混合。术语“非结构核酸”或“UNA”是含有以降低的稳定性彼此结合的非天然核苷酸的核酸。例如，非结构核酸可以包含G'残基和C'残基，其中这些残基对应于G和C的以降低的稳定性彼此碱基配对但保留分别与天然存在的C和G残基进行碱基配对的能力的非天然存在形式，即类似物。非结构核酸描述于US20050233340，其针对UNA的公开内容通过引用并入本文。

如本文所使用的术语“引物”通常是指天然的或合成的寡核苷酸分子，其在与多核苷酸模板形成双链体后能够充当核酸合成的起始点并从其3'末端沿模板延伸，从而形成延伸的双链体。在延伸过程中添加的核苷酸的序列可以由模板多核苷酸的序列确定。通常，引物通过DNA聚合酶延伸。引物通常具有与其在引物延伸产物的合成中的使用相容的长度，并且长度通常为8至100个核苷酸，例如，10至75、15至60、15至40、18至30、20至40、21至50、22至45、25至40，等。典型的引物的长度可以为10-50个核苷酸，例如，15-45、18-40、20-30、21-25等，以及在所述范围之间的任何长度。在一些实施方案中，引物的长度通常不超过约10、12、15、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65或70个核苷酸。

引物通常是单链的，以最大化扩增效率，但是可替代地可以是双链的。如果是双链的，通常在将引物用于制备延伸产物之前先对其进行处理以分离其链。该变性步骤通常通过加热来进行，但是可替代地也可以使用碱然后中和来进行。因此，“引物”与模板互补，并通过氢键结合或杂交与模板复合以得到引物/模板复合物用于通过聚合酶引发合成，该引物通过在DNA合成过程中添加与模板互补的在其3'末端连接的共价键合的碱基来延伸。引物是序列特异性的，并且可以与信使RNA(mRNA)或靶RNA中的独特序列杂交。

如本文所使用的术语“杂交”或“杂化”通常是指这样的过程，其中在正常杂交条件下，核酸链的区域退火至第二互补核酸链并与该第二互补核酸链形成稳定的双链体(同双链体或异双链体)，并且在相同的正常杂交条件下不与无关核酸分子形成稳定的双链体。通过在杂交反应中退火两个互补核酸链区域来完成双链体的形成。可以通过调节发生杂交反应的杂交条件(通常称为杂交严格性)使杂交反应具有高度特异性，使得在正常严格条件下两条核酸链将不会形成稳定的双链体(例如保留一定双链区域的双链体)，除非两条核酸链在特定序列中包含基本或完全互补的一定数目的核苷酸。对于任何给定的杂交反应，很容易确定“正常杂交或正常严格条件”。参见，例如，Ausubel等人,Current Protocols inMolecular Biology,John Wiley&Sons,Inc.,New York,或Sambrook等人,MolecularCloning:A Laboratory Manual,Cold Spring Harbor Laboratory Press。如本文所使用的术语“杂交”或“杂化”是指核酸链通过碱基配对与互补链结合的任何过程。

如本文所使用的“可选择性杂交”的核酸通常是指两个序列在中度至高度严格性杂交和洗涤条件下彼此特异性地杂交的情况下的参考核酸序列。中度和高度严格的杂交条件是已知的(参见，例如，Ausubel,等人,Short Protocols in Molecular Biology,第3版,Wiley&Sons 1995和Sambrook等人,Molecular Cloning:A Laboratory Manual,第3版,2001Cold Spring Harbor,N.Y.)。高严格条件的一个示例包括在约42℃下在50％甲酰胺、5X SSC、5X Denhardt's溶液、0.5％SDS和100μg/ml变性载体DNA中杂交，然后在室温下在2XSSC和0.5％SDS中洗涤两次然后在42℃下在0.1X SSC和0.5％SDS中再进行两次。

如本文所使用的术语“双链体”或“双链体化”通常是指碱基配对(即，杂交在一起)的两个互补多核苷酸区域。

如本文所使用的术语“扩增”或“扩增的”通常是指合成与模板核酸的一条或两条链互补的核酸分子的过程。扩增核酸分子可包括使模板核酸变性，在低于引物的解链温度的温度下使引物退火至模板核酸，以及从引物酶促延伸以产生扩增产物。变性、退火和延伸步骤各自可以进行一次或多次。在一些情况下，多次进行变性、退火和延伸步骤，使得扩增产物的量增加，通常以指数方式增加，尽管本方法不需要指数扩增。扩增通常需要脱氧核糖核苷三磷酸、DNA聚合酶和适当的缓冲液和/或用于使聚合酶具有最佳活性的辅因子的存在。术语“扩增产物”是指由本文定义的扩增过程产生的核酸。

术语“确定”、“测量”、“评估”、“估计”、“测定”和“分析”在本文中可互换使用，通常是指任何形式的测量，并且包括确定元素是否存在。这些术语包括定量和/或定性确定。评估可以是相对的或绝对的。“评估…的存在”包括确定某物的存在量，以及确定某物是否存在。

如本文所使用的术语“使用”通常是指其常规含义，并且因此可以意指采用(例如，投入使用)方法或组合物以达到目的。例如，如果使用程序生成文件，则执行程序以生成文件，该文件通常是程序的输出。在另一示例中，如果使用计算机文件，则通常对其进行访问、读取、并采用存储在文件中的信息来达到目的。类似地，如果使用独特的标识符(例如，条形码)，则通常读取该独特的标识符以鉴别例如与该独特的标识符相关联的对象或文件。

如本文所使用的术语“连接”通常是指第一DNA分子的5'末端的末端核苷酸与第二DNA分子的3'末端的末端核苷酸的酶催化连接。

如本文所使用的“多个”通常是指包含至少2个成员。在一些情况下，多个可以具有至少2个、至少5个、至少10个、至少100个、至少100个、至少10,000个、至少100,000个、至少10⁶个、至少10⁷个、至少10⁸个或至少10⁹个或更多个成员。

如果两个核酸是“互补的”，则通常它们可以在高严格条件下彼此杂交。术语“完全互补”通常用于描述双链体，其中一个核酸的每个碱基与另一个核酸中的互补核苷酸碱基配对。在许多情况下，两个互补的序列具有至少10个，例如至少12或15个互补核苷酸。

如本文所使用的“寡核苷酸结合位点”通常是指在靶多核苷酸中与寡核苷酸杂交的位点。如果寡核苷酸“提供”引物的结合位点，则引物可与该寡核苷酸或其互补序列杂交。

如本文所使用的术语“链”通常是指由通过共价键(例如，磷酸二酯键)共价连接在一起的核苷酸组成的核酸。在细胞中，DNA通常以双链形式存在，因此具有两条互补的核酸链，在本文中称为“上”和“下”链。在一些情况下，染色体区域的互补链可以称为“正”和“负”链、“第一”和“第二”链、“编码”和“非编码”链、“Watson”和“Crick”链或“有义”和“反义”链。将链指定为上链还是下链是任意的，并不意味着任何特定的方向、功能或结构。几个示例性哺乳动物染色体区域(例如BAC、装配体、染色体等)的第一链的核苷酸序列是已知的，并且例如可以在NCBI的Genbank数据库中找到。

如本文所使用的术语“上链”通常是指核酸的任一链，而不是核酸的两条链。当寡核苷酸或引物“仅与一条上链”结合或退火时，它仅与一条链结合而不与另一条链结合。如本文所使用的术语“下链”是指与“上链”互补的链。当寡核苷酸“仅与一条链”结合或退火时，它仅与一条链(例如，第一或第二链)结合，而不与另一条链结合。

如本文所使用的术语“测序”通常是指一种方法，通过该方法获得多核苷酸的连续核苷酸的身份(例如，至少10个、至少20个、至少50个、至少100个或至少200个或更多个连续核苷酸的身份)。

如本文所使用的术语“下一代测序”或“高通量测序”通常是指Illumina、LifeTechnologies和Roche等目前采用的所谓的平行合成测序或连接测序平台。下一代测序方法还可以包括纳米孔测序方法或基于电子检测的方法，例如，Life Technologies商业化的Ion Torrent技术或Pacific Biosciences商业化的基于单分子荧光的方法。

如本文所使用的术语“条形码”、“条形码序列”或“分子条形码”通常是指标签或标识符，其传达或能够传达关于分析物的信息。条形码可以是分析物的一部分。条形码可以独立于分析物。条形码除了可以是分析物的内源性特征(例如，一条或多条末端序列或分析物的大小)之外，还可以是附接至分析物(例如，核酸分子)的标签或标签的组合。条形码可以是独特的。条形码可以具有多种不同的格式。例如，条形码可以包括：多核苷酸条形码；随机核酸和/或氨基酸序列；以及合成的核酸和/或氨基酸序列。条形码可以以可逆或不可逆的方式附接在分析物上。可以在样品测序之前、期间和/或之后将条形码添加到例如脱氧核糖核酸(DNA)或核糖核酸(RNA)样品的片段中。条形码可以允许鉴别和/或定量个体测序读数。

如本文所使用的术语“体外”通常是指在具有分离的成分的容器中发生的反应，而不是在细胞中发生的反应。

在沿着靶核酸分子的长度分布的切割位点的背景中，如本文所使用的术语“分布的”通常是指沿着靶核酸分子的长度彼此间隔开的插入序列。不需要所有插入序列都间隔相同的量。而是，插入序列之间的间隔可以是随机的、半随机的或不是随机的。

如本文所使用的术语“染色质”通常是指在真核细胞核中发现的包括蛋白质和多核苷酸(例如，DNA、RNA)的分子复合物。染色质部分地由形成核小体的组蛋白、基因组DNA和通常与基因组DNA结合的其他DNA结合蛋白(例如，转录因子)组成。

如本文所使用的术语“处理”通常是指在导致反应(例如，裂解)的条件(例如，合适的温度、时间和条件)下的合并。

如本文所使用的术语“从细胞群中分离的染色质”通常是指使染色质变得可用的染色质来源。分离的核(可以被裂解以产生染色质)和分离的染色质(即裂解核的产物)都被认为是从细胞群中分离的染色质的类型。

如本文所使用的术语“转录因子”通常是指可自身起作用或与至少一种其他多肽组合起作用以调节基因表达水平的任何多肽。该术语包括但不限于直接结合DNA序列的多肽。转录因子可以增加或抑制表达水平。转录因子的示例包括但不限于Myc/Max、AP-1(Jun、Fos、ATF)、CREB、SMAD、HIF、ETS、ERG、ELK、STAT、雌激素受体(ER)和雄激素受体(AR)、糖皮质激素受体(GR)、孕激素受体(PR)、NFκB、p53、OCT、SOX和PAX。转录因子可以是通过序列分析鉴别的转录因子或先前没有被表征为转录因子的天然存在的阅读框序列。多肽也可以是人工产生的或化学或酶修饰的多肽。

如本文所使用的术语“插入酶复合物”通常是指包含插入酶和两个衔接子分子(“转座子标签”)(其与多核苷酸结合以片段化并将衔接子添加至多核苷酸)的复合物。在包括Caruccio(Methods Mol.Biol.2011 733：241-55)和US20100120098的各种出版物中描述了这样的系统，其通过引用并入本文。

如本文所使用的术语“标记的片段”通常是指附接至标签的多核苷酸片段。

如本文所使用的术语“区域”通常是指生物体基因组中连续长度的核苷酸。染色体区域的范围可以是1bp至整个染色体的长度。在一些情况下，区域的长度可以为至少200bp、至少500bp、至少1kb、至少10kb或至少100kb或更多(例如，多至1Mb或10Mb或更多)。基因组可以来自任何真核生物，例如动物或植物基因组，例如人、猴、大鼠、鱼或昆虫的基因组。

如本文所使用的术语“表观遗传图谱”通常是指表观遗传学特征(例如，核小体的位点、无核小体的区域、转录因子的结合位点等)的任何呈现。图谱可以在物理上展示，例如，在计算机显示器上。示例性表观遗传图谱显示在图7A、9、13、20等中。

如本文所使用的术语“映射信息”通常是指将关于区域的实验获得的信息组装到该区域的物理图谱上。

如本文所使用的术语“序列读数丰度”通常是指在序列读数的集合中观察到特定序列或核苷酸的次数。

如本文所使用的术语“无核小体的片段”通常是指相对耗竭或缺乏核小体的(即在核小体之间)的基因组DNA的片段。

如本文所使用的术语“染色质可及性”通常是指在多核苷酸内(例如，在基因组DNA中)核酸位点的可接近程度，即染色质的“开放”程度。与多肽相关(例如，与核小体中的基因组DNA相关)的核酸位点通常是不可及的。不与多肽复合(例如，与核小体之间的基因组DNA复合)的核酸位点通常是可及的(与转录因子和其他DNA结合蛋白复合的核酸位点除外)。

如本文所使用的术语“DNA结合蛋白占据”通常是指DNA结合蛋白是否占据序列特异性DNA结合蛋白的结合位点(例如，转录因子的结合位点)。DNA结合蛋白占据可以定量或定性地测量。

如本文所使用的术语“全局占据”通常是指分布在整个基因组中的DNA结合蛋白的多个不同结合位点(例如，转录因子的结合位点)是否被DNA结合蛋白结合。DNA结合蛋白占据可以定量或定性地测量。

如本文所使用的术语“诊断”通常是指确定受试者是否患有特定疾病或病状。

如本文所使用的术语“预后”通常是指临床结果(例如，疾病复发、疾病的恢复、死亡)的预测以及对患有特定疾病或病状的受试者是否将对特定治疗产生反应的预测。

如本文所使用的术语“cDNA拷贝”通常是指具有RNA分子的反向互补序列的DNA分子(即第一链cDNA)或具有与RNA分子(除了U是T以外)相同的序列的DNA分子(即第二链cDNA)。

如本文中所使用的术语“实时”通常可以指小于约1秒、十分之一秒、百分之一秒、毫秒或更短的响应时间。响应时间可能大于1秒。在一些情况下，实时可以指同时或基本同时进行的处理、检测或鉴别。

如本文所使用的术语“受试者”通常是指动物，例如，哺乳动物(例如，人)或禽类(例如，鸟)，或其他生物，例如，植物。例如，受试者可以是脊椎动物、哺乳动物、啮齿动物(例如，小鼠)、灵长类、猿猴或人。动物可以包括但不限于农场动物、运动动物和宠物。受试者可以是健康或无症状的个体，患有或怀疑患有疾病(例如，癌症)或易感疾病的个体，和/或需要治疗或怀疑需要治疗的个体。受试者可以是患者。受试者可以是微小动植物或微生物(例如，细菌、真菌、古细菌、病毒)。

如本文所使用的术语“基因组”通常是指来自受试者的基因组信息，其可以是例如受试者的遗传信息的至少一部分或全部。基因组可以编码为DNA或RNA。基因组可以包含编码区(例如，编码蛋白质的区)以及非编码区。基因组可以包括生物体中所有染色体的序列。例如，人基因组通常具有总共46条染色体。所有这些序列共同构成人基因组。

术语“(一个或多个)衔接子”、“(一个或多个)衔接物”和“(一个或多个)标签”可以同义使用。衔接子或标签可以通过任何方法(包括连接、杂交或其他方法)与待“标记”的多核苷酸序列偶联。

如本文所使用的术语“测序”通常是指用于确定一个或多个多核苷酸中核苷酸碱基的序列的方法和技术。多核苷酸可以是例如核酸分子，例如，脱氧核糖核酸(DNA)或核糖核酸(RNA)，包括其变体或衍生物(例如，单链DNA)。测序可通过当前可用的各种系统进行，例如但不限于，

Pacific Biosciences

Oxford

或Life Technologies

的测序系统。可替代地或另外地，可以使用核酸扩增、聚合酶链反应(PCR)(例如，数字PCR、定量PCR或实时PCR)或等温扩增来进行测序。这样的系统可以提供对应于受试者(例如，人)的遗传信息的多个原始遗传数据，如由系统从受试者提供的样品中产生的。在一些示例中，这样的系统提供测序读数(在本文中也称为“读数”)。读数可包括与已测序的核酸分子序列相对应的一串核酸碱基。在一些情况下，本文提供的系统和方法可以与蛋白质组信息一起使用。

如本文所使用的术语“珠子”通常是指颗粒。珠子可以是固体或半固体颗粒。珠子可以是凝胶珠。凝胶珠可包括聚合物基质(例如，通过聚合或交联形成的基质)。聚合物基质可包括一种或多种聚合物(例如，具有不同官能团或重复单元的聚合物)。聚合物基质中的聚合物可以无规排列，例如在无规共聚物中，和/或具有有序结构，例如在嵌段共聚物中。交联可以通过共价、离子或诱导、相互作用或物理缠结进行。珠子可以是大分子。珠子可以是溶胶-凝胶。珠子可以由结合在一起的核酸分子形成。可以通过分子(例如，大分子)例如单体或聚合物的共价或非共价组装形成珠子。这样的聚合物或单体可以是天然的或合成的。这样的聚合物或单体可以是或包括例如核酸分子(例如DNA或RNA)。珠子可以由聚合材料形成。珠子可以是磁性的或非磁性的。珠子可以是刚性的。珠子可以是柔性的和/或可压缩的。珠子可以是可破坏的或可溶解的。珠子可以是覆盖有包含一种或多种聚合物的涂层的固体颗粒(例如，金属基颗粒，包括但不限于氧化铁、金或银)。这样的涂层可以是可破坏的或可溶解的。

如本文所使用的术语“生物颗粒”通常是指衍生自生物学样品的离散的生物系统。生物颗粒可以是大分子。生物颗粒可以是小分子。生物颗粒可以是病毒。生物颗粒可以是细胞或细胞的衍生物。生物颗粒可以是细胞器。生物颗粒可以是来自细胞群的稀有细胞。生物颗粒可以是任何类型的细胞，包括但不限于原核细胞、真核细胞、细菌、真菌、植物、哺乳动物或其他动物细胞类型、支原体、正常组织细胞、肿瘤细胞或任何其他细胞类型，无论是来源于单细胞或多细胞生物。生物颗粒可以是细胞的成分。生物颗粒可以是或可以包括DNA、RNA、细胞器、蛋白质或其任何组合。生物颗粒可以是或可以包括基质(例如，凝胶或聚合物基质)，所述基质包含细胞或一种或多种来自细胞(例如，细胞珠)的组分，例如来自细胞的DNA、RNA、细胞器、蛋白质或任何组合。生物颗粒可以获自受试者的组织。生物颗粒可以是硬化的细胞。这种硬化的细胞可以包括或可以不包括细胞壁或细胞膜。生物颗粒可以包括细胞的一种或多种成分，但是可以不包括细胞的其他成分。这样的成分的一个例子是细胞核或细胞器。细胞可以是活细胞。活细胞可能能够被培养，例如，当被封闭在凝胶或聚合物基质中时被培养，或者当包含凝胶或聚合物基质时被培养。

如本文所使用的术语“大分子成分”通常是指包含在生物颗粒内或来自生物颗粒的大分子。大分子成分可以包含核酸。在一些情况下，生物颗粒可以是大分子。大分子成分可以包含DNA。大分子成分可以包含RNA。RNA可以是编码的或非编码的。例如，RNA可以是信使RNA(mRNA)、核糖体RNA(rRNA)或转移RNA(tRNA)。RNA可以是转录物。RNA可以是长度小于200个核酸碱基的小RNA，或长度大于200个核酸碱基的大RNA。小RNA可以包括5.8S核糖体RNA(rRNA)、5S rRNA、转移RNA(tRNA)、微RNA(miRNA)、小干扰RNA(siRNA)、短发夹RNA(shRNA)、小核仁RNA(snoRNA)、Piwi相互作用RNA(piRNA)、tRNA衍生的小RNA(tsRNA)和小rDNA衍生的RNA(srRNA)。RNA可以是双链RNA或单链RNA。RNA可以是环状RNA。大分子成分可以包含蛋白质。大分子成分可以包含肽。大分子成分可包含多肽。

如本文所使用的术语“分子标签”通常是指能够结合大分子成分的分子。分子标签可以以高亲和力结合至大分子成分。分子标签可以以高特异性或选择性结合至大分子成分。分子标签可以包含核苷酸序列。分子标签可以包含核酸序列。核酸序列可以是分子标签的至少一部分或全部。分子标签可以是核酸分子或可以是核酸分子的一部分。分子标签可以是寡核苷酸或多肽。分子标签可以包含DNA适配体。分子标签可以是或包含引物。分子标签可以是或包含蛋白质。分子标签可以包含多肽。分子标签可以是条形码。

如本文所使用的术语“区室”通常是指可能适合包含一种或多种物质或进行一种或多种反应的空间或体积。区室可以是物理隔室，例如液滴或孔。区室可以将空间或体积与另一个空间或体积隔离。液滴可以是在与第一相不混溶的第二相(例如，油)中的第一相(例如，水相)。液滴可以是在不与第一相相分离的第二相中的第一相，例如在水相中的胶囊或脂质体。区室可以包括一个或多个其他(内部)区室。在一些情况下，区室可以是虚拟区室，其可以通过跨多个和/或远程物理隔室的索引(例如，索引库)来定义和鉴别。例如，物理区室可以包括多个虚拟区室。

如本文所使用的术语“分析物”通常是指能够例如通过检测(例如，通过测序检测)进行鉴别的物质或其一种或多种成分。分析物的实例包括但不限于DNA、RNA、合成寡核苷酸、本文所述的标记剂、抗体和蛋白质。分析物可以是细胞或细胞的一种或多种成分。

分析物可以是不同类型的。在一些示例中，在多种分析物中，给定的分析物与该多种分析物中的其他分析物在结构或功能类别上不同。不同类型的分析物的示例包括DNA和RNA；核酸分子和标记剂；转录物和基因组核酸；多个核酸分子，其中每个核酸分子具有不同的功能，例如不同的细胞功能。样品可以具有多种不同类型的分析物，例如，DNA和RNA分子的混合物，或核酸分子和标记剂的混合物。

如本文所使用的术语“表位结合片段”或“抗体片段”通常是指能够结合与完整抗体相同的表位的完整抗体的一部分，尽管不必达到相同程度。尽管多种类型的表位结合片段是可能的，但表位结合片段通常包含至少一对保持在一起(例如，通过二硫键)以保留抗原结合位点并且不包含全部或部分Fc区的重链可变区和轻链可变区(分别为VH和VL)。抗体的表位结合片段可以通过任何合适的技术(例如，重组DNA技术或完整抗体的酶促或化学切割)从给定抗体中获得，并且通常可以按照与筛选完整抗体相同的方式进行特异性筛选。在一些实施方案中，表位结合片段包括F(ab′)2片段、Fab′片段、Fab片段、Fd片段或Fv片段。在一些实施方案中，术语“抗体”包括抗体衍生的多肽，例如，单链可变片段(scFv)、双抗体或其他多聚scFv、重链抗体、单结构域抗体或包含抗体的足够部分(例如，一个或多个互补决定区(CDR))以赋予多肽特异性的抗原结合能力的其他多肽。

提供了可以结合T细胞受体测序(TCR-seq)和使用测序的转座酶可及染色质的测定(ATAC-seq)的系统和方法和/或其各个方面。这样的方法在本文中通常可以称为使用测序的转座酶可及染色质的转录物索引测定(T-ATAC-Seq)。还提供了可以结合ATAC-seq和扰动测序(扰动-seq)的系统和方法和/或其各个方面。这样的方法在本文中通常可以称为使用测序的转座酶可及染色质的扰动索引测定(扰动-ATAC-Seq)。

本文所述的方法可以将个体细胞或少量细胞群体(包括个体细胞或少量细胞组的分析物)的分析进行分隔(例如，分区)，并且然后允许该分析归属回至分析物所来源于的个体细胞或少量细胞组。独特的标识符例如条形码(例如，携带条形码的序列)可以被预先、随后或同时递送到容纳分隔的或分区的细胞的区室，以便允许稍后将个体细胞的特性归属于特定的隔室。此外，可以将独特的标识符(例如条形码)偶联或附接至分析物，并且可以预先、随后或同时递送至容纳分隔的或分区的细胞的区室中，以允许稍后将个体细胞的特性归属于特定的隔室。条形码可以例如通过任何合适的机制(例如，如本文其他地方所描述的附接至凝胶珠上，在溶液中等)递送(例如在寡核苷酸上)至区室。在一些方面，以寡核苷酸的形式提供独特的标识符，所述寡核苷酸包含核酸条形码序列，所述核酸条形码序列可以附接至个体细胞的核酸内容物(或细胞的其他组分，或特别是这些核酸的片段)，或以其他方式与个体细胞的核酸内容物(或细胞的其他组分，或特别是这些核酸的片段)关联。

使用测序的转座酶可及染色质的转录物索引测定(T-ATAC-Seq)

可以与其他蛋白质编码基因一起评估染色质的可及性。在一些情况下，评估可包括对多核苷酸和/或其他核酸分子进行测序。本文提供了通过对细胞受体编码基因与转座酶可及的染色质一起测序来处理和分析免疫细胞(例如，T淋巴细胞)的系统和方法。本文所述的方法可以结合T细胞受体测序(TCR-seq)和使用测序的转座酶可及染色质的测定(ATAC-seq)，和/或其各个方面。这样的方法在本文中通常可以称为使用测序的转座酶可及染色质的转录物索引测定(T-ATAC-Seq)。与T-ATAC-Seq有关的系统和方法在AnsumanT.Satpathy等人,Transcript-indexed ATAC-seq for precision immune profiling,24Nature Medicine 580-90(2018)中进行了描述，其通过引用整体并入本文。

特别感兴趣的分析物是免疫细胞。特别地，常规分析技术(例如一些集合测序过程)可能无法提供关于克隆T细胞中的表观基因组概况如何在表型上导致T细胞恶性、免疫和/或免疫疗法有效性的信息。有益地，可以在单细胞水平上同时分析表观遗传概况(例如，个体T细胞的表观基因组状态)和T细胞特异性。有利地，这样的分析可以促进发现驱动某种T细胞命运的抗原和/或驱动T细胞克隆扩增的顺式和反式调节子。例如，本文描述的方法可以使得能够鉴别癌症克隆特异性表观基因组特征(在其他情况下根据一些集合测量是不明显的)。

在一些情况下，T-ATAC-seq包括扩增和测序TRA和TRB基因座(其可以分别编码单个细胞的TCR-α和TCR-β链)的系统和方法。T-ATAC-seq还可以包括全基因组表观遗传改变的测量，例如ATAC-seq或scATAC-seq，其使得能够通过将测序衔接子直接转座到可及的染色质区域来测量调节性DNA元件。在一些情况下，scATAC-seq鉴别顺式和反式调节元件以及影响表观遗传细胞状态的因素的细胞间差异。ATAC-seq还可以提供对表观遗传调节的见解，例如，通过使用碱基对分辨率鉴别增强子和启动子序列、鉴别核小体的定位、顺式调节DNA元件的可及性以及通过转座酶不可及区域的DNA足迹结合到每个位点的转录因子的干扰。有利地，可以确定可及的基因组DNA与对应于免疫细胞基因组的V(D)J区的序列之间的相关性。可以基于与可及基因组DNA相关的测序读数和与对应于基因组的V(D)J区的序列相关的测序读数来映射这样的相关性。

本文提供了一种处理免疫细胞的方法。该方法可以包括捕获免疫细胞，其中所述免疫细胞包含基因组脱氧核糖核酸(gDNA)和信使核糖核酸(mRNA)分子，使来自免疫细胞的gDNA与转座酶接触以在标记反应中产生标记的gDNA片段，并从mRNA分子产生互补DNA(cDNA)分子，其中cDNA分子包含与免疫细胞基因组的V(D)J区相对应的序列。

可以利用本文描述的方法进行分析的免疫细胞的非限制性实例包括B细胞、T细胞(例如，细胞毒性T细胞、天然杀伤T细胞、调节性T细胞和T辅助细胞等)、天然杀伤细胞、细胞因子诱导的杀伤(CIK)细胞、骨髓细胞，例如粒细胞(嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞/分叶过多嗜中性粒细胞)、单核细胞/巨噬细胞、肥大细胞、血小板/巨核细胞和树突状细胞。

在一些情况下，使用本文公开的方法分析个体T细胞。在一些情况下，使用本文公开的方法分析个体B细胞。尽管本文描述的一些方法参考T-ATAC-Seq描述了T细胞的处理，但是应当理解，该方法可以适用于和/或适应于其他类型的免疫细胞，例如，B细胞。例如，由于可以将编码T细胞受体(TCR)的序列与用于处理T细胞的转座酶可及的染色质一起测序，因此可以将编码B细胞受体(BCR)的序列与用于处理B细胞的转座酶可及的染色质一起测序。

在一些情况下，可以从多个免疫细胞中分离和/或捕获免疫细胞。在一些情况下，免疫细胞可以是从多个免疫细胞分离和/或捕获的免疫细胞的亚群之一。分离和/或捕获可以是在一个或多个阶段中。例如，在一个阶段中，可以针对免疫细胞的类型来分选多个免疫细胞。例如，可以从免疫细胞中分选T细胞。在另一个例子中，可以从免疫细胞中分选B细胞。可以从相同的免疫细胞群体中分离出包含T细胞的亚群和包含B细胞的亚群。在一些情况下，在下一阶段中，在通过细胞类型分离后，在进一步的分离操作中，可以分离细胞亚型。例如，可以从多个T细胞中分离和/或捕获包含一种或多种TCR的T细胞的亚群。可替代地，可以从多个免疫细胞中分离和/或捕获T细胞的亚群。

在一些情况下，分离可包括磁性细胞分选。在一些情况下，分离可包括流式细胞术分选。在一些情况下，可以基于分子标签(例如，荧光标签)对细胞样品进行分选。例如，可以通过使用针对细胞表面标记物的标记的抗体的已知方法，通过磁活化细胞分选(MACS)或荧光活化细胞分选(FACS)从异质细胞群体(例如，血液)分选、分离和/或捕获细胞。例如，使用FACS或MACS，可以从细胞样品中分离T细胞和/或B细胞。可以使用针对细胞表面标记物的抗体分离这些细胞的亚群。

免疫细胞的捕获可以包括将免疫细胞分区在区室中。区室可以是本文其他地方描述的任何区室，例如，腔室、孔、微孔或液滴。区室可以在一组限定的边界(封闭或部分封闭)内包含免疫细胞，和/或将区室内的空间或体积与其他区室或区室外部的任何空间或体积区分开。在一些情况下，区室可能会阻止其内容物在一种或多种情况下逃逸该区室。在一些情况下，区室可能会阻止外部对象在一种或多种情况下进入该区室。区室可以是单独的区室，例如，单独的孔或单独的腔室或单独的液滴。区室可以是多个区室之一，例如在集成装置诸如流体芯片中。

用于ATAC-seq的方法通常可以在经分区的免疫细胞上进行，例如根据美国专利公开号2016/0060691和PCT专利公开号WO 2018/218226A1(以下称为“Belhocine”)中概述的一种或多种方法和系统，其中每一个均通过引用整体并入本文。这样的方法可包括在插入分子标签期间将多核苷酸(例如，gDNA)片段化为多个片段。该多核苷酸可以与多个缔合分子结合。缔合分子可以是例如蛋白质，核酸或糖。在一些情况下，缔合分子可包含组蛋白。在其他情况下，缔合分子可包含适配体。在一些情况下，可以扩增片段并测序以产生测序读数。这样的读数可用于确定多核苷酸在任何给定位点的可及性。如本文其他地方所述，可以使用高通量测序技术对片段进行测序。在一些情况下，可以基于插入酶的序列插入偏好来标准化测序读数。测序读数的长度可用于确定染色质状态注释。在一些情况下，ATAC-seq可以进一步鉴别在该位点结合至多核苷酸的一种或多种蛋白质，例如转录因子。在一些情况下，分子标签可用于生成多核苷酸的可及性图谱。

在区室中，可以使免疫细胞在gDNA片段化之前经受裂解条件。裂解条件可以裂解免疫细胞并释放染色质，同时保持染色质组织，并将所释放的染色质片段化。可替代地，可以使细胞(或细胞核)透化或是可渗透的，以允许转座酶-核酸复合物进入细胞核以产生核酸片段，以及随后裂解以将片段释放到区室中。可以以最小限度扰动细胞样品中细胞核的方式进行透化。在一些情况下，可以使用透化剂使细胞样品透化。透化剂的实例包括但不限于NP40、洋地黄皂苷、吐温、链球菌溶血素和阳离子脂质。在其他情况下，可以使用低渗冲击和/或超声处理使细胞样品透化。在其他情况下，插入酶可以是高电荷的，这可以允许其穿透细胞膜。

在一些情况下，可以使细胞经受维持细胞核完整的裂解条件。然后可以重新收集细胞核沉淀物并重悬在包含一种或多种类型的转座酶的转座缓冲液中。该方法中使用的染色质可以通过任何合适的方法制备。在一些情况下，可以分离、裂解细胞核，并且可以例如从核被膜中进一步纯化染色质。在其他情况下，可以通过使分离的核与反应缓冲液(其包含插入酶复合物和其他必要的试剂)接触来分离染色质。在这些实施方案中，分离的核在与反应缓冲液接触时可裂解，这允许插入酶复合物接近染色质。

可以将gDNA片段化并在标记反应中标记。染色质可以用插入酶复合物处理以产生标记的基因组DNA片段。在此步骤中，可以使用插入酶(例如，Tn5或MuA)标记染色质(即在同一反应中切割并标记)，该酶在染色质的开放区域(例如，可及区域)内切割基因组DNA，并向片段的两端添加衔接子。用于标记分离的基因组DNA的方法是本领域已知的(参见，例如，Caruccio Methods Mol.Biol.2011 733：241-55；Kaper等人，Proc.Natl.Acad.Sci.2013110：5552-7；Marine等人，Appl.Environ.Microbiol.2011 77：8071-9和US20100120098)，并且可从Illumina(San Diego,CA)和其他供应商商购获得。这样的系统可以容易地适应于在本文中使用。在一些情况下，可以调节条件以获得在染色质中所需的插入水平(例如，在开放区域中平均每50至200个碱基对发生一次插入)。在分离核时，它们可以与转座酶和衔接子组合，其中该组合导致核的裂解以释放染色质和基因组DNA的衔接子标记的片段的产生。

插入酶可以是能够将核酸序列插入多核苷酸的任何酶。在一些情况下，插入酶可以以基本上不依赖序列的方式将核酸序列插入多核苷酸。插入酶可以是原核的或真核的。插入酶的实例包括但不限于转座酶、HERMES和HIV整合酶。转座酶可以是Tn转座酶(例如，Tn3、Tn5、Tn7、Tn10、Tn552、Tn903)、MuA转座酶、Vibhar转座酶(例如，来自哈氏弧菌(Vibrioharveyi))、Ac-Ds、Ascot-1、Bs1、Cin4、Copia、En/Spm、F元素、hobo、Hsmar1、Hsmar2、IN(HIV)、IS1、IS2、IS3、IS4、IS5、IS6、IS10、IS21、IS30、IS50、IS51、IS150、IS256、IS407、IS427、IS630、IS903、IS911、IS982、IS1031、ISL2、L1、Mariner、P元素、Tam3、Tc1、Tc3、Tel、THE-1、Tn/O、TnA、Tn3、Tn5、Tn7、Tn10、Tn552、Tn903、Tol1、Tol2、TnlO、Tyl，以及任何原核转座酶或与上文所述的那些相关和/或衍生自上文所述的那些的任何转座酶。在一些情况下，与亲本转座酶相关和/或衍生自亲本转座酶的转座酶可包含与亲本转座酶的相应肽片段具有至少约50％、约55％、约60％、约65％、约70％、约75％、约80％、约85％、约90％、约91％、约92％、约93％、约94％、约95％、约96％、约97％、约98％或约99％氨基酸序列同源性的肽片段。肽片段的长度可以是至少约10、约15、约20、约25、约30、约35、约40、约45、约50、约60、约70、约80、约90、约100、约150、约200、约250、约300、约400或约500个氨基酸。例如，衍生自Tn5的转座酶可包含长度为50个氨基酸且与亲本Tn5转座酶中的相应片段约80％同源的肽片段。在一些情况下，可以通过添加一种或多种阳离子来促进和/或触发插入。阳离子可以是二价阳离子，例如，Ca²⁺、Mg²⁺和Mn²⁺。

在一些情况下，插入酶可包含两个或更多个酶部分，其可任选地连接在一起。可以通过使用任何合适的化学合成或生物缀合方法来连接酶部分。例如，酶部分可通过酯/酰胺键、巯基加成到马来酰亚胺、天然化学连接(NCL)技术、点击化学(即炔-叠氮化物对)或生物素-链霉亲和素对来连接。在一些情况下，每个酶部分可将共同序列插入多核苷酸。共同序列可以包含共同条形码。在一些实施方案中，可在插入过程中将多核苷酸片段化为多个片段。可以确定包含共同条形码的片段在多核苷酸的三维结构中是邻近的。

在一些情况下，插入酶可以进一步包含亲和标签。在一些情况下，亲和标签可以是抗体。该抗体可以结合例如转录因子、修饰的核小体或修饰的核酸。修饰的核酸的实例包括但不限于甲基化或羟甲基化的DNA。在其他情况下，亲和标签可以是单链核酸(例如，ssDNA、ssRNA)。在一些实例中，单链核酸可以结合靶核酸。在其他情况下，插入酶可以进一步包含核定位信号。

标记的gDNA片段可以包含一个或多个衔接子。一个或多个衔接子可以连接至gDNA片段。衔接子可以连接到每个片段的两端。第一衔接子附接至第一端，第二衔接子附接至第二端，其中所述第一衔接子和所述第二衔接子是不同的。衔接子可包括测序衔接子、锁核酸(LNA)、拉链核酸(ZNA)、RNA、亲和活性分子(例如。生物素、dig)、自身互补分子、硫代磷酸酯修饰、叠氮或炔基。在一些情况下，衔接子可以进一步包含条形码分子。在一些情况下，条形码分子可包含独特序列。这样的独特序列可以用于鉴别各个插入事件。衔接子可进一步包含荧光标签(例如，荧光素、若丹明、Cy3、Cy5、噻唑橙等)。衔接子可包含一个或多个衔接子序列。在非限制性实例中，例如，衔接子可各自包含转座子末端序列(镶嵌末端序列)、条形码序列、测序引物序列、引物序列、索引序列、P5序列、P7序列或其他序列中的一个或多个。Belhocine中进一步详细描述了可能的衔接子配置和组分。

在产生标记的gDNA片段之后，并且在使用mRNA分子起始逆转录反应之前，可以抑制或淬灭标记反应，例如，使用氯化镁，或以其他方式终止标记反应。在一些情况下，标记操作可以包括针对细胞使用去污剂、插入酶复合物(例如，转座酶复合物)和二价金属离子。在一些情况下，去污剂可以是非离子表面活性剂，例如乙氧基化壬基酚，例如NP-40。在一些情况下，终止可以通过螯合插入酶复合物(例如，转座酶复合物)所需的二价金属离子来完成，从而终止反应并从标记的DNA释放插入酶复合物(例如，转座酶复合物)。在一些情况下，螯合可以通过乙二胺四乙酸(EDTA)、次氮基乙酸(NTA)或二亚乙基三胺五乙酸(DTPA)或其他螯合剂来完成。任何其他反应终止剂均可促进终止反应。标记反应(和/或其终止)和逆转录反应可以发生在相同的区室或不同的区室中。例如，标记(和/或其终止)可以在第一区室中发生并且逆转录可以在不同的第二区室中发生。在另一个示例中，标记(和/或其终止)可以在第一区室中发生并且逆转录可以在相同的第一区室中发生。

在已将染色质片段化并标记以产生基因组DNA的标记的片段之后，可以对至少一些衔接子标记的片段或其衍生物(例如，扩增子)进行测序以产生多个序列读数。可以使用任何方便的方法对片段进行测序。例如，可以使用Illumina的可逆终止子方法、Roche的焦磷酸测序方法(454)、Life Technologies的连接测序(SOLiD平台)或Life Technologies的Ion Torrent平台对片段进行测序。在以下参考文献中描述了这样的方法的示例：Margulies等人(Nature 2005 437:376–80)；Ronaghi等人(Analytical Biochemistry1996 242:84–9)；Shendure等人(Science 2005 309:1728-32)；Imelfort等人(BriefBioinform.2009 10:609-18)；Fox等人(Methods Mol Biol.2009；553:79-108)；Appleby等人(Methods Mol Biol.2009；513:19-39)和Morozova等人(Genomics.2008 92:255-64)，其通过引用并入本文以作为方法和方法的特定步骤的一般描述，包括每个步骤的所有起始产品、文库制备方法、试剂和最终产品。与选定的下一代测序平台兼容的正向和反向测序引物位点可以在扩增步骤中添加到片段的末端。

可以使用引物(例如，聚合酶链反应(PCR)引物)扩增标记的gDNA片段。在一些情况下，引物可以与标记的gDNA片段中的一个或多个衔接子序列杂交。在一些情况下，用于PCR的引物可以具有与特定测序平台兼容的5'尾部。在一些情况下，所用的引物可包含细胞特异性条形码序列，以便在测序之前可以将不同的库(例如，扩增子的)合并在一起，并且可以使用细胞特异性条形码序列将序列读数追溯到特定样品。

可以结合TCR-seq和/或其各方面进行ATAC-Seq和/或其各方面。例如，在标记反应被淬灭或以其他方式终止之后，可以使mRNA分子经历逆转录反应以产生cDNA分子。该方法可以包括使用引物和逆转录酶产生cDNA分子。

在T细胞中，从其产生cDNA分子的mRNA分子可以包含T细胞受体α(TRA)和/或T细胞受体β(TRB)RNA分子。在一些情况下，引物的至少一个子集可以包含以下序列：特异于编码TRA和TRB RNA分子的恒定区的序列或靶向编码TRA和TRB RNA分子的恒定区的序列。因此，所产生的cDNA的至少一个子集可以对应于免疫细胞基因组的V(D)J区。在一些情况下，这样的cDNA可以被条形码化。PCT专利公开号WO/2018/075693和美国专利公开美国专利申请号2018/0105808(其各自通过引用整体并入本文)中描述了适用于对由mRNA转录物(包括编码免疫细胞受体的V(D)J区的mRNA转录物)产生的cDNA进行条形码化的方法和组合物和/或条形码化方法和包括模板转换寡核苷酸的组合物。

本文提供了适合于处理编码免疫细胞受体(例如，TCR或BCR)的V(D)J序列的至少一部分的核酸序列(例如，mRNA，从mRNA的逆转录衍生的互补DNA)的珠子。珠子可以是凝胶珠。条形码化的引物可以偶联或以其他方式附接至凝胶珠。在一些情况下，条形码化的引物可以可释放地附接至凝胶珠。因此，第一条形码分子可包含可引发这样的编码免疫细胞受体的V(D)J序列的至少一部分的核酸序列的引发序列。在一些情况下，具有这样的核酸序列的核酸分子是cDNA，其由相应的mRNA逆转录产生，例如使用含有poly-T的引物。然后可以使用引物对产生的cDNA进行条形码化，所述引物包括与产生的cDNA的至少一部分杂交的条形码序列(和任选地，独特的分子标识符(UMI)序列)。在一些情况下，模板转换寡核苷酸与具有末端转移酶活性的末端转移酶或逆转录酶结合可用于在cDNA上产生引发区，条形码化引物可在cDNA产生期间与引发区杂交。例如，末端转移酶活性可以在cDNA的3'末端添加一个poly-C尾部，从而使模板转换寡核苷酸可以通过poly-G引发序列结合，并且可以进一步延伸cDNA的3'末端。然后可以从cDNA变性原始的mRNA模板和模板转换寡核苷酸，然后可以将包含与cDNA上所产生的引发区的至少一部分互补的序列的条形码化的引物与cDNA杂交并产生包含条形码序列(以及任何可选的UMI序列)和cDNA的互补序列的条形码化构建体。

可以在PCR反应中扩增cDNA和/或标记的gDNA片段，例如通过使它们与多个引物和聚合酶接触以产生cDNA分子扩增子和/或标记的gDNA片段扩增子。在一些情况下，多个引物的至少一个子集可以包含以下序列：特异于编码TCR的恒定区和/或可变区的序列或靶向编码TCR的恒定区和/或可变区的序列。在一些情况下，cDNA的扩增子和标记的gDNA片段的扩增子可以包含鉴别免疫细胞的细胞特异性条形码序列。在一些情况下，可以从标记的gDNA片段和cDNA分子的其他扩增子产生这样的含有细胞特异性条形码序列的扩增子。测序读数可至少部分基于细胞特异性条形码序列而与免疫细胞相关联。条形码分子可以在将细胞分区之前、同时或之后递送。在一些情况下，条形码分子可以经由珠子(例如，凝胶珠)递送，如本文其他地方所述。

可以对cDNA、标记的gDNA和/或其扩增子进行测序以产生测序读数。这样的测序读数可用于确定免疫细胞中可及的gDNA与对应于V(D)J区的序列之间的相关性。可以对相关性作图。在一些情况下，可以在测序之前从区室中移出cDNA、标记的gDNA和/或其扩增子，将其合并测序。细胞特异性条形码序列可以将从对免疫细胞进行分区的区室的产物或衍生物产生的测序读数与免疫细胞相关联。

在一些实施方案中，可以分析T细胞的染色质和T细胞受体(例如，ATAC-seq和/或T-ATAC-seq)。T细胞可以被收集、分区、裂解并进行转座。在转座酶处理和反应淬灭后，可以对样品进行逆转录和使用包括多个V-α和V-β区引物和C-α和C-β引物的引物混合物进行PCR。这些过程可以在微流体芯片中进行。例如，自动微流体平台Fluidigm可用于单细胞捕获、裂解和下游处理。

可以进一步扩增收获的文库。例如，当检查T细胞时，可以使用T细胞受体(TCR)引物。此后，该样品的等分试样可用作后续的PCR反应的模板。后续的PCR反应可以是巢式PCR反应，例如使用针对TCRV-α、TCRV-β、TCRC-α和TCRC-β引物的引物。这些反应的产物随后可用作PCR反应的模板，其掺入条形码而使得能够测序。

文库的纯化可以通过选择所选的核苷酸片段来获得。核苷酸片段可以通过其大小、等电点或其他生物化学或生物物理特性来选择。例如，可以通过使用聚丙烯酰胺凝胶电泳并选择所需大小的片段来按大小纯化核苷酸片段。

在条形码化之后，可以纯化来自PCR的扩增子并测序以形成文库。在测序之前，可以额外扩增和/或定量文库。

可以设想T-ATAC-seq数据的各种应用。在一个非限制性实例中，可以将永生化的白血病T细胞中的表观基因组特征与来自健康患者的原代人T细胞和白血病患者的原代人T细胞的表观基因组特征进行比较。来自T-ATAC-seq的数据可用于例如鉴别T细胞中的白血病和非白血病调节途径。在一些情况下，T-ATAC-seq可以鉴别从集合或批量测量中不易发现的癌症克隆特异性表观基因组特征。在另一个应用中，群体中T细胞的异质性可以例如通过鉴别幼稚相对记忆T细胞状态的顺式和反式调节子来表征。细胞间变异性和中间表观基因组表型还可以在单个细胞中表征，这通常被批量测量所掩盖。鉴别TCR-α-β编码序列也可能有助于理解单个T细胞的身份，并有助于发现克隆基因调节途径。类似地，T-ATAC-seq可用于分离来自同一个体的细胞中的克隆和非克隆调节途径。因此，对于本领域技术人员而言明显的是，T-ATAC-seq可以使得能够分析克隆T细胞中的表观基因组概况，并且在与T细胞恶性肿瘤、免疫和免疫疗法有关的研究中可能是有价值的。

图1示出了用于T-ATAC-seq的示例方案和/或工作流程100。使用微流体单细胞捕获机构104，例如在本文中其他地方所述的集成流体回路或分区机构中发现的那些，在微流体芯片中分离单个T细胞102。芯片可以包括多个腔室。对T细胞依次进行与ATAC-seq有关的操作108，包括裂解108a(或分离细胞核)，释放108b转座酶，启动标记反应以生成标记的gDNA片段，并淬灭108c标记反应。淬灭之后，对TRA和TRB转录物进行逆转录110。然后扩增112标记的gDNA片段和cDNA，和/或其扩增子(例如，ATAC-seq和TCR-seq扩增子)。然后，任选地，用细胞鉴别条形码114a、b扩增单细胞文库，并将其合并116a、b。通过高通量测序分析扩增子。

该方法的一些实施方案可涉及制作细胞基因组区域的表观遗传图谱。可以通过将从序列读数获得的信息映射到区域来完成此操作。在这些情况下，可以对序列读数进行计算机分析，以产生许多数字输出，这些数字输出被映射到感兴趣区域的呈现(例如，图形呈现)。如下面将更详细解释的，可以映射许多类型的信息，包括但不限于：(i)转座酶的切割位点；(ii)步骤a)中产生的片段的大小；(iii)片段长度；(iv)长度在限定范围内的序列读数的位置；(v)序列读数丰度；以及(vi)转录因子偏差。

在一些情况下，从T-ATAC-seq获得的数据可用于区分细胞亚型。例如，图10显示了集合T细胞亚型的表观基因组概况的图。图10展示了主成分分析(PCA)，其显示了T细胞亚群(例如，幼稚和记忆T细胞亚型)的不同染色质状态。列出了每个PC解释的变异的百分比(1002，1004)。然后，可以在集合ATAC-seq数据上训练主成分，以去除可能在分选后残留的污染性非T细胞。显示了来自CD4+T细胞亚型的集合ATAC-seq谱的PCA。

可以对序列读数进行计算机分析，以鉴别片段的末端(从其可以推断转座子切割位点)。在这些实施方案中，片段的一个末端可以由在测序读数的开始处的序列定义，而片段的另一末端可以由在第二个测序读数的开始处的序列定义，其中通过配对末端测序(例如，使用Illumina的测序平台)获得第一和第二测序读数。通过检查更长的序列读数的开始和末端可以获得相同的信息(从理论上讲，其应该具有两个衔接子的序列；一个在一端，另一个在另一端)。在这些实施方案中，单个序列读数可以包含两个衔接子序列，在这样的情况下，可以从单个序列读数中推断片段的两端(其对应于两个单独的转座酶的两个切割位点)。片段的长度可以通过例如将片段末端映射到感兴趣区域的核苷酸序列上，并计数那些位置之间的碱基对的数目来计算。所使用的信息可以使用序列读数的开始和/或末端的核苷酸序列获得。

在一些情况下，可以按长度将序列读数分组。在一些实施方案中，一些序列可以基于其大小被注释为无核小体的序列(即，来自被预测为在核小体之间的片段的序列)。也可以鉴别与单核小体、二核小体和三核小体相关的读数。可以使用图4中所示的数据确定这些截止值。片段长度(提供与序列读数长度相同的信息)也可以以相同的方式进行处理。在一些情况下，可以计算序列读数丰度，即在序列读数中呈现基因组区域中特定序列的次数。

所得的表观遗传图谱可以提供感兴趣区域中染色质的分析。例如，根据所映射的信息，该图谱可以显示以下一项或多项：沿该区域的染色质可及性的谱；该区域中某个位点的DNA结合蛋白(例如，转录因子)占据；该区域中的无核小体的DNA；沿该区域的核小体定位；以及沿该区域的染色质状态的谱。在一些实施方案中，该方法还可以包括测量DNA结合蛋白对结合位点的整体占据，例如，通过聚集一种DNA结合蛋白在该蛋白质结合的多个位点上的数据。在一些情况下，该图谱还可以用序列信息和有关序列(例如，启动子、内含子、外显子、已知的增强子、转录起始位点、非翻译区、终止子等的位置)的信息进行注释，以便可以在具有注释的背景中查看表观遗传信息。

在一些情况下，表观遗传图谱可包括转录因子(TF)偏差的一个或多个计算的一个或多个呈现。TF偏差可以通过计算原始可及性偏差来执行，即从观察到的每个单个细胞的峰中ATAC-seq读数的数量减去预期的给定基序的峰中ATAC-seq读数的数量。然后可以从实验中所有细胞的群体平均数计算出预期的读数。可以对偏差值进行偏倚校正(例如，减去使用相似的可及性和GC含量计算出的平均偏差)。在一些情况下，可以将偏差值除以背景的标准偏差以获得Z得分。设想了数据分析、峰处理、峰分类和数据处理的其他方法。

在一些实施方案中，表观遗传图谱可以提供有关活性调节区和/或与调节区结合的转录因子的信息。例如，可以从产生的测序读数的长度推断出核小体的位置。可替代地，可以从产生的测序读数的大小、分布和/或位置推断转录因子结合位点。在一些情况下，可以从产生的测序读数中推断出新的转录因子结合位点。在其他情况下，可以从产生的测序读数中推断出新的转录因子。

本文提供了用于处理细胞的方法的一些实施方案。在一个方面，提供了一种方法，其包括：(a)标记一个或多个细胞核中的可及基因组DNA以产生标记的基因组DNA，(b)终止标记反应，以及(c)在操作(b)之后，向一个或多个细胞添加引物、逆转录酶和dNTP，以逆转录一个或多个细胞中的RNA以产生cDNA。

在一些实施方案中，该方法在单个容器或区室中进行。在一些实施方案中，通过将反应终止剂与操作(a)的反应物混合来完成操作(b)，并且通过向操作(b)的反应物中添加引物、逆转录酶和dNTP来完成操作(c)，而无需将任何反应物转移到第二容器或区室。

在一些实施方案中，通过将一个或多个细胞与去污剂、插入酶复合物(例如，转座酶复合物)和二价金属离子组合来完成标记操作(a)。在一些实施方案中，去污剂是非离子表面活性剂，例如乙氧基化壬基酚，例如NP-40。在一些实施方案中，终止操作(b)是通过螯合插入酶复合物(例如，转座酶复合物)所需的二价金属离子来完成的，从而终止反应并从标记的DNA释放插入酶复合物(例如，转座酶复合物)。在一些实施方案中，通过乙二胺四乙酸(EDTA)、次氮基乙酸(NTA)或二亚乙基三胺五乙酸(DTPA)进行螯合。在一些实施方案中，逆转录操作(c)包括向反应物中添加过量的二价金属离子。任何其他反应终止剂均可促进终止反应。标记反应(和/或其终止)和逆转录反应可以发生在相同的区室或不同的区室中。

在一些实施方案中，一个或多个细胞是哺乳动物细胞。在一些实施方案中，一个或多个细胞是单个细胞。在一些实施方案中，一个或多个细胞是多个细胞。

在一些实施方案中，(c)的引物是寡(d)T引物、随机引物或基因特异性引物。

在一些实施方案中，该方法包括在操作(c)之后，从细胞扩增标记的基因组DNA和cDNA。在一些实施方案中，通过PCR完成扩增。在一些实施方案中，标记的基因组DNA和cDNA被单独扩增。在一些实施方案中，该方法还包括对来自细胞的扩增的标记的基因组DNA和扩增的cDNA进行测序。在一些实施方案中，该方法还包括鉴别染色质结构和基因表达之间的相关性。

图2显示了饼状图，该饼状图指示来自通过质量控制过滤器的单个Jurkat细胞(n＝231个单细胞)的TCR-seq和ATAC-seq数据的重叠。饼状图显示了生成ATAC-seq谱的细胞的比例，其中还获得了TRA或TRB序列。204显示了其中获得ATAC-seq数据但未获得TRA或TRB数据的细胞部分。

图3显示了遵循质量控制过滤器的图。在小图A中，绘制了与来源于集合ATAC-seq谱的ATAC-seq峰中的片段的百分比相比，每个细胞中独特的ATAC-seq核片段的数量。小图B显示了与每个细胞的靠前克隆的TCR优势相比，来自TRA或TRB配对末端测序的读数计数。

图4显示了聚集(小图A)和单细胞T-ATAC-seq(小图B)谱特征的比较。显示了围绕TSS的ATAC-seq Tn5插入序列的富集402和ATAC-seq片段长度的核小体周期性404。在小图B中，显示了距单个细胞的TSS 406的距离的图，以及片段长度408的频率(计数)。片段长度408指示两个Tn5插入位点之间的基因组距离，如通过ATAC片段的配对末端测序确定的。

图5显示了细胞中TRA或TRB重排的热图。每个轴代表所示的TRA或TRB基因座内的所有可能的基因。标记的基因502指示使用T-ATAC-seq鉴别的序列。

图6展示了使用TCR-Seq克隆鉴别小鼠或人基因组。

图7A显示了从T-ATAC-seq产生的鉴别表观基因组特征的图。基因组轨迹比较聚集T-ATAC-seq谱706与集合ATAC-Seq 704和DHS-seq 702谱。图7B显示了图7A的基因组轨迹的放大图。

图8显示了与先前公开的其他细胞类型804相比，使用T-ATAC-seq获得的Jurkat细胞802的转录因子(TF)偏差z得分的热图。对于已鉴别的CDR3区域呈现示例性单字母氨基酸序列806。

图9显示了热图902，其显示了包含来自聚集的单细胞的所示的基序的峰(行)中的ATAC_seq片段计数。904显示了聚集的T-ATAC-seq数据的基因组轨迹。

图10显示了集合T细胞亚型的表观基因组概况的图。显示了来自CD4+T细胞亚型的集合ATAC-seq谱的PCA。列出了通过每个PC解释的变异百分比(1002，1004)。

图11显示了集合T细胞亚型的表观基因组概况的图。该图显示了不同T细胞亚型的不同ATAC-seq峰。

图12是展示最高改变的ATAC-seq峰的簇的热图。

图13显示了从ATAC-seq获得的免疫学特征。在小图A中，显示了从GREAT分析获得的调节性T细胞特异性ATAC-seq的MsigDB免疫学特征。在小图B中，显示了T_H1特异性ATAC-seq峰的MsigDB途径特征。在小图C中，显示了集合ATAC-seq基因组轨迹数据。

图14显示了在降采样至10,000 1404或1,000 1406个片段之后，集合ATAC-seq谱1402和集合ATAC-seq谱的PC得分的皮尔逊相关性的图。热图表明，可以将CD4+T细胞亚型谱彼此区分开。

图15显示了在原代人T细胞中进行T-ATAC-seq分析的工作流程。通过与集合参考ATAC-seq谱的相似性，将单细胞依次分类1502为主要血液谱系以及随后分类为T细胞亚群。使用ATAC-seq数据分析来自分类的单个T细胞的T-ATAC-seq数据1504在调节性DNA元件处的可及性和TF活性，以及TCR(TRA和TRB)序列身份1506。然后进行整合分析以鉴别T细胞克隆中的基因组特征1508。

图16显示了各种T细胞的t-SNE投影。

图17显示了聚集的单细胞群体中TF偏倚校正的偏差富集的图。将TF富集计算为两个单细胞群之间的平均TF基序可及性的差异。显示了与单核细胞1702相比的所有T细胞1704的富集，与幼稚T细胞1706相比的记忆T细胞1708的富集，以及与记忆T细胞1708相比的T_H17 1710细胞的富集。轴表示–log(P值)1710和平均TF可及性的差异1712。

图18显示了单个T细胞的t-SNE投影的图，其突出显示了ZBTB7B、STAT1、RORA和FOSL2的基序可及性TF z得分。

图19显示了针对聚集的T_H17细胞相对聚集的幼稚细胞中的差异以及针对聚集的记忆细胞相对聚集的幼稚细胞排序的平均偏倚校正偏差。在每个象限中显示了选定因子的TF基序。从这些图中可以看出，BATF基序1902显示出在记忆T细胞和T_H17细胞中增加的可及性。相比之下，RORA基序1904显示出在T_H17细胞中增加的可及性，但在记忆T细胞中则没有。

图22显示了来自白血病患者的T细胞样品中的T-ATAC-seq分析的工作流程。首先根据TCR序列身份将单个细胞分类为白血病细胞或非白血病细胞。然后，针对调节性DNA元件处的可及性和TF活性对来自分类的单个T细胞的ATAC-seq数据进行分析。

图23在小图A中显示了来自患有Sézary综合征的患者的外周血样品中TRB重排的热图。小图B显示了与所有其他T细胞相比，在聚集的克隆T细胞中的TF偏倚校正的偏差富集。显示的是推定的白血病T细胞克隆中鉴别出的TCR(TRA和TRB)序列(上部)。TF富集(下部)计算为同一患者中聚集的白血病T细胞克隆谱与非克隆T细胞谱之间的平均TF基序可及性的差异。指示了在T细胞克隆中富集或耗竭的所选TF基序。使用双尾t检验(n＝139个细胞，n＝3个独立实验)计算P值。

图24显示了来自健康个体的幼稚和记忆T细胞(n＝320个细胞，n＝6个独立实验)和患者细胞(n＝139个细胞，n＝3个独立实验)的t-SNE投影，按细胞ID、克隆相对非克隆细胞、BATF TF得分和GATA3 TF得分进行着色。比例尺指示TF z得分的范围。

图25显示了峰中包含所示基序2502的ATAC-seq片段计数的热图。标记指示了与差异峰相关的基因，包括先前显示在具有CTCL的个体中发生突变的基因2504。

图26显示了从GREAT分析获得的TRB7-9特异性ATAC-seq峰的MSigDB扰动特征。针对CD26+和CD26–CD4+T细胞2602以及每个群体2604中的克隆TCR谱分选细胞。CD26表达的缺乏先前已被用来区分白血病细胞和非白血病细胞。相对于CD26+细胞(n＝49个单细胞)，聚集的CD26–细胞(n＝56个单细胞)中的TF偏倚校正的偏差富集。使用双尾t检验计算P值。在图23B中的虚线上方鉴别的TF被标记为2606。

图27显示了相对于CD26+细胞(n＝49个单细胞)，聚集的CD26–细胞(n＝56个单细胞)中TF偏倚校正的偏差富集。使用双尾t检验计算P值。

图28显示了概述在IFC中的每个微流体腔室中发生的生物化学反应的T-ATAC-seq方案。微流体腔室表示为方框。

图29显示了分选前2902和分选后2904的Jurkat细胞的FACS分析。针对单个活细胞分选细胞，然后装载到IFC中。数字代表所示的门内的细胞百分比。

图30显示了在单个实验(96个细胞)中单个Jurkat细胞的ATAC-seq质量测量。该图显示了每个单个细胞的独特核ATAC-seq片段3002和读数对齐率3004。比较了Jurkat细胞上三个独立的T-ATAC-seq实验的单个细胞的ATAC-seq片段数3006与TSS富集率3008。虚线3010表示每个细胞500个独特核片段的质量过滤器。

图31小图A显示了来自三个单独的T-ATAC-seq实验的单个Jurkat细胞中的ATAC-seq片段3102和TCR-seq配对末端读数3104的比较。虚线表示针对ATAC-seq数据的500个独特核片段和针对TCR-seq数据的100个读数的质量过滤器。小图B显示了Jurkat细胞中TCR-seq质量控制测量。显示的是单个细胞中的TCRα读数3106或TCRβ读数3108以及主要TCR克隆的相关优势。底部图3110、3112显示了Jurkat TCR的CDR3序列和基因使用。

图32显示了在其中获得TCRα3202、TCRβ3204或ATAC 3206序列的所有细胞中，单细胞TCR-seq和ATAC-seq数据的重叠。

图33小图A显示了来自单个Jurkat细胞的T-ATAC-seq数据3302、来自单个Jurkat细胞的scATAC-seq 3304数据以及来自先前公开的单个GM12878 3306、H1 ESC 3308和K562细胞3310的scATAC-seq数据的t-SNE投影。小图B显示了小图A中描述的单个细胞中TF偏差z得分的皮尔逊相关性。小图C显示了小图A中描述的聚集的单细胞群体中的TF偏倚校正的偏差富集。K562细胞中的TF偏倚校正的偏差富集与H1 ESC进行比较，以及在小图D中，Jurkat细胞与GM12878细胞进行比较。TF富集计算为两个单细胞群体之间的平均TF基序可及性的差异。使用双尾t检验计算P值。

图34小图A显示了Jurkat细胞与聚集的单个细胞相比，集合ATAC-seq数据中TF z得分的Spearman相关性3402的图。在每个比较中聚集的单细胞3404的数量在x轴上记录。细胞是从3个独立的实验中获得的。小提琴图中的深黑盒从25％扩展到75％，小提琴的边界是最大值和最小值。小图B显示了与聚集的单细胞中的片段计数相比，Jurkat细胞中集合ATAC-seq数据中ATAC-seq峰中的片段计数的皮尔逊相关性。在每个比较中聚集的单细胞的数量在x轴上记录。细胞是从3个独立的实验中获得的。小提琴图中的深黑盒从25％扩展到75％，小提琴的边界是最大值和最小值。

图35显示了预门控的活细胞的直方图。数字代表所示的门内的细胞百分比。

图36显示了CD4+T细胞亚型的分选后纯度的图。数字代表所示的门内的细胞百分比。

图37显示了T-ATAC-seq数据质量控制过滤器。显示了与来源于集合T细胞ATAC-seq数据的ATAC-seq峰3704中的片段的百分比相比，每个单个原代T细胞中独特的ATAC-seq核片段3702的数量(小图A)。小图B显示了四个细胞的个体单细胞谱。单细胞显示出在转录起始位点(TSS)上的富集以及ATAC-seq片段长度的核小体周期性。片段长度表示两个Tn5插入位点之间的基因组距离，如由ATAC片段的配对末端测序确定的。

图38小图A显示了来自单个细胞中的T-ATAC-seq的TCR-seq谱的质量测量图。显示了与每个细胞中的TCR读数优势3806相比，每个单个细胞中的TCRα读数3802和TCRβ读数3804。小图B显示了用于产生TCR数据的示例序列。

图39显示了单个细胞(x轴；879个单个细胞)和集合细胞(y轴；93个集合细胞类型)的PC得分的皮尔逊相关性。集合细胞类型来源于此研究产生的数据(T细胞亚型，3个独立实验)以及来源于Corces等人(2016)9。

图41小图A显示了针对集合T细胞ATAC-seq谱的TF偏差z得分的热图。小图B显示了与所有其他亚型中计算的平均TF z得分相比，每种T细胞亚型的排序的TF基序z得分。

图42显示了在TH17细胞相对所有其他T细胞亚型4202和在TH1细胞相对所有其他T细胞亚型4204中TF偏差z得分富集(均值差)的比较。将每种亚型中TF的富集与其在所有的T细胞记忆亚型中与幼稚细胞4206相比的富集进行比较。

图43显示了分选的单个幼稚、记忆和TH17 T细胞的t-SNE投影。细胞通过LEF1、IRF7、PRDM1和RUNX1基序可及性TF得分着色。比例尺指示TF z得分的范围。

图44显示了单个幼稚4402、记忆4404和TH₁₇ 4406细胞中TF基序可及性的细胞间改变。显示的是在分选的T细胞群体中观察到的TF变异性和误差估计(灰色阴影)。从置换的背景测得的变异性以灰色圆点显示用于进行比较(有关背景计算的详细信息参见方法)。选定的高变异TF由箭头指示。

图45显示了单个T细胞的t-SNE投影。幼稚T细胞(左)或TH17细胞(右)通过在该细胞中获得的独特核ATAC-seq片段的数量阴影化。浅灰色细胞是T细胞的其他群体(包括记忆T细胞和CTCL细胞)。这些图表明，幼稚T细胞不同的簇不是每个细胞获得的ATAC-seq片段中的差异的副产物。对于每个亚型，突出显示的细胞获自2个独立实验。

图46显示了单个幼稚、记忆和TH17细胞的TF偏差z得分的皮尔逊相关性。与典型T辅助细胞表型相关的TF模块显示在右侧。

图47显示了使用T-ATAC-seq和来自同一样品的ImmunoSEQ分析(AdaptiveBiotechnologies)对克隆的CTCL细胞中获得的TCRβ序列进行确认。

图48显示了CD26+和CD26-CTCL细胞的代表性FACS策略和分选后纯度。将外周CD4+血细胞染色以用于所示的标志物的表达。数字代表所示的门内的细胞百分比。对细胞进行双重分选以确保所需群体的高纯度。数据代表3个独立实验。(c)CTCL患者#2和#3中的CD26+和CD26-CD4+T细胞群体中存在扩增的TCR克隆。

图49显示CTCL患者#2和#3中CD26+和CD26-CD4+T细胞群体中存在扩增的TCR克隆。

图50显示了与所有其他T细胞相比，来自患者#2的聚集的克隆T细胞的TF偏倚校正的偏差富集(左)。与CD26+细胞相比，聚集的克隆细胞中的TF偏差富集在CD26-细胞中没有富集(右)。

图51小图A显示了来自tcr.buenrostrolab.com的浏览器屏幕截图，其中显示了下拉菜单选项来导航单细胞TF偏差得分和TCR序列。小图B显示了示例屏幕截图，显示了具有TRBV12-3身份(左)并用TCF4 TF偏差z得分着色(右)的单细胞。

图52显示了描述传统CRISPR筛选的示意图。

扰动索引单细胞ATAC-Seq(扰动-ATAC-Seq)

本公开内容的另一方面提供了用于高通量同时测量单细胞中的CRISPR扰动和染色质状态的系统、方法和组合物。本文描述的方法和系统可以将ATAC-seq和扰动测序(扰动-seq)和/或其各个方面结合起来。这样的方法在本文中通常可称为使用测序的转座酶可及染色质的扰动索引测定(扰动-ATAC-seq或扰动-ATAC)。在一些情况下，使用扰动-ATAC，其中通过引入CRISPR指导RNA来扰动包含一个或多个细胞的细胞样品，以及然后针对通过ATAC-seq同时检测的CRISPR指导RNA和开放染色质位点进行分析。有益的是，扰动-ATAC可能揭示控制表观基因组状态的调节因子。在一些情况下，扰动-ATAC可能揭示控制顺式元件可及性和/或反式作用因子占据的调节因子。在一些情况下，扰动-ATAC可能揭示核小体的定位。在一些情况下，扰动-ATAC可能揭示细胞类型中协调活性(例如，协调的反式作用因子活性、顺式元件上共结合TF的协同活性等)的调节模块。在一些情况下，以高通量的方式执行扰动-ATAC，并且可以获得包括表观基因组变异性的单细胞数据。

在一些实施方案中，将选择的扰动(即，CRISPR抑制)应用于细胞或细胞群。在其他实施方案中，可以执行无偏扰动以揭示在生物学过程中发生的不同的反式作用因子活性，例如，细胞分化、转移、迁移等。对受扰动的因子及其对应的靶区域的全局分析可以揭示相互关联的调节网络，其产生以其他方式无法从单个靶标扰动获得的信息。

扰动-ATAC可用于推断各种基因型-表型关系。在一些情况下，扰动-ATAC应用于转录因子。在非限制性实例中，扰动-ATAC还可以应用于染色质修饰因子和非编码RNA。可以使用扰动-ATAC测定因子的组合。

在一些情况下，扰动-ATAC可用于揭示控制细胞行为的TF的分层次组织。例如，可以从扰动-ATAC推断细胞状态、细胞变异、细胞命运、细胞病理学(例如，疾病相关的顺式调节元件)、TF的上位性关系、TF的基因组共定位和/或TF的协同和/或抑制性相互作用。还可以使用扰动-ATAC分析发育和疾病中的基因调节网络。在一些情况下，扰动-ATAC可以发现建立作为发育、分化、细胞-细胞和/或细胞-基质相互作用以及细胞-环境反应的基础的基因表达模式的表观遗传相互作用。在一些情况下，扰动-ATAC可用于鉴别受到给定细胞的扰动影响和/或驱动不同细胞状态的基因靶标、基因特征、转录因子、调节因子和/或细胞状态。

提供了用于处理细胞的方法。所述方法可以包括捕获细胞，其中所述细胞包含基因组脱氧核糖核酸(gDNA)和指导核糖核酸(gRNA)分子或其gRNA鉴别条形码，使来自所述细胞的可及gDNA与转座酶接触以在标记反应中产生标记的gDNA片段，并从gRNA分子或其gRNA鉴别条形码生成互补DNA(cDNA)分子。

细胞可以是本文所述的任何类型的细胞。例如，细胞可以是免疫细胞，如本文其他地方所述。该细胞可以不是免疫细胞。尽管本文描述的一些方法参考扰动-ATAC描述了B细胞的处理，但应理解，该方法可适用于和/或适应于其他类型的细胞，包括其他免疫细胞和非免疫细胞。细胞可以来自任何来源，如本文其他地方所述。

在一些情况下，可以从多个细胞中分离和/或捕获细胞。在一些情况下，细胞可以是从多个细胞分离和/或捕获的细胞的亚群之一。分离和/或捕获可以是在一个或多个阶段中。例如，在一个阶段中，可以针对细胞的类型对多个细胞进行分类。在下一阶段中，可以分离细胞类型的亚型。在一些情况下，分离可以包括磁性细胞分选。在一些情况下，分离可包括流式细胞术分选。例如，这样的方法可以用于在至少两种或更多种以下类型的细胞之间的分选：干细胞、癌干细胞、血细胞、T细胞、树突状细胞、NK细胞、前体细胞、粒细胞、血小板、红细胞、内皮细胞、上皮细胞或其亚群。可以使用针对细胞表面标记的抗体进一步分离细胞亚群。

在一些实施方案中，在通过FACS或MACS进行分析(例如，t-ATAC-seq、扰动-ATAC)之前，基于转导的标记物对细胞进行预分选。例如，可以用荧光蛋白(例如，GFP、YFP、CFP、mCherry、mRuby等)转导细胞。在一些情况下，可以用sgRNA盒转导荧光蛋白。表达sgRNA盒的细胞的选择可以通过预分选机制进行。在一些情况下，可以使用一个或多个选择标记物。例如，可以用抗药性(例如，嘌呤霉素、杀稻瘟素抗性)基因转导细胞以选择sgRNA载体。

多个细胞可以包括任意数量的细胞，例如，约500至约10⁶或更多个细胞、约500至约100,000个细胞、约500至约50,000个细胞、约500至约10,000个细胞、约50至1000个细胞、约1至500个细胞、约1至100个细胞、约1至50个细胞、或单个细胞。在一些情况下，多个细胞可以由少于约1000、约2000、约3000、约4000、约5000、约6000、约7000、约8000、约9000、约10,000、约15,000、约20,000、约25,000、约30,000、约40,000、约50,000、约60,000、约70,000、约80,000、约90,000、约100,000、约120,000、约140,000、约160,000、约180,000、约200,000、约250,000、约300,000、约350,000、约400,000、约450,000、约500,000、约600,000、约700,000、约800,000、约900,000、或约1,000,000个细胞组成。在其他情况下多个细胞可以包含多于约1000、约2000、约3000、约4000、约5000、约6000、约7000、约8000、约9000、约10,000、约15,000、约20,000、约25,000、约30,000、约40,000、约50,000、约60,000、约70,000、约80,000、约90,000、约100,000、约120,000、约140,000、约160,000、约180,000、约200,000、约250,000、约300,000、约350,000、约400,000、约450,000、约500,000、约600,000、约700,000、约800,000、约900,000、或约1,000,000个细胞。

细胞的捕获可以包括将细胞分区为区室。区室可以是本文其他地方描述的任何区室，例如，腔室、孔、微孔或液滴。区室可以在一组限定的边界(封闭或部分封闭)内包含细胞，和/或将区室内的空间或体积与其他区室或区室外部的任何空间或体积区分开。在一些情况下，区室可能会阻止其内容物在一种或多种情况下逃逸该区室。在一些情况下，区室可能会阻止外部对象在一种或多种情况下进入区室。区室可以是单独的区室，例如单独的孔或单独的腔室或单独的液滴。区室可以是多个区室之一，例如在集成装置诸如流体芯片中。

用于ATAC-seq的方法通常可以例如根据本文其他各处所述的一种或多种方法在经分区的细胞上进行，以产生标记的gDNA片段。

在产生标记的gDNA片段之后，并且在使用gRNA分子开始逆转录反应之前，可以抑制或淬灭标记反应，例如使用氯化镁，或以其他方式终止标记反应。在一些情况下，标记操作可以包括使用去污剂、插入酶复合物(例如，转座酶复合物)和细胞的二价金属离子。在一些情况下，去污剂可以是非离子表面活性剂，例如乙氧基化壬基酚，例如NP-40。在一些情况下，终止可以通过螯合插入酶复合物(例如，转座酶复合物)所需的二价金属离子来完成，从而终止反应并从标记的DNA释放插入酶复合物(例如，转座酶复合物)。在一些情况下，螯合可以通过乙二胺四乙酸(EDTA)、次氮基乙酸(NTA)或二亚乙基三胺五乙酸(DTPA)或其他螯合剂来完成。任何其他反应终止剂均可促进终止反应。标记反应(和/或其终止)和逆转录反应可以发生在相同的区室或不同的区室中。

在已将染色质片段化并标记以产生标记的基因组DNA片段之后，可以对至少一些衔接子标记的片段或其衍生物(例如，扩增子)进行测序以产生多个序列读数。可以使用任何方便的方法对片段进行测序。例如，可以使用Illumina的可逆终止子方法、Roche的焦磷酸测序方法(454)、Life Technologies的连接测序(SOLiD平台)或Life Technologies的Ion Torrent平台对片段进行测序。在以下参考文献中描述了这样的方法的示例：Margulies等人(Nature 2005 437:376–80)；Ronaghi等人(Analytical Biochemistry1996 242:84–9)；Shendure等人(Science 2005 309:1728-32)；Imelfort等人(BriefBioinform.2009 10:609-18)；Fox等人(Methods Mol Biol.2009；553:79-108)；Appleby等人(Methods Mol Biol.2009；513:19-39)和Morozova等人(Genomics.2008 92:255-64)，其通过引用并入本文以作为方法和方法的特定步骤的一般描述，包括每个步骤的所有起始产品、文库制备方法、试剂和最终产品。与选定的下一代测序平台兼容的正向和反向测序引物位点可以在扩增步骤中添加到片段的末端。

可以使用引物(例如，聚合酶链反应(PCR)引物)扩增标记的gDNA片段。在一些情况下，引物可以与标记的gDNA片段中的一个或多个衔接子序列杂交。在一些情况下，用于PCR的引物可以具有与特定测序平台兼容的5'尾部。在一些情况下，所用的引物可包含细胞特异性条形码序列，以便在测序之前可以将不同的库(例如扩增子的)合并在一起，并且可以使用细胞特异性条形码序列将序列读数追溯到特定样品。

可结合扰动-seq和/或其各方面进行ATAC-Seq和/或其各方面。例如，在标记反应被淬灭或以其他方式终止之后，可以使gRNA分子经历逆转录反应以产生cDNA分子。该方法可以包括使用引物和逆转录酶产生cDNA分子。

对细胞的扰动可以通过用扰动-ATAC载体(即成簇的规则间隔的短回文重复序列(CRISPR)指导RNA(gRNA，如本文所用，也称为单gRNA(sgRNA)))转导细胞来实现。可以针对每个靶基因设计gRNA，并且可以靶向转录起始侧和基因体之间的不同区域。可以将载体克隆、扩增并组装成慢病毒载体。可以对gRNA序列进行测序以确认身份。gRNA的产生是已知的，并在例如Adamson,B.等人,A Multiplexed Single-Cell CRISPR Screening PlatformEnables Systematic Dissection of the Unfolded Protein Response.167 Cell 1867-82.e21(2016)；和S.W.Cho等人Promoter of lncRNA Gene PVT1 Is a Tumor-SuppressorDNA Boundary Element,173 Cell 1398-1412.e22(2018)中进行了描述，其各自通过引用整体并入本文。

条形码可以被添加至gRNA载体。条形码可以是包括条形码序列的gRNA鉴别条形码。这样的条形码序列可以对应于由载体编码的gRNA的身份，例如，用于在混合gRNA靶向的细胞的群体用于高通量分析之后鉴别个体细胞中的gRNA。条形码序列可以是任何长度。例如，条形码序列的长度可以为至少约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19，20、21、22、23、24、25、26、27、28、29、30个或更多个碱基对(bp)。可替代地或另外，条形码序列可以具有至多约60、50、40、30、20、10或更少bp的长度。在一些情况下，可以在细胞的一个亚群中转导非人基因组靶向gRNA。在一些情况下，可以将细胞与一种或多种gRNA一起转导以稳定表达dCas9-KRAB。然后可以在转导后合并细胞以进行扰动-ATAC分析。在一些情况下，可以评估配对条形码检测与表观遗传表型测量的保真度。

gRNA分子可以附接在条形码上。条形码可以包括条形码序列，该条形码序列可以鉴别其所附接至的gRNA分子的身份。具有不同靶序列的每个gRNA可以具有在具有不同靶序列的其他gRNA之间独特的条形码序列。在一些情况下，gRNA分子可以包含靶序列，该靶序列被配置为靶向与转录因子、染色质修饰剂、非编码RNA或其他复合物相关的序列。在一些情况下，引入细胞中的gRNA分子可以包含相同的靶序列。在其他情况下，引入细胞中的gRNA分子可以包含不同的靶序列。例如，第一gRNA分子可包含第一靶序列，第二gRNA分子可包含第二靶序列。

将gRNA引入细胞后，可以使用转座酶(例如，Tn5)对细胞进行裂解和DNA转座。转座后，Tn5可从开放的染色质片段中释放，并可以对CRISPR指导RNA(gRNA)或其gRNA鉴别条形码进行逆转录。可以在gRNA(例如直接地)和/或其gRNA鉴别条形码上进行逆转录以产生cDNA分子。可以对gRNA和/或其gRNA鉴别条形码进行逆转录以产生cDNA分子。可以根据gRNA鉴别条形码的已知列表或表格来处理从gRNA鉴别条形码生成的cDNA生成的测序读数。可以针对gRNA(例如其序列)的已知列表或表格处理直接从gRNA生成的cDNA生成的测序读数。例如，在所使用的载体构建体不包括gRNA鉴别条形码的情况下，可以使用这样的方法。可以使用分别靶向gRNA或gRNA鉴别条形码侧翼(或以其他方式相邻)的序列的引物序列进行逆转录。

例如，在直接对gRNA进行逆转录的情况下，可以使用与gRNA的共同3'末端匹配的反向引物进行逆转录。之后，可以延伸ATAC-seq片段。然后可以通过PCR扩增腔室的内容物。在一些情况下，PCR扩增可以包含与实验中使用的gRNA的可变5'末端匹配的正向引物。然后可以收集单细胞文库，并用可细胞鉴别条形码化引物进一步扩增gRNA和/或ATAC扩增子，将其合并以及测序。例如，图92显示了用于指导RNA身份的直接测序读出的sgRNA表达载体和文库扩增的示意图。如图92所示，可以从包含gRNA的可变区和共同区的mRNA分子产生cDNA，其中逆转录反应使用与gRNA的共同3'末端相对应的反向引物。然后，在PCR扩增过程中(例如“PCR 1”)，可以使用与gRNA的可变5'末端相对应的正向引物。可以进行进一步的延伸反应(例如，通过聚合酶链反应(PCR))(例如，“PCR 2”；“PCR 3”)，以产生包含细胞鉴别条形码序列的衍生物。

在另一个实例中，在对gRNA鉴别条形码进行逆转录的情况下，在逆转录反应中使用的引物可以对应于(和/或靶向)在gRNA鉴别条形码侧翼的序列。例如，图55显示了用于产生对应于gRNA鉴别条形码的测序读数的示意图。如图55所示，可以从包含gRNA鉴别条形码的mRNA分子产生cDNA，其中逆转录反应使用靶向条形码的3′末端侧翼的序列的引物。然后，在PCR扩增期间(例如“PCR 1”)，可以使用与条形码的5'末端侧翼的序列相对应的正向引物。可以进行进一步的延伸反应(例如，通过PCR)(例如，“PCR 2”；“PCR 3”)，以产生包含细胞鉴别条形码序列的衍生产物。

cDNA(例如，来自gRNA和/或其gRNA鉴别条形码)和/或标记的gDNA片段可以在PCR反应中扩增，例如通过使它们与多个引物和聚合酶接触以产生cDNA分子扩增子和/或标记的gDNA片段扩增子。在一些情况下，cDNA的扩增子和标记的gDNA片段的扩增子可以包含鉴别细胞的细胞特异性条形码序列。在一些情况下，可以从标记的gDNA片段和cDNA分子的其他扩增子产生这样的含有细胞特异性条形码序列的扩增子。测序读数可以至少部分基于细胞特异性条形码序列而与细胞相关联。条形码分子可以在细胞分区之前、同时或之后递送。在一些情况下，条形码分子可以经由珠子(例如，凝胶珠)递送，如本文其他地方所述。

可以对cDNA(例如，来自gRNA和/或其gRNA鉴别条形码)、标记的gDNA和/或其扩增子进行测序以产生测序读数。这样的测序读数可用于确定细胞中的可及gDNA与对应于V(D)J区的序列之间的相关性。可以对相关性进行作图。在一些情况下，可以在测序之前从区室中移出cDNA、标记的gDNA和/或其扩增子，将其合并和测序。细胞特异性条形码序列可以将从对细胞进行分区的区室的产物或衍生物产生的测序读数与细胞相关联。

图53显示了扰动-ATAC的工作流程的示意图，以及图55显示了扰动-ATAC方案、慢病毒构建体以及用于指导RNA检测的测序文库的产生的示意图。如图55所示，将sgRNA分子引入多个细胞，对包含sgRNA分子的细胞进行分选(例如，使用FACS)，在区室中捕获单个细胞，进行染色质的ATAC-seq转座以产生标记的gDNA片段，对sgRNA分子进行逆转录以生成相应的cDNA分子，以及然后对cDNA分子和标记的gDNA片段进行扩增和测序。

在一些实施方案中，可以在扰动之后分析细胞的染色质可及性(即，扰动-ATAC)。例如，可以收集、分区、裂解细胞(例如，B细胞)并使其经受转座反应。在转座酶处理和反应淬灭后，可以对样品进行逆转录，并任选使用引物混合物进行PCR。这些过程可以在微流体芯片中进行。例如，自动微流体平台Fluidigm可用于单细胞捕获、裂解和下游处理。

可以进一步扩增收获的文库。例如，PCR可用于掺入条形码并使得能够测序。条形码化后，可以对来自PCR的扩增子进行纯化和测序，以形成条形码化gDNA和(sgRNA或鉴别sgRNA的)cDNA序列的文库。在测序之前，可以另外扩增和/或定量文库。

在一些实施方案中，可以评估给定细胞中条形码的存在或不存在。在一些情况下，可以指定截止值以指定给定细胞中条形码的存在或不存在。在一个非限制性实例中，可以对每个细胞中每个可能的条形码的读数数量进行计数，以及然后将其针对测序深度进行调整，例如以考虑在文库制备或测序期间的改变。在另一示例中，可以应用每个细胞1000个条形码读数的最小读数截止值来去除具有低覆盖率的细胞。具有高背景读数的细胞也可以被去除。另外，基于与第二最常见条形码匹配的条形码读数的百分比的截止值也可以用作截止值。

对本领域技术人员明显的是，扰动-ATAC可用于生物学发现中的多种应用。例如，扰动-ATAC可以鉴别染色质调节子、转录因子和非编码RNA的表观基因组功能。进行扰动-ATAC筛选可用于比较广泛表达的和谱系特异性的反式作用因子如何塑造细胞类型的染色质概况。扰动-ATAC还可以鉴别与不同类别反式作用因子的遗传扰动相关的表观基因组表型。例如，作为对照实验，接受非人基因组靶向条形码的细胞的集合ATAC-seq谱的分析可能预期导致染色质可及性的很少到没有改变；但是，使用靶向例如DNMT3a的gRNA的选择性扰动可能导致可及性的改变。

在一些情况下，可以对细胞施加多于一种扰动(即，施加多于一种gRNA)。扰动的组合然后通过ATAC-seq可以揭示例如转录因子如何共同发挥作用以在细胞中建立染色质概况。在非限制性实例中，扰动-ATAC还可用于鉴别单个细胞之间的共变调节网络、测量扰动对一个或多个调节网络的影响和/或推断受扰动的因子与调节网络中的组成因子之间的调节关系。在一个实例中，在单个细胞中针对因子的子集的双重扰动随后通过扰动-ATAC可以确定所有基因组特征之间的遗传相互作用的程度。具有多于一个扰动的细胞上的扰动-ATAC可用于将反式作用因子关系表征为“预期的”(即，基于每个扰动单独的作用的组合)或“非预期的”(即，非累加的，提示扰动之间的相互作用)。“非预期的”关系可能是协同作用、具有抵消作用或以非累加方式相互作用的反式作用因子。从多于一个扰动分析的上位性相互作用也可以用于筛选疾病相关的转录因子并映射表观基因组网络的相互作用。

在一些情况下，可以通过从ATAC-seq获得的片段大小推断全基因组核小体的占据和定位。反式作用因子(其可通过调节预先建立的无核小体区域中的TF的结合和/或通过改变局部核小体的位置或占据来控制基因座的可及性)的评估可能会产生其他信息。在一些情况下，ATAC-seq数据可以确定基因组区域的ATAC-seq信号的改变是否与核小体结构的改变相关，而不是与稳定核小体支架内TF结合的交换有关。

在一些情况下，扰动-ATAC分析可以提供关于病理过程的信息。例如，扰动-ATAC可以提供关于含有与人疾病相关的遗传变异的非编码区的调节子的信息。候选因子的选择性扰动可能揭示几种TF的疾病特异性活性。

在一些情况下，该方法可用于比较两个样品。可以通过分析第一细胞或第一细胞群体来产生第一表观遗传图谱。可以通过分析第二细胞或第二细胞群体来产生第二表观遗传图谱。可以针对彼此或相互比较、合并或以其他方式处理这两个表观遗传图谱。例如，可以将第一表观遗传图谱映射到第二表观遗传图谱，以便确定或表征染色质的可及性(例如，染色质开放性)或转录因子占据，任选地用于质量控制，任选地响应于靶基因的扰动，和/或其变化。在一些情况下，第一输入(第一细胞或第一细胞群)可以是第二输入(第二细胞或第二细胞群)的克隆，反之亦然。在一些情况下，第一输入和第二输入可以在不同时间从同一来源获得。在一些情况下，第一输入和第二输入可以从不同的来源获得。在一些情况下，第一输入和第二输入可以从同一来源(例如，个体)的不同位置或区域获得。在一些情况下，第一输入可以是处理前的输入，而第二输入可以是处理后的输入，例如通过用试剂(例如，测试剂)、药物、扰动剂等处理。在这种情况下，第一输入和第二输入可以是克隆或相同的群体，并且第二输入可以在进行本文所述的测定和/或方法之前在处理的情况下孵育。在一些情况下，例如，这些方法可用于确定测试剂的作用方式，以鉴别响应于药物的染色质结构或转录因子占据的改变。在一些情况下，两个样品之一可以是对照样品。

上文所述的方法还可以用于例如基于一个或多个表观遗传图谱来例如针对患者提供诊断和/或预后。

本文阐述的方法可用于对与改变的染色质或DNA结合蛋白占据有关的任何病况提供可靠的诊断。该方法可以应用于以表观遗传模式(例如，染色质可及性或DNA结合蛋白占据的模式)为特征的病况的表征、分类、区分、分级、分期、诊断或预后。例如，该方法可用于确定怀疑患有疾病或病况的个体的样品的表观遗传图谱与关于疾病或病况被认为“正常”的样品相比是相同还是不同。在特定的实施方案中，该方法可以涉及诊断具有以测试样品中特定基因座的表观遗传模式为特征的病况的个体，其中该模式与该病况相关。该方法还可以用于预测个体对疾病的易感性。

适用于使用本文阐述的方法进行分析的示例性病况可以是例如细胞增生性疾病或对细胞增生性疾病的易感性；代谢功能障碍或疾病；免疫功能失常、损伤或障碍；中枢神经系统功能失常、损伤或疾病；攻击性或行为障碍的症状；脑损伤的临床、心理和社会后果；精神障碍和人格障碍；痴呆症或相关综合症；心血管疾病、功能失常和损伤；胃肠道功能失常、损伤或疾病；呼吸系统功能失常、损伤或疾病；病变，炎症，感染，免疫力和/或康复；作为发育过程中的异常的身体功能失常、损伤或疾病；皮肤、肌肉、结缔组织或骨骼的功能失常、损伤或疾病；内分泌和代谢功能失常、损伤或疾病；头痛或性功能障碍及其组合。

在一些情况下，该方法可以提供预后以例如确定患者是否处于复发的风险。癌症复发是与多种类型的癌症有关的关注问题。预后方法可用于鉴别可能经历癌症复发的经外科治疗的患者，以便可为他们提供其他治疗选择，包括术前或术后辅助手段，例如化学疗法、放射疗法、生物修饰剂和其他合适的疗法。该方法对于确定在检查或手术时没有表现出可测量的转移癌的患者中的转移的风险特别有效。

该方法还可以用于确定患有疾病或病况的患者(例如患有癌症的患者)的适当治疗过程。治疗过程是指诊断后或治疗后对患者采取的治疗措施。例如，确定复发、扩散或患者存活的可能性可以帮助确定是否应该采用更保守或更激进的治疗方法，或者是否应当组合治疗方式。例如，当癌症可能复发时，可能有利的是在手术治疗之前或之后进行化学疗法、放射疗法、免疫疗法、生物修饰剂疗法、基因疗法、疫苗等，或者调整治疗患者的时间跨度。

图54显示了可以从扰动-ATAC数据中询问的生物学问题类别的概述。这些包括但不限于核小体定位5402、增强子可及性5404、启动子可及性5406和转录因子可及性5408。

图57显示了每个细胞的峰区域中的ATAC片段和ATAC片段的分数的散点图。显示了指示每个细胞中的指导条形码检测的标签。

图58显示了ATAC片段大小5804分布的密度5802直方图，其指示合并的单细胞(上图)和大块细胞(下图)中转录起始位点5808周围的ATAC插入的预期核小体定相和相对频率5806。

图59显示了SPI1基因的基因组基因座的图，指示DNA酶I超敏5902测序、批量ATAC-seq 5904和扰动-ATAC-seq5906。SPI1启动子区域在表达SPI1sgRNA 5908的细胞中表现出可及性的选择性丢失。

图60显示了鉴别为在批量ATAC-seq中改变的个体基因组区域的合并的单细胞的可及性的箱形图。*指示通过KS1173检验的p值<1e-3。

图61显示了含有SPI1基序的区域的相对可及性6102的图(SPI1基序的相对活性相对于所有其他基因组特征的z得分)。*表示通过置换测试的错误发现率<1e-3。

图62显示了每个细胞的总指导条形码测序读数的直方图。

图63显示了在每个细胞中鉴别出的第二最常见的指导条形码的直方图。分布的低端的细胞表达单个指导RNA 6302，而分布的高端的细胞表达两个指导RNA 6304。

图64显示了ATAC片段和片段在峰区域中的分数的散点图。细胞通过总的指导条形码读数阴影化。

图66显示了火山图，以鉴别携带非靶向指导和靶向EZH2 6602、SPI1 6604和EBER26606的指导的细胞之间显著改变的基因组特征(FDR<＝0.025)。右侧：平均可及性相对个体基因组峰的可及性的倍数改变的散点图。

图67显示了受扰动的因子(行)相对基因组注释(列)的热图，其指示了受扰动的细胞与非靶向对照细胞之间的可及性差异。仅显示在至少一种扰动中显著改变的注释。

图68小图A显示了指示显著改变的特征的数量的热图(绝对log2FC>＝1.5，平均读数/细胞>＝0.4)，图B显示了改变的基因组区域的数量(中值，绝对chromVAR偏差Z>＝0.75，FDR<＝.05)，或每个单个扰动在改变的峰处的侧翼与中心核小体占据的比率的定量(图C)。

图69显示了鉴别在细胞间表现出相关活性的基因组特征的示例工作流程。小图A显示了热图，其指示了一组基序的跨细胞的基序活性的相关性。小图B显示了非靶向对照细胞与受扰动的细胞的比较，其鉴别因扰动而改变相关性的基序对。小图C显示了功能关系限制假设的调节网络。

图75显示了与AP1和IKZF1的IRF8辅助因子活性的假设模型。

图77显示了基于整合在每个单敲低条件下的可及性的加性模型，在双敲低背景中计算预期可及性的示意图

图79显示了上位相互作用的观察到的7902相对预期的7904可及性的散点图。每个点代表两个受扰动的因子配对中的单个注释。较黑的点表示在单次扰动或两次扰动中活性显著改变。

图80显示了针对每个特征的经背景校正的相互作用程度的直方图。通过置换单和双敲低关联计算的背景分布。

图81展示了观察到的8102相对预期的8104相互作用的散点图，突出显示了TFAP2A(相对低的相互作用程度)和JUND(相对高的相互作用程度)。

图82显示了在耗竭EZH2和一种其他因子的细胞中，在H3K27me3标记的区域观察到的8202相对预期的8204可及性改变的散点图。

图83显示了对于H3K27me3峰的各种子集，EZH2敲低细胞与对照细胞相比的相对可及性的散点图。共同峰8302是指在大多数细胞类型中表现出H3K27me3状态的区域。

图84左图：指示在GM12878中由H3K27me3标记的区域中EZH2耗竭导致的可及性改变和展示在每个其他特定细胞类型中的H3K27ac标记的热图。右图：指示同时耗竭EZH2和TF的细胞的包括在左侧热图中的相同区域组中的可及性改变的热图。

图88显示了用分化日(左)或拟时间(右)标记的表皮细胞的TF特征活性的tSNE投影。

图89显示了通过拟时间(列)相对TF特征活性(针对具有动态活性的基序进行过滤)排序的细胞的热图。模块代表具有类似时间谱的TF特征的集合。发现热图旁边列出的基因邻近(<50kb)表现出与该模块相关的可及性动力学的基因组区域。

图90小图A显示了来自分化的每一天的细胞的拟时间值的密度直方图。小图B显示了图89中鉴别的每个模块的平均可及性谱。

图91显示了TF活性的tSNE投影，对于每个图，通过个体基序的相对活性标记细胞。

图94显示了遗传扰动(由靶基因表示)相对TF特征的热图，其指示了扰动细胞相对非靶向(NT)细胞中的TF特征的活性。合并了来自AP1、FOX和ETS家族的类似基序特征。

图95显示了SPRR2E基因的基因组基因座的图。扰动-ATAC轨道9502代表来自针对每个sgRNA鉴别的合并的单细胞的信号。还显示了H3K27ac 9504和ZNF750 9506ChIP-seq轨迹(来自第3天分化的角质形成细胞，标准化至10m读数，来自Rubin等人，2017)。

图96显示了靶基因(因子)和基因组区域集(特征)之间的正调节和负调节的呈现。对于FDR<0.25的调节用箭头显示，并且降低的透明度与较低的FDR相关。使用Cytoscape1271v3.1.0生成图谱。

图97顶部：展示代表沿分化轨迹的进展的八个箱中的每个箱中的细胞的频率的热图。底部：指示与非靶向对照细胞相比，每个分化箱中细胞的富集或耗竭的热图。对于每个扰动，生成自定义的降维空间以突出显示改变的特征。

图98显示了扰动(靶向的基因，行)相对特征模块(列)的热图。对于每个模块，显示了特征活性的平均改变。

图99显示了每个相互作用类别的示例性代表性峰信号。

图100显示了双敲除细胞中观察到的相对预期的(基于加性模型)可及性的散点图。仅绘制在单敲除或双敲除条件下显著改变的特征，并且特征颜色指示相互作用的类别。

图101显示了在相同细胞中在EHF敲除、JUNB敲除或EHF和JUNB同时敲除的情况下特征(行)改变的活性以及它们的预期活性的热图(左图)。右图：EHF和ZNF750基因敲除的改变的活性的热图。

图102显示了属于每个类别的相互作用特征的比例的条形图。每列代表一对特定的靶向的基因。仅考虑在单扰动或双扰动条件下改变的特征。

图103显示了热图，其指示对应于成对的TF对的基因组重叠或基因表达相关性的重要性(上图)。下图：热图显示了来自Roadmap Epigenomics Project的组织中KLF4和JUNB的相对RNA表达。

图104小图A显示了热图，其指示在KLF4和ZNF750双敲除细胞中表现出协同行为的基因组区域(行)的相对可及性。小图B显示了热图，其中行对应于左侧显示的区域，显示了KLF4和ZNF750的ChIP seq谱。

图116显示了编码用于CRISPRi的sgRNA以及包含指导条形码的选择标记的慢病毒质粒的示意图。从上至下显示逐步靶向的逆转录和PCR步骤。

图118显示了关于用于每细胞测序深度和背景读数的过滤参数的推导的细节。左图：对于三个代表性板中的每个板显示了与任何指导条形码匹配的读数的分布。中图：在针对高模式的板特异性深度调整后的读数分布，导致跨板的高模式的统一中值深度和每个细胞1,000个标准化读数的统一过滤器阈值。右图：对于注释为单细胞或双峰捕获的细胞，未分配给两个最丰富指导的每个细胞的读数分布。双峰孔分为两种模式，允许确定分离单个捕获孔中未预料到的高背景的阈值。

图119显示指示对于随机指导或为扰动-ATAC选择的指导的sgRNA序列错配的计数的条形图。

图120显示了基于错配的贡献来计算预测的脱靶CRISPRi活性的工作流程。右图：本研究中使用的所有sgRNA的预测的相对脱靶活性(包括多达4个错配)的直方图。

图123显示了基于chromVAR特征偏差Z得分在GM12878实验中测定的所有细胞的tSNE图。对于每个图，突出显示在特定板上测定的细胞。

图124显示了针对EBER1、EBF1、EZH2或SPI1靶向的细胞中的显著改变的特征，单细胞可及性相对于非靶向细胞中的平均可及性的小提琴图。每个点代表个体细胞中的个体基因组特征(共享注释(例如，TF基序或ChIP-seq峰)的基因组区域的集合)。每个基因型显示最多50个特征。

图126显示了每个单个扰动条件的火山图，将扰动的细胞与非靶向的对照细胞进行了比较。每个点代表一个基因组特征。FDR的显著性阈值<＝0.025。

图128显示了GM12878中与CTCF ChIP seq峰重叠的CTCF基序区域的亚核小体和核小体片段信号的元曲线。信号代表两个非靶向细胞群体的平均值，灰色范围代表样品之间的标准偏差。

图130显示了用于基因组特征的相关矩阵的热图。值表明两个基因组特征的可及性的跨非靶向细胞的皮尔逊相关性。Ward层次聚类用于鉴别具有实质性簇内相关性的五个模块。

图131显示了每个模块中的关键特征的列表。

图132显示了IRF8敲低细胞中的基因组特征的相关矩阵的热图。

图133显示了在非靶向和DNMT3A敲低细胞中CTCF和SMAD5特征的单细胞可及性的箱形图。右图：DNMT3A敲低细胞中每个特征的改变的相关性的数量的z得分直方图。

图138显示了用于sgRNA和Cas9表达的慢病毒质粒的示意图。

图139显示了每个靶基因在sgRNA 3'末端周围100bp的Sanger测序轨迹。测序正向进行(从左到右)，导致由于插入/缺失的混合，sgRNA后测序对齐的突然下降。

图140显示了编码用于CRISPR敲除的sgRNA的慢病毒质粒的示意图。从上至下显示逐步靶向的逆转录和PCR步骤

图143显示了与背景(第三最常见)指导序列相关的每个细胞的读数的比例的分布。低模式下的细胞通过过滤器。

图144显示了与第二最常见的指导相关联的读数的比例的分布。细胞是通过质量控制的那些细胞，并且此分布的低模式下的细胞被认为表达单个指导，而高模式下的细胞被认为表达两个指导。

图147显示了未受扰动的角质形成细胞的主成分(PC)值的散点图。PC空间是使用特定的单TF基因敲除细胞的改变的特征生成的。黄线代表连接来自每个分化日的细胞的质心的拟时间轨迹。

图148显示了嵌入在(a)中生成的PC空间中的所有扰动的和非靶向细胞的1397PC值的散点图。通过沿拟时间轨迹的进展对细胞进行评分和着色。这些拟时间值用于评估敲除相对非靶向细胞的富集或耗竭。

图150显示了单敲除细胞相对双敲除(r～0.18)中特征的绝对log2倍数改变的散点图。

用于样品分隔的系统和方法

一方面，本文描述的系统和方法提供了将一个或多个颗粒(例如，生物颗粒、生物颗粒的大分子成分、珠子、试剂等)分隔、沉积或分区到离散的隔室或区室(在本文中可互换地称为区室)中，其中每个区室保持其自身内容物与其他区室的内容物分离。该区室可以是乳液中的液滴。区室可以包括一个或多个其他区室。

区室可包含一个或多个颗粒。区室可以包括一种或多种类型的颗粒。例如，本公开内容的区室可以包含一种或多种生物颗粒和/或其大分子成分。区室可包含一个或多个凝胶珠。区室可包含一个或多个细胞珠。区室可包括单个凝胶珠、单个细胞珠或单个细胞珠和单个凝胶珠两者。区室可以包括一种或多种试剂。可替代地，可以不占据区室。例如，区室可以不包含珠子。细胞珠可以是生物颗粒和/或其一种或多种包封在凝胶或聚合物基质内部的大分子成分，例如通过包含生物颗粒和能够聚合或胶凝的前体的液滴的聚合。如本文其他地方所述，可以在液滴产生之前、之后或与之同时将独特的标识符诸如条形码注入液滴中，例如通过微胶囊(例如，珠子)。微流体通道网络(例如，在芯片上)可用于产生如本文所述的区室。在单个生物颗粒的区室中还可以采用其他机构，包括多孔膜，细胞的水性混合物通过该多孔膜排出到非水性流体中。

区室可以在流体流内流动。区室可包括例如微胶囊泡，其具有围绕内部流体中心或核心的外部屏障。在一些情况下，区室可以包括能够将材料夹带和/或保持在其基质内的多孔基质。区室可以是第二相内的第一相的液滴，其中第一相和第二相是不混溶的。例如，区室可以是在非水性连续相(例如，油相)内的水性流体的液滴。在另一个示例中，区室可以是水相内的非水性流体的液滴。在一些示例中，区室可以以油包水乳液或水包油乳液的形式提供。在例如美国专利申请公开号2014/0155295中描述了各种不同的容器，出于所有目的将其通过引用整体并入本文。在例如美国专利申请公开号2010/0105112中描述了用于在非水性或油连续相中产生稳定的液滴的乳液系统，出于所有目的将其通过引用整体并入本文。

在乳液中的液滴的情况下，在一个非限制性实例中，可以通过将水性流体中的颗粒的流动流引入非水性流体的流动流中来实现将单个颗粒分配给离散的区室，使得在两个流的接合点产生液滴。流体性质(例如，流体流速、流体粘度等)、颗粒性质(例如，体积分数、粒径、颗粒浓度等)、微流体架构(例如，通道几何形状等)以及其他参数可以被调节以控制所得区室的占据(例如，每个区室的生物颗粒数、每个区室的珠子数等)。例如，可以通过以颗粒的一定浓度和/或流速提供水流来控制区室占据。为了产生单个生物颗粒区室，可以选择不混溶流体的相对流速，以使得每个区室平均可以包含少于一个生物颗粒，以确保被占据的那些区室主要被单独占据。在一些情况下，多个区室中的区室可以包含至多一个生物颗粒(例如，珠、DNA、细胞或细胞材料)。在一些实施方案中，可以选择或调整各种参数(例如，流体性质、颗粒性质、微流体架构等)，使得占据大部分区室，例如，仅允许少量百分比的未被占据的区室。可以控制流动和通道架构，以确保给定数量的单独占据的区室、小于一定水平的未被占据的区室和/或小于一定水平的多重占据的区室。

上文所述的单细胞T-ATAC-seq和扰动-ATAC方案可以使用液滴(和/或其中的各方面)来执行。例如，可以将用T-ATAC-seq或扰动-ATAC处理的细胞(例如，T细胞、B细胞、免疫细胞、其他细胞)与条形码化的珠子共分区，如本文其他地方所述，以促进本文所述的一个或多个反应。例如，它们可以与本文所述的一种或多种试剂(例如，裂解试剂)共分区，以促进这些方案的一种或多种反应。在一些情况下，可以使用珠子作为固体支持物进行一个或多个反应。

图106显示了用于分区单个生物颗粒的微流体通道结构10600的示例。通道结构10600可以包括在通道接合点10610处连通的通道段10602、10604、10606和10608。在操作中，可以将包括悬浮的生物颗粒(或细胞)10614的第一水性流体10612沿着通道段10602输送到接合点10610中，而与水性流体10612不混溶的第二流体10616从通道段10604和10606中的每一个输送到接合点10610，以产生第一水性流体10612的离散的液滴10618、10620，其流入通道段10608，并从接合点10610流出。通道段10608可以流体偶联至出口储液器，在其中可以存储和/或收获离散的液滴。所产生的离散的液滴可包括单个生物颗粒10614(例如，液滴10618)。所产生的离散的液滴可以包括多于一个单个生物颗粒10614(图106中未示出)。离散的液滴可以不包含生物颗粒10614(例如，液滴10620)。每个离散的区室可保持其自身内容物(例如，单个生物颗粒10614)与其他区室的内容物分离。

第二流体10616可包含油，例如氟化油，其包含用于稳定所得液滴的含氟表面活性剂，例如，抑制所得液滴10618、10620的随后聚结。例如，在美国专利申请公开号2010/0105112中描述了特别有用的分区流体和含氟表面活性剂的实例，出于所有目的将其通过引用整体并入本文。

应当理解，本文描述的通道段可以偶联至各种不同的流体源或接收组件中的任何一个，包括储液器、管道、歧管或其他系统的流体组件。应当理解，微流体通道结构10600可以具有其他几何形状。例如，微流体通道结构可以具有多于一个通道接合点。例如，微流体通道结构可以具有2、3、4或5个通道段，每个通道段携带在通道接合点相遇的颗粒(例如，生物颗粒、细胞珠和/或凝胶珠)。可以引导流体经由一个或多个流体流动单元沿着一个或多个通道或储液器流动。流体流动单元可包括压缩机(例如，提供正压)、泵(例如，提供负压)、致动器等以控制流体的流动。流体也可以通过施加的压差、离心力、电动泵、真空、毛细管或重力流等来控制或以其他方式来控制。

所产生的液滴可包含液滴的两个子集：(1)包含一个或多个生物颗粒10614的被占据的液滴10618，和(2)不包含任何生物颗粒10614的未被占据的液滴10620。被占据的液滴10618可包括单个被占据的液滴(具有一个生物颗粒)和多重占据的液滴(具有多于一个生物颗粒)。如本文其他地方所述，在一些情况下，大部分被占据的区室可以包括每个被占据的区室不超过一个生物颗粒，并且一些生成的区室可以不被(任何生物颗粒)占据。但是，在一些情况下，一些被占据的区室可能包括多于一个生物颗粒。在一些情况下，可以控制分区过程，使得少于约25％的被占据的区室包括多于一个生物颗粒，并且在许多情况下，少于约20％的被占据的区室具有多于一个生物颗粒，而在一些情况下，少于约10％或甚至少于约5％的被占据的区室每个区室包括多于一个生物颗粒。

在一些情况下，可能期望最小化过多数量的空区室的生成，以降低成本和/或提高效率。尽管可以通过在分区接合点10610处提供足够数量的生物颗粒(例如，生物颗粒10614)以确保至少一个生物颗粒被包封在一个区室中来实现这样的最小化，但泊松分布可能预期增加包含多个生物颗粒的区室的数量。这样，在要获得单个占据的区室的情况下，最多约为95％、90％、85％、80％、75％、70％、65％、60％、55％、50％、45％、40％、35％、30％、25％、20％、15％、10％、5％或更少的区室可以被占据。

在一些情况下，可以控制一个或多个生物颗粒(例如，在通道段10602中)或其他定向分区接合点的流体(例如，在通道段10604、10606中)的流动，使得在许多情况下，不超过约50％的已生成区室，不超过约25％的已生成区室或不超过约10％的已生成区室被占据。可以控制这些流动以呈现单占据区室的非泊松分布，同时提供较低水平的未被占据的区室。可以实现未被占据的区室的上文所述的范围，同时仍然提供任何上文所述的单占据率。例如，在许多情况下，在本文描述的系统和方法的使用可以生成具有小于约25％、小于约20％、小于约15％、小于约10％、并且在许多情况下小于约5％的多重占据率的所得区室，同时具有小于约50％、小于约40％、小于约30％、小于约20％、小于约10％、小于约5％或更少的未被占据的区室。

应当理解，上文所述的占据率也适用于包含生物颗粒和附加试剂的区室，所述试剂包括但不限于携带条形码化的核酸分子(例如，寡核苷酸)的微胶囊或珠子(例如，凝胶珠)(相对于图107进行了描述)。被占据的区室(例如，至少约10％、20％、30％、40％、50％、60％、70％、80％、90％、95％或99％的被占据的区室)可以包含含有条形码化的核酸分子的微胶囊(例如，珠子)和生物颗粒。

在另一方面，除了或作为基于液滴的分区的替代之外，生物颗粒可以被包封在微胶囊内，该微胶囊包括外壳、涂层或多孔基质，其中夹带了一个或多个单个生物颗粒或一小组生物颗粒。微胶囊可以包含其他试剂。生物颗粒的包封可以通过多种方法进行。这样的方法可以将包含生物颗粒的水性流体与聚合物前体材料组合，该聚合物前体材料可以在向聚合物前体施加特定刺激时能够形成凝胶或其他固体或半固体基质。这样的刺激可以包括例如热刺激(例如，加热或冷却)、光刺激(例如，通过光固化)、化学刺激(例如，通过交联、前体的聚合引发(例如，通过添加的引发剂))、机械刺激或其组合。

包含生物颗粒的微胶囊的制备可以通过多种方法进行。例如，气刀液滴或气溶胶发生器可用于将前体流体的液滴分配到胶凝溶液中，以形成包含单个生物颗粒或一小组生物颗粒的微胶囊。类似地，基于膜的包封系统可以用于产生如本文所述的包含包封的生物颗粒的微胶囊。本公开内容的微流体系统(例如，图106中所示的系统)可以容易地如本文所述用于包封细胞。特别地，并且参考图106，包含(i)生物颗粒10614和(ii)聚合物前体材料(未示出)的水性流体10612流入通道接合点10610，在其中其通过非水性流体10616的流动被分区为液滴10618、10620。在包封方法的情况下，非水流体10616还可以包含引发剂(未显示)，以引起聚合物前体的聚合和/或交联，从而形成包含被夹带的生物颗粒的微胶囊。聚合物前体/引发剂对的实例包括在美国专利申请公开号2014/0378345中描述的那些，出于所有目的将其通过引用整体并入本文。

例如，在聚合物前体材料包含线性聚合物材料(例如，线性聚丙烯酰胺、PEG或其他线性聚合物材料)的情况下，活化剂可包括交联剂或活化形成的液滴内的交联剂的化学品。类似地，对于包含可聚合单体的聚合物前体，活化剂可以包含聚合引发剂。例如，在一些情况下，在聚合物前体包含丙烯酰胺单体与N，N'-双-(丙烯酰基)胱胺(BAC)共聚单体的混合物的情况下，诸如过硫酸铵(APS)和四乙基亚甲基二胺(TEMED)的试剂可以提供在通道段10604和10606中的第二流体流10616中，其可引发并催化丙烯酰胺和BAC共聚成交联的聚合物网络或水凝胶。引发剂的其他非限制性实例包括基于叠氮化物的试剂(例如，VA-086)和苯基三甲基苯甲酰基亚膦酸锂。

当第二流体流10616与第一流体流10612在接合点10610接触时，在液滴形成期间，TEMED可以从第二流体10616扩散到包含线性聚丙烯酰胺的水性流体10612中，这将活化液滴10618、10620中的聚丙烯酰胺的交联，导致形成凝胶(例如，水凝胶)微胶囊，作为夹带细胞10614的固体或半固体珠子或颗粒。尽管在聚丙烯酰胺包封方面进行了描述，但也可以在本文所述的方法和组合物的背景中使用其他“可活化的”包封组合物。例如，藻酸盐液滴的形成然后暴露于二价金属离子(例如，Ca²⁺离子)可以用作使用所述方法的包封方法。类似地，琼脂糖液滴也可以通过基于温度的胶凝作用(例如，在冷却后等)转化成胶囊。在另一个例子中，添加互补核酸(例如，DNA)可用于使与聚合物网络缀合的核酸分子交联或非交联。

在一些情况下，包封的生物颗粒能够可选择性地从微胶囊释放，例如通过时间流逝或在施加特定刺激时，其足以降解微胶囊以允许生物颗粒(例如，细胞)或其其他内容物从微胶囊中释放出来，例如进入区室(例如，液滴)。例如，在上文所述的聚丙烯酰胺聚合物的情况下，微胶囊的降解可通过引入合适的还原剂(例如，DTT等)来裂解使聚合物基质交联的二硫键来实现。参见，例如，美国专利申请公开号2014/0378345，出于所有目的将其通过引用整体并入本文。

生物颗粒可以经受足以聚合或胶凝前体的其他条件。足以使前体聚合或胶凝的条件可以包括暴露于加热、冷却、电磁辐射和/或光。足以聚合或胶凝前体的条件可以包括足以聚合或胶凝前体的任何条件。在聚合或胶凝之后，可以在生物颗粒周围形成聚合物或凝胶。聚合物或凝胶对于化学或生物化学试剂可以是扩散地可渗透的。聚合物或凝胶对于生物颗粒的大分子成分可以是扩散地不可渗透的。以这样的方式，聚合物或凝胶可以起到允许生物颗粒经受化学或生物化学操作的作用，同时将大分子成分在空间上限制在由聚合物或凝胶限定的液滴的区域中。聚合物或凝胶可包括二硫化物交联的聚丙烯酰胺、琼脂糖、藻酸盐、聚乙烯醇、聚乙二醇(PEG)-二丙烯酸酯、PEG-丙烯酸酯、PEG-硫醇、PEG-叠氮化物、PEG-炔烃、其他丙烯酸酯、壳聚糖、透明质酸、胶原蛋白、纤维蛋白、明胶或弹性蛋白中的一种或多种。聚合物或凝胶可包括任何其他聚合物或凝胶。

可以将聚合物或凝胶官能化以结合目标分析物，例如，核酸、蛋白质、碳水化合物、脂质或其他分析物。聚合物或凝胶可以通过被动机制聚合或胶凝。聚合物或凝胶在碱性或酸性条件下或在高温下可以是稳定的。聚合物或凝胶可具有类似于珠子的机械性能的机械性能。例如，聚合物或凝胶可以具有与珠子相似的尺寸。聚合物或凝胶可以具有与珠子相似的机械强度(例如，抗张强度、抗压强度、刚度、韧性等)。聚合物或凝胶的密度可低于油。聚合物或凝胶的密度可以与缓冲液的密度大致相似。聚合物或凝胶可具有可调节的孔径。可以选择孔径以例如保留变性的核酸。可以选择孔径以维持针对外源性化学物质(例如，氢氧化钠(NaOH))和/或内源性化学物质(例如，抑制剂)的扩散渗透性。聚合物或凝胶可以是生物相容的。聚合物或凝胶可以维持或增强细胞活力。聚合物或凝胶可以是生物化学相容的。聚合物或凝胶可以通过热、化学、酶和/或光学方式聚合和/或解聚。

聚合物可以包含使用二硫键交联的聚(丙烯酰胺-共-丙烯酸)。聚合物的制备可以包括两步反应。在第一活化步骤中，可以将聚(丙烯酰胺-共-丙烯酸)暴露于酰化剂以将羧酸转化成酯。例如，可以将聚(丙烯酰胺-共-丙烯酸)暴露于4-(4,6-二甲氧基-1,3,5-三嗪-2-基)-4-甲基吗啉盐酸盐(DMTMM)。聚丙烯酰胺-共-丙烯酸可以暴露于4-(4,6-二甲氧基-1,3,5-三嗪-2-基)-4-甲基吗啉的其他盐。在第二交联步骤中，可以将在第一步骤中形成的酯暴露于二硫化物交联剂。例如，该酯可以暴露于胱胺(2,2'-二硫代双(乙胺))。在这两个步骤之后，生物颗粒可以被通过二硫键连接在一起的聚丙烯酰胺链围绕。以这样的方式，生物颗粒可以被包裹在凝胶或基质(例如，聚合物基质)内部或包含凝胶或基质(例如，聚合物基质)以形成“细胞珠”。细胞珠可包含生物颗粒(例如，细胞)或生物颗粒的大分子成分(例如，RNA、DNA、蛋白质等)，如本文其他地方所述。

包封的生物颗粒可以提供一些潜在的优点，即与基于液滴分区的生物颗粒相比，其更易于存储和携带。此外，在一些情况下，可能期望允许在分析之前将生物颗粒孵育一段选定的时间，例如为了在存在或不存在不同刺激的情况下表征这种生物颗粒随时间的变化。在这种情况下，包封可以允许比在乳液液滴中分区更久的孵育，尽管在一些情况下，也可以将液滴分区的生物颗粒孵育不同的时间段，例如，至少10秒、至少30秒、至少1分钟、至少5分钟、至少10分钟、至少30分钟、至少1小时、至少2小时、至少5小时或至少10小时或更长时间。生物颗粒的包封可以构成生物颗粒的分区，在其中共分区其他试剂。可替代地或另外地，包封的生物颗粒可以容易地沉积到如上文所述的其他区室(例如，液滴)中。

珠子

区室可以包括一个或多个独特的标识符，例如条形码。条形码可以被预先、随后或同时递送到容纳分隔或分区的生物颗粒的区室中。例如，条形码可以在液滴产生之前、之后或与之同时注入到液滴中。条形码向特定区室的递送允许稍后将单个生物颗粒的特性归属于特定区室。条形码可以通过任何合适的机制递送(例如，在核酸分子(例如，寡核苷酸)上)至区室。条形码化的核酸分子可通过微胶囊递送至区室。在一些情况下，微胶囊可包含珠子。珠子在下面进一步详细描述。

在一些情况下，条形码化的核酸分子可以最初与微胶囊缔合，以及然后从微胶囊中释放。条形码化的核酸分子的释放可以是被动的(例如，扩散出微胶囊)。另外或可替代地，从微胶囊释放可以是在施加刺激后进行的，该刺激允许条形码化的核酸核酸分子解离或从微胶囊释放。这样的刺激可以破坏微胶囊、将条形码化的核酸分子偶联至微胶囊或在微胶囊内偶联条形码化的核酸分子的相互作用或这两者。这样的刺激可以包括例如热刺激、光刺激、化学刺激(例如，pH的改变或使用一种或多种还原剂)、机械刺激、辐射刺激；生物刺激(例如酶)或其任何组合。

图107显示了用于将携带条形码的珠子递送至液滴的微流体通道结构10700的示例。通道结构10700可以包括在通道接合点10710处连通的通道段10701、10702、10704、10706和10708。在操作中，通道段201可以将包含多个珠子10714(例如，具有核酸分子、寡核苷酸、分子标签)的水性流体10712沿着通道区段10701输送到接合点10710中。多个珠子10714可以源自珠子的悬浮液。例如，通道段10701可以连接到包含珠子10714的水性悬浮液的储液器。通道段10702可以将包括多个生物颗粒10716的水性流体10712沿着通道段10702输送到接合点10710中。多个生物颗粒10716可以源自生物颗粒的悬浮液。例如，通道段10702可以连接至包含生物颗粒10716的水性悬浮液的储液器。在一些情况下，第一通道段10701或第二通道段10702或两个段中的水性流体10712可以包括一种或多种试剂，如下文进一步所述。与水性流体10712(例如，油)不混溶的第二流体10718可以从通道段10704和10706中的每一个输送到接合点10710。在通道接合点10710处遇到来自通道段10701和10702中的每一个的水性流体10712和来自通道段10704和10706中的每一个的第二流体10718时，水性流体10712可在第二流体10718中被分区为离散的液滴10720，并沿着通道段10708从接合点10710流出。通道段10708可以将离散的液滴输送至流体偶联至通道段10708的出口储液器，在此处可以收集离散的液滴。

作为替代，通道段10701和10702可以在接合点10710上游的另一个接合点相遇。在这样的接合点处，珠子和生物颗粒可以形成沿着另一个通道被引导至接合点10710以产生液滴10720的混合物。混合物可以以交替的方式提供珠子和生物颗粒，使得例如液滴包含单个珠子和单个生物颗粒。

珠子、生物颗粒和液滴可以以基本规则的流动谱(例如，以规则的流速)沿着通道流动。这样的规则流动谱可以允许液滴包括单个珠子和单个生物颗粒。这样的规则流动谱可以允许液滴具有大于5％、10％、20％、30％、40％、50％、60％、70％、80％、90％或95％的占据率(例如，具有珠子和生物颗粒的液滴)。在例如美国专利公开号2015/0292988中提供了这样的规则流动谱和可用于提供这样的规则流动谱的装置，其通过引用整体并入本文。

第二流体10718可包含油，例如氟化油，其包含用于稳定所得液滴的含氟表面活性剂，例如，抑制所得液滴10720的后续聚结。其他表面活性剂，例如，Span80、Triton X-100、SDS、全氟辛醇(PFO)、全氟聚醚等也可用于防止液滴聚结。

所产生的离散的液滴可以包含单个生物颗粒10716。所产生的离散的液滴可以包含携带条形码或其他试剂的珠子10714。所产生的离散的液滴可以包含单个生物颗粒和携带条形码的珠子两者，例如液滴10720。在一些情况下，离散的液滴可包含多于一个单个生物颗粒或不包含生物颗粒。在一些情况下，离散的液滴可以包含多于一个珠子或不包含珠子。离散的液滴可以不被占据(例如，没有珠子、没有生物颗粒)。

有益地，分区生物颗粒和携带条形码的珠子的离散的液滴可以有效地允许将条形码归属于区室内的生物颗粒的大分子成分。区室的内容物可以与其他区室的内容物保持离散。

应当理解，本文描述的通道段可以偶联至各种不同的流体源或接收组件中的任何一个，包括储液器、管道、歧管或其他系统的流体组件。应当理解，微流体通道结构10700可以具有其他几何形状。例如，微流体通道结构可以具有多于一个通道接合点。例如，微流体通道结构可以具有2、3、4或5个通道段，每个通道段携带在通道接合点处相遇的珠子。可以引导流体经由一个或多个流体流动单元沿着一个或多个通道或储液器流动。流体流动单元可包括压缩机(例如，提供正压)、泵(例如，提供负压)、致动器等以控制流体的流动。流体也可以通过施加的压差、离心力、电动泵、真空、毛细管或重力流等来控制。

珠子可以是多孔的、无孔的、固体的、半固体的、半流体的、流体的和/或其组合。在一些情况下，珠子可以是可溶解的、可破坏的和/或可降解的。在一些情况下，珠子可以是不可降解的。在一些情况下，珠子可以是凝胶珠。凝胶珠可以是水凝胶珠。凝胶珠可以由分子前体(例如，聚合物或单体物质)形成。半固体珠可以是脂质体珠。固体珠可包含金属，包括氧化铁、金和银。在一些情况下，珠子可以是二氧化硅珠子。在一些情况下，珠子可以是刚性的。在其他情况下，珠子可以是柔性的和/或可压缩的。

珠子可以是任何合适的形状。珠子形状的示例包括但不限于球形、非球形、椭圆形、长方形、无定形、圆形、圆柱形及其变体。

珠子可以具有均一的尺寸或异质的尺寸。在一些情况下，珠子的直径可以至少为约10纳米(nm)、100nm、500nm、1微米(μm)、5μm、10μm、20μm、30μm、40μm、50μm、60μm、70μm、80μm、90μm、100μm、250μm、500μm、1mm或更大。在一些情况下，珠子的直径可以小于约10nm、100nm、500nm、1μm、5μm、10μm、20μm、30μm、40μm、50μm、60μm、70μm、80μm、90μm、100μm、250μm、500μm、1mm或更小。在一些情况下，珠子的直径可以为约40-75μm、30-75μm、20-75μm、40-85μm、40-95μm、20-100μm、10-100μm、1-100μm、20-250μm、或20-500μm。

在一些方面，珠子可以提供为具有相对单分散的尺寸分布的珠子的群体或多个具有相对单分散的尺寸分布的珠子。在可能需要在区室内提供相对一致量的试剂的情况下，保持相对一致的珠子特性(例如，大小)可以有助于整体一致性。特别地，本文所述的珠子可以具有尺寸分布，所述尺寸分布在其横截面尺寸上具有小于50％、小于40％、小于30％、小于20％，并且在一些情况下小于15％、小于10％、小于5％或更少的变异系数。

珠子可包含天然和/或合成材料。例如，珠子可包含天然聚合物、合成聚合物或天然和合成聚合物两者。天然聚合物的示例包括蛋白质和糖，例如，脱氧核糖核酸、橡胶、纤维素、淀粉(例如，直链淀粉、支链淀粉)、蛋白质、酶、多糖、蚕丝、聚羟基链烷酸酯、壳聚糖、葡聚糖、胶原蛋白、角叉菜胶、卵叶车前子、阿拉伯胶、琼脂、明胶、虫胶、梧桐胶、黄原胶、玉米糖胶、瓜尔胶、卡拉牙胶、琼脂糖、藻酸、藻酸盐或其天然聚合物。合成聚合物的示例包括丙烯酸、尼龙、硅酮、氨纶、粘胶人造丝、多聚羧酸、聚乙酸乙烯酯、聚丙烯酰胺、聚丙烯酸酯、聚乙二醇、聚氨酯、聚乳酸、二氧化硅、聚苯乙烯、聚丙烯腈、聚丁二烯、聚碳酸酯、聚乙烯、聚对苯二甲酸乙二醇酯、聚(三氟氯乙烯)、聚(环氧乙烷)、聚(对苯二甲酸乙二酯)、聚乙烯、聚异丁烯、聚(甲基丙烯酸甲酯)、聚(氧甲烯)、聚甲醛、聚丙烯、聚苯乙烯、聚(四氟乙烯)、聚(乙酸乙烯酯)、聚(乙烯醇)、聚(氯乙烯)、聚(偏二氯乙烯)、聚(偏二氟乙烯)、聚(氟乙烯)和/或其组合(例如，共聚物)。珠子也可以由聚合物以外的材料形成，包括脂质、胶束、脂质体、陶瓷、玻璃陶瓷、材料复合物、金属、其他无机材料等。

在一些情况下，珠子可包含分子前体(例如，单体或聚合物)，其可通过分子前体的聚合形成聚合物网络。在一些情况下，前体可以是已聚合的物质，其能够通过例如化学交联进行进一步的聚合。在一些情况下，前体可包含丙烯酰胺或甲基丙烯酰胺单体、低聚物或聚合物中的一种或多种。在一些情况下，珠子可包含预聚物，其是能够进一步聚合的低聚物。例如，可以使用预聚物制备聚氨酯珠。在一些情况下，珠子可包含可进一步聚合在一起的单个聚合物。在一些情况下，珠子可以通过不同前体的聚合而产生，使得它们包含混合的聚合物、共聚物和/或嵌段共聚物。在一些情况下，珠子可以在聚合物前体(例如，单体、低聚物、线性聚合物)、核酸分子(例如，寡核苷酸)、引物和其他实体之间包含共价键或离子键。在一些情况下，共价键可以是碳-碳键、硫醚键或碳-杂原子键。

取决于所使用的特定交联剂，交联可以是永久的或可逆的。可逆交联可允许聚合物在适当条件下线性化或解离。在一些情况下，可逆交联还可以允许结合到珠子表面的材料的可逆附接。在一些情况下，交联剂可能形成二硫键。在一些情况下，形成二硫键的化学交联剂可以是胱胺或修饰的胱胺。

在一些情况下，可以在掺入珠子的分子前体单元(例如，单体、低聚物或线性聚合物)或前体与核酸分子(例如，寡核苷酸)之间形成二硫键。例如，胱胺(包括修饰的胱胺)是一种包含二硫键的有机试剂，其可以用作珠子的单个单体或聚合前体之间的交联剂。聚丙烯酰胺可以在胱胺或包含胱胺的物质(例如，修饰的胱胺)的存在下聚合，以产生包含二硫键的聚丙烯酰胺凝胶珠(例如，包含可化学还原的交联剂的可化学降解的珠子)。当将珠子暴露于还原剂时，二硫键可允许珠子被降解(或溶解)。

在一些情况下，线性多糖聚合物壳聚糖可通过亲水链与戊二醛交联以形成珠子。壳聚糖聚合物的交联可以通过由热、压力、pH值改变和/或辐射引发的化学反应来实现。

在一些情况下，珠子可包含丙烯酸酯部分，其在一些方面可用于将一个或多个核酸分子(例如，条形码序列、条形码化的核酸分子、条形码化的寡核苷酸、引物或其他寡核苷酸)附接至珠子。在一些情况下，丙烯酸酯部分可指由丙烯酸酯与一种或多种物质的反应产生的丙烯酸酯类似物，例如在聚合反应期间丙烯酸酯与其他单体和交联剂的反应。可以对丙烯酸酯部分进行修饰以与待附接的物质(例如核酸分子(例如，条形码序列、条形码化的核酸分子、条形码化的寡核苷酸、引物或其他寡核苷酸))形成化学键。可以通过能够形成二硫键的硫醇基团来修饰丙烯酸酯部分，或者可以利用已经包含二硫键的基团来修饰丙烯酸酯部分。硫醇或二硫化物(通过二硫化物交换)可以用作待附接的物质的锚定点，或可以将丙烯酸酯部分的另一部分用于附接。在一些情况下，附接可以是可逆的，使得当二硫键断裂时(例如，在还原剂的存在下)，附接的物质从珠子释放。在其他情况下，丙烯酸酯部分可包含可用于附接的反应性羟基。

可以通过多种不同的方法来实现珠子的官能化以用于附接核酸分子(例如，寡核苷酸)，包括活化聚合物中的化学基团、在聚合物结构中掺入活性或可活化的官能团、或在珠子生产中的预聚物或单体阶段进行附接。

例如，聚合以形成珠子的前体(例如，单体、交联剂)可以包含丙烯酸酯部分，使得当产生珠子时，珠子还包含丙烯酸酯部分。可以将丙烯酸酯部分附接至核酸分子(例如，寡核苷酸)，其可以包括引物序列(例如，用于扩增靶核酸的引物、随机引物、用于mRNA的引物序列)和/或一个或多个条形码序列。一个或多个条形码序列可包括对于偶联至给定珠子的所有核酸分子相同的序列和/或在偶联至给定珠子的所有核酸分子间不同的序列。可以将核酸分子掺入珠子中。

在一些情况下，核酸分子可以包含功能序列，例如，用于附接至测序流动池的序列，例如，用于

测序的P5序列。在一些情况下，核酸分子或其衍生物(例如，由核酸分子产生的寡核苷酸或多核苷酸)可包含另一功能序列，例如，P7序列，其用于附接至测序流动池以用于Illumina测序。在一些情况下，核酸分子可包含条形码序列。在一些情况下，引物可以进一步包含独特的分子标识符(UMI)。在一些情况下，引物可包含用于Illumina测序的R1引物序列。在一些情况下，引物可包含用于Illumina测序的R2引物序列。在美国专利公开号2014/0378345和2015/0376609(其各自通过引用整体并入本文)中提供了可与本公开内容的组合物、装置、方法和系统一起使用的这样的核酸分子(例如，寡核苷酸、多核苷酸等)及其用途的实例。

在各方面，本文提供了适合于处理编码例如免疫细胞受体(例如，TCR或BCR)的V(D)J序列的至少一部分、指导RNA的至少一部分和/或指导RNA鉴别条形码的至少一部分的核酸序列(例如，mRNA、来源于mRNA的逆转录的互补DNA)的珠子(例如，条形码化的珠子)。珠子可以是凝胶珠。条形码化的引物可以偶联或以其他方式附接至凝胶珠。在一些情况下，条形码化的引物可以可释放地附接至凝胶珠，如本文所述。因此，第一条形码分子可以包含可以引发编码例如免疫细胞受体(例如，TCR或BCR)的V(D)J序列至少一部分、指导RNA的至少一部分和/或指导RNA鉴别条形码的至少一部分的核酸序列的引发序列。在一些情况下，具有这样的核酸序列的核酸分子是cDNA，该cDNA是由相应mRNA的逆转录产生的，例如使用含有poly-T的引物(或其他引物)。然后可以使用引物对产生的cDNA进行条形码化，所述引物包含与产生的cDNA的至少一部分杂交的条形码序列(和任选地，独特的分子标识符(UMI)序列)。在一些情况下，模板转换寡核苷酸与具有末端转移酶活性的末端转移酶或逆转录酶可结合用于在cDNA上产生引发区，条形码化引物可在cDNA产生期间与之杂交。例如，末端转移酶活性可以在cDNA的3'末端添加poly-C尾部，从而使模板转换寡核苷酸可以通过poly-G引发序列结合，并且可以进一步延伸cDNA的3'末端。然后可以从cDNA变性原始的mRNA模板和模板转换寡核苷酸，然后可以将包含与cDNA上所产生的引发区的至少一部分互补的序列的条形码化引物与cDNA杂交并生成包含条形码序列(以及任何可选的UMI序列)和cDNA的互补序列的条形码化构建体。

在各方面，本文提供了适合于处理gDNA或其衍生物的珠子(例如，珠粒)。珠子可以是凝胶珠。珠子可以是适合于处理编码例如免疫细胞受体(例如，TCR或BCR)的V(D)J序列至少一部分、指导RNA的至少一部分和/或指导RNA鉴别条形码的至少一部分的核酸序列(例如，mRNA、cDNA等)的相同珠子。例如，珠子可以包含多种不同类型的引物。条形码化的引物可以偶联或以其他方式附接至凝胶珠。在一些情况下，条形码化的引物可以包含部分双链的衔接子。在一些情况下，衔接子可以分叉有单链区域(例如，具有“Y”形)。在一些情况下，衔接子可能没有分叉。在一些情况下，条形码化的引物可以可释放地附接至凝胶珠，如本文其他地方所述。条形码化的引物可以能够与酶(例如，转座酶)相互作用(例如以形成复合物)。在一些情况下，珠子可以偶联或以其他方式附接至转座酶-引物复合物。

图113示出了携带条形码的珠子的示例。核酸分子11302(例如，寡核苷酸)可以通过可释放的键11306(例如，二硫键)与珠子11304偶联。相同的珠子11304可以偶联(例如，经由可释放的连接)至一个或多个其他核酸分子11318、11320。核酸分子11302可以是或包含条形码。如本文其他地方所述，条形码的结构可以包括多个序列元件。核酸分子11302可以包含可以在后续处理中使用的功能序列11308。例如，功能序列11308可以包括一个或多个测序仪特异性流动池附接序列(例如，用于

测序系统的P5序列)和测序引物序列(例如，用于

测序系统的R1引物)。核酸分子11302可以包括条形码序列11310以用于条形码化样品(例如，DNA、RNA、蛋白质等)。在一些情况下，条形码序列11310可以是珠子特异性的，使得条形码序列11310对于偶联至相同的珠子11304的所有核酸分子(例如，包括核酸分子11302)是共有的。可替代地或另外地，条形码序列11310可以是区室特异性的，使得条形码序列11310对于偶联至被分区到相同区室中的一个或多个珠子的所有核酸分子是共有的。核酸分子11302可包含特异性引发序列11312，例如，mRNA(例如，gRNA、TRA、TRB等)特异性引发序列(例如，poly-T序列)、靶向引发序列和/或随机引发序列。核酸分子11302可包含锚定序列11314，以确保特异性引发序列11312在(例如，mRNA的)序列末端杂交。例如，锚定序列11314可以包括核苷酸的随机短序列，例如1聚体、2聚体、3聚体或更长的序列，其可以确保poly-T区段更可能在mRNA的poly-A尾的序列末端杂交。

核酸分子11302可包含独特分子鉴别序列11316(例如，独特分子标识符(UMI))。在一些情况下，独特的分子鉴别序列11316可包含约5至约113个核苷酸。可替代地，独特分子鉴别序列11316可包含少于约5个或多于约113个核苷酸。独特分子鉴别序列11316可以是在与单个珠子(例如，珠子11304)偶联的单个核酸分子(例如11302、11318、11320等)之间改变的独特序列。在一些情况下，独特分子鉴别序列11316可以是随机序列(例如，诸如随机N聚体序列)。例如，UMI可以提供被捕获的起始mRNA分子的独特的标识符，以便允许定量原始表达的RNA的数量。应理解，尽管图113显示了与珠子11304的表面偶联的三个核酸分子11302、11318、11320，但单个珠子可以与任何数量的单个核酸分子偶联，例如，从一个到数十个到成百上千个甚至数百万个单个核酸分子。单个核酸分子的各个条形码可以包括共同的序列区段或相对共同的序列区段(例如，11308、11310、11312等)和在偶联至同一珠子的不同个体核酸分子之间的可变或独特的序列区段(例如，11316)。

在操作中，可以将生物颗粒(例如，细胞、DNA、RNA等)与携带条形码的珠子11304一起共分区。可以将条形码化的核酸分子11302、11318、11320从珠子11304释放到区室中。举例来说，在分析样品RNA的情况下，释放的核酸分子之一(例如，11302)的poly-T区段(例如，11312)可以与mRNA分子的poly-A尾杂交。逆转录可以产生mRNA的cDNA转录物，但是该转录物包括核酸分子11302的每个序列区段11308、11310、11316。因为核酸分子11302包含锚定序列11314，所以它更有可能在mRNA的poly-A尾部的序列末端杂交并引发逆转录。在任何给定的区室内，单个mRNA分子的所有cDNA转录物都可以包含共同的条形码序列区段11310。但是，由给定区室内的不同mRNA分子制成的转录物可以在独特的分子鉴别序列11312区段(例如，UMI区段)上发生改变。有益地，即使在给定区室的内容物的任何后续扩增之后，不同UMI的数量也可以指示来源于给定区室的mRNA的量，并因此指示来源于生物颗粒(例如，细胞)的mRNA的量。如上文所述，可以对转录物进行扩增、纯化和测序，以鉴别mRNA的cDNA转录物的序列，以及对条形码区段和UMI区段进行测序。尽管描述了poly-T引物序列，但是其他靶向或随机引物序列也可以用于引发逆转录反应。同样地，尽管描述为将条形码化的寡核苷酸释放到区室中，但是在一些情况下，结合至珠子(例如，凝胶珠)的核酸分子可用于杂交和捕获珠子的固相上的mRNA，例如，以促进RNA与其他细胞内容物的分离。

在一些情况下，可以将包含反应性或能够被活化以使其变为反应性的官能团的前体与其他前体聚合以产生包含活化或可活化的官能团的凝胶珠。然后可以将官能团用于将另外的物质(例如，二硫化物接头、引物、其他寡核苷酸等)连接至凝胶珠。例如，一些包含羧酸(COOH)基团的前体可以与其他前体共聚以形成还包含COOH官能团的凝胶珠。在一些情况下，丙烯酸(包含游离COOH基团的物质)、丙烯酰胺和双(丙烯酰基)胱胺可被共聚在一起以产生包含游离COOH基团的凝胶珠。可以活化凝胶珠的COOH基团(例如，通过1-乙基-3-(3-二甲基氨基丙基)碳二亚胺(EDC)和N-羟基琥珀酰亚胺(NHS)或4-(4,6-二甲氧基-1,3,5-三嗪-2-基)-4-甲基吗啉盐酸盐(DMTMM))，以使其具有反应性(例如，在EDC/NHS或DMTMM用于活化时对胺官能团具有反应性)。然后，活化的COOH基团可以与包含待与珠子连接的部分的合适的物质(例如，包含胺官能团的物质，其中羧酸基团被活化以与胺官能团反应)反应。

在其聚合物网络中包含二硫键的珠子可以通过将一些二硫键还原为游离硫醇而用另外的物质官能化。可以通过例如还原剂(例如，DTT、TCEP等)的作用来还原二硫键，以产生游离的硫醇基团，而不会溶解珠子。珠子的游离硫醇然后可以与一种物质的游离硫醇或包含另一个二硫键的物质反应(例如，通过硫醇-二硫键交换)，使得物质可以与珠子连接(例如，通过产生的二硫键)。在一些情况下，珠子的游离硫醇可与任何其他合适的基团反应。例如，珠子的游离硫醇可以与包含丙烯酸酯部分的物质反应。珠子的游离硫醇基团可以通过Michael加成化学与丙烯酸酯反应，从而使包含丙烯酸酯的物质连接到珠子上。在一些情况下，可以通过包含硫醇封端剂(例如，N-乙基马来酰胺或碘乙酸酯)来防止不受控制的反应。

可以控制珠子内二硫键的活化，使得仅活化少量的二硫键。例如，可以通过控制用于生成游离硫醇基团的还原剂的浓度和/或用于在珠子聚合中形成二硫键的试剂的浓度来进行控制。在一些情况下，低浓度(例如，还原剂分子：凝胶珠的比率小于或等于约1：100,000,000,000、小于或等于约1：10,000,000,000、小于或等于约1：1,000,000,000、小于或等于约1：100,000,000、小于或等于约1：10,000,000、小于或等于约1：1,000,000、小于或等于约1：100,000、小于或等于约1：10,000)的还原剂可用于还原。控制还原为游离硫醇的二硫键的数量可能对确保官能化过程中的珠子结构完整性有用。在一些情况下，光学活性剂(例如，荧光染料)可以经由珠子的游离硫醇基团与珠子偶联，并用于定量存在于珠子中的游离硫醇的数量和/或追踪珠子。

在一些情况下，在形成凝胶珠后向凝胶珠添加部分可能是有利的。例如，在凝胶珠形成之后添加寡核苷酸(例如，条形码化的寡核苷酸)可避免可能在聚合过程中发生的在链转移终止期间物质的损失。此外，较小的前体(例如，不包含侧链基团和连接的部分的单体或交联剂)可以用于聚合，并且可以最小地受到由于粘性效应而增长链末端的阻碍。在一些情况下，凝胶珠合成后的官能化可以最小化装载有潜在破坏剂(例如，自由基)和/或化学环境的物质(例如，寡核苷酸)的暴露。在一些情况下，生成的凝胶可以具有上临界溶解温度(UCST)，其可以允许珠子的温度驱动的溶胀和塌陷。这样的功能性可以在随后用寡核苷酸对珠子进行官能化期间帮助寡核苷酸(例如，引物)渗透到珠子中。在产生后的官能化还可用于控制珠子中物质的装载率，使得例如使装载率的改变最小化。物质装载还可以在批量过程中进行，使得多个珠子可以在单个批次中被该物质官能化。

注入或以其他方式引入区室的珠子可包含可释放、可裂解或可逆地附接的条形码。注入或以其他方式引入区室的珠子可以包含可活化的条形码。注入或以其他方式引入区室的珠子可以是可降解、可破坏或可溶解的珠子。

条形码可以可释放地、可裂解地或可逆地附接至珠子，使得条形码可以通过条形码分子和珠子之间的键的断裂而释放或可释放，或者通过下面的珠子自身的降解而释放，从而允许条形码被其他试剂接近或可以被其他试剂接近，或两者。在非限制性实例中，可通过还原二硫键、使用限制酶、光活化的裂解或通过其他类型的刺激(例如，化学、热、pH、酶促等)和/或反应的裂解来实现裂解，例如本文其他地方所述。可释放的条形码有时可被称为可活化的，因为它们一旦释放就可用于反应。因此，例如，可活化的条形码可通过从珠子(或本文所述的其他合适类型的区室)释放条形码来活化。在所描述的方法和系统的背景中还设想了其他可活化配置。

除了或作为替代珠子与相关分子(例如，含有条形码的核酸分子(例如，条形码化的寡核苷酸))之间的可裂解连接，珠子可自发地或在暴露于一种或多种刺激(例如，温度改变，pH值改变，暴露于特定化学物质或相，暴露于光、还原剂等)后可降解、可破坏或可溶解。在一些情况下，珠子可以是可溶解的，使得在暴露于特定化学物质或环境改变(例如，温度改变或pH值改变)时，珠子的材料成分被溶解。在一些情况下，凝胶珠可以在高温和/或碱性条件下降解或溶解。在一些情况下，珠子可以是可热降解的，使得当珠子暴露于适当的温度改变(例如，热量)时，珠子降解。与物质(例如，核酸分子，例如，条形码化的寡核苷酸)结合的珠子的降解或溶解可导致从珠子中释放物质。

如从以上公开内容中将理解的，珠子的降解可以指结合的或夹带的物质从珠子上解离，无论是否在结构上使物理珠子本身降解。例如，珠子的降解可涉及经由本文其他地方描述的一种或多种物质和/或方法对可裂解的连接的裂解。在另一个示例中，由于例如改变的化学环境，夹带的物质可以通过渗透压差从珠子释放。举例来说，由于渗透压差而引起的珠子孔径的改变通常可以在没有珠子本身的结构降解的情况下发生。在一些情况下，由于珠子的渗透性溶胀而导致的孔径增加可允许释放珠子内夹带的物质。在其他情况下，由于孔径收缩，珠子的渗透性收缩可能导致珠子更好地保留夹带的物质。

可将可降解的珠子引入到区室(例如，乳液的液滴或孔)中，使得当施加适当的刺激时，珠子在区室中降解，并释放任何缔合的物质(例如，寡核苷酸)到液滴内。游离物质(例如，寡核苷酸、核酸分子)可以与区室中包含的其他试剂相互作用。例如，可以将包含胱胺并通过二硫键连接至条形码序列的聚丙烯酰胺珠与油包水乳液的液滴内的还原剂组合。在液滴内，还原剂可破坏各种二硫键，导致珠子降解，并将条形码序列释放到液滴的水性内部环境中。在另一个实例中，在碱性溶液中加热包含结合珠子的条形码序列的液滴也可能导致珠子降解并且将所附接的条形码序列释放到液滴的水性内部环境中。

可以将任何合适数量的分子标签分子(例如，引物、条形码化的寡核苷酸)与珠子缔合，使得从珠子释放后，分子标签分子(例如引物，例如条形码化的寡核苷酸)以预定的浓度存在于区室中。可以选择这样的预定浓度以促进用于在区室内产生测序文库的某些反应，例如扩增。在一些情况下，引物的预定浓度可以通过产生携带核酸分子(例如，寡核苷酸)的珠子的过程来限制。

在一些情况下，珠子可以非共价地装载一种或多种试剂。可以通过例如使珠子经受足以使珠子溶胀的条件以使试剂有足够的时间扩散到珠子内部以及使珠子经受足以使珠子消溶胀的条件来非共价地装载珠子。珠子的溶胀可通过例如将珠子置于热力学上有利的溶剂中、使珠子经受更高或更低的温度、使珠子经受更高或更低的离子浓度和/或使珠子经受电场来实现。珠子的溶胀可以通过各种溶胀方法来实现。珠子的消溶胀可以例如通过将珠子转移至热力学不利的溶剂中、使珠子经受较低或较高的温度、使珠子经受较低或较高的离子浓度、和/或去除电场来实现。珠子的消溶胀可以通过各种消溶胀方法来实现。转移珠子可能导致珠子中的孔收缩。然后，收缩可能阻碍珠子内的试剂扩散出珠子内部。障碍可能是由于试剂与珠子内部之间的空间相互作用。转移可以微流体地实现。例如，可以通过将珠子从一种同流溶剂流移至另一种同流溶剂流来实现转移。珠子的溶胀性和/或孔径可以通过改变珠子的聚合物组成来调节。

在一些情况下，连接至前体的丙烯酸酯部分、连接至前体的另一物质或前体本身可包含不稳定键，例如，化学、热或光敏键，例如，二硫键、UV-敏感键等。一旦丙烯酸酯部分或其他包含不稳定键的部分被掺入到珠子中，该珠子也可以包含不稳定键。不稳定键可例如用于将物质(例如，条形码、引物等)可逆地连接(例如，共价连接)至珠子。在一些情况下，热不稳定键可包括基于核酸杂交的附接，例如，在寡核苷酸与附接至珠子的互补序列杂交时，以使得杂交体的热融解从珠子或微胶囊释放寡核苷酸，例如包含条形码的序列。

向凝胶珠上添加多种类型的不稳定键可导致产生能够对各种刺激作出反应的珠子。每种类型的不稳定键可能对相关的刺激(例如，化学刺激、光、温度、酶等)敏感，使得可以通过施加适当的刺激来控制通过每个不稳定键附接至珠子的物质的释放。这样的功能性可用于从凝胶珠中受控释放物质。在一些情况下，包含不稳定键的另一种物质可以在形成凝胶珠之后通过例如如上文所述的凝胶珠的活化的官能团与凝胶珠连接。应当理解，可释放地、可裂解地或可逆地附接至本文所述的珠子上的条形码包括通过裂解条形码分子和珠子之间的连接而释放或可释放的条形码或通过下面的珠子本身的降解而释放的条形码(从而允许其他试剂使用接近或可接近条形码)，或两者。

除了可热裂解的键、二硫键和紫外线敏感键之外，可以偶联至前体或珠子的不稳定键的其他非限制性实例包括酯键(例如，可被酸、碱或羟胺裂解)、邻位二醇键(例如，可通过高碘酸钠裂解)、Diels-Alder键(例如，可通过热裂解)、砜键(例如，可通过碱裂解)、甲硅烷基醚键(例如，可通过酸裂解)、糖苷键(例如，可通过淀粉酶裂解)，肽键(例如，可通过蛋白酶裂解)或磷酸二酯键(例如，可通过核酸酶(例如，DNA酶)裂解)。可以通过其他核酸分子靶向酶(例如，限制酶(例如，限制性内切核酸酶))裂解键，如下文进一步描述的。

物质可以在珠子产生期间(例如，在前体聚合期间)包封在珠子中。这样的物质可以参与聚合或可以不参与聚合。可以将这样的物质加入聚合反应混合物中，使得生成的珠子在珠子形成时包含该物质。在一些情况下，可以在形成后将这样的物质添加到凝胶珠中。这样的物质可包括例如核酸分子(例如，寡核苷酸)，用于核酸扩增反应的试剂(例如，引物、聚合酶、dNTP、辅因子(例如，离子辅因子)、缓冲液)，包括在本文中所描述的那些，用于酶促反应的试剂(例如，酶、辅因子、底物、缓冲液)，用于核酸修饰反应(例如，聚合、连接或消化)的试剂和/或用于一个或多个测序平台(例如，

的

)的模板制备(例如，标记)的试剂。这样的物质可包括一种或多种本文所述的酶，包括但不限于聚合酶、逆转录酶、限制酶(例如，内切核酸酶)、转座酶、连接酶、蛋白酶K、DNA酶等。这样的物质可包括一种或多种本文其他地方描述的试剂(例如，裂解剂、抑制剂、灭活剂、螯合剂、刺激物)。可以通过在前体的聚合过程中产生的聚合物网络密度、凝胶珠内的离子电荷的控制(例如，通过与聚合的物质连接的离子物质)或通过释放其他物质来控制这样的物质的捕集。包封的物质可在珠子降解时和/或通过施加能够从珠子中释放物质的刺激从珠子中释放。可替代地或另外地，可以在区室形成期间或之后将物质分区在区室(例如，液滴)中。这样的物质可以包括但不限于也可以包封在珠子中的上文所述的物质。

可降解的珠子可以包含具有不稳定键的一种或多种物质，使得当将珠子/物质暴露于适当的刺激时，键断裂并且珠子降解。不稳定键可以是化学键(例如，共价键、离子键)，或者可以是另一种类型的物理相互作用(例如，范德华相互作用、偶极-偶极相互作用等)。在一些情况下，用于产生珠子的交联剂可包含不稳定键。在暴露于适当的条件时，不稳定键可能被破坏并且珠子降解。例如，当将包含胱胺交联剂的聚丙烯酰胺凝胶珠暴露于还原剂时，胱胺的二硫键可被破坏并且珠子降解。

与不降解的珠子相比，可降解的珠子可用于在对珠子施加适当的刺激时更快地从珠子中释放附接的物质(例如，核酸分子、条形码序列、引物等)。例如，对于结合至多孔珠的内表面上的物质，或在包封的物质的情况下，在珠子降解时，该物质在溶液中可具有更大的迁移率和对其他物质的可及性。在一些情况下，物质也可以通过可降解的接头(例如，二硫键)附接至可降解的珠子。可降解的接头可以响应与可降解的珠子相同的刺激，或者两种可降解的物质可以响应不同的刺激。例如，条形码序列可以通过二硫键附接至包含胱胺的聚丙烯酰胺珠。当条形码化的珠子暴露于还原剂时，珠子降解并且条形码序列在条形码序列和珠子之间的二硫键和珠子中的胱胺的二硫键均断裂时被释放。

在提供可降解的珠子的情况下，避免在给定的时间之前将这样的珠子暴露于引起这样的降解的刺激可能是有益的，例如，以避免珠子的过早降解以及由这样的降解产生的问题，包括例如不良的流动特性和聚集。举例来说，在珠子包含可还原的交联基团(例如，二硫基团)的情况下，期望避免使这样的珠子与还原剂(例如，DTT或其他二硫键裂解试剂)接触。在这样的情况下，在一些情况下，将提供不含还原剂(例如，DTT)的对本文所述的珠子的处理。因为在商业酶制剂中经常提供还原剂，所以可能期望在处理本文所述的珠子时提供不含还原剂(或不含DTT)的酶制剂。这样的酶的示例包括例如聚合酶制剂、逆转录酶制剂、连接酶制剂以及许多其他可用于处理本文所述的珠子的酶制剂。术语“不含还原剂”或“不含DTT”的制剂可以是指具有用于降解珠子的这样的材料的下限的小于约1/10、小于约1/50或甚至小于约1/100。例如，对于DTT，无还原剂的制剂可具有小于约0.01毫摩尔(mM)、0.005mM、0.001mM DTT、0.0005mM DTT或甚至小于约0.0001mM DTT。在许多情况下，DTT的量可能无法检测到。

可以使用许多化学触发剂来触发珠子的降解。这些化学改变的示例可以包括但不限于珠子内组分完整性的pH介导的改变、珠子组分通过交联键的裂解的降解以及珠子组分的解聚。

在一些实施方案中，珠子可由包含可降解的化学交联剂(例如，BAC或胱胺)的材料形成。这样的可降解交联剂的降解可通过多种机制来完成。在一些示例中，珠子可与化学降解剂接触，该化学降解剂可引起氧化、还原或其他化学改变。例如，化学降解剂可以是还原剂，例如，二硫苏糖醇(DTT)。还原剂的其他实例可以包括β-巯基乙醇、(2S)-2-氨基-1,4-二巯基丁烷(二硫代丁基胺或DTBA)、三(2-羧乙基)膦(TCEP)或其组合。还原剂可降解在形成珠子的凝胶前体之间形成的二硫键，从而降解珠子。在其他情况下，溶液的pH改变(例如，pH增加)可以触发珠子的降解。在其他情况下，暴露于水溶液(例如，水)可以触发水解降解，从而导致珠子降解。在一些情况下，刺激的任何组合可以触发珠子的降解。例如，pH的改变可以使化学试剂(例如，DTT)能够成为有效的还原剂。

还可通过施加热刺激来诱导珠子释放其内容物。温度改变可导致珠子发生多种改变。例如，热可导致固体珠子液化。热量的改变可能导致珠子熔化，使得一部分珠子降解。在其他情况下，热量可能增加珠子组分的内部压力，使得珠子破裂或爆开。热量还可作用于用作构造珠子的材料的热敏聚合物。

任何合适的试剂可降解珠。在一些实施方案中，温度或pH的改变可用于降解珠子内的热敏键或pH敏感键。在一些实施方案中，化学降解剂可用于通过氧化、还原或其他化学改变来降解珠子内的化学键。例如，化学降解剂可以是还原剂，例如DTT，其中DTT可以降解在交联剂和凝胶前体之间形成的二硫键，从而使珠子降解。在一些实施方案中，可以添加还原剂以降解珠子，这可以导致珠子释放其内容物或可以不导致珠子释放其内容物。还原剂的示例可包括二硫苏糖醇(DTT)、β-巯基乙醇、(2S)-2-氨基-1,4-二巯基丁烷(二硫代丁基胺或DTBA)、三(2-羧乙基)膦(TCEP)或其组合。还原剂可以以约0.1mM、0.5mM、1mM、5mM、10mM的浓度存在。还原剂可以以至少约0.1mM、0.5mM、1mM、5mM、10mM或大于10mM的浓度存在。还原剂可以以至多约10mM、5mM、1mM、0.5mM、0.1mM或更低的浓度存在。

尽管已经在提供基本上单个占据的区室方面在上文描述了图106和图107，但在一些情况下，可能期望提供多重占据的区室，例如，在单个区室内包含含有条形码化的核酸分子(例如，寡核苷酸)的两个、三个、四个或更多个细胞和/或微胶囊(例如，珠子)。因此，如上文所述，可以控制包含流体和分区流体的生物颗粒和/或珠子的流动特性，以提供这样的多重占据的区室。特别地，可以控制流动参数以在大于约50％的区室、大于约75％并且在一些情况下大于约80％、90％、95％或更多的区室中提供给定的占据率。

在一些情况下，可以使用另外的微胶囊将另外的试剂递送至区室。在这样的情况下，可以有利的是将不同的珠子引入到共同的通道或液滴产生接合点中，从不同的珠子源(例如，包含不同的相关试剂)通过不同的通道入口引入到这样的共同的通道或液滴产生接合点(例如，接合点210)中。在这样的情况下，可以控制不同珠子进入通道或接合点的流量和频率，以提供来自每个来源的一定比例的微胶囊，同时确保在区室中这样的珠子与给定数量的生物颗粒的给定的配对或组合(例如，每个区室一个生物颗粒和一个珠子)。

本文所述的区室可包含小体积，例如，小于约10微升(μL)、5μL、1μL、500纳升(nL)、100nL、50nL、900皮升(pL)、800pL、700pL、600pL、500pL、400pL、300pL、200pL、100pL、50pL、20pL、10pL、1pL或更小。

例如，在基于液滴的区室的情况下，液滴的总体积可小于约1000pL、900pL、800pL、700pL、600pL、500pL、400pL、300pL、200pL、100pL、50pL、20pL、10pL、1pL或更小。在与微胶囊共分区的情况下，应当理解，在区室内的样品流体体积(例如，包括共分区的生物颗粒和/或珠子)可以小于上文所述的体积的约90％、小于上文所述的体积的约80％、小于约70％、小于约60％、小于约50％、小于约40％、小于约30％、小于约20％或小于约10％。

如本文其他地方所述，对物质进行分区可以产生区室的群体或多个区室。在这样的情况下，可以生成或以其他方式提供任何合适数量的区室。例如，可以生成或以其他方式提供至少约1,000个区室、至少约5,000个区室、至少约10,000个区室、至少约50,000个区室、至少约100,000个区室、至少约500,000个区室、至少约1,000,000个区室、至少约5,000,000个区室、至少约10,000,000个区室、至少约50,000,000个区室、至少约100,000,000个区室、至少约500,000,000个区室、至少约1,000,000,000个区室或更多个区室。此外，多个区室可以包括未被占据的区室(例如，空的区室)和被占据的区室。

试剂

根据一些方面，可将生物颗粒与裂解试剂一起分区，以在区室中释放生物颗粒的内容物。在这样的情况下，裂解剂可以在将生物颗粒引入分区接合点/液滴产生区(例如，接合点210)(例如通过通道接合点上游的额外的通道)的同时或紧接在其之前与生物颗粒悬浮液接触。根据其他方面，另外或可替代地，可以将生物颗粒与其他试剂一起分区，如将在下面进一步描述的。

图108显示了用于对生物颗粒和试剂进行共分区的微流体通道结构10800的示例。通道结构10800可以包括通道段10801、10802、10804、10806和10808。通道段10801和10802在第一通道接合点10809处连通。通道段10802、10804、10806和10808在第二通道接合点10810处连通。

在示例操作中，通道段10801可以将包括多个生物颗粒10814的水性流体10812沿着通道段10801传输到第二接合点10810中。替代或另外地，通道段10801可以传输珠子(例如，凝胶珠)。珠子可以包含条形码分子。

例如，通道段10801可以连接至包含生物颗粒10814的水性悬浮液的储液器。在第二接合点10810的上游并且紧接在到达第二接合点10810之前，通道段10801可以在第一接合点10809与通道段10802相遇。通道段10802可以将悬浮在水性流体10812中的多种试剂10815(例如，裂解剂)沿着通道段10802输送到第一接合点10809中。例如，通道段10802可以连接至包含试剂10815的储液器。在第一接合点10809之后，通道段10801中的水性流体10812可将生物颗粒10814和试剂10815两者带向第二接合点10810。在一些情况下，通道段10801中的水性流体10812可以包括一种或多种试剂，其可以与试剂10815相同或不同。与水性流体10812不混溶的第二流体10816(例如，油)可以从通道段10804和10806中的每一个输送到第二接合点10810。在第二通道接合点10810处遇到来自通道段10801的水性流体10812和来自通道段10804和10806中的每一个的第二流体10816时，水性流体10812可在第二流体10816中被分区为离散的液滴10818，并沿着通道段10808从第二接合点10810流出。通道段10808可将离散的液滴10818输送至流体偶联至通道段10808的出口储液器，可在其中收集离散的液滴。

第二流体10816可包含油，例如氟化油，其包含用于稳定所得液滴的含氟表面活性剂，例如，抑制所得液滴10818的后续聚结。

所产生的离散的液滴可以包括单个生物颗粒10814和/或一种或多种试剂10815。在一些情况下，所产生的离散的液滴可以包括携带条形码的珠子(未示出)，诸如经由本文其他地方描述的其他微流体结构。在一些情况下，离散的液滴可以不被占据(例如，没有试剂、没有生物颗粒)。

有利地，当裂解试剂和生物颗粒被共分区时，裂解试剂可以促进在区室内释放生物颗粒的内容物。区室中释放的内容物可以与其他区室的内容物保持离散。

应当理解，本文描述的通道段可以偶联至各种不同的流体源或接收组件中的任何一个，包括储液器、管道、歧管或其他系统的流体组件。应当理解，微流体通道结构10800可以具有其他几何形状。例如，微流体通道结构可以具有多于两个通道接合点。例如，微流体通道结构可以具有2、3、4、5个或更多个通道段，每个通道段携带在通道接合点相遇的相同或不同类型的珠子、试剂和/或生物颗粒。可以控制每个通道段中的流体流动以控制将不同元件分区成液滴。可以引导流体经由一个或多个流体流动单元沿着一个或多个通道或储液器流动。流体流动单元可包括压缩机(例如，提供正压)、泵(例如，提供负压)、致动器等以控制流体的流动。流体也可以通过施加的压差、离心力、电动泵、真空、毛细管或重力流等来控制。

裂解剂的实例包括生物活性试剂，例如用于裂解不同细胞类型(例如，革兰氏阳性或革兰氏阴性细菌、植物，酵母、哺乳动物等)的裂解酶，例如溶菌酶、染色体肽酶、溶葡萄球菌素、labiase、kitalase、溶壁酶和可从例如Sigma-Aldrich,Inc.(St Louis,MO)获得的多种其他裂解酶，以及其他市售裂解酶。其他裂解剂可以另外地或可替代地与生物颗粒共分区，以引起生物颗粒内容物释放到区室中。例如，在一些情况下，可以使用基于表面活性剂的裂解液裂解细胞，尽管对于其中表面活性剂可能干扰稳定的乳液的基于乳液的系统这些可能是不太期望的。在一些情况下，裂解溶液可包含非离子表面活性剂，例如，TritonX-100、CHAPS和Tween20。在一些情况下，裂解溶液可包括离子表面活性剂，例如，十二烷基肌氨酸钠和十二烷基硫酸钠(SDS)。在一些情况下，可通过渗透压来实现裂解，例如，使用低渗裂解缓冲液。还可以在一些情况下(例如，基于非乳液的区室，例如可以附加于或替代液滴分区的生物颗粒的包封，其中包封物的任何孔径足够小以在细胞破裂后保留给定大小的核酸片段)使用电穿孔、热、声或机械细胞破坏。

可替代地或除了与上文所述的生物颗粒共分区的裂解剂之外，其他试剂也可以与生物颗粒共分区，包括例如DNA酶和RNA酶，灭活剂或抑制剂，例如蛋白酶K和/或其他蛋白酶抑制剂，磷酸酶抑制剂，螯合剂，例如EDTA，以及用于去除或以其他方式减少不同细胞裂解物组分对核酸后续处理的负活性或影响的其他试剂。另外，在包封的生物颗粒的情况下，可将生物颗粒暴露于适当的刺激下以从共分区的微胶囊中释放生物颗粒或其内容物。例如，在一些情况下，化学刺激物可以与包封的生物颗粒一起被共分区以允许微胶囊的降解以及细胞或其内容物释放到更大的区室中。在一些情况下，该刺激物可以与本文其他地方描述的用于从其各自的微胶囊(例如，珠子)释放核酸分子(例如，寡核苷酸)的刺激物相同。在替代方面，这可以是不同且不重叠的刺激物，以便允许被包封的生物颗粒在与将核酸分子释放到同一区室的不同的时间释放到区室中。

其他试剂也可以与生物颗粒共分区，例如用以使生物颗粒的DNA片段化的内切核酸酶，用于扩增生物颗粒的核酸片段并将条形码分子标签附接至扩增的片段的DNA聚合酶和dNTP。其他酶可以共分区，包括但不限于聚合酶、转座酶、连接酶、蛋白酶K、DNA酶等。其他试剂还可以包括逆转录酶，包括具有末端转移酶活性的酶，引物和寡核苷酸以及转换寡核苷酸(在本文也称为“开关寡核苷酸”或“模板转换寡核苷酸”)，其可用于模板转换。在一些情况下，模板转换可用于增加cDNA的长度。在一些情况下，模板转换可用于将预定义的核酸序列附加到cDNA。在模板转换的一个实例中，cDNA可以从模板(例如，细胞mRNA)的逆转录产生，其中具有末端转移酶活性的逆转录酶可以以不依赖模板的方式向cDNA添加另外的核苷酸，例如polyC。转换寡核苷酸可包括与该另外的核苷酸互补的序列，例如polyG。cDNA上的另外的核苷酸(例如，polyC)可以与转换寡核苷酸上的另外的核苷酸(例如，polyG)杂交，由此逆转录酶可以将转换寡核苷酸用作模板，以进一步延伸cDNA。模板转换寡核苷酸可包含杂交区和模板区。杂交区可包含能够与靶标杂交的任何序列。在一些情况下，如前所述，杂交区域包含一系列G碱基，以互补在cDNA分子的3'末端突出的C碱基。一系列G碱基可包括1个G碱基、2个G碱基、3个G碱基、4个G碱基、5个G碱基或大于5个G碱基。模板序列可以包含要掺入cDNA的任何序列。在一些情况下，模板区域包含至少1个(例如，至少2个、3个、4个、5个或更多个)标签序列和/或功能序列。转换寡核苷酸可包含脱氧核糖核酸；核糖核酸；修饰的核酸，包括2-氨基嘌呤，2,6-二氨基嘌呤(2-氨基-dA)，倒置dT，5-甲基dC，2'-脱氧肌苷，Super T(5-羟基丁炔-2'-脱氧尿苷)，Super G(8-氮杂7-脱氮鸟嘌呤核苷)，锁核酸(LNA)，解锁核酸(UNA，例如，UNA-A、UNA-U、UNA-C、UNA-G)，Iso-dG，Iso-dC，2’氟代碱(例如，氟代C、氟代U、氟代A和氟代G)，或任何组合。

在一些情况下，转换寡核苷酸的长度可以为至少约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249或250个核苷酸或更长。

在一些情况下，转换寡核苷酸的长度为最多约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249或250个核苷酸。

一旦细胞的内容物释放到它们各自的区室中，就可以在区室内进一步处理其中包含的大分子组分(例如，生物颗粒的大分子成分，例如RNA、DNA或蛋白质)。根据本文所述的方法和系统，可以为单个生物颗粒的大分子组分内容物提供独特的标识符，使得在表征那些大分子组分时，它们可以归属为已来源于相同的一个或多个生物颗粒。通过将独特的标识符特定地分配给单个生物颗粒或生物颗粒组来提供将特征归属于单个生物颗粒或生物颗粒组的能力。可以用单个或多个生物颗粒或生物颗粒群分配或关联例如核酸条形码形式的独特的标识符，以便用独特的标识符标记或标识生物颗粒的大分子组分(因此，其特征)。然后，这些独特的标识符可用于将生物颗粒的组分和特征归属于单个生物颗粒或生物颗粒组。

在一些方面，这是通过将单个生物颗粒或生物颗粒组与独特的标识符共分区来执行的，例如如上文所述(参考图2)。在一些方面，以核酸分子(例如，寡核苷酸)的形式提供独特的标识符，所述核酸分子包含核酸条形码序列，所述核酸条形码序列可以附接至单个生物颗粒的核酸内容物或以其他方式与单个生物颗粒的核酸内容物缔合，或附接至生物颗粒的其他成分，尤其是附接至那些核酸的片段。对核酸分子进行分区，使得在给定区室中的核酸分子之间，其中包含的核酸条形码序列是相同的，但是在不同区室之间，核酸分子可以并且确实具有不同的条形码序列，或至少代表在给定分析中所有区室间不同的大量条形码序列。在一些方面，尽管在一些情况下，可以存在两个或更多个不同的条形码序列，但是仅一个核酸条形码序列可以与给定的区室缔合。

核酸条形码序列可以在核酸分子(例如，寡核苷酸)的序列内包含约6至约20或更多个核苷酸。核酸条形码序列可包含约6至约20、30、40、50、60、70、80、90、100或更多个核苷酸。在一些情况下，条形码序列的长度可以是约6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个核苷酸或更长。在一些情况下，条形码序列的长度可以是至少约6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个核苷酸或更长。在一些情况下，条形码序列的长度可以是至多约6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个核苷酸或更短。这些核苷酸可以是完全连续的，即在相邻核苷酸的单个区段中，或者它们可以被分成两个或更多个被1个或更多个核苷酸分开的分开序列。在一些情况下，分开的条形码子序列的长度可以是约4至约16个核苷酸。在一些情况下，条形码子序列可以是约4、5、6、7、8、9、10、11、12、13、14、15、16个核苷酸或更长。在一些情况下，条形码子序列可以是至少约4、5、6、7、8、9、10、11、12、13、14、15、16个核苷酸或更长。在一些情况下，条形码子序列可以是至多约4、5、6、7、8、9、10、11、12、13、14、15、16个核苷酸或更短。

共分区的核酸分子还可以包含可用于处理来自共分区的生物颗粒的核酸的其他功能序列。这些序列包括例如靶向或随机/通用扩增引物序列，用于从区室内的单个生物颗粒扩增基因组DNA，同时附接相关的条形码序列，测序引物或引物识别位点，杂交或探测序列，例如用于鉴别序列的存在或用于拉下和/或收集条形码化的核酸，或许多其他潜在功能性序列中的任何一个。也可以使用共分区寡核苷酸的其他机制，包括例如两个或多个液滴的聚结，其中一个液滴包含寡核苷酸，或将寡核苷酸微分配到区室中，例如微流体系统中的液滴。

在一个实例中，提供了微胶囊，例如珠子，其各自包含大量可释放地附接至珠子的上文所述的条形码化核酸分子(例如，条形码化的寡核苷酸)，其中附接至特定珠子的所有核酸分子将包括相同的核酸条形码序列，但是其中在所使用的珠子群体中呈现大量不同的条形码序列。在一些实施方案中，水凝胶珠(例如，包含聚丙烯酰胺聚合物基质)用作核酸分子进入区室的固体支持物和递送载体，因为它们能够携带大量核酸分子，并且可以被配置为如本文其他地方所述在暴露于特定刺激下释放那些核酸分子。在一些情况下，珠子群体提供了多样化的条形码序列库，其包括至少约1,000个不同的条形码序列，至少约5,000个不同的条形码序列，至少约10,000个不同的条形码序列，至少约50,000个不同的条形码序列，至少约100,000个不同的条形码序列，至少约1,000,000个不同的条形码序列，至少约5,000,000个不同的条形码序列或至少约10,000,000个不同的条形码序列，或更多。另外，每个珠子可以提供为附接有大量核酸(例如，寡核苷酸)分子。特别地，单个珠子上包括条形码序列的核酸分子的分子数量可以是至少约1,000个核酸分子、至少约5,000个核酸分子、至少约10,000个核酸分子、至少约50,000个核酸酸分子、至少约100,000个核酸分子、至少约500,000个核酸分子、至少约1,000,000个核酸分子、至少约5,000,000个核酸分子、至少约10,000,000个核酸分子、至少约50,000,000个核酸分子、至少约100,000,000个核酸分子、至少约250,000,000个核酸分子，以及在一些情况下至少约10亿个核酸分子，或更多。给定珠子的核酸分子可以包括相同(或通用)的条形码序列、不同的条形码序列或两者的组合。给定珠子的核酸分子可包括多组核酸分子。给定组的核酸分子可以包括相同的条形码序列。相同的条形码序列可以不同于另一组核酸分子的条形码序列。

此外，当对珠子群体进行分区时，所得的区室群体还可以包括多样化的条形码库，其包括至少约1,000个不同的条形码序列、至少约5,000个不同的条形码序列、至少约10,000个不同的条形码序列、至少约50,000个不同的条形码序列、至少约100,000个不同的条形码序列、至少约1,000,000个不同的条形码序列、至少约5,000,000个不同的条形码序列、或至少约10,000,000个不同的条形码序列。另外，群体的每个区室可以包括至少约1,000个核酸分子、至少约5,000个核酸分子、至少约10,000个核酸分子、至少约50,000个核酸分子、至少约100,000个核酸分子、至少约500,000个核酸、至少约1,000,000个核酸分子、至少约5,000,000个核酸分子、至少约10,000,000个核酸分子、至少约50,000,000个核酸分子、至少约100,000,000个核酸分子、至少约250,000,000个核酸分子，以及在一些情况下至少约10亿个核酸分子。

在一些情况下，可能希望将多个不同的条形码掺入给定的区室中，附接至区室中的单个或多个珠子上。例如，在一些情况下，混合但已知的一组条形码序列可以在后续处理中提供更大的鉴别保证，例如，通过提供条形码对给定区室的更强寻址或归属，作为给定区室的输出的重复或独立确认。

在对珠子施加特定刺激后，核酸分子(例如，寡核苷酸)可从珠子中释放。在一些情况下，刺激可以是光刺激，例如通过裂解释放核酸分子的光不稳定键。在其他情况下，可以使用热刺激，其中珠子环境温度的升高将导致核酸分子的键的断裂或核酸分子从珠子的其他释放。在其他情况下，可以使用化学刺激，其切割核酸分子与珠子的连接，或者以其他方式导致核酸分子从珠子中释放。在一种情况下，这样的组合物包括上文所述的用于包封生物颗粒的聚丙烯酰胺基质，并且可以通过暴露于还原剂(例如DTT)而降解，以释放附接的核酸分子。

在一些方面，提供了用于受控分区的系统和方法。液滴尺寸可通过调节通道架构(例如，微流体通道架构)中的一些几何特征来控制。例如，可以调节通道的膨胀角、宽度和/或长度以控制液滴的尺寸。

图109显示了用于将珠子受控地分区成离散的液滴的微流体通道结构的示例。通道结构10900可以包括在通道接合点10906(或相交处)处与储液器10904连通的通道段10902。储液器10904可以是腔室。如本文所使用的，对“储液器”的任何引用也可以指“腔室”。在操作中，包括悬浮的珠子10912的水性流体10908可以沿着通道段10902输送到接合点10906中，以与不与储液器10904中的水性流体10908混溶的第二流体10910相遇，以产生流入储液器10904的水性流体10908的液滴10916、10918。在水性流体10908和第二流体10910相遇的接合点10906处，可以基于因素例如在接合点10906处的流体动力、两种流体10908、10910的流速、流体特性和通道结构10900的某些几何参数(例如，w,h₀,α等)形成液滴。通过从通道段10902连续注入水性流体10908通过接合点10906，可在储液器10904中收集多个液滴。

所产生的离散的液滴可以包含珠子(例如，如在被占据的液滴10916中)。可替代地，所产生的离散的液滴可包含多于一个珠子。可替代地，所产生的离散的液滴可以不包含任何珠子(例如，如在未被占据的液滴10918中)。在一些情况下，如本文其他地方所述，产生的离散的液滴可包含一个或多个生物颗粒。在一些情况下，产生的离散的液滴可包含一种或多种试剂，如本文其他地方所述。

在一些情况下，水性流体10908可以具有珠子10912的基本上均匀的浓度或频率。珠子10912可以从单独的通道(图109中未示出)引入通道段10902。通道段10902中的珠子10912的频率可以通过控制将珠子10912引入通道段10902中的频率和/或通道段10902和单独的通道中的流体的相对流速来控制。在一些情况下，珠子可以从多个不同的通道引入通道段10902，并相应地控制频率。

在一些情况下，通道段10902中的水性流体10908可包含生物颗粒(例如，参照图106和107描述的)。在一些情况下，水性流体10908可具有生物颗粒的基本上均匀的浓度或频率。与珠子一样，生物颗粒可以从单独的通道引入通道段10902。通道段10902中的水性流体10908中的生物颗粒的频率或浓度可以通过控制将生物颗粒引入通道段10902中的频率和/或通道段10902和单独的通道中的流体的相对流速来控制。在一些情况下，可以将生物颗粒从多个不同的通道引入通道段10902，并相应地控制频率。在一些情况下，第一单独的通道可以引入珠子，第二单独的通道可以将生物颗粒引入通道段10902。引入珠子的第一单独的通道可以在引入生物颗粒的第二单独的通道的上游或下游。

第二流体10910可包含油，例如氟化油，其包含用于稳定所得液滴的含氟表面活性剂，例如，抑制所得液滴的后续聚结。

在一些情况下，第二流体10910可以不经受和/或被引导任何流入或流出储液器10904。例如，第二流体10910可以在储液器10904中基本上静止。在一些情况下，第二流体10910可在储液器10904内经受流动，但不流入或流出储液器10904，例如通过向储液器10904施加压力和/或受接合点10906处的水性流体10908的进入流动的影响。可替代地，第二流体10910可以经受和/或被引导流入或流出储液器10904。例如，储液器10904可以是引导第二流体10910从上游流到下游的通道，以输送所产生的液滴。

在接合点10906处或附近的通道结构10900可以具有某些几何特征，该几何特征至少部分地确定由通道结构10900形成的液滴的尺寸。通道段10902可以在接合点10906处或附近具有高度h₀和宽度w。举例来说，通道段10902可包括矩形横截面，该矩形横截面导致具有较宽横截面(例如在宽度或直径上)的储液器10904。可替代地，通道段10902的横截面可以是其他形状，例如，圆形、梯形、多边形或任何其他形状。在接合点10906处或附近的储液器10904的顶壁和底壁可以以膨胀角α倾斜。膨胀角α允许舌状物(一部分水性流体10908在接合点10906处离开通道段10902并在液滴形成之前进入储液器10904)的深度增加并且有助于减小中间形成的液滴的曲率。液滴尺寸可能随着膨胀角的增加而减小。所得的液滴R_d可以通过以下等式针对上述的h₀、w和α的几何参数进行预测：

例如，对于具有w＝21μm、h＝21μm和α＝3°的通道结构，预测的液滴直径为121μm。在另一个示例中，对于具有w＝25μm、h＝25μm和α＝5°的通道结构，预测的液滴直径为123μm。在另一个示例中，对于具有w＝28μm、h＝28μm和α＝7°的通道结构，预测的液滴直径为124μm。

在一些情况下，膨胀角α可以为约0.5°至约4°、约0.1°至约10°或约0°至约90°。例如，膨胀角可以为至少约0.01°、0.1°、0.2°、0.3°、0.4°、0.5°、0.6°、0.7°、0.8°、0.9°、1°、2°、3°、4°、5°、6°、7°、8°、9°、10°、15°、20°、25°、30°、35°、40°、45°、50°、55°、60°、65°、70°、75°、80°、85°或更高。在一些情况下，膨胀角可以为至多约89°、88°、87°、86°、85°、84°、83°、82°、81°、80°、75°、70°、65°、60°、55°、50°、45°、40°、35°、30°、25°、20°、15°、10°、9°、8°、7°、6°、5°、4°、3°、2°、1°、0.1°、0.01°或更小。在一些情况下，宽度w可以为约100微米(μm)至约500μm。在一些情况下，宽度w可以为约10μm至约200μm。可替代地，宽度可以小于约10μm。可替代地，宽度可以大于约500μm。在一些情况下，进入接合点10906的水性流体10908的流速可以为约0.04微升(μL)/分钟(min)至约40μL/min。在一些情况下，进入接合点10906的水性流体10908的流速可以为约0.01微升(μL)/分钟(min)至约100μL/min。可替代地，进入接合点10906的水性流体10908的流速可以小于约0.01μL/min。可替代地，进入接合点10906的水性流体10908的流速可以大于约40μL/min，例如，45μL/min、50μL/min、55μL/min、60μL/min、65μL/min、70μL/min、75μL/min、80μL/min、85μL/min、90μL/min、95μL/min、100μL/min、110μL/min、120μL/min、130μL/min、140μL/min、150μL/min或更高。在较低的流速下，例如，约小于或等于10微升/分钟的流速，液滴半径可能不取决于进入接合点10906的水性流体10908的流速。

在一些情况下，至少约50％的所产生的液滴可以具有均一尺寸。在一些情况下，至少约55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或更多的所产生的液滴可以具有均一尺寸。可替代地，少于约50％的所产生的液滴可以具有均一尺寸。

液滴产生的吞吐量可以通过增加产生点来增加，例如增加水性流体10908通道段(例如，通道段10902)和储液器10904之间的接合点(例如，接合点10906)的数量。可替代地或另外地，可以通过增加通道段10902中的水性流体10908的流速来增加液滴产生的吞吐量。

图110显示了用于增加液滴产生吞吐量的微流体通道结构的示例。微流体通道结构11000可包括多个通道段11002和储液器11004。多个通道段11002中的每一个可与储液器11004流体连通。通道结构11000可包括多个通道段11002和储液器11004之间的多个通道接合点11006。每个通道接合点可以是液滴产生的点。来自图4中的通道结构400的通道段402和对其组分的任何描述可以对应于通道结构11000中的多个通道段11002的给定通道段和对其组分的任何描述。来自通道结构10900的储液器10904及对其相应组分的任何描述可以对应于来自通道结构11000的储液器11004及对其相应组分的任何描述。

多个通道段11002中的每个通道段可包括包含悬浮珠11012的水性流体11008。储液器11004可包含与水性流体11008不混溶的第二流体11010。在一些情况下，第二流体11010可以不经受和/或被引导任何流入或流出储液器11004。例如，第二流体11010可以在储液器11004中基本上静止。在一些情况下，第二流体11010可以可在储液器11004内经受流动，但不流入或流出储液器11004，例如通过向储液器11004施加压力和/或受接合点处的水性流体11008的进入流动的影响。可替代地，第二流体11010可以经受和/或被引导流入或流出储液器11004。例如，储液器11004可以是引导第二流体11010从上游流到下游的通道，以输送产生的液滴。

在操作中，包括悬浮的珠子11012的水性流体11008可以沿着多个通道段11002输送到多个接合点11006中，以与储液器11004中的第二流体11010相遇以产生液滴11016、11018。可以在每个与储液器11004的对应的接合点处从每个通道段形成液滴。如本文其他地方所描述的，在水性流体11008和第二流体11010相遇的接合点处，可以基于因素诸如在接合点处的流体动力、两种流体11008、11010的流速、流体特性和通道结构11000的某些几何参数(例如，w,h₀,α等)形成液滴。通过从多个通道段11002连续注入水性流体11008通过多个接合点11006，可以在储液器11004中收集多个液滴。使用通道结构11000的平行通道配置，可以显著增加吞吐量。例如，具有包含水性流体11008的五个入口通道段的通道结构产生液滴的频率是具有一个入口通道段的通道结构的五倍，前提是通道段中的流体流速基本相同。不同入口通道段中的流体流速可以基本相同或可以不基本相同。按照实际的和储液器的尺寸所允许的，通道结构可以具有尽可能多的平行通道段。例如，通道结构可具有至少约2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、150、500、250、300、350、400、450、500、600、700、800、900、1000、1500、5000或更多个平行或基本上平行的通道段。

对于多个通道段11002中的每个通道段，几何参数w、h₀和α可以是均一的或可以不是均一的。例如，每个通道段在其各自与储液器11004的通道接合点处或附近可具有相同或不同的宽度。例如，每个通道段在其各自与储液器11004的通道接合点处或附近可具有相同或不同的高度。在另一个示例中，储液器11004可以在与多个通道段11002的不同通道接合点处具有相同或不同的膨胀角。当几何参数均一时，有利地，即使吞吐量增加，也可以将液滴尺寸控制为是均一的。在一些情况下，当期望具有不同的液滴尺寸分布时，可以相应地改变用于多个通道段11002的几何参数。

在一些情况下，至少约50％的所产生的液滴可以具有均一的尺寸。在一些情况下，至少约55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或更多的所产生的液滴可以具有均一的尺寸。可替代地，少于约50％的所产生的液滴可以具有均一的尺寸。

图111显示了用于增加液滴产生吞吐量的微流体通道结构的另一示例。微流体通道结构11100可包括大体圆形地围绕储液器11104的周边布置的多个通道段11102。多个通道段11102中的每一个可与储液器11104流体连通。通道结构11100可包括在多个通道段11102和储液器11104之间的多个通道接合点11106。每个通道接合点可以是液滴产生的点。来自图109中的通道结构10900的通道段10902和对其组分的任何描述可以对应于通道结构11100中的多个通道段11102中的给定通道段和对其组分的任何描述。来自通道结构10900的储液器10904和对其组分的任何描述可以对应于来自通道结构11100的储液器11104和对其组分的任何描述。

多个通道段11102中的每个通道段可以包括水性流体11108，该水性流体11108包括悬浮的珠子11112。储液器11104可以包括与水性流体11108不混溶的第二流体11110。在一些情况下，第二流体11110可以不经受和/或被引导任何流入或流出储液器11104。例如，第二流体11110可以在储液器11104中基本上静止。在一些情况下，第二流体11110可以可在储液器11104内经受流动，但不流入或流出储液器11104，例如通过向储液器11104施加压力和/或受接合点处的水性流体11108的进入流动的影响。可替代地，第二流体11110可以经受和/或被引导流入或流出储液器11104。例如，储液器11104可以是引导第二流体11110从上游流到下游的通道，以输送产生的液滴。

在操作中，包括悬浮的珠子11112的水性流体11108可以沿着多个通道段11102输送到多个接合点11106中，以与储液器11104中的第二流体11110相遇以产生多个液滴11116。液滴可以在与储液器11104的每个对应的接合点处从每个通道段形成。如本文其他地方所描述的，在水性流体11108和第二流体11110相遇的接合点处，可以基于因素诸如在接合点处的流体动力、两种流体11108、11110的流速、流体特性和通道结构11100的某些几何参数(例如，通道段11102的宽度和高度，储液器11104的膨胀角等)形成液滴。通过从多个通道段11102连续注入水性流体11108通过多个接合点11106，可以在储液器11104中收集多个液滴。使用通道结构11100的平行通道配置，可以显著增加吞吐量。按照实际的和储液器的尺寸所允许的，通道结构可以具有尽可能多的平行通道段。例如，通道结构可具有至少约2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1000、1500、5000或更多个平行或基本上平行的通道段。多个通道段可以例如围绕储液器的边缘或周边基本上均匀地间隔开。可替代地，多个通道段的间隔可以是不均匀的。

储液器11104可在每个通道接合点处或附近具有膨胀角α(图111中未示出)。多个通道段11102中的每个通道段可以在通道接合点处或附近具有宽度w和高度h₀。对于多个通道段11102中的每个通道段，几何参数w、h₀和α可以是均一的或可以不是均一的。每个通道段在其各自与储液器11104的通道接合点处或附近可具有相同或不同的宽度。例如，每个通道段在其各自与储液器11104的通道接合点处或附近可具有相同或不同的高度。

储液器11104在与多个通道段11102的不同通道接合点处可具有相同或不同的膨胀角。例如，圆形储液器(如图111所示)可具有圆锥形、圆顶形或半球形的天花板(例如，顶壁)，以在多个通道接合点11106处或附近为每个通道段11102提供相同或基本相同的膨胀角。当几何参数均一时，有利的是，即使吞吐量增加，也可以将所得液滴尺寸控制为均一。在一些情况下，当期望具有不同的液滴尺寸分布时，可以相应地改变用于多个通道段11102的几何参数。

在一些情况下，至少约50％的所产生的液滴可以具有均一的尺寸。在一些情况下，至少约55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或更多的所产生的液滴可以具有均一的尺寸。可替代地，少于约50％的所产生的液滴可以具有均一的尺寸。注入液滴中的珠子和/或生物颗粒可以具有均一的尺寸或可以不具有均一的尺寸。

图112A显示了具有用于受控分区的几何特征的微流体通道结构的另一示例的截面图。通道结构11200可包括通道段11202，该通道段11202在通道接合点11206(或相交处)处与储液器11204连通。在一些情况下，通道结构11200及其一个或多个组分可对应于通道结构10600及其一个或多个组分。图112B显示了图112A的通道结构11200的透视图。

包含多个颗粒11216的水性流体11212可以沿着通道段11202被输送到接合点11206中，以在储液器11204中遇到与水性流体11212不混溶的第二流体11214(例如，油等)，以产生流入储液器11204的水性流体11212的液滴11220。在水性流体11212和第二流体11214相遇的接合点11206处，可以基于因素诸如在接合点11206处的流体动力、两种流体11212、11214的相对流速、流体特性和通道结构11200的某些几何参数(例如，Δh等)形成液滴。通过在接合点11206处从通道段11202连续注入水性流体11212，可以在储液器11204中收集多个液滴。

产生的离散的液滴可以包括多个颗粒11216中的一个或多个颗粒。如本文其他地方所述，颗粒可以是任何颗粒，例如珠子、细胞珠、凝胶珠、生物学颗粒、生物学颗粒的大分子组分或其他颗粒。可替代地，所产生的离散的液滴可以不包括任何颗粒。

在一些情况下，水性流体11212可以具有基本上均一浓度或频率的颗粒11216。如本文其他地方所述(例如，参考图109)，可以将颗粒11216(例如，珠子)从单独的通道(图112中未示出)引入通道段11202。通道段11202中的颗粒11216的频率可以通过控制将颗粒11216引入通道段11202中的频率和/或通道段11202和单独的通道中的流体的相对流速来控制。在一些情况下，可以将颗粒11216从多个不同的通道引入通道段11202中，并相应地控制频率。在一些情况下，可以通过单独的通道引入不同的颗粒。例如，第一单独的通道可以引入珠子，以及第二单独的通道可以将生物颗粒引入通道段11202。引入珠子的第一单独的通道可以在引入生物颗粒的第二单独的通道的上游或下游。

在一些情况下，第二流体11214可以不经受和/或被引导任何流入或流出储液器11204。例如，第二流体11214可以在储液器11204中基本上静止。在一些情况下，第二流体11214可以在储液器11204内经受流动，但不流入或流出储液器11204，例如通过向储液器11204施加压力和/或受接合点11206处的水性流体11212的进入流动的影响。可替代地，第二流体11214可以经受和/或被引导流入或流出储液器11204。例如，储液器11204可以是引导第二流体11214从上游流到下游的通道，以输送所产生的液滴。

在接合点11206处或附近的通道结构11200可以具有某些几何特征，该几何特征至少部分地确定由通道结构11200形成的液滴的尺寸和/或形状。通道段11202可以具有第一横截面高度h₁，并且储液器11204可具有第二横截面高度h₂。第一横截面高度h₁和第二横截面高度h₂可以不同，使得在接合点11206处存在高度差Δh。第二横截面高度h₂可以大于第一横截面高度h₁。在一些情况下，储液器的横截面高度此后可以逐渐增加，例如，离接合点11206更远。在一些情况下，储液器的横截面高度可以在接合点11206处或附近根据膨胀角β增加。高度差Δh和/或膨胀角β可以允许舌状物(一部分水性流体11212在接合点11206处离开通道段11202并在液滴形成之前进入储液器11204)的深度增加并且有助于减小中间形成的液滴的曲率。例如，液滴尺寸可以随着高度差的增加和/或膨胀角的增加而减小。

高度差Δh可以为至少约1μm。可替代地，高度差可以为至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20，25、30、35、40、45、50、60、70、80、90、100、200、300、400、500μm或更多。可替代地，高度差可以为最多约500、400、300、200、100、90、80、70、60、50、45、40、35、30、25、20、19、18、17、16 15、14、13、12、11、10、9、8、7、6、5、4、3、2、1μm或更少。在一些情况下，膨胀角β可以为约0.5°至约4°，约0.1°至约10°或约0°至约90°。例如，膨胀角可以为至少约0.01°、0.1°、0.2°、0.3°、0.4°、0.5°、0.6°、0.7°、0.8°、0.9°、1°、2°、3°、4°、5°、6°、7°、8°、9°、10°、15°、20°、25°、30°、35°、40°、45°、50°、55°、60°、65°、70°、75°、80°、85°或更高。在一些情况下，膨胀角可以为至多约89°、88°、87°、86°、85°、84°、83°、82°、81°、80°、75°、70°、65°、60°、55°、50°、45°、40°、35°、30°、25°、20°、15°、10°、9°、8°、7°、6°、5°、4°、3°、2°、1°、0.1°、0.01°或更小。

在一些情况下，进入接合点11206的水性流体11212的流速可以为约0.04微升(μL)/分钟(min)和约40μL/min。在一些情况下，进入接合点11206的水性流体11212的流速可以为约0.01微升(μL)/分钟(min)至约100μL/min。可替代地，进入接合点11206的水性流体11212的流速可以小于约0.01μL/min。可替代地，进入接合点11206的水性流体11212的流速可以大于约40μL/min，例如45μL/min、50μL/min、55μL/min、60μL/min、65μL/min、70μL/min、75μL/min、80μL/min、85μL/min、90μL/min、95μL/min、100μL/min、110μL/min、120μL/min、130μL/min、140μL/min、150μL/min或更高。在较低的流速下，例如约小于或等于10微升/分钟的流速，液滴半径可能不取决于进入接合点11206的水性流体11212的流速。在储液器11204中，第二流体11214可以是静止的，或基本上静止的。可替代地，第二流体11214可以例如以针对水性流体11212所描述的上文所述的流速流动。

虽然图112A和112B显示了高度差Δh在接合点11206处突然改变(例如，梯度增加)，但该高度差可以逐渐增加(例如，从约0μm到最大高度差)。可替代地，高度差可以从最大高度差逐渐减小(例如，逐渐变窄)。如本文所使用的，高度差的逐渐增加或减小可指高度差的连续递增或递减，其中高度轮廓的任何一个差异段与该高度轮廓的紧邻的差异段之间的角度大于90°。例如，在接合点11206处，通道的底壁和储液器的底壁可以以大于90°的角度相遇。可替代地或另外地，通道的顶壁(例如，天花板)和储液器的顶壁(例如，天花板)可以以大于90°的角度相遇。逐渐增加或减少可以是线性的或非线性的(例如，指数的、正弦的等)。可替代地或另外地，高度差可以可变地线性地或非线性地增加和/或减小。虽然图112A和112B将膨胀的储液器横截面高度图示为线性的(例如，恒定的膨胀角β)，但横截面高度可以非线性地膨胀。例如，储液器可以至少部分地由具有可变膨胀角的圆顶状(例如，半球形)形状限定。横截面高度可以以任何形状膨胀。

例如，如上文所述或本文其他地方所述的通道网络可以流体地偶联至适当的流体组件。例如，入口通道段流体地偶联至它们将要输送到通道接合点的材料的适当来源。这些来源可以包括多种不同的流体组件中的任何一个，包括从限定在微流体设备的主体结构中或连接到微流体设备的主体结构的简单储液器，到从设备外来源、歧管、流体流动单元(例如，制动器、泵、压缩机)等输送流体的流体导管。类似地，出口通道段(例如，通道段10708，储液器11104等)可以流体地偶联至用于经分区细胞的用于后续处理的接收容器或导管。类似地，这可以是限定在微流体设备的主体中的储液器，或者它可以是用于将经分区的细胞输送到后续处理操作、仪器或组件的流体导管。

本文所述的方法和系统可以用于极大地提高单细胞应用和/或接收基于液滴的输入的其他应用的效率。例如，在对被占据的细胞和/或适当大小的细胞进行分选之后，可以执行的后续操作可以包括扩增产物的产生、纯化(例如，通过固相可逆固定化(SPRI))、进一步的处理(例如，剪切、功能序列的连接以及随后的扩增(例如，通过PCR))。这些操作可以批量发生(例如，在区室外部)。在区室是乳液中的液滴的情况下，乳液可被破坏并且液滴的内容物被合并以用于另外的操作。可以与携带条形码的珠子一起共分区的其他试剂可以包括用于封闭核糖体RNA(rRNA)的寡核苷酸和用于消化来自细胞的基因组DNA的核酸酶。可替代地，可以在另外的处理操作过程中使用rRNA去除剂。通过这样的方法产生的构建体的构型可以帮助最小化(或避免)在测序期间测序poly-T序列和/或对多核苷酸序列的5'末端进行测序。扩增产物，例如第一扩增产物和/或第二扩增产物，可以经受测序以进行序列分析。在一些情况下，可以使用部分发夹式测序扩增(PHASE)方法进行扩增。

多种应用需要评估生物颗粒群中不同生物颗粒或生物类型的存在和定量，包括例如微生物组分析和表征、环境测试、食品安全性测试、流行病学分析，例如追踪污染等。

计算机系统

本公开内容提供了被编程为实现本公开内容的方法的计算机系统。图114显示了计算机系统11401，其被编程或以其他方式配置为控制微流体系统(例如，流体流量)并执行测序应用。计算机系统11401可以调节本公开内容的各个方面。计算机系统11401可以是用户的电子设备或相对于电子设备位于远程的计算机系统。该电子设备可以是移动电子设备。

计算机系统11401包括中央处理器(CPU，在本文中也称为“处理器”和“计算机处理器”)11405，其可以是单核或多核处理器，或者是用于并行处理的多个处理器。计算机系统11401还包括存储器或存储器位置11410(例如，随机存取存储器、只读存储器、闪存)、电子存储单元11415(例如，硬盘)、通信接口11420(例如，网络适配器)用于与一个或多个其他系统和外围设备11425例如高速缓存、其他存储器、数据存储和/或电子显示适配器通信。存储器11410、存储单元11415、接口11420和外围设备11425通过诸如主板的通信总线(实线)与CPU 11405通信。存储单元11415可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统11401可以借助于通信接口11420可操作地偶联至计算机网络(“网络”)11430。网络11430可以是因特网、内部网和/或外部网、或与因特网通信的内部网和/或外部网。在一些情况下，网络11430是电信和/或数据网络。网络11430可以包括一个或多个计算机服务器，其可以启用分布式计算，例如云计算。在一些情况下，网络11430可以在计算机系统11401的帮助下实现对等网络，该对等网络可以使偶联至计算机系统11401的设备能够充当客户端或服务器。

CPU 11405可以执行一系列机器可读指令，其可以体现在程序或软件中。指令可以存储在存储器位置诸如存储器11410中。指令可以被定向到CPU 11405，其可以随后对CPU11405进行编程或以其他方式配置CPU 11405以实现本公开内容的方法。CPU 11405执行的操作的示例可以包括获取、解码、执行和写回。

CPU 11405可以是电路例如集成电路的一部分。系统11401的一个或多个其他组件可以包括在电路中。在一些情况下，该电路是专用集成电路(ASIC)。

存储单元11415可以存储文件，例如驱动程序、文库和保存的程序。存储单元11415可以存储用户数据，例如，用户偏好和用户程序。在一些情况下，计算机系统11401可以包括计算机系统11401外部的一个或多个附加数据存储单元，例如位于通过内部网或因特网与计算机系统11401通信的远程服务器上。

计算机系统11401可通过网络11430与一个或多个远程计算机系统进行通信。例如，计算机系统11401可与用户(例如，操作员)的远程计算机系统进行通信。远程计算机系统的示例包括个人计算机(例如，便携式PC)、板型或平板电脑(例如，

iPad、

Galaxy Tab)、电话、智能电话(例如，

支持Android的设备、

)或个人数字助理。用户可以通过网络11430访问计算机系统11401。

本文所述的方法可以通过存储在计算机系统11401的电子存储位置(诸如，例如，存储器11410或电子存储单元11415)的机器(例如，计算机处理器)可执行代码来实现。机器可执行或机器可读代码可以以软件的形式提供。在使用期间，代码可以由处理器11405执行。在一些情况下，可以从存储单元11415检索代码并将其存储在存储器11410中，以供处理器11405随时访问。在一些情况下，可以排除电子存储单元11415，并且将机器可执行指令存储在存储器11410中。

代码可以被预编译并被配置为与具有适于执行该代码的处理器的机器一起使用，或者可以在运行时间期间被编译。可以以可以被选择以使代码能够以预编译或随时编译的方式执行的编程语言提供代码。

本文提供的系统和方法的各方面，例如计算机系统11401，可以在编程中体现。可以将技术的各个方面视为通常以机器可读介质的类型承载或体现的机器(或处理器)可执行代码和/或关联数据的形式的“产品”或“制品”。机器可执行代码可以存储在电子存储单元上，例如存储器(例如，只读存储器、随机存取存储器、闪存)或硬盘。“存储”类型的介质可以包括计算机、处理器等的任何或所有有形存储器，或其可以提供非临时性随时存储用于软件编程的相关模块，例如各种半导体存储器、磁带驱动器、磁盘驱动器等。软件的全部或部分有时可以通过因特网或其他各种电信网络进行通信。这样的通信例如可以使得能够将软件从一个计算机或处理器加载到另一计算机或处理器，例如从管理服务器或主机加载到应用服务器的计算机平台。因此，可以承载软件元件的另一种类型的介质包括光波、电波和电磁波，例如在本地设备之间的物理接口之间使用的，通过有线和光学陆线网络和通过各种空中链路。携带这样的波(例如，有线或无线链路、光链路等)的物理元件也可以被视为承载软件的介质。如本文所使用的，除非限于非暂时性的有形“存储”介质，否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。

因此，机器可读介质(例如，计算机可执行代码)可以采取许多形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘，诸如任何一台或多台计算机中的任何存储设备或类似物，诸如可用于实现附图中所示的数据库等。易失性存储介质包括动态存储器，例如这样的计算机平台的主存储器。有形传输介质包括同轴电缆；铜线和光纤，包括构成计算机系统内总线的电线。载波传输介质可以采用电信号或电磁信号或声波或光波(例如，在射频(RF)和红外(IR)数据通信期间生成的那些)的形式。因此，计算机可读介质的常见形式包括例如：软盘，可折叠磁盘，硬盘，磁带，任何其他磁介质，CD-ROM，DVD或DVD-ROM，任何其他光学介质，打孔卡纸磁带，带孔图案的任何其他物理存储介质，RAM，ROM，PROM和EPROM，FLASH-EPROM，任何其他存储芯片或盒带，传输数据或指令的载波，传输这样的载波的电缆或链路，或计算机可以从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可能涉及将一个或多个指令的一个或多个序列传送给处理器以用于执行。

计算机系统11401可以包括电子显示器11435或与电子显示器11435通信，该电子显示器包括用户界面(UI)11440用于提供例如序列分析等结果。UI的示例包括但不限于图形用户界面(GUI)和基于Web的用户界面。

本公开内容的方法和系统可以通过一种或多种算法来实现。算法可以通过软件在由中央处理器11405执行时来实现。算法可以例如执行测序。

本公开内容的设备、系统、组合物和方法可以用于各种应用，诸如，例如，处理来自单个细胞的单一分析物(例如，RNA、DNA或蛋白质)或多种分析物(例如，DNA和RNA，DNA和蛋白质，RNA和蛋白质，或RNA、DNA和蛋白质)。例如，将生物颗粒(例如，细胞或细胞珠)分区在区室(例如，液滴)中，并对来自该生物颗粒的多种分析物进行处理以用于后续处理。多种分析物可以来自单细胞。例如，这可以使得能够对细胞同时进行蛋白质组学、转录组学和基因组分析。

实施例

实施例1：单细胞中的T-ATAC-seq

细胞培养和T细胞分离。Jurkat细胞从ATCC(克隆E6-1)获得，并在含10％FBS和青霉素-链霉素的RPMI-1640培养基(Thermo Fisher Scientific)中培养。对于使用Jurkat细胞的单细胞实验，将细胞分选为单细胞悬液，然后在C1 IFC微流控芯片(Fluidigm)上捕获。用配对的TCR-αβ编码序列逆转录转导58个小鼠αβ阴性杂交瘤细胞，并将这些细胞用于小鼠和人细胞的混合实验。使用RosetteSep人CD4⁺T细胞富集混合物(StemCell Technology)从外周血富集来自健康志愿者或患有Sézary综合征的患者的CD4⁺T细胞。对于单细胞实验，将CD4⁺T细胞分选为幼稚T细胞(CD4⁺CD25^–CD45RA⁺)、记忆T细胞(CD4⁺CD25^–CD45RA^–)或T_H17细胞(CD4⁺CD25^–CD45RA^–CCR6⁺CXCR5^–)。如下所述，将来自两名健康志愿者的200,000个细胞分选到补充有10％FBS的RPMI-1640培养基中，洗涤并上样到C1 IFC微流控芯片上。对于集合ATAC-seq实验，将CD4⁺T细胞分选为幼稚T细胞(CD4⁺CD25^–CD45RA⁺)、T_reg细胞(CD4⁺CD25⁺IL7R^lo)、TH1细胞(CD4⁺CD25^–IL7R^hiCD45RA^–CXCR3⁺CCR6^–)、T_H2细胞(CD4⁺CD25^–IL7R^hiCD45RA^–CXCR3^–CCR6^–)、T_H17细胞(CD4⁺CD25^–IL7R^hiCD45RA^–CXCR3^–CCR6⁺)和T_H1-17细胞(CD4⁺CD25^–IL7R^hiCD45RA^–CXCR3⁺CCR6⁺)(图132-137)。将来自两名健康志愿者的55,000个细胞(共3个重复)分选到补充有10％FBS的RPMI-1640培养基中，用PBS洗涤并按如下文所述立即转置。通过流式细胞术确认所有样品的分选后纯度>95％。

抗体。在此研究中使用了以下抗体：PERCP–Cy5.5缀合的抗人CD45RA(克隆HI100，批号B213966，目录号304107，BioLegend)，缀合至Brilliant Violet 510的抗人CD127(克隆A019D5，批号B197159，目录号351331，BioLegend)，别藻蓝蛋白(APC)-Cy7缀合的抗人CD4(克隆OKT4，批号B207751，目录号317417，BioLegend)，藻红蛋白(PE)-缀合的抗人CCR6(克隆G034E3，批号B203239，目录号353409，BioLegend)，异硫氰酸荧光素(FITC)-缀合的抗人CD25(克隆BC96，批号B168869，目录号302603，BioLegend)，与Brilliant Violet 421缀合抗人CXCR3(克隆G025H7，批号B206003，目录号353715，BioLegend)，Alexa-Fluor-647-缀合的抗人CXCR5(克隆RF8B2，批号5302868，目录号558113，BD Pharmingen)，PE缀合的抗人CD26(克隆2A6，批号4301881，目录号12-0269-42，Thermo Fisher)和与Pacific Blue缀合的抗人CD3E(克隆UCHT1，批号4341657，目录号558117，BD Biosciences)。所有抗体均由制造商在人外周血样品中进行了验证，以1：200的稀释度使用，并与同种型和无污染对照样品进行比较。

集合ATAC-seq。细胞分离和转座酶反应：如前所述，分离细胞并进行ATAC-seq。简而言之，分选后沉淀55,000个细胞，并用100μl PBS洗涤一次。然后将细胞沉淀重悬于50μl裂解缓冲液(10mM Tris-HCl，pH 7.4，3mM MgCl₂，10mM NaCl，0.1％NP-40(Igepal CA-630))中，并立即在500g下于4℃离心10分钟。将含核的沉淀物重悬于50μl转座缓冲液(25μl2×TD缓冲液，22.5μl dH₂O，2.5μl Illumina Tn5转座酶)中，并于37℃孵育30分钟。用MinElute PCR纯化试剂盒(Qiagen)纯化转座的DNA，并在10μl EB缓冲液中洗脱。

主要数据处理和峰识别：如前所述制备ATAC-seq文库，并进行条形码化和在Illumina Nextseq仪器上测序。进行衔接子序列修剪，使用Bowtie2映射到人hg19参考基因组，并使用Picard Tools进行PCR复制删除。合并所有样品用于使用MACS2进行峰识别。使用BedTools中的intersectBed定量每个样品的映射到并发峰集的对齐读数(经Tn5偏移校正)的数量。使用R中的“CQN”程序包对峰计数进行标准化。使用R中的“DESeq2”程序包将峰强度定义为变异稳定的log2计数。在这些步骤之后，获得了N×M数据矩阵，其中N表示合并的峰的数量，M表示样品数，以及值Di,j表示样品j(j＝1到M)中落在峰i(i＝1到N)之内的读数数量。基于所有峰的log²标准化计数计算皮尔逊相关性。使用Cluster 3.0执行皮尔逊相关矩阵的无监督相关，并在Java Treeview中可视化。

转录物索引的单细胞ATAC-seq(T-ATAC-seq)。步骤1.分离细胞并将其加载到IFC：将具有其Open App程序的C1单细胞自动制备系统(Fluidigm)适用于执行T-ATAC-seq。使用C1 IFC微流体芯片(小；5–10μm)捕获单个T细胞，并使用C1 Script Builder软件生成定制的T-ATAC-seq脚本(可应要求从Fluidigm获得脚本)。首先通过基于FACS的分选来分离Jurkat细胞或外周血T细胞，以及然后在C1 DNA Seq细胞洗涤缓冲液(Fluidigm)中洗涤3次。将细胞以300个细胞/μl的浓度重悬于DNA Seq细胞洗涤缓冲液中，并与C1细胞悬浮试剂按3：2的比例混合。将15μl的这样的细胞混合物上样到IFC上。细胞加载后，通过在LeicaCTR 6000显微镜上成像使捕获的细胞可视化。

步骤2.在IFC上的微流体反应：试剂和条件：在C1上，依次对细胞进行裂解和转座、转座酶释放、MgCl₂淬灭、逆转录和PCR，如所描述的(图52-54和图116)，使用自定义的T-ATAC-seq脚本“T-ATAC-seq：样品制备(1,861×，1,862×，1,863×)”。为了进行裂解和转座(在腔室1中)，制备了30μl Tn5转座混合物(22.5μl 2×TD缓冲液，2.25μl转座酶(NexteraDNA样品制备试剂盒，Illumina)，2.25μl不含盐的C1上样试剂(Fluidigm)，0.45μl 10％NP40，0.30μl水和2.25μl Superase In RNA酶抑制剂(20U/μl；Thermo FisherScientific))。

为了释放转座酶(在腔室2中)，制备了20μl Tn5释放缓冲液混合物(2μl 500mMEDTA，1μl不含盐的C1上样试剂和17μl 10mM Tris-HCl缓冲液，pH 8)。对于MgCl₂淬灭(在腔室3中)，制备了20μl MgCl₂淬灭缓冲液混合物(18μl 50mM MgCl₂、1μl不含盐的C1上样试剂和1μl 10mM Tris-HCl缓冲液，pH 8)。对于逆转录(在腔4室中)，制备了30μl的RT混合物(15.55μl的水，3.7μl 10×Sensiscript RT缓冲液(Qiagen)，3.7μl 5mM dNTP，1.5μl不含盐的C1上样试剂(Fluidigm)，1.85μl Sensiscript(Qiagen)和3.7μl 6μM TCR引物混合物(如下所述)。最后，对于TRA和TRB和ATAC片段的PCR(在腔5室中)，制备了30μl PCR混合物(8.62μl水，13.4μl 5×Q5聚合酶缓冲液(NEB)，1.2μl 5mM dNTP，1.5μl不含盐的C1上样试剂，0.67μl Q5聚合酶(2U/μl；NEB)，0.8μl 25μM非索引的定制Nextera ATAC-seq PCR引物1，0.8μl 25μM非索引的定制Nextera ATAC-seq引物2和3μl 6μM TCR引物混合物)。

在先前研究的补充表1中列出了非索引定制Nextera ATAC-seq引物的引物序列。将7μl裂解和转座混合物、7μl转座酶释放缓冲液、7μl MgCl₂淬灭缓冲液、24μl RT混合物和24μl PCR混合物添加至IFC入口。在IFC上，Tn5裂解和转座反应在37℃下进行30分钟。接下来，在50℃下进行转座酶释放30分钟。立即添加MgCl₂淬灭缓冲液，并立即将腔室内容物与RT混合物在50℃下孵育30分钟。最后，使用以下条件进行缺口填充和PCR的八个循环：72℃持续5分钟，然后进行在94℃持续30s、62℃持续60s和72℃持续60s的热循环。将扩增的经转座的DNA收获在总共13.5μl的C1 Harvest试剂中。完成芯片上方案(约4-5小时)后，将腔室内容物转移至96孔PCR板中，混合并分开以用于ATAC-seq片段(5μl)或TCR-seq片段(6–7μl)的进一步扩增。

步骤3.TCR-seq文库的扩增。如前所述，在对IFC的实现进行了少许修改的情况下通过一系列三个PCR反应(阶段)获得了来自单个细胞的TRA和TRB序列(统称为TCR序列)。先前已经描述了所有TCR引物的设计原理和验证。为了将TCR序列扩增整合到T-ATAC-seq方案中，使用上文所述的条件在IFC的腔室4和5中进行RT和第一阶段PCR。第一阶段TCR引物混合物包括多个Vα-和Vβ-区特异性引物以及Cα-和Cβ-区特异性引物。每个V区特异性引物的浓度为0.06μM，以及每个C区特异性引物的浓度为0.3μM。使用Cα和Cβ区特异性引物进行RT，以及然后使用Vα-和Vβ-区特异性引物和Cα-和Cβ-区特异性引物对cDNA进行8个PCR循环(同时地，因为ATAC片段也使用不同的引物在同一腔室中扩增，如上文所述)。对于芯片外第1阶段PCR，在完成芯片上方案后，使用TCR引物进一步扩增6–7μl的收获的文库。首先，使用以下循环条件进行另外八个PCR循环：95℃持续15分钟，以及在94℃持续30s、62℃持续1min以及72℃持续1min的热循环；72℃ 10分钟；并保持在4℃。

对于芯片外第2阶段PCR，该最终第1阶段产品的1μl等分试样被用作12μl的第2阶段PCR反应的模板。以下循环条件用于25个循环的第2阶段PCR：95℃持续15分钟以及在94℃持续30s、64℃持续1min、72℃持续1min的热循环；72℃持续5分钟；并保持在4℃。对于第2阶段反应，使用了多重内部嵌套的Vα-、Vβ-、Cα-和Cβ-特异性引物(V引物0.6μM，C引物0.3μM)。靶向V区的第2阶段引物在5'末端包含共同的23-b序列，以便能够使用共同的23-b引物进行进一步扩增(在第3阶段反应期间)。对于芯片外第3阶段PCR，将1μl的最终的第2阶段PCR产物用作14-μl的第3阶段PCR反应的模板，其掺入了条形码并使得能够在Illumina MiSeq平台上进行测序。对于第3阶段PCR反应，使用含有共同的23-b序列的5'条形码引物(0.05μM)和含有第三种内部嵌套的Cα特异性和/或Cβ特异性引物和Illumina配对末端引物(每个0.5μM)的3'条形码引物(0.05μM)进行扩增。以下循环条件用于25个循环的第3阶段PCR：95℃持续15分钟以及在94℃持续30s、66℃持续30s和72℃持续1分钟的热循环；72℃持续5分钟；并保持在4℃。TRA和TRB序列的最终第3阶段条形码PCR反应是单独进行的。

对于第3阶段反应，使用0.5μM的3'Cα特异性条形码引物和3'Cβ特异性条形码引物。除了在3'末端具有共同的23-b序列(其使得能够扩增来自第二反应的产物)和在5'末端具有共同的23-b序列(其使得能够利用Illumina配对末端引物进行扩增)之外，每个5'条形码引物包含指定板的独特的5-b条形码和指定板中的行的独特的5-b条形码。除了内部嵌套的TCR C区特异性序列和在3'末端的共同的23-b序列(其使得能够使用Illumina的配对末端引物进行扩增)外，每个3'条形码引物还包含指定板中的列的独特的5-nt条形码。

为了进行文库纯化和测序，在第3阶段PCR反应之后，每种PCR产物应具有一组掺入的指定板、行和列的独特的条形码以及使得能够在Illumina MiSeq平台上进行测序的Illumina配对末端序列。将PCR产物以相等的体积比例合并，并在1.2％琼脂糖凝胶上电泳；切下约350–380bp的条带，并使用Qiaquick凝胶提取试剂盒(Qiagen)进行凝胶纯化。然后对该纯化的产物进行测序。

步骤4.ATAC-seq文库的扩增。在1×NEBnext高保真PCR预混液中，使用1.25μMNextera双索引PCR引物8，在50μl PCR反应中将5μl收获的文库扩增另外17个循环，使用以下PCR条件：72℃持续5分钟；98℃持续30s；以及在98℃持续10s、72℃持续30s和72℃持续1分钟的热循环。合并PCR产物并在单个MinElute PCR纯化柱(Qiagen)上纯化。在测序之前，使用qPCR对文库进行定量。

单细胞TCR-seq文库的数据处理。如前所述分析TCR测序数据。简要地说，使用定制的计算管线对原始测序数据进行多路解编，并去除引物二聚体。通过在每个读数的中间找到至少100b的共有序列来组装所有配对末端读数。获得了每个TCR基因的共有序列。因为在给定的孔中可能已经存在多个TCR基因，所以根据每个实验中的序列同一性分布确定序列同一性的截止值(通常在给定孔中>80％的序列同一性)。序列同一性截止值确保将正确分配来源于同一转录物的所有序列，即使考虑到1/9,000个碱基的PCR错误率和高达0.4％的测序错误率。TCR V、D和J区段由VDJFasta分配。对于下游分析，对于每个鉴别的TCR序列，使用100个读数的额外读数截止值。为了确认已鉴别的TRB序列，还根据Survey方案通过immunoSEQ(Adaptive Biotechnologies)对选定的患者样品进行了测序。

单细胞ATAC-seq文库的数据处理。所有单细胞ATAC-seq文库均使用配对末端双索引测序进行测序。如前所述，对ATAC-seq数据进行预处理。简要地说，对衔接子序列进行修剪，使用Bowtie2和参数–X2000将序列映射到hg19参考基因组(或用于混合实验的mm9)，并去除PCR重复物。映射到线粒体的读数和未映射的重叠群也被去除并在进一步分析中不予考虑。对于大多数下游分析，要求过滤后的单细胞文库在来自集合谱(如下文所述)的识别峰中包含>15％的独特片段，以及包含>500个独特的核片段的文库大小。对于t-SNE投影，执行了进一步的过滤步骤，以仅包含高质量的文库，其在识别峰中包含>40％的独特片段和包含>500个独特的核片段的文库大小。例如，关于原代T细胞亚群的结论来源于450个单个T细胞，其在峰截止值中通过了15％的片段。t-SNE投影显示在峰截止值中通过了40％的片段(使用以下所述的455,057个峰)的320个高质量细胞，以确保基于聚类结果的所有结论对于高质量单细胞文库也是正确的。进行验证以确保ATAC-seq文库不包含来自T-ATAC-seq方案中TCR文库的污染片段。首先，设计用于IFC(如上文所述)的第1阶段TCR引物混合物，以排除ATAC-seq Nextera-引物结合位点。因此，存在于ATAC-seq文库中的TCR编码片段不会在文库制备步骤中扩增或被测序。其次，未观察到过滤和对齐的ATAC-seq读数中的TCR文库片段。第三，来源于Jurkat细胞中T-ATAC-seq的ATAC-seq数据显示出与来源于Jurkat细胞中scATAC-seq的ATAC-seq数据相似的可及性和TF基序测量结果。

主成分分析(PCA)和t-SNE聚类。如前所述，进行了集合ATAC-seq和单细胞T-ATAC-seq谱的PCA投影。对于集合ATAC-seq T细胞谱，在去除未映射的重叠群后，使用97,395个峰进行进一步的下游分析，并对在T细胞亚型(log2变异稳定)中表现出最高变异的2,500个峰进行PCA分析。对于原代T细胞的单细胞T-ATAC-seq分析，在集合ATACseq谱的参考集(其涵盖广泛的造血细胞类型，包括先前公布的造血祖细胞和终末期细胞类型，以及在此研究中产生的CD4⁺T亚型)上识别峰(图127-129和133)。除去与注释的启动子、X染色体、Y染色体匹配的峰和未映射的重叠群后，将455,057个峰用于PCA投影分析。

为了标准化集合ATAC-seq谱，在所有集合样品中鉴别出18,858个低变异性启动子，并通过低变异性启动子内的平均片段计数将每个样品标准化。对通过相似的集合细胞类型聚集的标准化值执行PCA，得到24个PC。为了针对每个成分对单细胞进行评分，将加权系数用于每个峰和PC(使用上文所述的集合数据的PCA-SVD确定)，并通过每个细胞的中心计数值计算加权PC系数的乘积；取该值的总和导致通过PC的细胞矩阵。然后使用平方和在PC评分的值上对每个细胞进行标准化。通过平方和标准化的通过PC的细胞矩阵被用作t-SNE的MATLAB实现的输入(https://lvdmaaten.github.io/tsne/)。数据用scHemeR10可视化。

使用ChromVAR的转录因子偏差和变异性得分。使用chromVAR11进行单细胞ATAC-seq数据处理和TF偏差的计算。人TF基序是从JASPAR数据库中获得的，并且包括来源于高通量“通过指数富集的配体系统进化”(SELEX)和使用测序的染色质免疫沉淀(ChIP-seq)实验的许多T细胞特异的基序。使用从cisBP数据库仔细挑选的人TF基序列表重复所有分析，没有实质性差异11,60。除了图132-137以外，所有附图中都呈现了JASPAR基序结果。简而言之，对于每个TF，通过从对于每个单细胞在峰中观察到的ATAC-seq片段数中减去对于给定基序在峰中预期的ATAC-seq片段数(来自群体平均值)来计算“原始可及性偏差”。对于原代T细胞中的可及性偏差计算，使用455,057个造血峰(如上文定义)或87,360个峰的子集从集合T细胞子集、单核细胞和LMPP细胞数据进行识别，具有相似的结果。对于Jurkat细胞和其他细胞系中的可及性偏差计算，使用114,654个峰从来自Jurkat、K562、GM12878和H1 ESC(ENCODE)的集合DHS-seq谱进行识别。接下来，将每个细胞的可及性偏差值减去针对具有相似可及性和GC含量的ATAC-seq峰集(背景峰集)计算的平均偏差，以获得偏倚校正的偏差值，并另外地除以针对背景峰集计算的偏差的s.d.以获得z得分。对于单细胞或聚集的单细胞群体之间的TF差异，使用偏倚校正的偏差或z得分来鉴别细胞特异性基序，如图中的图例所示。通过计算两个聚集的单细胞群体之间的偏倚校正的TF偏差得分的平均差异来生成火山图。通过使用双尾Student t-检验来检验显著性。通过计算细胞8,11间z得分的s.d.确定单细胞间TF基序的变异性。如果基序的可变性不超过该基序的背景峰集，则此度量标准的预期值为1。

用于其他RNA靶的T-ATAC-seq的修改。为了进行方法开发和RT引物排错，可以在微量离心管中对1,000个细胞进行T-ATAC-seq方案，每个反应以1,000×的体积执行。在裂解、转座和转座酶释放后，可对RNA进行逆转录并进行PCR扩增，以检查RNA质量和所选引物组的数量。

报告概述。有关实验设计的更多信息可参见Nature Research ReportingSummary。

代码可用性。此工作中使用的所有自定义代码可在请求后提供。

数据可用性。所有集合和单细胞测序数据可通过Gene Expression Omnibus(GEO)在GSE107817的登录号下获得。幼稚、TH17和Treg细胞的集合ATAC-seq数据的两个副本先前已发布，并可在GEO登录号GSE10149861下获得。此外，开放获取相互作用式Web浏览器是可用的，其使得能够实现单细胞TCR-seq和ATAC-seq TF偏差探索(图146-150)。该浏览器包括此研究中呈现的所有单细胞数据，与集合ATAC-seq谱浏览器和处理过的T-ATAC-seq数据矩阵的链接。具有集合T细胞亚型ATAC-seq数据的WashU浏览器会话是公开可用的。具有集合和聚集的单细胞Jurkat ATAC-seq数据的WashU浏览器会话也可以公开获得。

实施例2：单细胞中的扰动-Seq

在GM12878中的CRISPRi靶向。为了使用在GM12878实验中使用的指导条形码生成扰动-ATAC载体，对CRISPRi载体进行了修饰。简要地说，每个靶基因设计了三个sgRNA，其各自靶向转录起始位点和基因体内200个核苷酸之间的不同区域。将每个sgRNA分别克隆到pMJ114(牛U6，Addgene，Cat#85995)、pMJ117(人U6，Addgene，Cat#85997)或pMJ179(小鼠U6，Addgene，Cat#85996)中，并使用NEBuilder Hifi DNA Assembly Master Mix用BstXI和BlpI进行消化。然后通过PCR扩增各自的U6启动子和sgRNA序列，并使用NEBuilder HifiDNA Assembly Master Mix将其组装到慢病毒载体在(使用XbaI和XhoI消化)。随后，使用PciI和EcoRI消化每个3x sgRNA质粒的个体集落，并使用NEBuilder Hifi DNA AssemblyMaster Mix组装随机化的22bp条形码(从IDT订购为5’-[突出][NNN…][突出]-3’)。通过Sanger测序确认所有质粒的sgRNA序列和GBC序列。

为了产生CRISPRi病毒，将HEK 293T细胞维持在含10％FBS、1％Pen-Strep的DMEM中。每10厘米培养皿接种400万个细胞，并在第二天使用OptiMEM和Lipofectamine 3000使用4.5ug pMP.G、1.5ug psPAX2和6ug sgRNA载体进行转染。两天后，收集上清液并用0.44μm过滤器过滤，并使用Lenti-X浓缩器(Clontech)将病毒以1:10浓缩。然后将保持在具有10％FBS和1％青霉素-链霉素(Thermo Fisher)的RPMI 1640(Thermo Fisher)中的GM12878以每孔300,000个细胞接种在6孔板中，并在第二天将40ul浓缩病毒添加到培养基中。两天后，将培养基换成含有1ug/ml嘌呤霉素的培养基以选择sgRNA载体。在第5天更换选择培养基，并在第7天将细胞选择培养基交换1441为常规培养基(不包含嘌呤霉素)，并测定细胞或用BamBanker冷冻保存培养基在可存活的条件下冷冻细胞。在用扰动ATAC-seq测定之前，通过流式细胞术对细胞进行分选以测定活力和mCherry的表达。将细胞保持在每毫升200,000至1百万个。用Trizol提取RNA，并使用Qiagen RNeasy柱纯化，并使用Agilent Brilliant IIqRT-PCR 1-Step试剂盒确认基因表达敲低。一式两份进行qRT-PCR，并将每个样品的表达值针对18S进行标准化。CRISPRi的基因表达值报告为相对于两个非靶向对照样品的平均倍数改变。

原代角质形成细胞中的培养、分化和CRISPR敲除。从新鲜的、手术丢弃的新生儿包皮中分离出原代人角质形成细胞。角质形成细胞在1：1的KCSFM和154培养基(LifeTechnologies)中生长。在完全汇合的情况下，通过添加1.2mM钙持续3天或6天诱导角质形成细胞分化。定制的Cas9和sgRNA表达载体被产生用于角质形成细胞中的CRISPR敲除。对于Cas9表达，从慢病毒CRISPRv2载体(Sanjana等人，2014)扩增Cas9基因，并将此片段与融合P2A-杀稻瘟素抗性盒(以交换pLex-MCS中的IRES-嘌呤霉素抗性盒)一起克隆到pLex-MCS(Thermo Fisher)中。对于sgRNA表达，sgRNA F+E支架以两种方式修饰。首先，鼠U6启动子和靶向端粒酶的sgRNA被替换为人U6启动子、填充区域以及来自lentiCRISPRv2的相关BsmBI克隆位点。另外，通过引入非同义突变去除了嘌呤霉素抗性基因中的BsmBI限制性位点。

为了产生慢病毒，将400,000个HEK 293T细胞接种到6孔培养皿的单个孔中，并于第二天用Lipofectamine 3000(Thermo Fisher)使用Cas9载体或sgRNA载体(1.3ug)以及pMDG(0.3ug)和p8.91(1ug)进行转染。在48小时和72小时收集上清液，通过0.45um PES膜过滤，并用Lenti-X浓缩器浓缩成沉淀物。一单位Cas9病毒对应于来自一个6孔HEK 293T的浓缩上清液。一单位sgRNA病毒对应于来自一个6孔HEK 293T的浓缩上清液的八分之一。将原代角质形成细胞与一单位Cas9病毒和聚丙烯(0.1ug/ml)一起以每孔300,000个细胞接种至6孔培养皿。一天后，收获两个孔，混合，并扩展到一个包含含有2ug/ml杀稻瘟素的正常培养基的15cm培养皿中。选择四到六天后，再次将细胞与一个单位的sgRNA病毒和聚丙烯(0.1ug/ml)一起以每孔300,000个细胞接种在6孔培养皿中。一天后，收获一个孔并转移到包含含有嘌呤霉素(1ug/ml)和杀稻瘟素(2ug/ml)的正常培养基的15cm的培养皿中。选择六天后，将细胞与1.2mM钙一起以高汇合度接种以进行分化。分化三天后收获1484细胞，并在含10％DMSO的培养基中在存活的情况下冷冻。通过PCR扩增sgRNA结合位点周围的cDNA的～800bp片段，并通过Sanger测序分析所得片段，来评估Cas9核酸酶的活性。通过使用RNeasyMini试剂盒(Qiagen)从细胞中提取RNA并使用iScript cDNA合成试剂盒(Bio-Rad)进行逆转录来生成cDNA。

批量ATAC-seq。分离细胞并进行ATAC-seq。分选后，将50,000个细胞沉淀，并重悬于50ul含0.1％NP40、0.1％Tween-20和0.01％的ATAC重悬浮缓冲液(RSB)中。三分钟后，加入1ml含0.1％Tween-20的ATAC RSB，将试管倒置，并在500rcf下将细胞核离心10分钟。小心去除上清液，将细胞核重悬于50ul转座混合物(25ul TD缓冲液，2.5ul转座酶，16.5ul PBS，0.5ul 0.1％洋地黄皂苷，0.5ul 10％Tween-20和5ul水)中。在37℃下在热混合器中以1000RPM在振摇下进行转座30分钟。用Zymo DNA Clean&Concentrator 5试剂盒纯化反应物，并进行文库生成。

单细胞ATAC-seq。通过流式细胞术对细胞针对活力进行分选并去除细胞聚集体。C1单细胞自动制备系统与Open AppTM程序(Fluidigm，Inc.)一起使用。来自Fluidigm的“ATAC Seq”集合的Open App脚本用于引发C1 IFC微流体芯片，加载细胞，并运行ATAC样品制备方案。Fluidigm脚本可从Fluidigm Script Hub获得。

扰动ATAC-seq

IFC上的细胞分离和微流体反应。使用具有其Open AppTM程序的C1单细胞自动制备系统(Fluidigm，Inc.)执行扰动-ATAC-seq。首先通过遵循Open App脚本“BiomodalSingle-Cell Genomics：Prime”引发C1 IFC微流体芯片。然后使用Fluidigm Open App脚本“Biomodal Single-Cell Genomics:Cell Load”捕获单细胞。首先通过FACS分选分离GM12878或角质形成细胞，然后在C1 DNA Seq细胞洗涤缓冲液(Fluidigm)中洗涤3次。将细胞以300个细胞/微升的浓度重悬于DNA Seq细胞洗涤缓冲液中，并与C1细胞悬浮试剂按3：2(细胞：试剂)的比例混合。将15μl的这样的细胞混合物上样到IFC上。细胞上样后，通过在Leica CTR 6000显微镜上成像以鉴别捕获的细胞来将所有孔可视化。然后，使用定制的Open App IFC脚本“Biomodal Single-Cell Omics：Sample Prep”使细胞依次经历裂解1528和转座、转座酶释放、用MgCl₂淬灭、逆转录和PCR。对于裂解和转座，制备了30μL的Tn5转座混合物(22.5μL 2x TD缓冲液，2.25μL转座酶(Nextera DNA样品制备试剂盒，Illumina)，2.25μL不含盐的C1上样试剂(Fluidigm)，0.45μL 10％NP40、2.25μLSuperaseIN RNA酶抑制剂和0.3μL水)。对于转座酶释放，制备了20μL Tn5释放缓冲液混合物(2μL500 mM EDTA，1μL不含盐的C1上样试剂和17μL 10mM Tris-HCl缓冲液，pH 8)。对于MgCl₂淬灭，制备了20μL MgCl₂淬灭缓冲液混合物(18μL 50mM MgCl₂、1μL不含盐的C1上样试剂和1μL 10mM Tris-HCl缓冲液，pH 8)。对于逆转录，制备了30μL的RT混合物(15.55μLH20、3.7μL 10x Sensiscript RT缓冲液(Qiagen)，3.7μL 5mM dNTP，1.5μL不含盐的C1上样试剂(Fluidigm)，1.85μL Sensiscript RT(Qiagen)，和3.7μL 6μM RT引物混合物(各自为6uM的第一组GBC测序寡核苷酸或各自为6uM的第一组sgRNA测序寡核苷酸，有关寡核苷酸序列，参见补充表3和6)。最后，对于ATAC和GBC/sgRNA PCR，制备了30uL PCR混合物(8.62μLH20，13.4μL 5x Q5聚合酶缓冲液(NEB)，1.2μL 5mM dNTP，1.5μL不含盐的C1上样试剂，0.67μL Q5聚合酶(2U/μL；NEB)，0.8μL 25μM非索引定制Nextera ATAC-seq PCR引物1，0.8μL25μM非索引定制Nextera ATAC-seq引物2和3μL 6μM GBC或sgRNA引物混合物。将7μl裂解和转座混合物、7μl转座酶释放缓冲液、7μl MgCl₂淬灭缓冲液、24μl RT混合物和24μl PCR混合物添加至IFC入口。在IFC上，Tn5裂解和转座反应在37℃下进行30分钟。接下来，在50℃下进行转座酶释放30分钟。立即添加MgCl₂淬灭缓冲液，并立即将腔室内容物与RT混合物在50℃下孵育30分钟。最后，使用以下条件进行缺口填充和PCR的八个循环：72℃持续5分钟，然后进行在94℃持续30s、62℃持续60s和72℃持续60s的热循环。扩增的转座DNA收获在总共13.5μL的C1 Harvest试剂中。

芯片上方案完成(～4-5小时)后，将腔室内容物转移到96孔PCR板中，混合并分开以用于ATAC-seq片段(6-7μl)或GBC/sgRNA片段(6.5μl)的进一步扩增。为了进行方法开发和RT引物排错，可以将扰动-ATAC-seq方案精确放大1000倍，并在Eppendorf管中对1000个细胞执行。裂解、转座和转座酶释放后，可对RNA进行逆转录并进行PCR扩增，以检查所选引物组的扩增效率和特异性。

ATAC-seq文库的扩增。在1x NEBnext高保真PCR预混液中，用1.25μM Nextera双索引PCR引物在50μL PCR中将约7μL收获的文库扩增另外15个循环，使用以下PCR条件：72℃持续5分钟；98℃持续30s；以及在98℃持续10s、72℃持续30s和72℃持续1分钟的热循环。合并PCR产物并在单个MinElute 1572PCR纯化柱(Qiagen)上纯化。使用qPCR(用于Illumina的Kapa文库定量试剂盒，Roche)对文库进行定量，然后使用Illumina NextSeq 550上的2x76bp配对的1575个末端读数或Illumina MiSeq上的2x75bp读数进行测序。

指导条形码和指导RNA测序文库的扩增。进行三轮off-C1 PCR以产生GBC和sgRNA测序文库(参见图55中的“PCR 1”；“PCR 2”和“PCR 3”)。首先(第一次PCR)，在20ul PCR(用10ul NEBNext Master Mix收获的DNA，各自0.1ul的200uM的第一组引物，并且剩余体积为水)中扩增6.5ul收获的文库。用以下参数将反应扩增17个循环：98℃持续30s，然后98℃持续10s、63℃持续30s和72℃持续45s的循环，然后72℃持续5分钟。其次，将2ul第一组PCR产物(未纯化)转移至随后的20ul反应物(具有10ul NEBNext Master Mix、各自0.1ul的200uM的第二组引物和剩余体积的水)中。使用与第一组反应相同的参数将反应扩增15个循环。使用2ul的第二组反应产物、各自2ul的10uM的Illumina索引引物、10ul NEBNext Master Mix和剩余体积的水进行最终的20ul的第三细胞索引PCR。使用与第一组反应和第二组反应相同的参数将反应扩增15个循环。最后，使用Qiagen MinElute试剂盒收集和纯化第三组反应物。通过在聚丙烯酰胺凝胶电泳(6％TBE Novex凝胶，Thermo Fisher)上的尺寸选择进一步纯化文库。将文库与BlueJuice上样染料(Thermo Fisher)混合，在160V下运行35分钟，并使用SybrSafe染色剂(Thermo Fisher)进行可视化(在30ml TBE运行缓冲液中使用5ul染色剂进行10分钟)。将凝胶在蓝光透射照明器上可视化，并使用手术刀切割GBC文库片段(289bp)或sgRNA文库片段(232bp)的大小范围内的切片。将凝胶切片放置在0.75ml的试管中，使用注射器在其底部打孔，并将该试管放置在1.5ml的DNA LoBind管(Eppendorf)中。将这些试管以13k RPM离心3分钟以压碎凝胶切片，然后加入300ul盐压碎缓冲液(500mM NaCl，1mMEDTA，0.05％SDS)，并将该混合物在热混合器中在55℃下在1000RPM摇动下孵育过夜。第二天，将样品冷却至室温，通过Spin-X柱离心(1分钟，13k RPM)，并用Zymo DNA Clean&Concentrator 5试剂盒纯化。通过qPCR(Illumina的Kapa文库定量试剂盒，Roche)对文库进行定量，然后在Illumina MiSeq上以10-14pM的最终浓度使用15-40％的PhiX进行测序。

定量和统计分析。单细胞和批量ATAC初级处理和chromVAR分析。进行单细胞和批量ATAC读数对齐、质量过滤和重复物去除。简而言之，对衔接子序列进行修剪，并使用Bowtie2(Langmead和Salzberg，1616 2012；参数-X2000)将序列映射到hg19参考基因组，并使用Picard Tools去除PCR重复物。映射到线粒体的读数被丢弃而不进行进一步分析。观察到与CRISPR病毒构建体匹配的低ATAC读数率(中位数为0.0049％)，并且没有观察到大量CRISPR构建体匹配读数影响表观基因组谱的证据。使用chromVAR(R中，版本1.1.1；Schep等人，2017)进行TF偏差的单细胞ATAC-seq计算。简而言之，对于每个TF，通过从对于每个单细胞在峰中观察到的ATAC1626seq读数数量中减去给定基序在峰中预期的ATAC-seq读数数量来计算“原始可及性偏差”。预期读数是从GM12878实验的所有细胞的群体平均值计算出来的，而对于角质形成细胞实验仅从不受扰动的细胞计算。将该值减去针对具有相似可及性和GC含量的ATAC-seq峰集计算的平均偏差以获得偏倚校正的偏差值，并另外除以针对背景组计算的偏差的标准偏差以得到Z得分。

对于GM12878实验，使用来自多种造血细胞系(所有GM细胞系，HL-60，Th1，Jurkat，K562)加上其他细胞系(HepG2，HUVEC，NHEK)的来源于DNA酶I超敏性数据的一组峰，以说明在血系之外打开峰的可能性。这些峰各自针对wgEncodeDacMapabilityConsensusExcludable.bed黑名单进行过滤，按强度分选，并合并每个样品的前75,000个峰。然后将这些峰居中并调整大小为1kb的均一峰(238,349个最终峰)。对于角质形成细胞实验，合并了对于来自未分化细胞和分化了三到六天的细胞上的ATAC1643 seq识别的峰。使用MACS2命令macs2callpeak--nomodel–nolambda–-call-summits--shift-75--extsize 150(Zhang等人,2008)识别峰。首先，合并来自每天的q值<0.01的峰。在重叠峰的情况下，选择与最低q值关联的顶点作为合并的峰顶点，并将以该顶点为中心的1kb窗口用作chromVAR的均一峰(94,633个最终峰)。

对于GM1878分析，从ENCODE下载narrowPeak ChIP-seq文件(最佳IDR阈值峰)，并将其输出为chromVAR中的补充注释。在使用之前，这些文件已针对wgEncodeDacMapabilityConsensusExcludable.bed黑名单进行过滤。从Roadmap Epigenomics网站下载针对不同组织的H3K27me3和H3K27ac narrowPeak文件。

针对GM12878实验的指导条形码测序分析。对于GM12878实验，将GBC文库的原始读数与GBC序列列表进行匹配，以生成实验中分析的每个细胞和每个GBC的计数表。首先，丢弃任何不包含GBC之前预期的27nt序列的读数，允许2的最大Levenshtein距离以说明测序错误。然后将随后的22nt序列与GBC序列列表进行比较，允许将3的最大Levenshtein距离视为匹配。注意，任意两个GBC序列之间的最小Levenshtein距离为10。这针对每个GBC序列和细胞生成每细胞计数的表。通过使用scipy.stats.gaussian_kde函数评估对数转换的计数的最大密度，将该表针对板的读数深度进行标准化。该分布呈现对应于具有生产性和非生产性GBC检测的孔的双峰分布。设置了1000个读数/细胞的标准化的GBC读数截止值(这是根据有和无细胞捕获的孔之间的分离凭经验确定的)。将显示高背景读数的细胞(如通过具有未与前两个GBC序列匹配的大于0.005的比例读数确定的)进一步过滤(此截止值是根据对双峰孔中“背景”的经验观察设定的，预期包含多至四个GBC序列)。根据与第二大常见GBC匹配的读数的百分比来区分表达单或双sgRNA的孔(单，<1％、双，>5％)。此工作流程产生的双靶向的细胞远远多于仅在我们最初的单靶向实验中从由表达双GBC的细胞的出现所计算出的观察到的双峰率所观察到的双靶向的细胞(约2.9％)。使用Python软件包scikit-learn中的manifold.TSNE函数生成tSNE图。

通过从较大库中对细胞进行降采样并比较可及性谱来确定分析所需的目标最小细胞数。该分析表明，五个细胞的绝大多数样品与批量ATAC-seq谱高度相关(r>0.8)。此外，先前的报告显示五个或更多个细胞的聚集足以准确再现染色质可及性谱(Satpathy等人，2018；Schep等人，2017)。根据这些发现，设计了扰动-ATAC实验以产生由至少五个细胞支持的最大基因型数量；实际上，GM12878细胞的38/40基因型和角质形成细胞的23/23基因型由多于五个细胞组成。

针对角质形成细胞实验的直接sgRNA测序和分析。对于角质形成细胞实验，将用于sgRNA测序的原始读数与实验中使用的sgRNA序列列表进行匹配(例如，替代或附加于来自GBC的测序读数；参见图92)。需要20bp可变序列以及18bp的标准sgRNA主链的严格匹配。使用自定义脚本(可应要求提供)进行匹配，并生成每个sgRNA的每细胞计数表。通过评估每个细胞的对数转换的总计数的板特异性分布，将该表针对读数深度标准化。每个细胞的计数的集合表现出双峰分布，可能对应1704于生产性和失败的sgRNA检测。截止值首先是两种模式之间的。

抽出过滤器，并且进一步要求细胞表现出低背景(与每个细胞中第三最常见的sgRNA有关的读数)。与背景相关的读数大于1％的细胞被排除在分析之外。最后，基于与每个细胞中第二常见的sgRNA相关的读数的比例的分布来区分表达一个或两个sgRNA的细胞。与第二常见的sgRNA相关的读数少于1％的细胞在此分布中形成清晰模式，并被认为仅表达最常见的sgRNA，而与第二最常见的sgRNA相关的读数大于10％的细胞被认为同时表达第一种和第二种最常见的sgRNA。

鉴别差异可及基因组特征和区域。生成每个特征的可及性值的经验无效分布，以便评估与表达非靶向对照sgRNA的细胞相比，一组受扰动细胞中的平均可及性之间的任何观察到的差异的显著性。对于每个基因组特征(峰值或chromVAR基序/注释)，计算表达每个sgRNA或sgRNA组合的细胞的中位偏差z得分(对于chromVAR特征)或片段计数(对于峰)。用仅靶向sgRNA的细胞分析表达与非靶向sgRNA组合的靶向sgRNA的细胞。为了评估靶向细胞和非靶向细胞显示出相同的可及性的无效假设，合并来自靶向细胞和非靶向细胞的相同数量的细胞。然后通过排列细胞基因型标记将该群体随机分为两组，并将这两个群体的排列的中位数可及性差异与观察到的中位数可及性差异进行比较。重复此过程5000次以生成无效分布，并且将检测为与观察到的靶向细胞相比在无效分布中为极端或更大的中位可及性差异的比率报告为错误发现率(FDR)。

使用相似的方法发现了差异可及的区域，例外的是所考虑的总区域的集合限于对于每个比较在所考虑的条件之一中表现出每五个细胞至少一个读数的那些。通过合并与特定sgRNA基因型相关的细胞来生成差异可及区域的基因组浏览器轨迹。使用genomeCoverageBed工具(BedTools v2.17.0)生成BedGraph文件并将其放大至500,000次读数，然后使用来自UCSC的bedGraphToBigWig工具生成bigWig文件。轨迹最终显示在WashU表观基因组浏览器中。

在SPI1耗竭的细胞中包含SPI1基序的区域可及性的统计分析。确定了SPI1基序区域可及性中所观察到的改变的经验错误1748发现率。分别针对批量ATAC和扰动-ATAC样品，将受扰动细胞中SPI1基序可及性改变的z得分与所有其他特征进行了比较。然后，为了生成无效分布，将非靶向#1、非靶向#2和SPI1靶向之间的样品标记进行1000次排列，并且在每个试验中记录与非靶向对照相比SPI1基序可及性改变的z得分。在此分析中，对于批量ATAC和扰动-ATAC，没有试验产生的结果与未排列样品中观察到的结果一样极端。

推断的核小体和亚核小体谱和得分计算。在差异可及区域的核小体信号的聚集谱来源于总ATAC片段。简而言之，大小为180-247bp的ATAC片段被认为是跨越核小体的，并用于推断核小体在聚集基因座谱中的位置(元图)。基于Macs2(使用flags–-call-summits–shift-75--extsize 150)鉴别的信号顶峰对不同可及区域进行居中，并针对FDR<0.1和log2倍数改变>1进行过滤。然后计算了跨越区域顶峰上游和下游1000bp的10bp窗口中的片段计数。将这些谱标准化至25个下游窗口中的平均信号以说明测序深度，并使用具有参数spar＝0.5的smooth.spline()函数在R中对所得的富集值进行平滑处理。

为了定量每个元图中的中心峰相对侧翼核小体的存在，计算侧翼核小体信号密度(相对于峰顶的-180至-80bp和相对于峰顶的+80至+180bp)与中心核小体信号密度(相对于峰顶的-20到+20bp)之比。该比率报道为中心核小体得分。

推断的调节网络的分析。为了鉴别其活性在单细胞之间相关联(暗示共享的调节关系)的基因组特征集，计算了给定基因型的所有单细胞之间每个特征与每个其他特征之间的皮尔逊相关性。仅考虑在至少一种基因型中发生了显著改变的特征，并删除了多余的注释，导致390个基序/ChIP特征注释用于分析。进行了Ward分层聚类，并且显示出低聚类内相关性的特征被排除在进一步分析之外。后续分析中显示的模块是基于非靶向细胞中其余特征的Ward分层聚类来定义的。聚类使用Seaborn clustermap功能使用Ward的聚类方法来进行。

对于每个扰动-ATAC基因型，计算单细胞之间的特征-特征相关性。给定基因型与非靶向细胞之间的相关性差异是通过从非靶向细胞中减去各个基因型中的皮尔逊相关性来计算的。排列1792测试用于评估对于任何一对特征观察到的相关性改变的显著性。对于每种基因型，从所有被扰动的细胞中随机取样相同数量的细胞10,000次，并使用随机抽样的细胞相对于非靶向细胞的相关性改变为每个特征-特征对(在每个基因型中)生成无效分布。使用5％的截止值来识别显著改变的相关性。为了定量调节关系中的模块级改变，计算了其相关性显著改变的给定模块中所有特征-特征对的百分比。

基因组特征可及性的上位性分析。通过将在双扰动条件下观察到的表型与基于非相互作用模型预期的表型进行比较，来评估在双扰动条件下的上位性程度。对于此分析，对基因组特征的基于在每个细胞中与该特征相关的峰中累积的原始读数的总和的可及性进行评分。已通过每个细胞中特征的读数的总数标准化特征计数并通过添加伪计数对数进行log2转换。对于共有基因型的每个细胞集合，将log2计数的平均值与表达非靶向sgRNA的细胞混合物的log2计数的平均值进行比较，从而得出log2(扰动相对非靶向的倍数改变)。加性期望基于非相互作用的乘法模型，(即CRISPR AB＝CRISPR A x CRISPR B)，其通过在log2-空间中添加单扰动倍数改变来计算。对于每个基因组特征，计算了相互作用的程度(观察到的可及性改变与在非相互作用模型下预期的可及性改变之间的差异)。

为了一般性地鉴别加性相对非加性特征，在扰动之间平均相互作用程度。为了计算置换背景，通过随机选择双sgRNA基因型和两个随机单sgRNA基因型来置换单-双配对。然后计算“预期的”改变(基于两个随机sgRNA基因型)和“观察到的”改变(基于随机双sgRNA基因型)之间的差异。针对我们的数据集中观察到的每个双sgRNA基因型，重复此过程一次。

通过将观察到的相互作用程度与通过置换细胞身份而生成的无效分布进行比较来将特征针对特定的相互作用进一步分类为加性、协同性和缓冲性的。针对每个特征分别执行此过程，以说明各个特征在比例和可变性方面的差异。通过从所有受扰动的细胞中随机采样三个细胞库来生成无效分布：一个无效双扰动集和两个无效单扰动集。计算观察到的双扰动表型与从非相互作用模型预期的值之间的差异，并将此过程重复1000次。表现出超过95％的无效值的相互作用程度的基因型被认为是相互作用的。其中双表型具有比预期的更极端的量级的相互作用被标记为协同作用，而其他相互作用被标记为缓冲作用。

组织H3K27me3和自身免疫相关SNP的分析。从Roadmap Epigenomics Consortium网站上下载H3K27me3峰的128个合并的narrowPeak文件(对应于不同的组织/细胞类型)。在至少30个样品中发现的峰被视为常见的H3K27me3峰。随后将各个narrowPeak文件针对这组常见的H3K27me3峰以及wgEncodeDacMapabilityConsensusExcludable黑名单进行过滤。随后将生成的文件居中并调整大小以生成均一的1kb峰，然后将其输出到chromVAR中作为注释集。为了鉴别在GM12878谱系中受抑制但在其他组织中活跃的峰，下载了RoadmapEpigenomics Consortium数据集中存在的来自血液组织的H3K27ac narrowPeak，并使用bedtools相交命令与GM12878 H3K27me3 narrowPeak相交。对它们类似地针对相同的黑名单进行过滤，居中并调整大小以生成均一的1kb峰，然后输出作为chromVAR注释集。

与自身免疫疾病相关的SNP通过每种自身免疫疾病进行聚集，并与来自GM12878H3K27ac HiChIP数据(Mumbach等人，2017)的FitHiC识别(使用10kb基因组窗口处理)相交。对于每种疾病，将SNP(最终调整大小为10kb基因组窗口)以及与该SNP接触的任何窗口进行聚集，以生成疾病特异性的chromVAR注释集。由于很难先验确定疾病状态是否由给定部位的增加的或减少的可及性引起，因此报告了每个基因型的绝对值改变chromVAR偏差z得分。

特征模块的拟时间计算和鉴别。对于角质形成细胞实验，使用Monocle 2(Qiu等人，2017b)计算正常分化拟时间轨迹。首先使用Seruat 2.0.1(Butler等人，2018)处理包括未受扰动和CRISPR敲除的细胞的特征偏差矩阵，以回归板和实验批次效应。使用Seurat函数ScaleData(具有参数do.scale＝F和do.center＝F)执行批次回归。为了鉴别分化之间的动态特征模块，在正常分化条件(第0、3或6天)的任何比较中，将表现出大于1.3的标准偏差的特征进行过滤。与AP1基序相关的相似特征被合并为单个特征。使用gplots R软件包中的heatmap.2函数对这些特征相对细胞的矩阵(通过增加拟时间进行排列)进行了分层聚类，产生了三个主要的簇(称为模块)。鉴别出近似匹配模块动力学的个体峰以找到相关的基因。在条件之间表现出小于0.5的log2倍数改变的峰被认为是稳定的，而大于2的倍数改变被认为是动态的。在第3天和第6天(相对于第0天)表现出降低的可及性的峰被视为模块1峰。在第0天相对第3天表现出增加的可及性但在第0天和第6天之间表现出稳定的可及性的峰被视为模块2峰。在第0天和第3天之间表现出稳定的可及性但在第0天相对第6天表现出获得的可及性的峰被视为模块3峰。如果基因转录起始位点落在峰的50kb以内，则认为基因是峰的潜在调节靶标。

改变的分化轨迹和模块活性分析。对于角质形成细胞实验中的每个单个扰动，计算定制的拟时间，以便评估沿分化轨迹的细胞占据的富集或耗竭。针对实验批次效应进行了回归的ChromVAR偏差和合并的AP1特征用于此分析。将来自每个扰动的细胞与非靶向细胞合并，并生成自定义主成分分析(PCA)空间。选择在每个扰动中改变(FDR<0.1，z得分的改变>0.25)的特征以实现对照细胞和受扰动的细胞的最大分离，并使用R prcomp函数生成PCA(中心＝T，比例＝T)。接下来，分析来自所有分化阶段的未受扰动的细胞，并计算从未分化细胞(第0天)进展到中分化(第3天)和最后的后期分化(第6天)的轨迹。通过绘制代表分化的每个阶段的三个细胞群体的质心之间的线性路径来确定轨迹。最后，沿着该轨迹中的八个相等大小的箱计算非靶向细胞和靶向细胞的分布，并且将每个箱中细胞比例的log2倍数改变报告为富集。

尽管在本文已经示出和描述了本发明的优选实施方案，但是对于本领域技术人员明显的是，这些实施方案仅以示例的方式提供。不意图通过说明书中提供的特定示例来限制本发明。尽管已经参考前述说明书描述了本发明，但是本文中的实施方案的描述和图示并不意味着以限制性的意义来解释。在不脱离本发明的情况下，本领域技术人员现在将想到许多改变、变化和替换。此外，应当理解，本发明的所有方面不限于本文所阐述的具体描述、构造或相对比例，其取决于各种条件和变量。应当理解，本文描述的本发明的实施方案的各种替代方案可以用于实施本发明。因此，可以预期的是，本发明还将涵盖任何这样的替代、修改、改变或等同形式。意图是所附权利要求限定本发明的范围，并且由此涵盖这些权利要求范围内的方法和结构及其等同物。

Claims

1.一种处理免疫细胞的方法，其包括：

(a)捕获免疫细胞，其中所述免疫细胞包含基因组脱氧核糖核酸(gDNA)和信使核糖核酸(mRNA)分子；

(b)使来自所述免疫细胞的gDNA与转座酶接触以在标记反应中产生标记的gDNA片段；和

(c)从所述mRNA分子产生互补DNA(cDNA)分子，其中所述cDNA分子包含对应于所述免疫细胞的基因组的V(D)J区的序列。

2.权利要求1所述的方法，其中所述免疫细胞是T细胞。

3.权利要求1所述的方法，其中所述免疫细胞是B细胞。

4.权利要求1-3中任一项所述的方法，其中所述捕获包括在区室中进行分区。

5.权利要求4所述的方法，其中所述区室是腔室。

6.权利要求4所述的方法，其中所述区室是孔。

7.权利要求4所述的方法，其中所述区室是液滴。

8.权利要求1至7中任一项所述的方法，其还包括在(b)之前，裂解所述免疫细胞。

9.权利要求1至8中任一项所述的方法，其中所述捕获包括从多个免疫细胞中分离所述免疫细胞。

10.权利要求9所述的方法，其中所述分离包括流式细胞术分选或磁性细胞分选。

11.权利要求1-10中任一项所述的方法，其中所述标记的gDNA片段各自包含一个或多个衔接子。

12.权利要求11所述的方法，其中所述一个或多个衔接子包含衔接子序列。

13.权利要求1-12中任一项所述的方法，其中(c)包括使来自所述免疫细胞的所述mRNA分子与引物和逆转录酶接触。

14.权利要求13所述的方法，其中所述引物包含以下序列：特异于所述mRNA分子的序列或靶向所述mRNA分子的序列。

15.权利要求1-14中任一项所述的方法，其中所述mRNA分子包含T细胞受体α(TRA)或T细胞受体β(TRB)RNA分子。

16.权利要求15所述的方法，其中所述mRNA分子包含T细胞受体α(TRA)和T细胞受体β(TRB)RNA分子。

17.权利要求15或16所述的方法，其中(c)包括使mRNA分子与引物接触，其中所述引物包含以下序列：特异于编码所述TRA和TRB RNA分子的恒定区的序列或靶向编码所述TRA和TRB RNA分子的恒定区的序列。

18.权利要求1-17中任一项所述的方法，其还包括使所述标记的gDNA片段和所述cDNA分子与多个引物和聚合酶接触以产生标记的gDNA片段扩增子或cDNA分子扩增子。

19.权利要求18所述的方法，其还包括使所述标记的gDNA片段和所述cDNA分子与多个引物和聚合酶接触以产生标记的gDNA片段扩增子和cDNA分子扩增子。

20.权利要求18或19所述的方法，其中所述多个引物的至少一个子集各自包含以下序列：特异于编码T细胞受体(TCR)的恒定区或可变区的序列或靶向编码T细胞受体(TCR)的恒定区或可变区的序列。

21.权利要求20所述的方法，其中所述多个引物的至少一个子集各自包含以下序列：特异于编码T细胞受体(TCR)的恒定区和可变区的序列或靶向编码T细胞受体(TCR)的恒定区和可变区的序列。

22.权利要求1-21中任一项所述的方法，其还包括从所述标记的基因组DNA片段和所述cDNA分子产生扩增子，其中所述扩增子各自包含鉴别所述免疫细胞的条形码序列。

23.权利要求22所述的方法，其中各自包含鉴别所述免疫细胞的所述条形码序列的所述扩增子是从所述标记的gDNA片段或cDNA分子的其他扩增子产生的。

24.权利要求22或23所述的方法，其还包括对所述扩增子进行测序。

25.权利要求24所述的方法，其还包括在所述免疫细胞中确定所述基因组DNA的可及基因组DNA与对应于来自所述免疫细胞的所述基因组的所述V(D)J区的所述序列之间的相关性。

26.权利要求1至25中任一项所述的方法，其还包括对所述标记的gDNA片段和所述cDNA分子或其衍生物进行测序。

27.权利要求1-26中任一项所述的方法，其还包括在(b)之后终止所述标记反应。

28.权利要求27所述的方法，其中所述终止包括使用螯合剂。

29.权利要求1-28中任一项所述的方法，其中所述标记反应包括螯合来自所述转座酶的转座酶复合物所需的二价金属离子并从所述标记的gDNA片段释放所述转座酶复合物。

30.权利要求28所述的方法，其中所述螯合剂选自乙二胺四乙酸(EDTA)、次氮基乙酸(NTA)和二亚乙基三胺五乙酸(DTPA)。

31.权利要求1至30中任一项所述的方法，其中所述标记反应包括使用去污剂。

32.权利要求31所述的方法，其中所述去污剂是非离子表面活性剂。

33.权利要求32所述的方法，其中所述去污剂是乙氧基化壬基酚。

34.一种处理免疫细胞的方法，其包括：

(b)从所述免疫细胞的所述mRNA分子的可及gDNA和互补DNA(cDNA)产生标记的gDNA片段，其中所述cDNA分子包含对应于所述免疫细胞的基因组的V(D)J区的序列；和

(c)从所述标记的gDNA片段或其衍生物和所述cDNA分子或其衍生物的一个或多个测序读数映射所述可及基因组DNA与对应于所述V(D)J区的所述序列之间的相关性。

35.一种处理细胞的方法，其包括：

(a)捕获细胞，其中所述细胞包含基因组脱氧核糖核酸(gDNA)和指导核糖核酸(gRNA)分子，或其gRNA鉴别条形码；

(b)使来自所述细胞的可及gDNA与转座酶接触以在标记反应中产生标记的gDNA片段；和

(c)从所述gRNA分子或其所述gRNA鉴别条形码产生互补DNA(cDNA)分子。

36.权利要求35所述的方法，其中所述细胞是免疫细胞。

37.权利要求36所述的方法，其中所述免疫细胞是T细胞。

38.权利要求36所述的方法，其中所述免疫细胞是B细胞。

39.权利要求35-38中任一项所述的方法，其中所述捕获包括在区室中进行分区。

40.权利要求39所述的方法，其中所述区室是腔室。

41.权利要求39所述的方法，其中所述区室是孔。

42.权利要求39所述的方法，其中所述区室是液滴。

43.权利要求35-42中任一项所述的方法，其还包括在(b)之前，裂解所述细胞。

44.权利要求35-43中任一项所述的方法，其中所述捕获包括从多个细胞中分离所述细胞。

45.权利要求35-44中任一项所述的方法，其中所述标记的gDNA片段各自包含一个或多个衔接子。

46.权利要求45所述的方法，其中所述一个或多个衔接子包含衔接子序列。

47.权利要求35-46中任一项所述的方法，其中其所述条形码中的条形码鉴别所述gRNA分子中的gRNA分子的身份。

48.权利要求47所述的方法，其中所述条形码附接至所述gRNA分子。

49.权利要求35-48中任一项所述的方法，其中所述gRNA分子包含被配置为靶向与转录因子、染色质修饰剂或非编码RNA相关的序列的靶序列。

50.权利要求49所述的方法，其中所述gRNA分子包含多个不同的靶序列。

51.权利要求49或50所述的方法，其中所述gRNA分子中的第一gRNA分子包含所述多个不同靶序列的第一靶序列，并且其中所述gRNA分子中的第二gRNA分子包含所述多个不同靶序列的第二靶序列，其中所述第一靶序列和所述第二靶序列不同。

52.权利要求35-51中任一项所述的方法，其还包括在(a)之前，将所述gRNA分子引入所述细胞。

53.权利要求35-52中任一项所述的方法，其中(c)包括使来自所述细胞的所述gRNA分子或其条形码与引物和逆转录酶接触。

54.权利要求53所述的方法，其中所述引物包括反向引物，所述反向引物包含特异于所述gRNA分子的3'末端或靶向所述gRNA分子的3'末端的序列。

55.权利要求53或54所述的方法，其还包括使所述gRNA分子与另一组引物接触，所述另一组引物包含正向引物，所述正向引物包含特异于所述gRNA分子的5'可变末端或靶向所述gRNA分子的5'可变末端的序列。

56.权利要求35-55中任一项所述的方法，其还包括使所述标记的gDNA片段和所述cDNA分子与多个引物和聚合酶接触，以产生标记的gDNA片段扩增子或cDNA分子扩增子。

57.权利要求56所述的方法，其还包括使所述标记的gDNA片段和所述cDNA分子与多个引物和聚合酶接触，以产生标记的gDNA片段扩增子和cDNA分子扩增子。

58.权利要求35-57中任一项所述的方法，其还包括从所述标记的基因组DNA片段和所述cDNA分子产生扩增子，其中所述扩增子各自包含鉴别所述细胞的条形码序列。

59.权利要求58所述的方法，其中各自包含鉴别所述细胞的所述条形码序列的所述扩增子是从所述标记的gDNA片段或cDNA分子的其他扩增子产生的。

60.权利要求58或59所述的方法，其还包括对所述扩增子进行测序。

61.权利要求35-60中任一项所述的方法，其还包括响应于所述gRNA分子的gRNA分子的扰动而确定所述细胞中所述基因组DNA的可及性之间的相关性。

62.权利要求35-61中任一项所述的方法，其还包括对所述标记的gDNA片段和所述cDNA分子或其衍生物进行测序。

63.权利要求35-62中任一项所述的方法，其还包括在(b)之后终止所述标记反应。

64.权利要求63所述的方法，其中所述终止包括使用螯合剂。

65.权利要求35-64中任一项所述的方法，其中所述标记反应包括螯合来自所述转座酶的转座酶复合物所需的二价金属离子，并从所述标记的gDNA片段释放所述转座酶复合物。

66.权利要求64所述的方法，其中所述螯合剂选自乙二胺四乙酸(EDTA)、次氮基乙酸(NTA)和二亚乙基三胺五乙酸(DTPA)。

67.权利要求35-66中任一项所述的方法，其中所述标记反应包括使用去污剂。

68.权利要求67所述的方法，其中所述去污剂是非离子表面活性剂。

69.权利要求68所述的方法，其中所述去污剂是乙氧基化壬基酚。