CN118056018A

CN118056018A - 基于珠粒的ATACseq处理（BAP）

Info

Publication number: CN118056018A
Application number: CN202280066866.5A
Authority: CN
Inventors: J·布恩罗斯特洛; R·雷伯弗斯基
Original assignee: Harvard College; Bio Rad Laboratories Inc
Current assignee: Harvard College; Bio Rad Laboratories Inc
Priority date: 2021-10-08
Filing date: 2022-10-07
Publication date: 2024-05-17
Also published as: WO2023059917A2; WO2023059917A3; US20230235391A1

Abstract

提供了用于使用确定9bp序列的存在来确定两种条形码编码寡核苷酸(例如，在单个分区中或在组织切片上邻近)的接近度的方法和组合物，所述9bp序列由连接到不同条形码编码寡核苷酸的不同核酸片段中的酶切加标产生。

Description

基于珠粒的ATACseq处理(BAP)

相关申请交叉引用

本专利申请要求于2021年10月8日提交的美国临时专利申请第63/253,977号的优先权权益，所述美国临时专利申请出于所有目的通过引用并入。

背景技术

用分子条形码在分区中标记生物底物可以通过分子条形码的测序和其分析，为共定位到离散分区的底物提供新的生物学见解。增加如液滴等条形码编码有效分区的数量增加了基于测序的数据点的数量，并将较大部分的输入底物转换为数据。可以使用珠粒作为递送媒剂将条形码递送到如液滴等分区。因此，分区中的条形码珠粒过载，这使分区具有多于一个珠粒并增加条形码编码有效分区的百分比，提供了更高的底物到测序数据的转化率。然而，当离散分区中出现两个或更多个条形码时，底物和数据在两个条形码之间分割，从而产生分级数据点。

在通过测序进行的转座酶可及性染色质测定(ATACSeq)和使用转座酶以添加衔接子寡核苷酸的相关应用中，在固相载体上使克隆条形码寡核苷酸固定化被用于标记转座双链DNA片段、DNA和/或ds-cDNA。靶单元可以包含单个细胞和/或细胞组。所述靶单元还可以包含在2D平面底物上的空间限定的细胞和/或所述靶单元可以包含在2D平面底物上的空间限定的细胞组。尽管PCR可以被用于用克隆条形码标记底物，但一步标记生物化学是优选的和/或仅在其中热循环不可能的一些实施例中是可行的。一步标记生物化学可以包含杂交、杂交加连接和/或杂交加引物模板化核酸合成。不需要热循环的一种应用是在单细胞分析中，其中条形码编码仅通过杂交进行以使表示当合在一起时的显著体积的大规模平行分区中的酶成本最小化。热循环困难的另一种应用是在空间ATAC-Seq分析中，因为2D阵列不容易在不干燥反应组分的情况下易于进行有效的热循环。

发明内容

在使用一步生物化学用>2个克隆条形码标记靶单元的情况下，无论所述靶单元是细胞和/或细胞组和/或空间限定的细胞和/或空间限定的细胞组，在不具有导致标记事件的克隆条形码的先验知识的情况下，目前还不知道如何使用测序数据来注释标记同一靶单元的共同进行条形码编码的多个克隆条形码。需要获取标记同一靶单元的多个条形码的知识，以统一否则将在未经注释的克隆条形码之间分割的单个细胞数据和/或在不具有克隆条形码的空间2D位置的先验知识的情况下创建克隆条形码的空间地图。尽管获得空间2D位置的先验知识是可行的，但这需要通过在对靶单元进行条形码编码之前对克隆条形码进行定向定位和/或对克隆条形码进行预测序的显著且昂贵的预处理。尽管既不是克隆条形码也不是靶单元的三级底物可以被用于注释共同进行条形码编码的克隆条形码，但这需要另外的试剂、处理和测序，这增加了工作流程时间和成本。

在这里，描述了底物组合物和方法，以在不同测序片段上使用独特的转座酶切割标记来注释对相同靶单元共同进行条形码编码的克隆条形码。这不需要使用热循环，并且与任选地不使用酶的仅杂交生物化学相容。这也不需要对靶单元共同进行条形码编码的克隆条形码的先验注释。尽管本文所述的方法可以被用于单细胞和/或空间ATACseq应用，但所述方法也可以被用于其中转座酶被用于处理位于克隆条形码编码的上游的底物，如但不限于RNAseq、TotalRNAseq、MethylSeq、DNAseq、HiCSeq、蛋白Seq及其组合的任何单细胞和/或空间分析。核以及细胞可以构成靶单元。

在一些实施例中，本公开提供了一种对来自分区的测序读段进行去卷积的方法。在一些实施例中，所述方法包括：

对混合物中的透化细胞中的核酸进行酶切加标(tagmentation)，由此在来自所述细胞中的一个细胞的靶核酸中形成至少一个切割位点以形成第一核酸片段和第二核酸片段，其中所述第一核酸片段和所述第二核酸片段在所述切割位点处具有单链含9个核苷酸的序列，所述单链含9个核苷酸的序列彼此互补、连接到通过酶切加标转座酶递送的转座酶寡核苷酸，其中所述转座酶寡核苷酸具有双链部分和包括通用序列的单链5′部分；

由所述混合物以及多个珠粒和所述透化细胞形成多个分区，其中所述分区中的一个分区包括所述第一核酸片段和所述第二核酸片段以及至少两个珠粒，其中所述珠粒连接到多个克隆条形码编码寡核苷酸的5′端，所述条形码编码寡核苷酸包括5′PCR柄序列、3′捕获序列和条形码寡核苷酸连接到的所述珠粒所独有的条形码序列，其中所述3′捕获序列包括所述通用序列的拷贝(任选地，所述克隆条形码编码寡核苷酸可以递送到液滴中的所述分区而不是附着到珠粒)；

对所述转座酶寡核苷酸的所述单链5′部分进行间隙填充以形成所述5′部分的反向补体，并且对所述含9个核苷酸的序列进行间隙填充，其中所述间隙填充包括使用聚合酶以使用所述单链序列作为模板插入核苷酸；

将来自不同珠粒的不同条形码编码寡核苷酸的所述3′捕获序列与所述第一核酸片段和所述第二核酸片段上的所述5′部分的所述反向补体杂交，并且用聚合酶以模板依赖性方式延伸所述不同条形码编码寡核苷酸的所述3′捕获序列，以形成经条形码编码的第一核酸片段和第二核酸片段；

任选地将所述分区合并到散装溶液中；

用与所述PCR柄序列杂交的引物扩增所述经条形码编码的第一核酸片段和第二核酸片段；

从经扩增的经条形码编码的第一核酸片段和第二核酸片段生成测序读段，其中所述测序读段包含所述条形码序列、所述含9个核苷酸的序列和来自所述细胞的所述核酸片段的至少一部分；

在序列读段中鉴定相对于所述核酸片段的基因组位置和所述含9个核苷酸的序列的序列同一性；以及

如果具有来自经扩增的经条形码编码的第一条形码编码寡核苷酸和第二条形码编码寡核苷酸的条形码的测序读段中的所述含9个核苷酸的序列是反向互补序列并且所述测序读段中的所述含9个核苷酸的序列位于邻近基因组位置的5′，则确定所述测序读段来自同一分区。

在一些实施例中，所述透化细胞中的所述核酸是染色体DNA，并且不同的染色体序列在所述不同的染色体序列对所述转座酶的可及性程度方面不同。

在一些实施例中，所述透化细胞中的所述核酸已被去除组蛋白。

在一些实施例中，所述转座酶寡核苷酸的所述单链5′部分包括(ii)独特分子标识符条形码序列。在一些实施例中，所述独特分子条形码序列的长度为4-10bp。

在一些实施例中，所述转座酶寡核苷酸的所述单链5′部分包括区分不同样品的多重标识符序列。在一些实施例中，所述多重标识符序列的长度为4-10bp。

在一些实施例中，透化细胞中的所述核酸是DNA。在一些实施例中，所述方法包括在所述透化细胞中形成第一链cDNA或双链cDNA，并且所述核酸包括cDNA。在一些实施例中，所述DNA是细胞基因组DNA。

在一些实施例中，所述分区是油包水乳液中的液滴。在一些实施例中，所述分区是微孔。

在一些实施例中，所述标记进一步包括标记所述细胞中的核酸，使得两种或更多种类型的核酸被标记并随后测序。在一些实施例中，所述两种类型的核酸选自由基因组DNA或cDNA组成的组。

还提供了一种方法，所述方法包括，

对混合物中的透化细胞中的核酸进行酶切加标，由此在来自所述细胞中的一个细胞的靶核酸中形成至少一个切割位点以形成第一核酸片段和第二核酸片段，其中所述第一核酸片段和所述第二核酸片段在所述切割位点处具有单链含9个核苷酸的序列，所述单链含9个核苷酸的序列彼此互补、连接到通过酶切加标转座酶递送的转座酶寡核苷酸，其中所述转座酶寡核苷酸具有双链部分和具有5′磷酸化端的单链5′部分；

由所述混合物、桥接寡核苷酸以及多个珠粒和所述透化细胞形成多个分区，其中所述分区中的一个分区包括所述第一核酸片段和所述第二核酸片段以及至少两个珠粒，其中所述珠粒连接到多个克隆条形码编码寡核苷酸的5′端，所述条形码编码寡核苷酸包括5′PCR柄序列、3′捕获序列和条形码寡核苷酸连接到的3′所独有的条形码序列，并且其中所述桥接寡核苷酸包括：(i)与所述克隆条形码编码寡核苷酸的所述3′捕获序列互补的3′端序列；以及(ii)与所述转座酶寡核苷酸的所述单链5′部分的通用序列互补的5′端序列(任选地，所述克隆条形码编码寡核苷酸可以递送到液滴中的所述分区而不是附着到珠粒)；

在所述分区中，用来自第一珠粒的条形码编码寡核苷酸标记所述第一核酸片段并且用来自第二珠粒的条形码编码寡核苷酸标记所述第二核酸片段，其中所述标记包括将所述克隆条形码编码寡核苷酸的所述3′捕获序列与所述桥接寡核苷酸的所述3′端序列杂交，以及将所述桥接寡核苷酸的所述5′端序列与由所述转座酶递送到所述第一核酸片段和所述第二核酸片段的所述单链5′部分杂交，由此形成经条形码编码的第一核酸和第二核酸；

任选地将所述分区合并到散装溶液中；

将所述克隆条形码编码寡核苷酸的所述3′捕获序列连接到由所述转座酶递送到所述第一核酸片段和所述第二核酸片段的所述单链5′部分；

对所述含9个核苷酸的序列和连接到转座酶衔接子的珠粒寡聚物的所述单链部分进行间隙填充，其中所述间隙填充包括使用聚合酶以使用所述单链序列作为模板插入核苷酸；

从经扩增的经条形码编码的第一核酸片段和第二核酸片段生成测序读段，其中所述测序读段包含所述条形码序列、含9个核苷酸的复制序列和来自所述细胞的所述核酸片段的至少一部分；

在一些实施例中，所述分区进一步含有蛋白酶、表面活性剂或离液剂。

在一些实施例中，所述连接在所述分区中发生。在一些实施例中，所述分区在所述连接后合并。

在一些实施例中，所述方法包括将所述分区合并到散装溶液中。在一些实施例中，所述连接在所述散装溶液中发生。

在一些实施例中，所述转座酶寡核苷酸的所述单链5′部分包括：(i)与所述桥接寡核苷酸的所述5′端序列互补的序列；以及(ii)独特分子标识符条形码序列。在一些实施例中，所述独特分子条形码序列的长度为4-10bp。

还提供了确定固相载体上的珠粒的相对位置的方法。在一些实施例中，所述方法包括

提供固定到固相载体的组织切片；

对所述组织切片中的核酸进行酶切加标，由此在所述组织切片内的靶核酸中形成至少一个切割位点以形成第一核酸片段和第二核酸片段，其中所述第一核酸片段和所述第二核酸片段在所述切割位点处接收单链含9个核苷酸的复制序列，所述含9个核苷酸的复制序列连接到具有双链部分和通过转座酶递送的单链5′部分的转座酶寡核苷酸；

使桥接寡核苷酸和来自多个珠粒的寡核苷酸与所述组织切片中的经酶切加标的核酸接触，其中所述珠粒连接到多个克隆条形码编码寡核苷酸的5′端，所述条形码编码寡核苷酸包括5′PCR柄序列、3′捕获序列和条形码寡核苷酸连接到的所述珠粒所独有的条形码序列，其中所述寡核苷酸从所述珠粒释放，并且其中所述桥接寡核苷酸包括：(i)与所述克隆条形码编码寡核苷酸的所述3′捕获序列互补的3′端序列；以及(ii)与所述转座酶寡核苷酸的所述单链5′部分互补的5′端序列(任选地，所述克隆条形码编码寡核苷酸可以递送到液滴中的所述组织而不是附着到珠粒)；

用来自第一珠粒的条形码编码寡核苷酸标记所述第一核酸片段并且用来自第二珠粒的条形码编码寡核苷酸标记所述第二核酸片段，其中所述标记包括将所述克隆条形码编码寡核苷酸的所述3′捕获序列与所述桥接寡核苷酸的所述3′端序列杂交，以及将所述桥接寡核苷酸的所述5′端序列与由所述转座酶递送到所述第一核酸片段和所述第二核酸片段的所述单链5′部分杂交，由此形成经条形码编码的第一核酸和第二核酸；

任选地从平面固相载体洗涤所述经条形码编码的第一核酸和第二核酸；

任选地，如果所述经条形码编码的第一核酸和第二核酸先前尚未从所述平面载体洗涤，则从所述平面固相载体洗涤所述经条形码编码的第一核酸和第二核酸；

对所述含9个核苷酸的序列进行间隙填充，其中所述间隙填充包括使用聚合酶以使用所述单链序列作为模板插入核苷酸；

在序列读段中鉴定相对于所述核酸片段的基因组位置和所述含9个核苷酸的复制序列的序列同一性；以及

如果具有来自经扩增的经条形码编码的第一条形码编码寡核苷酸和第二条形码编码寡核苷酸的条形码的测序读段中的所述含9个核苷酸的序列是反向互补序列并且所述测序读段中的所述含9个核苷酸的序列位于邻近基因组位置的5′，则确定所述测序读段来自所述组织切片上的邻近珠粒。

在一些实施例中，所述方法包括从所述平面固相载体洗涤所述经条形码编码的第一核酸和第二核酸在所述连接之前发生，并且所述连接在从所述平面固相载体洗涤的溶液中发生。

在一些实施例中，所述连接在所述平面固相载体上的溶液中发生，并且从所述平面固相载体洗涤所述经条形码编码的第一核酸和第二核酸在所述连接之后并且在所述间隙填充之前发生。

在一些实施例中，对多个(例如，至少3、5、10、20、50、100或更多个)连接到多个克隆条形码编码寡核苷酸的5′端的珠粒重复所述方法，所述条形码编码寡核苷酸包括5′PCR柄序列、3′捕获序列和条形码寡核苷酸连接到的所述珠粒所独有的条形码序列，并且其中所述桥接寡核苷酸包括：(i)与所述克隆条形码编码寡核苷酸的所述3′捕获序列互补的3′端序列；以及(ii)与所述转座酶寡核苷酸的所述单链5′部分互补的5′端序列，由此确定具有来自经扩增的经条形码编码的条形码编码寡核苷酸的条形码的测序读段来自所述组织切片上的所述珠粒的至少一部分(例如，至少5％、10％、20％、40％、50％或更多)的邻近珠粒，由此生成所述组织切片上的珠粒的2-D图。

在一些实施例中，所述标记进一步包括标记所述组织切片中的核酸，使得两种或更多种类型的核酸被标记并随后测序。

在一些实施例中，所述两种类型的核酸选自由基因组DNA或cDNA组成的组。

附图说明

图1A-C：转座酶，此处指示为Tn5，但不必限于Tn5，预装载有寡核苷酸衔接子(转座酶寡核苷酸)，由此两种衔接子含有与克隆条形码寡核苷酸的引物结合序列匹配和/或互补的序列。在如图1A所示的一个实施例中，衔接子是含有与克隆条形码寡聚物的引物结合序列匹配的A14序列的A14-ME19同型衔接子。在图1B中，衔接子是含有与克隆条形码寡聚物的引物结合序列匹配的B15序列的B15-ME19同型衔接子。在图1C中，衔接子是A14-ME19和B15-ME19两者，即异型衔接子，因为所述衔接子含有与具有两个引物结合序列的克隆条形码寡核苷酸的引物结合序列两者匹配的A14和B15序列。两种不同的条形码编码寡核苷酸的比例可以是50∶50，但例如可以变化(例如，1∶99或99∶1)。尽管在此图中每个珠粒仅示出了两种条形码编码寡核苷酸，但每个珠粒的条形码编码寡核苷酸可以在例如10万至1000亿或更多的范围内。Tn5衔接子可以任选地被磷酸化。

图2A-D：加有同型衔接子的Tn5转座酶对DNA进行酶切加标，如图2A中所示。图2B中所展示的酶切加标反应的产物在分子的相对链上的每个切割位点处的间隙为9bp。在图2C之前，去除Tn5并且填充间隙，并且使分子钝端以提供相对链上的A14和B15补体。然后，在图2C中使用来自不同的PCR循环期间的珠粒1或珠粒2的条形码编码寡核苷酸进行PCR。提供了雅卡尔指数(jaccard index)(图2D)的生物信息学分析将来自不同珠粒的寡核苷酸与特定基因组位置处的独特酶切加标事件连接。

图3：生物信息处理步骤，以提供雅卡尔指数和珠粒去卷积。

图4A-B：如图所示，转座酶，此处指示为Tn5，可以预装载有寡核苷酸衔接子(转座酶寡核苷酸)，由此两种衔接子含有与桥接寡核苷酸序列匹配和/或互补的序列，所述序列本身与本图中称为“桥接寡聚物”的珠粒寡核苷酸序列的末端互补。此图中的装载有Tn5的衔接子被全部磷酸化。在如图4A所示的一个实施例中，衔接子是含有与桥接寡聚物的桥接寡聚物序列匹配的A14序列的经磷酸化的A14-ME19同型衔接子。在图4B中，衔接子是含有与桥接寡聚物的桥接寡聚物序列匹配的B15序列的经磷酸化的B15-ME19同型衔接子。

图5：条形码编码以进行珠粒去卷积在有或没有连接的情况下通过杂交进行并且并非通过PCR进行。加有同型衔接子的Tn5转座酶对DNA进行酶切加标，如图5A中所示。图5B中所展示的酶切加标反应的产物在分子的相对链上的每个切割位点处的间隙为9bp。在图5C之前，去除Tn5，然而并未填充间隙，并且分子仍具有粘性端。然后，在图5C中使用来自珠粒1或珠粒2和对应桥接的寡核苷酸进行杂交。在杂交之后，发生连接，随后进行间隙填充并使分子钝端。虚线是指从珠粒以及因此从通过图2和图3中描述的生物信息学方法的两个珠粒中鉴定跨两种条形码编码寡核苷酸的共有的独特Tn5转座酶。

图6：液滴中的单细胞底物的杂交条形码编码。图6描绘了在具有珠粒去卷积的液滴中的基于杂交的单细胞条形码编码以允许对单液滴进行的珠粒的共定位。细胞和/或核用加有同型衔接子的Tn5转座酶进行酶切加标。然后将其和与条形码编码寡核苷酸和试剂连接的珠粒一起包封。一旦珠粒和经酶切加标的细胞或核被包封，寡核苷酸就被释放并与桥接寡核苷酸杂交，所述桥接寡核苷酸也与经磷酸化的转座酶寡核苷酸衔接子杂交。然后来自珠粒的条形码编码寡核苷酸和经磷酸化的转座酶寡核苷酸在下游连接(未示出)。比较在矩形之间用虚线示出的相对测序链上的共有9bp序列允许对相同的原始液滴进行珠粒的去卷积。如果寡核苷酸释放不是酶依赖性的，则基于杂交的条形码编码可以在存在强蛋白质变性剂(例如，蛋白酶K和/或硫氰酸胍)的情况下发生。在一些实施例中，在这种条形码编码方法中使用如强蛋白变性剂可以通过将底物释放到溶液中来提高分子转化率和敏感性。

图7A-B：2D阵列的杂交条形码编码。图7A-B描绘了在具有珠粒去卷积的2D阵列上的基于杂交的空间条形码编码以允许对其最近邻进行珠粒的共定位。在2D阵列中，细胞和/或核用加有同型衔接子的Tn5转座酶进行酶切加标。然后将与条形码编码寡核苷酸连接的珠粒施加到2D阵列。寡核苷酸被释放并与桥接寡核苷酸杂交，所述桥接寡核苷酸也与经磷酸化的Tn5衔接子杂交。然后珠粒条形码编码寡核苷酸和经磷酸化的Tn5衔接子在下游连接(未示出)。比较在矩形之间用虚线示出的相对测序链上的共有9bp序列允许对其最近邻进行珠粒的去卷积。这可以跨2D阵列完成，以在不具有珠粒的位置的先验知识的情况下，重建珠粒的位置。

图8展示了生成序列读段以确定含9个核苷酸的序列是否位于(与被测序的样品的基因组或cDNA序列相比的)邻近序列和反向补体的5′的一个实施例。

图9示出了邻近tn5转座之间的度量d(片段之间的距离)的丰度。显著距离1、7和9以较深色条示出。将数据分成被预测在同一液滴(TRUE)中或不在同一液滴(FALSE)中的转座对的小组。

定义

除非另外定义，否则本文使用的所有技术和科学术语通常具有与本发明所属领域的普通技术人员通常所理解相同的含义。通常，本文所使用的命名法以及下文所描述的细胞培养、分子遗传学、有机化学以及核酸化学与杂交中的实验室程序是本领域中众所周知并且通常采用的那些。标准技术用于核酸和肽合成。技术和程序通常根据本领域的常规方法和各种一般参考文献来执行(通常参见，Sambrook等人《分子克隆：实验室手册(MOLECULAR CLONING：A LABORATORY MANUAL)》，第2版(1989)纽约冷泉港的冷泉港实验室出版社(Cold Spring Harbor Laboratory Press，Cold Spring Harbor，N.Y.)，所述文献通过引用并入本文)，所述常规方法和各种一般参考文献在本文档中通篇提供。本文所用的命名法以及下文所述的分析化学和有机合成中的实验室程序是本领域众所周知和常用的。

术语“扩增反应”是指以线性或指数方式扩增核酸的靶序列拷贝的任何体外手段。此类方法包含但不限于：两引物方法，如聚合酶链式反应(PCR)；连接酶方法，如DNA连接酶链式反应(参见美国专利第4,683,195号和第4,683,202号；《PCR方案：方法和应用指南(PCRProtocols：A Guide to Methods andApplications)》(Innis等人编辑，1990))(LCR)；QBeta RNA复制酶和基于RNA转录的扩增反应(例如，涉及T7、T3或SP6引发的RNA聚合的扩增)，如转录扩增系统(TAS)、基于核酸序列的扩增(NASBA)和自持序列复制(3SR)；等温扩增反应(例如，单引物等温扩增(SPIA))；以及本领域技术人员已知的其它技术。

“扩增”是指如果反应的所有组分都完好无损，将溶液置于足以扩增多核苷酸的条件下的步骤。扩增反应的组分包含例如，引物、多核苷酸模板、聚合酶、核苷酸等。术语“扩增”通常指靶核酸的“指数”增加。然而，如本文所使用的，“扩增”也可以指核酸的选定靶序列的数量的线性增加，如通过循环测序或线性扩增获得的。在示例性实施例中，扩增是指使用扩增引物第一和第二扩增引物的PCR扩增。

术语“扩增反应混合物”是指包括用于扩增靶核酸的各种试剂的水溶液。这些包含酶、水性缓冲液、盐、扩增引物、靶核酸和核苷三磷酸。扩增反应混合物还可以进一步包含稳定剂和其它添加剂以优化效率和特异性。根据上下文，混合物可以是完全或不完全扩增反应混合物。

“聚合酶链式反应”或“PCR”是指以几何级数扩增靶双链DNA的特定区段或子序列的方法。PCR对于本领域技术人员来说是众所周知的；参见例如，美国专利第4,683,195号和第4,683,202号；以及《PCR方案：方法和应用指南》，Innis等人编辑，1990。示例性PCR反应条件通常包括两步或三步循环。两步循环具有变性步骤，然后是杂交/延伸步骤。三步循环包括变性步骤，然后是杂交步骤，然后是单独的延伸步骤。

“引物”是指与靶核酸上的序列杂交并作为核酸合成的起始点的多核苷酸序列。引物可以具有各种长度，并且长度通常小于50个核苷酸，例如长度为12至30个核苷酸。用于PCR的引物的长度和序列可以基于本领域技术人员已知的原理来设计，参见例如，Innis等人，同上。引物可以是DNA、RNA或DNA和RNA部分的嵌合体。在一些情况下，引物可以包含一个或多个经修饰的或非天然的核苷酸碱基。在一些情况下，引物被标记。

核酸或其一部分在一定条件下与另一种核酸“杂交”，使得生理缓冲液(例如，pH 6至9，25-150mM氯化物盐)中限定的温度下的非特异性杂交最小化。在一些情况下，核酸或其部分与一组靶核酸中共有的保守序列杂交。在一些情况下，如果存在至少约6、8、10、12、14、16或18个连续互补核苷酸，包含与多于一个核苷酸配偶体互补的“通用”核苷酸，则引物或其部分可以与引物结合位点杂交。可替代地，如果在至少约12、14、16、18或20个连续核苷酸上存在0个或少于2个或3个互补错配，则引物或其部分可以与引物结合位点杂交。在一些实施例中，发生特异性杂交的限定温度为室温。在一些实施例中，发生特异性杂交的限定温度高于室温。在一些实施例中，发生特异性杂交的限定温度为至少约37、40、42、45、50、55、60、65、70、75或80℃。在一些实施例中，发生特异性杂交的限定温度为37、40、42、45、50、55、60、65、70、75或80℃。

如本文所使用的，“核酸”意指DNA、RNA、单链、双链或更多高度聚集的杂交基序以及其任何化学修饰。修饰包含但不限于提供化学基团的修饰，所述化学基团掺入另外的电荷、极化性、氢键合、静电相互作用、附接点和对于核酸配体碱基或对于整个核酸配体的功能性。此类修饰包含但不限于肽核酸(PNA)、磷酸二酯基团修饰(例如，硫代磷酸酯、甲基膦酸酯)、2′-位置糖修饰、5-位置嘧啶修饰、8-位置嘌呤修饰、外环胺处的修饰、4-硫尿苷的取代、5-溴或5-碘-尿嘧啶的取代；主链修饰、甲基化、不寻常的碱基配对组合，如异碱基、异胞苷和异胍等。核酸还可以包含非天然碱基，如硝基吲哚。修饰也可以包含3′和5′修饰，其包含但不限于用荧光团(例如，量子点)或另一个部分封端。

“聚合酶”是指进行模板导向的多核苷酸(例如，DNA和/或RNA)的合成的酶。所述术语涵盖全长多肽和具有聚合酶活性的结构域两者。DNA聚合酶是本领域技术人员众所周知的，包含但不限于分离或源自强烈火球菌(Pyrococcus furiosus)、嗜热高温球菌(Thermococcus litoralis)和海栖热袍菌(Thermotoga maritime)的DNA聚合酶或其经修饰的版本。可商购获得的聚合酶的另外的实例包含但不限于：Klenow片段(New England股份有限公司)、Taq DNA聚合酶(凯杰公司(QIAGEN))、9°N^TM DNA聚合酶(NewEngland />股份有限公司)，Deep Vent^TM DNA聚合酶(New England />股份有限公司)、Manta DNA聚合酶/>Bst DNA聚合酶(New England股份有限公司)和phi29 DNA聚合酶(New England />股份有限公司)。

聚合酶包含DNA依赖性聚合酶和RNA依赖性聚合酶两者，如逆转录酶。已知至少有五个DNA依赖性DNA聚合酶家族，尽管大多数属于A、B和C家族。其它类型的DNA聚合酶包含噬菌体聚合酶。类似地，RNA聚合酶通常包含真核RNA聚合酶I、II和III，以及细菌RNA聚合酶以及噬菌体和病毒聚合酶。RNA聚合酶可以是DNA依赖性的和RNA依赖性的。

如本文所使用的，术语“分区”或“分区的”是指将样品分离为多个部分或“分区”。分区通常是物理的，因此一个分区中的样品不会或基本上不会与邻近分区中的样品混合。分区可以是固体的或流体的。在一些实施例中，分区是固体分区，例如，微通道或微孔。在一些实施例中，分区是流体分区，例如，液滴。在一些实施例中，流体分区(例如，液滴)是不混溶流体(例如，水和油)的混合物。在一些实施例中，流体分区(例如，液滴)是被不混溶载体流体(例如，油)包围的水性液滴。

在一些情况下分区是虚拟的。在优选的实施例中，虚拟分区需要分子或分子组的物理改变，其中所述改变鉴定所述分子或分子组的独特分区。适于建立或维持虚拟分区的典型物理改变包含但不限于核酸条形码、可检测标记等etc。可能需要水凝胶颗粒中的细胞固定和/或包埋细胞以实现物理改变。例如，样品可以在水凝胶中进行物理地分区，并且每个分区的组分用分区特异性标识符(例如，核酸条形码序列)进行标记，使得所述标识符与其它分区相比是独特的但在分区的组分之间共享。然后分区特异性标识符可以被用于在涉及经物理地分区的材料的组合的下游应用中维持虚拟分区。因此，如果样品是被物理地分区成含有单个细胞的分区的细胞样品，则标识符可以在重组分区之后鉴定源自单个细胞的不同核酸。

如本文所使用的，“标记”是指非靶核酸组分，通常是DNA，其提供寻找其所接合的核酸片段的手段。例如，在优选的实施例中，标记包括允许鉴定、识别和/或分子或生物化学操纵标记所附接的DNA的核苷酸序列(例如，通过提供独特或分区特异性序列，和/或用于使寡核苷酸退火的位点，如用于通过DNA聚合酶延伸的引物，或用于捕获或用于连接反应的寡核苷酸)。将标记连接到DNA分子的过程在本文中有时被称为“标记”，并且经历标记或含有标记的DNA被称为“经标记的”(例如，“经标记的DNA”)。标记可以是条形码、衔接子序列、引物杂交位点或其组合。

术语“珠粒”是指可以处于分区中的任何固相载体，例如小颗粒或其它固相载体。在一些实施例中，所述珠粒包括聚丙烯酰胺。例如，在一些实施例中，珠粒通过附接到每种寡核苷酸的亚砜化学修饰将条形码寡核苷酸掺入到凝胶基质中。示例性珠粒也可以是水凝胶珠粒。在一些情况下，所述水凝胶呈溶胶形式。在一些情况下，所述水凝胶呈凝胶形式。示例性水凝胶是琼脂糖水凝胶。其它水凝胶包含但不限于在例如，美国专利第4,438,258号；第6,534,083号；第8,008,476号；第8,329,763号；美国专利申请第2002/0,009,591号；第2013/0,022,569号；第2013/0,034,592号；以及国际专利公开第WO/1997/030092号；以及第WO/2001/049240号中描述的水凝胶。

将寡核苷酸连接到珠粒的方法描述于例如WO 2015/200541中。在一些实施例中，被配置成将水凝胶与条形码连接的寡核苷酸与水凝胶共价连接。用于将寡核苷酸与一种或多种水凝胶基质共价连接的许多方法是本领域已知的。作为一个实例，经醛衍生化的琼脂糖可以与合成寡核苷酸的5′-胺基团共价连接。在一些实施例中，前向引物经由可切割接头(如下所述)与珠粒或固相载体连接，并且可以从分区中的珠粒或固相载体切割。在一些实施例中，与靶核酸上的第一寡核苷酸引物组合充当反向引物的第二寡核苷酸引物可以被包含在所述分区中，或者可替代地在将分区合并到散装反应之后。例如，靶反向引物将包含在测定条件下与靶标上的反向互补序列杂交以允许例如基于聚合酶的延伸的序列。

如本文所使用的，“条形码”是鉴定其所缀合到的分子的短核苷酸序列(例如，长度为约1、2、3、4、5、6、7、8、9、10、11、12、15、20、25个或更多个核苷酸)。条形码可以被用于例如鉴定反应混合物或分区中的分子。通常，与其它分区中存在的条形码相比，分区特异性条形码对于所述分区应该是所独有的。例如，含有来自单细胞的靶RNA的分区可以使用在每个分区中含有不同分区特异性条形码序列的引物进行逆转录条件，从而将独特“细胞条形码”的拷贝掺入每个分区的经逆转录的核酸中。因此，由于存在所独有的“细胞条形码”，可以将来自每个细胞的核酸与来自其它细胞的核酸区分开。在一些情况下，细胞条形码作为“珠粒条形码”提供，所述“珠粒条形码”存在于与颗粒或珠粒(例如，磁珠)缀合的寡核苷酸上，其中珠粒条形码由与所述珠粒缀合的寡核苷酸的全部或基本上全部共有(例如，相同或基本上相同)。因此，细胞条形码和珠粒条形码可以作为同一条形码序列的多个拷贝存在于分区中、附接到珠粒或与细胞核酸结合。同一序列的细胞条形码或珠粒条形码可以被鉴定为源自同一细胞、分区或珠粒。此类分区特异性条形码、细胞条形码或珠粒条形码可以使用多种方法生成，所述方法可以产生与固相载体或水凝胶载体(例如，固体珠粒或颗粒或水凝胶珠粒或颗粒)缀合或掺入其中的条形码。在一些情况下，所述分区特异性条形码、细胞条形码或珠粒条形码使用拆分和混合(也称为拆分和合并)合成方案生成。分区特异性条形码可以是细胞条形码和/或珠粒条形码。类似地，细胞条形码可以是分区特异性条形码和/或珠粒条形码。另外，珠粒条形码可以是细胞条形码和/或分区特异性条形码。如本文中更多地描述，在一些实施例中，至少一些分区接收并因此含有两个或更多个珠粒，从而在一个分区中产生两个或更多个珠粒特异性条形码。本公开部分地解决了如何确认这一点。

在其它情况下，条形码独特地鉴定其所缀合到的分子。例如，通过使用各自含有“独特分子标识符”条形码的引物进行逆转录或PCR扩增。在仍其它实例中，可以利用含有对于每个分区所独有的“分区特异性条形码”和对于每个分子所独有的“分子条形码”的引物。在条形码编码后，然后可以合并并且任选地扩增分区，同时维持虚拟分区。因此，例如，包括每个条形码的靶核酸(例如，经逆转录的核酸)的存在或不存在可以被计数(例如，通过测序)，而不需要维持物理分区。在一些情况下，独特分子标识符条形码由标记到靶核酸的一端的核苷酸的连续序列编码。

在一些情况下，独特分子标识符条形码由非连续序列编码。非连续UMI可以具有在靶核酸的第一端处的条形码的一部分和在靶核酸的第二端处的条形码的一部分。在一些情况下，UMI是非连续条形码，其含有在靶核酸的第一端处的可变长度条形码序列和第二端处的第二标识符序列。在一些情况下，UMI是非连续条形码，其含有在靶核酸的第一端处的可变长度条形码序列和第二端处的第二标识符序列，其中第二标识符序列由转座酶片段化事件的位置，例如转座酶片段化位点和转座子端插入事件确定。

条形码序列的长度可以确定可以区分多少独特样品。例如，1个核苷酸条形码可以区分4个或更少的不同样品或分子；4个核苷酸条形码可以区分4⁴或256个样品或更少；6个核苷酸条形码可以区分4096个或更少的不同样品；并且8个核苷酸条形码可以索引65,536个或更少的不同样品。另外，条形码可以通过用于第一链和第二链合成的经条形码编码的引物、通过连接或在酶切加标反应中附接到靶核酸分子(例如，gDNA或cDNA)的两条链。

“转座酶”或“酶切加标酶”意指能够与含有转座子端的组合物形成功能性复合物并且催化含有转座子端的组合物插入或转座到在体外转座反应中与其一起温育的双链靶DNA中的酶。通常，插入或转座导致靶DNA的片段化。

术语“转座子端”意指含有核苷酸序列(“转座子端序列”)或由所述核苷酸序列组成的双链DNA，所述核苷酸序列是与体外转座反应中起作用的转座酶形成复合物所必需的。转座子端与识别并与所述转座子端结合的转座酶或整合酶形成“复合物”或“联合复合物”或“转座体复合物”或“转座体组合物”，并且所述复合物能够将所述转座子端插入或转座到在体外转座反应中与其一起温育的靶DNA中。转座子末端展现出由“经转移的转座子端序列”或“经转移的链”和“未经转移的转座子端序列”或“未经转移的链”组成的两个互补序列。例如，与高活性Tn5转座酶(例如，EZ-Tn5^TM转座酶，美国威斯康星州麦迪逊的奕必城生物科技公司(EPICENTRE Biotechnologies，Madison，Wis.，USA))(其在体外转座反应中具有活性)形成复合物的一个转座子端包括展示出如下的“经转移的转座子端序列”的经转移的链：

5′AGATGTGTATAAGAGACAG 3′(SEQ ID NO：4)，

以及展示出如下的“未经转移的转座子端序列”的未经转移的链：

5′CTGTCTCTTATACACATCT 3′(SEQ ID NO：7)。

在体外转座反应中将经转移的链的3′端接合或转移到靶DNA。在体外转座反应中，表现出与经转移的转座子端序列互补的转座子端序列的未经转移的链未接合或转移到靶DNA。

在另一个实例中，与在体外转座反应中具有活性的转座酶形成复合物的转座子端包括表现出如下“经转移的转座子端序列”的经转移的链：

5′-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG-3′(SEQ ID NO：5)；或

5′-GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG-3(SEQ ID NO：6)

5′CTGTCTCTTATACACATCT 3′(SEQ ID NO：7)。

在一些实施例中，含有转座子端的组合物包括形成双链核苷酸组合物的经转移的转座子端和未经转移的转座子端。在一些实施例中，转座子端包括具有与转座酶形成功能性复合物所必需的核苷酸序列的双链核苷酸组合物，从而导致转座子端插入在体外转座反应中与其一起温育的靶核酸分子中的一个或多个靶核酸分子中。在一些实施例中，对应于转座子端的双链核苷酸组合物包括5′至3′AGATGTGTATAAGAGACAG(SEQ ID NO 4)和5′至3′CTGTCTCTTATACACATCT(SEQ ID NO：7)。在另一个实施例中，对应于转座子端的双链核苷酸组合物包括5′至3′TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG(SEQ ID NO：5)和5′至3′CTGTCTCTTATACACATCT(SEQ ID NO：7)。在又一个实施例中，对应于转座子端的双链核苷酸组合物包括5′至3′GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG(SEQ ID NO：6)和5′至3′CTGTCTCTTATACACATCT(SEQ ID NO：7)。

“测序读段中的含9个核苷酸的序列是否位于邻近基因组位置的5′”是指基于来自由转座酶寡核苷酸引入的相同引物杂交序列的引物进行测序，从而产生序列读段，其在与基因组DNA比对的情况下显示所讨论的两个读段来自基因组(或cDNA)中的邻近序列并且因此是“邻近的”，并且在测序读段中含9个核苷酸的序列位于靶核酸序列的5′。这例如在图8中展示。两个片段是“邻近的”，因为所述片段由切割事件形成，并且因此当被映射到基因组时，所述片段与邻近序列比对。如本文其它地方所述，由转座酶引起的切割事件导致具有含9个核苷酸的序列的一个片段的“顶部”链和具有含9个核苷酸的序列的反向补体的第二片段的“底部”链。

具体实施方式

酶切加标是通常用于使待测序的DNA片段化同时将由转座酶递送的已知寡核苷酸序列添加到如此产生的片段的端的过程。酶切加标经由转座酶(例如Tn5或其变体)的转座起作用。Tn5执行“切割和粘贴”功能，其中Tn5插入到靶序列中，从而产生靶标的9-bp复制(参见例如，Reznikoff WS.转座子Tn5(Transposon Tn5.)《遗传学年鉴(Annu.Rev.Genet.)》42：269-86(2008))。这导致来自转座酶寡核苷酸的未经转移的链与靶DNA之间的9bp间隙。因此，转座产生靶DNA中的切割位点，从而产生第一DNA片段和第二DNA片段，其中所述两个片段具有互补的含9个核苷酸的序列。

在基于分区的核苷酸测序样品制备中，分区(例如，液滴)含有靶DNA并且还含有携带珠粒特异性条形码的一个或多个珠粒以用于对分区中的靶DNA进行条形码编码。当在分区中仅有一个珠粒时，分区中的所有靶DNA都用同一条形码进行条形码编码，并且当分区的内容稍后在测序工作流中合并时，可以追踪到用所述珠粒的条形码标记的DNA都在一个分区内。然而，在将两个或更多个珠粒引入分区中(例如，根据泊松分布(Poissondistribution))的情况下，来自一个分区的不同DNA片段将接收(来自不同珠粒的)不同条形码。如果在测序读段中将不同的珠粒条形码解释为来自不同的分区，则这可能会产生测序准确度的问题。

本发明人已发现一种使用9个碱基对序列的方法，所述序列存在于由转座引起的切割位点形成的两个片段上，以确定两个珠粒何时在同一分区中，从而允许合并具有不同珠粒条形码但来自同一分区的测序读段。例如，本发明人已发现，如果两个DNA片段之间的测序读段展示指示由相同切割事件形成的测序片段但具有不同条形码的序列，则具有不同条形码的测序读段仍来自同一分区。例如可以确定，如果具有来自两种不同的条形码编码寡核苷酸的条形码的测序读段中的(由转座酶切割产生的)含9个核苷酸的序列是反向互补序列，并且所述测序读段中的含9个核苷酸的序列位于邻近基因组位置的5′，则可以确定所述测序读段来自同一分区。此方面可以多种方式被有利地使用。在一些实施例中，即使测序读段在满足上述标准的情况下含有不同的分区特异性(例如珠粒)条形码，也可以将来自多个条形码的测序读段分配给特定分区。在其它实施例中，分区中仅存在一个分区特异性条形码序列，并且此方法用于确认不存在第二分区特异性条形码序列。

鉴于此发现，DNA样品可以新的并且改进的方式制备以利用此发现。例如，在如下文详述的一些实施例中，样品制备工作流可以仅涉及分区内的杂交反应，从而允许在需要时避免分区中的样品的酶操纵。这在期望在原本会损害分区中的酶的条件(例如，高温、存在离液剂或其它酶危害剂和/或消化剂)下处理分区的情况下可能是特别有益的。

此外，这一发现在空间分析方面也有应用，例如用于在经固定的样品的空间位置背景下提供关于经固定的组织样品的基因表达或测序信息。如下文更详细描述的，这可以涉及使含有已通过酶切加标而片段化的DNA的透化组织与包括寡核苷酸条形码的珠粒接触，然后所述寡核苷酸条形码被用于对组织中的片段进行条形码编码。这可以涉及从珠粒释放寡核苷酸以实现与核酸底物(即，组织中的细胞中的靶核酸片段)的接触。具有不同条形码的邻近珠粒可以对来自同一酶切加标切割位点的片段进行条形码编码，从而导致类似于如上所述在分区中具有多个珠粒的情况。可以对从组织中收获的经条形码编码的DNA进行测序，并且可以基于标记到源自同一切割位点的片段的不同条形码来确定样品中邻近珠粒的位置。例如，如果具有不同条形码的测序读段来自邻近珠粒，则含9个核苷酸的序列的序列同一性将相同，测序读段中的(由转座酶切割产生的)含9个核苷酸的序列将是反向互补序列，并且测序读段中的含9个核苷酸的序列将位于邻近基因组位置的5′。因此，可以通过检测跨多个珠粒的这种情况来编译邻近珠粒的位置，从而允许制备不同条形码的图，从而允许将相对位置归因于透化经固定的组织上的测序读段。

在一些实施例中，所述方法包括将包括细胞或核内的一个或多个靶核酸的样品分成多个分区。在一些实施例中，包括靶核酸的样品包括DNA、RNA或其组合或杂交体。在一些实施例中，样品包括位于单细胞或单核中的靶核酸。在一些实施例中，完整细胞或核可以被渗透化以允许试剂进入。示例性试剂可以包含使用洋地黄皂苷或固定剂，如甲醇或多聚甲醛。在一些实施例中，样品包括从组织或细胞中分离的靶核酸。在一些实施例中，细胞将具有完整染色质，使得一些染色体区对于转座酶比其它染色体区更容易接近，从而允许生成ATACseq结果。在一些实施例中，DNA将在转座之前被去除组蛋白，从而允许生成基因分型结果。去除组蛋白的一种方法是通过使用3，5-二碘水杨酸锂，如锂辅助核小体消耗(LAND)中所述。参见例如，Vitak等人，《自然方法(NatMethods.)》2017年3月；14(3)：302-308。另一种方法是使用甲醛交联细胞，然后用甘氨酸淬灭并应用SDS。参见例如，Mulqueen等人，《自然生物技术(NatBiotechnol.)》2018年6月；36(5)：428-431。在一些实施例中，在用胃蛋白酶消化后，NaOH被用于组织经石蜡包埋的组织样品，如PCR原位杂交(MSP-ISH)方法中所述。参见例如，Nuovo等人，《美国国家科学院院刊(Proc Natl Acad Sci USA)》96：12754-12759。

在一些实施例中，包括靶核酸的样品是生物样品。生物样品可以从任何生物有机体中获得，例如，动物、植物、真菌、病原体(例如，细菌或病毒)或任何其它有机体。在一些实施例中，生物样品来自动物，例如哺乳动物(例如，人或非人灵长类动物、牛、马、猪、绵羊、猫、狗、小鼠或大鼠)、鸟(例如，鸡)或鱼。生物样品可以是从生物有机体获得的任何组织或体液，例如，血液、血液级分或血液产品(例如，血清、血浆、血小板、红细胞等)、痰或唾液、组织(例如，肾、肺、肝、心、脑、神经组织、甲状腺、眼、骨骼肌、软骨或骨组织)；经培养的细胞，例如，原代培养物、外植体和经转化的细胞、干细胞、粪便、尿液等。在一些实施例中，样品是包括细胞的样品。在一些实施例中，样品是单细胞样品。

在一些实施例中，在引入到分区中之前和转座之前，组织中的细胞中的RNA可以被原位转化为cDNA。例如，细胞或核可以被固定，并且可以通过添加适当的逆转录试剂(例如，逆转录酶、核苷酸、一种或多种引物，其任选地是包括polyT 3′端的引物)来将RNA逆转录以形成第一链cDNA分子。作为另外的可能的步骤，第一链cDNA可以通过第二链合成(例如，通过提供适当的试剂，例如适当的引物和DNA聚合酶)转化成双链cDNA。

在一些实施例中，在引入到分区中之前，细胞或核中的DNA(例如，染色体DNA、cDNA或其它DNA)将被酶切加标以将DNA切割成在其端处接收由酶切加标转座酶递送的寡核苷酸(“转座酶寡核苷酸”)的片段。细胞可以被渗透化，并且其内的核DNA可以被片段化，例如用将衔接子序列引入经片段化的DNA的端的转座酶。在使用单独的核的情况下，核不需要被渗透化以使转座酶进入核。转座酶的作用有时被称为“酶切加标”，并且可以涉及在DNA断裂点的不同侧上引入不同的转座酶寡核苷酸，或者添加的转座酶寡核苷酸可以相同。负载同型衔接子的酶切加标酶是含有仅一个序列的转座酶寡核苷酸的酶切加标酶，所述转座酶寡核苷酸被添加到基因组DNA中的经酶切加标酶诱导的断裂点的两端。负载异型衔接子的酶切加标酶是含有两个不同转座酶寡核苷酸的酶切加标酶，使得将不同的转座酶寡核苷酸序列添加到由DNA中的经酶切加标酶诱导的断裂点创建的两个DNA端。这两种不同的转座酶寡核苷酸可以在其序列的仅一部分处，即在SEQ ID NO：5与SEQ ID NO：6之间不同。负载衔接子的酶切加标酶进一步描述于例如，美国专利公开：第2010/0120098号；第2012/0301925号；以及第2015/0291942号；以及美国专利：第5,965,443号；美国第6,437,109号；第7,083,980号；第9,005,935号；以及第9,238,671号，所述专利中的每个专利的内容出于所有目的特此通过引用整体并入。在ATAC-seq应用中，定量完整测序读段的数量(指示不被转座酶切割的异染色质)可以测量染色质结构。

转座酶寡核苷酸是部分双链和部分单链的。单链部分通常是任选地被5′磷酸化并且任选地包括允许与条形码寡核苷酸相互作用的通用序列的5′单链突出序列。与条形码寡核苷酸的相互作用可以涉及与桥接寡核苷酸杂交，所述桥接寡核苷酸又与条形码寡核苷酸杂交。可替代地，与条形码寡核苷酸的相互作用可以包括使用条形码寡核苷酸作为模板用于合成通用序列的补体，所述通用序列的补体在下游分子生物学反应中的引物延伸DNA合成期间被用作引物结合位点。转座后的这些DNA片段可以通过使用连接酶共价连接。任选地，转座酶寡核苷酸还可以包含例如第二条形码序列，如独特分子标识符序列和/或样品索引。第二条形码序列的长度可以为例如4-10个碱基对。虽然单链部分通常是5′单链突出序列，但在一些实施例中，单链部分实际上是3′单链突出序列。

酶切加标酶是能够与含有转座子端的组合物形成功能性复合物并且催化含有转座子端的组合物插入或转座到在体外转座反应中与其一起温育的双链靶DNA中的酶。示例性转座酶包含但不限于与野生型Tn5相比具有高活性的经修饰的Tn5转座酶，例如可以具有选自E54K、M56A或L372P的一个或多个突变。野生型Tn5转座子是复合转座子，其中两个几乎相同的插入序列(IS50L和IS50R)侧接三个抗生素耐药性基因(ReznikoffWS《遗传学年度评论(Annu Rev Genet)》42：269-286(2008))。每个IS50含有两个倒置的19-bp端序列(ES)、外端(OE)和内端(IE)。然而，野生型ES具有相对低的活性，并且在体外被高活性镶嵌端(ME)序列替换。因此，转座酶与19-bp ME的复合物是发生转座所必需的，条件是中间的DNA足够长以使这些序列中的两个接近在一起以形成活性Tn5转座酶同二聚体(Reznikoff WS.，《分子微生物学(Mol Microbiol)》47：1199-1206(2003))。转座是体内非常少见的事件，并且高活性突变体在历史上通过在Tn5蛋白的476个残基中引入三个错义突变(E54K、M56A、L372P)来衍生，所述蛋白由IS50R编码(Goryshin IY，Reznikoff WS.1998.《生物化学杂志(J BiolChem)》273：7367-7374(1998))。转座通过“切割和粘贴”机制起作用，其中Tn5从供体DNA切除自身并插入到靶序列中，从而产生靶标的9-bp复制(Schaller H.《冷泉港关于定量生物学的年度座谈会(Cold Spring Harb Symp Quant Biol)》43：401-408(1979)；ReznikoffWS.，《遗传学年度评论》42：269-286(2008))。在当前的商业溶液(Nextera^TM DNA试剂盒，因美纳公司(Illumina))中，游离合成ME衔接子通过转座酶(酶切加标酶)末端接合到靶DNA的5′端。在一些实施例中，将酶切加标酶连接到固相载体(例如，与连接到前向引物的珠粒不同的珠粒)。示例性商业的连接珠粒的酶切加标酶是Nextera^TM DNA Flex(因美纳公司)。

在一些实施例中，转座酶寡核苷酸(也被称为衔接子)的长度为至少19个核苷酸，例如，19-100个核苷酸。在一些实施例中，转座酶寡核苷酸的5′突出序列在异型衔接子之间不同，而双链部分(通常为19bp)相同。在一些实施例中，转座酶寡核苷酸包括TCGTCGGCAGCGTC(SEQ ID NO：1)或GTCTCGTGGGCTCGG(SEQ ID NO：2)。在涉及负载异型衔接子的酶切加标酶的一些实施例中，所述酶切加标酶负载有包括TCGTCGGCAGCGTC(SEQ IDNO：1)的第一转座酶寡核苷酸和包括GTCTCGTGGGCTCGG(SEQ ID NO：2)的第二转座酶寡核苷酸。在一些实施例中，所述转座酶寡核苷酸包括AGATGTGTATAAGAGACAG(SEQ ID NO：3)和其补体(这是镶嵌端，并且这是Tn5转座唯一特别所需的顺式活性序列)。在一些实施例中，所述转座酶寡核苷酸包括具有用于AGATGTGTATAAGAGACAG(SEQ ID NO：3)的补体的TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG(SEQ ID NO：4)或具有AGATGTGTATAAGAGACAG(SEQ ID NO：3)的补体的GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG(SEQ ID NO：5)。在涉及负载异型衔接子的酶切加标酶的一些实施例中，所述酶切加标酶负载有包括具有用于AGATGTGTATAAGAGACAG(SEQ ID NO：3)的补体的TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG(SEQID NO：4)和具有用于AGATGTGTATAAGAGACAG(SEQ ID NO：3)的补体的GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG(SEQ ID NO：5)的第一转座酶寡核苷酸。

样品中的DNA的酶切加标在DNA中形成一系列切割位点。为了方便起见，下文论述一个切割位点，但应理解反应发生多次。酶切加标在来自所述细胞中的一个细胞的靶核酸中生成至少一个切割位点以形成第一核酸片段和第二核酸片段，其中所述第一核酸片段和所述第二核酸片段在所述切割位点处包括源自靶核酸的单链含9个核苷酸的序列，所述单链含9个核苷酸的序列彼此互补、连接到通过酶切加标转座酶递送的转座酶寡核苷酸，其中所述转座酶寡核苷酸具有双链部分和单链5′部分。含9个核苷酸的序列来自靶DNA，每个片段接受含9个核苷酸的序列的一个链。因此，第一链和第二链在切割位点处具有互补的含9个核苷酸的序列。与9个核苷酸单链序列连接的是为双链的转座酶寡核苷酸的链的3′端，使得片段的端包括转座酶寡核苷酸的双链部分以及在其另一端的转座酶寡核苷酸的单链5′部分。

在一些实施例中，在酶切加标之后，多个分区由含有经酶切加标的DNA和多个连接条形码寡核苷酸的珠粒的细胞或核形成。如下文进一步讨论的，在一些实施例中，分区还将包含桥接寡核苷酸的拷贝。

例如，在已公布的专利申请WO 2010/036352、US 2010/0173394、US 2011/0092373和US 2011/0092376中描述了用于分区的方法和组合物。多个分区可以在多个乳液液滴或多个微孔等中。

在一些实施例中，一种或多种试剂在液滴形成期间或在液滴被形成之后被添加到液滴。用于将试剂递送到一个或多个分区的方法和组合物包含如本领域已知的微流体方法；液滴或微胶囊组合、聚结、融合、破裂或降解(例如，如U.S.2015/0027,892；US 2014/0227,684；WO 2012/149,042；以及WO 2014/028,537中所描述的)；液滴注射方法(例如，如WO 2010/151,776中所描述的)；以及其组合。

如本文所描述的，分区可以是皮微孔、纳米孔或微孔。分区可以是皮反应室、纳米反应室或微反应室，如皮胶囊、纳米胶囊或微胶囊。分区可以是皮通道、纳米通道或微通道。分区可以是液滴，例如乳液液滴。在一些实施例中，液滴包括乳液组合物，即不混溶流体(例如，水和油)的混合物。在一些实施例中，液滴是被不混溶载体流体(例如，油)包围的水性液滴。在一些实施例中，液滴是被不混溶载体流体(例如，水溶液)包围的油液滴。在一些实施例中，本文所描述的液滴是相对稳定的，并且在两个或更多个液滴之间具有最小的聚结。在一些实施例中，由样品产生的小于0.0001％、0.0005％、0.001％、0.005％、0.01％、0.05％、0.1％、0.5％、1％、2％、3％、4％、5％、6％、7％、8％、9％或10％的液滴与其它液滴聚结。乳液也可能具有有限的絮凝，即分散相以薄片形式从悬浮液中出来的过程。在一些情况下，此类稳定性或最小聚结维持至多4、6、8、10、12、24或48小时或更长时间(例如，在室温下，或在约0、2、4、6、8、10或12℃下)。在一些实施例中，液滴是通过使油相流过水性样品或试剂而形成的。

油相可以包括氟化基础油，所述氟化基础油可以通过与氟化表面活性剂(如全氟化聚醚)组合而被另外地稳定化。在一些实施例中，基础油包括HFE 7500、FC-40、FC-43、FC-70或另一种常见的氟化油中的一种或多种。在一些实施例中，油相包括阴离子含氟表面活性剂。在一些实施例中，阴离子含氟表面活性剂是Krytox铵(Krytox AS)、Krytox FSH的铵盐或Krytox FSH的吗啉代衍生物。Krytox-AS可以约0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1.0％、2.0％、3.0％或4.0％(w/w)的浓度存在。在一些实施例中，Krytox-AS的浓度为约1.8％。在一些实施例中，Krytox-AS的浓度为约1.62％。KrytoxFSH的吗啉代衍生物可以约0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1.0％、2.0％、3.0％或4.0％(w/w)的浓度存在。在一些实施例中，Krytox FSH的吗啉代衍生物的浓度为约1.8％。在一些实施例中，Krytox FSH的吗啉代衍生物的浓度为约1.62％。

在一些实施例中，油相进一步包括用于调节油特性(如蒸汽压力、粘度或表面张力)的添加剂。非限制性实例包含全氟辛醇和1H，1H，2H，2H-全氟癸醇。在一些实施例中，将1H，1H，2H，2H-全氟癸醇添加到约0.05％、0.06％、0.07％、0.08％、0.09％、0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1.0％、1.25％、1.50％、1.75％、2.0％、2.25％、2.5％、2.75％或3.0％(w/w)的浓度。在一些实施例中，将1H，1H，2H，2H-全氟癸醇添加到约0.18％(w/w)的浓度。

在一些实施例中，乳液可以是基本上单分散的。在其它实施例中，乳液可以是多分散的。乳液分散性可以乳液形成方法产生。例如，与可以是高度多分散的“色拉振荡器”乳液形成相比，微流体乳液形成通常是低多分散性的。多分散性也可以在乳液形成的下游，如当乳液的液滴融合在一起时出现。

在一些实施例中，调配乳液以产生具有液体样界面膜的高度单分散液滴，所述高度单分散液滴可以通过加热转化为具有固体样界面膜的微胶囊；此类微胶囊可以起到能够在温育期间保持其内容物的生物反应器的作用。向微胶囊形式的转化可以在加热时发生。例如，此类转化可以在高于约40°、50°、60°、70°、80°、90°或95℃的温度下发生。在加热过程期间，可以使用流体或矿物油覆盖层来防止蒸发。多余的连续相油可以在加热之前去除，或可以保留。微胶囊可以在大范围的热处理和机械处理中抵抗聚结和/或絮凝。

在将液滴转化成微胶囊之后，微胶囊可以在约-70°、-20°、0°、3°、4°、5°、6°、7°、8°、9°、10°、15°、20°、25°、30°、35°或40℃下储存。在一些实施例中，这些胶囊可用于储存或运输分区混合物。例如，可以在一个位置处收集样品，分区成含有酶、缓冲液和/或引物或其它探针的液滴，任选地可以执行一个或多个聚合反应，然后可以将分区加热以执行微包封，并且微胶囊可以被储存或运输以进行进一步分析。

在一些实施例中，样品被分区成或分区成至少500个分区、1000个分区、2000个分区、3000个分区、4000个分区、5000个分区、6000个分区、7000个分区、8000个分区、10,000个分区、15,000个分区、20,000个分区、30,000个分区、40,000个分区、50,000个分区、60,000个分区、70,000个分区、80,000个分区、90,000个分区、100,000个分区、200,000个分区、300,000个分区、400,000个分区、500,000个分区、600,000个分区、700,000个分区、800,000个分区、900,000个分区、1,000,000个分区、2,000,000个分区、3,000,000个分区、4,000,000个分区、5,000,000个分区、10,000,000个分区、20,000,000个分区、30,000,000个分区、40,000,000个分区、50,000,000个分区、60,000,000个分区、70,000,000个分区、80,000,000个分区、90,000,000个分区、100,000,000个分区、150,000,000个分区或200,000,000个分区。

在一些实施例中，所生成的液滴在形状和/或尺寸上是基本上均匀的。例如，在一些实施例中，液滴的平均直径是基本上均匀的。在一些实施例中，所生成的液滴的平均直径为约0.001微米、约0.005微米、约0.01微米、约0.05微米、约0.1微米、约0.5微米、约1微米、约5微米、约10微米、约20微米、约30微米、约40微米、约50微米、约60微米、约70微米、约80微米、约90微米、约100微米、约150微米、约200微米、约300微米、约400微米、约500微米、约600微米、约700微米、约800微米、约900微米或约1000微米。在一些实施例中，所生成的液滴的平均直径为小于约1000微米、小于约900微米、小于约800微米、小于约700微米、小于约600微米、小于约500微米、小于约400微米、小于约300微米、小于约200微米、小于约100微米、小于约50微米或小于约25微米。在一些实施例中，所生成的液滴在形状和/或尺寸上是不均匀的。

在一些实施例中，所生成的液滴在体积上是基本上均匀的。例如，液滴体积的标准偏差可以小于约1皮升、5皮升、10皮升、100皮升、1nL或小于约10nL。在一些情况下，液滴体积的标准偏差可以小于平均液滴体积的约10％至25％。在一些实施例中，所生成的液滴的平均体积为约0.001nL、约0.005nL、约0.01nL、约0.02nL、约0.03nL、约0.04nL、约0.05nL、约0.06nL、约0.07nL、约0.08nL、约0.09nL、约0.1nL、约0.2nL、约0.3nL、约0.4nL、约0.5nL、约0.6nL、约0.7nL、约0.8nL、约0.9nL、约1nL、约1.5nL、约2nL、约2.5nL、约3nL、约3.5nL、约4nL、约4.5nL、约5nL、约5.5nL、约6nL、约6.5nL、约7nL、约7.5nL、约8nL、约8.5nL、约9nL、约9.5nL、约10nL、约11nL、约12nL、约13nL、约14nL、约15nL、约16nL、约17nL、约18nL、约19nL、约20nL、约25nL、约30nL、约35nL、约40nL、约45nL或约50nL。

如上所述，分区将含有单个细胞或核以及一组或多组多个克隆条形码编码寡核苷酸，所述条形码编码寡核苷酸包括5′PCR柄序列、3′捕获序列和对于所述组所独有的条形码序列。在本文所述的大多数实施例中，克隆条形码编码寡核苷酸被递送到连接到珠粒的分区，所述分区方便地将一组克隆寡核苷酸递送到分区，并且因此其中的条形码指示条形码寡核苷酸所连接的珠粒。然而，在如本文所述的其中描述“珠粒”以提供所述组的克隆条形码编码寡核苷酸的每种情况下，应了解，所述组可以可替代地被递送到液滴中的分区，所述液滴中的每一个含有不同组的克隆条形码，使得条形码对于含有所述组的液滴是所独有的。在这些情况下，携带克隆条形码编码寡核苷酸的液滴可以被合并到分区中，并且在一些实施例中，多于一个液滴被合并到分区中，从而使具有不同条形码序列的不同条形码编码寡核苷酸被引入到分区中。

在其中转座酶递送两种不同的寡核苷酸(例如，异型衔接子)的实施例中，珠粒上的条形码编码寡核苷酸可以是两种不同寡核苷酸的混合物，一些寡核苷酸具有一个5′PCR柄序列，并且一些寡核苷酸具有不同的PCR柄序列以适应由转座酶递送的两种异型衔接子寡核苷酸。在一些实施例中，两个不同的5′PCR柄序列的比例可以是50：50，但可替代地，所述序列可以具有任何比率，例如1：99或99：1。在一些实施例中，含有每个转座酶独特的不同同型衔接子的两种不同转座酶的混合物递送两种不同的寡核苷酸。在这些实施例中，珠粒上的条形码编码寡核苷酸可以仅具有单个序列，并且对两种不同的加有同型衔接子的转座酶中的一种具有特异性。PCR下游使用的寡聚物将对于另一种加有同型衔接子的转座酶衔接子具有特异性。

条形码编码寡核苷酸的3′捕获序列将根据所采用的工作流程的实施例而变化。在(例如在图1-2中描绘的)第一实施例中，3′捕获序列包括转座酶寡核苷酸的单链5′部分中的通用序列，从而允许3′捕获序列在间隙填充步骤之后捕获经酶切加标的片段。在此实施例中，用聚合酶填充经酶切加标的片段的单链5′部分以产生全双链片段。因此，含9个核苷酸的序列以及连接片段的转座酶寡核苷酸的单链部分被填充，后者产生转座酶寡核苷酸的单链5′部分的反向互补序列。通用序列的反向互补序列将与条形码编码寡核苷酸的所述3′捕获序列互补，从而允许经由条形码编码寡核苷酸和经酶切加标的DNA片段的杂交和引物延伸合成进行连接。

可替代地，分区可以进一步含有桥接寡核苷酸，所述桥接寡核苷酸经由经酶切加标的靶片段与条形码编码寡核苷酸之间的杂交形成桥接。在此实施例中，桥接寡核苷酸包括：(i)与克隆条形码编码寡核苷酸的所述3′捕获序列互补的3′端序列；以及(ii)与转座酶寡核苷酸的所述单链5′部分的通用序列互补的5′端序列，从而允许桥接寡核苷酸在一侧上与克隆条形码编码寡核苷酸杂交，并且在另一侧上与经片段化的细胞DNA上的转座酶寡核苷酸杂交。参见例如图4A-B。

在上文所描述的任一选项(具有或不具有桥接寡核苷酸)中，发生间隙填充步骤以在另一链上用其互补序列填充任何单链序列。例如，在所有情况下，靶核酸片段上的9个核苷酸单链序列被间隙填充以使9个碱基对序列双链化。另外，来自转座酶寡核苷酸的5′单链突出序列也将通过间隙填充而被双链化。在发生实现桥接寡核苷酸的杂交的情况下，下游间隙填充还可以包含合成条形码寡核苷酸的全部或一部分的补体，以产生用于下游PCR的引物结合位点。在这些实施例中，间隙填充可以在分区中或在下游批量(在分区内容已被合并之后)发生。间隙填充通过在允许聚合酶填充序列中的单链间隙的条件下引入合适的聚合酶和核苷酸来进行。示例性间隙填充聚合酶可以包含例如其它DNA聚合酶I酶的T4 DA聚合酶。间隙填充后剩余的缺口可以被连接(例如，用T4 DNA连接酶)以去除缺口。

在未采用桥接寡核苷酸的实施例中，间隙填充在杂交之前进行，使得可以形成所附接的转座酶寡核苷酸的5′单链突出序列上的通用序列的补体，随后将其如上文所解释地与条形码编码寡核苷酸的3′捕获序列杂交。因此，在这些实施例中，间隙填充发生在所述分区中。

一旦片段已用条形码进行标记，就可以将分区的内容物合并到散装溶液中，使得剩余步骤涉及处理含有各种分区的内容物的单个散装溶液。在一些实施例中，通过将分区(例如液滴)与不稳定流体混合来破坏分区。在一些实施例中，所述不稳定流体是氯仿。在一些实施例中，所述不稳定流体包括全氟化醇。在一些实施例中，所述不稳定流体包括氟化油，如全氟碳油。在一些实施例中，所述分区是微孔，并且通过取出含有使寡核苷酸固定化的珠粒来从微孔中取出经条形码编码的产物。在一些实施例中，通过取出附接到靶核酸片段的经释放的条形码寡核苷酸来从微孔中取出经条形码编码的产物。

在采用桥接寡核苷酸的实施例中，间隙填充在杂交之后进行，从而允许间隙填充在分区的内容物合并到散装之后发生。此方面的一个优点在于分区本身不需要包含任何酶，从而允许包含分区中原本将会损害酶的试剂。例如，在一些实施例中，可能期望包含：(i)一种或多种蛋白酶(例如但不限于蛋白酶K)以消除可能存在的蛋白质；(ii)表面活性剂(例如，离子表面活性剂，例如，SDS，以及非离子表面活性剂，例如NP-40)；或(iii)离液剂(例如但不限于硫氰酸胍或KOH)。使用蛋白质变性剂和/或去除剂允许核酸最大程度地被条形码寡核苷酸标记和条形码编码，从而提高分子条形码编码的总体分子转化率和敏感度。

在使桥接寡核苷酸与来自转座酶寡核苷酸的5′单链突出序列上的通用序列和条形码编码寡核苷酸的3′捕获序列杂交之后，将这些序列用连接酶连接。连接步骤可以在分区中发生，或者在保留如上所述的寡核苷酸的杂交的条件下将分区的内容物合并到散装之后发生。可以使用任何合适的连接酶，根据需要引入到分区中或引入到散装混合物中。在这些实施例中，在连接之后，进行间隙填充以填充9个碱基对序列并合成包含在PCR期间下游使用的通用引物序列的条形码寡聚物的补体。

无论是否使用桥接寡核苷酸，所描述的方法对于由初始转座酶反应中的转座酶引起的每个切割位点形成经条形码编码的第一核酸片段和第二核酸片段。在标准泊松分布之后，包括与条形码编码寡核苷酸连接的珠粒的一些分区将包括至少两个珠粒，这意味着两种不同的条形码编码寡核苷酸将位于一个分区中，从而产生由单个切割位点形成的一些片段(例如，第一核酸和第二核酸)以接收不同的条形码编码寡核苷酸。换句话说，第一片段将与来自第一珠粒的第一条形码编码寡核苷酸连接，并且第二片段将与来自第二珠粒的第二条形码编码寡核苷酸连接。如下所述，可以通过检测来自相同切割事件的两个片段上的相同含9个核苷酸的序列来检测此发生，即使片段含有不同的条形码编码寡核苷酸。通过识别由单个切割事件产生的两个片段，并且鉴定标记这两个片段的不同条形码编码寡核苷酸，然后可以将具有两个条形码(以上实例中的第一条形码和第二条形码)的所有测序读段合并为来自同一分区，从而允许将所有测序读段解释为来自同一分区，即使分区中存在两个条形码编码珠粒。通过检测具有与其连接的不同对条形码编码寡核苷酸的不同单个片段化事件，此推断可以扩展到一个分区中的第三或第四或另外的不同条形码编码寡核苷酸。例如，如果分区中存在条形码编码珠粒A、B和C，则这可以通过检测用A和B进行条形码编码的第一对片段、用B和C进行条形码编码的第二对片段条形码以及任选地用A和C进行条形码编码的第三对片段来检测。鉴于在邻近遗传位置处存在相同的含9个核苷酸的序列，片段对被鉴定为来自单个转座子切割事件的对。

在生成每个切割位点的经条形码编码的第一核酸片段和第二核酸片段之后(这如上所述可以在有或没有桥接寡核苷酸的情况下进行)，所得经标记的第一核酸片段和第二核酸片段可以被扩增，例如，使用PCR，例如用导向经标记的序列中的引物结合序列的引物，例如，PCR柄序列可以作为本文所述的前向引物的一部分引入，并且这些PCR柄序列可以通过引物杂交以扩增经条形码编码的第一核酸片段和第二核酸片段。如图1所示，PCR柄序列可以方便地是允许使用基于因美纳公司的测序中的引物标准的序列，即，与A14或B15引物序列互补的PCR柄序列。在一个实施例中，如图1A所示，衔接子是含有与克隆条形码寡核苷酸的引物结合序列匹配的A14序列的A14-ME19同型衔接子。在图1B中，衔接子是含有与克隆条形码寡核苷酸的引物结合序列匹配的B15序列的B15-ME19同型衔接子。在图1C中，衔接子是A14-ME19和B15-ME19两者，即异型衔接子，因为所述衔接子含有与具有两个引物结合序列的克隆条形码寡核苷酸的引物结合序列两者匹配的A14和B15序列。注意，虽然本文讨论了经条形码编码的“第一核酸片段和第二核酸片段”，但应了解，对于由转座子切割形成并且如本文所述制备的所有片段，这将同时发生。

然后可以通过所需的任何核苷酸测序技术对所得扩增子进行测序。用于高通量测序和基因分型的方法是本领域已知的。例如，此类测序技术包含但不限于焦测序、连接测序、单分子测序、合成序列(SBS)、大规模平行克隆、大规模平行单分子SBS、大规模平行单分子实时、大规模平行单分子实时纳米孔技术等。Morozova和Marra在《基因组学(Genomics)》，92：255(2008)中提供了对一些此类技术的综述，所述文献通过引用整体并入本文。

示例性DNA测序技术包含基于荧光的测序方法(参见例如，Birren等人，《基因组分析：分析DNA(Genome Analysis：Analyzing DNA)》，1，纽约的冷泉港实验室出版社；所述文献通过引用整体并入本文)。在一些实施例中，利用本领域中理解的自动测序技术。在一些实施例中，本技术提供经分区的扩增子的平行测序(PCT公开第WO 2006/0841,32号，所述文献通过引用整体并入本文)。在一些实施例中，DNA测序通过平行寡核苷酸延伸来实现(参见例如，美国专利第5,750,341号；以及第6,306,597号，所述美国专利中的两者通过引用整体并入本文)。测序技术的另外的实例包含·Church polony技术(Mitra等人，2003，《分析生物化学(Analytical Biochemistry)》320，55-65；Shendure等人，2005《科学(Science)》309，1728-1732；以及美国专利第6,432,360号；第6,485,944号；第6,511,803号；所述文献通过引用整体并入本文)；454皮滴定焦测序技术(Margulies等人，2005《自然(Nature)》437，376-380；美国公开第2005/0130173号；所述文献通过引用整体并入本文)；Solexa单碱添加技术(Bennett等人，2005，《药物基因组学(Pharmacogenomics)》，6，373-382；美国专利第6,787,308号；以及第6,833,246号；所述文献通过引用整体并入本文)；Lynx大规模平行标记测序技术(Brenner等人(2000).《自然生物技术》18：630-634；美国专利第5,695,934号；第5,714,330号；所述文献通过引用整体并入本文)；以及Adessi PCR群落技术(Adessi等人(2000).《核酸研究(Nucleic Acid Res.)》28，E87；WO 2000/018957；所述文献通过引用整体并入本文)。

测序读段将包含原始核酸样品片段序列的至少一部分，包含9bp区和由条形码编码寡核苷酸引入的条形码。从这些测序读段中，9bp区可以被鉴定为例如与通过转座酶引入的寡核苷酸序列(转座酶寡核苷酸)邻近。此外，包括9bp区以及位于9bp区的下游的区的核酸样品片段也可以使用任何适当的序列数据库(例如，Genbank)映射到源序列，从而允许鉴定数据库基因组或cDNA序列内的核酸样品片段。可以将不同的核酸样品片段读段映射到相同的序列数据库，从而允许揭示在细胞的基因组DNA或cDNA中邻近的核酸样品片段。如果具有来自不同(例如，第一和第二)条形码编码寡核苷酸的条形码的测序读段中的含9个核苷酸的序列是反向互补序列并且所述测序读段中的含9个核苷酸的序列位于邻近基因组位置的5′(即，在序列数据库中映射到邻近基因组或cDNA序列，从而表明所述含9个核苷酸的序列可能来自同一切割事件)，则所述测序读段被视为来自同一分区。

比对可以通过不同算法执行。算法可以包含但不限于BLAST和BLAST 2.0算法，其分别描述于Altschul等人(1990)《分子生物学杂志(J.Mol.Biol)》215：403-410和Altschul等人(1977)《核酸研究》25：3389-3402。用于执行BLAST分析的软件可通过国家生物技术信息中心(National Center for Biotechnology Information，NCBI)网站公开获得。其它选项包含但不限于：BLAT(Kent，《基因组研究(Genome Res.)》，2002年4月；12(4)：656-64)；以及SOAP(Li等人，《生物信息学(Bioinformatics)》，第24卷，第5期，2008年3月1日，第713-714页)。

具有来自不同(例如，第一和第二)条形码编码寡核苷酸的条形码的测序读段被认为来自同一分区能够推断这些寡核苷酸所源自的珠粒在条形码编码反应期间位于同一分区中。在条形码寡核苷酸的共定位后，归属于每个条形码的数据可以在计算机中合并，从而允许得到最初被包含在分区内的靶核酸的完整数据集。

除了其在高通量测序中的用途之外，本文所述的方法还可用于空间分析。空间分析是适用于经福尔马林固定、石蜡包埋(FFPE)的样品的蛋白质或RNA的高度多重空间分析的方法。参见例如，Beecham，《分子生物学方法(Methods Mol Biol.)》2055：563-583(2020)。如Beecham中所解释的，“此方法使用与原位亲和试剂(抗体和RNA探针)共价连接的小型可光切割寡核苷酸“条形码”(PC-寡聚物)以提供无限的多重复用能力。使用包含百万个基于半导体的微镜的两位数微镜装置(DMD)将可光切割的光投射到组织切片上，从而允许在用于组织的高复数分析的光图案中的完全灵活性。”还参见，Merritt等人，《自然生物技术(Nature Biotechnology)》第38卷，第586-599页(2020)。

本文所述的方法允许通过在经固定(例如，FFPE)的组织样品中使用原位酶切加标来改进空间分析方法。在如本文所述用转座酶寡核苷酸对核酸进行酶切加标之后，组织可以和与如上文所述的克隆条形码编码寡核苷酸和桥接寡核苷酸连接的珠粒接触。可替代地，组织可以与来自组织附近的珠粒的经释放的条形码编码寡核苷酸以及桥接寡核苷酸接触。由酶切加标引起的片段将引起核酸片段(在本文中被称为第一核酸片段和第二核酸片段，但应了解这将在细胞或组织中发生多次)的生成。在一些情况下，第一核酸片段将用来自第一珠粒的条形码编码寡核苷酸标记，并且第二核酸片段将用来自第二(邻近)珠粒的条形码编码寡核苷酸标记。正如与一个切割事件相关联的两种条形码编码寡核苷酸可以被用于将两种不同的条形码编码寡核苷酸追踪到上述实例中的相同分区一样，在经固定的组织和空间分析的上下文中，可以追踪两种不同的条形码编码寡核苷酸，因为其来自组织中的邻近位置(并且因此允许条形码编码寡核苷酸紧密接近，使得来自一个切割位点的两个片段接收不同的克隆条形码)。虽然本文在单个切割位点和两个条形码和相关珠粒的上下文中描述了此方法，但所述方法可以重复多次，从而允许在组织上形成不同珠粒的图，其中通过此方法鉴定相对于彼此不同的邻近珠粒。除了定位珠粒之外，剩余的克隆条形码编码珠粒可以被用于标记组织中的核酸，从而允许同时对任何种类的遗传序列进行测序，从而提供追踪到条形码编码寡核苷酸的位置和遗传测序信息。在标记各种其它核酸底物时，这可以扩展应用空间以包含其它模态，包含但不限于RNA、DNA、核小体定位、甲基化和/或3D构型。使用本文所述的转座酶切割位置方法共定位珠粒的去卷积信息可以应用于已经标记(经条形码编码)的任何其它核酸，即使去卷积信息本身不能从那些其它底物获得。

在空间分析方法中，可以在连接步骤之前或之后从组织切片洗涤经标记的核酸片段。所述连接步骤将克隆条形码连接到经由桥接寡核苷酸间接杂交的核酸片段，从而形成经条形码编码的第一核酸和第二核酸。因此连接可以在组织切片上原位发生，或者在已经从组织切片洗涤并含有经标记的核酸的散装溶液中发生。如果连接原位发生，那么然后从组织切片洗涤所得连接产物。

包含例如含9个核苷酸的序列在内的经标记的核酸的剩余单链部分可以如上所述进行间隙填充，其中间隙填充包括使用聚合酶来使用单链序列作为模板插入核苷酸。然后可以将所得产物使用一种或多种引物(例如与掺有克隆条形码编码寡核苷酸的PCR柄序列杂交的引物)类似于如上所述进行扩增(例如，经由PCR)。

如上所述可以从经扩增的经条形码编码的第一核酸片段和第二核酸片段生成测序读段，其中所述测序读段包含所述条形码序列、所述含9个核苷酸的序列和来自组织的所述核酸片段的至少一部分。使用比对，可以在序列读段中鉴定相对于所述核酸片段的基因组位置和所述含9个核苷酸的复制序列的序列同一性。如果具有来自经扩增的经条形码编码的第一条形码编码寡核苷酸和第二条形码编码寡核苷酸的条形码的测序读段中的所述含9个核苷酸的序列是反向互补序列并且所述测序读段中的所述含9个核苷酸的序列位于邻近基因组位置的5′，则可以确定所述测序读段来自所述组织切片上的邻近珠粒。用于确定这一点的方法可以包括如8中展示的步骤。

如上所述，对于空间分析，上述方法可以并行进行多次，由此基于鉴定相对罕见的事件来生成不同珠粒的连接图，其中邻近珠粒将不同的条形码编码寡核苷酸供应到来自相同切割事件的不同片段。此信息可用于生成珠粒的图，所述信息任选地可与由相同珠粒产生的其它信息重叠，例如如使用如本文所述的组织样品的所述位置中的核酸从来自同一珠粒的其它测序读段生成的基因型或核酸序列频率信息。

实例

实例1(预测性)：

在艾本道夫离心管(Eppendorf tube)中用转座酶对50,000个核进行酶切加标。由于通过转座酶进行的邻接性保留，核保持完整单位。然后将核与条形码编码试剂，即，与条形码寡核苷酸连接的珠粒、杂交缓冲液以及硫氰酸胍一起包封到液滴中。硫氰酸胍将使蛋白质变性并释放最大量的转座酶衔接子端以进行条形码编码。寡核苷酸从珠粒释放，并且通过使用桥接寡核苷酸杂交，转座酶衔接子与基因组DNA连接。杂交后，使液滴破裂，在ampure珠粒上收集DNA，通过洗涤去除硫氰酸胍，并且将经标记的DNA底物释放到支持连接以使条形码编码寡核苷酸与由转座酶生成的ATAC片段共价连接的主混合物中。随后是间隙填充和PCR富集。然后对经条形码编码的片段进行测序。在测序之后，启动生物信息流水线以执行珠粒去卷积的以下步骤：1)过滤珠粒以鉴定与背景相比具有更高独特片段的珠粒；2)映射位于条形码序列下游的片段上的转座酶起始位点；3)将所有片段彼此比较以鉴定前9bp的反向补体，随后鉴定邻近基因组区。将数据合并在一起以生成雅卡尔指数，由此通过共享邻近基因组位置处的与9bp反向互补序列重叠来定义并集。高于珠粒之间的噪声雅卡尔指数被用于将珠粒共定位到同一液滴。此信息用于对单细胞数据进行去级分。

实例2：

在艾本道夫离心管中用转座酶对60,000个核进行酶切加标。如上文的预测性实例中，由于通过转座酶进行的邻接性保留，核保持完整单位。然后将核与条形码编码试剂，即，与条形码寡核苷酸连接的珠粒、间隙填充聚合酶和PCR试剂一起包封到液滴中。然后从珠粒释放寡核苷酸，然后从DNA去除转座酶。然后通过间隙填充使DNA片段的端钝端。然后使DNA变性，然后进行9轮PCR。在每一轮PCR中，条形码寡核苷酸通过重组和聚合酶延伸反应标记核片段。如果每个液滴存在两个或更多个珠粒，则在每个PCR循环处，两种条形码寡核苷酸中的任一种可以参与标记反应。在PCR循环结束时和对片段进行测序之后，跨条形码空间比较经条形码编码的片段合并的开始和停止位点。将两个条形码和其相应起始珠粒的共定位分配给相同的液滴，条件是使用如美国专利公开第2020/0056231号中所述的替代方法找到高雅卡尔指数，所述专利的内容出于所有目的特此通过引用整体并入。这些共定位到单个液滴的珠粒被分类为“真”，如图9所示。然后将经测序的片段彼此进行比较以鉴定邻近反向补体的数量以及相对于彼此所位于的位置。如图9所示，在“真”类别中的位置9处存在高比例的邻近反向补体，其中使用上述正交方法将珠粒共定位到液滴，由此证明所述方法的可行性。位置9基于由如图2和图5中所示的转座反应产生的间隙来进行预测。

应理解，本文中所描述的实例和实施例是仅出于说明性目的，并且根据其进行的各种修改或改变将由所属领域的技术人员想到并且包含在本申请案的精神和范围以及所附权利要求书的范围内。本文所引用的所有公开、专利和专利申请均出于所有目的特此通过引用整体并入。

Claims

1.一种对来自分区的测序读段进行去卷积的方法，所述方法包括：

由所述混合物以及多个珠粒和所述透化细胞形成多个分区，其中所述分区中的一个分区包括所述第一核酸片段和所述第二核酸片段以及至少两个珠粒，其中所述珠粒连接到多个克隆条形码编码寡核苷酸的5′端，所述条形码编码寡核苷酸包括5′PCR柄序列、3′捕获序列和条形码寡核苷酸连接到的所述珠粒所独有的条形码序列，其中所述3′捕获序列包括所述通用序列的拷贝；

任选地将所述分区合并到散装溶液中；

2.根据权利要求1所述的方法，其中所述透化细胞中的所述核酸是染色体DNA，并且不同的染色体序列在所述不同的染色体序列对所述转座酶的可及性程度方面不同。

3.根据权利要求1所述的方法，其中所述透化细胞中的所述核酸已被去除组蛋白。

4.根据权利要求1所述的方法，其中所述转座酶寡核苷酸的所述单链5′部分包括(ii)独特分子标识符条形码序列。

5.根据权利要求4所述的方法，其中所述独特分子条形码序列的长度为4-10bp。

6.根据权利要求1或4所述的方法，其中所述转座酶寡核苷酸的所述单链5′部分包括区分不同样品的多重标识符序列。

7.根据权利要求6所述的方法，其中所述多重标识符序列的长度为4-10bp。

8.根据权利要求1所述的方法，其中透化细胞中的所述核酸是DNA。

9.根据权利要求8所述的方法，其中所述方法包括在所述透化细胞中形成第一链cDNA或双链cDNA，并且所述核酸包括cDNA。

10.根据权利要求8所述的方法，其中所述DNA是细胞基因组DNA。

11.根据权利要求1至5中任一项所述的方法，其中所述分区是油包水乳液中的液滴。

12.根据权利要求1至5中任一项所述的方法，其中所述分区是微孔。

13.根据权利要求1至12中任一项所述的方法，其中所述标记进一步包括标记所述细胞中的核酸，使得两种或更多种类型的核酸被标记并随后测序。

14.根据权利要求13所述的方法，其中所述两种类型的核酸选自由基因组DNA或cDNA组成的组。

15.一种对来自分区的测序读段进行去卷积的方法，所述方法包括：

由所述混合物、桥接寡核苷酸以及多个珠粒和所述透化细胞形成多个分区，其中所述分区中的一个分区包括所述第一核酸片段和所述第二核酸片段以及至少两个珠粒，其中所述珠粒连接到多个克隆条形码编码寡核苷酸的5′端，所述条形码编码寡核苷酸包括5′PCR柄序列、3′捕获序列和条形码寡核苷酸连接到的3′所独有的条形码序列，并且其中所述桥接寡核苷酸包括：(i)与所述克隆条形码编码寡核苷酸的所述3′捕获序列互补的3′端序列；以及(ii)与所述转座酶寡核苷酸的所述单链5′部分的通用序列互补的5′端序列；

任选地将所述分区合并到散装溶液中；

16.根据权利要求15所述的方法，其中所述透化细胞中的所述核酸是染色体DNA，并且不同的染色体序列在所述不同的染色体序列对所述转座酶的可及性程度方面不同。

17.根据权利要求13所述的方法，其中所述透化细胞中的所述核酸已被去除组蛋白。

18.根据权利要求15所述的方法，其中所述分区进一步含有蛋白酶、表面活性剂或离液剂。

19.根据权利要求15所述的方法，其中所述连接在所述分区中发生。

20.根据权利要求19所述的方法，其中所述分区在所述连接后合并。

21.根据权利要求15所述的方法，其包括将所述分区合并到散装溶液中。

22.根据权利要求21所述的方法，其中所述连接在所述散装溶液中发生。

23.根据权利要求15所述的方法，其中所述转座酶寡核苷酸的所述单链5′部分包括：(i)与所述桥接寡核苷酸的所述5′端序列互补的序列；以及(ii)独特分子标识符条形码序列。

24.根据权利要求23所述的方法，其中所述独特分子条形码序列的长度为4-10bp。

25.根据权利要求13所述的方法，其中透化细胞中的所述核酸是DNA。

26.根据权利要求25所述的方法，其中所述方法包括在所述透化细胞中形成第一链cDNA或双链cDNA，并且所述核酸包括cDNA。

27.根据权利要求25所述的方法，其中所述DNA是细胞基因组DNA。

28.根据权利要求13至27中任一项所述的方法，其中所述分区是油包水乳液中的液滴。

29.根据权利要求13至27中任一项所述的方法，其中所述分区是微孔。

30.根据权利要求13至29中任一项所述的方法，其中所述标记进一步包括标记所述细胞中的核酸，使得两种或更多种类型的核酸被标记并随后测序。

31.根据权利要求30所述的方法，其中所述两种类型的核酸选自由基因组DNA或cDNA组成的组。

32.一种确定固相载体上的珠粒的相对位置的方法，所述方法包括

提供固定到固相载体的组织切片；

使桥接寡核苷酸和来自多个珠粒的寡核苷酸与所述组织切片中的经酶切加标的核酸接触，其中所述珠粒连接到多个克隆条形码编码寡核苷酸的5′端，所述条形码编码寡核苷酸包括5′PCR柄序列、3′捕获序列和条形码寡核苷酸连接到的所述珠粒所独有的条形码序列，其中所述寡核苷酸从所述珠粒释放，并且其中所述桥接寡核苷酸包括：(i)与所述克隆条形码编码寡核苷酸的所述3′捕获序列互补的3′端序列；以及(ii)与所述转座酶寡核苷酸的所述单链5′部分互补的5′端序列；

33.根据权利要求32所述的方法，其中从所述平面固相载体洗涤所述经条形码编码的第一核酸和第二核酸在所述连接之前发生，并且所述连接在从所述平面固相载体洗涤的溶液中发生。

34.根据权利要求32所述的方法，其中所述连接在所述平面固相载体上的溶液中发生，并且从所述平面固相载体洗涤所述经条形码编码的第一核酸和第二核酸在所述连接之后并且在所述间隙填充之前发生。

35.根据权利要求32至34中任一项所述的方法，其中对多个(例如，至少3、5、10、20、50、100或更多个)连接到多个克隆条形码编码寡核苷酸的5′端的珠粒重复所述方法，所述条形码编码寡核苷酸包括5′PCR柄序列、3′捕获序列和条形码寡核苷酸连接到的所述珠粒所独有的条形码序列，并且其中所述桥接寡核苷酸包括：(i)与所述克隆条形码编码寡核苷酸的所述3′捕获序列互补的3′端序列；以及(ii)与所述转座酶寡核苷酸的所述单链5′部分互补的5′端序列，由此确定具有来自经扩增的经条形码编码的条形码编码寡核苷酸的条形码的测序读段来自所述组织切片上的所述珠粒的至少一部分(例如，至少5％、10％、20％、40％、50％或更多)的邻近珠粒，由此生成所述组织切片上的珠粒的2-D图。

36.根据权利要求28至35中任一项所述的方法，其中所述标记进一步包括标记所述组织切片中的核酸，使得两种或更多种类型的核酸被标记并随后测序。

37.根据权利要求36所述的方法，其中所述两种类型的核酸选自由基因组DNA或cDNA组成的组。