CN114630906A

CN114630906A - 用于单细胞测序的细胞条码化

Info

Publication number: CN114630906A
Application number: CN202080076600.XA
Authority: CN
Inventors: R·雷伯弗斯基
Original assignee: Bio Rad Laboratories Inc
Current assignee: Bio Rad Laboratories Inc
Priority date: 2019-11-04
Filing date: 2020-11-03
Publication date: 2022-06-14
Also published as: WO2021091859A1; US11603556B2; US20230313278A1; US20210130880A1; EP4055161A4; EP4055161A1

Abstract

本发明提供了用于无需形成分区的附接细胞特异性条形码的方法和组合物。

Description

用于单细胞测序的细胞条码化

相关申请的交叉引用

本申请要求2019年11月4日提交的，题为“用于单细胞测序的细胞条码化”的第62/930,288号美国临时专利申请的优先权，其全文通过引用纳入本文，用于所有目的。

发明背景

目前的液滴微流体方法实现了数千细胞的通量。然而，更大的数量可能难以实现。使用微流体技术，至少有三个导致细胞悬浮液死体积和因此用于分析的细胞丢失的因素：1)微流体装置的入口处的剩余液体2)微流体通道预划分中的剩余液体和3)未从微流体装置的出口处收集的材料。此外，非常大的液滴乳化体积，对应于高细胞通量实验，很难以及时的方式产生，由于所需的体积。这可能对于细胞活力和细胞内含有的不稳定的核酸底物(如RNA)有不利影响。最后，当产生较大的液滴乳液时，其增加的体积使其难以将单个乳液装载入与热循环仪兼容的单管中，从而进一步限制了大乳液体积的实施。

单细胞条码化平台需要昂贵的微流体技术(芯片、油和仪器)和条形码珠。仪器还需要昂贵的现场服务工程师来维护和解决硬件问题。

虽然液滴微流体技术改进了可扩展性，除非使用更复杂的芯片上(on-chip)液滴合并和皮注射(picoinjection)功能，否则只支持添加一种溶液。

用寡核苷酸直接标记细胞是使用寡聚物-偶联珠的选择。然而，在不破坏细胞生理的情况下，装载到细胞上的寡核苷酸的最大数量约为100-1000万。在nL大小的液滴中，寡核苷酸的终浓度往往将不足以驱动分子生物学反应，因此阻止液滴与直接寡核苷酸标记的细胞兼容。

发明概述

高密度寡核苷酸，范围达到10⁶至10⁷个分子，可以通过各种方法附接至细胞。例如，可以通过细胞特异性寡核苷酸偶联抗体(Stoeckius等2018，Genome Biology)或通过脂质修饰的寡核苷酸(McGinnis等2019，Nature Methods)标记细胞。寡核苷酸细胞附接创造了直接在细胞上构建细胞条形码的可能性，例如，通过拆分汇集条形码构建(Fan等2015，Science)。这些细胞条形码反过来可以用于条码化靶向的细胞的核酸底物。

以前，这种形式的细胞条码化的一个要求是，在寡核苷酸裂解或从细胞释放之前，细胞与附接细胞条形码寡核苷酸的互补物必须被共同限制在分区中，此时可以发生与细胞核酸底物的附接。虽然液滴提供划分格式用于这种类型的反应，但是存在一些缺点。首先，单个乳液中液滴的数量上限是约100-200万。为了尽量减少多个细胞共同定位于单个液滴中，可以以大约0.05-0.1的λ装载细胞。基于每个乳液的液滴数量，封装的细胞的数量被限制在最大50,000至100,000。这种细胞通量对于某些类型的实验可能是不足够的，且受到向上可扩展性的限制。第二，由于入口处、微流体和液滴中剩余的细胞悬浮液不能从出口处收获，使用液滴微流体技术的细胞损失很难消除，导致细胞利用率为约60-85％。对于珍贵的细胞，这种水平的细胞利用率可能是不足够的。第三，液滴微流体技术需要芯片、油和仪器，都昂贵且难以支持。第四，在已经形成的液滴中加入试剂并在保持液滴的同时洗涤产物，虽然通过皮注射、液滴合并和磁珠捕获方法是可行的，但不容易工程化。这种限制使得单细胞DNA分析困难，因为简单的液滴微流体技术不支持蛋白酶K消化、随后失活然后加入生物化学品。第五，因为只有100-1000万寡核苷酸可以在不破坏膜的情况下被装载到细胞上，液滴必须有几十pL的体积，以提供足够的寡聚物浓度以驱动分子生物学反应。这些小液滴可能很难通过两个水性入口的微流体技术实现。第六，在进行条码化反应之前，细胞通常必须被清洗以除去其培养基。这明显增加了细胞损失。

本方法用液滴解决了上述限制，如下：在细胞上建立细胞条形码后，用与细胞密度匹配的水凝胶溶液重悬细胞，使得细胞不沉降。这可以通过用于保持细胞悬浮的常用试剂实现，例如蔗糖缓冲、Percoll(西格玛(Sigma))和/或Optiprep(西格玛)。然后接着发生水凝胶的固化(solidification)。固化背后的机制取决于用于水凝胶的材料。例如，琼脂糖的固化会由温度下降引起。或者，藻酸盐可以使用钙交联。或者，TEMED启动了聚丙烯酰胺单体的交联。因此，细胞被分散在整个固化的水凝胶基质中。

水凝胶可以经或不经修饰以结合细胞条形码寡核苷酸。例如，细胞条形码寡核苷酸可以在5’端用生物素修饰，亲和素类似物(例如链霉亲和素)可以被偶联至水凝胶材料。因此，当在溶液中时，带有结合的寡核苷酸的细胞将自由移动，然而，一旦水凝胶固化，任何释放的寡核苷酸将在细胞膜的直接的附近结合至基质，在细胞膜存在的地方形成壳或皮。例如，0.01至10％重量/体积(wt/vol)的水凝胶对离子和非离子去污剂、以及低分子量蛋白质、酶和辅因子是多孔的。因此，在将细胞捕获在水凝胶基质中之后，细胞裂解剂(例如0.1％NP-40)可以被应用于细胞。裂解剂将通过基质扩散并裂解细胞。细胞条形码寡核苷酸裂解或释放将作为细胞裂解和膜溶解的直接结果发生，或通过特异性或非特异性试剂从细胞裂解或释放寡核苷酸。然后释放的细胞底物核酸将结合至细胞条形码寡核苷酸，其已经被固定在细胞膜/水凝胶界面的壳中。

通过细胞/水凝胶界面圈起来的区域的体积基本上是细胞的体积。无论细胞条形码寡核苷酸是否被固定在寡核苷酸的壳上，这种最小体积将显著增加细胞条形码寡核苷酸的有效浓度，达到最大值。这可以补偿，例如，对于在不影响细胞生理的情况下可以被装载到细胞上的细胞条形码寡核苷酸数量有限，例如，每个细胞100-1000万寡核苷酸。对于直径约为9微米的细胞，用200万寡核苷酸的有效浓度将是几百个nM，其为足以支持大多数分子生物学反应(例如逆转录)的浓度。低分子量RNA或DNA依赖性聚合酶可以与裂解剂一起或之后加入，也可以在中间的洗涤之后加入，以除去或灭活细胞裂解剂。

一旦细胞底物核酸加细胞条形码寡核苷酸标签，导致细胞条码化发生，在从固化或未固化的水凝胶基质除去材料之后，文库制备的最后步骤可以在水凝胶基质中或溶液中发生。例如，逆转录酶，由于其低分子量，将流经组合物中高达5％的水凝胶。将其与裂解剂一起，或是与或不与寡核苷酸裂解/释放剂一起应用，将导致以下事件。随着裂解剂溶解细胞膜，细胞条形码寡核苷酸将结合至水凝胶以在细胞膜存在的位置形成壳。释放的RNA将结合至在细胞膜存在的壳上固定的寡核苷酸，逆转录酶将合成cDNA。这就是条码化反应。一旦发生，水凝胶可以被溶解，制备NGS文库的最终步骤就可以批量完成。

上述工作流程都不需要微流体技术(芯片、油和仪器)，且批量发生。这种形式的一个好处是可支持多步骤反应。例如，如果需要DNA基因型信息，流经水凝胶的第一试剂可以是蛋白酶K，例如热敏蛋白酶K。其将消化核小体和染色质辅助蛋白，使DNA可及于进一步的分子生物学。通过对细胞膜的破坏，细胞条形码寡核苷酸可以在细胞膜存在的地方结合形成壳。蛋白酶K可以失活，DNA聚合酶与试剂一起流入水凝胶中，例如，可以发生通过模板导向-DNA合成条码化。一旦条码化，文库制备的最后步骤可以在水凝胶内部或外部进行。

细胞可以在其原始培养基中与水凝胶材料混合。一旦固化，可以洗涤水凝胶以去除培养基。此外，由于每个细胞都会有一组细胞条形码克隆的寡核苷酸，所以水凝胶基质中捕捉的每个细胞会被条码化。这两个因素将细胞利用率从起始材料增加到接近100％。

在一些方面，提供个体细胞或个体细胞核和交联水凝胶的混合物。在一些实施方式中，个体细胞包含附接至个体细胞的细胞膜的异源寡核苷酸，或个体细胞核包含附接至个体细胞核的核膜的异源寡核苷酸。

在一些实施方式中，个体细胞包含锚定于个体细胞的细胞膜的异源寡核苷酸，或个体细胞核包含锚定于个体细胞核的核膜的异源寡核苷酸。在一些实施方式中，异源条码化寡核苷酸包含脂质部分，其中脂质部分将异源条码化寡核苷酸锚定在细胞膜中。

在一些实施方式中，水凝胶被共价连接至对异源寡核苷酸具有结合亲和性的分子。在一些实施方式中，水凝胶被非共价连接至对异源寡核苷酸具有结合亲和性的分子。在一些实施方式中，该分子选自下组：生物素、链霉亲和素、抗体、适配体、镍(Ni)、铕(Eu)或包含至少6个连续核苷酸的序列的多核苷酸，其与异源条码化寡核苷酸中的序列完全互补。

在一些实施方式中，所述细胞是哺乳动物细胞。在一些实施方式中，核或细胞包括片段化的核DNA，其中片段化的DNA在片段末端包含共有衔接子序列。

在一些实施方式中，水凝胶包括藻酸盐、琼脂糖、聚丙烯酰胺、壳聚糖、透明质酸、葡聚糖、胶原、纤维蛋白(fibrin)、聚乙二醇(PEG)、聚(甲基丙烯酸羟乙酯)(聚HEMA)、聚乙烯醇(PVA)或聚己内酯(PCL)。

在一些实施方式中，异源条码化寡核苷酸包含细胞特异性条形码序列和3’序列。在一些实施方式中，3’序列是至少5个连续的胸腺嘧啶的多聚T序列。在一些实施方式中，3’序列是至少5个(例如至少8个、至少10个、至少12个，例如6-30个)连续核苷酸的随机序列。在一些实施方式中，3’序列是至少5个连续核苷酸的目标基因特异性序列。在一些实施方式中，3’序列是至少5个(例如，5-100个，5-25个)连续核苷酸的衔接子。在一些实施方式中，衔接子可以在例如来自细胞或核的片段化DNA的末端于共有衔接子序列互补。

在一些实施方式中，异源条码化寡核苷酸还包含5’PCR柄(handle)序列。

在一些方面，提供了将细胞特异性条形码加标签到细胞核酸的方法。一些实施方式中，所述方法包括：提供(i)具有附接至细胞的细胞膜的异源条码化寡核苷酸的细胞或分离的细胞核或(ii)包含附接至个体细胞核的核膜的异源寡核苷酸的细胞核；混合该细胞或核与液态水凝胶；在该细胞或核周围交联水凝胶，其中水凝胶形成固体凝胶；从细胞膜或核膜释放异源条码化寡核苷酸以产生释放的异源条码化寡核苷酸；允许该异源条码化寡核苷酸从细胞膜或核膜释放以定位在细胞或核周围的固化的水凝胶上；将异源条码化寡核苷酸附接至细胞多核苷酸或其拷贝或其cDNA上，以形成条码化细胞多核苷酸；并溶解固化水凝胶或从固化水凝胶中提取条码化细胞多核苷酸，从而从水凝胶中释放条码化细胞多核苷酸，从而将细胞特异性条形码加标签到细胞核酸上。

在一些实施方式中，允许包括将从细胞膜或核膜释放的异源条码化寡核苷酸结合至细胞或核周围的固化的水凝胶。在一些实施方式中，允许包括将从细胞膜或核膜释放的异源条码化寡核苷酸扩散至细胞或核周围的固化的水凝胶，使得异源条码化寡核苷酸定位于水凝胶/膜界面。在一些实施方式中，从固化的水凝胶中提取条码化细胞多核苷酸包括使来自固化的水凝胶的条码化细胞多核苷酸经电泳。

在一些实施方式中，该方法进一步包括对从水凝胶释放的条码化细胞多核苷酸进行测序。

在一些实施方式中，异源条码化寡核苷酸包含脂质部分，其中脂质部分将异源条码化寡核苷酸锚定在细胞膜或核膜中。

在一些实施方式中，水凝胶被共价连接至对异源寡核苷酸具有结合亲和性的分子。在一些实施方式中，该分子选自下组：生物素、链霉亲和素、抗体、适配体、Ni、Eu或包含至少6个连续核苷酸的序列的多核苷酸，其与异源条码化寡核苷酸中的序列完全互补。

在一些实施方式中，所述细胞是哺乳动物细胞。

在一些实施方式中，核或细胞包括片段化的核DNA，其中片段化的DNA在片段末端包含共有衔接子序列。在一些实施方式中，该方法进一步包括片段化核DNA并用转座酶引入共有衔接子序列(例如，通过标签化)。

在一些实施方式中，水凝胶包括藻酸盐、琼脂糖、聚丙烯酰胺、壳聚糖、透明质酸、葡聚糖、胶原、纤维蛋白、聚乙二醇(PEG)、聚(甲基丙烯酸羟乙酯)(聚HEMA)、聚乙烯醇(PVA)或聚己内酯(PCL)。在一些实施方式中，水凝胶包括藻酸盐，交联包括使水凝胶与钙接触。在一些实施方式中，水凝胶被共价连接至对异源条码化寡核苷酸具有结合亲和性的分子，释放的异源条码化寡核苷酸结合至位于水凝胶/细胞界面或水凝胶/核界面的该分子。在一些实施方式中，分子为链霉亲和素，异源条码化寡核苷酸生物素化。在一些实施方式中，分子是多核苷酸，其包含与异源条码化寡核苷酸中的序列完全互补的至少6个连续核苷酸的序列，使得连接至水凝胶的多核苷酸杂交至释放的异源条码化寡核苷酸。

在一些实施方式中，释放包括裂解细胞或核。在一些实施方式中，裂解包括使水凝胶中的细胞或核接触离子或非离子去污剂。在一些实施方式中，裂解包括使细胞接触蛋白酶(例如，蛋白酶K)。

在一些实施方式中，释放包括将异源条码化寡核苷酸从部分寡核苷酸中裂解出来，以使异源条码化寡核苷酸从细胞膜或核膜中游离出来。

在一些实施方式中，附接包括将异源条码化寡核苷酸连接至细胞多核苷酸或其拷贝或其cDNA，以形成条码化细胞多核苷酸。

在一些实施方式中，附接包括将异源条码化寡核苷酸的至少3’端杂交至细胞多核苷酸或其拷贝或其cDNA。在一些实施方式中，该方法进一步包括用聚合酶以模板特异性方式延伸3’端以形成条码化细胞多核苷酸。

在一些实施方式中，在裂解之后和附接之前，该方法包括使细胞与逆转录酶在一定条件下接触使细胞中从RNA形成cDNA；且附接包括将异源条码化寡核苷酸附接至cDNA。

在一些实施方式中，异源条码化寡核苷酸包括对细胞或核独特的条形码序列，异源条码化寡核苷酸附接其上。

在一些实施方式中，提供包括使用拆分与汇集方法在细胞或核上合成异源条码化寡核苷酸，使得不同的细胞或不同的核被连接至多个相同异源条码化寡核苷酸，此时不同的细胞或不同的核具有独特的异源条码化寡核苷酸。

在一些实施方式中，异源条码化寡核苷酸包含细胞特异性条形码序列和3’序列。在一些实施方式中，3’序列是至少5个连续的胸腺嘧啶的多聚T序列。在一些实施方式中，3’序列是至少5个连续核苷酸的随机序列。在一些实施方式中，3’序列是至少5个(例如至少8个、至少10个、至少12个，例如6-30个)连续核苷酸的目标基因特异性序列。在一些实施方式中，3’序列是至少5个(例如，5-100个，5-25个)连续核苷酸的衔接子。在一些实施方式中，衔接子可以互补于共有衔接子序列，例如来自细胞或核的片段化DNA的末端。在一些实施方式中，异源条码化寡核苷酸还包含5’PCR柄序列。

附图说明

图1描述了脂质修饰的寡核苷酸，包括连接至细胞的细胞或样品条形码。在锚定寡核苷酸的3’端有丙烯酰胺(acrydite)部分。

图2描述了脂质修饰的寡核苷酸，包括连接至细胞的细胞或样品条形码。在锚定寡核苷酸的3’端有咪唑三磷酸核苷(imidazole triphosphate nucleoside)。

图3A-B描述了示例性工作流程。图3B是图3A的延续。

定义

本文所用术语“一个”、“一种”或“该/所述”不仅包括一个成分的方面，还包括一个以上成分的方面。例如，除非另有明确说明，单数形式的“一个”，“一种”和“该/所述”包括复数指代物。因此，例如，提到“一个珠”则包括多个/种这样的珠，且提到“该/所述序列”则包括本领域技术人员已知的一个/种或多个/种序列等等。

除非另有说明，本文所用的所有科技术语具有本发明所属领域普通技术人员通常所理解的含义。通常，本文所用的命名和下述细胞培养、分子遗传学、有机化学和核酸化学以及杂交中的实验室步骤均为本领域熟知和常用的。使用标准技术进行核酸和肽合成。按照本领域和各种通用参考文献所述的常规方法进行这些技术和步骤(通常参见，Sambrook等，《分子克隆：实验室手册》(MOLECULAR CLONING：A LABORATORY MANUAL)，第2版(1989)冷泉港实验室出版社(Cold Spring Harbor Laboratory Press)，纽约冷泉港(Cold SpringHarbor，N.Y.)，其通过引用纳入本文)，全文中提供这些参考文献。本文所用的命名以及下述分析化学和有机合成中的实验室步骤均为本领域熟知且常用。

如本文所用“条形码”是鉴定其所偶联分子的短核苷酸序列(例如，长度至少约2、3、4、6、8、10、12、14、16、20、25或更多个(例如，4-30、5-25、5-20)个核苷酸)。例如，条形码可用来鉴定细胞或核中的分子。相对于其它细胞或核的条形码，这样的细胞特异性或核特异性条形码应对于细胞或核是独特的。一旦与细胞特异性或核特异性条形码关联，来自每个细胞的核酸可以根据独特的条形码与来自其他细胞的核酸区分开来。在一些情况中，细胞特异性或核特异性的条形码采用拆分与混合(也称拆分与汇集(split and pool))合成方案来生成。

其他类型的条形码也可以包含于具有细胞特异性或核特异性条形码的多核苷酸中。例如，其他条形码可以独特地鉴定其偶联的分子。例如，这种条形码用于确定样品中最初分子数量。

条形码序列的长度决定了可以对多少独特的样品进行区分。例如，1个核苷酸的条形码能区分不多于4个不同的样品或分子；4个核苷酸的条形码能区分不多于4⁴即256个样品；6个核苷酸的条形码能区分不多于4096个不同样品；而8个核苷酸的条形码能标引不多于65,536个不同样品。

可以使用固有不精确的过程来合成和/或聚合(例如，扩增)条形码。因此，旨在均一的条形码(例如，细胞的全部条码化核酸所共有的细胞特异性条形码)可以相对于范本条形码序列包含不同的N-1缺失或其它突变。因此，被称作“相同的或基本相同的拷贝”的条形码可包括由于例如合成、聚合或纯化中一个或多个错误而导致条形码相对范本条形码序列含有不同的N-1缺失或其它突变的不同的条形码。此外，在使用例如本文所述的拆分与汇集方法和/或核苷酸前体分子等同混合物的合成过程中，条形码核苷酸的随机偶联可能导致低概率事件，其中条形码并非绝对独特(例如，不同于群体的其它条形码，或不同于不同分区、细胞或珠的条形码)。但是，这类偏离理论上理想的条形码的轻微偏差不会干扰本文所述的单细胞分析方法、组合物和试剂盒。因此，如本文所用，术语“独特”在涉及颗粒、细胞、分区特异性或分子条形码的内容中涵盖偏离理想条形码序列的各种非有意的N-1缺失和突变。一些情况中，由于条形码合成、聚合和/或扩增所致的不精确性质造成的问题通过对与待区分的条形码序列的数量相比进行可能的条形码序列的过量采样(oversampling)来克服(例如，至少约2、5、10倍或更多倍的可能的条形码序列)。例如，可用具有9个条形码核苷酸的细胞条形码(代表262,144个可能的条形码序列)来分析10,000个细胞。本领域已知条形码技术的使用，参见例如Katsuyuki Shiroguchi等人Proc Natl Acad Sci U S A.，2012年1月24日109(4)：1347-52和Smith，AM等人的Nucleic Acids Research(2010)，38(13)：e142。

术语“扩增反应”指用于以线性或指数方式倍增核酸靶序列拷贝的任何体外方法。这些方法包括但不限于聚合酶链式反应(PCR)；DNA连接酶链式反应(LCR)；QBeta RNA复制酶和基于RNA转录的扩增反应(例如涉及T7，T3或SP6引发的RNA聚合的扩增)，例如转录扩增系统(TAS)，基于核酸序列的扩增(NASBA)，和自主维持序列复制(3SR)；单引物等温扩增(SPIA)，环介导等温扩增(LAMP)，链置换扩增(SDA)；多重置换扩增(MDA)；滚环扩增(RCA)；以及本领域技术人员已知的其他方法。参见例如，Fakruddin等，J.Pharm BioalliedSci.2013 5(4)：245-252。

“扩增”指将溶液置于足以扩增多核苷酸的条件下的步骤(如果反应的所有组分是完整的)。扩增反应的组分包括例如引物、多核苷酸模板、聚合酶、核苷酸等。术语“扩增”通常指靶核酸的“指数型”增长。然而，本文所用的“扩增”也可指核酸的选择靶序列数量的线性增长，如由循环测序或线性扩增所得。

核酸或其部分在一定条件下与另一个核酸“杂交”从而使得生理缓冲剂中一定温度下非特异性杂交最小化。一些情形中，核酸或其部分与靶核酸组的共有保守序列杂交。在一些情况中，如果包括与超过一个核苷酸伴侣互补的“通用”核苷酸在内有至少约6、8、10、12、14、16或18个连续的互补核苷酸，引物或其部分能杂交至引物结合位点。或者，如果在至少约12、14、16或18个连续的互补核苷酸中有不到1或2个互补错配，引物或其部分能杂交至引物结合位点。一些实施方式中，发生特异性杂交的温度是室温。一些实施方式中，发生特异性杂交的温度高于室温。在一些实施方式中，发生特异性杂交的限定温度为至少约37、40、42、45、50、55、60、65、70、75或80℃。

术语“寡核苷酸”不意在限制核苷酸的具体数量。在一些实施方式中，寡核苷酸可以具有长度为10-500核苷酸，例如长度为20-200或15-100个核苷酸。

术语“划分”或“分割”指将样品分为多个部分或“分区(partition)”。分区通常是物理意义上的，例如，一个分区中的样品不与或基本不与邻近分区中的样品混合。分区可以是固体或流体。在一些实施方式中，分区是固体分区，例如微通道、孔、管和板。在一些实施方式中，分区是流体分区，例如，液滴。在一些实施方式中，流体分区(例如，液滴)是不互溶的流体(例如，水和油)的混合物。在一些实施方式中，流体分区(例如，液滴)是水性液滴，其被不互溶的运载体流体(例如，油)包围。

本文所用的“核酸”表示DNA、RNA、单链、双链、或更高度聚集的杂交基序及其任意化学修饰。修饰包括但不限于给核酸配体碱基或核酸配体整体提供化学基团的那些修饰，所述化学基团引入附加电荷、极化性、氢键、静电相互作用、连接点和官能团。这类修饰包括但不限于：肽核酸(PNA)、磷酸二酯基团修饰(例如，硫代磷酸酯、甲基膦酸酯)、2′-位糖修饰、5-位嘧啶修饰、8-位嘌呤修饰、环外胺修饰、4-硫尿核苷取代、5-溴或5-碘-尿嘧啶取代、骨架修饰、甲基化、稀有碱基配对组合如异碱基(isobase)、异胞苷和异胍(isoguanidine)等。核酸还可以包含非天然碱基，例如硝基吲哚。修饰还可包括3′和5′修饰，包括但不限于用荧光团(例如，量子点)或其他部分加帽。

核酸或其部分与另一核酸“杂交”的某些条件使得生理缓冲液(例如，pH 6-9，25-150mM盐酸盐)中限定温度下的非特异性杂交最少。一些情形中，核酸或其部分与靶核酸组的共有保守序列杂交。在一些情况中，如果包括与超过一个核苷酸伴侣互补的“通用”核苷酸在内有至少约6、8、10、12、14、16或18个连续的互补核苷酸，引物或其部分能杂交至引物结合位点。或者，如果在至少约12、14、16或18个连续的互补核苷酸中有不到1或2个互补错配，引物或其部分能杂交至引物结合位点。一些实施方式中，发生特异性杂交的温度是室温。一些实施方式中，发生特异性杂交的温度高于室温。在一些实施方式中，发生特异性杂交的限定温度至少约37、40、42、45、50、55、60、65、70、75或80℃。在一些实施方式中，发生特异性杂交的限定温度是37、40、42、45、50、55、60、65、70、75或80℃。

术语“引物”指与靶核酸上的序列杂交并且用作核酸合成的起始点的多核苷酸序列。引物可以是各种长度的并且通常长度小于50个核苷酸，例如长度为12-30个核苷酸。用于PCR的引物长度和序列可根据本领域技术人员所知的原理来设计，参见例如《PCR方案：方法和应用指南》(PCR Protocols：A Guide to Methods and Applications)Innis等，编，1990。引物可以是DNA、RNA或DNA部分与RNA部分的嵌合体。在一些情况中，引物可包括一个或多个带修饰或非天然的核苷碱基。在一些情况中，引物被标记。

术语“靶核酸”是指多核苷酸，例如DNA，例如单链DNA或双链DNA、RNA，例如mRNA或miRNA，或DNA-RNA杂交体。DNA包括基因组DNA和互补DNA(cDNA)。

如本文所用，术语“异源”是指两种组分(例如，细胞和条形码寡核苷酸)其在自然界中不在一起，例如，因为它们在同一野生型有机体中不在一起。

术语“模板核酸”是指多核苷酸模板，其用于产生互补于模板或其部分的第二多核苷酸链。在一些实施方式中，在逆转录反应中，RNA模板被用来生成互补于RNA的DNA。在其他实施方式中，第一链cDNA被用作模板，在基于聚合酶扩增期间产生互补于第一链的第二链cDNA。

发明详述

本发明人发现了一种将多核苷酸条形码与个体细胞核酸关联的新方法。本文所述方法的一个优点为个体细胞不需要被插入液滴或其他分区，其可能导致单个细胞与单个分区匹配的低效率或本文所述的其他问题。相反，本文所述的其他实施方式可以涉及在细胞混合物周围形成固体水凝胶，使得细胞被水凝胶彼此分开，其中该细胞具有附接至细胞膜的细胞特异性条形码寡核苷酸。类似地，细胞核可以替代性地被用来形成核彼此分离的固体水凝胶，其中核具有附接至核膜的核特异性条形码寡核苷酸。无论使用个体细胞或核，一旦细胞或核被嵌入固体水凝胶中，条形码寡核苷酸可以从膜释放出来。因为细胞或核被嵌入水凝胶中，条形码寡核苷酸将不会扩散出细胞或核与水凝胶的界面之外。在一些实施方式中，水凝胶可以包含对条形码寡核苷酸具有亲和性的分子，进而维持条形码寡核苷酸的位置。然后，细胞或核可以被裂解或透化以允许细胞或核的核酸(DNA、RNA或其拷贝)与细胞或核与水凝胶的界面处的条形码寡核苷酸关联。细胞特异性或核特异性条形码寡核苷酸与细胞或核核酸关联，从而条码化核酸并允许随后将来自不同细胞或核的核酸混合用于分析，而不损失个体核酸的细胞或核来源的轨迹。本文描述了这方面和其他方面。

根据本文所述的方法和组合物可以使用任何类型的细胞。在一些实施方式中，所述细胞是哺乳动物(例如人)细胞。在一些实施方式中，细胞来自生物样品。生物样品可获自任何生物体，例如动物、植物、真菌、病原体(例如细菌或病毒)或任何其他生物体。在一些实施方式中，该生物样品来自动物，例如哺乳动物(例如人或非人灵长类动物、奶牛、马、猪、绵羊、猫、狗、小鼠或大鼠)、鸟(例如鸡)、或鱼。生物样品可以是获自生物体的任何组织或体液，例如血液，血液成分或血液产品(如血清、血浆、血小板、血红细胞等)，痰液或唾液，组织(如肾、肺、肝、心、脑、神经组织、甲状腺、眼、骨骼肌、软骨或骨组织)；培养的细胞，例如原代培养物，外植体，和转化的细胞，干细胞，或在粪便，尿液中发现的细胞等。

在一些实施方式中，提供了分离的核。形成分离核的方法是已知的且可以根据需要使用。产生分离核的示例性方法包括描述于美国专利号8546134中的那些；Gaublomme，等，Nature Communications，卷10，文章号：2907(2019)。在一些实施方式中，核包含片段化核DNA，允许，例如，用于ATAC-seq的变体。例如，细胞可以被透化，其中的核DNA可以被片段化，例如，用转座酶将衔接子序列引入片段化DNA末端。使用分离核时，核不需要被透化以使转座酶进入核。转座酶的作用有时被称为“标签化”，可以在DNA断裂点的不同侧引入不同衔接子序列，或者加入的衔接子序列可以是相同的。在任一种情况下，衔接子序列是共有衔接子序列，即在多样的DNA片段之间，衔接子序列是相同的。载有同型衔接子的标签酶是包含只有一个序列的衔接子的标签酶，其中衔接子被添加至基因组DNA中标签酶诱导的断裂点的末端。载有异型衔接子的标签化酶是包含两种不同的衔接子的标签化酶，从而使不同的衔接子序列被添加至DNA中标签化酶诱导的断裂点所产生的两个DNA末端。载有衔接子的标签化酶进一步描述于例如美国专利公开号：2010/0120098；2012/0301925；和2015/0291942以及美国专利号：5,965,443；美国专利6,437,109；7083980；9005935；和9,238,671，其中各自内容通过引用全文并入本文用于所有目的。通过量化完整测序读数(表明未被转座酶裂解的异染色质)的数目，可以测量染色质结构。

标签化酶是指这样的酶，所述酶能够与含转座子末端的组合物形成功能性复合物并催化含转座子末端的组合物插入或转移到与该组合物在体外转座反应中孵育的双链靶DNA中。示例性的转座酶包括但不限于相较于野生型Tn5过分活跃的修饰的Tn5转座酶，例如，可以具有选自E54K、M56A或L372P的一个或多个突变。野生型Tn5转座子是复合型转座子，其中2个几乎相同的插入序列(IS50L和IS50R)侧接3个抗生素抗性基因(ReznikoffWS.Annu Rev Genet 42：269-286(2008))。各IS50包含2个反向19-bp末端序列(ES)，外侧端(outside end，OE)和内侧端(inside end，IE)。然而，野生型ES的活性相对较低并且被过分活跃的嵌合端(mosaic end，ME)序列体外取代。因此，具有19-bp ME的转座酶复合物是转座发生所必需的，只要间插DNA足够长以使这些序列中的两个靠近在一起形成活性Tn5转座酶同二聚体(Reznikoff WS.，Mol Microbiol 47：1199-1206(2003))。转座在体内是非常罕见的事件，并且过分活跃的突变体历史上源自Tn5蛋白的476个残基中导入三个错义突变(E54K、M56A、L372P)，其由IS50R编码(Goryshin IY，Reznikoff WS.1998.J Biol Chem273：7367-7374(1998))。转座通过“剪切-和-粘贴”机制起作用，其中Tn5将其从供体DNA中切除并插入靶序列，产生靶标的9-bp重复(Schaller H.Cold Spring Harb Symp QuantBiol 43：401-408(1979)；Reznikoff WS.，Annu Rev Genet 42：269-286(2008))。在当前的商业解决方案(Nextera^TMDNA试剂盒，亿明达公司(Illumina))中，游离的合成ME衔接子与靶DNA的5′-端通过转座酶(标签化酶)末端连接。在一些实施方式中，标签化酶连接至固体支持物(例如与连接正向引物的珠不同的珠)。商购的珠连接的标签化酶的实例是Nextera^TMDNA Flex(亿明达公司)。

在一些实施方式中，一种或多种衔接子的长度为至少19个核苷酸，例如，19-100个核苷酸。在一些实施方式中，衔接子是具有5’端突出端的双链，其中5’突出端序列在异型衔接子间不同，但是双链部分(通常为19bp)是相同的。在一些实施方式中，衔接子包含TCGTCGGCAGCGTC(SEQ ID NO：1)或GTCTCGTGGGCTCGG(SEQ ID NO：2)。在涉及载有异型衔接子的标签化酶的一些实施方式中，标签化酶载有包含TCGTCGGCAGCGTC(SEQ ID NO：1)的第一衔接子和包含GTCTCGTGGGCTCGG(SEQ ID NO：2)的第二衔接子。在一些实施方式中，衔接子包含AGATGTGTATAAGAGACAG(SEQ ID NO：3)和其互补物(也就是嵌合端，并且这是Tn5转座唯一特别需要的顺式活性序列)。在一些实施方式中，衔接子包含TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG(SEQ ID NO：4)与AGATGTGTATAAGAGACAG(SEQ ID NO：3)的互补物或GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG(SEQ ID NO：5)与AGATGTGTATAAGAGACAG(SEQ ID NO：3)的互补物。在涉及载有异型衔接子的标签酶的一些实施方式中，标签酶载有第一衔接子，所述第一衔接子包含TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG(SEQ ID NO：4)与AGATGTGTATAAGAGACAG(SEQ ID NO：3)的互补物和GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG(SEQ ID NO：5)与AGATGTGTATAAGAGACAG (SEQ ID NO：3)的互补物。

可以通过将包含一个或多个条形码序列的寡核苷酸附接至细胞膜条码化细胞，或分离核，或在分离核的情况下，附接至核膜。寡核苷酸可以通过几种方式被附接至细胞或核膜。在一些实施方式中，脂质(LMO)或胆固醇(CMO)-修饰的寡核苷酸可以与细胞或分离核混合，允许脂质或胆固醇嵌入膜中。例如，在一些实施方式中，锚、共锚和条形码寡核苷酸在溶液中进行杂交(图1和2描述实施例)。胆固醇或脂质衍生的锚和共锚的末端嵌入细胞膜或核膜。使用LMO或CMO条码化细胞的方案描述于，例如，McGinnis，等，Nature Methods 16：619-626(2019)；Weber等，Biomacromolecules 15：4621-4626(2014)。在一些实施方式中，LMO包括脂质部分和核酸之间的间隔子。在一些实施方式中，脂质部分包括12-24个碳原子的长烷基链，例如12-22、12-20、12-18、14-22、14-20、14-18、16-22、16-20或16-18个碳原子。例如间隔子长度可以是10-80个核苷酸，例如10-60、10-40、20-80、20-60、20-40、40-60、40-80、50-80、50-80或60-80个核苷酸。

在一些实施方式中，条形码核苷酸被杂交至嵌入细胞膜或核膜的寡核苷酸。例如，嵌入膜中的LMO或CMO可以包含结合序列(例如长度为6-20个核苷酸)，在条形码寡核苷酸中，包含条形码序列的寡核苷酸可以通过互补序列杂交至结合序列。在一些实施方式中，条形码寡核苷酸的3’端自由地结合至互补细胞核酸。

在又一个实施方式中，链霉亲和素或其他亲和素类似物附接至膜(例如通过脂质或胆固醇附接)，条形码寡核苷酸被生物素化，允许条形码寡核苷酸的结合，以附接至附接于膜的链霉亲和素。在其他实施方式中，其他亲和性分子可以连接至条形码寡核苷酸，使得亲和性分子结合至细胞膜或核膜或其中的组分或蛋白质。结合分子的例子包括但不限于抗体或适配体。参见，例如，Stoekius，等，Genome Biology 19：224(2018)；Delley，等，bioRxiv 1-10(2017)。在一些实施方式中，条形码寡核苷酸可以被偶联至细胞。参见，例如，Gehring，等，BioRxiv 1-19(2018)。以上将条形码附接至细胞的选择意在作为例子提供而不构成限制。

在一些实施方式中，条形码寡核苷酸进一步包含在该寡核苷酸3’端的丙烯酰亚磷酰胺(acrydite phosphoramidite)部分。参见，例如，Rehman，等，Nuc.Acids Res.27(20)649-655(1999)。

在一些实施方式中，条形码寡核苷酸进一步包含在该寡核苷酸3’端的咪唑三磷酸核苷(imidazole triphosphate nucleoside)。参见，例如，Rothlisberger，等，ChemicalCommunications 53 13031-13034。

细胞特异性条形码可以在细胞或核上合成，例如，使用拆分与汇集方法。例如，包含共有序列的寡核苷酸可以分别地附接至细胞膜或核膜或细胞或核，以形成具有附接至膜的寡核苷酸的细胞或核的混合物。然后，混合物可以被拆分成分区，其中每部分接受添加到寡核苷酸中的不同核苷酸。然后，细胞或核被合并、混合并再次拆分成分区。如果重复该过程，就会在细胞或核上产生独特的、细胞特异性(或核特异性)的核苷酸序列。拆分-与-汇集方法的例子提供于Fan，等，Science 2015年2月6日；347(6222)：1258367。可选地在寡核苷酸的3′末端添加共有捕捉序列，使得所得寡核苷酸包含5’共有序列(任选地可以使用作为PCR柄、细胞特异性条形码和3′捕捉序列。

虽然说明书此处描述的是细胞特异性条形码，但可以理解的是其他类型的条形码同样可以用于此处条形码所述的情况。例如，在一些实施方式中，来自相同样品的细胞都被用相同的条形码寡核苷酸序列标记，但是来自不同样品的细胞接受不同条形码，从而允许通过样品而不是细胞进行条码化。

5’共有序列可以被按需选择且可以具有各种长度。在一些实施方式中，5’共有序列长度为4-50个核苷酸。条形码序列本身长度可以不同。在一些实施方式中，条形码长度为5-50或5-75个核苷酸。3’捕捉序列可以根据要捕捉的序列而变化。在一些实施方式中，捕捉序列是随机序列，例如，随机序列或2、3、4、5、6、7、8、9、10、15、20或更多(例如，2-50、2-25、5-30)个核苷酸。在一些实施方式中，捕捉序列是2、3、4、5、6、7、8、9、10、15、20或更多(例如，2-50、2-25、5-30)个核苷酸的均聚序列(homo-polymeric sequence)(例如，多聚A或多聚T序列)。在一些实施方式中，捕捉序列包含例如2、3、4、5、6、7、8、9、10、15、20或更多(例如，2-50、2-25、5-30)个核苷酸的基因或目标特异性捕捉序列。在一些实施方式中，同一细胞上不同的条码化寡核苷酸可以具有不同的3’捕捉序列。例如，这可以通过向细胞或核上的寡核苷酸添加3’捕捉序列的混合物实现。

水凝胶是一种具有亲水性的聚合物链网络，有时被发现为胶态凝胶，其中水是分散介质。亲水性聚合物链通过交联被固定在一起形成了三维固体。附接有条形码寡核苷酸的细胞或核可以与非交联(例如液体)形式的水凝胶混合，然后固化(例如交联)。示例性水凝胶包括但不限于：藻酸盐、琼脂糖、镍-氮三乙酸(Ni-NTA)琼脂糖(其将结合dIMTP核苷)、铕-氮三乙酸(Eu-NTA)琼脂糖(其将结合dIMTP核苷)、聚丙烯酰胺、壳聚糖、透明质酸、葡聚糖、胶原、纤维蛋白(fibrin)、聚乙二醇(PEG)、聚(甲基丙烯酸羟乙酯)(聚HEMA)、聚乙烯醇(PVA)或聚己内酯(PCL)。可以选择水凝胶的浓度以提供固体水凝胶以悬浮目标细胞。在一些实施方式中，水凝胶浓度为例如0.1％-20％，例如0.1-1、0.1-10、1-20或1-10％重量/体积。水凝胶中细胞浓度可以按需选择。在一些实施方式中，细胞浓度为10个细胞/mL、100个细胞/mL、1000个细胞/mL、10000个细胞/mL、100 000个细胞/mL、1 000 000个细胞/mL、10000 000个细胞/mL、100 000 000个细胞/mL和1 000 000 000个细胞/mL或所列数值中的任意两个之间的范围(例如，10-100 000 000个细胞/mL)。

在一些方面，水凝胶包括聚丙烯酰胺，条形码寡核苷酸包含3’丙烯酰亚磷酰胺部分，允许该部分后续连接至固化的丙烯酰胺。这允许条形码寡核苷酸固定在细胞膜(或核膜)/水凝胶界面。参见例如，Rehman，等，Nuc.Acids Res.27(20)649-655(1999)。

在其他实施方式中，水凝胶可以被连接至对条形码寡核苷酸具有结合亲和性的分子。一旦该寡核苷酸被从细胞中释放出来，这些可以用以更好地将条形码寡核苷酸锚定至水凝胶/细胞界面上。在一些实施方式中，该分子对寡核苷酸中的核酸序列具有亲和性。在一些实施方式中，该分子对连接至寡核苷酸的亲和伴侣部分具有亲和性。具有结合亲和性的示例性分子包括但不限于生物素、链霉亲和素、抗体、适配体或包含至少6个(例如至少8、10、12、15、20个，例如6-20个或更多个)连续核苷酸的序列的多核苷酸，其与异源条码化寡核苷酸中的序列完全互补。在该分子是生物素的实施方式中，条形码寡核苷酸被附接至链霉亲和素(或其他亲和素类似物)。在该分子是链霉亲和素的实施方式中，条形码寡核苷酸被附接至生物素。在该分子是抗体或适配体的实施方式中，条形码寡核苷酸将被连接至抗体或适配体特异性结合至的部分(例如，蛋白或非蛋白抗原)。

一旦细胞被嵌于固化的水凝胶中，启动水凝胶交联以在细胞周围形成固体水凝胶。启动水凝胶的固化将取决于所使用的水凝胶的类型。一般来说，启动水凝胶的交联的方法是已知的。例如，琼脂糖在用钙处理时可以被交联。聚丙烯酰胺可以与交联剂(例如N，N′-双(丙烯酰)胱胺)聚合，反应可以通过将水凝胶与TEMED和过硫酸铵(APS)接触来启动。

在细胞被嵌于固化水凝胶之后，附接至细胞的条形码寡核苷酸可以被释放。因为在细胞周围水凝胶是固化的，释放的寡核苷酸不应当从膜/水凝胶界面扩散很远。事实上，在水凝胶包含对寡核苷酸亲和性的分子的实施方式中，扩散应当进一步减少，从而使寡核苷酸在细胞膜/水凝胶界面处或附近定位。

寡核苷酸从细胞释放可以以任何方式发生。在一些实施方式中，寡核苷酸从细胞膜上裂解。裂解可以通过使寡核苷酸与酶接触而发生，该酶可以将寡核苷酸从细胞中裂解出来，例如，以一种序列特异性的方式裂解作为寡核苷酸与细胞膜的连接部分的部分。

在一些实施方式中，寡核苷酸的释放通过细胞裂解实现。例如，裂解可以通过，将一种或多种试剂引入水凝胶以实现裂解而发生。示例性试剂可以包括，例如，离子或非离子去污剂，蛋白酶(例如蛋白酶K)或二者。

在一些实施方式中，释放条形码是在不裂解细胞或核的情况下实现的。在这些实施方式中的一些，完整的细胞或核可以被透化以允许试剂进入。示例性的试剂可以包括洋地黄素，或固定剂，例如甲醇或多聚甲醛。

一旦从细胞或核释放出来，条形码寡核苷酸被共价或非共价地附接至细胞或核多核苷酸(例如，基因组DNA、mRNA、小RNA)或其拷贝(例如cDNA)上。在一些实施方式中，其中条形码寡核苷酸包含3′捕捉序列，细胞或核多核苷酸或其拷贝可以被杂交至条形码寡核苷酸，聚合酶可以被添加到水凝胶中以以模板依赖性方式使用细胞多核苷酸为模板延伸条形码寡核苷酸。在一些实施方式中，3’捕捉序列是多聚T序列，逆转录酶被用于从细胞RNA形成第一链cDNA。在其他实施方式中，裂解的细胞已经与逆转录酶和引物接触，以形成第一链cDNA，然后使用第一链cDNA作为模板延伸条形码寡核苷酸。在一些实施方式中，细胞或核多核苷酸被杂交至细胞条形码，因而条形码和细胞多核苷酸此时被非共价地连接。在其他实施方式中，条形码寡核苷酸可以直接地或在酶促裂解和/或抛光细胞多核苷酸末端后被连接至细胞或核多核苷酸。在任何情况下，因为条码化寡核苷酸被定位到它们释放出来的细胞中，条形码寡核苷酸将会被附接至它们释放出来的细胞或核的多核苷酸或其拷贝。这允许细胞或核的多核苷酸的细胞特异性条码化。因为水凝胶中存在许多细胞或核，这平行发生在水凝胶中的每个细胞或核中，不形成分区(例如，不形成液滴、微流体通道、微孔等)。此外，1∶1比率的条形码比细胞在本文所述实现的方法中很容易实现的，这与试图将不同的试剂、细胞等1∶1递送进分区时可能出现的困难形成对比。

一旦细胞(或核)多核苷酸与条形码寡核苷酸关联，所得条码化细胞多核苷酸可以从固化的水凝胶中释放，例如通过提取(例如通过电泳)或水凝胶的熔化。在一些实施方式中，水凝胶可以被熔化，从而释放并汇集条码化细胞多核苷酸。只要条形码寡核苷酸与细胞或核多核苷酸的附接不被破坏，可以按需实现水凝胶熔化。熔化条件可以包括例如提高温度或将水凝胶与一种或多种解聚凝胶的试剂接触。示例性解聚试剂可以包括还原剂，例如二硫苏糖醇(DTT)或Tris(2-羧基乙基)膦(TCEP)。

随后可以按需分析所得条码化多核苷酸的汇集。在一些实施方式中，可以对多核苷酸进行核苷酸测序。通过检测与连接的多核苷酸关联的条形码序列，可以确定每个测序读数来自哪个细胞。在一些实施方式中，可以通过它们的条形码分选测序读数。例如，可以确定基因产物在不同细胞中的相对量，其中通过具有不同的条形码鉴定不同细胞基因产物。

高通量测序和基因分型的方法是本领域已知的。例如，此类测序技术包括但不限于：焦磷酸测序、连接法测序、单分子测序、合成法测序(SBS)、大规模平行克隆法、大规模平行单分子SBS、大规模平行单分子实时法，大规模平行单分子实时纳米孔技术等。Morozova和Marra提供对一些此类技术的综述，见Genomics，92：255(2008)，该文在此通过引用全文纳入本文。

示例性的DNA测序技术包括基于荧光的测序技术(参见如Birren等，GenomeAnalysis：Analyzing DNA，1(《基因组分析：DNA分析》，第1卷)，纽约冷泉港，该文在此通过引用全文纳入本文)。在一些实施方式中，使用本领域已理解的自动化测序技术。在一些实施方式中，本技术提供分区化的扩增子的平行测序(PCT申请号WO 2006/084,132，该文在此通过引用全文纳入本文)。在一些实施方式中，DNA测序是通过平行寡核苷酸延伸(参见如美国专利号5,750,341和6,306,597，两者在此通过引用全文纳入本文)实现的。测序技术的补充示例包括：Church多克隆技术(Mitra等，2003，Analytical Biochemistry 320，55-65；Shendure等，2005 Science 309，1728-1732；和美国专利号6,432,360；6,485,944；6,511,803；在此通过引用全文纳入本文)，454皮升焦磷酸测序技术(picotiter pyrosequencingtechnology，Margulies等，2005Nature 437，376-380；美国公开号2005/0130173；在此通过引用全文纳入本文)，Solexa单碱基添加技术(Bennett等，2005，Pharmacogenomics，6，373-382；美国专利号6,787,308和6,833,246；在此通过引用全文纳入本文)，Lynx大规模平行信号测序技术(Brenner等，(2000).Nat.Biotechnol.18：630-634；美国专利号5,695,934；5,714,330；在此通过引用全文纳入本文)和Adessi PCR集落技术(Adessi等(2000).NucleicAcid Res.28，E87；WO 2000/018957；在此通过引用全文纳入本文)。

通常，高通量测序都具有大规模平行这一共同特征，高通量策略的目的是使成本比之前的测序方法低(参见如Voelkerding等，Clinical Chem.，55：641-658，2009；MacLean等，Nature Rev.Microbiol.，7：287-296；两者在此都通过引用全文纳入本文)。此类方法可大致分成通常用和不用模板扩增两大类。需要扩增的方法包括罗氏公司以454技术平台商业化的焦磷酸测序(例如，GS 20和GS FLX)，Illumina销售的Solexa平台，和应用生物系统公司(Applied Biosystems)销售的支持态寡核苷酸连接和检测(SupportedOligonucleotide Ligation and Detection，SOLiD)平台。非扩增方法也称为单分子测序，其示例有螺旋生物科学公司(Helicos BioSciences)销售的HeliScope平台，VisiGen公司、牛津纳米孔技术公司(Oxford Nanopore Technologies)、生命技术公司(LifeTechnologies)/离子流(Ion Torrent)和太平洋生物科学公司销售的平台。

焦磷酸测序(Voelkerding等，Clinical Chem.，55：641-658，2009；MacLean等，Nature Rev.Microbial.，7：287-296；美国专利号6,210,891和6,258,568；其各自通过引用全文纳入本文)中，模板DNA被片段化、末端修复、连接衔接子、并用珠捕获单模板分子来进行原位克隆性扩增，珠上载有与衔接子互补的寡核苷酸。载有单模板类型的各珠被划分入油包水微泡中，模板被克隆性扩增，所用技术被称作乳液PCR。扩增后破乳，珠被置入皮升微孔板(picotitre plate)的各孔内，孔在测序反应中作为流动室。在测序酶和发光报告物如萤光素酶的存在下，流动室中发生四种dNTP试剂各自的有序迭代引入。合适的dNTP被加到测序引物的3′末端时，所产生的ATP导致孔内发光脉冲，用CCD相机予以记录。能够实现大于或等于400个碱基的读数长度，且能够实现10⁶个序列读数，得到最多达5亿碱基对(Mb)的序列。

在Solexa/Illumina平台中(Voelkerding等，Clinical Chem.，55.641-658，2009；MacLean等，Nature Rev.Microbial.，7：287-296；美国专利号6,833,246；7,115,400和6,969,488；其各自通过引用全文纳入本文)，以较短的读数形式产生测序数据。该方法中，单链的片段化DNA末端修复产生5′-磷酸化钝端，然后由Klenow介导添加单一A碱基至这些片段的3′末端。添加A便于添加T-突出端衔接子寡核苷酸，后者将被用来捕捉流动室表面上模板-衔接子分子，流动室中插有寡核苷酸锚。锚被用作PCR引物，但由于模板的长度且其靠近其它邻近的锚寡核苷酸，PCR延伸导致分子“拱跨(arching over)”杂交邻近的锚寡核苷酸在流动室表面形成桥式结构。这些DNA环被变性并裂解。正链随后通过可逆染料终止子来测序。通过检测纳入后荧光来确定所纳入核苷酸的序列，在下一轮dNTP添加前除去各荧光团并封闭。序列读数长度从36个核苷酸到超过50个核苷酸，总体输出为每次运行分析超过10亿个核苷酸对。

用SOLiD技术(Voelkerding等，Clinical Chem.，55：641-658，2009；MacLean等，Nature Rev.Microbial.，7：287-296；美国专利号5,912,148；和6,130,073；其各自通过引用全文纳入本文)对核酸分子进行测序还包括片段化模板，连接寡核苷酸衔接子，连接珠，以及乳液PCR克隆性扩增。此后，载有模板的珠被固定化在玻璃流动室的衍生化表面，与衔接子寡核苷酸互补的引物发生退火。但该引物并不用作3′延伸，而是用来提供5′磷酸基团供连接至问询探针，这些探针含有两个探针特异性碱基及其后6个简并碱基和四种荧光标记其一。SOLiD系统中，问询探针中每个探针3′端的两个碱基有16种可能的组合而在5′端是四种荧光标记之一。荧光颜色，及由此辨识的各探针对应于指定的颜色-空间编码方案。多轮(通常7轮)探针退火、连接和荧光检测后变性，然后用相对初始引物错开一位碱基的引物进行第二轮的测序。以此方式，模板序列可通过计算得以重建，而且模板碱基问询两次，得到更高的精确度。序列读数长度平均为35个核苷酸，总体输出为每次测序运行超过40亿个碱基。

在一些实施方式中，采用纳米孔测序(参见如Astier等，J.Am.Chem.Soc.2006年2月8日；128(5)1705-10，通过引用纳入)。纳米孔测序的原理涉及纳米孔浸入传导液并跨纳米孔施加电压(伏特)时所发生的现象。这些条件下，可观察到由于离子传导有微弱电流通过纳米孔，而电流的量对纳米孔的大小极度敏感。随着核酸的每个碱基通过该纳米孔，就会导致通过纳米孔的电流幅度有变化，这种变化对于四种碱基的每一种是不同的，从而允许确定DNA分子的序列。

在一些实施方式中，采用螺旋生物科学公司(Helicos BioSciencesCorporation)的HeliScope(Voelkerding等，Clinical Chem.，55.641-658，2009；MacLean等，Nature Rev.Microbial，7：287-296；美国专利号7,169,560，7,282,337，7,482,120，7,501,245，6,818,395，6,911,345和7,501,245；其各自通过引用全文纳入本文)。模板DNA被片段化并在3′端多腺苷化，最后的腺苷载有荧光素标记。变性的多腺苷化模板片段连接到流动室表面上的聚(dT)寡核苷酸上。由CCD相机记录被捕捉模板的初始物理位置，然后裂解并洗去标记。通过添加聚合酶并系列添加带荧光标记的dNTP试剂来实现测序。纳入事件产生对应于dNTP的荧光信号，而CCD相机在每轮dNTP添加前捕捉信号。序列读数长度在25-50个核苷酸，总体输出为每次运行分析超过10亿个核苷酸对。

离子激流技术是基于对DNA聚合期间所释放氢离子的检测的DNA测序方法(参见如Science 327(5970)：1190(2010)；美国专利申请号2009/0026082；2009/0127589；2010/0301398；2010/0197507；2010/0188073和2010/0137143；全部通过引用全文纳入本文用于所有目的)。微孔含有待测序的模板DNA链。微孔层下方是超敏ISFET离子传感器。所有层都包含在CMOS半导体芯片内，该芯片与电子工业中所用的类似。在dNTP被纳入生长中的互补链时释放氢离子，触发超敏离子传感器。若模板序列中存在均聚重复序列，单次循环中会纳入多个dNTP分子。这导致对应数量的氢释放，和成比例的更高电子信号。这一技术与其它测序技术的区别之处在于不使用带修饰核苷酸或光学元件。离子激流测序仪的单碱基精确度为每50碱基读取约99.6％，每次运行产生约100Mb。读数长度是100个碱基对。5个重复的均聚重复序列的精确度是约98％。离子半导体测序的优势在于测序速度快且前期和运行成本低。

可适用于本发明的另一示例性核酸测序方法是由Stratos Genomics公司开发并用到Xpandomer分子的测序方法。该测序方法通常包括提供由模板引导的合成产生的子链。该子链通常包括按对应于靶核酸全部或部分的连续核苷酸序列偶联的多个亚单元，各亚单元含有系连物(tether)、至少一个探针或核碱基残基和至少一个选择性可裂解的键。一种或多种选择性可裂解的键是被裂解以获得Xpandomer，其长度大于子链的所述多个亚单元的长度。Xpandomer通常包括系连物和报告物元件，报告物元件用以解析序列中对应于靶核酸的全部或部分的连续核苷酸序列的遗传信息。Xpandomer的报告物元件随后被测得。对基于Xpandomer的方法的补充细节在文献中有记载，例如美国专利公开号2009/0035777，其通过引用全文纳入本文。

其它单分子测序方法包括利用VisiGen平台通过合成来实时测序(Voelkerding等，Clinical Chem.，55：641-58，2009；美国专利号7,329,492；和美国专利申请序列号11/671,956；和序列号11/781,166；其各自通过引用全文纳入本文)，其中，固定化的带引物DNA模板用荧光修饰的聚合酶和荧光受体分子来进行链延伸，在核苷酸添加时产生可测的荧光共振能量转移(FRET)。

另一由太平洋生物科学公司(Pacific Biosciences)开发的实时单分子测序系统(Voelkerding等，Clinical Chem.，55.641-658，2009；MacLean等，NatureRev.Microbiol.，7：287-296；美国专利号7,170,050；7,302,146；7,313,308；和7,476,503；其各自通过引用全文纳入本文)利用直径50-100nm含有约20仄升(10^-21L)反应体积的反应孔。利用固定化模板、修饰的

DNA聚合酶和高局部浓度荧光素标记的dNTP来进行测序反应。高局部浓度和连续反应条件允许采用激光激发、光学波导和CCD相机来通过荧光信号检测实时捕捉纳入事件。

在一些实施方式中，单分子实时(SMRT)DNA测序方法采用太平洋生物科学公司(Pacific Biosciences)开发的零级波导(zero-mode waveguide，ZMW)或类似方法。用此技术，DNA测序在SMRT芯片上进行，这些芯片各自含有数千个零级波导(ZMW)。ZMW是孔，直径是纳米的几十分之一，制造在100nm金属膜中，该膜置于二氧化硅底物上。每个ZMW成为提供检测体积仅20仄升(10^-21L)的纳米光子可视化室。以此体积，可在数千个标记的核苷酸背景中检测出单个分子的活性。ZMW通过合成进行测序，为观察DNA聚合酶提供了窗口。各ZMW室内，单个DNA聚合酶分子结合在底面从而永久保持在检测体积内。磷酸连接的(phospholinked)核苷酸每种标记有不同颜色的荧光团，这些核苷酸随后以高浓度引入反应溶液中，这些浓度提高酶速度、精确性和处理能力(processivity)。由于ZMW体积小，即使在这些高浓度下，检测体积被核苷酸占据的时间占比很小。此外，由于扩散需要携带核苷酸的距离很短，因此对检测体积的经停很快，仅持续几微秒。结果是背景很低。

可调试用于本发明的用于此类实时测序的方法和系统在文献中有描述，例如，美国专利号7,405,281、7,315,019、7,313,308、7,302,146和7,170,050；美国专利公布号2008/0212960、2008/0206764、2008/0199932、2008/0199874、2008/0176769、2008/0176316、2008/0176241、2008/0165346、2008/0160531、2008/0157005、2008/0153100、2008/0153095、2008/0152281、2008/0152280、2008/0145278、2008/0128627、2008/0108082、2008/0095488、2008/0080059、2008/0050747、2008/0032301、2008/0030628、2008/0009007、2007/0238679、2007/0231804、2007/0206187、2007/0196846、2007/0188750、2007/0161017、2007/0141598、2007/0134128、2007/0128133、2007/0077564、2007/0072196和2007/0036511，以及Korlach等(2008)“选择性铝钝化用于将单个DNA聚合酶分子靶向固定在零级波导纳米结构中(Selective aluminum passivation fortargeted immobilization of single DNA polymerase molecules in zero-modewaveguide nanostructures)”PNAS 105(4)：1176-81，其全部在此通过引用全文纳入本文。

实施例1

在可逆的聚丙烯酰胺基质中细胞分区和条码化。

K562和HEK 3T3细胞被重新悬浮在一比一的混合物中，并用修饰的L(脂质)M(修饰的)O(寡核苷酸)(L(ipid)M(odified)O(ligonucleotides))锚定。其为由McGinnis等(2019)调整而来，并具有以下修饰。锚寡聚物的3’端用丙烯酰亚磷酰胺修饰。

克隆细胞寡聚物条形码序列是通过拆分汇集合成如图1所示在LMO上建立的。将100万个这样的混合细胞合并在体积为约100μL的PBS 1X缓冲液中。该细胞悬浮液与等体积的12∶1聚丙烯酰胺∶Bac(N，N′-双(丙烯酰)胱胺)混合以形成2％的聚丙烯酰胺凝胶悬液。用吸头充分混合后，加入过硫酸铵和TEMED以分别产生0.05％和0.1％的终浓度。混合物被进一步吹打混合，且约200μL的溶液被沉积在Eppendorf管中以允许聚丙烯酰胺固化。在固化期间LMO的锚定部分上的丙烯酰胺部分将被纳入聚丙烯酰胺基质以在细胞膜/水凝胶基质界面处产生寡核苷酸球。一旦聚丙烯酰胺固化，加入细胞裂解剂(例如0.1％NP40)以裂解细胞。加入逆转录试剂，一旦释放的mRNA结合至多聚T引物的多聚T轨(track)，发生引物模板逆转录以产生条码化cDNA。加入终浓度为100mM的DTT以溶解聚丙烯酰胺：BAC基质以释放条码化cDNA。收集、纯化、浓缩cDNA并通过标准方法转化为NGS文库。

实施例2

在可逆的琼脂糖基质中细胞分区和条码化

K562和HEK 3T3细胞被重新悬浮在一比一的混合物中，并用修饰的L(脂质)M(修饰的)O(寡核苷酸)锚定。其为由McGinnis等(2019)调整而来，并具有以下修饰。锚寡聚物的3’端用咪唑三磷酸核苷(dImTP)修饰。

克隆细胞寡聚物条形码序列是通过拆分汇集合成如图2所示在LMO上建立的。将100万个这样的混合细胞合并在体积为约100μL的PBS 1X缓冲液中。该细胞悬浮液与等体积的2％熔融Ni-NTA或Eu-NTA琼脂糖混合以形成1％的琼脂糖凝胶悬液。彻底混合后约200μL的溶液被沉积在Eppendorf管中，降低温度以允许琼脂糖固化。在固化期间LMO的锚定部分上的dImTP将结合至Ni-NTA-或Eu-NTA琼脂糖，以在细胞膜/水凝胶基质界面处产生寡核苷酸球。一旦琼脂糖被固化，加入细胞裂解剂(例如0.1％NP40)以裂解细胞。加入逆转录试剂，一旦释放的mRNA结合至多聚T引物的多聚T轨(track)，发生引物模板逆转录以产生条码化cDNA。琼脂糖被加热以熔化基质并释放条码化cDNA。收集、纯化、浓缩cDNA并通过标准方法转化为NGS文库。

应理解，本文所述的实施例和实施方式仅用于说明目的，本领域技术人员应了解据此作出的各种修饰或改变，且它们包括在本申请的主旨和权益以及所附权利要求书的范围内。本文引用的所有发表物、专利和专利申请通过引用全文纳入本文以用于所有目的。

Claims

1.一种单个细胞或单个细胞核和交联的水凝胶的混合物，其中：

所述个体细胞包含附接至所述个体细胞的细胞膜的异源寡核苷酸，或所述个体细胞核包含附接至所述个体细胞核的核膜的异源寡核苷酸。

2.如权利要求1所述的混合物，其中所述个体细胞包含锚定于所述个体细胞的细胞膜的异源寡核苷酸，或所述个体细胞核包含锚定于所述个体细胞核的核膜的异源寡核苷酸。

3.如权利要求2所述的混合物，其中所述异源条码化寡核苷酸包含脂质部分，其中所述脂质部分将所述异源条码化寡核苷酸锚定在所述细胞膜中。

4.如权利要求1所述的混合物，其中所述水凝胶被共价连接至对所述异源寡核苷酸具有结合亲和性的分子。

5.如权利要求1所述的混合物，其中所述水凝胶被非共价地连接至对所述异源寡核苷酸具有结合亲和性的分子。

6.如权利要求4所述的混合物，其中所述分子选自下组：生物素、链霉亲和素、抗体、适配体、镍(Ni)、铕(Eu)或包含至少6个连续核苷酸的序列的多核苷酸，其与异源条码化寡核苷酸中的序列完全互补。

7.如权利要求1所述的混合物，其中所述细胞是哺乳动物细胞。

8.如权利要求1所述的混合物，其中所述核包含片段化的核DNA，其中所述片段化的DNA在所述片段末端包含共有衔接子序列。

9.如权利要求1所述的混合物，其中所述水凝胶包括藻酸盐、琼脂糖、聚丙烯酰胺、壳聚糖、透明质酸、葡聚糖、胶原、纤维蛋白、聚乙二醇(PEG)、聚(甲基丙烯酸羟乙酯)(聚HEMA)、聚乙烯醇(PVA)或聚已内酯(PCL)。

10.如权利要求1所述的混合物，其中所述异源条码化寡核苷酸包含细胞特异性条形码序列和3’序列。

11.如权利要求10所述的混合物，其中所述3’序列是至少5个连续的胸腺嘧啶的多聚T序列。

12.如权利要求10所述的混合物，其中所述3’序列是至少5个连续核苷酸的随机序列。

13.如权利要求10所述的混合物，其中所述3’序列是至少5个连续核苷酸的目标基因特异性序列。

14.如权利要求9所述的混合物，其中所述3’序列是至少5个连续核苷酸的衔接子。

15.如权利要求1或10-13中任一项所述的混合物，其中所述异源条码化寡核苷酸进一步包括5’PCR柄序列。

16.一种将细胞特异性条形码加标签到细胞核酸的方法，所述方法包括：

提供(i)具有附接至所述细胞的细胞膜的异源条码化寡核苷酸的细胞或分离的细胞核或(ii)包含附接至所述个体细胞核的核膜的异源寡核苷酸的细胞核；

混合所述细胞或核与液态水凝胶；

在所述细胞或核周围交联所述水凝胶，其中所述水凝胶形成固体凝胶；

从所述细胞膜或核膜释放所述异源条码化寡核苷酸以产生释放的异源条码化寡核苷酸；

允许从所述细胞膜或核膜释放的所述异源条码化寡核苷酸定位到所述细胞或核周围的固化的水凝胶；

将所述异源条码化寡核苷酸附接至细胞多核苷酸或其拷贝或其cDNA，以形成条码化细胞多核苷酸；

溶解所述固化水凝胶或从所述固化水凝胶中提取所述条码化细胞多核苷酸，从而从所述水凝胶中释放条码化细胞多核苷酸，从而将细胞特异性条形码加标签到细胞核酸上。

17.如权利要求16所述的方法，其中所述允许包括将从所述细胞膜或核膜释放的所述异源条码化寡核苷酸结合至所述细胞或核周围的所述固化的水凝胶。

18.如权利要求16所述的方法，其中所述允许包括将从所述细胞膜或核膜释放的所述异源条码化寡核苷酸的扩散至所述细胞或核周围的所述固化的水凝胶，使得所述异源条码化寡核苷酸定位于水凝胶/膜界面。

19.如权利要求16所述的方法，其中所述从所述固化的水凝胶中提取所述条码化细胞多核苷酸包括使来自所述固化的水凝胶的所述条码化细胞多核苷酸经电泳。

20.如权利要求16所述的方法，其进一步包括对从所述水凝胶释放的所述条码化细胞多核苷酸进行测序。

21.如权利要求16所述的方法，其中所述异源条码化寡核苷酸包含脂质部分，其中所述脂质部分将所述异源条码化寡核苷酸锚定在所述细胞膜或核膜中。

22.如权利要求16所述的方法，其中所述水凝胶被共价连接至对所述异源寡核苷酸具有结合亲和性的分子。

23.如权利要求22所述的方法，其中所述分子选自下组：生物素、链霉亲和素、抗体、适配体、Ni、Eu或包含至少6个连续核苷酸的序列的多核苷酸，其与所述异源条码化寡核苷酸中的序列完全互补。

24.如权利要求16所述的方法，其中所述细胞是哺乳动物细胞。

25.如权利要求14所述的方法，其中所述核包含片段化的核DNA，其中所述片段化的DNA在所述片段末端包含共有衔接子序列。

26.如权利要求25所述的方法，其中所述方法进一步包括片段化所述核DNA并用转座酶引入所述共有衔接子序列。

27.如权利要求16所述的方法，其中所述水凝胶包括藻酸盐、琼脂糖、聚丙烯酰胺、壳聚糖、透明质酸、葡聚糖、胶原、纤维蛋白、聚乙二醇(PEG)、聚(甲基丙烯酸羟乙酯)(聚HEMA)、聚乙烯醇(PVA)或聚己内酯(PCL)。

28.如权利要求16所述的方法，其中所述水凝胶包括藻酸盐，所述交联包括使水凝胶与钙接触。

29.如权利要求16所述的方法，其中所述水凝胶被共价连接至对所述异源条码化寡核苷酸具有结合亲和性的分子，所述释放的异源条码化寡核苷酸结合至位于水凝胶/细胞界面或水凝胶/核界面的所述分子。

30.如权利要求29所述的方法，其中所述分子为链霉亲和素，所述异源条码化寡核苷酸生物素化。

31.如权利要求29所述的方法，其中所述分子是多核苷酸，其包含与所述异源条码化寡核苷酸中的序列完全互补的至少6个连续核苷酸的序列，使得连接至所述水凝胶的所述多核苷酸杂交至所述释放的异源条码化寡核苷酸。

32.如权利要求16所述的方法，其中所述释放包括裂解所述细胞或核。

33.如权利要求32所述的方法，其中所述裂解包括使所述水凝胶中的细胞或核接触离子或非离子去污剂。

34.如权利要求32所述的方法，其中所述裂解包括使所述细胞接触蛋白酶(例如，蛋白酶K)。

35.如权利要求16所述的方法，其中所述释放包括将异源条码化寡核苷酸从部分所述寡核苷酸中裂解出来，以使所述异源条码化寡核苷酸从所述细胞膜或核膜中游离出来。

36.如权利要求16所述的方法，其中所述附接包括将所述异源条码化寡核苷酸连接至细胞多核苷酸或其拷贝或其cDNA，以形成所述条码化细胞多核苷酸。

37.如权利要求16所述的方法，其中所述附接包括将所述异源条码化寡核苷酸的至少3’端杂交至细胞多核苷酸或其拷贝或其cDNA。

38.如权利要求37所述的方法，进一步包括用聚合酶以模板特异性方式延伸所述3’端以形成所述条码化细胞多核苷酸。

39.如权利要求33所述的方法，其中在所述裂解之后和所述附接之前，所述方法包括使所述细胞与逆转录酶在一定条件下接触使所述细胞中从RNA形成cDNA；和

所述附接包括将所述异源条码化寡核苷酸附接至所述cDNA。

40.如权利要求16所述的方法，其中所述异源条码化寡核苷酸包括对所述细胞或核独特的条形码序列，所述异源条码化寡核苷酸附接其上。

41.如权利要求16或40所述的方法，其中所述提供包括使用拆分与汇集方法在所述细胞或核上合成所述异源条码化寡核苷酸，使得不同的细胞或不同的核被连接至多个相同异源条码化寡核苷酸，此时不同的细胞或不同的核具有独特的异源条码化寡核苷酸。

42.如权利要求16所述的方法，其中所述异源条码化寡核苷酸包含细胞特异性条形码序列和3’序列。

43.如权利要求42所述的方法，其中所述3’序列是至少5个连续的胸腺嘧啶的多聚T序列。

44.如权利要求42所述的方法，其中所述3’序列是至少5个连续核苷酸的随机序列。

45.如权利要求42所述的方法，其中所述3’序列是至少5个连续核苷酸的目标基因特异性序列。

46.如权利要求16或42-45中任一项所述的方法，其中所述异源条码化寡核苷酸进一步包括5’PCR柄序列。

47.如权利要求42所述的方法，其中所述3’序列是至少5个连续核苷酸的衔接子。