CN115176026A

CN115176026A - Rna寡核苷酸的测序方法

Info

Publication number: CN115176026A
Application number: CN202080076985.XA
Authority: CN
Inventors: P·达特林格; C·博克
Original assignee: CEMM Forschungszentrum fuer Molekulare Medizin GmbH
Current assignee: CEMM Forschungszentrum fuer Molekulare Medizin GmbH
Priority date: 2019-09-06
Filing date: 2020-09-07
Publication date: 2022-10-11
Also published as: JP2022547106A; AU2020342793A1; EP4025708A1; KR20220080091A; CA3153236A1; WO2021044063A1

Abstract

本发明涉及用于对包含RNA的寡核苷酸进行测序的方法，其中在RNA寡核苷酸中引入两个索引化序列。本发明还涉及此类方法的用途以及用于此类方法的装置。进一步提供包含用于本发明方法的一种或多种组分的试剂盒。

Description

RNA寡核苷酸的测序方法

技术领域

本发明涉及用于对包含RNA的寡核苷酸进行测序的方法，该方法包括以下步骤：(a)提供包含含有RNA的第一寡核苷酸的经透化的细胞和/或细胞核；(b)使(a)的所述细胞和/或细胞核在第一反应区室中与含有DNA的第二寡核苷酸组合，其中该第二寡核苷酸至少包含与该第一寡核苷酸的序列至少部分互补的第一序列、含有索引序列的第二序列以及含有引物结合位点的第三序列，其中所述组合在允许该第二寡核苷酸的第一序列与该第一寡核苷酸退火的条件下进行；(c)在所述细胞/细胞核中反转录该第一寡核苷酸以获得延长的第二寡核苷酸；(d)使步骤(c)中获得的所述细胞和/或细胞核在第二反应区室中与微珠结合的第三寡核苷酸组合，其中该第三寡核苷酸包含(i)与步骤(b)中所用的第二寡核苷酸中包含的第四序列对应的第一序列；或(ii)与第四寡核苷酸的第一序列互补的第一序列，其中该第四寡核苷酸进一步包含与第二寡核苷酸的第三序列至少部分互补的第二序列；其中对于(i)，该方法进一步包括在步骤(c)之后和步骤(d)之前的第二链DNA合成的步骤，其中对于(ii)，该方法进一步包括DNA连接的步骤；且其中，第三寡核苷酸进一步包含含有索引序列的第二序列和含有引物结合位点的第三序列；(e)扩增步骤(d)中获得的DNA寡核苷酸；和(f)对所扩增的DNA寡核苷酸进行测序。本发明还涉及此方法的用途以及用于此方法的装置。进一步提供包含本发明方法中所用的一种或多种组分的试剂盒。

背景技术

细胞图谱计划(例如Human Cell Atlas(Rozenblatt-Rosen等(2017)Nature 550,451-3)和单细胞CRISPR筛选(例如使用CROP-seq(Datlinger等(2017)Nat Methods 14,297-301))达到了当前技术的极限，因为它们需要对数百万个单细胞进行谱图分析。目前基于亚纳升孔板或微流控微滴发生器的大多数单细胞RNA-seq研究，都超出了使用标准微量滴定板(96孔或384孔)的可行性范围。这两种技术都建立在一种称为软光刻的微制造方法上。

在基于亚纳升孔的scRNA-seq(Cyto-Seq(Chen等(2015)Science 348,aaa6090)、Seq-Well(Gierahn等(2017)Nat Methods 14,395-8)、Microwell-Seq(Han等(2018)Cell172,1091-1107)、sci-RNA-seq(Cao等(2017)Science 357,661-7))中，用PDMS或琼脂糖等材料模塑出带有亚纳升范围的微型化反应区室的平板。微珠和细胞通过重力作用加载。虽然微珠通常加载到接近饱和，但细胞按有限稀释(即非常低的浓度)加载，以避免细胞进入同一反应区室。如果两个细胞进入平板上的同一个孔，它们最终会得到完全相同的细胞条形码，由此在下游分析中无法区分。在平板上，细胞裂解，其转录组与微珠上的互补寡核苷酸退火。典型地，之后收集微珠，然后批量进行反转录。目前，由于缺乏经过充分验证且易于获得的流程和商业解决方案，大多数实验室更偏向于微流控微滴发生器(见下文描述)。

软光刻技术并不局限于开放式设计，如亚纳升孔板。当使用PDMS作为材料时，可以通过将其粘合到玻璃载玻片来密封开口侧，以实现复杂的通道设计。这使得能够制造用于scRNA-seq(Drop-seq(Macosko等(2015)Cell 161,1202-14)、inDrop(Klein等(2015)Cell161,1187-1201)、10x Genomics Chromium(Zheng等(2017)Nat.Commun.8,14049))的微流控微滴发生器。用于scRNA-seq的典型微流控装置有四个输入(用于输入细胞、条形码微珠、反转录试剂和载体油)和一个输出(用于输出微滴乳液)。反转录反应通常在微滴内部进行。虽然可变形微珠可以加载到接近饱和，但细胞按有限稀释提供，使得两个细胞不太可能进入同一微滴。如果两个细胞进入同一微滴，则它们将收到完全相同的细胞条形码，并且在下游分析中无法区分。因此，虽然大多数微滴同时含有试剂和微珠，因此功能齐全，但由于它们不含细胞，最终不会被使用。

亚纳升微孔板和微流控微滴发生器的通量受限于按有限稀释加载细胞以避免细胞双联体(cell doublets)的要求。这些平台通常每个实验的通量约为10,000个细胞(例如，按每个亚纳升孔板或10x Genomics Chromium芯片上的每个通道计)，但这可以通过并行化(多个平板、微流控装置上的多个通道)来提高。然而，这通常成本很高，而且费力。

在组合索引中，所分析的细胞的数目可以随条码化次数(barcoding rounds)成指数式增长。两轮条码化将允许对大约10,000个细胞进行分析(在使用384x 384个条形码时)，这会产生大量人工操作，但与亚纳升孔板或微滴发生器相比没有任何优势。只有在引入第三轮索引时，才可能处理超过100万个细胞。目前用sci-RNA-seq v3产生的最大数据集包含来自发育中的小鼠胚胎的200万个单细胞转录组(Cao等(2019)Nature 566,496-502)。然而，这有几个缺点：(1)大多数NGS文库制备流程不能与三轮组合索引立即兼容(例如ATAC-seq、DNA甲基化分析、Hi-C等测定)。(2)在每个条码化步骤中，即使存在不利的反应缓冲液和高温孵育，细胞核或细胞也必须保持完整。对于三轮条码化，材料损失通常>90％。(3)设计一个简洁的文库读取结构以经济高效地对三个条形码的组合进行测序是一个挑战(当连接突出端必须与条形码一起测序时，如在SPLIT-seq或sci-RNA-seq v3中，这尤其成问题)。(4)条形码中的合成和测序错误累积，使得较大百分比的读段无法可靠地分配。(5)在完整细胞或细胞核上进行反应只是部分有效的。以这种方式进行的反应越多，文库制备的整体效率和产生的单细胞转录组的质量越低。(6)为了达到高细胞数，每轮条码化都必须使用大量索引。例如，为了产生200万个细胞的数据集，使用了384x 384x 768个条形码的组合。就所需的试剂量而言，这既费力又浪费。鉴于这些缺点，很难想象已发表的用于组合索引scRNA-seq的方法会被研究实验室普遍采用或在商业上取得成功。

在一个典型的实验中，细胞悬液，连同带有独特DNA条形码的微珠群、反转录试剂和载体油，加载到微流控芯片上(图1a)。当水相和油相以受控的流速组合时，乳液微滴共包封单个细胞和单个微珠。由于缓冲液组成，细胞裂解，细胞大分子释放到微滴中。细胞转录物与微珠连接的互补引物退火，所述引物携带有唯一细胞条形码(unique cell barcode)。对于全转录组应用，这些引物包含一个与信使RNA中的poly-A尾部互补的oligo-dT段。但原则上，可以使用任何捕获序列，以便可以选择性富集特定转录物或RNA。在一些实施方案中，通过还原条件或通过紫外线来溶解微珠，以更有效地捕获转录物。在大多数流程中，用乳液微滴作为反转录反应的反应区室，反转录反应将条形码掺入到细胞的转录组中。

重要的是，如果两个细胞进入相同的微滴或相同的孔，例如在亚纳升孔板上，它们的转录组会被完全相同的细胞条形码标记，从而产生混淆分析的细胞双联体。为了避免这个问题，目前最先进的微滴发生器配备有限稀释的细胞悬液，大多数微滴携带0或1个细胞。这使得微流控scRNA-seq效率极低。虽然大多数乳液微滴功能齐全(它们同时包含条码化的微珠和反转录试剂)，但它们未接收细胞，因此不会导致生产性的文库制备事件。

因此，需要分析RNA寡核苷酸的改进方法，尤其是允许高通量分析的方法。

发明内容

通过本文提供的实施方案，尤其是权利要求书中提供的实施方案，解决该技术问题。

本发明尤其涉及以下项目：

1.用于对包含RNA的寡核苷酸进行测序的方法，该方法包括以下步骤：

(a)提供包含含有RNA的第一寡核苷酸的经透化的细胞和/或细胞核；

(b)使(a)的所述细胞和/或细胞核在第一反应区室中与含有DNA的第二寡核苷酸组合，其中该第二寡核苷酸至少包含与该第一寡核苷酸的序列至少部分互补的第一序列、含有索引序列的第二序列以及含有引物结合位点的第三序列，其中所述组合在允许该第二寡核苷酸的第一序列与该第一寡核苷酸退火的条件下进行；

(c)在所述细胞/细胞核中反转录第一寡核苷酸以获得延长的第二寡核苷酸；

(d)使步骤(c)中获得的所述细胞和/或细胞核在第二反应区室中与微珠结合的第三寡核苷酸组合，其中该第三寡核苷酸包含：

(i)与步骤(b)中所用的第二寡核苷酸中包含的第四序列对应的第一序列；或

(ii)与第四寡核苷酸的第一序列互补的第一序列，其中该第四寡核苷酸进一步包含与第二寡核苷酸的第三序列至少部分互补的第二序列；

其中对于(i)，所述方法进一步包括在步骤(c)之后和步骤(d)之前的第二链DNA合成的步骤，其中对于(ii)，该方法进一步包括DNA连接的步骤；

且其中，该第三寡核苷酸进一步包含含有索引序列的第二序列和含有引物结合位点的第三序列；

(e)扩增步骤(d)中获得的DNA寡核苷酸；和

(f)对所扩增的DNA寡核苷酸进行测序。

2.第1项的方法，其中在步骤(c)中，将无模板核苷酸(untemplated nucleotide)添加到第二寡核苷酸的3’端。

3.第2项的方法，其中第二链DNA合成包括使用含有与所添加的无模板核苷酸互补的序列的引物。

4.第2项的方法，其中添加含有与所添加的无模板核苷酸互补的RNA核苷酸的引物进行延伸。

5.第1项的方法，其中第二链DNA合成包括：

(a)在第一寡核苷酸中引入切口；

(b)延伸带切口寡核苷酸；和

(c)连接所延伸的寡核苷酸。

6.第1或5项的方法，其进一步包括在第二链DNA合成之后或在第二链DNA合成的同时在所合成的第二链DNA的5’端引入无模板核苷酸的步骤。

7.第6项的方法，其中使用转座酶，尤其是Tn5转座酶引入无模板核苷酸。

8.第1项的方法，其中所述方法进一步包括在DNA连接后的线性延伸步骤，其中线性延伸包括添加含有RNA核苷酸的引物和添加反转录酶。

9.第1项的方法，其中所述方法进一步包括线性延伸的步骤，该步骤包括添加含有随机核苷酸的引物。

10.第1至9项中任一项的方法，其中与第二寡核苷酸的第一序列结合的第一寡核苷酸的序列位于第一寡核苷酸的3’端。

11.第1至10项中任一项的方法，其中第二寡核苷酸的第一序列与第一寡核苷酸的3’poly-A尾互补。

12.第1至11项中任一项的方法，其中第一反应区室包含透化的完整细胞和/或细胞核。

13.第1至12项中任一项的方法，其中第一反应区室包含5000至10000个细胞。

14.第1至13项中任一项的方法，其中第二反应区室包含裂解的细胞和/或细胞核。

15.第1至14项中任一项的方法，其中第二反应区室包含每个微珠一个以上的细胞和/或细胞核，优选每个微珠10个细胞/细胞核。

16.第1至15项中任一项的方法，其中第二反应区室是微流控微滴或微量滴定板上的孔，尤其是亚纳升孔板。

17.第16项的方法，其中第二反应区室是微流控微滴，且第三寡核苷酸在微滴形成时从微珠释放。

18.第1至17项中任一项的方法，其中第二寡核苷酸进一步包含唯一分子标识符(UMI)。

19.第1至18项中任一项的方法，其中所述细胞和/或细胞核获自体外培养物或新鲜或冷冻样本。

20.第1至19项中任一项的方法，其中所述细胞/细胞核为

(a)获自现有细胞系、原代细胞、血液细胞、体细胞，或来源于类器官或异种移植物；

(b)CAR-T细胞、CAR-NK细胞、修饰的T细胞、B细胞、NK细胞、免疫细胞，或分离自用此类产品治疗的患者；或

(c)经历自然分化或人工诱导的重编程或转分化的多能干细胞(iPS)或胚胎干细胞。

21.第1至20项中任一项的方法，其中DNA连接使用耐热DNA连接酶。

22.微流控系统用于第1至21项中任一项的方法的用途，尤其是用于产生微流控微滴或将材料递送到基于微流控孔的装置中。

23.第22项的用途，其中该微流控系统是微滴发生器。

24.第22项的用途，其中该微流控系统包含亚纳升孔板。

25.试剂盒，其包含如第1项中所定义的第二寡核苷酸，优选连同关于使用第1至21项中任一项的方法的说明书。

26.第25项的试剂盒，其进一步包含转座酶。

27.第25项的试剂盒，其进一步包含第二链合成试剂和/或耐热连接酶。

28.第25至27项中任一项的试剂盒，其进一步包含所述第四寡核苷酸。

本发明涉及用于对包含RNA的寡核苷酸进行测序的方法，该方法包括以下步骤：(a)提供包含含有RNA的第一寡核苷酸的经透化的细胞和/或细胞核；(b)使(a)的所述细胞和/或细胞核在第一反应区室中与含有DNA的第二寡核苷酸组合，其中该第二寡核苷酸至少包含与该第一寡核苷酸的序列至少部分互补的第一序列、含有索引序列的第二序列以及含有引物结合位点的第三序列，其中所述组合在允许该第二寡核苷酸的第一序列与该第一寡核苷酸退火的条件下进行；(c)在所述细胞/细胞核中反转录第一寡核苷酸以获得延长的第二寡核苷酸；(d)使步骤(c)中获得的所述细胞和/或细胞核在第二反应区室中与微珠结合的第三寡核苷酸组合，其中该第三寡核苷酸包含(i)与步骤(b)中所用的第二寡核苷酸中包含的第四序列对应的第一序列；或(ii)与第四寡核苷酸的第一序列互补的第一序列，其中该第四寡核苷酸进一步包含与第二寡核苷酸的第三序列至少部分互补的第二序列；其中对于(i)，所述方法进一步包括在步骤(c)之后和步骤(d)之前的第二链DNA合成的步骤，其中对于(ii)，该方法进一步包括DNA连接的步骤；且其中，该第三寡核苷酸进一步包含含有索引序列的第二序列和含有引物结合位点的第三序列；(e)扩增步骤(d)中获得的DNA寡核苷酸；和(f)对所扩增的DNA寡核苷酸进行测序。本文所提供的本发明方法还可以包括固定包含该含有RNA的第一寡核苷酸的透化细胞和/或细胞核的附加步骤。下文还提供了对应的实施方案。

本发明人惊奇地发现，当在微流控运行之前用第一条形码对整个转录组预先编制索引时，微流控scRNA-seq可以以满载容量使用(图1b)。即使多个细胞最终进入同一微滴并接收相同的第二微流控条形码，它们的转录组仍然可以使用第一条形码去卷积。重要的是，这一概念与使用DNA标记的抗体(Stoeckius等(2018)Genome Biol.19,224)或脂质(McGinnis等(2019)Nature Methods 16,619-626)的细胞哈希(cell hashing)完全不同。在细胞哈希的情况下，细胞转录组不进行条形码化。因此，细胞双联体仅可被检测到但不可解析，必须在分析时丢弃。

将本文提供的超高通量单细胞RNA测序方法命名为scifi-RNA-seq(单细胞组合索引与流体索引RNA测序)。本发明的方法通过单轮的组合预索引扩展了目前最先进的基于微滴的scRNA-seq，从而将通量提高了至少15倍、至少20倍、至少25倍或更多倍。这主要是通过可以将多个细胞加载入一个微滴中而不造成不可区分标记的读出来实现的。

在scifi-RNA-seq(图1b)中，将细胞或细胞核透化，并在分隔池中(即，在微孔板上的许多物理分离的混池试样(bulk aliquots)中，所述微孔板可以例如包含384个预索引(第1轮)条形码)，通过反转录对所述细胞或细胞核的转录组进行预索引化。接下来，将含有预索引化的cDNA的细胞或细胞核合并，随机混合，并使用微流控微滴发生器包封，以使得大多数微滴被填充并且多个细胞或细胞核占据同一微滴。在微滴内部，转录物用微流控(第2轮)条形码标记。重要的是，这两个条形码均不专属于一个细胞，而是被相应反应区室(第一轮的板孔，第二轮的微滴)中的所有细胞共享。然而，由于细胞或细胞核在两轮条码化之间随机混合，通过两个条形码的组合仍可唯一地标识单个细胞。

本文提供的手段和方法可用于，例如，由10xGenomics商业化的Chromium平台(“Chromium^TM”)，该平台是目前最流行的scRNA-seq平台。然而，本发明的方法也可适用于提高任何微流控或基于平板的平台的通量，尤其是基于纳升和/或亚纳升平板的平台，和/或涉及条码化的任何方案，如组合索引方案。例如，本发明的方法可用于改进使用BectonDickinson Rhapsody系统获得的结果(参见例如Shum等(2019)Adv Exp Med Biol,1129:63-79/“BD Rhapsody^TM”)。因为本方法不需要单通道用于评估，这种改进可见于，例如，实质上更高的细胞/细胞核输入和/或数百或数千个样本的潜在多路复用(multiplexing)。本发明还提供更干净的数据，如高单细胞纯度。此外，本发明人已证实，本发明的方法可以解决在现有技术系统，如上述10xGenomics的Chromium^TM平台上使用的标准方法的多种缺点。与现有技术如Chromium^TM相比，这些令人惊讶的改进包括例如减少的“背景”(这常常由自由漂浮的RNA或细胞制备物伪象引起)和/或提高的(单)细胞纯度(尤其如图39所示，例如图39a和/或b)。

因此，本文提供的scifi-RNA-seq方法及其变形，即本发明的方法，可用于例如，器官规模和/或生物体规模的单细胞测序项目(例如人类细胞图谱)和/或器官和/或生物体水平的发育研究。本发明的方法还可用于鉴定极其罕见和/或短暂的细胞类型、发育阶段和/或细胞表型。此类应用可以包括鉴别极为罕见的重编程和/或转分化事件，这些事件迄今为止难以用选择性标记蛋白捕获。在本发明方法的其他应用中，还可以设想进行CRISPR单细胞测序(例如CROP-seq、Perturb-seq、CRISP-seq、Mosaic-seq)以及全转录组和/或CRISPR-gRNA的组合读出。作为再一个实例，也可以使用本发明的方法，进行CRISPR单细胞测序(例如，CROP-seq、Perturb-seq、CRISP-seq、Mosaic-seq)以及单转录物和CRISPR gRNA的组合读出或转录物Panel和CRISPR gRNA的组合读出。此外，还可以设想，将scifi-RNA-seq和CRISPR单细胞测序与CRISPR激活相结合，以分析整个转录组或转录组子集对扰动的反应。本文提供的scifi-RNA-seq方法及其变形，即本发明的方法，也可用于药物筛选和/或化合物测试，例如测试(一种或多种)化合物的能力，以解释细胞表达谱中的偶然性等。因此，本发明还提供筛选方法。本文提供的手段和方法也可用于生物/生化研究程序，尤其是用于阐明配体-受体关系和/或信号级联及其(细胞)后果。

本发明的方法scifi-RNA-seq可用作读取手段，用于其中每个细胞有多个扰动的CRISPR单细胞测序，在此情况下需要超高通量来捕获所有可能的组合。

本发明的方法可与单细胞ATAC-seq组合，用于组合读取转录组/表观基因组。本发明的方法还可以与谱系追踪方法组合，以组合读取谱系信息和/或转录组。

还提供本发明的方法scifi-RNA-seq在超高通量免疫库(immune repertoire)测序中的用途，其中特异性富集编码B细胞受体、T细胞受体或其他相关蛋白质的转录物(图17)。

还提供本发明的方法scifi-RNA-seq用于转录组和免疫库的组合测序。

进一步提供本发明的方法，scifi-RNA-seq及其变形，用于(例如通过其活化标志)识别抗原特异性、反应性T细胞、B细胞和/或其他免疫细胞的用途。还提供本发明方法在检测与细胞外和/或细胞内配偶体(如靶标和/或抗原)相互作用的条码化抗体或其他生物分子中的用途。

还提供本发明的方法与目的转录物富集的组合应用，其中所述目的转录物(单个转录物、转录物系列、CRISPR gRNA、从例如条码化的抗体或其他生物分子获得的特征条形码)的富集可以例如通过特异性PCR或转录物捕获来进行。所述应用包括诊断应用。

本发明的方法和手段也可用于细胞间相互作用评估和/或细胞间相互作用谱图分析。根据本发明的此实施方案，不分离细胞，而是允许其在物理上相互作用。细胞间的相互作用将允许细胞通过相同的第一反应区室。细胞间的相互作用可以通过固定方法来稳定化。

具体而言，在第一个实验中，测试了微流控系统的加载能力，其中用裂解试剂代替标准EB缓冲液。由此，可以在光学显微镜下计数微流控微滴中包含的细胞核的数量。如图7所示，每个微流控通道加载了15,300、191,250、382,500、765,000和1,530,000个细胞核。令人惊讶的是，构成对设备重度过载的所有测试条件都产生了稳定的微滴乳液，而未堵塞微流控通道，即使每个通道加载了高达1,530,000个细胞核(最大建议量的100倍)时，也是如此。当每个通道加载1,530,000个细胞核时，观察到平均每个微滴9.6个细胞核。这证明，10xGenomics Chromium平台可以耐受比通常所用高100倍的加载浓度，而不堵塞微流控通道。具有期望的随机加载分布的稳定微滴乳液因此得以实现。

在第二个实验中，使用图2所示的特定文库制备方法，引入了第一条形码索引。替代方法设计描述在图3-6中。本发明的方案适用于分布在例如96孔、384孔或1536孔板中的经透化的细胞和/或细胞核。在该示例性设置中，每个孔包含这样的DNA引物，该引物包含：(1)用于转录物捕获的oligo-dT段，(2)独特的孔特异性第1轮索引，(3)用于去除PCR重复的可选的唯一分子标识符，(4)NGS测序引物的引物结合位点，(5)用于微流控装置中线性条码化的引物结合位点(pR1N)。逆转录后，利用RNase H在模板mRNA中引入切口，DNA聚合酶延伸切口，DNA连接酶将其封闭，产生双链cDNA。

本发明方法的此示例性方案中的下一步是为随后的富集PCR反应引入第二确定端。这通过使用加载了与Illumina兼容的i7-only接头(adaptor)的定制Tn5转座酶实现。在本发明方法中达到相同结果的替代手段包括，例如，在提供适当的寡核苷酸时，通过反转录酶进行的模板转换；使用Klenow Exo-或类似酶进行的随机引发；有或没有RNA碱基加尾的单链连接。

与现有技术的方法相比，重要且有利的是，在整个过程中，细胞核和/或细胞保持完整，并以异常高的浓度加载到微流控装置上，以促进每个微滴加载多个细胞。在本发明的方法中，一个微珠与多个条码化的细胞/细胞核包封在一起。由于缓冲液的组成，细胞核裂解，使得转录组可以与微珠栓系的Oligo退火。然后对微流控微滴进行多轮线性延伸，将第二个(微流控)条形码引入转录组。在该反应后，打破乳液微滴，通过PCR富集测序文库，在此过程中可以引入额外的通道特异性条形码。虽然第一和第二条形码都可以由多个细胞共享，但两个条形码的组合对于单个细胞是独特的。在生物信息学分析过程中，细胞通过其细胞条形码进行识别，该条形码包括基于平板的第一条形码和基于微流控的第二条形码。两者的组合导致了本文提供的令人惊讶的结果。具体而言，图13a和13b描述了典型的文库制备实验的结果。Illumina NextSeq 500和NovaSeq 6000平台的测序指标在图13c和13d显示。

出于几个原因，本领域认为，组合索引RNA-seq不能与微滴微流控组合。最重要的是，人们认为，对细胞或细胞核进行反转录、第二链合成和标签化(tagmentation)是不可避免地损伤性的。因此，本发明的方法比现有技术方法展现出显著改进，这是令人惊讶和意外的。

在所附的实施例中，证实10x Genomics Chromium测定可以以100倍于最大推荐值的细胞核数量过载。令人惊讶的是，即使在最高加载浓度下，也获得了稳定的微滴乳液，而不堵塞微流控通道。文中提供了在一系列高加载浓度上细胞核填充率的详细指标，证明即使在异常高的加载浓度下，也可以对其进行严格控制。例如，当每个通道加载153万个细胞核(最大建议量的100倍)时，每个微滴的平均填充率稳定在9.6个细胞。此外，也表明，用细胞核填充微滴没有物理限制。例如，每个通道加载153万个细胞核，产生了95.5％的填充率。

此外，所附实施例显示，进行了组合预索引的细胞核足够稳定，能够承受微流控装置内的压力和剪切应力。这是出乎意料的，因为在本发明的一些方案中，它们会经受三种酶促反应：逆转录、第二链合成和标签化。这些步骤涉及预期会损害细胞核完整性的高温孵育和侵蚀性缓冲液。因此，将预索引步骤与微流控相组合并非是显而易见的。令人惊讶的是，本文提供的scifi-RNA-seq的优化工作流程，可以以与标准微流控scRNA-seq相当的比例，回收预索引化的细胞/细胞核。

本发明的方法是线性条码化在单细胞转录组测序中的首次使用。在一些情况下，本发明还提供了耐热连接酶在下一代测序文库制备中的首次使用。线性条码化是指通过与微珠栓系的寡核苷酸退火，然后用合适的DNA聚合酶进行线性延伸，来引入细胞条形码。虽然最近已描述线性条码化用于单细胞ATAC-seq，但尚未提出用于scRNA-seq。在本发明之前，没有其他使用线性条码化的scRNA-seq方法。通过本文所述的发明，已经证明，线性条码化对于制备单细胞转录组文库是有效的。所得到的数据具有高质量和复杂度，以及微小的技术噪音或测序伪影。类似地，在本发明之前，没有使用耐热连接酶的其他scRNA-seq方法。对于本文提供的相关方法，已经证明，使用耐热连接酶可有效制备单细胞转录组文库。所得到的数据具有高质量和复杂度，以及微小的技术噪音或测序伪影。

通过将微滴微流控用于第二索引，在本发明的方法中，大约750,000个序列可用于第二轮的组合条码化。在使用384孔板进行第一轮索引时，这将产生大约2.88亿个条形码可能性(384x 750000)。而在384孔板上进行两轮目前最先进的组合索引，也仅产生147,456个组合。组合索引和微流控微滴发生器的组合，还使得能够扩展到由于其设计而原本无法立即与三轮索引兼容的NGS方案。

总之，在本发明的方法中，使用预索引步骤，在微流控运行之前对整个单细胞转录组进行条码化。因此，本发明的方法可以不受上述限制，因为即使细胞进入相同的微滴中也可以获得区分。因此，微流控微滴发生器(也包括亚纳升孔板)可加载比现有方案多得多的细胞。

因此，例如，本发明的方法可用于饱和诱变的高内涵读取，例如用于细胞中遗传变异的实验注释。本发明的方法也可用于合成生物学的高内涵读取，例如，在将大量合成的DNA模块(自然的和人工的)引入细胞时。

因此，在第一实施方案中，本发明涉及用于对包含RNA的寡核苷酸进行测序的方法，该方法包括以下步骤：(a)提供包含含有RNA的第一寡核苷酸的经透化的细胞和/或细胞核；(b)使(a)的所述细胞和/或细胞核在第一反应区室中与含有DNA的第二寡核苷酸组合，其中该第二寡核苷酸至少包含与该第一寡核苷酸的序列至少部分互补的第一序列、含有索引序列的第二序列以及含有引物结合位点的第三序列，其中所述组合在允许该第二寡核苷酸的第一序列与该第一寡核苷酸退火的条件下进行；(c)在所述细胞/细胞核中反转录第一寡核苷酸以获得延长的第二寡核苷酸；(d)使步骤(c)中获得的所述细胞和/或细胞核在第二反应区室中与微珠结合的第三寡核苷酸组合，其中该第三寡核苷酸包含(i)与步骤(b)中所用的第二寡核苷酸中包含的第四序列对应的第一序列；或(ii)与第四寡核苷酸的第一序列互补的第一序列，其中该第四寡核苷酸进一步包含与第二寡核苷酸的第三序列至少部分互补的第二序列；其中对于(i)，所述方法进一步包括在步骤(c)之后和步骤(d)之前的第二链DNA合成的步骤，其中对于(ii)，该方法进一步包括DNA连接的步骤；且其中，该第三寡核苷酸进一步包含含有索引序列的第二序列和含有引物结合位点的第三序列；(e)扩增步骤(d)中获得的DNA寡核苷酸；和(f)对所扩增的DNA寡核苷酸进行测序。如本文所讨论，包含含有RNA的第一寡核苷酸的透化细胞和/或细胞核也可以例如，通过将要分析的RNA化学交联到细胞结构上或细胞核结构上而固定。下文还提供了附加固定步骤的本实施方案的细节。在按照本发明的手段和方法分析新鲜样本，如未经保存的细胞/细胞核(例如，先前未经福尔马林固定的材料)时，固定步骤可能是尤其有意义的。

因此，一般而言，本发明涉及用于对包含RNA的寡核苷酸进行测序的方法。术语“序列”是指关于寡核苷酸或寡核苷酸中两个或更多个单位(核苷酸)长的任何部分的序列信息。该术语也可用作对寡核苷酸本身或其相关部分的提及。

寡核苷酸序列信息涉及寡核苷酸，尤其是RNA，尤其是本发明方法中第一寡核苷酸的RNA中核苷酸碱基的序列。例如，如果寡核苷酸包含碱基腺嘌呤、鸟嘌呤、胞嘧啶和/或尿嘧啶、或其化学类似物，则寡核苷酸序列可由字母A、G、C或U的相应序列表示。这种寡核苷酸可以使用本发明的方法进行测序。

因此，在第一步中，本发明的方法包括提供包含含有RNA的第一寡核苷酸的经透化的细胞和/或细胞核的步骤。该第一寡核苷酸包含RNA。然而，本发明的方法不受限于该第一寡核苷酸的RNA类型或包含在本发明方法中使用的细胞/细胞核中的RNA类型。因此，该RNA可以是本领域技术人员已知的任何类型。该RNA优选是信使RNA。它可以优选地是包含在本发明方法中使用的细胞/细胞核中的转录组的部分或全部，优选整个转录组。因此，包含在第一寡核苷酸中的RNA优选为信使RNA(mRNA)的形式。本领域技术人员将了解，mRNA通常在其3’端包含聚腺苷酸化的尾部。因此，优选的是，第二寡核苷酸的第一序列与该第一寡核苷酸的3’端(即poly-A尾)至少部分互补。然而，本发明的方法不限于结合到3’端。相反，第二寡核苷酸的第一序列可以与第一寡核苷酸的如下序列至少部分互补，其中所述序列位于该第一寡核苷酸的3’端的5’方向。这尤其可用于靶序列已知或至少部分已知的情况。

细胞/细胞核可以以多种状态存在，并且可以从多种状态或来源的样本获得。

例如，在一个实施方案中，细胞和/或细胞核从体外培养物或新鲜或冷冻样本获得。细胞/细胞核可以从保存的组织样本，如福尔马林固定石蜡包埋(FFPE)材料，获得。

在本发明中，细胞/细胞核可以是任何来源，只要该细胞/细胞核包含含有RNA的寡核苷酸即可。例如，该细胞可以是细胞系、原代细胞、血细胞、体细胞，来源于类器官或异种移植物。此外，细胞可以从免疫肿瘤学中使用的细胞制备物获得，例如CAR-T细胞、CAR-NK细胞、修饰的T细胞、B细胞、NK细胞或其他免疫细胞，或者从使用此类产品治疗的患者分离。此外，细胞可以是经历自然分化或人工诱导的重编程或转分化的胚胎干细胞或诱导的多能干细胞(iPS)。因此，细胞核可源自上述任何细胞，包括例如血细胞、体细胞、诱导的多能干细胞(iPS)或胚胎干细胞。因此，本发明的方法尤其可用于免疫肿瘤学(CAR-T细胞、CAR-NK细胞、双特异性衔接分子、BiTE、免疫检查点阻断、以mRNA形式递送的癌症疫苗)、分子靶向癌症治疗、耐药性和毒性机制的剖析、和/或靶点发现和/或验证。

在其他实施方案中，细胞和/或细胞核可从法医学、生殖医学、再生医学或免疫肿瘤学中使用的生物材料获得。因此，细胞和/或细胞核可以是源自肿瘤、血液、骨髓抽吸物、淋巴结的细胞/细胞核，和/或获自显微解剖组织、胚胎的卵裂球或囊胚、精子细胞的细胞/细胞核，获自羊水的细胞/细胞核，或获自颊拭子的细胞/细胞核。肿瘤细胞/细胞核优选是播散性肿瘤细胞/细胞核、循环肿瘤细胞/细胞核或来自肿瘤活检的细胞/细胞核。此外，优选血细胞/细胞核是外周血细胞/细胞核或获自脐带血的细胞/细胞核。尤其优选的是，包含在细胞/细胞核中的RNA寡核苷酸是细胞/细胞核的转录组。

在本发明的方法中，细胞/细胞核以透化状态提供。本领域技术人员非常了解适合提供处于该状态的细胞/细胞核的方法。例如，甲醇透化可用于整个细胞，但也可以使用诸如Igepal CA-630、洋地黄皂苷(digitonin)或吐温-20等去垢剂进行不完全溶解。因此，第一反应区室可包括经透化处理的完整细胞和/或细胞核。

第一反应区室中的细胞数量不受特别限制。然而，细胞总数将取决于为第一和第二索引化序列选择的长度以及独特的第一和第二索引的数量，以确保合适的样本归属。通常，在本发明的方法中，第一反应区室包含5000到10000个细胞。

在本发明方法的第二步中，使包含含有RNA的第一寡核苷酸的细胞和/或细胞核在第一反应区室中与含有DNA的第二寡核苷酸组合，其中该第二寡核苷酸至少包含与该第一寡核苷酸的序列至少部分互补的第一序列、含有索引序列的第二序列以及含有引物结合位点的第三序列，其中所述组合在允许该第二寡核苷酸的第一序列与该第一寡核苷酸退火的条件下进行。

在本发明的优选实施方案中，使包含含有RNA的第一寡核苷酸的细胞和/或细胞核在第一反应区室中与含有DNA的第二寡核苷酸组合，其中该第二寡核苷酸至少包含与该第一寡核苷酸的3’端至少部分互补的第一序列、含有索引序列的第二序列以及含有引物结合位点的第三序列，其中所述组合在允许该第二寡核苷酸的第一序列与该第一寡核苷酸的3’端退火的条件下进行。

如上所述，本发明的方法允许以令人惊奇的高通量分析/测序细胞/细胞核。这至少部分可归因于在待分析/测序的含有RNA的寡核苷酸中引入了至少两个索引序列。所述至少两个索引序列中的第一个通过如下方式引入：使包含第一寡核苷酸的细胞和/或细胞核在第一反应区室中与含有DNA的第二寡核苷酸组合，其中该第二寡核苷酸至少包含与该第一寡核苷酸的序列至少部分互补的第一序列、含有索引序列的第二序列以及含有引物结合位点的第三序列，其中所述组合在允许该第二寡核苷酸的第一序列与该第一寡核苷酸退火的条件下进行。在一个具体实施方案中，所述至少两个索引序列中的第一个通过如下方式引入：使包含含有RNA的第一寡核苷酸的细胞和/或细胞核在第一反应区室中与含有DNA的第二寡核苷酸组合，其中该第二寡核苷酸至少包含与该第一寡核苷酸的3’端至少部分互补的第一序列、含有索引序列的第二序列以及含有引物结合位点的第三序列，其中所述组合在允许该第二寡核苷酸的第一序列与该第一寡核苷酸的3’端退火的条件下进行。

因此，在本发明的方法中使用第二寡核苷酸。该第二寡核苷酸包含DNA和至少三个功能序列/部分。第二寡核苷酸的第一序列与第一寡核苷酸的序列，优选与第一寡核苷酸的3’端，至少部分互补。如上所述，本发明中优选该含有RNA的第一寡核苷酸包含(例如通常包含在mRNA中的)多聚腺苷酸化的3’端。因此，优选本发明方法中使用的第二寡核苷酸的第一序列包含与第一寡核苷酸的3’端至少部分互补的序列，尤其是主要包含胸腺嘧啶残基或由胸腺嘧啶残基组成的序列。由此，第二寡核苷酸的第一序列可与第一寡核苷酸的3’端，部分或完全退火。因此，提供了一种方法，其中第二寡核苷酸的第一序列与第一寡核苷酸的3’poly-A尾互补。然而，如本文所提供，本发明的方法并不限于第二寡核苷酸的第一序列与第一寡核苷酸的poly-A尾至少部分补充。第二寡核苷酸的第一序列也可以与第一寡核苷酸中位于3’端的5’侧的序列至少部分互补。

第二寡核苷酸的第二序列/部分包含索引序列或由索引序列组成。术语“索引序列”(indexing sequence)为本领域技术人员已知，但令人惊讶的是，用索引序列作为本发明方法中使用的第二寡核苷酸的一部分。

根据本发明，术语“索引序列”应理解为已知或可以未知的核苷酸序列，其中每个位置具有独立且相等的概率是任何核苷酸。在本发明方法的优选实施方案中，第一索引序列是已知的，第二索引序列可以已知或未知。索引序列的核苷酸可以是任何顺序的任何核苷酸，例如G、A、C、T、U，或其化学类似物，其中：G理解为代表鸟苷酸核苷酸、A为腺苷酸核苷酸、T为胸苷酸核苷酸、C为胞苷酸核苷酸和U为尿苷酸核苷酸。本领域技术人员将明了，已知的寡核苷酸合成方法可能固有地导致核苷酸G、A、C、T或U的不同等出现。例如，合成可能导致核苷酸例如G在随机DNA序列中的过度出现。这可以导致基于核苷酸的同等出现而预期的独特序列的数目减少。然而，本领域技术人员将明了，本发明方法使用的第二寡核苷酸中所包含的独特序列的总数，通常足以清楚地标识包含靶RNA的每个寡核苷酸。这是因为本领域技术人员也将意识到这样一个事实，即索引序列的长度可以根据预期的第一寡核苷酸的数量而变化。第一寡核苷酸的预期数量可以来自预期表达的基因数量和/或预期分析/测序的细胞/细胞核数量。因此，在本发明方法使用的第二寡核苷酸的索引序列中，因已知标准寡核苷酸合成方法的不等核苷酸偶联效率而导致的潜在核苷酸不均等出现，是本领域技术人员根据本领域的一般知识可以容易地考虑到的。尤其是，本领域技术人员清楚地知道，可以通过增加索引序列的长度，来获得增加数目的独特序列。

包含在本发明方法使用的第二寡核苷酸中的第三序列包含引物结合位点。合适的序列是本领域技术人员清楚知晓的。在此，任何序列均可以使用，只要允许本发明方法中使用的引物与本发明方法中使用的第二寡核苷酸的该第三序列结合即可。

在本发明的方法中，第二寡核苷酸的第一序列被允许与包含在第一寡核苷酸中的序列，优选地第一寡核苷酸的3’端，退火。本领域技术人员非常清楚允许这些序列彼此退火的条件。在本发明中，第二寡核苷酸的第一序列的构成将有利于该退火。即，第二寡核苷酸的第一序列主要包含与第一寡核苷酸的靶序列中包含的核苷酸(优选地，构成第一寡核苷酸3’端的核苷酸)互补的核苷酸。在一个优选实施方案中，第一寡核苷酸的3’端包含腺嘌呤核苷酸，并因此将与包含在第二寡核苷酸的第一序列中的胸腺嘧啶核苷酸退火。

在本发明的某些实施方案中，第二寡核苷酸进一步包含唯一分子标识符(UMI)。

在使第二寡核苷酸的第一序列与第一寡核苷酸、优选与第一寡核苷酸的3’端退火后，本发明的方法包括在所述细胞/细胞核中反转录第一寡核苷酸以获得延长的第二寡核苷酸的步骤。本领域技术人员清楚地知道可用于在本发明方法中反转录第一寡核苷酸的方法和手段。更具体而言，该反应通常涉及使用反转录酶。在本发明的某些实施方案中，可能优选的是，能够添加无模板核苷酸的反转录酶。

反转录酶是由具有不同生化活性的不同结构域组成的酶。RNA依赖性DNA聚合酶活性和RNA酶H活性是反转录酶的主要功能，但根据来源生物的不同，功能也存在差异，例如，包括DNA依赖性DNA聚合酶活性。反转录过程通常包括多个步骤：

在存在退火引物的情况下，反转录酶与RNA模板结合并启动反应。RNA依赖性DNA聚合酶活性合成互补DNA(cDNA)链，掺入dNTP。可选的RNA酶H活性降解DNA:RNA复合物的RNA模板。DNA依赖性DNA聚合酶活性(如果存在)将单链cDNA识别为模板，使用RNA片段作为引物，合成第二链cDNA以形成双链cDNA。在本发明的方法中，可以使用多种类型的反转录酶，尤其是仅具有RNA依赖性DNA聚合酶活性的酶或具有RNA依赖性DNA聚合酶活性与RNA酶H活性的酶。也可使用具有上述全部三种活性的酶。

例如，所述方法可通过如下来实施：将第一反应区室(例如多孔板)在升高的温度下孵育给定时间(例如在约55℃下孵育5分钟或更长时间)，以消除RNA二级结构。在消除二级结构之后，可将第一反应区室置于冰上，以防止二级结构重新形成。然后，可添加包含缓冲液、dNTP和反转录酶的反应混合物以启动反转录反应。可以向反应中添加RNA酶抑制剂或DTT等添加剂。优选地，反应在从约4℃开始并逐渐升高至约55℃的递增温度下进行。

某些反转录酶也可以显示末端核苷酸转移酶(TdT)活性，导致在合成DNA的3’端添加无模板引导的核苷酸。只有当反转录酶到达RNA模板的5’端时，该TdT活性才会出现，向cDNA末端添加额外的核苷酸，并对双链核酸底物(例如，第一链cDNA合成中的DNA:RNA和第二链cDNA合成中的DNA:DNA)表现出特异性。具有这种活性的示例性反转录酶是Maxima HMinus RT。虽然这种活性通常是不希望的，因为添加的核苷酸不对应于模板，但本发明的方法可以包括使用这种酶。因此，在一个具体实施方案中，本发明的方法包括步骤(c)，其中将无模板核苷酸添加到第二寡核苷酸的3’端。在本发明的一个更具体的实施方案中，然后，第二链DNA合成可包括使用含有与所添加的无模板核苷酸互补的序列的引物。

因此，在反转录之后，本发明的方法可包括合成第二链DNA以获得双链cDNA的步骤。

在反转录和/或第二链DNA合成之后，本发明的方法包括将透化的细胞/细胞核转移到第二反应区室。在这个阶段，细胞/细胞核经过透化处理，但优选仍然保持完整，即未裂解。因此，本发明的方法允许在第一索引化反应期间使用透化的完整细胞/细胞核，而现有技术的方法在第一索引化反应之前包括裂解步骤。

第二反应区室可以是微流控微滴或微量滴定板。微量滴定板可以是微型化的微量滴定板。在本发明的另一个实施方案中，第一和第二反应区室都可以由微流控微滴发生器产生，或者可以是微型化板。在本发明中，两个反应区室也可以是标准微孔板。示例性平板包括Seq Well(Gierahn等(2017)Nature Methods 14，395-8)或Microwell-seq(Han等(2018)Cell 12(5),1091-1107)。

在第二反应区室中，使步骤(c)中获得的细胞和/或细胞核与微珠结合的第三寡核苷酸组合，其中该第三寡核苷酸包含

其中对于(i)，所述方法进一步包括在步骤(c)之后和步骤(d)之前的第二链DNA合成的步骤，其中对于(ii)，所述方法进一步包括DNA连接的步骤；

且其中，该第三寡核苷酸进一步包含含有索引序列的第二序列和含有引物结合位点的第三序列。

在转移到第二反应区室后，可裂解细胞/细胞核。因此，第二反应区室可包含裂解的细胞/细胞核。

本发明方法中使用的第三寡核苷酸包含至少三个功能部分/序列，并且最初与微珠结合。在第二反应区室中，微珠可以被溶解，并释放第三寡核苷酸。包含在第三寡核苷酸中的第一序列，用于直接或间接地将包含在先前方法步骤中获得的细胞/细胞核中的cDNA定向到微珠结合的第三寡核苷酸上。

第三寡核苷酸的第一序列是直接还是间接地结合cDNA，取决于在将cDNA与微珠结合的第三寡核苷酸组合之前是否存在第二链DNA合成步骤。在一个实施方案中，第三寡核苷酸的第一序列可对应于第二寡核苷酸的第四序列部分。本领域技术人员将明了，与第二寡核苷酸的一部分对应的序列将与合成的第二链DNA互补。因此，本发明的该实施方案包括在步骤(c)之后和步骤(d)之前的第二链DNA合成步骤。

在本发明的一个优选实施方案中，第二链DNA合成包括在第一寡核苷酸中引入切口；延伸带切口的寡核苷酸；以及连接延伸的寡核苷酸。可通过添加另一种酶(例如RNA酶H)引入切口。如上所述，反转录酶可具有RNA酶H活性，因此也可用于在第一寡核苷酸中引入切口。随后通过反转录酶和/或另一种酶(如DNA聚合酶)延伸带切口的寡核苷酸，并随后连接形成cDNA寡核苷酸用于进一步处理。

本发明的方法还可包括在第二链DNA合成之后或同时，在合成的第二链DNA的5’端引入无模板核苷酸的步骤。优选地，使用转座酶，尤其是Tn5转座酶引入无模板核苷酸。

转座酶是一种结合转座子末端的酶，通过剪切粘贴机制或复制转座机制催化转座子移动到基因组的另一部分。转座酶分类在EC编号EC 2.7.7下。编码转座酶的基因广泛存在于大多数生物体的基因组中，是已知丰度最高的基因。本发明上下文中的优选转座酶是转座酶(Tnp)Tn5，尤其是定制的转座酶。Tn5是包含反转录病毒整合酶的RNA酶超家族成员。Tn5可见于希瓦氏菌属(Shewanella)和埃希氏菌属(Escherichia)细菌中。转座子编码对卡那霉素和其他氨基糖苷类抗生素的抗生素抗性。Tn5和其他转座酶明显不活跃。由于DNA转座事件固有地具有致突变性，因此，为了降低在宿主中引起致命突变并由此消除转座元件的风险，转座酶的低活性是必要的。Tn5不活跃的原因之一是，其N-末端和C-末端彼此相对紧靠，并且倾向于相互抑制。通过对导致转座酶过度活跃形式的几种突变的表征，阐明了这一点。其中一个突变L372P是Tn5转座酶中氨基酸372的突变。在α螺旋中间，此氨基酸通常是亮氨酸残基。当用脯氨酸残基取代此亮氨酸时，α螺旋被破坏，在C端结构域中引入构象变化，将其与N端结构域分隔得足够开，以促进该蛋白质的更高活性。因此，优选使用这种修饰的转座酶，其比天然存在的Tn5转座酶具有更高的活性。此外，特别优选的是，在本发明方法使用的转座酶上，加载待插入目标双链寡核苷酸中的寡核苷酸，优选加载无模板核苷酸。

因此，优选使用高度活跃的Tn5转座酶和Tn5型转座酶识别位点(Goryshin和Reznikoff,J.Biol.Chem.,273:7367(1998))，或MuA转座酶和包含Rl和R2末端序列的Mu转座酶识别位点(Mizuuchi,K.,Cell,35:785,1983；Savilahti,H等,EMBO J.,14:4893,1995)。可用于本发明方法中的转座系统的更多实例包括金黄色葡萄球菌(Staphylococcusaureus)Tn552(Colegio等,J.Bacteriol,183:2384-8,2001；Kirby C等,Mol.Microbiol,43:173-86,2002)、Tyl(Devine&Boeke,Nucleic Acids Res.,22:3765-72,1994和国际公开WO 95/23875)、转座子Tn7(Craig,NL,Science.271:1512,1996；Craig,N L,Review in:Curr Top Microbiol Immunol,204:27-48,1996)、Tn/O和IS 10(Kleckner N等,Curr TopMicrobiol Immunol,204:49-82,1996)、Mariner转座子(Lampe D J等,EMBO J.,15:5470-9,1996)、Tel(Plasterk R H,Curr.Topics Microbiol.Immunol,204:125-43,1996)，P元件(Gloor,G B,Methods Mol.Biol,260:97-1 14,2004)、Tn3(Ichikawa&Ohtsubo,JBiol.Chem.265:18829-32,1990)、细菌插入序列(Ohtsubo&Sekine,Curr.Top.Microbiol.Immunol.204:1-26,1996)、反转录病毒(Brown等,Proc Natl AcadSci USA,86:2525-9,1989)及酵母的反转录转座子(Boeke&Corces,Annu RevMicrobiol.43:403-34,1989)。更多的实例包括IS5、TnlO、Tn903、IS91 1和转座酶家族酶的工程化版本(Zhang等,(2009)PLoS Genet.5:el000689.Epub 2009Oct 16；Wilson C.等(2007)J.Microbiol.Methods71:332-5)及美国专利号5,925,545、5,965,443、6,437,109、6,159,736、6,406,896、7,083,980、7,316,903、7,608,434、6,294,385、7,067,644、7,527,966和国际专利公开号WO2012103545中描述的那些，所有文献在此以其整体明确引入作为参考。

虽然任何适合于所用转座酶的缓冲液均可用于本发明的方法中，但优选使用特别适合于所用转座酶的高效酶促反应的缓冲液。在这方面，尤其优选将包含二甲基甲酰胺的缓冲液用于本发明的方法中，尤其是在转座酶反应期间。此外，可以使用包含替代缓冲系统(包括TAPS、Tris乙酸盐或类似系统)的缓冲液。此外，聚乙二醇(PEG)等拥挤试剂(crowdingagent)对于提高极少量DNA的标签化(tagmentation)效率特别有用。Picelli等(2014)Genome Res.24:2033-2040描述了特别有用的标签化反应条件。

转座酶催化核酸(尤其是DNA)插入目标核酸(尤其是目标DNA)。本发明方法中使用的转座酶加载有寡核苷酸，该寡核苷酸将插入目标核酸，尤其是目标DNA中。转座酶和寡核苷酸的复合物也称为转座体(transposome)。优选地，转座体是包含用于整合的两个不同寡核苷酸的异二聚体。在这方面，加载到转座酶上的寡核苷酸可以包含多个序列。具体而言，该寡核苷酸至少包含第一序列和第二序列。第一序列是将寡核苷酸加载到转座酶上所必需的。US2010/0120098中给出了用于将寡核苷酸加载到转座酶上的示例性序列。第二序列包含扩增期间，特别是PCR扩增期间引物结合所需的接头序列，可选地进一步包含无模板核苷酸。因此，通过转座酶可以将包含第一和第二序列的寡核苷酸插入目标核酸，尤其是目标DNA。寡核苷酸还可包含含有条形码序列的序列。条形码序列可以是随机序列或规定的序列。在这方面，根据本发明，术语“随机序列”应理解为这样的核苷酸序列，其中每个位置具有独立且相等的概率是任何核苷酸。这些随机核苷酸可以是具有任何顺序的任何核苷酸，例如G、A、C、T、U或其化学类似物，其中：应理解G代表鸟苷酸核苷酸、A为腺苷酸核苷酸、T为胸苷酸核苷酸、C为胞苷酸核苷酸和U为尿苷酸核苷酸。本领域技术人员将明了，已知的寡核苷酸合成方法可固有地导致核苷酸G、A、C、T或U的不等出现。例如，合成可导致核苷酸例如G在随机DNA序列中的过度出现。这可以导致基于核苷酸的同等出现而预期的独特随机序列的数目减少。用于插入目标核酸(尤其是DNA)的寡核苷酸，还可以包含测序接头。

本领域技术人员清楚地知道，所用转座酶有效地将核酸(尤其是DNA)整合到目标核酸(尤其是目标DNA)中所需的时间，可根据多种参数而变化，如缓冲成分、温度等。因此，本领域技术人员清楚地知道，可以测试/应用多种孵育时间，以找到最佳孵育时间。其他因素可以是转座体与标签化DNA的比率。在这方面，最佳是指，考虑到整合效率和/或执行本发明方法所需时间的最佳时间。

第三寡核苷酸的第一序列可以备选地与存在于第二反应区室中的第四寡核苷酸的第一序列互补。因此，第三寡核苷酸可包含与第四寡核苷酸的第一序列互补的第一序列，其中第四寡核苷酸进一步包含与第二寡核苷酸的第三序列至少部分互补的第二序列。第四寡核苷酸的存在将引导第二寡核苷酸以导向第三寡核苷酸。在此实施方案中，然后将第二寡核苷酸连接到第三寡核苷酸。本领域技术人员将了解，在此实施方案中，第二寡核苷酸包含用于连接的5’-磷酸化。在此实施方案中，第四寡核苷酸优选在其3’端封闭以防止DNA聚合酶延伸。因此，在此实施方案中，所述方法还包括DNA连接的步骤，以获得包含第二和第三寡核苷酸的寡核苷酸。在本发明的一个优选实施方案中，连接酶是耐热的。示例性耐热连接酶包括但不限于Ampligase(Lucigen)或Taq HiFi DNA连接酶(New England Biolabs)。这允许使用热变性和冷却，即温度循环，以在不损害连接酶活性的情况下退火第二、第三和第四寡核苷酸。具体而言，含有所述寡核苷酸和连接酶的乳液微滴可在热变性和退火之间经历多轮热循环，以允许有效的退火和连接。

在本发明的方法中，第三寡核苷酸进一步包含含有索引序列的第二序列和含有引物结合位点的第三序列。由此，在本发明的方法中引入第二索引序列。第一和第二索引序列的组合使用使得能够在本发明的方法中达到细胞/细胞核的惊人高通量。这是因为，由于存在两个独立的索引序列，本发明方法中的第二反应区室可包含每微珠一个以上的细胞/细胞核，优选每微珠10个细胞/细胞核。现有技术的方法允许的通量低得多，这是因为理论上细胞/细胞核数量被限制为每微珠1个细胞/细胞核，以确保细胞/细胞核的RNA接收唯一的索引序列。在实践中，由于实际原因，现有技术的方法甚至进一步被限制为每微珠0.1-0.2个细胞/细胞核。

本发明的方法还包括扩增通过组合第二和第三寡核苷酸(可选地与第四寡核苷酸一起)获得的DNA寡核苷酸的步骤。此步骤包括用于掺入包含在第三寡核苷酸中的第二索引序列的线性延伸以及用于测序的扩增。

然后，本发明的方法包括对所扩增的DNA寡核苷酸进行测序的步骤。

本领域技术人员非常了解适合于DNA寡核苷酸测序的方法。用于确定寡核苷酸序列的示例性非限制性方法包括：例如核酸测序方法(例如Sanger双脱氧测序)、大规模平行测序方法，如焦磷酸测序、可逆染料终止剂测序、质子检测测序、磷连接的荧光核苷酸测序、或纳米孔测序。

具体而言，所产生的扩增寡核苷酸的测序，可采用常规基于Sanger的双脱氧核苷酸测序方法，或采用新型大规模平行测序方法(“下一代测序”)，如Roche(454技术)、Illumina(例如Solexa技术、合成测序技术)、ABI(固体技术)、Oxford Nanopore(例如nanopore测序)或Pacific Biosciences(SMRT技术)的商业化方法。优选使用IlluminaNextSeq 500/550平台、Illumina NovaSeq 6000平台或NextSeq 1000/2000平台进行测序。

本发明方法的多个步骤涉及寡核苷酸产生和/或扩增。此类反应以及测序反应可包括引物序列的使用。

因此，本发明涉及能够特异性扩增本发明寡核苷酸的寡核苷酸。因此，在本发明此意义中的寡核苷酸可具有用作扩增起点，即能够用作引物的能力。此类寡核苷酸可包含寡聚核糖或脱氧核糖核苷酸，其与寡核苷酸链之一的区域互补。根据本发明，本领域技术人员将容易理解，术语“引物”还可指一对引物，基于寡核苷酸的互补区域而言，其彼此方向相反，从而使得能够例如通过聚合酶链反应(PCR)进行扩增。在将引物用于本发明方法之前，通常考虑对其进行纯化。此类纯化步骤可包括HPLC(高效液相色谱)或PAGE(聚丙烯酰胺凝胶电泳)，且为本领域技术人员已知。

当在引物的上下文中使用时，术语“特异性”意味着优选地或专一地扩增本文所述的所希望的寡核苷酸。因此，根据本发明的引物优选为与寡核苷酸中对该分子而言独特的区域结合的引物。根据本发明，在一对引物的情况下，可以是，该对引物中的一个在上述意义上是特异的，或者该对引物中的两个都是特异的。

聚合酶使用引物的3’-OH端，通过连续掺入核苷酸来实现延长。优选地，本发明的引物或引物对用于模板寡核苷酸上的扩增反应。术语“模板”是指包含目标寡核苷酸序列的任何来源或组成的寡核苷酸或其片段。已知引物的长度取决于多个不同的参数(Gillam,Gene 8(1979),81-97；Innis,PCR Protocols:A guide to methods and applications,Academic Press,San Diego,USA(1990))。优选地，引物应仅与目标寡核苷酸的特定区域杂交或结合。可以通过以下公式计算在统计学上仅与目标核苷酸序列的一个区域杂交的引物的长度：(1/4)^x(其中x是引物的长度)。然而，已知与互补模板链完全匹配的引物必须至少为9个碱基对长度，否则无法产生稳定的双链(Goulian,Biochemistry 12(1973),2893-2901)。本发明也考虑，可以使用基于计算机的算法来设计能够扩增DNA的引物。还可以考虑对引物或引物对进行标记。例如，标记物可以是放射性标记，如³²P、³³P或³⁵S。在本发明的一个优选实施方案中，标记是非放射性标记，例如地高辛、生物素和一种或多种荧光染料。

本发明还涉及微流控系统，尤其是微流控微滴发生器在本发明方法中的用途。微流控系统尤其可用于产生(微流控)微滴或将材料递送到基于孔或室的设备中，如递送到基于微流控孔的设备中。此类设备在本领域是已知的，尤其是基于集成流体电路技术的设备。此类设备的供应商的一个实例是Fluidigm Corporation/U.S.A.。因此，产生(微流控)微滴或将材料递送到基于孔或室的设备中也可以是本发明方法的一部分。示例性微滴发生器是10xGenomics(Pleasanton,CA)提供的Chromium^TM控制器。其他实例包括Drop seq和inDrop平台。此外，本发明可用于提高基于亚纳升孔的平台的通量，这样的平台如CytoSeq(Fan等,2015)、Seq well(Gierahn等,2017)、Microwell Seq(Han等,2018)或带有内置反应区室的微流控系统。一个兼容的商业版本是上述BD Rhapsody^TM系统，在该系统上可以展示本发明的方法以提供令人惊讶的结果。

本发明的方法还可以包括通过细胞哈希进行多路复用的附加层。

如本文所提供，本发明的方法可用于合成生物学。例如，本发明的方法可与基因panel读出一起使用(例如，特异性测定的基因数为10到100，而不是整个转录组读出)。因此，本发明提供了一种使用单细胞RNA-seq(本发明的方法)替代流式细胞术作为癌症、免疫病症和许多其他疾病的关键诊断测定(尤其是当与条码化的抗体和/或TCR/BCR免疫库谱图分析组合时)的装置。在再一考虑的实施方案中，本发明的方法与向导RNA富集相结合，用于大规模CRISPR单细胞测序(CROP-seq、Perturb-seq等——使用CRISPR敲除、CRISPR激活、CRISPR敲减、天然或合成序列的CRISPR敲入、CRISPR表观基因组编辑、饱和诱变或扰动步骤的类似测定)以及假说驱动的基因集/途径读出。

进一步提供，将本发明的方法与WO 2017/025594中描述的ChIPmentation组合作为基于相同技术的分开测定试验(例如用于单细胞表观基因组分析)，或与向导RNA富集组合(例如用于基于表观基因组的CROP-seq筛选)。

本发明的方法还可用于药物发现、药物筛选、化合物测试和/或靶标验证。通过本发明的方法能够例如直接从对照细胞的转录组获得相关的筛选特征(signatures)，而不需要关于药物和/或测试化合物的作用机制的先前知识。此外，本发明方法的单细胞分辨率允许评估所筛选的药物/测试化合物对复杂混合物(例如，但不限于PBMC)中不同细胞类型的影响，或对来自不同供体的细胞混合物的影响。

因此，本文提供用于鉴定和/或筛选能够改变细胞转录组的测试化合物的方法，该方法包括以下步骤：

(a)使包含含有RNA的第一寡核苷酸的细胞和/或细胞核与一种或多种待鉴定和/或筛选的测试化合物接触；

(b)透化处理所述包含含有RNA的第一寡核苷酸的细胞和/或细胞核；

(c)使(b)的细胞和/或细胞核在第一反应区室中与含有DNA的第二寡核苷酸组合，其中该第二寡核苷酸至少包含与该第一寡核苷酸的序列至少部分互补的第一序列、含有索引序列的第二序列以及含有引物结合位点的第三序列，其中所述组合在允许该第二寡核苷酸的第一序列与该第一寡核苷酸退火的条件下进行；

(d)在所述细胞/细胞核中反转录第一寡核苷酸以获得延长的第二寡核苷酸；

(e)使步骤(d)中获得的细胞和/或细胞核与在第二反应区室中与微珠结合的第三寡核苷酸组合，其中该第三寡核苷酸包含：

(i)与步骤(c)中所用的第二寡核苷酸中包含的第四序列对应的第一序列；或

其中对于(i)，所述方法进一步包括在步骤(d)之后和步骤(e)之前的第二链DNA合成的步骤，其中对于(ii)，所述方法进一步包括DNA连接的步骤；

其中，该第三寡核苷酸进一步包含含有索引序列的第二序列和含有引物结合位点的第三序列；

(f)扩增步骤(e)中获得的DNA寡核苷酸；

(g)对所扩增的DNA寡核苷酸进行测序；和

(h)如果测序的DNA寡核苷酸不同于通过无步骤(a)的方法获得的测序DNA寡核苷酸，则将该测试化合物鉴定为能够改变细胞转录组的化合物。

在上述方法中，细胞和/或细胞核中包含的所述“含有RNA的第一寡核苷酸”可以是自然存在的RNA，但也可以是人为合成的、嵌合的和/或人工RNA构建体，如CRISPR技术中使用的向导RNA和/或shRNA，用于例如基因转移的病毒或病毒衍生的核酸，等。此类“含有RNA的第一寡核苷酸”的非限制性实例包括：细胞的天然存在的转录组，其他天然存在或人工的小RNA，如tRNA、snRNA、snoRNA、micro RNA、rRNA，合成生物学工具，如核糖开关(Riboswitch)和RNA适体(RNA aptamer)，CRISPR技术中使用的RNA组合，如同一细胞中的向导RNA或shRNA组合，例如(共同必要性，联合作用)，合成基因和合成诱变基因文库，RNA条形码，例如标记来源样本、空间位置、处理、转基因的条形码，来自谱系追踪实验的RNA条形码，连接到给定细胞中表达的抗体的RNA条形码，标记组织切片上位置的RNA条形码，标记细胞间相互作用的RNA条形码，(例如通过抗体)标记(细胞表面)蛋白质、细胞内蛋白质或修饰氨基酸残基的RNA条形码，用作生物过程的合成读取器的RNA条形码，病毒RNA，例如以评估细胞感染状态，免疫受体，如嵌合抗原受体或T细胞受体，(合成)转录因子，(合成)归巢受体等。

与本发明中提供的所有手段和方法一样，本文中提供的用于鉴定和/或筛选能够改变细胞转录组的测试化合物并包括步骤“透化处理包含含有RNA的第一寡核苷酸的细胞和/或细胞核”(上文中的步骤(b))的该方法，也可包括附加的可选步骤，其中固定所述细胞/细胞核。细胞/细胞核的固定在本领域中是已知的，并且包括，例如但优选，化学交联(例如，用甲醛或醇，如甲醇)。该固定步骤可包括将待在本文所提供方法的上下文中分析的RNA固定在其细胞背景中或其上，例如，固定在细胞/细胞核的结构成分上等。这种可选的固定步骤还具有这样的优点，即所述细胞/细胞核可以保存/保留和/或这些固定的细胞/细胞核可以在稍后的时间点使用/分析。这种保存/保留可包括冷冻所述透化和固定的细胞/细胞核。

待在上述方法中筛选/验证/鉴定和/或使用的一种或多种测试化合物可选自小分子、大分子、RNA、DNA和其他化合物，包括化学化合物和/或药物。但生物材料和/或病原体也可以是待在本发明方法中筛选/鉴定和/或使用的“测试化合物”。此类生物材料和/或病原体可包括细菌、病毒、真菌和/或其他生物材料，如多细胞病原体，如线虫、水母等。术语“生物材料和/或病原体”还包括所述材料/病原体的部分，例如蛋白质、肽、核酸、此类材料/病原体的混合物、提取物等。测试化合物也可以是导致遗传扰动，如细胞和/或细胞核基因组中的CRISPR修饰和/或编辑，的化合物或化合物组。

待在本发明方法中使用的“测试化合物”的其他实例包括但不限于，导致给定细胞中状态修饰和/或改变的化合物，如改变分化状态或导致凋亡的化合物。“测试化合物”也可以是待引入细胞/细胞核的mRNA、质粒、病毒载体等。此类化合物也可用于例如基因转移。这种“编码”核酸和/或基因转移穿梭分子可以编码，例如但不限于，转录因子、表观遗传调节因子、激酶、控制生物体或组织内细胞定位的归巢受体、免疫共刺激结构域(如41BB、CD27、CD28、OX40、CD2或CD40L)或免疫共抑制结构域(如BTLA、CTLA4、LAG3、LAIR1、PD-1、TIGIT或TIM3)。此外，受体/配体系统的成分(或其分离部分，如胞外结构域和/或可溶性部分)也可以用作“测试化合物”。此类受体/配体系统的非限制性实例包括，例如，信号通路和/或免疫调节通路的分子，如PD-1/PD-L1/PD-L2系统、或CD40/CD40L系统、B7-1、B7-2等。

从当前描述和本发明的上下文显而易见，上文提供的“测试化合物”的实例不限于上文讨论的“用于鉴定和/或筛选能够改变细胞转录组的测试化合物的方法”。这些“测试化合物”也可用于本文提供的用于寡核苷酸测序的一般方法，即本发明的scifi-RNA-seq方法及其变形。

本发明的方法还可以组合多种步骤，如本文和所附实施例中所示。特别优选的是本发明的方案，如EXT-TN5(实施例3)、LIG-TS(实施例4)、EXT-RP(实施例5)、LIG-RP(实施例6)和/或EXT-TS(实施例7)。与现有方法相比，本发明手段和方法的这些方案中的每一个，对于增加独特标记的细胞的数量以及由此增加通量，均是特别有用的。

因此，在一个具体实施方案中，本发明涉及用于对包含RNA的寡核苷酸进行测序的方法(EXT-TN5)，该方法包括以下步骤：

(b)使(a)的细胞和/或细胞核在第一反应区室中与含有DNA的第二寡核苷酸组合，其中该第二寡核苷酸至少包含与该第一寡核苷酸的序列至少部分互补的第一序列、含有索引序列的第二序列以及含有引物结合位点的第三序列，其中所述组合在允许该第二寡核苷酸的第一序列与该第一寡核苷酸退火的条件下进行；

(d)合成第二DNA链，并使用转座酶，尤其是Tn5转座酶，在所合成的第二链DNA的5’端引入无模板核苷酸；

(e)使步骤(d)中获得的所述细胞和/或细胞核在第二反应区室中与微珠结合的第三寡核苷酸组合，其中该第三寡核苷酸包含与步骤(b)中所用的第二寡核苷酸中包含的第四序列对应的第一序列，且其中该第三寡核苷酸进一步包含含有索引序列的第二序列和含有引物结合位点的第三序列；

(f)扩增步骤(e)中获得的DNA寡核苷酸；和

(f)对所扩增的DNA寡核苷酸进行测序。

在一个具体实施方案中，本发明涉及用于对包含RNA的寡核苷酸进行测序的方法(LIG-TS)，该方法包括以下步骤：

(c)在所述细胞/细胞核中反转录第一寡核苷酸以获得延长的第二寡核苷酸，其中将无模板核苷酸添加到第二寡核苷酸的3’端；

(d)使步骤(c)中获得的所述细胞和/或细胞核在第二反应区室中与微珠结合的第三寡核苷酸组合，其中该第三寡核苷酸包含与第四寡核苷酸的第一序列互补的第一序列，其中该第四寡核苷酸进一步包含与第二寡核苷酸的第三序列至少部分互补的第二序列；其中该第三寡核苷酸进一步包含含有索引序列的第二序列和含有引物结合位点的第三序列；

(e)使用DNA连接酶，优选耐热DNA连接酶连接第二和第三寡核苷酸；

(f)通过添加包含RNA核苷酸的引物并添加反转录酶来延伸连接的寡核苷酸；

(g)扩增步骤(f)中获得的DNA寡核苷酸；和

(h)对所扩增的DNA寡核苷酸进行测序。

在一个具体实施方案中，本发明涉及用于对包含RNA的寡核苷酸进行测序的方法(EXT-RP)，该方法包括以下步骤：

(d)合成第二DNA链；

(e)使步骤(d)中获得的所述细胞和/或细胞核在第二反应区室中与微珠结合的第三寡核苷酸组合，其中该第三寡核苷酸包含与在步骤(b)中使用的第二寡核苷酸中包含的第四序列对应的第一序列；且其中该第三寡核苷酸进一步包含含有索引序列的第二序列和含有引物结合位点的第三序列；

(f)加入包含随机核苷酸的引物用于线性延伸；

(g)扩增步骤(f)中获得的DNA寡核苷酸；和

(h)对所扩增的DNA寡核苷酸进行测序。

在一个具体实施方案中，本发明涉用于对包含RNA的寡核苷酸进行测序的方法(LIG-RP)，该方法包括以下步骤：

(e)使步骤(d)中获得的所述细胞和/或细胞核在第二反应区室中与微珠结合的第三寡核苷酸组合，其中该第三寡核苷酸包含与第四寡核苷酸的第一序列互补的第一序列，其中该第四寡核苷酸进一步包含与第二寡核苷酸的第三序列至少部分互补的第二序列；其中该第三寡核苷酸进一步包含含有索引序列的第二序列和含有引物结合位点的第三序列；

(f)使用DNA连接酶，优选耐热DNA连接酶连接第二和第三寡核苷酸；

(g)加入包含随机核苷酸的引物用于线性延伸；

(h)扩增步骤(g)中获得的DNA寡核苷酸；和

(i)对所扩增的DNA寡核苷酸进行测序。

在一个具体实施方案中，本发明涉用于对包含RNA的寡核苷酸进行测序的方法(EXT-TS)，该方法包括以下步骤：

(c)在所述细胞/细胞核中反转录第一寡核苷酸以获得延长的第二寡核苷酸，其中将无模板核苷酸添加到第二寡核苷酸的3’端，并且其中添加包含与所添加的无模板核苷酸互补的RNA核苷酸的引物用于延伸；

(d)使步骤(d)中获得的所述细胞和/或细胞核在第二反应区室中与微珠结合的第三寡核苷酸组合，其中该第三寡核苷酸包含与在步骤(b)中使用的第二寡核苷酸中包含的第四序列对应的第一序列；其中该第三寡核苷酸进一步包含含有索引序列的第二序列和含有引物结合位点的第三序列；

(e)扩增步骤(d)中获得的DNA寡核苷酸；和

(f)对所扩增的DNA寡核苷酸进行测序。

本发明的上述方案，如EXT-TN5(也在所附实施例3中举例说明)、LIG-TS(也在所附实施例4中举例说明)、EXT-RP(也在所附实施例5中举例说明)、LIG-RP(也在所附实施例6中举例说明)和EXT-TS(也在所附实施例7中举例说明)，也可以可选地包括附加步骤，其中在进行下面的步骤之前，固定包含含有RNA的第一寡核苷酸的经透化的细胞和/或细胞核。因此，如果需要，可在步骤(a)之后进行可选的固定步骤，如针对上文提供的scifi-RNA-seq方法及其变形描述的。

本发明还涉及试剂盒，尤其是研究试剂盒。本发明的试剂盒包含本发明的第二寡核苷酸，优选连同关于本发明方法应用的说明书。本发明的试剂盒可进一步包含高活性(hyperactive)、优选地也加载了寡核苷酸的转座酶和/或用于第二链合成的试剂。本发明的试剂盒还可包含即用形式的转座酶。还可以包含本发明中使用的其他寡核苷酸中的一种或多种，例如第四寡核苷酸和/或耐热连接酶。本发明的试剂盒尤其可用于诸如RNA分子测序等研究应用中。

在本发明的一个特别优选实施方案中，本发明(在上下文中制备)的试剂盒或本发明的方法和用途可进一步包括或配备说明书。例如，该说明书可指导技术人员(如何)将本发明的试剂盒用于本文提供的以及根据本发明的诊断用途。尤其是，该说明书可包括使用或应用本文提供的方法或用途的指南。

本发明(在上下文中制备)的试剂盒还可包括对于实施本发明的方法和用途而言合适/需要的物质/化学品和/或设备。例如，此类物质/化学品和/或设备可以是用于稳定和/或储存和/或使得能够进行酶促反应或终止酶促反应的溶剂、稀释剂和/或缓冲剂，本文提供的用途所需的(一种或多种)化合物，如用于稳定和/或储存包含在本发明试剂盒中的化学试剂和/或转座酶。

在科学部分举例说明了其他实施方案。附图提供了本发明的图示举例说明。然而，实施例和附图中所示的实验数据不视为限制性的。其中包含的技术信息构成本发明的一部分。

因此，本发明还涵盖附图中单独示出的所有其他特征，尽管在之前或之后的描述中可能没有描述这些特征。此外，可以从本发明的其他方面的主题中具体放弃(disclaim)附图和说明书中描述的实施方案的单个可选方案及其特征的单个可选方式。

附图简述

图1：单细胞组合索引与流体索引(scifi)将整个转录组的预索引化与基于微滴的单细胞RNA-seq组合

a)使用微流控微滴发生器的基于微滴的标准scRNA-seq，在微滴应用上是高度低效的。大多数微滴都含有条码化微珠和反转录试剂(因此是功能齐全的)，但未接收细胞；此外，微滴内的试剂足以对一个以上的细胞进行条码化。b)scifi-RNA-seq开启了微流控微滴发生器的全部潜力。在微流控运行之前，全转录组在经透化的细胞或细胞核内通过反转录被预索引化(字母A到F表示第1轮条形码)。差异条码化的细胞/细胞核的池(pool)以例如每微滴约10个的填充率加载。同一乳液微滴内的细胞被相同的微流控(第二轮)条形码标记，但仍然可以通过其转录组(第1轮)索引进行区分。

图2：基于线性延伸和定制Tn5转座体的scifi-RNA-seq(EXT-Tn5方案)

在完整的细胞或细胞核内，mRNA被反转录。通过对RNA模板产生切口、用聚合酶延伸和用连接酶封闭切口来进行第二链合成。用定制的i7-Only Tn5转座体，对双链cDNA进行标签化(tagment)。在第二反应区室中，通过聚合酶的线性延伸，引入第2轮索引。最后的文库通过PCR富集并测序。

图3：基于线性延伸和随机引发的scifi-RNA-seq(EXT-RP)

在完整的细胞或细胞核内，反转录mRNA。通过对RNA模板产生切口、用聚合酶延伸和用连接酶封闭切口来进行第二链合成。在第二反应区室中，通过聚合酶的线性延伸，引入第2轮索引。通过随机引发(random priming),引入P7测序接头。最后的文库通过PCR富集并测序。

图4：基于线性延伸和模板转换的scifi-RNA-seq(EXT-TS)

在完整的细胞或细胞核内，在允许添加无模板C碱基的条件下反转录mRNA。通过模板转换，延伸cDNA分子3’端。在第二反应区室中，通过延伸TSO富集引物，产生双链cDNA，并通过聚合酶延伸，引入第2轮条形码。然后，通过PCR富集cDNA文库，并可通过已建立的方法(如市售或定制的转座体、片段化后接头连接、或随机引发)进一步处理。最后的文库通过PCR富集并测序。

图5：基于热循环连接和模板转换的scifi-RNA-seq(LIG-TS方案)

在完整的细胞或细胞核内，在允许添加无模板C碱基的条件下，用5’-磷酸化反转录引物反转录mRNA。在第二反应区室中，通过用连接酶、优选耐热连接酶连接索引化的寡核苷酸，以引入第2轮条形码。这种连接需要(优选在3’端封闭的)相容的桥接寡核苷酸。然后，通过模板转换，在3’端延伸cDNA分子。然后，通过PCR富集cDNA文库，并可通过已建立的方法(如市售或定制的转座体、片段化后接头连接、或随机引发)进一步处理。最后的文库通过PCR富集并测序。

图6：基于热循环连接和随机引发的scifi-RNA-seq(LIG-RP方案)

在完整的细胞或细胞核内，用5'-磷酸化的反转录引物，反转录mRNA。在第二反应区室中，通过用连接酶、优选耐热连接酶连接索引化的寡核苷酸，以引入第2轮条形码。这种连接需要(优选在3’端封闭的)相容的桥接寡核苷酸。然后，通过随机引发，在3’端引入P7测序接头。然后，通过PCR富集cDNA文库，并可通过已建立的方法(如市售或定制的转座体、片段化后接头连接、或随机引发)进一步处理。最后的文库通过PCR富集并测序。

图7：a)通过省略裂解试剂，可以在乳液微滴内成像完整细胞核，确认微流控微滴发生器过载的可行性。图中显示了含有1到10个细胞核的代表性微滴。b)过载将填充了细胞核的微滴的百分比从16.4％(10x Genomics最大值)提高到95.5％(每通道使用153万个细胞核，过载100倍)。c)过载导致每个微滴的平均细胞核数以受控方式增加，同时保持所需的随机加载分布。

图8：a)对于确定的第1轮条形码集，预期的双联体率(doublet rate)随每通道的细胞/细胞核加载浓度的变化。以零膨胀泊松分布，建模细胞/细胞核填充率。b)由于微流控第2轮条形码的大数量，2级scifi超过了3级组合索引的条形码组合。

图9：a)用scifi-RNA-seq方案预处理的细胞/细胞核在微流控运行中是稳定的。以对数标度，对条形码排序vs.测序读段作图，鉴定将细胞/细胞核与噪音分开的特征性拐点。结果表明，scifi-RNA-seq可以高效回收输入的细胞/细胞核。b)第1轮转录组索引可以将每个微滴的多个细胞/细胞核去卷积为各自的单细胞转录组。仅基于微流控第2轮条形码(左图)，或基于第1轮和第2轮条形码的组合(右图)，对人(Jurkat)和小鼠(3T3)细胞和细胞核的1:1混合物的125,000个细胞核/细胞进行处理和多路分解。

图10：a)显示每个细胞/细胞核的唯一分子标识符(UMI)作为测序覆盖度的函数的性能图。渐变显示唯一读段的分数。b)将每个细胞/细胞核的UMI相对于在相应微滴中包含的细胞/细胞核的数量作图，表明对于每微滴大数量的细胞/细胞核，文库的复杂度并没有降低。

图11：a)用于处理人原代T细胞的固定和透化条件的优化。一个冻融循环对数据质量没有负面影响；因此，取样和文库制备可以在不同日或在不同实验室进行，这提高了该测定的可用性和灵活性。b)在Fuchs Rosenthal计数室中显示反转录和第二链合成后的原代人T细胞核。使用4％甲醛固定、-80℃冷冻、洋地黄皂苷和吐温-20透化的优化方案来稳定细胞核。c)将检测到的细胞条形码(x轴)按照每个条形码的测序读段(y轴)进行排序。特征性拐点表明数据集中包含大约250,000个细胞。在适度的测序覆盖度下，32,745个细胞具有超过100个UMI，124,474个细胞具有超过50个UMI。d)我们的人原代T细胞数据集包含复杂的转录组特征。10,000个测序读段对应于1,332个UMI和616个基因。两个图都不是饱和的，更深度的测序将在每个细胞中回收更多的UMI。

图12：a)用1x细胞核缓冲液代替细胞核悬液并省略还原剂B，可以显示在乳液微滴内完整的凝胶珠。图中显示了基于评估的1,265个微滴图像的微珠填充率。b)通过省略裂解试剂，可以使用标准显微镜对完整细胞核进行成像。对于校正焦平面(correct focalplane)中的微滴，这允许精确计数每个微滴的细胞核数。对于每个通道15,300、191,000、383,000、765,000和1,530,000个细胞/细胞核的加载浓度，结果总结为直方图。c)尽管微流控装置的实质性过载，我们在所有测试条件下仍然都获得了稳定的微滴乳液。d)细胞/细胞核加载计算建模为零膨胀泊松函数。e)细胞核加载显示超泊松特性。f)通过Monte Carlo模拟scifi方案，独立估计的细胞双联体率。

图13：a)在七个qPCR反应中富集含有250,000个细胞的原代人T细胞文库。基于SYBR Green信号监测扩增，反应达到饱和后立即从热循环仪中移出(循环14)。b)最终scifi-RNA-seq文库的典型大小分布。图中显示了由250,000个原代人T细胞制备的文库。c-d)来自Illumina NextSeq 500和NovaSeq 6000平台下一代测序运行的关键指标。e)Illumina NovaSeq 6000平台上已占用簇位置(occupied cluster positions)的百分比与通过-过滤(Pass-Filter)读段的百分比或数目之间的关系。颜色编码图案化流动槽(patterned flowcell)的类型(SP，S2)。此信息旨在帮助用户找到用于scifi-RNA-seq文库的最佳加载。f)在关键scifi-RNA-seq实验上的NGS性能统计。

图14：a)与基于平板的第1轮条形码或与微流控第2轮条形码具有完全匹配的总读段的分数。单独计算所有检测到的条形码(包括背景)、或对应于真实细胞的条形码(根据实验，前125,000或250,000个)。b)匹配的条形码显示碱基1到11的预期随机碱基分布，并检测到位置12处的固定V(非T)碱基。与参照条形码不匹配的序列偏向于A。c)孔特异性第1轮条形码的丰度在七个scifi-RNA-seq实验中均匀分布。d)在总共六次scifi-RNA-seq运行中，与人或小鼠转录组唯一对齐的读段的比例。e)在包含人(Jurkat)和小鼠(3T3)细胞和细胞核的1:1混合物的scifi-RNA-seq实验中，细胞核的表现略好于全细胞。f)物种混合实验中，细胞双联体率vs.转录组纯度阈值。

图15：a)对从人Jurkat细胞分离的200,000个细胞核进行反转录反应(无模板转换的Superscript IV、无模板转换的Maxima H Minus、和带模板转换的Maxima H Minus)。然后，通过流式细胞术和荧光计数微珠，对完整细胞核的数量进行定量，并显示在柱形图中。“仅微珠”(Beads_only)的条件为仅包含计数微珠的阴性对照反应。在一个类似的实验中，将细胞核重悬在1x Ampligase缓冲液(Lucigen)、1x Taq HiFi缓冲液(NEB)或1x Nucleis缓冲液(10xGenomics)中，并在4℃下保持1小时。在这些条件下，细胞核惊人地稳定，但在热连接反应的热循环中裂解(这是为了使细胞大分子释放到乳液微滴中)。b)体外转录的多腺苷酸化BFP mRNA用5'-磷酸化的scifi-RNA-seq LIG反转录引物进行反转录，并用HiFi Taq连接酶进行热连接。在qPCR反应中扩增了两个扩增子：“阳性”是RT反应的阳性对照，其中两个引物均结合BFP，“测试”使用BFP-FWD引物和部分P5引物，只能扩增成功连接的产物。反应在没有桥接寡核苷酸、有不匹配的桥接寡核苷酸或有正确的桥接寡核苷酸的情况下进行。在无桥接寡核苷酸或使用不匹配的桥接寡核苷酸时，不形成连接产物。这表明热连接反应高度特异。重要的是，在使用正确的桥接寡核苷酸时，预期的连接产物(箭头所指)形成。在使用单细胞ATAC凝胶珠连同还原剂B(均来自10x Genomics)代替可溶性寡核苷酸底物时，情况也是如此。有趣的是，在反转录引物不含磷酸基团或不使用连接酶的条件下，存在一些残留的带标签的产物，可能是由于qPCR反应中的退火导致。然而，该产物的丰度要低得多(13.38和16.74个扩增循环，相对地完整反应为5.93个扩增循环)。c)与b)相同的实验，用于更广泛的引物结合位点(indrop、dropseq、truseq)、耐热连接酶(Taq-HiFi、Ampligase)，有或无还原剂B。上图：对多腺苷酸化BFP mRNA进行的实验。下图：对多腺苷酸化MS2-p65-HSF1mRNA进行的实验。在所有情况下，都形成了期望的连接产物(箭头所指)。

图16：BFP实验：使用在到达转录物末端时添加无模板胞嘧啶碱基的Maxima HMinus反转录酶，用5'-磷酸化的scifi-RNA-seq LIG反转录引物，反转录多腺苷酸化BFPmRNA。提供标签寡核苷酸(tagging oligonucleotide)和匹配的桥接寡核苷酸，用耐热连接酶Taq HiFi对cDNA进行热连接。然后，通过模板转换对cDNA的3'-端加标签。通过PCR富集三个扩增子：test_RT是反转录的阳性对照，它使用对BFP特异的正向和反向引物。test_LIG使用部分P5引物和BFP-FWD引物，只有在成功热连接后才可形成。test_TS使用部分P5引物和TSO富集引物，只有在成功热连接和模板转换后才可形成。总之，对BFP mRNA的实验表明，两种加标签反应(tagging reaction)都是成功的。总RNA实验：对从人Jurkat-Cas9-TCR细胞分离的总RNA进行相同的实验。用部分P5和TSO富集引物进行PCR扩增，得到cDNA文库。这表明，在使用总RNA作为起始材料时，两种加标签反应都有效。单细胞实验：使用从人Jurkat-Cas9-TCR细胞和小鼠3T3细胞分离的细胞核的1:1混合物，进行了类似的实验。在10μl的反应体积内，对每孔10,000个完整细胞核进行反转录反应。随后，将细胞核合并、浓缩并重悬在热连接Master Mix中，所述Master Mix使用Taq HiFi或Ampligase酶及其相应的反应缓冲液，并提供匹配的桥接寡核苷酸。然后，在10x Genomics Chromium控制器芯片E上，将反应混合物中的细胞核连同单细胞ATAC凝胶珠和分配油(partition oil)(10x Genomics)一起，包封入微流控微滴。孵育乳液微滴，然后打破乳液。清洗后的样本进行模板转换和清洗。使用部分P5和TSO富集引物富集cDNA。此实验证明，完整细胞核可以用作起始材料，热连接可以在乳液微滴内进行。

图17：a)自scifi-RNA-seq文库富集特异性转录物的设计。作为一个实例，显示了CRISPR gRNA的富集——但同样的策略可以用于富集特异性转录物(例如T细胞和B细胞的免疫库)、整个基因Panel、或特征条形码。简言之，如前所述，进行反转录和热连接步骤。不需要通过模板转换对3'端加标签。取而代之的是，用带有用于下一代测序的5'-延伸的转录物特异性引物进行PCR富集，引入文库的P7端。b)在(例如，通过CROP seq获得(Datlinger等，2017)的)CRISPR gRNA转录物中，测试对hU6启动子特异的四种不同引物。这四种引物的P7延伸长度不同。此实验证明，可以在单步PCR中引入完整的P7测序接头(引物hU6全Nextera)。c)使用部分P5和hU6全Nextera引物，从获自单细胞scifi-RNA-seq实验(Jurkat-Cas9-TCR和3T3细胞的1:1混合物)的cDNA开始，富集CRISPR gRNA。

图18：基于热连接和模板转换的scifi-RNA-seq的测序结果

a)第1轮和第2轮条形码的精确匹配分数。b)基于热连接和模板转换的典型scifi-RNA-seq实验的实验性能。左：每细胞的读段数相对于每细胞的唯一UMI作图，揭示单细胞转录组高度复杂。右图：在广泛的测序读段中，每细胞的唯一读段率平均约为90％。c)将排序的条形码相对于读段作图，揭示将细胞与背景噪音分开的特征性拐点。在此具体实验中，将15,300个细胞核加载到微流控装置中。d)人(Jurkat-Cas9-TCR)和小鼠(3T3)细胞核的1:1混合物的物种混合图。

图19：a)用scifi-RNA-seq处理人和小鼠细胞核的1:1混合物(分别为Jurkat和3T3)，将15,300、383,000和765,000个细胞核加载到Chromium设备的单个微流控通道中。将按频率排序的所有检测到的条形码相对于每个条形码的唯一分子标识符(UMI)的数量作图，鉴定将细胞核与背景噪音分开的特征性拐点。b)增加细胞核加载浓度，每个微滴(第2轮条形码)的细胞核数(第1轮索引)的分布。显示了每微滴的平均细胞核数和每通道的细胞核加载浓度。

图20：第1轮转录组索引可以将每个微滴的多个细胞核去卷积为相应的单细胞转录组。来自人(Jurkat)和小鼠(3T3)细胞的混合物的765,000个预索引化的细胞核，在单个微流控通道中处理，并仅基于微流控第2轮条形码(左图)或基于第1轮和第2轮条形码的组合(右图)进行多路分解(demultiplex)。饼图显示检测到的物种间碰撞的百分比。

图21：将每细胞的UMI和每细胞的唯一读段分数相对于相应微滴中包含的细胞核数量作图，显示在许多细胞共同占据同一微滴时，单细胞转录组的复杂度并没有加剧。此分析基于最大的人/鼠混合实验进行，其中每微流控通道加载765,000个细胞核。

图22：a)四个人细胞系(HEK293T、Jurkat、K562、NALM6)使用scifi-RNA-seq进行处理，其中每个细胞系使用确定的第1轮条形码集。仅考虑第1轮条形码，该数据集产生了这些细胞系的平均伪混池(pseudo-bulk)RNA-seq谱，如图所示。b)来自该人细胞系混合物的151,788个单细胞转录组使用UMAP算法以2D投影显示，并由对应于细胞系(左)的第1轮条形码、每细胞的UMI(右上)或标记基因表达(右下)着色。

图23：a)热图显示每个细胞系前100个最特异基因的单细胞表达水平。我们在每个细胞系中随机抽取相同数量的单细胞转录组，不进行转录组质量的过滤。b)差异表达基因的基因集富集分析清楚地鉴定这些细胞系。

图24：a)使用scifi-RNA-seq处理有或没有T细胞受体刺激的人原代T细胞，单细胞转录组显示在UMAP投影中(按刺激状态进行颜色编码)。b)TCR刺激诱导的四个基因的表达水平叠加在UMAP投影上。

图25：a)UMAP投影，其中使用Leiden算法，根据通过图聚类(graph-basedclustering)所分配的簇，对单细胞着色。b)根据panel k，对每个簇中差异表达的基因进行基因集富集分析。

图26：a)使用scifi-RNA-seq获得的富集cDNA的典型大小分布。b)为下一代测序做好准备的最终scifi-RNA-seq文库的典型大小分布。

图27：a)沿着scifi-RNA-seq测序读段的DNA碱基分布，显示了UMI、第1轮条形码、第2轮条形码、样本条形码和转录物的特征性序列模式。b)显示每个测序循环的测序质量(Qscore)的热图。

图28：总结作为本研究一部分进行的所有NovaSeq 6000测序运行的表格。使用NovaSeq SP、S1和S2试剂全面测试了scifi-RNA-seq。表格还总结了与样本(i7)条形码、预索引(第1轮)条形码、微流控(第2轮)条形码、以及与所有三种条形码的正确组合完全匹配的读段的百分比。

图29：通过反转录对全转录组进行预索引化后的细胞核回收。scifi-RNA-seq对细胞系和原代材料都实现了高回收率。

图30：在显微镜下计数室中观察，在微流控设备加载之前，具有预索引化的转录组的细胞核。所选图像显示来自人原代T细胞的细胞核。

图31：制备了人(Jurkat)和小鼠(3T3)细胞的混合物，并在甲醇透化的全细胞、新鲜分离的细胞核、以及冷冻保存、再水合和透化的用1％或4％甲醛固定的细胞核上，进行了scifi-RNA-seq。在96孔板上进行反转录期间，每个样本分配一组特定的第1轮条形码。之后，将所有的孔合并，将15,300个细胞/细胞核加载到Chromium装置的单通道中。提供了以下性能图：(i)排序条形码相对于读段、唯一分子标识符(UMI)或检测到的基因作图，区分单细胞转录组和背景噪音；(ii)读段相对于UMI作图；(iii)读段相对于检测到的基因数量作图；(iv)读段相对于唯一读段分数作图；(v)物种混合图，显示与小鼠基因组(x轴)和人基因组(y轴)对齐的每细胞的UMI数量。为了便于比较不同类型的输入材料，性能图的坐标轴在所有条件下使用相同的标尺。

图32：来自人(Jurkat)和小鼠(3T3)细胞混合物的15,300个预索引化细胞核在单微流控通道中处理，并仅基于微流控第2轮条形码(左图)或基于第1轮和第2轮条形码的组合(右图)进行多路分解。尽管在Chromium设备的标准加载浓度(每个通道15,300个细胞核)下，微流控(第2轮)索引提供足够的复杂性来解析单细胞，但第1轮和第2轮条形码的组合仍然可以导致背景噪音的降低。

图33：针对甲醇透化的全细胞、新鲜分离的细胞核、以及冷冻保存、再水合和透化的用1％或4％甲醛固定的细胞核，显示了人和小鼠转录物从转录起始位点(TSS)上游200bp到转录终止位点(TES)下游200bp的覆盖度。新鲜分离的细胞核显示出最强的3'富集。

图34：盒形图总结了不同类型输入材料的序列比对指标：测序的总读段、唯一映射读段的百分比、多映射的百分比、外显子加内含子的比对百分比、外显子的比对百分比和拼接读段的百分比。对于这些比对指标，新鲜分离的细胞核表现出了最好的性能。

图35：对四个具有独特特征的人细胞系组成的1:1:1:1混合物进行的scifi-RNA-seq实验的主成分分析。a)由前30个主成分解释的方差。b)151,788个单细胞的主成分分析(PCA)投影，其中用每细胞的UMI数(上列)以及用表示细胞系的第1轮条形码进行颜色编码。

图36：映射到图22所示UMAP投影上的72个额外的细胞系特异性基因的表达值。

图37：对有或没有T细胞受体刺激的原代人T细胞进行的Scfi RNA-seq实验的主成分分析。a)由前30个主成分解释的方差。b)62,558个单细胞的PCA投影。从上到下，以下变量被映射到这些投影上：每细胞的UMI的对数、簇ID、供体ID和T细胞受体(TCR)刺激状态。

图38：62,558个单细胞的UMAP投影(如图24所示)，其中额外的变量映射到这些投影上：供体ID、每细胞的UMI的对数、每细胞检测到的基因数的对数、每细胞的唯一读段百分比、线粒体表达百分比、和核糖体表达百分比。

图39：a)使用完整细胞、细胞核或甲醇固定的细胞作为输入，用scifi-RNA-seq和10xGenomics v3谱图分析法，平行处理四个人细胞系(HEK293T、Jurkat、K562、NALM6)的等量混合物。为了在平台之间进行直接比较，我们加载了每微流控通道中7,500个细胞/细胞核的标准化浓度。为了评估细胞/细胞核的回收率，我们将按频率排序的所有检测到的条形码相对于每条形码的唯一分子标识符(UMI)数量作图。b)通过降维(UMAP)和Leiden算法聚类，可以容易地鉴定所有样本中的四个细胞系。对于Chromium系统，我们检测到额外的虚假簇，它们是细胞系的混合物(灰色)，在scifi-RNA-seq数据中完全不存在。c)尽管它们的转录物含量非常不同，但细胞系的回收比例相同。d)基于Pearson相关性进行的基因表达谱聚类，其中按细胞系进行样本分组，不考虑所使用的技术或细胞制备方法。

图40：a)表达Cas9的人Jurkat细胞，以阵列形式，用编码48个不同的gRNA的慢病毒构建体转导。在有效的基因组编辑后，将样本分开，用抗CD3/CD28微珠刺激以激活T细胞受体(TCR)或者保留不进行处理。用scifi-RNA-seq处理平板，标记CRISPR扰动，该处理使用特定的第1轮反转录条形码。这一概念验证筛选证明了，scifi第1轮多路复用在基因扰动和数百到数千种条件下的药物筛选中的潜力，这对药物开发非常有用。b)对96个混池转录组进行的主成分分析，其中按处理着色并标记了遗传扰动。TCR途径的关键激活因子用圆圈突出显示。c)将刺激和未刺激的对照细胞之间的前300个差异表达基因用作筛选特征(screening signature)。绘制了该基因集的热图(数据未显示)。基于这些基因的表达，为基因扰动分配TCR激活分数。按TCR激活分数，分选样本。一些基因敲除导致TCR激活分数降低，与未刺激样本类似。d)将基于转录组的TCR激活分数相对于由细胞计数得出的增殖分数作图。e)使用UMAP算法，按TCR处理着色，以2D投影显示来自CRISPR筛选的单细胞转录组。f)分配到对照gRNA或靶向ZAP70、LCK、LAT的gRNA的细胞以黑色突出显示。g)相对于未受刺激的簇鉴定为受刺激的Leiden簇中gRNA的富集。靶向ZAP70、LAT、LCK的gRNA用圆圈突出显示。

图41：a)在Chromium NextGEM平台上重复的微滴过载实验。通过省略裂解试剂，细胞核保持完整，并使用标准显微镜进行成像，从而允许计数每微滴的细胞核数。每通道15,300、191,000、383,000、765,000和1,530,000个细胞核的加载浓度的结果总结为直方图。对于每个加载浓度，显示了评估的微滴图像数量、微滴填充分数和每微滴的平均细胞核数。此外，通过用1x细胞核缓冲液替换细胞核悬液并省略还原剂B，显示乳液微滴中完整的凝胶珠。图中显示了基于1,610张所评估的微滴图像的微珠填充率。b)尽管存在实质性的微滴过载，我们还是在所有测试条件下获得了稳定的微滴乳液。c)针对增加的加载浓度，比较scATAC 1.0和scATAC 1.1(NextGEM平台)之间的微滴直径。每种条件下，测量100个微滴。d)微滴直径显示为直方图。合并不同加载浓度的数据，每平台总共500个微滴。e)细胞核加载显示出类似泊松分布的特性。平均值在x轴上相对于方差在y轴上作图。f)细胞核加载计算建模为零膨胀泊松函数。g)用Markov Chain Monte Carlo(MCMC)抽样，lambda和psi的后验概率分布。h)微滴过载提高了NextGEM平台中填充细胞核的微滴的百分比。i)微滴过载导致每微滴的平均细胞核数以受控方式增加，同时保持所希望的泊松样加载分布。j)对于标准Chromium谱图分析以及对于规定的第1轮条形码集，预期碰撞率作为每通道的细胞/细胞核加载浓度的函数。细胞/细胞核填充率建模为零膨胀泊松分布。

图42：a)按频率排序的细胞条形码相对于每细胞的UMI。b)每细胞的读段相对于每细胞的UMI作图，以评估测序饱和水平。c)每细胞的读段相对于每细胞的唯一读段分数作图，以评估PCR重复和文库复杂性。d)与人基因组的比对相对于与小鼠基因组的比对。e)比对指标，比较scATAC 1.0和1.1(NextGEM)平台。f)按频率排序的细胞条形码相对于每细胞的UMI。g)每细胞的读段相对于每细胞的UMI作图，以评估测序饱和水平。h)每细胞的读段相对于每细胞的唯一读段分数作图，以评估PCR重复和文库复杂性。i)使用Maxima H Minus相对于使用Superscript IV反转录酶进行反转录步骤的scifi-RNA-seq的比对指标。在这两种情况下，模板转换都是用Maxima H Minus反转录酶进行。

图43：用scifi-RNA-seq和Chromium v3单细胞基因表达试剂盒平行处理四个人细胞系(HEK293T、Jurkat、K562、NALM-6)的等量混合物。a)使用UMAP算法，以2D投影显示单细胞转录组，其中每细胞的UMI数量映射在上方。b)使用Leiden算法的单细胞聚类，其中簇ID映射到UMAP投影上。c)对所鉴定的Leiden簇，从ARCHS4数据库获得的细胞系特征(cellline signature)的富集。使用这些结果，可以对簇进行相应细胞系标记，以及鉴定双联体细胞的假簇。d)样本间前100个差异表达基因的重叠百分比。

图44：scifi-RNA-seq与现有的多轮组合索引方法或10x Genomics Chromium平台之间的技术比较。为了进行此比较，获得公知可得的组合索引数据，包括Cao等,2017的数据。图中突出显示了Cao等,2017的数据集。用本发明的方法和10x Genomics Chromium工作流程，平行处理人Jurkat细胞和小鼠3T3细胞的物种混合物。a)按频率排序的所检测到的细胞条形码相对于每条形码的唯一分子标识符(UMI)数量作图。b)UMI计数总结为条形图。c)每细胞的读段相对于每细胞的UMI作图，以评估测序饱和度。d)UMI相对于读段的比率，作为PCR重复的度量。e)每细胞的读段相对于每细胞的唯一读段分数作图。f)唯一读段分数总结为条形图。g)与人基因组的比对相对于与小鼠基因组的比对。h)在最大的实际进行的实验中的条码化组合相对于该实验中使用的测序循环总数。灰线显示了NovaSeq 100循环试剂盒中包含的138个测序循环。i)用于读取复合细胞条形码(不包括UMI)的测序循环。来自连接突出端、引物结合位点和转座酶镶嵌末端的非信息性测序循环以灰色表示，并提供了非信息性测序循环的百分比。总之，可以一致地显示，与Cao等,2017的方法以及所有其他已发表的组合索引方法相比，本发明的方法可以达到更高的数据质量。与10x GenomicsChromium相比，scifi-RNA-seq还提供了提高至少15倍的细胞通量。

图45：a)96个混池转录组(48个CRISPR敲除，2种处理)的扩散映射(diffusionmap)，按处理着色，并标记了基因扰动。T细胞受体(TCR)途径的关键调节因子用圆圈突出显示。敲除ZAP70、LAT和LCK使细胞与未刺激的样本更相似。b)图3c中定义的TCR激活特征，映射到TCR途径激活示意图上。c)刺激组和非刺激组中具有所示gRNA的细胞的富集。这是对增殖的测量，不同于我们基于转录组定义的TCR激活。

除非另有定义，本文中使用的所有技术和科学术语具有本发明所属领域的普通技术人员通常理解的含义。尽管在本发明的实施或测试中可以使用与本文所述类似或等同的方法和材料，但下文描述了合适的方法和材料。如有冲突，以本说明书(包括定义)为准。此外，所述材料、方法和实施例仅是举例说明性的，并非旨在限制。

除非另有说明，否则本发明的方法和技术通常按照本领域公知的常规方法及本说明书中引用和讨论的多种一般性的和更具体的参考文献中的描述进行。例如，参见Sambrook等,Molecular Cloning:A Laboratory Manual,第2版,Cold Spring HarborLaboratory Press,Cold Spring Harbor,N.Y.(1989)和Ausubel等,Current Protocolsin Molecular Biology,Greene Publishing Associates(1992)，以及Harlow和LaneAntibodies:A Laboratory Manual,Cold Spring Harbor Laboratory Press,ColdSpring Harbor,N.Y.(1990)。

虽然本发明已在附图和前述描述中详细举例说明和描述，但此类举例说明和描述应视为说明性或示范性的，而非限制性的。应理解，普通技术人员可在以下权利要求的范围和精神内进行更改和修改。本发明尤其涵盖具有来自上述和下述不同实施方案的特征的任何组合的其他实施方案。

本发明还涵盖附图中单独显示的所有其他特征，尽管在以上或以下描述中可能未对其进行描述。此外，可以从本发明的其他方面的主题中具体放弃在附图和说明书中描述的实施方案的单个可选方案及其特征的单个可选方式。

此外，在权利要求书中，“包含”一词不排除其他元件或步骤，不定冠词“a”或“an”不排除复数。权利要求书中所述及的多个特征的功能，可以由单个单元实现。与属性或值相关的术语“基本”、“约”、“大约”等，也定义确切的该属性或该值。权利要求书中的任何参考标记都不应解释为构成对范围的限制。

实施例1-细胞/细胞核的制备

1.1从人和小鼠细胞系制备透化的全细胞

500万个细胞用10ml冰冷的1x PBS(Gibco目录号14190-094，离心：300rcf，5分钟，4℃)洗涤，并在-20℃下在5ml冰冷的甲醇(Fisher Scientific目录号M/4000/17)中固定10分钟。再用5ml冰冷的PBS-BSA-SUPERase(补充了1％w/v BSA(Sigma目录号A8806-5)和1％v/v SUPERase-In RNase抑制剂(Thermo Fisher Scientific目录号AM2696)的1x PBS)洗涤两次(离心：300rcf，5分钟，4℃)后，将透化的细胞重悬在200μl冰冷的PBS-BSA-SUPERase中，并通过细胞过滤器(40μM或70μM，取决于细胞大小)过滤。在CASY设备(

System)上使用10μl样本进行细胞计数，并用冰冷的PBS-BSA-SUPERase稀释至5000个细胞/μl。立即进行反转录步骤。

1.2从人和小鼠细胞系制备新鲜细胞核

500万个细胞用10ml冰冷的1x PBS(Gibco目录号14190-094，300rcf，5分钟，4℃)洗涤。通过将细胞重悬在500μl冰冷的细胞核制备缓冲液(10mM Tris-HCl pH 7.5(Sigma目录号T2944-100ML)、10mM NaCl(Sigma目录号S5150-1L)、3mm MgCl2(Ambion目录号AM9530G)、1％w/v BSA(Sigma目录号A8806-5)、1％v/v SUPERase-In RNase抑制剂(ThermoFisher Scientific目录号AM2696)、0.1％v/v吐温-20(Sigma目录号P7949-500ML)、0.1％v/vIGEPAL CA-630(Sigma目录号I8896-50ML)、0.01％v/v洋地黄皂苷(Promega目录号G944A))中，然后在冰上孵育5分钟来制备细胞核。通过加入5ml冰冷的细胞核洗涤缓冲液(10mM Tris-HCl pH 7.5、10mM NaCl、3mM MgCl2、1％w/v BSA、1％v/v SUPERase-In Rnase抑制剂、0.1％v/v吐温-20)终止质膜裂解。通过离心(500rcf，5分钟，4℃)收集细胞核，重悬在200μl冰冷的PBS-BSA-SUPERase(补充了1％w/v BSA和1％v/v SUPERase-In Rnase抑制剂(20U/μl，目录号)的1xPBS)中，并通过细胞过滤器(40μM或70μM，取决于细胞大小)过滤。在CASY设备(

1.3从原代细胞制备细胞核并进行甲醛固定和透化

500万个原代细胞用10ml冰冷的1x PBS(Gibco目录号14190-094，离心：300rcf，5分钟，4℃)洗涤。通过将细胞重悬在500μl不含洋地黄皂苷和吐温-20的冰冷细胞核制备缓冲液(10mM Tris-HCl pH 7.5((Sigma目录号T2944-100ML)、10mM NaCl((Sigma目录号S5150-1L)、3mM MgCl2(Ambion目录号AM9530G)、1％w/v BSA(Sigma目录号A8806-5)、1％v/v SUPERase-In RNase抑制剂(Thermo Fisher Scientific目录号AM2696)、0.1％v/vIGEPAL CA-630(Sigma目录号I8896-50ML))中，然后在冰上孵育5分钟来制备细胞核。通过加入5ml不含吐温-20的细胞核洗涤缓冲液(10mM Tris-HCl pH 7.5、10mM NaCl，3mMMgCl2、1％w/v BSA、1％v/v SUPERase-In Rnase抑制剂)终止质膜裂解。通过离心(500rcf，5分钟，4℃)收集细胞核，并在5ml冰冷的含4％甲醛(Thermo Fisher Scientific目录号28908)的1x PBS中冰上固定15分钟。收集固定的细胞核(500rcf，5分钟，4℃)，将沉淀重悬在1.5ml冰冷的不含吐温-20的细胞核洗涤缓冲液中，并转移到1.5ml管中。在用1.5ml冰冷的不含吐温-20的细胞核洗涤缓冲液再次洗涤(500rcf，5分钟，4℃)后，将固定的细胞核重悬在200μl不含吐温-20的细胞核洗涤缓冲液中，在液氮中快速冷冻并保存在-80℃。

为了用scifi-RNA-seq进行处理，将冷冻样本在37℃水浴中解冻1分钟，然后立即放在冰上。离心(500rcf，5min，4℃)后，将固定的细胞核重悬在250μl冰冷的透化缓冲液(10mM Tris-HCl、10mM NaCl、3mM MgCl2，1％w/v BSA、1％v/v SUPERase-In Rnase抑制剂、0.01％v/v洋地黄皂苷(Promega目录号G944A)、0.1％v/v吐温-20(Sigma目录号P7949-500ML))中。在冰上孵育5分钟后，向每个样本加入250μl不含吐温-20的细胞核洗涤缓冲液，并收集细胞核(500rcf，5分钟，4℃)。在用250μl不含吐温-20的细胞核洗涤缓冲液再次洗涤后，将细胞核置于100μl含有1％w/v BSA和1％v/v SUPERase-In Rnase抑制剂的1x PBS中。5μl样本用于在CASY设备(

Systems)上进行细胞计数，并用PBS-BSA-SUPERase稀释至5000个细胞/μl。立即进行反转录步骤。

实施例2-设备测试

2.1测试Chromium控制器的细胞核加载容量

将人Jurkat细胞(克隆E6-1)培养在补充了10％FCS(Sigma)和青霉素-链霉素(Gibco目录号15140122)的RPMI培养基(Gibco目录号21875-034)中。按上文所述分离新鲜细胞核。然后，制备15.3k、191k、383k、765k和1.53M细胞核的样本，加入1.5μl还原剂B(10xGenomics目录号2000087)和1x细胞核缓冲液(10x Genomics目录号2000153)至总体积为80μl。此缓冲液不含去垢剂，因此细胞核在微流控运行过程中保持完整，可以用标准光学显微镜在乳液微滴内部观察到。同时，还原剂B溶解凝胶珠，否则凝胶珠可能会阻碍观察。微流控芯片(Single Cell E chip，10x Genomics 2000121)的加载方式如下：将75μl细胞核样本以所示加载浓度加载到入口1，将40μl Single Cell ATAC凝胶珠(10x Genomics目录号2000132)加载到入口2，将240μl分配油(10x Genomics目录号220088)加载到入口3。为了对产生的微滴进行成像，吸取15μl分配油到玻片上，然后吸取5μl乳液微滴，并在10倍放大倍数下拍摄图像。每种条件计数平均653个微滴。

2.2测量Chromium控制器的微珠填充率

为了测量微珠填充率，Single Cell E芯片(10x Genomics 2000121)在入口1加载80μl 1x细胞核缓冲液(10x Genomics目录号2000153)，在入口2加载40μl Single CellATAC凝胶珠(10x Genomics目录号2000132)，并在入口3加载240μl分配油(10x Genomics目录号220088)。通过省略还原剂B，确保凝胶珠在整个微流控运行过程中保持完整，从而可以用标准光学显微镜在乳液微滴内部观察到。基于总计1,265个微滴计算填充率。

实施例3-基于线性延伸和定制Tn5转座体的scifi-RNA-seq(EXT-Tn5方案)

反转录：96和384个索引化的反转录引物的集合由Sigma-Aldrich合成，并按100μM在96孔板中的EB缓冲液中运输。引物具有序列(5’-TCGTCGGCAGCGTCGGATG CTGAGTGATTGCTTGTGACGCCTTCNNNNNNNNNXXXXXXXXXXXVTTTTTTTTTTTTT TTTTTTTTTTTTTTTTTVN-3’)，其中N表示随机碱基，下划线碱基对给定引物是已知的，X为11碱基长的引物特异性索引序列。实验前，制备带有条形码化的oligo-dT引物的96孔板，并将其保存在-20℃(每孔1μl 25μM)。将10,000个透化的细胞或细胞核(5000个/μl的悬液2μl)添加到预先分配的引物中，并记录孔分配。平板在55℃孵育5分钟(以去除RNA二级结构)，然后立即放在冰上(以防止其重新形成)。每孔加入3μl无核酸酶水、2μl 5x Superscript IV缓冲液、0.5μl 100mM DTT、0.5μl10mM dNTP(Invitrogen目录号18427-088)、0.5μlRNaseOUT RNA酶抑制剂(40U/ml，Invitrogen目录号10777019)和0.5μl Superscript IV反转录酶(200U/ml，Thermo FisherScientific目录号18090200)的混合物。反转录孵育如下：(加热盖设为60℃)4℃2分钟、10℃2分钟、20℃2分钟、30℃2分钟、40℃2分钟、50℃2分钟、55℃15分钟，4℃保存。

第二链合成和细胞/细胞核回收：对于第二链合成，每孔加入1.33μl第二链合成反应缓冲液和0.67μl第二链合成酶混合物(NEB目录号E61111L)的混合物，然后在16℃孵育2小时。从平板回收处理过的细胞核，并将其合并在每块平板一个15ml试管中。使用1xPBS-1％BSA洗涤孔，并将其转移到同一试管中，以获得最大回收。用1xPBS-1％BSA将体积补足10ml，并收集细胞核(500rcf，5min，4℃)。我们用1xPBS-1％BSA进行了另外两个洗涤步骤来去除细胞碎片。将所得到的沉淀重悬在1.5ml 1x细胞核缓冲液(10x Genomics目录号2000153)中，转移到1.5ml试管中并离心(500rcf，5min，4℃)。完全去除上清液，并对试管进行短暂离心(500rcf，30s，4℃)，以收集剩余液体在试管底部。通常，这产生小于10μl的高度浓缩的悬液，将其1:50稀释，并在Fuchs-Rosenthal计数室(Incyto目录号DHC-F01)中计数。

标签化(Tagmentation)：对于标签化，将处理过的细胞核与1x细胞核缓冲液混合，总体积为5μl，并与7μl ATAC缓冲液(10x Genomics目录号2000122)和6μl定制的i7-Only转座体(按下文所述制备)混合。处理过的细胞核中的双链cDNA在37℃被标签化1小时，然后保存在4℃。

线性条码化：用75μl(入口1)、40μl(入口2)或240μl(入口3)的50％甘油溶液(Sigma目录号G5516-100ML)填充Chromium芯片E(10x Genomics目录号2000121)中不使用的通道。临在加载芯片之前，向每个标签化反应加入61.5μl条码化试剂、1.5μl还原剂B和2.0μl条码化酶(均来自10x Genomics目录号1000110)的混合物。微流控芯片加载75μl在条码化混合物中的标签化细胞核(入口1)、40μl Single Cell ATAC凝胶珠(入口2，10xGenomics目录号2000132)和240μl分配油(入口3，10x Genomics目录号220088)，并在10xGenomics Chromium控制器上运行。线性条码化反应孵育如下：(加热盖设为105℃，体积设为125μl)，72℃ 5分钟、98℃ 30秒、12x(98℃ 10秒、59℃ 30秒、72℃ 1分钟)，保存在15℃。通过加入125μl回收剂(10x Genomics目录号220016)破坏乳液，并通过移液管除去125μl粉红色油相。剩余样本与200μl Dynabead Cleanup Master Mix(每个反应：182μl CleanupBuffer(10xGenomics目录号2000088)、8μl Dynabeads MyOne Silane(Thermo FisherScientific目录号37002D)、5μl还原剂B(10x Genomics目录号2000087)、5μl无核酸酶水)混合。室温孵育10分钟后，用200μl新鲜制备的80％乙醇(Merck目录号603-002-00-5)洗涤样本两次，并洗脱在40.5μl含0.1％吐温(Sigma目录号P7949-500ML)和1％v/v还原剂B的EB缓冲液(Qiagen目录号19086)中。用10μl吸头或针，剪切微珠块。将40μl样本转移到一个新的试管条中，并用SPRIselect珠(Beckman Coulter目录号B23318)进行1.2x清洗，洗脱在40.5μlEB缓冲液中。

富集PCR：每个样本在八个单独的PCR反应中富集，其中含有50μl NEBNext高保真2xmaster混合物(NEB目录号M0541S)、5μl引物06-11_Partial-P5(10μM，5’-AATGATACGGCGACCACCGAGA-3’)、1μl含100x SYBR Green的DMSO(Life Technologies目录号S7563)、34μl水、5μl索引化的06-11_P7-Read2N-00X引物(10μM，5’-CAAGCAGAAGACGGCATACGAGAT[indexi7]GTCTCGTGGGCTCGG-3’)和5μl来自上一步的样本。反应在qPCR仪中孵育：98℃ 45秒、40x(98℃ 20秒、67℃ 30秒、72℃ 30秒、然后读板)。在运行期间，监测荧光信号，并在达到饱和时将样本从热循环仪中取出。为了完善未完成的PCR产物，将样本在另一个热循环仪中72℃孵育2分钟。

大小选择和质量控制：PCR反应用0.7x标准SPRI cleanup清洗，然后用双面0.5x/0.7x SPRI cleanup清洗。在Bioanalyzer HS芯片(Agilent目录号5067-4626和5067-4627)上检查文库大小分布，并在Qubit dsDNA HS测定(Thermo Fisher Scientific目录号Q32854)中测量dsDNA浓度。

实施例4-基于热循环连接和模板转换的scifi-RNA-seq(LIG-TS方案)

反转录：96和384索引化的反转录引物的集合由Sigma-Aldrich合成，并按100μM在96孔板中的EB缓冲液中运输。引物具有序列(5’-[phos]ACACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNNNNNNXXXXXXXXXX XVTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTVN-3’)，其中N表示随机碱基，下划线碱基对给定引物是已知的，X是11个碱基长的引物特异性索引序列，5’磷酸基团允许连接此寡核苷酸。实验前，制备带有条码化oligo-dT引物的96孔板，并将其保存在-20℃(每孔1μl 25μM)。将10,000个透化的细胞或细胞核(5,000个/μl悬液2μl)添加到预先分配的引物中，并记录孔分配。平板在55℃孵育5分钟(以去除RNA二级结构)，然后立即放在冰上(以防止其重新形成)。每孔加入3μl无核酸酶水、2μl 5x反转录缓冲液、0.5μl 100mMDTT、0.5μl 10mM dNTP(Invitrogen目录号18427-088)、0.5μl RNaseOUT RNA酶抑制剂(40U/ml，Invitrogen目录号10777019)和0.5μl Maxima H Minus反转录酶(200U/ml，Thermo Fisher Scientific目录号EP0753)的混合物。反转录孵育如下：(加热盖设为60℃)，50℃10分钟、{8℃12秒、15℃45秒、20℃45秒、30℃30秒、42℃2分钟、50℃3分钟}的3个循环、50℃5分钟，4℃保存。

细胞/细胞核回收和合并：从平板回收处理过的细胞/细胞核，并将其合并在每块平板一个15ml试管中。使用1xPBS-1％BSA洗涤孔，并将其转移到同一试管中，以获得最大回收。用1xPBS-1％BSA将体积补足15ml，并收集细胞核(500rcf，5分钟，4℃)。将所得到的沉淀重悬在1.0ml 1x HiFi Taq DNA连接酶缓冲液(NEB#M0647S)或1x Ampligase反应缓冲液(Lucigen#A0102K)中，通过细胞过滤器(40μm或70μm，取决于细胞/细胞核大小)过滤到1.5ml试管中，并离心(500rcf，5分钟，4℃)。完全去除上清液，并对试管进行短暂离心(500rcf，30s，4℃)，以收集剩余液体在试管底部。通常，这产生小于10μl的高度浓缩悬液，将其1:50稀释，并在Fuchs-Rosenthal计数室(Incyto目录号DHC-F01)中计数。用1x HiFiTaq DNA连接酶缓冲液(NEB#M0647S)或1x Ampligase反应缓冲液(Lucigen#A0102K)，将所需数目的细胞/细胞核补足到15μl体积。

微流控热连接条码化：用75μl(入口1)、40μl(入口2)或240μl(入口3)50％甘油溶液(Sigma目录号G5516-100ML)填充Chromium芯片E(10x Genomics目录号2000121)中不使用的通道。临在加载芯片之前，向每个样本加入47.4μl无核酸酶水、11.5μl HiFi-Taq DNA连接酶缓冲液(10x，NEB#M0647S)或Ampligase反应缓冲液(10x，Lucigen#A0102K)、2.3μlHiFi-Taq DNA连接酶(NEB#M0647S)或Ampligase(Lucigen#A0102K)、1.5μl还原剂B(10xGenomics目录号2000087)和2.3μl桥接寡核苷酸(Bridge Oligo)(100μM，5’-CGTCGTGTAGGGAAAGAGTGTGACGCTGCCGACGA[ddC]-3’)的混合物。微流控芯片加载75μl在热连接混合物中的细胞/细胞核(入口1)、40μl Single Cell ATAC凝胶珠(入口2，10x Genomics目录号2000132)和240μl分配油(入口3，10x Genomics目录号220088)，并在10x GenomicsChromium控制器上运行。热连接条码化反应孵育如下：(加热盖设为105℃，体积设为100μl)、12x(98℃ 30秒，59℃ 2分钟)、15℃保存。通过加入125μl回收剂(10xGenomics目录号220016)破坏乳液，并通过移液管去除125μl粉红色油相。剩余样本与200μlDynabeadCleanup Master Mix混合(每个反应：182μl Cleanup Buffer(10x Genomics目录号2000088)、8μl Dynabeads MyOne Silane(Thermo Fisher Scientific目录号37002D)、5μl还原剂B(10x Genomics目录号2000087)、5μl无核酸酶水)。室温孵育10分钟后，用200μl新鲜制备的80％乙醇(Merck目录号603-002-00-5)洗涤样本两次，并洗脱在40.5μl含0.1％吐温(Sigma目录号P7949-500ML)和1％v/v还原剂B的EB缓冲液(Qiagen目录号19086)中。用10μl吸头或针，剪切微珠块。将40μl样本转移到一个新的试管条中，并用SPRIselect珠(Beckman Coulter目录号B23318)进行1.0x清洗，洗脱在22μl EB缓冲液中。

模板转换：将上一步的20μl样本与10μl 5x反转录缓冲液、10μl Ficoll PM-400(20％，Sigma#F5415-50ML)、5μl 10mM dNTP(Invitrogen目录号18427-088)、1.25μl重组核糖核酸酶抑制剂(Takara#2313A)、1.25μl模板转换寡核苷酸(100μM，5’-AAGCAGTGGTATCAACGCAGAGTGAATrGrGrG-3’，其中r表示RNA碱基)和2.5μlMaxima H Minus反转录酶(200U/ml，Thermo Fisher Scientific目录号EP0753)混合。模板转换反应在25℃孵育30分钟、42℃孵育90分钟，4℃保存，并用1.0x SPRI cleanup清洗，洗脱在17μl EB缓冲液中。

cDNA富集：将15μl上述样本与33μl无核酸酶水、50μl NEBNext高保真2x MasterMix(NEB#M0541S)、0.5μl Partial P5引物(100μM，5’-AATGATACGGCGACCACCGAGA-3’)、0.5μl TSO富集引物(100μM，5’-AAGCAGTGGTATCAACGCAGAGT-3’)和1μl SYBR Green(DMSO中100x)混合。在热循环仪中扩增cDNA：98℃ 30秒，{98℃ 20秒、65℃ 30秒、72℃ 3分钟}循环直至荧光信号>2000RFU，在另一个热循环仪中72℃ 5分钟，4℃保存。cDNA通过一次0.8xSPRI cleanup清洗，然后通过0.6x SPRI cleanup清洗，用Quabit HS测定(ThermoFisherScientific#Q32854)进行定量，并在Bioanalyzer High-Sensitivity DNA芯片(Agilent#5067-4626和#5067-4627)上检查1.5ng。

文库制备：cDNA可以通过多种已建立的方法转化为NGS-ready文库：(i)用市售(例如Illumina Nextera)或定制的Tn5转座酶，标签化双链cDNA(下文包括如何制备转座体的说明)，然后进行PCR富集。(ii)通过机械(例如超声处理)或酶(例如NEB dsDNA片段化酶)方法，片段化双链cDNA，然后进行末端修复、加A尾、接头连接和PCR富集。(iii)用高行进性(processivity)聚合酶(例如Klenow片段)通过随机引发进行线性延伸，然后进行PCR富集。

实施例5–基于线性扩展和随机引发的Scifi RNA-seq(EXT-RP)

随机引发(random priming,RP)提供了一种替代方法，在远离反转录过程中捕获的序列(例如poly-A尾)的文库片段末端引入规定的序列。它与TN5方案(替换标签化步骤)和LIG方案(替换模板转换步骤)兼容。按上文针对EXT-TN5方案所描述(实施例3)的，进行反转录、第二链合成以及细胞/细胞核回收和计数。然而，不再需要标签化。取而代之的是，将在总体积11μl的1x细胞核缓冲液中的处理过的细胞/细胞核与7μl ATAC缓冲液(10xGenomics目录号2000122)、61.5μl条码化试剂、1.5μl还原剂B和2.0μl条码化酶(均来自10x Genomics目录号1000110)混合，并按照前述方式加载和运行微流控芯片。按照上文针对EXT-TN5方案所描述，通过硅烷和SPRI珠cleanup清洗样本，洗脱在43μl无核酸酶水中。将41.75μl清洗过的样本与5μl蓝色缓冲液(10x，Enzymatics#P7010-HC-L)、1.25μl 10mMdNTP(Invitrogen目录号18427-088)和1μl随机引物(100μM，5’-[Btn]GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGNNNN，其中下划线部分对应于理想情况下长度为4到8个碱基的一段随机碱基，并且可选地生物素修饰)混合。然后将样本95℃变性5分钟，并立即在冰上冷却，以防止二级结构的重新形成，并允许随机引物退火。然后，加入1μl Klenow Exo-Polymerase(50U/μl，Enzymatics#P7010-HC-L)，通过移液管混合反应，并在热循环仪中孵育：4℃ 15分钟，然后以1℃/分钟的速度上升至37℃，37℃ 1小时，然后70℃ 10分钟(酶失活)，4℃保存。通过添加2.5μl核酸外切酶I(20U/μl，NEB#M0293S)和1.25μl rSAP(1U/μl，NEB#M0371S)去除多余的随机引物，然后37℃孵育1小时，80℃热失活20分钟，然后4℃保存。在进行0.8xSPRI清洗或链霉亲和素珠清洗后，按上文针对EXT-TN5方案所述，通过PCR对文库进行富集。

实施例6-基于热循环连接和随机引发的scifi-RNA-seq(LIG-RP方案)：

反转录、细胞/细胞核回收和计数、微流控装置上的热连接条码化和硅烷清洗，按上文针对LIG方案所述(实施例4)进行。SPRI清洗结束时，将样本洗脱在43μl无核酸酶水中。随机引发取代了模板转换步骤，操作如下。将41.75μl清洗过的样本与5μl蓝色缓冲液(10x，Enzymatics#P7010-HC-L)、1.25μl 10mM dNTP(Invitrogen目录号18427-088)和1μl随机引物(100μM，5’-[Btn]GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGNNNN，其中下划线部分对应于理想情况下长度为4到8个碱基的一段随机碱基，并且可选地生物素修饰)混合。然后将样本95℃变性5分钟，并立即在冰上冷却，以防止二级结构的重新形成，并允许随机引物退火。然后，加入1μl Klenow Exo-Polymerase(50U/μl，Enzymatics#P7010-HC-L)，通过移液管混合反应，并在热循环仪中孵育：4℃ 15分钟，然后按1℃/min的速度上升至37℃，37℃ 1小时，然后70℃ 10分钟(酶失活)，4℃保存。通过加入2.5μl核酸外切酶I(20U/μl，NEB#M0293S)和1.25μl rSAP(1U/μl，NEB#M0371S)去除多余的随机引物，然后37℃孵育1小时，80℃热失活20分钟，然后4℃保存。在进行0.8x SPRI清洗或链霉亲和素珠清洗后，按上文针对EXT-TN5方案所述，通过PCR对文库进行富集。

实施例7-基于线性延伸和模板转换的scifi-RNA-seq(EXT-TS)

模板转换(TS)提供了一种替代方法，在远离反转录过程中捕获的序列(例如poly-A尾)的文库片段末端引入规定的序列。TS已在LIG-TS方案中使用，并且也与EXT-TN5方案兼容，如下文所述。用Maxima H Minus反转录酶、或另一种可以在到达转录物末端时将无模板C碱基添加至cDNA的反转录酶，进行反转录。反转录引物具有序列(5’-TCGTCGGCAGCGTCGGATGCTGAGTGATTGCTTGTGACGCCTTCNNNNNNNNNXXXXX XXXXXXVTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTVN-3’)，其中N表示随机碱基，下划线碱基对给定引物是已知的，X是11个碱基长的引物特异性索引序列。实验前，制备带有条形码化oligo-dT引物的96孔板，并将其保存在-20℃(每孔1μl 25μM)。将10,000个透化的细胞或细胞核(5,000个/μl悬液2μl)添加到预先分配的引物中，并记录孔分配。平板在55℃孵育5分钟(以去除RNA二级结构)，然后立即放在冰上(以防止其重新形成)。

每孔加入1μl 5x反转录缓冲液、1μl Ficoll PM-400(20％，Sigma#F5415-50ML)、0.5μl 10mM dNTP(Invitrogen目录号18427-088)、0.125μl重组核糖核酸酶抑制剂(Takara#2313A)、0.125μl模板转换寡核苷酸(100μM，5’-AAGCAGTGGTATCAACGCAGAGTGAATrGrGrG-3’，其中r表示RNA碱基)和0.25μl Maxima H Minus反转录酶(200U/ml，ThermoFisher Scientific目录号EP0753)的混合物。该组合的反转录和模板转换反应孵育如下：(加热盖设为60℃)，25℃30分钟、42℃90分钟、4℃保存。细胞/细胞核回收和计数按上文针对EXT-TN5方案所述进行。然而，不再需要标签化。取而代之的是，将总体积9.7μl 1x细胞核缓冲液中的处理过的细胞/细胞核与7μl ATAC缓冲液(10x Genomics目录号2000122)、61.5μl条码化试剂、1.5μl还原剂B、2.0μl条码化酶(均来自10x Genomics目录号1000110)和1.3μl TSO富集引物(100μM，5’-AAGCAGTGGTATCAACGCAGAGT-3’)混合。按照前述方式，加载并运行微流控芯片，并孵育微滴乳液。按上文针对EXT-TN5方案所述，通过硅烷和SPRI珠cleanup清洗样本。按上文针对EXT-TN5方案所述，扩增cDNA并制备文库。

实施例8–定制i7-Only转座体的组装

寡核苷酸Tn5-top_ME(5’-[Phos]CTGTCTCTTATACACATCT-3’)和Tn5-bottom_Read2N(5’-GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG-3’)由Sigma Aldrich合成，并按100μM复溶在EB缓冲液(Qiagen目录号19086)中。将22.5μl每种寡核苷酸和5μl 10x寡核苷酸退火缓冲液(10mM Tris HCl(Sigma目录号T2944-100ML)、50mM NaCl(Sigma目录号S5150-1L)、1mM EDTA(Invitrogen目录号AM9260G))混合，并在热循环仪中退火：95℃3分钟，70℃ 3分钟，以每分钟2℃的速度上升至25℃。然后通过加入180μl水稀释退火反应。此时，稀释的寡核苷酸盒可以分装并冷冻，用于将来的转座体组装。为了加载Tn5转座酶，我们将来自上一步的20μl稀释的寡核苷酸盒与20μl 100％甘油(Sigma目录号G5516-100ML)和10μl EZ-Tn5转座酶(Lucigen目录号TNP92110)混合，并在热循环仪中25℃孵育30分钟。所得到的50μl组装转座体足以进行EXT-TN5方案的8个scifi-RNA-seq反应(每个反应6μl)、或用于scifi-RNA-seq实施和cDNA富集的超过200次文库制备。转座体可在-20℃保存至少一个月。

实施例9-通过qPCR检查定制i7-Only转座体的活性

由于分子内退火与引物结合之间的竞争，侧翼为两个Illumina i7接头的标签化DNA在PCR反应中将受到抑制。因此，在先前描述的阴性qPCR测定(Rykalina等,2017)中，测试了定制i7-Only转座体。简言之，对确定的PCR产物进行一个标签化反应和一个无酶对照反应。然后用相同的引物在qPCR反应中重新扩增两个样本。由于标签化会使PCR产物片段化，因此相应的反应应产生更高的Ct值。然后可以根据Ct值的变化计算标签化效率：

标签化效率[％]＝100/[2^(平均Ct标签化-平均Ct无酶对照)]。

PCR产物的产生：寡核苷酸pUC19-FWD(5’-AAGTGCCACCTGACGTCTAAG-3’)和pUC19-REV(5’-CAACAATTAATAGACTGGATGGAGGCGG-3’)由Sigma Aldrich合成，并按100μM复溶在EB缓冲液(Qiagen目录号19086)中。然后，通过混合128.7μl水、33μl 50pg/μlpUC19质粒(NEB目录号N3041S)、引物pUC19 FWD和pUC19 REV(100μM)各1.65μl以及165μl 2x Q5热启动高保真Master Mix(NEB目录号M0494L)，产生1,961bp的PCR产物。将所得到的6.6x mastermix分配到试管条(六个50μl的反应)中，并在热循环仪中扩增：98℃ 30秒；31x(98℃ 10秒、68℃ 30秒、72℃ 1分钟)、72℃ 2分钟，12℃保存。在每个50μl PCR反应中，我们添加了6.25μl 10x CutSmart缓冲液和6.25μl DpnI(NEB目录号R0176L)，并在37℃孵育1小时以消化PCR模板质粒。将六个PCR反应物合并在一起，并用QiaQuick PCR纯化试剂盒(Qiagen目录号28106)使用两个柱进行清洗，并每柱用30μl EB缓冲液进行洗脱。合并洗脱液，并在含有溴化乙锭的1％琼脂糖凝胶上检查PCR片段的纯度。然后，我们用Qubit HS测定(ThermoFisher Scientific目录号Q32854)测量了dsDNA的浓度，并用EB缓冲液将PCR产物稀释至25ng/μl。

标签化：通过混合2μl来自上一步的25ng/μl pUC19 PCR产物、7μl ATAC缓冲液(10xGenomics目录号2000122)和6μl定制i7-only转座体(标签化反应)或6μl水(无酶对照反应)来建立标签化反应。37℃孵育60分钟后，通过加入1.75μl 1％SDS溶液(Sigma目录号71736-100ML)然后70℃孵育10分钟，将Tn5酶从DNA上剥离。用EB缓冲液将两个反应1/100稀释，并一式三份建立qPCR反应：2μl 1/100稀释反应物、10μl 2x GoTaq qPCR master mix(Promega目录号A600A)、100μM pUC19 FWD和pUC19 REV引物各0.1μl及7.8μl水。qPCR反应孵育如下：95℃ 2分钟，40x(95℃ 30秒、68℃ 30秒、72℃ 2分钟、读板)。

实施例10-下一代测序

使用High Output v2.5试剂(75个循环，Illumina目录号20024906)，在IlluminaNextSeq500平台上对所得到的scifi-RNA-seq文库进行测序。我们使用定制测序引物18-12_scifi_SEQ_inDrop_read1(5’-GGATGCTGAGTGATTGCTTGTGACGCC*T*T*C，其中*表示硫代磷酸酯键)用于read1，使用18-12_scifi_SEQ_inDrop_index2(5’-GCATCCGACGCTGCCGA*C*G*A-3’)用于index2。机器设置为读长21个碱基(Read1)、47个碱基(Read2)、8个碱基(Index1，i7)和16个碱基(Index2，i5)。

使用NovaSeq 6000SP(100个循环，Illumina目录号20027464)或S2(100个循环，Illumina目录号20012862)试剂，在Illumina NovaSeq 6000平台上对大型单细胞文库进行测序。定制测序引物18-12_scifi_SEQ_inDrop_read1(5’-GGATGCTGAGTGATTGCTTGTGACGCC*T*T*C，其中*表示硫代磷酸酯键)用于read1。由于测序化学不同，Index2可以用标准NovaSeq引物读取。将测序仪设置为21个碱基(Read1)、55个碱基(Read2)、8个碱基(Index1，i7)和16个碱基(Index2，i5)的read结构。

在scifi-RNA-seq的一些实施方案中，使用与标准Illumina测序引物兼容的引物结合位点，因此不再需要定制引物。

实施例11-人和小鼠细胞1:1混合物上的scifi-RNA-seq

细胞培养：人Jurkat-Cas9-TCRlib细胞在含有10％FCS(Sigma)和青霉素-链霉素的RPMI培养基(Gibco#21875-034)中培养，并用25μg/ml杀稻瘟素(blasticidin，Invivogen#ant-bl-5)和2μg/ml嘌呤霉素(Fisher Scientific#A1113803)持续筛选。小鼠3T3细胞在含有10％FCS(Sigma)和青霉素-链霉素的DMEM培养基(Gibco#10569010)中培养。

单细胞RNA-seq：按上文实施例1.2中所述，新鲜制备来自人Jurkat-Cas9-TCRlib细胞和小鼠3T3细胞的细胞核悬液。为了评估scifi-RNA-seq性能随着微滴过载的变化，将15,300、383,000或765,000个预索引化的细胞核加载到Chromium系统的单通道中。单细胞转录组的数量和每个微滴内细胞核的平均数量都随加载量成线性增长(图19)。此外，基于人和小鼠细胞系的1:1混合物的该数据集，使我们能够针对转录物至单细胞的正确分配来验证我们的预索引策略。为此，我们将仅基于微流控(round2)条形码的人-小鼠细胞双联体的数量与基于预索引(第1轮)和微流控(第二轮)条形码组合的此类双联体的数量进行了比较(图20)。正如针对每通道765,000个细胞核的加载率所预期的那样，几乎所有的微滴都含有人和小鼠细胞(图20，左图)，但在考虑第1轮和第2轮条形码时绝大多数这些双联体都可以拆分(图20，右图)。正如预期的那样，只有当微滴发生器过载时，才观察到预索引的显著效果，而单独微流控第2轮条形码足以在每通道15,300个细胞核的标准加载率下最小化细胞双联体(图33)。

最后，该数据集允许最终解决scifi-RNA-seq的第三个可行性问题——每个微滴中的试剂是否足以对来自多个细胞核的转录组进行有效的条码化。在将每细胞的UMI计数和唯一读段分数相对于每微滴的细胞核数作图时(图21)，在含有多达15个单细胞核的微滴中并未观察到转录组复杂性降低的趋势，这强烈表明，基于微滴进行索引化的试剂不是scifi-RNA-seq中的限制因素。

实施例12-在四个人细胞系混合物上的scifi-RNA-seq

细胞培养：Jurkat-Cas9-TCRlib、K562和NALM-6细胞系在含有10％FCS(Sigma)和青霉素-链霉素的RPMI培养基(Gibco#21875-034)中培养。Jurkat-Cas9-TCRlib细胞用25μg/ml杀稻瘟素(Invivogen#ant-bl-5)和2μg/ml嘌呤霉素(Fisher Scientific#A1113803)持续选择。HEK293T细胞在含有10％FCS(Sigma)和青霉素-链霉素的DMEM培养基(Gibco#10569010)中培养。

单细胞RNA-seq：按上文实施例1.2中所述，新鲜制备来自具有独特特征的四个人细胞系(Jurkat、K562、NALM-6、HEK293T)的细胞核悬液。然后，根据基于热循环连接和模板转换(LIG-TS)的方案，按上文实施例4中所述，对这些细胞核进行scifi-RNA-seq。在384孔板上的反转录步骤中，每个细胞系被分配一组特定的预索引(第1轮)条形码。在预索引后，合并样本，并将383,000个细胞核加载到Chromium系统的微流控单通道中。151,788个单细胞转录组通过了质量控制(图22-23、35-36)，比标准Chromium方案的输出增加了15倍。此实验还证明了该方法固有地支持在单个实验中对多达384个不同样本的多路复用。

实施例13-原代人T细胞上的scifi-RNA-seq

原代人T细胞的分离：从以缓冲的柠檬酸钠作为抗凝剂的血液包中获得来自健康供体的外周血。对于每个供体，我们按照以下方案从3x 15ml的外周血制备了T细胞。将15ml外周血与750μl RosetteSep人T细胞富集混合物(Stemcell#15061)混合。室温孵育10分钟后，通过加入15ml含有2％v/v FCS(Sigma)的1x PBS(Gibco#14190-094)稀释样本。在SepMate试管(Stemcell#86450)中装入15ml Lymphoprep密度梯度介质(Stemcell#07851)，并将血样倒在上面。离心(1200rcf，10分钟，室温，制动设为9)后，将上清液转移到一个新鲜的50ml试管中，用含有2％FCS的1x PBS补足50ml，并离心(1200rcf，10分钟，室温，制动设为3)。在用50ml含有2％FCS的1x PBS再洗涤一次(1200rcf，10分钟，室温，制动设为3)后，将T细胞重悬在10ml含有2％FCS的1x PBS中，通过40μM细胞过滤器过滤，并使用CASY装置(

Systems)计数。对于准确的细胞计数，重要的是要排除污染的红细胞，这些红细胞将在随后的细胞核制备过程中裂解。

抗CD3/CD28刺激人T细胞：将新鲜分离的原代人T细胞以100万个细胞/ml的密度重悬在人T细胞培养基(含有1/38.5体积的OpTmizer补充剂、1x GlutaMax(Thermo Fisher#35050061)、1x青霉素/链霉素(Thermo Fisher#15140122)、2％热灭活人AB血清(FisherScientific#MT35060CI)、10ng/ml重组人IL-2(PeproTech#200-02)的OpTmizer培养基(Thermo Fisher#A1048501))中。将培养物分为两瓶，其中一瓶用Human T-Activator CD3/CD28Dynabeads(25μl微珠/100万个细胞，Thermo Fisher#11131D)处理。16小时后，按照本文所述，我们制备了甲醛固定的细胞核，并快速冷冻细胞核悬液。

T细胞群的流式细胞术分析：用含有0.1％BSA和5mM EDTA(PBS-BSA-EDTA)的1xPBS洗涤总计100万个原代人T细胞两次。用抗CD16/CD32(克隆93，1:200，Biolegend#101301)孵育单细胞悬液以防止非特异性结合，并用抗CD4(PE-TxRed，克隆OKT4，1:200，Biolegend#317448)、CD8(APC-Cy7，克隆SK1，1:150，Biolegend#344746)、CD25(PE-Cy7，克隆BC96，1:100，Biolegend 35612)、CD45RA(PerCp-Cy5.5，克隆HI100，1:100，Biolegend#304122)、CD45RO(AF700，克隆UCHL1，1:100，Biolegend#304218)、CD69(AF488，克隆FN50，1:100，Biolegend#310916)、CD127(APC，克隆A019D5，1:100，Biolegend 351342)、CD197(CCR7，克隆G043H7，1:100，Biolegend 353204)抗体组合和DAPI活性染料(Biolegend#422801)，4℃染色30分钟。用PBS-BSA-EDTA洗涤两次后，用LSRFortessa细胞分析仪(BD)获取细胞。将CD4+和CD8+T细胞细分为幼稚T细胞(CD45RA+CCR7+)、效应记忆T细胞(CD45RA-CCR7-)、中央记忆T细胞(CD45RA-CCR7+)和TEMRA细胞(CD45RA+CCR7-)。基于CD25和CD69表达评估了T细胞受体介导的CD4+和CD8+T细胞活化。

单细胞RNA-seq：基于热循环连接和模板转换(LIG-TS)的方案，按实施例4中所述，进行scifi RNA-seq。在384孔板上的反转录步骤中，供体身份和TCR刺激状态用一组独特的第1轮预索引进行条码化。在预索引后，合并样本，并将765,000个细胞核加载到Chromium系统的微流控单通道中。结果如图24-25、37-38所示。

实施例14-与现有组合索引方案的比较

在本实验中，将本发明方法的性能与现有的多轮组合索引技术进行了比较。获得sci-RNA-seq v1(Cao，Packer等，2017年)、SPLiT-seq(Rosenberg，Roco等，2018年)、sci-RNA-seq v3(Cao，Spielmann等，2019年)和sci-Plex(Srivatsan，McFaline Figueroa，Ramani等，2020年)的公众可得数据。使用小鼠3T3细胞作为共同参照点，证明scifi-RNA-seq的文库质量一致地优于sci-RNA-seq v1、sci-RNA-seq v3和sci-Plex(图44a-f)，并且观察到人/小鼠物种混合实验中双联体细胞百分比大幅降低(图44g)。scifi-RNA-seq的数据质量比SPLIT-seq更具可重复性，SPLIT-seq获得了两个重复样本的高度可变结果(图44a-f)。

此外，还比较了方法间的文库设计和测序读段结构，以评估其成本效益。由于scifi-RNA-seq不读取非信息性连接突出端，因此花在细胞条形码上的所有测序循环都是信息性的，与sci-RNA-seq v1(58％信息性)、sci-RNA-seq v3和sci-Plex(87％信息性)以及SPLiT-seq(33％信息性)形成对比。因此，scifi-RNA-seq大大降低了超高通量单细胞RNA-seq测序成本的瓶颈。(图44h-i)。总之，我们发现scifi-RNA-seq具有更高的数据质量和再现性，大大减少了实验工作量，并且可以比现有方法更快地进行。

实施例15-与10x Genomics Chromium平台的比较

为了与微流控单细胞RNA-seq进行比较，使用最新的v3化学，以广泛使用的10xGenomics技术作为基准(benchmark)，将scifi-RNA-seq与之进行比较。在一系列新的wet-lab实验中，将测试样本拆分并用两种测定方案并行处理，每微流控通道加载相同数量的7,500个细胞核/细胞，并比较透化的细胞核、甲醇固定的细胞和完整细胞之间的结果。使用具有可变转录物含量的四种人细胞系(K562、HEK293T、Jurkat、NALM-6)的等量混合物，以及人(Jurkat)和小鼠(3T3)细胞的跨物种混合物。这种设置允许将透化方法、技术平台、细胞类型、物种和转录物含量的影响分开。

总之，这些实验表明：(i)scifi-RNA-seq中的预索引细胞/细胞核的回收率几乎与10xGenomics系统上的天然细胞/细胞核的回收率相同。由于在背景上花费的测序覆盖度最小，这可以通过提高加载浓度来补偿(图39a)。(ii)scifi-RNA-seq中的洗涤和过滤步骤有效地去除了透化伪影(artefacts)，如在细胞核和甲醇固定细胞的10x Genomics数据中常见的自由漂浮RNA和细胞片段，进一步证明了所要求保护的方案的优势(图39a)。(iii)在10x Genomics数据中通常检测到双联体细胞的假簇，但在scifi-RNA-seq数据中完全缺失，这表明该方法的条码化容量大得多。(图39b和图43a-c)(iv)四种人细胞系以相同的比例回收，表明几乎没有细胞类型特异性取样偏差、或由转录物含量引起的偏差(图39c)。(v)基因表达谱与细胞系相关，不受技术(scifi-RNA-seq vs 10x Genomics)和样本制备方法(细胞核、甲醇固定的细胞、完整细胞)影响。(v)虽然根据设计，预期没有任何组合索引方法可以达到使用最新10x Genomics v3化学进行直接单细胞RNA-seq的文库复杂度，但scifi-RNA-seq的数据质量并不落后，同时提供了大幅增加的细胞通量(每次运行至少多15倍的细胞)。

实施例16-与Chromium单细胞ATAC v.1.1(NextGEM)设计的兼容性

已经表明，根据本发明方法的微滴过载与Chromium单细胞ATAC v.1.1(NextGEM)试剂盒兼容(图41a)。所有测试的加载浓度都产生稳定、单分散的微滴乳液(图41b)，微滴填充率和每微滴的细胞核数随加载浓度(从每通道15,000到153万细胞核数)以受控方式增加。与原始芯片设计相比，确认了NextGEM的设计特异性的差异，具体而言，每微滴的细胞核数更高，微珠加载率更高，空微滴数大幅减少。还证明，平台之间的微滴直径高度相似，在细胞核过载微滴时也不发生变化(图41c-d)。基于NextGEM特异性数据，计算模建了细胞核在微滴中的加载(图41e-g)，显示了微滴填充率和细胞核加载分布(图41h-i)，并确定了不同数量的第1轮预索引条形码的预期细胞双联体百分比(图41j)。最后，使用scATAC v1.0和v1.1(NextGEM)试剂并行应用了本发明的方法，证明数据质量和单细胞纯度具有可比性(图42a-e)。总之，这些实验证明，本发明的方法在微滴过载和酶促反应两方面与NextGEM芯片设计完美兼容。

实施例17-scifi多路复用允许在单细胞水平进行大规模扰动筛选

scifi-RNA-seq中的全转录组预索引步骤的优势是双倍的。首先，条码化的细胞/细胞核可以以每区室多个细胞/细胞核的比率加载到第二室中，从而允许超高通量处理样本。其次，第1轮预索引可以标记数百到数千种实验条件，从而允许大规模扰动研究，如单细胞水平的药物筛选或基因扰动筛选。

为了证明本发明的多路复用能力以及为药物开发和靶点发现对非常高数量的单细胞进行谱图分析的益处，进行了以下实验。用慢病毒载体转导人Jurkat细胞系以表达Cas9核酸酶。用第二个慢病毒载体进一步修饰这些细胞，该载体表达48种不同的CRISPR向导RNA(gRNA)，靶向20个基因，每个基因有2个gRNA，加上8个非靶向对照gRNA。在抗生素选择下进行有效的基因组编辑10天。之后，将48个单敲除细胞系分成两部分，用抗CD3/CD28抗体刺激T细胞受体或保留不进行处理。对于所得到的96个样本，制备甲醇固定的细胞，并进行本发明所述方法的scifi-RNA-seq(图40a)。用在刺激和非刺激条件下差异表达的300个基因的特征，确定每个基因敲除的T细胞受体激活分数(图40c)。使用来自此筛选的转录组数据，在混池转录组水平(图40b-d)和单细胞水平(图40e-g)两者上，均鉴定了T细胞受体途径的关键调节因子，如激酶ZAP70和LCK、衔接蛋白LAT和磷酸酶PTPN11。

上文强调了本发明方法用于药物发现和靶标验证的潜力。本发明的方法直接从对照细胞的转录组获得相关筛选特征，因此不需要关于药物作用机制的先有知识。这可以在确定候选分子的优选级和将药品推向市场方面节省宝贵的时间。此外，本发明方法的单细胞分辨率可评估药物处理对复杂混合物(例如PBMC)中的不同细胞类型的影响，或对来自不同供体的细胞混合物的影响。

Claims

(d)使步骤(c)中获得的所述细胞和/或细胞核在第二反应区室中与微珠结合的第三寡核苷酸组合，其中该第三寡核苷酸包含

其中对于(i)，该方法进一步包括在步骤(c)之后和步骤(d)之前的第二链DNA合成的步骤，其中对于(ii)，该方法进一步包括DNA连接的步骤；

其中，所述第三寡核苷酸进一步包含含有索引序列的第二序列和含有引物结合位点的第三序列；

(e)扩增步骤(d)中获得的DNA寡核苷酸；和

(f)对所扩增的DNA寡核苷酸进行测序。

2.权利要求1的方法，其中在步骤(c)中，将无模板核苷酸添加到第二寡核苷酸的3’端。

3.权利要求2的方法，其中第二链DNA合成包括使用含有与所添加的无模板核苷酸互补的序列的引物。

4.权利要求2的方法，其中添加含有与所添加的无模板核苷酸互补的RNA核苷酸的引物用于延伸。

5.权利要求1的方法，其中第二链DNA合成包括

(a)在第一寡核苷酸中引入切口；

(b)延伸带切口的寡核苷酸；和

(c)连接延伸的寡核苷酸。

6.权利要求1或5的方法，其进一步包括在第二链DNA合成之后或在第二链DNA合成的同时，在所合成的第二链DNA的5’端引入无模板核苷酸的步骤。

7.权利要求6的方法，其中使用转座酶，尤其是Tn5转座酶引入无模板核苷酸。

8.权利要求1的方法，其中该方法进一步包括在DNA连接后的线性延伸步骤，其中线性延伸包括添加含有RNA核苷酸的引物和添加反转录酶。

9.权利要求1的方法，其中该方法进一步包括线性延伸的步骤，该步骤包括添加含有随机核苷酸的引物。

10.权利要求1至9中任一项的方法，其中与第二寡核苷酸的第一序列结合的第一寡核苷酸的序列位于该第一寡核苷酸的3’端。

11.权利要求1至10中任一项的方法，其中第二寡核苷酸的第一序列与第一寡核苷酸的3’poly-A尾互补。

12.权利要求1至11中任一项的方法，其中第一反应区室包含经透化的完整细胞和/或细胞核。

13.权利要求1至12中任一项的方法，其中第一反应区室包含5000至10000个细胞。

14.权利要求1至13中任一项的方法，其中第二反应区室包含裂解的细胞和/或细胞核。

15.权利要求1至14中任一项的方法，其中第二反应区室包含每微珠一个以上的细胞和/或细胞核，优选每微珠10个细胞/细胞核。

16.权利要求1至15中任一项的方法，其中第二反应区室是微流控微滴或微量滴定板上的孔，尤其是亚纳升孔板。

17.权利要求16的方法，其中第二反应区室是微流控微滴，且第三寡核苷酸在微滴形成时从该微珠释放。

18.权利要求1至17中任一项的方法，其中第二寡核苷酸进一步包含唯一分子标识符(UMI)。

19.权利要求1至18中任一项的方法，其中所述细胞和/或细胞核获自体外培养物或新鲜或冷冻样本。

20.权利要求1至19中任一项的方法，其中所述细胞/细胞核为

(a)获自现有细胞系、原代细胞、血细胞、体细胞，或来源于类器官或异种移植物；

(b)CAR-T细胞、CAR-NK细胞、修饰的T细胞、B细胞、NK细胞、免疫细胞、或分离自用此类产品治疗的患者；或

(c)经历自然分化或人工诱导重编程或转分化的胚胎干细胞或多能干细胞(iPS)。

21.权利要求1至20中任一项的方法，其中DNA连接使用耐热DNA连接酶。

22.微流控系统用于权利要求1至21中任一项的方法的用途，尤其是用于产生微流控微滴或将材料递送到基于微流体孔的装置中。

23.权利要求22的用途，其中该微流控系统是微滴产生器。

24.权利要求22的用途，其中该微流控系统包含亚纳升孔板。

25.试剂盒，其包含如第1项中所定义的第二寡核苷酸，优选连同关于使用权利要求1至21中任一项的方法的说明书。

26.权利要求25的试剂盒，其进一步包含转座酶。

27.权利要求25的试剂盒，其进一步包含第二链合成试剂和/或耐热连接酶。

28.权利要求25至27中任一项的试剂盒，其进一步包含所述第四寡核苷酸。