CN109642219A

CN109642219A - 第二链引导

Info

Publication number: CN109642219A
Application number: CN201780049052.XA
Authority: CN
Inventors: R·雷伯弗斯基; J·阿格雷丝迪
Original assignee: Bio Rad Europe GmbH; Bio Rad Laboratories Inc
Current assignee: Bio Rad Europe GmbH; Bio Rad Laboratories Inc
Priority date: 2016-08-05
Filing date: 2017-08-03
Publication date: 2019-04-16
Anticipated expiration: 2037-08-03
Also published as: CN109642219B; CN113151423A; US20240076658A1; US20200071694A1; US20180037885A1; WO2018027048A1; US10876112B2; US11725206B2; EP3494214A1; EP3494214A4; US20210071173A1; US10676736B2

Abstract

本文提供了用于制备高通量cDNA测序文库的方法和组合物。

Description

第二链引导

相关申请的交叉引用

本申请要求2016年8月5日提交的美国临时申请号62/371,638和2017年6月20日提交的美国临时申请号62/522,232的优先权，其全部内容通过引用纳入本文用于所有目的。

背景技术

高通量测序正在彻底改变生物学的许多领域，包括癌症诊断，疾病监测和环境分析。特别地，通过逆转录的cDNA的高通量测序分析mRNA分子的方法可以揭示在给定时刻生物样品中转录物的种类和数量。因此，剪接，转录后修饰，基因融合，突变和基因表达的变化都可以通过单一方法监测。

常用的高通量测序平台(例如由亿明达(Illumina)，罗氏测序(RocheSequencing)，太平洋生物科学公司(Pacific Biosciences)等提供的平台)的输入材料由侧翼为平台特异性衔接子(adaptor)的转录组衍生的DNA片段的复杂文库组成。构建此类文库的标准方法完全在体外进行，通常包括cDNA合成，DNA片段化(机械或酶促)，末端抛光，衔接子序列连接，基于凝胶的大小选择，和PCR扩增中的一种或多种或全部。根据具体应用，该核心方案可以在其他步骤之前。然而，目前用于产生cDNA的方法在两端用衔接体(adapter)标签化，所述衔接体与当前可用的高通量测序平台相容，所述方法通常具有低产率，缺乏再现性，高成本等缺点或其组合。

发明内容

一方面，本发明提供了一种标签化cDNA多核苷酸的方法，该方法包括：-提供双链mRNA：cDNA杂合体，其包含具有5′末端和3′末端的第一链cDNA多核苷酸并与具有5′末端和3′末端的互补mRNA杂交，其中第一链cDNA多核苷酸的5′末端包含第一衔接体序列或其互补序列；-合成与第一链cDNA多核苷酸互补并与第一链cDNA多核苷酸杂交的一种或多种第二链cDNA多核苷酸，其中合成包括：i)使mRNA：cDNA杂合体与包含RNA酶H活性的酶接触，从而产生与第一链cDNA杂交的mRNA片段，和ii)使mRNA片段与DNA聚合酶接触，从而在模版引导的聚合酶反应中延伸mRNA片段，其中模板是第一链cDNA多核苷酸并形成双链cDNA多核苷酸；-任选地使一种或多种第二链cDNA多核苷酸与DNA连接酶接触；-使双链cDNA多核苷酸与载有衔接体的标签酶接触，从而形成包含标签化的双链cDNA多核苷酸的反应混合物，所述标签化的双链cDNA多核苷酸包含第一末端和第二末端，其中第一末端包含第一衔接体序列及其互补序列，并且第二末端包含第二衔接体序列及其互补序列，-其中mRNA的5′末端是单链的；或者，-其中mRNA的5′末端包含DNA：RNA杂合体，并且其中该方法包括在反应混合物中扩增标签化的双链cDNA，所述反应混合物包含与第一末端杂交的第一扩增引物和第二和第三扩增引物，其中第二或第三扩增引物与第二末端杂交；或者，-其中，双链cDNA多核苷酸与载有衔接体的标签酶的接触在含有载有同型衔接体的标签酶的反应混合物中进行，所述反应混合物不含有具有不同衔接体的载有衔接体的标签酶。

在一些实施方式中，mRNA的5′末端是单链的。在一些实施方式中，该方法还包括通过使标签化的双链cDNA多核苷酸与第一扩增引物和第二扩增引物接触，从反应混合物中选择性地扩增标签化的双链cDNA多核苷酸，其中第一扩增引物选择性地与第一衔接体序列杂交并且包含第一测序平台特异性衔接体序列，并且其中第二扩增引物选择性地与第二衔接体序列杂交并包含第二测序平台特异性衔接体序列，从而产生测序平台特异性cDNA扩增子。

在一些实施方式中，提供双链mRNA：cDNA杂合体包括使mRNA与逆转录酶和第一链合成引物接触，从而在mRNA模板引导的DNA聚合酶反应中延伸第一链合成引物，其中第一链合成引物包含3′多聚胸腺嘧啶末端区和5′末端，该5′末端包含第一衔接体序列或其互补序列，从而合成与互补mRNA杂交的第一链cDNA多核苷酸，并且其中第一链cDNA的5′末端包含第一衔接体序列或其互补序列。

在一些实施方式中，逆转录酶包含RNA酶H活性，并且使mRNA：cDNA杂合体与包含RNA酶H活性的酶接触包括在逆转录酶存在下孵育mRNA：cDNA杂合体，从而产生与第一链cDNA杂交的mRNA片段。在一些实施方式中，使mRNA：cDNA杂合体与包含RNA酶H活性的酶接触包括使mRNA：cDNA杂合体与不包含逆转录酶活性的酶接触或与从结构上与用于mRNA模板引导的DNA聚合酶反应的逆转录酶不同的逆转录酶接触，由此延伸第一链合成引物并合成与互补mRNA杂交的第一链cDNA多核苷酸，其中mRNA的5′末端是单链的并且第一链cDNA的5′末端包含第一衔接体序列或其互补序列。

在一些实施方式中，该方法包括在包含来自单个细胞的mRNA的反应混合物中进行mRNA模板引导的DNA聚合酶反应，并且在包含来自至少10个细胞，优选50至500个细胞的mRNA的反应混合物中进行mRNA：cDNA杂合体与包含RNA酶H活性的酶的接触。在一些实施方式中，该方法包括在包含来自至少10个细胞，优选50至500个细胞的mRNA的反应混合物中进行mRNA模板引导的DNA聚合酶反应。在一些实施方式中，该方法包括使mRNA片段与包含5′-3′核酸外切酶活性的DNA聚合酶接触。在一些实施方式中，该方法包括使mRNA片段与包含链置换活性的DNA聚合酶接触。

在一些实施方式中，第一链合成引物包含分子条码或分区特异性条码，或其组合。在一些实施方式中，第一链cDNA多核苷酸的5′末端包含分子条码或分区特异性条码，或其组合。在一些实施方式中，标签化的双链cDNA多核苷酸的第一末端包含衔接体序列A，并且标签化的双链cDNA多核苷酸的第二末端包含衔接体序列B，并且该方法包括从反应混合物中选择性地扩增标签化的双链cDNA多核苷酸，通过使标签化的双链cDNA多核苷酸与第一扩增引物，第二扩增引物和第三扩增引物接触，产生测序平台特异性cDNA扩增子，-其中第一扩增引物包含具有与第一衔接体序列A选择性杂交的序列A′的3′区域并且第一扩增引物还包含含有第一测序平台特异性衔接体序列的5′区域；并且-其中第二扩增引物和第三扩增引物各自包含5呕域和3′区域，所述5呕域包含第二测序平台特异性衔接体序列，其中第二或第三扩增引物的3呕域具有与第二衔接体序列B选择性杂交的序列B′。

在一些实施方式中，从反应混合物中选择性扩增在反应混合物中进行，所述反应混合物不包含含有SEQ ID NO：7的扩增引物。在一些实施方式中，从反应混合物中选择性扩增在反应混合物中进行，所述反应混合物不包含含有SEQ ID NO：8的扩增引物。在一些实施方式中：-第一扩增引物自5′至3′包含AATGAGATACGGCGACCACCGAGATCTACAC(SEQ ID NO：1)，并且第二扩增引物自5′至3′包含CAAGCAGAAGACGGCATACGAGAT(SEQ ID NO：2)；或-第一扩增引物包含SEQ ID NO：2，并且第二扩增引物包含SEQ ID NO：1。

在一些实施方式中，-第一扩增引物包含SEQ ID NO：1，并且第二扩增引物自5′至3′包含CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG(SEQ ID NO：3)，其中[i7]是存在或不存在的索引区域，并且包含4-12个核苷酸；或者-第一扩增引物自5′至3′包含CAAGCAGAAGACGGCATACGAGAT[i7]TCGTCGGCAGCGTC(SEQ ID NO：1)，其中[i5]是存在或不存在的索引区域，并且包含4-12个核苷酸。

在一些实施方式中，从反应混合物中扩增标签化的双链cDNA多核苷酸包括使标签化的双链cDNA多核苷酸与包含SEQ ID NO：1的第一扩增引物和两种不同的第二扩增引物接触，其中一个第二扩增引物包含SEQ ID NO：3，并且另一个第二扩增引物包含SEQ ID NO：4。在一些实施方式中，-第一扩增引物包含SEQ ID NO：2，并且第二扩增引物自5′至3′包含AATGAGATACGGCGACCACCGAGATCTACAC[i5]GTCTCGTGGGCTCGG(SEQ ID NO：5)，其中[i5]是存在或不存在的索引区域，并且包含4-12个核苷酸；或者-第一扩增引物自5′至3′包含AATGAGATACGGCGACCACCGAGATCTACAC[i5]TCGTCGGCAGCGTC(SEQ ID NO：6)，其中[i5]是存在或不存在的索引区域，并且包含4-12个核苷酸。

在一些实施方式中，从反应混合物中扩增标签化的双链cDNA多核苷酸包括使标签化的双链cDNA多核苷酸与包含SEQ ID NO：2的第一扩增引物和两种不同的第二扩增引物接触，其中一个第二扩增引物包含SEQ ID NO：5，并且另一个第二扩增引物包含SEQ ID NO：6。在一些实施方式中，使双链cDNA多核苷酸与载有衔接体的标签酶接触包括将包含两个相同多核苷酸衔接体的载有同型载体的标签酶引入包含双链cDNA多核苷酸的反应混合物中，从而将多核苷酸衔接体之一附连到双链cDNA的第二末端。

在一些实施方式中，附连在反应混合物中进行，所述反应混合物不包含载有衔接体的标签酶，所述标签酶包含与载有同型衔接体的标签酶的两个相同的多核苷酸衔接体不同的多核苷酸衔接体。在一些实施方式中，使双链cDNA多核苷酸与载有衔接体的标签酶接触包括：-将包含两个结构上不同的多核苷酸衔接体的载有异型衔接体(heteroadapter)的标签酶引入包含双链cDNA多核苷酸的反应混合物中；或-向包含双链cDNA多核苷酸的反应混合物中引入第一和第二载有同型衔接体的标签酶，其中第一载有同型衔接体(homoadapter)的标签酶包含多核苷酸衔接体，并且第二同型衔接体标签酶包含结构上不同的多核苷酸衔接体，从而附连其中多核苷酸衔接体之一到双链cDNA的第二末端。

在一些实施方式中，载有同型衔接体的标签酶包含具有自5′至3′包含GTCTCGTGGGCTCGG(SEQ ID NO：7)的单链区域的多核苷酸衔接体或具有自5′至3′包含TCGTCGGCAGCGTC(SEQ ID NO：8)的单链区域的多核苷酸衔接体。在一些实施方式中，载有同型衔接体的标签酶包含具有包含SEQ ID NO：7的单链区域的多核苷酸衔接体，第一扩增引物包含SEQ ID NO：1，SEQ ID NO：8或其互补序列，并且第二扩增引物包含SEQ ID NO：7或其互补序列。在一些实施方式中，载有同型衔接体的标签酶包含具有包含SEQ ID NO：7的单链区域的多核苷酸衔接体，第一扩增引物包含SEQ ID NO：1或其互补序列，并且第二扩增引物包含SEQ ID NO：2、3或4或其互补序列。

在一些实施方式中，载有同型衔接体的标签酶包含具有包含SEQ ID NO：7的单链区域的多核苷酸衔接体，第一扩增引物包含SEQ ID NO：2或其互补序列，并且第二扩增引物包含SEQ ID NO：1、5或6或其互补序列。在一些实施方式中，载有同型衔接体的标签酶包含具有包含SEQ ID NO：8的单链区域的多核苷酸衔接体，第一扩增引物包含SEQ ID NO：7或其互补序列，并且第二扩增引物包含SEQ ID NO：8或其互补序列。

在一些实施方式中，载有异型衔接体的标签酶包含含有SEQ ID NO：7的第一多核苷酸衔接体和含有SEQ ID NO：8的第二多核苷酸衔接体。在一些实施方式中，第一扩增引物包含SEQ ID NO：1或其互补序列，第二扩增引物包含SEQ ID NO：4或其互补序列，并且该方法还包括使标签化的双链cDNA多核苷酸与第三扩增引物接触，所述第三扩增引物包含SEQID NO：3或其互补序列。在一些实施方式中，第一扩增引物包含SEQ ID NO：2或其互补序列，第二扩增引物包含SEQ ID NO：5或其互补序列，并且该方法还包括使标签化的双链cDNA多核苷酸与第三扩增引物接触，所述第三扩增引物包含SEQ ID NO：6或其互补序列。在一些实施方式中，与载有衔接体的标签酶接触的双链cDNA多核苷酸包含与原始第二链cDNA多核苷酸杂交的原始第一链cDNA多核苷酸。

另一方面，本发明提供了一种标签化多种cDNA多核苷酸的方法，该方法包括用多种结构不同的mRNA：cDNA杂合体进行根据前述方面或实施方式中任一项的方法。在一些实施方式中，多种结构上不同的mRNA：cDNA杂合体包含来自单个细胞的mRNA。在一些实施方式中，多种结构上不同的mRNA：cDNA杂合体包含来自至少10个细胞，优选50至500个细胞的mRNA。在一些实施方式中，该方法包括合并多种含有mRNA：cDNA杂合体的反应混合物，其中单独反应混合物包含来自单个细胞的mRNA：cDNA杂合体，然后从合并的mRNA：cDNA杂合体合成第二链cDNA多核苷酸。在一些实施方式中，该方法包括合并多种含有mRNA：cDNA杂合体的反应混合物，其中单独反应混合物包含来自单个细胞的mRNA：cDNA杂合体，然后使组合的mRNA：cDNA杂合体与包含RNA酶H活性的酶接触。

在一些实施方式中，该方法包括合并多种含有mRNA：cDNA杂合体的反应混合物，其中单独反应混合物包含来自单个细胞的mRNA：cDNA杂合体，并且其中mRNA是经RNA酶H片段化的，然后使合并的经RNA酶H片段化的mRNA：cDNA杂合体DNA聚合酶接触，从而延伸mRNA片段。在一些实施方式中，该方法包括合并多种含有mRNA：cDNA杂合体的反应混合物，其中单独反应混合物包含来自多个细胞的mRNA：cDNA杂合体，然后从组合的mRNA：cDNA杂合体合成第二链cDNA多核苷酸。在一些实施方式中，该方法包括合并多种含有mRNA：cDNA杂合体的反应混合物，其中单独反应混合物包含来自多个细胞的mRNA：cDNA杂合体，然后使合并的mRNA：cDNA杂合体与包含RNA酶H活性的酶接触。

在一些实施方式中，该方法包括合并多种含有mRNA：cDNA杂合体的反应混合物，其中单独反应混合物包含来自多个细胞的mRNA：cDNA杂合体，并且其中mRNA是经RNA酶H片段化的，然后使合并的经RNA酶H片段化的mRNA：cDNA杂合体DNA聚合酶接触，从而延伸mRNA片段。

另一方面，本发明提供了对测序平台特异性cDNA扩增子测序的方法，包括：-提供测序平台特异性扩增子，其中测序平台特异性扩增子包含双链多核苷酸，其包含：i)包含SEQ ID NO：1的第一末端；ii)包含SEQ ID NO：2的第二末端；和iii)包含双链cDNA多核苷酸的中间区域，所述双链cDNA多核苷酸包含与mRNA序列互补的第一链cDNA多核苷酸，所述第一链cDNA多核苷酸与对应于mRNA序列的第二链cDNA多核苷酸杂交；并且-用含有SEQ IDNO：8的第二测序引物从第二末端对扩增子测序。在一些实施方式中，第一末端包含第二链cDNA多核苷酸的3′聚腺苷酸区域，其对应于mRNA序列的3′聚腺苷酸化区域。在一些实施方式中，第二链cDNA多核苷酸的长度小于相应mRNA长度的90％。

在一些实施方式中，该方法包括用第一测序引物从第一末端对扩增子进行测序，然后用第二测序引物从第二末端对扩增子进行测序。在一些实施方式中，第一测序引物自5′至3′包含GCCTGTCCGCGGAAGCAGTGGTATCAACGCAGAGTAC(SEQ ID NO：9)或自5′至3′包含ACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO：12)的序列。在一些实施方式中，第二测序引物自5′至3′包含AGATGTGTATAAGAGACAG(SEQ ID NO：10)。在一些实施方式中，第二测序引物自5′至3′包含TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG(SEQ ID NO：11)。

另一方面，本发明提供了对多个测序平台特异性cDNA扩增子测序的方法，包括：-提供多个测序平台特异性扩增子，其中单独测序平台特异性扩增子包含双链多核苷酸，其包含：i)包含SEQ ID NO：1的第一末端；ii)包含SEQ ID NO：2的第二末端；和iii)包含双链cDNA多核苷酸的中间区域，所述双链cDNA多核苷酸包含与mRNA序列互补的第一链cDNA多核苷酸，所述第一链cDNA多核苷酸与对应于mRNA序列的第二链cDNA多核苷酸杂交；-用含有SEQ ID NO：8的第二测序引物从第二末端对扩增子的部分测序；并且-用自5′至3′含有GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG(SEQ ID NO：12)的第三测序引物从第二末端对扩增子的部分测序。在一些实施方式中，第二测序引物包含SEQ ID NO：11。

另一方面，本发明提供了包含5′末端和3′末端的引物，其中：5′末端包含SEQ IDNO：2，且3′末端包含SEQ ID NO：8；或5′末端包含SEQ ID NO：1，且3′末端包含SEQ ID NO：7。在一些实施方式中，5′末端包含SEQ ID NO：2，且3′末端包含SEQ ID NO：8。在一些实施方式中，引物包含SEQ ID NO：4。在一些实施方式中，5′末端包含SEQ ID NO：1，且3′末端包含SEQID NO：7。在一些实施方式中，引物包含SEQ ID NO：5。

另一方面，本发明提供了包含以下的试剂盒：-含有引物的第一容器，所述引物包含5′末端和3′末端，其中：5′末端包含SEQ ID NO：2，且3′末端包含SEQ ID NO：8；或5′末端包含SEQ ID NO：1，且3′末端包含SEQ ID NO：7；和-含有DNA聚合酶的第二容器。

另一方面，本发明提供了一种反应混合物，其包含：包含SEQ ID NO：9的第一引物；和包含SEQ ID NO：11的第二引物。

附图说明

图1A和1B说明了载有同型衔接体(A)或异型衔接体(B)的标签酶和相容的扩增引物的各种组合，其可用于本文所述的方法中以产生cDNA测序文库。

图2说明了各种第二链合成方案。“滴”是指在分区中进行的步骤(例如，乳液液滴)。“块(bulk)”是指在合并分区之后执行的步骤。+/-连接酶表明连接和连接酶的使用是任选的。

图3说明了下一代测序工作流程，其中进行标签化以添加标签衔接体(例如，用NEXTERA DNA文库制备试剂盒)，并且使用PCR将Illumina流动池光栅序列P5和P7附加到标签化产物的不同末端。

图4说明了如实施例2中所述进行的第二链直接方案的结果。

图5示出了该方法在三个不同用户和两个不同水凝胶颗粒批次的四个不同实验中的再现性。

图6a说明了在PCR扩增的标签化后步骤中50％的所需衔接体标签化分子无法高效扩增的机制。通常，PCR扩增的标签化后步骤用于将流动池移植序列附加到靶分子的末端。因此，50％的这种机制可能导致缺乏50％的所需衔接体标签化分子的测序数据。

图6b说明了在标签化步骤期间使用同型衔接体加载的标签酶以消除图6a中所示的一部分所需衔接体标签化分子的低效扩增机制。

图7a-7c说明PCR扩增的修饰的标签化后步骤，其中针对与第一cDNA链的5′末端对应的衔接体标签化末端的引物与修饰的PCR引物(例如，修饰的PCR引物1)和常规PCR引物(例如，NEXTERA PCR引物2))组合使用以与对应于第一链的3′末端的衔接体标签化末端杂交，从而支持所有所需衔接体标签化分子的高效PCR。

图7d示出了在图7a-7d中所示的方法中产生的扩增产物的测序工作流程。

图8a-8d说明消除标签化后间隙填充prePCR步骤以增加PCR扩增反应的特异性。

图9a-9b示出了用载有异型衔接体的标签酶制备的文库以产生产物的工作流程(图9a)和高通量测序结果(图9b)，所述产物然后用两种不同的第二引物与第一引物的混合物扩增。

定义

除非另有说明，本文所用的所有科技术语具有本发明所属领域普通技术人员通常所理解的含义。通常，本文所用的命名和下述细胞培养、分子遗传学、有机化学和核酸化学以及杂交中的实验室步骤均为本领域熟知和常用的。使用标准技术进行核酸和肽合成。按照本领域和各种通用参考文献所述的常规方法进行这些技术和步骤(通常参见，Sambrook等，《分子克隆：实验室手册》(MOLECULAR CLONING：A LABORATORY MANUAL)，第2版(1989)冷泉港实验室出版社(Cold Spring Harbor Laboratory Press)，纽约冷泉港(Cold SpringHarbor，N.Y.)，其通过引用纳入本文)，全文中提供这些参考文献。本文所用的命名以及下述分析化学和有机合成中的实验室步骤均为本领域熟知且常用。

术语“扩增反应”指用于以线性或指数方式倍增核酸靶序列拷贝的各种体外方法。这类方法包括但不限于聚合酶链反应(PCR)；DNA连接酶链反应(参见美国专利号4,683,195和4,683,202，PCR Protocols：A Guide to Methods and Applications(PCR方案：方法和应用指南)(Innis等编，1990))(LCR)；基于QBeta RNA复制酶和基于RNA转录的扩增反应(例如，涉及T7、T3或SP6引导的RNA聚合)，例如转录扩增系统(TAS)，基于核酸序列的扩增(NSABA)，和自主维持序列复制(3SR)；等温扩增反应(例如，单引物等温扩增(SPIA))；以及本领域技术人员已知的其它方法。

“扩增”指将溶液置于足以扩增多核苷酸的条件下的步骤(如果反应的所有组分是完整的)。扩增反应的组分包括，例如，引物、多核苷酸模板、聚合酶、核苷酸等。术语“扩增”一般是指靶核酸的“指数型”增长。然而，本文所用的“扩增”也可指核酸的选择靶序列数量的线性增长，如由循环测序或线性扩增所得。在一个示例性实施方式中，扩增是指使用第一和第二扩增引物的PCR扩增。

术语“扩增反应混合物”指包含用于扩增靶核酸的各种试剂的水性溶液。这些试剂包括酶、水性缓冲剂、盐、扩增引物、靶核酸和三磷酸核苷。扩增反应混合物还可包含稳定剂和其它添加剂以优化效率和特异性。根据上下文，该混合物还可以是完整或不完整的扩增反应混合物。

“聚合酶链反应”或“PCR”是指靶双链DNA的特定区段或子序列得以几何级数式扩增的一种方法。PCR是本领域技术人员所熟知的；参见例如，美国专利号4,683,195和4,683,202；和《PCR方案：方法和应用指南》，Innis等编，1990。示例性PCR反应条件一般包括两步或三步循环。两步循环具有变性步骤，之后是杂交/延伸步骤。三步循环包括变性步骤，之后是杂交步骤，之后是独立的延伸步骤。

“引物”指与靶核酸上的序列杂交并且用作核酸合成的起始点的多核苷酸序列。引物可以是各种长度的并且通常长度小于50个核苷酸，例如长度为12-30个核苷酸。可基于本领域技术人员已知的原理设计用于PCR的引物的长度和序列，参见例如Innis等(同上)。引物可以是DNA、RNA或DNA部分与RNA部分的嵌合体。在一些情况中，引物可包括一个或多个带修饰或非天然的核苷碱基。在一些情况中，引物被标记。

核酸或其部分与另一核酸“杂交”的某些条件使得生理缓冲液(例如，pH 6-9，25-150mM盐酸盐)中限定温度下的非特异性杂交最少。在一些情况中，核酸或其部分与一组靶核酸之间共有的保守序列杂交。在一些情况中，如果包括与超过一个核苷酸伴侣互补的“通用”核苷酸在内有至少约6、8、10、12、14、16或18个连续的互补核苷酸，引物或其部分能杂交至引物结合位点。或者，如果在至少约12、14、16或18个连续的互补核苷酸中有不到1或2个互补错配，引物或其部分能杂交至引物结合位点。在一些实施方式中，发生特异性杂交的限定温度是室温。在一些实施方式中，发生特异性杂交的限定温度高于室温。在一些实施方式中，发生特异性杂交的限定温度至少约37、40、42、45、50、55、60、65、70、75或80℃。在一些实施方式中，发生特异性杂交的限定温度是37、40、42、45、50、55、60、65、70、75或80℃。

“模板”指包含待扩增的多核苷酸、其侧或为一对引物杂交位点的多核苷酸序列。因此，“靶模板”包含毗邻引物的至少一个杂交位点的靶多核苷酸序列。在一些情况中，“靶模板”包含侧接有“正向”引物和“反向”引物的杂交位点的靶多核苷酸序列。

本文所用的“核酸”表示DNA、RNA、单链、双链、或更高度聚集的杂交基序及其任意化学修饰。修饰包括但不限于，提供引入其它电荷、极化性、氢键、静电相互作用、与核酸配体碱基或核酸配体整体的连接点和作用点的化学基团的那些修饰。这类修饰包括但不限于，肽核酸(PNA)、磷酸二酯基团修饰(例如，硫代磷酸酯、甲基膦酸酯)、2′-位糖修饰、5-位嘧啶修饰、8-位嘌呤修饰、环外胺处的修饰、4-硫尿核苷的取代、5-溴或5-碘-尿嘧啶的取代、骨架修饰、甲基化、不常见的碱基配对组合如异碱基(isobase)、异胞苷和异胍(isoguanidine)等。核酸也可包含非天然碱基，如硝基吲哚。修饰还可包括3′和5′修饰，包括但不限于用荧光团(例如，量子点)或其他部分加帽。

“聚合酶”是指能进行模板引导的多核苷酸(例如，DNA和/或RNA)合成的酶。该术语同时包括全长多肽和具有聚合酶活性的结构域。DNA聚合酶是本领域技术人员熟知的，包括但不限于分离或衍生自激烈火球菌(Pyrococcus furiosus)、滨海嗜热球菌(Thermococcuslitoralis)和海栖热袍菌(Thermotoga maritime)的DNA聚合酶或其修饰版本。市售可得的聚合酶的其他示例包括但不限于：克列诺(Klenow)片段(新英格兰生物实验室公司、TaqDNA聚合酶(凯杰公司(QIAGEN))、9°N^TM DNA聚合酶(新英格兰生物实验室公司)、DeepVent^TM DNA聚合酶(新英格兰生物实验室公司)、Manta DNA聚合酶(酶学公司)、Bst DNA聚合酶(新英格兰生物实验室公司)、和phi29 DNA聚合酶(新英格兰生物实验室公司)。

聚合酶包括DNA-依赖聚合酶和RNA-依赖聚合酶，如逆转录酶。已知至少5个DNA-依赖DNA聚合酶家族，虽然大多数落入A、B和C家族。其它类型DNA聚合酶包括噬菌体聚合酶。相似地，RNA聚合酶通常包括真核RNA聚合酶I、II和III，和细菌RNA聚合酶以及噬菌体和病毒聚合酶。RNA聚合酶可以是DNA依赖性和RNA依赖性的。

本文所用术语“划分”或“经划分的”指将样品分为多个部分或多个“分区(partition)”。分区通常是实体意义上的，例如，一个分区中的样品不与或基本不与邻近分区中的样品混合。分区可以是固体或流体。在一些实施方式中，分区是固体分区，例如微通道。在一些实施方式中，分区是流体分区，例如液滴。在一些实施方式中，流体分区(如液滴)是不互溶的流体(如水和油)的混合物。在一些实施方式中，流体分区(如液滴)是水性液滴，其被不互溶的运载体流体(如油)包围。

一些情况下，分区是虚拟(virtual)的。在优选实施方式中，虚拟分区需要一种分子或一组分子的实体性改变，所述改变由此划定就该分子或该组分子而言独特的分区。适于确立或保持虚拟分区的典型实体性改变包括但不限于：核酸条码、可检测标记等。例如，样品可在物理上被分区，且各分区的组分带有独特标识符(例如，独有核酸序列条码)的标签，使得所述标识符在与其它分区比较时是独特的，但在该分区的组分间是共有的。独特标识符可用以在需将实体上分区的物质合并的下游应用中维持虚拟分区。因此，如果样品是被实体上划分为包含单个细胞的多个分区的细胞样品，那么标识符可在分区被重新合并之后鉴定衍生自单个细胞的不同核酸。

如本文所用，“标签”是指非靶核酸组分，通常是DNA，其提供对与其连接的核酸片段寻址的手段。例如，在优选的实施方式中，标签包含允许对标签所附连的DNA进行鉴定，识别和/或分子或生物化学操作的核苷酸序列(例如，通过提供用于退火寡核苷酸的位点，所述寡核苷酸例如用于通过DNA聚合酶延伸的引物，或用于捕获或用于连接反应的寡核苷酸)。将标签连接到DNA分子的过程在本文中有时称为“标签化”，并且经历标签化或含有标签的DNA被称为“标签化的”(例如，“标签化的DNA”)。标签可以是条码或衔接体序列。

如本文所用“条码”是鉴别其所偶联分子的短核苷酸序列(例如，长至少约4、6、8、10或12个核苷酸)。例如，条码可用来鉴定划分产物中的分子。相对于其它分区的条码，这样的分区特异性条码应为该分区所独有。例如，含有来自单一细胞的靶RNA的划分产物可以经受逆转录条件，各划分产物中采用的引物含有不同的划分产物特异性条码序列，从而将独有“细胞条码”的拷贝纳入各划分产物逆转录所得核酸。由此，来自各细胞的核酸可藉由独有“细胞条码”而与其它细胞的核酸相区分。一些情况中，细胞条码是由偶联至颗粒的寡核苷酸上存在的“颗粒条码”来提供，其中所述颗粒条码为偶联至该颗粒的全部或基本全部寡核苷酸所共有(例如，在它们之间相同或基本相同)。因此，细胞和颗粒条码可存在于分区中、附着于颗粒、或结合细胞核酸，以同一条码序列的多个拷贝。相同序列的细胞或颗粒条码可鉴定为衍生自相同细胞、分区或颗粒。此类划分产物特异性的细胞或粒子条码可用各种方法产生，这些方法导致条码偶联至或纳入固相或水凝胶支持物(例如，固体珠或粒子或水凝胶珠或粒子)。一些情况中，使用本文所述的拆分(split)与混合(也称拆分与汇集)合成方案来产生分区特异性细胞或颗粒条码。分区特异性条码可以是细胞条码和/或颗粒条码。类似地，细胞条码可以是分区特异性条码和/或颗粒条码。此外，颗粒条码可以是细胞条码和/或分区特异性条码。

其它情况中，条码专一性辨识其偶联的分子。例如，通过使用各自含有独有“分子条码”的引物进行逆转录。同样在另一些实施例中，可以利用包含各分区所独有的“分区特异性条码”、以及各分子独有的“分子条码”的引物。条码化之后，可以合并分区，并任选地扩增，而保持虚拟分区。因此，例如，可计算包括各条码的靶核酸(例如，逆转录所得的核酸)的存在与否(例如，通过测序)，而无需维持实体分区。

条码序列的长度决定了可以对多少独特的样品进行区分。例如，1个核苷酸条码可以对不多于4个样品或分子进行分区；4个核苷酸条码可以对不多于4⁴(即256)个样品进行分区；6个核苷酸条码可以对不多于4096个不同样品进行分区；而8个核苷酸的条码可以标引不多于65,536个不同样品。此外，条码可通过对第一和第二链合成都采用条码化引物(通过连接)或在标签化反应中来同时附着于两条链。

通常使用固有不精确的过程来合成和/或聚合(例如，扩增)条码。因此，旨在均一的条码(例如，单个分区、细胞或珠的全部条码化核酸所共有的细胞、颗粒或分区特异性条码)可以相对于范本条码序列包含不同的N-1缺失或其它突变。因此，被称作“相同的”或“基本相同的”拷贝的条码是指由于例如合成、聚合或纯化错误中一个或多个错误而导致条码相对范本条码序列含有不同的N-1缺失或其它突变的不同的条码。此外，在使用例如本文所述的拆分与汇集方法和/或核苷酸前体分子等同混合物的合成过程中，条码核苷酸的随机偶联可能导致低概率事件，其中条码并非绝对独特(例如，不同于群体的其它条码，或不同于不同分区、细胞或珠的条码)。但是，这类偏离理论上理想的条码的轻微偏差不会干扰本文所述的高通量测序分析方法、组合物和试剂盒。因此，如本文所用，术语“独特/独有”在涉及颗粒、细胞、分区特异性或分子条码的内容中涵盖偏离理想条码序列的各种非有意的N-1缺失和突变。一些情况中，由于条码合成、聚合和/或扩增所致的不精确性质造成的问题通过对与待区分的条码序列的数量相比进行可能的条码序列的过量采样(oversampling)来克服(例如，至少约2、5、10倍或更多倍的可能的条码序列)。例如，可用具有9个条码核苷酸的细胞条码(代表262,144个可能的条码序列)来分析10,000个细胞。本领域熟知条码技术的使用，参见例如Katsuyuki Shiroguchi等人Proc Natl Acad Sci U S A.，2012年1月24日109(4)：1347-52和Smith，AM等人的Nucleic Acids Research Can 11，(2010)。使用条码技术的其他方法和组合物包括U.S.2016/0060621中描述的那些。

“转座酶”或“标签酶”是指这样的酶，所述酶能够与含转座子末端的组合物形成功能性复合物并催化含转座子末端的组合物插入或转移到与该组合物在体外转座反应中孵育的双链靶DNA中。

术语“转座子末端”是指双链DNA，其仅显示与在体外转座反应中起作用的转座酶形成复合物所必需的核苷酸序列(“转座子末端序列”)。转座子末端形成“复合物”或“突触复合物”或“转座体复合物”或“具有转座酶或整合酶的转座体组合物，其识别并结合转座子末端，并且该复合物能够将转座子末端插入或转座到与该复合物在体外转座反应中孵育的靶DNA中。转座子末端显示两个互补序列，其由“转移的转座子末端序列”或“转移的链”和“非转移的转座子末端序列”或“非转移的链”组成。例如，一个转座子末端与过度活跃的在体外转座反应中有活性的Tn5转座酶(例如，EZ-Tn5^TM转座酶，EPICENTRE生物技术公司(EPICENTRE Biotechnologies)，美国威斯康星州麦迪逊)形成复合物，其包含表现出如下“转移的转座子末端序列”的转移链：

5′

AGATGTGTATAAGAGACAG 3′，

以及表现出如下“非转移的转座子末端序列”的非转移链：

5′

CTGTCTCTTATACACATCT 3′.

转移链的3′末端在体外转座反应中连接或转移至靶DNA。表现出与转移的转座子末端序列互补的转座子末端序列的非转移链在体外转座反应中不连接或转移至靶DNA。

在一些实施方式中，转移的链和非转移的链共价连接。例如，在一些实施方式中，转移的和非转移的链序列在单个寡核苷酸上提供，例如以发夹构型提供。因此，尽管非转移链的游离末端不通过转座反应直接与靶DNA连接，但非转移的链间接地附连至DNA片段，因为非转移的链通过发夹结构的环与转移的链连接。

“转座子末端组合物”是指包含转座子末端(即，能够与转座酶一起作用以进行转座反应的最小双链DNA区段)，任选加上另外的一个或多个序列的组合物。转移的转座子末端序列的5′-和/或非转移的转座子末端序列的3′-。例如，附连于标签的转座子末端是“转座子末端组合物”。在一些实施方式中，转座子末端组合物包含两个转座子末端寡核苷酸或由两个转座子末端寡核苷酸组成，所述两个转座子末端寡核苷酸由“转移的转座子末端寡核苷酸”或“转移的链”和“非转移链末端寡核苷酸”或“非转移链”组成，它们组合显示转座子末端的序列，并且其中一条或两条链包含另外的序列。

术语“转移的转座子末端寡核苷酸”和“转移的链”可互换使用，是指“转座子末端”和“转座子末端组合物”的转移部分，即无论转座子末端是否附连于标签或其他部分。类似地，术语“非转移的转座子末端寡核苷酸”和“非转移链”可互换使用，并且指“转座子末端”和“转座子末端组合物”的非转移部分。在一些实施方式中，转座子末端组合物是“发夹转座子末端组合物”。如本文所用，“发夹转座子末端组合物”是指由单个寡脱氧核糖核苷酸组成的转座子末端组合物，所述寡脱氧核糖核苷酸在其5′末端显示非转移的转座子末端序列，在其3′末端显示转移的转座子末端序列，并且在非转移的转座子末端序列和转移的转座子末端序列之间显示足够长的间插任意序列以允许分子内茎环形成，使得转座子末端部分可以在转座反应中起作用。在一些实施方式中，发夹转座子末端组合物的5′-末端在5′-核苷酸的5′-位置具有磷酸基团。在一些实施方式中，发夹转座子末端组合物的非转移的转座子末端序列和转移的转座子末端序列之间的间插任意序列提供用于特定用途或应用的标签(例如，包括一个或多个标签结构域)。

在引物序列，衔接体序列，转移的链序列或标签序列(例如，附连于转移链的5′末端的标签)的上下文中，术语“A”是指任意的核酸序列，该核酸序列具有足够的长度和序列，用于与其反向互补序列“A’”选择性杂交。类似地，术语“B”是指任意核酸序列，其具有足够长度和序列，用于与其反向互补序列“B′”进行选择性杂交。类似地，术语”C”是指任意核酸序列，其具有足够长度和序列，用于与其反向互补序列“C′”进行选择性杂交。A，A’，B，B’，C和C’各自独立地包含或由以下组成：长度为约8至约50个核苷酸，或更多，约10至约30个核苷酸，约12至约24个核苷酸，或10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。

类似地，在引物序列，衔接体序列，转移的链序列或标签序列(例如，附连于转移链的5′末端的标签)的上下文中，术语“a”是指任意的核酸序列，该核酸序列具有足够长度和序列，用于与其反向互补序列“a′”选择性杂交。类似地，术语“b”是指任意核酸序列，其具有足够长度和序列，用于与其反向互补序列“b′”进行选择性杂交。类似地，术语“c”是指任意核酸序列，其具有足够长度和序列，用于与其反向互补序列“c′”进行选择性杂交。a，a’，b，b’，c和c’各自独立地包含或由以下组成：长度为约8至约50个核苷酸，或更多，约10至约30个核苷酸，约12至约24个核苷酸，或10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。此外，a，a′，b，b′，c和c′是在至少1、2、3、4、5、6、7、8、9、10、11、12、15、18、或所有核苷酸位置上与A，A′，B，B′，C或C′的任何序列不同的序列。

类似地，在引物序列，衔接体序列，转移的链序列或标签序列(例如，附连于转移链的5′末端的标签)的上下文中，术语“α”是指任意的核酸序列，该核酸序列具有足够长度和序列，用于与其反向互补序列“α′”选择性杂交。类似地，术语“β”是指任意核酸序列，其具有足够长度和序列，用于与其反向互补序列“β′”进行选择性杂交。类似地，术语“δ”是指任意核酸序列，其具有足够长度和序列，用于与其反向互补序列“δ′”进行选择性杂交。α，α’，β，β’，δ和δ′各自独立地包含或由以下组成：长度为约8至约50个核苷酸，或更多，约10至约30个核苷酸，约12至约24个核苷酸，或10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。此外，α，α’，β，β’，δ和δ’是在至少1、2、3、4、5、6、7、8、9、10、11、12、15、18，或所有核苷酸位置上与A，A′，B，B′，C，C′，a，a′，b，b′，c或c′的任何序列不同的序列。本领域技术人员将理解，提供A，B，C，a，b，c，α，β或δ中的任何一个的实例隐含地提供其同型反向互补序列A′，B′，C′，a′，b′，c′，α′，β′或δ′。类似地，提供A′，B′，C′，a′，b′，c′，α′，β′或δ′中的任何一个的示例隐含地提供其同型反向互补序列A，B，C，a，b，c，α，β或δ。

如本文所用，术语“[i5]”是指存在或不存在的多核苷酸，并且当存在时，其长度为4-12个核苷酸并包含索引区。在示例性实施方式中，i5指代以下可选序列中的一个或多个或全部：

或

如本文所用，术语“[i7]”是指存在或不存在的多核苷酸，并且当存在时，其长度为4-12个核苷酸并包含索引区。在示例性实施方式中，i7指代以下可选序列中的一个或多个或全部：

或

发明详述

I.引言

本文描述了用于转录组分析的方法和组合物。该方法可以用含有聚-T区和第一衔接体序列(例如A)的引物逆转录mRNA开始，从而进行第一链cDNA合成。得到的第一链cDNA含有具有第一衔接体序列的5′末端。可以使用本领域已知的各种方法进行第二链合成，所述方法不要求第一链合成反应到达mRNA的5′末端。例如，第二链合成可以通过使mRNA逆转录形成的mRNA/cDNA杂合体与具有RNA酶H活性的酶接触以产生mRNA/cDNA杂合体来进行，其中mRNA链含有多个与第一链cDNA分子杂交的mRNA片段。然后可以使多个mRNA片段与DNA聚合酶(例如，链置换DNA聚合酶或包含5′至3′外切核酸酶活性的DNA聚合酶)接触，所述DNA聚合酶能够在DNA模板引导的聚合酶反应中延伸RNA引物，因此形成双链cDNA多核苷酸，其中含有第一衔接体序列的双链cDNA多核苷酸的末端包含第一链cDNA分子的5′末端并对应于mRNA的3′末端。

具有RNA酶H活性的酶可以是用于进行第一链合成的相同逆转录酶。或者，RNA酶H活性由不是用于进行第一链合成的逆转录酶的酶提供。例如，RNA酶H活性可以是在第一链合成已经开始后与mRNA/cDNA杂合体接触的不同逆转录酶。或者，RNA酶H活性可以由不是逆转录酶的酶提供。

在一些实施方式中，使用不需要第一链合成反应到达mRNA的5′末端的其他方法进行第二链合成。这些方法包括例如随机引发。

在这样的实施方式中，其中第一链合成用聚-T引物引发，并且第二链合成用与第一链合成反应相容的方法进行，所述第一链合成反应未到达mRNA的5′末端，通过逆转录成具有第一衔接体序列的双链cDNA分子的mRNA分子的百分比测量的cDNA合成效率可以显著高于通常用于制备用于高通量测序的cDNA文库的其他方法(例如，模板切换)。在一些情况下，效率可以为至少10％，至少25％，至少30％，至少35％，至少40％，至少45％，至少50％，至少55％，至少60％，至少65％，至少70％，或至少75％。在一些情况下，效率可以为约30％至约75％，或约30％至约50％，或更高。

在一些情况下，通过如本文所述产生的cDNA文库的高通量测序中每个细胞检测到的独特转录物的数量来测量的效率可以平均(数均)高达8,000至约15,000，或约4,000至约11,000。在一些情况下，对于哺乳动物细胞(例如，人，非人灵长类动物，啮齿动物，大鼠或小鼠)，通过如本文所述产生的cDNA文库的高通量测序中每个细胞检测到的基因的数量来测量的效率可以平均(中值)高达1,500至约6,000，或约1,500至约5,000。在一些情况下，本文所述的第一和第二链合成方法比其他方法更具可再现性，所述其他方法例如需要第一链合成到模板RNA链末端的方法(例如，基于模板切换寡核苷酸的方法)。

在这样的实施方式中，其中第一链合成用聚-T引物引发并且第二链合成用随机引物或RNA H产生mRNA片段引发，仅双链cDNA分子的一端被，例如用衔接体序列，细胞条码，分区特异性条码，分子条码，或其两个或全部的组合标签化。然而，常见的测序平台特异性工作流程需要cDNA测序文库在两端含有衔接体序列。通常，每端的衔接体序列必须与另一端不同。然而，在一些实施方式中，在两端使用相同的衔接体序列或其反向互补序列与测序平台相容。因此，本文描述了在双链cDNA分子的另一端引入相容的衔接体序列的方法。在一些实施方式中，所述方法不依赖于未标签化末端的序列。在一个示例性实施方式中，衔接体序列通过标签酶与双链cDNA分子的另一端附连。

II.组合物

扩增引物

本文描述了用于PCR扩增含有第一末端和第二末端的双链cDNA多核苷酸的第一(例如，正向)和第二(例如，反向)引物，其中第一末端用衔接体序列A和互补序列A′标签化，并且第二末端用衔接体序列B和互补序列B′标签化。通常，第一末端是指这样的末端，该末端对应于cDNA分子的mRNA模板的3′末端和5′末端第一链cDNA分子。在一些情况下，双链cDNA多核苷酸的第二末端还含有衔接体序列b和b′或c和c′。

在一些实施方式中，第一引物包含序列A′和/或选择性地与A杂交。在一些情况下，第一引物包含序列A′。在一个示例性实施方式中，A′自5′至3′包含GCCTGTCCGCGGAAGCAGTGGTATCAACGCAGAGTAC。在另一个示例性实施方式中，A′自5′至3′包含ACACTCTTTCCCTACACGACGCTCTTCCGATCT的至少前12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸，或所有核苷酸。在一些情况下，第一引物还包含序列α′。通常，含有α′的第一引物自5′至3′包含：α′，A′。在一些情况下，α′包含测序平台特异性衔接体序列或其互补序列。例如，α′可包含P5或P7 Illumina移植序列(P5或P7 Illumina流动池移植序列)。在一个示例性实施方式中，α′自5′至3′包含AATGATACGGCGACCACCGAGATCTACAC的P5illumina移植序列。在另一个示例性实施方式中，α′自5′至3′包含CAAGCAGAAGACGGCATACGAGAT的P7 illumina移植序列。

在一些实施方式中，第二引物包含序列b和/或选择性地与b’杂交。在一些情况中，第二引物包含序列b和选择性地与b’杂交。在一个示例性实施方式中，b自5′至3′包含：TCGTCGGCAGCGTC。在一些情况中，第二引物还包含序列β和/或选择性地与β’杂交。在一些情况中，第二引物包含序列β和选择性地与β’杂交。通常，此类第二引物自5′至3′包含：β，b。在一些情况下，β包含测序平台特异性衔接体序列或其互补序列。例如，β可以包含如上所述的P5或P7 illumina移植序列。

在一些实施方式中，第二引物包含序列c和/或选择性地与c’杂交。在一些情况中，第二引物包含序列c和选择性地与c’杂交。在一个示例性实施方式中，c自5′至3′包含：GTCTCGTGGGCTCGG。在一些情况中，第二引物还包含序列β和/或选择性地与β’杂交。在一些情况中，第二引物包含序列β和选择性地与β’杂交。通常，此类第二引物自5′至3′包含：β，c。在一些情况下，β包含测序平台特异性衔接体序列或其互补序列。例如，β可以包含如上所述的P5或P7 illumina移植序列。

通常，当用作PCR扩增的引物对时，第一和第二引物包含不同的测序平台特异性衔接体序列。例如，当第一引物包含P5移植序列时，第二引物可包含P7移植序列。又例如，当第一引物包含P7移植序列时，第二引物可包含P5移植序列。因此，用这种第一和第二引物扩增的cDNA多核苷酸可含有两个不同的移植序列，每个末端一个。例如，扩增的cDNA可在一端(例如，第一末端)含有P5序列，在另一末端(例如，第二末端)含有P7移植序列。又例如，扩增的cDNA可以在第一末端含有P7序列，在第二末端含有P5移植序列。

如下面进一步描述的，含有b的第二扩增引物和含有c的第二扩增引物可以与本文所述的第一扩增引物同时用于反应混合物中。此类反应混合物可用于，例如，其中存在或可存在至少两种不同的cDNA多核苷酸，其中第一cDNA多核苷酸可用本文所述的第一扩增引物和含有b的第二扩增引物扩增，第二cDNA多核苷酸可用本文所述的第一扩增引物和含有c的第二扩增引物扩增。如本文所用，在提供或使用一种第一扩增引物和两种不同的第二扩增引物的情况下，两种不同的第二扩增引物之一可称为第三扩增引物。可以例如使用载有异型衔接体的标签酶或如本文所述的两种不同的载有同型衔接体的标签酶产生这种反应混合物。

在一些实施方式中，本发明提供了包含5′末端和3′末端的扩增引物，其中：5′末端包含SEQ ID NO：2，且3′末端包含SEQ ID NO：8；或5′末端包含SEQ ID NO：1，且3′末端包含SEQ ID NO：7。在一些情况中，5′末端包含SEQ ID NO：2，且3′末端包含SEQ ID NO：8。在一些情况中，5′末端包含SEQ ID NO：1，且3′末端包含SEQ ID NO：7。

可用于本文所述方法和组合物的其他扩增引物包括但不限于以下：自5′至3′包含以下的扩增引物：

图1A和1B说明了两种或更多种上述扩增引物，以及可用于本发明方法的相应转移末端的各种说明性组合。

标签酶

本文描述了载有异型衔接体的标签酶和载有同型衔接体的标签酶，以及使用这类标签酶的组合物和方法。载有同型衔接体的标签酶是含有单个转移的链序列的标签酶。因此，使靶多核苷酸(例如，双链cDNA)与载有同型衔接体的标签酶接触将单一种类的转移的链共价连接至由标签酶产生的片段的5′末端。在一些实施方式中，载有同型衔接体的标签酶用于不含有负载不同的标签酶(例如，不含有载有不同同型衔接体的标签酶和不含载有异型衔接体的标签酶)的反应混合物中。在这种反应混合物中，转移的链对于标签化反应的每种产物是相同的。

载有异型衔接体的标签酶是含有两种不同的转移的链的标签酶，其中两条转移的链中的一条在标签化反应中转移。因此，使靶多核苷酸(例如，双链cDNA)与载有异型衔接体的标签酶接触将两种转移的链中任一个共价连接至由标签酶产生的片段的5′末端。在一些实施方式中，在反应混合物中使用载有异型衔接体的标签酶以将两种不同转移的链之一转移至反应混合物中的靶多核苷酸。因此，靶多核苷酸将用任一转移的链或两种载有异型衔接体的标签酶标签化。类似地，可以在反应混合物中使用两种不同的载有同型衔接体的标签酶，以实现两种不同转移的链向靶多核苷酸的相同转移。

载有衔接体的标签酶进一步描述于例如美国专利公开号：2010/0120098；2012/0301925；和2015/0291942以及美国专利号：5,965,443；美国专利6,437,109；7083980；9005935；和9,238,671，其中每个的内容通过引用全文并入本文用于所有目的。

在一些实施方式中，载有同型衔接体的标签酶包含转移的链，所述转移的链包含序列B和/或选择性地与B′杂交。在一些实施方式中，载有同型衔接体的标签酶包含序列B并选择性地与B′杂交。在一个示例性实施方式中，载有同型衔接体的标签酶包含含有B或由B组成的转移链，其中B自5′至3′具有以下序列：AGATGTGTATAAGAGACAG。在一些实施方式中，载有同型衔接体的标签酶的转移的链还包含序列b和/或选择性地与b′杂交。在一些实施方式中，载有同型衔接体的标签酶的转移的链还包含序列b和选择性地与b′杂交。在一个示例性实施方式中，载有同型衔接体的标签酶包含含有b或由b组成的转移链，其中b自5′至3′具有以下序列：TCGTCGGCAGCGTC。在一些情况下，载有同型衔接体的标签酶包含转移的链，其自5′至3′包含以下或由以下组成：b，B。在一些情况下，载有同型衔接体的标签酶包含转移的链，其从5′至3′包含以下或由以下组成：b，B，其中b，B自5′至3′具有序列：TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG。

在一些实施方式中，包含B的载有同型衔接体的标签酶的转移的链和/或与B′选择性杂交的序列进一步包含序列c和/或选择性地与c′杂交。在一些实施方式中，载有同型衔接体的标签酶还包含序列c并选择性地与c′杂交。在一个示例性实施方式中，载有同型衔接体的标签酶包含含有c或由c组成的转移链，其中c自5′至3′具有以下序列：GTCTCGTGGGCTCGG。在一些情况下，载有同型衔接体的标签酶自5′至3′包含以下或由以下组成：c，B。在一些情况下，载有同型衔接体的标签酶包含转移的链，其自5′至3′包含以下或由以下组成：c，B，其中c，B从5′至3′具有序列：GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG。

载有异型衔接体的标签酶包含第一和第二转移的链，其中第一转移的链与第二转移的链不同。然而，在一些实施方式中，不同转移的链包含相同或基本相同的区域。例如，载有异型衔接体的标签酶可包含第一和第二转移的链，其中每个第一和第二转移的链包含B或选择性地与B′杂交的序列。在一些情况下，载有异型衔接体的标签酶包含第一和第二转移的链，其中每个第一和第二转移的链包含B。在示例性实施方式中，载有异型衔接体的标签酶包含第一和第二转移的链，其中每个第一和第二转移链包含B，其中B自5′至3′具有的序列：AGATGTGTATAAGAGACAG。

通常，载有异型衔接体的标签酶的转移的链还包含在转移的链的5′末端的标签，其在第一和第二转移的链之间不同。在一些实施方式中，载有异型衔接体的标签酶包含第一和第二转移的链，其中第一转移的链包含序列b或选择性地与b′杂交的序列，并且第二转移的链包含序列c或与c′选择性杂交的序列。因此，在一些实施方式中，载有异型衔接体的标签酶可包含第一转移链，其自5′至3′包含：b，B；和第二转移链，其自5′至3′包含c，B。在一些情况下，载有异型衔接体的标签酶包含第一转移的链，其自5′至3′包含以下或由以下组成：b，B，其中b，B从5′至3′具有序列：TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG。在一些情况下，载有异型衔接体的标签酶包含第二转移的链，其自5′至3′包含以下或由以下组成：c，B，其中c，B自5′至3′具有序列：GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG。

分区

在一些实施方式中，划分样品并在分区中进行细胞裂解，第一链合成，第二链合成，或第一和第二链合成中的一种或多种。在某些情况下，样本是细胞样本，并且细胞被划分，使得每个分区包含不超过一个细胞。在一些情况下，样品是细胞样品，并且细胞被划分，使得至少90％，95％，99％或更多的分区包含不超过单个细胞。在某些情况下，对多个细胞进行划分，使得分区中的平均细胞数为1。在某些情况下，对细胞进行划分，使得分区中的平均细胞数为10到1000个细胞，25到500个细胞，50至500个细胞，或50至200个细胞。在一些情况下，样品是mRNA的样品，并且mRNA被划分，使得平均来自10至1,000个细胞，25至500个细胞，50至500个细胞或50至200个细胞的mRNA存在于分区。

一些实施方式中，将样品划分成足够数量的分区，使得所有，基本上全部或至少大多数分区具有不超过5个细胞(例如，约1、2、3、4或5个细胞)，或来自其中的mRNA。在一些实施方式中，所述样品被划分为足够数量的分区，从而全部、基本全部或至少大多数分区具有不多于1个细胞或来自其中的mRNA。在一些实施方式中，各分区中存在平均不超过5、4、3、2、1、0.75、0.5、0.4、0.3、0.2、0.1或0.05个细胞。在一些实施方式中，各分区中存在平均约0.05、0.1、0.2、0.3、0.4、0.5、0.75、1、2、3、4或5个细胞。在一些实施方式中，在包含细胞的分区群中，分区中的细胞的模式数是1，或者是0。

用于划分样品(例如，细胞的样品或mRNA的样品)的方法和组合物描述于例如公开的专利申请WO 2010/036,352，US 2010/0173,394，US 2011/0092,373和US 2011/0092,376中，其全部内容通过引用并入本文。多个混合物分区可以是多个乳液液滴，或多个微孔等。

可以将细胞分成多个混合物分区，在分区中裂解，并且可以在其中进行第一链合成。类似地，mRNA可以在第一链合成之前划分。例如，可以将mRNA分成多个混合物分区，并且可以在其中进行第一链合成。作为另一个示例，可以划分第一链cDNA(例如，作为单链cDNA或作为mRNA/cDNA杂合体)并在其中进行第二链合成。

在一些实施方式中，细胞，mRNA或第一和/或第二链cDNA等可以划分成多个混合物分区，然后可以将一个或多个扩增引物，探针，酶，寡核苷酸，珠，条码或其组合引入多个混合物分区中。用于将试剂(例如，探针，酶，引物，条码，寡核苷酸，盐，缓冲液，二价阳离子等)递送至一个或多个混合物分区的方法和组合物包括本领域已知的微流体方法；液滴或微胶囊合并，聚结，融合，破裂或降解(例如，如U.S.2015/0027,892；US 2014/0227,684；WO2012/149,042；和WO 2014/028,537中所述)；液滴注入方法(例如，如WO2010/151,776中所述)；及其组合。

如本文所述，混合物分区可以是皮孔、纳米孔或微孔。混合物分区可以是皮米，纳米或微米反应室，例如皮米，纳米或微米胶囊。混合物分区可以是皮米，纳米或微米通道。混合物分区可以是液滴，例如乳液液滴。

在一个示例性实施方式中，将细胞划分成含有寡-dT引物的混合物分区，所述寡-dT引物还包含以下的的一个或多个或全部：分区特异性条码(例如，当分区包含单个细胞时的细胞条码)，分子条码，以及衔接体序列A或A′。裂解细胞以释放mRNA，并在其中进行第一链合成。因此，分区可含有一个或多个细胞(例如，10-1,000，25至500，50至500或50至200个细胞)或来自其中的mRNA，含有分区特异性条码(例如，当分区包含单个细胞时的细胞条码)，分子条码和衔接体序列A或A′中的一个或多个或全部的寡聚dT引物，以及逆转录酶(例如，包含RNA酶H活性的逆转录酶或缺乏或基本上缺乏RNA酶H活性的逆转录酶)。在一些情况下，分区含有与固体或水凝胶支持物偶联的寡聚dT引物。在一些情况下，寡聚dT引物与固体或水凝胶支持物之间的连接可以通过将水凝胶加热至熔化支持物的温度或使固体支持物与裂解剂接触来裂解。因此，在一些实施方式中，分区含有裂解剂，例如硫醇或一种或多种酶。在一些情况中，所述酶是限制性酶。在一些情况下，一种或多种酶包含尿嘧啶DNA糖基化酶，DNA糖基化酶-裂解酶核酸内切酶VIII或其组合。

在一些实施方式中，分区是液滴。在一些实施方式中，液滴包含乳液组合物，即不互溶的流体(如水和油)的混合物。在一些实施方式中，液滴是水性液滴，其被不互溶的运载体流体(如油)包围。在一些实施方式中，液滴是油性液滴，其被不互溶的运载体流体(如水性溶液)包围。在一些实施方式中，本文所述液滴是相对稳定的并在两种或更多种液滴之间具有最小聚结。在一些实施方式中，由样品生成的液滴中少于0.0001％、0.0005％、0.001％、0.005％、0.01％、0.05％、0.1％、0.5％、1％、2％、3％、4％、5％、6％、7％、8％、9％或10％与其他液滴聚结。这些乳液还可具有有限的絮凝，一种分散相从薄片中悬浮液产生的过程。在一些情况下，这种稳定性或最小聚结可保持长达4、6、8、10、12、24或48小时或更长时间(例如，在室温下，或在约0、2、4、6、8、10或12℃下)。在一些实施方式中，使油相流过包含细胞，mRNA或cDNA的水性样品，从而形成液滴。

该油相可包含氟化基础油，其可通过与氟化表面活性剂(如全氟聚醚)联用而进一步稳定。在一些实施方式中，该原油包括以下一种或多种：HFE7500、FC-40、FC-43、FC-70或其他常见氟化油。在一些实施方式中，该油相包含阴离子含氟表面活性剂。在一些实施方式中，该阴离子含氟表面活性剂是Ammonium Krytox(Krytox-AS)、Krytox FSH的铵盐或Krytox FSH的吗啉代衍生物。Krytox-AS的浓度可以是约0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1.0％、2.0％、3.0％或4.0％(w/w)。在一些实施方式中，Krytox-AS的浓度是约1.8％。在一些实施方式中，Krytox-AS的浓度是约1.62％。KrytoxFSH的吗啉代衍生物的浓度可以是约0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1.0％、2.0％、3.0％或4.0％(w/w)。在一些实施方式中，Krytox FSH的吗啉代衍生物的浓度是约1.8％。在一些实施方式中，Krytox FSH的吗啉代衍生物的浓度是约1.62％。

在一些实施方式中，该油相还包含用于调节油性质(如蒸气压、粘度或表面张力)的添加剂。非限制性示例包括全氟辛醇和1H，1H，2H，2H-全氟癸醇。在一些实施方式中，1H，1H，2H，2H-全氟癸醇添加至约0.05％、0.06％、0.07％、0.08％、0.09％、0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1.0％、1.25％、1.50％、1.75％、2.0％、2.25％、2.5％、2.75％或3.0％(w/w)的浓度。在一些实施方式中，1H，1H，2H，2H-全氟癸醇添加至约0.18％(w/w)的浓度。

在一些实施方式中，该乳液配制为生成具有类液界面膜的高度单分散液滴，其可通过加热转化为具有类固界面膜的微胶囊；这类微胶囊可作为生物反应器以通过一段时间的孵育保持其含量。转化为微胶囊可在一经加热后即发生。例如，这类转化可发生在大于约40°、50°、60°、70°、80°、90°或95℃的温度下。加热过程期间，流体或矿物油覆盖物可用于阻止蒸发。过量的连续相油可在加热前去除或留在原位。这些微胶囊可在大范围的热和机械处理下抗聚结和/或絮凝。

在将液滴转化成微胶囊之后，这些微胶囊可储存于约-70°、-20°、0°、3°、4°、5°、6°、7°、8°、9°、10°、15°、20°、25°、30°、35°或40℃下。在一些实施方式中，这些微胶囊可用于储存或运输分区混合物。例如，可在一个位置处收集样品，划分到含有酶、缓冲剂和/或引物或其它探针的液滴中，任选地可进行一个或多个聚合反应，然后可加热该分区以进行微囊化，并且可储存或运输微胶囊用于进一步分析。

在一些实施例中，将样品划分为至少500个分区，1000个分区，2000个分区，3000个分区，4000个分区，5000个分区，6000个分区，7000个分区，8000个分区，10,000个分区，15,000个分区，20,000个分区，30,000个分区，40,000个分区，50,000个分区，60,000个分区，70,000个分区，80,000个分区，90,000个分区，100,000个分区，200,000个分区，300,000个分区，400,000个分区，500,000个分区，600,000个分区，700,000个分区，800,000个分区，900,000个分区，1,000,000个分区，2,000,000个分区，3,000,000个分区，4,000,000个分区，5,000,000个分区，10,000,000个分区，20,000,000个分区，30,000,000个分区，40,000,000个分区，50,000,000个分区，60,000,000个分区，70,000,000个分区，80,000,000个分区，90,000,000个分区，100,000,000个分区，150,000,000个分区或200,000,000个分区。

在一些实施方式中，生成的液滴在形状和/或尺寸方面基本均匀。例如，在一些实施方式中，这些液滴在平均直径方面基本均匀。在一些实施方式中，生成的液滴的平均直径为约0.001微米、约0.005微米、约0.01微米、约0.05微米、约0.1微米、约0.5微米、约1微米、约5微米、约10微米、约20微米、约30微米、约40微米、约50微米、约60微米、约70微米、约80微米、约90微米、约100微米、约150微米、约200微米、约300微米、约400微米、约500微米、约600微米、约700微米、约800微米、约900微米或约1000微米。在一些实施方式中，生成的液滴的平均直径为小于约1000微米、小于约900微米、小于约800微米、小于约700微米、小于约600微米、小于约500微米、小于约400微米、小于约300微米、小于约200微米、小于约100微米、小于约50微米，或小于约25微米。在一些实施方式中，生成的液滴在形状和/或尺寸方面是不均匀的。

在一些实施方式中，生成的液滴在体积上基本均匀。例如，液滴体积的标准偏差可以低于约1皮升、5皮升、10皮升、100皮升、1nL或低于约10nL。在一些情况中，液滴体积的标准偏差可低于平均液滴体积的约10-25％。在一些实施方式中，生成的液滴的平均体积为约0.001nL、约0.005nL、约0.01nL、约0.02nL、约0.03nL、约0.04nL、约0.05nL、约0.06nL、约0.07nL、约0.08nL、约0.09nL、约0.1nL、约0.2nL、约0.3nL、约0.4nL、约0.5nL、约0.6nL、约0.7nL、约0.8nL、约0.9nL、约1nL、约1.5nL、约2nL、约2.5nL、约3nL、约3.5nL、约4nL、约4.5nL、约5nL、约5.5nL、约6nL、约6.5nL、约7nL、约7.5nL、约8nL、约8.5nL、约9nL、约9.5nL、约10nL、约11nL、约12nL、约13nL、约14nL、约15nL、约16nL、约17nL、约18nL、约19nL、约20nL、约25nL、约30nL、约35nL、约40nL、约45nL或约50nL。

反应混合物

本文描述了用于制备高通量测序cDNA文库的反应混合物。在一个方面，通过合并多个混合物分区产生反应混合物。例如，可以在第一链合成之后或在第二链合成之后合并混合物分区以产生反应混合物。在一些情况下，反应混合物含有多个mRNA/cDNA杂合体或双链cDNA，每个都在第一链cDNA的5′末端处包含序列A′。在一些情况中，A′自5′至3′包含GCCTGTCCGCGGAAGCAGTGGTATCAACGCAGAGTAC。在一些情况下，反应混合物含有多个mRNA/cDNA杂合体或双链cDNA，其各自在第一链cDNA的5′末端处包含序列A′，以及分区特异性条码(例如，细胞条码)，或分子条码，或分区特异性条码和分子条码。

在一些情况下，反应混合物包含用于第二链合成的试剂。在一些情况下，试剂包括RNA酶H。在一些情况下，试剂包括链置换DNA依赖性DNA聚合酶。在一些情况下，试剂包括能够延伸mRNA片段引物的DNA依赖性DNA聚合酶。在一些情况下，DNA依赖性DNA聚合酶自5′至3′包含外切核酸酶活性。在一个示例性实施方式中，DNA依赖性DNA聚合酶是大肠杆菌DNA聚合酶I。在一些情况下，反应混合物包含随机引物，例如随机六聚体或随机十聚体引物。

在一些情况下，用于第二链合成的试剂还包含连接酶。例如，连接酶可以是嗜热连接酶。例如，连接酶可以是Taq连接酶或9°N连接酶。或者，连接酶可以是嗜温连接酶，例如大肠杆菌DNA连接酶，或T4DNA连接酶。

在一些情况下，反应混合物包含载有同型衔接体的标签酶，例如本文所述的载有同型衔接体的标签酶之一。在一些情况下，反应混合物不含有差异性负载的其他标签酶。在其他实施方式中，反应混合物包含如本文所述的载有异型衔接体的标签酶。通常，反应混合物还包含适于进行标签化反应的试剂和条件，以将标签酶的转移的链转移到反应混合物中存在的第二链cDNA分子的5′末端(例如，在双链cDNA中)。

在某些情况下，反应混合物含有在这种条件下产生的标签化产物。例如，反应混合物可含有双链cDNA多核苷酸，其在第一末端含有序列A，并在第二末端含有序列B。在一些情况下，第二末端还包含b或c。在一些情况下，反应混合物包含多个在第一末端含有序列A且在第二末端含有序列b、B的cDNA多核苷酸，和在第一末端含有序列A且在第二末端含有序列c、B的多个cDNA多核苷酸。

在一些情况下，反应混合物可含有用于在第一末端含有衔接体A和在第二末端含有衔接体B(例如b，B或c，B)的双链cDNA多核苷酸的PCR扩增的引物。例如，扩增引物可以是两个引物对，其中第一引物选择性地与A杂交，第二引物选择性地与b′杂交。或者，扩增引物可以是两个引物对，其中第一引物选择性地与A杂交，第二引物选择性地与c′杂交。作为另一种选择，扩增引物可以是三引物混合物，其中第一引物选择性地与A杂交，第二引物选择性地与b′杂交，且第三引物选择性地与c′杂交。

扩增引物可以进一步含有移植序列。例如，第一扩增引物可含有移植序列α或α′。作为另一个例子，第二扩增引物可含有移植序列β或β′。作为又一个实例，第二和第三扩增引物(即，两种不同的第二扩增引物)各自独立地含有移植序列β或β′。作为又一个实例，第二和第三扩增引物可各自含有相同的移植序列，无论是β还是β′。扩增引物可以在5′末端含有移植序列，在3′末端含有选择性杂交序列。在一些情况下，移植序列或其部分不存在于第一、第二或第三扩增引物中、其中两个扩增引物中或其中全部扩增引物中。例如，可以在第一双链cDNA扩增步骤中加入部分移植序列或不加入移植序列，并且可以通过用另一组扩增引物扩增来加入完整的移植序列。因此，反应混合物可含有至少两种另外的(例如正向和反向)扩增引物。

在一些实施方式中，在含有扩增引物和标签酶产物的反应混合物中减少或消除一种或多种DNA依赖性DNA聚合酶的“间隙填充”可能是有利的。例如，在用扩增引物进行PCR扩增的第一个循环之前，通过减少或消除第一链cDNA分子的3′末端的延伸可以实现增加的特异性(例如，通过附连至与第一链cDNA分子杂交的第二链cDNA分子的5′末端的转移的链而模板化)。因此，在一些实例中，将反应混合物保持在不允许聚合酶介导的延伸的温度(例如，0、4、8、10、15或25℃)，直到将反应混合物转移至适于PCR反应中的变性步骤的条件(例如，90或95℃)。或者或另外，反应混合物可含有热启动DNA聚合酶，或含有热启动DNA聚合酶而不含其他实质性DNA聚合酶活性。因此，聚合酶介导的延伸基本上在PCR的初始变性步骤后发生。另外或可替代地，扩增反应的必要组分(例如聚合酶)可以在其平衡至变性温度后加入反应混合物中。

在一些实施方式中，提供反应混合物用于对标签化的双链cDNA多核苷酸进行测序，所述标签化的双链cDNA多核苷酸在一末端含有移植序列α，且在第二末端含有移植序列β。在一些情况下，在反应混合物中含有标签化的双链cDNA多核苷酸的移植序列β的末端还含有序列b或c，例如，其中b或c在β的3′。在一些情况下，含有移植序列β的反应混合物中标签化的双链cDNA多核苷酸的末端还还含有序列B，其中B是β的3′。在一些情况下，含有移植序列β的反应混合物中标签化的双链cDNA多核苷酸的末端进一步含有b或c的序列，与B组合，其中b或c是β的3′，且B是β和b或c的3′。因此，在一些实施方式中，用于测序双链cDNA多核苷酸的混合物可自5′至3′含有包含以下的读取引物：b，B；和自5′至3′含有以下的第二读取引物：c，B。在一些情况下，读取引物自5′至3′包含：b，B，自5′至3′的包含序列：TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG。在一些情况下，读取引物自5′至3′包含：c，B，自5′至3′的包含序列：GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG。

III.方法

本文描述了标签化cDNA多核苷酸的方法。该方法可用于例如制备cDNA测序文库。在一个方面中，该方法包括：提供双链mRNA：cDNA杂合体，其包含具有5′末端和3′末端的第一链cDNA多核苷酸，并与具有5′末端和3′末端的互补mRNA杂交，其中第一链cDNA多核苷酸的5′末端包含第一衔接体序列(例如A)或其互补序列。在一些实施方式中，通过使mRNA与逆转录酶和第一链合成引物接触提供双链mRNA：cDNA杂合体，从而在mRNA模板引导的DNA聚合酶反应中延伸第一链合成引物，其中第一链合成引物包含3′寡-dT末端区和包含第一衔接体序列(例如，A)或其互补序列的5′末端，从而合成与互补mRNA杂交的第一链cDNA多核苷酸，并且其中第一链cDNA的5′末端包含第一衔接体序列(例如，A)或其互补序列。

在一些实施方式中，第一链合成引物还包含分子条码，细胞或分区特异性条码，或其组合。在一些情况下，第一链合成在混合物分区，例如乳液液滴或微米或纳米孔中进行。在一些情况下，该方法包括划分样品(例如，细胞或mRNA)，裂解混合物分区中的细胞(如果存在的话)，并进行第一链合成。在一些情况下，将样品划分成包含第一链合成引物(例如，与固体或水凝胶支持物连接)的一组分区。在一些情况下，将样品划分成一组分区，然后将第一链合成引物(例如，与固体或水凝胶支持物连接)划分到分区中。

在一些实施方式中，第一链合成在可能产生大量mRNA：cDNA杂合多核苷酸的条件下进行，其中第一链合成不进行至mRNA的最5′核苷酸。这些产物的特征在于具有单链5′-mRNA末端。在一些情况下，在至少25％，30％，45％，50％，55％，60％，65％，70％，75％，80％，85％，90％或更多mRNA：cDNA杂合体包含单链的5′mRNA末端的条件下，例如，在多个混合物分区中进行多个第一链合成反应。在一些情况下，例如，在多个混合物分区中进行多个第一链合成反应，使得至少25％至90％，30％-80％或45％-60％的mRNA：cDNA杂合体包含单链的5′mRNA末端。或者，第一链合成可以在促进反应完成的条件下进行，使得所得mRNA：cDNA杂合体的5′mRNA末端主要是双链的。

在一些实施方式中，其中第一链合成在分区中进行，在第一链合成之后和第二链合成之前合并分区。在一些实施方式中，第一链和第二链合成在分区中进行，然后合并分区。图2说明了用于在乳液液滴分区(“液滴”)中进行第一链合成，并且在块(在合并分区之后)或在分区中进行第二链合成的若干备选实施方式。

在一些实施方式中，合成第二链cDNA多核苷酸通过以下方式进行：i)使mRNA：cDNA杂合体与包含RNA酶H活性的酶接触，从而产生与第一链cDNA杂交的mRNA片段，和ii)使mRNA片段与DNA聚合酶接触从而在模板引导的聚合酶反应中延伸mRNA片段，其中模板是第一链cDNA多核苷酸并形成双链cDNA多核苷酸。在一些情况下，使双链cDNA多核苷酸与连接酶接触以连接第二链cDNA片段。在一些情况下，RNA酶H活性由第一链合成反应中使用的相同酶提供。在一些情况下，第一链合成中使用的逆转录酶不包含RNA酶H活性，或者不包含足够的RNA酶H活性，并且使用不同的RNA酶H酶。在一些情况下，与第一链杂交的mRNA的RNA酶H消化在分区中进行(例如，其中逆转录酶包含RNA酶H活性)。在一些情况下，与第一链杂交的mRNA的RNA酶H消化是大量进行的(例如，其中在块反应混合物中提供不是第一链合成中使用的逆转录酶的RNA酶H酶)。

在一些情况下，用聚合酶进行第二链cDNA合成，所述聚合酶从RNA引物延伸并包含5′至3′外切核酸酶活性。在一些情况下，用聚合酶进行第二链cDNA合成，所述聚合酶从RNA引物延伸并包含链置换活性。

在一些实施方式中，该方法包括使在上述第一和第二链合成反应中产生的一种或多种双链cDNA多核苷酸与载有衔接体的标签酶接触，从而形成包含标签化的双链cDNA多核苷酸的反应混合物，所述标签化的双链cDNA多核苷酸包含第一末端和第二末端，其中第一末端包含第一衔接体序列(例如，A)及其互补序列，并且第二末端包含第二衔接体序列(例如B；b，B；或c，B或含有b，B或c，B的cDNA混合物)及其互补序列。

在一些情况下，双链cDNA多核苷酸与载有衔接体的标签酶的接触在含有载有同型衔接体的标签酶的反应混合物中进行，并且不含有具有不同衔接体的载有衔接体的标签酶。在此类实施方式中，其中多个双链cDNA多核苷酸与载有同型衔接体的标签酶接触(例如，载有包含B；b，B；或c，B的转移的链)，每个包含第一末端(例如，A)的双链cDNA多核苷酸包括共有的第二末端(例如，B；b，B；或c，B，但不是其混合物)。

在一些情况下，双链cDNA多核苷酸与载有衔接体的标签酶的接触在含有两种不同的载有同型衔接体的标签酶或载有异型衔接体的标签酶的反应混合物中进行。在此类实施方式中，其中多个双链cDNA多核苷酸与载有异型衔接体的标签酶接触(例如，载有包含b，B；和c，B的转移的链)，每个包含第一末端(例如，A)的双链cDNA多核苷酸包括两种第二末端(例如，b，B；或c，B)之一。类似地，在这样的实施方式中，其中第一载有同型衔接体的标签酶(例如，载有包含b，B的转移的链)和第二载有同型衔接体的标签酶(例如，载有包含c，B的转移的链)与多个双链cDNA多核苷酸接触，每个包含第一末端的双链(例如，A)的双链cDNA多核苷酸包含两种第二末端(例如，b，B；或c，B)之一。

在一些实施方式中，该方法还包括通过使标签化的双链cDNA多核苷酸与第一扩增引物和第二扩增引物接触，从反应混合物中选择性地扩增一种或多种标签化的双链cDNA多核苷酸，其中第一扩增引物选择性地与第一衔接体序列(例如，A′)或其互补序列(例如，A′)杂交并且包含第一测序平台特异性衔接体序列(例如，α)或其互补序列(例如，α′)，并且其中第二扩增引物选择性地与第二衔接体序列(b′或c′)杂交并包含第二测序平台特异性衔接体序列(例如，移植序列)，从而产生测序平台特异性cDNA扩增子。在一些情况下，第二测序平台特异性衔接体序列包含序列β。

示例性同型衔接体标签酶反应

在一些实施方式中，标签酶是载有同型衔接体的标签酶，其载有自5′至3′包含以下序列的转移的链：GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG，并且第二扩增引物自5′至3′包含：CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG。第一扩增引物选择性地与A或A′杂交并含有移植序列α(例如，自5′至3′：ATATGATACGGCGACCACCGAGATCTACAC)。参考图1，这是指“版本1”。在一些实施方式中，标签酶是载有同型衔接体的标签酶，其载有自5′至3′包含以下序列的转移的链：GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG，并且第二扩增引物自5′至3′包含：AATGATACGGCGACCACCGAGATCTACAC[i5]GTCTCGTGGGCTCGG。第一扩增引物选择性地与A或A′杂交并含有移植序列α(例如，5′至3′：CAAGCAGAAGACGGCATACGAGAT)。参考图1，这是指“版本2”。

在一些实施方式中，标签酶是载有同型衔接体的标签酶，其载有自5′至3′包含以下序列的转移的链：TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG，并且第二扩增引物自5′至3′包含：CAAGCAGAAGACGGCATACGAGAT[i7]TCGTCGGCAGCGTC。第一扩增引物选择性地与A或A′杂交并含有移植序列α(例如，自5′至3′：AATGATACGGCGACCACCGAGATCTACAC)。参考图1，这是指“版本3”。在一些实施方式中，标签酶是载有同型衔接体的标签酶，其载有自5′至3′包含以下序列的转移的链：TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG，并且第二扩增引物自5′至3′包含：AATGATACGGCGACCACCGAGATCTACAC[i5]TCGTCGGCAGCGTC。第一扩增引物选择性地与A或A′杂交并含有移植序列α(例如，自5′至3′：CAAGCAGAAGACGGCATACGAGAT)。参考图1，这是指“版本4”。

在一些实施方式中，标签酶是载有同型衔接体的标签酶，其载有自5′至3′包含以下序列的转移的链：AGATGTGTATAAGAGACAG，并且第二扩增引物自5′至3′包含：GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG。在该实施方式中，“外部”扩增引物用于将移植序列附连到包含转移的链的cDNA末端。“外部”扩增引物可自5′至3′包含：CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG。第一扩增引物选择性地与A或A′杂交并含有移植序列α(例如，自5′至3′：AATGATACGGCGACCACCGAGATCTACAC)。参考图1，这是指“版本5”。

在一些实施方式中，标签酶是载有同型衔接体的标签酶，其载有自5′至3′包含以下序列的转移的链：AGATGTGTATAAGAGACAG，并且第二扩增引物自5′至3′包含：TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG。在该实施方式中，“外部”扩增引物用于将移植序列附连到包含转移的链的cDNA末端。“外部”扩增引物可自5′至3′包含：CAAGCAGAAGACGGCATACGAGAT[i7]TCGTCGGCAGCGTC。第一扩增引物选择性地与A或A′杂交并含有移植序列α(例如，自5′至3′：AATGATACGGCGACCACCGAGATCTACAC)。参考图1，这是指“版本6”。

在一些实施方式中，标签酶是载有同型衔接体的标签酶，其载有自5′至3′包含以下序列的转移的链：AGATGTGTATAAGAGACAG，并且第二扩增引物自5′至3′包含：GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG。在该实施方式中，“外部”扩增引物用于将移植序列附连到包含转移的链的cDNA末端。“外部”扩增引物可自5′至3′包含：AATGATACGGCGACCACCGAGATCTACAC[i5]GTCTCGTGGGCTCGG。第一扩增引物选择性地与A或A′杂交并含有移植序列α(例如，自5′至3′：CAAGCAGAAGACGGCATACGAGAT)。参考图1，这是指“版本7”。

在一些实施方式中，标签酶是载有同型衔接体的标签酶，其载有自5′至3′包含以下序列的转移的链：AGATGTGTATAAGAGACAG，并且第二扩增引物自5′至3′包含：TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG。在该实施方式中，“外部”扩增引物用于将移植序列附连到包含转移的链的cDNA末端。“外部”扩增引物可自5′至3′包含：AATGATACGGCGACCACCGAGATCTACAC[i5]TCGTCGGCAGCGTC。第一扩增引物选择性地与A或A′杂交并含有移植序列α(例如，自5′至3′：CAAGCAGAAGACGGCATACGAGAT)。参考图1，这是指“版本8”。

示例性异型衔接体标签酶反应

在一些实施方式中，标签酶是载有异型衔接体的标签酶，其载有自5′至3′包含以下序列的第一转移的链：GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG，并且第二转移的链自5′至3′包含：TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG。在该实施方式中，使用自5′至3′包含以下的第二扩增引物：CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG，和自5′至3′包含以下的不同的第二扩增引物：CAAGCAGAAGACGGCATACGAGAT[i7]TCGTCGGCAGCGTC来与第一扩增引物组合以扩增标签酶产物。第一扩增引物选择性地与A或A′杂交并含有移植序列α(例如，自5′至3′：AATGATACGGCGACCACCGAGATCTACAC)。参考图1，这是指“版本9”。

在一些实施方式中，标签酶是载有异型衔接体的标签酶，其载有自5′至3′包含以下序列的第一转移的链：GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG，并且第二转移的链自5′至3′包含：TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG。在该实施方式中，使用自5′至3′包含以下的第二扩增引物：AATGATACGGCGACCACCGAGATCTACAC[i5]GTCTCGTGGGCTCGG，和自5′至3′包含以下的不同的第二扩增引物：AATGATACGGCGACCACCGAGATCTACAC[i5]TCGTCGGCAGCGTC来与第一扩增引物组合以扩增标签酶产物。第一扩增引物选择性地与A或A′杂交并含有移植序列α(例如，自5′至3′：AATGATACGGCGACCACCGAGATCTACAC)。参考图1，这是指“版本10”。

在一些实施方式中，标签酶是载有异型衔接体的标签酶，其载有自5′至3′包含以下序列的第一转移的链：GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG，并且第二转移的链自5′至3′包含：TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG。在该实施方式中，自5′至3′包含以下的第二扩增引物：AGATGTGTATAAGAGACAG用于与第一扩增引物组合扩增标签酶产物。第一扩增引物选择性地与A或A′杂交并含有移植序列α(例如，自5′至3′：AATGATACGGCGACCACCGAGATCTACAC)。然后用自5′至3′包含以下的“外部”扩增引物：CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG与第一扩增引物的组合扩增该扩增产物。参考图1，这是指“版本11”。

在一些实施方式中，标签酶是载有异型衔接体的标签酶，其载有自5′至3′包含以下序列的第一转移的链：GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG，并且第二转移的链自5′至3′包含：TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG。在该实施方式中，自5′至3′包含以下的第二扩增引物：AGATGTGTATAAGAGACAG用于与第一扩增引物组合扩增标签酶产物。第一扩增引物选择性地与A或A′杂交并含有移植序列α(例如，自5′至3′：AATGATACGGCGACCACCGAGATCTACAC)。然后用自5′至3′包含以下的第一“外部”扩增引物：GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG和自5′至3′包含以下的第二“外部”扩增引物：CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG与第一扩增引物组合来扩增该扩增产物。参考图1，这是指“版本12”。

在一些实施方式中，标签酶是载有异型衔接体的标签酶，其载有自5′至3′包含以下序列的第一转移的链：GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG，并且第二转移的链自5′至3′包含：TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG。在该实施方式中，自5′至3′包含以下的第二扩增引物：AGATGTGTATAAGAGACAG用于与第一扩增引物组合扩增标签酶产物。第一扩增引物选择性地与A或A′杂交并含有移植序列α(例如，自5′至3′：CAAGCAGAAGACGGCATACGAGAT)。然后用自5′至3′包含以下的“外部”扩增引物：AATGATACGGCGACCACCGAGATCTACAC[i5]TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG与第一扩增引物的组合扩增该扩增产物。参考图1，这是指“版本13”。

在一些实施方式中，标签酶是载有异型衔接体的标签酶，其载有自5′至3′包含以下序列的第一转移的链：GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG，并且第二转移的链自5′至3′包含：TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG。在该实施方式中，自5′至3′包含以下的第二扩增引物：AGATGTGTATAAGAGACAG用于与第一扩增引物组合扩增标签酶产物。第一扩增引物选择性地与A或A′杂交并含有移植序列α(例如，自5′至3′：CAAGCAGAAGACGGCATACGAGAT)。然后用自5′至3′包含以下的第一“外部”扩增引物：TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG和自5′至3′包含以下的第二“外部”扩增引物：AATGATACGGCGACCACCGAGATCTACAC[i5]TCGTCGGCAGCGTC与第一扩增引物组合来扩增该扩增产物。参考图1，这是指“版本14”。

在一些实施方式中，在标签化以将标签酶的转移的链转移至第二链cDNA分子的5′末端后，用热启动方法扩增产物。例如，可以用热启动DNA聚合酶进行扩增。或者，可以在反应达到过高的温度以允许实质上聚合酶介导的延伸之后加入聚合酶或另一种必需试剂，例如聚合酶和/或核苷酸三磷酸。或者，用于扩增的试剂可以在太低的温度下组装，以允许基本上聚合酶介导的延伸(例如，4℃，＜25℃或约25℃)，然后立即转移到培养箱中以在可能发生大幅度延伸之前升温至允许温度以上。例如，可以将试剂在冰上组装，然后转移到设定为变性温度的热循环仪中。然后可以通过2或3步热循环启动PCR扩增。

III.试剂盒本文描述了包含一种或多种引物，例如本文所述的两种不同的第二扩增引物的混合物，或本文所述的两种不同的测序引物的混合物的试剂盒。

实施例

实施例1：第二链引导

将条码化水凝胶粒子库在微流体装置中和多细胞样品混合，并共包封入水性液滴，水性液滴中含有裂解细胞的试剂和进行细胞RNA逆转录的试剂。在这样的条件下进行包封，该条件使得至少95％的液滴含有不超过一个细胞。在共包封时，裂解试剂裂解细胞。通过在5′末端切割寡核苷酸，从水凝胶颗粒中释放寡核苷酸。使用尿嘧啶DNA糖基化酶(UDG)和DNA糖基化酶-裂解酶核酸内切酶VIII切除位于水凝胶颗粒寡聚物的5′位置的尿嘧啶碱基。进行寡核苷酸裂解反应，以便不抑制细胞裂解和下游逆转录。将温度升高至50℃以通过液滴中存在的逆转录酶支持第一链合成。逆转录酶不具有RNA酶H活性。第一链合成将细胞条码附加到在液滴中逆转录的每个转录物。乳液破裂了。将第一链合成产物合并成单一反应混合物。由于RNA已条码化，可进行其余测序步骤而无需保持物理划分。

在破坏乳液后，通过EXOI处理和Ampure珠大小选择除去未掺入的寡核苷酸。然后通过使用酶的组合进行第二链合成，将cDNA：RNA杂合体转化为双链cDNA。将RNA酶H引入反应混合物中以使RNA分子产生切口。DNA聚合酶I在从RNA引物开始DNA合成后通过进行DNA模板引导的DNA合成来合成第二链。DNA聚合酶具有5至3′外切核酸酶活性，以通过模板分子上出现的RNA：DNA杂合体或DNA：DNA杂合体维持处理能力。在第二合成期间包括DNA连接酶以产生完整的第二链cDNA分子。来自条码化颗粒的寡核苷酸序列作为第二链合成的一部分合成，导致寡核苷酸序列掺入第二链中。第二链合成在16℃下进行。完成第二链合成后，使用Ampure珠纯化双链cDNA。

然后对双链DNA进行Nextera标签化。使用单个载有异型衔接体的Tn5转座酶，其中单个Tn5颗粒中的两个衔接体中的每一个包含不同的单链衔接体区域。标签化后，新合成的第二链具有水凝胶颗粒寡核苷酸序列(TSO-AC)和转移的nextera衔接体序列(Tag衔接体)。因此，在标签化后PCR之前，不需要填充间隙，并且从热方案中省略72℃间隙填充步骤。将反应组分保持在冰上或室温下，并直接置于预热至95℃的热循环仪上。PCR引物靶向水凝胶颗粒oligo和两个nextera衔接体序列。在PCR期间，Illumina流动池移植序列P5和P7附加到扩增片段的相对末端。PCR循环次数限为13，以便为NGS提供足够的材料。

实施例2：来自第二链引导实验的结果

如实施例1中所述进行第二链引导方案，其中使用小鼠和人细胞的50∶50混合物。在使用Illumina测序仪进行NGS测序后，将数据分组在一起并根据每个水凝胶颗粒条码序列的转录物数量排序(图4a)。前433个数据点被认为是单个细胞数据点(图4a中垂直线左侧的数据)。图4b根据它们的小鼠和(垂直轴)和人(水平轴)内容绘制细胞条码数据点。具有最大数量的转录物的细胞条码被认为是单个细胞(通过图4a中的垂直线左侧标识)。一些数据点同时具有人类和小鼠转录物，这些数据点定义了串扰统计量，此处计算为0.1。纯度是指将单个细胞数据与上清液RNA水平(图4a中所示的垂直线右侧的数据点)进行比较的纯度，并且在此计算为0.99。最后，使用转录物信息分析每个细胞的基因数。在此计算每单个细胞中值为4643个人或4143个小鼠基因。

实施例3：来自多次第二链引导实验的结果显示再现性

如实施例1中所述多次进行第二链引导方案，其中使用小鼠和人细胞的50∶50混合物。如实施例2所述分析数据。图5示出了该方法在三个不同用户和两个不同水凝胶颗粒批次的四个独立实验中的再现性。

实施例4：通过使用同型衔接体标签酶改善灵敏度

使用载有异型衔接体的市售Nextera标签酶，在一半时间时将衔接体插入紧邻水凝胶颗粒寡聚物衔接体的双链cDNA中(图6a)。这些分子在Illumina流动池上不形成簇并且从分析中丢失，因为它们在后标签化PCR期间未被扩增并用P5和P7标签化。由于双链cDNA在标签化前没有被扩增，因此导致50％的灵敏度损失。然而，使用载有同型衔接体的Nextera标签酶导致可扩增的双链cDNA分子紧邻水凝胶颗粒寡聚物衔接体插入的100％的标签化事件(图6b)。因此，在一端具有用同型衔接体标签酶标签化的水凝胶颗粒寡聚物衔接体的所有分子进行PCR扩增，并在相对末端用P5和P7标签化。双标签化分子都能够在流动池上形成簇，并且都是可分析的，导致输入cDNA分子的最佳灵敏度。图6a-6b显示了在72℃下的间隙填充后标签化。通过该聚合步骤，由于末端片段同源性，富集可涉及PCR抑制。

实施例5：在NGS期间使用异型衔接体标签酶和使用3引物标签化后PCR和多个测序引物改善灵敏度

使用载有异型衔接体的市售Nextera标签酶和扩增一个Nextera衔接体的市售引物，具有另一个Nextera衔接体的一半分子在分析中丢失(其他信息参见实施例4)。扩增两个Nextera衔接体将优化灵敏度(图7a)，并且这可以通过如图7b中所示的标签化后进行3引物PCR来实现。使用新引物，其中P7移植序列附加到通常结合Nextera衔接体的序列上，该衔接体通常用P5移植序列标签化。因此，两个Nextera衔接体都用P7标签化，并且如果水凝胶颗粒寡核苷酸衔接体用P5标签化，则扩增所有标签化的片段。在该实施例中，包括72℃的间隙填充，图7c说明使用3引物系统通过标签化，间隙填充和PCR产生的各种分子构建体。由于广泛的末端片段同型性，非水凝胶颗粒衔接的分子仍然经历PCR抑制。相反，由于缺乏如图所示的末端片段同源性，水凝胶颗粒衔接的分子经历高效PCR。图7d说明了如何对由异型衔接体标签酶和3引物PCR产生的衔接的分子进行测序(图7b)。如图所示，在标签化后PCR期间使用2种索引测序引物的混合物。在配对末端测序期间，使用2个读取2测序引物的混合物靶向两个Nextera衔接体并且能够对两个Nextera标签化的片段进行测序。

实施例6：在NGS期间使用异型衔接体标签酶和使用3引物标签化后PCR和多个测序引物改善灵敏度，并省略标签化后间隙填充

为了提高Nextera PCR期间的特异性，期望消除任何可能的非水凝胶颗粒寡核苷酸衔接的片段的PCR(图8a)。这可以通过从过程中省略prePCR间隙填充来进行(图8b)。这在PCR的第一个循环期间产生不具有引物结合位点的分子(图8c)。然而，水凝胶颗粒寡聚物衔接的片段具有PCR引物结合位点。在PCR的前几个循环期间，当复制这些分子时，它们在标签化片段的非水凝胶颗粒寡核苷酸衔接的末端上提供从头Nextera衔接体PCR引物位点。结果是水凝胶颗粒寡聚物衔接的片段的两末端都是PCR可扩增的。由于进行了3引物PCR(图8b)，因此扩增了用任一种异型衔接体标签化的片段化。如实施例5中所述，用新引物混合物对这些分子进行测序(图8d)。

实施例7：对Nextera衔接体进行扩增和测序的表现

如图9a中所示，实施例6中描述的第二链引导方案。显示了用于3引物PCR的修饰的PCR引物以及所需的用于索引读取和读取2的测序引物的混合物。当检测Nextera衔接体和所有标签化片段时，显示了对每个细胞检测的基因和转录物的改善灵敏度(图9b)，具有1.4至2倍的灵敏度提高。显示了在多天进行的实验和技术重复实验的结果。

虽然通过阐述和举例的方式详细描述了上述发明以清晰理解，但本发明技术人员应理解可在所附权利要求书范围内实施某些改变和修改。此外，本文提供的各参考文献通过引用全文纳入本文，就如同各参考文献单独通过引用纳入本文。当即时应用和本文提供的参考之间存在冲突时，即时应用占主导地位。

Claims

1.一种对cDNA多核苷酸标签化的方法，所述方法包括：

-提供双链mRNA：cDNA杂合体，所述杂合体包含具有5′末端和3′末端的第一链cDNA多核苷酸，并与具有5′末端和3′末端的互补mRNA杂交，其中第一链cDNA多核苷酸的5′末端包含第一衔接体序列或其互补序列；

-合成与第一链cDNA多核苷酸互补并与第一链cDNA多核苷酸杂交的一种或多种第二链cDNA多核苷酸，其中合成包括：

i)使mRNA：cDNA杂合体与包含RNA酶H活性的酶接触，从而产生与第一链cDNA杂交的mRNA片段，和

ii)使mRNA片段与DNA聚合酶接触，从而在模板引导的聚合酶反应中延伸mRNA片段，其中模板是第一链cDNA多核苷酸，并形成双链cDNA多核苷酸；

-任选地使一种或多种第二链cDNA多核苷酸与DNA连接酶接触；

-使双链cDNA多核苷酸与载有衔接体的标签酶接触，从而形成包含标签化的双链cDNA多核苷酸的反应混合物，所述标签化的双链cDNA多核苷酸包含第一末端和第二末端，其中第一末端包含所述第一衔接体序列及其互补序列，并且第二末端包含第二衔接体序列及其互补序列，

-其中mRNA的5′末端是单链的；或者

-其中mRNA的5′末端包含DNA：RNA杂合体，并且其中所述方法包括在反应混合物中扩增标签化的双链cDNA，所述反应混合物包含第二和第三扩增引物和与第一末端杂交的第一扩增引物，其中第二或第三扩增引物与第二末端杂交；或者

-其中所述使双链cDNA多核苷酸与载有衔接体的标签酶的接触在含有载有同型衔接体的标签酶并且不含有具有不同衔接体的载有衔接体的标签酶的反应混合物中进行。

2.权利要求1所述的方法，其中所述mRNA的5′末端是单链的。

3.如权利要求1或2所述的方法，还包括通过使标签化的双链cDNA多核苷酸与第一扩增引物和第二扩增引物接触，从反应混合物中选择性地扩增标签化的双链cDNA多核苷酸，其中第一扩增引物选择性地与第一衔接体序列杂交并且包含第一测序平台特异性衔接体序列，并且其中第二扩增引物选择性地与第二衔接体序列杂交并包含第二测序平台特异性衔接体序列，从而产生测序平台特异性cDNA扩增子。

4.如权利要求1-3中任一项所述的方法，其中所述提供双链mRNA：cDNA杂合体包括使mRNA与逆转录酶和第一链合成引物接触，从而在mRNA模板引导的DNA聚合酶反应中延伸第一链合成引物，其中第一链合成引物包含3′多聚胸腺嘧啶末端区和包含第一衔接体序列或其互补序列的5′末端，从而合成与互补mRNA杂交的第一链cDNA多核苷酸，并且其中第一链cDNA的5′末端包含第一衔接体序列或其互补序列。

5.如权利要求4所述的方法，其中所述逆转录酶包含RNA酶H活性，并且所述使mRNA：cDNA杂合体与包含RNA酶H活性的酶接触包括在逆转录酶存在下孵育mRNA：cDNA杂合体，从而产生与第一链cDNA杂交的mRNA片段。

6.如权利要求1-4中任一项所述的方法，其中所述使mRNA：cDNA杂合体与包含RNA酶H活性的酶接触包括使mRNA：cDNA杂合体与不包含逆转录酶活性的酶接触或使mRNA：cDNA杂合体与结构上与用于mRNA模板引导的DNA聚合酶反应的逆转录酶不同的逆转录酶接触，由此延伸第一链合成引物并合成与互补mRNA杂交的第一链cDNA多核苷酸，其中mRNA的5′末端是单链的并且第一链cDNA的5′末端包含第一衔接体序列或其互补序列。

7.如权利要求4-6中任一项所述的方法，其中所述方法包括在包含来自单个细胞的mRNA的反应混合物中进行mRNA模板引导的DNA聚合酶反应，并且在包含来自至少10个细胞，优选50至500个细胞的mRNA的反应混合物中进行mRNA：cDNA杂合体与包含RNA酶H活性的酶的接触。

8.如权利要求4-6中任一项所述的方法，其中所述方法包括在包含来自至少10个细胞，优选50至500个细胞的mRNA的反应混合物中进行mRNA模板引导的DNA聚合酶反应。

9.如权利要求1-8中任一项所述的方法，其中所述方法包括使mRNA片段与包含5’-3’外切核酸酶活性的DNA聚合酶接触。

10.如权利要求1-8中任一项所述的方法，其中所述方法包括使mRNA片段与包含链置换酶活性的DNA聚合酶接触。

11.如权利要求4-10中任一项所述的方法，其中所述第一链合成引物包含分子条码或分区特异性条码，或其组合。

12.如权利要求1-11中任一项所述的方法，其中所述第一链cDNA多核苷酸的5’末端包含分子条码或分区特异性条码，或其组合。

13.如权利要求3-12中任一项所述的方法，其中，标签化的双链cDNA多核苷酸的第一末端包含衔接体序列A，并且标签化的双链cDNA多核苷酸的第二末端包含衔接体序列B，并且所述方法包括从反应混合物中选择性地扩增标签化的双链cDNA多核苷酸，从而通过使标签化的双链cDNA多核苷酸与第一扩增引物，第二扩增引物和第三扩增引物接触，产生测序平台特异性cDNA扩增子，

-其中第一扩增引物包含具有与第一衔接体序列A选择性杂交的序列A′的3′区域并且第一扩增引物还包含含有第一测序平台特异性衔接体序列的5′区域；并且

-其中第二扩增引物和第三扩增引物各自包含5′区域和3′区域，所述5′区域包含第二测序平台特异性衔接体序列，其中第二或第三扩增引物的3′区域具有与第二衔接体序列B选择性杂交的序列B′。

14.如权利要求13所述的方法，其中从反应混合物中选择性扩增在不包含具有SEQ IDNO：7的扩增引物的反应混合物中进行。

15.如权利要求13所述的方法，其中从反应混合物中选择性扩增在不包含具有SEQ IDNO：8的扩增引物的反应混合物中进行。

16.如权利要求3-12中任一项所述的方法，其中：

-第一扩增引物自5′至3′包含AATGAGATACGGCGACCACCGAGATCTACAC(SEQ ID NO：1)，并且第二扩增引物自5′至3′包含CAAGCAGAAGACGGCATACGAGAT(SEQ ID NO：2)；或

-第一扩增引物包含SEQ ID NO：2，并且第二扩增引物包含SEQ ID NO：1。

17.如权利要求16所述的方法，其中：

-第一扩增引物包含SEQ ID NO：1，并且第二扩增引物自5′至3′包含CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG(SEQ ID NO：3)，其中[i7]是存在或不存在的索引区域并且包含4-12个核苷酸；或

-第一扩增引物包含SEQ ID NO：1并且第二扩增引物自5′至3′包含

CAAGCAGAAGACGGCATACGAGAT[i7]TCGTCGGCAGCGTC(SEQ ID NO：4)，其中[i5]是存在或不存在的索引区域并且包含4-12个核苷酸。

18.如权利要求17所述的方法，其中从反应混合物中扩增标签化的双链cDNA多核苷酸包括使标签化的双链cDNA多核苷酸与包含SEQ ID NO：1的第一扩增引物和两种不同的第二扩增引物接触，其中一个第二扩增引物包含SEQ ID NO：3，并且另一个第二扩增引物包含SEQ ID NO：4。

19.如权利要求16所述的方法，其中：

-第一扩增引物包含SEQ ID NO：2，并且第二扩增引物自5′至3′包含AATGAGATACGGCGACCACCGAGATCTACAC[i5]GTCTCGTGGGCTCGG(SEQ ID NO：5)，其中[i5]是存在或不存在的索引区域并且包含4-12个核苷酸；或

-第一扩增引物包含SEQ ID NO：2并且第二扩增引物自5′至3′包含

AATGAGATACGGCGACCACCGAGATCTACAC[i5]TCGTCGGCAGCGTC(SEQ ID NO：6)，其中[i5]是存在或不存在的索引区域并且包含4-12个核苷酸。

20.如权利要求19所述的方法，其中从反应混合物中扩增标签化的双链cDNA多核苷酸包括使标签化的双链cDNA多核苷酸与包含SEQ ID NO：2的第一扩增引物和两种不同的第二扩增引物接触，其中一个第二扩增引物包含SEQ ID NO：5，并且另一个第二扩增引物包含SEQ ID NO：6。

21.如权利要求1-20中任一项所述的方法，其中使双链cDNA多核苷酸与载有衔接体的标签酶接触包括将包含两个相同多核苷酸衔接体的载有同源载体的标签酶引入包含双链cDNA多核苷酸的反应混合物中，从而将多核苷酸衔接体之一附连到双链cDNA的第二末端。

22.如权利要求21所述的方法，其中所述附连在反应混合物中进行，所述反应混合物不包含载有衔接体的标签酶，所述标签酶包含与载有同源衔接体的标签酶的两个相同的多核苷酸衔接体不同的多核苷酸衔接体。

23.如权利要求1-20中任一项所述的方法，其中所述使双链cDNA多核苷酸与载有衔接体的标签酶接触包括：

-将包含两个结构上不同的多核苷酸衔接体的载有异型衔接体的标签酶引入包含双链cDNA多核苷酸的反应混合物中；或

-向包含双链cDNA多核苷酸的反应混合物中引入第一和第二载有同型衔接体的标签酶，其中第一载有同型衔接体的标签酶包含多核苷酸衔接体，并且第二同型衔接体标签酶包含结构上不同的多核苷酸衔接体，

从而使所述多核苷酸衔接体之一附连到双链cDNA的第二末端。

24.如权利要求21所述的方法，其中所述载有同型衔接体的标签酶包含具有自5′至3′包含GTCTCGTGGGCTCGG(SEQ ID NO：7)的单链区域的多核苷酸衔接体或具有自5′至3′包含TCGTCGGCAGCGTC(SEQ ID NO：8)的单链区域的多核苷酸衔接体。

25.如权利要求24所述的方法，其中所述载有同型衔接体的标签酶包含具有包含SEQID NO：7的单链区域的多核苷酸衔接体，第一扩增引物包含SEQ ID NO：1，SEQ ID NO：8或其互补序列，并且第二扩增引物包含SEQ ID NO：7或其互补序列。

26.如权利要求24或25所述的方法，其中所述载有同型衔接体的标签酶包含具有包含SEQ ID NO：7的单链区域的多核苷酸衔接体，第一扩增引物包含SEQ ID NO：1或其互补序列，并且第二扩增引物包含SEQ ID NO：2、3或4或其互补序列。

27.如权利要求24或25所述的方法，其中所述载有同型衔接体的标签酶包含具有包含SEQ ID NO：7的单链区域的多核苷酸衔接体，第一扩增引物包含SEQ ID NO：2或其互补序列，并且第二扩增引物包含SEQ ID NO：1、5或6或其互补序列。

28.如权利要求24所述的方法，其中所述载有同型衔接体的标签酶包含具有包含SEQID NO：8的单链区域的多核苷酸衔接体，第一扩增引物包含SEQ ID NO：7或其互补序列，并且第二扩增引物包含SEQ ID NO：8或其互补序列。

29.如权利要求23所述的方法，其中所述载有异型衔接体的标签酶包含含有SEQ IDNO：7的第一多核苷酸衔接体和含有SEQ ID NO：8的第二多核苷酸衔接体。

30.如权利要求29所述的方法，其中所述第一扩增引物包含SEQ ID NO：1或其互补序列，第二扩增引物包含SEQ ID NO：4或其互补序列，并且所述方法还包括使标签化的双链cDNA多核苷酸与第三扩增引物接触，所述第三扩增引物包含SEQ ID NO：3或其互补序列。

31.如权利要求29所述的方法，其中所述第一扩增引物包含SEQ ID NO：2或其互补序列，第二扩增引物包含SEQ ID NO：5或其互补序列，并且所述方法还包括使标签化的双链cDNA多核苷酸与第三扩增引物接触，所述第三扩增引物包含SEQ ID NO：6或其互补序列。

32.如权利要求1-31中任一项所述的方法，其中与载有衔接体的标签酶接触的双链cDNA多核苷酸包含与原始第二链cDNA多核苷酸杂交的原始第一链cDNA多核苷酸。

33.一种对多种cDNA多核苷酸标签化的方法，所述方法包括用多种结构上不同的mRNA：cDNA杂合体进行如权利要求1-31中任一项所述的方法。

34.如权利要求33所述的方法，其中所述多个结构上不同的mRNA：cDNA杂合体包含来自单个细胞的mRNA。

35.如权利要求33所述的方法，其中所述多个结构上不同的mRNA：cDNA杂合体包含来自至少10个细胞，优选50至500个细胞的mRNA。

36.如权利要求35所述的方法，其中所述方法包括合并多种含有mRNA：cDNA杂合体的反应混合物，其中单独反应混合物包含来自单个细胞的mRNA：cDNA杂合体，然后从合并的mRNA：cDNA杂合体合成第二链cDNA多核苷酸。

37.如权利要求35所述的方法，其中所述方法包括合并多种含有mRNA：cDNA杂合体的反应混合物，其中单独反应混合物包含来自单个细胞的mRNA：cDNA杂合体，然后使合并的mRNA：cDNA杂合体与包含RNA酶H活性的酶接触。

38.如权利要求35所述的方法，其中所述方法包括合并多种含有mRNA：cDNA杂合体的反应混合物，其中单独反应混合物包含来自单个细胞的mRNA：cDNA杂合体，并且其中mRNA经RNA酶H片段化的，然后使合并的经RNA酶H片段化的mRNA：cDNA杂合体DNA聚合酶接触，从而延伸mRNA片段。

39.如权利要求35所述的方法，其中所述方法包括合并多种含有mRNA：cDNA杂合体的反应混合物，其中单独反应混合物包含来自多个细胞的mRNA：cDNA杂合体，然后从合并的mRNA：cDNA杂合体合成第二链cDNA多核苷酸。

40.如权利要求35所述的方法，其中所述方法包括合并多种含有mRNA：cDNA杂合体的反应混合物，其中单独反应混合物包含来自多个细胞的mRNA：cDNA杂合体，然后使合并的mRNA：cDNA杂合体与包含RNA酶H活性的酶接触。

41.如权利要求35所述的方法，其中所述方法包括合并多种含有mRNA：cDNA杂合体的反应混合物，其中单独反应混合物包含来自多个细胞的mRNA：cDNA杂合体，并且其中mRNA是经RNA酶H片段化的，然后使合并的经RNA酶H片段化的mRNA：cDNA杂合体DNA聚合酶接触，从而延伸mRNA片段。

42.一种对测序平台特异性cDNA扩增子测序的方法，包括：

-提供测序平台特异性扩增子，其中所述测序平台特异性扩增子包含双链多核苷酸，所述双链多核苷酸包含：

i)包含SEQ ID NO：1的第一末端；

ii)包含SEQ ID NO：2的第二末端；和

iii)包含双链cDNA多核苷酸的中间区域，所述双链cDNA多核苷酸包含与mRNA序列互补的第一链cDNA多核苷酸，所述第一链cDNA多核苷酸与对应于所述mRNA序列的第二链cDNA多核苷酸杂交；并且

-用含有SEQ ID NO：8的第二测序引物从第二末端对扩增子测序。

43.如权利要求42所述的方法，其中所述第一末端包含第二链cDNA多核苷酸的3′聚腺苷酸区域，所述3′聚腺苷酸区域对应于mRNA序列的3′聚腺苷酸化区域。

44.如权利要求43所述的方法，其中所述第二链cDNA多核苷酸的长度小于相应mRNA长度的90％。

45.如权利要求42所述的方法，其中所述方法包括用第一测序引物从第一末端对扩增子进行测序，然后用第二测序引物从第二末端对扩增子进行测序。

46.如权利要求45所述的方法，其中所述第一测序引物自5′至3′包含GCCTGTCCGCGGAAGCAGTGGTATCAACGCAGAGTAC(SEQ ID NO：9)或自5′至3′包含ACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO：12)的序列。

47.如权利要求42所述的方法，其中所述第二测序引物自5′至3′包含AGATGTGTATAAGAGACAG(SEQ ID NO：10)。

48.如权利要求42所述的方法，其中所述第二测序引物自5′至3′包含TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG(SEQ ID NO：11)。

49.一种对多个测序平台特异性cDNA扩增子测序的方法，包括：

-提供多个测序平台特异性扩增子，其中单独测序平台特异性扩增子包含双链多核苷酸，所述双链多核苷酸包含：

i)包含SEQ ID NO：1的第一末端；

ii)包含SEQ ID NO：2的第二末端；和

iii)包含双链cDNA多核苷酸的中间区域，所述双链cDNA多核苷酸包含与mRNA序列互补的第一链cDNA多核苷酸，所述第一链cDNA多核苷酸与对应于所述mRNA序列的第二链cDNA多核苷酸杂交；

-用含有SEQ ID NO：8的第二测序引物从第二末端对扩增子的部分测序；并且

-用自5′至3′含有GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG(SEQ ID NO：12)的第三测序引物从第二末端对扩增子的部分测序。

50.如权利要求49所述的方法，其中所述第二测序引物包含SEQ ID NO：11。

51.一种包含5′末端和3′末端的引物，其中：

所述5′末端包含SEQ ID NO：2，且所述3′末端包含SEQ ID NO：8；或

所述5′末端包含SEQ ID NO：1，且所述3′末端包含SEQ ID NO：7。

52.如权利要求51所述的引物，其中所述5′末端包含SEQ ID NO：2，且所述3′末端包含SEQ ID NO：8。

53.如权利要求51所述的引物，其中所述引物包含SEQ ID NO：4。

54.如权利要求51所述的引物，其中所述5′末端包含SEQ ID NO：1，且所述3′末端包含SEQ ID NO：7。

55.如权利要求51所述的引物，其中所述引物包含SEQ ID NO：5。

56.一种试剂盒，其包括：

-含有引物的第一容器，所述引物包含5′末端和3′末端，其中：

所述5′末端包含SEQ ID NO：1，且所述3′末端包含SEQ ID NO：7；和

-含有DNA聚合酶的第二容器。

57.一种反应混合物，包含：

包含SEQ ID NO：9的第一引物；和

包含SEQ ID NO：11的第二引物。