CN116323976A

CN116323976A - 产生转录核酸的方法和工具

Info

Publication number: CN116323976A
Application number: CN202180066881.5A
Authority: CN
Inventors: M·苏维拉; P·莫尔; A·塞茨
Original assignee: Lexogen GmbH
Current assignee: Lexogen GmbH
Priority date: 2020-10-02
Filing date: 2021-10-01
Publication date: 2023-06-23
Also published as: CA3193967A1; AU2021354916A1; KR20230080464A; EP4222284A1; US20230348963A1; WO2022069703A1; JP2023545400A; BR112023004572A2

Abstract

本发明涉及产生转录核酸的方法，包括：提供核酸模板，将寡核苷酸探针与核酸模板杂交，该寡核苷酸探针包含与核酸模板杂交的互补部分以及在互补部分的(5')方位、不与核酸模板杂交、且包含转录启动子序列的非互补部分，水解核酸模板的(3')部分，该(3')部分位于与寡核苷酸探针杂交的核酸模板部分的(3')方向、且不与寡核苷酸探针杂交，或水解模板‑探针双链体中的核酸模板以解离该模板的(3')指向部分，用与寡核苷酸探针的非互补部分互补的核酸延伸该核酸模板，由此生成与核酸模板顺次排列的转录启动子序列的双链体，用结合转录启动子序列双链体的转录酶转录核酸模板，由此产生转录的核酸；以及用于执行这种方法的试剂盒和核酸。

Description

产生转录核酸的方法和工具

发明领域

本发明涉及体外转录以产生多个与模板核酸相对应的核酸的领域。

发明背景

近年来核糖核酸(RNA)测序(RNA-seq)技术的快速发展重新定义了生物学分析的范围和规模。基于下一代测序(NGS)的基因组学、转录组学和表观基因组学技术现在越来越关注单个细胞的综合表征，以测量单个细胞的变异和汇集后所有细胞的平均表达值(Shapiro等，Nat.Rev.Genet.2013；14:618-630)。通过以体外转录(IVT)进行的线性扩增和以聚合酶链式反应(PCR)进行的指数扩增，开创了单细胞水平的转录组范围RNA测序。该方法最初应用于市售脱氧核糖核酸(DNA)微阵列芯片，而第一份基于NGS平台的单细胞转录组分析报告于2009年由Tang等人发表(Nat.Methods 2009；6:377-382)。

线性RNA扩增是一种等温核酸扩增，也称为体外RNA转录介导的扩增，也称为扩增的RNA(aRNA)。aRNA通常使用噬菌体的成分来合成。最常用的系统源自T3、T7和SP6噬菌体。DNA依赖性RNA聚合酶(RNAP)对特定启动子序列表现出严格的特异性。RNAP在体外催化单链DNA、双链DNA或始于同源双链启动子的单链RNA上的RNA合成(图13；Arnaud-Barbe等人，Nucleic Acids Res.1998；26(15):3550-4)。aRNA生成的基本策略是将启动子序列置于任何感兴趣序列的上游，这些序列可以是原始RNA模板的3'或5'位点。关于线性反义RNA扩增方法的综述可参见J.Li和J.Eberwine的文章(Nat.Protocols 2018；13(5):811-818)。

3'位置的IVT启动子序列

Van Gelder等人(Proc.Nat.Acad.Sci.USA 1990；87:1663-1667)使用合成的oligo(dT)-T7pr寡核苷酸，其包含poly(dT)序列和噬菌体T7 RNA聚合酶启动子序列两者，以引发通过逆转录进行的互补DNA(cDNA)的合成。此处，引物的poly(dT)链选择mRNA种类的poly(A)尾，而T7启动子区域稍后启动T7RNA聚合酶的结合以合成cDNA模板的RNA拷贝。然而，在这种方法中，所需的双链启动子序列仅在需要第二个启动步骤的第二链cDNA合成之后生成。IVT使用第二链cDNA作为模板，产生反义方向的aRNA(反向互补体)。文献中IVT的例子有来自RNA模板的(Nacheva等Eur J Biochem.2003,270(7):1458-65)和来自带有双链启动子的单链RNA模板的(Arnaud-Barbe等,Nucleic Acids Res.1998,26(15):3550-4)。在直接比较中，导致最高产aRNA的最有效IVT来自一种模板，该模板由一个双链DNA启动子和在该启动子序列下游18个碱基处发生了从DNA到RNA的转录的RNA区域组成。WO 93/22461和WO2004/044239A1描述了一种使用“启动子-引物”扩增靶RNA的方法，该启动子-引物(在WO2004/044239A1中称为“寡核苷酸”)包含RNA聚合酶的启动子和该启动子3'端的引物，所述引物能与靶RNA复合。US 5 744 308 A1描述了一种使用嵌合寡核苷酸产生靶序列的转录物或扩增产物的类似方法。EP 1 921 156 A1描述了一种用于基于转录的扩增的方法，其中靶核酸与包含RNA聚合酶启动子以及与靶核酸的一部分互补的序列的启动子寡核苷酸杂交。US 2012/003651 A1描述了一种检测样品中生物体核酸的方法，包括在扩增反应中标记核酸和产生标记的cDNA拷贝的步骤。WO 2016/125106 A1描述了一种在微芯片上并行分析细胞转录组的方法。

IVT启动子序列的5'位置

或者，T7启动子序列可以通过模板-转换(TS)寡核苷酸引入。在此，通过逆转录酶的末端转移酶活性进行脱氧胞嘧啶核苷的添加，使得能够与含有3'nG的TS-寡核苷酸进行碱基配对，其作为新模板用于继续延伸直至TS-寡核苷酸的5'末端。通过这些工具，在mRNA的5'端引入了双链启动子序列。随后的IVT合成具有相同方向的RNA副本。

在2012年，aRNA方法经过改良，允许使用包含独特的细胞条形码和位于锚定的poly(dT)与T7启动子序列之间的与Illumina平台兼容的测序衔接子的引物对样品进行多重分析(Hashimshony等,Cell Reports 2012；2:666-673)。后一种方法被命名为CEL-seq，它允许众多细胞被条形码标记、被线性扩增并被测序。

尽管这些方法被广泛采用，但大多数都非常低效，仅将极低百分比的RNA输入分子转到测序文库中。RNA纯化、逆转录和第二链DNA合成一起为将RNA转化为双链DNA拷贝施加了连续的瓶颈。所有未被这些初始反应步骤捕获的序列在任何后续扩增步骤和最后的测序本身中都会丢失。消除这些障碍对于低水平输入材料(如来自单细胞的RNA)很重要，但对于来自复杂组织样品的RNA输入也很重要。深度测序的一个重要目标是识别所有RNA序列而没有失败，因为罕见转录体通常载有了解调节、故障和疾病发展的线索。

目前的单细胞测序方法依赖对大量细胞的RNA的标记和测序，因转换效率低导致的浅阅读深度的测序，基于高丰度标记物转录体的细胞聚类，组合聚类读长以得到细胞聚类的平均深度测序结果。这些方法依赖于仅基于少量高丰度转录体的细胞分化。基因表达水平方面的高分辨率是不可能的。

因此，需要一种方法来克服标记和扩增RNA分子时的局限性。由于将RNA转化为测序文库的每个处理步骤都会造成效率瓶颈，因此需要一种从RNA输入本身开始标记和扩增RNA序列的方法。

发明概要

本发明提供了一种产生转录核酸的方法，包括以下步骤：a)提供核酸模板，b)将寡核苷酸探针与该核酸模板杂交，其中所述寡核苷酸探针包含与核酸模板杂交的互补部分，和位于互补部分的5'方向、不与核酸模板杂交、且包含转录启动子序列的非互补部分，c)水解核酸模板的3'部分，所述3'部分位于该核酸模板在步骤b)中与寡核苷酸探针杂交的部分的3'方向，且所述3'部分不与寡核苷酸探针杂交或所述3'部分与寡核苷酸探针杂交，d)用与寡核苷酸探针的非互补部分互补的核酸使核酸模板延伸，由此生成与核酸模板顺次排列的转录启动子序列的双链体，e)用结合转录启动子序列双链体的转录酶转录核酸模板，由此产生转录的核酸。

在一个实施方案中，核酸模板的水解是在杂交的双链区域中的一个或多个核苷酸键处进行的，以产生一个或多个单链“切口”，然后从切口位点开始，用与寡核苷酸探针的非互补部分互补的核酸延伸所述核酸模板，从而产生与核酸模板顺次排列的转录启动子序列的双链体。

在另一方面，本发明提供了适用于本发明方法的多个寡核苷酸探针的集合，其中所述寡核苷酸探针每一个都包含与所选模板序列互补的序列、转录启动子序列、以及长度为至少4个核苷酸的识别序列。

在一个相关方面，本发明提供了适用于执行本发明方法的试剂盒，其包含寡核苷酸探针，所述寡核苷酸探针包含转录启动子序列、3'→5'外切核酸酶或内切核酸酶、DNA或RNA聚合酶，及能在转录启动子序列处启动转录的转录酶。

本发明的所有方面、方法、集合和试剂盒全部涉及本文描述的本发明和具体实施例，例如所述方法可以利用集合、它们的组分、试剂盒或组分；所述集合和试剂盒可以适合于执行本发明的任何方法，且可包含用于所述方法的组分。

附图说明

图1从RNA产生扩增的反义RNA(aRNA)的反应示意图，使用带有启动子序列P的L1寡核苷酸探针。

图2作为输入材料的1ng总RNA和用带有poly(dT)互补序列的L1寡核苷酸探针合成的aRNA产物的生物分析仪轨迹。

图3从RNA产生扩增的反义RNA(aRNA)的反应示意图，使用带有启动子序列P的L1寡核苷酸探针，并用了经逆转录进行的cDNA合成的中间步骤。

图4作为输入材料的20ng总RNA、以及用带有poly(dT)互补序列的L1寡核苷酸探针以经由逆转录进行的cDNA合成的中间步骤而合成的aRNA产物的生物分析仪轨迹。

图5生成aRNA和随后生成NGS文库的反应示意图，使用带有启动子区域P和衔接子序列A1的L1寡核苷酸探针、以及带有衔接子序列A2的第二引物。

图6从A)10pg总UHRR、B)1个经FACS分选的HEK293细胞、C)100pg总UHRR、和D)10个经FACS分选的HEK293细胞生成的aRNA-3'seq NGS文库的生物分析仪轨迹平行实验。执行PCR循环，直到获得2nM的索引NGS文库用于测序。

图7是aRNA-3'seq NGS读长作图统计数据的比较，实验始于10和100pg纯化RNA(UHRR，或1和10个经FACS分选的HEK293裂解细胞，其中含有RNA但也含有基因组DNA)。

图8箱形图显示用方法1(M1,

Single Cell/Low Input RNA LibraryPrep Kit for/>

NEB)从6份10pg通用人类参考RNA(ThermoFisher Scientific,QS0639)重复样品鉴定出的基因(CPM>1)数量，以及方法2(M2，SMART-seq2,Takara Bio,www.takarabio.com/learning-centers/next-generation-sequencing/technical-notes/single-cell-rna-and-dna-seq/highest-sensitivity-for-single-cell-mrna-seq)已发布的数据，aRNA-3'seq显示后者的更高检测率和更小差异。

图9是2×4HEK293细胞之间的平均基因表达值的相关性作图。

图10标准化基因整体覆盖率作图，用UHRR作为aRNA-3'seq和aRNA-WTS NGS文库制备的起始材料，跨全部经注释的人类基因而给读长作图。计算用RSeQC-2.6.4软件包(Wang,Wang and Li,2012)完成。

图11靶向aRNA-seq NGS文库的生物分析仪轨迹，其中使用包含SARS-CoV-2互补序列的L1寡核苷酸，以及具有随机序列的L2寡核苷酸。输入材料是SARS-CoV-2参考RNA，每个反应有标称的2,500和25,000个病毒拷贝(VC)。

图12图示磁珠结构，磁珠都用L1寡核苷酸共价修饰，以便在固体磁珠表面执行aRNA工作流程和NGS文库生成。

图13关于Arnaud-Barbe等(Nucleic Acids Res.1998,26(15):3550-4)的体外转录(IVT)模板的示意图概览。顶部链为非模板链，底部链为模板链。粗线代表共义双链DNA启动子区；细线是DNA区；虚线是RNA区；+1对应转录起始位点；+18对应起始点下游18个碱基处；ss DNA，单链DNA模板；dsho DNA，双链完全配对DNA模板；ss RNA+18，单链RNA+18模板；dshe RNA+18，双链不完全配对RNA+18模板；dsho RNA+18，双链完全配对RNA+18模板；ssRNA+1，单链RNA+1模板；dshe RNA+1，双链不完全配对RNA+1模板；dsho RNA+1，双链完全配对RNA+1模板。

图14从10pg总UHRR生成的aRNA-3'seq NGS文库的双份生物分析仪轨迹，用单个反应体积执行3'polyA尾突出端的水解、末端修复、和随后立即进行的逆转录。

图15从RNA产生扩增的反义RNA(aRNA)的反应示意图，使用带有启动子序列P的L1寡核苷酸探针，并且先引入切口位点，然后再开始从这些切口位点合成双链P区域。

图16从RNA产生扩增的反义RNA(aRNA)的反应示意图，使用带有启动子序列P的L1寡核苷酸探针，引入切口位点，从这些切口位点开始平行合成双链P区。

图17从10pg总UHRR生成的aRNA-3'seq NGS文库的双份生物分析仪轨迹，使用切口位点来开始双链P区的合成，与A)相比，所述合成在B)两个后续反应中进行和在C)仅仅一个联合反应中进行，用单个反应体积执行3'polyA尾突出端以单链特异性外切核糖核酸酶进行的水解、末端修复、和随后立即进行的逆转录。

发明详述

一种产生转录核酸的方法。本发明的方法允许将核酸序列如RNA序列转化为下一代测序文库。

在步骤a)中，提供核酸模板(亦简称“模板”)。核酸模板如此命名是因为包含用于转录的模板序列，转录在本发明方法中的实施是为了扩增和产生包含所述模板的核酸序列的核酸分子(转录物)。核酸模板可以是RNA或DNA。本发明的方法特别适用于分析RNA模板，如信使RNA(mRNA)、非编码RNA(ncRNA)、核糖体RNA(rRNA)、微小RNA(miRNA)，因此它们是优选的核酸模板。这些中的任一种或其组合可以作为核酸模板提供。混合型核酸模板是可能的，例如包含DNA和RNA两者。优选地，核酸模板包含RNA或由RNA组成。

如本文所用，词语“包含(comprising)”(及其任何形式,如comprise和comprises)、“具有(having)”(及其任何形式,如have和has)、“包括(including)”(及其任何形式,如includes和include)或“含有(containing)”(及其任何形式,如contains和contain)是包容性的或开放式的，不排除额外的、未提及的元件或方法步骤。“包含”当用在一种元件上结合了该元件的某种值的数字范围时，意味着该元件被限制在该范围内，且“包含”涉及其他元素的可选存在。例如，具有一个范围的元件可能隐含表明，排除该元素以超出该范围的量存在的情形。如本文所用，短语“基本上由……组成”需要特定的整数或步骤，以及不会实质性影响要求保护的发明的特征或功能的那些。如本文所用，闭合术语“由…组成”用于指示仅存在所列举的元件。

模板可以是与其他核酸分子的混合物，甚至是与除了模板以外的其他核酸类型(例如RNA或DNA)的混合物。

优选地，核酸模板的长度为20至100,000个核苷酸，优选50至20,000个核苷酸。

所提供的模板可以从细胞中纯化或分离，或提供时未纯化，例如，为细胞裂解物。在使用细胞裂解物的情况下，消化模板的核酸酶优选被灭活，例如通过变性(例如通过升温)，或通过消化(例如核酸酶的酶切)。模板为RNA的情况下，需要灭活的核酸酶是RNA酶；模板为DNA的情况下，需要灭活的核酸酶是DNA酶。优选地，该步骤是用蛋白酶处理，例如灭活RNA酶和/或DNA酶的蛋白酶。

然后在本发明方法的步骤b)中，寡核苷酸探针与核酸模板杂交。寡核苷酸探针应包括与核酸模板杂交的互补部分和位于该互补部分5'方向的不与核酸模板杂交的非互补部分。所述非互补部分包含转录启动子的序列。

寡核苷酸和多核苷酸分子根据其5'和3'末端而具有方向性。“5'方向”，也称“上游”或“3'→5'方向”，是指朝向5'端的方向。“3'方向”，也称“下游”或“5'→3'方向”，是指朝向3'端的方向。这种方向性是针对所描述的分子或链给出的——这可能是或可能不是编码链。与所述寡核苷酸和多核苷酸分子杂交的互补链具有相反的方向性。

“互补部分”和“非互补部分”分别是指核酸中在步骤a)中形成杂交体或不形成杂交体的核苷酸之间的互补。互补性可以通过在后面的方法步骤中改变核苷酸而改变。优选地，互补部分的长度为10-100个核苷酸，优选地长度为12-50个核苷酸。

将寡核苷酸探针与核苷酸模板杂交可以与模板形成核苷酸杂交体。寡核苷酸探针可被聚合酶延伸(作为引物)或不可延伸。优选地，寡核苷酸探针是DNA分子，尤其在与引物杂交的互补部分中包含DNA核苷酸。寡核苷酸探针还可以包含修饰的核酸，如LNA核苷酸、2'-氟核苷酸、或2'-O-甲基核苷酸。如果模板是RNA，就像在优选中那样，则杂交体可以是RNA-DNA杂交体。

通过寡核苷酸探针，所述方法引入了适用于体外转录(IVT)的转录启动子序列。该启动子可位于互补部分的5'方向。该转录启动子序列在所述方法的步骤d)中应该是单链，以便产生与模板连续的转录启动子双链，例如通过在步骤d)中用聚合酶延伸模板或通过例如在步骤d)中连接互补寡核苷酸。互补寡核苷酸也可以作为双链存在于寡核苷酸探针中，其中与转录启动子杂交的所述互补寡核苷酸然后连接至模板。优选地，转录启动子在步骤b)和/或步骤c)中维持单链形式。

转录启动子序列P可以是能在体外设置中启动转录的任何启动子序列。启动子可以是T7、T3或SP6或为转录酶(优选RNA聚合酶)可用的任何其他启动子。在步骤e)中，启动子与相应的转录酶(例如T7、T3和SP6 RNA聚合酶)一起使用。在优选实施方案中，启动子是T7启动子。引物中启动子序列的方向是启动向核酸模板5'端的转录。

本发明的方法进一步包括c)将核酸模板的3'部分水解，该3'部分位于步骤b)中与寡核苷酸探针杂交的核酸模板部分的3'方向。在第一实施方案中，核酸模板的所述3'部分不应与寡核苷酸探针杂交，因为3'部分如果与寡核苷酸探针对齐而没有缺失或插入，将与寡核苷酸探针的非互补部分待在一起。或者，所述3'部分与寡核苷酸探针杂交。

在第一实施方案中，核酸模板的这个3'部分也称为单链3'突出端。在本发明的所有实施方案中，步骤c)中的水解优选是单链特异性的。优选地，它是逐步水解，从3’末端朝着5’方向一次一个核苷酸，直到达到双链体，即不再有更多的单链可供单链特异性水解。外切核酸酶可以进行这样的反应。

水解该3'突出端可以是消化，尤其酶消化。它应该对这种单链3'突出端具有特异性，从而保持模板与寡核苷酸探针杂交。这种水解的一个优选实例是使用外切核酸酶，优选催化沿3'→5'方向去除核苷酸的单链特异性外切核酸酶。优选地，当模板(至少在3'突出端)是RNA时，单链特异性外切核酸酶是单链RNA特异性外切核酸酶。当在本发明方法的步骤c)中所述3'部分不与寡核苷酸探针杂交时，优选使用单链特异性外切核酸酶，尤其是外切核糖核酸酶。

尽管外切核酸酶和内切核酸酶均可用于本发明的方法，内切核酸酶将在以下段落中进一步描述，外切核酸酶是优选的实施方案。内切核酸酶，如RNase H，通过水解切割或“切开”双链，尤其是RNA:DNA杂交体。因为短到四聚体这样的双链可以触发内切核酸酶(关于RNase H活性，参见Donis-Keller,Nucleic Acids Res.1979,7(1):179-192)，在这种情况下RNA水解发生双链(RNA/DNA杂交体)沿线的不同位置。结果可以是非常短的杂交体。双链区末端附近的水解可产生短片段，它们被少数核苷酸(例如2或3个核苷酸)杂交。这些短杂交体可导致双链解离，仅留下单链。这种单链解离产物不能在本发明的方法中处理，导致产物损失。这在互补序列的长度允许多个水解事件时会随着单链(RNA)片段数量的增加而加剧。这导致带标记的目标模板的减少，降低了目标检测的效率。

在备选的第二实施方案中，核酸模板的水解在杂交的双链区中核酸链的糖磷酸主链(例如磷酸二酯键)处进行，以产生单链“切口”，优选用内切核酸酶(例如当模板是RNA时的核糖核酸酶)来水解。在这种情况下，如果短序列之间的结合较弱，则整个3'突出端会解离。或者，切口下游的已杂交部分在步骤d)的延伸期间被置换，使已杂交的下游部分和整个3'突出端解离。糖磷酸主链包含糖链(通常是戊糖，例如核糖或脱氧核糖)，以及磷酸根部分，它们通常由酯键连接。如上段所述，内切核酸酶可导致产物损失。另一方面，内切核酸酶优于外切核酸酶在于，单个水解事件可以产生可加工的产物，而不需要一个核苷酸接一个核苷酸地逐步水解核酸模板的3'部分。这可以导致更快的反应。

“切口”是双链多核酸分子(例如RNA或DNA)中的不连续之处，在此，磷酸糖主链断裂(例如一条链的相邻核苷酸之间没有磷酸二酯键)，或者糖环断裂(通常是被破坏或酶解)。切口位置的另一条链含有磷酸二酯键并维持聚合物的连续性，从而能通过与切口链的两个相邻部分杂交而将这两个部分维系在一起。切口位点缺少连续的糖磷酸主链可能是水解的结果。在本发明的实施方案中，核酸模板可以被切开(例如通过磷酸二酯键的水解)，从而产生两个可以被切开的多核酸分子。

优选地，在该第二实施方案中，水解包括水解模板中与寡核苷酸探针杂交的区中的磷酸二酯键，从而在模板中引入切口。水解优选由内切核酸酶(例如内切核糖核酸酶)来实现。内切核酸酶优选是双链特异性的，即它特异性水解双链而不是单链。

根据该实施方案，步骤c)需要水解在步骤b)中与寡核苷酸探针杂交的核酸模板部分的3'方向上的核酸模板3'部分，且该3'部分与寡核苷酸探针杂交。这两个要求意味着水解位置是在模板上-从模板的5'到3'-与寡核苷酸探针杂交的部分，然后是一个或多个水解部分(例如切口)，然后是仍处于杂交状态但稍后将被移除的部分。位于杂交区中第一个切口5'的部分具有将在步骤d)中作为核酸模板(的剩余部分)而被延伸的3'末端。位于切口3'方向的模板部分(3'部分)被去除，例如核酸延伸步骤中通过链置换去除。

引入了切口的“杂交双链区”是核酸模板与寡核苷酸探针杂交的区。基于上述原理，切口被引入到此杂交双链区的内部而非末端，因为切口两侧都有双链。

在第一实施方案中，水解通常发生在直到但不包括杂交双链区的部分中。

根据这两个实施方案，“水解核酸模板的3'部分”因此可以指水解(例如通过内切核酸酶)切口的核苷酸键，从而切断与3'部分的共价键，或者3'部分中的数个核苷酸键(例如通过第一实施方案的外切核酸酶)。水解3'部分中的数个核苷酸键可包括将3'部分水解为单个核苷酸。

然后本发明的方法继续进行步骤d)，用与寡核苷酸探针的非互补部分互补的核酸(核苷酸)延伸核酸模板，从而产生与核酸模板顺次排列的转录启动子序列的双链体。通过在(例如来自样品的)核酸模板的3'端(剩余部分止于在步骤c)中发生水解处)，或在带切口的多核酸分子(即3'端位于切口处的多核酸分子)之一的3'端，以“模板-特异性方式”(在这种情况下，延伸的“模板”不太可能是寡核苷酸探针)延伸核酸模板，一种双链体中更长的互补区产生于核酸模板与延伸至并包括转录启动子(其最初在步骤b)中处于非互补部分)的寡核苷酸探针之间。

这种延伸反应遵循任何基于引物沿5'→3'方向延伸(例如使用聚合酶)的原则。或者，在寡核苷酸探针的5'方向连接一或多个与寡核苷酸探针互补的核酸，可以生成具有寡核苷酸探针的该5'部分以及—在连接到核酸模板后—和核酸模板的双链体(在此有一个3'部分位于步骤b)中与寡核苷酸探针杂交的部分的3'方向)。

延伸优选使用DNA核苷酸。例如当核酸模板是RNA，则在这种情况下会生成混合的RNA-DNA分子/链。

模板的延伸优选通过核苷酸聚合，例如用聚合酶，特别优选用DNA聚合酶，且特别优选用具有链置换活性的DNA聚合酶从切口位点开始聚合。通过这些工具，引入的(寡核苷酸探针的)单链启动子序列变成双链，优选DNA双链(当寡核苷酸探针也是DNA时)。在第二实施方案中优选具有链置换活性的聚合酶，因为切口位于双链区内，与寡核苷酸探针杂交的模板3'部分可以随后被该聚合酶本身去除。在其他实施方案中，模板3'部分的去除可以通过去杂交或解离，例如核酸的解链和/或盐浓度的改变来实现。

在有切口的实施方案中，步骤c)和d)也可以写成：

c)水解杂交的双链区中的核苷酸键以产生一个或多个单链“切口”，

d)用与寡核苷酸探针的非互补部分互补的核酸从切口位点开始延伸核酸模板，从而产生与核酸模板顺次排列的转录启动子序列的双链体。

本发明的方法接下来是步骤e)用结合转录启动子序列的双链体的转录酶转录核酸模板。这个产生转录核酸(特别是数个拷贝——取决于允许的时间和为转录反应提供的核苷酸的量——)的步骤是通过使用转录酶来进行的。产生的转录核酸也称为“转录物”。该反应优选是使用核酸模板分子(如在前述步骤中修饰的)作为模板进行的线性体外转录(IVT)。转录优选地产生RNA转录物，其也称为扩增的反义RNA或“aRNA”，因为当它们直接从核酸模板而不是从其cDNA转录时，它们是对核酸模板的反义链。

生成的转录物(例如aRNA)可用于下游分析，以便例如制备标记的文库用于测序，尤其优选通过第三代测序方法(如纳米孔测序)进行的直接RNA测序，但也可用于下一代“短读长”测序。在此阶段，片段化和衔接子标记反应不再施加限制步骤，因为所有转录物都已经有了很多的拷贝。

本发明方法的一个优点是，对样品的核酸模板分析的效率增加，特别是从更高百分比的模板分子产生转录物(参见背景部分中讨论的问题)。使用本发明方法的转录组或基因表达分析大大提高了灵敏度。该方法还可以避免聚合酶链式反应(PCR)扩增方面的问题，当PCR效率因不同序列片段而异时，PCR往往会干扰无偏丰度测定。本发明的方法允许将几乎所有但超过75％的核酸模板分子转化为转录物，并将其连接到文库中用于测序。所述方法可以从核酸模板总量很微小时(例如少于10,000个分子)开始，但也可以是更多(例如作为信使RNA(mRNA)包含在单个细胞中，或者10pg及以下或以上的纯化的总RNA)。优选地，核酸模板的量为1,000-1,000,000,000个分子、优选10,000-100,000,000个分子、更优选50,000-10,000,000个分子、特别优选100,000-1,000,000个分子。

在一个优选方案中，本发明的方法还包括在寡核苷酸探针与核酸模板杂交时从互补部分延伸寡核苷酸探针的步骤。在这种情况下，寡核苷酸探针充当引物，通过以模板依赖性方式添加核苷酸，在探针的3'方向延伸(核酸模板是该反应的模板)。优选地，对于该反应，互补部分包含寡核苷酸探针分子的末端核苷酸，即可被延伸的末端，优选3'-末端。要可延伸，应存在可触达的3'OH。这种延伸优选是聚合酶反应。特别优选地，当模板是RNA(至少在延伸方向的部分，即在模板上位于模板-探针杂交部分的5'侧)，延伸优选是用逆转录酶进行的逆转录(RT)(参见图5，步骤1))。

这种延伸寡核苷酸探针的步骤优选地在步骤b)之后、步骤c)之前或之后、步骤d)之前或之后但在步骤e)之前进行。特别优选在步骤b)之后且在步骤c)之前。例如，所述延伸在步骤b)和c)之间，在步骤c)和d)之间，或在步骤d)和e)之间。

延伸寡核苷酸探针以在相对于寡核苷酸探针而言的互补部分的3'方向的区域产生双链的步骤增加所述分子的稳定性和/或打开和/或去除模板核酸(特别是RNA的模板核酸)的二级结构，从而提高该方法的效率。为了增加来自该改进的益处，该步骤优选地在早期进行，例如在步骤c)之前。

在上述引入切口的第二实施例中，步骤c)和d)及延伸也可以写成：

c1)延伸合成互补DNA(cDNA)的寡核苷酸探针，

c2)水解双链区中的核苷酸键以产生一个或多个单链“切口”，

在优选的实施方式中，步骤a)中定义的寡核苷酸探针的非互补部分(步骤a)中与核酸模板杂交的互补部分的5')，在互补部分和转录启动子序列之间包含：标识符序列和/或第一衔接子序列。

这样的标识符序列可以识别一个容器中步骤a)中提供的样品、细胞或核酸模板。标识符序列允许后续进行多重反应，核酸模板和/或转录物随后被汇集在一起用于后续方法步骤。即使在数种核酸模板和/或转录物和/或其扩增拷贝的混合物中，也可以根据样品与样品之间、或细胞与细胞之间、或核酸模板与核酸模板之间不同的标识符序列来鉴定属于某个样品、细胞或核酸模板。当然，任何此类标识符都可以组合(参见例如图12有核酸模板特异性标识符(UMI)和细胞特异性标识符(“细胞索引”)。这样的样品特异性标识符序列也称为“样品条形码”。其他标识符序列可以是在一个样品中或从一个细胞中识别相同序列的多个拷贝(如转录物拷贝)的序列。此类标识符序列是独特分子标识符(UMI)。样品标识符可用在寡核苷酸探针上，其中用于一个具体样品的所有寡核苷酸探针具有相同的标识符，但当应用于一个不同的样品时具有不同的标识符；细胞标识符可用在寡核苷酸探针上，其中用于一个具体细胞的所有寡核苷酸探针具有相同的标识符，但当应用于一个不同的细胞时具有不同的标识符。样品或细胞可以分别与其他样品或细胞分离，以便用寡核苷酸探针处理。核酸模板特异性标识符(UMI)通常与包含不同标识符的每个寡核苷酸探针一起使用。在这种情况下不需要分离单个分子，但当然分离也是可能的。样品或细胞或核酸模板特异性标识符序列优选是4-16个(优选6-12个)核苷酸长度的序列。分别识别核酸模板的不同样品、识别不同细胞或识别不同核酸模板的不同标识符序列彼此不同，优选Hamming距离至少为1，优选2或更多，优选3或更多，或优选Levenshtein距离至少为1，优选2或更多，优选3或更多。核酸模板特异性标识符(UMI)对于具有相同序列的所有分子而言优选是不同的，这意味着UMI的数量超过最高丰度转录物的数量，优选当UMI是由随机序列组成时超过所述丰度10倍。用本发明方法获得的转录物(都是源自一个特定模板的拷贝)然后可以被UMI追踪到源自一个模板分子。备选地，或与其组合地，例如通过使用两种标识符序列，可以用一种标识符序列识别样品或细胞，而用UMI识别模板分子。标识符序列优选位于启动子的相对于要通过IVT反应来拷贝的寡核苷酸探针而言的3'方向。

在优选的实施方案中，这种衔接子与用于纳米孔测序的测序衔接子兼容。例如，所述衔接子可包含用于纳米孔马达蛋白结合的序列，例如Y-衔接子。

用于所有样品/核酸模板的衔接子序列可以相同或者可以不同。优选所有样品/核酸模板的都相同。衔接子可用于将引物或探针结合到具有包含衔接子序列或其互补序列的序列的核酸，或者将具有包含衔接子序列或其互补序列的序列的核酸结合到与衔接子序列或其互补序列杂交的核酸。具有包含衔接子序列的序列的核酸可以是转录物或其进一步的扩增产物。因此，衔接子能够进一步处理或进一步扩增包含它或其互补序列的任何核酸。衔接子序列长度优选4-30个核苷酸，特别优选6-25个核苷酸，或甚至更优选8-20个核苷酸。

衔接子序列优选位于启动子的相对于寡核苷酸探针而言的3'方向。

在进一步优选的实施方案中，本发明的方法包括使得一种或多种二级引物与一种或多种转录的核酸杂交、并以模板依赖性方式延伸所述二级引物。通过将二级引物与转录物结合，并以转录物为模板延伸该引物，得到与转录物具有互补序列的核酸分子(见图5步骤5；二级引物称为“Oligo-L2”)。此类二级引物可在任何序列部分或在根据预期或已知的转录物序列可预先选择的特定序列上结合转录物。在转录物任何部位的结合都可以例如由随机引物促进，例如具有各种杂交序列的引物(诸如随机寡聚物引物，如随机六聚体引物)混合物。第二引物优选与5-30个核苷酸长、优选6-20个核苷酸长的序列的转录物杂交。

优选地，二级引物包含第二衔接子序列。该衔接子序列对于所有二级引物都优选相同，而不管转录物结合序列如何。该衔接子可用于将引物或探针结合到具有包含衔接子序列或其互补序列的序列的核酸，或将具有包含衔接子序列或其互补序列的序列的核酸结合到与衔接子序列或其互补序列杂交的核酸。具有包含第二衔接子序列的序列的核酸可以是如上所述的核酸分子。该衔接子能进一步处理或进一步扩增包含它或其互补序列的任何核酸。第二衔接子序列的长度优选4-30个核苷酸，特别优选6-25个核苷酸，或甚至更优选8-20个核苷酸。二级引物连同寡核苷酸引物上的衔接子序列可以在仅仅一个扩增步骤(第一链合成)中生成带有两个衔接子的完整片段，其可直接用于(即无需进一步扩增或PCR)NGS运行。第二引物的衔接子可以任选地具有标识符序列。对寡核苷酸探针的标识符序列的描述同样适用于第二引物的这种可选标识符序列。

特别优选的是非互补部分上的衔接子(如在步骤b)中)和第二引物上的衔接子的组合。这允许产生的核酸分子在两端或两端附近(在感兴趣的模板序列的侧翼)具有衔接子或其互补序列。这允许在一个或多个PCR循环中进行选择和扩增，或通过一个或全部两个衔接子序列或其互补序列在测序固相上结合。

本发明的方法具有非常高灵敏度的优点。这允许分析来自单细胞或其细胞器或隔室例如线粒体(例如mtRNA)或外泌体的核酸。优选地，核酸模板包含来自细胞器、细胞切片、或细胞(优选1-1000个细胞、细胞器、细胞切片或细胞)的RNA或DNA(优选RNA)，或由它们组成。例如，细胞切片是在空间转录组学工作流程中的切割树突。此类细胞切片可包含特征性RNA作为本发明方法的合适模板。

核酸模板可存在于核酸混合物中，包括可能不是模板的核酸，例如其他类型的核酸(RNA或DNA)或包含寡核苷酸探针不会结合的序列。另一类不是模板的核酸可以是从进一步加工中去除或变得不可接近的核酸，所述加工例如步骤b)中的寡核苷酸探针杂交，步骤c)中水解3'部分或步骤d)中延伸核酸模板。在特别优选的实施方案中，核酸模板是在包含DNA的核酸池中。核酸模板优选为RNA。优选地，DNA在步骤c)中不被水解而RNA被水解。例如，RNA 3'部分可以被RNA特异性外切核酸酶消化。在引入切口的实施方案中，能够在双链部分水解模板中磷酸二酯键的酶(例如内切核酸酶)，可以水解RNA模板但不水解DNA。这种酶可以是内切核糖核酸酶。因此，此类非模板核酸，如模板为RNA时的DNA，由于未能在步骤b)、c)、d)或e)中被加工而被排除在步骤e)的任何后续转录之外。这样做的好处是，在RNA模板的情况下，减少了产物转录核酸的基因组污染(来自DNA)。

本发明方法的另一个优点是它可以在其他核酸的混合物中进行。无需纯化步骤a)、b)、c)、d)和e)或其任何组合，例如步骤b)和c)，或步骤c)和d)，或步骤b)-d)，特别是所有这些步骤，的反应产物。

为了易于处理，这些步骤在一个容器中完成，所述容器例如烧瓶、小瓶、袋子、注射器、或孔，包括孔板上的微孔，或任何其他保持装置或合适的封装。在优选的实施方案中，本发明的方法包括在容器中提供核酸模板并在所述容器中进行步骤b)至e)。模板优选地保留在所述容器中直到步骤e)和/或在步骤e)之前不从所述容器中移除。在步骤b)之前可能不需要清洗或纯化模板。有些步骤甚至可以联合执行，例如步骤c)和d)。因此，适用于步骤c)的外切核酸酶和适用于步骤d)的聚合酶可组合在反应混合物中。一旦外切核酸酶去除了模板的3'突出端(已钝化)到寡核苷酸探针的互补部分，聚合酶将变得活跃，从而聚合酶现在可以活化，并通过依赖(先前在步骤b)中的)寡核苷酸探针的非互补部分延伸模板，而开始延伸模板与探针的双链体。

优选在步骤e)之前(通过例如与固相结合)去除寡核苷酸探针。

本发明的方法可以在一个单一的逐渐增加的体积中进行，只需向反应混合物中添加更多的试剂以补充酶活性和反应条件。

当提供来自细胞的核酸时，会降解核酸模板或干扰本方法后续反应的细胞内容物(例如酶)应该被灭活，使得核酸模板不受影响。本发明的方法优选包括提供一或多个细胞(例如1-1,000个细胞)，裂解细胞材料，灭活酶(优选通过蛋白酶灭活)，从而提供所述细胞的核酸作为步骤a)的核酸模板。优选地，RNases是失活的，特别是当模板包含RNA或由RNA组成时；优选地，DNases被灭活，特别是当模板包含DNA或由DNA组成时。蛋白酶的一个例子是蛋白酶k。在制备核酸模板后，蛋白酶优选被灭活，例如被热灭活。随后，例如在步骤b)至e)中，不需要热灭活，但当然可以任选地进行。

在本发明一具体实施方案中，核糖体RNA(rRNA)的消耗可以通过选择性引发来避免或增强(分别是歧视或选择rRNA)。

本发明还提供了一组适用于本发明方法的多个寡核苷酸探针。在该组中，所述寡核苷酸探针各自包含与所选模板序列互补的序列、转录启动子序列和长度至少为4个核苷酸的标识符序列。所选模板序列的互补序列例如是至少6个连续T的poly(dT)序列的序列。这种poly(dT)序列与模板(例如mRNA)上的poly(A)序列互补。

多个优选至少为2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多；例如2-100,000,000。“多个寡核苷酸探针”是指各种寡核苷酸探针分子。这些寡核苷酸探针分子的核苷酸序列可能不同也可能相同。优选地，在所述多个中提供2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多不同的寡核苷酸探针，例如2-1,000种不同的寡核苷酸探针。差异优选地在标识符序列中。标识符序列可以如上文所述，例如优选地长度为4-12个核苷酸。不同的标识符序列优选彼此相差至少优选2或更大、优选3或更大的Hamming距离，或至少优选2或更大、优选3或更大的Levenshtein距离。优选地，多个寡核苷酸探针中至少两个的标识符序列是不同的。标识符序列可以是如上所述的样品、细胞或核酸模板特异性标识符序列。对于核酸模板特异性标识符序列，优选每个寡核苷酸探针包含不同于其他寡核苷酸探针的标识符序列的另一标识符序列。对于细胞特异性或样品特异性标识符序列，该集合可包含多组寡核苷酸探针，其在一组内具有相同标识符序列但与其他组寡核苷酸探针的标识符序列不同。该集合可以包括2、3、4、5、6或更多这样的不同组。核酸模板特异性标识符序列和细胞和/或样品特异性标识符序列可以例如与包含两个或更多标识符序列的集合中的探针同时使用。优选地，多个寡核苷酸探针的转录启动子序列是相同的。

在优选的实施方案中，该集合的寡核苷酸探针的转录启动子序列是单链的。如上所述，它可以备选地是双链的，但它应该在步骤d)之前转变为单链，以便核酸模板可以延伸。在优选的实施方案中，该集合的寡核苷酸探针在其整个长度上是单链的。

本发明进一步提供适用于实施本发明方法的试剂盒。提供的试剂盒包含寡核苷酸探针，所述寡核苷酸探针包含转录启动子序列、3'→5'外切核酸酶或内切核酸酶、DNA或RNA聚合酶、以及能够在转录启动子序列处启动转录的转录酶。3'→5'外切核酸酶和内切核酸酶可以作为替代品提供，即其中之一或者两者都可以包含在试剂盒中。

在优选的实施方案中，试剂盒还包含dNTP、细胞裂解试剂、蛋白酶、逆转录酶或其任何组合。试剂盒还可以提供上述集合的寡核苷酸探针。例如，转录启动子序列可以是T7RNA聚合酶、T3 RNA聚合酶或SP6 RNA聚合酶的启动子。

寡核苷酸探针的长度优选为12-100个核苷酸。它们可以如上文关于本发明方法所述。

3'→5'外切核酸酶应适用于本发明方法的步骤c)。一个例子是外切核糖核酸酶。当在步骤c)中3'部分不与寡核苷酸探针杂交时优选使用外切核糖核酸酶(例如单链外切核糖核酸酶)。

DNA或RNA聚合酶应适用于本发明方法的步骤d)，以延伸核酸模板，从而产生双链，其具有(先前在步骤b)中的)寡核苷酸探针的非互补部分。

转录酶应适用于本发明方法的步骤e)，并依赖功能性转录启动子序列(即在步骤d)中产生的双链体)的存在而促进转录。

试剂盒的其他可选成分可以是核苷酸，例如核苷酸如dNTP和/或NTP。核苷酸应适合于步骤d)的延伸或步骤e)的转录以将核苷酸添加至引物探针或模板。由于核苷酸通常可在实验室中可获得，它们可能不会随本发明的试剂盒一起提供，因为它们可以大量获得。

为了步骤a)可以有细胞裂解试剂以提供来自细胞的核酸模板。同样，由于该化合物在他处很容易获得，因此可能不会随试剂盒一起提供，但为了方便起见，最好将其包括在内。

试剂盒中可包含蛋白酶，以去除细胞裂解物中的任何RNA酶或DNA酶。该成分也是可选的，因为它可以另外获得。

可以包括逆转录酶用于依赖核酸模板在3'方向延伸寡核苷酸探针的可选步骤。如上所述，这可以增加模板的稳定性并增加本发明方法的灵敏度。

所述套装和/或试剂盒还可以包括执行本发明方法的说明书。

所述套装/或试剂盒可包含选自稳定剂、载体、缓冲剂、溶剂、容器、盐、张力调节剂、填充剂、抗微生物剂、等渗剂、抗氧化剂和其他常规组合物剂或其组合的任何一种。

试剂盒包括这样的容器，其中容器被包装在一起，例如在一个包装(如盒子或袋子)中。

在特别优选的实施方案中，本发明使得能够直接从核酸模板(包括从RNA模板)合成扩增的反义RNA(aRNA)。提供了适用于转录组分析以及对来自超低输入材料和单细胞的模板分子的标记和扩增的方法和试剂盒。下面结合图1更详细描述具体的优选实施例：

(1)杂交(步骤b)：寡核苷酸探针的杂交，所述探针标记为“oligo L1”，其包含转录启动子序列P和核酸模板(此处为RNA序列)的互补序列，

(2)3'→5'外切核酸酶消化(步骤c)：通过外切核酸酶(例如用于RNA模板的RNA外切核酸酶)对模板-寡核苷酸探针杂交体中的未杂交的3'-突出端进行酶促水解，

(3)DNA合成(步骤d)：以oligo L1的5'-突出端作为模板，通过DNA聚合酶延伸模板，生成双链启动子区，以及

(4)IVT(步骤e)：以“核酸模板”为模板，从双链启动子区开始，通过IVT进行线性扩增，以合成多个aRNA拷贝。

反应方案如图1和图3所示，，其中包含互补DNA(cDNA)的额外合成，以通过RNA-DNA双链体(当核酸模板为RNA时)或DNA-DNA双链体(当核酸模板是DNA时)稳定RNA模板。特别是，RNA长单链在高温(例如50℃)可能会降低稳定性。

在本发明的优选实施方案中，在开始时提供RNA样品作为核酸模板。RNA优选是信使RNA(mRNA)、非编码RNA(ncRNA)、核糖体RNA(rRNA)、微小RNA (miRNA)，或存在于纯化的RNA或细胞裂解物的总RNA中的不同前体和已加工的成熟RNA的混合物。RNA可以具有任何长度，但优选在20至10,000个核苷酸的范围内。原始RNA提供了以反义方向合成众多拷贝的模板。

在步骤1)/步骤b)中，添加寡核苷酸探针(包含一个与核酸模板互补的序列)，并通过降低温度或改变化合物或其在缓冲溶液中的浓度，使探针与核酸模板退火。稳定的Watson-Crick碱基配对杂交产生模板-探针双链体，在优选实施方案中，模板是RNA，探针是具有短RNA-DNA双链的DNA。探针包含不与模板退火的启动子序列P。

退火区的互补序列优选经过优化以获得高特异性。互补序列可以是例如与信使RNA(mRNA)的pol-yA尾结合的poly(dT)V-3'序列、与目标转录物组结合的特异性保守序列，或随机序列。靶向mRNA的polyA尾最好用oligo-dT8到oligo-dT30序列完成。优选oligo-dT15到oligo-dT25，它减少其他部位的引发事件(内部引发其他处的转录物，像引发poly(A)-尾一样)。可选的3'V或3'NV的3'锚定序列将杂交引导至pol-yA尾的5'起点。

互补序列可以是高选择性序列，其与一个或非常少的目标序列特异性杂交。这种互补序列优选含有18-45个核苷酸。长度优选为至少8个核苷酸以稳定杂交结合并允许此后在步骤c)中被聚合酶识别。

在本发明的一个实施例中，模板-探针双链体(优选RNA-DNA双链体)通过寡核苷酸探针的延伸来稳定，所述延伸例如通过逆转录(RNA-DNA)或聚合酶(DNA-DNA)实现。所需的反应混合物包括逆转录酶(或聚合酶)、合适的缓冲液、dNTP和可选的RNase抑制剂。在优选实施方案中，逆转录反应在有添加剂时进行，以增加cDNA的产量，所述添加剂例如PEG(优选PEG-8000)或白蛋白(优选牛血清白蛋白(BSA))。作为PEG的补充或替代，可在本发明的cDNA合成中添加的其他添加剂包括但不限于二甲亚砜(DMSO)、海藻糖、葡萄糖和甘油。在RT实施方案中，所需的逆转录酶活性可由任何合适的MMLV相关酶提供，包括但不限于SuperscriptI、II、III或IV、Maxima H、RevertAid、SMARTScribe、EnzScript、ProtoScript II、GoScript或其RNase H-突变体。逆转录反应可在37-55℃之间进行，短则10分钟，或长则12小时。在一个实施方案中，反应将进行10-30分钟，或10-60分钟，或10-120分钟，或可使用任何反应时间。

RNA-DNA双链体的以下处理包括两个酶促步骤，它们在一个联合反应装置中进行。

在步骤2)/步骤c)中，用单链(ssRNA或ssDNA)特异性外切核糖核酸酶处理模板-探针双链体，以去除模板在3'→5'方向上的非杂交部分(变钝)。在一个实施方案中，这可以是来自mRNA的、超过了已杂交的RNA-DNA双链部分的3'-poly(A)尾。在消化步骤中，当模板3'突出端是RNA时，可以使用所有ssRNA特异性外切核糖核酸酶，例如RNase R、RNase T和RNase D。外切核糖核酸酶基本上消化所有线性单链RNA 3'突出端，但不消化双链RNA，或特别是双链RNA-DNA双链体。对于单链DNA双链体，可以使用DNA3'→5'外切核酸酶。

在一具体实施方案中，3'→5'外切核酸酶消化通过内切核糖核酸酶处理而被替换，这在RNA-DNA异双链体中引入“切口”，例如具有RNAse H活性的酶。RNase H是一种非特异性内切核酸酶，催化RNA通过水解机制裂解。模板-寡核苷酸探针杂交体中的非杂交3'-突出端解离(图15)或随后被具有链置换活性的聚合酶置换(图16)。一些逆转录酶如禽成肌细胞病毒(AMV)或莫洛尼鼠白血病病毒(MMLV)逆转录酶(RT)具有可以利用的固有RNase活性。

在一具体实施方案中，寡核苷酸探针的互补序列是聚(dT)-链，其结合到mRNA的poly(A)-尾。然而，这种poly(dT)序列也可以结合RNA中富含T的序列，但也可以结合广泛的DNA背景，例如存在于裂解的单细胞和所有未经额外RNA纯化的样品中。在此3'→5'外切核酸酶消化步骤中，相对较短的单链RNA突出端，特别是剩余的polyA尾，比任何长片段更容易进行有效的完全消化。位于3'的DNA染色体片段的消化受到阻碍，这些片段往往会另外部分地重新杂交和双链化。在这种情况下，本方法可以用作选择性mRNA富集方法，因为它可以区分DNA背景(例如基因组DNA(gDNA))中的任何潜在错误引发。

或者，寡核苷酸探针的互补序列可以是与模板上任何预定靶序列互补的任何选择性序列。尽管此类序列的错误引发通常不如poly(dT)引发频繁，但任何现有染色体DNA的引发也几乎没有影响。对引发事件下游的DNA染色体3'部分(它们已部分地再杂交和双链化)的消化基本上是不可能的。因此，本方法为目标区的5'上游的RNA片段提供了高效的RNA富集方法。

在步骤3/步骤d)中，消化后，模板-探针双链体中模板基团的剩余3'-OH是延伸反应的起点，所述延伸反应优选使用DNA聚合酶进行DNA聚合，其使用寡核苷酸探针的5'突出端来杂交被延伸的模板的核苷酸。结果得到双链体，其具有寡核苷酸探针的启动子序列P的双链。

在步骤4/步骤e)中，转录酶(RNA聚合酶)在所有四种(核糖)核苷酸三磷酸和相容缓冲液存在的情况下与双链启动子序列P结合，并使用已延伸的核酸模板作为模板扩增单链RNA。一旦RNA聚合酶离开绞合启动子序列P的区，另一个RNA聚合酶就可以结合并开始新的合成。连续过程导致模板线性扩增，在一个过程中产生数十个拷贝的被扩增的反义RNA(aRNA)，通常为100–200个拷贝，但200–1,000个拷贝或超过1,000个拷贝也是可能的(图2和图4)。扩增由反应成分的量、反应体积、温度和反应时间控制。

所得aRNA可用作任何RNA测序文库制备的输入物。

直接NGS文库制备。在一具体实施方案中，寡核苷酸探针在启动子序列P和负责与模板杂交的互补序列之间包含衔接子序列A1(图5)。衔接子序列A1可以组合不同功能的序列，这些序列是i)用于后续扩增的引发位点，带有被延伸的序列，是例如不同测序技术结合细胞流所需，ii)索引，可以是样品特异性的、随机且已知的和被用作独特分子标识符(UMI)的、或两者连续，iii)完整的衔接子，可以被直接测序而无需任何扩增。包括所有这些实施方案，寡核苷酸探针通常含有15-75个核苷酸。

由于当前工作流程中的线性扩增会生成大量包含5'指向的衔接子A1的aRNA，使用包含杂交用互补序列和衔接子序列A2的引物进行的后续第一链合成足以使用单个第一链直接测序而不需要进一步的PCR扩增。或者，可以汇集和浓缩数个索引文库以合并足够的第一链文库，从而可以省略PCR扩增。省略PCR扩增消除了产生PCR假象的可能性，这些假象是由不同的扩增效率引起的，导致测量的丰度比发生变化。

本发明在附图和以下实施例中进行了说明，但不限于本发明的这些实施例。

实施例

实施例1：RNA扩增

从模板RNA产生aRNA的反应方案如图1所示。该实验使用通用人类参考RNA(UHRR,Agilent Technologies,目录740000)，使用含T7启动子序列L1、一串20个脱氧胸苷酸残基、后随dV的探针。在本实施例中，L1寡核苷酸探针5'-CTA ATA CGA CTC ACT ATA GGG AGATTT TTT TTT TTT TTT TTT TTV-3'(Seq ID NO：1)以500pmol的浓度使用。由于末端核苷酸，L1锚定在mRNA的poly(A)尾部的5'-起点，抑制poly(A)尾内部下游的任何启动。在此具体实施例中，杂交(步骤1)使用1ng总UHRR、0.5mM游离dNTP和无核酸酶的水。RNA模板和探针混合物在72℃加热3分钟，立即转移到冰上并在冰上保持5分钟。然后将含有模板-探针杂交分子的反应液用单链特异性外切核糖核酸酶预处理(步骤2)、并在室温DNA聚合酶处理30分钟(步骤3)。此模板-探针末端修复反应在50μl中进行，其中含有20mM Tris-乙酸(25℃时pH7.9)、10mM乙酸镁、50mM乙酸钾、100μ/ml BSA、5个单位的单链特异性外切核糖核酸酶和3个单位的DNA聚合酶。然后，剩余的寡核苷酸探针、dNTP、和小片段使用纯化磁珠(AMPureBeads,Agencourt)通过固相反向固定(SPRI)去除。在有40mM Tris-HCl(25℃时pH 7.9)、6mM MgCl₂、10mM DTT、10mM NaCl、2mM亚精胺、200U T7 RNA聚合酶、3.5mM rNTP和10％DMSO存在时，通过体外转录在模板-探针-dsT7pr杂交体上进行线性扩增(步骤4)，37℃ 90分钟。产生的RNA转录物由SPRI纯化。图2显示了总输入mRNA、以及总输出RNA加aRNA的相应轨迹。两条轨迹之间的差异显示0.43ng aRNA，是输入材料mRNA的14.3倍。

实施例2：以逆转录进行RNA扩增

反应方案如图3所示，包括额外的逆转录(RT)。RNA扩增实验用20ng通用人类参考RNA(UHRR,Agilent Technologies,目录740000)进行。逆转录在10μl中、在有0.5mM游离dNTP、500pmol锚定L1探针、50mM Tris-HCl(25℃时pH 8.3)、75mM KCl、3mM MgCl₂、10mMDTT和200U逆转录酶存在时37℃反应15分钟，其中的L1探针由T7启动子序列和一串25个脱氧胸苷酸残基和随后的dV组成(5'-CTA ATA CGA CTC ACT ATA GGG AGA TTT TTT TTT TTTTTT TTT TTV-3'-Seq ID NO：2)。然后反应液不经纯化，通过添加20mM Tris-乙酸(25℃时pH 7.9)、10mM乙酸镁、50mM乙酸钾、100μg/ml BSA、5个单位的单链特异性外切核糖核酸酶和3个单位的DNA聚合酶，将反应体积增加至50μl。消化和延伸后，剩余的寡核苷酸探针、dNTP和小片段用纯化磁珠(AMPure Beads,Agencourt)通过固相反向固定(SPRI)去除。在有40mM Tris-HCl(25℃时pH 7.9)、6mM MgCl₂、10mM DTT、10mM NaCl、2mM亚精胺、200U T7RNA聚合酶，3.5mM rNTPs和10％ DMSO存在时，通过体外转录在剩余的RNA-cDNA杂交体上进行的线性扩增，37℃ 12小时。图4显示了总输入RNA、以及总输出RNA加aRNA的相应轨迹。两条迹线之间的差异显示约60ng aRNA，大约是输入材料的mRNA的100倍。由于反应时间长，产物轨迹包含一些降解的rRNA，可从较低的28s rRNA峰看出。然而，大部分rRNA仍然完好无损，对aRNA的定量评估影响很小。

实施例3：RNA扩增与NGS文库生成

反应方案如图5所示。RNA实验以通用人类参考RNA(UHRR,Agilent Technologies,目录740000)或经FACS分选的HEK293细胞进行，所述分选是将1或10个细胞直接分选到含有5μL裂解缓冲液(Lexogen GmbH)的孔中。细胞裂解在50℃进行10分钟，和80℃进行10分钟。细胞裂解后，或在直接使用10或100pg UHRR(相当于大约1或10个细胞的总RNA量)的情况下，逆转录在有0.5mM游离dNTP、500pmol锚定探针L1存在时进行，该探针L1由T7启动子序列、衔接子序列A1、及一串25个脱氧胸苷酸残基和后接的dV组成(5'-CT AAT ACG ACT CACTAT AGG GAG AAC GTG TGC TCT TCC GAT CTT TTT TTT TTT TTT TTT TTT TTTTTV-3'–SeqID NO：3)。RNA-cDNA杂交分子直接用单链特异性外切核糖核酸酶和DNA聚合酶处理。RNA-cDNA处理在50μl中进行，用到20mM Tris-乙酸(25℃时pH 7.9)、10mM乙酸镁、50mM乙酸钾、100μ/ml BSA、5个单位的单链特异性外切核糖核酸酶和3个单位的DNA聚合酶。剩余的寡核苷酸探针、dNTP和小片段用纯化磁珠(AMPure Beads,Agencourt)通过固相反向固定(SPRI)去除。以体外转录进行的线性扩增在剩余的RNA-cDNA杂交体上、在有40mM Tris-HCl(25℃时pH 7.9)、6mM MgCl₂、10mM DTT、10mM NaCl、2mM亚精胺、200U T7 RNA聚合酶、3.5mM rNTP和10％ DMSO存在时进行(37℃ 12小时)。

含有A1的aRNA用1.8倍比例的SPRI磁珠纯化，在10μl洗脱缓冲液(EB)溶液(Lexogen GmbH)中进行最终洗脱。纯化的含有A1的aRNA然后用携带A2衔接子序列的随机六聚体引物5'-C ACG ACG CTC TTC CGA TCT NNN NNN-3'(Seq ID NO：4)引发。在aRNA上的随机引发是用RTM缓冲液(Lexogen GmbH)中的逆转录酶，通过25℃ 10分钟、37℃ 40分钟、42℃ 10分钟、以及25℃ 1分钟的保温而实现。反应混合物经过SPRI纯化，以20μl EB(LexogenGmbH)中洗脱。ssDNA片段的初代文库此时包含衔接子序列A1和A2或其互补部分，并使用DNA聚合酶、PCR缓冲液和索引引物(Lexogen GmbH)在PCR反应中扩增。PCR通过98℃ 30秒、然后98℃ 10秒、68℃ 20秒和72℃ 30秒之间的9-13个循环来进行。

图6显示了最终NGS文库的生物分析仪轨迹。初代文库的起始量可以用PCR效率测量值0.9从终产量和PCR循环数来计算。当比较10pg UHRR和1个HEK293细胞，或100pg和10个HEK293细胞时，初代文库的起始量非常相似。它证明了本aRNA方案和NGS文库制备可以同样良好地始于纯化的RNA和含有基因组DNA背景的细胞裂解物。

双份样品是高度一致的。阴性模板对照(NTC)在相同的PCR循环中显示扁平线，但在进行约28-30个PCR循环时会产生一些背景。

图7显示了作图到经注释的人类基因组GRCh38.p13后的读长分布统计数据。作图得出的读长被分类到它们假定的属于注释基因的外显子和内含子区、或基因间区的起源。该分布非常保守，很好地代表了新生和成熟的编码RNA。落入基因间区的读长可能是由基础转录、多重作图读长的错误计数引起，也可以是注释不充分引起的。

表1显示了一式四份的1个HEK293细胞之读长作图统计数据，每个都有背景对照，与惰性磁珠一起用缓冲介质采样完全相同的体积。在用PBS介质进行强制性3x清洗后，初代文库被扩增以获得足够测序的材料来分析杂散背景。在背景中检测到不足250个基因，35％-88％的读长根本没有被作图到基因组，并且是由不明假象引起的。aRNA-3'seq方案具有高度的细胞和mRNA特异性，并且对于3'seq方案来说获得了超过75％的独特作图读长。尽管没有额外的rRNA消耗，但rRNA 的量在0.1％-0.2％。aRNA方案当应用于mRNA模板扩增时，非常有效地区分了rRNA和基因组背景。

表1.一式四份实验中aRNA-3'seq NGS读长作图的统计数据，实验始于1个经FACS分选的裂解的HEK293细胞，或始于1个经FACS分选的惰性磁珠，其作为无输入对照，提供相同的缓冲液体积，以量化任何在分选过程中残留在洗过的细胞培养物中的细胞外背景RNA。

卓越的灵敏度表现通过与用于超低输入和单个细胞的其他两种方案的直接对比来证明，所述其他两种方案是，方法1(M1，

Single Cell/Low Input RNALibrary Prep Kit for/>

NEB)和方法2(M2、SMART-seq2、Takara Bio)，它们代表了本领域现有技术水平。在图8中，以10pg通用人类参考RNA(ThermoFisher Scientific，QS0639)的超低输入总RNA(这代表了典型细胞中可见的RNA量)进行的实验的NGS数据集被用于计算可比较的基因检出率。方法M1从6个样品中平均检测到5,288个基因，而M2已经可以检测到8,510个。然而，两者都远低于用aRNA-3'seq检测到的12,797个基因。对于检测到的基因数量而言，重要的是必须始终关注将读长分布到基因和基因间读长(在此aRNA-3'seq通常不到10％)的类别中。图8的箱线图还显示了6个样品的极小差异，这比M1和M2的差异要好得多。

图9显示了丰度的良好再现性和宽动态范围。用于比较4个细胞的两个表达值中位数的R²值为0.97。

实施例4：RNA扩增与无PCR的NGS文库制备

无PCR的文库制备是用索引L1寡核苷酸探针(其在寡核苷酸探针L1中还包含完整的Illumina衔接子序列)和寡核苷酸引物L2来进行。因此，不必添加衔接子序列，也可以省略转录物的PCR。通过IVT进行的高度线性扩增也产生足够的材料，将它们汇集和浓缩达到2nM的浓度，就准备好了进入标准测序流程，例如，在Illumina的NextSeq 500上，通过使用标准方法(例如Qbit或RT-PCR测定法)量化文库浓度来进入标准测序流程。虽然单细胞文库制备通常需要13个PCR循环，但汇集到1.9¹³或4,205个单细胞文库就足以省略任何PCR。灵敏的定量方法还允许使用较少量的NGS文库，因为在将汇集的浓缩文库直接转移到测序流程所需的缓冲液中时，可以部分地跳过后续稀释步骤。对于文库量化，我们推荐RT-PCR。

实施例5：RNA扩增与全转录组文库制备

全转录组测序(WTS)文库制备使用通用人类参考RNA(UHRR，AgilengTechnologies,目录740000)作为输入材料。逆转录在有0.5mM游离dNTP、500pmol锚定T7pr-oligo(dT)₁₈探针时进行，所述探针包含T7启动子序列和一串18个脱氧胸苷酸残基，随后是dV，5'-C TAA TAC GAC TCA CTA TAG GGA GAT TTT TTT TTT TTT TTT TTV-3'(Seq ID NO：5)。RNA-cDNA杂交分子直接用单链特异性外切核糖核酸酶和DNA聚合酶处理。RNA-cDNA的末端修复反应在50μl中进行，用到20mM Tris-乙酸(25℃时pH 7.9)、10mM乙酸镁、50mM乙酸钾、100μ/ml BSA、5个单位的单链特异性外切核糖核酸酶和3个单位的DNA聚合酶。剩余的寡核苷酸探针、dNTP和小片段用纯化磁珠(AMPure Beads,Agen-court)通过固相反向固定(SPRI)去除。以体外转录进行的线性扩增在RNA-cDNA杂交体上、在有40mM Tris-HCl(25℃时pH 7.9)、6mM MgCl₂、10mM DTT、10mM NaCl、2mM亚精胺、200U T7 RNA聚合酶、3.5mM rNTP和10％DMSO存在时进行(37℃ 12小时)。

aRNA用1.8倍比例的SPRI磁珠纯化，在10μl EB溶液(Lexogen GmbH)中进行最终洗脱。纯化的aRNA然后用随机六聚体引物L2：5'-C ACG ACG CTC TTC CGATCT NNN NNN-3'(Seq ID NO：6)引发，是用逆转录酶在有RTM缓冲液(Lexogen GmbH)时将引物L2与aRNA保温在25℃ 10分钟、37℃ 40分钟、42℃ 10分钟以及25℃ 1分钟。aRNA与cDNA片段的杂交体然后经SPRI纯化，在20μl EB(Lexogen GmbH)中洗脱，再用Corall全转录组(WTS)文库制备(Lexogen GmbH)的工作流程连接含有A2的衔接子。

含有衔接子序列A1和A2两者或其互补序列的ssDNA片段的初代文库使用DNA聚合酶、PCR缓冲液和索引引物(Lexogen GmbH)在PCR反应中扩增。所述PCR是在98℃ 30秒，然后以98℃ 10秒、68℃ 20秒和72℃ 30秒循环。最佳PCR循环数取决于RNA输入量，并在开始终点PCR之前由RT-PCR确定。

与aRNA-3'seq相比，覆盖集中在3'末端(图10)，本发明方法(“aRNA-WTS”)生成的读长更均匀地跨各个转录物分布，平均概览覆盖见图10。

实施例6：RNA扩增与靶向引发和NGS文库制备

所示方法可应用于靶向特异性序列，当使用具有poly(dT)作为互补序列的L1寡核苷酸探针时，该特异性序列是mRNA，或者当在L1或L2或两者中使用特异性互补序列时，该特异性序列是特异性转录物。特异性互补序列可以与随机序列组合以靶向多类转录物，例如一组剪接变体。

靶向RNAseq实验以通用人类参考RNA(UHRR,Agilent Technologies,目录740000)和合成的RNASARS-CoV-2对照(Twist Bi-osciences,目录SKU:102024)来进行。合成的SARSRNA被掺入10和100ng UHRR的背景中，每个样品的病毒拷贝(VC)数达到2,000-20,000个拷贝。将RNA样品转移到裂解缓冲液(Lexogen GmbH)中并热灭活(50℃ 10分钟，80℃ 10分钟)，然后在有0.5mM游离dNTP、500pmol SARS-CoV-2特异性寡核苷酸探针L1时进行逆转录，所述探针包含T7启动子序列、衔接子A1序列和SARS-CoV-2特异性序列，5'-CTA ATA CGACTC ACT ATA GGG AGA ACG TGT GCT CTT CCG ATC TGT CAT TCT CCT AAG AAG CTA-3'(Seq ID NO：7)。产生的RNA-cDNA杂交分子用单链特异性外切糖核酸酶和DNA聚合酶在50ml直接处理，用到20mM Tris-乙酸(25℃时pH 7.9)、10mM乙酸镁、50mM乙酸钾、100μ/ml BSA、5个单位的单链特异性外切糖核酸酶和3个单位的DNA聚合酶。剩余的寡核苷酸探针、dNTP和小片段用纯化磁珠(AMPure Beads,Agencourt)通过固相反向固定(SPRI)去除。以体外转录进行的线性扩增在剩余的RNA-cDNA杂交体上、在有40mM Tris-HCl(25℃时pH 7.9)、6mMMgCl₂、10mM DTT、10mM NaCl、2mM亚精胺、200U T7 RNA聚合酶、3.5mM rNTP和10％ DMSO存在时37℃反应24小时。aRNA用1.8倍比例的SPRI磁珠纯化，在10μl EB溶液(Lexogen GmbH)中进行最终洗脱。纯化的aRNA再用携带Illumina A2衔接子序列的随机六聚体引物5'-CACG ACG CTC TTC CGA TCT NNN NNN-3'(Seq ID NO：8)引发。aRNA随机引发反应用逆转录酶在有RTM缓冲液(Lexogen GmbH)时保温25℃10分钟、37℃ 40分钟、42℃ 10分钟、25℃ 1分钟，然后用SPRI磁珠纯化并用20μl EB(Lex-gen GmbH)最终洗脱。所得初代文库使用高保真聚合酶和索引引物(lexogen GmbH)在PCR反应中扩增。最终扩增是在98℃ 30秒，然后以98℃ 10秒、68℃ 20秒、72℃ 30秒进行16和12个循环，具体取决于病毒载量。图11显示了从插入在10和100ng总UHRR中的2,500和25,000个病毒拷贝生成的最终cDNA的相应轨迹。

实施例7：索引磁珠上的aRNA合成

作为溶液中L1寡核苷酸探针的备选，也可以用固定在磁珠上的L1寡核苷酸探针来引发反应。利用汇-分合成(pooled-divide synthesis)，可以合成带有索引寡核苷酸探针的磁珠，这允许单个细胞以随机方式与单个磁珠组合，所述磁珠每个都包含一个独特的样品索引。这种功能化磁珠的设计如图12所示。经L1修饰的磁珠可用于任何drop-Seq样分析方法，在这些方法中，细胞和单个磁珠以受控或随机方式高度并行地组合在极小体积或液滴中。

单细胞测序方法用微流体装置将含有单个细胞、裂解缓冲液、以及图12所示的覆盖索引探针L1的微珠的液滴区室化。每个L1寡核苷酸探针包含，1)结合mRNA的互补poly(dT)V序列以，2)唯一地识别每条mRNA链的8-12bp独特分子索引(UMI)，3)每个细胞特有的8-12bp索引，以及4)衔接子序列A1。可选地，可以包括对各个样品而言独特的、因此对一个实验中使用的所有磁珠而言都相同的额外索引。区室化后，液滴中的细胞被裂解，释放的mRNA与寡核苷酸探针L1磁珠的oligo(dT)V互补序列杂交。接着，将所有液滴汇集并破碎以释放其中的磁珠。然后，将磁珠分离并放入充足的RT缓冲液(Lexogen GmbH)中。结合的mRNA用逆转录酶进行逆转录。接着，将产物直接用单链特异性外切核糖核酸酶和DNA聚合酶处理，是在50μl溶液中，其中含有20mM Tris-乙酸(25℃时pH 7.9)、10mM乙酸镁、50mM乙酸钾、100μ/ml BSA,5个单位的单链特异性外切核糖核酸酶和3个单位的DNA聚合酶。清洁磁珠以去除dNTP并更换缓冲液，然后在有40mM Tris-HCl(25℃时pH 7.9)、6mM MgCl₂、10mM DTT、10mM NaCl、2mM亚精胺、200U T7 RNA聚合酶、3.5mM rNTP和10％ DMSO存在时，通过体外转录对剩余的磁珠结合型RNA-cDNA杂交体进行线性扩增，37℃ 24小时。所得aRNA用1.8倍比例的SPRI磁珠纯化，在10μl EB溶液(Lexogen GmbH)中进行最终洗脱。纯化的aRNA再用携带Illumina A2接头序列的随机六聚体引物5'-C ACG ACG CTC TTC CGA TCT NNN NNN-3'(Seq ID NO：9)引发。aRNA随机引发反应以逆转录酶在有RTM缓冲液(Lexogen GmbH)存在时保温25℃ 10分钟、37℃ 40分钟、42℃ 10分钟和25℃1分钟，然后用SPRI磁珠纯化，最后用20μl EB(Lexogen GmbH)洗脱。所得初代文库使用高保真聚合酶和索引引物(lexogenGmbH)在PCR反应中扩增。最终扩增是在98℃ 30秒，然后以98℃ 10秒、68℃ 20秒、72℃ 30秒进行16和12个循环，具体取决于病毒载量。

NGS文库中的多个索引mRNA片段已准备好进行测序。

实施例8：用于长-读长直接RNA测序的文库

长-读长直接RNA测序通过使用例如直接RNA测序试剂盒(SQK-RNA002,OxfordNanopore Tech-nologies Ltd,UK)是可以的。在此过程中，无需cDNA合成和PCR扩增，直接对衔接子修饰的RNA进行测序。为达到所需的高RNA输入量，文库制备使用本发明方法产生的aRNA。然后，连接带有oligo-dT突出端的衔接子。第二个连接步骤掺入预加载了马达蛋白的测序衔接子，其可直接驱动从3'-poly-A尾部到5'-帽的测序。目前，长-读长直接测序方法的主要限制是它们的低通量(读长计数)和高输入量要求。以前，直接RNA测序需要500ng的poly-A RNA。使用本发明的方法，超低输入材料也是可能的。

本发明的方法使用含有poly(dT)的L1寡核苷酸从细胞或超低输入总RNA直接扩增mRNA至适合长-读长测序的量。然后，生成的aRNA用poly(A)聚合酶和含有poly(dA)的缓冲液在其3'端聚腺苷酸化，再将所得的poly(A)aRNA用作直接RNA测序的输入材料。

实施例9：在单个反应体积(一锅反应)中合成双链L1启动子区及制备NGS文库

RNA实验使用通用人类参考RNA(UHRR,Agilent Technologies,目录740000)进行。10pg总UHR RNA通过进行逆转录、水解单链3'突出端、和将RNA模板延伸到寡核苷酸探针的非互补部分而在一个体积内部分同时地处理(RT和水解)和紧密相继地处理(水解和延伸)。10μl反应体积包含RNA，且有0.5mM游离dNTP、500pmol锚定探针L1、50mM Tris-HCl(25℃时pH 8.3)、3mM氯化镁、75mM氯化钾、10mM二硫苏糖醇、100个单位的逆转录酶、1个单位的单链特异性外切核酸酶和1个单位的DNA聚合酶，所述探针L1由T7启动子序列、衔接子序列A1和一串25个脱氧胸苷酸残基组成，后跟dV，(5'-CT AAT ACG ACT CAC TAT AGG GAG AAC GTGTGC TCT TCC GAT CTT TTT TTT TTT TTT TTT TTT TTTTTV-3'-Seq ID NO：3)。该反应在37℃进行30分钟。然后，剩余的寡核苷酸探针、dNTP和小片段用纯化磁珠(AMPure Beads,Agencourt)通过固相反向固定(SPRI)去除。在有40mM Tris-HCl(25℃时pH 7.9)、6mMMgCl₂、10mM DTT、10mM NaCl、2mM亚精胺、200U T7 RNA聚合酶、3.5mM rNTP和10％ DMSO时，通过体外转录对剩余的RNA-cDNA杂交体进行线性扩增(37℃ 12小时)。

含有A1的aRNA用1.8倍比例的SPRI磁珠纯化，在10μl洗脱缓冲液(EB)溶液(Lexogen GmbH)中进行最终洗脱。纯化的含有A1的aRNA再用携带A2衔接子序列的随机六聚体引物5'-C ACG ACG CTC TTC CGA TCT NNN NNN-3'(Seq ID NO:4)引发。对aRNA的随机引发是用逆转录酶在有RTM缓冲液(Lexogen GmbH)存在时保温25℃ 10分钟、37℃ 40分钟、42℃ 10分钟和25℃1分钟。反应混合物经SPRI纯化，在20μl EB(Lexogen GmbH)中洗脱。ssDNA片段的初代文库现在包含衔接子序列A1和A2两者或其互补部分，用DNA聚合酶、PCR缓冲液和索引引物(Lexogen GmbH)在PCR反应中扩增。PCT是在98℃ 30秒，随后以98℃ 15秒、60℃30秒和72℃ 30秒进行12个循环。图14和图17A)显示了最终NGS文库的生物分析仪轨迹。

实施例10：从切口位点合成双链L1启动子区及制备NGS文库

将切口位点引入杂交RNA并使用oligo-L1作为模板从切口位点RNA延伸以生成双链启动子区P的反应方案如图15所示。

RNAseq文库制备以通用人类参考RNA(UHRR,Agilent Technologies,目录740000)进行。10pg总UHR RNA，用1单位的特异性水解与DNA杂交的RNA的磷酸二酯键的内切核糖核酸酶，在有500pmol锚定探针L1(由T7启动子序列、衔接子序列A1、和一串25个脱氧胸苷酸残基组成，后接dV，5'-CT AAT ACG ACT CAC TAT AGG GAG AAC GTG TGC TCT TCC GAT CTTTTT TTT TTT TTT TTT TTT TTTTTV-3'-Seq ID NO：3)、50mM Tris-HCl(25℃时pH 8.3)、3mM氯化镁、75mM氯化钾、10mM二硫苏糖醇存在的情况下，37℃处理30分钟，之后通过升温至80℃ 10分钟使内切核糖核酸酶失活。然后，将具有链置换活性并可从引入的切口位点延伸RNA模板的1单位DNA聚合酶与0.5mM游离dNTP一起添加，反应在37℃进行5分钟，然后剩余的寡核苷酸探针、dNTP和小片段通过固相反向固定(SPRI)用纯化磁珠(AMPure Beads,Agencourt)去除。

在有40mM Tris-HCl(25℃时pH 7.9)、6mM MgCl₂、10mM DTT、10mM NaCl、2mM亚精胺、200U T7 RNA聚合酶、3.5mM rNTP和10％ DMSO存在的情况下，通过体外转录对RNA-cDNA杂交体进行线性扩增(37℃ 12小时)。剩余的寡核苷酸探针、dNTP和小片段用纯化磁珠(AMPure Beads,Agencourt)通过固相反向固定(SPRI)去除。

含有A1的aRNA用1.8倍比例的SPRI磁珠纯化，在10μl洗脱缓冲液(EB)溶液(Lexogen GmbH)中进行最终洗脱。纯化的含有A1的aRNA再用携带A2衔接子序列的随机六聚体引物5'-C ACG ACG CTC TTC CGA TCT NNN NNN-3'(Seq ID NO:4)引发。对aRNA的随机引发用逆转录酶在RTM缓冲液(Lexogen GmbH)存在的情况下，通过在25℃ 10分钟、37℃ 40分钟、42℃ 10分钟、25℃1分钟的保温而实现。反应混合物经过SPRI纯化，在20μl EB(LexogenGmbH)中洗脱。ssDNA片段的初代文库现在包含衔接子序列A1和A2两者或其互补部分，并使用DNA聚合酶、PCR缓冲液和索引引物(Lexogen GmbH)在PCR反应中扩增。该PCR是在98℃ 30秒，然后以98℃ 15秒、60℃ 30秒和72℃ 30秒进行14个循环。图17B)显示了两个最终NGS文库的生物分析仪轨迹。

实施例11：在单个反应体积(一锅反应)中从切口位点合成双链L1启动子区和制备NGS文库

将切口位点引入杂交RNA、并用oligo-L1作为模板从切口位点RNA延伸的同时反应方案如图16所示。

RNA实验以通用人类参考RNA(UHRR,Agilent Technologies,目录740000)进行。10pg总UHR RNA用1单位内切核糖核酸酶及1单位DNA聚合酶在37℃处理30分钟，然后在42℃处理5分钟，所述内切核糖核酸酶在UHR RNA与DNA杂交时特异性水解RNA的磷酸二酯键，所述DNA聚合酶具有链置换活性并能在有0.5mM游离dNTP、500pmol锚定探针L1、50mM Tris-HCl(25℃时pH 8.3)、3mM氯化镁、75mM氯化钾、10mM二硫苏糖醇存在的情况下从引入的切口和3'RNA延伸模板，所述探针L1由T7启动子序列、衔接子序列A1、和一串25个脱氧胸苷酸残基组成，后接dV，5'-CT AAT ACG ACT CAC TAT AGG GAG AAC GTG TGC TCT TCC GAT CTTTTT TTT TTT TTT TTT TTT TTTTTV-3'-Seq ID NO：3)。剩余的寡核苷酸探针、dNTP和小片段用纯化磁珠(AMPure Beads,Agencourt)通过固相反向固定(SPRI)去除。

在有40mM Tris-HCl(25℃时pH 7.9)、6mM MgCl₂、10mM DTT、10mM NaCl、2mM亚精胺、200U T7 RNA聚合酶、3.5mM rNTP和10％ DMSO存在的情况下，通过体外转录对剩余的RNA-cDNA杂交体进行线性扩增(37℃ 12小时)。剩余的寡核苷酸探针、dNTP和小片段通过固相反向固定(SPRI)用纯化磁珠(AMPure Beads,Agencourt)去除。在有40mM Tris-HCl(25℃时pH 7.9)、6mM MgCl₂、10mM DTT、10mM NaCl、2mM亚精胺、200U T7 RNA聚合酶、3.5mM rNTP和10％ DMSO的情况下，通过体外转录对剩余的RNA-cDNA杂交体进行线性扩增(37℃ 12小时)。

含有A1的aRNA用1.8倍比例的SPRI磁珠纯化，在10μl洗脱缓冲液(EB)溶液(Lexogen GmbH)中进行最终洗脱。纯化的含有A1的aRNA再用携带A2衔接子序列的随机六聚体引物5'-C ACG ACG CTC TTC CGA TCT NNN NNN-3'(Seq ID NO：4)引发。对aRNA的随机引发通过用逆转录酶在有RTM缓冲液(Lexogen GmbH)存在的情况下，在25℃ 10分钟、37℃ 40分钟、42℃ 10分钟、25℃ 1分钟保温而实现。反应混合物经过SPRI纯化，在20μl EB(Lexogen GmbH)中洗脱。ssDNA片段的初代文库现在包含衔接子序列A1和A2两者或其互补部分，并使用DNA聚合酶、PCR缓冲液和索引引物(Lexogen GmbH)在PCR反应中扩增。所述PCR是在98℃ 30秒，然后以98℃ 15秒、60℃ 30秒和72℃ 30秒进行9-13个循环。图17C)显示了两个最终NGS文库的生物分析仪轨迹。

实施例12：在合成双链L1启动子区之前使用3'→5'外切核糖核酸酶消化和切口位点制备的NGS文库的比较

如实施例9所述在单个反应体积中先用3'→5'外切核糖核酸酶消化制备文库、然后合成双链L1启动子区的情形见图17A)，如实施例10所述使用切口位点制备文库的情形见图17B)，如实施例11所述使用切口位点和单个反应体积制备文库的情形见图17C)。对于所有初代文库，使用相同的PCR扩增反应，最终文库在SPRI纯化后以相同的20μl体积洗脱，然后通过生物分析仪轨迹进行分析。之前已确定，在使用实时PCR稀释系列的各个实验中PCR效率为0.9，这意味着每个PCR循环使文库的量增加1.9倍。用PCR循环数计算初代文库的量，以准确比较不同文库制备方法的效率。初代文库包含序列片段以及衔接子A1和A2，但不包含索引。将索引加到PCR一起，产生放大的初代文库。初代文库产量和平均长度以及NGS读长统计数据见表2。

表2.用3'→5'外切核糖核酸酶消化(实施例9)和用切口位点再合成双链L1启动子区(实施例10和11)制备的NGS文库的比较。已作图的读长参考原始读长编号。独特作图的读长参考已作图的读长的编号，所有其他读长类别参考独特作图的读长。

图17中NGS文库轨迹的比较，及表2所示的它们的量化表明，用3'→5'外切核糖核酸酶消化的NGS文库制备方法产生平均略长约20-35nt的文库。当比较在单个反应体积中进行的两种方法时，产量高出约30％。实施例10描述的中间有SPRI纯化的方法仅达到在单个反应体积中进行的方法所得产量的约10％。比较两种单个反应体积方法，名义上的增长(nominal increase)似乎相对较小。然而，在NGS读长类别分布和基因检测率方面的表现观察到很大差异。使用内切核糖核酸酶消化产生“切口”的方法会产生显著量的非常短的插入片段，这些插入片段主要是人为造成。只有较长片段的肩部包含源自输入样品的片段。读长的统计数据相应地很差。可以作图的读长越少，可以独特作图的读长就少，并且只有一小部分作图到mRNA的外显子。使用3'→5'外切核糖核酸酶消化的方法，将样品RNA转化为高质量NGS文库的转化率高很多。

实施例13：用HEK293细胞和L1引物以及独特分子索引确定NGS文库生成的效率

基准实验的起点是已良好表征的HEK293细胞。用QuickGene RNA Cultured CellKit S(Kurabo Industries Ltd.,User application for Total RNA Extraction fromCultured Cells,第3-XVII章，RG-4至-6)从2.1E6的沉淀细胞、5E6的贴壁细胞、和1.2E7的培养细胞分离总RNA。发现平均总RNA含量为14.25±1.7pg/HEK293细胞。预计该总RNA的3％是mRNA(假定与UHRR,Agilent Technologies,目录740000高度相似的RNA类别)。用生物分析仪轨迹分析富含polyA的高质量HEK293总RNA，并获得1.6kb的平均mRNA长度。使用此类RNA中320.6g/mol核糖核苷酸的近似值，转录物的数量估计为501.9±59.6k。对于该基准实验，根据实施例3使用锚定探针L1进行NGS文库制备，该探针由T7启动子序列、衔接子序列A1、N₁₂独特分子索引(UMI)、和一串25个脱氧胸苷酸残基组成、随后是dV，使用经FACS分选的四个HEK293细胞。文库以测序深度1Mio reads(1百万读长)进行测序。作图后，用UMI工具对每个基因根据它们的UMI进行了读长的折叠，还通过折叠相同的序列以及小Levenshtein距离的序列来解释UMI序列中的错误(详见https://github.com/CGATOxford/UMI-tools)。平均而言，该方法检测到每个细胞13.9±0.125k个基因，这无法总结出工作流程的效力。然而，转录物的测量数导致每个细胞有可以通过独特作图外显子读长来识别的347.0±38.7k个不同转录物。统计建模表明，在每个细胞1百万读长的指定读长深度，所有转录物中只有79.4％被测序，这使得NGS文库的潜在复杂性增加了1.26倍。进一步，将mRNA背景产生的多重作图、内含子和基因间读长(非剪接的，基础转录等)、以及当前生物信息学算法无法正确分配的读长的量都包括在内，则总数另外增加1.31倍。因此，由本方法制备的单细胞NGS文库中的转录物总数达到576.5±64.3k个转录物，比上述对HEK293的估计超出约15％，这可能导致细胞周期阶段的差异，以及在分配多重作图读长和未与当前注释中的外显子对齐的读长时的一些歧义。该实施例表明，该方法能够将绝大多数转录物3'端转化为NGS文库片段，因此NGS文库生成效率接近100％，至少超过75％。

序列表

<110> 莱克斯奥根有限公司(LEXOGEN GMBH)

<120> 产生转录核酸的方法和工具

<130> R 78973

<150> EP 20199844.0

<151> 2020-10-02

<150> EP 21151776.8

<151> 2021-01-15

<160> 9

<170> PatentIn version 3.5

<210> 1

<211> 45

<212> DNA

<213> 人工序列

<220>

<223> DNA探针

<400> 1

ctaatacgac tcactatagg gagatttttt tttttttttt ttttv 45

<210> 2

<211> 45

<212> DNA

<213> 人工序列

<220>

<223> DNA探针

<400> 2

ctaatacgac tcactatagg gagatttttt tttttttttt ttttv 45

<210> 3

<211> 68

<212> DNA

<213> 人工序列

<220>

<223> DNA探针

<400> 3

ctaatacgac tcactatagg gagaacgtgt gctcttccga tctttttttt tttttttttt 60

tttttttv 68

<210> 4

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> DNA探针

<220>

<221> misc_feature

<222> (20)..(25)

<223> n is a, c, g, or t

<400> 4

cacgacgctc ttccgatctn nnnnn 25

<210> 5

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> DNA探针

<400> 5

ctaatacgac tcactatagg gagatttttt tttttttttt ttv 43

<210> 6

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> DNA探针

<220>

<221> misc_feature

<222> (20)..(25)

<223> n is a, c, g, or t

<400> 6

cacgacgctc ttccgatctn nnnnn 25

<210> 7

<211> 63

<212> DNA

<213> 人工序列

<220>

<223> DNA探针

<400> 7

ctaatacgac tcactatagg gagaacgtgt gctcttccga tctgtcattc tcctaagaag 60

cta 63

<210> 8

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> DNA探针

<220>

<221> misc_feature

<222> (20)..(25)

<223> n is a, c, g, or t

<400> 8

cacgacgctc ttccgatctn nnnnn 25

<210> 9

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> DNA探针

<220>

<221> misc_feature

<222> (20)..(25)

<223> n is a, c, g, or t

<400> 9

cacgacgctc ttccgatctn nnnnn 25

Claims

1.一种产生转录核酸的方法，包括以下步骤

a)提供核酸模板，

b)将寡核苷酸探针与该核酸模板杂交，其中所述寡核苷酸探针包含与核酸模板杂交的互补部分，和位于互补部分的5'方向、不与核酸模板杂交、且包含转录启动子序列的非互补部分，

c)水解核酸模板的3'部分，所述3'部分位于该核酸模板在步骤b)中与寡核苷酸探针杂交的部分的3'方向，且所述3'部分不与寡核苷酸探针杂交或与寡核苷酸探针杂交，

d)用与寡核苷酸探针的非互补部分互补的核酸延伸该核酸模板，由此生成与核酸模板顺次排列的转录启动子序列的双链体，

e)用结合转录启动子序列双链体的转录酶转录该核酸模板，由此产生转录的核酸。

2.权利要求1的方法，其中核酸模板包含RNA或由RNA组成。

3.权利要求1或2的方法，其中水解是用外切核酸酶进行，优选催化3'→5'方向去除核苷酸的单链RNA特异性外切核酸酶。

4.权利要求1或2的方法，其中水解包括水解模板中与寡核苷酸探针杂交的区域中的糖磷酸主链，优选磷酸二酯键，从而在模板中引入切口，优选地，其中水解是通过内切核酸酶来进行。

5.权利要求1至4中任一项的方法，其中延伸所述核酸模板是通过核苷酸聚合来进行，优选使用DNA聚合酶。

6.权利要求1至5中任一项的方法，还包括在与核酸模板杂交时从互补部分延伸寡核苷酸探针的步骤，优选地，其中所述延伸是在步骤b)和c)之间，在步骤c)和d)之间，或在步骤d)和e)之间。

7.权利要求1至6中任一项的方法，其中寡核苷酸探针的非互补部分在互补部分和转录启动子序列之间包含标识符序列和/或第一衔接子序列。

8.权利要求1至7中任一项的方法，进一步包括可选地将一或多个二级引物与所述一或多个转录核酸的第二衔接子序列杂交，并以模板依赖的方式延伸所述二级引物。

9.权利要求1至8中任一项的方法，其中所述核酸模板是来自细胞器、细胞切片、或细胞的RNA，优选来自1至1000个细胞、细胞器或细胞切片。

10.权利要求1至9中任一项的方法，其中所述核酸模板位于包含DNA的核酸库中，优选与权利要求3或4组合，其中所述DNA不能被权利要求3的外切核酸酶或能水解权利要求4的磷酸二酯键的酶(优选内切核酸酶)消化，并由此排除在任何后续转录之外。

11.权利要求1至10中任一项的方法，包括在容器中提供核酸模板，并在所述容器中进行步骤b)至e)。

12.权利要求1至11中任一项的方法，包括提供一种或多种细胞，裂解所述细胞的细胞材料，将酶灭活，优选通过蛋白酶灭活，由此证明所述细胞的核酸是根据步骤a)的核酸模板。

13.适用于权利要求1至12中任一项的方法的多个寡核苷酸探针的集合，其中每一寡核苷酸探针包含与所选模板序列互补的序列，优选包含至少6个连续T的聚(T)-序列、转录启动子序列和长度至少为4个核苷酸的标识符序列，其中优选转录启动子序列对于多个寡核苷酸探针是相同的和/或优选标识符序列对于多个寡核苷酸探针中的至少两个是不同的；和/或优选地，其中转录启动子序列是单链的。

14.适用于实施权利要求1至12中任一项的方法的试剂盒，包括含转录启动子序列的寡核苷酸探针、3'→5'外切核酸酶或内切核酸酶、DNA或RNA聚合酶、以及能在转录启动子序列处启动转录的转录酶。

15.权利要求14的试剂盒，其进一步包含dNTP、细胞裂解试剂、蛋白酶、逆转录酶、或其任何组合。