CN116694741A

CN116694741A - 用于跨非连续模板的有序和连续的互补DNA（cDNA）合成的组合物和方法

Info

Publication number: CN116694741A
Application number: CN202310710481.4A
Authority: CN
Inventors: K·柯林斯; H·E·厄普顿
Original assignee: University of California
Current assignee: University of California
Priority date: 2018-08-08
Filing date: 2019-08-08
Publication date: 2023-09-05
Also published as: CN116694740A; JP2024028959A; EP4190896A1; EP4190897A1; CN112805373B; WO2020033777A2; CN112805373A; EP3833748A4; EP3833748A2; US20210261944A1; WO2020033777A3; JP2024028958A; JP2021533751A; EP3833748B1; JP2024028962A

Abstract

本发明提供了用于核酸合成，包括使用修饰的真核非长末端重复序列逆转录酶(非LTR RT)蛋白跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法。

Description

用于跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法

本申请是2019年8月8日申请的PCT国际申请PCT/US2019/045817于2021年4月7日进入中国国家阶段的、申请号为201980066006.X且发明名称为“用于跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法”的发明专利申请的分案申请。

序列表

本申请包含序列表，该序列表已经以ASCII格式电子提交，并在此整体通过引用并入。所述ASCII副本于2019年8月7日创建，名为51429-002WO2_Sequence_Listing_08.07.2019_ST25，大小为132350字节。

发明领域

本发明涉及用于受控的核酸合成，包括跨非连续模板的有序和连续的互补DNA(cDNA)合成的方法和组合物。

发明背景

RNA是起作用的DNA遗传密码或病毒的基因组密码。RNA包含相对简化的当前状态的指令和结果，而不是每种可能状态的难以解释的DNA百科全书。然而，从信息丰富的RNA中恢复无偏和未改变的序列受到将其转化为cDNA的方法的挑战，cDNA是基于PCR的序列检测(例如，用于检测HIV和其他病毒的存在)、基于杂交的微阵列分析(例如，用于非编码RNA)、高通量测序(例如，用于单细胞或批量mRNA转录组分析)和其他读出的底物。

因此，对于研究和临床应用，包括使用多种平台的核酸杂交、PCR和下一代测序(NGS)，存在未满足的对单独或共同转化性技术的需求，所述技术用于已知或未知核苷酸内容物的完整或片段化的RNA和/或DNA的分析。

发明概述

本发明特别涉及用于受控的核酸合成，包括跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法，以及非逆转录病毒RT蛋白的非天然末端转移酶活性。

一方面，本发明的特征在于分离的真核非长末端重复序列逆转录酶(非LTR RT)蛋白，其包含截短的N末端区域、RNA结合结构域、RT结构域和核酸内切酶结构域，其中所述核酸内切酶结构域包含消除核酸内切酶功能的突变。在一些方面，所述真核非LTR RT蛋白是R2逆转录元件RT(R2 RT)蛋白。在一些方面，所述截短的N末端区域导致与全长非LTR RT蛋白相比，从非LTR RT蛋白的N末端缺失69至303个氨基酸。在一些方面，所述截短的N末端区域导致与全长非LTR RT蛋白相比，从非LTR RT蛋白的N末端缺失69至274个氨基酸。在一些方面，所述截短的N末端区域导致全部或部分的序列特异性DNA结合结构域缺失。在一些方面，所述截短的N末端结构域导致全部的序列特异性DNA结合结构域缺失。在一些方面，所述截短的N末端区域导致与全长非LTR RT蛋白相比，从非LTR RT蛋白的N末端缺失274至303个氨基酸。在一些方面，所述真核非LTR RT蛋白不包含序列特异性DNA结合结构域。在一些方面，所述真核非LTR RT蛋白源自节肢动物。在一些方面，所述节肢动物是家蚕(Bombyxmori)。

在一些方面，所述真核非LTR RT蛋白是家蚕R2 RT蛋白。

在一些方面，所述消除核酸内切酶功能的突变是全长家蚕R2 RT(SEQ ID NO:1)的氨基酸残基D996、D1009或K1026处的置换突变。在一些方面，所述置换突变在氨基酸残基D996处。在一些方面，氨基酸残基D996被除Glu(E)以外的任何氨基酸置换。在一些方面，所述置换突变是D996A突变。在一些方面，所述置换突变在氨基酸残基D1009处。在一些方面，氨基酸残基D1009被除Glu(E)以外的任何氨基酸置换。在一些方面，所述置换突变是D1009A突变。在一些方面，所述置换突变在氨基酸残基K1026处。在一些方面，所述置换突变是K1026A、K1026D或K1026E突变。在一些方面，所述置换突变是K1026A突变。

在一些方面，所述消除核酸内切酶功能的突变是氨基酸残基K1026和K1029处的置换突变。在一些方面，所述置换突变是K1026A和K1029A突变。

在一些方面，所述真核非LTR RT蛋白包含稳定蛋白。在一些方面，所述稳定蛋白连接到所述真核非LTR RT蛋白的N末端或C末端。在一些方面，所述稳定蛋白通过接头肽连接到所述真核非LTR RT蛋白。在一些方面，所述稳定蛋白是麦芽糖结合蛋白(MBP)或其变体。在一些方面，所述稳定蛋白连接到所述真核非LTR RT蛋白的N末端。

在一些方面，所述真核非LTR RT蛋白包含纯化标签。在一些方面，所述纯化标签连接到所述真核非LTR RT蛋白的N末端或C末端。在一些方面，所述纯化标签通过接头肽连接到所述真核非LTR RT蛋白。在一些方面，所述纯化标签是组氨酸标签、蛋白A标签或FLAG肽标签。在一些方面，所述组氨酸标签是6x-组氨酸标签。在一些方面，所述蛋白A标签是串联蛋白A标签。在一些方面，所述FLAG肽标签是3x-FLAG肽标签。在一些方面，所述纯化标签连接到所述真核非LTR RT蛋白的C末端。在一些方面，所述接头肽是可切割接头。

另一方面，本发明的特征在于包含氨基酸序列SEQ ID NO:2的分离的真核非LTRRT蛋白。

另一方面，本发明的特征在于包含氨基酸序列SEQ ID NO:3的分离的真核非LTRRT蛋白。

在一些方面，所述真核非LTR RT蛋白基本上不含核酸污染物。

另一方面，本发明的特征在于使单链或部分单链核酸的3’末端延伸至少一个核苷酸的方法，所述方法包括在包含锰离子的缓冲液中使所述单链或部分单链核酸与具有核苷酸聚合酶活性的非逆转录病毒RT蛋白接触。锰离子通常在足以支持聚合酶活性的确定的和/或预定的浓度内，通常在0.1至10mM或0.5至5mM的范围内。在一些方面，所述单链或部分单链核酸是DNA。在一些方面，所述接触在末端脱氧核苷酸转移酶(TdT)、逆转录病毒RT蛋白或任何其他非RT蛋白不存在的情况下进行。在一些方面，所述单链或部分单链核酸是RNA。在一些方面，所述接触在RNA连接酶或聚腺苷RNA聚合酶、聚尿苷RNA聚合酶或任何其他非RT蛋白不存在的情况下进行。

另一方面，本发明的特征在于使A型核酸双链体的3’末端延伸至少一个核苷酸的方法，所述方法包括在包含锰离子的缓冲液中使所述A型核酸双链体与具有核苷酸聚合酶活性的非逆转录病毒RT蛋白接触。在一些方面，所述A型核酸双链体是RNA-RNA核酸双链体、部分RNA-RNA核酸双链体或其修饰形式。在一些方面，RNA-RNA核酸双链体、部分RNA-RNA核酸双链体或其修饰形式的一个或两个末端是平末端，或包含单核苷酸或其他短3’突出端。在一些方面，所述A型核酸双链体是RNA-DNA核酸双链体、部分RNA-DNA核酸双链体或其修饰形式。在一些方面，RNA-DNA核酸双链体、部分RNA-DNA核酸双链体或其修饰形式的一个或两个末端是平末端，或包含单核苷酸或其他短3’突出端。

在一些方面，所述非逆转录病毒RT蛋白是真核非LTR RT蛋白或原核或细胞器内含子RT蛋白。在一些方面，所述非逆转录病毒RT蛋白是真核非LTR RT蛋白。在一些方面，所述非逆转录病毒RT蛋白是本文所述的方面的真核非LTR RT蛋白。在一些方面，所述真核非LTRRT蛋白是R2 RT蛋白。在一些方面，所述R2 RT蛋白是家蚕R2 RT蛋白。在一些方面，所述非逆转录病毒RT蛋白是原核或细胞器内含子RT蛋白。在一些方面，所述原核或细胞器内含子RT是直肠真杆菌(Eubacterium rectale)II组内含子RT蛋白。

在一些方面，所述缓冲液包含一种或多种核糖核苷三磷酸(NTP)、脱氧核糖核苷三磷酸(dNTP)或二脱氧核糖核苷三磷酸(ddNTP)或其核苷酸类似物。在一些方面，所述接触在约4℃至约50℃的温度下进行。在一些方面，所述接触在约37℃的温度下进行。

另一方面，本发明的特征在于制备互补DNA(cDNA)分子的方法，包括：(a)提供包含引物链和非延伸链的引物双链体，其中所述引物链的3’末端包含+1嘧啶核苷酸突出端；(b)提供在其3’末端包含嘌呤核苷酸的RNA模板；和(c)在包含镁离子的缓冲液中使所述引物双链体和RNA模板与RT接触，其中所述接触在有效产生与所述RNA模板基本上互补的cDNA分子的条件下进行。在一些方面，所述缓冲液包含一种或多种dNTP或其类似物。在一些方面，所述引物链是DNA引物链。在一些方面，所述引物链包含5’突出端。在一些方面，所述引物链的5’末端或内部位点包含修饰。在一些方面，所述修饰实现所述引物链或所述引物双链体的固定或纯化。在一些方面，所述修饰是与生物素的连接。在一些方面，所述引物链是5’衔接子序列。在一些方面，所述非延伸链包含DNA、RNA、杂交DNA和RNA或其修饰形式。在一些方面，所述非延伸链的3’末端包含修饰。在一些方面，所述修饰阻断3’延伸。在一些方面，所述修饰是3’C3间隔子或3’单磷酸酯。在一些方面，所述RNA模板是通过本文描述的方面的方法制备的。在一些方面，所述引物双链体是通过本文描述的方面的方法制备的。在一些方面，所述RT是真核非LTR RT蛋白。在一些方面，所述真核非LTR RT蛋白是R2 RT蛋白。在一些方面，所述R2 RT蛋白是家蚕R2 RT蛋白。在一些方面，所述真核非LTR RT蛋白是本文描述的方面的真核非LTR RT蛋白。在一些方面，所述RNA模板在其3’末端包含嘌呤dNTP、NTP、ddNTP或核苷酸类似物。在一些方面，所述RNA模板的5’末端包含修饰。在一些方面，所述修饰是不可逆修饰。在一些方面，所述不可逆修饰是5’C6间隔子或生物素。在一些方面，所述修饰是可逆修饰。在一些方面，所述可逆修饰是5’腺苷酰化。在一些方面，所述接触在第二模板的存在下进行，其中所述第二模板在其3’末端包含嘧啶核苷酸。在一些方面，所述第二模板包含DNA、RNA、杂交DNA和RNA或其修饰形式。在一些方面，所述第二模板在其3’末端包含嘧啶核糖核苷酸。在一些方面，所述第二模板是3’衔接子序列的互补序列。在一些方面，所述接触在有效产生包含所述5’衔接子序列、与所述RNA模板基本上互补的序列和所述3’衔接子序列的cDNA分子的条件下进行。在一些方面，所述第二模板的5’末端包含修饰。在一些方面，所述修饰是不可逆修饰。在一些方面，所述不可逆修饰是5’C6间隔子或生物素。在一些方面，所述修饰是可逆修饰。在一些方面，所述可逆修饰是5’腺苷酰化。在一些方面，所述接触在约4℃至约50℃的温度下进行。在一些方面，所述接触在约37℃的温度下进行。在一些方面，所述方法在单一容器中进行。

应理解，本文描述的各种实施方案的一个、一些或全部特性可以组合以形成本发明的其他实施方案。本发明的这些和其他方面对于本领域技术人员将变得显而易见。通过下面的详细描述进一步描述本发明的这些和其他实施方案。

附图简述

图1A.各种RT蛋白的高产率制备：线长度表示重组RT蛋白之间R2 RT氨基酸序列的相对长度。在线条上方，从左(N末端)到右(C末端)表示全长蛋白的区域：序列特异性DNA结合结构域、RNA结合区域、RT区域和核酸内切酶结构域。

图1B.SDS-PAGE和考马斯染色表明，用于本文所述的活性测定的纯化的MBP和6x-组氨酸标记的RT蛋白适当地不含蛋白污染物。

图1C.代表性的每体积收获的细菌的3柱纯化产率。不同的项目是不同的实验重复。星号表示第一步作为批量结合完成；除此之外，所有纯化步骤均使用预装的商业柱完成。与最终凝胶过滤柱的合并蛋白单体峰相比，来自空隙体积部分的260与280nm吸光度比值更高，表明存在核酸污染。

图2.MBP和6x-组氨酸标记的纯化RT蛋白引物延伸测定的结果。将DNA引物退火至纯化的RNA模板内的互补区域，并与所示酶和所有4种dNTP一起孵育。RT蛋白以相同的摩尔浓度使用。泳道+/-表示产品变性后，变性PAGE和SYBR Gold染色之前是否存在RNA酶A。显示了从完全延伸到模板5’末端的预期cDNA产物，其大小范围是由非模板化核苷酸(nt)添加到模板配对的cDNA 3’末端导致的。

图3.测定纯化的RT蛋白的持续性、连续模板复制。引物是带有+1T 3’突出端的DNA。模板是顶部显示的24nt RNA或DNA或两者的复合物(模板5’-3’)。如所示的，RT蛋白是Eure或BomoC(ed)(出于空间考虑，使用BomoC而不是BomoC(ed)用于标记)。使用两种模板浓度：如所示的0.4或4微摩尔。泳道+/-表示产品变性后，变性PAGE和SYBR Gold染色之前存在或不存在RNA酶A。RNA酶A去除了引物双链体的非延伸链和模板，其在DNA引物和所示产物下方的凝胶区域中迁移。“无enz”是无酶对照。“cDNA”表示通过复制单一模板从引物延伸得到的产物，而“Concat”表示通过连续模板复制进行的引物延伸。

图4A.通过变性PAGE和SYBR Gold染色分析在锰离子的存在下的单链RNA3’末端的延伸。泳道+/-表示产物变性后存在或不存在RNA酶A。“无enz”泳道为输入RNA寡核苷酸。虚线左侧的凝胶泳道来自包含BomoC(ed)核酸内切酶失活的RT蛋白的反应，而虚线右侧的凝胶泳道则包含没有核酸内切酶失活的突变的情况下的NBomoC。BomoC(ed)反应缺少在具有Mn²⁺的3’加尾缓冲液条件下持续观察到的NBomoC的一般核酸降解，而对于具有折叠成G-四链体的G的3’尾部的产物则不那么明显。NBoMoC(ed)中的核酸内切酶失活突变消除了与NBoMoC的反应中的产物降解。

图4B.BomoC(ed)可以利用ddATP在与Mn²⁺+/-Mg²⁺的反应中延伸RNA 3’末端。每组的MnCl₂滴度分别为0.5、1、2、5mM。

图5是显示通过变性PAGE和SYBR Gold染色分析的在Mn²⁺的存在下单链RNA的EureRT非模板化延伸的图像。在Mn²⁺和不同核苷酸三磷酸组合的存在下延伸RNA寡核苷酸，所述不同核苷酸三磷酸组合包括高浓度(500微摩尔)的dATP或dTTP和dCTP中的每一种，含有或不含显示的ddNTP。

图6A.通过变性PAGE和SYBR Gold染色分析的双链体核酸3末端的非模板化延伸。测定使用BomoC(ed)酶。“无enz”泳道为输入双链体。泳道+/-表示产物变性后存在或不存在RNA酶A。在与Mn²⁺的反应中，用每种为500微摩尔的所显示的核苷酸延伸平末端双链体RNA(dsRNA)或双链体DNA(dsDNA)。dsRNA组的“dTTP”泳道中的高分子量产物是不可重现的人工产物(artifact)。

图6B.在所示的含Mg²⁺或Mn²⁺的缓冲液中，用500微摩尔的4种dNTP中的每一种或单独的dATP延伸平末端双链体RNA(dsRNA)。

图7A.通过变性PAGE和SYBR Gold染色分析的单链DNA的BomoC(ed)非模板化延伸。“无enz”泳道是输入DNA。(A)如图所示，在含有所示的Mg²⁺或Mn²⁺的缓冲液中，用500微摩尔的4种dNTP中的每一种或单独的dATP延伸DNA寡核苷酸。

图7B.在所示的Mn²⁺和不同核苷酸的存在下延伸DNA寡核苷酸。

图8是显示单链DNA的Eure RT非模板化延伸的图像。在所示的含有Mg²⁺或Mn²⁺的缓冲液中，用500微摩尔的4种dNTP中的每一种或单独的dATP延伸DNA寡核苷酸。“无enz”泳道为输入DNA。在含有所有4种dNTP的Mg²⁺缓冲液中检测到的大多数产物代表了另一种寡核苷酸上cDNA合成的非特异性寡核苷酸3’末端引发。

图9是显示通过变性PAGE和SYBR Gold染色分析的通过连续模板复制进行BomoC(ed)cDNA串联的图像。反应包括双链体引物，高浓度的一种dNTP和一种3’末端与高浓度dNTP互补的模板。在具有相同dNTP浓度的反应中，模板为3’C。“单模板cDNA”是通过复制一个模板延伸的引物，而串联体是复制多个模板分子的产物。由于引物延伸2至4个非模板化核苷酸使其对于引发cDNA合成失活，产生刚好在40nt标志物以下迁移的产物。泳道+表示产物变性后添加RNA酶A，其去除了所述引物双链体的非延伸链和模板。

图10是显示通过变性PAGE和SYBR Gold染色分析的在包含Mg²⁺但不包含Mn²的cDNA合成反应中引物双链体的DNA引物链的3’加尾的图像。反应包含带有平末端(左侧)或+1T突出端(右侧)的双链体引物，并且显示的dNTP浓度：每个反应含有250或2.5微摩尔的4种dNTP混合物，一些反应中补充了500微摩尔的单一dNTP。反应包含BomoC(ed)(出于空间原因，在此图中表示为BoMo)或Eure RT。“无enz”泳道是具有一条DNA链和一条RNA链的输入双链体引物，所述一条RNA链具有3’延伸阻断基。泳道+/-表示产物变性后RNA酶A的存在或不存在。特别是对于BomoC(ed)，引物链上的+1T(更通常为+1个嘧啶)突出端在与所有4种dNTP的反应中抑制非模板化核苷酸添加。通过将虚线框中的产物与各自的“无enz”+RNA酶反应进行比较可以看出这一点，该反应为单独的输入引物链的迁移提供了标志物。平末端引物末端具有几个添加到其中的核苷酸，但+1T引物末端在很大程度上未改变。在对应于不同输入引物的虚线框下方示出了该结果。

图11.第一模板转换的独特特异性的加强。在所有4种dNTP的存在下，使用具有+1T突出端的引物双链体和以3’A或3’G结尾的模板测定BomoC(ed)。通过变性PAGE和SYBR Gold染色分析产物。左侧标志物之后的第一泳道未添加酶。泳道+/-表示产物变性后RNA酶A的存在或不存在，所述RNA酶A去除引物双链体的非延伸链和模板。只有3’A模板用于cDNA合成。

图12.在有序模板转换后，使用cDNA 3’衔接子模板上的5’封闭基团来终止合成。通过变性PAGE和SYBR Gold染色分析来自反应的产物，所述反应包含400nM具有+1T突出端的双链体35-nt引物，200nM具有3’A核糖核苷酸或3’ddA的27-nt RNA寡核苷酸模板，具有3’C的23-nt cDNA 3’衔接子模板，所有4种dNTP(每种250微摩尔)和BomoC(ed)。测试了两种形式的3’衔接子模板序列，区别仅在于不存在或存在终止cDNA合成的5’阻断基团(氨基修饰剂C6，IDT)；对于每种形式，使用两种衔接子模板浓度(1X和5X分别为400和2000nM)。“无enz”泳道显示双链体引物链的迁移，该引物具有非延伸的RNA链，具有3’延伸阻断基。泳道+/-表示产物变性后RNA酶A的存在或不存在；RNA酶A去除引物双链体的非延伸链和模板，其在DNA引物和所示产物下方的凝胶区域中迁移。跨单一3’A或3’ddA模板的引物延伸的产物在“cDNA”处迁移，跨单一3’衔接子模板的另外的cDNA延伸的产物在“cDNA+RNA衔接子”处迁移，并且较长的产物具有3’衔接子模板合成的串联重复序列。

图13A和图13B示出了一组示意图，其示出了区分半随机模板跳跃和有序模板转换的特异性原理和结果。在图13B中，有序模板转换的第一步引发跨来自模板库的分子的cDNA合成(单模板转换＝cDNAeasi)。然后，第二步使用cDNA 3’末端作为引物来复制3’衔接子模板的分子(双模板转换＝cDNAdeca)。

图14A.使用Illumina NGS的衔接子序列，通过有序模板转换进行cDNA合成。通过变性PAGE和SYBR Gold染色分析来自反应的产物，所述反应包含BomoC(ed)，具有+1T突出端3’末端的引物和具有5’模板转换合成阻断基的3’C衔接子模板。模板是具有附接的3’ddA的独特序列RNA寡核苷酸。泳道-/+表示产物变性后RNA酶A的存在或不存在，所述RNA酶A去除引物双链体的非延伸链和模板。“无enz”是无酶对照。末端模板显示反应中使用的cDNA 3’衔接子模板：无衔接子模板(--)，随机序列(最佳)，含Illumina读数1的～35nt引物(通用)或由P5、条形码i5和读数1(全长)组成的全长～70nt Illumina NGS衔接子。使用～35nt通用cDNA 5’衔接子引物(包含读数2的互补序列)进行有序模板转换cDNA合成的证明。

图14B.使用～70nt cDNA 5’衔接子引物(包含P7、条形码i7和读数2的互补序列)进行有序模板转换cDNA合成的证明。跨单一模板的引物延伸的产物在“cDNA”处迁移，跨单一3’衔接子模板的另外的cDNA延伸的产物在“cDNA+终止衔接子”处迁移。

图15A.无PCR有序模板转换cDNA文库。文库使用具有+1T突出端的～70nt cDNA 5’衔接子引物和具有3’C和5’cDNA合成阻断基的～70ntcDNA 3’衔接子模板制成。示意图描绘了部分双链体引物(引物链是P7(i7)R2Illumina NGS衔接子的互补序列)和衔接子模板(有义P5(i5)R2 Illumina NGS衔接子)的寡核苷酸。在有序模板转换工作流程中，模板RNA库用3’ddA加尾(表示为*)。

图15B.使用963个等摩尔的miRNA序列(miRXplore)的模板RNA库，通过变性PAGE和SYBR Gold染色来分析反应产物。全长cDNA文库(标记的cDNA+衔接子模板)和来自仅复制miRNA模板的一些cDNA产物(标记的cDNA)是主要产物。过量的衔接子引物和衔接子模板也被染色。“无enz”是无酶对照。泳道+/-表示产品变性后添加RNA酶A，所述RNA酶A去除引物双链体的非延伸链并截短～70nt 3’衔接子模板。对文库进行测序，显示了与图16B中的低循环PCR文库比较的结果。

图16A.低循环PCR有序模板转换cDNA文库。示意图显示使用具有+1T突出端的～35nt cDNA 5’衔接子引物(引物标记cR2＝Illumina读数2的互补序列)和具有3’C和5’cDNA合成阻断基的～35nt cDNA3’衔接子模板(衔接子模板标记R1＝Illumina读数1；5’阻断基＝实心圆)。模板库是的细线，星号表示3’ddA。箭头在cDNA(上链)上从5’指向3’。随后的PCR掺入标引(i)条形码和P5/P7序列。

图16B.显示963个等摩尔的miRNA序列(miRXplore标准品)中的每个的读取计数的绘图，比较了通过对低PCR文库(dsDNA，Y轴标度；8循环PCR)和无PCR文库(ssDNA，X轴标度)测序比较获得的相对读取计数的log2标度。每个miRNA均以黑点表示。无PCR的文库中一个miRNA的log2标度表观零计数为假零。完全符合将使每个点处于通过实际数据拟合的线上。

发明实施方案详述

简介

本发明的特征在于用于受控的核酸合成，包括跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法，以及非逆转录病毒RT蛋白的非天然末端转移酶活性。重要的是，这些方法可以在单一容器中进行，没有任何分配或固定步骤。

定义

在详细描述本发明之前，应当理解本发明不限于特定的组合物或生物系统，它们当然可以变化。还应理解，本文所使用的术语仅出于描述特定实施方案的目的，而不旨在进行限制。

如在本说明书和所附权利要求书中使用的，单数形式“一(a)”、“一(an)”和“该(the)”包括复数指称对象，除非内容中另有明确规定。因此，例如，对“分子”的提及任选地包括两种或更多种这样的分子的组合，等等。

如本文所使用，术语“约”是指本技术领域的技术人员容易知道的各个值的通常误差范围。本文中对“约”值或参数的提及包括(并描述)涉及该值或参数本身的实施方案。

如本文所使用，术语“A型”是指包含至少一些RNA性质的核酸双链体的结构(通常是RNA-RNA双链体或RNA-DNA双链体)，其与仅由DNA组成的核酸双链体的结构可区别开，所述仅由DNA组成的核酸双链体的结构在典型的细胞和生理缓冲条件下采取独特的B型结构。在某些环境中或当被某些蛋白结合时，DNA-DNA双链体可能倾向于采取A型几何结构，但是由于核糖糖的额外羟基的阻碍，未观察到包含RNA链的双链体采取B型。

如本文所使用，“扩增”通常是指产生期望序列的多个拷贝的过程。“多个拷贝”是指至少两个拷贝。“拷贝”并非必然意味着与模板序列具有完美的序列互补性或同一性。例如，拷贝可以包括核苷酸类似物，例如脱氧肌苷，有意的序列改变(例如通过包含与模板可杂交但不互补的序列的引物引入的序列改变)，和/或在扩增过程中发生的序列错误。

在整个说明书和权利要求书中，词语“包含(comprise)”或诸如“包含(comprises)”或“包含(comprising)”的变体将被理解为暗示包括指定的整数或整数组，但不排除任何其他整数或整数组。

如本文所使用，术语“同源”是指能够形成与核酸双链体的规范几何结构一致的碱基配对的(多个)碱基的存在。

“容器”是指具有顶部、底部和侧面的成形制品，其中顶部包含用于进入内部的开口，所述内部能够容纳液体、气体和/或固体样品(例如，反应混合物)。在一些实施方案中，容器可以具有可打开的顶表面，例如，盖、罩或帽。在一些实施方案中，容器是管(例如聚丙烯管)。

如本文所使用，术语“酶”包括由能够催化生物化学反应的细胞产生的蛋白。此外，除非上下文另有指示，如本文所使用，“酶”包括保留相关催化活性的蛋白片段，并且可以包括合成以保留相关催化活性的人工酶。

当用于描述本文公开的各种逆转录酶(RT)蛋白或蛋白片段时，“分离的”是指已经从表达它的细胞或细胞培养物中鉴定和分离和/或回收的蛋白。来自表达环境的污染物组分(例如核酸污染物)是仍存在于分离的蛋白中并且通常会干扰其使用的物质。在一些方面，例如，通过至少一个纯化步骤将蛋白纯化至基本均质。

如本文所使用，“连接的”或“连接”是指第一和第二蛋白或多肽之间的直接肽键连接，或涉及第三氨基酸序列的连接，该第三氨基酸序列是键合到并且在第一和第二蛋白或多肽之间的肽。例如，氨基酸可以连接一个蛋白或多肽的C末端，并连接至其他蛋白或多肽的N末端。

如本文所使用，“接头”是指长度为两个或更多个氨基酸的氨基酸序列。接头可以由中性、极性或非极性氨基酸组成。接头的长度可以是例如2至100个氨基酸，例如长度为2至50个氨基酸，例如长度为3、5、10、15、20、25、30、35、40、45或50个氨基酸。接头可以是“可切割的”，例如通过酶或化学切割，其可以是自介导的或由物理上分开的试剂介导的。氨基酸序列中的切割位点以及在这样的位点切割的酶和化学物质在本领域中是众所周知的，并且也在本文中进行了描述。在一些方面，接头通过肽键共价连接一个分子和另一个分子。在一些方面，接头是如Smyth等人，Protein Science.12:1313-1322,2003所述的促进相邻(多个)蛋白或(多个)多肽折叠的区域。

术语“包装插页”用于指代通常包含在诸如试剂盒的产品的商业包装中的说明书，其包含有关这样的产品的使用的信息。

如本文所使用，术语“逆转录酶”或“RT”是指蛋白聚合酶，其在完整的未突变状态下可以催化与RNA模板同源的脱氧核苷三磷酸(dNTP)的聚合。许多RT也可以使用DNA模板。一些RT已经进化简并为失活形式，但与活性RT具有可辨别的系统发育关系。RT的用途包括使用RNA以模板合成互补DNA(cDNA)，所述互补DNA随后可以用其他步骤克隆到载体中以进行进一步操作，或用于各种扩增方法，例如聚合酶链反应(PCR)、等温扩增(例如，基于核酸序列的扩增(NASBA)、转录介导的扩增(TMA)和自维持的序列复制(3SR)。通过RT进行的cDNA合成可用于不同引物延伸反应方案、cDNA末端的快速扩增(RACE)、化学修饰的检测以及其他可从RNA的cDNA读出和/或有时也从DNA模板中受益的技术。

如本文所使用，术语“内含子RT蛋白”或“细菌内含子RT蛋白”是指内含子(iRT)内编码的天然存在的RT蛋白，通常存在于原核细胞或真核细胞器中，不限于细菌物种，但在这些生物体中被最佳表征。

如本文所使用，术语“非长末端重复序列逆转录酶蛋白”或“非LTR RT蛋白”是指由真核非LTR逆转录转座子编码的天然存在的蛋白，其具有DNA聚合酶活性的多肽片段，以及由此衍生的多肽变体，所述变体包含一个或多个保留或增强RT活性(例如，比活性)和/或纯化产率的氨基酸置换、添加或缺失。一类优选的非LTR RT蛋白是R2和R2相关的或R2样逆转录元件RT(R2 RT)蛋白。因此，如本文所使用，“R2 RT蛋白”或“R2 RT多肽”是指由R2元件或其多肽片段编码的具有完整RT蛋白的某些特性的天然存在的蛋白，以及由其衍生的多肽变体，所述变体包含一个或多个保留或增强期望特性或活性(例如，比活性)和/或纯化产率的氨基酸置换、添加或缺失。R2 RT蛋白变体可以例如包含一个或多个保留或增强RT活性和/或末端转移酶活性的氨基酸置换、添加或缺失。在一些方面，R2 RT蛋白是来自节肢动物的R2 RT蛋白，例如家蚕R2 RT蛋白(例如，具有截短的N末端区域的家蚕R2 RT蛋白(例如，具有与全长家蚕R2 RT(SEQ ID NO:1)相比，导致从家蚕R2 RT蛋白的N末端缺失70至303个氨基酸(例如，缺失70至274个氨基酸和/或缺失274至303个氨基酸)的截短的N末端区域的家蚕R2 RT蛋白)、RNA结合结构域、RT结构域和核酸内切酶结构域，其中所述核酸内切酶结构域包含消除核酸内切酶功能的突变(例如，全长家蚕R2 RT(SEQ ID NO:1)的氨基酸残基D996、D1009或K1026和K1029处的置换突变，例如D996A突变)。

如本文所使用，术语“非逆转录病毒逆转录酶蛋白”或“非逆转录病毒RT蛋白”包括在细胞基因组中进化的RT和RT相关蛋白中，其包括非LTR RT蛋白和细菌或细胞器内含子RT(iRT)蛋白，但不包括在逆转录病毒基因组中进化的RT。与典型的逆转录病毒RT相比，一些细胞RT不需要引物与模板的广泛碱基配对来启动合成。非逆转录病毒RT蛋白的实例包括非LTR RT蛋白、端粒酶和来自自剪接II组内含子的iRT。Simon和Zimmerly.Nucleic AcidsRes.36(22):7219-7229,2008以及Kojima和Kanehisa.Mol Biol Evol.25:1395-1404,2008描述了另外的细菌RT蛋白，其描述了许多其他类别的非逆转录病毒逆转录酶(即，尤其是来自逆转录子的RT和产生多样性的逆转录元件)。

如本文所使用的“聚合酶链反应”或“PCR”技术通常是指这样的过程，其中如例如第4,683,195号美国专利中所述扩增微量的特定核酸、RNA和/或DNA片段。通常，需要从目标区域的末端或以外的区域获得序列信息，以便可以设计寡核苷酸引物；这些引物在序列上将与待扩增模板的相反链相同或相似。两条引物的5’末端核苷酸可以与扩增物质的末端重合。PCR可用于扩增特定RNA序列，来自总基因组DNA的特定DNA序列，以及由总细胞RNA、噬菌体或质粒序列转录的cDNA等。一般参见Mullis等人，Cold Spring HarborSymp.Quant.Biol.51:263(1987)和Erlich编，PCR Technology(Stockton Press,NY,1989)。如本文所使用，PCR被认为是用于扩增核酸测试样品的核酸聚合酶反应方法的一个实例，但不是唯一的实例，包括使用已知的核酸(DNA或RNA)作为引物并利用核酸聚合酶扩增或产生特定核酸片段或扩增或产生与特定核酸互补的特定核酸片段。

如本文互换使用的“多核苷酸”或“核酸”是指任意长度(例如，至少2、3、4、5、6、7、8、9、10、20、30、40、50、100、150、200、250、500、1000个或更多个核酸)的核苷酸的聚合物，并且包括DNA和RNA、其片段或类似物。核苷酸可以是脱氧核糖核苷酸、核糖核苷酸、修饰的核苷酸或碱基和/或其类似物，或可以通过DNA或RNA聚合酶或功能活性聚合酶结构域或通过合成反应掺入聚合物的任何底物。以下是多核苷酸的非限制性实例：基因或基因片段的编码区或非编码区、由连锁分析定义的多个基因座(基因座)、外显子、内含子、信使RNA(mRNA)、转移RNA、转移信使RNA、核糖体RNA、反义RNA、小核RNA(snRNA)、小核仁RNA(snoRNA)、微小RNA(miRNA)、小干扰RNA(siRNA)、核酶、cDNA、重组多核苷酸开放阅读框(ORF)、分支多核苷酸、质粒、载体、具有任何序列的分离的DNA、具有任何序列的分离的RNA、核酸探针和引物。

如上所述，多核苷酸可以包含修饰的核苷酸，例如甲基化的核苷酸和核苷酸类似物。如果存在的话，可以在聚合物组装之前或之后对核苷酸结构进行修饰。核苷酸的序列可以被非核苷酸组分中断。多核苷酸可在合成/聚合后被进一步修饰，例如通过与标记缀合。其他类型的修饰包括，例如“帽”，用类似物置换一种或多种天然存在的核苷酸，核苷酸间修饰，例如，具有自然界中未观察到的连接(例如，甲基膦酸酯、磷酸三酯、氨基磷酸酯(phosphoamidate)、氨基甲酸酯、硫代磷酸酯、二硫代磷酸酯等)的修饰，含有侧基部分的修饰，例如多肽(例如核酸酶、毒素、抗体、信号肽、聚-L-赖氨酸等)，含有嵌入剂的修饰(例如吖啶、补骨脂素等)，以及(多个)多核苷酸的未修饰形式。此外，糖中通常存在的任何羟基可以被例如膦酸酯基团、磷酸酯基团替代，被标准保护基保护或被活化以制备与另外的核苷酸的另外的连接，或者可以与固体或半固体载体缀合。5’和3’末端OH可以被磷酸化或被胺或1到20个碳原子或更多碳原子的有机封端基团部分取代。其他羟基也可以被衍生化为标准保护基。多核苷酸还可以包含本领域通常已知的核糖或脱氧核糖的类似形式，包括例如2’-O-甲基、2’-O-烯丙基、2’-氟-或2’-叠氮基核糖、碳环糖类似物、α-异头糖、差向异构糖(例如阿拉伯糖、木糖、吡喃糖、呋喃糖)和无环类似物。

本文所述的核酸可包含磷酸二酯键，但是术语“核酸”还涵盖具有其他类型的连接或主链的核酸类似物(例如尤其是磷酰胺、硫代磷酸酯、二硫代磷酸酯、O-甲基氨基磷酸酯、吗啉代、锁核酸(LNA)、甘油核酸(GNA)、苏糖核酸(TNA)和肽核酸(PNA)连接或主链)。在一些实施方案中，核酸可以是DNA(包括例如，基因组DNA、线粒体DNA、cDNA、无细胞DNA(cfDNA)、古DNA、来自甲醛固定石蜡包埋的(FFPE)组织样品或细胞的受损DNA，以及所述DNA中任一种的片段)，RNA(包括例如，mRNA、rRNA、tRNA、miRNA、无细胞RNA(cfRNA)和来自FFPE组织样品或细胞的RNA，以及所述RNA中任一种的片段)或杂合体(hybrid)(也称为“嵌合体”)，其中核酸包含脱氧核糖核苷酸和核糖核苷酸的任何组合，以及碱基的任何组合，所述碱基包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、肌苷，以及修饰的或非经典碱基(包括例如，次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤、5,6-二氢尿嘧啶、5-甲基胞嘧啶和5-羟甲基胞嘧啶)。多核苷酸旨在涵盖单个核酸以及多个核酸。多核苷酸可以由任何多核糖核苷酸或多脱氧核糖核苷酸组成，其可以是未修饰的RNA或DNA或修饰的RNA或DNA。例如，多核苷酸可以由以下组成：单链和双链DNA，作为单链和双链区域的混合物的DNA，单链和双链RNA以及作为单链和双链区域的混合物的RNA，包含DNA和RNA的杂合分子，所述杂合分子可以是单链的，或更典型地是双链的，或者是单链和双链区域的混合物。先前的描述适用于本文所提到的所有多核苷酸，包括RNA和DNA。

“多肽”或“蛋白”是指任何天然或合成的氨基酸链，长度为至少两个氨基酸(例如5、10、20、30、40、50、60、70、80、90、100、125、150、175、200、225、250、275、300、325、350、375、400、425、450、475、500、525、550、575、600、700、800个或更多个氨基酸)，包括具有天然的或通过酶或化学试剂诱导的修饰(例如糖基化或磷酸化)的氨基酸链。

“部分”或“片段”是指整体的一部分。一部分可以包含多核苷酸或多肽序列区的全长的至少10％、20％、30％、40％、50％、60％、70％、80％、90％、95％、99％、99.1％、99.2％、99.3％、99.4％、99.5％、99.6％、99.7％、99.8％或99.9％。对于多核苷酸，例如，一部分可以包含参考多核苷酸分子的至少5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000个或更多个连续核苷酸。例如，对于多肽，一部分可以包含参考多肽分子的至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、90、100、125、150、175、200、225、250、275、300、350、400、450、500、550、600、650、700、750个或更多个连续氨基酸。在给定蛋白(例如，具有截短区域的非LTR RT蛋白)的截短变体的情况下，截短可以来自蛋白的N末端和/或C末端，并导致与给定蛋白的全长形式(例如，全长非LTR RT蛋白)相比，从各个的末端或多个末端缺失一个或多个连续氨基酸。N末端截短将缺少例如所有全长蛋白氨基酸1-4、1-10、1-200、1-250、1-500个或中间值或更大数量的氨基酸。

“序列同一性”或“序列相似性”是指两个或多个氨基酸序列或两个或多个核苷酸序列之间的同一性或相似性以序列之间的同一性或相似性来表示。序列同一性可以根据“百分比(％)同一性”来衡量，其中百分比越高，序列之间共有的同一性越高。序列相似性可以用百分比相似性来衡量(其考虑保守的氨基酸置换)；百分比越高，序列之间共有的相似性越高。当使用标准方法比对时，核酸或氨基酸序列的同源物或直系同源物具有相对高的序列同一性/相似性程度。可以以本领域技术范围内的各种方式来确定序列的最佳比对，例如，Smith Waterman比对算法(Smith等人，J.Mol.Biol.147:195-7,1981)和BLAST(基本局部比对搜索工具；Altschul等人，J.Mol.Biol.215:403-10,1990)。这些和其他比对算法可以使用公众可得的计算机软件进行访问，例如，引入到GENEMATCHER PLUS^TM(Schwarz和Dayhof,Atlas of Protein Sequence and Structure,Dayhoff,M.O.,Ed pp 353-358,1979)的“Best Fit”(Smith和Waterman,Advances in Applied Mathematics,482-489,1981)、BLAST、BLAST-2、BLAST-P、BLAST-N、BLAST-X、WU-BLAST-2、ALIGN、ALIGN-2、CLUSTAL或Megalign(DNASTAR)。此外，本领域技术人员可以确定用于测量比对的合适参数，包括在所比较的序列的长度上实现最佳比对所需的任何算法。一般而言，对于多肽，比较序列的长度可以是至少五个氨基酸，优选为10、20、30、40、50、60、70、80、90、100、125、150、175、200、250、300、400、500、600、700、800个或更多个氨基酸，最多达多肽的整个长度。对于核酸，比较序列的长度通常可以是至少10、20、30、40、50、60、70、80、90、100、125、150、175、200、250、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400个或更多个核苷酸，最多达核酸分子的整个长度。应当理解，出于在将DNA序列与RNA序列进行比较时确定序列同一性的目的，胸苷核苷酸(T)等同于尿苷核苷酸(U)。其他天然存在的核苷酸包括但不限于腺苷(A)、胞苷(C)、鸟苷(G)和肌苷(I)。此外，可以使用诸如PHYRE2(Kelly等人，Nat.Protocols.10:845-858,2015)和Mfold(Zuker.Nucleic Acids Res.31(13):3406-3415,2003)的建模程序通过采用相同折叠(二级和/或三级结构)的倾向来比较同源性和相似性。

如本文所定义的“稳定多肽”或“稳定蛋白”是形成融合蛋白的一部分的蛋白，其功能是通过例如增加融合蛋白的另一种蛋白的总体稳定性来增加融合蛋白的总体稳定性。稳定性包括蛋白保留其构象和活性的能力。此外，稳定蛋白可以增强融合蛋白或融合蛋白的另一种蛋白的溶解性。稳定蛋白的使用还可以提供其他优点，例如增加的蛋白表达、改善的蛋白折叠以及在保留特异性活性的情况下短期或长期储存。在稳定蛋白和非LTR RT蛋白之间包含接头肽可以进一步增强这些优点。在一些方面，稳定蛋白与本发明的真核非LTR RT蛋白连接，以在细菌细胞中表达融合蛋白。在一些方面，稳定蛋白是麦芽糖结合蛋白(MBP)。

通常将本发明的修饰的RT蛋白纯化至基本上均质。短语“基本上均质的”、“基本上均质的形式”和“基本上均质”用于表示产物(即分离的RT蛋白)基本上不含来自表达环境的污染物，例如密切相关的核酸、相关的蛋白和/或其他异源污染物质。例如，在相同或几乎相同的(多种)纯化方案后，与相似但未修饰的RT蛋白相比，修饰的RT蛋白可以显示来自表达环境的污染物减少95％或更多(例如96％、97％、98％、99％或99.5％或更多)。

如本文所使用，术语“变体”、“修饰的”、“非天然存在的”和“突变体”是同义词，并且是指多肽或核酸与具体叙述的多肽或核酸相差一个或多个氨基酸或核苷酸插入、缺失、突变、置换、修饰或融合，所述插入、缺失、突变、置换、修饰或融合是使用例如重组DNA技术(例如位点特异性诱变)产生的。通过比较特定多肽的序列和同源多肽的序列，例如系统发生相关的序列，并使高同源性区域(保守区)中产生的改变的数量最小化，或通过用共有序列替代，可以发现确定哪些残基可以被替代、添加或缺失而不消除目标活性的指导。在一些实施方案中，术语“衍生物”、“变体”、“修饰的”、“非天然存在的”和“突变体”可互换使用。

修饰的真核非长末端重复序列逆转录酶(非LTR RT)蛋白

本文提供了用于本公开内容的方法和组合物中的分离的真核非长末端重复序列逆转录酶(非LTR RT)蛋白。所述分离的真核非LTR RT蛋白表现出稳定的表达，无核酸的高产率纯化，例如用于逆转录病毒RT测定的在退火引物-模板底物上的cDNA合成活性和模板“跳跃”活性，实现持续性复制多个物理上分离的模板以生成单个共价连续的cDNA。这样的分离的真核非LTR RT蛋白包括截短的N末端区域、RNA结合结构域、RT结构域和核酸内切酶结构域，其中所述核酸内切酶结构域包括消除核酸内切酶功能的突变。

在某些情况下，真核非LTR RT蛋白是R2样逆转录元件RT(R2样RT)蛋白(例如，R2样RT蛋白)。R2样蛋白将共有蛋白结构的一般原理，以从蛋白N末端到C末端的线性顺序包括：不存在于内含子或逆转录病毒RT中的一个或多个序列特异性DNA结合结构域，存在于内含子RT中但不存在于逆转录病毒RT中的RNA结合区，具有RT活性位点的完整或简并特征基序的共有RT结构域，以及来自限制样核酸内切酶(RLE)家族的C末端核酸内切酶结构域。其他非R2样的非逆转录病毒RT缺乏核酸内切酶结构域或具有来自不同结构家族的核酸内切酶结构域。在某些情况下，真核非LTR RT蛋白是R2逆转录元件RT(R2 RT)蛋白。在一些情况下，真核非LTR RT蛋白源自节肢动物。在某些情况下，所述节肢动物是家蚕，所述蛋白是家蚕R2RT蛋白。

在一些情况下，截短的N末端区域导致与全长非LTR RT蛋白相比，从非LTR RT蛋白的N末端缺失69个(即氨基酸1-69)至303个(即氨基酸1-303)氨基酸。例如，截短的N末端区域可以导致与未截短的全长非LTR RT蛋白相比，非LTR RT蛋白的N末端69个氨基酸(即氨基酸1-69)缺失。因此，在一些情况下，截短的N末端区域可以导致与具有氨基酸序列SEQ IDNO:1的未截短的全长家蚕R2 RT蛋白相比，家蚕R2 RT蛋白的N末端69个氨基酸(即氨基酸1-69)缺失。因此，在一种情况下，具有截短的N末端区域的真核非LTR RT蛋白可以包含氨基酸序列SEQ ID NO:9，所述截短的N末端区域导致与具有氨基酸序列SEQ ID NO:1的未截短的全长家蚕R2RT蛋白相比，家蚕R2 RT蛋白的N末端69个氨基酸(即，氨基酸1-69)缺失。包括氨基酸序列SEQ ID NO:9的分离的真核非LTR RT蛋白是例如ΔN69 R2 RT蛋白，其在本公开内容中详细描述。

供选择地，具有截短的N末端区域的非LTR RT蛋白可以是SEQ ID NO:9的变体，其具有与SEQ ID NO:9具有至少90％序列同一性(例如，至少91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％序列同一性)的氨基酸序列。包含氨基酸序列SEQ ID NO:9的分离的真核非LTR RT蛋白的另一个实例是具有氨基酸序列SEQ ID NO:6的ΔN69 R2 RT蛋白，其具有N末端MBP标签和C末端6xHis标签。

具有截短的N末端区域的真核非LTR RT蛋白的其他实例包括具有氨基酸序列SEQID NO:14的ΔN69(ed)R2 RT蛋白，所述截短的N末端区域导致与具有氨基酸序列SEQ IDNO:1的未截短的全长家蚕R2 RT蛋白相比，家蚕R2 RT蛋白的N末端69个氨基酸缺失。供选择地，具有截短的N末端区域的非LTR RT蛋白可以是SEQ ID NO:14的变体，其具有与SEQ IDNO:14具有至少90％序列同一性(例如，至少91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％序列同一性)的氨基酸序列，其中所述变体包含在全长家蚕R2 RT(SEQ IDNO:1)的氨基酸残基D996处的D996A置换突变。包含氨基酸序列SEQ ID NO:14的分离的真核非LTR RT蛋白的另一个实例是具有氨基酸序列SEQ ID NO:13的ΔN69(Ed)R2 RT蛋白，其具有N末端MBP标签和C末端6xHis标签。

在另一个实例中，截短的N末端区域可以导致与未截短的全长非LTR RT蛋白相比，非LTR RT蛋白的N末端303个氨基酸(即，氨基酸1-303)缺失。因此，在一些情况下，截短的N末端区域可以导致与具有氨基酸序列SEQ ID NO:1的未截短的全长家蚕R2 RT蛋白相比，家蚕R2 RT蛋白的N末端303个氨基酸(即，氨基酸1-303)缺失。因此，在一种情况下，具有截短的N末端区域的真核非LTR RT蛋白可以包含氨基酸序列SEQ ID NO:11，所述截短的N末端区域导致与具有氨基酸序列SEQ ID NO:1的未截短的全长家蚕R2 RT蛋白相比，家蚕R2 RT蛋白的N末端303个氨基酸(即，氨基酸1-303)缺失。包含氨基酸序列SEQ ID NO:11的分离的真核非LTR RT蛋白是例如在本公开内容中描述的BomoMin(ed)蛋白。

供选择地，具有截短的N末端区域的非LTR RT蛋白可以是SEQ ID NO:11的变体，其具有与SEQ ID NO:11具有至少90％序列同一性(例如，至少91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％序列同一性)的氨基酸序列，其中所述变体包括在全长家蚕R2 RT(SEQ ID NO:1)的氨基酸残基D996处的D996A置换突变。包含氨基酸序列SEQ ID NO:11的分离的真核非LTR RT蛋白是例如在本公开内容中详细描述的BomoMin(ed)R2 RT蛋白。包含氨基酸序列SEQ ID NO:11的分离的真核非LTR RT蛋白的另一个实例是具有氨基酸序列SEQ ID NO:12的BomoMin(ed)R2 RT蛋白，其具有N末端MBP标签和C末端6xHis标签。

在一些情况下，所述截短的N末端区域导致与全长非LTR RT蛋白相比，从非LTR RT蛋白的N末端缺失69(即，氨基酸1-69)至274个氨基酸(即，氨基酸1-274)。例如，所述截短的N末端区域可以导致与未截短的全长非LTR RT蛋白相比，非LTR RT蛋白的N末端274个氨基酸(即，氨基酸1-274)缺失。因此，在一些情况下，所述截短的N末端区域可以导致与具有氨基酸序列SEQ ID NO:1的未截短的全长家蚕R2 RT蛋白相比，家蚕R2 RT蛋白的N末端274个氨基酸(即，氨基酸1-274)缺失。因此，在一种情况下，具有截短的N末端区域的真核非LTRRT蛋白可以包含氨基酸序列SEQ ID NO:10，所述截短的N末端区域导致与具有氨基酸序列SEQ ID NO:1的未截短的全长家蚕R2 RT蛋白相比，家蚕R2 RT蛋白的N末端274个氨基酸(即，氨基酸1-274)缺失。包含氨基酸序列SEQ ID NO:10的分离的真核非LTR RT蛋白是例如在本公开内容中详细描述的BomoC R2 RT蛋白。

供选择地，具有截短的N末端区域的非LTR RT蛋白可以是SEQ ID NO:10的变体，其具有与SEQ ID NO:10具有至少90％序列同一性(例如，至少91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％序列同一性)的氨基酸序列。包含氨基酸序列SEQ ID NO:10的分离的真核非LTR RT蛋白的另一个实例是具有氨基酸序列SEQ ID NO:7的BomoC R2 RT蛋白，其具有N末端MBP标签和C末端6xHis标签。

具有截短的N末端区域的真核非LTR RT蛋白的其他实例包括具有氨基酸序列SEQID NO:2的BomoC(ed)R2 RT蛋白，所述截短的N末端区域导致与具有氨基酸序列SEQ ID NO:1的未截短的全长家蚕R2 RT蛋白相比，家蚕R2 RT蛋白的N末端274个氨基酸(即，氨基酸1-274)缺失。供选择地，所述具有截短的N末端区域的非LTR RT蛋白可以是SEQ ID NO:2的变体，其具有与SEQ ID NO:2具有至少90％序列同一性(例如，至少91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％序列同一性)的氨基酸序列，其中所述变体包含在全长家蚕R2 RT(SEQ ID NO:1)的氨基酸残基D996处的D996A置换突变。包含氨基酸序列SEQID NO:2的分离的真核非LTR RT蛋白的另一个实例是具有氨基酸序列SEQ ID NO:3的BomoC(ed)R2 RT蛋白，其具有N末端MBP标签和C末端6xHis标签。

在一些情况下，所述截短的N末端区域导致与全长非LTR RT蛋白相比，从非LTR RT蛋白的N末端缺失274个(即，氨基酸1-274)至303个氨基酸(即，氨基酸1-303)。

在一些情况下，提供了分离的N末端截短的真核非LTR RT蛋白变体，其具有消除核酸内切酶功能的突变和相对于SEQ ID NO:2、3和6-14中任一个的另外一个或多个氨基酸置换。保守置换如表1中“优选置换”的标题下所示。表1中在“示例性置换”的标题下提供了更大量的变化，并如以下参考氨基酸侧链类别进一步描述的。

表1.示例性和优选的氨基酸置换

氨基酸可以根据常见的侧链性质进行分组：

疏水性的：正亮氨酸、Met、Ala、Val、Leu、Ile；

中性亲水性的：Cys、Ser、Thr、Asn、Gln；

酸性的：Asp、Glu；

碱性的：His、Lys、Arg；

影响链取向的残基：Gly、Pro；

芳香性的：Trp、Tyr、Phe。

非保守置换将需要用这些类别中的一个的成员交换为另一类别。

在一些情况下，所述截短的N末端区域导致全部或部分的一个或多个(例如，一个、两个、三个、四个或更多个)序列特异性DNA结合结构域缺失。在一些情况下，所述截短的N末端结构域导致全部的一个或多个(例如，一个、两个、三个、四个或更多个)序列特异性DNA结合结构域缺失。在一些情况下，所述真核非LTR RT蛋白不包含序列特异性DNA结合结构域。在一些情况下，所述真核非LTR RT蛋白不包含自主序列特异性DNA结合结构域。

在一些情况下，分离的真核非LTR RT蛋白被纯化至基本均质。因此，在一些情况下，所述真核非LTR RT蛋白基本上不含核酸污染物。

核酸内切酶失活突变

如上所述，所述分离的真核非LTR RT蛋白包含具有一个或多个消除核酸内切酶功能的突变的核酸内切酶结构域。这样的突变可以包含置换突变、缺失突变(包括截短突变)或插入突变。例如，一个或多个置换突变(例如，一个或多个氨基酸被一个或多个不同的氨基酸置换)可以用于构建用于本公开内容的具有失活核酸内切酶结构域的修饰的真核非LTR RT蛋白。已经广泛表征了核酸内切酶结构域家族，包括来自R2样RT蛋白的核酸内切酶结构域，其被其他蛋白中的大量限制性核酸内切酶共用(Pingoud等人，Cell Mol LifeSci.62(6):685-707 2005)。许多高分辨率蛋白结构和诱变实验揭示了这种核酸内切酶结构域活性的原理和氨基酸要求。

在其中所述真核非LTR RT蛋白是家蚕R2 RT蛋白的情况下，消除核酸内切酶功能的突变可以是具有氨基酸序列SEQ ID NO:1的全长家蚕R2 RT蛋白的氨基酸残基D996、D1009或K1026处的置换突变。在一些情况下，所述置换突变在氨基酸残基D996处。在一些情况下，氨基酸残基D996被除Glu(E)以外的任何氨基酸置换。因此，在一些情况下，氨基酸残基D996被Ala(A)、Ile(I)、Leu(L)、Met(M)、Phe(F)、Val(V)、Pro(P)、Gly(G)、Arg(R)、Lys(K)、Gln(Q)、Asn(N)、His(H)、Ser(S)、Thr(T)、Tyr(Y)、Cys(C)、Trp(W)或Tyr(Y)置换。在一些情况下，所述置换突变是D996A突变。在一些情况下，所述置换突变在氨基酸残基D1009处。在一些情况下，氨基酸残基D1009被除Glu(E)以外的任何氨基酸置换。在一些情况下，所述氨基酸残基D1009被Ala(A)、Ile(I)、Leu(L)、Met(M)、Phe(F)、Val(V)、Pro(P)、Gly(G)、Arg(R)、Lys(K)、Gln(Q)、Asn(N)、His(H)、Ser(S)、Thr(T)、Tyr(Y)、Cys(C)、Trp(W)或Tyr(Y)置换。在一些情况下，所述置换突变是D1009A突变。在一些情况下，所述置换突变在氨基酸残基K1026处。在一些情况下，所述置换突变是K1026A、K1026D或K1026E突变。在一些情况下，所述置换突变是K1026A突变。在一些情况下，消除核酸内切酶功能的突变是氨基酸残基K1026和K1029处的置换突变。在一些情况下，所述置换突变是K1026A和K1029A突变。

稳定蛋白

分离的真核非LTR RT蛋白可以包含一种或多种稳定蛋白。形成非LTR RT蛋白的部分的稳定蛋白的功能是增加所述修饰的非LTR RT蛋白的总体稳定性和/或适当的结构。稳定性包括蛋白保留其构象和活性的能力。

将稳定蛋白与真核非LTR RT蛋白连接可以提供一种或多种优点。包含稳定蛋白的修饰的真核非LTR RT蛋白可以例如具有在高温下增加的稳定性、增加的溶解度、增加的蛋白表达、改善的蛋白折叠和/或在保留特异性活性的情况下短期或长期储存。在一些情况下，包含稳定蛋白的本发明的修饰的真核非LTR RT蛋白可以具有上面列出的一种或多种性质。例如，所述修饰的真核非LTR RT蛋白可以具有增加的热稳定性和/或增加的溶解度。在另一个实例中，所述修饰的真核非LTR RT蛋白可以具有增加的蛋白表达并表现出改善的蛋白折叠。

在稳定蛋白和真核非LTR RT蛋白之间包含接头肽可以进一步强化这些优点。然而，真核非LTR RT蛋白和稳定蛋白可以供选择地用最少的接头(如果有的话)彼此直接融合。因此，稳定蛋白可以在有或没有中间接头肽的情况下，定位到所述真核非LTR RT蛋白的N末端或C末端。

在一些情况下，稳定蛋白连接到本发明的真核非LTR RT蛋白，用于在细菌细胞中表达融合蛋白。在一些情况下，稳定蛋白是麦芽糖结合蛋白(MBP)或其变体。稳定蛋白的其他实例包括小泛素样修饰物(SUMO)或(多个)蛋白A结构域或其变体。

在其中分离的真核非LTR RT蛋白包含一种或多种稳定蛋白的以上任何一种情况下，通过在细胞表达时的重组蛋白溶解度、纯化产率、作为单体的蛋白分数、生化反应中的酶的半衰期和/或在室温或4、-20和/或-80℃下储存时的活性保留的增加来反映蛋白的改善/增加的总体稳定性。

纯化标签

除了一种或多种稳定蛋白以外，分离的真核非LTR RT蛋白还包含一种或多种纯化标签。

在纯化标签和真核非LTR RT蛋白之间包含接头肽可以是期望的。然而，所述真核非LTR RT蛋白和纯化标签可以供选择地彼此直接融合。因此，纯化标签可以在有或没有中间接头肽的情况下，定位到所述真核非LTR RT蛋白的N末端或C末端。

在一些情况下，纯化标签与本发明的真核非LTR RT蛋白连接，用于表达和随后从细菌细胞纯化融合蛋白。在一些情况下，特别是为了从细菌细胞纯化，纯化标签是组氨酸标签，例如6x-His标签。在一些情况下，组氨酸标签(例如，6x-His标签)在有或没有中间接头肽的情况下定位到真核非LTR RT蛋白的C末端。在一些情况下，组氨酸标签(例如，6x-His标签)在有或没有中间接头肽的情况下定位到真核非LTR RT蛋白的C末端，并且稳定蛋白(例如，MBP)在有或没有中间接头肽的情况下定位到真核非LTR RT蛋白的N末端。在一些情况下，组氨酸标签(例如，6x-His标签)在具有中间接头肽的情况下定位到真核非LTR RT蛋白的C末端，并且稳定蛋白(例如，MBP)在有或没有中间接头肽的情况下定位到真核非LTR RT蛋白的N末端。

在一些情况下，纯化标签与本发明的真核非LTR RT蛋白连接，用于表达和随后从真核细胞纯化融合蛋白。在一些情况下，特别是对于从真核细胞纯化，纯化标签是蛋白A标签或FLAG肽标签。在一些情况下，纯化标签是串联蛋白A标签。在一些情况下，纯化标签是3x-FLAG肽标签。在一些情况下，纯化标签(例如，蛋白A或FLAG肽标签)在有或没有中间接头肽的情况下定位到真核非LTR RT蛋白的C末端，并且真核非LTR RT蛋白不包含单独的稳定蛋白。在其他情况下，纯化标签(例如，蛋白A或FLAG肽标签)在有或没有中间接头肽的情况下定位到真核非LTR RT蛋白的N末端，并且真核非LTR RT蛋白不包含单独的稳定蛋白。在一些情况下，纯化标签(例如，蛋白A或FLAG肽标签)在有或没有中间接头肽的情况下定位于真核非LTR RT蛋白的C末端，并且真核非LTR RT蛋白包含单独的稳定蛋白。在其他情况下，纯化标签(例如，蛋白A或FLAG肽标签)在有或没有中间接头肽的情况下定位到真核非LTR RT蛋白的N末端，并且真核非LTR RT蛋白包含单独的稳定蛋白。

纯化标签的其他实例包括Twin-Strep-标签、myc肽标签，酰基载体蛋白标签等或其变体。

接头肽

在其中使用接头肽将稳定蛋白和/或纯化标签与真核非LTR RT蛋白连接的情况下，(多个)接头的长度可以是两个或更多个氨基酸。接头可以由中性、极性或非极性氨基酸组成。接头的长度可以为例如2至100个氨基酸，例如长度为2至50个氨基酸，例如长度为3、5、10、15、20、25、30、35、40、45或50个氨基酸。在一些情况下，接头是促进相邻(多个)蛋白或(多个)多肽折叠的区域，如Smyth等人Protein Science.12:1313-1322,2003中所述。

接头可以是可切割的，例如通过酶或化学切割，其可以是自介导的或由物理上分开的试剂介导的。氨基酸序列中的切割位点以及在这样的位点切割的酶和化学物质是众所周知的。例如，接头的酶切割可以涉及使用内肽酶，例如弗林蛋白酶、尿激酶、Lys-C、Asp-N、Arg-C、V8、Glu-C、胰凝乳蛋白酶、胰蛋白酶、胃蛋白酶、木瓜蛋白酶、凝血酶、组织纤溶酶原激活物(tPa)、genenase、因子Xa、TEV(烟草蚀纹病毒)半胱氨酸蛋白酶、SUMO蛋白酶Ulp1、肠激酶、HRV C3(人类鼻病毒C3蛋白酶)、激肽原酶以及枯草杆菌蛋白酶样前蛋白转化酶(例如弗林蛋白酶(PC1)、PC2或PC3)或N-精氨酸二元转化酶。

化学切割可以包括可被还原剂或自切割蛋白基序切割的二硫键。

以不通过模板复制确定的方式延伸多核苷酸3’末端的方法

在没有模板复制限制的情况下通过核苷酸添加的多核苷酸3’延伸(也称为多核苷酸加尾)是用途广泛的用于共价附接分子标签的的方法。具有核苷酸转移酶活性的酶包括专门用于用半随机脱氧核苷酸给单链DNA底物加尾的末端脱氧核苷酸转移酶(TdT)，以及专门用于用均聚物尾(主要是A或U)给单链RNA底物加尾的RNA聚合酶。随着Mn²⁺的存在激发的非逆转录病毒RT酶的末端转移酶活性的发现，使用NTP、dNTP或其他核苷酸类似物底物给具有单链或双链组成的RNA和DNA加尾成为可能，从而大大扩展了将分子标签共价附接到多核苷酸3’末端的能力。

本文提供了使单链或部分单链核酸的3’末端延伸至少一个核苷酸的方法，所述方法包括在包含锰离子的缓冲液中，使所述单链或部分单链核酸与具有核苷酸聚合酶活性的非逆转录病毒RT蛋白接触。在一些情况下，单链或部分单链核酸是DNA。在一些情况下，在末端脱氧核苷酸转移酶(TdT)、逆转录病毒RT蛋白或任何其他非RT蛋白不存在的情况下进行接触。在一些情况下，单链或部分单链核酸是RNA。在一些情况下，在RNA连接酶或聚腺苷RNA聚合酶、聚尿苷RNA聚合酶或任何其他非RT蛋白不存在的情况下进行接触。

还提供了使A型核酸双链体的3’末端延伸至少一个核苷酸的方法，所述方法包括在包含锰离子的缓冲液中使A型核酸双链体与具有核苷酸聚合酶活性的非逆转录病毒RT蛋白接触。在一些情况下，A型核酸双链体是RNA-RNA核酸双链体、部分RNA-RNA核酸双链体或其修饰形式。在一些情况下，RNA-RNA核酸双链体、部分RNA-RNA核酸双链体或其修饰形式的一个或两个末端是平末端或包含单核苷酸或其他短3’突出端。在一些情况下，A型核酸双链体是RNA-DNA核酸双链体、部分RNA-DNA核酸双链体或其修饰形式。在一些情况下，RNA-DNA核酸双链体、部分RNA-DNA核酸双链体或其修饰形式的一个或两个末端是平末端或包含单核苷酸或其他短3’突出端。

在一些情况下，非逆转录病毒RT末端转移酶活性可以用包含用于与配体、表面或其他分子结合或共价连接的信号的部分标记核酸分子。该方法实现连接特异性，包括但不限于纯化树脂、微阵列板或流通池。此外，该方法实现结合特异性，包括但不限于识别附接部分和将通过非共价结合而局部浓度将增加的其他核酸的酶。

在一些情况下，非逆转录病毒RT末端转移酶活性可以用于用检测信号标记核酸分子，其用途包括但不限于产生用于微阵列分析的杂交探针或核酸定量方法。在一些情况下，非逆转录病毒RT末端转移酶活性可以用于改变多核苷酸3’末端的性质。例如，可以阻断3’末端被核酸外切酶识别，可以阻断其充当模板依赖性合成的引物，或激活其以进行化学串联或酶连接。3’末端可以赋予多核苷酸溶解性、稳定性或渗透性的有利特性(例如，增加的血浆半衰期、增加的细胞渗透性或靶向细胞表面受体分子)。

在一些情况下，非逆转录病毒RT末端转移酶活性可以通过可逆链终止核苷酸类似物的添加和解除阻断的循环用于寡核苷酸合成。在一些情况下，非逆转录病毒RT末端转移酶活性可以用于向多核苷酸库中的每个分子添加不同的独特分子标识符序列(UMI)，或向另外的多核苷酸库添加不同的条形码。在一些情况下，3’加尾反应可以产生间隔子，该间隔子在串联后最终分离出加尾的多核苷酸序列。在一些情况下，3’加尾将是对通过非模板化或模板化延伸进行的另外的3’延伸的可逆阻断。在一些情况下，可逆阻断将用于连续轮次的不同组合的条形编码化，例如用于空间转录组学(Moor等人，Curr Opin Biotechnol.46:126-133,2017)。在一些情况下，非逆转录病毒RT蛋白将用于附接非天然核苷酸，如iso-dG或iso-dC，以生成3’末端，所述3’末端将与特定的其他非天然核苷酸碱基配对。以这种方式，例如用iso-dG加尾的模板分子可以与不同于所有天然核苷酸碱基的同源单核苷酸突出端配对(例如，iso-dG与iso-dC配对，但不与A、C、G、T或U配对)。

在一些情况下，非逆转录病毒RT末端转移酶活性可以用于延伸相对均质的分子群，例如合成寡核苷酸。在一些情况下，非逆转录病毒RT末端转移酶活性可以用于延伸分子的混合群，例如在通过液体活检获得的无细胞核酸的患者样品中的分子的混合群。

在一些情况下，可以在多核苷酸加尾之前通过非逆转录病毒RT末端转移酶活性对其进行修饰。例如，如果3’基团不是OH，则可以使用诸如T4多核苷酸激酶(PNK)的修复酶由3’单磷酸酯或2’3’环状单磷酸酯生成3’OH。多核苷酸可以被变性或可以不被变性以去除二级结构，并且可以经受或可以不经受特定核酸或其他组分的耗尽或富集。

在一些情况下，非逆转录病毒RT末端转移酶活性可以用于给核酸加尾，作为产生用于测序的样品的步骤。在一些情况下，非逆转录病毒RT末端转移酶活性可以用于给单链RNA或DNA或它们的混合物加尾，以使用Illumina平台进行测序。在一些情况下，非逆转录病毒RT末端转移酶活性可用于给RNA或DNA或它们的混合物加尾，以使用PacificBiosciences平台或其他平台进行测序。

在一些情况下，所述非逆转录病毒RT蛋白是真核非LTR RT蛋白或原核或细胞器内含子RT蛋白。在一些情况下，所述非逆转录病毒RT蛋白是真核非LTR RT蛋白。在一些情况下，所述非逆转录病毒RT蛋白是本文描述的本发明的一个方面的真核非LTR RT蛋白。在一些情况下，所述真核非LTR RT蛋白是R2 RT蛋白。在一些情况下，所述R2 RT蛋白是家蚕R2RT蛋白。在一些情况下，所述非逆转录病毒RT蛋白是原核或细胞器内含子RT蛋白。在一些情况下，所述原核或细胞器内含子RT是直肠真杆菌II组内含子RT蛋白。

在一些情况下，非逆转录病毒RT末端转移酶活性可以通过各种修饰的RT蛋白发挥。例如，酶突变可以扩大或缩小核苷酸或核苷酸样底物的范围和二价金属离子需求特异性。此外，酶突变可以扩大或缩小多核苷酸底物的范围。另外，可以将非逆转录病毒RT蛋白共价或非共价融合到蛋白或其他模块，以结合期望的多核苷酸底物。此外，可以工程改造或选择非逆转录病毒RT蛋白，以具有更高或更低的错误率、持续性、合成速率、活性温度范围、与反应混合物中存在的其他化合物的相容性、稳定性、溶解度或其他与使用相关的特性。

在一些情况下，包含Mn²⁺的非逆转录病毒RT反应可以用于改变模板依赖性cDNA合成的特异性，并实现非模板化合成，例如，消除单链RNA模板上的不受控的单链RNA引发(Luan,Eickbush Mol Cell Biol.1996 16(9):4726-34)。

在一些情况下，所述缓冲液包含一种或多种核糖核苷三磷酸(NTP)、脱氧核糖核苷三磷酸(dNTP)或二脱氧核糖核苷三磷酸(ddNTP)或其核苷酸类似物。在一些情况下，所述接触在约4℃至约50℃的温度下进行。在一些情况下，所述接触在约37℃的温度下进行。

因为本文所述的非逆转录病毒RT的以前未预料到的末端转移酶活性是真核和原核非逆转录病毒RT的共有特征，所以其他非逆转录病毒RT将有望表现出这种类型的活性并可以替代本文描述的应用中使用的RT。跨细菌、古细菌和真核细胞器和核基因组的非逆转录病毒RT的广大多样性提供了末端转移酶特异性的功能多样性，这是由原核内含子RT蛋白与真核非LTR逆转录元件RT蛋白之间的本文所述的差异和相似性判断的。

通过有序模板转换(OTR)原理跨不连续模板进行连续cDNA合成的方法

cDNA文库的最有效合成将使用单一管、单一反应、便利的反应温度以及完全储存稳定的组分，添加所有5’和3’衔接子元件以及其他必要的样品制备物以实现：(i)根据输入文库(例如Illumina、Pacific Biosciences、Nanopore、BGI等)的平台要求定量、扩增、环化和/或标记分子；(ii)标引组合到测序运行中的不同文库，例如使用条形码(如果这是平台技术的一部分)；(iii)根据任何平台要求对输入文库进行变性；和(iv)提供将通过合成启动测序的引物的碱基配对位点(当这是平台技术的一部分时)。例如，在针对市场主导的Illumina平台的典型文库制备中，cDNA序列的侧翼必须是具有以下三个组分片段的衔接子：5'-P5、标引(i)5、读数(R)1 -3’或5’-P7、i7、R2 -3’。这两个复合衔接子序列必须存在于cDNA的相对侧。此外，由于PCR通常用于添加序列的标引P5和P7模块，因此必须在流通池加载之前对文库进行变性，然后将其稀释约100倍以中和变性，由于流通池的加载体积有限，这导致损失通常～80-90％的制备的文库。而且，由于用于NGS的衔接子序列正在不断发展与创新，因此易于适应模块序列变化的文库制备方法对于通用应用来说是必不可少的。本文所述的方法提供了所有这些改进。

在一些情况下，模板转换的特异性受到引物和模板序列以及其他特征的特定组合的限制。这些组合可以提高预期的cDNA文库产物的制备准确性或效率，和/或减少不期望的副反应产物的产生或改变不期望的副反应产物的性质，所述不期望的副反应产物例如由反应中混杂的引发和模板复制而导致。“模板跳跃”实现在用于cDNA合成的序列混合物中几乎全面或相对无偏地使用模板，并且在连续模板复制的条件下，还实现在cDNA串联体中体现不同数量的模板。本文所述的方法提供了选择性模板复制的改进和对cDNA产物中复制的模板数量的控制。

一方面，本发明提供了制备互补DNA(cDNA)分子的方法，其包括：(a)提供包含引物链和非延伸链的引物双链体，其中所述引物链的3’末端包含+1嘧啶核苷酸突出端；(b)提供在其3’末端包含嘌呤核苷酸的RNA模板；和(c)在包含镁离子和一种或多种dNTP或其类似物的缓冲液中使引物双链体和RNA模板与RT接触，其中所述接触在有效产生与所述RNA模板基本上互补的cDNA分子的条件下进行。

因此，在一些情况下，将具有+1T和/或+1C 3’突出端的引物与包含连接到核苷酸糖部分的(多种)3’同源嘌呤(例如A和/或G)的模板组合，所述核苷酸糖部分含有或不含各种OH基团。

在一些情况下，引物链是DNA引物链。在一些情况下，所述引物链包含5’突出端。在一些情况下，所述引物链的5’末端或内部位点包含修饰。在一些情况下，所述修饰实现所述引物链或所述引物双链体的固定或纯化。在一些情况下，所述修饰是与生物素的连接。在一些情况下，所述引物链是5’衔接子序列。在一些情况下，所述非延伸链包含DNA、RNA、杂交DNA和RNA或其修饰形式。在一些情况下，非延伸链的3’末端包含修饰。在一些情况下，所述修饰阻断3’延伸。在一些情况下，所述修饰是3’C3间隔子或3’单磷酸酯。在一些情况下，所述RNA模板是通过上述第IV节所述的方法制备的。RNA模板在其3’末端可以包含嘌呤dNTP、NTP、ddNTP或核苷酸类似物。类似地，在一些情况下，所述引物双链体是通过上述第IV节所述的方法制备的。在一些情况下，RNA模板的5’末端包含修饰。在一些情况下，所述修饰是不可逆修饰。在一些情况下，所述不可逆修饰是5’C6间隔子或生物素。在一些情况下，所述修饰是可逆修饰。在一些情况下，所述可逆修饰是5’腺苷酰化。

在一些情况下，所述接触在第二模板的存在下进行，其中所述第二模板在其3’末端包含嘧啶核苷酸。仅在跨3’嘌呤模板合成cDNA后，才优选具有3’嘧啶碱基的第二模板作为模板。在一些情况下，引物具有修饰的+1嘧啶，例如iso-dC，第一个模板库具有3’iso-dG。在一些情况下，反应中补充将用于第一模板cDNA的非模板化延伸的嘌呤核苷酸类似物，以及可以与上述嘌呤核苷酸类似物碱基配对的含有3’嘌呤的第二模板。

在一些情况下，所述第二模板包含DNA、RNA、杂交DNA和RNA或其修饰形式。在一些情况下，所述第二模板在其3’末端包含嘧啶核糖核苷酸。在一些情况下，所述第二模板是3’衔接子序列的互补序列。在一些情况下，所述接触在有效产生包含所述5’衔接子序列、与所述RNA模板基本上互补的序列和所述3’衔接子序列的cDNA分子的条件下进行。在一些情况下，所述第二模板的5’末端包含修饰。在一些情况下，所述修饰是不可逆修饰。在一些情况下，所述不可逆修饰是5’C6间隔子或生物素。在一些情况下，所述修饰是可逆修饰。在一些情况下，所述可逆修饰是5’腺苷酰化。

通过本文所述的方法，有序模板转换的执行实现将5’衔接子、cDNA模板和3’衔接子模板例如在补充有利的离子和dNTP及其他缓冲液组分的单一管中组合，并引入到能够跨不连续模板连续cDNA合成的非逆转录病毒RT蛋白。

在一些情况下，初始引物和第二模板由衔接子序列组成。在一些情况下，这些衔接子序列是NGS的(多个)必要模块。在一些情况下，NGS衔接子序列用于Illumina NGS平台。在一些情况下，用于5’-P5、标引(i)5、读数(R)1 -3’的(多个)模块体现在cDNA5’衔接子上，并且5’-P7、i7、R2-3’模块体现在第二模板上。在一些情况下，体现是相反的。在一些情况下，(多个)NGS衔接子序列用于Pacific Biosciences或其他平台。在一些情况下，衔接子序列用于cDNA，以用于PCR。在一些情况下，衔接子序列用于cDNA，以用于微阵列杂交或其他杂交应用。在一些情况下，衔接子包含使cDNA文库结合或连接到基质、表面、分子或其他化合物的部分。在一些情况下，衔接子实现通过T7或其他RNA聚合酶扩增cDNA。

在一些情况下，衔接子包含使cDNA文库结合或连接到基质、表面、分子或其他化合物的部分。在一些情况下，衔接子包含改变cDNA文库5’末端的性质的部分。例如，可以阻断5’末端被核酸外切酶识别，阻断其被磷酸化或去磷酸化，或激活其以进行化学串联或酶连接。5’末端可以赋予多核苷酸溶解性、稳定性或渗透性的有利特性，例如增加的血浆半衰期，增加的细胞渗透或靶向细胞表面受体分子。在一种情况下，在约2-3小时内制备了准备好测序的文库。与目前有利的方案相比，快速的准备时间减少了用于疾病诊断或非侵入性产前检测(NIPT)的样品收集与获得的序列用于治疗、手术和/或其他选择的用途之间的必要时间间隔。在一种情况下，通过使用单一容器而不是容器转移和/或通过引入用于分馏产物分子的基质或其他表面来消除样品分配，以更可再现的且技术要求较低的方式制备准备好测序的文库。此外，将理想的是选择不使用PCR来生成文库，例如，以防止由于PCR偏倚引起的表现偏斜，或者在由于低输入或标引考虑而需要时使用PCR来生成文库。本文所述的方法提供了所有这些改进。

在一些情况下，非逆转录病毒RT是具有连续模板转换活性的非LTR RT蛋白。在一些情况下，非逆转录病毒RT是R2样RT蛋白。在一些情况下，所述非逆转录病毒RT蛋白是来自家蚕的修饰的R2 RT蛋白，例如本文例如在以上第III节中所述的家蚕R2 RT蛋白。在一些情况下，发现的或工程改造成具有连续模板转换活性的其他非逆转录病毒RT蛋白可以替代模板转换反应中的R2 RT蛋白。

在一些情况下，有序模板转换将通过各种修饰的非逆转录病毒RT蛋白进行。例如，酶突变可以扩大或缩小核苷酸或核苷酸样底物的范围。同样，酶突变可以扩大或缩小多核苷酸底物的范围。另外，可以将非逆转录病毒RT蛋白共价或非共价融合到蛋白或其他模块，以结合期望的多核苷酸底物。此外，可以工程改造或选择非逆转录病毒RT蛋白以具有更高或更低的错误率、持续性、合成速率、活性温度范围、与反应混合物中存在的其他化合物的相容性、稳定性、溶解性或其他与使用相关的特性。

因为本文所述的非逆转录病毒RT的以前未预料到的末端转移酶活性是真核和原核非逆转录病毒RT的共有特征，所以其他非逆转录病毒RT将有望表现出这种类型的活性并可以替代本文描述的应用中使用的RT。跨细菌、古细菌和真核细胞器和核基因组的非逆转录病毒RT的广大多样性提供了末端转移酶特异性的功能多样性，这是由原核内含子RT蛋白与真核非LTR逆转录元件RT蛋白之间的本文所述的差异和相似性判断的。在一些情况下，非逆转录病毒RT酶与其他蛋白或化合物的融合可以例如通过促进一类引物和/或模板分子的结合来调节结合的亲和力和特异性和反应特性。在一些情况下，可以将不同的非逆转录病毒RT蛋白组合，或分别用于cDNA文库制备的不同阶段。

在一些情况下，可以在多核苷酸用于模板转换之前对其进行修饰。例如，如果3’基团不是OH，则可以使用诸如T4多核苷酸激酶(PNK)的修复酶由3’单磷酸酯或2’3’环状单磷酸酯生成3’OH。多核苷酸可以被变性或可以不被变性以去除二级结构，并且可以经受或可以不经受特定核酸或其他组分的耗尽或富集。多核苷酸可以在同一反应容器中或分开地进行片段化或连接。

在一些情况下，多核苷酸来自无细胞的患者样品、组织活检、微生物组收集物、盐水或淡水样品、法医材料、单个活细胞或固定细胞、血浆或富集的外来体、片段化的基因组DNA、古DNA或其他生物材料。在一些情况下，cDNA文库的制备过程是自动化的。

在一些情况下，模板转换特异性将受到非制备性cDNA中间体加尾的抑制的影响，例如采用dNTP浓度变化或dNTP类似物。另外，可以通过相对于来自第一模板复制的中间cDNA产物增加第二模板的局部浓度来提高模板转换的第二步的效率。在一些情况下，局部浓度的这种增加可以特别是由表面固定或液滴技术介导的。

在一些情况下，所述接触在约4℃至约50℃的温度下进行。在一些情况下，所述接触在约37℃的温度下进行。

在一些情况下，如上所述，所述方法在单一容器或器皿中进行。

制品或试剂盒

本发明的另一方面是制品，其包含本文所述的一种或多种分离的真核非长末端重复序列逆转录酶(非LTR RT)蛋白和可用于实施核酸检测、定量或测序的材料，特别是可用于实现跨非连续模板的有序和连续的互补DNA(cDNA)合成和/或非逆转录病毒RT蛋白的非天然末端转移酶活性的材料。

由于技术复杂性，核酸检测、定量或测序的实践通常需要本领域熟练从业者。将分子诊断的精确度带到病原体、健康状况以及癌症检测和治疗的最前沿的目标是可再现的、很大程度上无需动手地获取生物标志物谱。如果核酸的内容物可以被全面地读出并且具有有限的偏差，那么核酸将提供这种机会。本文所述的发明实现需要可再现的标准操作规程(SOP)方案以读出核酸信息的研究和临床应用。在一些方面，这样的实现以试剂盒的形式提供。

制品可以包括容器以及在容器上或与容器相关联的标签或包装插页。合适的容器包括例如瓶、小瓶、注射器等。容器可以由多种材料形成，例如玻璃或塑料。在一些情况下，容器容纳组合物，例如一种或多种分离的真核非LTR RT蛋白，该组合物对于使用非逆转录病毒RT的末端转移酶活性进行核酸标记和/或通过非逆转录病毒RT使用有序模板转换进行核酸测序的方法是有用的或需要的。

在一些情况下，使用非逆转录病毒RT的末端转移酶活性进行核酸标记将产生用于检测病原体或突变的探针。在一些情况下，这种实践将在无细胞核酸液体活检、具有或没有固定剂的肿瘤活检、感染组织、环境样品、干血点、微生物组材料或血浆中检测到目标信号。在一些情况下，这样的实现以试剂盒的形式提供。

在一些情况下，通过非逆转录病毒RT使用有序模板转换的核酸测序将产生核酸谱，所述核酸谱为细胞状况或所关注的正常或异常分子的存在提供信息。在一些情况下，该测序将具有单细胞分辨率。在一些情况下，这样的实现以试剂盒的形式提供。

制品还可以包括从商业和用户角度考虑的其他材料，包括其他缓冲液、稀释剂和其他例如对于核酸检测和/或标记有用或所需的试剂。

还提供了试剂盒，其包含一种或多种分离的真核非LTR RT蛋白或用于各种目的，例如实施核酸检测、定量或测序的有用的其他试剂(例如，引物)。与采用制品一样，试剂盒包括容器以及在容器上或与容器相关联的标签或包装插页。容器容纳的组合物包含至少一种本发明的真核非LTR RT蛋白，或供选择地至少一种用于各种目的，例如实施核酸检测、定量或测序的试剂。可以包括另外的容器，其包含例如稀释剂和缓冲液。标签或包装插页可以提供组合物的说明以及预期的体外或诊断用途的说明。

本说明书被认为足以使本领域技术人员能够实施本发明。根据前面的描述，本发明的除了本文中示出和描述的以外的各种修改对于本领域技术人员而言将变得显而易见，并且落入所附权利要求的范围内。

实施例

通过参考以下实施例将更充分地理解本发明。但是，它们不应被解释为限制本发明的范围。应当理解，本文描述的实施例和实施方案仅用于说明目的，并且将向本领域技术人员提示鉴于其的各种修改或改变，并且所述鉴于其的各种修改或改变将被包括在本申请的精神和范围以及所附权利要求的范围之内。

实施例1：采用持续性模板转换的高度纯化的RT的高产率制备

逆转录病毒RT大约50年前被发现作为RNA模板化的DNA合成酶，并且随后的几十年见证了对其在包括RT-PCR和RNA-seq在内的分子应用中的效用的一阵不断的改进(CoffinJM,Fan H Annu Rev Virol.20163(1):29-51)。逆转录病毒RT在动物宿主中的进化相对新，丧失了它们由其进化的细胞RT的许多核酸结合特性。特别地，逆转录病毒RT依赖于与引物-模板双链体的结合来识别模板，而典型的真核细胞逆转录元件RT则在其模板与物理上分离的双链体引物之间没有同源性的情况下启动cDNA合成(Eickbush TH,Jamburuthugoda VKVirus Res.2008 134(1-2):221-34)。以这种方式，真核逆转录元件RT与由移动自剪接内含子编码的典型原核和细胞器RT不同，所述典型原核和细胞器RT在模板反向剪接成DNA后复制其模板(Lambowitz AM’Zimmerly S Cold Spring Harb Perspect Biol.20113(8):a003616)。真核逆转录元件RT一直难以纯化除去相关核酸，使得许多关于“纯化的”逆转录元件RT的活性结论反映了RNP的活性，而不是不含预结合的RNA的RT蛋白的活性(Christensen SM,Ye J,Eickbush TH Proc Natl Acad Sci USA.2006 103(47):17602-7)。但是，如果可以以高产量制备无污染物、储存稳定形式的酶，则逆转录元件RT的生物和生化活性可以是开发研究和临床应用中独特的有用工具。

在该实施例中，筛选了由原核和真核细胞的基因组编码的RT的(a)稳健的表达，(b)无核酸的高产率纯化，(c)例如用于逆转录病毒RT测定中的退火的引物-模板底物上的cDNA合成活性，以及(d)模板“跳跃”活性，实现多个物理上分开的模板的持续性复制，以生成单一共价连续的cDNA。

方法

表达了RT多肽，其具有含有MBP序列变体的N末端麦芽糖结合蛋白(MBP)标签(Smyth等人Protein Sci.12(7):1313-22,2003)和C末端6x-组氨酸标签。本文描述的表达的标记的RT多肽的实例包括来自家蚕的标记的全长R2 RT(SEQ ID NO:5)，来自家蚕的标记的ΔN69 R2 RT(SEQ ID NO:6；也称为NBomoC)，来自家蚕的标记的ΔN274 R2 RT(SEQ IDNO:7；也称为BomoC)，具有C末端截短以去除核酸内切酶结构域的来自家蚕的标记的ΔN274R2 RT(SEQ ID NO:12；也称为Bomo)，具有消除核酸内切酶功能的D996A突变的来自家蚕的标记的ΔN274 R2 RT(SEQ ID NO:3；也称为BomoC(ed))，具有消除核酸内切酶功能的D996A突变的来自家蚕的标记的ΔN69 R2 RT(SEQ ID NO:13；也称为NBomoC(ed))，和来自细菌直肠真杆菌的标记的全长RT(SEQ ID NO:8；也称为Eure或EuRe)。

将此处详述的酶纯化方法放大用于2L细菌培养。当2YT培养基中生长的2LRosetta2(DE3)pLysS细胞达到OD600＝0.9时，诱导其中的蛋白表达。使用0.5mM IPTG在16℃下振摇过夜。收集细胞团后，重悬于20mM Tris-HCl pH 7.4，1M NaCl，10％甘油，1mMMgCl₂，DNA酶I(Roche04716728001，5微克/mL)，RNA酶A(Sigma R6513，5微克/mL)和蛋白酶抑制剂。通过超声处理裂解细胞3.5分钟(冰上开启10秒，关闭10秒)。离心除去不溶物(Sorval SS34转子，15000rpm，30分钟，4℃)。

在5ml HisTrap FF Crude上通过自动化程序进行镍亲和色谱：在缓冲液A中平衡，上样，用5倍柱体积(CV)冲洗缓冲液冲洗，用5CV洗脱缓冲液洗脱。缓冲液A：20mM Tris-HClpH 7.4，1M NaCl，10％甘油，1mMβ-巯基乙醇。冲洗缓冲液：20mM Tris-HCl pH 7.4，1M KCl，20mM咪唑，10％甘油，1mMβ-巯基乙醇。洗脱缓冲液：20mM Tris-HCl pH 7.4，1M KCl，400mM咪唑，10％甘油，1mMβ-巯基乙醇。

根据吸光度合并洗脱液，使用FLPC HiPrep 26/10脱盐至400mM KCl，并施加到5mlHiTrap肝素HP。平衡色谱柱，上样并在20％肝素缓冲液B中洗涤。将第一轮肝素柱逐步洗脱到100％肝素缓冲液B中。合并峰并稀释回约400mM KCl(约2倍稀释)。第二轮与第一轮平行，除了用超过15CV的20-100％缓冲液B的梯度洗脱直到蛋白被洗脱为止。肝素缓冲液A：25mMHEPES-KOH pH 7.5，10％甘油，1mM DTT。肝素缓冲液B：25mM HEPES-KOH pH 7.5，2M KCl，10％甘油，1mM DTT。

合并的肝素柱洗脱液通过尺寸排阻色谱法使用HiPrep 16/60Sephacryl S-200HR通过自动化程序进一步解析。尺寸排阻色谱柱缓冲液：25mM HEPES-KOH pH 7.5，0.8M KCl，10％甘油，1mM DTT。合并单体蛋白峰(典型浓度为7-8mg/mL)，补充至2-5mM DTT，等分，用液氮冷冻，并保存在-80℃下，在至少一年内没有明显的活性损失。用调节至50％甘油的相同缓冲液稀释工作储备液，并以1.25mg/mL＝约10微摩尔的浓度在-20℃下储存。在测试的最大存储时间(约4-6个月)内，没有发生明显的活性损失。

RT引物延伸活性的典型测定使用化学合成的DNA引物，将其退火至T7 RNA聚合酶转录后纯化的RNA模板，这共同产生了用于引物延伸的模板5’突出端底物。反应条件通常为20mM Tris-HCl pH 7.5，150mM KCl，2mM MgCl₂，10％甘油，并在室温或37℃下孵育。使用的核酸的最终浓度范围通常为20至200nM。RT蛋白通常以约0.1-1.0微摩尔添加。核苷酸浓度不同(2.5至500微摩尔)。通常，在PAGE变性后，通过SYBR Gold染色并在Typhoon Trio上成像检测产品。

用于通过持续性使用多个模板分子(即，连续模板复制)进行cDNA合成的典型测定使用全部或部分退火至第二条链(通常为RNA)的DNA引物来产生引物3’末端，其为平末端双链体或限定的序列的短3’突出端。模板包括化学合成的RNA或DNA寡核苷酸和/或T7 RNA聚合酶转录后纯化的RNA；模板也是从生物来源中分离的。反应条件通常为20mM Tris-HClpH7.5，150mM KCl，2mM MgCl₂，10％甘油，并在室温或37℃下孵育。使用的核酸的最终浓度通常为20-90nM预退火引物双链体，20-200nM模板，如果存在，还有20-90nM第二cDNA 3’衔接子模板。RT蛋白通常以约0.1-1.0微摩尔添加。

结果

标记的全长真核RT蛋白(SEQ ID NO:5)和ΔN69Bomo RT蛋白(SEQ ID NO:6)不能以高产率和无污染物的方式纯化。相比之下，标记的N末端截短的BomoC缺少序列特异性DNA结合结构域(SEQ ID NO:3和7)之前的所有R2 RT序列并包含序列特异性DNA结合结构域(SEQ ID NO:3和7)(图1A)，可以以比内含子RT更高的产率制备。对于从凝胶过滤柱上以其预测的单体分子量洗脱的纯化MBP和6x组氨酸标记的蛋白(图1B)，在260和280nM处的吸光度比值表示无污染核酸的纯蛋白(图1C)，通过尝试核酸检测进行证实。

纯化的RT蛋白可以催化模板退火的DNA引物的延伸，这是逆转录病毒RT的典型测定(图2)。对于跨不同缓冲液条件，包括对于本文所述的RT蛋白应用必不可少的Mg²⁺和Mn²⁺缓冲液的单链或双链结构，未检测到超过R2 RT野生型序列固有的RNA或DNA核酸酶活性的RNA或DNA核酸酶活性。相同的表达环境和纯化方案已经可再现地用于多个N末端截短的R2RT和多个内含子RT纯化，包括来自家蚕的具有消除核酸内切酶功能的D996A突变的标记的ΔN303 R2 RT变体(SEQ ID NO:12；也称为BomoMin(ed))，其纯化收率和活性与BomoC(ed)相当。

在筛选的酶中，虽然内含子RT已经被描述为用于跨长模板合成的最具持续性的内含子RT，但是最佳制备的真核RT在连续模板复制中的效率比具有未标记的SEQ ID NO:4的全长序列的最佳制备的该内含子RT高得多(图3)(Zhao C,Liu F,Pyle AM RNA.2018 24(2):183-195)。由于R2 RT C末端核酸内切酶结构域的活性位点催化非特异性单链核酸降解，其在含Mn²⁺的缓冲液中尤为严重(图4A)，但该结构域实质上有助于高产量蛋白制备、溶液稳定性和纯化的蛋白活性(图1和2)，另外修饰了N末端截短的R2 RT变体以消除核酸酶活性，这是通过上述核酸内切酶结构域活性位点突变实现的(通过简写核酸内切酶催化死亡而称为“(ed)”)。

实施例2：通过非逆转录病毒RT的Mn²⁺刺激的末端转移酶活性进行单链和/或双链体RNA 3’末端延伸

通过使用催化脱氧核苷酸添加到DNA 3’末端的酶，末端脱氧核苷酸转移酶(TdT)，已经在很大程度上实现不同分子生物学应用。TdT可以利用四种dNTP中的任何一种以及各种其他未修饰或修饰的核苷酸来延伸其优选的单链DNA底物的3’OH(Sarac和Hollenstein，Chembiochem.20(7):860-871,2019)。该活性对于大量研究和临床方案至关重要，因为它实现使用用于衔接子碱基配对的平台给DNA末端库(例如单链cDNA末端)加尾。而且，它可以利用具有连接的检测或纯化信号(荧光、放射性、生物素或其他)的核苷酸类似物。最近的应用包括其用可逆链终止的核苷酸类似物从头合成寡核苷酸的用途。

不幸的是，尚未制备出用于单链RNA 3’末端延伸的TdT的天然变体或工程改造形式。相反，单链RNA可以通过核苷酸限制性聚合酶如RNA聚(A)聚合酶延伸(Eckmann等人.Wiley Interdiscip Rev RNA.2(3):348-61,2011)。可商购获得的RNA聚(A)聚合酶通常具有较高的核糖核苷酸添加持续性，而不是TdT的分布性脱氧核苷酸添加，导致一些底物得到长聚(A)尾，而同一反应中的其他底物保持未延伸。此外，不可能将不同的尾序列添加到一个反应中的每个分子上(例如，作为唯一的分子标识符)，或者添加到随后待组合的分开的反应中的不同分子库(例如，作为条形码)。此外，为限制其效用，如上所述的RNA聚合酶不3’延伸双链RNA。本文描述的是利用dNTP、NTP和/或ddNTP对单链RNA进行3’延伸(也称为3’加尾)的TdT样广泛核苷酸底物末端转移酶活性，实现众多当前和未来的研究和临床应用，包括本申请中描述的一些新的RNA-seq方法。

方法

将待修饰的核酸底物与MnCl₂(通常在0.5至0.5mM的范围内，例如2mM)在期望pH值的合适缓冲液(通常在pH 6至pH 9的范围内，例如20mM Tris-HCl pH 7.5)中组合。添加用于延伸底物的(多个)3’OH基团的NTP、dNTP、ddNTP和/或核苷酸类似物的三磷酸形式(例如，dTTP+dCTP+dGTP+dATP+ddATP)。加入非逆转录病毒RT酶(例如R2 RT或内含子RT，通常到0.2-1微摩尔，例如0.5微摩尔的终浓度)。除Mn²⁺的螯合剂(如EDTA)外，其他缓冲添加剂均允许和/或促进反应。在便利的温度(通常为4℃至50℃，例如室温或37℃)下孵育组装的反应长达反应进行到期望的延伸的底物分数和/或3’加尾程度所必需的时间。可以通过添加螯合剂(例如EDTA)或使RT热失活(例如65℃下5分钟)或(例如使用虾碱性磷酸酶，NEB)水解未使用的核苷酸底物来终止反应。产物可以直接通过3’加尾产生的信号被检测(例如，通过嵌入染料、吸光度或FRET)、被纯化以检测掺入的信号(例如，通过过滤结合或沉淀)、用于后续反应(例如，阵列杂交或RNA-seq)或被解析(例如，通过PAGE或色谱法)，或其他选择。

RNA可以是完整的或片段化的，在含有DNA或其他非RNA的组合物中嵌合的，也可以与RNA或DNA部分或完全形成双链体。以上方案用于3’OH的RNA末端；如果RNA的3’基团不是OH，则可以在3’加尾之前使用修复酶生成3’OH。例如，3’单磷酸酯或2’3’环状单磷酸被许多商业上可用的磷酸酶(例如T4 PNK)转化为3’OH。模板可以变性也可以不变性以去除二级结构。反应可以补充核酸结合蛋白或其他有助于RNA 3’末端进入酶活性位点的化合物。可以调节反应条件以调节持续性。酶活性位点突变可以提供额外的反应灵活性和范围，例如将对Mn²⁺的活性依赖性改变为对不同的二价阳离子的活性依赖性，或允许使用期望的核苷酸类似物。

结果

R2 RT和内含子RT均显示出能够延伸RNA底物的Mn²⁺刺激的末端转移酶活性(图4-6)。因为R2 RT C末端核酸内切酶结构域的活性位点催化非特异性单链核酸降解，其在含有Mn²⁺的缓冲液中尤为严重(图4A)，但该结构域实质上有助于高产量蛋白制备、溶液稳定性和纯化的蛋白活性(图1和2)，还额外修饰了N末端截短的R2 RT变体以消除核酸酶活性，这是通过核酸内切酶结构域活性位点的突变来实现的(参见SEQ ID NO:3、12和13)。

修饰的R2 RT和内含子RT对特定寡核苷酸和核苷酸底物的偏好不同。经工程改造以进一步调节末端转移酶活性的酶的该变体以及另外的变体拓宽了序列添加的不同特异性的可能范围。对于R2 RT和内含子RT，不同的dNTP或NTP或核苷酸组合促进3’延伸的不同的效率和长度。例如：dATP是首选用于由R2 RT或内含子RT生成长突出端的核苷酸，而对于短突出端生成，dTTP将是更好的选择(BomoC(ed)参见图4A，Eure反应参见图5)；在少于1mM的MgCl₂存在或不存在的情况下，通过添加单一ddNTP进行标记在含有1-2mM MnCl₂的反应中是有效的(图4B)；使用dATP进行双链RNA的R2 RT末端标记以产生长3’突出端，而短突出端合成在dGTP或dCTP中似乎是理想的(图6A)。尽管双链RNA 3’加尾在含Mg²⁺的缓冲液中发生的程度有限，但在含Mn²⁺的缓冲液中效率高得多(图6B)。含有Mn²⁺的反应的一个特征是缺乏在几乎没有同源性或没有同源性的单链RNA模板上的cDNA合成的不受控单链RNA引发，在仅含Mg²⁺的反应中的先前描述的全长R2 RT的“自引发”活性(Luan,Eickbush Mol CellBiol.1996 16(9):4726-34)产生异常的产物分子并耗尽完整的模板分子。在Mg²⁺缓冲液中与单链RNA、所有dNTP和R2 RT的反应有时从最初的非特异性引发事件产生产物条带，随后是通过额外的几轮连续模板复制进行的cDNA 3’延伸，但是该产物谱始终不同于Mn²⁺诱导的非逆转录病毒RT末端转移酶活性产物。

延伸RNA分子的3’末端的非逆转录病毒RT能力的一种有用的应用是在复杂混合物中向所有RNA分子添加一致的3’末端核苷酸，这可以促进不同的分子被结合RNA3’末端的酶(聚合酶、连接酶、核酸酶等)均等使用。该应用实现用于cDNA串联的连续模板复制的改进(参见实施例4)，还可以用于实施有序模板转换而不是半随机有序模板跳转来创建具有一致5’衔接子和3’衔接子序列的cDNA文库(参见实施例6-9)。另一个有用的应用将是将信号偶联的核苷酸添加到输入RNA库中以生成杂交探针，所述杂交探针例如可用于序列混合物的微阵列分析。

因为本文描述的作用于RNA底物的非逆转录病毒RT的之前未预料到的末端转移酶活性是真核和原核RT的共有特征，因此其他非逆转录病毒RT将有望显示该类型的活性，并可以替代本文所述的应用中使用的RT。酶融合可以例如通过使RT共价或非共价连接到(多种)单链或双链核酸结合结构域、起去除二级结构作用的酶或其他组分，提供对底物的额外的结合亲和力。

实施例3：通过Mn²⁺刺激的真核和细菌非LTR RT的末端转移酶活性进行的单链和/或双链体DNA 3’延伸

TdT目前是首选用于给单链DNA3’加尾的酶。但是，其通用性受到偏倚的限制。例如，TdT显示掺入dGTP、dCTP和dTTP的活性比掺入dATP高得多(Berdis等，Chembiochem.8(12):1399-408,2007)。随着对血浆、古DNA和其他来源中单链DNA存在的认识的提高，开发用于对该DNA的修饰和测序的其他工具变得越来越关键。本发明通过提供一种用于延伸DNA3’末端的末端转移酶来满足这一需求，该末端转移酶的特异性不同于TdT或其他显示末端转移酶活性的非RT-蛋白聚合酶。

方法

将要修饰的核酸底物在期望pH值(通常在pH 6至pH 9的范围内，例如20mM Tris-HCl pH 7.5)的适当缓冲液中与MnCl₂(通常在0.5至5mM的范围内，例如2mM)组合。添加意在用于延伸底物的(多个)3’OH基团的NTP、dNTP、ddNTP和/或核苷酸类似物(例如，dTTP+dCTP+dGTP+dATP+ddATP)。加入非逆转录病毒RT酶(例如R2 RT或内含子RT，通常终浓度为0.2-1微摩尔，例如0.5微摩尔)。除Mn²⁺的螯合剂(如EDTA)外，其他缓冲添加剂均允许和/或促进反应。在便利的温度(通常为4℃至50℃，例如室温或37℃)下孵育组装的反应长达反应进行到期望的延伸的底物分数和/或3’加尾程度所必需的时间。可以通过添加螯合剂(例如EDTA)或通过使RT热失活(例如65℃下5分钟)或通过(例如使用虾碱性磷酸酶，NEB)水解未使用的核苷酸底物来终止反应。产物可以直接通过3’加尾产生的信号被检测(例如，通过嵌入染料、吸光度或FRET)、被纯化以检测掺入的信号(例如，通过过滤结合或沉淀)、用于后续反应(例如，阵列杂交或RNA-seq)或被解析(例如，通过PAGE或色谱法)，或其他选择。

DNA可以是完整的或片段化的，在含有RNA或其他非DNA的组合物中嵌合的，也可以与RNA或DNA部分或完全形成双链体。以上方案用于3’OH的DNA末端；如果DNA的3’基团不是OH，则可以在3’加尾之前使用修复酶生成3’OH。例如，3’单磷酸酯或2’3’环状单磷酸被许多商业上可用的磷酸酶(例如T4 PNK)转化为3’OH。模板可以变性也可以不变性以去除二级结构。反应可以补充核酸结合蛋白或其他有助于DNA 3’末端进入酶活性位点的化合物。可以调节反应条件以调节持续性。酶活性位点突变可以提供额外的反应灵活性和范围，例如将对Mn²⁺的活性依赖性改变为对不同的二价阳离子的活性依赖性，或允许使用期望的核苷酸类似物。

结果

非逆转录病毒RT的持续性末端转移酶活性发生在含Mn²⁺但不含Mg²⁺的缓冲液中(BomoC(ed)参见图7A，Eure参见图8)。在Mg²⁺中，内含子RT可以向单链DNA3’末端添加1-3个dATP(图8)，但是却没有检测到R2RT的这种活性(图7A)。与单链DNA、所有dNTP和R2 RT或内含子RT的反应有时通过DNA3’末端与反应中另一种DNA分子的有限碱基配对而由DNA合成生成产物，但这些产物不同于非逆转录病毒RT末端转移酶活性的产物。修饰的R2 RT和内含子RT对特定寡核苷酸和核苷酸底物的偏好有所不同。经工程改造以进一步调节末端转移酶活性的酶的该变体以及其他变体拓宽了序列添加的不同特异性的可能范围。例如：dATP是首选用于双链体DNA持续性3’加尾的核苷酸(图6A)。dATP也是首选用于单链DNA上长突出端生成的核苷酸，而对于短突出端生成，dTTP是更好的选择(图7B)。

延伸DNA分子的3’末端的非逆转录病毒RT能力的一种有用的应用是在复杂混合物中向所有DNA分子添加一致的3’末端核苷酸，这可以促进不同的分子被结合DNA3’末端的酶(聚合酶、连接酶、核酸酶等)均等使用。该应用实现用于cDNA串联的连续模板复制的改进(参见实施例4)，还可以用于实现有序模板转换而不是半随机有序模板跳转来产生具有一致5’衔接子和3’衔接子序列的cDNA文库(参见实施例6-9)。另一个有用的应用将是将信号偶联的核苷酸添加到输入RNA库中以生成杂交探针，所述杂交探针例如可用于序列混合物的微阵列分析。

因为本文所述的非逆转录病毒RT的有效末端转移酶活性是真核和原核RT的共有特征，所以其他非逆转录病毒RT将有望表现出这种类型的活性并可以替代本文描述的应用中使用的RT。酶融合可以例如通过使RT共价或非共价连接到(多种)单链或双链核酸结合结构域、起去除二级结构作用的酶或其他组分，提供对底物的额外的结合亲和力。

实施例4：由均质或混合模板合成模板互补cDNA串联体

串联序列阵列在特别是DNA纳米技术和基因组工程的用途中具有应用(Endo等人，Current Protoc.Nucleic Acid Chem.2011Chapter 12:Unit12.8；Zhang等人.Plant J.70(2):357-365,2012)。它们在细胞中、在质粒或染色体上的构建和维持受到重组和修复介导的缺失和突变的限制。通常通过纯化的DNA连接酶产生这些阵列需要DNA的双链体片段，而通过PCR产生它们则需要序列重叠。一种合成上较便宜且序列约束较少的方法将使用无序列重叠的单链寡核苷酸DNA模板。同样，如果除DNA以外的RNA适合作为模板，则可能的模板的范围将增加，允许例如使用生物RNA物质或RNA聚合酶扩增来产生模板。通过重复模板复制进行的序列串联可用于将许多分子的序列捕获到相同衔接子位于侧翼的cDNA产物中，以用于诸如PCR或测序(例如Pacific Biosciences或Nanopore)的应用。本文提供了这些范围的改进和扩展以及其他。

方法

在期望pH(通常在pH 6至pH 9的范围内，例如20mM Tris-HCl pH 7.5)的合适缓冲液中稀释阵列引发的双链体引物。调整反应以具有引物双链体与模板的期望比例(例如，每种在45-1000nM范围内)、刺激期望数量的串联的单价离子浓度(例如在150-450mM KCl范围内)、MgCl₂(例如2mM)和酶稳定甘油(例如10％)和DTT(例如1-2mM)。添加NTP、dNTP和/或核苷酸类似物的三磷酸酯形式(例如，dTTP+dCTP+dGTP+dATP+氨基烯丙基dUTP的混合物)。加入非LTR RT酶(例如R2 RT，通常终浓度为0.1-1微摩尔，例如0.5微摩尔)。除许多二价离子螯合剂(如EDTA)外，其他缓冲添加剂均允许和/或促进反应。在便利的温度(通常为4℃至50℃，例如室温或37℃)下孵育组装的反应长达反应进行到期望的延伸的底物分数和/或cDNA合成长度所必需的时间。可以通过添加螯合剂(例如EDTA)或通过使RT热失活(例如65℃下5分钟)或通过(例如使用虾碱性磷酸酶，NEB)水解未使用的核苷酸底物来终止反应。产物可以直接通过3’加尾产生的信号被检测(例如，通过嵌入染料、吸光度或FRET)、被纯化以检测掺入的信号(例如，通过过滤结合或沉淀)、用于后续反应(例如，阵列杂交或RNA-seq)或被解析(例如，通过PAGE或色谱法)，或其他选择。

双链体起始引物可以被修饰，包括序列被修饰以共有与(多个)模板的互补性。如果具有未知序列的模板在cDNA合成之前(例如使用R2 RT的末端转移酶活性)用一个或几个核苷酸添加进行3’加尾，则3’加尾反应将产生分隔cDNA序列模块的间隔子。

结果

R2RT cDNA串联效率随cDNA合成反应中dNTP的浓度而变化(图9)。这些影响至少部分是通过在平末端引物或cDNA产物3’末端添加非模板化dNTP来确定的(图10，反应仅包含带有平末端或+1T 3’突出端的双链体引物，BomoC(ed)和dNTP；产物反映了非模板化核苷酸添加到引物3’末端)。添加到引物或cDNA产物3’末端的单核苷酸突出端有利于互补模板3’末端的使用，但抑制具有非互补3’末端的模板的使用(图11)。通常，双核苷酸突出端降低cDNA合成，而三个或更多个的核苷酸突出端则具有强抑制性。由于R2 RT优先使用几种dATP来进行平末端DNA末端的非模板化延伸，因此聚合酶反应的典型dATP浓度(例如250-500微摩尔)相对于dATP降低100倍的反应抑制R2 RT cDNA串联(图9，比较了具有250微摩尔dATP的泳道2、具有500微摩尔dATP的泳道3和具有2.5微摩尔dATP的泳道3和5-7中的cDNA产物)。除了dNTP浓度以外，R2 RT cDNA串联的效率还取决于要复制的(多个)模板的3’核苷酸。基于R2 RT有序模板转换cDNA文库的高通量测序结果，模板5’核苷酸也可以影响第一非模板化dNTP添加。此外，作为RNA和/或DNA的模板的性质影响cDNA串联：R2 RT可以以相似的效率使用RNA或DNA或杂交DNA-RNA模板，而内含子RT复制具有DNA 3’末端的模板效率较低(图3)。

为了有效的串联，可以根据模板3’末端选择的实验灵活性来组合多种非模板化添加控制策略。在2.5微摩尔dNTP+500微摩尔单一dNTP的反应条件下，具有单一模板的cDNA串联反应具有3’末端C>A>G的模板效率顺序和分别升高的dGTP、dTTP或dCTP(图9)。每种反应组分，包括盐，都影响该偏好，但设计的一般原则包括使用低于典型RT反应浓度的dATP(例如，最大100微摩尔)。

实施例5：不可逆或可逆cDNA合成终止

用于RNA-seq和其他应用的cDNA文库需要不同的5’和3’衔接子序列操作，在混合到cDNA合成反应中的可能模板中的随机跳跃顺序不提供所述不同的5’和3’衔接子序列操作。而且，在衔接子之间包含一个以上模板的cDNA排除了关键结论，例如致癌染色体易位断点的位置，其中假阳性融合是当前使用逆转录病毒RT的RNA-seq方法的主要人工产物(artifact)(Panagopoulos等.Int J Biochem Cell Biol.53:462-5,2014)。为了控制模板的使用顺序和串联中复制的模板数量，将希望在复制3’cDNA文库衔接子序列后终止cDNA合成。本文描述了用于这种改进的方法。

方法1

通过使用具有5’主链修饰或延伸的cDNA 3’衔接子模板可以在不去除模板的情况下实现不可逆的终止，所述模板实现完整的模板复制，但不允许另外的模板分子的产生延伸的结合。合成了具有体积大或其他破坏性修饰的cDNA3’衔接子模板，其可以是主链的延伸(例如，添加5’生物素、Cy3或Cy5或其他大基团)或足够长的主链修饰或延伸，所述主链修饰或延伸由除磷酸二酯以外的连接(例如LNA或PNA)或无碱基的连续磷酸二酯或磷酸二酯样主链(几个串联的无碱基位点)组成。除了这些共价连接的修饰以外，非共价连接的修饰，例如紧密结合的蛋白屏障或其他障碍物，也可以防止另外的模板衔接。

方法2

连续模板使用也可以被5’主链延伸阻断，所述5’主链延伸通过非酶促切割有条件地去除，例如在生物素基团和寡核苷酸之间具有300-350nm辐照的光可切割间隔子的PC生物素(IDT)。供选择地，酶促5’腺苷酰化(AMP的连接)(Lama等人，RNA.22(1):155-61,2016)创建了高效的串联模板使用阻断物(block)，并且这种修饰可以被具有寡核苷酸焦磷酸酶活性的酶，例如RppH去除。

结果

一些候选阻断基团减弱了串联模板使用，而另一些则消除了串联模板使用(图12)。可以将一些阻断基团(例如5’腺苷酰化)添加到生物以及合成衔接子模板中。准备好可逆的终止实现通过添加模板和去除过量模板来进行连续轮次的cDNA延伸组合；这样的重复组合条形编码化将实现混合分子库的更多多路复用并且可以设想为空间转录组学提供更高的分辨率(Moor等人，Curr Opin Biotechnol.46:126-133，2017)。

实施例6：通过有序模板转换进行的单一反应双衔接子标记的cDNA合成

对于许多应用而言，最有效的cDNA文库合成将在同一反应中将5’和3’衔接子二者添加到逆转录模板互补序列中，而不依赖用户纯化或对反应中间体的其他处理。此外，与以半随机顺序互换添加这些衔接子而不区分在反应池中的模板不同(图13A)，有利的是实施将5’和3’衔接子放置在cDNA的任一侧的模板使用顺序，并在保留有关cDNA的哪个末端是模板5’或3’末端的信息的情况下这样实施(图13B)。本文描述了用于该改进的方法(图13B)，所述方法也可以被其他应用采用。

方法

为了增强用于将5’和3’衔接子融合到cDNA的第一和第二模板转换步骤的不同特异性，第一步和第二步引物与模板3’末端具有不同的属性(图13B)。这需要这样一种策略，即用于以与模板互补cDNA产物3’末端相同的方式限制RT识别5’衔接子引物3’末端。幸运的是，在R2 RT而不是内含子RT的情况下，引物+1嘧啶突出端抑制了对以另外的方式观察到的3-4个核苷酸突出端的额外的3’延伸(图10)。该特征使起始引物3’末端与cDNA的3’末端不同，所述cDNA的3’末端将遵守非模板化dNTP添加的平末端引物3’末端规则。具有嘌呤核苷酸3’末端(例如A)的模板将优先于缺少所述引物的同源3’末端+1T的任何其他可能的模板分子被复制，所述嘌呤核苷酸3’末端与具有嘧啶核苷酸(例如T)的同源+1突出端的cDNA5’衔接子引物同源(图13B)。但是，由于非模板化核苷酸添加非常倾向于与嘌呤核苷酸掺入一起发生(图9和10)，因此模板互补cDNA 3’末端将无法与来自3’-嘌呤模板库中的另一个分子衔接(图13B)。相反，如果反应中还存在具有3’嘧啶(例如C)的cDNA3’衔接子模板，则其将用于模板转换的第二步(图13B)。

模板转换的第二步的效率可以通过抑制cDNA中间体的非制备性3’加尾来操控，例如采用dNTP浓度变化或dNTP类似物来操控。同样，可以通过增加衔接子模板的局部浓度来操控效率，例如采用液滴技术或表面固定来操控。此外，可以设想例如使用dNTP类似物来实施第一模板转换步骤相对于第二模板转换步骤的不同特异性的其他原理。例如，可以使用采用高浓度的iso-dG的非模板化添加反应对模板库进行3’延伸，所述高浓度的iso-dG在模板同源dNTP的存在下不会掺入到cDNA中，但可以用于向cDNA 3’突出端的非模板化核苷酸添加；iso-dG将优先与iso-dC配对，所述iso-dC可以唯一地处在3’衔接子模板的3’末端。当仅与容错配的聚合酶(例如R2 RT)和经典dNTP一起使用时，这些非经典核苷酸将缺乏模板保真度，但这很容易在序列分析中得到解决。

结果

有序模板转换实现cDNA合成的期望特异性。因为具有3’嘧啶的cDNA 3’衔接子模板不被cDNA5’衔接子引物+1嘧啶衔接，所以衔接子二聚体最小，特别是在具有与所述引物+1突出端核苷酸同源的3’核苷酸的模板库的存在下(图12，比较了来自缺少衔接子模板的反应的产物(泳道4、9)与来自包含衔接子模板的反应的产物(泳道5-8、10-13))。在添加单一cDNA 3’衔接子序列后，衔接子模板上的5’阻断基团停止连续模板复制(图12，比较了来自缺少衔接子模板阻断物的反应的产物(泳道5-6和10-11)与来自包含衔接子模板5’阻断物的反应的产物(泳道7-8和12-13))。

实施例7：通过模板3’末端修饰来抑制模板损失和cDNA合成反应副产物

R2 RT制备即使在没有RNA引物和模板的互补性的情况下，也显示出使用单链RNA作为cDNA合成的引物的能力(Luan等人.Mol.Cell Biol.16(9):4726-4734,1996；Bibillo等人.J.Mol.Biol.316(3):459-479,2002)。这导致大量的模板用作复制另一个模板分子的引物，产生不希望的双链体反应产物，包括有义-反义模板融合，和/或由于被RT识别为模板而耗尽模板3’末端。理想地，对预期的模板库3’末端的修饰应排除作为引物的破坏性模板使用，同时保留将分子被识别为由预期双链体引物合成cDNA的模板或产物DNA 3’末端的能力。本文提供了对RNA和DNA模板二者的该改进。

方法1：通过ddNTP的R2或内含子RT添加进行的模板3’延伸

将待修饰的核酸底物与MnCl₂(通常在0.5至0.5mM的范围内，例如2mM)在期望pH值的合适缓冲液(通常在pH 6至pH 9的范围内，例如20mM Tris-HCl pH 7.5)中组合。添加待用于延伸底物的(多个)3’OH基团的(多种)ddNTP+/-(多种)dNTP(例如，dTTP+dCTP+dGTP+dATP+ddATP或仅ddATP或仅ddGTP)。加入非逆转录病毒RT酶(例如R2 RT或内含子RT，通常到0.2-1微摩尔，例如0.5微摩尔的终浓度)。除Mn²⁺的螯合剂(如EDTA)外，其他缓冲添加剂均允许和/或促进反应。在便利的温度(通常为4℃至50℃，例如室温或37℃)下孵育组装的反应长达反应进行到期望的获得3’H而不是3’OH的底物分数所必需的时间。可以通过添加螯合剂(例如EDTA)或使RT热失活(例如65℃下5分钟)或(例如使用虾碱性磷酸酶，NEB)水解未使用的核苷酸底物来终止反应。

方法2：通过ddNTP的TdT添加进行的DNA模板3’延伸

将待修饰的核酸底物与合适的二价阳离子MgCl₂和/或MnCl₂(通常在1-5mM的范围内，例如2mM)在期望pH值的合适缓冲液(通常在pH 6到pH 9的范围内，例如20mM Tris-HClpH 7.5)中组合。添加用于延伸底物的(多个)3’OH基团的(多种)ddNTP+/-(多种)dNTP或(多种)NTP(例如，ddATP+/-dATP或ddGTP+/-dGTP或ATP+ddATP或其他组合；TdT可以掺入有限数量的核糖核苷酸)。以制造商建议的稀释度添加TdT。在便利的温度(通常为37℃)下孵育反应长达底物获得3’H而不是3’OH所必需的时间。可以通过添加螯合剂(例如EDTA)或使TdT热失活(例如75℃下20分钟)或(例如使用虾碱性磷酸酶，NEB)水解未使用的核苷酸底物来终止反应。

结果

具有3'末端双脱氧核苷酸的模板可以通过模板转换被有效地识别用于启动。由于这些模板缺少可延伸的3’OH基团，因此在PAGE变性后，通过SYBR Gold染色直接检测到的R2RT反应产物(图14A和图14B)缺乏大量非特异性反应产物，原本所述非特异性反应产物将主导含有长度多于数十个碱基对的模板的反应。这些非特异性反应产物对于使用衔接子序列寡核苷酸通过PCR间接测定的反应而言是很大程度上不可见的；只有解析和直接检测反应产物，而不是通过PCR检测反应产物，才揭示出3’双脱氧核苷酸加尾模板的使用对于cDNA合成的全面改善。特别地，当cDNA5’衔接子引物是单独的Illumina读数2序列的～35nt互补序列(图14A)或由P7的互补序列、条形码i7和读数2组成的全长～70nt Illumina NGS衔接子(图14B)时，可以有效地使用ddA模板。在采用这些5’衔接子引物中的每一个的情况下，使用以下几种3’衔接子模板中的任一个通过第二模板转换步骤将ddA模板转换为全长cDNA文库：随机序列(最佳)，具有Illumina读数1的～35nt通用3’衔接子模板，或由P5、条形码i5和读数1组成的～70nt全长Illumina NGS衔接子(图14A和图14B)。包括衔接子二聚体在内的副产物的产生是最小的(图14A和14B)。

实施例8：无分离或固定步骤的在单一容器中无PCR的下一代测序(NGS)cDNA文库制备

使用例如市场上主要的Illumina平台进行用于NGS测序的cDNA文库的最有效合成，将在同一反应中将5’和3’衔接子二者添加到逆转录序列中，而不依赖用户对中间产品的纯化或其他处理。此外，理想的将是使用一种这样的方法，其可以在没有样品处理、经过时间、动手时间、非定量表示以及对PCR步骤的要求施加的其他障碍的情况下生成文库。本文提供了用于该改进的方法以及其他应用。cDNA合成的某些应用将受益于双链DNA产物，所述双链DNA产物是由初始cDNA合成和初始cDNA互补序列的第二条链合成产生的。例如，双链产物用作模板有义链和反义链二者杂交的靶点。作为另一个实例，可以使用T4 DNA连接酶和其他常见策略将双链产物克隆到质粒载体中。本文提供了用于该改进的方法。

方法

cDNA合成

在无菌水中稀释输入模板。应该对双链DNA或RNA进行热变性，以生成3’单链区域。方案放大为最终体积20μL，典型输入～1皮摩尔3’末端。如果模板是3’PO₄，则从STEP1开始。以37℃给出的反应温度是在大范围的可能的供选择方案(通常为4℃至50℃)内的示例温度。

步骤1(产生3’OH)向7.5μL样品中添加3μL输入稀释缓冲液(4X)。加入1μL缓冲液A1(12X)和0.5μL T4 PNK(NEB，预先稀释为3体积的水：1体积的酶储备液)。在37℃下孵育～10分钟。在65℃下孵育～20分钟。

如果跳过步骤1：将输入稀释至12μL。加入1.4μL缓冲液B2a(10X)和0.7μL缓冲液B1b(20X)。添加B缓冲液后，继续至步骤2。

步骤2(3’尾模板)添加0.7μL缓冲液B1a(20X)。加入0.7μL缓冲液B1b(20X)。加入1μL修饰的R2 RT。在37℃下孵育～20分钟。在65℃下孵育～5分钟。加入1μL缓冲液C(16X)和0.5μL rSAP。在37℃下孵育～15分钟。加入1μL缓冲液D(下一步需要20X)。在65℃下孵育～5分钟。

步骤3(cDNA合成)。加入1μL cDNA预混物(prep mix)(20X)。加入1μL cDNA起始混合物(start mix)(20X)。加入1μL修饰的R2 RT。在37℃下孵育～20分钟。在65℃下孵育～5分钟。

试剂清单(每种储存在-20℃下)：

输入稀释缓冲液(4X)：80mM Bis-Tris(pH 6.0)。

缓冲液A1(12X)：120mM Bis-Tris(pH 6.0)，12mM MgCl₂，12mM DTT

缓冲液B1a(20X)：0.4M Tris-HCl(pH 7.5)，0.4M KOH，3M KCl

缓冲液B1b(20X)：40mM MnCl₂，10mM ddATP

缓冲液B2a(10X)：0.2M Tris-HCl(pH 7.5)，1.5M KCl，10mM DTT

缓冲液C(16X)：80mM MgCl₂

缓冲液D(20X)：100mM EGTA

cDNA预混物(20X)：10mM MgCl₂，900mM KCl，40％ PEG-6000

cDNA起始混合物：将等体积的以下物质组合，以制备20X起始混合物

40X“cDNA起始混合物”核苷酸：20mM每种dGTP/dTTP/dCTP，4mM dATP

40X寡核苷酸“cDNA起始混合物”库

寡核苷酸制备(例如，通过从IDT订购以下物质进行合成)：

对于每一种，无PCR工作流程使用～70nt的衔接子引物和退火至～30nt互补链的衔接子模板：每种部分双链体的终浓度为90nM。标引带有下划线；这些是可变条形码。

衔接子引物部分双链体包含：

c5p(FL)：

5'-CAAGCAGAAGACGGCATACGAGATGACGAGAGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3'(SEQ ID NO:15)

c5pt：

5'rGrArUrCrGrGrArArGrArGrCrArCrArCrGrUrCrUrGrArArCrUrCrCrArGrU/3SpC3/-3'(SEQ ID NO:16)

衔接子模板部分双链体包含：

c3t(FL)：

5'-/5AmMC6/AArUrGrArUACGGCGACrCrArCrCGAGATCTArCrArCrCGCAGACGArCrArCrUCTTTCCCTrArCrArCGACGCTCTrUrCrCrGrArUrCrUrC-3'(SEQ ID NO:17)

c3t_comp：

5'/c/rGrUrGrUrArGrArUrCrUrCrGrGrUrGrGrUrCrGrCrCrGrUrArUrCrArUrU/3SpC3/-3'(SEQ ID NO:18)

(ii)延续到双链cDNA的任选的cDNA合成

方法1

用至少RNA酶H2(为单一核糖核苷酸形成5’切口，以在本申请中留下DNA3’OH)、有或没有另外的RNA酶H1(4个核糖核苷酸的第1个至第2个之间的切口，其在本申请中留下RNA3’OH)和R2 RT或另一种DNA聚合酶或RT补充双末端cDNA衔接子添加反应产物。对于该方法，cDNA 3’衔接子模板5’末端应为DNA，以在RNA酶H处理后与cDNA产物保持关联。如果未除去cDNA模板和/或其他5’衔接子引物互补区域或3’衔接子模板(例如，如果它们是DNA)，则添加的DNA聚合酶或RT应具有链置换活性。

方法2

用核酸酶补充双末端cDNA衔接子添加反应产物，或另外例如通过热，在cDNA 3’衔接子模板的至少5’末端区域中解离模板和cDNA链。添加用于第二链合成的引物和DNA聚合酶或RT。如果未除去cDNA模板和/或5’衔接子引物互补区域或3’衔接子模板，则添加的DNA聚合酶或RT应具有链置换活性。

(iii)方法的另外供选择方案和延续

根据应用，可以仅部分地执行工作流程。样品可以在工作流程中合并或拆分。该方法之前可以是在相同或不同的容器中进行RNA或DNA片段化。模板可以变性也可以不变性以去除二级结构。反应可以补充核酸结合蛋白或其他有助于模板结合到酶活性位点或3’末端进入酶活性位点的化合物。可以调节反应条件以调节持续性。在模板3’延伸步骤中，可以为修饰的R2 RT补充另一个非逆转录病毒RT，以扩大模板延伸的效率。酶融合可以例如通过使RT共价或非共价连接到(多个)单链或双链核酸结合结构域、起去除二级结构作用的酶或其他，提供对底物的额外的结合亲和力。可以通过PCR或其他技术扩增产物以增加产物的量，或增加或减少或修饰序列，例如用于使用生物素和/或寡核苷酸中的其他亲和配体固定或亲和纯化cDNA产物。

结果

这产生了单链cDNA文库，其将结合流动池中的P5寡核苷酸(图15A)。通过对常用的963个混合miRNA(miRXplore)的商业标准品进行测序的基准测试表明，可在单一管反应工作流程中在少于2小时内制备准备好测序的cDNA文库，然后引入Illumina NGS流通池中，而无PCR以及无耗尽或尺寸选择以去除用于制备miRNA文库的其他方案中生成的不希望的副产物。通过变性PAGE和SYBR Gold染色对反应产物的分析(图15B)表明，相对于主要的cDNA文库(标记为“cDNA+衔接子模板”)和由仅复制miRNA模板产生的一些cDNA产物(标记为“cDNA”)，几乎检测不到包含衔接子二聚体的副产物的产生。对963个miRNA中的每个的读取计数的定量表明，在不到一百万个绘制的读取中捕获了963个miRNA的整个清单(图16B；X轴值是来自不到一百万个绘制的读取的无PCR文库的log2标度读取计数，并且表观零值具有非零值)。

模板链核酸可以例如通过热变性、碱基水解或核酸酶降解而释放或去除，用于受益于cDNA产物的单链性质的应用。对于某些应用，将例如使用RNA酶H和/或RNA酶A，从游离和/或结合RNA中纯化cDNA。对于某些应用，将例如使用沉淀、核酸结合载体、电泳或其他方法，从其他反应组分中纯化cDNA。对于某些应用，cDNA将被转换为双链体DNA。对于某些应用，例如，将通过示差沉淀、与载体结合或用载体分配、电泳或其他方法，纯化cDNA以富集特定尺寸范围。

用最少的额外样品处理或经过时间，可以将有序模板转换生成的单链cDNA转换为双链产物。有序模板转换3’衔接子模板的组成设计的灵活性为第二链合成提供了许多机会。

实施例9：无分配或固定步骤的在单一容器中NGS cDNA文库的PCR标引

使用例如市场上主要的Illumina平台进行用于NGS测序的cDNA文库的最有效合成，将在同一反应中将5’和3’衔接子二者添加到逆转录模板互补序列中，而不依赖于用户对中间产品的纯化或其他处理。通常的实践是使用短侧翼衔接子生成cDNA文库，然后在cDNA库组合测序之前使用标引PCR引物区分cDNA库(Park YS，Kim S，Park DG，Kim DH，YoonKW，Shin W和Han K.Genes Genomics.Epub,Jul 26 2019)。该策略减少了所需的任何单个合成寡核苷酸的最大长度。本文的发明为在RT反应后采用PCR反应进行cDNA文库构建的策略提供了方法。

方法

遵循以上实施例8中所述的方案，不同的是使用不同的寡核苷酸并增加最终的PCR步骤。PCR标引工作流程在RT反应中最好使用～35nt寡核苷酸：每种寡核苷酸的终浓度为180nM。标引带有下划线；这些是可变条形码。

衔接子引物双链体包含：

c5p(uni)：5'-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCC-3'(SEQ ID NO:19)

c5pt：

5'rGrArUrCrGrGrArArGrArGrCrArCrArCrGrUrCrUrGrArArCrUrCrCrArGrU/3SpC3/-3'(SEQ ID NO:20)

衔接子模板是：

c3t(uni)：

5'-/5Phos/ACACTCTTTCCCTACACGACGCTCTTCCrGrArUrCrUrC-3'(SEQ ID NO:21)

PCR步骤与标准Illumina文库生成PCR反应平行。采用热稳定的DNA聚合酶(例如Q5)使用作为模板的cDNA文库和以下引物的PCR(例如4-8个98℃20秒/65℃20秒/72℃5秒的循环)将添加P5和P7衔接子。

P7:5’-CAAGCAGAAGACGGCATACGAGATTCGATCCAGTGACTGGAGTTCAGACGTG-3'(SEQ IDNO:22)

P5:5'-AATGATACGGCGACCACCGAGATCTACACCGCAGACGACACTCTTTCCCTACACGAC-3'(SEQ ID NO:23)

结果

该方法产生双链cDNA文库(图16A)。通过对常用的963个混合miRNA(miRXplore)的商业标准品进行测序的基准测试表明可以在2-3小时内制备准备好测序的cDNA文库。在无PCR文库(X轴值，单链文库)和低循环PCR文库(Y轴值，双链文库)中分别比较963个miRNA中的每一个的读取计数显示出相似的性能，其中两种该方法在不到一百万个绘制的读取中捕获了963个miRNA的全部清单(图16B)。完全一致将使每个点处于通过实际数据拟合的直线上。低PCR和无PCR之间的一致性(图16B)与低PCR的两次重复之间的一致性相当，但小于无PCR的两次重复的一致性。基于对存放于交叉比较研究的序列读数的平行分析，与使用4种商业miRNA或小型RNA测序试剂盒中的任何一种相比，无PCR或低循环PCR有序模板转换方案提供了更大或相等数量的识别的miRNA，并且在整个测序的miRNA中读取计数的变异系数更低(Coenen-Stass等人.RNA Biology 15(8)1133-45 2018)。

对于某些应用，cDNA将在PCR之前富集；这可能涉及从模板中分离DNA，去除dNTP和寡核苷酸，浓缩或尺寸分级等。对于某些应用，将例如使用沉淀、核酸结合载体、电泳或其他方法从其他反应组分中纯化DNA。对于某些应用，将例如通过示差沉淀、与载体结合或用载体分配、电泳或其他方法纯化DNA，以富集特定的尺寸范围。

其他实施方案

尽管出于清楚理解的目的已经通过说明和实施例的方式相当详细地描述了前述发明，但是所述描述和实施例不应解释为限制本发明的范围。本文引用的所有专利和科学文献的公开内容明确地以全文通过引用并入。

Claims

1.一种制备互补DNA(cDNA)分子的方法，其包括：

提供包含引物链和非延伸链的引物双链体，其中所述引物链的3’末端包含+1个嘧啶核苷酸突出端；

提供在其3’末端包含嘌呤核苷酸的RNA模板；和

在包含镁离子和一种或多种dNTP或其类似物的缓冲液中使所述引物双链体和RNA模板与RT接触，其中所述接触在有效产生与所述RNA模板基本上互补的cDNA分子的条件下进行。

2.权利要求1所述的方法，其中所述引物链是DNA引物链。

3.权利要求1或2所述的方法，其中所述引物链包含5’突出端。

4.权利要求1-3中任一项所述的方法，其中所述引物链的5’末端或内部位点包含修饰，其中，任选地，所述修饰实现所述引物链或所述引物双链体的固定或纯化，其中，任选地，所述修饰是与生物素的连接。

5.权利要求1-4中任一项所述的方法，其中所述引物链是5’衔接子序列。

6.权利要求1-5中任一项所述的方法，其中所述非延伸链包含DNA、RNA、杂交DNA和RNA、或其修饰形式。

7.权利要求1-6中任一项所述的方法，其中所述非延伸链的3’末端包含修饰，其中，任选地，所述修饰阻断3’延伸，其中，任选地，所述修饰是3’C3间隔子或3’单磷酸酯。

8.权利要求1-7中任一项所述的方法，其中所述RNA模板是通过使单链或部分单链核酸的3’末端延伸至少一个核苷酸的方法制备的，所述方法包括在包含锰离子的缓冲液中使所述单链或部分单链核酸与具有核苷酸聚合酶活性的非逆转录病毒逆转录酶(RT)蛋白接触，其中，任选地，

(i)所述单链或部分单链核酸是RNA，并且，任选地，所述接触在RNA连接酶或聚腺苷RNA聚合酶、聚尿苷RNA聚合酶或任何其他非RT蛋白不存在的情况下进行；

和/或

(ii)所述RT蛋白实现所述核酸的3末端非模板化延伸至少一个核苷酸；

和/或

(iii)所述非逆转录病毒RT蛋白是真核非长末端重复序列逆转录酶(非LTR RT蛋白)或原核或细胞器内含子RT蛋白。

9.权利要求1-8中任一项所述的方法，其中所述引物双链体是通过使A型核酸双链体的3’末端延伸至少一个核苷酸的方法制备的，所述方法包括在包含锰离子的缓冲液中使所述A型核酸双链体与具有核苷酸聚合酶活性的非逆转录病毒RT蛋白接触，其中，任选地，

(i)所述A型核酸双链体是RNA-RNA核酸双链体、部分RNA-RNA核酸双链体、或其修饰形式，任选地，所述RNA-RNA核酸双链体、部分RNA-RNA核酸双链体、或其修饰形式的一个或两个末端是平末端或包含单核苷酸或其他短3’突出端；或者

(ii)所述A型核酸双链体是RNA-DNA核酸双链体、部分RNA-DNA核酸双链体、或其修饰形式，任选地，所述RNA-DNA核酸双链体、部分RNA-DNA核酸双链体、或其修饰形式的一个或两个末端是平末端或包含单核苷酸或其他短3’突出端；和/或

(iii)所述非逆转录病毒RT蛋白是真核非长末端重复序列逆转录酶(非LTR RT)蛋白或原核或细胞器内含子RT蛋白。

10.权利要求1-9中任一项所述的方法，其中所述RT是真核非LTR RT蛋白，其中，任选地

(i)所述真核非LTR RT蛋白是R2 RT蛋白，任选地，所述R2 RT蛋白是家蚕R2 RT蛋白；

或者

(ii)所述真核非LTR RT蛋白是包含截短的N末端区域、RNA结合结构域、RT结构域和核酸内切酶结构域的真核非长末端重复序列逆转录酶(非LTR RT)蛋白，其中所述核酸内切酶结构域包含消除核酸内切酶功能的突变，其中，任选地，

-所述真核非LTR RT蛋白是R2逆转录因子RT(R2 RT)蛋白；

和/或

-所述截短的N末端区域导致与相应的全长非LTR RT蛋白相比，从非LTR RT蛋白的N末端缺失69至303个氨基酸，任选地导致缺失69至274个氨基酸，任选地导致缺失274个氨基酸；或

-所述截短的N末端区域导致全部或部分的序列特异性DNA结合结构域缺失；和/或

-所述截短的N末端区域导致全部的序列特异性DNA结合结构域缺失，任选地，所述截短的N末端区域导致与相应的全长非LTR RT蛋白相比，从非LTR RT蛋白的N末端缺失274至303个氨基酸；和/或

-所述真核非LTR RT蛋白不包含序列特异性DNA结合结构域；

和/或

(iii)所述真核非LTR RT蛋白源自节肢动物，优选地，所述节肢动物是家蚕，更优选地，所述真核非LTR RT蛋白是家蚕R2 RT蛋白；其中，任选地，

-所述消除核酸内切酶功能的突变是全长家蚕R2 RT蛋白(SEQ ID NO:1)的氨基酸残基D996、D1009或K1026处的置换突变，其中，任选地，

-所述置换突变在氨基酸残基D996处；和/或

-氨基酸残基D996被除Glu(E)以外的任何氨基酸置换；和/或

-所述置换突变是D996A突变；

或

-所述置换突变在氨基酸残基D1009处；和/或

-氨基酸残基D1009被除Glu(E)以外的任何氨基酸置换；

和/或

-所述置换突变是D1009A突变；

或

-所述置换突变在氨基酸残基K1026处；和/或

-所述置换突变是K1026A、K1026D或K1026E突变；和/或

-所述置换突变是K1026A突变；

或者

-所述消除核酸内切酶功能的突变是在氨基酸残基K1026和K1029处的置换突变，其中，任选地，所述置换突变是K1026A和K1029A突变；

和/或

(iv)所述真核非LTR RT蛋白还包含稳定蛋白和/或纯化标签，其中，任选地，所述稳定蛋白和/或纯化标签连接到所述真核非LTR RT蛋白的N末端或C末端；

和/或

(v)所述真核非LTR RT蛋白基本上不含核酸污染物；

和/或

(vi)所述真核非LTR RT蛋白包含SEQ ID NO:2或SEQ ID NO:3或SEQ ID NO:10的氨基酸序列。

11.权利要求1-9中任一项所述的方法，其中所述非逆转录病毒RT蛋白是原核或细胞器内含子RT蛋白，任选地，所述原核或细胞器内含子RT是直肠真杆菌II组内含子RT蛋白。

12.权利要求1-11中任一项所述的方法，其中所述RNA模板在其3’末端包含嘌呤dNTP、NTP、ddNTP、或核苷酸类似物。

13.权利要求1-12中任一项所述的方法，其中所述RNA模板的5’末端包含修饰，其中，任选地，

(i)所述修饰是不可逆修饰，任选地，所述不可逆修饰是5’C6间隔子或生物素；或者

(ii)所述修饰是可逆修饰，任选地，所述可逆修饰是5’腺苷酰化。

14.权利要求1-13中任一项所述的方法，其中所述接触在第二模板的存在下进行，其中所述第二模板在其3’末端包含嘧啶核苷酸，其中，任选地，

(i)所述第二模板包含DNA、RNA、杂交DNA和RNA、或其修饰形式，任选地，所述第二模板在其3’末端包含嘧啶核糖核苷酸；和/或

(ii)所述第二模板是3’衔接子序列的互补序列，任选地，所述接触在有效产生包含所述5’衔接子序列、与所述RNA模板基本上互补的序列和所述3’衔接子序列的cDNA分子的条件下进行；和/或

(iii)所述第二模板的5’末端包含修饰，其中，任选地，

-所述修饰是不可逆修饰，任选地，所述不可逆修饰是5’C6间隔子或生物素；或

-所述修饰是可逆修饰，任选地，所述可逆修饰是5’腺苷酰化。

15.权利要求1-14中任一项所述的方法，其中

(i)所述接触在约4℃至约50℃的温度下进行，任选地，所述接触在约37℃的温度下进行；和/或

(ii)所述缓冲液包含一种或多种核糖核苷三磷酸(NTP)、脱氧核糖核苷三磷酸(dNTP)或二脱氧核糖核苷三磷酸(ddNTP)、或其核苷酸类似物；和/或

(iii)所述方法在单一容器中进行。