CN105143525A

CN105143525A - 用于生成成链rna或dna文库的方法、组合物和试剂盒

Info

Publication number: CN105143525A
Application number: CN201480016197.6A
Authority: CN
Inventors: 努里斯·库恩; 李斌
Original assignee: Nugen Technologies Inc
Current assignee: Nugen Technologies Inc
Priority date: 2013-03-15
Filing date: 2014-03-12
Publication date: 2015-12-09
Also published as: SG11201507136SA; CA2903125A1; EP2971289A1; WO2014150931A1; US20140274729A1; JP2016511007A

Abstract

本发明提供了用于构建定向核酸文库的方法和组合物，包括试剂盒。本发明还提供了用于对定向cDNA文库进行扩增和测序的方法和组合物。

Description

用于生成成链RNA或DNA文库的方法、组合物和试剂盒

交叉引用

本申请要求2013年3月15日提交的美国临时申请号61/801,510的权益，还要求2013年9月18日提交的美国申请序列号14/030,761的权益，这些申请通过引用全文并入本文。

发明背景

近年来大规模并行测序技术的快速发展已经使得全基因组和全转录组测序和分析成为可能，从而为功能基因组学打开了新的途径。这些新一代测序方法之一涉及对由信使和结构RNA产生的互补DNA(cDNA)的直接测序(RNA-Seq)。RNA-Seq可以提供超越传统测序方法的几个关键优势。RNA-Seq可以允许对所有表达的编码和非编码转录物进行高分辨率研究，从而注释出各转录物的5’和3’末端以及剪接点，对每个细胞中的转录物的相对数目进行定量可以提供一条通过测量每种剪接变体的水平来测量和表征RNA剪接的途径。类似地，大规模并行测序技术能够使得以高分辨率进行全基因组测序或多重靶向基因组序列的测序成为可能。

进行标准RNA-Seq的一个潜在缺点是缺乏有关转录方向的信息。为了RNA-Seq而构建的标准cDNA文库由随机引物双链cDNA组成。在测序之前含有通用引发位点的衔接子的非定向连接可以导致丢失了有关在原始RNA模板中存在哪条链的信息。虽然在一些情况下可以通过后续分析，例如通过使用编码蛋白质的转录物中的开放阅读框(ORF)信息，或者通过评估真核生物基因组中的剪接位点信息来推测链信息，但是关于起源链的直接信息可能是所期望的。例如，为了指定非编码RNA的有义链，以及在解析重叠的转录物时，可以使用有关在原始RNA样品中存在哪条链的直接信息。

最近已经针对链特异性RNA-Seq开发了几种方法。这些方法可分成两大类。第一类可以利用相对于RNA转录物的5’和3’末端处于已知方向的不同衔接子。最终结果可以是cDNA文库，其中原始RNA的5’和3’末端的侧翼为两个不同的衔接子。该方法的缺点可能是只有克隆的分子的末端保留了方向信息。对于长克隆的链特异性操作而言，这种情况可能会存在问题，并且当存在片段化时可能导致方向信息的丢失。

第二类链特异性RNA-Seq方法可以标记原始RNA(例如，通过亚硫酸氢盐处理)或转录的cDNA(例如，通过修饰的核苷酸的掺入)的一条链，随后使未标记的链降解。通过亚硫酸氢盐处理对RNA的链标记可能是劳动密集的，并且可能需要将测序读取值(reads)与在两条链之一上所有胞嘧啶碱基均已转换为胸腺嘧啶的参照基因组进行比对。由于亚硫酸氢盐处理过程中的碱基转换效率可能是不完美的，即小于100％，可使得该分析更加复杂。

通过对cDNA的第二链进行修饰的链标记已经成为定向cDNA克隆和测序的优选方法(参见，例如，Levin等人,2010)。然而，cDNA第二链标记方法，当使用采用双链体衔接子的常规平端连接和cDNA文库构建策略(其中由两个单独的衔接子引入两个通用测序位点)时，可能不足以保留方向性信息。

当前定向转录组或基因组测序的主要缺点可能是需要生成所需输入链的第一和第二链拷贝，或RNA转录物，以在定向或非定向衔接子的片段化和附接前生成dsDNA，以至于随机第二链合成可以将未知的失真引入所需文库并增加测序文库生成的复杂性。

需要针对用于转录组或基因组测序的定向cDNA文库的改善和简化方法。本文描述的方法、组合物和试剂盒可以满足此需要。

本文提供了用于从RNA和dsDNA生成定向测序文库的方法、组合物和试剂盒。所述方法、组合物和试剂盒可以用于生成全转录组、全基因组、靶向或选择的转录物的定向文库，并且还可以应用于生成非定向全基因组测序文库。

发明内容

在一个方面中，本文提供的方法是合成以确定密度包含非规范核苷酸的互补DNA链，以使得使用可以将非规范核苷酸的碱基部分裂解以生成脱碱基位点的酶将cDNA片段化成所需大小范围并通过酶或化学或温热(例如，加热)手段在脱碱基位点进一步裂解骨架成为可能。产生的DNA片段可以包含封端的3’-末端。在脱碱基位点的酶裂解可以产生5’-磷酸末端，其可以用于衔接子连接的进一步操作。

在另一个方面中，本文提供了使用引物引发第二链合成的方法，该引物设计成与如上生成的第一链互补DNA的所有片段的3’-末端退火。

由RNA模板如总RNA合成第一链互补DNA可以使用不同的引发方案进行。可用于执行本文提供的方法的第一链引物可以是随机引物，例如随机六聚物，其可以能够在靶RNA上的多个位点引发。在另一个实施方案中，第一链引物可以包含对与靶向转录物或其部分的杂交具有特异性的序列。在又另一个实施方案中，第一链引物可以包含设计成在除不需要的转录物组之外的所有转录物上引发的序列。例如，第一链cDNA引物可以包含设计成优先在所有转录物上引发而不在结构RNA如所有rRNA上引发的序列。

无论第一链cDNA引物的设计如何，可以在包含相应核苷酸的混合物中的一种或多种非规范核苷酸的反应混合物中通过逆转录酶进行第一链合成，其中可以选择规范核苷酸与非规范核苷酸的比率以导致非规范核苷酸以一定密度的掺入，该密度会使得能够片段化以生成在所需片段大小范围内的片段。可以选择片段化产物的所需大小范围以适应测序文库中的插入片段的所需大小范围，以便适应在所选择的不同测序平台上的使用或任何其他下游操作。

生成所需大小范围的单链cDNA片段对于生成测序和其他文库的全自动方法可能是有利的。在一些情况下，第一链cDNA片段的生成不需要任何可导致产物损失的物理片段化方法如超声处理，并可以用于由微量的模板输入物生成文库，例如单细胞分析或对来自非常小的样品的模板的分析。

非规范核苷酸dUTP可以与用UNG处理组合使用以生成脱碱基位点。骨架在脱碱基位点处的片段化可以在相同的反应混合物中通过多胺如DMED或酶的组合，例如在USER(UNG和来自NEB的内切核酸酶VIII的组合)中进行。或者，在脱碱基位点的裂解可以通过加热反应混合物或通过多种化学方法进行。

本文提供的方法并不需要在随机位点处的第二链合成，这种第二链合成在多种文库制备方法中通常使用。因此，本文提供的方法提供了减小的选择性引发以生成第二链cDNA的偏倚。

确定的和不同的序列在cDNA产物的两个末端处的附加可以用于生成成链文库或保持链特异性的文库。将确定的序列附加到通过本文提供的程序生成的所有片段的3’-末端的方法可以通过用在3’-末端处包含单链DNA的部分双链体引发所有片段进行，其中该单链DNA部分包含随机序列。单链突出端的长度可以从至少6个至至少7、8或9个核苷酸不等。单链突出端可以与所有生成的片段的3’-末端杂交并可以通过DNA聚合酶沿着该片段延伸。考虑到了部分双连体引物的多种结构。一些实例显示在图2中。形成dsDNA部分的两条链可以是可进一步由环连接的两个寡核苷酸。该环，或接头，可以包含寡核苷酸或可以包含非核苷酸接头，或其组合。其还可以包含核苷酸类似物。

在所述部分双链体的杂交的单链DNA部分通过DNA聚合酶沿着片段延伸后，可以修复新合成的dsDNA的末端以生成平端。在合成的第二链cDNA的另一个末端处的第二确定的序列可以通过连接附加。考虑到了多种连接方式。第二衔接子的连接的两个实例显示在图1A和1B中。A/T依赖性连接也是可能的。所述方法的产物至此可以是在两个末端处具有确定的末端的第二链cDNA，其可以适用于进一步操作，例如扩增、适用于在所需平台上分析的所需序列的增加、克隆等。所增加的序列可以包含一个或多个条码，和/或可用于附接至固体表面如Illumina测序流动池等的序列。附加的序列还可以包含可用于标记具有独特序列的所有片段的随机序列，该独特序列可以使得绝对定量成为可能。

使用本文描述的方法和组合物由RNA生成定向测序文库的方法的工作流程在图3中示出。

本文还提供了用于从dsDNA模板如基因组DNA模板生成文库的方法和组合物。该文库可以用于全基因组扩增和测序，并且还可以用于从非常小的样品生成文库，而不需要对模板dsDNA进行物理片段化。如图4中所示，可以在没有与变性dsDNA模板退火的引物的情况下进行互补链合成的引发。沿着模板DNA链的DNA合成可以从带切口的位点引发。多种切口酶的使用在本领域中是公知的。链特异性或非链特异性的切口酶可以用于本文描述的方法。通过从带切口的位点延伸而生成的互补DNA的随机片段化可以通过非规范核苷酸的随机插入而非随机切口产生来实现。因此，可以使用任何所需的切口酶，而无论所选切口酶的序列依赖性如何。切口dsDNA模板以在带切口的位点之间生成大距离的酶对于最大覆盖率和通过本文描述的方法的随机片段化而言可能期望的。

由dsDNA模板生成文库的方法可以包括进一步的步骤，该步骤类似于针对成链cDNA测序文库的生成而描述的步骤，如在图4中所示例性地描绘的。

图5描述了使用嵌合DNA/RNA引物，通过单引物等温扩增(SPIA)来扩增片段化的和附加的产物的方法。通过此方法生成的扩增产物可以在3’-和5’-部分处包含确定的序列，由此提供相对于输入模板的链保留。

在一个方面中，本文描述了生成定向cDNA文库的方法，该方法包括：a)使一种或多种引物与模板RNA退火；b)在包含dATP、dCTP、dGTP、dTTP和dUTP的反应混合物的存在下延伸一种或多种引物，其中所述反应混合物包含一定的dUTP与dTTP的比率，其中该比率允许dUTP以所需密度掺入，由此生成包含以所需密度掺入的dUTP的一个或多个第一链互补DNA(cDNA)；c)用尿嘧啶-N-糖基化酶(UNG)和能够在由UNG产生的脱碱基位点裂解磷酸二酯骨架的作用物(agent)选择性裂解包含以所需密度掺入的dUTP的一个或多个第一链cDNA，其中所述裂解生成包含封端3’末端的所需大小的多个第一链cDNA片段；d)使包含部分双链体和3’突出端的第一衔接子与包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端退火，其中第一衔接子包含序列A，且其中所述退火包括使在3’突出端的随机序列与在包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端处存在的互补序列杂交；e)用DNA聚合酶延伸与所述互补序列杂交的3’突出端，其中生成在一个末端包含序列A的一个或多个双链cDNA片段；和f)将包含序列B的第二衔接子连接至在一个末端包含序列A的一个或多个双链cDNA片段，其中所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，由此生成定向多核苷酸文库。在一些实施方案中，所述一种或多种引物包含随机引物。在一些实施方案中，所述一种或多种引物包含对靶模板RNA或一组RNA具有特异性的序列。在一些实施方案中，该组RNA包含基本上所有的转录物。在一些实施方案中，该组RNA不包含结构RNA，其中该结构RNA包含核糖体RNA(rRNA)。在一些实施方案中，所述方法还包括扩增定向cDNA文库，由此生成扩增产物。在一些实施方案中，所述方法还包括对扩增产物进行测序的附加步骤。在一些实施方案中，该扩增包括SPIA。在一些实施方案中，该扩增包括引物的使用，其中一种或多种引物包含一个或多个条码序列。在一些实施方案中，该测序包括新一代测序。在一些实施方案中，所述方法还包括在步骤b)后降解模板RNA。在一些实施方案中，该裂解包括将模板RNA样品暴露于RNA酶。在一些实施方案中，能够裂解磷酸二酯骨架的作用物包括酶、化学试剂和/或热。在一些实施方案中，该化学试剂是多胺。在一些实施方案中，该多胺是N,N-二甲基乙二胺(DMED)。在一些实施方案中，该酶是内切核酸酶。在一些实施方案中，该内切核酸酶是内切核酸酶VIII。在一些实施方案中，所述部分双链体包含长链和短链，其中长链包含与短链形成双链体的序列A和3’突出端。在一些实施方案中，短链进一步在3’和/或5’末端包含封端。在一些实施方案中，第一衔接子进一步在长链的5’末端包含封端。在一些实施方案中，第一衔接子包含多个第一衔接子，其中在多个第一衔接子的每一个上的随机序列不同于在多个第一衔接子的另一个上的随机序列，且其中多个第一衔接子的每一个包含序列A。在一些实施方案中，步骤d)导致在步骤c)中生成的包含封端3’末端的所需大小的所述多个第一链cDNA片段基本上全部进一步包含在3’末端退火的所述多个第一衔接子中的一个。在一些实施方案中，第一衔接子进一步在短链的5’末端处包含封端。在一些实施方案中，第一衔接子进一步包含茎环，其中该茎环将部分双链体的长链的5’末端与部分双链体的短链的3’末端连接起来，其中该长链包含序列A和3’突出端。在一些实施方案中，3’突出端包含至少6、7、8或9个核苷酸。在一些实施方案中，第二衔接子包含部分双链体，其中该部分双链体包含与短链杂交的长链，其中该长链包含序列B和突出端。在一些实施方案中，长链包含序列B和3’突出端，且其中短链在3’末端包含封端。在一些实施方案中，所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，其中序列A在一个末端上的5’末端处且序列B在相反末端上的3’末端处。在一些实施方案中，长链包含序列B和5’突出端，且其中短链在5’末端处包含封端。在一些实施方案中，所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，其中序列A在一个末端上的5’末端处且序列B在相反末端上的5’末端处。在一些实施方案中，使用序列B作为模板来延伸相反末端的3’末端，由此生成在一个末端上的5’末端处包含序列A且在相反末端上的3’末端处包含与序列B互补的序列B’的一个或多个双链cDNA片段。在一些实施方案中，所述连接包括平端连接，其中在步骤e)中生成的在一个末端包含序列A的一个或多个双链cDNA片段在步骤f)前进行末端修复。在一些实施方案中，第一和/或第二衔接子进一步包含一个或多个条码。

在一个方面中，本文描述了用于全转录组定向测序的方法，该方法包括：a)使一种或多种引物与模板RNA退火；b)在包含dATP、dCTP、dGTP、dTTP和dUTP的反应混合物的存在下延伸引物，其中所述反应混合物包含一定的dUTP与dTTP的比率，其中该比率允许dUTP以所需密度掺入，由此生成包含以所需密度掺入的dUTP的一个或多个第一链互补DNA(cDNA)；c)用尿嘧啶-N-糖基化酶(UNG)和能够在由UNG产生的脱碱基位点裂解磷酸二酯骨架的作用物选择性裂解包含以所需密度掺入的dUTP的一个或多个第一链cDNA，其中所述裂解生成包含封端3’末端的所需大小的多个第一链cDNA片段；d)使包含部分双链体和3’突出端的第一衔接子与包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端退火，其中第一衔接子包含序列A，且其中所述退火包括使在3’突出端的随机序列与在包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端处存在的互补序列杂交；e)用DNA聚合酶延伸与所述互补序列杂交的3’突出端，其中生成在一个末端包含序列A的一个或多个双链cDNA片段；f)将包含序列B的第二衔接子连接至在一个末端包含序列A的一个或多个双链cDNA片段，其中所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，由此生成定向cDNA文库；和g)对定向cDNA文库进行扩增和/或测序。在一些实施方案中，所述一种或多种引物包含随机引物。在一些实施方案中，所述一种或多种引物包含对靶模板RNA或一组RNA具有特异性的序列。在一些实施方案中，该组RNA包含基本上所有的转录物。在一些实施方案中，该组RNA不包含结构RNA，其中该结构RNA包含核糖体RNA(rRNA)。在一些实施方案中，所述扩增包括SPIA。在一些实施方案中，所述扩增包括引物的使用，其中一种或多种引物包含条码序列。在一些实施方案中，所述测序包括新一代测序。在一些实施方案中，所述方法还包括在步骤b)后降解模板RNA。在一些实施方案中，所述裂解包括将模板RNA样品暴露于RNA酶。在一些实施方案中，能够裂解磷酸二酯骨架的作用物包括酶、化学试剂和/或热。在一些实施方案中，该化学试剂是多胺。在一些实施方案中，该多胺是N,N-二甲基乙二胺(DMED)。在一些实施方案中，该酶是内切核酸酶。在一些实施方案中，该内切核酸酶是内切核酸酶VIII。在一些实施方案中，所述部分双链体包含长链和短链，其中长链包含与短链形成双链体的序列A和3’突出端。在一些实施方案中，短链进一步在3’和/或5’末端包含封端。在一些实施方案中，第一衔接子进一步在长链的5’末端包含封端。在一些实施方案中，第一衔接子包含多个第一衔接子，其中在所述多个第一衔接子的每一个上的随机序列不同于在所述多个第一衔接子的另一个上的随机序列，且其中所述多个第一衔接子的每一个包含序列A。在一些实施方案中，步骤d)导致在步骤c)中生成的包含封端3’末端的所需大小的所述多个第一链cDNA片段基本上全部进一步包含在3’末端退火的所述多个第一衔接子中的一个。在一些实施方案中，第一衔接子进一步在短链的5’末端处包含封端。在一些实施方案中，第一衔接子进一步包含茎环，其中该茎环将部分双链体的长链的5’末端与部分双链体的短链的3’末端连接起来，且其中长链包含序列A和3’突出端。在一些实施方案中，3’突出端包含至少6、7、8或9个核苷酸。在一些实施方案中，第二衔接子包含部分双链体，其中该部分双链体包含与短链杂交的长链，其中长链包含序列B和突出端。在一些实施方案中，长链包含序列B和3’突出端，且其中短链在3’末端包含封端。在一些实施方案中，所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，其中序列A在一个末端上的5’末端处且序列B在相反末端上的3’末端处。在一些实施方案中，长链包含序列B和5’突出端，且其中短链在5’末端处包含封端。在一些实施方案中，所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，其中序列A在一个末端上的5’末端处且序列B在相反末端上的5’末端处。在一些实施方案中，使用序列B作为模板延伸相反末端的3’末端，由此生成在一个末端上的5’末端包含序列A且在相反末端上的3’末端包含与序列B互补的序列B’的一个或多个双链cDNA片段。在一些实施方案中，所述连接包括平端连接，其中在步骤e)中生成的在一个末端包含序列A的一个或多个双链cDNA片段在步骤f)前进行末端修复。在一些实施方案中，第一和/或第二衔接子进一步包含一个或多个条码。

在一个方面中，本文描述了用于生成定向cDNA文库的方法，该方法包括：a)用切口酶处理模板dsDNA，其中该处理在模板dsDNA的一条链的磷酸二酯骨架中生成一个或多个断裂，其中该断裂在所述一条链中产生一个或多个3’羟基；b)延伸所述一个或多个3’羟基，其中在包含dATP、dCTP、dGTP、dTTP和dUTP的反应混合物的存在下进行延伸，其中所述反应混合物包含一定的dUTP与dTTP的比率，其中该比率允许dUTP以所需密度掺入，由此生成包含以所需密度掺入的dUTP的一个或多个第一链互补DNA(cDNA)；c)用尿嘧啶-N-糖基化酶(UNG)和能够在由UNG产生的脱碱基位点裂解磷酸二酯骨架的作用物选择性裂解包含以所需密度掺入的dUTP的一个或多个第一链cDNA，其中所述裂解生成包含封端3’末端的所需大小的多个第一链cDNA片段；d)使包含部分双链体和3’突出端的第一衔接子与包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端退火，其中第一衔接子包含序列A，且其中所述退火包括使在3’突出端的随机序列与在包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端处存在的互补序列杂交；e)用DNA聚合酶延伸与所述互补序列杂交的3’突出端，其中生成在一个末端包含序列A的一个或多个双链cDNA片段；和f)将包含序列B的第二衔接子连接至在一个末端包含序列A的一个或多个双链cDNA片段，其中所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，由此生成定向cDNA文库。在一些实施方案中，所述方法还包括扩增定向cDNA文库，由此生成扩增产物。在一些实施方案中，所述方法还包括对扩增产物进行测序的附加步骤。在些实施方案中，所述扩增包括SPIA。在一些实施方案中，所述扩增包括引物的使用，其中一种或多种引物包含一个或多个条码序列。在一些实施方案中，所述测序包括新一代测序。在一些实施方案中，所述切口酶包含链特异性切口酶。在一些实施方案中，在步骤b)中延伸一个或多个3’羟基用包含链置换活性的DNA聚合酶进行。在一些实施方案中，能够裂解磷酸二酯骨架的作用物包括酶、化学试剂和/或热。在一些实施方案中，该化学试剂是多胺。在一些实施方案中，该多胺是N,N-二甲基乙二胺(DMED)。在一些实施方案中，该酶是内切核酸酶。在一些实施方案中，该内切核酸酶是内切核酸酶VIII。在一些实施方案中，所述部分双链体包含长链和短链，其中长链包含与短链形成双链体的序列A和3’突出端。在一些实施方案中，短链进一步在3’和/或5’末端包含封端。在一些实施方案中，第一衔接子进一步在长链的5’末端包含封端。在一些实施方案中，第一衔接子包含多个第一衔接子，其中在所述多个第一衔接子的每一个上的随机序列不同于在所述多个第一衔接子的另一个上的随机序列，且其中所述多个第一衔接子的每一个包含序列A。在一些实施方案中，步骤d)导致在步骤c)中生成的包含封端3’末端的所需大小的所述多个第一链cDNA片段基本上全部进一步包含在3’末端退火的所述多个第一衔接子中的一个。在一些实施方案中，第一衔接子进一步在短链的5’末端处包含封端。在一些实施方案中，第一衔接子进一步包含茎环，其中该茎环将部分双链体的长链的5’末端与部分双链体的短链的3’末端连接起来，其中该长链包含序列A和3’突出端。在一些实施方案中，3’突出端包含至少6、7、8或9个核苷酸。在一些实施方案中，第二衔接子包含部分双链体，其中该部分双链体包含与短链杂交的长链，其中长链包含序列B和突出端。在一些实施方案中，长链包含序列B和3’突出端，且其中短链在3’末端包含封端。在一些实施方案中，所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，其中序列A在一个末端上的5’末端处且序列B在相反末端上的3’末端处。在一些实施方案中，长链包含序列B和5’突出端，且其中短链在5’末端处包含封端。在一些实施方案中，所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，其中序列A在一个末端上的5’末端处且序列B在相反末端上的5’末端处。在一些实施方案中，使用序列B作为模板延伸相反末端的3’末端，由此生成在一个末端上的5’末端包含序列A且在相反末端上的3’末端包含与序列B互补的序列B’的一个或多个双链cDNA片段。在一些实施方案中，所述连接包括平端连接，其中在步骤e)中生成的在一个末端包含序列A的一个或多个双链cDNA片段在步骤f)前进行末端修复。在一些实施方案中，第一和/或第二衔接子进一步包含一个或多个条码。

在一个方面中，本文描述了用于全基因组测序的方法，该方法包括：a)用切口酶处理基因组DNA，其中该处理在基因组DNA的一条链的磷酸二酯骨架中生成一个或多个断裂，其中该断裂在所述一条链中产生一个或多个3’羟基；b)延伸所述一个或多个3’羟基，其中在包含dATP、dCTP、dGTP、dTTP和dUTP的反应混合物的存在下进行延伸，其中所述反应混合物包含一定的dUTP与dTTP的比率，其中该比率允许dUTP以所需密度掺入，由此生成包含以确定的频率掺入的dUTP的一个或多个第一链互补DNA(cDNA)；c)用尿嘧啶-N-糖基化酶(UNG)和能够在由UNG产生的脱碱基位点裂解磷酸二酯骨架的作用物选择性裂解包含以所需密度掺入的dUTP的一个或多个第一链cDNA，其中裂解生成包含封端3’末端的所需大小的多个第一链cDNA片段；d)使包含部分双链体和3’突出端的第一衔接子与包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端退火，其中第一衔接子包含序列A，且其中所述退火包括使在3’突出端的随机序列与在包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端处存在的互补序列杂交；e)用DNA聚合酶延伸与所述互补序列杂交的3’突出端，其中生成在一个末端包含序列A的一个或多个双链cDNA片段；f)将包含序列B的第二衔接子连接至在一个末端包含序列A的一个或多个双链cDNA片段，其中所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，由此生成定向cDNA文库；和g)对定向cDNA文库进行扩增和/或测序。在一些实施方案中，该扩增包括SPIA。在一些实施方案中，该扩增包括引物的使用，其中一种或多种引物包含条码序列。在一些实施方案中，该测序包括新一代测序。在一些实施方案中，所述切口酶包含链特异性切口酶。在一些实施方案中，在步骤b)中延伸一个或多个3’羟基用包含链置换活性的DNA聚合酶进行。在一些实施方案中，能够裂解磷酸二酯骨架的作用物包括酶、化学试剂和/或热。在一些实施方案中，该化学试剂是多胺。在一些实施方案中，该多胺是N,N-二甲基乙二胺(DMED)。在一些实施方案中，该酶是内切核酸酶。在一些实施方案中，该内切核酸酶是内切核酸酶VIII。在一些实施方案中，所述部分双链体包含长链和短链，其中长链包含与短链形成双链体的序列A和3’突出端。在一些实施方案中，短链进一步在3’和/或5’末端包含封端。在一些实施方案中，第一衔接子进一步在长链的5’末端包含封端。在一些实施方案中，第一衔接子包含多个第一衔接子，其中在所述多个第一衔接子的每个上的随机序列不同于在所述多个第一衔接子的另一个上的随机序列，且其中所述多个第一衔接子的每个包含序列A。在一些实施方案中，步骤d)导致在步骤c)中生成的包含封端3’末端的所需大小的所述多个第一链cDNA片段基本上全部进一步包含在3’末端退火的所述多个第一衔接子中的一个。在一些实施方案中，第一衔接子进一步在短链的5’末端处包含封端。在一些实施方案中，第一衔接子进一步包含茎环，其中该茎环将部分双链体的长链的5’末端和部分双链体的短链的3’末端连接起来，其中该长链包含序列A和3’突出端。在一些实施方案中，3’突出端包含至少6、7、8或9个核苷酸。在一些实施方案中，第二衔接子包含部分双链体，其中该部分双链体包含与短链杂交的长链，其中长链包含序列B和突出端。在一些实施方案中，长链包含序列B和3’突出端，且其中短链在3’末端包含封端。在一些实施方案中，所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，其中序列A在一个末端上的5’末端处且序列B在相反末端上的3’末端处。在一些实施方案中，长链包含序列B和5’突出端，且其中短链在5’末端处包含封端。在一些实施方案中，所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，其中序列A在一个末端上的5’末端处且序列B在相反末端上的5’末端处。在一些实施方案中，使用序列B作为模板延伸相反末端的3’末端，由此生成在一个末端上的5’末端包含序列A且在相反末端上的3’末端包含与序列B互补的序列B’的一个或多个双链cDNA片段。在一些实施方案中，所述连接包括平端连接，其中在步骤e)中生成的在一个末端包含序列A的一个或多个双链cDNA片段在步骤f)前进行末端修复。在一些实施方案中，第一和/或第二衔接子进一步包含一个或多个条码。

在一个方面中，本文描述了用于生成定向多核苷酸文库的方法，该方法包括：a)在一种或多种引物、逆转录酶和包含非规范核苷酸的反应混合物的存在下逆转录模板RNA，其中所述反应混合物包含适于允许以所需密度掺入非规范核苷酸的非规范核苷酸比率，由此生成包含以所需密度掺入的非规范核苷酸的一个或多个第一链互补DNA(cDNA)；b)用裂解剂选择性裂解包含以所需密度掺入的非规范核苷酸的一个或多个第一链cDNA，其中用裂解剂裂解生成包含封端3’末端的所需大小的多个第一链cDNA片段；c)使包含部分双链体和3’突出端的第一衔接子与包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端退火，其中第一衔接子包含序列A，且其中所述退火包括使在3’突出端的随机序列与在包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端处存在的互补序列杂交；d)用DNA聚合酶延伸与所述互补序列杂交的3’突出端，其中生成在一个末端包含序列A的一个或多个双链cDNA片段；和e)将包含序列B的第二衔接子连接至在一个末端包含序列A的一个或多个双链cDNA片段，其中所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，由此生成定向多核苷酸文库。在一些实施方案中，所述模板RNA包含mRNA。在一些实施方案中，所述一种或多种引物包含随机引物。在一些实施方案中，所述一种或多种引物包含对靶RNA或一组RNA具有特异性的序列。在一些实施方案中，该组RNA包含基本上所有的转录物。在一些实施方案中，该组RNA不包含结构RNA，其中该结构RNA包含核糖体RNA(rRNA)。在一些实施方案中，所述方法还包括在步骤a)后降解模板RNA。在一些实施方案中，所述非规范dNTP包含dUTP。在一些实施方案中，所述裂解剂包含糖基化酶和多胺、热或酶。在一些实施方案中，该糖基化酶是尿嘧啶-N-糖基化酶(UNG)。在一些实施方案中，该多胺是N,N-二甲基乙二胺(DMED)。在一些实施方案中，该酶包含内切核酸酶。在一些实施方案中，该内切核酸酶是内切核酸酶VIII。在一些实施方案中，第一衔接子包含多个第一衔接子，其中在所述多个第一衔接子的每一个上的随机序列不同于在所述多个第一衔接子的另一个上的随机序列，且其中所述多个第一衔接子的每一个包含序列A。在一些实施方案中，所述退火导致包含封端3’末端的所需大小的所述多个第一链cDNA片段基本上全部进一步包含在3’末端退火的所述多个第一衔接子中的一个。在一些实施方案中，所述部分双链体包含长链和短链，其中长链包含与短链形成双链体的序列A和3’突出端。在一些实施方案中，短链进一步在3’和/或5’末端包含封端。在一些实施方案中，第一衔接子进一步包含茎环，其中该茎环将部分双链体的长链的5’末端与部分双链体的短链的3’末端连接起来，其中该长链包含序列A和3’突出端。在一些实施方案中，第一衔接子进一步在长链的5’末端包含封端。在一些实施方案中，第一衔接子进一步在短链的5’末端处包含封端。在一些实施方案中，3’突出端包含至少6、7、8或9个核苷酸。在一些实施方案中，第二衔接子包含双链体、部分双链体或包含通过茎环连接的双链体部分的单链。在一些实施方案中，第一和/或第二衔接子进一步包含一个或多个条码。在一些实施方案中，第二衔接子包含部分双链体，其中该部分双链体包含与短链杂交的长链，其中长链包含序列B和突出端。在一些实施方案中，长链包含序列B和3’突出端，且其中短链在3’末端包含封端。在一些实施方案中，所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，其中序列A在一个末端上的5’末端处且序列B在相反末端上的3’末端处。在一些实施方案中，长链包含序列B和5’突出端，且其中短链在5’末端处包含封端。在一些实施方案中，所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，其中序列A在一个末端上的5’末端处且序列B在相反末端上的5’末端处。在一些实施方案中，使用序列B作为模板延伸相反末端的3’末端，由此生成在一个末端上的5’末端包含序列A且在相反末端上的3’末端包含与序列B互补的序列B’的一个或多个双链cDNA片段。在一些实施方案中，所述方法还包括扩增定向cDNA文库，由此生成扩增产物。还包括对扩增产物进行测序的附加步骤。在一些实施方案中，该扩增包括SPIA。在一些实施方案中，该扩增包括引物的使用，其中一种或多种引物包含条码序列。在一些实施方案中，该测序包括新一代测序。在一些实施方案中，所述连接包括平端连接，其中在步骤e)中生成的在一个末端包含序列A的一个或多个双链cDNA片段在步骤f)前进行末端修复。

在一个方面中，本文描述了用于生成定向多核苷酸文库的方法，该方法包括：a)用切口酶处理模板DNA，其中该处理在模板DNA的一条链的磷酸二酯骨架中生成一个或多个断裂，其中所述一个或多个断裂在所述一条链中产生一个或多个3’羟基；b)延伸所述一个或多个3’羟基，其中所述延伸在包含非规范核苷酸的反应混合物的存在下进行，其中所述反应混合物包含适于允许以所需密度掺入非规范核苷酸的非规范核苷酸比率，由此生成包含以所需密度掺入的非规范核苷酸的一个或多个第一链互补DNA(cDNA)；c)用裂解剂选择性裂解包含以所需密度掺入的非规范核苷酸的一个或多个第一链cDNA，其中用裂解剂裂解生成包含封端3’末端的所需大小的多个第一链cDNA片段；d)使包含部分双链体和3’突出端的第一衔接子与包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端退火，其中第一衔接子包含序列A，且其中所述退火包括使在3’突出端的随机序列与在包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端处存在的互补序列杂交；e)用DNA聚合酶延伸与所述互补序列杂交的3’突出端，其中生成在一个末端包含序列A的一个或多个双链cDNA片段；和f)将包含序列B的第二衔接子连接至在一个末端包含序列A的一个或多个双链cDNA片段，其中所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，由此生成定向多核苷酸文库。在一些实施方案中，所述模板DNA包含双链DNA(dsDNA)。在一些实施方案中，所述模板DNA包含基因组DNA。在一些实施方案中，所述切口酶包含链特异性切口酶。在一些实施方案中，在步骤b)中3’羟基的延伸用包含链置换活性的DNA聚合酶进行。在一些实施方案中，所述非规范dNTP包含dUTP。在一些实施方案中，所述裂解剂包含糖基化酶和多胺、热或酶。在一些实施方案中，该糖基化酶是尿嘧啶-N-糖基化酶(UNG)。在一些实施方案中，该多胺是N,N-二甲基乙二胺(DMED)。在一些实施方案中，该酶包含内切核酸酶。在一些实施方案中，该内切核酸酶是内切核酸酶VIII。在一些实施方案中，第一衔接子包含多个第一衔接子，其中在所述多个第一衔接子的每一个上的随机序列不同于在所述多个第一衔接子的另一个上的随机序列，且其中所述多个第一衔接子的每一个包含序列A。在一些实施方案中，所述退火导致包含封端3’末端的所需大小的所述多个第一链cDNA片段基本上全部进一步包含在3’末端退火的所述多个第一衔接子中的一个。在一些实施方案中，所述部分双链体包含长链和短链，其中长链包含与短链形成双链体的序列A和3’突出端。在一些实施方案中，短链进一步在3’和/或5’末端包含封端。在一些实施方案中，第一衔接子进一步包含茎环，其中该茎环将部分双链体的长链的5’末端与部分双链体的短链的3’末端连接起来，其中该长链包含序列A和3’突出端。在一些实施方案中，第一衔接子进一步在长链的5’末端包含封端。在一些实施方案中，第一衔接子进一步在短链的5’末端处包含封端。在一些实施方案中，3’突出端包含至少6、7、8或9个核苷酸。在一些实施方案中，第二衔接子包含双链体、部分双链体或包含通过茎环连接的双链体部分的单链。在一些实施方案中，第一和/或第二衔接子进一步包含一个或多个条码。在一些实施方案中，第二衔接子包含部分双链体，其中该部分双链体包含与短链杂交的长链，其中长链包含序列B和突出端。在一些实施方案中，长链包含序列B和3’突出端，且其中短链在3’末端包含封端。在一些实施方案中，所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，其中序列A在一个末端上的5’末端处且序列B在相反末端上的3’末端处。在一些实施方案中，长链包含序列B和5’突出端，且其中短链在5’末端处包含封端。在一些实施方案中，所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，其中序列A在一个末端上的5’末端处且序列B在相反末端上的5’末端处。在一些实施方案中，使用序列B作为模板延伸相反末端的3’末端，由此生成在一个末端上的5’末端包含序列A且在相反末端上的3’末端包含与序列B互补的序列B’的一个或多个双链cDNA片段。在一些实施方案中，所述方法还包括扩增定向cDNA文库，由此生成扩增产物。在一些实施方案中，所述方法还包括对扩增产物进行测序的附加步骤。在一些实施方案中，该扩增包括SPIA。在一些实施方案中，该扩增包括引物的使用，其中一种或多种引物包含条码序列。在一些实施方案中，该测序包括新一代测序。在一些实施方案中，所述连接包括平端连接，其中在步骤e)中生成的在一个末端包含序列A的一个或多个双链cDNA片段在步骤f)前进行末端修复。

在一个方面中，本文描述了用于生成定向多核苷酸文库的方法，该方法包括：a)在一个或多个脱碱基位点化学裂解包含一个或多个脱碱基位点的一个或多个多核苷酸的磷酸二酯骨架，由此生成在所需大小范围内并包含封端3’末端的一个或多个多核苷酸；b)将第一衔接子附加到包含封端3’末端的一个或多个多核苷酸的3’末端，其中第一衔接子包含序列A，其中序列A不可与包含封端3’末端的一个或多个多核苷酸杂交；c)使用包含封端3’末端的一个或多个多核苷酸作为模板延伸附加到包含封端3’末端的一个或多个多核苷酸的3’末端的第一衔接子的3’末端，其中生成在一个末端包含序列A的一个或多个双链多核苷酸；和d)将包含序列B的第二衔接子附加至在一个末端包含序列A的一个或多个双链多核苷酸，其中序列B不同于序列A且所述附加生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链多核苷酸，由此生成定向多核苷酸文库。在一些实施方案中，用多胺裂解磷酸二酯骨架以生成在所需大小范围内并具有封端3’末端的一个或多个多核苷酸。在一些实施方案中，该多胺是N,N′-二甲基乙二胺(DMED)。在一些实施方案中，通过利用能够裂解非规范核苷酸的碱基部分的酶裂解在一个或多个多核苷酸中的非规范核苷酸的碱基部分，生成包含一个或多个脱碱基位点的一个或多个多核苷酸，由此生成脱碱基位点。在一些实施方案中，所述非规范核苷酸选自dUTP、dITP和5-OH-Me-dCTP。在一些实施方案中，能够裂解非规范核苷酸的碱基部分的酶是N-糖基化酶。在一些实施方案中，该N-糖基化酶选自尿嘧啶N-糖基化酶(UNG)、次黄嘌呤-N-糖基化酶和羟基-甲基胞嘧啶-N-糖基化酶。在一些实施方案中，该非规范核苷酸是dUTP且能够裂解非规范核苷酸的碱基部分的酶是UNG。在一些实施方案中，该非规范核苷酸是dUTP，能够裂解非规范核苷酸的碱基部分的酶是UNG，且磷酸二酯骨架用DMED裂解。在一些实施方案中，包含一个或多个非规范核苷酸的一个或多个多核苷酸在两个或更多个不同非规范核苷酸的存在下合成，由此合成包含两个或更多个不同非规范核苷酸的一个或多个多核苷酸。在一些实施方案中，包含一个或多个脱碱基位点的一个或多个多核苷酸由包含DNA或RNA的模板核酸合成。在一些实施方案中，该模板核酸选自mRNA、cDNA和基因组DNA。在一些实施方案中，包含一个或多个脱碱基位点的一个或多个多核苷酸是单链的或双链的。在一些实施方案中，包含一个或多个脱碱基位点的一个或多个多核苷酸通过选自聚合酶链反应(PCR)、链置换扩增(SDA)、多重置换扩增(MDA)、滚环扩增(RCA)、单引物恒温扩增(SPIA)和Ribo-SPIA的扩增法合成。在一些实施方案中，包含一个或多个脱碱基位点的一个或多个多核苷酸通过选自逆转录、引物延伸、受限引物延伸、复制和切口翻译的方法合成。在一些实施方案中，第一衔接子进一步包含部分双链体和3’突出端。在一些实施方案中，第一衔接子包含多个第一衔接子，其中在所述多个第一衔接子的每一个上的随机序列不同于在所述多个第一衔接子的另一个上的随机序列，且其中所述多个第一衔接子的每一个包含序列A。在一些实施方案中，所述退火导致包含封端3’末端的所需大小的所述多个第一链cDNA片段基本上全部进一步包含在3’末端退火的所述多个第一衔接子中的一个。在一些实施方案中，所述附加包括将第一衔接子的3’突出端附加至包含封端3’末端的多核苷酸的3’末端，其中所述退火包括使在3’突出端处的随机序列与在包含封端3’末端的多核苷酸的3’末端处存在的互补序列杂交。在一些实施方案中，所述部分双链体包含长链和短链，其中长链包含与短链形成双链体的序列A和3’突出端。在一些实施方案中，短链进一步在短链的3’和/或5’末端包含封端。在一些实施方案中，第一衔接子进一步包含茎环，其中该茎环将部分双链体的长链的5’末端与部分双链体的短链的3’末端连接起来，且其中该长链包含序列A和3’突出端。在一些实施方案中，第一衔接子进一步在长链的5’末端包含封端。在一些实施方案中，第一衔接子进一步在短链的5’末端处包含封端。在一些实施方案中，3’突出端包含至少6、7、8或9个核苷酸。在一些实施方案中，步骤d)包括连接第二衔接子。在一些实施方案中，所述连接包括平端连接。在一些实施方案中，在步骤c)中生成的在一个末端包含序列A的多核苷酸在步骤d)前进行末端修复。在一些实施方案中，第二衔接子包含双链体、部分双链体或包含通过茎环连接的双链体部分的单链。在一些实施方案中，第一和/或第二衔接子进一步包含一个或多个条码。在一些实施方案中，第二衔接子包含部分双链体，其中该部分双链体包含与短链杂交的长链，其中长链包含序列B和突出端。在一些实施方案中，长链包含序列B和3’突出端，且其中短链在3’末端包含封端。在一些实施方案中，第二衔接子的附加生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链多核苷酸，其中序列A在一个末端上的5’末端处且序列B在相反末端上的3’末端处。在一些实施方案中，长链包含序列B和5’突出端，且其中短链在5’末端处包含封端。在一些实施方案中，第二衔接子的附加生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链多核苷酸，其中序列A在一个末端上的5’末端处且序列B在相反末端上的5’末端处。在一些实施方案中，使用序列B作为模板延伸相反末端的3’末端，由此生成在一个末端上的5’末端包含序列A且在相反末端上的3’末端包含与序列B互补的序列B’的一个或多个双链多核苷酸。在一些实施方案中，所述方法还包括扩增定向cDNA文库，由此生成扩增产物。在一些实施方案中，所述方法还包括对扩增产物进行测序的附加步骤。在一些实施方案中，该扩增包括SPIA。在一些实施方案中，该扩增包括引物的使用，其中一种或多种引物包含条码序列。在一些实施方案中，该测序包括新一代测序。

在一个方面中，本文描述了用于生成定向多核苷酸文库的方法，该方法包括：a)在非规范核苷酸的存在下由模板核酸合成一个或多个多核苷酸，由此生成包含非规范核苷酸的一个或多个多核苷酸；b)用能够裂解非规范核苷酸的碱基部分的酶从一个或多个合成的多核苷酸裂解非规范核苷酸的碱基部分，由此生成脱碱基位点；c)在脱碱基位点处裂解包含脱碱基位点的一个或多个多核苷酸的磷酸二酯骨架，由此生成包含封端3’末端的在所需大小范围内的一个或多个多核苷酸；d)将第一衔接子附加到包含封端3’末端的一个或多个多核苷酸的3’末端，其中第一衔接子包含序列A，其中序列A不可与包含封端3’末端的一个或多个多核苷酸杂交；e)使用包含封端3’末端的一个或多个多核苷酸作为模板延伸附加到包含封端3’末端的一个或多个多核苷酸的3’末端的第一衔接子的3’末端，其中生成在一个末端包含序列A的一个或多个双链多核苷酸；f)将包含序列B的第二衔接子附加至在一个末端包含序列A的一个或多个双链多核苷酸，其中序列B不同于序列A且所述附加生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链多核苷酸，由此生成定向多核苷酸文库。在一些实施方案中，在同一反应混合物中同时进行步骤(b)和(c)。在一些实施方案中，该方法包括在所有4种规范核苷酸和非规范核苷酸的存在下由模板核酸合成一个或多个多核苷酸，其中非规范核苷酸以适于生成在所需大小范围内的片段的比率提供。在一些实施方案中，包含非规范核苷酸的一个或多个多核苷酸通过选自聚合酶链反应(PCR)、链置换扩增(SDA)、多重置换扩增(MDA)、滚环扩增(RCA)、单引物恒温扩增(SPIA)和Ribo-SPIA的扩增法合成。在一些实施方案中，包含非规范核苷酸的一个或多个多核苷酸通过选自逆转录、引物延伸、受限引物延伸、复制和切口翻译的方法合成。在一些实施方案中，第一衔接子进一步包含部分双链体和3’突出端。在一些实施方案中，第一衔接子包含多个第一衔接子，其中在所述多个第一衔接子的每一个上的随机序列不同于在所述多个第一衔接子的另一个上的随机序列，且其中所述多个第一衔接子的每一个包含序列A。在一些实施方案中，所述退火导致包含封端3’末端的所需大小的所述多个第一链cDNA片段基本上全部进一步包含在3’末端退火的所述多个第一衔接子中的一个。在一些实施方案中，所述附加包括将第一衔接子的3’突出端附加至包含封端3’末端的一个或多个多核苷酸的3’末端，其中所述退火包括使在3’突出端处的随机序列与在包含封端3’末端的一个或多个多核苷酸的3’末端处存在的互补序列杂交。在一些实施方案中，所述部分双链体包含长链和短链，其中长链包含与短链形成双链体的序列A和3’突出端。在一些实施方案中，短链进一步在3’和/或5’末端包含封端。在一些实施方案中，长链进一步在5’末端包含封端。在一些实施方案中，第一衔接子进一步包含茎环，其中该茎环将部分双链体的长链的5’末端与部分双链体的短链的3’末端连接起来，且其中长链包含序列A和3’突出端。在一些实施方案中，第一衔接子进一步在短链的5’末端包含封端。在一些实施方案中，3’突出端包含至少6、7、8或9个核苷酸。在一些实施方案中，步骤f)包括连接第二衔接子。在一些实施方案中，所述连接包括平端连接。在一些实施方案中，在步骤e)中生成的在一个末端包含序列A的一个或多个多核苷酸在步骤f)前进行末端修复。在一些实施方案中，第二衔接子包含双链体、部分双链体或包含通过茎环连接的双链体部分的单链。在一些实施方案中，第一和/或第二衔接子进一步包含一个或多个条码。在一些实施方案中，第二衔接子包含部分双链体，其中该部分双链体包含与短链杂交的长链，其中长链包含序列B和突出端。在一些实施方案中，长链包含序列B和3’突出端，且其中短链在3’末端包含封端。在一些实施方案中，第二衔接子的附加生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链多核苷酸，其中序列A在一个末端上的5’末端处且序列B在相反末端上的3’末端处。在一些实施方案中，长链包含序列B和5’突出端，且其中短链在5’末端处包含封端。在一些实施方案中，第二衔接子的附加生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链多核苷酸，其中序列A在一个末端上的5’末端处且序列B在相反末端上的5’末端处。在一些实施方案中，使用序列B作为模板延伸相反末端的3’末端，由此生成在一个末端上的5’末端包含序列A且在相反末端上的3’末端包含与序列B互补的序列B’的一个或多个双链多核苷酸。在一些实施方案中，所述方法还包括扩增定向多核苷酸文库，由此生成扩增产物。在一些实施方案中，所述方法还包括对扩增产物进行测序的附加步骤。在一些实施方案中，该扩增包括SPIA。在一些实施方案中，该扩增包括引物的使用，其中一种或多种引物包含条码序列。在一些实施方案中，该测序包括新一代测序。

本文还提供了用于生成定向cDNA文库的方法，该方法包括：(a)使一种或多种引物与模板RNA退火；(b)在包含dATP、dCTP、dGTP、dTTP和dUTP的反应混合物的存在下延伸所述一种或多种引物，其中所述反应混合物包含一定的dUTP与dTTP的比率，其中该比率允许dUTP以所需密度掺入，由此生成包含以所需密度掺入的dUTP的一个或多个第一链互补DNA(cDNA)；(c)用尿嘧啶-N-糖基化酶(UNG)和能够在由UNG产生的脱碱基位点裂解磷酸二酯骨架的作用物选择性裂解包含以所需密度掺入的dUTP的一个或多个第一链cDNA，其中所述裂解生成包含封端3’末端的所需大小的多个第一链cDNA片段；(d)使包含部分双链体和3’突出端的第一衔接子与包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端退火，其中第一衔接子包含序列A，且其中所述退火包括使在3’突出端的随机序列与在包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端处存在的互补序列杂交；(e)用DNA聚合酶延伸与所述互补序列杂交的3’突出端，其中生成在一个末端包含序列A的一个或多个双链cDNA片段；(f)将包含序列B的第二衔接子连接至在一个末端包含序列A的一个或多个双链cDNA片段，其中所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，由此生成定向多核苷酸文库；和(g)任选地，对所述定向cDNA文库进行扩增和/或测序。

本文还提供了用于生成定向cDNA文库的方法，该方法包括：(a)用切口酶处理模板dsDNA，其中该处理在模板dsDNA的一条链的磷酸二酯骨架中生成一个或多个断裂，其中该断裂在所述一条链中产生一个或多个3’羟基；(b)延伸所述一个或多个3’羟基，其中在包含dATP、dCTP、dGTP、dTTP和dUTP的反应混合物的存在下进行所述延伸，其中所述反应混合物包含一定的dUTP与dTTP的比率，其中该比率允许dUTP以所需密度掺入，由此生成包含以所需密度掺入的dUTP的一个或多个第一链互补DNA(cDNA)；(c)用尿嘧啶-N-糖基化酶(UNG)和能够在由UNG产生的脱碱基位点裂解磷酸二酯骨架的作用物选择性裂解包含以所需密度掺入的dUTP的一个或多个第一链cDNA，其中所述裂解生成包含封端3’末端的所需大小的多个第一链cDNA片段；(d)使包含部分双链体和3’突出端的第一衔接子与包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端退火，其中第一衔接子包含序列A，且其中所述退火包括使在3’突出端的随机序列与在包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端处存在的互补序列杂交；(e)用DNA聚合酶延伸与所述互补序列杂交的3’突出端，其中生成在一个末端包含序列A的一个或多个双链cDNA片段；和(f)将包含序列B的第二衔接子连接至在一个末端包含序列A的一个或多个双链cDNA片段，其中所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，由此生成定向cDNA文库；和(g)任选地，对所述定向cDNA文库进行扩增和/或测序。

本文还提供了用于生成全基因组文库的方法，该方法包括：(a)使带切口的和/或片段化的dsDNA模板核酸变性；(b)使包含部分双链体和3’突出端的第一衔接子与多个单链DNA片段中的一个或多个的3’末端退火，其中第一衔接子包含序列A，且其中所述退火包括使在3’突出端的随机序列与在多个单链DNA片段中的一个或多个的3’末端处存在的互补序列杂交；(c)用DNA聚合酶延伸与所述互补序列杂交的3’突出端，其中生成在一个末端包含序列A的一个或多个双链cDNA片段；(e)将包含序列B的第二衔接子连接至在一个末端包含序列A的一个或多个双链cDNA片段，其中所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，由此生成定向cDNA文库；和(f)任选地，对所述定向cDNA文库进行扩增和/或测序。

在任意前述方法的一些实施方案中，所述一种或多种引物包含随机引物。在一些实施方案中，所述一种或多种引物包含对包含基本上所有转录物的一组RNA具有特异性的序列。在一些实施方案中，所述一种或多种引物包含对不包含结构RNA的一组RNA具有特异性的序列，其中该结构RNA包含核糖体RNA(rRNA)。在一些实施方案中，能够裂解磷酸二酯骨架的作用物包括酶、化学试剂和/或热。在一些实施方案中，该化学试剂是多胺。在一些实施方案中，该多胺是N,N-二甲基乙二胺(DMED)。在一些实施方案中，第一衔接子包含长链和短链，其中长链包含与短链形成双链体的序列A和3’突出端。在一些实施方案中，第一衔接子包含多个第一衔接子，其中在所述多个第一衔接子的每一个上的随机序列不同于在所述多个第一衔接子的另一个上的随机序列，且其中所述多个第一衔接子的每个包含序列A。在一些实施方案中，第一衔接子进一步包含茎环，其中该茎环将部分双链体的长链的5’末端与部分双链体的短链的3’末端连接起来，其中长链包含序列A和3’突出端。在一些实施方案中，3’突出端包含至少6、7、8或9个核苷酸。在一些实施方案中，第二衔接子包含部分双链体，其中该部分双链体包含与短链杂交的长链，其中长链包含序列B和突出端。在一些实施方案中，长链包含序列B和3’突出端，且其中短链在3’末端包含封端。在一些实施方案中，所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，序列A在一个末端上的5’末端处且序列B在相反末端上的3’末端处。在一些实施方案中，长链包含序列B和5’突出端，且其中短链在5’末端处包含封端。在一些实施方案中，所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，其中序列A在一个末端上的5’末端处且序列B在相反末端上的5’末端处。在一些实施方案中，使用序列B作为模板延伸相反末端的3’末端，由此生成在一个末端上的5’末端包含序列A且在相反末端上的3’末端包含与序列B互补的序列B’的一个或多个双链cDNA片段。在一些实施方案中，所述切口酶包含链特异性切口酶。在一些实施方案中，在步骤b)中延伸一个或多个3’羟基用包含链置换活性的DNA聚合酶进行。在一些实施方案中，所述连接包括平端连接，其中在步骤e)中生成的在一个末端包含序列A的一个或多个双链cDNA片段在步骤f)前进行末端修复。在一些实施方案中，第一和/或第二衔接子进一步包含一个或多个条码。

援引并入

本说明书中提到的所有出版物、专利和专利申请均通过引用以相同的程度并入本文，犹如特别地和单独地指出每个单独的出版物、专利或专利申请均通过引用而并入。

附图说明

新颖特征在随附的权利要求中具体阐述。通过参考以下对说明性实施方案(其中利用了本文提供的方法、组合物和试剂盒的原理)加以阐述的详细描述，将会获得对本发明的特征和优点的更好的理解，在附图中：

图1A和图1B描绘了由RNA模板生成定向cDNA文库的方法。图1A描绘了由包含链特异性产物的RNA模板生成定向cDNA文库，所述链特异性产物分别在产物的5’和3’末端具有确定的序列A和B。图1B描绘了由包含链特异性产物的RNA模板生成定向cDNA文库，该链特异性产物分别在产物的5’和3’末端具有确定的序列A和B’。

图2描绘了供图1A和1B中描绘的方法使用的包含含有随机序列的3’突出端的第一衔接子。I描绘了包含3’突出端的第一衔接子，该突出端包含长链和与在两个末端具有封端基团(x)的较长链的5’部分互补的短单链。可以在长链的5’末端存在封端。任意或全部的封端基团可以是任选的。寡核苷酸的末端可以进一步通过硫代磷酸酯保护。II描绘了包含3’突出端和茎环寡核苷酸的第一衔接子。茎环的环部分可以包含DNA或RNA或其组合、非核苷酸接头、核苷酸类似物或其混合物。5’末端还可以包含封端基团。末端可以进一步通过硫代磷酸酯键保护。

图3描绘了由RNA模板生成成链cDNA文库的工作流程。

图4描绘了利用切口酶和DNA聚合酶与在图1A和1B中描绘的方法组合，由双链DNA(例如，基因组DNA)模板生成文库。

图5描绘了由在图1A和1B中描绘的方法生成的cDNA产物的单引物等温扩增。

图6描绘了如在实施例1中描述的，由100ngUniversalHumanReference(UHR)总RNA生成的定向测序文库的大小分布的Bioanalyzer(Agilent)痕迹。

图7描绘了如在实施例1中描述的，来自生成的UHR总RNA(100ng)的定向测序文库(s4_L2DR14；s4_L2DR15)的转录组测序数据。

图8描绘了如在实施例1中描述的，来自生成的UHR总RNA(100ng)的两个定向测序文库(s4_L2DR14；s4_L2DR15)的转录组测序数据的每百万(RPKM)每千碱基转录物的读数值的关联性。

图9描绘了如实施例1和2中描述的，由从UHR总RNA生成的三个定向测序文库获得的测序数据的总结。

图10描绘了如实施例2中描述的，来自生成的UHR总RNA(1ng)的定向测序文库的转录组测序数据。

发明详述

I.综述

本文提供了用于从核酸(例如，RNA和DNA)模板构建定向核酸测序文库的方法、组合物和试剂盒。在一个方面中，本文提供了用于由RNA和DNA模板生成核酸文库的方法、组合物和试剂盒，所述RNA和DNA模板与高通量测序法相容并同时保持有机核酸样品的方向(链型)信息。所述方法可以用于生成表示总转录组和总基因组的文库，而不需要模板基因组dsDNAD物理片段化。所述方法还可以用于由非常小的样品，包括单细胞生成文库。

II.链特异性选择

本文提供的组合物、方法和试剂盒可以用于保持模板核酸的方向信息。模板核酸可以是RNA或DNA。模板核酸可以是单链的或双链的。术语“链特异性”、“定向的”、“链型”可以是指在彼此互补的两条链之间的双链多核苷酸中区分的能力。术语“成链文库”、“成链cDNA文库”、“定向文库”或“定向cDNA文库”可以互换使用。术语“链标记”可以是指区分双链多核苷酸的两条链的任何方法。术语“选择”可以是指用于在双链多核苷酸的两条链之间进行选择的任何方法。

基于本文描述的方法，核酸模板的方向性和链信息的保持可以以大于50％的效率确定。使用本文描述的方法的方向性和链取向的保持的效率可以>50％、>55％、>60％、>65％、>70％、>75％、>80％、>85％、>90％或>95％。方向性和链取向的保持的效率可以>70％、>80％、>90％或>99％。本文描述的方法可以用于生成定向多核苷酸文库，其中在多核苷酸文库的大于50％的多核苷酸包含特异性链取向。使用本文描述的方法的特异性链取向的保持可以是50％、>55％、>60％、>65％、>70％、>75％、>80％、>85％、>90％或>95％。在定向多核苷酸文库中的多核苷酸的特异性链取向的保持可以是>99％。

III.多核苷酸、样品和核苷酸

定向核酸文库可以由自核酸的任何来源获得的核酸模板生成。该核酸可以是RNA或DNA。该核酸可以是单链的或双链的。在一些情况下，该核酸是DNA。该DNA可以使用本领域中的标准技术获得和纯化，并且包括纯化或未纯化形式的DNA。该DNA可以是线粒体DNA、无细胞DNA、互补DNA(cDNA)或基因组DNA。在一些情况下，该核酸是基因组DNA。该DNA可以是质粒DNA、粘粒DNA、细菌人工染色体(BAC)或酵母人工染色体(YAC)。该DNA可以衍生自一种或多种染色体。例如，如果DNA来自人，该DNA可以衍生自一个或多个染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X或Y。在一些情况下，该DNA是双链DNA。在一些情况下，该双链DNA是基因组DNA。在一些情况下，该DNA是cDNA。在一些情况下，该cDNA是双链cDNA。在一些情况下，该cDNA衍生自RNA，其中RNA经历第一链合成接着第二链合成。该RNA可以使用本领域中的标准技术获得和纯化并包括纯化或未纯化形式的RNA，其包括但不限于mRNA、tRNA、snRNA、rRNA、反转录病毒、小非编码RNA、微RNA、多聚核糖体RNA、前-mRNA、基因内RNA、病毒RNA、无细胞RNA及其片段。非编码RNA或ncRNA可以包含snoRNA、微RNA、siRNA、piRNA和长ncRNA。

用于本文描述的方法核酸来源可以是包含核酸的样品。核酸可以从样品分离并通过本领域中已知的任意方法纯化以纯化来自样品的核酸。样品可以衍生自包含多核苷酸的非细胞体(例如病毒)或衍生自细胞基有机物(例如，古细菌、细菌或真核域)。在一些情况下，样品获自表面例如门或台面的拭子。

样品可以来自受试者，例如植物、真菌、真细菌、古细菌、protest或动物。受试者可以是生物(单细胞或多细胞生物)。受试者可以是培养的细胞，其可以是原代细胞或来自确立的细胞系的细胞等。样品可以最初由任意合适形式的多细胞生物分离。动物可以是鱼，例如斑马鱼。动物可以是哺乳动物。哺乳动物可以是例如狗、猫、马、牛、小鼠、大鼠或猪。哺乳动物可以是灵长类动物，例如人、黑猩猩、猩猩或大猩猩。人可以是男性或女性。样品可以来自人胚胎或人胎儿。人可以是婴儿、儿童、青少年、成人或老人。女性可以是怀孕的、疑似怀孕的或计划怀孕的。在一些情况下，样品是来自受试者的单个或单独细胞，且多核苷酸来源于单个或单独细胞。在一些情况下，样品是单独的微生物或微生物群或微生物与宿主细胞或无细胞核酸的混合物。

样品可以来自健康的受试者(例如，人类受试者)。在一些情况下，样品取自至少4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25或26周妊娠的受试者(例如，预期的母亲)。在一些情况下，受试者受到遗传疾病的影响，是遗传疾病的携带者，或处于发展或遗传遗传疾病的风险中，其中该遗传疾病是可能与遗传变异如突变、插入、添加、缺失、易位、点突变、三核苷酸重复病症和/或单核苷酸多态性(SNP)相关的任何疾病。

样品可以来自患有特定疾病、病症或病状或疑似患有特定疾病、病症或病状(或处于患有特定疾病、病症或病状的风险中)的受试者。例如，样品可以来自癌症患者、疑似患有癌症的患者或处于患有癌症的风险中的患者。癌症可以是例如，急性淋巴细胞白血病(ALL)、急性骨髓性白血病(AML)、肾上腺皮质癌、卡波西肉瘤、直肠癌、基底细胞癌、胆管癌、膀胱癌、骨癌、骨肉瘤、恶化纤维组织细胞瘤、脑干胶质瘤、脑癌、颅咽管瘤、室管膜母细胞瘤、室管膜瘤、髓母细胞瘤、髓上皮瘤、松果体实质肿瘤、乳腺癌、支气管肿瘤、伯基特淋巴瘤、非霍奇金淋巴瘤、类癌瘤、宫颈癌、脊索瘤、慢性淋巴细胞白血病(CLL)、慢性髓性白血病(CML)、结肠癌、结直肠癌、皮肤T细胞淋巴瘤、原位导管癌、子宫内膜癌、食管癌、尤因肉瘤、眼癌、眼内黑素瘤、视网膜母细胞瘤、纤维组织细胞瘤、胆囊癌、胃癌、胶质瘤、多毛细胞白血病、头颈癌、心脏癌、肝细胞(肝)癌、霍杰金淋巴瘤、下咽癌、肾癌、喉癌、唇癌、口腔癌、肺癌、非小细胞癌、小细胞癌、黑素瘤、口腔癌、骨髓增生异常综合征、多发性骨髓瘤、髓母细胞瘤、鼻腔癌、鼻窦癌、成神经细胞瘤、鼻咽癌、口癌、口咽癌、骨肉瘤、卵巢癌、胰腺癌、乳头状瘤病、神经节细胞瘤、甲状旁腺癌、阴茎癌、咽癌、垂体瘤、浆细胞瘤、前列腺癌、直肠癌、肾细胞癌、横纹肌肉瘤、涎腺癌、塞扎里综合征、皮肤癌、非黑素瘤、小肠癌、软组织肉瘤、鳞状细胞癌、睾丸癌、咽喉癌、胸腺瘤、甲状腺癌、尿道癌、子宫癌、子宫肉瘤、阴道癌、外阴癌、瓦尔登斯特伦巨球蛋白血症或维尔姆斯瘤。样品可以来自癌症患者的癌和/或正常组织。

样品可以是房水、玻璃体液、胆汁、全血、血清、血浆、乳汁、脑脊液、耳垢、内淋巴、外淋巴、胃液、粘液、腹膜液、唾液、皮脂、精液、汗液、眼泪、阴道分泌物、呕吐物、粪便或尿液。样品可以从医院、实验室、临床或医疗实验室获得。样品可以取自受试者。样品可以是包含介质例如水、土壤、空气等的环境样品。样品可以是法院样品(例如，毛发、血液、精液、唾液等)。样品可以包含用于生物恐怖袭击(例如，流感、炭疽病、天花)的物剂。

样品可以包含核酸。该核酸可以是，例如，线粒体DNA、基因组DNA、mRNA、siRNA、miRNA、cRNA、单链DNA、双链DNA、单链RNA、双链RNA、tRNA、rRNA或cDNA。样品可以包含无细胞核酸。样品可以是细胞系、基因组DNA、无细胞血浆、福尔马林固定石蜡包埋(FFPE)样品或快速冷冻样品。福尔马林固定石蜡包埋样品可以在提取核酸前脱石蜡。样品可以来自器官，例如心脏、皮肤、肝、肺、乳房、胃、胰、膀胱、结肠、胆囊、脑等。核酸可以通过本领域普通技术人员可得的手段从样品中提取。

可以处理样品以使其适用于片段化、连接、变性和/或扩增或本文提供的任何方法。示例性的样品处理可以包括裂解样品的细胞以释放核酸，纯化样品(例如，分离核酸与其他样品组分，这可以抑制酶反应)，稀释/浓缩样品和/或将样品与试剂合并用于进一步的核酸处理。在一些实例中，样品可以与限制酶、逆转录酶或核酸处理的任何其他酶合并。

本文描述的方法可以用于分析或检测一种或多种靶核酸。术语多核苷酸或语法上的等同词语，可以是指共价连接在一起的至少两个核苷酸。本文描述的多核苷酸可以包含磷酸二酯键，尽管在一些情况下，如下文概述的(例如，在引物和探针例如标记探针的构建中)，包括可具有替代性骨架的核酸类似物，包括例如磷酰胺(Beaucage等人.,Tetrahedron49(10):1925(1993)以及其中的参考文献；Letsinger,J.Org.Chem.35:3800(1970)；Sprinzl等人.,Eur.J.Biochem.81:579(1977)；Letsinger等人.,Nucl.AcidsRes.14:3487(1986)；Sawai等人,Chem.Lett.805(1984)，Letsinger等人.,J.Am.Chem.Soc.110:4470(1988)；以及Pauwels等人.,ChemicaScripta26:14191986))、硫代磷酸(Mag等人.,NucleicAcidsRes.19:1437(1991)；以及美国专利号5,644,048)、二硫代磷酸(Briu等人.,J.Am.Chem.Soc.111:2321(1989),O-methylphosphoroamiditelinkages(参见Eckstein,OligonucleotidesandAnalogues:APracticalApproach,OxfordUniversityPress)以及肽核酸(在本文中也称为“PNA”)骨架和键(参见，Egholm,J.Am.Chem.Soc.114:1895(1992)；Meier等人.,Chem.Int.Ed.Engl.31:1008(1992)；Nielsen,Nature,365:566(1993)；Carlsson等人.,Nature380:207(1996)，所有这些文献均通过引用而并入)。其他核酸类似物包括具有包括锁核酸(在本文中也称为“LNA”)，Koshkin等人.,J.Am.Chem.Soc.120.132523(1998)；阳性骨架(Denpcy等人.,Proc.Natl.Acad.Sci.USA92:6097(1995))；非离子骨架(美国专利号5,386,023、5,637,684、5,602,240、5,216,141和4,469,863；Kiedrowshi等人.,Angew.Chem.Intl.Ed.English30:423(1991)；Letsinger等人.,J.Am.Chem.Soc.110:4470(1988)；Letsinger等人.,Nucleoside&Nucleotide13:1597(1994)；第2和3章,ASCSymposiumSeries580,"CarbohydrateModificationsinAntisenseResearch",Y.S.Sanghui和P.DanCook编著；Mesmaeker等人.,Bioorganic&MedicinalChem.Lett.4:395(1994)；Jeffs等人.,J.BiomolecularNMR34:17(1994)；TetrahedronLett.37:743(1996))以及非核糖骨架的双环结构的那些，包括在以下文献中描述的那些：美国专利号5,235,033和5,034,506，以及第6和7章,ASCSymposiumSeries580,"CarbohydrateModificationsinAntisenseResearch",Y.S.Sanghui和P.DanCook编著。含有一个或多个碳环糖的核酸也包含在核酸的定义内(参见Jenkins等人.,Chem.Soc.Rev.(1995)pp169176))。在Rawls,C&ENews,1997年6月2日,第35页中描述了若干种核酸类似物。“锁核酸”也包含在核酸类似物的定义内。LNA是一类其中核糖环被连接2′-O原子与4′-C原子的亚甲基桥“锁定”的核酸类似物。所有这些参考文献在此通过引用特别地并入。可以对核糖-磷酸骨架的这些修饰，以提高此类分子在生理环境中的稳定性和半衰期。例如，PNA：DNA和LNA-DNA杂交体可表现出较高的稳定性，并因此可在一些情况下使用。核酸根据指定可以是单链或双链的，或者包含双链或单链序列两者的部分。根据应用，核酸可以是DNA(包括，例如，基因组DNA、线粒体DNA和cDNA)、RNA(包括，例如，mRNA和rRNA)或杂交体，其中核酸包含脱氧核糖核苷酸和核糖核苷酸的任何组合，以及碱基的任何组合，该碱基包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、肌苷、黄嘌呤(xathanine)、次黄嘌呤(hypoxathanine)、异胞嘧啶、异鸟嘌呤等。

术语“未修饰的核苷酸”或“未修饰的dNTP”或“经典dNTP”可以是指通常可用作DNA合成中的构建单元的四种三磷酸脱氧核糖核苷酸dATP(三磷酸脱氧腺苷)、dCTP(三磷酸脱氧胞苷)、dGTP(三磷酸脱氧鸟苷)和dTTP(三磷酸脱氧胸苷)。

术语“规范的dNTP”或“规范的核苷酸”可以用于指通常在DNA中发现的四种三磷酸脱氧核糖核苷酸dATP、dCTP、dGTP和dTTP。

术语“修饰的核苷酸”、“修饰的dNTP”或“核苷酸类似物”可以是指适用于取代一个相应的未修饰核苷酸或经典dNTP的任何分子。这些修饰的核苷酸必须能够经历与其取代的经典或未修饰的dNTP相同或相似的碱基对匹配。修饰的核苷酸或dNTP必须适于特定的降解或裂解，其中其通过合适的降解或裂解剂选择性地进行降解或裂解。修饰的核苷酸必须标记适于选择性去除或裂解的包含修饰的核苷酸的DNA链或促进多核苷酸链的分离。这样的去除或裂解或分离可以通过选择性地与修饰的核苷酸相互作用的分子、颗粒或酶实现，由此选择性去除或标记以去除或裂解仅一个多核苷酸链。

术语“非规范”可以是指除在DNA中的四种规范碱基外在DNA中的核酸碱基，或其脱氧核糖核苷酸或脱氧核糖核苷类似物。尽管尿嘧啶是RNA中的常见核酸碱基，但尿嘧啶是DNA中的非规范碱基。在一些情况下，非规范dNTP是dUTP。

术语“条码”可以是指允许与该条码相关联的核酸的一些特征被鉴别的已知核酸序列。在一些情况下，待鉴别的核酸的特征是核酸所源自的样品。在一些情况下，条码为至少3、4、5、6、7、8、9、10、11、12、13、14、15个或更多个核苷酸的长度。在一些情况下，条码短于10、9、8、7、6、5或4个核苷酸的长度。寡核苷酸(例如，引物或衔接子)可以包含约、多于、少于或至少1、2、3、4、5、6、7、8、9或10个不同的条码。条码可以与来源于包含模板核酸的样品的模板核酸相关联(例如，通过退火或连接)。在一些情况下，与来源于一个样品的模板核酸相关联的条码不同于与来源于另一个样品的模板核酸相关联的条码。与来源于第一样品的模板核酸相关联的条码可以具有不同于与来源于第二样品的模板核酸相关联的条码的长度。条码可以具有足够的长度并包含可以足够不同的序列以允许基于与样品相关联的条码进行样品的鉴别。在一些情况下，条码以及与其关联的样品来源可以在条码序列中的一个或多个核苷酸的突变、插入或缺失后，例如1、2、3、4、5、6、7、8、9、10个或更多个核苷酸的突变、插入或缺失后准确地鉴别。在一些情况下，多个条码中的各条码与所述多个条码中的各其他条码在至少3个核苷酸位置，例如至少3、4、5、6、7、8、9、10个或更多个位置不同。在一些情况下，衔接子包含多个条码序列中的至少一个。在一些情况下，第二衔接子寡核苷酸的条码独立于第一衔接子/引物寡核苷酸的条码进行选择。在一些情况下，具有条码的第一衔接子/引物寡核苷酸和第二衔接子寡核苷酸进行配对，使得该对衔接子包含相同或不同的一个或多个条码。在一些情况下，本文描述的方法进一步包括基于连接靶核酸的条码序列鉴别模板核酸所源自的样品。条码可以包含当连接至模板核酸时用作模板核酸所源自的样品的标识符的多核苷酸序列。

在一些情况下，条码包含用于独特地标记在包含多个核酸片段的样品中的各单独片段的随机序列。独特附加的条码提供了在下游定量程序，例如大规模并行下一代测序期间定量独特片段的手段。条码可以是用于本文描述的方法中的任意衔接子和/或引物的一部分并由此可以通过本文提供的方法附加至个别片段或多个片段。在这些情况下，条码是随机附加的并对于它们所附加的片段而非样品是独特的。这些条码可以与对样品或核酸的来源具有特异性的条码组合。

“允许(allow)或(permit)”事件发生的条件或“适于”事件发生的条件，例如多核苷酸合成、非规范核苷酸的碱基部分的裂解、磷酸二酯骨架在脱碱基位点的裂解等，或“合适”的条件是不阻止此类事件发生的条件。因此，这些条件允许、增强、促进和/或有助于事件。本领域已知的以及本文描述的这些条件取决于，例如，多核苷酸序列的性质、温度和缓冲条件。这些条件还取决于期望的事件，例如多核苷酸合成、非规范核苷酸的碱基部分的裂解、磷酸二酯骨架在脱碱基位点的裂解等。

IV.包含非规范核苷酸的多核苷酸的合成

包含非规范核苷酸的多核苷酸可以在至少一种非规范核苷酸的存在下通过由模板核酸合成多核苷酸产生，由此生成包含非规范核苷酸的多核苷酸。非规范核苷酸掺入多核苷酸(例如，第一链cDNA)的频率与使用本文提供的方法生成的片段的大小相关，因为，如本文所述，在包含非规范核苷酸的多核苷酸中的非规范核苷酸之间的间隔以及所用的反应条件可以确定由自非规范核苷酸生成脱碱基位点和在脱碱基位点裂解骨架得到的片段的近似大小。片段的所需大小范围可以根据下游应用，例如适用于大规模并行测序的测序文库的生成的需要而变化。

通过本文提供的方法生成的多核苷酸可以是DNA或互补DNA(cDNA)，其中cDNA与模板核酸互补，尽管，如本文所述，多核苷酸可以包含改变的和/或修饰的核苷酸、核苷酸间连接键、核糖核苷酸等。

用于由模板核酸合成多核苷酸(例如，单链和双链DNA)的方法是本领域中公知的，并包括但不限于，单引物恒温扩增(SPIA^TM)、Ribo-SPIA^TM、PCR、逆转录、引物延伸、受限引物延伸、复制(包括滚环复制)、链置换扩增(SDA)、切口翻译、多重置换扩增(MDA)、滚环扩增(RCA)和例如导致模板核酸序列的补体的合成使得至少一个非规范核苷酸可以掺入多核苷酸的任何方法。参见，例如,Kurn,美国专利号6,251,639；Kurn,WO02/00938；Kurn,美国专利号6,946,251；Kurn,美国专利号6,692,918；Mullis,美国专利号4,582,877；Wallace,美国专利号6,027,923；美国专利号5,508,178；5,888,819；6,004,744；5,882,867；5,710,028；6,027,889；6,004,745；5,763,178；5,011,769；还参见Sambrook(1989)“MolecularCloning:ALaboratoryManual”,第二版；Ausebel(1987,以及更新材料)“CurrentProtocolsinMolecularBiology”,Mullis,(1994)“PCR:ThePolymeraseChainReaction”。本领域中已知的一种或多种方法可以用于生成包含非规范核苷酸的多核苷酸。可以理解，包含非规范核苷酸的多核苷酸可以是单链的或双链的或部分双链的，且双链多核苷酸的一条或两条链可以包含非规范核苷酸。为方便起见，“DNA”在本文可以用于描述(和示例)多核苷酸。DNA且因此多核苷酸，可以是通过产生与模板核酸互补的核苷酸链生成的互补DNA(cDNA)(例如，通过第一和/或第二链合成由RNA模板生成的cDNA或使用模板DNA由延伸或复制反应生成的cDNA)。合适的方法包括导致包含非规范核苷酸的一个单链或双链多核苷酸的方法(例如，逆转录、双链cDNA的生成、单轮DNA复制)以及导致多个单链或双链拷贝或模板的补体的拷贝的方法(例如，单引物恒温扩增或Ribo-SPIA^TM或PCR)。在一些情况下，包含非规范核苷酸的单链多核苷酸使用单引物恒温扩增合成。参见Kurn,美国专利号6,251,639和6,692,918。

包含非规范核苷酸的多核苷酸可以在所有四种规范核苷酸和至少一种非规范核苷酸的存在下，在适于多核苷酸合成的反应条件(包括合适的酶和引物，如果必要的话)下由模板生成。用于合成包含非规范核苷酸的多核苷酸的反应条件和试剂(包括引物)是本领域中已知的并在本文中进一步讨论。合适的非规范核苷酸是本领域中公知的，并且包括：三磷酸脱氧尿苷(dUTP)、三磷酸脱氧肌苷(dITP)、三磷酸5-羟基甲基脱氧胞苷(5-OH-Me-dCTP)。参见，例如，Jendrisak,美国专利号6,190,865B1；Mol.CellProbes(1992)251-6。两种或更多种不同的非规范核苷酸可以通过如本文提供的DNA聚合酶掺入由模板核酸合成的多核苷酸中，由此可以生成包含至少两种不同的非规范核苷酸的多核苷酸。

在一些情况下，包含非规范核苷酸的多核苷酸在如本文提供的非规范核苷酸的存在下由一种模板核酸或多种模板核酸通过逆转录生成，其中模板核酸是RNA。在一些情况下，包含非规范核苷酸的多核苷酸在如本文提供的非规范核苷酸的存在下使用由模板核酸通过逆转录生成的第一链cDNA通过第二链合成反应生成，其中该模板核酸是RNA。在一些情况下，用于逆转录的引物包含随机引物，其中该随机引物包含针对一种或多种RNA模板的随机序列。在一些情况下，用于逆转录的引物包含对靶RNA或一组RNA具有特异性的序列。该组RNA可以包含基本上所有的转录物。靶向的该组RNA可以是除结构RNA如核糖体RNA(rRNA)外的所有RNA。在一些情况下，用于第二链合成的引物包含随机引物，其中该随机引物包含针对用于第一链cDNA合成的一种或多种RNA模板的随机序列。在一些情况下，用于第二链合成的引物包含对靶RNA或用于第一链cDNA合成的一组RNA具有特异性的序列。该组RNA可以包含基本上所有的转录物。靶向的该组RNA可以是除结构RNA如核糖体RNA(rRNA)外的所有RNA。在一些情况下，用于第一或第二链cDNA或两者的合成的一种或多种引物可以设计成与在一种或多种多核苷酸模板上的特异性靶标杂交。

在一些情况下，包含非规范核苷酸的多核苷酸在如本文提供的非规范核苷酸的存在下由模板核酸通过引物延伸反应生成，其中该模板核酸是DNA。该DNA可以是dsDNA。该dsDNA可以在引物延伸反应前通过本领域中已知的任何方法变性。引物可以包含随机序列或针对特异性靶序列或成组序列的序列。在一些情况下，包含非规范核苷酸的多核苷酸通过由dsDNA中的一条链的磷酸二酯骨架中的切口或断裂口延伸而生成。可以理解，尽管为了简化而使用单模板核酸，但引物延伸反应可以在一个或多个模板核酸或其混合物上进行，由此由引物延伸反应生成一种或多种产物。

在一些情况下，包含非规范核苷酸的多核苷酸在如本文提供的非规范核苷酸的存在下由一种模板核酸或多种模板核酸通过链置换扩增反应生成，其中该模板核酸是DNA。该DNA可以是通过本文描述的任何方法生成的dsDNA或基因组DNA。该dsDNA可以用切口酶或内切核酸酶进行处理。该切口酶可以在dsDNA模板(例如，基因组DNA)的一条链的磷酸二酯骨架中产生断裂，由此产生游离的3’羟基(OH)。该游离的3’OH可以使用如本文提供的包含链置换活性的DNA依赖性DNA聚合酶进行延伸，其中dsDNA模板的其他链可以用作模板。切口酶可以是链特异性的或非链特异性的。用于本文提供的方法中的切口酶或内切核酸酶可以包括本领域中已知的任何切口酶，包括由NewEnglandBiolabs提供的那些。切口内切核酸酶的实例包括但不限于，顶链裂解Nt.AlwI、Nt.BbvCI、Nt.BstNBI、Nt.SapI或Nt.CviPII，或底链裂解Nb.BbvCI、Nb.BsmI或Nb.BsrDI。切口内切核酸酶可以是例如Nt.BspQI、Nt.BsmAI或Nb.Mva1269I。

图4描绘了使用链置换扩增来由基因组DNA模板生成包含非规范核苷酸的多核苷酸的示例性方法。双链DNA(基因组DNA)用切口酶进行处理以在dsDNA模板的一条链中产生切口(例如，一个或多个)。在用切口酶处理后在dsDNA的一个链中的切口可以由此产生一个或多个3’羟基(OH)。任选地，切口酶可以是有义选择性的(senseselective)，由此保持模板DNA的链型。然后在一条链中包含切口(例如，一个或多个)的dsDNA可以在包含所有四种dNTP(例如，dATP、dTTP、dCTP和dGTP)和非规范核苷酸(例如，dUTP)的反应混合物的存在下，用包含链置换活性的DNA聚合酶进行处理，其中该DNA聚合酶可以使用由切口酶生成的一个或多个3’OH以使用其他或未切口的dsDNA链作为模板进行延伸反应，由此生成包含尿嘧啶碱基的单链产物或多核苷酸(例如，一个或多个或复数个)。然后包含尿嘧啶碱基的单链产物或多核苷酸可以用UDG结合热或如本文提供的多胺(DMED)进行处理以生成多个或复数个在3’末端包含封端的单链多核苷酸。在包含尿嘧啶碱基的单链产物中掺入dUTP的频率可以如本文所提供的进行控制以在用裂解剂(例如，UDG和热或DMED)处理后生成包含3’末端封端的多个片段。

用于非规范核苷酸的受限和/或受控掺入的条件是本领域中已知的。参见，例如，Jendrisak,美国专利号6,190,865B1；Mol.CellProbes(1992)251-6；Anal.Biochem.(1993)211:164-9；还参见Sambrook(1989)“MolecularCloning:ALaboratoryManual”,第二版；Ausebel(1987，以及更新材料)“CurrentProtocolsinMolecularBiology”。非规范核苷酸在所得到的包含非规范核苷酸的多核苷酸中的频率(或间隔)，和因此使用本文提供的方法生成的片段的平均大小(即，在非规范核苷酸的碱基部分的裂解，和磷酸二酯骨架在非规范核苷酸处的裂解后)，可以通过本领域中已知的变量进行控制，所述变量包括：与模板中的非规范核苷酸对应的核苷酸的频率(或序列的核苷酸含量的其他量度，例如平均G-C含量)、在反应混合物中存在的规范核苷酸与非规范核苷酸的比例；聚合酶掺入非规范核苷酸的能力、非规范核苷酸与规范核苷酸掺入的相对效率等。平均片段大小还可与如本文提供的在片段化期间使用的反应条件相关。所述反应条件可以是经验确定的，例如，通过评价使用本文提供的方法生成的平均片段大小。

用于生成如本文提供的包含非规范核苷酸的多核苷酸的方法可以用于在所得包含非规范核苷酸的多核苷酸中正好、大于、小于、至少、至多或约每相隔5、10、15、20、25、30、40、50、65、75、85、100、123、150、175、200、225、250、300、350、400、450、500、550、600或650个核苷酸掺入非规范核苷酸。可以约每200个核苷酸、约每100个核苷酸或约每50个核苷酸掺入非规范核苷酸。可以约每50个至约200个核苷酸掺入非规范核苷酸。在一些情况下，在反应混合物中使用1:5比例的dUTP和dTTP。其他示例性的比例可以是正好、约、大于、小于、至少或至多1:1、1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9、1:10、1:15、1:20或1:50的dUTP与dTTP。

模板核酸(与包含非规范核苷酸的多核苷酸一起合成)可以是来自任何来源的任何模板核酸。模板核酸包含来自任何来源的纯化或非纯化形式的双链、部分双链和单链核酸，其可以是生物物质如微生物例如，细菌、酵母、病毒、类病毒、霉菌、真菌、植物、动物、人的DNA(dsDNA和ssDNA)或RNA，包括tRNA、mRNA、rRNA、线粒体DNA和RNA、叶绿体DNA和RNA、DNA-RNA杂交体或其混合物，基因，染色体，质粒，基因组及其片段。获得和纯化核酸使用本领域中的标准技术。RNA可以使用本领域中的标准技术来获得和纯化。DNA模板(包括基因组DNA模板)可以转录成RNA形式，这可使用在Kurn,美国专利号6,251,639B1中公开的方法和通过本领域中已知的其他技术(例如表达系统)来实现。基因组DNA的RNA拷贝将通常包括通常未在mRNA中发现的未转录序列，例如内含子、调节或控制元件等。RNA模板的DNA拷贝可以使用在Kurn,美国专利号6,946,251中描述的方法或在本领域中已知的其他技术合成。由DNA-RNA杂合体合成包含非规范核苷酸的多核苷酸可以通过使该杂合体变性以获得ssDNA和/或RNA、用能够裂解来自RNA/DNA杂交体的RNA的作用物裂解和本领域中已知的其他方法来实现。在一些情况下，在合成的包含非规范核苷酸的多核苷酸的片段化的同时裂解模板RNA。模板可以是仅小部分的复杂混合物例如生物样品并可以通过本领域中公知的程序由多种生物材料获得。模板可以是已知的或未知的，并可以包含多于一种的感兴趣的所需特异性核酸序列，这些序列中的每个可以是相同的或彼此不同的。因此，本文提供的方法不仅可以用于生成一种包含非规范核苷酸的特异性多核苷酸，而且还用于同时生成多种不同的包含非规范核苷酸的特异性多核苷酸。模板DNA可以是核酸的亚群，例如，消减杂交探针、总基因组DNA、限制性片段、cDNA文库、由总mRNA制备的cDNA、克隆文库或本文描述的任何模板的扩增产物。在一些情况下，模板核酸序列的一部分的补体的合成的初始步骤是模板变性。变性步骤可以是热变性或本领域中已知的任何其他方法，例如碱处理。在其他情况下，补体或模板核酸序列的一部分的合成的初始步骤是产生切口步骤。双链模板的切口产生可以通过酶反应或通过物理或化学手段来进行。

将包含非规范核苷酸(例如，dUTP)的多核苷酸或第一链cDNA描述为单个核酸。可以理解多核苷酸可以是单个多核苷酸或多核苷酸的群(从几个到大量到非常大量的多核苷酸)。可以进一步理解包含非规范核苷酸的多核苷酸可以是大量或多个(从少到非常多)不同的多核苷酸分子。这些群可以是在序列上相关的(例如，基因家族或超家族的成员)或在序列上极端不同的(例如，由所有的mRNA生成的，由所有的基因组DNA生成的等)。多核苷酸也可以对应于单个序列(其可以是部分或完全的已知基因，例如编码区、基因组部分等)。用于生成特异性多核苷酸序列和多个或复数个多核苷酸序列的方法、试剂和反应条件是本领域中已知的。

包含非规范核苷酸的多核苷酸的合适的合成方法可以是模板依赖性的(如通常本文所述的，在包含非规范核苷酸的多核苷酸与核酸模板一起合成的意义上)。可以理解非规范核苷酸可以作为模板独立性方法的结果掺入多核苷酸中。例如，一种或多种引物可以设计成包含一种或多种非规范核苷酸。参见，例如，Richards,美国专利号6,037,152、5,427,929和5,876,976。非规范核苷酸在引物中的纳入可以特别适用于诸如单引物恒温扩增等方法。参见Kurn,美国专利号6,251,639B1；Kurn,WO02/00938；Kurn,美国专利公开号2003/0087251A1。非规范核苷酸还可以通过模板独立性方法例如包含非规范核苷酸的第二多核苷酸的加尾或连接加入至多核苷酸中。用于加尾和连接的方法是本领域中公知的。

V.由第一链cDNA生成定向文库

裂解非规范核苷酸的碱基部分以产生脱碱基位点

在一些情况下，包含非规范核苷酸的多核苷酸用能够总体地、特异性地或选择性地裂解非规范核苷酸的碱基部分的作用物例如酶进行处理以产生脱碱基位点。如本文所用的“脱碱基位点”包括在用能够裂解核苷酸的碱基部分的作用物去除碱基部分(包括整个碱基)后，例如通过用能够实现非规范核苷酸碱基部分的裂解的作用物(例如，酶、酸性条件或化学试剂)处理(存在于多核苷酸链中的)非规范核苷酸后保留的任何化学结构。在一些实施方案中，作用物(例如，酶)催化在非规范核苷酸的碱基部分与非规范核苷酸的糖之间的键的水解，以生成包含半缩醛环且缺乏碱基的脱碱基位点(可互换地称作“AP”位点)，然而考虑将其他裂解产物用于本文提供的方法中。用于裂解非规范核苷酸的碱基部分的合适的作用物和反应条件是本领域中已知的，并包括：N-糖基化酶(还称作“DNA糖基化酶”或“糖苷酶”)，包括尿嘧啶N-糖基化酶(“UNG”；特异性地裂解dUTP)(可互换地称作“尿嘧啶DNA转葡糖基酶”)、次黄嘌呤-N-糖基化酶和羟甲基胞嘧啶-N-糖基化酶；3-甲基腺嘌呤DNA糖基化酶、3-或7-甲基鸟嘌呤DNA糖基化酶、羟甲基尿嘧啶DNA糖基化酶；T4内切核酸酶V。参见，例如，Lindahl,PNAS(1974)71(9):3649-3653；Jendrisak,美国专利号6,190,865B1。在一些情况下，UNG用于裂解掺入通过本文提供的方法生成的多核苷酸中的dUTP的碱基部分。

在能够裂解非规范核苷酸的碱基部分的作用物(例如酶)总体地、特异性地或选择性地裂解特定非规范核苷酸的碱基部分的意义上，在通过本文提供的方法生成的包含非规范核苷酸的多核苷酸中存在的非规范核苷酸的碱基部分的裂解可以是总体的、特异性的或选择性的裂解，由此大于约98％、约95％、约90％、约85％或约80％的裂解的碱基部分是非规范核苷酸的碱基部分。然而，裂解的程度可以更低。因此，对特异性裂解的提及是示例性的。总体的、特异性的或选择性的裂解对于在本文提供的方法中控制片段大小以生成在3’末端包含封端的多核苷酸片段(即，通过在脱碱基位点处裂解骨架所生成的片段)可能是理想的。可以选择反应条件以使得其中产生脱碱基位点的反应可运行至完全。

如通过本文提供的方法生成的包含非规范核苷酸的多核苷酸可以在具有非规范核苷酸的多核苷酸的合成后进行纯化(以去除，例如可能存在于反应混合物中的残余游离非规范核苷酸)。在一些情况下，在包含非规范核苷酸的多核苷酸的合成与后续步骤(例如，非规范核苷酸的碱基部分的裂解和在脱碱基位点处磷酸二酯骨架的裂解)之间没有中间纯化。

如本文所述，为方便起见，已将非规范核苷酸的碱基部分的裂解(由此产生脱碱基位点)作为单独的步骤进行描述。可以理解该步骤可以与包含非规范核苷酸的多核苷酸(如本文提供的)的合成和骨架在脱碱基位点处的裂解(片段化)同时进行。进一步可以理解，合成包含非规范核苷酸的多核苷酸的步骤与裂解非规范核苷酸以产生脱碱基位点可以同时进行，而在脱碱基位点处裂解骨架可以在后续步骤中进行。在脱碱基位点处裂解骨架可以与包括降解模板核酸的步骤同时进行或这两个步骤可以相继进行。

可以理解，在特定的非规范核苷酸由能够裂解该非规范核苷酸的碱基部分的特定酶识别的程度上，对非规范核苷酸的选择可以指定对将用于裂解该非规范核苷酸的碱基部分的酶的选择。对至少一种非规范核苷酸的选择可以进一步由掺入通过所用的DNA聚合酶合成的包含非规范核苷酸的多核苷酸的效率指定。

在脱碱基位点或其附近裂解骨架以产生多核苷酸片段

如通过本文提供的方法生成的包含脱碱基位点的多核苷酸的骨架可以用产生具有封端3’末端的多核苷酸片段的作用物在脱碱基位点或其附近进行裂解。可以理解裂解核苷酸的碱基部分以产生脱碱基位点与裂解多核苷酸骨架可以同时进行。然而，为方便起见，将这些反应作为单独的步骤进行描述。

在通过裂解核苷酸，例如存在于如本文中生成的多核苷酸中的非规范核苷酸的碱基部分产生脱碱基位点后，可以使用能够实现骨架在脱碱基位点处裂解以产生包含封端3’末端的多核苷酸片段的作用物，在脱碱基位点或其附近，例如非规范核苷酸掺入的位点(也称作脱碱基位点，在非规范核苷酸的碱基部分的裂解后产生)裂解多核苷酸的骨架。多核苷酸骨架的裂解(也称作“片段化”)可以产生至少两个片段(取决于存在于包含脱碱基位点的多核苷酸中的脱碱基位点的数目，和裂解的程度)，其中的一个不包含封端3’末端。

能够在脱碱基位点裂解骨架以产生具有封端3’末端的多核苷酸片段的合适的作用物(例如，酶、化学和/或反应条件例如热)是本领域中公知的，并包括热处理和/或化学处理(包括碱性条件、酸性条件、烷基化条件或胺介导的脱碱基位点的裂解)(参见，例如，McHugh和Knowland,Nucl.AcidsRes.(1995)23(10):1664-1670；Bioorgan.Med.Chem(1991)7:2351；Sugiyama,Chem.Res.Toxicol.(1994)7:673-83；Horn,Nucl.Acids.Res.,(1988)16:11559-71)。如本文所用的“作用物”或“裂解剂”包含反应条件例如热。在一些情况下，裂解是利用多胺，例如N,N′-二甲基乙二胺(DMED)。参见，例如，上述McHugh和Knowland。在一些情况下，裂解是利用酶的组合。用于本文提供的方法中的酶的组合的实例是USER(UNG与来自NewEnglandBiolabs的内切核酸酶VIII的组合)。

裂解可以在紧邻脱碱基残基的3’的核苷酸与脱碱基残基之间进行。如本领域中公知的，裂解可以在脱碱基位点的3’(例如，在脱碱基残基的脱氧核糖环和3’-磷酸基团与相邻核苷酸的脱氧核糖环之间裂解，从而生成在相邻核苷酸的脱氧核糖环上的游离5’磷酸基团)，以使得脱碱基位点位于所得片段的3’末端。在碱性条件下或用胺(例如，N,N′-二甲基乙二胺)处理可以导致磷酸二酯骨架在紧邻脱碱基位点的3’处裂解以产生具有封端3’末端的多核苷酸片段。此外，多种复杂形式的裂解也是可能的，例如，导致磷酸二酯骨架的裂解和脱碱基核苷酸(的一部分)的裂解的裂解。例如，在某些条件下，使用化学处理和/或热处理的裂解可以包含β-去除步骤，其导致脱碱基位点脱氧核糖环与其3’磷酸之间的键的裂解，从而生成反应性α,β-不饱和醛，该反应性α,β-不饱和醛可以进行标记或可以经受进一步的裂解和环化反应。参见，例如，Sugiyama,Chem.Res.Toxicol.(1994)7:673-83；Horn,Nucl.Acids.Res.,(1988)16:11559-71。可以理解可以使用多于一种裂解方法，包括产生包含封端3’末端的多种不同类型的裂解产物的两种或更多种不同的方法。

骨架在脱碱基位点处的裂解可以是总体的、特异性的或选择性的裂解，由此大于约98％、约95％、约90％、约85％或约80％的裂解是在脱碱基位点。然而，裂解的程度可以更低。因此，对特异性裂解的提及是示例性的。总体的、特异性的或选择性的裂解对于在生成包含封端3’末端的多核苷酸片段的方法中控制片段大小以生成如本文提供的定向多核苷酸文库可能是理想的。可以选择反应条件以使得裂解反应在大量过量试剂的存在下进行，并允许以关于多核苷酸的过度裂解的最小关注运行至完全(即，同时保持所需的片段大小，该片段大小可以通过在上述合成步骤期间掺入的非规范核苷酸的间隔来确定)。裂解的程度可以更低，以使得可以生成包含在末端的脱碱基位点和在多核苷酸片段内或内部(即，不在末端)的脱碱基位点的多核苷酸片段。

如本文所述，在其中通过在非规范核苷酸的存在下合成的多核苷酸中的非规范核苷酸的碱基部分的裂解生成脱碱基位点的实施方案中，非规范核苷酸掺入多核苷酸的频率与使用本文提供的方法产生的片段大小有关，因为在包含非规范核苷酸的多核苷酸中的非规范核苷酸之间的间隔，以及所选择的反应条件决定了所得片段的近似尺寸(如本文所述，在非规范核苷酸的碱基部分的裂解(由此产生脱碱基位点)以及骨架在脱碱基位点处的裂解后)。在片段用作第二链合成的模板，以使得聚合酶活性沿着整个片段靶标具有高效性和保真度时，通常期望实现骨架在脱碱基位点处的完全裂解以产生缺乏脱碱基位点的片段。

针对本文提供的用于生成定向多核苷酸文库的方法，合适的片段大小可以是刚好、大于、小于、至少、至多或约5、10、15、20、25、30、40、50、65、75、85、100、123、150、175、200、225、250、300、350、400、450、500、550、600、650个核苷酸的长度。在一些情况下，片段可以是约200个核苷酸、约100个核苷酸或约50个核苷酸的长度。在其他情况下，片段群的大小可以是约50至200个核苷酸。可以理解片段大小是近似的，尤其当生成片段的群时，因为非规范核苷酸的掺入(其与裂解后的片段大小相关)可随模板而变化并且还在相同模板的拷贝间变化。因此由相同起始材料(例如，单多核苷酸模板)生成的片段可以具有不同的(和/或重叠)序列，同时还具有相同的近似大小或大小范围。

在脱碱基位点处裂解多核苷酸骨架后，除了最3’侧的片段(其可以缺乏脱碱基位点)外，各片段可以包含一个脱碱基位点(如果裂解是完全有效的)。所有其他片段可以包含3’脱碱基位点(封端3’末端)。在一些情况下，如通过本文提供的方法生成的第一链cDNA或多核苷酸的骨架在脱碱基位点处的片段化可以生成包含封端的3’-末端和在5’-末端的磷酸的片段。

附加于多核苷酸片段的衔接子的聚合酶延伸

在一些情况下，寡核苷酸附加于通过本文提供的方法制备的包含封端3’末端和任选的5’磷酸的多核苷酸的3’末端。可以通过将在寡核苷酸的3’末端存在的单链DNA与包含封端3’末端的多核苷酸的3’末端退火来附加寡核苷酸。在一些情况下，通过本文提供的方法制备的具有封端3’末端和任选的5’磷酸的多核苷酸与包含具有3’羟基(OH)基团的突出端的寡核苷酸杂交，并采用模板依赖性聚合酶从寡核苷酸的3’OH基团延伸，其中具有3’OH的突出端与多核苷酸片段的3’末端退火。寡核苷酸可以是衔接子或引物。寡核苷酸可以包含DNA、RNA或其组合。寡核苷酸可以是约、小于约或大于约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100或200个核苷酸的长度。寡核苷酸可以包含部分双链体或可以是单链的。在一些情况下，寡核苷酸包含部分双链体衔接子，其中所述部分双链体包含长链和短链。在一些情况下，包含部分双链体衔接子的寡核苷酸具有约、大于、小于或至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸的突出端。突出端可以是3’突出端。在一些情况下，突出端是3’突出端，其中该突出端包含至少6、7、8或9个核苷酸。在一些情况下，寡核苷酸的3’突出端与在如通过本文所述的方法生成的包含封端3’末端的多核苷酸的3’末端存在的序列杂交。在一些情况下，寡核苷酸包含双链体序列。在一些情况下，寡核苷酸包含约、大于、小于或至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、90、100、200个或更多个碱基配对序列或双链体序列。在一些情况下，在包含部分双链体和3’突出端的寡核苷酸中存在的部分双链体用于防止寡核苷酸与在如通过本文提供的方法生成的包含3’末端封端的多核苷酸中存在的内部序列杂交。如本文所述的包含部分双链体和3’突出端的寡核苷酸的双链体部分可以允许寡核苷酸的3’突出端优先与在3’末端包含封端的多核苷酸的3’末端杂交而非与存在于在3’末端包含封端的多核苷酸中的内部序列杂交。优先杂交可以是由于由寡核苷酸的双链体部分导致的位阻和堆积效应。在一些情况下，寡核苷酸是单链的。在一些情况下，单链衔接子包含约、大于、小于或至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100或200个核苷酸的长度。在一些情况下，寡核苷酸是单链加尾引物，其包含可与在如通过本文提供的方法生成的包含封端3’末端的多核苷酸的3’末端的序列杂交的3’部分和不可杂交的5’部分。不可杂交部分可以进一步包含标识符序列(例如，条码、TruSeq序列等)。在一些情况下，单链寡核苷酸形成包含3’突出端的茎环或发夹结构，其中3’突出端与在如通过本文所述的方法生成的包含封端3’末端的多核苷酸的3’末端存在的序列杂交。在一些情况下，发夹的茎部为约、小于约或大于约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、75、100个或更多个核苷酸的长度。在一些情况下，发夹的环序列为约、小于约或大于约5、10、15、20、25、30、35、40、45、50个或更多个核苷酸的长度。在一些情况下，包含茎环结构的寡核苷酸具有约、大于、小于或至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸的3’突出端。在一些情况下，寡核苷酸包含一个或多个条码。在一些情况下，一个或多个条码在寡核苷酸的茎和/或环中。包含茎环的寡核苷酸还可包含在环内的限制性内切核酸酶位点。包含茎环的寡核苷酸还可包含在茎内的限制性内切核酸酶位点。包含针对在3’末端包含封端的多核苷酸的3’末端存在的序列的3’突出端的寡核苷酸可以进一步包含在除3’突出端的3’末端外的任何和/或所有其他末端的封端。寡核苷酸可以进一步包含已知或通用序列(例如，序列A)，并因此允许通用或已知序列的序列特异性引物的生成和/或使用。图2中示出了用于此步骤的衔接子或引物的一些实例。形成dsDNA部分的两条链可以是可以进一步通过环连接的两个寡核苷酸。环或接头可以包含寡核苷酸、非核苷酸接头或其组合。其也可以包含核苷酸类似物。在一些情况下，寡核苷酸包含部分双链体，所述部分双链体包含含有平端的第一末端和包含3’突出端的第二末端，其中所述部分双链体在长链与短链间形成，其中所述长链包含与短链形成双链体的已知或通用序列(例如，序列A)和3’突出端。短链可以在3’和/或5’末端具有封端。长链可以在5’末端具有封端。3’或5’封端可以包含本文提供的任何封端或封端基团。3’突出端可以包含与存在于如通过本文提供的方法生成的包含非规范核苷酸的多核苷酸的3’封端末端的序列互补的序列。单链3’突出端可以包含随机序列。在一些情况下，许多个或多个包含含有随机序列的3’突出端的寡核苷酸与多个如通过本文提供的任何方法生成的包含封端3’末端的多核苷酸的3’末端退火。在一些情况下，所述许多个或多个寡核苷酸中的每一个的随机序列包含不同的随机序列。在一些情况下，所述许多个或多个寡核苷酸中的每一个的随机序列包含相同的随机序列。在一些情况下，所述许多个或多个寡核苷酸包含相同的通用或已知序列(例如，序列A)。在一些情况下，所述许多个或多个寡核苷酸包含不同的通用或已知序列。在一些情况下，寡核苷酸的单链3’突出端(例如，第一衔接子)与基本所有的如通过本文提供的方法生成的包含3’封端末端的多核苷酸的3’-末端杂交。在一些情况下，通过许多个或多个寡核苷酸(例如，第一衔接子)提供的许多个或多个单链3’突出端(其中所述许多个或多个寡核苷酸(例如，第一衔接子)中的每个寡核苷酸(例如，第一衔接子)包含含有不同随机序列的3’突出端)与基本所有的如通过本文提供的任何方法生成的包含3’封端末端的多核苷酸的3’-末端杂交。寡核苷酸(例如，第一衔接子)的单链3’突出端可以与大于、小于、至少、至多或约1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、21％、22％、23％、24％、25％、26％、27％、28％、29％、30％、31％、32％、33％、34％、35％、36％、37％、38％、39％、40％、41％、42％、43％、44％、45％、46％、47％、48％、49％、50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％的如通过本文提供的方法生成的包含3’封端末端的多核苷酸杂交。在一些情况下，单链3’突出端与1-10％、10-20％、20-30％、30-40％、40-50％、50-60％、60-70％、70-80％、80-90％、90-95％、95-99％或90-100％的如通过本文提供的方法生成的包含3’封端末端的多核苷酸的3’末端杂交。在一些情况下，单链3’突出端与约1％至约10％、约10％至约20％、约20％至约30％、约30％至约40％、约40％至约50％、约50％至约60％、约60％至约70％、约70％至约80％、约80％至约90％或约90％至约100％的如通过本文提供的方法生成的包含3’封端末端的多核苷酸的3’末端杂交。通过许多个或多个寡核苷酸(例如，第一衔接子)提供的许多个或多个单链3’突出端(其中所述许多个或多个寡核苷酸(例如，第一衔接子)中的每个寡核苷酸(例如，第一衔接子)包含含有不同随机序列的3’突出端)，可以与大于、小于、至少、至多或约1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、21％、22％、23％、24％、25％、26％、27％、28％、29％、30％、31％、32％、33％、34％、35％、36％、37％、38％、39％、40％、41％、42％、43％、44％、45％、46％、47％、48％、49％、50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％的如通过本文提供的方法生成的包含3’封端末端的多核苷酸杂交。在一些情况下，通过许多个或多个寡核苷酸(例如，第一衔接子)提供的许多个或多个单链3’突出端(其中所述许多个或多个寡核苷酸(例如，第一衔接子)中的每个寡核苷酸(例如，第一衔接子)包含含有不同随机序列的3’突出端)，与1-10％、10-20％、20-30％、30-40％、40-50％、50-60％、60-70％、70-80％、80-90％、90-95％、95-99％或90-100％的如通过本文提供的方法生成的包含3’封端末端的多核苷酸的3’末端杂交。在一些情况下，通过许多个或多个寡核苷酸(例如，第一衔接子)提供的许多个或多个单链3’突出端(其中所述许多个或多个寡核苷酸(例如，第一衔接子)中的每个寡核苷酸(例如，第一衔接子)包含含有不同随机序列的3’突出端)，与约1％至约10％、约10％至约20％、约20％至约30％、约30％至约40％、约40％至约50％、约50％至约60％、约60％至约70％、约70％至约80％、约80％至约90％或约90％至约100％的如通过本文提供的方法生成的包含3’封端末端的多核苷酸的3’末端杂交。在一些情况下，寡核苷酸包含一个或多个条码。在一些情况下，所述一个或多个条码在茎和/或环中。在一些情况下，条码包含随机序列，所述随机序列用于独特地标记通过本文描述的方法生成的附加条码的单独的多核苷酸。在一些情况下，条码是随机附加的且对于其所附加的片段是独特的。这些条码可以与对模板核酸的样品具有特异性的条码组合。

在一些情况下，所述方法可以进一步包括进行延伸反应。该延伸反应可以使用本领域已知的任何数目的方法进行，该方法包括但不限于，使用具有链置换活性的DNA依赖性DNA聚合酶和全部四种dNTP(即，dATP、dTTP、dCTP和dGTP)，其中dNTP未经修饰。在一些情况下，该延伸反应采用DNA聚合酶和未修饰的dNTP(即，dATP、dTTP、dCTP和dGTP)进行。在一些情况下，该延伸反应延伸与在包含封闭3’末端的多核苷酸的3’封闭末端发现的互补序列退火的3’突出端，从而产生包含非互补端的双链多核苷酸，其中包含3’封端的多核苷酸用作模板多核苷酸。包含非互补端的双链多核苷酸可以在一个末端包含来自寡核苷酸的已知或通用序列(例如，序列A)以及在多核苷酸的相反末端的包含与用作延伸反应的模板的包含封闭3’末端的多核苷酸的5’末端互补的序列。由延伸反应产生的双链多核苷酸可以含有包含模板多核苷酸的片段的第一链，以及包含与模板多核苷酸的片段互补的序列和已知或通用序列(例如，序列A)的第二链，其中该已知序列存在于第二链的5’末端，并且其中第一链的3’末端包含在与已知或通用序列(例如，序列A)互补的序列与模板多核苷酸的3’封端之间的磷酸二酯骨架中的缺口。已知或通用序列(例如，序列A)可以用于标记包含已知或通用序列(例如，序列A)的链。在于第一链cDNA合成期间掺入非规范核苷酸的情况下，通过本文提供的方法产生标记链产生了代表模板核酸的序列的标记链。在于第二链cDNA合成期间掺入非规范核苷酸的情况下，通过本文提供的方法产生标记链产生了代表与模板核酸互补的序列的标记链。

在一些情况下，在延伸反应后对包含非互补端的双链多核苷酸(其中一个末端包含在一个末端的已知或通用序列(例如，序列A))进行末端修复。末端修复可包括产生平端、非平端(即，粘端或粘性端)或单碱基突出端，诸如通过缺乏3’-外切核酸酶活性的聚合酶将单个dA核苷酸添加到双链核酸产物的3’末端。在一些情况下，对在一个末端包含已知或通用序列(例如，序列A)的双链多核苷酸进行末端修复，以产生在与包含已知序列的一个末端相对的端上的平端，其中一个末端包含已知或通用序列(例如，序列A)而相反末端包含具有3’OH的平端。可以使用本领域已知的任何数目的酶和/或方法来进行末端修复。突出端可包含约、大于，小于，或至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。

所述方法可以进一步包括将衔接子附加至在一个末端包含序列A和在相反末端包含3’OH的双链多核苷酸。在一些情况下，如通过本文提供的方法产生的与包含3’封端的多核苷酸退火的衔接子是第一衔接子，而附加至在一个末端包含第一衔接子序列的双链多核苷酸的相反末端的衔接子是第二衔接子。连接可以是平端连接或粘端或粘性端连接。附加第二衔接子可以通过连接进行。连接可以采用用于进行连接的本领域中已知的任何酶(如，T4DNA连接酶)来进行。第二衔接子可以是本领域中已知的任何类型的衔接子，包括但不限于，常规的双链体或双链衔接子。该衔接子可包括DNA、RNA或其组合。第二衔接子可以为约、小于约或大于约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100或200个核苷酸的长度。第二衔接子可以是双链体衔接子、部分双链体衔接子或单链衔接子。在一些情况下，第二衔接子是双链体衔接子。在一些情况下，该双链体衔接子可以为约、小于约或大于约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100或200个核苷酸的长度。在一些情况下，第二衔接子是部分双链体衔接子，其中该衔接子包含长链和短链。在一些情况下，包含部分双链体衔接子的第二衔接子具有约、大于、小于或至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸的突出端。在一些情况下，该突出端是5’突出端。在一些情况下，该突出端是3’突出端。在一些情况下，第二衔接子的部分双链体包含约、大于、小于或至少5、6、7、8、9、10、12、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、90、100、200个或更多个碱基配对的或双链的序列。在一些情况下，衔接子包括单链衔接子。在一些情况下，单链衔接子在长度上包括约、大于、小于或至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100或200个核苷酸。在一些情况下，该单链衔接子形成茎-环或发夹结构。在一些情况下，发夹衔接子的茎部为约、小于约或大于约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、75、100个或更多个核苷酸的长度。在一些情况下，发夹衔接子的环序列为约、小于约或大于约5、10、15、20、25、30、35、40、45、50个或更多个核苷酸的长度。第二衔接子可以进一步包含已知或通用序列(例如，序列B)，并因此允许产生和/或使用针对通用或已知序列的序列特异性引物。包含茎环的第二衔接子可进一步包含在环内的限制性内切核酸酶位点。包含茎环的第二衔接子可进一步包含在茎部内的限制性内切核酸酶位点。在本文提供的方法中，如本文提供的第二衔接子的已知或通用序列可以与如本文提供的第一衔接子的已知或通用序列相同或不同。在一些情况下，第一衔接子包含序列A而第二衔接子包含序列B，其中序列B与序列A是不同的或非互补的。在一些情况下，第二衔接子包含一个或多个条码。在一些情况下，一个或多个条码在茎和/或环中。

在一些情况下，将第二衔接子附加至在一个末端包含已知或通用序列(例如，序列A)和在相反末端包含3’OH的双链多核苷酸，通过平端连接来进行。在一些情况下，第二衔接子的附加通过粘性端或粘端连接来进行，其中第二衔接子的突出端与双链多核苷酸中包含该突出端的互补序列的突出端杂交。在一些情况下，第二衔接子包含能够连接至在一个末端包含已知或通用序列(例如，序列A)和在相反末端包含3’OH的双链多核苷酸的5’末端的连接链或第一链，以及不能连接至在一个末端包含已知或通用序列(例如，序列A)和在相反末端包含3’OH的双链多核苷酸的任一个末端的非连接链或第二链。在一些情况下，第二衔接子包含能够连接至在一个末端包含已知或通用序列(例如，序列A)和在相反末端包含3’OH的双链多核苷酸的3’末端的连接链或第一链，以及不能连接至在一个末端包含已知或通用序列(例如，序列A)和在相反末端包含3’OH的双链多核苷酸的任一个末端的非连接链或第二链。在一些情况下，第二衔接子是部分双链体衔接子，其中该衔接子包含长链和短链，并且其中该长链是连接链或第一链，而该短链是非连接链或第二链。该短链可以具有在3’和/或5’末端的封端。该长链可以具有在3’或5’末端的封端。3’或5’封端可包含本文提供的任何封端或封闭基团。在一些情况下，部分双链体衔接子具有不等长的链。在一些情况下，部分双链体衔接子包含在该衔接子的一个末端的突出端以及在该衔接子的另一个末端的平端。该突出端可以在3’末端或5’末端。在一些情况下，部分双链体衔接子包含在该衔接子的每一个末端的突出端。突出端可以具有相等长度或不等长度。在一些情况下，连接链的5’末端不包含5’磷酸基团。在一些情况下，连接链的5’末端不包含5’磷酸，其中多核苷酸的3’末端缺乏游离的3’羟基。在一些情况下，第二衔接子包含含有3’突出端和与短链形成部分双链体的已知序列(例如，序列B)的的长链，其中该短链包含在3’末端的封端，并且其中该长链连接至在一个末端包含已知或通用序列(例如，序列A)和在相反末端包含3’OH的双链多核苷酸的相反末端的3’OH，从而产生在两端包含已知或通用序列的双链多核苷酸。关于这些情况，在两端包含已知或通用序列的双链多核苷酸包含含有衍生自与包含封闭3’末端并如本文所述在5’末端延伸的多核苷酸退火的寡核苷酸的已知或通用序列以及衍生自第二衔接子的连接的已知或通用序列的一条链。在一些情况下，该一条链包含在5’末端的序列A和在3’末端的序列B。在一些情况下，第二衔接子包含含有5’突出端和与短链形成部分双链体的已知序列(例如，序列B)的长链，其中该短链包含在5’末端的封端，并且其中该长链连接至在一个末端包含已知或通用序列(例如，序列A)和在相反末端包含3’OH的双链多核苷酸的相反末端的5’磷酸，从而产生在两端包含已知或通用序列的双链多核苷酸。关于这些情况，将第二衔接子连接至在一个末端包含已知或通用序列(例如，序列A)和在相反末端包含3’OH的双链多核苷酸产生了包含衍生自与包含封闭3’末端并如本文所述在一个末端延伸的多核苷酸退火的寡核苷酸的已知或通用序列(例如，序列A)以及衍生自在相反末端的第二衔接子的已知或通用序列(例如，序列B)的双链多核苷酸，其中衍生自与包含封闭3’末端并如本文所述延伸的多核苷酸退火的寡核苷酸的已知或通用序列(例如，序列A)在一个末端上的5’末端，而衍生自第二衔接子的已知或通用序列(例如，序列B)在相反末端上的5’末端。在一些情况下，该一条链包含在一条链的5’末端的序列A以及在另一条链的5’末端的序列B，其中包含序列A的链的3’末端使用序列B作为模板进行延伸，从而产生一个或多个包含在一个末端上的5’末端的序列A以及在相反末端上的3’末端的与序列B互补的序列B’的双链多核苷酸。

在一些情况下，所述方法进一步包括变性步骤，使通过本文提供的方法产生的在相反末端包含非互补的已知或通用序列的双链多核苷酸变性。变性可以使用本领域已知的任何方法来实现，该方法可包括但不限于，热变性和/或化学变性。热变性可以通过将反应混合物的温度提升至通过本文提供的方法产生的在相反末端包含非互补的已知或通用序列的多核苷酸的解链温度以上来进行。解链温度可以为约、高于、低于、或至少30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、81、82、83、84、85、86、87、88、89、90、91、92、93、94或95摄氏度。可将温度提升至解链温度以上约、高于、低于或至少1、2、3、4、5、6、7、8、9或10摄氏度。化学变性可以使用碱(即，NaOH)和/或竞争性变性剂(即，尿素或甲醛)来进行。在一些情况下，变性产生了通过本文提供的方法产生的在相反末端包含非互补的已知或通用序列的单链多核苷酸。

在变性后，对通过本文提供的方法产生的在相反末端包含非互补的已知或通用序列的单链多核苷酸进行扩增，从而产生定向多核苷酸文库。在一个末端或第一个末端上的已知或通用序列可来源于第一衔接子，而在另一个末端或第二端上的已知或通用序列可来源于第二衔接子，如本文所述。扩增可使用针对在相反末端上存在的非互补的已知或通用序列的引物对来进行。扩增可使用本领域中已知的扩增方法来进行，该扩增方法可包括但不限于，PCR或单引物等温扩增(SPIA)。在一些情况下，包含在5’末端的序列A和在3’末端的序列B的单链多核苷酸使用引物对进行扩增，其中该引物对的第一引物包含与序列B的一部分互补的序列，而该引物对的第二引物包含与序列A的互补序列的一部分互补的序列(序列A’)。在一些情况下，包含在一条链的5’末端的序列A和在3’末端的序列B’的单链多核苷酸使用引物对进行扩增，其中该引物对的第一引物包含与序列B’的一部分互补的序列，而该引物对的第二引物包含与序列A的互补序列的一部分互补的序列(序列A’)。在一些情况下，第一和/或第二引物进一步包含一种或多种标识符序列。在一些情况下，该标识符序列包含在第一和/或第二引物上的非杂交尾部。该标识符序列可以是条码序列、流动池序列、索引序列或它们的组合。在一些情况下，该索引序列是可与由Illumina生产的下一代测序平台兼容的Truseq引物序列。在一些情况下，第一和/或第二引物可与固体表面结合。该固体表面可以是平表面或珠子。该平表面可以是芯片、微阵列、孔或流动池的表面。在一些情况下，第一和/或第二引物包含与固体表面的扩增反应(即，扩增产物)的一个或多个序列元件产物，其中所述一个或多个序列与附接至固体表面的一个或多个捕获探针互补。可与其他大规模平行下一代测序平台兼容的本领域已知的其他序列元件可掺入尾序列。

测序可为任何测序方法，包括本文所述的任何下一代测序(NGS)方法。在一些情况下，NGS方法包括合成测序。在一些实施方案中，使用针对引入通过本文提供的方法产生的多核苷酸的已知或通用序列的引物通过附加至该多核苷酸的衔接子来进行测序。在一些情况下，使用针对引入多核苷酸的标识符序列的引物通过用于扩增在相反末端包含非互补的已知或通用序列的单链多核苷酸的第一和/或第二引物进行测序。标识符序列可以是条码序列、流动池序列和/或索引序列。在一些情况下，该索引序列是可与由Illumina生产的下一代测序平台兼容的Truseq引物序列。

图3中示出了描绘了使用本文所述方法的用于从RNA样品产生定向多核苷酸文库的示例性工作流程的示意图。步骤I开始于从样品中分离总RNA并将第一链引物与总RNA退火。第一链引物可包含随机序列或对特定转录物或转录物组具有特异性的序列。第一链引物可被设计成引发除某些转录物(例如，rRNA和/或线粒体RNA)外的所有转录物。在步骤II中，使用来自步骤I的第一链引物对步骤I中分离的总RNA进行第一链cDNA合成。在包含全部四种dNTP和非规范dNTP、dUTP的反应混合物的存在下进行第一链cDNA合成反应。步骤III需要使用UDG裂解包含dU的第一链cDNA，以产生脱碱基位点以及能够在通过UDG产生的脱碱基位点处裂解磷酸二酯骨架的裂解剂。裂解剂可以是DMED或热。步骤III产生了包含在3’末端的封端以及任选的5’磷酸的多核苷酸。可通过控制反应混合物内dUTP与其他dNTP的量或比例来控制步骤II中dUTP的掺入，以使得步骤II产生包含所需密度的尿嘧啶碱基的第一链cDNA，由此步骤III产生包含在3’末端的封端的所需大小的多核苷酸。可以通过下游应用如，例如，特定的下一代测序平台来确定所需大小。在步骤IV中降解来自步骤I的模板总RNA，并在步骤V中对步骤III中产生的多核苷酸进行纯化。可使用RNA酶(例如，RNA酶H或RNA酶I)或通过热处理来进行模板RNA的降解。纯化后，将包含含有随机序列的3’突出端的第一衔接子与存在于步骤III中产生的多核苷酸的3’末端的序列退火。第一衔接子可以是单链的，并且除了3’突出端外还包含发夹结构。第一衔接子可以是多个第一衔接子，其中所述多个第一衔接子中的各个衔接子包含不同的随机序列，且所述多个第一衔接子中的各个衔接子包含相同的通用序列。第一衔接子可包含形成部分双链体的两个寡核苷酸，其中一条链在3’末端长于另一条链，并因此包含3’突出端。第一衔接子可以进一步包含第一通用序列。一旦退火，用DNA聚合酶延伸与在步骤III中产生的多核苷酸的3’末端退火的突出端的3’末端，以产生第二链cDNA。新产生的第二链的末端可以在步骤VIII中用T4聚合酶进行补齐(polished)，并随后在步骤IX中进行纯化。最终，第二衔接子连接至步骤VII的双链多核苷酸产物。第二衔接子可以包含第二通用序列。步骤X的产物可包含含有一条链的双链多核苷酸，该一条链具有在一个末端的第一通用序列和在第二相反末端的第二通用序列，并具有在第一个末端与第二端之间的包含代表原始RNA模板的一部分的序列的插入物。步骤X的产物随后在步骤XI中进行纯化，并在步骤XII中采用针对附加至步骤X的产物的第一和第二通用序列的引物进行PCR。引物可以适合于本领域中已知的任何下一代测序平台，并且可以进一步包含条码和/或本领域中已知的任何其他标识符序列。

图1A中示出了用于从RNA模板产生定向多核苷酸文库的本文所述方法的实施方案的示意性示例。如图1A的步骤I中所示，将引物与模板RNA杂交。如本文所提供的，引物可以包含随机序列、转录物特异性序列和/或寡聚dT。在步骤II中，在dUTP的存在下延伸引物，以产生第一链cDNA或多核苷酸延伸产物。该延伸可以使用如本文所提供的RNA依赖性DNA聚合酶来进行。在步骤III中，在降解模板RNA后，使用UNG和热或多胺(DMED)来降解包含尿嘧啶碱基的多核苷酸，从而产生多个包含3’封闭末端的片段。可以使用RNA酶(例如，RNA酶H或RNA酶I)来进行模板RNA的降解。或者，可以通过其他方法来降解RNA模板多核苷酸，该方法包括但不限于，热或碱性pH处理或各种方法的组合。用于RNA模板的降解的热处理也可用于包含脱碱基位点的互补DNA的骨架的裂解，从而在单个步骤中实现互补DNA和RNA模板的片段化。在步骤IV中，第一衔接子与存在于步骤III中产生的多核苷酸的3’封闭末端的序列退火。第一衔接子包含在3’末端的含有随机序列的3’突出端，由此3’突出端结合在步骤III中产生的多核苷酸的3’封闭末端的互补序列。第一衔接子可以是多个第一衔接子，其中所述多个第一衔接子中的各个衔接子包含不同的随机序列，其中在所述多个第一衔接子的一个第一衔接子上的随机序列可与存在于步骤III中产生的多核苷酸中的一个或多个上的3’末端的互补序列退火。所述多个第一衔接子中的每一个可包含序列A。在步骤V中第一衔接子的退火的3’突出端的3’末端沿着包含封闭3’末端的多核苷酸进行延伸，从而产生具有序列A的双链多核苷酸，序列A附加至该双链多核苷酸的一条链的5’末端。由于步骤III中产生的3’封端，与序列A互补的序列(A′)不附加至步骤V中产生的双链多核苷酸的另一条链。在步骤VI中，第二衔接子连接至步骤V中产生的双链多核苷酸的末端，该末端与包含序列A的末端相对。第二衔接子包含在包含序列B的长链与包含序列B的互补序列(B’)的一部分的短链之间形成的部分双链体。该长链进一步包含3’突出端，而该短链进一步包含在3’末端的封端。该封端可以是如本文所提供的任何封端或封闭基团。在步骤VI中，该长链充当连接链，而该短链充当非连接链，由此使长链的5’末端连接至步骤V中产生的双链多核苷酸的在其5’末端包含序列A的链的3’末端，从而产生包含非互补端的双链多核苷酸。可以使用本文提供的任何方法进行连接，该方法包括但不限于，在步骤V中产生的双链多核苷酸的末端产生平端并进行平端连接。步骤VI中产生的双链多核苷酸的一条链包含含有在5’末端的序列A和在3’末端的序列B的链特异性多核苷酸。该链特异性多核苷酸可以使用本文所提供的任何扩增方法进行扩增。在一些情况下，该扩增包括使用针对序列B的第一引物以及针对序列A的互补序列(A’)的第二引物进行扩增反应。第一或第二引物中的任一者或两者可进一步包含非杂交尾部，其中该尾部包含反向流动池序列、TruSeq引物序列、条码序列和/或如本文所述的用于下游应用的任何其他所需序列。在用第一和第二引物进行扩增后，产生了包含在每一个末端附加有来源于连接的衔接子的非互补衔接子序列的双链多核苷酸序列的扩增产物以及流动池序列。扩增产物可与如本文所提供的任何下一代测序平台兼容。

图1B示出了用于从RNA模板产生定向多核苷酸文库的本文所述方法的实施方案的示意性示例。图1B的步骤I至V与图1A的步骤I至V相同。与图1A相似，图1B的步骤VI的第二衔接子包含在包含序列B的长链与包含序列B的互补序列(B’)的一部分的短链之间形成的部分双链体。与图1A形成对比，图1B的步骤VI的第二衔接子的长链包含5’突出端，而短链进一步包含在5’末端的封端。该封端可以是如本文所提供的任何封端或封闭基团。在步骤VI中，该长链充当连接链，而该短链充当非连接链，由此使长链的5’末端连接至步骤V中产生的双链多核苷酸的在其5’末端包含序列A的相对链的5’末端，从而产生包含非互补端的双链多核苷酸。可以使用本文提供的任何方法进行连接，该方法包括但不限于，在步骤V中产生的双链多核苷酸的末端产生平端并进行平端连接。由于在5’末端的封端，短链未连接至步骤V中产生的双链多核苷酸的在5’末端包含序列A的链，由此存在缺口。在步骤VII中，使步骤VI中产生的双链多核苷酸在反应中进行填补，由此使用如本文所提供的包含链置换活性的DNA聚合酶采用序列B作为模板延伸在其5’末端包含序列A的链的3’末端。或者，可以通过聚合酶的外切核酸酶活性来去除非连接链。步骤VII产生了包含含有链特异性多核苷酸的双链多核苷酸的一条链的双链多核苷酸，该链特异性多核苷酸包含在5’末端的序列A以及在3’末端的序列B’。在一些情况下，步骤IV的第二衔接子包含双链衔接子，其中第一链包含序列B而第二链包含序列B’，其中该第一链在两端包含封端，而该第二链在3’末端包含封闭基团。在这些情况下，第二衔接子的连接产生了包含含有链特异性多核苷酸的双链多核苷酸的一条链的双链多核苷酸，该链特异性多核苷酸包含在5’末端的序列A以及在3’末端的序列B’，而无需步骤VII。链特异性多核苷酸可以使用本文所提供的任何扩增方法进行扩增。在一些情况下，该扩增包括使用针对序列B’的第一引物以及针对序列A的互补序列(A’)的第二引物进行的扩增反应。第一或第二引物中的任一者或两者可进一步包含非杂交尾部，其中该尾部包含反向流动池序列、TruSeq引物序列和/或条码序列。在用第一和第二引物进行扩增后，产生了包含在每一个末端附加有来源于连接的衔接子的非互补衔接子序列的双链多核苷酸序列的扩增产物以及流动池序列。扩增产物可与如本文所提供的下一代测序平台兼容。

图5中示出了用于使用SPIA扩增通过本文提供的方法产生的多核苷酸的本文所述方法的实施方案的示意性示例。在步骤I中，将嵌合扩增引物与通过本文提供的方法产生的包含在5’末端的序列A和在3’末端的序列B的多核苷酸杂交。嵌合扩增引物可包含含有序列C的3’DNA部分以及含有序列D的5’RNA部分，其中序列C包含与序列B的一部分互补的序列，并且其中序列D包含与该多核苷酸不可杂交的序列。在步骤II中，使用包含RNA依赖性DNA聚合酶活性的DNA聚合酶进行延伸反应，其中使用多核苷酸作为模板延伸序列C的3’末端，并且其中使用序列D作为模板延伸多核苷酸的序列B的3’末端，从而产生在一个末端包含序列A及其互补序列A’以及在另一个末端包含含有RNA序列D及其DNA互补序列D’的异源双链体的双链多核苷酸。在步骤III中，使用RNA酶H裂解序列D，其中产生了在一个末端包含序列A及其互补序列A’以及在另一个末端包含含有序列C的3’单链DNA突出端的双链多核苷酸。在步骤IV中，将包含与序列D’互补的5’RNA部分的扩增嵌合引物与序列D’退火并使用链置换DNA聚合酶进行延伸，其中该DNA聚合酶置换包含在3’末端的序列A’以及在5’末端的序列C的单链扩增产物，其中新产生了在一个末端包含序列A及其互补序列A’以及在另一个末端包含含有RNA序列D及其DNA互补序列D’的异源双链体的双链多核苷酸。然后重复步骤III和IV以产生扩增产物池。

VI.寡核苷酸

术语“寡核苷酸”可以指多核苷酸链，通常少于200个残基长，例如，15至100个核苷酸长，但也旨在涵盖更长的多核苷酸链。寡核苷酸可以是单链或双链的。术语“引物”和“寡核苷酸引物”可以指能够与互补核苷酸序列杂交的寡核苷酸。术语“寡核苷酸”可以与术语“引物”、“衔接子”和“探针”互换使用。

术语“杂交”和“退火”可以互换使用，并且可以指互补核酸的配对。

术语“引物”可以指通常具有游离的3’羟基基团的寡核苷酸，其能够与模板(诸如，靶多核苷酸、靶DNA、靶RNA或引物延伸产物)杂交并且还能够促进与该模板互补的多核苷酸的聚合。引物可以包含构成该引物的尾部的非杂交序列。即使引物的序列可能与靶标不完全互补，该引物仍然可以与该靶标杂交。

引物可以是寡核苷酸，其例如可以在由聚合酶沿着多核苷酸模板进行的延伸反应，诸如在PCR或cDNA合成中使用。寡核苷酸引物可以是单链的、在其3′-端含有能够与靶多核苷酸的序列杂交的序列的合成多核苷酸。通常情况下，与靶核酸杂交的引物的3′区与序列或引物结合位点具有至少80％、90％、95％或100％的互补性。

可根据已知的参数来设计引物以避免二级结构和自杂交。不同的引物对可在约相同的温度下，例如在与另一引物对相差约1、2、3、4、5、6、7、8、9或10℃内退火和解链。在一些情况下，最初使用大于约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、100、200、500、1000、5000、10,000个或更多个引物。这样的引物可以能够与本文所述的基因靶标杂交。在一些情况下，使用约2至约10,000、约2至约5,000、约2至约2,500、约2至约1,000、约2至约500、约2至约100、约2至约50、约2至约20、约2至约10、或约2至约6个引物。

可以通过多种方法(包括但不限于使用本领域中公知的方法进行的合适序列的克隆以及直接化学合成)来制备引物(Narang等人.,MethodsEnzymol.68:90(1979)；Brown等人.,MethodsEnzymol.68:109(1979))。还可以从商业来源，诸如IntegratedDNATechnologies、OperonTechnologies、AmershamPharmaciaBiotech、Sigma以及LifeTechnologies获得引物。引物可以具有相同的解链温度。引物的解链温度可以为约、高于、低于或至少30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、81、82、83、84或85℃。在一些情况下，引物的解链温度为约30至约85℃、约30至约80℃、约30至约75℃、约30至约70℃、约30至约65℃、约30至约60℃、约30至约55℃、约30至约50℃、约40至约85℃、约40至约80℃、约40至约75℃、约40至约70℃、约40至约65℃、约40至约60℃、约40至约55℃、约40至约50℃、约50至约85℃、约50至约80℃、约50至约75℃、约50至约70℃、约50至约65℃、约50至约60℃、约50至约55℃、约52至约60℃、约52至约58℃、约52至约56℃、或约52至约54℃。

可在5’末端或3’末端延长或缩短引物的长度以产生具有所需解链温度的引物。引物对中的一个引物可以长于另一引物。引物对内的引物3′退火长度可以不同。而且，可以设计各引物对的退火位置以使得引物对的序列和长度产生所需解链温度。用于确定小于25个碱基对的引物的解链温度的式为Wallace规则(Td＝2(A+T)+4(G+C))。也可以使用计算机程序来设计引物，该计算机程序包括但不限于，阵列设计软件(ArrayDesignerSoftware)(ArrayitInc.)、用于遗传分析的寡核苷酸探针序列设计软件(OligonucleotideProbeSequenceDesignSoftwareforGeneticAnalysis)(OlympusOpticalCo.)、NetPrimer以及来自HitachiSoftwareEngineering的DNAsis。可以使用软件程序，诸如NetPrimer(在http://www.premierbiosoft.com/netprimer/index.html的基于免费网络的程序(freewebbasedprogram))来计算各引物的T_M(解链或退火温度)。可在任何扩增循环，包括但不限于约第1、2、3、4、5个循环，约第6个循环至约第10个循环，约第10个循环至约第15个循环，约第15个循环至约第20个循环，约第20个循环至约第25个循环，约第25个循环至约第30个循环，约第30个循环至约第35个循环，或约第35个循环至约第40个循环后重新计算并提高引物的退火温度。在初始扩增循环后，可将引物的5′一半掺入至来自感兴趣的各个基因座的产物中；因此，可基于每个引物的5′一半和3′一半的两个序列来计算T_M。

可在任何扩增循环，包括但不限于约第1、2、3、4、5个循环，约第6个循环至约第10个循环，约第10个循环至约第15个循环，约第15个循环至约第20个循环，约第20个循环至约第25个循环，约第25个循环至约第30个循环，约第30个循环至约第35个循环，或约第35个循环至约第40个循环后重新计算并提高引物的退火温度。在初始扩增循环后，可将引物的5′一半掺入至来自感兴趣的各个基因座的产物中，因此，可基于每个引物的5′一半和3′一半的两个序列来计算TM。

“互补的”可指与序列的全部或仅一部分的互补性。特定寡核苷酸引物的可杂交序列中的核苷酸数应使得用于杂交寡核苷酸引物的严格性条件会阻止过多的随机非特异性杂交。通常，寡核苷酸引物的杂交部分中的核苷酸数会至少与寡核苷酸引物所杂交的靶多核苷酸上的限定序列一样大，即，至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少约20，并且通常约6至约10或6至约12或12至约200个核苷酸，通常约10至约50个核苷酸。靶多核苷酸可以大于寡核苷酸引物或先前所述的引物。

在一些情况下，靶多核苷酸序列的身份是已知的，并且可根据前述靶多核苷酸序列的反义序列来精确地合成可杂交的引物。在其他情况下，当靶多核苷酸序列未知时，寡核苷酸引物的可杂交序列可以是随机序列。包含随机序列的寡核苷酸引物可以被称为如下文所述的“随机引物”。在另外其他的情况下，寡核苷酸引物如第一引物或第二引物包含一组引物，例如一组第一引物或一组第二引物。在一些情况下，这组第一或第二引物可包含设计为与多种(例如，约、大于、小于或至少2、3、4、6、8、10、20、40、80、100、125、150、200、250、300、400、500、600、800、1000、1500、2000、2500、3000、4000、5000、6000、7000、8000、10,000、20,000或25,000种)靶序列杂交的引物的混合物。在一些情况下，所述多种靶序列可包含一组相关序列、随机序列、整个转录组或其一部分(例如，大部分)，或任何组的序列如mRNA。用于本文提供的方法的引物可以是表1和表2中列出的任何引物，这些引物分别针对表3和表4中列出的第一和第二衔接子序列。

表1：针对表3中列出的第一衔接子的引物序列

表2：针对表4中列出的第二衔接子的引物序列

术语“衔接子”可以指已知序列的寡核苷酸，将该寡核苷酸连接至感兴趣的靶多核苷酸或靶多核苷酸链能够产生感兴趣的靶多核苷酸或靶多核苷酸链的扩增就绪产物。可以使用各种衔接子设计。合适的衔接子分子包括单链或双链核酸(DNA、RNA或它们的组合)分子或其衍生物，茎-环核酸分子，包含一个或多个具有1、2、3、4、5、6、7、8、9、10个碱基或更长的单链突出端的双链分子，蛋白质，肽，适体，有机分子，有机小分子，或本领域中已知的可共价或非共价附接(例如通过连接)至双链核酸片段的任何衔接子分子。衔接子可被设计成包含可连接至双链核酸(或具有突出端的双链核酸)产物的双链部分。

衔接子寡核苷酸可以具有任何合适的长度，至少足以容纳构成它们的一个或多个序列元件的长度。在一些情况下，衔接子为约、小于约或大于约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100、200个或更多个核苷酸的长度。在一些情况下，衔接子是茎-环或发夹衔接子，其中发夹衔接子的茎部为约、小于约或大于约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、75、100个或更多个核苷酸的长度。可以使用导致在发夹衔接子上的互补区域之间杂交的多种不同的序列来设计茎部，从而产生双链DNA的局部区域。例如，可以使用15至18个核苷酸长度的G：C与A：T碱基对表现度(representation)相等的茎序列。预测这样的茎序列在其约45摄氏度的预测解链温度以下形成稳定的dsDNA结构。参与发夹的茎部的序列可以是完全互补的，以使得茎部中一个区域的各个碱基根据Watson-Crick碱基配对规则通过氢键与茎部中其他区域的各个碱基杂交。或者，茎部中的序列可偏离完美的互补性。例如，可能存在由不遵循Watson-Crick碱基配对规则的反碱基和/或在茎部的一个区域的不具有在参与茎部的其他区域中的一个或多个相应的碱基位置的一个或多个核苷酸产生的茎部结构内的错配和或凸起。可以使用识别错配的酶来裂解错配的序列。发夹的茎部可包含DNA，RNA，或者DNA和RNA两者。在一些情况下，发夹的茎部和/或环或者形成发夹的茎部的一种或两种可杂交序列包含核苷酸，键，或为用于裂解例如通过酶(包括但不限于内切核酸酶和糖基化酶)的裂解的底物的序列。茎部的组成可以是使得仅裂解形成该茎部的可杂交序列中的一种。例如，形成茎部的序列中的一种可以包含RNA，而形成茎部的另一种序列包含DNA，以使得由裂解RNA-DNA双链体中的RNA的酶(如RNA酶H)进行的裂解仅裂解包含RNA的序列。发夹的茎部和/或环的一条或两条链可包含约、大于、小于或至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个非规范核苷酸(例如尿嘧啶)和/或甲基化核苷酸。在一些情况下，发夹衔接子的环序列为约、小于约或大于约5、10、15、20、25、30、35、40、45、50个或更多个核苷酸的长度。

衔接子可包含共价连接在一起的至少两个核苷酸。如本文所用的衔接子可含有磷酸二酯键，尽管在一些情况下，如下文所概述的，包括可具有替代性骨架的核酸类似物，包括例如磷酰胺(Beaucage等人.,Tetrahedron49(10):1925(1993)以及其中的参考文献；Letsinger,J.Org.Chem.35:3800(1970)；Sprinzl等人.,Eur.J.Biochem.81:579(1977)；Letsinger等人.,Nucl.AcidsRes.14:3487(1986)；Sawai等人,Chem.Lett.805(1984)，Letsinger等人.,J.Am.Chem.Soc.110:4470(1988)；以及Pauwels等人.,ChemicaScripta26:14191986))、硫代磷酸(Mag等人.,NucleicAcidsRes.19:1437(1991)；以及美国专利号5,644,048)、二硫代磷酸(Briu等人.,J.Am.Chem.Soc.111:2321(1989),O-甲基亚磷酰胺(O-methylphosphoroamidite)键(参见Eckstein,OligonucleotidesandAnalogues:APracticalApproach,OxfordUniversityPress)以及肽核酸(在本文中也称为“PNA”)骨架和键(参见，Egholm,J.Am.Chem.Soc.114:1895(1992)；Meier等人.,Chem.Int.Ed.Engl.31:1008(1992)；Nielsen,Nature,365:566(1993)；Carlsson等人.,Nature380:207(1996)，所有这些文献均通过引用而并入)。其他核酸类似物包括具有包括锁核酸(在本文中也称为“LNA”)，Koshkin等人.,J.Am.Chem.Soc.120.132523(1998)；阳性骨架(Denpcy等人.,Proc.Natl.Acad.Sci.USA92:6097(1995))；非离子骨架(美国专利号5,386,023、5,637,684、5,602,240、5,216,141和4,469,863；Kiedrowshi等人.,Angew.Chem.Intl.Ed.English30:423(1991)；Letsinger等人.,J.Am.Chem.Soc.110:4470(1988)；Letsinger等人.,Nucleoside&Nucleotide13:1597(1994)；第2和3章,ASCSymposiumSeries580,"CarbohydrateModificationsinAntisenseResearch",Y.S.Sanghui和P.DanCook编著；Mesmaeker等人.,Bioorganic&MedicinalChem.Lett.4:395(1994)；Jeffs等人.,J.BiomolecularNMR34:17(1994)；TetrahedronLett.37:743(1996))以及非核糖骨架的具有双环结构的那些，包括在以下文献中描述的那些：美国专利号5,235,033和5,034,506，以及第6和7章,ASCSymposiumSeries580,"CarbohydrateModificationsinAntisenseResearch",Y.S.Sanghui和P.DanCook编著。含有一个或多个碳环糖的核酸也包含在核酸的定义内(参见Jenkins等人.,Chem.Soc.Rev.(1995)pp169176))。在Rawls,C&ENews,1997年6月2日,第35页中描述了若干种核酸类似物。“锁核酸”也包含在核酸类似物的定义内。LNA是一类其中核糖环被连接2′-O原子与4′-C原子的亚甲基桥“锁定”的核酸类似物。所有这些参考文献在此通过引用特别地并入。可以对核糖-磷酸骨架的这些修饰，以提高此类分子在生理环境中的稳定性和半衰期。例如，PNA：DNA和LNA-DNA杂交体可表现出较高的稳定性，并因此可在一些情况下使用。衔接子根据指定可以是单链或双链的，或者包含双链或单链序列两者的部分。根据应用，衔接子可以是DNA、RNA或杂交体，其中该衔接子包含脱氧核糖核苷酸和核糖核苷酸的任何组合，以及碱基的任何组合，该碱基包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、肌苷、黄嘌呤(xathanine)、次黄嘌呤(hypoxathanine)、异胞嘧啶、异鸟嘌呤等。

如图2所示，如本文提供的第一衔接子可以是包含3’突出端的双链核酸或单链核酸。如图2的I中所示，第一衔接子包含在两个寡核苷酸之间的部分双链体，其中第一寡核苷酸包含在5’末端包含已知序列(A)的长链和3’突出端，而第二寡核苷酸包含在3’末端包含与序列A互补的序列(A’)的短链。图2的I中的短链进一步包含在3’和5’末端的封端，该封端可用于抑制连接。在一些情况下，该长链包含在5’末端的封端，从而抑制连接。如图2的II中所示，第一衔接子包含单链寡核苷酸，其中该寡核苷酸的5’末端结合位于该寡核苷酸的3’末端附近的已知序列A，其中该5’末端包含与序列A互补的序列(A’)，且其中所述结合产生了3’突出端。图2的II中的单链寡核苷酸衔接子的5’末端和3’末端可通过接头进行连接。该接头可以是茎环、非核苷酸接头或它们的组合。该茎环可包含DNA、RNA、核苷酸类似物或它们的组合。图2的II中的单链寡核苷酸衔接子的5’末端可以包含可以抑制连接的5’封端。期望用于第二衔接子的各种构建体。可用于实施用于产生如本文所提供的定向多核苷酸文库的方法的第二衔接子可以是dsDNA、部分双链体或茎-环衔接子(其一个末端适于连接至由本文所提供的方法制备的dsDNA产物的末端)等。在一些情况下，第二衔接子包含在两个寡核苷酸之间的部分双链体，其中第一寡核苷酸包含含有已知序列(B)的长链，而第二寡核苷酸包含含有与序列B的一部分互补的序列(B’)的短链，其中长链与短链之间的结合产生了3’突出端。第二衔接子的短链可以进一步包含在3’和/或5’末端的封端，该封端可以用于抑制连接。该长链的3’末端可以包含在3’末端的封端。在一些情况下，第二衔接子包含在两个寡核苷酸之间的部分双链体，其中第一寡核苷酸包含含有已知序列(B)的长链，而第二寡核苷酸包含含有与序列B的一部分互补的序列(B’)的短链，其中长链与短链之间的结合产生了5’突出端。第二衔接子的短链可以进一步包含在5’末端的封端，该封端可以用于抑制连接。该长链的3’和/或5’末端可以包含可抑制连接的封端。在本文提供的任何衔接子中的封端可以是本文所提供的任何封端。用于本文所提供的方法的衔接子可以是表3和表4中列出的第一和/或第二衔接子中的任何衔接子。

表3：用于本文提供的方法的第一衔接子序列。

表4：用于本文提供的方法的第二衔接子序列。

]各种连接方法和试剂是本领域已知的，并且可以用于实施本文提供的方法。例如，可以采用平端连接。相似地，单一dA核苷酸可通过缺乏3′-外切核酸酶活性的聚合酶添加至双链DNA产物的3’末端，并可与包含dT突出端(或反向端)的衔接子退火。这种设计允许杂交的组分在随后连接(例如，通过T4DNA连接酶)。其他连接策略和相应的试剂是本领域中已知的，且用于进行有效连接反应的试剂盒和试剂是可商购的(例如，从NewEnglandBiolabs,Roche)。

VII.封闭基团

在如本文提供的用于产生定向多核苷酸文库的方法中使用的任何衔接子和/或引物可包含在5’和/或3’末端的封闭基团。包括双链体或部分双链体的衔接子和/或引物可包含在形成该双链体或部分双链体的一条或两条链的5’和/或3’末端的封端。在本文所提供的任何衔接子或引物的封闭末端可以是酶学上不反应的，以防止衔接子二聚体的形成和/或连接。封闭基团可以是双脱氧核苷酸(ddCMP、ddAMP、ddTMP或ddGMP)、各种修饰的核苷酸(例如，硫代磷酸酯修饰的核苷酸)或非核苷酸化学部分。在一些情况下，该封闭基团包含含有封闭部分的核苷酸类似物。该封闭部分可意指核苷酸类似物的抑制或阻止该核苷酸类似物形成与第二核苷酸或核苷酸类似物的共价键的一部分。例如，在具有戊糖部分的核苷酸类似物的情况下，可逆封闭部分可以阻止在核苷酸的3′氧与第二核苷酸的5′磷酸之间形成磷酸二酯键。可逆封闭部分可以包括磷酸、磷酸二酯、磷酸三酯、硫代磷酸酯和碳酯。在一些情况下，封闭部分可以附接至核苷酸类似物的戊糖部分的3′位置或2′位置。可以采用去封闭剂来除去可逆封闭部分。在5’和/或3’末端的封闭基团可以是间隔物(C3亚磷酰胺、三甘醇(TEG)、光可裂解物、六乙二醇)、反向双脱氧-T(inverteddideoxy-T)、生物素、硫醇、二硫醇、己二醇、异羟基洋地黄毒苷(digoxigenin)、叠氮化物、炔烃或氨基修饰物。生物素封闭基团可以是光可裂解生物素、生物素-三甘醇(TEG)、生物素-dT、脱硫生物素-TEG、生物素-叠氮化物或双生物素。在5’末端的封端可包含在5’末端的缺少5’磷酸的核苷酸。可通过用酶处理来除去5’末端。该酶可以是磷酸酶。在3’末端的封端可包含缺少游离的3’羟基的核苷酸。末端(即5’和/或3’末端)可进一步包含硫代磷酸酯键。该硫代磷酸酯键可用于保护含有硫代磷酸酯键的任何衔接子或引物。该保护可以来自核酸酶降解。

VIII.RNA依赖性DNA聚合酶

在本文提供的方法和组合物中使用的RNA依赖性DNA聚合酶可以能够根据本文提供的方法实现引物的延伸。因此，RNA依赖性DNA聚合酶可以是能够沿着至少主要由核糖核苷酸组成的核酸模板延伸核酸引物的聚合酶。在本文提供的方法、组合物和试剂盒中使用的合适的RNA依赖性DNA聚合酶包括逆转录酶(RT)。RT在本领域是公知的。RT的实例包括但不限于莫洛尼鼠白血病病毒(M-MLV)逆转录酶、人免疫缺陷病毒(HIV)逆转录酶、劳斯肉瘤病毒(RSV)逆转录酶、禽成髓细胞白血病病毒(AMV)逆转录酶、劳斯相关病毒(RAV)逆转录酶和成髓细胞白血病相关病毒(MAV)逆转录酶或其他禽类肉瘤-白血病病毒(ASLV)逆转录酶和由其衍生的修饰的RT。参见，例如US7056716。许多逆转录酶，如来自禽成髓细胞白血病病毒(AMV-RT)和莫洛尼鼠白血病病毒(MMLV-RT)的那些逆转录酶，包含超过一种活性(例如，聚合酶活性和核糖核酸酶活性)，并且可以在双链cDNA分子的形成中发挥作用。然而，在一些情况下，优选地采用缺乏或具有大幅度降低的RNaseH活性的RT。缺乏RNaseH活性的RT是本领域已知的，包括那些包含野生型逆转录酶的突变的RT，其中该突变消除了RNaseH活性。具有降低的RNaseH活性的RT的实例例如在US20100203597中进行了描述。在这些情况下，来自其他来源如从大肠杆菌中分离的RNaseH的加入可用于降解起始RNA样品以及形成双链cDNA。还可考虑RT的组合，包括不同的非突变RT的组合、不同的突变RT的组合以及一种或多种非突变RT与一种或多种突变RT的组合。

IX.DNA依赖性DNA聚合酶

用于本文提供的方法和组合物中的DNA依赖性DNA聚合酶可以能够实现包含游离的3’羟基的核酸的延伸。包含游离的3’羟基的核酸可以在如本文提供的引物和/或衔接子上。包含游离的3’羟基的核酸可以在通过用切口酶处理dsDNA(例如基因组DNA)而产生的dsDNA(例如基因组DNA)的链上。DNA依赖性DNA聚合酶可以是在RNA模板的存在下或在选择性去除RNA模板后能够沿着第一链cDNA延伸游离的3’OH的聚合酶。适用于本文提供的方法的示例性DNA依赖性DNA聚合酶包括但不限于具有或没有3′-外切核酸酶活性的Klenow聚合酶、BstDNA聚合酶、Bca聚合酶、φ29DNA聚合酶、Vent聚合酶、DeepVent聚合酶、Taq聚合酶、T4聚合酶和大肠杆菌DNA聚合酶1、其衍生物或聚合酶的混合物。在一些情况下，聚合酶不包含5′-外切核酸酶活性。在其他情况下，聚合酶包含5′外切核酸酶活性。在一些情况下，游离的3’OH的延伸可使用包含强链置换活性的聚合酶例如Bst聚合酶进行。在其他情况下，游离的3’OH的延伸可使用包含弱或无链置换活性的聚合酶进行。本领域技术人员可以认识到在本文提供的方法中的任何延伸步骤中使用链置换活性的优点和缺点，以及预计哪些聚合酶可提供链置换活性(参见，例如，NewEnglandBiolabs聚合酶)。例如，链置换活性在随机引发和延伸步骤期间确保覆盖整个转录组方面或在用切口酶处理基因组DNA后在延伸步骤期间确保覆盖整个基因组方面可能是有用的。

在一些情况下，可对通过本文所述的方法产生的双链产物或片段进行末端修复以产生用于本文所述的衔接子连接应用的平端。双链产物上平端的产生可通过使用单链特异性DNA外切核酸酶如外切核酸酶1、外切核酸酶7或其组合降解双链产物的突出单链末端而产生。或者，双链产物可以通过使用单链特异性DNA内切核酸酶(例如但不限于绿豆内切核酸酶或S1内切核酸酶)来产生平端。或者，双链产物可以通过使用包含单链外切核酸酶活性的聚合酶(如T4DNA聚合酶)、包含单链外切核酸酶活性的任何其他聚合酶或其组合降解双链产物或片段的突出单链末端来产生平端。在一些情况下，包含单链外切核酸酶活性的聚合酶可在包含或不包含一种或多种dNTP的反应混合物中温育。在其他情况下，单链核酸特异性外切核酸酶与一种或多种聚合酶的组合可用于使延伸反应的双链产物产生平端。在另外其他的情况下，可通过补平双链产物的突出单链末端来将如本文提供的延伸反应的产物制成平端的。例如，可在一种或多种dNTP的存在下使这些片段与聚合酶如T4DNA聚合酶或Klenow聚合酶或其组合一起温育来补平双链产物的单链部分。或者，可以通过使用外切核酸酶和/或聚合酶的单链突出端降解反应以及在一种或多种dNTP的存在下使用一种或多种聚合酶的补平反应的组合来将双链产物或片段制成平端的。

在另一个实施方案中，本文所述的衔接子连接应用可在衔接子的一条链(例如，非连接链)与双链产物或片段的链之间留下缺口。在这些情况下，缺口修复或补平反应可用于向双链产物或片段上附加与衔接子的其他链(例如，连接链)互补的序列。缺口修复可利用众多本文所述的DNA依赖性DNA聚合酶进行。在一些情况下，缺口修复可利用具有链置换活性的DNA依赖性DNA聚合酶进行。在一些情况下，缺口修复可使用具有弱或无链置换活性的DNA依赖性DNA聚合酶进行。在一些情况下，衔接子的连接链可作为缺口修复或补平反应的模板。在一些情况下，缺口修复可使用TaqDNA聚合酶进行。

X.裂解剂

通过本文提供的方法产生的包含非规范dNTP的多核苷酸的选择性去除或裂解可通过使用对多核苷酸的酶处理来实现。可用于裂解通过本文提供的方法产生的标记链的酶可包括糖基化酶如尿嘧啶-N-糖基化酶(UNG)，其可选择性降解dUTP的碱基部分。可用于产生如本文提供的包含一种或多种非规范核苷酸的多核苷酸或第一链cDNA的另外的糖基化酶和它们的非规范的或修饰的核苷酸底物包括5-甲基胞嘧啶DNA糖基化酶(5-MCDG)，其可从DNA骨架上裂解5-甲基胞嘧啶(5-MeC)的碱基部分(Wolffe等人,Proc.Nat.Acad.Sci.USA96:5894-5896,1999)；3-甲基腺苷-DNA糖基化酶I，其可从DNA骨架上裂解3-甲基腺苷的碱基部分(参见，例如Hollis等人(2000)MutationRes.460:201-210)；和/或3-甲基腺苷DNA糖基化酶II，其可从DNA骨架上裂解3-甲基腺苷、7-甲基鸟嘌呤、7-甲基腺苷和/3-甲基鸟嘌呤的碱基部分。参见McCarthy等人(1984)EMBOJ.3:545-550。已描述了5-MCDG的多功能和单功能形式。参见Zhu等人,Proc.Natl.Acad.Sci.USA98:5031-6,2001；Zhu等人,Nuc.AcidRes.28:4157-4165,2000；和Neddermann等人,J.B.C.271:12767-74,1996(描述了双功能性的5-MCDG)；Vairapandi和Duker,Oncogene13:933-938,1996；Vairapandi等人,J.Cell.Biochem.79:249-260,2000(描述了包含5-MCDG活性的单功能酶)。在一些情况下，5-MCDG优先裂解完全甲基化的多核苷酸位点(例如，CpG二核苷酸)，并且在其他情况下，5-MCDG优先裂解半甲基化的多核苷酸。例如，单功能性的人5-甲基胞嘧啶DNA糖基化酶在完全甲基化的CpG位点处特异性裂解DNA，并且对于半甲基化的DNA可能相对无活性(Vairapandi和Duker,同上；Vairapandi等人,同上)。相比之下，鸡胚5-甲基胞嘧啶-DNA糖基化酶针对半甲基化的甲基化位点可能具有较高的活性。在一些情况下，5-MCDG的活性用辅助因子如重组的富含CpG的RNA、ATP、RNA解旋酶和增殖细胞核抗原(PCNA)来增强(提高或加强)。参见美国专利公开号20020197639A1。可以使用一种或多种作用物。在一些情况下，该一种或多种作用物裂解同一甲基化核苷酸的碱基部分。在其他情况下，该一种或多种作用物裂解不同甲基化核苷酸的碱基部分。用两种或更多种作用物进行的处理可以是相继的或同时的。

在一些情况下，在通过本文提供的方法产生第一链cDNA的DNA骨架中的脱碱基位点后可以接着在该脱碱基位点处对骨架进行片段化或裂解。能够在脱碱基位点处裂解骨架的合适的作用物(例如，酶、化学物质和/或反应条件如热)包括：热处理和/或化学处理(包括碱性条件、酸性条件、烷基化条件或胺介导的脱碱基位点的裂解(参见，例如，McHugh和Knowland,Nucl.AcidsRes.(1995)23(10):1664-1670；Bioorgan.Med.Chem.(1991)7:2351；Sugiyama,Chem.Res.Toxicol.(1994)7:673-83；Horn,Nucl.Acids.Res.,(1988)16:11559-71)，和/或使用催化多核苷酸在脱碱基位点处的裂解的酶。例如，催化多核苷酸在脱碱基位点处的裂解的酶可以是AP内切核酸酶(也称为“脱嘌呤、脱嘧啶内切核酸酶”)(例如，可从EpicentreTech.,Inc,MadisonWis.获得的大肠杆菌内切核酸酶IV)、大肠杆菌内切核酸酶III或内切核酸酶IV、钙离子存在下的大肠杆菌外切核酸酶III。参见，例如Lindahl,PNAS(1974)71(9):3649-3653；Jendrisak，美国专利号6,190,865B1；Shida,NucleicAcidsRes.(1996)24(22):4572-76；Srivastava,J.Biol.Chem.(1998)273(13):21203-209；Carey,Biochem.(1999)38:16553-60；ChemResToxicol(1994)7:673-683。如本文所用的“作用物”涵盖诸如热的反应条件。在一些情况下，AP内切核酸酶、大肠杆菌内切核酸酶IV用于在脱碱基位点处裂解磷酸二酯骨架或磷酸二酯键。在一些情况下，利用胺如N,N′-二甲基乙二胺(DMED)进行裂解。参见，例如，McHugh和Knowland,同上。

在一些情况下，包含一个或多个脱碱基位点的多核苷酸(例如，第一链cDNA)可用亲核物质或碱来处理。在一些情况下，该亲核物质是胺，如伯胺、仲胺或叔胺。例如，脱碱基位点可用哌啶、吗啉(moropholine)或其组合来处理。在一些情况下，可以使用热哌啶(例如，在90℃下1M)来裂解包含一个或多个脱碱基位点的多核苷酸。在一些情况下，可以使用吗啉(例如，在37℃或65℃下3M)来裂解包含一个或多个脱碱基位点的多核苷酸。或者，可以使用多胺来裂解包含一个或多个脱碱基位点的多核苷酸。合适的多胺包括例如精胺、亚精胺、1,4-二氨基丁烷、赖氨酸、三肽K--W--K、DMED、哌嗪、1,2-乙二胺或其任意组合。在一些情况下，包含一个或多个脱碱基位点的多核苷酸可用适合于进行β消除反应、δ消除反应或其组合的试剂进行处理。在一些情况下，本文提供的方法提供了酶或酶和多胺如DMED的组合在温和条件下在单一反应混合物中的应用，该反应混合物不影响规范的或未修饰的核苷酸，并因此可维持该方法的产物的序列完整性。合适的温和条件可包括处于或接近中性pH的条件。其他合适的条件包括约4.5或更高、5或更高、5.5或更高、6或更高、6.5或更高、7或更高、7.5或更高、8或更高、8.5或更高、9或更高、9.5或更高、10或更高、或约10.5或更高的pH。另外其他合适的条件包括约4.5-10.5、约5-10.0、约5.5-9.5、约6-9、约6.5-8.5、约6.5-8.0或约7-8.0。合适的温和条件还可包括处于或接近室温的条件。其他合适的条件包括约10℃、11℃、12℃、13℃、14℃、15℃、16℃、17℃、18℃、19℃、20℃、21℃、22℃、23℃、24℃、25℃、26℃、27℃、28℃、29℃、30℃、31℃、32℃、33℃、34℃、35℃、36℃、37℃、38℃、39℃、40℃、41℃、42℃、43℃、44℃、45℃、46℃、47℃、48℃、49℃、50℃、51℃、52℃、53℃、54℃、55℃、56℃、57℃、58℃、59℃、60℃、61℃、62℃、63℃、64℃、65℃、66℃、67℃、68℃、69℃或70℃或更高的温度。另外其他合适的条件包括约10℃至约70℃、约15℃至约65℃、约20℃至约60℃、约20℃至约55℃、约20℃至约50℃、约20℃至约45℃、约20℃至约40℃、约20℃至约35℃或约20℃至约30℃。在一些情况下，温和的裂解条件的使用可增加最终产物的产率，维持序列完整性，或使得本文提供的方法更适合于自动化。

在涉及片段化的实施方案中，包含脱碱基位点的多核苷酸的骨架可在脱碱基位点处裂解，从而可产生该多核苷酸的两个或更多个片段。如本文所述，至少一个片段可包含脱碱基位点。本文提供了在脱碱基位点处裂解多核苷酸的磷酸二酯骨架或磷酸二酯键的作用物。在一些实施方案中，该作用物为AP内切核酸酶如大肠杆菌AP内切核酸酶IV。在其他实施方案中，该作用物为DMED。在其他实施方案中，该作用物为热、碱性条件、酸性条件或烷基化剂。在另外其他的实施方案中，在脱碱基位点处裂解磷酸二酯骨架的作用物是与裂解核苷酸的碱基部分以形成脱碱基位点的作用物相同的作用物。例如，本文提供的方法的糖基化酶可包含糖基化酶和裂合酶活性，由此糖基化酶活性裂解核苷酸的碱基部分(例如，修饰的核苷酸)以形成脱碱基位点，并且裂合酶活性在所形成的脱碱基位点处裂解磷酸二酯骨架。在一些情况下，糖基化酶包含糖基化酶活性和AP内切核酸酶活性。

使用可实现骨架在脱碱基位点处裂解的作用物或条件来产生包含封闭3’末端的片段可能是理想的，在根据本文所述的方法将3’末端与第一衔接子杂交时，该片段无法通过聚合酶延伸。

用于根据本文提供的方法对非规范的或修饰的核苷酸的碱基部分进行裂解的适当的反应介质和条件为允许裂解非规范的或修饰的核苷酸的碱基部分的那些反应介质和条件。此类介质和条件对于本领域技术人员来说是已知的，并且在许多出版物如Lindahl,PNAS(1974)71(9):3649-3653；和Jendrisak,美国专利号6,190,865B1；美国专利号5,035,996和美国专利号5,418,149中有所描述。在一个实施方案中，将UDG(EpicentreTechnologies,MadisonWis.)加至核酸合成反应混合物中，并在37℃下温育20分钟。在一个实施方案中，对于包含非规范的或修饰的核苷酸的多核苷酸的合成以及非规范的或修饰的核苷酸的碱基部分的裂解而言，反应条件是相同的。在另一个实施方案中，针对这些反应使用不同的反应条件。在一些实施方案中，在UNG之前或与之同时加入螯合剂(例如EDTA)以便防止聚合酶延伸裂解产物的末端。

在一个实施方案中，通过将至少一种修饰的核苷酸掺入合成的多核苷酸的一条链中来进行选择，并且通过用针对至少一种修饰的核苷酸展现出特定活性的酶处理来进行选择性去除。在一些情况下，掺入合成的多核苷酸的一条链中的修饰的核苷酸是脱氧尿苷三磷酸(dUTP)，并且选择性裂解通过UNG进行。UNG选择性降解dUTP，而其对于其他dNTP及它们的类似物是中性的。UNG处理导致N-糖苷键的裂解和dU残基的碱基部分的去除，从而形成脱碱基位点。在一个实施方案中，在脱嘌呤/脱嘧啶内切核酸酶(APE)的存在下进行UNG处理以在脱碱基位点处产生切口。结果，用UNG/APE处理的、具有掺入的dUTP的多核苷酸链可被裂解。在另一情况下，切口的产生和裂解是通过利用多胺如DMED处理或通过热处理来实现的。

XI.扩增方法

本文所述的方法、组合物和试剂盒可用于产生用于下游应用如大规模平行测序(即新一代测序方法)或杂交平台的扩增就绪的产物。扩增方法是本领域公知的。可使用的PCR技术的实例包括但不限于，定量PCR、定量荧光PCR(QF-PCR)、多重荧光PCR(MF-PCR)、实时PCR(RT-PCR)、单细胞PCR、限制性片段长度多态性PCR(PCR-RFLP)、PCR-RFLP/RT-PCR-RFLP、热启动PCR、巢式PCR、原位聚合酶群落(insitupolony)PCR、原位滚环扩增(RCA)、桥式PCR、皮滴定(picotiter)PCR、数字PCR、微滴数字PCR和乳液PCR。其他合适的扩增方法包括连接酶链反应(LCR)、转录扩增、分子倒置探针(MIP)PCR、自主维持序列复制(self-sustainedsequencereplication)、靶多核苷酸序列的选择性扩增、共有序列引物聚合酶链反应(CP-PCR)、任意引物聚合酶链反应(AP-PCR)、简并寡核苷酸引物PCR(DOP-PCR)和基于核酸的序列扩增(NABSA)、单引物等温扩增(SPIA，参见例如美国专利号6,251,639)、Ribo-SPIA或它们的组合。本文中可使用的其他扩增方法包括在美国专利号5,242,794、5,494,810、4,988,617和6,582,938中描述的那些方法。靶核酸的扩增可在珠子上发生。在其他实施方案中，扩增不在珠子上发生。扩增可通过等温扩增，例如，等温线性扩增而进行。可以进行热启动PCR，其中在加入聚合酶之前将反应加热至95℃两分钟或可保持聚合酶无活性直到第1个循环中的第一个加热步骤。热启动PCR可用于最小化非特异性扩增。扩增的其他策略以及方面描述于，例如，在2010年7月8日公开的美国专利申请公开号2010/0173394A1中，该专利申请通过引用并入本文。在一些情况下，扩增方法可在限制条件下进行，以使得仅进行少数几轮扩增(例如，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30等)，例如通常对于cDNA产生所进行的。扩增的轮数可以是约1-30、1-20、1-15、1-10、5-30、10-30、15-30、20-30、10-30、15-30、20-30或25-30轮。

用于靶序列和参考序列扩增的技术是本领域已知的，并包括例如在美国专利号7,048,481中描述的方法。简言之，该技术可以包括将样品分隔成小液滴的方法和组合物，在每个平均包含少于每个液滴约5、4、3、2或一个靶核酸分子(多核苷酸)的情况下，扩增每个液滴中的核酸序列，并检测靶核酸序列的存在。在一些情况下，扩增的序列存在于基因组DNA的探针上，而非基因组DNA自身上。在一些情况下，至少200、175、150、125、100、90、80、70、60、50、40、30、20、10或0个液滴具有靶核酸的零个拷贝。

PCR可包含体外扩增，其基于变性、寡核苷酸引物退火和通过嗜热模板依赖性多核苷酸聚合酶引起的引物延伸的重复循环，从而可导致侧翼为引物的多核苷酸分析物的期望序列拷贝的指数增长。在一些情况下，可定位与DNA的相反链退火的两条不同的PCR引物，以使得一条引物的聚合酶催化的延伸产物可作为另一条的模板链，从而导致离散的双链片段的累积，该片段的长度由寡核苷酸引物的5′末端之间的距离来限定。

LCR可包括使用连接酶来连接预形成的核酸探针对。这些探针可与核酸分析物的每条互补链(如果存在的话)杂交，并且可采用连接酶来将每对探针结合在一起，从而产生在下一个循环中可用于重复(reiterate)特定核酸序列的两个模板。

SDA(Westin等人2000,NatureBiotechnology,18,199-202；Walker等人1992,NucleicAcidsResearch,20,7,1691-1696)可包括等温扩增，其基于限制性内切核酸酶如HincII或BsoBI使其识别位点的半硫代磷酸形式的未修饰链产生切口的能力，以及外切核酸酶缺陷型DNA聚合酶如Klenowexominus聚合酶或Bst聚合酶在切口处延伸3′末端并置换下游DNA链的能力。指数式扩增是由结合有义和反义反应导致的，其中从有义反应置换出的链作为反义反应的靶标，反之亦然。

本文所述方法的一些方面可利用核酸或多核苷酸的线性扩增。线性扩增可以指这样一种方法，其包括形成核酸或多核苷酸分子(通常为核酸或多核苷酸分析物)的仅一条链的互补体的一个或多个拷贝。因此，线性扩增与指数式扩增之间的主要差别是：在后一方法中，产物作为用于形成更多产物的底物，而在前一方法中，起始序列是用于形成产物的底物，但是反应产物即起始模板的复制不是用于产生产物的底物。在线性扩增中，产物的形成量作为时间的线性函数而增加，不同于其中产物的形成量为时间的指数函数的指数式扩增。

在一些情况下，扩增是指数式的，例如在通过聚合酶链反应(PCR)对DNA的特异性双链序列进行的酶促扩增中。在其他实施方案中，扩增方法是线性的。在其他实施方案中，扩增方法是等温的。

XII.应用

本文公开的方法和组合物的一个方面是，它们可有效并划算地用于下游分析，如下一代测序或杂交平台，具有最少的目标生物材料的损失。本文所述的方法对于从模板DNA或RNA产生高通量测序文库以分别用于全基因组或全转录组分析可能是特别有用的。

例如，本文所述的方法对于通过如在美国专利号5,750,341、6,306,597和5,969,119中所述的、由Illumina商业化的方法进行测序可能是有用的。可使用本文所述的方法来制备定向(链特异性)核酸文库，并通过例如PCR对选定的单链核酸进行扩增。然后将得到的核酸变性，并可将单链扩增的多核苷酸随机地连接至流动池通道的内表面。可加入未标记的核苷酸来启动固相桥式扩增以产生双链DNA的密集簇。为了启动第一碱基测序循环，可加入四种标记的可逆终止子、引物和DNA聚合酶。在激光激发之后，对来自流动池上的每个簇的荧光进行成像。然后记录每个簇的第一碱基的身份。可进行测序循环以便每次一个碱基地确定该片段序列。

在一些情况下，本文所述的方法可用于制备靶多核苷酸，以用于通过由AppliedBiosystems商业化的连接测序方法(例如，SOLiD测序)进行测序。定向(链特异性)核酸文库可以使用本文所述的方法进行制备，并且所选择的单链核酸随后可连同聚苯乙烯珠掺入至油包水乳液中并通过例如PCR进行扩增。在一些情况下，可在油包水乳液中采用替代性扩增方法，诸如本文提供的任何方法。由乳液形成的每个水微滴中的扩增产物与存在于该微滴中的一个或多个珠子相互作用、结合或杂交，从而导致珠子具有基本上一个序列的多种扩增产物。当乳液被破坏时，珠子浮到样品的顶部，并将样品放置在阵列上。该方法可以包括使结合珠子的核酸成链部分单链化的步骤。随后将测序引物与四种不同荧光标记的寡核苷酸探针的混合物一起加入。探针与紧邻测序引物的3’的待测序多核苷酸的两个碱基特异性结合以确定四种碱基中的哪些碱基在那些位置。在洗涤并读取来自第一合并探针的荧光信号后，添加连接酶。连接酶裂解在第五和第六个碱基之间的寡核苷酸探针，从而从待测序的多核苷酸中除去荧光染料。使用不同的序列引物重复整个过程，直到序列中的所有中间位置均成像。该过程允许以“大规模平行”方式同时读取数百万个DNA片段。这种“连接测序”技术使用编码两个碱基而非仅一个碱基的探针，从而允许通过信号错配进行错误识别，导致碱基确定准确度提高。

在其他实施方案中，这些方法可用于制备靶多核苷酸，以便使用由454/RocheLifeSciences商业化的方法进行合成测序，这些方法包括但不限于在Margulies等人,Nature(2005)437:376-380(2005)和美国专利号7,244,559、7,335,762、7,211,390、7,244,567、7,264,929及7,323,305中所述的方法和装置。定向(链特异性)核酸文库可以使用本文所述的方法进行制备，并且所选择的单链核酸可例如通过PCR进行扩增。随后可将扩增产物固定在珠子上并在适于PCR扩增的油包水乳液中隔开。在一些情况下，可在油包水乳液中使用除PCR之外的替代性扩增方法，诸如本文提供的任何方法。当乳液被破坏时，扩增的片段可保持与珠子结合。该方法可以包括使结合珠子的核酸单链化或部分单链化的步骤。可将珠子富集并装入纤维光载玻片的孔中，以便每个孔中存在约1个珠子。核苷酸可在聚合酶、硫化氢解酶(sulfhydrolase)和荧光素酶的存在下以固定顺序流动穿过并进入孔中。添加与靶链互补的核苷酸可导致化学发光信号，该化学发光信号可诸如由相机进行记录。在整个板中产生的信号强度和位置信息的结合可允许软件确定DNA序列。

在其他实施方案中，这些方法用于制备靶多核苷酸，以便如美国申请序列号11/167,046和美国专利号7,501,245、7,491,498、7,276,720以及美国专利申请公开号US20090061439、US20080087826、US20060286566、US20060024711、US20060024678、US20080213770和US20080103058中所述的，通过由HelicosBioSciencesCorporation(Cambridge,Mass.)商业化的方法进行测序。定向(链特异性)核酸文库可以使用本文所述的方法进行制备，并且所选择的单链核酸例如通过PCR进行扩增。随后可将扩增的产物固定在流动池表面上。该方法可以包括使结合流动池表面的核酸成链或部分单链化的步骤。随后可使聚合酶和标记的核苷酸流过固定的DNA。在荧光标记的核苷酸通过DNA聚合酶掺入到DNA链时，可以用激光照射该表面，并且可捕获并处理图像以记录单分子掺入事件，以产生序列数据。

在一些情况下，本文所述的方法可用于如美国专利号7462452、7476504、7405281、7170050、7462468、7476503、7315019、7302146、7313308和美国专利申请公开号US20090029385、US20090068655、US20090024331和US20080206764中所述的，通过由PacificBiosciences商业化的方法进行测序。定向(链特异性)核酸文库可以使用本文所述的方法进行制备，并且所选择的单链核酸例如通过PCR进行扩增。随后可将核酸固定在零模式波导阵列中。该方法可以包括使结合波导阵列的核酸单链化或部分单链化的步骤。可将聚合酶和标记的核苷酸添加至反应混合物中，并且可以通过附接至核苷酸的末端磷酸基团的荧光标记物将核苷酸掺入可视化。荧光标记物可作为核苷酸掺入的一部分被剪去。在一些情况下，使用圆形模板来实现在单个分子上的多次读取。

可在本文所述的方法中使用的测序技术的另一个实例是纳米孔测序(参见，例如SoniGV和MellerA.(2007)ClinChem53:1996-2001)。纳米孔可以是直径1纳米等级的小孔。纳米孔在传导流体中的浸没以及跨纳米孔的电势的施加由于离子通过纳米孔的传导而可导致轻微的电流。流动的电流量对于纳米孔的大小是敏感的。随着DNA分子通过纳米孔，DNA分子上的每个核苷酸以不同的程度阻塞纳米孔。因此，当DNA分子通过纳米孔时通过纳米孔的电流的变化可代表对DNA序列的读取。

可在本文所述的方法中使用的测序技术的另一个实例是由LifeTechology的IonTorrent提供的半导体测序(例如，使用IonPersonalGenomeMachine(PGM))。IonTorrent的技术可使用具有多个层(例如，具有微机械加工的孔的层、离子敏感性层和离子传感器层)的半导体芯片。可将核酸加入孔中，例如，可将单个核酸的克隆群体附着至单个珠，并且可将该珠引入孔中。为了启动在珠上的核酸的测序，可将一种类型的脱氧核糖核苷酸(例如，dATP、dCTP、dGTP或dTTP)引入孔中。当通过DNA聚合酶掺入一种或多种核苷酸时，可在孔中释放出质子(氢离子)，这可以通过离子传感器检测。然后可以洗涤半导体芯片，并且可利用不同的脱氧核糖核苷酸重复该过程。可在半导体芯片的孔中对多种核酸进行测序。半导体芯片可包含化学敏感性场效应晶体管(chemFET)阵列以对DNA进行测序(例如，如美国专利申请公开号20090026082中所述的)。一种或多种三磷酸在测序引物的3′末端处向新核酸链的掺入可通过用chemFET测量的电流的变化来检测。阵列可具有多个chemFET传感器。

可在本文描述的方法中使用的测序技术的另一个实例是DNA纳米球测序(如例如由CompleteGenomics进行的；参见例如，Drmanac等人.(2010)Science327:78-81)。可将DNA进行分离、片段化和大小选择。例如，可将DNA片段化(例如，通过超声处理)成约500bp的平均长度。衔接子(Adl)可以附接至片段的末端。衔接子可用于与用于测序反应的锚形体杂交。可对每个末端与衔接子结合的DNA进行PCR扩增。可对衔接子序列进行修饰，以使得互补的单链末端彼此结合从而形成环状DNA。可将DNA甲基化以保护其不被在后续步骤中使用的IIS型限制酶裂解。衔接子(例如，右衔接子)可具有限制性识别位点，并且该限制性识别位点可以保持非甲基化。衔接子中的非甲基化限制性识别位点可由限制酶(例如，Acul)识别，并且DNA可以通过Acul裂解距右衔接子的右侧的13bp，以形成线性双链DNA。第二轮的右和左衔接子(Ad2)可以连接到线性DNA的任一末端上，并可对两个衔接子均被结合的所有DNA进行PCR扩增(例如，通过PCR)。可对Ad2序列进行修饰，以允许它们彼此结合并形成环状DNA。可将DNA甲基化，但限制酶识别位点可在左Adl衔接子上保持保持非甲基化。可以应用限制酶(例如，Acul)，并且可将DNA裂解距Adl左侧的13bp，以形成线性DNA片段。第三轮的右和左衔接子(Ad3)可以连接到线性DNA的右和左侧翼，并且所得片段可以进行PCR扩增。可对衔接子进行修饰以使得它们可以彼此结合并形成环状DNA。可以添加III型限制酶(例如，EcoP15)；EcoP15可以裂解DNA距Ad3左侧的26bp以及距Ad2右侧的26bp。该裂解可除去DNA的大片段，并再次使DNA线性化。第四轮的右和左衔接子(Ad4)可以连接到DNA，该DNA可进行扩增(例如，通过PCR)，并进行修饰，以使得它们彼此结合并形成完整的环状DNA模板。滚环复制(例如，使用Phi29DNA聚合酶)可用于扩增DNA的小片段。四种衔接子序列可以包含可杂交的回文序列，且单链可以折叠到其自身上以形成DNA纳米球(DNB(TM))，该DNA纳米球可以是直径平均约200-300纳米。DNA纳米球可以附接(例如，通过吸附)至微阵列(测序流动池)。流动池可以是涂覆有二氧化硅、钛和六甲基二硅氮烷(HMDS)和光阻材料的硅晶片。测序可以通过经由将荧光探针连接至DNA而进行的非链式测序来进行。询问的位置的荧光的颜色可以由高分辨率相机进行可视化。可以确定衔接子序列之间的核苷酸序列的身份。

在一些情况下，测序技术可以包括其中可对正向和反向模板链两者进行测序的配对末端测序。在一些情况下，测序技术可以包括配对文库测序。在配对文库测序中，DNA可以是片段，且可对2-5kb的片段进行末端修复(例如，用生物素标记的dNTP)。可将DNA片段进行环化，且可以通过消化除去非环化DNA。可将环状DNA片段化并纯化(例如，使用生物素标记物)。纯化的片段可以进行末端修复并连接到测序衔接子。

在一些情况下，序列读取为约、大于约、小于约或至少约10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370、371、372、373、374、375、376、377、378、379、380、381、382、383、384、385、386、387、388、389、390、391、392、393、394、395、396、397、398、399、400、401、402、403、404、405、406、407、408、409、410、411、412、413、414、415、416、417、418、419、420、421、422、423、424、425、426、427、428、429、430、431、432、433、434、435、436、437、438、439、440、441、442、443、444、445、446、447、448、449、450、451、452、453、454、455、456、457、458、459、460、461、462、463、464、465、466、467、468、469、470、471、472、473、474、475、476、477、478、479、480、481、482、483、484、485、486、487、488、489、490、491、492、493、494、495、496、497、498、499、500、525、550、575、600、625、650、675、700、725、750、775、800、825、850、875、900、925、950、975、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900或3000个碱基。在一些情况下，序列读取为约10至约50个碱基、约10至约100个碱基、约10至约200个碱基、约10至约300个碱基、约10至约400个碱基、约10至约500个碱基、约10至约600个碱基、约10至约700个碱基、约10至约800个碱基、约10至约900个碱基、约10至约1000个碱基、约10至约1500个碱基、约10至约2000个碱基、约50至约100个碱基、约50至约150个碱基、约50至约200个碱基、约50至约500个碱基、约50至约1000个碱基、约100至约200个碱基、约100至约300个碱基、约100至约400个碱基、约100至约500个碱基、约100至约600个碱基、约100至约700个碱基、约100至约800个碱基、约100至约900个碱基、或约100至约1000个碱基。

来自样品的序列读取的数目可以为约、大于约、小于约或至少约100、1000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000或10,000,000次。

样品的测序的深度可以是约、大于约、小于约或至少约lx、2x、3x、4x、5x、6x、7x、8x、9x、10x、11x、12x、13x、14x、15x、16x、17x、18x、19x、20x、21x、22x、23x、24x、25x、26x、27x、28x、29x、30x、31x、32x、33x、34x、35x、36x、37x、38x、39x、40x、41x、42x、43x、44x、45x、46x、47x、48x、49x、50x、51x、52x、53x、54x、55x、56x、57x、58x、59x、60x、61x、62x、63x、64x、65x、66x、67x、68x、69x、70x、71x、72x、73x、74x、75x、76x、77x、78x、79x、80x、81x、82x、83x、84x、85x、86x、87x、88x、89x、90x、91x、92x、93x、94x、95x、96x、97x、98x、99x、l00x、110x、120x、130x、140x、150x、160x、170x、180x、190x、200x、300x、400x、500x、600x、700x、800x、900x、l000x、1500x、2000x、2500x、3000x、3500x、4000x、4500x、5000x、5500x、6000x、6500x、7000x、7500x、8000x、8500x、9000x、9500x或10,000x。样品的测序的深度可以是约1x至约5x、约1x至约10x、约1x至约20x、约5x至约10x、约5x至约20x、约5x至约30x、约10x至约20x、约10x至约25x、约10x至约30x、约10x至约40x、约30x至约100x、约100x至约200x、约100x至约500x、约500x至约1000x、约1000x至约2000x、约1000x至约5000x或约5000x至约10,000x。测序的深度可以是对序列(例如，基因组)进行测序的次数。在一些情况下，Lander/Waterman等式用于计算覆盖率。通用等式可以是：C＝LN/G，其中C＝覆盖率；G＝单倍体基因组长度；L＝读取长度；和N＝读取次数。

在一些情况下，不同的条码可以加入(例如，通过使用引物和/或衔接子)至通过本文描述的方法由模板核酸生成的多核苷酸中，其中模板核酸衍生自不同的样品，且可将所述不同的样品聚集并在多重测定中进行分析。条码可以允许确定模板核酸所来源的样品。由各种样品生成的文库的聚集可以在附加条码序列后在不同的阶段进行，这取决于附件条码的阶段。

XIII.组合物和反应混合物

本发明方法进一步提供了一种或多种组合物或反应混合物。在一些情况下，所述反应混合物包含：(a)模板RNA；(b)包含随机序列的引物；(c)逆转录酶；(d)未修饰dNTP和非规范dNTP(例如，dUTP)的混合物；(e)包含长链和短链的第一衔接子，该长链含有3’突出端和已知序列A；(f)DNA聚合酶；(g)未修饰dNTP的混合物；(h)包含含有3’突出端和已知序列B的长链和在3’末端包含封端的短链的第二衔接子。在一些情况下，反应混合物还包含(e)扩增引物，其针对于在第二衔接子的连接和任选地如本文所述包含第二衔接子序列的多核苷酸的末端的延伸后在多核苷酸的各末端产生的独特引发位点。在一些情况下，反应混合物还包含(f)针对在附加于通过本文提供的方法生成的多核苷酸的末端的一个或多个衔接子序列中存在的序列的测序引物。在一些实施方案中，引物(b)包含选择用于与模板的所需基团优先杂交的序列，例如优先与除结构RNA(例如rRNA)外的所有转录物杂交的引物。在一些实施方案中，第一衔接子(e)包含具有包含随机序列的3’突出端的茎-环寡核苷酸。

XIV.试剂盒

本文描述的任何组合物可以包含在试剂盒中。在非限制性实例中，在合适的容器中的试剂盒包含：一种或若干种衔接子、一种或多种寡核苷酸引物和用于连接、引物延伸和扩增的试剂。试剂盒还可以包含用于纯化的工具例如珠悬浮液和核酸修饰酶。

试剂盒的容器通常将包括至少一个小瓶、试管、烧瓶、瓶子、注射器或其他组分可置于并恰当地等分试样于其中的容器。当在试剂盒中存在多于一种组分时，试剂盒通常还会包含附加组分可以分别置于其中的第二、第三或其他附加容器。然而，组分的多种组合可以包含在容器中。

当试剂盒的组分以一种或多种液体溶液提供时，所述液体溶液可以是水性溶液。然而，试剂盒的组分可以作为干粉末提供。当试剂盒/或组分以干粉末提供时，该粉末可以通过添加合适的溶剂而进行重构。

本发明方法提供了包含本文描述的一种或多种组合物和适于进行本文描述的方法的其他合适的试剂的试剂盒。本文描述的方法提供了例如用于临床或犯罪实验室的诊断试剂盒，或核酸扩增或RNA-seq文库制备试剂盒或用于一般实验室应用的分析试剂盒。本发明方法因此包括这样的试剂盒，该试剂盒包含进行本文所述的方法的一些或所有试剂，例如样品制备试剂、寡核苷酸、结合分子、储液、核苷酸、聚合酶、酶、阳性和阴性对照寡核苷酸和靶序列、试管或板、片段化或裂解试剂、检测试剂、纯化基质和指导手册。在一些情况下，试剂盒包含第一链互补DNA引物，其包含在3’-末端的随机序列。在一些情况下，包含在试剂盒中的第一链cDNA引物包含可与所选靶标组例如除rRNA外的所有转录物杂交的序列。在一些情况下，试剂盒包含修饰的或非规范核苷酸。合适的修饰的或非规范核苷酸包括本文提供的任何核苷酸，包括但不限于dUTP。在一些情况下，试剂盒包含裂解剂。在一些情况下，裂解剂是糖基化酶和化学剂或酶。糖基化酶可以是UNG。化学剂可以是多胺。多胺可以是DMED。酶可以是内切核酸酶。内切核酸酶可以是内切核酸酶VIII或APE。在一些情况下，试剂盒包含含有第一通用序列和3’突出端的第一衔接子/引物，其中3’突出端包含针对在包含3’末端封端的多核苷酸的3’末端存在的序列的序列。在一些情况下，试剂盒包含含有3′突出端的多个寡核苷酸第一衔接子中的一个，其中3’-突出端包含随机序列。在一些情况下，第一引物包含茎-环寡核苷酸。在一些情况下，第一衔接子还包含条码序列和通用序列。在一些情况下，试剂盒包含含有第二通用序列的第二衔接子。在一些情况下，试剂盒包含针对互补于在第一衔接子中存在的通用序列的序列的一部分的第一引物和包含针对第二衔接子或其互补体中存在的通用序列的序列的第二引物。

在一些情况下，试剂盒可以包含一种或多种反应混合物组分或反应混合物组分的一种或多种混合物。在一些情况下，反应混合物组分或其混合物可以作为浓缩的储液，例如1.1x、1.5x、2x、2.5x、3x、4x、5x、6x、7x、10x、15x、20x、25x、33x、50x、75x、100x或更高浓缩的储液提供。反应混合物组分可以包括本文提供的任何组合物，包括但不限于，缓冲液、盐、二价阳离子、共沸物、离液剂、dNTP、标记的核苷酸、非规范或修饰的核苷酸、染料、荧光团、生物素、酶(例如，内切核酸酶、外切核酸酶、糖基化酶)或其任意组合。

在一些情况下，试剂盒可以包含一种或多种寡核苷酸引物，例如本文提供的寡核苷酸引物。例如，试剂盒可以包含一种或多种寡核苷酸引物，其包含针对附加于通过本文提供的方法生成的多核苷酸的末端的衔接子序列的序列。在一些情况下，试剂盒可以包含加尾引物，该加尾引物包含可与靶核酸(例如，在第一和/或第二衔接子序列中存在的序列)杂交的3’-部分和不可与靶核酸杂交的5’-部分。在一些情况下，试剂盒可以包含含有RNA部分和DNA部分的嵌合引物。在一些情况下，加尾引物的5’部分包含一个或多个条码或其他标识符序列。在一些情况下，标识符序列包含流动池序列、TruSeq引物序列和/或第二读取条码序列。

在一些情况下，试剂盒可以包含一种或多种聚合酶或其混合物。在一些情况下，所述一种或多种聚合酶或其混合物可以包含链置换活性。合适的聚合酶包括本文提供的任何聚合酶。试剂盒还可包含一种或多种聚合酶底物例如dNTP、非规范或修饰的核苷酸或核苷酸类似物。

在一些情况下，试剂盒可以包含一种或多种用于纯化核酸产物、从所需产物去除片段化的产物或上述组合的工具。用于纯化核酸产物的合适的工具包括但不限于，单链特异性外切核酸酶、亲和基质、核酸纯化柱、旋转柱(spincolumn)、超滤或透析试剂或电泳试剂(包括但不限于丙烯酰胺或琼脂糖)或其任意组合。

在一些情况下，试剂盒可以包含用于生成平端的一种或多种试剂。例如，试剂盒可以包含以下试剂中的一种或多种：单链DNA特异性外切核酸酶，包括但不限于外切核酸酶1或外切核酸酶7；单链DNA特异性内切核酸酶例如绿豆外切核酸酶或S1外切核酸酶；一种或多种聚合酶例如T4DNA聚合酶或Klenow聚合酶；或其任意混合物。或者，试剂盒可以包含一种或多种单链DNA特异性外切核酸酶、内切核酸酶和一种或多种聚合酶，其中试剂不作为混合物提供。另外，用于生成平端的试剂可以包含dNTP。

在一些情况下，试剂盒可以包含用于制备用于连接至衔接子分子的双链产物的一种或多种试剂。例如，试剂盒可以包含dATP、dCTP、dGTP、dTTP或其任意混合物。在一些情况下，试剂盒可以包含多核苷酸激酶，例如T4多核苷酸激酶。另外，试剂盒可以包含适用于从平端双链DNA片段生成3’延伸的聚合酶。合适的聚合酶可以包括，例如，exo-Klenow聚合酶。

在一些情况下，试剂盒可以包含一种或多种衔接子分子例如本文提供的任意衔接子分子。合适的衔接子分子包括单链或双链核酸(DNA或RNA)分子或其衍生物、茎-环核酸分子、包含一个或多个具有1、2、3、4、5、6、7、8、9、10个碱基或更长的单链突出端的双链分子、蛋白质、肽、适体、有机分子、有机小分子或本领域已知的可以共价或非共价附接(例如通过连接)至双链DNA片段的任何衔接子分子。在一些情况下，试剂盒包含衔接子，其中该衔接子可以是双链体衔接子，其中一条链包含已知或通用序列，而另一条链包含5’和/或3’封端。长链还可以包含5’或3’封端。在又一实施方案中，双链体衔接子是部分双链体衔接子。在一些情况下，部分双链体衔接子包含含有已知或通用序列的长链和包含5’和3’封端的短链。长链也可包含5’或3’封端。在一些情况下，3’封端用末端二脱氧核苷酸(dideonucleotide)封端。

在一些情况下，试剂盒可以包含用于在衔接子与本文所述方法的双链产物之间形成的连接复合物上进行缺口或补平修复的一种或多种试剂。试剂盒可以包含适于进行缺口修复的聚合酶。合适的聚合酶可以包括，例如TaqDNA聚合酶。

试剂盒还可以包含用于试剂盒的使用的说明。例如，试剂盒可以包含用于生成代表用于大规模分析的全或部分转录组或基因组的定向多核苷酸文库或定向cDNA文库，和表征通过本文描述的方法生成的扩增核酸产物，或其任意组合的说明，所述大规模分析包括但不限于，例如，焦磷酸测序(pyrosequencing)、合成测序、杂交测序、单分子测序、纳米孔测序和连接测序、高密度PCR、数字PCR、大规模平行Q-PCR。试剂盒还可包含用于混合一种或多种反应混合物组分以生成适用于本文描述的方法的一种或多种反应混合物的说明。试剂盒还可以包含用于将一种或多种寡核苷酸引物与核酸模板杂交的说明。试剂盒还可以包含用于采用例如聚合酶和/或修饰的dNTP延伸一种或多种寡核苷酸引物的说明。试剂盒还可以包含用于用裂解剂处理DNA产物的说明。在一些情况下，裂解剂是糖基化酶和化学剂或酶。糖基化酶可以是UNG。化学剂可以是多胺。多胺可以是DMED。酶可以是内切核酸酶。内切核酸酶可以是内切核酸酶VIII或APE。试剂盒还可以包含用于纯化通过本文提供的方法的任意步骤提供的任何产物的说明。试剂盒还可包含用于例如通过用例如单链DNA特异性外切核酸酶、聚合酶或其任意组合去除单链突出端或补平单链突出端来生成平端片段的说明。试剂盒还可以包含用于磷酸化通过本文描述的方法生成的双链DNA片段的5’末端的说明。试剂盒还可以包含用于将一种或多种衔接子分子连接至双链DNA片段的说明。

试剂盒可以包括用于利用试剂盒组分以及使用不包含在试剂盒中的任何其他试剂的说明。说明可以包括可以实现的变化。

除非另外指出，本文所用的遗传学、分子生物学、生物化学和核酸的术语和符号遵循本领域中标准论文和文本中的那些，例如Kornberg和Baker,DNAReplication,第二版(W.H.Freeman,NewYork,1992)；Lehninger,Biochemistry,第二版(WorthPublishers,NewYork,1975)；Strachan和Read,HumanMolecularGenetics,第二版(Wiley-Liss,NewYork,1999)；Eckstein,编著,OligonucleotidesandAnalogs:APracticalApproach(OxfordUniversityPress,NewYork,1991)；Gait,编著,OligonucleotideSynthesis:APracticalApproach(IRLPress,Oxford,1984)等。

实施例

实施例1：从100ng总RNA输入物制备成链文库

采用图3中描述的方法来按照如图3中的方法工作流程由人通用参照(UniversalHumanReference，UHR)总RNA样品(100ng)生成成链cDNA测序文库。

a.)包含dU的第一链cDNA的合成：将2μl的第一链引物混合物(NuGEN,0334-32)和2μl的H₂O加入到2μl的人通用参照RNA(50ng/μl；Agilent)中。将混合物在65℃下温育5分钟并在冰上冷却。将以下混合物添加到上述混合物中：2.5μl的第一链缓冲液混合物(NuGEN,0334-32)、0.5μl的第一链酶混合物(NuGEN,0334-32)、0.375μl的1mMdUTP和0.625μl的H₂O。第一链cDNA合成在40℃下进行30分钟，接着在70℃下温育10分钟。

b.)第一链cDNA的片段化：将0.5μlUSER酶(NewEnglandBioLabs)添加到上述第一链cDNA合成反应混合物中，并将该反应混合物在37℃下温育30分钟，接着在95℃下温育10分钟。

c.)RNA水解：通过将2μl1NNaOH添加到上述cDNA片段化反应混合物中来水解RNA输入物，并在95℃下温育反应混合物15分钟，接着通过将2μl1NHCl添加到冷却的反应混合物中来中和反应混合物。

d.)纯化：按照制造商说明使用ssDNA/RNAClean&Concentrator(ZymoResearch)纯化片段化的第一链cDNA，并在10μl的H₂O中洗脱纯化的片段化的第一链cDNA。

e.)第一链cDNA的所有片段至在一个末端具有附加的第一衔接子的dsDNA的转化：将10μl的纯化的片段化的且3’-封端的第一链cDNA与1.5μl的10xNEBuffer2(NewEnglandBioLabs)、1.5μl的2.5mM各dNTP、0.5μl10μM的可与片段化的第一链cDNA的封端的3’末端杂交的第一衔接子(具有随机序列的8-碱基3′突出端的33bpdsDNA)和1μl的H₂O混合。将混合物在65℃下温育5分钟，并在冰上冷却。通过以下方法进行杂交的第一衔接子沿着第一链cDNA片段的延伸：加入0.5μlBsuDNA聚合酶(LargeFragmentNewEnglandBioLabs)，并将反应混合物在25℃下温育15分钟、在37℃下温育15分钟接着在70℃下温育10分钟。

f.)补齐DNA末端：将上述反应混合物与0.5μlT4DNA聚合酶(Enzymatics)合并，并将反应混合物在25℃下温育30分钟，接着在70℃下温育10分钟。

g.)第二衔接子与如上制备的dscDNA的平端的连接：通过将下述物质添加至上述反应混合物中来进行所述连接：6μl的5x快速连接缓冲液(QuickLigationBuffer)(NewEnglandBioLabs)、2.5μl的20μM第二衔接子、1.5μl的快速连接酶(QuickLigase)(NewEnglandBioLabs)和5μl的H₂O。将反应混合物在25℃下温育30分钟，接着在70℃下温育10分钟。

h.)纯化：使用0.8体积的AgencourtAmpureXP(BeckmanCoulter)纯化连接产物，即在一个末端附加第一衔接子而在另一个末端附加第二衔接子的dsDNA，并将连接产物在25μl中洗脱。

i.)PCR扩增：将如上述制备的具有附加的第一和第二衔接子的成链cDNA产物的文库用包含对第一和第二衔接子具有特异性的序列的引物以及能够进行多重测序的条码，使用下列PCR程序进行PCR扩增17个循环：70℃5分钟、17x(94℃30秒、60℃30秒、72℃1分钟)72℃5分钟。

j.)纯化：按照制造商说明使用1体积的AgencourtAmpureXP(BeckmanCoulter)纯化PCR产物，即扩增的成链cDNA文库。

使用BioAnalyzer(Agilent)分析由100ngUHR总RNA生成的一个定向测序文库的大小分布。所述文库的大小分布示于图6中。

实施例2：从1ng总RNA输入物生成成链cDNA文库

a.)包含dU的第一链cDNA的合成：将2μl的第一链引物混合物(NuGEN,0334-32)和2μl的H₂O加入到2μl的人通用参照RNA(0.5ng/μl；Agilent)中。将混合物在65℃下温育5分钟并在冰上冷却。将以下混合物添加到上述混合物中：2.5μl的第一链缓冲液混合物(NuGEN,0334-32)、0.5μl的第一链酶混合物(NuGEN,0334-32)、0.375μl的1mMdUTP和0.625μl的H₂O。第一链cDNA合成在40℃下进行30分钟，接着在70℃下温育10分钟。

g.)纯化：使用1.5X体积的AgencourtAmpureXP(BeckmanCoμlter)纯化DNA，并将DNA在18μl的H₂O中洗脱。

h.)第二衔接子与如上制备的dscDNA的平端的连接：通过将下述物质添加至上述纯化的DNA产物中来进行所述连接：5μl的5x快速连接缓冲液(NewEnglandBioLabs)、0.625μl的20μM第二衔接子和1.5μl的快速连接酶(NewEnglandBioLabs)。将反应混合物在25℃下温育30分钟，接着在70℃下温育10分钟。

i.)纯化：使用0.8X体积的AgencourtAmpureXP(BeckmanCoulter)纯化连接产物，即在一个末端附加第一衔接子而在另一个末端附加第二衔接子的dsDNA，并将连接产物在25μl的H2O中洗脱。

j.)在两个步骤中进行PCR扩增，其中在所述两个步骤之间具有纯化步骤。

第一步PCR使用下面的PCR程序进行18个循环：70℃5分钟、18x(94℃30秒、60℃30秒、72℃1分钟)72℃5分钟。

将来自该步骤的PCR产物使用0.8X体积的AgencourtAmpureXP(BeckmanCoulter)进行纯化。

将纯化的PCR产物使用下面的PCR程序进一步扩增7个循环：7x(94℃30秒、60℃30秒、72℃1分钟分钟)72℃5分钟。

进行这个两步PCR的目的在于减少引物-二聚体矫作物(artifact)的潜在生成。

k.)纯化：按照制造商说明使用1X体积的AgencourtAmpureXP(BeckmanCoulter)纯化PCR产物，即扩增的成链cDNA文库。

实施例3：RNA链保持效率和转录组测序质量

通过评价定位至人mRNA、3’-UTR和5’-UTR区以及rRNA的编码外显子的序列读取的链偏向性对使用本文提供的方法的链保持效率进行实验验证。如实施例1和2中所述由100ng和1ng的总UHRRNA生成根据本文提供的方法和组合物生成的定向cDNA文库。使用Illumina基因组分析仪(IlluminaGenomeAnalyzer)II生成单末端40次核苷酸读取。图9中汇总了测序数据以及链保持效率的结果。图9显示了由从100ng(样品1,s4_L2DR14；样品2s4_L2DR15)和1ng总UHRRNA(样品3,BC14)生成的文库的rRNA产生的大于95％的链保持和最小读取值。

由测序数据进一步证明了利用本文提供的方法和组合物由在实施例1和2中描述的定向cDNA文库生成的转录组测序的质量。如由100ng(样品1,s4_L2DR14；样品2s4_L2DR15；图7)和1ng的总UHRRNA(样品3,BC14；图10)生成的文库所示的，通过对5’-至3’表现度的分析证明了非偏向性全转录组测序。此外，选择用于生成实施例1和2中描述的定向cDNA测序文库的第一链cDNA引物导致产生了具有最小rRNA表现度的文库。

如图8中所示，如通过针对如在实施例1中所述生成的文库s4_L2DR14和s4_L2DR15的测序数据(每百万次每千碱基转录物的读取(RPKM))的关联性所示，利用来自总RNA样品的定向cDNA测序文库，本文提供的方法和组合物提供了高度可复制基因表达谱。

实施例4：由自单细胞分离的总RNA制备成链文库

在从单细胞分离RNA后，按照如图3中的方法工作流程，采用图1中描绘的方法来由自单细胞分离的总RNA产生成链的cDNA测序文库。

a.)在细胞裂解缓冲液中裂解单细胞。

b.)包含dU的第一链cDNA的合成：将2μl的第一链引物混合物(NuGEN,0334-32)和2μl的H₂O加入到细胞裂解物中。将混合物在65℃下温育5分钟并在冰上冷却。将以下混合物添加到上述混合物中：2.5μl的第一链缓冲液混合物(NuGEN,0334-32)、0.5μl的第一链酶混合物(NuGEN,0334-32)、0.375μl的1mMdUTP和0.625μl的H₂O。第一链cDNA合成在40℃下进行30分钟，接着在70℃下温育10分钟。

尽管本文中已经示出并描述了本发明的优选实施方案，但对于本领域技术人员显而易见的是这些实施方案仅以示例的方式提供。本领域技术人员在不偏离本发明的情况下，现将想到多种改变、变化和替代。应理解本文描述的本发明实施方案的多种替代方案可以用于实施本发明。目的在于以下述权利要求限定本发明的范围，并由此涵盖在这些权利要求范围内的方法和结构以及等同项。

Claims

1.一种生成定向cDNA文库的方法，该方法包括：

a)使一种或多种引物与模板RNA退火；

b)在包含dATP、dCTP、dGTP、dTTP和dUTP的反应混合物的存在下延伸所述一种或多种引物，其中所述反应混合物包含一定的dUTP与dTTP的比率，其中该比率允许dUTP以所需密度掺入，由此生成包含以所需密度掺入的dUTP的一个或多个第一链互补DNA(cDNA)；

c)用尿嘧啶-N-糖基化酶(UNG)和能够在由UNG产生的脱碱基位点裂解磷酸二酯骨架的作用物选择性裂解包含以所需密度掺入的dUTP的一个或多个第一链cDNA，其中该裂解生成包含封端3’末端的所需大小的多个第一链cDNA片段；

d)使包含部分双链体和3’突出端的第一衔接子与包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端退火，其中第一衔接子包含序列A，且其中所述退火包括使在3’突出端的随机序列与在包含封端3’末端的多个第一链cDNA片段中的一个或多个的3’末端处存在的互补序列杂交；

e)用DNA聚合酶延伸与所述互补序列杂交的3’突出端，其中生成在一个末端包含序列A的一个或多个双链cDNA片段；和

f)将包含序列B的第二衔接子连接至所述在一个末端包含序列A的一个或多个双链cDNA片段，其中所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，由此生成定向多核苷酸文库。

2.一种用于全转录组定向测序的方法，该方法包括：

a)使一种或多种引物与模板RNA退火；

b)在包含dATP、dCTP、dGTP、dTTP和dUTP的反应混合物的存在下延伸所述引物，其中所述反应混合物包含一定的dUTP与dTTP的比率，其中该比率允许dUTP以所需密度掺入，由此生成包含以所需密度掺入的dUTP的一个或多个第一链互补DNA(cDNA)；

c)用尿嘧啶-N-糖基化酶(UNG)和能够在由UNG产生的脱碱基位点裂解磷酸二酯骨架的作用物选择性裂解包含以所需密度掺入的dUTP的一个或多个第一链cDNA，其中所述裂解生成包含封端3’末端的所需大小的多个第一链cDNA片段；

e)用DNA聚合酶延伸与所述互补序列杂交的3’突出端，其中生成在一个末端包含序列A的一个或多个双链cDNA片段；

f)将包含序列B的第二衔接子连接至所述在一个末端包含序列A的一个或多个双链cDNA片段，其中所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，由此生成定向cDNA文库；和

g)对定向cDNA文库进行扩增和/或测序。

3.一种用于生成定向cDNA文库的方法，该方法包括：

a)用切口酶处理模板dsDNA，其中该处理在模板dsDNA的一条链的磷酸二酯骨架中生成一个或多个断裂，其中所述断裂在所述一条链中产生一个或多个3’羟基；

b)延伸所述一个或多个3’羟基，其中所述延伸在包含dATP、dCTP、dGTP、dTTP和dUTP的反应混合物的存在下进行，其中所述反应混合物包含一定的dUTP与dTTP的比率，其中该比率允许dUTP以所需密度掺入，由此生成包含以所需密度掺入的dUTP的一个或多个第一链互补DNA(cDNA)；

f)将包含序列B的第二衔接子连接至所述在一个末端包含序列A的一个或多个双链cDNA片段，其中所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，由此生成定向cDNA文库。

4.一种用于全基因组测序的方法，该方法包括：

a)用切口酶处理基因组DNA，其中该处理在基因组DNA的一条链的磷酸二酯骨架中生成一个或多个断裂，其中所述断裂在所述一条链中产生一个或多个3’羟基；

b)延伸所述一个或多个3’羟基，其中在包含dATP、dCTP、dGTP、dTTP和dUTP的反应混合物的存在下进行所述延伸，其中所述反应混合物包含一定的dUTP与dTTP的比率，其中该比率允许dUTP以所需密度掺入，由此生成包含以确定的频率掺入的dUTP的一个或多个第一链互补DNA(cDNA)；

g)对定向cDNA文库进行扩增和/或测序。

5.权利要求1或2的方法，其中所述一种或多种引物包含随机引物。

6.权利要求1或2的方法，其中所述一种或多种引物包含对靶模板RNA或一组RNA具有特异性的序列。

7.权利要求6的方法，其中该组RNA包含基本上所有的转录物。

8.权利要求6的方法，其中该组RNA不包含结构RNA，其中所述结构RNA包含核糖体RNA(rRNA)。

9.权利要求1、2、3或4的方法，其中所述能够裂解磷酸二酯骨架的作用物包括酶、化学试剂和/或热。

10.权利要求9的方法，其中所述化学试剂是多胺。

11.权利要求10的方法，其中所述多胺是N,N-二甲基乙二胺(DMED)。

12.权利要求9的方法，其中所述酶是内切核酸酶。

13.权利要求12的方法，其中所述内切核酸酶是内切核酸酶VIII。

14.权利要求1、2、3或4的方法，其中所述部分双链体包含长链和短链，其中所述长链包含与所述短链形成双链体的序列A和3’突出端。

15.权利要求14的方法，其中所述短链进一步在3’和/或5’末端包含封端。

16.权利要求1、2、3或4的方法，其中所述第一衔接子包含多个第一衔接子，其中在所述多个第一衔接子的每一个上的随机序列不同于在所述多个第一衔接子的另一个上的随机序列，且其中所述多个第一衔接子的每一个包含序列A。

17.权利要求16的方法，其中步骤d)导致在步骤c)中生成的包含封端3’末端的所需大小的所述多个第一链cDNA片段基本上全部进一步包含在3’末端退火的所述多个第一衔接子中的一个。

18.权利要求1、2、3或4的方法，其中所述第一衔接子进一步包含茎环，其中所述茎环将所述部分双链体的长链的5’末端与所述部分双链体的短链的3’末端连接，且其中所述长链包含序列A和3’突出端。

19.权利要求14的方法，其中所述第一衔接子还在长链的5’末端包含封端。

20.权利要求16的方法，其中所述第一衔接子还在短链的5’末端包含封端。

21.权利要求1、2、3或4的方法，其中所述3’突出端包含至少6、7、8或9个核苷酸。

22.权利要求1、2、3或4的方法，其中所述第二衔接子包含部分双链体，其中所述部分双链体包含与短链杂交的长链，其中所述长链包含序列B和突出端。

23.权利要求22的方法，其中所述长链包含序列B和3’突出端，且其中所述短链在3’末端包含封端。

24.权利要求23的方法，其中所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，其中序列A在一个末端上的5’末端处且序列B在相反末端上的3’末端处。

25.权利要求22的方法，其中所述长链包含序列B和5’突出端，且其中所述短链在5’末端包含封端。

26.权利要求25的方法，其中所述连接生成在一个末端包含序列A且在相反末端包含序列B的一个或多个双链cDNA片段，其中序列A在一个末端上的5’末端处且序列B在相反末端上的5’末端处。

27.权利要求26的方法，其中使用序列B作为模板来延伸相反末端的3’末端，由此生成在一个末端的5’末端包含序列A且在相反末端的3’末端包含与序列B互补的序列B’的一个或多个双链cDNA片段。

28.权利要求1或3的方法，进一步包括扩增所述定向cDNA文库，由此生成扩增产物。

29.权利要求28的方法，进一步包括对所述扩增产物进行测序的附加步骤。

30.权利要求28的方法，其中所述扩增包括SPIA。

31.权利要求28的方法，其中所述扩增包括引物的使用，其中一种或多种引物包含一个或多个条码序列。

32.权利要求29的方法，其中所述测序包括新一代测序。

33.权利要求2或4的方法，其中所述扩增包括SPLA。

34.权利要求2或4的方法，其中所述扩增包括引物的使用，其中一种或多种引物包含条码序列。

35.权利要求2或4的方法，其中所述测序包括新一代测序。

36.权利要求1或2的方法，进一步包括在步骤b)后降解模板RNA。

37.权利要求1或2的方法，其中所述裂解包括使模板RNA样品暴露于RNA酶。

38.权利要求3或4的方法，其中所述切口酶包含链特异性切口酶。

39.权利要求3或4的方法，其中在步骤b)中延伸一个或多个3’羟基利用包含链置换活性的DNA聚合酶进行。

40.权利要求1、2、3或4的方法，其中所述连接包括平端连接，其中在步骤e)中生成的在一个末端包含序列A的一个或多个双链cDNA片段在步骤f)前进行末端修复。

41.权利要求1、2、3或4的方法，其中所述第一和/或第二衔接子进一步包含一个或多个条码。