CN107636163A

CN107636163A - 用于构建链特异性cDNA文库的组合物和方法

Info

Publication number: CN107636163A
Application number: CN201680024789.1A
Authority: CN
Inventors: 布拉德·汤斯利; 迈克尔·F·科温顿; 尼利马·辛哈
Original assignee: University of California
Current assignee: University of California
Priority date: 2015-04-29
Filing date: 2016-04-29
Publication date: 2018-01-26
Also published as: BR112017023257A2; US11279927B2; WO2016176654A3; US20220389416A1; CA2982421A1; JP2018515081A; JP6917629B2; WO2016176654A2; US20190048336A1; AU2016255570B2; EP3289105A2; AU2016255570A1; KR20170138566A; EP3289105A4; EP3289105B1; MX2017013749A

Abstract

在本文中提供了用于制备链特异性cDNA文库的组合物、试剂盒和方法。所述组合物、试剂盒和方法利用双链多核苷酸如RNA‑cDNA双链体的性质以捕获和结合新型测序接头。所述方法是借助大规模并行序列如全长RNA测序(RNA‑Seq)和3’标签数字基因表达(DGE)的可用的转录组分析。

Description

用于构建链特异性cDNA文库的组合物和方法

相关申请的交叉引用

本申请要求2015年4月29日提交的美国临时申请号62/154,584的优先权，公开内容通过整体引用结合于此以用于所有目的。

关于在联邦资助的研究和开发下做出的发明的权利的声明

本发明利用在国家科学基金授予的批准号DBI1238243下的政府支持做出。政府在本发明中具有某些权利。

发明背景

近期在高通量、下一代测序(NGS)技术方面的进步已经实现了全基因组测序和功能基因组学的新方法，包括任何转录组的综合表征和定量。RNA测序(RNA-Seq)包括由信使和结构RNA产生的互补DNA(cDNA)的直接测序和将测序读序(read)定位(mapping)至参考基因组或基因集以用于基因表达分析。这种技术可以用于鉴别新型转录物、小RNA、可变剪接产物、融合转录物、有义转录物和反义转录物。被称为数字基因表达(Digital GeneExpression，DGE)的另一种技术使用NGS确定在样品中检测cDNA序列的次数，其与对应于该序列的RNA的相对表达直接相关。

进行标准RNA-Seq的一个缺点是在缺乏在转录方向上的信息。链信息确定靶标RNA转录本来源于两个DNA链中的哪一个。该信息可以提供例如在转录本注释、转录本发现和表达分析方面的增加的可信度。维持链取向还允许鉴别反义RNA表达，这是基因调节的重要介质。确定有义和反义表达的水平的能力提供了细胞转录组的更多信息。

最近已经开发了用于产生链特异性RNA-Seq文库的方法。例如，一种方法标记原始RNA(例如，通过亚硫酸氢盐处理)或转录的cDNA(例如，通过修饰的核苷酸的结合)中的一条链，随后进行未标记的链的降解。遗憾的是，这些方法是劳动密集的。

对于用于产生用于使用下一代测序进行RNA-Seq和数字基因表达(DGE)分析的定向(链特异性)cDNA文库的改进方法，仍然存在需求。

发明概述

在一个方面中，在本文中提供了由RNA样品中的RNA分子产生链特异性cDNA分子的方法。所述方法包括(a)从生物样品中分离所述RNA样品；(b)使所述RNA分子断裂；(b)通过逆转录产生包含所述RNA分子和第一cDNA链的RNA-互补DNA(cDNA)双链体；(c)将部分双链的寡核苷酸5’接头与所述第一cDNA链的3’端退火，其中所述5’接头包含：(i)第一链捕获寡核苷酸，所述第一链捕获寡核苷酸包含至少20个脱氧核糖核苷酸，和3’突出端，所述3’突出端包含与所述第一cDNA链的所述3’端退火的约6-12个连续随机脱氧核糖核苷酸；和(ii)第二链阻断寡核苷酸，所述第二链阻断寡核苷酸包含与所述第一链捕获寡核苷酸的至少一部分互补的至少20个脱氧核糖核苷酸；和(d)产生所述链特异性cDNA分子。在一些实施方案中，所述方法包括在步骤(a)之后使所述RNA分子断裂。在一些实例中，产生所述链特异性cDNA分子的步骤(d)包括使用DNA聚合酶或其片段延伸所述5’接头的所述第一链捕获寡核苷酸以产生与所述第一cDNA链互补的第二cDNA链。在一些实施方案中，所述方法还包括使用与所述第二链阻断寡核苷酸互补的引物扩增所述第二cDNA链。扩增的步骤包括聚合酶链反应(PCR)。

在一些实施方案中，所述方法另外包括确定所述被扩增的第二cDNA链的序列。在一些情况中，约8-12个连续脱氧核糖核苷酸与事先选择的第一cDNA链基本上互补。在其他情况中，8-12个连续脱氧核糖核苷酸与事先选择的第一cDNA链100％互补。

在一些实施方案中，使所述RNA样品断裂的步骤在含Mg²⁺的缓冲液中进行。步骤(c)和/或(d)可以在室温下进行。

在一些实例中，所述DNA聚合酶或其片段是DNA聚合酶I。在其他实例中，所述DNA聚合酶或其片段是Klenow片段。

在一些实施方案中，所述5’接头的所述第二链阻断寡核苷酸是5’磷酸化的。在这样的情况中，所述DNA聚合酶可以是Klenow片段和连接酶。

所述生物样品可以是动物组织样品。备选地，所述生物样品是植物组织样品。

在另一个方面中，在本文中提供了试剂盒，所述试剂盒包含所述第一cDNA链的3’端的部分双链的寡核苷酸5’接头，其中所述5’接头包含：(i)第一链捕获寡核苷酸，所述第一链捕获寡核苷酸包含至少20个脱氧核糖核苷酸，和3’突出端，所述3’突出端包含与所述第一cDNA链的所述3’端退火的约6-12个连续随机脱氧核糖核苷酸；和(ii)第二链阻断寡核苷酸，所述第二链阻断寡核苷酸包含与所述第一链捕获寡核苷酸的至少一部分互补的至少20个脱氧核糖核苷酸；与所述第二链阻断寡核苷酸互补的测序引物。任选地，所述试剂盒可以含有说明手册。

所述第一链捕获寡核苷酸可以包含在SEQ ID NO：1中给出的序列。所述第二链阻断寡核苷酸可以包含在SEQ ID NO：2中给出的序列。在一些实施方案中，所述第二链阻断寡核苷酸是5’磷酸化的。

所述5’接头的所述3’突出端可以包含约8-12个连续随机脱氧核糖核苷酸。在一些实例中，所述约8-12个连续脱氧核糖核苷酸与所述RNA-cDNA双链体的事先选择的第一cDNA链基本上互补。在其他实例中，所述约8-12个连续脱氧核糖核苷酸与所述RNA-cDNA双链体的事先选择的第一cDNA链100％互补。

在又一个方面中，在本文中提供了多核苷酸复合物。所述多核苷酸复合物包含RNA-cDNA双链体，所述RNA-cDNA双链体包含来源于生物样品的RNA分子和通过所述RNA分子的逆转录产生的第一cDNA链，和所述第一cDNA链的3’端的部分双链的寡核苷酸5’接头，其中所述5’接头包含：(i)第一链捕获寡核苷酸，所述第一链捕获寡核苷酸包含至少20个脱氧核糖核苷酸，和3’突出端，所述3’突出端包含与所述第一cDNA链的所述3’端退火的约6-12个连续随机脱氧核糖核苷酸；和(ii)第二链阻断寡核苷酸，所述第二链阻断寡核苷酸包含与所述第一链捕获寡核苷酸的至少一部分互补的至少20个脱氧核糖核苷酸，其中所述5’接头与所述RNA-cDNA双链体的所述第一cDNA链的3’端退火。

可以使用包含随机核苷酸序列的3’接头产生所述第一cDNA链。备选地，可以使用包含polyT序列的3’接头产生所述第一cDNA链。

在一些实施方案中，所述5’接头的所述3’突出端包含约8-12个连续随机脱氧核糖核苷酸。所述约8-12个连续脱氧核糖核苷酸可以与所述RNA-cDNA双链体的事先选择的第一cDNA链基本上互补。在其他情况中，所述约8-12个连续脱氧核糖核苷酸可以与所述RNA-cDNA双链体的事先选择的第一cDNA链100％互补。

所述第一链捕获寡核苷酸可以包含在SEQ ID NO：1中给出的序列。所述第二链阻断寡核苷酸可以包含在SEQ ID NO：2中给出的序列。

根据以下详细描述和附图，对于本领域技术人员来说，本发明的其他目的、特点、和优势将会是显而易见的。

附图简述

图1示出了链特异性文库合成机制的示意图。将mRNA(101)通过热和镁断裂(1)并且通过含接头的寡核苷酸引发以用于cDNA合成(2和3)。示例性mRNA转录本包括poly A尾(SEQ ID NO：18；5’-AAAAAAAAAAAAAAA)。示例性的DGE引物含有SEQ ID NO：19(5’-TTTTTTTTTTTTTTTTTV)的核酸序列。示例性SHO引物包括SEQ ID NO：20(5’-NNNNNNNN)的核酸序列。

尺寸选择和清除将未结合的寡核苷酸和小cDNA片段移除(4)。在RNA-cDNA杂合体的末端处的瞬时双链体呼吸(transient duplex breathing)(5)促进与5-引物捕获接头的单链部分的相互作用(6)并且大肠杆菌(E.coli)DNA聚合酶I催化其向完整文库分子中的结合(7)。示例性的双链5’-接头(130)以8个随机脱氧核糖核苷酸(SEQ ID NO：21；5’-NNNNNNNN)的突出端示出。

图2A-2D提供了文库质量和特征的分析。通过全部质量过滤步骤的读序的百分数(图2A)。针对DGE和HTR的序列复制水平(图2B)。在DGE和HTR中的读序的GC含量(图2C)。与HTR相比，在DGE中平均GC含量较低并且分布较宽。在链特异性DGE和非链特异性HTR文库之间个体核苷酸的组成不同(图2D)。在HTR文库中在修剪的(trimmed)质量过滤的读序的前若干个位置序列偏向更明显。误差柱反映通过组织和方法(图2A)或通过方法(图2B和2C)分离的样品之间的标准差。

图3A-3D提供了读序定位和链特异性。分数来自接头(图3A)和核糖体RNA(图3B)污染的读序的分数。定位至ITAGcds+500参考的任意一条链的读序(图3C)。属于正链的编码序列定位的读序(图3D)。

图4A-4C示出了转录本覆盖度(coverage)和cDNA序列选择偏向。在定位参考内的DGE和HTR读序的定位(图4A)，定位至1.5KB窗口的DGE读序位于注释终止密码子附近。定位的读序的上游的转录本核苷酸的碱基频率(图4B和4C)。

图5使用针对每一种的代表性的样品对示出了针对每种样品DGE和HTR的代表性的样品对的log2转换的表达相互关系。所有DGE和HTR的平均R平方值。

图6A-6B示出了针对DGE和HTR的多维尺度(MDS)图表。SAM和叶样品(图6A)。DGE和HTR之间的SAM相对于叶的log₂倍数变化比较(图6B)。

图7A-7C描绘了以逐渐增加的时间间隔借助3mM镁在94℃下的RNA断裂(图7A)。对使用大肠杆菌聚合酶I的呼吸捕获反应中的MgCl浓度的文库输出的影响(图7B)。大肠杆菌聚合酶I(2.5U)、Klenow片段(1.25U)和Klenow exo-(1.25U)成功地促进了呼吸捕获反应(图7C)。在图7C中所示的道分别为4个、2个和2个技术重复。呼吸捕获反应(图7B和7C)在室温下进行15分钟。

图8示出了相对于文库扩增、所使用的循环数和汇集之前洗涤的文库的浓度的RNA起始量。

图9A-9B示出了在本研究中使用的DGE和HTR文库的质量过滤前后的PHRED评分。

图10示出了每百万个质量过滤的读序的序列复制速率。高通量HTR 23.12％(虚线)、DGE 66.15％(实线)、鸟枪法(SHO)53.63％(实线)、脱氧尿嘧啶标记的(dU)48.28％(点)。

图11A-11F示出了关于针对另外的链特异性文库方法、鸟枪法(SHO)(图11A、11C和11E)和脱氧尿嘧啶标记的(dU)(图11B、11D和11F)的过滤的读序信息的FastQC分析。质量评分(图11A和11B)、碱基组成(图11C和11D)、百分GC含量(图11E和11F)。

图12提供了在DGE和HTR中的唯一定位的读序的基因组定位位置。DGE读序示出了到转录物的3-引物的主要定位。

图13示出了SHO文库的转录本覆盖度轨迹。

图14示出了读序来源的判定。当转录本通过读序的链特异性重叠或紧密靠近时，DGE读序可以正向分配至它们的原始转录本。

图15示出了显示定位的读序的上游20个碱基的信息含量的序列标识。

图16提供了与方法之间相比在每种方法中示出更高相关性的差异基因表达的成对的比较。

图17示出了由在3-引物末端附近含有条码序列的单链接头引起的来自相同mRNA样品的不均匀扩增。

图18描绘了利用单链含条码接头制备的文库样品的层次聚类(hierarchicalclustering)显示出仅通过条码序列分组。

图19示出了定位至含有鸟嘌呤重复的位置的读序的过度呈现(overrepresentation)。

图20示出了在利用原型接头制备的文库的中定位位置的高度不均匀分布。

图21示出了修剪的读序的第一个定位核苷酸的上游的读序的序列信息含量。

图22提供了使用在本文中所述的方法(BrAD-seq)和Illumina ScriptSeq v2的转录本中位置的读序覆盖度。

发明详述

I.引言

在本文中提供了用于制备可以在下一代测序(NGS)中使用的链特异性RNA-seq文库的组合物、试剂盒和方法。这些用于产生链特异性cDNA文库的较少耗时和更节省成本的方法利用了DNA呼吸的现象以促进定向测序接头向双链核酸分子中的捕获和结合。在针对特定序列的给定温度下，双链核酸分子(例如，RNA-cDNA复合物)可以立刻分离以使碱基暴露(“呼吸”)。该过程在双链核酸分子的末端处以较高速率发生。在瞬时末端呼吸期间，多核苷酸接头可以与RNA-cDNA复合物的第一cDNA链退火。在聚合酶的存在下，接头可以延伸并且产生与第一cDNA链互补的第二链cDNA。结合接头的双链cDNA分子准备用于扩增。该过程避免了对第二链cDNA合成和在接头加入之前的RNA移除的需求。在本文中所述的方法可以用于形成链特异性RNA文库和3’数字基因表达文库。

II.定义

如在本文中所使用的，除非另外指明，以下术语具有属于其本身的含义。

如在本文中所使用的术语“一个”、“一种”、或“所述”不仅包括具有一个成员的方面，而且还包括具有多于一个成员的方面。例如，单数形式“一个”、“一种”、和“所述”包括复数的所指对象，除非上下文明确地另外指出。因此，例如，提及“一个细胞”包括多个这样的细胞并且提及“所述试剂”包括提及本领域技术人员已知的一种或多种试剂，等等。

术语“链特异性”或“定向”是指在双链多核苷酸中区分原始模板链和与该原始模板链互补的链的能力。

术语“多核苷酸”或“核酸”是指单链或双链形式的脱氧核糖核酸(DNA)或核糖核酸(RNA)和其聚合物。除非特别限定，该术语包括含有具有与参考核酸相似的结合性质并且以与自然存在的核苷酸相似的方式代谢的天然核苷酸的已知类似物的核酸。

术语“RNA分子”或“核糖核酸分子”是指具有核糖而不是脱氧核糖并且通常具有尿嘧啶而不是胸腺嘧啶作为嘧啶碱基之一的多核苷酸。本发明的RNA分子通常是单链的，但是也可以是双链的。在来自RNA样品的RNA分子的上下文中，RNA分子可以包括由细胞核、线粒体或叶绿体中的DNA转录的单链分子，其具有与转录其的DNA链互补的核苷酸碱基的线性序列。

术语“cDNA分子”或“互补DNA分子”是指通过逆转录酶的作用由RNA逆转录的合成DNA。cDNA分子可以是双链的，其中一条链具有与RNA序列的一部分基本相同的序列并且第二链是其互补体。

术语“第一链合成”可以是指使用原始核酸(例如，RNA)作为用于聚合酶反应的起始模板的第一链的合成。第一链的核苷酸序列相当于与起始模板互补的序列。例如，在使用RNA作为起始模板和逆转录酶(例如，RNA依赖性DNA聚合酶)的第一链合成中，所得的第一链(例如，第一链cDNA)相当于RNA模板的互补序列。

术语“第一链cDNA”是指通过第一链合成而合成的cDNA链。第一链cDNA的序列与第一链合成的起始模板互补。

术语“第二链cDNA”是指通过使用来自第一链合成反应的第一链cDNA作为模板的延伸或聚合酶反应产生的cDNA的第二链。第二链cDNA的核苷酸序列相当于第一链合成的原始核酸模板(例如，RNA模板)的序列。

术语“引物”或“寡核苷酸”是指通过与靶标或模板杂交而与靶寡核苷酸、靶多核苷酸、或模板多核苷酸结合的通常具有游离3’-OH基团的短的多核苷酸。

术语“接头”或“接头分子”是指可以与目标靶多核苷酸或靶多核苷酸链退火并且能够生成目标靶多核苷酸或靶多核苷酸链的扩增产物的已知序列的寡核苷酸。适合的接头包括包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15个碱基或更长的单链突出端的双链核酸(DNA或RNA)分子。接头的双链DNA部分还可以包含设计为标记目标样品或序列的指示(indexing)或条码序列。

术语“延伸(extension)”、“延伸(extending)”或其语法等同物是指通过延伸酶如聚合酶向引物、多核苷酸或其他核酸分子加入dNTP。

术语“连接(ligation)”、“连接(ligating)”或其语法等同物是指两个核苷酸链通过磷酸二酯键连接。这样的反应可以通过连接酶催化。连接酶是指利用ATP或类似三磷酸酯的水解催化该反应的一类酶。

术语“杂交(hybridization)”、“杂交(hybridizing)”或其语法等同物是指这样的反应，其中一个或多个多核苷酸反应形成至少部分地通过核苷酸残基的碱基之间的氢键键合形成(通常是稳定的)的复合物。氢键键合可以通过沃森-克里克碱基配对(Watson-Crickbase pairing)、胡格斯丁结合(Hoogstein binding)、或以任何其他序列特异性方式进行。

术语“逆转录”是指将RNA分子的核苷酸序列拷贝为DNA分子的过程。可以通过使RNA模板与RNA依赖性DNA聚合酶(也被称为逆转录酶)在公知条件下反应来进行逆转录。逆转录酶是将单链RNA转录为单链DNA的DNA聚合酶。根据所使用的聚合酶，逆转录酶还可以具有用于随后的RNA模板的降解的RNA酶H活性。

在核苷酸序列的上下文中，术语“随机”是指当与在一群多核苷酸中的其他随机核苷酸序列组合时表示对于给定长度的核苷酸来说全部或基本上全部可能的核苷酸组合的核苷酸的变化的序列。例如，因为在任何给定位置均存在四种可能的核苷酸，长度为两个随机核苷酸的序列具有16种可能的组合，长度为三个随机核苷酸的序列具有64种可能的组合，或者长度为四个随机核苷酸的序列具有265种可能的组合。

在两个核酸序列的上下文中，术语“互补”是指杂交的能力或者在核酸之间，如，例如在第一多核苷酸和第二多核苷酸之间的碱基对。互补核苷酸通常是A和T(或A和U)，或者C和G。当一条链的碱基与另一条链的至少约80％的碱基最佳对齐并且配对时，通常至少约90％至95％，并且更优选约98至100％，认为两种单链多核苷酸是基本上互补的。

III.实施方案详述

在本文中提供了用于构建保持原始单链核酸分子的定向信息的链特异性cDNA文库的方法、组合物和试剂盒。本发明部分基于可以与cDNA-RNA双链体中的cDNA的3’端特异性退火并且延伸以产生链特异性cDNA分子的新型接头的发现。

在某些条件下，5’双链DNA接头(捕获-阻断接头)可以与经历呼吸的cDNA-RNA双链体退火。在形成包含cDNA-RNA双链体和DNA接头的中间复合物时，可以通过借助DNA聚合酶的延伸将核苷酸加入至接头的捕获链的3’末端。加入的核苷酸(例如，第二链cDNA或靶多核苷酸)是互补的并且相对于cDNA-RNA双链体的cDNA链拥有定向性。在本文中所述的方法可用于构建提供来自靶mRNA的3’端的读序的链特异性3’数字基因表达(3’DGE)文库。该方法和组合物可以与公知的测序技术尤其是高通量测序技术组合，发现应用包括鉴别可变剪接事件、基因融合、等位基因特异性表达、和检验稀有和新型转录本。

A.接头

在本文中提供的接头包括捕获引物和阻断引物，其中阻断引物与捕获引物的一部分互补。技术人员将会认识到，阻断引物不需要与捕获引物100％互补并且可以是基本上互补的(例如，80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％互补)。接头的核酸序列可以基于本发明的链特异性cDNA分子的下游应用。例如，可以选择接头序列以与特异性NGS平台相容。

在一些实施方案中，接头的捕获引物包括与阻断引物互补的至少20个脱氧核糖核苷酸。捕获引物还包括在可以与靶标第一链cDNA的3’端退火的3’端的约6至约12、例如约6、约7、约8、约9、约10、约11、约12个脱氧核糖核苷酸的捕获区域。双链接头分子的3’突出端由位于捕获引物的3’端的捕获区域的约6至约12、例如约6、约7、约8、约9、约10、约11、约12个脱氧核糖核苷酸形成。捕获区域的脱氧核糖核苷酸的序列(即3’突出端)可以是随机的。换句话说，可以随机地选择这些脱氧核糖核苷酸而无需考虑或知晓第一链cDNA的序列。在其他情况中，捕获区域的序列可以是基本上随机的序列、共有序列或特异性序列。在一些实施方案中，3’突出端的脱氧核糖核苷酸与一个或多个事先选择的第一链cDNA基本上互补，例如80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％互补。在其它实施方案中，选择3’突出端的脱氧核糖核苷酸为与一个或多个事先选择的第一链cDNA 100％互补。

在一些实施方案中，双链接头分子的阻断引物包括与不形成接头分子的3’突出端的捕获引物的一部分互补的至少20、例如20、25、30、35、40、45、50、或更多个脱氧核糖核苷酸。阻断引物可以是捕获引物的一部分的反向互补体。阻断引物的5’端可以是磷酸化的。

在一些情况中，捕获引物包含SEQ ID NO：1(5’-CCTACACGACGCTCTTCCGATCT)的核酸序列。具有捕获区域的捕获引物可以具有SEQ ID NO：3(5’-CCTACACGACGCTCTTCCGATCTN_6-12，其中N可以是任何脱氧核糖核苷酸)的核酸序列。在一些实施方案中，具有捕获区域的捕获引物具有SEQ ID NO：4(5’-CCTACACGACGCTCTTCCGATCTNNNNNN)、SEQ ID NO：5(5’-CCTACACGACGCTCTTCCGATCTNNNNNNN)、SEQ ID NO：6(5’-CCTACACGACGCTCTTCCGATCTNNNNNNNN)、SEQ ID NO：7(5’-CCTACACGACGCTCTTCCGATCTNNNNNNNNN)、SEQ ID NO：8(5’-CCTACACGACGCTCTTCCGATCTNNNNNNNNNN)、SEQ ID NO：9(5’-CCTACACGACGCTCTTCCGATCTNNNNNNNNNNN)、或SEQ ID NO：10(5’-CCTACACGACGCTCTTCCGATCTNNNNNNNNNNNN)的核酸序列。在一些情况中，阻断引物包含SEQID NO：2(5’-AGATCGGAAGAGCGTCGTGTAGG)的核酸序列。

预期的是，部分双链的5’接头可以基于用于大量NGS测序平台的任何5’接头，包括例如，由Roche Applied PacificThermo Fisher 等。可以基于特异性接头选择捕获引物及其相应阻断引物的序列，并且捕获引物的捕获区域的序列可以是随机的或者基于目标第一链cDNA或目标RNA分子的序列。

可以通过在其中形成具有3’突出端的复合物的条件下将捕获引物和阻断引物退火来制备双链5’接头。在一些实例中，3’突出端是长度为约6至约12、例如约6、约7、约8约9、约10、约11、约12个随机连续脱氧核糖核苷酸。引物可以在以下条件下退火：(1)94℃1分钟，(2)94℃10秒，以-1℃/循环进行60次循环，(3)20℃1分钟，和任选地，保持4℃。在一些情况中，将所得的双链5’接头与任何未退火的、游离捕获引物和阻断引物分离。

为了产生包含多种cDNA分子(例如，第一和第二链cDNA)的链特异性cDNA文库、可以使用多种部分双链的接头分子。在一些实施方案中，每种接头分子的捕获引物和阻断引物的序列基本上相同并且接头分子的3’突出端的序列可以是随机的。

B.产生链特异性cDNA文库的方法

在本文中所述的方法包括由来源于生物样品的RNA-cDNA双链体的混合物制备链特异性cDNA文库。产生如RNA-cDNA双链体的混合物的详细描述发现于，例如Kumar等人，Front Plant Sci，2012，3：202；“mRNA测序：样品制备指导(mRNA Sequencing：SamplePreparation Guide)”，Illumina，目录号#RS-930-1001，部分#1004898；Maekawa等人，Methods Mol Biol，2014，1164：51-65，和Tariq等人，Nucl Acids Res，2011，39(18)：e120。

样品可以是任何生物样品，如来自动物、植物、霉菌、真菌、或微生物例如细菌、酵母菌、病毒、类病毒的样品。可以使用在本领域中已知的标准技术得到或纯化来自生物样品的RNA(例如，mRNA和非mRNA)。试剂盒和试剂，如 RNA微型试剂盒(ThermoFisher Scientific)、 mRNA DIRECT^TM微纯化试剂盒(Thermo FisherScientific)、GeneJET RNA纯化试剂盒(Thermo Fisher Scientific)、(ThermoFisher Scientific)、和 Plus通用试剂盒(Qiagen)可以用于裂解生物样品并且提取RNA样品。可以根据在本文中所述的方法由少量生物样品如10mg的细胞质致密的植物组织或其等同物产生定向cDNA文库。

可以进一步处理RNA样品以分离RNA分子，例如mRNA和微小RNA。可以使用试剂盒，如 mRNA纯化试剂盒、mRNA分离试剂盒(Roche)和mRNA分离试剂盒(NewEngland Biolabs)。备选地，可以使用本领域技术人员已知的任何方法将RNA样品耗尽核糖体RNA(rRNA)。核糖体RNA消耗试剂盒可商购自Qiagen、Thermo Fisher Scientific、NewEngland Biolabs、Illumina等。

在逆转录产生RNA-cDNA双链体之前，可以通过使用二价阳离子(例如，Zn²⁺和Mg²⁺)在高温(例如，90℃-96℃)下的部分碱水解将分离的RNA分子(例如，mRNA分子)断裂。断裂缓冲液可商购自，例如New England 和Thermo Fisher 备选地，含有Mg²⁺离子的第一链cDNA合成缓冲液可以用于在高温下将mRNA断裂。在一些实施方案中，分离的RNA分子未被断裂。未断裂的RNA分子可以用于制作全长转录本文库。

可以用与下游应用例如特异性NGS平台相容的3’接头引发断裂或未断裂的mRNA分子。例如，与3’接头融合的polyT引物或随机引物(例如，随机六聚体或八聚体)可以与mRNA分子退火。

可以通过标准第一链cDNA合成反应方法由上述3’接头引发的RNA分子制备RNA-cDNA双链体。例如，可以在多种条件下将包含逆转录缓冲液、DTT、dNTP和逆转录酶的第一链cDNA反应混合物与3’接头引发的RNA分子以合成第一链cDNA。

可以在多种条件下将上述双链5’接头加入至RNA-cDNA双链体中以形成包含RNA分子、第一cDNA链、和接头的中间复合物。在一些实施方案中，在20℃至25℃在阳离子(例如，Mg²⁺)的存在下形成中间复合物。当RNA-cDNA双链体在瞬间打开末端以允许捕获单链延伸(例如，3’突出端)的5’接头与cDNA链的3’端退火时，可以产生多聚体中间复合物。可以通过接头的捕获引物的延伸使复合物进一步稳定。

在一些方面中，所述方法包括使5’接头例如与第一链cDNA杂交的捕获引物延伸。在一些情况中，由第一链cDNA合成第二链cDNA包括使杂交的捕获引物延伸。用于引物延伸的方法对于本领域普通技术人员来说是公知的并且可以包括使用延伸酶，如聚合酶。可用的DNA聚合酶包括具有5’至3’核酸外切酶活性的聚合酶；具有链置换活性的聚合酶；DNA聚合酶I(Pol I)；DNA聚合酶I、大(Klenow)片段、和Klenow片段exo-。在一些情况中，具有链置换活性的DNA聚合酶可以是phi 29、Bst DNA聚合酶、大片段；SD DNA聚合酶、来源于水生栖热菌(Thermus aquaticus)的修饰的DNA聚合酶(Taq聚合酶)等。本发明的第二链cDNA通过引物延伸制备并且包括捕获引物。在一些实施方案中，链特异性cDNA由在捕获引物上引发的cDNA的3’端产生。

C.链特异性cDNA的扩增

任何方法、组合物和试剂盒均可以用于产生用于下游应用如大规模并行测序(即，下一代测序方法)或杂交平台的链特异性cDNA的易于扩增的产物。在一些实例中，富集PCR使用与cDNA分子的5’和3’接头相容的引物进行并且可以扩增接头和cDNA分子。扩增的方法是在本领域内公知的。适合的扩增反应可以包括任何DNA扩增反应，包括但不限于聚合酶链反应(PCR)、链置换扩增(SDA)、线性扩增、多重置换扩增(MDA)、滚环扩增(RCA)、单一引物等温扩增(SPIA)、Ribo-SPIA、或其组合。

在PCR中，安置与DNA的相对链退火的两种不同PCR引物，从而一个引物的聚合酶催化的延伸产物可以充当另一个的模板链，导致其长度由寡核苷酸引物的5’末端之间的距离限定的分离的双链片段的累积。借助聚合酶的变性、引物退火、和引物延伸的反复循环导致引物侧部的所需的靶多核苷酸序列的拷贝的指数增加。

D.下一代测序

在一些实施方案中，在本文中提供的方法包括对其序列对应于靶标RNA分子的扩增产物进行DNA测序。DNA测序的非限制性实例包括自动化Sanger测序(AB 13730x1基因组分析仪)、在固体载体上的焦磷酸测序(454测序，Roche)、利用可逆终止的边合成边测序(基因组分析仪)、使用半导体的边合成边测序(Ion Torrent^TM)、边连接边测序(ABI )或利用虚拟终止子的边合成边测序(HeliScope^TM)。用于测序的可用方法已经由Illumina、454/Roche Life Sciences、Applied Biosystems、HelicosBiosciences、Pacific Biosciences、Life Technologies等商业化。

E.试剂盒

在本文中提供了试剂盒，其包含双链5’接头和可用于对5’接头进行测序的测序引物。5’接头可以含有包含至少20个脱氧核糖核苷酸和包含约6-12个连续脱氧核糖核苷酸的3’突出端的捕获引物，以及包含与捕获引物的至少一部分互补的至少20个脱氧核糖核苷酸的阻断引物。阻断引物可以在阻断引物的整个长度内与捕获引物100％互补。形成3’突出端的6-12个连续脱氧核糖核苷酸可以是随机的或者表示基于目标第一链cDNA的事先选择的序列。在一些实例中，事先选择的序列与目标cDNA的末端至少50％、例如50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或99％互补。在其他实例中，事先选择的序列与目标cDNA的末端100％互补。

试剂盒的测序引物用于确定根据在本文中所述的方法产生的第二链cDNA的序列。测序引物的序列基于5’接头分子。在一些实施方案中，测序引物与接头的阻断引物互补。

试剂盒可以包含所需试剂以产生链特异性cDNA文库，如聚合酶缓冲液、聚合酶、DTT、dNTP、无菌水、MgCl₂、断裂缓冲液、cDNA扩增引物、和用于纯化文库的试剂。试剂盒还可以含有说明手册。

IV.实施例

提供以下实施例以说明、但并非限制本请求保护的发明。

实施例1：呼吸接头定向测序(BrAD-seq)：用于DNA和链特异性mRNA文库构建的流线型、超简单且快速的文库制备方案。

下一代测序(NGS)技术具有迅速成为基因组学研究的基本工具(Koboldt等人，2013)。尤其是，RNA测序(RNA-seq)已经改变了基因表达分析并且以前所未有的详细水平促进了非模型生物的研究，并且对于基本上任何物种具有产生转录组装配(transcriptomeassembly)的能力(Sémon，2014年)。在最常用的Illumina平台上，对大量生物样品进行测序的能力需要由在分子末端具有指定序列“接头”的核酸样品创建文库。存在多种可用于由来自多种源材料的核酸样品产生添加了接头的文库的方法，然而该过程仍然是技术上具有挑战性的、费力的、并且昂贵的，从而限制了该技术的广泛使用。

在这里，我们提供了用于构建简单、快速、且廉价的模块化形式的链特异性RNA-seq文库的新型且有效的方法。除了使用多种DNA源材料以外，该方法被优化以创建链特异性3-引物数字基因表达(来自mRNA的3’端的提供DGE的读序)，并且可以适用于链特异性非DGE鸟枪法类型(SHO)和更常规的非链特异性(CNV)RNA-seq文库。对于基因表达研究来说，3-引物DGE文库通常是优选的，因为单一mRNA产生近似1个序列读序，降低了潜在的偏向的来源。

在cDNA文库的制备期间，链特异性RNA-seq需要定向添加唯一的5-引物和3-引物接头序列。在多种NGS文库制备方案中，这以多种方式实现。这些包括，在cDNA合成之前已知序列与mRNA分子的5-引物部分的连接(Lister等人，2008)，模板RNA链的移除和随后的随机引发的第2链合成(Armour等人，2009)，在富集之前用dUTP标记第一或第二链cDNA分子以用于酶降解(Parkhomchuk等人，2009)以及使用末端转移酶将限定的核苷酸加入至cDNA分子中(Zhu等人，2001；Tang等人，2010)，并且每种方法都具有优点和缺点(Regev等人，2012)。我们的用于定向NGS文库构建的方法大幅简化并且加速了文库构建过程。对于RNA-seq文库制备来说，需要仅约10毫克的细胞质致密的植物组织如技条顶端分生组织(SAM)或叶原基(对于成熟组织来说略微大量)，并且个体技术人员可以在一天中从组织开始容易地完成该过程。

我们利用了尚未在产生链特异性文库的可用方法中使用的核酸化学的方面。双链核酸经历被称为“呼吸”的现象，其中个体链将会立刻分离以使碱基暴露(von Hippel等人，2013)。该过程在双链核酸的末端处以较高速率发生(von Hippel等人，2013)。我们利用了这种瞬时末端呼吸以将包含Illumina TruSeq PE1序列的接头寡核苷酸特异性地结合在RNA-cDNA双链体的5-引物末端处。呼吸捕获允许不需要前第二链合成或模板RNA的移除的流线型链特异性文库方案，允许构建3-引物DGE或鸟枪法(SHO)类型链特异性文库。

根据这些基本链特异性模块，我们进一步开发了另外的相容模块以适应作为输入材料的多种核酸种类——单链RNA、双链DNA和单链DNA。这提供了通用目的平台，用于创建用于基因表达研究的文库、基因组DNA文库，以及来自微量样品如在染色质免疫沉淀(ChIp)实验中得到的DNA和来自激光捕获显微切割的(LCM)组织样品的RNA的扩增产物的文库。在该平台中使用常用模块使产生任何数量的文库类型所需的个体试剂的数量最小化，并且使处理和操作步骤标准化，降低学习曲线并且使人为误差的可能性最小化。

材料和方法

链特异性文库合成的反应步骤的示意图在图1中示出。以下可以发现针对非链特异性“常规”(CNV)RNA-seq文库的简要方案。以下还可以发现针对链特异性DGE RNA-seq以及链特异性SHO RNA-seq和非链特异性CNV RNA-seq和DNA-seq方案变体的详细方向。在本研究中使用的全部寡核苷酸均从Life Technologies(Thermo Fisher Scientific)以50纳摩尔规模订购，其是脱盐的并且没有额外纯化。

A.植物材料

番茄种子(S.lycopersicum cv M82：LA3475)由加州大学戴维斯分校番茄遗传学资源中心(Tomato Genetics Resource Center，University of California，Davis)提供。在灭菌之后(50％漂白剂一分钟，随后用水漂洗)，在黑暗中在室温下将种子放置到Phytatray(Sigma)中的水浸泡的纸巾上三天以允许发芽。将在Phytatray内的发芽的种子放置到在22℃下具有70％相对湿度和16h光/8h暗的光周期的生长室中额外四天。之后将幼苗移植至Sunshine Mix土壤中(Sun Gro)。在土壤中生长11天之后，将P5叶原基(叶样品)和SAM(由SAM和4个较幼小的叶原基组成)使用剃刀刀片仔细切割并且收获至无RNA酶的管中。

B.mRNA分离

使用锆石珠和含有十二烷基硫酸钠代替十二烷基硫酸锂的裂解物结合缓冲液按照之前由Kumar等人描述的(Kumar等人，2012)将组织处理并且裂解。从200μl裂解物/样品中分离mRNA。向每个裂解物样品中加入含有5-引物20核苷酸任意间隔序列和随后的20硫胺素核苷酸的1μl的12.5μM的5-引物生物素化polyT寡核苷酸(5’-bio-ACAGGACATTCGTCGCTTCCTTTTTTTTTTTTTTTTTTTT-3’；SEQ ID NO：11)，通过移液数次进行混合并且使其静置10分钟。在温育之后，通过加入20μl的LBB洗涤的涂布有链霉抗生物素蛋白(Streptavidin)的磁珠(New England BioLabs，目录号#S1420S)从裂解物中分离捕获的mRNA。将珠裂解物混合物通过移液进行混合并且静置额外10分钟。将样品放置在96孔磁性隔膜(Edge BioSystems，目录号#57624)上并且利用以下改进按照之前描述的(Kumar等人，2012)进行洗涤。A)WBA、WBB和LSB的洗涤体积是各自300μl并且在使用前将缓冲液在冰上冷却。B)进行向含有1mM β-巯基乙醇的16μl的10mM Tris-HCl pH 8中的mRNA洗脱。

C.mRNA断裂、3-引物接头引发

使用镁离子在高温下实现mRNA断裂(图7A-C)。在单一反应混合物中进行针对cDNA合成反应的引发，在含有1.5μl 5X RT缓冲液(Thermo scientific，目录号#EP0441)、1μl引发接头和7.5μl样品mRNA的总反应体积为10μl的反应中将链特异性DGE、链特异性RND、和非链特异性文库断裂。将混合物停止旋转并且在热循环器中温育。针对每种文库类型使用以下寡核苷酸和热循环器程序。

DGE：1μl的2μM寡核苷酸(oligo)L-3ILL-20TV.2(5’-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTTTTTTTTTTTTTTTTTTTV-3’；SEQ ID NO：12)(25℃1秒，94℃1.5分钟，30℃1分钟，20℃4分钟，保持20℃)。

SHO：1μl的5μM寡核苷酸L-3ILL-N8.2(5’-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTNNNNNNNN-3’；SEQ ID NO：13)(25℃1秒，94℃1.5分钟，4℃5分钟，保持20℃)。

D.cDNA合成

通过将5μl的以下反应混合物加入至断裂并且引发的mRNA中来合成cDNA：1.5μl5X Thermo scientific RT缓冲液(Thermo scientific，目录号#EP0441)、1.5μl 0.1M二硫苏糖醇(DTT)、1μl H2O、0.5μl 25mM dNTP(Thermo scientific，目录号#R1121)、0.5μlRevertAid RT酶(Thermo scientific，目录号#EP0441)(总反应体积15μl)。将反应混合物设置在室温下并且放置在运行以下程序的热循环器中：(25℃10分钟，42℃50分钟，50℃10分钟，70℃10分钟，保持4℃)。在“呼吸捕获”或第二链合成之前通过将5μl 50mM EDTA pH8.0和30μl Agencourt AMPure XP珠(Beckman，目录号#A63881)加入至每种样品中将cDNA清除并且进行尺寸选择，并且通过移液进行混合。在5分钟之后，将样品放置在磁性托盘上，将上清液移除，并且用300μl 80％乙醇在没有球粒破裂的情况下将球粒洗涤两次。用20μl的移液管尖端移除残留的乙醇并且使样品风干直到不能检测到液体液体的可见的痕迹。

E.5-引物双链体呼吸捕获接头添加(链特异性)

通过将与珠-球粒结合的cDNA再水合利用4μl 10μM预退火的5-引物双链接头寡核苷酸在室温下完成5-引物接头添加。通过以下方式制备双链5-引物接头：制备在H₂O中含有10mM寡核苷酸5pSense8n (5pSense8n 5’-CCTACACGACGCTCTTCCGATCTNNNNNNNN-3’；SEQ IDNO：4)和5pAnti(5pAnti 5’-AGATCGGAAGAGCGTCGTGTAGG-3’；SEQ ID NO：2)中的每一种的储备溶液，在联排管(strip tube)中分配至100μL体积并且在运行以下程序的热循环器中将它们退火：[94℃1分钟(94℃10秒)x60循环-1℃/循环，20℃1分钟，保持4℃]。随后，加入6μl的以下反应混合物，通过移液进行混合以将球粒充分重悬并且在室温下温育15分钟：3.5μlH₂O、1μl 10X Thermo Pol I反应缓冲液(Thermo scientific，目录号#EP0041)、1μl 250mMMgCl₂(新鲜制备的并且在-20℃下储存)、0.25μl 25mM dNTP(Thermo scientific，目录号#R1121)、0.25μl Thermo DNA Pol I(Thermo scientific，目录号#EP0041)(10μl总反应体积)。使用在之前步骤中存在的Agencourt AMPure XP珠通过加入10μl 50mM EDTA pH 8.0和30μl ABR将在珠上的预富集文库洗涤并且进行尺寸选择，通过移液彻底混合，并且使其静置5分钟，之后放置在磁性托盘上。将上清液移除并且用300μl 80％乙醇在没有球粒破裂的情况下将球粒洗涤两次。用20μl的移液管尖端移除残留的乙醇并且使样品风干直到不能检测到液体液体的可见的痕迹。将球粒在22μl 10mM Tris pH 8.0中重悬，使其静置1分钟并且位置在磁性托盘上。将没有珠的上清液转移至新鲜联排管中并且在富集之前在-20℃下储存。

F.PCR富集和指数序列添加(链特异性和非链特异性)

使用含有完整接头序列的全长寡核苷酸以及与接头臂的最远部分互补的短的寡核苷酸完成富集步骤以确保主要的全长扩增产物。通过将1μl的2μM唯一指示的ILL-INDEX寡核苷酸(ILL-INDEX 5’-CAAGCAGAAGACGGCATACGAGATNNNNNNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGAT-3’；SEQ ID NO：14)与9μL的主混合物：4μl 5X Phusion HF缓冲液、2.6μl H₂O、1μl 2μM PE1引物(PE1 5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’；SEQ ID NO：15)、1μl 8μM每种S1+S2引物(S15’-AATGATACGGCGACCACCGA-3’；SEQ IDNO：16，S25’-CAAGCAGAAGACGGCATACGA-3’；SEQ ID NO：17)、0.2μl 25mM dNTP、0.2μlPhusion聚合酶(Thermo scientific，目录号#F-530L)以及10μl的预富集cDNA组合，以20μl的总反应体积，进行PCR富集。在需要更多的富集循环的情况下，将PCR混合物的一半(10μl)放置在储存在-20C的单独样品管中作为样品的备用。将其余10μl停止旋转并且放置在使用以下程序的热循环器中：[98℃30秒，(98℃10秒，65℃30秒，72℃30秒)11次循环，72℃5分钟，保持10℃)。用来自备用PCR样品的13个富集循环将仅显示出非常微弱的富集的样品再扩增。使用1μl的O’GeneRuler 100bp DNA梯(Thermo scientific，目录号#SM1143)用于尺寸和量参考，在100伏下将2μl的每种文库样品在1％琼脂糖凝胶上运行20分钟。使用12μl的新鲜Agencourt AMPure XP珠将其余8μl的富集的文库样品清除并且进行尺寸选择，并且与在之前洗涤步骤中一样用80％乙醇洗涤两次。用10μl 10mM Tris pH 8.0将文库从球粒中洗脱，量化，并且按照之前描述的(Kumar等人，2012)进行汇集。在加州大学伯克利分校(UCBerkeley)的Vincent J.Coates基因组测序设施进行50bp单末端测序。

G.生物信息学

使用iPlant Atmosphere云服务进行生物信息学和统计学分析(Goff等人，2011)。使用FASTX-Toolkit(参见网站hannonlab.cshl.edu/fastx_toolkit/)和由加州大学戴维斯分校Comai实验室开发的脚本(参见网站comailab.genomecenter.ucdavis.edu)将读序修剪至42bp并且进行质量过滤。使用Bowtie(Langmead等人，2009)使用在表1中指定的参数将读序定位。使用FASTQC(参见网站www.bioinformatics.bbsrc.ac.uk/projects/fastqc/)进行读序质量分析。可以在网站github.com/SinhaLab/townsley-fips-2015/获得用于进行生物信息学步骤中的每一个的代码，并且可以从Dryad数据储存库下载在本研究中使用的RNA-seq数据的FASTQ文件(由于Dryad数据托管政策，仅提供链接作为证明)。

表1.DGE和HTR文库样品的差异基因表达识别(call)。

fastx_trimmer	-f9-Q 33
		trimFastqQuality.py	20 35
read_N_remover.py
		adapterEffectRemover.py	41
Bowtie：
		非链特异性，非唯一定位的	-a--best--strata-v 1 -p 4--sam--tryhard
非链特异性，唯一定位的	-a--best--strata-m 1 -v 1 -p 4--sam--tryhard
		链特异性，唯一定位的	-a--best--strata--norc-m 1 -v 1 -p 4--sam--tryhard

结果和讨论

为了评价我们的链特异性文库制备方法，我们使用新型BrAD-seq DGE方法和我们之前开发的HTR方法制备了技条顶端分生组织(SAM)和叶原基(叶)样品以用于成对比较分析。在该方案中，在富集阶段期间，我们将样品鉴别指数序列加入至文库分子中(Meyer和Kircher、2010)。

A.文库富集

尽管在过程上在文库合成之前我们通常不量化mRNA浓度以保持较高通量，当使用不熟悉的材料开始实验时，可能有用的是对尝试多少次富集循环将会是合理的有所了解。为了确定输入mRNA浓度和所选择的富集循环次数之间的关系，在BIOANALYZER^TM上使用RNA6000Pico试剂盒(Agilent Technologies)将用于DGE文库合成的22个mRNA样品量化。该信息与用于每种文库样品的富集的循环次数和洗涤的文库的浓度相关(图8)。该关系表明，在约10ng/μl的mRNA以下，可以值得在第一次尝试时以约14次富集循环开始，尽管在凝胶图像的解释和针对样品汇集的靶向最终浓度中的个体偏好最终将会是决定富集循环的理想次数的重要因素。

B.读序质量

为了避免包含来源于5-引物接头捕获链的序列，在分析之前将DGE文库的前8个碱基修剪。对于HTR文库来说，当将前8个碱基修剪时，还发现读序定位的百分数较高(77.8％相对于74.1％)，因此对于全部所有来说，在质量过滤步骤之前针对样品产生修剪的FASTQ文件。在修剪的HTR文库中定位速率提高，这是因为在cDNA合成期间随机引物在存在错配的情况下退火，将非天然序列结合至cDNA分子中。

由于包含含有polyA通道(tract)的cDNA插入物，针对原始DGE文库的总体质量评分低于HTR(图8)。不能将这些低复杂性的序列定位至参考序列并且在通过质量过滤定位之前将它们大部分移除(图2A和图9A-9B)。

因为对于每个转录本来说在mRNA转录本的3-引物高度富集的一群链特异性cDNA分子应当由较少数量的唯一序列组成，来自独立cDNA分子的相同读序预期处于比在非链特异性和非DGE文库中高的水平。对于DGE，我们确实观察到比HTR高的序列复制(图2B)。与由较高序列复杂性得到的DGE文库相比，非DGE链特异性文库具有更完全的转录本长度覆盖度并且显示出较低的序列复制(图10)。还评估了由类似阶段的发育的番茄叶制成的链特异性番茄SHO文库和使用脱氧尿嘧啶(dU)标记链特异性方法(Wang等人，2011)制作的从GeneExpression Omnibus(登录号GSE38879)下载的拟南芥(Arabidopsis)链特异性文库(Hsu等人，2013)并且它们彼此拥有相似的复制速率(图10)。为了消除作为读序复制计数中的因素的样品之间测序深度的差异，从每个FASTQ文件中使用1百万个读序的随机子样品以用于复制分析。

此外，在3-引物DGE文库中，并非通过质量过滤移除全部poly-A运行结果。同型核苷酸“A”重复构成了DGE文库中的主要复制序列，占质量过滤的读序的～0.3％。在质量过滤之后，在DGE和HTR之间GC含量和每种碱基序列含量不同(图2C)，其中在链特异性DGE文库读序中GC含量较低。然而在非链特异性文库(例如，HTR文库)中的个体碱基组成应当含有大致相等的量的G与C和A与T核苷酸，对于mRNA的编码链来说G/C和A/T比率不相等。在注释的番茄编码序列的有义链中的每种核苷酸的比例是22.1％G、18.5％C、29.9％A、29.4％T。这与在DGE序列中的观察到的比例非常匹配：22.5％G、15.2％C、28.5％A、33.8％T(图2D)。在SHO和dU文库方法之间，质量评分、序列含量和GC分布显示出相似的表现(图11)。

C.接头和rRNA污染

与在HTR中相比，在DGE文库中的接头污染较高(图3A)，与在HTR中的～1％的读序相比，在DGE中占～5％读序。这可能归因于在DGE方案中在珠洗涤步骤中使用较高的PEG浓度。这可以增加小产物的珠结合。与在HTR文库中的0.22％至0.39％相比，来自DGE文库的近似1％的读序可以属于核糖体污染(图3B)，并且在番茄文库中近似3％使用商业Illumina试剂盒制作(Kumar等人，2012)。与HTR相比在DGE中增加的rRNA可能归因于与在HTR过程中两阶段mRNA再分离相比的单一步骤mRNA分离。

D.读序定位

为了可靠地比较DGE和HTR文库，我们创建了一组参考序列，其由注释的番茄编码序列连同对应于针对终止密码子的基因组序列3-引物的额外下游部分组成。植物3-引物未翻译区域(3’-UTR)长度可变并且平均为大约200bp(Mignone等人，2002)，但是许多3’-UTR未被注释。出于本研究目的，选择500bp的下游基因组序列以包括大多数3’-UTR序列并且附加至注释的ITAG2.4编码序列(ITAGcds+500)。针对DGE文库特异性地产生额外的定位参考，其由3-引物500bp的编码序列连同代表3’-UTR的额外500bp(ITAG500+500)组成，以使3-引物含有polyT的接头的错误引发对在编码序列内的富含A的区域的影响最小化。

与HTR(77-78％)相比，在DGE中(85-87％)一次或多次定位至ITAGcds+500参考的正链和负链的读序比例较高(图3C)，证实在两种方法中的大多数读序来自mRNA。

E.DGE 3-引物选择性

对于mRNA转录本的3-引物部分来说，DGE文库方案存在强选择性，然而来源于HTR的读序在整个转录本中更均匀地分布。(图12)。尽管ITAG500+500参考序列比ITAGcds+500参考序列平均短608bp，与唯一定位至ITAGcds+500参考的HTR读序(73％至78％)相比，更多的DGE读序唯一并且链特异性定位至ITAG500+500参考(78％至81％)。

F.链特异性

为了评价DGE文库的链特异性，仅将读序定位至番茄编码序列(图3D)以排除定位至重叠UTR区域的读序。在DGE文库中近似99％的定位的读序和在HTR文库中50％的定位的读序位于有义链，显示出DGE文库的非常高的链特异性程度。保留cDNA分子的定向信息，因为仅RNA-cDNA双链体的cDNA链可以充当用于Pol I的模板。我们已经使用该方法利用大肠杆菌Pol I、Klenow片段、和Klenow exo-成功地制备了文库(图7C)，表明Pol I的核酸外切酶活性并非高效率工作的过程所必需的。

在DGE文库中的大多数唯一定位的读序(95％)定位至ITAGcds+500参考的注释的终止密码子的区域+/-500bp(表2)，然而HTR文库显示出在整个转录本中更均匀的分布(图4A)。DGE读序几乎全部位于转录本的3-引物区域，包括注释的终止密码子的下游，说明只有这种间隔是将DGE读序定位所必需的。借助比较的HTR读序显示出更均匀的分布，但是仍然偏向在转录本的3-引物处的序列。因为并非所有编码序列都是1kb以上，读序位置还对编码序列的部分按比例放大(图4B)。HTR文库仍然显示出对CDS的3-引物末端附近的序列的轻微偏向。SHO文库显示出与HTR相似的转录本覆盖度，尽管SHO覆盖度显示出稍微高的5-引物转录本呈现(representation)(图13)。

表2.在ITAGcds+500参考中相对于终止密码子的DGE读序定位位置。

为了确定通过接头捕获过程引入的序列选择偏向的程度，从针对碱基组成的FASTA定位参考(图4C)和信息含量(图14)中提取每个读序的第一定位的核苷酸的上游20个核苷酸。-8至-1的位置对应于与接头的8bp单链部分退火的cDNA区域，其负责DNA-RNA双链体的呼吸捕获。-20至-9的位置对应于含有Illumina TruSeq PE1序列的接头的“遮掩的”双链部分。尽管存在遮掩(阻断)寡核苷酸，接近对应于接头的最后几个碱基的-9定位位置的位置显示出在双链区域的末端附近的一些序列偏向(图15)。这表明在捕获末端的接头的双链体呼吸瞬间使前几个内部碱基暴露，提供了与具有一些互补性的cDNA序列的增加的相互作用。尽管与使用未遮掩的单链接头的该方案的稍早形式相比这种序列选择偏向的程度和范围明显改善，其仍然可以通过将随机8聚体的第一个碱基转化为延伸的双链遮掩区域而进一步改善。模板mRNA链的保留防止进入cDNA的内部。这限制了接头与cDNA的末端部分的相互作用，这通过mRNA断裂提供了文库尺寸的控制并且限制了序列特异性二级结构的作用。借助在cDNA链和接头的捕获核苷酸之间的碱基对相互作用的增加的强度，在呼吸捕获反应中将镁浓度增加至20mM潜在地提高了文库收率(图7B)。DGE文库的链特异性还为其中终止子区域重叠的基因提供了原始转录本的明确的分配(图14)。

G.基因表达的检测

分析事先质量过滤的读序的同等尺寸的子组的读序(表3)。当排除非唯一定位的读序时，在DGE和HTR文库二者中具有定位读序的转录本的数量降低。与仅保留唯一定位的读序和链特异性组合，结合至DGE文库中的转录本的有限的间距可能会降低在转录本的基因组位置重叠的情况下和在编码序列高度保守的情况下的转录本的错误检测。

表3.分别针对DGE和HTR的6.5M读序的事先质量过滤的子组的转录本检测。

定位至ITAGcds+500参考的两条链的非唯一定位读序、定位至ITAGcds+500的两条链的唯一定位读序和定位至ITAG500+500参考的有义链的唯一定位读序。

与HTR样品相比，对于DGE来说，在重复之间的相关性较高(图5和表5)。与HTR(SAM0.91、叶0.93)相比，在DGE(SAM 0.96、叶0.95)重复之间，Log2转换的表达的所有成对比较的R平方值显示出较高的相关性。对于DGE和拟南芥dU文库(0.96)来说，以及在HTR和SHO之间(0.92)，这些值也是相似的。还使用多维尺度(MDS)评估在DGE和HTR实验样品之间的差异(图6A)。DGE和HTR样品二者根据组织类型聚集，尽管对于DGE文库来说SAM和叶簇之间的距离沿着维度2较大，表明了通过基因表达的组织之间的判定的高效率。在DGE和HTR之间的差异基因表达识别显示出高的重叠程度(表4)。对于两种文库制备方法来说，在SAM相对于叶样品中，我们发现了在差异调节的基因的log₂倍数变化(FDR＜0.05)之间的非常强的相关性(r_s＝0.92)。当考虑仅针对DGE方法(r_s＝0.87；在图6B中的橙色)或仅针对HTR方法(r_s＝0.87；图6B中的蓝色)的差异调节的基因时，相关性仍然非常强。

表4.DGE和HTR文库样品的差异基因表达识别。

FDR 0.05	DGE总计	HTR总计	仅DGE	二者	仅HTR
						向上(S相对于L)	2534	1386	1630	904	482
向下(S相对于L)	3014	1751	1615	1399	352
						FDR 0.01
向上(S相对于L)	1766	722	1251	515	207
						向上(S相对于L)	2376	1128	1413	963	165

为了在方法差异表达结果之内或之间进行比较，我们将样品分为十组，每组两个重复。十个样品基团是：2个HTR叶、2个HTR SAM、3个DGE叶、和3个DGE SAM。在每种文库制备方法中，我们对叶x SAM的全部组合进行差异基因表达分析。对于HTR这得到4个比较，并且对于DGE得到9个比较。凭借这些，我们能够计算在每种文库制备方法之内(对于DGE来说为45，并且对于HTR来说为6)和之间(相对于HTR，对于DGE来说为36)的叶-SAM差异表达的基因的全部组合的斯皮尔曼等级相关系数(Spearman’s Ranked Correlation Coefficient)(图12)。我们发现，尽管与在之内相比，在文库制备方法之间进行比较时差异调节的基因的倍数变化较不相关，方法之间和方法之内的比较二者均显示出非常强的相关性。

H.成本

我们试图通过开发主要使用未修饰的寡核苷酸的方案并且使处理、步骤、和试剂最小化而使文库制备成本和复杂性最小化。利用该方法分离mRNA和制备链特异性文库的成本极低，其中包括mRNA分离的磁珠、dNTP、和酶成本总计$2.96/样品或者如果由mRNA制备文库为$1.98。即使考虑消耗品、化学试剂和的额外成本和反应主混合物的额外10％体积，与可用的商业链特异性方法(例如，用于96反应的 Ultra^TM定向RNA文库制备试剂盒，目录号#E7420L，用于96样品反应的SureSelect链特异性RNA-Seq文库制备试剂盒，目录号#G9691A)相比，该方法也提供了20-40倍的成本降低。

I.方案开发

我们首先着手改进模板切换方案，但是最终得到了使我们能够毫无疑问创建迄今为止最廉价且最快速的RNA-seq方案的发现。我们的初始目标是试图在原始读序内连同条码序列一起使用接头编码的指数序列以实现极致密的样品倍增。将5-引物接头设计为具有部分Illumina PE1序列的单链分子，之后是9碱基对序列(6碱基对条码和3个末端鸟嘌呤)，以在向cDNA中加入非模板化的胞嘧啶的情况下通过MMLV聚合酶促进碱基配对。在尺寸选择珠清除之后，在第二反应中使用大肠杆菌聚合酶I完成向cDNA中加入接头序列，以避免由接头多联体(concatamer)组成的“背景cDNA”。

我们的初期文库显示出取决于在接头中含有的条码序列的相同的汇集的检验mRNA的高度不均匀的富集(图17)，具有归因于随接头条码序列变化的特异性扩增子的大规模过度呈现的显著可见的条带。在将前9个核苷酸从Illumina读序中修剪之后，定位至番茄转录本并且使样品聚集出乎意料显示出基于条码序列而不是基于样品类型的分组(图18)。此外，在第一次尝试的文库中，仅少量的转录本占读序计数的大多数。

这些出乎意料结果的进一步研究显示，尽管制备了可以在Illumina平台上测序的cDNA文库，引发机制未利用最初设想的模板切换。转录本参考序列的序列分析使5-引物位于修剪的读序的首先定位的核苷酸显示出在被测序的番茄转录本中对匹配条码序列和“G”重复的核苷酸的极度偏向(图19-20)并且另外的上游序列继续包括与接头的PEI序列的相似性。这表明，在双链cDNA的末端部分和接头的含条码部分之间的碱基配对相互作用是选择将会在文库中呈现的转录本。

尽管在给定的基因组中任何特定的9碱基对序列罕见(每3.8e-06个碱基一个实例)，74％的读序在读序的预修剪部分中含有与条码匹配的恰好9个碱基对和随后的3个“G”(图21)。这显示，用于测序反应的主模板是使用cDNA作为模板从接头的3-引物末端引发的链。因此，通过MMLV逆转录酶将非模板化的“C”加入至cDNA分子中可能会阻断在接头寡核苷酸上的引发，强迫大多数测序的分子从第二链开始。

这表明，在双链模板中存在呼吸作用。我们重新设计了5-引物接头以利用这种呼吸捕获作用并且消除由我们的早期接头产生的序列偏向。通过将互补序列寡核苷酸退火来遮掩含有Illumina PE1序列的接头的部分并且用随机混合碱基序列的可变长度延伸替换之后的9个碱基，并且在6至8个核苷酸之间的延伸好于更短或更长的变体。在随机核苷酸延伸的3-引物末端结合阻断基团的接头变体表现极差，表明对于使用该过程的文库形成来说从该链引发是必需的。

根据在转录本中的碱基位置的读序覆盖度的分析(图22)显示，呼吸接头定向测序(BrAD-Seq)方法具有增加的转录本的5-引物区域的呈现。这在基因组注释和医疗诊断中非常有用。

结论

我们已经开发了用于以多重形式由组织制备链特异性3-引物DGE RNA-seq文库的快速且廉价的方法。全部过程可以在一个工作日内完成。据我们所知，这是第一个利用核酸双链体的末端呼吸以选择性地且定向地加入接头序列的文库构建过程。我们进一步开发了该过程以包括允许创建多种文库类型的模块。我们还在除番茄(S.lycopersicum)以外的多种物种上使用了核心DGE方法，包括五角菟丝子(C.pentagona)、潘那利番茄(S.pennellii)、细叶番茄(S.pimpinellifolium)、小花番茄(S.neorickii)和普通烟草(N.tobacum)。迄今为止，我们已经成功地在与开发和非生物胁迫相关的许多研究中使用我们的DGE方案研究差异基因表达，并且具有良好的结果。我们已经出于我们自己的目的将模块加入并且调整至该核心方案中，并且我们还提供了那些模块以使得其他人也可以使用该方案作为通用RNA和DNA-seq文库方案家族的基础。寄希望于帮助使NGS测序技术大众化，我们提供了廉价且容易实现的用于制备NGS文库的方案。本研究作为Townsley等人，植物科学前沿(Frontiers in Plant Science)，2015，6(366)：1-11，doi：10.3389/fpls.2015.00366公开。

表5.全部成对重复样品比较log2标准化读序计数的R平方值

参考文献

Armour，C.D.，Castle，J.C.，Chen，R.，Babak，T.，Loerch，P.，Jackson，S.，Shah，J.K.，Dey，J.，Rohl，C.A.，Johnson，J.M.，and Raymond，C.K.(2009).Digitaltranscriptome profiling using selective hexamer priming for cDNAsynthesis.Nature Methods 6，647-U635.

Goff，S.A.，Vaughn，M.，Mckay，S.，Lyons，E.，Stapleton，A.E.，Gessler，D.，Matasci，N.，Wang，L.，Hanlon，M.，Lenards，A.，Muir，A.，Merchant，N.，Lowry，S.，Mock，S.，Helmke，M.，Kubach，A.，Narro，M.，Hopkins，N.，Micklos，D.，Hilgert，U.，Gonzales，M.，Jordan，C.，Skidmore，E.，Dooley，R.，Cazes，J.，Mclay，R.，Lu，Z.，Pasternak，S.，Koesterke，L.，Piel，W.H.，Grene，R.，Noutsos，C.，Gendler，K.，Feng，X.，Tang，C.，Lent，M.，Kim，S.-J.，Kvilekval，K.，Manjunath，B.S.，Tannen，V.，Stamatakis，A.，Sanderson，M.，Welch，S.M.，Cranston，K.A.，Soltis，P.，Soltis，D.，O′meara，B.，Ane，C.，Brutnell，T.，Kleibenstein，D.J.，White，J.W.，Leebens-Mack，J.，Donoghue，M.J.，Spalding，E.P.，Vision，T.J.，Myers，C.R.，Lowenthal，D.，Enquist，B.J.，Boyle，B.，Akoglu，A.，Andrews，G.，Ram，S.，Ware，D.，Stein，L.，and Stanzione，D.(2011).The iPlant collaborative∶cyberinfrastructure for plant biology.Frontiers in Plant Science 2.

Hsu，P.Y.，Devisetty，U.K.，and Harmer，S.L.(2013).Accurate timekeeping iscontrolled by a cycling activator in Arabidopsis.Elife 2.

Koboldt，D.C.，Steinberg，K.M.，Larson，D.E.，Wilson，R.K.，and Mardis，E.R.(2013).The Next-Generation Sequencing Revolution and Its Impact onGenomics.Cell 155，27-38.

Kumar，R.，Ichihashi，Y.，Kimura，S.，Chitwood，D.H.，Headland，L.R.，Peng，J.，Maloof，J.N.，and Sinha，N.R.(2012).A high-throughput method for Illumina RNA-Seq library preparation.Frontiers in Plant Science 3.

Langmead，B.，Trapnell，C.，Pop，M.，and Salzberg，S.L.(2009).Ultrafast andmemory-efficient alignment of short DNA sequences to the human genome.GenomeBiology 10.

Lister，R.，O′malley，R.C.，Tonti-Filippini，J.，Gregory，B.D.，Berry，C.C.，Millar，A.H.，and Ecker，J.R.(2008).Highly integrated single-base resolutionmaps of the epigenome in Arabidopsis.Cell 133，523-536.

Meyer，M.，and Kircher，M.(2010).Illumina sequencing library preparationfor highly multiplexed target capture and sequencing.Cold Spring Harborprotocols 2010，pdb.prot5448-pdb.prot5448.

Mignone，F.，Gissi，C.，Liuni，S.，and Pesole，G.(2002).Untranslated regionsof mRNAs.Genome biology 3，REVIEWS0004-REVIEWS0004.

Parkhomchuk，D.，Borodina，T.，Amstislavskiy，V.，Banaru，M.，Hallen，L.，Krobitsch，S.，Lehrach，H.，and Soldatov，A.(2009).Transcriptome analysis bystrand-specific sequencing of complementary DNA.Nucleic Acids Research 37.

Regev，A.，Levin，J.Z.，and Yassour，M.(2012).Comprehensive comparativeanalysis of strand-specific RNA sequencing methods.ArrayExpress Archive.

Sémon，S.P.a.M.(2014).Transcriptomics of developing embryos andorgans：A raising tool for evo-devo.Journal of Experimental Zoology.

Tang，F.，Barbacioru，C.，Nordman，E.，Li，B.，Xu，N.，Bashkirov，V.I.，Lao，K.，and Surani，M.A.(2010).RNA-Seq analysis to capture the transcriptome landscapeof a single cell.Nature Protocols 5，516-535.

Von Hippel，P.H.，Johnson，N.P.，and Marcus，A.H.(2013).Fifty Years ofDNA″Breathing″∶Reflections on Old and New Approaches.Biopolymers 99，923-954.

Wang，L.，Si，Y.，Dedow，L.K.，Shao，Y.，Liu，P.，and Brutnell，T.P.(2011).ALow-Cost Library Construction Protocol and Data Analysis Pipeline forIllumina-Based Strand-Specific Multiplex RNA-Seq.Plos One 6.

Zhu，Y.Y.，Machleder，E.M.，Chenchik，A.，Li，R.，and Siebert，P.D.(2001).Reverse transcriptase template switching：A SMART(TM)approach for full-lengthcDNA library construction.Biotechniques 30，892-897.

尽管出于清楚理解的目的已经通过说明或实例的方式在一些细节方面描述了前述发明，本领域技术人员将会理解可以在所附权利要求的范围内实施某些变化和修改。此外，在本文中提供的每个参考文献通过引用整体结合，达到如同每个参考文献是通过引用独立地结合的程度。

非正式序列表

SEQ ID NO：1

合成寡核苷酸

5’-CCTACACGACGCTCTTCCGATCT

SEQ ID NO：2

合成寡核苷酸

5’-AGATCGGAAGAGCGTCGTGTAGG

SEQ ID NO：3

合成寡核苷酸

5’-CCTACACGACGCTCTTCCGATCTN_6-12，其中N可以是任何脱氧核糖核苷酸

SEQ ID NO：4

合成寡核苷酸

5’-CCTACACGACGCTCTTCCGATCTNNNNNN

SEQ ID NO：5

合成寡核苷酸

5’-CCTACACGACGCTCTTCCGATCTNNNNNNN

SEQ ID NO：6

合成寡核苷酸

5’-CCTACACGACGCTCTTCCGATCTNNNNNNNN

SEQ ID NO：7

合成寡核苷酸

5’-CCTACACGACGCTCTTCCGATCTNNNNNNNNN

SEQ ID NO：8

合成寡核苷酸

5’-CCTACACGACGCTCTTCCGATCTNNNNNNNNNN

SEQ ID NO：9

合成寡核苷酸

5’-CCTACACGACGCTCTTCCGATCTNNNNNNNNNNN

SEQ ID NO：10

合成寡核苷酸

5’-CCTACACGACGCTCTTCCGATCTNNNNNNNNNNNN

SEQ ID NO：11

合成寡核苷酸

5’-CCTACACGACGCTCTTCCGATCTNNNNNNN

SEQ ID NO：11

合成寡核苷酸

5’-bio-ACAGGACATTCGTCGCTTCCTTTTTTTTTTTTTTTTTTTT

SEQ ID NO：12

合成寡核苷酸

5’-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTTTTTTTTTTTTTTTTTTTV

SEQ ID NO：13

合成寡核苷酸

5’-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTNNNNNNNN-3’

SEQ ID NO：14

合成寡核苷酸

5’-

CAAGCAGAAGACGGCATACGAGATNNNNNNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGAT

SEQ ID NO：15

合成寡核苷酸

5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT

SEQ ID NO：16

合成寡核苷酸

5’-AATGATACGGCGACCACCGA

SEQ ID NO：17

合成寡核苷酸

5’-CAAGCAGAAGACGGCATACGA

SEQ ID NO：18

合成寡核苷酸

5’-AAAAAAAAAAAAAAA

SEQ ID NO：19

合成寡核苷酸

5’-TTTTTTTTTTTTTTTTTV

SEQ ID NO：20

合成寡核苷酸

5’-NNNNNNNN

SEQ ID NO：21

合成寡核苷酸

5’-NNNNNNNN

Claims

1.一种由RNA样品中的RNA分子产生链特异性cDNA分子的方法，所述方法包括：

(a)从生物样品中分离所述RNA样品；

(b)通过逆转录产生包含所述RNA分子和第一cDNA链的RNA-互补DNA(cDNA)双链体；

(c)将部分双链的寡核苷酸5’接头与所述第一cDNA链的3’端退火，其中所述5’接头包含：

(i)第一链捕获寡核苷酸，所述第一链捕获寡核苷酸包含至少20个脱氧核糖核苷酸，和3’突出端，所述3’突出端包含与所述第一cDNA链的所述3’端退火的约6-12个连续随机脱氧核糖核苷酸；和

(ii)第二链阻断寡核苷酸，所述第二链阻断寡核苷酸包含与所述第一链捕获寡核苷酸的至少一部分互补的至少20个脱氧核糖核苷酸；和

(d)产生所述链特异性cDNA分子。

2.权利要求1所述的方法，所述方法还包括在步骤(a)之后使所述RNA分子断裂。

3.权利要求1所述的方法，其中产生所述链特异性cDNA分子包括使用DNA聚合酶或其片段延伸所述5’接头的所述第一链捕获寡核苷酸以产生与所述第一cDNA链互补的第二cDNA链。

4.权利要求1所述的方法，所述方法还包括使用与所述第二链阻断寡核苷酸互补的引物扩增所述第二cDNA链。

5.权利要求4所述的方法，其中扩增包括聚合酶链反应。

6.权利要求1所述的方法，所述方法还包括确定所述被扩增的第二cDNA链的序列。

7.权利要求1所述的方法，其中所述3’突出端包含与事先选择的第一cDNA链基本上互补的约8-12个连续脱氧核糖核苷酸。

8.权利要求1所述的方法，其中所述3’突出端包含与事先选择的第一cDNA链100％互补的约8-12个连续脱氧核糖核苷酸。

9.权利要求1所述的方法，其中所述生物样品是动物组织样品。

10.权利要求1所述的方法，其中所述生物样品是植物组织样品。

11.权利要求1所述的方法，其中使所述RNA样品断裂在含Mg²⁺的缓冲液中进行。

12.权利要求1所述的方法，其中步骤(c)和/或(d)在室温下进行。

13.权利要求1所述的方法，其中所述DNA聚合酶或其片段是DNA聚合酶I。

14.权利要求1所述的方法，其中所述DNA聚合酶或其片段是Klenow片段。

15.权利要求1所述的方法，其中所述5’接头的所述第二链阻断寡核苷酸是5’磷酸化的。

16.权利要求15所述的方法，其中所述DNA聚合酶是Klenow片段和连接酶。

17.一种试剂盒，所述试剂盒包含

部分双链的寡核苷酸5’接头，所述部分双链的寡核苷酸5’接头包含：

(a)第一链捕获寡核苷酸，所述第一链捕获寡核苷酸包含至少20个脱氧核糖核苷酸，和3’突出端，所述3’突出端包含约6-12个连续随机脱氧核糖核苷酸，和

(b)第二链阻断寡核苷酸，所述第二链阻断寡核苷酸包含与所述第一链捕获寡核苷酸的至少一部分互补的至少20个脱氧核糖核苷酸；和

与所述第二链阻断寡核苷酸互补的测序引物。

18.权利要求17所述的试剂盒，其中所述第二链阻断寡核苷酸是5’磷酸化的。

19.权利要求17所述的试剂盒，其中所述第一链捕获寡核苷酸包含在SEQ ID NO：1中给出的序列。

20.权利要求17所述的试剂盒，其中所述第二链阻断寡核苷酸包含在SEQ ID NO：2中给出的序列。

21.权利要求17所述的试剂盒，其中所述5’接头的所述3’突出端包含约8-12个连续随机脱氧核糖核苷酸。

22.权利要求21所述的试剂盒，其中所述约8-12个连续脱氧核糖核苷酸与所述RNA-cDNA双链体的事先选择的第一cDNA链基本上互补。

23.权利要求21所述的试剂盒，其中所述约8-12个连续脱氧核糖核苷酸与所述RNA-cDNA双链体的事先选择的第一cDNA链100％互补。

24.权利要求17所述的试剂盒，所述试剂盒还包含说明手册。

25.一种多核苷酸复合物，所述多核苷酸复合物包含

RNA-cDNA双链体，所述RNA-cDNA双链体包含来源于生物样品的RNA分子和通过所述RNA分子的逆转录产生的第一cDNA链，和

(b)第二链阻断寡核苷酸，所述第二链阻断寡核苷酸包含与所述第一链捕获寡核苷酸的至少一部分互补的至少20个脱氧核糖核苷酸，

其中所述5’接头与所述RNA-cDNA双链体的所述第一cDNA链的3’端退火。

26.权利要求25所述的多核苷酸复合物，其中使用包含随机核苷酸序列的3’接头产生所述第一cDNA链。

27.权利要求25所述的多核苷酸复合物，其中使用包含polyT序列的3’接头产生所述第一cDNA链。

28.权利要求25所述的多核苷酸复合物，其中所述第一链捕获寡核苷酸包含在SEQ IDNO：1中给出的序列。

29.权利要求25所述的多核苷酸复合物，其中所述第二链阻断寡核苷酸包含在SEQ IDNO：2中给出的序列。

30.权利要求25所述的多核苷酸复合物，其中所述5’接头的所述3’突出端包含约8-12个连续随机脱氧核糖核苷酸。

31.权利要求30所述的多核苷酸复合物，其中所述约8-12个连续脱氧核糖核苷酸与所述RNA-cDNA双链体的事先选择的第一cDNA链基本上互补。

32.权利要求30所述的多核苷酸复合物，其中所述约8-12个连续脱氧核糖核苷酸与所述RNA-cDNA双链体的事先选择的第一cDNA链100％互补。