CN104619894A

CN104619894A - 用于非期望核酸序列的阴性选择的组合物和方法

Info

Publication number: CN104619894A
Application number: CN201380044292.2A
Authority: CN
Inventors: 克里斯多佛·阿穆尔; 道格·阿莫莱赛; 李斌; 努里斯·库恩
Original assignee: Nugen Technologies Inc
Current assignee: Nugen Technologies Inc
Priority date: 2012-06-18
Filing date: 2013-03-15
Publication date: 2015-05-13
Anticipated expiration: 2033-03-15
Also published as: US20150299767A1; JP2015521468A; WO2013191775A2; EP2861787B1; JP6181751B2; GB201420738D0; US9957549B2; SG11201408478QA; EP2861787A4; EP2861787A2; GB2518078A; CN104619894B; GB2518078B; WO2013191775A3; CA2877094A1

Abstract

本发明提供了用于产生下一代测序(NGS)文库的方法、组合物和试剂盒，在该文库中非期望的核酸序列已经被排除或大幅度减少。例如，本文提供的方法、组合物和试剂盒可用于从具有减少的核糖体RNA的总RNA产生文库，并且可用于减少来自目的mRNA以低水平存在的混合样品的表达概况分析中的共同mRNA种类。本发明的方法可用于以序列特异性方式消除非期望的核酸序列，并因此用于富集核酸文库中的目的核酸序列。

Description

用于非期望核酸序列的阴性选择的组合物和方法

交叉引用

本申请要求2012年6月18日提交的美国临时专利申请序列号61/661,293的优先权，该临时专利申请通过引用整体并入本文。

背景技术

下一代测序(NGS)文库是其核苷酸序列有待测定的DNA片段的集合。用于插入到这些文库中的DNA的来源通常为已被片段化为期望长度的基因组DNA或者来自给定细胞群体的转录组的拷贝。转录组文库的产生是通过制备RNA群体的cDNA拷贝，产生每条DNA链的互补链，从而生成双链DNA，然后将双链DNA连接至文库特异性衔接子进行的。可通过使用随机引物、序列特异性引物或含有寡聚dT尾的引物引发聚腺苷酸化的转录物群体来合成cDNA。常见地，这些片段群体包含并非特定研究所关注的DNA，并且在一些情况下，这些非期望的DNA序列占到整个DNA群体的非常显著的百分比。例如，在全转录组研究中，在不存在从样品中去除rRNA的步骤下，核糖体RNA(rRNA)序列构成典型cDNA文库中的所有片段的大多数(60-90％)。在另一实例中，来自外周血的基因表达概况分析(profiling)主要涉及来自外周血单核细胞(PBMC)的mRNA，PBMC占全血样品的不到0.1％。减少来自占血液样品中细胞的大多数的红细胞的珠蛋白RNA在此类测定中是期望的。

关于rRNA去除或排除，已描述了三种通用的方法：1)从起始群体中去除rRNA；2)采用寡聚dT引物进行差别性引发(即仅引发聚腺苷酸化的转录物)；以及3)在与rRNA序列互补的引物在引物集合体中被特异性消除(或代表不足)的情况下进行差别性引发(非完全随机(Not-So-Random)或NSR引物方法；参见Armour等人，2009)。基于以下两个原因，用仅识别poly(A)-序列的引物来引发总RNA群体是有问题的。首先，其不能用于原核生物，因为原核mRNA在其3’端不含poly(A)-序列。其次，即使对于真核RNA样品，许多生物学上重要的元件，如调节性转录物，是未经聚腺苷酸化的，因此从寡聚dT引发的文库中丢失。尽管NSR引发策略在设计用于特定生物体时可能是有效的，但当在更宽范围的样品类型中使用一组优化不足的引物时，NSR引发可引起样品群体的失真。

需要用于从NGS文库中去除特定的非期望DNA片段的改进的方法。这样的方法理想地会使得能够使用无偏模板群体开始并在产生NGS文库后以序列特异性方式消除非期望的DNA片段。本文所述的发明满足了这一需求。

发明内容

本发明提供了用于构建NGS文库的新的方法、组合物和试剂盒，在该文库中非期望的核酸序列已被排除或大幅度减少。特别地，本发明的一个重要方面是允许在产生NGS文库之后以序列特异性方式消除或减少非期望的DNA序列的方法和组合物，在该NGS文库中起始核酸序列群体(例如，转录组)的所有序列以未失真的、无偏的方式表现。本发明的方法可用于从核酸文库中消除非期望的核酸序列，如核糖体RNA，并因此可用于富集文库中的目的核酸序列。

在一个方面，本发明提供了一种以序列特异性方式从具有单链DNA模板的核酸文库中选择性地去除非期望的核酸序列的方法。在一些实施方案中，该方法包括：a)使一个序列特异性寡核苷酸引物或一组序列特异性寡核苷酸引物与在每个末端附接有固定取向的衔接子的单链DNA模板退火，其中该序列特异性寡核苷酸被设计为互补于非期望的核酸序列或与非期望的核酸序列相邻的区域，并且其中两个衔接子序列中的一个包含对双链DNA具特异性的限制性内切核酸酶的识别序列；b)用DNA聚合酶将序列特异性引物延伸至衔接子-DNA模板连接点之外，从而产生双链DNA片段，其中寡核苷酸引物与单链DNA模板互补；c)用对双链DNA具特异性的限制性内切核酸酶处理DNA片段(单链的和双链的)的群体，从而仅在衔接子限制性内切核酸酶位点裂解双链DNA片段，并因此从包含非期望核酸序列的片段的一个末端去除衔接子；以及d)使用对每种衔接子均具有特异性的引物进行PCR，由此仅当片段在同一模板上具有两个PCR引发位点时才发生指数式扩增，从而仅扩增所期望的核酸序列。

在另一方面，本发明提供了一种用于从目的样品构建核酸文库、同时保留无偏核酸模板群体的方法，在该无偏核酸模板群体中起始核酸序列群体的所有序列均得到表现。

在一些实施方案中，本发明提供了一种用于构建定向(即链特异性)核酸文库的方法，该方法包括：a)对RNA样品进行逆转录；b)由逆转录的RNA样品产生双链cDNA，其中在第二链cDNA合成中，将至少一种修饰的核苷酸沿cDNA的第二链的长度掺入该链中；c)对该双链cDNA进行末端修复；d)将衔接子连接至该双链cDNA，其中两种衔接子中的一种具有掺入到该衔接子的连接链中的修饰的核苷酸；e)进行缺口修复；f)用合适的降解剂选择性地去除cDNA的第二链；以及g)从样品中去除降解产物，从而产生有固定取向的衔接子附接至每一末端的的单链DNA模板的文库。

在优选的实施方案中，掺入cDNA的第二链中的修饰的核苷酸是脱氧尿苷三磷酸(dUTP)，并且降解剂是核酸酶尿嘧啶-N-糖基化酶(UNG)。

在其他实施方案中，所构建的核酸文库不是链特异性的。

在一些实施方案中，目的核酸样品包含总RNA。在一些实施方案中，目的核酸样品使用随机引物群体进行引发。在其他实施方案中，目的核酸样品使用部分选择性引物群体进行引发。

在多个方面，本发明涉及从核酸集合体中排除非期望的核酸的方法。可用剩余的核酸制备文库。核酸的排除和文库的产生可以以链特异性方式进行。根据第一方面，本发明涉及一种用于从核酸文库中排除或减少特定的非期望的核酸序列的方法，该方法包括：(a)产生包含单链DNA片段的核酸文库，该单链DNA片段在每个DNA片段的每个末端附接有固定取向的衔接子；(b)使序列特异性寡核苷酸探针与在每个末端附接有固定取向的衔接子的单链DNA片段退火，其中该序列特异性寡核苷酸探针被设计成与非期望的核酸序列互补，并且其中两个衔接子中的至少一个包含对双链DNA具特异性的限制性内切核酸酶的识别序列；(c)用DNA聚合酶延伸该序列特异性寡核苷酸探针，从而创建包含非期望的核酸序列的至少一部分的双链DNA片段；(d)用对双链DNA具特异性的限制性内切核酸酶处理包含双链和单链DNA的DNA片段群体，从而在限制性内切核酸酶位点处裂解双链DNA片段；以及(e)用一组对衔接子序列具有特异性的引物进行PCR，从而扩增包含期望的核酸序列的DNA片段。在一些实施方案中，该方法进一步包括对扩增产物进行测序的额外步骤。在一些实施方案中，该核酸文库来源于分选的细胞的群体。在一些实施方案中，该核酸文库来源于单细胞。在一些实施方案中，该方法进一步包括将细胞分选到多孔板、微阵列、微流体装置或载玻片中，由此产生分选的细胞的群体。在一些实施方案中，根据细胞表面标志物进行分选。在一些实施方案中，根据细胞的光学性质进行分选。在一些实施方案中，根据细胞大小进行分选。在一些实施方案中，非期望的核酸序列包含细菌核糖体RNA、线粒体DNA、人珠蛋白mRNA、人细胞质rRNA、人线粒体rRNA、葡萄细胞质rRNA、葡萄线粒体rRNA或葡萄叶绿体rRNA。在一些实施方案中，步骤d的限制性内切核酸酶是BspQI。在一些实施方案中，该DNA聚合酶包括热启动聚合酶。在一些实施方案中，该DNA聚合酶是MyTaq聚合酶。在一些实施方案中，步骤(a)包括：i.对RNA样品进行逆转录；ii.由逆转录的RNA样品生成双链cDNA，其中四种dNTP(即dATP、dCTP、dGTP或dTTP)中的至少一种在第二链合成过程中被非规范dNTP所替代，并掺入到第二链中；iii.对双链cDNA进行末端修复；iv.将衔接子连接至双链cDNA的5’端，其中衔接子链中的一条具有掺入到衔接子的连接链中的非规范核苷酸；v.进行缺口修复；以及iv.用裂解剂选择性地去除第二链。在一些实施方案中，非规范核苷酸包含尿苷或肌苷。在一些实施方案中，步骤vi包括裂解一种或多种非规范核苷酸的碱基部分，从而形成脱碱基位点。在一些实施方案中，该裂解剂包含糖基化酶。在一些实施方案中，该糖基化酶是UNG或UDG。在一些实施方案中，该裂解剂包含伯胺。在一些实施方案中，该裂解剂包含多胺。在一些实施方案中，该多胺是DMED。在一些实施方案中，该裂解剂包含糖基化酶和多胺。在一些实施方案中，该裂解剂包含内切核酸酶V。

在第二方面，本发明涉及一种将衔接子连接至核酸集合体的方法，该方法包括：(a)将包含含有5’磷酸的第一核酸链、含有5’磷酸以及一种或多种非规范核苷酸的第二核酸链的核酸与至少一个包含缺乏5’磷酸的第一衔接子链和缺乏5’磷酸以及一种或多种非规范核苷酸的第二衔接子链的第一衔接子连接；(b)进行3’延伸反应；以及(c)用包含一种或多种裂解试剂的物质(agent)进行裂解反应，从而裂解至少一条包含一种或多种非规范核苷酸的核酸链；其中所述一种或多种裂解剂中的一种对包含所述一种或多种非规范核苷酸的核酸链是特异性的。在一些实施方案中，该方法包括将核酸与第二衔接子连接，该第二衔接子包含缺乏5’磷酸的第三衔接子链和缺乏5’磷酸以及一种或多种非规范核苷酸的第四衔接子链，其中第一和第二衔接子是不同的。在一些实施方案中，该核酸在每个末端与第一或第二衔接子连接。在一些实施方案中，非规范核苷酸选自尿嘧啶和肌苷。在一些实施方案中，步骤c包括裂解所述一种或多种非规范核苷酸的碱基部分，从而形成脱碱基位点。在一些实施方案中，所述一种或多种裂解试剂包含糖基化酶。在一些实施方案中，该糖基化酶是UNG或UDG。在一些实施方案中，所述一种或多种裂解试剂包含伯胺。在一些实施方案中，所述一种或多种裂解试剂包含多胺。在一些实施方案中，该多胺是DMED。在一些实施方案中，所述一种或多种裂解试剂包含糖基化酶和多胺。在一些实施方案中，所述一种或多种裂解试剂包含内切核酸酶V。在一些实施方案中，该方法进一步包括进行包含第一引物和第二引物的扩增反应，从而生成扩增产物，其中第一引物可与第一衔接子链杂交且第二引物可与第四衔接子链杂交。在一些实施方案中，第一衔接子包含对双链DNA具特异性的限制性内切核酸酶的识别序列。在一些实施方案中，该方法进一步包括：(d)使探针与第一核酸链上的序列杂交，(e)用DNA聚合酶延伸该探针，从而产生部分双链体核酸，以及(f)用对双链DNA具特异性的限制性内切核酸酶处理该部分双链体核酸，从而在识别序列处裂解双链DNA片段。在一些实施方案中，该方法进一步包括用一组对衔接子序列具有特异性的引物进行PCR，从而扩增核酸集合体中的至少一个第二核酸。在一些实施方案中，第二核酸缺乏步骤d中的序列。在一些实施方案中，该方法进一步包括对第二核酸的一部分进行测序。在一些实施方案中，所述核酸通过以下步骤生成：i.在RNA上进行第一链合成，从而形成第一链合成产物；以及ii.在非规范核苷酸的存在下在第一链上进行第二链合成，从而形成第二链合成产物。在一些实施方案中，该方法进一步包括选择性地裂解RNA。在一些实施方案中，选择性地裂解RNA包括用RNAse H进行处理。在一些实施方案中，该方法进一步包括：iii.对第一和第二链合成产物进行片段化，从而生成片段化的第一和第二链合成产物；iv.进行末端修复；以及v.进行5’磷酸化。在一些实施方案中，核酸集合体来源于分选的细胞的群体。在一些实施方案中，核酸集合体来源于单细胞。在一些实施方案中，该方法进一步包括将细胞分选到多孔板、微阵列、微流体装置或载玻片中，由此产生分选的细胞的群体。在一些实施方案中，根据细胞表面标志物进行分选。在一些实施方案中，根据细胞的光学性质进行分选。在一些实施方案中，根据细胞大小进行分选。在一些实施方案中，核酸集合体包含细菌核糖体RNA、线粒体DNA、人珠蛋白mRNA、人细胞质rRNA、人线粒体rRNA、葡萄细胞质rRNA、葡萄线粒体rRNA或葡萄叶绿体rRNA。在一些实施方案中，所述限制性内切核酸酶是BspQI。在一些实施方案中，使用热启动聚合酶进行3’延伸反应。在一些实施方案中，使用MyTaq聚合酶进行3’延伸反应。

在第三方面，本发明涉及一种进行衔接子连接以创建包含期望的和非期望的核酸的链保留核酸文库的方法，该方法包括：(a)将模板集合体与各自包含3’突出端的多个部分双链体引物混合，该模板集合体包含含有一种或多种非规范核苷酸的非期望的核酸和含有一种或多种非规范核苷酸的期望的核酸；(b)使多个部分双链体引物与模板退火；(c)沿模板进行引物延伸反应，从而形成各自包含引物延伸产物的双链核酸；(d)将衔接子连接至引物延伸产物的至少一个5’末端；以及(e)用对包含所述一种或多种核苷酸的核酸具有特异性的裂解剂从双链核酸上裂解模板。在一些实施方案中，所述多个部分双链体引物包含至少两个具有不相似的3’突出端序列的部分双链体引物。在一些实施方案中，所述多个部分双链体引物包含双链部分内的共享序列。在一些实施方案中，该方法进一步包括以下步骤，该步骤包括沿衔接子进行引物延伸反应。在一些实施方案中，步骤e包括裂解所述一种或多种非规范核苷酸的碱基部分，从而形成脱碱基位点。在一些实施方案中，该裂解剂包含糖基化酶。在一些实施方案中，该糖基化酶是UNG或UDG。在一些实施方案中，该裂解剂包含伯胺。在一些实施方案中，该裂解剂包含多胺。在一些实施方案中，该多胺是DMED。在一些实施方案中，该裂解剂包含糖基化酶和多胺。在一些实施方案中，该裂解剂包含内切核酸酶V。在一些实施方案中，所述一种或多种非规范核苷酸包含尿嘧啶或肌苷。在一些实施方案中，所述一种或多种非规范核苷酸包含尿嘧啶和肌苷。在一些实施方案中，模板集合体通过以下步骤产生：i.在所述一种或多种非规范核苷酸的存在下在RNA上进行第一链合成，从而形成第一链合成产物；以及ii.进行片段化反应。在一些实施方案中，该方法进一步包括选择性地裂解RNA。在一些实施方案中，选择性地裂解RNA包括用RNAse H进行处理。在一些实施方案中，片段化反应包括采用针对所述一种或多种非规范核苷酸的裂解剂。在一些实施方案中，片段化反应包括裂解所述一种或多种非规范核苷酸的碱基部分，从而形成脱碱基位点。在一些实施方案中，该裂解剂包含糖基化酶。在一些实施方案中，该糖基化酶是UNG或UDG。在一些实施方案中，该裂解剂包含伯胺。在一些实施方案中，该裂解剂包含多胺。在一些实施方案中，该多胺是DMED。在一些实施方案中，该裂解剂包含糖基化酶和多胺。在一些实施方案中，该裂解剂包含内切核酸酶V。在一些实施方案中，所述衔接子包含对双链DNA具特异性的限制性内切核酸酶的识别序列。在一些实施方案中，该方法进一步包括：(f)使探针与引物延伸产物的序列杂交；(g)用DNA聚合酶延伸该探针，从而产生部分双链体核酸；以及(h)用对双链DNA具特异性的限制性内切核酸酶处理该部分双链体核酸，从而在识别序列处裂解双链DNA片段。在一些实施方案中，该方法进一步包括用可与反向互补于衔接子的序列杂交的引物进行PCR，从而扩增模板集合体中的期望的核酸。在一些实施方案中，该方法进一步包括对期望的核酸的一部分进行测序。在一些实施方案中，模板集合体来源于分选的细胞的群体。在一些实施方案中，模板集合体来源于单细胞。在一些实施方案中，该方法进一步包括将细胞分选到多孔板、微阵列、微流体装置或载玻片中，由此产生分选的细胞的群体。在一些实施方案中，根据细胞表面标志物进行分选。在一些实施方案中，根据细胞的光学性质进行分选。在一些实施方案中，根据细胞大小进行分选。在一些实施方案中，模板集合体包括细菌核糖体RNA、线粒体DNA、人珠蛋白mRNA、人细胞质rRNA、人线粒体rRNA、葡萄细胞质rRNA、葡萄线粒体rRNA或葡萄叶绿体rRNA。在一些实施方案中，所述限制性内切核酸酶是BspQI。在一些实施方案中，使用热启动聚合酶进行引物延伸反应。在一些实施方案中，使用MyTaq聚合酶进行引物延伸反应。

在第四方面，本发明涉及一种进行衔接子连接以创建具有期望的和非期望的核酸的链保留核酸文库的方法，该方法包括：(a)将包含非期望的核酸和期望的核酸的模板集合体与各自包含3’突出端的多个部分双链体引物混合；(b)使所述多个部分双链体引物与模板退火；(c)沿模板进行引物延伸反应，从而形成各自包含引物延伸产物的双链核酸；(d)将衔接子连接至引物延伸产物的至少一个5’末端；以及(e)用对包含所述一种或多种核苷酸的核酸具有特异性的裂解剂从双链核酸上裂解引物延伸产物。在一些实施方案中，所述多个部分双链体引物包含至少两个具有不相似的3’突出端序列的部分双链体引物。在一些实施方案中，所述多个部分双链体引物包含双链部分内的共享序列。在一些实施方案中，具有3’突出端的所述多个部分双链体引物的链在双链部分内的共享序列中缺乏腺嘌呤。在一些实施方案中，该方法进一步包括以下步骤，该步骤包括沿衔接子进行引物延伸反应。在一些实施方案中，在所述一种或多种非规范核苷酸的存在下进行引物延伸反应。在一些实施方案中，步骤e包括裂解所述一种或多种非规范核苷酸的碱基部分，从而形成脱碱基位点。在一些实施方案中，该裂解剂包含糖基化酶。在一些实施方案中，该糖基化酶是UNG或UDG。在一些实施方案中，该裂解剂包含伯胺。在一些实施方案中，该裂解剂包含多胺。在一些实施方案中，该多胺是DMED。在一些实施方案中，该裂解剂包含糖基化酶和多胺。在一些实施方案中，该裂解剂包含内切核酸酶V。在一些实施方案中，所述一种或多种非规范核苷酸包含尿嘧啶或肌苷。在一些实施方案中，模板集合体通过以下步骤产生：i.在所述一种或多种非规范核苷酸的存在下在RNA上进行第一链合成，从而形成第一链合成产物；以及ii.进行片段化反应。在一些实施方案中，该方法进一步包括选择性地裂解RNA。在一些实施方案中，选择性地裂解RNA包括用RNAse H进行处理。在一些实施方案中，片段化反应包括采用针对所述一种或多种非规范核苷酸的裂解剂。在一些实施方案中，片段化反应包括裂解所述一种或多种非规范核苷酸的碱基部分，从而形成脱碱基位点。在一些实施方案中，该裂解剂包含糖基化酶。在一些实施方案中，该糖基化酶是UNG或UDG。在一些实施方案中，该裂解剂包含伯胺。在一些实施方案中，该裂解剂包含多胺。在一些实施方案中，该多胺是DMED。在一些实施方案中，该裂解剂包含糖基化酶和多胺。在一些实施方案中，该裂解剂包含内切核酸酶V。在一些实施方案中，所述衔接子包含对双链DNA具特异性的限制性内切核酸酶的识别序列。在一些实施方案中，该方法进一步包括：(f)使探针与非期望的核酸的序列杂交；(g)用DNA聚合酶延伸该探针，从而产生部分双链体核酸；以及(h)用对双链DNA具特异性的限制性内切核酸酶处理该部分双链体核酸，从而在识别序列处裂解双链DNA片段。在一些实施方案中，该方法进一步包括用一组引物进行PCR，从而扩增模板集合体中的期望的核酸，该组引物可与反向互补于衔接子的序列以及部分双链体引物中与3’突出端相对的共享序列杂交。在一些实施方案中，该方法进一步包括对期望的核酸的一部分进行测序。在一些实施方案中，模板集合体来源于分选的细胞的群体。在一些实施方案中，模板集合体来源于单细胞。在一些实施方案中，该方法进一步包括将细胞分选到多孔板、微阵列、微流体装置或载玻片中，由此产生分选的细胞的群体。在一些实施方案中，根据细胞表面标志物进行分选。在一些实施方案中，根据细胞的光学性质进行分选。在一些实施方案中，根据细胞大小进行分选。在一些实施方案中，模板集合体包含细菌核糖体RNA、线粒体DNA、人珠蛋白mRNA、人细胞质rRNA、人线粒体rRNA、葡萄细胞质rRNA、葡萄线粒体rRNA或葡萄叶绿体rRNA。在一些实施方案中，所述限制性内切核酸酶是BspQI。在一些实施方案中，使用热启动聚合酶进行引物延伸反应。在一些实施方案中，使用MyTaq聚合酶进行引物延伸反应。

根据任何方面，本发明涉及部分地、基本上或完全地排除非期望的序列，其中排除一些或全部非期望的序列中的至少2％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％、99.5％、99.8％、99.9％、99.99％或更多；以及任选地，部分地、基本上或完全地保留期望的序列，其中排除一些或全部期望的序列中的少于98％、95％、90％、85％、80％、75％、70％、65％、60％、55％、50％、45％、40％、35％、30％、25％、20％、15％、10％、5％、2％、1％、0.5％、0.2％、0.1％、0.05％、0.01％或更少。在一些实施方案中，任何方面中的方法完全排除了一些或全部非期望的序列。在一些实施方案中，任何方面中的方法完全保留了一些或全部期望的序列。在任何方面，本文所述的方法可将非期望的核酸序列与期望的核酸序列之间、一些非期望的核酸序列与一些期望的核酸序列之间或全部非期望的核酸序列与全部期望的核酸序列之间的丰度比降低1.1、1.2、1.5、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、50、60、75、100、200、500、1000、5000、10000、100000、1000000倍或更多倍。

在多个方面，本发明涉及试剂盒。在第一方面，本发明涉及一种试剂盒，其包括限制性内切核酸酶、缺乏5’磷酸并且在一条链上包含一种或多种非规范核苷酸的第一衔接子、缺乏所述一种或多种非规范核苷酸并且缺乏5’磷酸的第二衔接子、连接酶、聚合酶、裂解剂、探针文库、一组对衔接子序列具有特异性的引物；其中，第二衔接子包含该限制性内切核酸酶的识别序列。

在第二方面，本发明涉及一种试剂盒，其包括限制性内切核酸酶、缺乏5’磷酸的第一衔接子、各自包含3’突出端并包含双链部分内的共享序列的多个部分双链体引物、连接酶、聚合酶、裂解剂、能够充当引物延伸反应的引物的探针文库；以及可与反向互补于衔接子的序列杂交的引物；其中，第一衔接子包含该限制性内切核酸酶的识别序列；且其中所述多个部分双链体引物包含至少两个具有不相似的3’突出端序列的部分双链体引物。

在第三方面，本发明涉及一种试剂盒，其包括限制性内切核酸酶、缺乏5’磷酸的第一衔接子、多个部分双链体引物(其各自包含3’突出端，包含双链部分内的共享序列，并且具有3’突出端的所述多个部分双链体引物的链在双链部分内的共享序列中缺乏腺嘌呤)、连接酶、聚合酶、裂解剂、能够充当引物延伸反应的引物的探针文库；以及一组可与反向互补于衔接子的序列和部分双链体引物中与3’突出端相对的共享序列杂交的引物；其中，第一衔接子包括该限制性内切核酸酶的识别序列；且其中所述多个部分双链体引物包含至少两个具有不相似的3’突出端序列的部分双链体引物。

在任何方面，所述限制性内切核酸酶可以是BspQI。在一些实施方案中，所述聚合酶是热启动聚合酶，例如MyTaq。在一些实施方案中，所述试剂盒进一步包括一种或多种非规范核苷酸。在一些实施方案中，所述一种或多种非规范核苷酸包含尿嘧啶或肌苷。在一些实施方案中，所述裂解剂包含糖基化酶。在一些实施方案中，该糖基化酶是UNG或UDG。在一些实施方案中，该裂解剂包含伯胺。在一些实施方案中，该裂解剂包含多胺。在一些实施方案中，该多胺是DMED。在一些实施方案中，该裂解剂包含糖基化酶和多胺。在一些实施方案中，该裂解剂包含内切核酸酶V。

用于执行本文所述的任意方法的试剂盒是本发明的另一特征。此类试剂盒可包括用于对核酸进行选择性富集、扩增和测序的试剂、酶和平台。在一个实施方案中，提供了一种试剂盒，其包含：a)一种或若干种衔接子；b)一种或多种寡核苷酸引物；以及c)用于扩增的试剂。在另一个实施方案中，该试剂盒进一步包含序列和dsDNA特异性核酸修饰酶，如限制酶。在仍另一个实施方案中，该试剂盒进一步包含用于测序的试剂。试剂盒将优选地包括关于应用试剂盒组分以及使用不包括在该试剂盒中的任何其他试剂的说明。

在任何方面，本发明的方法、组合物和试剂盒涉及能够充当针对非期望核酸上的序列的引物的引物探针。

在任何方面，本发明涉及一组引物探针，其通过以下步骤产生：编译非期望的核酸序列；任选地编译期望的核酸序列；选择每个非期望的核酸序列中的一条或多条链；通过计算将每个非期望的核酸序列片段化为选定长度(例如40-200、50-180、60-150、70-120、80-110、90-100个碱基的长度)的片段；选择扩增引物的目标解链温度范围，例如40-90、45-85、50-80、55-75、60-70、55-65℃等；任选地选择扩增引物的目标长度范围，例如10-80、11-70、12-65、13-60、14-55、15-50、16-45、17-40、18-35、19-30、10-30、11-28、12-26、13-24、14-22、15-20、10-20、11-19、12-18、13-17、14-16个核苷酸的长度等；设计针对每个非期望核酸序列中的一条或多条链的一部分的合格的扩增引物，其具有在目标温度范围内的预测的解链温度，且任选地具有在目标长度范围内的长度；任选地确定所设计的扩增引物中的一个或多个是否可与期望的核酸序列中的一个或多个杂交，并任选地从合格的扩增引物的列表中去除任何这样设计的扩增引物；以及由合格的扩增引物的列表合成寡核苷酸。本领域技术人员理解，目标解链温度范围和目标长度范围可落入由这些数值中的任意数值所界定的任何范围(例如，45-55℃或1-12个核苷酸的长度等)内。在一些实施方案中，使用本领域已知的标准亚磷酰胺(phosporamidite)化学方法进行寡核苷酸的合成。在一些实施方案中，将合成的寡核苷酸合并。

在任何方面，针对非期望的核酸序列的引物探针组可包含50-10000、55-5000、60-1000、70-500、80-250、90-200、100-180、110-170、120-180、130-170、140-160、100-150、250-1000个不同的寡核苷酸。因此，本发明的组合物包含一组至少50、100、150、200、250个不同的寡核苷酸，基本上由其组成，或者由其组成，其中所述寡核苷酸选择性地与线粒体RNA、线粒体DNA、人rRNA、线粒体rRNA、细菌核糖体RNA、线粒体DNA、人珠蛋白mRNA、人细胞质rRNA、人线粒体rRNA、葡萄细胞质rRNA、葡萄线粒体rRNA或葡萄叶绿体rRNA杂交。这样的组合物可在小瓶(例如，试剂)中分离。每一种寡核苷酸可具有本文所述的性质(例如，大小和Tm)。本领域技术人员理解，目标解链温度范围和目标长度范围可落入由这些数值中的任意数值所界定的任何范围(例如，60-70、160-200或150-250等)内。

援引并入

本说明书中提到的所有出版物、专利和专利申请均通过引用并入本文，其程度犹如特别地和单独地指出每个单独的出版物、专利或专利申请均通过引用而并入。

附图说明

本发明的新颖特征在随附的权利要求中具体阐述。通过参考以下对利用到本发明原理的说明性实施方案加以阐述的描述和附图，会获得对本发明的特征和优点的更好的理解，在附图中：

图1示出了使用插入物依赖性衔接子裂解(InDA-C)从单链DNA片段的核酸文库中消除非期望的核酸序列。基因特异性引物(GSP)仅与其互补序列退火，在基于聚合酶的延伸后创建双链或部分双链分子的群体。用衔接子特异性的限制性内切核酸酶进行的后续处理仅裂解被GSP延伸反应活化的片段，从而从非期望的片段中去除PCR引发位点中的一个。PCR扩增产生了富含目的核酸序列的文库。

图2示出了如实施例1中所概述的从链特异性全转录组cDNA文库中排除细菌rRNA片段的实验的结果的总结。

图3示出了实施例1中所述的四种测试文库的表达概况的比较。

图4示出了通过实施例1中的通用原核InDA-C探针对16S rRNA位点的靶向排除。

图5示出了定向文库构建方法。

图6示出了一种使用InDA-C探针排除核酸的方法，包括双cDNA水解。

图7示出了另一种使用InDA-C探针排除核酸的方法。

图8示出了针对部分双链体引物中的两个的设计。

图9示出了通过通用原核InDA-C探针排除非期望的核酸的方法。

具体实施方式

概述

本发明的方法可用于产生下一代测序(NGS)文库，在该文库中非期望的核酸序列已被排除或大幅度减少。此类方法例如可用于具有减少的核糖体RNA表现度的测序文库的产生，以及可用于核酸文库中的目的核酸序列的富集。总之，本发明的方法由于在产生核酸文库之后发生了非期望的核酸序列的消除，从而使得能够采用非失真的、无偏的核酸模板群体来开始，因而相对于现有的用于创建排除了非期望核酸序列的NGS文库的方法提供了改进。

本发明的方法和组合物可用于定向文库构建。本发明的方法可进一步用于生成衔接子连接的单链DNA样品，其中衔接子的取向是固定的。

如本文所用的，除非另外指明，本文中一些本发明的实施方案涉及数值范围。本发明的多个方面可以以范围形式来呈现。应当理解，范围形式的描述仅仅是为了方便和简洁，而不应理解为对本发明的范围的硬性限制。因此，应当认为对范围的描述已经具体公开了所有可能的子范围以及在该范围内的单独数值，如同其已经明确写出。例如，应认为对诸如1至6的范围的描述已具体公开了如1至3、1至4、1至5、2至4、2至6、3至6等的子范围，以及在该范围内的单独数值，例如，1、2、3、4、5和6。不论范围的宽度如何这均适用。当存在范围时，该范围包括范围的端点。

现将详细述及本发明的示例性实施方案。虽然将结合这些示例性实施方案来描述这些公开的方法和组合物，但应当理解，这些示例性实施方案并非意在限制本发明。相反，本发明意在涵盖可包括在本发明精神和范围内的备选方案、修改方案和等效方案。

除非另有说明，本文所用的遗传学、分子生物学、生物化学和核酸术语和符号遵循该领域中的标准论著和教科书中的术语和符号，例如Kornberg和Baker,DNA Replication,第二版(W.H.Freeman,New York,1992)；Lehninger,Biochemistry,第二版(Worth Publishers,New York,1975)；Strachan和Read,Human Molecular Genetics,第二版(Wiley-Liss,New York,1999)；Eckstein编著,Oligonucleotides and Analogs:A PracticalApproach(Oxford University Press,New York,1991)；Gait编著,Oligonucleotide Synthesis:A Practical Approach(IRL Press,Oxford,1984)；等等。

本发明的寡核苷酸

如本发明中所用的，术语“寡核苷酸”是指多核苷酸链，其通常为少于200个残基的长度，最常见的是15至100个核苷酸的长度，但亦意在包括更长的多核苷酸链。寡核苷酸可以是单链或双链的。如本发明所用的，术语“寡核苷酸探针”或“探针”是指能够与互补的核苷酸序列杂交的寡核苷酸。如本发明所用的，术语“寡核苷酸”可与术语“引物”、“衔接子”和“探针”互换使用。

如本文所用的，术语“杂交(hybridization)”/“杂交(hybridizing)”和“退火”可互换使用，并且是指互补核酸的配对。

如本文所用的术语“引物”是指通常具有游离3’羟基的寡核苷酸，其能够与模板(如靶多核苷酸、靶DNA、靶RNA或引物延伸产物)杂交，并且还能够促进与模板互补的多核苷酸的聚合。引物可含有构成引物尾部的非杂交序列。即使引物的序列不与靶标完全互补，其仍可以与靶标杂交。

本发明的引物通常是在沿着多核苷酸模板由聚合酶进行的延伸反应中，例如在PCR或cDNA合成中采用的寡核苷酸。寡核苷酸引物通常为单链的合成多核苷酸，在其3’端含有能够与靶多核苷酸序列杂交的序列。通常，能与靶核酸杂交的引物的3’区与序列或引物结合位点具有至少80％、优选90％、更优选95％、最优选100％的互补性。

如本文所用的“互补的”是指与序列的全部或仅与序列的一部分的互补性。特定寡核苷酸引物的可杂交序列中的核苷酸数目应使得用于杂交该寡核苷酸引物的严格性条件会阻止过多的随机非特异性杂交。通常，寡核苷酸引物的杂交部分中的核苷酸数目会至少与该寡核苷酸引物所杂交的靶多核苷酸上的限定序列一样大，即，至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少约20个，并且通常约6个至约10个或6个至约12个或12个至约200个核苷酸，通常约10个至约50个核苷酸。一般来说，靶多核苷酸大于如先前所述的一种或多种寡核苷酸引物。

互补的通常可指两个核苷酸之间精确配对的能力。即，如果在核酸的给定位置处的核苷酸能够与另一个核酸的核苷酸发生氢键键合，则认为这两个核酸在该位置是彼此互补的。“互补体”可以是完全或部分互补的序列。两个单链核酸分子之间的互补性可以是“部分的”(其中仅有一些核苷酸结合)，或者可以是完全的(在单链分子之间存在完全的互补性时)。核酸链之间的互补性程度对核酸链之间杂交的效率和强度具有显著影响。部分互补的两个序列可在至少7个核苷酸的序列上，更典型地在10-30个核苷酸的范围内的序列上，并且通常在至少14-25个核苷酸的序列上，具有例如至少90％的同一性，或至少95％、96％、97％、98％或99％的序列同一性。应当理解，引物序列的3’碱基将理想地与靶核酸序列的相应碱基完全互补，以允许发生引发。

“特异性杂交”是指核酸在基本不与存在于杂交混合物中的其他核苷酸序列结合的情况下与靶核苷酸序列在所限定的严格性条件下的结合。本领域技术人员认识到，放宽杂交条件的严格性会使得序列错配得到容忍。在具体的实施方案中，在严格的杂交条件下进行杂交。

“Tm”是指“解链温度”，其指双链核酸分子的群体变得半解离而成为单链时的温度。如本文所使用的，单链寡核苷酸的Tm是指包含寡核苷酸及其完全互补体的双链分子的Tm。Tm可通过计算来确定。具体地，寡核苷酸的Tm可为根据如下方程式计算获得的Tm：“Tm(℃)＝4(G+C)+2(A+T)”(Thein和Wallace,1986,Human genetic disorders,p 33-50,IRLPress,Oxford UK，该文献通过引用并入本文)。

在一些情况下，所研究的靶多核苷酸序列的身份是已知的，并且可根据前述靶多核苷酸序列的反义序列来精确地合成可杂交的引物。在其他情况下，当靶多核苷酸序列未知时，寡核苷酸引物的可杂交序列为随机序列。包含随机序列的寡核苷酸引物可以被称为如下文所述的“随机引物”。在另外其他的情况下，寡核苷酸引物如第一引物或第二引物包含一组引物，例如一组第一引物或一组第二引物。在一些情况下，这组第一或第二引物可包含设计为与多种(例如2、3、4、约6、8、10、20、40、80、100、125、150、200、250、300、400、500、600、800、1000、1500、2000、2500、3000、4000、5000、6000、7000、8000、10,000、20,000、25,000种或更多种)靶序列杂交的引物的混合物。在一些情况下，所述多种靶序列可包含一组相关序列、随机序列、全转录组或其部分(例如，大部分)，或任何组的序列如mRNA。

在本发明的一些实施方案中，使用随机引发。如本文所用的“随机引物”为通常包含这样一种序列的引物：该序列并非基于样品中的特定或具体序列而设计，而是基于随机引物的序列在给定的一组条件下可与样品中的一种或多种序列杂交的统计期望(或经验观测值)而设计的。随机引物通常是包含随机序列的寡核苷酸或寡核苷酸群体，其中在寡核苷酸上的给定位置处的核苷酸可以是四种核苷酸A、T、G、C中的任意核苷酸或它们的任何类似物。随机引物可包含为特异性、非随机序列的5’或3’区。在本发明的一些实施方案中，随机引物包含有尾引物，该有尾引物具有3’随机序列区和包含特异性共有衔接子序列的5’非杂交区。随机引物或其互补体的序列可以是或可以不是天然存在的，并且可以存在于或可以不存在于目的样品中的序列集合体中。“随机引物”还可指这样的引物：其为共同设计为与一种或多种期望的靶序列杂交的引物群体(多种随机引物)的成员。

如本文所用的术语“衔接子”是指已知序列的寡核苷酸，其与靶多核苷酸或目的靶多核苷酸链的连接或合并使得能够产生该靶多核苷酸或目的靶多核苷酸链的扩增就绪的产物。设想了多种衔接子设计。各种连接方法和试剂是本领域已知的，并且对于实施本发明的方法可能是有用的。例如，可采用平端连接。类似地，单一dA核苷酸可通过缺乏3’-外切核酸酶活性的聚合酶添加至双链DNA产物的3’端，并且可与包含dT突出端的衔接子退火(或相反)。这种设计允许随后连接已杂交的组分(例如，通过T4DNA连接酶)。其他连接策略和相应的试剂是本领域已知的，并且用于进行有效的连接反应的试剂盒和试剂是可商购得到的(例如，来自New England Biolabs,Roche)。

如本文所使用的，术语“插入物依赖性衔接子裂解”(InDA-C)是指用于从核苷酸文库中排除或去除特定的核苷酸序列的多步骤过程。第一步包括使序列特异性寡核苷酸与在每个末端上附接有固定取向的衔接子的单链核酸模板退火，该序列特异性寡核苷酸被设计成与非期望的核酸序列或紧邻非期望序列的区域的序列互补。每个片段的5’端的衔接子包含对双链DNA具特异性的限制性内切核酸酶的识别序列。在序列特异性寡核苷酸退火之后进行引物延伸，从而在寡核苷酸与单链核酸模板互补的区域内创建双链DNA片段。所得到的同时包含单链和双链片段的核酸文库用限制性内切核酸酶进行处理，从而仅在双链片段的限制性内切核酸酶位点处产生裂解，并且因此去除在包含非期望的核酸序列的片段的一个末端处的衔接子。在衔接子裂解之后，可使用对每种衔接子均具有特异性的引物进行PCR，从而仅导致期望的核酸片段的扩增(即，在同一模板上包含两个PCR引发位点的片段的扩增)。插入物依赖性衔接子裂解示于图1中。

用于设计能够与选定列表的序列杂交或不能与该选定列表的序列杂交并且具有不同长度和解链温度的寡核苷酸的方法是本领域所熟知的，并且在EP 1957645B1中进一步详细描述，该专利通过引用全部并入本文。

核酸修饰酶

本发明的方法采用了核酸(NA)修饰酶。核酸修饰酶可以是DNA特异性修饰酶。NA修饰酶可根据针对双链DNA的特异性进行选择。该酶可以是双链体特异性内切核酸酶、平端频切限制酶(blunt-end frequentcutter restriction enzyme)或其他限制酶。平端切割酶的实例包括DraI或SmaI。NA修饰酶可以是由New England Biolabs提供的酶。NA修饰酶可以是寻靶内切核酸酶(寻靶内切核酸酶可以是不具有严格定义的识别序列的内切核酸酶)。NA修饰酶可以是高保真内切核酸酶(高保真内切核酸酶可以是工程化的内切核酸酶，其具有比该内切核酸酶的野生型形式更低的“星活性”)。

在一些实施方案中，NA修饰酶是序列特异性和双链体特异性DNA修饰限制性内切核酸酶。在优选的实施方案中，NA-酸修饰酶是酶BspQI，一种IIS型限制性内切核酸酶。

衔接子的附接

连接

对于两种多核苷酸例如茎-环衔接子/引物寡核苷酸和靶多核苷酸，本文所使用的术语“连接(joining)”和“连接(ligation)”是指两个单独的多核苷酸的共价连接以产生具有连续骨架的单个更大的多核苷酸。用于连接两个多核苷酸的方法是本领域已知的，且包括但不限于酶促和非酶促(例如化学)方法。非酶促的连接反应的实例包括描述于美国专利号5,780,613和5,476,930中的非酶促连接技术，这些专利通过引用并入本文。在一些实施方案中，通过连接酶例如DNA连接酶或RNA连接酶使衔接子寡核苷酸与靶多核苷酸连接。各自具有表征的反应条件的多种连接酶是本领域已知的，且包括但不限于：依赖NAD⁺的连接酶，包括tRNA连接酶、Taq DNA连接酶、丝状栖热菌(Thermus filiformis)DNA连接酶、大肠杆菌DNA连接酶、Tth DNA连接酶、水管致黑栖热菌(Thermusscotoductus)DNA连接酶(I和II)、热稳定连接酶、Ampligase热稳定DNA连接酶、VanC型连接酶、9°N DNA连接酶、Tsp DNA连接酶和通过生物勘探发现的新型连接酶；依赖ATP的连接酶，包括T4RNA连接酶、T4DNA连接酶、T3DNA连接酶、T7DNA连接酶、Pfu DNA连接酶、DNA连接酶1、DNA连接酶III、DNA连接酶IV和通过生物勘探发现的新型连接酶；及其野生型、突变同种型和遗传工程变体。连接可在具有可杂交序列如互补性突出端的多核苷酸之间发生。连接也可在两个平端间发生。一般而言，在连接反应中使用5’磷酸。5’磷酸可由靶多核苷酸、衔接子寡核苷酸或二者一起提供。5’磷酸可根据需要添加至待连接的多核苷酸，或从中去除。用于添加或去除5’磷酸的方法是本领域已知的，且包括但不限于酶促和化学方法。可用于添加和/或去除5’磷酸的酶包括激酶、磷酸酶和聚合酶。在一些实施方案中，连接反应中连接的两个末端(例如衔接子末端和靶多核苷酸末端)均提供5’磷酸，从而在两个末端的连接中形成两个共价键。在一些实施方案中，在连接反应中连接的两个末端中只有一个末端(例如，仅衔接子末端和靶多核苷酸末端中的一个)提供5’磷酸，从而在两个末端的连接中只形成一个共价键。在一些实施方案中，在靶多核苷酸的一个或两个末端处只有一条链与衔接子寡核苷酸连接。在一些实施方案中，在靶多核苷酸的一个或两个末端处两条链都与衔接子寡核苷酸连接。在一些实施方案中，在连接之前去除3’磷酸。在一些实施方案中，将衔接子寡核苷酸添加至靶多核苷酸的两个末端，其中在每个末端处的一条或两条链与一个或多个衔接子寡核苷酸连接。当两个末端处的两条链都与衔接子寡核苷酸连接时，可在连接后进行裂解反应，该裂解反应产生5’突出端，该5’突出端可以充当对应的3’端的延伸的模板，该3’端可以包括或可以不包括来源于衔接子寡核苷酸的一种或多种核苷酸。在一些实施方案中，靶多核苷酸在一端与第一衔接子寡核苷酸连接，而在另一端与第二衔接子寡核苷酸连接。在一些实施方案中，靶多核苷酸及与之连接的衔接子包含平端。在一些实施方案中，使用不同的第一衔接子寡核苷酸对每个样品进行单独的连接反应，该第一衔接子寡核苷酸包含至少一种针对每个样品的条码序列，使得没有条码序列与多于一个样品的靶多核苷酸连接。连接有衔接子/引物寡核苷酸的靶多核苷酸被认为是被所连接的衔接子进行了“标记”。

在一些实施方案中，衔接子/引物与靶多核苷酸的连接产生连接产物多核苷酸，该产物具有包含来源于衔接子/引物的核苷酸序列的3’突出端。在一些实施方案中，包含与3’突出端的全部或一部分互补的序列的引物寡核苷酸与该突出端杂交，并使用DNA聚合酶进行延伸，以产生与该连接产物多核苷酸的一条链杂交的引物延伸产物。DNA聚合酶可包含链置换活性，从而使连接产物多核苷酸的一条链在引物延伸期间被置换。

链特异性选择方法

本文提供的组合物和方法对于在双链DNA中保留定向信息是有用的。

如本文所用的术语“链特异性的”或“定向的”可指在双链多核苷酸中区分原始模板链和与原始模板链互补的链的能力。进一步地，在多个不同的实施方案中，本发明的方法和组合物以链特异性方式使得能够进行衔接子连接。在多个不同的实施方案中，在链(优选选定的链)的选定末端掺入衔接子。进一步地，可以以选定的取向掺入衔接子。在多个不同的实施方案中，通过选择或富集期望的构型或链来实现链特异性、定向性和取向。

在一些实施方案中，本发明的方法用于在产生更适合于分子克隆应用的双链多核苷酸时保留有关单链核酸分子的方向的信息。合成双链多核苷酸的一条链，以使其具有沿着该链的全长掺入其中的至少一种修饰的核苷酸。在一些实施方案中，修饰的核苷酸的掺入标记出用于降解或去除的链。

术语“第一链合成”是指使用原始核酸(RNA或DNA)作为聚合酶反应的起始模板的第一链的合成。第一链的核苷酸序列对应于互补链的序列。

术语“第二链合成”是指使用第一链作为聚合酶反应的模板的第二链的合成。第二链的核苷酸序列对应于原始核酸模板的序列。

术语“未修饰的dNTP”或“经典dNTP”是指通常在DNA合成中用作结构单元的四种脱氧核糖核苷酸三磷酸：dATP(脱氧腺苷三磷酸)、dCTP(脱氧胞苷三磷酸)、dGTP(脱氧鸟苷三磷酸)和dTTP(脱氧胸苷三磷酸)。同样，术语“规范的dNTP”用于指通常见于DNA中的四种脱氧核糖核苷酸三磷酸：dATP、dCTP、dGTP和dTTP。通常，核苷酸以核苷三磷酸的形式存在于溶液中以用于引物延伸反应。在引物延伸反应过程中，它们通常以诸如腺苷、胸苷、鸟苷、胞苷、尿苷等失去两个磷酸的核苷形式而掺入多核苷酸中，而一个磷酸形成多核苷酸骨架的一部分。核苷酸的核碱基，例如腺嘌呤、鸟嘌呤、胸腺嘧啶、胞嘧啶、尿嘧啶等，可根据本发明的不同实施方案去除，从而形成脱碱基位点。用于从多核苷酸中去除核碱基从而形成脱碱基位点的各种方法在本文中详细地阐述并且是本领域已知的。

如本文所用的术语“规范的”是指常见于DNA中的核酸碱基腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶或它们的脱氧核糖核苷酸或脱氧核糖核苷类似物。术语“非规范的”是指除了DNA中的四种规范的碱基之外的DNA中的核酸碱基，或它们的脱氧核糖核苷酸或脱氧核糖核苷类似物。虽然尿嘧啶在RNA中是一种常见的核酸碱基，但尿嘧啶在DNA中是一种非规范碱基。

如本文所用的术语“修饰的核苷酸”或“修饰的dNTP”是指适合于替代一种相应的未修饰的或经典的dNTP的任何分子。该修饰的核苷酸必须能够进行与其所替代的经典的或未修饰的dNTP相同或相似的碱基对匹配。修饰的核苷酸或dNTP可适于特异性降解，其中它被合适的降解剂选择性降解，从而使得含有至少一种修饰且降解的dNTP的DNA链基本上不适合于扩增和/或杂交。或者，修饰的核苷酸必须标记出含有可发生选择性去除的修饰核苷酸的DNA链或促进多核苷酸链的分离。这样的去除或分离可通过与修饰的核苷酸选择性相互作用的分子、颗粒或酶来实现，从而选择性去除或为了去除而标记出仅一条多核苷酸链。

如本申请中所用的，术语“链标记”是指用于区分双链多核苷酸的两条链的任何方法。术语“选择”是指在双链多核苷酸的两条链之间进行选择的任何方法。术语“选择性去除”或“为了去除而选择性标记”是指对多核苷酸链进行的、使得该多核苷酸链不适合于下游应用如扩增或杂交的任何修饰。

在一个实施方案中，通过将至少一种修饰的核苷酸掺入合成的多核苷酸的一条链中来进行选择，并且通过用对至少一种修饰的核苷酸表现出特定活性的酶进行处理来进行选择性去除。在一个优选的实施方案中，掺入合成的多核苷酸的一条链中的修饰的核苷酸是脱氧尿苷三磷酸(dUTP)，代替dNTP混合物中的dTTP，并且通过核酸酶尿嘧啶-N-糖基化酶(UNG)从下游应用中选择性去除标记的链。UNG选择性降解dUTP，而其对于其他dNTP及它们的类似物是中性的。用UNG处理导致N-糖苷键的裂解和dU残基的碱基部分的去除，从而形成脱碱基位点。在一个优选的实施方案中，在脱嘌呤/脱嘧啶内切核酸酶(APE)的存在下进行UNG处理以在脱碱基位点处产生切口。结果，用UNG/APE处理的、具有掺入的dUTP的多核苷酸链得到裂解并且不能经历聚合酶扩增。在另一个实施方案中，切口的产生和裂解是通过利用多胺如N,N'-二甲基乙二胺(DMED)处理或通过热处理来实现的。在一个优选的实施方案中，在含有约32mM DMED的反应缓冲液中进行UNG处理。

如在本申请中所用的，术语“至少一种核苷酸”或“至少一种修饰的核苷酸”是指相同种类或类别的多种dNTP分子。因此，“一种修饰的核苷酸”的使用是指用相应的修饰的核苷酸种类代替dNTP混合物中的一种经典dNTP，即dATP、dCTP、dGTP或dTTP。

在一个优选的实施方案中，至少一种修饰的核苷酸为dUTP，代替dNTP混合物中的dTTP。在另一个实施方案中，至少一种修饰的核苷酸是生物素化的dNTP。在另一个实施方案中，至少一种修饰的核苷酸含有巯基。在另一个实施方案中，至少一种修饰的核苷酸为氨基烯丙基dNTP。在又一个实施方案中，至少一种修饰的核苷酸为肌苷，代替dNTP混合物中的dGTP。

在一些实施方案中，本发明的方法用于构建定向cDNA文库。当使用并非极性特异性的衔接子，即产生具有两个衔接子取向的连接产物的衔接子时，链标记对于构建定向cDNA文库是必要的，但并不充分。根据本发明的方法构建定向cDNA文库需要对在衔接子的连接链处的两种衔接子之一和cDNA插入物均进行链标记。本发明的一个有用的特征是切换衔接子取向的能力。例如，在双链体衔接子系统(其中P1/P2指定导致有义链选择和(任选的)测序的衔接子取向，并且其中P2衔接子具有沿着衔接子的连接链掺入的至少一种修饰的核苷酸)中，以使得P1衔接子(与P2衔接子相对)具有至少一种沿着连接链掺入的修饰的核苷酸对方案进行的修改允许进行反义链选择和(任选的)测序。

本发明的方法可进一步包括裂解输入核酸模板的步骤。在一些情况下，可采用诸如酶的物质裂解输入核酸模板。在多核苷酸包含非规范核苷酸的实施方案中，可用能够普遍地、特异性地或选择性地裂解非规范脱氧核糖核苷的碱基部分以产生脱碱基位点的物质如酶来处理该多核苷酸。如本文所使用的，“脱碱基位点”包括用能够裂解核苷酸的碱基部分的物质去除碱基部分(包括整个碱基)，例如，通过用能够实现非规范核苷酸的碱基部分的裂解的物质(例如，酶、酸性条件或化学试剂)处理(存在于多核苷酸链中的)非规范核苷酸之后剩余的任何化学结构。在一些实施方案中，该物质(如酶)催化非规范核苷酸的碱基部分与非规范核苷酸的糖之间的键的水解，以产生包含半缩醛环且缺乏碱基的脱碱基位点(可互换地称为“AP”位点)，然而其他裂解产物也考虑用于本发明的方法中。用于裂解非规范核苷酸的碱基部分的合适的物质和反应条件包括：N-糖基化酶(也称为“DNA糖基化酶”或“糖苷酶”)，包括尿嘧啶-N-糖基化酶(“UNG”；特异性裂解dUTP)(可互换地称为“尿嘧啶DNA糖基化酶”)、次黄嘌呤-N-糖基化酶和羟甲基胞嘧啶-N-糖基化酶；3-甲基腺嘌呤DNA糖基化酶、3-或7-甲基鸟嘌呤DNA糖基化酶、羟甲基尿嘧啶DNA糖基化酶；T4内切核酸酶V。参见，例如，Lindahl,PNAS(1974)71(9):3649-3653；Jendrisak,美国专利号6,190,865B1，或者表1中提供的任何糖苷酶或其同源物，诸如与本文所提供的任何糖基化酶在氨基酸或核苷酸水平上具有大于约50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、99％、99.5％或更高的同源性或同一性的酶。在一个实施方案中，使用尿嘧啶-N-糖基化酶裂解非规范核苷酸的碱基部分。在其他实施方案中，裂解非规范核苷酸的碱基部分的物质与在脱碱基位点处裂解磷酸二酯骨架的物质是相同的。

表1：细菌、酵母和人中的糖基化酶

非规范核苷酸的碱基部分的裂解可提供普遍的、特异性的或选择性的裂解(在能够裂解非规范核苷酸的碱基部分的物质(例如酶)普遍地、特异性地或选择性地裂解特定非规范核苷酸的碱基部分的意义上来说)，由此基本上所有或超过约99.9％、99.5％、99％、98.5％、98％、约95％、约90％、约85％、约80％、约75％、约70％、约65％、约60％、约55％、约50％、约45％或约40％的裂解的碱基部分是非规范核苷酸的碱基部分。然而，裂解的程度可以更低。因此，提及特异性裂解是示例性的。普遍的、特异性的或选择性的裂解对于在本发明的产生模板多核苷酸片段(即，通过在脱碱基位点裂解骨架所产生的片段)的方法中控制片段大小是理想的。可选择反应条件，使得创建脱碱基位点的反应可运行至反应完全，或者该反应可以进行直至10％、20％、30％、40％、50％、60％、70％、80％、90％、95％、99％或约100％的非规范核苷酸被转化为脱碱基位点。在一些情况下，可选择反应条件，使得在存在于模板核酸中的一种或多种非规范核苷酸的约10％至约100％，模板核酸中的非规范核苷酸的约20％至约90％、约30％至约90％、约50％至约90％、95％、99％或100％处发生创建脱碱基位点的反应。

在一些实施方案中，在合成模板多核苷酸后，将包含非规范核苷酸的模板多核苷酸纯化(以消除，例如，存在于反应混合物中的残留的游离非规范核苷酸)。在其他实施方案中，在合成包含非规范核苷酸的模板多核苷酸与后续步骤(如引物杂交，用以产生不包含非规范核苷酸或不包含与模板核酸相同的非规范核苷酸的引物延伸产物的引物延伸，非规范核苷酸的碱基部分的裂解，以及磷酸二酯骨架在脱碱基位点处的裂解)之间没有中间纯化。

应理解，非规范核苷酸的选择可指导将用于裂解该非规范核苷酸的碱基部分的酶的选择，达到这样的程度：特定的非规范核苷酸被能够裂解非规范核苷酸的碱基部分的特定酶识别。在一些情况下，该酶是糖基化酶。例如，可被糖基化酶裂解的包含非规范核苷酸(诸如dUTP、8-氧代鸟嘌呤或甲基化嘌呤)的模板核酸可在本发明的方法中使用。其他合适的非规范核苷酸包括脱氧肌苷三磷酸(dITP)、5-羟甲基脱氧胞苷三磷酸(5-OH-Me-dCTP)或表1中提供的任何非规范核苷酸。参见，例如，Jendrisak，美国专利号6,190,865。随后，可在本发明的方法中使用糖基化酶，如可作用于dUTP以提供脱碱基位点的尿嘧啶DNA糖基化酶(称为UNG或UDG)，可作用于8-氧代鸟嘌呤以提供脱碱基位点的Ogg1，或可作用于甲基化嘌呤以提供脱碱基位点的N-甲基嘌呤DNA糖基化酶，以作用于包含非规范核苷酸的输入核酸模板，从而启动裂解输入核酸模板的步骤。如本文提供的酶可提供输入核酸模板在本文提供的一种或多种非规范核苷酸处的N-糖基键裂解，以产生一个或多个脱碱基(脱嘌呤或脱嘧啶)位点。

可在本发明的方法中使用的另外的糖基化酶和它们的非规范核苷酸底物包括：5-甲基胞嘧啶DNA糖基化酶(5-MCDG)，其从DNA骨架上裂解5-甲基胞嘧啶(5-MeC)的碱基部分(Wolffe等人,Proc.Nat.Acad.Sci.USA 96:5894-5896,1999)；3-甲基腺苷-DNA糖基化酶I，其从DNA骨架上裂解3-甲基腺苷的碱基部分(参见，例如Hollis等人(2000)Mutation Res.460:201-210)；和/或3-甲基腺苷DNA糖基化酶II，其从DNA骨架上裂解3-甲基腺苷、7-甲基鸟嘌呤、7-甲基腺苷和/3-甲基鸟嘌呤的碱基部分。参见McCarthy等人(1984)EMBO J.3:545-550。已描述了5-MCDG的多功能和单功能形式。参见Zhu等人,Proc.Natl.Acad.Sci.USA 98:5031-6,2001；Zhu等人,Nuc.Acid Res.28:4157-4165,2000；和Nedderrnann等人,J.B.C.271:12767-74,1996(描述了双功能性的5-MCDG)；Vairapandi和Duker,Oncogene 13:933-938,1996；Vairapandi等人,J.Cell.Biochem.79:249-260,2000(描述了包含5-MCDG活性的单功能酶)。在一些实施方案中，5-MCDG优先裂解完全甲基化的多核苷酸位点(例如，CpG二核苷酸)，并且在其他实施方案中，5-MCDG优先裂解半甲基化的多核苷酸。例如，单功能性的人5-甲基胞嘧啶DNA糖基化酶在完全甲基化的CpG位点处特异性裂解DNA，并且对于半甲基化的DNA相对无活性(Vairapandi和Duker,同上；Vairapandi等人,同上)。相比之下，鸡胚5-甲基胞嘧啶-DNA糖基化酶针对半甲基化的甲基化位点具有较高的活性。在一些实施方案中，用辅助因子如重组的富含CpG的RNA、ATP、RNA解旋酶和增殖细胞核抗原(PCNA)来增强(提高或加强)5-MCDG的活性。参见美国专利公开号20020197639A1。可以使用一种或多种物质。在一些实施方案中，该一种或多种物质裂解相同的甲基化核苷酸的碱基部分。在其他实施方案中，该一种或多种物质裂解不同的甲基化核苷酸的碱基部分。用两种或更多种物质进行的处理可以是相继的或同时的。

用于根据本发明的方法对非规范核苷酸的碱基部分进行裂解的适当的反应介质和条件为允许裂解非规范核苷酸的碱基部分的那些反应介质和条件。此类介质和条件对于本领域技术人员来说是已知的，并且在许多出版物如Lindahl,PNAS(1974)71(9):3649-3653；和Jendrisak,美国专利号6,190,865B1；美国专利号5,035,996；和美国专利号5,418,149中有描述。例如，缓冲液条件可以如以上关于多核苷酸合成所述。在一个实施方案中，将UDG(Epicentre Technologies,Madison Wis.)加至核酸合成反应混合物中，并在37℃下温育20分钟。在一个实施方案中，对于包含非规范核苷酸的多核苷酸的合成以及非规范核苷酸的碱基部分的裂解而言，反应条件是相同的。在另一个实施方案中，针对这些反应使用不同的反应条件。在一些实施方案中，在UNG之前或与之同时加入螯合剂(例如EDTA)以便防止聚合酶延伸裂解产物的末端。

可使用能够标记脱碱基位点的物质来标记包含脱碱基位点的多核苷酸，并且在涉及片段化的实施方案中，可在非规范核苷酸掺入位点(即，由能够在脱碱基位点裂解磷酸二酯骨架的物质作用的脱碱基位点)裂解包含脱碱基位点的多核苷酸的磷酸二酯骨架，以便产生两个或更多个片段。在涉及片段化的实施方案中，可在片段化之前进行标记，可在标记之前进行片段化，或者可同时进行片段化和标记。

本文提供了能够标记(例如，普遍地或特异性地标记)脱碱基位点，由此产生包含标记的脱碱基位点的多核苷酸(或多核苷酸片段)的物质。在一些实施方案中，可检测部分(标记)共价或非共价地与脱碱基位点相关联。在一些实施方案中，可检测部分直接或间接地与脱碱基位点相关联。在一些实施方案中，可检测部分(标记)可直接或间接地检测。在一些实施方案中，对可检测信号进行放大。在一些实施方案中，可检测部分包含有机分子，例如生色团、荧光团、生物素或它们的衍生物。在其他实施方案中，可检测部分包含大分子，如核酸、适体、肽或诸如酶或抗体的蛋白质。在其他实施方案中，可检测信号是荧光。在其他实施方案中，酶促产生可检测信号。在一些实施方案中，标记选自荧光素、罗丹明、花青染料、吲哚菁染料、Cy3、Cy5、Alexa Fluor染料、藻红蛋白、5-(((2-(甲肼基)甲基)硫基)乙酰基)氨基荧光素(5-(((2-(carbohydrazino)-methyl)thio)acetyl)aminofluorescein)、氨基氧基乙酰基酰肼(“FARP”)或N-(氨基氧基乙酰基)-N’-(D-生物素酰基)肼、三氟乙酸盐(ARP)。

通过使用酶促手段或化学手段或通过施加热或它们的组合可进一步提供包含一个或多个脱碱基位点的输入核酸模板的裂解。例如，包含一个或多个脱碱基位点的输入核酸模板可用亲核物质或碱来处理。在一些情况下，该亲核物质是胺，如伯胺、仲胺或叔胺。例如，脱碱基位点可用哌啶、吗啉或其组合来处理。在一些情况下，可以使用热哌啶(例如，在90℃下1M)来裂解包含一个或多个脱碱基位点的输入核酸模板。在一些情况下，可以使用吗啉(例如，在37℃或65℃下3M)来裂解包含一个或多个脱碱基位点的输入核酸模板。或者，可以使用多胺来裂解包含一个或多个脱碱基位点的输入核酸模板。合适的多胺包括例如精胺、亚精胺、1,4-二氨基丁烷、赖氨酸、三肽K-W-K、N,N-二甲基乙二胺(DMED)、哌嗪、1,2-乙二胺或其任意组合。在一些情况下，包含一个或多个脱碱基位点的输入核酸模板可用适合于进行β消除反应、δ消除反应或其组合的试剂来处理。在一些情况下，通过化学手段对包含一个或多个脱碱基位点的输入核酸模板的裂解可提供输入核酸模板的片段，该片段包含封端的3’端。在一些情况下，封端的3’端缺乏末端羟基。在其他情况下，封端的3’端被磷酸化。在仍其他情况下，通过化学手段对包含一个或多个脱碱基位点的输入核酸模板的裂解可提供输入核酸模板的未封端的片段。在一些情况下，本发明的方法提供了酶或者酶和多胺如DMED的组合在温和条件下在单一反应混合物中的应用，该反应混合物不影响规范的核苷酸，并因此可维持该方法的产物的序列完整性。合适的温和条件可包括处于或接近中性pH的条件。其他合适的条件包括约4.5或更高、5或更高、5.5或更高、6或更高、6.5或更高、7或更高、7.5或更高、8或更高、8.5或更高、9或更高、9.5或更高、10或更高、或约10.5或更高的pH。另外其他合适的条件包括约4.5至10.5、约5至10.0、约5.5至9.5、约6至9、约6.5至8.5、约6.5至8.0或约7至8.0。合适的温和条件还可包括处于或接近室温的条件。其他合适的条件包括约10℃、11℃、12℃、13℃、14℃、15℃、16℃、17℃、18℃、19℃、20℃、21℃、22℃、23℃、24℃、25℃、26℃、27℃、28℃、29℃、30℃、31℃、32℃、33℃、34℃、35℃、36℃、37℃、38℃、39℃、40℃、41℃、42℃、43℃、44℃、45℃、46℃、47℃、48℃、49℃、50℃、51℃、52℃、53℃、54℃、55℃、56℃、57℃、58℃、59℃、60℃、61℃、62℃、63℃、64℃、65℃、66℃、67℃、68℃、69℃或70℃或更高的温度。另外其他合适的条件包括约10℃至约70℃、约15℃至约65℃、约20℃至约60℃、约20℃至约55℃、约20℃至约50℃、约20℃至约45℃、约20℃至约40℃、约20℃至约35℃或约20℃至约30℃。在一些情况下，温和的裂解条件的使用可提供对通过本发明的方法产生的引物延伸产物的较少损害。在一些情况下，受损的碱基越少，引物延伸产物可能就越适合用于下游分析如测序，或杂交。在其他情况下，温和的裂解条件的使用可提高最终产物产率，维持序列完整性，或使得本发明的方法更适合于自动化。

在涉及片段化的实施方案中，在脱碱基位点处裂解包含脱碱基位点的模板多核苷酸的骨架，由此产生该多核苷酸的两个或更多个片段。如本文所述，至少一个片段包含脱碱基位点。本文提供了在脱碱基位点处裂解多核苷酸的磷酸二酯骨架的物质。在一些实施方案中，该物质为AP内切核酸酶如大肠杆菌AP内切核酸酶IV。在其他实施方案中，该物质为N,N'-二甲基乙二胺(称为“DMED”)。在其他实施方案中，该物质为热、碱性条件、酸性条件或烷基化剂。在另外其他的实施方案中，在脱碱基位点处裂解磷酸二酯骨架的物质与裂解核苷酸的碱基部分以形成脱碱基位点的物质相同。例如，本发明的糖苷酶可包含糖苷酶和裂合酶活性，由此糖苷酶活性裂解核苷酸(例如，非规范核苷酸)的碱基部分以形成脱碱基位点，而裂合酶活性在如此形成的脱碱基位点处裂解磷酸二酯骨架。在一些情况下，糖苷酶包含糖苷酶活性和AP内切核酸酶活性。

根据用于在模板多核苷酸的脱碱基位点进行裂解的物质，骨架可在脱碱基位点的5’侧裂解(例如，在脱碱基残基的5’-磷酸基团与相邻核苷酸的脱氧核糖环之间裂解，从而产生游离的3’羟基)，使得脱碱基位点位于所获得的片段的5’端。在其他实施方案中，裂解也可在脱碱基位点的3’侧(例如，在脱碱基残基的脱氧核糖环和3’-磷酸基团与相邻核苷酸的脱氧核糖环之间裂解，从而在相邻核苷酸的脱氧核糖环上产生游离的5’磷酸基团)，使得脱碱基位点位于所获得的片段的3’端。在另外其他的实施方案中，更复杂的裂解形式是可能的，例如，导致磷酸二酯骨架的裂解和脱碱基核苷酸的一部分的裂解的裂解。片段化剂的选择因此允许控制多核苷酸片段内的脱碱基位点的取向，例如，在所获得的片段的3’端或所获得的片段的5’端。反应条件的选择也允许控制片段化反应的程度、水平或完成度。在一些实施方案中，可选择反应条件，使得裂解反应在大量过量的试剂的存在下进行，并使其运行至反应完全，而几乎无需担心对本发明引物延伸产物的裂解。相比之下，本领域中已知的其他方法，例如，机械剪切、DNase裂解，不能在模板多核苷酸和引物延伸产物之间进行区分。在其他实施方案中，选择反应条件，使得片段化不完全(在骨架在一些脱碱基位点处仍保持未裂解(未片段化)的意义上来说)，以便产生包含多于一个脱碱基位点的多核苷酸片段。这样的片段包含内部(未片段化的)脱碱基位点。

在通过裂解非规范核苷酸(若存在于多核苷酸中)的碱基部分产生脱碱基位点之后，用能够实现骨架在脱碱基位点处裂解的物质在非规范核苷酸掺入位点(在裂解非规范核苷酸的碱基部分之后也称为脱碱基位点)处裂解多核苷酸的骨架。在骨架处的裂解(也称为“片段化”)导致产生至少两个片段(取决于包含脱碱基位点的多核苷酸中存在的脱碱基位点的数目和裂解的程度)。

能够在脱碱基位点处裂解骨架的合适的物质(例如，酶、化学物质和/或反应条件如热)包括：热处理和/或化学处理(包括碱性条件、酸性条件、烷基化条件或胺介导的脱碱基位点的裂解(参见，例如，McHugh和Knowland,Nucl.Acids Res.(1995)23(10):1664-1670；Bioorgan.Med.Chem.(1991)7:2351；Sugiyama,Chem.Res.Toxicol.(1994)7:673-83；Horn,Nucl.Acids.Res.,(1988)16:11559-71)；和在钙离子的存在下使用催化多核苷酸在脱碱基位点处的裂解的酶，例如AP内切核酸酶(也称为“脱嘌呤、脱嘧啶内切核酸酶”)(例如，可从Epicentre Tech.,Inc,Madison Wis.获得的大肠杆菌内切核酸酶IV)、大肠杆菌内切核酸酶III或内切核酸酶IV、大肠杆菌外切核酸酶III。参见，例如Lindahl,PNAS(1974)71(9):3649-3653；Jendrisak，美国专利号6,190,865B1；Shida,NucleicAcids Res.(1996)24(22):4572-76；Srivastava,J.Biol.Chem.(1998)273(13):21203-209；Carey,Biochem.(1999)38:16553-60；Chem ResToxicol(1994)7:673-683。如本文所用的“物质”涵盖诸如热的反应条件。在一个实施方案中，使用AP内切核酸酶——大肠杆菌内切核酸酶IV在脱碱基位点处裂解磷酸二酯骨架。在另一个实施方案中，利用胺如N,N'-二甲基乙二胺进行裂解。参见，例如，McHugh和Knowland,同上。

脱碱基位点的裂解可在紧邻脱碱基残基的5’侧的核苷酸与脱碱基残基之间发生，或在紧接脱碱基残基的3’侧的核苷酸与脱碱基残基之间发生(尽管，如本文所阐述的，磷酸二酯骨架的5’或3’裂解可能会或可能不会分别导致位于脱碱基位点的5’或3’侧的磷酸基团的保留，这取决于所使用的片段化剂)。裂解可在脱碱基位点的5’侧(如内切核酸酶IV处理，其通常导致骨架在紧邻脱碱基位点的5’侧的位置处在脱碱基残基的5’磷酸基团与相邻核苷酸的脱氧核糖环之间裂解，从而在相邻核苷酸上产生游离的3’羟基)，使得脱碱基位点位于所获得的片段的5’端。裂解也可在脱碱基位点的3’侧(例如，在脱碱基残基的脱氧核糖环和3’-磷酸基团与相邻核苷酸的脱氧核糖环之间裂解，从而在相邻核苷酸的脱氧核糖环上产生游离的5’磷酸基团)，使得脱碱基位点位于所获得的片段的3’端。在碱性条件下或用胺(诸如N,N'-二甲基乙二胺)处理导致磷酸二酯骨架在紧邻脱碱基位点的3’侧裂解。此外，更复杂的裂解形式也是可能的，例如，导致磷酸二酯骨架的裂解和脱碱基核苷酸(的一部分)的裂解的裂解。例如，在某些条件下，采用化学处理和/或热处理进行的裂解可包括β-消除步骤，该步骤导致在脱碱基位点脱氧核糖环与其3’磷酸之间的键的断裂，从而产生反应性α,β-不饱和醛，其可进行标记或可进一步经历裂解和环化反应。参见，例如，Sugiyama,Chem.Res.Toxicol.(1994)7:673-83；Horn,Nucl.Acids.Res.,(1988)16:11559-71。应理解，可以使用多于一种裂解方法，包括两种或更多种不同的方法，其产生多种不同类型的裂解产物(例如，在3’端包含脱碱基位点的片段和在5’端包含脱碱基位点的片段)。

骨架在脱碱基位点处的裂解可以是普遍的、特异性的或选择性的(在能够在脱碱基位点处裂解骨架的物质(例如酶)特异性地或选择性地裂解特定非规范核苷酸的碱基部分的意义上来说)，由此超过约98％、约95％、约90％、约85％或约80％的裂解处于脱碱基位点。然而，裂解的程度可以更低。因此，提及特异性裂解是示例性的。普遍的、特异性的或选择性的裂解对于在本发明的产生标记的多核苷酸片段的方法中控制片段大小是理想的。在一些实施方案中，可以选择反应条件，使得裂解反应在大量过量的试剂的存在下进行，并使其运行至反应完全，而几乎无需担心对多核苷酸的过度裂解(即，同时保持期望的片段大小，其由上述合成步骤中掺入的非规范核苷酸的间隔决定)。在其他实施方案中，裂解的程度可以更低，使得产生在末端包含脱碱基位点以及在多核苷酸片段之内或内部(即，不是在末端)包含脱碱基位点的多核苷酸片段。

在涉及磷酸二酯骨架裂解的实施方案中，用于根据本发明的方法在脱碱基位点处进行磷酸二酯骨架裂解的适当的反应介质和条件是那些允许在脱碱基位点处裂解磷酸二酯骨架的反应介质和条件。此类介质和条件是本领域技术人员已知的，并且描述于多个出版物中，如Bioorgan.Med.Chem(1991)7:2351；Sugiyama,Chem.Res.Toxicol.(1994)7:673-83；Horn,Nucl.Acids.Res.,(1988)16:11559-71)；Lindahl,PNAS(1974)71(9):3649-3653；Jendrisak,美国专利号6,190,865B1；Shida,Nucleic Acids Res.(1996)24(22):4572-76；Srivastava,J.Biol Chem.(1998)273(13):21203-209；Carey,Biochem.(1999)38:16553-60；Chem ResToxicol(1994)7:673-683。

在一些情况下，将包含脱碱基位点的核酸在含有胺的缓冲溶液(例如，25mM Tris-HCl和1-5mM镁离子)中在70℃下加热10-30分钟至95℃。或者，将1.0M哌啶(一种碱)加入到已用乙醇沉淀且经真空干燥的包含脱碱基位点的多核苷酸中。然后将溶液在90℃下加热30分钟，并冻干以去除哌啶。在另一实例中，通过使用碱性溶液，例如0.2M氢氧化钠在37℃下处理15分钟，来实现裂解。参见Nakamura(1998)CancerRes.58:222-225。在另一实例中，采用与100mM N,N'-二甲基乙二胺乙酸盐，pH 7.4在37℃下一起温育进行裂解。参见McHugh和Knowland,(1995)Nucl.Acids Res.23(10)1664-1670。

也可通过酶促手段来进行包含一个或多个脱碱基位点的输入核酸模板的裂解。例如，可使用脱嘧啶内切核酸酶或脱嘌呤内切核酸酶(统称为AP内切核酸酶)在一个或多个脱碱基位点处裂解输入核酸模板。在一些情况下，可使用I类、II类、III类或IV类AP内切核酸酶或它们的组合裂解包含一个或多个脱碱基位点的输入核酸模板。在一些情况下，通过酶促手段裂解包含一个或多个脱碱基位点的输入核酸模板可产生输入核酸模板的片段，该片段包含封端的3’端。在一些情况下，封端的3’端缺乏末端羟基。在其他情况下，封端的3’端被磷酸化。在另外其他的情况下，通过酶促手段裂解包含一个或多个脱碱基位点的输入核酸模板可产生输入核酸模板的未封端的片段。

在一些情况下，可通过使用糖基化酶和亲核物质，或糖基化酶和胺，或糖基化酶和AP内切核酸酶(诸如，例如同时使用UDG和DMED，或UDG和AP内切核酸酶)进行裂解。或者，可首先用糖基化酶处理包含一种或多种非规范核苷酸的输入核酸模板，以产生一个或多个脱碱基位点，随后用AP内切核酸酶处理或通过化学手段裂解。在一些情况下，首先进行杂交和延伸反应，然后在足够的时间之后进行裂解反应。在其他情况下，杂交和延伸反应与裂解反应同时进行。在另外其他的情况下，启动杂交和延伸反应并使其进行设定的时间段(例如，1分钟、2分钟、3分钟、5分钟、10分钟、15分钟、30分钟、1小时、2小时、3小时等)，随后启动裂解反应。在一些情况下，裂解反应的启动可终止延伸反应；在其他情况下，裂解反应及延伸反应随后可同时进行。

例如，可将大肠杆菌AP内切核酸酶IV加入到如上所述的反应条件中。AP内切核酸酶IV可与能够裂解非规范核苷酸的碱基部分的物质(如酶)同时或不同时加入。例如，AP内切核酸酶IV可与UNG同时加入或在不同时间加入。或者，可用UNG和胺同时处理模板核酸或包含模板核酸的反应混合物。适合于同时进行UNG处理和N,N'-二甲基乙二胺处理的反应混合物可包括约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40或者约50mM DMED。或者，可以在反应混合物中使用包含糖苷酶和裂合酶活性的物质来裂解输入核酸模板。

通过化学手段、酶促手段或其组合裂解输入核酸模板可产生双链产物、单链产物和部分双链体的混合物。在一些情况下，可通过本发明的一种或多种方法去除裂解反应的已裂解的产物。在一些情况下，可通过纯化去除裂解反应的已裂解的产物。例如，可通过依赖大小的纯化方法或基于亲和性的纯化方法来去除裂解反应的已裂解的产物。例如，可通过针对捕获探针的亲和杂交步骤来去除单链核酸。在一些情况下，可将捕获探针与固体基底杂交。在其他情况下，可使用对已掺入裂解反应的已裂解的产物中的标记具有亲和性的配体，通过亲和捕获步骤来去除裂解反应的已裂解的核酸产物。标记或配体可在裂解前(例如在模板核酸合成期间)、裂解过程中或裂解步骤之后掺入。在一些情况下，标记可在脱碱基位点处掺入。在其他情况下，可使用反应性部分(例如，胺或肼)，例如固定化的反应性部分(其与存在于裂解反应的已裂解的核酸产物的脱碱基位点处的反应性α,β-不饱和醛反应)，通过捕获步骤来去除裂解反应的已裂解的核酸产物。在一些情况下，可通过电泳或超滤去除裂解反应的已裂解的核酸产物。

在其他情况下，可通过酶促手段来去除单链产物。例如，可使用单链特异性外切核酸酶或内切核酸酶来裂解单链DNA。多种合适的单链DNA特异性外切核酸酶适用于本发明的方法，例如外切核酸酶1和外切核酸酶7。相似地，多种合适的单链DNA特异性内切核酸酶适用于本发明的方法，例如单链DNA特异性内切核酸酶是S1内切核酸酶或绿豆核酸酶。在一些情况下，可使用本领域已知的单链特异性内切核酸酶或外切核酸酶(如本文提供的那些)的任意组合来降解或去除单链产物，例如单链片段化产物或单链引物延伸产物或它们的组合。

在一些情况下，可从包含片段化的靶核酸和引物延伸产物的反应混合物中纯化本发明的方法产生的引物延伸反应产物。例如，引物延伸步骤可包括使用包含纯化标记的核苷酸，该纯化标记例如是生物素/抗生物素蛋白或任何其他合适的标记(例如，地高辛、荧光素、抗原、配体、受体或本文提供的任何核苷酸标记)。因此，可将引物延伸产物理解为包含生物素/抗生物素蛋白配体受体对或其他纯化标记的成员，而引物和模板核酸可能不包含。可进行用于去除未掺入的核苷酸的简单的纯化步骤，如醇或聚乙二醇沉淀，离子交换纯化，超滤，二氧化硅吸附或反相方法，然后可使用合适的亲和性基质(例如颗粒、珠子、膜或柱形式的，包含生物素或其衍生物、抗生物素蛋白或其衍生物、链霉亲和素或其衍生物、抗体或其衍生物或其片段、抗原、配体或受体的基质)回收引物延伸产物。或者，用于去除未掺入的核苷酸的简单的纯化步骤可以省略或在亲和纯化步骤之后进行。

在一些实施方案中，本发明的方法进一步提供了一种或多种平端双链产物的生成。在一些实施方案中，平端双链产物由不包含任何非规范核苷酸的模板生成。在其他实施方案中，双链产物由包含一种或多种非规范核苷酸的模板生成。在一些情况下，本发明的延伸步骤直接产生平端双链产物。在其他情况下，本发明的延伸步骤产生平端和非平端双链产物的混合物。在另外其他的情况下，延伸步骤不产生平端双链产物，或者不产生显著程度或量的平端双链产物。在一些情况下，引物延伸反应的非平端产物必须通过本发明的方法进一步处理，以产生平端双链产物，或将大部分的非平端产物转化为平端产物。

在一些情况下，在下游分析如高度平行测序或其他克隆或衔接子连接应用需要平端dsDNA时，通过本发明的方法产生的双链产物可通过使用单链特异性DNA外切核酸酶如外切核酸酶1、外切核酸酶7或其组合降解双链产物的突出单链末端来平端化。或者，双链产物可通过使用单链特异性DNA内切核酸酶(例如但不限于绿豆内切核酸酶或S1内切核酸酶)来平端化。或者，双链片段产物可通过使用包含单链外切核酸酶活性的聚合酶(例如T4DNA聚合酶)、包含单链外切核酸酶活性的任何其他聚合酶或其组合降解双链产物的突出单链末端来平端化。在一些情况下，包含单链外切核酸酶活性的聚合酶可在包含或不包含一种或多种dNTP的反应混合物中温育。在其他情况下，可使用单链核酸特异性外切核酸酶与一种或多种聚合酶的组合对引物延伸反应的双链产物进行平端化。在另外其他的情况下，可通过补平双链产物的突出单链末端来使延伸反应的产物成为平端的。例如，可在一种或多种dNTP的存在下使这些片段与聚合酶如T4DNA聚合酶或Klenow聚合酶或其组合一起温育，来补平双链产物的单链部分。或者，可通过使用外切核酸酶和/或聚合酶的单链突出端降解反应以及在一种或多种dNTP的存在下使用一种或多种聚合酶的补平反应的组合来使双链产物成为平端的。

在一些实施方案中，本发明的方法提供了由不包含任何非规范核苷酸的模板或由包含一种或多种非规范核苷酸的模板核酸生成包含双链核酸、单链核酸以及含部分双链和部分单链部分的核酸的引物延伸产物；对模板核酸进行片段化；任选地纯化引物延伸产物；以及由单链核酸引物延伸产物和/或由包含部分双链和部分单链部分的引物延伸产物生成双链产物。本文提供了用于由部分双链产物生成双链产物的方法，包括用于对双链引物延伸产物进行平端化的方法。用于由单链引物延伸产物生成双链引物延伸产物的方法包括，例如，使一种或多种引物(诸如本文所提供的任何引物)与单链引物延伸产物退火，并用聚合酶(诸如本文提供的任何聚合酶或任何合适的聚合酶)在由一种或多种dNTP(包括标记的dNTP、规范dNTP、非规范dNTP或它们的组合)构成的反应混合物中延伸一种或多种经退火的引物。在一些情况下，在用于由单链引物延伸产物或由部分双链产物生成双链产物的反应混合物中使用的非规范核苷酸与存在于模板多核苷酸中的至少一种非规范核苷酸不同。由单链引物延伸产物生成双链引物延伸产物的方法可进一步包括，例如，使两种或更多种相邻的引物(例如本文提供的任何引物，包括随机引物(例如五聚体、六聚体、七聚体、八聚体、九聚体、十聚体、十一聚体、十二聚体、十三聚体等))与单链引物延伸产物退火，并连接相邻的引物。用于由单链引物延伸产物生成双链引物延伸产物的方法可进一步包括，例如，使一种或多种引物(例如本文提供的任何引物，包括含有随机杂交部分的引物(例如随机五聚体、六聚体、七聚体、八聚体、九聚体、十聚体、十一聚体、十二聚体、十三聚体等))与单链引物延伸产物退火，并延伸经退火的引物。在一些情况下，可使用包含链置换活性的酶(例如，依赖DNA的DNA聚合酶)进行延伸步骤。

在一些实施方案中，本发明的方法提供了将衔接子分子附接(例如，连接)至引物延伸反应的双链DNA产物，或由引物延伸反应的单链或部分双链产物所产生的双链产物。可将衔接子分子连接至包含单链突出端(包括但不限于单个、两个、三个、四个、五个、六个、七个、八个或更多个碱基的突出端)的双链DNA片段分子，或连接至包含平端的双链DNA片段分子。在一些情况下，将衔接子分子连接至已通过5’磷酸化而修饰的平端双链DNA片段分子。在一些情况下，将衔接子分子连接至已通过进行5’磷酸化并随后用一种或多种核苷酸延伸3’端而修饰的平端双链DNA片段分子。在一些情况下，将衔接子分子连接至已通过进行5’磷酸化并随后用单个核苷酸(或2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或更多个核苷酸)例如腺嘌呤、鸟嘌呤、胞嘧啶或胸腺嘧啶延伸3’端而修饰的平端双链DNA片段分子。在另外其他的情况下，可将衔接子分子连接至已通过用一种或多种核苷酸延伸3’端并随后进行5’磷酸化而修饰的平端双链DNA片段分子。在一些情况下，可在包含镁的合适的缓冲液中，在一种或多种dNTP的存在下，使用聚合酶(诸如，例如Klenow聚合酶或本文所提供的任何合适的聚合酶)，或者通过使用末端脱氧核苷酸转移酶，进行3’端的延伸。例如，可以在包含ATP和镁的合适的缓冲液中使用T4多核苷酸激酶进行DNA片段分子的5’端的磷酸化。

衔接子分子可包含单链或双链核酸或其组合。在一些情况下，衔接子分子在其5’端包含一个、两个、三个、四个、五个、六个、七个、八个、九个、十个、十一个、十二个、十三个、十四个、十五个、十六个、十七个、十八个、十九个、二十个或更多个碱基长度的单链突出端。例如，衔接子分子可在其5’端包含一个碱基长度的胸腺嘧啶、腺嘌呤、胞嘧啶或鸟嘌呤突出端。本文提供了衔接子分子组合物。

在一些实施方案中，本发明的方法提供了将衔接子分子连接或附接至延伸反应的单链DNA产物。衔接子分子可包含单链或双链核酸或其组合。可用T4RNA连接酶将衔接子分子连接至延伸反应的单链DNA产物，该T4RNA连接酶能够在不存在模板的情况下将两个单链核酸(RNA或DNA)连接到一起。或者，单链DNA特异性连接酶例如可在本发明的方法中使用。

在一些实施方案中，本发明的方法提供了使包含一种或多种非规范核苷酸的输入核酸模板与反应混合物接触。在一些情况下，该反应混合物可包含一种或多种如本文所提供的寡核苷酸引物。例如，该反应混合物可包含一种或多种包含随机杂交部分的寡核苷酸引物。此外，该反应混合物可包含一种或多种包含随机杂交部分的寡核苷酸引物和一种或多种包含polyT序列的寡核苷酸引物。

在一些情况下，该反应混合物可包含一种或多种如本文提供的聚合酶。例如，该反应混合物可包含一种或多种包含链置换活性的聚合酶，诸如，例如，Klenow聚合酶、exo-Klenow聚合酶、5’-3’exo-Klenow聚合酶、Bst聚合酶、Bst大片段聚合酶、Vent聚合酶、Deep Vent(exo-)聚合酶、9°Nm聚合酶、Therminator聚合酶、Therminator II聚合酶、MMulV逆转录酶、phi29聚合酶或DyNAzyme EXT聚合酶，或它们的组合。在一些情况下，可将反应混合物配置为在输入核酸模板、一种或多种寡核苷酸引物和一种或多种包含链置换活性的聚合酶的存在下提供双链产物。供本发明的组合物、方法和试剂盒使用的酶可进一步包括任何具有逆转录酶活性的酶。这样的酶包括但不限于：反转录病毒逆转录酶、反转录转座子逆转录酶、乙型肝炎逆转录酶、花椰菜花叶病毒逆转录酶、细菌逆转录酶、大肠杆菌DNA聚合酶和Klenow片段、Tth DNA聚合酶、Taq DNA聚合酶(Saiki,R.K等人,Science 239:487-491(1988)；美国专利号4,889,818和4,965,188)、Tne DNA聚合酶(WO 96/10640)、Tma DNA聚合酶(美国专利号5,374,553)、来自生氢氧化碳嗜热菌(Carboxydothermus hydrogenoformans)的C.Therm DNA聚合酶(EP0921196A1,Roche,Pleasanton,Calif.,目录号2016338)、ThermoScript(Invitrogen,Carsbad,Calif.,目录号11731-015)，及其突变体、片段、变体或衍生物。正如本领域普通技术人员会理解的，可通过本领域中常规且公知的重组或遗传工程技术来获得修饰的逆转录酶。例如，突变的逆转录酶可通过采用定点诱变或随机诱变使编码目的逆转录酶的一个或多个基因发生突变而获得。此类突变可包括点突变、缺失突变和插入突变。优选地，使用一个或多个点突变(例如，将一个或多个氨基酸置换为一个或多个不同的氨基酸)来构建本发明的突变的逆转录酶。逆转录酶的片段可通过使用本领域中常规且公知的重组技术进行缺失突变，或通过使用多种公知的蛋白水解酶中的任何蛋白水解酶对目的逆转录酶进行酶消化而获得。也可使用包含逆转录酶活性的突变的DNA聚合酶，如在美国专利申请序列号10/435,766中描述的，该专利申请通过引用并入本文。

在一些情况下，所述反应混合物可包含一种或多种能够裂解非规范核苷酸的碱基部分以产生脱碱基位点的物质。在一些情况下，该反应混合物可包含一种或多种能够在延伸反应启动时裂解非规范核苷酸的碱基部分以产生脱碱基位点的物质。在一些情况下，该反应混合物可补充有一种或多种能够在经合适的一段时间(例如，约1、2、3、4、5、10、15、20、25、30、45、60、90、120、180、240、300、400、500、600分钟)生成引物延伸产物后裂解非规范核苷酸的碱基部分以产生脱碱基位点的物质。能够裂解非规范核苷酸的碱基部分以产生脱碱基位点的合适的物质包括但不限于UDG和MPG。

在一些情况下，所述反应混合物可包含一种或多种能够在脱碱基位点处使磷酸二酯骨架断裂以使输入核酸模板被片段化的物质。在一些情况下，该反应混合物可包含一种或多种能够在延伸反应启动时在脱碱基位点处使磷酸二酯骨架断裂以使输入核酸模板被片段化的物质。在一些情况下，该反应混合物可补充有一种或多种能够在经合适的一段时间(例如，约1、2、3、4、5、10、15、20、25、30、45、60、90、120、180、240、300、400、500、600分钟)生成引物延伸产物后在脱碱基位点处使磷酸二酯骨架断裂以使输入核酸模板被片段化的物质。能够在脱碱基位点处使磷酸二酯骨架断裂以使输入核酸模板被片段化的合适的物质包括但不限于胺，如本文所提供的伯胺、仲胺、多胺，亲核物质，碱(例如，NaOH)，哌啶，热哌啶，以及一种或多种AP内切核酸酶。

本发明的方法提供了对本发明的方法所产生的引物延伸产物的下游分析。所述下游分析包括但不限于：例如焦磷酸测序、合成测序、杂交测序、单分子测序、纳米孔测序以及连接测序，高密度PCR，微阵列杂交，SAGE，数字PCR，和大规模平行Q-PCR；消减杂交；差异扩增；比较基因组杂交、文库(包括cDNA和差异表达文库)的制备；固定化核酸(其可以是固定在微阵列上的核酸)的制备，以及表征通过本发明的方法产生的扩增核酸产物，或它们的组合。

单室(single cells)上的应用

提供了单细胞测序和基因表达概况分析以用于本领域已知的多种合适的方法，例如疾病诊断或预后应用，以及作为研究工具，例如，用以鉴定新的药物靶标。感兴趣的疾病包括但不限于免疫介导的功能障碍、癌症等。在本发明的方法中，将异质的细胞混合物(例如肿瘤针吸活检物、炎性病变活检物、滑液、脊椎抽液等)随机地或以一定的顺序分配至空间上分离的单室中，例如分配至多孔板、微阵列、微流体装置或载玻片中。然后将细胞裂解，并且扩增内容物，并单独地对目的基因的测序或表达进行分析。这样分析的细胞可根据单个细胞的遗传特征(genetic signature)进行分类。这样的分类允许对测试样品的细胞组成进行准确评估，该评估可用于，例如，确定肿瘤中癌症干细胞的身份和数目；确定免疫相关细胞的身份和数目，例如T细胞、树突细胞、B细胞等的数目和特异性。

在一些实施方案中，待分析的细胞样品为原始样品，其可为新近分离的、冷冻的等。然而，待分析的细胞可以是培养的细胞。通常，该样品是细胞的异质混合物，其包含多种不同的细胞类型、不同的群体或不同的亚群，例如2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或更多种细胞类型、群体或亚群。在一些实施方案中，该样品是来自于实体瘤、白血病、淋巴瘤等的癌症样品，其可以是活检物(例如针吸活检物等)、播散性肿瘤和白血病的血液样品等等。样品可在诊断前获得，可经过一个疗程的治疗而获得，等等。

为从组织中分离细胞，可使用合适的溶液进行分散或悬浮。这样的溶液通常是适宜地补充有胎牛血清或其他天然存在的因子，并与通常为5-25mM的低浓度的可接受的缓冲液结合的平衡盐溶液，例如生理盐水、PBS、Hank平衡盐溶液等。适宜的缓冲液包括HEPES、磷酸盐缓冲液、乳酸盐缓冲液等。可将分离的细胞收集在维持细胞活力的任何合适的培养基中，通常在收集管的底部具有一层血清。多种培养基是可商购的，并且可根据细胞的性质来使用，包括通常补充有胎牛血清的dMEM、HBSS、dPBS、RPMI、Iscove培养基等。

可使用诸如Beckman MoFlo细胞分选仪、Becton Dickenson Influx或Bio-Rad S3的系统，基于表面标志物、大小等将细胞的异质混合物分选成不同的群体。

在一些实施方案中，在微阵列上分离样品中的细胞。例如，高度集成的活细胞微阵列系统可以采用多个微孔，每一个微孔刚好大到足以适合单个细胞(参见Tokimitsu等人,(2007)Cytometry Part A 71k1003:1010；和Yamamura等人,(2005)Analytical Chemistry 77:8050；每篇文献均特别地通过引用并入本文)。事先对目的细胞的富集—例如通过FACS或其他分选—是可选的，并且在一些实施方案中，将来自样品的细胞分配至离散的位置，而不进行任何事先的分选或富集。例如，可将来自样品(例如，血液样品、活检物、实体瘤)的细胞分别分离至不同的位置。通常，对于固体组织样品，对样品进行机械、化学和/或酶促分离(例如，通过用胰蛋白酶或超声处理进行处理)。可将来自样品的细胞置于任意的细胞分选装置(例如，微流体细胞分选仪)中，以致将单独的细胞分离，例如在平表面上的可寻址位置处。平表面可具有确保单个细胞分离的刻痕、屏障或其他特征。随后可根据本文所述的方法对分离的细胞进行分析。优选地，将细胞分离至不同的位置，其中每个位置包含1或0个细胞。

细胞在分离之前任选地进行分选，例如通过流式细胞术。例如，可根据存在于细胞表面上的一种或多种标志物，使用FACS分选或大小差异分选将目的细胞的初始浓度增加至少1,000、10,000、100,000倍或更多倍。这些细胞任选地根据细胞表面标志物，尤其是目的群体或亚群的标志物的存在和/或不存在而进行分选。

细胞分选仪

在将细胞分离至不同的位置内以供分析时，可使用微流体分选仪通过流式细胞术、显微术等对细胞进行分选。Fu等人(1999)NatureBiotechnology 17:1109，和Fu等人(2002)Anal.Chem.74:2451-2457描述了微制造的荧光激活细胞分选仪，每篇文献均特别地通过引用并入本文。可采用集成的微制造的细胞分选仪通过使用多层软刻蚀技术对样品进行分选。该集成的细胞分选仪可结合有多种微流体功能性，包括蠕动泵、阻尼器、转换阀以及输入和输出孔，以便以协调且自动化的方式进行细胞分选。在该集成的细胞分选仪上的致动阀的有效容积可以小至1pL，并且光学探询的容积小至100fL。与常规的FACS机器相比，微流体FACS提供了更高的灵敏度、无交叉污染和更低的成本。

可将各个细胞分离至不同的位置(例如，96孔板或微阵列地址)以供进一步分析和/或操作。例如，通过采用能够区分HSC与成熟细胞的抗体的FACS分析，对包含期望的细胞类型如造血干细胞(HSC)的细胞群体进行分选。将细胞分选至96孔板中，通过适当的方法裂解，并且通过qPCR、微阵列分析和/或测序对裂解产物进行分析。

用于单细胞分离的装置包括微流体细胞分选仪，其从细胞碎片中分离出活细胞并且从单细胞悬浮液中分选细胞。微流体装置可与来自1、2、3、4、5种或更多种不同表面标志物的荧光信号(例如，针对目标群体或亚群的标志物的标记抗体)组合使用，并且将其放置在单独的箱元(bins)中以供后续的遗传学研究。该系统中可以结合有其他的上游步骤，诸如消化肿瘤或细胞培养物以获得细胞悬浮液，以及用荧光表面标志物对细胞进行染色。待分析的细胞的数目取决于样品的异质性以及样品中的目的细胞的预期频率。通常分析至少约10²个细胞，分析至少约10³、至少5×10³、至少约10⁴、至少约10⁵、至少约10⁶、至少约10⁷、至少约10⁸、至少约10⁹、至少约10¹⁰、至少约10¹¹、至少约10¹²、至少约10¹³、至少约10¹⁴、至少约10¹⁵个或更多个细胞。

在一些情况下，单细胞分析装置(SCAD)是模块化的并且可执行多个步骤，例如组织的消化，从碎片中分离活细胞，染色，或者以集成的、完全自动化的方式进行分选。

可将分选的细胞单独裂解以进行细胞的遗传(RNA，DNA)和/或蛋白质组成的分析。可将mRNA捕获于寡聚dT珠的柱子上、在珠子上逆转录、处理离开芯片、转移至宏观孔中，等等。任选地，在分析之前预扩增DNA或RNA。预扩增可以是对整个基因组或转录组或它们的一部分(例如，目的基因/转录物)的扩增。可将多核苷酸样品转移至芯片以进行分析(例如，通过qRT-PCR)并确定表达概况。

核酸样品包括多个或一群不同的核酸，这些核酸可包括单个细胞中目的表型决定性基因的表达信息。核酸样品可包括RNA或DNA核酸，例如，mRNA、cRNA、cDNA等。可通过任何方便的用于确定两个样品之间的差异基因表达的手段，例如mRNA、标记的mRNA、扩增的mRNA、cRNA等的定量杂交，定量PCR等，来产生表达概况。分析受试者或患者的样品，例如，细胞或其集合体，例如组织。通过如本领域已知的任何方便的方法采集样品。

如本领域已知的，可以以多种不同的方式制备样品，例如，通过从单细胞中分离mRNA，其中将分离的mRNA原样使用，扩增，用于制备cDNA、cRNA等，如差异表达领域中已知的(例如，参见Marcus等人,Anal.Chem.(2006)；78(9):3084-89)。可以由收获自受试者的任何组织(例如，病变或肿瘤组织)制备样品。对样品的分析可用于任何目的(例如，诊断、预后、分类、示踪和/或正在开发中的疗法)。细胞可以在分析前培养。

可通过使用任何常规的方案由初始核酸样品产生表达概况。尽管已知产生表达概况的多种不同的方式，例如在差异基因表达分析领域中采用的那些方式，但用于产生表达概况的一种具有代表性的便利的方案类型是定量PCR(QPCR或QT-PCR)。可以使用任何用于进行QPCR的可用的方法，例如，如在Valera等人,/.Neurooncol.(2007)85(1):l-10中所述的。

细胞的分选

具有选定的性质的细胞，例如具有选定的表面蛋白质的细胞、具有破坏的细胞膜的细胞、受病原体感染的细胞、濒死的细胞或死细胞，可通过本领域中公知的多种技术，包括细胞分选，尤其是荧光激活细胞分选(FACS)，通过使用与基底(例如，塑料表面，如在淘选中)结合的亲和试剂，或通过使用与可基于珠子(例如，有色胶乳珠或磁性颗粒)的性质而分离的固相颗粒结合的亲和试剂在样品中检测到。自然，用于检测细胞的程序将取决于细胞已被如何标记。在一个实例中，可使用具有用于细胞分选仪的合适特性的任何可检测物质(例如，在荧光染料，可被分选仪的光源激发的染料，以及可被细胞分选仪的检测器检测到的发射光概况的情况下)。在流式细胞术中，激光束被投射穿过包含细胞或其他颗粒的液体流，该细胞或其他颗粒被聚焦光击中时发出信号，该信号被检测器拾获。这些信号随后被转换以用于计算机存储和数据分析，并且可提供关于多种细胞特性的信息。由合适的染料标记的细胞被激光束激发，并发射特征波长的光。这种发射的光被检测器拾获，并且这些模拟信号被转换成数字信号，从而允许其存储、分析和显示。

许多较大的流式细胞仪也是“细胞分选仪”，例如荧光激活细胞分选仪(FACS)，并且是具有从特定群体中选择性地沉积细胞至管中或其他收集容器中的能力的仪器。在一个特别优选的实施方案中，使用FACS分离细胞。这一程序是本领域公知的，并描述于例如下列文献中：Melamed等人,Flow Cytometry and Sorting,Wiley-Liss,Inc.,(1990)；Shapiro,Practical Flow Cytometry,第四版,Wiley-Liss,Inc.,(2003)；以及Robinson等人,Handbook of Flow Cytometry Methods,Wiley-Liss,Inc.(1993)。

为了分选细胞，当通过激光束探询每个细胞时，仪器电子设备对针对每个细胞收集的信号进行解析(interpret)，并将该信号与计算机上设置的分选标准进行比较。如果细胞符合所需的标准，则将电荷施加到正被精确地破碎成包含细胞的液滴的液体流上。该电荷恰好在目的细胞即将从所述流中分离出的时刻被施加到所述流上，随后在带电荷液滴从所述流中分离出时被去除。当这些液滴落下时，它们在两个带有强正或负电荷的金属板之间通过。带电荷的液滴被吸引向相反极性的金属板，并且沉积在收集容器中，或沉积到显微镜载玻片上，以供进一步检查。这些细胞可作为单细胞或作为多个细胞自动沉积在收集容器中，例如使用激光器，例如氩激光器(488nm)，以及例如使用装配有Autoclone单元的流式细胞仪(Coulter EPICS Altra,Beckman-Coulter,Miami,FIa.,USA)。可用于本发明方法的合适的FACS机器的其他实例包括但不限于，MoFlo^TM Highspeed细胞分选仪(Dako-Cytomation ltd)、FACS Aria^TM(Becton Dickinson)、FACS Diva(Becton Dickinson)、ALTRA^TM Hyper sort(Beckman Coulter)和Cy Flow ^TM分选系统(Partec GmbH)。

可使用固相颗粒实现从样品中富集或分选期望的细胞和/或其前体。可使用任何具有期望的性质的颗粒。例如，可使用大颗粒(例如，直径大于约90-100μm)来促进沉降。在一些情况下，该颗粒是“磁性颗粒”(即，可使用磁场收集的颗粒)。标记的细胞可保留在柱中(通过磁场保持)，而未标记的细胞直接通过并且在另一端洗脱出。磁性颗粒现通常可从多个制造商处获得，包括Dynal Biotech(Oslo,Norway)和MilteniBiotech GmbH(德国)。Al-Mufti等人(1999年)提供了磁性细胞分选(MACS)的实例。

也可使用激光捕获显微切割来通过本发明的方法在载玻片上选择性地富集所标记的树突细胞或其前体。使用激光捕获显微切割的方法是本领域已知的(参见，例如，U.S.20030227611；和Bauer等人，2002)。

靶多核苷酸

在本发明的多个不同的实施方案中，核酸用作底物以供进一步操作。输入核酸可以是DNA或复杂DNA，例如基因组DNA。输入DNA也可以是cDNA。cDNA可以由RNA例如mRNA产生。输入DNA可以是特定物种的，例如人类、葡萄、大鼠、小鼠、其他动物、植物、细菌、藻类、病毒等。输入核酸也可以来自诸如宿主-病原体、细菌群体等不同物种的基因组的混合物。输入DNA可以是由不同物种的基因组的混合物制得的cDNA。或者，输入核酸可以来自合成来源。输入DNA可以是线粒体DNA或叶绿体DNA。输入DNA也可包含由细胞质、线粒体或叶绿体mRNA、rRNA或tRNA中的一种或多种产生的cDNA。输入DNA可以是无细胞DNA。该无细胞DNA可以从例如血清或血浆样品中获得。输入DNA可以包含一种或多种染色体。例如，如果输入DNA来自人类，则该DNA可包含染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X或Y中的一种或多种。该DNA可以来自线性或环状基因组。该DNA可以是质粒DNA、粘粒DNA、细菌人工染色体(BAC)或酵母人工染色体(YAC)。输入DNA可以来自超过一个个体或生物体。输入DNA可以是双链的或单链的。输入DNA可以是染色质的一部分。输入DNA可以与组蛋白相关联。本文所述的方法可以应用于高分子量DNA，例如从组织或细胞培养物中分离的，以及高度降解的DNA，例如来自血液和尿液的无细胞DNA和/或从福尔马林固定、石蜡包埋的组织中提取的DNA。

靶多核苷酸所来源的不同样品可以包含来自相同个体的多个样品、来自不同个体的样品或其组合。在一些实施方案中，样品包含来自单个个体的多种多核苷酸。在一些实施方案中，样品包含来自两个或更多个个体的多种多核苷酸。个体是可靶多核苷酸所来源的任意生物体或其部分，其非限制性实例包括植物、动物、真菌、原生生物、原核生物(moneran)、病毒、线粒体和叶绿体。样品多核苷酸可分离自受试者，如其所来源的细胞样品、组织样品或器官样品，包括例如培养的细胞系、活检物、血液样品或含有细胞的流体样品。受试者可以是动物，包括但不限于诸如牛、猪、小鼠、大鼠、鸡、猫、狗等动物，并且通常是哺乳动物，如人类。样品也可以人工获得，如通过化学合成。在一些实施方案中，样品包含DNA。在一些实施方案中，样品包含基因组DNA。在一些实施方案中，样品包含线粒体DNA、叶绿体DNA、质粒DNA、细菌人工染色体、酵母人工染色体、寡核苷酸标签或其组合。在一些实施方案中，样品包含通过使用任意合适的引物组合和DNA聚合酶的引物延伸反应(包括但不限于聚合酶链反应(PCR)、逆转录及其组合)所产生的DNA。当用于引物延伸反应的模板是RNA时，逆转录的产物被称为互补DNA(cDNA)。可用于引物延伸反应的引物可以包含对一种或多种靶标、随机序列、部分随机序列及其组合具有特异性的序列。适于引物延伸反应的反应条件是本领域已知的。通常，样品多核苷酸包含存在于样品中的任意多核苷酸，其可包括或可以不包括靶多核苷酸。

用于核酸提取和纯化的方法是本领域所熟知的。例如，核酸可以通过使用苯酚、苯酚/氯仿/异戊醇或类似配方(包括TRIzol和TriReagent)的有机提取进行纯化。提取技术的其他非限制性实例包括：(1)有机提取之后进行乙醇沉淀，例如使用苯酚/氯仿有机试剂(Ausubel等人,1993)，使用或不使用自动化核酸提取仪，例如可得自Applied Biosystems(FosterCity,Calif.)的341型DNA Extractor；(2)固定相吸附法(美国专利号5,234,809；Walsh等人,1991)；和(3)盐诱导的核酸沉淀法(Miller等人,(1988))，该沉淀法通常被称为“盐析”法。核酸分离和/或纯化的另一实例包括使用可与核酸特异性或非特异性结合的磁性颗粒，随后使用磁体分离珠子，以及洗涤并从珠子上洗脱核酸(参见例如美国专利号5,705,628)。在一些实施方案中，在上述分离方法之前可进行酶消化步骤以帮助从样品中消除不需要的蛋白质，例如用蛋白酶K或其他类似蛋白酶消化。参见例如美国专利号7,001,724。如有需要，可将RNase抑制剂加入裂解缓冲液中。对于某些细胞或样品类型，可能希望在方案中增加蛋白质变性/消化步骤。纯化方法可涉及分离DNA、RNA或此两者。当DNA和RNA两者在提取步骤过程中或在提取步骤后被一起分离时，可采用进一步的步骤将一种或两种单独地从另一种中纯化。也可以产生所提取的核酸的亚组分，例如，根据大小、序列或其他物理或化学特征进行纯化。除了起始核酸分离步骤之外，还可以在本发明方法的任意步骤之后进行核酸的纯化，如用于去除过量或不需要的试剂、反应物或产物。

适于分析的单细胞

包含核酸或单细胞的样品可从生物来源获得，并可使用本领域中已知的常规方法制备。特别地，可用于本文所述方法的DNA或RNA可提取和/或扩增自任何来源，包括细菌、原生动物、真菌、病毒、细胞器以及高等生物如植物或动物，例如，哺乳动物，尤其是人类。合适的核酸也可以从环境来源(例如，池塘水)、从人造产品(例如，食品)、从法医样品等中获得。核酸可通过多种标准技术中的任意技术从细胞、体液(例如，血液、血液的一部分、尿液等)或组织样品中提取或扩增。细胞可进行培养或来自初级分离物如临床样品。示例性样品包括血浆、血清、脊髓液、淋巴液、腹水、胸水、口液以及皮肤外部的样品；来自呼吸道、肠道、生殖道和尿道的样品；泪液、唾液、血细胞、干细胞或肿瘤的样品。例如，胎儿DNA样品可从胚胎(例如，从一个或一些胚胎或胎儿细胞)或从母体血液中获得。样品可从活的或死的生物体或从体外培养物中获得。示例性样品可包括单细胞、石蜡包埋的组织样品以及针吸活检物。可用于本文所述方法的核酸也可来自于一个或多个核酸文库，包括cDNA、粘粒、YAC、BAC、P1、PAC文库等。

样品可以反映特定的状态，例如，细胞增殖、细胞分化、细胞死亡、疾病、暴露于刺激物，和/或阶段，例如，发育阶段。

在具体的实施方案中，可对来自植入前胚胎的单细胞、干细胞、疑似癌细胞、来自病原性生物的细胞和/或从犯罪现场获得的细胞进行本文所述的方法。例如，可对人的卵裂球(例如，来自八细胞阶段胚胎或更晚期)进行分析，以确定基因组是否包括一个或多个遗传缺陷。

可采用本领域熟知的方法分离目的核酸，其中具体方法的选择选择基于来源、核酸的性质以及类似的因素。样品核酸不需要为纯的形式，但通常为足够纯以使本文所述方法的扩增步骤得以进行。当靶核酸是mRNA时，可通过本领域已知的标准方法以及如例如Sambrook,J.,Fritsch,E.F.和Maniatis,T.,Molecular Cloning:A Laboratory Manual.ColdSpring Harbor Laboratory Press,NY,Vol.1,2,3(1989)所述将该RNA逆转录为cDNA。随后可以根据本文描述的方法对cDNA进行分析。

在某些实施方案中，可将单细胞直接加入到合适的WGA反应混合物中并进行WGA。在其他实施方案中，可将单细胞的RNA转化为DNA(例如，cDNA)或直接扩增RNA。

片段化方法

在一些实施方案中，可将样品多核苷酸片段化成具有一个或多个特定大小范围的片段化的插入DNA分子的群体。在一些实施方案中，片段产生自起始DNA的至少约1、10、100、1000、10000、100000、300000、500000个或更多个基因组当量。可通过包括化学、酶促和机械片段化在内的本领域已知的方法来完成片段化。在一些实施方案中，片段具有约10个至约10,000个核苷酸的平均长度。在一些实施方案中，片段具有约50个至约2,000个核苷酸的平均长度。在一些实施方案中，片段具有约100-2,500个、10-1,000个、10-800个、10-500个、50-500个、50-250个或50-150个核苷酸的平均长度。在一些实施方案中，片段具有少于500个核苷酸，诸如少于400个核苷酸、少于300个核苷酸、少于200个核苷酸或少于150个核苷酸的平均长度。在一些实施方案中，采用机械法来完成片段化，包括使样品多核苷酸经历超声处理。在一些实施方案中，片段化包括用一种或多种酶在适于该一种或多种酶产生双链核酸断裂的条件下处理样品多核苷酸。可用于生成多核苷酸片段的酶的实例包括序列特异性和非序列特异性核酸酶。核酸酶的非限制性实例包括DNase I、片段化酶(Fragmentase)、限制性内切核酸酶、其变体及其组合。例如，在不存在Mg++和存在Mn++的情况下用DNaseI进行消化可以诱导DNA的随机双链断裂。在一些实施方案中，片段化包括用一种或多种限制性内切核酸酶处理样品多核苷酸。片段化可以产生具有5’突出端、3’突出端、平端或其组合的片段。在一些实施方案中，例如当片段化包括使用一种或多种限制性内切核酸酶时，样品多核苷酸的裂解会产生具有可预测序列的突出端。在一些实施方案中，该方法包括通过标准方法例如柱纯化或从琼脂糖凝胶中分离对片段进行大小选择的步骤。可以使用片段化方法的组合，如组合的酶促和化学方法。在特定的实例中，可以例如使用糖基化酶(尿嘧啶-DNA糖基化酶、胸腺嘧啶-DNA糖基化酶等)产生脱碱基位点，并且可使用化学方法，如通过使脱碱基位点与二甲基乙二胺(DMED)接触，来裂解脱碱基位点。

在一些实施方案中，片段化的DNA的5’和/或3’端核苷酸序列在与一种或多种衔接子寡核苷酸连接之前不进行修饰。例如，可利用通过限制性内切核酸酶进行的片段化来产生可预测的突出端，接着与一种或多种包含与DNA片段上的可预测突出端互补的突出端的衔接子寡核苷酸连接。在另一实例中，可在通过产生可预测平端的酶进行裂解之后将平端DNA片段连接至包含平端的衔接子寡核苷酸。在一些实施方案中，片段化的DNA分子在与衔接子连接之前，进行平端补齐(或“末端修复”)以产生具有平端的DNA片段。平端补齐步骤可通过与合适的酶一起温育来完成，该酶例如是既具有3’至5’外切核酸酶活性又具有5’至3’聚合酶活性的DNA聚合酶，例如T4聚合酶。在一些实施方案中，末端修复之后加入1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或更多个核苷酸，如一个或多个腺嘌呤、一个或多个胸腺嘧啶、一个或多个鸟嘌呤或一个或多个胞嘧啶，以产生突出端。可将具有突出端的DNA片段连接至一种或多种具有互补的突出端的衔接子寡核苷酸，例如在连接反应中。例如，可使用独立于模板的聚合酶向末端修复的DNA片段的3’端添加单个腺嘌呤，随后连接至一种或多种各自在3’端具有胸腺嘧啶的衔接子。在一些实施方案中，可将衔接子寡核苷酸连接至平端双链DNA片段分子，该平端双链DNA片段分子已通过用一种或多种核苷酸延伸3’端随后进行5’磷酸化而修饰。在一些情况下，可以用聚合酶，诸如，例如Klenow聚合酶或本文所提供的任何合适的聚合酶，或者通过使用末端脱氧核苷酸转移酶，在含有镁的合适的缓冲液中，在一种或多种dNTP的存在下进行3’端延伸。在一些实施方案中，将具有平端的靶多核苷酸连接至一种或多种包含平端的衔接子。例如，可以使用T4多核苷酸激酶在含有ATP和镁的合适的缓冲液中进行DNA片段分子5’端的磷酸化。可任选地处理片段化的DNA分子以使5’端或3’端去磷酸化，例如，通过使用本领域已知的酶，如磷酸酶。

在一些实施方案中，多个独立样品中的每一个均包含至少约1pg、10pg、100pg、1ng、10ng、20ng、30ng、40ng、50ng、75ng、100ng、150ng、200ng、250ng、300ng、400ng、500ng、1μg、1.5μg、2μg或更多的核酸材料。在一些实施方案中，多个独立样品中的每一个均包含少于约1pg、10pg、100pg、1ng、10ng、20ng、30ng、40ng、50ng、75ng、100ng、150ng、200ng、250ng、300ng、400ng、500ng、1μg、1.5μg、2μg或更多的核酸。

在一些实施方案中，单个或多个样品中的每一个均包含单个多核苷酸靶标或单个基因组。

在另一个方面，本发明提供了可在上述方法中使用的组合物。本发明的组合物可包含任何一种或多种本文所述的元件。在一个实施方案中，该组合物包含多种靶多核苷酸，每种靶多核苷酸包含选自多个条码序列的一个或多个条码序列，其中所述靶多核苷酸来自两个或更多个不同的样品，并且进一步地，其中每个所述多核苷酸所来源的样品可基于包含在所述靶多核苷酸的序列中的单个条码在组合测序反应中以至少95％的准确度进行鉴定。在一些实施方案中，该组合物包含多种第一衔接子/引物寡核苷酸，其中每种所述第一衔接子/引物寡核苷酸包含多个条码序列中的至少一个，其中所述多个条码序列中的每个条码序列在至少三个核苷酸位置处不同于所述多个条码序列中的每个其他条码序列。

扩增方法

本文所述的方法、组合物和试剂盒可用于产生用于下游应用如大规模平行测序或杂交平台的扩增就绪的产物。扩增方法是本领域公知的。在一些实施方案中，扩增是指数式的，例如在通过聚合酶链反应(PCR)对DNA的特定双链序列进行的酶促扩增中。在其他实施方案中，扩增方法是线性的。在其他实施方案中，扩增方法是等温的。

因此，可以理解，本文所述的方法、组合物和试剂盒可用于直接由基因组DNA或者全部或部分转录组RNA生成扩增就绪的产物，以用于下游应用，如大规模平行测序(下一代测序方法)，大组目的序列区域的多路定量，例如通过高密度qPCR阵列和其他高度平行的定量平台(选择性大规模平行靶标预扩增)，以及产生具有富集的目的序列区域的群体的文库。本文描述的方法可用于使用多种寡核苷酸直接从复杂DNA的样品产生至少25、50、75、100、500、1000、2500、5000、10,000、25,000、50,000、100,000、500,000或1,000,000个扩增就绪的目的靶序列区域的集合。

核酸扩增的方法是本领域熟知的。在一些实施方案中，扩增方法是等温的。在其他实施方案中，扩增方法是线性的。在其他实施方案中，扩增是指数式的。

扩增

在一些实施方案中，扩增方法可以是固相扩增、聚合酶集落扩增(polony amplification)、菌落扩增、乳液PCR、珠RCA、表面RCA、表面SDA等，如本领域技术人员所认识到的。在一些实施方案中，可以使用以下扩增方法，该扩增方法导致溶液中的游离DNA分子的扩增，或仅通过DNA分子的一个末端链接(tether)到合适的基质上的DNA分子的扩增。可以使用依赖于桥式PCR的方法，在该方法中两条PCR引物附接至表面上(参见，例如，WO 2000/018957；以及Adessi等人,NucleicAcids Research(2000):28(20):E87)。在一些情况下，本发明的方法可以创建“聚合酶集落技术”或“聚合酶集落(polony)”，其指维持相同扩增子的空间群集的多重扩增(参见哈佛大学分子技术组及计算遗传学Lipper中心(Harvard Molecular Technology Group and Lipper Center forComputational Genetics)的网站)。这些包括，例如，原位聚合酶集落(Mitra和Church,Nucleic Acid Research 27,e34,1999年12月15日)、原位滚环扩增(RCA)(Lizardi等人,Nature Genetics 19,225,1998年7月)、桥式PCR(美国专利号5,641,658)、picotiter PCR(Leamon等人,Electrophoresis24,3769,2003年11月)和乳液PCR(Dressman等人,PNAS 100,8817,2003年7月22日)。

本发明的方法可进一步包括将一种或多种寡核苷酸引物与输入核酸模板杂交的步骤。该模板可任选地包含一种或多种非规范核苷酸。在一些情况下，寡核苷酸引物可包含杂交部分，该杂交部分包含随机核苷酸，诸如，例如随机二聚体、三聚体、四聚体、五聚体、六聚体、七聚体、八聚体、九聚体、十聚体、十一聚体、十二聚体、十三聚体、十四聚体或更长。在其他情况下，该杂交部分可包含非随机序列如polyT序列。在另外其他的情况下，一些寡核苷酸引物的杂交部分可包含随机核苷酸，而一些核苷酸的杂交部分包含非随机序列，如polyT或“非完全随机的序列(not so random sequences)”。在一些情况下，寡核苷酸引物的杂交部分可包含“非完全随机的序列”，诸如，例如，随机地或伪随机地引发期望的序列(例如总mRNA或其主要部分)，但不引发非期望的序列(例如rRNA)的序列集合体。

如本文所使用的，“随机引物”可以是通常包含这样一种序列的引物：该序列并非一定是基于样品中的特定或具体序列而设计，而是基于随机引物的序列(在给定的一组条件下)可与样品中的一种或多种序列杂交的统计期望(或经验观测值)而设计的。随机引物通常可以是包含随机序列的寡核苷酸或寡核苷酸的群体，其中在寡核苷酸上的给定位置处的核苷酸可以是四种核苷酸中的任意核苷酸，或者四种核苷酸中任意选定的一组核苷酸(例如四种核苷酸中的仅三种，或者四种核苷酸中的仅两种)。在一些情况下，寡核苷酸或寡核苷酸群体的所有位置可以是四种核苷酸中的任意核苷酸；在其他情况下，寡核苷酸的仅一部分位置，例如特定的区域，包含可为四种碱基中的任意碱基的位置。在一些情况下，寡核苷酸中包含可为四种碱基中的任意碱基的位置的部分为约1、2、3、4、5、6、7、8、9、10、11、12、13、14或约15-20个核苷酸的长度。在一些情况下，寡核苷酸中包含可为四种碱基中的任意碱基的位置的部分为约5-20、5-15、5-10、4-8、10-20、15-20或10-15个核苷酸的长度。在一些情况下，随机引物可包含有尾引物，该有尾引物具有包含随机序列的3’区和为包含特异性非随机序列的非杂交序列的5’区。3’区也可以包含与包含poly-T序列的区域组合的随机序列。随机引物(或其互补体)的序列可以是或可以不是天然存在的，或者可以存在于或可以不存在于目的样品的序列集合体中。单一反应混合物中多个RNA种类的扩增通常但并非必然地利用许多或大量的随机引物。如本领域中容易理解的，“随机引物”也可以指这样的引物，其为共同设计为与期望的和/或显著数目的靶序列杂交的引物群体(多种随机引物)中的成员。随机引物可以在核酸序列上的多个位点处杂交。随机引物的使用提供了用于生成与靶多核苷酸互补的引物延伸产物的方法，其并不需要提前获知靶标的精确序列。在一些实施方案中，引物的一部分是随机的，而引物的另一部分包含确定的序列。例如，在一些实施方案中，引物的3’-部分包含随机序列，而引物的5’-部分包含确定的序列。在一些实施方案中，引物的3’-随机部分包含DNA，而引物的确定的5’-部分包含RNA；在其他实施方案中，3’和5’-部分均包含DNA。在一些实施方案中，5’-部分包含确定的序列而3’-部分包含可与样品中的大量RNA(如所有的mRNA)杂交的寡聚-dT序列。

寡核苷酸引物的杂交部分可包含与多个待分析的序列或片段(诸如，例如，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、75、100、150、200、250、300、400、500、600、750、1000、10,000、15,000、20,000、25,000、30,000、40,000、50,000、60,000、75,000、100,000、150,000、200,000、250,000个或更多个序列或片段)杂交的杂交部分集合体。在一些情况下，每个片段可与一个引物杂交，在其他情况下，每个片段与平均1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或更多个寡核苷酸引物杂交。本文中提供了适合于本发明的方法的寡核苷酸引物。

寡核苷酸引物可沿它们所杂交的输入核酸模板延伸。在一些情况下，可采用聚合酶，诸如，例如本文提供的任意聚合酶(包括包含链置换活性的聚合酶)进行延伸。适用于本发明方法的示例性的依赖DNA的DNA聚合酶包括但不限于具有或没有3’-外切核酸酶活性的Klenow聚合酶、Bst DNA聚合酶、Bca聚合酶、φ29DNA聚合酶、Vent聚合酶、DeepVent聚合酶、Taq聚合酶、T4聚合酶和大肠杆菌DNA聚合酶1、其衍生物，或聚合酶的混合物。在一些情况下，聚合酶不包含5’-外切核酸酶活性。在其他情况下，聚合酶包含5’外切核酸酶活性。在一些情况下，本发明的引物延伸可使用包含强链置换活性的聚合酶例如Bst聚合酶进行。在其他情况下，本发明的引物延伸可使用包含弱链置换活性或不包含链置换活性的聚合酶进行。本领域技术人员可以认识到在引物延伸步骤中使用链置换活性的优点和缺点，以及预测哪些聚合酶可提供链置换活性(参见，例如，New England Biolabs的Polymerases)。例如，链置换活性可用于在随机引发及延伸步骤中确保全基因组或全转录组覆盖。链置换活性可进一步用于在引发及延伸步骤中生成双链扩增产物。或者，包含弱链置换活性或不包含链置换活性的聚合酶可用于在引物杂交及延伸期间生成与模板核酸杂交的单链核酸产物。

“依赖RNA的DNA聚合酶”或“逆转录酶”(“RT”)是从RNA模板合成互补的DNA拷贝的酶。所有已知的逆转录酶也具有从DNA模板制备互补的DNA拷贝的能力；因此，它们既是依赖RNA又是依赖DNA的DNA聚合酶。逆转录酶还可以具有RNase H活性。逆转录酶的一些实例为来源于莫罗尼鼠白血病病毒(MMLV-RT)、禽类成髓细胞性白细胞病毒(avian myeloblastosis virus)的逆转录酶，反转录病毒逆转录酶，反转录转座子逆转录酶，乙型肝炎逆转录酶，花椰菜花叶病毒逆转录酶，细菌逆转录酶，大肠杆菌DNA聚合酶和Klenow片段，以及Tth DNA聚合酶。引物可用于启动采用RNA和DNA模板的合成。在其他实例中，依赖DNA的DNA聚合酶也可包括依赖RNA的DNA聚合酶，如Klenow聚合酶、Bst DNA聚合酶等。

用包含链置换活性的聚合酶对杂交的寡核苷酸引物(其至少一部分可以包含随机杂交部分、非随机杂交部分、非完全随机杂交部分或它们的组合)进行的延伸可以提供双链核酸产物片段的生成。在一些情况下，用包含链置换活性的聚合酶对杂交的寡核苷酸引物(其至少一部分包含随机杂交部分)进行的延伸可以产生双链核酸产物，该产物包含在聚合反应中产生的双链核酸片段产物以及包含与一个或多个寡核苷酸引物杂交的模板核酸的双链分子的混合物。

在模板包含一种或多种非规范核苷酸的实施方案中，引物延伸反应的产物(例如，单链或双链的、部分双链的或它们的混合物)与模板核酸的区别可在于，模板核酸包含一种或多种非规范核苷酸，而引物延伸反应的产物不包含非规范核苷酸或不包含相同的一种或多种非规范核苷酸。在一些情况下，引物延伸反应的双链产物包含杂合双链体，该杂合双链体为包含一种或多种非规范核苷酸的模板核酸的单链和不包含一种或多种非规范核苷酸或者不包含相同的一种或多种非规范核苷酸的引物延伸产物的单链的双链体。在其他情况下，引物延伸反应的双链产物包含两条链，其中两条链均不包含一种或多种非规范核苷酸，或者两条链均不包含与模板核酸相同的一种或多种非规范核苷酸。

杂交的寡核苷酸引物的延伸可进行合适的一段时间。延伸反应的时段可以是数秒到数分钟到数小时中的任何时段。例如，延伸步骤可包括将反应混合物(例如本文提供的反应混合物)中的输入核酸模板与一种或多种寡核苷酸引物在适于延伸反应的温度(例如，15℃-80℃)下温育约5分钟至约24小时的一段时间。其他合适的延伸时间包括约1分钟至约8小时、约2分钟至约7小时、约3分钟至约6小时、约4分钟至约5小时、约5分钟至约4小时、约5分钟至约3小时、约5分钟至约2小时、约10分钟至约2小时、约15分钟至约2小时、约20分钟至约2小时、约30分钟至约2小时，或约30分钟至约1小时。另外其他合适的延伸时间包括1分钟、2分钟、3分钟、4分钟、5分钟、6分钟、7分钟、8分钟、9分钟、10分钟、12分钟、15分钟、20分钟、30分钟、45分钟、60分钟、1小时、1.5小时、2小时、2.5小时、3小时、3.5小时、4小时或更长时间。另外其他合适的延伸时间包括约1分钟、2分钟、3分钟、4分钟、5分钟、6分钟、7分钟、8分钟、9分钟、10分钟、12分钟、15分钟、20分钟、30分钟、45分钟、60分钟、1小时、1.5小时、2小时、2.5小时、3小时、3.5小时、4小时或更长时间。

延伸步骤可以在包含核苷酸、标记的核苷酸或其组合的反应混合物中进行。例如，杂交的寡核苷酸可通过一种或多种聚合酶，例如包含链置换活性的聚合酶或包含弱链置换活性或不包含链置换活性的聚合酶，在dNTP和氨基烯丙基dNTP的混合物的存在下，沿输入核酸模板延伸。氨基烯丙基dNTP的使用可以允许进一步标记和修饰延伸反应的产物，如双链DNA片段产物。例如，氨基烯丙基dNTP可提供生物素化、荧光素化、用Cy染料(例如，Cy3或Cy5)标记或本领域已知的任何其他核酸修饰。适于通过标记物(例如，荧光团、生色团、生物素、抗体、抗原或酶，如碱性磷酸酶或辣根过氧化物酶)的共价或非共价附接进行扩增后标记的其他修饰的核苷酸也是可适用的，其包括例如巯基、硫代磷酰基(phosphorothio)和氨基修饰的核苷酸和寡核苷酸(如美国专利号6172209、5679785和5623070中所述的，或本文提供的任何其他修饰的核苷酸)。

SPIA扩增

可以使用采用线性扩增方法如单引物等温扩增(SPIA)对目的序列区域进行的扩增。SPIA使得能够产生目的链特异性序列区域的多个拷贝，并采用单种扩增引物，从而减少了与多重寡核苷酸设计和制备相关的复杂性，使得能够使用通用扩增引物，并且可以是线性的。复杂基因组DNA样品中目的序列区域的拷贝数的定量保真度是本发明所提出的方法的高度期望的特征。

通过SPIA进行的扩增可以在允许复合引物杂交、由具有链置换活性的DNA聚合酶进行引物延伸、从RNA/DNA异源双链体上裂解RNA以及链置换的条件下发生。只要复合扩增引物与通常包含复合扩增引物序列的至少一部分的互补序列的(通过在包含RNA/DNA部分异源双链体的复合物中裂解RNA而形成的部分双链多核苷酸的)3’-单链部分杂交，复合引物杂交可处于允许特异性杂交的条件下。在SPIA中，所有步骤都是等温的(在不需要热循环的意义上来说)，尽管每个步骤的温度可能相同或可能不相同。应当理解，可基于上文提供的一般性描述来实施多个其他实施方案。例如，如本文描述和示例的，某些步骤可在温度发生变化(例如，升高或降低)时进行。

尽管在上文中仅一般性地描述了一种复合扩增引物，但应进一步理解，SPIA扩增方法可在随机引发模板多核苷酸的两种或更多种不同的第一和/或第二复合引物的存在下进行。此外，可将使用随机引发模板多核苷酸的两种或更多种不同的第一和/或第二复合引物进行的两个或更多个单独扩增反应的扩增多核苷酸产物组合。

复合扩增引物是由RNA和DNA部分组成的引物。在扩增复合引物中，RNA和DNA部分通常都与待拷贝或待扩增的扩增就绪产物中的序列互补或可与该序列杂交。在一些实施方案中，扩增复合引物的3’-部分为DNA，而复合扩增引物的5’-部分为RNA。设计复合扩增引物使得该引物从3’-DNA部分延伸以创建引物延伸产物。RNA/DNA异源双链体形式的这种引物延伸产物的5’-RNA部分对RNase H裂解敏感，从而释放多核苷酸的一部分以供另外的复合扩增引物的杂交。由具有链置换活性的DNA聚合酶进行的扩增复合引物的延伸从原始引物中释放引物延伸产物并创建多核苷酸序列的另一拷贝。反复多轮引物杂交、利用链置换DNA合成的引物延伸和RNA裂解创建了多核苷酸的链特异性序列的多个拷贝。

在一些实施方案中，复合扩增引物在扩增反应混合物中由茎-环嵌合前体引物(pro-primer)生成。扩增反应混合物可包含目标部分双链体核酸(例如目标部分双链体DNA)、嵌合茎-环前体引物、具有链置换活性的DNA聚合酶和针对RNA/DNA异源双链体中的RNA的RNase，例如RNase H。可通过RNase H在嵌合茎-环前体引物的茎处裂解RNA/DNA异源双链体的RNA部分，以产生，例如，包含3’-DNA和5’-RNA的线性复合引物。线性扩增引物可与目标部分双链体的3’-单链DNA部分(突出端)杂交，并且可通过具有链置换活性的DNA聚合酶延伸。异源双链体中杂交引物的RNA部分可被RNase H裂解，以释放引物结合位点的一部分。第二线性复合扩增引物可与释放的引物结合位点杂交，并且可沿靶DNA链延伸。先前合成的引物延伸产物(扩增产物)可被新延伸的引物取代。引物杂交、通过链置换DNA聚合酶进行的引物延伸以及对杂交引物的RNA部分的裂解的重复循环可产生靶核酸的多个拷贝。

其他扩增方法

本发明的一些方面包括多核苷酸分子或多核苷酸分子内的序列的扩增。扩增通常是指可导致形成核酸或多核苷酸分子的一个或多个拷贝或者形成核酸或多核苷酸分子的互补体的一个或多个拷贝的方法。可在本发明中使用扩增，例如，用于扩增或分析与固体表面结合的多核苷酸。例如，可以在将样品存档之后进行扩增以便分析已存档的多核苷酸。

在本发明的一些方面，使用核酸或多核苷酸的指数式扩增。这些方法通常取决于核酸或多核苷酸分子或其互补体的多个拷贝的产物催化的形成。扩增产物有时被称为“扩增子”。用于进行DNA的特异性双链序列的酶促扩增的一种这样的方法是聚合酶链反应(PCR)。这一体外扩增程序基于变性、寡核苷酸引物退火和通过嗜热模板依赖性多核苷酸聚合酶进行的引物延伸的重复循环，从而导致侧翼为引物的多核苷酸分析物的期望序列拷贝的指数式增加。将与DNA的相反链退火的两种不同的PCR引物，定位为使得一种引物的聚合酶催化的延伸产物可作为另一种引物的模板链，从而导致分立的双链片段的累积，该片段的长度由寡核苷酸引物的5’端之间的距离来限定。可在所提供的本发明的方法中使用的其他扩增技术包括，例如，AFLP(扩增片段长度多态性)PCR(参见，例如：Vos等人,1995.AFLP:a new technique for DNA fingerprinting.Nucleic Acids Research 23:4407-14)、等位基因特异性PCR(参见，例如，Saiki R K,Bugawan T L,Horn G T,Mullis K B,Erlich H A(1986).Analysis of enzymatically amplified beta-globin and HLA-DQ alpha DNAwith allele-specific oligonucleotide probes Nature 324:163-166)、Alu PCR、装配PCR(参见，例如，Stemmer W P,Crameri A,Ha K D,Brennan T M,Heyneker H L(1995).Single-step assembly of a gene and entire plasmidfrom large numbers of oligodeoxyribonucleotides Gene 164:49-53)、非对称PCR(参见，例如，Saiki R K，同上)、集落PCR、依赖解旋酶的PCR(参见，例如，Myriam Vincent,Yan Xu和Huimin Kong(2004).Helicase-dependent isothermal DNA amplification EMBO reports 5(8):795-800)、热启动PCR、反向PCR(参见，例如，Ochman H,Gerber A S,Hartl D L.Genetics.1988年11月；120(3):621-3)、原位PCR、序列间特异性PCR(intersequence-specific PCR)或IS SR PCR、数字PCR、指数后线性PCR(linear-after-the-exponential-PCR)或后期PCR(Late PCR)(参见，例如，Pierce K E和Wangh L T(2007).Linear-after-the-exponentialpolymerase chain reaction and allied technologies Real-time detectionstrategies for rapid,reliable diagnosis from single cells Methods Mol.Med.132:65-85)、长PCR、巢式PCR、实时PCR、双重PCR、多重PCR、定量PCR或单细胞PCR。

另一种扩增方法包括使用一种寡核苷酸引物对单链多核苷酸的扩增。待扩增的单链多核苷酸包含两个非相邻序列，它们基本上或完全彼此互补，并因此能够杂交在一起以形成茎-环结构。该单链多核苷酸可能已经是多核苷酸分析物的一部分，或者可作为多核苷酸分析物的存在的结果而创建。

用于获得核酸扩增结果的另一种方法被称为连接酶链反应(LCR)。该方法使用连接酶来连接预形成的核酸探针对。这些探针与核酸分析物(如果存在的话)的每条互补链杂交，并且采用连接酶来将每对探针结合在一起，从而产生两个模板，这两个模板在下一个循环中可用于重复迭代(reiterate)特定核酸序列。

用于实现核酸扩增的另一种方法是基于核酸序列的扩增(NASBA)。该方法是启动子引导的酶促过程，其诱导特定核酸在体外的连续、均匀及等温扩增以提供核酸的RNA拷贝。用于进行NASBA的试剂包括具有包含启动子的5’-尾的第一DNA引物、第二DNA引物、逆转录酶、RNase-H、T7RNA聚合酶、NTP和dNTP。

用于扩增一组特定的核酸的另一种方法是Q-β-复制酶方法，该方法依赖于Q-β-复制酶以指数方式扩增其RNA底物的能力。用于进行这种扩增的试剂包括“中度变异RNA(midi-variant RNA)”(可扩增的杂交探针)、NTP和Q-β-复制酶。

用于扩增核酸的另一种方法被称为3SR，且类似于NASBA，不同之处在于逆转录酶中存在RNase-H活性。通过3SR进行的扩增是一种RNA特异性靶向方法，通过该方法在组合了启动子引导的RNA聚合酶、逆转录酶和RNase H与靶RNA的等温过程中扩增RNA。参见，例如Fahy等人,PCR Methods Appl.1:25-33(1991)。

用于扩增核酸的另一种方法是由Gen-Probe使用的转录介导的扩增(TMA)。该方法与NASBA在以下方面相似：在自动维持序列复制中使用两种酶。参见美国专利号5,299,491，该专利通过引用并入本文。

用于扩增核酸的另一种方法是链置换扩增(SDA)(Westin等人,2000,Nature Biotechnology,18,199-202；Walker等人,1992,Nucleic AcidsResearch,20,7,1691-1696)，它是一种等温扩增技术，其基于限制性内切核酸酶如HincII或BsoBI使其识别位点的半硫代磷酸形式的未修饰链产生切口的能力，以及外切核酸酶缺陷型DNA聚合酶如Klenow exo minus聚合酶或Bst聚合酶在切口处延伸3’端并置换下游DNA链的能力。指数式扩增是由有义和反义反应的耦合导致的，其中从有义反应置换的链作为反义反应的靶标，反之亦然。

用于扩增核酸的另一种方法是滚环扩增(RCA)(Lizardi等人,1998,Nature Genetics,19:225-232)。RCA可用于以核酸环形式扩增单链分子。在其最简单的形式中，RCA包括单个引物与环状核酸的杂交。通过具有链置换活性的DNA聚合酶对引物的延伸导致产生串连成单个DNA链的环状核酸的多个拷贝。

在本发明的一些实施方案中，RCA与连接耦合。例如，单个寡核苷酸既可用于连接又可作为RCA的环状模板。这一类型的多核苷酸可称为“挂锁探针(padlock probe)”或“RCA探针”。对于挂锁探针，寡核苷酸的两个末端均包含与目的核酸序列内的域互补的序列。挂锁探针的第一末端与目的核酸序列上的第一域基本上互补，而挂锁探针的第二末端与第一域附近邻近第一域的第二域基本上互补。寡核苷酸与靶核酸的杂交导致形成杂交复合物。挂锁探针末端的连接导致形成包含环状多核苷酸的修饰的杂交复合物。在一些情况下，在连接之前，聚合酶可通过延伸挂锁探针的一个末端来补平间隙。这样形成的环状多核苷酸可以作为RCA的模板，其在加入聚合酶时导致形成扩增产物核酸。本文描述的本发明的方法可产生在5’端和3’端均具有确定序列的扩增产物。此类扩增产物可用作挂锁探针。

本发明的一些方面利用核酸或多核苷酸的线性扩增。线性扩增通常是指这样一种方法，其包括形成核酸或多核苷酸分子(通常为核酸或多核苷酸分析物)的仅一条链的互补体的一个或多个拷贝。因此，线性扩增与指数式扩增之间的主要差别是：在后一方法中，产物作为用于形成更多产物的底物，而在前一方法中，起始序列是用于形成产物的底物，但反应产物，即起始模板的复制的产物，并不是用于生成产物的底物。在线性扩增中，形成的产物的量作为时间的线性函数而增加，不同于其中形成的产物的量为时间的指数函数的指数式扩增。

在一些实施方案中，扩增方法可以是固相扩增、聚合酶集落扩增、菌落扩增、乳液PCR、珠RCA、表面RCA、表面SDA等，如本领域技术人员所认识到的。在一些实施方案中，可以使用以下扩增方法，该扩增方法导致溶液中的游离DNA分子的扩增，或仅通过DNA分子的一个末端链接到合适的基质上的DNA分子的扩增。可以使用依赖于桥式PCR的方法，在该方法中两条PCR引物附接至表面上(参见，例如，WO2000/018957；以及Adessi等人,Nucleic Acids Research(2000):28(20):E87)。在一些情况下，本发明的方法可以创建“聚合酶集落技术”或“聚合酶集落”，其指维持相同扩增子的空间群集的多重扩增(参见哈佛大学分子技术组及计算遗传学Lipper中心(Harvard Molecular Technology Groupand Lipper Center for Computational Genetics)的网站)。这些包括，例如，原位聚合酶集落(Mitra和Church,Nucleic Acid Research 27,e34,1999年12月15日)、原位滚环扩增(RCA)(Lizardi等人,Nature Genetics 19,225,1998年7月)、桥式PCR(美国专利号5,641,658)、picotiter PCR(Leamon等人,Electrophoresis 24,3769,2003年11月)和乳液PCR(Dressman等人,PNAS 100,8817,2003年7月22日)。本发明的方法为产生和使用聚合酶集落提供了新的方法。

用于全转录组分析的下游应用

本发明的一个重要方面是，本文公开的方法和组合物可有效并成本有效地用于下游分析，如下一代测序或杂交平台，几乎无目的生物材料的损失。具体而言，本发明的方法可用于对来自已排除或减少了rRNA内容物的NGS文库的全转录组进行测序。

测序

在一个实施方案中，本发明提供了准备用于测序的扩增就绪的产物。在一些实施方案中，将靶多核苷酸合并，随后对集合体中的一种或多种多核苷酸进行测序。利用掺有衔接子的序列的测序方法是本领域公知的，并进一步描述于例如美国专利号8,053,192和8,017,335中。

测序过程通常为模板依赖的。当在模板介导的合成反应例如引物延伸反应过程中添加单个碱基或一组碱基时，利用模板依赖性合成的核酸序列分析对所述单个碱基或一组碱基进行鉴别，其中碱基的身份与合成过程中引物序列所杂交的模板序列互补。其他这样的过程包括连接驱动的过程，其中寡核苷酸或多核苷酸与基础的(underlying)模板序列复合，从而鉴定该序列中的核苷酸序列。一般来说，此类过程是酶介导的，其使用核酸聚合酶，例如DNA聚合酶、RNA聚合酶、逆转录酶等，或其他酶，例如对连接驱动的过程而言，例如，连接酶。

使用模板依赖性合成的序列分析可以包括很多不同的过程。例如，在广泛使用的四色Sanger测序方法中，使用一组模板分子创建互补性片段序列的群体。在四种天然存在的核苷酸的存在下，用一个亚群的染料标记的终止子核苷酸例如双脱氧核糖核苷酸进行引物延伸，其中每种类型的终止子(ddATP、ddGTP、ddTTP、ddCTP)包括不同的可检测标记。结果创建了一组嵌套片段，其中该片段在超出引物的序列中的每个核苷酸处终止，并以允许鉴定终止核苷酸的方式进行标记。然后对嵌套片段群体进行基于大小的分离，例如，使用毛细管电泳，并对与每个不同大小的片段相关联的标记进行鉴定以确定终止核苷酸。结果，移动经过分离系统中的检测器的标记的序列提供了对合成片段的序列信息的直接读出，且根据互补性，也提供了对基础的模板信息的直接读出(参见，例如美国专利号5,171,534，其为了所有目的通过引用整体并入本文)。

模板依赖性测序方法的其他实例包括合成测序方法，其中单独的核苷酸在被添加至正在伸长的引物延伸产物时迭代地进行鉴定。

焦磷酸测序是合成测序方法的一个例子，其通过分析得到的合成混合物中测序反应副产物即焦磷酸的存在与否来鉴定核苷酸的掺入。具体地，使引物/模板/聚合酶复合物与单一类型的核苷酸接触。如果该核苷酸被掺入，则聚合反应裂解三磷酸链的α和β磷酸之间的核苷三磷酸，从而释放焦磷酸。然后使用化学发光酶报道系统鉴定释放的焦磷酸的存在，该化学发光酶报道系统将焦磷酸与AMP转化为ATP，然后通过使用萤光素酶产生可测定的光信号来测定ATP。当检测到光时，碱基被掺入，当检测不到光时，碱基未被掺入。在适当的洗涤步骤后，使多种不同的碱基循环地与复合物接触，以依次鉴定模板序列中的后续碱基。参见，例如美国专利号6,210,891，其为了所有目的通过引用整体并入本文。

在相关的方法中，将引物/模板/聚合酶复合物固定化于基底上，并且使该复合物与标记的核苷酸接触。复合物的固定化可通过引物序列、模板序列和/或聚合酶来进行，并且可以是共价的或非共价的。例如，复合物的固定化可通过聚合酶或引物与基底表面之间的连接来实现。该附接可使用多种连接类型，例如，包括使用例如生物素-PEG-硅烷连接化学来提供生物素化的表面成分，随后对待固定化的分子进行生物素化，然后通过例如链霉亲和素桥进行连接。其他合成偶联化学以及非特异性蛋白质吸附也可用于固定化。在可替代的构型中，提供具有和不具有可去除的终止子基团的核苷酸。一旦掺入，标记就与复合物偶联，从而是可检测的。对于携带终止子的核苷酸，使单独携带可识别标记的全部四种不同的核苷酸与复合物接触。由于终止子的存在，标记核苷酸的掺入阻止了延伸，并将标记加至复合物上。然后从掺入的核苷酸上去除标记和终止子，并在适当的洗涤步骤后重复该过程。对于非终止的核苷酸，向复合物中加入单一类型的标记核苷酸，以确定其是否将被掺入，如焦磷酸测序一样。在去除核苷酸上的标记基团和适当的洗涤步骤后，该多种不同核苷酸在相同过程中通过反应混合物进行循环。参见，例如美国专利号6,833,246，其为了所有目的通过引用整体并入本文。例如，Illumina基因组分析仪系统(Illumina Genome Analyzer System)基于通过引用并入于此的WO 98/44151中描述的技术，其中DNA分子通过锚探针结合位点(也称为流动池结合位点)与测序平台(流动池)结合并在载玻片上原位扩增。然后DNA分子与测序引物退火并使用可逆终止子方法逐个碱基地平行测序。一般而言，Illumina基因组分析仪系统使用8通道流动池，产生18-36个碱基长度的测序读取值，每轮产生>1.3Gbp的高质量数据。因此，本发明的方法可用于通过如美国专利号5,750,341、6,306,597和5,969,119所述的、由Illumina商业化的方法进行测序。使用本发明的方法制备定向(链特异性)cDNA文库，并通过例如PCR对选定的单链核酸进行扩增。然后使得到的核酸变性，并将单链扩增的多核苷酸随机地附接至流动池通道的内表面。加入未标记的核苷酸来启动固相桥式扩增以产生双链DNA的密集簇。为了启动第一碱基测序循环，加入四种标记的可逆终止子、引物和DNA聚合酶。在激光激发之后，对来自流动池上的每个簇的荧光进行成像。然后记录每个簇的第一碱基的身份。进行测序循环以便每次一个碱基地确定该片段序列。

在另一合成测序方法中，进行模板依赖性合成时对不同标记的核苷酸的掺入进行实时观察。具体地，在掺入荧光标记的核苷酸时观察单个固定化的引物/模板/聚合酶复合物，从而在每个碱基加入时允许对每个加入的碱基进行实时鉴定。在该过程中，将标记基团附接至在掺入过程中被裂解的核苷酸的一部分上。例如，通过将标记基团附接至在掺入过程中被去除的磷酸链的一部分上，即核苷多磷酸上的α、β、γ或其他末端磷酸基团上，该标记没有被掺入新生链中，而是相反，产生了天然DNA。对单个分子的观察通常涉及将复合物光学限制在非常小的照明体积内。通过光学限制该复合物，产生了监测区域，在该区域中随机扩散的核苷酸存在非常短的一段时间，而掺入的核苷酸由于其正在被掺入而在观察体积内保持较长时间。这导致与掺入事件相关联的特征信号，其特征也在于所正在添加的碱基所特有的信号谱。在相关方面，在聚合酶或复合物的其他部分和正在掺入的核苷酸上提供相互作用的标记组分，例如荧光共振能量转移(FRET)染料对，以便掺入事件使标记组分交互接近(interactive proximity)，并产生特征信号，这同样也是正在掺入的碱基所特有的(参见，例如美国专利号6,056,661、6,917,726、7,033,764、7,052,847、7,056,676、7,170,050、7,361,466、7,416,844和公开的美国专利申请号2007-0134128，其全部公开内容为了所有目的通过引用全部并入本文)。

在一些实施方案中，样品中的核酸可以通过连接进行测序。该方法使用DNA连接酶来鉴定靶序列，例如，如在聚合酶集落方法和SOLiD技术(Applied Biosystems，现为Invitrogen)中使用的那样。通常，提供所有可能的固定长度寡核苷酸的集合体，根据测序的位置对其进行标记。将寡核苷酸退火并连接；通过DNA连接酶对匹配序列的优先连接产生对应于该位置处的互补序列的信号。

因此，在一些实施方案中，本发明的方法可用于制备靶多核苷酸，以供通过由Applied Biosystems商业化的连接测序方法(例如，SOLiD测序)进行测序。在其他实施方案中，这些方法可用于制备靶多核苷酸，以供使用由454/Roche Life Sciences商业化的方法(包括但不限于在Margulies等人,Nature(2005)437:376-380(2005)和美国专利号7,244,559、7,335,762、7,211,390、7,244,567、7,264,929及7,323,305中所述的方法和装置)进行合成测序。在其他实施方案中，这些方法可用于制备靶多核苷酸，以供如美国申请序列号11/167,046和美国专利号7,501,245、7,491,498、7,276,720以及美国专利申请公开号US20090061439、US20080087826、US20060286566、US20060024711、US20060024678、US20080213770和US20080103058中所述，通过由Helicos BioSciences Corporation(Cambridge,Mass.)商业化的方法进行测序。在其他实施方案中，这些方法可用于制备靶多核苷酸，以供如美国专利号7,462,452、7,476,504、7,405,281、7,170,050、7,462,468、7,476,503、7,315,019、7,302,146、7,313,308和美国申请公开号US20090029385、US20090068655、US20090024331和US20080206764中所述，通过由Pacific Biosciences商业化的方法进行测序。通常，可以通过本发明的方法制备双链片段多核苷酸。该多核苷酸随后可固定化于零模波导阵列(zero mode waveguide array)中。该方法可包括使得与波导阵列结合的核酸成为单链或部分单链的步骤。将聚合酶和标记的核苷酸添加至反应混合物中，并且通过附接至核苷酸的末端磷酸基团的荧光标记而对核苷酸掺入进行可视化。作为核苷酸掺入的一部分，将荧光标记剪切掉。在一些情况下，使用环状模板来实现单个分子上的多次读取。

可在提供的本发明的方法中使用的测序技术的另一个实例是纳米孔测序(参见，例如Soni G V和Meller A.(2007)Clin Chem 53:1996-2001)。纳米孔可以是直径为1纳米等级的小孔。纳米孔在传导流体中的浸没以及跨纳米孔的电势的施加由于离子通过纳米孔的传导而可导致轻微的电流。流动的电流量对纳米孔的大小是敏感的。随着DNA分子通过纳米孔，DNA分子上的各个核苷酸以不同的程度阻塞纳米孔。因此，当DNA分子通过纳米孔时通过纳米孔的电流的变化可代表对DNA序列的读取。

可在提供的本发明的方法中使用的测序技术的另一个实例是由Ion Torrent提供的半导体测序(例如，使用Ion Personal Genome Machine(PGM))。Ion Torrent的技术可使用具有多个层(例如，具有微机械加工的孔的层、离子敏感性层和离子传感器层)的半导体芯片。可将核酸引入孔中，例如，可将单个核酸的克隆群体附接至单个珠上，并且可将该珠引入孔中。为了启动在珠上的核酸的测序，可将一种类型的脱氧核糖核苷酸(例如，dATP、dCTP、dGTP或dTTP)引入孔中。当通过DNA聚合酶掺入一种或多种核苷酸时，在孔中释放出质子(氢离子)，这可以通过离子传感器来检测。然后可以洗涤半导体芯片，并且可利用不同的脱氧核糖核苷酸重复该过程。可在半导体芯片的孔中对多种核酸进行测序。半导体芯片可包含化学敏感性场效应晶体管(chemFET)阵列以对DNA进行测序(例如，如美国专利申请公开号20090026082中所述)。一种或多种三磷酸在测序引物的3’端处向新核酸链中的掺入可通过用chemFET测量的电流的变化来检测。阵列可具有多个chemFET传感器。

在一些实施方案中，测序包括测序引物的延伸，该测序引物包含可与第一衔接子寡核苷酸的互补体的至少一部分杂交的序列。在一些实施方案中，测序包括测序引物的延伸，该测序引物包含可与第二衔接子寡核苷酸的互补体的至少一部分杂交的序列。测序引物可以为任何适当的长度，例如约、少于约或多于约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100个或更多个核苷酸，其任意部分或全部可以与对应的靶序列互补(例如约、少于约或多于约5、10、15、20、25、30、35、40、45、50个或更多个核苷酸)。在一些实施方案中，测序包括校正步骤，其中校正基于条码序列中一个或多个核苷酸位置处的每个核苷酸。校正可用于处理测序数据，例如，通过促进或提高序列中给定位置处的碱基的鉴定准确性。

在一些实施方案中，对于靶多核苷酸所源自的样品的准确鉴定基于为靶多核苷酸而获得的序列的至少一部分，并且其准确度为至少90％、95％、96％、97％、98％、99％、99.5％、99.8％、99.85％、99.9％、99.95％、99.99％或更高。在一些实施方案中，基于序列中所包含的单一条码对靶多核苷酸的样品来源进行鉴定。在一些实施方案中，可以通过使用序列中含有的两个或更多个条码鉴定靶多核苷酸的来源来提高准确度。可以通过将多个条码掺入到靶多核苷酸所连接的单一衔接子/引物中，和/或通过将两个或更多个具有一个或多个条码的衔接子/引物连接至靶多核苷酸，而将多个条码连接至靶多核苷酸。在一些实施方案中，含有两个或更多个条码序列的靶多核苷酸的样品来源的身份可仅使用该靶多核苷酸包含的一个条码序列准确地确定。通常，对靶多核苷酸所源自的样品的准确鉴定包括正确地鉴定来自集合体的两个或更多个样品，例如集合体中的约、少于约或多于约2、3、4、5、6、7、8、9、10、12、16、20、24、28、32、36、40、50、60、70、80、90、100、128、192、384、500、1000个或更多个样品的样品来源。

在一些实施方案中，所述方法可用于以链特异性方式从特定目的序列区域的选择性富集群体制备靶多核苷酸，以供通过本领域熟知的并在下文进一步描述的方法进行测序。

例如，所述方法可用于通过由Illumina商业化的方法进行测序，如在美国专利号5,750,341、6,306,597和5,969,119中所述。通常，可以通过本发明的方法制备双链片段多核苷酸，以产生在一端(例如(A)/(A’))或两端(例如，(A)/(A’)和(C)/(C’))标记的扩增的核酸序列。在一些情况下，通过本发明的方法(例如，通过SPIA或线性PCR)扩增在一个或两个末端标记的单链核酸。然后使获得的核酸变性，并且将扩增的单链多核苷酸随机地附接至流动池通道的内表面上。加入未标记的核苷酸以启动固相桥式扩增，从而产生双链DNA的密集簇。为了启动第一碱基测序循环，加入四种标记的可逆终止子、引物和DNA聚合酶。在激光激发后，对来自流动池上的每个簇的荧光进行成像。然后记录每个簇的第一个碱基的身份。进行测序循环以便每次一个碱基地确定该片段序列。对于配对末端测序，例如，当通过本发明的方法对多核苷酸在两端进行标记时，测序模板可在原位再生，使得也可对该片段的相对端进行测序。

试剂盒

本文所述的任何组合物均可包含在试剂盒内。在一个非限制性实例中，处于合适的容器中的试剂盒包含：一种或数种衔接子，用于连接、引物延伸和扩增的一种或多种寡核苷酸引物和试剂。试剂盒还可包含用于纯化的工具，诸如珠悬浮液和核酸修饰酶。

试剂盒的容器通常会包括至少一个小瓶、试管、烧瓶、瓶子、注射器或可将组分放置入其内和优选地适当整分(aliquot)于其内的其他容器。在试剂盒中存在多于一种组分的情况下，该试剂盒通常还会含有第二、第三容器或可将另外的组分分开放置于其中的其他另外的容器。然而，在容器中可包含组分的各种组合。

当在一种或多种液体溶液中提供试剂盒的组分时，该液体溶液可以是水溶液。然而，试剂盒的组分可作为干燥的粉末提供。当试剂和/或组分作为干粉末提供时，可通过加入合适的溶剂来重建该粉末。

在多个不同的实施方案中，根据本发明的试剂盒包括一种或多种限制性内切核酸酶，例如BspQI、连接酶、聚合酶(例如，热启动聚合酶，如MyTaq)、裂解剂、能够充当引物延伸反应的引物的探针文库，以及一种或多种非规范核苷酸，例如尿嘧啶或肌苷。在一些实施方案中，该裂解剂包含糖基化酶(例如UNG或UDG)、伯胺、多胺(例如DMED)和内切核酸酶V中的一种或多种。

在一些实施方案中，试剂盒包括以下一种或多种：在一条链上包含一种或多种非规范核苷酸并且缺乏5’磷酸的第一衔接子，缺乏所述一种或多种非规范核苷酸并且缺乏5’磷酸的第二衔接子，以及一组对衔接子序列具有特异性的引物。在一些实施方案中，第二衔接子包含限制性内切核酸酶的识别序列。

在一些实施方案中，试剂盒包括以下一种或多种：缺乏5’磷酸的第一衔接子，各自包含3’突出端并且包含双链部分内的共享序列的多个部分双链体引物，以及可与反向互补于衔接子的序列杂交的引物。在一些实施方案中，第一衔接子包含限制性内切核酸酶的识别序列。在一些实施方案中，多个部分双链体引物包含至少两个具有不相似的3’突出端序列的部分双链体引物。

在一些实施方案中，试剂盒包括以下一种或多种：缺乏5’磷酸的第一衔接子，多个部分双链体引物(其各自包含3’突出端，包含双链部分内的共享序列，并且具有3’突出端的该多个部分双链体引物的链在双链部分内的共享序列中缺乏腺嘌呤)，以及一组可与反向互补于衔接子的序列和部分双链体引物中与3’突出端相对的共享序列杂交的引物。在一些实施方案中，第一衔接子包含限制性内切核酸酶的识别序列。在一些实施方案中，多个部分双链体引物包含至少两个具有不相似的3’突出端序列的部分双链体引物。

试剂盒会优选地包括关于使用试剂盒组分以及使用未包括在该试剂盒中的任何其他试剂的说明。说明可包括可以实施的变化形式。

在一个方面，本发明提供了包含在上述方法和组合物中公开的任何一个或多个元件的试剂盒。在一些实施方案中，试剂盒在一个或多个容器中包含本发明的组合物。在一些实施方案中，本发明提供了包含本文所述的衔接子、引物和/或其他寡核苷酸的试剂盒。该衔接子、引物、其他寡核苷酸以及试剂可以是，但不限于，上文所述的任何衔接子、引物、其他寡核苷酸以及试剂。试剂盒的元件可以进一步以(但不限于)任何合适的量和/或使用上文所述的任何组合(例如在相同的试剂盒或相同的容器中)或本领域已知的任何其他合适的组合来提供。试剂盒可进一步包含供根据本发明方法使用的另外的试剂，诸如上文所述的那些试剂。试剂盒元件可在包括但不限于试管、小瓶、烧瓶、瓶子、安瓿、注射器等的任何适宜的容器中提供。试剂可以以在本发明方法中可直接使用的形式提供，或者以需要在使用前制备(如冻干制剂的重建)的形式提供。试剂可以以供一次性使用的整份形式提供，或者以可获得多次使用(例如在若干反应中)的贮存液的形式提供。

基于本发明方法的产物

基于本发明方法的产物可以由本申请人以商品名Encore CompleteProkaryotic RNA-Seq^TM进行商业化。Encore是NuGEN Technologies,Inc.的商标。

实施例

实施例1–从定向(即链特异性)全转录组文库中排除细菌核糖体RNA片段。

本实施例描述了使用靶向高度保守的原核16S和23S rRNA转录物区域的插入物依赖性衔接子裂解(InDA-C)探针，从产生自大肠杆菌总RNA的四个定向cDNA文库中排除细菌rRNA片段。

探针设计与合成

通过使用ClustalW多重序列比对程序(欧洲生物信息学研究所(European Bioinformatics Institute))比较来自一组在系统发生上不同的40个细菌菌株和10个古细菌菌株的核糖体操纵子，来设计针对原核rRNA转录物的InDA-C探针。首先从在16S rRNA(9个位点)和23S rRNA(7个位点)亚基中鉴定的高度保守序列中选择候选引物序列。将这些保守的区域通过计算进行片段化并通过Primer3进行分析(Steve Rozen和HelenJ.Skaletsky(2000),Primer3on the WWW for general users and for biologistprogrammers.In:Krawetz S,Misener S(编著)Bioinformatics Methods andProtocols:Methods in Molecular Biology.Humana Press,Totowa,NJ,pp365-386)。然后对这些序列进行过滤以获得55-65℃范围内的最佳预测解链温度和长度。单独合成对应于rRNA有义链的寡核苷酸并将其以等摩尔比例合并。最终的引物集合体由205个长度为14-18nt的寡核苷酸构成。合成一些具有一种或多种核苷酸类似物如锁核酸(LNA)碱基的引物，以提高它们各自的解链温度。将探针混合物稀释至在InDA-C排除反应中使用的最终浓度的25倍(每个种类375nM，终浓度15nM)。

链特异性cDNA文库的产生

使用Encore Complete RNA-Seq Library System(NuGENTechnologies,p/n 0311)由提取自液体培养物的100ng大肠杆菌总RNA(Life Technologies，p/n AM7940)产生四个链特异性cDNA文库，该液体培养物在丰富培养基中于对数生长中期时收获。除了将试剂盒中提供的引物替换为来自Ovation Prokaryotic RNA-Seq System(NuGENTechnologies,p/n 9030)的第一链引物之外，根据制造商的说明进行逆转录反应。根据试剂盒中提供的建议进行第二链DNA合成，并且利用Covaris S系列设备使用随仪器提供的200bp超声处理方案(10％的占空比，200次循环/爆发，强度5，180秒)对双链cDNA进行剪切。通过加入2倍体积的Ampure XP珠子(Agencourt Genomics)、使用70％乙醇洗涤两次并用15μL水洗脱来完成对片段化cDNA的纯化。使用如试剂盒中描述的末端修复反应来制备10微升各样品以供连接。用试剂盒中提供的反向衔接子和在BspQI识别位点中包含脱氧尿苷及单碱基置换的定制正向衔接子(5’-TACACTCUTTCCCUACACGACGAUCTTCCGAUCT-3’)进行连接。在链选择I反应之后，如前所述用珠子纯化样品，不同之处在于洗脱体积为25μL并且其中18μL用于后续步骤。

核糖体RNA排除

以如下三个不同的步骤从文库中选择性地排除核糖体DNA片段：1)碱基切除/rRNA-特异性引物延伸，2)反向衔接子裂解，以及3)PCR富集。通过将各18μL样品与包含1μL InDA-C rRNA探针、5μL 5X MyTaq聚合酶缓冲液、0.5μL来自Encore Complete RNA-Seq系统的链选择II酶(SS4)和0.5μL HS MyTaq聚合酶(Bioline p/n BIO-21111)的7μL主混合物合并来进行第一步。将该溶液放置在热循环仪中，加热至37℃10分钟以完成链选择并产生单链文库片段，加热至95℃2分钟以活化热启动聚合酶，冷却至50℃30秒以使rRNA探针退火，加热至65℃5分钟以使引物从插入物延伸至反向衔接子序列。将样品冷却至4℃，随后加入包含1X MyTaq聚合酶缓冲液和2.5单位的BspQI限制酶(New EnglandBiolabs p/n R0712)的25μL衔接子裂解主混合物。通过加热到55℃5分钟及加热到95℃5分钟，随后冷却至4℃，在热循环仪中进行反应。通过加入在试剂盒中提供的包含1X MyTaq聚合酶缓冲液、2.5单位的HSMyTaq聚合酶和8μL P2引物混合物的50μL 2X PCR主混合物来完成非rRNA片段的富集。将样品置于热循环仪中，加热至95℃2分钟以活化聚合酶，并使用如下两步温度程序进行扩增：95℃下30秒、60℃下90秒进行2个循环，以及95℃下30秒、65℃下90秒进行18个循环。将PCR产物使用AMPure XP珠进行纯化，并用2100Bioanalyzer(AgilentTechnologies)进行分析。在Illumina GA2X仪器上以单末端形式对文库进行测序。将原始数据使用Illumina碱基判定软件进行处理，并定位到大肠杆菌K-12(亚株MG1655)参照基因组(Genbank登录号AP009048)。预期读取值的取向为相对于RNA模板的有义链取向。

四个cDNA整分试样中仅有一个通过使用InDA-C组分的完全互补体转化为文库(测试4)。其他三个文库在缺失一种或多种InDA-C试剂的情况下进行构建(测试1、测试2和测试3)。使用随机引物由相同RNA产生的对照文库用作未排除的输入样品的基准(对照)。对照和各测试文库的定位(mapping)统计信息示于图2中。四个测试文库的表达概况的比较示于图3中。在图4中示出了通过通用原核InDA-C探针对16S rRNA位点的靶向排除。

实施例2–从基因组DNA文库中排除线粒体DNA片段。

本实施例描述了使用靶向线粒体基因组的插入物依赖性衔接子裂解(InDA-C)探针从基因组DNA文库中排除线粒体DNA片段。

探针设计与合成

在通过由UCSC Genome Browser提供的“Duke 20bp独特性(uniqueness)”轨迹(tracks)所鉴定的线粒体特异性区段内选择可与人线粒体基因组序列的hg19型式的两条链均退火的InDA-C探针。然后筛选这些序列以获得最佳的预测解链温度及长度。单独合成长度范围为20-25nt的寡核苷酸并且将其以等摩尔比例合并。将获得的探针混合物稀释至在InDA-C排除反应中使用的最终浓度的25倍(每个种类375nM，终浓度15nM)。

基因组DNA文库的产生

使用Ovation Ultralow Library System(NuGEN Technologies,SanCarlos,CA)由10ng人类男性DNA(Promega)产生DNA文库。利用Covaris S系列设备使用随仪器提供的200bp超声处理方案(10％的占空比，200次循环/爆发，强度5，180秒)对该DNA进行剪切。通过加入2倍体积的Ampure XP珠子(Agencourt Genomics)、使用70％乙醇洗涤两次并用15μL水洗脱来完成对片段化DNA的纯化。使用如试剂盒中描述的末端修复反应来制备10微升各样品以供连接。使用定制正向衔接子和Illumina TruSeq反向衔接子进行连接。正向衔接子在连接接合点(5’-AATGATACGGCGACCACCGAAGATAAGAAGAaTGAcGTcAAgTGCGATCGCAGGATAGAT-3’)附近包含AsiSI识别位点(5’-GCGATCGC-3’)。反向衔接子在连接接合点(5’-CAAGCAGAAGACGGCATACGAGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3’)附近包含BspQ1识别位点(5’-GCTCTTC-3’)。如前述用珠子纯化样品，不同之处在于洗脱体积为25μL并且其中18μL用于后续步骤。

线粒体DNA排除

以如下三个不同的步骤从文库中选择性地排除线粒体DNA片段：1)变性/线粒体特异性引物延伸，2)衔接子裂解，以及3)PCR富集。通过将各18μL样品与包含1μL InDA-C线粒体探针、5μL 5X MyTaq聚合酶缓冲液和0.5μL HS MyTaq聚合酶(Bioline p/n BIO-21111)的7μL主混合物合并来进行第一步。将该溶液放置在热循环仪中，加热至95℃10分钟以完成链分离，产生单链文库片段，并活化热启动聚合酶，冷却至50℃30秒以使rRNA探针退火，加热至65℃5分钟以使引物从插入物延伸至反向衔接子序列。将样品冷却至4℃，随后加入包含1X MyTaq聚合酶缓冲液、2.5单位的BspQI限制酶(New England Biolabs p/n R0712)和2.5单位的AsiSI限制酶(New England Biolabs p/n R0630)的25μL衔接子裂解主混合物。通过加热到40℃5分钟及加热到95℃5分钟，随后冷却至4℃，在热循环仪中进行反应。通过加入包含1X MyTaq聚合酶缓冲液、2.5单位的HS MyTaq聚合酶和8μL 10X PCR引物混合物(含有10μM正向引物(5’-AATGATACGGCGACCACCGA-3’)和10μM反向引物(5’-CAAGCAGAAGACGGCATACG-3’))的50μL 2X PCR主混合物来完成非线粒体片段的富集。将样品置于热循环仪中，加热至95℃2分钟以活化聚合酶，并使用如下两步温度程序进行扩增：95℃下30秒、60℃下90秒进行2个循环，以及95℃下30秒、65℃下90秒进行18个循环。将PCR产物使用AMPure XP珠进行纯化，并用2100Bioanalyzer(AgilentTechnologies)进行分析。在Illumina GA2X仪器上以单末端形式对文库进行测序。将原始数据使用Illumina碱基判定软件进行处理，并定位到人参照基因组。

实施例3–定向cDNA文库的产生(图5)。

本实施例描述了以修饰的双链体衔接子和50ng的poly(A)+选择的信使RNA作为起始材料，利用常规平端连接来产生定向cDNA文库。

第一链合成

使用随机六聚体引发来产生第一链cDNA。使用含有10μM随机六聚体、3.0mM MgCl₂和1.0mM dNTP的Invitrogen SuperScript III逆转录酶试剂盒进行第一链合成反应。cDNA合成反应在10μL体积中进行，在40摄氏度温育60分钟并冷却至4摄氏度。

利用dUTP掺入的第二链合成

使用New England Biolabs NEBNext第二链合成模块进行第二链合成，其中第二链合成(无dNTP)反应缓冲液中补充有含有0.2mMdATP、dCTP和dGTP以及0.54mM dUTP的dNTP混合物。通过加入65μL第二链合成主混合物并在16摄氏度下温育1小时来进行RNAse H介导的切口平移。通过加入45μL的25mM EDTA终止反应。

cDNA片段的片段化和纯化

使用Covaris S系列系统，按照制造商的说明使120μL第二链合成反应经历声波片段化，其中使用制造商推荐的设置来产生平均片段大小为150-200个碱基的片段化DNA。使用QIAquick PCR纯化试剂盒，按照制造商的说明浓缩片段化的DNA。对片段化且浓缩的DNA进行定量，并在Agilent Bioanalyzer DNA 1000芯片上运行，以确保150-200bp长度的片段分布。

末端修复

对片段化的cDNA的末端进行修复以产生具有5’磷酸和3’羟基的平端。根据Encore^TM Ultra Low Input NGS Library System I用户指南(UserGuide)说明，使用末端修复主混合物(End Repair Master Mix)对片段化的DNA进行末端修复。

利用dU标记的衔接子进行的连接

根据Encore^TM Ultra Low Input NGS Library System I用户指南说明，将双链体衔接子连接至平端cDNA片段，不同之处在于连接衔接子混合物含有一种衔接子，其中该衔接子的连接链具有至少一个掺入其中的dU。

切口修复/衔接子补平

非磷酸化的衔接子的连接留下了单链切口，该单链切口必须在链选择和扩增之前进行修复。为了补平衔接子序列并产生全长双链DNA(dsDNA)，在72摄氏度下加热反应混合物，从而导致Taq DNA聚合酶对cDNA插入物的3’端的延伸(从而补平衔接子序列)和未连接的衔接子链的解链。然后使用Agencourt RNAClean XP珠，根据Encore^TM Ultra LowInput NGS Library System I用户指南说明对具有连接的衔接子的修复的dsDNA片段进行纯化。

利用UDG/APE I处理进行的链选择

利用1单位UNG和1,000单位APE I在37℃下进行尿苷消化20分钟。dUTP向cDNA插入物的一条链和两种衔接子之一的连接链中的掺入允许选择性去除具有非期望的衔接子取向的产物。因此，用UNG/APE I处理的、具有掺入的dUTP的多核苷酸链不能经历通过聚合酶进行的扩增。

文库扩增

为了产生最终的定向cDNA文库，根据Encore ^TM Ultra Low InputNGS Library System I用户指南中的文库扩增方案，通过PCR扩增经UNG选择的片段。

实施例4–从来自根据大小分选的细胞的基因组DNA文库中排除核糖体RNA片段

在Beckman MoFlo细胞分选仪上将来自人血液样品的细胞根据表面标志物分选为不同的群体，并且将这些群体中的个体进行分离并使用NuGEN的Prelude Direct Lysis Module根据制造商的建议进行裂解。

使用获得的含有RNA的溶液作为输入物，输入至NuGEN的Whole Blood RNA-Seq中，小心进行以避免核裂解。第一链合成之后，在dUTP的存在下进行第二链合成，并将包含限制性内切核酸酶识别序列的衔接子连接并补平。通过UNG处理降解第二链。将反应混合物与设计为与被转化成cDNA的rRNA转录物中的序列退火的一组探针一起温育。

使用DNA聚合酶将杂交的探针一直延伸至衔接子序列，从而在非期望的核酸上产生双链衔接子，其包含限制性内切核酸酶识别序列。并非探针靶标的核酸上的衔接子仍然是单链。用限制酶消化该双链衔接子序列以去除使其无法在PCR富集步骤中扩增的衔接子。加入针对衔接子的PCR引物、主混合物和嗜热聚合酶并热循环20个循环。将获得的文库进行定量并将其加至Illumina流动池进行测序。

实施例5–在微流体系统上从基因组DNA文库中排除核糖体RNA片段

根据制造商的建议，基于使用NuGEN的Prelude Direct LysisModule裂解的表面标志物，利用Becton Dickenson Influx细胞分选仪将CD4+CD25+细胞从血液样品中分选至集合体中。

在相对于DNA结合更有利于RNA结合的条件下，将获得的含有RNA的溶液轻轻地引入到Agencourt磁珠上至最终体积为50μl。小心操作以避免细胞核裂解。然后将含有珠子的溶液加载到NuGEN的Mondrian^TM数字微流体系统Encore Complete SP柱(cartridge)中，将该柱加载至工作站并选择适当的脚本(script)。第一链合成之后，在合适的核苷酸类似物的存在下根据制造商的说明进行第二链合成，遵循制造商的说明进行片段化，与包含核苷酸类似物和限制性内切核酸酶识别序列的合适的衔接子的连接，以及链选择。在链选择之后且在PCR富集步骤之前将产物从系统中取出。将19μl柱填充液中的约1μl样品用包含设计为与人rRNA转录物中的序列退火的InDA-C探针的溶液稀释至10μl。

使用DNA聚合酶将杂交的探针一直延伸至衔接子序列，从而在非期望的核酸上产生双链衔接子，其包含限制性内切核酸酶识别序列。并非探针靶标的核酸上的衔接子仍然是单链。用限制酶消化该双链衔接子序列以去除使其无法在PCR富集步骤中扩增的衔接子(图5)。加入针对衔接子的PCR引物、主混合物和嗜热聚合酶并热循环20个循环。将获得的文库进行定量并将其加至Illumina流动池进行测序。

实施例6-从来自表达GFP的单细胞的基因组DNA文库中排除核糖体RNA片段

在FACS Vantage SE细胞分选仪(BD Biosciences,San Diego,CA,http://www.bdbiosciences.com)上，将来自人血液样品的表达GFP的细胞基于颜色分选为不同的群体。将高于GFP表达阈值的细胞分离至单独的微孔中，并使用NuGEN的Prelude Direct Lysis Module根据制造商的建议进行裂解。

将获得的含有RNA的溶液用N6或USP引物(NuGEN EncoreComplete第一链引物混合物)引发以进行第一链合成。用逆转录酶和以一定的规范核苷酸与非规范核苷酸的比例含有dUTP和dITP的核苷酸溶液对引物进行延伸，以使片段化能够达到期望的大小范围。合成之后，通过用UNG处理对cDNA进行片段化(图6)，以产生包含封端的3’端的期望大小范围的片段。

将获得的含有肌苷的cDNA产物用部分双链体寡核苷酸复合物进行引发，该复合物包含在一个3’端附加有单链DNA的8个随机核苷酸的双链结构的33个碱基(图8)。随后使用含有肌苷的cDNA产物作为模板进行3’延伸反应。在将包含限制性内切核酸酶识别序列的衔接子连接至双链分子的末端并补平以产生平端之后，用内切核酸酶V处理文库以去除肌苷残基并对cDNA产物进行片段化。将获得的在每个末端附加有衔接子序列的单链DNA与设计为与对应于rRNA序列的cDNA内的序列退火的一组探针一起温育。

使用DNA聚合酶将杂交的探针一直延伸至衔接子序列，从而在非期望的核酸上产生双链衔接子，其包含限制性内切核酸酶识别序列。并非探针靶标的核酸上的衔接子仍然是单链。用限制酶消化该双链衔接子序列以去除使其无法在PCR富集步骤中扩增的衔接子(图9)。加入针对衔接子的PCR引物、主混合物和嗜热聚合酶并热循环20个循环。将获得的文库进行定量并将其加至Illumina流动池进行测序。

实施例7-从来自表达CFP-YFP FRET系统的单细胞的基因组DNA文库中排除核糖体RNA片段

在FACS Vantage SE细胞分选仪(BD Biosciences,San Diego,CA,http://www.bdbiosciences.com)上，将表达CFP-YFP FRET系统的细胞基于FRET发射信号分选为不同的群体。将高于FRET发射阈值的细胞分离至单独的微孔中，并使用NuGEN的Prelude Direct Lysis Module根据制造商的建议进行裂解。

将得到的含有RNA的溶液用N6或USP引物(Encore Complete第一链引物混合物，NuGEN)引发以进行第一链合成。用逆转录酶和包含dUTP的核苷酸溶液对引物进行延伸。合成之后，通过用UNG处理对cDNA进行片段化(图7)，以产生期望大小范围的片段。用部分双链体寡核苷酸复合物文库引发该cDNA产物，每个复合物包含附加有单链DNA的8个随机核苷酸作为3’突出端的双链结构的33个碱基(图8)。该寡核苷酸复合物由分别在短链上包含33个核苷酸和在长链上包含41个核苷酸的2条链组成。长链中位于双链部分内的33个碱基缺乏任何腺嘌呤核苷酸。

将8碱基的随机序列与片段化的cDNA退火，并且在dUTP的存在下用DNA聚合酶进行延伸。与此同时，通过DNA聚合酶置换33个碱基的寡核苷酸从而产生平端分子。由于寡核苷酸复合物的长链的双链部分缺乏腺嘌呤，因此置换短链的延伸产物不掺有任何尿嘧啶。在将包含限制性内切核酸酶识别序列的衔接子连接至双链分子的末端并补平以产生平端之后，用UNG处理文库以对DNA进行片段化，此时掺入dU残基。将获得的在每个末端附加有衔接子序列的单链DNA与设计为与对应于rRNA序列的cDNA内的序列退火的一组探针一起温育。

实施例8-用于从文库中排除非期望的核酸片段的探针设计。

本实施例描述了使用靶向非期望的核酸片段的插入物依赖性衔接子裂解(InDA-C)探针，从不同来源的文库中排除非期望的核酸片段。

探针设计与合成

针对可能通常以高丰度见于给定的样品类型中的转录物，编译待排除的靶序列。此类转录物的实例为在大多数样品类型中的核糖体RNA(rRNA)和线粒体RNA、血液样品中的珠蛋白和植物样品中的叶绿体RNA。这些序列编译自公开的数据，如RefSeq(当可用时)，或编译自经验数据源(可从Genoscope在线获得的葡萄基因组浏览器，Denoeud等人,Annotating genomes with massive-scale RNA sequencing.GenomeBiology 2008,9:R175doi:10.1186/gb-2008-9-12-r175:http://www.genoscope.cns.fr/externe/GenomeBrowser/Vitis/)，葡萄的情况也是这样，其不具有良好注释的或完整的参照基因组。基于模板的哪条链在衔接子连接后将被保留来确定探针的取向。将每个非期望的转录物通过计算“片段化”为70个碱基的区域，并且使用PCR引物设计软件如Primer3(Steve Rozen和Helen J.Skaletsky,(2000),Primer3on the WWWfor general users and for biologist programmers.In:Krawetz S,Misener S(编著)Bioinformatics Methods and Protocols:Methods in MolecularBiology.Humana Press,Totowa,NJ,pp 365-386)探询这些区域。对于人细胞质和线粒体rRNA及人珠蛋白信使RNA，将目标解链温度设定为60℃，而对于葡萄细胞质和线粒体rRNA及葡萄叶绿体rRNA，则将目标解链温度设定为65℃。

将通过Primer3提出的引物序列针对来自相同生物体的已知转录物序列进行BLAST，以限制或消除脱靶相互作用。将确定具有脱靶相互作用的探针从集合体中去除。使用标准亚磷酰胺(phosporamidite)化学方法制备引物探针寡核苷酸。

RNA和DNA序列的排除

将设计的对非期望的核酸序列(如人细胞质和线粒体rRNA、人珠蛋白mRNA、葡萄细胞质和线粒体rRNA、葡萄叶绿体rRNA)具有特异性的引物探针用于以本文所述的方式之一，如在实施例1、2、4、5、6或7(图1、5-7和9)中示例的方法之一来排除非期望的序列。对于更激烈的链排除条件，可使用较低的退火及延伸温度。简言之，将不同衔接子构型的单链核酸与设计用于排除非期望核酸的一组引物探针杂交。制备在5’端上提供限制性内切核酸酶识别序列的核酸。对引物探针进行延伸，从而在限制性内切核酸酶识别序列周围形成双链结构。在限制性内切核酸酶识别位点处裂解核酸进一步破坏了后续扩增反应(例如PCR)所针对的引物退火序列。因此，引物探针所针对的核酸无法扩增，从而富集了样品中剩余的核酸。

Claims

1.一种用于从核酸文库中排除或减少特定的非期望的核酸序列的方法，该方法包括：

a.生成包含单链DNA片段的核酸文库，该单链DNA片段在每个DNA片段的每个末端附接有固定取向的衔接子；

b.使序列特异性寡核苷酸探针与所述在每个末端附接有固定取向的衔接子的单链DNA片段退火，其中该序列特异性寡核苷酸探针被设计成与所述非期望的核酸序列互补，并且其中两个衔接子中的至少一个包含对双链DNA具特异性的限制性内切核酸酶的识别序列；

c.用DNA聚合酶延伸所述序列特异性寡核苷酸探针，从而生成包含所述非期望的核酸序列的至少一部分的双链DNA片段；

d.用对双链DNA具特异性的限制性内切核酸酶处理包含双链和单链DNA的DNA片段群体，从而在限制性内切核酸酶位点处裂解双链DNA片段；以及

e.用一组对所述衔接子序列具有特异性的引物进行PCR，从而扩增包含期望的核酸序列的DNA片段。

2.如权利要求1所述的方法，其进一步包括对扩增产物进行测序的额外步骤。

3.如权利要求1所述的方法，其中所述核酸文库来源于分选的细胞的群体。

4.如权利要求3所述的方法，其中所述核酸文库来源于单细胞。

5.如权利要求3所述的方法，其进一步包括将细胞分选到多孔板、微阵列、微流体装置或载玻片中，由此产生分选的细胞的群体。

6.如权利要求5所述的方法，其中所述分选根据细胞表面标志物来进行。

7.如权利要求5所述的方法，其中所述分选根据细胞的光学性质来进行。

8.如权利要求5所述的方法，其中所述分选根据细胞大小来进行。

9.如权利要求1所述的方法，其中所述非期望的核酸序列包含细菌核糖体RNA、线粒体DNA、人珠蛋白mRNA、人细胞质rRNA、人线粒体rRNA、葡萄细胞质rRNA、葡萄线粒体rRNA或葡萄叶绿体rRNA。

10.如权利要求1所述的方法，其中步骤d.的限制性内切核酸酶是BspQI。

11.如权利要求1所述的方法，其中所述DNA聚合酶包括热启动聚合酶。

12.如权利要求11所述的方法，其中所述DNA聚合酶是MyTaq聚合酶。

13.如权利要求1所述的方法，其中步骤a.包括以下步骤：

i.对RNA样品进行逆转录；

ii.由逆转录的RNA样品生成双链cDNA，其中四种dNTP中的至少一种即dATP、dCTP、dGTP或dTTP在第二链合成过程中被非规范dNTP所替代，并掺入到第二链中；

iii.对双链cDNA进行末端修复；

iv.将衔接子连接到所述双链cDNA的5’端，其中衔接子链中的一条具有掺入到所述衔接子的连接链中的非规范核苷酸；

v.进行缺口修复；以及

vi.用裂解剂选择性去除所述第二链。

14.如权利要求5所述的方法，其中所述非规范核苷酸包含尿苷或肌苷。

15.如权利要求13所述的方法，其中步骤vi包括裂解一种或多种非规范核苷酸的碱基部分，从而形成脱碱基位点。

16.如权利要求13所述的方法，其中所述裂解剂包含糖基化酶。

17.如权利要求16所述的方法，其中所述糖基化酶是UNG或UDG。

18.如权利要求13所述的方法，其中所述裂解剂包含伯胺。

19.如权利要求13所述的方法，其中所述裂解剂包含多胺。

20.如权利要求19所述的方法，其中所述多胺是DMED。

21.如权利要求13所述的方法，其中所述裂解剂包含糖基化酶和多胺。

22.如权利要求13所述的方法，其中所述裂解剂包含内切核酸酶V。

23.一种将衔接子连接到核酸集合体的方法，其包括：

a.将包含含有5’磷酸的第一核酸链、含有5’磷酸以及一种或多种非规范核苷酸的第二核酸链的核酸与至少一个包含缺乏5’磷酸的第一衔接子链和缺乏5’磷酸以及一种或多种非规范核苷酸的第二衔接子链的第一衔接子连接；

b.进行3’延伸反应；以及

c.用包含一种或多种裂解试剂的物质进行裂解反应，从而裂解至少一条包含一种或多种非规范核苷酸的核酸链；其中所述一种或多种裂解剂中的一种对包含所述一种或多种非规范核苷酸的核酸链是特异性的。

24.如权利要求23所述的方法，其进一步包括将所述核酸与第二衔接子连接，该第二衔接子包含缺乏5’磷酸的第三衔接子链和缺乏5’磷酸以及一种或多种非规范核苷酸的第四衔接子链，其中所述第一和第二衔接子是不同的。

25.如权利要求23或24所述的方法，其中所述核酸在每个末端与第一或第二衔接子连接。

26.如权利要求23所述的方法，其中所述非规范核苷酸选自尿嘧啶和肌苷。

27.如权利要求23所述的方法，其中步骤c包括裂解所述一种或多种非规范核苷酸的碱基部分，从而形成脱碱基位点。

28.如权利要求23所述的方法，其中所述一种或多种裂解试剂包含糖基化酶。

29.如权利要求28所述的方法，其中所述糖基化酶是UNG或UDG。

30.如权利要求23所述的方法，其中所述一种或多种裂解试剂包含伯胺。

31.如权利要求23所述的方法，其中所述一种或多种裂解试剂包含多胺。

32.如权利要求31所述的方法，其中所述多胺是DMED。

33.如权利要求23所述的方法，其中所述一种或多种裂解试剂包含糖基化酶和多胺。

34.如权利要求23所述的方法，其中所述一种或多种裂解试剂包含内切核酸酶V。

35.如权利要求24所述的方法，其进一步包括进行包含第一引物和第二引物的扩增反应，从而生成扩增产物，其中所述第一引物能与第一衔接子链杂交且所述第二引物能与第四衔接子链杂交。

36.如权利要求23-35中任一项所述的方法，其中所述第一衔接子包含对双链DNA具特异性的限制性内切核酸酶的识别序列。

37.如权利要求36所述的方法，其进一步包括：

d.使探针与所述第一核酸链上的序列杂交，

e.用DNA聚合酶延伸所述探针，从而产生部分双链体核酸，及

f.用对双链DNA具特异性的限制性内切核酸酶处理所述部分双链体核酸，从而在识别序列处裂解双链DNA片段。

38.如权利要求37所述的方法，其进一步包括用一组对所述衔接子序列具有特异性的引物进行PCR，从而扩增所述核酸集合体中的至少一个第二核酸。

39.如权利要求38所述的方法，其中所述第二核酸缺乏步骤d中的序列。

40.如权利要求38所述的方法，其进一步包括对所述第二核酸的一部分进行测序。

41.如权利要求23所述的方法，其中所述核酸通过以下步骤生成：

i.在RNA上进行第一链合成，从而形成第一链合成产物；及

ii.在非规范核苷酸的存在下在所述第一链上进行第二链合成，从而形成第二链合成产物。

42.如权利要求41所述的方法，其进一步包括选择性裂解所述RNA。

43.如权利要求42所述的方法，其中选择性裂解RNA包括用RNAseH进行处理。

44.如权利要求41所述的方法，其进一步包括：

iii.对所述第一和第二链合成产物进行片段化，从而生成片段化的第一和第二链合成产物；

iv.进行末端修复；及

v.进行5’磷酸化。

45.如权利要求23所述的方法，其中所述核酸集合体来源于分选的细胞的群体。

46.如权利要求45所述的方法，其中所述核酸集合体来源于单细胞。

47.如权利要求45所述的方法，其进一步包括将细胞分选到多孔板、微阵列、微流体装置或载玻片中，由此产生分选的细胞的群体。

48.如权利要求47所述的方法，其中所述分选根据细胞表面标志物来进行。

49.如权利要求47所述的方法，其中所述分选根据细胞的光学性质来进行。

50.如权利要求47所述的方法，其中所述分选根据细胞大小来进行。

51.如权利要求23所述的方法，其中所述核酸集合体包含细菌核糖体RNA、线粒体DNA、人珠蛋白mRNA、人细胞质rRNA、人线粒体rRNA、葡萄细胞质rRNA、葡萄线粒体rRNA或葡萄叶绿体rRNA。

52.如权利要求36所述的方法，其中所述限制性内切核酸酶是BspQI。

53.如权利要求23所述的方法，其中所述3’延伸反应使用热启动聚合酶来进行。

54.如权利要求53所述的方法，其中所述3’延伸反应使用MyTaq聚合酶来进行。

55.一种进行衔接子连接以创建包含期望的和非期望的核酸的链保留核酸文库的方法，其包括：

a.将模板集合体与各自包含3’突出端的多个部分双链体引物混合，该模板集合体包含含有一种或多种非规范核苷酸的非期望的核酸和含有一种或多种非规范核苷酸的期望的核酸，

b.使所述多个部分双链体引物与所述模板退火；

c.沿模板进行引物延伸反应，从而形成各自包含引物延伸产物的双链核酸；

d.将衔接子连接至引物延伸产物的至少一个5’端；及

e.用对包含所述一种或多种核苷酸的核酸具有特异性的裂解剂从所述双链核酸上裂解模板。

56.如权利要求55所述的方法，其中所述多个部分双链体引物包含至少两个具有不相似的3’突出端序列的部分双链体引物。

57.如权利要求55或56所述的方法，其中所述多个部分双链体引物包含双链部分内的共享序列。

58.如权利要求55所述的方法，其进一步包括以下步骤，该步骤包括沿所述衔接子进行引物延伸反应。

59.如权利要求55所述的方法，其中步骤e包括裂解所述一种或多种非规范核苷酸的碱基部分，从而形成脱碱基位点。

60.如权利要求55所述的方法，其中所述裂解剂包含糖基化酶。

61.如权利要求60所述的方法，其中所述糖基化酶是UNG或UDG。

62.如权利要求55所述的方法，其中所述裂解剂包含伯胺。

63.如权利要求55所述的方法，其中所述裂解剂包含多胺。

64.如权利要求63所述的方法，其中所述多胺是DMED。

65.如权利要求55所述的方法，其中所述裂解剂包含糖基化酶和多胺。

66.如权利要求55所述的方法，其中所述裂解剂包含内切核酸酶V。

67.如权利要求55所述的方法，其中所述一种或多种非规范核苷酸包含尿嘧啶或肌苷。

68.如权利要求55所述的方法，其中所述一种或多种非规范核苷酸包含尿嘧啶和肌苷。

69.如权利要求55所述的方法，其中所述模板集合体通过以下步骤产生：

i.在所述一种或多种非规范核苷酸的存在下在RNA上进行第一链合成，从而形成第一链合成产物；

ii.以及进行片段化反应。

70.如权利要求69所述的方法，其进一步包括选择性裂解所述RNA。

71.如权利要求70所述的方法，其中选择性裂解RNA包括用RNAseH进行处理。

72.如权利要求69所述的方法，其中所述片段化反应包括采用针对所述一种或多种非规范核苷酸的裂解剂。

73.如权利要求72所述的方法，其中片段化反应包括裂解所述一种或多种非规范核苷酸的碱基部分，从而形成脱碱基位点。

74.如权利要求72所述的方法，其中所述裂解剂包含糖基化酶。

75.如权利要求74所述的方法，其中所述糖基化酶是UNG或UDG。

76.如权利要求72所述的方法，其中所述裂解剂包含伯胺。

77.如权利要求72所述的方法，其中所述裂解剂包含多胺。

78.如权利要求77所述的方法，其中所述多胺是DMED。

79.如权利要求72所述的方法，其中所述裂解剂包含糖基化酶和多胺。

80.如权利要求72所述的方法，其中所述裂解剂包含内切核酸酶V。

81.如权利要求55-80中任一项所述的方法，其中所述衔接子包含对双链DNA具特异性的限制性内切核酸酶的识别序列。

82.如权利要求81所述的方法，其进一步包括：

f.使探针与所述引物延伸产物的序列杂交；

g.用DNA聚合酶延伸所述探针，从而产生部分双链体核酸，

h.用对双链DNA具特异性的限制性内切核酸酶处理所述部分双链体核酸，从而在识别序列处裂解双链DNA片段。

83.如权利要求82所述的方法，其进一步包括用能与反向互补于所述衔接子的序列杂交的引物进行PCR，从而扩增所述模板集合体中的期望的核酸。

84.如权利要求83所述的方法，其进一步包括对所述期望的核酸的一部分进行测序。

85.如权利要求55所述的方法，其中所述模板集合体来源于分选的细胞的群体。

86.如权利要求85所述的方法，其中所述模板集合体来源于单细胞。

87.如权利要求85所述的方法，其进一步包括将细胞分选到多孔板、微阵列、微流体装置或载玻片中，由此产生分选的细胞的群体。

88.如权利要求87所述的方法，其中所述分选根据细胞表面标志物来进行。

89.如权利要求87所述的方法，其中所述分选根据细胞的光学性质来进行。

90.如权利要求87所述的方法，其中所述分选根据细胞大小来进行。

91.如权利要求55所述的方法，其中所述模板集合体包含细菌核糖体RNA、线粒体DNA、人珠蛋白mRNA、人细胞质rRNA、人线粒体rRNA、葡萄细胞质rRNA、葡萄线粒体rRNA或葡萄叶绿体rRNA。

92.如权利要求81所述的方法，其中所述限制性内切核酸酶是BspQI。

93.如权利要求55所述的方法，其中所述引物延伸反应使用热启动聚合酶来进行。

94.如权利要求93所述的方法，其中所述引物延伸反应使用MyTaq聚合酶来进行。

95.一种进行衔接子连接以创建具有期望的和非期望的核酸的链保留核酸文库的方法，其包括：

a.将包含非期望的核酸和期望的核酸的模板集合体与各自包含3’突出端的多个部分双链体引物混合；

b.使所述多个部分双链体引物与所述模板退火；

c.沿所述模板进行引物延伸反应，从而形成各自包含引物延伸产物的双链核酸；

d.将衔接子连接至所述引物延伸产物的至少一个5’端；及

e.用对包含所述一种或多种核苷酸的核酸具有特异性的裂解剂从所述双链核酸上裂解所述引物延伸产物。

96.如权利要求95所述的方法，其中所述多个部分双链体引物包含至少两个具有不相似的3’突出端序列的部分双链体引物。

97.如权利要求95或96所述的方法，其中所述多个部分双链体引物包含双链部分内的共享序列。

98.如权利要求97所述的方法，其中具有3’突出端的所述多个部分双链体引物的链在双链部分内的共享序列中缺乏腺嘌呤。

99.如权利要求95所述的方法，其进一步包括以下步骤，该步骤包括沿衔接子进行引物延伸反应。

100.如权利要求99所述的方法，其中所述引物延伸反应在一种或多种非规范核苷酸的存在下进行。

101.如权利要求95所述的方法，其中步骤e包括裂解所述一种或多种非规范核苷酸的碱基部分，从而形成脱碱基位点。

102.如权利要求95所述的方法，其中所述裂解剂包含糖基化酶。

103.如权利要求102所述的方法，其中所述糖基化酶是UNG或UDG。

104.如权利要求95所述的方法，其中所述裂解剂包含伯胺。

105.如权利要求95所述的方法，其中所述裂解剂包含多胺。

106.如权利要求105所述的方法，其中所述多胺是DMED。

107.如权利要求95所述的方法，其中所述裂解剂包含糖基化酶和多胺。

108.如权利要求95所述的方法，其中所述裂解剂包含内切核酸酶V。

109.如权利要求95或100所述的方法，其中所述一种或多种非规范核苷酸包含尿嘧啶或肌苷。

110.如权利要求95所述的方法，其中所述模板集合体通过以下步骤产生：

ii.以及进行片段化反应。

111.如权利要求110所述的方法，其进一步包括选择性裂解RNA。

112.如权利要求111所述的方法，其中选择性裂解RNA包括用RNAse H进行处理。

113.如权利要求110所述的方法，其中所述片段化反应包括采用针对所述一种或多种非规范核苷酸的裂解剂。

114.如权利要求113所述的方法，其中所述片段化反应包括裂解所述一种或多种非规范核苷酸的碱基部分，从而形成脱碱基位点。

115.如权利要求113所述的方法，其中所述裂解剂包含糖基化酶。

116.如权利要求115所述的方法，其中所述糖基化酶是UNG或UDG。

117.如权利要求113所述的方法，其中所述裂解剂包含伯胺。

118.如权利要求113所述的方法，其中所述裂解剂包含多胺。

119.如权利要求118所述的方法，其中所述多胺是DMED。

120.如权利要求113所述的方法，其中所述裂解剂包含糖基化酶和多胺。

121.如权利要求113所述的方法，其中所述裂解剂包含内切核酸酶V。

122.如权利要求95-121中任一项所述的方法，其中所述衔接子包含对双链DNA具特异性的限制性内切核酸酶的识别序列。

123.如权利要求122所述的方法，其进一步包括：

f.使探针与所述非期望的核酸的序列杂交；

g.用DNA聚合酶延伸所述探针，从而产生部分双链体核酸，

124.如权利要求123所述的方法，其进一步包括用一组引物进行PCR，从而扩增模板集合体中的期望的核酸，该组引物能够与反向互补于衔接子的序列以及所述部分双链体引物中与3’突出端相对的共享序列杂交。

125.如权利要求124所述的方法，其进一步包括对所述期望的核酸的一部分进行测序。

126.如权利要求95所述的方法，其中所述模板集合体来源于分选的细胞的群体。

127.如权利要求126所述的方法，其中所述模板集合体来源于单细胞。

128.如权利要求126所述的方法，其进一步包括将细胞分选到多孔板、微阵列、微流体装置或载玻片中，由此产生分选的细胞的群体。

129.如权利要求128所述的方法，其中所述分选根据细胞表面标志物来进行。

130.如权利要求128所述的方法，其中所述分选根据细胞的光学性质来进行。

131.如权利要求128所述的方法，其中所述分选根据细胞大小来进行。

132.如权利要求95所述的方法，其中所述模板集合体包含细菌核糖体RNA、线粒体DNA、人珠蛋白mRNA、人细胞质rRNA、人线粒体rRNA、葡萄细胞质rRNA、葡萄线粒体rRNA或葡萄叶绿体rRNA。

133.如权利要求122所述的方法，其中所述限制性内切核酸酶是BspQI。

134.如权利要求95所述的方法，其中所述引物延伸反应使用热启动聚合酶来进行。

135.如权利要求134所述的方法，其中所述引物延伸反应使用MyTaq聚合酶来进行。

136.一种试剂盒，其包含：

a.限制性内切核酸酶；

b.第一衔接子，其缺乏5’磷酸并且在一条链上包含一种或多种非规范核苷酸；

c.第二衔接子，其缺乏所述一种或多种非规范核苷酸且缺乏5’磷酸；

d.连接酶；

e.聚合酶；

f.裂解剂；

g.探针文库；和

h.一组对衔接子序列具有特异性的引物；

其中所述第二衔接子包含所述限制性内切核酸酶的识别序列。

137.一种试剂盒，其包含：

a.限制性内切核酸酶；

b.缺乏5’磷酸的第一衔接子；

c.多个部分双链体引物，各自包含3’突出端且包含双链部分内的共享序列；

d.连接酶；

e.聚合酶；

f.裂解剂；

g.能够充当引物延伸反应的引物的探针文库；和

h.能与反向互补于所述衔接子的序列杂交的引物；

其中所述第一衔接子包含所述限制性内切核酸酶的识别序列；和

其中所述多个部分双链体引物包含至少两个具有不相似的3’突出端序列的部分双链体引物。

138.一种试剂盒，其包含：

a.限制性内切核酸酶；

b.缺乏5’磷酸的第一衔接子；

c.多个部分双链体引物，其各自包含3’突出端，包含双链部分内的共享序列，并且具有3’突出端的所述多个部分双链体引物的链在双链部分内的共享序列中缺乏腺嘌呤；

d.连接酶；

e.聚合酶；

f.裂解剂；

g.能够充当引物延伸反应的引物的探针文库；和

h.一组引物，其能与反向互补于所述衔接子的序列和部分双链体引物中与3’突出端相对的共享序列杂交；

其中所述第一衔接子包含所述限制性内切核酸酶的识别序列；且

139.如权利要求136-138之一所述的试剂盒，其中所述限制性内切核酸酶是BspQI。

140.如权利要求136-138之一所述的试剂盒，其中所述聚合酶是热启动聚合酶。

141.如权利要求140所述的试剂盒，其中所述聚合酶是MyTaq。

142.如权利要求136-138之一所述的试剂盒，其进一步包含一种或多种非规范核苷酸。

143.如权利要求136-138之一所述的试剂盒，其中所述一种或多种非规范核苷酸包含尿嘧啶或肌苷。

144.如权利要求136-138之一所述的试剂盒，其中所述裂解剂包含糖基化酶。

145.如权利要求144所述的试剂盒，其中所述糖基化酶是UNG或UDG。

146.如权利要求136-138之一所述的试剂盒，其中所述裂解剂包含伯胺。

147.如权利要求136-138之一所述的试剂盒，其中所述裂解剂包含多胺。

148.如权利要求147所述的试剂盒，其中所述多胺是DMED。

149.如权利要求136-138之一所述的试剂盒，其中所述裂解剂包含糖基化酶和多胺。

150.如权利要求136-138之一所述的试剂盒，其中所述裂解剂包含内切核酸酶V。