CN102124126A

CN102124126A - 使用非随机引物的cdna合成

Info

Publication number: CN102124126A
Application number: CN2008801228338A
Authority: CN
Inventors: C·K·雷蒙德; C·阿穆尔; J·卡斯尔
Original assignee: Life Technologies Inc
Current assignee: Life Technologies Inc; Life Technologies Corp
Priority date: 2007-10-26
Filing date: 2008-10-24
Publication date: 2011-07-13
Also published as: EP2209912A1; WO2009055732A1; US20100029511A1; US20130252823A1; US20110039732A1; JP2011500092A

Abstract

本发明提供了选择性扩增RNA模板分子群中的靶核酸分子群的方法(例如，除了最高表达的mRNA种类以外，细胞类型中表达的所有mRNA分子)。本发明还提供了包括SEQ ID NO：1-749中所示的核酸序列的第一寡核苷酸群，和包括SEQID NO：750-1498中所示的核酸序列的第二寡核苷酸群。例如，第一寡核苷酸群可用于引发与从哺乳动物细胞分离的mRNA分子互补的第一链cDNA分子的合成，但不引发与核糖体RNA分子互补的cDNA分子的合成。第二寡核苷酸群可用于例如引发，与从哺乳动物细胞分离的mRNA分子互补的引物延伸产物(第一链cDNA)的第二链合成，但不引发从核糖体RNA分子合成的引物延伸产物的第二链合成。

Description

使用非随机引物的CDNA合成

发明领域

本发明涉及选择性扩增靶核酸分子的方法和用于引发靶核酸分子的扩增的寡核苷酸。

发明背景

基因表达分析通常涉及起始核酸分子的扩增。可以分别或联合应用逆转录(RT)，体外转录(IVT)或聚合酶链式反应(PCR)，进行核酸分子的扩增。起始核酸分子可以是mRNA分子，其可以通过首先合成互补cDNA分子，然后合成与第一cDNA分子互补的第二cDNA分子，从而产生双链cDNA分子来扩增。通常用逆转录酶进行第一链cDNA的合成，通常用DNA聚合酶进行第二链cDNA的合成。通过使用RNA聚合酶，双链cDNA分子可用于产生互补的RNA分子，从而扩增最初的起始mRNA分子。RNA聚合酶需要启动子序列以指导RNA合成的起始。例如，互补的RNA分子可以用作模板来产生另外的互补DNA分子。可选地，例如双链cDNA分子可以通过PCR来扩增，扩增的PCR产物可以用作测序模板或者用于微阵列分析。

核酸分子的扩增需要使用与起始材料中一个或多个靶核酸分子特异性杂交的寡核苷酸引物。每一寡核苷酸引物可以包括位于寡核苷酸的与靶核酸分子杂交的杂交部分的5’端的启动子序列。如果寡核苷酸的杂交部分太短，那么寡核苷酸将不能稳定地与靶核酸分子杂交，由此引发和随后的扩增将不能进行。同样，如果寡核苷酸的杂交部分太短，那么寡核苷酸将不能与一个或少数靶核酸分子特异性杂交，而是与大量的靶核酸分子非特异性杂交。

不同靶核酸分子的复杂混合物(例如RNA分子)的扩增，通常需要使用具有不同核酸序列的多种寡核苷酸的群体。寡核苷酸的成本随着寡核苷酸的长度增加。为了控制成本，优选制备不长于确保寡核苷酸与靶序列特异性杂交所需的最小长度的寡核苷酸引物。

通常不希望扩增高表达的RNA(例如核糖体RNA)。例如，在分析血细胞基因表达的基因表达试验中，对大量拷贝的高丰度球蛋白mRNA或者核糖体RNA的扩增，可能会使稀有mRNA的水平的微小变化不明显。因此，需要一组寡核苷酸引物，其选择性地扩增核酸分子群内的期望的核酸分子(例如，选择性扩增在细胞中表达的、除最高表达的RNA以外的所有mRNA的寡核苷酸引物)。为了降低合成寡核苷酸的群体的成本，每个寡核苷酸的杂交部分应该不长于在确定条件下确保与期望的靶序列的特异性杂交所需的长度。

发明概述

在一个方面，本发明提供了在较大的非靶核酸分子群中，选择性扩增靶核酸分子群(例如，除了最高表达的RNA种类以外，在细胞类型中表达的所有RNA分子)的方法。本发明的该方面的方法均包括以下步骤：(a)用逆转录酶和第一寡核苷酸引物群，从分离自哺乳动物受试者的样品中的RNA模板分子群合成单链引物延伸产物群，其中第一寡核苷酸引物群中的每一寡核苷酸包括杂交部分和位于杂交部分5’端的确定序列部分，其中RNA模板分子群包括靶核酸分子群和非靶核酸分子群；(b)用DNA聚合酶和第二寡核苷酸引物群，从步骤(a)的单链引物延伸产物群合成双链cDNA，其中第二寡核苷酸群中的每一寡核苷酸，包括由6，7或8个核苷酸组成的杂交部分和位于杂交部分5’端的确定序列，其中杂交部分选自具有6，7或8个核苷酸的长度，并且在确定的条件下不与合成的单链cDNA中的非靶核酸分子群杂交的所有可能的寡核苷酸。在一些实施方案中，第一寡核苷酸群中的每一寡核苷酸包括随机杂交部分和位于杂交部分5’端的确定序列。

另一方面，本发明提供了在较大的非靶核酸分子群中，选择性扩增靶核酸分子群的方法。这方面，本发明的方法包括以下步骤：(a)用逆转录酶和第一寡核苷酸引物群，从分离自哺乳动物受试者的含总RNA的样品合成单链cDNA，其中第一寡核苷酸引物群中的每一寡核苷酸包括杂交部分和位于杂交部分5’端的确定序列部分，其中杂交部分为包含SEQ ID NO：1-749的寡核苷酸群的成员；以及(b)用DNA聚合酶和第二寡核苷酸引物群，从步骤(a)合成的单链cDNA合成双链cDNA，其中第二寡核苷酸引物群中的每一寡核苷酸，包括杂交部分和位于杂交部分5’端的确定序列部分，其中杂交部分为包含SEQ ID NO：750-1498的寡核苷酸群的成员。

另一方面，本发明提供了用于转录组特征谱分析的方法。这方面，本发明的方法包括：(a)用逆转录酶和第一寡核苷酸引物群，从分离自受试者的样品中的RNA模板分子群中的靶核酸分子群合成单链引物延伸产物群，其中所述第一寡核苷酸引物群包含杂交部分和位于杂交部分5’端的第一PCR引物结合位点，(b)用DNA聚合酶和第二寡核苷酸引物群，从步骤(a)的单链引物延伸产物群合成双链cDNA，其中所述第二寡核苷酸引物群包含杂交部分和位于杂交部分5’端的第二PCR引物结合位点，以及(c)用结合第一PCR引物结合位点的第一PCR引物和结合第二PCR引物结合位点的第二PCR引物，对步骤(b)产生的双链cDNA进行PCR扩增，其中非靶核酸分子群基本上由与哺乳动物受试者相同物种的核糖体RNA和线粒体核糖体RNA组成。

另一方面，本发明提供了包含SEQ ID NO：1-749的寡核苷酸群。例如，这些寡核苷酸可用于引发与分离自哺乳动物受试者的RNA分子互补的第一链cDNA分子的合成，而不引发与核糖体RNA(18S，28S)或线粒体核糖体RNA(12S，16S)分子互补的第一链cDNA分子的合成。在某些实施方案中，寡核苷酸群中的每一寡核苷酸进一步包括位于杂交部分5’端的确定序列部分。在一个实施方案中，确定序列部分包括转录启动子，其在PCR扩增中用作引物结合位点或用于体外转录。在另一实施方案中，确定序列部分包括其不是转录启动子的引物结合位点。例如，在一些实施方案中，本发明提供了寡核苷酸群，其中转录启动子例如T7启动子(SEQ ID NO：1508)，位于具有SEQ ID NO：1-749中所示的序列的寡核苷酸群的成员的5′端。因此，在一些实施方案中，本发明提供了寡核苷酸群，其中每一寡核苷酸由位于具有SEQ ID NO：1-749中所示序列的寡核苷酸群的不同成员的5′端的T7启动子(SEQ ID NO：1508)所组成。在进一步的实施方案中，本发明提供了寡核苷酸群，其中确定序列部分包括用于引发PCR合成反应但不包含RNA聚合酶启动子序列的至少一个引物结合位点。用于此类实施方案的确定序列部分的代表性实例为5′TCCGATCTCT3′(SEQ ID NO：1499)，其优选位于具有SEQ ID NO：1-749所示序列的寡核苷酸群的成员的5′端。

另一方面，本发明提供了包含SEQ ID NO：750-1498的寡核苷酸群。例如，这些寡核苷酸可用于引发与从分离自哺乳动物受试者的RNA合成的第一链cDNA分子互补的第二链cDNA分子的合成，而不引发与逆转录自核糖体RNA(18S，28S)或线粒体核糖体RNA(12S，16S)分子的第一链cDNA互补的第二链cDNA分子的合成。在一些实施方案中，寡核苷酸群中的每一寡核苷酸进一步包括位于杂交部分5’端的确定序列部分。在一个实施方案中，确定序列部分包括转录启动子，其可在PCR扩增中用作引物结合位点或用于体外转录。在另一实施方案中，确定序列部分包括其不是转录启动子的引物结合位点。例如，在一些实施方案中，本发明提供了寡核苷酸群，其中转录启动子例如T7启动子(SEQ ID NO：1508)，位于具有SEQ ID NO：750-1498中所示序列的寡核苷酸群的成员的5′端。因此，在一些实施方案中，本发明提供了寡核苷酸群，其中每一寡核苷酸由位于具有SEQ ID NO：750-1498中所示序列的寡核苷酸群的不同成员的5′端的T7启动子(SEQ ID NO：1508)所组成。在进一步的实施方案中，本发明提供了寡核苷酸群，其中确定序列部分包括用于引发PCR合成反应但不包含RNA聚合酶启动子序列的至少一个引物结合位点。用于此类实施方案的确定序列部分的代表性实例为5′TCCGATCTGA3′(SEQ ID NO：1500)，其优选位于具有SEQ ID NO：750-1498中所示序列的寡核苷酸群的成员的5′端。

另一方面，本发明提供了在较大的非靶核酸分子群中，选择性扩增靶核酸分子群的试剂。在一个实施方案中，该试剂包括包含SEQ ID NO：1-749的寡核苷酸的至少10％。在另一个实施方案中，该试剂包括包含SEQ ID NO：750-1498的寡核苷酸的至少10％。

另一方面，本发明提供了选择性扩增靶核酸分子群的试剂盒。这方面，本发明的试剂盒包括，包含用于第一链cDNA合成的第一寡核苷酸群的试剂，其中第一寡核苷酸群中的每一寡核苷酸包括杂交部分和位于杂交部分5’端的确定序列部分，其中杂交部分为包含SEQ ID NO：1-749的寡核苷酸群的成员。在一些实施方案中，试剂盒进一步包括用于第二链cDNA合成的第二寡核苷酸群，其中第二寡核苷酸群中的每一寡核苷酸包括杂交部分和位于杂交部分5’端的确定序列部分，其中杂交部分为包含SEQ ID NO：750-1498的寡核苷酸群的成员。

另一方面，本发明提供了经选择性扩增的核酸分子的群，其包括哺乳动物受试者的转录组的代表，所述代表包含5’确定序列，相应于哺乳动物受试者中表达的核酸的经扩增的序列群，以及3’确定序列，其中经扩增的序列群对于特定哺乳动物物种而言特征在于具有下列性质：(a)具有大于75％的多聚腺苷酸化和非多聚腺苷酸化转录本，并且具有少于10％的核糖体RNA。

附图说明

通过参考下列详细描述并结合参考附图，本发明的上述方面及许多随之而来的优点将会更容易并且更好地被理解，其中：

附图1A显示了随机6-聚体(N6)寡核苷酸对人RefSeq转录本数据库中的核苷酸序列的精确匹配的数量，如实施例1中所描述的；

图1B显示了不那么随机的(Not-So-Random，NSR)6-聚体寡核苷酸对人RefSeq转录本数据库中的核苷酸序列的精确匹配的数量，如实施例1中所描述的；

图1C显示了使用用于第一链cDNA合成的随机引物的混合物和用于第二链cDNA合成的反-NSR 6-聚体寡核苷酸的混合物，合成选择性扩增的cDNA分子的制备物的本发明方法的代表性实施方案，如实施例2所描述的；

图1D显示了使用用于第一链cDNA合成的NSR 6-聚体寡核苷酸的混合物和用于第二链cDNA合成的反-NSR 6-聚体寡核苷酸的混合物，然后PCR扩增，从而合成选择性扩增的aDNA分子的制备物的本发明方法的代表性实施方案，如实施例2和实施例4所描述的；

图2为举例说明受试者的全转录组分析的方法的流程图，其包括从分离自受试者的RNA选择性扩增核酸分子，之后对扩增的核酸分子进行序列分析或微阵列分析，如实施例4和实施例5所描述的；

图3A为对数标尺上的柱形图，其显示了与使用随机引物(N8＝100％)产生的第一链cDNA相比较，用不同NSR-6库合成的第一链cDNA分子群中18S，28S，12Sn和16S(相对于基因和N8进行标准化)的相对丰度，如实施例3所描述的。

图3B图示了，与在第一链中使用NSR引物(SEQ ID NO：1-749)然后在第二链中使用随机引物(N7)扩增的cDNA(NSR＞N7＝3.0％18S，3.4％28S)相比较，以及与在第一链中使用NSR引物(SEQ ID NO：1-749)然后在第二链中使用反-NSR引物(SEQ ID NO：750-1498)扩增的cDNA(NSR＞反-NSR＝0.1％18S，0.5％28S)相比较，在第一链和第二链合成中均使用随机引物(N7)扩增的cDNA中胞质rRNA(18S或28S)的相对丰度水平(N7＞N7＝100％18S，100％28S)，如实施例3所描述的；

图3C图示了，与在第一链中使用NSR引物(SEQ ID NO：1-749)然后在第二链中使用随机引物(N7)扩增的cDNA(NSR＞N7＝27％12S，20.4％16S)相比较，以及与在第一链中使用NSR引物(SEQ ID NO：1-749)然后在第二链中使用反-NSR引物(SEQ ID NO：750-1498)扩增的cDNA(NSR＞反-NSR＝8.2％12S，3.5％16S)相比较，在第一链和第二链合成中均使用随机引物(N7)扩增的cDNA中线粒体rRNA(12S或16S)的相对丰度水平(N7＞N7＝100％12S或16S)，如实施例3所描述的；

图4A为柱形图，其显示了在第一链合成期间用不同NSR引物合成的cDNA中，代表性基因转录本的基因特异性polyA的含量，如实施例3所描述的；

图4B为柱形图，其显示了在第一链cDNA合成期间用不同NSR引物，从Jurkat-1和Jurkat-2总RNA扩增的cDNA中，代表性非多聚腺苷酸化RNA的相对丰度水平，如实施例3所描述的；

图5图示了，在用NSR-6聚体产生的cDNA中测量的Jurkat/K562 mRNA表达数据的对数比值(x-轴)对在用随机引物(N8)产生的cDNA中测量的Jurkat/K562 mRNA表达数据的对数比值，如实施例3所描述的；

图6A图示了在polyA纯化后所通常获得的总RNA中rRNA与mRNA的比例，其显示即使从总RNA中去除95％rRNA，剩余的RNA仍然由约50％rRNA和50％mRNA的混合物组成，如实施例3所描述的；

图6B图示了在第一链cDNA合成期间用NSR引物且在第二链cDNA合成期间用反-NSR引物而制备的cDNA样品中rRNA与mRNA的比例。如图所示，与polyA纯化相比，用NSR引物和反-NSR引物从总RNA产生cDNA可有效去除99.9％rRNA，从而产生富集超过95％的mRNA的cDNA群，如实施例3所描述的；

图7A图示了跨越长转录本(≥4kb)的NSR引发的(虚线)或表达的序列标签(EST)(实线)cDNA中，polyA+RefSeq mRNA的检测和位置分布，其举例说明从5’端开始的每一碱基位置上显示的5,790个转录本的综合阅读频率，如实施例7所描述的；

图7B图示了跨越长转录本(≥4kb)的NSR引发的(虚线)或表达的序列标签(EST)(实线)cDNA中，polyA+RefSeq mRNA的检测和位置分布，其举例说明从3’端开始的每一碱基位置上显示的5,790个转录本的综合阅读频率，如实施例7所描述的；以及

图8图示了相对于从分离自通用人类参照(UHR)细胞系的RNA产生的NSR-引发的cDNA，从分离自全脑的RNA产生的NSR-引发的cDNA中，由第15号染色体Prader-Willi神经疾病基因座编码的小核RNA(snoRNA)的丰富程度，如实施例7所描述的。

发明详述

除非本文明确定义，本文所用的所有术语具有本领域技术人员通常理解的相同含义。对于本领域的定义和术语，请技术人员特别关注Sambrook et al.，Molecular Cloning：A Laboratory Manual，2d ed.，Cold Spring Harbor Press，Plainsview，New York；和Ausubel et al.，Current Protocols in Molecular Biology(Supplement 47)，John Wiley & Sons，New York，1999。

用于第一链cDNA合成的不那么随机的(Not-So-Random，″NSR″)6-聚体引物的使用描述于2006年10月27日提交的共同未决的美国专利申请系列号11/589,322中，其通过引用并入本文。在特定的实施方案中，共同未决的美国专利申请系列号11/589,322中描述的NSR-6聚体，包括与血细胞中表达的所有mRNA分子杂交，但不与球蛋白mRNA(HBA1，HBA2，HBB，HBD，HBG1和HBG2)或细胞核核糖体RNA(18S和28S rRNA)杂交的寡核苷酸群。在本申请中，提供了不同的NSR引物群(SEQ ID NO：1-749)，其包括与哺乳动物细胞中表达的所有mRNA分子杂交(包括球蛋白mRNA)，而不与细胞核核糖体RNA(18S和28S rRNA)和线粒体核糖体RNA(12S和16S mt-rRNA)杂交的寡核苷酸。本申请进一步提供了在第二链cDNA合成期间使用的第二反-NSR寡核苷酸群(SEQ IDNO：750-1498)。反-NSR寡核苷酸(SEQ ID NO：750-1498)经选择与从哺乳动物细胞中表达的RNA模板(包括球蛋白mRNA)逆转录产生的所有第一链cDNA分子杂交，而不与从细胞核核糖体RNA(18S和28S rRNA)和线粒体核糖体RNA(12S和16S mt-rRNA)转录产生的第一链cDNA分子杂交。如实施例1-4所述，在第一链合成期间使用NSR引物(SEQ ID NO：1-749)进行第一轮选择性扩增接着在第二链合成期间使用反-NSR引物(SEQ ID NO：750-1498)进行第二轮选择性扩增，可产生基本上代表细胞中表达的所有polyA RNA和非polyA RNA的双链cDNA群，并且所述cDNA群具有极低水平(低于10％)的代表不期望的细胞核核糖体RNA和线粒体核糖体RNA的核酸分子。如图2所示，本发明也提供了分析本发明扩增方法的产物的方法，例如测序和基因表达特征谱分析(例如微阵列分析)。

如上文所述，一方面，本发明提供了在较大的非靶核酸分子群中，选择性扩增靶核酸分子群(例如，除了最高表达的RNA种类以外，在细胞类型中表达的所有RNA分子)的方法。这方面，本发明的方法均包括以下步骤：(a)用逆转录酶和第一寡核苷酸引物群，从分离自哺乳动物受试者的样品中的RNA合成单链cDNA，其中第一寡核苷酸引物群中的每一寡核苷酸包括杂交部分和位于杂交部分5’端的确定序列部分，其中所述RNA包括在较大的非靶核酸分子群中的靶核酸分子群；和(b)用DNA聚合酶和第二寡核苷酸引物群，从步骤(a)合成的单链cDNA合成双链cDNA，其中第二寡核苷酸群中的每一寡核苷酸包括由6，7或8个核苷酸组成的杂交部分和位于杂交部分5’端的确定序列，其中杂交部分选自具有6，7或8个核苷酸的长度的所有可能的寡核苷酸，所述寡核苷酸在确定的条件下不与合成的单链cDNA中的非靶核酸分子群杂交。

第二寡核苷酸群还可以包括位于杂交部分5’端的确定序列部分。在一个实施方案中，确定序列部分包括也可用作引物结合位点的转录启动子。因此，在本发明的这方面的一些实施方案中，第二寡核苷酸群中的每一寡核苷酸，包括由6个核苷酸或7个核苷酸或8个核苷酸组成的杂交部分和位于杂交部分5’端的转录启动子部分。在另一个实施方案中，第二寡核苷酸群的确定序列部分包括用于PCR扩增反应的第二引物结合位点，其可以任选地包括转录启动子。例如，本发明提供的反-NSR寡核苷酸群可用于实施本发明的这方面的方法。

例如，在本发明的一个实施方案中，鉴定了各具有6个核苷酸的长度的寡核苷酸群(SEQ ID NO：750-1498)，其可用作引物来引发所有或基本上所有的从哺乳动物细胞的靶RNA分子群合成的第一链cDNA分子的第二链合成，但不引发从哺乳动物细胞的非靶核糖体RNA(rRNA)或线粒体rRNA(mt-rRNA)逆转录产生的第一链cDNA的第二链合成。所鉴定的第二寡核苷酸群(SEQ ID NO：750-1498)称为反-不那么随机的(anti-Not-So-Random，反-NSR)引物。因此，该寡核苷酸群(SEQ ID NO：750-1498)可用于引发其为从哺乳细胞分离的mRNA分子起始群的代表的第一链核酸分子群(例如，cDNA)的第二链合成，但不引发相应于rRNA或mt-rRNA的cDNA分子的第二链合成。

在其他实施方案中，第一寡核苷酸群中的每一寡核苷酸，包括由6，7或8个核苷酸组成的杂交部分和位于杂交部分5’端的确定序列，其中杂交部分选自具有6，7或8个核苷酸的长度的、在确定的条件下不与哺乳动物受试者含RNA的样品中的非靶核酸分子群杂交的所有可能的寡核苷酸。

第一寡核苷酸群还可以包括位于杂交部分5’端的确定序列部分。在一个实施方案中，确定序列部分包括也可用作第一引物结合位点的转录启动子。因此，在本发明这方面的一些实施方案中，第一寡核苷酸群中的每一寡核苷酸，包括由6个核苷酸或7个核苷酸或8个核苷酸组成的杂交部分和位于杂交部分5’端的转录启动子部分。在另一个实施方案中，第一寡核苷酸群的确定序列部分包括用于PCR扩增反应的第一引物结合位点，其可以任选地包括转录启动子。例如，本发明提供的NSR寡核苷酸群可用于实施本发明这方面的方法。

例如，在本发明的一个实施方案中，鉴定了各具有6个核苷酸的长度的第一寡核苷酸群(SEQ ID NO：1-749)，其可用作引物，以引发所有或基本上所有的来自哺乳动物细胞的mRNA分子的第一链合成，但不引发来自哺乳动物细胞的非靶核糖体RNA(rRNA)或线粒体rRNA(mt-rRNA)的扩增。鉴定的第一寡核苷酸群(SEQ ID NO：1-749)称为不那么随机的(Not-So-Random，NSR)引物。因此，该寡核苷酸群(SEQ ID NO：1-749)可用于引发其为从哺乳细胞分离的mRNA分子起始群的代表的核酸分子群(例如，cDNA)的第一链合成，但不引发相应于rRNA或mt-rRNA的cDNA分子的第一链合成。

本发明也提供了用于引发第一链cDNA合成的第一寡核苷酸群，其中确定的序列，例如T7启动子(SEQ ID NO：1508)或第一引物结合位点(SEQ ID NO：1499)位于具有SEQ ID NO：1-749中所示的序列的寡核苷酸群的成员的5’端。因此，每一寡核苷酸可以包括与靶核酸分子(例如mRNA)杂交的杂交部分(选自SEQ IDNO：1-749)，和位于杂交部分5’端的确定序列，例如启动子序列或第一引物结合位点。，可以将确定序列部分整合入使用寡核苷酸(其包括T7启动子)作为引物扩增的DNA分子，而后其可以促进DNA分子的转录。

可选地，确定序列部分，例如转录启动子或第一引物结合位点，可以共价连接至cDNA分子，例如通过DNA连接酶。

有用的转录启动子序列包括T7启动子(5’AATTAATACGACTCACTATAGGGAGA 3’(SEQ ID NO：1508))，SP6启动子(5’ATTTAGGTGACACTATAGAAGNG3’(SEQ ID NO：1509))，和T3启动子(5’AATTAACCCTCACTAAAGGGAGA3’(SEQ ID NO：1510))。

靶核酸群例如可以包括，细胞或组织中表达的除选择的非靶mRNA群以外(例如最高丰度表达的mRNA)的所有mRNA。高丰度表达的非靶mRNA，通常构成细胞或组织中表达的所有mRNA的至少0.1％(例如可以构成细胞或组织中表达的所有mRNA的50％以上或60％以上或70％以上)。高丰度表达的非靶mRNA的实例，为哺乳动物细胞中的核糖体rRNA或线粒体rRNA。可以用本发明方法选择性消除的高丰度表达的非靶RNA的其他实例，包括例如球蛋白mRNA(来自血细胞)或叶绿体rRNA(来自植物细胞)。

本发明的方法可用于分析生物细胞样品中总RNA的转录组特征谱，其中期望减少扩增样品中的RNA群(其不与NSR和/或反-NSR引物杂交)，例如高表达的RNA(例如核糖体RNA)的存在。在一些实施方案中，本发明的方法可用于在来自RNA样品的经扩增的核酸中减少不与NSR引物和/或反-NSR引物杂交的核酸分子群的量，并且与和NSR和/或反-NSR引物杂交的经扩增的核酸分子的量相比，减少至少2倍直至1000倍，例如至少10倍，50倍，100倍，500倍或更高。

用于实施本发明这方面的方法的寡核苷酸群可以选自更大的寡核苷酸群，其中第一寡核苷酸群基于其在确定的杂件下与靶RNA群杂交，但在确定的条件下不与非靶RNA群杂交的能力进行选择，而且该第一寡核苷酸群包括具有6个核苷酸，7个核苷酸或8个核苷酸的长度的所有可能的寡核苷酸。

第二寡核苷酸群基于其在确定的条件下与靶第一链cDNA群杂交，但在确定的条件下不与非靶第一链cDNA群杂交的能力进行选择，而且该第二寡核苷酸群包括具有6个核苷酸，7个核苷酸或8个核苷酸的长度的所有可能的寡核苷酸。在一个实施方案中，第二寡核苷酸群可以通过合成第一寡核苷酸群的序列的反向互补序列来产生。

第一寡核苷酸群的组成。在一些实施方案中，第一寡核苷酸群包括具有6个核苷酸，7个核苷酸或8个核苷酸的长度的所有可能的寡核苷酸。第一寡核苷酸群可以只包括具有6个核苷酸的长度的所有可能的寡核苷酸，或者具有7个核苷酸的长度的所有可能的寡核苷酸，或者具有8个核苷酸的长度的所有可能的寡核苷酸。任选地，除了具有6个核苷酸的长度的所有可能的寡核苷酸，或者具有7个核苷酸的长度的所有可能的寡核苷酸，或者具有8个核苷酸的长度的所有可能的寡核苷酸以外，第一寡核苷酸群还可以包括其他寡核苷酸。通常，第一寡核苷酸群的每一成员的长度不长于30个核苷酸。

第一寡核苷酸群的序列。存在4,096种具有6个核苷酸长度的可能的寡核苷酸，16,384种具有7个核苷酸长度的可能的寡核苷酸，65,536种具有8个核苷酸的长度的可能的寡核苷酸。构成寡核苷酸群的寡核苷酸的序列，可容易地通过计算机程序例如Microsoft产生。

第一寡核苷酸子群(Subpopulation)的选择。第一寡核苷酸子群基于第一寡核苷酸子群的成员在确定的条件下与靶核酸群杂交，但在相同确定的条件下不与非靶群杂交的能力选自寡核苷酸群。扩增的样品包括将被扩增(例如使用逆转录)的靶核酸分子(例如RNA或DNA分子)，也包括将不被扩增的非靶核酸分子。第一寡核苷酸子群由这样的寡核苷酸组成：每一寡核苷酸在确定的条件下与在整个期望扩增的核酸分子群中分布的靶序列杂交，但在相同确定的条件下不与非期望扩增的大多数(或任何的)非靶核酸分子杂交。第一寡核苷酸子群在确定的条件下，与靶核酸序列(除了刻意避免的核酸序列(非靶序列)之外)杂交。

例如，细胞样品可以包括包含许多核糖体RNA分子(例如，5S，18S和28S核糖体RNA)和线粒体rRNA分子(例如，12S和16S核糖体RNA)在内的，哺乳动物细胞表达的所有mRNA分子的群。通常不期望扩增核糖体RNA。例如，在分析细胞基因表达的基因表达试验中，对大量拷贝的高丰度核糖体RNA的扩增，可能使低丰度mRNA的水平的微小变化不明显。因此，在本发明的实施中，选择第一寡核苷酸子群，其在确定的条件下不与大多数(或任何的)非靶核糖体RNA杂交，但在相同确定的条件下与细胞表达的大多数(优选所有的)其他靶mRNA分子杂交。

为了选择在确定的条件下与靶核酸群杂交，但在确定的杂件下不与非靶核酸群杂交的第一寡核苷酸子群，必须知道非靶核酸群的成员的完全或基本上完全的核酸序列。因此，例如必需知道5S，18S，和28S核糖体RNA(或者每一前述核糖体RNA种类的代表性成员)的核酸序列，和12S与16S核糖体线粒体RNA的核酸序列。从其获得细胞样品的哺乳动物物种的核糖体RNA的序列，可见于公众可获得的数据库。例如，表1提供了于2007年9月5日获取的人12S，16S，18S和28S核糖体RNA的NCBI Genbank标识符。

然后合适的软件程序可用于将第一寡核苷酸群中的所有寡核苷酸序列(例如所有可能的6核酸寡核苷酸群)与核糖体RNA序列进行比较，以确定哪些寡核苷酸在确定的杂交条件下与任何部分的核糖体RNA杂交。只选择在确定的杂交条件下不与核糖体RNA的任何部分杂交的寡核苷酸。很容易写出允许比较核酸序列并且鉴定在确定的杂交条件下彼此杂交的序列的Perl脚本程序。

因此，例如，如实施例1所更详细地描述的，鉴定了与任何核糖体RNA序列的任何部分不完全互补的所有可能的6核酸寡核苷酸子群。通常，寡核苷酸子群(其在确定的条件下与靶核酸群杂交但在确定的条件下不与非靶核酸群杂交)必须包含有具有足够差异性的寡核苷酸序列，以与RNA样品中的所有或基本上所有的核酸分子杂交。本文实施例1显示，具有SEQ ID NO：1-749中所示核酸序列的寡核苷酸群，可与RefSeq公众数据库中储存的基因转录本群的所有或基本上所有的核酸序列杂交。

另外的确定核酸序列部分。选择的第一寡核苷酸子群(例如SEQ ID NO：1-749)，可用于引发靶RNA分子群的逆转录，以产生第一链cDNA。可选地，第一寡核苷酸群可用作引物，其中每一寡核苷酸包括选择的寡核苷酸子群的一个成员的序列，并且还包括另外的确定核酸序列。所述另外的确定核酸序列，通常位于选择的寡核苷酸子群的成员的序列的5’端。通常，寡核苷酸群包括选择的寡核苷酸子群的所有成员的序列(例如，寡核苷酸群可以包括SEQ ID NO：1-749中所示的所有序列)。

选择另外的确定核酸序列以使其不影响寡核苷酸与互补靶序列的杂交特异性。例如，如图1D所示，每一第一寡核苷酸可以包括转录启动子序列或第一引物结合位点(PBS#1)，其位于选择的寡核苷酸子群的成员的序列的5’端。可将启动子序列整合入扩增的核酸分子，所述核酸分子从而可用作RNA合成的模板。任何RNA聚合酶启动子序列，可包括在寡核苷酸群的确定序列部分中。代表性实例包括T7启动子(SEQ ID NO：1508)，SP6启动子(SEQ ID NO：1509)，和T3启动子(SEQ ID NO：1510)。

在本发明这方面的一些实施方案中，如图1C所示，第一寡核苷酸群中的每一寡核苷酸包括随机杂交部分和位于杂交部分5’端的确定序列。如图1C所示，每一第一寡核苷酸可以包括位于随机杂交部分5’端的包含引物结合位点的确定序列。将引物结合位点整合入扩增的核酸，其从而可以作为PCR引物结合位点用于从cDNA产生双链扩增的DNA产物。引物结合位点可以是转录启动子序列的部分。

第二寡核苷酸群的序列。第二寡核苷酸群的选择方法与如上所述的第一寡核苷酸群的选择方法类似，其区别在于选择由6个核苷酸，7个核苷酸或8个核苷酸组成的杂交部分，以在确定的条件下与从靶RNA逆转录的第一链cDNA杂交，而在确定的条件下不与从非靶RNA逆转录的第一链cDNA杂交。利用上述方法，例如利用公众可获得的核糖体RNA序列，可选择第二寡核苷酸群。第二寡核苷酸群也可以作为第一寡核苷酸群的反向互补序列而产生(反-NSR)。

因此例如，如实施例1所更详细描述的，基于所有可能的6核酸寡核苷酸选择第二群，所述寡核苷酸与鉴定的任何核糖体RNA序列的任何部分都不完全互补。本文实施例1显示，具有如SEQ ID NO：1-749所示的核酸序列的寡核苷酸群，可与RefSeq公众数据库中储存的基因转录本群的所有或基本上所有的核酸序列杂交。第二群SEQ ID NO：750-1498(反-NSR)由此产生，其是第一寡核苷酸群(SEQ ID NO：1-749，NSR)的反向互补序列。

另外的确定核酸序列部分。选择的第二寡核苷酸子群(例如SEQ IDNO：750-1498)可用于引发第一链cDNA分子靶群的第二链cDNA合成。可选地，第二寡核苷酸群可以用作引物，其中每一寡核苷酸包括选择的寡核苷酸子群的一个成员的序列，并且还包括另外的确定核酸序列。另外的确定核酸序列，通常位于选择的寡核苷酸子群的成员的序列的5’端。通常，寡核苷酸群包括选择的寡核苷酸子群的所有成员的序列(例如，寡核苷酸群可以包括SEQ ID NO：750-1498中所示的所有序列)。

选择另外的确定核酸序列以使其不影响寡核苷酸与互补靶序列的杂交特异性。例如，如图1D所示，每一第一寡核苷酸可以包括转录启动子序列或第二引物结合位点(PBS#2)，其位于选择的寡核苷酸子群的成员的序列的5’端。可将启动子序列整合入扩增的核酸分子，所述核酸分子从而可用作RNA合成的模板。任何RNA聚合酶启动子序列，可包括在寡核苷酸群的确定序列部分。代表性实例包括T7启动子(SEQ ID NO：1508)，SP6启动子(SEQ ID NO：1509)，和T3启动子(SEQ ID NO：1510)。

另一方面，本发明提供了第一寡核苷酸群，其中所述群的每一寡核苷酸包括：(a)其为寡核苷酸子群成员的6核酸寡核苷酸序列(SEQ ID NO：1-749)，其中所述寡核苷酸子群与哺乳动物细胞表达的所有或基本上所有的RNA杂交，但不与核糖体RNA杂交；和(b)位于6核酸寡核苷酸序列5’端的引物结合位点(PBS#1)序列(SEQ ID NO：1499)。在一个实施方案中，第一寡核苷酸群包括如SEQ ID NO：1-749所示的所有6核苷酸序列。在另一实施方案中，第一寡核苷酸群包括SEQ ID NO：1-749中所示的6核苷酸序列的至少10％(例如至少20％，30％，40％，50％，60％，70％，80％，85％，90％，95％，或99％)。

任选地，间隔子部分位于第一寡核苷酸群的确定序列部分和杂交部分之间。间隔子部分的长度，通常为1-12个核苷酸(例如长度为1-6个核苷酸)，并且可以包括任意组合的随机核苷酸(N＝A，C，T，或G)。例如，间隔子部分可以由随机选择的核苷酸组成。间隔子部分的全部或部分可以和与杂交部分相同的靶核酸序列杂交或不杂交。如果间隔子部分的全部或部分和与杂交部分相同的靶核酸序列杂交，那么结果将增强包括杂交部分和杂交间隔子部分的寡核苷酸所引发的cDNA合成的效率。在一些实施方案中，第一寡核苷酸群进一步包括位于引物结合位点和杂交部分之间的，由1-10个随机核苷酸(A，C，T，或G)组成的间隔子区。在另一实施方案中，第一寡核苷酸群包括如SEQ ID NO：1-749所示的所有6核苷酸序列，其中每一核苷酸序列在5’端进一步包括至少一个间隔子核苷酸。

另一方面，本发明提供了第二寡核苷酸，其中所述群的每一寡核苷酸包括：(a)其为寡核苷酸子群成员的6核酸寡核苷酸序列(SEQ ID NO：750-1498)，其中所述寡核苷酸子群与从哺乳动物细胞表达的RNA逆转录的所有或基本上所有的第一链cDNA杂交，但不与从核糖体RNA逆转录的第一链cDNA杂交；和(b)位于6核酸寡核苷酸序列5’端的引物结合位点(PBS#2)序列(SEQ ID NO：1500)。在一个实施方案中，第一寡核苷酸群包括如SEQ ID NO：750-1498所示的所有6核苷酸序列。在另一实施方案中，第一寡核苷酸群包括如SEQ ID NO：750-1498所示的6核苷酸序列的至少10％(例如至少20％，30％，40％，50％，60％，70％，80％，85％，90％，95％，或99％)。

任选地，间隔子部分位于第二寡核苷酸群的确定序列部分和杂交部分之间。间隔子部分的长度，通常为1-12个核苷酸(例如长度为1-6个核苷酸)，并且可以包括任意组合的随机核苷酸(N＝A，C，T，或G)。例如，间隔子部分可以由随机选择的核苷酸组成。间隔子部分的全部或部分可以和与杂交部分相同的靶核酸序列杂交或不杂交。如果间隔子部分的全部或部分和与杂交部分相同的靶核酸序列杂交，那么结果将增强包括杂交部分和杂交间隔子部分的寡核苷酸所引发的cDNA合成的效率。在一些实施方案中，第一寡核苷酸群进一步包括位于引物结合位点和杂交部分之间的，由1-10个随机核苷酸(A，C，T，或G)组成的间隔子区。在另一实施方案中，第一寡核苷酸群包括如SEQ ID NO：750-1498所示的所有6核苷酸序列，其中每一核苷酸序列在5’端进一步包括至少一个间隔子核苷酸。

在一些实施方案中，第一寡核苷酸群的确定序列部分和第二寡核苷酸群的确定序列部分，各自由范围在至少10个核苷酸直至30个核苷酸，例如10-12个核苷酸，10-14个核苷酸，10-16个核苷酸，10-18个核苷酸，和10-20个核苷酸的长度组成。在一些实施方案中，第一和第二寡核苷酸群的每一寡核苷酸的确定序列部分由10个核苷酸组成，其中确定序列部分包括PCR引物结合位点，并且其中第一寡核苷酸群每一成员的PCR结合位点中的至少8个连续核苷酸，与第二寡核苷酸群每一成员的PCR结合位点中的至少8个核苷酸，具有相同的序列。在进一步的实施方案中，第一和第二寡核苷酸群的每一确定序列部分由10个核苷酸组成，其中确定序列部分包括PCR引物结合位点，并且其中第一寡核苷酸群每一成员的PCR结合位点中的至少8个连续核苷酸，与第二寡核苷酸群每一成员的PCR结合位点中的至少8个核苷酸，具有相同的序列，并且其中第一寡核苷酸群的确定序列部分的3’端剩余的两个核苷酸(例如C，T)不同于第二寡核苷酸群的确定序列部分3’端的两个核苷酸(例如G，A)，从而允许在序列分析之后、在序列阅读比对之前，鉴定转录链(有义或反义)。

在进一步的实施方案中，提供了杂合的RNA/DNA寡核苷酸，其中第一寡核苷酸群的确定序列部分包括RNA部分和DNA部分，其中RNA部分位于DNA部分的5’端。在一个实施方案中，杂合引物的5′RNA部分由至少11个RNA核苷酸的确定序列部分组成，而杂合引物的3′DNA部分由至少3个DNA核苷酸组成。在特定的实施方案中，杂合RNA/DNA寡核苷酸包括与NSR引物(SEQ ID NO：1-749)的5’端共价连接的SEQ ID NO：1558。用杂合RNA/DNA寡核苷酸产生的cDNA可用作模板，通过使用美国专利6,946,251描述的方法来产生单链扩增的DNA，该专利通过引用并入本文，如实施例6进一步描述的。

例如，包括杂合RNA/DNA的确定序列部分(SEQ ID NO：1558)和杂交部分(SEQ ID NO：1-749)的，用于第一链cDNA合成的第一寡核苷酸群形成了模板RNA中的靶核酸分子复制的基础。包含杂合RNA/DNA引物部分的第一寡核苷酸群与RNA模板中的靶RNA杂交，并且杂合RNA/DNA引物可被RNA-依赖性DNA聚合酶延伸以形成第一引物延伸产物(第一链cDNA)。在切割模板RNA之后，在第一引物延伸产物的复合物中形成第二链cDNA。根据该实施方案，由于第一引物延伸产物中的杂合引物的存在，第一和第二引物延伸产物的双链复合物在一端由RNA/DNA杂合体组成。然后，双链复合物可与试剂，例如切割RNA/DNA杂合体中的RNA的酶(例如RNA酶H)一起用于产生单链DNA扩增产物，所述酶切割杂交体的RNA序列，从而保留第二引物延伸产物上的序列以结合另一杂合引物，所述杂合引物与第一杂合引物可以相同或不相同。另一第一引物延伸产物由高进行性DNA聚合酶例如phi29产生，所述产物替换了先前被部分切割的第一引物延伸产物，从而产生了替换的切割的第一引物延伸产物。

在可选的实施方案中，通过修饰双链cDNA产物(所有DNA)(用随机引物或者NSR与反-NSR引物或者其组合产生)，产生用于单链DNA扩增的双链复合物。将双链cDNA产物变性，将RNA/DNA杂合引物退火至第二链cDNA 3′末端部分上的预先确定的引物序列。然后用逆转录酶延伸杂合引物的DNA部分，以形成具有RNA杂合部分的双链复合物。通过先用RNA酶H处理以除去复合物的RNA部分，再加入RNA/DNA杂合引物和加入高进行性DNA聚合酶例如phi29，将双链复合物用作单链DNA扩增的模板，以产生单链DNA扩增产物。

杂交条件。在本发明的实施过程中，第一寡核苷酸群基于寡核苷酸群的成员在确定的条件下与靶核酸群杂交，但在相同确定的条件下不与非靶核酸群杂交的能力选自寡核苷酸群。确定的杂交条件允许第一寡核苷酸与存在于样品中的、除核糖体RNA以外的所有核酸分子特异性杂交。通常，杂交条件温度低于天然双链体的解链温度(Tm)不超过25℃-30℃(例如10℃)。超过约100个碱基的核酸分子的Tm，可用公式Tm＝81.5+0.41％(G+C)-log(Na+)进行计算，其中(G+C)为核酸分子的鸟苷和胞苷含量。对于长度少于100个碱基的寡核苷酸分子，示例性杂交条件为低于Tm 5℃-10℃。一般而言，减少短寡核苷酸双链体的Tm值大约(500/寡核苷酸长度)℃。在本发明的一些实施方案中，杂交温度在40℃-50℃的范围内。合适的杂交条件也可以通过经验确定，而无需过多的试验。

在本发明的一个实施方案中，第一寡核苷酸群在约40℃的温度下与靶核酸分子群杂交。

在本发明的一个实施方案中，第二寡核苷酸群在约37℃的温度下与单链引物延伸产物群中的靶核酸分子群杂交。

扩增条件。在本发明的实施中，靶核酸群的第一子群的扩增在确定的扩增条件下进行。可以如上所述选择杂交条件。通常，确定的扩增条件包括用逆转录酶进行第一链cDNA合成。逆转录反应在确定浓度的脱氧核苷三磷酸(dNTP)的存在下进行。在一些实施方案中，dNTP浓度在约1000-约2000μM的范围内，以富集靶基因的扩增产物，如在2006年10月27日提交的共同未决美国专利申请系列号11/589,322中所述，其通过引用并入本文。

寡核苷酸的组成与合成。可用于本发明的实施的寡核苷酸引物可以是DNA。RNA，PNA，嵌合混合物，或它们的衍生物或修饰物，只要它仍能够引发期望的反应。寡核苷酸引物可以在碱基部分，糖部分，或磷酸主链上进行修饰，并可以包括其他的附加基团或标记，只要其仍能够引发期望的扩增反应。

例如，寡核苷酸引物可以包括至少一个修饰的碱基部分，所述碱基部分选自包括但不限于以下的组：5-氟尿嘧啶，5-溴尿嘧啶，5-氯尿嘧啶，5-碘尿嘧啶，次黄嘌呤，黄嘌呤，4-乙酰基胞嘧啶，5-(羧基羟甲基)尿嘧啶，5-羧甲基氨甲基-2-硫代尿苷，5-羧甲基氨甲基尿嘧啶，二氢尿嘧啶，β-D-半乳糖基Q苷，肌苷，N6-异戊基腺嘌呤，1-甲基鸟嘌呤，1-甲基肌苷，2，2-二甲基鸟嘌呤，2-甲基腺嘌呤，2-甲基鸟嘌呤，3-甲基胞嘧啶，5-甲基胞嘧啶，N6-腺嘌呤，7-甲基鸟嘌呤，5-甲基氨甲基尿嘧啶，5-甲氧基氨甲基-2-硫代尿嘧啶，β-D-甘露糖基Q苷，5′-甲氧基羧甲基尿嘧啶，5-甲氧基尿嘧啶，2-甲基硫代-N6-异戊基腺嘌呤，尿嘧啶-5-氧乙酸，假尿嘧啶，Q苷，2-硫代胞嘧啶，5-甲基-2-硫代尿嘧啶，2-硫代尿嘧啶，4-硫代尿嘧啶，5-甲基尿嘧啶，尿嘧啶-5-氧乙酸甲基酯，5-甲基-2-硫代尿嘧啶，3-(3-氨基-3-N-2-羚丙基)尿嘧啶和2，6-二氨基嘌呤。

例如，寡核苷酸引物可包括至少一个修饰的糖部分，所述糖部分选自包括但不限于以下的组：阿拉伯糖，2-氟阿位伯糖，木酮糖，和己糖。

例如，寡核苷酸引物可以包括至少一个修饰的磷酸主链，所述磷酸主链选自：硫代磷酸酯，二硫代磷酸酯，硫代氨基磷酸酯，氨基磷酸酯，二氨基磷酸酯，甲基膦酸酯，烷基磷酸三酯，和甲酰乙缩醛(formacetal)，或它们的类似物。

用于本发明的方法的寡核苷酸引物，可以通过使用非特异性核酸切割化学剂或酶或者位点特异性限制性核酸内切酶切割较大的核酸片段获得，或者可以通过用本领域已知的标准方法合成而获得，例如通过使用自动化DNA合成仪(例如其可商购自Biosearch，Applied Biosystems等)和标准亚磷酰胺化学法。例如，硫代磷酸酯寡核苷酸可以使用Stein等人的方法来合成(Nucl.Acids Res.16：3209-3221，1988)，甲基膦酸酯寡核苷酸可以使用受控的孔度玻璃聚合物支持物来制备(Sarin et al.，Proc.Natl.Acad.Sci U.S.A.85：7448-7451，1988)。

一旦合成期望的寡核苷酸，其将从固体支持物(寡核苷酸在其上合成)上切割下来，并且用本领域的已知方法进行处理，以除去存在的任何保护基团。然后寡核苷酸用本领域已知的任何方法进行纯化，包括萃取和凝胶纯化。寡核苷酸的浓度和纯度，可通过对在丙烯酰胺凝胶上分离的寡核苷酸进行检测而确定，或者通过使用分光光度计在260nm处测量光密度而确定。

例如，本发明这方面的方法可用于选择性地扩增mRNA的编码区，内含子，基因的可变剪接形式，以及调节基因表达的非编码RNA。

另一方面，本发明提供了包括SEQ ID NO：1-749所示核酸序列的至少10％(例如至少20％，30％，40％，50％，60％，70％，80％，85％，90％，95％，或99％)的寡核苷酸群。例如，这些寡核苷酸(SEQ ID NO：1-749)可用于引发与从哺乳动物受试者分离的RNA分子互补的cDNA分子的第一链合成，但不引发与核糖体RNA分子互补的cDNA分子的第一链合成。事实上，例如，这些寡核苷酸(SEQ ID NO：1-749)可用于引发以任何RNA分子群作为模板的cDNA合成，但不扩增显著量的核糖体RNA或线粒体核糖体RNA。例如，本发明提供了寡核苷酸群，其中确定序列部分，例如转录启动子如T7启动子(SEQ ID NO：1508)，或引物结合位点(PBS#1)(SEQ ID NO：1499)位于具有如SEQ ID NO：1-749所示的序列的寡核苷酸群的成员的5’端。因此，在一些实施方案中，本发明提供了寡核苷酸群，其中每一寡核苷酸由位于具有如SEQ ID NO：1-749所示序列的寡核苷酸群的不同成员的5’端的T7启动子(SEQ ID NO：1508)组成。在一些实施方案中，本发明提供了寡核苷酸群，其中每一寡核苷酸由位于具有如SEQ ID NO：1-749所示序列的寡核苷酸群的不同成员的5’端的引物结合位点SEQ ID NO：1499和随机间隔子核苷酸(A，C，T，或G)组成。在一些实施方案中，寡核苷酸群包括SEQ ID NO：1-749所示的6核苷酸序列的至少10％(例如20％，30％，40％，50％，60％，70％，80％，90％，95％，或99％)。

另一方面，本发明提供了包括SEQ ID NO：750-1498所示的核酸序列的至少10％(例如至少20％，30％，40％，50％，60％，70％，80％，85％，90％，95％，或99％)的寡核苷酸群。例如，这些寡核苷酸(SEQ ID NO：750-1498)可用于引发与从哺乳动物受试者分离的RNA分子互补的单链引物延伸产物的第二链合成，但不引发与核糖体RNA分子互补的cDNA分子的第二链合成。事实上，例如，这些寡核苷酸(SEQ ID NO：750-1498)可用于引发以任何单链引物延伸分子群作为模板的第二链cDNA合成，但不扩增显著量的与核糖体RNA或线粒体核糖体RNA互补的单链引物延伸分子。例如，本发明提供了寡核苷酸群，其中确定序列部分，例如转录启动子如T7启动子(SEQ ID NO：1508)，或引物结合位点(PBS#2)(SEQ IDNO：1500)位于具有如SEQ ID NO：750-1498所示序列的寡核苷酸群的成员的5’端。因此，在一些实施方案中，本发明提供了寡核苷酸群，其中每一寡核苷酸由位于具有如SEQ ID NO：750-1498所示序列的寡核苷酸群的不同成员的5’端的T7启动子(SEQ ID NO：1508)组成。在一些实施方案中，本发明提供了寡核苷酸群，其中每一寡核苷酸由位于具有如SEQ ID NO：750-1498所示序列的寡核苷酸群的不同成员的5’端的引物结合位点(PBS#2)SEQ ID NO：1500和随机间隔子核苷酸(A，C，T，或G)组成。在一些实施方案中，寡核苷酸群包括SEQ IDNO：750-1498所示的6核苷酸序列的至少10％(例如20％，30％，40％，50％，60％，70％，80％，90％，95％，或99％)。

另一方面，本发明提供了从RNA模板分子群选择性合成单链引物延伸产物(第一链cDNA)的试剂。例如，该试剂可用于引发与从哺乳动物受试者分离的样品中的靶RNA模板分子互补的第一链cDNA分子的合成，但不引发与核糖体RNA分子互补的第一链cDNA分子的合成。本发明的试剂包括，包含SEQ ID NO：1-749所示的核酸序列的至少10％的寡核苷酸群。在一些实施方案中，本发明提供了含寡核苷酸群的试剂，所述寡核苷酸群包括SEQ ID NO：1-749所示的6核苷酸序列的至少10％(例如20％，30％，40％，50％，60％，70％，80％，85％，90％，95％，或99％)。在一些实施方案中，选择寡核苷酸群以与样品中存在的、除核糖体RNA和线粒体rRNA以外的基本上所有的核酸分子杂交。在其他实施方案中，选择寡核苷酸群以与样品中存在的核酸分子的子集杂交，其中核酸分子的子集不包括核糖体RNA。

另一方面，本发明提供了从单链引物延伸产物群(第一链cDNA)选择性合成双链cDNA的试剂。例如，该试剂可用于引发与从哺乳动物受试者分离的样品中的靶RNA模板分子互补的第二链cDNA分子的合成，但不引发与核糖体RNA分子互补的第二链cDNA分子的合成。本发明这方面的试剂，可用于引发使用随机引物产生的第一链cDNA的合成，或者可用于引发使用NSR引物(例如SEQ ID NO：1-749)产生的第一链cDNA的合成，以提供另外的选择靶分子的步骤。本发明这方面的试剂包括，包含SEQ ID NO：750-1498所示的核酸序列的至少10％的寡核苷酸群。在一些实施方案中，本发明提供了含寡核苷酸群的试剂，所述寡核苷酸群包括SEQ ID NO：750-1498所示的6核苷酸序列的至少10％(例如20％，30％，40％，50％，60％，70％，80％，85％，90％，95％，或99％)。在一些实施方案中，选择寡核苷酸群以与样品中存在的、除从核糖体RNA和线粒体rRNA合成的第一链cDNA以外的基本上所有的第一链cDNA分子杂交。在其他实施方案中，选择寡核苷酸群以与样品中存在的第一链cDNA分子的子集杂交，其中第一链cDNA分子的子集不包括从核糖体RNA合成的cDNA分子。

在另一实施方案中，本发明提供了含寡核苷酸群的试剂，其中含转录启动子例如T7启动子的确定序列部分位于具有如SEQ ID NO：1-749所示序列的寡核苷酸群的成员的5’端。因此，在一些实施方案中，本发明提供了含寡核苷酸群的试剂，其中每一寡核苷酸由位于具有如SEQ ID NO：1-749所示序列的寡核苷酸群的不同成员的5’端的T7启动子(SEQ ID NO：1508)组成。在另一实施方案中，本发明提供了含寡核苷酸群的试剂，其中含引物结合位点(例如PBS#1)的确定序列部分，位于具有如SEQ ID NO：1-749所示序列的寡核苷酸群的成员的5’端。因此，在一些实施方案中，本发明提供了含寡核苷酸群的试剂，其中每一寡核苷酸由位于具有如SEQ ID NO：1-749所示序列的寡核苷酸群的不同成员的5’端的引物结合位点(例如PBS#1)(SEQ ID NO：1499)组成。在一些实施方案中，本发明提供了进一步包含至少一个随机核苷酸的间隔子区的试剂，所述间隔子区位于引物结合位点和具有如SEQ ID NO：1-749所示序列的寡核苷酸群的不同成员之间。

在另一实施方案中，本发明提供了含寡核苷酸群的试剂，其中含转录启动子例如T7启动子的确定序列部分，位于具有如SEQ ID NO：750-1498所示序列的寡核苷酸群的成员的5’端。因此，在一些实施方案中，本发明提供了含寡核苷酸群的试剂，其中每一寡核苷酸由位于具有如SEQ ID NO：750-1498所示序列的寡核苷酸群的不同成员的5’端的T7启动子(SEQ ID NO：1508)组成。在另一实施方案中，本发明提供了含寡核苷酸群的试剂，其中含引物结合位点(例如PBS#2)的确定序列部分，位于具有如SEQ ID NO：750-1498所示序列的寡核苷酸群的成员的5’端。因此，在一些实施方案中，本发明提供了含寡核苷酸群的试剂，其中每一寡核苷酸由位于具有如SEQ ID NO：750-1498所示序列的寡核苷酸群的不同成员的5’端的引物结合位点(PBS#2)(SEQ ID NO：1500)组成。在一些实施方案中，本发明提供了进一步包含至少一个随机核苷酸的间隔子区的试剂，所述间隔子区位于引物结合位点和具有如SEQ ID NO：750-1498所示序列的寡核苷酸群的不同成员之间。

本发明的试剂可以以水性溶液，或去除了水的水性溶液，或冻干固体的形式提供。

在进一步的实施方案中，本发明的试剂可以包括用于产生双链cDNA的一种或多种下列成分：逆转录酶，DNA聚合酶，DNA连接酶，RNA酶H，Tris缓冲液，钾盐，镁盐，铵盐，还原剂，脱氧核苷三磷酸(dNTP)，[β]-烟酰胺腺嘌呤二核苷酸([β]-NAD+)，和核糖核酸酶抑制剂。例如，试剂可以包括经优化用于第一链cDNA合成的成分，例如具有减少的RNA酶H活性和增加的热稳定性的逆转录酶(例如Superscript^TM III Reverse Transcriptase，Invitrogen)，和终浓度范围在50 5000μM的dNTP，或者更优选地，终浓度范围在1000 2000μM的dNTP。

另一方面，本发明提供了选择性扩增获自哺乳动物受试者的样品中的RNA模板分子群中的靶核酸分子群的试剂盒。在一些实施方案中，试剂盒包括(a)含第一寡核苷酸引物群的第一试剂，其中确定序列部分例如引物结合位点(PBS#1)位于由6个核苷酸组成的杂交部分的5’端，所述杂交部分选自具有6个核苷酸的长度的、在确定的条件下不与RNA模板分子群中的非靶核酸分子群杂交的所有可能的寡核苷酸，其中所述非靶核酸分子群基本上由RNA模板分子群中的最高丰度的核酸分子组成，(b)含第二寡核苷酸引物群的第二试剂，其中确定序列部分例如引物结合位点(PBS#2)位于由6个核苷酸组成的杂交部分的5’端，其中所述杂交部分选自第一寡核苷酸引物群的杂交部分的核苷酸序列的反向互补序列，和(c)与第一寡核苷酸群的第一确定序列部分结合的第一PCR引物以及与第二寡核苷酸群的第二确定序列部分结合的第二PCR引物。

在一些实施方案中，第一试剂包括具有SEQ ID NO：1-749所示序列的寡核苷酸群的成员。因此，在一些实施方案中，本发明提供了包含含有第一寡核苷酸群的第一试剂的试剂盒，其中每一寡核苷酸由位于具有如SEQ ID NO：1-749所示序列的寡核苷酸群的不同成员的5’端的第一引物结合位点(PBS#1)(SEQ IDNO：1499)组成。在一些实施方案中，本发明提供了包含含有第二寡核苷酸群的第二试剂的试剂盒，其中每一寡核苷酸由位于具有如SEQ ID NO：750-1498所示序列的寡核苷酸群的不同成员的5’端的第二引物结合位点(PBS#2)(SEQ IDNO：1500)组成。在一些实施方案中，本发明提供了包含第一PCR引物和第二PCR引物的试剂盒，其中所述第一PCR引物包含与第一寡核苷酸群的确定序列部分杂交的至少10个连续核苷酸，且任选地包括不与第一寡核苷酸群杂交的另外的序列尾部，所述第二PCR引物包含与第二寡核苷酸群的确定序列部分杂交的至少10个连续核苷酸，且任选地包括不与第二寡核苷酸群杂交的另外的序列尾部。在一个实施方案中，第一PCR引物由SEQ ID NO：1501组成，第二PCR引物由SEQ ID NO：1502组成。该实施方案的试剂盒可用于，从用本发明的NSR引物(SEQID NO：1-749)和反-NSR引物(SEQ ID NO：750-1498)产生的cDNA产生扩增的PCR产物。

根据本文描述的方法，本发明的试剂盒可设计用于检测任何靶核酸群，例如细胞或组织中表达的、除最高丰度表达的RNA以外的所有RNA。示例性寡核苷酸引物的非限制性实例，包括SEQ ID NO：1-749。引物结合区的非限制性实例示于SEQ ID NO：1499和1500中。

间隔子部分可以包括核苷酸的任意组合，包括与靶RNA杂交的核苷酸。

在一些实施方案中，试剂盒包括包含具有6，7，或8个核苷酸的杂交部分的寡核苷酸引物的试剂。

在一些实施方案中，试剂盒包括包含可用于检测多个哺乳动物mRNA靶的寡核苷酸引物群的试剂。

在一些实施方案中，试剂盒包括在40℃-50℃的温度范围内杂交的寡核苷酸。

在另一实施方案中，试剂盒包括不检测rRNA或线粒体rRNA的寡核苷酸子群。用于本实施方案的试剂盒的示例性寡核苷酸，提供于SEQ ID NO：1-749和SEQ ID NO：750-1498。

在一些实施方案中，试剂盒包括含寡核苷酸群的试剂，所述寡核苷酸群包含SEQ ID NO：1-749所示的6核苷酸序列的至少10％(例如至少20％，30％，40％，50％，60％，70％，80％，85％，90％，95％，或99％)。

在一些实施方案中，试剂盒包括含寡核苷酸群的试剂，所述寡核苷酸群包含SEQ ID NO：750-1498所示的6核苷酸序列的至少10％(例如至少20％，30％，40％，50％，60％，70％，80％，85％，90％，95％，或99％)。

在一些实施方案中，试剂盒包含寡核苷酸，其中转录启动子包括T7启动子(SEQ ID NO：1508)，SP6启动子(SEQ ID NO：1509)，或T3启动子(SEQ ID NO：1510)。

在另一实施方案中，试剂盒可以包括寡核苷酸，所述寡核苷酸具有含有核苷酸的任意组合的1-12个核苷酸的间隔子部分。

在本发明的一些实施方案中，试剂盒可进一步包括用于产生cDNA的一种或多种下列组分：逆转录酶，DNA聚合酶，DNA连接酶，RNA酶H，Tris缓冲液，钾盐(例如氯化钾)，镁盐(例如氯化镁)，铵盐(例如硫酸铵)，还原剂(例如二硫代苏糖醇)，脱氧核苷三磷酸(dNTP)，[β]-烟酰胺腺嘌呤二核苷酸([β]-NAD+)，和核糖核酸酶抑制剂。例如，试剂盒可以包括经优化用于第一链cDNA合成的组分，例如具有减少的RNA酶H活性和增加的热稳定性的逆转录酶(例如Superscript^TM III Reverse Transcriptase，Invitrogen)，和dNTP储备液以提供终浓度范围在50 5000μM，或者更优选地，终浓度范围在1000 2000μM的dNTP。

在各种实施方案中，试剂盒可以包括检测剂，例如SYBR绿色染料或BEBO染料，其在PCR扩增步骤期间优先或专有地结合双链DNA。在其他的实施方案中，试剂盒可以包括正向和/或反向引物，所述引物含荧光团和淬灭剂以检测PCR扩增产物的量。

本发明的试剂盒还可提供用于扩增的cDNA的体外转录的试剂。例如，在一些实施方案中，试剂盒可以进一步包括一种或多种下列组分：RNA聚合酶，IPPase(磷酸肌醇1-磷酯酶)酶，转录缓冲液，Tris缓冲液，钠盐(例如氯化钠)，镁盐(例如氯化镁)，亚精胺，还原剂(例如二硫代苏糖醇)，核苷三磷酸(ATP，CTP，CTP，UTP)，和氨基-烯丙基-UTP。

在另一实施方案中，试剂盒可以包括使用Cy3或Cy5染料标记体外转录产物的试剂，其用于将标记的cDNA样品与微阵列杂交。

在另一实施方案中，试剂盒可以包括用于标记双链PCR产物的试剂。例如，试剂盒可以包括用于在PCR期间掺入修饰碱基例如氨基-烯丙基dUTP的试剂，其随后可与胺反应性Cy染料化学偶联。在另一实例中，试剂盒可以包括用于将Cy染料与鸟嘌呤残基直接化学连接以标记PCR产物的试剂。

在另一实施方案中，试剂盒可以包括用于测序双链PCR产物的一种或多种下列试剂：Taq DNA聚合酶，T4多核苷酸激酶，核酸外切酶I(大肠杆菌(E.coli))，测序引物，dNTP，终止(脱氮)混合物(混合物G，混合物A，混合物T，混合物C)，DTT溶液，和测序缓冲液。

试剂盒任选地包括在选择性扩增mRNA靶中使用试剂盒的说明书。试剂盒还可任选地提供对扩增的cDNA分子进行体外转录的说明书，和标记体外转录产物且将体外转录产物与微阵列杂交的说明书。试剂盒还可以提供标记和/或测序的说明书。试剂盒还可以提供，将PCR产物克隆入表达载体以产生代表取样时样品的转录组的表达文库的说明书。

另一方面，本发明提供了选择性扩增靶核酸分子群以产生选择性扩增的cDNA分子的方法。本发明这方面的方法包括：(a)提供第一寡核苷酸群，其中每一寡核苷酸包括杂交部分和位于杂交部分5’端的第一PCR引物结合位点，(b)将第一寡核苷酸群与分离自哺乳动物受试者的包含RNA模板的样品退火，(c)用逆转录酶从RNA合成cDNA，(d)用DNA聚合酶和第二寡核苷酸群合成双链cDNA，其中每一寡核苷酸包括杂交部分和位于杂交部分5’端的第二PCR结合位点，其中杂交部分为含SEQ ID NO：750-1498的寡核苷酸群的成员，和(e)纯化双链cDNA分子。在一些实施方案中，该方法进一步包括PCR扩增双链cDNA分子。图1C显示了本发明这方面的方法的代表性实施方案。如图1C所示，在该方法的一个实施方案中，第一引物混合物包括位于杂交部分5′端的第一PCR引物结合位点(PBS#1)，其中杂交部分包括随机9聚体群。

在另一实施方案中，本发明提供了选择性扩增靶核酸分子群以产生选择性扩增的aDNA分子的方法。图1D显示了本发明这方面的方法的代表性实施方案。如图1D所示，第一引物混合物包括位于杂交部分5′端的第一PCR引物结合位点(PBS#1)，其中杂交部分为含SEQ ID NO：1-749的寡核苷酸群的成员。该方法进一步包括用热稳定DNA聚合酶、与第一PCR引物结合位点结合的第一PCR引物、以及与第二PCR引物结合位点结合的第二PCR引物，PCR扩增双链cDNA，以产生扩增的双链DNA(aDNA)。如图1D所示，在一些实施方案中，该方法进一步包括对至少一部分aDNA进行测序的步骤。

本文描述的方法和试剂可用于实施本发明的这方面。根据本发明的这方面，任何DNA-依赖性DNA聚合酶都可用于从第一链cDNA合成第二链DNA分子。例如，可以使用DNA聚合酶I的Klenow片段合成第二链DNA分子。可以使用包含由6-9个核苷酸组成的杂交部分且进一步包含位于杂交部分5’端的确定序列部分的第二寡核苷酸群，来引发第二链DNA分子的合成。

确定序列部分可以包括任何合适的序列，只要该序列与第一寡核苷酸群所包含的确定序列不相同。取决于选择的引物序列，这些确定序列部分例如可用于选择性指导第二DNA分子的DNA依赖性RNA合成，和/或通过DNA依赖性DNA合成来扩增双链cDNA模板。

双链DNA分子的纯化。第二DNA分子的合成产生了双链DNA分子群，其中第一DNA分子与第二DNA分子杂交，如图1D所示。通常，纯化双链DNA分子，以除去基本上所有短于50个碱基对的核酸分子，包括所有或基本上所有(例如通常超过99％)的第二引物。优选地，纯化方法选择性地纯化基本上为双链的DNA分子，而除去基本上所有未配对的单链核酸分子，例如单链引物。可以使用任何本领域已知的方法，例如通过经由大小分级分离柱的洗脱来实现纯化。例如，然后可沉淀纯化的第二DNA分子，并将其溶解于合适的缓冲液，以用于本发明这方面的方法的下一步。

双链DNA分子的扩增。在本发明这方面的方法的实施中，使用聚合酶链式反应将双链DNA分子用作酶扩增的模板。任何合适的引物可用于引发聚合酶链式反应。通常，使用两种引物--一种引物与第一引物序列的确定部分(或其互补序列)杂交，和另一种引物与第二引物序列的确定部分(或其互补序列)杂交。

PCR扩增条件。通常，在聚合酶链式反应期间，扩增循环的数目越大，所获得的扩增的DNA的数量就越多。另一方面，过多的扩增循环将导致双链DNA的随机偏倚扩增。因此，在一些实施方案中，期望的扩增循环数为5-40个扩增循环，例如5-35个，例如10-30个扩增循环。

关于温度条件，通常，循环包括解链温度例如95℃，退火温度(其在约40℃-70℃之间)，延伸温度(通常约72℃)。关于退火温度，在一些实施方案中，退火温度为约55℃-65℃，更优选约60℃。

在一个实施方案中，用于本发明该方面的扩增条件包括，10个循环的(95℃，30秒；60℃，30秒；72℃，60秒)，接着20个循环的(95℃，30秒；60℃，30秒，72℃，60秒(每循环的延伸步骤+10秒))。

关于用于本发明这方面的方法的PCR反应组分，dNTP通常在反应中以50μM-2000μM的dNTP，更优选地800-1000μM存在。MgCl₂通常在反应中以0.25mM-10mM，更优选地约4mM存在。正向和反向PCR引物通常在反应中以约50nM-2000nM存在，更优选地以约1000nM的浓度存在。

DNA标记。任选地，扩增的DNA分子可用染料分子进行标记，以易于在杂交试验中用作探针，例如用于筛选DNA芯片的探针。可以使用任何合适的染料分子，例如荧光团和化学发光剂。实施例5提供了将染料分子与扩增的DNA分子连接的示例性方法。

例如，本发明这方面的方法可用于分析含总RNA的生物学样品的转录组特征谱。在一些实施方案中，根据本发明这方面的方法产生的、通过用NSR引发第一链cDNA并用反-NSR引发第二链合成从cDNA产生的扩增的aDNA，可被标记以用于基因表达试验中，从而提供了基于杂交的试剂，其与从NSR-引发的cDNA产生的扩增的RNA相比，通常产生较低水平的背景。

在本发明这方面的一些实施方案中，第一和/或第二引物结合区的确定序列部分进一步包括一个或多个限制性酶切位点，从而产生具有一个或多个位于扩增部分侧翼的限制性酶切位点的扩增的双链DNA产物群。这些扩增产物可直接用于序列分析，或者可通过用限制性酶消化而释放并亚克隆入任何期望的载体，例如表达载体以用于进一步的分析。PCR产物的测序分析可用任何DNA测序方法进行，例如Sanger双脱氧链终止法，染料终止子测序法，或美国专利7,232,656中记载的高通量测序方法(Solexa)，其通过引用并入本文。

另一方面，本发明提供了选择性扩增的核酸分子群，其包括从哺乳动物受试者分离的样品中的RNA模板分子群中的靶核酸分子群的代表，其中每一扩增的核酸分子包括：位于扩增的核酸序列群的成员的侧翼的5’确定序列部分，以及3’确定序列，其中选择性扩增的序列群包括与哺乳动物受试者表达的靶RNA分子相对应的扩增的核酸序列，并且就特定的哺乳动物物种而言，其特征在于具有下列性质：(a)具有超过75％的多聚腺苷酸化和非多聚腺苷酸化的转录本，和具有少于10％的核糖体RNA(例如rRNA(18S或28S)和mt-RNA)。

本发明这方面的选择性扩增的核酸分子群，可用本文记载的本发明的方法产生。可将选择性扩增的核酸分子群克隆入表达载体以构建文库。可选地，可将选择性扩增的核酸分子群固定于基质上以制备扩增产物的微阵列。微阵列可以包括固定于固体或半固体基质上的至少一个扩增产物，所述基质由选自下列的材料制成：纸，玻璃，陶瓷，塑料，聚苯乙烯，聚丙烯，尼龙，聚丙烯酰胺，硝化纤维，硅，金属，和光学纤维。扩增产物可以固定于二维构型或三维构型的固体或半固体基质上，所述二维构型或三维构型包括针形，棒形，纤维形，带形，线形，珠形，颗粒形，微滴定孔形，毛细管形和圆柱体形。

下列实施例仅用于举例说明目前预期实施本发明的最佳方式，而不应解释为对本发明的限制。

实施例1

本实施例描述了749个6-聚体寡核苷酸(SEQ ID NO：1-749)的第一群(不那么随机的，″NSR″)的选择，所述寡核苷酸与哺乳动物细胞表达的所有或基本上所有的RNA分子杂交，但不与细胞核核糖体RNA(18S和28S rRNA)或线粒体核糖体RNA(12S和16S mt-rRNA)杂交。还产生了与NSR寡核苷酸反向互补的第二反-NSR寡核苷酸群(SEQ ID NO：750-1498)。NSR寡核苷酸群可用于引发第一链cDNA合成，反-NSR寡核苷酸群可用于引发第二链cDNA合成。

基本原理：

随机6-聚体(N6)可在RefSeq数据库的转录本序列(称为“核苷酸序列”)的每一核苷酸位置上退火，如图1A所示。在除去其反向互补序列与细胞核核糖体RNA(18S和28S rRNA)和线粒体核糖体RNA(12S和16S mt-rRNA)完美匹配的6-聚体之后，剩余的NSR寡核苷酸(SEQ ID NO：1-749)与RefSeq数据库的核酸序列(称为“核苷酸序列”)上的每4-5个核苷酸完美匹配，如图1B所示。

方法：

对所有可能的4,096种6-聚体寡核苷酸进行计算，其中每一核苷酸为A，T(或U)，C，或G。将每一6-聚体寡核苷酸的反向互补序列，与18S和28S rRNA的核苷酸序列及12S和16S线粒体rRNA的核苷酸序列进行比较，如下文表1所示。

表1：核糖体RNA

与表1所示的任何人细胞核rRNA转录本序列具有完美匹配的反向互补6-聚体寡核苷酸被去除(总计2,781个序列)。749个6-聚体(SEQ ID NO：1-749)的反向互补序列，不与rRNA转录本的任何部分完美匹配。与线粒体rRNA匹配的也被去除(566个)，由此剩余749个寡核苷酸6-聚体(4096(所有6聚体)-2782(与真核-rRNA匹配的)-566(与线粒体-rRNA匹配的))＝总计749个。

与rRNA基因和mt-rRNA基因的任何部分不具有完美匹配的749个6-聚体寡核苷酸(SEQ ID NO：1-749)，被称为不那么随机的(″Not-So-Random″，″NSR″)引物。因此，749个6-聚体的群(SEQ ID NO：1-749)可以扩增除18S，28S，和线粒体rRNA(12S和16S)以外的所有转录本。

如实施例2所描述的，NSR寡核苷酸群(SEQ ID NO：1-749)可用于引发第一链cDNA的合成，然后可用随机引物或反-NSR引物进行第二链的合成。

如实施例2所进一步描述的，反-NSR寡核苷酸群(SEQ ID NO：750-1498)可用于引发第二链cDNA的合成。如图1C所示，可用随机引物进行第一链cDNA的合成，接着用反-NSR引物进行第二链cDNA的合成。可选地，如图1D所示，可用NSR引物进行第一链cDNA的合成，接着用反-NSR引物进行第二链cDNA的合成。

应用于其他类型的RNA样品。对于除人类以外的哺乳动物细胞(例如大鼠，小鼠)的基因特征谱分析而言，可以通过从各哺乳动物物种，除去相应于18S和28S的基因的细胞核核糖体rRNA，以及除去相应于12S和16S的基因的线粒体核糖体rRNA，来进行类似的方法。

植物细胞的基因特征谱分析也可以通过构建去除了叶绿体核糖体RNA的不那么随机的(Not-So-Random，NSR)引物群来进行。

实施例2

本实施例显示，用NSR引物和反-NSR引物对总RNA的扩增，选择性地减少不期望的非靶核糖体序列的引发。

方法：

为构建新引物文库，如下单独地合成引物：

如实施例1所述，产生第一NSR-6聚体引物群(SEQ ID NO：1-749)和第二反-NSR-6聚体引物群(SEQ ID NO：750-1498)。

用于第一链cDNA合成的NSR。在一些实施方案中，用于第一链cDNA合成的NSR引物的第一引物组(SEQ ID NO：1-749)进一步包括下列5′引物结合序列：

共价连接于5′端的PBS#1：5′TCCGATCTCT 3′(SEQ ID NO：1499)(另称为″尾″)，

从而产生具有下列构型的寡核苷酸群：

5′PBS#1(SEQ ID NO：1499)+NSR-6聚体(SEQ ID NO：1-749)3′。

在另一实施方案中，产生寡核苷酸群，其中每一NSR-6聚体任选地包括至少一个间隔子核苷酸(N)(其中每一个N＝A，G，C，或T)，其中(N)位于5′PBS#1与NSR-6聚体之间。间隔子区可以包括1个核苷酸直至10个或更多个核苷酸(N＝1-10)，从而产生具有下列构型的寡核苷酸群：

5′PBS#1(SEQ ID NO：1499)+(N_1-10)+NSR-6聚体(SEQ ID NO：1-749)3′。

用于第二链cDNA合成的反-NSR。在一些实施方案中，用于第二链cDNA合成的反-NSR-6聚体引物群(SEQ ID NO：750-1498)进一步包括下列5′引物结合序列：

共价连接至反-NSR-6聚体引物的5′端的PBS#2：5’TCCGATCTGA 3′(SEQ IDNO：1500)(另称为″尾″)，

从而产生下列构型：

5′PBS#2(SEQ ID NO：1500)+反-NSR-6聚体(SEQ ID NO：750-1498)3′。

在另一实施方案中，产生寡核苷酸群，其中每一反-NSR-6聚体任选地包括至少一个间隔子核苷酸(N)(其中每一个N＝A，G，C，或T)，其中(N)位于5′PBS#2与反-NSR-6聚体之间。

间隔子区可以包括1个核苷酸直至10个或更多个核苷酸(N＝1-10)，从而产生具有下列构型的寡核苷酸群：

5′PBS#2(SEQ ID NO：1500)+(N_1-10)+反-NSR-6聚体(SEQ ID NO：750-1498)3′。

正向和反向引物(用于PCR扩增)。合成下列正向和反向引物以扩增双链cDNA，所述cDNA用具有PBS#1(SEQ ID NO：1499)尾的NSR-6聚体和具有PBS#2(SEQ ID NO：1500)尾的反-NSR-6聚体产生。

NSR_F_SEQ引物1：5′N₍₁₀₎TCCGATCTCT-3′(SEQ ID NO：1501)，其中每一个N＝G，A，C，或T。

NSR_R_SEQ引物1：5′N₍₁₀₎TCCGATCTGA-3′(SEQ ID NO：1502)，其中每一个N＝G，A，C，或T。

在如上所述的实施方案中，正向引物(SEQ ID NO：1501)和反向引物(SEQ IDNO：1502)的最5′末端区域各自包括10聚体(N)核苷酸序列。在另一实施方案中，正向引物(SEQ ID NO：1501)和反向引物(SEQ ID NO：1502)的最5′末端区域各自包括多于10个的(N)核苷酸，例如至少20个(N)核苷酸，至少30个(N)核苷酸，或至少40个(N)核苷酸，以利于扩增的PCR产物的DNA测序。

对照引物。下列引物用于扩增对照反应(其用随机引物库扩增)：

将下列引物结合位点添加至随机引物：

Y4F：5′CCACTCCATTTGTTCGTGTG 3′(SEQ ID NO：1506)

Y4R：5′CCGAACTACCCACTTGCATT 3′(SEQ ID NO：1507)

与随机引物(N＝7或N＝9)或NSR引物一起的下列引物结合位点：

Y4R-N7(第一链cDNA)：

5′CCGAACTACCCACTTGCATTNNNNNNN 3′(SEQ ID NO：1503)[其中N＝A，G，C，或T]

Y4R-NSR(第一链cDNA)：

共价连接至NSR引物的5′CCGAACTACCCACTTGCATTN 3′(SEQ ID NO：1504)，所述NSR引物包括6-聚体NSR寡核苷酸的核心组，与球蛋白(α或β)不完美匹配，与rRNA(18S，28S)不完美匹配。

Y4F-N9(第二链cDNA合成)：

5′CCACTCCATTTGTTCGTGTGNNNNNNNNN 3′(SEQ ID NO：1505)[其中N＝A，G，C，或T]

Y4F 5′CCACTCCATTTGTTCGTGTG 3′(SEQ ID NO：1506)

Y4R 5′CCGAACTACCCACTTGCATT 3′(SEQ ID NO：1507)

其他任选的引物库构型。将可用作引物结合位点的其他引物共价连接至NSR库，以将转录启动子添加至扩增的cDNA产物：

T7：5′AATTAATACGACTCACTATAGGGAGA 3′(SEQ ID NO：1508)

SP6：5′ATTTAGGTGACACTATAGAAGNG 3′(SEQ ID NO：1509)

T3：5′AATTAACCCTCACTAAAGGGAGA 3′(SEQ ID NO：1510)

用于扩增RNA的引物库构型。如上所述分别合成引物，并将其以下列构型进行混合，然后将引物库用于从总RNA产生扩增的核酸的文库，如下所述的。

表2：引物库构型

PM＝在引物最3′-末端6nt上完美匹配

R＝rRNA(18S或28S)

M＝mt-rRNA(12S或16S)

G＝球蛋白(HBA1，HBA2，HBB，HBD，HBG1，HBG2)

表3：用于RNA扩增试验的引物组

cDNA合成与PCR扩增。该方案涉及如下的三步扩增法：(1)通过逆转录反应从RNA产生第一链cDNA，所述逆转录反应用含第一引物结合位点(PBS#1)的NSR引物引发，以产生NSR引发的第一链cDNA；(2)用含第二引物结合位点(PBS#2)的反-NSR引物，引发第二链cDNA的合成；和(3)用与第一和第二引物结合位点相结合的正向和反向引物，PCR扩增合成的cDNA，以产生扩增的DNA(aDNA)。

表4：用于第一和第二链合成的引物

反应条件：

细胞系Jurkat(T淋巴细胞，ATCC No.TIB-152)和K562(慢性髓性白血病，ATCC No.CCL-243)的总RNA获自Ambion，Inc.(Austin，Texas)。

第一链逆转录：

如下进行第一链逆转录：

组合：

-1μl的1μg/μl Jurkat总RNA模板(获自Ambion，Inc.(Austin，Texas))

-2μl的100μM储备NSR引物库(如表2所述)

-7μl H₂O至终体积10μl。

在70℃混合并温育5分钟，在冰上迅速冷却。

加入含有下列成分的10μl RT混合物(在冰上制备)：

-4ul 5X第一链缓冲液(250mM Tris-HCL，pH 8.3，375mM KCl，15mMMgCl₂)

-1.6μl 25mM dNTP(高)或1.0ul 10mM dNTP(低)

-1μl H₂O

-1μl 0.1M DTT

-1μl RNAse OUT(Invitrogen)

-1μl MMLV逆转录酶(200单位/μl)(Superscript III^TM(SSIII)，Invitrogen Corporation，Carlsbad，California)

将样品混合，在23℃温育10分钟，然后转移至40℃预热的热循环仪(以提供“热启动”)，接着将样品在40℃温育30分钟，在70℃温育15分钟，并冷却至4℃。

然后加入1μl RNA酶H(1-4单位/μl)，之后将样品在37℃温育20分钟，然后加热至95℃5分钟，之后在4℃迅速冷却。

第二链合成：

如下制备第二链合成的混合物：

-10μl 10X Klenow缓冲液

-4μl反-NSR引物(100μM)

-5.0μl 10mM dNTP

-56.7μl H₂O

-0.33μl Klenow酶(5U/μl)

将80μl的第二链合成混合物加入至20μl的第一链模板反应混合物中，在37℃混合和温育30分钟，之后在4℃迅速冷却。

cDNA扩增：

利用获自Ambion的Spin Cartridges(Message Amp^TM II aRNAAmplification Kit，Ambion Cat #AM1751)和试剂盒中提供的缓冲液，按照厂商说明书对所得到的双链cDNA进行纯化。从柱中洗脱30μl的总体积，其中20μl用于后续PCR。

PCR扩增：

在1μl纯化的cDNA模板(以1∶5稀释)中加入下列混合物：

-10μl 5X Roche Expand Plus PCR缓冲液

-2.5μl 10mM dNTP

-2.5μl正向PCR引物(10μM储备液)(SEQ ID NO：1501)

-2.5μl反向PCR引物(10μM储备液)(SEQ ID NO：1502)

-0.5μl Taq DNA聚合酶

-27μl H₂O

-4μl 25mM MgCl₂

PCR扩增条件：

PCR程序#1：

94℃2分钟

94℃10秒

8个循环的：

-60℃10秒

-72℃60秒

-94℃15秒

17个循环的：

-60℃30秒

-72℃60秒+10秒/循环

72℃5分钟以延伸完全，并在4℃冷却。

PCR程序#2：

94℃2分钟

94℃10秒

2个循环的：

-40℃10秒

-72℃60秒

-94℃10秒

8个循环的：

-60℃30秒

-72℃60秒

-94℃15秒

15个循环的：

-60℃30秒

-72℃60秒+10秒/循环

72℃5分钟以延伸完全，并在4℃冷却。

cDNA合成的结果：

根据下列方面分析结果：(1)测量扩增的DNA″aDNA″的产量，(2)在琼脂糖凝胶上评估aDNA的等份，以确定cDNA种类群体是否等同地表现，和(3)通过qPCR测量选择的报告基因的扩增水平(如实施例3所述)。

在2％琼脂糖凝胶上分析PCR产物。观察利用PCR扩增程序#2的测试条件和对照反应的100-1000bp之间的DNA条带，其显示多个RNA种类的cDNA合成和PCR扩增获得成功。用PCR扩增程序#1成功进行对照反应，如通过100-1000bp之间的DNA条带的存在所确定的；然而，测试条件均没有扩增出DNA条带。相反地，观察到可能由引物二聚体产生的低分子量片段(未纯化的PCR产物)。因此，这些结果显示，对于具有短(10nt)扩增尾的PCR扩增而言，低温退火(40℃)是重要的。

还确定，与低dNTP浓度(10mM)的dNTP相比，在第一链cDNA合成期间高dNTP浓度(25mM)增加cDNA产物的特异性(数据未显示)。

还确定，在NSR引物库仅用于第一链cDNA合成、之后随机引发第二链合成的情形下，RNA酶H处理减少了来自扩增的rRNA的污染的量。然而，在NSR引物用于引发第一链合成、之后用反-NSR引物引发第二链合成的情形下，则末发现RNA酶处理影响得到的cDNA产物的特异性。虽然对于增加特异性不重要，然而将RNA酶加入至用反-NSR引物进行的第二链cDNA合成，以在Klenow反应期间通过使cDNA更易获得(作为模板)来提高反应效率。

总之，已发现，在第二链合成期间使用反-NSR引物，可为靶核酸分子的选择性扩增提供数个出乎意料的优点。例如，出乎意料地发现，在使用反-NSR引物的第二链合成期间，rRNA消耗的量，与在逆转录期间用NSR引物观察到的rRNA消耗的量几乎相同。此外，出乎意料的是，在使用Klenow酶的标准反应条件下，获得了第二链合成期间的引发特异性。该结果显示，利用多种聚合酶和核酸模板，短寡核苷酸可用于特异性引发DNA的合成，然而，决定引发特异性的反应条件可能是酶特异性的。

实施例3

本实施例显示，用于第一链cDNA合成的749个NSR 6-聚体(SEQ ID NO：1-749)(每一个具有共价连接于5′端的PBS#1(SEQ ID NO：1499+N间隔子))，然后749个反-NSR 6-聚体(SEQ ID NO：750-1498)(每一个具有共价连接于5′端的PBS#2(SEQ ID NO：1500+N间隔子))，引发存在于含总RNA的样品中的转录组的实质级分的扩增。

方法：

在实施例2描述的PCR扩增之后，每一PCR反应用Qiagen MinElute旋柱进行纯化。用80％乙醇洗涤柱，用20μL洗脱缓冲液洗脱。用NanoDrop仪通过UV/VIS分光计定量产量。然后将样品稀释并用下列测定通过定量PCR(qPCR)进行表征：

使用7900HT PCR仪(Applied Biosystems，Foster City，CA)在384-孔光学PCR板中，通过定量PCR(qPCR)在10μl终反应体积中，对2μl cDNA进行一式两份的测量。使用制造商推荐的条件，用表5和表6中所示的探针，使用ABI

测定进行qPCR。

表6：报告基因探针

在qPCR后，将结果表格输入到Excel(Microsoft Corp.，Redmond，WA)，根据原始数据回归样品的定量分析(丰度＝10^{[(Ct-5)/-3.4]})。

结果：

图3A为对数标尺上的柱形图，其显示，与用随机引物(N8＝100％)产生的未扩增的cDNA相比较，用表4所示的各种NSR库产生的第一链cDNA合成的18S，28S，12S和16S的相对丰度(相对于基因和N8标准化)。如图3A所示，与用随机8-聚体产生的cDNA相比较，用NSR#1+NSR#3引物库(不与mt-rRNA或rRNA杂交的NSR-6聚体)进行第一链cDNA合成，并且用反-NSR#5和反-NSR#7引物库进行第二链合成而产生的cDNA，显示出rRNA丰度的实质减少(0.086％18S；0.673％28S)以及减少的mt-rRNA丰度(1.807％12S；8.512％16S)。

图3B图示了，与在第一链中使用NSR-6聚体引物(SEQ ID NO：1-749)然后在第二链中使用随机引物(N7)扩增的cDNA(NSR-6聚体＞N7＝3.0％18S，3.4％28S)相比较，以及与在第一链中使用NSR-6聚体引物(SEQ ID NO：1-749)然后在第二链中使用反-NSR-6聚体引物(SEQ ID NO：750-1498)扩增的cDNA(NSR-6聚体＞反-NSR-6聚体＝0.1％18S，0.5％28S)相比较，在第一链和第二链合成中均使用随机引物(N7)扩增的对照cDNA中细胞核rRNA(18S或28S)的相对丰度水平(N7＞N7＝100％18S，100％28S)。当测量线粒体rRNA时，图3C中的结果显示了相同的趋势，N7＞N7＝100％12S，或16S；NSR-6聚体＞N7＝27％12S，20.4％16S；以及NSR-6聚体＞反-NSR-6聚体＝8.2％12S，3.5％16S。

为了确定从用各种NSR和反-NSR库合成的cDNA产生的PCR扩增的aDNA是否保留了相应cDNA的靶基因表达特征谱，用9种随机选择的TaqMan试剂进行定量PCR分析，以检测下列基因：PPIA，SRP14，STMN1，TRIM63，ACTB，DBN1，EIFS3，GAPDH，和NUCB2。如表7和图4A所示，在用NSR和反-NSR引发的cDNA以及由其产生的aDNA中，测量到了测定的9种基因的可测量的信号(如从10μl cDNA模板输入确定的)。

图4A图示了，在第一链合成期间用各种NSR引物并且在第二链合成期间用反-NSR引物或随机引物而扩增的cDNA的基因特异性polyA的含量，如使用针对PPIA，SRP14，STMN1，TRIM63，ACTB，DBN1，EIF3S3，GAPDH和NUCB2的代表性基因特异性测定组所确定的。

通过首先将单独的rRNA转录测定的输入校正的原始丰度值组合，来计算图4A所示的polyA含量的相对丰度。将下降的rRNA转录本丰度值相对于在每一样品制备物中测量的NUCB2基因水平进行标准化，以使基因含量等于1.0。接着将针对扩增样品计算的rRNA/基因的比，相对于从未扩增的对照(N8)获得的值标准化，以便对于每一rRNA转录本，N8都等于100。因此，N8用作每一基因的丰度水平的标准值。

关于图4A和图4B的图例，参照表2和表3，saNSR.1是指在第一链合成期间使用NSR#1引物库，并且在第二链合成期间使用反-NSR#5引物库而扩增的cDNA(即，在第一链和第二链合成期间，除去了rRNA，mt-rRNA和球蛋白)。saNSR.1+2是指在第一链合成期间使用NSR#1+#2引物库，并且在第二链合成期间使用反-NSR#5+#6引物库而扩增的cDNA(即，在第一链和第二链合成期间，除去了rRNA和球蛋白，但没有除去mt-rRNA)。saNSR.1+3是指在第一链合成期间使用NSR#1+#3引物库，并且在第二链合成期间使用反-NSR#5+#7引物库而扩增的cDNA(即，在第一链和第二链合成期间，除去了rRNA和mt-rRNA，但没有除去球蛋白)。saNSR.1+4是指在第一链合成期间使用NSR#1+#4引物库，并且在第二链合成期间使用反-NSR#5+#8引物库而扩增的cDNA(即，在第一链和第二链合成期间，除去了rRNA，但没有除去mt-rRNA和球蛋白)。Y4R-NSR是指使用与球蛋白(α或β)不完美匹配并且与rRNA(18S，28S)不完美匹配的、包括6-聚体NSR寡核苷酸的核心组的NSR引物进行第一链合成，并且使用随机9-聚体引物进行第二链合成而扩增的cDNA(即，在第一链合成期间除去了球蛋白和rRNA但没有除去mt-rRNA，并且在第二链合成期间没有除去任何序列)。Y4-N7是指在第一链和第二链合成期间，用随机7-聚体引物扩增的cDNA。最后，N8是指使用随机8聚体的第一链合成(没有第二链合成)。

如图4A所示，除了基因TRIM63以外，引发第一链合成的NSR至少与随机引物同样有效地扩增基因特异性转录本。

图4B图示，在第一链cDNA合成期间用各种NSR引物从Jurkat-1和Jurkat-2总RNA扩增的cDNA中，非多聚腺苷酸化RNA转录本的相对丰度水平。如图4B所示，用NSR和反-NSR引物扩增的cDNA中，基因特异性含量被富集，而rRNA和mt-rRNA的含量减少。这显示，NSR-依赖性rRNA消除不是普遍效果，而是特异于要去除的靶转录本。该结果还显示，使用NSR-PCR，polyA-和polyA+转录本都可以再现地扩增。

图5图示，用NSR#1+#3引物库产生的cDNA中测量的Jurkat/K562 mRNA表达数据的对数比值(x-轴)，对用随机引物库N8(未扩增)产生的cDNA中测量的Jurkat/K562 mRNA表达数据的对数比值。该结果显示，NSR引发和PCR扩增保持不同样品中的信使RNA的相对丰度。

图6A图示，用常规方法polyA纯化之后通常所获得的总RNA中rRNA与mRNA的比例。如图6A所示，在polyA纯化之前，分离自哺乳动物细胞的总RNA，包括大约98％的rRNA和大约2％的mRNA及其他(非-polyA RNA)。如图所示，即使从总RNA中去除95％的rRNA(使用polyA纯化)，剩余的RNA仍然由大约50％的rRNA和50％的mRNA的混合物组成。

图6B图示，在第一链cDNA合成期间用NSR引物并且在第二链cDNA合成期间用反-NSR引物而制备的cDNA样品中，rRNA与mRNA的比例。如图6B所示，用NSR引物和反-NSR引物从总RNA产生cDNA，可有效去除99.9％的rRNA(包括细胞核和线粒体rRNA)，从而产生富集超过95％mRNA的cDNA群。这是相当显著的结果，因为以下几个理由。首先，使用polyA纯化或者依赖于与mRNA的polyA尾相结合的引物的策略，可排除含非-polyA的RNA分子，例如miRNA和其他感兴趣的分子，从而排除促成转录组丰富度的核酸分子。与之相比，在cDNA合成期间使用NSR引物和反-NSR引物的本发明的方法，不需要polyA选择，从而可保持转录组的丰富度。其次，在cDNA合成期间用NSR和反-NSR引物，可有效产生去除了99.9％rRNA的cDNA，从而产生具有少于10％rRNA污染的cDNA，如图6B所示。这与polyA纯化的mRNA和用随机引物进行的cDNA合成(其仅去除了98％的rRNA，从而产生具有大约50％mRNA和50％rRNA污染的cDNA)形成了对比，如图6A所示。

结论：

这些结果显示，NSR#1+#3引物库(SEQ ID NO：1-749)和反-NSR引物库(SEQID NO：750-1498)，对于第一链和第二链cDNA合成分别相当有效，从而产生了具有低水平(少于10％)的不想要的rRNA和mt-rRNA的、对于靶基因(包括多聚腺苷酸化和非-多聚腺苷酸化RNA)基本富集的双链cDNA产物。

实施例4

本实施例显示，使用749个NSR-6聚体(SEQ ID NO：1-749)(每一个在5′端共价连接有间隔子N和PBS#1(SEQ ID NO：1499))进行第一链cDNA合成，且使用749个反-NSR-6聚体(SEQ ID NO：750-1498)(每一个在5′端共价连接有间隔子N和PBS#2(SEQ ID NO：1500))，可引发转录组的实质级分(polyA+和polyA-)的扩增，但不引发总RNA中存在的不期望的非靶序列，如扩增的cDNA的序列分析所确定的。

方法：

用实施例2中描述的方法，用表8中显示的各种引物库，使用用于第一链cDNA合成的749个NSR-6聚体(SEQ ID NO：1-749)(每一个在5′端共价连接有间隔子N和PBS#1(SEQ ID NO：1499))且使用749个反-NSR-6聚体(SEQ IDNO：750-1498)(每一个在5′端共价连接有间隔子N和PBS#2(SEQ ID NO：1500))，产生cDNA。

表8：用于选择性扩增cDNA的方案

PCR扩增并柱纯化cDNA产物，如实施例2所述。接着用pCR-XL TOPO试剂盒(Invitrogen)，将柱纯化的PCR产物克隆入TOPO载体。用1μl的PCR产物，4μl的水和1μl的载体，进行TOPO连接反应。对化学感受态TOP 10 One Shot细胞(Invitrogen)进行转化，将其涂板至LB+Kan(50μg/mL)上，并在37℃生长过夜。用PCR扩增，就插入物筛选克隆。通过2％琼脂糖凝胶分析确定，所有克隆都具有至少100bp的插入物(数据未显示)。

然后将克隆用作模板，以进行DNA序列分析。对所得的序列进行公众数据库检索，以确定与rRNA种类和基因组的同源性。

结果：

表9提供，从用表8所示的各种引物库合成的cDNA产生的PCR产物的序列分析的结果。

表9：从选择性扩增的cDNA产生的aDNA的DNA序列分析的结果

1＝被确定与任何已知基因或mRNA包括外显子、内含子和UTR区有交叠，如通过与公众数据库进行序列比对而确定的。

2＝被确定与重复元件或基因间区域比对序列有交叠，如通过与公众数据库进行序列比对而确定的。

结论：

该结果显示，从用实施例2描述的NSR 6-聚体(SEQ ID NO：1-749)和反-NSR6-聚体(SEQ ID NO：750-1498)产生的双链cDNA模板扩增得到的aDNA(PCR产物)，保持了靶基因的富集(相对于细胞核核糖体RNA和线粒体核糖体RNA)。

实施例5

本实施例描述了可用于标记aDNA(PCR产物)，以随后用于基因表达监控应用的方法。

1、荧光标记至PCR产物的直接化学偶联。

Cy3和Cy5直接标记试剂盒获自Mirus(Madison，Wiscons in，kit MIR Product Numbers 3625和3725)。

如制造商所述，将如实施例2所述获得的10μg PCR产物(aDNA)与标记试剂一起温育。标记试剂将Cy3或Cy5共价连接至核酸样品，其随后可用于几乎任何分子生物学应用，例如基因表达监控。然后纯化标记的aDNA，并相对于起始标记测量其荧光。

结果：

如上所述，标记四种aDNA样品，并测量荧光。在四种标记的aDNA样品中观察到0.9-1.5％的保留标记，(也可称作标记效率为0.9-1.5％)。这些结果落入对于aaUTP标记的，体外翻译的，扩增的RNA通常观察到的1％-3％的标记效率的范围内。

2、在PCR期间用一种引物(正向或反向)将氨基烯丙基修饰的dUTP(aadUTP)掺入aDNA模板，以产生aa-标记的单链aDNA。

方法：

将用实施例2所述的NSR和反-NSR引物库产生的1μg aDNA PCR产物，加入至如下的PCR反应混合物中：

-100-1000μM aadUTP+dCTP+cATP+dGTP+dUTP(aadUTP对dUTP的最佳平衡可使用常规试验依经验确定)

-4mM MgCl₂

-400-1000nM的仅正向或反向引物，而不是两者。

PCR反应：5-20个PCR循环(94℃30秒，60℃30秒，72℃30秒)，在此期间，仅合成双链PCR模板的一条链。预期每一PCR循环产生一个拷贝的aa-标记的单链aDNA。然后纯化该PCR产物，并通过标准化学偶联，掺入Cy3或Cy5标记。

3、在PCR期间用正向和反向引物将氨基烯丙基修饰的dUTP(aadUTP)掺入aDNA模板，以产生aa-标记的双链aDNA。

方法：

将用实施例11所述的NSR7引物库产生的1μg aDNA PCR产物，加入至如下的PCR反应混合物中：

-4mM MgCl₂

-400-1000nM的正向和反向引物(例如，正向：SEQ ID NO：1501；或反向：SEQ ID NO：1502)

PCR反应：5-20个PCR循环(94℃30秒，60℃30秒，72℃30秒)，在此期间，合成双链PCR模板的双链。然后纯化双链的、aa-标记的aDNA PCR产物，并通过标准化学偶联，掺入Cy3或Cy5标记。

实施例6

本实施例描述了，使用与NSR-6聚体共价连接的杂合RNA/DNA引物产生扩增的核酸分子，所述核酸分子可用于产生单链DNA分子以用于基因表达分析。

基本原理：在本发明的选择性扩增方法的一个实施方案中，用于第一链cDNA合成的第一寡核苷酸群的确定序列部分(例如，PBS#1)，和/或用于第二链cDNA合成的第二寡核苷酸群的确定序列部分(例如，PBS#2)，包括RNA部分以产生适合于通过使用链置换来产生多拷贝的DNA产物的扩增的核酸模板，如美国专利6,946,251中所描述的，其通过引用并入本文。杂合NSR引物(PBS#1(RNA/DNA)/NSR)可用于合成第一链cDNA，从而产生适合于用作模板用于合成单链DNA的产物，所述单链DNA具有与模板RNA互补的序列。可选地，可在第二链合成之后添加RNA/DNA杂合引物尾，如下文所更详细描述的。

本方法的一个优点是，能够产生许多起始cDNA序列的单链扩增产物，而不扩增扩增产物本身。

方法：

1、用于第一链cDNA合成的RNA:DNA杂合NSR

在一些实施方案中，在第一链cDNA合成期间使用的NSR引物群(SEQ ID NO：1-749)，可进一步包括5′引物结合序列(RMA)，例如杂合PBS#1：

共价连接于NSR引物的5′端的杂合PBS#1(RNA)5′GACGGAUGCGGUCU 3′(SEQID NO：1557)，

从而产生RNA确定序列部分位于DNA杂交部分的5’端的RNA:DNA杂合寡核苷酸群，其具有下列构型：

5′杂合PBS#1(RNA)(SEQ ID NO：1557)+NSR6-聚体(DNA)(SEQ ID NO：1-749)3′

在另一实施方案中，可以产生寡核苷酸群，其中每一NSR6-聚体任选地包括至少一个DNA间隔子核苷酸(N)(其中每一个N＝A，G，C，或T)，其中(N)位于5′杂合PBS#1(RNA)与NSR6聚体(DNA)之间。间隔子区可以包括1个核苷酸直至10个或更多个核苷酸(N＝1至10)，从而产生具有下列构型的寡核苷酸群：

5′杂合PBS#1(RNA)(SEQ ID NO：1557)+(N1-10)(DNA)+NSR6-聚体(SEQID NO：1-749)(DNA)3’

制备第一链cDNA的方法基本上如实施例2中所述进行：用杂合PBS#1(SEQID NO：1557)(RNA)替换PBS#1(SEQ ID NO：1499)(DNA)，使用RNA酶H-逆转录酶，并且在第二链cDNA合成之前不添加RNA酶H，以产生用于扩增单链DNA产物的双链底物。

用于单链扩增的底物优选地由双链模板组成，所述模板的第一链由RNA/DNA杂合分子组成，第二链全部由DNA组成。为构建该双链模板，用RNA酶H-逆转录酶进行第二链合成。可选地，用Klenow酶，接着使用RNA酶H-逆转录酶的完善步骤进行第二链合成，因为Klenow酶不使用RNA作为模板。

可用随机引物或反-NSR引物进行第二链cDNA的合成。在第一链cDNA合成期间使用RNA杂合/NSR引物群，可导致将杂合引物的RNA部分的独特序列掺入至合成的单链cDNA产物中。

然后，在高进行性链置换DNA聚合酶，例如phi29存在的情况下，通过变性、RNA酶H处理变性底物以除去底物的RNA部分、以及添加杂合RNA/DNA单链扩增引物，例如5′GACGGAUGCGGTGT 3′(SEQ ID NO：1558)，可以从如上所述的双链模板制备与靶RNA序列相同的单链DNA扩增产物，其中所述引物的5’部分由与第一链cDNA上的预先确定的序列杂交的至少11个RNA核苷酸(下划线标示的)组成，其3′部分由与底物杂交的至少3个DNA核苷酸组成。

在可选的实施方案中，可以通过用DNA引物(例如，NSR或随机引物)进行第一链cDNA合成，接着再用DNA引物(例如，反-NSR或随机引物)和Klenow进行第二链的合成，来制备用于单链DNA扩增的底物。然后通过下列来修饰双链DNA模板以产生用于单链DNA扩增的底物：变性，和与第二链cDNA杂交的RNA/DNA杂合寡核苷酸退火，以及用逆转录酶延伸杂合RNA/DNA寡核苷酸以产生双链模板，其中一个链由RNA/DNA杂合分子组成，且另一个链全部由DNA组成。

然后通过变性，以及RNA酶H处理变性底物以除去底物的RNA部分，可从双链底物产生与靶RNA序列互补的单链DNA扩增产物。然后将杂合RNA/DNA单链扩增引物与第二链退火，其中所述杂合引物的5’部分由与第二链cDNA上的预先确定的序列杂交的至少11个RNA核苷酸组成，所述杂合引物的3′部分由至少3个DNA核苷酸组成。然后使用高进行性链置换DNA聚合酶，例如phi29来产生单链DNA产物。

实施例7

本实施例描述了使用NSR引物强有力地检测从总RNA扩增的cDNA中的polyA+和poly A-转录本。

基本原理：

全转录组，即在某一给定瞬间在细胞和组织中存在的RNA分子的整个集合，携带有收集RNA之时所述样品生物学状态的丰富标签。然而，总RNA的生物化学实际情形是，压倒性多数的RNA编码细胞质和线粒体的核糖体的结构亚基，其提供相对较少的关于细胞活性的信息。因此，已经开发出了富集更能提供信息的低拷贝转录本的分子技术，以用于大规模转录研究，例如使用3′多聚腺苷酸化序列作为非-核糖体RNA的亲和标签。对poly A+RNA转录本的靶向测序，已提供了cDNA片段的丰富基础，其形成目前基因模式的基础(参见例如，Hsu F.et al.，Bioinformtics 22：1036-1046(2006))。从polyA序列引发cDNA合成，也已用于最通常使用的、基因组范围的RNA特征谱分析方法。

虽然这些方法已非常成功地用于分析信使RNA的表达，然而严格关注于polyA+转录本的方法，对全局转录活性不能提供完全的视角。PolyA引发通常不能俘获远离3′polyA位置的信息，例如可变剪接事件和可选的转录起始位点。传统的方法也不能监控非多聚腺苷酸化转录本(包括编码组蛋白脱乙酰基酶的蛋白亚基的转录本和许多非编码RNA)的表达。虽然已开发出特异性靶向多种RNA子群的替代方法(Johnson J.M.et al.，Science 302：2141-2144(2003)；Shiraki T.et al.，PNAS 100：15776-15781(2003)；Vitali P.et al.，Nucleic Acids Res.31：6543-6551(2003))，然而仅少数研究试图平行监控所有的转录事件。已使用基因组嵌合阵列(tiling array)进行全转录组内容的最全面分析(Cheng J.et al.，Science 308：1149-1154(2005)；Kapranov P.et al.，Science 316：1484-1488(2007))。然而，这些试验的复杂性以及对后续验证(通过补充方法)的需要，限制了嵌合阵列在常规全转录组特征谱分析中的应用。DNA测序的新进展，为表达分析的新方法提供了机会，其允许在单个平台上定量评估RNA丰度和试验确认转录本发现(Mortazavi A.et al.，Nat.Methods5：621-628(2008))。因此，需要提供对已知和新转录本的无偏研究的方法，其可利用众多样品的高通量特征谱分析。

方法：

概述：

如上所述，本发明人开发出了样品制备方法，其依赖于“不那么随机的”(″NSR″)引发文库，其中与核糖体RNA(rRNA)序列完美匹配的所有六聚体都被去除。由于NSR选择性引发将用作全转录组特征谱分析技术，所以其必须忠实地检测非核糖体RNA转录本。为检测NSR-引发的性能，构建出全转录组cDNA文库。合成反义NSR六聚体(″NSR″引物)以引发第一链的合成，所述六聚体具有通用尾序列以促进PCR扩增和下游测序(利用Illumina 1G Genome Analyzer)。构建与第一组NSR引物互补的第二组加尾的NSR六聚体(″反-NSR″引物)，以引发第二链的合成。在第一链和第二链NSR引物中使用的独特尾序列使得能够在扩增和测序期间保持链的取向。在本研究中，对于模板RNA，所有序列阅读以3′至5′的方向进行，尽管通过修饰通用的PCR扩增引物，可以容易地产生相反的链阅读。

为评估NSR-引发的文库中的全转录组内容，通过测序，对从分离自全脑的RNA和分离自通用人参照(UHR)细胞系(Stratagene)的RNA产生的NSR-引发的cDNA文库进行研究，如下所述。

用于构建文库的寡核苷酸：

如实施例1所述，(SEQ ID NO：1499)5′共价连接至(SEQ ID NO：1-749)的每一个的第一NSR-6聚体引物群用于第一链的扩增，且(SEQ ID NO：1500)共价连接至(SEQ ID NO：750-1498)的每一个的第二反-NSR-6聚体引物群用于第二链cDNA合成。在混合之前，将寡核苷酸脱盐，并以100uM重悬于水中。

也合成具有尾序列SEQ ID NO：1499和SEQ ID NO：1500的随机6聚体的集合，以构建对照文库。

文库构建：

概述：NSR-引发选择性地俘获非核糖体RNA级分，包括poly A+和poly A-转录本。在文库构建期间，应用两轮NSR引发选择。首先，NSR寡核苷酸(反义)在不那么随机的模板位点起始逆转录。在用核糖核酸酶处理以除去RNA模板之后，将反-NSR寡核苷酸(有义)在不那么随机的模板位点上与单链cDNA退火，并指导Klenow-介导的第二链合成。使用非对称正向和反向引物的PCR扩增，可保持链的取向，并且添加末端位点以用于下游末端测序。然后用正向扩增引物的一部分，从cDNA片段的3′端进行反义标签测序。然后，利用配对比对，将标签序列的反向互补序列与人类基因组进行匹配。

方法：

全脑总RNA获自

Human Total RNA Survey Panel(Ambion，Inc.)。通用人参照(UHR)细胞系RNA购自Stratagene Corp.。用Superscript^TMIII逆转录试剂盒(Invitrogen Corp)将总RNA转化为cDNA。用3′-5′外切-Klenow片段(New England Biolabs Inc.)进行第二链合成。用Expand High Fidelity^PLUS PCR System(Roche Diagnostics Corp.)对DNA进行扩增。

对于NSR引发的cDNA合成，将2μl 100μM NSR引物混合物(SEQ ID NO：1499+SEQ ID NO：1-749)与1μl模板RNA和7μl水组合于PCR去帽管中(Genesee Scientific Corp.)。将引物-模板混合物在65℃加热5分钟，在添加10μl高dNTP逆转录酶主混合物(3μl水，4μl 5X缓冲液，1μL 100mMDTT，1μl 40mM dNTP和1.0μl SuperScript^TM III酶)之前在冰上迅速冷却。将20μl逆转录酶反应物在45℃温育30分钟，在70℃温育15分钟，然后冷却至4℃。通过添加1μl RNA酶H(Invitrogen Corp.)，然后在37℃温育20分钟，在75℃温育15分钟，然后冷却至4℃来除去RNA模板。随后用PCR纯化试剂盒纯化DNA，用30μl洗脱缓冲液(Qiagen，Inc.USA)将其从旋柱洗脱。

对于第二链合成，将25μl纯化的cDNA添加至65μl Klenow主混合物(46μl水，10μl 10X NE缓冲液2，5μl 10mM dNTP，4μl 5单位/μL外切-Klenow片段，New England Biolabs，Inc.)和10μL 100μM反-NSR引物混合物中(SEQ ID NO：1500+SEQ ID NO：750-1498)。将100μl反应物在37℃温育30分钟，然后冷却至4℃。用QIAquick旋柱纯化DNA，用30μl洗脱缓冲液(Qiagen，Inc.USA)洗脱。

对于PCR扩增，将25μL纯化的第二链合成反应物与75μL PCR主混合物(19μl水，20μl 5X缓冲液2，10μl 25mM MgCl₂，5ul 10mM dNTP，10μl 10μM正向引物，10μL 10μM反向引物，1μL ExpandPLUS酶，RocheDiagnostics Corp.)混合。

正向PCR引物：

(5′ATGATACGGCGACCACCGACACTCTTTCCCTACACGACGCTCTTCCGATCTCT3′(SEQ ID NO：1559))

反向PCR引物：

(5′CAAGCAGAAGACGGCATACGAGCTCTTCCGATCTGA3′(SEQ IDNO：1560))

将样品在94℃变性2分钟；之后进行2个循环的：94℃10秒，40℃2分钟，72℃1分钟；8个循环的：94℃10秒，60℃30秒，72℃1分钟；15个循环的：94℃15秒，60℃30秒，72℃1分钟(每一循环增加额外的10秒)；72℃5分钟以完善末端，然后冷却至4℃。用QIAquick旋柱纯化双链DNA。

用相同的方法利用随机引物构建对照文库，除了在最后的反转录反应中dNTP的浓度为0.5mM(而不是2.0mM)。用PCR引物SEQ ID NO：1559和SEQID NO：1560，扩增随机引发的对照文库。

定量PCR：

用

Gene Expression Assays(Applied Biosystems)，通过qPCR定量单独的rRNA和mRNA转录本。用表10所示的试剂，进行qPCR测定。

表10：用于qPCR测定的引物

用7900HT PCR仪(Applied Biosystems)在384-孔光学PCR板中，在10μl终反应体积中，对每一测定进行稀释的文库DNA的一式三份测量。PCR之后，将结果表格输出至Excel(Microsoft Corp.)，生成标准曲线，从原始数据回归样品的定量分析。然后将丰度水平相对于输入cDNA量进行标准化。

qPCR分析的结果：

用NSR-引发或随机序列(具有尾的七聚体)的非选择性引发对照，从全脑总RNA产生的cDNA文库的比较显示，在NSR-引发的文库中，rRNA显著消除并且伴随靶mRNA的富集。特别地，在所有四种rRNA转录本(包括在用于NSR引物设计的计算化滤器中)的丰度中，观察到＞95％的减少(数据未显示)。

序列和阅读分类：

为获得对NSR引发的文库中rRNA消除的详细认识，用Illumina 1G Genome Analyzer(Illumina，Inc.)，将来自NSR-引发的(260万)和随机-引发的(380万)cDNA文库的标签序列生成为36个核苷酸的反义阅读。为表征序列标签，将每一阅读5′端的二核苷酸条型码(CT)去除，并用ELAND绘图程序将碱基2-34的反向互补序列与多个序列数据库进行比对，所述比对允许多至2个错配每32nt的比对(Illumina，Inc.)。

为产生RefSeq mRNA和非编码RNA转录本的表达特征谱，允许每一标签序列与多个转录本进行比对。然后通过计算转录本长度每1000个核苷酸的频率，将阅读计数转化为表达值。将样品标准化因子(nf)用于就从每一文库产生的阅读的总数进行校正。对于每一文库，这来源于与基因组匹配的非核糖体RNA阅读的总数(脑1：1770万个阅读，1.0nf；脑2：1930万个阅读，1.087nf；UHR：1760万个阅读，0.995nf)。

对于全局分类，首先将测序阅读与非编码RNA和重复序列数据库进行比对，其中允许与多个参照序列进行比对。然后将剩余的标签序列与人基因组序列的March 2006hg18集进行匹配(http:genome.ucsd.edu/)。用UCSC Known Genes(http://genome.ucsc.edu)定义的坐标，将与单个基因组位点匹配的阅读分类为mRNA，内含子和基因间区域类别。将与多个基因组序列(不包括重复序列或非编码RNA)匹配的序列，归为“其他”类别。核糖体RNA序列获自RepeatMasker(http://www.repeatmasker.org/)和Genbank(NC_001807)。非编码RNA序列收集自Sanger RFAM(http://www.sanger.ac.uk/Software/Rfam/)，Sanger miRBASE (http://microrna.sanger.ac.uk)， snoRNABase(http://www-snorna.biotoul.fr)和RepeatMasker。重复元件获自RepeatMasker。

结果：与非-rRNA基因组区比对的、超过5400万个的高质量的32-核苷酸标签序列阅读，获自2个独立制备的全脑文库和1个UHR文库。这些阅读中77％与单个基因组位点匹配。在RefSeq mRNA数据库的22,785个模型转录本中(Pruitt K.D.et al，Nucleic Acids Res.33：D501-504(2005))，超过87％的转录本在至少一些探询的样品中由10个或更多个序列标签阅读表示，而69％的转录本在所有三个文库中由10个或更多个阅读表示。

表11：来自NSR-引发的(260万)和随机-引发的(380万)文库的32核苷酸标签序列阅读的比对结果

如表11所示，来自NSR引发的文库的序列标签中仅13％，与相应于核糖体RNA的人基因组匹配，而随机引发的cDNA中78％与rRNA序列匹配。这些结果显示，NSR-引发导致几乎完全消除小亚基18S rRNA并且大量减少线粒体rRNA转录本。虽然大亚基rRNA的丰度的减少不如其他rRNA转录本有效，但28S RNA的相对适度的消除，可对最终的文库组成具有重大影响，因为其具有较高的初始摩尔浓度和转录长度。此外，超过86％的NSR-引发的序列与非-rRNA基因组区匹配，而与之相比，22％的随机-引发的cDNA与非-rRNA基因组区匹配。来自任一文库的全部序列阅读中仅5％不与任何基因组序列匹配，这表明，该文库构建方法产生了极少的不依赖于模板的人工假象。在从UHR总RNA(其分离自多种细胞系混合物)产生的NSR-引发和随机-引发的文库中，观察到相似的结果(数据未显示)。

为检测NSR-引发的文库中的polyA+RefSeq mRNA，可以对RefSeq转录本中的测序比对进行定量分析，并将其用于产生基于序列的数字表达特征谱。在从相同全脑总RNA制备的两个独立的NSR文库之间观察到，NSR-引发的cDNA扩增具有良好的再现性，在重复#1和重复#2中，由至少10个NSR标签序列表示的转录本的log 10比值的相关系数r＝0.997(n＝17,526)。

为评估获自NSR文库的mRNA特征谱的准确性，将NSR-引发的脑特征谱和UHR表达特征谱，与为MicroArray Quality Control Study(MAQC Consortium)产生的“金标准”

qPCR特征谱(Shi L.et al.，Nat.Biotechnol.24：1151-1161(2006))进行比较。

还评估通过NSR标签测序和定量PCR获得的基因表达特征谱的相关性。将通过NSR标签测序获得的脑和UHR转录水平的log 10比值对获自MAQCConsortium的

测量值作图，相关系数r＝0.930(n＝609)。

如下进行NSR-引发的文库中的poly A+Ref Seq mRNA的检测。跨越转录本长度检查NSR标签序列的位置分布。图7A显示，对于跨越长转录本(≥4kb)的NSR(虚线)或EST(实线)cDNA，从5’端开始的每一碱基位置上显示的5,790个转录本的综合阅读频率。图7B显示，对于跨越长转录本(≥4kb)的NSR(虚线)或EST(实线)cDNA，从3’端开始的每一碱基位置上显示的5,790个转录本的综合阅读频率。将图7A和7B所示数据针对每一数据组中的最大值进行标准化。如图7A和7B所示，NSR-引发的cDNA片段显示出对大转录本的全长覆盖，其与传统的EST相比，具有更高的内部位点代表性。这是全转录组特征谱分析的重要特征，因为该技术优选俘获可变剪接信息。测序覆盖在已知转录本的极5′末端显示出了中度的不足，因为所有测序阅读都是从cDNA片段的3′端产生。如果在NSR cDNA产物的两端进行测序，那么该效应将会减轻。总之，这些结果显示，基于NSR的选择性引发，作为分析全转录组表达特征谱的技术，是强有力的。

全转录组特征谱分析的另一要求是，其必须有效地俘获poly A-转录本。如下确定poly A-非编码RNA在NSR-引发的cDNA中的代表性。将来自NSR-引发的文库的序列标签，与已知的poly A-非编码RNA(ncRNA)序列的综合数据库进行比对。针对在至少一个样品中以5个或更多个拷贝存在的小核仁RNA(″snoRNA″)(286/665)和小核RNA(″snRNA″)(7/19)的实质级分，广泛检测代表多种功能分类的转录本。有趣的是，只有一小部分的miRNA发夹和tRNA种类，以可检测的水平被观察到。如表12所示，在宽范围的表达水平上观察到个体转录本，snRNA和snoRNA家族的成员具有最高丰度。

表12：全脑中由至少两个NSR标签序列表示的非编码(ncRNA)转录本的按等级排列的表达水平

ncRNA转录本/类型	Log 10表达水平	脑表达等级(总数200)
			HBII-52(脑特异性C/D盒snoRNA)	6.5	第1
HBII-85(脑特异性C/D盒snoRNA)	6	第2

U2(snRNA)	5.8	第3
			U1(snRNA)	5.3	第5
U3(snRNA)	5	第8
			U4(snRNA)	4.8	第10
U13(snRNA)	3.7	第28
			U6(snRNA)	3.5	第33
HBII-436(脑特异性C/D盒snoRNA)	3.4	第40
			HBII-437(脑特异性C/D盒snoRNA)	3.1	第60
HBII-438A(脑特异性C/D盒snoRNA)	2.8	第85
			HBII-13(脑特异性C/D盒snoRNA)	2.7	第90
U5(snRNA)	2.3	第105
			U8(snRNA)	2	第140

如表13所示，含poly A-转录本的NSR-引发的文库，包括snRNA和snoRNA家族的成员以及相应于其他已知转录本(例如7SK，7SL和小卡哈尔体(smallcajal body)特异性RNA家族的成员)的RNA。

表13：从全脑总RNA构建的NSR引发的文库中主要非编码(ncRNA)类别的代表

NSR引发的文库中的polyA-转录本	文库的％
		snoRNA	60.4％
snRNA	22.1％
		7SL	13.8％
7SK	4.7％
		scRNA	1.3％
miRNA	0.7％
		tRNA	0.1％

与从UHR构建的NSR引发的文库相比，在从全脑总RNA构建的NSR引发的文库中发现，许多转录本被富集，包括与Prader-Willi神经综合征相关的、位于第15号染色体q11区的C/D盒snoRNA簇(Cavaile J.et al，J.Biol.Chem.276：26374-26383(2001)；Cavaile J.et al，PNAS 97：14311-14316(2000))。图8图示，相对于UHR NSR引发的文库，在全脑NSR引发的文库中，由第15号染色体Prader-Willi神经疾病基因座编码的snoRNA被富集。

有趣地注意到，在本研究中检测到的显著比例的已知ncRNA转录本，长度少于100核苷酸，并且预测其具有广泛的二级结构，由此也表明，NSR-引发可以捕获这样的模板，其被认为用传统方法难以捕获。

转录活性的综述

使用NSR引发产生的全转录组cDNA序列的集合，可汇编成全脑和UHR的全局表达图。为了汇编这样的全局表达图，基于目前的基因组注释，将所有非核糖体RNA标签序列，分配入六个不重叠的种类，如表14所示。

表14：与非核糖体RNA基因组区匹配的NSR-引发的cDNA标签中的全转录组表达的分类

类别	NSR引发的全脑文库	NSR引发的UHR文库
			mRNA	46％	35％
内含子	19％	30％
			基因间区域	12％	13％
ncRNA	4％	1％
			重复序列	3％	6％
其他	16％	15％

表14所示的mRNA，内含子和基因间区域类别，由UCSC Known Genes的基因组坐标定义，并且仅包括与唯一位置匹配的cDNA。与编码外显子或UTR的任何部分重叠的测序标签阅读，都被认为是mRNA。与多个基因组位点匹配的测序标签阅读，被归为ncRNA，重复序列或其他类别。

如表14所示，已确定，组织和细胞系RNA群显示相似的总表达模式。例如，65％的标签序列发生在已知的蛋白编码基因的界限内，而仅12-13％的标签序列与基因间区域匹配，这显著低于先前报道的值(Cheng J.et al.，Science 308：1149-1154(2005))。相应于假基因和其他冗余序列的cDNA级分，例如基因家族内共有的基序(表14中的“其他”类别)，在两种样品中也相似。然而，某些类别的代表，在全脑和UHR之间显著不同。虽然内含子的表达在两个RNA群中都存在，但UHR中的内含子的转录活性比全脑中的高60％。重复元件的表达，在UHR中也比在全脑中高。相比之下，已知ncRNA的累积丰度，在脑中比在UHR中高3倍。不希望受任何特定理论束缚，这些结果可反映出细胞系和组织之间的剪接活性的总体差异。可选地，这些发现可表明，转录在细胞系中通常更加普遍，并且这可能是放松的调控限制的结果。

为了评估被归为未注释区的独特转录位点的数目，将交叠的NSR标签序列装配入连续转录单位。当至少一个核苷酸在任一链上交叠时，将与单个基因组位点匹配的多个测序阅读装配入单个转录本。总的来说，鉴定了超过250万个的转录活性区，其未被目前的转录本模型覆盖。其中，只有21％在公众EST数据库中得到序列的支持(Benson，D.A.et al.，Nucleic Acids Res 32-.D23-26(2004))。未注释的转录位点，长度平均为36.9个核苷酸，范围在32-1003bp之间，其中接近5％的转录位点超过100bp。本文鉴定的许多转录元件，可能代表新的非编码RNA。它们也可能是之前未鉴定的已知基因的区段，包括可变剪接外显子和非翻译区的延伸序列。

接着，通过将序列标签与已知的蛋白编码基因的功能元件进行比对，检查NSR引发的链特异性。与蛋白编码外显子匹配的cDNA序列中，超过99％取向为有义方向，这显示出本方法监控链特异性表达的辨别力。该辨别力允许确定新转录本的取向，并评估已知基因的功能元件中反义转录的流行程度。如表15所示，在5′UTR和内含子中检测到特别高水平的反义转录，其构成了这些区域的转录事件的大约20％。

表15：获自NSR引发的全脑和UHR文库的序列阅读中，取向为有义或反义方向的NSR标签序列的相对频率比值

已知基因的元件	有义阅读的相对频率比值	反义阅读的相对频率比值
			5’UTR	0.80	0.20
编码外显子	0.99	0.01
			3’UTR	0.95	0.05
内含子	0.80	0.20

表15所示的序列类别由UCSC已知基因的非编码和编码区的基因组坐标定义。

有趣地注意到，其他的组也被证实在人类和几种模式生物中具有广泛的反义表达(Katayama S.et al.，Science 309：1564-1566(2005)；Ge X.et al.，Bioinformatics 22：2475-2479(2006)；Zhang Y.et al.，Nucleic Acid Res34：3465-3475(2006))。在许多基因中观察到的有义和反义表达的复杂模式表明，至少一些内含子和UTR转录事件具有功能意义。

计论：

如本实施例所证明的，将超高通量测序应用于NSR-引发的cDNA文库，可以允许无偏地探询全局转录内容，其超过了常规方法所产生的信息范围。通过测序进行的转录本发现提供了用基因组嵌合阵列不能获得的特别的信息，所述基因组嵌合阵列往往具有不利的交叉杂交效应，其使大量的数据处理和后续的试验验征成为必须(参见例如，Royce T.E.et al.，Trends Genet 21：466-475(2005))。然而，在高复杂的全转录组文库中获得稀有转录本的充足覆盖所需的样品深度，限制了测序迅速研究大量组织的能力。相比之下，分析表达特征谱的微阵列促进了许多样品中的转录本水平的定量分析，只要存在特征序列信息以指导探针选择。

NSR选择性引发提供了优于传统方法的多个优点。例如，NSR选择性引发，在信息学测序和高通量阵列试验之间建立了直接的联系。用NSR选择性引发的cDNA文库获得的序列信息，允许鉴定未注释的转录特征。用NSR-引发的文库鉴定的未注释的转录特征的功能表征，有助于阐明广泛的生物学过程和疾病状态。

获得自高通量测序的信息可用于教导设计全转录组阵列，其用于与NSR-引发的cDNA杂交。例如，定制的分析全转录组特征谱的阵列，可用于评估在已知的转录本的背景中和彼此关联的新特征的表达模式。大规模的特征谱研究也可用于将个别转录本与人类疾病状态相关联，并且可以扩展可用于临床研究的生物标记的库(参见例如，van′t Veer，LJ.et al.，Nature 415：530-536(2002))。此外，将全转录组表达特征谱数据与基因连锁分析综合，可以用于揭示由新转录元件调节的生物学活性。

根据本发明的各种实施方案，本实施例描述的标签测序方法的各种变化形式可用于全转录组分析。在一个实施方案中，将配对的末端测序用于全转录组分析。配对的末端测序提供了个体cDNA片段的5′和3′末端之间的直接物理关联(Ng P.et al.，Nucleic Acids Res 34 e84(2006)；和Campbell，PJ.etal.，Nat Genet 40：722-729(2008))。因此，配对的末端测序允许将来自远端位点的剪接外显子毫无疑义地分配入单个转录本，而不需要任何额外的信息。一旦确定了全转录本的结构，便可将大规模的计算分析用于确定，这些基因是否代表蛋白编码或非编码RNA实体(Frith M.C.et al.，RNA Biol.3：40-48(2006))。

如上所述，NSR引发是cDNA消减的基本形式，其优点是，可简单且可重复地应用于广泛的样品。可设计NSR引物库以避开任何可导致混乱的、高丰度的转录本的群。例如，可设计NSR引物库以避开编码球蛋白α和β亚基的mRNA，所述RNA构成了直至70％的全血总RNA量，且可不利地影响血液特征谱分析实验的灵敏度和准确度(参见Li L.et al.，Physiol.Genomics 32：190-197(2008))。也可设计NSR引物库以减少其他生物中的rRNA含量，从而允许全转录组表达模式的跨物种比较。本方法可用于在原核物种中进行常规的表达特征谱分析试验，其中不能使用RNA子群的polyA选择。

总之，超过5400万个32-核苷酸的标签序列的分析显示，与常规的随机引发相比，在第一和第二链cDNA合成中使用NSR-引发，可产生这样的cDNA文库，其广泛代表已知的poly A+和poly A-转录本，并且rRNA含量显著减少。对NSR-引发的文库的测序可以提供对转录的全局认识，其包括来自先前未注释的基因组序列的反义表达和转录的广泛信息。因此，NSR引发技术的简单性和灵活性，使其在跨越广泛试验设置的转录组研究中，成为超高通量测序的理想伴侣。

虽然已解释和描述了举例说明性实施方案，但应当理解，其中可以进行各种变化，而不偏离本发明精神和范围。

Claims

其中要求专有所有权或特权的本发明的实施方案定义如下：

1.在RNA模板分子群中选择性扩增靶核酸分子群的方法，所述方法包括以下步骤：

(a)提供用逆转录酶和第一寡核苷酸引物群从分离自哺乳动物受试者的样品中的RNA模板分子群合成的单链引物延伸产物群，其中第一寡核苷酸引物群中的每一寡核苷酸包括杂交部分和位于杂交部分5’端的确定序列部分，其中RNA模板分子群包括靶核酸分子群和非靶核酸分子群；和

(b)用DNA聚合酶和第二寡核苷酸引物群，从步骤(a)的单链引物延伸产物群合成双链cDNA，其中第二寡核苷酸群中的每一寡核苷酸，包括由6，7或8个核苷酸组成的杂交部分和位于杂交部分5’端的确定序列部分，其中杂交部分选自具有6，7或8个核苷酸的长度，并且在确定的条件下与靶核酸分子群杂交，而在确定的条件下不与单链引物延伸产物群中的非靶核酸分子群杂交的所有可能的寡核苷酸。
2.权利要求1的方法，其中第二寡核苷酸引物群的杂交部分经选择包括，在确定的条件下不与单链引物延伸产物群中的非靶核酸群杂交的、长度为6个核苷酸的所有可能的寡核苷酸。
3.权利要求1的方法，其中非靶核酸分子群基本上由RNA模板分子群中最高丰度的核酸分子组成。
4.权利要求3的方法，其中最高丰度的核酸分子选自核糖体RNA，线粒体核糖体RNA，及其组合。
5.权利要求1的方法，其中第一寡核苷酸群的杂交部分由6，7，8，或9个随机核苷酸中的一种组成，并且所述确定序列部分包括用于PCR扩增的第一引物结合位点。
6.权利要求1的方法，其中第一寡核苷酸引物群的杂交部分群选自，在确定的条件下不与RNA模板分子群中的非靶核酸分子杂交的、长度为6个核苷酸的所有可能的寡核苷酸。
7.权利要求1的方法，其中样品包括总RNA。
8.权利要求1的方法，其中第一和第二寡核苷酸群中的每一寡核苷酸的确定序列部分，由长度范围在10个核苷酸至20个核苷酸的、用于PCR扩增的引物结合位点所组成。
9.权利要求8的方法，其中第一或第二引物结合位点中的至少一个，包括转录启动子。
10.权利要求1的方法，其中第二寡核苷酸群的每一寡核苷酸进一步包括，由1-10个随机核苷酸组成的间隔子序列部分，其中所述间隔子部分位于确定序列部分和杂交部分之间。
11.权利要求1的方法，其中第二寡核苷酸群中的杂交部分群选自，包括SEQ ID NO：750-1498的寡核苷酸。
12.权利要求6的方法，其中第一寡核苷酸群中的杂交部分群选自，包括SEQ ID NO：1-749的寡核苷酸。
13.权利要求8的方法，进一步包括扩增双链cDNA的至少一个链。
14.权利要求13的方法，进一步包括对PCR扩增的DNA进行测序。
15.权利要求8的方法，其中第一群中每一寡核苷酸的确定序列部分包括至少8个连续核苷酸的区域，所述区域与第二群中每一寡核苷酸的确定序列部分中的至少8个连续核苷酸的区域相同。
16.权利要求8的方法，其中第一或第二寡核苷酸群的至少一个的确定序列部分，包括RNA部分和DNA部分，其中RNA部分位于DNA部分的5′端。
17.分析转录组特征谱的方法，包括：

(a)用逆转录酶和第一寡核苷酸引物群，从分离自哺乳动物受试者的样品中的RNA模板分子群中的靶核酸分子群合成单链引物延伸产物群，所述第一寡核苷酸引物群包括杂交部分和位于杂交部分5’端的第一PCR引物结合位点，

(b)用DNA聚合酶和第二寡核苷酸引物群，从步骤(a)生成的单链引物延伸产物群合成双链cDNA，所述第二寡核苷酸引物群包括杂交部分和位于杂交部分5’端的第二PCR引物结合位点，其中杂交部分选自具有6个核苷酸的长度的，在确定的条件下与靶核酸分子群杂交，而在确定的条件下不与单链引物延伸产物群中的非靶核酸分子群杂交的所有可能的寡核苷酸，其中非靶核酸分子群基本上由与所述哺乳动物受试者相同物种的核糖体RNA和线粒体核糖体RNA所组成，和

(c)使用与第一PCR引物结合位点结合的第一PCR引物和与第二PCR引物结合位点结合的第二PCR引物，PCR扩增步骤(b)合成的双链cDNA。
18.权利要求17的方法，进一步包括将PCR产物克隆入载体，以产生样品分离时哺乳动物受试者的转录组的代表性文库。
19.权利要求17的方法，进一步包括对至少一部分PCR产物测序。
20.权利要求17的方法，其中PCR扩增使用退火温度在40-50度的至少2个扩增循环，之后用退火温度大于50度的额外的扩增循环来进行。
21.权利要求17的方法，进一步包括标记至少一部分扩增的PCR产物。
22.权利要求17的方法，其中第一群中每一寡核苷酸的第一PCR引物结合位点，包括至少8个连续核苷酸的区域，所述区域与第二寡核苷酸群中每一寡核苷酸的第二PCR引物结合位点中的至少8个连续核苷酸的区域相同。
23.权利要求17的方法，其中第一或第二寡核苷酸群的至少一个的PCR引物结合位点，包括RNA部分和DNA部分，其中RNA部分位于DNA部分的5′端。
24.用权利要求17的方法所产生的经扩增的核酸分子群。
25.在较大的非靶核酸分子群中选择性扩增靶核酸分子群的方法，所述方法包括以下步骤：

(a)用逆转录酶和第一寡核苷酸引物群，从分离自哺乳动物受试者的含总RNA的样品合成单链cDNA，其中第一寡核苷酸引物群中的每一寡核苷酸包括杂交部分和位于杂交部分5’端的确定序列部分，其中杂交部分为包含SEQ ID NO：1-749的寡核苷酸群的成员；和

(b)用DNA聚合酶和第二寡核苷酸引物群，从步骤(a)合成的单链cDNA合成双链cDNA，其中第二寡核苷酸引物群中的每一寡核苷酸包括杂交部分和位于杂交部分5’端的确定序列部分，其中杂交部分为包含SEQ ID NO：750-1498的寡核苷酸群的成员。
26.权利要求25的方法，其中第一寡核苷酸引物群的杂交部分群，包括包含SEQ ID NO：1-749的寡核苷酸的至少10％。
27.权利要求25的方法，其中第二寡核苷酸引物群的杂交部分群，包括包含SEQ ID NO：750-1498的寡核苷酸的至少10％。
28.权利要求25的方法，进一步包括对至少一部分PCR产物进行测序。
29.权利要求25的方法，进一步包括标记至少一部分PCR产物。
30.用于第一链cDNA的合成的包含SEQ ID NO：1-749的寡核苷酸群。
31.用于第二链cDNA的合成的包含SEQ ID NO：750-1498的寡核苷酸群。
32.用于选择性扩增靶核酸分子群的试剂，所述试剂包括包含SEQ ID NO：1-749的寡核苷酸的至少10％。
33.用于选择性扩增靶核酸分子群的试剂，所述试剂包括包含SEQ ID NO：750-1498的寡核苷酸的至少10％。
34.用于选择性扩增靶核酸分子群的试剂，所述试剂包括引发靶核酸分子群的扩增的寡核苷酸群，其中每一寡核苷酸包括杂交部分和位于杂交部分5’端的确定序列部分，其中杂交部分为包含SEQ ID NO：1-749的寡核苷酸群的成员。
35.用于选择性扩增靶核酸分子群的试剂，所述试剂包括引发靶核酸分子群的扩增的寡核苷酸群，其中每一寡核苷酸包括杂交部分和位于杂交部分5’端的确定序列部分，其中杂交部分为包含SEQ ID NO：750-1498的寡核苷酸群的成员。
36.用于选择性扩增靶核酸分子群的试剂盒，所述试剂盒包括包含用于第一链cDNA合成的第一寡核苷酸群的试剂，其中第一寡核苷酸群中的每一寡核苷酸包括杂交部分和位于杂交部分5’端的确定序列部分，其中杂交部分为包含SEQ ID NO：1-749的寡核苷酸群的成员。
37.权利要求36的试剂盒，其中第一寡核苷酸群中的杂交部分群包括包含SEQ ID NO：1-749的寡核苷酸的至少10％。
38.权利要求36的试剂盒，进一步包括用于第二链cDNA合成的第二寡核苷酸群，其中第二寡核苷酸群中的每一寡核苷酸包括杂交部分和位于杂交部分5’端的确定序列部分，其中杂交部分为包含SEQ ID NO：750-1498的寡核苷酸群的成员。
39.权利要求38的试剂盒，其中第二寡核苷酸群中的杂交部分群包括包含SEQ ID NO：750-1498的寡核苷酸的至少10％。
40.权利要求38的试剂盒，其中第一寡核苷酸群中的杂交部分群包括由SEQID NO：1-749所组成的寡核苷酸，并且其中第二寡核苷酸群中的杂交部分群包括由SEQ ID NO：750-1498所组成的寡核苷酸。
41.权利要求38的试剂盒，进一步包括至少一种下列成分：逆转录酶、DNA聚合酶、DNA连接酶、RNA酶H、Tris缓冲液、钾盐、镁盐、铵盐、还原剂、脱氧核苷三磷酸或核糖核酸酶抑制剂。
42.用于在获自哺乳动物受试者的样品的RNA模板分子群中选择性扩增靶核酸分子群的试剂盒，所述试剂盒包括：

(a)包含由6个核苷酸组成的杂交部分和位于杂交部分5′端的确定序列部分的第一寡核苷酸引物群，所述杂交部分选自长度为6个核苷酸的，在确定的条件下不与RNA模板分子群中的非靶核酸分子群杂交的所有可能的寡核苷酸，其中所述非靶核酸分子群基本上由RNA模板分子群中的最高丰度的核酸分子所组成；

(b)包含由6个核苷酸组成的杂交部分和位于杂交部分5′端的确定序列部分的第二寡核苷酸引物群，所述杂交部分选自第一寡核苷酸引物群的杂交部分的核苷酸序列的反向互补序列；

(c)与第一寡核苷酸群的第一确定序列部分结合的第一PCR引物，和与第二寡核苷酸群的第二确定序列部分结合的第二PCR引物。
43.权利要求42的试剂盒，其中非靶核酸分子群基本上由与哺乳动物受试者相同物种的核糖体RNA和线粒体核糖体RNA所组成。
44.权利要求42的试剂盒，其中第一和第二寡核苷酸群中的每一寡核苷酸的确定序列部分，由用于PCR扩增的、长度范围在10个核苷酸至20个核苷酸的引物结合位点所组成。
45.权利要求42的试剂盒，其中第一群中的每一寡核苷酸的确定序列部分包括至少8个连续核苷酸的区域，所述区域与第二群中的每一寡核苷酸的确定序列部分中的至少8个连续核苷酸的区域相同。
46.权利要求42的试剂盒，其中第一或第二寡核苷酸群的至少一个的确定序列部分，包括RNA部分和DNA部分，其中RNA部分位于DNA部分的5′端。
47.选择性扩增靶核酸分子群以产生扩增的DNA分子的方法，所述方法包括以下步骤：

(a)提供第一寡核苷酸群，其中每一寡核苷酸包括杂交部分和位于杂交部分5′端的第一PCR引物结合位点，其中杂交部分为包含SEQ ID NO：1-749的寡核苷酸群的成员；

(b)将第一寡核苷酸群与包含分离自哺乳动物受试者的RNA的样品退火；

(c)用逆转录酶从RNA合成cDNA；

(d)用DNA聚合酶和第二寡核苷酸群合成双链cDNA，其中每一寡核苷酸包括杂交部分和位于杂交部分5′端的第二PCR结合位点，其中杂交部分为包含SEQID NO：750-1498的寡核苷酸群的成员；

(e)用热稳定DNA聚合酶，与第一PCR引物结合位点相结合的第一PCR引物，以及与第二PCR引物结合位点相结合的第二PCR引物来PCR扩增双链cDNA以产生扩增的双链DNA，和

(f)对扩增的双链PCR产物进行测序。
48.选择性扩增的核酸分子的群，其由分离自哺乳动物受试者的细胞样品中的RNA模板分子群中的靶核酸分子群的代表所组成，其中每一扩增的核酸分子包括：

位于扩增的核酸序列的群的成员的侧翼的5’确定序列部分，和3’确定序列部分，其中选择性扩增的序列的群包括与哺乳动物细胞中表达的靶RNA分子相对应的扩增的核酸序列，并且就特定的哺乳动物物种而言，其特征在于具有下列性质：

(a)具有超过75％的多聚腺苷酸化和非多聚腺苷酸化的转录本，且具有少于10％的核糖体RNA。
49.插入至克隆载体的权利要求48的群。
50.权利要求48的群，其中所述群中的每一核酸分子被标记。
51.与底物连接的权利要求48的群。
52.权利要求48的群，其中第一或第二寡核苷酸群的至少一个的确定序列部分，包括RNA部分和DNA部分，其中RNA部分位于DNA部分的5′端。