CN1816637A

CN1816637A - 转录本的分析方法

Info

Publication number: CN1816637A
Application number: CN 200480019105
Authority: CN
Inventors: 托马斯·R·金杰拉斯; 菲利普·V·卡普拉诺夫
Original assignee: Affymetrix Inc
Current assignee: Affymetrix Inc
Priority date: 2003-07-02
Filing date: 2004-07-02
Publication date: 2006-08-09

Abstract

在本发明的一个方面，以串联5’和3’RACE(cDNA末端的快速扩增)或RAGE(基因组DNA的快速扩增)的方式使用高密度阵列用于检测和表征转录本或者基因组结构。

Description

转录本的分析方法

相关申请

本申请根据35U.S.C.§119(e)要求2003年7月2日提交的美国临时申请60/484，849的优先权。该‘849申请在此处引入作为参考。本申请也是2003年12月19日提交的美国专利申请10/741,193的继续并要求其优先权，其也在此处引入作为参考。

本申请得到由国立卫生研究院的国家癌症研究所提供的合同号为N01-CO-12400的政府资助。政府对本发明享有一定的权利。

背景技术

本发明涉及生物检验，微阵列以及生物信息学。

先前获得全长cDNAs需要利用cDNA克隆或5’以及3’RACE方法的精细技术方法。cDNA的产物以及RACE产物任选需要为独特的分子种类(即凝胶上的单一谱带或文库中绝大部分的克隆)。因此，本领域非常需要对全长转录本进行表征的其它方法。

发明概述

在本发明的一个方面，高密度阵列与5’以及3’RACE(cDNA末端的快速扩增)或RAGE(基因组DNA的快速扩增)串联检测以及表征转录本或基因组结构。RACE可以是3’或者5’RACE。RACE或RAGE的产物可以利用寡核苷酸探针进行分析，所述探针优选地固定在基质上形成高密度寡核苷酸探针阵列。阵列可能是基因组嵌合阵列，重排阵列及其他适合的阵列。

本发明方法的示范性应用包括：1)鉴定转录本的5’以及3’末端的位置(检测以及表征可变的5’以及3’末端)；2)确定全长cDNAs的结构；3)检测以及表征相关转录本的可变剪接同种型；4)确定转录本的链或起点；5)组合多个(＞2)RACE反应发现基因以及以高通量方式表征的能力；6)由PCR扩增RACE反应的产物利用低拷贝数转录本实施上述5个任务的能力；7)检测源自于与另一转录本较远距离开始的转录的转录本(外显子)的结合的能力；以及8)利用基因组DNA作为模板由RACE-类反应鉴定(通过延伸)独特的缺失，易位以及重排。

附图说明

说明书中包括的并且作为其一部分的附图图解了本发明的实施方案并且连同附图说明用来解释本发明的原则：

图1显示了本发明的示范性的分析方法。

图2显示了染色体22上较好表征的基因DGSI的结构。该基因由10个外显子组成并且从右到左(即，5’末端在右侧)转录。

图3显示了染色体22的区域，其中利用RACE以及阵列实验表征新的基因。

发明详述

本发明具有许多优选的实施方案，并且依赖于许多专利、申请及本领域技术人员公知的其它参考文献。因此，当引用或在下面重复引用专利、申请或其它参考文献时，应该理解为将其全部引入作为通用的参考以及用于提出所列举的陈述。

I.概要

在本申请中，单数形成的“一，”“一个”以及“这个”包括除上下文清楚限定之外的多个参考文献。例如，术语“试剂”包括包含其混合物的多种试剂。

个体不局限于人还可能为其它生物体，包含但不限于哺乳动物、植物、细菌、或来源于任何上述生物体的细胞。

贯穿这个公开，本发明的多个方面可以一个范围的形式出现。应该清楚范围形式的描述仅仅为了方便以及简短起见并且将不会被认为是死板的限制本发明的范围。因此，范围的说明应该被理解为具体地描述了所有可能的子范围以及在那个范围内的单个数值。例如，诸如从1到6的范围描述应该被理解为具有具体公开的子范围，诸如从1到3，从1到4，从1到5，从2到4，从2到6，从3到6等等，以及在那个范围内的单个数字，例如，1、2、3、4、5和6。这种理解适用于无论多么宽泛的范围。

本发明的实际应用除非另有陈述可以使用本领域技术人员公知的有机化学、聚合物技术、分子生物学(包含重组技术)、细胞生物学、生物化学和免疫学的传统技术和描述。这样的传统技术包含聚合物阵列合成、杂交、连接、和利用标记检测杂交。适用技术的具体说明可以参考下列的实施例。然而，当然还可以使用其它等同的常规程序。这样的传统技术和说明可以在标准实验手册中发现，诸如GenomeAnalysis：A Laboratory Manual Series(Vols.I-IV)，Using Antibodies：ALaboratory Manual，Cells：A Laboratory Manual，PCR Primer：ALaboratory Manual，and Molecular Cloning：A Laboratory Manual(所有都来自Cold Spring Harbor Laboratory Press)，Stryer，L.(1995)Biochemistry(第四版)Freeman，New York，Gai，“Olignonucleotide Synthesis：A Practical Approach”1984，IRL Press，London，Nelson and Cox(2000)，Lehninger，Principles of Biochemistry第三版，W.H.Freeman Pub，New York，NY和Berg等人的(2002)Biochemistry，5th Ed.，W H.Freeman Pub.，New York，NY，所有都在此处全部引入作为通用的参考。

本发明可以使用固体基质，包含一些优选实施方案中的阵列。适用于聚合物(包含蛋白质)阵列合成的方法和技术已经描述在下列专利申请中：美国专利09/536,841，WO 00/58516，美国专利5,143,854，5,242,974，5,252,743，5,324,633，5,384,261，5,405,783，5,424,186，5,451,683，5,482,867，5,491,074，5,527,681，5,550,215，5,571,639，5,578,832，5,593,839，5,599,695，5,624,711，5,631,734，5,795,716，5,831,070，5,837,832，5,856,101，5,858,659，5,936,324，5,968,740，5,974,164，5,981,185，5,981,956，6,025,601，6,033,860，6,040,193，6,090,555,6,136,269,6,269,846和6,428,752，PCT申请PCT/US99/00730(国际公布号为WO 99/36760)和PCT/US01/04285，其全部引入作为通用的参考。

在具体实施方案中描述合成技术的专利包含美国专利5,412,087，6,147,205，6,262,216，6,310,189，5,889,165和5,959,098。核酸阵列描述在多个上述专利中，但是相同的技术被用于也被描述的多肽阵列。

用于本发明的核酸阵列包含从Affymetrix(Santa Clara，CA)以商品名GeneChip市售获得的产品。示范性阵列显示在affymetrix.com的网址上。本发明还涉及附着于固体基质的聚合物的多个应用。这些应用包含基因表达监控，作图，文库筛选，基因分型和诊断。基因表达监控，和作图的方法显示在下列专利申请中：美国专利5,800,992，6,013,449，6,020,135，6,033,860，6,040,138，6,177,248和6,309,822。基因分型和其应用显示在USSN 60/319,253，10/013,598，和美国专利5,856,092，6,300,063，5,858,659，6,284,460，6,361,947，6,368,799和6,333,179中。其它应用概括在美国专利5,871,928,5,902,723,6,045,996，5,541,061和6,197,506中。

本发明在某些优选实施方案中还涉及样品制备方法。在基因分型之前或者同时，基因组样品可以通过多种机理进行扩增，其中一些可以使用PCR。参见，例如PCR Technology：Principles and Applicationsfor DNA Amplification(Ed.H.A.Erlich，Freeman Press，NY，NY，1992)；PCR Protocols：A Guide to Methods and Applications(Eds Innis，等人，Academic Press，San Diego，CA，1990)；Mattila等人的，Nucleic Acids Res19，4967(1991)；Eckert等人的，PCR Methods and Applications 1，17(1991)；PCR(Eds.McPherson等人，IRL Press，Oxford)；和美国专利4,683,202，4,683,195，4,800,159，4,965,188和5,333,675，并且每个都全部引入作为通用的参考。样品可以在阵列上扩增。参见，例如美国专利6,300,070以及美国专利申请09/513,300，其在此处引入作为参考。

其它合适的扩增方法包含连接酶链式反应(LCR)(例如，Wu和Wallace，Genomics 4，560(1989)，Landegren等人的，Science 241，1077(1988)和Barringer等人的Gene 89：117(1990)，转录扩增(Kwoh等人，Proc.Natl.Acad.Sci.USA 86，1173(1989)和WO88/10315)，自动维持的序列扩增(Guatelli等人，Proc Nat.Acad.Sci.USA，87，1874(1990)和WO90/06995，靶聚核苷酸序列的选择性扩增(美国专利6,410,276)，共有序列引物聚合酶链式反应(CD-PCR)(美国专利4,437,975)，任意引物聚合酶链式反应(AP-PCR)(美国专利5,413,909，5,861,245)和基于核酸的序列扩增(NABSA)。(参见美国专利5,409,818，5,554,517和6,063,603，每个都在此处引入作为参考)。其它可以使用的扩增方法描述在美国专利5,242,794，5,494,810，4,988,617以及美国专利09/854,317中，其中每个在此处引入作为参考。

其它的样品制备方法和减少核样品复杂性的技术描述在Dong等人的，Genome Research 11 1418(2001)，美国专利6,361,947，6,391,592和美国专利申请09/916,135，09/920,491，09/910,292，和10/013,598中。进行多核苷酸杂交分析的方法已经在本领域中得到了很好的发展。杂交分析程序和条件将依赖于应用而改变，并且根据已知的常规结合方法进行选择，所述常规结合参考：Maniatis等人的分子克隆实验指南(第二版，Cold Spring Harbor，N.Y，1989)；Berger和Kimmel的Methodsin Enzymology，Vol.152，Guide to Molecular CloningTechniques(Academic Press，Inc.San Diego，CA，1987)；Young和Davism，P.N.A.S，80：1194(1983)。进行重复和控制杂交反应的方法和装置描述在wu美国专利5,871,928，5,874,219，6,045,996和6,386,749，6,391,623中，每个都在此处引入作为参考。

在某些优选实施方案中，本发明还涉及检测配体之间的杂交信号。参见美国专利5,143,854；5,578,832；5,631,734；5,834,758；5,936,324；5,981,956；6,025,601；6,141,096；6,185,030；6,201,639；6,218,803；和6,225,625，美国专利申请60/364,731以及PCT申请PCT/US99/06097(公布为WO 99/47964)，每个都全部引入作为通用的参考。

信号检测以及处理大量数据的方法和装置公开在，例如美国专利5,143,854，5,547,839，5,578,832，5,631,734，5,800,992，5,834,758；5,856,092，5,902,723，5,936,324，5,981,956，6,025,601，6,090,555，6,141,096，6,185,030，6,201,639；6,218,803；和6,225,625中，美国专利申请60/364,731和PCT申请PCT/US99/06097中(公开号为WO99/47964)，其中每个都在此处引入作为通用的参考。

本发明的应用还可以使用传统的生物学方法、软件以及系统。本发明的计算机软件产品典型地包含计算机可读介质，具有电脑可执行指令用于执行本发明方法的逻辑步骤。合适的计算机可读介质包含软盘，CD-ROM/DVD/DVD-ROM，硬盘驱动器，闪速存储器，ROM/RAM，磁带等。计算机可执行命令可以写入合适的计算机语言或几个语言的组合。基础计算生物学方法描述在例如Setubal和Meidanis等人的Introduction to Computational Biology Methods(PWS PublishingCompany，Boston，1997)；Salzberg，Searles，Kasif，(Ed)，ComputationalMethods in Molecular Biology，(Elsevier，Amsterdam，1998)；Rashidi和Buehler，Bioinformatics Basics：Application in Biological Science andMedicine(CRC Press，London，2000)和Ouelette与Bzevanis的Bioinformatics：A Practical Guide for Analysis of Gene and Proteins(Wiley&Sons，Inc.，第二版，2001)。

本发明还可以应用多种计算机程序产品和软件用于多种目的，诸如探针设计，数据处理，分析和仪器操作。参见美国专利5,593,839，5,795,716，5,733,729，5,974,164，6,066,454，6,090,555，6,185,561，6,188,783，6,223,127，6,229,911和6,308,170。

另外，本发明可能具有包括如下方法的优选实施方案：所述方法提供了覆盖网络诸如国际互联网络的遗传信息，显示在美国专利申请10/063,559，60/349,546，60/376,003，60/394,574，60/403,381中。

II.词汇表

当用于本文中时，下面的术语具有下面的通用含义。

在本发明中，核酸可以包括任何嘧啶和嘌呤碱基的聚合物或寡聚物，优选分别为胞嘧啶(C)、胸腺嘧啶(T)、尿嘧啶(U)、腺嘌呤(A)和鸟嘌呤(G)。参见Albert L.Lehninger编写的PRINCIPLES OFBIOCHEMISTRY第793-800页(Worth出版社，1982)。事实上，本发明考虑到了任何脱氧核糖核苷酸、核糖核苷酸或肽核酸成分，以及它们的任何化学变体，例如这些碱基的甲基化、脱氧甲基化或糖基化形式等。聚合物或寡聚物在组成上可以是非均质的或均质的，可以从天然存在的来源分离出来，也可以是人工的或合成产生的。此外，核酸可以是脱氧核糖核酸(DNA)或核糖核酸(RNA)或其混合物，可以永久地或暂时地以单链或双链形式、包括同源双链体、异源双链体和杂交体状态存在。

寡核苷酸或多核苷酸是一个其长度至少为2、优选至少为8、更优选至少为20个核苷酸的核酸，或能够与多核苷酸特异性杂交的化合物。本发明的多核苷酸包括脱氧核糖核酸(DNA)或核糖核酸(RNA)序列，它们可以从天然来源分离出来、重组产生或人工合成和模拟。本发明的多核苷酸的另一个例子可以是肽核酸(PNA)，其中组成的碱基通过肽键而不是磷酸二酯键连接起来，这在Nielsen等，Science 254：1497-1500(1991)和Nielsen Curr.Opin.Biotechnol.，10：71-75(1999)中有描述。本发明还包括这样的情况，其中含有非常规的碱基配对例如Hoogsteen碱基配对，这样的配对方式已经在某些tRNA中被鉴定到并推测在三螺旋中存在。在本申请中“多核苷酸”和“寡核苷酸”可以互换使用。

“阵列”是有意产生的分子的集合体，可以通过合成或生物合成而制备。阵列中的分子彼此可以相同也可以不同。阵列可以表现为多种形式，例如可溶性分子的文库、束缚到树脂珠、硅芯片或其它固相支持物上的化合物的文库。

核酸文库或阵列是有意产生的核酸的集合体，可以以多种不同的形式(例如可溶性分子的文库；以及束缚到树脂珠、硅芯片或其它固相支持物上的寡核苷酸的文库)通过合成或生物合成而制备。此外，术语“阵列”的意义还包括那些可以通过将基本上任何长度的核酸(例如从1到大约1000核苷酸单体长)点在基质上而制备的核酸的文库。此处所用的术语“核酸”是指任何长度的核苷酸的聚合形式，可以是核糖核苷酸、脱氧核糖核苷酸或肽核酸(PNAs)，其中含有嘌呤和嘧啶碱基、或其它天然的、化学或生物化学修饰的、非天然的或衍生的核苷酸碱基。多核苷酸的骨架可以含有通常在RNA或DNA中发现的糖和磷酸基团，或修饰的或取代的糖或磷酸基团。多核苷酸可以含有修饰的核苷酸，例如甲基化的核苷酸和核苷酸类似物。核苷酸的序列可以被非核苷酸的成分打断。因此术语核苷、核苷酸、脱氧核苷和脱氧核苷酸一般都包括例如在本文中描述的那些类似物。这些类似物是与天然存在的核苷或核苷酸具有同样的某些结构特征的分子，以便当掺入到核酸或寡核苷酸序列中时，可以在溶液中与天然存在的核酸序列杂交。一般来说，这些类似物是从天然存在的核苷和核苷酸通过碱基、核糖或磷酸二酯基团的取代和/或修饰而衍生得到的。这样的变化可以被设计用于稳定或去稳定杂交体的形成，或增强与所需的互补核酸序列杂交的特异性。

“固相支持物”、“支持物”和“基质”可以互换使用，用来指一个或一组具有刚性或半刚性表面的材料。在许多实施方案中，固相支持物的至少一个表面应该是基本上平的，尽管在某些实施方案中，可能希望能够将不同化合物的合成区域用例如孔、升高的区域、针、蚀刻的沟槽等在物理上分开。在其它的实施方案中，固相支持物将采用珠、树脂、凝胶、微球的形式或其它的几何构型。

组合合成策略：组合合成策略是通过顺序地加入试剂平行地合成多种聚合物序列的有序策略，所述试剂可以用一个反应物矩阵和一个转换矩阵来代表，其乘积是一个积矩阵。反应物矩阵是待加入的一个1列×m行的建筑模块的矩阵。转换矩阵是二元数字的全集或一个子集，优选为成列有序排列的1和m之间的数字。“二元策略”是这样一种策略，其中至少两个连续的步骤来照亮基质目的区域的一部分，通常是一半。在二元合成策略中，所有能够从一组有序的反应试剂可能形成的化合物都被形成了。在大多数优选实施方案中，二元合成是指也把以前的添加步骤化为因数的合成策略。例如在一个策略中，一个用于遮挡策略的转换矩阵将以前照亮的区域分为两半，对以前照亮的区域的大约一半进行照亮，对剩下的一半进行保护(同时也对以前保护的区域的大约一半进行保护并对以前保护的区域的大约一半进行照亮)。可以意识到，二元的循环中可以间插非二元的循环，只有一部分的基质可以进行二元流程。组合的“遮挡”策略中的合成使用光或其它空间选择性的去保护或活化试剂从物质上除去保护基团，以便加上其它物质例如氨基酸。

单体是指能够连接在一起形成寡聚物或聚合物的分子组中的任何成员。用于本发明的单体组，以多肽的合成为例，包括但不限于例如L-氨基酸、D-氨基酸或合成的氨基酸的组。在此所用的“单体”是指用于合成寡聚物的基本组中的任何成员。例如，L-氨基酸的二聚体形成了用于合成多肽的400个“单体”的基本组。在合成聚合物的连续步骤中可以使用不同的单体基本组。术语“单体”也指化学物质亚基，它能够与不同的化学物质亚基结合形成比任何一个单独的亚基大的化合物。

生物聚合物是指生物或化学部分的重复单位。具有代表性的生物聚合物包括但不限于核酸、寡核苷酸、氨基酸、蛋白、肽、激素、寡糖、脂、糖脂、脂多糖、磷脂、上述物质的合成类似物，包括但不限于倒转的核苷酸、肽核酸、异DNA(Meta-DNA)，及上述物质的组合。“生物聚合物合成”包括生物聚合物的合成生产，既包括有机的也包括无机的。

与生物聚合物相关的是“生物单体”，它是指生物聚合物的单个单位，或不是生物聚合物的一部分的单个单位。因此，例如，核苷酸是寡核苷酸生物聚合物中的一个生物单体，氨基酸是蛋白或肽生物聚合物中的一个生物单体；例如亲和素、生物素、抗体、抗体片段等也是生物单体。起始的生物单体：或“生物单体起始物”是指通过活性亲核试剂共价连接到聚合物表面上的第一个生物单体，或连接到结合在聚合物上的连接物或间隔物臂上的第一个生物单体，连接物或间隔物臂通过活性亲核试剂结合在聚合物上。

互补或者基本上互补是指：在例如一个双链DNA分子的两条链之间或一个寡核苷酸引物与被测序或扩增的单链核酸上的引物结合位点之间核苷酸或核酸的杂交或碱基配对。互补的核苷酸通常是A和T(或A和U)、或C和G。两个单链的RNA或DNA分子，当一条链上的核苷酸经过最适的排列和比较，带有适当的核苷酸插入或删除后，与另一条链的至少大约80％、通常至少大约90％到95％、更优选为从大约98％到100％的核苷酸配对，就可以被说成是互补的。或者，当RNA或DNA链在选择性杂交条件下能够与其互补物杂交时，互补性也存在。一般来说，选择性杂交将发生在当在一个至少14到25个核苷酸的范围内具有至少大约65％的互补性、优选至少大约75％的互补性、更优选至少大约90％互补性时。参见M.Kanehisa Nucleic Acids Res.12：203(1984)，在此引为参考。

术语“杂交”是指两个单链多核苷酸非共价地结合形成稳定的双链多核苷酸的过程。术语“杂交”也可以指三链的杂交。得到的(通常的)双链多核苷酸是“杂交体”。形成稳定杂交体的多核苷酸的数目的比例在此被称为“杂交程度”。

杂交的条件一般包括低于大约1M、更经常低于大约500mM和低于大约200mM的盐浓度。杂交温度可以低至5℃，但是一般高于22℃，更典型高于大约30℃，优选超过大约37℃。杂交通常在严紧条件下进行，即在探针将与其靶序列杂交的条件。严紧的条件是序列依赖性的，在不同情况下有所不同。较长的片段对特异性杂交可能需要较高的杂交温度。尽管其它的因素包括碱基的组成和互补链的长度、有机溶剂的存在和碱基错配的程度可能影响杂交的严紧性，但参数的组合要比任何单独一个的绝对度量更为重要。一般来说，严紧的条件被选择为比在设定的离子强度和pH下具体序列的热熔点温度^Tm低大约5℃。Tm是(在确定的离子强度、pH和核酸组成下)50％互补于靶序列的探针与靶序列的杂交处于平衡状态的温度。

一般来说，严紧的条件包括在pH7.0到8.3、温度至少25℃下，盐浓度为至少0.01M到不超过1M的Na离子浓度(或其它的盐)。例如，5X SSPE(750mM NaCl，50mM磷酸钠，5mM EDTA，pH7.4)和温度为25-30℃的条件适合于等位基因特异性的探针杂交。对于严紧的条件，参见例如Sambrook，Fritsche和Maniatis编写的《分子克隆实验室手册》(第二版)(冷泉港实验室出版社，1989)和Anderson编写的《核酸杂交》(第一版)(BIOS科学出版有限公司，1999)，在此因为上述的所有目的以其全文引为参考。

杂交探针是能够以碱基特异性的方式与核酸的互补链结合的核酸(例如寡核苷酸)。这样的探针包括肽核酸，这在Nielsen等，Science254：1497-1500(1991)和Nielsen Curr.Opin.Biotechnol.，10：71-75(1999)中有描述，以及其它的核酸类似物和核酸模拟物。参见4/3/96提交的美国专利No.6,156,501。

特异性杂交是当特定的核苷酸序列或序列存在于复杂混合物(例如全细胞)DNA或RNA中时分子在严格条件基本上结合，双联或杂交到或者到仅仅到特定的核苷酸序列或序列。

探针：探针是能够被特定的靶识别的分子。在某些实施方案中，探针可以被固定化在表面上。在本发明中研究的探针的例子包括但不限于细胞膜受体的激动剂和拮抗剂、毒素和毒液、病毒的抗原决定簇、激素(例如阿片样肽、类固醇等)、激素受体、肽、酶、酶的底物、辅因子、药物、凝集素、糖、寡核苷酸、核酸、寡糖、蛋白和单克隆抗体。

“靶”是对给定的探针具有亲和性的分子。靶可以是天然存在的或人造的分子。它们也可以以其不被改变的状态或与其它物质结合的方式被使用。靶可以共价地或非共价地、直接地或通过特定的结合物质与一结合元件结合。可以在本发明中使用的靶的例子包括但不限于抗体、细胞膜受体、与特定的抗原决定簇(例如在病毒、细胞或其它物质上)具有反应性的单克隆抗体和抗血清、药物、寡核苷酸、核酸、肽、辅因子、凝集素、糖、多糖、细胞、细胞膜和细胞器。在本技术领域中靶有时是指抗探针。在本文中使用的术语“靶”在意义上没有区别。当两个大分子通过分子识别结合起来形成复合物时，就形成了“探针-靶对”。

“有效量”是指足以诱导所需结果的量。

本文中使用的“mRNA或mRNA转录本”包括但不限于mRNA转录本前体、转录加工中间体、用于翻译的成熟mRNA和基因的转录本、或从mRNA转录本衍生的核酸。转录加工可以包括剪接、编辑，降解。在此所用的从mRNA转录本衍生的核酸是指最终以mRNA转录本或其一段序列为模板合成的核酸。因此从mRNA反转录得到的cDNA、从cDNA转录的cRNA、从cDNA扩增的DNA、从扩增的DNA转录的RNA等都是从mRNA转录本衍生而来的，并且对这些衍生产物的检测能够指示样品中原始的转录本的存在和/或丰度。因此，从样品衍生的mRNA包括但不限于基因的mRNA转录本、mRNA反转录得到的cDNA、从cDNA转录的cRNA、从基因扩增的DNA、从扩增的DNA转录的RNA等。

片段、区段或DNA区段是指一个大的DNA多核苷酸或DNA的一部分。例如，多核苷酸可以被降解或分成多个区段。各种使核酸片段化的方法在本技术领域内是广为人知的。这些方法可以在本质上是例如化学的或物理的。化学片段化方法可以包括用DNase部分降解；用酸部分脱嘌呤；使用限制性内切酶；内含子编码的内切核酸酶；基于DNA的切割方法，例如三螺旋和杂交体形成的方法，这种方法依靠核酸区段的特异性杂交以将切割试剂定位到核酸分子中的特定位置；或其它能够在已知或未知的位置切割DNA的酶或化合物。物理片段化方法可以包括将DNA处于高剪切速率下。高剪切速率的产生可以通过例如将DNA通过内部凹凸不平的空腔或通道运动，或迫使DNA样品通过一个限制了孔径的流动通道，例如横截面大小在微米或亚微米级的孔道产生。其它的物理方法包括超声和雾化。将物理和化学片段化相结合的方法同样可以使用，例如通过加热和离子介导的水解进行片段化。参见例如Sambrook等编写的《分子克隆：实验室手册》(第三版，冷泉港实验室出版社，冷泉港，纽约，2001年)，在此为所有目的引为参考。这些方法可以被最适化以便将核酸消化成选定的大小范围的片段。可以使用的大小范围为从100、200、400、700或1000到500、800、1500、2000、4000或10000个碱基对。但是较大的大小范围例如4000、10,000或20,000到10,000、20,000或50,0000碱基对也可以使用。

多态性是指在种群中存在两个或多个遗传决定的可以替代的序列或等位基因。多态性标记或位点是出现差异的位点。优选的标记具有至少两个等位基因，在选定的种群中每个等位基因都以大于1％、更优选为大于10％或20％的频率出现。多态性可以包括一个或多个碱基的变化、插入、重复或缺失。多态性位点可以小到1个碱基对。多态性标记包括限制性片段长度多态性、串联重复序列数量变化(VNTR’s)、超变区、小卫星、二核苷酸重复、三核苷酸重复、四核苷酸重复、简单序列重复和插入元件例如Alu。第一个鉴定的等位基因形式被武断地指定为参比形式，其它的等位基因形式被指定为可替代的或变异的等位基因。在选定的种群中出现频率最高的等位基因形式有时被称为野生型。二倍体生物在等位基因的形式上可以是纯合的或杂合的。双等位基因的多态性具有两种形式。三等位基因的多态性有三种形式。单核苷酸多态性(SNPs)也包括在多态性中。

单核苷酸多态性(SNPs)是在人群中两种可以替代的碱基都以明显的频率(＞1％)出现的位置，是人类遗传变异最常见的类型。该位点的前后通常具有高度保守的等位基因序列(例如在种群中只有不到1/100或1/1000的成员中发生变化的序列)。单核苷酸多态性通常是由于在多态性位点上由一个核苷酸代替了另一个核苷酸而引起的。转换是指用一个嘌呤代替另一个嘌呤或用一个嘧啶代替另一个嘧啶。换异(transversion)是指用一个嘧啶代替一个嘌呤，或反之亦然。单核苷酸多态性也可以由相对参比等位基因而言缺失了核苷酸或插入了核苷酸而引起。

基因分型是指对个体在基因组的一个或多个位置上携带的遗传信息进行确定。例如，基因分型可以包括确定个体在单个SNP中携带了哪个或哪些等位基因、或确定个体在多个SNPs中携带了哪个或哪些等位基因。基因型可以是存在于个体的一个或多个多态性位点上的等位基因的身份。

III.检测转录本结构的方法

当只有一部分全长转录本被分离以及表征(例如，EST或来自转录组研究的转录片段(www.affymetrix.com))时，先前获得全长cDNAs需要利用cDNA克隆或5’以及3’RACE方法的精细技术方法。cDNA的产物以及RACE产物任选需要为独特的分子类型(即凝胶上的单一谱带或文库中绝大部分的克隆)。如果没有获得这种独特的分子类型，通常知道更进一步的分析是无价值的。

RACE，cDNA末端的快速的扩增是最初发展用于全长cDNAs分析的技术。3’RACE利用mRNA中的天然聚腺苷酸尾作为PCR扩增的通用启始位点。利用逆转录酶(RT)以及寡-dT接头引物将mRNAs变为cDNA。然后通过PCR利用退火到已知序列的区域的基因-特异性引物(GSP)以及靶向聚腺苷酸尾区的接头引物扩增特异性cDNA。

5’RACE或“锚定”PCR是促进低拷贝信使的5’末端的分离以及表征的技术。参见例如，Saiki R.K.Gelfand，D.H.Stoffel Stoffel，S.，Scharf，S.J.，Higuchi，R.，Horn，G.T.，Mullis，K.B.，以及Erlich，H.A.(1988)Science 239，487；Frohman，M.A.，(1993)RapidAmplification of Complementary DNA Ends for Generation ofFull-Length Complementary DNAs：Thermal RACE.Methods inEnzymology 218：340-356，此处引入作为参考。利用基因特异性反义寡核苷酸(GSP1)作为引物合成第一cDNA链。这可以进行特异性mRNA或相关mRNAs家族的cDNA的转化，以及使向5′-末端信使的完全延伸的潜能最大化。cDNA合成后，从未合并的dNTPs以及GSP1纯化第一链产物。TdT(末端脱氧核苷酰转移酶)用来向cDNA的3′末端添加同聚核苷酸尾序。在原始方案中，然后通过PCR利用3种引物的混合物扩增尾cDNA：退火3’到GSP1的嵌套基因-特异性引物(GSP2)；以及包含互补同聚物的锚定引物以及可以从同聚物尾扩增的相应的接头引物的组合。这可以扩增GSP2以及mRNA的5′-末端之间的未知序列。类似策略可用于分析基因组序列。例如，基因组DNA末端的快速扩增(RAGE)可用于克隆以及分析基因组序列。参见，例如XIANANLIU以及W.VANCE BAIRD，Rapid Amplification of GenomicDNA Ends by Nla III Partial Digestion and Polynucleotide Tailing，PlantMolecular Biology Reporter 19：261-267，2001以及Mizobuchi，M，Frohman，LA(1993)，Rapid amplification of genomic DNA ends.Biotechniques 15：215-216.，此处引入作为参考。

RACE可以利用现有的cDNA文库进行。随机六聚物开始的cDNA适合于5’RACE用于扩增以及从单个第一链合成反应克隆多个基因。RACE方法可以与外显子截留法连用从而扩增以及表征未知的编码序列。参见，例如Buckler A.J.，Chang，D.D.，Graw，S.L.，Brook，D.，Haber，D.A.，Sharp，P.A.，以及Housman，D.E.(1991)Proc.Natl.Acad.Sci USA 88,4005，在此处引入作为参考。

在本发明的一个方面，利用RACE(cDNA末端的快速扩增)分析转录本并且将RACE的产物或来源于RACE的产物的样品用设计用于查询外显子的阵列进行杂交。通过利用RACE以及阵列可以制备特异性以及特异性较低的RACE产物(即，混合物)并且能在阵列上成功挑选出并且表征。该方法同样可以同时进行多个转录本以及基因组区域的高通量分析。

RACE是获得可能难以捕获的全长cDNA的方法。参见，例如M.A.Frohman等人，“Rapid production of full-length cDNAs from raretranscripts：amplification using a single gene-specific oligonucleotideprimer”，Proceedings of the National Academy of Sciences，85：8998-9002，1988。5’以及3’RACE已经被用于表征转录本的结构。然而，由于大量可能的因素，传统的RACE方案与高本底噪声相联系。

通过利用高密度阵列以及串联的5’以及3’RACE(cDNA末端的快速扩增)检测以及表征目前尚未表征的转录本或基因组结构。Affymetrix进行的实验表明RACE以及随后的RACE-扩增(通过PCR)反应的产物可以通过电泳凝胶或克隆分析观察为非特异的。阵列能够对扩增的RACE产物的非均匀混合物进行分级还能显示分析的作为充分表征的转录本的目的区域。

图1显示了分析RACE产物的示范性的方法。核酸样品(诸如RNAs)与适合的引物(101)被用作RACE反应的模板。不同的RACE方案适合于例如SMART方法(Clontech)，来自Ambion的RLM-RACE试剂盒以及来自Invitrogen的GeneRacer^TM试剂盒。

来源于RACE产物的RACE产物或核酸可以利用高密度寡核苷酸探针(102，103)，而非传统基于凝胶的分析进行标记和分析。在优选实施方案中探针固定在阵列中或编码珠的集合中。查询核酸序列(诸如嵌合策略)探针的选择已经描述在上述引入作为参考的多个申请中。例如，转录组嵌合阵列描述在美国专利申请10/736,054,10/714,253以及10/712,322中，所有都在此处引入作为参考。转录组阵列通常以1，5，25，30，35碱基间隔对基因组序列进行分块。有时，探针可以靶向来自特异性链的转录本。重排阵列同样有用。用于分析杂交数据的不同算法公开在上述引入作为参考的申请中。习惯重排的阵列以及分析阵列的软件可以获自例如Affymetrix，Inc.(Santa Clara，CA)。高通量重排阵列描述在例如美国专利申请10/028,482以及10/658,879中，在此处引入作为参考。

RACE以及高密度寡核苷酸阵列的联合可以进行许多种分析，包括：

鉴定转录本的5’以及3’末端的位置(检测以及表征可变的5’以及3’末端)；

2)确定全长cDNAs的结构；

3)检测以及表征相关转录本的可变剪接同种型；

4)确定转录本的链或起点；

5)提供组合多个(＞2)RACE反应发现基因以及以高通量方式表征的能力；

6)由PCR扩增RACE反应的产物利用低拷贝数转录本提供实施上述5个任务的能力；

7)提供检测源自于与另一转录本较远距离开始的转录的转录本(外显子)的结合的能力；以及

8)利用基因组DNA作为模板由RACE-类反应鉴定独特的缺失，易位以及重排。

图2以及3来自于显示使用5’以及3’RACE以及高密度阵列以1)证实先前较好表征的基因的结构以及2)表征新的基因的全长转录本的实施例。

图2是UniBrow可视工具的显示屏的记录(Affymetrix，Santa Clara，CA)包含染色体22上较好表征的基因DGSI的结构。该基因由10个外显子组成并且从右到左(即，5′末端在右侧)进行转录。下列是分别标记为DGSI-rx12以及rx 6的2个轨迹。在反应中有2个RACE引物查询5′以及3′端。引物指向反方向并且位于外显子6内(从5′末端)。Rx 12轨迹图解了外显子6-10的鉴定并且rx 6轨迹图解了1-6的鉴定。有趣的是，外显子1看来似乎是比DGSI注解描述的更长的外显子。

图3是包含染色体22的一个区域的显示屏的记录，所述区域在转录组项目中作为新的基因被检测出来。报道在Science 2002 May 3；296：916-919。从那以后EST(DGCR9)已经报告了这个区域。在RACE以及阵列实验中我们发现了一条具有2个外显子的有义链转录本(DGCR9 rx5(上游)观察到的缺口源于在这个小区域缺乏探针)。

应该理解上述描述意为说明性而非限制性的目的。本发明的许多改变对于本领域技术人员而言在参考了上述描述后将是显而易见的。所有引用的参考文献包括专利以及非专利文献都在此处全部引入作为通用的参考。

Claims

1.用于分析核酸序列的方法，包括：利用核酸序列作为模板进行RACE反应；以及利用微阵列分析RACE反应。

2.权利要求1的方法，其中的核酸序列为RNA。

3.权利要求2的方法，其中的RACE为3′RACE。

4.权利要求3的方法，其中的微阵列为高密度寡核苷酸探针阵列。

5.权利要求4的方法，其中的寡核苷酸探针阵列为嵌合阵列。

6.权利要求5的方法，其中的寡核苷酸探针阵列对基因组序列进行分块，以小于35个碱基的间隔作为RNA的模板。

7.权利要求6的方法，其中的间隔少于25个碱基。

8.权利要求7的方法，其中的间隔少于5个碱基。

9.权利要求3的方法，其中的RACE为5′RACE。

10.权利要求9的方法，其中的微阵列为高密度寡核苷酸探针阵列。

11.权利要求10的方法，其中的寡核苷酸探针阵列为嵌合阵列。

12.权利要求11的方法，其中的寡核苷酸探针阵列对基因组序列进行分块，以小于35个碱基的间隔作为RNA的模板。

13.权利要求12的方法，其中的间隔少于25个碱基。

14.权利要求13的方法，其中的间隔少于5个碱基。

15.用于分析基因组DNA的方法，包括：

利用基因组DNA作为模板进行RACE反应；以及

利用微阵列分析RACE反应。

16.权利要求15的方法，其中的微阵列为高密度寡核苷酸探针阵列。

17.权利要求16的方法，其中的寡核苷酸探针阵列为重排阵列。