CN1711358A

CN1711358A - 用于询问功能性基因组区域中序列变异的方法,组合物和计算机软件产品

Info

Publication number: CN1711358A
Application number: CNA2003801030822A
Authority: CN
Inventors: 托马斯·R·金杰拉斯
Original assignee: Affymetrix Inc
Current assignee: Affymetrix Inc
Priority date: 2002-11-12
Filing date: 2003-11-12
Publication date: 2005-12-21
Also published as: AU2003291453A8; AU2003291453A1; WO2004044700A2; WO2004044700A3; EP1563090A2; EP1563090A4

Abstract

在本发明的一个方面，提供了检测基因组的功能区中基因变异的方法、组合物和计算机软件产品。在有些实施方案中，铺盖探针阵列的寡核苷酸用于检测转录区，转录因子结合区等。这些区域中的基因变异可利用，例如，全基因组取样分析加以确定。

Description

用于询问功能性基因组区域中序列变异的方法，组合物和计算机软件产品

相关申请

本申请要求于2002年11月12日提交的美国临时申请NOs60/425,879和60/425,880的优先权，在此为所有目的引作参考。

发明背景

本发明涉及基因分析，基因组，生物测定和生物信息学。具体而言，在本发明的一个方面，为了分析功能区中的基因变异，提供方法，组合物和计算机软件产品。

基因组变异的分析(例如，单核苷酸多态性(SNPs)，扩增和缺失)可能是有趣生物学的原因，已集中在将确定患病个体基因组中的这些变异的位置和使这些变异与那些区域(例如，编码区和调节区)中所列的注解相关组合在一起。由此，对基因型：表型相关性的检索取决于现有的基因组的注解。然而，仍有需要，例如，监控基因组未注解的部分，以便获得基因组的转录活性的无偏覆盖。

发明概述

在本发明的一个方面，为了利于检索基因组中功能区中的序列变异(SNPs，扩增，缺失等)，无需求助于现有注解，提供方法，组合物和计算机软件产品。

在一些实施方案中，RNA转录位点，转录因子结合位点，起点，甲基化和染色质修饰位点等确定在生物样品中。通常，样品可反映各种不同的生理，病理，毒理或药理状态。RNA转录位点，转录因子结合位点，起点，甲基化和染色质修饰位点等赋予这些基因组区域特定的功能，并且把它们归因于分析序列变异存在的优先状态。诸如与具体生物功能相关的区域在本说明书中称为“功能区”。利用各种方法，包括使用高密度寡核苷酸探针阵列可确定功能区。通常，大规模确定序列变异，例如，至少500，1000，5000，10000，或100000个SNPs。

例如，当结合或连接研究突出基因组的若干区域作为参与确定患病家族或个体的特征的可能位点时，功能区在这些区域中的存在可凭经验确定，并且缩小进一步分析的可能性。这些区域中的基因组和cDNA序列可凭经验确定，并且优先于其他区域通过测序或SNP测试或比较基因组杂交(CGH)测试而加以分析，所述其他区域对编码区域之外的序列变异是重要的(但不是唯一的)。

利用各种不同的方法，包括使用高密度寡核苷酸探针阵列，可对转录因子(TF)结合位点进行检测。在一个实施方案中，受转录结合因子保护的DNA片段利用免疫沉淀获得，并且利用高密度阵列询问，以确定具有与转录结合因子结合的DNA序列的区域。

一旦这类功能上重要位点沿基因组在一些个体中制图，这将是有用的，不必对每个患者中的每个因子或功能序列进行类似的免疫沉淀试验。例如，如果若干TFs(例如，cMyc和SP-1)似乎结合于基因组中同样的位点(即，1kb基因组序列)，利用全基因组取样分析(WGSA)测试该区域的突变将是有益的。然而，如果沿基因组分散有许多这类普通位点，则找到最少的限制性核酸内切酶(REs)使得查看最大可能数目的位点就会变成优先。

WGSA为一种通过获得代表性限制性片段减少基因组样品复杂性的分析。详细描述全基因组取样分析，参见例如，美国专利申请NOs.10/316,517和10/316,629(在此引作参考)。复杂性降低的基因组样品可用于杂交高密度寡核苷酸探针阵列以询问SNPs和进行再测序(序列变异检测)。

由于参与细胞的各种功能性操作的序列表是限定的，应检查这些位点是否存在RE位点，所述功能性操作诸如转录因子结合，起点，甲基化和染色质修饰位点。对于具体的功能分类序列(例如，TF结合序列)而言的确如此，最少数目的REs可进行鉴定，从而能跨越基因组对最大数目的这类位点查看在这些序列中是否存在可能的序列变异。

因此，本发明涉及一种询问基因变异的方法，包括获得多个基因组的功能区，其中功能区包含至少10,000个碱基，以及确定多个个体在基因组的功能区中的序列变异。在具体实施方案中，功能区包括多个转录因子结合位点，多个RNA：蛋白结合结构域，多个染色质修饰位点，多个复制起点，和/或多个DNA甲基化位点。在一个实施方案中，所述获得步骤包括利用微阵列，例如高密度寡核苷酸阵列，确定功能区。在一个实施方案中，微阵列包括铺盖(tiling)基因组区域的寡核苷酸探针。在另一实施方案中，所述确定步骤包括确定多个个体的功能区的序列。在另一实施方案中，所述确定步骤包括确定多个个体的功能区的基因型，例如SNP基因型。

在另一实施方案中，所述确定步骤包括用至少一种适用于询问至少一种功能区的限制性酶进行WGSA。在一个实施方案中，所述确定步骤包括确定序列拷贝数的变化。在一个实施方案中，功能区包括至少100000个碱基或至少500000个碱基。

本发明还涉及一种询问基因变异的方法，包括获得至少一个目的基因组区段；获得目的基因组区段内的多个功能区，其中功能区包括至少5,000个碱基；以及确定多个个体在基因组功能区中的序列变异。在一个实施方案中，目的基因组区域通过结合或连接分析加以确定。在一个实施方案中，功能区包括多个转录因子结合位点，多个RNA：蛋白结合结构域，多个染色质修饰位点，多个复制起点，和/或多个DNA甲基化位点。

在一个实施方案中，所述获得步骤包括利用微阵列，例如高密度寡核苷酸阵列，确定功能区。在一个实施方案中，微阵列包括铺盖基因组区域的寡核苷酸探针。

在另一实施方案中，所述确定步骤包括确定多个个体的功能区的序列。在另一实施方案中，所述确定步骤包括确定多个个体的功能区的基因型。在一个实施方案中，基因型为SNP基因型。

在一个实施方案中，所述确定步骤包括用至少一种适用于询问至少一种功能区的限制性酶进行WGSA。在一个实施方案中，所述确定步骤包括确定序列拷贝数的变化。

附图简述

附图并入本说明书中，并形成说明书的部分，举例说明本发明的实施方案，以及与说明书一起，用于解释本发明的原理：

图1示意性表示在基因组中对功能区进行基因定型的典型方法。

图2示意性表示在由结合或连接分析所鉴定的区域的功能区中确定序列变异的典型方法。

发明详述

本发明优选实施方案的描述如下。

现在请详细参照本发明的示例性实施方案。尽管本发明结合示例性实施方案加以描述，但应理解，它们并不旨在使本发明的范围限制在这些实施方案中。相反，本发明理应覆盖包含在本发明实质和范围内的替代物，修饰和等同物。

本发明涉及受分子相互作用的性质影响的多种领域，包括化学，生物学，医学和诊断学。本发明在快速需要大量信息的环境下尤其是有利的，所述环境诸如临床诊断实验室，或大规模工作，诸如人类基因组计划。

本发明有许多优选的实施方案，并且依赖于许多专利，申请和详情为本领域技术人员所公知的其他参考文献。因此，当专利，申请或其他参考文献在下文引用或重复时，应理解的是，为所有目的和引用的命题以其全文引作参考。

I.通则

如本申请所用，单数形式包括复数，除非上下文另有清楚地说明。例如，术语“一种试剂”包括多种试剂，也包括其混合物。

个体不限于人类，也可以是其他生物体，包括但不限于哺乳动物，植物，细菌或衍生自任何上述生物体的细胞。

贯穿此公开内容，本发明的各种不同的方面可以范围形式呈现。应理解的是，范围形式的描述仅仅为了方便和简明，不应解释成对本发明范围的硬性限制。因此，范围描述应视为已具体公开了所有可能的子范围以及在此范围内的单个数值。例如，对1-6范围的描述应视为具有具体公开的子范围，诸如1-3，1-4，1-5，2-4，2-6，3-6等，以及范围内的各个数值，例如，1，2，3，4，5，和6。无论范围多宽皆可适用。

除非另有说明，实施本发明可采用本领域专业人员公知的下列学科的常规技术和描述：有机化学，聚合物技术，分子生物学(包括重组技术)，细胞生物学，生物化学和免疫学。常规技术包括聚合物阵列合成，杂交，连接，和利用标记检测杂交。合适技术的具体说明可参照下文实施例。然而，其他等同的常规方法当然也可使用。这种常规技术和描述能在标准实验室手册找到，诸如基因组分析：实验室手册系列(Genome Analysis：A Laboratory Manual Series)(Vols.I-IV)，利用抗体：实验室手册(Using Antibodies：A Laboratory Manual)，细胞：实验室手册(Cells：A Laboratory Manual)，PCR引物：实验室手册(PCR Primer：A Laboratory Manual)，以及分子克隆：实验室手册(Molecular Cloning：ALaboratory Manual)(全部来自冷泉港实验室出版社)，Stryer，L.(1995)Biochemistry(第4版)Freeman，New York，Gait，“寡核苷酸合成：实用方法(Oligonucleotide Synthesis：A Practical Approach)”1984，IRLPress，London，Nelson and Cox(2000)，Lehninger，生化原理(Principlesof Biochemistry)第3版，W.H.Freeman Pub.，New York，NY和Berg等(2002)Biochemistry，第5版，W.H.Freeman Pub.，New York，NY，所有文献在此为全部目的以其全文引作参考。

本发明可采用固相基质，包括一些优选的实施方案中的阵列。适用于聚合物(包括蛋白)阵列合成的方法和技术已描述在美国专利No.09/536,841，WO 00/58516，美国专利Nos.5,143,854，5,242,974，5,252,743，5,324,633，5,384,261，5,405,783，5,424,186，5,451,683，5,482,867，5,491,074，5,527,681，5,550,215，5,571,639，5,578,832，5,593,839，5,599,695，5,624,711，5,631,734，5,795,716，5,831,070，5,837,832，5,856,101，5,858,659，5,936,324，5,968,740，5,974,164，5,981,185，5,981,956，6,025,601，6,033,860，6,040,193，6,090,555，6,136,269，6,269,846和6,428,752，PCT申请Nos.PCT/US99/00730(国际公布号WO 99/36760)和PCT/US01/04285(国际公布号WO01/58593)，所有文献在此为全部目的以其全文引作参考。

在具体实施方案中描述合成技术的专利包括美国专利Nos.5,412,087，6,147,205，6,262,216，6,310,189，5,889,165和5,959,098。核酸阵列描述在上述许多专利中，但是同样技术适用于多肽阵列。

用于本发明中的核酸阵列包括那些以商标名称为GeneChip、来自Affymetrix(Santa Clara，CA)的可购商品。阵列例子示于网址affymetrix.com上。

本发明也预期附着于固相基质的聚合物的许多应用。这些应用包括基因表达监控，分布，文库筛选，基因定型和诊断。基因表达监控和分布方法示于美国专利Nos.5,800,992，6,013,449，6,020,135，6,033,860，6,040,138，6,177,248和6,309,822。基因定型和应用示于USSN 60/319,253，10/013,598(美国专利公布号US-2003-0036069-A1)，以及美国专利Nos.5,856,092，6,300,063，5,858,659，6,284,460，6,361,947，6,368,799和6,333,179。其他应用也体现在美国专利Nos.5,871,928，5,902,723，6,045,996，5,541,061和6,197,506中。

本发明还在某些优选的实施方案中预期样品制备方法。在基因定型之前或同时，基因组样品可通过各种机制扩增，其中有些可采用PCR。参见，例如，PCR技术：DNA扩增的原理和应用(PCR Technology：Principles and Applications for DNA Amplification)(H.A.Erlich编，Freeman Press，NY，NY，1992)；PCR方案：方法和应用指南(PCRProtocols：A Guide to Methods and Applications)(Innis等编，AcademicPress，San Diego，CA，1990)；Mattila等，Nucleic Acids Res.19，4967(1991)；Eckert等，PCR Methods and Applications 1，17(1991)；PCR(McPherson等编，IRL Press，Oxford)；以及美国专利Nos.4,683,202，4,683,195，4,800,159，4,965,188和5,333,675，分别在此以其全文为所有目的引作参考。样品可在阵列上扩增。参见，例如，美国专利No6,300,070和美国专利申请09/513,300，在此引作参考。

其他合适的扩增方法包括连接酶链式反应(LCR)(例如，Wu和Wallace，Genomics 4，560(1989)，Landegren等，Science 241，1077(1988)和Barringer等，Gene 89：117(1990))，转录扩增(Kwoh等，Proc.Natl.Acad.Sci.USA 86，1173(1989)和WO 88/10315)，自动维持序列扩增(Guatelli等，Proc.Nat.Acad.Sci.USA，87，1874(1990)和WO90/06995)，靶多核苷酸序列的选择性扩增(美国专利No.6,410,276)，共有序列引发的聚合酶链式反应(CP-PCR)(美国专利No.4,437,975)，任意引发的聚合酶链式反应(AP-PCR)(美国专利Nos.5,413,909，5,861,245)和基于核酸的序列扩增(NABSA)(参见，美国专利Nos.5,409,818，5,554,517和6,063,603，分别在此引作参考)。其他可用的扩增方法描述在美国专利Nos.5,242,794，5,494,810，4,988,617和在美国专利No.09/854,317(美国专利No.6,582,938)中，分别在此引作参考。

用于降低核酸样品复杂性的样品制备和技术的其他方法描述在Dong等，Genome Research 11，1418(2001)，美国专利No.6,361,947，6,391,592和美国专利申请Nos.09/916,135，09/920,491(美国专利公布号US-2003-0096235-A1)，09/910,292(美国专利No.6,632,611)，以及10/013,598(美国专利公布No.US-2003-0036069-A1)。

用于进行多核苷酸杂交分析的方法在本领域已得以充分开发。杂交分析方法和条件会随应用而变化，并根据公知的通用结合方法选择，包括在下列文献中参照的结合方法：Maniatis等，分子克隆：实验室手册(Molecular Cloning：A Laboratory Manual)(第2版，冷泉港，N.Y，1989)；Berger和Kimmel，酶学方法(Methods in Enzymology)，Vol.152，分子克隆技术指南(Guide to Molecular Cloning Techniques)(AcademicPress，Inc.，San Diego，CA，1987)；Young和Davis，P.N.A.S，80：1194(1983)。用于实施重复和受控杂交反应的方法和装置已描述在美国专利5,871,928，5,874,219，6,045,996和6,386,749，6,391,623，分别在此引作参考。

本发明还在某些优选的实施方案中预期配体之间杂交的信号检测。参见，美国专利Nos.5,143,854，5,578,832；5,631,734；5,834,758；5,936,324；5,981,956；6,025,601；6,141,096；6,185,030；6,201,639；6,218,803；和6,225,625，美国专利申请60/364,731和PCT申请PCT/US99/06097(公布成WO 99/47964)，也分别在此为全部目的以其全文引作参考。

用于信号检测和处理密度数据的方法和装置公开在例如，美国专利Nos.5,143,854，5,547,839，5,578,832，5,631,734，5,800,992，5,834,758，5,856,092，5,902,723，5,936,324，5,981,956，6,025,601，6,090,555，6,141,096，6,185,030，6,201,639，6,218,803；和6,225,625，美国专利申请60/364,731和PCT申请PCT/US99/06097(公布成WO99/47964)，也分别在此为全部目的以其全文引作参考。

实施本发明也可采用常规的生物方法，软件和体系。本发明的计算机软件产品通常包括计算机可读介质，具有计算机可执行指示，用于执行本发明方法的逻辑步骤。合适的计算机可读介质包括软盘，CD-ROM/DVD/DVD-ROM，硬盘驱动，闪存，ROM/RAM，磁带等。计算机可执行指示可以合适的计算机语言或若干语言的组合书写。基本计算生物方法描述在例如，Setubal和Meidanis等，计算生物学方法导言(Introduction to Computational Biology Methods)(PWS PublishingCompany，Boston，1997)；Salzberg，Searles，Kasif(编辑)，分子生物学中的计算方法(Computational Methods in Molecular Biology)，(Elsevier，Amsterdam，1998)；Rashidi和Buehler，生物信息学基础：生物科学和医药中的应用(Bioinformatics Basics：Application in Biological Scienceand Medicine)(CRC Press，London，2000)以及Ouelette和Bzevanis，生物信息学：基因和蛋白分析的实用指南(Bioinformatics：A PracticalGuide for Analysis of Gene and Proteins)(Wiley & Sons，Inc.，第2版，2001)。也参见美国专利6,420,108。

为各种目的，诸如探针设计，数据管理，分析，和仪器操作，本发明还可利用不同的计算机程序产品和软件。参见，美国专利Nos.5,593,839，5,795,716，5,733,729，5,974,164，6,066,454，6,090,555，6,185,561，6,188,783，6,223,127，6,229,911和6,308,170。

本发明还可利用一种或多种阵列的若干实施方案和处理方法，所述方法描述在美国专利Nos.5,545,531和5,874,219中。这些专利为所有目的在此以其全文引作参考。

此外，本发明的优选实施方案包括通过网络，诸如因特网提供基因信息的方法，所述因特网示于美国专利申请10/063,559(美国专利公布No.US-2002-0183936-A1)，60/349,546，60/376,003，60/394,574，60/403,381中。

II.定义

“阵列”为通过合成或生物合成方法而制备的分子有意创建的集合。阵列中的分子可以彼此相同或不同。阵列能采用各种形式，例如可溶分子的文库，附着于树脂珠、硅芯片或其他固相支持物上的化合物的文库。

“阵列板”或“平板”为具有多个阵列的主体，其中各个阵列通过阻止液体通路的物理障碍与其他阵列分开，并且形成区域或空间，称为孔。

“核酸文库”或“阵列”为通过合成或生物合成方法而制备并且以各种不同的形式(例如，可溶分子的文库；以及附着于树脂珠、硅芯片或其他固相支持物上的寡聚体的文库)对生物活性进行筛选的核酸有意创建的集合。此外，术语“阵列”还表示包括核酸的那些文库，其制备方法是将基本上任何长度的核酸(例如，长度为1到约1000个核苷酸单体)点样到基质上。本发明所用的术语“核酸”是指任何长度的核苷酸的聚合形式，核糖核酸，脱氧核糖核酸，或肽核酸(PNAs)，如美国专利No.6,156,501中所述，包括嘌呤和嘧啶碱基，或其他天然，化学或生化修饰的，非天然或衍生化的核苷酸碱基。多核苷酸的骨架包括正如在RNA或DNA中通常发现的糖和磷酸基，以及修饰或替代的糖或磷酸基。多核苷酸可包含修饰的核苷酸，诸如甲基化的核苷酸和核苷酸类似物。核苷酸序列可被非核苷酸组分打断。因此，术语核苷，核苷酸，脱氧核苷和脱氧核苷酸一般包括诸如本发明所述的类似物。这些类似物具有一些结构特征，与天然发生的核苷或核苷酸一样，以致当掺入核酸或寡核苷序列中时，它们能与溶液中的天然发生的核酸序列杂交。通常，通过替换和/或修饰碱基，核糖或磷酸二酯部分，这些类似物衍生自天然发生的核苷和核苷酸。上述变化可进行定制以使杂交体形成稳定或去稳定，或者增强与所需的互补核酸序列杂交的特异性。

“生物聚合物”意在表示生物或化学部分的重复单元。代表性生物聚合物包括但不限于核酸，寡核苷酸，氨基酸，蛋白，肽，激素，寡糖，脂质，糖脂，脂多糖，磷脂，上述聚合物的合成类似物，包括但不限于，反向核苷酸，肽核酸，Meta-DNA，及其组合。“生物聚合物合成”意在包括生物聚合物的合成，无论是有机合成还是无机合成。

与生物聚合物相关的是“生物单体”，其意在表示生物聚合物的单个单元，或者不是生物聚合物部分的单个单元。因此，例如，核苷酸为寡核苷酸生物聚合物内的生物单体，而氨基酸是蛋白或肽生物聚合物内的生物单体，例如，亲和素、生物素、抗体、抗体片段等也是生物单体。

“起始生物单体”意在表示通过活性亲核试剂与聚合物表面共价连接的第一生物单体，或者连接于接头或间隔臂的第一生物单体，所述接头或间隔臂通过活性亲核试剂与聚合物相连。

“互补”是指核苷酸或核酸之间的杂交或碱基配对，诸如双链DNA分子的两条链之间，或寡核苷酸引物和待测序或扩增的单链核酸上的引物结合位点之间。互补核苷酸一般为A和T(或A和U)，或者C和G。当一条链的核苷酸，任选比对和比较以及具有合适的插入或缺失，与另一条链的核苷酸至少大约80％配对，一般至少大约90％-95％，以及更优选大约98％-100％配对时，则认为两条单链RNA或DNA分子基本互补。此外，当RNA或DNA链在选择性杂交条件下与其互补链杂交时，则存在实质上互补。通常，当在至少14-25个核苷酸段上有至少大约65％互补性，优选至少大约75％，更优选至少大约90％互补性时，会发生选择性杂交。参见，M.Kanehisa，Nucleic Acids Res.12：203(1984)，在此引作参考。

组合合成路线为平行合成不同聚合物序列的有序路线，通过顺序加入由反应物矩阵和转化矩阵所代表的试剂，它们的乘积为产品矩阵。反应物矩阵为欲加入积木的1列×m行矩阵。转化矩阵为二元数的全部或子集，优选是有序的，在列中排成1和m之间。“二元路线”中，至少两个连续步骤照亮部分，通常为基质上目的区域的一半。在二元合成路线中，来自有序集的反应物的所有可能的化合物形成。在最优选的实施方案中，二元合成是指一种也把先前加入步骤化为因子的合成路线。例如，路线中，转换矩阵用于掩盖先前被照亮的路线半区，照亮大约一半的先前被照亮的区域，而保护剩余一半(尽管也可保护大约一半的先前被保护的区域和照亮大约一半先前被保护的区域)。会认识到，二元循环可散布有非二元循环，以及只有部分基质可进行二元方案。组合“掩盖”路线为一种合成，其利用光或其他空间上选择的去保护剂或活化剂，以便从材料中去除保护基用于加入诸如氨基酸的其他材料。

“有效量”是指足以诱导所需结果的量。

“激发能量”是指用于激发可检测用标记的能量，例如照亮荧光标记。用于此的装置包括相干光或非相干光，诸如激光，UV光，光发射二极管，白炽光源，或其他任何光或其他能量的电磁源，具有的波长在可激发标记的激发带中，或能够提供可检测的发射、反射或扩散的辐射。

“基因组”是生物体的染色体中所有基因材料。衍生自特定生物体染色体的基因材料的DNA为基因组DNA。基因组文库为制自一组随机生成的重叠DNA片段，代表生物体整个基因组的克隆的集合。

杂交条件通常包括的盐浓度小于大约1M，更通常小于大约500mM，以及优选小于大约200mM。杂交温度可低至5℃，但通常大于22℃，更通常大于大约30℃，以及优选超过大约37℃。对具体的杂交而言，更长的片段可能需要更高的杂交温度。由于其他因素也可能影响杂交的严格性，包括碱基组成和互补链的长度，有机溶剂的存在，以及碱基错配的程度，参数组合比任意单独的绝对测量更为重要。

杂交，例如，等位基因特异探针杂交，一般在严格条件下进行。例如，条件为盐浓度不大于大约1M，和温度至少25℃，例如，750mMNaCl，50mM磷酸钠，5mM EDTA，pH 7.4(5×SSPE)和温度大约25℃到大约30℃。

杂交通常在严格条件下进行，例如，盐浓度不大约1M和温度至少25℃。例如，条件为5×SSPE(750mM NaCl，50mM磷酸钠，5mMEDTA，pH 7.4)和温度25-30℃适用于等位基因特异探针杂交。对于严格条件，参见，例如，Sambrook，Fritsche和Maniatis，“分子克隆：实验室手册(Molecular Cloning：A laboratory Manual)”，第2版，冷泉港出版(1989)，在此为上述所有目的以其全文引作参考。

术语“杂交”是指一种过程，其中两条单链多核苷酸非共价结合成稳定的双链多核苷酸；三链杂交理论上也是可能的。所得(通常)双链多核苷酸为“杂交体”。多核苷酸群形成稳定的杂交体的比例在此称为“杂交度”。

杂交探针为能够以碱基特异方式结合于核酸互补链的寡核苷酸。这类探针包括肽核酸，如下列文献所述，Nielsen等，Science254,1497-1500(1991)，以及其他核酸类似物和核酸模拟物。参见美国专利No.6,156,501。

“特异性杂交于”是指当一种或多种特殊核苷酸序列存在于复合物混合物(例如，总细胞)DNA或RNA中时，在严格条件下，分子基本上或仅与该序列结合，转接，或杂交。

“分离的核酸”是以主要物质存在的本发明的目标种类(即，基于摩尔数，其在组合物中比其他任何单个种类更丰富)。优选地，分离的核酸包含至少大约50，80或90％(以摩尔数为基础)的所有存在的大分子种类。最优选地，目标种类纯化至基本均一性(通过常规检测方法，污染物种类在组合物中不可被检测)。

“标记”包括例如，发光标记，光散射标记或放射性标记。荧光标记包括可商购的荧光素亚磷酰胺等，诸如Fluoreprime(Pharmacia)，Fluoredite(Millipore)和FAM(ABI)。参见美国专利6,287,778。

“配体”是一种被特殊受体识别的分子。被受体结合或与受体反应的试剂称为“配体”，这是一种仅根据其对应受体在定义上才有意义的术语。术语“配体”不暗含任何特殊的分子大小或其他结构或组成特征，除了目的物质能够与受体结合或反应之外。同样，配体可用作受体结合的天然配体或用作担当激动剂或拮抗剂的功能性类似物。可通过本发明研究的配体的例子包括但不限于，细胞膜受体的激动剂和拮抗剂，毒素和毒物，病毒表位，激素(例如，麻醉剂，类固醇等)，激素受体，肽，酶，酶底物，底物类似物，过渡态类似物，辅因子，药物，蛋白，和抗体。

连接失衡或等位基因结合表示具体等位基因或基因标记与具体等位基因或基因标记的优先结合在染色体位置附近比群体中任何具体等位基因频率通过机会预计的更频繁。例如，如果座位X具有等位基因a和b，它们出现的频率相等，以及连接的座位Y具有等位基因c和d，它们出现的频率也相等，则可预计组合ac出现的频率为0.25。但如果ac出现更频繁，则等位基因a和c处于连接失衡。连接失衡可能由天然选择某些组合的等位基因产生，或者因为等位基因已导入群体时间太近以致不能与连接的等位基因达到平衡。

微量滴定板为离散孔的阵列，以标准形式(96，384和1536孔)出现，用于平行检查一些样品的物理，化学或生物特征。

混合群体或复合群体是指任何既含有所需核酸又含有不需核酸的样品。作为非限制性例子，核酸的复合群体可以是总基因组DNA，总基因组RNA，或其组合。此外，核酸的复合群体已对给定群体加以富集，但包括其他不需要的群体。例如，核酸的复合群体可以是已对所需信使RNA(mRNA)序列加以富集，但仍包括一些不需要的核糖体RNA序列(rRNA)的样品。

“单体”是指可连接在一起形成寡聚体或聚合物的分子集的任何成员。用于本发明中的单体集包括但不限于，对(多)肽合成的例子而言，L-氨基酸，D-氨基酸，或合成氨基酸的集。如本发明所用，“单体”是指用于合成寡聚体的基础集(basis set)的任何成员。例如，L-氨基酸的二聚体形成用于合成多肽的400“单体”的基础集。在合成聚合物中可以连续步骤利用单体的不同基础集。术语“单体”也指化学亚基，其可与不同化学亚基组合形成大于单独的任意亚基的化合物。

如本发明所用的mRNA或mRNA转录本包括但不限于，mRNA转录本前体，转录本加工中间体，准备用于翻译和转录一种或多种基因的成熟mRNA(s)，或衍生自mRNA转录本的核酸。转录本加工包括剪接，编辑和降解。如本发明所用，衍生自mRNA转录本的核酸是指一种核酸，为其合成，mRNA转录本或其子序列最终用作模板。因此，反转录自mRNA的cDNA，转录自cDNA的RNA，扩增自cDNA的DNA，转录自扩增的DNA的RNA等，全部衍生自mRNA转录本，而这些衍生产物的检测是原始转录本在样品中存在和/或丰度的指示。因此，衍生自样品的mRNA包括但不限于，一种或多种基因的mRNA转录本，反转录自mRNA的cDNA，转录自cDNA的cRNA，扩增自基因的DNA，转录自扩增的DNA的RNA等。

本发明的核酸包括嘧啶和嘌呤碱基的任何聚合物或寡聚体，所述碱基分别优选胞嘧啶，胸腺嘧啶，和尿嘧啶，以及腺嘌呤和鸟嘌呤。参见Albert L.Lehninger，生化原理(Principles of Biochemistry)，第793-800页(Worth Pub.1982)。事实上，本发明预期任何脱氧核糖核苷酸，核糖核苷酸或肽核酸组分，及其任何化学变体，诸如，这些碱基的甲基化，羟甲基化，或糖基化的形式等等。聚合物或寡聚体在组成上可以是异源或同源的，并且分离自天然发生的来源，或者是人造或合成生产的。此外，核酸可以是DNA或RNA，或其混合物，并且永久或短暂以单链或双链形式存在，包括同质双链体，异质双链体，和杂交体。

“寡核苷酸”或“多核苷酸”是一种核酸，长度范围至少2，优选至少8，以及更优选至少20个核苷酸，或者一种与多核苷酸特异性杂交的化合物。本发明的多核苷酸包括脱氧核糖核酸(DNA)或核糖核酸(RNA)的序列，其可分离自天然来源，重组生产或人工合成的，或其模拟物。本发明多核苷酸的其他例子可以是肽核酸(PNA)。本发明还预期的情形中，有非传统碱基配对，诸如已在某些tRNA分子中鉴定和假定存在于三螺旋的Hoogsteen碱基配对。“多核苷酸”和“寡核苷酸”在本申请中交互使用。

“探针”为可被特定靶识别的表面固定的分子。可由本发明研究的探针的例子包括但不限于，细胞膜受体的激动剂和拮抗剂，毒素和毒物，病毒表位，激素(例如，麻醉剂，类固醇等)，激素受体，肽，酶，酶底物，辅因子，药物，外源凝集素，糖类，寡核苷酸，核酸，寡糖，蛋白和单克隆抗体。

“引物”为单链寡核苷酸，能够担当起始点，在合适条件，例如缓冲液和温度，以及存在4种不同核苷三磷酸和聚合用试剂，诸如，DNA或RNA聚合酶或反转录酶下进行模板-导向的DNA合成。引物的长度，在任何给定情形下，取决于例如想用的引物，并且通常为15-20，25，30个核苷酸。短的引物分子一般要求更低的温度以形成足够稳定的复合有模板的杂交体。引物不需反映模板的真正序列，但必须足够互补以与这种模板杂交。引物位点为模板与引物杂交的区域。引物对为一组引物，包括与待扩增序列的5’端杂交的5’上游引物，和与待扩增序列的3’端的互补序列杂交的3’下游引物。

多态性是指在群体中出现的两种或更多种遗传上确定的替代序列或等位基因。多态性标记或位点为出现分歧处的座位。优选的标记具有至少两个等位基因，每个出现频率大于1％，更优选大于10％或20％的选定群体。多态性可包括一个或多个碱基变化，插入，重复或缺失。多态性座位可小至一个碱基对。多态性标记包括限制性片段长度多态性，同向重复序列可变数(VNTR′s)，超变区，小卫星，二核苷酸重复，三核苷酸重复，四核苷酸重复，简单序列重复，以及插入元件，诸如Alu。第一个鉴定的等位基因形式被任意指定成参照形式，而其他等位基因形式被指定成替代或变异等位基因。在选定的群体中出现最频繁的等位基因形式有时称为野生型形式。双倍体生物体可以是等位基因形式的纯合子或杂合子。二等位基因多态性具有两种形式。三等位基因多态性具有三种形式。单核苷酸多态性(SNPs)包括在多态性中。

“读数仪”或“平板读数仪”为一种装置，其用于鉴定阵列上的杂交事件，诸如阵列上的核酸探针和荧光标记的靶之间的杂交。读数仪在本领域中是公知的，并可通过Affymetrix，Santa Clara CA和其他公司商购。一般而言，它们包括使用激发能量(诸如激光)以照亮已杂交于探针的荧光标记的靶核酸。然后，再发射的辐射(以不同于激发能量的波长)利用诸如CCD，PMT，光电二极管的装置，或记录采集的发射的类似装置而加以检测。参见美国专利No.6,225,625。

“受体”为一种对给定配体具有亲和性的分子。受体可以是天然发生或人造的分子。同样，它们可以未变的状态或作为与其他种类的聚集体使用。受体可直接或经由特定结合物质，以共价或非共价形式连接到结合成员上。本发明采用的受体的例子包括但不限于，抗体，细胞膜受体，单克隆抗体和与特定抗原决定簇(诸如位于病毒，细胞或其他材料上)反应的抗血清，药物，多核苷酸，核酸，肽，辅因子，外源凝集素，糖类，多糖，细胞，细胞膜，以及细胞器。受体有时在本领域中称为抗配体。由于本发明使用术语受体，意义上没有区别。当两个大分子通过分子识别相结合而形成复合物时，就形成“配体受体对”。可被本发明研究的受体的其他例子包括但不限于那些在美国专利No.5,143,854中显示的分子，在此以其全文引作参考。

“固相支持物”，“支持物”和“基质”交互使用，是指具有刚性或半刚性表面的材料或材料组。在许多实施方案中，固相支持物的至少一个表面基本上是平的，尽管在有些实施方案中，其可以合意的是对不同化合物在物理上分开合成区域，例如用孔，凸起的区域，针，蚀刻的沟渠等。根据其他实施方案，固相支持物会采用珠，树脂，凝胶，微球的形式，或其他几何构型。示例性基质参见美国专利No.5,744,305。

“靶”为一种对给定探针具有亲和性的分子。靶可以是天然发生或人造的分子。同样，它们可以未变的状态或作为与其他种类的聚集体使用。靶可直接或经由特定结合物质，以共价或非共价形式连接到结合成员上。本发明采用的靶的例子包括但不限于，抗体，细胞膜受体，单克隆抗体和与特定抗原决定簇(诸如位于病毒，细胞或其他材料上)反应的抗血清，药物，寡核苷酸，核酸，肽，辅因子，外源凝集素，糖类，多糖，细胞，细胞膜，以及细胞器。靶有时在本领域中称为抗探针。由于本发明使用术语靶，意义上没有区别。当两个大分子通过分子识别相结合而形成复合物时，就形成“探针靶对”。

全基因组取样分析(WGSA)为一种测定，其使得成千上万个SNPs同时在复合物DNA中进行基因定型，而无需使用座位特异引物。在此技术中，例如，基因组DNA用目的限制性酶消化，并将接头连接到消化的片段上。对应于接头序列的单个引物用于扩增所需大小的片段，例如，500-2000bp。处理的靶然后杂交于包括含SNP的片段/探针的核酸阵列。WGSA公开在例如，美国临时申请Nos.60/319,685，60/453,930，60/454,090和60/456,206，60/470,475，美国专利申请Nos.09/766,212(美国专利公布No.US-2003-0148273-A1)，10/316,517(美国专利公布No.US-2003-0186279-A1)，10/316,629(美国专利公布No.US-2003-0186280-A1)，10/463,991，10/321,741，10/442,021和10/264,945，分别在此为所有目的以其全文引作参考。

III.功能性基因组区域中的序列变异

在本发明的一个方面，方法的提供是为了便于研究基因组的功能区中的序列变异(SNPs，扩增，缺失等)，而无需求助于注解。在患病和未患病个体的基因组区域中制作RNA和转录因子结合位点等的图在这些基因组区域上赋予特定功能，并且将它们归因于优先地位，用于分析序列变异的存在。方法对分析基因组的大区，例如分析基因组的至少10,000个碱基，100,000个碱基，1M个碱基或5M个碱基，是尤其有用的。

基因组的功能区可利用各种不同的方法得以确定。优选的方法包括用高密度寡核苷酸探针阵列制图。对基因组的功能区制图的方法描述在例如下列美国专利申请和临时专利申请中：60/339,655，“染色体21和22中揭示的人基因组的大规模转录活性(Large-ScaleTranscriptional Activity of the Human Genome revealed in Chromosomes21 and 22)”；10/316,518(美国专利公布No.US-2003-0157529-A1)，“确定转录活性的方法(Methods for Determining Transcriptional Activity)”；60/425,879，“在基因组的潜在功能区中询问序列变异的方法(Methodof Interrogating for Sequence Variations in Potentially Functional Regionsin the Genome)”；60/425,880，“利用全基因组分析在基因组的潜在功能区中询问序列变异的方法(Method of Interrogating for SequenceVariations in Potentially Functional Regions in the Genome Using WholeGenome Assay)”；60/426,868，“胚胎癌细胞分化时在染色体21和22的隐藏转录体中的动力学变化(Dynamic Changes in the HiddenTranscriptome of the Chromosomes 21and 22Upon the Differentiation ofthe Embryonic Cancer Cell)”；60/431,356，“译解基因组功能的方法(Methods for Deciphering Functions of a Genome)”；60/438,866，“编码和非编码RNA转录本，包括低分子量RNA的全程调节的分析方法(Methods for Analyzing Global Regulation of Coding and Non-CodingRNA Transcripts Involving Low Molecular Weight RNAs)”；60/442,045，“转录体分析(Transcriptome Analysis)”；60/458,718，“大规模反义转录的检测方法(Methods for Detecting Large Scale AntisenseTranscription)”；60/469,336，“监控转录因子结合位点(MonitoringTranscriptional Factor Binding Sites)”；60/469,207，“人基因组阵列板(Human Genome Array Plates)”；60/484,849，“转录本结构的分析方法(Methods for Analyzing Transcript Structures)”；60/486,376，“新型转录本的差异调节(Differential Regulation of Novel Transcripts)”以及60/514,314，“新型RNAs的鉴定(Identification of Novel RNAs)”，所有这些申请为全部目的在此引作参考。

功能区本质上是动态的。例如，转录位点，转录因子结合位点可在样品的不同生理，病理，毒理和药理状态中发生改变(参见，例如，美国临时申请号60/486,376，“新型转录本的差异调节(DifferentialRegulation of Novel Transcripts)”，在此引作参考)。功能区也可以是组织特异的。在一些实施方案中，功能区可在各种不同的目的态的样品中分布，从而对序列变异分析确定功能区分布图。

有关功能区的信息(诸如功能区分布图)可存储在计算机化数据库中。序列变异检测分析，诸如WGSA分析，利用这种数据库可加以设计。

功能区中的基因组和cDNA序列优先于其他区域可通过测序或SNP测试或比较基因组杂交(CGH)测试而加以分析，所述其他区域对编码区域之外的序列变异是重要的(但不是唯一的)。通常，待分析序列变异的功能区为基因组的至少1000个碱基，10000个碱基，100000个碱基，1M个碱基或5M个碱基。

测序可通过传统的Sanger测序，杂交测序或基于微阵列的再测序进行。例如，再测序微阵列(Affymetrix，Santa Clara，CA)可用于检测基因组区域中的序列变异。对于利用微阵列高通量再测序技术的描述，参见，例如，Warrington等，利用高密度微阵列的高通量再测序和变异检测的新进展(New developments in high-throughput resequencingand variation detection using high density microarrays)，Hum Mutat.2002Apr；19(4)：402-9和美国专利申请号10/028,482(美国专利公布No.US-2003-0124539-A1)，两者皆在此引作参考。

通过各种不同的方法可进行SNP基因定型(SNP基因定型方法综述，参见，例如，Pui-Yan Kwok，2001，对单核苷酸多态性进行基因定型的方法，基因组和人类基因的年度综述(Methods For GenotypingSingle Nucleotide Polymorphisms，Annual Review of Genomics andHuman Genetics)，2：235-258，以及Tsuchihashi和Dracopoli，2002，高通量SNP基因定型方法的进展(Progress in high throughput SNPgenotyping methods)，Pharmacogenomics J.2002；2(2)：103-10，所有文献在此引作参考)。一个特别优选的方法为全基因组取样分析(WGSA)和高密度寡核苷酸探针阵列。公开WGSA的专利说明书已先前引作参考。该方法还描述在例如，Kennedy等，复合物DNA的大规模基因定型(Large-scale genotyping of complex DNA)，Nat Biotechnol.2003Oct；21(10)：1233-7，在此引作参考)。通常，大量的SNPs，诸如大于1000，10000或1000000个SNPs被基因定型。

在一个实施方案中，为了设计WGSA分析，提供计算机软件产品。由于参与细胞的各种功能性操作的序列表是限定的，应通过计算检查这些位点是否存在限制性核酸内切酶(RE)位点(图1)，所述功能性操作诸如转录因子结合，起点，甲基化和染色质修饰位点，从而设计WGSA分析。对于特定的功能分类序列(例如，转录因子(TF)结合序列)而言的确如此，最少数目的REs可进行鉴定，从而能跨越基因组对最大数目的这类位点查看在这些序列中是否存在可能的序列变异。计算机软件产品通常含有计算机可读介质，其具有的计算机代码执行下列方法：检索有关功能区的信息，分析适用于询问功能区的RE位点，以及任选选择用于询问区域内SNP的探针。

还提供用于询问功能区内SNPs的寡核苷酸。通常利用计算机软件鉴定待询问的SNPs来设计探针。根据先前公开的铺盖路线(参见，例如，Kennedy等，复合物DNA的大规模基因定型(Large-scalegenotyping of complex DNA)，Nat Biotechnol.2003Oct；21(10)：1233-7，在此引作参考)或其他合适的检测路线选择探针。探针一般固定在基质，柱子或光纤上。在优选的实施方案中，探针以高密度固定在基质上，诸如大于1000，100,000，1000000个不同探针/cm²。高密度寡核苷酸探针阵列的制造方法描述在先前引作参考的专利说明书中。

比较基因组杂交(CGH)为分子细胞发生技术，使得贯穿基因组或在基因组的特定区域中以单个杂交检测DNA序列拷贝数变化。对于CGH描述而言，参见，例如Kallioniemi等，实体瘤的分子细胞发生分析的比较基因组杂交(Comparative genomic hybridization formolecular cytogenetic analysis of solid tumors)，Science.1992Oct 30；258(5083)：818-21，在此引作参考)。

了解功能基因组区中的序列变异(诸如SNPs)在例如，药物靶鉴定和诊断中具有实用性。基因结合和连接分析通常用于鉴定涉及目的特征(诸如与疾病有关的位点)的基因组区域。结合分析为一种基因分析方法，其比较患病个体和未患病个体(如本发明所用，个体可以是人，动物，植物等)之间等位基因的频率。如果在患病的个体中某等位基因以显著高的频率出现，则给定的等位基因被视为与目的疾病相关。连接分析通常用于鉴定疾病等位基因是否存在于与密切连接的标记，诸如SNP，共遗传的座位上。结合和连接分析皆可利用，例如，WGSA进行以鉴定目的基因组区域。在一些实施方案中，当结合或连接研究突出基因组的若干区域成为可能的位点，所述位点或许参与确定患病家族或个体中的特征，功能区在这些区域中的存在凭经验确定，并且可缩小进一步分析的可能性(图2)。这些区域中的基因组和cDNA序列可凭经验加以确定，并且通过测序或SNP测试或比较基因组杂交(CGH)测试，优先于对编码区之外的序列变异是重要(但不是唯一)的其他区域进行分析。

一旦这种功能上重要的位点沿基因组在数个个体中制图，有用的是不必对每个患者中的每个因子或功能序列进行类似的免疫沉淀试验。例如，如果若干TFs(例如，cMyc和SP-1)在基因组中似乎结合于同样的位点(即，1kb基因组序列)，利用全基因组取样分析(WGSA)测试这个区域的突变会是有益的。然而，如果有许多这样的普通位点沿基因组分散，则找到最少的限制性核酸内切酶(REs)使得查看最大的可能数目的这些位点变成优先。

结论

应理解的是，以上描述是说明性的，而不是限制性的。本发明的许多变化对本领域专业人员而言，在回顾以上描述后是显而易见的。所有引用的参考文献，包括专利和非专利文献，为所有目的以其全文在此引作参考。

Claims

1.一种询问基因变异的方法，包括：

获得多个基因组的功能区，其中功能区包含至少10,000个碱基；

确定多个个体在基因组的功能区中的序列变异。

2.权利要求1的方法，其中功能区包含多个转录因子结合位点。

3.权利要求2的方法，其中功能区包含多个RNA:蛋白结合结构域。

4.权利要求3的方法，其中功能区包含多个染色质修饰位点。

5.权利要求4的方法，其中功能区包含多个复制起点。

6.权利要求5的方法，其中功能区包括多个DNA甲基化位点。

7.权利要求1的方法，其中所述获得步骤包括利用微阵列确定功能区。

8.权利要求7的方法，其中微阵列为高密度寡核苷酸阵列。

9.权利要求8的方法，其中微阵列包含基因组的寡核苷酸探针铺盖区。

10.权利要求9的方法，其中所述确定步骤包括确定多个个体的功能区的序列。

11.权利要求9的方法，其中所述确定步骤包括确定多个个体的功能区的基因型。

12.权利要求11的方法，其中基因型为SNP基因型。

13.权利要求12的方法，其中所述确定步骤包括用至少一种适用于询问至少一种功能区的限制性酶进行WGSA。

14.权利要求9的方法，其中所述确定步骤包括确定序列拷贝数变化。

15.权利要求1的方法，其中功能区包括至少100000个碱基。

16.权利要求15的方法，其中功能区包括至少500000个碱基。

17.一种询问基因变异的方法，包括：

获得至少一个目的基因组区段；

在目的基因组区段中获得多个功能区，其中功能区包括至少5,000个碱基；

确定多个个体在基因组的功能区中的序列变异。

18.权利要求17的方法，其中目的基因组区通过结合或连接分析加以确定。

19.权利要求18的方法，其中功能区包括多个转录因子结合位点。

20.权利要求18的方法，其中功能区包括多个RNA:蛋白结合结构域。

21.权利要求18的方法，其中功能区包括多个染色质修饰位点。

22.权利要求18的方法，其中功能区包括多个复制起点。

23.权利要求18的方法，其中功能区包括多个DNA甲基化位点。

24.权利要求17的方法，其中所述获得步骤包括利用微阵列确定功能区。

25.权利要求24的方法，其中微阵列为高密度寡核苷酸阵列。

26.权利要求25的方法，其中微阵列包含基因组的寡核苷酸探针铺盖区。

27.权利要求24的方法，其中所述确定步骤包括确定多个个体的功能区的序列。

28.权利要求24的方法，其中所述确定步骤包括确定多个个体的功能区的基因型。

29.权利要求28的方法，其中基因型为SNP基因型。

30.权利要求29的方法，其中所述确定步骤包括用至少一种适用于询问至少一种功能区的限制性酶进行WGSA。

31.权利要求24的方法，其中所述确定步骤包括确定序列拷贝数变化。