CN101835907A

CN101835907A - 用于基于溶液的序列富集和基因组区域分析的方法和系统

Info

Publication number: CN101835907A
Application number: CN200880113397A
Authority: CN
Inventors: T·阿尔伯特; M·罗德希
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2007-10-23
Filing date: 2008-10-22
Publication date: 2010-09-15
Anticipated expiration: 2028-10-22
Also published as: ES2633567T3; JP2013150637A; EP2209913A1; CN101835907B; EP2535429A1; CA2699835C; WO2009053039A1; EP2209913B1; JP2011500069A; US20180030521A1; US20090105081A1; EP2535429B1; US9790543B2; US20120046175A1; US10900068B2; ES2522912T3; EP2053132A1; CA2699835A1

Abstract

本发明提供了创新的方法和系统，其用于捕获和富集目标核酸，以降低目标核酸，优选基因组样品的复杂度，用于进一步分析，例如直接DNA测序、再测序、或SNP判读。具体来说，本发明提供了以基于溶液的形式的目标序列富集。

Description

用于基于溶液的序列富集和基因组区域分析的方法和系统

技术领域

本申请涉及核酸序列的富集和分析领域，其方法为将所述序列捕获到固体载体上。更确切地说，本发明提供了一种捕获特定基因组区域用于随后进一步分析的新方法，如果该目标区域太大而不能仅通过一个或几个PCR反应扩增。具体来说，本发明提供了以基于溶液的形式的目标序列富集。

背景技术

核酸微阵列技术，例如DNA微阵列技术的出现，使在很小区域例如在显微镜载玻片上生成数百万核酸序列例如DNA序列的阵列成为可能(例如美国专利6,375,903和5,143,854)。最初，通过将预先合成的DNA序列点样在载玻片上建立此类阵列。然而，如美国专利6,375,903所述的无掩膜阵列合成器(MAS)构建如今可直接在载玻片上自身原位合成寡核苷酸序列，其中光用于导向DNA序列合成，使用数字微镜装置(DMD)进行光导向。

使用MAS设备，将在微阵列上构建的寡核苷酸序列或DNA序列的选择由软件控制，因此如今有可能根据研究者的特定需要建立个别定制的阵列。一般来说，基于MAS的寡核苷酸或DNA微阵列合成技术可在标准显微镜载玻片的很小区域并行合成数百万独特的寡核苷酸特征。微阵列合成通常使用光导向在阵列的特定点位合成的寡核苷酸，这些点位称为特征。

有数百种生物的全基因组可供利用，其参考序列一般存放于公共数据库，微阵列已用于进行大量生物中提取的核酸或DNA的序列分析。

核酸或DNA微阵列技术已应用于研究和诊断的很多领域，例如基因表达和开发、突变检测、等位基因和进化序列比较、基因组作图、药物开发、以及更多。很多应用需要搜索引起人类疾病的涉及整个人类基因组的遗传变异和突变。对于复杂疾病，这些搜索通常得出与疾病和/或疾病风险关联的单核苷酸多态性(SNP)或SNP组。已证实鉴定此类SNP是艰苦且经常无结果的任务，因为需要再测序来自感染个体或组织样品的大区域基因组DNA，其通常大于100千碱基对(Kb)，以寻找单个碱基改变或鉴定所有序列变异。其它应用涉及鉴定染色体序列的增减，所述序列也可与癌症关联，例如淋巴癌(Martinez-Climent JA等人，2003，Blood 101：3109-3117)、胃癌(Weiss MM等人，2004，Cell.Oncol.26：307-317)、乳腺癌(Callagy G等人，2005，J.Path.205：388-396)、和前列腺癌(Paris，PL等人，2004，Hum.Mol.Gen.13：1303-1313)。因此，微阵列技术对科学研究者和临床医生在其对疾病和治疗疾病中治疗方案效果的理解方面是极其有用的工具。

基因组典型地过于复杂而不能整体研究，必须使用技术降低基因组的复杂度。为解决此问题，一种方案为从基因组核酸或DNA样品中减少某种类型的大量序列，见于美国专利6,013,440。用于富集基因组序列的替代使用的方法和组合物描述于，例如Albert等人(2007，Nat.Meth.，4：903-5)，Okou等人(2007，Nat.Meth.4：907-9)，Olson M.(2007，Nat.Meth.4：891-892)，Hodges等人(2007，Nat.Genet.39：1522-1527)，以及见于美国专利申请11/638,004、11/970,949、和61/032,594。Albert等人公开了一种既经济又快速的替代方案，其以用户指定的方式有效降低基因组样品的复杂度，以用于进一步处理和分析。Lovett等人(1991，Proc.Natl.Acad.Sci.88：9628-9632)也描述了使用细菌人工染色体进行基因组选择的方法。然而，现有方法受限于，例如，其易用性以及材料和方法的不灵活。

微阵列技术的现有技术，即富集技术或其它，典型地为具有内在可变性的基质相关技术，例如微阵列载玻片、芯片等等。可变性可呈现多种形式，例如背景、探针/杂交动力学、玻璃来源等等的变化性。可变性在实验分析中起重要作用，可使实验成功或失败。

因此，需要方法、系统、和组合物以不同于典型的基质类型微阵列方式的方式提供目标序列的富集。新微阵列方式的出现将为研究者和临床医生提高其对疾病和疾病状态的知识提供另外的工具。

发明内容

本发明提供了用于捕获和富集目标核酸以及分析所富集目标核酸的方法和系统。具体来说，本发明提供了以基于溶液的方式的目标序列富集。本发明的方法和系统用于帮助研究者和临床医生鉴别、研究和跟进与疾病和疾病状态关联的治疗方案。

本发明总结为一种创新方法，其用于降低大核酸样品，例如基因组样品、cDNA文库、或者mRNA或mRNA文库的复杂度，以促进进一步处理和遗传分析。本发明的实施方案包含(预选的)固定或非固定核酸探针，从例如基因组样品中，通过所述样品与探针、或源自探针的扩增子在固体载体或在溶液中杂交以捕获目标核酸。所捕获的目标核酸优选地洗涤并洗脱所述探针。所洗脱的基因组序列比未经本文所述方法处理的样品更适于详细的遗传分析。本发明提供了用于捕获和富集目标核酸以及分析所富集目标核酸的方法和系统。在某些实施方案中，本发明提供了以基于溶液的方式的目标序列富集。在某些实施方案中，本发明提供了用于基于溶液的目标核酸捕获和富集(例如基因组DNA、RNA、cDNA、mRNA等等)的方法和系统。

所公开的方法提供了用于降低基因组样品复杂度的经济、灵活、并有效的方法。基因组样品在本文中用于说明目的，但是应了解其它非基因组样品，还有大的非基因组样品可用于相同方法。本文所述的方法和系统提供了以基于溶液的方法的目标序列富集，因此提供了基于微阵列基质的方法的替代方法，用于与疾病和疾病状态关联的研究和治疗，列举一些，例如癌症(Durkin等人，2008，Proc.Natl.Acad.Sci.105：246-251；Natrajan等人，2007，Genes，Chr.And Cancer 46：607-615；Kim等人，2006，Cell 125：1269-1281；Stallings等人，2006Can.Res.66：3673-3680)、遗传病症(Balciuniene等人，Am.J.Hum.Genet.在出版中)、精神疾病(Walsh等人，2008，Science320：539-543；Roohi等人，2008，J.Med.Genet.Epub 18March 2008；Sharp等人，2008，Nat.Genet.40：322-328；Kumar等人，2008，Hum.Mol.Genet.17：628-638；)、以及进化和基础研究(Lee等人，2008，Hum.Mol.Gen.17：1127-1136；Jones等人，2007，BMC Genomics 8：402；Egan等人，2007，Nat.Genet.39：1384-1389；Levy等人，2007，PLoS Biol.5：e254；Ballif等人，2007，Nat.Genet.39：1071-1073；Scherer等人，2007，Nat.Genet.S7-S15；Feuk等人，2006，Nat.Rev.Genet.7：85-97)。

在一实施方案中，本发明提供了用于降低一组核酸分子的遗传复杂度的方法，所述方法包含下列步骤：在杂交条件下将所述片段化变性核酸分子组接触多种不同的寡核苷酸探针，然后将所述杂交分子复合物结合到固体载体以捕获与所述探针特异性杂交的核酸分子，其中所述片段化变性核酸分子平均大小约100到约1000个核苷酸残基，优选地约250到约800个核苷酸残基，最优选地约400到约600个核苷酸残基，从所捕获分子中分离未结合和非特异性杂交的核酸，洗脱所捕获分子，以及可选地用所洗脱的捕获分子将上述过程至少再重复一轮。

在本发明的另一实施方案中，基于溶液的捕获方法包含源自探针的扩增子，其中所述用于扩增的探针固定于固体载体。所述固体载体包含载体固定的核酸探针以从例如基因组样品中捕获特定的核酸序列(例如目标核酸)。探针扩增提供了在溶液中的探针扩增子，其与目标序列杂交。探针扩增子与目标序列杂交之后，所述样品中的目标核酸序列通过捕获(例如，通过连接化合物，例如生物素、地高辛等等)和洗涤所述探针以及从所捕获探针洗脱所杂交的目标核酸进行富集(图6)。所述目标核酸序列可进一步扩增，其使用例如非特异性连接介导的PCR(LM-PCR)，得到与初始目标样品相比复杂度降低的PCR产物扩增库。

在某些实施方案中，所述探针与目标核酸之间的杂交在优选地严格条件下进行，所述严格条件足以支持所述基于溶液的探针扩增子之间的杂交，其中所述探针包含连接化合物和所述目标核酸样品的互补区域，以提供探针/目标杂交复合物。所述复合物随后通过所述连接化合物捕获，并在足以去除非特应性结合核酸的条件下洗涤，然后所杂交的目标核酸序列从所捕获的探针/目标复合物中洗脱。

在某些实施方案中，所述多种不同的寡核苷酸探针包含化学基团或连接化合物，例如结合部分例如生物素、地高辛等等，其能结合于固体载体。用于结合的固体载体包含相应的捕获化合物，例如用于生物素的链霉亲和素和用于地高辛的抗地高辛抗体。本领域的技术人员将认识到本发明不限于所使用的连接化合物，并且替代的连接化合物等同适用于本发明的方法和系统。

在本发明的实施方案中，所述组或多种目标核酸分子优选地包含一种生物的全基因组或至少一条染色体或至少一种分子量至少约100kb的核酸分子。具体来说，所述核酸分子的大小至少约200kb、至少约500kb、至少约1Mb、至少约2Mb、或至少约5Mb，尤其是大小在约100kb到约5Mb之间、在约200kb到约5Mb之间、在约500kb到约5Mb之间、在约1Mb到约2Mb之间或在约2Mb到约5Mb之间。

在某些实施方案中，所述目标核酸分子选自动物、植物或微生物，在优选的实施方案中，所述生物为人。如果只有少量核酸(例如人类基因组)样品可供利用，在实践本发明的方法之前可扩增所述核酸，例如通过全基因组扩增。为进行所述创新方法，预先扩增可能是必须的，例如，用于法医目的(例如，在法医学中用于遗传特征目的)。

在某些实施方案中，所述组或多种目标核酸分子为一组基因组DNA分子。所述探针可选自：例如限定来自多个遗传基因座的多种外显子、内含子、或调控序列的多种探针或序列；限定至少一个单独遗传基因座的全序列的多种探针，所述基因座大小至少100kb，优选至少1Mb，或至少上述特定大小之一；限定单核苷酸多态性(SNPs)的多种探针；或限定一种阵列的多种探针，例如设计为捕获至少一条完整染色体的全序列的嵌合阵列。

在某些实施方案中，所述固体载体或者为核酸微阵列或者为一组珠子。

在某些实施方案中，本发明包含在片段化核酸样品与杂交探针接触之前或之后，将接头分子连接到所述核酸分子的一端或两端，优选地为两端的步骤。

在某些实施方案中，本发明的方法进一步包含用至少一种引物扩增所述目标核酸分子，所述引物包含与所述接头分子序列特异性杂交的序列。

在某些实施方案中，所扩增的目标核酸序列可进行测序，与再测序或SNP判读(calling)阵列杂交，且所述序列或基因型可进一步分析。

在某些实施方案中，本发明提供了一种富集方法，其用于基因组样品中的目标核酸序列，例如外显子或变体，优选地为SNP位点。这可通过设计将在微阵列上合成的基因组的一个区域特异性的基因组探针实现，或者合成所述基因组的一个区域特异性的基因组探针，以捕获复杂基因组样品中包含的互补目标核酸序列实现。

在某些实施方案中，本发明致力于提供一种方法，其用于尤其在样品中确定核酸至少一个区域的核酸序列信息，特别是基因组核酸，例如全基因组或至少一条染色体，例如其大小如上所述，所述方法包含实现上述方法和确定所捕获(以及洗脱)分子核酸序列的步骤，特别是通过合成反应进行测序的方法确定。

在某些实施方案中，本发明致力于提供一种方法，其用于检测相对于参考基因组的编码区变异，特别是相对于包含片段化变性基因组核酸分子的参考基因组，如上所述的方法进一步包含确定所捕获(以及洗脱)的目标分子核酸序列，特别是通过经合成反应进行测序的方法所确定，以及将所确定序列与数据库中序列比较，特别是与所述参考基因组多态性数据库中序列比较，以从所述参考基因组中鉴别出变体。

在某些实施方案中，本发明致力于提供一种试剂盒，其包含用于实现本发明方法的固体载体和试剂。所述试剂盒可包含双链接头分子，和具有多种不同寡核苷酸探针的固体载体，其中所述探针选自：限定来自多个遗传基因座的多种外显子、内含子、或调控序列的多种探针；限定至少一个单独遗传基因座的全序列的多种探针，所述基因座大小至少100kb，优选至少1Mb，或至少上述特定大小之一；限定已知包含SNPs的位点的多种探针；或限定设计为捕获至少一条完整染色体的全序列的嵌合阵列的多种探针。优选地，所述试剂盒包含两种不同的双链接头分子(A和B)。所述固体载体也为多种珠子或者为微阵列。所述试剂盒可进一步包含至少一种或多种其它成分，其选自DNA聚合酶、T4多核苷酸激酶、T4DNA连接酶、阵列杂交液和阵列洗涤液，和/或阵列洗脱液。

在其它实施方案中，本发明致力于提供一种试剂盒，其包含用于实现本发明方法的组合物和试剂。所述试剂盒可包含，但不限于，双链接头分子、多种不同的寡核苷酸探针、用于捕获所述探针的固体载体，其中所述探针选自：限定来自多个遗传基因座的多种外显子、内含子、或调控序列的多种序列；限定至少一个单独遗传基因座的全序列的多种探针，所述位点大小至少100kb，优选至少1Mb，或至少上述特定大小之一；限定已知包含SNPs的位点的多种探针；或限定设计为捕获至少一条完整染色体的全序列的嵌合阵列的多种探针。在某些实施方案中，试剂盒包含多种珠子或微阵列基质(例如载玻片、芯片等等)。在某些实施方案中，试剂盒包含两种不同双链接头分子。试剂盒可进一步包含至少一种或多种其它成分，其选自DNA聚合酶、T4多核苷酸激酶、T4DNA连接酶、杂交液、洗涤液，和/或洗脱液。

在本发明的实施方案中，核酸(预选的)捕获探针使用多种公认方法(例如点样、光刻、原位合成等等)固定于固体载体(例如载玻片、芯片、珠子等等)上。在优选的实施方案中，所述探针通过无掩膜阵列合成在基质上原位合成，然后通过例如PCR扩增产生在溶液中的源自探针的扩增子。在某些实施方案中，所合成的探针序列包含引物结合位点，用于在所述探针的3’和5’端(例如，位于或接近末端)之一或两者扩增。在某些实施方案中，所述探针上的引物结合位点的序列在3’与5’引物末端或所述探针是相同的，然而在其它实施方案中，所述引物结合位点的序列在3’引物末端与5’引物末端序列不同。在某些实施方案中，用于探针扩增的扩增引物进一步包含限制性内切酶位点，例如MlyI位点，其用于从最终捕获目标容易去除引物序列，其中所述引物之一(例如正向或反向引物)进一步包含连接化合物，例如结合部分或序列(例如生物素、地高辛、HIS标签等等)，并与所述固定探针及指数PCR扩增(例如本领域技术人员已知的用于目标指数扩增的PCR程序)必需的试剂共同置于所述载体上。进行PCR以产生探针捕获序列的扩增子，因此其中一链包含连接化合物，例如结合部分或序列。所述包含扩增子的溶液转移到容器(例如试管、96孔板的孔)中，并且，在某些实施方案中，从反应成分中纯化。使用不对称PCR对所述源自探针的扩增子优先进行另一轮扩增，其中连接化合物标记的引物与非标记引物相比过量，以优选地合成单链结合部分/序列标记的扩增子。所述扩增子从反应成分中纯化出来并转移到容器中，加入变性核酸样品，进行杂交。

杂交之后，标记的扩增子/目标核酸复合物被捕获。例如，当生物素为结合部分时，链霉亲和素(SA)包被的基质，例如SA包被的珠子(例如磁珠/颗粒)用于捕获所述生物素标记的扩增子/目标复合物。洗涤所述SA结合的复合物，所杂交的目标核酸从所述复合物洗脱并用于下游应用，例如测序应用。

在某些实施方案中，本发明提供了一种用于分离和降低多种核酸序列复杂度的方法，其包含提供固体载体，其中所述固体载体包含可与目标核酸序列杂交的杂交探针；并提供包含目标核酸序列的片段化核酸样品；扩增所述杂交探针，其中扩增产物包含结合部分，且其中扩增产物在溶液中；在允许所述扩增产物与目标核酸序列杂交的条件下使所述核酸样品与溶液中的所述扩增产物杂交；通过所述结合部分从非特异性杂交核酸中分离所杂交的目标核酸序列/扩增产物复合物；以及从所述复合物洗脱所杂交的目标核酸序列，由此分离和降低多种核酸序列的复杂度。在某些实施方案中，所洗脱的目标核酸序列被测序。在某些实施方案中，所述固体载体为微阵列载玻片。在某些实施方案中，所述目标核酸样品为片段化基因组DNA，在所述片段一端或两端具有或不具有接头分子。在某些实施方案中，所述杂交探针包含限制性内切酶位点，例如MlyI位点。在某些实施方案中，探针扩增包含指数聚合酶链反应，并可进一步包含非对称非指数扩增。在某些实施方案中，所述结合部分为生物素，且所述捕获基质，例如珠子，例如顺磁颗粒，用链霉亲和素包被，用于从非特异性杂交目标核酸中分离所述目标核酸/扩增产物复合物。在某些实施方案中，在洗脱结合的目标核酸之前洗涤所捕获的目标核酸/扩增产物复合物。

在某些实施方案中，本发明提供了一种试剂盒，其包含杂交探针序列，该序列包含结合部分和限制性酶切位点，其中所述探针序列设计为与一种或多种目标核酸序列杂交，并且其中所述探针序列在溶液中；一种包含用于结合所述结合部分的结合伴侣的基质；以及用于实现本发明方法的说明。在某些实施方案中，试剂盒进一步包含一种或多种溶液，例如杂交、洗涤、和洗脱液。在某些实施方案中，试剂盒包含磁体。在某些实施方案中，试剂盒包含一种或多种酶，以及相应的试剂、缓冲液等等，例如限制性内切酶，例如MlyI，以及用于使用MlyI进行限制性酶切反应的缓冲液/试剂。

从下面的说明与附图相结合，本发明的其它目的、优点和特征将变得显而易见。

附图说明

图1为使用微阵列的直接基因组选择过程流程图的概括图解。

图2为使用微阵列的直接基因组选择过程流程图的另一种图解。

图3(a-b)显示了根据实施例2使用微阵列的直接基因组选择过程的结果。(a)来自3个微阵列基因组选择重复的染色体16的～190Kb序列读图详情，显示靶向测序的可重复性。基因组DNA来自纯化并片段化的Burkett淋巴瘤细胞系。肿瘤测序程序外显子(大小500bp的6726基因组区域)，使用NimbleGen寡核苷酸微阵列捕获并使用454测序仪测序。(1)染色体位置，(2，3，4)来自3个独立微阵列选择和测序实验的454读数的最高BLAST分数的读图，(5)微阵列探针靶向的区域。(b)来自包含BRCA1基因的2Mb相邻区域的微阵列选择的染色体17的～2000碱基的序列读图详情。(1)染色体位置，(2)微阵列选择探针。探针沿y轴每10pb进行间隔并错开。(3)每碱基倍数序列范围。范围从0到100倍。(4)454测序读数的最高blast分数的读图。

图4(a-c)显示了在微阵列上合成探针、从微阵列上释放探针、以及将探针固定于载体用于捕获目标多核苷酸的方法的结果。(a)实施例2公开的‘外显子’和‘基因座’选择和测序的范围深度比较。图表显示一次454FLX运行后每个聚集目标区域的碱基部分以及对应的序列范围累积深度。‘外显子’样品代表6,726外显子分级区域。2Mb BRCA1区域从人类染色体17上的位置37,490,417到39,490,417获取目标。通过选择探针仅靶向唯一的部分。(b)实施例2公开的外显子exüero，emt的每碱基序列范围深度的直方图。(c)根据实施例3的2Mb基因座示例的每碱基范围深度的直方图。

图5显示了来自3个基因组样品的染色体16上的一个基因座的读图详情。通过溶液中捕获的6726外显子的靶向测序获得数据。使用实施例4所述的操作程序从微阵列切除并扩增捕获寡核苷酸。呈现的数据代表来自染色体3的示例基因图。(1)染色体位置，(2)来自一次454-FLX测序运行的测序读图，以及(3)靶向区域。溶液相捕获数据分析显示83.8％的读图退回目标区域，显示与基于阵列的捕获操作程序相似的表现。

图6说明了本发明的一种实施方案；富集过程的概括流程图，其中所述富集方法用于分离并富集水溶液中的多种核酸序列。附着于微阵列基质的杂交探针原位扩增以产生溶液中的源自探针的扩增子，其扩增子包含结合部分。片段化核酸(例如检测部分标记的)在溶液中与标记的探针扩增子杂交，复合物随后被捕获(例如通过顺磁捕获颗粒)。洗涤所捕获并固定的杂交复合物，并从结合的固定探针扩增子中洗脱特异性结合的目标。所洗脱的(例如分离并富集的)目标序列应用于下游应用，例如测序。

图7证实了使用本发明的溶液捕获方法的再测序一致性。再测序分析由靶向捕获区域的子集组成。x轴表示来自更大目标区域的一组任意区域，其代表靶向捕获区域的整体。y轴表示与已知目标序列的测序一致性百分比。

定义

当用于本文时，术语“样品”以其最广泛的意思使用。在一种意思中，其意在包括从任何来源，优选地从生物来源获得的样本或培养物。生物样品可从动物(包括人)获得，并包括液体、固体、组织和气体。生物样品包括血液制品，例如血浆、血清等等。因此，“核酸的样品”或“核酸样品”、“目标样品”包含任何来源的核酸(例如DNA、RNA、cDNA、mRNA、tRNA、miRNA等等)。在本申请中，核酸样品优选源自生物来源，例如人或非人细胞、组织等等。术语“非人”系指所有非人动物和实体，包括但不限于，脊椎动物例如啮齿动物、非人灵长动物、绵羊、牛、反刍动物、兔类动物、猪、山羊、马、犬、猫、鸟类等等。非人还包括无脊椎动物和原核生物，例如细菌、植物、酵母、病毒等等。因此，用于本发明的方法和系统的核酸样品为源自任何生物，无论真核或者原核的核酸样品。

当用于本文时，术语“杂交”系指互补核酸的配对。杂交和杂交强度(例如核酸之间结合的强度)受如下因素影响：核酸之间互补的程度、涉及条件的严格程度、所形成杂交体的解链温度(Tm)、以及核酸的G∶C比值。虽然本发明不受限于特定的杂交条件，但优选使用严格的杂交条件。严格的杂交条件取决于序列并因变化的环境参数(例如盐浓度、有机物存在等等)而不同。通常，“严格的”条件选择为在规定的离子强度和pH下低于特定核酸序列的T_m约5℃到约20℃。优选地，严格的条件为低于结合互补核酸的特定核酸的温度熔点约5℃到10℃。所述T_m为50％核酸(例如目标核酸)与完全配对探针杂交的温度(在规定的离子强度和pH下)。

“严格的条件”或“高度严格的条件”，例如，可为50％甲酰胺，5x SSC(0.75M NaCl，0.075M柠檬酸钠)，50mM磷酸钠(pH6.8)，0.1％焦磷酸钠，5x Denhardt′s溶液、超声波处理的鲑鱼精子DNA(50mg/ml)，0.1％SDS，以及10％硫酸葡聚糖在42℃下杂交，在42℃以0.2x SSC(氯化钠/柠檬酸钠)和在55℃以50％甲酰胺洗涤，然后在55℃以含有EDTA的0.1x SSC洗涤。举例来说，但不限于，预期包含35％甲酰胺、5x SSC、和0.1％(w/v)十二烷基硫酸钠(SDS)的缓冲液适合在适度非严格条件下在45℃杂交16-72小时。

此外，预期甲酰胺浓度可根据探针长度和所需严格程度在20-45％范围内适当调节。杂交条件的其它实例见于多种来源，包括Molecular Cloning：ALaboratory Manual，Sambrook等人编辑，Cold Spring Harbour Press(通过引用将其全部内容结合到本文中)。

相似地，用于目标与探针杂交，或在本发明中，源自探针的扩增子的杂交的“严格的”洗涤条件通常根据经验确定，。扩增子/目标杂交(例如在严格的杂交条件下)，然后用包含连续降低浓度的盐、或增高浓度的洗涤剂的缓冲液洗涤，或者在增加的温度下洗涤直至特异性与非特异性杂交的信噪比足够高以促进特异性杂交的检测。严格的温度条件通常包括温度超过约30℃，更通常地超过约37℃，并有时候超过约45℃。严格的盐条件一般低于约1000mM，通常低于约500mM，更通常地低于约150mM(WeTmur等人，1966，J.Mol.Biol.，31：349-370；WeTmur，1991，Critical Reviews inBiochemistry and Molecular Biology，26：227-259，通过引用将其全部内容结合到本文中)。

当用于本文时，术语“引物”系指寡核苷酸，无论天然存在于纯化的限制性消化物中或者由合成生产，当置于诱导与核酸链互补的引物延伸产物的合成的条件下(例如在核苷酸和诱导试剂例如DNA聚合酶存在下，并在合适的温度和pH下)，能够作为合成的起点。所述引物优选地为具有最大扩增效率的单链。优选地，所述引物为寡脱氧核苷酸。所述引物必须足够长以在所述诱导试剂存在下引发延伸产物的合成。所述引物的确切长度取决于很多因素，包括温度、引物来源和所使用方法。

当用于本文时，术语“探针”系指寡核苷酸(例如核苷酸序列)，无论天然存在于纯化的限制性消化物中或者由合成、重组、或PCR扩增生产，能够与另一目标寡核苷酸例如目标核酸序列的至少一部分杂交。探针可为单链或双链。探针可用于特定基因序列的检测、鉴别和分离。

当用于本文时，术语“目标核酸分子”和“目标核酸序列”可互换使用，系指来自所研究的目标基因组区域的分子或序列。预选的探针确定了目标核酸分子的范围。因此，所述“目标”试图与其它核酸序列区分出来。一个“片段”定义为所述目标序列中的一个核酸区域，如作为核酸序列的一个“片段”或一“部分”。

当用于本文时，术语“分离”当用于涉及核酸时，如用于“分离核酸”时，系指核酸序列从其天然来源通常结合的至少一种成分或污染物中被鉴别并分离出来。分离的核酸以不同于其天然发现的形式或背景存在。相反，未分离的核酸例如DNA和RNA的核酸以其天然存在的状态发现。所述分离的核酸、寡核苷酸、或多核苷酸可以单链或双链形式存在。

详细说明

本发明广泛地涉及经济、灵活、且快速的方法，以用于降低核酸样品复杂度以富集感兴趣的目标核酸并促进进一步处理和分析，例如测序、再测序和SNP判读。所捕获的目标核酸序列，其为更确定的低复杂度的基因组群组，更适用于详细的遗传分析，例如疾病和疾病状态(例如癌症、遗传突变、遗传疾病等等)的遗传分析。本发明提供的方法和系统用于，例如，搜索遗传变体和突变，例如引起人类疾病的单核苷酸多态性(SNPs)、SNPs组、基因组插入、缺失等等。因此，本发明提供了用于在复杂核酸样品中富集目标核酸的方法。

在一种实施方案中，本发明涉及一种降低一组核酸分子遗传复杂度的方法，所述方法包含下列步骤：在杂交条件下将所述片段化变性核酸分子组接触结合于固体载体的多种不同的寡核苷酸探针以捕获与所述探针特异性杂交的核酸分子，或者在杂交条件下将所述片段化变性核酸分子组接触多种不同的寡核苷酸探针然后将所述杂交分子复合物结合到固体载体以捕获与所述探针特异性杂交的核酸分子，其中所述片段化变性核酸分子平均大小约100到约1000个核苷酸残基，优选约250到约800个核苷酸残基，最优选约400到约600个核苷酸残基；从所捕获分子中分离未结合和非特异性杂交的核酸；从所述固体载体洗脱所捕获分子，以及可选地用所洗脱的捕获分子至少再重复一轮步骤(a)到(c)。

在另一种实施方案中，本发明致力于提供一种试剂盒，其包含双链接头分子，和一种具有多种不同寡核苷酸探针的固体载体，其中所述探针选自：限定来自多个遗传基因座的多种外显子、内含子或调控序列的多种探针；限定至少一个单独遗传基因座的全序列的多种探针，所述基因座大小至少100kb，优选至少1Mb，或至少上述特定大小之一；限定已知包含SNPs的位点的多种探针；或限定设计为捕获至少一条完整染色体的全序列的嵌合阵列的多种探针。

在一种实施方案中，一种样品，其包含变性(即单链)核酸分子，优选地为基因组核酸分子，所述核酸分子可为片段化分子，在杂交条件下接触多种寡核苷酸探针，所述探针在杂交之前或之后固定于具有多种寡核苷酸探针的一种固体载体上，以从所述样品中捕获与所述固定的探针杂交的目标核酸分子。所述基因组的未杂交区域或任何其它样品核酸保留在溶液中。

所述核酸典型地为脱氧核糖核酸或核糖核酸，并包括通过一种核酸分子类型(例如DNA、RNA和cDNA)转化为另一种类型体外合成的产物，以及含有核苷酸类似物例如PNAs的合成分子。变性基因组DNA分子特别是源自基因组的分子，其比天然存在的基因组核酸分子短。本领域的技术人员可使用熟知的方法通过化学、物理、或酶裂解或剪切从较大分子制备随机或非随机大小的分子。化学裂解可使用含铁金属(例如Fe-EDTA)。物理方法可包括超声波处理、流体动力或喷雾(参见欧洲专利申请EP 0 552 290)。酶学方法可使用核酸酶，例如微球菌核酸酶(Mnase)或外切核酸酶(例如ExoI或Bal31)或限制性内切酶。产生片段的方法不应影响所述片段在所述方法中的使用。在富集中使用与所富集片段使用的富集后技术相当的大小范围内的片段可能是有利的。合适的片段大小范围可为约100到约1000个核苷酸残基或碱基对，或约250到约800

个核苷酸残基或碱基对，可为约400到约600个核苷酸残基或碱基对，特别是约500个核苷酸残基或碱基对。

可使用无掩膜阵列合成技术在固体载体上并行提供序列中与所述基因组至少一个区域对应的探针。替代性地，探针可使用标准DNA合成仪连续获得并应用到所述固体载体，或可从有机体获得并固定于所述固体载体。杂交之后，未杂交或与所述探针非特异性杂交的核酸通过洗涤从所述载体结合的探针中分离。剩余的核酸与所述探针特异性结合，在例如热水中或在包含例如TRIS缓冲液和/或EDTA的核酸洗脱缓冲液中从所述固体载体洗脱，以产生所述目标核酸分子富集的洗脱物。

在某些实施方案中，在所述片段变性并与所述固定的探针杂交之前至少在所述(基因组)核酸分子一端提供了双链连接物。在此类实施方案中，目标核酸分子可在洗脱后扩增，以产生比初始样品复杂度降低的扩增产物集合。可使用例如非特异性LM-PCR通过多轮热循环扩增所述目标核酸分子。可选地，所述扩增产物可通过对所述探针的第二次选择进一步富集。所述第二次选择的产物可在使用前如上所述再次扩增。此方法在图1中以图表并在图2中以流程图总结。所述连接物可根据所述复杂度降低步骤之后的下游分析应用的需要以任意大小和任意核酸序列提供。所述连接物可在约12到约100碱基对范围内，包括约18到100碱基对的范围，优选地约20到24碱基对的范围。

替代性地，用于目标分子的核酸探针可如上所述在固体载体上合成，作为探针集合从所述固体载体释放并扩增。所述扩增的释放探针集合可共价或非共价固定于载体，例如玻璃、金属、陶瓷、或聚合珠子或其它固体载体。所述探针可设计为从所述固体载体方便释放，例如在最接近载体的探针末端或其附近提供酸或碱不稳定的核酸序列，其分别在低或高pH条件下释放所述探针。本领域已知多种可剪切的连接化合物。所述载体可以，例如，以具有液体进口和出口的圆柱提供。本领域熟悉将核酸固定到载体的方法，例如通过将生物素标记的核苷酸结合到所述探针中，并使用链霉亲和素包被所述载体，由此所述包被的载体非共价吸引并固定所述集合中的所述探针。所述样品在杂交条件下通过所述包含探针的载体，由此与所述固定载体杂交的目标核酸分子可洗脱，用于之后的分析或其它用途。

在一个方面，本发明通过直接基因组选择能够从复杂生物样品中捕获并富集目标核酸分子或目标基因组区域。本发明还可用于搜索遗传变体和突变，例如引起人类疾病的单核苷酸多态性(SNPs)、或SNPs组。预期使用微阵列杂交技术的捕获和富集比基因组富集领域目前可用的其它方法更灵活，目前的方法例如使用用于直接基因组选择的BAC(细菌人工染色体)(参见Lovett等人，1991)。

本发明允许使用本领域已知的靶向的基于阵列的、鸟枪、毛细管、或其它测序方法。通常，随机生成片段的鸟枪测序策略经济并易于结合到规划中，但是本发明只提交来自一个或多个目标基因组区域的片段进行测序，由此增强了所述鸟枪方法的效率。本发明提供了将所述测序策略聚焦到特定基因组区域，例如用于医学测序目的的个体染色体或外显子的能力。

目标核酸分子可以纯化或非纯化形式从包括任何来源核酸的一种或多种样品中富集。所述来源不需包含有机体基因组核酸分子的全部补充物。所述样品，优选地来自生物来源，包括但不限于，来自个体病人、组织样品、或细胞培养物的集合的分离物。当用于本文时，术语“目标核酸分子”系指来自所研究的目标基因组区域的分子。所述预选的探针确定目标核酸分子的范围。具有本公开的技术人员将了解可能目标和关联目标的全部范围。

所述目标区域可为几百万碱基(Mb)的一个或多个连续区段，或几个较小的相邻或不相邻区域，例如来自一条或多条染色体的全部外显子，或已知包含SNPs的位点。例如，所述固体载体可支持嵌合阵列，其设计用于捕获一条或多条完整染色体、一条或多条染色体的部分、所有外显子、来自一条或多条完整染色体的所有外显子、选择的外显子、一个或多个基因的内含子和外显子、基因调控区域等等。替代性地，为提高捕获所需非独特或难以捕获的目标富集的可能性，所述探针可针对与实际目标序列相关(例如，在相同片段上，但区分开)的序列，在此情况下可捕获并富集既包含所需目标又包含关联序列的基因组片段。所述相关序列可与所述目标序列相邻或间隔，但是技术人员将了解，所述两部分相互越接近，基因组片段同时包含两部分的可能性越大。另外，为进一步降低脱靶分子交叉杂交的有限影响，由此增强所述富集的完整性，可使用不同但相关的针对目标区域的捕获探针组进行随后几轮捕获。相关的探针为对应基因组中相互接近区域的探针，因此其可与相同的基因组DNA片段杂交。

微阵列寡核苷酸设计为靶向所述基因组目标区域。单个探针的长度典型地在50到200个碱基之间。这些探针可设计为重叠探针，意为相邻探针的起始核苷酸短于探针长度，或者非重叠探针，其中相邻探针之间的距离长于探针长度。相邻探针之间的距离通常重叠，两个探针的起始核苷酸之间间隔在1到100个碱基之间变化。所述距离可变化以使某些基因组区域比其它区域更能成为大量探针的靶点。所述变化可用于调整单个基因组区域的捕获效率，标准化捕获。可测试探针在所述基因组中的独特性。为避免基因组成分与捕获阵列的非特异性结合，应使用一种新方法从选择微阵列设计中排除所述基因组的高度重复成分，所述方法使用与Morgolis(2006)开发的WindowMasker程序相似的策略以鉴别这些区域并将其从探针选择中排除。所述过程比较探针组与人类基因组中所有可能的15-联体探针的预先计算的频率直方图。对每个探针，包含所述探针的15-联体组的频率用于计算所述探针的平均15-联体频率。平均15-联体频率越高，探针越有可能位于所述基因组的重复区域。只应使用平均15-联体频率低于100的探针。

所述探针的特性和表现可变化以有利地标准化或调节根据所述方法捕获并富集的目标分子的分布。所述标准化的目标为每个读取提供一种表达的基因(参见Soares，等人，1994)。标准化可以，例如，在文库建立之前应用于cDNA分子组，因为所述组中分子的分布反映了产生所述cDNA分子组的表达基因的不同表达水平。例如，有效分析每个目标区域所需的测序反应数量可通过标准化所富集组中每个目标序列的拷贝数而减少，因此基于适合度和其它探针属性的组合可标准化遍及所述探针组中不同探针的捕获表现。适合度，以“捕获度量”为特征，可通过信息或经验确定。在一种方法中，所述目标分子的结合能力可通过提供如美国专利申请US-2005/0282209(NimbleGen Systems，Madison，WI)所述的所谓等温(Tm平衡)寡核苷酸探针进行调节，其提供统一的探针表现，消除杂交假象和/或偏差，并提供更高质量的输出。调节探针长度(典型地，约20到约100个核苷酸，优选地约40到约85个核苷酸，尤其是约45到约75个核苷酸，例如45个核苷酸，但是可选地还有多于100个核苷酸，直到约250个核苷酸)以平衡整个组的解链温度(例如Tm＝76℃，典型地约55℃到约76℃，尤其是约72℃到76℃)。如此，探针被优化以在所述目标基因组区域包括富AT及富GC区域内在规定的严格条件下等同进行。相关地，可使用天然碱基或人工碱基类似物例如肌醇，或者两者的组合调节单个探针的序列，以达到那些探针的所需捕获适合度。相似地，可使用具有产生所需捕获表现的结构的锁定核酸探针、肽核酸探针等等。具有本公开的技术人员将了解，对于任何特定探针，可协同调节探针长度、解链温度以及序列，以达到所述探针的所需捕获表现。方便地，探针的解链温度(Tm)可使用公式Tm＝5x(Gn+Cn)+1x(An+Tn)计算，其中n为探针中存在的每种特定碱基(A、T、G、或C)的数量。

捕获表现也可通过确定所述探针组中探针的捕获适合度，然后相应调节所述固体载体上的单个探针数量进行标准化。例如，如果第一种探针捕获的核酸是第二种探针的20倍，则两种探针的捕获表现可通过提供第二种探针的20倍拷贝进行平衡，例如通过增加20倍表现第二种探针的特征的数量。如果所述探针系列制备并应用于所述固体载体，集合中单个探针的浓度可以相同方式变化。

另外，另一种标准化目标核酸捕获的策略是将所洗脱的目标分子对所述探针进行第二轮杂交，其条件不如第一轮杂交使用的严格。除第一次杂交中相对于初始基因组核酸复杂度降低的基本富集外，第二次杂交可在使所有捕获探针饱和的杂交条件下进行。假设在所述固体载体上提供基本等量的捕获探针，所述探针的饱和可确保在第二次杂交和洗涤之后洗脱基本等量的各种目标。

另一种标准化策略在从所述固体载体捕获的目标分子洗脱和扩增之后进行。洗脱物中的目标分子使用，例如化学或温度变性过程进行变性，以成为单链状态并重新复性。动力学考虑要求丰度较大种类(abundant species)在丰度较少种类之前重新复性。因此，通过去除重新复性种类的起始馏分，剩余单链种类可相对于所述洗脱物中的起始组进行平衡。最佳去除丰度较大种类所需的时机通过经验确定。

总体来说，本发明的一种实施方案提供了一种降低一组核酸分子遗传复杂度的新方法。所述方法包含：

(a)在杂交条件下将所述片段化变性核酸分子组与结合于固体载体的多种不同的寡核苷酸探针接触以捕获与所述探针特异性杂交的核酸分子，

或者在杂交条件下将所述片段化变性核酸分子组与多种不同的寡核苷酸探针接触，然后将所述杂交分子复合物结合到固体载体上，以捕获与所述探针特异性杂交的核酸分子，

其中(在两种情况下)所述片段化变性核酸分子平均大小约100到约1000个核苷酸残基，优选约250到约800个核苷酸残基，最优选约400到约600个核苷酸残基，

(b)从所捕获分子中分离未结合和非特异性杂交的核酸；

(c)从所述固体载体洗脱所捕获分子，其优选在相对于初始样品具有遗传复杂性降低的洗脱物集合中，以及

(d)可选地用所洗脱的捕获分子至少再重复一轮步骤(a)到(c)。

大多数情况下，所述核酸分子组为源自基因组DNA(基因组核酸分子)样品的分子。然而，也可能用源自cDNA或甚至RNA的样品开始。如上所述，原则上可使用本领域已知的任何方法进行片段化处理。然而，所述片段化变性核酸分子平均大小应为约100到约1000个核苷酸残基，优选约250到约800个核苷酸残基，最优选约400到约600个核苷酸残基。例如，这可使用基因组DNA喷雾方法实现(参见例如欧洲专利申请EP 0 552 290)。

遗传复杂度降低的参数可根据用户的序列选择需要几乎任意选择，并由所述多个寡核苷酸探针的序列确定。在一种实施方案中，所述多种探针确定来自多个遗传基因座的多种外显子、内含子、或调控序列。在另一种实施方案中，所述多种探针确定至少一个单独遗传基因座的全序列，所述基因座大小至少100kb，优选至少1Mb，或上述特定的大小。在另一种实施方案中，所述多种探针确定已知包含SNPs的位点。在另一种实施方案中，所述多种探针确定一种嵌合阵列。所述嵌合阵列在本发明上下文中定义为经设计以捕获至少一条完整染色体的全序列。在此上下文中，术语“定义”以如此方式理解，所述多种探针组对每种将要富集的目标序列包含至少一种探针。优选地，所述多种探针组对每种将要富集的目标序列另外包含至少第二种探针，其特征为所述第二种探针具有与所述第一种序列互补的序列。

根据本发明的固体载体或者为核酸微阵列或者为一组珠子。所述珠子可为玻璃、金属、陶瓷和聚合物珠子。如果所述固体载体为微阵列，可能在所述固体载体上直接原位合成所述寡核苷酸捕获探针。例如，可使用无掩膜阵列合成器在所述微阵列上合成所述探针(US 6,375,903)。所述多种寡核苷酸探针的长度可变化，其取决于实验设计，并只受限于合成此类探针的可能性。优选地，所述多种探针组的平均长度约20到约100个核苷酸，优选地约40到约85个核苷酸，尤其是约45到约75个核苷酸，例如45个核苷酸。

如果所述固体载体为一组珠子，可使用无掩膜阵列合成器在微阵列上初始合成所述捕获探针，然后根据已知标准方法释放或切除，然后根据本领域已知的方法任选扩增，并固定于所述珠子组。所述珠子可包装在柱子中，以使样品装入并经过所述柱子以降低遗传复杂度。替代性地，为了改进杂交动力学，可在包含具有固定的多种寡核苷酸分子的悬浮珠子的水溶液中进行杂交。

在一种实施方案中，所述多种不同的寡核苷酸探针各携带一化学基团或连接物，即允许固定于固体载体的部分，也称为固定基团。然后在水溶液中进行所述样品的片段化变性核酸分子在杂交条件下与所述多种不同的寡核苷酸探针接触的步骤，然后进行在合适的固体载体上固定。例如，所述部分可为用于固定于链霉亲和素包被的固体载体的生物素。在另一种实施方案中，所述部分可为类似半抗原的地高辛，其可用于固定于半抗原识别抗体例如地高辛结合抗体包被的固体载体。

在一种特定的实施方案中，所述多种固定的探针的特点是标准化的捕获表现。所述标准化的捕获表现通常由上述方法达到，典型地包含下列步骤：a)确定所述探针组中探针的捕获适合度；以及b)调节所述固体载体上的至少一种探针数量。替代性地，所述标准化的捕获表现由包含下列步骤的方法达到：a)确定所述探针组中探针的捕获适合度；以及b)调节所述固体载体上的至少一种探针的序列、解链温度和探针长度至少其中之一。仍然替代性地，所述标准化的捕获表现由包含下列步骤的方法达到：a)在不如第一次接触步骤严格的条件下，所捕获分子与所述固体载体上的至少一种固定探针接触，以使所述至少一种探针饱和，b)从所述固体载体上洗除未结合和非特异性结合的核酸；以及c)从所述固体载体洗脱所结合的目标核酸。仍然替代性地，所述标准化的捕获表现由包含下列步骤的方法达到：a)将所洗脱的捕获分子变性成为单链状态；b)将所述单链分子重新复性，直至所述分子的一部分成为双链；丢弃所述双链分子，以及c)保留所述单链分子。

通常至少一种固定探针与样品中核酸片段的目标基因组区域杂交。替代性地，所述至少一种固定探针可与包含目标基因组区域的目标核酸片段的序列杂交，所述杂交序列与所述目标基因组区域分离。另外，使用至少一种寡核苷酸探针进行至少第二个杂交步骤也在本发明范围内，所述寡核苷酸探针与初次杂交中使用的至少一种探针有关但不同。

具体来说，本发明还致力于提供一种方法，其用于确定样品中基因组核酸的至少一个区域的核酸序列信息，所述方法包含下列步骤：

-根据本文公开的任何方法降低一组核酸分子的遗传复杂度，以及

-确定所捕获分子的核酸序列，例如通过进行测序反应的方法。优选地，

所述测序反应为通过合成反应测序。

根据本实施方案，所述基因组DNA优选地通过机械应力裂解。所需DNA片段平均大小应该小(＜＝1000bp)，并取决于将要应用的测序方法。

根据本领域文献(参见，例如Hyman，E.D.，1988)，通过合成测序定义为在测序反应中加入特定的脱氧核苷三磷酸时监测副产物生成的任何测序方法(参见，例如Rhonaghi等人，1998)。通过合成反应测序的一种特定的且最重要的实施方案为焦磷酸盐测序方法。在这种情况下，通过最终导致化学冷光信号生成的酶级联方法监测加入核苷酸时焦磷酸盐的生成。例如，454基因组测序系统(Roche Applied Science cat.No.04760085001)基于所述焦磷酸盐测序技术。对于在454GS20或454FLX仪器上的测序，平均基因组DNA片段大小应分别在200或600bp范围内。

替代性地，所述通过合成反应测序为终止子染色类型的测序反应。在这种情况下，加入的dNTP组成块包含可检测的标记，优选地为一种防止新生DNA链进一步延伸的荧光标记。然后当所述dNTP组成块加入模板/引物延伸杂交体时所述标记被去除并检测，例如通过使用包含3’-5’外切酶或校读活性的DNA聚合酶。

有利地，所述首先降低基因组复杂度然后确定多种序列的创新方法进一步包含将接头分子连接到所述片段化核酸分子的一端或两端，优选地为两端的步骤。接头分子在本发明上下文中优选地定义为平端双链寡核苷酸。另外，所述创新方法可进一步包含使用至少一种引物扩增所述核酸分子的步骤，所述引物包含与所述接头分子序列对应或特异性杂交的序列。

为了将接头分子连接到双链目标分子上，优选地所述目标分子自身为平端。为达到此目标，所述双链目标分子在脱氧核苷三磷酸存在下使用DNA聚合酶，例如T4-DNA聚合酶或Klenow聚合酶进行填充反应，其产生平端目标分子。另外，在连接之前加入例如T4多核苷酸激酶以在5’端加入磷酸基团用于随后的连接步骤。可根据本领域已知的任何方法，优选地通过T4-DNA连接酶反应的方法进行随后的所述接头(约3-20碱基对的短双链平端DNA寡核苷酸)与修饰的目标DNA的连接。

所述连接可在下述步骤之前或之后进行：将包含片段化变性基因组核酸分子的样品在杂交条件下与多种寡核苷酸探针接触以捕获与所述探针杂交的目标核酸分子。如果随后进行连接，从所述固体载体以单链形式释放的所富集核酸应首先重新复性，然后根据本领域已知的标准方法进行引物延伸反应和填充反应。

所述接头分子的连接允许随后扩增所捕获分子的步骤。无论连接在所述捕获步骤之前或之后进行，有两种备选的实施方案。在第一种实施方案中，使用一种类型的接头分子。这导致在片段两端具有相同末端序列的一组片段。因此，在可能的随后扩增步骤中仅使用一种引物就足够。在替代的实施方案中，使用两种类型的接头分子A和B。这导致由3种不同类型组成的一组富集分子：(i)在一端具有一种接头(A)并在另一端具有另一种接头(B)的片段，(ii)在两端具有接头A的片段，以及(iii)在两端具有接头B的片段。

如果扩增和测序例如使用454life science corporation GS20和GSFLX仪器进行，根据类型(i)产生富集分子非常有利(参见GS20Library PrepManual，Dec 2006，WO 2004/070007)。如果所述接头之一，例如接头B带有生物素修饰，则分子(i)和(iii)可以例如结合于链霉亲和素(SA)包被的磁珠用于进一步分离和洗去(ii)的产物。如果所富集并SA固定的DNA从所述捕获阵列/固体载体洗脱之后为单链，将所述DNA转为双链是有利的。在这种情况下，可在所述洗涤SA得到的结合产物中加入与接头A互补的引物。因为B-B(上述iii)部分没有A或其互补存在，只有A-B连接的且SA捕获的产物可在A互补引物的引物延伸后成为双链。随后，已结合于所述磁珠的所述双链DNA分子通过温度或化学(例如NaOH)变性的方法以使新合成的链释放到溶液中。由于紧密的生物素/链霉亲和素结合，例如，仅具有两个接头B的分子不会释放到溶液中。可用于释放的链仅为A互补与B互补引物延伸合成链。所述包含在一端具有接头A并在另一端具有接头B的单链目标分子的溶液可以，例如随后结合于另一种类型的珠子，其包含与所述接头A或B序列充分互补的捕获序列，用于进一步处理。

在Genome Sequencer workflow(Roche Applied Science Catalog No.04896548001)情况下，在第一步，使用乳液PCR方法进行(克隆)扩增。因此，以乳液PCR形式进行扩增步骤也在本发明的范围内。然后带有所述克隆扩增的目标核酸的珠子可根据制造商说明书任意转入picotiter板，并进行焦磷酸盐测序反应，用于序列确定。

因此，根据本发明的方法可在多种不同应用中确定序列。例如，本发明还提供了一种检测相对于参考基因组的编码区变异的方法，优选地用于包含片段化变性基因组核酸分子的样品，所述方法包含下列步骤：

-进行如上所述的方法，

-确定所捕获分子的核酸序列，以及

-所确定序列与数据库比较，特别是与所述参考基因组多态性数据库比较，以从所述参考基因组中鉴别出变体。

在另一个主要方面，本发明还提供了一种用于进行根据本文公开的本发明的方法或部分方法的试剂盒。因此，本发明还致力于提供一种试剂盒，其包含

-一种(第一种)双链接头分子，以及

-具有多种探针的固体载体，其中所述多种探针选自：

-限定来自多个遗传基因座的多种外显子、内含子或调控序列的多种探针，

-限定至少一个单独遗传基因座的全序列的多种探针，所述基因座大小至少100kb，优选至少1Mb，或本文所述大小，

-限定已知包含SNPs的位点的多种探针，以及

-限定一种阵列，尤其是特别设计为捕获至少一条完整染色体的全序列的嵌合阵列的多种探针。

优选地，所述试剂盒包含两种不同的双链接头分子。所述固体载体可为如本文公开的多种珠子或微阵列。

在一种实施方案中，所述试剂盒进一步包含至少一种或多种化合物，其选自下列：DNA聚合酶；T4多核苷酸激酶；T4DNA连接酶；阵列杂交液，例如如本文公开的；阵列洗涤液，特别是含有SSC、DTT、以及可选的SDS的洗涤液，例如洗涤缓冲液I(0.2x SSC，0.2％(v/v)SDS，0.1mM DTT)、洗涤缓冲液II(0.2x SSC，0.1mM DTT)、和/或洗涤缓冲液III(0.05x SSC，0.1mM DTT)；和/或阵列洗脱液，例如水或者包含TRIS缓冲液和/或EDTA的溶液。

在另一种特定的实施方案中，与本文公开的实施方案不相互排斥，所述试剂盒包含第二种接头分子。所述第一种或第二种接头分子的至少一条寡核苷酸链可带有修饰，其允许固定于固体载体。例如，所述修饰可为生物素标记，其可用于固定于链霉亲和素包被的固体载体。替代性地，所述修饰可为类似半抗原的地高辛，其可用于固定于半抗原识别抗体包被的固体载体。

当用于本文时，术语“杂交”系指互补核酸的配对。杂交和杂交强度(即所述核酸之间结合的强度)受如下因素影响：所述核酸之间互补的程度、涉及条件的严格程度、所形成杂交体的T_m、以及所述核酸的G∶C比值。虽然本发明不受限于特定的一组杂交条件，但优选使用严格的杂交条件。严格的杂交条件取决于序列，并因变化的环境参数(例如盐浓度、以及有机物的存在)而不同。通常，“严格的”条件选择为在规定的离子强度和pH下低于特定核酸序列的温度熔点(Tm)约5℃到20℃。优选地，严格的条件为低于与互补核酸结合的特定核酸的温度熔点约5℃到10℃。所述Tm为50％核酸(例如标签核酸)与完全配对探针杂交的温度(在规定的离子强度和pH下)。

相似地，“严格的”洗涤条件通常根据经验为每组标签与对应的探针阵列杂交确定。所述阵列首先杂交(典型地在严格的杂交条件下)，然后用包含连续降低浓度的盐、或增高浓度的洗涤剂的缓冲液洗涤，或者在增加的温度下洗涤直至特异性与非特异性杂交的信噪比足够高以促进特异性杂交的检测。严格的温度条件通常包括温度超过约30℃，更通常超过约37℃，并有时候超过约45℃。严格的盐条件通常低于约1000mM，通常低于约500mM，更通常低于约150mM。更多信息参见例如Wetmur等人(1966)and Wetmur(1991)。

如本文定义的“严格的条件”或“高度严格的条件”，可为在50％甲酰胺、5x SSC(0.75M NaCl，0.075M柠檬酸钠)、50mM磷酸钠(pH 6.8)、0.1％焦磷酸钠、5x Denhardt′s溶液、超声波处理的鲑鱼精子DNA(50mg/ml)、0.1％SDS、和10％硫酸葡聚糖中，在42℃下杂交，在42℃以0.2xSSC(氯化钠/柠檬酸钠)和在55℃以50％甲酰胺洗涤，然后在55℃以含EDTA的0.1x SSC洗涤。

举例来说，但不限于，预期含35％甲酰胺、5x SSC和0.1％(w/v)十二烷基硫酸钠的缓冲液适合在适度非严格条件下在45℃杂交16-72小时。此外，预期甲酰胺浓度可根据探针长度和所需严格程度在20-45％范围内适当调节。通过升高杂交温度或甲酰胺浓度补偿探针长度变化而进行探针优化以获得更长探针(＞＞50体)也包括在本发明范围内。杂交条件的其它实例见于多种来源，包括″Direct selection of cDNAs with large genomic DNAclones，″in Molecular Cloning：A Laboratory Manual(2001)。

在另一种实施方案中，本发明致力于提供一种分离和降低多种核酸序列复杂度的方法，其包含：提供一种固体载体，其中所述固体载体包含可与目标核酸序列杂交的杂交探针，以及包含目标核酸序列的片段化核酸样品；扩增所述杂交探针，其中扩增产物包含结合部分，且其中所述扩增产物保持在溶液中；将所述核酸样品与溶液中的所述扩增产物杂交，使得所述扩增产物与目标核酸序列进行杂交；通过所述结合部分从非特异性杂交核酸中分离所述目标核酸/扩增产物杂交复合物；以及从所述复合物洗脱所杂交的目标核酸序列，由此分离和降低多种核酸序列的复杂度。

在另一种实施方案中，本发明包含上述方法，其进一步包含测序所洗脱的目标核酸序列。

在另一种实施方案中，本发明致力于提供一种试剂盒，其包含：包含结合部分的杂交探针序列，其中所述探针序列设计为与一种或多种目标核酸序列杂交，并且其中所述探针序列在溶液中；包含用于结合所述结合部分的结合伴侣的基质；以及用于实现上述方法的说明。

在本发明的实施方案中，包含变性(例如单链)核酸分子，优选地为基因组核酸分子，其可为片段化分子的样品，在杂交条件下接触多种寡核苷酸探针，其中所述多种寡核苷酸探针或源自所述探针的扩增子在溶液中，以从所述样品核酸分子中捕获目标核酸序列，并从所述杂交目标序列中分离基因组非杂交区域或任何其它样品核酸，其中所述分离包含通过结合部分(例如，与所述探针或源自探针的扩增子结合)捕获溶液中的杂交复合物，并洗涤所结合的复合物，由此从非特异性非目标杂交序列中分离所杂交的目标序列(图6)。

本发明提供了方法和系统，其用于分离多种核酸序列，以及降低大核酸样品的复杂度，所述大核酸样品为例如基因组DNA或RNA样品、cDNA文库、或mRNA文库，以促进进一步处理和遗传分析。在本发明的某些实施方案中，方法和系统包含(预选的)固定核酸探针的原位扩增，其中源自探针的扩增子包含结合部分。标记的扩增子在溶液中通过样品与所述扩增子以基于溶液的方法杂交以从样品中捕获目标序列。标记的扩增子/目标核酸杂交复合物通过所述结合部分捕获，优选地洗涤，并且所述目标核酸被洗脱。所洗脱的基因组序列比未经过所述富集过程的基因组样品更适用于详细的遗传分析。因此，所公开的方法提供了用于降低基因组样品复杂度的经济、灵活、并有效的方法。在本说明的其余部分中，基因组样品用于说明目的，但应理解其它非基因组样品可用于相同过程。

在某些实施方案中，本发明提供了一种分离多种核酸序列并降低核酸样品复杂度的方法，其通过在优选的足以支持探针扩增子与所述核酸样品互补区域杂交的严格条件下，在溶液中将所述样品与核酸探针扩增子杂交实现。探针扩增子/目标核酸复合物在足以去除非特异性结合核酸的条件下洗涤。所杂交的目标核酸序列从源自探针的扩增子中洗脱，并可以可选地进一步扩增(例如通过LM-PCR)，例如用于下游应用，例如再测序。

本发明提供了用于分离多种核酸序列并降低一组核酸分子的遗传复杂度的方法，所述方法包含下列步骤：一组目标片段化变性核酸分子在杂交条件下接触多种不同的源自寡核苷酸探针的扩增子以捕获与所述探针扩增子特异性杂交的核酸分子，其中所述扩增子在溶液中且其中所述扩增子进一步包含结合部分；通过将所述探针扩增子上的结合部分与其结合伴侣结合(例如生物素/SA、地高辛/抗地高辛、6HIS/镍等等)，结合或捕获杂交分子复合物，其中所述片段化变性核酸分子平均大小约100到约1000个核苷酸残基，优选地约250到约800个核苷酸残基，最优选地约400到约600个核苷酸残基；从结合探针扩增子中分离未结合和非特异性杂交的核酸；从所述扩增子中洗脱所杂交目标分子；以及可选地测序所述目标分子。

因此，本发明的实施方案提供了基于溶液的方法和系统，其用于分离多种核酸序列并降低一组核酸分子的遗传复杂度。本发明的方法和系统包含下列步骤：片段化变性核酸样品序列在足以使所述变性核酸目标序列与源自探针的扩增子(例如在溶液中)杂交的杂交条件下，接触多种不同的在溶液中的杂交探针扩增子，其中所述片段化变性核酸样品序列在变性之前在所述片段化核酸样品一端或两端可包含或可不包含一个或多个连接接头，其中所述扩增子源自预先设计的多种不同的杂交探针，其中所述扩增子包含结合部分或序列和可选的限制性内切酶(RE)位点，其中所述片段化变性核酸序列平均大小为约100到约1000个核苷酸残基，优选地约250到约800个核苷酸残基，最优选地约400到约600个核苷酸残基；通过所述结合部分结合扩增子/目标复合物，从源自探针的扩增子分离未结合和非特异性杂交的核酸分子，并洗涤所结合复合物；从所结合复合物洗脱所述目标核酸序列，其中所述目标序列显示相对初始样品降低的遗传复杂度；以及可选地使用初次洗脱的富集目标核酸序列重复杂交、洗涤和洗脱步骤以进一步富集目标核酸序列。

在本发明的实施方案中，用于捕获目标核酸的探针通过多种方法固定于基质上。在一种实施方案中，探针可点样在载玻片上(例如美国专利6,375,903和5,143,854)。在优选的实施方案中，使用如美国专利6,375,903、7,037,659、7,083,975、7,157,229所述的无掩膜阵列合成器(MAS)在基质上原位合成探针，其允许在载玻片上直接原位合成寡核苷酸序列用于随后的原位聚合酶链反应(PCR)扩增。

在某些实施方案中，固体载体为一组珠子或颗粒。所述捕获探针首先使用无掩膜阵列合成器在微阵列载玻片上合成，扩增，根据标准方法释放或切除，可选地扩增并固定于所述珠子组上。所述珠子可包装在例如柱子中，以使目标样品装入并通过柱子，以及探针/目标序列在柱子中杂交，然后洗涤，并且洗脱目标样品序列以降低遗传复杂度。在某些实施方案中，柱子具有液体进口和出口。在某些实施方案中，为增强杂交动力学，杂交在水溶液中进行，其包含在水环境中悬浮的具有固定的多种探针的珠子。

在某些实施方案中，目标分子的核酸探针在固体载体上合成，从所述固体载体上以探针集合释放并扩增。所述扩增的释放探针集合共价或非共价固定于载体(例如玻璃、金属、陶瓷、聚合物珠子、顺磁性颗粒等等)。所述探针设计为从所述固体载体方便释放，例如通过在最接近载体的探针末端或其附近提供酸或碱不稳定的核酸序列，其分别在低或高pH条件下释放所述探针。本领域熟知将核酸固定于载体的方法，例如通过在所述探针中引入生物素标记的核苷酸并使用链霉亲和素包被载体，由此所包被载体吸引并固定集合中的所述探针。样品在杂交条件下通过包含探针的载体(例如载玻片、柱子等等)，由此与所述固定载体杂交的目标核酸分子可被洗脱用于随后的分析或其它用途。

在本发明的实施方案中，设计为随后的用于本文所述的基于溶液的捕获方法的扩增的起始杂交探针印制或放置于固体载体，例如微阵列载玻片、芯片、微孔、柱子、管子、珠子或颗粒。基质可为，例如玻璃、金属、陶瓷、聚合物珠子等等。在优选的实施方案中，所述固体载体为微阵列(例如玻璃载玻片)，其中所述探针使用无掩膜阵列合成器在所述微阵列上合成。所述多种寡核苷酸探针的长度可变化并取决于实验设计，并仅受限于合成所述探针的可能性。在优选的实施方案中，所述多种探针组在原位扩增之前的平均长度为约20到约100个核苷酸，优选地约40到约85个核苷酸，特别是约45到约75个核苷酸。所述固定杂交探针随后用作原位PCR扩增和可选的非对称PCR扩增的模板，以提供源自探针的扩增子用于基于溶液的杂交和复合物样品中目标核酸分子的富集。

在本发明的实施方案中，杂交探针与基因组至少一个区域序列对应，并可使用例如无掩膜阵列合成(MAS)技术在固体载体上并行提供。替代性地，可使用标准DNA合成仪连续获得探针并应用于所述固体载体，或者可从有机体获得并固定于所述固体载体。在本发明的实施方案中，预期与合成方法无关，杂交探针包含用于扩增技术的扩增引物序列。在本发明的实施方案中，引入至杂交探针序列的扩增引物序列进一步包含限制性内切酶(RE)序列。在本发明的实施方案中，微阵列基质上的杂交探针使用与所述引物序列互补的引物原位扩增，其中一个或两个所述引物进一步包含连接化合物，例如结合部分(例如生物素、地高辛等等)，由此源自所述杂交探针的PCR扩增子在溶液中。

包含源自探针的扩增子的溶液转移到例如管子、孔、或其它容器中并保持在溶液中。预期另外进行一轮或多轮扩增以促进包含所述结合部分的扩增子链生产，例如通过非对称PCR。核酸样品，优选地为片段化且变性以产生片段化单链目标序列，加入到溶液中的扩增子，所述源自探针的扩增子与所述片段化单链目标核酸样品进行杂交。杂交之后，通过经所述结合部分捕获扩增子/目标复合物和洗涤扩增子/目标复合物从扩增子/目标复合物分离不杂交或非特异性杂交的核酸。例如，如果所述结合部分为生物素，使用链霉亲和素包被的基质捕获所述复合物。洗涤所述结合复合物，例如使用一种或多种洗涤液。剩余核酸(例如特异性结合于所述扩增子)从所述复合物洗脱，例如使用水或洗脱缓冲液(例如包含TRIS缓冲液和/或EDTA)，以产生富集所述目标核酸序列的洗脱物。

用于本文所述的基于溶液的捕获方法和系统中扩增的基于微阵列的寡核苷酸设计为靶向基因组的一个或多个区域。单个探针的长度典型地在50到200个碱基之间。这些探针可设计为重叠探针，意为相邻探针的起始核苷酸在所述基因组中以短于探针的长度相隔，或者非重叠探针，其中相邻探针之间的距离长于探针长度。相邻探针之间的距离通常重叠，两个探针的起始核苷酸之间的间隔在1到100个碱基之间变化。所述距离可变化以使某些基因组区域比其它区域更能成为大量探针的靶点。所述变化可用于例如调整单个基因组区域的捕获效率，使捕获标准化。可测试探针在所述基因组中的独特性。在本发明的优选实施方案中，为避免基因组成分与源自探针的扩增子的非特异性结合，使用一种方法从选择探针设计中排除所述基因组的高度重复成分，所述方法使用与例如Morgolis(2006，Bioinformatics 15：134-141，其全部内容通过引用结合到本文中)开发的WindowMasker程序相似的策略以鉴别这些区域并将其从探针选择中排除。

根据本发明的方法，用于本发明的基于溶液的捕获方法的设计的扩增探针的特性与表现可变化，以有利地标准化或调节捕获并富集的目标分子的分布。所述标准化的一个目标是通过每个读数提供一种表达的基因(例如Soares，等人，1994，Proc.Natl.Acad.Sci.91：9228-9232)。标准化，例如在文库构建之前应用于cDNA分子组，因为通常所述组中的分子分布反映产生所述cDNA分子组的表达基因的不同表达水平。例如，有效分析每个目标区域所需的测序反应数量可通过标准化所富集组中每个目标序列的拷贝数而减少，由此基于适合度和其它探针属性的组合可标准化所述探针组中不同探针的捕获表现。

适合度，以捕获度量为特征，可通过信息或经验确定。在一种方法中，所述目标分子的结合能力可通过提供如美国专利2005/10282209所述的所谓等温(Tm平衡)寡核苷酸探针进行调节，其提供统一的探针表现，消除杂交假象和/或偏差，并提供更高质量的输出。调节探针长度(典型地，约20到约100个核苷酸，优选地约40到约85个核苷酸，尤其是约45到约75个核苷酸，但是可选地还可多于100个核苷酸，直到约250个核苷酸)以在扩增之前平衡整个组的探针的解链温度(例如T_m＝76℃，典型地约55℃到约76℃，尤其是约72℃到76℃)。因此，探针被优化以在包括富AT及富GC区域的目标基因组区域内在规定的严格条件下等同表现。本领域技术人员将了解，对于源自任何给定探针的扩增子，可协同调节探针长度、解链温度以及序列，以达到所述探针扩增子的所需杂交表现。例如，源自探针的扩增子的解链温度(T_m)可使用公式T_m＝S_x(G_n+C_n)+1_x(A_n+T_n)计算，其中n为探针扩增子中存在的每种特定碱基(A、T、G或C)的数量。

捕获表现也可通过确定所述探针组中探针扩增子的捕获适合度，然后相应调节用于扩增目的的固体载体上的单个探针数量进行标准化。例如，如果源自第一种探针的探针扩增子预期捕获的核酸是源自第二组探针的扩增子的20倍，则两组探针扩增子的捕获表现可通过提供第二种扩增目的探针的20倍拷贝进行平衡，例如通过在扩增之前增加20倍显示第二种探针的微阵列探针的数量。

在其它实施方案中，另一种标准化目标核酸捕获的策略是将所洗脱的目标分子对源自探针的扩增子进行第二轮基于溶液的杂交，其条件不如第一轮杂交使用的严格。除第一次杂交中相对于初始基因组核酸降低复杂度的基本富集外，第二次杂交可在所有捕获探针饱和的杂交条件下进行。假设在溶液中提供基本等量的源自探针的扩增子，所述扩增子的饱和可确保在第二次杂交和洗涤之后洗脱基本等量的各种目标。

在本发明的实施方案中，用于在本文所述的基于溶液的捕获和富集方法和系统中使用的杂交探针的原位扩增的扩增引物包含连接化合物，例如结合部分。结合部分包含任何连接或引入用于随后捕获探针扩增子/目标核酸杂交复合物的扩增引物的5’端的部分。结合部分为引入引物序列5’端的任何序列，例如可捕获的6组氨酸(6HIS)序列。例如，包含6HIS序列的引物可被镍捕获，例如在镍包被或包含镍包被珠子、颗粒等的管子、微孔、或纯化柱中，其中所述珠子包装入柱子中，样品装入并通过柱子以捕获复杂度降低的复合物(例如，和随后的目标洗脱)。用于本发明的实施方案的另一种结合部分的实例包括半抗原，例如地高辛，例如其连接到扩增引物的5’端。地高辛可使用地高辛抗体捕获，例如包被或包含抗地高辛抗体的基质。

在优选的实施方案中，用于本发明的方法和系统的扩增引物包含生物素部分，其与所述引物的5’端及随后源自探针的扩增子结合。生物素可被链霉亲和素(SA)捕获，因此生物素标记的扩增子可在包被或包含SA的基质或柱子上捕获。在优选的实施方案中，链霉亲和素包被在顺磁性颗粒上，其可依次被磁性捕获，以利于目标核酸分子的洗涤并洗脱。本发明不受限于使用的连接化合物种类，并且本领域技术人员可知等同适用于本发明的方法和系统的其它选择。

在本发明的实施方案中，所述方法和系统包含确定样品中核酸至少一个区域的核酸序列信息，特别是基因组核酸，(全基因组或至少一条完整或部分染色体)，所述方法包含实现上述方法然后确定所捕获分子核酸序列的步骤，特别是通过合成反应进行测序。

在本发明的实施方案中，目标核酸典型地为脱氧核糖核酸或核糖核酸，并包括通过将一种核酸分子类型(例如DNA、RNA和cDNA)转化为另一种类型的体外合成产物，以及包含核苷酸类似物的合成分子。变性基因组DNA分子是特别比天然存在的基因组核酸分子短的分子。本领域技术人员可使用熟知的方法通过化学、物理或酶裂解或剪切从较大分子制备随机或非随机大小的分子。例如，化学裂解可使用含铁金属(例如Fe-EDTA)，物理方法可包括超声波处理、流体动力或喷雾(例如参见欧洲专利申请EP 0552 290)，酶学方法可使用核酸酶，例如微球菌核酸酶(Mnase)或外切核酸酶(例如ExoI或Bal31)或限制性内切酶。

本发明不受限于产生片段的方法，预期任何可用于使核酸片段化的方法。在本发明的实施方案中，与所富集片段使用的富集后技术相当的大小范围内的片段是优选的。例如，本发明的实施方案预期核酸片段大小范围为约100到约1000个核苷酸残基或碱基对，或约250到约800个核苷酸残基或碱基对，或约400到约600个核苷酸残基或碱基对，特别是约500个核苷酸残基或碱基对。

可能包含目标核酸序列的核酸分子组优选包含一种有机体的全基因组或至少一条染色体，或至少一种至少约100kb的核酸分子。具体来说，所述核酸分子的大小至少约200kb、至少约500kb、至少约1Mb、至少约2

Mb、或至少约5Mb，尤其是大小在约100kb到约5Mb之间、在约200kb到约5Mb之间、在约500kb到约5Mb之间、在约1Mb到约2Mb之间、或在约2Mb到约5Mb之间。在某些实施方案中，所述核酸分子为基因组DNA，而在其它实施方案中，所述核酸分子为cDNA或RNA种类(例如tRNA、mRNA、miRNA)。

在本发明的实施方案中，可能包含或不包含目标核酸序列的核酸分子可选自动物、植物或微生物，在特定的实施方案中，所述核酸分子来自灵长动物，优选为人。在某些实施方案中，如果只有少量核酸分子样品可供利用，在实践本发明的方法之前扩增所述核酸(例如通过全基因组扩增)。例如，为法医目的(例如，在法医学中等等)进行本发明的实施方案，预先扩增可能是必须的。

预期在优选的实施方案中，所述核酸分子组为一组基因组DNA分子。杂交探针及随后的扩增子可包含一种或多种序列，其靶向：来自多个遗传基因座的多种外显子、内含子或调控序列；至少一个单独遗传基因座的全序列，所述基因座大小至少100kb，优选至少1Mb，或至少上述特定大小之一；已知包含SNPs的位点；或限定阵列的序列，尤其是设计为捕获至少一条完整染色体的全序列的嵌合阵列。

预期目标核酸序列可以纯化或非纯化形式从包括任何来源核酸的一个或多个样品中富集。所述来源不需包含有机体基因组核酸分子的全部补充物。所述样品，优选地来自生物来源，包括但不限于，来自个体病人、组织样品、或细胞培养物的集合的分离物。所述目标区域可为几百万碱基的一个或多个连续区段，或几个较小的相邻或不相邻区域，例如来自一条或多条染色体的全部外显子，或已知包含SNPs的位点。例如，所述杂交探针以及随后源自探针的扩增子可支持嵌合阵列，其设计为捕获一条或多条完整染色体、一条或多条染色体的部分、所有外显子、来自一条或多条完整染色体的所有外显子、选择的外显子、一个或多个基因的内含子和外显子、基因调控区域等等。

替代性地，为提高富集所需非独特或难以捕获的目标的可能性，所述探针可针对与实际目标序列相关(例如，在其相同片段上，但与其区分开)的序列，在此情况下可捕获并富集既包含所需目标又包含相关序列的基因组片段。所述相关序列可与所述目标序列相邻或间隔，但是本领域技术人员将了解，所述两部分相互越接近，基因组片段同时包含两部分的可能性越大。为降低脱靶分子交叉杂交的有限影响，由此增强所述富集的完整性，使用不同但相关的针对目标区域的捕获探针组以及源自探针的扩增子进行随后几轮捕获。相关的探针为对应基因组中相互接近区域的探针，其可与相同的基因组DNA片段杂交。

在本发明的某些实施方案中，所述方法包含在变性和与溶液中的探针扩增子杂交之前将接头或连接分子连接到核酸分子一端或两端的步骤。

在本发明的某些实施方案中，所述方法进一步包含使用至少一种引物扩增所述接头修饰的核酸分子，所述引物包含与所述接头分子序列特异性杂交的序列。

在本发明的某些实施方案中，在样品变性和与溶液中的源自探针的扩增子杂交之前，在片段化核酸分子一端或两端提供双链连接物。在此类实施方案中，目标核酸分子在洗脱后扩增以产生比初始样品进一步降低复杂度的扩增产物集合。所述目标核酸分子可使用，例如非特异性连接介导PCR(LM-PCR)通过多轮扩增进行扩增，如果需要，产物可通过针对源自扩增子的探针的一轮或多轮选择进一步富集。所述连接物或接头例如可根据所述复杂度降低步骤之后的下游分析应用的需要以任意大小和任意核酸序列提供。所述连接物可在约12到约100个碱基对范围内，包括约18到100个碱基对的范围，优选地约20到24个碱基对的范围。在本发明上下文中的接头分子优选地定义为平端双链寡核苷酸。

为了将接头分子连接到双链目标分子上，优选地所述目标分子自身为平端。为达到此目标，所述双链目标分子例如在dNTPs存在下使用DNA聚合酶，例如T4-DNA聚合酶或Klenow聚合酶进行填充反应，从而产生平端目标分子。另外，在连接所述接头之前使用T4多核苷酸羟激酶和本领域技术人员已知的方法(例如参见Molecular Cloning：A Laboratory Manual，Eds.Sambrook等人，Cold Spring Harbour Press；其全部内容通过引用结合到本文中)使片段末端磷酸化以在所述片段5’端加入磷酸基团。可根据本领域已知的任何方法，例如通过T4-DNA连接酶反应进行随后的所述接头(例如约3-20碱基对的短双链平端DNA寡核苷酸)与修饰的磷酸化目标DNA的连接。

所述接头与片段化目标核酸分子的连接可在下述步骤之前或之后进行：将包含片段化变性基因组核酸分子的样品在杂交条件下与溶液中的多种寡核苷酸探针扩增子接触以捕获目标核酸分子。当在杂交之后进行连接时，从所述扩增子以单链形式释放的所富集核酸首先重新复性，然后根据本领域已知的标准方法进行引物延伸反应和填充反应。

接头分子的连接允许所捕获分子的随后扩增步骤。无论在所述捕获步骤之前或之后进行连接，有多种替代性的实施方案。在一种实施方案中，连接一种类型的接头分子(例如接头分子A)，其导致在片段两端具有相同末端序列的一组片段。因此，在可能的随后扩增步骤中仅使用一种引物就足够。在一种替代性的实施方案中，使用两种类型的接头分子A和B。这导致由3种不同类型组成的一组富集分子：(i)在一端具有一种接头(A)并在另一端具有另一种接头(B)的片段，(ii)在两端具有接头A的片段，以及(iii)在两端具有接头B的片段。如果扩增和测序例如使用454Life SciencesCorporation GS20和GSFLX仪器进行，产生具有接头的富集分子非常有利(例如参见GS20Library Prep Manual，Dec 2006，WO 2004/070007；其全部内容通过引用结合到本文中)。

本发明致力于提供一种方法，其用于检测相对于参考基因组样品的测试基因组样品编码区变异，特别是相对包含片段化变性基因组核酸分子的参考基因组，所述方法包含在试验和参考基因组的上述步骤，进一步比较所述序列与数据库中的序列，特别是与所述参考基因组样品的多态性数据库中的序列比较，以从试验基因组样品中鉴别出变体。因此本发明可用于搜索遗传变体与突变，例如可导致人类疾病的单核苷酸多态性(SNP)、或SNPs组、基因组插入和/或缺失、易位等等。预期使用本文所述的基于溶液的杂交技术的捕获和富集比基因组富集领域现有的其它方法更加灵活。

在本发明的某些实施方案中，所洗脱的目标核酸序列可进行测序，与再测序或SNP判读阵列杂交，且可进一步分析所述序列或基因型。本发明的实施方案提供的基于溶液的富集允许本领域已知的靶向的基于阵列的、鸟枪、毛细管或其它测序方法。通常，随机生成片段的鸟枪测序策略经济并易于结合到规划中。本发明通过只提交来自一个或多个目标基因组区域的片段进行测序，加强了所述鸟枪方法的效率。本发明提供了将所述测序策略聚焦到特定基因组区域，例如用于医学测序目的的个体染色体或外显子的能力。因此实现了一种更集中的疾病发现方法。

在本发明的实施方案中，本文所述的基于溶液的富集方法产生的洗脱目标核酸序列随后被测序。可使用多种不同方法进行测序，例如通过使用通过合成技术测序。根据现有技术，通过合成测序定义为在测序反应中加入特定的脱氧核苷三磷酸时监测副产物生成的任何测序方法(Hyman，1988，Anal.Biochem.174：423-436；Rhonaghi等人，1998，Science 281：363-365)。通过合成反应测序的一个最重要的实施方案为焦磷酸盐测序方法。在这种情况下，通过导致化学冷光信号生成的酶级联监测加入核苷酸时焦磷酸盐的生成。通过合成测序的一个实施例，454基因组测序系统(Roche AppliedScience cat.No.04 760 085 001)基于所述焦磷酸盐测序技术。如产品文献所述，对于在454 GS20或454FLX仪器上的测序，平均基因组DNA片段大小分别在200或600bp范围内。

通过合成反应测序可替代性地基于一种终止子染色类型的测序反应。在这种情况下，加入的染色脱氧核苷三磷酸(ddNTPs)组成块包含一种可检测的标记，优选地为一种防止新生DNA链进一步延伸的荧光标记。然后当所述ddNTP组成块加入至模板/引物延伸杂交体时所述标记被去除并检测，例如通过使用包含3’-5’外切酶或校读活性的DNA聚合酶。

在Genome Sequencer workflow(Roche Applied Science Catalog No.04896548001)情况下，在第一步，使用乳液PCR进行(克隆)扩增。因此，以乳液PCR方法进行扩增步骤也在本发明的范围内。然后带有所述克隆扩增的目标核酸的珠子根据制造商说明书任意转入picotiter板，并进行焦磷酸盐测序反应，以用于确定序列。

在某些实施方案中，本发明包含一种试剂盒，其包含实施本发明的方法的试剂和材料。所述试剂盒可包括一种或多种微阵列基质，其上固定对来自一个或多个目标遗传基因座的一个或多个目标核酸序列特异的(例如，对外显子、内含子、SNP序列等等特异的)多种杂交探针，确定设计为捕获至少一条完整染色体全序列的嵌合阵列的多种探针，扩增引物，用于进行聚合酶链反应方法的试剂(例如盐溶液、聚合酶、dNTPs、扩增缓冲液等等)，用于进行连接反应的试剂(例如连接接头、T4多聚核苷酸激酶、连接酶、缓冲液等等)，包含结合伴侣部分的基质，管子、杂交液、洗涤液、洗脱液、磁体、以及管的支架。

在某些实施方案中，本发明提供了一种系统(例如试剂盒)，其用于实施本文公开的本发明的方法或部分方法。因此，本发明的试剂盒包含一种(第一种)双链接头分子，和溶液中的源自探针的多种扩增子，其中所述源自探针的扩增子从多个探针扩增，所述多个探针限定来自多个遗传基因座的多个外显子、内含子和/或调控序列的；和/或限定至少一个单独遗传基因座的金序列的溶液中的源自探针的多个扩增子，所述基因座大小至少100kb，优选地至少1Mb，或本文所述特定大小；和/或限定已知包含SNPs的位点的多个源自探针的扩增子；和/或多个源自探针的扩增子，其限定一个阵列，尤其是特别设计为捕获至少一条完整染色体全序列的嵌合阵列。在某些实施方案中，试剂盒进一步包含两种不同的双链接头分子。

在某些实施方案中，试剂盒包含一种或多种捕获分子或化合物。例如，至少一种寡核苷酸探针，其包含允许固定于固体载体的修饰。例如，探针包含生物素部分，其用于固定于链霉亲和素包被的顺磁性颗粒。另一个实例为半抗原，例如地高辛，其使用半抗原识别抗体(例如抗地高辛)与固定于固体载体的探针结合。

在某些实施方案中，试剂盒进一步包含至少一种或多种化合物，其选自下列：DNA聚合酶、T4多核苷酸激酶、T4DNA连接酶、一种或多种阵列杂交液、和/或一种或多种阵列洗涤液。在优选的实施方案中，本发明的试剂盒包括3种洗涤液，所述洗涤液包含SSC、DTT、以及可选的SDS。例如，本发明的试剂盒包含洗涤缓冲液I(0.2％SSC，0.2％(v/v)SDS，0.1mMDTT)、洗涤缓冲液II(0.2％SSC，0.1mM DTT)、和/或洗涤缓冲液III(0.05％SSC，0.1mM DTT)。在某些实施方案中，本发明的系统进一步包含洗脱液，例如水或者包含TRIS缓冲液和/或EDTA的溶液。

下列实施例作为本发明的特定实施方案的进一步非限制性说明提供。

实验提供下列实施例以证实并进一步说明本发明的某些优选实施方案和方面，而不应解释为限制其范围。

当提供数值的范围时，应了解除非上下文明确另有所指，至下限单位的1/10(to the tenth of the unit of the lower limit)，在所述范围上下限之间的每个中间数值也特定地公开。在任何所述数值或所述范围内的中间数值与所述范围内任何其它所述或其中的数值之间的每个较小范围也包括在本发明中。这些较小范围的上下限可独立地包括或排除在所述范围内，且任一、没有、或两个限值包括在所述较小范围内的每个范围也包括在本发明中，以在所述范围内任何特别排除的限值为准。当所述范围包括一个或两个所述限值时，排除任一或两个所述包括限值的范围也包括在本发明中。

实施例1-在大基因组区域中发现新多态性和突变

这个一般实施例描述了如何进行允许在大基因组区域中快速有效发现新多态性和突变的选择。在一轮或多轮杂交选择中使用具有固定探针的微阵列和全基因组DNA目标，所选择的序列使用LM-PCR扩增(参见图1和2)。

a)基因组DNA和双链连接物的制备

使用超声波处理使DNA片段化为平均大小～500碱基对。建立修饰超声波处理的DNA片段末端的反应：

DNA片段 41μl

T4DNA聚合酶 20μl

T4DNA聚合酶反应混合物 20μl

水 10μl

所述反应物在11℃孵育30分钟。然后所述反应经过酚/氯仿抽提过程，DNA通过乙醇沉淀回收。沉淀物溶解在10μl水中(以得到终浓度2μg/μl)。

通过混合下列寡核苷酸，两种互补寡核苷酸复性产生双链连接物：

寡核苷酸1(1μg/μl) 22.5μl

(5′-CTCGAGAATTCTGGATCCTC-3′)(SEQ ID NO：1)

寡核苷酸2(1μg/μl) 22.5μl

(5′-GAGGATCCAGAATTCTCGAGTT-3′)(SEQ ID NO：2)

10x复性缓冲液 5μl

水补足至50μl

所述反应在65℃加热10分钟；然后在15-25℃冷却2小时。2种互补寡核苷酸1和2的长度在12到24核苷酸之间，且序列根据用户所需的功能性选择。然后所述双链连接物通过柱色谱使用Sephadex G-50离心柱纯化。然后纯化的连接物溶液通过冻干法浓缩至浓度为2μg/μl。

b)连接物与基因组DNA片段的连接

建立下列将连接物连接到基因组DNA片段的反应。所述反应在14℃孵育过夜。

来自步骤a)的复性连接物(20μg) 10μl

来自步骤a)的基因组DNA(10μl) 5μl

T4DNA连接酶 10U

10x连接缓冲液 2μl

水补足至20μl

用水将反应体积调节到500μl，连接的基因组DNA使用QIAquick PCR纯化试剂盒纯化。纯化的DNA以浓度1μg/μl储存。

c)杂交体的初步选择与捕获

为制备与微阵列杂交的基因组DNA样品，连接物修饰的基因组DNA(10μg)重悬于3.5μl无核酸酶的水中，并与31.5μl NimbleGen杂交缓冲液(Roche NimbleGen，Inc.，Madison，WI)、9μl杂交添加剂(RocheNimbleGen，Inc)混合至终体积45μl。所述样品在95℃热变性5分钟并转移至42℃热温区。

为了在微阵列上捕获目标基因组DNA，样品与如美国专利6,375,903(Roche NimbleGen，Inc)所述制造的NimbleGen CGH陈列杂交。使用如Singh-Gasson等人(1999，Nat.Biotech.17：974-978，其全部内容通过引用结合到本文中)所述的数字微镜，通过光导寡核苷酸合成，利用无掩膜阵列合成器在所述微阵列上进行捕获寡核苷酸的无掩膜生产。使用无掩膜光刻生产的寡核苷酸阵列的基因表达分析如Nuwaysir等人(2002，Genome Res.12：1749-1755，其全部内容通过引用结合到本文中)所述。杂交在MAUI杂交系统(BioMicro Systems，Inc.，Salt Lake City，UT)上根据生产商说明使用混合模式B在42℃进行16小时。杂交之后，阵列用洗涤缓冲液I(0.2x SSC，0.2％(v/v)SDS，0.1mM DTT，NimbleGen Systems)洗涤两次，共2.5分钟。然后阵列用洗涤缓冲液II(0.2x SSC，0.1mM DTT，NimbleGen Systems)洗涤1分钟，之后用洗涤缓冲液III(0.05x SSC，0.1mM DTT，Roche NimbleGeh，Inc.)洗涤15秒。

为了洗脱与所述微阵列杂交的基因组DNA，所述阵列在95℃水中5分钟孵育两次。洗脱的DNA使用真空离心干燥。

d)初步选择DNA的扩增

初步选择基因组DNA如下所述扩增。在200μl PCR管中建立10个单独的重复扩增反应。仅需要一种寡核苷酸引物，因为每种片段每个末端连接相同的连接物。

反应试剂：

模板：初步选择材料 5μl

寡核苷酸1(200ng/μl) 1μl

(5′-CTCGAGAATTCTGGATCCTC-3′)(SEQ ID NO：1)

dNTPs(每种25mM) 0.4μl

10x PfuUltra HF DNA聚合酶反应缓冲液 5μl

PfuUltra HF DNA聚合酶 2.5U

水补足50μl

所述反应根据下列程序进行扩增：

循环数变性复性聚合

1 95℃2分钟

2-31 95℃30秒 55℃30秒 72℃1分钟

反应产物通过琼脂糖凝胶电泳分析。扩增产物使用QIAquick PCR纯化试剂盒纯化。汇集洗脱的样品，扩增的初步选择DNA浓度通过分光光度法确定。集合中相当于1μg的DNA体积在超速真空浓缩器中浓缩至5μl。留出1μl(至少200ng)初步选择材料用于与二次选择产物比较。如果必要，通过另外几轮阵列杂交和洗脱样品扩增进行随后几轮富集。

e)从微阵列释放及在载体上固定的目标寡核苷酸探针的制备

探针在微阵列上合成，然后使用碱不稳定的Fmoc(9-芴甲氧羰基)基团释放。所述探针用生物素标记，然后使用已知方法共价或非共价连接固定于链霉亲和素固体载体表面。

可选地，在固定至所述固体载体之前，合成的探针使用LM-PCR、Phi29、或其它扩增策略扩增，以通过在其上插入促进扩增的序列增加合成探针的数量。此时所述材料可通过使用液相杂交和SA介导的杂交产物捕获用于直接测序、基于阵列的再测序、基因型分型、或任何其它靶向所述基因组富集区域的遗传分析。

实施例2-靶向阵列的再测序

根据标准Roche NimbleGen，Inc.微阵列制作规程合成一系列高密度寡核苷酸微阵列，其捕获对应选自在人类基因组中分布的660个基因(序列构件HG17)(总序列约5Mb)的至少500碱基对的6,726单独基因外显子区域的短片段。所述阵列上的各个多于60碱基的重叠微阵列探针贯穿每个目标基因组区域，对于所述基因组正链每10个碱基定位一个探针。

通过设计从所述捕获微阵列中排除高度重复基因组区域，以降低所述微阵列与基因组核酸分子非特异性结合的可能性。鉴别并排除高度重复基因组区域的策略与WindowMasker程序(Morgulis等人)的策略相似。通过比较所述探针中存在的所有15-联体的频率与人类基因组中所有可能的15-联体探针的预先计算的频率直方图计算各探针的平均15-联体频率。当平均15-联体频率升高时，探针代表基因组重复区域的可能性也升高。只有平均15-联体频率低于100的探针包括在所述捕获微阵列中。

为了测试所述捕获系统的可重复性，首先使用图2所示的方法使用外显子设计从人类细胞系(Burkitt’s Lymphoma，NA04671(Coriell))中捕获片段化基因组DNA。简单地说，基因组DNA(20μg)进行全基因组扩增(WGA；使用Qiagen service(Hilden，Germany))。20μg全基因组扩增(WGA)产物用DNA聚合酶I的Klenow片段(NEB，Beverly MA)处理以产生平头末端。所述平头末端片段用超声波处理以产生约500碱基对的片段，然后用多核苷酸激酶(NEB)进行5’磷酸化。寡核苷酸连接物5′-Pi-GAGGATCCAGAATTCTCGAGTT-3′(SEQ ID NO：2)和5′-CTCGAGAATTCTGGATCCTC-3′(SEQ ID NO：1)复性并连接到所述5’磷酸化的片段末端。

所述以连接物为末端的片段变性以产生单链产物，其在杂交条件下在1x杂交缓冲液(Roche NimbleGen，Inc.)存在下使用MAUI杂交工作站(RocheNimbleGen，Inc.)与所述捕获微阵列剧烈混合在42℃接触约65小时。未杂交的单链分子在严格的洗涤条件下使用严格的洗涤缓冲液(Roche NimbleGen，Inc.)洗涤3x 5分钟，从所述微阵列洗去，并使用洗涤缓冲液I、II、和III(RocheNimbleGen，Inc.)漂洗。在所述微阵列上捕获的片段立即在95℃用2x250μl水洗脱，干燥并重悬，用于使用与此前连接的连接物寡核苷酸互补的引物的LM-PCR扩增。

为定量所述外显子区域的富集，选择8个随机区域进行定量PCR(qPCR)。所述区域使用下列引物扩增：

区域1F：5′-CTACCACGGCCCTTTCATAAAG-3′(SEQ ID NO：3)

R：5′-AGGGAGCATTCCAGGAGAGAA-3′(SEQ ID NO：4)

区域2F：5′-GGCCAGGGCTGTGTACAGTT-3′(SEQ ID NO：5)

R：5′-CCGTATAGAAGAGAAGACTCAATGGA-3′(SEQ ID NO：6)

区域3F：5′-TGCCCCACGGTAACAGATG-3′(SEQ ID NO：7)

R：5′-CCACGCTGGTGATGAAGATG-3′(SEQ ID NO：8)

区域4F：5′-TGCAGGGCCTGGGTTCT-3′(SEQ ID NO：9)

R：5′-GCGGAGGGAGAGCTCCTT-3′(SEQ ID NO：10)

区域5F：5′-GTCTCTTTCTCTCTCTTGTCCAGTTTT-3′(SEQ ID NO：11)

R：5′-CACTGTCTTCTCCCGGACATG-3′(SEQ ID NO：12)

区域6F：5′-AGCCAGAAGATGGAGGAAGCT-3′(SEQ ID NO：13)

R：5′-TTAAAGCGCTTGGCTTGGA-3′(SEQ ID NO：14)

区域7F：5′-TCTTTTGAGAAGGTATAGGTGTGGAA-3′(SEQ ID NO：15)

R：5′-CAGGCCCAGGCCACACT-3′(SEQ ID NO：16)

区域8F：5′-CGAGGCCTGCACAGTATGC-3′(SEQ ID NO：17)

R：5′-GCGGGCTCAGCTTCTTAGTG-3′(SEQ ID NO：18)

一轮微阵列捕获之后，所富集的扩增样品和对照基因组DNA，所述对照基因组DNA被片段化、连接连接物、并LM-PCR扩增，但未与捕获阵列杂交，根据生产商规程使用ABI 7300实时PCR系统(Applied Biosystems，Foster City，CA)测量SYBR绿色荧光进行比较。对于3个重复外显子捕获产物达到平均378倍富集。理论最大富集水平为600倍(基因组中3,000Mb，总序列5Mb)。

从所述捕获微阵列洗脱的样品连接到可用454测序兼容的连接物，在珠子上使用乳液PCR扩增，并使用454FLX测序仪器(454，Branford CT)测序。因为每个测序片段还包含微阵列洗脱后立即使用的20bp LM-PCR连接物，大部分454测序读数包含所述连接物序列。所述3个重复在454FLX仪器上的DNA测序产生63Mb、115Mb和93Mb的总序列。在硅片上去除所述连接物序列后，使用BLAST分析(Altschul，等人，1990，J.Mol.Biol.215：403-410；其全部内容通过引用结合到本文中)使用截止分数e＝10^-48比较每个测序读数与全部合适版本的人类基因组，调整以使唯一结果的数量最大化。舍弃未能唯一定位到基因组的读数(在10到20％之间)。其它视为所捕获序列。根据初始BLAST比较，唯一定位到所述目标区域内的区域的所捕获序列视为测序结果。然后这些用于计算找到目标区域的读数的百分比，以及对于全部目标区域的倍数测序范围。使用SignalMap软件(Roche NimbleGen，Inc.)展现数据。

BLAST分析显示91％、89％和91％的读数分别唯一定位到基因组；75％、65％和77％来自目标区域，96％、93％和95％的目标序列包含至少一个序列读数(表2，上3行)代表约400倍的平均富集。每个样品的中点每碱基范围分别为5、7和7倍。

表1：

DNA样品	qPCR富集倍数	FLX-产量(Mb)	唯一定位到基因组的读数百分比	定位到选择目标的全部读数百分比	对于目标区域的中点倍数范围
DNA样品	qPCR富集倍数	FLX-产量(Mb)	唯一定位到基因组的读数百分比	定位到选择目标的全部读数百分比	对于目标区域的中点倍数范围	NA04671	318	63.1	91％	75％	5
NA04671	399	115	89％	65％	7	NA04671	318	63.1	91％	75％	5
NA04671	399	115	89％	65％	7	NA04671	418	93.0	91％	76％	7
HapMap CEPH	217	77.6	88％	74％	7	NA04671	418	93.0	91％	76％	7
HapMap CEPH	217	77.6	88％	74％	7	HapMap JPT	153	96.7	84％	66％	8
HapMap CHB	240	52.8	83％	59％	4	HapMap JPT	153	96.7	84％	66％	8
HapMap CHB	240	52.8	83％	59％	4	HapMap YRI	363	81.3	53％	38％	4

实施例3-基因组富集捕获的序列变异与再测序

为了确定在人类基因组中辨别变异的能力，来自人类HapMap集合中4种细胞类型的基因组DNA样品(CEPH/NA11839、CHB/NA18573、JPT/NA18942、YRI/NA18861，Coriell)在前述实例的外显予阵列上捕获、洗脱并测序，如本文所公开，除了所述基因组DNA在捕获之前没有进行全基因组扩增。捕获结果(如表1，4-7行所示)与上述结果相似，除了序列范围比前述结果更一致，提示在WGA过程中引入了偏差。

集合了来自所述4种HapMap样品的序列，鉴别了突变并与每个样品的HapMap SNP数据比较(表1和2)。在所述HapMap项目中做基因型分析的目标区域中的位点总数对所述4种基因组中的每种为8103(CEU)、8134(CHB)、8134(JPT)、8071(YRI)。其中，大多数(～6000)位点与参考基因组等位基因同型。已知的变体等位基因(同型或异型)的数量列在表2的第2行。分析了这些位点的范围并确定所述等位基因是否在所捕获DNA中发现。

表2：

基于总体序列范围，预期所述HapMap样品中94％到79％的已知变体位点在至少一个序列读数中鉴别出来。当比较包含0、1或＞1个已知变异的目标范围(分别为7.95、8.48和8.82倍数范围)时，没有对于不在所述捕获阵列上的等位基因的明显偏差。

分析大的相邻基因组区域相当令人关注。使用NA04671DNA测试靶向人BRCA1基因周围的200kb-5Mb单个长片段的捕获微阵列系列。对于用于捕获BRCA1基因的基因座的阵列系列，从人类基因组序列(构件HG18)中选择了BRCA1基因的基因座周围5种增大的(200kb、500kb、1Mb、2Mb、和5Mb)基因组区域。基因座捕获阵列的特性如表3所示。平均探针嵌合密度为一种探针起点与下一种探针起点之间的平均距离。

表3：

BRCA1区域大小	平均选择探针嵌合密度(碱基对)	染色体17对应物(HG18)
BRCA1区域大小	平均选择探针嵌合密度(碱基对)	染色体17对应物(HG18)	200kb	1bp	38,390,417-38,590,417
500kb	1bp	38,240,417-38,740,417	200kb	1bp	38,390,417-38,590,417

BRCA1区域大小	平均选择探针嵌合密度(碱基对)	染色体17对应物(HG18)
BRCA1区域大小	平均选择探针嵌合密度(碱基对)	染色体17对应物(HG18)	1Mb	2bp	37,990,417-38,990,417
2Mb	3bp	37,490,417-39,490,417	1Mb	2bp	37,990,417-38,990,417
2Mb	3bp	37,490,417-39,490,417	5Mb	7bp	35,990,417-40,990,417

表4显示所有捕获目标表现良好，在单次测序机器运行中从5Mb捕获区域产生高达140Mb的原始序列，产生～18倍范围。图4b提供了对基因座特异性捕获与测序的序列读图详情。直线1描述了在人类染色体17上2000个碱基的染色体位置，直线2显示了所述探针的位置，每10个碱基对间隔并沿Y轴错开，3处的图表显示了每碱基倍数序列范围在0到100百分比之间，项目4描述了454测序读数的最高BLAST分数的读图。图5显示了累积每碱基序列范围(图5a)和BRCA12Mb区域的序列范围直方图(图4c)。定位到目标序列的读数百分比随目标区域的大小升高。

表4：

嵌合大小(kb)	平均选择探针嵌合密度	FLX-产量(Mb)	唯一定位到基因组的读数百分比	定位到选择目标的全部读数百分比	区域唯一部分的中点倍数范围
嵌合大小(kb)	平均选择探针嵌合密度	FLX-产量(Mb)	唯一定位到基因组的读数百分比	定位到选择目标的全部读数百分比	区域唯一部分的中点倍数范围	200	1bp	102	55％	14％	79
500	1bp	85.0	61％	36％	93	200	1bp	102	55％	14％	79
500	1bp	85.0	61％	36％	93	1,000	2bp	96.7	56％	35％	38
2000	3bp	112.6	81％	60％	37	1,000	2bp	96.7	56％	35％	38
2000	3bp	112.6	81％	60％	37	5,000	7bp	140	81％	64％	18

这些数据说明用于富集目标序列的基于微阵列的直接选择方法的能力。本发明人使用一种可编程的高密度阵列平台，其具有能够容易地捕获至少5Mb全序列的385,000个探针。除所述阵列的特异性之外，下游DNA测序步骤的高产量也相应优于使用非捕获DNA来源的常规平均表现。这归因于所述捕获-富集过程，其提供了从重复和可混淆的其它杂质中纯化唯一序列的方法，例如所述454测序过程的首次乳液PCR步骤。

实施例4-液相捕获与再测序

实施例2和3的样品使用如上合成的捕获探针测试，然后从固体载体释放，由此富集有利地在液相中进行。修改标准微阵列设计(例如BRCA1200K嵌合阵列和前面实施例的人类外显子捕获阵列)，其通过加入包含MlyI识别位点的末端15联体引物序列，其促进酶学方法的引物去除，同时保持捕获寡核苷酸序列完整。

通过在初始T₅连接物之后并在3’引物序列之前加入化学磷酸化试剂(GlenResearch)合成阵列。进行了3个单独的偶联以使随后捕获探针从所述阵列的切除最大化。

所述阵列固定的捕获探针用30％氢氧化铵(NH₄OH，Aldrich)处理。合成之后，阵列放置在潮湿的小室中，在环境室温下向合成区域施用约700μl NH₄OH 20分钟以从所述阵列切除探针。由于反应区域与周围玻璃之间的疏水性差异，NH₄OH大部分保留在合成区域范围内。所述溶液使用吸液管移除并保留。向所述表面施用另外700μl新鲜NH₄OH。所述过程共重复3次(共60分钟和2.1ml)。然后切除的寡核苷酸捕获探针在真空下在本领域已知的标准条件下离心干燥。

切除的捕获探针在标准条件下扩增。干燥的探针重悬于30μl去离子水(diH₂O)并等分为下述30个单独PCR运行：

反应试剂：

10x缓冲液 2.5μl

25mM dNTPs 0.125μl

20μM引物1a 1.25μl

20μM引物1b(生物素标记) 1.25μl

HotStart Taq 0.25μl

MgCl 1μl

样品 1μl

水1 7.625μl

总体积 25μl

引物1a：

5’-TGCCGGAGTCAGCGT-3’(SEQ ID NO：19)

引物1b：

5’-生物素-AGTCAGAGTCGCCAC-3’(SEQ ID NO：20)

所述反应根据下述程序扩增：

循环数变性复性聚合

1 95℃15分钟

2-31 95℃20秒 48℃45秒 72℃20秒

使用QiaQuick核苷酸去除试剂盒(Qiagen)从反应成分中纯化PCR产物，干燥，并重悬于20μl diH₂O。通过Nanodrop测定纯化后的通常产量约为400-700ng/rxn。扩增子可在3％琼脂糖凝胶上检查。根据捕获探针的数量要求，如上所述进行另外几轮PCR产生每反应约200ng样品。扩增子如上所述纯化并鉴定。

所述捕获探针的最后一轮扩增使用非对称PCR进行。方法如上所述，除了生物素标记的引物浓度保持不变，非生物素标记的引物浓度降低到0.001x原浓度。所述方法延长到35循环以允许非指数扩增。干燥扩增子，重悬于20μl DIH₂O，并鉴定。

基因组DNA样品根据标准方法制备；20μg WGA带有连接物的样品与100μgCot-1DNA干燥，重悬于7.5μl杂交缓冲液和3μl甲酰胺。干燥2μg等分样品的捕获探针并重悬于4.5μldiH₂O。所述样品溶液与所述捕获探针溶液混合并在95℃孵育10分钟。然后所述混合物转移入PCR管并放入热循环仪在42℃下杂交3天，以形成双链体。

杂交之后，所述双链体与顺磁性珠子(Dynal)结合。25μl珠子在2x BW缓冲液(10mM TrisHCl，1mM EDTA，2M NaCl)中洗涤3次，所述珠子重悬于所述杂交混合物。在42℃下不时轻轻混合，使结合超过45分钟。

结合的珠子使用磁体分离并使用40μl洗涤缓冲液I短暂洗涤，在47℃下，在严格的洗涤缓冲液中孵育2x 5分钟，在环境室温下使用洗涤缓冲液I洗涤约2分钟，使用洗涤缓冲液II洗涤约1分钟，以及使用洗涤缓冲液III洗涤约30秒。

为洗脱所捕获的片段，洗涤缓冲液III中的含有珠子的溶液转移至1.5mlEppendorf管。使用磁体分离所述珠子。去除洗涤缓冲液并加入～100μl 95℃diH₂O。所述溶液在95℃下孵育5分钟，之后所述珠子与磁体结合并用95℃diH₂O轻轻洗涤。然后去除所述洗涤液体并保留，用新鲜95℃diH₂O替换。孵育和洗涤共重复3次(15分钟，约300μl洗脱物)。最后洗涤之后，包含洗脱物的Eppendorf管置于磁架上约5分钟，以分离洗脱时吸入的任何珠子。所述溶液在新Eppendorf管中高热干燥。洗脱的捕获片段在标准LM-PCR之前重悬于263μl diH₂O。

LM-PCR之后，所捕获的片段如上所述使用454FLX平台进行标准超深测序。替代性地，通过在预富集样品上连接454测序接头序列，可避免LM-PCR。在此情况下，洗脱的富集序列可直接加入乳液PCR用于超深测序。

数据显示83.8％的读数定位到目标区域，这与使用基于阵列的捕获方法得到的结果类似且不能区别。

实施例5-使用捕获探针原位扩增的液相捕获

通过加入包含MlyI(GAGTC(5/5))识别位点的末端15联体引物序列修改标准微阵列设计。在所述引物序列中引入MlyI位点促进引物的酶切除同时保持捕获寡核苷酸完整。阵列通过本领域技术人员已知的标准无掩膜阵列合成方法合成。

使用密封杂交室(Grace Bio-Labs，Inc.，Bend，OR)与Slide Griddle接头(Bio-Rad Laboratories，Hercules，CA)在热循环仪中在阵列上使用原位聚合酶链反应(PCR)扩增捕获探针。PCR反应成分(25ul 10X聚合酶缓冲液、1.25ul25mM dNTPs、20uM引物1a和1b各12.5ul、2.5ul Hotstart Taq聚合酶、10ul25mM MgCl₂和176.5ul diH₂O，总反应体积250ul)加入到所述微阵列杂交室，PCR使用下列条件进行；100℃30秒，97℃15分钟，30个循环100℃30秒、47.5℃45秒、78℃30秒，然后冷却所述反应到1℃30秒，3.5℃保温。引物序列为引物1a 5’-TGCCGGAGTCAGCGT-3’(SEQ ID NO：19)和引物1b 5’-生物素-AGTCAGAGTCGCCAC-3’(SEQ ID NO：20)，反映引入到所述探针序列的引物结合位点。

聚合酶链反应捕获探针扩增子使用

核苷酸去除试剂盒(Qiagen，Inc.，Valencia，CA)从所述反应成分中纯化，干燥并重悬于20μl diH₂O。扩增产量通过

分光光度计(Thermo Fisher Scientific)测量大致共5μg。如果需要更多扩增子数量，可根据上述方法进行另外几轮扩增(例如使用上述方法和每次反应100ng样品)。

所述捕获探针的最后一轮扩增使用非对称PCR进行；2.5ul 10X聚合酶缓冲液、0.125ul 25mM dNTPs、0.0125ul 20uM引物1a、1.25ul 20uM引物1b、0.25ulHotstart Taq、1ul 25mM MgCl₂和18.86ul diH₂O(总反应体积25ul)。扩增子使用Qiagen MinElute^TM柱从反应成分中纯化并如上所述定量。

根据标准方法制备基因组DNA样品。20μg连接连接物的样品与100μg Cot-1DNA干燥并重悬于7.5μl杂交缓冲液(Roche NimbleGen，Madison，WI)和3μl甲酰胺。1μg等分样品的捕获探针干燥并重悬于4.5ul diH₂O。所述样品溶液在95℃孵育10分钟，以使DNA变性，并加入到所述捕获探针溶液中。所述混合物转移至PCR管并在42℃下热循环仪中放置3天以形成双链体。

杂交之后，所述双链体与链霉亲和素包被的顺磁性珠子(

Invitrogen，Carlsbad，CA)结合。100μl珠子用2x BW缓冲液(10mM TrisHCl，1mM EDTA，2M NaCl)洗涤3次，并重悬于所述杂交双链体混合物。在42℃下不时轻柔混合以允许所述珠子与双链体结合超过45分钟。结合的珠子使用磁体分离并使用洗涤缓冲液I(0.2X SSC，0.2％(v/v)SDS，0.1mM DTT)在室温下短暂洗涤，然后使用200μl严格的洗涤缓冲液(0.1M MES pH 6.65，0.1M NaCl，0.1％Tween 20)洗涤2次(在47℃每次洗涤5分钟)，使用洗涤缓冲液I在室温下再洗涤2分钟，在室温下使用洗涤缓冲液II(0.2X SSC，0.1mM DTT)洗涤1分钟1次，最后使用洗涤缓冲液III(0.05X SSC，0.1mM DTT)在室温下洗涤30秒。

捕获的片段从所述珠子洗脱。洗涤缓冲液III中的洗涤珠子溶液转移至1.5mlEppendorf管，使用磁体分离所述珠子，去除洗涤缓冲液并用100μl 95℃diH₂O替换，所述珠子从磁体上释放。悬浮的珠子在95℃孵育5分钟，之后所述珠子被捕获并用95℃diH₂O轻轻洗涤以洗脱所捕获片段。去除洗脱物，再次洗涤所述珠子，共水洗3次；共10分钟，汇集的洗脱物终体积约300μl。最后洗涤之后，残留的磁珠通过再次磁性捕获从汇集的洗脱物中去除，所述洗脱物转移至新管.干燥所述溶液，所捕获并洗脱的片段重悬于263μl diH₂O用于随后的LM-PCR。使用连接子序列5’-CTCGAGAATTCTGGATCC-3’(SEQ ID NO：21)通过本领域技术人员已知的确定方法进行连接。

LM-PCR之后，所捕获的片段使用454FLX平台(454 Life Sciences，Branford，CT)进行超深测序。替代性地，通过在预富集样品上连接454测序接头序列可避免LM-PCR。在后者情况下，洗脱的富集序列可直接加入454FLX平台工作流程的乳液PCR。

图7说明了使用上述方法在溶液中捕获的片段的再测序实验。使用PCR对照引物序列的qPCR对照显示4个对照基因座的平均2600倍富集。

qPCR对照引物序列：

qPCR gSel-0210F GACCCTCTTACCTTGGCATTCTC(SEQ ID NO：22)

qPCR gSel-0210R GCTGGTACCCATTGGCAACT(SEQ ID NO：23)

qPCR gSel-0271F GGAGTGAGTGGTTTTTCTTCATTTTT(SEQ ID NO：24)

qPCR gSel-0271R GCGCCACAAAGAGACATTCA(SEQ ID NO：25)

qPCR gSel-0266F AAGGCCATACTTGGGTGAACTG(SEQ ID NO：26)

qPCR gSel-0266R GCTCTGATTGGTGGCTTCGT(SEQ ID NO：27)

qPCR gSel-0283F TGCTTGCAGGTGTCTCTCAGA(SEQ ID NO：28)

qPCR gSel-0283R CAGTGAGATATTTGGTACCATGGTGTA(SEQ ID NO：29)

实际上，对于几乎所有再测序的区域，预期的再测序与实际的再测序的一致性百分比约为100％。

本申请中提及的所有出版物和专利通过引用结合到本文中。本发明所述方法和组合物的多种修改和变型对本领域技术人员是显而易见的，并不背离本发明的范围和精神。虽然本发明已结合特定的优选实施方案描述，但应了解所要求的本发明不应不当地受限于所述特定的实施方案。实际上，对相关领域技术人员显而易见的用于实施本发明的对所述方法的多种修改明确包括在下列权利要求的范围内。

参考文献

Altschul，S.F.等人(1990)J.Mol.Biol.215，403-410

Hyman，E.D.(1988)，Anal.Biochem.174，423-436

Lovett等人(1991)PNAS USA，88，9628-9632

Morgulis，A.等人(2006)Bioinformatics，15，134-41

Nuwaysir，E.F.，等人，(2002)Genome Res.12，1749-1755

Rhonaghi等人(1998)，Science 281，363-365

Soares，等人(1994)PNAS，91，9228-9232

Singh-Gasson，S.，等人(1999)Nat.Biotechnol.17，974-978

Wetmur(1991)Critical Reviews in Biochemistry and Molecular Biology，26(34)：227-59

Wetmur等人(1966)J.Mol.Biol.，31，349-70

″Direct selection of cDNAs with large genomic DNA clones，″in MolecularCloning：A Laboratory Manual(eds.Sambrook，J.&Russell，D.W.)

Chapter 11 Protocol 4，pages 11.98-11.106(Cold Spring HarborLaboratory Press，Cold Spring Harbor，New York，USA，2001)

EP 0 552 290

US 2005/0282209

US 5,143,854

US 6,013,440

US 6,375,903

WO 2004/070007

CPCH1060599x1

序列表

<110>Roche Diagnostics GmbH/Hoffman-La Roche AG

<120>用于基于溶液的序列富集和基因组区域分析的方法和系统

<130>R65003PC

<150>EP07020660.2

<151>2007-10-23

<150>US 12/194,574

<151>2008-8-20

<160>29

<170>PatentIn version 3.5

<210>1

<211>20

<212>DNA

<213>人工序列

<220>

<223>合成寡核苷酸1

<400>1

ctcgagaatt ctggatcctc 20

<210>2

<211>22

<212>DNA

<213>人工序列

<220>

<223>合成寡核苷酸2

<400>2

gaggatccag aattctcgag tt 22

<210>3

<211>22

<212>DNA

<213>人工序列

<220>

<223>区域1正向引物

<400>3

ctaccacggc cctttcataa ag 22

<210>4

<211>21

<212>DNA

<213>人工序列

<220>

<223>区域1反向引物

<400>4

agggagcatt ccaggagaga a 21

<210>5

<211>20

<212>DNA

<213>人工序列

<220>

<223>区域2正向引物

<400>5

ggccagggct gtgtacagtt 20

<210>6

<211>26

<212>DNA

<213>人工序列

<220>

<223>区域2反向引物

<400>6

ccgtatagaa gagaagactc aatgga 26

<210>7

<211>19

<212>DNA

<213>人工序列

<220>

<223>区域3正向引物

<400>7

tgccccacgg taacagatg 19

<210>8

<211>20

<212>DNA

<213>人工序列

<220>

<223>区域3反向引物

<400>8

ccacgctggt gatgaagatg 20

<210>9

<211>17

<212>DNA

<213>人工序列

<220>

<223>区域4正向引物

<400>9

tgcagggcct gggttct 17

<210>10

<211>18

<212>DNA

<213>人工序列

<220>

<223>区域4反向引物

<400>10

gcggagggag agctcctt 18

<210>11

<211>27

<212>DNA

<213>人工序列

<220>

<223>区域5正向引物

<400>11

gtctctttct ctctcttgtc cagtttt 27

<210>12

<211>21

<212>DNA

<213>人工序列

<220>

<223>区域5反向引物

<400>12

cactgtcttc tcccggacat g 21

<210>13

<211>21

<212>DNA

<213>人工序列

<220>

<223>区域6正向引物

<400>13

agccagaaga tggaggaagc t 21

<210>14

<211>19

<212>DNA

<213>人工序列

<220>

<223>区域6反向引物

<400>14

ttaaagcgct tggcttgga 19

<210>15

<211>26

<212>DNA

<213>人工序列

<220>

<223>区域7正向引物

<400>15

tcttttgaga aggtataggt gtggaa 26

<210>16

<211>17

<212>DNA

<213>人工序列

<220>

<223>区域7反向引物

<400>16

caggcccagg ccacact 17

<210>17

<211>19

<212>DNA

<213>人工序列

<220>

<223>区域8正向引物

<400>17

cgaggcctgc acagtatgc 19

<210>18

<211>20

<212>DNA

<213>人工序列

<220>

<223>区域8反向引物

<400>18

gcgggctcag cttcttagtg 20

<210>19

<211>15

<212>DNA

<213>人工序列

<220>

<223>PCR引物1a

<400>19

tgccggagtc agcgt 15

<210>20

<211>15

<212>DNA

<213>人工序列

<220>

<223>生物素标记PCR引物1b

<400>20

agtcagagtc gccac 15

<210>21

<211>18

<212>DNA

<213>人工序列

<220>

<223>合成寡核苷酸连接物

<400>21

ctcgagaatt ctggatcc 18

<210>22

<211>23

<212>DNA

<213>人工序列

<220>

<223>qPCR 0210正向引物

<400>22

gaccctctta ccttggcatt ctc 23

<210>23

<211>20

<212>DNA

<213>人工序列

<220>

<223>qPCR 0210反向引物

<400>23

gctggtaccc attggcaact 20

<210>24

<211>26

<212>DNA

<213>人工序列

<220>

<223>qPCR 0271正向引物

<400>24

ggagtgagtg gtttttcttc attttt 26

<210>25

<211>20

<212>DNA

<213>人工序列

<220>

<223>qPCR 0271反向引物

<400>25

gcgccacaaa gagacattca 20

<210>26

<211>22

<212>DNA

<213>人工序列

<220>

<223>qPCR 0266正向引物

<400>26

aaggccatac ttgggtgaac tg 22

<210>27

<211>20

<212>DNA

<213>人工序列

<220>

<223>qPCR 0266反向引物

<400>27

gctctgattg gtggcttcgt 20

<210>28

<211>21

<212>DNA

<213>人工序列

<220>

<223>qPCR 0283正向引物

<400>28

tgcttgcagg tgtctctcag a 21

<210>29

<211>27

<212>DNA

<213>人工序列

<220>

<223>qPCR 0283反向引物

<400>29

cagtgagata tttggtacca tggtgta 27

Claims

1.一种降低一组核酸分子遗传复杂度的方法，所述方法包含下列步骤：

(a)在杂交条件下将所述片段化变性核酸分子组与多种不同的寡核苷酸探针接触，然后将所述杂交分子复合物结合到固体载体，以捕获与所述探针特异性杂交的核酸分子，

其中所述片段化变性核酸分子平均大小约100到约1000个核苷酸残基，优选约250到约800个核苷酸残基，最优选约400到约600个核苷酸残基，

(b)从所捕获分子中分离未结合和非特异性杂交的核酸；

(c)从所述固体载体洗脱所捕获分子，以及

(d)可选地用所洗脱的捕获分子至少再重复一轮步骤(a)到(c)。

2.根据权利要求1所述的方法，其中所述多种不同的寡核苷酸探针各包含可结合于固体载体的化学基团或连接物。

3.根据权利要求1或2其中之一所述的方法，进一步包含：在步骤(a)之前或之后，将接头分子连接到所述核酸分子的一端或两端，优选地为两端的步骤。

4.根据权利要求3所述的方法，进一步包含用至少一种引物扩增所述核酸分子的步骤，所述引物包含与所述接头分子序列特异性杂交的序列。

5.根据权利要求1-4之一所述的方法，其中所述核酸分子组为一组基因组DNA分子。

6.根据权利要求1-5之一所述的方法，其中所述固体载体为核酸微阵列或者为一组珠子。

7.一种用于分离和降低多种核酸序列复杂度的方法，其包含：

a)提供：

i)固体载体，其中所述固体载体包含可与目标核酸序列杂交的杂交探针，

ii)包含目标核酸序列的核酸样品，

b)扩增所述杂交探针，其中扩增产物包含结合部分，且其中所述扩增产物保持在溶液中，

c)使所述核酸样品与溶液中的所述扩增产物杂交，使得允许所述扩增产物与目标核酸序列杂交，

d)通过所述结合部分，从非特异性杂交核酸中分离所述目标核酸/扩增产物杂交复合物，以及

e)从所述复合物洗脱所杂交的目标核酸序列，由此分离和降低多种核酸序列的复杂度。

8.根据权利要求7所述的方法，进一步包含对所洗脱的目标核酸序列测序。

9.根据权利要求7或8中任一权利要求所述的方法，其中所述固体载体为微阵列载玻片。

10.根据权利要求7-9中任一权利要求所述的方法，其中所述核酸样品为片段化基因组DNA样品。

11.根据权利要求10所述的方法，其中所述片段化基因组DNA样品在所述基因组DNA样品片段的一端或两端进一步包含接头分子。

12.根据权利要求7-11中任一权利要求所述的方法，其中所述杂交探针在所述探针的一端或两端进一步包含引物结合序列。

13.根据权利要求12所述的方法，其中所述引物结合序列当在所述探针两端存在时是相同的。

14.根据权利要求13所述的方法，其中所述引物结合序列当在所述探针两端存在时是不同的。

15.根据权利要求7-14中任一权利要求所述的方法，其中所述扩增包含指数聚合酶链反应。

16.根据权利要求15所述的方法，其中所述扩增进一步包含非对称聚合酶链反应。

17.根据权利要求7-16中任一权利要求所述的方法，其中所述结合部分为生物素结合部分。

18.根据权利要求17所述的方法，其中所述分离包含使所述生物素结合部分结合到链霉亲和素包被的基质。

19.根据权利要求18所述的方法，其中所述链霉亲和素包被的基质为链霉亲和素包被的顺磁颗粒。

20.根据权利要求7-19中任一权利要求所述的方法，进一步包含在洗脱之前洗涤所述分离的目标核酸/扩增产物杂交复合物。

21.根据权利要求1-20中任一权利要求所述的方法，其中所述核酸分子组或所述多种核酸序列包含一种有机体的全基因组或至少一条染色体，或者至少一种核酸分子，其大小至少约200kb、至少约500kb、至少约1Mb、至少约2Mb、或至少约5Mkb，尤其是大小在约100kb到约5Mb之间、在约200kb到约5Mb之间、在约500kb到约5Mb之间、在约1Mb到约2Mb之间或在约2Mb到约5Mb之间。

22.根据权利要求5、6或10-21中任一权利要求所述的方法，其中所述探针选自：

-限定至少一个单独遗传基因座的全序列的多种探针，所述基因座大小至少100kb，优选至少1Mb，或至少如权利要求3所述的大小之一，

-限定已知包含单核苷酸多态性(SNPs)的位点的多种探针，或者

-限定一种阵列的多种探针，尤其是设计为捕获至少一条完整染色体的全序列的嵌合阵列。

23.一种确定核酸、特别是基因组核酸的约至少一个区域的核酸序列信息的方法，所述方法包含下列步骤：

1.根据权利要求1-22之一所述的方法降低一组核酸分子的遗传复杂度，以及

2.确定所捕获分子的核酸序列，特别是通过经合成反应进行测序的方法。

24.一种检测相对于参考基因组的编码区变异的方法，所述方法包含下列步骤：

1.根据权利要求1-22之一所述的方法降低一组核酸分子的遗传复杂度，

2.确定所捕获分子的核酸序列，以及

3.将所确定序列与所述参考基因组数据库中序列对比，特别是与所述参考基因组多态性数据库中序列对比，以从所述参考基因组中鉴别出变体。

25.一种试剂盒，其包含

-双链接头分子，以及

-具有多种不同寡核苷酸探针的固体载体，其中所述探针选自：

-限定至少一个单独遗传基因座的全序列的多种探针，所述基因座大小至少100kb，优选至少1Mb，或至少如权利要求21所述的大小之一，

-限定已知包含SNPs的位点的多种探针，或者

-限定设计为捕获至少一条完整染色体的全序列的嵌合阵列的多种探针。

26.根据权利要求25所述的试剂盒，其中所述试剂盒包含两种不同的双链接头分子。

27.根据权利要求25或26所述的试剂盒，其中所述固体载体为多个珠子或者微阵列。

28.根据权利要求25-27之一所述的试剂盒，进一步包含至少一种或多种成分，其选自DNA聚合酶、T4多核苷酸激酶、T4DNA连接酶、阵列杂交液、阵列洗涤液，和/或阵列洗脱液。

29.一种试剂盒，其包含

a)包含结合部分的杂交探针序列，其中所述探针序列设计为与一种或多种目标核酸序列杂交，并且其中所述探针序列在溶液中，

b)包含用于结合所述结合部分的结合伴侣的基质，以及

c)用于实现权利要求7所述方法的说明。

30.根据权利要求29所述的试剂盒，进一步包含杂交液、洗涤液和洗脱液中的一种或多种。

31.根据权利要求30所述的试剂盒，进一步包含磁体。