CN102317476A

CN102317476A - 靶基因组序列富集的方法和系统

Info

Publication number: CN102317476A
Application number: CN2010800078792A
Authority: CN
Inventors: D·格哈特; P·马里奥内; T·阿尔伯特; M·罗德施; T·里士满; J·杰德洛
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG; Roche Diagnostics GmbH
Priority date: 2009-02-13
Filing date: 2010-02-11
Publication date: 2012-01-11
Also published as: US20100331204A1; EP2396423A1; CA2747389A1; WO2010091870A1; JP2012517231A

Abstract

本发明提供用于在样品中富集靶核酸序列的方法和系统。具体地讲，本发明提供在杂交测定的杂交期间通过首先去除非靶核酸序列而进行靶核酸序列的富集。

Description

靶基因组序列富集的方法和系统

发明领域

本发明提供用于富集靶基因组序列的方法和系统。具体地讲，本发明提供在杂交测定的杂交期间通过去除靶基因组中的非靶核酸序列而进行靶核酸序列的富集。

发明背景

核酸微阵列技术的出现使人们有可能在很小的区域例如在显微镜载玻片上建立起数以百万计的核酸序列的阵列(例如美国专利号6,375,903和5,143,854)。最初，通过将预合成的DNA序列点样到载片上而产生这样的阵列。然而，美国专利号6,375,903所述的无屏蔽阵列合成仪(maskless array synthesizer，MAS)的建立现已允许直接将寡核苷酸序列在载片自身上原位合成。

使用MAS仪器，对要在微阵列上建立的寡核苷酸序列的选择是在软件控制下进行，这样能根据研究人员的具体需要而分别创建用户定制的阵列。一般而言，基于MAS的寡核苷酸微阵列合成技术允许在标准显微镜载玻片的很小区域上平行合成几百万个独特寡核苷酸元件(feature)。随着上百种生物的全基因组的可用性(其参考序列通常已经保存在公共数据库中)，微阵列已经用于对分离自大量生物体的核酸进行序列分析。

核酸微阵列技术已用于研究和诊断的许多领域，例如基因表达和发现、突变检测、等位基因和进化序列比较、基因组作图、药物发现等。许多应用需要跨整个人类基因组搜索遗传变体和突变，它们是人类疾病的基础。就复杂疾病而言，这些搜索通常导致疾病和/或疾病危险相关的单核苷酸多态性(SNP)或SNP组。鉴别这样的SNP被证明是费力的而且经常是毫无结果的工作，因为需要对来自患病个体或组织样品的大区域基因组DNA(经常大于100千碱基(Kb))进行测序，以找到一个碱基变化或鉴别所有的序列变体。其它应用包括鉴别染色体序列的得失，其也可能与例如以下癌症相关：淋巴瘤(Martinez-Climent JA等，2003，Blood 101：3109-3117)、胃癌(Weiss MM等，2004，Cell.Oncol.26：307-317)、乳癌(Callagy G等，2005，J.Path.205：388-396)和前列腺癌(Paris，PL等，2004，Hum.Mol.Gen.13：1303-1313)。同样，微阵列技术对于科学研究人员和临床医生了解疾病和治疗疾病的治疗方案的功效而言是一种特别有用的工具。

基因组通常过于复杂，无法对进行整体研究，而且必须使用降低基因组复杂度的技术。针对这个问题，一种解决方法就是将DNA样品中某些类型的大量序列减少，正如美国专利6,013,440中所述。替代方案使用例如以下文献所述的用于富集基因组序列的方法和组合物：Albert等(2007，Nat.Meth.，4：903-5)，Okou等(2007，Nat.Meth.4：907-9)，Olson M.(2007，Nat.Meth.4：891-892)，Hodges等(2007，Nat.Genet.39：1522-1527)和美国专利申请序列号11/638,004、11/970,949和61/032,594。Albert等人公开了以用户定义的方式，既合算又快速地有效减低基因组样品复杂度的替代方案，以允许进一步处理和分析。Lovett等人(1991，Proc.Natl.Acad.Sci.88：9628-9632)也描述了使用细菌人工染色体(BAC)进行基因组选择的方法。通过先实施靶序列富集，再进行测序而降低基因组的复杂度，远胜过仅单独测定杂交事件。杂交事件允许在微阵列或溶液中进行任何物种的杂交；靶序列和非靶序列都同样如此。通过实施复杂度降低和序列富集，研究人员提高了对靶序列(例如作为测定焦点的那些序列)的捕获，同时减少了所捕获的非靶序列(例如并非测定焦点的那些)的量。

然而，涉及任何杂交测定的一个问题就是在靶核酸杂交期间，在阵列上或溶液中的非靶(例如重复)核酸序列的交叉捕获事件，也称为非靶核酸序列的次级捕获(secondary capture)。次级捕获使得在杂交测定中降低复杂度的效率下降，事实上潜在地使非靶捕获干扰了所需靶捕获，导致靶捕获效率降低。目前的方法是通过向杂交测定中加入基因组封闭剂DNA(例如C₀t-1DNA)而抑制次级捕获。如果没有额外DNA加入到实验中，这将是优选的，但目前的实践不提供该可选方法。

同样，需要的是用于处理杂交测定中的次级捕获的方法，即通过不包括加入不需要的核酸、而同时又能提高靶核酸捕获效率的替代方法，用于研究工作。

发明概述

本发明提供用于靶序列富集的方法和系统。具体地讲，本发明提供在杂交测定的杂交期间通过去除靶基因组中的非靶核酸序列而进行靶核酸序列的富集。

在微阵列形式上的次级捕获反应导致捕获靶核酸的效率降低。这样减低的效率可从微阵列测定所得到的命中靶标读数(on-target read)的百分率而看出，使得当次级捕获未受抑制或忽略(bypass)时，所捕获的非靶核酸量增加，而靶核酸减少。本发明被概述为用于在微阵列测定中处理次级捕获的方法、系统和组合物。本发明的某些说明性实施方案描述如下。本发明并不限于这些实施方案。

本发明的实施方案包括固定化核酸探针，以从例如基因组样品中捕获靶核酸序列，即通过使样品与固相支持体上或溶液中的探针或源自探针的扩增子杂交来进行。在杂交发生在固相支持体或基底上的实施方案中，预期的是本发明并不限制所使用的固相支持体。固相支持体或基底包括但不限于微阵列基底，例如玻片、芯片、珠、管、柱、孔、板等。

本文所述的杂交反应包括将样品施加到一个或多个支持体上，所述支持体上固定有非靶序列探针或靶序列探针，或这两者。在一个实施方案中，提供一个两阶段过程，其中施加样品并与固定在第一支持体上的非靶序列探针杂交，移出样品(例如所移出的样品去除了非靶序列)并与固定在第二支持体上的靶序列探针杂交。杂交的靶序列优选再经非选择性洗脱，从而去除样品中的非靶序列并富集靶核酸序列，而无需使用次级捕获封闭剂DNA。

在另一个实施方案中，提供一个一阶段过程，其中施加样品并与一个支持体杂交，所述支持体上分别具有非靶序列探针和靶序列探针的分开的群体，其中杂交同时发生在非靶核酸序列和靶核酸序列。再将杂交的靶序列从各自位置上非选择性洗脱下来，从而去除样品中的非靶序列并富集靶核酸序列，同时无需使用次级捕获封闭剂DNA。在优选的实施方案中，支持体上的固定化非靶序列探针的数量或含量大于等于杂交样品中存在的非靶序列的数量或含量。

在某些实施方案中，本发明提供在基于溶液的形式中对靶序列的富集和对非靶序列(例如重复序列)的去除。在一个优选的实施方案中，两阶段过程适用于通过包括以下步骤的方法进行溶液杂交：

a)在包含与非靶核酸序列互补的序列的溶液中产生第一组杂交探针；

b)在包含与靶核酸序列互补的序列的微阵列上产生第二组杂交探针；

c)将第一组探针与样品混合，让第一组探针在溶液中与非靶核酸杂交；

d)从样品中移出已杂交的第一组探针，形成包含靶核酸序列的第一富集溶液；

e)将微阵列上的第二组探针与第一富集溶液混合，让第二组探针与靶核酸杂交；

f)移出已杂交的第二组探针；和

g)将靶序列从已杂交的第二组探针上洗脱下来，形成包含靶核酸序列的第二富集溶液。

在上述两阶段溶液相方法的另一变型中，第一组和第二组杂交探针同时在溶液中在步骤a)和b)中产生并且步骤e)在溶液中、而不是微阵列上进行。

在两阶段溶液相方法结束时，包含靶核酸序列的富集溶液准备用于下游应用，例如DNA测序或RNA测序、比较基因组杂交(CGH)和DNA甲基化研究。可通过两阶段溶液相方法去除的非靶序列的非限制性实例包括基因组DNA中的重复序列(例如Alu、THE-1、LINE-1重复序列等)、信使RNA(mRNA)中的高丰余转录物或来自这些高丰余转录物的互补DNA(cDNA)、以及核糖体RNA(rRNA)序列。非靶序列的去除改善了对靶序列(例如稀有转录物和调节RNA)的检测。通过去除这些丰余转录物，提高了通过测序技术来检测稀有转录物的有效灵敏度，并降低了成本。可通过以下两种方式之一来获取这种稀有转录物检测的益处：通过先去除、再正选择特定稀有转录物的两步骤，或通过去除高丰余转录物的单步骤；然后直接对剩余分子群体进行测序。

在上述两阶段溶液相方法中，一个特别优选的实施方案就是在步骤a)中从固定化探针微阵列中产生用于杂交的探针。这可通过以下方式来完成：对固定化探针进行聚合酶链式反应，以便在溶液中产生它们。当在溶液中时，通过不对称聚合酶链式反应，使用比3’-引物过量的5’-生物素化引物，进一步扩增和标记杂交探针。当与溶液中的样品杂交之后，使用链霉抗生物素固相，将生物素标记的探针与未杂交的核酸序列分离开来。最后将杂交的靶序列从链霉抗生物素固相上的生物素标记的探针上洗脱下来。

本发明的进一步的实施方案包括固定化核酸探针，以从例如基因组样品中捕获靶核酸序列，即通过使样品与固相支持体上或溶液中的探针或源自探针的扩增子杂交来进行，其中所述靶核酸通过衔接头(adapter linker)连接在片段化的核酸样品的5’端和3’端或其中一端，衔接头可用于连接介导的聚合酶链式反应(LM-PCR)方法并用于测序应用。所捕获的靶核酸优选经洗涤并将其从靶序列杂交探针上非选择性洗脱下来。

基因组样品在本文中用于描述性目的，但是可以理解，其它非基因组样品可经历与本发明提供用于去除与无论任何来源的任何核酸靶共存的非靶序列捕获的相同的方法。本发明所提供的靶富集效率的提高为研究人员提供用于疾病和疾病状态相关研究和治疗的良好工具，所述疾病或疾病状态例如癌症(Durkin等，2008，Proc.Natl.Acad.Sci.105：246-251；Natrajan等，2007，Genes，Chr.And Cancer46：607-615；Kim等，2006，Cell 125：1269-1281；Stallings等，2006 Can.Res.66：3673-3680)、遗传性疾病(Balciuniene等，Am.J.Hum.Genet.Inpress)、精神病(Walsh等，2008，Science 320：539-543；Roohi等，2008，J.Med.Genet.Epub 18March 2008；Sharp等，2008，Nat.Genet.40：322-328；Kumar等，2008，Hum.Mol.Genet.17：628-638)以及进化及基础性研究(Lee等，2008，Hum.Mol.Gen.17：1127-1136；Jones等，2007，BMC Genomics 8：402；Egan等，2007，Nat.Genet.39：1384-1389；Levy等，2007，PLoS Biol.5：e254；Ballif等，2007，Nat.Genet.39：1071-1073；Scherer等，2007，Nat.Genet.S7-S15；Feuk等，2006，Nat.Rev.Genet.7：85-97)等，仅举以上几个例子。

本发明提供分离和降低大量核酸分子的基因复杂度的方法，所述方法包括以下步骤：在杂交条件下，使所述群体的片段化的变性核酸分子，与连接在固相支持体上的相同或多种不同的寡核苷酸探针接触，以捕获与所述探针特异性杂交的核酸分子，或者在杂交条件下，使所述群体的片段化的变性核酸分子，与相同或多种不同的寡核苷酸探针接触，随后通过使已杂交分子的复合体与固相支持体结合，以捕获与所述探针特异性杂交的核酸分子，其中在这两种情况下，所述片段化的变性核酸分子的平均大小为约100至约1000个核苷酸残基，优选约250至约800个核苷酸残基和最优选约400至约600个核苷酸残基；从已捕获的分子中分离出未结合的和非特异性杂交的核酸；非选择性洗脱已捕获的分子；和任选使洗脱的已捕获分子再重复至少一轮上述步骤和/或对富集靶核酸进行测序。

在某些实施方案中，靶核酸分子选自动物、植物或微生物。如果仅可使用有限的核酸样品，则可先将核酸扩增，例如通过全基因组扩增，然后再进行本发明的方法。预先扩增可能对进行本发明方法而言是必要的，例如为了法庭目的(例如在法医学中为了遗传鉴定目的)。

在某些实施方案中，靶核酸分子群体是基因组DNA分子群体。在这样的实施方案中，探针选自一种或多种序列，所述序列例如限定来自多个遗传基因座(genetic loci)的一种或多种外显子、内含子或调节序列；或多种探针，所述探针限定至少一个单遗传基因座的全序列，其大小为至少100kb，优选至少1Mb，或至少一个上述大小；一种或多种探针，所述探针限定单核苷酸多态性(SNP)；或多种探针，所述探针限定阵列例如重叠阵列(tiling array)，所述阵列经设计用于捕获至少一个完整染色体的全序列。

在某些实施方案中，本发明包括这样的步骤：在使片段化核酸样品与探针接触进行杂交之前或之后，将衔接分子与核酸分子的一端、优选两端连接起来。在某些实施方案中，本发明方法还包括用至少一种引物扩增靶核酸分子，所述引物包含与所述衔接分子序列特异性杂交的序列。在某些实施方案中，衔接分子是自我互补的、非互补的或者是Y-形衔接头(例如这样的寡核苷酸：包含互补末端和非互补末端，一旦退火，其互补末端退火到片段化核酸样品上)。在某些实施方案中，可对扩增的靶核酸序列进行测序，将其杂交到再测序阵列或SNP判读阵列(SNP-calling array)上，并可进一步对所述序列或基因型进行分析。

在某些实施方案中，本发明提供在基因组样品中降低靶核酸序列例如外显子或变体、优选SNP位点的复杂度的方法。这可进行如下：通过合成一个或多个对基因组某区域具有特异性的基因组探针，以捕获复杂基因组样品中的互补靶核酸序列。富集方法包括包含杂交探针，用于靶向特定基因组中的重复序列。

在某些实施方案中，本发明还包括测定经富集和洗脱的靶分子的核酸序列，尤其是通过进行测序反应的方式。

在某些实施方案中，本发明涉及试剂盒，所述试剂盒包括用于进行本发明方法的组合物和试剂。这样的试剂盒可包括但不限于双链衔接分子，用于任何特定微阵列应用(例如比较基因组杂交、表达、染色质免疫沉淀、比较基因组测序等)的多个杂交探针的一个或多个固相支持体，其中所述探针包括在一个或多个固相支持体上的对应于基因组中存在的非靶序列和靶序列的序列。在某些实施方案中，试剂盒包含两种不同双链衔接分子。试剂盒还可包含选自以下的至少一种或多种其它组分：DNA聚合酶、T4多核苷酸激酶、T4DNA连接酶、杂交液、洗涤液和/或洗脱液。

定义

本文所用的术语“样品”按照其最广泛含义来使用。在一个含义中，是指包括得自任何来源、优选生物来源(包括真核生物或原核生物)的样本或培养物。生物样品可得自动物(包括人)并包括流体、固体和组织。生物样品包括血液制品，例如血浆、血清等。来自非人类动物的样品包括但不限于来自脊椎动物的生物样品，所述脊椎动物例如啮齿类、非人类灵长类、绵羊、牛、反刍动物、兔类、猪、山羊、马、犬、猫、禽类等。此外，本文所用的样品包括来自植物的生物样品，例如来源于植物界任何生物(例如单子叶植物、双子叶植物等)的样品。样品也可来自真菌、藻类、细菌等。预期的是，本发明并不限制样品来源。本文所用的样品通常是“核酸的样品”或“核酸样品”、或“靶核酸样品”、或包含任何来源的核酸(例如DNA、RNA、cDNA、mRNA、tRNA、miRNA、rRNA等)的“靶样品”。同样，本发明方法和系统所用的核酸样品是来源于任何生物(真核生物或原核生物)的核酸样品。

为了本发明的目的，“靶”或“靶序列”是指用于研究、分离、扩增或其它过程的特定的目标核酸序列，并且被定义为包括单链序列、双链序列或与其互补的序列。为了本发明的目的，“非靶”或“非靶序列”是指目标并非为了这些目的的核酸序列，并且被定义为包括单链序列、双链序列或与其互补的序列。

预选择探针决定靶或非靶核酸序列的范围。因此，寻找“靶”并将其从其它核酸序列中分拣出来。“区段”定义为靶序列内的某一核酸区，如核酸序列“片段”或“部分”。同样，“命中靶标读数(on-targetread)”是由研究人员进行测序并发现是所需序列的靶核酸的百分率或数量。“重复核酸序列”是基因组中的这样的序列：所述序列的本质是重复的并且已知有助于次级捕获，因而影响靶核酸序列的捕获效率。

本文所用的术语“分离”当用于核酸、例如“分离核酸”时，是指从通常在核酸的天然来源中共存的至少一种组分或污染物中鉴定并分离出的核酸序列。分离核酸的形式或所处环境不同于其天然存在的那样。相反，未分离的核酸则是其天然存在状态的核酸例如DNA和RNA。分离的核酸、寡核苷酸或多核苷酸可呈单链或双链形式。

本文所用的术语“寡核苷酸”是指长度短的多核苷酸链，优选单链。寡核苷酸的长度通常为小于200个残基(例如介于15-100之间)，然而，本文所用的该术语还旨在包括更长的多核苷酸链。寡核苷酸通常按其长度来提及。例如24个残基的寡核苷酸就称为“24聚体”。寡核苷酸可通过自我杂交或与其它多核苷酸杂交而构成二级和三级结构。这样的结构可包括但不限于双链体、发夹、十字形、弯曲形和三链体。

本文所用的术语“杂交”用于指互补核酸的配对。杂交和杂交强度(例如核酸间的缔合强度)受到例如以下因素的影响：例如核酸间的互补性程度，所涉及条件的严格性，所形成杂合体的解链温度，和核酸的G∶C比例。尽管本发明不限制具体的杂交条件组合，但是优选使用严格性杂交条件。严格性杂交条件是序列依赖性的并随不同的环境参数(例如盐浓度、有机物的存在等)而异。通常，选择的“严格性”条件为，在指定离子强度和pH时，比特定核酸序列的T_m要低约50℃至约20℃。优选的严格性条件为比与互补核酸结合的特定核酸的解链温度要低约5℃至10℃。T_m是(在指定离子强度和pH时)50％核酸(例如靶核酸)与完美匹配的探针杂交的温度。

“严格性条件”或“高严格性条件”可以是例如在50％甲酰胺、5x SSC(0.75M NaCl、0.075M柠檬酸钠)、50mM磷酸钠(pH 6.8)、0.1％焦磷酸钠、5x Denhardt氏溶液、经超声处理的鲑鱼精子DNA(50mg/ml)、0.1％SDS和10％硫酸葡聚糖中在42℃杂交，并在42℃在0.2％SSC(氯化钠/柠檬酸钠)中和在55℃在50％甲酰胺中洗涤，接着用含EDTA的0.1x SSC在55℃洗涤。以举例而非限制性方式而言，预期含有35％甲酰胺、5x SSC和0.1％(w/v)十二烷基硫酸钠(SDS)的缓冲液适用于在中等非严格性条件下，在45℃杂交16-72小时。

此外，预期可按照探针长度和所需严格性水平，将甲酰胺浓度在20-45％范围之内进行适当调整。若干来源提供了杂交条件的额外实例，包括Molecular Cloning：A Laboratory Manual，Sambrook等人编著，Cold Spring Harbour Press(通过引用全部结合到本文中)。

同样，通常根据经验来确定“严格性”洗涤条件，用于靶与探针(或在本发明中，源自探针的扩增子)的杂交。使扩增子/靶杂交(例如在严格性杂交条件下)，然后用含有连续降低浓度的盐或更高浓度去垢剂的缓冲剂，或在升高的温度下进行洗涤，直至特异性与非特异性杂交的信噪比足够高，以便进行特异性杂交的检测。严格性温度条件通常包括超过约30℃的温度，更通常超过约37℃的温度，和有时超过约45℃的温度。严格性盐条件通常是小于约1000mM，通常小于约500mM，更通常小于约150mM(Wetmur等，1966，J.Mol.Biol.，31：349-370；Wetmur，1991，Critical Reviews in Biochemistry andMolecular Biology，26：227-259，通过引用全部结合到本文中)。

本文所用的术语“引物”是指当处于诱导与核酸链互补的引物延伸产物合成的条件之下(例如核苷酸和诱导剂例如DNA聚合酶存在下并且在合适温度和pH时)能作为合成起始点的寡核苷酸，无论是在纯化的限制性消化物中天然存在的还是合成产生的。引物优选是单链，以便在扩增中达到最大效率。优选地，引物是寡聚脱氧核糖核苷酸。引物必须足够长，以在诱导剂存在下引起延伸产物的合成。引物可以带有特异性结合对的一个成员的标记，所述成员例如生物素(用于后续捕获到链霉抗生物素支持体上)或半抗原(例如地高辛配基，用于后续捕获到抗半抗原抗体支持体上)。引物的准确长度将会取决于许多因素，包括温度、引物来源和所使用的方法。

本文所用的术语“探针”是指能够与另一目标寡核苷酸(例如靶核酸序列)的至少部分杂交的寡核苷酸(例如核苷酸序列)，无论是在纯化的限制性消化物中天然存在的还是合成产生的、重组产生的或经PCR扩增产生的。探针可以是单链或双链。探针可用于检测、鉴定和分离特定基因序列。或可使用MAS通过原位合成或可通过技术人员已知的任何其它方法，将本文所用的探针连接到微阵列基底上，用于与靶核酸的后续杂交。或者，可将探针溶于杂交介质中，用于溶液相实施方案。

本文所用的术语“衔接头”是连接在样品DNA分子的一端或两端的限定(或已知)序列的双链寡核苷酸。样品DNA分子在加入之前可经过或不经过片段化处理。在将衔接头加入到样品DNA分子两端的情况下，衔接头可以是相同的(即两端是同源序列)或不同的(即两端是异源序列)。为了连接介导的聚合酶链式反应(LM-PCR)的目的，术语“衔接头”和“接头”可互换使用。衔接头的两条链可以是自我互补的、非互补的或部分互补的(例如Y形)。衔接头通常的范围是12个核苷酸残基到100个核苷酸残基，优选18个核苷酸残基到100个核苷酸残基，最优选20-44个核苷酸残基。

当给出数值范围时，应该理解，除非上下文另有说明，否则在该范围的上下限之间的以下限的十分之一为单元的间插值也都具体公开。介于所述范围中任何所述值或间插值之间的每个较小范围以及所述范围中任何其它所述值或间插值都包括在本发明之内。这些较小范围的上下限可独立包括或不包括在范围内，并且其两个界限中的一个、两个包括或都不包括在较小范围内的每个范围也包括在本发明之内，服从所述范围内任何界限具体排除在外。尽管所述范围包括两个界限之一或两者，但不包括这些限制之一或两者的范围也包括在本发明之内。

附图描述

图1A-B举例说明了在市售微阵列上的两阶段靶序列富集方法和用于测序的衔接头。在步骤1中，DNA样品经片段化处理并转化成454 Life Sciences测序文库，使衔接头至其3’端和5’端。然后在步骤2中通过PCR扩增文库。然后在步骤3中，将连接衔接头的DNA样品与由对应于重复DNA元件的正向和反向探针组成的第一微阵列杂交。从溶液中移出第一微阵列连同已杂交的重复DNA，得到除去重复DNA的样品(步骤4)。然后，鉴定靶区并设计第二微阵列，以捕获这些目标区。在步骤5中，将文库与第二微阵列杂交至多达3天。在步骤6中洗涤第二微阵列，然后在步骤7中将靶DNA从微阵列上非选择性洗脱下来。在步骤8中扩增所洗脱的靶DNA并在步骤9中进行测序。

图2举例说明了本发明的通用两阶段靶序列富集方法的一个实施方案。A)使用垫片(gasket slide)，将包含重复探针序列的微阵列与已片段化并连接衔接头的基因组文库杂交，所述文库同时包含重复序列和靶基因组序列，(B)以产生杂交室。C)在额外的垫片上将来自第一次杂交的溶液与包含靶探针序列的第二微阵列杂交，产生杂交室(D)。洗脱已富集的靶基因组序列，从而得到靶序列已富集且不想要的重复序列已去除的基因组文库。

图3举例说明了本发明的一阶段靶序列富集方法的另一实施方案。A)在微阵列上建立同时包含重复探针序列和靶探针序列的微阵列并将已片段化并连接衔接头的基因组文库同时施加在这两者上并允许在杂交室内进行杂交，所述杂交室通过应用混合器装置(mixerapparatus)产生。C)仅从靶探针阵列上洗脱富集的靶基因组序列，从而得到靶序列已富集且不想要的重复序列已去除的基因组文库。

图4A和图4B举例说明了在NimbleGen微阵列基底上用于重复消减(repeat subtraction)的盖片(cover)。盖片先以平面方向显示，再以侧面方向显示。在侧面方向，指明包含材料层的盖片。图4A显示HX3盖片的尺寸，其将每个杂交室分为3个具有2个口的等分，总共6个口。图4B显示HX1盖片的尺寸，其包括在具有2个口的单个部分(section)中杂交。

图5举例说明了溶液序列捕获探针库(pool)的产生。

用30个PCR循环从阵列(原位)扩增探针而产生探针库。通过不对称PCR选择一条DNA链，产生多拷贝的单链DNA；用靶DNA的正向链和反向链达到这一目的。纯化并定量测定探针，然后用于重复消减(专利WO200905039)。

图6举例说明了溶液相重复捕获实验

将正向探针和反向探针加入到DNA样品中，其将会与重复DNA元件杂交。从溶液中移出探针连同重复DNA，得到去除重复序列的样品并准备用于下游应用，例如序列捕获直接测序、比较基因组杂交(CGH)和甲基化研究。

图7举例说明了在指纹邻近区(FPC ctg138)内制备细菌人工染色体(BAC)序列的工作流程，用于探针设计。

发明详述

微阵列测定中的次级捕获包括基于杂交的序列相互作用，所述序列不存在于微阵列靶探针捕获设计中(例如Alu、THE-1、LINE-1重复序列等)。例如已发现有一类次级捕获发生在未杂交的样品DNA和与探针杂交的靶DNA之间(“序列介导的次级捕获”)。例如，在次级捕获中，探针与其靶标特异性杂交，但该靶具有某些非探针序列(例如Alu、THE-1、LINE-1重复序列等)，其也可与非顺式拷贝(non-cis copy)杂交。次级捕获的一个结果就是靶样品内重复元件的特定亚类(例如非靶序列或重复序列)的富集，导致靶区的总体富集不良。事实上，要经捕获在微阵列上而得以富集的所需靶序列受到了不想要的局部序列重复序列种类的共富集的干扰。

封闭次级捕获的竞争性或抑制性杂交包括封闭潜在的强烈重复DNA信号的捕获，其可在使用复杂DNA时而获得。例如，在溶液中总基因组DNA、或优选高度重复DNA序列富集的部分存在的情况下，使DNA变性并让其重新退火。在其中的任一种情况下，靶DNA内的高度重复DNA的存在数量大大超过探针中的重复元件(因为通常是产生具有尽可能少的重复序列的阵列)。结果，这样的序列就容易与靶内的重复序列的互补链缔合，添加大量过量的同类重复序列的外源拷贝因而有效阻断其与靶序列杂交。同样，在杂交反应期间通常使用封闭剂。

近来已经证明，当在微阵列测定中杂交反应期间包括了特异性封闭DNA(例如C₀t-1)的物质(species)时，例如在植物物种中的靶序列的富集更有效。预期这是因为次级捕获的抑制。然而，产生足量的植物来源的C₀t-1DNA(例如从玉米产生)在时间和资源上是个问题。

因此，研究了在富集过程和方法中避免使用封闭剂的替代方法。在一个这样的方法中，使用来自MAGI谷物重复序列数据库3.1版的非丰余的统计来源的重复序列(non-redundant statistically derivedrepeat，SDR)和来自TIGR玉米重复序列数据库的序列来设计所有重复序列(玉米)的微阵列。该设计通过NCBI的Megablast得以证实：即将来自玉米B73的源自454 Life Sciences的测序读数集合与用于构建阵列的重复序列数据库进行比较。总共超过271,000个读数(＞102Mbp)用于比较。分析证明总序列中有75％与玉米重复序列具有90％以上的同一性。这与玉米基因组中已建立的重复序列负荷非常接近，并且与计算机所掩蔽的输入读数的百分率大致相同。因此，预期所有重复序列设计准确地反映了作为一个实例系统的玉米基因组的重复序列的含量。因此，设计杂交反应，在靶核酸序列与靶序列探针杂交之前或与此同时，利用重复序列设计以去除玉米基因组中的重复区。

如本文所述，还预期的是，从基因组中除去重复序列的方法适用于在固相例如微阵列载片上或在溶液中的任何杂交测定。

在基因组样品中捕获靶植物序列的现有方案要求研究人员用例如100μg C₀t-1DNA来干燥(dry down)植物基因组DNA，然后在杂交测定中在杂交缓冲液和杂交样品中重配。本示例性方案意想不到地使封闭剂的添加变得不必要，同时仍能保持选择性靶序列捕获。

如本文所述，本发明的方法、系统和组合物在杂交测定中提供对非靶或重复序列的去除，由此增加了对靶基因组中靶序列的捕获。本发明的某些说明性实施方案描述如下。本发明并不限于这些实施方案。

在本发明的一个实施方案中，例如使用无屏蔽阵列合成设计了2种微阵列；一种阵列包含事实上是重复的探针序列，用于结合植物基因组中的重复序列，而另一种阵列经设计含有探针序列，用于与靶序列杂交(图2)。

通过将衔接头或接头分子连接在片段化基因组DNA的一端或两端，创建植物基因组序列文库，例如使用GS FLX Titanium文库制备试剂盒(454 Life Sciences，Branford，CT)来创建。在一个示例性的方案中，将以下组分加入到1.5ml管中并在95℃加热10分钟：65μl杂交组分A、26.6μl甲酰胺、2.0μl吐温20、1μl增强寡聚物(Enhancing oligos)A和B(454 Titanium试剂盒)、500ng用454 Titanium文库制备试剂盒产生的连有接头的DNA并加水至终体积为125μl。

将垫片(图2B)(例如来自SciGene Corporation，Sunnyvale，CA)或杂交室(例如来自Grace Bio-Labs Corporation，Bend，OR)(重复消减图)放在Mai Tai

杂交系统混合器装置(SciGene Corporation)上。将DNA混合物移液至垫片上。将包含重复序列探针的微阵列(图2A)反转并使面朝下放置在垫片上，使探针接触已加热的样品。将Mai Tai

混合器装置的顶部向下拧紧并放入SciGene培养箱中，在42℃杂交4天，混合设置(mix setting)为15。或者，使杂交室连接重复序列阵列并将样品上样到该室。然后将其放入Mai Tai混合器中并放入SciGene培养箱中，在42℃杂交4天，混合设置为15。杂交之后，拆开混合器装置，将微阵列载片从垫片阵列(gasket array)载片上分离下来并从载片上回收(rescue)杂交混合物。在与重复探针微阵列的第一次杂交期间，预期将接头连接的文库中存在的重复序列与微阵列杂交，在溶液中留下靶基因组序列。本文所述的系统仅用于示例性目的，并且允许创建杂交室并在杂交后回收样品的任何系统同样适用于本发明。

进行第二轮杂交；然而，不使用重复探针微阵列，而是使用具有针对靶基因组序列的探针的微阵列(图2C)。例如，在移出重复阵列之后，将从垫片中回收的溶液在95℃加热5分钟并放在垫片(图2D)上，其上放置靶探针微阵列。第二杂交反应包括靶探针序列与基因组文库中存在的靶基因组序列的杂交。然后，用氢氧化钠从靶微阵列上将靶基因组接头连接的序列洗脱下来，从而得到已富集的样品，用于测序，而不用最初的封闭剂DNA来封闭不想要的非靶重复基因组序列的次级捕获。

在某些实施方案中，将来自第一次杂交的已去除重复序列的杂交混合物上样到例如Qiagen MinElute柱上，并用水洗脱结合的DNA，从而将靶基因组序列与杂交反应组分分开。将纯化的靶基因组序列用于序列捕获工作流程，用于靶富集，例如按照NimbleGen阵列用户指南序列捕获阵列随附(Roche NimbleGen，Inc.，Madison，WI)中的已建立方案并且然后按照所述洗脱捕获的靶基因组序列。在某些实施方案中，对第一次杂交之后且第二次杂交之前的溶液中存在的靶序列进行扩增(例如通过LM-PCR)，然后与靶序列探针杂交。不管所用的靶杂交方法如何，使用例如400μl 100mM NaOH从靶捕获阵列上将所捕获的靶序列非选择性地洗脱下来，所述洗脱不仅移出特异性杂交的靶序列，而且还移出任何非特异性结合的核酸。再使用例如Qiagen MinEute柱，将洗脱液与反应组分分开。再将已富集并洗脱的靶基因组区用于下游应用，例如使用454 GS FLX Titanium系统(454 Corporation)进行测序。

两种阵列载片的工作流程的一个替代方法是一种阵列载片的工作流程。例如，按照Roche NimbleGen.Inc.提供的HX3载片中所建立的，设计微阵列，如图3所示，其在一个载片上包括3个分开的阵列。排列在载片端部的一个或两个阵列含有重复探针序列，而中间的阵列含有靶探针序列。将例如BioMicro Corporation所提供的盖片放在所有阵列之上，由此创建杂交室并将如上所述的杂交混合物移液至杂交室中。让其进行混合和杂交，其中保持所有2个或3个阵列场之间的液体流通，例如按照所NimbleGen阵列用户指南序列捕获阵列随附所述。按照洗脱工作站(Roche NimbleGen，Inc.)的指定方案洗脱靶序列，其中仅那些杂交在中间阵列上的结合的靶序列从微阵列载片上非选择性地洗脱下来。同样，不想要的重复序列仍然结合在阵列上，而已富集并洗脱的靶基因组序列用于下游测序应用。

在本发明的一个实施方案中，设计杂交探针，其将同时捕获基因组中的重复序列和基因组中的靶序列。在一个实施方案中，使用无屏蔽阵列合成(或如本发明所述将探针在支持体上合成的任何其它方法并不限于微阵列合成方法或过程)，设计包含两个或更多个分开的阵列场的支持体例如微阵列载片并将探针在阵列场中的支持体上合成。设计至少一个阵列场，使其包括能与靶核酸序列杂交的杂交探针，并设计至少一个阵列场，使其包括能与基因组的重复核酸序列杂交的杂交探针(图3A)。本发明并不限于支持体上阵列场的数量，实际上，考虑有至少2、至少3、至少4、至少6、至少12个场用于本发明的方法。

将包含重复序列和靶序列的样品加入到阵列上，通常在盖片装置之下，允许形成杂交室，例如通过将NimbleGen混合器装置(例如HX1混合器，Roche NimbleGen，Inc.，Madison WI)放在微阵列之上由此创建介于载片和混合器之间的封闭的杂交室而形成(图3B)。在预定时间周期内，让探针和样品核酸之间进行杂交，所述时间例如至少1天、至少2天、至少3天、至少4天。在杂交期间，重复序列将会优先与重复探针序列杂交，而靶序列将会优先与靶探针序列杂交。杂交之后，移去盖片(例如混合器)并优选对支持体洗涤一次或多次，以除去未杂交的和/或弱杂交的序列。在优选的实施方案中，例如通过使用NimbleGen洗脱系统(Roche NimbleGen，Inc.)，将与靶探针序列杂交的靶核酸从支持体上洗脱下来(图3C)，而不洗脱已杂交的重复序列。在某些实施方案中，对洗脱的靶标进行测序，例如使用454 GS FLXTitanium系统(454 Corporation)进行测序。

在一个实施方案中，如图4所示，在得自Roche NimbleGen Inc.的HX3阵列或HX1阵列上进行重复消减。这将允许从较大阵列形式进行重复消减。

在某些实施方案中，本发明提供核酸分子，所述分子在DNA分子的一端或两端包含衔接头，例如连接介导的衔接头或LM-PCR衔接头。在某些实施方案中，在富集之前，连接在靶标(片段化DNA)末端的这些衔接头允许进行例如基因组DNA的扩增，再从扩增群体进行靶序列富集。用于衔接头连接的一个示例性方法是通过建立测序文库，例如通过使用这样的文库方案：其中在来自454 Life Sciences(Branford，CT.)的序列分析方案中，使用GS FLX测序仪，对已富集靶标直接测序。然而，本发明不限于用于产生文库和测序的方法并且本实例仅说明本发明的一个可能的实施方案(例如技术人员将会知道替代方法同样适用于本发明)。

在本发明的某些实施方案中，在杂交条件下，使含有已变性(例如单链)核酸分子、优选基因组核酸分子(其可以是经片段化处理的分子)的样品与微阵列基底上的大量寡核苷酸探针接触。

在本发明的某些实施方案中，对含有核酸分子、优选基因组核酸分子(其可以是经片段化处理的分子)的样品进行进一步修饰，使其在片段化DNA的5’端和3’端都包含衔接头序列。衔接序列可以是自我互补的、非互补的或者是Y-形衔接头。衔接序列可用于例如片段化核酸的连接介导的扩增以及用于测序目的。连接衔接头的片段优选通过LM-PCR扩增并在杂交条件下与微阵列基底上的大量寡核苷酸探针接触。

预期的是，本发明并不限于所进行的微阵列测定的种类，事实上有望去除非靶区的任何测定都得益于实施本发明的方法和系统。测定包括但不限于复杂度降低和序列富集、比较基因组杂交、比较基因组测序、表达、染色质免疫沉淀芯片(ChIP-芯片)、表观遗传学(epigenetic)等。

在本发明的实施方案中，通过各种方法将捕获靶核酸的探针固定在基底上。在一个实施方案中，可将探针点样(spot)到载片上(例如美国专利号6,375,903和5,143,854)。在优选的实施方案中，按照以下专利文献所述，通过使用无屏蔽阵列合成仪(MAS)将探针在基底上原位合成：美国专利号6,375,903、7,037,659、7,083,975、7,157,229，所述文献允许将寡核苷酸序列直接在载片上原位合成。

在某些实施方案中，固相支持体是一组珠粒或颗粒。可将珠粒填装在例如柱中，使得可以将靶样品上样并通过柱子并在柱子中进行探针/靶样品的杂交，然后再洗涤并洗脱靶样品序列，以降低基因复杂度并增强靶捕获。在某些实施方案中，为了增强杂交动力学，杂交发生在包含悬浮在水性环境中的多个探针的水溶液中。

在本发明的实施方案中，将用于本文所述的微阵列捕获方法的杂交探针印刷或沉积在固相支持体上，所述支持体例如微阵列载片、芯片、微孔、柱、管、珠或颗粒。基底可以是例如玻璃、金属、陶瓷、聚合物珠等。在优选的实施方案中，固相支持体是微阵列载片，其中使用无屏蔽阵列合成仪在微阵列载片上合成探针。多个寡核苷酸探针的长度可以不同并且取决于实验设计和仅受限于合成这类探针的可能性。在优选的实施方案中，多个探针群体的平均长度为约20至约100个核苷酸，优选约40至约85个核苷酸，尤其是约45至约75个核苷酸。在本发明的实施方案中，杂交探针在序列上对应于基因组的至少一个区并且可使用例如无屏蔽阵列合成(MAS)技术在固相支持体上并行提供。

本发明并不限于捕获样品的类型，事实上考虑的是所用任何样品都同样适用于本发明，包括但不限于基因组DNA或RNA样品、cDNA文库或mRNA文库。在某些实施方案中，本文所用的核酸序列经片段化处理，其中所述片段的平均大小为约100至约1000个核苷酸残基，优选约250至约800个核苷酸残基，最优选约400至约600个核苷酸残基。

在另一个实施方案中，先去除非靶序列、再分离靶序列的两阶段过程的第一阶段是在溶液中进行，如图5和图6所示。因此，第一固相支持体上的重复序列探针先经历聚合酶链式反应(PCR)，以将探针在溶液中扩增(图5)。溶液中的探针再经历第二轮使用5’-生物素化引物的不对称PCR，以获得生物素化单链探针。再在溶液中使生物素化探针与样品杂交(图6)。将第一杂交混合物与包被有链霉抗生物素的固相支持体接触，以去除生物素化杂交的非靶序列。现在已去除非靶序列的样品然后准备用于第二阶段的靶序列捕获，可在固相支持体(例如微阵列)上捕获或可在溶液中捕获。或者，已去除的样品可用于其它下游应用，例如直接测序、比较基因组杂交(CGH)或甲基化研究。

对于两阶段溶液相实施方案，本领域技术人员将会知道，其它特异性结合配偶体可替代生物素和链霉抗生物素对，例如在固相支持体上的与抗半抗原抗体配对的半抗原标记的探针(例如地高辛配基-标记的探针和抗地高辛配基抗体)。

在本发明的实施方案中，靶核酸通常是脱氧核糖核酸或核糖核酸，并且包括通过将一类核酸分子(例如DNA、RNA和cDNA)转化为另一类而体外合成的产物以及含有核苷酸类似物的合成分子。片段化基因组DNA分子是比天然存在的基因组核酸分子更短的具体分子。技术人员可使用众所周知的方案，通过化学、物理或酶学片段化或切割，自较大分子产生随机或非随机大小的分子。例如，化学片段化可使用铁类金属(例如Fe-EDTA)，物理方法可包括超声处理、流体动力压力或喷雾方法(例如参见欧洲专利申请EP 0 552 290)，而酶学方案可使用核酸酶和部分消化反应例如微球菌核酸酶(Mnase)或外切核酸酶(例如Exo1或Bal31)或限制性内切核酸酶。

可包含靶核酸序列的核酸分子群体可从非常小至非常大。具体地讲，核酸分子的大小为至少约100碱基，至少约10千碱基(kb)，至少约100kb，至少约1兆碱基(Mb)，至少约100Mb，尤其是大小介于约100碱基至约10kb之间，介于约10kb至约100Mb之间，介于约100kb至约100Mb之间，介于约1Mb至约100Mb之间。在某些实施方案中，核酸分子是基因组DNA，而在其它实施方案中，核酸分子是cDNA或RNA种类(例如tRNA、mRNA、miRNA)。RNA或cDNA可用于去除丰余转录物，例如核糖体蛋白mRNA或其它高度表达的RNA种类。通过在测序之前去除丰余分子，测定稀有转录物例如调节性RNA的灵敏度将会提高，而对稀有转录物进行测序的成本则会降低。

在本发明的实施方案中，可包含或不包含靶核酸序列的核酸分子可选自动物、植物或微生物。在某些实施方案中，如果仅可使用有限的核酸分子样品，则可先将核酸扩增(例如通过全基因组扩增)，然后再进行本发明的方法。例如，预先扩增可能对于用于法庭目的(例如在法医学等中)而进行本发明的实施方案而言是必要的。

在某些实施方案中，核酸分子群体就是基因组DNA分子群体。杂交探针和随后的扩增子可包含一个或多个序列，其靶向来自一个或多个(例如多个)遗传基因座的一个或多个(例如多个)外显子、内含子或调节序列，至少一个单遗传基因座的全序列，所述基因座的大小为至少100kb，优选至少1Mb，或至少一个上述大小，已知含有SNP的位点，或序列，其限定阵列、尤其是重叠阵列，所述阵列经设计用于捕获至少一个完整染色体的全序列。在某些实施方案中，仅一个杂交探针序列用于捕获靶序列。事实上，本发明并不限于用于捕获靶核酸的不同探针序列的数量。

考虑的是，从包含任何来源的核酸的一种或多种样品中，以纯化或未纯化的形式富集靶核酸序列。来源不一定含有来自生物体的基因组核酸分子的完全互补物。样品，优选来自生物来源，包括但不限于来自患者个体、组织样品或细胞培养物的分离物。靶区可以是几兆碱基的一个或多个连续区段(block)，或者是若干较小的毗邻或不毗邻区域，例如来自一个或多个染色体的所有外显子，或已知含有SNP的位点。例如，包含一种或多种不同序列和随后的源自探针的扩增子的一种或多种杂交探针可支持阵列(例如非重叠或重叠)，所述阵列经设计用于捕获一个或多个完整染色体、一个或多个完整染色体的组成部分、一个外显子、所有外显子、来自一个或多个染色体的所有外显子、所选的一个或多个外显子、一个或多个基因的内含子和外显子、基因调节区等。

或者，为了增加富集所需非独特的或难以捕获的靶标的可能性，可将探针靶向与实际靶序列相关的序列上(例如在同一片段上但彼此分开)，在这种情况下将捕获并富集同时含有所需靶标和相关序列的基因组片段。相关序列可毗邻靶序列或与靶序列空间隔开，但技术人员将会理解，这两部分彼此靠得越近，基因组片段同时含有这两部分的可能性就越大。

在本发明的某些实施方案中，所述方法包括这样的步骤：在变性和与探针杂交之前，将衔接分子或接头分子与片段化核酸分子的一端或两端连接起来。在本发明的某些实施方案中，所述方法还包括用至少一种引物扩增所述衔接头修饰的核酸分子，所述引物包含能与所述衔接分子序列特异性杂交的序列。在本发明的某些实施方案中，在样品变性和与探针杂交之前，在片段化核酸分子的一端或两端提供双链衔接头。在这样的实施方案中，在洗脱后扩增靶核酸分子，产生与原始样品相比其复杂度进一步降低的扩增产物的集合。可使用例如非特异性连接介导的PCR(LM-PCR)，通过多轮扩增来扩增靶核酸分子，并且如有必要，还可通过一轮或多轮针对微阵列探针的选择，进一步富集其产物。按照降低复杂度步骤之后的下游分析应用所需，以例如任意大小或任意核酸序列提供接头或衔接头。衔接接头的范围可以是介于约12个碱基对至约100个碱基对之间，范围包括介于约18碱基对至100碱基对之间，优选介于约20碱基对和44碱基对之间。在某些实施方案中，接头是自我互补的、非互补的或是Y-形衔接头。

衔接分子的连接使得可进行随后的捕获分子扩增步骤。与捕获步骤之前或之后是否发生连接无关，有若干替代实施方案。在一个实施方案中，连接一种衔接分子(例如衔接分子A)，产生在其两端具有相同末端序列的片段群。结果，在潜在的后续扩增步骤中仅用一种引物就足够了。在一个替代实施方案中，使用两种衔接分子A和B。这产生由三种不同类型组成的富集分子群：(i)在一端具有一个衔接头(A)而在另一端具有另一衔接头(B)的片段，(ii)在两端都具有衔接头A的片段，和(iii)在两端都具有衔接头B的片段。如果要进行扩增和测序的话，具有衔接头的富集分子的产生具有显著优势，例如使用454 LifeSciences Corporation GS20和GS FLX仪器(例如参见GS20文库制备手册，2006年12月，和WO 2004/070007；通过引用全部结合到本文中)进行测序。

在优选的实施方案中，本发明的方法用于在杂交测定中去除植物基因组区中的重复区。预期的是，本发明并不限制任何具体的植物物种。用于本发明的植物物种的实例包括但不限于经济相关的和/研究相关的植物物种，例如玉米、大豆、高粱、小麦、水稻、大麦、甘蔗、蔬菜作物、水果作物、饲料作物、草、阔叶植物以及任何其它双子叶植物和/或单子叶植物。

在其它实施方案中，本发明的方法用于具有非常高重复序列含量的非植物基因组，例如鱼类和蝾螈类。

在某些实施方案中，本发明包括试剂盒，所述试剂盒包括用于进行本发明方法的试剂和材料。这样的试剂盒可包括一个或多个基底，其上固定有对来自一个或多个靶遗传基因座的一个或多个靶核酸序列具有特异性(例如对外显子、内含子、SNP序列等具有特异性)的多种杂交探针；多种探针，其限定设计用于捕获至少一个完整染色体的全序列的重叠阵列；对靶基因组中的重复核酸序列具有特异性的杂交探针；扩增引物；进行聚合酶链式反应方法的试剂(例如盐溶液、聚合酶、dNTP、扩增缓冲液等.)；进行连接反应的试剂(例如连接衔接头、T4多核苷酸激酶、连接酶、缓冲液等)；试管、杂交液、洗涤液、洗脱液、磁铁和试管架。在某些实施方案中，试剂盒还包括两种以上不同双链衔接分子。

在某些实施方案中，试剂盒还包括选自以下的至少一种或多种化合物：DNA聚合酶、T4多核苷酸激酶、T4 DNA连接酶、一种或多种阵列杂交液和/或一种或多种阵列洗涤液。在优选的实施方案中，本发明的试剂盒中包括3种洗涤液，所述洗涤液包含SSC、DTT和任选SDS。例如，本发明的试剂盒包含洗涤缓冲液I(0.2％SSC、0.2％(v/v)SDS、0.1mM DTT)、洗涤缓冲液II(0.2％SSC、0.1mM、DTT)和/或洗涤缓冲液III(0.05％SSC、0.1mM DTT)。在某些实施方案中，本发明的系统还包括非选择性洗脱液，例如含有氢氧化钠的溶液。

实施例

以下实施例是用于说明本发明的，而不是以任何方式限制本发明的实施：

实施例1-用于玉米的基于阵列的重复消减-介导的序列捕获(RSSC)

重复阵列设计

每片载片上合成3次定制的720K NimbleGen微阵列(081110_Zea_mays_repeats_cap)，其含有MAGI谷物重复序列数据库(v3.1；http://magi.plantgenomics.iastate.edu/repeatdb.html)和TIGR玉米重复序列数据库(v4；http://maize.jcvi.org/repeat_db.shtml)中的玉米重复元件。可按要求进行设计。阵列上总共有2.1M探针。本研究仅使用含有720K探针的中央亚阵列。

玉米NimbleGen捕获阵列设计

最初选择BAC指纹毗连群上的大基因组区(FPC Ctg138，chr 3)用于靶向。根据2008年5月29日之前发布的物理图谱，总共70个已测序的BAC在该FPC毗连群内并且其序列于2008年5月29日从GenBank下载。物理图谱已更新到最新的发布(Maize golden path AGPv1，Release 4a.53)。有关序列注释和基因预测的细节见图7。总共约1.5Mb(包含44个无序的序列片段和83个非丰余预测的非重复基因)被软屏蔽(were soft-masked)，用于探针设计。根据2008年3月可用的玉米BAC序列的集合，确定了所有探针和探针物理位置的唯一性/重复性。通过跨越靶区以约5bp间距的重叠来构建阵列设计。排除基因组中的平均15聚体频率大于100的探针，同样排除基因组中具有大于5的密切匹配的探针。选择了总共41,555个探针并在阵列上复制至少17次。为了与参考基因组序列一致，将探针重新作图到B73 RefGen_v1(Schnable，P.S.等，Science，326，1112-1115，(2009))。最终的序列间隔限定在最左作图的探针(REGION0042FS000010140)上游1kb到最右作图的探针(REGION0028FS000002032)下游1kb，即在3号染色体上的183062553～185609824bp。分析不包括两个片段(183,315,664-183,553,126bp和183,880,178-183,965,661bp)，因为它们不存在于用于探针设计的序列中。可通过要求081028_Zea_mays_schnable_cap来命令该设计。

通过跨越43个分散的基因靶标以约15bp间距的重叠来构建第二阵列设计。排除基因组中的平均13聚体频率大于500的探针，同样排除基因组中具有大于7的密切匹配(close match)的探针。选择了总共16,406个探针并在阵列上复制44次。该阵列包括约350Kbp的基因组空间，但仅有123Kb存在于探针内。可通过要求080328_maize_cap_springer_1来命令该设计。

玉米序列捕获和454测序

采用已报道的方案(Li，J.等，Genetics 176，1469-1482(2007))，从两种玉米近交系B73和Mo17的14日龄幼苗中分离DNA。根据测序衔接头使用引物，从每种近交系各自产生一个700bp平均插入大小的454GSFLX-Ti测序文库并经历7轮扩增。使用QIAquick/MinElute Spin柱(QIAGEN，Valencia，CA)纯化扩增子。使用NanoDrop ND1000(ThermoScientific，Willmington，DE)测定DNA浓度，并使用AgilentBioanalyzer2100和DNA7500试剂盒(Agilent Technologies，Santa Clara，CA)测定分子量范围。将每种双链测序文库的总共250ng(或更少)以低严格性(37℃)与玉米重复消减杂交，使用Mai Tai系统(Scigene，Sunnyvale，CA)和16ul总NimbleGen杂交混合溶液以及20倍摩尔过量与测序衔接头互补的非延伸引物。将SciGene杂交炉的转速设定在设置2。将两片具有底部垫片阵列(面朝上)和消减阵列(顶部，面朝下)的载片分开而回收杂交混合物。使含有目标文库片段的剩余杂交混合物(仍在垫片上)经历针对目标基因间隔的第二捕获阵列。将捕获阵列反转(探针向下)放在垫片上的杂交混合物之上。在替换时，垫片仍保留在Mai-Tai装置中。然后让捕获阵列再经历4天42.5℃下杂交，旋转器设定在设置2。如前所述地洗涤捕获阵(Albert，T.J.等，Nat.Methods4，903-905(2007))并用来自Roche NimbleGen Inc.的氢氧化钠方法非选择性洗脱，概述如下：

将12.5ul 10M NaOH与987.5ul水混合而得到终浓度125mM。将所得溶液涡旋混匀并离心沉底。将大约400ul该溶液加入到洗脱室并将该室放回水平位置。将样品孵育10分钟。用移液器将液体经移液器头吸打3次进行混合并在最后一次混合后将液体转移到干净的1.5ml管中。用小口径移液器头取走任何残余液体并加到1.5ml管中。最后，加入中和溶液(16ul 20％乙酸)并用Qiagen MinElute柱提纯洗脱分子。

经非选择性洗脱的分子再通过测序衔接头(12轮)进行扩增并且所得产物经纯化和定量测定。按照454的推荐，将双链的经非选择性洗脱的文库稀释用于emPCR并用454 GSFLX-Titanium方案，在制造商条件下，使用4区或16区Titanium PTP来测序。在emPCR之前，在热循环仪(thermal cycler)中将稀释的双链洗脱文库在95℃加热处理2分钟。发现该加热步骤对于避免在emPCR中的虚假扩增(amplificationassociated artifact)而言是必要的。用LUCY程序(Chou，H.H.& Holmes，M.H.，Bioinformatics，17，1093-1104(2001))，将低质量(参数：最大平均误差＝0.01，末端最大误差＝0.01)的原始454捕获读数和短454读数(＜200bp)去掉。

数据分析

为了评价命中靶标率(on-target rate)，将所有过滤的B73和Mo17所捕获的454读数与B73参考基因组序列进行比对，所述参考序列即B73_RefGen_v1(Schnable，P.S.等，Science，326，1112-1115，(2009))BLAST比对标准：95％相似性和454读数的5’端和3’端的总未比对区＜＝15bp)。其最佳匹配与靶区重叠的序列读数就归类为命中靶标。对于可在Interval 377之外作图的探针而言，靶侧向同源区定义为可同时在Interval 377内外作图的这些探针的非丰余序列组。具有与靶侧向同源区重叠的最佳匹配的序列读数就认为是命中侧向同源读数(on-paralog read)。全基因组CGH数据得自NCBI GEO数据库(GSE16938)(Springer等，PLos Genetics，5(11)，2009)。仅靶区内的CGH探针用于计算正规化覆盖度。使用NimbleScan(2.4版，NimbleGen)创建GFF文件，用于数据显示。用于分析管线的Shell和AWK脚本可应要求而得到。使用VISTA(LAGAN比对程序，采用默认设置)进行B73和Mo17等位基因序列之间的序列比对。CAP3(Huang，X.&Madan，A.，Genome Res.9，868-877，(1999))用于拼接来自43-基因阵列的Mo17读数(所用参数：重叠％同一性＞＝95，重叠长度＞＝50bp)。

结果与讨论

过去20年已经尝试了若干降低基因组复杂度的方法，包括EST测序、甲基-过滤和高-Cot DNA选择(综述见Barbazuk等，Bioassays 27，839-848，(2005))。这些方法中的每一种都已成功降低基因组复杂度，但都不能象基于杂交的序列捕获那样以靶定方式递送目标序列。在我们使用Cot1 DNA作为封闭剂的最初的实验中，我们发现，与人Cot1DNA相比，玉米Cot1 DNA改善了序列捕获的性能(数据未显示)。延伸该想法，假定对于许多作物基因组而言的适合的序列捕获技术将会需要产生物种特异性封闭剂，用于许多重要作物的每一种。已公开的玉米Cot1产生方案仅有约10％收率，使规模化生产不能满足于预期的基因组DNA消耗(Zwick，M.S.等，Genome，40，138-142(1997))。此外，在我们手中，在使用先前已公开的基于Cot1的方案时，在20次独立尝试中有16次得到成倍富集，其数量级至少低于目前研究所获得的那些(Schnable，Springer，Barbazuk和Jeddeloh，未发表的观察结果)。因此，我们研究了两阶段微阵列序列捕获的应用，其可得到具有一致降低复杂度的样品。可设计重复消减微阵列，以去除含有高度重复序列的DNA片段。

基于阵列的重复消减序列捕获(RSSC)过程见图1。RSSC包括两步：降低捕获文库中的重复序列的丰余性并从所得降低复杂度文库中捕获靶序列。公众可得的454 GSFLX-Ti文库构建方案用于产生适合单链A-B的测序文库，用于平均插入大小为约700bp的B73或Mo17近交系。再通过有限循环的PCR，使用设计用于454 Ti A/B衔接头的引物，扩增该文库，纯化并进行质量检测。然后，使用通过跨越谷物重复序列数据库中的玉米检索号的重叠探针而创建的玉米重复序列阵列，执行RSSC。除了玉米重复阵列之外，还设计了两个特异性捕获阵列。第一捕获阵列(Interval 377阵列)靶向来自B73近交系的3号染色体的约2.2Mb基因组间隔。该阵列根据一系列70个重叠BAC的序列而设计。Interval 377阵列模拟其它作物基因组的情况，在所述基因组中，测序的基因组的特定区处于研究中或者覆盖目标区的若干测序的BAC可得自其它未测序的基因组。当染色体大至大基因组(例如小麦或松树)时，人们可以预期这样的情况。第二捕获阵列(43-基因阵列)靶向分散在整个基因组中的43个基因。43-基因阵列模拟这样的情况：其中在其它未测序基因组中的若干基因处于研究中。

仅对于Interval 377阵列，在探针设计之前，间隔中的重复序列被屏蔽(参见方法和附图1)。下表1提供了两种阵列设计相关的概括统计。

表1

^a使用B73_RefV1序列作为参考序列(方法)

^b参见附图1的详细方法

^c靶区由用于探针合成的非丰余序列组组成

^d靶区长度/初级靶间隔长度

^e根据与靶区重叠的“过滤基因组”的成员⁶

使用两个阵列和两种基因型的玉米捕获数据的概述性统计见下表2。

表2

^a两个B73区捕获合并计算

^b计算是根据所有基因合并数据

^c去除低质量读数之后剩余的读数(方法)

^d读数作图到与靶区重叠的区域

^e命中靶标读数的百分率/(靶区长度/B73参考的大小[2.3Gb⁶])

^f读数作图到与靶侧向同源区重叠的区域

^g未检测

^h命中侧向同源读数的百分率/(靶侧向同源区长度/B73参考基因组的大小[2.3Gb⁶])

最后，使用捕获自B73和Mo17的读数的SNP预测见下表3。

表3

^a两组源自B73和Mo17的序列读数用于SNP预测：所有过滤读数(“全部”)和命中靶标读数(“靶”)。

^b高质量SNP是在所有比对读数中都是单等位基因的那些。另外，将Interval 377的重复DNA区内鉴定的SNP都移出(方法)。

RSSC的更宽广的适用性

使用所述方案同时获得限定染色体间隔和分散基因集合的约1,800-3,000倍的富集。将这样的富集与人类基因组(Albert，T.J.等，Nat.Methods 4，903-905(2007))所获得的进行比较。对于这两种捕获，80-98％的靶碱基被所捕获的序列所覆盖。每1,000命中靶标读数的靶区平均覆盖类似于从两种不同阵列(1.3相对于1.1)所捕获的，表明所述方法的总体稳定性。因此，RSSC方案提供了对玉米基因组的靶基因组区进行再测序的方法，并且有望显示出类似于其它基因组的表现水平。设计用于在计算机上(in silico)重复消减所需试剂的能力明显减少了应用序列捕获跨越不同物种的技术障碍。因为仅使用有限量的全基因组鸟枪测序数据就可发现高度重复元件，所以结合下一代测序技术，可以用有限的资源投入而设计物种特异性重复消减阵列。因此，现在的RSSC方案不仅可用于具有测序参考基因组的物种，而且还可用于其基因组尚未被测序的那些。重要的是，在完整测序参考基因组不存在时进行的多态性分析将根本不会烦琐。该技术可用于研究群体遗传学、控制作物的定量变异(quantitative variation)和等位基因开发的基因座的克隆、模式生物和重要的是非模式物种。

实施例2-用于玉米的基于溶液的重复消减-介导的序列捕获(RSSC)

重复消减阵列

合成定制的NimbleGen 3x 720K序列捕获微阵列，其含有MAGI谷物重复序列数据库(v3.1；http://magi.plantgenomics.iastate.edu/repeatdb.html)和玉米重复序列数据库(v 4；http://maize.jcvi.org/repeat_db.shtml)中的玉米重复元件。每种探针在5和3引物端同时含有15聚体序列，以利于用原位引物扩增。阵列上总共有2.1M探针，但仅使用含有720K探针的中央亚阵列。

玉米NimbleGen序列捕获阵列设计

本阵列设计与实施例1中的相同。

玉米序列捕获文库

采用已报道的方案(Li等，2007)，从近交系B73的14日龄幼苗中分离DNA。产生700bp平均插入大小的454GS FLX-Titanium测序文库并根据测序衔接头使用引物进行8轮扩增。使用Qiagen MinElute柱纯化扩增子并使用NanoDrop ND1000进行定量测定。

探针库和重复消减

溶液相重复消减阵列用来自Grace Bio-Labs(Bend，OR)的垫片阵列(gasket array)覆盖并在阵列表面上经历30个PCR循环，原位产生重复探针库，如以下文献所述：WO2009053039，Albert和Rodesch：Methods and System for the Solution Based Sequence Enrichment andAnalysis of Genomic Regions(基于溶液的基因组区的序列富集和分析的方法和系统)，通过引用全部结合到本文中。用Qiagen Qiaquick柱提纯原位PCR产物并在水中洗脱。用NanoDrop ND1000定量测定样品并稀释至浓度为25ng/μl。该稀释的探针库再作为模板用于不对称PCR。不对称PCR使用标记了生物素的一种过量引物，迫使双链DNA仅有一条链扩增。生物素标记的引物容许探针重复元件杂交复合体的移出，即通过使生物素与链霉抗生物素珠(Invitrogen，Inc.(Carlsbad，CA))结合。对正向链和反向链分别进行15个循环的不对称PCR，产生探针库，如WO 2009053039所述。用NanoDrop ND1000定量测定正向链和反向链并将100ng每种探针混合成一个1.5ml。在单独的管中，加入500ng玉米Titanium文库以及与测序衔接头互补的100倍摩尔过量的非延伸引物。将两管在Eppendorf Vacufuge(Hauppauge，NY)中在60℃干燥10分钟。为使探针复水，加入4.8μl水并将管子放入加热块中在70℃维持10分钟。同时，将8.0μl杂交缓冲液和3.2μl组分A加入到样品中并放入加热块中在95℃维持10分钟。孵育之后，将两管涡旋振荡并离心沉底。将杂交缓冲液中的DNA文库和组分A加入到探针库中，用移液器头混合，然后用同一移液器头转移至0.2mlPCR管中。将探针库、DNA和非延伸引物放入热循环仪中，在95℃下2分钟，确保试验DNA完全变性，然后在37℃下孵育8-24小时。

为了结合重复元件，需要将样品与链霉抗生物素珠一起孵育。该过程结合生物素标记的探针，其与重复DNA杂交，允许所述元件的移出。首先，将100μl珠移入1.5ml管并用磁性颗粒收集器(MPC)(Invitrogen，Inc.，Carlsbad，CA)使其在管内沉淀并除去所有液体。珠粒用珠结合和洗涤缓冲液洗涤2次，所述缓冲液组成如下：10μl 1摩尔TRIS-HCl、2μl 0.5摩尔EDTA、400μl 5摩尔NaCl和588ul无菌水。第二次洗涤之后，用MPC使珠粒沉淀到管壁并除去所有缓冲液。将已孵育样品加入到含有珠粒的管内并轻微涡旋振荡并离心沉底，使珠粒重悬于样品溶液。通过将管子在热循环仪中47℃下孵育45分钟，使生物素与链霉抗生物素珠结合。以15分钟间隔用移液器头混合样品，以防珠粒沉降。孵育之后，将样品放回MPC，以使含有生物素标记的探针和重复DNA元件复合体的珠粒沉淀。再从含有结合珠粒的管中移出无重复序列的DNA水溶液并置于干净的1.5ml管中。测定样品体积并加入以下混合物使其达到16μl∶4.8μl水、8μl杂交缓冲液和3.2μl组分A。按照固相重复消减中所描述的，再让样品经历标准序列捕获工作流程。

测序结果见下表4：

表4

实施例3-油菜(Canola)的基于溶液的重复消减-介导的序列捕获(RSSC)-重复消减阵列

于2009年4月从GenBank下载芜青北京亚种(Brassica rapa subsppekinensis)的全BAC序列。收集到总共970个BAC序列，代表125.4Mbp芸薹属基因组。RepeatScout应用程序集(v1.0.5)用于定义一组重复序列。简而言之，build lmer table应用程序用于构建频率表，使用应用程序的默认设置。然后具有频率表的RepeatScout应用程序用于创建一组12316个重复序列，总共10.2Mbp。重复序列大小范围为50bp至15670bp，平均大小为829bp和中位大小为236bp。对于这些重复序列，再通过重叠而产生序列捕获探针。通过油菜的117Mbp全基因组鸟枪(WGS)测序读数的重叠，产生额外的探针。从上述芸薹属BAC序列产生13聚体频率直方图并用于计算每种探针中存在的平均13聚体频率。平均13聚体频率大于指定阈值的探针就归类为重复。然后将重复探针序列的非丰余组用于阵列设计。对于固相设计，50bp重叠间隔用于重复序列组，而100bp重复间隔用于WGS序列。100的阈值用于将来自WGS序列的探针归类为重复。将探针以正向和反向放入阵列中。总共有296642(2x 148321)种探针来自重复序列组和420018(2x 210009)种探针来自WGS序列。对于溶液相设计，25bp重叠间隔用于重复序列组，而50bp重叠间隔用于WGS序列。80的阈值用于将来自WGS序列的探针归类为重复。将探针仅以正向放入阵列。总共有287813种探针来自重复序列组和424804种探针来自WGS序列。

油菜NimbleGen序列捕获阵列设计

总共769个油菜EST序列用作靶序列，共有514kb。以1bp重叠间隔产生序列捕获探针，大小范围为59-97bp。选择总共90000种探针以代表EST序列，并将这些探针在阵列设计上复制8次。

油菜的工作流程与玉米相同，除了以下不同之外：从油菜基因组设计特定重复消减阵列和序列捕获阵列。使用100ng Titanium文库，在油菜中进行序列捕获，而在玉米中500用于500ng。所有其它过程都与以上在玉米描述和Roche NimbleGen用户指南所述的相同。

测序结果见下表5：

表5

本发明所提及的所有出版物和专利都通过引用结合到本文中。对本发明所述方法和组合物作出的各种修改和改动都是本领域技术人员显而易见的，只要不偏离本发明的范围和精神。尽管用具体的优选实施方案描述了本发明，但是应当理解的是，不应当将要求保护的本发明过分地限制在这些具体的实施方案中。当然，对相关领域技术人员显而易见的用于实施本发明所述方式所作出的各种修改都包括在所附权利要求书的范围之内。

Claims

1.一种在样品中富集靶核酸序列的方法，所述方法包括：

a)将包含核酸序列的样品施加到第一组杂交探针并让其杂交，其中所述核酸序列包括非靶核酸序列和靶核酸序列，所述杂交探针包含与样品中的非靶核酸序列互补的序列，

b)将包含未杂交靶核酸序列的溶液与已杂交非靶序列分开，

c)将所述包含未杂交靶核酸序列的溶液施加到第二组杂交探针并让其杂交，其中所述第二组杂交探针包含与所述靶核酸序列互补的序列，和

d)从第二组杂交探针上洗脱所述已杂交靶核酸序列，从而富集样品中的靶核酸序列。

2.权利要求1的方法，其中步骤a)和c)发生在固相。

3.权利要求2的方法，其中所述固相是微阵列。

4.权利要求1的方法，其中步骤a)和c)中的至少一步发生在溶液中。

5.一种在包含靶核酸和非靶核酸的样品中富集靶核酸序列的方法，所述方法包括：

a)产生第一组杂交探针，所述探针包含与非靶核酸序列互补的序列；

b)产生第二组杂交探针，所述探针包含与靶核酸序列互补的序列；

c)将第一组探针与所述样品混合，让第一组探针与非靶核酸杂交；

d)从所述样品中移出已杂交的第一组探针，构成包含靶核酸序列的第一富集溶液；

e)将第二组探针与第一富集溶液混合，让第二组探针与靶核酸杂交；

f)移出已杂交的第二组探针；和

g)将靶序列从已杂交的第二组探针上洗脱下来，构成包含靶核酸序列的第二富集溶液。

6.权利要求5的方法，其中步骤c)发生在微阵列上。

7.权利要求5的方法，其中第一组杂交探针在步骤a)中在溶液中产生并且杂交步骤c)发生在溶液中。

8.权利要求7的方法，其中微阵列用于在步骤a)中在溶液中产生第一组杂交探针。

9.权利要求8的方法，其中第一组杂交探针是通过第一聚合酶链式反应在步骤a)中在溶液中从所述微阵列中产生的。

10.权利要求9的方法，其中在步骤a)中通过第一聚合酶链式反应在溶液中产生的第一组杂交探针进一步通过第二聚合酶链式反应而扩增。

11.权利要求10的方法，其中第二聚合酶链式反应是不对称的，优选进一步包括在不对称聚合酶链式反应中引入特异性结合对成员。

12.权利要求5-11中任一项的方法，其中步骤b)中的第二组杂交探针是在微阵列上产生并且步骤e)发生在所述微阵列上。

13.权利要求5-11中任一项的方法，其中步骤b)中的第二组杂交探针是在溶液中产生并且步骤e)发生在溶液中。

14.权利要求13的方法，其中微阵列用于在步骤b)中在溶液中产生第二组杂交探针。

15.权利要求14的方法，其中在步骤b)中的第二组杂交探针通过在溶液中第一聚合酶链式反应从所述微阵列产生。

16.权利要求15的方法，其中在步骤b)中通过第一聚合酶链式反应在溶液中产生的第二组杂交探针进一步通过第二聚合酶链式反应而扩增。

17.权利要求16的方法，其中第二聚合酶链式反应是不对称的，优选进一步包括在不对称聚合酶链式反应中将特异性结合对成员引入已扩增杂交探针。

18.一种在包含靶核酸和非靶核酸的样品中富集靶核酸序列的方法，所述方法包括：

a)将样品施加到包含杂交探针的基底上以使所述样品与所述探针杂交，其中所述探针包含与非靶核酸序列互补的序列和与靶核酸序列互补的序列，并且其中所述与非靶核酸序列互补的序列和与靶核酸序列互补的序列位置分开，和

b)从所述探针上选择性洗脱已杂交的靶核酸序列，由此富集样品中的靶核酸序列。