CN102272334A

CN102272334A - 新基因组测序策略

Info

Publication number: CN102272334A
Application number: CN2010800048246A
Authority: CN
Inventors: M·J·T·范艾杰克; A·J·范托恩; A·A·A·W·扬森
Original assignee: Keygene NV
Current assignee: Keygene NV
Priority date: 2009-01-13
Filing date: 2010-01-13
Publication date: 2011-12-07
Anticipated expiration: 2030-01-13
Also published as: EP2379751B1; EP2379751A1; JP2012514977A; WO2010082815A1; US20130196859A1; CN102272334B; ES2403312T3

Abstract

本发明涉及一种测定基因组序列的方法，包括步骤：通过对BAC克隆池的片段末端进行测序，提供样品基因组的物理图；提供一组来自样品基因组的序列读数，产生物理图谱和序列读数的重叠群。

Description

新基因组测序策略

技术领域

本发明涉及从头全基因组测序的有效方法。本发明涉及大规模核酸测序，特别是对生物的基因组或或其中一部分测序的方法。本发明涉及基于高通量测序技术测定优选复杂(即大)基因组的序列的改良策略。

背景技术

许多测序设计的目的是首次测定目标生物的完整基因组(从头基因组草图测序)。拥有基因组序列草图能鉴定生物的有用遗传信息，例如鉴定异种或同种不同个体之间基因改变的起源。因此，本领域对于能够以合理成本和精力从头测定个体(无论是人、动物或植物)完整基因组序列的技术有广泛的需求。这个目标通常表现为1000$-基因组，即最高耗费1000$来测定个体完整基因组序列(不考虑货币波动)。然而，实践中1000$基因组并不必定依赖于从头基因组测序和组装策略，也可基于重测序法。后一种情况下，重测序的基因组并不从头组装，但其测序得到的DNA与现存的感兴趣生物的参考基因组序列比较(或作图)。因此，重测序法技术上挑战较小，花费较少。为了清楚起见，本发明集中于从头基因组测序策略，其能用于缺乏参考基因组序列的生物。

目前的尝试各种各样，获得了多种多样和迅速增加的结果。但是，目标还未实现。以直截了当的方式对完整基因组测序和组装仍然在经济上并不可行。本领域仍然存在对于改良从头基因组测序策略的需要。

WO03/027311描述了一种克隆阵聚集鸟枪测序法(CAPPS)。该方法使用来自不同(BAC)克隆池的随机序列读数。基于该随机读数的交叉组装，可从多个克隆产生序列重叠群，并可产生相对于序列的克隆的图。该出版物更详细描述了在多维收集池，例如两维形式中BAC文库的产生，该两维形式是每个池和列含有148个BAC克隆(148x148形式)。使用CAPPS，以平均4-5X覆盖率对BAC池进行测序，在两维合并聚集方案中产生每BAC 8-10X覆盖率。在两维聚集方案中，基于在单独一列和单独池中出现的对BAC独特的序列，对每个BAC分别产生重叠群。然后，将这些BAC组装成基因组的重叠群。出版物仅基于5个BAC演示了该技术。该出版物未提及数据加工的问题。然而该技术的缺点之一是，使用随机剪切的片段需要大量读数，来以8-10倍的序列冗余水平覆盖基因组，使得该方法在大规模下非常耗力。另外，其不产生基于序列的物理BAC图。

US2007/0082358描述了一种从头组装序列信息的方法，该方法基于克隆分离和扩增的单链基因组DNA文库，使用产生有序限制性图的限制性酶，结合全基因组光学限制性作图产生完整基因组鸟枪序列信息。

US2002/0182630公开了一种通过比较亚序列的BAC重叠群作图法。该方法旨在避免与重复序列有关的困难，以及通过在重复富集的区域产生桥来生成重叠群。

以BAC为基础测定物理图谱可基于BAC文库测序(基于序列的BAC克隆物理图谱)，使用例如Keygene在WO2008/007951中描述的方法(也称作“全基因组作图”或WGP)。简单说，WGP涉及产生至少一部分基因组的物理图谱，包括步骤：从样品DNA产生人工染色体文库，聚集克隆，用限制性酶消化聚集的克隆，连接含标识物的接头，扩增连接有含标识物的接头的限制性片段，将克隆的扩增子与克隆相联并排序片段，以产生重叠群，从而建立物理图谱。

虽然在高通量测序中有许多发展，高精确测定基因组序列草图仍然被认为是昂贵和耗时的。现有方法仍需要补充，以形成产生基因组序列草图的有效且经济的方法。？特别是，目前的高通量测序技术提供了相对较短读数(直到400nt)，产生的较短重叠群难以组装成更大重叠群，并对计算能力提出高要求。

发明概述

本发明人发现，将基于克隆的基因组作图与使用高通量测序技术的样品(基因组)DNA的(高通量)测序结合起来，为高效迅速测定基因组序列草图提供了卓越的策略。通过从测序读数产生重叠群，并将这些读数锚定在全基因组作图所得的BAC(或YAC或任何其它大插入克隆载体)-重叠群中，产生长度和密度都有所提高的重叠群。因此，获得了一种基因组序列草图，其通过较少的重叠群生成，从而提高了其质量。

定义

群聚：术语“群聚”意味着在相同或相似核苷酸的短或长区段的存在下，比较两个或多个核苷酸序列，并基于相同或类似序列的短(或长)区段将具有某最小水平序列同源性的序列集合在一起。

比对：将多个序列以表格形式放置，以尽可能，例如通过引入缺口获得比对中不同序列之间的相同序列区域。本领域中已知几种核苷酸序列的比对方法，在下文中进一步详述。

AFLP：AFLP指一种选择性扩增核酸的方法，该方法基于用一种或多种限制性内切核酸酶消化核酸，产生限制性片段，将接头与限制性片段连接，用引物扩增连有接头的限制性片段，至少一种引物(部分)与接头互补，(部分)与剩余限制性内切核酸酶互补，且还在引物3’末端含有至少一种随机选自A、T、C、或G(或在有些情况下是U)的核苷酸。AFLP不需要任何现有序列信息，可在任何起始DNA上进行。一般，AFLP包括以下步骤：

(a)用一种或多种特异性限制性内切核酸酶消化核酸(特定是DNA或cDNA)，使得DNA片段成为一系列对应的限制性片段；

(b)将如此获得的限制性片段与双链合成寡核苷酸接头连接，其一端与限制性片段的一端或两端相容，从而产生连有接头的起始DNA的限制性片段；

(c)使连有接头的限制性片段在杂交条件下与一种或多种寡核苷酸引物接触，该引物被定向到接头，且可在其3’末端包含选择性核苷酸；

(d)通过PCR或相似技术扩增与引物杂交的连有接头的限制性片段，从而使杂交的引物沿着与引物杂交的起始DNA的限制性片段延伸；

(e)检测、鉴定或回收由此获得的扩增或延伸的DNA。

AFLP因此提供了连有接头的片段的可重复亚组。AFLP如EP 534858，US6045994和Vos等1995所述。AFLP：一种DNA指纹分析的新技术。核酸研究(NucleicAcids Research)23(21)：4407-4414。引用这些出版物进一步详细描述了AFLP。AFLP通常作为有效、强大和可重复的复杂度减少的技术使用。

选择性碱基或选择性核苷酸：位于引物3’末端，引物的一部分与接头互补且一部分与剩余限制性位点互补，选择性碱基随机选自A，C，T或G(或可能的情况下为U)。通过用选择性碱基延伸引物，随后的扩增仅仅得到连有接头的限制性片段的可重复亚组，即仅用携带选择性碱基的引物能扩增出的片段。可在引物3’端加入1-10个选择性核苷酸。一般，1-4个足够。两种引物都可含有不同数量的选择性碱基。每加入一个选择性碱基，亚组中扩增的连有接头的限制性片段数量就减少约4倍。通常，用于AFLP的选择性碱基的数目以+N+M表示，其中一个引物携带N个选择性核苷酸，另一个引物携带M个选择性核苷酸。因此，EcoRI/MseI+1/+2AFLP是用EcoRI和MseI消化起始DNA，连接合适的接头，并用引物扩增，一种引物针对EcoRI限制性位点，携带1个选择性碱基，另一种引物针对MseI限制性位点，携带2个选择性核苷酸。用于AFLP的在3’末端携带至少一种选择性核苷酸的引物也被称作AFLP-引物。在3’末端不携带选择性核苷酸，实际上与接头和剩余限制性位点互补的引物有时被称作AFLP+0引物。术语选择性核苷酸也被用于目标序列的核苷酸，这些核苷酸位于接头区域附近并用选择性引物鉴定，因而为人知晓。

测序：？术语测序指确定核酸样品如DNA或RNA中的核苷酸顺序(碱基序列)。有许多技术可用，例如桑格测序和高通量测序技术(也称作下一代测序技术)，例如罗氏应用科学基于焦磷酸测序提供的GS FLX平台。

限制性内切核酸酶：限制性内切核酸酶或限制性酶是一种酶，其识别双链DNA分子中的特定核苷酸序列(靶位点)，并能在每个靶位点处或附近切开DNA分子双链，得到钝端或交错末端。

高频剪切酶和低频剪切酶：限制性酶通常具有不同核苷酸数目的识别序列，从3、4个(例如MseI)到6个(EcoRI)，甚至8个(NotI)。所用的限制性酶可以是高频剪切或低频剪切。术语“高频”在此特别相对于术语“低频”使用。高频剪切内切核酸酶(即高频剪切酶)是识别序列相对较短的限制性内切核酸酶。高频剪切酶通常识别3-5个核苷酸并随后剪切。因此，高？频剪切酶平均每64-1024个核苷酸剪切DNA序列一次。低频剪切酶是具有相对较长识别序列的限制性内切核酸酶。低频剪切酶通常识别6个或更多核苷酸并随后剪切。因此，低频6-剪切酶平均每4096个核苷酸剪切DNA序列一次，得到更长的片段。再次发现，高频和低频的定义是彼此相对的，意味着当4bp限制性酶例如MseI与5-剪切酶例如AvaII组合使用时，AvaII视作低频剪切酶，而MseI为高频剪切酶。

限制性片段：用限制性内切核酸酶消化产生的DNA分子被称作限制性片段。用特定限制性内切核酸酶消化任何给定基因组(或核酸，不论起源)，得到一组不同的限制性片段。通过限制性内切核酸酶剪切得到的DNA片段可在各种技术中进一步使用且可用例如凝胶电泳检测。

连接：连接酶催化的酶反应，其中两条双链DNA彼此共价连接，称作连接。一般说，两条DNA链共价连接，但也可通过化学或酶修饰链末端之一来防止其中一条链连接。在此情况下，共价连接将仅发生在两条DNA链的一条上。？

合成寡核苷酸：可化学合成的优选具有约10-50个碱基的单链DNA分子被称作合成寡核苷酸。一般这些合成的DNA分子设计成具有独特或所需的核苷酸序列，虽然也可能合成具有相关序列的分子(其在核苷酸序列内的特定位点具有不同核苷酸组成)家族。术语合成性寡核苷酸用于指具有经设计或所需的核苷酸序列的DNA分子。

接头：碱基对数量有限的短双链DNA分子，例如长约10-30个碱基对，设计成可与限制性片段的末端连接。接头通常由两条核苷酸序列部分互补的合成性寡核苷酸组成。当在合适条件下在溶液中混合两种合成性寡核苷酸时，它们彼此退火，形成双链结构。退火后，接头分子的一端被设计成与限制性片段末端相容且可与其连接；接头的另一端可设计成不能连接，但并不总是这样(双连接接头)。

连有接头的限制性片段：被接头戴帽的限制性片段。

引物：一般，术语引物指能够引发DNA合成的DNA链。DNA聚合酶不能在没有引物的情况下从头合成DNA：在一个反应中只能延伸一条现有DNA链，其中互补链被用作模板，指导组装的核苷酸顺序。我们将在聚合酶链式反应(PCR)中使用的合成寡核苷酸分子称作引物。

DNA扩增：术语DNA扩增通常指用PCR体外合成双链DNA分子。应注意存在其它扩增方法，也可在本发明中使用而不违背其要旨。

核酸：本发明的核酸可包括嘧啶和嘌呤碱基的任何聚合物或寡聚物，优选胞嘧啶、胸腺嘧啶、尿嘧啶、腺嘌呤和鸟嘌呤(见Albert L.Lehninger，生物化学原理(Principles of Biochemistry)，793-800(Worth Pub.1982)其全部内容作为引用在此并入)。本发明考虑了任意脱氧核糖核苷酸、核糖核苷酸或肽核酸组分，以及其化学变体，例如这些碱基的甲基化、羟甲基化或糖基化形式等。组合物中的聚合物或寡聚物可以是异源或同源的，可以从天然存在的来源中分离，或者人工或合成产生。另外，核酸可以是DNA或RNA，或其混合物，可永久或暂时以单链或双链形式存在，包括同源双链、异源双链、和杂交状态。

复杂性减少：术语复杂性减少用于指一种方法，其中通过产生或选择样品亚组来减少核酸样品如基因组DNA的复杂性。该亚组可代表全部(即复合)样品，优选是可重复亚组。可重复在此表示当用相同的方法和实验条件减少同一样品的复杂性时，可获得相同或至少相当的亚组。用于复杂性减少的方法可以是任何本领域已知的复杂性减少的方法。复杂性减少的方法的例子包括例如AFLP(Keygene N.V.，荷兰；见例如EP 0 534 858)，Dong所述的方法(见例如WO 03/012118，WO 00/24939)，索引连接(Unrau等，见下)，等。用于本发明的复杂性减少法的相同之处是它们都可重复。可重复意味着当以相同方式减少相同样品的复杂性时，获得相同的样品亚组，这与许多随机复杂性减少法不同，例如显微切割、随机剪切、或使用表达所选组织中转录的部分基因组的mRNA(cDNA)，其可重复性取决于组织选择和分离时间等。

标记：术语标记指在核酸样品中加入序列标签，从而使其与第二种或多种核酸样品相区别。标记可通过例如在复杂性减少过程中加入序列标识物进行，或使用任何本领域已知的其它方法，如单独连接步骤。这种序列标识物可以例如是长度不同但确定的独特碱基序列，它特别用于鉴定特定核酸样品。典型的例子是ZIP序列，在本领域作为独特杂交检测的常用标记(Iannone等Cytometry 39：131-140，2000)。使用基于核苷酸的标签，可在进一步加工后确定样品、克隆或扩增产物的来源。在组合源于不同核酸样品的加工产物的情况下，可用不同标签鉴定不同核酸样品。

标识物：一种短序列，它能加到接头或引物上，或包含在其序列中，或用作标记，以提供独特的识别物(即条码或指示)。这种序列标识物(标签)可以是长度不同但确定的独特碱基序列，通常为4-16bp，用于鉴定特定核酸样品。例如4bp标签能够产生4^4＝256个不同标签。使用这样的标识物，可在进一步加工后测定PCR样品的来源，或将片段与克隆联系。还可用这些基于序列的识别物来区分收集池中的克隆。因此，识别物还可以是样品特异性、收集池特异性、克隆特异性、扩增子特异性等。在合并源于不同核酸样品的加工产物的情况下，通常使用不同识别物鉴定不同核酸样品。识别物优选彼此至少有两个碱基对差异，优选不含两个相同的连续碱基，以防止误读。识别物功能有时可以与其它功能组合，例如接头或引物，可位于任何便利位置。

标记文库：术语标记文库指核酸被标记的文库。

比对和比对物：术语“比对”和“比对物”表示基于相同或相似核苷酸的短或长区段，比较两种或多种核苷酸序列。本领域中已知几种核苷酸序列的比对方法，将在下文中进一步阐述。

术语“重叠群”用于DNA序列分析，指衍生自具有连续核苷酸序列的两个或多个DNA片段的DNA组装连续区段。因此，重叠群是一组重叠的DNA片段，其提供了基因组中的部分连续序列。“支架”指一系列顺序正确的重叠群，但不以连续顺序连接，即包含缺口。重叠群图也通过详述一组克隆中的重叠关系描绘了基因组连续区域的结构。例如，术语“重叠群(复数)”包含一系列克隆载体，其顺序是每个序列与其相邻载体重叠。连接的克隆然后可以手工或优选用合适的计算机程序，例如FPC，PHRAP，CAP3等编成重叠群组。

术语“支架”用于通过含(未知)已知大小缺口的配对末端测序产生的重叠群。术语“超支架”用于通过WGP、BAC重叠群彼此连接的支架。

高通量筛选：高通量筛选通常缩写为HTS，是一种特别涉及生物学和化学领域的科学实验方法。通过现代机器人技术与其它专业实验室硬件的组合，研究者能够同时有效筛选大量样品。

上游或下游：以DNA序列方向(5’到3’)形式来描述DNA序列特征的用语。下游(或3’)是DNA序列3’末端的方向，而上游(5’)是DNA序列5’端的方向。常规的单链DNA序列、基因图谱和RNA序列是根据转录(或翻译)从左到右绘制的，因此下游在右(上游在左)。术语下游或上游可用于确定DNA序列中各种DNA片段彼此之间的相对位置。例如对于AFLP片段来说，片段中的选择性核苷酸位于接头上游，但引物中的选择性核苷酸位于引物的接头互补区段的下游(即其3’)。

附图说明

图1是全基因组图谱和使用BAC衍生序列的全基因组测序以及产生重叠群和支架的鸟枪测序的组合示意图。

图2是全基因组图谱和使用BAC衍生序列的全基因组测序以及与BAC-衍生重叠群互补且填充BAC重叠群之间缺口的鸟枪测序的组合示意图。

图3是对甜瓜产生BAC衍生重叠群获得的重叠群大小分布示意图。

图4是引物结构及其与接头和标识物相互作用的示意图。

图5是支架产生的示意图。块是BAC重叠群，水平线是WGS支架，垂直线是连接的标签。

图6是分枝支架产生的示意图。块是BAC重叠群，水平线是WGS支架，垂直线是连接的标签。水平虚线显示了与同一BAC重叠群连接的另一WGS支架，从而产生两个分枝。

发明详述

本发明人发现了一种新的(植物)基因组测序策略，并用于商业化蔬菜作物(甜瓜)。该基因组测序策略基于两个组成部分：

1)构建基于序列的物理图，优选通过对人工染色体(优选BAC)克隆池的片段末端测序(Amplicon Express，Pullman，USA)，优选使用基因组分析仪II，

2)全基因组测序(WGS)，优选包括一组单个读数，3kb配对末端读数和长跳跃配对末端读数，使用GS FLX Titanium或GA II。

当用相同(纯合体/近亲)品系产生基于序列的物理图和WGS序列时，获得最大组装力，如所附实施例中所述用于作物。

因此，首先，本发明涉及一种检测基因组序列的方法，包括步骤：

-通过对BAC克隆池片段末端进行测序，提供样品基因组的物理图谱；

-提供一组来自样品DNA的序列读数；

-产生物理图谱和序列读数的重叠群。

由此，可获得有效和高质量的基因组序列草图，因为通过克隆测序片段末端的重叠群获得的物理图谱所提供的支架补充了序列读数。

在一个实施方式中，本发明涉及一种检测基因组序列的方法，包括步骤：

(a)提供样品DNA；

(b)产生人工染色体(例如BAC、YAC)克隆库，其中每个人工染色体含有部分样品DNA；

(c)在一个或多个收集池中合并人工染色体克隆，其中每个克隆存在于一个以上的池中，以产生文库；

(d)对每个收集池提供一组片段；

(e)在片段一侧或两侧连接接头；

(f)测定至少部分接头和部分片段的序列；

(g)将片段序列指定到对应克隆；

(h)建立克隆-重叠群，从而产生样品基因组的物理图谱；

(i)从样品DNA产生序列读数；

(j)将序列读数和/或来自序列读数的重叠群或支架与克隆重叠群比对，从而建立基因组序列/超支架。

该策略联合了基于BAC的物理图谱与全基因测序的力量。本发明所述方法与现用的基因组测序策略相比大大节省了开支。该方法还更灵活地组合来自人工染色体如BAC-衍生序列的序列信息和由直接产生序列信息的技术生成的序列信息，例如全基因组鸟枪测序和类似技术。本方法还可补充其它可用的序列信息，例如通过更常规技术如桑格双脱氧测序获得的信息等。

在方法的步骤(a)中，提供了样品DNA。这可通过本领域任何方式实现，例如Sambrook等(Sambrook和Russell(2001)″Molecular Cloning：A LaboratoryManual(3rd edition)，Cold Spring Harbor Laboratory，Cold Spring HarborLaboratory Press)公开的。样品DNA可来自任何物种，特别是来自人、植物或动物来源。可以仅使用一部分基因组，但是这并不是必需的，因为本发明还提供了适合任何大小基因组的方法，例如通过可重复复杂性减少技术，如基于AFLP的选择性扩增(EP534858)，建立可重复亚组。因此通常，本方法使用整个基因组。

在步骤(b)中，生成人工克隆库。文库可以是细菌人工染色体文库(BAC)或基于酵母的人工染色体文库(YAC)。也可使用其它文库，例如基于f粘粒、粘粒、PAC、TAC或MAC。优选BAC文库。文库优选是高质量的，优选是插入尺寸大的基因组文库。这意味着各BAC含有相对较大的要研究的基因组DNA插入片段(通常＞125kbp)。优选大插入片段的尺寸取决于物种。在整篇申请中，提及BAC都作为人工染色体的例子。然而，应注意到本发明不限于此，也可使用其它人工染色体而不违背本发明的要旨。文库优选含有至少5个基因组等价物，更优选至少7个，最优选至少8个。特别优选的是至少10个。文库中基因组等价物的数目越多，得到的重叠群和物理图谱越可靠。

收集文库中的各个克隆，形成含有许多人工染色体或克隆的收集池。？收集可以是样品中一些克隆的简单组合(例如100个克隆并入10个收集池，每个含有10个克隆)，也可以使用更复杂的收集策略。收集池中克隆的分布优选是每个克隆存在于至少一个，或两个，或多个收集池中，从而产生文库。优选每个收集池含有10-10000个克隆，优选100-1000个，更优选250-750个。观察到每个收集池的克隆数可以变化较大，该变化涉及例如研究的基因组大小。通常，收集池或亚收集池的最大尺寸由收集池中一组标识物特异鉴定一个克隆的能力来决定。收集池中基因组等价物的典型范围是0.2-0.3级别，这也可以视每个基因组而变化。收集池可基于本领域熟知的收集策略生成。本领域技术人员能够根据基因组大小等因素选择最佳收集策略。所得收集策略将视环境而定，其实施例是平板收集，N-维收集例如2D收集、3D收集、6D收集或复杂收集。为了便于处理大量收集池，收集池本身可以组合成超级池(即超级池是克隆池的收集池)或分成亚收集池。收集策略及其去卷积的其它实施例(即通过在一个或多个收集池或亚收集池中检测克隆的已知相关标志(即标记或标识物)的存在来正确识别文库中每一个克隆)，如US6975943或Klein等，Genome Research，(2000)，10，798-807所述。收集策略优选是文库中的每个克隆的分布使得对于每个克隆有独特的收集池组合。其结果是某个(亚)收集池的组合独特鉴定一个克隆。

在方法的步骤(d)中，收集池被片段化且每个收集池产生一组片段。片段化可以是随机的，即通过剪切或喷雾法生成一组片段。在一个优选实施方式中，用限制性内切核酸酶消化收集池得到限制性片段。每个收集池优选独立进行内切核酸酶消化。用相同的内切核酸酶(组合)处理每个收集池。原则上可使用任何限制性内切核酸酶。限制性内切核酸酶可以是高频剪切酶(4或5剪切酶，例如MseI或AvaII)或低频剪切酶(6和更长的剪切酶，例如EcoRI，HindIII，PacI)。通常选择的限制性内切核酸酶使得获得的限制性片段平均以一定量或一定长度分布存在，其足够用于需要的谱型分析和/或随后的步骤。在一些实施方式中，可用两种或多种限制性内切核酸酶，在一些实施方式中，可使用低频和高频剪切酶的组合。对于大基因组，利于使用例如三个或多个限制性内切核酸酶。在一些实施方式中，可用产生钝端的限制性酶。这样对应的接头(见下文)也可以是钝端的。

对于片段的一端或两端，接头在步骤(e)中连接以提供连有接头的片段。通常，接头是本文他处定义的合成寡核苷酸。用于本发明的接头优选含有标识物区，也如本文他处定义。在一些实施方式中，接头含有收集池特异性标识物，即对于每个收集池，使用含有独特标识物的接头，可明确表明产生片段的收集池。在一些实施方式中，接头含有简并标识物区，与含收集池特异性标识物的引物组合使用。接头还可含有引物结合位点，随后可在此开始扩增。？这些引物结合位点也可在之后的阶段中连接。优选识别物区(不论是否简并)位于片段和引物结合位点之间，从而用与引物结合位点互补的引物从引物结合位点开始扩增，至少扩增出标识物。

在一些实施方式中，连有接头的片段可合并成较大的组，特别是在接头含有收集池特异性标识物时。该较大组的组合有助于减少一个收集池获得的连有接头的限制片段的平行扩增数。

可用一组引物扩增连有接头的片段，其中至少一个引物在接头的收集池特异性或简并标识物处扩增收集池特异性标识物。引物可含有(部分)标识物，但引物也可与位于标识物外的接头区域，即在衔接子下游互补。然后，可扩增标识物(同见图4)。在一个实施方式中，引物可在与接头互补部分的5’处含有标识物，使得扩增在所得扩增子中引入标识物。

这种实施方式也能够将连有接头的片段分组，然后如上所述扩增。在另一个实施方式中，用一组引物分别扩增每个连有接头的片段的收集池，其中接头含有简并标识物区域，至少一个引物含有作为标识物的收集池特异性区域，从而独特识别收集池。在另一个实施方式中，引物与接头至少一部分互补，并通过在与接头互补部分的5’末端包含标识物序列，在扩增出的连有接头的片段中提供标识物。用该引物的扩增在扩增子中加入标识物。

无论何种途径，结果都得到一组扩增出的连有接头的片段，也称作扩增子，其与其来源的收集池由于收集池特异性标识物在扩增子中的存在而关联。在一些实施方式中，可用例如在其3’末端携带选择性核苷酸的引物选择性扩增产生扩增子的亚组，如本文他处所述。

一些实施方式中可将扩增子组合成一组合并的扩增子或所谓的序列文库。

在方法的步骤(f)中，对片段(或扩增后对扩增子)进行测序，优选下文所述的高通量测序。测序中，测定连有接头的片段的至少一部分核苷酸序列。优选测定至少部分接头序列和部分片段序列。优选经测序的部分能将序列与BAC克隆关联。优选测定收集池特异性标识物的序列与部分片段(即衍生自样品基因组)。优选测定片段的至少10个核苷酸序列。在一些实施方式中，测定了片段的至少11、12、13、14或15个核苷酸。要测定的核苷酸的最少数量应该是基因组和测序平台决定的。例如，在植物中存在更多重复序列，因此对于相当质量的重叠群要测定更长的序列(25-75个核苷酸)。例如，在对拟南芥已知基因组序列的计算机模拟运算中显示，当测序步骤中包括一个6bp限制性位点时，每个片段需要测定约20bp，以确保基因组中大部分序列是独特的。可以测定整个片段的序列，但是对于BAC克隆重叠群构建并不是绝对必需的。

在测序步骤中，为了最大覆盖所有片段和提高准确率，可用至少为5的平均冗余水平(即过采样率)对序列文库测序。这意味着，一般来说用至少5个扩增子来测定序列，扩增子通过扩增一个特异性连有接头的片段获得。换言之：每条片段(统计上)测序至少5次。优选增加冗余度，因为其提高在每个收集池中采样的片段之间的分离和这些序列的准确度，因此优选冗余水平至少是7，更优选至少10。用提高的平均测序冗余水平补偿称作“采样变动”的现象，即对大“群体”采样获得的亚组中的随机统计学波动。另外，更高的平均采样冗余水平减少了扩增片段丰度中的可能差异，这是由片段之间的长度差异导致的扩增速率不同和序列成分不同引起的。

在随后的步骤(g)中，将(部分)测序的连有接头的片段或扩增子，关联或指定到对应克隆，通常使用计算机方法模拟。选择在片段衍生部分中含有相同区段的连有接头的片段或扩增子。随后，鉴定出存在于连有接头的片段或扩增子中的不同收集池特异性标识物。不同的收集池特异性标识物组合和片段序列可独特指定给特定克隆(称作“去卷积”的过程)。例如，在3D收集策略(X，Y，Z)情况下，3个收集池特异性标识物的组合可独特用于文库中的各收集池。每个克隆在文库中出现超过一次，因此对于克隆在文库中的每次出现，可结合同一片段衍生的区段形成3个收集池特异性标识物组合。换言之：可用3种不同的标识物标记来源于一个克隆的片段衍生区段。当联合3种标识物时，独特的片段衍生的区段可指定到一个BAC克隆。可对每个在片段衍生部分中含有其它独特核苷酸区域的连有接头的片段或扩增子重复这个步骤。通过将每个收集池的基因组等价物维持在较低水平(＜0.3，优选0.2)，可使得去卷积过程更加简便，从而减少在衍生自不同克隆的相同收集池中相同片段存在2次的概率。

样品DNA被转换成BAC文库。可将BAC文库并成一组收集池(M)(例如3个收集池，各含有约0.3GE)。每个收集池分成(X+Y+Z)个亚收集池(通常为一摞微量滴定板，或横向和/或纵向收集池)。

经测序的连有接头的片段或扩增子与文库中的特定克隆相联系，它们可基于片段衍生区段的序列匹配来构建重叠群。然后可排列每个克隆的重叠群得到物理图谱。在一个实施方式中，衍生自相同克隆的片段可排序得到克隆的重叠群。基于两个或多个克隆中片段序列的出现(WGP标记)，可将克隆在本发明的步骤(h)中相互连接，从而产生克隆重叠群，并得到样品基因组的物理图谱。

本发明所用的高通量测序是一种与生物学和化学领域尤其相关的科学实验方法。通过现代机器人技术与其它专业实验硬件的组合，研究者能够同时有效筛选大量样品。

优选用高通量测序方法进行测序，例如WO 03/004690，WO 03/054142，WO2004/069849，WO 2004/070005，WO 2004/070007，和WO 2005/003375，以及Seo等，(2004)Proc.Natl.Acad.Sci.USA 101：5488-93，technologies of Helicos，Illumina)，美国基因组学等公开的方法，作为引用在此并入。

罗氏应用科学

在一些实施方式中，优选用WO 03/004690，WO 03/054142，WO 2004/069849，WO 2004/070005，WO 2004/070007，和WO 2005/003375公开的仪器和/或方法进行测序，作为引用在此并入。目前，所述技术对于运行一次GS FLX Titanium可测出400,000个序列读数，比竞争技术快100倍，便宜100倍。测序技术主要包含5步：1)DNA片段化并连接特定接头，形成单链DNA(ssDNA)文库；2)ssDNA退火到珠，在油包水微反应器中乳化珠，进行乳化PCR，在珠上扩增各ssDNA分子；3)选择/富集表面含有扩增的ssDNA分子的珠；4)在PicoTiter^TM板上沉积携带DNA的珠；和5)通过产生焦磷酸光信号，在PicoTiter^TM平板的一百万个以上的孔中同时进行测序。该方法在下文进一步详述。

在优选实施方式中，测序包括步骤：

a.将衔接片段退火至珠，每个珠上退火有一个衔接的片段；

b.在油包水微反应器中乳化和扩增珠上的退火片段，每个油包水微反应器包括一个珠；

c.将珠加到孔中，每个孔包括一个珠；产生焦磷酸信号。

在第一个步骤(a)中，测序接头与组合文库内的片段连接。所述测序接头包括至少一个用于与结合在珠上的互补寡核苷酸退火的区域，一个测序引物区和PCR引物区。如此获得衔接的片段。

在第一步内，衔接片段与珠退火，每个珠退火有一条衔接片段。在衔接片段的收集池中，过量加入珠，以确保大部分珠有一条衔接片段退火(泊松分布)。在本发明中，与获得自克隆的限制性片段相连的接头可包括能与珠退火的区段。

在下一步中，在油包水微反应器中乳化珠，每个油包水微反应器包括一个珠。油包水微反应器中存在PCR试剂，从而能在微反应器中发生PCR反应。然后打碎微反应器，富集含有DNA的珠(DNA阳性珠)，即与不含扩增片段的珠分离。

在下一步中，将富集的珠加到孔中，每孔包括一个珠。孔优选是PicoTiter^TM平板的部分，能够同时对大量片段进行测序。

加入携带酶的珠后，用焦磷酸测序确定片段序列。在随后的步骤中，PicoTiter^TM平板和珠以及酶珠都在常规测序试剂存在下接触不同的脱氧核糖核苷酸，掺入脱氧核糖核苷酸后，产生光信号并记录下来。掺入正确核苷酸能产生可被检测的焦磷酸测序信号。

焦磷酸测序本身是本领域已知的，也在www.biotagebio.com；www.pyrosequencing.com/section technology中有所描述。该技术还用于例如WO 03/004690，WO 03/054142，WO 2004/069849，WO 2004/070005，WO 2004/070007，和WO 2005/003375(所有都是以454Life Sciences名义，现为Roche Diagnostics)，以及Margulies等，nature 2005，437，376-380，作为引用在此并入。

在本发明中，珠优选配有引物序列或其部分，能通过聚合延伸，产生结合在珠上的扩增子。在其它实施方式中，用于扩增的引物在例如5’端具有能够使扩增子与珠结合的序列，从而能随后发生乳液聚合，之后进行测序。另外，扩增子可与测序接头连接，然后连接于珠或表面。经测序的扩增子将揭示标识物的特性，从而用标识物的组合揭示克隆的特性。

Illumina技术

高通量测序方法之一可从Illumina Technologies(www.illumina.com)获得，描述于WO0006770，WO0027521，WO0058507，WO0123610，WO0157248，WO0157249，WO02061127，WO03016565，WO03048387，WO2004018497，WO2004018493，WO2004050915，WO2004076692，WO2005021786，WO2005047301，WO2005065814，WO2005068656，WO2005068089，WO2005078130。大体上，方法开始于连有接头的DNA片段，在此特定情况下是如本文他处所述的人工染色体收集池的连有接头的限制性片段。连有接头的DNA随机结合到附于固相表面的致密引物区域上，通常在流动池中。。连有接头的片段的另一端与表面上的互补引物杂交。引物在核苷酸和聚合酶的存在下在所谓的固相桥扩增中延伸，产生双链片段。该固相桥扩增可以是选择性扩增。固相桥扩增的变性和重复得到分散在表面上的致密的扩增片段簇。通过在流动池中加入四种不同标记的可逆终止子核苷酸、引物和聚合物引发测序。引物延伸过第一轮后，检测标记，记录第一个掺入的碱基的种类，掺入碱基上的封闭3’末端和荧光团被除去。然后以相同方式确定第二个碱基的种类，如此继续测序。

在本发明中，连有接头的片段或扩增子与表面通过引物结合序列或引物序列结合。所述测定序列，包括标识物序列和(部分)片段。目前可用的技术能够对最长125个碱基的读数长度进行测序。出于全基因组谱型分析目的，36个碱基的序列读数长度已经足够，但是这视基因组大小和序列成分(见下)而定。

通过经济设计接头和表面结合引物，测序步骤读过样品标识物、限制性内切核酸酶的识别序列的剩余部分、任选的选择性碱基和限制性片段的内部序列。例如，在36个碱基的序列读数中，当使用6碱基样品标识物、低频剪切酶EcoRI(GAATTC)的剩余部分是6个碱基、使用2个选择性碱基时，限制性片段的内部序列长度为36-14＝22个碱基，这可用于独特鉴定样品中的限制性片段。注意到限制性酶位点的序列和(可任选的)选择性碱基也可存在于基因组中，但是由于这些序列是所有限制性片段共有的，它们不影响将序列读数指定给文库中特定克隆的能力。

在方法的步骤(i)中，从样品DNA产生序列读数。这可以是用于产生克隆库的相同样品，但也可以是来自同一物种的另一个样品。使用不同来源的样品产生序列读数能够使用现存的克隆库，虽然会影响所获得的基因组序列的质量(产生重叠群可能更难)或所得基因组序列的质量降低，或含有更多缺口。可通过比对从序列读数产生支架或重叠群，如步骤(j)所述，将其锚定到克隆重叠群，构建超支架或基因组序列。

在本发明的一个实施方式中，还可用来自BAC(或其它人工染色体)或BAC收集池的随机生成片段并测定其(部分)序列，使用本文所述的测序技术。还可进一步改善重叠群组装的质量，因为不仅BAC限制性片段末端是连接的，而且可产生(部分)BAC的重叠群。优选联合序列读数和从样品DNA获得的重叠群，可以进一步提高质量。

因此在优选实施方式中，从BAC衍生的重叠群(即从BAC末端序列和/或来自BAC的限制性片段序列和/或随机测序的BAC克隆)以及通过(限制性酶)片段化获得的样品D//NA的序列读数(产生重叠群)组合产生基因组序列草图。

与克隆-重叠群和/或物理图谱生成平行或之后，可用更直接的方法从样品获得序列读数，也称作“鸟枪测序”或“全基因组鸟枪测序”(WGS)。在该步骤中，从样品和/或一个或多个样品DNA的人工染色体克隆产生序列数据。样品可以是准备制备克隆库的样品，但也可以是来自同一物种的另一个样品或变体，因此与克隆库样品相比本身含有少量的多态性。通常通过样品DNA的片段化，例如通过剪切、喷雾化或限制性酶消化来产生序列数据。片段可以连接接头或不连接。接头可含有标记，用所谓的标识物鉴定片段或样品来源。可选择性或非选择性扩增连有接头的片段，例如使用基于AFLP的技术，采用在3’末端用一个或多个选择性核苷酸延伸的接头互补引物，如本文他处所述。无论如何，优选用高通量测序技术产生序列读数，例如本文他处所述的基于焦磷酸测序的测序技术。

然后将序列读数组装成重叠群和/或锚定到BAC文库产生的重叠群。

在一个优选实施方式中，用一种以上的测序技术生成来自样品DNA的序列读数。如附图和文字所述，不同技术提供了不同长度的读数，能优选帮助锚定和建立延伸的重叠群。

使用“直接”序列读数不仅完成了BAC重叠群，还可填充在BAC产生的重叠群中留下的缺口内。这实际上是本发明的主要优势之一。在先前的策略中，使用额外序列数据(不论是新产生的或来自已知来源)都仅仅考虑了将序列数据锚定到重叠群，以填充BAC重叠群的序列数据，而并没有将不同克隆重叠群联系起来从而产生覆盖基因组更大部分的重叠群(支架)。本发明还在一些实施方式中提供了延伸BAC-重叠群的可能性，并填充了在BAC和序列读数产生的重叠群之间剩下的缺口，从而改进了得到的基因组草图的质量，如图中所示。

任选的，也可用桑格双脱氧测序技术获得的序列数据补充序列读数的数据，因为这样可以进一步帮助组装高质量重叠群。还通过所谓的“下下代测序技术”，例如来自Pacific Biosciences(太平洋生物科学)的那些能够传递达数kb长度的序列结果的技术来补充数据。

在优选实施方式中，获得序列读数时，样品DNA可以经过多个复杂度减少技术，例如AFLP(EP534585)和/或基于AFLP的复杂基因组测序技术，如WO2006/137734所公开，其中在AFLP技术中用两个不同限制性酶组合产生序列读数的重叠群。

因此，本发明基于双向途径测定基因组序列草图。第一条途径是用全基因组谱型分析(WGP)产生人工染色体的重叠群(BAC)克隆。优选通过使用随机但可重复的BAC收集池的限制性片段亚组，可以相对较少量的覆盖数据产生重叠群，使得BAC克隆的重叠群可被称作“稀薄”或“低密度”。“稀薄”是指在测序的限制性片段之间有较大空间，能够在相对较经济的测序量和计算力下组装BAC的重叠群。因此，在WGP过程中测序的全基因部分比例相对较低(因为WGP的目标是克隆重叠而不是全基因组测序)。

第二条途径是用高通量测序机和方法产生/收集优选相同(全DNA)样品的序列数据，这些机器和方法例如已知的罗氏应用科学(产生达1kb的读数)和Illumina(GS FLX)(产生36-125nt的读数)以及其它厂商(例如Helicos，Intelligent Biosystem(智能生物系统)，Danaher Motion-Dover，PacificBiosciences等)。可直接将序列数据锚定于BAC重叠群，但首先可用于从序列数据产生重叠群。下一步，这些基于序列的重叠群可锚定于第一途径中的BAC重叠群。另外，来自序列读数的序列数据和重叠群可用于将现有BAC重叠群彼此连接，即闭合支架之间和内部的缺口。组合技术的优势是用不同方法从同一样品获得的序列数据可以彼此补充，如附图所示。特别具有优势的是联合WGP和两种或多种不同的(高通量)测序技术。本文公开的策略的特别优势之一是使用相对较小的数据组，然后合并，与非常依赖粗略近似法的先前技术相反，例如WO03/027311。

对从(全DNA)样品获得的DNA进行测序可基于减少复杂度的全DNA表征，例如通过使用限制性内切核酸酶消化DNA得到限制性片段，如需要其可被标记(“条码化”)，来表明其来源。然后可对这些限制性片段进行测序，优选使用高通量测序技术，如本文他处所述的那些。也可考虑用其它形式减少复杂性，包括但不限于随机片段化(通过喷雾化、超声、剪切或其它机械作用)，然后在特定尺寸范围内选择性筛选片段大小，Cot选择(基于独特序列相对重复序列的差异杂交动力学)或其它复杂性降低的方法。原则上，使用限制性片段，例如通过低频剪切酶如EcoRI限制性消化总DNA获得的通常长2-3kb(在AT富集基因组中)的片段，并测定限制性片段末端的核苷酸序列(通常每个末端30-400bp，视所用的测序技术而定)，足以建立重叠群并将这些片段锚定到WGP重叠群(物理图谱)。显然也可使用其它限制性内切核酸酶(例如高频剪切酶，如MseI)和/或限制性内切核酸酶的组合(例如EcoRI/MseI)。优选建立来自全DNA序列数据(相对较短片段)的重叠群，然后将这些(相对较长)的重叠群锚定到可用的BAC重叠群，而不是将测序读数立刻锚定到BAC重叠群。再次，使用相对较小的数据亚组的优势在于更高效的“大批数据处理”，从而减轻对计算力的要求。这种方法的优势还在于可在台式或笔记本电脑上计算其部分或元素，而不需要大型服务器和大型计算机。该双向法的另一个优势在于使用全DNA作为序列信息的第二来源(相对于使用BAC文库作为第一来源)。BAC文库总是缺乏对基因组的完全和完整覆盖。通过使用全DNA作为DNA的另外来源，可以有效实现，或至少接近完全覆盖研究中的基因组。

这种基于限制性片段的测序的实施在例如WO2006/137734中所述，其描述了使用AFLP作为复杂性降低技术，与高通量测序组合使用，以建立高质量基因组序列草图。因此在该实施方式中，如本文所述产生BAC重叠群，与通过WO2006/137734所述方法得到的重叠群合并。

在另一个实施方式中，基于全DNA的DNA测序可基于“随机序列标记”。联合Illumina的高通量系统，还可将产生的序列信息锚定到从WGP获得的BAC重叠群上。该实施方式认识到BAC是最终“配对末端”。该技术的优势在于“深度测序”(即对数个基因组等价物(GE)进行测序，以获得高质量数据)并不再是获得高质量基因组装配所必需的，因为基因组的主要顺序已经由BAC重叠群提供(序列数据主要用于填充BAC重叠群中的缝隙)。因此，该方法能够用较少的序列数据(通过“较浅测序”，即对一个或仅数个GE测序)而不影响组装质量。这使得过程更经济，因为“较浅测序”本身就比深层测序节约成本。对于某些需要高质量序列数据的领域，可通过选择某些BAC克隆或BAC重叠群对所选区域进行深度测序。

因此，本发明的一个方面涉及对基因组部分或选定基因组区域使用本文所述的选择性测序方法，优选以可变覆盖水平进行。

与WO03/027311相比，本方法的不同是基于限制性片段或限制性片段结合随机剪切和不单独的随机剪切来建立亚组。另外，与WO03/027311相反，限制性片段的测序基于很低的覆盖率。基于这种低覆盖率，产生了非常‘稀薄’，即含有相对较少量数据的BAC重叠群。然后用序列读数获得的数据补充该‘稀薄’重叠群。这对于产生物理图谱是一种更有效的方法，且对于这种规模的设计能更有效利用(有限)的计算力。

产生的基因组草图可作为单独产物提供，优选是以数字形式：

-与BAC文库相关的序列数据和相关的BAC重叠群；

-与全DNA测序相关的序列数据和相关的重叠群；

-显示BAC重叠群、DNA重叠群、合并重叠群和基因组序列草图的软件，从整体基因组序列草图水平到核苷酸和片段间重叠部分的水平，；

-从单独序列数据产生重叠群的软件

-在不同重叠群和图上显示分子标记的申请

-呈现数据质量和序列缺口的软件。

装备有闪存或硬盘、只读数据载体例如CD-ROM或DVD等的笔记本可提供该产物。另外，基于网络的服务器可提供产物，优选在加密服务器上以数字形式提供。

因此，产物的实施例可以包含下列组成的一种或多种：

a)组装的物理图(全基因组谱型分析，WGP)。

可用重叠群建立软件组装图，例如指纹化重叠群(FPC)软件，适用于序列而不是条带迁移率。可基于合并克隆衍生的核苷酸序列建立重叠群，例如通过基于标识物序列去卷积被指定到各克隆的BAC克隆。

b)组装物，包括全基因组测序(WGS)的重叠群、超重叠群和/或支架。

可用基因组装配软件包产生组装物，例如Newbler(454Life Sciences/Roche Applied Sciences)和从头短寡核苷酸分析软件包(SOAP)(http://soap.genomics.org.cn)，基于下一代测序(即高通量焦磷酸测序)和/或桑格测序数据。

c)基因组序列草图。

基因组序列草图可基于整合WGP(在(a)下的图和数据)以及WGS((b)下的数据)。可以不同形式，包括fasta和tab分隔文档提供基因组序列草图；

d)可视化软件。

用于观察WGP和WGS集合，序列和关联克隆及其组合的可视化软件如FPC；

e)序列数据。

用于产生物理图谱或全基因组测序的实际序列数据。这可基于获得例如额外的数据来协助进一步改进数据，用于验证数据，产生改善的物理图谱。

f)一种存储装置或数据载体。

装置或载体可以是硬盘或闪存，包括(a)到(f)中所述的一种或多种数据和软件；

g)计算机，例如笔记本或上网本，包括(a)到(f)的一个或多个组成或其部分。

实施例

野生型拟南芥

使用含有6144个BAC(约5个基因组等价物)的BAC文库。

对限制性酶(EcoRI和MseI)片段化的收集池进行一次Illumina Classic，得到来自EcoRI侧的约65000个不同的去卷积序列读数。将读数组装(FPC，Soderlund，C.，S.Humphrey，A.Dunhum，和L.French(2000).Contigs built withfingerprints，markers and FPC V4.7.Genome Research 10：1772-1787.)成4599个BAC(74.8％)，得到234个重叠群，每个重叠群有2-125个BAC。通过BLAST分析序列读数对公开的基因组序列进行验证，显示约52000个读数得到100％命中，覆盖基因组的99％，最大缺口为125kbp。有50000个特异命中；标签之间平均2355bp，代表了全部EcoRI位点的80％。

甜瓜

甜瓜的基因组大小估计为450Mbp。

分析了来自EcoRI和HindIII文库的47,616个BAC，总共相当于约13个基因组。全部读数的50％对BAC去卷积(40,063BAC；85％)，并被独特标记。用于重叠群建立：36个碱基的9,417,2459 Illumina GA II读数；获自5次GA II测序。196,256个独特序列读数与40,063个BAC克隆相连，平均锚定33个读数。这些读数组装成670个重叠群和8,213个单独BAC。平均每个重叠群15个BAC(＞1.8Mbp)基因组覆盖率估计大于90％。见图3中重叠群大小分布。

甜瓜：

将甜瓜WGS支架与甜瓜WGP BAC重叠群整合。甜瓜基因组大小估计的为450Mbp。

输入：

^*包含：

在GS FLX Titanium平台上从甜瓜品系的核DNA中产生下列序列数据：

1)17个随机鸟枪运行结果，包括总共16,171,153个读数

2)53-Kb配对末端运行结果，包括总共4,844,561个读数

3)3.5(～20Kb)长跳跃配对末端运行结果，包含总共3,448,598个读数。

4)1个EcoRI-随机末端运行结果，包含总共789,048个读数。

运行总次数是26,5，产生的读数总数等于25,253,360。这些读数代表了甜瓜基因组的总共8,691,334,029个碱基(8,69Gbp)(即排除了叶绿体和线粒体序列以及配对末端文库的接头序列)。基因组大小估计为450Mbp，这代表了甜瓜基因组的19,43次覆盖(分解：～12,44X随机鸟枪；～3,72X 3kb PE；～2,65X长跳跃；和～0,61X EcoRI-随机末端)。

该方法连接了WGS支架和WGP重叠群。作为该方法中的一个步骤，确定WGS支架是否与单一WGP重叠群或多个WGP重叠群重叠/匹配(基于WGS支架中WGP标签序列的存在)。WGS支架与WGP重叠群连接的条件是具有100％匹配序列的WGP标签的数目。标出所有得到的匹配，来了解是否它们基于至少1，2，或2个以上匹配WGP标签序列。对于覆盖整个WGP重叠群的WGS支架，分辨出四种不同情况，反映了将这些WGS和WGP重叠群相连的4个不同置信水平。将覆盖77Mbp的5630个WGS支架与838个单一BAC重叠群相连。将覆盖231Mbp的470个WGS支架与903个多BAC重叠群联系。这两个数据组重叠，因为可用BAC重叠群的总数是1088，小于838+903。单独BAC(没有置于BAC重叠群中)未包括在分析中。

随机BAC重叠群被作为“种子”建立超支架，基于BAC重叠群及其相连WGS支架存在共享的WGP标签序列。见下文图5。总的来说，如果WGP重叠群和WGS支架间共享至少一个WGP标签序列，且没有鉴定出冲突的标签，WGP重叠群和WGS支架可连接。种子将一直生长，直到没有更多的连接，或者发生分枝点，例如多个重叠的WGS支架与同一BAC重叠群相连(图6)。

根据上述方法，产生了包含289Mbp甜瓜基因组序列的超支架。

Claims

1.一种测定基因组序列的方法，包括步骤：

-通过对人工染色体克隆池片段末端进行测序，提供样品基因组的物理图谱；

-提供一组来自样品基因组的序列读数；

-产生物理图谱和序列读数的重叠群，建立基因组序列。

2.一种测定基因组序列的方法，包括步骤：

(a)提供样品DNA；

(c)在一个或多个收集池中合并人工染色体克隆，其中每个克隆存在于一个以上的池中；

(d)对每个收集池提供一组片段；

(e)在片段一侧或两侧连接接头；

(f)测定至少部分接头和部分片段的序列；

(g)将片段序列指定到对应克隆；

(h)建立克隆-重叠群，从而产生样品基因组的物理图谱；？

(i)从样品DNA产生序列读数；

3.如权利要求2所述的方法，其中至少一个接头分别含有收集池特异性标识物或简并标识物区域，来提供含标识物的连有接头的片段。

4.如权利要求2-3所述的方法，其中扩增连有接头的片段，使用：

-扩增至少标识物和部分片段的引物；或

-含有与接头中简并部分互补的区域，且在扩增的片段中引入标识物的引物；或

-与至少部分接头互补的引物，其在扩增的连有街头的片段中提供标识物。

5.如权利要求2-4所述的方法，其中通过随机片段化收集池和/或用限制性酶片段化收集池来产生收集池的片段。

6.如权利要求2-5所述的方法，其中从片段化样品DNA和/或样品DNA的一个或多个人工染色体克隆获得序列。

7.如权利要求2-6所述的方法，其中从随机片段化的样品DNA和/或样品DNA的一个或多个人工染色体克隆获得序列读数。

8.如权利要求2-6所述的方法，其中从通过限制性酶片段化样品DNA所得限制性片段和/或样品DNA的一个或多个人工染色体克隆获得序列读数。

9.如权利要求8所述的方法，其中限制性片段是连有接头的限制性片段。

10.如权利要求9所述的方法，其中选择性或非选择性扩增连有接头的片段。

11.如前任一权利要求所述的方法，其中通过高通量测序进行测序。

12.如权利要求11所述的方法，其中高通量测序在固相载体上进行。

13.如权利要求11或12所述的方法，其中高通量测序基于合成测序。

14.如权利要求11-12所述的方法，其中测序基于焦磷酸测序。