CN101484589A

CN101484589A - 使用aflp的高通量物理作图

Info

Publication number: CN101484589A
Application number: CNA200780025146XA
Authority: CN
Inventors: M·J·T·范艾克; T·P·耶瑟
Original assignee: Keygene NV
Current assignee: Keygene NV
Priority date: 2006-07-12
Filing date: 2007-07-10
Publication date: 2009-07-15
Anticipated expiration: 2027-07-10
Also published as: JP2009542256A; EP2275576A1; US20140206551A1; ATE481506T1; DK2038425T3; US20130184166A1; US8685650B2; US20090246780A1; US8975028B2; PL2038425T3; EP2182079A1; US8394591B2; EP2038425B1; US9284606B2; JP5801349B2; EP2821506A1; JP5491177B2; EP2038425A1; US20150148241A1; JP2014064578A

Abstract

本发明涉及鉴定和检测分子标记的高通量方法，其中产生限制性片段并连接适当的包含(样品特异性的)鉴定因子的接头。该接头连接的限制性片段可用在其3’端带有选择性核苷酸的与接头相容的引物选择性扩增。扩增的接头连接的限制性片段至少部分地通过高通量测序方法进行测序，该限制性片段的序列部分和样品特异性鉴定因子一起用作分子标记。

Description

使用AFLP的高通量物理作图

技术领域

本发明涉及分子生物学和生物技术领域。具体地，本发明涉及核酸检测和鉴定领域。更具体地，本发明涉及使用高通量测序技术产生基因组或其一部分的物理图。

背景技术

完整的遗传和物理基因组图在以图为基础的基因分离、比较基因组分析和作为基因组测序计划中序列准备(sequence-ready)克隆的来源中极其有用。获得物种的完整物理和遗传标记图对于基因组研究具有巨大作用。完整图允许精确快速的基因作图和微卫星位点和SNP标记的精确作图。人们已经开发了多种组合具有不同复杂性的基因组物理图的方法。其中一种较好描述的方法使用限制性酶来从基因组亚克隆中产生大量DNA片段(Brenner et al.，Proc.Natl.Acad.Sci.，(1989)，86，8902-8906；Gregory et al.，Genome Res.(1997)，7，1162-1168；Marraet al.，Genome Res.(1997)，7，1072-1084)。对这些指纹进行比较以鉴定相关克隆并组合重叠群中的重叠克隆。然而，由于DNA在胶与胶之间迁移不同、存在重复DNA、限制性位点分布异常和克隆表现度(representation)不对称，指纹法在对复杂基因组的巨大插入克隆排序中用处有限。因此，大部分复杂基因组的高质量物理图通过联合指纹法和基于PCR或基于杂交的方法来构建。然而，使用指纹技术的一个缺陷是它基于片段模式匹配，其是一种间接的方法。

人们更希望通过产生基于实际序列数据的重叠群来产生物理图，即一种更直接的方法。基于序列的物理图不仅更精确，同时也在测定目标物种的完整基因组序列中有用。最近已经获得的高通量测序方法能以更高效更经济的方式测定克隆的完整核苷酸序列。

然而，通过测序整个限制性片段来进行检测仍然相对不经济。此外，如本文其他部分所揭示的本领域现有测序技术水平(从454 LifeSciences，www.454.com，Solexa，www.solexa.com和Helicos，www.helicosbio.com)，尽管它们具有极大的测序能力，它们也只能提供有限长度片段的测序。目前的方法也不能在一次运行中同时处理多个样品。

本发明的目的是设计和描述基于联合限制性消化、建库(pooling)、高精确扩增和高通量测序来高通量产生物理图的策略。通过使用这种方法，可产生甚至是复杂基因组的物理图。

定义

在下面的说明和实施例中使用了一些术语。为了提供对于说明书和权利要求书的清晰一致的理解，包括指定这些术语的范围，提供了下面的定义。除非本文另外定义，所使用的所有技术和科学术语具有和本发明所属领域的普通技术人员的常规理解相同的含义。将公开的所有出版物、专利申请、专利和其它文献以其整体通过引用纳入本文。

核酸：根据本发明，核酸可以包括嘧啶和嘌呤碱基的任意多聚体或寡聚体，嘧啶和嘌呤碱基分别优选胞嘧啶、胸腺嘧啶和尿嘧啶，以及腺嘌呤和鸟嘌呤(参见Albert L. Lehninger，Principles of Biochemistry，793-800(Worth Pub.1982)，其通过引用被整体引入本文以用于本文的所有目的)。本发明考虑了任意的脱氧核糖核苷酸、核糖核苷酸或肽核酸组分，以及它们的任意化学变体，例如这些碱基的甲基化、羟甲基化或糖基化形式，等等。该多聚体或寡聚体在组成方面可以是异源的或同源的，并且可以分离自天然产生的来源或者可以是人工或合成生产的。此外，核酸可以是DNA或RNA，或者它们的混合物，并且可以以单链或双链形式永久或暂时存在，双链形式包括同源双链、异源双链和杂交状态。

AFLP：AFLP是指一种选择性扩增核酸的方法，该方法基于用一个或更多个限制性内切酶消化核酸以产生限制性片段，将接头连接到该限制性片段上以及扩增接头连接的限制性片段，所述的扩增使用至少一个(部分的)与该接头互补、(部分的)与限制性内切酶的剩余部分互补并且进一步包含至少一个选自A、C、T或G(或U，在可能的情况下)的随机选择的核苷酸的引物。AFLP不需要任何已有的序列信息，可在任何起始DNA上进行。一般而言，AFLP包括下述步骤：

(a)用一个或更多个特异性限制性内切酶消化核酸，特别是DNA或cDNA，以将该DNA片段化成相应的限制性片段系列；

(b)用双链的合成寡核苷酸接头连接因此获得的限制性片段，该接头一端与所述的限制性片段的一端或两端相匹配，以借此产生起始DNA的接头连接的，优选标记的限制性片段；

(c)将一个或更多个在其3’端含有选择性核苷酸的寡核苷酸引物在杂交条件下与上述接头连接的，优选标记的限制性片段接触；

(d)通过PCR或相似技术扩增上述与引物杂交的接头连接的，优选标记的限制性片段，从而使杂交的引物沿着该引物所杂交的起始DNA的限制性片段延伸；以及

(e)检测、鉴定或回收因此获得的扩增的或延伸的DNA片段。

因此AFLP提供了接头连接的片段的可复制的亚组。AFLP在一些文献中进行了描述尤其如EP 534858、US 6045994和Vos et al.(NucleicAcid Research，1995，23，21，4407-4414)。关于AFLP的更多细节请参考这些出版物。AFLP一般用作降低复杂性的技术和DNA指纹技术。在使用AFLP作为指纹技术的环境中，产生了AFLP标记的概念。

选择性碱基(selective base)：位于引物的3’端，其含有与接头互补的部分和与限制性位点的剩余部分互补的部分，选择性碱基从A、C、T或G中随机选出。通过使用选择性碱基延长引物，随后的扩增将仅产生接头连接的限制性片段的可复制的亚组，即仅产生能够使用带有该选择性碱基的引物扩增的片段。选择性核苷酸可加到引物的3’端，其数目可在1至10之间变化。一般1-4个即可满足需要并且是优选的。两条引物都可含有可变数目的选择性碱基。每加入一个选择性碱基，该亚组中扩增的接头连接的限制性片段(扩增子)的数目减少至约四分之一。一般地，在AFLP中使用的选择性碱基的数目用+N+M表示，其中一条引物带有N个选择性核苷酸，其他引物带有M个选择性核苷酸。因此，Eco/Mse+1/+2 AFLP是一种简写，其表明用EcoRI和MseI消化起始DNA，连接适当的接头并用一条带有一个选择性碱基的指向EcoRI限制性位点的引物和另一条带有2个选择性核苷酸的指向MseI限制性位点进行扩增。AFLP中使用的、在其3’端带有至少一个选择性核苷酸的引物也被描述成AFLP引物。在其3’端不带有选择性核苷酸并且其实际上与接头和限制性位点的剩余部分互补的引物有时表示为AFLP+0引物。

聚类(clustering)：术语“聚类”的意思是，根据相同或相似的核苷酸的长或短的延伸片段(stretch)的存在情况比较两个或多个核苷酸序列，并利用基于相同或相似的核苷酸的短的(或更长)的延伸片段的存在情况的确定的最小序列同源性水平将这些序列分组在一起。

组合(assembly)：基于一些(部分)相互重叠的序列排序构建重叠群(contig)，也称为“重叠群建造(contig building)”。

比对(alignment)：以表格显示形式摆放多个序列以使从比对的多种序列中获得同一性序列区的可能性最大，例如可通过引入缺口。本领域中已知几种核苷酸序列比对方法，下面将进一步解释。

鉴定因子(identifier)：可加上接头或引物或包括在其序列中，或用作标签以提供独特的标识的一段短序列。这样的一个序列鉴定因子(标签)可以是具有可变但确定长度的独特的碱基序列，用于唯一地鉴别特异性核酸样品。例如，4bp标签允许4(4次方)＝256种不同标签。典型的例子是ZIP序列，它是本领域已知的常用于通过杂交进行唯一检测的标签(Iannone et al.Cytometry 39：131-140，2000)。使用这样一个鉴定因子，在进行进一步处理后可确定PCR样品的来源。在联合来源于不同核酸样品的处理的产品时，不同的核酸样品一般用不同的鉴定因子进行鉴别。

测序：术语测序指的是测定核酸样品(例如，DNA或RNA)中的核苷酸顺序(碱基序列)。

高通量筛选：高通量筛选，通常简写为HTS，是一种用于科学实验，尤其和生物与化学领域相关的方法。通过将现代机器人技术和其它专业实验室硬件相结合，该方法能让研究人员有效的同时筛选大量样品。

限制性内切酶：限制性内切酶或限制性酶是一种酶，其识别双链DNA分子中的特异性核酸序列(目标位点)，并将在每个目标位点或每个目标位点附近切割DNA分子的两条链。

限制性片段：用限制性内切酶消化产生的DNA分子被称为限制性片段。任何给定的基因组(或核酸，无论其起源)都将被特定的限制性内切酶消化为许多不连续的限制性片段。限制性内切酶切割得到的DNA片段能被进一步用于多种技术中，并且能例如通过凝胶电泳进行检测。

连接：连接酶催化的酶反应，其中两个双链DNA分子被共价交联到一起，被称为连接。通常，两个DNA链都被共价交联到一起，但是也有可能通过链的末端之一的化学或酶修饰来防止两条链中的一条链的连接。在该情况下共价交联将只发生在两条DNA链中的一条链上。

合成寡核苷酸：优选具有大约10到大约50个碱基的单链DNA分子，其能被化学合成，被称为合成寡核苷酸。虽然有可能合成具有相关序列的分子家族，且该分子家族在核苷酸序列中的特定位置上具有不同核苷酸组成，但是一般而言，这些合成的DNA分子被设计为具有唯一的或目标核苷酸序列。术语合成寡核苷酸用于指具有设定的或目标核苷酸序列的DNA分子。

接头：具有有限数量碱基对的短的双链DNA分子，例如长度为大约10到大约50碱基对，其被设计以使它们能被连接到限制性片段的末端。接头通常由两个具有互相部分互补的核苷酸序列的合成寡核苷酸组成。当在溶液中、在适当条件下混合这两种合成寡核苷酸时，它们将互相退火形成双链结构。退火后，接头分子的一个末端被设计以使其和限制性片段的末端匹配，并能连接至其上；接头的另一个末端能被设计以使其不能连接，但不必总是这样(双连接接头)。

接头连接的限制性片段：顶端已经加上接头的限制性片段。

引物：一般而言，术语引物指的是能起始DNA合成的DNA链。DNA聚合酶不能在没有引物的情况下从头合成DNA：它在反应中只能延长已有的DNA链，在所述反应中互补链被用作模板来引导待组装的核苷酸的顺序。我们将把聚合酶链式反应(PCR)中使用的合成寡核苷酸分子称为引物。

DNA扩增：术语DNA扩增将被一般用于表示使用PCR进行双链DNA分子的体外合成。需要注意的是，已有其它扩增方法，并且它们有可能在本发明中使用而不偏离本发明的要旨。

发明内容

本发明人发现通过联合限制性酶消化文库中的克隆、接头连接、(选择性)扩增、高通量测序和解析产生的序列产生了能够用于组合甚至具有巨大复杂基因组物理图的重叠群。

具体实施方式

一方面，本发明涉及产生至少部分基因组的物理图的方法，其包括下述步骤：

(a)提供样品DNA；

(b)产生人工染色体(BAC，YAC)克隆库，其中每个人工染色体克隆包含部分该样品DNA；

(c)将所述的人工染色体克隆组合到一个或更多库中，以产生文库，其中每个克隆在一个以上的库中存在；

(d)使用一个或更多个限制性内切酶消化一个或更多个库中的DNA以便为每个库都提供一组限制性片段；

(e)将接头连接到该限制性片段的一边或两边以提供接头连接的限制性片段，

其中至少一个接头分别含有库特异性鉴定因子或简并鉴定因子部分；

(f)可选地，组合该接头连接的限制性片段；

(g)使用至少一个引物扩增步骤(e)中的接头连接的限制性片段以提供标记的扩增的接头连接的限制性片段(扩增子)，该引物分别含有对应于接头中库特异性鉴定因子部分的库特异性部分或在简并鉴定因子部分的位置含有库特异性鉴定因子；

(h)可选地，组合该扩增子成一组组合的扩增子；

(i)测定所述的扩增子或组合的扩增子组的至少库特异性鉴定因子的序列和部分限制性片段的序列；

(j)使用库特异性鉴定因子将步骤(i)扩增子中确定的限制性片段序列分配到相应克隆中；

(k)将同一克隆来源的限制性片段进行排序以建立重叠群；

(l)将步骤(k)克隆的重叠群排序，由此建立克隆-重叠群并产生物理图。

在该方法步骤(a)中提供样品DNA。这可通过本领域中的任何方式获得，如Sambrook等人揭示的(Sambrook and Russell(2001)＂Molecular Cloning：A Laboratory Manual(3^rd edition)，Cold SpringHarbor Laboratory，Cold Spring Harbor Laboratory Press)。样品DNA可来自于任何物种，特别是来自于人、植物或动物。可以仅使用基因组的一部分，但那是不必要的，因为本发明也提供适应任何大小的基因组的方法，例如通过基于AFLP的选择性扩增来产生可复制的亚组的方法，如本文中其他地方所描述的。因此一般而言，本方法使用完整基因组。

在步骤(b)中产生了人工克隆库。该文库可为细菌人工染色体文库(BAC)或基于酵母的文库(YAC)。其他文库，如基于粘粒(cosmids)、PAC、TAC或MAC的文库也是可能的。优选的是BAC文库。优选地，该文库是高质量的并且优选地，是高插入大小的基因组文库。这意味着单个BAC含有所研究的基因组DNA的大的插入(典型地>125kbp)。优选的大插入的大小是物种依赖性的。在全部本申请中，参照BAC作为人工染色体的例子。然而，请注意本发明不限于此，其他人工染色体也可使用而不偏离本发明的要旨。优选地，该文库包含至少5个基因组当量，更优选地至少7个，最优选地至少8个。特别优选地至少10个。文库中的基因组当量数越高，所产生的重叠群和物理图将越可靠。

汇集文库中的单个克隆以形成含有多个人工染色体或克隆的库。建库可以是简单的将一些单个克隆合并到一个样品中(例如，100个克隆到10个库，每个包含10个克隆)，但也可使用更复杂的建库策略。克隆在库中的分布优选地为每个克隆在至少两个或两个以上个库中存在。优选地，库包含10至10000个克隆/库，优选地从100至1000，更优选地从250至750。观察到每库的克隆数目可大范围变化，这种变化与例如所研究的基因组大小有关。一般而言，库或亚库的大小由能够使用一组鉴定因子在库中唯一地鉴定出一个克隆的能力所决定。正如下面将进一步详细说明的，库中基因组当量的典型的范围为0.2-0.3，并且这个数字也可随基因组而变化。库通过本领域熟知的建库策略产生。技术人员能够根据各种因素如基因组大小等选择最优的建库策略。所产生的建库策略取决于环境，其例子如平板建库、N-维建库如2D建库、3D建库、6D建库或复合建库。为便于处理大量的库，这些库可依照其目的合并成超级库(super-pool，即超级库是克隆库的库)或分成亚库(sub-pool)，如附图1所示，其中3D建库被示例说明。其他建库策略的例子及其解析(deconvolution，即通过检测在一个或更多个库或亚库中的克隆的已知相关标示(即标签或鉴定因子)的存在来正确鉴定文库中的单个克隆)例如在US 6975943或如Klein等人在GenomeResearch，(2000)，10,798-807中进行了描述。建库策略优选地使文库中每个克隆分布在库中，以覆盖为每个克隆都建成库的唯一组合的库。其结果是某种(亚)库的组合唯一地鉴定了一个克隆。

这些库用限制性内切酶消化以产生限制性片段。每个库优选地单独用一种内切酶消化。每个库使用同样的内切酶(其组合)处理。理论上可使用任何限制性内切酶。限制性内切酶可以是高频剪切酶(frequent cutter，4或5剪切酶，如MseI或PstI)或低频剪切酶(rarecutter，6和更多的剪切酶，如EcoRI，HindIII)。一般而言，选定限制性内切酶以使所获得的限制性片段平均以足以满足以后步骤的数目存在或具有某一长度分布。在一些实施方式中，可使用两个或两个以上个限制性内切酶，在某些实施方式中，可联合使用低频和高频剪切酶。对于大的基因组，使用例如三个或三个以上限制性内切酶是有利的。

在步骤(e)中接头连接到限制性片段的一端或两端以提供接头连接的限制性片段。一般而言，接头是如本文其他地方限定的合成寡核苷酸。本发明使用的接头优选地含有鉴定因子部分，其实质如本文其他地方所限定。在一些实施方式中，接头含有库特异性鉴定因子，即对于每个库，使用含有独特鉴定因子的接头以明确标示该库。在一些实施方式中，接头含有与含有库特异性鉴定因子的引物联合使用的简并鉴定因子部分。

在一些实施方式中，接头连接的限制性片段可合并到更大的组中，特别是当接头含有库特异性鉴定因子时。这种在更大的组中的组合有助于减少从库中获得的每组接头连接的限制性片段的平行扩增的数目。

接头连接的限制性片段可使用一组引物进行扩增，该组引物中至少一条引物在接头中的库特异性或简并鉴定因子的位置含有库特异性鉴定因子。这一实施方式也允许在扩增之前组合接头连接的限制性片段，如上所述。在一个替代的实施方式中，每个接头连接的限制性片段库(其中该接头含有简并鉴定因子部分)使用一组引物进行单独扩增，该组引物中至少一条引物含有库特异性部分，由此唯一地鉴定该库。

无论上述两种方式中的哪一种，其结果都是一组扩增的接头连接的限制性片段，也被描述成扩增子，其被连接到它们通过在库特异性鉴定因子的扩增子中存在而起源的库。在一些实施方式中，可通过使用在其3’端带有选择性核苷酸的引物选择性扩增产生扩增子亚组，其实质上如本文其他地方所描述。

在一些实施方式中，扩增子可被组合成一组组合的扩增子或所谓的序列文库。

在本方法的步骤(i)中，对扩增子进行测序，优选地下文描述的高通量测序。在测序中，测定至少部分该扩增子的核苷酸序列。优选地，至少测定该扩增子的库特异性鉴定因子和部分限制性片段的序列。优选地，测定该限制性片段的至少10个核苷酸的序列。在一些实施方式中，测定该限制性片段的至少11、12、13、14或15个核苷酸。将要测定的最小核苷酸数将同样取决于基因组。例如，植物中存在更多的重复序列，因此需要测定更长的(25-30bp)序列。例如，对已知的拟南芥基因组的计算表明，当在测序步骤中包括6bp的限制性位点时，每个限制性片段大约需要测定20bp。测定整个限制性片段的序列是可能的，但对于BAC克隆的重叠群建造并不是绝对必需的。

在测序步骤中，为提供增加的精确度，序列文库可用至少5的覆盖度进行测序。这意味着该序列至少通过5个从一个特定的接头连接的限制性片段扩增获得的扩增子来确定。换句话说：每个限制性片段至少(统计上)测序五次。增加的覆盖度是优选的，因为这进一步提高了精确度，所以优选的覆盖度为至少7，更优选的为至少10。增加的覆盖度被用于补偿被称为是“抽样变异”的现象。

在随后的步骤中，(部分)测序的扩增子与相应的克隆相联系，一般通过计算机化的方法在计算机中(in silico)进行。选定那些在限制性片段来源的部分中含有相同核苷酸部分的扩增子。然后确定出现在那些扩增子中的不同库特异性鉴定因子。不同库特异性鉴定因子的组合以及由此该限制性片段的序列可被唯一地分配到特定克隆(一个在前面被描述为‘解析(deconvolution)’的过程)。例如，在3D建库策略(X，Y，Z)的例子中，文库中每个库被3个库特异性鉴定因子的组合唯一地定位(addressed)。每个克隆在文库中出现多于一次，因此对于文库中克隆的每次出现，可结合来源于同样的限制性片段部分进行3个库特异性鉴定因子的组合。换句话说：来源于一个克隆的源于限制性片段的部分将被3个不同的鉴定因子形成标签。独特的限制性片段来源的部分，当结合3个鉴定因子一起看时可以分配到单个BAC克隆。对于每个在限制性片段来源部分含有其他独特的核苷酸部分的扩增子都可以重复上述过程。通过保持每个库的基因组当量相对较低(<0.3，优选地0.2)，由此降低相同片段在来源于不同克隆的同一库中出现两次的机会，从而使这一解析过程变得更加简单。

图1提供了该建库概念的示例性表示。将样品DNA转化到BAC文库中。将BAC文库在一组库(M)(显示了3个库，每个含有约0.3GE)中汇集。将每个库分成(X+Y+Z)亚库(一般是一堆微滴定板)。

根据限制性片段来源部分的序列匹配，现在已经与文库中特定克隆相关联的测序的扩增子被用来建造重叠群。然后将每个克隆的重叠群进行比对以产生物理图。

本方法的优点尤其在于与常规BAC重叠群建造技术相比BAC重叠群建造中提高的精确度。此外，根据序列信息的物理图建造更精确，因为它是一种直接构建物理图的方式并在确定基因组序列中有用，并且更进一步提供了适合STS开发和比较作图目的的序列信息。

本发明中使用的高通量测序是一种科学实验特别是与生物学和化学领域相关的科学实验的方法。通过联合现代机器人技术和其他专业实验室硬件，使得研究者能够同时有效地筛选大量样品。

优选地使用高通量测序方法进行测序，例如：在WO 03/004690、WO 03/054142、WO 2004/069849、WO 2004/070005、WO 2004/070007和WO 2005/003375(全部以454 Life Sciences的名义)、Seoet al.(2004)Proc.Natl.Acad.Sci.USA 101：5488—5493中公开的方法，和Helicos、Solexa、US Genomics、etcetera的技术，其通过引用引入本文。

454 Life sciences技术

在一些实施方式中，使用在WO 03/004690、WO 03/054142、WO 2004/069849、WO 2004/070005、WO 2004/070007和WO 2005/003375(全部以454 Life Sciences的名义)中公开的仪器和/或方法进行测序是优选的，其通过引用引入本文。公开的技术允许在一个单轮反应中测序2到4千万个碱基，并且比竞争技术快速和价廉100倍。这个测序技术基本上含有5个步骤：1)DNA的片段化和与特定接头的连接以产生单链DNA(ssDNA)文库；2)ssDNA退火到珠子上，将珠子乳化在油包水微反应器里，在珠子上进行乳化PCR以扩增单个的ssDNA分子；3)对在其表面含有扩增的ssDNA分子的珠子进行挑选/富集；4)带有DNA的珠子在PicoTiter^TMPlate中的沉积；5)通过产生焦磷酸光信号在100000个孔中同时测序。此方法将要在下面更详细地进行解释。

在优选的实施方式中，测序包含下述步骤：

(a)退火具有接头的片段到珠子上，每个珠子和有单个接头的片段进行退火；

(b)乳化和扩增在油包水微反应器里的珠子上的退火片段，每个油包水微反应器包含单个珠子；

(c)把珠子装载在孔中，每个孔含有单个珠子；并且产生焦磷酸信号。

在第一个步骤(a)中，将测序接头连接到组合文库中的片段。上述测序接头包含至少一个用于退火到结合到珠子上的互补寡核苷酸的区、测序引物区和PCR引物区。这样，就获得具有接头的片段。

在第一个步骤中，具有接头的片段被退火到珠子上，每个珠子用单个具有接头的片段退火。向具有接头的片段的库中加入过量的珠子，以保证大多数珠子(泊松分布)中每个珠子和单个具有接头的片段退火。在本发明中，连接到从克隆中获得的限制性片段的接头可包括能够退火到珠子上的部分。

在下一个步骤中，将珠子乳化在油包水微反应器里，每个油包水微反应器含有单个珠子。PCR试剂存在于油包水微反应器中，其允许在微反应器中进行PCR反应。随后，破碎微反应器并使含有DNA的珠子(DNA阳性珠子)富集，即与不含有扩增片段的珠子分离。

在下面的步骤中，把富集的珠子装载在孔中，每个孔含有单一的珠子。该孔优选是PicoTiter^TMPlate平板的一部分，PicoTiter^TMPlate平板允许同时测序大量片段。

在加入带有酶的珠子后，使用焦磷酸测序测定片段的序列。在连续的步骤中，在常规测序试剂存在下，PicoTiter^TMPlate平板和里面的珠子以及酶珠子要加入不同的脱氧核糖核苷酸，并且通过引入脱氧核糖核苷酸，产生了可以记录的光信号。正确核苷酸的引入将产生可以检测的焦磷酸测序信号。

焦磷酸测序本身在本领域是众所周知的，并尤其被描述在www.biotagebio.com；www.pyrosequencing.com/section/technology中。该技术进一步应用在例如WO 03/004690、WO 03/054142、WO 2004/069849、WO 2004/070005、WO 2004/070007和WO 2005/003375(全部以454 Life Sciences的名义)，和Margulieset al.，nature 2005，437，376-380，通过引用将其引入本文。

本发明中，珠子优选地带有能够通过聚合延伸以产生珠子结合的扩增子的引物序列或引物序列的部分。在其他实施方式中，扩增中使用的引物带有，例如在其5’端，允许扩增子结合到珠子上以允许随后的乳化聚合及随后的测序的序列。或者，在连接到珠子或表面前，扩增子可用测序接头连接。测序的扩增子将揭示鉴定因子本身从而鉴定因子的组合揭示了克隆本身。

Solexa技术

高通量测序的方法之一可从英国Solexa(www.solexa.co.uk)并尤其在WO0006770、WO0027521、WO0058507、WO0123610、WO0157248、WO0157249、WO02061127、WO03016565、WO03048387、WO2004018497、WO2004018493、WO2004050915、WO2004076692、WO2005021786、WO2005047301、WO2005065814、WO2005068656、WO2005068089、WO2005078130中进行了公开。本质上，在如本文其他部分所描述的人工染色体库的接头连接的限制性片段的特定情况下，该方法从接头连接的DNA片段开始。接头连接的DNA随机结合到已经结合到固体表面的密集引物坪上，一般在流动池中。接头连接的片段的另一端杂交到表面上的互补引物上。引物在核苷酸和聚合酶存在下在所谓的固相桥式扩增中(bridge amplification)扩增以提供双链片段。固相桥式扩增可以是选择性扩增。固相桥式扩增的变性和重复产生分布在表面的密集扩增片段簇。测序通过加入四种不同标记的可逆的终止核苷酸、引物和聚合酶到流动池中而起始。在第一轮引物延伸后，检测标签，第一个加入的碱基的身份被记录下来，从加入的碱基上去除封闭的3’端和荧光团。然后，第二个碱基的身份使用同样的方式确定，因此，测序继续进行。

在本发明中，接头连接的限制性片段或扩增子通过引物结合序列或引物序列结合到表面上。包括鉴定因子序列和(部分)限制性片段序列的序列按所述方式测定。目前可得的Solexa技术允许测序约25碱基对的片段。通过接头和表面结合引物的经济设计，测序步骤连读了样品鉴定因子、限制性内切酶识别序列的剩余部分和任何任选的选择性碱基。当使用6bp的样品鉴定因子时，剩余部分来自低频剪切酶EcoRI(AACCT)，使用两个选择性碱基产生可用于唯一地确定样品中限制性片段的具有12bp的限制性片段的内部序列。

在一个基于上述Solexa测序技术的优选实施方式中，接头连接的限制性片段的扩增用在其3’端含有至多一个选择性碱基，优选地在其3’端没有选择性碱基的引物(即该引物仅与接头互补(+0引物))进行。

在涉及本文公开的测序方法的其他实施方式中，扩增中使用的引物可含有用于随后的测序步骤以将顶端加上接头的限制性片段或扩增子结合到表面的特异性部分(作为本文公开的引物或引物结合序列的另一选择)。通常将这些描述为关键区域或5’-引物相容序列。

本发明分别在含有库特异性或简并鉴定因子部分的接头和/或在含有库特异性鉴定因子的引物中进一步体现了其自身。

附图说明

图1：建库策略图示。

图2：拟南芥染色体4上的四个连续BAC-重叠群—建库策略

图3：组内没有重叠的交替最小拼贴途径(alternating minimal tilingpath)

图4：识别序列定位的(adressed)BAC库—琼脂糖胶中的扩增产物

图5：重组合(re-assembled)的最小拼贴途径—放大的1.9Mb重叠群的部分

实施例

基于合成测序(Sequencing By Synthesis，SBS)方法的基于BAC的拟南芥物理图的从头(de novo)构建

本实施例基于下述概括。

拟南芥总基因组大小为～125Mbp。细菌人工染色体(BAC)具有的基因组插入平均为～100kb。拟南芥基因组的1x物理覆盖度的BAC的一个基因组当量(GE)包括～1250BAC。为获得最优结果，优选的BAC库构建为一个BAC库含有不大于0.34GE(～384 BAC)。统计分析预测，在0.34GE时发现两个相同的BAC(即将映射到恰好相同的物理位置的2个BAC)的几率<5％。在BAC库中更低的GE’进一步降低了找到映射到同一位置的两个BAC的几率。使用直接的3D-建库系统进行计算。2个不同的高质量的BAC文库(2个不同克隆酶，例如EcoRI和HindIII)的总共10GE BAC足够用来构建高质量的物理图。拟南芥的10GE BAC为～12.500 BAC。

序列标签(部分限制性片段和鉴定因子的组合)从低频剪切酶限制性位点产生，例如AFLP片段如EcoRI/MseI，或HindIII/MseI或几种酶组合(ECs)的联用。

在本实施例中使用的酶组合为HindIII/MseI。拟南芥基因组中HindIII/MseI片段的分布估计在每100kb中50至120个片段。

建立高通量测序：

也参见图1。0.3GE对应于384个BAC。384个BAC的X+Y+Z维数的3D建库产生8+12+4＝24个亚库。对于10GE：M(X+Y+Z)＝30(8+12+4)＝720个亚库。

对于每个亚库，目的是产生：

—每个BAC 100个测序的标签

—每个标签10倍的序列冗余度

—3维建库(在每个(X，Y，Z)维数测序每个BAC片段)

这意味着为桥连基于扩增的0.34GE的库的高通量测序，需要一组测序读数为：8个亚库x(12 x 4 x 100 x 10)+12个亚库x(8 x 4 x 100x 10)+4个亚库x(12 x 8 x 100 x 10)＝1.152.000个读数。这意味着对于一个GE每GE需要3*1.152.000＝3.456.000个读数以及每10GE需要10 x 3.456.000＝34.560.000个读数。

单个BAC可能产生～100个具有～20bp(包括限制性位点)的独特序列标签。序列数目取决于酶组合的选择和/或组合。

单个BAC坐标和伴随的序列标签可从定位的亚库序列中通过“解析”步骤推断。因此，通过解析，每个序列标签可分配到相应的单个BAC。重复的序列标签被忽略了。解析过程将产生每BAC一串的100个标签，然后通过FPC(指纹化重叠群)之类的过程获得组合的从头产生的物理图，如Cari Soderlund描述的琼脂糖凝胶中的BAC片段分析(Soderlund et al.2000-Genome Research 10；1772-1787)。最后，在计算机中将物理图匹配(anchoring)到遗传图上。对于更大的基因组，可能需要其他建库策略。

基于合成测序(SBS)方法的基于BAC的黄瓜(Cucumis sativus)物理图的从头构建

本实施例基于下述概括。

黄瓜总基因组大小为～350Mbp。细菌人工染色体(BAC)具有的基因组插入平均为～100kb。拟南芥基因组的1x物理覆盖度的BAC的一个基因组当量(GE)包括～3500个BAC。为获得最优结果，优选的BAC库构建为一个BAC库含有不大于0.34GE(～384个BAC)。统计分析预测在0.34GE时发现两个相同的BAC(即将映射到正好相同的物理位置的2个BAC)的几率<5％。在BAC库中更低的GE进一步降低了找到映射到同一位置的两个BAC的几率。使用直接的3D-建库系统进行计算。2个不同的高质量BAC文库(2个不同克隆酶，例如EcoRI和HindIII)的总共10GE的BAC足够用来构建高质量的物理图。黄瓜的10GE BAC为～35.000个BAC。

在本实施例中使用的酶组合为HindIII/MseI。黄瓜基因组中HindIII/MseI片段的分布估计在每100kb中50至120个片段。

建立高通量测序：

也参见图1。0.3GE对应于1152个BAC。1152个BAC的X+Y+Z维数的3D建库产生8+12+12＝32个亚库。对于10GE：M(X+Y+Z)＝30(8+12+12)＝960个亚库。

对于每个亚库，目的是产生：

—每个BAC 100个测序的标签

—每个标签10倍的序列冗余度

—3维建库(在每个(X，Y，Z)维数中测序每个BAC片段)

这意味着为桥接基于扩增的0.34GE的库的高通量测序，需要一组测序读数为：8个亚库x(12 x 12 x 100 x 10)+12个亚库x(8 x 12x 100 x 10)+12个亚库x(12 x 8 x 100 x 10)＝3.456.000个。这意味着对于一个GE每GE需要3*3.456.000＝10.368.000个读数以及每10GE需要10 x 10.368.000＝103.680.000个读数。

单个BAC坐标和伴随的序列标签可从定位的亚库序列中通过“解析”步骤推断。因此，通过解析，每个序列标签可分配到相应的单个BAC。忽略了重复的序列标签。解析过程将产生每BAC一串的100个标签，然后通过FPC(指纹化重叠群)之类的过程获得组合的从头产生的物理图，如Cari Soderlund描述的琼脂糖凝胶中的BAC片段分析(Soderlund et al.2000-Genome Research 10；1772-1787)。最后，在计算机中进行将物理图匹配(anchoring)到遗传图上。对于更大的基因组，可能需要其他建库策略。

AFLP模板(EcoRI/MseI或HindIII/MseI)从建库的BAC中制备。使用2个HindIII+1引物和MseI+0引物(对EcoRI来说相同)组合进行AFLP的扩增。使用两个+1引物保证从库中扩增大约50％的H/M(或E/M)片段，即对于每个酶组合，平均70/2＝35个限制性片段被扩增。AFLP扩增反应用在5’端含有对于每个BAC库的独特鉴定因子标签的AFLP引物进行。因而至少需要74条鉴定因子序列。这可用4碱基标签完成(4⁴＝256种可能)。仅HindIII引物需要鉴定因子序列，因为在本实施例中将进行单向测序。

所有库的AFLP反应混合物以等量混合，产生片段文库。该片段文库被用来构建序列文库。

考虑到3-D建库策略，这意味着在每个维数中每个片段被平均取样多次。结果是限制性片段的HindIII(或EcoRI)位点来源的100bp序列。如所述的那样，每个BAC克隆平均获得35条序列。这些序列形成使用类似干FPC程序(Soderlund的软件包，可从http: //www.agcol.arizona.edu/software/fpc/获得)但基于序列匹配(更详细)进行重叠群组合的基础。

使用可复制的复杂性降低的优势在于构建物理图时需要更少的片段。在上面黄瓜的实施例中复杂性降低50％导致51.840.000个读数而不是103.680.000个。本发明进一步的优势在于，通过使用此处所描述的复杂性降低，可产生质量可控制的物理图。这意味着通过+1 AFLP(例如和+C组合的引物)扩增降低BAC库的复杂性，与使用所有四种引物组合(A、C、T、G)的+1扩增相比，产生约25％质量(覆盖度)的物理图。然而，当使用两个或三个引物组合时，与使用所有四种引物组合(A、C、T、G)的+1扩增时的覆盖度相比获得了增加的覆盖度，即例如分别为55％或90％。

BAC克隆地址

从相同BAC克隆来源的片段使用3个不同的加标签的引物扩增。因此，在与3个标签的组合中观察到的独特序列被分配到文库中的单个BAC克隆。重复序列被观察到与多个标签组合，因此不与单个克隆相关联。这影响了相当部分的片段，但在35片段/BAC克隆中，至少一个亚组是唯一的。

BAC库10倍的序列覆盖度(3.3倍/维数)意味着，不是所有预期的片段都被观察到(由于单个克隆的浓度差异和抽样变异等等)。因此一部分(独特)序列仅在与1个或2个标签(或不是所有的)的组合中观察到，这阻碍了将它们分配到单个BAC克隆。然而，在这是由于来源于同一克隆的限制性片段的抽样变异的方面来说，取样35个片段的事实意味着标签的组合提供了BAC的正确地址：见下述。

	标签1	标签2	标签3
	标签1	标签2	标签3	片段1	x	x
片段2		x	x	片段1	x	x
片段2		x	x	片段3		x	x
片段4	x		x	片段3		x	x
片段4	x		x	片段5	x	x	x
等等				片段5	x	x	x
等等				片段35	x	x

上述图表说明重叠群建造将片段共同分在一个重叠群组中；具有独特序列并与3个标签组合取样的片段5限定了该BAC在文库中的地址，片段1-4(+35)也可能来源于此。

因而，该方法的好处在于使用足够大量的限制性片段(在上述例子中为35)的序列信息构建精确的重叠群，同时，使用3维标签系统允许直接确定大部分BAC，即使BAC地址不能够从每个单个的片段序列获得(由于实验偏差)。然而同一BAC来源的片段的标签组合将提供该BAC的地址。

因此，源于基于序列的BAC重叠群构建的信息与常规方法相同(即重叠群+BAC地址)。已经注意到，对于单个克隆指纹的方法，BAC地址根据定义即可知道。

实施例2

通过序列标签BAC作图进行高通量物理作图的程序

从TAIR和其他数据库中选定映射到拟南芥染色体4并且在4个BAC重叠群(1.8Mb、1.2Mb、0.5Mb和1.9Mb)中跨越总共5.4Mb物理区段的总共72个BAC(BAC＝细菌人工染色体)。BAC文库的供体植物为拟南芥哥伦比亚生态型(Arabidopsis thaliana ecotypeColombia)。大小在70kb和150kb之间的72个BAC分成36个BAC的两组，“AB”组和“XY”组。在2组内，36个BAC没有内部重叠，而组合的AB组和XY组的BAC可利用交替的(alternating)的AB组和XY组的BAC组装成4个连续的最小拼贴途径重叠群(continuousminimal tiling path contig)(参见图2-5)。

72个拟南芥BAC，AB组中36个，XY组中36个的建库策略

AB组

XY组

T＝TAMU BAC文库——12.5微克氯霉素/ml

F＝IGF BAC文库——50微克卡那霉素/ml

72个BAC作为单个克隆在包含氯霉素(TAMU BAC克隆)或卡那霉素(IGF BAC克隆)的200微升标准TY培养基中生长过夜。所有克隆以6 x 6格式生长以便于建库程序。在早晨，液体培养物在2维(6 x 6)中建库从而产生每组12个库。每个库含有600微升含有生长的BAC的培养基(每单个BAC 100微升)。根据Sambrook等人(2001)的标准碱微制备程序从所有24个BAC库中分离DNA。

每个BAC库中50ng DNA用限制性酶EcoRI和MseI消化，随后连接EcoRI和MseI AFLP接头，根据Vos等人(1995)描述的标准AFLP程序。限制/连接混合物在MilliQ水中稀释10倍，5微升用于扩增步骤。用于扩增步骤的引物设计为具有4个核苷酸识别序列，从而每个库加上库特异性4核苷酸位置序列标签。这一识别序列对于帮助将所有序列解析到单个BAC坐标是必需的。

所使用的EcoRI+0和MseI+0引物都是接头相容的带有5’识别序列的5’-磷酸化引物，并且对于每个库坐标都是不同的(参见图4)。5’-磷酸化对于连接焦磷酸接头是必需的。扩增在下述情况下进行30个循环：94℃(30秒)，56℃(60秒)，72℃(60秒)。扩增后产物在琼脂糖凝胶上检测(图4)并且每组中12个扩增的库产物汇集到一个组-库(AB cq.XY)并定量。每组-库的5微克DNA立即在为454测序的进一步的制备步骤中处理。454焦磷酸测序根据Margulies等人(2005)的方法在GS20平台上进行。

数据组分析和BAC重叠群组合

GS20焦磷酸测序仪器产生的DNA序列读数表在3个步骤中进行了分析：

步骤1)确定组成库样品编码的最先的4个核苷酸并分配相应的库标签。如果该编码未知，该读数从组中删除。

步骤2)确定此后的含有引物序列的16或17个核苷酸(取决于限制性酶)。当与该引物序列100％相同时，读数被确认并加入到数据组中，反之则删除。

步骤3)所有步骤2中的读数修剪成引物序列后的14个核苷酸。

所有正确修剪的序列读数随后分组：所有100％相同的读数被确定并分配到它们相应的库中。每个读数的唯一的组称为“标签”。在确定的两个库中发现的标签，一个在X轴，一个在Y轴，两个都与特定的BAC相关联：这一过程称为解析。

对两个BAC组均列出解析的BAC的所有唯一的标签的表。确定有一个或更多个相同标签的BAC对。随后，可如表1所示对BAC重叠群进行组合。

表1.BAC对(例如X1Y1和A1B1)中相同的并且在每个库中出现至少2次的所有序列标签的BAC链接。对重叠群进行编号。

已经证明在将序列标签解析到单个BAC后，1.8Mb、1.2Mb、0.5Mb和1.9Mb的4个BAC最小拼贴途径可直接重组合(表1和图4)。对产生的GS20标签和计算机中预测的片段的比较显示70至80％的EcoRI/MseI片段被测序。因而在4个BAC重叠群的重组合中，2个BAC之间有些更小的物理重叠不能检测到。

短的读数(14bp)足够进行BAC拼贴途径的重组合的事实表明，利用短读数长度的高通量测序平台(如Illumina Genome Analyser andSOliD(ABI))使得根据此处提出的方法进行高通量物理图组合成为可能。

Claims

1、一种产生至少部分基因组的物理图的方法，包括下述步骤：

(a)提供样品DNA；

(c)将所述的人工染色体克隆组合到一个或更多个库中以产生文库，其中每个克隆在一个以上的库中存在；

(d)用一个或更多个限制性内切酶消化所述的一个或更多个库以为每个库都提供一组限制性片段；

(e)将接头连接到该限制性片段的一边或两边以提供接头连接的限制性片段，其中至少一个接头分别含有库特异性鉴定因子或简并鉴定因子部分；

(f)可选地，组合该接头连接的限制性片段；

(g)用至少一个引物扩增步骤(e)中的接头连接的限制性片段以提供扩增的接头连接的限制性片段(扩增子)，该引物分别含有对应于接头中库特异性鉴定因子部分的库特异性部分或在简并鉴定因子部分的位置含有库特异性鉴定因子；

(h)可选地，组合该扩增子成一组组合的扩增子；

(i)测定扩增子或组合的扩增子组的至少库特异性鉴定因子的序列和部分限制性片段的序列；

(j)使用库特异性鉴定因子将步骤(i)扩增子中测定的限制性片段序列分配到相应克隆中；

(k)将同一克隆来源的限制性片段进行排序以建立重叠群；

2、根据权利要求1所述的方法，其中通过聚类在(部分)限制性片段中含有同样的序列但带有不同的库特异性鉴定因子的扩增子将限制性片段分配到相应的克隆中。

3、根据权利要求1所述的方法，其中所述的测序通过高通量测序的方式进行。

4、根据权利要求8所述的方法，其中所述的高通量测序在固相支持物上进行。

5、根据权利要求8所述的方法，其中所述的高通量测序基于合成测序。

6、根据权利要求8所述的方法，其中所述的高通量测序包括下述步骤：

·退火扩增子或接头连接的限制性片段到珠子上，每个珠子和单个接头连接的限制性片段或扩增子进行退火；

·乳化在油包水微反应器里的珠子，每个油包水微反应器包含单个珠子；

·进行乳化PCR以扩增珠子表面的接头连接的限制性片段或扩增子；

·可选地，选择/富集含有扩增的扩增子的珠子；

·把珠子装载入孔中，每个孔含有单个珠子；以及

·产生焦磷酸信号。

7、根据权利要求8所述的方法，其中所述的高通量测序包括下述步骤：

·分别将所述的接头连接的限制性片段或扩增子退火到含有第一和第二引物或第一和第二引物结合序列的表面上；

·进行桥式扩增以提供扩增的接头连接的限制性片段簇或扩增的扩增子簇；

·使用标记的可逆终止核苷酸测定扩增的接头连接的限制性片段或扩增的扩增子的核苷酸序列。

8、根据权利要求1所述的方法，其中所述的鉴定因子为4至16bp，优选4至10，更优选4至8，最优选4-6bp。

9、根据权利要求8所述的方法，其中所述的鉴定因子不含有2个或两个以上相同的连续碱基。

10、根据权利要求8所述的方法，其中对于两个或两个以上克隆，相应的鉴定因子含有至少两个不同核苷酸。

11、根据上述任意权利要求所述的方法，其中至少一条引物在其3’端带有1至10个，优选1至4个选择性核苷酸，以提供随机的扩增子亚组。

12、一种包括如权利要求1所限定的一条或更多条引物的试剂盒。

13、一种包括如权利要求1所限定的一个或更多个接头的试剂盒。

14、一种包括如权利要求1所限定的引物和接头的试剂盒。