CN101310024A

CN101310024A - 高通量筛选转座子标记群体和大量平行的插入位点的序列鉴定方法

Info

Publication number: CN101310024A
Application number: CNA2006800423758A
Authority: CN
Inventors: M·J·T·范艾克; A·G·M·杰拉茨; A·J·范图南; M·M·A·万丹布斯切
Original assignee: Keygene NV
Current assignee: Keygene NV
Priority date: 2005-11-14
Filing date: 2006-11-08
Publication date: 2008-11-19
Anticipated expiration: 2026-11-08
Also published as: ES2422288T3; WO2007055568A1; EP1960541A1; EP1960541B1; JP5166276B2; US20090208943A1; JP2009515518A; US8071310B2; AU2006312378A1; AU2006312378B2; CN101310024B

Abstract

本发明涉及鉴定在转座子群体中的基因的方法，其包括分离基因组DNA，任选地集合DNA，使用酶对集合中的DNA进行限制化，连接接头，用引物扩增接头－连接的片段，引物之一互补于转座子序列的边界，高通量测序片段，将片段与数据库中的已知序列进行比对进而鉴定基因候选物。

Description

高通量筛选转座子标记群体和大量平行的插入位点的序列鉴定方法

发明领域

本发明涉及分子生物学和遗传学领域。发明涉及基于使用高通量测序技术的改进的鉴定群体中的基因突变体的策略。

发明背景

现代植物基因组学研究使用转座子标记群体通过反向遗传方法来鉴定对农学性状或普遍重要性状有影响的基因。

因为转座子群体通常被用于鉴定负责观察到的表型的基因，它们是基因发现的补充工具，即所谓的正向遗传方法。这在本领域中和反向遗传方法是不同的，在反向遗传方法中在感兴趣的序列(基因)中鉴定突变事件。该方法中的限速步骤是和鉴定在基因或感兴趣序列中携带突变的个体有关的筛选工作。下面，更详细的描述了转座子群体和筛选方法的原理，并描述了更有效的筛选方法，所述筛选方法提高了这些基因发现工具的价值。

转座子是天然存在或人工设计的活动遗传成分，且在基因组中多拷贝的。它们是不稳定的，它们在基因组中的位置能够通过在新位点中切除和插入而变化，且通常在生命周期中的任意的特定时期发生。转座子群体对基因发现是有价值的，这是因为如果它们插入基因序列或其调控区中，它们能破坏基因功能。已知植物育种中使用的许多转座子的序列，但是，一旦观察到带有有趣表型的植物，不知道哪个基因被转座子插入而受影响了。通常，也不知道转座子是否负责该表型，就是知道，也不知道哪个转座子负责该表型。转座子群体中的转座子拷贝数量范围是每个植物中从数十到数百个转座子，这有赖于有机体和转座子的。为了从序列特异的转座子整合位点中获得侧翼序列，目前用于分析转座子诱导的表型突变序列的筛选方法包括基于锁定-PCR(linked-PCR)的方法。锁定-PCR的局限是确定侧翼序列需要从测序胶中获得切割条带，这是费时、难以自动化并且相对低通量(对于数千条带不易采用)的。如果能使用一种简单的方法收集所有或者至少部分的、整合在基因组中的转座子的侧翼序列，筛选转座子群体将得到改进。这里我们试图提供一种有效的方法来分析并使用优选序列中的插入事件。

定义

在下面描述和范例中使用了一些术语。为了提供对于说明书和权利要求书的清晰并且一致的理解，包括指定这些术语的范围，提供了下面的定义。除非本文另外定义，所使用的所有的技术和科学术语具有和本发明所属领域的普通技术人员的常规理解相同的含义。公开的所有的发表文章、专利申请、专利和其它参考文献在此处被整体引用的方式纳入本文。

转座子：转座子是在单个细胞的基因组中能来回移动到不同位置上(一个被称为转座的过程)的DNA序列。在该过程中，它们能引起突变并改变基因组中的DNA量。转座子还被称为“跳跃基因”或“活动遗传成分”。有多种活动遗传成分；根据其转座机制它们能被分组。I型活动遗传成分，或逆转录转座子，通过被转录为RNA，并随后通过逆转录酶回到DNA中而在基因组中移动，而I I型活动遗传成分使用转座酶在基因组中“切割并粘帖”它们，而使其在基因组内从一个位置直接移动到另一个位置。转座能被复制，其中可转座元件的一个拷贝仍保留在供给位点上，而另一个插入到目标位点上；或者转座能保守地发生，其中可转座元件从一个位点处被切除并插入到另一个位点。该术语包括，但不限于，在原核生物中发现的可转座元件，例如插入序列(IS)、转座子(Tn)或者细菌噬菌体例如Mu和D108。真核生物可转座元件包括，但不限于：在黑腹果蝇(D.melanogaster)中发现的Copia成分(Copia elements)；TY成分，例如在酵母中发现的那些；TaI和Tnt 1可转座元件，例如在拟南芥中发现的那些；在小鼠中发现的IAP；Tam或Cin可转座元件，例如在金鱼草中发现的那些；和AC、Spm、Bs、Cin、Dt和Mutator可转座元件，例如在玉米中发现的那些。该术语还包括能复制或保守地将自身插入到宿主基因组中的、合成的可转座元件，并且它们从基因组中的转座或切除能被人工干预所控制。例如，能构建合成的可转座元件，它缺少有功能的转座酶(介导转座的酶)，但是通过操作性的将转座酶基因连接到可诱导的启动子上而反式提供转座酶。

转座子群体：来自于一个有机体(通常是植物，但是也可能是其它有机体，例如果蝇和小鼠)的一群个体，其中每个个体在其基因组中携带有数个转座子，并且每个转座子可能影响一个或多个基因，导致不同的表型。典型的，从表达不稳定性的表型性状个体或变体中选择获得转座子群体。转座子群体的大小可以变化很大，对于特定目的，可以使用含有90、80、70、60、50、40、30或甚至仅20％原始群体的部分群体。

标签：一种短序列，能被加入到引物中或包括于引物序列中，或者被用作标记来提供唯一的识别符。这种序列识别符可以是唯一的、具有不同但是确定长度的碱基序列，专门用于确定特定的核酸样品。例如4bp标签提供了4(4次方)＝256种不同的标签。典型的范例是本领域已知的ZIP序列(Iannone等人Cytometry 39：131-140，2000)。使用这种标签，能通过进一步的处理确定PCR样品的来源。对于来源于不同核酸样品的联合处理的产物，通常使用不同的标签鉴定不同的核酸样品。对于本发明，加入唯一的序列标签用于确定植物个体在序列扩增产物集合中的坐标。可以使用多个标签。

加标签：指的是在核酸中加入标签或标记的过程，使能够将其和第二种或更多的核酸区分开。可以通过，例如，使用已加标签的引物或通过本领域已知的其它任意方法在扩增中加入序列识别符，来进行加标签。

限制性核酸内切酶：限制性核酸内切酶或限制性酶是一种酶，识别双链DNA分子中的特异性核酸序列(目标位点)，并将在每个目标位点切割DNA分子的两条链。

限制性片断：用限制性核酸内切酶消化产生的DNA分子被称为限制性片断。任何给定的基因组(或核酸，无论其起源)都将被特定的限制性核酸内切酶消化为不连续的限制性片断。限制性核酸内切酶切割得到的DNA片段能被进一步用于多种技术中，并且例如通过凝胶电泳进行检测。

连接：连接酶催化的酶反应，其中两个双链DNA分子被共价交联到一起，被称为连接。通常，两个DNA链都被共价交联到一起，但是也有可能通过链的末端之一的化学或酶修饰来防止两条链中的一条链的连接。这该情况下共价交联将只发生在两条DNA链中的一条链上。

合成的寡核苷酸：单链DNA分子，优选具有大约10到大约50个碱基，能被化学合成，被称为合成的寡核苷酸。虽然有可能合成具有相关序列的分子家族，且该分子家族在核苷酸序列中的特定位置上具有不同核苷酸组成，但是一般而言，这些合成的DNA分子被设计为具有唯一的或想得到的核苷酸序列。术语合成的寡核苷酸被用于指具有设定的或想要的核苷酸序列的DNA分子。

接头：具有有限数量碱基对的短的双链DNA分子，例如长度为大约10到大约30碱基对，如此设计使它们能被连接到限制性片段的末端。接头通常由两个具有互相部分互补的核苷酸序列的合成寡核苷酸组成。当在溶液中，在适当条件下混合这两个合成寡核苷酸时，它们将互相退火形成双链结构。退火后，接头分子的一个末端被设计使其和限制性片段的末端匹配，并能连接至其上；接头的另一个末端能被设计使其不能连接，但不总是这样(双连接接头)。

接头-连接的限制性片段：顶端已经加上接头的限制性片段。

核酸：根据本发明，核酸可以包括嘧啶和嘌呤碱基的任意聚合物或寡聚物，分别优选胞嘧啶、胸腺嘧啶和尿嘧啶，以及腺嘌呤和鸟嘌呤(参见Albert L.Lehninger，Principles of Biochemistry，793-800(Worth Pub.1982)，其被整体引用并纳入本文，以用于本文的各个方面)。本发明考虑了任意的脱氧核糖核苷酸、核糖核苷酸或肽核酸组分，以及它们的任意变体，例如这些碱基的甲基化、羟甲基化或糖基化形式，等等。该聚合物或寡聚物在组成方面可以是异源的或同源的，并且可以分离自天然产生的来源或者可以是人工的或合成的产物。此外，核酸可以是DNA或RNA，或者它们的混合物，并且可以以单链或双链形式永久或暂时存在，包括同源双链、异源双链和杂交状态。

测序：术语测序指的是确定核酸样品(例如，DNA或RNA)中的核苷酸顺序(碱基序列)。

比对(Aligning和alignment)：术语比对的意思是，根据相同或相似的核苷酸的长或短的延伸的存在情况，比较两个或多个核苷酸序列。本领域中已知几种核酸序列比对方法，下面将进一步解释。有时，术语“汇集(assembly)”或“聚类(clustering)”被用作同义词。

高通量筛选：高通量筛选，通常简写为HTS，是一种用于科学实验的方法，尤其和生物与化学领域相关。通过将现代机器人学和其它专业实验室硬件相结合，该方法能让研究人员有效的同时筛选大量样品。

引物：一般而言，术语引物指的是能起始DNA合成的DNA链。DNA聚合酶不能在没有引物的情况下从头合成DNA：它在反应中只能延长已有的DNA链，在所述反应中互补链被用作模板来引导待组装的核苷酸的顺序。我们将把聚合酶链式反应(PCR)中使用的合成的寡核苷酸分子称为引物。

增强亲和力的引物：含有修饰的核苷酸的引物，例如PNA或LNA，该修饰的核苷酸增加了引物的热稳定性，其中该引物能用于根据单个核苷酸序列差异进行的特异性更强的扩增。为了实现这个目的，经常包括了一个或多个修饰的核苷酸，优选在引物的3′末端。

DNA扩增：术语DNA扩增将被典型的用于表示使用PCR进行双链DNA分子的体外合成。需要注意的是，已有其它扩增方法，并且它们有可能在本发明中使用而不偏离本发明的要旨。

选择性杂交：关于，在严格杂交条件下，和核酸序列杂交到非目标核酸序列上相比，核酸序列以可检测的更高的程度(例如，优选的比背景至少高2倍)杂交到特定的核酸目标序列上，以及关于大量排除非目标核酸。术语“严格条件”或“严格杂交条件”包括如下条件，在该条件下探针以可检测的、和其它序列相比更高的程度(例如，优选至少是背景的2倍)杂交到它的目标序列上。严格条件是序列依赖的，并且在不同的环境下将是不同的。通过控制杂交和/或清洗条件的严格性，能鉴定出和探针100％互补的目标序列(同源探查)。备选的，可以调整严格条件，以允许序列中的错配，从而可检测到较低程度的相似性(异源探查)。通常，探针长度小于100个核苷酸，优选的长度不超过50或25。典型的，严格条件将是盐浓度小于大约1.5M Na离子，典型的是大约0.01到1.0M Na离子浓度(或其它盐)，pH大约为7.0到8.3，并且对于短探针(例如，10到50个核苷酸)，典型的温度为至少大约30℃，对于长探针(例如，超过50个核苷酸)，典型的至少大约60℃。还可以通过加入去稳定剂例如甲酰胺来实现严格条件。

示例的低严格性条件包括在含有30到35％甲酰胺、1M NaCl，1％SDS(十二烷基硫酸钠)的缓冲液下、37℃中的杂交以及在1×到2×SSC(20×SSC＝3.0M NaCl/0.3M柠檬酸三钠)、50到55℃中的清洗。示例的中度严格性条件包括在40到45％甲酰胺、1M NaCl，1％SDS、37℃中的杂交以及在0.5×到1×SSC、55到60℃中的清洗。示例的高严格性条件包括在50％甲酰胺、1M NaCl，1％SDS、37℃中的杂交以及在0.1×SSC、60到65℃中的清洗。典型地，特异性是杂交后清洗的作用，关键因素是最后清洗溶液的离子强度和温度。对于DNA-DNA杂交，可以利用Meinkoth和Wahl的公式(Anal.Biochem.，138：267-284(1984))：Tm＝81.5℃+16.6(logM)+0.41(％GC)-0.61(％甲酰胺)-500/L得到Tm的近似值，其中M是一价阳离子的摩尔浓度，％GC是DNA中的鸟苷和胞苷的百分比，％甲酰胺是甲酰胺在杂交溶液中的百分比，L是杂交碱基对长度。Tm是50％的互补目标序列杂交到完全匹配的探针上的温度(在确定的离子强度和pH下)。每1％的错配，Tm大约下降1℃；因此，能够调节Tm、杂交和/或清洗条件来杂交到所需一致性的序列上。例如，如果寻找具有＞90％一致性的序列，Tm通常减少10℃，选择的严格条件为在给定的离子强度和pH下比特定序列与其互补体的热溶解点(Tm)低大约5℃。但是，极度严格条件能在比热溶解点(Tm)低1、2、3或4℃下进行杂交和/或清洗；中度严格条件能在比热溶解点(Tm)低6、7、8、9或10℃下进行杂交和/或清洗；低严格条件能在比热溶解点(Tm)低11、12、13、14、15或20℃下进行杂交和/或清洗。普通技术人员将能理解，在使用方程式，杂交和清洗成分，以及所需Tm时，也不言而喻地描述了杂交和/或清洗溶液的严格性的变化。如果想得到的错配程度导致Tm值低于45℃(水溶液)或32℃(甲酰胺溶液)，优选增加SSC浓度，这样能使用更高的温度。在Tijssen，生物化学和分子生物学技术实验室技术-用核酸探针杂交，第1部分，第2章“杂交原理概述和核酸探针分析策略”，Elsevier，N.Y.(1993)；以及分子生物学技术通用操作流程(Current Protocols in Molecular Biology)，第2章，Ausubel等人，Eds.，Greene Publishing and Wiley-Interscience，纽约(1995)中有针对核酸杂交的更全面的指南。

发明详述

本发明已经发现，使用高通量测序策略能实现上述目标，并能有效筛选转座子群体或含有携带由于转座子插入引起的有趣表型的成员的群体，寻找在感兴趣的基因中是否存在插入。

发明详述

发明关于一种在转座子群体成员中鉴定与感兴趣的基因或序列相关的插入的方法，包括如下步骤：

(a)分别地或以集合方式分离转座子群体的基因组DNA；

(b)可选的，集合步骤(a)中获得的DNA；

(c)使用一种或多种，优选两种或多种，更优选两种限制性内切酶切割DNA，优选其中至少一种是不在转座子内切割的频繁切割限制性内切酶，并且优选至少一种是在转座子中切割的稀有切割限制性内切酶，将接头和限制性片段连接，因此制备出接头-连接的限制性片段；

(d)用一对(优选标记的)引物扩增接头-连接的限制性片段，其中一个引物包含和(已知)转座子序列的部分互补(能杂交)的片段，并进一步包括序列引物结合位点，其中另一个引物至少和接头互补，其中一个或两个引物都含有标签；

(e)任选的，集合步骤(d)中的扩增产物来创建一个扩增产物库；

(f)任选的，片段化库中的扩增产物；

(g)使用高通量测序测定(d)、(e)或(f)的片段的核苷酸序列；

(h)任选的，在计算机中整理片段序列籍此来去除所有的接头和/或转座子相关序列信息；

(i)鉴别出步骤(g)或(h)中能和数据库中的核苷酸序列比对的一个或数个片段，从而将数据库中的核苷酸序列和感兴趣的表型相联系；

(j)鉴定含有步骤(i)的片段的转座子群体成员；

(k)任选的，根据步骤(i)的片段设计一个探针或PCR引物对，并使用它验证转座子在(j)中鉴定出的成员的基因组中的感兴趣基因中的插入。

通常使用本领域中的常规方法完成DNA的分离来提供群体中每个成员的DNA样品，例如从群体成员收集组织，提取DNA(例如使用Q-Biogene快速DNA试剂盒)，定量和标准化来获得每个样品等量的DNA。作为范例，本发明依照1000株植物的转座子群体进行了举例说明。典型的，分离了群体中每个表现出感兴趣表型的成员的DNA。

依照本发明的方法，根据是否存在感兴趣的突变表型分离出基因组DNA中包含至少一个可转座元件-加标签的基因的个别有机体。因此提供了一种适用于鉴定并分离有机体的遗传序列的方法，其中，位于所述遗传序列侧翼的可转座元件断裂所述有机体的基因组DNA与突变表型直接或间接地相关。优选的，有机体的突变表型已知或者怀疑是由于可转座元件的插入破坏单一基因，或者，至少无法排除这种插入事件。实际上，这意味着，根据是否存在突变表型将一组有机体进行分离。本领域技术人员将能理解，待分离的有机体集合应该在相似条件下生长或培养，来避免非遗传因素(例如，环境效果)导致的表型的分离。本发明的方法能应用于任意的、能被区分并分类为野生型或突变型的表型。能通过视觉的、生化的、农学的或形态学的方法检测这种表型。技术人员将认可：此处所使用的术语“野生型”和“突变型”是用于根据是否存在特定表型来区分有机体的自定义术语。本发明能应用于的有机体可以是真核的或原核的。当应用本发明的方法时，真核有机体可以是单倍体或双倍体。在双倍体有机体中可以从F1代表现出野生型表型，但是和转座-加标签基因相关的突变表型通常较多显露为隐性突变，因此通常较多在F2代表现出来。因此，在优选的发明实施方案中，有机体将来自于可转座元件供体个体和没有活性可转座元件的受体近交个体之间交叉杂交产生的F2代。优选的，本发明的方法将被应用于植物。在某些实施方案中，优选的植物是单子叶植物，例如禾本科植物，包括示例性的物种玉蜀黍。在本发明的某些实施方案中，具有可转座元件的有机体将是玉米植物，其来自于含有Mu-DR调控元件(Chomet等人(1991)Genetics 122：447457)和高拷贝数量的Mu元件的Mu-供体个体与含有非活性Mu元件的受体近交个体杂交的F2代。有机体的基因组DNA将具有至少一个可转座元件，优选多个可转座元件，例如至少5、10、25、50或100。基因组中的可转座元件可以是相同或不同类型的。可以根据本领域中的可行方法以实验衍生获得包含可转座元件的有机体。参见，例如，Chomet(1994)在The Maize Handbook，ed.Freeling和Walbot(Springer-Verlag，纽约)，243-248页。在优选的实施方案中，可转座元件是Mutator(Mu)。Robertson(1978)Mutation Res.51：21-28，Chandler和Hardeman(1992)Advances in Genetics 30：77-122)。末端-反转-重复DNA(TIR)存在于许多可转座元件中，包括Mu，其非常适合于本发明。可转座元件的插入可以发生于可转座元件-加标签基因的DNA序列的内部或附近。用本发明的方法鉴定的可转座元件-加标签基因可以在基因编码序列内部插入有可转座元件，这样基因的正常功能产物的转录被破坏，导致突变表型。此外，加标签的基因可以具有插入到内含子内部的可转座元件，因此影响了RNA剪接，这可能会破坏有功能的基因产物，因此产生突变表型。进一步，加标签的基因可以具有插入到调控区域内部的可转座元件，例如启动子或增强子成分，因此基因表达得到增强或减弱，导致突变表型。对于本发明的方法所应用于的每种表型，至少一个具有野生型表型的有机体和至少一个突变体被分离。可选的，在分离的野生型群体中至少有2、4、5、10、15或20个有机体，在分离的突变体群体中至少有2、4、5、10、15或20个有机体。

例如可以使用3-D集合方案(Vandenbussche等人，2003，ThePlant Cell，15，2680-2693)集合分离的DNA。优选使用等量的DNA进行集合。3D-集合方案可以包括10×10×10，得到30个集合(10+10+10)，每个集合含有10×10＝100个不同的DNA样品。多种其它集合策略能被用于本发明，其例子为多维集合(包括3-D集合)或列、行或板集合。在某些实施方案中，能够在获得样品阶段中的DNA提取之前进行集合，这样使DNA制备从1000个样品减少到了30个(方法的步骤(a))。

集合步骤典型的用于在一轮PCR筛选后鉴定含有观察到的转座子插入的植物。集合DNA进一步用于在PCR扩增之前标准化DNA，来提供其在测序库中更加相等的存在量。使用至少一种限制性内切酶限制性切割集合中的DNA。根据具体情况，即，基因组大小或转座子数量，可以使用更多的内切酶。在某些实施方案中，能够使用2种或更多种内切酶。对于多数基因组，2种内切酶就足够了，并且因此这也是最优选的。在某些实施方案中，尤其是对于大的或复杂的基因组，可以使用更多的内切酶。优选的，内切酶提供相对短的50-500bp的限制性片段，但是这不是必须的。典型的，优选至少一种频繁切割内切酶，即，具有4或5碱基对识别序列的内切酶。有一种这样的酶是Msel，但是可以买到并使用其它众多种酶。并且也可以使用在其识别序列以外进行切割的酶(IIs型)或者提供平头末端限制性片段的酶。一种优选的联用是是联合使用一种稀有(6和更多碱基对识别序列)和一种频繁切割酶。在对集合的DNA进行限制性切割后，或在其同时，将接头连接到限制性片段上来提供接头-连接的限制性片段。可以使用一种或多种不同的接头，例如两种接头，一种正向的，一种反向的接头。可选择的，对于所有片段可以使用一种接头，或者可以使用数组接头，其中在接头突出末端部分含有核苷酸的置换，以此来提供索引接头，可以用于预选步骤(Unrau等人，Gene，1994，145，163-169)。此外，对于平头末端限制性片段，可以使用平头末端接头。接头-连接是本领域所熟知的，并已在EP 534858中得到描述。在接头连接之后，可以使用和接头互补的一组引物(预)扩增接头-连接的限制性片段。这可以用于(进一步)标准化集合中来自于每株植物的DNA的量，或者增加集合中DNA的总量用于集合的多重分析(即，分割样品)并增强信噪比。

在可选的预扩增后，在本发明的步骤(d)中用一对引物扩增接头-连接的限制性片段。其中一个引物至少和接头的一部分互补，并且可以进一步和内切酶识别序列的残余部分的一部分互补，并且可以进一步在其3′末端含有(随机选择的)选择的核苷酸，这和EP534858中所描述的相似。设计引物组中的其它引物使其能退火到转座子序列的边界(部分)。典型的，引物和转座子的保守序列重叠，并且优选在其边界处。优选的，引物能在严格杂交条件下分别选择性的杂交到可转座元件上或接头上。此外，引物可以和转座子重叠(互补的)至少50、60、70、80、85、90、95％。引物平均长度大约为20bp的话，总计重叠大约10到19个碱基。这可以是有机体中的转座子或转座子家族的已知序列一致性序列或。植物中的典型的转座子序列是已知的，例如参见：De Keukeleire等人Chromosome Research，2004，12(2)：117-123；Van den Broeck等人，The Plant Journal，1998，13(1)，121-129；Gerats等人Plant Cell，1990，2，1121-1128，揭示了牵牛花中的284bp的dTphl转座子系统。这些参考文献显示，转座子家族的一致性序列是已知的，尤其是在转座子的边界处。得到这些保守序列后，能够容易的设计合适的引物。例如，Hat家族(Hobo，Ac andTam3 in plants and animals。从下面的文章中可获知转座子成分以及其序列：Atkinson PW，Warren WD，O′Brochta DA(1993)The hobotransposable element of Drosophila can becross-mobikized inhouseflies and excises like the Ac element of maize.Proc NatlAcad Sci USA 90：9693-9697；Capy P，Vitalis R，Langin T，HiguetD，Bazin C(1996)Relationships between transposable elementsbased upon the integrase-transposase domains：is there a commonancestor？J MoI Evol 42：359-368；Esposito T，Gianfrancesco F，Ciccodicola A等人(1999)A novel pseudoautosomal human geneencodes a putative protein similar to Ac-like transposases.Hum MoI Genet 8：61-67；Grappin P，Audeon C，Chupeau MC，Grandbastien MA(1996)Molecular and functionalcharacterization of Slide，an Ac-like autonomous transposableelement from tobacco.MoI Gen Genet 252：386-397；Handler AM，Gomez SP(1996)The hobo transposable element excises and hasrelated elements in tephridit species.Genetics 143：1339-1347；Hehl R，Nacken WK，Krause A，Saedler H，Sommer H(1991)Structural analysis of Tam.3，atransposable element fromAntirrhinum ma jus，reveals homologies to the Ac element frommaize.Plant MoI Biol 16：369-371；Huttley GA，McRae AF，CleggMT(1995)Molecular evolution of the Ac/Ds transposable elementfamily in pearl millet and other grasses.Genetics 139：1411-1419；Kempken F，Windhofer F(2001)The IxAT family：aversatile transposon group common to plants，fungi，animals，and man.Chromosoma 110：1-9.Warren WD，Atkinson PW，O′BrochtaDA(1995)The Australian bushfly Musca vetustissima containsa sequence related to transposons of the hobo，AC and Tam3 family.Gene 154：133-134。

优选的，定向并设计针对转座子的引物使其向外面向目标转座子。在某个实施方案中为了增强特异性，一个或两个引物(优选的，转座子指向的引物)可以含有增强结合亲和力的核苷酸。

使用一对加标签的引物扩增接头-连接的限制性片段的部分或片段，其中一个或两个引物都可以被标记。优选的，对于每个维度的每个集合，使用不同的引物。在上面的例证中，这意味着优选30个正向引物和一个反向引物。正向和反向引物中的一个可以指向接头，而另一个反向和正向引物可以指向靶向的转座子。

优选的每对引物(针对接头的引物和针对转座子的引物)可以进一步依赖性地包括一个或多个下述成分：

(i)序列引物结合位点，能被用于下面的测序步骤，

(ii)用于将引物(以及所得扩增产物)和群体的最初成员相联系的标签，和

(iii)小珠结合序列，用于结合到高通量测序步骤中所使用的小珠上。

在一个典型的实施方案中，针对转座子的引物能具有下述结构，在3′-5′方向和5′-3′方向：

序列引物结合位点---任选的标签---转座子特异性PCR引物序列或

小珠结合位点---任选的标签---转座子特异性PCR引物序列。

在一个典型的实施方案中，针对接头的引物可以具有下述结构，在3′-5′方向和5′-3′方向：

序列引物结合位点---任选的标签---接头特异性PCR引物序列或小珠结合位点---任选的标签---接头特异性PCR引物序列。

在某些实施方案中，在用于扩增时，针对转座子的引物和针对接头的引物在3′末端都可以含有1-10个随机选择的核苷酸，可以提供子集。见图1。序列引物结合位点和转座子特异性PCR引物序列的长度是普通PCR中常规使用的，即，独立的，从大约10到大约30bp，优选从15到25bp。优选地，扩增的接头连接序列的部分或片段对应于根据使用下述高通量测序技术在一轮运行中且测序的长度。在某些实施方案中，该部分或片段的长度在大约50bp到大约500bp之间，优选的为从大约75bp到大约300bp，而优选的为大约90bp到大约250bp之间.如上所述，该长度随采用的测序技术(包括有待开发的那些技术)的变化而改变。

采用这组引物进行的扩增将以多扩增形式提供靶向的转座子侧翼序列的接头连接的限制性片段(扩增子)。

通过使用含有标签序列的引物(正向和/或反向)，所述标签对于代表集合所有维度的每种引物是唯一的，能知道每种标签序列的特异性集合来源，因为序列引物退火到标签上游，所以在每个扩增产物中都具有标签序列。

在某些实施方案中，正向和反向引物都被加上标签。在其它实施方案中，正向或反向引物中只有一个引物被加上标签。选择加一个或两个标签依赖于具体情况并依赖于高通量测序反应的阅读长度和/或独立验证的必要性。例如，对于进行单向测序的100bp的PCR产物，只需要一个标签。对于200bp的PCR产物和100bp的阅读长度，双标签结合双向测序是有益的，因为这使效率提高了2倍。它进一步提供了在相同步骤中独立验证的可能性。当使用两个加标签的引物双向测序100bp PCR产物时，所有的峰图(trace)，无论其方向，将提供突变信息。因此两个引物都提供了关于哪株植物含有哪个突变的“地址信息”。标签可以是任意数量的核苷酸，但是优选含有2、3、4或5个核苷酸。当变更4核苷酸时，有可能有256种标签，而变更3核苷酸时，提供了64种不同的标签。在使用的例证中，标签优选差异＞1碱基，因此优选的标签是4bp长。使用这些引物的扩增得到了加标签的扩增产物的库。在某些实施方案中，能够使用标签系统，其中扩增过程包括使用(1)包含连接到(b)简并标签片段(NNNN)的(a)5′-恒定片段的长引物，该引物连接到(c)一个转座子或标签特异性片段-3′和

(2)在以后的扩增中的一个短引物，其包含连接到(b)非简并标签片段-3′(即，在NNNN中的一个选择)的(a)5′-恒定片段。优选地以短少量使用长引物，过量使用短引物。对于每个集合的样品，非简并标签片段可以是唯一的，例如，ACTG对于集合的样品1，AATC对于集合的样品2，等等。短引物退火到长引物的一个子集上。可以将引物的恒定片段用作序列引物。优选的，库包含等量的来自于所有扩增的集合的PCR产物。在用作例证的范例中，对于每个转座子插入位点，库包含1000植物x100bp＝100kb序列需要测定。在该方法的步骤(e)中，可以集合扩增产物，优选以等量或标准化量，因此创建扩增产物库。示例性的，库的复杂度将为：对于每个转座子插入位点，1000植物x 250-500bp＝0.25-0.5Mb序列。库中的扩增产物可以在片段测序前进行随机片段化。能够通过物理技术进行片段化，即，剪切、超声处理或其它随机片段化方法。在步骤(g)中，测定步骤(d)或(f)的至少部分(但是优选所有的)片段的至少部分(但是优选整个)核苷酸序列。在某些实施方案中，扩增产物的片段化步骤是任选的。例如，当测序技术的阅读长度和PCR片段程度大致相等时，不需要片段化。同样对于较大的PCR产物，如果只有部分片段被测序是可接受的，扩增产物的片段化也可以不是必须的。例如对于500bp PCR产物以及100(从每侧)的阅读长度，如果在测序之前没有片段化，将剩下300bp未被测序。片段化的需求随着测序技术的阅读长度的增加而降低。基本上，可以利用本领域已知的任意方法进行测序，例如双脱氧链终止法(Sanger测序)。但是优选的并且更有益的是使用高通量测序方法进行测序，例如WO 03/004690、WO 03/054142、WO 2004/069849、WO2004/070005、WO 2004/070007和WO 2005/003375(所有都以454LifeSciences公司的名义)中公开的方法，Seo等人(2004)Proc.Natl.Acad.Sci.USA 101：5488-93，以及Helios公司的技术，Solexa，USGenomics，等等，在此处被以引用的方式纳入本文。最优选的，使用WO 03/004690、WO 03/054142、WO 2004/069849、WO 2004/070005、WO 2004/070007和WO 2005/003375(所有都以454Life Sciences公司的名义)中公开的仪器和/或方法进行测序，这些专利在此处被以引用的方式纳入本文。当前描述的技术能够在单一运行中测序4000万碱基，比竞争技术快100倍，并且更便宜。它还将随着每个反应阅读长度的增加和/或平行反应数量的增加而增加。测序技术大致包括5步：1)DNA的片段化和特异性接头的连接来创建单链DNA(ssDNA)库；2)ssDNA退火到小珠上，在油包水(water-in-oil)微反应器中乳化小珠并进行乳液PCR(emulsion PCR)来扩增小珠上的单个ssDNA分子；3)选择/富集在其表面上含有扩增的ssDNA分子的小珠；4)在PicoTiterPlate

中沉淀携带DNA的小珠；和5)利用焦磷酸盐光信号的产生在100,000个小孔中同时测序。

在优选的实施方案中，测序包括步骤：

(1)测序-接头-连接的片段退火到小珠上，每个小珠退火有单一的片段；

(2)在油包水微反应器中乳化小珠，每个油包水微反应器中包含单一小珠；

(3)进行乳液PCR来扩增小珠表面上的接头-连接的片段；

(4)选择/富集含有扩增的接头-连接的片段的小珠；

(6)将小珠装填到孔中，每个孔包含单一小珠；和

(7)产生焦磷酸盐信号。

在第一个步骤(1)，存在于接头连接的限制性片段中的接头退火到小珠上。如前所概述的，测序接头包括至少“关键”区域用于退火到小珠上，测序引物区域和PCR引物区域。特别的，扩增的接头-连接的限制性片段现在在其一个末端处含有下面序列：5′-序列引物结合位点---标签---转座子特异性PCR引物序列-3′，而在另一个末端可以存在如下片段：5′-小珠退火序列---标签---接头特异性序列---限制性位点特异性序列(任选的)---(随机的)选择性序列(任选的)-3′。清楚的是，序列引物结合位点和小珠退火序列可以互换。现在这种小珠退火序列可以用于将片段退火到小珠上，小珠携带有该末端的核苷酸序列。

因此，适宜的片段退火到小珠上，每个小珠与单一的适宜片段退火。对于适宜片段的集合，过量加入小珠来确保对于大部分(泊松分布)的小珠，每个小珠退火有单一的适宜片段。

在优选的实施方案中，为了进一步增加转座子筛选的效率，将转座-派生的PCR产物定向扩增到小珠上用于测序是有益的。这可以通过使用接头-尾的PCR引物进行转座子PCR来完成，所述引物的Msel(或其它限制酶)侧接头的一条链和偶联到测序小珠上的寡核苷酸互补。因此，测序反应将从转座子侧起始(因为测序朝小珠方向发生)，导致序列从转座子向外产生。

在下一步，在油包水微反应器中乳化小珠，每个油包水微反应器包含单一小珠。在油包水微反应器中存在PCR试剂，使PCR反应在微反应器中发生。随后，打破微反应器，富集含有DNA(DNA阳性小珠)的小珠。

在下一步，将小珠装填到孔中，每个孔包含单一小珠。优选的，孔是PicoTiter^TMPlate的部分，其能够同时测序大量的片段。

在加入携带有酶的小珠后，使用焦磷酸测序测定片段的序列。在后续步骤中，在存在常规测序试剂下，向PicoTiter^TMPlate和其中的小珠、酶珠中加入不同的脱氧核糖核苷酸，随着脱氧核糖核苷酸的掺入，产生光信号并记录下来。正确的核苷酸的掺入将产生能被检测的焦磷酸测序信号。焦磷酸测序本身是本领域已知的，并在www.biotagebio.com；www.pyrosequencing.com/section technology中得到描述。该技术进一步应用于，例如，WO 03/004690、WO 03/054142、WO 2004/069849、WO 2004/070005、WO 2004/070007和WO2005/003375(所有都以454Life Sciences公司的名义)，它们被以引用的方式纳入本文。测序后，修剪从测序步骤直接获得的片段序列，优选在计算机中进行，以去除所有的小珠退火序列、测序引物、接头或转座子相关序列信息。这可以有助于在下一步中和已知的、来自于数据库中的序列进行更好的比对，以鉴定所有可能的匹配(hit)。通过在计算机中进行这些，可以在一个独立的数据库字段中保存标签提供的信息，以便于以后将发现的突变基因和DNA集合中的地址相联系。

典型的，在已经修剪掉所有加入的接头/引物和/或识别子序列的序列数据上进行比对或聚类，即，仅使用源自于核酸样品的片段的序列数据。

用于比较目的的序列比对的方法是本领域所熟知的。在：Smith和Waterman(1981)Adv.Appl.Math.2：482；Needleman和Wunsch(1970)J.MoI.Biol.48：443；Pearson和Lipman(1988)Proc.Natl.Acad.Sci.USA 85：2444；Higgins和Sharp(1988)Gene 73：237-244；Higgins和Sharp(1989)CABIOS 5：151-153；Corpet等人(1988)Nucl.Acids Res.16：10881-90；Huang等人(1992)Computer Appl.in the Biosci.8：155-65；和Pearson等人(1994)Meth.MoI.Biol.24：307-31(将其以引用的方式纳入本文)中描述了多种程序和比对算法。Altschul等人(1994)Nature Genet.6：119-29(将其以引用的方式纳入本文)发表了对序列比对方法和同源性计算的详细考察。可以从数个来源获得The NCBI Basic Local Alignment Search Tool(BLAST)(Altschul等人，1990)，包括国家生物技术信息中心(the NationalCenter for Biological Information，NCBI，Bethesda，Md.)和在互联网上，和序列分析程序blastp、blastn、blastx、tblastn和tblastx联合使用。可以在http://www.ncbi.nlm.nih.gov/BLAST/访问使用。在<http://www.ncbi.nlm.nih.gov/BLAST/blast_help.html>有如何使用该程序确定序列一致性的说明。数据库优选包含EST序列、感兴趣的物种的基因组序列和/或GenBank的非冗余序列数据库或相似的序列数据库。可以如Shendure等人Science，VoI 309，Issue 5741，1728-1732中所述使用高通量测序方法。其范例是微电泳测序、杂交测序/基于杂交的测序(SBH)、对扩增分子的循环阵列测序、对单个分子的循环阵列测序、非循环、单分子、实时方法，例如，聚合酶测序、核酸外切酶测序、纳米孔测序。为了得到最优的结果，以足够冗余度测序片段或扩增产物是有益的。冗余度使分辨测序错误和真正的基因组序列成为可能。在某些实施方案中，测序冗余度优选为4，更优选为至少5，但是在例证中可看到，超过6的冗余度，优选的超过8或甚至超过10被认为是有益的，虽然对于发明构思不是必须的。

在方法的步骤(i)中，鉴定在数据库中产生一个匹配(hit)的片段，并因此联系到一个基因或感兴趣的一种表型。根据这个信息，可以使用标签来鉴定集合和/或植物。根据在数据库中的匹配(hit)，可以设计一个探针来用于鉴定感兴趣的基因。

附图说明

图1：描绘了在dtphl转座子侧翼序列的分布分析中，序列标签的总体组成，包含(从右到左)唯一的基因组序列，转座子(反向重复)序列和3D标签。根据3D网格(10*10*10)组织100株植物的群体，其中根据沿着x、y和z坐标轴反应其位置的唯一的3D坐标(x，y，z)识别每株植物。X1到X10对应于序列标签数1到10，对于Y和Z是相似的。在序列名中标签码数字被翻译为标签#，例如，AGAC对应于标签07。图片显示了植物中具有集合坐标(3，17，24)的3D匹配(hit)。

图2描绘了用特定的基因序列在插入侧翼序列数据库中进行的blast搜索的结果，所述特定的基因序列为牵牛花转录因子NAM-样3基因(非顶端分生组织样，gj|21105733|gb|AF509866.1)；鉴定出了具有坐标2，12，30的一个插入匹配(hit)。这个结果表明能够在特定的同源编码序列中找到插入。

图3描绘了用特定的但是异源的基因序列(拟南芥AGL62MADS基因盒)在数据库中blast搜索的结果；鉴定出在具有坐标9，17，29的一个插入匹配；这个匹配指定了一个迄今仍未知的潜在的喇叭花中的MADS基因盒及其相应的突变。这个结果表明成功探明了在特定的异源编码序列中的插入。

图4提供了序列分析，其中根据3个水平对已有的318.000序列中的230.000子集已经完全排序：

1)侧翼序列的序列鉴定(根据插入位点排序)。所有鉴别相同插入的序列被称为一组。

2)在组内，根据它们不同的3D序列标签。

3)根据属于一组的序列的拷贝数。

根据对230.000排序序列(来自于总共318.000序列)的20％的分析，推断了下面的图片。为了便于解释这些图片，在图中显示了3组序列，其代表3个独立的转座子插入位点。第一个例子鉴定了4个序列，各自的3D标签跨越了5-8位置，再后面是转座子的反向重复序列，在22位置结束，后面是基因组序列的延伸。坐标6-20-29定义了这个序列属于群体中该特定坐标的植物。标签01到标签10：X维，标签11到标签20：Y维，标签21到标签30：Z维。

图5图片显示了相对维度分布对发生的拷贝数。

图6：在具有3个拷贝的3500个序列标签中，294个具有3个唯一的坐标，这些意味着能追溯这些序列的植物来源。对于其它拷贝类型，4拷贝型的数量为532；5拷贝型的数量为622；6拷贝型的数量为478；以及其余类型为1500。这意味着已经鉴定了总共超过3000个能够追溯其植物来源的序列标签(从已有的318.000中的230.000中)。

图7：4拷贝数型及其相对分布，对于估计的3D命中(hit)总数和在3D 454转座子库中的序列总数

图8：#插入位点(组)数量对拷贝数(全范围)。每个序列标签的拷贝数的分析显示，在分析的230.000子集中，有大约16.000个唯一的片段；7500个片段具有2个拷贝；3500个具有3个拷贝；2500个具有4个拷贝；1500个具有5个拷贝；1000个具有6个拷贝；1350个具有7或8个拷贝；1100个具有9-11个拷贝；1400具有12-20个拷贝；950具有21-40个拷贝；而其余的具有剩余的拷贝。

图9：提供了显示一些结果的图片。对253.394序列子集的分析(总共318.000)，只有1％的序列不含有可识别的标签(描绘为？？，右列)。对20％的230.000序列标签子集的分析显示了序列标签在群体的不同样品集合中的良好分布，从坐标23的超过6000到坐标15的30.000附近；平均大约8500。少于1％的片段不能指定特异性的坐标。

图10：靶向在Msel-ECORI限制性片段内的转座子简图，其中使用针对接头的引物和携带有标签和小珠退火序列的针对转座子的引物。

图11：扩增的接头-连接的片段通过小珠退火序列退火到小珠上的简图(B)。片段含有标签(T1和/或12)、接头(AD)、最后剩下的限制性位点(RE)、片段本身的序列(SEQ)、转座子特异性引物序列(TR)和用于起始测序步骤的序列引物结合位点(SPBS)。

实施例

使用下面的阐明原理的范例来阐明本发明。

通过使用新型高通量测序方法改进了转座子群体筛选，例如454Life Sciences公司的方法。在目前本领域的状况下，454 LifeSciences公司的技术在单次测序运行中大约产生40Mb的序列。目前的限制是阅读长度大约为100-200bp/阅读。假定筛选包含3072株植物平均具有200个转座子的群体，来鉴定在特定基因中的转座子标签，方法如下：

1)分离转座子群体中的3072株植物的基因组DNA；

2)建立一个每株植物等量DNA的3-维集合方案(例如，15×15×14)，得到44个集合(15+15+14＝44)，含有3072/14＝219或3072/15＝205种不同的DNA样品(Vandenbussche等人，2003)；这个集合步骤用于从序列数据中直接鉴别含有插入的个别植物。集合基因组DNA进一步用于在PCR扩增之前标准化DNA，以增加序列库中所有DNA等量存在的机会；

3)从44个集合的DNA中使用每250-500bp切割基因组的单一限制性酶(例如，使用4-或5切割器；例如Msel)制备接头连接的限制性片段模板(AFLP模板，见EP534858，Vos等人，NAR 1995，23，4407)；

4)使用定位于转座子序列边界并朝外的PCR引物以及一个非选择性的接头引物进行单向PCR扩增，来以多扩增的形式扩增所有转座子的侧翼序列。每株植物含有200个转座子，产生每个边界200x大约250bp＝50kb侧翼序列，其中20kb在100bp阅读长度的情况下被测序。对于3072株植物，这等于153Mb侧翼序列，其中61Mb在100bp阅读长度的情况下被测序；

5)来自于44个孔的等量PCR产物被集合在一起，创建了一个集合的PCR产物库；

6)使用454 Life Sciences公司的基于合成测序(sequencing-by-synthesis)技术测序集合的PCR产物库，不进行进一步的PCR产物片段化。结果得到大约200,000 100bp的序列，代表了对3072株植物的所有侧翼序列平均0.33X(20/61Mb)的覆盖。因此至少需要3轮测序运行，来靶向所有3072株植物的所有侧翼序列的绝大多数；

7)Blast得到的序列来鉴定和EST或基因组序列的匹配；

8)根据其标签鉴定在感兴趣的基因中携带有转座子插入的植物，任选的，产生探针或PCR引物来对其进行验证。

实施例1：

根据3-维策略如Vandenbussche等人(2003)和其它所述取样1000株牵牛花W138植物的群体，得到30个集合的样品(X1-X10，Y1-Y10和Z1-Z10)，以三个坐标覆盖了整个群体的每个个体。这样就可以将所有特定PCR产物的来源追溯到在群体中的植物来源。

随后使用一种在转座子中切割的酶和一种特异性的但是在侧翼基因组DNA中的随机位置进行切割的酶消化DNA样品。随后连接接头来进行后续的对所有消化片段的PCR扩增。将链霉素和素化的接头连接到内部转座子位点。

随后纯化DNA样品，通过加入生物素小珠并使用磁体收集生物素化的片段。

随后使用合适的转座子展示操作流程扩增在每个DNA集合中的、从所有转座子插入的所有侧翼序列(VandenBroeck等人，1998)。

在范例中对于每个集合的样品，X1-X10，Y1-Y10和Z1-Z10，使用不同的转座子引物，以4核苷酸码将相应的集合坐标掺入到其5′末端(3D-标签)。

随后根据本领域所述规程，在3个超集合(superpool)中集合所有的PCR产物，每个集合对应于每个维度，以用于样品的标准化；通过这步，减少了存在于每个个体的以及因此存在于每个样品中的片段的存在。这防止了待测序样品中片段的过度表现。

使用包含Muni位点的特殊引物通过一轮PCR扩增将所获得的单链分子转换为双链分子。

使用Munl/Msel消化获得的产物，来用于后续的接头序列的连接，随后用于进一步的扩增或直接进行454(G20)测序。

随后在一个超集合中集合这3个样品，并按照操作说明所述进行Roche GS20/454测序过程。

开发了一个从1000株植物群体中通过转座子展示扩增转座子侧翼序列和后续的高通量测序的操作流程。

操作程序概述

下面给出了操作程序的概述：

-DNA制备(以3D形式取样的1000株植物，得到30个集合的DNA样品)

-Munl/Msel消化(大约5μg集合的DNA)

-生物素-Mun & Mse接头连接

-纯化(PCR纯化柱，来去除生物素-Mun接头和非常小的片段)

-珠提取(富集Mun/Mse片段)

-转座子展示PCR扩增：

-用MunACAC & Mse+0引物进行预扩增(富集转座子侧翼序列)

-使用集合的特异性IR**outw & Mse+0引物的选择性PCR(转座子侧翼序列的扩增)

-第二次集合到″块″、″行″和″列″集合

-标准化

-转换为双链分子

-Munl/Msel消化

-454-Mun-B & 454-Mse-A接头连接

-使用生物素-AmpB & AmpA引物进行PCR扩增

-最终集合到一个样品中

-454测序

DNA制备

以3D形式取样1000株植物，得到30个集合的DNA样品，每个代表100株植物；根据Vandenbussche等人，Plant Cell 15(11)：2680-2693(2003)进行操作

Munl/Msel消化(大约5μg)，30个样品

在50μL H₂O中含大约5μg DNA

加入20μL的混合物：2μL Muni(10U/μL原液)

2μL Msel(10U/μL原液)

7μL NEB 4(10x原液)

0.7μL BSA(100x原液)

加H₂O到20μL

温育：1.5小时37℃

接头连接

加30μL混合物：8μL Mun1-生物素-接头(5pmol/μL原液)

8μL Mse1-接头(50pmol/μL原液)

3μL NEB 4(10x原液)

0.3μL BSA(100x原液)

3μL ATP(10mM原液)

3μL T4DNA连接酶(5WeissU/μL原液)

加H₂O到30μL

温育：4小时37℃

接头序列

Mun I(生物素)接头：生物素-5′-CTCGTAGACTGCGTACG-3′

3′-CTGACGCATGCTTAA-5′

MseI接头： 5′-GACGATGAGTCCTGAG-3′

3′-TACTCAGGACTCAT-5′

纯化30个样品

纯化DNA，使用Qiagen PCR纯化试剂盒，用55μL EB缓冲液洗脱(5μL在1.5％琼脂糖凝胶)

珠提取30个样品

在200μL STEX中清洗25μL链霉亲和素珠(约0.1mg MyOne珠，链霉亲和素C1)一次，并在100μL结合缓冲液中重悬。

STEX：结合缓冲液：

10mM Tris.C1(pH 8.0)10mM Tris.C1(pH 8.0)

1M NaCl 2M NaCl

1mM EDTA 1mM EDTA

0.1％Triton X-100 0.1％Triton X-100

向500μL限制/连接混合物中加入100μL稀释的(并清洗的)链霉亲和素珠，并在旋转器中室温温育60分钟。使用磁体收集珠，并去上清。用200μL STEX清洗珠并转到另一个管中。用200μL STEX清洗珠3次，并最终重悬于50μL ToiE中，转到另一个管中(去除STEX孔)。

T ₀₁ I E：

10mM Tris.Cl(pH8.0)

0.1mM EDTA

转座子展示PCR扩增：预扩增30个样品

取2μL模板DNA(混匀珠孔，DNA片段仍连接着)并加入：

18μL混合物：0.6μL Mun+ACAC引物(10μM)
18μL混合物：0.6μL Mun+ACAC引物(10μM)	0.6μL Mse+0引物(10μM)
0.8μL dNTP(5mM)	0.6μL Mse+0引物(10μM)
0.8μL dNTP(5mM)	2μL 10xPCR缓冲液
2μL MgCl₂(25mM)	2μL 10xPCR缓冲液
2μL MgCl₂(25mM)	0.6U Red Hot Taq DNA聚合酶
加H₂O到18μL	0.6U Red Hot Taq DNA聚合酶

并根据下面的PCR设定温育它们(PE 9600)：

30″94℃

15″94℃

下降：30″65℃＞＞56℃(∧＝-0.7℃/循环)13个循环

60″72℃

15″94℃

30″56℃22个循环

60″72℃

引物序列：

Mun I+ACAC：5′-AGACTGTGTACGAATTGACAC-3′

Mse I+0：5′-GACGATGAGTCCTGAGTAA-3′

在1.5％琼脂糖凝胶中分析5μL，并用H₂O 10倍稀释样品，并进行选择性PCR扩增：

转座子展示PCR扩增：

选择性扩增30个样品

取5μL模板DNA并

加入：45μL混合物：

1.5μL IRoutw引物(10μM)*
1.5μL IRoutw引物(10μM)*	1.5μL Mse+0引物(10μM)
2μL dNTP(5mM)	1.5μL Mse+0引物(10μM)
2μL dNTP(5mM)	5μL 10xPCR缓冲液

5μL MgCl2(25mM)
5μL MgCl2(25mM)	1U Red Hot Taq DNA聚合酶
H₂O到45μL	1U Red Hot Taq DNA聚合酶

并根据下面的PCR设定温育它们(PE 9600)：

30″94℃

15″94℃

降落：30″65℃＞＞56℃(^t＝-0.7℃/循环)13个循环

60″72℃

15″94℃

30″56℃22个循环

60″72℃

引物序列：

IR_outw：*5′-CATATATTAANNNNGTAGCTCCGCCCCTG-3′

使用唯一的、利用NNNN位置指定的IR_outw引物扩增每个集合的样品；这能将所获得的序列定位到它们共同坐标的来源上。

MseI+0：5′-GACGATGAGTCCTGAGTAA-3′

第二个集合：30个样品集合为3个样品

将来自于每个维度的10个样品的PCR产物集合在一起来创建3个样品：列/行/块。

标准化

为了增强相对于许多或所有个体所共享的片段背景的独特片段数量，根据常规已知的规程对二次集合的样品进行标准化。该规程包括杂交和纯化步骤，来获得单链分子。

杂交(大约：每个样品10μg)3个样品

沉淀集合样品DNA并溶解于15-35μL

加入(相对体积)到15μL甲酰胺：

4.5μL TE

3μL H2O

在矿物油下加热到80℃3分钟，加入

3μL缓冲液A

4.5μL H₂O

在30℃下温育探针O/N

缓冲液A：

0.1M Tris.C1(pH8.0)

1.2M NaCl

50mM EDTA

利用HAP色谱纯化3个样品

利用标准HAP色谱如de Fatima Bonaldo et al.，Genome Research，6：791-806(1996)所述选择单链分子，并随后转化为双链分子。

转化为双链分子3个样品

一个PCR循环，用″Mse+0和Mun位点″引物

加入到50μL样品中：

25μL混合物：5μL MIBUS 796(10μM)

4μL dNTP(5mM)

7.5μL 10xPCR缓冲液

2.5μL MgCl₂(50mM)

0.2μL PlatinumTaq DNA聚合酶

加H₂O到25μL

引物序列：

MIBUS 796：5′-CATATACAATTGGACGATGAGTCCTGAGTAA-3′

并根据下面的PCR设定温育它们(PE 9600)：

2′94℃

1′56℃

10′72℃

Munl/Mse消化3个样品

模板DNA在65μL H₂O

加25μL混合物：

2μL Muni(10U/μL原液)
2μL Muni(10U/μL原液)	2μL Msel(10U/μL原液)
9μL NEB 4(10x原液)	2μL Msel(10U/μL原液)
9μL NEB 4(10x原液)	0.9μL BSA(100x原液)
H₂O到25μL	0.9μL BSA(100x原液)

温育：1.5小时37℃

454接头连接

加入

4μL Munl-bio-接头B(50pmol/μL原液)

4μL Mse1-接头A(50pmol/μL原液)

2μL NEB 4(10x原液)0.2μL BSA(100x原液)

3μL ATP(10mM原液)

3μL T4DNA连接酶(5WeissU/μL原液)

H₂O到20μL

温育：4小时37℃

接头序列：

MunI接头B：

MIBUS 803

5′-CCTATCCCCTGTGTGCCTTGCCTATCCCCTGTTGCGTGTCTCAG-3′

MIBUS795

3′-AGGGGACACACGGAACGGATAGGGGACAACGCACAGAGTCTTAA-5′

MseI接头A：

MIBUS 800

5′-CCATCTCATCCCTGCGTGTCCCATCTGTTCCCTCCCTGTCTCAG-3′

MIBUS 801

3′-GAGTAGGGACGCACAGGGTAGACAAGGGAGGGACAGAGTCAT-3′

PCR-扩增用于454测序3个样品

扩增接头引物A&B：

MIBUS 803生物素-5′-CCTATCCCCTGTGTGCCTTG-3′

MIBUS 8025′-CCATCTCATCCCTGCGTGTC-3′

最终集合3个样品到1个样品

集合样品来创建一个超集合，已准备好用于高通量测序454测序1个样品

pGEM-T克隆用于插入大小分布检测1个样品

为了检测标准化过程的效率，我们随机分离了22个片段来测定其大小分布。取1μL PCR混合物(从超集合样品中，用于454测序)

加4μL混合物：1μL pGEM-T(4倍稀释)

2.5μL 2x快速连接缓冲液

0.25μL连接酶

加H₂O到4μL

温育：3小时37℃

转化进入大肠杆菌(DH5α细胞)

铺板100μL在LB Amp平板上

温育：o/n 37℃

挑取22个克隆

以煮沸产物进行PCR

使用AmpA/AmpB引物

并在2％琼脂糖凝胶中运行：

结论：

获得了平均102碱基对的318.000序列标签的数据库。根据3个水平对230.000序列的一个子集完全排序：

1)序列的序列标识，其在转座子的反向重复侧翼(以CCGCCCCTG结尾)。标识相同插入的所有的序列被称为一组。

2)在每组中，根据其5′序列中的不同的3D标签对序列进行排序。

3)根据属于一组的序列的拷贝数量。

根据对230.000排序的序列(总共318.000序列)的20％进行的分析推测数据。在图1-9中描述了该分析。

表	序列	SEQID#
表	序列	SEQID#	MunI(bio)接头	bio-5′-CTCGTAGACTGCGTACG-3′	1
	3′-CTGACGCATGCTTAA-5′	2	MunI(bio)接头	bio-5′-CTCGTAGACTGCGTACG-3′	1
	3′-CTGACGCATGCTTAA-5′	2	Mse I接头	5′-GACGATGAGTCCTGAG-3′	3
	3′-TACTCAGGACTCAT-5′	4	Mse I接头	5′-GACGATGAGTCCTGAG-3′	3
	3′-TACTCAGGACTCAT-5′	4	引物序列
Mun I+ACAC：	5′-AGACTGTGTACGAATTGACAC-3′	5	引物序列
Mun I+ACAC：	5′-AGACTGTGTACGAATTGACAC-3′	5	Mse I+O：	5′-GACGATGAGTCCTGAGTAA-3′	6
IR_outw：＊	5′-CATATATTAANNNNGTAGCTCCGCCCCTG-3′	7	Mse I+O：	5′-GACGATGAGTCCTGAGTAA-3′	6
IR_outw：＊	5′-CATATATTAANNNNGTAGCTCCGCCCCTG-3′	7	MseI+O：	5′-GACGATGAGTCCTGAGTAA-3′	8
MIBUS 796：	5′-CATATACAATTGGACGATGAGTCCTGAGTAA-3′	9	MseI+O：	5′-GACGATGAGTCCTGAGTAA-3′	8
MIBUS 796：	5′-CATATACAATTGGACGATGAGTCCTGAGTAA-3′	9	接头序列
MunI接头B：MIBUS 803	5′-CCTATCCCCTGTGTGCCTTGCCTATCCCCTGTTGCGTGTCTCAG-3′	10	接头序列
MunI接头B：MIBUS 803	5′-CCTATCCCCTGTGTGCCTTGCCTATCCCCTGTTGCGTGTCTCAG-3′	10	MIBUS795	3′-AGGGGACACACGGAACGGATAGGGGACAACGCACAGAGTCTTAA-5′	11
Mse I接头A：MIBUS 800	5′-CCATCTCATCCCTGCGTGTCCCATCTGTTCCCTCCCTGTCTCAG-3′	12	MIBUS795	3′-AGGGGACACACGGAACGGATAGGGGACAACGCACAGAGTCTTAA-5′	11
Mse I接头A：MIBUS 800	5′-CCATCTCATCCCTGCGTGTCCCATCTGTTCCCTCCCTGTCTCAG-3′	12	MIBUS 801	3′-GAGTAGGGACGCACAGGGTAGACAAGGGAGGGACAGAGTCAT-5′	13
扩增接头引物A&B			MIBUS 801	3′-GAGTAGGGACGCACAGGGTAGACAAGGGAGGGACAGAGTCAT-5′	13
扩增接头引物A&B			MIBUS 803	bio-5′-CCTATCCCCTGTGTGCCTTG-3′	14
MIBUS 802	5′-CCATCTCATCCCTGCGTGTC -3′	15	MIBUS 803	bio-5′-CCTATCCCCTGTGTGCCTTG-3′	14

序列表

<110>Keygene NV

<120>高通量筛选转座子标记群体和大量平行的插入位点的序列鉴定的方法

<130>P27927PC00

<150>US60/735,878

<151>2005-11-14

<160>15

<170>PatentIn version 3.3

<210>1

<211>17

<212>DNA

<213>人工序列

<220>

<223>接头或引物

<400>1

ctcgtagact gcgtacg 17

<210>2

<211>15

<212>DNA

<213>人工序列

<220>

<223>接头或引物

<400>2

ctgacgcatg cttaa

<210>3

<211>16

<212>DNA

<213>人工序列

<220>

<223>接头或引物

<400>3

gacgatgagt cctgag 16

<210>4

<211>14

<212>DNA

<213>人工序列

<220>

<223>接头或引物

<400>4

tactcaggac tcat 14

<210>5

<211>21

<212>DNA

<213>人工序列

<220>

<223>接头或引物

<400>521

agactgtgta cgaattgaca c

<210>6

<211>19

<212>DNA

<213>人工序列

<220>

<223>接头或引物

<400>619

gacgatgagt cctgagtaa

<210>7

<211>29

<212>DNA

<213>人工序列

<220>

<223>接头或引物

<220>

<221>misc_feature

<222>(11)..(14)

<223>N＝A，C，T or G

<400>7

catatattaa nnnngtagct ccgcccctg 29

<210>8

<211>19

<212>DNA

<213>人工序列

<220>

<223>接头或引物

<400>8

gacgatgagt cctgagtaa 19

<210>9

<211>31

<212>DNA

<213>人工序列

<220>

<223>接头或引物

<400>9

catatacaat tggacgatga gtcctgagta a 31

<210>10

<211>44

<212>DNA

<213>人工序列

<220>

<223>接头或引物

<400>10

cctatcccct gtgtgccttg cctatcccct gttgcgtgtc tcag 44

<210>11

<211>44

<212>DNA

<213>人工序列

<220>

<223>接头或引物

<400>11

aggggacaca cggaacggat aggggacaac gcacagagtc ttaa 44

<210>12

<211>44

<212>DNA

<213>人工序列

<220>

<223>接头或引物

<400>12

ccatctcatc cctgcgtgtc ccatctgttc cctccctgtc tcag 44

<210>13

<211>42

<212>DNA

<213>人工序列

<220>

<223>接头或引物

<400>13

gagtagggac gcacagggta gacaagggag ggacagagtc at 42

<210>14

<211>20

<212>DNA

<213>人工序列

<220>

<223>接头或引物

<400>1420

cctatcccct gtgtgccttg

<210>15

<211>20

<212>DNA

<213>人工序列

<220>

<223>接头或引物

<400>15 20

ccatctcatc cctgcgtgtc

Claims

1.鉴定在转座子群体成员中和感兴趣的基因或序列相关的插入的方法，包括步骤：

(a)以个别的或以集合的方式，分离转座子群体的基因组DNA；

(b)任选的，集合在步骤(a)中获得的DNA；

(c)使用一种或多种，优选的两种或多种，最优选的两种限制性内切酶限制性切割DNA，优选其中至少一种是不在转座子内切割的频繁切割限制性内切酶，并且优选至少一种是在转座子内切割的稀有切割限制性内切酶，将接头和限制性片段连接，因此制备出接头-连接的限制性片段；

(d)用一对(优选标记的)引物扩增接头-连接的限制性片段，其中一个引物包含和(已知)转座子序列的部分互补(能杂交)的片段，并进一步包括一个序列引物结合位点，其中另一个引物至少和接头互补，其中一个或两个引物都含有标签；

(f)任选的，片段化库中的扩增产物；

(g)使用高通量测序测定(d)、(e)或(f)的片段的核苷酸序列；

(j)鉴定含有步骤(i)的片段的转座子群体成员；

(k)任选的，根据步骤(i)的片段设计一个探针或PCR引物对，并使用它验证转座子在(j)中所鉴定出的成员的基因组中的感兴趣基因中的插入。

2.根据权利要求1的方法，其中集合是3D-集合策略。

3.根据权利要求1或2的方法，其中数据库包括EST序列、感兴趣的物种的基因组序列和/或GenBank的非冗余序列数据库或相似的序列数据库。

4.根据权利要求1-3的方法，其中高通量测序基于Sanger测序，优选通过毛细管电泳法。

5.根据权利要求1-3的方法，其中高通量测序是基于合成的测序，优选焦磷酸测序。

6.根据权利要求1-4的方法，其中测序在固体支撑物上进行，例如小珠。

7.根据权利要求6的方法，其中测序包括步骤：

(2)在油包水微反应器中乳化小珠，每个油包水微反应器中包含单一的小珠；

(3)进行乳液PCR(emulsion PCR)，以在小珠表面上扩增接头-连接的片段；

(4)选择/富集含有扩增的接头-连接的片段的小珠；

(6)将小珠装填到孔中，每个孔包含单一的小珠；和

(7)产生焦磷酸盐信号。

8.根据权利要求1-7的方法，其中引物中的至少一个含有增强结合亲和力的一个或多个核苷酸。