用于核酸作图和鉴定核酸中的精细结构变化的方法
相关申请的交叉引用
本申请要求基于以下申请的优先权:提交于2006年1月4日的美国专利申请号60/756,417;提交于2006年4月17日的美国专利申请号60/792,926;提交于2006年6月15日的美国专利申请号60/814,378;提交于2008年7月10日的美国专利申请号61/129,660;提交于2008年12月1日的美国专利申请号61/193,442;提交于2007年1月3日的美国专利申请号11/649,587;以及提交于2007年12月12日的美国专利申请号11/954,947,所述申请都通过引用以其整体结合于本文中。
发明领域
总体而言,本发明涉及用于高通量分析核酸中的精细结构变化的方法。具体而言,本发明涉及产生连接的核酸标签对的新策略、载体和其它组分,其中连接的核酸标签对的组成成员具有用户定义的间隔距离和/或为核酸位置的标记,其沿着靶核酸分子的长度划分一种或多种不同限制性内切核酸酶的相邻切割位点。在一个优选的实施方案中,将本发明用于鉴定可与表型相关的基因组改变或标记物。在另一个优选的实施方案中,将本发明用于产生高分辨率的基因组图谱以有助于从鸟枪DNA测序中进行基因组组装。
发明背景
尽管最丰富且研究最深入的人类基因组变体类型是单核苷酸多态性(SNP),但日益清楚的是,包括拷贝数(插入、缺失和重复)改变、倒位、易位和其它序列重排在内的所谓“精细结构变化”为人类基因组和其它基因组的整体特征。这些类型的变化似乎比原先认为的更频繁地存在于一般群体中。建立的证据表明,结构变体可在各个个体中包含上百万具有异质性的核苷酸。理解精细结构变化在基因组进化、与环境的相互作用、表型多样性和疾病中的作用是当前基因组研究中最活跃的研究领域之一。关于综述,参见Feuk等(2006)、Redon等(2006)、Check(2005)、Cheng等(2005)和Bailey等(2002)。
与SNP分析相比,用于分析精细结构变化的有效高通量方法还没有被充分开发。重要的第一步是阵列比较基因组杂交(阵列CGH)技术(Pinkel等,1998;Pinkel等,美国专利第5,830,645号和第6,159,685号),该技术能够定量靶DNA与参比DNA之间的相对拷贝数。阵列CGH允许以单个排列的细菌人工染色体(BAC)克隆水平的分辨率,可靠地检测DNA样品之间的脱氧核糖核酸(DNA)拷贝数差异(Snijders等,2001;Albertson等,2000;Pinkel等,1998)。针对cDNA(Heiskanen等,2000;Pollack等,1999)和高密度寡核苷酸阵列平台(Bignell等,2004;Brennan等,2004;Hung等,2004;Lucito等,2003)修改阵列CGH进一步扩展了该方法的分辨率和应用性。通过其应用,阵列CGH已实现鉴定与肿瘤(Pinkel和Albertson,2005;Inazawa等,2004;Albertson和Pinkel,2003;Pollack等,2002)和疾病进展(Gonzalez等,2005)相关的基因拷贝数变化。
1.F粘粒配对末端作图
尽管可用于拷贝数测定,但阵列CGH并不适合确定其它类型的基因组结构变化,最显著地,不适于倒位、易位和其它类型的核酸重排。Tuzun等(2005)尝试用称为“F粘粒(fosmid)配对末端作图”的方法解决这些限制。该方法依靠F粘粒包装的头部完整(head-full)机制,以从测试者中产生具有相当均一的约40千碱基对(kb)大小的基因组插入物的基因组DNA文库。根据实验,实际片段范围为32kb至48kb,平均值标准差<3,39.9+/-2.76-kb。随机选择的约40kb文库插入物的末端终止测序产生成对的短序列标签,其中每个标签对标记两个基因组位置,这两个基因组位置沿着靶DNA长度间隔约40kb。然后将标签对与参比基因组组件用计算机比对,在它们的预期方向或它们的约40kb间隔距离方面的任何不一致都表示在跨越该区域的靶和参比核酸之间存在至少一个结构差异。图谱位置间隔超过40kb的标签对表示相对于参比在靶DNA上存在缺失;间隔低于40kb的图谱位置表示在靶标中有DNA插入。已作图的标签对在方向上的不一致表示潜在的DNA倒位或其它复合染色体重排。标签对被分配至参比序列上的两个不同染色体表示染色体易位。通过常规DNA测序对超过百万个单独纯化的F粘粒克隆插入物进行分析,使得Tuzun等(2005)能够在测试者和参比基因组组件之间鉴定出接近300个结构变化位置。
该作者并没有教导或公开其它产生标签对、产生不同间隔的标签对以改变分析的空间分辨率、改进在它们文库中的插入长度的均一性、通过使用改进型DNA序列分析仪(generation DNA sequencer)提高经济性的方法,也没有公开产生其它类型的序列标签对的方法,例如可根据成对相邻内切核酸酶切割位点之间的位置和/或间隔距离划分基因组位置的本发明序列标签对。
许多类型的精细结构变化并不被由F粘粒配对末端作图法所固定的约40kb分辨率窗所分辨。F粘粒配对末端作图具有其它的限制。F粘粒载体以极低拷贝数在宿主细胞中增殖,该特性用于使在某些基因组序列在微生物宿主中增殖期间所遇到的潜在重组、重排和其它人为产物(artifact)最少。尽管目前应用可扩增形式的F粘粒载体(Szybalski,美国专利第5,874,259号),但是由于低DNA收率(与常规质粒相比),末端测序F粘粒克隆以产生序列标签仍具有极差的经济性,使得难以维持高通量自动化模板产生和测序。此外,需要两个独立的序列反应以从单个F粘粒DNA模板中产生标签对序列,因而进一步降低了经济性。
尽管F粘粒配对末端作图是鉴定人类基因组中的精细结构变化的有用开始,但对于每个测试者,都需要巨大的成本和后勤工作来纯化和测序上百万的F粘粒插入末端,这阻碍了其在广泛群体和人群调查中鉴定基因组变化的应用,所述基因组变化可能与复杂疾病有关或响应环境因素等。此外,F粘粒载体及其变体一般以非常低的拷贝数在宿主细胞中增殖,使得难以维持可靠的自动化DNA产生和测序。因此,需要用于基因组和相关研究中的有效、稳定高通量且低成本的鉴定精细结构变化的方法,以将这些遗传元件与疾病、疾病进展和疾病易感性联系起来。
2.用于产生基因组标签的现有方法
多种基于DNA的指纹法在本领域中已描述用于表征和比较基因组(Wimmer等,2002;Kozdroj和van Elsas,2001;Rouillard等,2001;Schloter等,2000)。所有这些方法都使用靶DNA的限制性内切核酸酶消化、PCR扩增或凝胶电泳分离的某些组合。通常,需要繁琐地从凝胶中提取候选DNA片段用于DNA测序阻碍了这些方法。Dunn等(2002)的工作取得进步,其中他们描述了一种使用IIS型/IIG型限制性内切核酸酶Mme I产生用于分析基因组DNA的“基因组识别标识标签(Genomic Signature Tag)”(GST)的方法。通过将具有Mme I识别位点的连接物连接至基因组DNA片段产生GST,所述基因组DNA片段最初如下产生:通过用II型限制性内切核酸酶初始消化靶基因组DNA,接着用频繁切割的标签酶(frequent cutting tagging enzyme)进行第二次消化。用Mme I消化连接物(adaptor)连接的DNA,产生21bp的标签(GST),该标签具有在DNA中相对于初始限制酶消化所识别的位点固定的位置。在通过PCR扩增后,寡聚纯化的GST,用于克隆和DNA测序。将所述标签的同一性及其相对丰度用于建立基因组DNA的高分辨率“GST序列概况”,其可用于鉴定和定量既定的复杂DNA分离物中的最初基因组。使用鼠疫耶尔森氏菌(Yersinia pestis)作为模型系统,Dunn等(2002)能够界定相对简单的基因组中可能已经经历添加或缺失限制性位点的改变的区域。然而,Dunn等(2002)的方法在复杂的基因组如人基因组中的效用有限,在复杂的基因组中,大多数结构变化不能通过简单的获得或失去研究中的少量限制性内切核酸酶位点来揭示。此外,对于即便1个限制性位点,覆盖大基因组或分析多个样品所需的GST数量也是非常高的。与此相反,本发明的GVT对对分析复杂基因组概况或扩展分析多个DNA样品提供经济性和分析能力。
一种首先由Velculescu等(1995)和Kinzler等(1995)(美国专利第5,695,937号)描述的、称为基因表达的连续分析(Serial Analysis of Gene Expression,SAGE)的方法的多种形式,也利用IIS型或IIG型限制性内切核酸酶来产生DNA标签(Ng等,2005;Wei等,2004;Saha等,2002)。所谓的“SAGE标签”由cDNA模板产生,以提供对生物样品中cDNA种类的复杂性和相对丰度的评价。新近形式的SAGE称为“LongSAGE”,其利用Mme I消化,产生21bp的序列标签,以标记mRNA转录物(Saha等,2002)。最新的改进形式称为“SuperSAGE”,其利用III型限制性内切核酸酶EcoP15I产生25bp至27bp的较长标签,用于改善mRNA对基因组的分配(Matsumura等,2003)。尽管本发明也利用IIS型、IIG型或III型限制性内切核酸酶以产生序列标签,但就制备方法和改善的信息内容而言,所得的本发明GVT对与前述SAGE和GST标签根本不同。就产生尤其可用于表征新基因组或注释(annotate)基因组和DNA样品的精细结构变化的高分辨率物理图谱而言,相对于使用单个未连接标签,本发明空间连接的标签对显著改善效率和分析能力。
Ng等(2005)的近期工作描述了SAGE法的进一步发展。研究者利用Collins和Weissman(1984)首创的方法,在该方法中利用DNA片段环化(也称为分子内DNA连接),以将远端DNA区段一起连接入载体中,产生所谓的“基因组跳跃文库(genomic jumping libraries)”(Collins等,1987)。Ng等环化单个cDNA,以将其5’和3’来源的SAGE标签连接在一起,产生“配对末端双标签”(PET),然后将其寡聚化,以利于有效测序。通过鉴定转录单元的转录起始位点和聚腺苷酸化位点,以划分基因边界和帮助鉴定它们的侧翼调节序列,可将PET用于基因组注释。尽管本发明GVT对和PET均依靠分子内连接来实现DNA标记连接,但只有本发明GVT对整合了物理距离和其它有用信息例如相邻限制位点的连接,由此使GVT对唯一并可用于详细的基因组结构分析。Ng等(2005)没有教导产生空间上限定的标签或基于如本公开内容所述的其它标准的标签的方法,他们也没有揭示可如何使用他们的PET法获得基因组的精细结构变化或揭示不通过唯一使用IIS型限制性内切核酸酶Mme I产生序列标签的其它方法。最后,Ng等(2005)没有预见能够有效使用下一代短读取(short read)DNA序列分析仪的方法。
Berka等(2006)(美国专利申请2006/0292611)和Kobel等(2007)最近描述了DNA成对末端作图法,其在功能上类似于本发明,但他们的方法在最终标记的DNA产物的空间方向上根本不同,并且具有某些重要的缺点。在Kobel等(2007)和Berka等(2006)的方法中,工作者将生物素化发夹连接物连接至靶DNA插入物的各个末端,在此之后,通过将连接物序列连接在一起来使分子环化,以使最初的靶DNA末端相互紧密接近,位于新并列的生物素化连接物对的任一侧。然后将环状分子随机切割,以产生具有离最初靶DNA插入物末端的随机距离的暴露的末端。将由此产生的线状DNA片段通过抗生物素蛋白亲和色谱回收,并沿着其全长测序。
Kobel等(2007)利用下一代DNA序列分析仪GENOME SEQUENCER FLX(Roche Diagnostics,Indianapolis,IN;454 Life Science Corp,Bradford,CT)(常称为“454-序列分析仪”),得到靶DNA插入物的最初末端序列。然而,如所述产生的所得产物不能有效地在SOLEXA GENOME ANALYZER(Illumina,San Diego,CA)(常称为“SOLEXA序列分析仪”)或产生“短序列读出”的任何下一代测序平台的SOLiD序列分析仪(Applied Biosystems,Foster City,CA)上探询(interrogate)。Kobel等(2007)和Berka等(2006)产生的DNA产物采取所谓的“由外向内(outside-in)”拓补,由此靶DNA插入物的最初末端(“外侧”)以反向位置(“向内”)定向,所述反向位置被新并列的生物素化连接物对所间隔开,所述连接物对随机位于所得DNA片段的长度之内。由于与最初的靶DNA末端相比采取“由外向内”拓补,所以为了确定最初靶DNA片段的末端序列,对于跨过生物素化连接物对并通过DNA产物的另一侧的序列而言,序列测定数百个碱基或以上是必要的。如此产生的大部分产物在454-序列分析仪的400bp读取长度之内。短读取DNA序列分析仪例如SOLEXA的操作成本为454-序列分析仪的十分之一或更低,但通常支持50个碱基的读取长度,该长度不足以绝对精确地探询由Berka等(2006)和Kobel等(2007)的方法所产生的产物。Berka等(2006)描述了他们方法的变体,其中将IIS型限制性内切核酸酶Mme I用于产生对应于最初DNA插入物末端序列的约20个碱基的标签。通过该方法,工作者将标签的长度固定在SOLEXA型DNA序列分析仪的DNA测序能力范围之内。然而,所述标签仍呈“由外向内”拓补,并且由Mme I消化产生的固定的约20个碱基的标签实在太短以致于不能清楚地对复杂基因组作图,以用作基因组工具或辅助序列组装。此外,固定的20个碱基的标签并不能受惠于下一代短读取DNA序列分析仪在读取长度上的最新改进。目前SOLEXA支持的读取长度为来自DNA模板各个末端的50个碱基,预期稍后在2009年增加至76个碱基。
本发明通过以下几项克服了前述限制:1)产生GVT对的能力,由此可将靶DNA上的标签对成员的间距由1kb以下改造至数百kb以上,以使检测分辨率适于分析不同类型的核酸和适于任何既定的实验设计;(2)标签对成员之间明显更精确和均一的间距,用于更高的分析精度;(3)基于除了间隔距离之外的其它标准产生基因组标签对的能力,例如基于相邻可切割的内切核酸酶位点的位置和/或相对间隔距离,产生用于改善靶核酸样品的探询的标签对;和(4)为了更高的经济性,使本发明方法适合用于下一代大规模并行DNA序列分析仪中。通过采用所谓的“外向外(outside-out)”拓补学,由此并列的末端序列标签(GVT对)保留与最初靶DNA插入物末端相同的空间方向,并且通过使用频繁切割的II型限制性内切核酸酶以产生平均长度100-200bp的GVT,可将SOLEXA“成对-末端-读取”平台直接译成甚至更长的GVT序列,其仅由该设备的实际读取长度限制。
发明简述
本发明涉及产生连接基因组序列的标签对和快速产生高分辨率基因组图谱的系统、方法、组合物、载体、载体组分和试剂盒。本发明产生短并列序列标签(称为基因组变化标签(Genomic Variation Tag,GVT))对,其中GVT对的组成成员具有用户定义的间隔距离,和/或为位置的标记,其沿着研究中的核酸分子长度划分一种或多种不同限制性内切核酸酶的可切割的相邻位点。
当用计算机比对GVT对的各个GVT与参比序列时,它们的预期同一性、间隔距离和/或方向与参比序列的任何不一致都表示靶与参比核酸之间在GVT对跨越的区域中存在一个或多个精细结构差异。以此方式,GVT对的综合文库表示可用于产生高分辨率结构图谱以鉴定核酸群之间的精细结构变化的高分辨率基因组概况。本发明的另一方面使用户能够定义和改变由GVT对标记的核酸群的间隔距离,因此允许产生适合以不同的空间分辨率和物理覆盖率检测精细结构变化的GVT对文库。本发明的另一方面产生为位置标记的GVT对,所述位置沿着研究中核酸群长度紧邻一种或多种不同限制性内切核酸酶的相邻且可切割的识别位点对。因此,可通过产生由使用甲基化敏感的限制性内切核酸酶差异消化产生的序列标签,将本发明用于研究DNA群体的甲基化状态。本发明的另一方面产生以下GVT对,其为一种或多种不同限制性内切核酸酶的相邻且可切割的识别位点对的标记,且在沿着研究中核酸群的长度上被用户定义的距离间隔开。本发明的另一个方面提供用于在靶DNA上产生高达约50kb以上间隔距离的GVT对的方法、载体和DNA骨架。本发明的另一个方面提供产生可在下一代大规模并行DNA序列分析仪上有效测序的GVT对的方法。关于下一代DNA序列分析仪的综述参见Morozova和Marra(2008)以及Mardis(2008)。
按照本发明的一个方面,将用于分析的目标群DNA随机片段化或在限定位置片段化。将片段化的靶DNA插入物连接至合适的载体或DNA骨架中,由此将连接的靶插入物用一种或多种频繁切割的II型限制性内切核酸酶消化,所述核酸酶在离各个末端有用的距离上切割所述插入物引起间插序列的释放,得到依然连接至未消化载体或DNA骨架的GVT对。通常,用具有4个碱基识别位点的频繁切割的II型限制性内切核酸酶消化产生100-200bp长度的GVT,该长度对应于靶DNA插入物的末端与第一个切割位点的位置之间的平均距离。通过将GVT连接在一起产生GVT对将新产生的载体-GVT复合体重新环化,所述GVT对表示处于与最初的靶DNA插入物相同的相对方向的并列末端区。通过在GVT对侧翼的限制性内切核酸酶位点消化或者通过利用用GVT对侧翼的合适引物的PCR,将GVT对从载体或DNA骨架中释放出来。当将GVT对的单个GVT序列用计算机与参比序列比对时,它们的预期同一性、间隔距离或方向与所述参比上排列的那些的任何不一致都表示靶与参比核酸之间在GVT对跨越的区域中存在一个或多个精细结构差异。因此,多个GVT对列成表格的序列(tabulated sequence)构成靶核酸群相对于参比序列的详细基因组概况。
按照本发明的另一个方面,将片段化的靶DNA克隆至新型粘粒载体pSLGVT-28、pSLGVT-35、pSLGVT-36、pSLGVT-37或pSLGVT-38中,用于产生用于使用下一代SOLEXA、SOLiD或454-DNA序列分析仪的序列测定中的45-50kb间隔距离的GVT对。本发明的这些和其它方面在参考以下详述时将变得显而易见。此外,将各种参考文献(包括专利、专利申请和期刊文章)标识如下并通过引用结合到本文中。
本发明或其衍生产物(derived product)提供的有用应用包括但不限于高分辨率基因组图谱的快速构建,所述图谱可用于:(1)鉴定基因组的精细尺度变化(fine-structural-variant),该精细尺度变化促成人类多样性,并可能引起疾病、疾病进展或疾病易感性以及用作诊断学或治疗干预靶的其它所观察到的性状;(2)使得能够设计和建立用于快速和大规模并行探询DNA样品中的精细结构变体的寡核苷酸微阵列或其它测定方法,用于医学诊断、基因分型和其它这样的有用用途;(3)促进由完整基因组或鸟枪DNA测序法精确并快速地进行DNA组装;(4)鉴定由差异RNA加工产生的RNA转录物的精细结构变化,以有助于基因组注释、功能基因组研究和潜在疾病诊断;(5)建立基因组概况,以促进比较基因组学和系统发生研究和有助于差异鉴定密切相关的生物;和(6)建立相关品系、品种(race)、生物型、变体、品种(breed)或物种的基因组概况,以鉴定可能引起任何可观察到的理论、医学或商业目标表型的基因组元件。
发明详述
本发明提供新型改进的高通量方法、载体和载体组分,以筛选和鉴定核酸群中的精细结构变化。本发明包括产生并列序列标签(GVT)的体外和体内方法,所述并列序列标签中标签对(GVT对)的两个组成成员为限定间隔距离的独特位置标记和/或为核酸位置的标记,其沿着多个靶核酸分子的长度划分一种或多种不同限制性内切核酸酶的相邻切割位点。所述方法包括:将靶核酸分子片段化以形成靶DNA插入物;将靶DNA插入物与DNA载体或骨架连接,以产生环状分子;用一种或多种核酸酶优选频繁切割的II型限制性内切核酸酶消化靶DNA插入物,以在离靶DNA插入物各个末端的一定距离上切割靶DNA插入物,从而产生两个序列标签(GVT),其包含连接至未消化的线状载体或DNA骨架的靶DNA插入物末端序列;以及使具有连接的GVT的线状载体或DNA骨架重新环化,得到含具有两个并列GVT的GVT对的环状DNA分子;通过核酸扩增或用具有GVT对侧翼的位点的限制性内切核酸酶消化,回收GVT对DNA。
当用计算机比对GVT对的单个GVT与参比序列时,它们的预期同一性、间隔距离和/或方向与参比序列的任何不一致都表示靶与参比核酸之间在GVT对跨越的区域中存在一个或多个精细结构差异。通过该方法,GVT对的综合文库表示以下高分辨率基因组概况:其可用于产生高分辨率结构图谱以鉴定核酸群之间的精细结构变化和用于产生基因组支架(genomic scaffold)以辅助基因组组装和结构分析。
1.用于产生GVT对的核酸的制备和片段化
如本文所述,本发明提供产生高分辨率基因组图谱的方法,该图谱可用于表征未知基因组和辅助未知基因组的组装或鉴定靶核酸群与参比序列的之间精细结构变化。适于分析的靶核酸包括但不限于:真核生物和原核生物的基因组DNA、微生物DNA、质体DNA、质粒和噬菌粒DNA;病毒DNA和RNA;来源于核糖核酸(RNA)的互补DNA(cDNA);以及通过体外扩增例如尤其通过PCR产生的DNA。用于从前述来源中分离DNA、由RNA合成cDNA和扩增核酸的方法为本领域技术人员已知。
对于某些实施方案,GVT对沿着靶DNA长度所跨越的物理距离决定了用于分析的分辨率水平。GVT之间的间距越小,用于作图和用于检测靶核酸群中的精细结构变化的空间分辨率就越高。较大GVT对间距需要较少的GVT对,以物理上覆盖既定复杂性的DNA样品,但检测小基因组结构变体的空间分辨率伴随下降。大GVT对间距跨越大的重复区以促进从头基因组组装和DNA中大结构变化的分析。产生具有5kb、10kb、25kb、50kb、100kb或更高间隔距离的GVT对的能力允许终端用户在GVT间距、对检测不同类型的DNA结构变化所需的分辨率水平和为既定复杂性的基因组提供足够物理覆盖率所需的GVT对数目之间选择功能折衷。不同间距的GVT对的最佳数目和比例可针对特定应用用计算机建模。
如上所述,用于构建GVT对的靶DNA插入物的物理长度控制GVT对的固有GVT(resident GVT)之间的间隔距离,从而设定用于分析的分辨率水平。产生和纯化接近大小均一的片段化核酸分子群的方法在本领域已有描述。片段化靶DNA群至所需的插入物长度可用多种限制性内切核酸酶在部分或完全消化的条件下酶促实现。具有6个或更多碱基对的识别位点的限制性内切核酸酶的使用可用于产生更长的DNA片段。一种或多种对DNA甲基化具有不同敏感性的限制性内切核酸酶的使用可用于评价靶DNA群的DNA甲基化状态。频繁切割的II型限制性内切核酸酶如Mbo I、Hae III等平均每256bp切割DNA一次(基于靶DNA中四种碱基的随机分布和等量存在),这些酶的使用为本领域已知,用于通过部分消化产生各种大小的DNA片段。在放宽条件下使用限制性内切核酸酶CviJ I(于GC二核苷酸位置切割DNA(Fitzgerald等,1992))尤其可用于在部分消化条件下产生DNA片段大小的有用连续体。在某些实施方案中,随机产生的DNA片段为有用的。用于产生随机DNA片段的方法包括:(1)用牛胰腺脱氧核糖核酸核酸酶I(DNA酶I)消化,该酶在锰离子存在下在DNA中进行随机双链切割(Melgar和Goldwait,1968;Heffron等,1978);(2)物理剪切(Shriefer等,1990);和(3)超声(Deininger,1983)。
用于部分酶促消化的条件凭经验确定,即改变反应体积、酶浓度以及酶与底物的比率、保温时间或温度中的一个或多个参数。对于需要约5kb或更小的GVT间隔的高分辨率分析,优选非序列依赖性的片段化方法。牛胰腺DNA酶I在锰离子存在下在DNA中进行随机双链切割(Melgar和Goldwait,1968;Heffron等,1978),因而可用于该目的。同样,还可使用通过机械手段例如超声或选择性应用剪切力的DNA片段化。HYDROSHEAR设备(Genomic Solutions Inc,Ann Arbor,MI)或采用自适应聚焦声学(Adaptive Focused Acoustics)的COVARIS(Covaris Inc,Woburn,MA)设备尤其可用于产生限定大小范围的随机DNA片段。还可单独或与所述的其它片段化方法组合通过在cDNA合成期间或PCR期间使用随机引物,产生随机DNA片段。通过凝胶电泳容易监测产生所需长度产物的片段化的发展。在产生适宜的DNA大小分布后,使用T4DNA聚合酶修复或制备靶DNA平端,以准备平端连接至载体、DNA骨架或GVT-连接物,用于产生本发明GVT对。在通过用一种或多种内切核酸酶部分或完全消化来片段化DNA而留下粘性末端的情况下,无需修复,但需要设计GVT-连接物、载体或DNA骨架来适应由片段化酶产生的特定粘性末端。因为靶DNA插入物与其它靶DNA插入物的连接破坏了样品的共线性(co-linearity),并破坏了基因组图谱的构建,所以通过磷酸酶去除靶DNA的5’磷酸基团,以防止在与GVT-连接物或DNA骨架的连接期间产生嵌合DNA插入物。
2.大小选定的DNA的大小分级分离和纯化
对于某些实施方案,通过凝胶电泳或通过高效液相色谱法(HPLC)分级分离去磷酸化的DNA插入物,以产生所需大小的纯化DNA插入物。聚丙烯酰胺凝胶最好用于分级分离50bp至1kb的DNA。对于大小约250bp至约50kb的片段,0.4%至3%琼脂糖凝胶是适宜的。脉冲场凝胶电泳适于分级分离约10kb至几百kb大小的DNA。这些方法描述于本文的参考文献(Rickwood和Hames(编辑),载于:Gel electrophoresis of nucleid acid-A practical approach,Oxford University Press,New York,1990;Hamelin和Yelle,1990;Birren和Lai,载于:Pulse field electrophoresis:A practical guide,Academic Press,San Diego,1993)。将DNA通过使用与样品平行电泳的适宜大小标志物确定大小,并通过染色可视化。用手术刀切下含有所需大小DNA的凝胶切片,其后通过电洗脱或者通过酶促或化学降解凝胶基质从凝胶基质中回收DNA。用于分析的回收DNA片段大小应接近均一。用于最大化分离分辨率的凝胶系统和电泳条件是本领域已知的。使用两轮以上的凝胶电泳可获得更高的样品大小均一性。平均长度的大小方差超过2.5%-5%的样品可导致对本发明使用不可接受的噪音。
3.GVT-连接物的设计和靶DNA与载体或DNA骨架的连接
在某些实施方案中,首先将靶DNA插入物与连接物连接,以促进其与合适载体或DNA骨架的连接。在其它实施方案中,将靶DNA插入物直接与载体或DNA骨架连接,而不使用连接中间体。在其它实施方案中,首先将各个连接物连接至靶DNA的各个末端,于是新连接的连接物的自由端重新环化形成功能DNA骨架,用于随后产生GVT对。连接物可掺入诸如生物素基团等部分以有助于所需DNA产物的亲和纯化。连接物也可掺入限制性内切核酸酶识别位点,用于从DNA骨架中切下所产生的GVT对,或者掺入IIS、IIG或III型内切核酸酶的核酸酶识别位点,以通过切割所连接的靶DNA插入物来产生GVT。对于其中靶DNA插入物直接与载体或DNA骨架连接的GVT产生而言,可将用于前述IIS、IIG或III型限制性内切核酸酶的适宜识别位点掺入至载体或DNA骨架的设计中。本发明的另一个方面利用一种或多种II型限制性内切核酸酶消化所连接的靶DNA插入物,以产生连接至载体或DNA骨架的各个末端的GVT,其中将所述载体或DNA骨架设计为不含这些消化位点并保持未消化。
本领域技术人员会认识到,存在多种适用于实施本发明的GVT-连接物设计。总体而言,适宜的GVT-连接物包含以下材料性质:(1)5’磷酸化寡核苷酸的短上链(top strand)和短下链(bottom strand),其能够稳定互补碱基配对以产生双链结构;(2)GVT-连接物的一端具有粘性延伸(优选非回文的),其与载体、DNA骨架或具有互补序列的另一个连接物连接;(3)另一连接物末端具有平端结构或其它适宜的末端结构,使得能够与靶DNA片段(优选去磷酸化的靶DNA)有效连接;(4)对于某些实施方案,靶DNA插入物侧翼的连接物末端可带有适宜的IIS型、IIG型或III型限制性内切核酸酶识别位点,其方向使得所述位点引导在靶DNA内以与靶DNA末端相距固定且有用的距离切割,以产生GVT(关于IIS型、IIG型和III型限制性内切核酸酶的综述,参见Sistla和Rao(2004)、Bujnicki(2001)、Szybalski等(1991);和(5)连接物可具有第二个限制性内切核酸酶位点,用于从载体中切下所产生的GVT对。
本领域技术人员已知用于连接连接物与DNA插入物和用于核酸分子的一般连接的方法。参见例如Ausubel等(编辑)(载于:Short Protocols in Molecular Biology,第3版,John Wiley和Sons,New York,1995)。用于将连接物与DNA插入物有效平端连接的典型连接条件需要相对于靶DNA约50至数百倍摩尔过量的连接物、高T4DNA连接酶浓度或包含诸如聚乙二醇等的体积排阻剂(Hayashi等,1986;Pheiffer和Zimmerman,1983;Zimmerman和Pheiffer,1983)。连接物与粘性末端靶DNA的有效连接需要约5倍摩尔过量。使连接GVT-连接物的DNA插入物通过CHROMOSPIN柱(Clontech,Mountain View,CA),以去除过量的连接物,然后通过凝胶电泳纯化和大小选择。为通过分子内连接产生GVT对,将纯化的连接连接物的靶DNA插入物连接入如下所述的几种质粒载体和DNA骨架中的一种。
按照本发明的一个方面,任何限制性内切核酸酶(优选频繁切割的II型限制性内切核酸酶(其优先切割靶DNA插入物而不是载体))、DNA骨架或与靶DNA连接的任何连接物,适用于产生GVT和GVT对。REBASE限制酶数据库提供II型限制性内切核酸酶、同切点酶、异切点酶(neoschizomer)、识别序列、工业效用和参考文献的信息(rebase.neb.com)。优选的II型限制性内切核酸酶为频繁切割靶DNA插入物的酶,例如以下酶:其识别4个碱基对位点,从而产生平均长度100-300bp的GVT。II型限制性内切核酸酶FspB I或Csp6I单独或组合为尤其适合用于本发明中以产生GVT,因为这两种酶频繁切割并产生相同的互补粘性末端,允许通过分子内连接而无需对末端修饰来直接产生本发明GVT对。认为其它仅切割靶DNA插入物而不切割载体、DNA骨架或靶DNA插入物所连接的连接物的限制性内切核酸酶在本发明用于产生GVT和GVT对的范围和精神内。
4.用于GVT对制备的载体和DNA骨架
在其中需要大GVT-间距的某些实施方案中,可能需要在产生GVT之前在宿主细胞内增殖靶DNA。当在宿主细胞中增殖时,含有富AT或GC序列、重复、发夹、强启动子、毒性基因和其它问题序列的靶DNA区段的重排或丢失是受关注的。DNA重排和其它克隆人为产物可被错认为是靶核酸中的结构变化。此外,克隆偏倚(cloning bias)可限制插入物的大小,并可对研究中的基因组的重要区域呈现不足(under-represent)。最近条件扩增型F粘粒载体和BAC载体的发展解决了该问题(Szybalski,美国专利第5,874,259号),所述载体中DNA的增殖保持在每个宿主细胞1-2个拷贝,直至为进行分析而被诱导至较高水平。报道了15kb至超过100kb的基因组插入物的稳定性改善,而且条件扩增型载体现常规用于基因组研究。条件扩增型F粘粒/BAC载体例如pCC1FOS(Epicentre,Madison,WI)和pSMART-VC(Lucigen,Middleton,WI)以及它们的变体,适用于产生10kb至200kb GVT-间距的GST-对。然而,常规低拷贝质粒载体的使用似乎足以稳定维持大DNA片段,而不需要BAC、PAC或F粘粒型载体(Feng等,2002;Tao和Zhang,1998)。pSMART系列载体提供低拷贝数增殖,并具有在载体上具有转录终止子的额外特征,以降低转录干扰的潜在作用,这可进一步改善DNA稳定性(Mead和Godiska,美国专利第6,709,861号)。对于产生10kb或更大GVT-间距的GVT对而言,多种已建立并广泛使用的基于低拷贝质粒的载体适合用于产生GVT对,这些载体包括:pBR322(Bolivar等,1977)、pACYC177(Chang和Cohen,1978)和本公开内容中所述的其它载体。
为了实施本发明,与靶DNA连接的载体或DNA骨架必须不含用于从靶DNA插入物中产生GVT的限制性内切核酸酶的切割位点。由于对载体或DNA骨架的切割将破坏GVT的空间连接,因此这防止通过分子内连接形成GVT对。可通过使用标准方法进行位点定向诱变来制备无不需要的限制性位点的载体骨架。参见,例如McPherson(编辑)(载于:Directed Mutagenesis-A Practical Approach,Oxford University Press,New York,1991)和Lok(美国专利第6,730,500号)。通常,可通过单个碱基对变化来改变载体DNA或DNA骨架的实质部分,以消除不需要的限制性内切核酸酶识别位点而不会因此对功能性有影响。在蛋白编码序列之内,将单个核苷酸变化靶向密码子摆动位置(codon wobble position),以保持天然蛋白编码。在载体或DNA骨架上的其它地方所作的改变应需要在使用前进行功能验证。许多限制性内切核酸酶对其识别位点的甲基化敏感;具体而言,在脱氧胞嘧啶的5-碳位置的甲基化可使载体或DNA骨架上的这些位点不被消化。可通过经由PCR直接掺入5-甲基-dCTP、通过由具有不同限制修饰系统的合适宿主细胞使DNA传代或通过使用特异性甲基化酶来实现DNA甲基化,以使载体或DNA骨架上的限制性位点不再被酶促切割。REBASE限制酶数据库提供限制性内切核酸酶的甲基化敏感性信息(rebase.neb.com)。
通过分子内连接形成GVT和GVT对的DNA骨架还可通过直接化学合成以任何所需规格产生。随后大量制备DNA骨架可通过化学合成或者部分或全部通过PCR从模板制备。DNA骨架可包含用于在微生物宿主中增殖的复制起始和选择标记。或者,DNA骨架可仅包含最小序列,其主要包含空间连接的连接物对。首先将各个连接物与靶DNA插入物的末端连接,然后将连接物游离端连接在一起以重构DNA骨架,从而形成用于GVT制备的环状分子。在某些其它实施方案中,连接物可掺入IIS、IIG或III型限制性内切核酸酶位点的识别位点,所述位点呈指导以与靶DNA末端相距限定距离切割靶DNA以产生GVT的方向。生物素和其它部分也可掺入DNA骨架中,以使得能够在体外GVT对制备的不同步骤中亲和纯化DNA中间体。一种尤其有用的设计包括合成的DNA骨架,其不含所有或大多数的16种可能的4个碱基对回文结构。这类DNA骨架允许通过单独或组合使用几乎任何4碱基识别限制性内切核酸酶消化所连接的靶DNA插入物而不会切割DNA骨架或连接物,来产生GVT。另一种尤其有用的DNA骨架设计掺入以下序列:其与绑定用于下一代DNA测序平台的DNA扩增和测序引物相容,用于大规模并行高通量GVT对DNA测序。优选DNA骨架足够长以提供用于扩增所形成的GVT对的引物结合位点、以实现亲和纯化、以能够有效衔接(连接)至靶DNA或以最好成为提供参比点的独特标识符。
5.GVT对制备载体pSLGVT-1、pSLGVT-2、pSLGVT-28、pSLGVT-35、pSLGVT-36、pSLGVT-37和pSLGVT-38
pSLGVT系列载体包含两个化学合成的DNA组件以分别提供药物选择和质粒复制的基础维持功能。载体组件带有末端独特的IIS型限制性内切核酸酶位点,其产生独特的不对称粘性末端,以允许在以后快速重构载体组分,从而针对新功能加入或取代组件或DNA表达盒。
第一载体组件含有修饰的P15A复制起点。带有P15A复制子的质粒以每个宿主细胞约15个拷贝的低数目增殖(Sambrook等,载于:Molecular Cloning-A Laboratory Manual,第2版,CSH Laboratory Press,Cold Spring Harbor,New York,1989),由此优化所克隆的基因组插入物的稳定性。P15A复制子中的Mme I位点通过进行消除两个位点的每个可能的单核苷酸改变而除去,然后针对复制能力筛选各个突变体以产生用于构建pSLGVT-1的功能性“P15A-m复制子组件”。通过简单的单碱基改变除去P15A复制子内的EcoP15I位点,以产生用于构建质粒pSLGVT-2的“P15A-e组件”。
第二个载体组件包含来自转座子Tn903的经修饰的Kan基因,其赋予针对抗生素卡那霉素的抗性(Grindley等,1980)。利用摆动位置并尽可能与大肠杆菌中的最佳密码子使用一致,除去Kan基因编码区中的4个Mme I位点连同2个Nci I和Nsi I位点以及针对Esp3 I、Pst II和Hind III的单个位点,以产生“Kan组件”。
粘粒载体pSLGVT-28为制备用于下一代DNA测序平台的具有45-50kb空间间隔的GVT对提供独特的益处。具有该间距的GVT对尤其可用于提供基因组DNA的有效物理覆盖率,以鉴定精细结构变化,和用于针对制备基因组支架而跨越大的重复DNA区,以促进复杂基因组的从头测序。pSLGVT-28通过以下几个步骤衍生自pSLGVT-2:(1)掺入来自噬菌体λ的用于体外噬菌体包装的COS位点,使得能够有效且精确地以生物学大小选择靶DNA插入物,以产生具有精确约45-50kb间隔的GVT对的复杂文库;(2)通过位点定向诱变除去载体上的所有FspB I和Csp6I限制性内切核酸酶位点,从而允许通过单独或组合使用那些酶消化所连接的靶DNA插入物来产生GVT和随后的GVT对;和(3)针对位于Illumina Corporation的“Adaptor-A”和“Adaptor-B”序列之间的靶DNA产生克隆位点,以允许使用SOLEXA“成对-末端-读取”测序平台进行固相DNA扩增和测序所产生的GVT对。
具有45-50kb间隔的GVT对的有效形成以及在SOLEXA“成对-末端-读取”平台上的大规模并行DNA测序,相对于Tuzun等(2005)的低通量F粘粒配对-末端作图法在鉴定基因组变化和制备长范围支架以有助于DNA组装方面,提供成本和有效性的巨大进步。
粘粒载体pSLGVT-35为pSLGVT-28的衍生物,其中一对反向的BdiVI限制性内切核酸酶位点位于Illumina Corporation的SOLEXA“Adaptor-A”和“Adaptor-B”序列之间。BciVI为IIS型限制性内切核酸酶,其从酶识别位点产生位于6个碱基对的一个碱基的3’延伸。BciVI消化用于产生载体上的Adaptors-A和Adaptor-B侧翼的单个3’胸腺嘧啶突出端,以接收按照用于DNA模板制备的SOLEXA DNA制备试剂盒制备的靶DNA插入物尾部的腺嘌呤。
粘粒载体pSLGVT-36为pSLGVT-28的衍生物,其中SOLEXA Adaptor-A和Adaptor-B序列被来自Roche Diagnostics的454-平台(GS FLX TITANIUM)的Adaptor-A和Adaptor-B置换,用于直接在该平台上对GVT对进行序列测定。
粘粒载体pSLGVT-37为pSLGVT-28的另一种衍生物,其中SOLEXA Adaptor-A和Adaptor-B被来自Applied Biosystems的SOLiD“Mate-Pair Library”系统的Internal Adaptor置换,用于直接在所述SOLiD平台上对GVT对进行序列测定。
粘粒载体pSLGVT-38为pSLGVT-28的另一种衍生物,其中将SOLEXA Adaptor-A和Adaptor-B用Roche Diagnostics的454-Internal Adaptor置换,以产生适于“由外向内”构型的GVT对,用于在所述454-平台测序。
6.GVT对制备
在某些实施方案中,通过机械或酶促方法随机片段化用于产生GVT对的靶DNA群,以产生具有所需大小的片段用于GVT对制备。在其它实施方案中,将靶DNA群用一种或多种限制性内切核酸酶在独立反应中或组合中消化至完全,以在指定位置切割靶DNA。在另一个实施方案中,将靶DNA用一种或多种限制性内切核酸酶消化至完全,然后分级分离至所需大小。为了用产生粘性末端的酶消化靶DNA,可将去磷酸化的靶DNA直接克隆至适当修饰的载体或DNA骨架中。使用T4DNA聚合酶或绿豆核酸酶修复具有“不平齐”末端的片段化靶DNA,然后去磷酸化以防止产生嵌合的靶DNA插入物。同样,也去磷酸化带有粘性末端的靶DNA以防止产生嵌合的插入物。在使用连接物进行靶DNA与载体或DNA骨架的连接时,将CHROMASPIN柱(Clontech,Mountain View,CA)用于除去未连接的连接物,然后将连接物连接的靶DNA与GVT制备载体连接。在某些实施方案中,在GVT制备之前,通过凝胶电泳或通过其它方法将靶DNA经大小选择至所需的长度。
本文使用的粘粒、F粘粒、噬菌粒(phagmid)、BAC和其它附加体元件被统称为质粒或DNA骨架。针对在一定片段长度范围内的DNA区段,已描述了用于优化载体或DNA骨架与插入物的分子内连接继而分子内连接以产生环状分子的连接条件(Collins和Weissman,1984;Dugaiczyk等,1975;Wang和Davidson,1966)。用于连接核酸分子、转染入宿主细胞中和用于构建基于质粒的文库的通用方法是本领域技术人员已知的。参见例如Sambrook等(载于:Molecular Cloning:A laboratory manual第2版,CSH press,New York,1989);Ausubel等(编辑)(载于:Short Protocols in Molecular Biology,第3版,John Wiley和Sons,New York 1995);Birren等,(载于:Bacterial artificial chromosomes in genome analysis-A laboratory manual,CSH Press,New York,1999)。通过电穿孔或转染将连接的靶DNA导入宿主细胞中。或者,将45-50kb的靶DNA插入物连接至合适的粘粒载体例如pSLGVT-28、pSLGVT-35、pSLGVT-36、pSLGVT-37、pSLGVT-38或其衍生物上,在使用合适的市售包装提取物(Stratagene,La Jolla,CA)体外噬菌体包装之后,转导至宿主细胞中。甲基化的靶DNA的增殖需要具有失活的mcr和mrr等位基因的宿主细胞菌株,所述甲基化的靶DNA例如为通过某些利用甲基化核苷酸类似物的方案合成的基因组DNA或cDNA。适宜的宿主菌株包括:10G(Lucigen,Middleton,WI);XL1-Blue MR和XL2Blue MRF′(Stratagene,La Jolla,CA)。在适宜药物选择下,将电穿孔、转染或转导的细胞以约20,000-50,000个菌落/板的密度铺板到10cm直径琼脂板上,以产生初始文库。备选方法是在液体培养基中培养转导或转染细胞,同时小心不使细胞过度生长而促进不需要的克隆选择。处于培养中的克隆总数应反映出研究设计所需要的GVT对的数目。收获细胞,并分离质粒,用于下述的后续步骤。
在本发明的一个方面中,将带有靶DNA插入物的pSLGVT-28、pSLGVT-35、pSLGVT-36、pSLGVT-37、pSLGVT-38和任何其它功能等价载体或DNA骨架用FspB I或Csp6 I(Fermentas Inc,Hanover,MD)消化至完全以产生GVT。所产生的消化作用切割插入物DNA而产生GVT,但不切割所连接的载体或DNA骨架。以该方式产生的GVT大小可变,这取决于靶DNA内切割位点的平均频率和首个切割位点离靶DNA末端的距离。预期通过FspB I或Csp6 I消化随机片段化的人DNA插入物所产生的GVT具有100-200bp的平均长度。将与新产生的GVT连接的线性化载体或DNA骨架通过凝胶电泳或亲和色谱法从消化的插入物DNA片段的环境中纯化出来。将纯化的线性产物环化以得到初始GVT对文库。可通过DNA扩增从环化模板中回收GVT对,用于直接DNA测序。或者,将带有GVT对的环化载体引入宿主细胞中,然后在选择条件下以每个10cm板约20,000-50,000个克隆的密度铺板或在液体培养基中培养,以得到初始质粒GVT对文库。将来自质粒初始GVT对文库的纯化质粒用切割GVT对的两侧的酶消化,以从载体中切下GVT对用于直接DNA测序。
7.体外GVT对制备
在本发明的范围和原理之内考虑在体外制备GVT和GVT对,而没有通过宿主细胞增殖的步骤。通常,适用于产生GVT而无需通过宿主细胞增殖的DNA骨架的长度应为至少50-100bp或更长,以便具有足够的区段灵活性以经过分子内连接产生用于形成GVT对的环状分子。用于体外制备GVT对的DNA骨架无需一定包含复制起点或药物选择标记。这类DNA骨架应具有合适的GVT对侧翼的PCR引物结合位点,用于扩增所产生的GVT对。DNA骨架可部分或全部得自对改造质粒的限制性内切核酸酶消化。也可部分或全部通过PCR或直接化学法寡核苷酸合成来制备合适的DNA骨架。在DNA骨架得自PCR或化学合成的情况下,可将经修饰的核苷酸掺入DNA骨架中用于额外的功能。例如,可将生物素部分掺入DNA骨架中以使得能够在体外GVT对制备的不同步骤中亲和纯化DNA中间体。一种特别有用的DNA设计包含基本无或消除16种可能的4个碱基对长的回文结构的DNA骨架,从而允许通过用几乎所有4碱基识别限制性内切核酸酶消化所连接的靶DNA插入物来产生GVT。DNA骨架也可包含用于克隆扩增DNA模板的引物结合位点和其它序列,用于在下一代序列分析仪上进行DNA测序。
尽管体外GVT对制备提供产生更复杂的GVT对文库的可能性并避免通过微生物宿主细胞增殖步骤的不便,然而在微生物宿主中增殖步骤在某些其中需要将存在的人为产物最少化的应用中有优势。人为产物的主要来源基于其中两个不同靶DNA分子与载体或DNA骨架的各个末端连接的不需要分子的产生。另一个来源的人为产物在分子内连接以产生GVT对的步骤期间形成,所述步骤中两个不同载体或DNA骨架的GVT通过分子间连接来连接。具体而言,随着PCR扩增,来自两个不同靶DNA的GVT连接而形成人为产物GVT对。已针对在一定片段长度范围内的DNA区段,描述了用于优化分子间和分子内连接的一般连接条件(Collins和Weissman,1984;Dugaiczyk等,1975;Wang和Davidson,1966),以得到产生用于体外GVT对制备的环状分子的最优条件。然而,不需要的连接事件的发生概率在实践中不能完全消除。然而,大多数人为产物GVT对可通过在细菌中的传代步骤除去。线状DNA或大的串联DNA载体不能有效转化入和增殖于微生物细胞中,使得该方法成为选择用于应用例如从头基因组组装的方法(其中GVT对的序列共线性是最重要的)。
8.使用下一代大规模并行DNA序列分析仪测序GVT对
目前存在三种新的商用系统可用于超高通量、大规模并行DNA测序:GENOME SEQUENCER FLX系统,常称为454-序列分析仪(Roche Diagnostics,Indianapolis,IN);SOLEXA(Illumina,San Diego,CA);和SOLiD系统(Applied BioSystems,Foster City,CA)。这些新设备的通量可超过数十亿碱基调用/运行,该系数是当前这代基于96-泳道毛细管电泳测序设备的1.5万倍以上。在本发明的范围和原理之内考虑将这些新测序平台用于表征GVT对。本发明的GVT对可在新设备上测序,无需过度修改操作方案。
454-技术基于在微珠上在克隆扩增的DNA模板上进行的焦磷酸测序(pyrosequencing)化学,所述微珠单独被加载至高密度光学流通池(optical flow cell)的蚀刻孔上(Margulies等,2005)。各个碱基延伸产生的信号被专用光纤捕获。典型的454-设备运行包括的50万次单次500个碱基的读取,该长度足以表征本发明的GVT对。
用于大规模并行DNA测序的Applied Biosystems的SOLiD平台基于DNA连接的连续循环。通过该方法,将固定化DNA模板在珠粒上克隆扩增,所述珠粒以高密度铺板至玻璃流通池(glass flow-cell)的表面上,所述流通池中发生测序反应。通过短限定标记的探针与一系列引物的连接的连续循环来实现序列测定,所述引物与固定化模板杂交。SOLiD设备运行包括超过1亿次单次50个碱基的读取。
将用于SOLEXA平台的测序模板固定在专有的流通池表面,其中将它们在原位克隆扩增以形成离散的测序模板簇,其密度高达1千万以上的模板簇/平方厘米。基于SOLEXA的测序在四种专有的修饰核苷酸存在下以逐步方式利用引物介导的DNA合成进行,所述修饰核苷酸具有可逆的3′双脱氧核苷酸部分和可切割的chromofluor。在各个延伸循环之前,将3′双脱氧核苷酸部分和chromofluor化学去除。如下检测从各个模板簇中逐步添加核苷酸的循环:通过激光激发接着图像捕获,根据图像捕获进行碱基调用(base calling)。目前设备运行包括76个碱基的高达1亿次成对-末端-读取,这理想地适用于对通过频繁切割的FspB I或Csp6I II型限制性内切核酸酶切割靶DNA产生的GVT对进行测序。
在SOLEXA平台上制备具有45-50kb空间间隔的GVT对
在三个主要平台中,SOLEXA为唯一在流通池上存在两种模板链而能够从DNA模板的两个末端直接测序的平台。因此,本发明适于SOLEXA平台的独特直接“成对-末端-读取”能力。当与粘粒载体pSLGVT-35或其衍生物一起使用时,本发明提供从靶DNA群中产生具有45-50kb空间间隔的GVT对的能力。与单独通过使用琼脂糖凝胶分离可实现的大小分级相比,利用细菌病毒的头部完整包装机制极大地提高了靶DNA按大小分级的精度。精确的45-50kb的间距提供基因组的经济的物理覆盖率,以鉴定精细尺度变化和以跨越靶DNA的重复区域而促进产生用于从头基因组测序的基因组支架。与Tuzun等(2005)的F粘粒配对-末端作图法相比,本发明在物理覆盖率的经济性和深度上提供实质进步。
SOLEXA Adaptor提供三组重叠的引物结合位点:一组指导PCR扩增以产生Adaptor-A和Adaptor-B序列侧翼的子代序列模板;第二组介导所得子代模板的固相等温扩增,产生固定在测序流通池表面上的模板簇;和(3)最后一组为两条DNA链的每一条的测序引物提供结合位点。本发明利用SOLEXA平台的成对-末端-读取能力测序所产生的GVT对。如pSLGVT-35及其衍生物所例示的,将SOLEXA连接物工程改造至DNA载体骨架上,位于靶DNA克隆位点的每一侧。以该方式,可在SOLEXA平台上直接测序新产生的GVT对。152个碱基的GVT对序列得自DNA模板的各个末端的两个单独的76碱基单个读取。FspB I和Csp6 I产生的GVT对的有效读取长度预期为SOLEXA读取长度,其从目前76个碱基读取中改进。预计在2009年末支持大于100个碱基的单个成对-末端-读取。
pSLGVT-35为2.6kb的载体,其包含卡那霉素选择标记、用于稳定增殖基因组DNA的低拷贝数的P15A复制起点和用于λ噬菌体包装的COS位点。通过位点定向诱变消除了载体上的限制性内切核酸酶FspB I和Csp6 I的切割位点,使得能够在按照本发明方法从靶DNA插入物制备GVT和随后的GVT对中利用这些酶。靶DNA克隆位点侧接一对反向的BciVI限制性内切核酸酶位点,其直接位于载体上的Illumina Corporation的SOLEXA “Adaptor-A”与“Adaptor-B”序列之间。BciVI为IIS型限制性内切核酸酶,其从酶识别位点中产生位于6个碱基对的一个碱基的3’延伸。BciVI在反向位点对处消化载体产生Adaptors-A和Adaptor-B侧翼的单个3’胸腺嘧啶突出端,以接收按照SOLEXA DNA模板制备试剂盒制备的靶DNA插入物尾部的腺嘌呤。
将靶DNA剪切成40-55kb之间的片段大小,并将末端用T4-DNA聚合酶修复并在dATP存在下利用没有外切活性(exo minus)的Klenow聚合酶用单个腺嘌呤核苷酸接尾。将45-50kb的DNA片段从琼脂糖凝胶中纯化出并连接至胸腺嘧啶接尾的pSLGVT-35载体上。在线性化载体与靶DNA插入物的摩尔比相等和高DNA浓度(通常每ul总核酸含2-3ug以上)(驱动含载体和靶DNA片段交替的长串联体产生)下实现粘粒载体与靶DNA的连接。利用市售包装提取物(Stratagene,La Jolla,CA)将所连接的产物包装至噬菌体颗粒中。甲基化的靶DNA例如基因组DNA的增殖需要具有失活的mcr和mrr等位基因的宿主细胞菌株。适宜的宿主菌株包括:10G(Lucigen,Middleton,WI);XL1-Blue MR和XL2Blue MRF′(Stratagene,La Jolla,CA)。在卡那霉素选择下,将感染的细胞以约20,000-50,000个菌落/板的密度铺板到10cm直径琼脂板上,以产生初始粘粒文库,其包含在一侧被SOLEXA Adaptor-A侧接和另一侧被SOLEXA Adaptor-B侧接的平均45-50kb的靶DNA插入物。备选方法是在液体培养基中培养感染的细胞,同时小心不使细胞过度生长而促进不需要的克隆选择。处于培养中的克隆总数应反映出研究设计所需的GVT对数目。收获细胞,并分离粘粒DNA,用于GVT制备。将带有靶DNA插入物的纯化粘粒DNA用FspB I或Csp6 I消化至完全。将消化产物通过CHROMASPIN 1000(Clontech,Mountain View,CA)柱以除去大量的消化的靶DNA插入物。将流出的物质在琼脂糖凝胶上电泳。从凝胶中回收约2.6-3kb的DNA片段,其对应于具有两个连接的GVT的完整线状粘粒载体,所述两个连接的GVT对应于靶DNA插入物的末端。将回收的物质稀释至低于25ng/ul,用于分子内连接以产生GVT对。新并列的GVT的连接处由构重关于用于产生GVT的酶的限制性内切核酸酶位点来划分,并设定GVT对中的GVT的边界用于随后的数据分析。通过使用SOLEXA Adaptor-A和Adaptor-B的引物进行DNA扩增,来从载体骨架中回收所得的GVT对。将回收的SOLEXA Adaptor侧翼的GVT对在流通池表面上扩增,用于在SOLEXA平台上进行成对-末端测序。
在本发明的范围和原理之内考虑用或不用体外病毒包装以及通过或不通过宿主细胞增殖的步骤,制备GVT和具有其它空间间隔的GVT对。在后一种情况下,将在各个末端带有SOLEXA Adaptor的靶DNA插入物克隆至合适的带有COS位点的DNA骨架中,然后如所述使用市售包装提取物(Stratagene,La Jolla,CA)包装至噬菌体头部中。DNA骨架可用诸如生物素等纯化部分标记,以辅助亲和纯化所需DNA产物。将未包装的DNA用核酸酶降解,随之通过酚提取纯化保护的包装DNA。用合适的限制性内切核酸酶(FspB I或Csp6 I)切割在所得环状DNA分子中的靶DNA插入物,以产生包含与GVT连接的DNA骨架的线状分子。通过亲和色谱法纯化所需线状DNA。用DNA连接酶通过分子内连接将暴露的GVT末端重新环化,以产生GVT对以及在COS位点封闭DNA以产生稳定的环状分子。使用Adaptor-A和Adaptor-B引物从连接混合物中通过PCR回收GVT对,用于SOLEXA“成对-末端”测序。
在454-平台外向外拓补上制备具有45-50kb空间间隔的GVT对
本发明尤其相当适于制备以下GVT对:其无需采用Berka等(2006)(美国专利申请2006/0292611)和Kobel等(2007)的方法就能用于在Roche Diagnostics的454-平台上测序。目前可用于454-平台的Berka等(2006)和Kobel等(2007)的方法在功能上受限于不超过数千个碱基的空间距离以及采取所谓的“由外向内(out-side-in)”拓补,该拓补描述了靶DNA的最初末端的反向定向。本发明提供制备具有45-50kb空间距离的标记同时保持“外向外(out-side-out)”拓补的方法,因此靶DNA末端序列保持相同的相对方向。尽管在454-流通池上不存在两种模板链,但当前GS FLX Titanium设备的500个碱基读取长度足以从来自一种模板链的单个读取直接序列测定GVT对,其通过用频繁切割的FspB I或Csp6I II型限制性内切核酸酶切割靶DNA产生。
粘粒载体pSLGVT-36使得能够在454-平台上制备呈“外向外”拓补的具有45-50kb空间间隔的GVT对。45-50kb的精确标记间距提供经济的基因组物理覆盖率以鉴定精细尺度变化和跨过重复区以有利于基因组支架的产生,用于从头基因组测序和对精细尺度基因组变化作图。具有50kb空间间隔的6万个GVT对表示人类大小基因组的1倍物理覆盖率。454-设备的当前能力带来在单次运行就可提供以50kb分辨率对人类基因组的20倍物理覆盖率,这与Tuzun等(2005)的F粘粒-配对-末端作图法相比在物理覆盖率的经济性和深度上有实质进步。
粘粒载体pSLGVT-36为2.6kb的载体,其包含卡那霉素选择标记、用于基因组DNA稳定增殖的低拷贝数的P15A复制起点和用于λ噬菌体包装的COS位点。通过位点定向诱变消除载体上限制性内切核酸酶FspB I和Csp6 I的切割位点,使得这些酶能够按照本发明方法由靶DNA插入物产生GVT和随后的GVT对。载体的靶DNA克隆位点侧接一对Roche Diagnostics的“Adaptor-A”和“Adaptor-B”序列,以使得能够利用454-Adaptor-A和454-Adaptor-B引物通过PCR回收所产生的GVT对。将Adaptor-A和Adaptor-B序列侧翼的回收的扩增GVT对通过乳液PCR(emulsion PCR)扩增以制备用于454-测序的模板。
操作上,将用于产生用于454-平台的45-50kb GVT对的靶DNA剪切成40-60kb的片段大小,并用T4-DNA聚合酶修复末端。将修复的靶DNA连接至pSLGVT-36载体。在线性化载体与靶DNA插入物的摩尔比相等和高DNA浓度(通常每ul总核酸含2-3ug以上)(驱动含载体和靶DNA片段交替的长串联体产生)下实现粘粒载体与靶DNA的连接。利用市售包装提取物(Stratagene,La Jolla,CA)将所连接的产物包装至噬菌体颗粒中。甲基化的靶DNA例如基因组DNA的增殖需要具有失活的mcr和mrr等位基因的宿主细胞菌株。适宜的宿主菌株包括:10G(Lucigen,Middleton,WI);XL1-Blue MR和XL2Blue MRF′(Stratagene,La Jolla,CA)。在卡那霉素选择下,将感染的细胞以约20,000-50,000个菌落/板的密度铺板到10cm直径琼脂板上,以产生初始粘粒文库,其包含在一侧被454-Adaptor-A侧接和另一侧被454-Adaptor-B侧接的平均45-50kb的靶DNA插入物。备选方法是在液体培养基中培养感染的细胞,同时小心不使细胞过度生长而促进不需要的克隆选择。处于培养中的克隆总数应反映出研究设计所需的GVT对数目。收获细胞,并分离粘粒,用于GVT制备。将带有靶DNA的纯化粘粒DNA用FspB I或Csp6 I消化至完全。将消化产物通过CHROMASPIN 1000(Clontech,Mountain View,CA)柱以除去大量的消化的靶DNA插入物。将流出的物质在琼脂糖凝胶上电泳。从凝胶中回收约2.6-3kb的DNA片段,其对应于具有两个连接的GVT的完整线状粘粒载体,所述两个连接的GVT对应于靶DNA的末端。将回收的物质稀释至低于25ng/ul,用于分子内连接以产生GVT对。通过再产生用于产生GVT的酶的限制性内切核酸酶位点来划分新并列的GVT的连接处。在分子上现为唯一的再产生的限制性位点在随后的数据分析中设定GVT对中的GVT的边界。通过使用Adaptor A和B引物进行DNA扩增,来从载体骨架中回收所得的GVT对。将454-Adaptor侧翼的扩增GVT对直接通过乳液PCR在珠粒上扩增,用于454-测序。
在本发明的范围和原理之内考虑用或不用体外病毒包装以及通过或不通过宿主细胞增殖步骤,制备GVT和具有其它空间间隔的GVT对。在后一种情况下,将在各个末端带有特异性454-Adaptor的靶DNA插入物克隆至合适的带有COS位点的DNA骨架中,然后使用市售包装提取物(Stratagene,La Jolla,CA)包装至噬菌体头部中。DNA骨架可用诸如生物素等纯化部分标记,以有助于亲和纯化所需DNA产物。将未包装的DNA用核酸酶降解,随之通过酚提取纯化保护的包装DNA。用合适的限制性内切核酸酶切割在所得环状DNA分子中的靶DNA,以产生包含具有连接的GVT的DNA骨架的线状分子。通过亲和色谱法纯化所需线状DNA。用DNA连接酶通过分子内连接将暴露的GVT末端重新环化,以产生GVT对以及在COS位点封闭DNA以产生稳定的环状分子。使用Adaptor-A引物和Adaptor-B引物从连接混合物中通过PCR回收GVT对,用于454-测序。
在454-平台由外向内拓补上制备具有45-50kb空间间隔的GVT对
当与噬菌体包装组合时,本发明范围和原理之内还考虑制备具有“由外向内”拓补的GVT对,这是由于其与Berka等(2006)(美国专利申请2006/0292611)和Kobel等(2007)所述的方法相关,所述方法中末端标记采取反向定向。
将粘粒载体pSLGVT-38或其衍生物用于从靶DNA群中制备具有所谓的“由外向内”拓补的45-50kb间距的GVT对,用于在454-平台上进行DNA测序。pSLGVT-38为2.6kb的载体,其包含卡那霉素选择标记、用于基因组DNA稳定增殖的低拷贝数的P15A复制起点和用于λ噬菌体包装的COS位点。通过位点定向诱变消除限制性内切核酸酶FspB I和Csp6 I在载体上的切割位点,使得这些酶能够按照本发明方法从任何靶DNA插入物中制备GVT和随后的GVT对。载体的靶DNA克隆位点侧接一对Roche Diagnostics的454-“Internal Adaptor-A”和454-“Internal Adaptor-B”序列,以使得能够利用454-Internal Adaptor-A和454-Internal Adaptor-B引物通过PCR回收所产生的GVT对。pSLGVT-38还在454-Internal Adaptor-A和454-Internal Adaptor-B的每一侧包含匹配的8个碱基稀有切割型限制性位点对,使得能够通过酶促消化回收GVT对和侧翼的Internal Adaptor序列。
操作上,将用于产生用于454-平台的45-50kb GVT对的靶DNA剪切成40-55kb的片段大小,并用T4-DNA聚合酶修复末端。将修复的靶DNA连接至pSLGVT-38载体。在线性化载体与靶DNA插入物的摩尔比相等和高DNA浓度(通常每ul总核酸含2-3ug以上)(驱动含载体和靶DNA片段交替的长串联体产生)下实现粘粒载体与靶DNA的连接。利用市售包装提取物(Stratagene,La Jolla,CA)将所连接的产物包装至噬菌体颗粒中。甲基化的靶DNA例如基因组DNA的增殖需要具有失活的mcr和mrr等位基因的宿主细胞菌株。适宜的宿主菌株包括:10G(Lucigen,Middleton,WI);XL1-Blue MR和XL2Blue MRF′(Stratagene,La Jolla,CA)。在卡那霉素选择下,将感染的细胞以约20,000-50,000个菌落/板的密度铺板到10cm直径琼脂板上,以产生初始粘粒文库,其包含在一侧被454-Internal Adaptor-A侧接和另一侧被454-Internal Adaptor-B侧接的平均45-50kb的靶DNA插入物。备选方法是在液体培养基中培养感染的细胞,同时小心不使细胞过度生长而促进不需要的克隆选择。处于培养中的克隆总数应反映出研究设计所需的GVT对数目。收获细胞,并分离粘粒,用于GVT制备。将带有靶DNA的纯化粘粒DNA用FspB I或Csp6 I消化至完全。将消化产物通过CHROMASPIN 1000(Clontech,Mountain View,CA)柱以除去大量的消化的靶DNA插入物。将流出的物质在琼脂糖凝胶上电泳。从凝胶中回收约2.6-3kb的DNA片段,其对应于具有两个连接的GVT的完整线状粘粒载体,所述两个连接的GVT对应于靶DNA的末端。将回收的物质稀释至低于25ng/ul,用于分子内连接以产生GVT对。通过再产生用于产生GVT的酶的限制性内切核酸酶位点来划分新并列的GVT的连接处。在分子上现为唯一的再产生的限制性位点在随后的数据分析中设定GVT对中的GVT的边界。通过使用454-Internal Adaptor-A和454-Internal Adaptor-B引物进行DNA扩增,来从载体骨架中回收所得的GVT对。通过Internal Adaptor将所得产物重新环化,然后用用于产生GVT的II型限制性内切核酸酶(FspB I或Csp6 I)消化。线状分子现包含具有“由外向内”拓补的GVT对,所述拓补中靶DNA插入物的最初末端在相对方向上与新连接的Internal Adaptor每一侧上的GVT相反。将如此产生的线状分子与454-Adaptor-A和454-Adaptor-B连接,用于在454-平台上测序。
在SOLiD平台上制备具有45-50kb空间间隔的GVT对
用于大规模并行DNA测序的Applied Biosystems的SOLiD平台基于DNA连接的序贯循环。通过该方法,将固定化的DNA模板在珠粒上克隆扩增,所述珠粒以高密度铺板至玻璃流通池的表面上,在所述流通池中进行测序。通过短限定标记的探针连接至一系列引物上的连续循环来实现序列测定,所述引物与固定化模板杂交。当前SOLiD设备运行包括超过2亿次单独50个碱基的读取。
尽管SOLiD平台在每次设备运行提供最大数量的碱基调用,但该平台被其短读取长度和在流通池中不具有可用于测序的两种模板链限制。因此,SOLiD平台的用于成对-末端-读取的“配对(mate-pair)”系统依赖于利用EcoP15 I消化产生一对短的25个碱基的DNA标签(每一个代表靶DNA的末端)和采取类似于Berka等(2006)(美国专利申请2006/0292611)和Kobel等(2007)的方法的“由外向内”拓补,以便产生内部DNA测序引物结合位点以测序标签对的另一个成员。由当前“配对”系统提供的标签之间的空间距离仅为数千碱基,并且可受益于本发明GVT对的45-50kb空间距离。
当与噬菌体包装组合时,在本发明范围和原理之内考虑制备具有“由外向内”拓补的GVT对,这是由于其与Berka等(2006)(美国专利申请2006/0292611)和Kobel等(2007)所述的方法相关,所述方法中末端标记采取反向定向。此外,本发明提供制备平均长度100-200个碱基的GVT的优势,该长度与现有配对系统利用EcoP15 I消化制备25个碱基的标签相比有相当大的进步。
将粘粒载体pSLGVT-37或其衍生物用于从靶DNA群中制备具有所谓的“由外向内”拓补的45-50kb间距的GVT对,用于在SOLiD平台上进行DNA测序。pSLGVT-37为2.6kb的载体,其包含卡那霉素选择标记、用于基因组DNA稳定增殖的低拷贝数的P15A复制起点和用于λ噬菌体包装的COS位点。通过位点定向诱变消除载体上的限制性内切核酸酶FspB I和Csp6 I切割位点,使得这些酶能够按照本发明方法从任何靶DNA插入物中制备GVT和随后的GVT对。载体的靶DNA克隆位点侧接一对Applied Biosystems(ABI)的“Internal Adaptor-A”和“Internal Adaptor-B”序列,以使得能够利用ABI-Internal Adaptor-A和ABI-Internal Adaptor-B引物通过PCR回收所产生的GVT对。pSLGVT-37还在ABI-Internal Adaptor-A和ABI-Internal Adaptor-B的每一侧包含配对的8碱基稀有切割型限制性位点,使得能够通过酶促消化回收GVT对和侧翼的Internal Adaptor序列(如果需要的话)。
操作上,将用于产生用于ABI SOLiD平台的45-50kb GVT对的靶DNA剪切成40-55kb的片段大小,并用T4-DNA聚合酶修复末端。将修复的靶DNA连接至pSLGVT-37载体。在线性化载体与靶DNA插入物的摩尔比相等和高DNA浓度(通常每ul总核酸含2-3ug以上)(驱动含载体和靶DNA片段交替的长串联体产生)下实现粘粒载体与靶DNA的连接。利用市售包装提取物(Stratagene,La Jolla,CA)将所连接的产物包装至噬菌体颗粒中。甲基化的靶DNA例如基因组DNA的增殖需要具有失活的mcr和mrr等位基因的宿主细胞菌株。适宜的宿主菌株包括:10G(Lucigen,Middleton,WI);XL1-Blue MR和XL2Blue MRF′(Stratagene,La Jolla,CA)。在卡那霉素选择下,将感染的细胞以约20,000-50,000个菌落/板的密度铺板到10cm直径琼脂板上,以产生初始粘粒文库,其包含在一侧被ABI-Internal Adaptor-A侧接和另一侧被ABI-Internal Adaptor-B侧接的平均45-50kb的靶DNA插入物。备选方法是在液体培养基中培养感染的细胞,同时小心不使细胞过度生长而促进不需要的克隆选择。处于培养中的克隆总数应反映出研究设计所需的GVT对数目。收获细胞,并分离粘粒,用于GVT制备。将带有靶DNA的纯化粘粒DNA用FspB I或Csp6 I消化至完全。将消化产物通过CHROMASPIN 1000(Clontech,Mountain View,CA)柱以除去大量的消化的靶DNA插入物。将流出的物质在琼脂糖凝胶上电泳。从凝胶中回收约2.6-3kb的DNA片段,其对应于具有两个连接的GVT的完整线状粘粒载体,所述两个连接的GVT对应于靶DNA的末端。将回收的物质稀释至低于25ng/ul,用于分子内连接以产生GVT对。通过再产生用于产生GVT的酶的限制性内切核酸酶位点来划分新并列的GVT的连接处。在分子上现为唯一的再产生的限制性位点在随后的数据分析中设定GVT对中的GVT的边界。通过使用ABI-Internal Adaptor-A和ABI-Internal Adaptor-B引物进行DNA扩增,来从载体骨架中回收所得的GVT对。通过Internal Adaptor将所得产物重新环化,然后用用于产生GVT的II型限制性内切核酸酶(FspB I或Csp6I)消化。线状分子包含具有“由外向内”拓补的GVT对,所述拓补中靶DNA插入物的最初末端在方向上现与新连接的Internal Adaptor每一侧上的GVT相反。将如此产生的线状分子与ABI-Adaptor-P1和454-Adaptor-P2连接,用于在ABI的SOLiD配对平台上测序。
在优选的实施方案中,本发明通过产生多个具有限定空间距离和方向的独特基因组位置标识符的GVT对,来鉴定靶基因组中的精细结构变化。所述多个GVT对共同表示受试者的基因组概况,当与参比序列或类似地产生的其它靶基因组的基因组概况比较时,其指示核酸群之间的精细结构差异存在。通过本发明可检测的基因组精细结构变化包括:缺失和插入、重复、倒位、易位和其它染色体重排。本发明提供在由实验设计规定的用户定义的分辨率水平下鉴定这些基因组特征的方法。
本发明提供数百个碱基平均长度的GVT的产生,所述长度仅由DNA测序平台的有效读取长度限制。假定四种碱基丰度均一且随机分布,SOLEXA平台的当前76个碱基的读取长度将预测该长度的序列会偶然地以平均每476碱基对出现一次,并且应代表人类和其它复杂基因组中的独特序列标识符。然而,在很多复杂基因组中存在四种碱基的不对等表现和大量的重复DNA区的存在,导致在实践中不能将该大小的短DNA标签的显著部分分配至独特基因组位置。将既定长度的GVT明确分配至基因组改善与第二个GVT的连接和其间隔距离的认识。例如,包含两个空间上连接的从大小分级分离的靶DNA群中制备的76bp GVT的GVT对有效地为152bp序列标签。尽管较长的有效标签长度,但仍然可能不能将许多GVT或GVT对分配至独特的基因组位置,例如完全处于非常长的重复基因组区之内的那些GVT对。然而,本发明在产生可作图的成对-末端-读取方面提供实质进步。预期不能通过本发明进行分析的区域非常少,这主要由于本发明制备具有40-50kb或更长间隔距离的GVT对的能力,所述间隔距离会跨越重复DNA的大多数定域区(localized region)。
在每个GVT对单体上存在的通用框架序列允许由高通量测序数据明确提取GVT对序列。利用MEGABLAST(Zhang等,2000)或类似的计算机程序通过比对揭示GVT对的图谱位置与一个或多个参比序列的图谱位置之间的不一致。GVT对间隔距离或方向与参比的不一致超过阈值水平预示在靶与参比DNA之间存在结构差异。阈值水平由实验设计设定,偏离平均GVT间隔距离两个标准差为合理的默认值。与参比序列相比,靶DNA中的缺失可由2个或更多个GVT对定义,所述GVT对跨越平均间隔距离的2个标准差以上。因此,靶DNA中的插入可定义为以下位置:其中与参比序列相比,两个或更多个GVT对跨越平均间隔的两个标准差以下。在靶DNA中的倒位被定义为以下位置:其中与参比序列相比两个或更多个GVT对的GVT方向不一致。将不一致的GVT对人工管理(curate)和评价,然后继续通过PCR、DNA印迹杂交分析或通过插入物分离和测序来验证。
本发明所用的靶基因组核酸可来源于任何来源,包括:真核生物、原核生物、微生物、质体和病毒的基因组DNA。靶基因组核酸还可以来源于生物的RNA基因组,例如通过逆转录过程将RNA转变为DNA的RNA病毒。用于研究的靶核酸的选择可受到在科学文献中描述的特定染色体或染色体区与某些疾病状况相关的现有知识影响。本发明可利用来自分离的染色体或染色体区的靶DNA。本发明可用于以一定范围的分辨率广泛地全基因组扫描患者人群以适合研究设计。用于纯化染色体、染色体区段以及基因组DNA和RNA的方法是本领域已知的。本领域还已知通过PCR或通过其它手段扩增核酸的方法,以产生用于本发明分析的靶DNA。
上文描述了切割靶DNA和分级分离靶DNA至所需大小的方法,用于设定GVT对的GVT之间的空间距离。流体动力剪切、自适应聚焦声学或用频繁切割的酶部分酶促消化DNA可用于产生具有高度重叠片段的DNA片段群,用于最大化地覆盖靶DNA的每个区。或者,可用数种限制性内切核酸酶在独立的切割反应中将靶DNA消化至完全,然后大小分级分离至用于GVT对制备所需的大小类别。由用单一限制性内切核酸酶完全消化制备的、经大小选择的靶DNA所产生的GVT对是非重叠的,并且仅覆盖了一部分靶DNA复杂性。用一种或多种其它限制性内切核酸酶完全酶促消化获得的、经大小选择的DNA片段可用于提供序列覆盖的重叠。实验的物理参数例如以覆盖既定复杂性的基因组的DNA片段化方法、GVT间隔距离和其组合、碱基组成或重复元件的分布,可由本领域技术人员用计算机建模,以得到最佳的研究设计。诸如BamH I、Hind III、Pst I、Spe I和Xba I等的酶对CpG甲基化不敏感,并预期会在每个位点切割哺乳动物基因组DNA,以产生准确代表那些酶的相邻识别位点对的GVT对。对CpG甲基化、重叠CpG甲基化或可影响本发明核酸分析的其它种类的DNA修饰的作用不敏感的其它适宜的酶已在文献(McClelland等,1994;Geier等,1979;Kan等,1979;Hattman等,1978;Buryanov等,1978;May等,1975)中和由主要的限制性内切核酸酶供应商(Fermentas,Hanover,MD;New England Biolabs,Ispwich,MA)描述。在某些实施方案中,其对靶DNA的切割对DNA修饰敏感的酶的应用可用于划分靶DNA中的外因基因组修饰位点。例如,本发明可鉴定已知调节基因表达的DNA甲基化位点。对于所述应用,用甲基化敏感的限制酶将靶DNA消化至完全,并由消化的DNA产生GVT对。通过所得GVT对在与参比序列上的相邻限制性位点相比时的不一致鉴定甲基化位点。
首先人工管理不一致的GVT对,之后进行一系列的分级过滤,用于验证。在其中不一致的GVT对由来源于完全限制性内切核酸酶消化的、经大小选择的DNA产生的情况下,用相同限制性内切核酸酶消化的靶DNA和参比DNA的DNA印迹分析可用于验证靶DNA和参比DNA之间的标记距离的差异。GVT的长度足以用作特异性PCR引物,以分离间插基因组序列用于鸟枪法测序,以确定结构变化的确切性质。
一般认为,结构变化的研究将进一步阐明复杂疾病,例如肥胖和糖尿病,这些疾病的发展由基因、遗传元件和环境的相互作用触发。用于本发明分析的核酸的选择可受到在科学文献中描述的特定染色体或染色体区与某些疾病状况相关的现有知识的影响。本发明可以高分辨率靶向来自分离的染色体或染色体区或组织样品的DNA。或者,本发明可用于以一定范围的分辨率广泛地全基因组扫描患者人群以适合研究设计。F粘粒配对-末端作图技术(Tuzun等,2005)需要超过2百万个常规Sanger双脱氧碱基测序读取以以中等的分辨率和覆盖率水平分析个体,由此限制了其扫描大群体的应用,所述大群体用于关联研究,以发现对疾病结果为诊断性或预后性的生物标记以及用于药物干预的潜在药物靶。本发明提供了这些限制的解决方法,因此,本发明具有产生新的医学诊断法和辅助药物发现的潜力。
在另一个优选实施方案中,将本发明鉴定的精细结构变化用于设计寡核苷酸阵列测定、微阵列测定、基于PCR的测定和本领域中的其它诊断测定,以检测核酸群之间的差异。本发明的微阵列和寡核苷酸阵列是用于检测核酸拷贝数改变以及单个或少数核苷酸多态性的有效平台,但不适于检测可促成或引起疾病的其它基因组改变。本发明的鉴定产物使得能够设计寡核苷酸和微阵列测定或本领域的其它诊断测定,以筛选划分本发明鉴定的精细结构变化的易位、插入、缺失和倒位连接处。然后这些测定可用于筛选一般群体和大的患者人群,以确定精细结构变化在复杂疾病中的作用,所述疾病例如为肥胖、糖尿病和许多癌症,这些疾病的发展由多种遗传和环境因素的相互作用引起。这些测定的其它应用包括但不限于诊断或区分在医学诊断学、系统发生学和工业微生物学领域中具有效用的生物的密切相关的物种、品系、品种或生物型。
在另一个优选实施方案中,本发明用于产生高分辨率基因组图谱,以有助于根据“鸟枪法DNA测序”从头基因组组装。鸟枪法测序由Sanger等(1977)提出,其中将基因组DNA随机片段化成小片段用于单独测序,之后将序列组装以构建基因组序列。对于复杂基因组,鸟枪法为受争议的,复杂基因组中由于重复序列可存在伪重叠。将两种方法用于处理复杂基因组。分级方法(hierarchical approach)包括产生中间大小克隆例如BAC的重叠集、选择这些克隆的覆瓦途径(tiling path)和随后使每个克隆经过鸟枪法测序。以该方式,大基因组被分解成较小的更“易管理的基因组”。第二种方法称为“全基因组鸟枪法”(WGS),其中使用计算机方法一举(in one fell swoop)直接从短重叠序列读取中产生完整基因组序列。两个进展使得WGS可行:(1)Edward等(1990)通过测序已知近似大小的插入物末端来提供两个序列读取之间的距离约束的连接信息,提出配对-末端读取的应用;和(2)能够利用成对-末端序列信息的组装算法的发展(Huang等,2006;Warren等,2006;Pop等,2004;Havlak等,2004;Jaffe等,2003;Mullikin和Ning,2003;Huang等,2003;Batzoglou等,2002;Pevzner和Tang,2001;Myers等,2000)。将克隆长度约束作为序列读取对之间可允许的距离提供给WGS组装程序。该信息对通过允许支架的构建来分辨重复序列是关键的,所述支架连接、排列和定向序列毗连群,用于增加所得序列组装的长范围邻接。Edwards等(1990)的质粒成对-末端-读取稍后由BAC成对-末端-读取补充以构建更加有序的支架(Warren等,2006;Zhao,2000;Mahairas等,1999)。然而尽管大量使用成对-末端-读取,但是多数基因组序列草图包含数千个错误组装(Salzberg和Yorke,2005)。组装错误源于以下问题的组合:软件缺陷、基因组中难以处理的重复区(difficult repeated region)、多数大基因组的二倍体性质和分辨率和覆盖率不足的支架。支架分辨率不足很大程度上源于得自质粒或BAC插入物的成对-末端-读取的不精确的距离,这是因为不可能确定使用当前实验方案测序的每一个克隆的大小。此外,构建的支架未针对所需的元件数和间距进行优化以得到必需的空间分辨率。本发明提供产生高分辨率支架的方法以使得能够进行基因组组装、尤其是从头组装未表征的基因组,所述未表征的基因组中通常没有可用的现有结构信息。具体而言,本发明提供制备GVT的改进方法,所述GVT在一个实施方案中表示Edward等(1990)、Zhao(2000)和Tuzun(2005)的经典成对-末端-读取的改良的功能等价物。与经典成对-末端-读取相比,GVT对具有使间距准确适合于任何所需构型的能力,更重要的是具有标记基因组中相邻限制性内切核酸酶位点的能力以提供对所得基因组组装的准确性的独立确证。GVT对适用于在常规的基于Sanger双脱氧碱基测序化学或新一代454-设备(Roche Diagnostics,Indianapolis,IN)、SOLEXA设备(Illumina,San Diego,CA)或SOLiD设备(Applied BioSystems,Foster City,CA)上进行高通量DNA测序,以提供对靶基因组的完全有成本效用的覆盖。因此,本发明提供一组综合的具有限定间隔距离或相邻限制性内切核酸酶位点的独特遗传标记,以促进全基因组鸟枪法测序工作。
预期本发明产生的、与人类基因组组装的当前版本(36版,2006年4月)不一致的大量GVT对实际上可能不表示靶DNA中的精细结构变化,而是反映了当前人类基因组组装中的错误或空位。使问题更复杂的是现行的基因组组装来源于合并的多个供体的DNA。需要来源于代表人类多样性范围的大量单个个体的参比序列,以推动基因组学领域前进。本发明提供的用途提供了经济地如此实施的方法。
在另一个优选的实施方案中,本发明用于产生高分辨率的基因组图谱以利于系统发生研究,和用于确定密切相关的生物之间的遗传和功能关系。尤其适于该应用的本发明一个方面利用由靶DNA产生的GVT对,所述靶DNA单独或者在对GVT对产生有用的组合中在没有DNA大小分级步骤的情况下用一种或多种限制性内切核酸酶消化至完全。基本上,如此产生的GVT对构成了含有位置标记对的基因组概况,所述位置标记沿着靶DNA长度划分相邻的限制性内切核酸酶位点。GVT对的同一性及其相对丰度可用于产生高分辨率基因组概况,该基因组概况可用于鉴定、区分和定量复杂医学或环境DNA分离物中的原始基因组。所产生的GVT对还可应用于工业微生物领域中,用于鉴定在遗传修饰生物的密切相关的品系、生物型或品种中引起理想性状的基因组差异,所述理想性状例如为有利的生长速率和产生有用的次级代谢物和重组蛋白。因此,本发明在由微生物或哺乳动物宿主细胞进行工业生产中可有助于菌株改良。本发明产生的高分辨率基因组图谱还提供了低成本和有效的方法来研究密切相关的病原体核酸,以鉴定变化区域,从而将详细的序列分析用于鉴定可用于诊断和可用作医学干预的药物靶的病原决定簇。
在另一个优选实施方案中,本发明可用于遗传解剖家畜和农业作物的表型多样性,以有利于标记物辅助育种。对于鉴定复杂遗传元件而言,家畜是特别受关注的,所述遗传元件有助于生长控制、能量代谢、发育、机体组成、生殖和行为以及通过经典育种探寻的其它性状。关于综述参见Andersson(2001)。大部分目标农业性状是多因素的,通常受未知数量的数量性状基因座(QTL)控制。基因组扫描的微卫星图谱已被开发用于主要家畜。使用这些标记的相关研究和候选基因方法是用于鉴定QTL的两种主要策略。QTL的克隆具有挑战性,因为基因型和表型之间的关系被认为比单基因性状更复杂。然而,有可能通过后代测验间接确定QTL,所述测验中利用来自子代之间的遗传标记和表型变化的数据来推断QTL的分离。目前,大部分QTL的分子基础仍是未知的。果蝇中的QTL作图提示,QTL经常与非编码区中的序列变化相关(MacKay,2001)。如在人中一样,预期家畜和作物基因组中的精细结构变化在表型表达以及基因组与环境的相互作用方面很可能起重要作用。本发明提供以低成本将家畜和作物中的广泛范围的基因组结构多样性制表的方法。然后,制表的信息将能够产生寡核苷酸微阵列和其它诊断平台,用于关联和连锁研究,以鉴定和表征导致标记物辅助育种的实际QTL。
作为主要的传粉者,蜜蜂在农业当中和世界上的许多地区起关键作用。养蜂是受益于本发明的另一个领域。蜜蜂是一种在经济上重要的物种,其适于在育种开发中使用遗传技术。蜜蜂传代时间短,产生大量子代。种系还容易通过人工精增殖。蜜蜂品系在生育性能、抗病性和行为性状方面表现出广泛的表型变化,所述性状中的许多受复杂的遗传控制。受遗传控制的重要行为性状包括:以许多非洲品系所例示的攻击性、觅食习性、产蜜量和所谓的“卫生”行为。“卫生”性状由至少7个尚未界定的基因座调节,这些基因座合在一起导致蜂房成员清除死亡或患病群体的清洁行为,作为针对真菌和螨侵袭的主要防御,真菌和螨是两种主要的蜜蜂经济性病原体。主要目标是开发可靠的诊断分子标记,这些标记可用于标记物辅助育种,以快速有效地鉴定所需子代品系,而无需复杂且耗时的育种试验和野外测试。本发明可使用意大利蜂(Apis mellifera)品系DH4的200兆碱基大小基因组的遗传图谱和参比序列(Weinstock,2006)来提供有效且低成本的方法,以高分辨率研究多个蜜蜂品系基因组的精细结构变化,从而将所需的表型与基因型相关联。成本有效地研究多个品系的能力是本发明提供的关键优势。
在另一个优选实施方案中,本发明可用于鉴定神经障碍和性状中潜在的遗传原因。一般认为,许多神经障碍(如孤独症、双相型障碍和精神分裂症)的至少一种组分具有复杂的非孟德尔遗传组分(Craddock和Jones,2001;Owen和Craddock,1996;Holzman和Matthysse,1990)。互补连锁和相关性研究目前用于鉴定基因组组分,本发明提供了评价基因组精细结构变化在神经障碍中的促进性作用的方法,并可产生用于诊断、预后和患者管理的新方法。
在另一个优选实施方案中,本发明可用于鉴定癌症中潜在的遗传原因,由此产生用于诊断、预后和治疗干预的方法。几乎所有的癌症都归因于DNA序列的异常,这些异常或者是遗传的,或者是通过生命当中的体细胞突变获得的。肿瘤生成的主要原则在于,累积的遗传和体细胞DNA突变与环境因素一起,将基因表达或基因功能改变得超过了允许克隆扩增、细胞侵入周围组织和启动转移的关键功能阈。在西方国家有1/3的人将罹患癌症,并且1/5将直接因该疾病而死亡,这使癌症成为最常见的遗传疾病。在历史上,该领域以鉴定有效的致癌基因或肿瘤阻抑基因开始,所述基因中由于基因座的少量核苷酸改变而简单失去或获得功能是癌症的主要促成因素。该领域后来扩展到基因剂量(gene dosage),其中导致基因拷贝数改变的DNA区段的重复或缺失是肿瘤发生的推测原因。阵列CGH对检测DNA拷贝数的改变以及癌细胞系和原发性肿瘤的杂合性的丧失特别有用。癌症中的拷贝数分析的全面综述和癌症中的体细胞突变目录以及其中的参考文献可参见Sanger Institute的“癌症基因组计划”(http://www.sanger.ac.uk/genetics/CGP/)。
最近,已认识到基因组精细结构变化在肿瘤发生中的重要作用。在肿瘤发生过程中,肿瘤基因组累积了大量重排,包括扩增、缺失、易位、倒位等,其中许多直接促成肿瘤进展(Gray和Collins,2000)。Volik等(2006)利用F粘粒配对-末端作图的变型,检测进展中的肿瘤的基因组结构的所有改变,尤其是不能通过阵列CGH检测的易位和倒位事件。他们解析乳腺癌基因组的尝试是最具信息性的,但被研究者公认受限于获得每个样品的大量BAC克隆的末端序列所需的费用和资源。本发明提供低成本的、高分辨率的方法来克服这些缺陷,并鉴定不适于通过阵列CGH检测的基因组精细结构变化。当与下一代DNA序列分析仪联用时,本发明成本足够低,使得能够用于广泛的癌症患者人群研究和用于跟踪个体患者的肿瘤进展中的基因组变化累积。跟踪肿瘤进展过程中的基因组变化的能力在临床结果上将具有意义深远的预测价值,提供了对患者治疗的显著改善。
应理解的是,已知本文公开内容的情况下,各种其它改变对本领域技术人员而言是显而易见的,并可容易地由这些人员作出,而不会背离本发明的范围和精神。
参考文献
本申请各处提及的以下文献以及所有其它文章、专利和已公开的申请都通过引用结合到本文中:
Albertson DG和Pinkel D,2003.Genomic microarrays in human genetic disease and cancer.Hum Mol Gen 12 Spec No 2:R145-R152.
Albertson DG等,2000.Quantitative mapping of amplicon structure by array CGH identifies CYP24 as a candidate oncogene.Nat Genet 25:144-146.
Andersson L,2001.Genetic dissection of phenotypic diversity in farm animals.Nat Rev 2:130-138.
Bailey AB等,2002.Recent segmental duplications in the human genome.Science 297:1003-1007.
Batzoglou S等,2002.ARACHNE:A whole-genome shotgun assembler.Genome Res 12:177-189.
Berka J等,2006.Paired end sequencing.美国专利申请号US 2006/0292611.
Bignell GR等,2004.High-resolution analysis of DNA copy number using oligonucleotide microarrays.Genome Res 14:287-295.
Bolivar F等,1977.Construction and characterization of new cloning vehicles.II multipurpose system.Gene 2:95-113.
Brennan C等,2004.High-resolution global profiling of genomic alterations with long oligonucleotide microarray.Cancer Res 64:4744-4748.
Bujnicki JM,2001.Understanding the evolution of restriction-modification systems:Clues from sequence and structure comparisons.Acta Biochimica Polonica 48:935-967.
Buryanov YI等,1978.Site specific and chromatographics properties of E coli K12 and Eco RII DNA-cytosine methylases.FEBS Lett 88:251-254.
Chang ACY和Cohen SN,1978.Construction and characterization of amplifiable multicopy DNA cloning vehicles derived from the P15A cryptic miniplasmid.J Bacteriology 134:1141-1156.
Check E,2005.Patchwork people.Nature 437:1084-1096.
Cheng Z等,2005.A genome-wide comparison of recent chimpanzee and human segmental duplications.Nature 437:88-93.
Collins FS等,1987.Construction of a general human chromosome-jumping library,with application in cystic fibrosis.Science 235:1046-1049.
Collins FS和Weissman SM,1984.Directional cloning of DNA fragments at a large distance from an initial probe:A circularization method.Proc Natl Acad Sci(USA)81:6812-6816.
Craddock N和Jones I,2001.Molecular genetics of bipolar disorder.Br J Psychiatry Suppl 41:S128-S133.
Deininger PL,1983.Random subcloning of sonicated DNA:Application to shotgun DNA sequence analysis.Analyt Biochem 129:216-223.
Dugaiczyk A等,1975.Ligation of Eco RI endonuclease-generated DNA fragments into linear and circular structures.J Mol Biol 96:171-178.
Dunn JL等,2002.Genomic signature tags(GSTs):A system for profiling genomics DNA.Genome Res 12:1756-1765.
Edwards A等,1990.Automated DNA sequencing of the human HPRT locus.Genomics 6:593-608.
Feng T等,2002.Increased efficiency of cloning large DNA fragments using a lower copy number plasmid.BioTechniques 32:992-998.
Feuk L等,2006.Structural variation in the human genome.Nature Rev 7:85-97.
Fitzgerald MC等,1992.Rapid shotgun cloning utilizing the two base recognition endonuclease CviJ I.Nuc Acid Res 20:3753-3762.
Geier GE和Modrich P,1979.Recognition sequence of the dam methylase of Escherichia coli K12 and mode of cleavage of Dpn I endonuclease.J Biol Chem 254:1408-1413.
Gonzalez E等,2005.The influence of CCL3L1 gene-containing segmental duplications on HIV-1/AIDS susceptibility.Science 307:1434-1440.
Gray JW和Collins C,2000.Genome changes and gene expression in human solid tumors.Carcinogenesis 21:443-452.
Grindley NDF和Joyce CM,1980.Genetic and DNA sequence analysis of the kanamycin resistance transposon Tn903.Proc Natl Acad Sci(USA)77:7176-7180.
Hamelin C和Yelle J,1990.Gel and buffer effects on the migration of DNA molecules in agarose.Appl Theor Electrophor 1:225-231.
Hattman S等,1978.Sequence specificity of the P1 modification methylase(M.Eco P1)and the DNA methylase(M.Eco dam)controlled by the Escherichia coli dam gene.J Mol Biol 126:367-380.
Havlak P等,2004.The atlas genome assembly system.Genome Res 14:721-732.
Hayashi K等,1986.Regulation of inter-and intermolecular ligation with T4 DNA ligase in the presence of polyethylene glycol.Nuc Acids Res 14:7617-7630.
Heffron F等,1978.In vitro mutagenesis of a circular DNA molecule by using synthetic restriction sites.Proc Natl Acad Sci(USA)74:6012-6016.
Heiskanen MA等,2000.Detection of gene amplification by genomic hybridization to cDNA microarrays.Cancer Res 60:799-802.
Holzman PS和Matthysse S,1990.The genetics of schizophrenia:A review.Pyschol Sci 1:179-286.
Huang J等,2004.Whole genome DNA copy number changes by high density oligonucleotides arrays.Hum Genomics 1:287-299.
Huang X等,2006.Application of a superword array in genome assembly.Nuc Acids Res 34:201-205.
Huang X等,2003.PCAP:A whole-genome assembly program.Genome Res 13:2164-2170.
Inazawa J等,2004.Comparative genomic hybridization (CGH)-arrays pave the way for identification of novel cancer-related genes.Cancer Sci 95:559-563.
Jaffe DB等,2003.Whole-genome sequence assembly for mammalian genomes:ARACHNE 2.Genome Res 13:91-96.
Kan NC等,1979.The nucleotide sequence recognized by the Escherichia coli K12 restriction and modification enzymes.J Mol Biol 130:191-209.
Kinzler KW等,1995.Method for serial analysis of gene expression.美国专利第5,695,937号(1997年12月9日授权).
Korbel JO等,2007.Paired-end mapping reveals extensive structure variation in the Human genome.Science 318:420-426.
Kozdroj J和van Elsas JD,2001.Structural diversity of microorganisms in chemically perturbed soil assessed by molecular and cytochemical approaches.J Microl Meth 43:187-212.
Lok S,2001.Methods for generating a continuous nucleotide sequence from non-contiguous nucleotide sequences.美国专利第6,730,500号(2004年5月4日授权).
Lucito R等,2003.Representational oligonucleotide microarray analysis:A high-resolution method to detect genome copy number variation.Genome Res 13:2291-2305.
Mackay TFC,2001.Quantitative trait loci in Drosophila.Nat Rev Genet 2:11-20.
Mahairas GG等,1999.Sequence-tagged connectors:A sequence approach to mapping and scanning the human genome.Proc Natl Acad Sci(USA)96:9739-9744.
Mardis ER,2008.Next-generation DNA sequencing methods.Annu Rev Genomics Hum Genet 9:387-402.
Margulies M等,2005.Genome sequencing in microfabricated high-density picrolitre reactors.Nature 437:376-380.
Matsumura H等,2003.Gene expression analysis of plant host-pathogen interactions by SuperSAGE.Proc Natl Acad Sci(USA)100:15718-15723.
May MA和Hattman S,1975.Analysis of bacteriophage deoxyribonucleic acid sequences methylated by host-and R-factor-controlled enzymes.J Bacteriology 123:768-770.
McClelland M等,1994.Effect of site-specific modification on endonucleases and DNA modification methyltransferases.Nuc Acids Res 22:3640-3659.
Mead,DA和Godiska R,2001.Cloning vectors and vector components.美国专利第6,709,861号(2004年3月23日授权).
Melgar E和Goldthwait DA,1968.Deoxyribonucleic acid nucleases:II.The effect of metals on the mechanism of action of deoxyribonuclease I.J Biol Chem 243:4409-4416.
Morozova O,Marra MA,2008.Applications of the next-generation sequencing technologies in functional genomics.Genomics 92:255-262.
Mullikin JC和Ning Z,2003.The PHUSION assembler.Genome Res 13:81-90.
Myers EW等,2000.A whole-genome assembly of Drosophila.Science 287:2196-21204.
Ng P等,2005.Gene identification signiture(GIS)analysis for transcriptome characterization and genome annotation.Nat Meth 2:105-111.
Owen MJ和Craddock N,1996.Modern molecular genetic approaches to complex traits:Implications for psychiatric disorders.Mol Psychiatry 1:21-26.
Pevzner PA和Tang H,2001.Fragment assembly with double-barreled data.Bioinformatics 17 Suppl 1:S225-S233.
Pheiffer BH和Zimmerman SB,1983.Polymer-stimulated ligation:Enhanced blunt-or cohesive-end ligation of DNA or deoxyribooligonucleotides by T4 DNA ligase in polymer solutions.Nuc Acids Res 11:7853-7871.
Pinkel D和Albertson DG,2005.Array comparative genomic hybridization and its application in cancer.Nat Genet Suppl 37:S11-S17.
Pinkel D等,1998.High resolution analysis of DNA copy number variation using comparative genomic hybridization to microarrays.Nat Genet 20:207-211.
Pinkel D等,1997.Comparative genomic hybridization.美国专利第6,159,685号(2000年12月12日授权).
Pinkel D等,1994.Comparative fluorescence hybridization to nucleic acid arrays.美国专利第5,830,645号(1998年11月3日授权).
Pollack JR等,2002.Microarray analysis reveals a major direct role of DNA copy number alternation in the transcriptional program of human breast tumors.Proc Natl Acad Sci(USA)99:12963-12968.
Pollack JR等,1999.Genome-wide analysis of DNA copy-number changes using cDNA microarrays.Nat Genet 23:41-46.
Pop M等,2004.Comparative genome assembly.Briefings in Bioinformatics 5:237-248.
Redon R等,2006.Global variation in copy number in the human genome.Nature 444:444-454.
Rouillard,J-M等,2001.Virtual genome scan:A tool for restriction landmark-based scanning of the human genome.Genome Res 11:1453-1459.
Saha S等,2002.Using the transcriptome to annotate the genome.Nat Biotech 19:508-512.
Salzberg SL和Yorke JA,2005.Beware of mis-assembled genomes.Bioinformatics 21:4320-4321.
Sanger F等,1977.DNA sequencing with chain terminating inhibitors.Proc Natl Acad Sci(USA)74:5463-5467.
Schloter M等,2000.Ecology and evolution of bacterial microdiversity.FEMS Micobiol Rev 21:647-660.
Schriefer LA等,1990.Low pressure DNA shearing:A method for random DNA sequence analysis.Nuc Acids Res 18:7455.
Sistla S和Rao DN,2004.S-adenosyl-L-methionine-dependent restriction enzymes.Crit Rev Biochem Mol Biol 39:1-19.
Snijders AM等,2001.Assembly of microarrays for genome-wide measurement of DNA copy numbers.Nat Genet 29:263-264.
Szybalski W,1997.Conditionally amplifiable BAC vector.美国专利第5,874,259号(1999年2月23日授权).
Szybalski E等,1991.Class-IIS restriction enzymes-A review.Gene 100:13-26.
Tao Q和Zhang,H-B,1998.Cloning and stable maintenance of DNA fragments over 300 kb in Escherichia coli with conventional plasmid-based vectors.Nuc Acids Res 21:4901-4909.
Tuzun E等,2005.Fine-scale structural variation of the human genome.Nat Genet 37:727-732.
Velculescu VE等,1995.Serial analysis of gene expression.Science 270:484-487.
Volik S等,2006.Decoding the fine-scale structure of a breast cancer genome and transcriptome.Genome Res 16:394-404.
Wang JC和Davidson N,1966.On the probability of ring closure of lambda DNA.J Mol Biol 19:469-482.
Warren RL等,2006.Physical map-assisted whole-genome shotgun sequence assemblies.Genome Res 16:768-775.
Wei C-L等,2004.5′long serial analysis of gene expression (LongSAGE)and 3′LongSAGE for transcriptome characterization and genome annotation.Proc Natl Acad Sci(USA)101:11701-11706.
Weinstock GM等,2006.Insights into social insects from the genome of the honeybee Apis mellifera.Nature 443:931-949.
Wimmer K等,2002.Combined restriction landmark genomic scanning and virtual genome scans identify a novel human homeobox gene,ALX3,that is hypermethylated in neuroblastoma.Genes Chromosomes & Cancer 33:285-294.
Zhang Z等,2000.A greedy algorithm for aligning DNA sequencing.J Computational Biol 7:203-214.
Zhao S,2000.Human BAC ends.Nuc Acids Res 28:129-132.
Zimmerman SB和Pheiffer BH,1983.Macromolecular crowding allows blunt-end ligation by DNA ligases from rat liver or Escherichia coli.Proc Natl Acad Sci(USA)80:5852-5856.