CN103180459B

CN103180459B - 3-d目的基因组区域的测序策略

Info

Publication number: CN103180459B
Application number: CN201180034117.6A
Authority: CN
Inventors: 马克斯·简·梵闵; 沃特·伦纳德·德拉特
Original assignee: Serrandis Co ltd; Koninklijke Nederlandse Akademie van Wetenschappen
Current assignee: Serrandis Co.,Ltd.
Priority date: 2010-07-09
Filing date: 2011-07-08
Publication date: 2016-10-19
Anticipated expiration: 2031-07-08
Also published as: SI2591125T1; IL256509A; KR101862756B1; ES2916339T3; EP3360975A1; PL3360975T3; BR112013000552A2; CY1121702T1; US20130183672A1; NZ606228A; AU2011274642A1; AU2011274642B2; EP2591125A2; WO2012005595A3; PL2591125T3; RU2603082C2; PT2591125T; CA2804450A1; JP5977234B2; LT2591125T

Abstract

本发明涉及测定包括靶核苷酸序列的目的基因组区域的序列的方法，包括将交联的DNA分段，连接分段的交联DNA，解除交联并测定包括靶核苷酸序列的连接的DNA片段的至少部分序列。

Description

3-D目的基因组区域的测序策略

技术领域

本发明涉及分子生物学领域，尤其涉及DNA技术。本发明更详细地涉及DNA测序。本发明涉及测定目的基因组区域的（部分）DNA序列的策略。具体地，本发明涉及测定互为立体构型的基因组部分的序列。本发明进一步涉及本发明方法在研发个性化诊断和医疗、筛选存在恶性肿瘤和其他病症的组织中的应用。

背景技术

已投入相当大的努力来研发用于测序的“靶向富集”策略，其中选择性捕获和/或选择性扩增DNA样品中基因组区域，随后进行测序（综述于Mamanova等,自然方法(Nature Methods),2010,(2):111-118）。基因组富集策略很重要，因为与全基因组分析相比，它们可以集中关注于特定基因组区域，其更具有时间和成本效益，并且分析难度更小。存在不同的基因组富集策略。例如，利用单个引物对进行PCR反应可扩增基因组区域，并因此富集基因组区域。然而，可产生的PCR产物的大小是有限的。目前可扩增的长PCR方案的上限是10-40kB（Cheng等,Proc Natl Acad Sci U S A,1994;91(12):5695-5699），但这些方法易于缺少稳定性，每个PCR都需要优化和验证，并且大小限度仍然有限。为了增加可扩增区域的大小和分析的稳定性，开发了使用特别针对目的基因组区域设计的多个PCR引物对的平铺方法(tiled approaches)。这些引物可用于例如多重PCR方法或RainDance PCR。各种酶方法（例如靶向环化）与该靶向扩增策略相匹配。其他方法涉及在阵列上或溶液中应用捕获探针，其中60-120bp长度的探针用于通过杂交捕获目的基因组区域。

上述实例明确地表明，为了富集目的基因组区域，前提是需要整个目的基因组区域的序列信息，因为需要用其设计探针和/或引物以捕获和/或扩增目的基因组区域。例如，为了富集30Mb序列，通常需要6000个单独的PCR。对于捕获探针，甚至需要更多的序列信息，因为至少需要多达250,000个120bp的探针并必须进行设计以捕获30Mb序列。通过使用覆盖大部分目的基因组区域的探针和/或引物的序列数据，这些分析是有偏倚的。它们不会选取与设计的模板序列偏离太多的序列，从而不会检测例如插入。另外，通常这些方法需要在分析前将DNA分段成一些100bp的序列。这意味着将目的基因组区域破碎成多段，造成信息丢失，尤其是(a.o.)关于目的区域内的重排。因此，需要偏倚更少的改进的基因组富集策略，其不需要几千个短序列并使中性假说能够完成目的区域的测序。

在哺乳动物核结构研究中，已开发了染色体构象捕获（3C/4C）分析法，用它可以分析基因组区域的结构组织（WO2007/004057，WO2008/08845）。这些技术涉及体内细胞交联（例如用甲醛），从而将包括DNA的染色质结构固定在其三维结构中。下一步，将染色质分段，例如使用限制性内切酶，随后连接交联的DNA片段。结果是连接相互接近的DNA片段。随后PCR扩增连接产物并分析连接的DNA片段的相互作用频率，其可表示片段的接近性。PCR扩增可基于目的基因组区域内的靶序列。与目的基因组的高频率相互作用表示接近的距离近，低频率相互作用表示接近的距离远。为了鉴定DNA片段，需要序列信息。该序列信息可通过用微阵列（包括探针）检测扩增的片段或通过对扩增片段的一小部分（通常，最少20-30bp足以鉴定基因组的相应位置）进行测序来提供。在任何情况下，鉴定的DNA片段的数量，即相互作用频率，表示片段与观察点的接近性，此信息可用于测定染色体内和染色体间的相互作用。

发明概述

目前发现将细胞内的DNA交联和分段，随后连接交联的DNA片段的方法，可为分析包括靶核苷酸序列的目的基因组区域，即靶核苷酸序列周围的线性染色体模板提供理想的起始点。本发明基于的构思是DNA的交联优选在线性染色体模板上与靶核苷酸序列接近的那些序列交联。例如，可用甲醛作为交联剂。交联之后，对DNA进行（酶）处理，即分段和连接，而DNA保持其交联状态。只有相互接近的交联片段可以连接。与包括靶核苷酸序列的DNA片段连接的DNA片段实际上代表包括所述靶核苷酸序列的目的基因组区域。这是因为染色体内交联的机会平均总是高于染色体间交联的频率。通常，不同片段交联的机会与线性距离反向关联。作为估计并取决于实际的交联状况，与目的靶核苷酸连接的20-30%片段位于靶核苷酸序列0.5Mb以内，而与目的靶核苷酸连接的50-80%片段来自包括所述靶核苷酸序列的染色体。通过使用一个或多个能识别靶核苷酸序列的寡核苷酸引物，可以扩增即富集包括靶核苷酸序列因而包括目的基因组区域的连接的DNA片段。随后用本领域公知的（高通量）测序技术测定目的基因组区域的序列。该方法偏倚不大，因为不需要大量的序列信息以集中关注目的基因组区域。例如，目的基因组区域可以包括目的等位基因。可选择不在目的等位基因序列内的靶核苷酸序列。然后用靶核苷酸序列扩增目的基因组区域，而不需要目的等位基因的序列信息。因此可富集目的等位基因，而不需要来自等位基因的任何序列。其效果是通过使用覆盖目的等位基因序列的寡核苷酸和/或探针，该富集方法是无偏倚的。另外，由于连接步骤涉及相互接近的片段的连接，该方法也可以对单独的等位基因做序列分析。例如，当交联的DNA样品包括多个等位基因（例如由于DNA样品来自异质细胞群，或由于倍性大于1），每个等位基因可有不同的基因组邻区。包括靶核苷酸序列的DNA片段将只与处于相同空间的DNA片段相互作用。因此连接的DNA片段代表了片段所来自的基因组环境。通过测定所有不同的DNA片段的至少部分序列，随后使用不同的连接的DNA片段的序列信息，可将DNA片段序列连在一起，并建立单独的目的基因组区域的序列。

定义

在以下的说明书和实施例中，用到许多术语。为了对说明书和权利要求书，包括这些术语的给定范围提供清楚和一致的理解，提供以下定义。除另有规定外，所有使用的技术和科学术语具有与本发明所属领域技术人员通常理解的相同的含义。所有出版物、专利申请、专利和其他参考文献以参阅的方式全文并入于此。

实施本发明方法所用的常规技术的方法对技术人员是显然的。分子生物学、生物化学、计算化学、细胞培养、重组DNA、生物信息学、基因组学、测序和相关领域的常规技术实践是本领域技术人员熟知的，并在例如以下引用文献中讨论：Sambrook等，分子克隆，实验室手册，第2版，冷泉港实验室出版社，冷泉港，N.Y.，1989(Sambrook et al.,Molecular Cloning.A Laboratory Manual,2ndEdition,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.,1989)；Ausubel等，现代分子生物学实验指南，John Wiley&Sons，纽约，1987和定期更新(Ausubel et al.,Current Protocols in MolecularBiology,John Wiley&Sons,New York,1987and periodic updates)；酶学方法系列，学术出版社，圣地亚哥(the series Methods inEnzymology,Academic Press,San Diego)。

除非上下文另有清晰表示，本文所用单数形式“一个”、“一种”和“所述”包括复数指示物。例如，如上所用，分离“一种”DNA分子的方法包括分离多个分子（例如，十、百、千、万、十万、百万或更多分子）。

本发明的“目的基因组区域”是生物体的DNA序列，需要测定至少部分DNA序列。例如，疑似包括与疾病有关的等位基因的基因组区域可以是目的基因组区域。本文所用术语“等位基因”是指特定基因座上基因的任何一个或多个替换形式。在生物体的二倍体细胞中，给定基因的等位基因位于特定位置，或染色体的基因座（多位点）。一个等位基因位于同源染色体对的每个染色体上。因此，在二倍体细胞中，可能存在两个等位基因和两个单独的（不同的）目的基因组区域。

本发明的“核酸”包括嘧啶和嘌呤碱基的任何聚合物或寡聚物，分别优选胞嘧啶、胸腺嘧啶和尿嘧啶，以及腺嘌呤和鸟嘌呤（参见Albert L.Lehninger，生物化学原理，793-800（Worth出版社1982）(Albert L.Lehninger,Principles of Biochemistry,at793-800(Worth Pub.1982))，为全部目的以参阅的方式全文并入于此）。本发明考虑任何脱氧核糖核苷酸、核糖核苷酸或肽核酸组分及其任何化学变体，例如这些碱基的甲基化、羟甲基化或糖基化形式等。这些聚合物或寡聚物在组成上可以是异源的或同源的，可以从天然存在的来源中分离也可人工或合成生产。另外，核酸可以是DNA或RNA，及其混合物，可以永久地或过渡地以单链或双链形式存在，包括同源双链、异源双链和杂化状态。

“样品DNA”是从生物体或生物体组织，或从组织和/或细胞培养中获得的样品，其包括DNA。来自生物体的样品DNA可从任何类型生物体中获得，例如微生物、病毒、植物、真菌、动物、人类和细菌或其结合。例如，来自疑似有细菌和/或病毒感染的人类患者中的组织样品可包括人类细胞，也包括病毒和/或细菌。样品可包括细胞和/或细胞核。样品DNA可来自患者或高危人群或疑似患有特定疾病的人，例如癌症或任何其他病症，以保证生物体DNA的研究。

本发明的“交联”是指DNA在两个不同的位置反应，从而这两个不同的位置可能会连接。两个不同位置的连接可以是直接地，在DNA链间形成共价键。两个DNA链可使用紫外线辐射直接交联，直接在DNA链间形成共价键。两个不同位置间的连接可以是经试剂例如交联剂分子间接地连接。第一DNA部分(section)可与包括两个反应基团的交联剂分子的第一反应基团连接，交联剂分子的第二反应基团可与第二DNA部分连接，从而将第一和第二DNA部分经交联剂分子间接地交联。也可经一个以上分子在两条DNA链间间接形成交联。例如，可用的典型的交联剂分子为甲醛。甲醛诱导蛋白质-蛋白质和DNA-蛋白质交联。因此甲醛可使不同的DNA链经它们的相关蛋白质相互交联。例如，甲醛可与蛋白质和DNA反应，经交联剂分子连接蛋白质和DNA。因此，用甲醛可使两个DNA部分交联，在第一DNA部分和蛋白质间形成连接，该蛋白质可与连接第二DNA部分的另一甲醛分子形成第二连接，因此形成交联，其可描述为DNA1-交联剂-蛋白质-交联剂-DNA2。在任何情况下，应当理解本发明的交联涉及在物理上相互接近的DNA链间形成的连接（直接或间接）。因为DNA是高度组织化的，所以细胞内的DNA链在物理上是相互接近的，然而与观察点的序列分离，例如100kb。只要交联方法适合随后的分段和连接步骤，这样的交联就可为本发明目的所考虑。

“交联的DNA样品”是经交联的DNA样品。交联样品DNA的效果是样品中DNA的三维状态保持基本完整。这样，物理上相互接近的DNA链保持相互邻近。

本发明的“解除交联”包括破坏交联以使已交联的DNA不再交联，并适用于随后的扩增和/或测序步骤。例如，对用甲醛交联的样品DNA进行蛋白酶K处理，将消化样品中存在的蛋白质。由于交联的DNA经蛋白质间接连接，蛋白酶处理本身就可以解除DNA间的交联。然而，保持与DNA连接的蛋白质片段会阻碍随后的测序和/或扩增。因此，解除DNA和蛋白质之间的连接可造成“解除交联”。可通过加热步骤解除DNA-交联剂-蛋白质连接，例如在70℃孵育。由于在样品DNA中存在大量蛋白质，通常需要另外用蛋白酶来消化蛋白。因此，可考虑任何“解除交联”的方法，即其中在交联样品中连接的DNA链可适用于测序和/或扩增。

“将DNA分段”包括任何应用于DNA时，产生DNA片段的技术，所述DNA可以是交联的或不交联的DNA，或任何其他DNA。本领域公知的技术是声波降解，剪切和/或限制性酶切，但其他技术也可以考虑。

“限制性内切核酸酶”或“限制性内切酶”是识别双链DNA分子中特异性核苷酸序列（识别位点）的酶，并可在每个识别位点或附近切割DNA分子双链，留下平头末端或3’-或5’-突出端。识别的特异性核苷酸序列可决定切割的频率，例如平均每4096个核苷酸会存在6个核苷酸的核苷酸序列，而平均每256个核苷酸上4个核苷酸的核苷酸序列存在的频率更高。

本发明的“连接”涉及单独的DNA片段的连接。DNA片段可以是平头末端，或有匹配的突出（粘性突出）以使突出能相互杂交。DNA片段可用连接酶、DNA连接酶进行酶法连接。然而，也可用非-酶连接，只要DNA片段被连接，即形成共价键。通常在单独链的羟基和磷酸基团之间形成磷酸二酯键。

通常，“寡核苷酸引物”是指可引导DNA合成的核苷酸链。没有引物则DNA聚合酶不能从头合成DNA。引物与DNA杂交，即形成碱基对。能形成碱基对的核苷酸是互补的，例如是胞嘧啶和鸟嘌呤、胸腺嘧啶和腺嘌呤、腺嘌呤和尿嘧啶、鸟嘌呤和尿嘧啶。引物和存在的DNA链之间的互补不需要是100%，即不是所有的引物碱基都必须与存在的DNA链形成碱基对。从引物的3’端与存在的DNA链杂交，用存在的链为模板整合核苷酸（模板定向DNA合成）。我们也可涉及在扩增反应中用作“引物”的合成的寡核苷酸分子。

“扩增”涉及多聚核苷酸扩增反应，也就是，从一个或多个起始序列复制的多聚核苷酸群。扩增可涉及多种扩增反应，包括但不限于聚合酶链反应（PCR）、线性聚合酶反应、依赖核酸序列的扩增，滚环扩增等反应。

“测序”涉及测定核酸样品中的核苷酸（碱基序列）顺序，例如DNA或RNA。许多技术是可行的，例如Sanger测序和高通量测序技术如由罗氏、Illumina和Applied Biosystems提供的。

所用术语“重叠群”与DNA序列分析相关联，涉及从两个或多个具有相邻核苷酸序列的DNA片段得到的重新组成的相邻DNA段。因此，重叠群可为一组重叠的DNA片段，其提供目的基因组区域的（部分）连续序列。当与参考序列比对时，重叠群也可以是形成连续核苷酸序列的一组DNA片段。例如，术语“重叠群”包括一系列（连接的）DNA片段，其排列方式为每个（连接的）DNA片段与至少一个相邻者有序列重叠。连接的或配对的（连接的）DNA片段可以用人工方式排列，或优选地用适当的计算机程序，例如FPC、PHRAP、CAP3等，也可分组为单独的重叠群。

“接头”是具有有限数目碱基对的短双链寡核苷酸分子，例如长度为约10至约30个碱基对(bp)，所述接头被设计为能够与片段末端相连。接头通常由两个合成的寡核苷酸组成，其具有部分互补的核苷酸序列。在合适的条件下将两个合成的寡核苷酸在溶液中混合，它们会相互复性形成双链结构。复性后，可设计接头分子的一个末端以使其与限制性片段匹配，并能够与其连接；可设计接头分子的另一末端以使其不能连接，但并不需要是下述情况，例如当接头在DNA片段间连接时。

“标识”是可加入到接头或引物或包含它的序列或其他用作标签的以提供唯一标识的短序列。该序列标识（或标签）可以是唯一的可变的碱基序列但限定长度，用于鉴定特定核酸样品的长度通常为4-16bp。例如4bp标签可有4（4次方）=256个不同的标签。典型的实例是ZIP序列，其是本领域公知的通常用作标签以通过杂交进行专门检测（lannone等，细胞计数（Cytometry）39:131-140,2000）。标识在本发明中很有用，因为通过使用这种标识，可通过进一步处理测定（PCR）样品的来源。对于结合来源于不同核酸样品的处理产物，用不同的标识可鉴定不同的核酸样品。例如，本发明使用高通量测序进行测序，可结合多个样品。标识有助于鉴定不同样品对应的序列。标识可包含在用于连接DNA片段的接头中，有助于DNA片段序列的鉴定。标识优选地彼此至少两个碱基对不同，并优选地不包括两个相同的连续碱基以避免错读。标识的功能有时可与其他功能物（例如接头或引物）结合。

本发明的“大小选择”涉及选择特定范围大小的分子，例如（连接的）DNA片段或扩增的（连接的）DNA片段的技术。所用的技术例如是凝胶电泳、分子排阻、凝胶提取色谱，但并不限于此，只要可以选择具有特定大小的分子的技术即可。

术语“进行比对”和“比对”是指基于存在短的或长的相同或相似的核苷酸段，比较两个或多个核苷酸序列。用于比对的方法和计算机程序是本领域公知的。可用于或适合比对的计算机程序是“Align2”，Genentech,Inc.等创制，其在美国版权局（华盛顿，D.C.20559）自1991年12月10日起以用户文档申请。

附图说明

图1显示本发明中测定目的基因组区域序列的方法示意图。该方法涉及：

（a）交联，其中例如通过它们的相关蛋白（例如组蛋白）而由甲醛固定来交联细胞核（N）内空间上邻近的DNA序列（通常是染色体（Ch）上接近的序列，例如相同基因的序列）。A、B、C、D和E表示目的基因组区域的5个假定的片段；

（b）下一步，将交联的样品DNA分段，例如用限制性内切酶进行消化（例如，常见的（4个）切割子（例如NlaIII）；

（c）连接交联的限制性片段以形成DNA环；

（d）解除交联后，用靠近或在目的基因组区域内的观察点的（反向）PCR引物集(primerset)进行扩增步骤，例如PCR。扩增并在基因组的残留物中富集与该观察点交联的片段（A、B、C、D和E）。

对扩增的片段测序，例如通过测序整个环（长读数），也可先将PCR扩增的材料分段以建立例如与Illumina或SOLiD测序匹配的测序库。

（e）下一步从读数中建立重叠群，将序列与参考基因组比对以鉴定基因变异。

图2显示有5个不同观察点（A、B、C、D和E）的BRCA1基因的示意图。黑色箭头表示正向。圆圈内箭头和数字表示基因序列上的位置。观察点E在基因的起点，观察点A在终点。观察点之间的间隔为大约15-25kB。

图3显示在制备用于BRCA1基因测序的交联的样品DNA过程中的DNA样品的凝胶电泳，如实施例所述。

（A）泳道M表示λ(lambda)DNA Pstl标志物DNA，泳道1显示无消化的对照，泳道2显示NlaIII第一次消化的对照，泳道3为NlaIII第一次消化后连接的连接对照，泳道4显示用Nspl第二次消化。

（B）泳道M表示λDNA Pstl标志物。泳道A、B、C、D和E显示不同DNA扩增的扩增产物，对应于实施例部分步骤67中的样品，并且对应图2所述的观察点。

发明详述

根据本发明的一个方面，提供测定包括靶核苷酸序列的目的基因组区域的序列的方法，所述方法包括将交联的DNA分段，连接分段的交联的DNA，解除交联并测定包括所述靶核苷酸序列的连接的DNA片段的至少部分序列，用测定的序列建立目的基因组区域的序列。

交联的DNA样品包括经过交联的样品DNA。交联存在于样品中的样品DNA结果是大部分保持DNA的三维结构。例如，可用的标准DNA交联剂是甲醛。可从患者和/或疾病组织中取得样品，也可从其他生物体或相同生物体的单独部分获得，如来自患者的样品、来自健康组织的样品和来自患病组织的样品。从而根据本发明分析样品，并与参考样品比较，或者分析不同的样品并相互比较。例如，从疑似患有乳腺癌的患者中获得疑似肿瘤的活组织检查。从非患病组织中获得另一活组织检查。根据本发明，对两个组织活检都进行分析。目的基因组区域可以是BRCA1和BRCA2基因，其基因长度为83和86kb（综述于Mazoyer，2005，人类突变（Human Mutation）25:415-422）。根据本发明通过测定目的基因组区域序列并将不同的活组织检查的基因组区域序列互相比较和/或与参考BRCA基因序列比较，可发现基因组突变，其有助于诊断患者和/或测定患者的治疗和/或预测疾病进展的预后。

通过将交联的DNA样品分段，由于它们是交联的，来源于目的基因组区域的DNA片段保持相互接近。随后连接这些交联的DNA片段时，将由于交联而相互接近的目的基因组区域的DNA片段被连接。该连接类型也称为接近连接。包括靶核苷酸序列的DNA片段可以和序列水平上在大线性距离内的DNA片段连接。通过测定包括含有靶核苷酸序列的片段的连接片段的（至少部分）序列，获得了目的基因组区域周围空间内的DNA片段的序列。每个单独靶核苷酸序列可能和多个其他的DNA片段交联。结果经常是一个以上的DNA片段与包括靶核苷酸序列的片段连接。通过与连接包括靶核苷酸序列的片段的（扩增的）连接的DNA片段的（部分）序列结合，可建立目的基因组区域的序列。连接包括靶核苷酸序列的片段的DNA片段可包括存在于连接的DNA片段中的任何片段。

涉及交联DNA，以及将DNA片段分段和连接的方法是本领域公知的（例如，WO2007/004057或WO2008/08845）。这些方法目的是鉴定不同DNA片段之间的相互作用频率，而不是鉴定与靶核苷酸序列相邻的片段的一级核苷酸序列。用4C检测相互作用频率的最初观点是仅仅需要短序列读数。根据染色体位置读数，绘制相互作用的短序列读数的频率。该绘图模式表示特定目的基因组区域是否可与基因组中的其他区域相互作用，或例如染色体间发生易位。例如，如果除包括靶核苷酸的序列外，还发现染色体上的高频率读数，则表示易位。本发明中，不测定相互作用的频率。本发明中目前认为事实上，通过将交联的DNA分段并随后连接DNA片段，捕获了靶核苷酸序列周围的基因组区域，测序时，可以重建基因组区域的重叠群。然而本领域公知的方法中，一直集中关注的是测定与靶核苷酸序列相互作用的短序列读数的频率，本发明集中关注的是测定整个或至少大部分连接的DNA片段的序列（包括靶核苷酸的DNA片段），由此从DNA片段序列和连接的DNA片段的结合中，可建立目的基因组区域的重叠群。

线性化的连接的片段

本发明的一个实施方案中，提供一种测定包括靶核苷酸序列的目的基因组区域的序列的方法，包括步骤：

a）提供交联的DNA样品；

b）将所述交联的DNA分段；

c）连接分段的交联DNA；

d）解除交联；

e）任选地将步骤d）的DNA分段，优选地用限制性内切酶分段；

f）任选地，将步骤d）或e）的分段的DNA与至少一个接头连接；

g）任选地，用与靶核苷酸序列杂交的至少一个寡核苷酸引物扩增步骤d）或e）的包括靶核苷酸序列的DNA，或用与至少一个接头杂交的至少一个另外的引物扩增步骤f）的DNA；

h）测定步骤d）、e）、f）或g）的包括靶核苷酸序列的（扩增的）连接的DNA片段的至少部分序列，优选用高通量测序；

i）从测定的序列中建立目的基因组区域的重叠群。

步骤a）中提供的交联的DNA的样品在本文别处概述。

步骤b）中将交联的DNA的样品分段。通过将交联的DNA分段，产生DNA片段，其通过交联结合在一起。分段步骤b）可包括声波降解，随后是酶法DNA末端修复。声波降解使DNA在随机位点分段，可以是平头末端，或有3’-或5’-突出，由于那些DNA断裂点随机产生，可进行DNA修复（酶法），填平可能的3’-或5’-突出，从而获得具有平头末端的DNA片段，可以使片段连接至接头和/或在随后的步骤c）中相互连接。可选地，可通过去除突出的核苷酸将突出制成平头末端，例如用外切核酸酶。分段步骤b）还可包括用一个或以上限制性内切酶及其组合进行分段。用限制性内切酶分段是有利的，因为它可以控制片段的平均大小。形成的片段具有匹配的突出或平头末端，其可以在随后的步骤c）中进行片段的连接。此外，将交联的DNA的样品分为多个子样品时，每个子样品中所用的限制性内切酶具有不同的识别位点。这是有利的，因为通过使用具有不同识别位点的不同限制性内切酶，可从每个子样品中获得不同的DNA片段。

在下一个步骤c）中，将片段连接。由于包括靶核苷酸序列的片段可以和多个其他的DNA片段交联，一个以上的DNA片段可与包括靶核苷酸序列的片段连接。由于它们通过交联结合在一起，这会造成相互接近的DNA片段的结合。在连接的DNA片段中形成不同结合和/或顺序的DNA片段。如果DNA片段是经限制性酶切获得的，限制性内切酶的识别位点是已知的，使鉴定残留的片段成为可能或重组的限制性内切酶识别位点可表明不同DNA片段之间的分离。如果DNA片段是经随机分段例如声波降解和随后的酶法DNA末端修复而获得的，可能更难将一个片段与另一个片段进行区分。无论应用什么分段方法，连接步骤c）可在接头存在下进行，连接片段之间的接头序列。可选地，可在单独的步骤中连接接头。这是有利的，因为通过鉴定位于片段之间的接头序列，能够很容易地鉴定不同的片段。例如，如果DNA片段末端是平头末端，接头序列会邻近每个DNA片段末端，表明单独的DNA片段之间的边界。之后，在步骤d）中解除交联，生成包括两个或多个片段的连接的DNA片段库。连接的DNA片段库的亚群包括含有靶核苷酸序列的DNA片段。由于交联的DNA可能不适用于这些步骤的底物，通过解除交联，释放了DNA在结构上/空间上的固定并使DNA序列可用于后续步骤，例如扩增和/或测序。可在交联解除后进行后续步骤e）和/或f），然而，步骤e）和/或f）也可在连接的DNA片段仍处于交联状态时进行。

任选地，步骤e）中将连接的DNA片段分段，优选用限制性内切酶。第一分段步骤和任选的第二分段步骤的目的是获得一定大小的在后续扩增步骤和/或序列测定步骤中匹配的连接的DNA片段。另外，第二分段步骤，优选使用酶，会产生连接的片段末端，其与步骤f）中任选的连接接头相匹配。可在交联解除后进行第二分段步骤，然而，也可在连接的DNA片段仍处于交联状态时进行第二分段步骤e）和/或连接步骤f）。

在分段步骤b）和e）包括限制性内切酶的情况下，优选步骤e）的限制性内切酶识别位点比步骤b）的识别位点长。因此e）的酶切割的频率低于步骤b）。这意味着限制DNA后步骤b）的平均DNA片段大小小于步骤e）的平均片段大小。这样一来，在第一分段步骤，形成相对小的片段，随后连接。由于步骤e）的第二限制性内切酶切割的频率少于步骤b），大多数DNA片段不包括步骤e）中的限制性识别位点。因此连接的DNA片段在随后第二步骤中分段时，步骤b）中的许多DNA片段保持完整。这是有用的，因为步骤b）中DNA片段的结合序列可用于建立目的基因组区域的重叠群。如果步骤b）的分段频率少于步骤c）的分段，结果是将步骤b）中的片段分段，其会造成用于建立重叠群的相对大的DNA序列的丢失。因此，无论步骤b）和e）中用哪种方法，优选地，与步骤e）相比步骤b）的分段更频繁，从而步骤b）中的DNA片段大部分保持完整，即大部分不会被步骤e）分段。

为了获得步骤d）或e）中连接的DNA片段，任选连接至少一个接头。连接的DNA片段的末端需要与该接头的连接匹配。由于步骤d）或e）的连接的DNA片段可为线性DNA，接头的连接可提供引物杂交序列。与包括靶核苷酸序列的连接的DNA片段连接的接头序列将提供可用PCR扩增的DNA分子。

在下一个步骤g）中，可用至少一个与靶核苷酸序列杂交的寡核苷酸引物和与至少一个接头杂交的至少一个另外的引物扩增步骤f）的包括靶核苷酸序列的DNA。由于连接接头的步骤f）是任选的，用至少一个与靶核苷酸序列杂交的寡核苷酸引物，也可在步骤g）中扩增步骤d）或e）的包括靶核苷酸的DNA。

之后，测定步骤d）、e）、f）或g）中获得的包括靶核苷酸序列的（扩增的）连接的DNA片段的序列。优选使用高通量测序技术测定序列，因为这更方便并可以测定大量序列以覆盖全部的基因组区域。从这些测定的序列中可建立目的基因组区域的重叠群。当测定DNA片段序列时，可从建立的目的基因组区域中获得重叠读数。如果DNA片段从随机分段中获得，分段步骤的随机性会造成测序时重叠读数的DNA片段。通过增加样品大小，例如增加分析细胞的数目，建立的目的基因组区域的可靠性会增加。可选地，当步骤b）中用不同的限制性内切酶分析大量子样品时，也会获得重叠读数。通过增加子样品数量，重叠片段的数目会增加，这可增加建立的目的基因组区域的重叠群的可靠性。从这些重叠的测定的序列中可建立重叠群。可选地，如果序列不重叠，例如，步骤b）中使用单个限制性内切酶，（连接的）DNA片段与参考序列的比对可以建立目的基因组区域的重叠群。

环化的连接的片段

在一个可选的实施方案中，提供一种测定包括靶核苷酸序列的目的基因组区域的序列的方法，包括步骤：

a）提供交联的DNA样品；

b）将所述交联的DNA分段；

c）连接分段的交联DNA；

d）解除交联；

f）将步骤d）或e）的DNA环化；

g）任选地和优选地，用优选的与靶核苷酸序列杂交的至少一个引物扩增包括靶核苷酸序列的环化DNA；

h）用高通量测序测定包括靶核苷酸序列的（扩增的）连接的DNA片段的至少部分序列；

i）从测定的序列中建立目的基因组区域的重叠群。

步骤a）中提供的交联的DNA的样品在本文别处概述。

步骤b）中将交联的DNA的样品分段。通过将交联的DNA分段，制备DNA片段，其通过交联结合在一起。分段步骤b）可包括声波降解，随后是酶法DNA末端修复。声波降解使DNA在随机位点分段，可以是平头末端，或有3’-或5’-突出，由于那些DNA断裂点随机产生，可进行DNA修复（酶法），填平可能的3’-或5’-突出，从而获得具有平头末端的DNA片段，可以使片段连接至接头或在随后的步骤c）中相互连接。可选地，可通过去除突出的核苷酸将突出制成平头末端，例如用外切核酸酶。分段步骤b）还可包括用一种限制性内切酶及其组合进行分段。用限制性内切酶分段是有利的，因为它可以控制片段的平均大小。此外，形成的片段将具有匹配的突出或平头末端，其可以在随后的步骤c）中进行片段的连接而无需进一步修饰。此外，将交联的DNA的样品分为多个子样品时，每个子样品中所用的限制性内切酶具有不同的识别位点。这是有利的，因为通过使用具有不同识别位点的不同的限制性内切酶，可从每个子样品中获得不同的DNA片段。

在下一个步骤c）中，将片段连接。如果DNA片段是经限制性酶切获得的，限制性内切酶的识别位点是已知的，使鉴定残留的片段成为可能或重组的限制性内切酶识别位点可表明不同DNA片段之间的分离。如果DNA片段是经随机分段例如声波裂解和随后的酶法DNA末端修复而获得的，可能更难将一个片段与另一个片段进行区分。无论应用什么分段方法，连接步骤c）可在接头存在下进行，连接片段之间的接头序列。可选地，可在单独的步骤中连接接头。这是有利的，因为通过鉴定位于片段之间的接头序列，能够很容易地鉴定不同的片段。例如，如果DNA片段末端是平头末端，接头序列会邻近DNA片段末端，表明了单独的DNA片段。

之后，在步骤d）中解除交联，产生包括两个或多个片段的连接的DNA片段库。连接的DNA片段库的亚群包括含有靶核苷酸序列的DNA片段。由于交联的DNA可能不适用于这些步骤的底物，通过解除交联，释放了DNA在结构上/空间上的固定并使DNA序列可用于后续步骤，例如扩增和/或测序。可在交联解除后进行后续步骤e）和/或f），然而，步骤e）和/或f）也可在连接的DNA片段仍处于交联状态时进行。

任选地，步骤e）中将连接的DNA片段分段，优选用限制性内切酶。在解除交联后进行分段，但也可设想在解除交联前进行第二分段。由于限制性内切酶可以控制分段步骤和结果，优选用限制性内切酶分段，如果选择合适的限制性内切酶，使得连接的DNA片段的匹配末端有利于匹配末端的连接，产生如步骤f）中获得的环化连接的DNA片段。然而，用其他方法分段，例如，剪切和/或声波降解和随后酶法DNA末端修复，从而形成平头末端双链DNA也可连接形成环化DNA。

第一分段步骤和任选的第二分段步骤的目的是获得在后续环化、扩增步骤和/或序列测定步骤中匹配的连接的DNA片段。如果分段步骤b）和e）包括限制性内切酶，优选地，相比分段步骤b）获得的片段，分段步骤e）可产生平均更长的片段。

在分段步骤b）和e）包括限制性内切酶的情况下，优选步骤e）的限制性内切酶识别位点比步骤b）的识别位点长。因此e）的酶切割的频率低于步骤b）。这意味着限制DNA后的步骤b）的平均DNA片段大小小于步骤e）的平均片段大小。这样一来，在第一分段步骤，形成相对小的片段，随后连接。由于步骤e）的第二限制性内切酶切割的频率少于步骤b），大多数DNA片段不包括步骤e）中的限制性识别位点。因此连接的DNA片段在随后第二步骤中分段时，步骤b）中的许多DNA片段保持完整。这是有用的，因为步骤b）中DNA片段的结合序列可用于建立目的基因组区域的重叠群。如果步骤b）的分段频率少于步骤c）的分段，结果是将步骤b）中的片段分段，其会造成用于建立重叠群的相对大的DNA序列的丢失。因此，无论步骤b）和e）中用哪种方法，优选地，与步骤e）相比，步骤b）的分段更频繁，从而步骤b）中的DNA片段大部分保持完整，即大部分不会被步骤e）分段。

之后将步骤d）或e）获得的已经解除交联的连接的DNA片段在步骤f）中环化。在环化前解除交联是有利的，因为在交联时环化交联的DNA是不利的。然而，在连接的DNA片段进行交联时，也可进行环化。也可能不需要另外的环化步骤，因为在连接步骤中，已经形成环化的连接的DNA片段，从而环化步骤f）和步骤c）可能同时发生。然而，优选进行另外的环化步骤。环化涉及连接的DNA片段末端的连接，从而形成闭合的环。随后可用至少一个与靶核苷酸序列杂交的引物扩增包括靶核苷酸序列的连接的DNA片段的环化DNA。对于扩增步骤，需要解除交联，因为交联的DNA会妨碍或阻止扩增。优选使用两种在反向PCR反应中与靶核苷酸序列杂交的引物。这样，可扩增与包括靶核苷酸序列的DNA片段连接的环化DNA的DNA片段。

之后，测定步骤d）、e）、f）或g）中获得的包括靶核苷酸序列的（扩增的）连接的DNA片段的序列。优选使用高通量测序技术测定序列，因为这更方便并可以测定大量序列以覆盖全部的基因组区域。从这些测定的序列中可建立目的基因组区域的重叠群。当测定DNA片段序列时，可从建立的目的基因组区域中获得重叠读数。如果DNA片段从随机分段中获得，分段步骤的随机性会造成测序时重叠读数的DNA片段。通过增加样品大小，例如增加分析细胞的数目，可增加建立的目的基因组区域的可靠性。可选地，当步骤b）中用不同的限制性内切酶分析大量子样品时，也会获得重叠读数。通过增加子样品数量，重叠片段的数目会增加，这可增加建立的目的基因组区域的重叠群的可靠性。从这些重叠的测定的序列中可建立重叠群。可选地，如果序列不重叠，例如，步骤b）中用单个限制性内切酶，（连接的）DNA片段与参考序列的比对可建立目的基因组区域的重叠群。

多个靶序列

在一个实施方案中，提供一种测定包括两个靶核苷酸序列的目的基因组区域的序列的方法。该方法涉及与上述概述同样的步骤直至扩增步骤。该扩增步骤不是用一个靶核苷酸序列，而是两个。对于两个靶核苷酸序列，在PCR反应中用两个不同的引物，一个引物对应各自的靶核苷酸序列。当两个靶核苷酸序列的两个引物结合位点存在于连接的DNA片段时，假如引物结合位点有正确的方向，两个引物将在两个引物结合位点之间的位置内扩增序列。具有环化的连接的DNA片段是有利的，因为具有正确的方向的两个引物结合位点的几率比线性连接的DNA片段更高（与线性连接的DNA片段中四个中的一个相比，四个方向中两个将扩增）。在另一实施方案中，除了两个靶核苷酸序列，目的基因组区域包括进一步的靶核苷酸序列，在PCR扩增反应中，每个靶核苷酸使用一种引物。通过结合多个靶核苷酸和单个扩增中对应的引物将增加引物结合产生扩增子的几率。

例如，如实施例部分所述，5个不同的靶核苷酸用于BRCA1基因（参见例如图2）。通过选择一个靶核苷酸序列的一种引物进行PCR扩增（也指观察点），例如A和另一个B。也可用每个靶核苷酸序列A、B、C、D和E的引物进行PCR。由于这些靶核苷酸在物理上是相互接近的，进行此扩增会富集目的基因组区域，假如引物结合位点在连接的DNA片段终止，这样会产生扩增子。

因此，本发明提供测定目的基因组区域的序列的方法，其中目的基因组区域包括另外一个或多个靶核苷酸序列，并且其中在扩增步骤提供与靶核苷酸序列杂交的引物和提供与一个或多个的另外的靶核苷酸对应的一个或多个的引物，其中使用引物扩增线性DNA片段或扩增环化DNA。

测定连接的DNA片段的序列

测定连接的DNA片段的序列的步骤，优选包括高通量测序。高通量测序方法是本领域公知的，原则上可考虑任何方法应用于本发明。可根据厂商说明书（例如由罗氏、Illumina和Applied Biosystems提供的）进行高通量测序技术。通常，将测序接头连接至（扩增的）连接的DNA片段。在用例如本文所述的PCR扩增线性或环化片段的情况下，扩增的产物是线性的，使得接头可以连接。可提供合适的末端（例如平头，互补的粘性末端）用于连接接头序列。可选地，用于PCR或其他扩增方法的引物可包括接头序列，从而在扩增步骤g）中形成具有接头序列的扩增产物。如果环化的片段没有被扩增，可将环化片段分段，优选通过使用例如反向PCR反应中引物结合位点之间的限制性内切酶分段，这样与包括靶核苷酸序列的DNA片段连接的DNA片段保持完整。测序接头可包含在本发明方法的步骤c）和f）中。这些测序接头可以是包含在任选的已用于这些步骤的接头中的部分接头序列和/或在这些步骤中另外提供的单独序列接头。

优选在高通量方法中产生长读数。长读数可读取连接的DNA片段的多个DNA片段。这样，可鉴定步骤b）的DNA片段。将DNA片段序列与参考序列比较和/或相互比较。例如，也在后文说明，该DNA片段序列可用于测定带有基因突变的细胞的片段的几率。通过对邻近该序列的DNA片段的DNA片段序列进行测序，可鉴定唯一的连接的DNA片段。尤其是步骤b）中由随机分段获得的DNA片段的情况。两个细胞将提供完全一样的DNA片段的几率非常小，更不必说该片段连接的DNA片段的末端将是相同的。因此通过这种方式鉴定DNA片段，可测定包括特定突变的细胞和/或基因组区域的比率。

因此，不需要提供连接的DNA片段的全序列。优选至少测序（多个）DNA片段，由此测定DNA片段序列。

也可考虑读取更短序列，例如50-100个核苷酸的短读数。在此方案中，优选将（扩增的）连接的DNA分段成更小的片段，其随后与适合于高通量测序方法的适当的接头相连。如果用标准测序方法，意味着可能丢失关于连接的DNA片段的信息。以短读数不可能鉴定全DNA片段序列。如果考虑该短读数，可设想提供另外的处理步骤这样分段时单独的DNA片段与标识连接或装配，由此从短读数中为连接的DNA片段建立重叠群。这种涉及短序列读数的高通量测序技术会涉及成对的末端测序。通过使用成对的末端测序和短序列读数，来自用于测序的DNA分子的两个末端的短读数可使连接的DNA片段结合，所述DNA分子可包括不同的DNA片段。这是因为相对于来自两末端测定序列，两个序列读数可结合生成相对大的DNA序列。这样，可为（扩增的）连接的DNA片段建立重叠群。

然而，不鉴定DNA片段时应考虑短读数，因为可从短序列读数中建立目的基因组区域，尤其是已扩增了目的基因组区域时。关于DNA片段和/或单独的目的基因组区域（例如二倍体细胞的）的信息可能会丢失，但仍可鉴定DNA突变。

因此，测定（扩增的）连接的DNA序列的至少部分序列的步骤包括短序列读数，优选测定长序列读数从而可鉴定DNA片段序列。另外，对于（扩增的）连接的DNA片段，可考虑用不同的高通量测序策略，例如，将具有相对远离的末端的成对末端测序的短序列读数与更长序列读数结合，这样，可为（扩增的）连接的DNA片段建立重叠群。

在一个实施方案中，本发明用于提供对产生的序列信息的质量控制。由高通量测序方法提供的序列分析中，会发生测序误差。例如测序误差可发生在DNA链延伸中，其中错误的（即与模板非互补）碱基合并入DNA链中。测序误差与突变不同，因为进行扩增和/或测序的原始DNA不包括突变。根据本发明，可测定连接有DNA片段的（至少部分）序列的DNA片段序列，其序列是唯一的。步骤c）中形成的连接的DNA片段的唯一性可为测定步骤h）中的序列提供质量控制。在以足够深度扩增和测序连接的DNA片段时，将会对相同的唯一的（连接的）DNA片段的多个拷贝进行测序。比较来源于相同的原始的连接DNA片段的拷贝序列并鉴定扩增和/或测序误差。

进一步的实施方案

此外，根据本发明的方法，从交联的DNA样品中测定多个目的基因组区域的序列。每个目的基因组区域提供一种靶核苷酸序列，并设计对应的引物。多个目的基因组区域可以是重叠的目的基因组区域，从而增加测定的序列的大小。例如，如果包括靶核苷酸序列的目的基因组区域的序列通常包括1MB，将部分重叠的目的基因组区域例如0.1MB的重叠结合，每个都具有对应的靶核苷酸序列，将5个目的基因组区域结合会产生4.6MB的序列（0.9+3×(0.1+0.8)+0.1+0.9=4.6MB），从而延长目的基因组区域的测定的或分析的序列的大小。目的基因组区域中限定距离内的多个靶核苷酸序列也可用于增加基因组区域内的平均覆盖和/或均匀覆盖。

另外，步骤g）的至少一个寡核苷酸引物可包含标识。在所述连接步骤c）中用于连接片段间的接头序列也可包含标识。通过在寡核苷酸引物内引入标识，在同时分析交联DNA的多个样品或多个子样品时，可很容易地测定每个样品的来源。当交联的DNA的原始样品相同时，和/或例如从不同的生物体或患者获得DNA样品，可对交联DNA的（子）样品进行不同处理。集中处理样品时，标识可以结合不同处理的样品，例如，进行相同的程序步骤。测序步骤h）涉及高通量测序时，该集中处理是特别有利的。

根据本发明，在扩增步骤g）之前或之后，可进行大小选择步骤。用凝胶提取色谱、凝胶电泳或密度梯度离心进行该大小选择步骤，这些方法是本领域公知的。优选地，选择DNA的大小在20-200000bp(basepair)之间，优选地在50-100000bp之间，更有选地在100-3000bp之间。大小分离步骤可以选择一定大小范围内的（扩增的）连接的DNA片段，其对PCR扩增和/或下一步测序中的长读数测序是最佳的。目前500个核苷酸的测序读数是商业化的，一些公司已有最新进展，例如太平洋生物科学公司（http://www.pacificbiosciences.com/）开发的单分子实时（SMRT^TM）DNA测序技术表明可以达到1.000至10,000核苷酸读数。

如果细胞中目的基因组区域的倍性大于1，在本发明方法的步骤h）中为每个倍性建立重叠群。由于基因组中给定靶点的基因组环境主要由线性染色体模板上物理上接近靶序列的DNA基因组序列组成，它可允许每个特定染色体模板重构。如果目的基因组区域的倍性大于1，细胞内（或其等价物）存在多个目的染色体区域。通常这些多个目的基因组区域不占用共同的空间，即它们在空间内是分离的。将该细胞的交联DNA样品分段时，从细胞内每个目的基因组区域中形成包括靶核苷酸序列的对应的DNA片段。这些DNA片段各自连接和它们接近的DNA片段。连接的DNA片段代表不同的目的基因组区域。例如，如果倍性是2，会发现各自具有唯一突变并分离成1MB的两个片段在DNA片段中连接在一起，可得出结论，这两个片段来自相同的目的基因组区域。因此，在该方案中，鉴定了两个片段，它们分配在相同的基因组区域。因此，从相同的片段序列建立重叠群时，这两个带有突变的片段可为特定基因组区域建立重叠群，而为另一基因组区域建立的重叠群不带有突变。

因此，根据本发明方法，建立重叠群的步骤h）包括以下步骤：

1）鉴定步骤b）的片段；

2）将片段分配至基因组区域；

3）从片段的序列中为基因组区域建立重叠群。

同样，当存在三个包括唯一突变的片段（A*、B*和C*），并且目的基因组的倍性是2。此次，鉴定包括两个突变片段的连接产物，一个连接产物包括A*B*，一个为A*C*。同样，包括非突变的连接产物，片段鉴定为BC和AC。在该方案中，连接的DNA片段A*B*和A*C*由片段A*连结，连接的DNA片段BC和AC由片段C连结。在该方案中，将DNA片段A*、B*和C*分配至相同的基因组区域，A、B和C分配至另一个基因组区域。因此，相应地，将片段分配至基因组区域的步骤2）包括鉴定不同的连接产物并连结包括DNA片段的不同连接产物。

同样，其可应用于异质细胞群。例如，提供包括异质细胞群（例如，不同来源的细胞或源自包括正常细胞和基因突变细胞(如癌细胞)的生物体细胞）的交联DNA的样品，为每个对应不同基因组环境（例如其可为细胞内的不同基因组环境或不同细胞的不同基因组环境）的目的基因组区域建立重叠群。

鉴定突变

在一个可选的实施方案中，提供用于鉴定存在或不存在基因突变的方法。

在第一个实施方案中，提供用于鉴定存在或不存在基因突变的方法，包括本发明上述任何方法的步骤a）-h），其中为多个样品建立重叠群，还包括以下步骤：

i）比对多个样品的重叠群；

j）鉴定多个样品的目的基因组区域中存在或不存在基因突变。

可选地，提供用于鉴定存在或不存在基因突变的方法，包括本发明上述任何方法的步骤a）-g），还包括以下步骤：

i）比对重叠群和参考序列；

j）鉴定目的基因组区域中存在或不存在基因突变。

例如，通过比较多个样品的重叠群鉴定基因突变，如果一个（或多个）样品包括基因突变，则可观察到，因为在与另一样品序列比较时，重叠群的序列是不同的，即鉴定存在基因突变。如果观察到样品的重叠群之间没有不同的序列，则鉴定不存在基因突变。可选地，可用参考序列比对重叠群的序列。如果样品的重叠群的序列与参考序列的序列不同，可观察到基因突变，即鉴定存在基因突变。如果观察到样品的重叠群和参考序列之间没有不同的序列，鉴定不存在基因突变。

不需要为鉴定存在或不存在基因突变建立重叠群。只要DNA片段序列可相互或与参考序列比对，就可鉴定存在或不存在基因突变。因此，在本发明可选的实施方案中，根据上述任何方法，提供鉴定存在或不存在基因突变的方法，无需建立重叠群的步骤h）。

该方法包括上述任何方法的步骤a）-g），还包括以下步骤：

h）比对测定的（扩增的）连接的DNA片段序列和参考序列；

i）鉴定测定的序列中存在或不存在基因突变。

可选地，提供鉴定存在或不存在基因突变的方法，其中测定大量的（扩增的）连接的DNA的样品序列，包括上述任何方法的步骤a）-g），还包括以下步骤：

h）比对大量样品的（扩增的）连接的DNA片段的测定的序列；

i）鉴定测定的序列中存在或不存在基因突变。

带有基因突变的等位基因或细胞的比率

如上所述，提供来自异质细胞群（例如，不同来源的细胞或源自包括正常细胞和基因突变细胞(如癌细胞)的生物体细胞）的交联DNA的样品，为每个对应不同基因组环境（例如细胞内的不同基因组环境或不同细胞的不同基因组环境）的目的基因组区域建立重叠群。另外，可测定带有基因突变的片段或连接的DNA片段的比率，其与带有基因突变的等位基因或细胞的比率相关联。DNA片段的连接是随机的过程，连接的DNA片段的部分DNA片段的收集和顺序是唯一的并代表单个细胞和/或细胞的单个目的基因组区域。而且，如果分段步骤b）包括随机的分段过程，例如声波降解，DNA的断裂点可提供另外的唯一的特征，尤其是在与其连接的另一个DNA片段的背景中（其也有唯一的片段末端）。

因此，鉴定包括基因突变片段的连接的DNA片段也包括鉴定有唯一顺序的连接的DNA片段和DNA片段的收集。带有基因突变的等位基因或细胞的比率在评价治疗中是重要的，例如，患者正经历癌症治疗的情况。癌细胞带有特定的基因突变。带有该突变的细胞的百分比可测量治疗的成功或失败。在可选的实施方案中，提供测定带有基因突变的片段的比率和/或带有基因突变的连接的DNA片段的比率。在该实施方案中，基因突变限定为特定基因突变或特定基因突变的选择。

在第一个实施方案中，提供测定带有源自疑似异质细胞群的基因突变的片段的比率的方法，包括上述任何方法的步骤a）-h），还包括以下步骤：

i）鉴定步骤b）的片段；

j）鉴定片段中存在或不存在基因突变；

k）测定带有基因突变的片段的数目；

l）测定不带有基因突变的片段的数目；

m）计算带有基因突变的片段的比率。

在可选的实施方案中，提供测定带有包含源自疑似异质细胞群的基因突变的片段的连接产物的比率的方法，包括上述任何方法的步骤a）-h），还包括以下步骤：

i）鉴定步骤b）的片段；

j）鉴定片段中存在或不存在基因突变；

k）鉴定步骤f）的带有包含或不包含基因突变的片段的连接产物；

l）测定带有包含基因突变的片段的连接产物的数目；

m）测定带有不包含基因突变的片段的连接产物的数目；

n）计算带有基因突变的连接产物的比率。

在这些实施方案的方法中，在步骤j）中通过比对参考序列和/或比较大量样品中的DNA片段序列，鉴定存在或不存在基因突变。

本发明方法中，鉴定的基因突变可为SNP、单核苷酸多态性、插入、倒位和/或易位。如果观察到缺失和/或插入，将带有缺失和/或插入的样品的片段和/或连接产物的数目和参考样品进行比较以鉴定缺失和/或插入。也可基于在分析的片段中染色体断裂点的存在鉴定缺失、插入、倒位和/或易位。

在另一实施方案中，在上述方法中，在DNA片段、连接的DNA片段和/或目的基因组区域中测定存在或不存在甲基化的核苷酸。例如，用亚硫酸氢盐处理步骤a）-f）的DNA。用亚硫酸氢盐处理DNA可将胞嘧啶残基转化为尿嘧啶，但5-甲基胞嘧啶残基不受影响。因此，亚硫酸氢盐处理会在DNA序列中引入特定的改变，这取决于各自胞嘧啶残基的甲基化状态，产生关于DNA片段的甲基化状态的单-核苷酸分辨信息。将样品分为子样品，其中处理一个样品，不处理另外一个，测定甲基化的核苷酸。可选地，亚硫酸氢盐处理的大量样品的序列也可进行比对，或将亚硫酸氢盐处理的样品的序列与参考序列进行比对。

分析（短）序列读数时，要注意阻止对引物进行测序。因此，在可选的方法中，在高通量测序步骤前去除引物序列。因此，在可选的实施方案中，提供包括靶核苷酸序列的目的基因组区域的序列的下述方法，包括以下步骤：

a）提供交联的DNA样品；

b）将交联的DNA分段；

c）连接分段的交联DNA；

d）解除交联；

e）任选地将步骤d）的DNA分段，优选用限制性内切酶分段；

g）用至少一个（1）优选含有5’突出的带有III型限制性内切酶识别位点和（2）与靶核苷酸序列杂交的引物扩增步骤d）或e）的包括靶核苷酸序列的连接的DNA片段，或用至少一个（1）优选含有5’突出的带有III型限制性内切酶识别位点和（2）与靶核苷酸序列杂交的引物，以及至少一个与至少一个接头杂交的引物扩增步骤f）的连接的DNA片段；

h）用III型限制性内切酶消化扩增的目的核苷酸序列，随后是大小选择步骤以去除释放的双链引物序列；

i）将DNA分段，优选用声波降解；

j）任选地，连接用于下一步测序的双链接头序列；

k）测定步骤d）、e）、f）或g）的包括靶核苷酸序列的（扩增的）连接的DNA片段的至少部分序列，优选用高通量测序；

l）鉴定测定的序列中基因组区域的基因变异和建立目重叠群。

在可选的实施方案中，本文所述的任何方法中，步骤g）中所用的引物带有基团，例如生物素，任选地用于通过结合固体载体来纯化（扩增的）连接的DNA片段。

在一个实施方案中，包括靶核苷酸序列的连接的DNA片段可用与靶核苷酸序列杂交的杂交探针（或捕获探针）来捕获。靶向探针可直接附着在固相载体上或包括基团，例如生物素，可与适于捕获生物素基团的固相载体（例如抗生物素蛋白链菌素包被的磁珠）结合。在任何情况下，捕获包括靶核苷酸序列的连接的DNA片段可以将包括靶核苷酸序列的连接的DNA片段与不包括靶核苷酸序列的连接的DNA片段分离。因此，该捕获步骤可以富集包括靶核苷酸序列的连接的DNA片段。因此，整个发明中，进行扩增的步骤，其也是富集步骤，可选地，进行定向靶核苷酸序列的探针的捕获步骤。对于目的基因组区域，可将至少一个捕获探针用于靶核苷酸序列的捕获。对于目的基因组区域，可将一个以上的探针用于多个靶核苷酸序列。例如，与所述的BRCA1基因类似，5个靶核苷酸序列之一的1个引物可用作捕获探针(A、B、C、D或E)。可选地，以结合方式(A、B、C、D或E)用5个引物捕获目的基因组区域。

在一个实施方案中，将扩增步骤和捕获步骤结合，例如，先进行捕获步骤再进行扩增步骤或反之亦然。

在一个实施方案中，使用与包括（扩增的）连接的DNA片段的接头序列杂交的捕获探针。

实施例

以下是本发明的整个基因测序方法的实施例，用于测定全Brcal基因序列。所用细胞为SUM149PT细胞、乳腺癌贴壁细胞系，其在Brcal基因座的2288位置缺失T（Elstrodt等，癌症研究(Cancer Res)，2006）。图1为本发明的示意图。

细胞培养

在150cm²培养皿中用RPMI/10%FCS/链霉素将SUM149PT细胞培养至全皿。分裂前，培养皿计数显示150cm²全培养皿包含20×10⁶个SUM149PT细胞。

固定和细胞裂解

用PBS洗涤培养的细胞，并用PBS/10%FCS/2%甲醛在常温下固定10min。随后洗涤和收集细胞，从裂解缓冲液(50mM Tris-HClpH7.5,150mM NaCl,5mM EDTA,0.5%NP-40,1%TX-100和1×Complete蛋白酶抑制剂(Roche#11245200))中获取细胞，冰上孵育10min。随后洗涤并在MilliQ中获取。

分段1：消化

用NlaIII（纽英伦生物技术公司#R0125）消化固定的裂解细胞。

连接1：

热灭活NlaIII酶，随后用T4DNA连接酶(罗氏，#799009)进行连接步骤。

解除交联

样品中加入Prot K（10mg/ml）并在65℃孵育。随后加入RNaseA（10mg/ml，罗氏#10109169001），样品在37℃孵育。下一步，进行酚-氯仿提取，使包括DNA的上清沉淀并形成小球(pellet)。将小球状沉淀物溶于10mM Tris-HCl pH7.5。

分段2：第二消化

用Nspl（纽英伦生物技术公司#R0602S）消化和连接样品。

连接2：第二连接和纯化

样品中加入Prot K（10mg/ml）并在65℃孵育。随后加入RNaseA（10mg/ml，罗氏#10109169001），样品在37℃孵育。下一步，进行酚-氯仿提取，使包括DNA的上清沉淀并形成小球(pellet)。将小球状沉淀物溶于10mM Tris-HCl pH7.5。完成富集模板并保存或直接继续。

扩增连接的DNA片段：PCR

设计用于Brcal基因座的PCR富集的引物作为NlaIII限制性片段的限制性位点附近(<50bp)的反向唯一引物，引物集，即“观察点”的空间约20kb（参考图2和表1）

表1.所用引物序列的概况

表1为所用引物序列的概况。引物用与BRCA1基因有关的（名字）命名，序列图上的位置（例如50.1（kb））和正向（fw）或反向（rev）引物，vp表示观察点，ID表示SEQ ID No.，即SEQ ID Nos.1-10。也表示了引物对应的BRCA1基因的序列（起点(5')和终点(3')），并指出引物向外定向，即反向，用正常的DNA作为模板不能形成扩增子。

典型的富集-PCR反应有25μl：

-2.5μl10×PCR缓冲液3(提供扩展长模板聚合酶)

-0.5μl dNTP(10mM)

-0.5μl正向引物(1μg/μl引物贮备液按1/7稀释)

-0.5μΙ反向引物(1μg/μl引物贮备液按1/7稀释)

-0.375μl扩展长模板聚合酶(罗氏#11759060001)

-100ng富集模板

-Xμl Milli-Q至总体积25μl。

测序扩增的连接的DNA片段

根据标准SOLiD方法，用实验室方法进行SOLiD测序。

结果

来自不同观察点的读数分布在观察点位点周围最高。在表2中显示进一步的统计表。从观察点库C、D和E的序列读数鉴定2288del T突变。也可测定BRCA1基因的哪些序列没有被覆盖，从观察点A中，15807bp没有被覆盖，从观察点B中，50124bp没有被覆盖。从观察点C、D和E中，所有BRCA1序列均被覆盖。

表2.每个观察点的序列读数统计表

vp	M	TR	％MtT	均值	中值	％nt20x
							A	898515	13715420	6.55	531	3	11.5
B	17578	7401964	0.24	10	0	4.90
							C	2098974	11190246	18.76	1241	29	63
D	3113059	9851741	31.60	1840	45	74.70
							E	134324	9108300	1.47	79	42	71.70

表2为每个观察点的序列读数统计表。表示每个观察点库(vp,A-E)的序列读数统计表。M(与BRCA1匹配的读数)，TR(读数的总数)，%MtT(与靶标匹配的总读数的%)，均值(平均覆盖(coverage))，中值(中值覆盖)，%nt20×(来自BRCA1基因的多于20倍覆盖的核苷酸的%)。

因此，从单个观察点C、D和E中，覆盖完整BRCA1的100kb，从A观察点中，覆盖了BRCA1基因的85kb，从B观察点中，覆盖了BRCA1基因的50kb，从C、D和E观察点中证实2288del T突变。

Claims

1.建立包括靶核苷酸序列的目的基因组区域的重叠群的方法，包括将交联的DNA分段，连接分段的交联DNA，解除交联并测定连接的DNA片段的序列，用测定的连接的DNA片段的序列建立目的基因组区域的重叠群，其中所述连接的DNA片段包含具有所述靶核苷酸序列的DNA片段。

2.建立包括靶核苷酸序列的目的基因组区域的重叠群的方法，包括以下步骤：

a)提供交联的DNA样品；

b)将所述交联的DNA分段；

c)连接分段的交联DNA；

d)解除交联；

e)任选地将步骤d)的DNA分段；

f)任选地，将步骤d)或e)的分段的DNA与至少一个接头连接；

g)任选地，用至少一个与所述靶核苷酸序列杂交的引物扩增步骤d)或e)的包括靶核苷酸序列的连接的DNA片段，或用至少一个与所述靶核苷酸序列杂交的引物和至少一个与至少一个接头杂交的引物扩增步骤f)的连接的DNA片段；

h)用高通量测序测定步骤d)、e)或f)的连接的DNA片段的序列或步骤g)的扩增的连接的DNA片段的序列，其中所述连接的DNA片段或所述扩增的连接的DNA片段包含具有所述靶核苷酸序列的DNA片段；

i)从测定的连接的DNA片段或扩增的连接的DNA片段的序列中建立目的基因组区域的重叠群，其中所述连接的DNA片段或所述扩增的连接的DNA片段包含具有所述靶核苷酸序列的DNA片段。

3.建立包括靶核苷酸序列的目的基因组区域的重叠群的方法，包括以下步骤：

a)提供交联的DNA样品；

b)将所述交联的DNA分段；

c)连接分段的交联DNA；

d)解除交联；

e)任选地将步骤d)的DNA分段；

f)将步骤d)或e)的DNA环化；

g)任选地，用至少一个与所述靶核苷酸序列杂交的引物扩增包括所述靶核苷酸序列的环化的DNA；

h)用高通量测序测定步骤f)的连接的DNA片段的序列或步骤g)的扩增的连接的DNA片段的序列，其中所述连接的DNA片段或所述扩增的连接的DNA片段包含具有所述靶核苷酸序列的DNA片段；

i)从测定的连接的DNA片段或所述扩增的连接的DNA片段的序列中建立目的基因组区域的重叠群，其中所述连接的DNA片段或所述扩增的连接的DNA片段包含具有所述靶核苷酸序列的DNA片段。

4.根据权利要求2或3所述的建立包括靶核苷酸序列的目的基因组区域的重叠群的方法，其中所述目的基因组区域包括另外的一个或多个靶核苷酸序列，其中在扩增步骤g)中提供与所述靶核苷酸序列杂交的引物以及提供与一个或多个另外的靶核苷酸对应的一个或多个引物，其中用所述引物扩增连接的DNA片段或扩增环化的DNA。

5.根据权利要求2或3所述的方法，其中分段步骤b)包括声波降解，随后是酶法DNA末端修复。

6.根据权利要求2或3所述的方法，其中分段步骤b)包括用限制性内切酶分段。

7.根据权利要求5所述的方法，其中连接步骤c)在接头存在下进行，将接头序列连接于片段之间。

8.根据权利要求6所述的方法，其中连接步骤c)在接头存在下进行，将接头序列连接于片段之间。

9.根据权利要求6所述的方法，其中在步骤b)中处理大量子样品，对于每个子样品，使用具有不同识别位点的限制性内切酶。

10.根据权利要求7所述的方法，其中在步骤b)中处理大量子样品，对于每个子样品，使用具有不同识别位点的限制性内切酶。

11.根据权利要求8所述的方法，其中在步骤b)中处理大量子样品，对于每个子样品，使用具有不同识别位点的限制性内切酶。

12.根据权利要求8所述的方法，其中分段步骤e)包括限制性内切酶，其具有比步骤b)的限制性内切酶识别序列更长的识别序列。

13.根据权利要求9所述的方法，其中分段步骤e)包括限制性内切酶，其具有比步骤b)的限制性内切酶识别序列更长的识别序列。

14.根据权利要求10所述的方法，其中分段步骤e)包括限制性内切酶，其具有比步骤b)的限制性内切酶识别序列更长的识别序列。

15.根据权利要求2或3所述的方法，其中测定多个目的基因组区域的序列。

16.根据权利要求2或3所述的方法，其中步骤g)的至少一个寡核苷酸引物中包含标识。

17.根据权利要求2或3所述的方法，其中在扩增步骤g)之前或之后，进行大小选择步骤。

18.根据权利要求17所述的方法，其中用凝胶提取色谱、凝胶电泳或密度梯度离心进行所述大小选择步骤。

19.根据权利要求17所述的方法，其中选择大小在20-20,0000bp之间的DNA。

20.根据权利要求17所述的方法，其中选择大小在50-10,0000bp之间的DNA。

21.根据权利要求17所述的方法，其中选择大小在100-3,000bp之间的DNA。

22.根据权利要求2或3所述的方法，其中如果细胞中目的基因组区域的倍性大于1，在步骤i)中为每个倍性建立重叠群。

23.根据权利要求2或3所述的方法，其中建立重叠群的步骤i)包括以下步骤：

1)鉴定步骤b)的片段；

2)将片段分配至基因组区域；

3)为基因组区域建立重叠群。

24.根据权利要求23所述的方法，其中将片段分配至基因组区域的步骤2)包括鉴定步骤f)的不同连接产物，将不同连接产物与鉴定的片段结合。

25.鉴定存在或不存在基因突变的方法，包括权利要求2或3的步骤a)-i)，其中为多个样品建立重叠群，还包括以下步骤：

j)比对多个样品的重叠群；

k)鉴定多个样品的目的基因组区域中存在或不存在基因突变。

26.鉴定存在或不存在基因突变的方法，包括权利要求2或3的步骤a)-i)，还包括以下步骤：

j)比对重叠群和参考序列；

k)鉴定目的基因组区域中存在或不存在基因突变。

27.根据权利要求25或26所述的方法，其中基因突变为单核苷酸多态性、缺失、插入、倒位和/或易位。

28.根据权利要求27所述的方法，其中通过将带有缺失和/或插入的样品的片段和/或连接产物数目与参考样品进行比较鉴定缺失和/或插入。

29.根据权利要求27所述的方法，其中基于在分析的片段中染色体断裂点的存在鉴定缺失、插入、倒位和/或易位。

30.根据权利要求2或3所述的方法，其中在DNA片段、连接的DNA片段和/或目的基因组区域中测定存在或不存在甲基化的核苷酸。

31.根据权利要求2或3所述的方法，其中分段步骤e)利用限制性内切酶进行。