CN105121661A

CN105121661A - 用于基因组组装及单体型定相的方法

Info

Publication number: CN105121661A
Application number: CN201480020008.2A
Authority: CN
Inventors: 小R·E·格林; L·F·拉里奥
Original assignee: University of California San Diego UCSD
Current assignee: University of California San Diego UCSD
Priority date: 2013-02-01
Filing date: 2014-01-31
Publication date: 2015-12-02
Anticipated expiration: 2034-01-31
Also published as: CA3209385A1; CA2899020A1; GB2547875B; US20150363550A1; JP7028807B2; JP2019088295A; GB201501001D0; EP2951319B1; EP3885446A1; US11081209B2; JP2016506733A; AU2014212152B2; CN108624668A; GB2519255B; WO2014121091A1; HK1218433A1; EP2951319A1; AU2020202992B2; US20190080050A1; GB201520448D0

Abstract

本发明提供了用于大大加快并改善从头基因组组装的方法。本文所公开的方法利用数据分析方法，使来自一个或多个受试者的基因组的从头组装快速且便宜。本发明进一步提供，本文所公开的方法可用于多种应用，包括单体型定相和宏基因组分析。

Description

用于基因组组装及单体型定相的方法

相关申请的交叉引用

本申请要求2013年2月1日提交的临时申请号61/759,941和2013年10月17日提交的临时申请号61/892,355的权益，所述临时申请的公开内容以引用方式并入本文中。

技术领域

本发明提供了基因组组装和单体型定相的方法，用于鉴别基因组内的短的、中等的和长的连接。

背景技术

理论上和实践上仍然难以产生高质量的、高度连续的基因组序列。

发明内容

下一代测序(NGS)数据的一个长久性缺陷在于不能跨越大的基因组重复区域，这是由于读段短和插入大小相对较小。该缺陷显著地影响了从头(denovo)组装。由于基因组重排的性质和排布是不确定的，因此被长重复区域隔开的重叠群(contig)不能被连接或重测序。此外，由于变异体不能够在长距离内确信地与单倍型相关联，难以确定定相信息。通过生成具有适宜的输入DNA的、跨越数十万碱基以及多达百万碱基级别的基因组距离的极长程读对(extremelylong-rangereadpair，XLRP)，本发明能够同时解决所有这些问题。这些数据对于克服基因组中的大重复区域(包括着丝粒)所产生的问题，是非常宝贵的；能够节约从头组装的成本；并为个体化用药产生具有足够完整度、准确度的重测序数据。

在相距非常远、但分子上相连的DNA片段之间形成关联的过程中使用重构染色质，是非常重要的。本发明使远离的片段能够被放到一起并通过染色质构象共价相接，从而物理地连接DNA分子先前远离的部分。后续处理能够使关联片段的序列被确定，产生读对(readpair)，其在基因组上的间隔延伸至输入DNA分子的全长。由于读对来源于同一分子，因此这些读对还含有相位信息。

在一些实施方案中，本发明提供了能够用比先前所需更少的数据产生高质量组装的方法。例如，本文所公开的方法提供了基因组组装，其仅仅来自两条泳道(lane)的IlluminaHiSeq数据。

在其它实施方案中，本发明提供了能够使用长距离读对方式产生染色体水平定相的方法。例如，本文所公开的方法能够以至少99％或更高的准确度，定相90％或更多用于该个体的杂合单核苷酸多态性(SNPs)。该准确度与实质上更昂贵、更费力的方法所产生的定相相当。

在一些实施例中，能够产生达到百万碱基规模的基因组DNA片段的方法可与本文所公开的方法联用。可产生长的DNA片段，以确认本方法生成跨越由那些提取所能供给的最长片段的读对的能力。在一些情况下，可提取长度超过150kbp的DNA片段，并用其生成XLRP文库。

本发明提供了用于大大加快并改善从头基因组组装的方法。本文所公开的方法利用数据分析方法，所述方法允许来自一个或多个受试者的基因组的快速、便宜的从头组装。本发明进一步提供，本文所公开的方法可用于多种应用，包括单体型定相和宏基因组分析。

在某些实施方案中，本发明提供了用于基因组组装的方法，其包括以下步骤：生成多个重叠群；从通过探测染色体、染色质或重构染色质的物理布局产生的数据来生成多个读对；将所述多个读对定位或组装至所述多个重叠群；使用读段定位或组装数据来构建重叠群的邻接矩阵；和分析所述邻接矩阵，以确定经过重叠群的路径，该路径表示重叠群的次序和/或对基因组的定向。在进一步的实施方案中，本发明提供，通过采用每个读段到重叠群边缘的距离的函数，加权至少大约90％的读对，以包含关于哪些读对表示短程接触以及哪些读对表示长程接触的信息。在其它实施方案中，重新调整邻接矩阵，以减少表示基因组混杂区域的一些重叠群上的大量接触的权重，例如针对调节染色质的骨架相互作用的一种或多种介质的保守结合位点，比如转录抑制子CTCF。在其它实施方案中，本发明提供了用于人类受试者的基因组组装的方法，其中从人类受试者的DNA生成多个重叠群，并且其中通过分析人类受试者的染色体、染色质或由人类受试者的裸DNA制得的重构染色质，生成多个读对。

在进一步的实施方案中，本发明提供，通过使用鸟枪(shotgun)测序法生成多个重叠群，该方法包括：使长段的受试者DNA断裂成大小不确定的随机片段；用高通量测序法对片段进行测序，以生成多个测序读段；和组装测序读段以形成多个重叠群。

在某些实施方案中，本发明提供，通过使用基于Hi-C的技术，探测染色体、染色质或重构染色质的物理布局，生成多个读对。在进一步的实施方案中，该基于Hi-C的技术包括：使染色体、染色质或重构染色质与固定剂交联，该固定剂例如甲醛，以形成DNA-蛋白质交联；用一种或多种限制性内切酶切割交联的DNA-蛋白质，以生成含有粘性末端的多个DNA-蛋白质复合物；用含有一种或多种标记物(marker)的核苷酸补平所述粘性末端，该标记例如生物素，以产生平末端，然后将所述平末端连接在一起；使多个DNA-蛋白质复合物断裂成片段；通过使用所述一种或多种标记物，拉下含有接点的片段；和用高通量测序法对含有接点的片段进行测序，以生成多个读对。在进一步的实施方案中，从通过探测重构染色质的物理布局产生的数据来生成用于本文所公开的方法的多个读对。

在不同的实施方案中，本发明提供，通过探测分离自培养细胞或初生组织的染色体或染色质的物理布局，确定多个读对。在其它实施方案中，通过探测该重构染色质的物理布局，可确定多个读对，所述重构染色质是通过将从一个或多个受试者样本得到的裸DNA与分离的组蛋白复合形成的。

在其它实施方案中，本发明提供了一种确定单体型定相的方法，其包括以下步骤：鉴别多个读对中的一个或多个杂合位点，其中可通过鉴别含有双杂合位点的读对，确定用于等位基因变异体的定相数据。

在不同的实施方案中，本发明提供了一种用于高通量细菌基因组组装的方法，其包括以下步骤：通过使用改良的基于Hi-C的方法探测多个微生物染色体的物理布局，来生成多个读对；该改良的基于Hi-C的方法包括以下步骤：收集来自环境的微生物；加入固定剂，例如甲醛，以在每个微生物细胞中形成交联，其中读对定位至不同的重叠群表明哪些重叠群来自相同的物种。

在一些实施方案中，本发明提供了一种用于基因组组装的方法，其包括：(a)生成多个重叠群；(b)从通过探测染色体、染色质或重构染色质的物理布局生成的数据来确定多个读对；(c)将所述多个读对定位至所述多个重叠群；(d)使用读定位数据构建重叠群的邻接矩阵；和(e)分析所述邻接矩阵，以确定经过所述重叠群的路径，该路径表示重叠群的次序和/或对基因组的定向。

在进一步的实施方案中，本发明提供一种通过使用基于Hi-C的技术探测染色体、染色质或重构染色质的物理布局，来生成多个读对的方法。在进一步的实施方案中，基于Hi-C的技术包括：(a)将染色体、染色质或重构染色质与固定剂交联，以形成DNA-蛋白质交联；(b)用一种或多种限制性内切酶切割交联的DNA-蛋白质，以生成含有粘性末端的多个DNA-蛋白质复合物；(c)用含有一种或多种标记物的核苷酸补平所述粘性末端，以产生平末端，然后将所述平末端连接在一起；(d)将所述多个DNA-蛋白质复合物剪切成片段；(e)通过使用所述一种或多种标记物，拉下含有接点的片段；和(f)用高通量测序法对含有接点的片段进行测序，以生成多个读对。

在某些实施方案中，通过探测分离自培养细胞或初生组织的染色体或染色质的物理布局，确定多个读对。在其它实施方案中，通过探测重构染色质的物理布局，确定多个读对，所述重构染色质是通过将从一个或多个受试者样本得到的裸DNA与分离的组蛋白复合形成的。

在一些实施方案中，通过采用读段到重叠群边缘的距离的函数，加权至少约50％、约60％、约70％、约80％、约90％、约95％或约99％或更多的所述多个读对，以体现短接触比长接触更高的概率。在一些实施方案中，重新调整邻接矩阵，以减少表示基因组混杂区域的一些重叠群上的大量接触的权重。

在某些实施方案中，该基因组混杂区域包括针对一种或多种介质的一个或多个保守结合位点，该介质调节染色质的骨架相互作用。在一些实施例中，该介质为转录抑制子CTCF。

在一些实施方案中，本发明提供了人类受试者的基因组组装的方法，其中从人类受试者的DNA生成多个重叠群，并且其中通过分析人类受试者的染色体、染色质或由受试者的裸DNA制得的重构染色质，生成多个读对。

在其它实施方案中，本发明提供了用于确定单体型定相的方法，其包括：鉴别多个读对中的一个或多个杂合位点，其中可通过鉴别含有双杂合位点的读对，确定用于等位基因变异体的定相数据。

在其它实施方案中，本发明提供了一种用于宏基因组组装的方法，其中通过使用改良的基于Hi-C的方法来探测多个微生物染色体的物理布局，生成多个读对；该改良的基于Hi-C的方法包括以下步骤：收集来自环境的微生物；加入固定剂，例如甲醛，以在每个微生物细胞中形成交联，并且其中读对定位至不同的重叠群表明哪些重叠群来自相同的物种。

在一些实施方案中，本发明提供了一种组装源自单个DNA分子的多个重叠群的方法，其包括：从单个DNA分子生成多个读对，并使用所述读对组装重叠群，其中至少1％的读对在所述单个DNA分子上跨越大于50kB的距离，并且在14天内生成所述读对。在一些实施方案中，至少10％的读对在所述单个DNA分子上跨越大于50kB的距离。在其它实施方案中，至少1％的读对在所述单个DNA分子上跨越大于100kB的距离。在进一步的实施方案中，读对在7天内生成。

在其它实施方案中，本发明提供了一种组装源自单个DNA分子的多个重叠群的方法，其包括：从单个DNA分子生成多个读对，并使用该读对组装重叠群，其中至少1％的读对在所述单个DNA分子上跨越大于30kB的距离。在一些实施方案中，至少10％的读对在所述单个DNA分子上跨越大于30kB的距离。在其它实施方案中，至少1％的读对在所述单个DNA分子上跨越大于50kB的距离。

在其它实施方案中，本发明提供了单体型定相的方法，其包括从单个DNA分子生成多个读对，并使用所述读对组装所述DNA分子的多个重叠群，其中至少1％的读对在所述单个DNA分子上跨越大于50kB的距离，且以大于70％的准确度进行单体型定相。在一些实施方案中，至少10％的读对在所述单个DNA分子上跨越大于50kB的距离。在其它实施方案中，至少1％的读对在所述单个DNA分子上跨越大于100kB的距离。在进一步的实施方案中，以大于90％的准确度进行单体型定相。

在进一步的实施方案中，本发明提供了单体型定相的方法，其包括在体外从单个DNA分子生成多个读对，并使用该读对组装所述DNA分子的多个重叠群，其中至少1％的读对在所述单个DNA分子上跨越大于30kB的距离，且以大于70％的准确度进行单体型定相。在一些实施方案中，至少10％的读对在所述单个DNA分子上跨越大于30kB的距离。在其它实施方案中，至少1％的读对在所述单个DNA分子上跨越大于50kB的距离。在其它实施方案中，以大于90％的准确度进行单体型定相。在其它实施方案中，以大于70％的准确度进行单体型定相。

在一些实施方案中，本发明提供了一种从第一DNA分子生成第一读对的方法，其包括：(a)在体外交联第一DNA分子，其中该第一DNA分子包括第一DNA片段和第二DNA片段；(b)将第一DNA片段和第二DNA片段连接，并由此形成连接的DNA片段；和(c)对该连接的DNA片段进行测序，由此得到第一读对。

在一些实施方案中，例如来自重构染色质的多个缔合分子交联至第一DNA分子。在一些实施例中，缔合分子包括氨基酸。在进一步的实施例中，缔合分子为肽或蛋白质。在某些实施方案中，第一DNA分子与固定剂交联。在一些实施例中，固定剂为甲醛。在一些实施方案中，通过切断第一DNA分子，生成第一DNA片段和第二DNA。在某些实施方案中，该方法进一步包括用第一读对组装第一DNA分子的多个重叠群。在一些实施方案中，第一DNA片段和第二DNA片段中的每一个都与至少一个亲和标签相连，并用所述亲和标签捕获所述连接的DNA片段。

在进一步的实施方案中，该方法进一步包括：(a)至少向第二DNA分子提供多个缔合分子，该缔合分子例如来自重构染色质；(b)将缔合分子交联至第二DNA分子，由此在体外形成第二复合物；(c)切断第二复合物，由此生成第三DNA片段和第四DNA片段；(d)将第三DNA片段与第四DNA片段连接，由此形成第二连接的DNA片段；和(e)对该第二连接的DNA片段进行测序，由此得到第二读对。在一些实施例中，少于40％的来自所述DNA分子的DNA片段连接至来自任何其它DNA分子的DNA片段。在进一步的实施例中，少于20％的来自所述DNA分子的DNA片段连接至来自任何其它DNA分子的DNA片段。

在其它实施方案中，本发明提供了一种从含有预定序列的第一DNA分子生成第一读对的方法，其包括：(a)向第一DNA分子提供一个或多个DNA结合分子，其中所述一个或多个DNA结合分子结合至所述预定序列；(b)在体外交联第一DNA分子，其中该第一DNA分子包含第一DNA片段和第二DNA片段；(c)将第一DNA片段与第二DNA片段连接，由此形成第一连接的DNA片段；和(d)对所述第一连接的DNA片段进行测序，由此得到第一读对；其中所述预定序列出现在所述读对中的概率受到所述DNA结合分子与所述预定序列的结合的影响。

在一些实施方案中，DNA结合分子为能够与预定序列杂交的核酸。在一些实施例中，该核酸为RNA。在其它实施例中，该核酸为DNA。在其它实施方案中，DNA结合分子为小分子。在一些实施例中，所述小分子以小于100μM的结合亲和力结合至预定序列。在进一步的实施例中，所述小分子以小于1μM的结合亲和力结合至预定序列。在进一步的实施方案中，DNA结合分子被固定化在表面或固相载体上。

在一些实施方案中，预定序列出现在读对中的概率下降。在其它实施方案中，预定序列出现在读对中的概率升高。

在其它实施方案中，本发明提供了一种包含多个读对的体外文库，每个读对至少包含第一序列元件和第二序列元件，其中第一序列元件和第二序列元件来源于单个DNA分子，且其中至少1％的读对包含在所述单个DNA分子上相距至少50kB的第一序列元件和第二序列元件。

在一些实施方案中，至少10％的读对包含在单个DNA分子上相距至少50kB的第一序列元件和第二序列元件。在其它实施方案中，至少1％的读对包含在单个DNA分子上相距至少100kB的第一序列元件和第二序列元件。

在进一步的实施方案中，少于20％的读对包含一个或多个预定序列。在进一步的实施方案中，少于10％的读对包含一个或多个预定序列。在进一步的实施方案中，少于5％的读对包含一个或多个预定序列。

在一些实施方案中，预定序列由能够与预定序列杂交的一个或多个核酸确定。在一些实施例中，该一个或多个核酸为RNA。在其它实施例中，该一个或多个核酸为DNA。在进一步的实施方案中，该一个或多个核酸被固定化至表面或固相载体。

在其它实施方案中，预定序列由一个或多个小分子确定。在一些实施例中，所述一个或多个小分子以小于100μM的结合亲和力结合至预定序列。在进一步的实施例中，所述一个或多个小分子以小于1μM的结合亲和力结合至预定序列。

在一些实施方案中，本发明提供了一种包含DNA片段和多个缔合分子的组合物，该缔合分子例如来自重构染色质，其中：(a)所述缔合分子在体外复合物中与DNA片段交联；和(b)所述体外复合物被固定在固相载体上。

在其它实施方案中，本发明提供了一种包含DNA片段、多个缔合分子和DNA结合分子的组合物，其中：(a)所述DNA结合分子与所述DNA片段的预定序列结合；和(b)所述缔合分子与所述DNA片段交联。

在一些实施方案中，DNA结合分子是能够与预定序列杂交的核酸。在一些实施例中，该核酸为RNA。在其它实施例中，该核酸为DNA。在进一步的实施例中，该核酸被固定化至表面或固相载体。

在其它实施方案中，DNA结合分子为小分子。在一些实施例中，所述小分子以小于100μM的结合亲和力结合至预定序列。在其它实施例中，所述小分子以小于1μM的结合亲和力结合至预定序列。

通过引用并入

本说明书提及的全部公开文献、专利和专利申请，其并入程度如同指明将每份单独的公开文献、专利或专利申请具体地并个别地通过引用并入。本说明书提及的全部公开文献、专利和专利申请，以其整体以及其中所引用的任何参考内容在此通过引用而被并入。

附图说明

本发明的新颖特征在所附的权利要求书中详细提出。通过参考以下列举了应用本发明原理的示例性实施方案的详细描述和附图，将得以更好地理解本发明的特征和优点，附图如下：

图1图示出了使用高通量测序读段的基因组组装。示出了待组装的基因组(顶部)。典型地，基因组具有多个难以组装的重复序列。收集来自基因组的随机的、高通量序列数据(中部)，并将其组装成基因组中独特区域中的“重叠群”(底部)。重叠群组装通常终止于多个重复序列。最终结果为一组数千个的重叠群，其彼此相对的次序与方向都未知。在图中，从最长到最短将所述重叠群随意编号。

图2A-D图示了本发明的基于Hi-C的流程：(A)显示了DNA被交联并被处理产生用于测序的生物素化的连接片段的位置；和(B-D)提供了用于多个限制性内切酶的人类14号染色体上的接触图数据。如图所示，大多数接触是沿着染色体是局部的。

图3A-C提供了本发明使用Hi-C序列数据辅助基因组组装的方法：(A)图示了使用基于Hi-C的流程交联并处理DNA的位置；(B)说明将读对数据定位至组装的重叠群的位置，所述重叠群是从随机鸟枪测序和组装中生成的；和(C)图示了在过滤和加权之后，构建汇总了全部重叠群之间的读对数据的邻接矩阵。该矩阵可以重新排列次序以表明正确的组织路径。如图所示，大多数读对将在重叠群内定位。由此，有可能得知接触距离的分布(例如参见图6)。定位至不同重叠群的读对提供了关于在正确基因组组装中哪些重叠群相邻的数据。

图4示出了本发明的示例性流程：首先生成并制备DNA片段；随后在体外进行染色质组装和生物素化；然后用甲醛固定该染色质/DNA复合物并用链霉亲和素(streptavadin)珠拉下来；然后限制性酶切消化所述复合物以生成粘性末端，然后用生物素化的dCTP和内部的、硫酸化的GTP补平该粘性末端；平末端连接之后，染色质/DNA复合物进行蛋白酶消化、核酸外切酶消化和剪切；然后将DNA片段用生物素拉下并用测序接头连接；最后，通过大小选择DNA片段并测序。

图5A-B图示了基因组组装和比对中源于基因组中重复区域的不明确性。(A)由于读对不能跨过重复区域而导致连接的不确定性。(B)由于读对不能跨越边缘重复序列，而使片段的排布不确定。

图6图示了来自人类XLRP文库的读对之间的基因组距离的分布。标明了用其它技术可获得的最大距离进行比较。

图7图示了良好表征的单体型的样本NA12878的定相准确度。所示距离为被定相的SNP之间的距离。

图8图示了根据本发明的不同实施方案的示例性计算机系统的各个部件。

图9是说明示例性计算机系统架构的方框图，该示例性计算机系统可相关于本发明的不同实施方案被应用。

图10是说明示例性计算机网络的图，该示例性网络可相关于本发明的不同实施方案被应用。

图11是说明另一示例性计算机系统架构的方框图，该示例性计算机系统可相关于本发明的不同实施方案被应用。

具体实施方式

如本文和所附权利要求书中所使用的，单数形式“a/an(一)”和“所述”包括复数对象，除非上下文清楚地指出不同的情况。因此，例如，提及“重叠群”包括多个这样的重叠群，提及“探测染色体的物理布局”包括提及一种或多种用于探测染色体物理布局的方法及其本领域技术人员已知的等同方案，依此类推。

此外，除非特别指出不同的情况，否则使用“和”意指“和/或”。同样，“包含”、“包括”、“含有”和“具有”可以互换且并不旨在限定。

应进一步理解，在不同实施方案的描述使用术语“包含”时，本领域技术人员将理解，在一些具体示例中，实施方案可使用语言“基本由……组成”或“由……组成”替代性地进行描述。

本文所使用的术语“测序读段”意指其中序列已被确定的DNA片段。

本文所使用的术语“重叠群”意指DNA序列的邻接区域。通过本领域已知的多种方法，可以确定“重叠群”，例如通过比对针对重叠序列的测序读段，和/或通过与已知序列的数据库比对测序读段，以鉴别哪些测序读段具有邻接的高概率。

本文所使用的术语“受试者”可意指任何真核或原核生物。

本文所使用的术语“裸DNA”可意指基本不含复合蛋白质的DNA。例如，其可意指与少于约50％、约40％、约30％、约20％、约10％、约5％或约1％发现于细胞核中的内生蛋白质复合的DNA。

本文所使用的术语“重构染色质”可意指通过将分离的核蛋白与裸DNA复合形成的染色质。

本文所使用的术语“读对”可意指两个或多个相关联以提供序列信息的元件。在一些情况下，读对的数量可意指可定位的读对的数量。在其它情况下，读对的数量可意指所生成的读对的总数。

除非另外定义，本文所用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常理解的相同的意义。虽然与本文所述的相似或等同的任何方法和材料可以用于实施本发明的方法和组合物，当前仍说明了示例性的方法和材料。

本发明提供了一种用于生成极长程读对的方法，并利用该数据用于提升所有上述目的的方法。在一些实施方案中，本发明提供了仅用约3亿读对产生高度邻接的和准确的人类基因组组装的方法。在其它实施方案中，本发明提供了以99％或更高的准确度定相人类基因组中90％或更多杂合变异体的方法。此外，本发明生成的读对的范围可延伸跨越更大的基因组距离。该组装除了从极长程读对文库产生之外，还从标准的鸟枪文库产生。在其它实施方案中，本发明提供了能够利用这两组测序数据的软件。用单个长程读对文库产生定相的变异体，来自该文库的读段被定位至参照基因组并随后用于将变异体指配至个体的两个亲代染色体之一。最后，本发明可供使用已知技术提取更大的DNA片段，以生成特别长的读段。

这些重复序列阻碍组装和比对过程的机制相当简单，并且最终使结果不明确(图5)。在大重复区域的情况下，困难是跨越。如果读段或读对的长度不足以跨越重复区域，则不能确信地连接边缘为重复元件的区域。在较小重复元件的情况下，问题主要是排布。当区域两侧为两个重复元件时(这在基因组中是很常见的)，如果不是不可能，也难以确定其准确的排布，因为两侧元件与其类别的其它元件相似。在这两种情况下，重复元件中缺乏区别性的信息，使得具体重复元件的确认和排布具有挑战性。需要能够在被重复区域包围或隔开的独特片段之间实验性地建立连接。

本发明的方法通过克服由这些重复区域产生的巨大阻碍，极大地推动了基因组领域的发展，从而能在基因组分析的多个领域内产生重大进步。为了用先前的技术完成从头组装，人们必须接受将组装片段化至多个小支架(scaffold)中，或者花费大量时间和资源来产生大插入片段文库，或使用其它方法来生成更邻接的组装。这些方法可能包括获得非常深度的测序覆盖、构建BAC或者F黏粒(fosmid)文库、光学定位或者最可能地，这些方法与其它技术的某些组合。高度的资源和时间要求使得这些方法难以被多数小型试验室采用，并限制了对非模式生物的研究。由于本文所述的方法能够产生非常长程的读对，可用单轮测序完成从头组装。这将使组装成本降低多个数量级，并使所需时间从数月或数年缩短至数周。一些情况下，本发明所公开的方法使得以少于14天、少于13天、少于12天、少于11天、少于10天、少于9天、少于8天、少于7天、少于6天、少于5天、少于4天内或任意两个上述具体时间段之间的范围，生成多个读段对。例如，该方法允许在约10天至14天内生成多个读对。即使对最小生境的生物，构建生物组将变得常规，系统发育分析将不会面临缺乏比较的情况，而例如Genome10k的项目将可被实现。

同样，用于医疗目的的结构和定相分析也仍然具有挑战性。癌症、患同类型癌症的个体之间或者即使在同个肿瘤中，存在令人震惊的异质性。要消除所导致影响的原因，需要在每个样本成本低的情况下，高度的准确性和通量。在个体化用药领域中，基因组医疗的金标准之一就是全部变异体被充分表征和定相的测序的基因组，包括大的和小的结构重排和新的突变。为了用先前的技术实现该目的，要求进行类似于从头组装所需的工作，而这目前仍太昂贵和费力而不能作为常规医疗程序。所公开的方法能够以低成本快速地产生完整的、精确的基因组，从而能够在人类疾病研究和治疗中发挥备受欢迎的作用。

最后，将本文所公开的方法应用于定相，能够将统计方法的便利性和家族分析的准确度结合，与单使用其它方法相比，节约了金钱、人力和样本。用本文所公开的方法能够容易得完成从头的变异体定相，一种用以前的技术令人望而却步却备受期待的定相分析。鉴于绝大多数的人类变异体都是罕见的(次等位基因频率小于5％)，这特别重要。定相信息对群体遗传研究非常有价值，其相对于分离的基因型，从高度连接的单体型(被分配至单个染色体的变异体的集合)的网络中获得重大优势。单体型信息使得更高分辨率研究群体大小、迁移和亚群体之间交换的历史变迁成为可能，并且允许我们将特定的变异体追踪回溯至父辈和祖辈。这反过来表明疾病相关变异体的遗传传递，以及当多种变异体出现在单个个体中时，变异体之间的相互作用。本发明的方法可最终使极长程读对(XLRP)文库的制备、测序和分析成为可能。

在本发明的一些实施方案中，可提供来自受试者的组织或DNA样本，且该方法可返还已组装的基因组、与被识别的变异体(包括大结构变异体)的比对、定相的变异体识别(variantcall)或任何另外的分析。在其它实施方案中，本文所公开的方法可直接为个体提供XLRP文库。

在本发明的不同实施方案中，本文所公开的方法可生成被大距离分隔开来的极长程读对。该距离的上限可随着采集大尺寸DNA样本的能力而提高。在一些情况下，读对可跨越最高达50kbp、60kbp、70kbp、80kbp、90kbp、100kbp、125kbp、150kbp、175kbp、200kbp、225kbp、250kbp、300kbp、400kbp、500kbp、600kbp、700kbp、800kbp、900kbp、1000kbp、1500kbp、2000kbp、2500kbp、3000kbp、4000kbp、5000kbp或更大的基因组距离。在一些实施例中，读对可跨越最高达500kbp的基因组距离。在其它实施例中，读对可跨越最高达2000kbp的基因组距离。本文所公开的方法可整合并建立于分子生物学中的标准技术之上，并且进一步适合于提高效率、特异性和基因组覆盖。在一些情况下，读对可以少于1天、2天、3天、4天、5天、6天、7天、8天、9天、10天、11天、12天、13天、14天、15天、16天、17天、18天、19天、20天、21天、22天、23天、24天、25天、26天、27天、28天、29天、30天、60天或90天生成。在一些实施例中，读对可以少于约14天生成。在进一步的实施例中，读对可以少于约10天生成。在一些情况下，本发明的方法可提供多于约5％、约10％、约15％、约20％、约30％、约40％、约50％、约60％、约70％、约80％、约90％、约95％、约99％或约100％的读对，其在正确排序和/或定向多个重叠群中具有至少约50％、约60％、约70％、约80％、约90％、约95％、约99％或约100％的准确度。例如,该方法可在正确排序和/或定向多个重叠群中提供至少约90％至100％的准确度。

在其它实施方案中，本文所公开的方法可与现有所采用的测序技术联用。例如，本方法可与测试良好的和/或广泛采用的测序仪器组合使用。在进一步的实施方案中，本文所公开的方法可与从现有所采用的测序技术衍生的技术和方法联用。

本发明的方法大大地简化了大量生物体的从头基因组组装。使用先前的技术，这些组装目前受限于低成本配对文库(mate-pairlibrary)的短插入片段。尽管有可能生成利用F黏离可得到的高达40-50kbp的基因组距离的读对，这些成本高昂，难以处理，且对跨越最长重复区域而言过短，所述最长重复区域包括那些位于着丝粒中的，在人类中大小为300kbp至5Mbp。本文所公开的方法可提供能够跨越大距离(例如百万碱基或更长)的读对，从而克服这些骨架完整性的问题。因此，通过利用本发明的方法，产生染色体水平的组装可以变得常规。用于组装的更费力的途径——目前耗费了研究实验室难以置信的大量时间和金钱且不能产生大范围的基因组目录——可变得没有必要，为更多有意义的分析节约资源。同样地，长程定相信息的获得能够极大地额外有助于群体基因组研究、系统发育研究和疾病研究。本文所公开的方法使得能够对大量个体进行定相准确，从而扩展了我们在群体和深度时间(deep-time)水平探测基因组的能力的广度和深度。

在个体化用药领域，由本文所公开的方法生成的XLRP读对代表在准确、低成本、定相和快速产生个体基因组方面，取得了有意义的进步。现有方法不能够长距离定相变异体，从而妨碍了表征复合杂合基因型的表现型影响。此外，对基因组疾病具有实质影响的结构变异体难以用现有技术准确鉴别和表征，这是由于其与用于研究它们的读段及读对插入片段相比，尺寸较大。跨越上万碱基至上百万碱基或更长的读段对可有助于解决该困难，从而实现对结构变异体的高度平行和个体化分析。

通过在高通量测序中的技术进步，推动基础进化的和生物医学研究。而全基因组测序和组装过去常常是大基因组测序中心的来源，商业上可获得的测序仪现在成本足够低，以致大多数研究大学拥有一台或多台这些机器。目前生成大量DNA序列数据相对便宜。然而，理论上和实践上都难以用现有技术产生高质量的、高度邻接的基因组序列。此外，因为分析所关注的大多数生物是二倍体，包括人类，每个个体具有基因组的两份单倍体拷贝。在杂合位点(例如来自母方的等位基因与来自父方的等位基因的不同之处)，难以知晓哪组等位基因来自哪个亲本(被称为单倍体定相)。该信息可用于进行多种进化和生物医学研究，例如疾病和性状关联性研究。

在各种实施方案中，本发明提供了基因组组装的方法，该方法结合了DNA制备技术和双端测序，用于高通量发现所给出的基因组中短的、中等的和长的连接。本发明进一步提供了使用这些连接以协助基因组组装的方法，用于单体型定相和/或宏基因组研究。当本发明提供的方法可用于确定受试者基因组的组装，还应当理解为，本发明提供的方法也可用于确定受试者基因组部分例如染色体的组装，或者不同长度的受试者染色质的组装。

在一些实施方案中，本发明提供了一种或多种在此公开的方法，其包括从获自受试者的靶DNA的测序片段生成多个重叠群的方法。通过用一种或多种限制性内切酶切割DNA、剪切DNA或二者的组合，可将长段的靶DNA片段化。使用高通量测序法对得到的片段进行测序，获得多个测序读段。可与本发明的方法联用的高通量测序法的示例包括但不限于由RocheDiagnostics研发的454焦磷酸测序法、由Illumina研发的“簇(clusters)”测序法、由LifeTechnologies研发的SOLiD和离子半导体测序法、以及由CompleteGenomics研发的DNA纳米球测序法。然后可组装不同测序读段的重叠端，以形成重叠群。或者，可将片段化的靶DNA克隆到载体中。然后用DNA载体转染细胞或生物体，以形成文库。复制转染的细胞或生物体后，分离并测序载体，以生成多个测序读段。然后可组装不同测序读段的重叠端，形成重叠群。

如图1所示，基因组组装，特别采用高通量测序技术基因组组装，可能产生问题。组装常常由上千个或上万个短的重叠群组成。这些重叠群的次序和方向通常是未知的，这限制了基因组组装的有用性。存在对这些骨架排序和定向的技术，但它们通常很昂贵、耗费大量人力，而且经常无法发现非常长距离的相互作用。

可通过许多方式从受试者获得含有用于生成重叠群的靶DNA的样本，所述方式包括通过提取体液(例如血液、尿液、血清、淋巴液、唾液、肛门及阴道分泌物、汗液和精液)、提取组织或通过采集细胞/生物体。获得的样本可包括单种类型的细胞/生物体或可包括多种类型的细胞/生物体。可从受试者的样本中提取并制备DNA。例如，可使用已知的裂解缓冲液、超声处理技术、电穿孔等处理样本，以裂解含有多核苷酸的细胞。可通过使用乙醇提取、铯梯度和/或柱层析，进一步纯化靶DNA，以去除污染物，例如蛋白质。

在本发明的其它实施方案中，提供了一种提取极高分子量DNA的方法。在一些情况下，通过增大输入DNA的片段大小，可改善来自XLRP文库的数据。在一些实施例中，从细胞提取上百万碱基大小的DNA片段，可在基因组中产生被上百万碱基隔开的读对。在一些情况下，产生的读对可提供以下跨度的序列信息：大于约10kB、约50kB、约100kB、约200kB、约500kB、约1Mb、约2Mb、约5Mb、约10Mb或约100Mb。在一些实施例中，读对可提供大于约500kB的跨度的序列信息。在进一步的实施例中，读对可提供大于约2Mb的跨度的序列信息。在一些情况下，可通过非常温和的细胞裂解(Teague,B.等，(2010)Proc.Nat.Acad.Sci.USA107(24)，10848–53)和琼脂糖块包埋(Schwartz,D.C.和Cantor,C.R.(1984)Cell,37(1),67–75)提取该极高分子量DNA。在其它情况下，能够将DNA分子纯化至上百万碱基长度的商用机器可用于提取极高分子量DNA。

在各种实施方案中，本发明提供了一种或多种在此公开的方法，其包括探测活细胞内染色体的物理布局的步骤。通过测序探测染色体的物理布局的技术示例包括“C”族技术，例如染色体构象捕获(chromosomeconformationcapture，“3C”)、环形染色体构象捕获(circularizedchromosomeconformationcapture，“4C”)、碳拷贝染色体捕获(carbon-copychromosomecapture，“5C”)和基于Hi-C的方法；和基于染色质免疫共沉淀(ChIP)的方法，例如染色质免疫共沉淀-环(ChIP-loop)、染色质免疫共沉淀-配对末端标签(ChIP-PET)。这些技术利用活细胞中染色质的固定以增强细胞核内的空间关系。产物的后续处理和测序使研究者得到基因组区域间的邻近关联的矩阵。随着进一步的分析，这些关联可用于产生染色体的三维几何图，依照染色体在活细胞核中物理地排布。这些技术描述了活细胞中染色体的离散空间组织，并使染色体位点之间的功能性相互作用能被准确观察。困扰这些功能性研究的一个问题是存在非特异性的相互作用，数据中出现的仅仅归因于染色体接近的关联。在本发明中，这些非特异性的染色体内的相互作用通过本文所示的方法被捕获，以提供用于组装的有价值的信息。

在一些实施方案中，染色体内的相互作用与染色体的连接性相关联。在一些情况下，染色体内数据可协助基因组的组装。在一些情况下，在体外重新构建染色质。这可能是有利的，因为在用于通过测序检测染色质构象和结构的最常用“C”族技术3C、4C、5C和Hi-C中，染色质——特别是染色质的主要蛋白质成分组蛋白——对于固定很重要。

图2概括了染色质构象捕获技术。简而言之，在物理上紧密邻接的基因组区域之间创建交联。根据本文其它部分进一步详述或本领域已知的合适的方法，可完成蛋白质(例如组蛋白)与DNA分子在染色质内的交联，该DNA分子例如基因组DNA。在一些情况下，两个或多个核苷酸序列可通过结合至一个或多个核苷酸序列的蛋白质进行交联。一种方法是将染色质暴露于紫外线照射(Gilmour等，Proc.Nat’l.Acad.Sci.USA81：4275-4279，1984)。利用其它方法还可以交联多核苷酸片段，所述其他方法例如化学的或物理的(例如光学的)交联。合适的化学交联剂包括但不限于甲醛和补骨脂素(Solomon等，Proc.NatL.Acad.Sci.USA82：6470-6474，1985；Solomon等，Cell53：937-947，1988)。例如，可通过向含有DNA分子和染色质蛋白质的混合物中加入2％甲醛进行交联。其它可用于交联DNA的试剂示例包括但不限于紫外线、丝裂霉素C、氮芥、美法仑、1,3-丁二烯双环氧化物、顺二胺二氯铂(II)和环磷酰胺。合适地，交联剂将形成桥接相对短距离——例如约2——的交联，从而选择可被逆转的紧密相互作用。

在一些实施方案中，DNA分子可在交联之前或之后被免疫共沉淀。在一些情况下，DNA分子可被片段化。片段可与结合伴侣接触，例如特异性识别并结合至乙酰化组蛋白的抗体，该组蛋白例如H3。这些抗体的示例包括但不限于乙酰化组蛋白H3抗体，该抗体可从UpstateBiotechnology(LakePlacid,N.Y.)获得。随后可从免疫沉淀物中采集来自免疫沉淀物的多核苷酸。在使染色质片段化之前，乙酰化组蛋白可交联至相邻的多核苷酸序列。然后处理混合物以分离混合物中的多核苷酸。分离技术在本领域中已知并且包括例如剪切技术，以生成较小的基因组片段。可使用已有的使染色质片段化的方法，包括例如超声处理、剪切和/或使用限制性内切酶，进行片段化。限制性内切酶可具有长度为1、2、3、4、5或6个碱基的限制酶切位点。限制性内切酶的示例包括但不限于AatII、Acc65I、AccI、AciI、AclI、AcuI、AfeI、AflII、AflIII、AgeI、AhdI、AleI、AluI、AlwI、AlwNI、ApaI、ApaLI、ApeKI、ApoI、AscI、AseI、AsiSI、AvaI、AvaII、AvrII、BaeGI、BaeI、BamHI、BanI、BanII、BbsI、BbvCI、BbvI、BccI、BceAI、BcgI、BciVI、BclI、BfaI、BfuAI、BfuCI、BglI、BglII、BlpI、BmgBI、BmrI、BmtI、BpmI、Bpul0I、BpuEI、BsaAI、BsaBI、BsaHI、BsaI、BsaJI、BsaWI、BsaXI、BscRI、BscYI、BsgI、BsiEI、BsiHKAI、BsiWI、BslI、BsmAI、BsmBI、BsmFI、BsmI、BsoBI、Bsp1286I、BspCNI、BspDI、BspEI、BspHI、BspMI、BspQI、BsrBI、BsrDI、BsrFI、BsrGI、BsrI、BssHII、BssKI、BssSI、BstAPI、BstBI、BstEII、BstNI、BstUI、BstXI、BstYI、BstZ17I、Bsu36I、BtgI、BtgZI、BtsCI、BtsI、Cac8I、ClaI、CspCI、CviAII、CviKI-1、CviQI、DdcI、DpnI、DpnII、DraI、DraIII、DrdI、EacI、EagI、EarI、EciI、Eco53kI、EcoNI、EcoO109I、EcoP15I、EcoRI、EcoRV、FatI、FauI、Fnu4HI、FokI、FseI、FspI、HaeII、HaeIII、HgaI、HhaI、HincII、HindIII、HinfI、HinPlI、HpaI、HpaII、HphI、Hpy166II、Hpy188I、Hpy188III、Hpy99I、HpyAV、HpyCH4III、HpyCH4IV、HpyCH4V、KasI、KpnI、MboI、MboII、MfeI、MluI、MlyI、MmeI、MnlI、MscI、MseI、MslI、MspAlI、MspI、MwoI、NaeI、NarI、Nb.BbvCI、Nb.BsmI、Nb.BsrDI、Nb.BtsI、NciI、NcoI、NdeI、NgoMIV、NheI、NlaIII、NlaIV、NmeAIII、NotI、NruI、NsiI、NspI、Nt.AlwI、Nt.BbvCI、Nt.BsmAI、Nt.BspQI、Nt.BstNBI、Nt.CviPII、PacI、PaeR7I、PciI、PflFI、PflMI、PhoI、PleI、PmeI、PmlI、PpuMI、PshAI、PsiI、PspGI、PspOMI、PspXI、PstI、PvuI、PvuII、RsaI、RsrII、SacI、SacII、SalI、SapI、Sau3AI、Sau96I、SbfI、ScaI、ScrFI、SexAI、SfaNI、SfcI、SfiI、SfoI、SgrAI、SmaI、SmlI、SnaBI、SpeI、SphI、SspI、StuI、StyD4I、StyI、SwaI、T、TaqαI、TfiI、TliI、TseI、Tsp45I、Tsp509I、TspMI、TspRI、Tth111I、XbaI、XcmI、XhoI、XmaI、XmnI和ZraI。得到的片段可大小不一。得到的片段还可包含在5’或3’端处的单链突出。

在一些实施方案中，使用超声处理技术，可以得到约100至5000个核苷酸的片段。或者，可得到约100至1000、约150至1000、约150至500、约200至500或约200至400个核苷酸的片段。样本可被制备为用于测序交联的偶连序列片段。在一些情况下，例如通过连接两个在分子内交联的序列片段，可生成单个的、短段的多核苷酸。使用本文进一步具体描述的或本领域已知的任何合适的测序技术，例如高通量测序法，可从样本中获得序列信息。例如连接产物可进行双端测序，得到来自片段每个末端的序列信息。在得到的序列信息中可描述序列片段的配对，这与沿着多核苷酸隔开两个序列片段的线性距离的单体型信息相关。

由Hi-C生成的数据特征之一是发现当被定位回基因组时，大多数读对紧密线性接近。即，发现大多数读对在基因组中互相靠近。在得到的数据组中，染色体内接触的概率平均比染色体间接触的概率高得多，正如所预期的如果染色体占据不同的区域。此外，尽管相互作用的概率随着线性距离而急剧减小，相同染色体上甚至被大于200Mb隔开的基因座比不同染色体上的基因座更可能相互作用。在检测长距离染色体内以及特别是染色体间的接触过程中，该短距离和中等距离染色体内接触的“背景(background)”为待使用Hi-C分析剔除的背景噪音。

显著地，真核生物中的Hi-C试验已经显示，除了种特异性的和细胞类型特异性的染色质相互作用，还有两种典型的相互作用类型。一种类型是距离依赖性衰减(distance-dependentdecay，DDD)，作为基因组距离的函数的相互作用频率中的衰减总体趋势。第二种类型顺反比(cis-transratio，CTR)是位于同个染色体上的基因座之间比不同染色体上的基因座之间显著更高的相互作用频率，即使当同个染色体上的基因座被上千万碱基序列隔开。这些类型可反映总体的聚合物动力学(其中近端基因座具有更高的随机相互作用的概率)、以及特异性核组织特征，所述特征例如染色体区域的形成、分裂间期染色体倾向于占据细胞核内不同的空间而几乎不混合的现象。尽管这两种类型的确切细节可在种、细胞类型和细胞条件之间有所变化，它们是普遍存在和突出的。这些类型如此强且一致，以致它们被用于评估试验质量，并且经常在数据中被标准化，以揭示详细的相互作用。然而，在本文所公开的方法中，基因组组装可利用基因组的三维结构。使得典型Hi-C相互作用类型成为特异性环相互作用分析的阻碍的特征，即其普遍性、强度和一致性，可用作估算重叠群的基因组位置的有力工具。

在特别的实施方案中，检查染色体内读对之间的物理距离表明基因组组装相关数据的一些有用特征。首先，较短距离的相互作用比较长距离的相互作用更为常见(例如参见图6)。换言之，读对中的每个读段更可能以实际基因组中邻近的区域匹配，而不是远离的区域。其次，中等距离和长距离的相互作用具有长长的尾巴。换言之，读对载有关于千碱基(kB)或甚至百万碱基(Mb)距离的染色体内排列的信息。例如，读对可提供跨度为大于约10kB、约50kB、约100kB、约200kB、约500kB、约1Mb、约2Mb、约5Mb、约10Mb或约100Mb的序列信息。这些数据特征简单表明，相同染色体上邻近的基因组区域更可能紧密地物理接近——预期的结果，因为它们通过DNA骨架彼此化学地连接。可推测基因组广度的染色质相互作用数据组，例如那些由Hi-C生成的，将提供与沿着整个染色体的序列的分组和线性组织有关的长距离信息。

尽管用于Hi-C的试验方法简单并且成本相对低，用于基因组组装和单体型分析的现有流程需要10⁶–10⁸个细胞，这是不可能得到的相当大量的材料，特别是来自某些人类患者样本。相比之下，本文所公开的方法包括允许以显著较少的来自细胞的材料对基因型组装、单体型定相和宏基因组产生准确和预测性的结果的方法。例如，用本文所公开的方法可使用少于约0.1μg、约0.2μg、约0.3μg、约0.4μg、约0.5μg、约0.6μg、约0.7μg、约0.8μg、约0.9μg、约1.0μg、约1.2μg、约1.4μg、约1.6μg、约1.8μg、约2.0μg、约2.5μg、约3.0μg、约3.5μg、约4.0μg、约4.5μg、约5.0μg、约6.0μg、约7.0μg、约8.0μg、约9.0μg、约10μg、约15μg、约20μg、约30μg、约40μg、约50μg、约60μg、约70μg、约80μg、约90μg、约100μg、约150μg、约200μg、约300μg、约400μg、约500μg、约600μg、约700μg、约800μg、约900μg或约1000μg的DNA。在一些实施例中，本文所公开的方法中所使用的DNA可提取自少于约1,000,000个、约500,000个、约100,000个、约50,000个、约10,000个、约5,000个、约1,000个、约5,000个或约1,000个、约500个或约100个细胞。

一般地，用于染色体物理布局的方法，例如基于Hi-C的技术，利用在细胞/生物体中形成的染色质，例如分离自培养细胞或初级组织的染色质。本发明不仅可供用分离自细胞/生物体的染色质使用这些技术，还可用重构染色质。重构染色质在多种特征方面区别于细胞/生物体内形成的染色质。首先，对于很多样本，可通过使用多种非入侵性至入侵性的方法，例如通过采集体液、口腔或直肠区域的拭子、取上皮样本等，完成裸DNA样本的采集。其次，重构染色质基本阻止了染色体间以及其它长距离相互作用的形成，这些相互作用生成了基因组组装和单体型定相的假象(artifacts)。在一些情况下，根据本发明的方法和组合物，样本可具有少于约20、15、12、11、10、9、8、7、6、5、4、3、2、1、0.5、0.4、0.3、0.2、0.1％或更少的染色体间或分子间的交联。在一些实施例中，样本可具有少于约5％染色体间或分子间的交联。在一些实施例中，样本可具有少于约3％染色体间或分子间的交联。在进一步的实施例中，样本可具有少于约1％染色体间或分子间的交联。第三，可调整能够交联的位点的频率，并从而调整多核苷酸内的分子内交联频率。例如，可改变DNA与组蛋白的比例，以使核小体密度可被调整至期望值。在一些情况下，核小体密度减少至低于生理水平。相应地，可改变交联的分布以有利于长程相互作用。在一些实施方案中，可制备具有不同交联密度的子样本，以覆盖短程和长程关联。例如，可调整交联条件，以使至少约1％、约2％、约3％、约4％、约5％、约6％、约7％、约8％、约9％、约10％、约11％、约12％、约13％、约14％、约15％、约16％、约17％、约18％、约19％、约20％、约25％、约30％、约40％、约45％、约50％、约60％、约70％、约80％、约90％、约95％或约100％的交联发生在下述DNA片段之间，所述DNA片段在样本DNA分子上相隔至少约50kb、约60kb、约70kb、约80kb、约90kb、约100kb、约110kb、约120kb、约130kb、约140kb、约150kb、约160kb、约180kb、约200kb、约250kb、约300kb、约350kb、约400kb、约450kb或约500kb。

在各种实施方案中，本发明提供了多种方法，使多个读对能够被定位至多个重叠群。有一些公众可获得的计算机程序用于使读段定位至重叠群序列。这些读段定位程序数据还提供描述基因组内的特定读段定位独特性程度的数据。从以高置信度、独特地定位至重叠群内的读段群体，我们可推断出每个读对中的读段之间的距离分布。这些是图6中所示的数据。对于那些读段确信地定位至不同重叠群的读对，该定位数据意味着所谈及的两个重叠群之间的连接。这也暗示了两个重叠群之间的距离，其与上述分析所得距离的分布成比例。因此，其读段定位至不同重叠群的每个读对都意味着在正确组装中两个重叠群之间的连接。从所有这些定位的读对推断得出的连接可汇总于邻接矩阵中，其中用行和列表示每个重叠群。连接重叠群的读对在相应行和列中标记为非零的值，表示读对中的读段所定位至的重叠群。大多数读对将定位在重叠群内，从中可得到读对之间距离的分布，且从中可使用定位至不同重叠群的读对构建重叠群的邻接矩阵。

在各种实施方案中，本发明提供了以下方法，其包括利用来自读对数据的读段定位数据，构建重叠群的邻接矩阵。在一些实施方案中，邻接矩阵使用了用于读对的加权方式，体现了短程相互作用超过长程相互作用的趋势(例如参见图3)。跨越较短距离的读对通常比跨越较长距离的读对更为常见。使用定位至单个重叠群的读对数据，可拟合描述特定距离概率的函数，以了解这种分布。因此，定位至不同重叠群的读对的重要特征之一就是其定位在重叠群上的位置。对于均定位至靠近重叠群一端的读对，这些重叠群之间的推断距离可以是短的并从而相接的读段之间的距离小。由于读对之间的较短距离比较长距离更为常见，该配置更强有力地证明，这两个重叠群比远离重叠群的边缘定位的读段相邻。因此，邻接矩阵中的连接由读段距重叠群边缘的距离被进一步加权。在进一步的实施方案中，可进一步重新调节邻接矩阵，以减少表示基因组混杂区域的一些重叠群上的大量接触的权重。这些基因组的区域可通过具有高比例的定位至它们的读段被鉴别，其是更可能含有可能为组装提供错误信息的伪读段定位的先验(priori)。在进一步的实施方案中，该调节可通过寻找针对一个或多个调节染色质骨架相互作用的介质的一个或多个保守结合位点进行引导，例如转录抑制子CTCF、内分泌受体、粘连蛋白或共价修饰的组蛋白。

在一些实施方案中，本发明提供了在此公开的一种或多种方法，其包括以下步骤：分析邻接矩阵，以确定经过代表其次序和/或对基因组的方向的重叠群的路径。在其它实施方案中，可选择经过重叠群的路径，以使每个重叠群正好被访问一次。在进一步的实施方案中，选择经过重叠群的路径，以使经过邻接矩阵的路径最大化被访问的边缘权重的总和。通过这种方式，提出最可能的重叠群连接用于正确组装。在进一步的实施方案中，选择经过重叠群的路径，以使每个重叠群正好被访问一次并且使邻接矩阵的边缘权重最大化。

在二倍体基因组中，往往很重要的是了解哪些等位基因变异体相连在同个染色体上。这被称为单体型定相。来自高通量序列数据的短读段很少允许人们直接观察哪些等位基因变异体相连。在长距离的情况下，单体型定相的计算推断是不可靠的。本发明提供了一种或多种方法，其使用读对上的等位基因变异体，确定哪些等位基因变异体相连。

在各种实施方案中，本发明的方法和组合物使与多个等位基因变异体相关的二倍体或多倍体基因组的单体型定相成为可能。本文所描述的方法从而可基于来自读对和/或使用所述读对的组装的重叠群的变异体信息，确定相连的等位基因变异体被连接。等位基因变异体的示例包括但不限于那些由1000genomes、UK10K、HapMap或其它用于发现人类中遗传变异的计划所得知的。通过得到所证实的单体型定相数据，可以更容易揭露疾病与特定基因的相关性，例如通过在SH3TC2的两个拷贝中发现非连接的、失活性突变，导致腓骨肌萎缩症(Charcot-Marie-Tooth)神经病变(LupskiJR，ReidJG，Gonzaga-JaureguiC等，N.Engl.J.Med.362：1181–91，2010)，以及通过在ABCG5的两个拷贝中发现非连接的、失活性突变，导致高胆固醇血症9(RiosJ，SteinE，ShendureJ等,Hum.Mol.Genet.19：4313–18，2010)。

人类平均在1,000个位点中有1个位点是杂合的。在一些情况下，使用高通量测序法的单个泳道数据能够产生至少约150,000,000个的读对。读对的长度可为约100个碱基对。由这些参数可知，估计来自人类样本的全部读段的十分之一覆盖杂合位点。因此，估计平均来自人类样本的全部读对的百分之一覆盖杂合位点。相应地，约1,500,000个读对(150,000,000的百分之一)使用单个泳道提供定相数据。人类基因组中大约有30亿个碱基，千分之一为杂合子，人类基因组平均有大约3百万个杂合位点。表示一对杂合位点的读对为大约1,500,000个，使用典型的高通量测序机器，使用高通量测序法定相的单泳道，每个杂合位点的平均覆盖率为约(1X)。从而，二倍体人类基因组可用一条泳道的高通量测序数据进行可靠地、完整地定相，该数据与来自使用本文所公开的方法制备的样本的序列变异体相关。在一些实施例中，一条泳道的数据可以是一组DNA序列读段数据。在进一步的实施例中，一条泳道的数据可以是来自高通量测序仪器的单次运行的一组DNA序列读段数据。

由于人类基因组由两套同源染色体组成，理解个体的真实基因组成要求描述基因材料的母方和父方拷贝或单体型。在个体中获得的单体型在一些方面是有用的。首先，单体型在预测器官移植中的供体-受体配型结果中是临床上有用的，并且越来越多地用作检测疾病相关性的方式。其次，在显示复合杂合性的基因中，单体型提供了关于两种有害变异体是否位于相同等位基因上的信息，大大地影响了预测这些变异体的遗传是否有害。第三，来自多组个体的单体型已经提供了群体结构和人类进化历史上的信息。最后，最近描述的基因表达中的普遍的等位基因失衡表明，等位基因之间的遗传或表观遗传的差异可能促成表达中的定量差异。理解单体型结构将描述促成等位基因失衡的变异体机制。

在特定实施方案中，本文所公开的方法包括固定和捕获基因组远隔的区域之间的相关性的体外技术，如长程连接和定相所需。在一些情况下，该方法包括构建和测序XLRP文库，以产出基因组上非常远隔的读对。在一些情况下，相互作用最初从单个DNA片段内的随机配对产生。在一些实施例中，可推断片段之间的基因组距离，因为在DNA分子中彼此邻近的片段更频繁地相互作用，概率更高，而分子远隔的部分之间的相互作用将较不频繁。因此，连接两个基因座的对数与其在输入DNA上的邻接性之间，具有系统关联性。如图2中所示，本发明可产生能够跨越提取中最大的DNA片段的读对。用于该文库的输入DNA最大长度为150kbp，这是我们从测序数据观察到的最长的有意义的读对。这表示如果输入DNA片段更大，本发明还可连接基因组上相隔更远的基因座。通过应用特别适合处理由本方法产生的数据类型的改进的组装软件工具，可实现完整的基因组组装。

通过使用本发明的方法和组合物产生的数据，可以得到非常高的定相准确度。与先前的方法相比，本文所述的方法可定相更高比例的变异体。可实现定相，同时维持高水平的准确度。该相位信息可延伸至更长的范围，例如大于约200kbp、约300kbp、约400kbp、约500kbp、约600kbp、约700kbp、约800kbp、约900kbp、约1Mbp、约2Mbp、约3Mbp、约4Mbp、约5Mbp或约10Mbp。在一些实施方案中，使用少于约2.5亿读段或读对，例如通过仅使用IlluminaHiSeq的1条泳道的数据，可以以高于99％的准确度定相大于90％的用于人类样本的杂合SNP。在其它情况下，使用少于约2.5亿或5亿读段或读对，例如通过仅使用IlluminaHiSeq的1条或2条泳道的数据，可以以高于约70％、80％、90％、95％或99％的准确度定相大于约40％、50％、60％、70％、80％、90％、95％或99％的用于人类样本的杂合SNP。例如，使用少于约2.5亿万或5亿读段或读对，可以以高于95％或99％的准确度定相大于95％或99％的用于人类样本的杂合SNP。在进一步的情况下，可通过将读段的长度增加至约200bp、250bp、300bp、350bp、400bp、450bp、500bp、600bp、800bp、1000bp、1500bp、2kbp、3kbp、4kbp、5kbp、10kbp、20kbp、50kbp或100kbp，捕获另外的变异体。

在本发明的其它实施方案中，来自XLRP文库的数据可用于确认长程读对的定向能力。如图6中所示，那些结果的准确度与现有最好的技术处于同等水平，但进一步延伸至显著更长的距离。用于特定测序方法的现有样本制备流程鉴别位于读长为例如150bp内的靶向限制酶切位点内的变异体型，用于定相。在一个实施例中，来自为NA12878构建的XLRP文库，NA12878是一种用于组装的基准样本，以大于99％的准确度定相44％的所存在的1,703,909个杂合SNP。在一些情况下，用明智选择的限制性内切酶或用不同酶的组合，该比例可扩展至几乎全部变异位点。

在一些实施方案中，本发明所述的组合物和方法允许研究宏基因组，例如那些在人类消化道内发现的。相应地，可研究栖息于给定生态环境的一些或所有生物体的部分或全部基因组序列。示例包括随机测序全部消化道微生物、发现于皮肤某些区域上的微生物和生活在毒性废物位置的微生物。可使用本发明所述的组合物和方法，确定这些环境中的微生物群体的组成，以及由其各自基因组编码的互相联系的生物化学方面。本发明所述的方法可实现从复杂生物环境中进行宏基因组研究，例如那些包含多于2个、3个、4个、5个、6个、7个、8个、9个、10个、12个、15个、20个、25个、30个、40个、50个、60个、70个、80个、90个、100个、125个、150个、175个、200个、250个、300个、400个、500个、600个、700个、800个、900个、1000个、5000个、10000个或更多的生物体和/或生物体变异体的生物环境。

使用本发明所述的方法和系统，可实现癌症基因组测序所需的高准确度。不准确的参照基因组可能在测序癌症基因组时面临碱基识别的挑战。异质样本和小的起始材料，例如由活组织检查得到的样本，带来了额外的挑战。此外，对于癌症基因组测序，检测大型结构变异型和/或杂合性的损失通常是至关重要的，区别体细胞变异型和碱基识别中的错误的能力也是至关重要的。

本发明所述的系统和方法可从含有2个、3个、4个、5个、6个、7个、8个、9个、10个、12个、15个、20个或更多个不同基因组的复杂样本中，生成准确的长序列。可分析正常、良性和/或肿瘤来源的混合样本，视情况可不需要正常对照。在一些实施方案中，使用少至100ng或者甚至少至数百个基因组当量的起始样本，以生成准确的长序列。本发明所述的系统和方法可检测大型结构变异体和重排。可沿着长序列获得定相的变异体识别(variantcall)，该长序列跨越约1kbp、约2kbp、约5kbp、约10kbp、20kbp、约50kbp、约100kbp、约200kbp、约500kbp、约1Mbp、约2Mbp、约5Mbp、约10Mbp、约20Mbp、约50Mbp或约100Mbp或更多个核苷酸。例如可沿着跨越约1Mbp或约2Mbp的长序列，获得定相的变异体识别。

使用本发明所述的方法和系统确定的单体型可被指配至计算资源，例如网络上的计算资源，该网络例如云系统。如果必要，可以使用计算资源中储存的相关信息，修正短的变异体识别。可基于来自短的变异体识别和计算资源中储存的信息的组合信息检测结构变异体。为了提高准确度，可重新组装基因组的不确定部分，例如片段重复、易于结构变异的区域、高度变异和医学上相关的MHC区、着丝粒和端粒区、以及其它异染色质区，包括但不限于那些具有重复区、低序列准确度、高变异率、ALU重复、片段重复或其它任何本领域已知的相关不确定部分。

样本类型可被指配至本地序列信息或联网的计算资源中的序列信息，该计算资源例如云。在已知信息来源的情况下，例如当信息来源自癌症或正常组织，该来源可被指配至样本作为样本类型的一部分。其它样本类型示例通常包括但不限于组织类型、样本采集方法、传染的存在、传染的类型、处理方法、样本的大小等。在可获得完整的或部分的比较基因组序列的情况下，例如与癌症基因组比对的正常基因组，可确定并可选择地输出样本数据和比较基因组序列之间的差异。

本发明的方法可用于感兴趣的选择性基因组区域的遗传信息分析，以及可与感兴趣的选择性区域相互作用的基因组区域。本文公开的扩增方法可用于本领域已知用于遗传分析的装置、试剂盒和方法，例如，但不限于在美国专利6,449,562、6,287,766、7,361,468、7,414,117、6,225,109和6,110,709中所发现的那些。在一些情况下，本发明的扩增方法可用于扩增用于DNA杂交研究的靶核酸，用于确定存在或不存在多态性。多态性，或等位基因，可与例如遗传病的疾病或失调相关。在其它情况下，多态性可与疾病或失调的易感性相关，例如与成瘾、退化和年龄相关的失调、癌症等相关的多态性。例如在其它情况下，多态性可与有益性状相关，例如增强冠状动脉健康或对例如HIV或疟疾的疾病的抵抗力或对例如骨质疏松症、阿茨海默氏症或痴呆症的退行性疾病的抵抗力。

本发明的组合物和方法可用于诊断、预后、治疗、对病人进行分层、药物开发、治疗选择和筛选目的。本发明具有优势如下：使用本发明的方法，可一次从单个生物分子样本分析多种不同的靶分子。这允许，例如在一个样本上进行几次诊断检测。

本发明的组合物和方法可用于基因组中。本发明所述的方法可快速提供满足该应用的答案。本发明所述的方法和组合物可用于发现生物标记的过程，该生物标记可用于诊断或预后以及用作健康和疾病的指示剂。本发明所述的方法和组合物可用于筛选药物，例如药物开发、治疗选择、测定疗效和/或鉴别用于药物开发的靶。在涉及药物的筛选试验时测试基因表达的能力非常重要，因为蛋白质是体内的最终基因产物。在一些实施方案中，本发明所述的方法和组合物将同时测量蛋白质和基因表达，这将提供与正在进行的特定筛选相关的最多信息。

本发明的组合物和方法可用于基因表达分析中。本发明所述的方法区别核苷酸序列。靶核苷酸序列之间的差异可为例如单个核酸碱基差异、核酸缺失、核酸插入或重排。这些涉及多于一个碱基的序列差异还可被检测。本发明的方法能够检测传染病、遗传病和癌症。这在环境监测、鉴证和食品科学中也是有用的。可在核酸上进行的遗传分析的示例包括例如SNP检测、STR检测、RNA表达分析、启动子甲基化、基因表达、病毒检测、病毒亚分型和抗药性。

本方法可应用于分析从患者得到或来源于患者的生物分子样本，以确定患病的细胞类型是否存在于样本中、疾病的阶段、患者的预后、患者响应特定治疗的能力或对于患者最好的治疗。本发明方法还可应用于鉴别特定疾病的生物标记。

在一些实施方案中，本发明所述的方法用于病情诊断中。此处所用的术语“诊断”或病情“诊断”可包括预测或诊断病情、确定对病情的易感染体质、监控病情治疗、诊断疾病的治疗响应或对病情、病情进展或疾病的特定治疗的响应的预后。例如根据本发明所述方法中的任何一种可化验血液样本，以确定疾病或恶性细胞类型的标记在样本中的存在和/或数量，从而对疾病或癌症进行诊断或分期。

在一些实施方案中，本发明所述的方法和组合物用于病情的诊断和预后。

本发明所述的方法特别地可用于处理许多免疫性、增生性和恶性的疾病及失调。免疫性疾病及失调包括变应性疾病及失调、免疫功能的失调、以及自免疫疾病和状况。变应性疾病及失调包括但不限于过敏性鼻炎、过敏性结膜炎、过敏性哮喘、特应性湿疹、特应性皮炎和食物过敏。免疫功能缺陷类病变包括但不限于重症联合免疫缺陷(SCID)、高嗜酸粒细胞综合征、慢性肉芽肿病、白细胞黏附缺陷病I型和II型、高IgE综合征、先天性白细胞颗粒异常综合征(ChediakHigashi)、中性白细胞增多症、嗜中性白细胞减少症、发育不全、血中丙球蛋白缺乏症、高IgM综合征、迪格奥尔格/软腭-心-面综合征和干扰素γ-TH1通路缺陷。自免疫和免疫调节异常疾病包括但不限于风湿性关节炎、糖尿病、全身性红斑狼疮、格雷夫斯病、格雷夫斯眼病、克罗恩病、多发性硬化症、银屑病、全身性硬化症、甲状腺肿及淋巴瘤性甲状腺肿(桥本氏甲状腺炎、淋巴细胞性甲状腺肿)、斑秃、自身免疫性心肌炎、硬化性苔癣、自身免疫性葡萄膜炎、阿狄森氏病、萎缩性胃炎、重症肌无力、特发性血小板减少性紫癜、溶血性贫血、原发性胆汁性肝硬化、韦格纳氏肉芽肿病、结节性多动脉炎、以及炎症性肠病、同种异体移植物排斥以及来自对传染性微生物或环境抗原的变态反应的组织破坏。

可通过本发明的方法进行评估的增生性疾病和失调包括但不限于新生儿血管瘤病；继发进展型多发性硬化症；慢性进展型骨髓退行性疾病；神经纤维瘤；节细胞性神经瘤病；瘢痕疙瘩形成；畸形性骨炎、纤维性囊肿病(例如乳腺的或子宫的)；类肉状瘤病；Peronies和Duputren纤维化(PeroniesandDuputren'sfibrosis)、肝硬化、动脉粥样硬化和血管再狭窄。

可通过本发明的方法进行评估的恶性疾病和失调包括恶性血液病和实体瘤两者。

当样本为血液样本时，恶性血液病尤其可由本发明的方法处理，因为这样的恶性肿瘤涉及血液传播的细胞中的变化。这样的恶性肿瘤包括非霍奇金氏淋巴瘤、霍奇金氏淋巴瘤、非-B细胞淋巴瘤和其它淋巴瘤、急性或慢性白血病、红血球增多症、血小板增多症、多发性骨髓瘤、骨髓增生异常综合征、骨髓增生性疾病、骨髓纤维化、非典型免疫淋巴增生和浆细胞异常。

可通过本发明的方法评估的浆细胞异常包括多发性骨髓瘤、淀粉样变性病和原发性巨球蛋白血症。

实体瘤的示例包括但不限于直肠癌、乳腺癌、肺癌、前列腺癌、脑瘤、中枢神经系统肿瘤、膀胱瘤、黑素瘤、肝癌、骨肉瘤及其它骨癌、睾丸和卵巢癌、头颈部肿瘤和宫颈肿瘤。

本发明的方法还可检测遗传病。这可通过针对染色体和基因畸变或用于遗传病的产前或产后筛选进行。可检测的遗传病的示例包括：21羟化酶缺陷症、囊性纤维化、脆性X综合征、特纳综合征、杜氏肌营养不良症、唐氏综合症或其它染色体三倍体症、心脏病、单基因疾病、人类白细胞抗原(HLA)分型、苯丙酮尿症、镰状细胞性贫血、泰-萨克斯病、地中海贫血、克兰费尔特综合征、泰-萨克斯病、亨廷顿病、自身免疫疾病、脂沉积症、肥胖缺陷症、血友病、先天性代谢异常和糖尿病。

本发明所述的方法可通过分别确定样品中细菌或病毒的标记物的存在和/或数量，用于诊断病原体传染，例如胞内细菌和病毒传染。

本发明的方法可检测多种传染病。这些传染病可由细菌、病毒、寄生虫和真菌感染原所导致。也可使用本发明确定各种感染原的抗药性。

可由本发明检测的细菌感染原包括大肠杆菌(Escherichiacoli)、沙门氏菌(Salmonella)、志贺氏菌(Shigella)、克雷伯氏细菌(Klesbiella)、假单胞菌(Pseudomonas)、单核细胞增多性李斯特氏菌(Listeriamonocytogenes)、结核分枝杆菌(Mycobacteriumtuberculosis)、鸟胞内分枝杆菌(Mycobacteriumaviumintracellulare)、耶尔森氏菌(Yersinia)、弗朗西斯氏菌(Francisella)、巴斯德菌(Pasteurella)、布鲁氏菌(Brucella)、梭状芽胞杆菌(Clostridia)、百日咳博德特氏杆菌(Bordetellapertussis)、拟杆菌(Bacteroides)、金黄色葡萄球菌(Staphylococcusaureus)、肺炎链球菌(Streptococcuspneumonia)、乙型溶血性链球菌(B-Hemolyticstrep.)、棒状杆菌(Corynebacteria)、军团杆菌(Legionella)、支原体(Mycoplasma)、脲原体(Ureaplasma)、衣原体(Chlamydia)、淋病奈瑟菌(Neisseriagonorrhea)、脑膜炎奈瑟菌(Neisseriameningitides)、流感嗜血杆菌(Hemophilusinfluenza)、粪肠球菌(Enterococcusfaecalis)、普通变形杆菌(Proteusvulgaris)、奇异变形杆菌(Proteusmirabilis)、幽门螺杆菌(Helicobacterpylori)、梅毒螺旋体(Treponemapalladium)、伯氏疏螺旋体(Borreliaburgdorferi)、回归热疏螺旋体(Borreliarecurrentis)、立克次氏体属病原体(Rickettsialpathogens)、诺卡氏菌(Nocardia)和放线菌(Acitnomycetes)。

可由本发明检测的真菌感染原包括新型隐球菌(Cryptococcusneoformans)、皮炎芽生菌(Blastomycesdermatitidis)、荚膜组织胞浆菌(Histoplasmacapsulatum)、粗球孢子菌(Coccidioidesimmitis)、巴西副球孢子菌(Paracoccidioidesbrasiliensis)、白色念珠菌(Candidaalbicans)、烟曲霉(Aspergillusfumigautus)、藻菌类(根霉菌属)(Phycomycetes(Rhizopus))、申克氏孢子丝菌(Sporothrixschenckii)、着色真菌病(Chromomycosis)和马杜拉分支菌病(Maduromycosis)。

可由本发明检测的病毒感染原包括人类免疫缺陷病毒、人类T淋巴细胞病毒、肝炎病毒(例如乙型肝炎病毒和丙型肝炎病毒)、爱泼斯坦-巴尔氏病毒(Epstein-Barrvirus)、巨细胞病毒、人乳头瘤病毒、正粘病毒、副粘液病毒、腺病毒、冠状病毒、弹状病毒(rhabdoviruses)、脊髓灰质炎病毒、披膜病毒、布尼亚病毒(bunyaviruses)、沙粒病毒(arenaviruses)、风疹病毒(rubellaviruses)和呼肠孤病毒(reoviruses)。

本发明可检测的寄生性介质包括恶性疟原虫(Plasmodiumfalciparum)、三日疟原虫(Plasmodiummalaria)、间日疟原虫(Plasmodiumvivax)、卵形疟原虫(Plasmodiumovale)、旋盘尾丝虫(Onchovervavolvulus)、利什曼虫(Leishmania)、锥虫属(Trypanosomaspp.)、血吸虫属(Schistosomaspp.)、痢疾变形虫(Entamoebahistolytica)、隐孢子虫(Cryptosporidum)、贾第虫属(Giardiaspp.)、毛滴虫属(Trichimonasspp.)、结肠小袋虫(Balatidiumcoli)、班氏吴策线虫(Wuchereriabancrofti)、弓形虫属(Toxoplasmaspp.)、蠕形住肠线虫(Enterobiusvermicularis)、蛔虫(Ascarislumbricoides)、鞭虫(Trichuristrichiura)、麦地那龙线虫(Dracunculusmedinesis)、吸虫(trematodes)、阔节裂头绦虫(Diphyllobothriumlatum)、绦虫属(Taeniaspp.)、卡氏肺孢子虫(Pneumocystiscarinii)和美州板口线虫(Necatoramericanis)。

本发明还可用于检测感染原的抗药性。例如耐万古霉素屎肠球菌(Enterococcusfaecium)、耐甲氧西林金黄色葡萄球菌(Staphylococcusaureus)、耐盘尼西林肺炎链球菌(Streptococcuspneumoniae)、多重耐药结核分支杆菌(Mycobacteriumtuberculosis)和耐叠氮胸苷人类免疫缺陷病毒，均可用本发明进行鉴别。

因此，使用本发明的组合物和方法检测的靶分子可以是患者标记物(例如癌症标记物)或者用外来介质感染的标记物，例如细菌或病毒标记物。

本发明的组合物和方法可用于鉴别和/或定量靶分子，其丰度表示生物学状态或疾病状况，例如随着病情上调或下调的血液标记物。

在一些实施方案中，本发明的方法和组合物可用于细胞因子表达。本文所述方法的低敏感性将有助于早期检测细胞因子(例如作为病情生物标记物的细胞因子)，例如癌症的疾病的诊断或预后，，以及鉴别亚临床状况。

靶多核苷酸来源的不同样本可包含多个来自同一个体的样本、来自不同个体的样本或其组合。在一些实施方案中，样本包含多个来自同一个体的多核苷酸。在一些实施方案中，样本包含多个来自两个或更多个体的多核苷酸。个体为靶多核苷酸来源的任何生物体或该生物体的一部分，其非限制性示例包括植物、动物、真菌、原生生物、无核原生物、病毒、线粒体和叶绿体。样本多核苷酸可分离自受试者，例如来源于该受试者的细胞样本、组织样本或器官样本，包括例如培养的细胞系、活组织检查、血液样本或含有细胞的血液样本。受试者可以是动物，包括但不限于例如牛、猪、小鼠、大鼠、鸡、猫、狗等动物，并且通常为哺乳动物，例如人类。样本还可例如通过化学合成被人工地获得。在一些实施方案中，样本包含DNA。在一些实施方案中，样本包含基因组DNA。在一些实施方案中，样本包含线粒体DNA、叶绿体DNA、质粒DNA、细菌人工染色体、酵母人工染色体、寡核苷酸标签或其组合。在一些实施方案中，样本包括使用引物和DNA聚合酶的任何合适的组合，由引物延伸反应生成的DNA，所述反应包括但不限于聚合物链式反应(PCR)、逆转录、及其组合。用于引物延伸反应的模版为RNA时，逆转录产物称为互补DNA(cDNA)。在引物延伸反应中有用的引物可包括对一个或多个靶、随机序列、部分随机序列及其组合特异性的序列。适合于引物延伸反应的反应条件在本领域中是已知的。通常，样本多核苷酸包括存在于样本中的任何多核苷酸，其可能含有或可能不含有靶多核苷酸。

在一些实施方案中，从含有多种其它组分例如蛋白质、脂质和非模板核酸的生物样本中分离核酸模板分子(例如DNA或RNA)。可以从任何细胞材料中获得核酸模板分子，从动物、植物、细菌、真菌或任何其它细胞生物体中获得所述细胞材料。用于本发明中的生物样本包括病毒颗粒或制剂。可直接从生物体或从来自生物体的生物样本，例如血液、尿液、脑脊液、精液、唾液、痰液、粪便和组织获得核酸模板分子。任何组织和体液试样都可用作用于本发明的核酸的来源。核酸模板分子也可分离自培养细胞，例如原代细胞培养物或细胞系。模板核酸分子源自的细胞或组织可被病毒或其它胞内病原体感染。样本还可以是从生物试样提取的总RNA、cDNA文库、病毒的或基因组DNA。样本还可以是来自非细胞来源的分离的DNA，例如来自冻箱的扩增的/分离的DNA。

用于提取和纯化核酸的方法在本领域中已知。例如，核酸可通过用苯酚、苯酚/氯仿/异戊醇或类似的配方，包括TRIzol和TriReagent，进行有机提取纯化。提取技术的其它非限制性示例包括：(1)例如使用苯酚/氯仿有机试剂进行有机提取之后进行乙醇沉淀(Ausubel等，1993)，使用或不使用自动核酸提取器，例如可从AppliedBiosystems(FosterCity,Calif.)获得的型号341DNA提取器；(2)固定相吸附法(美国专利号5,234,809；Walsh等，1991)；和(3)盐诱导核酸沉淀法(Miller等，1988)，这样沉淀方法通常被称为“盐析出”法。另一个核酸分离和/或纯化的示例包括使用磁粒子，核酸可以特异性或非特异性地与磁粒子结合，然后使用磁铁进行磁珠分离，以及洗涤并将核酸从磁珠上洗脱(参见例如美国专利号5,705,628)。在一些实施方案中，上述分离方法之前可以是酶消化步骤，以帮助从样本中除去不期望的蛋白质，例如用蛋白酶K或其它类似的蛋白酶消化。参见例如美国专利号7,001,724。如果需要，可向裂解缓冲液添加核糖核酸酶抑制剂。对于某些细胞或样本类型，可取的是在流程中加入蛋白质变性/消化步骤。纯化方法可用于分离DNA、RNA或二者。当在提取过程中或提取过程之后一起分离DNA和RNA时，可采用进一步的步骤纯化一种或分别纯化二者。也可生成被提取的核酸的亚级分，例如按大小、序列或其它物理或化学特性进行纯化。除了初始核酸分离步骤，还可在本发明的方法中的任何步骤之后进行核酸纯化，例如用于除去过量的或不期望的试剂、反应物或产物。

可按照2003年10月9日公开的、公开号为US2002/0190663A1的美国专利申请所述，获得核酸模板分子。通常，可通过多种技术从生物样本中提取核酸，这些技术例如Maniatis等在MolecularCloning：ALaboratoryManual,ColdSpringHarbor,N.Y.，第280-281页(1982)中所描述的。在一些情况下，可首先从生物样本中提取核酸，然后在体外交联。在一些情况下，可进一步从核酸中除去天然缔合蛋白质(例如组蛋白)。

在其它实施方案中，本发明可以容易地应用于任何高分子量的双链DNA，包括例如分离自组织、细胞培养物、体液、动物组织、植物、细菌、真菌、病毒等的DNA。

在一些实施方案中，多个独立样本中的每一个可独立地包含至少约1ng、2ng、5ng、10ng、20ng、30ng、40ng、50ng、75ng、100ng、150ng、200ng、250ng、300ng、400ng、500ng、1μg、1.5μg、2μg、5μg、10μg、20μg、50μg、100μg、200μg、500μg或1000μg或更多的核酸材料。在一些实施方案中，多个独立样本中的每一个可独立地包含少于约1ng、2ng、5ng、10ng、20ng、30ng、40ng、50ng、75ng、100ng、150ng、200ng、250ng、300ng、400ng、500ng、1μg、1.5μg、2μg、5μg、10μg、20μg、50μg、100μg、200μg、500μg或1000μg或更多的核酸。

在一些实施方案中，用商业试剂盒进行末端修复以生成平末端5’磷酸化核酸末端，这些商业试剂盒例如可从EpicentreBiotechnologies(Madison,WI)获得的那些。

接头寡核苷酸包括具有能够连接至靶多核苷酸的序列的任何寡核苷酸，所述序列的至少一部分是已知的。接头寡核苷酸可包含DNA、RNA、核苷酸类似物、非典型核苷酸、标记的核苷酸、修饰的核苷酸或其组合。接头寡核苷酸可以是单链的、双链的或部分双链的。通常，部分双链的接头包含一个或多个单链区域和一个或多个双链区域。双链接头可包含两个不同的互相杂交的寡核苷酸(也称为“寡核苷酸双链体”)，杂交可留下一个或多个平末端、一个或多个3’突出、一个或多个5’突出、由于错配的和/或未配对的核苷酸产生的一个或多个凸起或这些的组合。在一些实施方案中，单链接头包含两个或更多个能够彼此杂交的序列。当单链接头中含有两个这种可杂交的序列时，杂交产生发夹结构(发夹接头)。当接头的两个杂交的区域通过非杂交的区域被彼此分隔开，产生“气泡”结构。含有气泡结构的接头可由包含内杂交的单个接头寡核苷酸组成，或者可包含两个或更多个彼此杂交的接头寡核苷酸。例如接头内的两个可杂交序列之间的内部序列杂交，可在单链接头寡核苷酸中产生双链结构。不同种类的接头可组合使用，例如发夹接头和双链接头，或者不同序列的接头。发夹接头中的可杂交序列可包括或可不包括寡核苷酸的一个或两个末端。当可杂交序列中不包括任何两个末端时，两个末端都是“自由的”或“突出的”。当接头中只有一个末端可与另一个序列杂交时，另一个末端形成突出，例如3’突出或5’突出。当可杂交序列中含有5’端核苷酸和3’端核苷酸二者，以使得5’端核苷酸和3’端核苷酸彼此互补并杂交时，该末端称为“平的(blunt)”。不同的接头可在连续反应中或同时连接至靶多核苷酸。例如，可向同个反应加入第一接头和第二接头。可在与靶多核苷酸结合之前处理接头。例如，可加入或除去端磷酸盐。

接头可含有多种序列元件中的一个或多个，包括但不限于一个或多个扩增引物退火序列或其互补序列、一个或多个测序引物退火序列或其互补序列、一个或多个的条码序列、在多种不同接头或不同接头的子集中共享的一个或多个共有序列、一个或多个限制性内切酶识别位点、与一个或多个靶多核苷酸突出互补的一个或多个突出、一个或多个探针结合位点(例如用于连接至测序平台，例如用于大规模平行测序的流动池，例如由Illumina公司所开发)、一个或多个随机或几乎随机的序列(例如从两个或多个不同核苷酸的集合在一个或多个位点随机选择的一个或多个核苷酸，其中在一个或多个位点选择的该不同核苷酸中的每一个都存在于含有该随机序列的接头池)、及其组合。两个或更多个序列元件可以互不相邻(例如被一个或多个核苷酸隔开)、彼此相邻、部分重叠或完全重叠。例如，扩增引物退火序列还可用作测序引物退火序列。序列元件可位于或靠近3’末端、位于或靠近5’末端或者在接头寡核苷酸内部。当接头寡核苷酸能够形成二级结构(例如发夹)时，序列元件可部分地或完全地位于该二级结构外部、部分地或完全地位于该二级结构内部或在参与该二级结构的序列之间中。例如，当接头寡核苷酸包含发夹结构时，序列元件可部分地或完全地位于该可杂交的序列(“茎”)的内部或外部，包括在该可杂交序列之间的序列(“环(loop)”)中。在一些实施方案中，具有不同条码序列的多个第一接头寡核苷酸中的第一接头寡核苷酸，包含在该多个第一接头寡核苷酸全体中共同的序列元件。在一些实施方案中，全部第二接头寡核苷酸包含在全部第二接头寡核苷酸中共同的序列元件，其与第一接头寡核苷酸共享的共有序列元件不同。序列元件的差异可以是任何使至少部分不同接头不完全对齐的差异，例如这是由于序列长度的改变、一个或多个核苷酸的缺失或插入或核苷酸组成在一个或多个核苷酸部位的改变(例如碱基改变或碱基修饰)。在一些实施方案中，接头寡核苷酸包含与一个或多个靶多核苷酸互补的5’突出、3’突出或者二者。互补的突出可以长度为一个或多个核苷酸，包括但不限于长度为1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个或更多个核苷酸。例如互补的突出可以长度为约1个、2个、3个、4个、5个或6个核苷酸。互补的突出可以包括固定序列。互补突出可包含一个或多个核苷酸的随机序列，以使得一个或多个核苷酸是从两个或多个不同核苷酸的集合中在一个或多个位点随机选择的，在一个或多个位点选择的该不同核苷酸中的每一个都存在于接头池中，所述接头池中的接头具有包含该随机序列的互补突出。在一些实施方案中，接头突出与靶多核苷酸突出互补，该靶多核苷酸突出由限制性内切核酸酶消化产生。在一些实施方案中，接头突出包含腺嘌呤或胸腺嘧啶。

接头寡核苷酸可具有合适的长度，至少足以容纳它们所含有的一个或多个序列元件。在一些实施方案中，接头长度为约10个、15个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、90个、100个、200个或更多个核苷酸，或小于该长度，或大于该长度。在一些实施例中，接头长度可为约10至约50个核苷酸。在进一步的实施例中，接头长度可为约20至约40个核苷酸。

如本文所用，术语“条码”指已知的核酸序列，其允许鉴别与该条码相关联的多核苷酸的某些特征。在一些实施方案中，待鉴别的多核苷酸的特征为该多核苷酸来源的样本。在一些实施方案中，条码长度可为至少3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个或更多个核苷酸。例如，条码长度可为至少10、11、12、13、14或15个核苷酸。在一些实施方案中，条码长度可小于10、9、8、7、6、5或4个核苷酸。例如，条码长度可小于10个核苷酸。在一些实施方案中，与某些多核苷酸相关联的条码的长度不同于与其它多核苷酸相关联的条码。通常，条码的长度足够长，并且条码包含充分不同的序列，以允许基于与其相关联的条码鉴别样本。在一些实施方案中，可在条码序列中的一个或多个核苷酸的突变、插入或缺失之后，例如1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个核苷酸的突变、插入或缺失之后，准确鉴别条码和与其相关联的样本来源。在一些实施例中，可突变、插入和/或缺失1个、2个或3个核苷酸。在一些实施方案中，多个条码中的每个条码至少在两个核苷酸位点，例如至少2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个位点，不同于多个条码中的每个其它条码。在一些实施例中，每个条码可在至少2个、3个、4个或5个位点不同于每个其它条码。在一些实施方案中，第一位点和第二位点均包含多个条码序列中的至少一个。在一些实施方案中，用于第二个位点的条码独立于用于第一接头寡核苷酸的条码进行选择。在一些实施方案中，使具有条码的第一位点和第二位点配对，以使配对的序列包含相同的或不同的一个或多个条码。在一些实施方案中，本发明的方法进一步包括基于靶多核苷酸连接的条码序列，鉴别靶多核苷酸来源的样本。通常，条码可包含下述核酸序列，所述核酸序列当被连接至靶多核苷酸时，用作靶多核苷酸来源样本的标识。

在真核生物中，基因组DNA被装进染色质中，以组成为细胞核内的染色体。染色质的基本结构单元为核小体，其由缠绕组蛋白八聚体的146个DNA碱基对(bp)组成。组蛋白八聚体由核心组蛋白H2A-H2B二聚体和H3-H4二聚体中的每一个的两个拷贝组成。核小体以通常被称作“绳珠”的方式有规律地沿着DNA隔开。

伴侣蛋白质和相关组装因子介导核心组蛋白和DNA组装为核小体。几乎所有这些因子都是核心组蛋白结合蛋白。部分组蛋白分子伴侣，例如核小体组装蛋白-1(NAP-1)，显示出结合至组蛋白H3和H4的偏好。同样已经观察到的是，新合成的组蛋白被乙酰化，然后在组装入染色质之后去乙酰化。介导组蛋白乙酰化或去乙酰化的因子从而在染色质组装过程中发挥重要的作用。

通常，已经开发了两种在体外的方法，用于重构或组装染色质。一种方法是不依赖ATP的，而第二种是依赖ATP的。用于重构染色质的不依赖ATP的方法涉及DNA和核心组蛋白，再加上类似NAP-1的蛋白质或盐，充当组蛋白分子伴侣。该方法导致组蛋白在DNA上的随机排布，其实质上不能准确地模仿细胞中的天然核心核小体颗粒。这些颗粒通常被称为单核小体，因为它们排布不规则，所使用的延伸核小体阵列和DNA序列往往不长于250bp(Kundu,T.K.等，Mol.Cell6：551-561，2000)。为了在更长的DNA序列上生成有序核小体的延伸阵列，必须通过依赖ATP的过程组装染色质。

周期性核小体阵列的依赖ATP的组装类似于天然染色质中所看到的，需要DNA序列、核心组蛋白颗粒、伴侣蛋白质和利用ATP的染色质组装因子。ACF(利用ATP的染色质组装和重构因子)或RSF(重构和间距因子)是两种被广泛研究的组装因子，用于将延伸的有序的核小体阵列在体外生成为染色质(Fyodorov、D.V.和Kadonaga，J.T.MethodEnzymol.371：499-515，2003；Kundu、T.K.等，Mol.Cell6：551-561，2000)。

在特定的实施方案中，本发明的方法可以容易地应用于任何类型的片段化的双链DNA，包括但不限于例如分离自血浆的、血清和/或尿液的游离DNA；分离自细胞和/或组织的凋亡DNA；在体外酶促地片段化的DNA(例如通过脱氧核糖核酸酶I和/或限制性内切核酸酶)；和/或被机械力片段化的DNA(充液剪切、超声处理、雾化等)。

从生物样本获得的核酸可被片段化，以产生用于分析的合适的片段。使用多种机械的、化学的和/或酶促的方法，模板核酸可被片段化或剪切至所需长度。DNA可通过超声处理被随机剪切，例如Covaris法、短期暴露至脱氧核糖核酸酶或使用一种或多种限制性内切酶的混合物或转座酶或切口酶。通过短期暴露至核糖核酸酶、热加镁或通过剪切，可将RNA片段化。RNA可被转化为cDNA。如果采用片段化，可以在片段化之前或之后，将RNA转化为cDNA。在一些实施方案中，来自生物样本的核酸通过超声处理被片段化。在其它实施方案中，核酸被充液剪切仪器片段化。通常，各核酸模板分子可从约2kb碱基到约40kb。在各种实施方案中，核酸可以是约6kb-10kb片段。核酸分子可以是单链的、双链的或带有单链区域的双链(例如茎环结构)。

在一些实施方案中，交联的DNA分子可经历大小选择步骤。可在特定大小之下或之上对交联的DNA分子进行核酸的大小选择。大小选择可进一步受到交联频率和/或片段化方法的影响，例如通过选择频繁切割限制性内切酶或稀有切割限制性内切酶。在一些实施方案中，可制备组合物，包含交联在以下范围的DNA分子：约1kb至5Mb、约5kb至5Mb、约5kB至2Mb、约10kb至2Mb、约10kb至1Mb、约20kb至1Mb、约20kb至500kb、约50kb至500kb、约50kb至200kb、约60kb至200kb、约60kb至150kb、约80kb至150kb、约80kb至120kb或约100kb至120kb或由这些数值中的任何一个所限定的任何范围(例如约150kb至1Mb)。

在一些实施方案中，样本多核苷酸被片段化成一个或多个特定大小范围的片段DNA分子的群体。在一些实施方案中，可从至少约1、约2、约5、约10、约20、约50、约100、约200、约500、约1000、约2000、约5000、约10,000、约20,000、约50,000、约100,000、约200,000、约500,000、约1,000,000、约2,000,000、约5,000,000、约10,000,000或更大基因组当量的起始DNA，生成片段。片段化可通过本领域已知的方法完成，包括化学的、酶促地和机械的片段化。在一些实施方案中，片段的平均长度为约10个至约10,000个、约10个至约20,000个、约10个至约30,000个、约10个至约40,000个、约10个至约50,000个、约10个至约60,000个、约10个至约70,000个、约10个至约80,000个、约10个至约90,000个、约10个至约100,000个、约10个至约150,000个、约10个至约200,000个、约10个至约300,000个、约10个至约400,000个、约10个至约500,000个、约10个至约600,000个、约10个至约700,000个、约10个至约800,000个、约10个至约900,000个、约10个至约1,000,000个、约10个至约2,000,000个、约10个至约5,000,000个、约10个至约10,000,000个或更多个核苷酸。在一些实施方案中，片段的平均长度为约1kb至约10Mb。在一些实施方案中，片段的平均长度为从约1kb至5Mb、约5kb至5Mb、约5kB至2Mb、约10kb至2Mb、约10kb至1Mb、约20kb至1Mb、约20kb至500kb、约50kb至500kb、约50kb至200kb、约60kb至200kb、约60kb至150kb、约80kb至150kb、约80kb至120kb或约100kb至120kb或由这些数值中的任何一个限定的任何范围(例如约60至120kb)。在一些实施方案中，片段的平均长度小于约10Mb、小于约5Mb、小于约1Mb、小于约500kb、小于约200kb、小于约100kb或小于约50kb。在其它实施方案中，片段的平均长度大于约5kb、大于约10kb、大于约50kb、大于约100kb、大于约200kb、大于约500kb、大于约1Mb、大于约5Mb或大于约10Mb。在一些实施方案中，机械完成的片段化包含对样本DNA分子进行声处理。在一些实施方案中，片段化包括在适合于一种或多种酶生成双链核酸断裂的条件下，用一种或多种酶处理样本DNA分子。用于生成DNA片段的酶的示例包括序列特异性和非序列特异性的核酸酶。核酸酶的非限制性示例包括脱氧核糖核酸酶I(DNaseI)、片段化酶(Fragmentase)、限制性内切核酸酶、及其变异体、及其组合。例如，用DNaseI消化可包括不存在Mg⁺⁺和存在Mn⁺⁺的情况下，引起DNA中的随机双链断裂。在一些实施方案中，片段化包括用一种或多种限制性内切核酸酶处理样本DNA分子。片段化可产生具有5’突出、3’突出、平末端或其组合的片段。在一些实施方案中，例如当片段化包括使用一种或多种限制性内切核酸酶时，样本DNA分子的断解留下可预见的序列。在一些实施方案中，该方法包括通过标准方法选择片段大小的步骤，所述标准方法例如柱纯化或从琼脂糖胶分离。

在一些实施方案中，不在连接反应之前修饰片段化的DNA的5’和/或3’末端核苷酸序列。例如，通过限制性内切核酸酶的片段化可用于留下可预见的突出，然后用核酸末端连接，该核酸末端包含与DNA片段上可预见的突出互补的突出。在另一个实施例中，通过酶的断解留下了可预见的平末端，随后可将平末端的DNA片段连接至包含平末端的核酸，例如接头、寡核苷酸或多核苷酸。在一些实施方案中，片段化的DNA分子为平末端修饰的(或“末端修复的(endrepaired)”)，以便在连接至接头之前，产生具有平末端的DNA片段。平末端修饰步骤可通过与合适的酶孵育完成，例如具有3’至5’核酸外切酶活性和5’至3’核酸外切酶活性两者的DNA聚合酶，例如T4聚合酶。在一些实施方案中，末端修复之后可加入1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个核苷酸，例如一个或多个腺嘌呤、一个或多个胸腺嘧啶、一个或多个鸟嘌呤或者一个或多个胞嘧啶，以产生突出。例如，末端配对之后可加入1、2、3、4、5或6个核苷酸。具有突出的DNA片段可与具有互补突出的一种或多种核苷酸连接，例如寡核苷酸、接头寡核苷酸或多核苷酸，例如在连接反应中。例如，可使用不依赖模板的聚合酶，向末端修复的DNA片段的3’末端加入单个腺嘌呤，然后连接至一个或多个接头，每个接头在3’端具有胸腺嘧啶。在一些实施方案中，可将核酸，例如寡核苷酸或多核苷酸，加入至平末端的双链DNA分子，其已经通过3’末端延伸一个或多个核苷酸修饰，且随后进行5’磷酸化。在一些情况下，3’末端的延伸可用聚合酶完成，该聚合酶例如Klenow聚合酶或本文所提供的任何合适的聚合酶，或在存在一种或多种dNTP于含有镁的合适缓冲液中的情况下使用末端脱氧核苷酸转移酶。在一些实施方案中，将具有平末端的靶多核苷酸连接至一个或多个含有平末端的接头。DNA片段分子的5’末端的磷酸化可例如用T4多核苷酸激酶在含有ATP和镁的合适的缓冲液中进行。可任选地处理片段化的DNA分子，以去磷酸化5’末端或3’末端，例如通过使用本领域已知的酶，例如磷酸酶，进行所述处理。

本文所用的与两个多核苷酸(例如接头寡核苷酸和靶多核苷酸)有关的术语“连接”，，意指两个分开的DNA片段的共价接合，以产生具有连续骨架的单个较大的多核苷酸。用于连接两个DNA片段的方法在本领域中是已知的，包括但不限于酶促的和非酶促的(例如化学的)方法。非酶促的连接反应的示例包括美国专利号5,780,613和5,476,930中所描述的非酶促连接技术，其内容以引用方式并入本文中。在一些实施方案中，接头寡核苷酸通过连接酶连接至靶多核苷酸，所述连接酶例如DNA连接酶或RNA连接酶。本领域已知多种连接酶，每种具有被表征的反应条件，这些连接酶包括但不限于依赖NAD⁺的连接酶，包括tRNA连接酶、TaqDNA连接酶、丝状栖热菌(Thermusfiliformis)DNA连接酶、大肠杆菌DNA连接酶、TthDNA连接酶、水生栖热菌(Thermusscotoductus)DNA连接酶(I型和II型)、耐热连接酶、Ampligase耐热DNA连接酶、VanC型连接酶、9°NDNA连接酶、TspDNA连接酶和通过生物勘探发现的新型连接酶；依赖ATP的连接酶包括T4RNA连接酶、T4DNA连接酶、T3DNA连接酶、T7DNA连接酶、PfuDNA连接酶、DNA连接酶I、DNA连接酶III、DNA连接酶IV、以及通过生物勘探发现的新型连接酶；及其野生型、突变异构体和基因工程变异体。

连接可发生在具有可杂交序列的DNA片段之间，该可杂交序列例如互补的突出。连接还可发生在两个平末端之间。通常，在连接反应中利用5’磷酸基。5’磷酸基由靶多核苷酸、接头寡核苷酸或二者提供。根据需要，可向待连接的DNA片段添加或从中除去5’磷酸基。向5’磷酸基添加或从中除去5’磷酸基的方法在本领域中是已知的，包括但不限于酶促的和化学的方法。用于添加和/或除去5’磷酸基的酶包括激酶、磷酸酶和聚合酶。在一些实施方案中，连接反应中相连的两个末端(例如接头末端和靶多核苷酸末端)都提供5’磷酸基，以使得在连接两个末端过程中产生两个共价连接。在一些实施方案中，在连接反应中相连的两个末端中只有一个(例如只有接头末端和靶多核苷酸末端中的一个)提供5’磷酸盐，以使得在连接两个末端过程中只产生一个共价连接。

在一些实施方案中，在靶多核苷酸的一个末端或两个末端处只有一条链连接至接头寡核苷酸。在一些实施方案中，在靶多核苷酸的一个末端或两个末端处两条链都连接至接头寡核苷酸。在一些实施方案中，在连接之前除去3’磷酸盐。在一些实施方案中，将接头寡核苷酸被添加至靶多核苷酸的两个末端，其中在每个末端处一条链或两条链被连接至接头寡核苷酸。当在两个末端处两条链都连接至接头寡核苷酸，连接之后可进行裂解反应，该反应留下能够作为对应3’末端延伸模板的5’突出，3’末端可包括或可不包括一个或多个来源于接头寡核苷酸的核苷酸。在一些实施方案中，靶多核苷酸的一端被连接至第一接头寡核苷酸，以及另一端被连接至第二接头寡核苷酸。在一些实施方案中，靶多核苷酸的两个末端被连接至单个接头寡核苷酸的相反末端。在一些实施方案中，靶多核苷酸与其连接的接头寡核苷酸包含平末端。在一些实施方案中，每个样本可进行单独的连接反应，使用不同的第一接头寡核苷酸，对于每个样本，该第一接头寡核苷酸包含至少一个条码序列，以使得没有一个条码序列连接至超过一个样本的靶多核苷酸。具有相连接的接头寡核苷酸的DNA片段或靶多核苷酸被认为是被连接的接头“标记(tagged)”。

在一些情况下，连接反应可在约0.1ng/μL、约0.2ng/μL、约0.3ng/μL、约0.4ng/μL、约0.5ng/μL、约0.6ng/μL、约0.7ng/μL、约0.8ng/μL、约0.9ng/μL、约1.0ng/μL、约1.2ng/μL、约1.4ng/μL、约1.6ng/μL、约1.8ng/μL、约2.0ng/μL、约2.5ng/μL、约3.0ng/μL、约3.5ng/μL、约4.0ng/μL、约4.5ng/μL、约5.0ng/μL、约6.0ng/μL、约7.0ng/μL、约8.0ng/μL、约9.0ng/μL、约10ng/μL、约15ng/μL、约20ng/μL、约30ng/μL、约40ng/μL、约50ng/μL、约60ng/μL、约70ng/μL、约80ng/μL、约90ng/μL、约100ng/μL、约150ng/μL、约200ng/μL、约300ng/μL、约400ng/μL、约500ng/μL、约600ng/μL、约800ng/μL或约1000ng/μL的DNA片段或靶多核苷酸浓度下进行。例如，连接可在约100ng/μL、约150ng/μL、约200ng/μL、约300ng/μL、约400ng/μL或约500ng/μL的DNA片段或靶多核苷酸浓度下进行。

在一些情况下，连接反应可在约0.1至1000ng/μL、约1至1000ng/μL、约1至800ng/μL、约10至800ng/μL、约10至600ng/μL、约100至600ng/μL或约100至500ng/μL的DNA片段或靶多核苷酸浓度下进行。

在一些情况下，连接反应可进行大于约5分钟、约10分钟、约20分钟、约30分钟、约40分钟、约50分钟、约60分钟、约90分钟、约2小时、约3小时、约4小时、约5小时、约6小时、约8小时、约10小时、约12小时、约18小时、约24小时、约36小时、约48小时或约96小时。在其它情况下，连接反应可进行少于约5分钟、约10分钟、约20分钟、约30分钟、约40分钟、约50分钟、约60分钟、约90分钟、约2小时、约3小时、约4小时、约5小时、约6小时、约8小时、约10小时、约12小时、约18小时、约24小时、约36小时、约48小时或约96小时。例如，连接反应可进行约30分钟至90分钟。在一些实施方案中，接头连接至靶多核苷酸，产生具有3’突出的连接产物多核苷酸，该突出包含源自接头的核苷酸序列。

在一些实施方案中，在将至少一个接头寡核苷酸连接至靶多核苷酸之后，使用一个或多个连接的接头寡核苷酸作为模板延伸一个或多个靶多核苷酸的3’末端。例如，包含两个杂交寡核苷酸的接头仅仅连接至靶多核苷酸的5’末端，这允许使用接头的连接链作为模板，延伸靶的未连接的3’末端，同时或者随后置换未连接的链。含有两个杂交寡核苷酸的接头的两条链可连接至靶多核苷酸，以使连接的产物具有5’突出，互补的3’末端可使用5’突出作为模板延伸。作为进一步的示例，发夹接头寡核苷酸可连接至靶多核苷酸的5’末端。在一些实施方案中，延伸的靶多核苷酸的3’末端包含一个或多个来自接头寡核苷酸的核苷酸。对于两端都连接接头的靶多核苷酸，具有5’突出的双链靶多核苷酸的两个3’末端都可进行延伸。该3’末端延伸，或“补平(fill-in)反应”，生成与模板杂交的互补的序列或接头寡核苷酸模板“互补物(complement)”，从而补平5’突出，产生双链序列区域。当双链靶多核苷酸的两个末端都具有5’突出时，该5’突出通过互补链3’末端延伸补平，产物是完全双链的。可通过本领域已知的任何合适的聚合酶进行延伸，例如DNA聚合酶，多种DNA聚合酶可通过商业途径获得。DNA聚合酶可包含DNA依赖的DNA聚合酶活性、RNA依赖的DNA聚合酶活性或DNA依赖的和RNA依赖的DNA聚合酶活性。DNA聚合酶可以是热稳定的或非热稳定的。DNA聚合酶的示例包括但不限于Taq聚合酶、Tth聚合酶、Tli聚合酶、Pfu聚合酶、Pfutubo聚合酶、Pyrobest聚合酶、Pwo聚合酶、KOD聚合酶、Bst聚合酶、Sac聚合酶、Sso聚合酶、Poc聚合酶、Pab聚合酶、Mth聚合酶、Pho聚合酶、ES4聚合酶、VENT聚合酶、DEEPVENT聚合酶、EX-Taq聚合酶、LA-Taq聚合酶、Expand聚合酶、PlatinumTaq聚合酶、Hi-Fi聚合酶、Tbr聚合酶、Tfl聚合酶、Tru聚合酶、Tac聚合酶、Tne聚合酶、Tma聚合酶、Tih聚合酶、Tfi聚合酶、Klenow片段、及其变型、改性产品和衍生物。3’末端延伸可在汇集来自独立样本的靶多核苷酸之前或之后进行。

在某些实施方案中，本发明提供了用于富集靶核酸和分析靶核酸的方法。在一些情况下，用于富集的方法为基于溶液的格式。在一些情况下，可用标记物标记靶核酸。在其它情况下，靶核酸可与用标记物标记的一个或多个缔合分子交联。标记物的示例包括但不限于生物素、聚组氨酸标签和化学标签(例如点击化学法(ClickChemistrymethods)中所用的炔烃和叠氮化物)。此外，标记的靶核酸可使用捕获剂被捕获并从而进行富集。捕获剂可以是链霉亲和素和/或抗生物素蛋白、抗体、化学部分(例如炔烃、叠氮化物)、以及本领域中已知的用于亲和纯化的任何生物的、化学的、物理的或酶促的试剂。

在一些情况下，固定化的或非固定化的核酸探针可用于捕获靶核酸。例如通过在固相载体上或溶液中与探针杂交，从样本富集靶核酸。在一些实施例中，样本可以是基因组样本。在一些实施例中，探针可以是扩增子。扩增子可包含预定序列。此外，杂交的靶核酸可被洗去和/或洗脱探针。靶核酸可以是DNA、RNA、cDNA或mRNA分子。

在一些情况下，富集方法可包括将含有靶核酸的样本与探针接触、将靶核酸和固相载体结合。在一些情况下，可使用化学的、物理的或酶促的方法使样本片段化，以产生靶核酸。在一些情况下，探针可与靶核酸特异性地杂交。在一些情况下，靶核酸的平均大小可为约50至5000个、约50至2000个、约100至2000个、约100至1000个、约200至1000个、约200至800或约300至800个、约300至600个或约400至600个核苷酸残基。靶核苷酸可进一步与样本中的非结合核酸分离。可清洗和/或洗脱固相载体，以得到富集的靶核酸。在一些实施例中，富集步骤可重复约1、2、3、4、5、6、7、8、9或10次。例如，富集步骤可重复约1、2或3次。

在一些情况下，富集方法可包括提供来源于探针的扩增子，其中用于扩增的所述探针附接至固相载体。固相载体可包括载体固定化的核酸探针，以便从样本捕获特异性靶核酸。来源于探针的扩增子可与靶核酸杂交。与探针扩增子杂交之后，可通过捕获(例如通过如生物素、抗体等的捕获剂)以及从捕获的探针冲洗和/或洗脱杂交的靶核酸，富集样本中的靶核酸(图4)。使用例如PCR法进一步扩增靶核酸序列，以产生富集PCR产物的扩增池。

在一些情况下，固相载体可以是微阵列、载玻片、芯片、微孔、柱、管、颗粒或珠粒。在一些实施例中，固相载体可涂覆链霉亲和素和/或抗生物素蛋白。在其它实施例中，固相载体可涂覆抗体。此外，固相载体可包含玻璃、金属、陶瓷或聚合物材料。在一些实施方案中，固相载体可以是核酸微阵列(例如DNA微阵列)。在其它实施方案中，固相载体可以是顺磁珠。

在一些情况下，富集方法可包括用第二限制性内切酶消化、自连接(例如自环化)、以及用原始限制性内切核酸酶重新消化。在具体实施例中，只有连接产物将会被线性化并且可用于接头连接和测序。在其它情况下，连接交接序列本身可用于基于杂交的富集，该富集使用与交接序列互补的诱饵探针(bait-probe)。

在特定实施方案中，本发明提供了用于扩增富集的DNA的方法。在一些情况下，富集的DNA为读对。通过本发明的方法可获得读对。

在一些实施方案中，使用一个或多个扩增和/或复制步骤制备待测序的文库。可使用本领域中已知的任何扩增方法。可使用的扩增技术的示例包括但不限于定量聚合酶链式反应、定量荧光聚合酶链式反应(QF-PCR)、多重荧光聚合酶链式反应(MF-PCR)、实时聚合酶链式反应(RTPCR)、单细胞聚合酶链式反应、限制性片段长度多态性聚合酶链式反应(PCR-RFLP)、PCK-RFLPIRT-PCR-IRFLP、热启动聚合酶链式反应、巢式聚合酶链式反应、原位聚合酶链式反应、原位滚环扩增(RCA)、桥式聚合酶链式反应、连接介导聚合酶链式反应、Qb复制酶扩增、反向聚合酶链式反应、皮量滴定(picotiter)聚合酶链式反应和乳液聚合酶链式反应。其它合适的扩增方法包括连接酶链式反应(LCR)、转录扩增、自主序列复制、靶多核苷酸序列的选择性扩增、共有序列引物聚合酶链式反应(CP-PCR)、随机引物聚合酶链式反应(AP-PCR)、简并寡核苷酸引物聚合酶链式反应(DOP-PCR)和基于核酸的序列扩增(NABSA)。本文可用的其它扩增方法包括美国专利号5,242,794、5,494,810、4,988,617和6,582,938中所描述的方法。

在特定实施方案中，在DNA分子被分配进各个分区之后，使用PCR扩增DNA分子。在一些情况下，扩增接头内的一个或多个特异性启动序列用于PCR扩增。扩增接头可以在分配进各个分区之前或之后，连接至片段化的DNA分子。包含扩增接头的多核苷酸可用PCR指数地扩增，扩增接头在两端具有合适的启动序列。例如由于含有启动序列的扩增接头的连接效率有瑕疵，只具有一个合适启动序列的多核苷酸，只可以进行线性扩增。进一步,如果含有合适启动序列的接头没有被连接，可一起从扩增(例如PCR扩增)中排除多核苷酸。在一些实施方案中，PCR循环的数量在10-30之间变化，但可以低至9、8、7、6、5、4、3、2或更少或高至40、45、50、55、60或更多。因此，在PCR扩增之后，与可线性扩增的或非可扩增的片段相比，可以以指数方式扩增的负载具有合适启动序列的扩增接头的片段可以以高得多的(1000倍或更多)浓度存在。与全基因组扩增技术(例如用随机引物扩增或使用phi29聚合酶的多重置换扩增)相比，PCR的益处包括但不限于更一致的序列涵盖率——由于每个片段在每个循环最多只能拷贝一次且由于通过热循环程序控制扩增；嵌合分子的形成率实质上比例如MDA显著低(Lasken等，2007，BMCBiotechnology)——由于嵌合分子通过展示组装表中的非生物序列，对精确序列组装造成重大挑战，这可能导致错误组装率更高或高度含混的和片段化的组装；序列特异性的偏差减少，所述偏差可能由于MDA中常用的随机化引物的结合，这与使用具有特异性序列的特异性引物位点形成对照；最终扩增的DNA产物量的重现性更高，这通过选择PCR循环次数进行控制；以及与本领域中已知的普通全基因组扩增技术相比，用常用于PCR中的聚合酶进行复制，保真度更高。

在一些实施方案中，补平反应之后使用第一引物和第二引物扩增一个或多个靶多核苷酸，或者补平反应是作为所述扩增的一部分进行，其中第一引物包含可与一个或多个第一接头寡核苷酸的互补物的至少一部分杂交的序列，并且进一步其中第二引物包含与一个或多个第二接头寡核苷酸的互补物的至少一部分杂交的序列。第一引物和第二引物中的每一个都可以具有合适的长度，例如约为、约小于或约大于10个、15个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、90个、100个或更多个核苷酸，其任何部分或全部可与相应靶序列互补(例如约为、小于约或大于约5个、10个、15个、20个、25个、30个、35个、40个、45个、50个或更多个核苷酸)。例如约10至50个核苷酸可与相应靶序列互补。

“扩增”指任何增加靶序列拷贝数的方法。在一些情况下，复制反应可以只产生多核苷酸的单个互补拷贝/复制物。本领域已知用于靶多核苷酸引物引导扩增的方法，包括但不限于基于聚合酶链式反应(PCR)的方法。本领域已知PCR扩增靶序列的有利条件，可在方法中的多个步骤进行优化，并且取决于反应中元件的特性，例如靶类型、靶浓度、待扩增的序列长度、靶和/或一个或多个引物的序列、引物长度、引物浓度、所用的聚合酶、反应体积、一个或多个元件与一个或多个其它元件的比率、以及其它，所有这些中的部分或全部可被改变。通常，PCR涉及待扩增的靶(如果为双链)的变性、将一个或多个引物与靶杂交、以及通过DNA聚合酶的引物延伸等步骤，重复(或“循环”)这些步骤以扩增靶序列。该方法中的步骤可根据各种结果进行优化，例如为了增加产率、减少假性产物的形成和/或增加或减少引物退火的特异性。本领域已知优化方法，包括调整扩增反应中的元件类型或数量和/或方法中给定步骤的条件，诸如特定步骤的温度、特定步骤的持续时间和/或循环的次数。

在一些实施方案中，扩增反应可包含至少约5个、10个、15个、20个、25个、30个、35个、40个、50个、60个、70个、80个、90个、100个、150个、200个或更多个循环。在一些实施例中，扩增反应可包含至少约20、25、30、35或40个循环。在一些实施方案中，扩增反应可包含至多约5、10、15、20、25、30、35、40、50、60、70、80、90、100、150、200或更多个循环。循环可含有任何数量的步骤，例如1、2、3、4、5、6、7、8、9、10或更多个步骤。步骤可包含任何温度或温度梯度，适合于实现给定步骤的目的，包括但不限于3’末端延伸(例如接头补平)、引物退火、引物延伸和链变性。步骤可以持续任意时间，包括但不限于约为、约小于或约大于1秒、5秒、10秒、15秒、20秒、25秒、30秒、35秒、40秒、45秒、50秒、55秒、60秒、70秒、80秒、90秒、100秒、120秒、180秒、240秒、300秒、360秒、420秒、480秒、540秒、600秒、1200秒、1800秒或更多秒，包括无限期的，直至手动中断。包含不同步骤的任意次数的循环可以任意次序组合。在一些实施方案中，组合包含不同步骤的不同循环，以使组合中循环的总次数约为、约小于或约大于5次、10次、15次、20次、25次、30次、35次、40次、50次、60次、70次、80次、90次、100次、150次、200次或更多次循环。在一些实施方案中，在补平反应之后进行扩增。

在一些实施方案中，扩增反应可以在至少约1ng、2ng、3ng、4ng、5ng、6ng、7ng、8ng、9ng、10ng、12ng、14ng、16ng、18ng、20ng、25ng、30ng、40ng、50ng、100ng、200ng、300ng、400ng、500ng、600ng、800ng、1000ng的靶DNA分子上进行。在其它实施方案中，扩增反应可以在少于约1ng、2ng、3ng、4ng、5ng、6ng、7ng、8ng、9ng、10ng、12ng、14ng、16ng、18ng、20ng、25ng、30ng、40ng、50ng、100ng、200ng、300ng、400ng、500ng、600ng、800ng、1000ng的靶DNA分子上进行。

可以在汇集来自独立样本的靶多核苷酸之前或之后，进行扩增。

本发明的方法涉及确定样本中出现的可扩增核酸的量。任何已知的方法可用于定量可扩增的核酸，一种示例性方法是聚合酶链式反应(PCR)、特异性定量聚合酶链式反应(qPCR)。qPCR是一种基于聚合酶链式反应的技术，用于扩增并同时定量靶核酸分子。qPCR允许检测和定量(作为拷贝的绝对数或当相对于DNA输入物或另外的归一化基因被归一化时的相对数量)DNA样品中的具体序列。流程按照聚合酶链式反应的一般原则，另外的特征是当扩增DNA在每个扩增循环之后在反应中积聚时，对其进行实时定量。QPCR例如在Kurnit等(美国专利号6,033,854)、Wang等(美国专利号5,567,583和5,348,853)、Ma等(TheJournalofAmericanScience，2(3)，2006)、Heid等(GenomeResearch986-994，1996)、Sambrook和Russell(QuantitativePCR，ColdSpringHarborProtocols，2006)、以及Higuchi(美国专利号6,171,785和5,994,056)中有描述。这些内容全部以引用方式并入本文中。

其它定量方法包括使用插入双链DNA的荧光染料、以及当与互补DNA杂交时发荧光的修饰的DNA寡核苷酸探针。这些方法可被广泛使用，也可特异性地适用于实时PCR，其作为示例进一步详述。在第一种方法中，DNA结合染料与PCR中的全部双链(ds)DNA结合，引起染料的荧光反应。因此，PCR期间DNA产物的增加使荧光密度增加，并且在每个循环进行测量，从而使DNA浓度被定量。类似标准PCR进行反应，加入荧光(ds)DNA染料。在一个热循环仪中运行反应，每个循环之后，用检测器测量荧光水平；染料只有当结合至(ds)DNA(即PCR产物)时才发荧光。根据标准的稀释法，可确定PCR中的(ds)DNA浓度。正如其它实时PCR法，获得的数值没有与其关联的绝对单位。比较测量的DNA/RNA样本和标准稀释液，得到样本与标准相比的分数或比率，允许不同组织或实验条件之间的相对比较。为了确保靶基因定量和/或表达的准确度，可相对于稳定表达的基因进行归一化。未知基因的拷贝数可同样相对于已知拷贝数的基因归一化。

第二种方法使用序列特异性的基于RNA或DNA的探针，以定量仅含有探针序列的DNA；因此，使用报告探针极大地提高了特异性，并允许即使存在某些非特异性DNA扩增时定量。这允许多路技术，即通过使用具有不同颜色标记的特异性探针，分析同个反应中的几个基因，前提是全部基因以相似效率进行扩增。

该方法通常用基于DNA的探针进行，该探针一端带有荧光报告分子(例如6-羧基荧光素)，探针的另一端具有荧光淬灭分子(例如6-羧基-四甲基罗丹明)。报告分子紧密靠近淬灭分子，这阻止了其荧光性的检测。聚合酶(例如Taq聚合酶)的5’至3’外切酶活性使探针分解，破坏了报告分子-淬灭分子的接近，从而使得发出能够被检测到的未淬灭的荧光。在每个PCR循环中报告探针靶向作用的产物的增加导致荧光性成比例增加，这是由于探针的分解和报告分子的释放。类似于标准PCR反应进行反应，加入报告探针。随着反应开始，在PCR的退火阶段期间，探针和引物都对DNA靶退火。新的DNA链的聚合从引物开始，一旦聚合酶到达探针，其5’-3’核酸外切酶降解探针，物理地将荧光报告分子与淬灭分子分开，导致荧光增加。在实时PCR热循环仪中检测和测量荧光，对应于产物指数增长的荧光几何级数增长用于确定每个反应中的阈值循环。

通过在对数规模上绘制与循环次数相对的荧光(因此指数增长量将产生直线)，确定在反应的指数期期间存在的DNA的相对浓度。确定用于检测背景上的荧光的阈值。来自样本的荧光达到阈值的循环次数称为阈值循环C_t。由于DNA的量在指数期期间每个循环加倍，可计算DNA的相对量，例如，C_t比另一样本早3个循环的样本具有多2³＝8倍的模板。然后通过将结果与标准曲线进行比较，确定核酸(例如RNA或DNA)的量，该标准曲线通过已知核酸量的系列稀释(例如未稀释的、1：4、1：16、1：64)的实时PCR产生。

在某些实施方案中，qPCR反应涉及双荧光团方法，该方法利用荧光共振能量转移(FRET)，例如LIGHTCYCLER杂交探针，其中两个寡核苷酸探针退火至扩增子(例如参见美国专利号6,174,670)。寡核苷酸被设计以头对尾(head-to-tail)的方向杂交，具有以与高效能量转移兼容的距离隔开的荧光团。其它构建为当结合核酸或掺入延伸产物中时发出信号的标记寡核苷酸的示例包括：SCORPIONS探针(例如Whitcombe等，NatureBiotechnology17：804-807，1999，和美国专利号6,326,145)、Sunrise(或AMPLIFLOUR)引物(例如Nazarenko等，Nuc.AcidsRes.25：2516-2521，1997，和美国专利号6,117,635)，以及LUX引物和MOLECULARBEACONS探针(例如Tyagi等，NatureBiotechnology14：303-308，1996和美国专利号5,989,823)。

在其它实施方案中，qPCR反应使用荧光Taqman方法和能够实时测量荧光的仪器(例如ABIPrism7700序列检测仪)。Taqman反应使用的杂交探针采用两种不同的荧光染料标记。一种染料是报告染料(6-羧基荧光素)，另一种是淬灭染料(6-羧基-四甲基罗丹明)。当探针完整无缺时，发生荧光能量转移，报告染料荧光发射被淬灭染料吸收。在PCR循环的延伸期期间，用DNA聚合酶的5’-3’核溶活性裂解荧光杂交探针。在裂解探针时报告染料发射不再有效地转移至淬灭染料，导致报告染料荧光发射光谱增加。可使用任何核酸定量方法定量样品中核酸的量，包括实时方法或单点检测法。检测可用多种不同的方法完成(例如染色、用标记探针杂交；掺入生物素化的引物然后抗生物素-酶结合检测；将32P-标记的脱氧核苷三磷酸，例如dCTP或dATP掺入扩增片段)，还可用本领域已知的用于核酸定量的其它任何合适的检测方法完成。定量可包括或可不包括扩增步骤。

在一些实施方案中，本发明提供了用于鉴别和定量连接的DNA片段的标记物。在一些情况下，该连接的DNA片段可被标记以辅助下游应用，例如阵列杂交。例如，可使用随机引物法或切口平移，标记连接的DNA片段。

多种标记物(例如报告分子)可用于标记本文所述的核苷酸序列，包括但不限于在扩增步骤期间。合适的标记物包括放射性核素、酶、荧光剂、化学发光剂或显色剂，以及配体、辅因子、抑制剂、磁粒子等。这些标记物的示例列入在美国专利号美国专利号3,817,837；美国专利号3,850,752；美国专利号3,939,350；美国专利号3,996,345；美国专利号4,277,437；美国专利号4,275,149和美国专利号4,366,241中，其全部内容通过引用而并入。

另外的标记包括但不限于β-半乳糖苷酶、转化酶、绿色荧光蛋白、荧光素酶、氯霉素、乙酰转移酶、β-葡萄糖醛酸酶、外-葡聚糖酶和葡萄糖淀粉酶。也可以使用荧光标记以及专门合成的具有特定化学性质的荧光试剂。可以用多种方法测量荧光。例如，有些荧光标记在激发或发射光谱中发生变化，有些当一个荧光报告分子失去荧光时发生共振能量转移，当再次获得荧光时，一些发生损失(淬灭)荧光或出现荧光，而一些报告旋转运动。

此外，为了获得用于标记的足够材料，可合并多重扩增，而不是增加每个反应扩增循环的次数。可选择地，标记的核苷酸可被掺入扩增反应最后的多个循环，例如30个PCR循环(没有标记)+10个PCR循环(加上标记)。

在特定的实施方案中，本发明提供了能够附接到连接的DNA片段的探针。如本文所使用的，术语“探针”指能够与另一个目标分子(例如另一个寡核苷酸)杂交的分子(例如寡核苷酸、不管是天然存在于纯化的限制酶切消化中的还是合成产生的、重组产生的或者通过PCR扩增产生的)。当探针为寡核苷酸时，可以是单链的或双链的。探针在检测、鉴别和分离特定靶标(例如基因序列)时非常有用。在一些情况下，探针可与标记关联，以使其在任何检测系统中可被检测，包括但不限于酶(例如酶联免疫吸附测定、以及基于酶的组织化学分析)、荧光的、放射性的和发光的系统。

对于阵列和微阵列，术语“探针”用于指任何可杂交的材料，该材料被固定至阵列，用于检测已经和所述探针杂交的核苷酸序列。在一些情况下，探针可为约10bp至500bp、约10bp至250bp、约20bp至250bp、约20bp至200bp、约25bp至200bp、约25bp至100bp、约30bp至100bp或约30bp至80bp。在一些情况下，探针长度可大于约10bp、约20bp、约30bp、约40bp、约50bp、约60bp、约70bp、约80bp、约90bp、约100bp、约150bp、约200bp、约250bp、约300bp、约400bp或约500bp。例如，探针长度可为约20至约50bp。用于探针设计的示例和原理可在WO95/11995、EP717,113和WO97/29212中找到。

在一些情况下，可设计一个或多个探针，以使其可靠近被限制性内切核酸酶消化的位点杂交。例如，探针可在限制性内切核酸酶识别位点的约10bp、约20bp、约30bp、约40bp、约50bp、约60bp、约70bp、约80bp、约90bp、约100bp、约150bp、约200bp、约250bp、约300bp、约400bp或约500bp之内。

在其它情况下，可在限制性内切核酸酶消化位点每一侧的约10bp、约20bp、约30bp、约40bp、约50bp、约60bp、约70bp、约80bp、约90bp、约100bp、约150bp、约200bp、约250bp、约300bp、约400bp或约500bp之内，设计单个的、唯一的探针。设计探针，使其可在限制性内切核酸酶消化位点的每一侧杂交。例如，可使用在初级限制性内切酶识别位点每一侧的单个探针。

在进一步的情况下，可在限制性内切核酸酶识别位点的每一侧设计2个、3个、4个、5个、6个、7个、8个或更多个探针，识别位点接着可用于研究同一连接事件。例如可在限制性内切核酸酶识别位点的每一侧设计2个或3个探针。在一些实施例中，每个初级限制性内切酶识别位点可使用多个(2个、3个、4个、5个、6个、7个或8个或更多个)探针，这可有利于减少从单个探针得到假阴性结果的问题。

如本文所使用的，术语“探针组”指一套或一组探针，该探针可与基因组中用于初级限制性内切酶的一个或多个初级限制性内切酶识别位点杂交。

在一些情况下，一组探针可与邻近基因组DNA中限制性内切酶的一个或多个初级限制性内切酶识别位点的核酸序列依次互补。例如，探针组可与邻近基因组DNA中一个或多个初级限制性内切酶识别位点的核苷酸依次互补，这些核苷酸为约10bp至500bp、约10bp至250bp、约20bp至250bp、约20bp至200bp、约25bp至200bp、约25bp至100bp、约30bp至100bp或约30bp至80bp。探针组可与限制性内切核酸酶识别位点的一侧(例如任一侧)或两侧序列互补。相应地，探针可与邻近基因组DNA中的一个或多个初级限制性内切核酸酶识别位点的每一侧相邻的核酸序列互补。此外，探针组可与来自基因组中一个或多个初级限制性内切酶识别位点的核酸序列互补，该核酸序列距基因组中一个或多个初级限制性酶识别位点小于约10bp、约20bp、约30bp、约40bp、约50bp、约60bp、约70bp、约80bp、约90bp、约100bp、约150bp、约200bp、约250bp、约300bp、约400bp或约500bp。

在一些情况下，两个或多个探针可设计为能够与邻近基因组DNA中一个或多个限制性内切核酸酶识别位点的序列杂交。探针可重叠或部分重叠。

探针、探针阵列或探针组可被固定在载体上。载体(例如固相载体)可用多种材料制成——例如玻璃、二氧化硅、塑料、尼龙或硝酸纤维素。载体优选为坚硬的并具有平面表面。载体可具有约1至10,000,000个确定的解析位点。例如，载体可具有约10至10,000,000个、约10至5,000,000个、约100至5,000,000个、约100至4,000,000个、约1000至4,000,000个、约1000至3,000,000个、约10,000至3,000,000个、约10,000至2,000,000个、约100,000至2,000,000个或约100,000至1,000,000个确定的解析位点。确定的解析位点的密度可为每平方厘米内有至少约10个、约100个、约1000个、约10,000个、约100,000个或约1,000,000个确定的解析位点。在一些情况下，每个解析位点可被大于95％的单个类型的寡核苷酸占据。在其它情况下，每个解析位点可被探针的合并混合物或探针组占据。在进一步的情况下，一些解析位点被探针的合并混合物或探针组占据，而另一些解析位点被大于95％的单个类型的寡核苷酸占据。

在一些情况下，用于阵列上给定核苷酸序列的探针数量可相对于该阵列待杂交的DNA样本大大过量。例如，与输入样本中的DNA的量相比，阵列可具有约10倍、约100倍、约1000倍、约10,000倍、约100,000倍、约1,000,000倍、约10,000,000倍或约100,000,000倍的探针数。

在一些情况下，阵列可具有约10个、约100个、约1000个、约10,000个、约100,000个、约1,000,000个、约10,000,000个、约100,000,000个或约1,000,000,000个探针。

探针或探针组的阵列可以逐步的方式在载体上合成，或可以预合成的形式连接。一种合成方法是VLSIPS^TM(如美国专利号5,143,854和欧洲专利EP476,014所述)，该方法需要使用光来引导寡核苷酸探针在高密度的、小型化的阵列中合成。美国专利号5,571,639和美国专利号5,593,839中描述了用于设计掩码的算法，以减少合成循环的次数。如欧洲专利EP624,059所述，还可通过机械约束的流道将单体输送至载体的槽，以组合的方式合成阵列。还可通过使用喷墨打印机将试剂滴到载体上来合成阵列(参见例如欧洲专利EP728,520)。

在一些实施方案中，本发明提供了用于将连接的DNA片段杂交至阵列上的方法。“基底”或“阵列”为特意创建的核酸的集合，其可被合成地或生物合成地制备，并以多种不同方式(例如可溶分子的文库；连接至树脂珠、硅芯片或其它固相载体的寡核苷酸的文库)对生物活性进行筛选。此外，术语“阵列”包括那些通过在基底上点布基本任何长度(例如长度为从1至约1000个核苷酸单体)的核酸而制得的核酸文库。

许多教科书和文献中都广泛地描述了阵列技术及各种相关技术和应用。例如，这些包括Lemieux等，1998，MolecularBreeding4，277-289；PCRMethodsManual(M.Innis、D.Gelfand、J.Sninsky编辑)中的Schena和Davis，ParallelAnalysiswithBiologicalChips.；DNAMicroarrays:APracticalApproach(M.Schena编辑)(OxfordUniversityPress，Oxford，UK，1999)中的Schena和Davis，1999，Genes,GenomesandChips.；TheChippingForecast(NatureGeneticsspecialissue；1999年1月增刊)；MarkSchena(编辑)，MicroarrayBiochipTechnology，(EatonPublishing公司)；Cortes，2000，TheScientist14[17]：25；Gwynn和Page，Microarrayanalysis:thenextrevolutioninmolecularbiology，Science，1999年8月6日；和Eakins和Chu，1999，TrendsinBiotechnology，17，217-218。

通常，任何文库都可以通过空间上隔开文库的成员被以有序的方式排列在阵列中。用于排列的合适的文库的示例包括核酸文库(包括DNA、cDNA、寡核苷酸等文库)、肽、多肽和蛋白质文库，除此之外，还有包含任何分子的文库，例如配体文库。

文库可被固定或固定化至固相载体(例如固相基底)上，以限制成员的扩散和混合。在一些情况下，可制备DNA结合配体的文库。特别地，文库可固定化至基本上平面的固相，包括膜和无孔基底，例如塑料和玻璃。此外，文库可以以有助于标引(即参照或访问特定成员)的方式排列。在一些实施例中，文库的成员可以网格阵型中的点(spot)施加。普通分析系统可适用于该目的。例如，可将阵列以孔(well)中的多个成员，或者以每个孔中的单个成员固定化至微板的表面，。此外，固相基底可以是膜，例如硝酸纤维素或尼龙膜(例如用于印迹试验中的膜)。可选择的基底包括玻璃或硅基基底。因此，文库可通过本领域已知的任何合适的方法固定化，例如通过电荷相互作用或者通过化学偶联至孔(well)壁和底或膜的表面。可使用其它排列和固定的方式，例如移液、点滴、压电方式、喷墨和喷泡技术、静电应用等。在硅基基底的情况下，可利用光刻法将文库排列和固定在芯片。

文库可通过被“点布(spotted)”到固相基底上进行排列；这可通过手工或通过利用机器人沉积成员完成。通常，阵列可描述为宏阵列或微阵列，不同之处在于点的大小。宏阵列可含有约300微米或更大的点大小，可通过现有凝胶和印迹扫描仪很容易地成像。微阵列中点的大小可为直径小于200微米且这些阵列常常含有上千个点。因此，微阵列可能需要专门的机器人和成像仪器，这需要定制。在综述Cortese,2000,TheScientist14[11]：26中，大体描述了仪器。

用于产生DNA分子的固定化文库的技术在本领域中已有描述。通常，大多数现有技术方法描述如何合成单链核酸分子文库，使用例如掩盖技术，以在固相基底上的离散位置构建各种序列排列。美国专利号5,837,832描述了一种基于超大规模集成技术，用于产生固定化至硅基底的DNA阵列的改良方法。特别地，美国专利号5,837,832描述了一种称为“铺瓦式(tiling)”的策略，以在基底上空间限定的位置合成特异性的探针组，可用于产生本发明的固定化的DNA文库。美国专利号5,837,832还提供了可能也被使用的更早期的技术的引用文献。在其它情况下，阵列还可使用光沉积化学构建。

还可以以在阵列中离散的、预定的位置放置每个不同的文库成员(例如唯一的肽序列))的方式，在表面上合成肽(或模拟肽)阵列。每个文库成员的身份通过其在阵列中的空间位置确定。确定预定分子(例如靶标或探针)和反应文库成员之间的结合相互作用的位置，从而基于空间位置鉴别反应文库成员的序列。这些方法在以下文献中进行描述：美国专利号5,143,854；WO90/15070和WO92/10092；Fodor等，(1991)Science，251:767；Dower和Fodor，(1991)Ann.Rep.Med.Chem.，26:271。

为了有助于检测，可使用标记(如以上所讨论的)——例如任何可容易检测的报告分子，例如荧光报告分子、生物发光报告分子、磷光性报告分子、放射性报告分子等的报告分子。本发明在其它部分探讨了这些报告分子、其检测、与靶标/探针的结合等。Shalon等,1996,GenomeRes6(7)：639-45中也公开了探针和靶标的标记。

下表1给出了一些商用微阵列格式的示例(也参见Marshall和Hodgson,1998,NatureBiotechnology,16(1),27-31)。

表1

表1-续

为了从基于阵列的分析生成数据，可检测表明存在或不存在探针与核苷酸序列之间杂交的信号。此外，还可利用直接或间接标记技术。例如直接标记将荧光染料直接掺入核苷酸序列，该核苷酸序列与探针相关阵列杂交(例如在标记核苷酸或PCR引物的存在下，通过酶促合成将染料掺入核苷酸序列)。例如通过使用具有类似化学结构和特性的荧光染料家族，直接标记法可产生强杂交信号，并且很容易实施。在包含核酸直接标记的情况下，可在多重荧光比较阵列分析中使用花青素(cyanine)或Alexa类似物。在其它实施方案中，直接标记法可用于在与微阵列探针杂交之前或之后将表位掺入核酸中。一种或多种染色法和试剂可用于标记杂交的复合物(例如结合至表位的荧光分子，从而借助染料分子与杂交种群的表位的结合，提供荧光信号。)

在各种实施方案中，本文所述的或本领域已知的合适的测序方法将用于获得来自样本中的核酸分子的序列信息。通过本领域中已知的经典的Sanger测序法，可完成测序。测序还可使用高通量系统完成，其中一些系统使得测序的核苷酸在其掺入生长中的链中之后或期间立即被检测到，即实时或基本实时检测序列。在一些情况下，高通量测序每小时生成至少1,000个、至少5,000个、至少10,000个、至少20,000个、至少30,000个、至少40,000个、至少50,000个、至少100,000个或至少500,000个序列读段；而测序读段可以为每个读段至少约50个、约60个、约70个、约80个、约90个、约100个、约120个、约150个、约180个、约210个、约240个、约270个、约300个、约350个、约400个、约450个、约500个、约600个、约700个、约800个、约900个或约1000个碱基。

在一些实施方案中，高通量测序涉及使用可通过Illumina的GenomeAnalyzerIIX、MiSeq个人测序仪或HiSeq系统实现的技术，例如那些使用HiSeq2500、HiSeq1500、HiSeq2000或HiSeq1000的机器的技术。这些机器使用通过合成化学可逆的基于终止子的测序。这些机器可在八天内完成2000亿DNA读段或更多。较小的系统可用于3、2、1天或更短时间内的运行。

在一些实施方案中，高通量测序涉及使用ABISolidSystem可实现的技术。该基因分析平台使得能够进行与珠粒相连的克隆扩增的DNA片段的大规模平行测序。测序方法基于与染料标记寡核苷酸的顺序连接。

下一代测序可包括离子半导体测序(例如使用来自LifeTechnologies(IonTorrent)的技术)。离子半导体测序可利用当核苷酸被掺入DNA链时，可释放离子。为了进行离子半导体测序，可形成高密度阵列的微机械孔。每个孔可容纳单个DNA模板。孔的下面可以是离子灵敏层，在离子灵敏层下面可以是离子传感器。当核苷酸添加至DNA时，可释放H+，其可作为pH变化的衡量。H+离子可转化为电压，并由半导体传感器记录。阵列芯片可用核苷酸一个接一个按顺序排满。不需要扫描、光或照相机。在一些情况下，使用IONPROTON^TM测序仪对核酸进行测序。在一些情况下，使用IONPGM^TM测序仪。IonTorrent个人基因组测序仪(PGM)。PGM可在两个小时内完成1千万个读段。

在一些实施方案中，高通量测序涉及使用HelicosBioSciencesCorporation(Cambridge,Massachusetts)提供的技术，例如合成单分子测序(SMSS)法。SMSS是独特的，因为其允许在至多24小时内测定整个人类基因组的序列。最后，SMSS部分地在以下文献中描述，美国公开申请号为20060024711；20060024678；20060012793；20060012784；和20050100932。

在一些实施方案中，高通量测序涉及使用通过454Lifesciences公司(Branford,Connecticut)可获得的技术，例如PicoTiterPlate装置，其包括光学纤维面板，该光学纤维面板将测序反应生成的化学发光信号传输至由仪器中的CCD照相机记录。该光学纤维的使用允许在4.5小时内检测最少2千万个碱基对。

在检测光学纤维之前使用珠扩增的方法在以下文献中有所描述：Marguiles,M.等，“Genomesequencinginmicrofabricatedhigh-densitypricolitrereactors”，Nature，doi：10.1038/nature03959；和美国公开申请号20020012930；20030068629；20030100102；20030148344；20040248161；20050079510、20050124022；和20060078909。

在一些实施方案中，使用ClonalSingleMoleculeArray(Solexa公司)或利用可逆终止子化学的合成测序法，进行高通量测序。这些技术部分地在以下文献中进行描述：美国专利号6,969,488；6,897,023；6,833,246；6,787,308；和美国申请公开号20040106110；20030064398；20030022207；和Constans、A.，TheScientist2003，17(13):36。

下一代测序技术可包括PacificBiosciences的实时技术(SMRT^TM)。在SMRT中，四种DNA碱基中的每一种都可与四种不同荧光染料中的一种连接。这些染料可以被磷酸连接。可用位于零模波导(ZMW)底部的模板单链DNA的单个分子，固定化单个DNA聚合酶。ZMW可以是限制结构，该限制结构能够在荧光核苷酸的背景下，观察通过DNA聚合酶使单个核苷酸的掺入，荧光核苷酸可迅速扩散进和扩散出ZMW(以微秒计)。其可耗费几毫秒以将核苷酸掺入生长中的链。在该期间，荧光标记可被激发并产生荧光信号，且荧光标签可被裂解除去。可从下面照亮ZMW。来自激发光线的衰减光可穿透每个ZMW的较低的20-30nm。可创建具有检测极限为20仄升(10"升)的显微镜。极小的检测体积可使背景噪音的减少改善1000倍。相应染料荧光的检测可指出掺入了哪些碱基。可重复该过程。

在一些情况下，下一代测序为纳米孔测序(参见例如SoniGV和MellerA.(2007)ClinChem53:1996-2001)。纳米孔可以是直径达到约一纳米级的小孔。将纳米孔浸没在导电液中，并施用电流穿过它，由于离子穿过纳米孔的传导，可产生微小电流。流经的电流量对纳米孔的大小灵敏。当DNA分子穿过纳米孔时，DNA分子上的每个核苷酸可以不同程度堵塞纳米孔。因此，当DNA分子穿过纳米孔时，穿过纳米孔的电流变化可表示DNA序列的读数。纳米孔测序技术可来自OxfordNanoporeTechnologies；例如GridlON系统。单个纳米孔可插入至横跨微孔顶部的聚合物膜。每个微孔可具有用于单个传感的电极。微孔可被制造为阵列芯片，每个芯片具有100,000个或更多个微孔(例如，多于200,000个、300,000个、400,000个、500,000个、600,000个、700,000个、800,000个、900,000或1,000,000个)。仪器(或节点)可用于分析芯片。可实时分析数据。一次可操作一种或多种仪器。纳米孔可以是蛋白质纳米孔，例如蛋白质α-溶血素、七聚体蛋白质孔。纳米孔可以是制成固态的纳米孔，例如在合成膜(例如SiNx或SiO2)中形成的纳米尺寸的孔。纳米孔可以是混合孔(例如整合在固态膜中的蛋白质孔)。纳米孔可以是具有集成传感器的纳米孔(例如隧道电极探测器、电容探测器或石墨烯基纳米孔隙或边缘状态探测器(参见例如Garaj等，(2010)Nature第67卷，doi:10.1038/nature09379))。可功能化纳米孔，以分析特定类型的分子(例如DNA、RNA或蛋白质)。纳米孔测序可包含“链测序”，在该“链测序”中，完整的DNA聚合物可穿过蛋白质纳米孔并在DNA通过孔易位时实时测序。酶可使双链DNA的链分开，并使链穿过纳米孔。DNA在一端可具有发夹，系统可读段两条链。在一些情况下，纳米孔测序为“核酸外切酶测序”，其中可通过加工的核酸外切酶从DNA链中剪切单个核苷酸，且核苷酸可穿过蛋白质纳米孔。核苷酸可瞬时结合至孔内的分子(例如环糊精)。特征性的电流中断可用于鉴别碱基。

可使用来自GENIA的纳米测序技术。工程蛋白孔可被包埋进脂质双层膜中。“主动控制”技术可用于使纳米孔膜有效组装和控制DNA穿过通道的运动。在一些情况下，纳米孔测序技术来自NABsys。基因组DNA可片段化为平均长度为约100kb的链。100kb片段可制成单链的并随后与6碱基探针杂交。具有探针的基因组片段可被驱动穿过纳米孔，其可产生与时间相对的电流追踪。电流追踪可提供探针在每个基因组片段上的位置。基因组片段可排列起来，以创建用于基因组的探针图。该方法可以并行用于探针文库完成。可生成对于每个探针的基因组长度的探针图。用称为“移动窗口杂交测序(mwSBH)”的方法，可修复错误。在一些情况下，纳米孔测序技术来自IBM/Roche。电子束可用于在微芯片中制备纳米孔大小的开口。电场可用于将DNA拉过或穿过纳米孔。纳米孔中的DNA晶体管装置可包含交替的纳米金属层或介电层。DNA骨架中的离散电荷可被DNA纳米孔内部的电场捕获。启动或切断门电压可使DNA序列被读段。

下一代测序可包含DNA纳米球测序(例如通过CompleteGenomics完成；参见例如Drmanac等，(2010)Science327:78-81)。DNA可被分离、片段化和选择大小。例如DNA可被片段化(例如通过超声)至平均长度为约500bp。接头(Adl)可用于连接片段的末端。接头可用于和测序反应的锚定物杂交。具有连接至每个末端的接头的DNA可被PCR扩增。接头序列可被修饰，以使互补单链末端相互结合形成环状DNA。DNA可被甲基化，以保护其不被后续步骤中所使用的IIS类型限制性内切酶切割。接头(例如右接头)可具有限制性识别位点，而该限制性识别位点可维持非甲基化。接头中的非甲基化的限制性识别位点可被限制性内切酶(例如Acul)识别，Acul可在距离右接头右边13bp切割DNA，以形成线性的双链DNA。第二组的右接头和左接头(Ad2)可连接到线性DNA的任意末端上，且全部结合有两个接头的DNA可被PCR扩增(例如通过PCR)。可修饰Ad2序列，以使其彼此结合并形成环状DNA。DNA可被甲基化，但左Adl接头上的限制性内切酶识别位点可维持非甲基化。可应用限制性内切酶(例如Acul)，DNA可在距离Adl左侧13bp被切割，以形成线性DNA片段。第三组的右接头和左接头(Ad3)可连接到线性DNA的右翼和左翼上，并可PCR扩增得到的片段。可修饰接头，以使其彼此结合并形成环状DNA。可加入III类型限制性内切酶(例如EcoP15)；EcoP15可距离Ad3左侧26bp切割DNA和距离Ad2右侧26bp切割DNA。该切割可除去DNA的大片段并再一次直线化DNA。第四组的右接头和左接头(Ad4)可连接到DNA，扩增DNA(例如通过PCR)，并修饰，以使其彼此结合并形成完全环状的DNA模板。

可使用滚环式复制(例如使用Phi29DNA聚合酶)扩增DNA的小片段。四个接头序列可含有可杂交的回文序列，单链可在其自身上折叠以形成DNA纳米球(DNB)，该DNA纳米球的平均直径为大约200-300纳米。DNA纳米球可附接(例如通过吸附)至微阵列(测序流动槽)。流动槽可以是涂覆有二氧化硅、钛和六甲基二硅氮烷(HMDS)的硅片及光阻材料。通过将荧光探针连接至DNA，可通过非链式测序进行测序。被检测位置的荧光颜色可通过高分辨率照相机观察。可确定接头序列之间的核苷酸序列的身份。

在一些实施方案中，可使用AnyDot.芯片(Genovoxx，Germany)进行高通量测序。特别地，AnyDot.芯片使核苷酸荧光信号检测增强10至50倍。AnyDot.芯片和使用芯片的方法部分地在以下文献中进行描述：国际公布申请号WO02088382、WO03020968、WO03031947、WO2005044836、PCT/EP05/05657、PCT/EP05/05655；和德国专利申请号DE10149786、DE10214395、DE10356837、DE102004009704、DE102004025696、DE102004025746、DE102004025694、DE102004025695、DE102004025744、DE102004025745和DE102005012301。

其它高通量测序系统包括那些在以下文献中公开的系统：Venter，J.，等，Science，2001年2月16日；Adams，M.等，Science，2000年3月24日；和M.J.Levene等，Science299：682-686，2003年1月；和美国公开申请号20030044781h和2006/0078937。总体上，这样的系统涉及通过在核酸分子上测定的聚合反应以暂时添加碱基，来测序具有多个碱基的靶分子，即实时追踪核酸聚合酶在待测序的模板核酸分子上的活性。然后可通过识别每一步中以碱基添加的顺序被核酸聚合酶的催化活性并入至靶核酸正在生长的互补链的碱基，推断出序列。靶核酸分子复合物上的聚合酶位于适合于沿靶核酸分子移动和在活性位点延伸寡核苷酸引物的位置。多个标记类的核苷酸类似物位于接近活性位点，每个可区分类型的核苷酸类似物与靶核酸序列中的不同核苷酸互补。通过使用聚合酶，在活性位点向核酸链加入核苷酸类似物延长生长中的核酸链，而加入的核苷酸类似物与靶核酸的核苷酸在活性位点互补。作为聚合步骤的结果，加入至寡核苷酸引物的核苷酸类似物被识别。重复提供标记的核苷酸类似物、聚合生长中的核酸链、以及识别加入的核苷酸类似物的步骤，以便进一步延伸核酸链并确定靶核酸的序列。

在特定的实施方案中，本发明进一步提供包含本发明一种或多种组分的试剂盒。该试剂盒可用于任何对本领域技术人员显而易见的应用，包括以上所述的应用。试剂盒可包含例如多个缔合分子、固定剂、限制性内切酶、连接酶和/或其组合。在一些情况下，缔合分子可以是蛋白质，包括例如组蛋白。在一些情况下，固定剂可以是甲醛或任何其它DNA交联剂。

在一些情况下，试剂盒可进一步包含多个珠粒。珠粒可以是顺磁性的和/或涂覆有捕获剂。例如珠粒可涂覆有链霉亲和素和/或抗体。

在一些情况下，试剂盒可包含接头寡核苷酸和/或测序引物。此外，试剂盒可包含能够使用接头寡核苷酸和/或测序引物扩增读对的装置。

在一些情况下，试剂盒还可包含其它试剂，包括但不限于裂解缓冲液、连接试剂(例如dNTP、聚合酶、多核苷酸激酶和/或连接酶缓冲液等)和PCR试剂(例如dNTP、聚合酶和/或PCR缓冲液等)。

试剂盒还可包含用于使用试剂盒组分和/或用于生成读对的说明。

图8中所示的计算机系统500可理解为逻辑装置，其能够从媒介511和/或网络端口505读段指令，媒介511和/或网络端口505可选择性地连接至具有固定媒介的服务器509。例如图8中所示的系统可包括中央处理器501、磁盘驱动器503、可选的输入设备例如键盘515和/或鼠标516、以及可选的显示器507。通过图示的通信媒介，可实现将数据通信至本地或远程服务器。通信媒介可包括任何方式的传送和/或接收数据。例如，通信媒介可以是网络连接、无线连接或因特网连接。该连接能够通过万维网(worldwideweb)提供通信。可预期的是，如图8中所示，与本发明相关的数据可经由这些网络或连接传输，用于被一方接收和/或评论。

图9为表示计算机系统100的第一示例架构的框图，其可结合本发明的示例实施方案使用。如图9所示，示例的计算机系统可包括用于处理指令的处理器102。处理器的非限制性示例包括：IntelXeonTM处理器、AMDOpteronTM处理器、Samsung32-位RISCARM1176JZ(F)-Sv1.0TM处理器、ARMCortex-A8SamsungS5PC100TM处理器、ARMCortex-A8AppleA4TM处理器、MarvellPXA930TM处理器或功能上相当的处理器。多线程执行可用于并行处理。在一些实施方案中，还可使用多处理器和多核处理器，不管是在单个计算机系统中、在集群中，还是分布于遍及网络的系统中，该系统包含多个计算机、手机和/或个人数据助理设备。

如图9中所示，高速缓冲存储器104可连接至处理器102或合并在处理器102中，以便为处理器102最近或经常使用的指令或数据提供高速存储器。处理器102通过处理器总线108连接至北桥106。北桥106通过存储器总线112连接至随机存取存储器(RAM)110，并通过处理器102管理对RAM110的访问。北桥106还通过芯片组总线116连接至南桥114。南桥114依次连接至外围总线118。外围总线可以是例如PCI、PCI-X、PCIExpress或其它外围总线。北桥和南桥通常被称为处理器芯片组，并管理处理器、RAM和外围总线118上的外围部件之间传输数据。在一些可替代的架构中，北桥的功能可被整合入处理器中，而不是使用单独的北桥芯片。

在一些实施方案中，系统100可包括连接至外围总线118的加速器卡122。加速器可包括现场可编程门阵列(FPGAs)或其它用于加速某一过程的硬件。例如，可使用加速器用于适配数据重构，或用于评估扩展的集处理中所用的代数表达式。

软件和数据储存在外部存储器124中，并可被存入RAM110和/或缓冲存储器104，以便处理器使用。系统100包括用于管理系统资源的操作系统；操作系统的非限制性示例包括：Linux，Windows^TM，MACOS^TM，BlackBerryOS^TM，iOS^TM，和其它功能上相当的操作系统，以及在该操作系统上运行的应用软件，用于管理存储数据并根据本发明的实施方案进行优化。

在该实施例中，系统100还包括网络接口卡(NICs)120和121，以连接至外围总线，向外部存储器提供网络接口，例如网络附加存储(NAS)以及其它可用于分布式并行处理的计算机系统。

图10图解示出了网络200，其具有多个计算机系统202a和202b、多个手机和个人数据助理202c、以及网络附加存储(NAS)204a和204b。在示例的实施方案中，系统202a、202b和202c可管理数据存储并优化对网络附加存储(NAS)204a和204b中存储数据的数据访问。数据模型可用于数据，并使用经过计算机系统202c和202b和手机和个人数据助理系统202c的分布式并行处理评估该数据模型。计算机系统202c和202b和手机和个人数据助理系统202c还可为存储于网络附加存储(NAS)204a和204b中的数据的适配数据重构提供并行处理。图10仅示出了示例，而结合本发明的各种实施方案，可使用多种其它的计算机架构和系统。例如，刀片式服务器可用于提供并行处理。处理器刀片可通过底板连接，以提供并行处理。存储器还可连接至底板或作为网络附加存储(NAS)通过单独的网络接口。

在一些示例的实施方案中，处理器可维持独立的存储空间，并通过网络接口、底板或其它通过其它处理器用于并行处理的连接器传输数据。在其它实施方案中，部分或全部处理器可使用共享虚拟地址存储空间。

图11是根据示例实施方案使用共享虚拟地址存储空间的多处理器计算机系统300的方框图。该系统包括多个可访问共享存储器子系统304的处理器302a-f。系统将多个可编程硬件存储算法处理器(MAP)306a-f合并到存储器子系统304中。每个MAP306a-f可包含存储器308a-f和一个或多个现场可编程门阵列(FPGA)310a-f。MAP提供了可配置的功能单元，并且特定算法或部分算法可提供至FPGA310a-f，用于与各个处理器密切协作进行处理。例如，MAP可用于评估关于数据模型的代数式表达，并用于执行示例实施方案中的适配数据重构。在该示例中，用于这些目的的全部处理器可全局性访问每个MAP。在一种配置中，每个MAP可使用直接存储器访问(DMA)访问相关的存储器308a-f，使其独立于相应的微处理器302a-f、与其异步地执行任务。在该配置中，MAP可直接将结果反馈给用于算法的流水线和并行执行的另外的MAP。

以上的计算机架构和系统仅为示例，多种其它的计算机、手机和个人数据助理架构和系统可结合示例实施方案使用，包括使用以下的任意组合的系统：通用处理器、协同处理器、FPGA及其它可编程逻辑设备、片上系统(SOC)、专用集成电路(ASIC)、以及其它处理和逻辑元件。在一些实施方案中，可在软件或硬件中运行全部或部分计算机系统。可结合示例实施方案使用多种数据存储媒介，包括随机存取存储器、硬盘驱动器、闪速存储器、磁带驱动器、磁盘阵列、网络附加存储(NAS)以及其它本地或分布式数据存储设备和系统。

在示例的实施方案中，可使用在任何上述或其它计算机架构和系统上执行的软件模块，运行计算机系统。在其它实施方案中，系统功能可部分地或完全地在固件、可编程逻辑设备、片上系统(SOC)、专用集成电路(ASIC)或其它处理或逻辑元件中运行，所述可编程逻辑设备例如图11中所示的现场可编程门阵列(FPGA)。例如通过使用硬件加速器卡，可对组处理器和优化器进行硬件加速，所述硬件加速器卡例如图9中所示的加速器卡122。

以下实施例旨在说明但不限制本发明。这些实施例是可能使用的实施例中具有代表性的，本领域技术人员已知的其它程序可选择地使用。

实施例

实施例1.在体外生成染色质的方法

两种重构染色质的途径值得特别留意：一种途径是使用不依赖ATP的组蛋白的随机沉积到DNA上，而另一种途径使用周期性核小体的依赖ATP的组装。本发明允许结合本文公开的一种或多种方法使用任何一种途径。生成染色质的两种途径的示例可参见Lusser等(“Strategiesforthereconstitutionofchromatin”，NatureMethods(2004),1(1):19-26)，其全部内容以引用方式并入本文中，包括其中所引用的参考文献。

实施例2.使用基于HI-C的技术进行基因组组装

来自人类受试者的基因组被片段化为大小500kb的伪重叠群。使用基于Hi-C的方法，通过探测活细胞内染色体的物理布局，生成多个读对。多种基于Hi-C的方法可用于生成读对，包括以下所示的方法：Lieberman-Aiden等(“Comprehensivemappingoflongrangeinteractionsrevealsfoldingprinciplesofthehumangenome”，Science(2009)，326(5950):289-293)，其全部内容以引用方式并入本文中，包括其中所引用的参考文献。读对被定位至全部伪重叠群，并且那些定位至两个独立伪重叠群的读对用于基于定位数据构建邻接矩阵。通过采用读段到伪重叠群边缘的距离的函数，对约50％、约60％、约70％、约80％、约90％、约95％或约99％的读对加权，以在数学上体现经验上已知的短接触比长接触高的概率。然后，对于每个伪重叠群，分析邻接矩阵，以通过发现单个最佳邻接伪重叠群确定经过伪重叠群的路径，这通过具有最高的加权之和而确定。通过实施这些方法，发现大于97％的全部伪重叠群识别出其正确邻接伪重叠群。可进行另外的试验，以测试较短重叠群和替代性加权和路径发现方法的影响。

可选择地，使用Hi-C数据的基因组组装可包括计算方法，该计算方法利用Hi-C数据组中基因组接近的信号，用于从头基因组组装的超长架构(scaffolding)。可结合本文所公开的方法使用的这些计算方法的示例包括由Burton等提出的连接邻近染色质法(NatureBiotechnology31：1119-1125(2013))；由Kaplan等提出的DNA三角法(NatureBiotechnology31：1143-47(2013))，其全部内容及其任何引用文献通过引用被并入本文。此外，应当理解为这些计算方法可组合使用，包括和本文所示的其它基因组组装方法。

例如，可结合本文所公开的方法，使用基于Burton等的连接相邻染色质的方法，其包括以下步骤：(a)使重叠群聚集为染色体组，(b)对一个或多个染色体组内的重叠群进行排序，以及(c)为各重叠群分配相对方向。对于步骤(a)，使用层次聚类，将重叠群放到组中。创建图表，每个节点最初表示一个重叠群，并且节点之间的每条边具有与连接两个重叠群的Hi-C读对的数量相等的权重。使用具有平均连接度量的层次凝聚聚类，将重叠群混合起来，直至组的数量减少至不同染色体的期望数量(仅计算具有多于一个重叠群的组)。不聚类重复重叠群(该重叠群与其它重叠群的平均连接密度，按限制性片段位点的数量进行归一化后，比平均连接密度大两倍)和具有太少限制性片段位点的重叠群。然而，聚类之后，这些重叠群中的每一个被分配至一个组--如果其与那个组的平均连接密度比其与其它组的平均连接密度大四倍。对于步骤(b)，类似聚类步骤创建图表，但节点之间的边的权重等于重叠群之间的Hi-C连接数量的倒数，用每个重叠群中限制性片段位点的数量归一化。从该图中排除短的重叠群。计算该图标的最小生成树。发现该树中的最长路径“主干”。然后修改该生成树，以通过向其加入邻近树干的重叠群，延长主干，以使总边权重保持试探性地低。在每个组发现延长主干之后，如下所述，延长主干被转化为完全有序的。从生成树中移除主干，留下一组含有全部非主干内的重叠群的“分支”。这些分支被重新插入主干，首先是最长的分支，选择插入位点，以使排序中相邻的连接数最大。短片段未被插入；因此，被聚类的多个小重叠群未参与最终的组装。对于步骤(c)，每个重叠群在其次序内的方向通过考虑每个重叠群上Hi-C连接对齐的确切位置而确定。假定Hi-C连接将基因组距离为x的两个读段相连的可能性对于x≥～100Kb大致为1/x。创建加权有向无环图(WDAG)，表示按预定次序定向重叠群的所有可能方式。WDAG中的每条边对应一对相邻的重叠群，沿其四个可能的组合方向中的一个，且边权值被设为观察两个重叠群之间的Hi-C连接距离集合的对数似然，假定它们紧邻给定方向相邻。对于每个重叠群，如下计算其方向的质量评分。发现该重叠群在其当前方向上与其邻近重叠群之间的所观察的Hi-C连接集合的对数似然性。然后反转重叠群，再次计算对数似然性。由于计算方向的方式，保证第一对数似然性较高。对数似然性之间的差异被视为质量评分。

本文所公开的方法中还可使用类似Kaplan等的可替代的DNA三角法，以从重叠群和读对组装基因组。DNA三角法基于高通量体内全基因组染色质交互数据的使用，以推断基因组位置。对于DNA三角法，首先通过将基因组分到100-kb箱中定量CTR类型，每个箱表示大的虚拟重叠群，并计算每个放置的重叠群与每个染色体的平均交互频率。为了评估经过长距离的定位，忽略重叠群与每一侧上相接的1mb的交互数据。平均交互频率大大分开了染色体内的相互作用和染色体之间的相互作用，并高度预测了重叠群属于哪个染色体。然后，采用简单的多级模型，朴素贝叶斯分类器，基于其与每个染色体的平均交互频率，预测每个重叠群的染色体。基因组的组装部分用于拟合描述Hi-C交互频率和基因组距离之间的关系的概率性单参数指数衰减模型(领域驱动设计(DDD)模型)。在每轮中，从染色体除去重叠群，连同每一侧上1Mb的侧翼区。然后基于交互情况和衰减模型估计每个重叠群的最可能的位置。预测误差定量为预测位置和实际位置之间的距离的绝对值。

通过将DNA三角法结合长插入片段文库，可进一步提高每个重叠群的可预测性。通过了解染色体分配和每个重叠群的大致位置，可极大地降低长插入支架的计算复杂性，因为每个重叠群仅需要与其邻近的重叠群配对；从而解决不明确的重叠群连接，并减少位于染色体较远区域或不同染色体上的重叠群不正确连接的组装错误。

实施例3.用于单体型定相的方法

因为通过本文所公开的方法生成的读对通常来源于染色体内接触，任何含有杂合位点的读对还将携带与其定相相关的信息。使用这些信息，可快速地并准确地在短的、中等的甚至长的(百万碱基)距离进行可靠的定相。设计用于定相来自1000个基因组三人组(母方/父方/后代基因组的集合)之一的数据的试验，可靠地推断定相。此外，还可以结合本文公开的单体型定相方法使用单体型重建，该单体型重建使用类似于Selvaraj等(NatureBiotechnology31：1111-1118(2013))的邻位连接。

例如，还可在本文所公开的方法中使用基于邻位连接的方法的单体型重建，用于定相基因组。使用基于邻位连接的方法的单体型重建结合邻位连接和DNA测序与用于单体型组装的概率算法。首先，使用染色体捕获技术，例如Hi-C技术，进行邻位连接测序。这些方法可捕获来自在三维空间内在一起成环的两个远离的基因组位置的DNA片段。在对获得的DNA文库进行鸟枪DNA测序之后，配对末端测序读段具有范围从几百碱基对到几千万碱基对的“插入大小(insertsize)”。因此，在Hi-C试验中生成的短DNA片段可产生小的单体型块，长片段最终可将这些小块连接在一起。具有足够的测序范围，该方法可能连接非连续块中的变异体并将每个这种块组成成单个单体型。然后将该数据与单体型的概率算法结合。概率算法利用图表，该图表中节点对应杂合变体和边对应可连接变异体的重叠序列片段。该图表可含有由测序错误或反式相互作用造成的假边缘。然后用最大割算法(max-cutalgorithm)预测简化的方案，其最大程度地与由输入测序读段集合提供的单体型信息一致。因为邻位连接生成的图表比常规基因组测序或配对测序更大，修改运算时间和迭代次数，以便单体型可以以合理的速度和高准确度预测。然后可使用得到的数据使用Beagle软件和来自基因组计划的测序数据引导局部定相，以生成具有高分辨率和准确度的跨越染色体的单体型。

实施例4.用于宏基因组组装的方法

从环境采集微生物并用固定剂固定，该固定剂例如甲醛，以在微生物细胞内形成交联。通过使用高通量测序，从微生物生成多个重叠群。通过使用基于Hi-C的技术生成多个读对。定位至不同重叠群的读对指出哪些重叠群来自相同的种。

实施例5.制备极长程读对的方法

使用市售试剂盒，将DNA提取至高达150kbp的片段大小。使用来自ActivMotif的商用试剂盒，在体外将DNA组装到重构染色质结构中。染色质被生物素化、用甲醛固定、并被固定化在链霉亲和素珠粒上。用限制性内切酶消化DNA片段并孵育过夜。得到的粘性末端用α-硫代-dGTP和生物素化的dCTP补平，以生成平末端。平末端用T4连接酶连接。重构染色质用蛋白酶消化，以重新得到连接的DNA。从珠粒提取DNA，并进行核酸外切酶消化，以从未连接的末端除去生物素。剪切回收的DNA，并用dNTP补平末端。通过用链霉亲和素珠粒下拉，纯化该生物素化的片段。在一些情况下，连接接头，并且对片段PCR扩增用于高通量测序。

实施例6.用于产生高质量人类基因组组装的方法

在已知本发明可生成跨越相当大基因距离的读对的情况下，可测试该用于基因组组装的信息的利用。本发明可大大改善可能的从头组装与染色体长度的支架的连接。可评估组装能够如何完整地产生以及使用本发明需要多少数据。为了评估本方法产生对组装有用的数据的功效，可构建并测序标准的Illumina鸟枪文库和XLRP文库。在一种情况下，使用来自标准鸟枪文库的每一个的1个IlluminaHiSeq泳道的数据和XLRP文库中的数据。检测每种方法生成的数据，并将其与各种现有组装软件比较。可选地，还记载了特别适合本发明产生的独特数据的新软件。可选地，使用充分表征的人类样本作为比较本方法产生的组装的参照，以评估其准确度和完整度。使用前面分析中得到的知识，产生组装软件，以增加XLRP和鸟枪数据的高效和有效利用。使用本文所述的方法，生成的基因组组装质量与2002年12月鼠基因组草图相当，或更好。

可用于该分析的一种样本为NA12878。使用多种已公开的用于最大化DNA片段长度的技术，提取来自样本细胞的DNA。分别构建标准IlluminaTruSeq鸟枪文库和XLRP文库。每个文库得到2x150bp序列的单个HiSeq泳道，每个文库可产生大约1亿5千万读对。使用全基因组组装算法将鸟枪数据组装为重叠群。这些算法的示例包括：如Chapman等(PLOSONE6(8)：e2350(2011))中所述的Meraculous或者如Simpson等(Genomeresearch22(3)：549–56(2012))中所述的标准遗传算法。将XLRP文库读段与初始组装产生的重叠群进行比对。比对用于进一步连接重叠群。一旦确定XLRP用于连接重叠群的有效性，Meraculous组装可扩展至同时将鸟枪和XLRP文库整合到单个组装过程中。Meraculous为组装软件奠定了牢固的基础，可选地，产生一体化的组装软件，以满足本发明的具体需要。本发明组装的人类基因组与任何已知序列进行比较，以评估基因组组装中的质量。

实施例7.用于以高准确度从小数据组定相人类样本杂合SNP的方法

在一个试验中，定相受试人类样本数据组中大约44％的杂合变异体。捕获全部或几乎全部距离限制内切位点一个读长内的定相变异体。通过使用计算机模拟分析，可通过使用更长的读长和使用用于消化的一种或多种组合限制性内切酶，捕获更多用于定相的变异体。使用具有不同限制酶切位点的限制性内切酶的组合，增加了参与每个读对的两个限制酶切位点中的一个范围内的基因组(以及从而杂合位点)的比例。计算机模拟分析显示，使用两种限制性内切酶的各种组合，本发明的方法可定相超过95％的已知杂合位置。附加的酶和更大的读长进一步增加了被观察和定相的杂合位点部分，直至完全的覆盖范围和定相。

计算可用各种由两种限制性内切酶构成的组合实现的杂合位点覆盖范围。就读段接近中的杂合位点而言，用流程测试了前三种组合。对于这些组合中的每一种，产生并测序XLRP文库。得到的读段与人类参照基因组进行比对，并与样本的已知单体型比较，以确定实验步骤的准确度。只使用1条泳道的IlluminaHiSeq数据，定相多达90％或更多的人类样本的杂合SNP，其准确度为99％或更高。此外，通过使读长增加至300bp，进一步捕获变异体。可观察到的限制内切位点周围的读段区域有效地翻倍。应用附加的限制性内切酶组合，增加覆盖范围和准确度。

实施例8.高分子量DNA的提取和影响：

用市售试剂盒提取高达150kbp的DNA。图7表明可从达到被提取DNA的最大片段长度的捕获读对，生成XLRP文库。相应地，可期望本文所公开的方法能够从甚至更长串的DNA生成读对。有许多完善的用于高分子量DNA回收的方法，且这些方法可结合本文所公开的方法或实验步骤使用。使用提取方法以产生大片段长度的DNA，从这些片段中创建XLRP文库，并且可评估产生的读对。例如，可通过以下方法提取大分子量DNA：(1)温和的细胞溶解，根据Teague等(Proc.Nat.Acad.Sci.USA107(24):10848–53(2010))或Zhou等(PLOSGenetics，5(11)：e1000711(2009))；和(2)琼脂糖凝胶塞，根据Wing等(ThePlantJournal：forCellandMolecularBiology，4(5)：893–8(1993))，其全部内容通过引用被并入本文，包括其中引用的任何参考文献，或者通过使用来自BorealGenomics的AuroraSystem。这些方法能够生成超过下一代测序通常所需的长DNA片段；然而，本领域已知的其它合适的方法可替代，以实现类似的结果。AuroraSystem提供了意想不到的结果，并且可从组织或其它制备样本中分离和浓缩DNA至长度高达或超过百万碱基。使用这些方法中的每一种制备DNA提取物，从单个GM12878细胞培养物开始，以控制样本水平可能的差异。根据Herschleb等(NatureProtocols2(3)：677–84(2007))，通过脉冲电场凝胶电泳评估片段的大小分布。使用前述方法，可提取极其长串的DNA并用其构建XLRP文库。然后对XLRP文库测序并比对。通过比较读对之间的基因组距离和从凝胶中观察到的片段大小，分析得到的读段数据。

实施例9.减少来自非期望基因组区域的读对

通过体外转录产生与非期望基因组区域互补的RNA，并在交联之前将其加入重组的染色质。当补充RNA结合至一个或多个非期望基因组区域时，RNA结合降低了在这些区域处的交联效率。从而减少来自这些区域的DNA在交联复合物中的丰度。重组的染色质被生物素化和固定化、并如上所述进行使用。在一些情况下，RNA被设计为针对基因组中的重复区域。

实施例10.增加来自期望染色质区域的读对

来自期望染色质区域的DNA以双链形式产生，用于基因组装或单体型分析。相应地减少来自非期望区域的DNA的代表。通过以多个千碱基间距铺盖在这些区域上的引物，生成来自期望染色质区域的双链DNA。在该方法的其它实施方案中，改变铺盖间距，以使不同大小的期望区域具有期望的复制效率。经过期望区域的引物结合位点与引物接触，可选地通过融化DNA。使用铺设的引物合成DNA的新链。例如通过用单链DNA特异性的核酸内切酶把这些区域作为目标，减少或消除非期望区域。可选择地扩增其余的期望区域。制备好的样本用本文其它地方所述的测序文库制备方法进行处理。在一些实施方案中，从每个这些期望染色质区域生成跨越高达每个期望染色质区域长度的读对。

虽然本文已经示出并描述了本发明的优选实施方案，但对于本领域的技术人员来说，显然这些实施例只是用于举例说明。对于本领域技术人员来说，在不背离本发明的范围的情况下可以作出多种变形、改变和替换。应当理解此处所描述的本发明实施方案的各种可替代方案可用于实施本发明。以下权利要求旨在定义本发明的范围以及由这些权利要求涵盖的这些权利要求及其等价物的范围内的结构和方法。以下权利要求旨在定义本发明的范围以及由这些权利要求涵盖的这些权利要求及其等同方案的范围内的结构和方法。

Claims

1.一种用于基因组组装的方法，其包括：

生成多个重叠群；

从通过探测染色体、染色质或重构染色质的物理布局产生的数据中，生成多个读对；

将所述多个读对定位或组装至所述多个重叠群；

使用读段定位或组装数据，构建重叠群的邻接矩阵；

分析所述邻接矩阵，以确定经过所述重叠群的路径，所述路径代表所述重叠群的次序和/朝着基因组的方向。

2.根据权利要求1所述的方法，其中所述多个重叠群通过使用鸟枪测序法生成，所述鸟枪测序法包括：

使长段的受试者DNA断裂成大小不确定的随机片段；

用高通量测序法对所述片段进行测序，以生成多个测序读段；和

组装所述测序读段，以形成多个重叠群。

3.根据权利要求1或权利要求2所述的方法，其中通过使用基于Hi-C的技术，探测染色体、染色质或重构染色质的物理布局，生成所述多个读对。

4.根据权利要求3所述的方法，其中所述基于Hi-C的技术包括：

使染色体、染色质或重构染色质与固定剂交联，以形成DNA-蛋白质交联物；

用一种或多种限制性内切酶切割交联的DNA-蛋白质，以生成含有粘性末端的多个DNA-蛋白质复合物；

用含有一种或多种标记物的核苷酸补平所述粘性末端，产生平末端随后使平末端连接在一起；

使所述多个DNA-蛋白质复合物断裂为片段；

通过使用一种或多种标记物，拉下含有接点的片段；和

用高通量测序法对所述含有接点的片段的进行测序，以生成多个读段对。

5.根据前述任一项权利要求所述的方法，其中通过探测分离自培养细胞或初生组织的染色体或染色质的物理布局，生成多个读段对。

6.根据权利要求1至4任一项所述的方法，其中所述多个读对是通过将探测重构染色质的物理布局生成的，所述重构染色质是通过将获自一个或多个受试者样本的裸DNA与分离的组蛋白复合形成的。

7.根据前述任一项权利要求所述的方法，其中对于所述多个读段对，通过采用所述读段到所述重叠群边缘的距离的函数，加权至少约80％的读对，体现短接触比长接触更高的概率。

8.根据前述任一项权利要求所述的方法，其中重新调整所述邻接矩阵，以减少表示所述基因组混杂区域的重叠群上的大量接触的权重。

9.根据权利要求8所述的方法，其中所述基因组的混杂区域包括对于一种或多种物质的一个或多个保守结合位点，所述物质调节染色质的支架相互作用。

10.根据权利要求9所述的方法，其中所述一种或多种介质包含转录抑制子CTCF。

11.根据前述任一项权利要求所述的方法，其中所述方法提供人类受试者的基因组组装，其中从人类受试者的DNA生成多个重叠群，而且其中通过使用人类受试者的染色体或染色质或由受试者裸DNA制得的重构染色质，生成多个读对。

12.一种用于确定单体型定相的方法，其包括前述任一项权利要求所述的方法，其中所述方法进一步包括：

识别所述多个读对中的一个或多个杂合位点；和

识别含有成对杂合位点的读对，其中从所述成对杂合位点的识别，能够确定用于等位基因变异型的定相数据。

13.一种用于宏基因组装的方法，其包括权利要求1所述的方法，其中通过使用改良的基于Hi-C的方法探测多个微生物染色体的物理布局，确定多个读对，所述改良的基于Hi-C的方法包括：

收集来自环境的微生物；和

加入固定剂，以在每个微生物细胞中形成交联，其中定位至不同重叠群的读对表明哪些重叠群来自相同的物种。

14.根据权利要求13所述的方法，其中所述固定剂为甲醛。

15.一种组装从单个DNA分子生成的多个重叠群的方法，其包括：

从所述单个DNA分子生成多个读对；和

使用所述读对组装所述重叠群，其中至少1％的读对跨越单个DNA分子上的至少50kB的距离，并且其中所述读对在14天内生成。

16.根据权利要求15所述的方法，其中至少10％的所述读对跨越所述单个DNA分子上的至少50kB的距离。

17.根据权利要求15所述的方法，其中至少1％的所述读对跨越所述单个DNA分子上的至少100kB的距离。

18.根据权利要求15至17任一项所述的方法，其中所述读对在7天内生成。

19.一种组装源自单个DNA分子的多个重叠群的方法，其包括：

在体外从所述单个DNA分子生成多个读对；和

使用所述读对组装所述重叠群，其中至少1％的所述读对跨越所述单个DNA分子上的至少30kB的距离。

20.根据权利要求19所述的方法，其中至少10％的所述读段对跨越所述单个DNA分子上的至少30kB的距离。

21.根据权利要求20所述的方法，其中至少1％的所述读对跨越所述单个DNA分子上的至少50kB的距离。

22.一种单体型定相的方法，其包括：

从单个DNA分子生成多个读对；和

使用所述读对组装所述DNA分子的多个重叠群，其中至少1％的所述读段对跨越所述单个DNA分子上的至少50kB的距离，并且其中以大于70％的准确度进行所述单体型定相。

23.根据权利要求22所述的方法，其中至少10％的所述读对跨越所述单个DNA分子上的至少50kB的距离。

24.根据权利要求22所述的方法，其中至少1％的所述读对跨越所述单个DNA分子上的至少100kB的距离。

25.根据权利要求22至24任一项所述的方法，其中以大于90％的准确度进行所述单体型定相。

26.一种单体型定相的方法，其包括：

在体外从单个DNA分子生成多个读对；和

使用所述读对组装所述DNA分子的多个重叠群，其中至少1％的所述读段对跨越所述单个DNA分子上的至少30kB的距离，并且其中以大于70％的准确度进行所述单体型定相。

27.根据权利要求26所述的方法，其中至少10％的所述读对跨越所述单个DNA分子上的至少30kB的距离。

28.根据权利要求26所述的方法，其中至少1％的所述读对跨越所述单个DNA分子上的至少50kB的距离。

29.根据权利要求26至28任一项所述的方法，其中以大于90％的准确度进行所述单体型定相。

30.一种在体外单体型定相的方法，其中所述单体型定相以大于70％的准确度进行。

31.一种从第一DNA分子生成第一读对的方法，其包括：

(a)在体外交联所述第一DNA分子，其中所述第一DNA分子包含第一DNA片段和第二DNA片段；

(b)连接所述第一DNA片段和所述第二DNA片段，从而形成连接的DNA片段；和

(c)对所述连接的DNA片段进行测序，由此获得所述第一读对。

32.根据权利要求31所述的方法，其中多个缔合分子与所述第一DNA分子交联。

33.根据权利要求32所述的方法，其中所述缔合分子包含氨基酸。

34.根据权利要求33所述的方法，其中所述缔合分子是肽或蛋白质。

35.根据权利要求31至34任一项所述的方法，其中所述第一DNA分子与固定剂交联。

36.根据权利要求35所述的方法，其中所述固定剂为甲醛。

37.根据权利要求31至36任一项所述的方法，其中通过切割所述第一DNA分子，生成所述第一DNA片段和所述第二DNA片段。

38.根据权利要求31至37任一项所述的方法，其进一步包括用所述第一读对组装所述第一DNA分子的多个重叠群。

39.根据权利要求31至38任一项所述的方法，其中所述第一DNA片段和所述第二DNA片段中的每一个都与至少一个亲和标签相连，并用所述亲和标签捕获所述连接的DNA片段。

40.根据权利要求31所述的方法，其进一步包括：

(a)向至少第二DNA分子提供多个缔合分子；

(b)将所述缔合分子交联至所述第二DNA分子，由此在体外形成第二复合物；

(c)切割所述第二复合物，由此生成第三DNA片段和第四DNA片段；

(d)连接所述第三DNA片段和所述第四DNA片段，由此形成第二连接的DNA片段；和

(e)对所述第二连接的DNA片段进行测序，由此获得第二读段对。

41.根据权利要求40所述的方法，其中使少于40％的来自所述DNA分子的所述DNA片段连接至来自任何其它DNA分子的DNA片段。

42.根据权利要求40所述的方法，其中少于20％的来自所述DNA分子的所述DNA片段连接至来自任何其它DNA分子的DNA片段。

43.一种从含有预定序列的第一DNA分子生成第一读对的方法，其包括：

(a)向所述第一DNA分子提供一种或多种DNA结合分子，其中所述一种或多种DNA结合分子结合至所述预定序列；

(b)在体外交联所述第一DNA分子，其中所述第一DNA分子包含第一DNA片段和第二DNA片段；

(c)连接所述第一DNA片段和所述第二DNA片段，由此形成第一连接的DNA片段；和

(d)对所述第一连接的DNA片段进行测序，由此获得第一读段对；

其中所述预定序列出现在所述读段对中的概率受到所述DNA结合分子与所述预定序列的结合的影响。

44.根据权利要求43所述的方法，其中所述DNA结合分子为能够与所述预定序列杂交的核酸。

45.根据权利要求44所述的方法，其中所述核酸为RNA。

46.根据权利要求44所述的方法，其中所述核酸为DNA。

47.根据权利要求43所述的方法，其中所述DNA结合分子为小分子。

48.根据权利要求47所述的方法，其中所述小分子以小于100μM的结合亲和力结合至所述预定序列。

49.根据权利要求47所述的方法，其中所述小分子以小于1μM的结合亲和力结合至所述预定序列。

50.根据权利要求43至49任一项所述的方法，其中所述DNA结合分子被固定化在表面或固相载体上。

51.根据权利要求43所述的方法，其中所述预定序列出现在所述读段对中的概率下降。

52.根据权利要求43所述的方法，其中所述预定序列出现在所述读段对中的概率上升。

53.一种包含多个读段对的体外文库，每个读段对包含至少第一序列元件和第二序列元件，其中所述第一序列元件和所述第二序列元件来源于单个DNA分子，且其中至少1％的读段对包含在所述单个DNA分子上相距至少50kB的第一序列元件和第二序列元件。

54.根据权利要求53所述的体外文库，其中至少10％的所述读对包含在所述单个DNA分子上相距至少50kB的第一序列元件和第二序列元件。

55.根据权利要求54所述的体外文库，其中至少1％的所述读对包含在所述单个DNA分子上相距至少100kB的第一序列元件和第二序列元件。

56.根据权利要求53至55任一项所述的体外文库，其中少于20％的所述读对包含一个或多个预定序列。

57.根据权利要求56所述的体外文库，其中少于10％的所述读对包含一个或多个预定序列。

58.根据权利要求57所述的体外文库，其中少于5％的所述读对包含一个或多个预定序列。

59.根据权利要求56至58任一项所述的体外文库，其中通过能够与所述预定序列杂交的一个或多个核酸或小分子，确定所述预定序列。

60.根据权利要求59所述的体外文库，其中所述一个或多个核酸为RNA。

61.根据权利要求59所述的体外文库，其中所述一个或多个核酸为DNA。

62.根据权利要求59至61任一项所述的体外文库，其中所述一个或多个核酸被固定化在表面或固相载体上。

63.根据权利要求59所述的体外文库，其中所述预定序列通过一个或多个小分子确定。

64.根据权利要求63所述的体外文库，其中所述一个或多个小分子以小于100μM的结合亲和力结合至所述预定序列。

65.根据权利要求63所述的体外文库，其中所述一个或多个小分子以小于1μM的结合亲和力结合至所述预定序列。

66.一种组合物，其包含DNA片段和多个缔合分子，其中所述缔合分子与所述DNA片段交联在体外复合物中，并且其中所述体外复合物被固定至固相载体上。

67.一种组合物，其包含DNA片段、多个缔合分子和DNA结合分子，其中所述DNA结合分子结合至所述DNA片段的预定序列，并且其中所述缔合分子与所述DNA片段交联。

68.根据权利要求67所述的组合物，其中所述DNA结合分子为能够与预定序列杂交的核酸。

69.根据权利要求68所述的组合物，其中所述核酸为RNA。

70.根据权利要求68所述的组合物，其中所述核酸为DNA。

71.根据权利要求68至70任一项所述的组合物，其中所述核酸被固定化在表面或固相载体上。

72.根据权利要求67所述的组合物，其中所述DNA结合分子为小分子。

73.根据权利要求72所述的组合物，其中所述小分子以小于100μM的结合亲和力结合至所述预定序列。

74.根据权利要求72所述的组合物，其中所述小分子以小于1μM的结合亲和力结合至所述预定序列。