CN106029909A

CN106029909A - 测定核酸结构信息的改进方法

Info

Publication number: CN106029909A
Application number: CN201580009351.1A
Authority: CN
Inventors: 米夏埃尔·G·萨格比尼; 亨利·B·萨多夫斯基; 戈兰·普列瓦利契奇; 亚历克斯·R·黑斯蒂; 曹涵
Original assignee: Bionano Genomics Inc
Current assignee: Bionano Genomics Inc
Priority date: 2014-02-18
Filing date: 2015-02-17
Publication date: 2016-10-12
Anticipated expiration: 2035-02-17
Also published as: CN106029909B; US20210010074A1; US20160369331A1; US11959134B2; WO2015126840A1

Abstract

本文中公开了例如能够鉴定插入、缺失、重复区域尺寸和基因组重排的双链核酸序列的测定和组装方法，其可以使用相对较大的被标记的核酸片段来分析甚至更大的基因区域的结构。在一些实施方式中，这些方法包含使用出人意料地改善总体方法性能的某些参数。在一些实施方式中，这些方法包含不导致单链核酸片段标记中间体形成的样品标记。

Description

测定核酸结构信息的改进方法

相关申请

本申请基于35U.S.C.§119(e)要求在2014年2月18日提交的美国临时申请No.61/941,261的优先权，所述临时申请的内容明确通过参考整体并入本文。

技术领域

本发明涉及纳米技术领域，以及基于单分子可视化和分析的基因组组装和样品分析领域。

背景技术

大分子例如DNA或RNA是由核苷酸组成的长聚合物链，其线性序列与来源有机体的基因组和后-基因组的基因表达信息直接相关。序列区域、基序、以及功能单元例如开放阅读框(ORF)、非翻译区(UTR)、外显子、内含子、蛋白因子结合位点、表观基因组位点例如CpG簇、microRNA位点、转座子、反向转座子和其他结构和功能单元的直接测序和绘图对于分析个体的基因组构成和“健康情况”非常重要。

在测定局部序列信息——即，位于核酸分子局部区域的特定序列的碱基上已经取得了巨大进步。该信息的可获得性、以及获得所述信息的相对容易性和较低成本，代表了通过允许个性化医学诊断而改善人类健康的一个巨大的机会。

然而，目前可用和在研的测定基因组序列信息的方法共有一个相同的缺陷，即它们关注的是从结构基因组环境移除的局部序列信息。因此，当前的技术不容易获得与基因组重排、复制、重复区域的长度相关的序列信息以及其他结构序列信息。

在某些情况下，在个体生命期间核苷酸序列的复杂重排(包括片段复制、插入、缺失、反转和转位)导致疾病状态，例如遗传异常或细胞恶变。在其他情况下，不同个体的基因组成之间的序列差异、拷贝数变化(CNV)和其他差异反映了群体基因组成的多样性和对环境刺激和其他外部影响例如药物治疗的差别化响应。

其他进行中的过程例如DNA甲基化、组蛋白修饰、染色质折叠、以及修饰DNA-DNA、DNA-RNA或DNA-蛋白相互作用的其他变化影响了基因调控、表达以及最终的细胞功能，导致疾病和癌症。

基因组结构变异(SV)很普遍，即使在健康个体中也是如此。了解基因组序列信息对于人类健康的重要性变得日益明显。

将基因组结构信息可视化的常规细胞遗传方法，例如核型分析或FISH(荧光原位杂交)，提供了低至单细胞水平的基因组结构信息的全局视图。这些方法有效地揭示了基因组的总体变化，例如非整倍性、成千上万的碱基对的大片段的增加、损失或重排。然而，这些方法在检测中等到小序列基序或损伤时具有相对较低的灵敏性和分辨率的缺点，并且费力、速度受限且准确性不一致。

最新的用于检测目的序列区域、序列基序和SV的方法，例如aCGH(阵列比较基因组杂交)、fiberFISH或大规模的配对末端测序，具有改进的分辨率和通量，但仍然是间接、费力且不一致、昂贵的，或者经常具有有限的固定的分辨率，依靠回退到参比基因组的绘图而提供推断的位置信息以进行重装配，或者提供不揭示平衡的损伤事件例如反转或转位的比较强度比率信息。

功能单元和共同的结构变异被认为涵盖数十个碱基到多于兆碱基。因此，在更多个体的测序和精细绘图项目中，为了编录先前未表征的基因组特征，一种沿着大的天然基因组分子横跨从低于千碱基到兆碱基的分辨率等级来揭示序列信息和SV的方法是非常需要的。

此外，生物系统、尤其是在多倍体生物例如人类中的表型多态性或疾病状态是从母系和父系血统继承的两个单倍体基因组之间相互作用的结果。癌症经常是二倍体染色体损伤之间杂合性损失的结果。

当前的测序分析方法主要基于源自于具有有限单倍体型信息的平均的多倍体基因组材料的样品。这主要是由于现有的前端样品制备方法目前用于从异质细胞群提取混合的二倍体基因组材料，然后将它们切碎成随机的更小的碎片，这破坏了二倍体基因组的天然结构信息。

最近开发的第二代测序方法尽管具有改进的通量，但由于从短得多的测序读出结果进行的组装更为困难，使得复杂基因组信息的描绘进一步复杂化。

通常，短读出结果更难以唯一地排列在复杂基因组内，并且需要额外的序列信息来破译短的靶区域的线性顺序。据认为，要达到相似的组装置信度，需要25倍测序覆盖的等级，而不是常规BAC和鸟枪Sanger测序中需要的8-10倍覆盖(Wendl MC,Wilson RK,医学DNA测序中的覆盖方面(Aspects of coverage in medical DNA sequencing),BMC Bioinformatics 2008年5月16日；9:239)。这为降低测序成本提出了进一步的挑战，并且击败了将测序成本显著降低至低于目标1000美元界限的最初的主要目标。

发明内容

在本文中公开了与快速和经济地测定核酸结构信息相关的方法、组合物和装置。

在一些实施方式中，本公开提供了从DNA或其他核酸样品获得结构信息的方法。这些方法合适地包括处理双链DNA样品以便在整个核酸样品的至少一个位置处产生标签例如共价结合的序列特异性标签。

注意，可以从两侧有两个或更多个探针的DNA区域的仅仅尺寸/长度收集到重要的遗传信息。例如，如果将探针结合到样品以便位于目标区域两侧，并且看到目标区域长于在受试者中通常所见到的，则怀疑有插入、复制或其他突变。在有些情况下，使用者将会知道受试者可能处于以目标区域延长为特征的生理状况或疾病下，例如以特定基因的过量的拷贝数为特征的状况。

以序列特异性方式掺入至少一个标记物可以通过将多核酸样品与序列特异性甲基转移酶(MTase)接触来实现。

基于我们对人类和果蝇基因组的工作，一个重要的进步涉及序列特异性标记，其中甲基转移酶标记基于其序列特异性、包括复杂基因组组装所需要的条件而是一种优选的方式。本文中公开的方法、组合物和系统允许对DNA或其他核酸生物聚合物样品进行遗传分析，而不一定要将生物聚合物断裂成单个核酸进行分析。此外，本文中公开的方法、组合物和系统使得使用者可以执行基本上独立于生物聚合物内的核酸序列的核酸生物聚合物分析。

应该理解，为了清楚起见，本文中公开的某些特征被描述在单独的实施方式、要素或步骤的上下文中；然而这些特征也可以在单个实施方式中以组合形式提供。相反地，为了简要起见，在单个实施方式的情况下描述的本文中公开的各种不同特征也可以单独提供或以任何子组合的形式提供。此外，对以范围陈述的值的指称包括在该范围内的各个及每一个值。

在一些实施方式中，本公开包括从DNA或其他核酸样品获得结构信息的方法。这些方法合适地包括处理双链DNA样品以便产生核酸分子的序列特异性标记，例如可以生成“条形码”的序列特异性标记，例如指示由修饰酶鉴定的特异性序列的相对位置的条形码。在一些实施方式中，所述修饰酶是甲基转移酶，并且在一些实施方式中，所述修饰包括在已知序列的核酸区域处添加荧光团，所述已知序列例如为所选甲基转移酶所作用的序列。

通过参考下面的构成本公开的一部分的详细描述、结合附图和实施例，可以更容易地理解本公开。应该理解，本公开不限于本文中描述和/或示出的特定装置、方法、应用、条件或参数，并且本文中使用的术语仅仅是用于举例描述特定实施方式的目的，而不是意图限制所要求保护的发明。另外，在包括权利要求书的说明书中使用时，不带具体数量的指称包括其复数形式，并且对特定数值的指称至少包括该特定数值，除非上下文明确作出另行规定。术语“多个”在本文中使用时意指多于一个。当表述一个数值范围时，另一个实施方式包括从一个特定值和/或到另一个特定值。类似地，当数值通过使用先行词“约”以近似值表述时，应该理解，该特定值构成另一个实施方式。所有的范围均是包含两端并且可以组合的。

本文中公开的一些实施方式提供了表征第一核酸样品以查询基因组区域的方法，所述方法包括：用第一标记物在至少一个重复的基序处标记第一核酸样品中的多个核酸分子，其中所述标记保持所述多个核酸分子的完整性；用第二标记物标示第一核酸样品中的多个核酸分子，其中第二标记物不同于第一标记物；通过将所述多个核酸分子进入至少一个纳米通道而将所述多个核酸分子线性化；检测第一标记物和第二标记物以产生所述多个核酸分子的至少一个重复的基序的图案；以及将所述多个核酸分子的所述至少一个重复的基序的图案进行组装以构建所述基因组区域的第一图谱。

在一些实施方式中，所述多个核酸分子包括DNA。在一些实施方式中，所述DNA包括双链DNA。在一些实施方式中，所述多个核酸分子覆盖基因组区域的完整长度。在一些实施方式中，所述多个核酸分子覆盖基因组区域的富集部分。在一些实施方式中，所述基因组区域包括至少两个单倍体型。

在一些实施方式中，将所述基因组区域的第一图谱与所述基因组区域的第二图谱进行比较。在一些实施方式中，所述第二图谱是参比基因组的图谱。在一些实施方式中，从基因组序列信息生成所述第二图谱。在一些实施方式中，所述第二图谱被独立地生成。在一些实施方式中，从第二核酸样品生成所述第二图谱。在一些实施方式中，所述第二图谱包括至少两个单倍体型。在一些实施方式中，从来自于与第一核酸样品共同的个体的第二核酸样品生成所述第二图谱。在一些实施方式中，从来自于与所述第一核酸样品不同的个体的第二核酸样品生成所述第二图谱。在一些实施方式中，所述第二图谱来自于与所述第一核酸样品相同的物种。在一些实施方式中，所述第二图谱来自于与所述第一核酸样品不同的物种。在一些实施方式中，从肿瘤细胞来源生成所述第二图谱。在一些实施方式中，从健康细胞来源生成所述第二图谱。在一些实施方式中，从诱变的细胞来源生成所述第二图谱。在一些实施方式中，从未诱变的细胞来源生成所述第二图谱。

在一些实施方式中，在所述基因组区域中，所述至少一个重复的基序具有约5个位点/100Kb到约35个位点/100Kb的平均重复频率。在一些实施方式中，在所述基因组区域中，所述至少一个重复的基序具有约5个位点/100Kb到约25个位点/100Kb的平均频率。在一些实施方式中，对多于一个的重复的基序进行标记，并且用不同的标记物标记所述多于一个的重复的基序中的每一个。在一些实施方式中，对多于一个的重复的基序进行标记，并且用单种标记物标记所述多于一个的重复的基序中的每一个。

在一些实施方式中，第二标记物是非特异性核酸标记物。在一些实施方式中，第二标记物选自乙啡啶、SYBR、YOYO、TOTO、BOBO、SYPRO、SYTO、DAPI、POPO和Hoechst。

在一些实施方式中，所述至少一个重复的基序是甲基转移酶识别序列，并且其中由甲基转移酶和修饰的辅因子实现所述标记。在一些实施方式中，所述修饰的辅因子包括变成与甲基转移酶识别序列共价偶联的可转移标签。在一些实施方式中，所述修饰的辅因子包括可检测标签。在一些实施方式中，所述可转移标签选自荧光团、量子点、树枝状聚合物(dendrimer)、纳米线、珠子、半抗原、链霉亲和素、亲和素、中性亲和素、生物素、稳定化反应基团、放射性标记物、电磁标记物、叠氮化物、二苯并环辛炔(DBCO)、以及炔烃。在一些实施方式中，所述可转移标签选自叠氮化物、二苯并环辛炔(DBCO)和炔烃。在一些实施方式中，所述可转移标签为荧光团。在一些实施方式中，所述可转移标签为叠氮化物-DBCO。在一些实施方式中，所述可转移标签为量子点。在一些实施方式中，所述可转移标签为电磁标签。在一些实施方式中，所述可转移标签通过电子学和/或电学检测。在一些实施方式中，所述修饰的辅因子被直接偶联到甲基转移酶识别序列。在一些实施方式中，所述可检测标签选自荧光团、量子点、树枝状聚合物、纳米线、珠子、半抗原、链霉亲和素、亲和素、中性亲和素、生物素、稳定化反应基团、放射性标记物、电磁标记物、叠氮化物、二苯并环辛炔(DBCO)、以及炔烃。在一些实施方式中，所述可检测标签选自叠氮化物、二苯并环辛炔(DBCO)和炔烃。在一些实施方式中，所述可检测标签为荧光团。在一些实施方式中，所述可检测标签为叠氮化物-DBCO。在一些实施方式中，所述可检测标签为量子点。在一些实施方式中，所述可检测标签为电磁标签。在一些实施方式中，所述可检测标签通过电子学和/或电学检测。在一些实施方式中，第一标记物在可见光谱中可检测到。在一些实施方式中，第一标记物在可见光谱中不可检测到。在一些实施方式中，第一标记物可通过辐射度量检测到。在一些实施方式中，第一标记物可通过其对交叉流(cross-current)的影响而被检测到。在一些实施方式中，所述交叉流为电磁流。

在一些实施方式中，所述至少一个重复的基序包括用于结合实体的至少一个结合位点，所述结合实体选自非切割性限制酶、锌指蛋白、抗体、转录因子、转录激活因子样结构域、DNA结合蛋白、聚酰胺、形成三螺旋的寡核苷酸、以及肽核酸；并且其中由所述结合实体实现标记。在一些实施方式中，所述结合实体包括至少一种选自如下的可检测标签：荧光团、量子点、树枝状聚合物、纳米线、珠子、半抗原、链霉亲和素、亲和素、中性亲和素、生物素、稳定化反应基团、放射性标记物、电磁标记物、叠氮化物、二苯并环辛炔(DBCO)、以及炔烃。在一些实施方式中，所述可检测标签选自叠氮化物、二苯并环辛炔(DBCO)和炔烃。在一些实施方式中，所述可检测标签为荧光团。在一些实施方式中，所述可检测标签为叠氮化物-DBCO。在一些实施方式中，所述可检测标签为量子点。在一些实施方式中，所述可检测标签为电磁标签。

在一些实施方式中，标记具有≤30％的出错率。在一些实施方式中，所述线性化步骤包括将多个核酸分子中的一个或多个拉伸至其持久长度(persistence length)的约70％至约100％。在一些实施方式中，所述标记步骤具有≤30％的出错率，并且所述线性化步骤包括将多个核酸分子中的一个或多个拉伸至其持久长度的约70％至约100％。在一些实施方式中，被标记的核酸分子具有至少150kb的长度。在一些实施方式中，被标记的核酸分子具有至少150kb的长度，并且其中所述标记步骤具有≤30％的出错率。在一些实施方式中，被标记的核酸分子具有至少150kb的长度，其中所述标记步骤具有≤30％的出错率，并且其中所述线性化步骤包括将核酸分子拉伸至其持久长度的约70％至约100％之间。在一些实施方式中，所述标记步骤具有≤20％的出错率。在一些实施方式中，所述标记步骤具有≤15％的出错率。

在一些实施方式中，核酸分子对应于基因组区域的至少20倍覆盖。在一些实施方式中，所述基因组区域为至少约0.5Mb、0.7Mb、1Mb、1.5Mb、2Mb或更大。在一些实施方式中，所述方法还包括用第三标记物标示所述核酸分子以鉴定表观基因组信息。在一些实施方式中，所述方法还包括用第四标记物标示所述核酸分子以鉴定任何具有DNA结合结构域的因子。在一些实施方式中，第一图谱包括从所述至少一个重复的基序的至少两个重叠图案组装的至少一个重叠群(contig)。在一些实施方式中，所述第一图谱对应于基因组的一部分。在一些实施方式中，将所述第一图谱与参比图谱进行比较，以确定第一图谱与参比图谱之间的相似性或差异。

在一些实施方式中，所述方法还包括在相同的重复的基序处对第二核酸样品中的多个核酸分子进行标记，其中所述标记保持所述多个核酸分子的完整性；用第二标记物标示第二核酸样品中的多个核酸分子；通过使所述多个核酸分子进入至少一个纳米通道而将所述第二核酸样品中的多个核酸分子线性化；检测所述第一标记物和第二标记物以产生来自于所述第二核酸样品的多个核酸分子的所述至少一个重复的基序的图案；将所述多个核酸分子的所述至少一个重复的基序的图案进行组装，以构建所述基因组区域的第二图谱；以及将所述第一图谱与所述第二图谱进行比较，以确定所述第一核酸样品与所述第二核酸样品之间的相似性或差异。在一些实施方式中，所述第二核酸样品来自于与所述第一核酸样品共同的个体。在一些实施方式中，所述第二核酸样品来自于与所述第一核酸样品不同的个体。在一些实施方式中，所述第二核酸样品来自于与所述第一核酸样品共同的物种。在一些实施方式中，所述第二核酸样品来自于与所述第一核酸样品不同的物种。在一些实施方式中，所述第二核酸样品来自于肿瘤细胞来源。在一些实施方式中，所述第二核酸样品来自于健康细胞来源。在一些实施方式中，所述第二核酸样品来自于诱变的细胞来源。在一些实施方式中，所述第二核酸样品来自于未诱变的细胞来源。

在一些实施方式中，所述方法包括组装至少100、至少1,000、至少1,000以上个核酸分子的所述至少一个重复的基序的图案。在一些实施方式中，在单个微流体芯片上进行第一标记物和第二标记物的检测，以产生所述多个核酸分子的所述至少一个重复的基序的图案。在一些实施方式中，在小于2小时、小于1小时、小于30分钟、小于20分钟、小于10分钟、小于5分钟、小于1分钟、小于30秒、小于20秒、小于10秒、小于5秒或小于1秒内进行第一标记物和第二标记物的检测，以产生所述多个核酸分子的所述至少一个重复的基序的图案。

本文中公开的一些实施方式提供了表征大分子的方法，所述方法包括：用第一标记物在至少一个甲基转移酶基序处标记所述大分子，其中通过甲基转移酶和修饰的辅因子实现所述标记，其中所述标记保持所述大分子的每条链的完整性，用非序列特异性标记物标示所述大分子，其中所述非序列特异性标记物不同于所述第一标记物；通过使所述大分子进入至少一个纳米通道而将所述大分子线性化；以及检测所述第一标记物和所述非序列特异性标记物以鉴定所述大分子特有的所述至少一个甲基转移酶基序的图案。在一些实施方式中，所述大分子是双链DNA分子。

本文中公开的一些实施方式提供了分析大分子的序列结构的方法，所述方法包括如下步骤：a)在所述大分子的多个出现的识别位点处导入第一标记物，其中通过第一标记物在双链DNA分子中的所述导入没有断裂磷酸二酯键；b)用第二标记物标记所述大分子；c)使所述大分子进入纳米通道以将所述大分子保持在拉长状态；d)检测所述第一标记物以鉴定识别位点的图案；和e)检测所述第二标记物。在一些实施方式中，所述导入第一标记物包括将所述大分子与具有甲基转移酶活性的分子接触。在一些实施方式中，所述第二标记物是非序列特异性标记物。在一些实施方式中，所述大分子是双链DNA分子。在一些实施方式中，所述第二标记物结合双链DNA断裂处。在一些实施方式中，所述第一标记物是荧光标记物。在一些实施方式中，所述第二标记物是荧光标记物。在一些实施方式中，所述大分子被保持悬浮在纳米通道内。

本文中公开的一些实施方式提供了测定大分子同一性的方法，所述方法包括如下步骤：a)以序列特异性方式用第一标记物标记大分子而无需断裂所述大分子；b)非特异性标记所述大分子；以及c)获得指示所述大分子内被第一标记物标记的序列之间的空间关系的信息。在一些实施方式中，所述方法还包括获得多个所述第一标记物的信号强度信息。在一些实施方式中，所述方法还包括将所述空间关系与第二大分子中预测或观察到的空间关系进行比较。在一些实施方式中，所述第二大分子具有已知的序列。在一些实施方式中，所述第二大分子是已知来源的大分子。在一些实施方式中，所述大分子是核酸片段。在一些实施方式中，特异性序列以5-35次/100kb的重复频率出现在核酸片段中。在一些实施方式中，特异性序列以5-25次/100kb的重复频率出现在核酸片段中。在一些实施方式中，特异性序列以7-15次/100kb的重复频率出现在核酸片段中。在一些实施方式中，标记步骤的出错率为最多30％。在一些实施方式中，标记步骤的出错率为最多20％。在一些实施方式中，标记步骤的出错率为最多15％。

在一些实施方式中，所述方法还包括将所述大分子拉伸成拉长的构型。在一些实施方式中，所述拉伸包括所述大分子的持久长度的至少70％的拉伸系数。在一些实施方式中，所述拉伸包括所述大分子的持久长度的至少80％的拉伸系数。在一些实施方式中，所述拉伸包括所述大分子的持久长度的不多于85％的拉伸系数。在一些实施方式中，所述拉伸包括少于20％的拉伸变异性。在一些实施方式中，所述核酸片段≥150kb。在一些实施方式中，所述核酸片段≥180kb。在一些实施方式中，所述标记包括将所述大分子的磷酸二酯键断裂。在一些实施方式中，所述标记不包括将所述大分子的磷酸二酯键断裂。在一些实施方式中，所述标记包括将所述大分子与甲基转移酶接触。

附图说明

图1描绘了兆碱基的重叠群N50随最小片段尺寸为150kb和180kb的样品的倍数输入覆盖(fold input coverage)的变化。重叠群N50是尺寸>N50的重叠群的总长度为总重叠群长度一半时重叠群尺寸的分布的度量。总重叠群长度＝所有重叠群的共有长度的总和。

图2描绘了参比覆盖百分率随最小片段尺寸为150kb和180kb的样品的倍数输入覆盖的变化。

图3描绘了兆碱基的总组装重叠群长度随最小片段尺寸为150kb和180kb的样品的倍数输入覆盖的变化。

图4示出了在IrysChip^TM纳米通道阵列中可视化的单个T7DNA分子(蓝色)。绿色点代表被Atto532染料标记的M.BseCI识别序列(ATCGAT)。T7DNA含有三个M.BseCI识别序列。

图5示出了组装的T7重叠群(右侧竖条)与参比重叠群(左侧竖条)的示例性对齐。竖线或斜线连接了两个重叠群之间的同源序列。

图6示出了人类染色体17参比重叠群的区域(顶部)与组装的染色体17重叠群(底部)之间的示例性对齐。参比重叠群与组装的重叠群之间的灰色线指示相关的序列基序。

详细描述

本公开特别提供了沿着至少一个大分子例如线性生物聚合物标记和分析被标示的特征的方法，并且特别涉及沿着单个展开的核酸分子对特定序列基序的分布和频率或者这些序列基序的化学或蛋白质组学修饰状态进行绘图的方法，其结果取决于所述基序的长度和序列构成。一些方法涉及使用甲基转移酶以基于一个位置处的序列来标记特定核酸位置。一些方法涉及与参比分子或参比数据集相比，可以以提高的成功水平进行给定的被标记的核酸的分析的特定参数。一些方法涉及可以以提高的成功水平将给定的被标记的核酸组装成更大的重叠群的至少一个特定参数的用途。

较大完整基因组分子的单分子水平分析为通过在无克隆过程或扩增的情况下对序列基序进行原位精细绘图而保存精确的天然基因组结构提供了可能。基因组片段越大，则需要的基因组分析物中的样品群越不复杂。在理想的方案中，为覆盖完整的二倍体人类基因组，在单分子水平上仅需要分析46个染色体片段；从该方法得到的序列自然地具有完整的单倍体型信息。

在操作水平上，可以从细胞中提取兆碱基基因组片段并保存用于直接分析，这将显著减少复杂算法和组装的负担，并且使处于其原始背景下的基因组和/或表观基因组信息与个体细胞表型更直接地相关联。

适合于本方法的大分子包括多核苷酸、多核苷、天然和合成的聚合物、天然和合成的共聚物、树枝状聚合物、表面活性剂、脂类、天然和合成的糖类、天然和合成的多肽、天然和合成的蛋白、或其任意组合。核酸聚合物例如DNA、RNA被认为是用于本公开的方法的合适的大分子。DNA被认为是可以根据本文别处讨论的方法进行分析的特别适合的大分子。大分子例如基因组DNA经常为半柔性螺旋状聚合物链的形式，其在游离溶液中经常被发现为无规卷曲构型。对于生物溶液中的未改性的dsDNA来说，其持久长度——一种限定其刚性的参数——通常为约50nm。

为了实现沿着大的完整大分子一致性分离被标示的特征以用于定量测定，一种方法是在平面上、在化学或拓扑学预先限定的表面图案上，优选在长纳米轨道或受限的微/纳米通道上将这种聚合物分子拉伸成一致的线性形式。

将长的基因组分子拉伸和拉长的方法已经通过使用外力例如光学镊子、液-气边界对流(梳理(combing))、或层状流体水力流动而进行了展示。

分子的拉长形式只要保持外力即被暂时稳定化，或者通过附连至经由静电或化学处理改性而增强的表面而被更永久地稳定化。近年来，本发明人已经证明了通过物理熵受限来拉长微/纳米通道内部的聚合物大分子(参见Cao等，Applied Phys.Lett.2002a，其在此明确通过参考整体并入，Cao等，Applied Phys.Lett.2002b，其在此明确通过参考整体并入，以及美国专利7,670,770，“纳米通道阵列和它们的制备以及用于高通量大分子分析的用途(Nanochannel arrays and their preparationand use for high throughput macromolecular analysis)”，2010年3月2日授权，其在此明确通过参考整体并入)。

已经公开了与这些方法有关的多种方法和装置，例如“用于聚合物分析的纳米通道阵列和近场照明装置以及相关方法(Nanochannelarrays andnear-field illumination devices for polymer analysis and relatedmethods)”，美国公开号2012/0244635A1，2012年9月27日公开，其在此明确通过参考整体并入，“用于单分子整体基因组分析的方法和相关装置(Methods and related devices for single molecule wholegenome analysis)”，美国公开号2013/0177902A1，2013年7月11日公开，其在此明确通过参考整体并入，“用于单分子整体基因组分析的方法和相关装置(Methods and related devices for single moleculewhole genome analysis)”，美国公开号2012/0237936A1，2012年9月20日公开，其在此明确通过参考整体并入，“使用纳米结构-增强的拉曼光谱进行分子分析的方法和仪器(Method and apparatus formolecular analysis using nanostructure-enhanced Raman spectroscopy)”，美国公开号2006/0275911A1，2006年12月7日公开，其在此明确通过参考整体并入，“接合微流体和纳米流体的梯度结构，其制造方法和用途(Gradient structures interfacing microfluidics and nanofluidics,methods for fabrication and uses thereof)”，美国公开号2004/0033515A1，2004年2月19日公开，其在此明确通过参考整体并入，“多核苷酸绘图和测序(Polynucleotide mapping and sequencing)”，美国公开号20110306504A1，2011年12月15日公开，其在此明确通过参考整体并入，以及“用于动态测定样品位置与取向和动态重新定位的装置和方法(Devices and methods for dynamic determination of sample positionand orientation and dynamic repositioning)”，美国公开号2012/0097835A1，2012年4月26日公开，其在此明确通过参考整体并入。

已经显示，直径约100nm的纳米通道将高达几百个千碱基到兆碱基的dsDNA基因组片段线性化(Tegenfeldt等，Proc.Natl.Acad.Sci.2004，其在此明确通过参考整体并入)。用纳米流体拉长的半柔性靶分子可以悬浮在生物范围的离子浓度或pH值内的缓冲条件下，并且因此更易于在这些单分子上进行生物功能测定。这种形式的拉长也相对更易于操作，例如在电场或压力梯度下以宽范围的速度将带电荷的核酸分子以精确受控的方式从较高速度移动至完全静止状态。

此外，在纳米级环境中的流体流的性质排除了湍流以及否则将使长DNA分子断裂的许多剪切力。这对于大分子线性分析、特别是可能使用单链DNA的测序应用尤为有价值。最终，只要可以保持最大的完整片段，读出长度可以是唯一的。

切口标记是序列特异性多核苷酸标记的一种经常使用的形式。该方法的一个优势在于其提供了序列特异性，这便于后续分析。然而，该方法的一个缺陷在于作为切口-标记的临时或最终产物的单链DNA分子受到了如上所述以及整个标记可视化方法的别处所提到的剪切力。此外，如果切割得足够频繁，则序列特异性切口酶将会在相同的紧邻处影响目标多核酸分子的两条链，使得双链断裂。双链断裂难以修复，并且如果不进行修复，则代表了断裂一侧上的标记物的位置信息相对于断裂另一侧上位置信息的损失。

除了基因组，表观基因组领域已经由于其在人类疾病例如癌症中的作用而被认为具有独特的重要性。随着对基因组和表观基因组二者的知识积累，一个主要的挑战是理解基因组和表观基因组因素如何与人类疾病和恶性肿瘤中的多态性或病理生理状况的发生直接或间接关联。

全基因组分析概念已经从区域化方法(对基因组测序、表观遗传甲基化分析和功能性基因组学主要进行分开地研究)演变成多方面的整体方法。已经以更系统的方式对DNA测序、结构变异绘图、CpG岛甲基化模式、组蛋白修饰、核小体重构、microRNA功能和转录性能分析进行观察。然而，对细胞分子状态的上述方面中的每一种进行检测的技术经常是孤立、冗长和不相容的，这使得需要连贯的实验数据结果的系统生物学分析变得严重复杂化。

大的完整天然生物样品的单分子水平分析可以提供以真实、有意义的完全分析方式研究目标样品的基因组和表观基因组信息的可能性，所述分析方式例如使序列结构变异与异常的甲基化模式、microRNA沉默位点和其他功能分子信息重叠。参见例如PCT专利申请US2009/049244，其整体明确通过参考并入。这为理解个性化医学中的细胞的分子功能和疾病发生机制提供了非常强大的工具。

没有或具有低密度的序列特异性基序的基因组区段，在生物信息学上将基因组图谱在这些区域处片段化。源自于DNA提取和/或序列特异性标记的系统性DNA片段化也在DNA断裂位点处产生片段化的基因组图谱。基于塞裂解(plug lysis)的DNA回收方案产生了随机片段化的长DNA分子。然而，基于切口的标记在限定的脆性位点产生DNA片段化。这些脆性位点出现在相距小于或等于2kb的相对DNA链上的切口处，导致了特异性片段化的基因组图谱。

在不对称地分布在整个基因组中的序列特异性基序处标记DNA，接着将DNA分子高通量线性化为查询标记图案，这使得可以将数百个重叠的线性DNA分子对齐，以获得代表性基因组图谱，保存长距离关联信息。与具有共同的标记图案的DNA分子重叠的基因组图谱重叠群的尺寸取决于覆盖接近的基因组区域的足够随机的DNA片段的存在，其中片段之间具有足够的重叠使得任何重叠窗包括独特的标记图案。

DNA甲基转移酶(MTase)以序列特异性方式修饰核酸，而没有暂时损害链完整性或链磷酸二酯键的完整性。DNA MTase天然地催化甲基基团从辅因子S-腺苷甲硫氨酸(SAM)转移到双链DNA内的核碱基上。此外，当提供有修饰的辅因子如修饰的SAM时，MTase可以在不破坏DNA骨架的情况下用来自于修饰的辅因子的可转移标签而不是用简单的甲基基团在序列特异性位点处对DNA进行标记。

无需破坏或切割DNA骨架的其他序列特异性标记的方式包括使用基于三螺旋寡核苷酸的探针、基于肽核酸的探针、基于连接的核酸的探针、基于聚酰胺的探针、锌指DNA结合结构域、转录激活因子样(TAL)效应子DNA结合结构域、转录因子DNA结合结构域、失活的限制酶、抗体、甲基-DNA结合部分、DNA结合蛋白、或其被修饰成包括如上列出的可检测标签的任何组合。

当这些被标记的大基因组DNA在支持表面上或在纳米通道阵列内部被线性延伸时，来自于杂交到序列特异性瓣(flap)上的装饰探针的信号之间的空间距离可被一致且定量地测量到，因此将会生成反映该区域的特定基因组序列信息的独特的“条形码”特征图案。甲基转移酶-递送的多核酸标签适宜通过特定的酶产生，所述酶包括但不限于单独的M1.SapI/M2.SapI、M.EcaI/M.BstEII、RM.MaqI、RM.Sno506I、M.SmaI/M.Cfr9I/MCphBI/M.Pac25I/M.TspMI/M.XcyI/M.XmaI/M.XveII、M.KpnI、M.EcoRV、M.SpeI、M.NheI/M.BmtI、M.ApaLI、M.BsaHI/M.HgiDi/M.HgiGI/M.HindV、RM.RdeGBI、M.CpeAVI/M.BstZ17I、M.HpaI、M.BamHI、M.HincII和M.HindII、M.MspA1I、M.BbrUI/M.BloAI/M.KasI/*M.MlaZV/M.PluTI/M.SfoI、M.AclI、M.BssSI、M1.BsrBI/M2.BsrBI、M.BsaAI/*M.Ppu21I、RM.AspNLS2ORF1089P/RM.PspOMII、M.HaeII/M.NgoAI/M.NgoBI、RM.RflFIII、*M.Eco72I/M.PmlI，与至少一个另一种酶的组合，或与本文中的公开内容相符的一种或多种未列出的甲基转移酶的组合或被甲基转移酶替代，和/或任选地与核酸的非特异性结合中涉及的一种或多种酶或蛋白的组合。基于该图谱，可以进行测序或序列信息组装以并入长距离结构信息。

在一些实施方式中，单个标记的展开的核酸分子通过将这些拉长的大分子物理限制在纳米级通道、由表面性质限定的拓扑纳米级沟槽或纳米级轨道内而被线性拉伸。

在一些实施方式中，在表面上制造极小的纳米流体构造，例如纳米通道，并将其用作大规模平行阵列用于在单分子分辨率下操作和分析生物分子例如DNA和蛋白。优选地，通道的横截面积的尺寸在拉长的生物分子的横截面积的等级上，即，在约1到约10⁶平方纳米的等级上，以提供可以单独分离、还能以数百、数千乃至数百万个进行同时分析了的拉长的(例如线性、展开的)生物分子。类似地，还希望的是通道的长度足够长到容纳大分子的相当一部分，在具有光学放大的典型CCDA相机的单视场的长度(约100微米)至长达完整的染色体(其可以在10厘米长度等级)的范围内。在一些实施方式中，具有至少100、至少1,000、至少5,000、至少10,000或更多个纳米通道的单个微流体芯片可用于分析多种生物分子，例如DNA分子。应该理解，使用这种微流体芯片使得能够同时分析大量的分子，并导致非常高效的测定。例如，可以在小于2小时、小于1小时、小于30分钟、小于20分钟、小于10分钟、小于5分钟、小于1分钟、小于30秒、小于20秒、小于10秒、小于5秒或小于1秒内完成多重测定。

本公开还涉及这些标记方法和特征的使用，以及使用本文中公开的技术产生改进的结果的条件。正如下面讨论的，最大重叠群、复杂基因组组装所需要的条件包括：基序重复密度为5-25/100kb(最好为7-15/100kb)，出错率≤20％，拉伸系数>70％(理想为80-85％)，拉伸变异性<20％，以及分子的查询(interrogation)≥150kb，优选≥180Kb。优选地，被分析的多个分子≥150kb或≥180kb，并且最优选地，被分析的分子群包括足够的≥150kb或有利地≥180kb的分子，以给出被分析的基因组区域的至少5x、10x、15x、20x、25x、30x、40x、50x、60x、70x、80x、90x、或100x或更大的覆盖。在一些实施方式中，被分析的基因组区域为、至少为、约为500kb、800kb、1Mb、1.5Mb、2Mb、3Mb、4Mb、5Mb、7Mb、10Mb、15Mb、20Mb，或任何两个上述值之间的范围，其中Mb是指兆碱基，kb是指千碱基尺寸。

在一些实施方式中，被标记的DNA的空间条形码图案的复杂颜色可以被设计为查询多个区域以用于多重疾病诊断。作为一个非限制性实例，使用者可以查询多个区域的多个转位。

在一些实施方式中，可以选择甲基转移酶以靶向至少一个特定染色体上的至少一个可变长度区域。该区域的额外或较少拷贝的存在可用于诊断相关疾病。

在一些实施方式中，所述程序被用于鉴定例如在患者样品中的病原体基因组。可以选择与病原体基因组相比在宿主基因组中产生不同的条形码图案的甲基转移酶。病原体特异性图案的存在可以指示在宿主组织中病原体的存在。

甲基转移酶.非限制的示例性甲基转移酶在例如2011年8月30日公开的美国专利号8,008,007中讨论过，其在此明确地通过参考整体并入。适合用于本文中公开的方法、组合物和系统的甲基转移酶包括但不限于M.AacDam、M.AatII、M.AbaORFDP、M.AbaORFKP、M.AbrI、M.AbrI、M.AbrIII、M.AciI、M.AcII、M.AcuI、M.Afa22MI、M.AflII、M.AflIII、M.AgeI、M.AhdI、M.AhyBP、M.AlaK2I、M.AluI、M.AlwI、M.Alw26I、M.ApaI、M.ApaLI、M.ApeKI、M.ApoI、M.AquI、M.AscI、M.AseI、M.AseII、M.AsiSI、M.AspCNI、M.AtuCI、M.AtuCORF1997P、M.AtuDORF794P、M.AtuDORF3839P、M.AvaI、M.AvaII、M.AvaIII、M.AvaIVP、M.AvaV、M.AvaVI、M.AvaVII、M.AvaVIII、M.AvaIX、M.AvaORF3700P、M.AvaORF7270P、M.AvrI、M.AvrII、M.BabI、M.BaeI、M.BaII、M.BamHI、M.BamHII、M.BanI、M.BanII、M.BanIII、M.BatAORF3814P、M.BatA581ORF3846P、M.Bbu297I、M.BbvI、M1.BbvCI、M2.BbvCI、M.BbvSI、M1.BccI、M2.BccI、M.Bce1247I、M1.BceAI、M2.BceAI、M.Bce14579ORF939P、M.BceSORF365P、M.BceSORF4605P、M1.BceSORF5606P、M2.BceSORF5606P、M.Bcep1P、M.Bcep43ORFAP、M.BchI、M.BcII、M1.BcnI、M2.BcnI(M.BcnIB)、M1.BcoKI、M2.BcoKI、M.Bcs139P、M.BdiI、M.BepI、M1.BfaI、M2.BfaI、M.BfaORFC157P、M2.BfiI(M.BfiC2)、M1.BfuA1、M2.BfuAI、M.BgII、M.BgIII、M1.BhaI、M2.BhaI、M.BhaII、M.BjaORF2509P、M.BloNORF564P、M.BloNORF1473P、M.BlpI、M.BmaI、M.BmaPhiE125ORF56P、M.Bme216I、M.BmeLORF1444P、M.BmeTI、M1.BmrI、M2.BmrI、M.BnaI、M.BpmI、M1.Bpu10I、M2.Bpu10I、M1.BsaI、M2.BsaI、M.BsaAI、M.BsaJI、M.BsaWI、M1.BscGI、M2.BscGI、M.Bse634I、M.BseCI、M.BseDI、BseMII、BseRI、M.BseRI、M.BseYI、BsgI、M.BsgI、M.BsiWI、M.BsII、M1.BsmI、M2.BsmI、M.BsmAI、M.BsmBI、M.BsoBI、M.BspI、M.Bsp6I、M.Bsp50I、M.Bsp98I、M.Bsp106I、M.Bsp143II、BspCNI、M.BspCNI、M.BspEI、M.BspHI、M.BsplS4I、M.BspKT6I、BspLU11III、M1.BspLU11III、M2.BspLU11III、M1.BspMI、M2.BspMI、M.BspMII、M.BspRI、M.BspST5I、M1.BsrI、M2.BsrI、M1.BsrBI、M2.BsrBI、M.BsrFI、M.BssHI、M.BssHII、M.BssSI、M.BstI、M.BstEII、M.BstEIII、M1.BstF5I、M2.BstF5I、M3.BstF5I、M4.BstF5I、M.BstGII、M.BstLVI、M.BstNI、M.BstNBI、M.BstVI、M.BstXI、M.BstYI、M.Bsu15I、M.Bsu36I、M.Bsu6633I、M.BsuBI、M.BsuEII、M.BsuFI、M.Bsu1330ORF491P、M.BsuRI、M.BthIPS78、M.BthVORF4625P、M.BusLBORFC747P；M.BusLBORFC755P、M.Cac8I、M.Cac824I、M.Cac824ORF3358P、M.CauJORFC101P、M.CauJORFC102P、M.CauJORFC103P、M.CauJORFC104P、M.CauJORFC107P、M.CauJORFC110P、M.CauJORFC111P、M.CboI、M.CcrMI、M.Cdi630I、M.CdiCD6I、M.CdiCD6II、M.Cdi630ORFC898P、M.CefORF1493P、M.CeqI、M.CfrI、M.Cfr6I、M.Cfr9I、M.Cfr10I、M.Cfr13I、M.Cfr42I、M.CfrAI、M.CfrBI、M.CggI、M.CgIASI、M.CgILP6P、M.CjeNI、M.Cje81116ORFBP、M.Cje81116ORFCP、M.ClaI、M.Csp6I、M.Csp68KI、M.Csp68KIV、M.Csp68 KV、M.CteEORF387P、M.CthORFS26P、M.CthORFS34P、M.CthORFS93P、M.CviAI、M.CviAII、M.CviAIV、M.CviBI、M.CviBII、M.CviBIII、M.CviJI、M.CviORF5P、M.CviORF2111P、M.CviPI、M.CviQI、M.CviQII、M.CviQIII、M.CviQIVP、M.CviQVP、M.CviQVI、M.CviQVII、M.CviQVIIIP、M.CviQIXP、M.CviQXP、M.CviQXI、M.CviRI、M.CviRII、M.CviSI、M.CviSII、M.CviSIII、M.CviSIVP、M.CviSVP、M.CviSVIP、M.CviTI、M.DdeI、DhaORFC135P、M1.DpnII、M2.DpnII、M.DraI、M.DraII、M.DraIII、M.DsaV、M.DvuORF19P、M.DvuORF2842P、M.EacI、M.EaeI、M.EagI、M1.EarI、M2.EarI、M.EcaI、M.Ec118kI、M1.Eco3I、M2.Eco3I、M.Eco32I、M.Eco47II、M.Eco47III、M.Eco56I、Eco57I、M.Eco57I、M.Eco64I、M.Eco72I、M.Eco88I、M.Eco98I、M.Eco105、M.Eco147I、M.Eco23I、M.Eco255I、M.Eco536P、M.Eco1639P、M.Eco183I、M.Eco248534P、M.EcoAI、M.EcoBI、M.EcoCFTDamP、M.EcoCFTDam2P、M.EcoCFTDam3P、M.EcoCFTDcmP、M.EcoDI、M.EcoDR2、M.EcoDR3、M.EcoDXXI、M.Eco67Dam、M.EcoEI、M.EcoHI、M.EcoHK31I、M.EcoKI、M.EcoKII、M.EcoKDam、M.EcoKDcm、M.EcoKO157DamP、M.EcoKO157Dam2P、M.EcoKO157Dam3P、M.EcoKO157DcmP、M.EcoKO157ORF1953P、M.EcoLahn1P、M.EcoLahn3P、M.EcoNI、M.EcoNi12P、M.EcoO109I、M.EcoO157DamP、M.EcoO157DcmP、M.EcoO157ORF1454P、M.EcoO157ORF2389P、M.EcoO157ORF3349P、M.Eco536ORF3P、M.EcoPI、M.EcoP15I、M.EcoP1Dam、M.EcoPhi4795DamP、M.EcoRI、M.EcoRII、M.EcoRV、M.EcoR124I、M.EcoR124II、M.EcoRD2、M.EcoRD3、M.EcoStx1DamP、M.EcoStx2DamP、M.EcoT22I、M.EcoT38I、M.EcoT1Dam、M.EcoT2Dam、M.EcoT4Dam、M.EcoVIII、M.EcoVT2Dam、M.EcoWphiP、M.Eco29kI、M.EcopHSHP、M.EcopHSH2P、M.EcoprrI、M.EfaHGSORFHP、M.EphPlORF1P、M.EsaBC1I、M.EsaBC3I、M.EsaBC4I、M.EsaBS1I、M.EsaBS9I、M.EsaDix1I、M.EsaDix2I、M.EsaDix3I、M.EsaDix4I、M.EsaDix5I、M.EsaDix6I、M.EsaDix7I、M.EsaLHCI、M.EsaLHCIII、M.EsaRM1P、M.EsaRM13P、M.EsaRM16P、M.EsaRM17P、M.EsaRM21P、M.EsaRM38P、M.EsaRM61P、M.EsaRM63P、M.EsaRM65P、M.EsaRM67P、M.EsaRM69P、M1.EsaS1I、M2.EsaS1I、M.EsaS3I、M.EsaS4I、M.EsaS6I、M.EsaS7I、M.EsaS81、M.EsaSS2P、M.EsaSS5P、M.EsaSS12P、M.EsaSS13P、M.EsaSS15P、M.EsaSS16P、M.EsaSS18P、M.EsaSS19P、M.EsaSS22P、M.EsaSS30P、M.EsaSS31P、M.EsaSS35P、M.EsaSS36P、M.EsaSS40P、M.EsaSS43P、M.EsaSS47P、M.EsaSS48P、M.EsaSS49P、M.EsaSS52P、M.EsaSS55P、M.EsaSS57P、M.EsaSS67P、M.EsaSS69P、M.EsaSS70P、M.EsaSS71P、M.EsaSS72P、M.EsaSS73P、M.EsaSS74P、M.EsaSS75P、M.EsaSS76P、M.EsaSS79P、M.EsaSS81P、M.EsaSS83P、M.EsaSS87P、M.EsaSS88P、M.EsaSS90P、M.EsaSS96P、M.EsaSS97P、M.EsaSS103P、M.EsaSS104P、M.EsaSS105P、M.EsaSS106P、M.EsaSS107P、M.EsaSS108P、M.EsaSS109P、M.EsaSS110P、M.EsaSS111P、M.EsaSS113P、M.EsaSS117P、M.EsaSS120P、M.EsaSS123P、M.EsaSS126P、M.EsaSS130P、M.EsaSS131P、M.EsaSS134P、M.EsaSS136P、M.EsaSS137P、M.EsaSS144P、M.EsaSS145P、M.EsaSS150P、M.EsaSS153P、M.EsaSS154P、M.EsaSS155P、M.EsaSS156P、M.EsaSS160P、M.EsaSS163P、M.EsaSS165P、M.EsaSS167P、M.EsaSS169P、M.EsaSS170P、M.EsaSS172P、M.EsaSS174P、M.EsaSS177P、M.EsaSS181P、M.EsaSS182P、M.EsaSS186P、M.EsaSS187P、M.EsaSS192P、M.EsaSS195P、M.EsaSS200P、M.EsaSS214P、M.EsaSS215P、M.EsaSS216P、M.EsaSS218P、M.EsaSS221P、M.EsaSS222P、M.EsaSS223P、M.EsaSS225P、M.EsaSS228P、M.EsaSS237P、M.EsaSS238P、M.EsaSS241P、M.EsaSS244P、M.EsaSS245P、M.EsaSS246P、M.EsaSS247P、M.EsaSS254P、M.EsaSS259P、M.EsaSS264P、M.EsaSS266P、M.EsaSS268P、M.EsaSS269P、M.EsaSS270P、M.EsaSS275P、M.EsaSS278P、M.EsaSS281P、M.EsaSS282P、M.EsaSS283P、M.EsaSS289P、M.EsaSS297P、M.EsaSS302P、M.EsaSS303P、M.EsaSS305P、M.EsaSS315P、M.EsaSS317P、M.EsaSS318P、M.EsaSS319P、M.EsaSS323P、M.EsaSS326P、M.EsaSS328P、M.EsaSS329P、M.EsaSS334P、M.EsaSS335P、M.EsaSS336P、M.EsaSS51DamP、M.EsaSS65DamP、M.EsaSS138DamP、M.EsaSS198DamP、M.Esp3I、M.Esp1396I、M.EspRB49DamP、M.FauI、M.FnuDI、M.FnuDII、M.FnuDIII、M.Fnu4HI、M.FnuVDamP、M.FokI、M.FseI、M.FspI、M.FssI、M.GmeORFC6P、M.GmeORFC16P、M.GsuI、M.GviDamP、M.H2I、M.HaeII、M.HaeIII、M.HapII、M.HduDamP、M1.HgaI、M2.HgaI、M.HgiAI、M.HgiBI、M.HgiCI、M.HgiCII、M.HgiDI、M.HgiDII、M.HgiEI、M.HgiGI、M.HhaI、M.HhaII、M.HheORF238P、M.HheORF1050P、M.HheORF1244P、M.HheORF1445P、M.Hin1II、M.HinB231ORFDP、M.HinHP1Dam、M.HinHP2Dam、M.HinPII、M.HincII、M.HindI、M.HindIII、M.HindIII、M.HindV、M.HindDam、M.HinfI、M.HinfIII、M.HjaI、M.HpaI、M.HpaII、M1.HphI、M2.HphI、M.HpyI、M.Hpy8I、M.Hpy87AP、M.Hpy99I、M.Hpy9911、M.Hpy9911I、M.Hpy991V、M1.Hpy99V、M2.Hpy99VP、M.Hpy99VI、M.Hpy99VIII、M.Hpy99IX、M.Hpy99X、M.Hpy99XI、M.Hpy166IV、M.Hpy1781P、M.Hpy188I、M.Hpy188II、M.Hpy188III、M.Hpy788606P、M.Hpy788845P、M.Hpy788849P、M.Hpy789115P、M.Hpy789117P、M.Hpy789137P、M.Hpy789145P、M.Hpy790101P、M.Hpy959772P、M.HpyAI、M1.HpyAI1、M2.HpyAII、M.HpyAIII、M.HpyAIV、M.HpyAV、M1.HpyAV1、M2.HpyAVI、M.HpyAVII、M.HpyAVIII、M.HpyAIX、M.HpyAX、M.Hpy87AI、M.HpyAORF263P、M.HpyAORF369P、M.HpyAORF481P、M.HpyAORF483P、M1.HpyCII、M2.HpyCII、M.HpyCH4IV、M.HpyCH4V、M.HpyCR2ORF1P、M.HpyCR2ORF3P、M1.HpyCR4RM1P、M2.HpyCR4RM1P、M.HpyCR9RM1P、M.HpyCR9RM2P、M.HpyCR14RM1P、M.HpyCR14RM2P、M.HpyCR15RM2P、M.HpyCR16RM1P、M.HpyCR29RM1P、M.HpyCR29RM2P、M.HpyCR35RM1P、M.HpyCR35RM2P、M1.HpyCR38RM1P、M2.HpyCR38RM1P、M.HpyCR38RM2P、M.HpyFl7I、M.Hpy99ORF430P、M.Hpy99ORF433P、M.Hpy99ORF846P、M.Hpy99ORF1012P、M.HspNORF1543P、M.KasI、M.KpnI、M.Kpn2I、M.KpnAI、M.KpnBI、M.Kpn19097DamP、M.Kpn19097Dam2P、M.Kpn19097ORFFP、M.Kpn2kI、M.Lci22RP、M.LinFORF11323P、M.LinFORF12222P、M.LinFORF12737P、M.LinLORF903P、M.LinLORF1547P、M.LinLORF2668P、M1.LlaA1、M2.LlaAI、M.LlaBI、M.LlaCI、M.LlaDI、M.LlaDII、M1.LlaDCHI、M2.LlaDCHI、M.LlaKR2I、M.LmoAP、M.LmoEORF470P、M.LmoFORF327P、M.Lmo19115ORF1P、M.Lsp1109I、M.MamI、M1.MboI、M2.MboI、M1.MboII、M2.MboII、M.Mca43617ORFAP、M.Mca43617ORFBP、M1.Mca43617ORFDP、M2.Mca43617ORFDP、M.Mca43617ORFJP、M.MfeI、M.MjaI、M.MjaII、M.MjaIII、M.MjaIVP、M.MjaV、M.MjaVI、M.MloORFmIr7520P、M.MluI、M.MlyI、M.MmaMORFC174P、M.MmaSORF735P、M.MmeI、M.MmeII、M.MmoORF950P、M.MmoORF3450P、M.MmylP、M.MmySCORF186P、M.MmySCORF216P、M.MmySCORF950P、M1.MnII、M2.MnII、M.MpeORF1230P、M1.MpeORF1780P、M2.MpeORF1780P、M.MpeORF4940P、M.MpeORF9800P、M.MpuCORF430P、M.MscI、M.MseI、M.MsmChe9cORF76P、M.MsmChe9cORF77P、M.MsmChe9cORF80P、M.MsmcdP、M.MsmomegaORF127P、M.MspI、M.MspA1I、M.MspSD10I、M.MthFI、M.MthTI、M.MthZI、M.MunI、M.MvaI、M.Mva12691、M.MwoI、M.NaeI、M.NarAORFC306P、M.NcoI、M.NdeI、M.NdeII、M.Ngo18785P、M.Ngo185840P、M.Ngo185841P、M.NgoAI、M.NgoAII、M.NgoAIII、M.NgoAIV、M.NgoAV、M.NgoAVIIP、M.NgoAXIP、M.NgoAORFC708P、M1.NgoAORFC717P、M2.NgoAORFC717P、M.NgoBI、M.NgoBII、M.NgoBIIIP、M.NgoBIVP、M.NgoBV、M1.NgoBVIII、M2.NgoBVIII、M.NgoBIX、M.NgoBXII、M.NgoDIII、M.NgoEI、M.NgoFVII、M.NgoGI、M.NgoGII、M.NgoGIII、M.NgoGIVP、M.NgoGV、M.NgoHIP、M.NgoHIIP、M.NgoHIIIP、M.NgoHIVP、M.NgoHVP、M.NgoHVIP；M.NgoHVIIP、M.NgoHVIII、M.NgoKVIP、M.NgoLIP、M.NgoLII、M.NgoLIIIP、M.NgoLIVP、M.NgoLVP、M.NgoMI、M.NgoMII、M.NgoMIII、M.NgoMIV、M.NgoMV、M.NgoMVIII、M.NgoMXV、M.NgoNIP、M.NgoNII、M.NgoNIIIP、M.NgoNIVP、M.NgoNVP、M.NgoPIP、M.NgoPII、M.NgoPIII、M.NgoPIVP、M.NgoPVP、M.NgoQIP、M.NgoQIIP、M.NgoQIIIP、M.NgoQIVP、M.NgoQVP、M.NgoSIP、M.NgoSII、M.NgoSIIIP、M.NgoSIVP、M.NgoSVP、M.NgoTIP、M.NgoTII、M.NgoTIIIP、M.NgoTIVP、M.NgoTVP、M.Ngo125VIIP、M.NlaI、M.NlaIII、M.NlaIV、M.NlaX、M.NlaL17ORFAP、M.NmaPhiCh1I、M.NmeAORF1453P、M.NmeAORF1500P、M1.NmeB1、M2.NmeBI、M.NmeBF13P、M.NmeBORF1033P、M.NmeBORF1290P、M.NmeSI、M.NmeST1117ORF1P、M.NmepNLE1P、M.NpuORFC221P、M.NpuORFC222P、M.NpuORFC224P、M.NpuORFC226P、M.NpuORFC228P、M.NpuORFC230P、M.NpuORFC231P、M.NpuORFC234P、M.NsiI、M.NspI、M.NspIII、M.NspV、M.NspHI、M.OihORF3333P、M.OihORF3336P、M.OkrAI、M.Pac25I、M.PaeI、M.PaelMORF3201P、M.PaeMSHORF1P、M.Pae2164ORF7P、M.PaeR7I、M.PfIMI、M.PgiI、M.PhaI、M.PhiBssHII、M.PhiMx8I、M.Phi3TI、M.Phi3TII、M.PhoI、M.PhoII、M.PhoWORFBP、M.PhsOYDaml P、M.PhsOYDam2P、M.PhsOYDam3P、M.PhsOYDam4P、M.PhsOYDam5P、M.PleI、M.PleLFBORF8P、M.PluTDamP、M.PluTDcmP、M.PluTORF600P、M.PluTORF2710P、M.PluTORF2942P、M.Pmi16525DamP、M.Pmil 6525Dam2P、M.Pmi16525ORFDP、M.PmuADam、M.PmuDam、M.Ppu21I、M.Ppu111I、M.Ppu1253I、M.PpuMI、M.PshAI、M.PspGI、M.PspPI、M.PstI、M.PvuI、M.PvuII、M.PvuRts1DamP、M.PvuRts1Dam2P、M.RcoORF690P、M.ReuORF325P、M.Rho11sI、M.Rho11sII、M.Rle39BI、M.RmeADam、M.RpaORF1026P、M.RpapRPA4P、M.Rrh4273I、M.RruMORFS5P、M.RruMORFS15P、M.RsaI、M.RshI、M.RshIII、M.RsrI、M.RsrII、M.SPBetaI、M.SsrII、M.SacI、M.SacII、M.SalI、M2.5apI、M.Sau96I、M.Sau3239I、M.Sau6782I、M.Sau3AI、M.SauLPI、M.SbaI、M.SbfI、M.Sbo13I、M.ScaI、M1.5crF1、M2.5crFI、M.SduI、M.SenPI、M.SenPhiE15P、M.SenPhiE15DamP、M.SenpCI、M.SeqORFC57P、M.SeqORFC272P、M.SeqORFC448P、M.SfaNI、M.SfeI、M.SfiI、M.Sfl2DamP、M.Sfl2DcmP、M.Sfl2ORF3300P、M.SfISf6DamP、M.SfITDamP、M.SfITDcmP、M.SfITORF3517P、M.Sfl2al、M.SfoI、M.Sho27844P、M.SinI、M.SmaI、M.SmaII、M.SmapR478DcmP、M.SmapR478ORF272P、M.SmelP、M1.SmuUORF504P、M2.5muUORF504P、M.SnaBI、M.SonDamP、M.SonORF4P、M.SpeI、M.SphI、M.Spn526P、M.Spn6BI、M1.Spn19FORF24P、M2.5pn19FORF24P、M.Spn19FORF927P、M.SpnHGORF4P、M.SpnORF1431 P、M.SpnORF1849P、M.SpnRORF1287P、M.SpomI、M.SptAI、M.SscL1I、M.Sse9I、M.SsIII、M.SsoI、M.SsoII、M.Ssp68031、M.Ssp6803ORF729P、M.Ssp6803ORF1803P、M.SspPhiBtl P、M.SssI、M.SstI、M.Ssu211I、M.Ssu2121、M1.Ssu24791、M2.5su2479I、M1.Ssu4109I、M2.5su4109I、M1.Ssu4961I、M2.5su49611、M1.Ssu8074I、M2.5su8074I、M1.Ssu11318I、M2.5su11318I、M1.SsuDAT1I、M2.5suDAT1I、M.Sth368I、M.SthSt81P、M.StsI、M.StyI、M.StyCDamP、M.StyCDam2P、M.StyCDam3P、M.StyCDam4P、M.StyCDcmP、M.StyD4I、M.StyDam、M.StyDam2P、M.StyDam3P、M.Sty1344Dam、M.Sty14028Dam、M.StyHCM1ORF187P、M.StyLTI、M.StyLTIII、M.StyLT2Dam、M.StyLT2DcmP、M.StyLT2FelsDamP、M.StyR27ORF154P、M.StySJI、M.StySKI、M.StySPI、M.StySQI、M.StySopEDamP、M.StyTDamP、M.StyTDam2P、M.StyTDam3P、M.StyTDam4P、M.StyTDcmP、M.SuaI、M.TaeII、M.TaqI、M.TdeII、M.TdeIII、M.TdeORF706P、M.TelBORF1578P、M.TelBORF1640P、M.TelBORF1878P、M1.TerORFS1P、M2.TerORFS1P、M.TerORFS14P、M.TerORFS18P、M.TerORFS62P、M.TerORFS122P、M.TfiTok6A1I、M.ThaI、M.ThaII、M.ThaIII、M.TliI、M.TmaI、M.TpaI、M.TrsKTI、M.TrsSI、M.TrsTI、M.TseI、M.Tsp32I、M.Tsp45I、M.Tsp509I、M.TspRI、M.Tth111I、Tth111II、M.TthHB8I、M.TthHB27P、M.TthHB27ORF41P、M.TvoORF849P、M.TvoORF1192P、M.TvoORF1400P、M.TvoORF1413P、M.TvoORF1416P、M.TwhORF771P、M.TwhTORF783P、M.Uba580P、M.Ucrl P、M.Van91II、M.VchADamP、M.Vch569BdamP、M.VchO395Dam、M.VchKl39I、M.VpaRDamP、M.VspI、M.VvuDamP、M.VvuYDamP、M.WsuORF1405P、M.WsuORF1930P、M.XamI、M.XaxCORF2436P、M.XbaI、M.XcmI、M.XcyI、M.XfaAORFC345P、M.XfaAORFC348P、M.XfaOORFC725P、M.XfaORF1804P、M.XfaTORF577P、M.XfaTORF1062P、M.XfaTORF1607P、M.XhoI、M.XhoI、M.XmaI、M.XmaIII、M.XmnI、M.XorII、M.XphI、M.YenI、M.YenSDamP、M.YenSORFC666P、M.YenWI、M.YpeDamP、M.YpeKDamP、M.YpeKORF2224P、M.YpeKORF3792P、M.YpeMDamP、M.YpeMORF1932P、M.YpeMORF3790P、M.YpeORF391P、M.YpeORF2088P、和M.YpsDam。其他或备选的甲基转移酶也被包括在本文中。

符合本文中公开内容的优选的甲基转移酶(同裂酶也应该被包括在内)的列表包括如下。

表1.来自于REBASE的用于标记人类基因组的MTase

REBASE识别序列表述使用了标准缩写(Eur.J.Biochem.150:1-5,1985)以表示多义性：

R＝G或A；Y＝C或T；M＝A或C；K＝G或T；S＝G或C；W＝A或T；B＝非A(C或G或T)；D＝非C(A或G或T)；H＝非G(A或C或T)；V＝非T(A或C或G)；N＝A或C或G或T。当仅显示一条链时，这些是从5'到3'书写的。

甲基转移酶可无需修饰即可使用，或者可以被优化以增加将一个或多个辅因子或修饰的辅因子转移到核酸底物上的效率。增加将一个或多个辅因子或修饰的辅因子转移到核酸底物上的效率的修饰在例如如下中讨论到：Lukinavicius等(2007)“通过甲基转移酶定向转移活性基团(mTAG)对DNA进行靶向标记(Targeted Labeling of DNA byMethyltransferase-Directed Transfer of Activated Groups(mTAG))”J.AmChem.Soc.129:2758-2759，2007年2月27日公开，其在此明确通过参考整体并入，或Lukinavicius等，(2012)“将DNA胞嘧啶-5甲基转移酶反应工程化改造成用于序列特异性标记DNA(Engineering theDNA cytosine-5methyltransferase reaction forsequence-specific labelingof DNA)”Nucleic Acid Research 40(22):11594-11602，2012年10月5日公开，其在此明确通过参考整体并入。简要来说，在一个方法中，基于同源性的工程化可用于识别残基例如对应于细菌M.HhaI的基序IV的谷氨酰胺82以及基序X的天冬酰胺304的残基。可以在基序IV和X与M.HhaI具有同源性的甲基转移酶中导入模拟Q82A或N304A或Q82A和N304A两者的突变，其被证实增加了标记物向靶DNA的转移。

用于增加底物DNA被偶联物进行甲基转移酶标记的其他突变和其他方法也在本文中考虑到，并且与本文中公开的方法、装置和组合物一致。

甲基转移酶标记法.可以使用与本文中公开内容相符的多种甲基转移酶标记法对核酸进行序列特异性标记。一组标记方法——序列特异性甲基转移酶诱导的标记(SMILing)，包括将全修饰的辅因子分子例如氮丙啶或N-芥偶联到靶DNA序列上。SMILing标记技术描述在例如Pljevaljcic,G.，Schmidt,F.和Weinhold,E.(2004)，DNA的序列特异性甲基转移酶诱导的标记(SMILing DNA)(Sequence-specificmethyltransferase-induced labeling of DNA(SMILing DNA)).Chembiochem,5,265–269，其在此明确通过参考整体并入；以及Comstock,L.R.和Rajski,S.R.(2005)，通过合成辅因子将DNA甲基转移酶转化为叠氮核苷基转移酶(Conversion of DNA methyltransferasesinto azidonucleosidyl transferases via synthetic cofactors).Nucleic AcidsRes.,33,1644–1652，其在此明确通过参考整体并入。其他符合本文中公开内容的SMILing辅因子和技术也考虑在内。

第二组示例性的序列特异性DNA标记方法包括具有活化的锍-结合侧链的修饰的辅因子。这些方法(称为活化基团的甲基转移酶定向转移，mTAG)允许将这些线性侧链单独靶向转移。mTAG标记技术描述在例如Dalhoff,C.,Lukinavicius,G.,Klimasauskas,S.和Weinhold,E.(2006)通过DNA甲基转移酶从合成的辅因子定向转移延伸基团(Direct transfer of extended groups from synthetic cofactors by DNAmethyltransferases).Nat.Chem.Biol.,2,31-32，其在此明确通过参考整体并入，以及Lukinavicius,G.,Lapiene,V.,Stasevskij,Z.,Dalhoff,C.,Weinhold,E.和Klimasauskas,S.(2007)通过活化基团的甲基转移酶定向转移(mTAG)进行DNA的靶向标记(Targeted labeling of DNA bymethyltransferase-directed transfer of activated groups(mTAG)).J.Am.Chem.Soc.,129,2758-2759，其在此明确通过参考整体并入。

切口-标记.作为一些实施方式中的备选，切口标记可用于序列特异性标记靶DNA分子。本文公开内容背景下的切口标记方法可以在本文前面讨论的文献中找到，例如2011年6月14日授权的US7,960,105，其在此明确通过参考整体并入。

修饰的辅因子.多种修饰的辅因子符合本文中公开的方法、组合物和仪器。本文中使用的术语“修饰的辅因子”或“合成的辅因子”指的是不同于DNA MTase的天然辅因子SAM、但可以通过DNAMTase起到辅因子的作用以便以序列特异性方式标记DNA分子的分子。正如本文中公开的，修饰的辅因子可以通过修饰氨基酸侧链而源自于天然辅因子SAM。在一些实施方式中，修饰的辅因子可用于以序列特异性方式标记DNA分子，例如通过用可转移标签标记DNA分子。在一些实施方式中，全修饰辅因子可以起到可转移标签的作用。可转移标签可以是可检测的，并且起到可检测标签的作用，或者，可转移标签可以为可检测标签，其是可检测的。多种不同的可转移标签或可检测标签可以考虑在内，例如荧光团、量子点、树枝状聚合物、纳米线、珠子、半抗原、链霉亲和素、亲和素、中性亲和素、生物素、稳定化反应基团、放射性标记物、电磁标记物、叠氮化物、二苯并环辛炔(DBCO)、炔烃或其组合。在例如在本文中讨论的SMILing甲基转移酶标记的上下文中可以使用例如上文公开的氮丙啶或N-芥化合物。在例如本文中讨论的mTAG标记技术的上下文中可以使用锍-结合的侧链。在一些实施方式中可以使用点击(click)标记物。在一些实施方式中可以使用可转移标签例如叠氮化物、二苯并环辛炔(DBCO)或炔烃。

可以通过多种方式检测可转移标签或可检测标签。例如，可以通过光学(例如荧光或化学染色)、电子学、电学、电磁学或其组合检测可转移标签或可检测标签。在一些实施方式中，包括荧光团的可转移标签被考虑在内。这些可转移标签或可检测标签可以通过如下方法检测到：使被标记的核酸分子经受激发波长下的可见光或红外光，使得可转移标签或可检测标签在例如较大的波长下吸收和再发射光能，使得再发射的光可以被检测到不同于激发光能。

非荧光可转移标签或可检测标签也被考虑在内。非荧光可转移标签或可检测标签可以依靠不同于激发能的再发射的机制以便作为核酸标记物被检测到。例如，可转移标签或可检测标签可以包括发射作为检测工具的至少一个α或β粒子的放射性标记物。可转移标签或可检测标签可以包括可结合到受体分子的表位或其他结合结构以便于检测。在一些实施方式中，可转移标签或可检测标签可以包括结合对(例如生物素和链霉亲和素)的一个成员，其可以使用结合对的另一个成员进行检测。

其他的可转移标签或可检测标签也考虑在内。例如，可转移标签或可检测标签可以包括具有不同的电荷或电导性质的化学部分，使得当经过电流例如电磁流、任选地为近似垂直或垂直于核酸通过检测装置的通过方向的电磁流时，所述分子或辅因子通过例如引起电流封锁或扰乱导电介质的导电性质而扰乱电流，使得电流以一定的方式被可以预期地改变，以致可以检测标记物的存在。

非特异性核酸分子标记物.在一些实施方式中，仅使用序列特异性标记物来生成来自于核酸样品的基因组区域的图谱。在本文中公开的一些实施方式中，序列特异性标记物或标记辅因子与非特异性核酸标记物配合使用。非特异性标记物以不依赖于核酸序列的方式结合核酸例如DNA或RNA。例如，一些非特异性标记物可以在整个样品中普遍结合A:T碱基对、或普遍结合G:C碱基对，或普遍结合甲基化甲基(例如甲基-胞嘧啶)。

非特异性DNA标记物的实例包括溴化乙锭，其以基本上不依赖于特定核酸序列的方式插入双链DNA分子中的腺嘌呤-胸苷碱基对之间，并且其响应于紫外光的激发而发射荧光。SYBR染料如绿(N',N'-二甲基-N-[4-[(E)-(3-甲基-1,3-苯并噻唑-2-基亚基)甲基]-1-苯基喹啉-1--2-基]-N-丙基丙烷-1,3-二胺)或具有不同光谱的相关SYRB染料是非特异性DNA结合非特异性标记物的第二个实例。在一些实施方式中，可以使用YOYO辅因子例如YOYO-1碘化物。在一些实施方式中，可以使用YOYO染料例如{1,1'-(4,4,8,8-四甲基-4,8-二氮杂十一甲撑)双[4-[(3-甲基苯并-1,3-唑-2-基)亚甲基]-l,4-二氢喹啉]四碘化物}；TOTO染料例如喹啉1-1'-[1,3-丙烷二基双[(二甲基亚氨基)-3,1-丙烷二基]]双[4-[(3-甲基-2(3H)-苯并噻唑基亚基)甲基]]-,四碘化物；BOBO染料如(1,1'-(4,4,7,7-四甲基-4,7-二氮杂十一甲撑)-双-4-[3-甲基-2,3-二氢-(苯并-1,3-噻唑)-2-亚甲基]-吡啶嗡四碘化物)；SYTO染料或SYPRO染料或相关的非特异性核酸染料例如DNA染料或双链DNA染料或标记物。在一些实施方式中，可以使用POPO^TM染料如苯并唑2,2'-[1,3-丙烷二基双[(二甲基亚氨基)-3,1-丙烷二基-1(4H)-吡啶基-4-基亚基次甲基]]双[3-甲基]-,四碘化物或苯并唑2,2'-[1,3-丙烷二基双[(二甲基亚氨基)-3,1-丙烷二基-1(4H)-吡啶基-4-基亚基-1-丙烯-1-基-3-基亚基]]双[3-甲基]-,四碘化物。在一些实施方式中可以使用Hoechst染料。其他的非特异性荧光DNA标记物也考虑在内。

本文中也考虑了非荧光核酸标记物。非荧光核酸标记物的实例包括放射性标记物例如³²P、³³P或其他可以掺入或附着至核酸分子的放射性核素。

放射性标记、荧光标记或其他非特异性核酸标记可以通过例如如下实现：通过将标记物掺入到分子中(例如作为α-放射性标记的核苷酸)、通过选择性末端标记核酸分子(例如，使用γ-放射性标记的核苷酸)、通过将标记物插入到核酸分子中、通过将标记物偶联至非特异性单链或双链核酸结合蛋白或偶联至核酸5’或3’末端结合蛋白或偶联至平末端结合蛋白。

描绘了被标记分子的总长度的非特异性标记物也考虑在内。在一些实施方式中，非特异性标记物可不依赖于碱基同一性而结合至双链DNA分子或以其它方式与双链DNA分子联合。可以非特异性结合DNA的分子的类别的实例包括以不依赖于序列的方式结合至磷酸二酯骨架或结合至双螺旋的大沟或小沟的分子。单独荧光标记或荧光DNA结合性多肽或包含与荧光多肽如GFP的框内融合的多肽，以及小分子荧光标记物例如绿，溴化乙锭或DAPI(2-(4-脒基苯基)-1H-吲哚-6-甲脒)是非限制性清单的实例。

描绘被标记分子总长度的非特异性标记物可以通过结合双链DNA末端、DNA5’磷、DNA 5’OH、DNA 3’磷或DNA 3’OH基团、或者以其它方式结合双链DNA末端而起作用。结合DNA-断裂处的分子的实例包括Rad52蛋白、Rap1p蛋白或Ku蛋白，其中任何一者均可例如框内融合至荧光分子例如GFP或以其它方式结合至荧光团分子，或者可以被非荧光标志物例如放射性标记物所标记。

在一些实施方式中，至少一种非特异性DNA标记物或至少一种DNA末端标记物被用于描绘也已经施加了DNA序列特异性标记物的DNA片段的长度，使得可以测定关于总分子长度和一个或多个序列特异性基序的一个或多个重复的存在与否这二种信息。

被标记的核酸样品与参比序列或样品的比较.包含至少一个如本文中公开的被标记分子的样品可以按本文中所公开的或先前例如在上文提及并且通过参考以其各自整体被明确并入的文献中所公开的进行可视化。分子可视化将会生成可能用于对可视化分子与参比或比较样品进行比较的多种类型的数据。

通过非特异性双链核酸标记物或非特异性双链断裂标记物或其他末端标记物，可以测定核酸分子的总长度。根据待分析片段的生成方式，分子长度自身可以提供用于绘图目的的足够信息，例如如果在特定的样品类型中特异性限制内切酶的消化方式产生独特的片段长度(例如，重排的致癌基因基因座、或病原体基因组特有且在未感染宿主中不存在的片段长度)的话。

因此，在一些实施方式中，与相似长度的对照样品分子相比或与与缺乏这种长度的分子的对照样品相比、或与由此可以经电脑进行可比较的“消化”以预测可以进行比较的样品的片段长度的基因组信息相比，精确测量被标记分子的长度可以产生有用的信息或甚至测定到样品同一性或例如样品中给定的等位基因或病原体的存在。

在许多实施方式中，样品核酸的鉴定可能需要其他信息，这可能是由于无法解决片段长度的微小差异或由于样品被非特异性片段化成合适长度的碎片。因此，可以例如使用本文中公开的序列特异性核酸标记来获得序列特异性信息。

本文中考虑到了多种参比基因组类型。参比基因组可以包括完全完整的基因组序列，或可以包括不完整的基因组序列，如带有至少一个缺口的序列，或单一染色体、BAC(细菌人工染色体)、YAC(酵母人工染色体)或重叠群的全部或部分的序列。

参比基因组可以包括一个物种或群体的共有序列、基因组序列的单个单倍体型、单个单倍体序列、完整的(很大程度上重复的)二倍体基因组序列或其他子集的基因组序列。参比基因组序列可以反映“野生型”细胞来源或相对于给定个体中的其他细胞来说带有一个或多个突变的细胞来源的基因组信息，所述突变例如可能与细胞生长或分裂调节异常有关的突变，如与一种或多种类型的癌症相关的一个或多个突变。参比基因组可以表示与一种或多种肿瘤细胞相关的基因组。与“野生型”、健康或共有序列相比，参比基因组可以带有至少一个重复、缺失、转位、重排或其他结构变异。

参比基因组可以包括数字储存的并且通过样品的基于电脑计算的分析而与待分析样品进行比较的序列信息，所述样品例如与参比基因组进行比较的被标记的样品。或者，或组合地，参比基因组可以包括被相似处理和标记的第二样品，从所述第二样品获得片段位置和序列位置信息。即，可以通过电脑分析或通过将获得的信息与从参比基因组样品获得的信息进行直接比较、或通过电脑分析和直接分析两者的组合来对样品与参比基因组进行比较。

参比核酸样品可能源自于与待测样品同一个个体、相同物种的不同个体、不同物种的不同个体。参比样品或参比基因组序列可用于比较正常与疾病状态、一种疾病状态与另一种疾病状态、处理过的与未处理过的或不同方式处理的、诱变的与未诱变的或不同方式诱变的、转化的与未转化的或不同方式转化的、或一对核酸样品或样品与参比序列的其他相对状态。

将片段组装成重叠群和全基因组图谱.可以通过多种技术，例如下面和本公开全文中标注的那些技术将片段组装成直至包括全基因组图谱的重叠群。

组装程序：组装程序算法采用了如在下面多篇文献中描述的共同的重叠-布置-一致-精制方案，所述文献例如Anton Valouev,David C.Schwartz,Shiguo Zhou,和Michael S.Waterman,“组装来自于单DNA分子的有序限制图谱的算法(An algorithm for assembly of orderedrestriction maps from single DNA molecules)”Proc Natl Acad Sci U S A.2006年10月24日；103(43):15770–15775，其在此明确通过参考整体并入，以及Roy Ronen,Christina Boucher,Hamidreza Chitsaz,PavelPevzner,“SEQuel：改进基因组组装的准确性(SEQuel:improving theaccuracy of genome assemblies)”Bioinformatics.2012年6月15日；28(12):i188–i196,其在此明确通过参考整体并入。组装程序开始于得分高于指定的P-值阈值的所有配对对齐的列表。该列表用于生成重叠的图，其具有节点和边缘表示图谱之间的重叠的图谱。使用了多种图形操作以除去多余的边缘和伪边缘(假阳性)。得到的简化的图形应该由各重叠群的重叠图谱的直链组成。在操作中简化的图形仍然含有一些伪边缘。另外，基因组中的任何重复/复本将会导致图形中产生可选的可能路径，即使在不存在伪边缘的情况下。当前的算法输出了图形中的最长路径(布置)，其具有规定的最少的多余、长度和覆盖，从图形中除去了该路径的边缘并重复直至不再发现有这样的路径。发现的每一条路径对应于一个重叠群，其与图谱及它们在重叠群中的位置一起输出。如果基因组具有重复/复本，则生成的重叠群可能是不正确的，因为仅仅输出了第一个可能的组装，但由于只有比通常的分子尺寸大的重复才会造成问题，因此这发生地相对较少。每个重叠群的草案质量图谱通过将图谱的重叠区域简单地进行平均来计算。草案质量重叠群图谱具有很多小的局部误差，其随后通过发现最大可能性一致图谱，鉴于单个分子图谱及其在重叠群中的近似位置而对重叠群进行精制来校准。替选的组装技术，例如在文献中公开或考虑的那些技术，也可以与本文中的公开一致(例如Schatz等，“DNA60IFX争论(The TheDNA60IFX contest)”Genome Biology 2013,14:124，其在此明确通过参考整体并入)。

精制：可以使用一种名为RefAligner的程序(可以获自例如http://bowtie.sourcearchive.com/documentation/0.12.71/classRefAligner_acd0f278c53bfbfdf3c63e2f6f4acde87.html，其在此明确通过参考整体并入)，以通过从与所述重叠群对齐的成套分子中找到其他的分子图谱而进一步改善每个重叠群一致性图谱的质量。这一更大的图谱组被用于重复每个重叠群图谱的最大可能性优化。另外，分析每个重叠群的图谱覆盖情况以发现可能指示了重叠群不正确地接合了基因组的两个区域的较低覆盖的区域。如果是这样的话，重叠群在该低覆盖点处被打断。其他的精制技术，例如在文献中公开或考虑的技术，也可以与本文中的公开一致。

重叠群延伸：在初始组装和重叠群精制后，可以使用RefAligner或可选的软件来延伸重叠群。这类似于重叠群精制，除了在发现与重叠群对齐的分子后，将一致性图谱在每个末端延伸得与任何单个分子延伸得一样长。一致性图谱的延伸区域被恢复成没有位点。然后对完整的重叠群图谱使用最大可能性优化以定位重叠群图谱的延伸区域中的位点。最后，对重叠群图谱的两端进行修整以除去覆盖低于3的区域(可以由使用者调整)。

重叠群合并：使用相对严格的P-值将每对延伸的重叠群图谱彼此对齐(在两个方向上)。将任何对齐的重叠群对合并成单个重叠群。可以对重叠群延伸和合并重复多次，直至不再能够获得进一步的进展。

用于改进组装结果的参数.本文中公开了，通过使用本文中公开的参数的至少一种、两种、三种、四种或全部参数，可以实质性改善被标记的核酸分子与参比分子、参比数据集、或第二被标记的核酸分子例如对将被标记分子群组装成至少一个重叠群所必需的那种分子的对齐。本文中公开的将改善的特性传达到本文中公开的标记和比较方法及组合物的条件包括下列至少一种：基序重复密度为5-35/100kb，例如5-25/100kb，出错率≤20％，拉伸系数>70％，拉伸变异性<20％，以及分子的查询>150kb。本文中公开的将进一步改善的特性传达到本文中公开的标记和比较方法及组合物的条件包括下列至少一种：基序重复密度为7-15/100kb，拉伸系数为80-85％，以及分子尺寸大于180kb。

即，本文中公开了选择具有如下平均重复密度的基序的有益效果，所述平均重复密度为、约为、低于、大于5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、或25次/100kb，或上述值的任意两者之间的范围，或者在上述范围内的任何非整数值。本文中还公开了选择具有如下平均重复密度的基序的有益效果，所述平均重复密度为、约为、低于、大于7、8、9、10、11、12、13、14、或15次/100kb，或上述值的任意两者之间的范围，或者在上述范围内的任何非整数值。本文中公开了将出错率保持在如下值的有益效果，所述出错率为、约为、低于、大于0、1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％，或上述值的任意两者之间的范围，或上述0-20％范围内的任意非整数值。本文中公开了使用具有如下kb长度的核酸分子的有益效果，所述kb长度为、约为、低于、大于150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、或大于179kb，或者在上述值的任意两者之间的范围，或大于150kb的任意非整数值。本文中公开了使用具有如下kb长度的核酸分子的进一步有益效果，所述kb长度为、约为、少于、大于180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、或大于300，或在上述值的任意两者之间的范围，或大于180kb的任意非整数值。本文中还公开了操作本文中的方法的有益效果，其中同时遵循了本文中2、3、4或5种有益参数的组合、或本文中公开的至少1种有益参数与本文中至少一种其他有益参数的组合，由此多于一种的选自上面的有益参数或至少一种有益参数和至少一种其他有益参数。

对于给定样品或给定分析，可以对参数进行优化。例如，可以通过减少组装的严格性，将组装相对于重叠群长度而最大化。例如，通过降低对齐阈值(P-值)，可以在分子对之间和分子与重叠群之间得到更多的对齐。正如通过更好的基因组覆盖率和更大的重叠群N50所测量的，更多的配对通常将导致更多和更长的组装的重叠群。降低延伸/合并步骤的最小覆盖将会表现出相似的影响。降低组装的最小分子长度，由于较高的基因组覆盖，也将导致更长的重叠群。可选地，如果使用者对组装准确性更感兴趣，可以增加对齐阈值，增加参与组装所需的最小分子长度及增加组装步骤的最小覆盖。组装程序将很少会产生误差，同时，它可能不会在覆盖较低或标记物密度较低的区域中组装完成。

作为示例性实例，在本文中公开的最优参数的有益效果中，对输入的DNA片段的尺寸对组装参数的相对影响进行了测定。用Nt.BspQI切口核酸内切酶对人类基因组DNA进行切口。通过使用Atto dUTP进行切口平移，用连接酶修复切口，将切口的DNA用Taq多聚酶进行标记。将被标记的DNA用YOYO-1染色，用于在Irys系统上处理(BioNanoGenomics，在http://www.bionanogenomics.com/products/上描述)。简要来说，在整体平行的纳米通道中将DNA线性化，用对于骨架标记物和切口标记物检测来说合适的激光激发，并且进行光学成像以显示DNA分子上标记物的图案。将被标记的DNA分子针对参比基因组做图，以确定标记效率和其他组装参数。发现输入的人类DNA具有85％的拉伸系数、0.2的拉伸变异性、10.3/100kb的标记物密度、71％的图谱率、11％的假阳性和15％的假阴性。

独立地组装>150Kb或>180Kb的DNA分子以产生基因组图谱。图1描绘了重叠群N50随参比基因组输入覆盖的变化，所述参比基因组输入覆盖以单倍体人类基因组(～3.2Gb)的倍数表示。图2描绘了参比基因组覆盖百分率随输入覆盖的变化。图3描绘了组装的重叠群的总长度随输入覆盖的变化。重叠群N50是尺寸>N50的重叠群的总长度为总重叠群长度一半时重叠群尺寸的分布的度量。总重叠群长度等于所有重叠群的共有长度的总和。

如图1中所示，对于给定的重叠群输入覆盖来说，等于或大于180kb的片段的输入DNA样品一贯地产生平均尺寸大于包含小到150kb以上的片段的输入DNA样品所观察到的组装的重叠群的平均尺寸的组装的重叠群。该结果指示了最小片段尺寸为180kb的输入样品相对于150kb的平均组装的重叠群尺寸的出乎意料的益处。

如图2中所示，对于给定的重叠群输入覆盖来说，等于或大于180kb的片段的输入DNA样品一贯地产生大于包含小到150kb以上的片段的输入DNA样品所观察到的组装的重叠群的参比覆盖百分率的参比覆盖百分率。这一现象对于50x或更少的输入覆盖范围来说尤为明显，因为在较大的覆盖值下，参比覆盖百分率似乎接近于两个片段尺寸样品的渐近线。该结果指示了最小片段尺寸为180kb相对于150kb的输入样品在组装的重叠群所取得的参比覆盖百分率方面的出人意料的益处，尤其是对于50x或更小的输入覆盖来说，但也通常独立于输入覆盖。

类似地，如图3中所示，对于给定的重叠群输入覆盖来说，等于或大于180kb的片段的输入DNA样品一贯地产生大于包含小到150kb以上的片段的输入DNA样品所观察到的组装的重叠群的重叠群长度。这一现象对于50x或更少的输入覆盖范围来说尤为明显，因为在较大的覆盖值下，重叠群长度似乎接近于两个片段尺寸样品的渐近线。该结果指示了最小片段尺寸为180kb相对于150kb的输入样品在实现的组装的重叠群长度方面的出人意料的益处，尤其是对于50x或更小的输入覆盖来说，但也通常独立于输入覆盖。

甲基转移酶介导的序列特异性DNA标记与本文中公开的组装参数的组合的有益效果.已经将序列特异性单链切口酶用于生成双链DNA的各个单链的游离5’和3’末端。这些游离的单链末端然后可用于标记，例如通过延长形成单链的切口的3’末端，使用完整互补的链作为模板以引导碱基掺入。通过提供被标记的碱基，可以实现在特定核酸序列位点处的双链DNA分子的标记。在掺入一定量的标记物后，可以终止延伸反应并修复平移的切口，例如使用细胞自有机制。反应的结果是双链核酸分子在整个分子中任何出现特定序列的位置处均掺入了标记物。

单链切口是一种在核酸分子中标记特定核酸序列的有效方法。然而，虽然在切口位点处进行标记，但切口的标记中间体通过该位点处的单链结合在一起。因为单链区域实质上比双链核酸分子更为脆弱，因此在标记过程期间中这些区域发生断裂并不罕见。当优选较长的核酸分子，例如150kb以上的分子，或甚至180kb以上的分子时，或者当需要标记特别密集出现的序列，例如每100kb出现5-35次、每100kb出现5-25次、或每100kb出现7-15次的序列时，这尤其是一个关键的问题。

正如在本文中指出的，例如在图1、2和3中指出的，已经显示了提供具有较大的最小片段长度的输入样品具有可测量的益处。因此，虽然切口标记、甲基转移酶标记和其他的序列特异性标记技术均符合本文中的公开，但提供较长的DNA片段尺寸的样品具有出人意料的益处。

通过使用DNA标记方法例如使被标记的DNA片段保持完整的甲基转移酶标记(即，用至少一个标记物标记在整个第一基因组中重复的至少一个基序，其中所述标记保持双链DNA的每条链的完整性)而非使用暂时断裂双链DNA中的一条链的磷酸骨架以形成由一个或多个单链片段(随切口标记出现)保持在一起的中间体的标记技术，更能够利用如图1、2和3中指示的较大输入样品片段尺寸对重叠群组装的有益效果。

因此，一些实施方式提供了无需暂时损害链完整性或链磷酸二酯键完整性而标记特定核酸序列的方法和组合物。

通过本文中公开的方法、组合物和装置，可以测定具有测量的长度的DNA分子内序列特异性基序的存在，并将这些分子组装成直至包括全基因组图谱的参比重叠群。可以使用这些信息来例如鉴定重复介导的基因组结构多态性，例如由两或三个核苷酸重复导致的多态性，以精确测量由于例如存在高度重复序列而无法测量一级序列信息的基因组草案的区域的尺寸，测定简单或复杂转座子或反转录病毒插入位点的尺寸和范围，或测定基因组重排的存在和延伸，例如与疾病如各种人类癌症相关的那些。

如本文中所限定的，拉伸DNA意味着通过包括使用纳米通道限制的多种技术之一降低DNA结构的熵。例如参见2007年5月15日公开的美国专利号7,217,562，其内容在此明确通过参考整体并入。

正如本文中所限定的，拉伸变异性被计算为每个图谱化分子的bpp(碱基对/像素)的标准偏差。bpp是参比碱基的数量除以测量长度，亦称碱基/像素。

正如本文中所限定的，DNA的持久长度是由内在为直线的DNA分子的两端形成的按时间平均的角度为57度时的长度。例如参见，了解DNA：分子及其如何工作(Understanding DNA:The Molecule andHow it Works)，Chris R.Calladine,Horace Drew,Ben Luisi,AndrewTravers,Academic Press，2004年3月13日，其内容在此明确通过参考整体并入。

正如本文中所限定的，出错率对应于当被标记的分子与参比基因组对齐(不需要组装被标记的DNA)时的假阳性或假阴性结果。

实施例

实施例1-用荧光SAM标记

在包含荧光团或多种荧光团的修饰的S-腺苷甲硫氨酸(SAM)的存在下，用选自表1的甲基转移酶(MTase)处理含有兆碱基的人类DNA。在将荧光团-SAM复合物共价转移到甲基转移酶靶位点后，用yoyo I对被标记的DNA进行染色，以用于在Irys系统(BioNanoGenomics)上进行处理。简要来说，在整体平行的纳米通道中将DNA线性化以实现～80％拉伸，用对于骨架和标记物检测来说合适的激光激发，并且进行光学成像以显示DNA分子上标记物的图案。调整MTase标记条件以实现参比基因组>40％的绘图及<20％的出错率。查询≥150Kb的分子以重叠绘图，生成基因组图谱。

实施例2-用点击(炔烃-叠氮化物-Cu-配基)标记

在包含炔烃转移部分的修饰的S-腺苷甲硫氨酸(SAM)的存在下，用选自表1的甲基转移酶处理含有兆碱基的人类DNA。在将炔烃基团共价转移至甲基转移酶靶位点后，在铜配位配基(例如BTTAA、BTTES)的存在下使用铜催化的偶联反应对炔烃标示位点进行荧光标记，以防止铜诱导的DNA片段化。如实施例1中所描述的，用yoyo I对被标记的DNA进行染色，以用于在Irys系统上进行处理。

实施例3-用点击(叠氮化物-DBCO)标记

在包含叠氮化物转移部分的修饰的S-腺苷甲硫氨酸(SAM)的存在下，用选自表1的甲基转移酶处理含有兆碱基的人类DNA。在将叠氮基团共价转移到甲基转移酶靶位点后，使用DBCO-荧光团偶联物对叠氮化物标示位点进行荧光标记(不含铜的点击化学)。如实施例1中所描述的，用yoyo I对被标记的DNA进行染色，以用于在Irys系统上进行处理。DBCO-荧光团偶联物的实例包括将DBCO直接偶联到荧光团上，或将DBCO偶联到已被偶联至多个荧光团的部分上(例如，包含多个荧光团的DBCO寡聚物或树枝状聚合物)。

实施例4-用点击(DBCO-叠氮化物)标记

在包含DBCO转移部分的修饰的S-腺苷甲硫氨酸(SAM)的存在下，用选自表1的甲基转移酶处理含有兆碱基的人类DNA。在将DBCO基团共价转移到甲基转移酶靶位点后，使用叠氮化物-荧光团偶联物对DBCO标示位点进行荧光标记(不含铜的点击化学)。如实施例1中所描述的，用yoyo I对被标记的DNA进行染色，以用于在Irys系统上进行处理。叠氮化物-荧光团偶联物的实例包括将叠氮化物直接偶联到荧光团上或将叠氮化物偶联到已被偶联至多个荧光团的部分上(例如，包含多个荧光团的DBCO寡聚物或树枝状聚合物)。

实施例5-T7DNA的标记

将2uL T7DNA(500ng/ul)、M.BseCI(285nM)和Atto532AdoY(40uM)在10mM Tris-HCl、10mM EDTA、以及5mMβ-巯基乙醇中的pH7.4的溶液与4uL NaOH(0.1M)混合。将溶液在55℃下温育5小时。加入蛋白酶K(1ul)，将溶液在37℃下温育1小时。用乙醇沉淀DNA并将其再溶解在1xTE缓冲液(10ul)中。

在图4中给出了单个被标记的T7DNA分子的图像。单个T7DNA分子(蓝色)在IrysChip^TM纳米通道阵列中可视化。绿色点代表被Atto532染料标记的M.BseCI识别序列(ATCGAT)。T7DNA含有三个M.BseCI识别序列。

实施例6-被标记的T7DNA的成像

对于在上面的实施例5中标记的T7DNA的DNA染色来说，将DNA(100ng/ul)、YOYO-1(500nM)在1x流动缓冲液中的溶液(50ul)在4℃下温育4小时。随后，将4-硝基苯甲醇(1.4mM)、水溶性维生素E(Trolox)(1.4mM)、原儿茶酸-3,4-双加氧酶(0.36uM)、原儿茶酸(50ug)的新鲜制备的溶液(4ul)与10uL的染色的DNA(如上)混合，并荷载到IrysChip^TM中，使用Irys^TM仪进行成像。图4示出了成像的、被标记的T7DNA分子的实例。

实施例7-大肠埃希氏杆菌(E.coli)DNA的标记

将大肠埃希氏杆菌DNA(500ng)、M.BseCI(相对于DNA位点22x过量)和Atto532AdoY(40uM)在10mM Tris-HCl、10mM EDTA、以及5mMβ-巯基乙醇中的pH 7.4的溶液(40ul)与4uL NaOH(0.1M)混合。将溶液在55℃下温育5小时。加入蛋白酶K(1ul)，将溶液在37℃下温育1小时。将DNA针对1xTE缓冲液进行渗析，并用YOYO-1染色至3.5-5ng/ul的终浓度。

实施例8-被标记的大肠埃希氏杆菌DNA的成像

将4-硝基苯甲醇(1.4mM)、水溶性维生素E(1.4mM)、原儿茶酸-3,4-双加氧酶(0.36uM)、原儿茶酸(50ug)的新鲜制备的溶液(4ul)与实施例7的被染色的大肠埃希氏杆菌DNA混合，加入1x流动缓冲液和Tris(25mM)以及NaCl(10mM)。将样品荷载到IrysChip^TM上，使用Irys^TM仪进行成像。

实施例9-将被标记的大肠埃希氏杆菌DNA组装成重叠群

组装实施例7和8的大肠埃希氏杆菌DNA，并将其与参比基因组进行比较。结果在图5中给出。将被标记的大肠埃希氏杆菌DNA组装成单个重叠群(图5，右侧重叠群)，并与参比重叠群序列(图5，左侧重叠群)进行对齐。结果显示，本文中分析的大肠埃希氏杆菌DNA含有多处缺失，总共约0.2-0.3Mb，位于整个被分析的大肠埃希氏杆菌DNA中的与参比品相比的三处以上的位置。

实施例10-将被标记的人类染色体17DNA组装成重叠群

对人类染色体17DNA进行标记和可视化，将生成的DNA片段尺寸和序列信息用于组装与之前现有的染色体17序列信息相比的重叠群。

图6A示出了参比染色体重叠群，其中标示物以水平条指示，并伴有DNA兆碱基(Mb)的指示。图6B示出了组装的重叠群与图3A的参比重叠群之间的比较结果。

两个重叠群草图之间的灰色线指示了相关的序列基序。发现组装的重叠群在接近给出的对齐的左端处带有单个插入。通过将连接组装的重叠群与参比重叠群的垂直线向右移动至插入位点后的对角线而识别出所述插入，其反映了插入序列的存在。

实施例11-优化参数的分析：片段长度

用Nt.BspQI切口核酸内切酶对人类基因组DNA进行切口。通过使用Atto dUTP进行切口平移，用连接酶修复切口，将切口的DNA用Taq多聚酶进行标记。用yoyo I对被标记的DNA进行染色，以用于在Irys系统(BioNano Genomics)上进行处理。简要来说，在整体平行的纳米通道中将DNA线性化，用对于骨架和标记物检测来说合适的激光激发，并且进行光学成像以显示DNA分子上标记物的图案。独立地组装>150Kb或>180Kb的DNA分子以产生基因组图谱。图1描绘了重叠群N50随参比基因组输入覆盖的变化，所述参比基因组输入覆盖以单倍体人类基因组(～3.2Gb)的倍数表示。图2描绘了参比基因组覆盖百分率随输入覆盖的变化。图3描绘了组装的重叠群的总长度随输入覆盖的变化。重叠群N50是尺寸>N50的重叠群的总长度为总重叠群长度一半时重叠群尺寸的分布的度量。总重叠群长度＝所有重叠群的共有长度的总和。

实施例12-优化参数的分析：样品输入量

用Nt.BspQI切口核酸内切酶对减少量的人类基因组DNA进行切口，以模拟过量切口。通过使用Atto dUTP进行切口平移，用连接酶修复切口，将切口的DNA用Taq多聚酶进行标记。用yoyo I对被标记的DNA进行染色，以用于在Irys系统(BioNano Genomics)上进行处理。注意到假阳性(FP)率增加，这与导致较差的组装的较差的参比绘图相关。即，假阳性率随输入DNA量的减少而增加。

实施例13-优化参数的分析：假阴性值和组装质量的相关性

用Nt.BspQI切口核酸内切酶对减少量的人类基因组DNA进行切口，以模拟过量切口。通过使用Atto dUTP进行切口平移，用连接酶修复切口，将切口的DNA用Taq多聚酶进行标记。用yoyo I对被标记的DNA进行染色，以用于在Irys系统(BioNano Genomics)上进行处理。注意到FP率增加，这与导致较差的组装的较差的参比绘图相关。即，假阳性率随输入DNA量的减少而增加。结果在表3中给出，示出了对于一定范围的DNA质量样品而言的DNA样品质量、质量中心、标记物密度、图谱率、假阳性百分率(％FP)和假阴性百分率(％FN)。

表3.

在Irys^TM系统上对分离自人类血样的基因组DNA进行切口标记修复及查询。FN率增加与导致较差组装的减少的参比绘图相关。即，假阴性率的增加与图谱率的降低相关。结果在表4中给出，示出了对于多种血液DNA样品而言的图谱率、假阳性率(％FP)和假阴性率(％FN)。

表4.

	COM	图谱率	％FP	％FN
					血液DNA	140	39.4％	5.5	24
血液DNA	128	42.8％	4.8	20.1
					血液DNA	204	51.0％	4.5	18.8
血液DNA	195	51.4％	5.8	17.1
					血液DNA	205	61.7％	6.1	16.6
血液DNA	197	57.1％	5.2	14.7

实施例14-优化参数的分析：在存在参比基因组的情况下利于基因组组装的条件

基于代表性参比图谱的存在，经验地确定利于良好的基因组组装的条件。均匀拉伸到～85％，最小拉伸变异性<20％，连同高效标记和2kb图象分辨率，利于参比绘图，以支持从头基因组组装。对于>150kb、优选>180kb的分子，结果得以改善。提高图像分辨率、增加信息密度(例如，多种颜色)，使得配对排列的分子之间的重叠区域代表了独特的基因组图案，这减少了尺寸依赖。

实施例15-优化参数的分析：在存在对于复杂基因组而言的参比基因组的情况下利于基因组组装的条件

在例如在人类中的复杂基因组的情况下，特别是如果用癌性材料或甚至培养的细胞进行处理时，则与现有参比基因组的遗传分歧可以高至使得参比绘图可能更具挑战性。

然而，仍然获得了从头组装，这被在40-70％待决的DNA来源的范围内的参比图谱率的人类基因组的成功组装所证明。均匀拉伸到～85％，最小拉伸变异性<20％，连同高效标记和2kb图象分辨率，利于参比绘图，以支持从头基因组组装。对于>150kb、优选>180kb的分子，结果得以改善。提高图像分辨率、增加信息密度(例如，多种颜色)，使得配对排列的分子之间的重叠区域代表了独特的基因组图案，这减少了尺寸依赖。

实施例16-优化参数的分析：在不存在参比基因组的情况下利于基因组组装的条件

在不存在参比基因组图谱的情况下，用于成功的从头组装的参数可以依靠于具有覆盖深度的最大配对组装，例如以如下方式进行。首先，测量分子之间的对齐率。对齐率的计算类似于图谱率的计算。将分子彼此对齐而不是将它们与参比基因组对齐。然后将每个输入分子的平均对齐数除以预期的基因组覆盖，得到对齐率。计算可能需要对样品基因组尺寸进行良好的通常是真实的估计。

作为替选方案，通过调查配对对齐的p-值的直方图而估计输入分子质量。p-值直方图的峰值及其标准偏差将会良好地代表分子质量。彼此相符的输入分子将生成较高的峰p-值。

Claims

1.一种对第一核酸样品进行表征以查询基因组区域的方法，其包括：

用第一标记物在至少一个重复的基序处标记所述第一核酸样品中的多个核酸分子，其中所述标记保持所述多个核酸分子的完整性；

用第二标记物标示所述第一核酸样品中的所述多个核酸分子，其中所述第二标记物不同于所述第一标记物；

通过使所述多个核酸分子进入至少一个纳米通道而将所述多个核酸分子线性化；

检测所述第一标记物和所述第二标记物以产生所述多个核酸分子的所述至少一个重复的基序的图案；以及

将所述多个核酸分子的所述至少一个重复的基序的图案进行组装以构建所述基因组区域的第一图谱。

2.权利要求1的方法，其中所述多个核酸分子包括DNA。

3.权利要求2的方法，其中所述DNA包括双链DNA。

4.权利要求1-3任一项的方法，其中所述多个核酸分子覆盖所述基因组区域的完整长度。

5.权利要求1-3任一项的方法，其中所述多个核酸分子覆盖所述基因组区域的富集部分。

6.权利要求1-5任一项的方法，其中所述基因组区域包括至少两个单倍体型。

7.权利要求1-6任一项的方法，其中将所述基因组区域的第一图谱与所述基因组区域的第二图谱进行比较。

8.权利要求7的方法，其中所述第二图谱是参比基因组的图谱。

9.权利要求7的方法，其中所述第二图谱从基因组序列信息生成。

10.权利要求7的方法，其中所述第二图谱被独立地生成。

11.权利要求7的方法，其中所述第二图谱从第二核酸样品生成。

12.权利要求7-11任一项的方法，其中所述第二图谱包括至少两个单倍体型。

13.权利要求7的方法，其中从来自于与所述第一核酸样品共同的个体的第二核酸样品生成所述第二图谱。

14.权利要求7的方法，其中从来自于与所述第一核酸样品不同的个体的第二核酸样品生成所述第二图谱。

15.权利要求7-14任一项的方法，其中所述第二图谱来自于与所述第一核酸样品共同的物种。

16.权利要求7-14任一项的方法，其中所述第二图谱来自于与所述第一核酸样品不同的物种。

17.权利要求7-16任一项的方法，其中从肿瘤细胞来源生成所述第二图谱。

18.权利要求7-16任一项的方法，其中从健康细胞来源生成所述第二图谱。

19.权利要求7-16任一项的方法，其中从诱变的细胞来源生成所述第二图谱。

20.权利要求7-16任一项的方法，其中从未诱变的细胞来源生成所述第二图谱。

21.权利要求1-20任一项的方法，其中在所述基因组区域中，所述至少一个重复的基序具有约5个位点/100Kb到约35个位点/100Kb的平均重复频率。

22.权利要求21的方法，其中在所述基因组区域中，所述至少一个重复的基序具有约5个位点/100Kb到约25个位点/100Kb的平均频率。

23.权利要求1-22任一项的方法，其中对多于一个的重复的基序进行标记，并且用不同的标记物标记所述多于一个的重复的基序中的每一个。

24.权利要求1-22任一项的方法，其中对多于一个的重复的基序进行标记，并且用单种标记物标记所述多于一个的重复的基序中的每一个。

25.权利要求1-24任一项的方法，其中所述第二标记物是非特异性核酸标记物。

26.权利要求25的方法，其中所述第二标记物选自乙啡啶、SYBR、YOYO、TOTO、BOBO、SYPRO、SYTO、DAPI、POPO和Hoechst。

27.权利要求1-26任一项的方法，其中所述至少一个重复的基序是甲基转移酶识别序列，并且其中由甲基转移酶和修饰的辅因子实现标记。

28.权利要求27的方法，其中所述修饰的辅因子包括变成与所述甲基转移酶识别序列共价偶联的可转移标签。

29.权利要求28的方法，其中所述修饰的辅因子包括可检测标签。

30.权利要求28的方法，其中所述可转移标签选自荧光团、量子点、树枝状聚合物、纳米线、珠子、半抗原、链霉亲和素、亲和素、中性亲和素、生物素、稳定化反应基团、放射性标记物、电磁标记物、叠氮化物、二苯并环辛炔(DBCO)、以及炔烃。

31.权利要求28的方法，其中所述可转移标签选自叠氮化物、二苯并环辛炔(DBCO)和炔烃。

32.权利要求28的方法，其中所述可转移标签是荧光团。

33.权利要求32的方法，其中所述可转移标签是叠氮化物-DBCO。

34.权利要求28的方法，其中所述可转移标签是量子点。

35.权利要求28的方法，其中所述可转移标签是电磁标签。

36.权利要求28的方法，其中所述可转移标签通过电子学和/或电学检测。

37.权利要求29的方法，其中所述修饰的辅因子被直接偶联到所述甲基转移酶识别序列。

38.权利要求29的方法，其中所述可检测标签选自荧光团、量子点、树枝状聚合物、纳米线、珠子、半抗原、链霉亲和素、亲和素、中性亲和素、生物素、稳定化反应基团、放射性标记物、电磁标记物、叠氮化物、二苯并环辛炔(DBCO)、以及炔烃。

39.权利要求38的方法，其中所述可检测标签选自叠氮化物、二苯并环辛炔(DBCO)和炔烃。

40.权利要求29的方法，其中所述可检测标签是荧光团。

41.权利要求40的方法，其中所述可检测标签是叠氮化物-DBCO。

42.权利要求37的方法，其中所述可检测标签是量子点。

43.权利要求37的方法，其中所述可检测标签是电磁标签。

44.权利要求37的方法，其中所述可检测标签通过电子学和/或电学检测。

45.权利要求1-44任一项的方法，其中所述第一标记物在可见光谱中可检测到。

46.权利要求1-44任一项的方法，其中所述第一标记物在可见光谱中不可检测到。

47.权利要求1-44任一项的方法，其中所述第一标记物可通过辐射度量检测到。

48.权利要求1-44任一项的方法，其中所述第一标记物可通过其对交叉流的影响而被检测到。

49.权利要求48的方法，其中所述交叉流是电磁流。

50.权利要求1-49任一项的方法，其中所述至少一个重复的基序包括用于结合实体的至少一个结合位点，所述结合实体选自非切割性限制酶、锌指蛋白、抗体、转录因子、转录激活因子样结构域、DNA结合蛋白、聚酰胺、形成三螺旋的寡核苷酸、以及肽核酸；并且

其中利用所述结合实体实现标记。

51.权利要求50的方法，其中所述结合实体包括至少一种选自如下的可检测标签：荧光团、量子点、树枝状聚合物、纳米线、珠子、半抗原、链霉亲和素、亲和素、中性亲和素、生物素、稳定化反应基团、放射性标记物、电磁标记物、叠氮化物、二苯并环辛炔(DBCO)、以及炔烃。

52.权利要求51的方法，其中所述可检测标签是荧光团。

53.权利要求51的方法，其中所述可检测标签是叠氮化物-DBCO。

54.权利要求51的方法，其中所述可检测标签是量子点。

55.权利要求51的方法，其中所述可检测标签是电磁标签。

56.权利要求1-55任一项的方法，其中所述标记具有≤30％的出错率。

57.权利要求1-55任一项的方法，其中所述线性化步骤包括将所述多个核酸分子中的一个或多个拉伸至其持久长度的约70％到约100％。

58.权利要求1-55任一项的方法，其中所述标记步骤具有≤30％的出错率，并且所述线性化步骤包括将所述多个核酸分子中的一个或多个拉伸至其持久长度的约70％到约100％。

59.权利要求1-55任一项的方法，其中被标记的核酸分子具有至少150kb的长度。

60.权利要求1-55任一项的方法，其中被标记的核酸分子具有至少150kb的长度，并且其中所述标记步骤具有≤30％的出错率。

61.权利要求1-55任一项的方法，其中被标记的核酸分子具有至少150kb的长度，其中所述标记步骤具有≤30％的出错率，并且其中所述线性化步骤包括将核酸分子拉伸至其持久长度的约70％至约100％之间。

62.权利要求1-61任一项的方法，其中所述标记步骤具有≤20％的出错率。

63.权利要求1-61任一项的方法，其中所述标记步骤具有≤15％的出错率。

64.权利要求1-63任一项的方法，其中所述核酸分子对应于所述基因组区域的至少20倍覆盖。

65.权利要求1-64任一项的方法，其中所述基因组区域为至少约0.5Mb、0.7Mb、1Mb、1.5Mb、2Mb或更大。

66.权利要求1-65任一项的方法，其还包括用第三标记物标示所述核酸分子以鉴定表观基因组信息。

67.权利要求1-66任一项的方法，其还包括用第四标记物标示所述核酸分子以鉴定任何具有DNA结合结构域的因子。

68.权利要求1-67任一项的方法，其中所述第一图谱包括从所述至少一个重复的基序的至少两个重叠图案组装的至少一个重叠群。

69.权利要求1-68任一项的方法，其中所述第一图谱对应于基因组的一部分。

70.权利要求1-69任一项的方法，其中将所述第一图谱与参比图谱进行比较，以确定所述第一图谱与所述参比图谱之间的相似性或差异。

71.权利要求1-70任一项的方法，其还包括：

在相同的重复的基序处对第二核酸样品中的多个核酸分子进行标记，其中所述标记保持所述多个核酸分子的完整性。

用第二标记物标示所述第二核酸样品中的所述多个核酸分子；

通过使所述多个核酸分子进入至少一个纳米通道而将所述第二核酸样品中的所述多个核酸分子线性化；

检测所述第一标记物和所述第二标记物以产生来自于所述第二核酸样品的所述多个核酸分子的所述至少一个重复的基序的图案；

将所述多个核酸分子的所述至少一个重复的基序的图案进行组装以构建所述基因组区域的第二图谱；以及

将所述第一图谱与所述第二图谱进行比较，以确定所述第一核酸样品与所述第二核酸样品之间的相似性或差异。

72.权利要求71的方法，其中所述第二核酸样品来自于与所述第一核酸样品共同的个体。

73.权利要求71的方法，其中所述第二核酸样品来自于与所述第一核酸样品不同的个体。

74.权利要求71的方法，其中所述第二核酸样品来自于与所述第一核酸样品共同的物种。

75.权利要求71的方法，其中所述第二核酸样品来自于与所述第一核酸样品不同的物种。

76.权利要求71的方法，其中所述第二核酸样品来自于肿瘤细胞来源。

77.权利要求71的方法，其中所述第二核酸样品来自于健康细胞来源。

78.权利要求71的方法，其中所述第二核酸样品来自于诱变的细胞来源。

79.权利要求71的方法，其中所述第二核酸样品来自于未诱变的细胞来源。

80.权利要求1-79任一项的方法，其包括组装至少100、至少1,000、至少1,000以上个核酸分子的所述至少一个重复的基序的图案。

81.权利要求1-80任一项的方法，其中在单个微流体芯片上进行所述第一标记物和所述第二标记物的检测，以产生所述多个核酸分子的所述至少一个重复的基序的图案。

82.权利要求1-81任一项的方法，其中在小于2小时、小于1小时、小于30分钟、小于20分钟、小于10分钟、小于5分钟、小于1分钟、小于30秒、小于20秒、小于10秒、小于5秒或小于1秒内进行所述第一标记物和所述第二标记物的检测，以产生所述多个核酸分子的所述至少一个重复的基序的图案。

83.一种表征大分子的方法，其包括

用第一标记物在至少一个甲基转移酶基序处标记所述大分子，其中由甲基转移酶和修饰的辅因子实现所述标记，其中所述标记保持所述大分子的完整性，

用非序列特异性标记物标示所述大分子，其中所述非序列特异性标记物不同于所述第一标记物；

通过使所述大分子进入至少一个纳米通道而将所述大分子线性化；以及

检测所述第一标记物和所述非序列特异性标记物以鉴定所述大分子特有的所述至少一个甲基转移酶基序的图案。

84.权利要求83的方法，其中所述大分子为双链DNA分子。

85.一种分析大分子的序列结构的方法，所述方法包括如下步骤：

a)在所述大分子的多个出现的识别位点处导入第一标记物，其中通过第一标记物在所述大分子中的所述导入没有断裂磷酸二酯键；

b)用第二标记物标记所述大分子；

c)使所述大分子进入纳米通道以将所述大分子保持在拉长状态；

d)检测所述第一标记物以鉴定所述识别位点的图案；以及

e)检测所述第二标记物。

86.权利要求84的方法，其中所述导入第一标记物包括将所述大分子与具有甲基转移酶活性的分子接触。

87.权利要求84或86的方法，其中所述第二标记物是非序列特异性标记物。

88.权利要求84-87任一项的方法，其中所述大分子是双链DNA分子。

89.权利要求88的方法，其中所述第二标记物结合双链DNA断裂处。

90.权利要求84-89任一项的方法，其中所述第一标记物是荧光标记物。

91.权利要求84-90任一项的方法，其中所述第二标记物是荧光标记物。

92.权利要求84-91任一项的方法，其中所述大分子被保持悬浮在所述纳米通道内。

93.一种测定大分子同一性的方法，其包括如下步骤：

a)用第一标记物以序列特异性方式标记大分子而无需断裂所述大分子；

b)非特异性标记所述大分子；以及

c)获得指示所述大分子内被所述第一标记物标记的序列之间的空间关系的信息。

94.权利要求91的方法，其还包括获得多个所述第一标记物的信号强度信息。

95.权利要求91-94任一项的方法，其还包括对所述空间关系与第二大分子中预测或观察到的空间关系进行比较。

96.权利要求95的方法，其中所述第二大分子具有已知的序列。

97.权利要求95的方法，其中所述第二大分子是已知来源的大分子。

98.权利要求93-97任一项的方法，其中所述大分子是核酸片段。

99.权利要求98的方法，其中所述特异性序列以5-35次/100kb的重复频率出现在所述核酸片段中。

100.权利要求98的方法，其中所述特异性序列以5-25次/100kb的重复频率出现在所述核酸片段中。

101.权利要求98的方法，其中所述特异性序列以7-15次/100kb的重复频率出现在所述核酸片段中。

102.权利要求93-101任一项的方法，其中所述标记步骤具有最多30％的出错率。

103.权利要求93-101任一项的方法，其中所述标记步骤具有最多20％的出错率。

104.权利要求93-101任一项的方法，其中所述标记步骤具有最多15％的出错率。

105.权利要求93-104任一项的方法，其包括将所述大分子拉伸成拉长的构型。

106.权利要求105的方法，其中所述拉伸包括所述大分子的持久长度的至少70％的拉伸系数。

107.权利要求105的方法，其中所述拉伸包括所述大分子的持久长度的至少80％的拉伸系数。

108.权利要求106的方法，其中所述拉伸包括所述大分子的持久长度的不多于85％的拉伸系数。

109.权利要求105-108任一项的方法，其中所述拉伸包括少于20％的拉伸变异性。

110.权利要求98-109任一项的方法，其中所述核酸片段≥150kb。

111.权利要求98-109任一项的方法，其中所述核酸片段≥180kb。

112.权利要求93-111任一项的方法，其中所述标记包括断裂所述大分子的磷酸二酯键。

113.权利要求93-111任一项的方法，其中所述标记不包括断裂所述大分子的磷酸二酯键。

114.权利要求113的方法，其中所述标记将所述大分子与甲基转移酶接触。