CN117836429A

CN117836429A - 用于遗传分析的纳米通道中的多色全基因组作图和测序

Info

Publication number: CN117836429A
Application number: CN202280056185.0A
Authority: CN
Inventors: M·肖; L·乌普卢里
Original assignee: Drexel University
Current assignee: Drexel University
Priority date: 2021-06-18
Filing date: 2022-06-17
Publication date: 2024-04-05
Also published as: CA3223202A1; EP4355870A1; WO2022266464A1

Abstract

在一方面，本发明提供了纳米通道中的通用多色作图策略，所述策略将常规序列基序标记系统与任何20个碱基序列(20聚体)的Cas9介导的靶特异性标记相组合，以创建定制标记并检测新特征。所述序列基序用绿色荧光团标记，并且所述20聚体用红色荧光团标记。使用这种策略，不仅可以检测(结构变体)SV，而且还可以利用定制标记来查询基序标记无法获得的特征，定位断点并精确地估计基因组重复序列的拷贝数量。在另一方面，本发明提供了CRISPR‑Cas9实现的全基因组测序。

Description

用于遗传分析的纳米通道中的多色全基因组作图和测序

相关申请的交叉引用

本申请根据35U.S.C.§119(e)要求于2021年6月18日提交的美国临时专利申请第63/212,357号的优先权，所述美国临时专利申请的公开内容通过引用以其整体并入本文。

序列表

创建于2022年6月17日的名为“046528-7115WO1_Sequence Listing ST25”的包括3千字节的ASCII文本文件通过引用以其整体特此并入。

背景技术

结构变体(SV)的分析对于理解遗传紊乱和致病性病状下的突变是重要的。然而，使用短读段高通量测序技术来表征SV是困难的。虽然长读段测序技术越来越多地用于表征SV，但其低通量及其高成本阻碍了广泛采用。纳米通道中的基于序列基序的光学作图在全基因组作图和SV检测中是有用的，但其不可能精确定位断点或估计拷贝数量。因此，在本领域中存在开发更好的基因组作图方法的未满足的需求。在一方面，本发明解决了这种未满足的需求。

发明内容

在一方面，本发明是一种对全基因组进行作图的方法，其中所述方法包括：a)通过使具有主链的至少一种DNA与包括第一荧光团和标记酶的溶液接触来用所述第一荧光团标记所述至少一种DNA；b)通过使用所述第一荧光团标记的所述至少一种DNA与包括切口酶和至少一种单向导RNA(sgRNA)或至少一种crisprRNA(crRNA)的溶液接触来切刻用所述第一荧光团标记的所述至少一种DNA；c)通过使所述至少一种DNA与包括DNA聚合酶和包括用第二荧光团标记的至少一种核苷酸的核苷酸混合物的溶液接触来在所述至少一种DNA的经切刻的位点处掺入荧光核苷酸；d)用DNA主链染色剂对步骤c)的至少一种经切刻的经标记的DNA的所述主链进行染色；e)通过依次激发所述第一荧光团、所述第二荧光团和所述DNA主链染色剂来对步骤d)的所述至少一种DNA进行成像；以及f)分析成像数据以鉴定所述第一荧光团和所述第二荧光团的位置用于全基因组作图。

在某些实施方式中，所述至少一种DNA是基因组DNA(gDNA)。

在某些实施方式中，所述第一荧光团是绿色荧光团。

在某些实施方式中，所述第一荧光团标记所述至少一种gDNA的CTTAAG基序。

在某些实施方式中，所述第二荧光团是红色荧光团。

在某些实施方式中，第一荧光团在激发所述第二荧光团之前被激发。在某些实施方式中，所述第二荧光团在激发所述第一荧光团之前被激发。

在某些实施方式中，所述至少一种sgRNA或crRNA包括约20个核苷酸长的靶识别序列。

在某些实施方式中，所述切口酶是Cas9D10A。

在某些实施方式中，所述主链用YOYO-1染色剂染色。

在某些实施方式中，所述方法能用于包含检测断点、表征重复序列、研究诱变和量化拷贝数量的应用。

在另一方面，本发明提供了一种全基因组测序的方法，其中所述方法包括：a)在微图案化的表面上使至少一种DNA线性化；b)通过使所述至少一种DNA与包括至少一种CRISPR-Cas9切口酶/向导RNA(gRNA)复合物的第一溶液接触来切刻所述至少一种DNA；c)通过使步骤b)的所述至少一种DNA与包括DNA聚合酶和包括至少一种荧光标记的核苷酸的核苷酸混合物的第二溶液接触来在步骤b)的所述至少一种DNA的经切刻的位点处掺入荧光核苷酸；d)对步骤c)的所述至少一种DNA进行成像；以及e)用与先前步骤中使用的CRISPR-Cas9切口酶/gRNA复合物不同的CRISPR-Cas9切口酶/gRNA复合物重复步骤b)-d)，用于全基因组测序。

在某些实施方式中，所述第一溶液包括至多四种不同的CRISPR-Cas9切口酶/gRNA复合物。在某些实施方式中，针对不同的CRISPR-Cas9切口酶/gRNA复合物掺入不同颜色的荧光核苷酸。

在又另一方面，本发明包括一种全基因组测序的方法，其中所述方法包括：a)在微图案化的表面上使至少一种DNA线性化；b)通过使所述至少一种DNA与包括至少一种用荧光团标记的dCas9/gRNA复合物的溶液接触来标记所述至少一种DNA；以及c)对经标记的DNA进行成像和测序。

在某些实施方式中，存在于所述dCas9/gRNA复合物中的所述dCas9用荧光团标记。在某些实施方式中，存在于所述dCas9/gRNA复合物中的所述gRNA用荧光团标记。在某些实施方式中，不同颜色的荧光团用于标记包括不同gRNA的dCas9/gRNA复合物。

在又另一方面，本发明提供了一种全基因组测序的方法，其中所述方法包括：a)在微图案化的表面上使至少一种DNA线性化；b)通过使所述至少一种DNA与包括至少一种Cas9/gRNA复合物的第一溶液接触来生成沿所述至少一种DNA的测序起始位点(3'-OH端)；c)通过使来自步骤b)的所述至少一种DNA与包括DNA聚合酶和荧光团标记的可逆终止子的混合物的第二溶液接触来标记来自步骤b)的所述至少一种DNA；d)对经标记的DNA进行成像以读取来自所述荧光团的信号；e)将3'修饰逆转为-OH；f)重复步骤c)-e)并且再次重复步骤c)；以及)对所述至少一种DNA进行成像，用于全基因组测序。在某些实施方式中，所述至少一种DNA是兆碱基长的DNA。

在某些实施方式中，包括不同的核苷酸的每个可逆终止子用不同的荧光团标记。

附图说明

出于说明本发明的目的，在附图中描绘了本发明的某些实施方式。然而，本发明不限于在附图中描绘的实施方式的精确布置以及手段。

图1A示出了NA12878中染色体4q上DLE-Cas9标记的D4Z4阵列的从头组装的光学图。顶部可见4qA单倍型，并且底部可见4qB单倍型。顶部的宽条表示hg38参考。参考下方的宽条表示从头组装件的共有序列重叠群。单独的分子由布置在共有序列重叠群下的细线表示。单个分子上的垂直记号指示经标记的DLE位点，而亚端粒区中的垂直记号指示D4Z4靶特异性红色标记。这些图仅示出了与4qA和4qB比对的所有经标记的分子的一部分。

图1B示出了红色标记之间的距离相对于与它们的频率而绘制的图。在这里，X轴指示沿着分子的D4Z4阵列的长度出现的两个最近的红色标记之间的距离，并且Y轴指示所有作图的分子上记录的距离的频率。

图2A示出了NA12878中染色体14q(顶部小图)和20q(底部小图)上DLE-Cas9标记的端粒重复序列阵列的从头组装的光学图。顶部的宽条表示hg38参考。参考下方的宽条表示从头组装件的共有序列重叠群。单个分子由布置在共有序列重叠群下的黄色细线表示。单个分子(线)上的垂直记号指示经标记的DLE位点，而单个分子末端处的垂直记号指示端粒红色标记。图中仅示出了所有比对的单个分子(线)的一部分。图2B示出了在含有来自14q和20q臂的单个分子的端粒末端处测量的红色标记强度的绘图。每个实心圆表示单个分子的总红色标记强度。水平条表示测量的平均强度。

图3A-3B使用本申请的DLE-Cas9方法在Chr4单倍型中检测到的LINE-1插入。在图3A中，DLE和红色标记都是拉伸匹配的，示出了具有6kbp line 1插入的单倍型。图3B示出了在同一基因组区没有插入的第二单倍型。

图4A-4B与CRISPR-Cas9实现的全基因组测序相关。图4A示出了4色测序方案。图4B示出了微图案化的表面上的双色作图/测序。gRNA1 TGTAATCCCAGCACTTTGGG(SEQ ID NO:18)和gRNA2 CGAGACCAGCCTGGCCAACA(SEQ ID NO:19)组合在单个圆中。这些点指示在单个DNA分子(垂直线)上存在gRNA1TGTAATCCCAGCACTTTGGG(SEQ ID NO:18)和gRNA2CGAGACCAGCCTGGCCAACA(SEQ ID NO:19)。

图5A-5C与CRISPR-Cas9实现的全基因组测序相关。图5A示出了用于DNA线性化的含有微图案化的表面的微装置的示意图。图5B示出了基于Cas9/gRNA化学的逐个碱基测序策略。图5C示出了双色逐个碱基测序反应显示读取两个碱基。

图6A-6B与量化在靶-脱靶标记效率相关。图6A示出了单独的DNA分子(带点的线示出了通过DLE的绿色标记和通过Cas9-gRNA的红色标记)组装成共有序列重叠群(下部条)。将共有序列重叠群与参考图(上部条)比对。图6B是所有分子的红色标记的直方图；峰指示特定位置处的所有标记的共有序列红色标记位置。

图7示出了DLE-Cas9多色标记的示意图。

具体实施方式

本发明涉及通过将直接标记酶(DLE-1，Bionano Genomics公司(BionanoGenomics))与Cas9介导的切刻标记反应相组合用于进行多色全基因组作图的酶促标记策略。使用这种通用策略，可以靶向并荧光标记整个全基因组中的任何20聚体或多个20个碱基的组合，特别是在缺乏DLE基序的重复区中。可以生成自定义图以实现断点的精确检测并查询重复序列；这使得能够比先前可能的更深入地分析结构变化。

为了验证用于多色基因组作图的标记策略，进行了用于量化染色体4q中D4Z4重复序列的数量、检测长非散布元件1(LINE-1)插入和估计端粒长度的实验。D4Z4是与面肩胛肱型肌营养不良症(FSHD)相关的3.3kbp重复序列。重复序列出现在4q35和10q26基因座上，所述基因座缺乏由DLE酶和切口酶(Nt.BspQI)靶向的用于常规作图的某些基序。类似地，人类的端粒是至多20kbp的不同长度的染色体封端(TTAGGG)n重复序列。它们出现在也缺乏标记基序的基因组区。LINE-1插入是可转座元件，并且经常在整个基因组上插入。单独使用DLE的光学作图并不能将LINE-1与其它插入区分开。使用本文所示的DLE-Cas9方法，对特定序列进行荧光标记，以区分LINE-1插入与其它插入，对D4Z4重复序列的拷贝数量进行量化，并估计端粒长度。

定义

除非另有定义，否则本文所使用的全部技术术语和科学术语的含义与本发明所属领域的普通技术人员通常所理解的含义相同。尽管在本发明的实践或测试中可以使用类似于或等同于本文所描述的方法和材料的任何方法和材料，但描述了优选的方法和材料。

如本文所使用的，以下术语中的每个术语在此部分中具有与其相关联的含义。

冠词“一个/一种(a/an)”在本文中用于指代所述冠词的一个或多于一个(即，至少一个)语法宾语。举例来说，“要素”是指一个要素或多于一个要素。

当提及如量、持续时间等可测量的值时，如本文所使用的“约”意味着涵盖与指定值的±20％或±10％、更优选地±5％、甚至更优选地±1％以及仍更优选地±0.1％的变化，因为此类变化适合于执行所公开的方法。

“疾病”是动物的健康状态，其中动物不能维持体内平衡，并且其中如果疾病没有改善，则动物的健康继续恶化。与之相反，动物的“紊乱”是健康状态，其中动物能够维持内稳态但其中动物的健康状态不如不存在紊乱时的健康状态有利。如果不进行治疗，紊乱不一定会导致动物健康状态进一步下降。

如本文所使用的，“分离”是指通过人类直接或间接的行为从自然状态改变或移出。例如，天然存在于活体动物体内的核酸或肽不是“分离的”，但与其天然状态的共存材料部分或完全分开的相同核酸或肽是“分离的”。分离的核酸或蛋白质可以以基本上纯化形式存在，或者可以存在于非天然环境，例如宿主细胞中。

“核酸”是指任何核酸，无论是由脱氧核糖核苷或核糖核苷构成，以及无论是由磷酸二酯键或经修饰的键(如磷酸三酯、氨基磷酸酯、硅氧烷、碳酸酯、羧甲基酯、乙酰亚胺酯(acetamidate)、氨基甲酸酯、硫醚、桥接的氨基磷酸酯、桥接亚甲基膦酸酯、硫代磷酸酯、甲基膦酸酯、二硫代磷酸酯、桥接的硫代磷酸酯或砜键)以及此类键的组合构成。术语核酸还具体地包含由除五种生物上存在的碱基(腺嘌呤、鸟嘌呤、胸腺嘧啶、胞嘧啶和尿嘧啶)之外的碱基构成的核酸。

术语“多核苷酸”包含cDNA、RNA、DNA/RNA杂交体、反义RNA、siRNA、miRNA、snoRNA、基因组DNA、合成形式和混合聚合物——有义链和反义链两者，并且可以被化学或生化修饰以含有非天然的或衍生的、合成的或半合成的核苷酸碱基。此外，野生型或合成基因的改变也包含在本发明的范围内，所述改变包含但不限于一个或多个核苷酸的缺失、插入、取代或与其它多核苷酸序列的融合。

本文使用常规符号来描述多核苷酸序列：单链多核苷酸序列的左手端是5'-端；双链多核苷酸序列的左手方向称为5'-方向。

术语“寡核苷酸”或“寡聚物”通常是指短多核苷酸，通常不超过约60个核苷酸。应理解，当核苷酸序列由DNA序列(即，A、T、G、C)表示时，这也包含RNA序列(即，A、U、G、C)，其中“U”替换“T”。

如本文所使用的，术语“肽”、“多肽”或“蛋白质”可互换地使用，并且是指由通过肽键共价连接的氨基酸残基构成的化合物。蛋白质或肽必须含有至少两个氨基酸，并且对可以构成蛋白质的序列或肽的序列的氨基酸的最大数量没有限制。多肽包含包括通过肽键彼此连接的两个或更多个氨基酸的任何肽或蛋白质。如本文所使用的，所述术语是指短链(在本领域中通常也称为例如肽、寡肽和寡聚物)和较长链(在本领域中通常称为蛋白质，其有许多类型)。“多肽”包含例如生物活性片段、基本上同源的多肽、寡肽、同源二聚体、异二聚体、多肽的变体、经修饰的多肽、衍生物、类似物和融合蛋白等。多肽包含天然肽、重组肽、合成肽或其组合。非环状的肽将具有N末端和C末端。N末端将具有氨基，所述氨基可以是游离的(即，作为NH2基团)或适当保护的(例如，利用BOC或Fmoc基团)。C末端将具有羧基，所述羧基可以是游离的(即，作为COOH基团)或适当保护的(例如，作为苄基或甲基酯)。环状肽不具有游离的N末端或C末端，因为它们通过酰胺键共价键合形成环状结构。氨基酸可以用它们的全名(例如，亮氨酸)、3个字母的缩写(例如Leu)和1个字母的缩写(例如，L)来表示。氨基酸的结构及其缩写可以在化学文献中找到，如Stryer,《生物化学(Biochemistry)》,第3版,纽约的W.H.弗里曼公司(W.H.Freeman and Co.,New York),1988。tLeu表示叔亮氨酸。neo-Trp表示2-氨基-3-(lH-吲哚-4-基)-丙酸。DAB是2,4-二氨基丁酸。Orn是鸟氨酸。N-Me-Arg或N-甲基-Arg是5-胍基-2-(甲基氨基)戊酸。

如本文所使用的“样品”或“生物样品”是指来自受试者的生物材料，包含但不限于器官、组织、细胞、外泌体、血液、血浆、唾液、尿液和其它体液。样品可以是从受试者获得的任何材料来源。

术语“受试者”、“患者”、“个体”等在本文中可互换地使用，并且是指任何动物或其细胞，无论是体外还是原位，均可适用于本文所述的方法。在某些非限制性实施方式中，患者、受试者或个体是人。非人类哺乳动物包含例如牲畜和宠物，如绵羊、牛、猪、犬、猫和鼠类哺乳动物。优选地，受试者是人。术语“受试者”不表示特定年龄或性别。

根据本发明的术语“测量”涉及测定量或浓度，优选地半定量地或定量地。测量可以直接进行。

如本文所使用的，术语“量”是指混合物中成分的丰度或量。

术语“浓度”是指成分的丰度除以混合物的总体积。术语“浓度”可以应用于任何种类的化学混合物，但最常见的是指溶液中的溶质和溶剂。

如本文所使用的，术语“参考”或“阈值”可互换地使用，并且是指用作恒定和不变的比较标准的值。

如本文所使用的，“配对端测序”是一种基于高通量测序的测序方法，其中对DNA片段的两端进行测序。可以使用任何高通量DNA测序平台，如基于因美纳公司(Illumina)、牛津纳米孔公司(Oxford Nanopore)、太平洋生物科学公司(Pacific Biosciences)和罗氏公司(Roche)目前销售的平台的那些高通量DNA测序平台。牛津纳米孔公司的MinION测序仪可以生成短到超长(>2Mb)的读段。因美纳公司发布了一款硬件模块(PE模块)，所述模块可以作为升级安装在现有测序仪中，其允许对模板的两端进行测序，从而生成配对端读段。在根据本发明的方法中，也可以使用Solexa、Oxford Nanopore或PacBio单分子实时(SMRT)环化共有序列测序(CCS)技术进行配对端测序。配对端测序的实例描述于例如US20060292611和罗氏公司的出版物(454测序)中。

如本文所使用的，术语“测序”是指确定核酸样品(例如，DNA或RNA)中核苷酸(碱基序列)的顺序。许多技术可用，如桑格测序(Sanger sequencing)和高通量测序技术(也称为下一代测序技术)，如基于“边合成边测序(sequencing by synthesis)”原理的焦磷酸测序，其中通过检测通过DNA聚合酶掺入的核苷酸来进行测序。焦磷酸测序通常依赖于基于焦磷酸盐释放时的链式反应的光检测。

“限制性核酸内切酶”或“限制性酶”是指识别双链DNA分子中特异性核苷酸序列(靶位点)并在每个靶位点处或附近切割DNA分子的两条链，从而留下钝端或交错端的酶。

“IIs型”限制性核酸内切酶是指具有远离限制性位点的识别序列的核酸内切酶。换句话说，IIs型限制性核酸内切酶在识别序列的外侧向一侧切割。其实例是NmeAlll(GCCGAG(21/19))和FokI、AlwI、Mme I。该定义中还包含在识别序列外在两侧切割的IIs型酶。

“IIb型”限制性核酸内切酶在识别序列的两侧切割DNA。

“限制性片段”或“DNA片段”是指通过用限制性核酸内切酶消化DNA而产生的DNA分子，称为限制性片段。任何给定的基因组(或核酸，无论其来源)都可以被特定的限制性核酸内切酶消化成一组离散的限制性片段。由限制性核酸内切酶切割产生的DNA片段可以进一步用于各种技术，并且可以例如通过凝胶电泳或测序来检测。限制性片段可以是钝端的或具有突出端。可以使用被描述为抛光的技术来去除突出端。限制性片段的术语‘内部序列’通常用于指示限制性片段部分的起点位于样品基因组中，即不形成衔接子的部分。内部序列直接来源于样品基因组，因此其序列是所研究基因组的序列的部分。

如本文所使用的，“连接”是指由连接酶催化的酶促反应，其中两个双链DNA分子共价连接在一起。通常，两条DNA链共价连接在一起，但也可以通过对链的端之一进行化学或酶促修饰来防止两条链之一的连接。在这种情况下，共价连接将仅发生在两条DNA链之一中。

“衔接子(adapter)”或“衔接子(adaptor)”是具有有限数量的碱基对(例如，约10个至约30个碱基对的长度)的短双链DNA分子，其被设计成使得它们可以连接到DNA片段的两端，如通过本文所述的方法生成的连接的配对端DNA片段。衔接子通常由具有彼此部分互补的核苷酸序列的两个合成的寡核苷酸构成。当在适当的条件下将两种合成的寡核苷酸在溶液中混合时，它们将相互退火形成双链结构。退火后，衔接子分子的一端被设计成使得其与DNA片段的端相容，并且可以与其连接；衔接子的另一端可以被设计成使得其不能被连接，但这不是必须的(双连接衔接子)。衔接子可以含有其它功能特征，如标识符、用于限制性酶的识别序列、引物结合区段等。当含有其它功能特征时，衔接子的长度可能增加，但通过组合功能特征，这可以得到控制。

“衔接子连接的DNA片段”是指在一端或两端被衔接子封端的DNA片段。

如本文所使用的，“条形码”或“标签”是指可以添加或插入到衔接子或引物或包含在其序列中或以其它方式用作标记以提供独特条形码(也称为条形码或索引)的短序列。此类序列条形码(标签)可以是用于鉴定特定核酸样品的具有不同但限定长度(通常为4-16bp)的独特碱基序列。例如，4bp标签允许4⁴＝256个不同的标签。使用此类条形码，可以在进一步处理时确定PCR样品的起点，或者片段可以与克隆相关。同样可以使用这些基于序列的条形码来区分池中的克隆。因此，条形码可以是样品特异性的、池特异性的、克隆特异性的、扩增子特异性的等。在组合源自不同核酸样品的经处理产物的情况下，通常使用不同的条形码来鉴定不同的核酸样品。条形码优选地彼此相差至少两个碱基对，并且优选地不含有两个相同的连续碱基以防止误读。条形码功能有时可以与其它功能(如衔接子或引物)组合，并且可以位于任何方便的位置。条形码经常被用作用于标记DNA片段和/或文库以及用于构建多重文库的指纹。文库包含但不限于基因组DNA文库、cDNA文库和ChIP文库。其中每个都用不同的条形码分开地标记的文库可以汇集在一起以形成用于同时进行测序的多重条形码化的文库，其中每个条形码与其位于同一构建体中的侧翼标签一起测序，并且从而用作由其标记的DNA片段和/或文库的指纹。“条形码”定位在两个限制性酶(RE)识别序列之间。条形码可以是虚拟的，在这种情况下，两个RE识别位点本身成为条形码。优选地，条形码由长度为0个(即，虚拟序列)、1个、2个、3个、4个、5个、6个或更多个碱基对的特异性核苷酸序列制备。条形码的长度可以与测序仪的最大测序长度一起增加。

如本文所使用的，“引物”是指能够启动DNA的合成的DNA链。DNA聚合酶在没有引物的情况下无法从头合成DNA：它只能在互补链被用作模板来指导核苷酸被组装顺序的反应中延伸现有的DNA链。在聚合酶链式反应(PCR)中用作引物的合成的寡核苷酸分子被称为“引物”。

如本文所使用的，术语“DNA扩增”通常用于表示使用PCR的双链DNA分子的体外合成。应当注意，存在其它扩增方法，并且它们可以在不偏离要点的情况下用于本发明。

如本文所使用的，“比对”是指基于相同或类似核苷酸的短段或长段的存在对两个或更多个核苷酸序列进行比较。用于核苷酸序列的比对的若干方法在本领域是已知的，这将在下文进一步解释。

“比对”是指在表格表示中定位多个序列，以最大化在比对中获得不同序列的序列同一性的区域的可能性，例如通过引入空位。用于核苷酸序列的比对的若干方法在本领域是已知的，这将在下文进一步解释。

术语“重叠群(contig)”结合DNA序列分析使用，并且是指由两个或更多个具有连续核苷酸序列的DNA片段衍生的组装的连续DNA段。因此，重叠群是提供基因组的部分连续序列的一组重叠的DNA片段。“支架”被定义为一系列顺序正确但不以一个连续序列连接的重叠群，即含有空位。重叠群图还通过指定一组克隆之间的重叠关系来表示基因组的连续区域的结构。例如，术语“重叠群”涵盖一系列克隆载体，这些克隆载体的排序方式使每个序列与其相邻序列重叠。然后可以手动地或者优选地使用合适的计算机程序如FPC、PHRAP、CAP3等将连接的克隆分组成重叠群。

如本文所使用的，“dCas9”是Cas9核酸内切酶死亡，也称为死亡Cas9，并且是Cas9的突变型，其核酸内切酶活性通过其核酸内切酶结构域中的点突变而被去除。

如本文所使用的，“标记”或“荧光标记”是将荧光标签掺入到分子或系统中以使荧光标签(也称为标记或探针)可视化的过程。通过包含直接标记酶在内的酶和或通过DNA聚合酶来促进标记。标记酶的实例包含例如S-腺苷-l-甲硫氨酸(AdoMet或SAM)依赖性甲基转移酶、Taq聚合酶、Vent聚合酶、Klenow聚合酶等。荧光染料与如核酸或蛋白质等生物分子共价结合，使得它们可以通过荧光成像可视化。可以掺入感兴趣的DNA中的合适的荧光标记的核苷酸包含但不限于：Alexa555-aha-dCTP、Alexa/>555-aha-dUTP、Alexa647-aha-dCTP、Alexa/>647-aha-dUTP、/>Alexa/>488-5-dUTP、/>Alexa/>546-14-dUTP、/>Alexa />568-5-dUTP、Alexa/>594-5-dUTP、/>荧光素-12-dUTP、/>Texas/>-12-dUTP、荧光素-aha-dUTP、DY-776-dNTP、DY-751-dNTP、ATTO 740-dNTP、ATTO700-dNTP、ATTO 680-dNTP、ATTO 665-dNTP、ATTO 655-dNTP、OYSTER-656-dNTP、Cy5-dNTP、ATTO 647N-dNTP、ATTO 633-dNTP、ATTO Rho14-dNTP、ATTO 620-dNTP、DY-480XL-dNTP、ATTO594-dNTP、ATTO Rho13-dNTP、ATTO 590-dNTP、ATTO Rho101-dNTP、德克萨斯红-dNTP、ATTOThio12-dNTP、ATTO Rho12-dNTP、6-ROX-dNTP、ATTO Rho11-dNTP、ATTO 565-dNTP、ATTO550-dNTP、5/6-TAMRA-dNTP、Cy3-dNTP、ATTO Rho6G-dNTP、DY-485XL-dNTP、ATTO 532-dNTP、6-JOE-dNTP、ATTO 495-dNTP、BDP-FL-dNTP、ATTO 488-dNTP、6-FAM-dNTP、5-FAM-dNTP、ATTO465-dNTP、ATTO 425-dNTP、ATTO 390-dNTP和MANT-dNTP。合适的荧光标记的核苷酸还包含双脱氧核苷酸(ddNTP)。与dNTP一起使用的每个列出的标记都适合于与ddNTP(例如，ATTO488-ddNTP)一起使用，并且旨在指代dNTP或ddNTP。用于切刻标记的方法是本领域已知的并在本文中进行了描述。参见例如，Rigby,P.W.J.等人[1977]《分子生物学杂志(J.Mol.Biol.)》113:237，所述参考文献通过引用并入本文。

“片段化”是指用于将DNA片段化为更小片段的技术。片段化可以是酶促的、化学的或物理的。随机片段化是为片段提供独立于其序列的长度的技术。通常，剪切或雾化是提供随机DNA片段的技术。通常，随机片段化的强度或时间对片段的平均长度是决定性的。片段化后，可以进行尺寸选择，以选择片段的期望的尺寸范围。

“物理作图”描述了使用分子生物学技术(如杂交分析、PCR和测序)以直接检查DNA分子以构建显示序列特征的位置的图的技术。

“遗传作图”是基于使用遗传技术(如谱系分析)以构建显示基因组上序列特征的位置的图。

如本文所使用的，术语“基因组”涉及含有来自生物体的遗传材料的材料或材料混合物。如本文所使用的，术语“基因组DNA”是指从生物体中获得的脱氧核糖核酸或衍生自RNA基因组(如病毒基因组)的脱氧核糖核酸。术语“基因组”和“基因组DNA”涵盖可以经过扩增、纯化或片段化的遗传材料。

如本文所使用的，术语“参考基因组”是指可以与测试样品进行比较的包括基因组DNA的样品。在某些情况下，参考基因组含有已知序列信息的区域。

如本文所使用的，术语“双链”是指由含有互补序列的两条单链核酸的杂交形成的核酸。在大多数情况下，基因组DNA是双链的。

如本文所使用的，术语“单核苷酸多态性”或简称“SNP”是指基因组序列中的单核苷酸位置，其两个或更多个替代性等位基因在群体中以可观的频率(例如，至少1％)存在。

如本文所使用的，术语“染色体区域”或“染色体片段”表示生物体基因组中核苷酸的连续长度。染色体区域的长度范围可以在1000个核苷酸至整个染色体，例如，100kb至10MB。

如本文所使用的，术语“序列改变”或“序列变化”是指测试样品与参考样品之间的核酸序列的差异，其可以在1个至10个碱基、10个至100个碱基、100至100kb或100kb至10MB的范围内变化。序列改变可以包含相对于野生型的单核苷酸多态性和遗传突变。在某些实施方式中，序列改变是由于染色体的一个或多个部分在单个染色体内或在染色体之间相对于参考的重排而导致的。在某些情况下，序列改变可以反映染色体结构中的差异，例如异常，如相对于参考染色体的倒置、缺失、插入或易位。

范围：在整个本公开中，本发明的各个方面可以以范围格式呈现。应当理解，以范围格式进行描述仅仅是为了方便和简洁，并且不应被解释为对本发明的范围的刻板限制。因此，对范围的描述应被视为已经具体公开了所有可能的子范围以及所述范围内的单个数值。例如，对如1到6的范围的描述应被视为具有具体公开的子范围，如1至3、1至4、1至5、2至4、2至6、3至6等，以及所述范围内的单独数量，例如1、2、2.7、3、4、5、5.3和6。无论范围的宽度为多少，这都适用。

如本文所使用的，术语“核酸内切酶”是指切割多核苷酸链内磷酸二酯键的酶(例如，根据IUBMB酶命名法，具有被描述为EC 3.1.21、EC 3.1.22或EC 3.1.25的活性的酶)。

“位点特异性核酸内切酶”也称为“限制性核酸内切酶”或“限制性酶”，识别双链DNA中的特异性核苷酸序列。通常，核酸内切酶切割DNA双链体的两条DNA链。一些序列特异性核酸内切酶可以被工程化和/或修饰成仅包括仅切割DNA双链体中的一条链的单个活性核酸内切酶结构域，并且因此在本文中被称为“切刻核酸内切酶”或“切刻限制性核酸内切酶”。切刻核酸内切酶催化磷酸二酯键的水解，从而产生5'或3'磷酸单酯。切刻限制性核酸内切酶的实例(如可从新英格兰生物实验室(New England Biolabs)获得的那些)包含Nb.BbvCI、Nt.BbvCI、Nt.Bsml、Nt.BsmAI、Nt.BstNBI、Nb.BsrDI、Nb.BstI、Nt.BspQI、Nt.BpulOI和Nt.Bpul0I。磷酸二酯主链的切割位点或“切刻位点”可以位于位点特异性切刻核酸内切酶的识别序列内或识别序列外，如紧邻识别序列。

“RNA导向的核酸内切酶”包含在大约50％的细菌和90％的古菌中发现的CRISPR-Cas(成簇的规则间隔的短回文重复序列-(CRISPR)相关)适应性免疫系统的那些，例如，在Jiang和Doudna,《结构生物学新见(Curr Opin Struct Biol.)》(2015)2月；30:100-111和Wright等人,《细胞(Cell)》(2016)164(1-2):29-44中所描述的。RNA导向的核酸内切酶如Cas9包括两个核酸内切酶结构域。HNH结构域切割靶DNA链，而RuvC结构域切割由核酸内切酶结合的所谓“crRNA”链限定的非靶DNA链。根据本发明的某些方面，crRNA链通常包括在单向导RNA(sgRNA)中。

如本文所使用的，“切口酶”是指包括单个活性核酸内切酶结构域的酶，所述单个活性核酸内切酶结构域切割DNA双链体内的DNA单链。在一些实施方式中，切口酶可以是限制性核酸内切酶或RNA导向的核酸内切酶的突变体或变体型。例如，切口酶通常包括不切割DNA的无活性核酸内切酶结构域(如D10A Cas9切口酶、H840A Cas9切口酶)和切刻限制性核酸内切酶(如Nb.BbvCI、Nt.BbvCI、Nt.Bsml、Nt.BsmAI、Nt.BstNBI、Nb.BsrDI、Nb.BstI、Nt.BspQI、Nt.BpulOI和Nt.Bpul0I)。

如本文所使用的，“单向导RNA”或“sgRNA”是指单个嵌合RNA，其包括CRISPR RNA(crRNA)和称为tracrRNA(trRNA)的反式作用crRNA的功能。如Jinek等人,《科学(Science)》(2012)337:816-821中所述的，RNA导向的核酸内切酶的DNA切割位点位于由sgRNA内的20nt序列限定的靶向DNA序列内，并与DNA内的PAM序列相邻。

方法

CRISPR-Cas9实现的全基因组作图

CRISPR-Cas9实现的全基因组作图是纳米通道中的通用多色作图策略，所述策略将序列基序标记系统与任何20个碱基的序列(20聚体)的Cas9介导的靶特异性标记相组合，以创建定制标记并检测DNA中存在的新特征。不希望受到理论的限制，CRISPR-Cas9实现的全基因组作图通过以下来进行：用例如绿色荧光团标记序列基序；用例如红色荧光团标记DNA内存在的20聚体；用主链染色剂对DNA主链进行染色；对来自每个荧光团和主链染色剂的信号的位置进行成像和分析以对整个基因组进行作图。使用这种策略，不仅可以检测SV，而且还可以查询基序标记无法获得的特征，定位断点并精确地估计基因组重复序列的拷贝数量。

在一方面，本发明是一种对全基因组进行作图的方法，其中所述方法包括以下步骤：通过使至少一种DNA与包括第一荧光团和标记酶的溶液接触来用所述第一荧光团标记所述至少一种DNA；通过使用所述第一荧光团标记的所述至少一种DNA与包括切口酶和至少一种单向导RNA(sgRNA)或至少一种crisprRNA(crRNA)的溶液接触来切刻用所述第一荧光团标记的所述至少一种DNA；通过使所述至少一种DNA与包括DNA聚合酶和包括用第二荧光团标记的至少一种核苷酸的核苷酸混合物的溶液接触来在所述至少一种DNA的经切刻的位点处掺入荧光核苷酸；用DNA主链染色剂对至少一种经切刻的经标记的DNA的主链进行染色；通过依次激发所述第一荧光团、所述第二荧光团和所述DNA主链染色剂来对经染色的DNA进行成像；以及分析成像数据以鉴定所述第一荧光团和所述第二荧光团的位置用于基因组作图。

在某些实施方式中，所述至少一种DNA是基因组DNA(gDNA)。

在某些实施方式中，所述酶是直接标记酶(DLE-1，Bionano Genomics)。

在某些实施方式中，所述聚合酶是例如taq DNA聚合酶。

在某些实施方式中，所述第一荧光团是绿色荧光团。在某些实施方式中，所述第一荧光团是DL-绿色荧光团(Bionano Genomics)。在某些实施方式中，所述绿色荧光团标记所述至少一种DNA的CTTAAG基序。

在某些实施方式中，所述第二荧光团是红色荧光团。

在某些实施方式中，所述核苷酸混合物包括Atto647 dUTP、Atto647 dATP、dGTP、dCTP。

在某些实施方式中，所述主链染色剂是YOYO-1染色剂。

在某些实施方式中，将所述DNA装载在芯片上用于在纳米通道上进行成像。在某些实施方式中，所述第一荧光团在激发所述第二荧光团之前被激发。在某些实施方式中，所述第二荧光团在激发所述第一荧光团之前被激发。

在某些实施方式中，分别用637nm和532nm激光依次激发红色和绿色荧光团，并且然后用473nm激光激发YOYO-1染色的DNA主链。对成像数据进行进一步分析，用于全基因组作图。

在某些实施方式中，所述至少一种sgRNA或crRNA包括约20个核苷酸长的识别序列。在某些实施方式中，所述切口酶是包含例如D10A或H840A切口酶的Cas9切口酶。

在某些实施方式中，所述方法用于量化例如4q35和10q26染色体臂中以及端粒中的D4Z4拷贝数量变化。在某些实施方式中，所述方法允许对单倍型进行作图。例如，所述方法不仅可以区分D4Z4的4q35和10q26区域，还可以基于DLE签名分开4qA和4qB的两种单倍型。

在某些实施方式中，所述方法用于端粒标记和长度估计。

在某些实施方式中，所述方法允许用DLE-Cas9多色作图来检测长散布元件。

在某些实施方式中，所述方法允许使用多个gRNA以在单个测定中标记多个靶标。

在某些实施方式中，所述基因组是原核基因组。在某些实施方式中，所述基因组是真核基因组。

在某些实施方式中，所述基因组是哺乳动物基因组。在某些实施方式中，所述基因组是人基因组。

CRISPR-Cas9实现的全基因组测序

切刻标记

本发明进一步提供了CRISPR-Cas9实现的全基因组测序的各种方法。不希望受到理论的限制，所述方法通过以下来进行：在微流体装置中的微图案化的基底上组装DNA分子；引入一种或多种CRISPR-Cas9切口酶(Cas9 D10A或Cas9 H840A)/gRNA复合物以在20个碱基的识别位点处切刻DNA分子；在切刻位点处掺入荧光核苷酸；对经标记的DNA进行成像并分析成像结果。任选地重复切刻、标记、成像和分析的步骤，每次都用一组较新的CRISPR-Cas9/gRNA复合物。

因此，在一方面，本发明提供了一种全基因组测序的方法，其中在某些实施方式中，在微图案化的表面上使至少一种DNA分子线性化。在某些实施方式中，将薄凝胶膜铺设在至少一种DNA分子的顶部。在某些实施方式中，然后将微图案化的表面组装在微流体装置中。在某些实施方式中，在循环一中，引入一种或多种且例如四种不同的CRISPR-Cas9切口酶(Cas9 D10A或Cas9 H840A)/gRNA复合物，以在20个碱基的识别位点处切刻至少一种DNA分子。在某些实施方式中，聚合酶用于在切刻位点处掺入荧光核苷酸，并且最后对经标记的分子进行成像和分析。在某些实施方式中，在成像后，酶和gRNA被蛋白酶和RNA酶去除。在某些实施方式中，所述系统可以运行许多循环并读取全基因组。在某些实施方式中，所述gRNA被设计成使得可以针对gRNA中的每一种掺入不同颜色的荧光核苷酸。

未进行切刻的标记

在该方法中，使用dCas9代替Cas9来形成荧光团标记的gRNA/Cas9复合物。此类dCas9/gRNA复合物在未进行切刻或切割的情况下与DNA识别位点结合。在dCas9/gRNA复合物与识别位点结合后，进行成像和分析。标记依赖于荧光dCas9/gRNA复合物与特异性DNA基因座的结合。

因此，在另一方面，本发明提供了一种全基因组测序的方法，其中所述方法包括以下步骤：在微图案化的表面上使至少一种DNA线性化；通过使所述至少一种DNA与至少一种dCas9/gRNA复合物接触来标记所述至少一种DNA，其中所述dCas9或所述gRNA用荧光团标记；以及对经标记的DNA进行成像和分析。在某些实施方式中，所述tracrRNA与荧光团连接。在某些实施方式中，所述dCas9可以在未进行切刻或切割的情况下结合到识别位点。

在某些实施方式中，不同颜色的荧光团用于标记包括不同gRNA的dCas9/gRNA复合物。

使用荧光团标记的可逆终止子进行标记

在该方法中，Cas9/gRNA复合物用于创建沿在微图案化的表面上线性化的DNA分子的测序起始位点(3'-OH端)；引入荧光团标记的可逆终止子来读取单个碱基，一次掺入一个。在第一次掺入后，将3'修饰逆转为-OH，以恢复第二碱基添加。以这种方式，沿着单个DNA分子在多个起始位点处进行逐个碱基的测序。

因此，在又另一方面，本发明提供了一种全基因组测序的方法，其中所述方法包括：在微图案化的表面上使至少一种DNA线性化；通过使所述至少一种DNA与包括至少一种Cas9/gRNA复合物的溶液接触来生成沿所述至少一种DNA的测序起始位点(3'-OH端)；通过使所述至少一种DNA与包括DNA聚合酶和荧光团标记的可逆终止子的混合物的溶液接触来标记所述至少一种DNA；对所述至少一种DNA进行成像；将3'修饰逆转为-OH。重复将3'修饰逆转为-OH、标记和对所述至少一种DNA进行成像的步骤，用于测序全基因组。

在某些实施方式中，Cas9切口酶包含例如D10A或H840A切口酶。

在某些实施方式中，每种gRNA被设计成靶向整个基因组中数十万个20个碱基的识别序列。

在某些实施方式中，所述至少一种DNA是兆碱基长的DNA。在某些实施方式中，包括不同的核苷酸的每个可逆终止子用不同的荧光团标记。

使用以上详述的方法，可以在单个装置中同时对多个分子进行测序。

实施例

现在将参考以下实施例描述本发明。提供这些实施例仅是出于说明的目的，并且本发明绝不应被理解为限于这些实施例，而是应被解释为涵盖由于在本文中提供的教导而变得明显的任何和所有变化。

在不作进一步描述的情况下，据信本领域的普通技术人员可以使用前面的描述和以下说明性实施例来制造和利用本发明的化合物并实践所要求保护的方法。因此，以下工作实例具体指出了本发明的优选实施方式，并且不应被解释为以任何方式限制本公开的其余部分。

现在描述在本文公开的实验中采用的材料和方法。

材料和方法

DNA制备

根据制造商的规范(BioRad第170-3592号)使用商业试剂盒从嵌入在琼脂糖凝胶塞中的细胞中或通过基于纳米结合盘的固相萃取(Bionano Genomics)纯化高分子量gDNA。然后在Qubit上使用AccuGreen^TMBroad Range dsDNA定量试剂盒(Biotium)对DNA样品进行定量。使用浓度在36-150ng/uL范围内的DNA样品进行标记。

向导RNA序列

端粒、4qD4z4、10qD4z4探针作为crRNA从集成DNA技术公司(IntegratedDNATechnology，IDT)订购。在实验室中合成了LINE-1单向导RNA(sgRNA)混合物。它们被设计成靶向全长LINE-1参考中的起始于97、1425、3660和5841(分别对于sgRNA_1至sgRNA_4)的20个碱基(基因库L1.3；基因库：L19088)。对于LINE-1插入检测，进行了使用LINE-1和端粒向导RNA的实验。同样的实验也为在这里报告的本申请的端粒分析提供了数据。对于D4Z4的表征，进行了使用三种向导RNA(4q D4Z4、10q D4Z4和端粒)的实验。在这里，端粒向导RNA被包含作为第二标记步骤的对照，但没有被分析。在另一个实验中，将表1中列出的所有gRNA组合，其产生了类似的结果。

表1 NA12878的DLE-Cas9标记中使用的靶标。

向导RNA	20个碱基的识别序列
		LINE-1sgRNA_1	GGTACCGGGTTCATCTCACT(SEQ ID NO:1)
LINE-1sgRNA_2	CAAGTTGGAAAACACTCTGC(SEQ ID NO:2)
		LINE-1sgRNA_3	GCTTATCCACCATGATCAAG(SEQ ID NO:3)
LINE-1sgRNA_4	GAAGGGGAATATCACACTCT(SEQ ID NO:4)
		端粒	TTAGGGTTAGGGTTAGGGTT(SEQ ID NO:5)
4qD4Z4	TGGGAGAGCGCCCCGTCCGG(SEQ ID NO:6)
		10qD4Z4	GAGAGCGAAGGCACCGTGCC(SEQ ID NO:7)

单向导RNA合成

四个LINE-1特异性靶标(表1)与T7启动子(5′-TTCTAATACGACT CACTATAG-3′(SEQID NO:8))和重叠序列(5′-GTTTTAGAGCTAGA-3′(SEQ ID NO:9))一起编码在55个碱基的DNA寡聚物上，并从IDT订购。设计成与重叠序列杂交的80个碱基的互补寡聚物也从IDT订购(5′-AAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAAC-3′(SEQ ID NO:10))。首先制备4种寡聚物的10μM等摩尔池，并在1X NEBuffer2.0(新英格兰生物实验室，NEB)和2mM dNTP的存在下混合10μM互补寡聚物。将混合物在90℃下温育15秒，随后在43℃下温育5分钟，以促进杂交。随后通过向混合物中加入5U的Klenow exo(NEB)并在37℃下温育1小时来合成双链DNA。然后通过添加含10U核酸外切酶I(NEB)的1X核酸外切酶缓冲液并在37℃下温育1小时来降解任何残留的单链DNA。使用QIAquick核苷酸去除试剂盒(凯杰公司(Qiagen))纯化合成的dsDNA，并将其通过吸收光谱法进行定量，并且用于随后用于转录反应中的RNA合成。按照NEB HiScribe^TMT7高产率RNA合成试剂盒中的制造商说明并使用上述dsDNA合成了4种LINE-1靶标的sgRNA混合物。在转录和DNAseI(NEB)处理后，使用旋转柱(RNA Cleanup试剂盒T2030，NEB)纯化sgRNA，并在用于标记反应之前通过吸收光谱法对其进行定量。

DLE-Cas9标记

首先，根据制造商的建议，用DLS标记试剂盒(Bionano Genomics)标记约750ng的基因组DNA。在第二步骤中，用Cas9D10A切刻300ng DLE-1标记的DNA并且随后用Taq DNA聚合酶标记。表1中列出了用于Cas9介导的切刻反应的crRNA和/或sgRNA。

简言之，用Bionano Genomics的DLE试剂盒组分(直接标记酶、1X DLE反应缓冲液和DL-Green标记混合物)制备直接标记酶主混合物，并将其添加到DNA中。使反应充分混合，并在37℃下温育2小时。在该温育之后，通过在黑暗中在室温下进行至多2小时的膜透析来耗尽反应体积中过量的蛋白质、荧光实体和盐。选择100nm的亲水性膜(EMD密理博公司(EMDMillipore)，VCWP04700)进行高效扩散。此后，在进行第二步骤之前，再一次用Qubit对回收的DNA进行定量。

对于第二步骤，首先将0.5uL的50uM crRNA和0.5uL的0.5uM tracrRNA(IDT)混合并在冰上温育30分钟。当使用合成的向导RNA时，省略了这种温育。然后，将200ng Cas9D10A添加到25pmol RNA中，并在37℃下在1X NEB缓冲液3.1中温育15分钟。随后，向该混合物中添加300ng的DLE-1标记的DNA，并在37℃下进行1小时的切刻反应。然后，在67nM的核苷酸(Atto647 dUTP、At-to647 dATP、dGTP、dCTP)的存在下，用5U Taq DNA聚合酶在72℃下在1XThermopol缓冲液(NEB)中标记经切刻的DNA 1小时。将切刻标记的样品用蛋白酶-K(凯杰公司)在50℃下处理30分钟，并准备用于在纳米通道上装载，即，根据Bionano Prep标记NLRS方案-30024,Rev K(bioanogenomics.com)制备染色混合物(在Bionano Genomics DLS试剂盒中具有流动缓冲液、DTT和DNA染色剂)，将其添加到样品中，并在室温下温育过夜以促进染色。

在Bionano纳米通道上进行成像

将经标记的样品装载在Bionano Saphyr G1.2芯片上，并使用‘双重标记的样品’工作流程进行成像。分别用637nm和532nm激光依次激发红色和绿色标记，并且然后用473nm激光激发YOYO-1染色的DNA主链。对于每个实验，收集480Gb的数据。将原始分子图像转换为BNX文件并保存在Bionano Access上。首先基于绿色通道(DLE-1)参考对分子进行从头组装。随后基于基因组上的预期位置来鉴定红色标记，并进行进一步分析。

双色数据分析

提取了此组装件中Cmap文件中“LabelChannel”列中用“1”标识的红色标记位置。然而，由于从头组装是基于绿色通道图执行的，因此该信息未在Xmap文件中列出。在BNX文件以及Cmap文件中找到这些标记相对于同一分子上其它绿色标记的位置。从这两个文件中提取含有绿色和红色标记的预期图案的用于分析的筛选后的分子。使用来自BNX文件的没有拉伸匹配的原始分子来生成直方图。

多色Cas9-Cas9标记

首先用200ng Cas9切口酶(D10A或H840A)来切刻DNA(300ng)。然后用5U的DNA Taq聚合酶(NEB)、100nM ATTO532-dUTP dAGC和1X NEBuffer 3.1(NEB)在72℃下标记经切刻的DNA 60分钟。将样品用0.3U的SAP(USB产物)在37℃下处理10分钟，并且然后在65℃下处理5分钟。将gRNA(2.5μM)再次与200ng的Cas9 D10A、1X NEBuffer 3(NEB)和1X BSA(NEB)在37℃下温育15分钟。然后将绿色标记的样品添加到反应中，并在37℃下温育1小时。将Cas9D10A切刻用2.5U的Taq DNA聚合酶(NEB)、ATTO647n红色dATP和1X NEBuffer 3.1(NEB)在72℃下标记60分钟。将切刻用20kU的Taq DNA连接酶(NEB)、1mM NAD+(NEB)、100nM dNTP和1xNEBuffer 3.1(NEB)在37℃下修复30分钟。

gRNA选择(量化在靶-脱靶标记效率)

用许多gRNA对DLE-Cas9进行多色标记。如图6所示，每个实验由一个Cas9/gRNA和DLE标记组成。Cas9标记效率被定义为特定基因座处的总红色标记与所述基因座上的分子总数之比。100％标记意味着每个分子都在该特定的基因座处被标记。如果在特定基因座处的标记效率超过10％，则基因座被Cas9标记。经标记的基因座的百分比定义为经标记的基因座的数量与总可用基因座之比。下表2中总结了四种gRNA的结果。gRNA可以基于标记效率和经标记的基因座的百分比来选择。gRNA4是最好的，其具有最高的标记效率和在靶标记百分比。它也有最低的脱靶标记百分比。

表2：量化在靶-脱靶标记效率

实施例1：4q35中D4Z4拷贝数量的量化

4q35染色体臂上的D4Z4基因座由串联重复的3.3kbp单元构成，并且4qA中的D4Z4拷贝数量变化被认为负责FSHD表现。然而，在10q26中D4Z4重复序列具有高序列同源性(99.9％)，并且在Chr Y上具有9.5kbp区域。这使得在这些区域中检测D4Z4重复序列的拷贝数量变得复杂。光学作图依赖于300kb的长单分子，其比长读段测序方法的平均读取长度高10倍。

在本实验中使用了三种向导RNA(4q D4Z4、10q D4Z4和端粒)。使用DLE酶用绿色荧光团在重复基序(CTTAAG)处标记DNA。使用两种向导RNA——4qD4Z4和10qD4Z4靶向D4Z4重复序列阵列(表1)。端粒向导RNA作为第二标记步骤的内部对照。两个探针4qD4Z4和10qD4Z4(表1)用于用红色荧光团靶向4q染色体臂上的D4Z4重复序列，并且预期生成1.68kbp和3.3kbp的重复标记图案。基于4q D4Z4基因座的hg38参考，所设计的两个靶探针(‘4qD4Z4’和‘10qD4Z4’)生成重复单元，其间的理论距离约为1648bp。当使用一个探针，即‘4qD4Z4’时，将检测到3.3kbp的重复单元，并将产生一个重复单元的检测极限。当使用两个探针‘4qD4Z4’和‘10qD4Z4’时，检测到1.68kbp的重复单元，并且灵敏度将为半个重复单元。这将提高准确度。

跨越D4Z4区域的从头组装的重叠群在图1A中示出。DLE标记使作图不仅可区分D4Z4的4q35和10q26区域，而且还可基于DLE签名分开4qA和4qB的两种单倍型(图1A)(Bionano Solve Theory of Operation EnFocus FSHD Analysis Documentation,bi-onanogenomics.com)。来自10q和4q的分子已经基于DLE标记被分开。gRNA被专门设计成量化4q染色体上的D4Z4的拷贝数量。

D4Z4重复序列标记在图1A中示出为记号。与4qB单倍型相比，4qA单倍型在更远的距离上存在更多的红色标记。观察到相邻红色标记之间的各种距离。

图1B示出了从跨越整个D4Z4区域的所有分子获得的相邻红色标记之间的所有记录的距离的直方图。然后对每个峰进行高斯拟合，以找到～1.68kbp、3.36kbp、5.0kbp、6.6kbp、9.9kbp和13.2kbp处的峰位置。在～1.68kbp的距离处观察到峰，其比预期的完整D4Z4重复序列长度短，指示这是在靶标记与脱靶标记之间的距离。较长的距离，如6.6kb、9.9kb和13.2kb指示缺少预期的红色标记。盐土植物4qA的所有峰之间的平均距离(1.68kbp)被确定为D4Z4重复单元的平均长度。在4qB单倍型上获得了相同的1.68kb。因为由于10qD4Z4探针引起的脱靶标记，所以这恰好是3.36kb单元的一半。图1A中～190Mb处的红色标记可能是由于4q D4Z4向导RNA的端粒样序列或脱靶标记引起的。

据推断，D4Z4拷贝数量可以通过将D4Z4从第一个到最后一个检测到的红色标记的总长度除以1.68kb的重复单元来准确地估计。使用1.68kb作为重复单元可以提高准确度。为了计算D4Z4重复序列的总长度，需要确定‘TRUE’的第一个和最后一个红色标记，因为该阵列内的总标记效率不是100％，并且许多分子缺少了第一个或最后一个红色标记。从每个分子的第一个红色标记到左侧翼DLE位点(图1A中的箭头)的距离7.7kb±2kb是测量到的属于4qA单倍型的75％分子中的最短距离。4qA上相同百分比的分子显示最后一个红色标记与右侧翼DLE位点之间的距离为1kb±2kb。仅使用含有‘TRUE’第一个红色标记和‘TRUE’最后一个红色标记的分子来计算D4Z4重复序列的总长度。4qA中的37个分子和4qB中的44个分子用于本申请的D4Z4拷贝数量分析。

总之，据估计，4qA具有96个1.68单元拷贝和48±0.94个3.36kb单元拷贝的平均值。4qB估计具有38个1.68单元拷贝和19±0.29个3.36kb单元拷贝。这与先前研究中报告的数字一致。30-32在这里，示出了低于单个拷贝的准确度。

FSHD通常使用DNA印迹测试进行诊断，但它们仅提供半定量结果。在一小组样本(n＝87)中，在23％的病例中，DNA印迹测试产生了不确定的结果。因此，用于更高效诊断FSHD的替代性分子梳理、光学作图和基于长读段测序的方法越来越受欢迎。尽管自长读段测序开始以来，其读取长度已经显著提高，但到目前为止，全基因组测序是昂贵的，而长区域(如D4Z4重复序列)的靶向测序仍然不可行。光学作图可以解决长分子的一些问题，但由于阵列中缺乏基序，D4Z4重复序列是基于最近的DLE位点之间的距离估计的，这导致了不准确。为了更直接的定量，需要特异性酶Nb.BssSI，其用荧光团标记每个重复序列。DLE-Cas9是一种更普遍且更通用的方法，其可以用于标记任何靶标或同时标记多个靶标。估计的重复序列的数量与针对健康样品的早期报告(介于10-240个之间)相当。首次量化了该方法的标准偏差，即4qA的0.97个重复序列，这使得可以区分4qA(致病性单倍型)的少于一个D4Z4重复单元。这对于FSHD病例尤其重要，其中需要对少于8-10个重复序列准确地计数以区分表型。

实施例2：端粒标记和长度估计

端粒长度是公认的衰老和衰老相关疾病的临床生物标志物。若干已发表的研究将不受调控的端粒长度与恶性癌症(膀胱癌、食道癌、胃癌、头癌、乳腺癌、颈癌、卵巢癌、肾癌和子宫内膜癌)联系起来。先前证明的通过将常规的切口酶标记与Cas9标记相组合来估计单独的端粒长度的光学作图方法，由于如脆性位点(在相对链上彼此靠近出现的切刻位点)等限制，只能对亚端粒区域中(46个中的)36个进行作图。先前方法中的两个连续的切刻反应也是费力的，并且导致DNA损伤。为了充分解决上述挑战，本文描述了进行端粒长度测量测定的DLE-Cas9方法。

在此测定中，第一直接标记酶(DLE-1，Bionano Genomics)用于在所有DLE特异性基序处全局标记DNA。对于端粒特异性标记，进行Cas9切刻标记反应。通过从IDT订购的20个碱基的合成向导RNA(端粒，表1)将Cas9切口酶定向到端粒重复序列以创建切刻，并且然后用红色荧光染料标记端粒重复序列。使用Bionano Saphyr系统上的高通量纳米通道阵列对经标记的DNA分子进行成像。基于DLE标记进行从头组装，并将组装件与hg38参考比对。对端处带有红色端粒标记的单独分子进行鉴定，并将其用于量化端粒长度。

在图2A中，示出了14q和20q及其长单分子的从头组装的重叠群与hg38参考的比对。顶部的宽条表示hg38参考。参考下方的宽条表示从头组装件的共有序列重叠群。14q和20q的共有序列重叠群与hg38参考图匹配良好。单独的分子由布置在共有序列重叠群下的细线表示。单个分子(细线)上的垂直记号指示经标记的DLE位点，并且其它垂直记号指示靶特异性红色标记(如箭头所示)。这些红色标记明显位于分子端处，指示端粒重复序列被标记。在图2A的底部小图中，～64.27Mb处的标记是由于亚端粒区域中存在端粒样序列。作为原理的证明，然后分别从属于14q和20q臂的分子中量化端粒标记的总强度。图2B示出了在含有单个分子的端粒末端处测量的红色标记强度的绘图。每个实心圆表示单个分子的总红色标记强度。14q的平均强度为4.79±4.81，而20q的平均强度为3.0±2.6。强度的高标准偏差反映了样品中不同细胞的端粒长度的异质性。5'或3'端粒端的片段化可能会影响定量。但在所有端粒分子中，它们是罕见事件，并且比中间远离端粒的DNA片段化频率低得多。此外，与在癌症或衰老细胞系中观察到的端粒损失相反，在正常细胞系中没有观察到端粒损失(没有端粒)。为了将强度转化为绝对碱基对，需要使用含有已知端粒重复序列和已知系统光学特异性的标准。关于商业系统的系统信息的缺乏使得难以提供碱基对信息。

常见的端粒长度测定包含末端限制性片段(TRF)和qPCR。这两种方法都估计平均端粒长度。单端粒长度分析(STELA)和定量荧光原位杂交(Q-FISH)被开发以检测和测量特定端粒的长度。然而，STELA只能测量有限数量的染色体，并且Q-FISH在分析目前处于中期的细胞方面受到限制，且不能测量终末期衰老细胞或不再能够分裂的细胞中的端粒。

基于光学作图的端粒表征测定可以解决上述挑战，但由于脆性位点，仅成功测量了46个端粒长度中的36个。使用本文中描述的测定，可以标记和测量除5个近端着丝粒染色体外的所有染色体臂中的端粒强度(数据未示出)。hg38参考序列的缺乏使得尤其难以表征剩余的5个短近端着丝粒染色体臂(13p、14p、15p、21p、22p)的端粒。该方法证明了单个测定中靶标的多重能力。将表1中列出的所有gRNA组合以在单个测定中标记多个靶标，并其生成类似的结果(未包含数据)。在早期报告中，证明了在单管中合成和使用至多200个sgRNA。

实施例3.用DLE-Cas9多色作图检测长散布元件

LINE-1插入占人类基因组的～17％。这些插入与各种癌症、血友病、肌营养不良以及其它遗传性紊乱相关。个体被认为具有80-100个活性LINE-1插入，其负责大多数人类逆转录转座子的活性。这些活性LINE-1的长度为～6kbp，并且被认为在个体之间存在差异。

利用如DLE等序列基序的光学作图在检测插入方面是非常高效的。当绘制来自全基因组组装件的所有插入的大小分布时，总是观察到6kb处的峰，这可能主要归因于全长LINE-1插入。然而，光学作图不能将其它6kb插入与LINE-1插入区分开，因为作图不提供逐个碱基的信息。作为概念的证明，DLE-Cas9方法被用于标记和检测NA12878样品中的LINE-1插入。

设计并合成了单向导RNA(表1)以靶向LINE-1参考上97、1425、3660、5841位置处并以1328bp、2235bp和2181bp分开的4个不同的20个碱基的序列。这些位点用红色荧光核苷酸标记。基于DLE标记进行从头组装，并将组装件与hg38参考比对。使用本申请的DLE-Cas9作图检测到的典型LINE-1插入如图3所示。在这里，DLE和红色标记两者都已拉伸匹配并与参考比对。

在该区域中观察到两种单倍型，在具有红色标记的单倍型1(图3A)中检测到从146,303,137bp到146,312,443bp的6kb插入，并且在单倍型2(图3B)的相同位置处没有插入。单倍型中红色标记之间的平均距离测量为1.5kb、2.3kb和2.2kb，这与LINE-1参考中4个设计的向导RNA靶标之间的距离相匹配。依次1.5-2.3-2.2kb的顺序也指示插入的取向与参考相匹配。此外，插入内两个不匹配的DLE基序(重叠群上的黄色垂直线)的距离也与LINE-1参考相匹配。总之，该插入被指定为LINE-1插入。另一个单倍型显示为没有LINE-1插入(图3B)，但由于一些红色标记的存在，可能仍然具有一些LINE-1样序列。

图3A-3B还示出了在相邻位置(从146,347,677bp到146,357,405bp)中的一些红色标记，但没有任何检测到的插入。这些指示在LINE-1插入附近的该位置存在一些LINE-1序列。有趣的是，许多LINE-1插入发生在LINE-1序列附近的位置中。

然后扫描全基因组以寻找具有红色标记的以1.5kb±0.5kb、2.3kb±0.3kb和2.3kb±0.3kb分开的插入；在分析中仅使用具有三个红色标记的分子。发现了NA12878的55个LINE-1插入位点。将这些结果与Zhou等人(Zhou,W.等人；《核酸研究(Nucleic AcidsResearch)》2019,48(3),1146-1163)最近的研究进行了比较，所述研究使用PacBio测序数据鉴定了NA12878中的LINE-1插入。本文提出的方法能够鉴定这52个插入中的51个和Zhou等人未报告的4个另外的位置。在进一步的研究中，发现缺少的一个位置(chr2:131243591-131243683)不是真正的LINE-1插入，因为光学图没有显示该位置中的任何插入，也没有发现任何红色标记。四个另外的LINE-1插入都通过了流水线(pipeline)。下表3列出了LINE-1插入被发现的具有接合性和取向的所有位置。纳米通道中的DNA分子通常被拉伸到其理论最大长度的85％。然而，如纳米通道盐浓度的宽度、电压变化等因素会引起该拉伸因子的局部变化。然而，使用Bionano Genomics提供的拉伸匹配功能来归一化图3A-3B中的标记位置。图3A-3B中的红色标记的拉伸匹配不应影响LINE-1检测。由于使用了四个对LINE-1序列具有特异性的向导RNA，仅红色标记的存在连同通过DLE标记检测到的6kbp插入应当足以证实插入是LINE-1序列。总之，sgRNA、标记和流水线成功地检测到了Zhou等人发现的所有LINE-1插入，并且发现了4个新的先前未鉴定的位置。

活性LINE-1插入是与癌症、神经系统和遗传性紊乱相关的频繁的、非静态的结构变化。它们的移动性质和个体之间的可变性使得研究它们具有挑战性。长读段测序虽然被广泛用于表征LINE-1插入，但产生低通量和高成本可能会阻碍其在检测特定LINE插入中的应用。基于序列基序的光学作图(如DLE和切口酶)未提供用于鉴定LINE-1插入的序列级信息。本文证明了DLE-Cas9方法在检测和表征全长LINE-1插入及其接合性和取向方面的适用性。这种方法可以通过提供单倍型解析的和结构上准确的LINE-1共有序列图进行基因组分析，从而有利于临床研究。

表3：通过DLE-Cas9多色标记方法在NA12878中检测到的LINE-1插入通过本文提出的方法和Zhou的方法检测到的LINE-1插入。

/>

通过本文提出的方法独特检测到的LINE-1插入

索引	Chr	开始	结束	取向	接合性
						51	2	143547387	143548599	-	杂合
52	10	36467218	36479270	+	杂合
						53	12	33854180	33867084	-	纯合
54	18	12476887	12495587	+	杂合

通过本文提供的方法检测到假阴性。

索引	Chr	开始	结束	取向	接合性
						55	3	81941743	81941918

通过本文提供的方法，视为非LINE-1插入。

索引	Chr	开始	结束	取向	接合性
						56	2	131243591	131243683

表3的图例：

列‘Chr’、‘开始’和‘结束’列出了这些插入发生的染色体和位置。

列‘取向’鉴定了LINE-1插入是反向的(-)还是非反向的(+)。

列‘接合性’是指在给定位置中是仅在一个重叠群/单倍型(杂合)中还是在两个重叠群/单倍型(纯合)中均发现LINE-1插入。

实施例4：结论

长读段测序技术自诞生以来一直在取得巨大进展。然而，较低通量、高成本、高错误率以及仍然相对短的平均读取长度仍然限制了它们的应用。例如，在估计D4Z4重复序列拷贝数量时，读取长度必须达到300kb以上(包含上游和下游序列)，以分开不同的单倍型。光学作图可以读取平均长度为300kb的单个分子。光学作图还提供了成本优势，相比利用长读段技术的全基因组测序的10-20,000美元，可以用约500美元获得200x的覆盖率。D4Z4的靶向测序仍然具有挑战性，因为没有商业上可获得的可以捕获D4Z4的富集试剂盒。

本文首次证明了将DLE序列特异性标记和Cas9介导的靶特异性标记相组合以靶向基因组中任何序列的技术可行性。这是一种普遍且通用的方法，其可以用于多个靶标的同时分析。在早期报告中，证明了在单管反应中合成和使用至多200个sgRNA；定制合成sgRNA显著降低了测定成本。本文描述的方法可以在单管反应中结合crRNA或sgRNA检测LINE-1插入，估计D4Z4重复序列的拷贝数量和端粒长度。更重要的是，整个测定建立在商业仪器和测定试剂盒的基础上。

实施例5.CRISPR-Cas9实现的全基因组测序

方法1

在微图案化的表面上使长DNA分子线性化，并在DNA分子的顶部铺设薄凝胶膜。然后将微图案化的表面组装在微流体装置中。在循环一中，引入一种或多种、至多4种CRISPR-Cas9切口酶(Cas9 D10A或Cas9 H840A)/gRNA复合物，以在20个碱基的识别位点处切刻DNA分子。然后聚合酶将被用于在切刻位点处掺入荧光核苷酸。经标记的分子将被成像和分析。每种gRNA被设计成靶向整个基因组中数十万个20个碱基的识别序列。例如，gRNA(CCCAGCACTTTGGGAGGCCG(SEQ ID NO:15))将具有含有CCCAGCACTTTGGGAGGCCG(SEQ ID NO:16)的相同序列的500,000个位点，而不同的gRNA(TTTCACCGTGTTAGCCAGGA(SEQ ID NO:17))靶向超过100,00个基因座。在成像后，酶和gRNA将被蛋白酶和RNA酶去除。将再次引入一种或多种、至多4种不同的CRISPR-Cas9切口酶/gRNA复合物以开始循环二。所述系统将能够运行许多循环并读取全基因组。图4A-4B示出了在单个循环中组合4种不同gRNA的4色测序方案。所述gRNA被设计成使得可以针对4种gRNA中的每一种掺入不同颜色的荧光核苷酸。

方法2

此实施例中的程序类似于实施例4中的方案，不同之处在于用可以在没有切刻或切割的情况下结合到识别位点的dCas9替代Cas9切口酶。在dCas9/gRNA复合物中，用不同颜色的荧光团标记dcas9或用不同颜色的荧光团标记gRNA。

方法3

在此实施例中，将Cas9(D10A或H840A)/gRNA复合物用于创建沿着单个兆碱基长的DNA分子的测序起始位点(3'-OH端)。为了创建这些位点，将Cas9/gRNA复合物流入微流体装置中，其中在微图案化的表面上使兆碱基长的DNA分子线性化。接下来，在洗涤后，引入聚合酶和荧光团标记的可逆终止子来读取单个碱基，一次掺入一个。在第一次掺入后，进行成像，并且然后将3'修饰逆转为-OH，以恢复第二碱基添加。以这种方式，在沿着单个DNA分子的多个起始位点处进行逐个碱基测序。在单个装置中，将有数百万个此类分子同时被测序。

列举的实施方式

提供以下示例性实施方式，其编号不应被理解为指定重要性级别：

实施方式1提供了一种对全基因组进行作图的方法，其中所述方法包括：

a)通过使具有主链的至少一种DNA与包括第一荧光团和标记酶的溶液接触来用所述第一荧光团标记所述至少一种DNA；

b)通过使用所述第一荧光团标记的所述至少一种DNA与包括切口酶和至少一种单向导RNA(sgRNA)或至少一种crisprRNA(crRNA)的溶液接触来切刻用所述第一荧光团标记的所述至少一种DNA；

c)通过使所述至少一种DNA与包括DNA聚合酶和包括用第二荧光团标记的至少一种核苷酸的核苷酸混合物的溶液接触来在所述至少一种DNA的经切刻的位点处掺入荧光核苷酸；

d)用DNA主链染色剂对步骤c)的至少一种经切刻的经标记的DNA的所述主链进行染色；

e)通过依次激发所述第一荧光团、所述第二荧光团和所述DNA主链染色剂来对步骤d)的所述至少一种DNA进行成像；以及

f)分析成像数据以鉴定所述第一荧光团和所述第二荧光团的位置用于全基因组作图。

实施方式2提供了根据实施方式1所述的方法，其中所述至少一种DNA是基因组DNA(gDNA)。

实施方式3提供了根据实施方式1至2中任一项所述的方法，其中所述第一荧光团是绿色荧光团。

实施方式4提供了根据实施方式1至3中任一项所述的方法，其中所述第一荧光团标记所述至少一种gDNA的CTTAAG基序。

实施方式5提供了根据实施方式1至4中任一项所述的方法，其中所述第二荧光团是红色荧光团。

实施方式6提供了根据实施方式1至5中任一项所述的方法，其中所述第一荧光团在激发所述第二荧光团之前被激发。

实施方式7提供了根据实施方式1至5中任一项所述的方法，其中所述第二荧光团在激发所述第一荧光团之前被激发。

实施方式8提供了根据实施方式1至7中任一项所述的方法，其中所述至少一种sgRNA或crRNA包括约20个核苷酸长的靶识别序列。

实施方式9提供了根据实施方式1至8中任一项所述的方法，其中所述切口酶是Cas9D10A。

实施方式10提供了根据实施方式1至9中任一项所述的方法，其中所述主链用YOYO-1染色剂染色。

实施方式11提供了根据实施方式1至10中任一项所述的方法，其中所述方法能用于包含检测断点、表征重复序列、研究诱变和量化拷贝数量的应用。

实施方式12提供了一种全基因组测序的方法，所述方法包括：

a)在微图案化的表面上使至少一种DNA线性化；

b)通过使所述至少一种DNA与包括至少一种CRISPR-Cas9切口酶/向导RNA(gRNA)复合物的第一溶液接触来切刻所述至少一种DNA；

c)通过使步骤b)的所述至少一种DNA与包括DNA聚合酶和包括至少一种荧光标记的核苷酸的核苷酸混合物的第二溶液接触来在步骤b)的所述至少一种DNA的经切刻的位点处掺入荧光核苷酸；

d)对步骤c)的所述至少一种DNA进行成像；以及

e)用与先前步骤中使用的CRISPR-Cas9切口酶/gRNA复合物不同的CRISPR-Cas9切口酶/gRNA复合物重复步骤b)-d)，用于全基因组测序。

实施方式13提供了根据实施方式12所述的方法，其中所述第一溶液包括至多四种不同的CRISPR-Cas9切口酶/gRNA复合物。

实施方式14提供了根据实施方式12至13中任一项所述的方法，其中针对不同的CRISPR-Cas9切口酶/gRNA复合物掺入不同颜色的荧光核苷酸。

实施方式15提供了一种全基因组测序的方法，其中所述方法包括：

a)在微图案化的表面上使至少一种DNA线性化；

b)通过使所述至少一种DNA与包括至少一种用荧光团标记的dCas9/gRNA复合物的溶液接触来标记所述至少一种DNA；以及

c)对经标记的DNA进行成像和测序。

实施方式16提供了根据实施方式15所述的方法，其中存在于所述dCas9/gRNA复合物中的所述dCas9用荧光团标记。

实施方式17提供了根据实施方式15所述的方法，其中存在于所述dCas9切口酶/gRNA复合物中的所述gRNA用荧光团标记。

实施方式18提供了根据实施方式15至17中任一项所述的方法，其中不同颜色的荧光团用于标记包括不同gRNA的dCas9/gRNA复合物。

实施方式19提供了一种全基因组测序的方法，其中所述方法包括：

a)在微图案化的表面上使至少一种DNA线性化；

b)通过使所述至少一种DNA与包括至少一种Cas9/gRNA复合物的第一溶液接触来生成沿所述至少一种DNA的测序起始位点(3'-OH端)；

c)通过使来自步骤b)的所述至少一种DNA与包括DNA聚合酶和荧光团标记的可逆终止子的混合物的第二溶液接触来标记来自步骤b)的所述至少一种DNA；

d)对经标记的DNA进行成像以读取来自所述荧光团的信号；

e)将3'修饰逆转为-OH；

f)重复步骤c)-e)并且再次重复步骤c)；以及

g)对所述至少一种DNA进行成像，用于全基因组测序。

实施方式20提供了根据实施方式19所述的方法，其中所述至少一种DNA是兆碱基长的DNA。

实施方式21提供了根据实施方式19至20中任一项所述的方法，其中包括不同的核苷酸的每个可逆终止子用不同的荧光团标记。

其它实施方式

在本文中的变量的任何定义中对要素的列举的详述包含作为任何单个要素或所列要素的组合(或子组合)的变量的定义。针对本文的实施方式的详述包含作为任何单个实施方式或与任何其它实施方式或其部分的组合的实施方式。

本文所引用的每个和所有专利、专利申请和出版物的公开内容均通过全文引用的方式并入本文中。尽管已经参照特定实施方式公开了本发明，但是显而易见的是，在不偏离本发明的真实精神和范围的情况下，本领域的其它技术人员可以设计出本发明的其它实施方式和变体。所附权利要求旨在被理解为包含所有此类实施方式和等同变化。

序列表

<110> 德雷克塞尔大学

M·肖

L·乌普卢里

<120> 用于遗传分析的纳米通道中的多色全基因组作图和测序

<130> 046528 -7115WO1(00976)

<150> 63/212,357

<151> 2021-06-18

<160> 21

<170> PatentIn version 3.5

<210> 1

<211> 20

<212> DNA

<213> 智人

<400> 1

ggtaccgggt tcatctcact 20

<210> 2

<211> 20

<212> DNA

<213> 智人

<400> 2

caagttggaa aacactctgc 20

<210> 3

<211> 20

<212> DNA

<213> 智人

<400> 3

gcttatccac catgatcaag 20

<210> 4

<211> 20

<212> DNA

<213> 智人

<400> 4

gaaggggaat atcacactct 20

<210> 5

<211> 20

<212> DNA

<213> 智人

<400> 5

ttagggttag ggttagggtt 20

<210> 6

<211> 20

<212> DNA

<213> 智人

<400> 6

tgggagagcg ccccgtccgg 20

<210> 7

<211> 20

<212> DNA

<213> 智人

<400> 7

gagagcgaag gcaccgtgcc 20

<210> 8

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> T7启动子

<400> 8

ttctaatacg actcactata g 21

<210> 9

<211> 14

<212> DNA

<213> 人工序列

<220>

<223> 重叠序列

<400> 9

gttttagagc taga 14

<210> 10

<211> 80

<212> DNA

<213> 人工序列

<220>

<223> 寡聚物

<400> 10

aaaagcaccg actcggtgcc actttttcaa gttgataacg gactagcctt attttaactt 60

gctatttcta gctctaaaac 80

<210> 11

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 寡聚物

<400> 11

cgcctgtaat cccagcactt 20

<210> 12

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 寡聚物

<400> 12

gcactttggg aggccaaggc 20

<210> 13

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 寡聚物

<400> 13

tttcaccgtg ttagccagga 20

<210> 14

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 寡聚物

<400> 14

gcctcagcct cccgagtagc 20

<210> 15

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 寡聚物

<400> 15

cccagcactt tgggaggccg 20

<210> 16

<211> 20

<212> DNA

<213> 智人

<400> 16

cccagcactt tgggaggccg 20

<210> 17

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 寡聚物

<400> 17

tttcaccgtg ttagccagga 20

<210> 18

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 寡聚物

<400> 18

tgtaatccca gcactttggg 20

<210> 19

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 寡聚物

<400> 19

cgagaccagc ctggccaaca 20

<210> 20

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 寡聚物

<400> 20

aaattagcca ggcgtggtgg 20

<210> 21

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 寡聚物

<400> 21

caggcgtgag ccaccgcctc 20

Claims

1.一种对全基因组进行作图的方法，其中所述方法包括：

2.根据权利要求1所述的方法，其中所述至少一种DNA是基因组DNA(gDNA)。

3.根据权利要求1所述的方法，其中所述第一荧光团是绿色荧光团。

4.根据权利要求2所述的方法，其中所述第一荧光团标记所述至少一种gDNA的CTTAAG基序。

5.根据权利要求1所述的方法，其中所述第二荧光团是红色荧光团。

6.根据权利要求1所述的方法，其中所述第一荧光团在激发所述第二荧光团之前被激发。

7.根据权利要求1所述的方法，其中所述第二荧光团在激发所述第一荧光团之前被激发。

8.根据权利要求1所述的方法，其中所述至少一种sgRNA或crRNA包括约20个核苷酸长的靶识别序列。

9.根据权利要求1所述的方法，其中所述切口酶是Cas9D10A。

10.根据权利要求1所述的方法，其中所述主链用YOYO-1染色剂染色。

11.根据权利要求1所述的方法，其中所述方法能用于包含检测断点、表征重复序列、研究诱变和量化拷贝数量的应用。

12.一种全基因组测序的方法，所述方法包括：

a)在微图案化的表面上使至少一种DNA线性化；

d)对步骤c)的所述至少一种DNA进行成像；以及

13.根据权利要求12所述的方法，其中所述第一溶液包括至多四种不同的CRISPR-Cas9切口酶/gRNA复合物。

14.根据权利要求12所述的方法，其中针对每种不同的CRISPR-Cas9切口酶/gRNA复合物掺入不同颜色的荧光核苷酸。

15.一种全基因组测序的方法，其中所述方法包括：

a)在微图案化的表面上使至少一种DNA线性化；

c)对经标记的DNA进行成像和测序。

16.根据权利要求15所述的方法，其中存在于所述dCas9/gRNA复合物中的所述dCas9用荧光团标记。

17.根据权利要求15所述的方法，其中存在于所述dCas9切口酶/gRNA复合物中的所述gRNA用荧光团标记。

18.根据权利要求15所述的方法，其中不同颜色的荧光团用于标记包括不同gRNA的dCas9/gRNA复合物。

19.一种全基因组测序的方法，其中所述方法包括：

a)在微图案化的表面上使至少一种DNA线性化；

c)通过使来自步骤b)的所述至少一种DNA与包括DNA聚合酶和荧光团标记的可逆终

止子的混合物的第二溶液接触来标记来自步骤b)的所述至少一种DNA；

d)对经标记的DNA进行成像以读取来自所述荧光团的信号；

e)将3'修饰逆转为-OH；

f)重复步骤c)-e)并且再次重复步骤c)；以及

g)对所述至少一种DNA进行成像，用于全基因组测序。

20.根据权利要求19所述的方法，其中所述至少一种DNA是兆碱基长的DNA。

21.根据权利要求19所述的方法，其中包括不同的核苷酸的每个可逆终止子用不同的荧光团标记。