CN112105744A

CN112105744A - 方法

Info

Publication number: CN112105744A
Application number: CN201980029513.6A
Authority: CN
Inventors: 詹姆斯·爱德华·格拉哈姆; 艾蒂安·雷蒙多; 瑞贝卡·维多利亚·鲍恩
Original assignee: Oxford Nanopore Technologies PLC
Current assignee: Oxford Nanopore Technologies PLC
Priority date: 2018-05-24
Filing date: 2019-05-24
Publication date: 2020-12-18
Also published as: WO2019224560A1; EP3802862A1; AU2019274949A1; CA3096856A1; GB201808554D0; JP2021523704A; JP7365363B2; US20210198732A1

Abstract

一种用于选择性修饰多核苷酸样品中靶多核苷酸的方法，所述方法包括使多核苷酸样品与结合至所述靶多核苷酸中的序列的引导多核苷酸以及多核苷酸引导的效应蛋白接触，使得所述多核苷酸引导的效应蛋白切割所述靶多核苷酸以产生包括突出端的切割端；以及将衔接子附接至所述靶多核苷酸中的切割端。

Description

方法

技术领域

本发明涉及在多核苷酸样品中选择性适应靶多核苷酸的方法。本发明还涉及表征修饰的多核苷酸的方法。

背景技术

当前需要跨广泛应用领域的快速且廉价的多核苷酸(例如DNA或RNA)测序和鉴定技术。现有技术慢且昂贵，主要是因为它们依靠扩增技术来产生大量的多核苷酸，并且需要大量用于信号检测的专业荧光化学物质。

跨膜孔(纳米孔)具有巨大的潜力，可以直接用作聚合物和各种小分子的电子生物传感器。尤其，近来的关注已经将纳米孔作为潜在的DNA测序技术。

当跨纳米孔施加电位时，当诸如核苷酸的分析物在桶(barrel)中短暂停留一定时间时，电流会发生变化。核苷酸的纳米孔检测给出了已知特征和持续时间的电流变化。在链测序方法中，使单个多核苷酸链通过孔，并且得出核苷酸的同一性。链测序可以涉及使用分子制动器来控制多核苷酸通过孔的移动。

有许多商业情况，包括多核苷酸测序和鉴定技术，其需要制备核酸文库。这通常使用转座酶实现。根据用于制备文库的转座酶，在将文库用于例如测序之前，可能有必要在体外修复转座事件。

发明内容

发明人设计了在多核苷酸样品中选择性适应靶多核苷酸的方法。在所述方法中，所述多核苷酸的末端被保护，以防止衔接子(adapter)非特异性地添加到所述样品中多核苷酸的末端。所述方法利用引导多核苷酸和多核苷酸引导的效应蛋白在靶多肽内切割，并且向至少一个切割端添加一个或更多个衔接子。然后可以诸如通过链测序来表征所述靶多核苷酸，而无需将所述靶多核苷酸与所述样品中的其他多核苷酸物理分离。例如，在纳米孔测序方法中，由于在其末端适应的多核苷酸产生的背景信号非常低，因此有效增强了从所述靶多核苷酸获得的信号。

可以简单地通过化学改变所述多核苷酸的末端来保护所述样品中多核苷酸的末端。例如，多核苷酸的5'末端通常被磷酸化。当所述多核苷酸的末端被脱磷酸化并且使用多核苷酸引导的效应蛋白切割所述靶多核苷酸时，可以将衔接子附接(例如连接)到切割端而不是脱磷酸化端。这使得衔接子能够选择性地共价附接于所述靶多核苷酸的切割端。通过将脱磷酸酶添加至所述多核苷酸样品中，可以简单并且轻松地实现末端的脱磷酸化。在进一步处理所述样品之前，不需要从所述样品中去除所述脱磷酸酶。在添加切割酶之前，可以简单地将所述脱磷酸酶进行加热灭活。

化学改变所述多核苷酸末端的方法的另一个实例是使用末端转移酶延伸所述多核苷酸的3'末端以添加包括至少一个核苷酸的3'尾部。这样可以防止与带有3'突出端的衔接子连接。。这使得衔接子能够共价附接于所述靶多核苷酸的切割端。因此，不需要复杂的步骤来保护所述样品中多核苷酸的末端，并且不向所述样品中未被所述多核苷酸引导的效应蛋白切割的多核苷酸添加衔接子。向所述靶多核苷酸选择性添加衔接子可以检测和/或表征所述靶多肽，而无需将所述靶多核苷酸与所述样品中的其他多核苷酸物理分离，并且与末端不受保护的方法相比，任何检测/表征方法中的背景信号都减少。向所述靶多核苷酸选择性添加的衔接子也可用于将所述靶多核苷酸与样品中的其他多核苷酸物理分离。例如，所述衔接子可以用作分离所述靶多核苷酸的标签，诸如通过使用所述衔接子将生物素附接于所述靶多核苷酸，允许所述靶多核苷酸附接到珠上。

所述方法具有的优点是需要最少的样品制备。所述方法的步骤可以在所述方法步骤之间不需要清理步骤的情况下进行，并且在一些实施方式中，所述方法可以在单个罐中进行。可以直接分析所述样品以表征所述靶多核苷酸，而无需与非靶多核苷酸分离。在测序的背景下，所述方法能够使得获得长读段。在表征的背景下，所述方法使得能够筛选长的多核苷酸以进行修饰，例如检测甲基化或以其他方式修饰的碱基，以识别多核苷酸中的结构变化，诸如检测转座事件、检测多态性或监测扩展重复。所述靶多核苷酸中的切割位点也可以设计成实现作为多个片段的长多核苷酸的覆盖。

因此，提供以下内容：

——在多核苷酸样品中选择性适应靶多核苷酸的方法，包括：保护所述样品中所述多核苷酸的末端；使所述多核苷酸与结合至所述靶多核苷酸中的序列的引导多核苷酸和多核苷酸引导的效应蛋白接触，使得所述多核苷酸引导的效应蛋白切割所述靶多核苷酸，以在由所述引导多核苷酸结合的序列确定的位点处产生两个相对的切割端；并且将衔接子附接至所述靶多核苷酸中两个相对切割端的一个或两个，其中，所述衔接子附接于所述靶多核苷酸的切割端的一个或两个，但不附接至所述样品中的所述多核苷酸的受保护端；

——检测和/或表征靶多核苷酸的方法，包括：将通过上述方法获得的样品与纳米孔接触；跨所述纳米孔施加电位差；并且监测由所述靶多核苷酸与所述纳米孔的相互作用产生的效应的存在或不存在，以确定所述靶多核苷酸的存在或不存在，从而检测所述样品中的所述靶多核苷酸和/或监测所述靶多核苷酸与所述纳米孔的的相互作用，以确定所述靶多核苷酸的一个或更多个特征；

——用于在多核苷酸样品中选择性修饰靶多核苷酸的试剂盒，所述试剂盒包括脱磷酸酶，包括单个N或polyN尾的衔接子——其中N是核苷酸A、T、C或G，以及任选地一个或更多个聚合酶、连接酶、多核苷酸引导的效应蛋白和引导多核苷酸；和

——用于在多核苷酸样品中选择性适应靶多核苷酸的方法，所述方法包括：使所述样品中的所述多核苷酸与两个结合至所述靶多核苷酸中的序列的引导多核苷酸、以及一个多核苷酸引导的效应蛋白接触，其中，所述两个引导多核苷酸结合的序列将所述多核苷酸引导的效应子蛋白指导至可能紧密定位或不紧密定位的两个不同位点，使得所述多核苷酸引导的效应蛋白在所述两个位点的至少一个处切割所述靶多核苷酸以产生两个相对的切割端；和将衔接子附接至所述靶多核苷酸中的两个相对切割端的一个或两个。

附图说明

应当理解，附图是为了说明的目的，而不旨在限制。

图1：示意性示出了具有结合的tracrRNA B和crRNA C的Cas9酶A可如何用于裂解包含原间隔区邻近基序(PAM)E的靶dsDNA分子D。tracrRNA和crRNA可以通过将二者与发夹F相互连接而掺入为单引导RNA(sgRNA)分子。Cas9使用两个核酸酶中心G裂解分子，以产生两个dsDNA片段H和J，其中一个(H)受Cas9保护，并且另一个(J)带有一个游离5'磷酸K和3'羟基L。

图2示意性示出了具有结合的crRNA B的Cpf1酶A可如何用于裂解包含原间隔区邻近基序(PAM)D的靶dsDNA分子C。Cpf1使用单个核酸酶中心在两个位点E裂解分子，以产生两个dsDNA片段F和G，其中一个(F)受Cpf1保护，并且另一个(G)带有游离5'磷酸H、3'羟基J和5'突出端K。

图3示意性示出了用DNA加工酶处理各种DNA产物：用聚合酶(例如Taq或Klenow外切(exo-)聚合酶)和dATP处理的平端dsDNA片段A，产生3'-dA加尾片段B；用聚合酶(例如Taq或Klenow外切聚合酶)和dATP、dCTP、dGTP和dTTP的混合物处理的5'突出端片段C，产生3'-dA加尾片段D；用聚合酶(例如Taq或Klenow外切聚合酶)和dATP处理的5'-脱磷酸化片段E，产生3'-dA加尾、5'-脱磷酸化片段F；以及用聚合酶(例如Taq或Klenow外切聚合酶)和dNTP处理的3'突出端片段(诸如由末端转移酶产生)G，并且不会在片段的末端结构中产生整体变化。

图4示出了一种可能的工作流程，通过该流程，靶DNA分子可以通过以下来进行测序：通过脱磷酸化保护末端、经由多核苷酸引导的效应蛋白裂解(例如CRISPR/Cas裂解)显示磷酸盐、去除多核苷酸引导的效应蛋白(例如Cas9酶)、对末端进行dA加尾、连接衔接子、并且引入到测序装置中。靶(A)和非靶(B)高分子量DNA的混合物通过脱磷酸酶(诸如牛小肠磷酸酶)处理，以产生具有封闭末端的文库分子C。在结合引导多核苷酸/多核苷酸引导的效应蛋白复合物(例如CRISPR RNP)D后，引入双链断裂，其将靶分子裂解成两个片段E和F。在通过脱蛋白去除结合的复合物(例如RNP)后，dA加尾和测序衔接子的连接产生两个连接衔接子的靶片段G和H，当将其引入包括膜J和孔K的纳米孔测序流动池中时，均可被测序。靶和非靶分子都被引入到流动池中，但只有靶分子拴在膜上并且被测序。

图5示出了一种可能的工作流程，通过该流程，靶DNA分子可以通过以下来进行测序：通过脱磷酸化保护末端、经由多核苷酸引导的效应蛋白裂解(例如CRISPR/Cas裂解)显示磷酸盐、对末端进行dA加尾、连接衔接子、并且引入到测序装置中。靶(A)和非靶(B)高分子量DNA的混合物通过脱磷酸酶(诸如牛小肠磷酸酶)处理，以产生具有封闭末端的文库分子C。在结合引导多核苷酸/多核苷酸引导的效应蛋白复合物(例如CRISPR RNP)D后，引入双链断裂，其将靶分子裂解成两个片段E和F。dA加尾和测序衔接子的连接产生一个连接衔接子的靶片段G，当将其引入包括膜H和孔J的纳米孔测序流动池中时，可以被测序。靶和非靶分子都被引入到流动池中，但只有靶分子拴在膜上并且被测序。

图6示出了一种可能的工作流程，通过该流程，靶DNA分子可以通过以下来进行测序：通过脱磷酸化保护末端、经由多核苷酸引导的效应蛋白裂解(例如CRISPR/Cas裂解)显示磷酸盐、对末端进行dA加尾、连接衔接子、并引入到测序装置中。靶(A)和非靶(B)高分子量DNA的混合物通过脱磷酸酶(诸如牛小肠磷酸酶)处理，以产生具有封闭末端的文库分子C。在结合引导多核苷酸/多核苷酸引导的效应蛋白复合物(例如CRISPR RNP)D后，引入双链断裂，其将靶分子裂解成两个片段E和F。在此，复合物(RNP)自发解离。dA加尾和测序衔接子的连接会产生两个连接衔接子的靶片段G和H，当将其引入到包括膜J和孔K的纳米孔测序流动池中时，均可被测序。靶和非靶分子都被引入到流动池中，但只有靶分子拴在膜上并且被测序。

图7示出了一种可能的工作流程，通过该流程，靶DNA分子可以通过以下来进行测序：通过脱磷酸化保护末端、经由多核苷酸引导的效应蛋白裂解(例如CRISPR/Cas裂解)显示磷酸盐、连接互补衔接子、并且引入到测序装置中。靶(A)和非靶(B)高分子量DNA的混合物通过脱磷酸酶(诸如牛小肠磷酸酶)处理，以产生具有封闭末端的文库分子C。在结合引导多核苷酸/多核苷酸引导的效应蛋白复合物(例如CRISPR RNP)D后，引入双链断裂，其将靶分子裂解成两个片段E和F。在此，复合物(RNP)自发解离。互补测序衔接子(G)的连接产生一个连接衔接子的靶片段H，当将其引入到包括膜J和孔K的纳米孔测序流动池中时，它们均可被测序。靶和非靶分子都被引入到流动池中，但只有靶分子拴在膜上并且被测序。

图8：示出了一种可能的工作流程，通过该流程，靶DNA分子可以通过以下来进行测序：通过脱磷酸化保护末端、经由多核苷酸引导的效应蛋白裂解(例如CRISPR/Cas裂解)显示磷酸盐、连接互补中间条形码碎片和测序衔接子、并且引入到测序装置中。靶(A)和非靶(B)高分子量DNA的混合物通过脱磷酸酶(诸如牛小肠磷酸酶)处理，以产生具有封闭末端的文库分子C。在结合引导多核苷酸/多核苷酸引导的效应蛋白复合物(例如CRISPR RNP)D后，引入双链断裂，其将靶分子裂解成两个片段E和F。在此，RNP自发解离。互补中间条形码(G)和测序衔接子(H)的连接产生一个连接衔接子的靶片段I，当将其引入到包括膜J和孔K的纳米孔测序流动池中时，它们均可被测序。靶和非靶分子都被引入到流动池中，但只有靶分子拴在膜上并且被测序。

图9示出了一个工作流程的实例，通过该流程，靶DNA分子可以通过以下来进行测序：通过脱磷酸化保护末端、经由CRISPR/Cas9裂解显示磷酸盐、对末端进行dA加尾、连接测序衔接子、并且引入到测序装置中。在管A中，高分子量基因组DNA在37℃处被脱磷酸酶(诸如牛小肠磷酸酶)脱磷酸10分钟，并且在80℃处将酶加热灭活5分钟。同时在管B中，将crRNA退火至tracrRNA，并且通过将该混合物与Cas9在室温处温育10分钟形成RNP。随后，除了Taq聚合酶和dATP外，将管B的内容物添加到管A中。将混合物在37℃处温育15-60分钟，以使脱磷酸化的靶DNA裂解和dA加尾。使用T4 DNA连接酶将感兴趣片段连接至测序衔接子，形成测序文库。文库SPRI纯化后，将样品引入测序装置。

图10示出了一个工作流程的实例，通过该流程，靶DNA分子可以通过以下来进行测序：通过脱磷酸化保护末端、经由CRISPR/Cpf1裂解显示磷酸盐、对末端进行dA加尾、连接测序衔接子、并且引入到测序装置中。在管A中，高分子量基因组DNA在37℃处被脱磷酸酶(诸如牛小肠磷酸酶)脱磷酸10分钟，并且在80℃处将酶加热灭活5分钟。同时在管B中，crRNA发生热变性，并且通过在室温处将这种混合物与Cas9温育10分钟形成RNP。随后，将管B的内容物添加到管A中，并在37℃处温育15-60分钟，以使脱磷酸化的靶DNA裂解。将感兴趣片段连接到条形码和测序衔接子上，形成测序文库。文库SPRI纯化后，将样品引入测序装置。

图11示意性地示出了靶DNA(B)的裂解模式，而不是非靶DNA(A)的裂解模式，所述裂解模式通过引导多核苷酸/多核苷酸引导的效应蛋白裂解(例如CRISPR/Cas RNP)(C)诱导，所述(C)具有与感兴趣区(D)的侧翼区互补的冗余探针。RNP 1和2与ROI上游的有义链(+)结合，并且RNP 3和4识别反义链(-)。在通过RNP裂解后，产生5个片段。产生的片段中只有3个包含5'磷酸(E、F和G)，并且可以被测序装置读取。片段G是唯一包含两个可连接末端的片段。dA加尾的执行如图3所示。

图12示出了测序衔接子与如图11所示产生的靶DNA片段的连接。dA加尾之后，测序衔接子的连接产生三个连接衔接子的靶片段A、B和C。片段A可以在有义方向上测序，而片段B可以从反义方向读取。片段C的两端被RNP裂解，从而允许在两个末端连接两个测序衔接子，并且因此在有义和反义方向上的测序。在示意图D中总结了测序读段的长度和方向。沿着基因组坐标的读段数量或覆盖深度的绘图显示由于片段C测序的双向性，RNP 2和3之间的覆盖度的经典增加。

图13示出了用于测序目的的如图11所示产生的靶DNA片段的PCR扩增。dA加尾之后，PCR衔接子的退火产生三个连接衔接子的靶片段A、B和C。片段C的两端被RNP裂解，从而允许在每个末端连接两个PCR衔接子，因此允许PCR扩增。PCR之后，将扩增的感兴趣区域连接到测序衔接子，从而允许在有义和反义方向上的测序。在这种情况下，沿着基因组坐标的覆盖深度的绘图仅示出了RNP 2和3的切割位点之间的覆盖度。

图14探索了通过引导多核苷酸/多核苷酸引导的效应蛋白裂解(例如CRISPR/CasRNP)(A)诱导的感兴趣区域(ROI)中单个dsDNA断裂的测序模式。如果RNP释放了切口的两侧，则两个片段(B和C)可用于dA加尾和测序衔接子连接。沿反义方向(-)读取片段B和沿有义方向(+)读取片段C，导致在两个方向上从切口位置的渐小的覆盖深度(D)。

图15示出示例覆盖图，其示出了使用针对大肠杆菌K-12菌株MG1655的rrsH基因的简并crRNA探针，从总的大肠杆菌基因组样品富集所有16S(rrs)基因。该图示出了正向(正数)和反向(负数)方向读段的覆盖度与位置的图。识别出七个目标峰，即i至vii，相对于背景，这些峰被过度表示

图16突出了实施例1中使用的三种方法(1)、(2)和(3)之间的差异。(1)、(2)和(3)中每一个的左图和中间图示出了使用这三种方法获得的覆盖度，并且(1)、(2)和(3)中每一个的右图示出了测序读段与大肠杆菌参考物比对所产生的堆积。

图17：示出实施例2中描述的文库A的Cas9富集。该图示出了Cas9裂解后，通过Klenow外切进行dA加尾后，将测序读段与人NA12878参考物比对产生的堆积。

图18示出示例覆盖图，其示出了使用针对大肠杆菌K-12菌株MG1655的rrsH基因的crRNA探针，从总的大肠杆菌基因组样品富集所有16S(rrs)基因。A，左侧示出了正向(正数)和反向(负数)方向读段的覆盖度与位置的图。识别出七个目标峰，即i到vii，其相对于背景B被过度表示。A，下部显示正向和反向方向读段的聚集。C示出成功映射到参考物的所有读段的读取长度的直方图，标准化到每个箱(bin)中映射的碱基数。

图19比较了用于Cpf1富集的不同方法。A示出了一个实验，其中使用5'nt突出端切割位点序列的特异条形码对大肠杆菌rrs 16S基因进行测序。B示出了等效实验，其中通用条形码能够结合多个5'nt突出端序列。C和D比较了等效实验，其中酶(Klenow(外切-)或Taq分别用于填充5'nt突出端和对5'nt突出端dA加尾。

图20示出了将测序读段与人NA12878参考物比对产生的堆积，人NA12878参考物使用特异的条形码方法获得，用于人基因组DNA样品Cpf1富集。

图21示出了将测序读段与人NA12878参考物比对产生的堆积，人NA12878参考物使用Klenow(外切-)方法dA加尾获得，用于人基因组DNA样品Cpf1富集。

图22示出了一种可能的工作流程，通过该流程，靶DNA分子可以通过以下来进行测序：通过脱磷酸化保护末端、经由多核苷酸引导的效应子蛋白裂解(例如CRISPR/Cas裂解)在两个位点显示磷酸盐、可选地对末端进行dA加尾、连接衔接子、并且引入到测序装置中。靶(A)和非靶(B)的高分子量DNA的混合物通过脱磷酸酶(诸如牛小肠磷酸酶)处理，以产生具有封闭末端的文库分子C。在结合引导多核苷酸/多核苷酸引导的效应蛋白复合物(例如CRISPR RNP)D后，引入双链断裂，其将靶分子裂解成三个片段E和F。在此，复合物(RNP)保持结合至两个外部片段F。将包括单链外部区域的中间衔接子片段G连接至内部片段E。使用对中间衔接子片段G的单链外部区域特异的引物H扩增片段E。测序衔接子的连接产生连接衔接子的靶片段K，当将其引入到包括膜M和孔L的纳米孔测序流动池中时，可以被测序。靶和非靶分子都被引入到流动池中，但只有靶分子拴在膜上并且被测序。

图23示出了针对文库A(1)和文库B(2)的测序读段与人NA12878参考物(HTT基因)比对产生的堆积，以及实施例5中所描述的文库B(3)中每个基因每个条形码的读段数量。

图24示出了在无扩增(1)、用实施例6的磷酸化扩增(2)或脱磷酸化PCR衔接子扩增(3)方法后，测序读段与大肠杆菌SCS110参考物比对产生的堆积。

图25示出了如实施例7中所描述的测序读段与大肠杆菌参考物比对而产生的堆积。(1)示出了来自反应的堆积，在该反应中测序衔接子与靶裂解的、dA加尾的样品连接。(2)示出了来自反应的堆积，在该反应中靶裂解的被RNAseH消化，然后在连接测序衔接子之前被Taq聚合酶dA加尾。(3)示出了来自反应的堆积，在该反应中Cas9变性后，将靶裂解的DNA与RNAseH一起温育，然后在连接测序衔接子之前进行dA加尾。

图26示出了如实施例8中所描述的测序读段与大肠杆菌参考物的比对而产生的堆积。(1)示出了来自反应的堆积，在该反应中测序衔接子与靶裂解的、dA加尾的样品连接。(2)示出了来自反应的堆积，在该反应中将靶裂解的DNA与T4 DNA聚合酶温育，并且然后在连接测序衔接子之前进行dA加尾。(3)示出了来自反应的堆积，在该反应中Cas9变性后，将靶裂解的DNA与RNAseH一起温育，然后在连接测序衔接子之前进行dA加尾。

具体实施方式

应当理解，所公开的方法和产品的不同应用可以适合于本领域的特定需要。还应理解，本文所用的术语仅出于描述方法和产品的特定实施例的目的，并且不旨在是限制性的。定义为与实施方式有关的特征也可以与与另一实施方式有关的特征组合。

另外，在本说明书和所附权利要求书中使用的单数形式“一个/一种(a)”、“一个/一种(an)”和“所述(the)”包括复数对象，除非上下文中另有明确规定。因此，例如，提及“多核苷酸”包括两个或更多个多核苷酸，提及“锚”是指两个或更多个锚，提及“解旋酶”包括两个或更多个解旋酶，并且提及“跨膜孔”包括两个或更多个孔等。

本文引用的所有出版物、专利和专利申请，无论是上文还是下文，均通过引用以其整体并入本文。

本发明人设计了用于选择性修饰多核苷酸样品中的靶多核苷酸的方法。该方法导致多核苷酸样品中靶多核苷酸的选择性修饰。这意味着衔接子仅添加至一个或多个靶多核苷酸。然后可以分析或表征靶多核苷酸(或多个)，而无需与样品中的其他(非靶)多核苷酸分离。

发明人设计的方法导致多核苷酸样品中一个靶多核苷酸或多个靶多核苷酸的选择性适应，该方法包括：保护样品中多核苷酸的末端；使多核苷酸与结合至靶多核苷酸中的序列的引导多核苷酸、以及多核苷酸引导的效应蛋白接触，使得多核苷酸引导的效应蛋白切割靶多核苷酸，从而在由引导多核苷酸结合的序列确定的位点处产生两个相对的切割端；并且将衔接子附接至靶多核苷酸中两个相对的切割端中的一个或两个，其中，衔接子附接至靶多核苷酸的切割端的一个或两个，但不附接至样品中多核苷酸的受保护端。

该方法可用于产生适应的多核苷酸的文库，其中，多个引导多核苷酸用于指导一个或更多个多核苷酸引导的效应蛋白切割一个或更多个靶多核苷酸，和/或在同一靶多核苷酸内的多个位点内切割。

保护末端

该方法包括保护样品中多核苷酸末端的步骤。样品中多核苷酸的末端受到保护，以防止衔接子附接至多核苷酸的末端。理想地，样品中每个多核苷酸的末端均应受到保护。然而，实际上，样品中仅一部分多核苷酸可具有被保护的两个末端。例如，样品中多核苷酸的约50％或更多、约60％或更多、约70％或更多、约80％或更多、约90％或更多或约95％或更多可以具有受保护的末端。

可以通过化学改变多核苷酸的末端来保护样品中多核苷酸的末端。末端优选被酶保护。这意味着可以通过向样品中添加酶来保护末端，任选地使用底物，诸如一种或多种游离dNTP。该酶可以是例如脱磷酸酶或末端转移酶。

例如，多核苷酸的5'末端通常被磷酸化。当所述多核苷酸的末端被脱磷酸化并且使用多核苷酸引导的效应蛋白切割所述靶多核苷酸时，可以将衔接子附接(例如连接)到切割端而不是脱磷酸化端。这使得包括例如单个T突出端或polyT突出端的衔接子能够选择性地杂交并共价附接至靶多核苷酸的切割端。通过将脱磷酸酶添加至所述多核苷酸样品中，可以简单并且轻松地实现末端的脱磷酸化。在进一步处理所述样品之前，不需要从所述样品中去除所述脱磷酸酶。在添加切割酶之前，可以简单地将所述脱磷酸酶进行加热灭活。

因此，在该方法中，样品中多核苷酸的末端可以通过使多核苷酸的5'末端脱磷酸化来保护。该方法可以包括将脱磷酸酶添加至多核苷酸样品。可以将脱磷酸酶添加至样品中并温育适当量的时间。技术人员将能够容易地确定合适的时间段。例如，将样品与脱磷酸酶一起温育的时间可以是约5至约30分钟，诸如约10至约15分钟，优选地约10分钟。温育温度典型地由所用脱磷酸酶的最佳温度确定，但是例如可以在约20℃至约40℃的范围内，诸如约30℃，或优选地约37℃。

化学改变所述多核苷酸末端的方法的另一个实例是使用末端转移酶延伸所述多核苷酸的3'末端以添加包括至少一个核苷酸的3'尾部。这样可以防止与带有3'突出端的衔接子连接。这使得衔接子能够共价附接于所述靶多核苷酸的切割端。脱磷酸酶和末端转移酶均可用于保护多核苷酸的末端。

保护多核苷酸末端的方法优选地不涉及将样品中双链多核苷酸的相反链的5'和3'末端连接在一起，例如，该方法不包括在双链多核苷酸的相反链的邻接的5'和3'末端之间附接发夹环。然而，末端可以通过多核苷酸的环化来保护，例如通过将双链多核苷酸的每条链的5'末端连接至同一链的3'末端来保护。

样品中多核苷酸的末端可以使用封闭化学来保护。例如，生物素可以在一条或两条链上附接于多核苷酸的末端，并且然后与链霉亲和素结合。替代地，可以使用合适的附接手段，诸如生物素-链霉亲和素或其他亲和分子，将每个多核苷酸的一个或两个末端附接到固体表面，诸如珠的表面。

样品

样品可以是包括多核苷酸的任何合适的样品。

样品可以是生物样品。本发明可以在从任何生物体或微生物获得或提取的样品上体外进行。该生物体或微生物典型地是古菌、原核的或真核的，并且典型地属于以下五个界之一：植物界、动物界、真菌界、原核生物界和原生生物界。本发明可以在从任何病毒获得或提取的样品上体外进行。

样品优选地是流体样品。样品典型地包括体液。体液可获自人或动物。人或动物可能患有、被怀疑患有或处于疾病风险中。样品可以是尿液、淋巴液、唾液、粘液、精液或羊水，但优选地是全血、血浆或血清。典型地，样品是人来源的，但是替代地，它可以来自另一种哺乳动物，诸如来自商业养殖的动物，诸如马、牛、绵羊或猪，或者替代地可以为宠物，诸如猫或狗。

替代地，植物来源的样品典型地获自商业作物，诸如谷物、豆类、水果或蔬菜，例如小麦、大麦、燕麦、油菜、玉米、大豆、大米、香蕉、苹果、番茄、马铃薯、葡萄、烟草、豆、扁豆、甘蔗、可可、棉花、茶或咖啡。

样品可以是非生物样品。非生物样品优选地是流体样品。非生物样品的实例包括手术流体，水诸如饮用水、海水或河水，以及用于实验室测试的试剂。

可以在执行该方法之前，例如通过离心或通过膜过滤掉不需要的分子或细胞(诸如红细胞)来处理样品。该方法可以在采集后立即在样品上执行。样品典型地也可以在方法之前，优选在低于-70℃处存储。

样品可以包括基因组DNA。优选地，基因组DNA不被片段化。基因组DNA可以来自任何生物体。基因组DNA可以是人基因组DNA。

靶多核苷酸

多核苷酸可以是核酸，诸如脱氧核糖核酸(DNA)或核糖核酸(RNA)。多核苷酸可以包括与一条DNA链杂交的一条RNA链。多核苷酸可以包括一或更多个合成核苷酸。本领域中已知的任何合成核苷酸包括肽核酸(PNA)、甘油核酸(GNA)、苏糖核酸(TNA)、锁核酸(LNA)或具有核苷酸侧链的其它合成聚合物。

多核苷酸优选地是DNA、RNA或DNA/RNA杂交体，最优选地是DNA。靶多核苷酸优选地包括引导多核苷酸和多核苷酸引导的效应蛋白结合的双链区。靶多核苷酸可以是双链的。靶多肽可以是单链的，并且小的单链多核苷酸可以与引导多核苷酸和多核苷酸引导的效应蛋白的靶位点杂交。靶多肽可以包括单链区和具有其它结构的区域，诸如发夹环、三链体和/或四链体。DNA/RNA杂交体可以在同一条链上包括DNA和RNA。优选地，DNA/RNA杂交体包括与RNA链杂交的一条DNA链。在一个优选的实施方式中，多核苷酸是基因组DNA。基因组DNA典型地是双链的。

靶多核苷酸可以是任何长度。例如，多核苷酸的长度可以是至少500个核苷酸或核苷酸对。靶多核苷酸的长度可以是1000个或更多个核苷酸或核苷酸对，长度是5000个或更多个核苷酸或核苷酸对，或100000个或更多个核苷酸或核苷酸对。

靶多核苷酸可以是与疾病和/或微生物相关的多核苷酸。

该方法可以涉及多个靶多核苷酸。靶多核苷酸可以是一组多核苷酸。例如，该组可以与特定表型相关联。该组可以与特定类型的细胞相关联。例如，该组可以指示细菌细胞。该组可以指示病毒、真菌、细菌、分枝杆菌或寄生物。

靶多核苷酸可以是两个或更多个多核苷酸的组，该多核苷酸是与特定疾病或状况相关联的生物标志。生物标志可用于诊断或预测疾病或状况。合适的生物标志组是本领域已知的，例如如以下中所描述：Edwards等人(2008)《分子细胞蛋白质组学7(Mol.Cell.Proteomics 7)》，1824-1837；Jacquet等人(2009)《分子细胞蛋白质组学8(Mol.Cell.Proteomics 8)》，2687-2699；Anderson等人(2010)《临床化学(Clin.Chem.)》，56：177-185。该疾病或状况可以是例如癌症、心脏病——包括冠心病和心血管疾病、或传染病，诸如结核病或脓毒症。该疾病或状况可以是与扩展重复相关的疾病，诸如亨廷顿病、脆性X染色体、脊髓延髓性肌萎缩或强直性肌营养不良。

靶多核苷酸可以是微RNA(或miRNA)或干扰小RNA(siRNA)。两个或更多个靶多核苷酸的组可以是两个或更多个miRNA的组。用于本发明的合适的miRNA是本领域中众所周知的。例如，合适的miRNA被存储在公众可获得的数据库中。

靶多核苷酸的序列可以是已知的或未知的。优选地，靶多核苷酸的至少一部分是已知的，从而引导多核苷酸可以将效应蛋白靶向于靶多核苷酸。

多核苷酸引导的效应蛋白

多核苷酸引导的效应蛋白可以是与引导多核苷酸结合并且切割与引导多核苷酸结合的多核苷酸的任何蛋白。引导多核苷酸可以是引导RNA、引导DNA或包含DNA和RNA的引导物。引导多核苷酸优选地是引导RNA。因此，多核苷酸引导的效应蛋白优选是RNA引导的效应蛋白。

RNA引导的效应蛋白可以是与引导RNA结合的任何蛋白。RNA引导的效应蛋白典型地与不是与靶多核苷酸结合的引导RNA区域的引导RNA区域结合。例如，在引导RNA包括crRNA和tracrRNA时，RNA引导的效应蛋白典型地与tracrRNA结合，并且crRNA典型地与靶多核苷酸结合。RNA引导的效应蛋白优选地还与靶多核苷酸结合。RNA引导的效应蛋白典型地与靶多核苷酸的双链区域结合。被RNA引导的效应蛋白结合切割的靶多核苷酸位点典型地位于与引导RNA杂交的序列附近。

RNA引导的效应蛋白可以切割引导RNA结合的序列的上游或下游。例如，RNA引导的效应蛋白可以与位于与引导RNA结合的序列旁边的DNA中的原间隔区邻近基序(PAM)结合。PAM典型地是2-6个碱基对序列，诸如5'-NGG-3'(其中N是任意碱基)、5'-NGA-3'、5'-YG-3'(其中Y是嘧啶)、5'TTN-3'或5'-YTN-3'。不同的RNA引导的效应蛋白与不同的PAM结合。RNA引导的效应蛋白可以与不包括PAM的靶多核苷酸结合，特别是当靶是RNA或DNA/RNA杂交体时。

RNA引导的效应蛋白典型地是核酸酶，诸如RNA引导的核酸内切酶。RNA引导的效应蛋白典型地是Cas蛋白。RNA引导的效应蛋白可以是Cas、Csn2、Cpf1、Csf1、Cmr5、Csm2、Csy1、Cse1或C2c2。Cas蛋白可以是Cas3、Cas4、Cas8a、Cas8b、Cas8c、Cas9、Cas10、Cas10d、Cas12a(Cpf1)或Cas13。优选地，Cas蛋白是Cas9或Cas12a。当靶多核苷酸包括双链DNA区域时，优选地使用Cas、Csn2、Cpf1、Csf1、Cmr5、Csm2、Csy1或Cse1。当靶多核苷酸包括双链RNA区域时，优选地使用C2c2。DNA引导的效应蛋白，诸如来自RecA家族的蛋白质，可用于靶向DNA。可以使用的来自RecA家族的蛋白的实例是RecA、RadA和Rad51。

RNA引导的核酸内切酶的核酸酶活性可能部分丧失能力。RNA引导的核酸内切酶的一个或更多个催化核酸酶位点可以被灭活，条件是该酶保留切割靶多核苷酸的至少一条链的能力。例如，在RNA引导的核酸内切酶包括两个催化核酸酶位点时，其中一个催化位点可以被灭活。典型地，催化位点中的一个将切割与其特异性结合的多核苷酸的一条链，并且另一个催化位点将切割该多核苷酸的相反链。因此，RNA引导的核酸内切酶可以切割靶多核苷酸的双链区的两条链或一条链。

能够仅切割双链靶多核苷酸的一条链的多核苷酸引导的核酸内切酶可以称为切口酶。切口酶典型地在靶多核苷酸中产生单链断裂。两种切口酶可用于产生带有突出端的切割端，其中第一切口酶切割靶多核苷酸的一条链，并且第二切口酶切割该靶多核苷酸的另一链。例如，切口酶可以是同一核酸内切酶的部分灭活的形式，其中在一个切口酶中，第一催化位点已被灭活，并且在另一个切口酶中，第二催化位点已被灭活。在此的一个示例性实施方式中，第一切口酶可以是其中RuvC结构域被灭活的Cas9核酸内切酶，并且第二切口酶可以是其中HNH结构域被灭活的Cas9内切核酸酶。第一和第二切口酶可以由不同的引导多核苷酸引导，使得切口酶在双链靶多核苷酸中的不同位置切割，从而产生具有所需长度的突出端的切割端。

RNA引导的核酸内切酶的催化位点可以通过突变灭活。突变可以是取代、插入或缺失突变。例如，可以在催化位点发生一个或多个，诸如2、3、4、5或6个氨基酸的取代或插入或缺失。突变优选地是取代或插入，更优选地是在催化位点处的单个氨基酸取代。本领域的技术人员将能够容易地识别RNA引导的核酸内切酶的催化位点和使它们灭活的突变。例如，在RNA引导的核酸内切酶是Cas9时，一个催化位点可以通过D10处的突变而被灭活，并且另一个通过H640处的突变而被灭活。

当效应蛋白是切口酶时，该方法可以进一步包括向样品中添加具有5'至3'或3'至5'核酸外切酶活性的酶，以去除与靶多核苷酸的切口链中切口一侧相邻的核苷酸，以暴露一段单链多核苷酸，使衔接子，诸如包括具有通用序列的单链部分(典型地为3')的衔接子可以与其杂交。在共价附接诸如衔接子与靶多核苷酸的连接之前，聚合酶可用于封闭衔接子末端(典型地为3')和靶多核苷酸的双链区域(典型地为5')末端之间的任何间隙。

引导多核苷酸

引导多核苷酸包括能够与靶多核苷酸杂交并且还能够与多核苷酸引导的效应蛋白结合的序列。引导多核苷酸可以具有使其能够与靶多核苷酸和多核苷酸引导的效应蛋白结合的任何结构。

引导多核苷酸典型地与靶多核苷酸中约20个核苷酸的序列杂交。与引导RNA结合的序列可以是约10至约40，诸如约15至约30，优选地约18至约25个核苷酸，诸如21、22、23或24个核苷酸。引导多核苷酸典型地与靶多核苷酸的双链区的一条链的一部分互补。

引导RNA可以与靶多核苷酸中PAM的5'或3'的区域互补。在靶多核苷酸包括DNA时，特别地在RNA效应蛋白是Cas9或Cpf1时，这是优选的。引导RNA可以与靶多核苷酸中侧翼为鸟嘌呤的区域互补。在靶多核苷酸包括RNA时，是优选的，特别地在RNA效应蛋白是C2c2的时，这是优选的。

引导RNA可以具有任何能够使其与靶多核苷酸和RNA引导的效应蛋白结合的结构。引导RNA可以包括与靶多核苷酸中的序列结合的crRNA，以及tracrRNA。tracrRNA典型地与RNA引导的效应蛋白结合。引导RNA的典型结构是本领域中已知的。例如，crRNA典型地是单链RNA，并且tracrRNA典型地具有双链区域，其中一条链附接至crRNA的3'末端，以及在不是附接至crRNA的链的3'末端形成了发夹环的部分。crRNA和tracrRNA可以在体外作为单片sgRNA转录。

引导RNA可以包括其它组分，诸如额外的RNA碱基或DNA碱基或其它核碱基。引导RNA中的RNA和DNA碱基可以是天然碱基或修饰后的碱基。可以使用引导DNA代替引导RNA，并且使用DNA引导的效应蛋白代替RNA引导的效应蛋白。在靶多核苷酸是RNA时，可以优选使用引导DNA和DNA引导的效应蛋白。

定制的引导多核苷酸是可商购的，例如来自集成DNA技术公司(IDT)。

该方法可以包括使多核苷酸样品与多个引导多核苷酸接触。例如，可以使用1至100，诸如2至50，例如4、6、8、10、20或30个引导多核苷酸。多个引导多核苷酸可以与相同靶多核苷酸中不同位点，例如在靶多核苷酸中感兴趣区域的(侧翼)末端的序列结合，或者使得通过产生衔接子可附接的靶多核苷酸的片段来获得覆盖全部或较长长度的靶多核苷酸。片段可以是不同的或重叠的片段。多个引导多核苷酸可以结合不同靶多核苷酸中的序列。

在一个实施方式中，该方法可以利用设计的两个引导多核苷酸，使得一个引导多核苷酸指导切口酶切割双链靶多核苷酸的一条链，并且另一引导多核苷酸引导切口酶切割双链靶多核苷酸的另一链。以这种方式，可以产生相对的切割端，每个切割端均具有突出端。该方法可以利用两对或更多对这样的引导多核苷酸来在靶多核苷酸中产生两处或更多处具有突出端的切割端。

在一个实施方式中，切割位点可包括靶多核苷酸中感兴趣区域的末端20个核苷酸中的一个或更多个，和/或可位于靶多核苷酸中感兴趣区域的末端0至50个核苷酸内，诸如1至40、5至30或10至20个核苷酸。

在一个实施方式中，多核苷酸引导的效应蛋白在靶多核苷酸的一个位点切割。

在另一个实施方式中，多核苷酸引导的效应蛋白在靶多核苷酸中的两个或更多个位点切割。在该实施方式中，两个位点优选地在靶多核苷酸的末端或在靶多核苷酸中感兴趣区域的末端。因此，该方法可以包括使多核苷酸样品与两个或更多个引导多核苷酸接触，其中，第一引导多核苷酸结合至靶多核苷酸的一端附近的序列，并且第二引导多核苷酸结合至靶多核苷酸的另一端附近的序列，或其中，第一引导多核苷酸结合到感兴趣区域的一端附近的序列，并且第二引导多核苷酸结合到感兴趣区域的另一端附近的序列。替代地，该方法可以包括使多核苷酸样品与两对或更多对引导多核苷酸接触，其中，第一对指导一对切口酶在靶多核苷酸或感兴趣区域的一端切割，并且第二对指导一对切口酶在靶多核苷酸或感兴趣区域的另一端切割。

在一个实施方式中，切割靶多核苷酸内的三个或更多个位点，例如4、5、6、7、8、9、10或更多个位点。该方法可例如涉及使用三个引导多核苷酸或三对引导多核苷酸，其中，一个结合至靶多核苷酸或感兴趣区域内的序列，并且另两个结合至靶多核苷酸或感兴趣区域末端的序列。

可以设计引导多核苷酸，使得多核苷酸引导的效应蛋白的作用从更长的多核苷酸中切出感兴趣区域，或者使得它切出整个靶多核苷酸。例如，该方法可以利用两个引导多核苷酸或两对引导多核苷酸，其中，一个引导多核苷酸或一对引导多核苷酸结合至靶多核苷酸的一端的位点，并且另一引导多核苷酸或另一对引导多核苷酸结合至靶多核苷酸另一端的位点。

引导多核苷酸可以与多核苷酸引导的效应蛋白结合，即，引导多核苷酸和多核苷酸引导的效应蛋白可以形成复合物，其可以被称为核糖核蛋白(RNP)。形成RNP的条件是本领域众所周知的。例如，可将等摩尔的crRNA池在约95℃处退火至tracrRNA约5分钟以形成引导多核苷酸，然后将其冷却至室温，然后添加多核苷酸引导的效应蛋白并温育至少约10分钟，以允许多核苷酸引导的效应蛋白与引导多核苷酸结合。可以将包括引导多核苷酸和多核苷酸引导的效应蛋白的复合物添加至样品。当该方法使用两个或更多个不同的引导多核苷酸时，每个都可以与多核苷酸引导的效应蛋白复合。因此，该方法可以包括向样品中添加两个或更多个，例如3、4、5、7、8、9、10或更多个这样的复合物。

在该方法使用结合至两个或更多个不同靶多核苷酸中的序列的两个或更多个引导多核苷酸的情况下，该引导多核苷酸可用于将衔接子附接在每个靶多核苷酸的至少一个感兴趣区域内或侧翼。

切割端

在该方法中，多核苷酸引导的效应蛋白切割靶多核苷酸以产生两个相对的切割端。典型地在约20℃至约40℃，诸如约30℃，优选地约37℃的温度处，将多核苷酸引导的效应蛋白和引导多核苷酸与多核苷酸的脱磷酸化样品温育约15分钟至约一个小时或更长的时间段，诸如约30分钟。反应条件包括例如样品量、效应蛋白浓度、温育温度和温育时间段可以适当调整。

多核苷酸引导的效应蛋白典型地在双链区域中切割靶多核苷酸以产生两个相对的切割端。相对的切割端可以仅在双链多核苷酸的一条链中，例如，其中多核苷酸引导的效应蛋白是切口酶。相对的切割端可以在双链多核苷酸的两条链中。相对的切割端可以是平端，即，多核苷酸引导的效应蛋白可以在同一点切割双链多核苷酸的两条链。因此，在一个实施方式中，多核苷酸引导的效应蛋白切割双链多核苷酸的两条链以产生平端。在另一个实施方式中，多核苷酸引导的效应蛋白切割双链多核苷酸的两条链以产生单链突出端。相对的切割端可各自具有单链突出端，其中，在每个末端上的单链突出端是5'突出端，或在每个末端上的单链突出端是3'突出端。单链突出端优选为3'突出端。

在一个实施方式中，切割端均包括单链突出端。单链突出端可以由单个多核苷酸引导的效应蛋白诸如例如Cas12a(Cpf1)产生。在另一个实施方式中，通过两个多核苷酸引导的效应蛋白的作用产生包括单链突出端的切割端，其中，每个蛋白质切割靶多核苷酸的不同链。在该方法中，将衔接子附接至由效应蛋白产生的一个或两个切割端。突出端可以具有任何合适的长度。典型地，突出端包括4至30个核苷酸，诸如5至25个、6至20个、7至15个、8至12个或9至10个核苷酸。

突出端的顺序可以是已知的或未知的。引导多核苷酸可以针对靶多核苷酸中的特定已知序列。多核苷酸引导的效应蛋白在靶上切割的位点是已知的，因此突出端的序列是预定的。因此，可以设计衔接子，使其具有单链区域，诸如与希望结合衔接子的切割端的突出端相反的链上的单链突出端，其中，衔接子中单链区域的序列与切割端的突出端中的序列互补。靶多核苷酸的切割端的突出端能够与衔接子的单链区域(诸如突出端)杂交。

在一个实施方式中，衔接子中突出端的序列与切割端中的序列完全互补。两个突出端序列之间可能存在一个或更多个碱基对错配。例如，可能存在1至4个碱基对错配，诸如两个或三个碱基对错配。然而，典型地，在两个突出端序列之间将存在至少4个，诸如5至20、6至15或8至10个匹配的碱基。

在一个实施方式中，衔接子可能缺少5'磷酸。这可以帮助防止衔接子自连接。

在一个实施方式中，衔接子中单链突出端的序列是通用序列。衔接子中的通用序列的长度可以是约3至约15个核苷酸，诸如长度是约4、5、6或7至约12、10或8个核苷酸。通用序列包括可以与通过切割双链多核苷酸而产生的突出端中的任何多核苷酸序列杂交的通用核苷酸。

通用核苷酸是在某种程度上与模板多核苷酸中的所有核苷酸杂交的核苷酸。通用核苷酸优选地是在某种程度上与包括核苷腺嘌呤(A)、胸腺嘧啶(T)、尿嘧啶(U)、鸟嘌呤(G)和胞嘧啶(C)的核苷酸杂交的核苷酸。通用核苷酸与某些核苷酸的杂交强度大于与其它核苷酸的杂交强度。例如，包括核苷、2'-脱氧肌苷的通用核苷酸(I)将示出I-C>I-A>I-G大约＝I-T的配对的优先顺序。仅需要在衔接子中使用的通用核苷酸与双链多核苷酸中的所有核苷酸杂交。例如，当双链多核苷酸是DNA时，衔接子中的通用核苷酸仅需结合A、C、G和T。

通用核苷酸包括以下核碱基之一：次黄嘌呤、4-硝基吲哚、5-硝基吲哚、6-硝基吲哚、3-硝基吡咯、硝基咪唑、4-硝基吡唑、4-硝基苯并咪唑、5-硝基吲唑、4-氨基苯并咪唑或苯基(C6-芳香族环)。通用核苷酸更优选地包括以下核苷之一：2’-脱氧肌苷、肌苷、7-脱氮杂-2’-脱氧肌苷、7-脱氮杂-肌苷、2-氮杂-脱氧肌苷、2-氮杂-肌苷、4-硝基吲哚2’-脱氧核糖核苷、4-硝基吲哚核糖核苷、5-硝基吲哚2’-脱氧核糖核苷、5-硝基吲哚核糖核苷、6-硝基吲哚2’脱氧核糖核苷、6-硝基吲哚核糖核苷、3-硝基吡咯2’脱氧核糖核苷、3-硝基吡咯核糖核苷、次黄嘌呤的非环糖类似物、硝基咪唑2’脱氧核糖核苷、硝基咪唑核糖核苷、4-硝基吡唑2’脱氧核糖核苷、4-硝基吡唑核糖核苷、4-硝基苯并咪唑2’脱氧核糖核苷、4-硝基苯并咪唑核苷、5-硝基吲唑2’脱氧核糖核苷、5-硝基吲唑核糖核苷、4-氨基苯并咪唑2’脱氧核糖核苷、4-氨基苯并咪唑核糖核苷、苯基C-核糖核苷或苯基C-2’-脱氧核糖基核苷。

希望将衔接子附接到带有5'突出端的切割端时，互补或通用单链区域位于单链衔接子的5'末端，或者是双链衔接子上的单链5'突出端。例如，在衔接子具有与切割端的突出端互补的通用突出端或单链突出端时，如果切割端的突出端是顶部链上的5'突出端，则衔接子的突出端为底部链上的5'突出端，反之亦然。替代地，如果希望将衔接子附接至带有3'突出端的切末端，通用或互补单链区域位于单链衔接子的3'末端，或者是双链衔接子上的3'突出端。例如，在切割端的突出端是底部链的3'突出端，则衔接子的突出端是顶部链的3'突出端，反之亦然。

衔接子上的突出端的长度典型地与切割端的突出端长度相同。一个突出端可能比另一个突出端短。典型地，突出端能够在4至30个诸如5至25、6至20、7至15、8至12或9至10个核苷酸的区域上杂交。在杂交后，存在一段单链核苷酸时，可以例如使用聚合酶来填补缺口。优选地，两个互补的突出端的长度是相同的，或者靶序列中的突出端的长度和通用的突出端是相同的。

在多核苷酸引导的效应蛋白(或多个)的作用导致单链突出端的实施方式中，该方法可以包括使样品与聚合酶和dNTP接触以填充突出端以产生平端。

在衔接子包括dT尾的情况下，该方法可以进一步包括使样品与聚合酶和dATP接触，以将dA尾添加至靶多核苷酸的切割端的至少一个。可以将dA尾部添加到平端或单链突出端。作为替代，在衔接子包括dA尾的情况下，该方法可以进一步包括使样品与聚合酶和dTTP接触，以将dT尾添加至靶多核苷酸的切割端的至少一个。类似地，可以使用dG和dC代替dA和dT。

用于衔接子附接的自由切割端

在切割多核苷酸之后，多核苷酸引导的效应蛋白可以保持结合至切割位点的一侧，或者可以从靶多核苷酸释放。在多核苷酸引导的效应蛋白保持与切割位点的一侧结合时，可以防止衔接子与效应蛋白保持附接的切割位点的一侧上的切割端结合。在这种情况下，存在将衔接子添加到未附接效应蛋白的切割位点一侧的切割端的偏性。因此，在该方法的一个实施方式中，多核苷酸引导的效应蛋白保持附接于两个相对的切割端之一，并且衔接子附接于两个相对的切割端的另一个。

可以设计引导多核苷酸，以指导多核苷酸引导的效应蛋白切割多核苷酸，并保留在切割位点与感兴趣区域相反的一侧。可以设计引导多核苷酸，以指导多核苷酸引导的效应子蛋白切割多核苷酸并保留在感兴趣区域上游的切割位点的相对侧，并且切割多核苷酸并保留在感兴趣区域下游的切割位点的相对侧。典型地，多核苷酸引导的效应蛋白保持附接于切割位点的PAM远端侧，而使切割位点的PAM近端侧易于接近dA加尾酶和/或衔接子附接。

多核苷酸引导的效应蛋白不会在每个目标位点100％地切割。发明人设计了一种增加靶多核苷酸被切割和适应的可能性的方法。例如，该方法可以用于确保在感兴趣区域的两侧添加衔接子。在该方法中，将引导多核苷酸设计为将多核苷酸引导的效应蛋白指导至靶多核苷酸的相同区域中的两个或更多，诸如3、4、5、6或更多个位点，典型地其中，多核苷酸引导的效应蛋白以相同方向取向，例如，使得在切割靶多核苷酸之后，效应蛋白保持结合在切割位点与感兴趣区域的相反侧。这意味着如果效应蛋白在一个或两个切割位点切割靶多核苷酸，则可以根据需要附接衔接子。同一区域中的两个切割位点可以位于彼此约10kb、5kb、1kb、500个核苷酸或100个核苷酸之内，诸如彼此的约90、80、70、60、50、40、30、20或10个核苷酸之内。在限定的感兴趣区域的两侧都具有切割位点的情况下，在感兴趣区域的任一侧可以有两个或更多个，诸如3、4、5、6或更多个切割位点。靶多核苷酸的相同区域中的切割位点可以是相同的多核苷酸引导的效应蛋白所针对的位点，或不同的多核苷酸引导的效应蛋白(诸如例如Cas9和Cas12a(Cpf1))所针对的位点。

因此，提供了用于选择性地适应多核苷酸样品中的靶多核苷酸的方法，该方法包括：使样品中的多核苷酸与结合至靶多核苷酸中的序列的两个引导多核苷酸、以及多核苷酸引导的效应蛋白接触，其中两个引导多核苷酸结合的序列将多核苷酸引导的效应蛋白指导至两个紧密定位的位点，使得多核苷酸引导的效应蛋白在两个位点的至少一个处切割靶多核苷酸以产生两个相对的切割端；并且将衔接子附接至靶多核苷酸中两个相对切割端中的一个或两个。

感兴趣区域是待表征诸如测序的靶多核苷酸的区域。感兴趣区域可以通过其末端的靶向切割位点来定义。感兴趣区域可以是“末端开放的”，其意义是一端由靶切割位点的位置限定，并且感兴趣区域沿一个或两个方向背离靶切割位点延伸。在背离切割位点的一个特定方向上对感兴趣区域的表征可通过设计引导多核苷酸而偏置，以使效应蛋白保持附接在切割位点与希望优先表征的一侧相对的一侧，例如，感兴趣区域。

靶多核苷酸可以包括多态性，诸如例如SNP。在一个实施方式中，引导多核苷酸/多核苷酸引导的效应蛋白可以设计成靶向多态性的位点，诸如SNP，并且可以仅在存在(或不存在)多态性的情况下结合并且切割靶多核苷酸。替代地，引导多核苷酸/多核苷酸引导的效应蛋白可以被设计为切割靶多核苷酸，使得可以表征包含多态性的区域，例如使得感兴趣区域是可包括或可不包括多态性的区域。

在多核苷酸引导的效应蛋白切割以在靶多核苷酸中留下平端时，可以修饰末端以促进衔接子连接。例如，在衔接子具有诸如单个或poly T尾的dT尾的情况下，切割端可以是dA尾的，例如以添加单个dT或polyT尾。将dA尾添加到平端的方法是本领域已知的。可以使用任何合适的方法。在一个实施方式中，使用聚合酶添加dA尾。聚合酶可以是例如耐热或热稳定聚合酶。耐热聚合酶或热稳定聚合酶典型地在超过约50℃、约60℃、约70℃、约75℃或约80℃的温度处保持稳定。典型地，耐热聚合酶或热稳定聚合酶在超过约50℃、约60℃、约70℃、约75℃或约80℃的温度处具有聚合酶活性。例如，耐热聚合酶或热稳定聚合酶可以是Taq聚合酶。在使用Taq聚合酶的情况下，例如，可以在约72℃的温度处添加dA尾。

在dA加尾切割位点之前，效应蛋白可以被灭活。典型地，可以通过将样品加热至例如至少约50℃、约60℃、约70℃、约75℃或约80℃来实现灭活。可以将样品加热约2分钟至约20分钟，诸如约5分钟至约15分钟或约10分钟，以使效应蛋白灭活。在将耐热聚合酶或热稳定聚合酶用于dA加尾的情况下，则它可以在效应蛋白热灭活之前添加。例如，可以将热稳定聚合酶与多核苷酸引导的效应蛋白同时添加到样品中。在该实施方式中，可以在效应蛋白灭活步骤中将dA尾添加至切割位点。当在用于灭活效应蛋白的温度下不具有活性的聚合酶，例如嗜中温聚合酶，用于dA加尾时，则在热灭活之后，在将聚合酶加入样品之前，典型地将样品冷却至用于dA加尾的聚合酶具有最佳活性的温度，例如约37℃或室温。替代地，可将嗜中温聚合酶与多核苷酸引导的效应蛋白同时添加到样品中，以使其与多核苷酸引导的效应蛋白同时具有活性。然而，在该实施方式中，可用于dA加尾的末端的数量可以少于在效应蛋白热灭活之后进行dA加尾时的数量。合适的嗜中温聚合酶的实例是Klenow片段，诸如3'-5'exo-Klenow，一种大肠杆菌DNA聚合酶I的核酸外切酶突变体。

在该方法的一个实施方式中，从靶多核苷酸中除去多核苷酸引导的效应蛋白。在该方法的另一个实施方式中，多核苷酸引导的效应蛋白不保持附接于靶多核苷酸。

效应蛋白的热灭活可以帮助效应蛋白与靶多核苷酸解离，并因此增加可用于dA加尾和/或衔接子附接的切割端的数量，并且特别的，促进衔接子附接于在切割位点形成的两个相对末端中的两个。典型地在该步骤中使效应蛋白变性。

在一个实施方式中，可以将样品脱蛋白以去除切割后仍与靶多核苷酸结合的任何效应蛋白。例如，可以在将效应蛋白热灭活之前或之后，将样品与效应蛋白一起温育足够的时间之后，将蛋白酶添加到样品中。典型地，脱蛋白步骤是在添加聚合酶以进行dA加尾步骤之前进行的。脱蛋白步骤的目的是释放结合的效应蛋白，使得衔接子可以附接至通过效应蛋白的作用形成的两个相对的切割端。

在一些情况下，可以在切割后从靶多核苷酸释放效应蛋白，例如在效应蛋白是Cas12a(Cpf1)或化脓链球菌Cas9的同源物的情况下。在这种情况下，不需要脱蛋白以将衔接子附接到切割部位的两个相对端。效应蛋白的热灭活也可能不是必需的。

该方法可以包括使样品中的多核苷酸与结合至一个或更多个靶多核苷酸的一个或更多个引导多核苷酸接触。一个或更多个引导多核苷酸可以在感兴趣区域内或感兴趣区域外结合靶多核苷酸。因此，该方法可以包括添加两个或更多个，例如3、4、5、7、8、9、10、20、50、100、200、300、400、500、1000、5000、10，000或100，000或更多个引导多核苷酸至多核苷酸的样品中。引导多核苷酸可以靶向一个、两个或更多个，诸如，例如3、4、5、7、8、9、10、50、100、500、1000、10，000或100，000或更多个靶多核苷酸。

当多核苷酸样品与结合至靶多核苷酸中不同序列的两个或更多个引导多核苷酸接触时，多核苷酸引导的效应蛋白可在两个或更多个位点切割靶多核苷酸以在每个位点产生两个相对的切割端。在一个实施方式中，两个或更多个位点中的至少一个位于靶多核苷酸中的感兴趣区域的第一侧，两个或更多个位点中的至少一个位于靶多核苷酸中的感兴趣区域的第二侧，并且两个或更多个位点均不位于感兴趣区域内。

可以对引导多核苷酸进行定向，使得在位于感兴趣区域的每一侧上的位点切割靶多核苷酸后，多核苷酸引导的效应蛋白保持附接至不包含感兴趣区域的多核苷酸的切割端。以这种方式，可以将衔接子添加至包括感兴趣区域的多核苷酸的两端，而无需依赖于从靶多核苷酸脱落的多核苷酸引导的效应蛋白，或包括积极去除多核苷酸引导的效应蛋白的步骤。

在一个实施方式中，引导多核苷酸靶向的两个或更多个位点包括在靶多核苷酸中感兴趣区域的任一侧上的至少两个位点。在一个实施方式中，相同的多核苷酸引导的效应蛋白用于在所有的两个或更多个位点切割。在另一个实施方式中，使用不同的多核苷酸引导的效应蛋白在两个或多个位点切割。例如，在感兴趣区域的任一侧上有至少两个被引导多核苷酸靶向的位点时，感兴趣区域的第一侧上的位点中的一个可以被第一引导多核苷酸和第一多核苷酸引导的效应蛋白靶向，并且位点中的另一个可以被第二引导多核苷酸和第二多核苷酸引导的效应蛋白靶向。

可以增加或减少由效应蛋白保持与切割位点的一侧结合而导致的读取偏倚，以根据需要改善读段的方向性或增加双向测序读段的数量。在一些实施方式中，可以通过热灭活(变性)效应蛋白和/或通过使样品脱蛋白来降低偏倚。

在一些实施方式中，可以通过用RNA酶H处理裂解的多核苷酸(典型地为DNA)来减少偏倚。RNA酶H裂解RNA/DNA底物中的RNA。RNA酶H处理可以在效应蛋白的脱蛋白或热灭活之前或之后进行，优选地在其后进行，或者可以在不进行蛋白化或加热灭活步骤的情况下进行。典型地在dA加尾和衔接子连接之前将RNA酶加入样品中。

在一些实施方式中，可以通过处理裂解的多核苷酸具有3'-5'核酸外切酶活性的酶来增加偏倚。这种酶的一个实例是包括具有3'-5'核酸外切酶活性的核酸外切酶结构域的聚合酶。典型地在不存在dNTP的情况下添加聚合酶，以使其不具有聚合酶活性。这种酶的另一个实例是3'-5'核酸外切酶。优选地，具有3'-5'核酸外切酶活性的酶不具有5'-3'核酸外切酶活性。具有3'-5'核酸外切酶活性的合适的酶的实例包括但不限于核酸外切酶I、核酸外切酶III、核酸外切酶T、T4 DNA聚合酶、大肠杆菌DNA聚合酶I、phi29 DNA聚合酶和T7DNA聚合酶。聚合酶可以在效应蛋白的脱蛋白或热灭活之前或之后添加，优选地在其后添加，或者该方法可以不存在脱蛋白或热灭活的步骤。典型地在dA加尾和衔接子连接之前将聚合酶添加到样品中。

附接衔接子

衔接子可以与一个或更多个切割端，或者一个或更多个修饰的切割端，诸如，例如已被dA加尾的切割端杂交。

如果衔接子与靶多核苷酸杂交，使得衔接子的末端(例如3'末端)和与衔接子也已杂交的靶多核苷酸链杂交的靶多核苷酸链的末端(例如5'末端)之间存在缺口，则可以填充该缺口。这使得衔接子的末端(例如3'末端)和靶多核苷酸的末端(例如5'末端)彼此共价附接。

本领域已知用于修复双链结构中的单链缺口的方法。例如，可以使用聚合酶和连接酶(诸如DNA聚合酶和DNA连接酶)修复缺口。替代地，可以使用长度足以桥接缺口的随机寡核苷酸和连接酶修复缺口。

例如，可以使用在5'到3'方向上作用的聚合酶，在衔接子杂交到单链区域以封闭衔接子的3'末端与侧翼双链DNA的5'末端之间的间隙之后，延伸衔接子的末端。在5'至3'方向起作用的合适的聚合酶包括Taq聚合酶、大肠杆菌DNA聚合酶I、Klenow片段、Bst DNA聚合酶、M-MuLV逆转录酶、phi29聚合酶、T4 DNA聚合酶、T7 DNA聚合酶、Vent和Deep Vent DNA聚合酶。

该方法可以进一步包括将衔接子共价附接至双链多核苷酸。典型地，将衔接子的3'末端核苷酸共价附接至邻近单链区的5'末端核苷酸。共价附接可以通过任何合适的方法，例如通过连接或点击化学实现。

因此，该方法可以进一步包括共价附接，例如将衔接子连接至双链多核苷酸。例如，可以将连接酶(诸如T4 DNA连接酶)添加至样品，以将衔接子连接至双链多核苷酸。可以在不存在ATP的情况下或使用γ-S-ATP(ATPγS)代替ATP将衔接子连接到双链多核苷酸。可以使用的连接酶的实例包括T4 DNA连接酶、大肠杆菌DNA连接酶、Taq DNA连接酶、Tma DNA连接酶和9oN DNA连接酶。可以使用拓扑异构酶附接衔接子。拓扑异构酶可以是例如Moiety分类(EC)组5.99.1.2和5.99.1.3中的任何一个的成员。

衔接子

衔接子典型地可以包括3'部分或区域和5'部分或区域。衔接子的3'部分包括与双链多核苷酸中单链多核苷酸的暴露的一段杂交的单链多核苷酸的3'一段。

衔接子中单链多核苷酸的3'一段的长度可以是约1、2或3至约15个核苷酸，诸如长度是约4、5、6或7至约12、10或8个核苷酸。

在一个实施方式中，衔接子中的单链多核苷酸3'一段包括可以与双链多核苷酸中单链多核苷酸的暴露的一段中任何多核苷酸序列杂交的通用核苷酸。

在一个实施方式中，衔接子中的单链多核苷酸的3'一段包括与在靶向切割位点中单链突出端中暴露的多核苷酸序列至少约80％，诸如至少约90％或95％互补的序列。例如，衔接子中的单链多核苷酸的3'一段可以包括与双链多核苷酸中单链多核苷酸暴露的延伸中的多核苷酸序列完全互补的序列。

在一个实施方式中，衔接子中的单链多核苷酸的3'一段与双链多核苷酸中单链多核苷酸暴露的一段杂交，使得衔接子3'部分的3'末端的核苷酸与单链突出端的5'末端的核苷酸杂交。

衔接子中单链多核苷酸的3'一段的长度可以与靶多核苷酸中的单链突出端长度相同，或者衔接子中单链多核苷酸的3'一段可以比靶多核苷酸中突出端的长度短。

衔接子的5'部分不与靶多核苷酸杂交。5'部分可以是双链或单链的。典型地，5'部分是单链的或包括单链区域。衔接子5'部分中的单链区可例如用于将衔接子附接至另一多肽，诸如测序或其他衔接子或引物。

5'部分可具有例如约3至约45个核苷酸，诸如约6、8、10或15个至约30、25或20个核苷酸的长度。可以是全部5部分的5'部分的单链区域长度典型地至少约3、6、8、10或15个核苷酸。

衔接子典型地具有约10至约50或约60个核苷酸，诸如约15个至约40或约20至约30个核苷酸的长度。

在一个实施方式中，衔接子是或包括单链多核苷酸。单链多核苷酸可以具有3'部分，当靶多核苷酸被切割位点处的多核苷酸引导的效应蛋白切割时，该3'部分被设计为与将在靶多核苷酸的靶切割位点中(例如5'突出端中)暴露的序列杂交，例如互补。衔接子可以存在于单链多核苷酸的文库中。该文库可以包括单链多核苷酸，其被设计成与一个或多个靶多核苷酸中的多个不同切割位点杂交。在该实施方式中，单链多核苷酸可被称为条形码。文库中的每个单链多核苷酸可具有可与互补链杂交以产生包括5'或中央双链部分的衔接子的共同序列。在文库中的单链多核苷酸具有与将在靶多核苷酸中的靶切割位点中(例如5'突出端中)暴露的序列准确互补的序列情况下，当靶多核苷酸被切割位点处的多核苷酸引导的效应蛋白切割时，单链多核苷酸可被认为是特异的条形码。在文库中的单链多核苷酸具有与将在靶多核苷酸中的靶切割位点中(例如5'突出端中)暴露的序列部分互补的序列情况下，当靶多核苷酸被切割位点处的多核苷酸引导的效应蛋白切割时，单链多核苷酸可被认为是通用条形码。

在一个实施方式中，衔接子包括双链多核苷酸，其中，两条链在中心区域杂交，并且双链多核苷酸的一条链包括3'部分，该3'部分包括第一单链突出端。第一单链突出端可包括与多核苷酸引导的效应蛋白切割靶多核苷酸时产生的突出端序列互补的第一序列，或者第一单链突出端可包括例如可以与dA尾杂交的dT尾。

衔接子可包括第二单链突出端，其在中心区域的相对侧具有与第一单链突出端相对的序列，其中，第二序列不同于第一序列。第二单链突出端可以与第一单链突出端在同一链中，或者可以在与第一单链突出端相反的链中。第二个单链突出端的长度可以为1、2、3或4至30，诸如5至25、6至20、7至15、8至12或9至10个核苷酸。第二个单链突出端可以是5'突出端或3'突出端。在一个实施方式中，该方法进一步包括通过使另一衔接子与第二单链突出端序列杂交，将另一衔接子与附接到与靶多核苷酸的切割端附接的衔接子。

衔接子典型地是多核苷酸，并且可以包括DNA、RNA、修饰的DNA(诸如碱性DNA)、RNA、PNA、LNA、BNA和/或PEG。衔接子优选地包括单链和/或双链DNA和/或RNA。

衔接子可进一步包括用于将衔接子的5'部分附接至另一衔接子的化学基团(例如，点击化学)和/或用于将衔接子的3'部分附接至双链多核苷酸的化学基团(例如，点击化学)。

衔接子可以在3'部分和/或5'部分中进一步包括反应性基团。3'部分中的反应性基团可用于将衔接子共价附接至双链多核苷酸和/或5'部分中的反应性基团可用于将衔接子共价附接于另一衔接子。

反应性基团可用于利用点击化学将片段连接到突出端。点击化学是由Kolb等人于2001年首次提出的术语，以描述在小规模和大规模应用两者中可靠地工作的一组扩展的强大的、选择性的和模块化构件块(Kolb HC，Finn，MG，Sharpless KB，《点击化学：来自几个良好反应的不同化学功能(Click chemistry：diverse chemical function from a fewgood reactions)》，《应用化学国际版(Angew.Chem.Int.Ed.)》40(2001)2004–2021)。他们已经为点击化学定义了一套严格的标准，如下：“反应必须是模块化的、范围广、产率非常高、只产生可以通过非色谱方法去除的无害副产物，并且是立体特异性的(但不一定是对映选择性的)。所需的工艺特性包括简单的反应条件(理想情况下，该工艺应对氧气和水不敏感)，易于获得的起始材料和试剂，不使用溶剂或使用良性溶剂(诸如水)或易于除去，以及简单的产物分离。如果需要，必须通过诸如结晶或蒸馏等非色谱方法纯化，并且产物必须在生理条件下是稳定的”。

点击化学的合适的实例包括但不限于以下：

(a)1，3偶极环加成反应的无铜变体，其中，叠氮化物与炔烃在应变下(例如在环辛烷环中)反应；

(b)一个接头上的氧亲核试剂与另一个接头上的环氧化物或氮丙啶反应性部分的反应；以及

(c)施陶丁格连接，其中，炔部分可以被芳基膦取代，导致与叠氮化物的特异性反应，得到酰胺键。

任何反应性基团均可用于本发明。反应性基团可以是适合点击化学的基团。反应性基团可以是在WO 2010/086602中，特别是在该申请的表4中公开的那些基团中的任何一个。

在一个实施方式中，附接至切割位点的衔接子可以是测序衔接子。衔接子可以与靶多核苷酸的切割端连接。可以在不存在ATP的情况下或使用γ-S-ATP(ATPγS)代替ATP将衔接子连接至靶多核苷酸。优选地，在不存在ATP的情况下将衔接子连接至多核苷酸，其中，衔接子是与核酸处理酶结合的测序衔接子。

在该方法涉及在两个或更多个位点处切割以产生单链突出端时，该两个或更多个位点可以在相同的靶多核苷酸中或在不同的靶多核苷酸中，在切割端产生的突出端可以具有不同的核苷酸序列。在该实施方式中，该方法可以包括使样品与多个衔接子接触，其中不同的衔接子包括不同的单链多核苷酸序列，其典型地是突出端序列。设计不同衔接子中的不同序列以与通过多核苷酸引导的效应蛋白在不同靶多核苷酸上或在同一靶多核苷酸中不同位点的作用而产生的不同突出端序列杂交。

在利用多个衔接子的方法中，其中，每个衔接子包括不同的第一序列，所有衔接子可以包括相同的第二序列。在该实施方式中，第二序列可以用于以相同方式进一步加工已附接衔接子的所有靶多核苷酸。例如，可以将包括能够与第一衔接子的5'突出端中的第二序列杂交的单链多核苷酸的另一衔接子附接至样品中的所有靶多核苷酸。该另一衔接子典型地包括单链突出端，其具有与第一衔接子中的第二序列互补的序列。第一衔接子中的第二序列能够与另一衔接子突出端的互补序列杂交。

在第一衔接子是单链多核苷酸衔接子时，另一衔接子可以与当第一衔接子结合到切割端时形成突出端的全部或部分单链衔接子杂交。

优选地，第一衔接子中的第二序列与另一衔接子中的突出端序列完全互补。两个突出端序列之间可能存在一个或更多个碱基对错配。例如，可能存在1至4个碱基对错配，诸如两个或三个碱基对错配。然而，典型地，在两个突出端序列之间将存在至少4个，诸如5至20、6至15或8至10个匹配的碱基。

在希望将另一衔接子附接至5'突出端时，互补单链区优选地为双链另一衔接子上的5'突出端。例如，如果在连接到切割端时暴露的衔接子的突出端是顶部链上的5'突出端，则另一衔接子的突出端是底部链上的5'突出端，反之亦然。替代地，在希望将另一个衔接子附接至3'突出端的情况下，互补单链区域典型地为双链衔接子上的3'突出端。例如，在当衔接子绑定到切割端时暴露的突出端是底部链上的3'突出端的情况下，衔接子的突出端是顶部链上的3'突出端，反之亦然。

在另一衔接子上的突出端的长度典型地与第一衔接子附接到切割端时暴露的第一衔接子中突出端的长度相同。一个突出端可能比另一个突出端短。典型地，突出端能够在4至30个诸如5至25、6至20、7至15、8至12或9至10个核苷酸的区域上杂交。在杂交后，存在一段单链核苷酸时，可以例如使用聚合酶来填补缺口。优选地，两个互补的突出端的长度是相同的。

附接至通用突出端的另一衔接子可以例如是测序衔接子。测序衔接子可以是被设计用于利用跨膜孔的测序方法的衔接子。

可以从靶多核苷酸内的单个切割位点内对靶多核苷酸进行测序。整个靶多核苷酸可以被测序。替代地，仅靶多核苷酸内的感兴趣区域可以被测序。

衔接子或另一衔接子可以是用于使用跨膜孔表征靶多核苷酸的衔接子。使用跨膜孔表征靶多核苷酸的衔接子优选地包括前导序列、多核苷酸结合蛋白和/或膜或孔锚。

第一衔接子和/或另一衔接子可包括与核酸处理酶结合的单链多核苷酸。

衔接子或另一衔接子可包括用于结合至珠的标签。

衔接子优选地是合成的或人造的。衔接子优选地包括聚合物。聚合物优选地是多核苷酸。多核苷酸衔接子可以包括DNA、RNA、修饰的DNA(诸如碱性DNA)、RNA、PNA、LNA、BNA和/或PEG。衔接子更优选地包括DNA或RNA。

第一衔接子或另一衔接子可以是测序衔接子。测序衔接子可以是Y衔接子。Y衔接子典型地是多核苷酸衔接子。Y衔接子典型地是双链的，并且包括(a)两条链杂交在一起的区域，和(b)两条链不互补的末端区域。链的非互补部分形成突出端。由于两条链典型地彼此不杂交，不像双链部分那样，所以在Y衔接子中存在的非互补区域赋予衔接子以Y形状。双链部分的长度优选为5至约50个核苷酸碱基对，诸如6至约30、7至约20、8至15或9至约12个核苷酸碱基对。突出端区域的长度优选地为5至约50个核苷酸，诸如6至约30、7至约20、8至15或9至约12个核苷酸。

非互补链Y衔接子之一典型地包括前导序列，其与跨膜孔接触时能够穿入孔中。前导序列典型地包括聚合物。聚合物优选地带负电。聚合物优选地是多核苷酸，诸如DNA或RNA、修饰的多核苷酸(诸如脱碱基DNA)、PNA、LNA、聚乙二醇(PEG)或多肽。前导优选地包括多核苷酸，并且更优选地包括单链多核苷酸。单链前导序列最优选地包括DNA的单链，诸如poly dT区段。前导序列优选地包括一个或更多个间隔区。

前导序列可以是任何长度，但是典型地长度为10至150个核苷酸，诸如长度为20至120、30至100、40至80或50至70个核苷酸。

核酸处理酶可以结合至突出端，该突出端优选地包括前导序列，和/或结合到双链区域。酶优选地典型地被间隔区停住或在间隔区处停住。可以使用WO 2014/135838中公开的酶和间隔区的任何构型。优选的间隔区包括2至20个，诸如4、6、8或12个iSpC3基团、iSp18基团或iSp9基团，更优选地4、12或20个iSpC3基团，6个iSpC9基团或2或6个iSpC18基团。非互补链Y衔接子之一典型地包括前导序列，其与跨膜孔接触时能够穿入孔中。

在一个实施方式中，Y衔接子包括膜锚或孔锚。锚可以附接至与未结合酶的突出端互补并因此杂交的多核苷酸。与锚附接的多核苷酸的长度优选地为5至约50个核苷酸，诸如6至约30、7至约20、8至15或9至约12个核苷酸。

Y衔接子典型地在杂交区域的相对端包括与赋予衔接子Y形的突出端相对的另一单链突出端。当第一衔接子是Y衔接子时，Y衔接子包括单链区，其与靶多核苷酸切割端的突出端互补，并且其在与两条链不互补的末端区域相对Y衔接子的相对端。在另一衔接子是Y衔接子时，Y衔接子包括单链突出端，该单链突出端与在靶多核苷酸的切割端处附接的第一衔接子末端处的突出端互补，并且该单链突出端在Y衔接子的与两条链不互补的末端区域的相对端处。

在一个实施方式中，在衔接子附接至靶多核苷酸的每个末端的切割位点的情况下，衔接子之一可以是发夹环衔接子，或者在两端之一添加到衔接子的另一衔接子可以是发夹环衔接子。发夹环衔接子是包括单个多核苷酸链的衔接子，其中，多核苷酸链的末端能够彼此杂交，或彼此杂交，并且其中，多核苷酸的中间部分形成环。可以使用本领域已知的方法设计合适的发夹环衔接子。环可以是任何长度。环的长度优选为约2至400、5至300、10至200、20至100个核苷酸或30至50个核苷酸。由多核苷酸链的两个杂交部分形成的衔接子的双链部分称为茎。发夹环的茎的长度优选地为4至200，诸如5至150、10至100、20至90、30至80、40至70或50至60个核苷酸对。在核酸处理酶结合至发夹衔接子或与其结合时，其典型地与发夹的环结合而不是与茎结合。

在一个实施方式中，可将Y衔接子添加至靶多核苷酸的一端，并且将发夹环衔接子添加至另一端。

在一个实施方式中，测序衔接子，诸如Y衔接子和/或发夹衔接子，还包括膜锚或孔锚。合适的锚是本领域已知的，例如描述于WO 2012/164270和WO 2015/150786中。优选地，锚是膜锚。优选地，膜锚包括胆固醇或脂肪酰基链。例如，可以使用长度为6至30个碳原子的任何脂肪酰基链，诸如十六烷酸。

在一个实施方式中，衔接子或另一衔接子包括条形码序列。多核苷酸条形码是本领域中众所周知的(Kozarewa，I.等人，(2011)，《分子生物学方法》(Methods Mol.Biol.)733，第279-298页)。

在一个实施方式中，衔接子或另一衔接子可包括与扩增引物互补的序列，诸如PCR引物或用于等温扩增的引物。该方法可以进一步包括使用一对PCR序列扩增靶多核苷酸中的感兴趣区域，该一对PCR序列与位于所适配的多核苷酸中感兴趣区域侧翼的衔接子内的序列杂交。该方法可以进一步包括使用一种或更多种与附接到靶多核苷酸的衔接子的序列杂交的引物，扩增靶多核苷酸中的感兴趣区域。

在一个实施方式中，可以在衔接子附接之前扩增裂解的靶多核苷酸。在该实施方式中，将扩增衔接子(诸如PCR衔接子)添加至裂解的多核苷酸的dA尾端。然后在添加测序接头之前进行扩增反应，诸如PCR。

扩增衔接子(诸如PCR衔接子)可以被磷酸化或脱磷酸化。在一些实施方式中，扩增衔接子的脱磷酸化是优选的。扩增增加了靶读段的数量，例如最多至至少约5％，至少约10％或更多。

在一个实施方式中，将效应蛋白(或多个)靶向靶多核苷酸任一侧的切割位点，使得扩增衔接子(例如PCR衔接子)连接至靶多核苷酸的两端，然后使用与连接到靶DNA的扩增衔接子(例如PCR衔接子)上的突出端结合的引物(例如PCR引物)来扩增该靶多核苷酸。突出端典型地是与引物互补的5'突出端。

因此，在一个实施方式中，扩增引物(例如PCR引物)典型地包括双链部分和单链部分。单链部分典型地是5'突出端。例如，单链部分可具有的长度为约10至约100，诸如约30至约80，或约40至约60，诸如约50个核苷酸。单链区域的全部或部分与用于扩增的引物(诸如PCR引物)互补。双链部分可具有平端。平端可连接至平端切割位点。替代地，双链区域可以在扩增衔接子的中央，并且扩增衔接子可以包括第二单链区域，其中，第二单链区域是3'突出端。3'突出端是单链多核苷酸的3'一段，其可以具有与上述衔接子的单链多核苷酸的3'一段相同的特征。

在一个实施方式中，第一衔接子或另一衔接子可使靶多核苷酸能够被捕获，例如通过使用生物素化的第一衔接子或生物素化的另一衔接子，或与可与捕获链结合的另一亲和分子或多核苷酸附接的第一衔接子或另一衔接子。信号可以附接至第一衔接子或另一衔接子，以使得能够容易地检测和/或鉴定靶多核苷酸。该信号可以例如是分子信标或荧光团。在一个实施方式中，第一衔接子可包括淬灭剂，并且另一衔接子可包括荧光团，反之亦然。

在一个实施方式中，衔接子可以包括条形码序列。条形码序列是本领域已知的。条形码是多核苷酸的特定序列，其例如通过以特定且已知的方式影响流过孔的电流来产生独特的信号。该方法可以是用于分析多个样品的多路复用方法，其中利用了多个衔接子，每个衔接子具有不同的条形码。例如，在一个实施方式中，分析多个，诸如从两个至约100个或更多，诸如约5个、约10个、约20个或约50个样品，其中，每个样品通过如本文所公开的方法处理，并且其中，将包括唯一条形码的衔接子用于每个测试样品。条形码衔接子连接后，可以合并使用该样品的方法的产物。

条形码可以包括在中间衔接子例如扩增衔接子中，和/或在测序衔接子中。在条形码位于测序衔接子中的实施方式中，可以在附接测序衔接子之前或之后合并在不同样品上进行的方法的产物。

添加测序衔接子

在一个实施方式中，该方法进一步包括将测序衔接子附接到与切割位点附接的衔接子的5'部分。因此，衔接子可以充当第一衔接子或中间衔接子。

测序衔接子可以包括与第一衔接子的5'部分中的一段单链多核苷酸杂交的单链部分。测序衔接子可以包括单链前导序列、多核苷酸结合蛋白和/或膜或孔锚。测序衔接子可以具有上述衔接子的任何特征。

杂交后，可使用连接酶或通过点击化学将测序衔接子共价附接至衔接子。连接酶可以是，例如T4 DNA连接酶、大肠杆菌DNA连接酶、Taq DNA连接酶、Tma DNA连接酶和9oNDNA连接酶。可以使用拓扑异构酶附接衔接子。拓扑异构酶可以是例如Moiety分类(EC)组5.99.1.2和5.99.1.3中的任何一个的成员。可以在不存在ATP的情况下或使用γ-S-ATP(ATPγS)代替ATP将测序衔接子连接至多核苷酸。优选地，在不存在ATP的情况下将衔接子连接至多核苷酸，其中核酸处理酶与测序衔接子结合。

在衔接子已经附接至靶多核苷酸之后，可以将测序衔接子附接至衔接子。因此，该方法可以包括将第一衔接子附接至靶多核苷酸的切割位点的步骤，以及将测序衔接子附接至第一衔接子的顺序步骤。因此，可以在将测序衔接子添加到样品之前将第一(中间)衔接子添加到样品。

测序衔接子可以在第一衔接子附接到靶多核苷酸之前附接到第一衔接子。而且，该方法可以包括在单个步骤中将第一衔接子附接至靶多核苷酸并将测序衔接子附接至第一衔接子。因此，测序衔接子和第一(中间)衔接子可以同时添加到样品中。

在一个实施方式中，可以在已附接扩增衔接子的靶多核苷酸扩增后将测序衔接子添加至靶多核苷酸。

核酸处理酶

衔接子上的核酸处理酶可以是能够与多核苷酸结合并加工多核苷酸的任何蛋白质。在加工多核苷酸时，核酸处理酶沿多核苷酸移动。酶的移动方向是一致的。一致的移动意指酶从多核苷酸的5'末端移动到3'末端，或反之亦然。酶可以在加工多核苷酸时对其进行修饰。发生多核苷酸的修饰不是必需的。因此，核酸处理酶可以是保留其沿多核苷酸移动的能力的修饰的酶。

核酸处理酶可以是例如移位酶、解旋酶、聚合酶或核酸外切酶。

核酸处理酶可以沿单链多核苷酸(诸如单链DNA或单链RNA)移动，或者可以沿双链多核苷酸(诸如双链DNA或DNA/RNA杂交体)移动。例如，可以使用作用于单链或双链DNA的解旋酶或移位酶。合适的解旋酶的实例包括Dda、Hel308、NS3和TraI。这些解旋酶典型地作用于单链DNA。可以沿双链DNA的两条链移动的解旋酶的实例包括FtfK和六聚体酶复合物，诸如RecBCD。

解旋酶可以是WO 2013/057495、WO 2013/098562、WO2013098561、WO 2014/013260、WO 2014/013259、WO 2014/013262以及WO/2015/055981中所公开的任何解旋酶、修饰的解旋酶或解旋酶构建体。Dda解旋酶优选地包括WO/2015/055981和WO 2016/055777中所公开的任何修饰。

核酸处理酶可以是聚合酶。当聚合酶沿多核苷酸移动时，聚合酶典型地将合成互补的多核苷酸链。否则，可以以类似于移位酶的方式使用聚合酶。聚合酶可以是修饰的聚合酶，其保留其沿多核苷酸移动的能力，但是其不合成互补链。例如，聚合酶可以是

3173DNA聚合酶(可商购自

公司)、SD聚合酶(可商购自

)或其变体。该酶优选地是Phi29 DNA聚合酶或其变体。拓扑异构酶优选地是Moiety分类(EC)组5.99.1.2和5.99.1.3中的任一个的成员。

核酸处理酶可以是核酸外切酶。核酸外切酶典型地在核酸外切酶沿多核苷酸移动时消化多核苷酸。核酸外切酶典型地裂解双链多核苷酸的一条链以形成单个核苷酸或核苷酸的较短链，诸如二核苷酸或三核苷酸。当使用核酸外切酶时，最终选择的多核苷酸是双链多核苷酸的未消化链，或其中一条链被部分消化而另一条链完整的多核苷酸。

核酸处理酶优选地是能够处理长多核苷酸链的酶。典型地，核酸处理酶能够沿500个核苷酸碱基对最多至2.5亿个核苷酸碱基对的多核苷酸链移动，诸如1，000、2，000、5，000、10，000、50，000或100，000个核苷酸碱基对最多至2亿、1亿、1千万或1百万个核苷酸碱基对。

酶可以是修饰的或未修饰的。这种酶可以被修饰以形成封闭复合物。封闭复合物是这样一种酶，其中多核苷酸结合位点被修饰，使得酶以如下方式封闭在多核苷酸周围：除了到达多核苷酸末端时，酶不会从多核苷酸上脱落。合适的封闭复合物酶和用于修饰酶以产生封闭复合物的方法的实例公开于例如WO 2014/013260和WO 2015/055981中。

表征方法

提供一种表征多核苷酸的方法。上述方法可以进一步包括表征靶多核苷酸。

检测和/或表征靶多核苷酸的方法典型地包括：

(a)使通过本文所述的方法获得的修饰的多核苷酸样品与包括跨膜孔的膜接触；

(b)在膜上施加电位差；以及

(c)监测由复合物与跨膜孔的相互作用产生的效应的存在或不存在，以确定复合物的存在或不存在，从而检测样品中的靶多核苷酸和/或监测复合物与跨膜孔的相互作用，以确定靶多核苷酸的一个或更多个特征。

该方法可以涉及测量每种多核苷酸的两个、三个、四个或五个或更多个特征。一个或更多个特征优选地选自：(i)多核苷酸的长度，(ii)多核苷酸的同一性，(iii)多核苷酸的序列，(iv)多核苷酸的二级结构，以及(v)多核苷酸是否被修饰。可以根据本发明来测量(i)到(v)的任何组合，诸如：{i}、{ii}、{iii}、{iv}、{v}、{i，ii}、{i，iii}、{i，iv}、{i，v}、{ii，iii}、{ii，iv}、{ii，v}、{iii，iv}、{iii，v}、{iv，v}、{i，ii，iii}、{i，ii，iv}、{i，ii，v}、{i，iii，iv}、{i，iii，v}、{i，iv，v}、{ii，iii，iv}、{ii，iii，v}、{ii，iv，v}、{iii，iv，v}、{i，ii，iii，iv}、{i，ii，iii，v}、{i，ii，iv，v}、{i，iii，iv，v}、{ii，iii，iv，v}或{i，ii，iii，iv，v}。

靶多核苷酸优选地通过测序来表征。

对于(i)，例如可以通过测定多核苷酸与孔之间的相互作用的数量或多核苷酸与孔之间的相互作用的持续时间，来测量多核苷酸的长度。

对于(ii)，可以用多种方式来测量多核苷酸的同一性。多核苷酸的同一性可以结合多核苷酸序列的测量或不测量多核苷酸的序列来测量。前者是很简单的；对多核苷酸进行测序并由此鉴定该多核苷酸。后者可以按若干方式进行。举例来说，可以测量多核苷酸中的特定基序的存在(不测量多核苷酸的其余序列)。替代地，在该方法中对特定电信号和/或光学信号的测量可以将多核苷酸识别为来自于特定来源。

对于(iii)，可以如前所述确定多核苷酸的序列。在Stoddart D等人，《美国国家科学院院刊(Proc Natl Acad Sci)》，12；106(19)：7702-7；Lieberman KR等人，《美国化学会志(J Am Chem Soc.)》2010；132(50)：17961-72；以及国际申请WO 2000/28312中描述了合适的测序方法，特别是使用电气测量的那些。

对于(iv)，可以用多种方式测量二级结构。例如，如果该方法涉及电气测量，那么可以使用停留时间的变化或流过孔的电流的变化来测量二级结构。这允许区分单链多核苷酸和双链多核苷酸的区域。

对于(v)，可以测量任何修饰的存在或不存在。该方法优选地包括：用一个或更多个蛋白质或者用一个或更多个标记、标签或间隔区确定多核苷酸是否通过甲基化、通过氧化、通过损坏来修饰。特异的修饰将引起与可使用以下所描述的方法测量的孔的特异的相互作用。例如，可以基于在孔与每个核苷酸相互作用期间流过孔的电流将甲基胞嘧啶与胞嘧啶区分开。

可以使用适合于研究膜/孔系统的任何设备来进行该方法，在该系统中，孔存在于膜中。可以使用适合于跨膜孔感测的任何设备来进行该方法。例如，设备包括腔室，该腔室包括水溶液和将腔室分成两个部分的屏障。屏障典型地具有孔口，在其中形成包含孔的膜。替代地，屏障形成其中存在孔的膜。跨膜孔是本领域已知的。合适的膜和装置也是已知的，用于分析电流信号以确定多核苷酸的序列和其它特征的方法也是已知的。可以使用在WO2008/102120中所述的设备来进行该方法。可以进行各种不同类型的测量。这包括但不限于：电气测量和光学测量。《美国化学会志(J.Am.Chem.Soc.)》2009，131 1652-1653公开了一种涉及荧光测量的合适的光学方法。可能的电气测量包括：电流测量、阻抗测量、隧道测量(Ivanov AP等人，《纳米快报(Nano Lett.)》2011年1月12日；11(1)：279-85)以及FET测量(国际申请WO 2005/124888)。光学测量可以与电气测量结合(Soni GV等人，《科学仪器综述(Rev Sci Instrum.)》2010年1月；81(1)：014301)。测量可以是跨膜电流测量，诸如对流过孔的离子电流的测量。

表征方法典型地包括在多核苷酸相对于跨膜孔移动时测量通过跨膜孔的电流。

珠可用于促进靶多核苷酸向孔的递送，例如，如WO 2016/059375中所公开的。

试剂盒

还提供了用于选择性修饰多核苷酸样品中的靶多核苷酸的试剂盒。在一个实施方式中，用于选择性修饰多核苷酸样品中的靶多核苷酸的试剂盒包括脱磷酸酶、衔接子、以及任选地聚合酶、连接酶、多核苷酸引导的效应蛋白和引导多核苷酸中的一种或更多种。试剂盒可进一步包括一种或更多种引导多核苷酸和/或一种或更多种多核苷酸引导的效应蛋白。试剂盒中的衔接子可包括dN尾，诸如单个N或polyN尾，其中，N是核苷酸A、T、C或G。

在一个实施方式中，试剂盒可包括一个或更多个第一衔接子以及本文所述的一个或更多个引导多核苷酸和/或一个或更多个第一衔接子。试剂盒可进一步包括一种或更多种多核苷酸引导的效应蛋白和/或一种或更多种本文定义的另一衔接子。

在一个实施方式中，试剂盒可包括：与靶多核苷酸中的序列结合的引导多核苷酸；能够切割靶多核苷酸以产生包括突出端的切割端的多核苷酸引导的效应蛋白；和包括中央双链区域的第一衔接子，在一端的第一单链区域——具有与多核苷酸引导的效应蛋白切割靶多核苷酸时产生的突出端序列互补的第一序列。

第一衔接子可以是本文定义的任何衔接子。第一衔接子可以任选地进一步包括在衔接子的另一端与第一单链突出端相对的第二单链突出端，其中，第二单链突出端具有与第一序列不同的第二序列，并且试剂盒可以包括包含单链区域的另一衔接子，该单链区域具有与第一衔接子中的第二序列互补的序列。

还提供了一种试剂盒，其包括：包括中央双链区域的第一衔接子，在一端具有第一序列的第一单链区域，所述第一序列与多核苷酸引导的效应蛋白切割靶时产生的突出端的序列互补，和在另一端具有第二序列的第二单链区域，其中第二序列不同于第一序列；和另一衔接子，其包括具有与第一衔接子中的第二序列互补的序列的单链区域。

第一衔接子可以是本文定义的任何衔接子。另一衔接子可以是本文定义的任何另一衔接子。

在任一上述试剂盒实施方式中，试剂盒可包括一个或更多个，诸如2至50、3至40、5至30或10至20个本文所述的第一衔接子以及一个或更多个另一衔接子，诸如2至50、3至40、5至30或10至20个本文所述的另一衔接子。

优选地，试剂盒包括一组第一衔接子，其中，每个衔接子在第一突出端区域具有不同的序列，并且在第二突出端区域具有相同的序列。在该组的第一衔接子在第二突出端区域具有相同序列的情况下，试剂盒优选地包括一种类型的另一衔接子。

系统

一方面，提供了一种用于选择性适应多核苷酸样品中的靶多核苷酸的系统，该系统包括：

(a)保护多核苷酸末端的方法；

(b)与靶多核苷酸中的序列结合的引导多核苷酸；

(c)多核苷酸引导的效应蛋白；和

(d)与由多核苷酸引导的效应蛋白产生的切割多核苷酸末端相容的衔接子。

在一个实施方式中，用于保护多核苷酸末端的方法是脱磷酸酶。脱磷酸酶通过使多核苷酸的5'末端脱磷酸来保护样品中多核苷酸的末端。

还提供了一种用于检测样品中靶多核苷酸的存在的系统，该系统进一步包括纳米孔，例如存在于膜中的纳米孔。在一些实施方式中，该系统包括与测序装置或设备兼容的流动池。

在一些实施方式中，在该系统中，多核苷酸引导的效应蛋白是RNA引导的效应蛋白，诸如Cas3、Cas4、Cas8a、Cas8b、Cas8c、Cas9、Cas10、Cas10d、Cas12a、Cas13、Csn2、Csf1、Cmr5、Csm2、Csy1、Cse1、C2c2、Cas14、CasX或CasY。在一些实施方式中，多核苷酸引导的效应蛋白切割双链多核苷酸的一条链。在其他实施方式中，多核苷酸引导的效应蛋白切割双链多核苷酸的两条链以产生平端。在另一实施方式中，多核苷酸引导的效应蛋白切割双链多核苷酸的两条链以产生单链突出端。

在一些实施方式中，在该系统中，衔接子包括单个N或polyN尾，其中，N是核苷酸A、T、C或G。在一个实施方式中，衔接子包括单个T或polyT尾。在一个实施方式中，衔接子是中间衔接子，并且系统进一步包括测序衔接子，其包括与中间衔接子互补的部分。测序衔接子可以是例如单链前导序列、多核苷酸结合蛋白和/或膜或孔锚。

在一个实施方式中，该系统包括与靶多核苷酸中的不同序列结合的两个或更多个引导多核苷酸，使得多核苷酸引导的效应蛋白在两个或更多位点切割靶多核苷酸以在每个位点产生两个相对的切割端。

在一个实施方式中，该系统进一步包括与衔接子内的序列互补的一对PCR引物。

在一些实施方式中，该系统进一步包括聚合酶和/或连接酶。

以下非限制性实施例展示了本发明。

实施例1

本实施例证实了如何使用单个简并的合成crRNA探针富集细菌基因组的重复区域以用于纳米孔测序。富集不是通过靶与非靶DNA的物理分离而发生的，而是分别通过脱磷酸化和CRISPR/Cas9介导的靶区域的裂解来保护和去保护DNA末端免受衔接子连接而发生的。这里描述了一种简单的一锅法，其中，依次执行酶促步骤(脱磷酸化、Cas9介导的裂解、dA加尾和衔接子连接)。

材料和方法

根据生产商的说明，通过使用Qiagen tip-500从大肠杆菌(菌株SCS110)提取物来纯化高分子量基因组DNA(“gDNA”)。通过用牛小肠脱磷酸酶处理将5μg gDNA脱磷酸化。在总共50μL NEB CutSmart缓冲液(新英格兰生物实验室有限公司，目录号#B7204)中，将2.5μLQuick CIP(“NEB Quick CIP kit”，来自新英格兰生物实验室有限公司，目录号#M0508)加入到5μg gDNA中，在37℃处放置10min，然后在80℃处热灭活脱磷酸酶2min。该步骤产生了“末端保护的gDNA”。

如下制备野生型化脓性链球菌Cas9核糖核蛋白复合物(RNP)。通过将1μL AR363(100μM)、1μL AR400(100μM)和8μL无核酸酶双链体缓冲液(集成DNA技术有限公司，目录号#11-01-03-01)在95℃温育5min，然后冷却至室温以形成10μM tracrRNA-crRNA复合物将寡核苷酸AR363(带有5′DNA延伸的合成tracrRNA，此处未使用)和AR400(合成crRNA)首先退火。然后，将9μL tracrRNA-crRNA复合物(终浓度600nM)与200nM化脓性链球菌Cas9(新英格兰生物实验室有限公司，目录号#M0386M)在总共150μL NEB CutSmart缓冲液中于室温温育20分钟，形成RNP。此步骤产生了150μL的“Cas9 RNP”。

在三个单管中执行了三个不同的反应，如下所示：

(1)靶裂解反应，其中使用Taq聚合酶执行dA加尾，其中Cas9 RNP和Taq聚合酶同时添加到反应混合物中，但dA加尾反应是通过将温度从37℃(Cas9靶裂解接近最佳活性的温度)升高到72℃(Cas9热灭活，但Taq聚合酶对dA加尾具有最佳活性时的温度)来启动的。

500ng末端保护的gDNA的裂解和dA加尾是通过温育5μL(500ng)脱磷酸化文库(端保护的gDNA，如上)、25μL Cas9 RNP(如上)、200μM dATP(1.6μL 10mM储备)、5,000单位(1μL)Taq聚合酶(新英格兰生物实验室有限公司，目录号#M0273)、4.5μL NEB CutSmart缓冲液、40.5μL无核酸酶的水，总计77.6μL来实现的。使用PCR热循环仪，将该混合物在37℃处温育30min，以使用Cas9裂解靶位点，然后在72℃处温育5min以变性Cas9和dA加尾所有可接近的3′末端，产生500ng“靶裂解的DNA，由Taq聚合酶dA加尾”。该步骤在与上述脱磷酸步骤相同的管中执行，并进行下一步连接步骤。

(2)靶裂解反应，其中使用大肠杆菌DNA聚合酶I的核酸外切酶突变体Klenow片段，dA加尾与Cas9介导的靶裂解同时执行。

500ng末端保护的gDNA的裂解是通过温育5μL(500ng)脱磷酸化文库(端保护的gDNA，如上)、25μL Cas9 RNP(如上)、200μM dATP(1.6μL 10mM储备液)、4.5μL NEBCutSmart缓冲液、4.5μL(22,500单位)的Klenow片段(5′-3′exo^-；NEB，目录号#M0212)和40.5μL的无核酸酶的水，总计79.5μL来实现的。将该混合物在37℃下温育30min，以使用Cas9裂解靶位点和dA加尾所有可接近的3′末端。随后将Cas9和Klenow片段在75℃加热变性20min。此步骤产生500ng“靶裂解的DNA，通过Klenow片段伴随的dA加尾”。

(3)靶裂解反应，其中使用Cas9 RNP和大肠杆菌DNA聚合酶I的核酸外切酶突变体Klenow片段，依次执行裂解和dA加尾。

500ng末端保护的gDNA的裂解是通过将5μL(500ng)脱磷酸化文库(端保护的gDNA，如上)、25μL Cas9 RNP(如上)、200μM dATP(1.6μL 10mM储备液)、40.5μL的无核酸酶的水和4.5μL NEB CutSmart缓冲液在37℃处温育30min来实现的。然后将Cas9通过在75℃处温育20min并冷却至室温而热灭活。向同一管中加入4.5μL(22,500单位)的Klenow片段(5′-3′exo^-；NEB，目录号#M0212)，总计79.5μL。将该混合物在37℃温育30min，以dA加尾可接近的DNA末端。随后将Klenow片段在75℃加热变性20min。该步骤产生了500ng“靶裂解的DNA，依次通过Klenow片段dA加尾”。

进行靶裂解和dA加尾步骤后，将测序衔接子连接至每个样品。通过将靶裂解的、dA加尾的gDNA与以下温育：40μL 4x连接缓冲液(ONLS13117)、2.35μL AMX 1D(来自牛津纳米孔LSK-108，使用Vivaspin-500浓缩器浓缩至1.7μM；Sartorius)、10μL T4DNA连接酶(200万单位/mL，来自NEB Quick连接酶试剂盒；NEB，目录号#M2200)和26.7μL无核酸酶的水，总体积为约160μL，在同一管中执行衔接子连接。将该混合物在室温处温育10min以产生连接衔接子的gDNA。然后将混合物进行SPRI纯化，以除去未连接的衔接子和其他污染物。将0.4体积(约64μL)的SPRI珠(AMPure XP珠，贝克曼库尔特公司)添加到连接衔接子的DNA中，通过颠倒轻轻混合，并在室温处温育10min以将连接衔接子的DNA结合到珠上。使用磁选机对珠进行沉淀，除去上清液，并用250μL ABB(来自牛津纳米孔LSK-108)洗涤两次，每次洗涤均完全再悬浮珠，洗涤后重新沉淀珠。二次洗涤后，将珠再次沉淀，除去多余的洗涤缓冲液，并且通过在室温处将珠在16μL Tris洗脱缓冲液(10mM Tris-Cl，20mM NaCl，pH 7.5)中再悬浮10min，从珠中洗脱DNA。将珠再一次沉淀，并保留包含在靶位点适应的纯化gDNA的洗脱液(上清液)。将23.3μL RBF和11.7μL LLB(均来自牛津纳米孔技术的LSK-108)添加到15μL洗脱液中，以产生“MinION测序混合物”。

为了对靶DNA进行测序，通过经由入口端口引入800μL流动池制备混合物(使用以下制备：480μL来自牛津纳米孔LSK-108的RBF、520μL无核酸酶的水、0.5μL 100μM胆固醇衔接子-系链SK43)制备牛津纳米孔技术FLO-MIN106流动池。随后打开SpotON端口，并经由入口端口灌注另外200μL流动池制备混合物。经由SpotON端口将50μL MinION测序混合物添加到流动池中，并关闭端口。使用牛津纳米孔技术公司的MinKNOW(版本1.10.6)收集6h的测序数据，并且随后进行碱基测序(basecall)(使用Albacore)，并离线与大肠杆菌SCS110参考基因组进行了比对。

结果

下面的图15和表1检查了Taq聚合酶条件(条件(1))在正向和反向取向读段之间的偏倚。在大肠杆菌SCS110参考物中两个取向中都发现由简并crRNA探针靶向的rrs基因。七个rrs基因中有六个在读取方向上表现出明显的偏倚，这与参考基因组中该基因的取向相关。在其他两个条件下(条件(2)和(3)，图15)也观察到了非常相似的偏倚。

图16示出了读段与大肠杆菌参考序列比对产生的堆积。上述实验中使用的crRNA靶向大肠杆菌SCS110菌株中rrs基因的所有七个拷贝共有的原间隔区序列。如预期的那样，在七个rrs基因(其位置示出在下面的表1中)的每个位置上都观察到靶区域的富集，示出Cas9主要在正确的位置切割，切割位点被释放(以不同程度)和dA加尾，并且衔接子有效地连接到切割位点。

图16还突出了所使用方法之间的差异。当使用Taq聚合酶(条件(1))在72℃处dA加尾裂解样品时获得最高的命中目标通量(8698)。相反地，将裂解的样品在37℃处进行dA加尾时伴随以Cas9裂解(条件(2))，获得最低数量的命中目标读段(1095)。当Cas9热灭活后将样品dA加尾时(条件(3))，获得中间数量的读段(5191)。命中目标读段的百分比当在72℃使用Taq聚合酶对裂解样品进行dA加尾时(条件(1))为84.1％，在37℃对裂解样品进行dA加尾伴随以Cas9裂解时(条件(2))为75.9％和在Cas9热灭活后对样品进行dA加尾时(条件(3))为86.3％。

表1：当在72℃使用Taq聚合酶对裂解样品进行dA加尾时，大肠杆菌中rrs基因的位置以及获得的正向和反向取向读段之间的读段偏倚

我们已经确定(如在WO 2018/060740中所述)，将结合的、核酸酶缺陷化脓性链球菌dCas9在高于约60℃的温度下温育5min后即从靶DNA解离。在这里，野生型Cas9的热灭活是在72℃处5min(对于Taq条件，条件(1))或在75℃处20min(对于Klenow exo-序列条件，条件(2))。条件(1)和(2)的命中目标读段百分比的相似性表明，在72℃处进行5min足以使至少由产生Cas9的双链断裂的PAM近端侧可接近dA-加尾酶。

综上所述，数据表明：(i)需要在Cas9介导的裂解之后的Cas9热灭活增加切割位点对dA加尾聚合酶的可及性；(ii)在热变性后，切口的短(PAM近端)侧优先被Cas9释放，而PAM远端侧仍被变性的Cas9结合，并且dA加尾酶的可及性大大降低；以及(iii)72℃温育5min足以使产生Cas9的末端可接近dA-加尾酶。

实施例2

该实施例证实了可以使用多种合成的crRNA探针从人基因组DNA(gDNA)样品中切除多个感兴趣区域(ROI)并对其进行测序。在这里，使用一系列冗余探针切除了十个人基因靶，并使用Cas9测序至高覆盖深度(每个等位基因>100x)而无需扩增。扩增的缺乏保留了某些有趣的结构特征，诸如与疾病相关的核苷酸扩展重复。此外，我们在这里示出，需要gDNA库的脱磷酸化来减少读取的背景DNA链的数量，从而增加命中目标DNA读段的通量。

材料和方法

根据生产商的说明，使用Qiagen tip-500通过来自培养的人细胞(细胞系GM12878；科里尔研究所)的提取物来纯化高分子量基因组DNA(“gDNA”)。经由用牛小肠脱磷酸酶处理，将总共25μg gDNA进行了脱磷酸化。在总共250μL NEB CutSmart缓冲液(新英格兰生物实验室有限公司，目录号#B7204)中，向25μg gDNA中添加12.5μL Quick CIP(来自“NEB Quick CIP试剂盒”，新英格兰生物实验室有限公司，目录号#M0508)，在37℃处10min，然后在80℃处热灭活脱磷酸酶2min。该步骤产生了“末端保护的gDNA”。

另外地，将5μg非脱磷酸化的GM12878添加到总计50μL NEB CutSmart缓冲液中制备对照文库。该步骤产生了“非脱磷酸化的gDNA”。

如下制备野生型化脓性链球菌Cas9核糖核蛋白复合物(RNP)。通过在EppendorfDNA Lo-Bind管中混合1μL每种crRNA(再悬浮于100μM TE缓冲液，pH 7.5)，制备41种定制Alt-R Cas9 crRNA(由集成DNA技术有限公司合成)的等摩尔混合物。通过在95℃处温育1μLAR363(在100μM)、1μL crRNA混合物(100μM)和8μL无核酸酶的双链缓冲液(集成DNA技术有限公司，目录号#11-01-03-01)5min，对寡核苷酸AR363(带有5′DNA延伸的合成tracrRNA，此处未使用)和合成crRNA的41探针池进行退火，然后冷却至室温，形成10μM tracrRNA-crRNA复合物。然后，在室温处将7.5μL tracrRNA-crRNA复合物(终浓度600nM)与300nM化脓性链球菌Cas9(新英格兰生物实验室有限公司，目录号#M0386M)在总共125μL NEB CutSmart缓冲液中温育20分钟，以形成RNP。此步骤产生了125μL的“Cas9 RNP”。

通过添加25μL Cas9 RNP裂解50μL(5μg)末端保护的gDNA。将反应液在37℃温育60min，然后在75℃加热灭活20min，然后缓慢冷却至室温。通过在同一管中加入1.6μL 10mMdATP和4.5μL Klenow exo-(NEB，目录号M0212)，并在37℃处温育30min，然后在75℃处热灭活20min，对gDNA进行dA加尾。此过程复制了实施例1中描述的条件(3)。该过程产生了文库A(75μL)。

作为对脱磷酸化要求的对照，将50μL(5μg)未脱磷酸化的gDNA与末端保护的gDNA完全一样地裂解和dA加尾。该过程产生了文库B(75μL)。

作为对靶区域中读段所需的Cas9生成的末端的对照，将25μL NEB CutSmart缓冲液添加到50μL(5μg)末端保护的gDNA中。将混合物在37℃处温育60min，然后在75℃加热灭活20min，然后缓慢冷却至室温。通过在同一管中加入1.6μL 10mM dATP和4.5μL Klenowexo-(NEB，目录号M0212)，并在37℃处温育30min，然后在75℃处热灭活20min，对gDNA进行dA加尾。此过程复制了实施例1中描述的条件(3)。该过程产生了文库C(75μL)。

通过分别将文库A、文库B或文库C与以下温育：40μL 4x连接缓冲液(ONLS13117)、2.35μL AMX 1D(来自牛津纳米孔LSK-108，使用Vivaspin-500浓缩器浓缩至1.7μM；Sartorius)、10μL T4 DNA连接酶(200万单位/mL，来自NEB Quick连接酶试剂盒；NEB，目录号#M2200)和26.7μL无核酸酶的水，总体积约为154μL，将文库A、B和C执行衔接子连接。将该混合物在室温处温育10min以产生连接衔接子的gDNA。然后将混合物进行SPRI纯化，以除去未连接的衔接子和其他污染物。将0.4体积(约62μL)的SPRI珠(AMPure XP珠，贝克曼库尔特公司)添加到连接衔接子的DNA中，通过颠倒轻轻混合，并在室温处温育10min以将连接衔接子的DNA结合到珠。使用磁选机对珠进行沉淀，除去上清液，并用250μL ABB(来自牛津纳米孔LSK-108)洗涤两次，每次洗涤均完全再悬浮珠，洗涤后重新沉淀珠。二次洗涤后，将珠再次沉淀，除去多余的洗涤缓冲液，并且通过在室温处将珠在16μL Tris洗脱缓冲液(10mMTris-Cl，20mM NaCl，pH7.5)中再悬浮10min，从珠中洗脱DNA。将珠再一次沉淀，并保留包含在靶位点适应的纯化gDNA的洗脱液(上清液)。将23.3μL RBF和11.7μL LLB(均来自牛津纳米孔科技的LSK-108)添加至15μL洗脱液中，以分别产生与文库A、B和C有关的“MinION测序混合物A，B和C”。

为了对靶DNA进行测序，通过经由在入口端口引入800μL流动池制备混合物(使用以下制备：480μL来自牛津纳米孔LSK-108的RBF、520μL无核酸酶的水、0.5μL100μM胆固醇衔接子-系链SK43)制备三个牛津纳米孔技术FLO-MIN106流动池。随后打开SpotON端口，并经由入口端口灌注另外200μL流动池制备混合物。经由SpotON端口将50μL MinION测序混合物A、B或C添加到每个流动池，并关闭端口。使用牛津纳米孔技术公司的MinKNOW(版本1.10.6)收集48h的测序数据，在测序运行期间使用MinKNOW在线进行碱基测序，并使用bwa离线与NA12878人类参考基因组进行比对。

结果

图17示出了将测序读段与库A的人NA12878参考进行比对产生的堆积。上述实验中使用的crRNA靶向十个人基因中的原间隔区。如所预期的，观察到靶区域的富集，示出Cas9主要在正确的位置切割，切割位点被释放(以不同程度)，dA加尾，并且衔接子有效地连接到切割位点。所有读段的大约10％映射到十个靶区域之一。下表2给出了每个靶的逐项读段清单。

表2：文库A中针对每个靶多核苷酸的位置、数量或读段以及命中目标读段％

下表3示出了，当样品在开始Cas9切割之前未脱磷酸时，获得了针对相同的十个基因靶组的大约三分之一数量的读段，但是在其他方面与文库A(文库B)相同。与文库A的十分之一相比，300个读段中只有1个(约0.33％)映射到靶区域之一。因此，非靶DNA的脱磷酸化显著地减少了非靶读段的数量。

表3：文库A中针对每个靶多核苷酸的位置、数量或读段以及命中目标读段％

下表4显示，当文库被脱磷酸化，但没有用Cas9切割时，仅获得对应于FMR1基因的单读段(文库C)。因此，当文库被脱磷酸化时，绝对需要由Cas9的切割以产生命中目标读段。

表4：文库A中针对每个靶多核苷酸的位置、数量或读段以及命中目标读段％

寡核苷酸

tracrRNA

crRNA

自始至终使用的crRNA是从IDT定制购买的(“

CRISPR-Cas9 crRNA”)

wt Cas9核酸酶，化脓性链球菌

MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

ONLS13117

4x连接缓冲液组成：202mM Tris-HCl(pH8–4℃)，2.5M NaCl，30％PEG-8000(w/v)，40mM ATP

实施例3

本实施例证实了如何使用合成的crRNA探针为细菌基因组的重复区域切除感兴趣的区域(ROI)并对其进行测序，以进行纳米孔测序。这里描述了一种简单的一锅法，其中依次执行酶促步骤(脱磷酸化、Cpf1介导的裂解、条形码编码或dA加尾和衔接子连接)。

材料和方法

根据生产商的说明，通过使用Qiagen tip-500从大肠杆菌(菌株SCS110)提取来纯化高分子量基因组DNA(“gDNA”)。经由用牛小肠脱磷酸酶处理将2μg gDNA脱磷酸化。在37℃处在总共120μL NEB CutSmart缓冲液(新英格兰生物实验室有限公司，目录号#B7204)中，向2μg gDNA中添加6μL Quick CIP(来自“NEB Quick CIP试剂盒”，新英格兰生物实验室有限公司，目录号M#0508)10min，然后在80℃处热灭活脱磷酸酶2min。该步骤产生了“末端保护的gDNA”。

将寡核苷酸AR630至AR643(称为“引导RNA”)汇集在一起，并用无核酸酶的水稀释至10μM。在形成复合物之前，将CutSmart缓冲液(新英格兰生物实验室B72004)中的500nM“引导RNA”在95℃处温育4分钟，然后冷却至21℃。CRISPR-Cpf1复合物是通过向反应中添加500nM毛螺科菌(L.bacterium)Cpf1(新英格兰生物实验室M0653)，在21℃处反应20分钟而形成，产生500nM CRISPR-Cpf1复合物。加入终浓度为125nM的CRISPR-Cpf1复合物裂解末端保护的gDNA，并在37℃处温育15分钟，得到称为“探针-靶复合物”的复合物。

在四个单管中执行了四个不同的反应，如下所示：

A.经由与每个切割位点的5'nt突出端序列匹配的特定条形码的文库，将探针-靶复合物连接至测序衔接子。

将寡核苷酸AR598、AR656和AR657各自以40μM在10mM Tris-Cl(pH 8.0)、1mMEDTA、100mM NaCl中以1℃/分钟从95℃至25℃退火至NB01。杂交的DNA集中在一起，并称为“特定条形码”。使用50μL平端T/A连接酶预混液(新英格兰生物实验室M0367)将大约33nM带有解旋酶的BAM 1D(ONT SQK-LSK308)与探针-靶复合物——0.2μL的特定条形码稀释至1μM——在21℃处连接20分钟。该步骤产生了500ng“具有特定条形码的靶裂解DNA”。

B.使用每个切割位点的部分匹配5'nt突出端序列，经由通用条形码文库将探针-靶复合物连接到测序衔接子。

将寡核苷酸CPBC34和CPBC37各自以40μM在10mM Tris-Cl(pH 8.0)、1mM EDTA、100mM NaCl中以1℃/分钟从95℃至25℃退火至NB01。杂交的DNA集中在一起，并且称为“通用条形码”。使用50μL平端T/A连接酶预混液(新英格兰生物实验室M0367)将大约33nM带有解旋酶的BAM 1D(ONT SQK-LSK308)与探针-靶复合物——0.2μL的通用条形码稀释至1μM，总体积为120μL——在21℃处连接20分钟。该步骤产生了500ng“具有通用条形码的靶裂解DNA”。

C.使用大肠杆菌DNA聚合酶I的核酸外切酶突变体Klenow片段对探针-靶复合物进行dA加尾。

将5,000单位(1μL)的Klenow片段(3'→5'exo-)(新英格兰生物实验室M0212)加入到具有20μM dNTP(新英格兰生物实验室N0446S)和100μM dATP(新英格兰生物实验室N0446S)的探针-靶复合物中，并在37℃温育15分钟，并在65℃温育5分钟。使用50μL平端T/A连接酶预混液(新英格兰生物实验室M0367)在21℃处将含有解旋酶的大约25nM AMX 1D(来自牛津纳米孔LSK-108，使用Vivaspin-500浓缩器浓缩至1.7μM；Sartorius)与探针-靶复合物连接10分钟。此步骤产生了500ng“通过Klenow片段dA加尾的靶裂解DNA”。

D.使用Taq聚合酶对探针-靶复合物进行dA加尾。

将5,000单位(1μL)的Taq聚合酶(新英格兰生物实验室M0273)加入到具有20μMdNTP(新英格兰生物实验室N0446S)和100μM dATP(新英格兰生物实验室N0446S)的探针-靶复合物中，并在65℃温育5分钟。使用50μL平端T/A连接酶预混液(新英格兰生物实验室M0367)在21℃处将含有解旋酶的大约25nM AMX 1D(来自牛津纳米孔LSK-108，使用Vivaspin-500浓缩器浓缩至1.7μM；Sartorius)与探针-靶复合物连接10分钟。此步骤产生500ng“Taq聚合酶加尾的靶裂解DNA”。

使用SPRI磁珠对每种混合物进行纯化步骤，如下：将0.4体积当量的AMPure XPSPRI磁珠(Beckman Coulter)加入到混合物中并将所得混合物在21℃处温育10min。使用磁选机将磁珠沉淀，吸出上清液，然后将250μL用DLB稀释的ABB(ONT SQK-LSK108)添加至再悬浮珠。立即将珠再次沉淀，并吸出上清液，然后将管从支架上移出，并在室温处用16μL Tris洗脱缓冲液(室温处为10mM Tris-Cl，20mM NaCl，pH 7.5)洗脱10min。使用磁选机沉淀珠，并保留洗脱液。这产生了在每个末端带有衔接子的双链DNA，称为“MinION测序混合物A、B、C和D”。

为了对靶DNA进行测序，通过经由入口端口引入800μL流动池制备混合物(使用以下制备：480μL来自牛津纳米孔LSK-108的RBF、520μL无核酸酶的水、0.5μL 100μM胆固醇衔接子-系链SK43)制备牛津纳米孔技术FLO-MIN106流动池。随后打开SpotON端口，并经由入口端口灌注另外200μL流动池制备混合物。经由SpotON端口将50μL MinION测序混合物A、B、C或D添加到流动池中，并关闭端口。使用牛津纳米孔技术公司的MinKNOW(版本1.10.6)收集6h的测序数据，并且随后进行碱基测序(使用Albacore)，并离线与大肠杆菌SCS110参考基因组进行了比对。

结果

图18示出了测序读段与大肠杆菌参考序列比对产生的堆积。如预期的那样，在七个rrs基因(其位置示出在表5中)的每个位置上都观察到靶区域的富集，示出Cpf1主要在正确的位置切割。表5中列出了用于切除大肠杆菌SCS110菌株中rrs基因的每个拷贝的crRNA的位置，其示出了用于pulldown的单个探针的七个预期结合位置。

图19比较了上述Cpf1切割后由四种不同方法(A到D)产生的堆积。表6示出了每种方法(A到D)的读段数量和命中目标读段百分比。使用特定条形码对裂解后的样品进行条形码化时(条件A)，可获得最高的命中目标通量(90％)。使用带有Taq聚合酶的dA加尾，实现了对命中目标的最高读段数量(118208)。

表5：大肠杆菌中七个rrs基因的位置以及用于切除每个rrs基因拷贝的crRNA的位置

表6：Cpf1切割后来自四种不同方法的每种方法的读段数量和命中目标读段的百分比

实施例4

该实施例证实了可以使用多种合成的crRNA探针从人基因组DNA样品中切除多个感兴趣区域(ROI)并对其进行测序。在这里，使用一系列冗余探针切除了十个人基因靶，并使用Cpf1测序至高覆盖深度(每个等位基因>100x)而无需扩增。扩增的缺乏保留了某些有趣的结构特征，诸如与疾病相关的核苷酸扩展重复。

材料和方法

根据生产商的说明，使用Qiagen tip-500通过来自培养的人细胞(细胞系GM12878；科里尔研究所)的提取物来纯化高分子量基因组DNA(“gDNA”)。经由用牛小肠脱磷酸酶处理，将总共10μg gDNA脱磷酸化。在总共60μL NEB CutSmart缓冲液(新英格兰生物实验室有限公司，目录号#B7204)中，向10μg gDNA中添加3μL Quick CIP(来自“NEB QuickCIP试剂盒”，新英格兰生物实验室有限公司，目录号M#0508)，在37℃处10min，然后在80℃处热灭活脱磷酸酶2min。该步骤产生了“末端保护的gDNA”。

通过在Eppendorf DNA Lo-Bind管中混合1μL每种crRNA(再悬浮于100μM TE缓冲液，pH 7.5)，制备39种定制Alt-R Cpf1 crRNA(由集成DNA技术有限公司合成)的等摩尔混合物。然后将混合物用无核酸酶的水稀释至10μM，并且被称为“引导RNA”。在形成复合物之前，将CutSmart缓冲液(新英格兰生物实验室B72004)中的500nM“引导RNA”在95℃处温育4分钟，然后冷却至21℃。CRISPR-Cpf1复合物是通过向反应中添加500nM毛螺科菌Cpf1(新英格兰生物实验室M0653)，在21℃处反应20分钟而形成，产生500nM CRISPR-Cpf1复合物。将125nMCRISPR-Cpf1复合物添加至末端保护的gDNA，并在37℃处温育15分钟，得到称为“探针-靶复合物”的复合物。

在两个单管中执行了两个不同的反应，如下所示：

A.使用特定的5'nt突出端切割序列，经由特定的条形码将探针-靶复合物连接到测序衔接子。

B.使用大肠杆菌DNA聚合酶I的核酸外切酶突变体Klenow片段对探针-靶复合物进行dA加尾。

将5,000个单位(1μL)的Klenow片段(3'→5'exo-)(新英格兰生物实验室M0212)加入到具有20μM dNTP(新英格兰生物实验室N0446S)和100μM dATP(新英格兰生物实验室N0446S)的探针-靶复合物中，并在37℃温育15分钟，并且在65℃温育5分钟。使用50μL平端T/A连接酶预混液(新英格兰生物实验室M0367)在21℃处将含有解旋酶的大约25nM AMX 1D(来自牛津纳米孔LSK-108，使用Vivaspin-500浓缩器浓缩至1.7μM；Sartorius)与探针-靶复合物连接10分钟。此步骤产生了500ng“通过Klenow片段dA加尾的靶裂解DNA”。

然后将混合物进行SPRI纯化，以除去未连接的衔接子和其他污染物。将0.4体积的SPRI珠(AMPure XP珠，贝克曼库尔特公司)加入连接衔接子的DNA，通过倒置轻轻混合，并在室温处温育10min以使连接衔接子的DNA与珠结合。使用磁选机对珠进行沉淀，除去上清液，并用250μL ABB(来自牛津纳米孔LSK-108)洗涤两次，每次洗涤均完全再悬浮珠，洗涤后重新沉淀珠。二次洗涤后，将珠再次沉淀，除去多余的洗涤缓冲液，并且通过在室温处将珠在16μL Tris洗脱缓冲液(10mM Tris-Cl，20mM NaCl，pH 7.5)中再悬浮10min，从珠中洗脱DNA。将珠再一次沉淀，并保留包含在靶位点适应的纯化gDNA的洗脱液(上清液)。将23.3μLRBF和11.7μL LLB(均来自牛津纳米孔科技的LSK-108)添加至15μL洗脱液中，以产生“MinION测序混合物A和B”。

为了对靶DNA进行测序，经由入口端口引入800μL流动池制备混合物(使用以下制备：480μL来自牛津纳米孔LSK-108的RBF、520μL无核酸酶的水、0.5μL 100μM胆固醇衔接子-系链SK43)制备四个牛津纳米孔技术FLO-MIN106流动池。随后打开SpotON端口，并经由入口端口灌注另外200μL流动池制备混合物。经由SpotON端口将50μL MinION测序混合物A或B添加到每个流动池，并关闭端口。使用牛津纳米孔技术公司的MinKNOW(版本1.10.6)收集48h的测序数据，在测序运行期间使用MinKNOW在线进行碱基测序，并使用bwa离线与NA12878人类参考基因组进行比对。

结果

图20示出了遵从特定条形码方法将测序读段与人NA12878参考物比对所产生的堆积。上述实验中使用的crRNA靶向十个人基因中的原间隔区。如预期的那样，观察到靶区域的富集，示出Cpf1主要在正确的位置切割，切割位点被释放(以不同程度)，条形码化，并且衔接子有效地连接到切割位点。所有读段中大约有5％映射到十个靶区域之一。表7列出了每个靶的逐项读段清单。

图21示出了在用Klenow(exo-)方法进行dA加尾后，测序读段与人NA12878参考物的比对后产生的堆积。上述实验中使用的crRNA靶向十个人基因中的原间隔区。如预期的那样，观察到靶区域的富集，示出Cpf1主要在正确的位置切割，切割位点被释放(以不同程度)，dA加尾，并且衔接子有效地连接到了切割位点。所有读段的大约0.2％映射到十个靶区域之一。表8列出了每个靶的逐项读段清单。

表7：在方法A中使用特定条形码获得的每个靶多核苷酸的位置、数量或读段和命中目标读段％

表8：在方法B中通过dA加尾获得的每个靶多核苷酸的位置、数量或读段以及命中目标读段％

寡核苷酸

crRNA

自始至终使用的crRNA是从IDT定制购买的(“

CRISPR-Cpf1 crRNA”)

条形码

自始至终使用的条形码购自IDT(“定制DNA寡核苷酸”)

/5Phos/＝5'磷酸部分

衔接子序列

自始至终使用的条形码购自IDT(“定制DNA寡核苷酸”)

寡核苷酸	序列(5'→3')
		SK43	//CholTEG/TTGACCGCTCGCCTC

/CholTEG/＝胆固醇-TEG

实施例5

该实施例证实了可以使用多种合成的crRNA探针从不同的人基因组DNA(gDNA)样品中切除多个感兴趣区域(ROI)并对其进行测序。在这里，使用一系列的探针和条形码，从5个不同的反应中切除了十个人基因靶，并使用Cas9测序至高覆盖深度(每个等位基因>100x)而无需扩增。

材料和方法

根据生产商的说明，通过使用Qiagen tip-500从培养的人类细胞(细胞系GM12878；科里尔研究所)中提取物来纯化高分子量基因组DNA(“gDNA”)。经由用牛小肠脱磷酸酶处理，将总共25μg gDNA进行了脱磷酸化。在37℃处将15μL 10x CutSmart缓冲液和15μL Quick CIP(均来自“New NEC Quick CIP kit”，新英格兰生物实验室，目录号#M0508)添加到25μg gDNA中，总计为150μL(新英格兰生物实验室有限公司，目录号#B7204)，持续10min，然后在80℃处加热灭活磷酸酶2min。该步骤产生了“末端保护的gDNA”。

如下制备野生型化脓性链球菌Cas9核糖核蛋白复合物(RNP)。通过在EppendorfDNA Lo-Bind管中混合1μL每种crRNA(再悬浮于100μM TE缓冲液，pH 7.5)，制备41种定制Alt-R Cas9 crRNA(由集成DNA技术有限公司合成)的等摩尔混合物。通过将1μL tracrRNA(100μM)、1μL crRNA混合物(100μM)和8μL无核酸酶的双链体缓冲液(集成DNA技术有限公司，目录号11-01-03-01)在95℃处温育5min，使

CRISPR-Cas9 tracrRNA(集成DNA技术有限公司)和合成crRNA的41探针池退火，然后冷却至室温，形成10μM tracrRNA-crRNA复合物。然后，在室温处将4.8μL tracrRNA-crRNA复合物(终浓度800nM)与400nM化脓性链球菌Cas9(新英格兰生物实验室有限公司，目录号#M0386M)在总共60μL NEB CutSmart缓冲液中一起温育20分钟，形成RNP。此步骤产生了60μL的“Cas9 RNP”。

生成了两个单独的文库A和B，如下所示：

A.通过将10μL的Cas9 RNP混合物添加到末端护的gDNA中，以30μL的总体积，将15μL的末端保护的gDNA(2.5μg)裂解。将5单位(1μL)的Taq聚合酶(新英格兰生物实验室M0273)和200μM dATP也添加到同一管(新英格兰生物实验室N0446S)中。将反应物在37℃温育15分钟，然后在72℃温育5分钟。在同一管中，使用10μL T4连接酶(来自牛津纳米孔)和20μL LNB缓冲液(来自牛津纳米孔LSK-109)，在21℃处将5μL AMX测序衔接子(来自牛津纳米孔LSK-109)与文库连接10分钟，总体积为80μL。该步骤产生了2.5μg“通过Taq聚合酶dA加尾的靶裂解DNA”。

B.通过将10μL Cas9 RNP混合物添加到每个末端保护的gDNA管中，用Cas9 RNP裂解5个单独管的30μL末端保护的gDNA(总共25μg；每管5μg)。将5单位(1μL)的Taq聚合酶(新英格兰生物实验室M0273)加入装有200μM dATP(新英格兰生物实验室N0446S)的同一管中，并在37℃处温育15分钟，然后在72℃处温育5分钟。使用20μL平端T/A连接酶预混液(新英格兰生物实验室M0367)将大约25nM天然条形码NB01至NB05(来自牛津纳米孔EXP-NBD-104)与5种不同的探针-靶复合物在21℃处连接10分钟。使用SPRI磁珠对每种混合物进行纯化，如下所示：将0.7体积当量的AMPure XP SPRI磁珠(贝克曼库尔特公司)加入混合物中，并将所得混合物在21℃处温育10min。使用磁选机将磁珠沉淀，吸出上清液，并使用250μL乙醇和无核酸酶的水溶液的70％混合物洗涤珠。立即将珠再次沉淀，并吸出上清液，然后将管从支架上移出，在室温处用14μL无核酸酶的水处理10min。使用磁选机沉淀珠，并保留洗脱液。将13μL的每种洗脱液合并在同一管中，最终体积为65μL。使用10μL T4连接酶(来自牛津纳米孔)和20μL LNB缓冲液(来自牛津纳米孔LSK-109)，在21℃处，将5μL AMII条形码测序衔接子(来自牛津纳米孔NBD-104)与探针-靶复合物连接10分钟，总体积为80μL。此步骤产生了12.5μg“带有天然条形码的靶裂解DNA”。

使用SPRI磁珠对每种混合物进行纯化步骤，如下所示：将1体积当量的IDTE(集成DNA技术公司)和0.3体积当量的AMPure XP SPRI磁珠(贝克曼库尔特公司)添加到混合物中，并在21℃温育10min。使用磁选机将磁珠沉淀，吸出上清液，然后添加250μL LFB(来自牛津纳米孔SQK-LSK109)以再悬浮磁珠。立即将磁珠再次沉淀，并吸出上清液，然后将管从支架上移出，在室温处用16μL EB缓冲液(牛津纳米孔–LSK109)处理10min。使用磁选机沉淀珠，并保留洗脱液。将13μL LB和25μL SQB(均来自牛津纳米孔技术公司的LSK-109)添加到12μL洗脱液中，以产生“MinION测序混合物A和B”。

为了对靶DNA进行测序，经由入口端口引入800μL流动池制备混合物(使用以下制备：1170μL来自牛津纳米孔LSK-109的FLB，30μL来自牛津纳米孔LSK-109的FLT)来制备牛津纳米孔技术FLO-MIN106流动池。随后打开SpotON端口，并经由入口灌注另外200μL流动池制备混合物。经由SpotON端口将50μL MinION测序混合物A、B加入到流动池中，并关闭端口。使用牛津纳米孔技术公司的MinKNOW(版本1.15)收集16h的测序数据，并在测序运行期间使用MinKNOW在线进行了碱基测序，并使用minimap2与NA12878人参考基因组进行离线比对。使用牛津纳米孔技术公司的Guppy basecaller对文库B进行多路分解。

结果

图23示出了文库A和B的测序读段与人NA12878参考物(HTT基因)的比对结果以及文库B中每个基因每个条形码的读段数量。上述实验中使用的crRNA靶向十个人基因中的原间隔区。如预期的那样，观察到靶区域的富集，示出Cas9主要在正确的位置切割，切割位点被释放(以不同程度)、dA加尾、条形码编码，以及衔接子有效地连接到切割位点。所有读段的大约10％映射到十个靶区域之一。表9列出了每个靶的逐项读段清单。

表9：文库A中每个靶多核苷酸的位置、数量或读段以及命中目标读段％

表10示出，当5个不同的样品进行条形码化并合并在一起时(文库B)，获得了几乎相同数量的十个基因靶组的读段。与文库A的十分之一相比，只有150个读段中的1个映射到靶区域之一(约0.6％)。由于样品被合并，测序了更多的背景读段，因此观察到命中目标读段的百分比降低。

表10：文库B中每个靶多核苷酸的位置、数量或读段以及命中目标读段％(所有条形码)

表11显示了在文库B中的一个靶(HTT基因)上使用的每个条形码的读段分布。在所有使用的条形码上，每个条形码的读段量都相当一致。未分类的读段很低，表明条形码编码和多路分解是有效的。

表11：文库B中用于HTT的每个条形码的读段和命中目标读段％

实施例6

该实施例证实了如何使用合成的crRNA探针对低输入细菌基因组重复区域的感兴趣区域(ROI)进行切除和测序，以进行纳米孔测序。这里描述了一种简单的、一到两锅方法，其中依次执行酶促步骤(脱磷酸化、裂解、条形码编码、扩增和衔接子连接)。

材料和方法

根据生产商的说明，通过使用Qiagen tip-500从大肠杆菌(菌株SCS110)提取物来纯化高分子量基因组DNA(“gDNA”)。经由用牛小肠脱磷酸酶处理将2μg gDNA脱磷酸化。在37℃处向总共30μL NEB CutSmart缓冲液(新英格兰生物实验室有限公司，目录号#B7204)中的2μg gDNA中加入3μL Quick CIP(“NEB Quick CIP kit”，来自新英格兰生物实验室有限公司，目录#M0508)10min，然后在80℃处加热灭活脱磷酸酶2min。该步骤产生了“末端保护的gDNA”。

通过将反应液在95℃处温育5分钟，然后冷却至室温，将40μM的CasAmp顶部链和40μM的CasAmp底部链在25μL的无核酸酶的双链缓冲液(集成DNA技术有限公司)中退火。通过将1μL退火的CasAmp链添加到39μL无核酸酶的双链缓冲液中，将反应液稀释至1μM。这产生了40μL的“脱磷酸化PCR衔接子”。

如下制备野生型化脓性链球菌Cas9核糖核蛋白复合物(RNP)。首先以等摩尔比将寡核苷酸CPD1和CPD8(称为“引导RNA”)合并在一起。然后通过将1μL tracrRNA(100μM)、1μL引导RNA(100μM)和8μL无核酸酶的双链体缓冲液(集成DNA技术有限公司，目录号11-01-03-01)在95℃处温育5分钟，使

CRISPR-Cas9tracrRNA(集成DNA技术有限公司)和引导crRNA退火，然后冷却至室温，以形成10μM tracrRNA-crRNA复合物。然后，在室温下将2.4μLtracrRNA-crRNA复合物(终浓度为800nM)与400nM HiFi Cas9 V3(集成DNA技术有限公司)在总共30μL NEB CutSmart缓冲液中一起温育20分钟，形成RNP。此步骤产生了30μL的“Cas9RNP”。300ng(总共2μg)末端保护的gDNA的裂解和dA加尾是通过温育4.5μL(300ng)脱磷酸化文库(末端保护的gDNA，如上)、30μL Cas9 RNP(如上)、200μM dATP(1.6μL 10mM储备)、15单位(3μL)Taq聚合酶(新英格生物实验室有限公司，目录号#M0273)，总计126μL来实现的。使用PCR热循环仪，将该混合物在37℃处温育30min，以使用Cas9裂解靶位点，然后在72℃处温育5min以变性Cas9和dA加尾所有可接近的3′末端，以产生300ng“靶裂解的DNA，由Taq聚合酶dA加尾”。该步骤在与上述脱磷酸步骤相同的管中执行，并进行下一步连接步骤。

在三个单管中执行了三个不同的反应，如下所示：

(1)未通过扩增步骤进行的反应。

100ng靶裂解的、经Taq聚合酶dA加尾的DNA，进入到下一步。

(2)将PCR衔接子连接至靶裂解的、dA加尾的样品并进行扩增步骤的反应。

在21℃处，使用10μL T4连接酶(来自牛津纳米孔)和25μL LNB缓冲液(来自牛津纳米孔LSK-109)，将大约25nM的PCA衔接子(来自牛津纳米孔EXP-PCA001)与100ng靶裂解的、通过Taq聚合酶dA加尾的复合物连接10分钟。

(3)将脱磷酸化的PCR衔接子连接至靶裂解的、dA加尾样品并执行扩增步骤的反应。

在21℃处，使用10μL T4连接酶(来自牛津纳米孔)和25μL LNB缓冲液(来自牛津纳米孔LSK-109)，将大约25nM的“脱磷酸化PCR衔接子”与100ng靶裂解的、通过Taq聚合酶dA加尾的DNA连接10分钟。

然后将混合物(2)和(3)进行SPRI纯化，以除去未连接的衔接子和其他污染物。将0.5体积(约50μL)的SPRI珠(AMPure XP珠，贝克曼库尔特公司)添加到混合物中，通过颠倒轻轻混合，并在室温处温育10min以使DNA与珠结合。使用磁选机沉淀珠，除去上清液，并用250μL LFB(来自牛津纳米孔LSK-109)洗涤两次，每次洗涤均完全再悬浮珠，并在洗涤后重新沉淀珠。二次洗涤后，将珠再次沉淀，除去多余的洗涤缓冲液，并且通过在室温处将珠在25μL无核酸酶的水中再悬浮10min，从珠中洗脱DNA。该步骤分别产生100μg“PCA适应的靶裂解DNA”和100μg“脱磷酸化的PCA适应的靶裂解DNA”。

在50μL

Taq 2x Master Mix(新英格兰生物实验室有限公司，目录号#M0287)中加入200nM PCR引物，使24μL的这些文库被携带。使用PCR热循环仪进行扩增的步骤如下：72℃ 30秒，3个95℃ 30秒，56℃ 30秒，72℃ 5秒的循环，然后15个95℃ 30秒的循环和72℃ 5min。扩增在72℃ 5min下完成，并且保持在4℃处。

在靶裂解、dA加尾、PCR衔接子连接和扩增步骤(对于文库(2)和(3))之后，将测序衔接子连接到每个文库。使用50nM AMX(来自牛津纳米孔–LSK109)、10μLT4连接酶(来自牛津纳米孔)和20μL LNB缓冲液(来自牛津纳米孔LSK-109)在21℃处执行衔接子连接10分钟。

使用SPRI磁珠对每种混合物进行纯化步骤，如下所示：将1体积当量的IDTE pH8(集成DNA技术)和0.3体积当量的AMPure XP SPRI磁珠(贝克曼库尔特)添加到混合物中，并在21℃处温育10min。使用磁选机将磁珠沉淀，吸出上清液，然后加入250μL LFB(ONT SQK-LSK109)再悬浮珠。立即将磁珠再次沉淀，并吸出上清液，然后将管从支架上移出，在室温处用16μL EB缓冲液(牛津纳米孔–LSK109)处理10min。使用磁选机沉淀珠，并保留洗脱液。这产生了在每个末端带有衔接子的双链DNA，称为“MinION测序混合物(1)、(2)和(3)”。

为了对靶DNA进行测序，经由入口端口引入800μL流动池制备混合物(使用以下制备：1170μL来自牛津纳米孔LSK-109的FLB，30μL来自牛津纳米孔LSK-109的FLT)来制备牛津纳米孔技术FLO-MIN106流动池。随后打开SpotON端口，并经由入口端口灌注另外200μL流动池制备混合物。经由SpotON端口将50μL MinION测序混合物(1)、(2)和(3)添加到流动池中，并关闭端口。使用牛津纳米孔技术公司的MinKNOW(1.15版)收集16h的测序数据，并在测序运行期间使用MinKNOW在线进行了碱基测序，并离线与E.coli SCS110参考基因组进行了比对。

结果

图24示出了在不扩增、采用磷酸化或脱磷酸化PCR衔接子方法扩增后，将测序读段与大肠杆菌SCS110参考物进行比对所产生的堆积。上述实验中使用的crRNA靶向大肠杆菌基因组中的4kb区域。在所有条件下均观察到靶区域的富集，表明裂解和dA加尾如预期的那样在正确的位置发生。当将脱磷酸化的PCR衔接子连接到切割的和dA加尾的样品上时，观察到靶的读段数量最高，示出衔接子的连接和扩增均按预期发生。扩增步骤以非常高的特异性(几乎95％)将读段数量增加了10倍以上。

表12示出了每个文库((1)至(3))的读段数量和命中目标读段百分比。当使用脱磷酸化的PCR衔接子扩增裂解的样品时，可获得最高的靶通量(94.87％)，这表明从低输入基因组进行Cas9裂解、dA加尾和扩增是可能的。

表12：针对每个文库的数量或读段和命中目标读段％

寡核苷酸

crRNA探针

	序列5'→3'
		CPD1	TAATGAGGATTTTTTCCGCG
CPD8	TCGCCATTACGCATCAACAG

CasAmp寡核苷酸

PCR寡核苷酸

实施例7

该实施例证实了如何使用合成的crRNA探针对细菌基因组重复区域的感兴趣区域(ROI)进行切除和测序，以进行纳米孔测序，以及如何利用RNA酶调节读取方向上的偏倚。这里描述了一种简单的一锅法，其中依次执行酶促步骤(脱磷酸化、裂解、消化和衔接子连接)。

材料和方法

根据生产商的说明，通过使用Qiagen tip-500从大肠杆菌(菌株SCS110)提取物来纯化高分子量基因组DNA(“gDNA”)。经由牛小肠脱磷酸酶处理使1.5μg gDNA脱磷酸。在37℃处，将7.5μL Quick CIP(“NEB Quick CIP kit”，来自新英格兰生物实验室有限公司，目录号#M0508)加入到总共150μL NEB CutSmart缓冲液(新英格兰生物实验室有限公司，目录号#B7204)中的1.5μg gDNA中10min，然后在80℃处加热灭活脱磷酸酶2min。该步骤产生了“末端保护的gDNA”。

如下制备野生型化脓性链球菌Cas9核糖核蛋白复合物(RNP)。首先通过将1μLtracrRNA(100μM)、1μL AR400(100μM)和8μL无核酸酶双链体缓冲液(集成DNA技术有限公司，目录号11-01-03-01)在95℃下温育5min，使

CRISPR-Cas9tracrRNA(集成DNA技术有限公司)和AR400(合成crRNA)退火，然后冷却至室温，以形成10μM tracrRNA-crRNA复合物。然后，在室温处将4.5μL tracrRNA-crRNA复合物(终浓度600nM)与300nM化脓性链球菌Cas9(新英格兰生物实验室有限公司，目录号#M0386M)在总共75μL NEB CutSmart缓冲液中温育20分钟，以形成RNP。此步骤产生了75μL的“Cas9 RNP”。

在三个单管中执行了三个不同的反应，如下所示：

(1)测序衔接子与靶裂解的、dA加尾的样品连接的反应

500ng末端保护的gDNA的裂解和dA加尾是通过温育50μL(100ng)脱磷酸化文库(端保护的gDNA，如上)、25μL Cas9 RNP(如上)、200μM的dATP(1.7μL 10mM储备)、5单位(1μL)Taq聚合酶(新英格生物实验室有限公司，目录号#M0273)，总计85μL来实现的。使用PCR热循环仪，将该混合物在37℃处温育30min，以使用Cas9裂解靶位点，然后在72℃处温育5min以变性Cas9和dA加尾所有可接近的3′末端，产生500ng“靶裂解的DNA，由Taq聚合酶dA加尾”。

(2)靶裂解的DNA被RNAseH消化，然后通过Taq聚合酶dA加尾的反应。然后将测序衔接子连接至该样品。

500ng末端保护的gDNA的裂解和dA加尾是通过在37℃处温育50μL(100ng)脱磷酸化文库(末端保护的gDNA，如上)和25μL Cas9 RNP(如上)25min来使用Cas9裂解靶位点。添加了5单位(1μL)RNAseH(新英格兰生物实验室有限公司，目录号#M0297)，总计为85μLNEBuffer^TM3(新英格生物实验室有限公司，目录号#B7003)。将反应物在37℃温育20min以消化DNA：RNA双链体，并在65℃温育20min，以使Cas9和RNAseH均变性。将200μM dATP(1.7μL10mM储备液)、5单位(1μL)Taq聚合酶(新英格生物实验室有限公司，目录号#M0273)添加到同一管中，总计85μL。使用PCR热循环仪，将此混合物在72℃处温育5min，以dA加尾所有可接近的3′末端，以产生500ng“靶裂解的DNA，通过RNAseH消化和dA加尾”。

(3)Cas9变性后，靶裂解的DNA与RNAseH一起温育，然后进行dA加尾的反应。然后将测序衔接子连接至该样品。

500ng末端保护的gDNA的裂解和dA加尾是通过在37℃处温育50μL(100ng)脱磷酸化文库(末端保护的gDNA，如上)和25μL Cas9 RNP(如上)25min来使用Cas9裂解靶位点，并在65℃处5min使Cas9变性。将5单位(1μL)RNAseH(新英格生物实验室有限公司，目录号#M0297)添加到反应中，总计85μL NEBuffer^TM3(新英格生物实验室有限公司，目录号#B7003)。将反应液在37℃温育20min以消化DNA：RNA双链体，并在65℃温育20min，以使RNAseH变性。将200μM dATP(1.7μL 10mM储备液)、5单位(1μL)Taq聚合酶(新英格生物实验室有限公司，目录号#M0273)添加到同一管中，总计85μL。使用PCR热循环仪，将此混合物在72℃处温育5min，以dA加尾所有可接近的3′末端，以产生500ng“靶裂解的DNA，通过RNAseH消化和dA加尾”。

然后通过添加25nM AMX 1D(来自牛津纳米孔LSK-108，使用Vivaspin-500浓缩器浓缩至1.7μM；Sartorius)和10μL T4连接酶(来自牛津纳米孔内部生产)至165μL连接缓冲液(ONLS13117)，将测序衔接子连接至每个文库。在21℃处温育10分钟后，使用SPRI磁珠对每种混合物进行纯化步骤，如下所示：添加1体积当量的IDTE pH8(集成DNA技术公司)和0.4体积当量的AMPure XP SPRI磁珠(贝克曼库尔特)至混合物，并在21℃处温育10min。使用磁选机将珠沉淀，除去上清液，并用DLB稀释的250μL ABB(从牛津纳米孔LSK-108))洗涤两次，每次洗涤珠完全再悬浮，并且洗涤后将珠重新沉淀。二次洗涤后，将珠再次沉淀，除去多余的洗涤缓冲液，并且通过在室温处将珠沉淀物在15μL ELB(来自牛津纳米孔SQK-LSK108)中再悬浮10min，从珠中洗脱DNA。将25μL SQB和10μL LB(均来自牛津纳米孔技术公司的LSK-109)添加到15μL洗脱液中，以产生“MinION测序混合物”。

为了对靶DNA进行测序，经由入口端口引入800μL流动池制备混合物(使用以下制备：1170μL来自牛津纳米孔LSK-109的FLB，30μL来自牛津纳米孔LSK-109的FLT)来制备牛津纳米孔技术FLO-MIN106流动池。随后打开SpotON端口，并经由入口端口灌注另外200μL流动池制备混合物。经由SpotON端口将50μL MinION测序混合物(1)、(2)和(3)添加到流动池中，并关闭端口。使用牛津纳米孔技术公司的MinKNOW(版本1.10.6)收集6h的测序数据，并且随后进行碱基测序(使用Albacore)，并离线与大肠杆菌SCS110参考基因组进行了比对。

结果

图25示出了测序读段与大肠杆菌参考物比对产生的堆积。上述实验中使用的crRNA靶向大肠杆菌SCS110菌株中rrs基因的所有七个拷贝共有的原间隔区序列。如预期的那样，在七个rrs基因(其位置示出在表13至15中)的每个位置上都观察到靶区域的富集，示出Cas9主要在正确的位置切割，并且切割位点被释放(以不同程度)和dA加尾，并且衔接子有效地连接到切割位点。该图还突出显示了在Cas9裂解和变性后添加RNAseH可观察到更多的双向读段。

表13检查了Taq聚合酶条件(文库(1))在正向和反向取向读段之间的偏倚。在大肠杆菌SCS110参考物中两个取向中都发现由简并crRNA探针靶向的rrs基因。七个rrs基因中有六个在读取方向上表现出明显的偏倚，这与参考基因组中该基因的取向相关。在其他条件下(文库(2)，表14，图25)也观察到了类似的偏倚。

但是，表15检查了文库(3)中的读段偏倚，示出了与文库(1)和(2)相比，Cas9裂解和变性后添加RNAseH可以减轻某些读段偏倚。例如，与文库(1)中的34％相比，通过添加RNAseH，对应于rrsH基因的峰i的读段偏倚降低至约42％。

表13：当在72℃使用Taq聚合酶对裂解样品进行dA加尾时，大肠杆菌中rrs基因的位置以及针对文库(1)获得的正向和反向取向读段之间的读段偏倚

表14：在Cas9裂解之后用RNAseH消化裂解样品时，大肠杆菌中rrs基因的位置以及针对文库(2)获得的正向和反向取向读段之间的读段偏倚。

表15：在Cas9裂解和Cas9变性之后用RNAseH消化裂解样品时，大肠杆菌中rrs基因的位置以及针对文库(3)获得的正向和反向取向读段之间的读段偏倚。

实施例8

本实施例证实了如何使用合成的crRNA探针对细菌基因组重复区域的感兴趣区域(ROI)进行切除和测序，以进行纳米孔测序，以及如何利用T4聚合酶将源自裂解的读段的测序方向偏向一个方向。这里描述了一种简单的一锅法，其中依次执行酶促步骤(脱磷酸化、裂解、消化和衔接子连接)。

材料和方法

在三个单管中执行了三个不同的反应，如下所示：

(1)测序衔接子与靶裂解的、dA加尾的样品连接的反应

500ng末端保护的gDNA的裂解和和dA加尾是通过温育50μL(500ng)脱磷酸化文库(末端保护的gDNA，如上)、25μLCas9的RNP(如上)、200μM dATP(1.7μL 10mM储备)、5单位(1μL)Taq聚合酶(新英格生物实验室有限公司，目录号#M0273)，总计85μL来实现的。使用PCR热循环仪，将该混合物在37℃处温育30min，以使用Cas9裂解靶位点，然后在72℃处温育5min以变性Cas9和dA加尾所有可接近的3′末端，产生500ng“靶裂解的DNA，由Taq聚合酶dA加尾”。

(2)靶裂解的DNA与T4 DNA聚合酶一起温育，然后进行dA加尾的反应。然后将测序衔接子连接至该样品。

500ng末端保护的gDNA的裂解和dA加尾是通过在37℃处温育50μL(100ng)脱磷酸化文库(末端保护的gDNA，如上)和25μL Cas9 RNP(如上)25min来使用Cas9裂解靶位点。加入3单位(1μL)T4 DNA聚合酶(新英格生物实验室有限公司，目录号M0203)，总计为85μL。在不存在dNTP的情况下，T4 DNA聚合酶充当3'至5'末端核酸外切酶，在这里用于去除任何潜在的3'末端突出端。将反应液在21℃温育5min。将200μM dATP(1.7μL 10mM储备液)和5单位(1μL)Taq聚合酶(新英格生物实验室有限公司，目录号#M0273)添加到同一管中，总计80μL。使用PCR热循环仪，将此混合物在72℃处温育5min，以dA加尾所有可接近的3′末端，以产生500ng“靶裂解的DNA，通过T4 DNA聚合酶消化并dA加尾”。

(3)Cas9变性后，靶裂解的DNA与T4 DNA聚合酶一起温育，然后进行dA加尾的反应。然后将测序衔接子连接至该样品。

500ng末端保护的gDNA的裂解和dA加尾是通过在37℃处温育50μL(100ng)脱磷酸化文库(末端保护的gDNA，如上)和25μL Cas9 RNP(如上)25min来使用Cas9裂解靶位点，并在65℃处5min使Cas9变性。将3单位(1μL)T4 DNA聚合酶(新英格生物实验室有限公司，目录号M0203)添加至反应中，总计80μL。在不存在dNTP的情况下，T4 DNA聚合酶充当3'至5'末端核酸外切酶，在这里用于去除任何潜在的3'末端突出端。将反应液在21℃温育5min。将200μM dATP(1.7μL 10mM储备液)和5单位(1μL)Taq聚合酶(新英格生物实验室有限公司，目录号#M0273)添加到同一管中，总计80μL。使用PCR热循环仪，将此混合物在72℃处温育5min，以dA加尾所有可接近的3′末端，产生500ng“靶裂解的DNA,经变性、通过T4 DNA聚合酶消化和dA加尾”。

然后通过添加25nM AMX 1D(来自牛津纳米孔LSK-108，使用Vivaspin-500浓缩器浓缩至1.7μM；Sartorius)和10μL T4连接酶(来自牛津纳米孔内部生产)至165μL连接缓冲液(ONLS13117)，将测序衔接子连接至每个文库。在21℃处温育10min后，使用SPRI磁珠对每种混合物进行纯化步骤，如下所示：添加1体积当量的IDTE pH8(集成DNA技术公司)和0.4体积当量的AMPure XP SPRI磁珠(贝克曼库尔特)至混合物，并在21℃处温育10min。使用磁选机将珠沉淀，除去上清液，并用DLB稀释的250μL ABB(从牛津纳米孔LSK-108))洗涤两次，每次洗涤珠完全再悬浮，并且洗涤后将珠重新沉淀。二次洗涤后，将珠再次沉淀，除去多余的洗涤缓冲液，并且通过在室温处将珠沉淀物在15μL ELB(来自牛津纳米孔SQK-LSK108)中再悬浮10min，从珠中洗脱DNA。将25μL SQB和10μL LB(均来自牛津纳米孔技术公司的LSK-109)添加到15μL洗脱液中，以产生“MinION测序混合物”。

结果

图26示出了测序读段与大肠杆菌参考物比对产生的堆积。上述实验中使用的crRNA靶向大肠杆菌SCS110菌株中rrs基因的所有七个拷贝共有的原间隔区序列。如预期的那样，在七个rrs基因(其位置示出在表17至19中)的每个位置上都观察到靶区域的富集，示出Cas9主要在正确的位置切割，并且切割位点被释放(以不同程度)和dA加尾，并且衔接子有效地连接到切割位点。该图还突出显示在Cas9裂解后，通过添加T4 DNA聚合酶，观察到较少的双向读段。

表17至表19检查了Taq聚合酶条件(库(1))在正向和反向取向读段之间的偏倚。在大肠杆菌SCS110参考物中两个取向中都发现由简并crRNA探针靶向的rrs基因。七个rrs基因中有六个在读取方向上表现出明显的偏倚，这与参考基因组中该基因的取向相关。

但是，表18和19检查了文库(2)和(3)中的读段偏倚，示出与文库(1)相比，在Cas9变性或不变性的情况下，Cas9裂解后添加T4 DNA聚合酶都会增加读段偏倚。例如，与文库(1)中的65％相比，在添加T4 DNA聚合酶的情况下，对应于rrsH基因的峰i朝向(+)方向的读段偏约为96％。这表明，T4 DNA聚合酶的添加降低了测序衔接子与Cas9裂解位点的PAM远侧的连接的效率。

表17：当在72℃使用Taq聚合酶对裂解样品进行dA加尾时，大肠杆菌中rrs基因的位置以及针对文库(1)获得的正向和反向取向读段之间的读段偏倚

表18：当Cas9裂解之后用T4 DNA聚合酶消化裂解样品时，大肠杆菌中rrs基因的位置以及针对文库(2)获得的正向和反向取向读段之间的读段偏倚。

表19：当Cas9裂解和Cas9变性后用T4 DNA聚合酶消化裂解样品时，大肠杆菌中rrs基因的位置以及针对文库(3)获得的正向和反向取向读段之间的读段偏倚。

Claims

1.一种用于选择性适应多核苷酸样品中靶多核苷酸的方法，所述方法包括：

(a)保护所述样品中所述多核苷酸的末端；

(b)使所述多核苷酸与结合至所述靶多核苷酸中的序列的引导多核苷酸以及多核苷酸引导的效应蛋白接触，使得所述多核苷酸引导的效应蛋白切割所述靶多核苷酸，以在由所述引导多核苷酸结合的序列确定的位点处产生两个相对的切割端；和

(c)将衔接子附接至所述靶多核苷酸中所述两个相对的切割端中的一个或两个，

其中，所述衔接子附接至所述靶多核苷酸中切割端中的一个或两个，但不附接至所述样品中的所述多核苷酸的受保护端。

2.根据权利要求1所述的方法，其中，所述样品中的所述多核苷酸的末端通过使所述多核苷酸的5'末端脱磷酸化而得到保护。

3.根据权利要求2所述的方法，其中，通过向所述多核苷酸样品中添加脱磷酸酶使所述多核苷酸的5'末端脱磷酸化。

4.根据权利要求1所述的方法，其中，通过延伸所述多核苷酸的3'末端以产生单链突出端来保护所述样品中的所述多核苷酸的末端。

5.根据权利要求4所述的方法，其中，通过向所述多核苷酸样品中添加末端转移酶和dNTP来延伸所述多核苷酸的3'末端。

6.根据前述权利要求中任一项所述的方法，其中，所述多核苷酸引导的效应蛋白是RNA引导的效应蛋白。

7.根据权利要求6所述的方法，其中，所述多核苷酸引导的效应蛋白是Cas3、Cas4、Cas8a、Cas8b、Cas8c、Cas9、Cas10、Cas10d、Cas12a、Cas13、Csn2、Csf1、Cmr5、Csm2、Csy1、Cse1或C2c2。

8.根据前述权利要求中任一项所述的方法，其中，所述靶多核苷酸包括双链DNA。

9.根据前述权利要求中任一项所述的方法，其中，所述多核苷酸引导的效应蛋白切割双链多核苷酸的一条链。

10.根据前述权利要求中任一项所述的方法，其中，所述多核苷酸引导的效应蛋白切割双链多核苷酸的两条链以产生平端。

11.根据前述权利要求中任一项所述的方法，其中，所述多核苷酸引导的效应蛋白切割双链多核苷酸的两条链以产生单链突出端。

12.根据权利要求11所述的方法，其中，所述方法包括使所述样品与聚合酶或末端转移酶和dNTP接触以填充所述突出端以产生平端或单核苷酸突出端。

13.根据前述权利要求中任一项所述的方法，其中，所述衔接子包括单个T或polyT尾，并且所述方法进一步包括在步骤(c)之前使所述样品与聚合酶和dATP接触，以将单个A尾添加至所述靶多核苷酸中切割端的至少一个。

14.根据权利要求13所述的方法，其中，所述聚合酶在超过约60℃的温度处是有活性的。

15.根据权利要求13或14所述的方法，其中，所述聚合酶是Taq聚合酶。

16.根据前述权利要求中任一项所述的方法，其中，所述衔接子共价附接至所述靶多核苷酸。

17.根据权利要求16所述的方法，其中，所述衔接子通过连接或拓扑异构化共价附接至所述靶多核苷酸。

18.根据前述权利要求中任一项所述的方法，其中，所述多核苷酸引导的效应蛋白保持附接至所述两个相对切割端之一，并且所述衔接子附接至所述两个相对切割端中的另一个。

19.根据前述权利要求中任一项所述的方法，其中，所述多核苷酸引导的效应蛋白不保持附接至所述靶多核苷酸，或从所述靶多核苷酸中去除。

20.根据前述权利要求中的任一项所述的方法，其中，所述衔接子是中间衔接子，并且所述方法包括将另一衔接子附接至所述中间衔接子。

21.根据权利要求20所述的方法，其中，所述另一衔接子是测序衔接子。

22.根据前述权利要求中任一项所述的方法，其中，使所述多核苷酸与结合至感兴趣区域内的所述靶多核苷酸的一种或多种引导多核苷酸接触。

23.根据权利要求1至21中任一项所述的方法，其中，使所述多核苷酸与结合至感兴趣区域外的所述靶多核苷酸的一种或多种引导多核苷酸接触。

24.根据前述权利要求中任一项所述的方法，其中，使所述多核苷酸与结合至所述靶多核苷酸中的不同序列的两个或更多个引导多核苷酸接触，使得所述多核苷酸引导的效应蛋白在两个或更多个位点处切割所述靶多核苷酸，以在每个位点产生两个相对的切割端。

25.根据权利要求24所述的方法，其中，所述两个或更多个位点中的至少一个位于所述靶多核苷酸中的所述感兴趣区域的每一侧上，并且所述两个或更多个位点中没有一个位于所述感兴趣区域内。

26.根据权利要求24或25所述的方法，其中，对所述引导多核苷酸进行定向，使得在位于所述感兴趣区域的每一侧上的位点处切割所述靶多核苷酸之后，所述多核苷酸引导的效应蛋白保持附接至不包含所述感兴趣区域的所述多核苷酸的切割端。

27.根据权利要求24至26中任一项所述的方法，其中，所述两个或更多个位点包括在所述靶多核苷酸中的感兴趣区域的任一侧上至少两个位点。

28.根据权利要求24至27中任一项所述的方法，其中，使用相同的多核苷酸引导的效应蛋白在所述两个或更多个位点的所有位点处切割。

29.根据权利要求24至27中任一项所述的方法，其中，使用不同的多核苷酸引导的效应蛋白在所述两个或更多个位点处切割。

30.根据权利要求24至29中任一项所述的方法，其中，所述方法进一步包括使用一对PCR引物扩增靶多核苷酸中的感兴趣区域，所述一对PCR引物与所述衔接子内位于所述适应的多核苷酸中感兴趣区域侧翼的序列杂交。

31.根据前述权利要求中任一项所述的方法，其中，在所述方法中使用与两个或更多个不同靶多核苷酸中的序列结合的两个或更多个引导多核苷酸，以在每个所述靶多核苷酸的至少一个感兴趣区域内或侧翼附接衔接子。

32.根据前述权利要求中任一项所述的方法，其中，在所述方法中使用两个或更多个引导多核苷酸，以在靶多核苷酸的两个或更多个感兴趣区域内或侧翼附接衔接子。

33.根据前述权利要求中任一项所述的方法，进一步包括将另一衔接子附接至所述适应的多核苷酸上的所述衔接子。

34.根据权利要求33所述的方法，其中，所述另一衔接子是测序衔接子。

35.根据权利要求34所述的方法，其中，所述测序衔接子包括单链前导序列、多核苷酸结合蛋白和/或膜或者孔锚。

36.根据前述权利要求中任一项所述的方法，其中，所述方法进一步包括表征所述靶多核苷酸。

37.一种检测和/或表征靶多核苷酸的方法，包括：

(i)将根据权利要求1至35中任一项所述的方法获得的样品与纳米孔接触；

(ii)跨所述纳米孔施加电位差；以及

(iii)监测由所述靶多核苷酸与所述纳米孔的相互作用产生的效应的存在或不存在，以确定所述靶多核苷酸的存在或不存在，从而检测所述样品中的所述靶多核苷酸和/或监测所述靶多核苷酸与所述纳米孔的相互作用，以确定所述靶多核苷酸的一个或更多个特征。

38.根据权利要求37所述的方法，其中，所述靶多核苷酸通过测序来表征。

39.一种用于选择性修饰多核苷酸样品中靶多核苷酸的试剂盒，所述试剂盒包括脱磷酸酶、包括单个N或polyN尾的衔接子——其中N是核苷酸A、T、C或G、以及任选地聚合酶、连接酶、多核苷酸引导的效应蛋白和引导多核苷酸中的一个或多个。

40.一种用于选择性适应多核苷酸样品中靶多核苷酸的方法，所述方法包括：

(a)使所述样品中的多核苷酸与两个结合至所述靶多核苷酸中的序列的引导多核苷酸以及一个多核苷酸引导的效应蛋白接触，其中，所述两个引导多核苷酸结合的序列指导所述多核苷酸引导的效应蛋白到两个位点，使得所述多核苷酸引导的效应蛋白在所述两个位点的至少一个处切割所述靶多核苷酸以产生两个相对的切割端；和

(b)将衔接子附接至所述靶多核苷酸中的所述两个相对的切割端的一个或两个。