CN113825836A

CN113825836A - 用于基于核苷酸修饰的耗竭的组合物和方法

Info

Publication number: CN113825836A
Application number: CN202080036022.7A
Authority: CN
Inventors: S·B·古尔格钦
Original assignee: ARC Bio LLC
Current assignee: ARC Bio LLC
Priority date: 2019-04-09
Filing date: 2020-04-08
Publication date: 2021-12-21
Also published as: JP2022527612A; AU2020272770A1; CA3136228A1; EP3953471A1; WO2020210372A1; EP3953471A4; US20220186290A1

Abstract

本文提供了用于使样品相对于旨在被耗竭的核酸富集所关注核酸的组合物和方法，所述方法包括使用所述所关注核酸与所述旨在被耗竭的核酸之间的核苷酸修饰的差异。

Description

用于基于核苷酸修饰的耗竭的组合物和方法

相关申请的交叉引用

本申请要求于2019年4月9日提交的美国临时申请第62,831,302号的优先权和权益，所述美国临时申请的内容特此以全文引用的方式并入。

序列表的并入

随本文以电子方式提交的文本文件的内容以全文引用的方式并入本文中：序列表的计算机可读格式副本(文件名：ARCB_01301WO_SeqList，记录日期：2020年4月6日，文件大小：13KB)。

背景技术

人临床DNA样品和样品文库，如源自RNA的cDNA文库含有的序列几乎没有信息价值并增加了测序成本。虽然已经开发出耗竭这些不想要的序列(例如，通过杂交捕获)并富集所关注序列的方法，但这些方法通常很耗时并且可能很昂贵。因此，本领域需要从文库中耗竭不想要的序列的方法。本发明提供了使用所关注序列与旨在被耗竭的序列之间的核苷酸修饰差异来从文库中耗竭序列并富集期望序列的方法。

发明内容

本公开提供了使样品相对于旨在被耗竭的核酸富集所关注核酸约至少约2倍的方法，所述方法包括使用所述所关注核酸与所述旨在被耗竭的核酸之间的核苷酸修饰的差异。

本公开提供了使样品相对于旨在被耗竭的核酸富集所关注核酸约至少约2倍的方法，所述方法包括使用所述所关注核酸与所述旨在被耗竭的核酸之间的核苷酸修饰的差异，并且不包括大小选择或修饰敏感性靶向结合。

本公开提供了使样品相对于旨在被耗竭的核酸富集所关注核酸约至少约2倍的方法，所述方法包括使用所述所关注核酸与所述旨在被耗竭的核酸之间的核苷酸修饰的差异以将衔接子连接到所述所关注核酸并且不连接到所述旨在被耗竭的核酸。

本公开提供了使样品富集所关注核酸的方法，所述方法包括：(a)提供包括所关注核酸和旨在被耗竭的核酸的样品，其中所述所关注核酸的至少一个子集或所述旨在被耗竭的核酸的子集包括用于第一修饰敏感性限制酶的多个第一识别位点；(b)使所述样品中的多个所述核酸末端去磷酸化；(c)在允许切割所述样品中的所述核酸中的所述第一修饰敏感性限制位点中的至少一些的条件下，使来自(b)的所述样品与所述第一修饰敏感性限制酶接触；以及(d)在允许衔接子与多个所述所关注核酸的5'端和3'端连接的条件下，使来自(c)的所述样品与所述衔接子接触；由此产生富集所关注核酸的样品，所述所关注核酸在其5'端和3'端上衔接子连接。

在本公开的所述方法的一些实施例中，所述所关注核酸和所述旨在被耗竭的核酸两者各自包括用于所述第一修饰敏感性限制酶的多个第一识别位点。在一些实施例中，所述多个第一识别位点内或邻近所述多个第一识别位点的核苷酸修饰在所关注核酸中的频率与在所述旨在被耗竭的核酸中的频率不同。

在本公开的所述方法的一些实施例中，所述第一修饰敏感性限制酶的活性被其同源识别位点内或邻近所述同源识别位点的核苷酸修饰所阻断。在一些实施例中，与所述所关注核酸中的所述多个第一识别位点相比，所述旨在被耗竭的核酸中的所述多个第一识别位点被更频繁地修饰。

在本公开的所述方法的一些实施例中，所述第一修饰敏感性限制酶在包括至少一个经修饰核苷酸的识别位点处有活性，并且在不包括至少一个经修饰核苷酸的识别位点处没有活性。在一些实施例中，与所述所关注核酸中的所述多个第一识别位点相比，所述旨在被耗竭的核酸中的所述多个第一识别位点被更频繁地修饰。

在本公开的所述方法的一些实施例中，所述方法进一步包括在步骤(d)之前，在允许从核酸的磷酸化末端连续去除核苷酸的条件下，使来自(c)的样品与核酸外切酶接触。

在本公开的所述方法的一些实施例中，所述方法进一步包括(e)在允许第二修饰敏感性限制酶切割第二识别位点的条件下，使来自(d)的经衔接子连接的核酸与所述第二修饰敏感性限制酶接触，其中所述旨在被耗竭的核酸的至少一个子集包括用于第二修饰敏感性限制酶的多个第二识别位点，并且其中所述第二修饰敏感性限制酶靶向包括至少一个经修饰核苷酸的识别位点并且不靶向不包括至少一个经修饰核苷酸的识别位点，由此产生在一端上衔接子连接的旨在被耗竭的核酸的集合和在两端上衔接子连接的所关注核酸的集合。

在本公开的所述方法的一些实施例中，所述方法进一步包括在步骤(d)之后使所述样品与多种核酸引导的核酸酶向导核酸(gNA)复合物接触，其中所述gNA与所述旨在被耗竭的核酸中的靶向位点互补，由此产生在一端上衔接子连接的旨在被耗竭的切割核酸和在5'端和3'端两者上衔接子连接的所关注核酸。在一些实施例中，所述方法包括将所述样品与以下接触：至少10²种独特的核酸引导的核酸酶-gNA复合物、至少10³种独特的核酸引导的核酸酶-gNA复合物、10⁴种独特的核酸引导的核酸酶-gNA复合物或10⁵种独特的核酸引导的核酸酶-gNA复合物。在一些实施例中，所述核酸引导的核酸酶是Cas9、Cpf1或其组合。

本公开提供了使样品富集所关注核酸的方法，所述方法包括：(a)提供包括所关注核酸和旨在被耗竭的核酸的样品，其中所述旨在被耗竭的核酸的至少一个子集包括用于修饰敏感性限制酶的多个识别位点；(b)使所述样品中的多个所述核酸末端去磷酸化；(c)在允许切割所述样品中的所述核酸中的修饰敏感性限制位点的条件下，使来自(b)的所述样品与所述修饰敏感性限制酶接触，由此产生具有暴露的末端磷酸酯的核酸；以及(d)在允许从核酸的磷酸化末端连续去除核苷酸的条件下，使所述样品与核酸外切酶接触；由此产生富集所关注核酸的样品。

在本公开的所述方法的一些实施例中，所述所关注核酸和所述旨在被耗竭的核酸各自包括用于所述修饰敏感性限制酶的多个识别位点。在一些实施例中，与所述所关注核酸中的所述多个识别位点相比，所述旨在被耗竭的核酸中的所述多个识别位点被更频繁地修饰。

在本公开的所述方法的一些实施例中，所述方法进一步包括(e)在允许衔接子与多个所述所关注核酸的5'端和3'端连接的条件下，使来自(d)的所述样品与所述衔接子接触；由此产生富集所关注核酸的样品，所述所关注核酸在其5'端和3'端上衔接子连接。

本公开提供了使样品富集所关注核酸的方法，所述方法包括：(a)提供包括所关注核酸和旨在被耗竭的核酸的样品，其中所述旨在被耗竭的核酸的至少一个子集包括用于修饰敏感性限制酶的多个识别位点；(b)在允许衔接子与所述样品中的多个所述核酸的5'端和3'端连接的条件下，使所述样品与所述衔接子接触；以及(c)在允许切割所述样品中的所述核酸中的修饰敏感性限制位点的条件下，使来自(b)的所述样品与所述修饰敏感性限制酶接触；由此产生富集所关注核酸的样品，所述所关注核酸在其5'端和3'端上衔接子连接。

在本公开的所述方法的一些实施例中，所述所关注核酸和所述旨在被耗竭的核酸两者各自包括用于所述修饰敏感性限制酶的多个识别位点。在一些实施例中，与所述所关注核酸中的所述多个识别位点相比，所述旨在被耗竭的核酸中的所述多个识别位点被更频繁地修饰。

本公开提供了使样品富集所关注核酸的方法，所述方法包括：(a)提供包括所关注核酸和旨在被耗竭的核酸的样品，其中所述所关注核酸的至少一个子集或所述旨在被耗竭的核酸的子集包括用于第一修饰敏感性限制酶的多个第一识别位点；并且其中所述第一修饰敏感性限制酶的活性被其同源识别位点内或邻近所述同源识别位点的核苷酸修饰所阻断；(b)使所述样品中的多个所述核酸末端去磷酸化；(c)在允许切割所述样品中的所述核酸中的所述第一修饰敏感性限制位点中的至少一些的条件下，使来自(b)的所述样品与所述第一修饰敏感性限制酶接触；以及(d)在允许衔接子与多个所述所关注核酸的5'端和3'端连接的条件下，使来自(c)的所述样品与所述衔接子接触；由此产生富集所关注核酸的样品，所述所关注核酸在其5'端和3'端上衔接子连接。

在本公开的所述方法的一些实施例中，所述所关注核酸和所述旨在被耗竭的核酸两者各自包括用于所述第一修饰敏感性限制酶的多个第一识别位点。在一些实施例中，所述多个第一识别位点内或邻近所述多个第一识别位点的核苷酸修饰在所关注核酸中的频率与在所述旨在被耗竭的核酸中的频率不同。在一些实施例中，与所述所关注核酸中的所述多个第一识别位点相比，所述旨在被耗竭的核酸中的所述多个第一识别位点被更频繁地修饰。

在本公开的所述方法的一些实施例中，所述方法进一步包括使用所述衔接子对在其5'端和3'端上衔接子连接的所述所关注核酸进行扩增、测序或克隆。

在一些实施例中，核苷酸修饰包括腺嘌呤修饰或胞嘧啶修饰。在一些实施例中，腺嘌呤修饰包括腺嘌呤甲基化。在一些实施例中，腺嘌呤甲基化包括Dam甲基化或EcoKI甲基化。在一些实施例中，胞嘧啶修饰包括5-甲基胞嘧啶、5-羟甲基胞嘧啶、5-甲酰基胞嘧啶、5-羧基胞嘧啶、5-葡糖基羟甲基胞嘧啶或3-甲基胞嘧啶。在一些实施例中，胞嘧啶修饰包括胞嘧啶甲基化。在一些实施例中，胞嘧啶甲基化包括CpG甲基化、CpA甲基化、CpT甲基化、CpC甲基化或其组合。在一些实施例中，胞嘧啶甲基化包括Dcm甲基化、DNMT1甲基化、DNMT3A甲基化或DNMT3B甲基化。

在一些实施例中，旨在被耗竭的核酸包括宿主核酸并且所关注核酸包括非宿主核酸。

附图说明

图1是展示本公开的示例性方法的图。样品中的核酸被去磷酸化，并且然后用限制酶消化，所述限制酶由于限制酶识别位点处的修饰的存在而被阻断。然后将来自所得消化的暴露的磷酸酯用于将衔接子连接到所关注核酸。

图2是展示本公开的示例性方法的图。将样品中的核酸去磷酸化，并且然后用识别限制酶切位点的限制酶消化，所述限制酶切位点包括一个或多个经修饰核苷酸。然后，将经切割的核酸用核酸外切酶消化，所述核酸外切酶使用暴露的末端磷酸酯，并将衔接子与其余的所关注核酸连接。

图3是展示本公开的示例性方法的图。将样品中的核酸与衔接子连接，并且然后用限制酶消化，所述限制酶识别包括一个或多个经修饰核苷酸的限制酶切位点，从而产生在两端上均是衔接子连接的所关注核酸。

图4是展示本公开的示例性方法的图。将样品中的核酸与衔接子连接，并且然后用核酸引导的核酸酶进行切割，所述核酸引导的核酸酶切割旨在被耗竭的核酸，从而产生在两端上均是衔接子连接的所关注核酸。此方法可以与本公开的基于核苷酸修饰的方法结合使用。

具体实施方式

基因组内的表观遗传核苷酸修饰因物种而异。例如，核苷酸修饰的频率和类型在脊椎动物与细菌、真菌或病毒之间有所不同。此外，如甲基化等修饰在如人基因组等一些基因组中在转录活性位点(例如，基因和/或基因的启动子)处也更频繁地发生，并且在基因组中的其它位点(例如，重复区域)处的发生频率较低。一些限制酶对其同源识别位点处或邻近所述同源识别位点的核苷酸修饰敏感。可以利用序列之间核苷酸修饰的差异来使用修饰敏感性限制酶来使样品富集所关注核酸。

本公开提供了使样品相对于旨在被耗竭的核酸富集所关注核酸的方法，所述方法包括使用所关注核酸与旨在被耗竭的核酸之间的核苷酸修饰频率的差异。本公开的方法允许降低文库复杂性，并富集可以在各种下游应用中使用的序列，包含但不限于PCR扩增、克隆、高通量测序、混合群体中稀有序列的鉴定以及文库内序列的定量。在一些实施例中，使样品的所关注核酸富集至少约2倍、约3倍、约4倍、约5倍、约6倍、约7倍、约8倍、约9倍、约10倍、约11倍、约12倍、约13倍、约14倍、约15倍、约16倍、约17倍、约18倍、约19倍、约20倍、约25倍、约30倍、约40倍、约50倍、约100倍、约200倍、约500倍或约1000倍。在一些实施例中，使样品的所关注核酸富集至少约2倍。在一些实施例中，使样品的所关注核酸富集至少约3倍。在一些实施例中，使样品的所关注核酸富集约2倍到约3倍。在一些实施例中，使样品的所关注核酸富集至少约12倍。在一些实施例中，使样品的所关注核酸富集至少约15倍。在一些实施例中，使样品的旨在被耗竭的核酸耗竭至少约50％到约70％。在一些实施例中，使样品的旨在被耗竭的核酸耗竭至少约95％。

本公开提供了使样品富集所关注核酸的方法，所述方法包括：(a)提供包括所关注核酸和旨在被耗竭的核酸的样品，其中至少所述旨在被耗竭的核酸包括用于修饰敏感性限制酶的多个识别位点；(b)在允许衔接子与所述样品中的多个所述核酸的5'端和3'端连接的条件下，使所述样品与所述衔接子接触；以及(c)在允许切割所述样品中的所述核酸中的修饰敏感性限制位点的条件下，使来自(b)的所述样品与所述修饰敏感性限制酶接触；由此产生富集所关注核酸的样品，所述所关注核酸在其5'端和3'端上衔接子连接。

本公开提供了通过消化旨在被耗竭的核酸来耗竭旨在被耗竭的核酸的方法，由此使样品富集所关注核酸。

本公开提供了通过消化靶向核酸通过差异衔接子连接到旨在被耗竭的核酸和所关注核酸来耗竭旨在被耗竭的核酸的方法，由此使样品富集所关注核酸。

本公开提供了通过在不使用大小选择的情况下耗竭旨在被耗竭的核酸的方法。

本公开提供了在不使用修饰敏感性靶标结合的情况下耗竭旨在被耗竭的核酸的方法，由此使样品富集所关注核酸。在一些实施例中，耗竭旨在被耗竭的核酸的方法不使用CpG敏感性靶向结合。

在一些实施例中，本公开的包括修饰敏感性限制酶的方法用作独立方法以使样品富集所关注核酸。在替代性实施例中，本公开的基于核苷酸修饰差异的方法与一种或多种另外的样品富集方法组合。在一些实施例中，本文所公开的富集方法中的任何富集方法与本文所公开的任何其它另外的富集方法组合。在一些实施例中，另外的方法是基于核苷酸修饰的方法。在一些实施例中，另外的方法采用向导核酸(gNA)和核酸引导的核酸酶的文库。在一些实施例中，另外的方法是基于核苷酸修饰的富集方法与采用向导核酸(gNA)和核酸引导的核酸酶的文库的富集方法的组合。在一些实施例中，另外的方法通过消化旨在被耗竭的核酸来耗竭旨在被耗竭的核酸。在一些实施例中，另外的方法使用本公开的方法通过差异衔接子连接来耗竭旨在被耗竭的核酸。在一些实施例中，另外的方法在不使用大小选择的情况下耗竭旨在被耗竭的核酸。在一些实施例中，另外的方法在不使用修饰敏感性靶向结合的情况下耗竭旨在被耗竭的核酸。在一些实施例中，另外的方法在不使用CpG敏感性靶向结合的情况下耗竭旨在被耗竭的核酸。

除非本文另外定义，否则本文使用的所有技术术语和科学术语的含义与如本公开所属领域的普通技术人员通常所理解的含义相同。尽管在本公开的实践或测试中可以使用类似于或等同于本文所描述的那些方法和材料的任何方法和材料，但是描述了优选的方法和材料。

数值范围包含定义所述范围的数字。

出于解释本说明书的目的，以下定义将适用并且每当适当时，以单数形式使用的术语还将包含复数形式，并且反之亦然。如果以下阐述的任何定义与通过引用并入本文的任何文件相冲突，则以以下阐述的定义为准。

除非另有说明，否则如本文所使用的单数形式“一个(a)”、“一种(an)”和“所述(the)”包含复数指示物。

如本文所使用的，术语“约”是指本技术领域的技术人员容易知道的各个值的通常误差范围。本文提及“约”值或参数包含(并且描述)指向所述值或参数本身的实施例。

如本文所使用的，术语“核酸”是指包括一个或多个核酸亚基的分子。核酸可以包含一个或多个选自以下的亚基：腺苷(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)及其经修饰版本。核酸包括脱氧核糖核酸(DNA)、核糖核酸(RNA)及其组合或衍生物。核酸可以是单链的和/或双链的。

核酸包括“核苷酸”，如本文所使用的，其旨在包含那些含有嘌呤和嘧啶碱基的部分及其经修饰版本。

术语“核酸”和“多核苷酸”在本文中可互换使用。多核苷酸用于描述任何长度的由核苷酸例如脱氧核糖核苷酸或核糖核苷酸构成的核酸聚合物，所述长度例如大于约2个碱基、大于约10个碱基、大于约100个碱基、大于约500个碱基、大于1000个碱基、至多约10,000个或更多个碱基，并且可以通过酶促或合成产生(例如，美国专利第5,948,902号和其中引用的参考文献中描述的PNA)，所述核苷酸可以以与两个天然存在的核酸的序列特异性方式类似的序列特异性方式与天然存在的核酸杂交，例如，可以参与Watson-Crick碱基配对交互。天然存在的核苷酸包含鸟嘌呤、胞嘧啶、腺嘌呤和胸腺嘧啶(分别为G、C、A和T)。DNA和RNA分别具有脱氧核糖和核糖糖主链，而PNA的主链由通过肽键连接的重复的N-(2-氨基乙基)-甘氨酸单元构成http://en.wikipedia.org/wiki/Peptide_bond。在PNA中，各种嘌呤和嘧啶碱基通过亚甲基羰基键连接到主链。锁核酸(LNA)，通常称为不可接近的RNA，是一种经修饰RNA核苷酸。LNA核苷酸的核糖部分用连接2'氧和4'碳的额外桥进行修饰。桥将核糖“锁定”在3'-内(北)构象中，这通常存在于A型双链体中。LNA核苷酸可以在需要时与寡核苷酸中的DNA或RNA残基混合。术语“非结构化核酸”或“UNA”是含有以降低的稳定性结合到彼此的非天然核苷酸的核酸。例如，非结构化核酸可以含有G'残基和C'残基，其中这些残基对应于非天然存在的形式，即，G和C的类似物，其彼此进行碱基配对的稳定性降低，但保留分别与天然存在的C和G残基进行碱基配对的能力。US20050233340中描述了非结构化核酸，所述文献通过引用并入本文以公开UNA。

“经修饰核苷酸”包含但不限于甲基化的嘌呤或嘧啶、酰化的嘌呤或嘧啶、烷基化的核糖或其它杂环。示例性修饰包含但不限于胞嘧啶修饰，例如，5-甲基胞嘧啶、5-羟甲基胞嘧啶、5-甲酰基胞嘧啶、5-羧基胞嘧啶、5-葡糖基羟甲基胞嘧啶或3-甲基胞嘧啶。

如本文所使用的，术语“切割(cleaving)”有时也称为“切割(cutting)”，是指破坏双链DNA分子的两条链中的两个相邻核苷酸之间的磷酸二酯键，由此导致DNA分子中的双链断裂的反应。

如本文所使用的，术语“切口”是指仅破坏双链DNA分子的仅一条链中的两个相邻核苷酸之间的磷酸二酯键，由此导致DNA分子的一条链断裂的反应。

如本文所使用的，术语“切割位点”是指双链DNA分子已被切割的位点。

术语“捕获”和“富集”在本文中可互换使用，并且是指选择性分离包含以下的核酸区域的过程：所关注序列、所关注靶向位点、不关注的序列或不关注的靶向位点。在一些实施例中，使样品富集所关注序列，或通过选择性地耗竭不关注的序列捕获的所关注序列。在一些情况下，可以通过以此类适合下游应用的方式选择性地改变所关注核酸区域来实现核酸区域的分离。例如，经分离的核酸可以是选择性地将衔接子连接到核酸的5'端和3'端的核酸。

术语“下一代测序”是指所谓的并行化合成测序或连接测序平台，例如，目前由依诺米那公司(Illumina)、生命科技公司(Life Technologies)、罗氏公司(Roche)等采用的那些。下一代测序方法还可以包含纳米孔测序方法或基于电子检测的方法，如来自牛津纳米孔公司(Oxford Nanopore)的方法，或由生命科技公司商业化的Ion Torrent技术。

样品

从任何种类的样品分离或衍生的核酸被认为在本公开的方法的范围内。

在本公开的方法的一些实施例中，样品是生物样品、临床样品、法医样品或环境样品中的任何一种。临床和法医样品包含但不限于全血、血浆、血清、眼泪、唾液、粘液、脑脊液、牙齿、骨骼、指甲、粪便、尿组织和活检样品。

在一些实施例中，样品是宏基因组样品(含有多于一种生物体物种的样品)。在一些实施例中，宏基因组样品包括从作为其它非宿主生物体的宿主的生物体(例如，具有一种或多种病毒、细菌、真菌或真核寄生虫的哺乳动物)分离或衍生的样品。在一些实施例中，宏基因组样品包括微生物群落(例如，生物膜)的样品。

在一些实施例中，样品中的核酸被片段化。在一些实施例中，所关注核酸和旨在被耗竭的核酸被片段化。

在一些实施例中，样品中的核酸长度为约20个到约5000个碱基对(bp)，长度为约20到约1000bp，长度为约20到约500bp，长度为约20到约400bp，长度为约20到约300bp，长度为约20到约200bp，长度为约20到100bp，长度为约50到约5000bp，长度为约50到约1000bp，长度为约50到约500bp，长度为约50到约400bp，长度为约50到约300bp，长度为约50到约200bp，长度为约50到100bp，长度为约100到约5000bp，长度为约100到约1000bp，长度为约100到约500bp，长度为约100到约400bp，长度为约100到约300bp，长度为约100到约200bp。在一些实施例中，样品中的核酸长度为约50到约1000bp。在一些实施例中，样品中的核酸长度为约50到约500bp。在一些实施例中，样品中的核酸长度为约100到约500bp。

所关注核酸

本文提供了可以用于针对多种应用富集样品中的所关注核酸的方法，包含但不限于样品中核酸的扩增、克隆、高通量测序、检测和定量。

在一些实施例中，所关注核酸包括用于至少一个第一修饰敏感性限制酶的至少一个识别位点。在一些实施例中，所关注核酸包括用于至少一个第一修饰敏感性限制酶的多个识别位点。在一些实施例中，所关注核酸包括用于第一修饰敏感性限制酶和第二修饰敏感性限制酶中的每个修饰敏感性限制酶的多个识别位点。在一些实施例中，第一和/或第二修饰敏感性限制酶的活性被其同源限制位点内或邻近所述同源限制位点的核苷酸的修饰阻断。在一些实施例中，第一和/或第二修饰敏感性限制酶在包括识别内或邻近所述识别的至少一个经修饰核苷酸的识别位点处是活性的，而在不包括识别位点内或邻近所述识别位点的至少一个经修饰核苷酸的识别位点处不是活性的。在一些实施例中，仅所关注核酸而不是旨在被耗竭的核酸包括用于至少一个第一修饰敏感性限制酶的一个或多个限制位点。在一些实施例中，所关注核酸和旨在被耗竭的核酸两者均包括用于第一修饰敏感性限制酶和任选地第二修饰敏感性限制酶的多个识别位点，但在包括邻近所述识别位点或所述识别位点内的经修饰核苷酸的识别位点中的频率不同。在一些实施例中，所关注核酸包括用于多于两个(即，至少3个、4个、5个、6个、7个、8个、9个或10个)修饰敏感性限制酶的多个识别位点。在一些实施例中，所关注核酸和旨在被耗竭的核酸各自包括用于多于两个(即，至少3个、4个、5个、6个、7个、8个、9个或10个)修饰敏感性限制酶的多个识别位点。

在一些示例性实施例中，所关注核酸来自缺乏CpG甲基化或具有低CpG甲基化水平的物种(例如，非宿主物种，如病毒、真菌或细菌)。相比之下，在此类实施例中，旨在被耗竭的核酸来自具有较高CpG甲基化水平的物种，如哺乳动物(例如，人)。普通技术人员将能够选择具有含有一个或多个CG二聚体的识别位点并且其活性由于CpG甲基化的存在而被阻断的修饰敏感性限制酶，并使用本公开的方法来富集所关注核酸。

在一些示例性实施例中，所关注核酸来自缺乏CpG甲基化或具有低CpG甲基化水平的物种(例如，非宿主物种，如病毒、真菌或细菌)。相比之下，在此类实施例中，旨在被耗竭的核酸来自具有较高CpG甲基化水平的物种，如哺乳动物(例如，人)。普通技术人员将能够选择具有含有一个或多个CG二聚体的识别位点并且其活性对于识别位点内或邻近所述识别位点的CpG甲基化的存在具有特异性的修饰敏感性限制酶，并使用本公开的方法来富集所关注核酸。

在一些实施例中，所关注核酸是基因组序列(基因组DNA)。在一些实施例中，所关注核酸是哺乳动物基因组序列。在一些实施例中，所关注核酸是真核基因组序列。在一些实施例中，所关注核酸是原核基因组序列。在一些实施例中，所关注序列是病毒基因组序列。在一些实施例中，所关注核酸是细菌基因组序列。在一些实施例中，所关注核酸是植物基因组序列。在一些实施例中，所关注核酸是微生物基因组序列。在一些实施例中，所关注序列是来自寄生虫例如真核寄生虫的基因组序列。在一些实施例中，所关注核酸是来自病原体例如细菌、病毒或真菌的基因组序列。在一些实施例中，所关注核酸是来自多种细菌、病毒或真菌物种的基因组序列。

在一些实施例中，所关注核酸可以是基因组片段，包括基因组的一个区域或整个基因组本身。在一个实施例中，基因组是DNA基因组。在另一个实施例中，基因组是RNA基因组。

在一些实施例中，所关注核酸包括重复序列。示例性但非限制性的重复序列包含但不限于线粒体序列、核糖体序列、着丝粒序列、Alu元件、长散布核元件(LINE)和短散布核元件(SINE)。

在一些实施例中，所关注核酸来自真核生物体或原核生物体；来自哺乳动物生物体或非哺乳动物生物体；来自动物或植物；来自细菌或病毒；来自动物寄生虫；来自病原体。

在一些实施例中，所关注核酸来自细菌物种。在一个实施例中，细菌是引起结核病的细菌。

在一些实施例中，所关注核酸来自病毒。

在一些实施例中，所关注核酸来自真菌物种。

在一些实施例中，所关注核酸来自藻类物种。

在一些实施例中，所关注核酸来自任何哺乳动物寄生虫。

在一些实施例中，所关注核酸是从任何哺乳动物寄生虫获得的。在一个实施例中，寄生虫是蠕虫。在另一个实施例中，寄生虫是引起疟疾的寄生虫。在另一个实施例中，寄生虫是引起利什曼病的寄生虫。在另一个实施例中，寄生虫是变形虫。

在一些实施例中，所关注核酸来自病原体。

在一些实施例中，所关注核酸的长度为约20到约5000bp，长度为20到约1000bp，长度为20到约500bp，长度为20到约400bp，长度为20到约300bp，长度为20到约200bp，长度为20到约100bp，长度为50到约5000bp，长度为50到约1000bp，长度为50到约500bp，长度为50到约400bp，长度为50到约300bp，长度为50到约200bp，长度为50到约100bp，长度为100到约5000bp，长度为100到约1000bp，长度为100到约500bp，长度为100到约400bp，长度为100到约300bp，长度为100到约200bp。在一些实施例中，所关注核酸的长度为约50到约1000bp。在一些实施例中，所关注核酸的长度为约50到约500bp。在一些实施例中，所关注核酸的长度为约100到约500bp。

在一些实施例中，所关注核酸占样品中总核酸的少于70％、少于60％、少于50％、少于40％、少于30％、少于20％、少于10％、少于5％、少于4％、少于3％、少于2％或少于1％。

在一些示例性实施例中，所关注核酸占样品中总核酸的少于50％。

在一些示例性实施例中，所关注核酸占样品中总核酸的少于30％。

在一些示例性实施例中，所关注核酸占样品中总核酸的少于5％。

在一些实施例中，所关注核酸占样品中总核酸的至少0.5％、至少1％、至少2％、至少3％、至少4％、至少5％、至少6％、至少7％、至少8％、至少9％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％或至少50％。

旨在被耗竭的核酸

本文提供了可以用于从样品中耗竭核酸，从而产生可以用于多种应用的使样品富集所关注核酸的方法，包含但不限于样品中核酸的扩增、克隆、高通量测序、检测和定量。

在一些实施例中，旨在被耗竭的核酸包括用于至少一个第一修饰敏感性限制酶的至少一个识别位点。在一些实施例中，旨在被耗竭的核酸包括用于至少一个第一修饰敏感性限制酶的多个识别位点。在一些实施例中，旨在被耗竭的核酸包括用于第一修饰敏感性限制酶和第二修饰敏感性限制酶中的每个修饰敏感性限制酶的多个识别位点。在一些实施例中，第一和/或第二修饰敏感性限制酶的活性被其同源限制位点内或邻近所述同源限制位点的核苷酸的修饰阻断。在一些实施例中，第一和/或第二修饰敏感性限制酶在包括其识别位点内或邻近所述识别位点的至少一个经修饰核苷酸的识别位点处是活性的，而在不包括识别位点内或邻近所述识别位点的至少一个经修饰核苷酸的识别位点处不是活性的。在一些实施例中，仅旨在被耗竭的核酸而不是所关注核酸包括用于至少一个第一修饰敏感性限制酶的一个或多个限制位点。在一些实施例中，所关注核酸和旨在被耗竭的核酸两者均包括用于第一修饰敏感性限制酶和任选地第二修饰敏感性限制酶的多个识别位点，但在包括邻近所述识别位点或所述识别位点内的经修饰核苷酸的识别位点中的频率不同。在一些实施例中，旨在被耗竭的核酸包括用于多于两个(即，至少3个、4个、5个、6个、7个、8个、9个或10个)修饰敏感性限制酶的多个识别位点。在一些实施例中，所关注核酸和旨在被耗竭的核酸各自包括用于多于两个(即，至少3个、4个、5个、6个、7个、8个、9个或10个)修饰敏感性限制酶的多个识别位点。

在一些示例性实施例中，旨在被耗竭的核酸包括人RNA或DNA。在一些情况下，所有人核酸都旨在被耗竭。

在一些示例性实施例中，与所关注核酸相比，旨在被耗竭的核酸来自具有升高的CpG甲基化水平的宿主物种，如哺乳动物(例如，人)。普通技术人员将能够选择具有含有一个或多个CG二聚体的识别位点并且其活性由于CpG甲基化的存在而被阻断的修饰敏感性限制酶，并使用本公开的方法以耗竭旨在被耗竭的核酸，产生富集所关注核酸的样品。

在一些示例性实施例中，与所关注核酸相比，旨在被耗竭的核酸来自具有升高的CpG甲基化水平的宿主物种，如哺乳动物(例如，人)。普通技术人员将能够选择具有含有一个或多个CG二聚体的识别位点并且其活性对于识别位点内或邻近所述识别位点的CpG甲基化的存在具有特异性的修饰敏感性限制酶，并使用本公开的方法以耗竭旨在被耗竭的核酸，产生富集所关注核酸的样品。

在一些实施例中，旨在被耗竭的核酸是丰富的基因组序列，如来自基因组或样品中最丰富物种的基因组的序列。在一些实施例中，样品中最丰富的物种是人。

在一些实施例中，旨在被耗竭的核酸可以是基因组片段，包括基因组的一个区域或整个基因组本身。在一个实施例中，基因组是DNA基因组。在另一个实施例中，基因组是RNA基因组。

在一些实施例中，旨在被耗竭的核酸来自任何哺乳动物生物体。在一个实施例中，哺乳动物是人。在另一个实施例中，哺乳动物是家畜动物，例如，马、羊、牛、猪或驴。在另一个实施例中，哺乳动物生物体是家养宠物，例如，猫、狗、沙鼠、小鼠、大鼠。在另一个实施例中，哺乳动物是猴子的一种。

在一些实施例中，旨在被耗竭的核酸来自任何鸟类或禽类生物体。禽类生物体包含但不限于鸡、火鸡、鸭和鹅。

在一些实施例中，旨在被耗竭的核酸来自昆虫。昆虫包含但不限于蜜蜂、独居蜂、蚂蚁、苍蝇、黄蜂或蚊子。

在一些实施例中，旨在被耗竭的核酸来自植物。在一个实施例中，植物是水稻、玉米、小麦、玫瑰、葡萄、咖啡、水果、番茄、马铃薯或棉花。

在一些实施例中，旨在被耗竭的核酸包括重复DNA。在一些实施例中，所关注核酸包括丰富的DNA。在一些实施例中，旨在被耗竭的核酸包括线粒体DNA。在一些实施例中，旨在被耗竭的核酸包括核糖体DNA。在一些实施例中，旨在被耗竭的核酸包括着丝粒DNA。在一些实施例中，旨在被耗竭的核酸包括包含Alu元件的DNA(Alu DNA)。在一些实施例中，旨在被耗竭的核酸包括长散布核元件(LINE DNA)。在一些实施例中，旨在被耗竭的核酸包括短散布核元件(SINE DNA)。在一些实施例中，丰富的DNA包括核糖体DNA。

在一些实施例中，旨在被耗竭的核酸包括单核苷酸多态性(SNP)、短串联重复序列(STR)、癌基因、插入、缺失、结构变异、外显子、基因突变或调控区。

在一些实施例中，旨在被耗竭的核酸包括转录活性序列。例如，转录活性序列包括启动子和转录活性基因的序列。根据一些实施例，基因组的转录活性区域的核苷酸修饰水平比基因组的转录沉默区域的核苷酸修饰水平高。根据一些示例性实施例，基因组是哺乳动物基因组，并且核苷酸修饰包括CpG甲基化。根据一些示例性实施例，基因组是人基因组，并且核苷酸修饰包括CpG甲基化。

在一些实施例中，旨在被耗竭的核酸包括在受试者中常见或普遍的核酸。例如，耗竭的核酸可以包括所有细胞类型共有的核酸，或者在典型或健康细胞中更丰富的核酸。在耗竭之后，要分析的剩余核酸然后可以包括不太常见或不太普遍的核酸，如细胞类型特异性核酸。这些不太常见的核酸可以是细胞死亡的信号，包含一种或多种特定细胞类型的细胞死亡。这种信号可以指示感染、癌症和其它疾病。在一些情况下，信号是一种特定组织或多种特定组织中癌症相关细胞凋亡的信号。可以使用细胞类型和本公开的方法之间的核苷酸修饰的差异从混合细胞群体分离或衍生的样品中的核酸富集来自特定细胞类型的核酸。

在一些实施例中，旨在被耗竭的核酸的长度为约20到约5000bp，长度为20到约1000bp，长度为20到约500bp，长度为20到约400bp，长度为20到约300bp，长度为20到约200bp，长度为20到约100bp，长度为50到约5000bp，长度为50到约1000bp，长度为50到约500bp，长度为50到约400bp，长度为50到约300bp，长度为50到约200bp，长度为50到约100bp，长度为100到约5000bp，长度为100到约1000bp，长度为100到约500bp，长度为100到约400bp，长度为100到约300bp或者长度为100到约200bp。在一些实施例中，旨在被耗竭的核酸的长度为约50到约1000bp。在一些实施例中，旨在被耗竭的核酸的长度为约50到约500bp。在一些实施例中，所关注核酸的长度为约100到约500bp。

在一些实施例中，旨在被耗竭的核酸占样品中总核酸的至少5％、至少10％、至少20％、至少30％、至少40％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％或至少99％。

宿主/非宿主核酸

在一些实施例中，所关注核酸包括非宿主核酸并且旨在被耗竭的核酸包括宿主核酸。

在一些示例性实施例中，宿主是脊椎动物，并且非宿主是病毒、细菌或真菌。在一些实施例中，脊椎动物是人。在一些实施例中，核苷酸修饰包括CpG、CpC、CpA或CpT甲基化，其在宿主基因组中比在非宿主基因组中更频繁地发生。普通技术人员将能够选择具有含有一个或多个CG、CC、CA或CT二聚体的识别位点并且其活性由于甲基化的存在而被阻断的修饰敏感性限制酶，并使用本公开的方法以耗竭旨在被耗竭的宿主核酸，产生富集非宿主核酸的样品。在一些实施例中，宿主是真核生物。在一些实施例中，宿主是哺乳动物、鸟类、爬行动物或昆虫。在一些实施例中，宿主是植物。示例性哺乳动物包含但不限于人、牛、马、羊、猪、猴、狗、猫、兔、大鼠、小鼠或沙鼠。在一些实施例中，宿主是植物。示例性植物包含但不限于农业植物，如玉米、小麦、水稻、烟草、番茄、橙子、苹果和杏仁。

在一些实施例中，宿主是人。

在一些实施例中，非宿主包括多种生物体物种。在一些实施例中，非宿主是单一生物体物种。在一些实施例中，非宿主包括细菌、真菌、病毒或真核寄生虫。在一些实施例中，非宿主是病原体。

核苷酸修饰

本文提供了使样品相对于旨在被耗竭的核酸富集所关注核酸的方法，所述方法包括使用所关注核酸与旨在被耗竭的核酸之间的核苷酸修饰的差异。设想在本公开的范围内的任何类型的核苷酸修饰。下文描述本公开的核苷酸修饰的示例性但非限制性实例。

本公开的方法使用的核苷酸修饰可以发生在任何核苷酸(例如，腺嘌呤、胞嘧啶、鸟嘌呤、胸腺嘧啶或尿嘧啶)上。这些核苷酸修饰可以发生在脱氧核糖核酸(DNA)或核糖核酸(RNA)上。这些核苷酸修饰可以发生在双链或单链DNA分子上，或发生在双链或单链RNA分子上。

在一些实施例中，核苷酸修饰包括腺嘌呤修饰或胞嘧啶修饰。

在一些实施例中，腺嘌呤修饰包括腺嘌呤甲基化。在一些实施例中，腺嘌呤甲基化包括N⁶-甲基化(6mA)。N⁶-甲基腺嘌呤(6mA)存在于原核基因组和真核基因组两者中。基因组中6mA甲基化的丰度因物种而异。例如，哺乳动物基因组和植物基因组中6mA的丰度通常低于原核基因组中6mA的丰度。在一些情况下，当与哺乳动物基因组或植物基因组相比时，原核基因组中6mA的丰度至少高出1,000倍。在一些实施例中，基因组中6mA甲基化的位置因物种而异。例如，6mA甲基化的核苷酸的位置(例如，处于特定的限制酶识别位点内)取决于甲基转移酶的活性，其表达和活性因物种而异。因此，6mA甲基化可以用于区分包括多个基因组的样品中的真核基因组与原核基因组，并使用本公开的方法选择性地富集来自一个基因组的序列而不是另一个基因组的序列。

在一些实施例中，腺嘌呤甲基化包括Dam甲基化。Dam甲基化是由脱氧腺苷甲基化酶进行的一种类型的DNA核苷酸修饰。脱氧腺苷甲基化酶(也被称为DNA腺嘌呤甲基转移酶或Dam甲基化酶)是一种将甲基从S-腺苷甲硫氨酸(SAM)转移到序列5'-GATC-3中的腺嘌呤残基的N6位置以生成6mA的酶。Dam甲基化和Dam甲基化酶存在于原核生物和噬菌体中。

在一些实施例中，腺嘌呤甲基化包括EcoKI甲基化。EcoKI甲基化是由EcoKI甲基化酶进行的一种类型的DNA核苷酸修饰。EcoKI甲基化酶修饰序列AAC(N₆)GTGC(SEQ ID NO:1)和GCAC(N₆)GTT(SEQ ID NO:2)中的腺嘌呤残基。EcoKI甲基化酶和EcoKI甲基化存在于原核生物中。

在一些实施例中，腺嘌呤修饰包括在N⁶处被甘氨酸修饰的腺嘌呤(单酰化(momylation))。单酰化将腺嘌呤变为N6-(1-乙酰氨基)-腺嘌呤。单酰化作用发生在病毒例如噬菌体中。

在一些实施例中，修饰包括胞嘧啶修饰。在一些实施例中，基因组中胞嘧啶修饰的丰度和类型基于物种而变化。在一些实施例中，基因组中胞嘧啶修饰的位置(例如，处于特定限制酶识别位点内)因物种而异。

在一些实施例中，胞嘧啶修饰包括5-甲基胞嘧啶(5mC)、5-羟甲基胞嘧啶(5hmC)、5-甲酰基胞嘧啶(5fC)、5-羧基胞嘧啶(5caC)、5-葡糖基羟甲基胞嘧啶(5ghmC)或3-甲基胞嘧啶(3mC)。

在一些实施例中，胞嘧啶修饰包括胞嘧啶甲基化。在一些实施例中，胞嘧啶甲基化包括5-甲基胞嘧啶(5mC)或N4-甲基胞嘧啶(4mC)。

在一些实施例中，4mC胞嘧啶甲基化存在于细菌中。在一些实施例中，细菌是嗜热细菌，例如，嗜热真细菌或嗜热古细菌。

在一些实施例中，胞嘧啶甲基化包括Dcm甲基化。Dcm甲基化是由Dcm甲基化酶进行的一种类型的甲基化。在Dcm甲基化中，Dcm甲基化酶(由DNA-胞嘧啶甲基转移酶或dcm基因编码)使C5位置(5mC)处的CCAGG和CCTGG序列中的内部(第二)胞嘧啶残基甲基化。Dcm甲基化酶和Dcm甲基化存在于如大肠杆菌等细菌中。

在一些实施例中，胞嘧啶甲基化包括DNMT1甲基化、DNMT3A甲基化或DNMT3B甲基化。DNMT1(DNA甲基转移酶1)、DNMT3A(DNA甲基转移酶3α)和DNMT3B(DNA甲基转移酶3β)是介导CpG、CpA、CpT和CpC胞嘧啶的甲基化的哺乳动物甲基转移酶。

在一些实施例中，胞嘧啶甲基化包括CpG甲基化、CpA甲基化、CpT甲基化、CpC甲基化或其组合。CpG甲基化、CpA甲基化、CpT甲基化、CpC可以存在于哺乳动物中。虽然甲基化胞嘧啶经常存在于哺乳动物的CpG位点处，但非CpG位点如CpA、CpT和CpC也可以被甲基化。在一些实施例中，非CpG甲基化限于特定细胞类型，包含但不限于多能干细胞、卵母细胞和神经系统细胞。在一些实施例中，非CpG胞嘧啶甲基化由DNMT3A和DNTM3B甲基转移酶介导。在一些实施例中，胞嘧啶在C5位置(5mC)处被甲基化。因此，CpA、CpT和CpC甲基化可以用于区分从混合细胞类型的样品中的不同细胞类型分离或衍生的核酸。

在一些实施例中，胞嘧啶甲基化包括CpG甲基化。哺乳动物中的CpG甲基化由DNMT1、DNMT3A和DNMT3B DNA甲基转移酶介导。DNMT1主要在CpG位点处与半甲基化的DNA结合。在DNA复制之后，新合成的链缺乏甲基化，而亲本菌株保留了甲基化的核苷酸。DNMT1与通过DNA复制产生的半甲基化的CpG位点结合，并使新合成链上的胞嘧啶甲基化。DNMT3A和DNMT3B不需要半甲基化的DNA来结合，并且对半甲基化和非甲基化的CpG位点表现出相同的亲和力。在一些实施例中，DNMT1、DNMT3A和DNMT3B介导5mC甲基化。在哺乳动物中，CpG甲基化更频繁地发生在基因组中的转录活性位点处，如活性基因的启动子中。因此，CpG甲基化可以用于选择性地区分哺乳动物基因组中的活性区域与非活性区域。例如，使用本公开的方法，CpG甲基化可以用于选择性地靶向哺乳动物基因组中的活性区域以进行耗竭。

在一些实施例中，胞嘧啶修饰包括5-羟甲基胞嘧啶(5hmC)。5hmC是5mC的氧化衍生物。5hmC可以存在于病毒(例如，噬菌体)以及一些哺乳动物组织(例如，脑)中。

在一些实施例中，胞嘧啶修饰包括5-甲酰基胞嘧啶(5fC)。5-甲酰基胞嘧啶是5mC的氧化衍生物。5mC被氧化成5-羟甲基胞嘧啶(5hmC)，然后被氧化成5fC。在一些实施例中，这些氧化步骤中的每个氧化步骤都通过十-十一易位(TET)酶进行。在一些实施例中，5fC存在于哺乳动物基因组中。

在一些实施例中，胞嘧啶修饰包括5-羧基胞嘧啶(5caC)。5caC是5mC的最终氧化衍生物。5mC被TET酶家族氧化成5hmC，然后被氧化为5fC，然后氧化成5caC。在一些实施例中，5caC存在于哺乳动物基因组中。

在一些实施例中，胞嘧啶修饰包括5-葡糖基羟甲基胞嘧啶。在一些实施例中，5-葡糖基羟甲基胞嘧啶存在于病毒中。在一些实施例中，病毒是噬菌体。在一些实施例中，病毒是一种非宿主物种并且病毒核酸是样品中的所关注核酸。

在一些实施例中，胞嘧啶修饰包括3-甲基胞嘧啶。

修饰敏感性限制酶

本文提供了使样品相对于旨在被耗竭的核酸富集所关注核酸的方法，所述方法包括使用被一种或多种修饰敏感性限制酶识别的所关注核酸与旨在被耗竭的核酸之间的核苷酸修饰的差异。对本文所描述的任何核苷酸修饰敏感的任何类型的限制酶都在本公开的范围内。

在本公开的方法的一些实施例中，所述方法至少使用第一修饰敏感性限制酶和第二修饰敏感性限制酶。在一些实施例中，第一修饰敏感性限制酶和第二修饰敏感性限制酶相同。在一些实施例中，第一修饰敏感性限制酶和第二修饰敏感性限制酶不同。在一些实施例中，第一修饰敏感性限制酶或第二修饰敏感性限制酶是单一物种的限制酶(例如，AluI或McrBC，但不是两者)。在一些实施例中，第一修饰敏感性限制酶或第二修饰敏感性限制酶是2种或更多种的修饰敏感性限制酶的混合物(例如，FspEI和AbaSI的混合物)。在本公开的方法的一些实施例中，第一修饰敏感性限制酶或第二修饰敏感性限制酶包括至少2种、至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种或至少10种或更多种修饰敏感性限制酶的混合物。在本公开的方法的一些实施例中，组合两种以上的不同方法，每种方法使用不同的修饰敏感性限制酶或修饰敏感性限制酶的混合物。

如本文所使用的，术语“修饰敏感性限制酶”是指对限制酶的识别位点内或邻近所述识别位点的经修饰核苷酸的存在敏感的限制酶。修饰敏感性限制酶可以对识别位点本身内的经修饰核苷酸敏感。修饰敏感性限制酶可以对邻近识别位点的经修饰核苷酸敏感，例如，在识别位点的1-50个核苷酸、5'或3'内。修饰敏感性限制酶可以对识别位点内的经修饰核苷酸和邻近识别位点的经修饰核苷酸两者均敏感。如本文所使用的，术语“识别位点”是指多核苷酸内含有特定序列的位点，其被限制酶识别。限制酶在多核苷酸的识别位点内或识别位点附近进行切割。在一些实施例中，限制酶在识别位点的1-105个核苷酸内进行切割。在一些实施例中，限制酶识别多核苷酸中可以相距多达3kb或更远的一对识别半位点。在一些实施例中，限制酶识别多核苷酸中的特定序列(识别位点)。在一些实施例中，识别位点长度介于3-20bp之间。在一些实施例中，识别位点是回文的。

本公开的核苷酸修饰可以在识别位点本身内，或包括邻近识别位点的核苷酸(例如，在识别位点的1-50个核苷酸、5'或3'或两者内)。

在一些实施例中，修饰敏感性限制酶对识别位点内或邻近所述识别位点的单个经修饰核苷酸敏感。

在一些实施例中，修饰敏感性限制酶对识别位点内或邻近所述识别位点的多个经修饰核苷酸敏感。

在一些实施例中，修饰敏感性限制酶对识别位点内或邻近所述识别位点的一个或多个核苷酸上的一种或多种特定类型的修饰(例如，甲基化、羟甲基化或羧化)敏感。

在一些实施例中，修饰敏感性限制酶对识别位点内或邻近所述识别位点的一个特定核苷酸或多个特定核苷酸处的修饰敏感。

在一些实施例中，修饰敏感性限制酶对识别位点内或邻近所述识别位点的经修饰核苷酸的特定空间布置敏感。例如，修饰敏感性限制酶可以对DNA多核苷酸中的识别位点内的相对链上且相距一个或两个核苷酸的一对修饰敏感。

在一些实施例中，修饰敏感性限制酶由于识别位点内或邻近所述识别位点的一个或多个经修饰核苷酸的存在而被阻断。由于经修饰核苷酸的存在而被阻断的修饰敏感性限制酶在不含经修饰核苷酸的识别位点处进行切割，并且在含有经修饰核苷酸的识别位点处不进行切割或以降低的水平进行切割。

其活性被经修饰核苷酸阻断的修饰敏感性限制酶包含其活性被识别位点内或邻近所述识别位点的任何种类的经修饰核苷酸或经修饰核苷酸的任何组合阻断或降低的酶。能够阻断或降低修饰敏感性限制酶的活性的示例性修饰包含但不限于N⁶-甲基腺嘌呤、5-甲基胞嘧啶(5mC)、5-羟甲基胞嘧啶(5hmC)、5-甲酰基胞嘧啶(5fC)、5-羧基胞嘧啶(5caC)、5-葡糖基羟甲基胞嘧啶、3-甲基胞嘧啶(3mC)、N4-甲基胞嘧啶(4mC)或其组合。能够阻断修饰敏感性限制酶的示例性修饰包含由Dam、Dcm、EcoKI、DNMT1、DNMT3A、DNMT3B和TET酶介导的修饰。

在一些实施例中，修饰包括Dam甲基化。被Dam甲基化阻断的限制酶包含但不限于下表1中的酶：

表1：其活性被Dam甲基化阻断的限制酶

在一些实施例中，修饰包括Dcm甲基化。被Dcm甲基化阻断的限制酶包含但不限于下表2中的酶：

表2：其活性被Dcm甲基化阻断的限制酶

在一些实施例中，修饰包括CpG甲基化。被CpG甲基化阻断的限制酶包含但不限于下表3中的酶：

表3：其活性被CpG甲基化阻断的限制酶

在一些实施例中，修饰敏感性限制酶在包括至少一个经修饰核苷酸的识别位点处是活性的，而在不包括至少一个经修饰核苷酸的识别位点处不是活性的。例如，修饰敏感性限制酶将在含有一个或多个经修饰核苷酸的识别位点处切割，但将不切割未含一个或多个经修饰核苷酸的识别位点。

由在包括一个或多个经修饰核苷酸的识别位点处进行切割的修饰敏感性限制酶识别的示例性修饰包含但不限于N⁶-甲基腺嘌呤、5-甲基胞嘧啶(5mC)、5-羟甲基胞嘧啶(5hmC)、5-甲酰基胞嘧啶(5fC)、5-羧基胞嘧啶(5caC)、5-葡糖基羟甲基胞嘧啶、3-甲基胞嘧啶(3mC)、N4-甲基胞嘧啶(4mC)或其组合。特异性切割包括一个或多个经修饰核苷酸的识别位点的识别示例性修饰的修饰敏感性限制酶包含由Dam、Dcm、EcoKI、DNMT1、DNMT3A、DNMT3B和TET酶介导的修饰。

在包括识别位点内或邻近所述识别位点的一个或多个经修饰核苷酸的识别位点处进行切割的示例性但非限制性修饰敏感性限制酶列于下表4中。

表4：切割包括经修饰核苷酸的识别位点的限制酶

在一些实施例中，修饰包括5-葡糖基羟甲基胞嘧啶，并且修饰敏感性限制酶包括AbaSI。AbaSI切割包括葡糖基羟甲基胞嘧啶的AbaSI识别位点，并且不切割不包括葡糖基羟甲基胞嘧啶的AbaSI识别位点。

在一些实施例中，核苷酸修饰包括5-羟甲基胞嘧啶，并且修饰敏感性限制酶包括AbaSI和T4噬菌体β-葡糖基转移酶。T4噬菌体β-葡糖基转移酶将尿苷二磷酸葡萄糖(UDP-Glc)的葡萄糖部分特异性转移到双链DNA中的5-羟甲基胞嘧啶(5-hmC)残基，例如在AbaSI识别位点内，从而制备葡糖基羟甲基胞嘧啶修饰的AbaSI识别位点。AbaSI切割包括葡糖基羟甲基胞嘧啶的AbaSI识别位点，并且不切割不包括葡糖基羟甲基胞嘧啶的AbaSI识别位点。

在一些实施例中，核苷酸修饰包括甲基胞嘧啶，并且修饰敏感性限制酶包括McrBC。McrBC切割包括甲基胞嘧啶的McrBC位点，并且不切割不包括甲基胞嘧啶的McrBC位点。可以用一条或两条DNA链上的甲基胞嘧啶修饰McrBC位点。在一些实施例中，McrBC还切割一条或两条DNA链上的包括羟甲基胞嘧啶的McrBC位点。在一些实施例中，McrBC半位点被至多3,000个核苷酸隔开。在一些实施例中，McrBC半位点被55-103个核苷酸隔开。

在一些实施例中，修饰包括腺嘌呤甲基化，并且所述方法包括用DpnI消化。当GATC识别的两条链上的腺嘌呤被甲基化时，DpnI会切割GATC识别位点。在一些实施例中，同时包括腺嘌呤甲基化和胞嘧啶修饰的DpnI GATC识别位点出现在细菌DNA中，而不存在于哺乳动物DNA中。包括甲基化的腺嘌呤和经修饰胞嘧啶两者的这些识别位点可以被(例如，混合细菌和哺乳动物DNA的)样品中的DpnI选择性地切割，并且然后用T4聚合酶处理以用未修饰腺嘌呤和胞嘧啶置换经切割末端处的甲基化的腺嘌呤和经修饰胞嘧啶。在存在模板、引物和核苷酸的情况下，T4聚合酶催化5'到3'方向的DNA合成。T4聚合酶会将未修饰核苷酸整合到新合成的DNA中。这产生现在在所关注核酸中包括未修饰胞嘧啶并且在旨在被耗竭的核酸中包括经修饰胞嘧啶的样品。使用本公开的方法，经修饰胞嘧啶中的这些差异可以用于富集所关注核酸。

磷酸酶

在本公开的方法的一些实施例中，样品中的核酸被末端去磷酸化，从而使样品中的核酸与修饰敏感性限制酶接触产生具有暴露的末端磷酸酯的所关注核酸或旨在被耗竭的核酸，所述暴露的末端磷酸酯可以在本公开的方法中使用以使样品富集所关注核酸。例如，这些暴露的末端磷酸酯可以用于靶向核酸以进行耗竭以被核酸外切酶降解(图2)或用于衔接子连接的所关注核酸(图1)。

如本文所使用的，术语“末端去磷酸化”是指具有从核酸分子的5'端和3'端去除的末端磷酸基团的核酸。

在一些实施例中，样品中的核酸使用磷酸酶进行末端去磷酸化。磷酸酶是非特异性催化DNA分子和RNA分子的5'端和3'端去磷酸化的酶。在一些实施例中，磷酸酶是碱性磷酸酶。

本公开的示例性磷酸酶包含但不限于虾碱性磷酸酶(SAP)、重组虾碱性磷酸酶(rSAP)、小牛肠碱性磷酸酶(CIP)和南极磷酸酶。

核酸外切酶

如本文所使用的，术语“核酸外切酶”是指从核酸分子的3'端或5'端连续去除核苷酸的一类酶。核酸分子可以是DNA或RNA。DNA或RNA可以是单链或双链的。示例性核酸外切酶包含但不限于λ核酸酶、核酸外切酶I、核酸外切酶III和BAL-31。核酸外切酶可以用于使用本公开的方法选择性地降解旨在被耗竭的核酸(例如，图2)。

在一些实施例中，核酸外切酶III用于降解旨在被耗竭的经切割DNA，同时使未切割的所关注DNA完整。核酸外切酶III可以通过使用具有末端磷酸酯的平末端或5'突出端来启动一条DNA链的单向3'>5'降解，从而产生单链DNA和核苷酸；其对单链DNA或缺乏末端磷酸酯的DNA没有活性，并且因此如Y形衔接子末端等3'突出端具有抗降解性。因此，未被修饰敏感性限制酶切割且缺乏末端磷酸酯的所关注完整双链DNA片段不会被核酸外切酶III消化，而已被修饰敏感性限制酶切割的旨在被耗竭的DNA分子通过核酸外切酶III降解。

在一些实施例中，核酸外切酶I用于降解旨在被耗竭的经切割DNA，同时使未切割的所关注DNA完整。在一些实施例中，核酸片段(例如，单链DNA)的样品被去磷酸化并用修饰敏感性限制酶切割，所述修饰敏感性限制酶切割旨在被耗竭的核酸但不切割所关注核酸。核酸外切酶I沿3'到5'方向降解单链DNA。

在一些实施例中，λ核酸酶(λ核酸外切酶)用于降解旨在被耗竭的经切割DNA，同时使未切割的所关注DNA完整。在一些实施例中，核酸片段(例如，DNA)的样品被去磷酸化并用修饰敏感性限制酶切割，所述修饰敏感性限制酶切割旨在被耗竭的核酸但不切割所关注核酸。λ核酸酶是一种高度进行性的5'到3'核酸外切酶。其优选底物是5'磷酸化双链DNA，并且其以大大降低的速率降解非磷酸化DNA。因此，完整的去磷酸化的所关注核酸受到保护免受λ核酸酶的影响，而具有已暴露的5'磷酸酯的旨在被耗竭的经切割核酸被降解。

在一些实施例中，核酸外切酶BAL-31用于降解旨在被耗竭的经切割DNA，同时使未切割的所关注DNA完整。在一些实施例中，核酸片段(例如，DNA)的样品被去磷酸化并用修饰敏感性限制酶切割，所述修饰敏感性限制酶切割旨在被耗竭的核酸但不切割所关注核酸。使样品与修饰敏感性限制酶接触，所述修饰敏感性限制酶切割旨在被耗竭的核酸，并使所关注核酸完整。使所得产物与核酸外切酶BAL-31接触。核酸外切酶BAL-31具有两种活性：双链DNA核酸外切酶活性和单链DNA/RNA核酸内切酶活性。双链DNA核酸外切酶活性允许BAL-31从两条链的开放末端降解DNA，从而减小双链DNA的大小。温育越长，双链DNA的大小减小得越多，这使其可以用于耗竭中等到大DNA片段(>200bp)。在一些实施例中，核酸的3'端使用末端转移酶用poly-dG加尾。注意到BAL-31的单链核酸内切酶活性使其能够非常快速地消化poly-A、-C或-T，但消化poly-G的能力极低。由于这种性质，在文库的3'端处添加单链poly-dG可以防止被BAL-31降解。因此，带有poly-dG尾并被修饰敏感性限制酶切割的DNA分子可以被BAL-31降解；而完整的DNA文库不会被BAL-31消化，这是因为其3'端poly-dG保护和/或缺乏末端磷酸酯。

在本公开的方法的一些实施例中，所述方法包括在允许从核酸的磷酸化末端连续去除核苷酸的条件下，使所述样品与核酸外切酶接触。在一些实施例中，样品中的核酸是末端去磷酸化的。在一些实施例中，使样品与核酸外切酶接触包括在样品中的核酸用修饰敏感性限制酶切割后使样品与核酸外切酶接触，所述修饰敏感性限制酶使样品中的经切割的核酸末端上的末端磷酸酯暴露。在一些实施例中，样品中的具有暴露的末端磷酸酯的核酸包括旨在被耗竭的核酸。在一些实施例中，核酸外切酶从样品中耗竭旨在被耗竭的核酸的至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或至少99％。

衔接子

本公开提供了连接到样品中的核酸或所关注核酸的5'端和3'端的衔接子。在本公开的方法的一些实施例中，将衔接子连接到样品中的所有核酸，并且然后使用核苷酸修饰的差异选择性地切割旨在被耗竭的核酸，从而产生在两端上衔接子连接的所关注核酸和在一端上衔接子连接的用于耗竭的核酸(图3、图4)。在一些实施例中，核苷酸修饰的差异用于选择性地耗竭旨在被耗竭的核酸，并且然后将衔接子连接到所关注核酸(图2)。在一些实施例中，核苷酸修饰的差异用于产生具有暴露的末端磷酸酯的所关注核酸，其用于将衔接子连接到所关注核酸(图1)。

在本公开的方法的一些实施例中，将衔接子连接到样品中的核酸的5'端和3'端。在一些实施例中，衔接子进一步包括在5'端和/或3'端之间的插入序列。例如，衔接子可以进一步包括条形码序列。

在一些实施例中，衔接子是可以与双链DNA分子的两条链连接的核酸。

在一些实施例中，在耗竭/富集之前连接衔接子。在其它实施例中，衔接子在随后的步骤中被连接。

在一些实施例中，衔接子是线性的。在一些实施例中，衔接子是线性Y形的。在一些实施例中，衔接子是线性圆形的。在一些实施例中，衔接子是发夹衔接子。在一些实施例中，衔接子包括polyG序列。

在各个实施例中，衔接子可以是发夹衔接子，即，一种分子与自身碱基配对以形成具有双链茎和环的结构，其中分子的3'端和5'端分别连接到片段的双链DNA分子的5'端和3'端。

可替代地，衔接子可以是连接到片段的一端或两端的Y-衔接子，也称为通用衔接子。可替代地，衔接子本身可以由彼此碱基配对的两个不同的寡核苷酸分子组成。另外，衔接子的可连接末端可以被设计成与由限制酶切割产生的突出端相容，或者其可以具有平末端或5'T突出端。在一些实施例中，限制酶是修饰敏感性限制酶。

衔接子可以包含双链以及单链分子。因此，衔接子可以是DNA或RNA或两者的混合物。含有RNA的衔接子可以通过RNase处理或碱性水解来切割。

衔接子的长度可以为10到100bp，尽管在不偏离本公开的情况下可以使用在此范围之外的衔接子。在具体实施例中，衔接子的长度是至少l0bp、至少15bp、至少20bp、至少25bp、至少30bp、至少35bp、至少40bp、至少45bp、至少50bp、至少55bp、至少60bp、至少65bp、至少70bp、至少75bp、至少80bp、至少85bp、至少90bp或至少95bp。

在一些实施例中，衔接子连接的所关注核酸和旨在被耗竭的核酸的长度处于约20到约5000bp、长度处于20到约1000bp、长度处于20到约500bp、长度处于20到约400bp、长度处于20到约300bp、长度处于20到约200bp、长度处于20到100bp、长度处于50到约5000bp、长度处于50到约1000bp、长度处于50到约500bp、长度处于50到约400bp、长度处于50到约300bp、长度处于50到约200bp、长度处于50到100bp、长度处于100到约5000bp、长度处于100到约1000bp、长度处于100到约500bp、长度处于100到约400bp、长度处于100到约300bp、长度处于100到约200bp的范围内。在一些实施例中，衔接子连接的所关注核酸和旨在被耗竭的核酸的长度处于50到约1000bp的范围内。在一些实施例中，衔接子连接的所关注核酸和旨在被耗竭的核酸的长度处于约50到约500bp的范围内。在一些实施例中，衔接子连接的所关注核酸和旨在被耗竭的核酸的长度处于约100到约500bp的范围内。在一些实施例中，衔接子连接的所关注核酸和旨在被耗竭的核酸的长度处于约50-300bp的范围内。

在一些实施例中，衔接子可以包括被设计成匹配宿主基因组的特定区域的核苷酸序列的寡核苷酸，例如，其序列保藏于NCBI的Genbank数据库或其它数据库中的染色体区域。此类寡核苷酸可以在使用含有测试基因组的样品的测定中采用，其中测试基因组含有寡核苷酸的结合位点。在另外的实例中，片段化的核酸序列可以源自一个或多个DNA测序文库。衔接子可以被配置成用于下一代测序平台，例如用于在Illumina测序平台上使用或用于在IonTorrents平台上使用，或与纳米孔技术一起使用。

在一些实施例中，衔接子包括测序衔接子(例如，Illumina测序衔接子)。在一些实施例中，衔接子包括唯一分子标识符(UMI)序列。在一些实施例中，UMI序列包括对于每个原始核酸分子来说是唯一的序列(例如，随机序列)。这可以允许对核酸量进行定量，而没有测序偏差。在一些实施例中，衔接子包括“条形码”序列。在一些实施例中，条形码序列包括在来自特定来源(如受试者、患者、环境样品、分区(例如，液滴、孔、珠粒))的核酸分子之间共享的条形码序列。这可以允许汇集测序信息以供后续分析，并且可以允许检测和消除交叉污染。在一些实施例中，衔接子包括多个不同的序列，例如每个核酸分子特有的UMI、来自特定来源的核酸分子之间共享的条形码和测序衔接子。

耗竭

可以通过多种方法来耗竭旨在被耗竭的核酸。

旨在被耗竭的核酸可以通过差异衔接子连接而耗竭。在一些实施例中，将衔接子连接到样品的核酸，并且随后基于其修饰状态从旨在被耗竭的核酸中去除一个或多个衔接子。例如，可以通过修饰敏感性限制酶切割两端连接有衔接子的旨在被耗竭的核酸，由此产生在仅一端连接有衔接子的旨在被耗竭的核酸。随后的步骤(例如，扩增)可以用于仅靶向两端连接有衔接子的核酸，由此耗竭旨在被耗竭的核酸。在另一个实例中，样品的核酸被处理(例如，通过去磷酸化)，使得仅经切割核酸能够连接有衔接子；随后，所关注核酸可以被修饰敏感性限制酶切割(例如，由此暴露磷酸基团)并且可以连接有衔接子。随后的步骤(例如，扩增)可以用于仅靶向连接有衔接子的核酸，由此耗竭旨在被耗竭的核酸。

旨在被耗竭的核酸可以通过消化而耗竭。例如，样品的核酸被处理(例如，通过去磷酸化)，使得仅经切割核酸能够被消化(例如，通过核酸外切酶)。旨在被耗竭的核酸可以被修饰敏感性限制酶切割，使得其能够被消化。随后如用核酸外切酶消化，然后可以用于耗竭旨在被耗竭的核酸。

旨在被耗竭的核酸可以通过大小选择来耗竭。例如，修饰敏感性限制酶可以用于切割所关注核酸或旨在被耗竭的核酸，并且随后可以基于由于切割导致的大小差异将所关注核酸与旨在被耗竭的核酸分离。

在一些情况下，不使用大小选择就耗竭旨在被耗竭的核酸。

旨在被耗竭的核酸可以通过靶向结合而耗竭。例如，修饰敏感性结合结构域(例如，甲基化敏感性抗体或DNA结合结构域)可以用于基于其修饰状态结合并分离旨在被耗竭的核酸或所关注核酸。如本文所使用的，“修饰敏感性结合结构域”是指以修饰敏感性方式与核酸结合的蛋白质、蛋白质片段或融合蛋白，但与本文所公开的修饰敏感性限制酶不同，其不切割核酸。“修饰敏感性靶向结合”是指核酸通过修饰敏感性结合结构域的结合。在一些示例性实施例中，修饰敏感性结合结构域与核酸的结合足够稳定以允许选择性结合旨在被耗竭的核酸或所关注核酸，随后进行后续纯化，例如通过免疫共沉淀，或修饰敏感性结合结构域与珠粒或柱的缀合。

在一些情况下，在不使用修饰敏感性靶向结合的情况下，耗竭旨在被耗竭的核酸。在一些情况下，在不使用CpG敏感性靶向结合的情况下，耗竭旨在被耗竭的核酸。

方法

方案1：本文所描述的应用的示例性方法描绘于图1中。包括所关注核酸(101)和旨在被耗竭的核酸(102)的核酸样品被末端去磷酸化(105)以产生未磷酸化的所关注核酸(106)和旨在被耗竭的核酸(107)。在一些实施例中，核酸在去磷酸化之前被片段化。在一些实施例中，样品中的核酸被磷酸酶例如重组虾碱性磷酸酶(rSAP)末端去磷酸化。在一些实施例中，所关注核酸和旨在被耗竭的核酸两者均包括用于修饰敏感性限制酶的一个或多个识别位点(分别为103、104)。在所关注核酸中，用于修饰敏感性限制酶的识别位点不包括经修饰核苷酸(103)，或者可替代地，含有经修饰核苷酸的频率低于旨在被耗竭的核酸的对应识别位点中含有经修饰核苷酸的频率。在旨在被耗竭的核酸中，用于修饰敏感性限制酶的识别位点包括限制位点(104)内或邻近所述限制位点的经修饰核苷酸，或者可替代地，包括经修饰核苷酸的频率高于所关注核酸的对应识别位点中包括经修饰核苷酸的频率。修饰敏感性限制酶(109)的活性由于其同源识别位点(108)内或邻近所述同源识别位点的经修饰核苷酸的存在而被阻断，由此将修饰敏感性限制酶的活性靶向所关注核酸(比较110和111)。在一些实施例中，修饰敏感性限制酶(109)包括：AatII、AccII、Aor13HI、Aor51HI、BspT104I、BssHII、Cfr10I、ClaI、CpoI、Eco52I、HaeII、HapII、HhaI、MluI、NaeI、NotI、NruI、NsbI、PmaCI、Psp1406I、PvuI、SacII、SalI、SmaI、SnaBI、AluI或Sau3AI。在一些实施例中，修饰敏感性限制酶(109)包括AluI或Sau3AI。用修饰敏感性限制酶消化样品(113)产生在末端磷酸酯(114)的5'端和3'端处具有末端磷酸酯的所关注核酸。这些末端磷酸酯用于将衔接子(115，连接步骤；116，衔接子)连接到所关注核酸的末端，从而产生在两端上均连接有衔接子的所关注核酸(117)。相比之下，旨在被耗竭的核酸不是衔接子连接的(111)。这些衔接子可以用于下游应用，例如衔接子介导的PCR扩增、测序(例如，高通量测序)、样品中所关注核酸的定量和/或克隆。通过将衔接子与所关注核酸连选择性地连接，从而耗竭旨在被耗竭的核酸。无需使用大小选择即可完成此耗竭。可替代地，将衔接子连接的所关注核酸进行本文所描述的另外的富集方法中的一种或多种。例如，将衔接子连接的核酸进行本公开的另外的修饰依赖性富集方法(例如，图3中描绘的方法)。可替代地或另外地，使衔接子连接的核酸进行本公开的基于核酸引导的核酸酶的富集方法(例如，图4中描绘的方法)。

方案2：本文所描述的应用的示例性方法描绘于图2中。包括所关注核酸(201)和旨在被耗竭的核酸(202)的核酸样品被末端去磷酸化(205)以产生未磷酸化的所关注核酸(206)和旨在被耗竭的核酸(207)。在一些实施例中，核酸在去磷酸化之前被片段化。在一些实施例中，样品中的核酸被磷酸酶例如重组虾碱性磷酸酶(rSAP)末端去磷酸化。在一些实施例中，所关注核酸和旨在被耗竭的核酸两者均包括用于修饰敏感性限制酶的一个或多个识别位点(分别为203和204)。在所关注核酸中，用于修饰敏感性限制酶的识别位点不包括经修饰核苷酸(203)，或者可替代地，含有经修饰核苷酸的频率低于旨在被耗竭的核酸的对应识别位点中含有经修饰核苷酸的频率。在旨在被耗竭的核酸中，用于修饰敏感性限制酶的识别位点包括限制位点(204)内或邻近所述限制位点的经修饰核苷酸，或者可替代地，包括经修饰核苷酸的频率高于所关注核酸的对应识别位点中包括经修饰核苷酸的频率。当识别位点内或邻近所述识别位点存在一个或多个经修饰核苷酸时，修饰敏感性限制酶(209)切割其同源识别位点(208)，并且当识别位点包括一个或多个经修饰核苷酸时，所述修饰敏感性限制酶不切割其同源识别位点(208)，由此将修饰敏感性限制酶的活性靶向旨在被耗竭的核酸(比较210和211)。在一些实施例中，修饰敏感性限制酶包括AbaSI、FspEI、LpnPI、MspJI或McrBC。在一些实施例中，修饰敏感性限制酶是FspEI。在一些实施例中，修饰敏感性限制酶是MspJI。用修饰敏感性限制酶消化样品(212)产生在核酸的一端(213)或5'端和3'端两端(214)具有末端磷酸酯的旨在被耗竭的核酸。相比之下，没有被修饰敏感性限制酶切割的所关注核酸在核酸的5'端和/或3'端处没有暴露的末端磷酸酯(比较210与213-214)。然后用核酸外切酶消化样品(215，消化步骤；216核酸外切酶)，其使用旨在被耗竭的核酸中的末端磷酸酯从核酸分子的末端中去除连续的核苷酸，因此从样品中耗竭旨在被耗竭的核酸。无需使用大小选择即可完成此耗竭。在核酸外切酶消化后，将衔接子连接到所关注核酸(217)，所述所关注核酸缺乏末端磷酸酯，没有被核酸外切酶消化。这产生了两端上均连接有衔接子的所关注核酸(218)。这些衔接子可以用于下游应用，例如衔接子介导的PCR扩增、测序(例如，高通量测序)、样品中所关注核酸的定量和/或克隆。可替代地，将衔接子连接的所关注核酸进行本文所描述的另外的富集方法中的一种或多种。例如，将衔接子连接的核酸进行本公开的另外的修饰依赖性富集方法(例如，图3中描绘的方法)。可替代地或另外地，使衔接子连接的核酸进行本公开的基于核酸引导的核酸酶的富集方法(例如，图4中描绘的方法)。

方案3：本文所描述的应用的示例性方法描绘于图3中。包括所关注核酸(301)和旨在被耗竭的核酸(302)的核酸样品是衔接子连接的(305)，或进行本公开的富集方法(306)(例如，图1或图2中描绘的方法)，所述方法产生衔接子连接的所关注核酸(307)和衔接子连接旨在被耗竭的核酸(308)。在一些实施例中，所关注核酸和旨在被耗竭的核酸两者均包括用于修饰敏感性限制酶的一个或多个识别位点(分别为303和304)。在所关注核酸中，用于修饰敏感性限制酶的识别位点不包括经修饰核苷酸(303)，或者可替代地，含有经修饰核苷酸的频率低于旨在被耗竭的核酸的对应识别位点中含有经修饰核苷酸的频率。在旨在被耗竭的核酸中，用于修饰敏感性限制酶的识别位点包括限制位点(304)内或邻近所述限制位点的经修饰核苷酸，或者可替代地，包括经修饰核苷酸的频率高于所关注核酸的对应识别位点中包括经修饰核苷酸的频率。当识别位点内或邻近所述识别位点存在一个或多个经修饰核苷酸时，修饰敏感性限制酶(309)切割其同源识别位点(308)，并且当识别位点包括一个或多个经修饰核苷酸时，所述修饰敏感性限制酶不切割其同源识别位点(308)，由此将修饰敏感性限制酶的活性靶向旨在被耗竭的核酸(比较310和311)。在一些实施例中，修饰敏感性限制酶包括AbaSI、FspEI、LpnPI、MspJI或McrBC。在一些实施例中，修饰敏感性限制酶是FspEI。在一些实施例中，修饰敏感性限制酶是MspJI。将样品用修饰敏感性限制酶消化(311)，从而产生未连接衔接子的(312)或仅在一端上衔接子连接的(313)的旨在被耗竭的核酸。通过从旨在被耗竭的核酸中选择性地去除衔接子，从而耗竭旨在被耗竭的核酸。无需使用大小选择即可完成此耗竭。相比之下，没有被修饰敏感性限制酶切割的所关注核酸在两端上均连接有衔接子(对比310与312-313)。这些衔接子可以用于下游应用，例如衔接子介导的PCR扩增、测序(例如，高通量测序)、样品中所关注核酸的定量和/或克隆。

方案4：本文所描述的应用的示例性方法描绘于图4中。多个gNA(401)用于将核酸引导的核酸酶(402)靶向衔接子连接的核酸样品中的旨在被耗竭的核酸(403)。通过本文所描述的任何富集方法均可产生衔接子连接的核酸，所述方法在初始衔接子连接之前或之后，使用修饰敏感性限制酶从样品中耗竭旨在被耗竭的核酸。在此方法中，gNA特异性靶向旨在被耗竭的核酸(403)，并且不靶向所关注核酸(404)，因此其不会被核酸引导的核酸酶(402)切割。通过核酸引导的核酸酶进行的切割产生在一端上衔接子连接的旨在被耗竭的核酸(405)，以及在两端上衔接子连接的所关注核酸(403)。这些衔接子可以用于下游应用，例如衔接子介导的PCR扩增、测序(例如，高通量测序)、样品中所关注核酸的定量和克隆。

方案5：在一些实施例中，核酸引导的核酸酶是核酸引导的切口酶。多个gNA用于将核酸引导的切口酶靶向衔接子连接的核酸样品中的旨在被耗竭的核酸。通过本文所描述的任何富集方法均可产生衔接子连接的核酸，所述方法在初始衔接子连接之前或之后，使用修饰敏感性限制酶从样品中耗竭旨在被耗竭的核酸。在一些实施例中，所述多个gNA被设计成使得所有旨在被耗竭的核酸在旨在被耗竭的双链DNA的相对DNA链上具有两个紧邻(例如，相距小于15个碱基)的gNA结合位点。在此实施例中，核酸引导的切口酶可以识别其在要去除的DNA上的靶位点并且切割仅一条链。对于要耗竭的DNA，两个单独的核酸引导的切口酶可以切割要耗竭的DNA的两条紧邻的链；仅要耗竭的DNA将具有两个紧邻的核酸引导的切口酶位点，从而产生双链断裂。在核酸引导的切口酶的情况下，例如，CRISPR/Cas系统蛋白切口酶非特异性或以低亲和力识别所关注DNA上的位点，其只能切割一条链，这不会阻止随后的PCR扩增或DNA分子的下游处理。在此实施例中，两个gNA非特异性识别足够紧邻的两个位点的机会可以忽略不计(<1×10^-14)。如果常规的CRISPR/Cas系统蛋白介导的切割切割过多的所关注DNA，则此实施例将特别有用。

方案6：在一些实施例中，核酸引导的核酸酶是催化死亡的，并且所述方法涉及将样品中的旨在被耗竭的核酸和所关注核酸分区。多个gNA用于将催化死亡的核酸引导的核酸酶(例如，dCas9或dCpf1)靶向衔接子连接的核酸样品中的旨在被耗竭的核酸和所关注核酸。通过本文所描述的任何富集方法均可产生衔接子连接的核酸，所述方法在初始衔接子连接之前或之后，使用修饰敏感性限制酶从样品中耗竭旨在被耗竭的核酸。催化死亡的核酸引导的核酸酶能够与核酸结合，但不能切口或切割核酸。在一些实施例中，催化死亡的核酸引导的核酸酶包括如生物素标签等标签，其可以用于分离催化死亡的核酸引导的核酸酶和其结合的任何分子。在这些实施例中，开发了多个gNA，其与所关注核酸或旨在被耗竭的核酸杂交，但不能与两者杂交。使此多个gNA和催化死亡的核酸引导的核酸酶与样品接触，允许催化死亡的核酸-核酸酶与所关注核酸或旨在被耗竭的核酸结合，这取决于gNA的设计。此方法不是切割靶向序列，而是用于将片段化的核酸样品分区成两个部分，每个部分都可以单独处理。因此，催化死亡的核酸引导的核酸酶将混合物分区成未结合的片段(例如，所关注核酸)和经结合片段(例如，旨在被耗竭的核酸，gNA靶向所述旨在被耗竭的核酸)。靶核酸样品的经结合部分通过结合先前附着在催化死亡的核酸引导的核酸酶蛋白上的亲和标签(例如，生物素)而去除。经结合核酸序列可以通过变性条件从蛋白质/gNA复合物中洗脱，并且然后进行扩增和测序。类似地，可以扩增和测序未结合的核酸序列。

本文所描述的任何方法均可以用作独立方法以从样品中耗竭旨在被耗竭的核酸，由此富集所关注核酸。

可替代地，与单独的任何单个方法相比，本文所描述的方法可以组合以获得更大程度的富集。在一些实施例中，首先使用方案1富集样品，然后是方案2。在一些实施例中，首先使用方案1富集样品，然后是方案3。在一些实施例中，首先使用方案1富集样品，然后是方案2和3。在一些实施例中，首先使用方案1富集样品，然后是方案4-6中的任一个方案。在一些实施例中，首先使用方案1富集样品，然后是方案2和/或3，并且是方案4-6中的任一个方案。

尽管本文描述方法的特定组合以及方法的组合的顺序，这些绝不旨在限制可以组合本公开的方法的方式。产生作为方法的产物的衔接子连接的所关注核酸的本公开的使样品富集所关注核酸的任何方法可以与本公开的使用衔接子连接的核酸作为其起始底物的任何其它方法组合。

基于核酸引导的核酸酶的富集方法

在本公开的方法的一些实施例中，本公开的基于修饰的富集方法与基于核酸引导的核酸酶的富集方法组合。基于核酸引导的核酸酶的富集方法是采用核酸引导的核酸酶以使样品富集所关注序列的方法。在WO/2016/100955、WO/2017/031360、WO/2017/100343、WO/2017/147345和WO/2018/227025中描述基于核酸引导的核酸酶的富集方法，所述文献中的每个文献的内容以全引用的方式并入本文中。

在一些实施例中，本公开的基于修饰的富集方法和基于核酸引导的核酸酶的富集方法耗竭样品中的不同核酸，与单独的任一方法相比，由此实现所关注核酸更大程度的富集。例如，样品包括来自哺乳动物宿主基因组的旨在被耗竭的核酸和来自一个或多个非宿主基因组(例如，细菌、病毒或寄生虫)的所关注核酸。使用本公开的方法来富集此样品中的所关注核酸，选择基于修饰的富集方法，利用宿主与非宿主核酸之间CpG甲基化的差异来耗竭包括哺乳动物宿主基因组的活性转录区域的核酸，而基于核酸引导的核酸酶的富集方法使用靶向这些区域的向导核酸(gNA)文库有效地靶向哺乳动物宿主基因组中的重复序列的区域。

术语“核酸引导的核酸酶-gNA复合物”是指包括核酸引导的核酸酶蛋白和向导核酸(gNA，例如，gRNA或gDNA)的复合物。例如，“Cas9-gRNA复合物”是指包括Cas9蛋白和向导RNA(gRNA)的复合物。核酸引导的核酸酶可以是任何类型的核酸引导的核酸酶，包含但不限于野生型核酸引导的核酸酶，催化死亡的核酸引导的核酸酶或核酸引导的核酸酶-切口酶。

多个gNA

本文提供多个向导核酸(gNA)(可互换地称为文库或集合)。

术语“向导核酸”是指能够与核酸引导的核酸酶和任选地其它核酸形成复合物的向导核酸(gNA)。gNA可以作为分离的核酸或作为核酸引导的核酸酶-gNA复合物，例如Cas9-gRNA复合物的一部分存在。

如本文所使用的，多个gNA表示含有至少10²个独特gNA的gNA的混合物。在一些实施例中，多个gNA含有至少10²个独特的gNA、至少10³个独特的gNA、至少10⁴个独特的gNA、至少10⁵个独特的gNA、至少10⁶个独特的gNA、至少10⁷个独特的gNA、至少10⁸个独特的gNA、至少10⁹个独特的gNA或至少10¹⁰个独特的gNA。在一些实施例中，gNA的集合含有总共至少10²个独特的gNA、至少10³个独特的gNA、至少10⁴个独特的gNA或至少10⁵个独特的gNA。

在一些实施例中，gNA的集合包括包含靶向序列的第一NA区段；以及包含核酸引导的核酸酶系统(例如，CRISPR/Cas系统)蛋白结合序列的第二NA区段。在一些实施例中，第一区段和第二区段为5'到3'顺序。在一些实施例中，第一区段和第二区段为3'到5'顺序。

在一些实施例中，第一区段的大小在所述多个gNA中从12-250bp、或12-100bp、或12-75bp、或12-50bp、或12-30bp、或12-25bp、或12-22bp、或12-20bp、或12-18bp、或12-16bp、或14-250bp、或14-100bp、或14-75bp、或14-50bp、或14-30bp、或14-25bp、或14-22bp、或14-20bp、或14-18bp、或14-17bp、或14-16bp、或15-250bp、或15-100bp、或15-75bp、或15-50bp、或15-30bp、或15-25bp、或15-22bp、或15-20bp、或15-18bp、或15-17bp、或15-16bp、或16-250bp、或16-100bp、或16-75bp、或16-50bp、或16-30bp、或16-25bp、或16-22bp、或16-20bp、或16-18bp、或16-17bp、或17-250bp、或17-100bp、或17-75bp、或17-50bp、或17-30bp、或17-25bp、或17-22bp、或17-20bp、或17-18bp、或18-250bp、或18-100bp、或18-75bp、或18-50bp、或18-30bp、或18-25bp、或18-22bp、或18-20bp、或19-250bp、或19-100bp、或19-75bp、或19-50bp、或19-30bp、或19-25bp或19-22bp变化。在一些实施例中，第一区段的大小在所述多个gNA中从或15-250bp、或30-100bp、或20-30bp、或22-30bp、或15-50bp、或15-75bp、或15-100bp、或15-125bp、或15-150bp、或15-175bp、或15-200bp、或15-225bp、或15-250bp、或22-50bp、或22-75bp、或22-100bp、或22-125bp、或22-150bp、或22-175bp、或22-200bp、或22-225bp或22-250bp变化。

在一些实施例中，多个中的至少10％、或至少15％、或至少20％、或至少25％、或至少30％、或至少35％、或至少40％、或至少45％、或至少50％、或至少55％、或至少60％、或至少65％、或至少70％、或至少75％、或至少80％、或至少85％、或至少90％、或至少95％或100％的第一区段是15-50bp。

在一些实施例中，集合中的至少10％、或至少15％、或至少20％、或至少25％、或至少30％、或至少35％、或至少40％、或至少45％、或至少50％、或至少55％、或至少60％、或至少65％、或至少70％、或至少75％、或至少80％、或至少85％、或至少90％、或至少95％或100％的第一区段是15-20bp。

在一些特定实施例中，第一区段的大小是15bp。在一些特定实施例中，第一区段的大小是16bp。在一些特定实施例中，第一区段的大小是17bp。在一些特定实施例中，第一区段的大小是18bp。在一些特定实施例中，第一区段的大小是19bp。在一些特定实施例中，第一区段的大小是20bp。

在一些实施例中，所述多个gRNA中的gNA和/或gNA的靶向序列包括独特的5'端。在一些实施例中，所述多个gNA在多个成员之间表现出靶向序列5'端序列的可变性。在一些实施例中，所述多个gNA在多个成员中在靶向序列的5'端的序列中表现出至少5％、或至少10％、或至少15％、或至少20％、或至少25％、或至少30％、或至少35％、或至少40％、或至少45％、或至少50％、或至少55％、或至少60％、或至少65％、或至少70％或至少75％的可变性。

在一些实施例中，gNA靶向序列的3'端可以是任何嘌呤或嘧啶(和/或其经修饰版本)。在一些实施例中，gNA靶向序列的3'端可以是腺嘌呤。在一些实施例中，gNA靶向序列的3'端可以是鸟嘌呤。在一些实施例中，gNA靶向序列的3'端可以是胞嘧啶。在一些实施例中，gNA靶向序列的3'端可以是尿嘧啶。在一些实施例中，gNA靶向序列的3'端可以是胸腺嘧啶。在一些实施例中，gNA靶向序列的3'端可以不是胞嘧啶。

在一些实施例中，所述多个gNA包括靶向序列，所述靶向序列可以与旨在被耗竭的核酸中的靶序列碱基配对，其中旨在被耗竭的核酸中的靶序列在样品中的旨在被耗竭的基因组或转录组中至少每1bp、至少每2bp、至少3bp、至少每4bp、至少每5bp、至少每6bp、至少每7bp、至少每8bp、至少每9bp、至少每10bp、至少每11bp、至少每12bp、至少每13bp、至少每14bp、至少每15bp、至少每16bp、至少每17bp、至少每18bp、至少每19bp、20bp、至少每25bp、至少每30bp、至少每40bp、至少每50bp、至少每100bp、至少每200bp、至少每300bp、至少每400bp、至少每500bp、至少每600bp、至少每700bp、至少每800bp、至少每900bp、至少每1000bp、至少每2500bp、至少每5000bp、至少每10,000bp、至少每15,000bp、至少每20,000bp、至少每25,000bp、至少每50,000bp、至少每100,000bp、至少每250,000bp、至少每500,000bp、至少每750,000bp或甚至至少每1,000,000bp被间隔开。

在一些实施例中，所述多个gNA包括包含靶向序列的第一NA区段；以及包含核酸引导的核酸酶系统(例如，CRISPR/Cas系统)蛋白结合序列的第二NA区段，其中所述多个中的gNA可以具有多个第二NA区段，所述区段对核酸引导的核酸酶系统(例如，CRISPR/Cas系统)的蛋白质成员具有各种特异性。例如，如本文所提供的gNA的集合可以包括其第二区段包括以下的成员：对第一核酸引导的核酸酶系统(例如，CRISPR/Cas系统)蛋白具有特异性的核酸引导的核酸酶系统(例如，CRISPR/Cas系统)蛋白结合序列；并且还包括其第二区段包括以下的成员：对第二核酸引导的核酸酶系统(例如，CRISPR/Cas系统)蛋白具有特异性的核酸引导的核酸酶系统(例如，CRISPR/Cas系统)蛋白结合序列，其中第一核酸引导的核酸酶系统(例如，CRISPR/Cas系统)蛋白和第二核酸引导的核酸酶系统蛋白不同。在一些实施例中，如本文所提供的gNA集合包括对至少1种、至少2种、至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种、至少11种、至少12种、至少13种、至少14种、至少15种、至少16种、至少17种、至少18种、至少19或甚至至少20种核酸引导的核酸酶系统(例如，CRISPR/Cas系统)蛋白表现出特异性的成员。在一个具体实施例中，如本文所提供的多个gNA包括对Cas9蛋白和选自由以下组成的组的另一种蛋白表现出特异性的成员：Cpf1、Cas3、Cas8a-c、Cas10、CasX、CasY、Cas13、Cas14、Cse1、Csy1、Csn2、Cas4、Csm2和Cm5。在一些实施例中，对第一核酸引导的核酸酶系统蛋白和第二核酸引导的核酸酶系统蛋白具有特异性的核酸引导的核酸酶系统蛋白结合序列均为第一NA区段的包括靶向序列的5'。在一些实施例中，对第一核酸引导的核酸酶系统蛋白和第二核酸引导的核酸酶系统蛋白具有特异性的核酸引导的核酸酶系统蛋白结合序列均为第一NA区段的包括靶向序列的3'。在一些实施例中，对第一核酸引导的核酸酶系统(例如，CRISPR/Cas系统)蛋白具有特异性的核酸引导的核酸酶系统蛋白结合序列是第一NA区段的包括靶向序列的5'并且对第二核酸引导的核酸酶系统蛋白具有特异性的第二核酸引导的核酸酶系统蛋白结合序列是第一NA区段的包括靶向序列的3'。包括靶向序列的第一NA区段和包括核酸引导的核酸酶系统蛋白结合序列的第二NA区段的顺序将取决于核酸引导的核酸酶系统蛋白。第一NA区段和第二NA区段的适当5'到3'排列以及核酸引导的核酸酶系统蛋白的选择对本领域普通技术人员来说是显而易见的。

在一些实施例中，gNA包括DNA和RNA。在一些实施例中，gNA由DNA(gDNA)组成。在一些实施例中，gNA由RNA(gRNA)组成。

在一些实施例中，gNA包括gRNA，并且gRNA包括两个对crRNA和tracrRNA进行编码的子区段。在一些实施例中，crRNA不包括靶向序列加上可以与tracrRNA杂交的额外序列。在一些实施例中，crRNA包括可以与tracrRNA杂交的额外序列。在一些实施例中，所述两个子区段被独立地转录。在一些实施例中，所述两个子区段被转录为单个单元。在一些实施例中，对crRNA进行编码的DNA包括序列GTTTTAGAGCTATGCTGTTTTG(SEQ ID NO:26)的靶向序列5'。在一些实施例中，对tracrRNA进行编码的DNA包括序列GGAACCATTCAAAACAGCATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTT(SEQ ID NO:27)。

靶向序列

如本文所使用的，靶向序列是将gNA引导到样品中的旨在被耗竭的核酸中的靶序列的靶向序列。例如，靶向序列靶向特定序列，例如，靶向样品中的旨在被耗竭的基因组中的重复序列的靶向序列。

本文所提供的是包括包含靶向序列的区段的gNA和多个gNA。

在一些实施例中，靶向序列包括DNA或由DNA组成。

在一些实施例中，靶向序列包括RNA或由RNA组成。

在一些实施例中，靶向序列包括RNA，并且与所关注序列上的PAM序列的序列5'共享至少70％序列同一性、至少75％序列同一性、至少80％序列同一性、至少85％序列同一性、至少90％序列同一性、至少95％序列同一性或具有100％序列同一性，除了RNA包括尿嘧啶而不是胸腺嘧啶外。在一些实施例中，靶向序列包括RNA，并且与所关注序列上的PAM序列的序列3'共享至少70％序列同一性、至少75％序列同一性、至少80％序列同一性、至少85％序列同一性、至少90％序列同一性、至少95％序列同一性或具有100％序列同一性，除了RNA包括尿嘧啶而不是胸腺嘧啶外。在一些实施例中，PAM序列是AGG、CGG、TGG、GGG或NAG。在一些实施例中，PAM序列是TTN、TCN或TGN。

在一些实施例中，靶向序列包括DNA，并且与所关注序列上的PAM序列的序列5'共享至少70％序列同一性、至少75％序列同一性、至少80％序列同一性、至少85％序列同一性、至少90％序列同一性、至少95％序列同一性或具有100％序列同一性。在一些实施例中，靶向序列包括DNA，并且与所关注序列上的PAM序列的序列3'共享至少70％序列同一性、至少75％序列同一性、至少80％序列同一性、至少85％序列同一性、至少90％序列同一性、至少95％序列同一性或具有100％序列同一性。

在一些实施例中，靶向序列包括RNA并且与PAM序列的5'核苷酸序列相反的链互补。在一些实施例中，靶向序列与PAM序列5'核苷酸序列相反的链至少70％互补、至少75％互补、至少80％互补、至少85％互补、至少90％互补、至少95％互补或100％互补。在一些实施例中，靶向序列包括RNA并且与PAM序列的3'核苷酸序列相反的链互补。在一些实施例中，靶向序列与PAM序列3'核苷酸序列相反的链至少70％互补、至少75％互补、至少80％互补、至少85％互补、至少90％互补、至少95％互补或100％互补。在一些实施例中，PAM序列是AGG、CGG、TGG、GGG或NAG。在一些实施例中，PAM序列是TTN、TCN或TGN。

在一些实施例中，靶向序列包括DNA并且与PAM序列的5'核苷酸序列相反的链互补。在一些实施例中，靶向序列与PAM序列5'核苷酸序列相反的链至少70％互补、至少75％互补、至少80％互补、至少85％互补、至少90％互补、至少95％互补或100％互补。在一些实施例中，靶向序列包括DNA并且与PAM序列的3'核苷酸序列相反的链互补。在一些实施例中，靶向序列与PAM序列3'核苷酸序列相反的链至少70％互补、至少75％互补、至少80％互补、至少85％互补、至少90％互补、至少95％互补或100％互补。在一些实施例中，PAM序列是AGG、CGG、TGG、GGG或NAG。在一些实施例中，PAM序列是TTN、TCN或TGN。

不同的CRISPR/Cas系统蛋白识别不同的PAM序列。PAM序列可以位于靶向序列的5'或3'。例如，Cas9可以识别定位在靶向序列的紧邻3'端上的NGG PAM。Cpf1可以识别定位在靶向序列的紧邻5'端的TTN PAM。被所有CRISPR/Cas系统蛋白识别的所有PAM序列被设想为在本公开的范围内。对于本领域普通技术人员而言，显而易见的是，PAM序列与特定的CRISPR/Cas系统蛋白相容。

核酸引导的核酸酶

本文提供了包括区段的gNA和多个gNA，所述区段包括核酸引导的核酸酶蛋白结合序列。核酸引导的核酸酶可以是核酸引导的核酸酶系统蛋白(例如，CRISPR/Cas系统)。核酸引导的核酸酶系统可以是RNA引导的核酸酶系统。核酸引导的核酸酶系统可以是DNA引导的核酸酶系统。

本公开的方法可以利用核酸引导的核酸酶。如本文所使用的，“核酸引导的核酸酶”是切割DNA、RNA或DNA/RNA杂交体并且使用一种或多种向导核酸(gNA)赋予特异性的任何核酸酶。核酸引导的核酸酶包含CRISPR/Cas系统蛋白以及非CRISPR/Cas系统蛋白。

本文所提供的核酸引导的核酸酶可以是DNA引导的DNA核酸酶；DNA引导的RNA核酸酶；RNA引导的DNA核酸酶；或RNA引导的RNA核酸酶。核酸酶可以是核酸内切酶。核酸酶可以是核酸外切酶。在一个实施例中，核酸引导的核酸酶是核酸引导的DNA核酸内切酶。在一个实施例中，核酸引导的核酸酶是核酸引导的RNA核酸内切酶。

核酸引导的核酸酶蛋白质结合序列是与核酸引导的核酸酶系统的任何蛋白质成员结合的核酸序列。例如，CRISPR/Cas蛋白质结合序列是结合CRISPR/Cas系统的任何蛋白质成员的核酸序列。

在一些实施例中，核酸引导的核酸酶选自由以下组成的组：CAS I类I型、CAS I类III型、CAS I类IV型、CAS II类II型和CAS II类V型。在一些实施例中，CRISPR/Cas系统蛋白包含来自CRISPR I型系统、CRISPR II型系统和CRISPR III型系统的蛋白质。在一些实施例中，核酸引导的核酸酶选自由以下组成的组：Cas9、Cpf1、Cas3、Cas8a-c、Cas10、Cas13、Cas14、Cse1、Csy1、Csn2、Cas4、Csm2、Cm5、Csf1、C2c2、CasX、CasY、Cas14和NgAgo。

在一些实施例中，核酸引导的核酸酶系统蛋白(例如，CRISPR/Cas系统蛋白)可以来自任何细菌或古细菌物种。

在一些实施例中，核酸引导的核酸酶系统蛋白(例如，CRISPR/Cas系统蛋白)来自或衍生自来自以下的核酸引导的核酸酶系统蛋白(例如，CRISPR/Cas系统蛋白)：酿脓链球菌(Streptococcus pyogenes)、金黄色葡萄球菌(Staphylococcus aureus)、脑膜炎奈瑟氏菌(Neisseria meningitidis)、嗜热链球菌(Streptococcus thermophiles)、齿垢密螺旋体(Treponema denticola)、土拉弗朗西斯菌(Francisella tularensis)、多杀巴斯德氏菌(Pasteurella multocida)、空肠弯曲杆菌(Campylobacter jejuni)、红嘴鸥弯曲杆菌(Campylobacter lari)、鸡毒支原体(Mycoplasma gallisepticum)、硝化裂化器菌(Nitratifractor salsuginis)、食清洁剂细小棒菌(Parvibaculum lavamentivorans)、肠罗斯氏菌(Roseburia intestinalis)、灰色奈瑟球菌(Neisseria cinerea)、重氮葡糖醋杆菌(Gluconacetobacter diazotrophicus)、固氮螺菌属(Azospirillum)、球藻(Sphaerochaeta globus)、柱状黄杆菌(Flavobacterium columnare)、氟维伊科拉塔夫草(Fluviicola taffensis)、嗜粪拟杆菌(Bacteroides coprophilus)、运动支原体(Mycoplasma mobile)、香肠乳杆菌(Lactobacillus farciminis)、巴氏链球菌(Streptococcus pasteurianus)、约氏乳杆菌(Lactobacillus johnsonii)、假中间葡萄球菌(Staphylococcus pseudintermedius)、龈沟产线菌(Filifactor alocis)、嗜肺军团菌(Legionella pneumophila)、瓦氏萨特氏菌(Suterella wadsworthensis)、白喉棒状杆菌(Corynebacter diphtheria)、氨基酸球菌属(Acidaminococcus)、毛螺菌科细菌(Lachnospiraceae bacterium)或普氏菌属(Prevotella)。

在一些实施例中，核酸引导的核酸酶系统(例如，CRISPR/Cas系统)蛋白的实例可以是天然存在的或工程化的版本。

在一些实施例中，天然存在的核酸引导的核酸酶系统(例如，CRISPR/Cas系统)蛋白包含Cas9、Cpf1、Cas3、Cas8a-c、Cas10、CasX、CasY、Cas13、Cas14、Cse1、Csy1、Csn2、Cas4、Csm2和Cm5。也可以采用此类蛋白质的工程化版本。

在一些实施例中，核酸引导的核酸酶(例如，CRISPR/Cas)系统蛋白的工程化实例还包含核酸引导的切口酶(例如，Cas切口酶)。核酸引导的切口酶是指核酸引导的核酸酶系统蛋白的经修饰版本，含有单个无活性催化结构域。在一个实施例中，核酸引导的切口酶是Cas切口酶，如Cas9切口酶。Cas9切口酶可以含有单个无活性催化结构域，例如，RuvC-或HNH-结构域。在仅一个活性核酸酶结构域的情况下，Cas9切口酶切割靶DNA的仅一个链，从而产生单链断裂或“切口”。根据使用的突变体，可以切割向导NA杂交链或非杂交链。与靶向相对链的2个gNA结合的核酸引导的切口酶将在靶双链DNA中产生双链断裂。此“双切口酶”策略可以提高切割的特异性，因为其要求两种核酸引导的核酸酶/gNA(例如，Cas9/gRNA)复合物在形成双链断裂之前在位点处是特异性结合的。也可以采用天然存在的切口酶核酸引导的核酸酶系统蛋白。

在一些实施例中，核酸引导的核酸酶系统蛋白的工程化实例还包含核酸引导的核酸酶系统融合蛋白。例如，核酸引导的核酸酶(例如，CRISPR/Cas)系统蛋白可以与另一种蛋白融合，例如，激活因子、阻遏物、核酸酶、荧光分子、放射性标签或转座酶。

在一些实施例中，核酸引导的核酸酶系统蛋白结合序列包括gNA(例如，gRNA)茎环序列。

不同的CRISPR/Cas系统蛋白与不同的核酸引导的核酸酶系统蛋白结合序列相容。对于本领域普通技术人员而言，哪些CRISPR/Cas系统蛋白与哪些核酸引导的核酸酶系统蛋白结合序列相容是显而易见的。

在一些实施例中，对gNA(例如，gRNA)茎环序列进行编码的双链DNA序列在一条链上包括以下DNA序列(5'>3'，GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTT(SEQ ID NO:28))及其另一条链上的反向互补DNA(5'>3'，AAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAAC(SEQ ID NO:29))。

在一些实施例中，对gNA(例如，gRNA)茎环序列进行编码的单链DNA序列包括以下DNA序列：(5'>3'，AAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAAC(SEQ ID NO:29))，其中单链DNA作为转录模板。

在一些实施例中，gNA(例如，gRNA)茎环序列包括以下RNA序列：(5'>3'，GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU(SEQ ID NO:30))。

在一些实施例中，对gNA(例如，gRNA)茎环序列进行编码的双链DNA序列在一条链上包括以下DNA序列(5'>3'，GTTTTAGAGCTATGCTGGAAACAGCATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTTC(SEQ ID NO:31))及其另一条链上的反向互补DNA(5'>3'，GAAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATGCTGTTTCCAGCATAGCTCTAAAAC(SEQ ID NO:32))。

在一些实施例中，对gNA(例如，gRNA)茎环序列进行编码的单链DNA序列包括以下DNA序列：(5'>3'，GAAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATGCTGTTTCCAGCATAGCTCTAAAAC(SEQ ID NO:32))，其中单链DNA作为转录模板。

在一些实施例中，gNA(例如，gRNA)茎环序列包括以下RNA序列：(5'>3'，GUUUUAGAGCUAUGCUGGAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUUC(SEQ ID NO:33))。

在一些实施例中，CRISPR/Cas系统蛋白是Cpf1蛋白。在一些实施例中，Cpf1蛋白分离或衍生自弗朗西斯氏菌属物种或氨基酸球菌属物种。在一些实施例中，gNA(例如，gRNA)CRISPR/Cas系统蛋白结合序列包括以下RNA序列：(5'>3'，AAUUUCUACUGUUGUAGAU(SEQ IDNO:34))。

在一些实施例中，CRISPR/Cas系统蛋白是Cpf1蛋白。在一些实施例中，Cpf1蛋白分离或衍生自弗朗西斯氏菌属物种或氨基酸球菌属物种。在一些实施例中，对gNA(例如，gRNA)CRISPR/Cas系统蛋白结合序列进行编码的DNA序列包括以下DNA序列：(5'>3'，AATTTCTACTGTTGTAGAT(SEQ ID NO:35))。在一些实施例中，DNA是单链的。在一些实施例中，DNA是双链的。

在一些实施例中，本文提供了一种gNA(例如，gRNA)，其包括包含靶向序列的第一NA区段和包含核酸引导的核酸酶(例如，CRISPR/Cas)系统蛋白结合序列的第二NA区段。在一些实施例中，第一区段的大小是15bp、16bp、17bp、18bp、19bp或20bp。在一些实施例中，第二区段包括单个区段，所述单个区段包括gRNA茎环序列。在一些实施例中，gRNA茎环序列包括以下RNA序列：(5'>3'，GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU(SEQ ID NO:30))。在一些实施例中，gRNA茎环序列包括以下RNA序列：(5'>3'，GUUUUAGAGCUAUGCUGGAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUUC(SEQ ID NO:33))。在一些实施例中，第二区段包括以下两个子区段：第一RNA子区段(crRNA)与第二RNA子区段(tracrRNA)形成杂交体，其共同作用以引导核酸引导的核酸酶(例如，CRISPR/Cas)系统蛋白质结合。在一些实施例中，第二子区段的序列包括GUUUUAGAGCUAUGCUGUUUUG(SEQ ID NO:36)。在一些实施例中，第一RNA区段和第二RNA区段一起形成crRNA序列。在一些实施例中，将与第二RNA区段形成杂交体的其它RNA是tracrRNA。在一些实施例中，tracrRNA包括5'>3'，GGAACCAUUCAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU(SEQ ID NO:37)的序列。

在一些实施例中，本文提供了一种gNA(例如，gRNA)，其包括包含靶向序列的第一NA区段和包含核酸引导的核酸酶(例如，CRISPR/Cas)系统蛋白结合序列的第二NA区段。在一些实施例中，例如其中CRISPR/Cas系统蛋白是Cpf1系统蛋白的那些实施例，第二区段是第一区段的5'。在一些实施例中，第一区段的大小是20bp。在一些实施例中，第一区段的大小大于20bp。在一些实施例中，第一区段的大小大于30bp。在一些实施例中，第二区段包括单个区段，所述单个区段包括gRNA茎环序列。在一些实施例中，gRNA茎环序列包括以下RNA序列：(5'>3'，AAUUUCUACUGUUGUAGAU(SEQ ID NO:34))。

CRISPR/Cas系统核酸引导的核酸酶

在一些实施例中，CRISPR/Cas系统蛋白在本文所提供的实施例中使用。在一些实施例中，CRISPR/Cas系统蛋白包含来自CRISPR I型系统、CRISPR II型系统和CRISPR III型系统的蛋白。

在一些实施例中，CRISPR/Cas系统蛋白可以来自任何细菌或古细菌物种。

在一些实施例中，CRISPR/Cas系统蛋白是分离的、重组产生的或合成的。

在一些实施例中，CRISPR/Cas系统蛋白来自或衍生自来自以下的CRISPR/Cas系统蛋白：酿脓链球菌、金黄色葡萄球菌、脑膜炎奈瑟氏菌、嗜热链球菌、齿垢密螺旋体、土拉弗朗西斯菌、多杀巴斯德氏菌、空肠弯曲杆菌、红嘴鸥弯曲杆菌、鸡毒支原体、硝化裂化器菌、食清洁剂细小棒菌、肠罗斯氏菌、灰色奈瑟球菌、重氮葡糖醋杆菌、固氮螺菌属、球藻、柱状黄杆菌、氟维伊科拉塔夫草、嗜粪拟杆菌、运动支原体、香肠乳杆菌、巴氏链球菌、约氏乳杆菌、假中间葡萄球菌、龈沟产线菌、嗜肺军团菌、瓦氏萨特氏菌、白喉棒状杆菌、氨基酸球菌属、毛螺菌科细菌或普氏菌属。

在一些实施例中，CRISPR/Cas系统蛋白的实例可以是天然存在的或工程化的版本。

在一些实施例中，天然存在的CRISPR/Cas系统蛋白可以属于CAS I类I型、III或IV型或CAS II类II型或V型，并且可以包含Cas9、Cas3、Cas8a-c、Cas10、CasX、CasY、Cas13、Cas14、Cse1、Csy1、Csn2、Cas4、Csm2、Cmr5、Csf1、C2c2和Cpf1。

在一个示例性实施例中，CRISPR/Cas系统蛋白包括Cas9。

在一个示例性实施例中，CRISPR/Cas系统蛋白包括Cpf1。

“CRISPR/Cas系统蛋白-gNA复合物”是指包括CRISPR/Cas系统蛋白和向导NA(例如，gRNA或gDNA)的复合物。在gNA是gRNA的情况下，gRNA可以由两个分子构成，即，与靶标杂交并提供序列特异性的一个RNA(“crRNA”)，以及能够与crRNA杂交的一个RNA，即，“tracrRNA”。可替代地，向导RNA可以是含有crRNA和tracrRNA序列的单个分子(即，gRNA)。可替代地，向导RNA可以是包括crRNA序列的单个分子(即，gRNA)。

CRISPR/Cas系统蛋白可以与野生型CRISPR/Cas系统蛋白至少60％相同(例如，至少70％、至少80％或90％相同、至少95％相同或至少98％相同或至少99％相同)。CRISPR/Cas系统蛋白可以具有野生型CRISPR/Cas系统蛋白的所有功能，或功能中的仅一种或一些功能，包含结合活性、核酸酶活性和核酸酶活性。

术语“CRISPR/Cas系统蛋白相关向导NA”是指向导NA。CRISPR/Cas系统蛋白相关向导NA可以作为分离的NA存在，或作为CRISPR/Cas系统蛋白-gNA复合物的一部分存在。

在一些实施例中，CRISPR/Cas系统蛋白是RNA引导的RNA核酸酶(即，切割RNA)。切割RNA的示例性CRISPR/Cas系统蛋白包含但不限于C2c2。C2c2(也被称为Cas13a)是2类VI型RNA引导的RNA靶向的CRISPR/Cas系统蛋白。在一些实施例中，C2c2核酸酶分离自或衍生自沙海纤毛菌(Leptotrichia shahii)。在一些实施例中，C2c2由切割携带互补原型间隔子的ssRNA的单个crRNA引导。合适的C2c2 crRNA序列将对本领域普通技术人员来说是显而易见的。

在一些实施例中，CRISPR/Cas系统蛋白是RNA引导的DNA核酸酶。在一些实施例中，被CRISPR/Cas系统蛋白切割的DNA是双链的。切割双链DNA的示例性RNA引导的DNA核酸酶包含但不限于Cas9、Cpf1、CasX和CasY。另外的示例性RNA引导的DNA核酸酶包含Cas10、Csm2、Csm3、Csm4和Csm5。在一些实施例中，Cas10、Csm2、Csm3、Csm4和Csm5与gRNA形成核糖核蛋白复合物。

在一些实施例中，RNA引导的DNA核酸酶是CasX。在一些实施例中，CasX蛋白是双引导的(即，gNA包括crRNA和tracrRNA)。在一些实施例中，CasX识别紧邻靶向序列互补的序列的5'定位的TTCN PAM。在一些实施例中，CasX蛋白分离自或衍生自变形菌(Deltaproteobacteria)或浮霉菌(Planctomycetes)。在一些实施例中，CasX蛋白是CasX1、CasX2或CasX3蛋白。CasX蛋白描述于WO/2018/064371中，所述文献的内容以全文引用的方式并入本文中。针对CasX蛋白的合适gNA序列对本领域普通技术人员来说是显而易见的。

在一些实施例中，RNA引导的DNA核酸酶是CasY。在一些实施例中，CasY蛋白是双引导的(即，gNA包括crRNA和tracrRNA)。在一些实施例中，CasY识别位于靶序列5'的TA PAM。CasY蛋白描述于WO/2018/064352中，所述文献的内容以全文引用的方式并入本文中。针对CasY蛋白的合适gNA序列对本领域普通技术人员来说是显而易见的。

在一些实施例中，CRISPR/Cas系统蛋白是RNA引导的DNA核酸酶。在一些实施例中，被CRISPR/Cas系统蛋白切割的DNA是单链的。切割单链DNA的示例性RNA引导的CRISPR/Cas系统蛋白包含但不限于Cas3和Cas14。在一些实施例中，Cas14蛋白不需要PAM位点。

Cas9

在一些实施例中，CRISPR/Cas系统蛋白核酸引导的核酸酶是或包括Cas9。本公开的Cas9可以是分离的、重组产生的或合成的。

可以在本文实施例中使用的Cas9蛋白的实例可以在F.A.Ran,L.Cong,W.X.Yan,D.A.Scott,J.S.Gootenberg,A.J.Kriz,B.Zetsche,O.Shalem,X.Wu,K.S.Makarova,E.V.Koonin,P.A.Sharp和F.Zhang；“使用金黄色葡萄球菌Cas9进行体内基因组编辑(Invivo genome editing using Staphylococcus aureus Cas9)”,《自然(Nature)》520,186-191(2015年4月09日)doi:10.1038/nature14299中发现，所述文献通过引用并入本文中。

在一些实施例中，Cas9是衍生自以下的II型CRISPR系统：酿脓链球菌、金黄色葡萄球菌、脑膜炎奈瑟氏菌、嗜热链球菌、齿垢密螺旋体、土拉弗朗西斯菌、多杀巴斯德氏菌、空肠弯曲杆菌、红嘴鸥弯曲杆菌、鸡毒支原体、硝化裂化器菌、食清洁剂细小棒菌、肠罗斯氏菌、灰色奈瑟球菌、重氮葡糖醋杆菌、固氮螺菌属、球藻、柱状黄杆菌、氟维伊科拉塔夫草、嗜粪拟杆菌、运动支原体、香肠乳杆菌、巴氏链球菌、约氏乳杆菌、假中间葡萄球菌、龈沟产线菌、嗜肺军团菌、瓦氏萨特氏菌或白喉棒状杆菌。

在一些实施例中，Cas9是衍生自酿脓链球菌的II型CRISPR系统并且PAM序列是定位在靶特异性向导序列的紧邻3'端上的NGG。来自示例性细菌物种的II型CRISPR系统的PAM序列还可以包含：酿脓链球菌(NGG)、金黄色葡萄球菌(NNGRRT)、脑膜炎奈瑟氏菌(NNNNGATT)、嗜热链球菌(NNAGAA)和齿垢密螺旋体(NAAAAC)，其在不脱离本公开的情况下均可使用。

在一个示例性实施例中，Cas9序列可以例如从pX330质粒(可从Addgene公司获得)获得，通过PCR再扩增，然后克隆到pET30(来自EMD生物科技公司(EMD biosciences))以在细菌中表达并纯化重组的6His标记的蛋白。

“Cas9-gNA复合物”是指包括Cas9蛋白和向导NA的复合物。Cas9蛋白可以与野生型Cas9蛋白例如酿脓链球菌Cas9蛋白至少60％相同(例如，至少70％、至少80％或90％相同、至少95％相同或至少98％相同或至少99％相同)。Cas9蛋白可以具有野生型Cas9蛋白的所有功能，或功能中的仅一种或一些功能，包含结合活性、核酸酶活性和核酸酶活性。

术语“Cas9相关的向导NA”是指如上所描述的向导的NA。与Cas9相关的引导的NA可以单独存在，或作为Cas9-gNA复合物的一部分存在。

非CRISPR/Cas系统核酸引导的核酸酶

在一些实施例中，非CRISPR/Cas系统蛋白在本文所提供的实施例中使用。

在一些实施例中，非CRISPR/Cas系统蛋白可以来自任何细菌或古细菌物种。

在一些实施例中，非CRISPR/Cas系统蛋白是分离的、重组产生的或合成的。

在一些实施例中，非CRISPR/Cas系统蛋白来自或衍生自：超嗜热菌(Aquifexaeolicus)、嗜热栖热菌(Thermus thermophilus)、酿脓链球菌、金黄色葡萄球菌、脑膜炎奈瑟氏菌、嗜热链球菌、齿垢密螺旋体、土拉弗朗西斯菌、多杀巴斯德氏菌、空肠弯曲杆菌、红嘴鸥弯曲杆菌、鸡毒支原体、硝化裂化器菌、食清洁剂细小棒菌、肠罗斯氏菌、灰色奈瑟球菌、重氮葡糖醋杆菌、固氮螺菌属、球藻、柱状黄杆菌、氟维伊科拉塔夫草、嗜粪拟杆菌、运动支原体、香肠乳杆菌、巴氏链球菌、约氏乳杆菌、假中间葡萄球菌、龈沟产线菌、嗜肺军团菌、瓦氏萨特氏菌、格氏嗜盐碱杆菌(Natronobacterium gregoryi)或白喉棒状杆菌。

在一些实施例中，非CRISPR/Cas系统蛋白可以是天然存在的或工程化的版本。

在一些实施例中，天然存在的非CRISPR/Cas系统蛋白是NgAgo(来自格氏嗜盐碱杆菌的Argonaute)。

“非CRISPR/Cas系统蛋白-gNA复合物”是指包括非CRISPR/Cas系统蛋白和向导NA(例如，gRNA或gDNA)的复合物。在gNA是gRNA的情况下，gRNA可以由两个分子构成，即，与靶标杂交并提供序列特异性的一个RNA(“crRNA”)，以及能够与crRNA杂交的一个RNA，即，“tracrRNA”。可替代地，向导RNA可以是含有crRNA和tracrRNA序列的单个分子(即，gRNA)。

非CRISPR/Cas系统蛋白可以与野生型非CRISPR/Cas系统蛋白至少60％相同(例如，至少70％、至少80％或90％相同、至少95％相同或至少98％相同或至少99％相同)。非CRISPR/Cas系统蛋白可以具有野生型非CRISPR/Cas系统蛋白的所有功能，或功能中的仅一种或一些功能，包含结合活性、核酸酶活性和核酸酶活性。

术语“非CRISPR/Cas系统蛋白相关向导NA”是指向导NA。非CRISPR/Cas系统蛋白相关向导NA可以作为分离的NA存在，或作为非CRISPR/Cas系统蛋白-gNA复合物的一部分存在。

Cpf1

在一些实施例中，CRISPR/Cas系统蛋白核酸引导的核酸酶是或包括Cpf1系统蛋白。本公开的Cpf1系统蛋白可以是分离的、重组产生的或合成的。

Cpf1系统蛋白是II类、V型CRISPR系统蛋白。在一些实施例中，Cpf1蛋白分离自或衍生自土拉弗朗西斯菌。在一些实施例中，Cpf1蛋白分离子或衍生自氨基酸球菌属、毛螺菌科细菌或普氏菌属。

Cpf1系统蛋白与包括核酸引导的核酸酶系统蛋白结合序列(例如，茎环)和靶向序列的单个向导RNA结合。Cpf1靶向序列包括紧邻靶核酸中的Cpf1 PAM序列的3'定位的序列。与Cas9不同，Cpf1核酸引导的核酸酶系统蛋白结合序列定位在Cpf1 gRNA中的靶向序列的5'。Cpf1还可以在靶核酸中产生交错而不是平末端的切割。在将Cpf1蛋白-gRNA蛋白复合物靶向靶核酸后，弗朗西斯氏菌属衍生的Cpf1例如以交错方式切割靶核酸，从而在靶向序列的3'端处产生距PAM 18-23个碱基的大约5个核苷酸5'突出端。相比之下，由野生型Cas9进行的切割会在Cas9 PAM上游3个核苷酸处产生平末端。

示例性Cpf1 gRNA茎环序列包括以下RNA序列：(5'>3'，AAUUUCUACUGUUGUAGAU(SEQID NO:34))。

“Cpf1蛋白-gNA复合物”是指包括Cpf1蛋白和向导NA(例如，gRNA)的复合物。在gNA是gRNA的情况下，gRNA可以由单个分子构成，即，与靶标杂交并提供序列特异性的一个RNA(“crRNA”)。

Cpf1蛋白可以与野生型Cpf1系统蛋白至少60％相同(例如，至少70％、至少80％或90％相同、至少95％相同或至少98％相同或至少99％相同)。Cpf1蛋白可以具有野生型Cpf1蛋白的所有功能，或功能中的仅一种或一些功能，包含结合活性和核酸酶活性。

Cpf1系统蛋白识别多种PAM序列。被Cpf1系统蛋白识别的示例性PAM序列包含但不限于TTN、TCN和TGN。另外的Cpf1 PAM序列包含但不限于TTTN。Cpf1 PAM序列的一个特征是，其比被Cas9蛋白使用的NGG或NAG PAM序列具有更高的A/T含量。靶核酸，例如，不同的基因组，其G/C含量百分比不同。例如，已知人疟原虫恶性疟原虫的基因组富含A/T。可替代地，基因组内的蛋白质编码序列常常比整个基因组具有更高的G/C含量。靶基因组中A/T对G/C核苷酸的比率影响给定PAM序列在所述基因组中的分布和频率。例如，富含A/T的基因组可以具有较少的NGG或NAG序列，而富含G/C的基因组可以具有较少的TTN序列。Cpf1系统蛋白扩展了普通技术人员可用的PAM序列库，从而实现了gRNA文库的优异的灵活性和功能。

催化死亡的核酸引导的核酸酶

在一些实施例中，核酸引导的核酸酶系统(例如，CRISPR/Cas系统)蛋白的工程化实例包含催化死亡的核酸引导的核酸酶系统蛋白。术语“催化死亡”通常是指核酸引导的具有灭活的核酸酶(例如，HNH和RuvC核酸酶)的核酸酶系统蛋白。此类蛋白质可以与任何核酸中的靶位点(其中靶位点由向导NA确定)结合，但蛋白质不能切割或切口靶核酸(例如，双链DNA)。在一些实施例中，核酸引导的核酸酶系统催化死亡的蛋白质是催化死亡的CRISPR/Cas系统蛋白，如催化死亡的Cas9(dCas9)。因此，dCas9允许将混合物分离成未结合的核酸和dCas9结合的片段。在一个实施例中，dCas9/gRNA复合物与由gRNA序列确定的靶标结合。dCas9结合可以防止在进行其它操纵时被Cas9切割。在另一个实施例中，dCas9可以与另一种酶如转座酶融合，以将所述酶的活性靶向到特定位点。也可以采用天然存在的催化死亡的核酸引导的核酸酶系统蛋白。

在另一个实施例中，催化死亡的核酸引导的核酸酶可以与另一种酶如转座酶融合，以将所述酶的活性靶向到特定位点。

在一些实施例中，催化死亡的核酸引导的核酸酶是dCas9、dCpf1、dCas3、dCas8a-c、dCas10、dCse1、dCsy1、dCsn2、dCas4、dCsm2、dCm5、dCsf1、dC2C2、dCasX、dCasY、dCas13、dCas14或dNgAgo。

在一个示例性实施例中，催化死亡的核酸引导的核酸酶蛋白是dCas9。

在一个示例性实施例中，催化死亡的核酸引导的核酸酶蛋白是dCpf1。

核酸引导的核酸酶切口酶

在一些实施例中，核酸引导的核酸酶的工程化实例包含核酸引导的核酸酶切口酶(可互换地称为切口酶核酸引导的核酸酶)。

在一些实施例中，核酸引导的核酸酶的工程化实例包含CRISPR/Cas系统切口酶或非CRISPR/Cas系统切口酶，其含有单个无活性催化结构域。

在一些实施例中，核酸引导的核酸酶切口酶是Cas9切口酶、Cpf1切口酶、Cas3切口酶、Cas8a-c切口酶、Cas10切口酶、Cse1切口酶、Csy1切口酶、Csn2切口酶、Cas4切口酶、Csm2切口酶、Cm5切口酶、Csf1切口酶、C2C2切口酶、CasX切口酶、CasY切口酶、Cas13切口酶、Cas14切口酶或NgAgo切口酶。

在一个实施例中，核酸引导的核酸酶切口酶是Cas9切口酶。

在一个实施例中，核酸引导的核酸酶切口酶是Cpf1切口酶。

在一些实施例中，核酸引导的核酸酶切口酶可以用于与靶序列结合。在仅一个活性核酸酶结构域的情况下，核酸引导的核酸酶切口酶切割靶DNA的仅一个链，从而产生单链断裂或“切口”。根据使用的突变体，可以切割向导NA杂交链或非杂交链。与靶向相对链的2个gNA结合的核酸引导的核酸酶切口酶可以在核酸中产生双链断裂。此“双切口酶”策略提高切割的特异性，因为其要求两种核酸引导的核酸酶/gNA复合物在形成双链断裂之前在位点处是特异性结合的。

在示例性实施例中，Cas9切口酶可以用于与靶序列结合。术语“Cas9切口酶”是指Cas9蛋白的经修饰版本，含有单个无活性催化结构域，即，RuvC结构域或HNH结构域。在仅一个活性核酸酶结构域的情况下，Cas9切口酶切割靶DNA的仅一个链，从而产生单链断裂或“切口”。根据使用的突变体，可以切割向导RNA杂交链或非杂交链。与靶向相对链的2个gNA结合的Cas9切口酶将在DNA中产生双链断裂。此“双切口酶”策略可以提高切割的特异性，因为其要求两种Cas9/gRNA复合物在形成双链断裂之前在位点处是特异性结合的。

可解离和热稳定的核酸引导的核酸酶

在一些实施例中，在本文所提供的方法中使用热稳定的核酸引导的核酸酶(热稳定的CRISPR/Cas系统核酸引导的核酸酶或热稳定的非CRISPR/Cas系统核酸引导的核酸酶)。在此类实施例中，反应温度升高，诱导蛋白质的解离；反应温度降低，允许生成另外的经切割靶序列。在一些实施例中，当在至少75℃下维持至少1分钟时，热稳定的核酸引导的核酸酶维持至少50％的活性、至少55％活性、至少60％活性、至少65％活性、至少70％活性、至少75％活性、至少80％活性、至少85％活性、至少90％活性、至少95％活性、至少96％活性、至少97％活性、至少98％活性、至少99％活性或100％活性。在一些实施例中，当在以下下维持至少1分钟时，热稳定的核酸引导的核酸酶保持至少50％的活性：至少75℃、至少80℃、至少85℃、至少90℃、至少91℃、至少92℃、至少93℃、至少94℃、至少95℃、96℃、至少97℃、至少98℃、至少99℃或至少100℃。在一些实施例中，当至少在75℃下维持至少1分钟、2分钟、3分钟、4分钟或5分钟时，热稳定的核酸引导的核酸酶保持至少50％的活性。在一些实施例中，当温度升高、降低到25℃-50℃时，热稳定的核酸引导的核酸酶维持至少50％的活性。在一些实施例中，温度降低到25℃、30℃、35℃、40℃、45℃或50℃。在一个示例性实施例中，热稳定酶95℃下持续1分钟之后保持至少90％的活性百分比。

在一些实施例中，热稳定的核酸引导的核酸酶是热稳定的Cas9、热稳定的Cpf1、热稳定的Cas3、热稳定的Cas8a-c、热稳定的Cas10、热稳定的Cse1、热稳定的Csy1、热稳定的Csn2、热稳定的Cas4、热稳定的Csm2、热稳定的Cm5、热稳定的Csf1、热稳定的C2C2或热稳定的NgAgo。

在一些实施例中，热稳定的CRISPR/Cas系统蛋白是热稳定的Cas9。

可以分离热稳定的核酸引导的核酸酶，例如，通过嗜热细菌嗜热链球菌和强烈火球菌的基因组中的序列同源性进行鉴定。然后可以将核酸引导的核酸酶基因克隆到表达载体中。在一个示例性实施例中，分离了热稳定的Cas9蛋白。

在另一个实施例中，热稳定的核酸引导的核酸酶可以通过非热稳定的核酸引导的核酸酶的体外进化获得。核酸引导的核酸酶的序列可以被诱变以提高其热稳定性。

试剂盒和制品

本公开提供了包括本文所描述的组合物中的任何一种或多种组合物的试剂盒，不限于衔接子、gNA(例如，gRNA或gDNA)、gNA集合(例如，gRNA或gDNA多样性)、修饰敏感性限制酶、对照物等。

在一个示例性实施例中，试剂盒包括gRNA，其中gRNA靶向人基因组或其它DNA序列来源。

如本文所描述的，本公开还提供用于进行使用核苷酸修饰的差异来使样品富集所关注核酸的方法的所有必需试剂和指令。

本文还提供在使用本文提供的方法富集样品之前和之后监测信息的计算机软件。在一个示例性实施例中，所述软件可以在应用本文描述的方法之前和之后计算并报告样品中旨在被耗竭的核酸序列的丰度，以评估脱靶耗竭水平，并且其中所述软件可以通过在使用本文提供的富集方法处理样品之前和之后比较所关注序列的丰度，检查目标耗竭/富集/捕获/分区/标记/调节/编辑的功效。

上述说明书中提及的所有公开均通过引用并入本文。在不脱离本公开的范围和精神的情况下，本公开的所描述的产品、系统、用途、过程和方法的各种修改和变化对于本领域技术人员来说将是显而易见的。尽管已结合特定的优选实施例描述了本公开，但应当理解，不能将所要求保护的本公开不适当地限定为此类特定实施例。实际上，对于分子生物学和生物技术或相关领域的技术人员而言显而易见的用于实施本公开的所描述的模式的各种修改旨在落入所附权利要求的范围内。

列举的实施例

可以通过参考以下列举的说明性实施例来定义本发明：

1.一种使样品相对于旨在被耗竭的核酸富集所关注核酸约至少约2倍的方法，所述方法包括使用所述所关注核酸与所述旨在被耗竭的核酸之间的核苷酸修饰的差异。

2.一种使样品相对于旨在被耗竭的核酸富集所关注核酸约至少约2倍的方法，所述方法包括使用所述所关注核酸与所述旨在被耗竭的核酸之间的核苷酸修饰的差异，并且不包括大小选择或修饰敏感性靶向结合。

3.一种使样品相对于旨在被耗竭的核酸富集所关注核酸约至少约2倍的方法，所述方法包括使用所述所关注核酸与所述旨在被耗竭的核酸之间的核苷酸修饰的差异以将衔接子连接到所述所关注核酸并且不连接到所述旨在被耗竭的核酸。

4.一种使样品富集所关注核酸的方法，所述方法包括：

a.提供包括所关注核酸和旨在被耗竭的核酸的样品，其中所述所关注核酸的至少一个子集或所述旨在被耗竭的核酸的子集包括用于第一修饰敏感性限制酶的多个第一识别位点；

b.使所述样品中的多个所述核酸末端去磷酸化；

c.在允许切割所述样品中的所述核酸中的所述第一修饰敏感性限制位点中的至少一些的条件下，使来自(b)的所述样品与所述第一修饰敏感性限制酶接触；以及

d.在允许衔接子与多个所述所关注核酸的5'端和3'端连接的条件下，使来自(c)的所述样品与所述衔接子接触；

由此产生富集所关注核酸的样品，所述所关注核酸在其5'端和3'端上衔接子连接。

5.根据实施例4所述的方法，其中所述所关注核酸和所述旨在被耗竭的核酸在(a)之前被片段化。

6.根据实施例4或5所述的方法，其中所述所关注核酸和所述旨在被耗竭的核酸两者各自包括用于所述第一修饰敏感性限制酶的多个第一识别位点。

7.根据实施例6所述的方法，其中所述多个第一识别位点内或邻近所述多个第一识别位点的核苷酸修饰在所关注核酸中的频率与在所述旨在被耗竭的核酸中的频率不同。

8.根据实施例4到7中任一项所述的方法，其中所述第一修饰敏感性限制酶的活性被其同源识别位点内或邻近所述同源识别位点的核苷酸修饰所阻断。

9.根据实施例8所述的方法，其中与所述所关注核酸中的所述多个第一识别位点相比，所述旨在被耗竭的核酸中的所述多个第一识别位点被更频繁地修饰。

10.根据实施例8或9所述的方法，其中所述第一修饰敏感性限制酶包括选自由以下组成的组的限制酶：AatII、AccII、Aor13HI、Aor51HI、BspT104I、BssHII、Cfr10I、ClaI、CpoI、Eco52I、HaeII、HapII、HhaI、MluI、NaeI、NotI、NruI、NsbI、PmaCI、Psp1406I、PvuI、SacII、SalI、SmaI、SnaBI、AluI和Sau3AI。

11.根据实施例8或9所述的方法，其中所述第一修饰敏感性限制酶包括选自由AluI和Sau3AI组成的组的限制酶。

12.根据实施例4到7中任一项所述的方法，其中所述第一修饰敏感性限制酶在包括至少一个经修饰核苷酸的识别位点处有活性，而在不包括至少一个经修饰核苷酸的识别位点处没有活性。

13.根据实施例12所述的方法，其中与所述所关注核酸中的所述多个第一识别位点相比，所述旨在被耗竭的核酸中的所述多个第一识别位点被更频繁地修饰。

14.根据实施例12或13所述的方法，其中所述第一修饰敏感性限制酶包括选自由以下组成的组的限制酶：AbaSI、FspEI、LpnPI、MspJI或McrBC。

15.根据实施例12到13中任一项所述的方法，其中所述修饰包括5-羟甲基胞嘧啶。

16.根据实施例15所述的方法，其中所述第一修饰敏感性限制酶包括AbaSI，并且所述方法进一步包括在步骤(c)之前使所述样品与T4噬菌体β-葡糖基转移酶接触。

17.根据实施例12到14中任一项所述的方法，其中所述修饰包括葡糖基羟甲基胞嘧啶。

18.根据实施例17所述的方法，其中所述第一修饰敏感性限制酶包括AbaSI。

19.根据实施例12到14中任一项所述的方法，其中所述修饰包括甲基胞嘧啶。

20.根据实施例19所述的方法，其中所述第一修饰敏感性限制酶包括McrBC。

21.根据实施例12到20中任一项所述的方法，其中所述所关注核酸包括至少一个DpnI识别位点，并且其中所述方法进一步包括在步骤(c)之前使所述样品与DpnI和T4聚合酶接触。

22.根据实施例21所述的方法，其中所述T4聚合酶在所述至少一个DpnI识别位点内或邻近所述至少一个DpnI识别位点处用未甲基化的A和C核苷酸置换甲基化的A和C核苷酸。

23.根据实施例12到22中任一项所述的方法，其进一步包括：在步骤(d)之前，在允许从核酸的磷酸化末端连续去除核苷酸的条件下，使来自(c)的样品与核酸外切酶接触。

24.根据实施例23所述的方法，其中所述核酸外切酶包括λ核酸酶、核酸外切酶III或BAL-31。

25.根据实施例4到24中任一项所述的方法，其中在步骤(b)中使所述样品中的核酸末端去磷酸化包括磷酸酶。

26.根据实施例25所述的方法，其中所述磷酸酶是碱性磷酸酶。

27.根据实施例26所述的方法，其中所述碱性磷酸酶是虾碱性磷酸酶。

28.根据实施例4到27中任一项所述的方法，其进一步包括：

e.在允许第二修饰敏感性限制酶切割第二识别位点的条件下，使来自(d)的经衔接子连接的核酸与所述第二修饰敏感性限制酶接触，

其中所述旨在被耗竭的核酸的至少一个子集包括用于第二修饰敏感性限制酶的多个第二识别位点，并且

其中所述第二修饰敏感性限制酶靶向包括至少一个经修饰核苷酸的识别位点并且不靶向不包括至少一个经修饰核苷酸的识别位点，

由此产生在一端上衔接子连接的旨在被耗竭的核酸的集合和在两端上衔接子连接的所关注核酸的集合。

29.根据实施例28所述的方法，其中所述所关注核酸和所述旨在被耗竭的核酸各自包括用于所述第二修饰敏感性限制酶的多个第二识别位点。

30.根据实施例29所述的方法，其中与所述所关注核酸中的所述多个第二识别位点相比，所述旨在被耗竭的核酸中的所述多个第二识别位点被更频繁地修饰。

31.根据实施例4到30任一项所述的方法，其进一步包括：在步骤(d)之后使所述样品与多种核酸引导的核酸酶向导核酸(gNA)复合物接触，其中所述gNA与所述旨在被耗竭的核酸中的靶向位点互补，由此产生在一端上衔接子连接的旨在被耗竭的切割核酸和在5'端和3'端两者上衔接子连接的所关注核酸。

32.根据实施例31所述的方法，其中所述方法包括将所述样品与以下接触：至少10²种独特的核酸引导的核酸酶-gNA复合物、至少10³种独特的核酸引导的核酸酶-gNA复合物、10⁴种独特的核酸引导的核酸酶-gNA复合物或10⁵种独特的核酸引导的核酸酶-gNA复合物。

33.根据实施例31或32所述的方法，其中所述核酸引导的核酸酶是Cas9、Cpf1、Cas3、Cas8a-c、Cas10、Cse1、Csy1、Csn2、Cas4、Csm2、CasX、CasY、Cas13、Cas14或Cm5。

34.根据实施例31或32所述的方法，其中所述核酸引导的核酸酶是Cas9、Cpf1或其组合。

35.根据实施例31到34中任一项所述的方法，其中所述核酸引导的核酸酶是Cas9或Cpf1切口酶。

36.根据实施例31到35中任一项所述的方法，其中所述核酸引导的核酸酶是热稳定的。

37.根据实施例31到36中任一项所述的方法，其中所述gNA是脱氧核糖核酸(DNA)或核糖核酸(RNA)。

38.根据实施例4到37中任一项所述的方法，其进一步包括使用所述衔接子对在其5'端和3'端上衔接子连接的所述所关注核酸进行扩增、测序或克隆。

39.根据实施例1到38中任一项所述的方法，其中所述核苷酸修饰包括腺嘌呤修饰或胞嘧啶修饰。

40.根据实施例39所述的方法，其中所述腺嘌呤修饰包括腺嘌呤甲基化。

41.根据实施例40所述的方法，其中所述腺嘌呤甲基化包括Dam甲基化或EcoKI甲基化。

42.根据实施例39所述的方法，其中所述胞嘧啶修饰包括5-甲基胞嘧啶、5-羟甲基胞嘧啶、5-甲酰基胞嘧啶、5-羧基胞嘧啶、5-葡糖基羟甲基胞嘧啶或3-甲基胞嘧啶。

43.根据实施例39所述的方法，其中所述胞嘧啶修饰包括胞嘧啶甲基化。

44.根据实施例43所述的方法，其中所述胞嘧啶甲基化包括CpG甲基化、CpA甲基化、CpT甲基化、CpC甲基化或其组合。

45.根据实施例43所述的方法，其中所述胞嘧啶甲基化包括Dcm甲基化、DNMT1甲基化、DNMT3A甲基化或DNMT3B甲基化。

46.根据实施例28到45中任一项所述的方法，其中所述第二修饰敏感性限制酶包括选自由以下组成的组的限制酶：AbaSI、FspEI、LpnPI、MspJI或McrBC。

47.根据实施例28到38中任一项所述的方法，其中所述修饰包括5-羟甲基胞嘧啶。

48.根据实施例47所述的方法，其中并且所述第二修饰敏感性限制酶包括AbaSI，并且所述方法进一步包括在步骤(e)之前使所述样品与T4噬菌体β-葡糖基转移酶接触。

49.根据实施例28到38中任一项所述的方法，其中所述修饰包括葡糖基羟甲基胞嘧啶。

50.根据实施例49所述的方法，其中所述第二修饰敏感性限制酶包括AbaSI。

51.根据实施例28到38中任一项所述的方法，其中所述修饰包括甲基胞嘧啶。

52.根据实施例51所述的方法，其中所述第二修饰敏感性限制酶包括McrBC。

53.根据实施例28到52中任一项所述的方法，其中所述所关注核酸包括至少一个DpnI识别位点，并且其中所述方法进一步包括在步骤(e)之前使所述样品与DpnI和T4聚合酶接触。

54.根据实施例53所述的方法，其中所述T4聚合酶在所述至少一个DpnI识别位点内或邻近所述至少一个DpnI识别位点处用未甲基化的A和C核苷酸置换甲基化的A和C核苷酸。

55.根据实施例1到54中任一项所述的方法，其中所述旨在被耗竭的核酸包括宿主核酸，并且所述所关注核酸包括非宿主核酸。

56.根据实施例55所述的方法，其中非宿主包括细菌、真菌或病毒。

57.根据实施例55所述的方法，其中非宿主包括多种生物体物种。

58.根据实施例55所述的方法，其中宿主是哺乳动物、鸟类、爬行动物或昆虫。

59.根据实施例58所述的方法，其中所述哺乳动物是人、牛、马、羊、猪、猴、狗、猫、兔、大鼠、小鼠或沙鼠。

60.根据实施例1到59中任一项所述的方法，其中所述旨在被耗竭的核酸包括转录活性位点，并且所述所关注核酸包括重复序列。

61.根据实施例4到60中任一项所述的方法，其中所述衔接子连接的所关注核酸和旨在被耗竭的核酸在50-1000bp的范围内。

62.根据实施例1到61中任一项所述的方法，其中所关注核酸占所述样品中总核酸的少于50％。

63.根据实施例1到61中任一项所述的方法，其中所关注核酸占所述样品中总核酸的少于30％。

64.根据实施例1到61中任一项所述的方法，其中所关注核酸占所述样品中总核酸的少于5％。

65.根据实施例1到64中任一项所述的方法，其中所述样品是生物样品、临床样品、法医样品或环境样品中的任何一种。

66.根据实施例1到64中任一项所述的方法，其中所述样品选自全血、血浆、血清、眼泪、唾液、粘液、脑脊液、牙齿、骨骼、指甲、粪便、尿组织和活检切片。

67.一种使样品富集所关注核酸的方法，所述方法包括：

a.提供包括所关注核酸和旨在被耗竭的核酸的样品，其中所述旨在被耗竭的核酸的至少一个子集包括用于修饰敏感性限制酶的多个识别位点；

b.使所述样品中的多个所述核酸末端去磷酸化；

c.在允许切割所述样品中的所述核酸中的修饰敏感性限制位点的条件下，使来自(b)的所述样品与所述修饰敏感性限制酶接触，由此产生具有暴露的末端磷酸酯的核酸；以及

d.在允许从核酸的磷酸化末端连续去除核苷酸的条件下，使所述样品与核酸外切酶接触；由此产生富集所关注核酸的样品。

68.根据实施例67所述的方法，其中所述所关注核酸和所述旨在被耗竭的核酸在步骤(a)之前被片段化。

69.根据实施例67或68所述的方法，其中所述所关注核酸和所述旨在被耗竭的核酸各自包括用于所述修饰敏感性限制酶的多个识别位点。

70.根据实施例69所述的方法，其中与所述所关注核酸中的所述多个识别位点相比，所述旨在被耗竭的核酸中的所述多个识别位点被更频繁地修饰。

71.根据实施例67到70中任一项所述的方法，其中所述所关注核酸包括至少一个DpnI识别位点，并且其中所述方法进一步包括在步骤(c)之前使所述样品与DpnI和T4聚合酶接触。

72.根据实施例71所述的方法，其中所述T4聚合酶在所述至少一个DpnI识别位点内或邻近所述至少一个DpnI识别位点处用未甲基化的A和C核苷酸置换甲基化的A和C核苷酸。

73.根据实施例67到72中任一项所述的方法，其中所述修饰包括腺嘌呤修饰或胞嘧啶修饰。

74.根据实施例73所述的方法，其中所述腺嘌呤修饰包括腺嘌呤甲基化。

75.根据实施例73所述的方法，其中所述腺嘌呤甲基化包括Dam甲基化或EcoKI甲基化。

76.根据实施例73所述的方法，其中所述胞嘧啶修饰包括5-甲基胞嘧啶、5-羟甲基胞嘧啶、5-甲酰基胞嘧啶、5-羧基胞嘧啶、5-葡糖基羟甲基胞嘧啶或3-甲基胞嘧啶。

77.根据实施例73所述的方法，其中所述胞嘧啶修饰包括胞嘧啶甲基化。

78.根据实施例77所述的方法，其中所述胞嘧啶甲基化包括CpG甲基化、CpA甲基化、CpT甲基化、CpC甲基化或其组合。

79.根据实施例73所述的方法，其中所述胞嘧啶甲基化包括Dcm甲基化、DNMT1甲基化、DNMT3A甲基化或DNMT3B甲基化。

80.根据实施例67到79中任一项所述的方法，其中所述修饰敏感性限制酶包括选自由以下组成的组的限制酶：AbaSI、FspEI、LpnPI、MspJI或McrBC。

81.根据实施例67到72中任一项所述的方法，其中所述修饰包括5-羟甲基胞嘧啶。

82.根据实施例81所述的方法，其中所述修饰敏感性限制酶包括AbaSI，并且所述方法进一步包括在步骤(c)之前使所述样品与T4噬菌体β-葡糖基转移酶接触。

83.根据实施例67到72中任一项所述的方法，其中所述修饰包括葡糖基羟甲基胞嘧啶。

84.根据实施例83所述的方法，其中所述修饰敏感性限制酶包括AbaSI。

85.根据实施例67到72中任一项所述的方法，其中所述修饰包括甲基胞嘧啶。

86.根据实施例85所述的方法，其中所述修饰敏感性限制酶包括McrBC。

87.根据实施例67到86中任一项所述的方法，其中所述核酸外切酶是λ核酸酶、核酸外切酶III或BAL-31。

88.根据实施例67到87中任一项所述的方法，其中在步骤(b)中使所述样品中的核酸末端去磷酸化包括磷酸酶。

89.根据实施例88所述的方法，其中所述磷酸酶是碱性磷酸酶。

90.根据实施例74所述的方法，其中所述碱性磷酸酶是虾碱性磷酸酶。

91.根据实施例67到90中任一项所述的方法，其进一步包括：

e.在允许衔接子与多个所述所关注核酸的5'端和3'端连接的条件下，使来自(d)的所述样品与所述衔接子接触；

92.根据实施例67到91任一项所述的方法，其进一步包括：在步骤(d)之后使所述样品与多种核酸引导的核酸酶向导核酸(gNA)复合物接触，其中所述gNA与所述旨在被耗竭的核酸中的靶向位点互补，由此产生在一端上衔接子连接的旨在被耗竭的切割核酸和在5'端和3'端两者上衔接子连接的所关注核酸。

93.根据实施例92所述的方法，其中所述方法包括将所述样品与以下接触：至少10²种独特的核酸引导的核酸酶-gNA复合物、至少10³种独特的核酸引导的核酸酶-gNA复合物、10⁴种独特的核酸引导的核酸酶-gNA复合物或10⁵种独特的核酸引导的核酸酶-gNA复合物。

94.根据实施例92或93所述的方法，其中所述核酸引导的核酸酶是Cas9、Cpf1、Cas3、Cas8a-c、Cas10、Cse1、Csy1、Csn2、Cas4、Csm2、CasX、CasY、Cas13、Cas14或Cm5。

95.根据实施例92或93所述的方法，其中所述核酸引导的核酸酶是Cas9、Cpf1或其组合。

96.根据实施例92到95中任一项所述的方法，其中所述核酸引导的核酸酶是Cas9或Cpf1切口酶。

97.根据实施例92到96中任一项所述的方法，其中所述核酸引导的核酸酶是热稳定的。

98.根据实施例92到97中任一项所述的方法，其中所述gNA是脱氧核糖核酸(DNA)或核糖核酸(RNA)。

99.根据实施例67到98中任一项所述的方法，其进一步包括使用所述衔接子对在其5'端和3'端上衔接子连接的所述所关注核酸进行扩增、测序或克隆。

100.根据实施例67到99中任一项所述的方法，其中所述旨在被耗竭的核酸包括宿主核酸，并且所述所关注核酸包括非宿主核酸。

101.根据实施例100所述的方法，其中非宿主包括细菌、真菌或病毒。

102.根据实施例100所述的方法，其中非宿主包括多种生物体物种。

103.根据实施例100所述的方法，其中宿主是哺乳动物、鸟类、爬行动物或昆虫。

104.根据实施例103所述的方法，其中所述哺乳动物是人、牛、马、羊、猪、猴、狗、猫、兔、大鼠、小鼠或沙鼠。

105.根据实施例67到104中任一项所述的方法，其中所述旨在被耗竭的核酸包括转录活性位点，并且所述所关注核酸包括重复序列。

106.根据实施例67到105中任一项所述的方法，其中所述衔接子连接的所关注核酸和旨在被耗竭的核酸在50-1000bp的范围内。

107.根据实施例67到106中任一项所述的方法，其中所关注核酸占所述样品中总核酸的少于50％。

108.根据实施例67到106中任一项所述的方法，其中所关注核酸占所述样品中总核酸的少于30％。

109.根据实施例67到106中任一项所述的方法，其中所关注核酸占所述样品中总核酸的少于5％。

110.根据实施例67到106中任一项所述的方法，其中所述样品是生物样品、临床样品、法医样品或环境样品中的任何一种。

111.根据实施例67到106中任一项所述的方法，其中所述样品选自全血、血浆、血清、眼泪、唾液、粘液、脑脊液、牙齿、骨骼、指甲、粪便、尿组织和活检切片。

112.一种使样品富集所关注核酸的方法，所述方法包括：

b.在允许衔接子与所述样品中的多个所述核酸的5'端和3'端连接的条件下，使所述样品与所述衔接子接触；以及

c.在允许切割所述样品中的所述核酸中的修饰敏感性限制位点的条件下，使来自(b)的所述样品与所述修饰敏感性限制酶接触；

113.根据实施例112所述的方法，其中所述所关注核酸和所述旨在被耗竭的核酸在步骤(a)之前被片段化。

114.根据实施例112或113所述的方法，其中所述所关注核酸和所述旨在被耗竭的核酸两者各自包括用于所述修饰敏感性限制酶的多个识别位点。

115.根据实施例112到114中任一项所述的方法，其中与所述所关注核酸中的所述多个识别位点相比，所述旨在被耗竭的核酸中的所述多个识别位点被更频繁地修饰。

116.根据实施例112到115中任一项所述的方法，其中所述所关注核酸包括至少一个DpnI识别位点，并且其中所述方法进一步包括在步骤(c)之前使所述样品与DpnI和T4聚合酶接触。

117.根据实施例116所述的方法，其中所述T4聚合酶在所述至少一个DpnI识别位点内或邻近所述至少一个DpnI识别位点处用未甲基化的A和C核苷酸置换甲基化的A和C核苷酸。

118.根据实施例112到117中任一项所述的方法，其中所述修饰包括腺嘌呤修饰或胞嘧啶修饰。

119.根据实施例118所述的方法，其中所述腺嘌呤修饰包括腺嘌呤甲基化。

120.根据实施例119所述的方法，其中所述腺嘌呤甲基化包括Dam甲基化或EcoKI甲基化。

121.根据实施例118所述的方法，其中所述胞嘧啶修饰包括5-甲基胞嘧啶、5-羟甲基胞嘧啶、5-甲酰基胞嘧啶、5-羧基胞嘧啶、5-葡糖基羟甲基胞嘧啶或3-甲基胞嘧啶。

122.根据实施例118所述的方法，其中所述胞嘧啶修饰包括胞嘧啶甲基化。

123.根据实施例122所述的方法，其中所述胞嘧啶甲基化包括CpG甲基化、CpA甲基化、CpT甲基化、CpC甲基化或其组合。

124.根据实施例122所述的方法，其中所述胞嘧啶甲基化包括Dcm甲基化、DNMT1甲基化、DNMT3A甲基化或DNMT3B甲基化。

125.根据实施例112到124中任一项所述的方法，其中所述修饰敏感性限制酶包括AbaSI、FspEI、LpnPI、MspJI或McrBC。

126.根据实施例112到117中任一项所述的方法，其中所述修饰包括5-羟甲基胞嘧啶。

127.根据实施例126所述的方法，其中并且所述修饰敏感性限制酶包括AbaSI，所述方法进一步包括在(c)之前使所述样品与T4噬菌体β-葡糖基转移酶接触。

128.根据实施例112到117中任一项所述的方法，其中所述修饰包括葡糖基羟甲基胞嘧啶。

129.根据实施例128所述的方法，其中所述修饰敏感性限制酶包括AbaSI。

130.根据实施例112到117中任一项所述的方法，其中所述修饰包括甲基胞嘧啶。

131.根据实施例130所述的方法，其中所述修饰敏感性限制酶包括McrBC。

132.根据实施例112到131任一项所述的方法，其进一步包括：在步骤(c)之后使所述样品与多种核酸引导的核酸酶向导核酸(gNA)复合物接触，其中所述gNA与所述旨在被耗竭的核酸中的靶向位点互补，由此产生在一端上衔接子连接的旨在被耗竭的切割核酸和在5'端和3'端两者上衔接子连接的所关注核酸。

133.根据实施例132所述的方法，其中所述方法包括将所述样品与以下接触：至少10²种独特的核酸引导的核酸酶-gNA复合物、至少10³种独特的核酸引导的核酸酶-gNA复合物、10⁴种独特的核酸引导的核酸酶-gNA复合物或10⁵种独特的核酸引导的核酸酶-gNA复合物。

134.根据实施例132或133所述的方法，其中所述核酸引导的核酸酶是Cas9、Cpf1、Cas3、Cas8a-c、Cas10、Cse1、Csy1、Csn2、Cas4、Csm2、CasX、CasY、Cas13、Cas14或Cm5。

135.根据实施例132或133所述的方法，其中所述核酸引导的核酸酶是Cas9、Cpf1或其组合。

136.根据实施例132到135中任一项所述的方法，其中所述核酸引导的核酸酶是Cas9或Cpf1切口酶。

137.根据实施例132到136中任一项所述的方法，其中所述核酸引导的核酸酶是热稳定的。

138.根据实施例112到137中任一项所述的方法，其中所述gNA是脱氧核糖核酸(DNA)或核糖核酸(RNA)。

139.根据实施例112到138中任一项所述的方法，其进一步包括使用所述衔接子对在其5'端和3'端上衔接子连接的所述所关注核酸进行扩增、测序或克隆。

140.根据实施例112到139中任一项所述的方法，其中所述旨在被耗竭的核酸包括宿主核酸，并且所述所关注核酸包括非宿主核酸。

141.根据实施例140所述的方法，其中非宿主包括细菌、真菌或病毒。

142.根据实施例140所述的方法，其中非宿主包括多种生物体物种。

143.根据实施例140所述的方法，其中宿主是哺乳动物、鸟类、爬行动物或昆虫。

144.根据实施例143所述的方法，其中所述哺乳动物是人、牛、马、羊、猪、猴、狗、猫、兔、大鼠、小鼠或沙鼠。

145.根据实施例112到144中任一项所述的方法，其中所述旨在被耗竭的核酸包括转录活性位点，并且所述所关注核酸包括重复序列。

146.根据实施例112到145中任一项所述的方法，其中所述衔接子连接的所关注核酸和旨在被耗竭的核酸在50-1000bp的范围内。

147.根据实施例112到146中任一项所述的方法，其中所关注核酸占所述样品中总核酸的少于50％。

148.根据实施例112到146中任一项所述的方法，其中所关注核酸占所述样品中总核酸的少于30％。

149.根据实施例112到146中任一项所述的方法，其中所关注核酸占所述样品中总核酸的少于5％。

150.根据实施例112到149中任一项所述的方法，其中所述样品是生物样品、临床样品、法医样品或环境样品中的任何一种。

151.根据实施例112到149中任一项所述的方法，其中所述样品选自全血、血浆、血清、眼泪、唾液、粘液、脑脊液、牙齿、骨骼、指甲、粪便、尿组织和活检切片。

152.一种使样品富集所关注核酸的方法，所述方法包括：

a.提供包括所关注核酸和旨在被耗竭的核酸的样品，

其中所述所关注核酸的至少一个子集或所述旨在被耗竭的核酸的子集包括用于第一修饰敏感性限制酶的多个第一识别位点；并且

其中所述第一修饰敏感性限制酶的活性被其同源识别位点内或邻近所述同源识别位点的核苷酸修饰所阻断；

b.使所述样品中的多个所述核酸末端去磷酸化；

153.根据实施例152所述的方法，其中所述所关注核酸和所述旨在被耗竭的核酸在(a)之前被片段化。

154.根据实施例152或153所述的方法，其中所述所关注核酸和所述旨在被耗竭的核酸两者各自包括用于所述第一修饰敏感性限制酶的多个第一识别位点。

155.根据实施例154所述的方法，其中所述多个第一识别位点内或邻近所述多个第一识别位点的核苷酸修饰在所关注核酸中的频率与在所述旨在被耗竭的核酸中的频率不同。

156.根据实施例155所述的方法，其中与所述所关注核酸中的所述多个第一识别位点相比，所述旨在被耗竭的核酸中的所述多个第一识别位点被更频繁地修饰。

157.根据实施例155或156所述的方法，其中所述第一修饰敏感性限制酶包括选自由以下组成的组的限制酶：AatII、AccII、Aor13HI、Aor51HI、BspT104I、BssHII、Cfr10I、ClaI、CpoI、Eco52I、HaeII、HapII、HhaI、MluI、NaeI、NotI、NruI、NsbI、PmaCI、Psp1406I、PvuI、SacII、SalI、SmaI、SnaBI、AluI和Sau3AI。

158.根据实施例155或156所述的方法，其中所述第一修饰敏感性限制酶包括选自由AluI和Sau3AI组成的组的限制酶。

序列表

<110> 阿克生物公司（Arc Bio, LLC）

S·B·古尔格钦

<120> 用于基于核苷酸修饰的耗竭的组合物和方法

<130> ARCB-013/01WO 329757-2076

<150> 62/831,302

<151> 2019-04-09

<160> 37

<170> PatentIn版本3.5

<210> 1

<211> 13

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> EcoKI位点

<220>

<221> N

<222> (4)..(9)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (4)..(9)

<223> n是a、c、g或t

<400> 1

aacnnnnnng tgc 13

<210> 2

<211> 13

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> EcoKI位点

<220>

<221> N

<222> (5)..(10)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (5)..(10)

<223> n是a、c、g或t

<400> 2

gcacnnnnnn gtt 13

<210> 3

<211> 12

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> BcgI位点

<220>

<221> N

<222> (6)..(9)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (6)..(9)

<223> n是a、c、g或t

<400> 3

cgatcnnnnt gc 12

<210> 4

<211> 10

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> BsaBI位点

<220>

<221> N

<222> (5)..(7)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (5)..(7)

<223> n是a、c、g或t

<400> 4

gatcnnnatc 10

<210> 5

<211> 10

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> Nt.AlwI位点

<220>

<221> N

<222> (6)..(10)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (6)..(10)

<223> n是a、c、g或t

<400> 5

ggatcnnnnn 10

<210> 6

<211> 10

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> AlwNI位点

<220>

<221> N

<222> (4)..(5)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (4)..(5)

<223> n是a、c、g或t

<400> 6

cagnncctgg 10

<210> 7

<211> 11

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> BslI位点

<220>

<221> N

<222> (6)..(9)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (6)..(9)

<223> n是a、c、g或t

<400> 7

ccwggnnnng g 11

<210> 8

<211> 12

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> BstXI位点

<220>

<221> N

<222> (6)..(9)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (6)..(9)

<223> n是a、c、g或t

<400> 8

ccaggnnnnt gg 12

<210> 9

<211> 11

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> PflMI位点

<220>

<221> N

<222> (6)..(8)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (6)..(8)

<223> n是a、c、g或t

<400> 9

ccaggnnntg g 11

<210> 10

<211> 13

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> SfiI位点

<220>

<221> W

<222> (5)..(5)

<223> W是A或T

<220>

<221> N

<222> (8)..(9)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (8)..(9)

<223> n是a、c、g或t

<400> 10

ggccwggnng gcc 13

<210> 11

<211> 16

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> SfiI位点

<220>

<221> N

<222> (5)..(9)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (5)..(9)

<223> n是a、c、g或t

<220>

<221> W

<222> (14)..(14)

<223> W是A或T

<400> 11

ggccnnnnng gccwgg 16

<210> 12

<211> 25

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> AbaSI位点

<220>

<221> ghm

<222> (1)..(1)

<223> 葡糖基羟甲基胞嘧啶修饰

<220>

<221> N

<222> (2)..(24)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (2)..(24)

<223> n是a、c、g或t

<400> 12

cnnnnnnnnn nnnnnnnnnn nnnng 25

<210> 13

<211> 24

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> AbaSI位点

<220>

<221> ghm

<222> (1)..(1)

<223> 葡糖基羟甲基胞嘧啶

<220>

<221> N

<222> (2)..(23)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (2)..(23)

<223> n是a、c、g或t

<400> 13

cnnnnnnnnn nnnnnnnnnn nnng 24

<210> 14

<211> 23

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> AbaSI位点

<220>

<221> ghm

<222> (1)..(1)

<223> 葡糖基羟甲基胞嘧啶修饰

<220>

<221> N

<222> (2)..(22)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (2)..(22)

<223> n是a、c、g或t

<400> 14

cnnnnnnnnn nnnnnnnnnn nng 23

<210> 15

<211> 22

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> AbaSI位点

<220>

<221> ghm

<222> (1)..(1)

<223> 葡糖基羟甲基胞嘧啶修饰

<220>

<221> N

<222> (2)..(21)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (2)..(21)

<223> n是a、c、g或t

<400> 15

cnnnnnnnnn nnnnnnnnnn ng 22

<210> 16

<211> 25

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> AbaSI位点

<220>

<221> N

<222> (2)..(24)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (2)..(24)

<223> n是a、c、g或t

<220>

<221> *

<222> (25)..(25)

<223> 5-葡糖基羟甲基胞嘧啶、5-羟甲基胞嘧啶、5-甲基胞嘧啶或胞嘧啶,

<400> 16

gnnnnnnnnn nnnnnnnnnn nnnnc 25

<210> 17

<211> 24

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> AbaSI位点

<220>

<221> N

<222> (2)..(23)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (2)..(23)

<223> n是a、c、g或t

<220>

<221> *

<222> (24)..(24)

<400> 17

gnnnnnnnnn nnnnnnnnnn nnnc 24

<210> 18

<211> 23

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> AbaSI位点

<220>

<221> N

<222> (2)..(22)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (2)..(22)

<223> n是a、c、g或t

<220>

<221> *

<222> (23)..(23)

<400> 18

gnnnnnnnnn nnnnnnnnnn nnc 23

<210> 19

<211> 22

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> AbaSI位点

<220>

<221> N

<222> (2)..(21)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (2)..(21)

<223> n是a、c、g或t

<220>

<221> *

<222> (22)..(22)

<400> 19

gnnnnnnnnn nnnnnnnnnn nc 22

<210> 20

<211> 14

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> FspEI位点

<220>

<221> mC

<222> (2)..(2)

<223> 5-甲基胞嘧啶或5-羟甲基胞嘧啶

<220>

<221> N

<222> (2)..(14)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (3)..(14)

<223> n是a、c、g或t

<400> 20

ccnnnnnnnn nnnn 14

<210> 21

<211> 18

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> FspEI位点

<220>

<221> N

<222> (3)..(18)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (3)..(18)

<223> n是a、c、g或t

<400> 21

ggnnnnnnnn nnnnnnnn 18

<210> 22

<211> 14

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> LpnPI位点

<220>

<221> mC

<222> (2)..(2)

<223> 5-甲基胞嘧啶或5-羟甲基胞嘧啶

<220>

<221> D

<222> (3)..(3)

<223> D是A、G或T

<220>

<221> N

<222> (5)..(14)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (5)..(14)

<223> n是a、c、g或t

<400> 22

ccdgnnnnnn nnnn 14

<210> 23

<211> 18

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> LpnPI位点

<220>

<221> H

<222> (3)..(3)

<223> H是A、C或T

<220>

<221> N

<222> (5)..(18)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (5)..(18)

<223> n是a、c、g或t

<400> 23

gghcnnnnnn nnnnnnnn 18

<210> 24

<211> 13

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> MspJI位点

<220>

<221> mC

<222> (1)..(1)

<223> 5-甲基胞嘧啶或5-羟甲基胞嘧啶

<220>

<221> N

<222> (2)..(3)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (2)..(3)

<223> n是a、c、g或t

<220>

<221> R

<222> (4)..(4)

<223> R是A或G

<220>

<221> N

<222> (5)..(13)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (5)..(13)

<223> n是a、c、g或t

<400> 24

cnnrnnnnnn nnn 13

<210> 25

<211> 17

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> MspJI位点

<220>

<221> N

<222> (2)..(3)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (2)..(3)

<223> n是a、c、g或t

<220>

<221> Y

<222> (4)..(4)

<223> Y是C或T

<220>

<221> N

<222> (5)..(17)

<223> N是任何核苷酸

<220>

<221> misc_feature

<222> (5)..(17)

<223> n是a、c、g或t

<400> 25

gnnynnnnnn nnnnnnn 17

<210> 26

<211> 22

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 对crRNA进行编码的序列

<400> 26

gttttagagc tatgctgttt tg 22

<210> 27

<211> 86

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 对tracrRNA进行编码的序列

<400> 27

ggaaccattc aaaacagcat agcaagttaa aataaggcta gtccgttatc aacttgaaaa 60

agtggcaccg agtcggtgct tttttt 86

<210> 28

<211> 83

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> gNA序列

<400> 28

gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60

ggcaccgagt cggtgctttt ttt 83

<210> 29

<211> 83

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> gNA序列

<400> 29

aaaaaaagca ccgactcggt gccacttttt caagttgata acggactagc cttattttaa 60

cttgctattt ctagctctaa aac 83

<210> 30

<211> 83

<212> RNA

<213> 人工序列（Artificial Sequence）

<220>

<223> gRNA序列

<400> 30

guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc cguuaucaac uugaaaaagu 60

ggcaccgagu cggugcuuuu uuu 83

<210> 31

<211> 94

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> gNA序列

<400> 31

gttttagagc tatgctggaa acagcatagc aagttaaaat aaggctagtc cgttatcaac 60

ttgaaaaagt ggcaccgagt cggtgctttt tttc 94

<210> 32

<211> 94

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> gNA序列

<400> 32

gaaaaaaagc accgactcgg tgccactttt tcaagttgat aacggactag ccttatttta 60

acttgctatg ctgtttccag catagctcta aaac 94

<210> 33

<211> 94

<212> RNA

<213> 人工序列（Artificial Sequence）

<220>

<223> gRNA序列

<400> 33

guuuuagagc uaugcuggaa acagcauagc aaguuaaaau aaggcuaguc cguuaucaac 60

uugaaaaagu ggcaccgagu cggugcuuuu uuuc 94

<210> 34

<211> 19

<212> RNA

<213> 人工序列（Artificial Sequence）

<220>

<223> gRNA序列

<400> 34

aauuucuacu guuguagau 19

<210> 35

<211> 19

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> gNA序列

<400> 35

aatttctact gttgtagat 19

<210> 36

<211> 22

<212> RNA

<213> 人工序列（Artificial Sequence）

<220>

<223> gRNA序列

<400> 36

guuuuagagc uaugcuguuu ug 22

<210> 37

<211> 86

<212> RNA

<213> 人工序列（Artificial Sequence）

<220>

<223> gRNA序列

<400> 37

ggaaccauuc aaaacagcau agcaaguuaa aauaaggcua guccguuauc aacuugaaaa 60

aguggcaccg agucggugcu uuuuuu 86

Claims

1.一种使样品富集所关注核酸的方法，所述方法包括：

b.使所述样品中的多个所述核酸末端去磷酸化；

2.根据权利要求1所述的方法，其中所述所关注核酸和所述旨在被耗竭的核酸两者均包括用于所述第一修饰敏感性限制酶的多个第一识别位点。

3.根据权利要求2所述的方法，其中所述多个第一识别位点内或邻近所述多个第一识别位点的核苷酸修饰在所关注核酸中的频率与在所述旨在被耗竭的核酸中的频率不同。

4.根据权利要求1到3中任一项所述的方法，其中所述第一修饰敏感性限制酶的活性被其同源识别位点内或邻近所述同源识别位点的核苷酸修饰所阻断。

5.根据权利要求4所述的方法，其中与所述所关注核酸中的所述多个第一识别位点相比，所述旨在被耗竭的核酸中的所述多个第一识别位点被更频繁地修饰。

6.根据权利要求4或5所述的方法，其中所述第一修饰敏感性限制酶包括选自由以下组成的组的限制酶：AatII、AccII、Aor13HI、Aor51HI、BspT104I、BssHII、Cfr10I、ClaI、CpoI、Eco52I、HaeII、HapII、HhaI、MluI、NaeI、NotI、NruI、NsbI、PmaCI、Psp1406I、PvuI、SacII、SalI、SmaI、SnaBI、AluI和Sau3AI。

7.根据权利要求4或5所述的方法，其中所述第一修饰敏感性限制酶包括选自由AluI和Sau3AI组成的组的限制酶。

8.根据权利要求1到3所述的方法，其中所述第一修饰敏感性限制酶在包括至少一个经修饰核苷酸的识别位点处有活性，而在不包括至少一个经修饰核苷酸的识别位点处没有活性。

9.根据权利要求8所述的方法，其中与所述所关注核酸中的所述多个第一识别位点相比，所述旨在被耗竭的核酸中的所述多个第一识别位点被更频繁地修饰。

10.根据权利要求8或9所述的方法，其中所述第一修饰敏感性限制酶包括选自由以下组成的组的限制酶：AbaSI、FspEI、LpnPI、MspJI或McrBC。

11.根据权利要求8或9所述的方法，其中所述修饰包括5-羟甲基胞嘧啶，

所述第一修饰敏感性限制酶包括AbaSI，并且所述方法进一步包括在步骤(c)之前使所述样品与T4噬菌体β-葡糖基转移酶接触。

12.根据权利要求8或9所述的方法，其中所述修饰包括葡糖基羟甲基胞嘧啶，并且所述第一修饰敏感性限制酶包括AbaSI。

13.根据权利要求8或9所述的方法，其中所述修饰包括甲基胞嘧啶，并且所述第一修饰敏感性限制酶包括McrBC。

14.根据权利要求8到13中任一项所述的方法，其中所述所关注核酸包括至少一个DpnI识别位点，并且其中所述方法进一步包括在步骤(c)之前使所述样品与DpnI和T4聚合酶接触，由此在所述至少一个DpnI识别位点内或邻近所述至少一个DpnI识别位点处用未甲基化的A和C核苷酸置换甲基化的A和C核苷酸。

15.根据权利要求8到14中任一项所述的方法，其进一步包括在步骤(d)之前，在允许从核酸的磷酸化末端连续去除核苷酸的条件下，使来自(c)的样品与核酸外切酶接触。

16.根据权利要求1到15中任一项所述的方法，其进一步包括：

17.根据权利要求1到16中任一项所述的方法，其进一步包括在步骤(d)之后使所述样品与多种核酸引导的核酸酶向导核酸(gNA)复合物接触，其中所述gNA与所述旨在被耗竭的核酸中的靶向位点互补，由此产生在一端上衔接子连接的旨在被耗竭的切割核酸和在5'端和3'端两者上衔接子连接的所关注核酸。

18.根据权利要求1到17中任一项所述的方法，其进一步包括使用所述衔接子对在其5'端和3'端上衔接子连接的所述所关注核酸进行扩增、测序或克隆。

19.根据权利要求1到18中任一项所述的方法，其中所述核苷酸修饰包括腺嘌呤修饰或胞嘧啶修饰。

20.根据权利要求19所述的方法，其中所述腺嘌呤修饰或所述胞嘧啶修饰包括甲基化。

21.根据权利要求19所述的方法，其中所述胞嘧啶修饰包括5-甲基胞嘧啶、5-羟甲基胞嘧啶、5-甲酰基胞嘧啶、5-羧基胞嘧啶、5-葡糖基羟甲基胞嘧啶或3-甲基胞嘧啶。

22.根据权利要求16到21中任一项所述的方法，其中所述第二修饰敏感性限制酶包括选自由以下组成的组的限制酶：AbaSI、FspEI、LpnPI、MspJI或McrBC。

23.根据权利要求1到22中任一项所述的方法，其中所述旨在被耗竭的核酸包括宿主核酸，并且所述所关注核酸包括非宿主核酸。

24.根据权利要求23所述的方法，其中非宿主包括细菌、真菌或病毒。

25.根据权利要求23所述的方法，其中非宿主包括多种生物体物种。

26.根据权利要求23所述的方法，其中宿主是哺乳动物、鸟类、爬行动物或昆虫。

27.根据权利要求26所述的方法，其中所述哺乳动物是人。

28.根据权利要求1到27中任一项所述的方法，其中所述旨在被耗竭的核酸包括转录活性位点，并且所述所关注核酸包括重复序列。

29.根据权利要求1到28中任一项所述的方法，其中所述衔接子连接的所关注核酸和旨在被耗竭的核酸在50-1000bp的范围内。

30.根据权利要求1到29中任一项所述的方法，其中所述样品是生物样品、临床样品、法医样品或环境样品中的任何一种。

31.一种使样品富集所关注核酸的方法，所述方法包括：

b.使所述样品中的多个所述核酸末端去磷酸化；

32.根据权利要求31所述的方法，其中所述所关注核酸和所述旨在被耗竭的核酸两者均包括用于所述修饰敏感性限制酶的多个识别位点。

33.根据权利要求32所述的方法，其中与所述所关注核酸中的所述多个识别位点相比，所述旨在被耗竭的核酸中的所述多个识别位点被更频繁地修饰。

34.根据权利要求31到33中任一项所述的方法，其中所述所关注核酸包括至少一个DpnI识别位点，并且其中所述方法进一步包括在步骤(c)之前使所述样品与DpnI和T4聚合酶接触，由此在所述至少一个DpnI识别位点内或邻近所述至少一个DpnI识别位点处用未甲基化的A和C核苷酸置换甲基化的A和C核苷酸。

35.根据权利要求31到34中任一项所述的方法，其中所述修饰包括腺嘌呤修饰或胞嘧啶修饰。

36.根据权利要求35所述的方法，其中所述腺嘌呤修饰或所述胞嘧啶修饰包括甲基化。

37.根据权利要求35所述的方法，其中所述胞嘧啶修饰包括5-甲基胞嘧啶、5-羟甲基胞嘧啶、5-甲酰基胞嘧啶、5-羧基胞嘧啶、5-葡糖基羟甲基胞嘧啶或3-甲基胞嘧啶。

38.根据权利要求31到37中任一项所述的方法，其中所述修饰敏感性限制酶包括选自由以下组成的组的限制酶：AbaSI、FspEI、LpnPI、MspJI或McrBC。

39.根据权利要求31到34中任一项所述的方法，其中所述修饰包括5-羟甲基胞嘧啶，所述修饰敏感性限制酶包括AbaSI，并且所述方法进一步包括在步骤(c)之前使所述样品与T4噬菌体β-葡糖基转移酶接触。

40.根据权利要求31到34中任一项所述的方法，其中所述修饰包括葡糖基羟甲基胞嘧啶，并且所述修饰敏感性限制酶包括AbaSI。

41.根据权利要求31到34中任一项所述的方法，其中所述修饰包括甲基胞嘧啶，并且所述修饰敏感性限制酶包括McrBC。

42.根据权利要求31到41中任一项所述的方法，其进一步包括

43.根据权利要求31到42中任一项所述的方法，其进一步包括在步骤(d)之后使所述样品与多种核酸引导的核酸酶向导核酸(gNA)复合物接触，其中所述gNA与所述旨在被耗竭的核酸中的靶向位点互补，由此产生在一端上衔接子连接的旨在被耗竭的切割核酸和在5'端和3'端两者上衔接子连接的所关注核酸。

44.根据权利要求31到43中任一项所述的方法，其进一步包括使用所述衔接子对在其5'端和3'端上衔接子连接的所述所关注核酸进行扩增、测序或克隆。

45.根据权利要求31到44中任一项所述的方法，其中所述旨在被耗竭的核酸包括宿主核酸，并且所述所关注核酸包括非宿主核酸。

46.根据权利要求45所述的方法，其中非宿主包括细菌、真菌或病毒。

47.根据权利要求45所述的方法，其中宿主是人。

48.根据权利要求31到47中任一项所述的方法，其中所述旨在被耗竭的核酸包括转录活性位点，并且所述所关注核酸包括重复序列。

49.根据权利要求31到48中任一项所述的方法，其中所述衔接子连接的所关注核酸和旨在被耗竭的核酸在50-1000bp的范围内。

50.根据权利要求31到49中任一项所述的方法，其中所述样品是生物样品、临床样品、法医样品或环境样品中的任何一种。

51.一种使样品富集所关注核酸的方法，所述方法包括：

52.根据权利要求51所述的方法，其中所述所关注核酸和所述旨在被耗竭的核酸两者均包括用于所述修饰敏感性限制酶的多个识别位点。

53.根据权利要求51或52所述的方法，其中与所述所关注核酸中的所述多个识别位点相比，所述旨在被耗竭的核酸中的所述多个识别位点被更频繁地修饰。

54.根据权利要求51到53中任一项所述的方法，其中所述所关注核酸包括至少一个DpnI识别位点，并且其中所述方法进一步包括在步骤(c)之前使所述样品与DpnI和T4聚合酶接触，由此在所述至少一个DpnI识别位点内或邻近所述至少一个DpnI识别位点处用未甲基化的A和C核苷酸置换甲基化的A和C核苷酸。

55.根据权利要求51到54中任一项所述的方法，其中所述修饰包括腺嘌呤修饰或胞嘧啶修饰。

56.根据权利要求55所述的方法，其中所述腺嘌呤修饰或所述胞嘧啶修饰包括甲基化。

57.根据权利要求55所述的方法，其中所述胞嘧啶修饰包括5-甲基胞嘧啶、5-羟甲基胞嘧啶、5-甲酰基胞嘧啶、5-羧基胞嘧啶、5-葡糖基羟甲基胞嘧啶或3-甲基胞嘧啶。

58.根据权利要求51到57中任一项所述的方法，其中所述修饰敏感性限制酶包括AbaSI、FspEI、LpnPI、MspJI或McrBC。

59.根据权利要求51到53中任一项所述的方法，其中所述修饰包括5-羟甲基胞嘧啶，所述修饰敏感性限制酶包括AbaSI，并且所述方法进一步包括在(c)之前使所述样品与T4噬菌体β-葡糖基转移酶接触。

60.根据权利要求51到53中任一项所述的方法，其中所述修饰包括葡糖基羟甲基胞嘧啶，并且所述修饰敏感性限制酶包括AbaSI。

61.根据权利要求51到53中任一项所述的方法，其中所述修饰包括甲基胞嘧啶，并且所述修饰敏感性限制酶包括McrBC。

62.根据权利要求51到61中任一项所述的方法，其进一步包括在步骤(c)之后使所述样品与多种核酸引导的核酸酶向导核酸(gNA)复合物接触，其中所述gNA与所述旨在被耗竭的核酸中的靶向位点互补，由此产生在一端上衔接子连接的旨在被耗竭的切割核酸和在5'端和3'端两者上衔接子连接的所关注核酸。

63.根据权利要求51到62中任一项所述的方法，其进一步包括使用所述衔接子对在其5'端和3'端上衔接子连接的所述所关注核酸进行扩增、测序或克隆。

64.根据权利要求51到63中任一项所述的方法，其中所述旨在被耗竭的核酸包括宿主核酸，并且所述所关注核酸包括非宿主核酸。

65.根据权利要求64所述的方法，其中非宿主包括细菌、真菌或病毒。

66.根据权利要求65所述的方法，其中宿主是人。

67.根据权利要求51到66中任一项所述的方法，其中所述旨在被耗竭的核酸包括转录活性位点，并且所述所关注核酸包括重复序列。

68.根据权利要求51到67中任一项所述的方法，其中所述衔接子连接的所关注核酸和旨在被耗竭的核酸在50-1000bp的范围内。

69.根据权利要求51到68中任一项所述的方法，其中所述样品是生物样品、临床样品、法医样品或环境样品中的任何一种。

70.一种使样品富集所关注核酸的方法，所述方法包括：

a.提供包括所关注核酸和旨在被耗竭的核酸的样品，

b.使所述样品中的多个所述核酸末端去磷酸化；