CN116323971A

CN116323971A - 核酸的序列特异性靶向转座和选择以及分选

Info

Publication number: CN116323971A
Application number: CN202180057853.7A
Authority: CN
Inventors: 弗兰克·J·斯蒂莫斯; 乔纳森·马克·布泰尔; 皮特罗·加蒂拉法兰科尼; 奥利弗·乔恩·米勒; 艾玛·贝尔; 塞巴斯蒂安·乔治·加布里埃尔·里科尔特; 尼尔·安东尼·戈麦利; 金·施耐德
Original assignee: Illumina Cambridge Ltd; Illumina Inc
Current assignee: Illumina Cambridge Ltd; Illumina Inc
Priority date: 2020-08-18
Filing date: 2021-08-17
Publication date: 2023-06-23
Also published as: JP2023537850A; WO2022040176A1; AU2021329302A1; IL299783A; CA3191159A1; KR20230051508A; MX2023001676A; US20230279385A1; EP4200416A1

Abstract

本文描述了可用于介导核酸的序列特异性靶向转座的多种不同类型的靶向转座体复合物。本文还描述了一种表征包含期望样品和不需要的样品两者的样品混合池中的期望样品的方法，该方法包括：从双链核酸产生测序数据，首先对包含来自混合池的多个核酸样品的文库进行测序，其中每个核酸文库包含来自单个样品的核酸和独特样品条形码以将来自该单个样品的核酸与来自该文库中其他样品的核酸区分开；分析该测序数据并鉴定与来自期望样品的测序数据相关联的独特样品条形码；对该文库进行选择步骤，包括从期望样品富集核酸样品以及/或者从不需要的样品耗尽核酸样品；以及对该核酸文库进行重新测序。

Description

核酸的序列特异性靶向转座和选择以及分选

相关申请的交叉引用

本申请要求2020年8月18日各自提交的美国临时申请63/066,905和63/066,906；2021年3月18日提交的US 63/162,775；2021年3月19日提交的US 63/163,381；2021年3月31日提交的US 63/168,753；以及2021年8月2日提交的US 63/228,344的优先权的权益，这些临时申请中的每一篇以引用方式全文并入本文以用于任何目的。

序列表

本申请与电子格式的序列表一起提交。序列表以创建于2021年7月28日的名称为“2021-07-28_01243-0020-00PCT_Seq_List_ST25”的文件提供，该文件大小为4,096字节。序列表的电子格式的信息以引用方式全文并入本文。

说明

技术领域

本公开涉及核酸的序列特异性靶向转座。靶向转座体复合物可用于介导序列特异性靶向转座。本公开涉及包括用于评估期望样品的初始测序、选择和重新测序的方法。如本文所述，初始测序可鉴定混合样品池中的感兴趣的样品，并且然后可耗尽不需要的样品，或可基于独特样品条形码富集期望样品。然后可对期望样品进行重新测序。

背景技术

对于许多不同的应用，可能需要靶核酸的选定区域的文库产生。例如，在平台输出受到限制(例如PacBio、ONT或iSeq)的情况下，需要从基因组DNA的选定区域制备文库的能力。此外，当需要非常高的覆盖率时，诸如在液体活检样品中筛选罕见的体细胞突变，用于基因组DNA的选定区域的文库是有利的。

从基因组DNA的选定区域获得文库的当前方法包括基于寡核苷酸杂交的富集试剂盒(例如，TruSeq Exome、用于富集的Nextera Flex)。此外，最近已经公布了用于生成这种文库的基于CRISPR的系统。特别地，基于CRISPR的系统已经用于拉出10-100千碱基的区域，这适合于诸如PacBio和ONT的长读技术。

本公开描述了基因组DNA的期望区域的靶向文库制备的新方式。这些方法以多种独特的方式将不同的靶向技术与转座体结合。此外，本公开描述了从无细胞DNA(cfDNA)制备靶向文库而不需要在标签化之前移除组蛋白的方法。

本公开还描述了可用于解决在研究大量细胞群时难以确定的细胞差异的单细胞分析方法。稀有细胞的表征对于许多用途可能是重要的，诸如在肿瘤学(液体或肿瘤活检、最小残留疾病或早期疾病检测、肿瘤进化或肿瘤抗性)、免疫学(免疫或T细胞受体库)和宏基因组学(不可培养的生物体基因组组装)中。图1提供了可能感兴趣的宏基因组学和肿瘤学样品的一些代表性示例，其中稀有细胞是高度感兴趣的。目前的单细胞测序方法能够并行地对数百万个单细胞进行细胞分辨的‘组学’表征，诸如研究单个细胞的基因组学、转录组学或表观基因组学特征部。

然而，在没有选择期望样品的情况下，群体中稀有细胞的基于测序的表征是昂贵且具有挑战性的。此外，基于细胞分选的富集方法基于可划分细胞特征部的可用性而受到限制。例如，FACS可富集某些细胞大小、形态和表面蛋白表达，但其他特征可能不能被FACS划分。基于特定的‘组学’特征部富集细胞(例如基于物种、细胞类型或变体的存在的富集)将是非常有用的。这些特征部可以是先验地(基于现有技术)或从头(通过初始测序分析确定)已知的。通过对初始测序后鉴定为感兴趣的单细胞的样品进行重新测序来进行后续的、全面的/正交的‘组学’表征也是非常有价值的。

本文公开了用于从“单细胞测序文库”或“sc文库”选择、富集和基于测序表征单个细胞的DNA文库的方法，该“单细胞测序文库”或“sc文库”由包含由不同单细胞生成的文库的多个细胞DNA文库组成。可进行sc-文库的初始测序(即，对来自单个细胞的所有DNA文库进行测序)，并且可使用生物信息学分析来就感兴趣的特定‘组学’特征部对单个细胞进行分选。使用该方法，通过独特细胞DNA条形码(UBC)鉴定由不同的单个细胞生成的文库。用于分选的‘组学’特征部可用相对小的靶向测序组来定义细胞类型(例如表达、表观遗传模式或免疫基因重组)、物种类型(例如使用来自细菌的16s、18s或ITS rRNA/rDNA测序)或疾病状态/风险(例如癌症显著的种系或体细胞变体)。换句话讲，初始测序的足迹可能很小，并且重新测序可能更全面，但侧重于感兴趣的细胞。因此，本领域技术人员可使用单个初始测序运行来查询数百万或数十亿个细胞的示例性特征部，以将样品分选成期望样品和不需要的样品，随后对期望样品进行靶向重新测序。

另选地，可使用初始测序运行来鉴定用于后续分析的从头示例性‘组学’细胞特征部。例如，初始测序运行可鉴定新的细胞特征部，然后可将该新的细胞特征部用于分选。

本方法中的富集或耗尽可通过已知的核酸靶标富集方法(例如杂交捕获、独特样品条形码特异性扩增或CRISPR消化)进行。然后可对来自感兴趣的细胞的单个细胞DNA进行重新测序并从完整的sc-文库中分离表征。因此，本方法可允许在用于分选细胞的初始测序运行之后进行更全面和/或正交的重新测序和分析。

发明内容

本公开描述了许多不同的靶向转座体复合物，其包含指导转座体复合物结合靶核酸中的一个或多个感兴趣的核酸序列的一个或多个元件。本文还描述了许多使用这些靶向转座体复合物的方法。

根据本说明书，还描述了一种表征包含期望样品和不需要的样品两者的样品混合池中的期望样品的方法。

实施方案1：一种靶向转座体复合物，包含转座酶；第一转座子，包含3'转座子末端序列；5'衔接子序列；以及用重组酶包被的靶向寡核苷酸，其中所述靶向寡核苷酸能够结合到一个或多个感兴趣的核酸序列；以及第二转座子，包含5'转座子末端序列，其中所述5'转座子末端序列与所述3'转座子末端序列互补。

实施方案2：根据实施方案1所述的转座体复合物，其中所述靶向寡核苷酸的序列与所述一个或多个感兴趣的核酸序列完全或部分互补。

实施方案3：根据实施方案1或2中任一项所述的转座体复合物，其中一个或多个靶向寡核苷酸连接至所述衔接子序列的5'端。

实施方案4：根据实施方案1至3中任一项所述的转座体复合物，其中一个或多个靶向寡核苷酸直接连接至所述衔接子序列的5'端。

实施方案5：根据实施方案1至4中任一项所述的转座体复合物，其中一个或多个靶向寡核苷酸经由接头连接至所述衔接子序列的5'端。

实施方案6：根据实施方案1至5所述的转座体复合物，其中所述接头是寡核苷酸接头。

实施方案7：根据实施方案1至6所述的转座体复合物，其中所述接头是非寡核苷酸接头。

实施方案8：根据实施方案1至7所述的转座体复合物，其中所述衔接子序列的5'端和所述靶向寡核苷酸都是生物素化的并且经由链霉抗生物素蛋白连接。

实施方案9：根据实施方案1至8中任一项所述的转座体复合物，其中所述衔接子序列包含引物序列、索引标签序列、捕获序列、条形码序列、切割序列或测序相关序列或它们的组合。

实施方案10：根据实施方案1至9所述的转座体复合物，其中所述衔接子序列包含P5或P7序列。

实施方案11：根据实施方案1至10中任一项所述的转座体复合物，其中所述重组酶是UVSX、Rec233或RecA。

实施方案12：根据实施方案1至11中任一项所述的转座体复合物，其中所述转座体复合物在溶液中。

实施方案13：根据实施方案1至12中任一项所述的转座体复合物，其中所述转座体复合物固定到固体载体。

实施方案14：根据实施方案1至13所述的转座体复合物，其中所述固体载体是小珠。

实施方案15：一种试剂盒或组合物，包含作为靶向转座体复合物的实施方案1至14中任一项的第一转座体复合物和第二转座体复合物，所述第二转座体复合物包含转座酶；第一转座子，包含3'转座子末端序列和5'衔接子序列；以及第二转座子，包含5'转座子末端序列，其中所述5'转座子末端序列与所述3'转座子末端序列互补。

实施方案16：一种试剂盒或组合物，包含各自作为靶向转座体复合物的实施方案1至14中任一项的两种转座体复合物，其中所述两种靶向转座体复合物包含不同的靶向寡核苷酸。

实施方案17：一种靶向生成靶核酸的带5'标签的片段的方法，包括将包含双链核酸的样品和作为靶向转座体复合物的实施方案1至14中任一项的转座体复合物混合；通过所述重组酶启动所述核酸的链侵入；以及通过将所述第一转座子的3'端接合到所述片段的5'端以产生多个带5'标签的片段，通过所述转座酶将所述核酸片段化成多个片段。

实施方案18：一种生成带标签的核酸片段的文库的方法，包括将包含双链核酸的样品、作为靶向转座体复合物的实施方案1至14中任一项的第一转座体复合物和第二转座体复合物混合，所述第二转座体复合物包含转座酶；第一转座子，包含3'转座子末端序列和5'衔接子序列；以及第二转座子，包含5'转座子末端序列，其中所述5'转座子末端序列与所述3'转座子末端序列互补；通过所述重组酶启动所述核酸的链侵入；以及通过将每个第一转座子的3'端接合到所述靶片段的5'端以产生由所述第一转座体复合物生成的多个第一带5'标签的靶片段和由所述第二转座体复合物生成的多个第二带5'标签的靶片段，通过所述转座酶将所述核酸片段化成多个片段。

实施方案19：一种生成带标签的核酸片段的文库的方法，包括将包含双链核酸的样品、作为靶向转座体复合物的实施方案1至14中任一项的第一转座体复合物和作为靶向转座体复合物的实施方案1至14中任一项的第二转座体复合物混合；通过所述重组酶启动所述核酸的链侵入；以及通过将每个第一转座子的3'端接合到所述靶片段的5'端以产生由所述第一转座体复合物生成的多个第一带5'标签的靶片段和由所述第二转座体复合物生成的多个第二带5'标签的靶片段，通过所述转座酶将所述核酸片段化成多个片段。

实施方案20：根据实施方案17至19中任一项所述的方法或根据实施方案15或实施方案16所述的试剂盒或组合物，其中包含在所述第一转座体复合物和所述第二转座体复合物中的所述5'衔接子序列是不同的。

实施方案21：根据实施方案19所述的方法，其中包含在作为靶向转座体复合物的所述第一转座体复合物和作为靶向转座体复合物的所述第二转座体复合物中的所述靶向寡核苷酸是不同的。

实施方案22：根据实施方案21所述的方法，其中作为靶向转座体复合物的所述第一转座体复合物和作为靶向转座体复合物的所述第二转座体复合物的所述靶向寡核苷酸结合到靶核酸中给定感兴趣区域中的不同感兴趣序列。

实施方案23：根据实施方案22所述的方法，其中作为靶向转座体复合物的所述第一转座体复合物和作为靶向转座体复合物的所述第二转座体复合物的所述靶向寡核苷酸结合到所述双链核酸的相反链。

实施方案24：根据实施方案17至23中任一项所述的方法，其中在存在重组酶负载因子的情况下进行通过所述重组酶启动所述核酸的链侵入；任选地其中所述重组酶负载因子在片段化之前被移除或失活。

实施方案25：根据实施方案17至24中任一项所述的方法，其中启动链侵入经由置换环形成发生。

实施方案26：根据实施方案17至25中任一项所述的方法，其中在所述靶向寡核苷酸与所述一个或多个感兴趣的序列的结合位点的40、30、20、15、10或5个碱基内启动链侵入。

实施方案27：根据实施方案17至26中任一项所述的方法，其中用于启动链侵入的温度不同于通过所述转座酶进行片段化的最佳温度。

实施方案28：根据实施方案27所述的方法，其中用于启动链侵入的温度低于通过所述转座酶进行片段化的最佳温度。

实施方案29：根据实施方案28所述的方法，其中启动链侵入在27℃至47℃处进行。

实施方案30：根据实施方案29所述的方法，其中启动链侵入在32℃至42℃处进行。

实施方案31：根据实施方案30所述的方法，其中启动链侵入在37℃处进行。

实施方案32：根据实施方案28中任一项所述的方法，其中所述片段化在45℃至65℃处进行。

实施方案33：根据实施方案32中任一项所述的方法，其中所述片段化在50℃至60℃处进行。

实施方案34：根据实施方案33中任一项所述的方法，其中所述片段化在55℃处进行。

实施方案35：根据实施方案17至34中任一项所述的方法，其中在启动侵入之后和片段化之前将所述转座酶的辅因子添加到所述转座体复合物中。

实施方案36：根据实施方案35所述的方法，其中所述辅因子是Mg⁺⁺。

实施方案37：根据实施方案36所述的方法，其中所述Mg⁺⁺浓度为10mM至18mM。

实施方案38：根据实施方案17至37中任一项所述的方法，其中所述片段化在由所述靶向寡核苷酸结合的核酸序列中的所述一个或多个感兴趣的序列的40、30、20、15、10或5个碱基内发生。

实施方案39：根据实施方案17至38中任一项所述的方法，还包括用聚合酶和连接酶处理所述多个带5'标签的片段以延伸和连接所述链，以产生完全双链带标签的片段。

实施方案40：根据实施方案17至39中任一项所述的方法，还包括对所述带5'标签的片段或完全双链带标签的片段中的一者或多者进行测序。

实施方案41：一种在对靶核酸进行测序时保留邻接信息的方法，包括根据实施方案17至40中任一项所述的方法产生所述靶核酸的带标签的片段；对所述带5'标签的片段或完全双链带标签的片段进行测序以提供所述片段的序列；将包含相同靶向寡核苷酸的所述序列的片段的序列分组；以及如果一组序列包含相同靶向寡核苷酸的所述序列，则确定它们在所述靶核酸内是接近的。

实施方案42：一种在对靶核酸进行测序时保留邻接信息的方法，包括根据实施方案17至40中任一项所述的方法产生所述靶核酸的带标签的片段，其中一个或多个衔接子序列包含与单个靶向寡核苷酸序列缔合的独特分子标识符(UMI)；对所述带5'标签的片段或完全双链带标签的片段进行测序以提供所述片段的序列；将包含相同UMI的所述序列的片段的序列分组；以及如果一组序列包含相同UMI的所述序列，则确定它们在所述靶核酸内是接近的。

实施方案43：一种靶向生成核酸的带5'标签的片段的方法，包括使一个或多个靶向寡核苷酸与包含单链核酸的样品杂交，其中所述一个或多个靶向寡核苷酸能够各自结合到所述核酸中的感兴趣的序列；施加转座体复合物，所述转座体复合物包含转座酶；第一转座子，包含3'转座子末端序列和5'衔接子序列；以及第二转座子，包含5'转座子末端序列，其中所述5'转座子末端序列与所述3'转座子末端序列互补；以及通过将所述第一转座子的3'端接合到所述片段的5'端以产生多个带5'标签的片段，通过所述转座酶将所述核酸片段化成多个片段。

实施方案44：根据实施方案43所述的方法，其中使双链DNA变性以生成所述单链DNA。

实施方案45：根据实施方案43至44中任一项所述的方法，其中使靶向寡核苷酸与包含单链核酸的样品杂交生成能够被片段化的双链核酸区域。

实施方案46：根据实施方案43至45中任一项所述的方法，其中使两种或更多种具有不同序列的靶向寡核苷酸杂交。

实施方案47：根据实施方案43至45中任一项所述的方法，其中使单个靶向寡核苷酸的多个拷贝杂交。

实施方案48：根据实施方案47所述的方法，其中所述单个靶向寡核苷酸足够长以允许两个转座体复合物结合到通过使所述单个靶向寡核苷酸与包含单链核酸的所述样品杂交而产生的所述双链核酸。

实施方案49：根据实施方案47或实施方案48所述的方法，其中所述单个靶向寡核苷酸包含80、90、100、110、120、130、140、150、160、170、180、190或200个碱基对。

实施方案50：根据实施方案43至49中任一项所述的方法，其中所述片段化在由所述一个或多个靶向寡核苷酸结合的核酸序列中的所述一个或多个感兴趣的序列内发生。

实施方案51：根据实施方案43至50中任一项所述的方法，还包括用聚合酶和连接酶处理所述多个带5'标签的片段以延伸和连接所述链，以产生完全双链带标签的片段。

实施方案52：根据实施方案43至51中任一项所述的方法，还包括对所述带5'标签的片段或完全双链带标签的片段中的一者或多者进行测序。

实施方案53：一种靶向转座体复合物，包含转座酶；第一转座子，包含3'转座子末端序列、5'衔接子序列，以及与指导RNA缔合的无催化活性的内切核酸酶，其中所述指导RNA能够指导内切核酸酶结合到一个或多个感兴趣的核酸序列；以及第二转座子，包含所述转座子末端序列的互补序列。

实施方案54：根据实施方案53所述的转座体复合物，其中所述无催化活性的内切核酸酶结合核酸但不启动切割。

实施方案55：根据实施方案53或实施方案54所述的转座体复合物，其中所述指导RNA是单指导RNA。

实施方案56：根据实施方案53至55中任一项所述的转座体复合物，其中所述无催化活性的内切核酸酶与所述转座酶缔合。

实施方案57：根据实施方案56所述的转座体复合物，其中所述无催化活性的内切核酸酶连接至所述转座酶。

实施方案58：根据实施方案53至57中任一项所述的转座体复合物，其中所述转座酶和所述无催化活性的内切核酸酶包含在CRISPR相关转座酶中。

实施方案59：根据实施方案58所述的转座体复合物，其中所述CRISPR相关转座酶来自蓝细菌贺氏伪枝藻属(Scytonema hofmanni)(ShCAST)，任选地其中：

a.ShCAST与指导RNA偶联，任选地其中所述gRNA和所述转座酶中的至少一者是生物素化的，并且其中生物素化的所述gRNA和所述转座酶中的至少一者能够与链霉抗生物素蛋白包被的小珠偶联；

b.ShCAST包含Cas12K；

c.所述转座酶包含Tn5或Tn7样转座酶，任选地其中所述第一转座子包含P5衔接子和P7衔接子中的至少一者。

实施方案60：根据实施方案57所述的转座体复合物，其中所述无催化活性的内切核酸酶连接至所述转座酶的5'端。

实施方案61：根据实施方案57所述的转座体复合物，其中所述无催化活性的内切核酸酶连接至所述转座酶的3'端。

实施方案62：根据实施方案57所述的转座体复合物，其中所述转座酶连接至所述无催化活性的内切核酸酶的5'端。

实施方案63：根据实施方案57所述的转座体复合物，其中所述转座酶连接至所述无催化活性的内切核酸酶的3'端。

实施方案64：根据实施方案53至63中任一项所述的转座体复合物，其中所述无催化活性的内切核酸酶和转座酶包含在融合蛋白中。

实施方案65：根据实施方案64所述的转座体复合物，其中所述无催化活性的和转座酶经由接头连接。

实施方案66：根据实施方案53至56中任一项所述的转座体复合物，其中所述无催化活性的内切核酸酶和转座酶包含在单独的蛋白质中。

实施方案67：根据实施方案66所述的转座体复合物，其中所述单独的无催化活性的内切核酸酶和转座酶能够经由结合配偶体的配对缔合在一起，其中第一结合配偶体结合到所述无催化活性的内切核酸酶并且第二结合配偶体结合到所述转座酶。

实施方案68：根据实施方案67所述的转座体复合物，其中所述结合配偶体是生物素和链霉抗生物素蛋白/抗生物素蛋白。

实施方案69：根据实施方案55至68中任一项所述的转座体复合物，其中所述单指导RNA包含在包含所述第一转座子和/或第二转座子的寡核苷酸中。

实施方案70：根据实施方案69所述的转座体复合物，其中所述寡核苷酸包含5'单指导RNA和3'第一转座子和/或第二转座子。

实施方案71：根据实施方案53至70中任一项所述的转座体复合物，其中所述单指导RNA包含少于20个核苷酸。

实施方案72：根据实施方案71所述的转座体复合物，其中所述单指导RNA序列包含15、16、17、18或19个核苷酸。

实施方案73：根据实施方案53至72中任一项所述的转座体复合物，其中所述单指导RNA包含发夹二级结构。

实施方案74：根据实施方案53至73中任一项所述的转座体复合物，其中所述无催化活性的内切核酸酶是Cas9蛋白。

实施方案75：根据实施方案74所述的转座体复合物，其中所述Cas9蛋白是犬链球菌(Streptococcus canis)Cas9。

实施方案76：根据实施方案53至75中任一项所述的转座体复合物，其中所述犬链球菌Cas9具有最小序列约束。

实施方案77：一种靶向转座体复合物，包含转座酶；第一转座子，包含3'转座子末端序列；5'衔接子序列；以及锌指DNA结合结构域，其中所述锌指DNA结合结构域能够结合到一个或多个感兴趣的核酸序列；以及第二转座子，包含所述转座子末端序列的互补序列。

实施方案78：根据实施方案77所述的靶向转座体复合物，其中所述锌指DNA结合结构域包含在锌指核酸酶中。

实施方案79：根据实施方案78所述的靶向转座体复合物，其中所述锌指核酸酶是无催化活性的。

实施方案80：根据实施方案77至79中任一项所述的靶向转座体复合物，其中所述一个或多个感兴趣的核酸序列包含在与组蛋白缔合的DNA中。

实施方案81：根据实施方案80所述的靶向转座体复合物，其中所述与组蛋白缔合的DNA是无细胞DNA。

实施方案82：根据实施方案77至81中任一项所述的靶向转座体复合物，其中所述第一转座子包含亲和力元件。

实施方案83：根据实施方案82所述的靶向转座体复合物，其中所述亲和力元件附接到所述第一转座子的5'端。

实施方案84：根据实施方案82至83中任一项所述的靶向转座体复合物，其中所述第一转座子包含接头。

实施方案85：根据实施方案84所述的靶向转座体复合物，其中所述接头具有附接到所述第一转座子的5'端的第一端和附接到亲和力元件的第二端。

实施方案86：根据实施方案77至85中任一项所述的靶向转座体复合物，其中所述第二转座子包含亲和力元件。

实施方案87：根据实施方案86所述的靶向转座体复合物，其中所述亲和力元件附接到所述第二转座子的3'端。

实施方案88：根据实施方案82至85中任一项所述的靶向转座体复合物，其中所述第二转座子包含接头。

实施方案89：根据实施方案88所述的靶向转座体复合物，其中所述接头具有附接到所述第二转座子的3'端的第一端和附接到亲和力元件的第二端。

实施方案90：根据实施方案82至89中任一项所述的靶向转座体复合物，其中所述亲和力元件是生物素。

实施方案91：根据实施方案77至90所述的靶向转座体复合物，其中所述复合物包含锌指DNA结合结构域阵列。

实施方案92：根据实施方案77至91所述的转座体复合物，其中所述锌指DNA结合结构域与所述转座酶缔合。

实施方案93：根据实施方案92所述的转座体复合物，其中所述锌指DNA结合结构域连接至所述转座酶。

实施方案94：根据实施方案93所述的转座体复合物，其中所述锌指DNA结合结构域连接至所述转座酶的5'端。

实施方案95：根据实施方案93所述的转座体复合物，其中所述锌指DNA结合结构域连接至所述转座酶的3'端。

实施方案96：根据实施方案94或95所述的转座体复合物，其中所述转座酶连接至所述锌指DNA结合结构域的5'端。

实施方案97：根据实施方案94或95所述的转座体复合物，其中所述转座酶连接至所述锌指DNA结合结构域的3'端。

实施方案98：根据实施方案77至97中任一项所述的转座体复合物，其中所述锌指DNA结合结构域和转座酶包含在融合蛋白中。

实施方案99：根据实施方案77至98中任一项所述的转座体复合物，其中所述锌指DNA结合结构域和转座酶经由接头连接。

实施方案100：根据实施方案77至92中任一项所述的转座体复合物，其中所述锌指DNA结合结构域和转座酶包含在单独的蛋白质中。

实施方案101：根据实施方案100所述的转座体复合物，其中所述单独的锌指DNA结合结构域和转座酶能够经由结合配偶体的配对缔合在一起，其中第一结合配偶体结合到所述无催化活性的内切核酸酶并且第二结合配偶体结合到所述转座酶。

实施方案102：根据实施方案101所述的转座体复合物，其中所述结合配偶体是(i)生物素和(ii)链霉抗生物素蛋白或抗生物素蛋白。

实施方案103：根据实施方案53至102中任一项所述的转座体复合物，其中所述衔接子序列包含引物序列、索引标签序列、捕获序列、条形码序列、切割序列或测序相关序列或它们的组合。

实施方案104：根据实施方案53至103所述的转座体复合物，其中所述衔接子序列包含P5或P7序列。

实施方案105：根据实施方案53至104中任一项所述的转座体复合物，其中所述转座体复合物在溶液中。

实施方案106：根据实施方案53至105中任一项所述的转座体复合物，其中所述转座体复合物固定到固体载体。

实施方案107：根据实施方案106所述的转座体复合物，其中所述固体载体是小珠。

实施方案108：一种试剂盒或组合物，包含作为靶向转座体复合物的实施方案53至107中任一项的第一转座体复合物和第二转座体复合物，所述第二转座体复合物包含转座酶；第一转座子，包含3'转座子末端序列和5'衔接子序列；以及第二转座子，包含5'转座子末端序列，其中所述5'转座子末端序列与所述3'转座子末端序列互补。

实施方案109：根据实施方案108所述的试剂盒或组合物，包含各自作为靶向转座体复合物的实施方案53至107中任一项的两种转座体复合物，其中所述两种靶向转座体复合物包含不同的指导RNA。

实施方案110：一种试剂盒或组合物，包含各自作为靶向转座体复合物的实施方案108或109中任一项的两种转座体复合物，其中所述两种靶向转座体复合物包含不同的锌指DNA结合结构域。

实施方案111：一种靶向生成靶核酸的带5'标签的片段的方法，包括将包含双链核酸的样品和作为靶向转座体复合物的实施方案53至107中任一项的转座体复合物混合；以及通过将所述第一转座子的3'端接合到所述片段的5'端以产生多个带5'标签的片段，通过所述转座酶将所述核酸片段化成多个片段。

实施方案112：一种生成带标签的核酸片段的文库的方法，包括将包含双链核酸的样品、作为靶向转座体复合物的实施方案53至107中任一项的第一转座体复合物和第二转座体复合物混合，所述第二转座体复合物包含转座酶；第一转座子，包含3'转座子末端序列和5'衔接子序列；以及第二转座子，包含5'转座子末端序列，其中所述5'转座子末端序列与所述3'转座子末端序列互补；以及通过将每个第一转座子的3'端接合到所述靶片段的5'端以产生由所述第一转座体复合物生成的多个第一带5'标签的靶片段和由所述第二转座体复合物生成的多个第二带5'标签的靶片段，通过所述转座酶将所述核酸片段化成多个片段。

实施方案113：一种生成带标签的核酸片段的文库的方法，包括将包含双链核酸的样品、作为靶向转座体复合物的实施方案53至107中任一项的第一转座体复合物和作为靶向转座体复合物的实施方案53至107中任一项的第二转座体复合物混合；以及通过将每个第一转座子的3'端接合到所述靶片段的5'端以产生由所述第一转座体复合物生成的多个第一带5'标签的靶片段和由所述第二转座体复合物生成的多个第二带5'标签的靶片段，通过所述转座酶将所述核酸片段化成多个片段。

实施方案114：根据实施方案111至113中任一项所述的方法，其中所述第一靶向转座体复合物和/或第二靶向转座体复合物包含锌指DNA结合结构域。

实施方案115：根据实施方案114所述的方法，其中所述锌指DNA结合结构域包含在锌指核酸酶中。

实施方案116：根据实施方案115所述的方法，其中所述锌指核酸酶是无催化活性的。

实施方案117：根据实施方案111至116中任一项所述的方法，其中包含在所述靶向转座体复合物中的所述第一转座子包含亲和力元件。

实施方案118：根据实施方案117所述的方法，其中所述亲和力元件附接到所述第一转座子的5'端。

实施方案119：根据实施方案118中任一项所述的方法，其中包含在所述靶向转座体复合物中的所述第一转座子包含接头。

实施方案120：根据实施方案119所述的方法，其中所述接头具有附接到所述第一转座子的5'端的第一端和附接到亲和力元件的第二端。

实施方案121：根据实施方案111至120中任一项所述的方法，其中所述第二转座子包含亲和力元件。

实施方案122：根据实施方案121所述的方法，其中所述亲和力元件附接到所述第二转座子的3'端。

实施方案123：根据实施方案121所述的方法，其中所述第二转座子包含接头。

实施方案124：根据实施方案123所述的方法，其中所述接头具有附接到所述第二转座子的3'端的第一端和附接到亲和力元件的第二端。

实施方案125：根据实施方案117至124中任一项所述的方法，其中所述亲和力元件是生物素。

实施方案126：根据实施方案111至125中任一项所述的方法，其中所述双链核酸包含DNA。

实施方案127：根据实施方案126所述的方法，其中所述DNA包括与组蛋白缔合的DNA。

实施方案128：根据实施方案127所述的方法，其中所述与组蛋白缔合的DNA是无细胞DNA。

实施方案129：根据实施方案127或实施方案128所述的方法，其中所述无细胞DNA在与所述锌指DNA结合结构域混合之前不用蛋白酶处理。

实施方案130：根据实施方案111至129中任一项所述的方法，还包括在片段化之后将亲和力结合配偶体添加在固体载体上，其中所述带标签的靶片段结合到所述固体载体。

实施方案131：根据实施方案130所述的方法，其中在将所述亲和力元件添加在所述固体载体上之前停止所述片段化。

实施方案132：根据实施方案131所述的方法，其中通过添加包含蛋白酶K和/或SDS的溶液来停止所述片段化。

实施方案133：根据实施方案111至132中任一项所述的方法，其中将包含双链核酸的样品与一种或多种靶向的转座体复合物混合包括将所述样品与锌指DNA结合结构域或无催化活性的内切核酸酶混合，其中所述锌指DNA结合结构域或无催化活性的内切核酸酶结合到第一结合配偶体，以及添加所述转座酶以及第一转座子和第二转座子，其中所述转座酶结合到第二结合配偶体，其中所述转座酶能够通过所述第一结合配偶体和第二结合配偶体的配对结合到所述锌指DNA结合结构域或无催化活性的内切核酸酶。

实施方案134：根据实施方案133所述的方法，其中所述样品与锌指DNA结合结构域混合。

实施方案135：根据实施方案134所述的方法，其中所述锌指DNA结合结构域包含在锌指核酸酶中。

实施方案136：根据实施方案135所述的方法，其中所述锌指核酸酶是无催化活性的。

实施方案137：根据实施方案133至136中任一项所述的方法，其中所述双链核酸包含DNA。

实施方案138：根据实施方案137所述的方法，其中双链核酸包括与组蛋白缔合的DNA。

实施方案139：根据实施方案138所述的方法，其中所述与组蛋白缔合的DNA是无细胞DNA。

实施方案140：根据实施方案139所述的方法，其中所述无细胞DNA在与所述锌指DNA结合结构域混合之前不用蛋白酶处理。

实施方案141：根据实施方案133至140中任一项所述的方法，其中所述方法包括在所述混合之后和在所述添加之前洗涤。

实施方案142：根据实施方案133至141中任一项所述的方法，其中靶向的所述第一转座体复合物和靶向的所述第二转座子复合物结合到所述双链核酸的相反链，其中所述第一转座体复合物结合到第一转座体复合物结合位点，并且其中所述第二转座体复合物结合到第二转座体复合物结合位点。

实施方案143：根据实施方案142所述的方法，其中所述第一带5'标签的靶片段和所述第二带5'标签的靶片段包含在所述第一转座体复合物结合位点和所述第二转座体复合物结合位点之间的所述双链核酸的区域中包含的核酸序列。

实施方案144：根据实施方案143所述的方法，其中所述第一带5'标签的靶片段和所述第二带5'标签的片段至少部分互补。

实施方案145：根据实施方案133至144中任一项所述的方法，其中所述转座体复合物与所述靶DNA的化学计量近似相等。

实施方案146：根据实施方案133至145中任一项所述的方法，其中在所述混合期间不存在二价阳离子。

实施方案147：根据实施方案133至145中任一项所述的方法，其中在所述混合期间存在Ca²⁺和/或Mn²⁺。

实施方案148：根据实施方案133至145中任一项所述的方法，还包括在所述混合之后和在所述片段化之前将一种或多种二价阳离子添加到所述样品中。

实施方案149：根据实施方案148所述的方法，其中所述二价阳离子是Mg²⁺。

实施方案150：根据实施方案133至149中任一项所述的方法，还包括在所述混合之后和在所述片段化之前用外切核酸酶处理所述样品。

实施方案151：根据实施方案150所述的方法，包括在用外切核酸酶处理样品之后和在所述片段化之前添加Mg²⁺。

实施方案152：根据实施方案133至151中任一项所述的方法，还包括用蛋白酶K和/或SDS释放所述带标签的片段。

实施方案153：根据实施方案111至152中任一项所述的方法或根据实施方案108至110所述的试剂盒或组合物，其中包含在所述第一转座体复合物和所述第二转座体复合物中的所述5'衔接子序列是不同的。

实施方案154：根据实施方案111至153中任一项所述的方法，其中包含在作为靶向转座体复合物的所述第一转座体复合物和作为靶向转座体复合物的所述第二转座体复合物中的所述无催化活性的内切核酸酶或锌指DNA结合结构域是不同的。

实施方案155：根据实施方案111至154所述的方法，其中作为靶向转座体复合物的所述第一转座体复合物和作为靶向转座体复合物的所述第二转座体复合物的所述无催化活性的内切核酸酶或锌指DNA结合结构域结合到靶核酸中给定感兴趣区域中的不同感兴趣序列。

实施方案156：根据实施方案111至155中任一项所述的方法，其中所述片段化在45℃至65℃处进行。

实施方案157：根据实施方案156所述的方法，其中所述片段化在50℃至60℃处进行。

实施方案158：根据实施方案157中任一项所述的方法，其中所述片段化在55℃处进行。

实施方案159：根据实施方案111至158中任一项所述的方法，还包括用聚合酶和连接酶处理所述多个带5'标签的片段以延伸和连接所述链，以产生完全双链带标签的片段。

实施方案160：根据实施方案111至159中任一项所述的方法，还包括对所述带5'标签的片段或完全双链带标签的片段中的一者或多者进行测序。

实施方案161：一种表征包含期望样品和不需要的样品两者的样品混合池中的期望样品的方法，包括：从双链核酸产生测序数据，首先对包含来自所述混合池的多个核酸样品的文库进行测序，其中每个核酸文库包含来自单个样品的核酸和独特样品条形码以将来自所述单个样品的核酸与来自所述文库中其他样品的核酸区分开；分析所述测序数据并鉴定与来自期望样品的测序数据相关联的独特样品条形码；对所述文库进行选择步骤，包括从期望样品富集核酸样品以及/或者从不需要的样品耗尽核酸样品；以及对所述核酸文库进行重新测序。

实施方案162：根据实施方案161所述的方法，其中所述样品混合池包括细胞混合池、细胞核混合池或高分子量DNA混合池。

实施方案163：根据实施方案161或实施方案162所述的方法，其中所述样品是细胞、细胞核或高分子量DNA。

实施方案164：根据实施方案161至163中任一项所述的方法，其中所述独特样品条形码是独特细胞条形码。

实施方案165：根据实施方案161至164中任一项所述的方法，其中所述富集步骤包括杂交捕获、经由无催化活性的内切核酸酶捕获或独特样品条形码特异性扩增。

实施方案166：根据实施方案165所述的方法，其中所述独特样品条形码特异性扩增是独特样品条形码靶向PCR扩增。

实施方案167：根据实施方案161至164中任一项所述的方法，其中所述耗尽步骤包括杂交捕获、经由无催化活性的内切核酸酶捕获、CRISPR消化或通过包含与指导RNA(gRNA)偶联的ShCAST(贺氏伪枝藻属CRISPR相关转座酶)的复合物切割。

实施方案168：根据实施方案167所述的方法，其中所述杂交捕获包括使杂交捕获寡核苷酸与所述独特样品条形码杂交。

实施方案169：根据实施方案168所述的方法，其中所述杂交捕获寡核苷酸直接或间接结合到固体载体。

实施方案170：根据实施方案169所述的方法，其中所述杂交捕获寡核苷酸通过生物素-链霉抗生物素蛋白相互作用结合到固体载体。

实施方案171：根据实施方案167所述的方法，其中所述CRISPR消化是经由催化活性的内切核酸酶切割的。

实施方案172：根据实施方案171所述的方法，其中所述内切核酸酶是Cas9。

实施方案173：根据实施方案172所述的方法，其中所述Cas9是犬链球菌Cas9。

实施方案174：根据实施方案173所述的方法，其中所述犬链球菌Cas9具有最小序列约束。

实施方案175：根据实施方案171至174中任一项所述的方法，其中所述内切核酸酶是高保真突变体。

实施方案176：根据实施方案171所述的方法，包括通过包含与gRNA偶联的ShCAST的复合物切割。

实施方案177：根据实施方案171至176中任一项所述的转座体复合物，其中所述内切核酸酶与FokI核酸酶一起包含在融合蛋白中。

实施方案178：根据实施方案171至177中任一项所述的方法，其中所述内切核酸酶与结合到一个或多个独特样品条形码的指导RNA缔合。

实施方案179：根据实施方案178所述的方法，其中指导RNA针对与不需要的样品的核酸缔合的独特样品条形码进行指导。

实施方案180：根据实施方案178所述的方法，其中指导RNA针对与期望样品的核酸缔合的独特样品条形码进行指导。

实施方案181：根据实施方案178至180中任一项所述的转座体复合物，其中所述指导RNA是单一指导。

实施方案182：根据实施方案181所述的转座体复合物，其中所述单指导RNA包含少于20个核苷酸。

实施方案183：根据实施方案182所述的转座体复合物，其中所述单指导RNA序列包含15、16、17、18或19个核苷酸。

实施方案184：根据实施方案178至183中任一项所述的转座体复合物，其中所述单指导RNA包含发夹二级结构。

实施方案185：根据实施方案171至184中任一项所述的方法，其中所述内切核酸酶直接或间接结合到固体载体。

实施方案186：根据实施方案185所述的方法，其中所述内切核酸酶通过生物素-链霉抗生物素蛋白相互作用结合到固体载体。

实施方案187：根据实施方案161至186中任一项所述的方法，其中所述期望样品是以小于或等于1％、0.1％、0.01％、0.001％、0.0001％、0.00001％、0.000001％、0.0000001％、0.00000001％或0.000000001％的样品混合池存在的稀有样品。

实施方案188：根据实施方案161至186所述的方法，其中所述期望样品是以小于或等于1％、0.1％、0.01％、0.001％、0.0001％、0.00001％、0.000001％、0.0000001％、0.00000001％或0.000000001％的细胞混合池存在的期望细胞。

实施方案189：根据实施方案161至188中任一项所述的方法，其中所述方法包括在重新测序之前的扩增步骤。

实施方案190：根据实施方案189所述的方法，其中所述扩增步骤使用通用引物。

实施方案191：根据实施方案161至190中任一项所述的方法，其中所述核酸文库通过标签化制备。

实施方案192：根据实施方案161至191中任一项所述的方法，其中所述方法包括在掺入独特样品条形码之前对所述核酸样品进行空间分离的步骤。

实施方案193：根据实施方案161至192中任一项所述的方法，其中所述方法包括在对来自所述样品混合池的多个核酸样品进行测序之前进行标签化。

实施方案194：根据实施方案161至193中任一项所述的方法，其中将独特样品条形码掺入到每个核酸样品中。

实施方案195：根据实施方案161至194中任一项所述的方法，其中将i5和i7序列掺入到每个核酸样品中。

实施方案196：根据实施方案161至195中任一项所述的方法，其中将通用引物掺入到每个核酸样品中。

实施方案197：根据实施方案196中任一项所述的方法，其中所述通用引物是P5和/或P7引物。

实施方案198：根据实施方案161至197中任一项所述的方法，其中所述独特样品条形码是单个连续条形码。

实施方案199：根据实施方案198中任一项所述的方法，其中所述独特样品条形码是多个不连续条形码。

实施方案200：根据实施方案199所述的方法，其中所述多个不连续条形码由固定序列隔开。

实施方案201：根据实施方案161至200中任一项所述的方法，其中所述扩增和重新测序步骤重复一次。

实施方案202：根据实施方案161至200中任一项所述的方法，其中所述扩增和重新测序步骤重复多于一次。

实施方案203：根据实施方案161至202中任一项所述的方法，其中所述核酸是DNA。

实施方案204：根据实施方案161至202中任一项所述的方法，其中所述核酸是RNA。

实施方案205：根据实施方案204所述的方法，其中所述核酸是rRNA。

实施方案206：根据实施方案205所述的方法，其中所述核酸是16srRNA。

实施方案207：根据实施方案205所述的方法，其中所述核酸是18srRNA。

实施方案208：根据实施方案203所述的方法，其中所述核酸是rDNA。

实施方案209：根据实施方案161至208中任一项所述的方法，其中所述核酸是内部转录间隔区核酸。

实施方案210：根据实施方案161至209中任一项所述的方法，其中所述初始测序步骤不包括全基因组测序，并且所述重新测序步骤包括全基因组测序。

实施方案211：根据实施方案161至209中任一项所述的方法，其中所述初始测序步骤包括靶向测序，并且所述重新测序步骤包括全基因组测序。

实施方案212：根据实施方案211所述的方法，其中所述初始测序步骤包括用一种或多种基因特异性引物进行靶向测序。

实施方案213：根据实施方案212所述的方法，其中所述基因特异性引物包含通用引物尾。

实施方案214：根据实施方案161至210中任一项所述的方法，其中所述初始测序步骤包括核糖体测序，并且所述重新测序步骤包括全基因组测序。

实施方案215：根据实施方案214所述的方法，其中所述核糖体测序包括16s、18s或内部转录间隔区测序。

实施方案216：根据实施方案161至215中任一项所述的方法，其中所述期望样品是细胞或细胞核。

实施方案217：根据实施方案216所述的方法，其中所述期望样品是细胞。

实施方案218：根据实施方案161至217中任一项所述的方法，其中所述期望样品是来自细胞的细胞核。

实施方案219：根据实施方案161至217中任一项所述的方法，其中所述期望样品是人细胞或来自人细胞的细胞核。

实施方案220：根据实施方案161至217中任一项所述的方法，其中所述期望样品是癌细胞或来自癌细胞的细胞核。

实施方案221：根据实施方案161至220中任一项所述的方法，其中所述期望细胞或细胞核是特定的期望细胞类型或来自特定的期望细胞类型。

实施方案222：根据实施方案161至221中任一项所述的方法，其中所述期望样品相对于所述池中的其他样品具有突变。

实施方案223：根据实施方案161至222中任一项所述的方法，其中所述期望样品是癌细胞或免疫细胞或来自癌细胞或免疫细胞。

实施方案224：根据实施方案223所述的方法，其中所述期望样品是癌症干细胞或来自癌症干细胞。

实施方案225：根据实施方案223所述的方法，其中所述期望样品是液体或肿瘤活检样品中的癌细胞或来自液体或肿瘤活检样品中的癌细胞。

实施方案226：根据实施方案220所述的方法，其中所述期望样品是对药物治疗有抗性的癌细胞或来自对药物治疗有抗性的癌细胞。

实施方案227：根据实施方案220所述的方法，其中所述期望样品是相对于所述细胞池中的其他癌细胞具有至少一个突变的癌细胞或来自相对于所述细胞池中的其他癌细胞具有至少一个突变的癌细胞。

实施方案228：根据实施方案161至227中任一项所述的方法，其中所述方法用于追踪癌症进化。

实施方案229：根据实施方案161至228中任一项所述的方法，其中所述期望样品是具有体细胞驱动突变的细胞或来自具有体细胞驱动突变的细胞。

实施方案230：根据实施方案161至218中任一项所述的方法，其中所述方法用于宏基因组学。

实施方案231：根据实施方案230所述的方法，其中所述方法用于对来自环境样品的微生物进行测序。

实施方案232：根据实施方案231所述的方法，其中所述方法不包括培养来自所述环境样品的所述微生物。

实施方案233：根据实施方案230至232中任一项所述的方法，其中所述微生物包括细菌、真菌、古细菌、真菌、藻类、原生动物或病毒。

实施方案234：根据实施方案161至233中任一项所述的方法，其中所述期望样品具有单核苷酸变体(SNV)。

实施方案235：根据实施方案161至234中任一项所述的方法，其中所述期望样品具有拷贝数变异(CNV)。

实施方案236：根据实施方案161至235中任一项所述的方法，其中所述期望样品具有期望的甲基化模式。

实施方案237：根据实施方案161至236中任一项所述的方法，其中所述期望样品具有期望的表达模式。

实施方案238：根据实施方案161至237中任一项所述的方法，其中所述期望样品具有期望的表观遗传模式。

实施方案239：根据实施方案161至229或234至238中任一项所述的方法，其中所述期望样品具有期望的免疫基因重组。

实施方案240：根据实施方案161至229或234至239中任一项所述的方法，其中所述方法包括TCR库表征。

实施方案241：根据实施方案161至240中任一项所述的方法，其中所述期望样品具有特定的物种类型。

实施方案242：根据实施方案230至238中任一项所述的方法，其中所述期望样品是病原体。

实施方案243：根据实施方案242所述的方法，其中所述期望样品是或来自细菌、真菌、古细菌、真菌、藻类、原生动物或病毒。

实施方案244：根据实施方案161至243中任一项所述的方法，其中所述方法不采用基于细胞分选的富集方法。

实施方案245：根据实施方案244所述的方法，其中所述方法不采用FACS。

实施方案246：根据实施方案245所述的方法，其中所述方法不采用基于细胞大小、形态或表面蛋白表达的FACS。

实施方案247：根据实施方案161至246中任一项所述的方法，其中所述方法不采用微流体。

实施方案248：根据实施方案161至247中任一项所述的方法，其中所述方法不采用全基因组扩增。

实施方案249：根据实施方案176所述的方法，其中：

a.所述ShCAST包含Cas12K；

b.所述转座酶包含Tn5或Tn7样转座酶；并且/或者

c.所述gRNA和所述转座酶中的至少一者是生物素化的，其中生物素化的所述gRNA和所述转座酶中的至少一者能够与链霉抗生物素蛋白包被的小珠偶联。

实施方案250：根据实施方案176或249所述的方法，其中从不需要的样品耗尽核酸样品是在具有用于限制包含在所述复合物中的所述转座酶与双链核酸结合的条件的流体中进行的。

实施方案251：根据实施方案250所述的方法，其中用于限制包含在所述复合物中的所述转座酶与双链核酸结合的所述条件是15mM或更低的镁浓度。

实施方案252：根据实施方案250或251所述的方法，其中用于限制包含在所述复合物中的所述转座酶与双链核酸结合的所述条件是50nM或更低的转座酶的浓度。

实施方案253：根据实施方案176或249所述的方法，其中从不需要的样品耗尽核酸样品包括：

a.在抑制包含在所述复合物中的所述转座酶与所述核酸的结合的条件下将复合物结合到双链核酸；以及

b.在所述结合之后，促进所述复合物对所述核酸的切割。

实施方案254：根据实施方案253所述的方法，其中(1)在所述结合期间不存在转座酶以及(2)促进切割包括添加转座酶。

实施方案255：根据实施方案253所述的方法，其中(1)转座酶在所述结合期间处于低水平以及(2)促进切割包括添加转座酶。

实施方案256：根据实施方案252至255中任一项所述的方法，其中(1)转座酶在所述结合期间可逆地失活以及(2)促进切割包括活化所述转座酶。

实施方案257：根据实施方案256所述的方法，其中(1)所述转座酶由于缺乏一个或多个转座子而可逆地失活以及(2)活化所述转座酶包括提供一个或多个转座子。

实施方案258：一种组合物，包含(1)包含一个或多个感兴趣的核酸序列的靶核酸和(2)各自包含与gRNA偶联的ShCAST的多个根据实施方案59的靶向转座体复合物，其中所述ShCAST具有与其偶联的扩增衔接子，并且其中所述靶向转座体复合物中的每个靶向转座体复合物与感兴趣的核酸序列杂交。

实施方案259：根据实施方案258所述的组合物，其中所述ShCAST包含Cas12K，所述组合物还包含具有促进包含在所述复合物中的所述Cas12K与所述一种或多种感兴趣的核酸序列杂交并抑制包含在所述复合物中的所述转座酶的结合的条件的流体。

实施方案260：根据实施方案259所述的组合物，其中所述流体的所述条件还包括不存在足够量的用于所述转座酶活性的镁离子，任选地其中所述镁浓度为15mM或更低。

实施方案261：根据实施方案258所述的组合物，包含具有促进所述转座酶活性的条件的流体，并且其中所述转座酶能够将所述扩增衔接子添加到所述靶核酸中的位置。

实施方案262：根据实施方案261所述的组合物，其中所述流体的所述条件包括存在足够量的用于所述转座酶活性的镁离子，任选地其中所述镁浓度为15mM或更高。

实施方案263：根据实施方案258至262中任一项所述的组合物，其中所述ShCAST包含Cas12K。

实施方案264：根据实施方案258至263中任一项所述的组合物，其中所述转座酶包含Tn5或Tn7样转座酶。

实施方案265：根据实施方案258至264中任一项所述的组合物，其中所述衔接子包含P5衔接子和P7衔接子中的至少一者。

实施方案266：根据实施方案258至265中任一项所述的组合物，其中所述靶核酸包含双链DNA。

实施方案267：根据实施方案258至266中任一项所述的组合物，其中所述gRNA和所述转座酶中的至少一者是生物素化的，所述组合物还包含所述生物素化的所述gRNA和所述转座酶中的至少一者与其偶联的链霉抗生物素蛋白包被的小珠。

实施方案268：根据实施方案111至113中任一项所述的方法，其中所述第一靶向转座体复合物和/或第二靶向转座体复合物包含根据实施方案59所述的靶向转座体复合物。

实施方案269：根据实施方案268所述的方法，其中所述方法在具有用于限制包含在所述复合物中的所述转座酶的结合的条件的流体中进行。

实施方案270：根据实施方案269所述的方法，其中用于限制包含在所述复合物中的所述转座酶的结合的所述条件是15mM或更低的镁浓度。

实施方案271：根据实施方案269或270所述的方法，其中用于限制包含在所述复合物中的所述转座酶的结合的所述条件是50nM或更低的转座酶的浓度。

实施方案272：根据实施方案268所述的方法，其中所述方法包括：

a.在抑制包含在所述复合物中的所述转座酶与所述双链核酸的结合的条件下将所述复合物结合到双链核酸；以及

b.在所述结合之后，促进所述复合物对所述双链核酸的切割。

实施方案273：根据实施方案272所述的方法，其中(1)在所述结合期间不存在转座酶以及(2)促进切割包括添加转座酶。

实施方案274：根据实施方案271至273中任一项所述的方法，其中(1)转座酶在所述结合期间处于低水平以及(2)促进切割包括添加转座酶。

实施方案275：根据实施方案271至274中任一项所述的方法，其中(1)转座酶在所述结合期间可逆地失活以及(2)促进切割包括活化所述转座酶。

实施方案276：根据实施方案275所述的方法，其中(1)所述转座酶由于缺乏一个或多个转座子而可逆地失活以及(2)活化所述转座酶包括提供一个或多个转座子。

实施方案277：根据实施方案268至276中任一项所述的方法，其中所述转座酶将所述扩增衔接子添加到所述双链核酸中的位置。

另外的目的和优点将在下列描述中部分地示出，并且部分地将在描述中显而易见，或可通过实践获知。这些目的和优点将借助所附权利要求书中特别指出的元件和组合来实现和获得。

应当理解，上述一般描述和下述详细描述均仅作为示例和说明，并且不是对权利要求书的限制。

并入本说明书中并且构成本说明书的一部分的附图示出了一个(多个)实施方案，并且其与说明书一起用于解释本文所述的原理。

附图说明

图1提供了可与本方法一起使用的样品的示例性群体。在宏基因组学样品中，感兴趣的稀有样品可能是在样品中表达某种质粒(阴影插图)或存在稀有病毒(黑色插图)的细菌。在肿瘤学样品中，感兴趣的稀有样品可以是表达体细胞驱动突变(插图)的细胞。通常，来自这些稀有样品的数据可能难以评估，因为来自大量样品的数据将使测序结果不堪重负。

图2示出了宏基因组学使用的代表性方法。产生单细胞文库(sc-文库)，其包含来自单细胞的多个文库。使用本方法，来自单细胞的每个文库中的片段诸如用独特细胞条形码(UBC)带独特标签。在初始测序以鉴定与期望样品(诸如来自感兴趣的稀有细胞的那些样品)相关联的UBC之后，进行期望样品的选择和重新测序。该方法避免了来自感兴趣细胞的数据被由大量样品产生的大量测序数据丢失或不堪重负。在不存在本发明的质量控制方法的情况下，感兴趣的稀有样品可能从生物信息学分析中丢失。

图3示出了基于测序的分选和从稀有单细胞中选择文库的代表性方法。在构建文库后，可进行初始测序(诸如16s测序)以确定期望样品。这些期望样品可以是由单细胞总群体内的稀有细胞产生的文库。然后基于与来自感兴趣的单细胞的文库片段缔合的UBC，通过富集或耗尽来进行期望样品的选择。可经由多种不同的方式进行选择，诸如通过使用独特样品条形码特异性PCR、杂交捕获，或通过无催化活性的Cas9捕获。在选择期望样品后，可进行全面测序以更好地理解感兴趣的稀有细胞的特征。

图4示出了用于经由Sci-RNA3方法由混合群体产生的文库的选择方法。类似的方法可用于通过其他方式产生的文库。

图5示出了使用改进的SCI-seq方法产生文库以产生连续条形码的方法。

图6示出了使用用物理可寻址条形码构建的合成连接DNA文库产生文库的方法。

图7示出了进行初始靶向测序的方法。

图8示出了增加可用于选择的内切核酸酶(诸如Cas9)的特异性的多种方式。

图9提供了重组酶介导的靶向转座的概述。重组酶(Rec)包被的靶向寡核苷酸(oligos)可结合到待靶向的基因组DNA。重组酶介导链侵入以将转座体定位于感兴趣的区域。随后的转座可将P5/P7序列插入基因组DNA中，之后可产生感兴趣的区域的片段。

图10示出了基于靶向寡核苷酸的靶向转座的概述。单链基因组靶DNA可以变性，之后靶向寡核苷酸可杂交(hyb)单链DNA(ssDNA)内的一个或多个感兴趣的核酸序列。然后可添加转座酶和转座子。当转座酶结合到双链核酸的区域时，转座靶向到靶向寡核苷酸已经结合的区域。相比之下，转座酶不结合到ssDNA的其他区域。转座可将P5/P7序列插入基因组DNA中，之后可产生感兴趣的区域的片段。

图11示出了使用靶向转座体复合物产生文库的方法，该靶向转座体复合物包含与转座酶(在该实施方案中为Tn5)连接的无催化活性的内切核酸酶(在该实施方案中为失活的或dCas9)的融合蛋白。与dCas9缔合的单指导RNA(sgRNA)靶向融合蛋白以结合靶核酸内的特定核苷酸序列。该结合可在其中dCas9结合有活性但转座酶无活性(例如，在Ca²⁺和/或Mn²⁺的存在下)的条件下进行。在融合蛋白结合后，可用Mg²⁺活化经由转座酶的标签化，以允许使用类似于Nextera制备的方案产生带标签的文库片段。然后可对所得片段进行测序。

图12A-图12D呈现了产生包含无催化活性的内切核酸酶和转座酶的靶向转座体复合物的多种方式。靶向转座体复合物可包含融合蛋白，其中内切核酸酶和转座酶表达为一种蛋白(A)。该融合蛋白可包含内切核酸酶和转座酶之间的接头。另选地，结合对(诸如链霉抗生物素蛋白和生物素)可用于缔合转座酶和内切核酸酶(B)。在本文所述的任何实施方案中，指导RNA可被截短(例如，包含少于20个核苷酸)，诸如包含17个核苷酸，因为截短的指导RNA可增加对靶核酸中的一个或多个感兴趣的序列的特异性。单指导RNA(sgRNA)可与转座子缔合，诸如sgRNA与包含转座子末端序列和Tn5衔接子(诸如A14和B15)的转座子缔合(C)。sgRNA和转座子的缔合可由互补序列的区域介导。此外，可使用连续sgRNA转移链寡核苷酸(单寡核苷酸)(D)。

图13示出了可增加包含无催化活性的内切核酸酶的靶向转座体复合物的特异性的多种实施方案。截短的指导RNA可增加对靶核酸中感兴趣的特定序列的特异性，并且对特定原型间隔区相邻基序(PAM)具有最小序列约束的内切核酸酶可允许更大的靶设计空间。发夹二级结构，诸如立足点阻断的指导RNA，也可用于增加特异性。

图14A-图14C示出了包含dCas9的融合蛋白和转座酶的靶向转座体复合物如何可用于介导富集靶区域的片段化。融合蛋白将扫描靶核酸(诸如DNA)，寻找与紧邻PAM的dCas9的指导RNA结合的感兴趣的序列(A)。一旦发现感兴趣的序列，就可通过标签化实现dCas9的高特异性结合(诸如最初不与二价离子接触或与Ca²⁺或Mn²⁺接触以允许sgRNA-Cas9的结合和构象变化而不允许通过转座酶进行标签化)。在允许结合dCas9后，通过添加Mg²⁺启动经由转座酶(诸如Tn5)的标签化。添加Mg²⁺之前的外切核酸酶处理可通过除去靶DNA的非Cas9保护区域而允许额外的特异性。切割后，DNA片段可被蛋白酶K和/或SDS释放。这些方法可在包含富集靶区域的文库中产生高百分比的片段。释放DNA后，可进行延伸和间隙填充连接(C)。

图15示出了锌指核酸酶(ZNF)相关转座体用于从血浆中的无细胞DNA(cfDNA)产生靶向文库的用途。锌指DNA结合结构域或ZNF可将转座体复合物靶向cfDNA内的位点，甚至当cfDNA与组蛋白缔合时。

图16A和图16B示意性地说明了用于ShCAST(贺氏伪枝藻属CRISPR相关转座酶)靶向文库制备和富集的示例性组合物(A)和工艺流程中的操作(B)。

下表2提供了标记组分的描述。

序列描述

表1提供了本文引用的某些序列的列表。

具体实施方式

本文描述了多种靶向转座体复合物。如本文所用，“靶向转座体复合物”是指靶向靶核酸中的一个或多个感兴趣的核酸序列的转座体复合物。

I.靶向转座体复合物

本申请描述了许多不同的靶向转座体复合物，其中转座体靶向靶核酸中的感兴趣的核酸序列。在一些实施方案中，靶向转座体复合物包含可结合到靶核酸中的一个或多个感兴趣的核酸序列的组分。基于这种结合，靶向转座体复合物可介导靶核酸中感兴趣区域的转座。

靶向转座体复合物可以是与靶核酸非随机结合的任何转座体复合物。因此，靶向转座体复合物可不同于与靶核酸中的序列随机结合的非靶向转座体复合物。例如，靶向转座体复合物可包含结合到靶核酸中的一个或多个感兴趣的核酸序列的组分。使用这些靶向转座体复合物的方法可用于产生靶向文库，其中片段包含靶核酸中的感兴趣的区域。

本文描述了许多不同类型的靶向转座体复合物。

B.转座体复合物

通常，本发明的转座子复合物包含转座酶以及第一转座子和第二转座子，以及介导靶向一个或多个感兴趣的核酸序列的一种或多种组分。

如本文所用，“转座体复合物”由至少一种转座酶(或如本文所述的其他酶)和转座子识别序列构成。在一些此类体系中，转座酶结合转座子识别序列以形成能够催化转座反应的功能性复合物。在某些方面，转座子识别序列为双链转座子末端序列。转座酶结合靶标核酸中的转座酶识别位点并将转座子识别序列插入到靶标核酸中。在一些此类插入事件中，转座子识别序列(或末端序列)的一条链被转移到靶标核酸中，导致切割事件。可容易地适于与转座酶一起使用的示例性转座程序和系统。

“转座酶”意指一种酶，所述酶能够与包含转座子末端的组合物(例如，转座子、转座子末端、转座子末端组合物)形成功能性复合物，并且催化含转座子末端的组合物插入或转座到双链靶核酸中。如本文所示的转座酶还可包括来自逆转录转座子和逆转录病毒的整合酶。

可与本文提供的某些实施方案一起使用的示例性转座酶包括(或编码自)：Tn5转座酶、睡美人(Sleeping Beauty，SB)转座酶、哈氏弧菌(Vibrio harveyi)、MuA转座酶和包含R1和R2端序列的Mu转座酶识别位点、金黄色葡萄球菌(Staphylococcus aureus)Tn552、Ty1、Tn7转座酶、Tn/O和IS10、水手转座酶、Tc1、P元件、Tn3、细菌插入序列、逆转录病毒和酵母的逆转座子。更多示例包括IS5、Tn10、Tn903、IS911和转座酶家族酶的工程化版本。本文所述的方法还可包括转座酶的组合，而不仅仅是单一转座酶。

在一些实施方案中，转座酶是Tn5、Tn7、MuA或哈氏弧菌转座酶或其活性突变体。在其他实施方案中，转座酶是Tn5转座酶或其突变体。在其他实施方案中，转座酶是Tn5转座酶或其突变体。在其他实施方案中，转座酶是Tn5转座酶或其活性突变体。在一些实施方案中，Tn5转座酶是高活性Tn5转座酶或其活性突变体。在一些方面，Tn5转座酶是如PCT公布WO2015/160895中所述的Tn5转座酶，该专利以引用方式并入本文。在一些方面，Tn5转座酶是相对于野生型Tn5转座酶在具有第54、56、372、212、214、251和338位处的突变的高活性Tn5。在一些方面，Tn5转座酶是相对于野生型Tn5转座酶具有下列突变的高活性Tn5：E54K、M56A、L372P、K212R、P214R、G251R和A338V。在一些实施方案中，Tn5转座酶是融合蛋白质。在一些实施方案中，Tn5转座酶融合蛋白质包含融合的延长因子Ts(Tsf)标签。在一些实施方案中，Tn5转座酶是相对于野生型序列在氨基酸54、56和372处包含突变的超高活性Tn5转座酶。在一些实施方案中，超高活性Tn5转座酶是融合蛋白质，任选地，其中融合蛋白质是延长因子Ts(Tsf)。在一些实施方案中，识别位点是Tn5型转座酶识别位点(Goryshin和Reznikoff，J.Biol.Chem.，第273卷：第7367页，1998年)。在一个实施方案中，使用与超高活性Tn5转座酶形成复合物的转座酶识别位点(例如，EZ-Tn5TM转座酶，EpicentreBiotechnologies,Madison,Wis.)。在一些实施方案中，Tn5转座酶是野生型Tn5转座酶。

如通篇所用，术语转座酶是指一种酶，所述酶能够与包含转座子的组合物(例如，转座子、转座子组合物)形成功能性复合物，并且在体外转座反应中，催化含转座子的组合物插入或转座到与其一起温育的双链靶核酸中。所提供的方法的转座酶还可包括来自逆转录转座子和逆转录病毒的整合酶。可用于所提供的方法中的示例性转座酶包括野生型或突变形式的Tn5转座酶和MuA转座酶。

“转座反应”是其中一个或多个转座子在随机位点或几乎随机位点处插入靶核酸中的反应。转座反应中的基本组分是转座酶和DNA寡核苷酸，所述DNA寡核苷酸表现出转座子的核苷酸序列，包括转移的转座子序列及其互补序列(即，未转移的转座子末端序列)以及形成功能性转座或转座体复合物所需的其他组分。本公开的方法通过使用由超高活性Tn5转座酶和Tn5型转座子末端或由MuA或HYPERMu转座酶以及包含Rl和R2末端序列的Mu转座子末端形成的转座复合物来例示(参见例如Goryshin,I.和Reznikoff,W.S.,J.Biol.Chem.,273:7367,1998；和Mizuuchi,Cell,35:785,1983；Savilahti,H等人,EMBOJ.,14:4893,1995；这些文献全文以引用方式并入本文)。然而，能够以随机或几乎随机的方式以足够的效率插入转座子末端以使靶核酸带标签以用于其预期目的的任何转座体系均可用于所提供的方法。可用于所提供的方法的已知转座体系的其他示例包括但不限于金黄色葡萄球菌Tn552、Tyl、转座子Tn7、Tn/O和IS 10、Mariner转座酶、Tel、P因子、Tn3、细菌插入序列、逆转录病毒和酵母的逆转录转座子(参见例如，Colegio O R等人,J.Bacteriol.,183:2384-8,2001；Kirby C等人,Mol.Microbiol.,43:173-86,2002；Devine S E和Boeke JD.,Nucleic Acids Res.,22:3765-72,1994；国际专利申请WO 95/23875；Craig,N L,Science.271:1512,1996；Craig,N L，综述于：Curr Top Microbiol Immunol.,204:27-48,1996；Kleckner N等人,Curr Top Microbiol Immunol.,204:49-82,1996；Lampe D J等人,EMBO J.,15:5470-9,1996；Plasterk R H,Curr Top Microbiol Immunol,204:125-43,1996；Gloor,G B,Methods Mol.Biol,260:97-1 14,2004；Ichikawa H和Ohtsubo E.,JBiol.Chem.265:18829-32,1990；Ohtsubo,F和Sekine,Y,Curr.Top.Microbiol.Immunol.204:1-26,1996；Brown P O等人,Proc Natl Acad SciUSA,86:2525-9,1989；Boeke J D和Corces VG,Annu Rev Microbiol.43:403-34,1989；这些文献全文以引用方式并入本文)。

用于将转座子插入靶序列中的方法可使用任何合适的转座子体系在体外进行，对于所述转座子体系，合适的体外转座体系是可用的或可基于本领域的知识开发。一般来讲，适用于本公开的方法的体外转座体系至少需要足够纯度、足够浓度和足够体外转座活性的转座酶以及转座子，转座酶与所述转座子形成功能性复合物，所述功能性复合物具有能够催化转座反应的相应转座酶。可使用的合适的转座酶转座子末端序列包括但不限于野生型、衍生型或突变型转座子末端序列，其与选自野生型、衍生型或突变型转座酶的转座酶形成复合物。

在一些实施方案中，转座酶包括Tn5转座酶。在一些实施方案中，Tn5转座酶是超高活性Tn5转座酶。

在一些实施方案中，转座体复合物包含转座酶的两个分子的二聚体。在一些实施方案中，转座体复合物是同源二聚体，其中转座酶的两个分子各自结合到相同类型的第一转座子和第二转座子(例如，结合到每个单体的两个转座子的序列是相同的，从而形成“同源二聚体”)。在一些实施方案中，本文所述的组合物和方法采用转座体复合物的两个群体。在一些实施方案中，每个群体中的转座酶是相同的。在一些实施方案中，每个群体中的转座体复合物是同源二聚体，其中第一群体在每个单体中具有第一衔接子序列，并且第二群体在每个单体中具有不同的衔接子序列。

术语“转座子末端”是指双链核酸DNA，其仅表现出与在体外转座反应中起作用的转座酶或整合酶形成复合物所必需的核苷酸序列(“转座子末端序列”)。在一些实施方案中，转座子末端能够在转座反应中与转座酶形成功能性复合物。作为非限制性示例，转座子末端可包括由野生型或突变型Tn5转座酶识别的19-bp外端(“OE”)转座子末端、内端(“IE”)转座子末端、或“嵌合末端”(“ME”)转座子末端，或如US 2010/0120098的公开内容中所述的R1和R2转座子末端，其内容全文以引用方式并入本文。转座子末端可包含适用于在体外转座反应中与转座酶或整合酶形成功能性复合物的任何核酸或核酸类似物。例如，转座子末端可包含DNA、RNA、修饰碱基、非天然碱基、修饰主链，并且可在一条链或两条链中包含切口。尽管术语“DNA”在本公开中与转座子末端的组合物结合使用，但应当理解，任何合适的核酸或核酸类似物均可用于转座子末端。

术语“转移链”是指两个转座子末端的转移部分。类似地，术语“非转移链”是指两个“转座子末端”的非转移部分。在体外转座反应中，转移链的3'端接合或转移至靶DNA。在体外转座反应中，展现与转移的转座子末端序列互补的转座子末端序列的非转移链不接合或转移至靶DNA。

在一些实施方案中，转移链和非转移链共价接合。例如，在一些实施方案中，转移链序列和非转移链序列在单个寡核苷酸上提供，例如以发夹构型提供。因此，尽管非转移链的自由端未通过转座反应直接接合至靶DNA，但是非转移链间接地附接至DNA片段，因为非转移链通过发夹结构的环连接至转移链。转座体结构以及制备和使用转座体的方法的另外的示例可见于US 2010/0120098的公开内容，其内容全文以引用方式并入本文。

在一些实施方案中，转座体复合物包含有包含3'转座子末端序列和5'衔接子序列的第一转座子。在一些实施方案中，转座体复合物包含有包含5'转座子末端序列的第二转座子，其中5'转座子末端序列与3'转座子末端序列互补。

因此，在一些实施方案中，转座子组合物包含具有转移的转座子序列(例如衔接子序列)的一个或多个其他核苷酸序列5'的转移链。在一些实施方案中，衔接子序列为标签序列。除转移的转座子序列之外，标签还可具有一个或多个其他标签部分或标签结构域。

如本文所用，“标签化”是指转座酶用于将核酸片段化并加标签。标签化包括通过转座体复合物修饰DNA，该转座体复合物包含与包含转座子末端序列(本文称为转座子)的一个或多个标签(诸如衔接子序列)复合的转座酶。因此，标签化可导致DNA的片段化和衔接子与双重片段的两条链的5'端的连接同时发生。

虽然在本申请中描述了许多靶向转座体复合物，但应当理解，一些方法可使用靶向转座体复合物和非靶向转座体复合物两者。

B.固定的转座体复合物

在一些实施方案中，将转座体复合物固定到固体载体。

在一些实施方案中，转座体复合物以至少10³、10⁴、10⁵或10⁶个复合物/mm²的密度存在于固体载体上。

在一些实施方案中，固定的文库中双链片段的长度通过增加或降低固体载体上的转座体复合物的密度来调节。

在这些方法中可使用许多不同类型的固定的转座体，如US 9683230中所述，其全文并入本文。

在本文提出的方法和组合物中，转座体复合物固定到固体载体。在一些实施方案中，通过一种或多种多核苷酸，诸如包含转座子末端序列的多核苷酸，将转座体复合物和/或捕获寡核苷酸固定到载体。在一些实施方案中，转座体复合物可通过将转座酶偶联到固体载体的接头分子来固定。在一些实施方案中，转座酶和多核苷酸均固定到固体载体。当提及分子(例如，核酸)对固体载体的固定时，术语“固定的”和“附接的”在本文中可互换使用，并且除非另外明确地或通过上下文指明，否则这两个术语旨在涵盖直接或间接、共价或非共价附接。在一些实施方案中，可使用共价附接，但一般来讲全部所需的是分子(例如，核酸)在旨在使用载体的条件下(例如，在需要核酸扩增和/或测序的应用中)保持固定或附接到载体。

某些实施方案可利用由惰性基板或基质(例如，载玻片、聚合物小珠等)构成的固体载体，该惰性基板或基质已例如通过施加包含反应性基团的中间材料层或涂层被官能化，这些反应性基团允许共价附接到生物分子诸如多核苷酸。此类载体的示例包括但不限于负载在惰性基板(诸如玻璃)上的聚丙烯酰胺水凝胶，尤其是如WO 2005/065814和US2008/0280773中所述的聚丙烯酰胺水凝胶，这些文献的内容全文以引用方式并入本文。在此类实施方案中，生物分子(例如，多核苷酸)可直接共价附接到中间材料(例如，水凝胶)，但该中间材料本身可非共价附接到基板或基质(例如，玻璃基板)。术语“共价附接到固体载体”应相应地被解释为涵盖这种类型的布置。

本文的术语“固体表面”、“固体载体”和其他语法等同形式物是指适于或可被修饰成适于转座体复合物的附接的任何材料。如本领域技术人员将会理解的，可能的基板的数量非常大。可能的基板包括但不限于玻璃和改性或官能化的玻璃、塑料(包括丙烯酸类、聚苯乙烯以及苯乙烯和其他材料的共聚物、聚丙烯、聚乙烯、聚丁烯、聚氨酯、Teflon^TM等)、多糖、尼龙或硝化纤维、陶瓷、树脂、二氧化硅或基于二氧化硅的材料(包括硅和改性硅)、碳、金属、无机玻璃、塑料、光纤束和各种其他聚合物。对于一些实施方案特别有用的固体载体和固体表面位于流通池装置内。示例性流通池在下文中进一步详细阐述。

在一些实施方案中，固体载体包括适于以有序图案固定转座体复合物的图案化表面。“图案化表面”是指在固体载体的暴露层中或该暴露层上的不同区域的布置。例如，这些区域中的一个或多个区域可以是存在一种或多种转座体复合物的特征部。特征部可由不存在转座体复合物的间隙区域隔开。在一些实施方案中，图案可以为呈行和列形式的特征部的x-y格式。在一些实施方案中，图案可以为特征部和/或间隙区域的重复布置。在一些实施方案中，图案可以为特征部和/或间隙区域的随机布置。在一些实施方案中，转座体复合物随机分布在固体载体上。在一些实施方案中，转座体复合物分布在图案化表面上。可以用于本文阐述的方法和组合物中的示例性图案化表面描述于美国申请13/661,524和美国专利申请公布2012/0316086A1中，这些专利文献中的每一篇均以引用方式并入本文。

在一些实施方案中，固体载体在表面中包括孔或凹陷的阵列。这可如本领域通常已知的那样使用多种技术来制造，这些技术包括但不限于光刻、压印技术、模制技术和微蚀刻技术。本领域的技术人员将会知道，所使用的技术将取决于阵列衬底的组成和形状。

固体载体的组成和几何形状可以随其用途而变化。在一些实施方案中，固体载体是平面结构，诸如载玻片、芯片、微芯片和/或阵列。因此，基板底的表面可以为平面层的形式。在一些实施方案中，固体载体包括流通池的一个或多个表面。如本文所用，术语“流通池”是指包括固体表面的室，一种或多种流体试剂可流过该固体表面。可容易地用于本公开的方法中的流通池以及相关流体系统和检测平台的示例描述于例如以下中：Bentley等人，Nature，456:53-59(2008年)；WO 04/018497、US 7,057,026、WO 91/06678、WO 07/123744、US 7,329,492、US 7,211,414、US 7,315,019、US 7,405,281和US 2008/0108082，上述中的每一篇均以引用方式并入本文。

在一些实施方案中，固体载体或其表面是非平面的，诸如管或容器的内表面或外表面。在一些实施方案中，固体载体包括微球或小珠。所谓“微球”或“小珠”或“颗粒”或语法等同形式在本文中是指小离散颗粒。合适的小珠组合物包括但不限于塑料、陶瓷、玻璃、聚苯乙烯、甲基苯乙烯、丙烯酸聚合物、顺磁性材料、氧化钍溶胶、碳石墨、二氧化钛、乳胶或交联葡聚糖(诸如琼脂糖凝胶)、纤维素、尼龙、交联胶束和特氟隆，以及本文概述的用于固体载体的任何其他材料都可使用。印第安纳州费舍尔的Bangs Laboratories的“MicrosphereSelection Guide”是有用的指南。在某些实施方案中，微球为磁性微球或小珠。

小珠无需为球形的；可使用不规则的颗粒。另选地或除此之外，小珠可为多孔的。小珠尺寸在纳米(即，100nm)至毫米(即，1mm)的范围内，其中小珠为0.2微米至200微米的，或0.5微米至5微米，但在一些实施方案中可使用更小或更大的小珠。

这些表面结合的转座体的密度可以通过改变第一多核苷酸的密度或者通过添加到固体载体的转座酶的量来调节。例如，在一些实施方案中，转座体复合物以至少103、104、105或106个复合物/mm2的密度存在于固体载体上。

核酸与载体的附接，无论刚性的还是半刚性的，可通过共价或非共价连接进行。示例性连接在美国专利6,737,236、7,259,258、7,375,234和7,427,678；和美国专利公布2011/0059865Al中阐述，这些专利文献中的每一篇以引用方式并入本文。在一些实施方案中，核酸或其他反应组分可附接到凝胶或其他半固体载体，该凝胶或其他半固体载体又附接或粘附到固相载体。在此类实施方案中，核酸或其他反应组分应理解为固相。

在一些实施方案中，固体载体包括微粒、小珠、平面载体、图案化表面或孔。在一些实施方案中，平面载体是管的内表面或外表面。

在一些实施方案中，固体载体具有固定在其上制备的带标签的DNA片段文库。

在一些实施方案中，固体载体包含捕获寡核苷酸和固定在其上的第一多核苷酸，其中第一多核苷酸包含有包含转座子末端序列的3'部分和第一标签。

在一些实施方案中，固体载体还包含结合到第一多核苷酸以形成转座体复合物的转座酶。

在一些实施方案中，固体载体包含捕获寡核苷酸和固定在其上的第二多核苷酸，其中第二多核苷酸包含有包含转座子末端序列的3'部分和第二标签。

在一些实施方案中，固体载体还包含结合到第二多核苷酸以形成转座体复合物的转座酶。

在一些实施方案中，试剂盒包含如本文所述的固体载体。在一些实施方案中，试剂盒还包含转座酶。在一些实施方案中，试剂盒还包含逆转录酶聚合酶。在一些实施方案中，试剂盒还包含用于固定DNA的第二固体载体。

已经描述了多种不同的固定转座体复合物的方法，诸如在WO 2018/156519中描述的那些，其全文并入本文。在一些实施方案中，包含在靶向转座体复合物中的第一转座子包含亲和力元件。在一些实施方案中，亲和力元件附接到第一转座子的5'端。在一些实施方案中，第一转座子包含接头。在一些实施方案中，接头具有附接到第一转座子的5'端的第一端和附接到亲和力元件的第二端。

在一些实施方案中，靶向转座体复合物还包含与第一转座子末端序列的至少一部分互补的第二转座子。在一些实施方案中，第二转座子包含亲和力元件。在一些实施方案中，亲和力元件附接到第二转座子的3'端。在一些实施方案中，第二转座子包含接头。在一些实施方案中，接头具有附接到第二转座子的3'端的第一端和附接到亲和力元件的第二端。

在一些实施方案中，亲和力元件是生物素。

C.溶液相转座体复合物

靶向转座体复合物可以是溶液相转座体复合物。这些溶液相转座体复合物可以是可移动的并且不固定到固体载体。在一些实施方案中，溶液相靶向转座体复合物用于在溶液中产生带标签的片段。

此外，本方法可包括涉及溶液相转座体复合物的步骤。例如，本文提供的方法还可包括以下步骤：在溶液中提供转座体复合物，以及使溶液相转座体复合物与固定的片段在DNA被转座体复合物溶液片段化的条件下接触；以及从而获得在溶液中具有一端的固定的核酸片段。在一些实施方案中，溶液中的转座体复合物可包含第二标签，使得该方法产生具有第二标签的固定的核酸片段，该第二标签在溶液中。第一标签和第二标签可以不同或相同。

在一些实施方案中，该方法还包括使溶液相转座体复合物与固定的DNA片段在DNA片段被溶液相转座体复合物进一步片段化的条件下接触；从而获得在溶液中具有一端的固定的核酸片段。

在一些实施方案中，溶液相转座体复合物包含第二标签，从而在溶液中产生具有第二标签的固定的核酸片段。在一些实施方案中，第一标签和第二标签是不同的。在一些实施方案中，至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％或99％的溶液相转座体复合物包含第二标签。

在一些实施方案中，表面结合的转座体的一种形式主要存在于固体载体上。例如，在一些实施方案中，存在于所述固体载体上的至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％或99％的标签包含相同的标签结构域。在此类实施方案中，在与表面结合的转座体的初始标签化反应后，至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％或99％的桥结构在桥的每个末端包含相同的标签结构域。第二标签化反应可通过添加来自溶液的进一步使桥片段化的转座体来进行。在一些实施方案中，大部分或全部溶液相转座体包含与第一标签化反应中产生的桥结构上存在的标签结构域不同的标签结构域。例如，在一些实施方案中，存在于溶液相转座体中的至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％或99％的标签包含与第一标签化反应中产生的桥结构上存在的标签结构域不同的标签结构域。

在一些实施方案中，模板的长度长于可以使用标准簇化学过程适当扩增的模板的长度。例如，在一些实施方案中，模板的长度为至少100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1000bp、1100bp、1200bp、1300bp、1400bp、1500bp、1600bp、1700bp、1800bp、1900bp、2000bp、2100bp、2200bp、2300bp、2400bp、2500bp、2600bp、2700bp、2800bp、2900bp、3000bp、3100bp、3200bp、3300bp、3400bp、3500bp、3600bp、3700bp、3800bp、3900bp、4000bp、4100bp、4200bp、4300bp、4400bp、4500bp、4600bp、4700bp、4800bp、4900bp、5000bp、10000bp、30000bp或100,000bp。在此类实施方案中，然后可通过添加来自溶液的进一步使桥片段化的转座体来进行第二标签化反应，如US 9683230中所述，其全文并入本文。第二标签化反应因此可移除桥的内部跨段，留下锚定于表面的短断端，该短断端可转化成准备用于进一步测序步骤的簇。在特定实施方案中，模板的长度可以在由选自上文例示的那些的上限和下限限定的范围内。

D.衔接子和标签

在一些实施方案中，第一转座子包含3'转座子末端序列和5'衔接子序列。在一些实施方案中，5'衔接子序列为标签序列。由包含有包含3'转座子末端序列的第一转座子和5'标签的转座体复合物介导的片段化可用于产生带标签的片段文库的方法中。

在一些实施方案中，衔接子序列包含引物序列、索引标签序列、捕获序列、条形码序列、切割序列或测序相关序列或它们的组合。如本文所用，测序相关序列可以是与后续测序步骤相关的任何序列。测序相关序列可用于简化下游测序步骤。例如，测序相关序列可以是通过将衔接子连接到核酸片段的步骤掺入的序列。在一些实施方案中，衔接子序列包含P5或P7序列(或它们的互补序列)以促进在某些测序方法中与流通池结合。

如本文所用，术语“标签”是指多核苷酸的表现出用于期望的预期目的或应用的序列的部分或结构域。标签结构域可以包含针对任何期望目的提供的任何序列。例如，在一些实施方案中，标签结构域包含一个或多个限制性内切核酸酶识别位点。在一些实施方案中，标签结构域包含一个或多个适用于与用于簇扩增反应的引物杂交的区域。在一些实施方案中，标签结构域包含一个或多个适用于与用于测序反应的引物杂交的区域。应当理解，可以将任何其他合适的特征结合到标签结构域中。在一些实施方案中，标签结构域包含长度为5bp至200bp的序列。在一些实施方案中，标签结构域包含长度为10bp至100bp的序列。在一些实施方案中，标签结构域包含长度为20bp至50bp的序列。在一些实施方案中，标签结构域包含长度为5bp、6bp、7bp、8bp、9bp、10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp、150bp或200bp的序列。

根据需要或期望，标签可包括一种或多种功能序列或组分(例如，引物序列、锚定序列、通用序列、间隔区或索引标签序列)。

在一些实施方案中，标签包含用于簇扩增的区域。在一些实施方案中，标签包含用于引发测序反应的区域。

在一些实施方案中，该方法还包括通过使聚合酶和对应于第一转座子的一部分的扩增引物反应来扩增固体载体上的片段。在一些实施方案中，第一转座子的一部分包含扩增引物。在一些实施方案中，第一转座子的标签包含扩增引物。

在一些实施方案中，标签包含A14引物序列。在一些实施方案中，标签包含B15引物序列。

在一些实施方案中，单个小珠上的转座体携带独特的索引，并且如果使用大量这样的带索引小珠，则将产生定相转录物。

E.包含用重组酶包被的靶向寡核苷酸的靶向转座体复合物

在一些实施方案中，靶向转座体复合物包含靶向寡核苷酸。如本文所用，“靶向寡核苷酸”是可结合到一个或多个感兴趣的核酸序列的寡核苷酸。在一些实施方案中，靶向寡核苷酸用重组酶包被。靶向寡核苷酸可用于指导转座体复合物与靶核酸内的一个或多个感兴趣的核酸序列的结合。

在一些实施方案中，靶向转座体复合物包含转座酶、包含3'转座子末端序列的第一转座子、5'衔接子序列以及用重组酶包被的靶向寡核苷酸，其中所述靶向寡核苷酸能够结合到一个或多个感兴趣的核酸序列；以及第二转座子，包含5'转座子末端序列，其中所述5'转座子末端序列与所述3'转座子末端序列互补。

1.靶向寡核苷酸

靶向寡核苷酸可以是对靶核酸中的一个或多个感兴趣的核酸序列具有亲和力的任何类型的核酸。在一些实施方案中，靶向寡核苷酸可基于与靶核酸中包含的那些序列互补的序列与靶核酸杂交。

在一些实施方案中，靶向寡核苷酸包含与包含在靶核酸中的一个或多个序列完全或部分互补的核酸序列。在一些实施方案中，靶向寡核苷酸的序列与一个或多个感兴趣的核酸序列完全或部分互补。

在一些实施方案中，靶向寡核苷酸与包含在靶核酸中的序列80％、85％、90％、95％、97％、99％或100％互补。

本领域技术人员可使用任何数量的序列数据库来开发与靶核酸中的感兴趣的核酸序列结合的靶向寡核苷酸。例如，本领域技术人员可在给定基因中选择感兴趣的核酸序列并开发与感兴趣的序列互补的靶向寡核苷酸。以此方式，转座体复合物将靶向给定基因。

在一些实施方案中，一个或多个靶向寡核苷酸连接至衔接子序列的5'端。在一些实施方案中，一个或多个靶向寡核苷酸直接连接至衔接子序列的5'端。在一些实施方案中，一个或多个靶向寡核苷酸经由接头连接至衔接子序列的5'端。在一些实施方案中，接头是寡核苷酸接头。在一些实施方案中，接头是非寡核苷酸接头。在一些实施方案中，衔接子序列的5'端和靶向寡核苷酸都是生物素化的并且经由链霉抗生物素蛋白连接。

2.重组酶

重组酶可介导核酸的链侵入。这种链侵入可以是重组酶侵入双链核酸，诸如双链靶DNA。

通过用重组酶包被靶向寡核苷酸，这些包被的寡核苷酸可介导双链核酸的链侵入，随后靶向寡核苷酸与一个或多个感兴趣的核酸序列结合。已经在基于链侵入的扩增中记录了重组酶介导的寡核苷酸向双链靶核酸的插入(SIBA，参见例如，Hoser等人，PLoS ONE9(11):e112656)。重组酶可解离双链核酸的双链体区域以允许靶向寡核苷酸与靶核酸的单链区域结合。如图9所示，重组酶包被的靶向寡核苷酸的结合可将转座体定位到靶核酸中的感兴趣的区域。

在一些实施方案中，重组酶是UVSX、Rec233或RecA。

F.包含无催化活性的内切核酸酶的靶向转座体复合物

本文描述了靶向转座体复合物，其中复合物包含无催化活性的内切核酸酶。在一些实施方案中，无催化活性的内切核酸酶用于靶向转座体复合物。

在一些实施方案中，靶向转座体复合物包含无催化活性的内切核酸酶。如本文所用，“无催化活性的内切核酸酶”是可结合核酸但不介导切割的内切核酸酶(这可意味着内切核酸酶不具有任何切割活性或者其可意味着内切核酸酶仅具有最小的切割活性，使得切割损失的核酸的量基本上不干扰标签化)。无催化活性的内切核酸酶也可称为失活的内切核酸酶(诸如“dCas”蛋白)。示例性无催化活性的内切核酸酶是dCas9，如图11中所示。通常，内切核酸酶可结合到核酸并介导切割。因此，无催化活性的内切核酸酶是保留核酸结合功能而不具有切割活性的内切核酸酶。无催化活性的内切核酸酶可用于将转座体复合物靶向至靶核酸中的一个或多个感兴趣的核酸序列。代表性的无催化活性的Cas9蛋白包括在US10457969中公开的那些，其全文并入本文。

在一些实施方案中，靶向转座体复合物包含转座酶；第一转座子，包含3'转座子末端序列、5'衔接子序列，以及与指导RNA缔合的无催化活性的内切核酸酶，其中所述指导RNA能够指导内切核酸酶结合到一个或多个感兴趣的核酸序列；以及第二转座子，包含所述转座子末端序列的互补序列。

如本文所用，“指导RNA”是赋予与靶核酸结合的内切核酸酶特异性的RNA序列。无催化活性的内切核酸酶可通过指导RNA靶向一个或多个感兴趣的核酸序列。

一系列指导RNA可与无催化活性的内切核酸酶一起使用。在一些实施方案中，指导RNA包含反式活化CRISPR RNA(tracrRNA)和CRISPR RNA(crRNA)。在一些实施方案中，指导RNA仅包含tracrRNA。在一些实施方案中，指导RNA是包含tracrRNA和crRNA两者的单指导RNA(或sgRNA)。

本领域技术人员可使用多种可获得的设计工具(诸如可从Synthego或Benchling获得的那些)中的一者来开发具有结合一个或多个感兴趣的序列的特异性的指导RNA。指导RNA的选择还基于靶核酸内原型间隔区相邻基序(PAM)的存在；然而，已经描述了具有最小PAM特异性的内切核酸酶(如图13中所示)，其在设计的指导RNA中允许更大的灵活性。

如本文所述，单指导RNA序列可包含在也包含转座子的寡核苷酸中。此类寡核苷酸的开发可使用标准分子生物学技术进行。

在一些实施方案中，无催化活性的内切核酸酶与转座酶缔合。在一些实施方案中，无催化活性的内切核酸酶连接至转座酶。在一些实施方案中，无催化活性的内切核酸酶直接或间接连接至转座酶。

在一些实施方案中，转座酶和无催化活性的内切核酸酶包含在CRISPR相关转座酶中。如本文所用，“CRISPR相关转座酶”是指包含内切核酸酶和转座酶的多蛋白复合物。

还描述了其中Tn7样转座子具有共同选择的核酸酶缺陷型CRISPR-Cas体系以产生CRISPR相关转座酶的其他体系(参见Klompe等人,Nature571:219-225(2019))。本文所述的靶向转座体可包含任何类型的CRISPR-Cas体系。

无催化活性的内切核酸酶也可以多种不同的方式连接至转座酶。在一些实施方案中，无催化活性的内切核酸酶连接至转座酶的5'端。在一些实施方案中，无催化活性的内切核酸酶连接至转座酶的3'端。在一些实施方案中，转座酶连接至无催化活性的内切核酸酶的5'端。在一些实施方案中，转座酶连接至无催化活性的内切核酸酶的3'端。

在一些实施方案中，无催化活性的内切核酸酶和转座酶包含在融合蛋白中，如图12A中所示。融合蛋白意指无催化活性的内切核酸酶和转座酶包含在单一蛋白中。在一些实施方案中，使用由宿主细胞表达的核酸构建体，将包含无催化活性的内切核酸酶和转座酶的融合蛋白表达为单一蛋白。

在一些实施方案中，无催化活性的和转座酶直接连接。在一些实施方案中，无催化活性的和转座酶经由接头连接。

在一些实施方案中，无催化活性的内切核酸酶和转座酶包含在单独的蛋白质中。在一些实施方案中，无催化活性的内切核酸酶和转座酶在宿主细胞中表达为单独的蛋白质。

在一些实施方案中，单独的无催化活性的内切核酸酶和转座酶能够经由结合配偶体的配对缔合在一起，其中第一结合配偶体结合到无催化活性的内切核酸酶并且第二结合配偶体结合到转座酶。在一些实施方案中，结合配偶体是生物素和链霉抗生物素蛋白/抗生物素蛋白，如图12B中所示。

在一些实施方案中，sgRNA包含在包含第一转座子和/或第二转座子的寡核苷酸中。在一些实施方案中，寡核苷酸包含5'单指导RNA和3'第一转座子和/或第二转座子。在一些实施方案中，sgRNA和第一转座子和/或第二转座子经由互补序列的配对彼此缔合(图12C)。在一些实施方案中，sgRNA和第一转座子和/或第二转座子包含在单独的寡核苷酸中。在一些实施方案中，sgRNA包含在连续sgRNA转移链寡核苷酸中(图12D)。

图12A-图12D和图13中示出了增加无催化活性的内切核酸酶的特异性的多种不同方法。提高无催化活性的内切核酸酶的特异性的任何方法也可用于提高有催化活性的内切核酸酶的特异性。

在一些实施方案中，单指导RNA包含少于20个核苷酸(诸如图12B中具有17个核苷酸的实施方案或图13中具有18个核苷酸的实施方案)。这种包含少于20个核苷酸的单指导RNA可称为截短的指导RNA。在一些实施方案中，单指导RNA序列包含15、16、17、18或19个核苷酸。较短的单指导RNA降低了单指导RNA结合靶核酸中与sgRNA序列不完全或高度互补的序列的可能性。

在一些实施方案中，单指导RNA包含发夹二级结构(Kocak等人,NatBiotechnol.37(6):657–666(2019))。在一些实施方案中，发夹二级结构用于在不存在触发链的情况下阻断与靶核酸的结合，诸如立足点阻断的指导RNA(Siu等人,Nat Chem Biol 15(3):217-220(2019))。

在一些实施方案中，无催化活性的内切核酸酶是Cas9蛋白(其可称为失活的Cas9或dCas9)。多种不同的Cas9蛋白可包含在本文所述的靶向转座体复合物中。此外，本领域技术人员知道内切核酸酶的催化结构域并且可设计突变以从野生型内切核酸酶产生无催化活性的内切核酸酶(参见Maeder等人,Nat Methods 10(10):977–979(2013))。可测试这种设计的无催化活性的内切核酸酶以证实其缺乏切割活性。

在一些实施方案中，Cas9蛋白是犬链球菌Cas9，如图13中所示。在一些实施方案中，犬链球菌Cas9具有最小的序列约束(参见Chatterjee等人,Sci.Adv.4:eaau0766(2018))。在一些实施方案中，犬链球菌Cas9降低了对靶核酸中可结合指导RNA的序列附近的特定原型间隔区相邻基序(PAM)的需求。例如，犬链球菌Cas9可能需要NNG PAM序列代替NRG PAM序列(如图13中所示)，这降低了对特定PAM的需求并增加了选择用于结合指导RNA的感兴趣的序列的能力。具有最小序列约束的内切核酸酶的较低序列约束可允许改进的靶设计空间，因为其降低了对靶核酸中感兴趣的序列附近的特定PAM序列的需求。

在一些实施方案中，CRISPR相关转座酶来自蓝细菌贺氏伪枝藻属(ShCAST)。ShCAST是由Tn7样转座酶亚单位和V-K型CRISPR效应子(Cas12k)介导的RNA指导的(sgRNA)DNA转座的4-蛋白系统(参见Strecker等人,Science.365(6448):48–53(2019)，包括Strecker的图5中所示的实施方案，其全部以引用方式并入以用于关于ShCAST的教导)。已经提出，这些包含Tn7样转座子的系统和CRISPR-Cas系统可能具有劫持的CRISPR效应子以在靶位点产生R-环并促进转座子经由质粒和噬菌体的扩散。ShCAST可导致经由RNA引导的Tn7样转座子插入靶核苷酸中的独特位点。因此，在一些实施方案中，靶向转座体复合物在ShCAST内包含无催化活性的内切核酸酶和转座酶以实现靶向转座。

1.包含Cas内切核酸酶的靶向转座体复合物

在一些实施方案中，靶向转座体复合物包含Cas内切核酸酶。

如本文所用，术语诸如“CRISPR-Cas系统”、“Cas-gRNA核糖核蛋白”和Cas-gRNARNP是指包括指导RNA(gRNA)序列和Cas蛋白的酶系统，该指导RNA序列包括与靶核酸内的序列互补或基本上互补的寡核苷酸序列。基于核心元件含量和序列，CRISPR-Cas系统通常可分类为三种主要类型，其进一步细分为十种亚型；参见例如Makarova等人，“Evolution andclassification of the CRISPR-Cas systems,”Nat Rev Microbiol.9(6):467-477(2011)。Cas蛋白可具有多种活性，例如核酸酶活性。因此，CRISPR-Cas系统提供用于靶向特定序列(例如，经由gRNA)以及该序列上的某些酶活性(例如，经由Cas蛋白)的机制。

I型CRISPR-Cas系统可包括具有单独的解旋酶和DNA酶活性的Cas3蛋白。例如，在1-E型系统中，将crRNA掺入称为级联(用于抗病毒防御的CRISPR相关复合物)的多亚单元效应子复合物中，其结合到靶DNA并触发Cas3蛋白的降解；参见例如Brouns等人，“SmallCRISPR RNAs guide antiviral defense in prokaryotes,”Science 321(5891):960-964(2008)；Sinkunas等人，“Cas3 is a single-stranded DNA nuclease and ATP-dependenthelicase in the CRISPR-Cas immune system,”EMBO J 30:1335-1342(2011)；和Beloglazova等人，“Structure and activity of the Cas3 HD nuclease MJ0384,aneffector enzyme of the CRISPR interference,EMBO J 30:4616-4627(2011)。II型CRISPR-Cas系统包括特征Cas9蛋白，一种能够产生crRNA并切割靶DNA的单一蛋白(约160kDa)。Cas9蛋白通常包括两个核酸酶结构域，靠近氨基末端的RuvC样核酸酶结构域和靠近蛋白质中间的HNH(或McrA样)核酸酶结构域。Cas9蛋白的每个核酸酶结构域专门用于切割双螺旋的一条链；参见例如Jinek等人，“A programmable dual-RNA-guided DNAendonuclease in adaptive bacterial immunity,Science 337(6096):816-821(2012)。III型CRISPR-Cas系统包括聚合酶和RAMP模块。III型系统可进一步分为亚型III-A和III-B。III-A型CRISPR-Cas系统已经显示靶向质粒，并且III-A型系统的聚合酶样蛋白参与靶DNA的切割；参见例如，Marraffini等人，“CRISPR interference limits horizontal genetransfer in Staphylococci by targeting DNA,”Science 322(5909):1843-1845(2008)。III-B型CRISPR-Cas系统也显示靶向RNA；参见例如，Hale等人，“RNA-guided RNAcleavage by a CRISPR-RNA-Cas protein complex,”Cell 139(5):945-956(2009)。CRISPR-Cas系统包括衍生自天然产生的CRISPR-Cas系统的工程化和/或程序化的核酸酶系统。CRISPR-Cas系统可包括工程化和/或突变的Cas蛋白。CRISPR-Cas系统可包括工程化和/或程序化的指导RNA。

在一些实施方案中，本发明的Cas-gRNA RNP之一中的Cas蛋白可包括Cas9或其他合适的Cas，其可以诸如以下参考文献中所述的方式在gRNA互补的序列处切割靶核酸，这些文献中的每一篇的全部内容以引用方式并入本文：Nachmanson等人，“Targeted genomefragmentation with CRISPR/Cas9 enables fast and efficient enrichment of smallgenomic regions and ultra-accurate sequencing with low DNA input(CRISPR-DS),”Genome Res.28(10):1589-1599(2018)；Vakulskas等人，“A high-fidelity Cas9mutantdelivered as a ribonucleoprotein complex enables efficient gene editing inhuman hematopoietic stem and progenitor cells,”Nature Medicine 24:1216-1224(2018)；Chatterjee等人，“Minimal PAM specificity of a highly similar SpCas9ortholog,”Science Advances 4(10):eaau0766,1-10(2018)；Lee等人，“CRISPR-Cap:multiplexed double-stranded DNA enrichment based on the CRISPR system,”Nucleic Acids Research 47(1):1-13(2019)。来自嗜热链球菌(S.thermophilus)CRISPR-Cas系统的分离的Cas9-crRNA复合物以及从单独的组分体外组装的复合物证明其结合合成的寡聚脱氧核苷酸和携带与crRNA互补的核苷酸序列的质粒DNA。已经显示Cas9具有两个核酸酶结构域－RuvC-和HNH-活性位点/核酸酶结构域，并且这两个核酸酶结构域负责切割相反的DNA链。在一些示例中，Cas9蛋白衍生自嗜热链球菌CRISPR-Cas系统的Cas9蛋白。在一些示例中，Cas9蛋白是具有约1,409个氨基酸残基的多结构域蛋白。

在其他实施方案中，Cas可被工程化以便不在gRNA互补的序列处切割靶核酸以制备失活的Cas(dCas)，例如，以诸如以下参考文献中所述的方式，这些文献中的每一篇的全部内容以引用方式并入本文：Guilinger等人，“Fusion of catalytically inactive Cas9to Fokl nuclease improves the specificity of genome modification,”NatureBiotechnology 32:577-582(2014)；Bhatt等人，“Targeted DNA transposition using adCas9-transposase fusion protein,”https://doi.org/10.1101/571653，第1-89页(2019)；Xu等人，“CRISPR-assisted targeted enrichment-sequencing(CATE-seq)”，可获自URL www.biorxiv.org/content/10.1101/672816v1,1-30(2019)；和Tijan等人，“dCas9-targeted locus-specific protein isolation method identifies histone generegulators,”PNAS 115(12):E2734-E2741(2018)。缺乏核酸酶活性的Cas可称为失活的Cas(dCas)。在一些实施方案中，dCas可包括Cas9蛋白的无核酸酶变体，其中RuvC-和HNH-活性位点/核酸酶结构域两者都被突变。Cas9蛋白的无核酸酶变体(dCas9)结合双链DNA，但不切割DNA。Cas9蛋白的另一种变体具有两个失活的核酸酶结构域，在切割与crRNA互补的链的结构域中具有第一突变并且在切割与crRNA不互补的链的结构域中具有第二突变。在一些实施方案中，Cas9蛋白具有第一突变D10A和第二突变H840A。

在一些实施方案中，Cas蛋白包含级联蛋白。大肠杆菌中的级联复合物以序列特异性方式识别双链DNA(dsDNA)靶标。大肠杆菌级联复合物是405-kDa复合物，包括五个功能必需的CRISPR相关(Cas)蛋白(CasA1B2C6D1E1，也称为级联蛋白)和61个核苷酸的crRNA。crRNA通过与互补DNA链形成碱基对同时置换非互补链以形成R-环而将级联复合物引导至dsDNA靶序列。级联识别靶DNA而不消耗ATP，这表明连续入侵者DNA监测在没有能量投入的情况下发生；参见例如，Matthijs等人，“Structural basis for CRISPR RNA-guided DNArecognition by Cascade,”Nature Structural&Molecular Biology 18(5):529-536(2011)。在一些实施方案中，Cas蛋白包括Cas3蛋白。说明性地，大肠杆菌Cas3可催化RNA与形成R-环的DNA的ATP非依赖性退火，并将碱基配对的RNA杂交成双链DNA。Cas3蛋白可使用比Cas9更长的gRNA；参见例如Howard等人，“Helicase disassociation and annealing ofRNA-DNA hybrids by Escherichia coli Cas3 protein,”Biochem J.439(1):85-95(2011)。这种更长的gRNA可允许其他元件更容易地接近靶DNA，例如，接近待通过聚合酶延伸的引物。Cas3蛋白提供的另一个特征是Cas3蛋白不像Cas9那样需要PAM序列，因此为靶向期望序列提供更大的灵活性。由Cas3的R-环形成可利用镁作为辅因子；参见例如，Howard等人，“Helicase disassociation and annealing of RNA-DNA hybrids by Escherichiacoli Cas3 protein,”Biochem J.439(1):85-95(2011)。应当理解，任何合适的辅因子，诸如阳离子可与用于本发明组合物和方法中的Cas蛋白一起使用。

还应当理解，可使用能够破坏双链多核苷酸并产生环结构的任何CRISPR-Cas系统。例如，Cas蛋白可包括但不限于诸如以下参考文献中所述的Cas蛋白，这些文献中的每一篇的全部内容以引用方式并入本文：Chute等人，“A guild of 45CRISPR-associated(Cas)protein families and multiple CRISPR/Cas subtypes exist in prokaryoticgenomes,”PLoS Comput Biol.1(6):e60,1-10(2005)；Zhang等人，“Expanding thecatalog of cas genes with metagenomes,”Nucl.Acids Res，42(4):2448-2459(2013)；和Strecker等人，“RNA-guided DNA insertion with CRISPR-associatedtransposases,”Science 365(6448):48-53(2019)，其中Cas蛋白可包括Cas12k。一些这些CRISPR-Cas系统可利用特定序列来识别并结合靶序列。例如，Cas9可利用5'-NGG原型间隔区相邻基序(PAM)的存在。

CRISPR-Cas系统还可包括工程化和/或程序化的指导RNA(gRNA)。如本文所用，术语“指导RNA”和“gRNA”(并且在本领域中有时称为单指导RNA，或sgRNA)旨在意指包括与靶DNA序列的区域互补或基本上互补并且将Cas蛋白引导至该区域的序列的RNA。指导RNA可包括除了与靶DNA序列的区域互补或基本上互补的核苷酸序列之外的核苷酸序列。用于设计gRNA的方法是本领域熟知的，并且非限制性示例提供于以下参考文献中，这些文献中的每一篇的全部内容以引用方式并入本文：Stevens等人，“A novel CRISPR/Cas9 associatedtechnology for sequence-specific nucleic acid enrichment,”PLoS ONE 14(4):e0215441，第1-7页(2019)；Fu等人，“Improving CRISPR-Cas nuclease specificityusing truncated guide RNAs,Nature Biotechnology 32(3):279-284(2014)；Kocak等人，“Increasing the specificity of CRISPR systems with engineered RNAsecondary structures,”Nature Biotechnology 37:657-666(2019)；Lee等人，“CRISPR-Cap:multiplexed double-stranded DNA enrichment based on the CRISPR system,”Nucleic Acids Research 47(1):e1,1-13(2019)；Quan等人，“FLASH:a next-generationCRISPR diagnostic for multiplexed detection of antimicrobial resistancesequences,”Nucleic Acids Research 47(14):e83,1-9(2019)；和Xu等人“CRISPR-assisted targeted enrichment-sequencing(CATE-seq),”https://doi.org/10.1101/672816,1-30(2019)。

在一些实施方案中，gRNA包括嵌合体，例如与反式活化CRISPR RNA(tracrRNA)融合的CRISPR RNA(crRNA)。这种嵌合单指导RNA(sgRNA)描述于Jinek等人，“A programmabledual-RNA-guided endonuclease in adaptive bacterial immunity,”Science 337(6096):816-821(2012)中。Cas蛋白可通过嵌合sgRNA导向任何基因座，随后是5'-NGG原型间隔区相邻基序(PAM)。在一个非限制性示例中，crRNA和tracrRNA可使用包括T7启动子的合成双链DNA模板通过体外转录来合成。tracrRNA可具有固定序列，而靶序列可决定crRNA序列的一部分。可将等摩尔浓度的crRNA和tracrRNA混合并在55℃处加热30秒。可在37℃处以相同的摩尔浓度添加Cas9，并与RNA混合物温育10分钟。然后可将10倍至20倍摩尔过量的所得Cas9-gRNA RNP添加靶DNA中。结合反应可在15分钟内发生。可容易地使用其他合适的反应条件。

2.包含ShCAST的靶向转座体复合物

在一些实施方案中，靶向转座体复合物包含在ShCAST中。

本文的一些示例提供了包含靶核酸(诸如双链核酸)的组合物，该靶核酸包含一个或多个感兴趣的序列。组合物可包含多个复合物，每个复合物包含与指导RNA(gRNA)偶联的ShCAST(贺氏伪枝藻属CRISPR相关转座酶)。ShCAST可具有与其偶联的扩增衔接子。每个复合物可与靶核酸中相应的一个亚序列(诸如一个或多个感兴趣的核酸序列)杂交。此类复合物公开于美国临时申请US 63/162,775和US 63/163,381中，这些临时申请中的每一者全文以引用方式并入本文。

在一些实施方案中，组合物包含(1)包含一个或多个感兴趣的核酸序列的靶核酸和(2)各自包含与gRNA偶联的ShCAST的本文所述的多个靶向转座体复合物，其中所述ShCAST具有与其偶联的扩增衔接子，并且其中所述靶向转座体复合物中的每个靶向转座体复合物与感兴趣的核酸序列杂交。

在一些实施方案中，ShCAST包含无催化活性的内切核酸酶(诸如Cas12K)和转座酶(诸如Tn5)。在一些方面，通过ShCAST切割核酸可被认为是两步过程，其中1)基于无催化活性的内切核酸酶与结合到一个或多个感兴趣的序列的gRNA的缔合而结合到核酸，以及2)通过转座酶切割。在一些实施方案中，限制转座酶与核酸的非特异性结合增加了制备靶向片段(即，在无催化活性的内切核酸酶与gRNA缔合后由切割产生的片段)的频率。

在一些实施方案中，组合物还包含具有促进复合物与亚序列杂交并抑制转座酶的结合的条件的流体。在一些示例中，流体的条件包括不存在足够量的用于转座酶活性的镁离子。

通过抑制转座酶的结合，ShCAST的切割被限制在包含在ShCAST中的Cas12K与结合到核酸中感兴趣的序列的gRNA缔合的位点。以这种方式，限制了非特异性切割(由于转座酶与核酸的非特异性结合)，并且核酸的大多数切割是在感兴趣的序列内或附近的位点处。

在一些实施方案中，限制包含在复合物中的转座酶的结合的条件是15mM或更低的镁浓度和/或50nM或更低的转座酶浓度。这种抑制转座酶结合的组合物可用于抑制包含在ShCAST中的转座酶的非特异性切割，大多数切割基于CasK12与结合到核酸中感兴趣的序列的gRNA的结合而发生。

在一些示例中，组合物还包含具有促进转座酶活性的条件的流体，并且其中转座酶将扩增衔接子添加到靶核酸中的位置。在一些示例中，流体的条件包括存在足够量的用于转座酶活性的镁离子。促进转座酶活性的此类实施方案可以是用于在由gRNA，诸如通过标签化结合的感兴趣的序列处或附近制备片段的那些实施方案。此类条件可以是15mM或更高的镁浓度。

在一些实施方案中，ShCAST包含Cas12K。在一些示例中，转座酶包含Tn5或Tn7样转座酶。在一些实施方案中，衔接子包括P5衔接子和P7衔接子中的至少一者。在一些实施方案中，靶核酸包含双链DNA。

在一些示例中，gRNA和转座酶中的至少一者是生物素化的。组合物还可包含生物素化的gRNA和转座酶中的至少一者与其偶联的链霉抗生物素蛋白包被的小珠。

例如，图16A和图16B示意性地说明了用于ShCAST(贺氏伪枝藻属CRISPR相关转座酶)靶向文库制备和富集的示例性组合物和工艺中的操作。ShCAST 6000包括Cas12k 6001和Tn7样转座酶6002，其能够使用RNA指导6004将DNA 6003插入大肠杆菌基因组中的特定位点。本文提供的一些示例利用ShCAST或掺入Tn5转座酶的ShCAST的修饰形式(ShCAST-Tn5)来靶向扩增特定基因。因此，将文库制备和富集步骤组合，因此简化并提高了靶文库测序工作流程的效率，并促进自动化。

说明性地，gRNA 6004可设计成靶向特定基因(序列)，并且gRNA的间隔可控制插入序列大小。在一些示例中，gRNA 6004和/或ShCAST/ShCAST-Tn5 6002可与标签6005偶联，例如可以是生物素化的。以诸如图16A中所示的方式，可将gRNA 6004和具有衔接子6003(例如，Illumina衔接子)的转座元件加载到ShCAST的转座酶6002上，产生复合物6000。以诸如图16B的工艺流程6010中所说明的方式，所得ShCAST/ShCAST-Tn5复合物6000可与基因组DNA(靶核酸)6011在抑制标签化的流体条件(例如，低镁或无镁)下混合，同时允许复合物结合到靶DNA中的相应序列。然后可使用与标签配偶体偶联的底物分离复合物，该标签配偶体诸如带标签的(例如，生物素化的)gRNA和/或ShCAST/ShCAST-Tn5与其偶联的链霉抗生物素蛋白小珠6012。可以洗去任何未结合的DNA，例如以减少或最小化脱靶标签化。然后可改变流体条件(例如，充分增加镁)以促进标签化。在准备测序时，可使用间隙填充连接步骤，随后热解离以从小珠释放文库。

注意，在诸如图16A和图16B所示的组合物和操作中，复合物6000的转座酶部分6002可以能够随机插入DNA中。这种插入可通过将ShCAST/ShCAST-Tn5复合物与基因组DNA在抑制标签化的流体条件(例如，低镁或无镁)下混合来抑制或最小化，从而允许靶标被结合。

在一些实施方案中，方法设计成限制脱靶标签化。在一些实施方案中，在用ShCAST进行靶向转座的方法期间低浓度的Tn5限制脱靶标签化。在一些实施方案中，低浓度的Tn5限制了多少ShCAST与核苷酸非特异性结合。

在一些实施方案中，gRNA靶向ShCAST(因此转座酶)在靶核苷酸内的一个或多个感兴趣的基因座处的结合，这使得使用者能够用正向引物和反向引物产生可扩增的PCR产物。在一些实施方案中，不同的gRNA结合到感兴趣的基因座处的不同序列，即不同的gRNA结合到感兴趣的基因座内的多于一个感兴趣的序列。例如，这种感兴趣的基因座可以是感兴趣的基因内或紧邻感兴趣的基因的序列。

使用本方法产生的片段需要通过两个转座体复合物进行标签化以全部用于制备在两端具有适当衔接子的片段。如果使用靶向感兴趣的基因座(通过gRNA)的一个靶向转座体复合物产生片段并且另一个转座体复合物随机结合，则该片段可能太大而不能使用本方法适当地扩增。在一些实施方案中，当转座酶浓度非常低时，其在足够接近以产生可扩增/可测序的片段的基因组旁边随机结合另一个Tn5的机会很低。另选地，可在低温(诸如低于37℃)处进行ShCAST的结合和切割。因此，经由脱靶结合和用ShCAST标签化产生的片段将可能不是可扩增的PCR产物。只有当转座酶以相对紧密的接近度成簇时(如使用设计成靶向感兴趣的基因座的gRNA靶向的ShCAST复合物)，才会产生可进行PCR富集的片段。

关于ShCAST的进一步细节，包括其中的Cas12k和Tn7，参见Strecker等人,Science.365(6448):48–53(2019)，该文献以引用方式全文并入本文。

G.包含锌指DNA结合结构域的靶向转座体

在一些实施方案中，靶向转座体复合物包含锌指DNA结合结构域。该锌指DNA结合结构域可用于将转座体复合物靶向靶核酸中的感兴趣的序列。

在一些实施方案中，锌指DNA结合结构域设计成结合到靶核酸中的一个或多个感兴趣的序列。设计锌指DNA结合结构域以结合特定序列的方法是本领域熟知的(参见Wei等人,BMC Biotechnology 8:28(2008))。

在一些实施方案中，靶向转座体复合物包含转座酶；第一转座子，包含3'转座子末端序列；5'衔接子序列；以及锌指DNA结合结构域，其中所述锌指DNA结合结构域能够结合到一个或多个感兴趣的核酸序列；以及第二转座子，包含所述转座子末端序列的互补序列。

在一些实施方案中，复合物包含锌指DNA结合结构域阵列。如本文所用，“锌指DNA结合阵列”是包含多于一个锌指DNA结合结构域的结构域。

在一些实施方案中，锌指DNA结合结构域与转座酶缔合。在一些实施方案中，锌指DNA结合结构域连接至转座酶。

在一些实施方案中，锌指DNA结合结构域连接至转座酶的5'端。在一些实施方案中，锌指DNA结合结构域连接至转座酶的3'端。在一些实施方案中，转座酶连接至锌指DNA结合结构域的5'端。在一些实施方案中，转座酶连接至锌指DNA结合结构域的3'端。在一些实施方案中，锌指DNA结合结构域和转座酶包含在融合蛋白中。

在一些实施方案中，锌指DNA结合结构域和转座酶经由接头连接。

在一些实施方案中，锌指DNA结合结构域和转座酶包含在单独的蛋白质中。在一些实施方案中，单独的锌指DNA结合结构域和转座酶可经由结合配偶体的配对缔合在一起，其中第一结合配偶体结合到无催化活性的内切核酸酶并且第二结合配偶体结合到转座酶。

II.包含靶向转座体的试剂盒或组合物

多种试剂盒或组合物可包含靶向转座体复合物。

在一些实施方案中，试剂盒或组合物包含作为靶向转座体复合物的第一转座体复合物和第二转座体复合物，所述第二转座体复合物包含转座酶；第一转座子，包含3'转座子末端序列和5'衔接子序列；以及第二转座子，包含5'转座子末端序列，其中所述5'转座子末端序列与所述3'转座子末端序列互补。

在一些实施方案中，作为靶向转座体复合物的第一转座体复合物包含用重组酶包被的靶向寡核苷酸。在一些实施方案中，试剂盒或组合物包含各自作为靶向转座体复合物的两种转座体复合物，其中所述两种靶向转座体复合物包含不同的靶向寡核苷酸。

在一些实施方案中，试剂盒或组合物包含各自作为靶向转座体复合物的两种转座体复合物，其中所述两种靶向转座体复合物包含不同的指导RNA。

在一些实施方案中，试剂盒或组合物包含各自作为靶向转座体复合物的两种转座体复合物，其中所述两种靶向转座体复合物包含不同的锌指DNA结合结构域。

III.使用靶向转座体复合物进行靶向转座的方法

使用靶向转座体复合物的方法可在靶核酸的区域内介导转座，该区域紧邻靶向转座体复合物与靶核酸结合的区域。换句话讲，靶向转座体复合物可介导核酸的序列特异性靶向转座。序列特异性转座可用于使靶核酸片段化并产生包含靶核酸的特定部分的带标签的片段。使用靶向转座体复合物的代表性方法示于图14A-图14C中，其中靶向转座体复合物包含非切割性内切核酸酶突变体，诸如dCas9。

通常，转座体复合物通过随机结合双链核酸介导转座。然而，对于一些用途，本领域技术人员可能优选制备包含有包含靶核酸的期望部分的片段的文库。该期望部分可称为富集靶区域，如图14A中所示。

经由增加包含有包含靶核酸的某一部分的片段的文库的概率的方法产生的文库可称为“靶向文库”。使用靶向转座体复合物的本方法可用于产生靶向文库。如本文所用，“非靶向文库”是指包含靶核酸的随机片段的文库(例如，用随机片段，诸如通过标准标签化方法产生的文库)。

在一些实施方案中，当使用靶向转座体时，靶核酸中的期望位点周围存在更高频率的转座。在一些实施方案中，经由本方法产生的靶向文库还可包含有包含靶核酸的其他部分的片段。换句话讲，靶向文库还可包含有包含靶核酸的其他部分的片段。

在一些实施方案中，包含在经由本方法产生的片段文库中的10％、20％、30％、40％、50％、60％、70％、80％、90％、95％、99％或100％的带标签的片段包含靶核酸的期望部分的片段。

在一些实施方案中，与不经由靶向转座体复合物或其他富集方法产生的文库(即，非靶向或非富集文库)相比，经由使用靶向转座体复合物的本方法产生的片段文库包含多2X、5X、10X、20X、50X、100X或1000X的包含靶核酸的期望部分的带标签的片段。在一些实施方案中，可经由使用随机结合靶核酸并使靶核酸片段化的转座体复合物的方法产生非靶向或非富集文库。

在一些实施方案中，经由本方法产生的片段文库富集2X、5X、10X、20X、50X、100X或1000X的包含靶核酸的期望部分的带标签的片段。换句话讲，与这些片段在非靶向或非富集文库中的频率相比，经由使用靶向转座体复合物的本方法产生的片段文库可具有更高频率的包含靶核酸的期望部分的带标签的片段。

靶向文库具有许多重要的优点。靶向文库集中于靶核酸中的感兴趣的区域以在下游应用(诸如测序)中生成更小、更可管理的数据集。与使用非靶向文库的方法相比，使用靶向文库的方法还可减少测序成本和数据分析负担，以及减少周转时间。

包含靶核酸的选定区域的文库(“靶向文库”)对于一系列应用可能是重要的。通常，用于靶向分析感兴趣的特定基因(即，定制内容物)、基因内的靶标或线粒体DNA的方法也可适用于生成靶向文库的本方法。在平台输出受限的情况下或当需要非常高的覆盖率时，可能需要靶向文库。例如，靶向文库能够以高覆盖率水平进行深度测序以用于稀有变体鉴定。

在一些实施方案中，与非靶向转座体复合物相比，使用靶向转座体复合物的方法允许相对于靶核酸的量使用更低浓度的转座体复合物。在一些实施方案中，靶向转座体复合物以与靶DNA近似相等的化学计量使用。

换句话讲，可能不需要摩尔过量的靶向转座体复合物来生成具有包含来自靶核酸的感兴趣区域的足够片段的文库。相比之下，为了在非靶向文库中获得足够的片段(即，不将转座体复合物靶向一个或多个感兴趣的核酸序列的文库生成方法)，可能需要更多的转座体复合物，因为用非靶向文库生成的片段是随机产生的。因此，对于靶向转座体，文库中更多的片段可含有感兴趣的序列，这允许使用更少量的靶向转座体复合物和更少量的靶核酸。

本文所述的靶向转座体复合物可与非靶向转座体复合物一起使用。在一些实施方案中，生成带标签的核酸片段的文库的方法包括将包含双链核酸的样品、作为靶向转座体复合物的第一转座体复合物和第二转座体复合物混合，所述第二转座体复合物包含转座酶；第一转座子，包含3'转座子末端序列和5'衔接子序列；以及第二转座子，包含5'转座子末端序列，其中所述5'转座子末端序列与所述3'转座子末端序列互补；以及通过将每个第一转座子的3'端接合到所述靶片段的5'端以产生由所述第一转座体复合物生成的多个第一带5'标签的靶片段和由所述第二转座体复合物生成的多个第二带5'标签的靶片段，通过所述转座酶将所述核酸片段化成多个片段。

方法还可使用两种靶向转座体复合物。

在一些实施方案中，生成带标签的核酸片段的文库的方法包括将包含双链核酸的样品、作为靶向转座体复合物的第一转座体复合物和作为靶向转座体复合物的第二转座体复合物混合；以及通过将每个第一转座子的3'端接合到所述靶片段的5'端以产生由所述第一转座体复合物生成的多个第一带5'标签的靶片段和由所述第二转座体复合物生成的多个第二带5'标签的靶片段，通过所述转座酶将所述核酸片段化成多个片段。

方法中使用的靶向转座体可以是本文所述的那些转座体中的任一者，诸如包含无催化活性的内切核酸酶或包含锌指DNA结合结构域的那些转座体。

本文所述的方法可设计成促进靶向转座体复合物与靶核酸在片段化之前的结合。在一些实施方案中，促进转座酶的片段化活性的试剂在混合步骤期间不存在或处于低水平。在一些实施方案中，在混合期间不存在二价阳离子。在一些实施方案中，在混合期间存在Ca²⁺和/或Mn²⁺。在一些实施方案中，在混合期间存在Ca²⁺和/或Mn²⁺，但不存在Mg²⁺。

在一些实施方案中，方法还包括在混合之后和在片段化之前将一种或多种二价阳离子添加到样品中。在一些实施方案中，二价阳离子是Mg²⁺。

在一些实施方案中，方法还包括在混合之后和在片段化之前用外切核酸酶处理样品。外切核酸酶可促进单链DNA的降解。在一些实施方案中，方法还包括在用外切核酸酶处理样品之后和在片段化之前添加Mg²⁺。

在一些实施方案中，方法包括用蛋白酶K和/或SDS释放带标签的片段。

本方法可用于用衔接子使生成的片段的两端带标签。这可通过使用具有第一转座体复合物和第二转座体复合物的方法来实现。在一些实施方案中，该方法将不同标签掺入到通过片段化生成的片段的每一端上。在一些实施方案中，包含在第一转座体复合物和第二转座体复合物中的5'衔接子序列是不同的。

A.使用包含用重组酶包被的靶向寡核苷酸的靶向转座体复合物的方法

在一些实施方案中，方法使用包含用重组酶包被的靶向寡核苷酸的靶向转座体复合物。示例性实施方案在图9中示出。

在一些实施方案中，靶向生成靶核酸的带5'标签的片段的方法包括将包含双链核酸的样品和作为靶向转座体复合物的转座体复合物混合。在一些实施方案中，靶向转座体复合物包含用重组酶包被的靶向寡核苷酸。在一些实施方案中，通过重组酶启动核酸的链侵入。在一些实施方案中，在链侵入后，通过将第一转座子的3'端接合到片段的5'端以产生多个带5'标签的片段，通过转座酶将核酸片段化成多个片段。

在一些实施方案中，生成带标签的核酸片段的文库的方法包括将包含双链核酸的样品、作为包含用重组酶包被的靶向寡核苷酸的靶向转座体复合物的第一转座体复合物和第二转座体复合物混合，所述第二转座体复合物包含转座酶；第一转座子，包含3'转座子末端序列和5'衔接子序列；以及第二转座子，包含5'转座子末端序列，其中所述5'转座子末端序列与所述3'转座子末端序列互补；通过所述重组酶启动所述核酸的链侵入；以及通过将每个第一转座子的3'端接合到所述靶片段的5'端以产生由所述第一转座体复合物生成的多个第一带5'标签的靶片段和由所述第二转座体复合物生成的多个第二带5'标签的靶片段，通过所述转座酶将所述核酸片段化成多个片段。

在一些实施方案中，生成带标签的核酸片段的文库的方法包括将包含双链核酸的样品、作为包含用重组酶包被的靶向寡核苷酸的靶向转座体复合物的第一转座体复合物和作为包含用重组酶包被的靶向寡核苷酸的靶向转座体复合物的第二转座体复合物混合；通过所述重组酶启动所述核酸的链侵入；以及通过将每个第一转座子的3'端接合到所述靶片段的5'端以产生由所述第一转座体复合物生成的多个第一带5'标签的靶片段和由所述第二转座体复合物生成的多个第二带5'标签的靶片段，通过所述转座酶将所述核酸片段化成多个片段。

在一些实施方案中，包含在第一转座体复合物和第二转座体复合物中的5'衔接子序列是不同的。

在一些实施方案中，包含在第一转座体复合物和第二转座体复合物中的靶向寡核苷酸是不同的。在一些实施方案中，第一转座体复合物和第二转座体复合物的靶向寡核苷酸结合到靶核酸中给定的感兴趣区域中的不同的感兴趣序列。以这种方式，第一转座体复合物和第二转座体复合物可生成包含感兴趣的期望序列的片段。本领域技术人员可设计在感兴趣序列的末端处、附近或之外结合的靶向寡核苷酸以生成包含该感兴趣序列的片段。以这种方式，可以包含感兴趣序列的片段的增加的频率产生靶向文库。

在一些实施方案中，与第一转座体复合物相比，第二转座体复合物结合到双链核酸的相反链。

在一些实施方案中，在存在重组酶负载因子的情况下进行通过重组酶启动核酸的链侵入。在一些实施方案中，重组酶负载因子在片段化之前被移除或失活。

在一些实施方案中，启动链侵入经由置换环形成发生。

在一些实施方案中，在靶向寡核苷酸与一个或多个感兴趣的序列的结合位点的40、30、20、15、10或5个碱基内启动链侵入。换句话讲，链侵入可发生在靶向寡核苷酸的结合位点附近。

在一些实施方案中，该方法基于该方法期间的温度变化经由不同的步骤进行。在一些实施方案中，用于启动链侵入的温度不同于通过转座酶进行片段化的最佳温度。在一些实施方案中，用于启动链侵入的温度低于通过转座酶进行片段化的最佳温度。在一些实施方案中，在较低温度处启动链侵入促进基于在通过温度升高启动片段化之前用重组酶包被的靶向寡核苷酸的转座体复合物的适当靶向。这些温度变化可有助于促进靶向转座体复合物在片段化之前与靶核酸中的感兴趣的序列结合。

在一些实施方案中，启动链侵入在27℃至47℃处进行。在一些实施方案中，启动链侵入在32℃至42℃处进行。在一些实施方案中，启动链侵入在37℃处进行。

在一些实施方案中，片段化在45℃至65℃处进行。在一些实施方案中，片段化在50℃至60℃处进行。在一些实施方案中，片段化在55℃处进行。

在一些实施方案中，在反应溶液缺乏转座酶活性组分时进行启动链侵入。例如，在一些实施方案中，在启动侵入之后和片段化之前将转座酶的辅因子添加到转座体复合物中。在一些实施方案中，辅因子是Mg⁺⁺。在一些实施方案中，Mg⁺⁺浓度为10mM至18mM。

使用包含包被在重组酶中的靶向寡核苷酸的靶向转座体复合物的方法可增加在靶向寡核苷酸已结合靶核酸的位置附近发生片段化的可能性。在一些实施方案中，片段化在由靶向寡核苷酸结合的核酸序列中的一个或多个感兴趣的序列的40、30、20、15、10或5个碱基内发生。

B.使用靶向寡核苷酸与单链核酸杂交的方法

转座酶可介导双链核酸的转座和片段化。因此，经由靶向寡核苷酸与单链核酸(诸如单链DNA)的结合选择性生成双链核酸区域可用于生成带标签的片段的方法中。使用靶向寡核苷酸的示例性方法在图10中示出。

靶向生成核酸的带5'标签的片段的方法可包括使一个或多个靶向寡核苷酸与包含单链核酸的样品杂交。在一些实施方案中，可使双链靶核酸变性以生成单链核酸。在一些实施方案中，使双链DNA变性以生成单链DNA。在一些实施方案中，经由升高温度进行变性。在一些实施方案中，通过将温度升高至高于核酸的解链温度(T_m)使双链核酸变性。在一些实施方案中，将包含双链DNA的样品加热至高于70℃的温度以促进双链DNA变性成单链DNA。在一些实施方案中，用尿素和/或pH变化处理双链核酸以生成单链DNA。

在一些实施方案中，使一个或多个靶向寡核苷酸与包含单链核酸的样品杂交是通过降低包含单链核酸的样品的温度以允许一个或多个靶向寡核苷酸与单链核酸结合来进行的。

在一些实施方案中，一个或多个靶向寡核苷酸可各自结合到核酸中的感兴趣的序列。在一些实施方案中，靶向寡核苷酸与核酸中的感兴趣的序列完全或部分互补。

在一些实施方案中，一个或多个靶向寡核苷酸与单链核酸的杂交生成双链核酸区域。虽然转座酶不与单链核酸的区域结合，但转座酶可与通过靶向寡核苷酸与单链核酸杂交产生的双链区域结合。在一些实施方案中，使靶向寡核苷酸与包含单链核酸的样品杂交生成能够被片段化的双链核酸区域。

在一些实施方案中，方法包括在使一个或多个靶向寡核苷酸与样品杂交后施加转座体复合物。在一些实施方案中，转座体复合物包含转座酶；第一转座子，包含3'转座子末端序列和5'衔接子序列；以及第二转座子，包含5'转座子末端序列，其中所述5'转座子末端序列与所述3'转座子末端序列互补。在一些实施方案中，该方法然后包括通过将第一转座子的3'端接合到片段的5'端以产生多个带5'标签的片段，通过转座酶将核酸片段化成多个片段。

在一些实施方案中，使具有不同序列的两个或更多个靶向寡核苷酸杂交。在一些实施方案中，使用两个或更多个靶向寡核苷酸的方法可介导靶核酸中两个或更多个位点处的片段化。例如，两个或更多个靶向寡核苷酸可在靶核酸中的感兴趣的区域的末端处结合，使得片段化生成包含感兴趣的区域的片段。换句话讲，使用两个或更多个靶向寡核苷酸的方法可生成靶向文库。

在一些实施方案中，使单个靶向寡核苷酸的多个拷贝杂交。

在一些实施方案中，使仅一种类型的靶向寡核苷酸杂交。以这种方式，靶核酸在特定区域被片段化。在一些实施方案中，单个靶向寡核苷酸足够长以允许两个转座体复合物结合到通过使单个靶向寡核苷酸与包含单链核酸的样品杂交而生成的双链核酸。在一些实施方案中，单个靶向寡核苷酸包含80、90、100、110、120、130、140、150、160、170、180、190或200个碱基对。

在一些实施方案中，片段化在由一个或多个靶向寡核苷酸结合的核酸序列中的一个或多个感兴趣的序列内发生。

C.使用ShCAST的方法

在一些具体实施中，可使用ShCAST(贺氏伪枝藻属CRISPR相关转座酶)靶向文库制备和富集，如图16A和图16B中所概述。

在文库制备后使用单独的富集步骤对特定基因进行靶向测序可能是耗时的。例如，这种单独的富集步骤可涉及使寡核苷酸探针与文库DNA杂交，并在链霉抗生物素蛋白包被的小珠上分离杂交的DNA。尽管在效率和所需时间方面有显著的改进，但这种单独的富集方案可能花费约两小时，并且许多试剂可能使这种方案难以自动化。

相比之下，使用如本文所述的ShCAST的方法可用于制备和富集用于特定基因的靶向测序的文库，使用单一步骤进行制备和富集。

在一些实施方案中，第一靶向转座体复合物和/或第二靶向转座体复合物包含有包含ShCAST的靶向转座体复合物。

在一些实施方案中，gRNA和转座酶中的至少一者是生物素化的，组合物还包含生物素化的gRNA和转座酶中的至少一者与其偶联的链霉抗生物素蛋白包被的小珠。以这种方式，使用包含ShCAST的靶向转座体复合体生成的带标签的片段可固定在链霉抗生物素蛋白包被的小珠上。

在一些实施方案中，方法的一些或所有步骤在限制或抑制包含在ShCAST中的转座酶对核酸的非特异性结合的反应流体中进行。在一些实施方案中，限制或抑制包含在ShCAST中的转座酶的非特异性结合减少了由包含在ShCAST中的转座酶介导的脱靶转座反应。如果包含在ShCAST中的转座酶随机结合到核酸本身，而ShCAST通过结合到感兴趣的序列的gRNA靶向感兴趣的序列，则可发生这种脱靶转座。当脱靶切割减少时，大多数片段将由靶向转座体复合物介导的切割生成。以这种方式，大多数带标签的片段将由一个或多个感兴趣的基因座(包含可结合一个或多个gRNA的一个或多个感兴趣的序列)制备。此外，如果由两个靶向转座体复合物制备带标签的片段，则其将可能具有可被测序和/或扩增的大小。相比之下，当用于制备片段的一个或两个转座体复合物未被正确靶向时(例如，如果包含在ShCAST中的转座酶与核酸直接结合而不被gRNA靶向)，该片段将可能太大而不能扩增和/或测序。

在一些实施方案中，该方法在具有用于限制复合物直接与转座酶结合的条件的流体中进行。在一些实施方案中，限制复合物直接与转座酶结合的条件是15mM或更低的镁浓度和/或50nM或更低的Cas12K和/或转座酶的浓度。

在一些实施方案中，方法的不同步骤在不同的条件下进行。在一些实施方案中，复合物的结合在抑制转座酶与双链核酸结合的条件下进行。以这种方式，ShCAST直接通过转座酶与核酸的非靶向结合受到限制，并且大多数ShCAST将基于Cas12K与靶向核酸中的一个或多个感兴趣的序列的gRNA的缔合而与核酸结合。

在一些实施方案中，在结合之后，可修饰条件以促进包含在ShCAST中的转座酶的切割。在一些实施方案中，方法包括在抑制包含在复合物中的转座酶与双链核酸的结合的条件下将复合物结合到双链核酸；以及在结合之后，促进复合物对双链核酸的切割。

在一些实施方案中，转座酶在结合期间不存在或处于低浓度，并且促进切割包括添加转座酶。

在一些实施方案中，可活化转座酶包含在ShCAST中。如本文所用，“可活化转座酶”是可逆失活且可在稍后时间活化的转座酶。例如，可逆失活的转座酶可能缺乏用于适当切割核酸的组分，并且该组分可在方法的后续步骤期间添加。

在一些实施方案中，转座酶在结合期间可逆地失活，并且促进切割包括活化转座酶。

在一些实施方案中，转座酶由于缺乏一个或多个转座子而可逆地失活，并且活化转座酶包括提供一个或多个转座子。

在一些实施方案中，转座酶将扩增衔接子添加到双链核酸中的位置。如本文所用，“扩增衔接子”是可用于扩增的任何序列(诸如扩增引物的结合位点)。以这种方式，所生成的带标签的片段可被扩增而不需要掺入额外的扩增衔接子。在一些实施方案中，可在制备带标签的片段后将扩增衔接子添加到片段中(诸如连接扩增衔接子)。

D.包括结合配偶体配对的方法

当第一配对的结合配偶体结合到无催化活性的内切核酸酶或锌指DNA结合结构域并且第二结合配偶体结合到转座酶时，可生成高分辨率测序文库。

包括结合配偶体配对的方法可类似于CUT&Tag方法(参见Kaya-Okur等人,NatureCommunications 10:1930(2019))。在此类方法中，将包含第一结合配偶体的无催化活性的内切核酸酶或锌指DNA结合结构域结合到靶核酸。在一些实施方案中，在该结合之后洗涤反应物。然后，添加包含第二结合配偶体的转座酶。基于第二结合配偶体对第一结合配偶体的亲和力，转座酶将定位于无催化活性的内切核酸酶或锌指DNA结合结构域。这些方法允许转座酶与已经被无催化活性的内切核酸酶或锌指DNA结合结构域结合的位点结合。

在一些实施方案中，方法在限制无催化活性的内切核酸酶或锌指DNA结合结构域的结合的条件下进行。这些条件可限制脱靶转座酶结合。在一些实施方案中，低浓度的镁或低浓度的无催化活性的内切核酸酶或锌指DNA结合用于减少脱靶转座酶结合。在一些实施方案中，降低由脱靶结合生成可扩增的PCR产物的可能性。在一些实施方案中，有限的脱靶转座酶结合意指随机(即，非靶向)转座酶结合以低频率发生并且通常导致片段太大而不能被扩增和/或测序。相比之下，可设计靶向转座体复合物的使用来制备用于扩增和/或测序的适当大小的片段。

如本文所用，第一结合配偶体和第二结合配偶体可称为“标签”。在一些实施方案中，第一标签与第一Cas-gRNA核蛋白(RNP，其包含Cas和该gRNA)偶联，并且第二标签与第二Cas-gRNA RNP偶联。在一些示例中，该方法包括将第一标签偶联至与底物偶联的第一标签配偶体，并且将第二标签偶联至与底物偶联的第二标签配偶体。在一些示例中，在第一和第二Cas-gRNA RNP分别与第一亚序列和第二亚序列杂交之后进行偶联。在一些示例中，在将第一标签和第二标签分别添加到第一标签配偶体和第二标签配偶体中之后添加第一和扩增衔接子。

在一些示例中，第一标签和第二标签包括生物素。在一些示例中，第一标签配偶体和第二标签配偶体包括链霉抗生物素蛋白。在一些示例中，底物包括小珠。在一些示例中，Cas-gRNA RNP包含Cas12k。在一些示例中，转座酶包含Tn5或Tn7样转座酶。

在一些实施方案中，将包含双链核酸的样品与一种或多种靶向的转座体复合物混合包括将样品与锌指DNA结合结构域或无催化活性的内切核酸酶混合，其中锌指DNA结合结构域或无催化活性的内切核酸酶结合到第一结合配偶体，以及添加转座酶以及第一转座子和第二转座子，其中转座酶结合到第二结合配偶体，其中转座酶能够通过第一结合配偶体和第二结合配偶体的配对结合到锌指DNA结合结构域或无催化活性的内切核酸酶。

在一些实施方案中，该方法包括在混合之后和在添加之前洗涤。在一些实施方案中，无细胞DNA在与锌指DNA结合结构域混合之前不用蛋白酶处理。

E.用两个靶向转座体复合物生成靶向片段的方法

在一些实施方案中，可在任何合适的位置对处切割多核苷酸(诸如靶核酸)以形成片段。在使用本文公开的方法形成片段后，可将任何合适的扩增引物偶联至所得的片段末端。然后可对片段进行扩增和测序。

在使用均被靶向的第一转座体复合物和第二转座体复合物的方法中，复合物可设计成产生特定的期望片段。在一些实施方案中，使用均被靶向的第一转座体复合物和第二转座体复合物的方法可生成靶向或富集的文库。这些靶向或富集的文库可包含更高百分比的包含富集靶区域的文库片段。该富集靶区域可以是例如用于测序的感兴趣的基因。

在一些实施方案中，靶向的第一转座体复合物和靶向的第二转座子复合物结合到双链核酸的相反链，其中第一转座体复合物结合到第一转座体复合物结合位点，并且其中第二转座体复合物结合到第二转座体复合物结合位点。在一些实施方案中，第一带5'标签的靶片段和第二带5'标签的靶片段包含在第一转座体复合物结合位点和第二转座体复合物结合位点之间的双链核酸的区域中包含的核酸序列。在一些实施方案中，第一带5'标签的靶片段和第二带5'标签的片段至少部分互补。

在一些实施方案中，包含在作为靶向转座体复合物的第一转座体复合物和作为靶向转座体复合物的第二转座体复合物中的无催化活性的内切核酸酶或锌指DNA结合结构域是不同的。图11中示出了使用包含无催化活性的内切核酸酶的两个靶向转座体复合物的代表性方法。

在一些实施方案中，作为靶向转座体复合物的第一转座体复合物和作为靶向转座体复合物的第二转座体复合物的无催化活性的内切核酸酶或锌指DNA结合结构域结合到靶核酸中给定感兴趣区域中的不同感兴趣序列。

F.样本和靶核酸

在一些实施方案中，样本包含靶核酸。在一些实施方案中，样本包含DNA。在一些实施方案中，DNA是基因组DNA。在一些实施方案中，靶核酸是双链DNA。

在一些实施方案中，靶核酸是单链DNA。虽然单链DNA不能被转座酶片段化，但本文所述的方法描述了产生双链DNA区域的方法，诸如通过将靶向寡核苷酸与单链DNA杂交。

生物样本可以是包含核酸的任何类型。例如，样本可包括处于纯化的多种状态的核酸，包括经纯化的核酸。然而，样本不需要完全纯化，并且可以包含例如与蛋白质、其他核酸物质、其他细胞组分和/或任何其他污染物混合的核酸。在一些实施方案中，生物样本包括以与体内发现的比例大致相同的比例存在的核酸、蛋白质、其他核酸物质、其他细胞组分和/或任何其他污染物的混合物。例如，在一些实施方案中，这些组分以与完整细胞中发现的相同比例存在。在一些实施方案中，生物样本具有小于或等于2.0、1.9、1.8、1.7、1.6、1.5、1.4、1.3、1.2、1.1、1.0、0.9、0.8、0.7或0.60的260/280吸光度比率。在一些实施方案中，生物样本具有至少2.0、1.9、1.8、1.7、1.6、1.5、1.4、1.3、1.2、1.1、1.0、0.9、0.8、0.7或0.60的260/280吸光度比率。因为本文所提供的方法允许核酸与固体载体结合，所以能够在表面结合的标签化发生后仅通过洗涤固体载体来移除其他污染物。生物样本可包括例如粗制细胞裂解物或全细胞。例如，在本文示出的方法中施加于固体载体的粗制细胞裂解物不需要经受传统上用于从其他细胞组分分离核酸的一个或多个分离步骤。示例性分离步骤在Maniatis等人，Molecular Cloning:A Laboratory Manual，第2版，1989年和ShortProtocols in Molecular Biology，Ausubel等人编辑中示出，这些文献据此以引用方式并入。

在一些实施方案中，施加到固体载体上的样本具有小于或等于1.7的260/280吸光度比率。

因此，在一些实施方案中，生物样本可以包括例如血液、血浆、血清、淋巴液、粘液、痰液、尿液、精液、脑脊液、支气管抽吸液、粪便和浸软组织或其裂解物，或者任何其他包含核酸的生物标本。

在一些实施方案中，样本是血液。在一些实施方案中，样本是细胞裂解物。在一些实施方案中，细胞裂解物是粗细胞裂解物。在一些实施方案中，该方法还包括在将样本施加到固体载体后裂解样本中的细胞以产生细胞裂解物。

在一些实施方案中，样本是活检样本。在一些实施方案中，活检样本是液体或固体样本。在一些实施方案中，来自癌症患者的活检样本用于评估感兴趣的序列以确定受试者在预测基因中是否具有某些突变或变体。

本文提出的方法和组合物的一个优点是，可以将生物样本添加到流通池中，并且随后的裂解和纯化步骤可以都在流通池中进行，而无需进一步的转移或处理步骤，仅需通过使必要的试剂流入流通池中。

在一些实施方案中，可将保护性元件掺入多核苷酸(诸如靶核酸或通过标签化生成的双链片段)中。例如，在本文所述的任何方法中，可在标签化之前将保护性元件添加到靶核酸中或在标签化之后添加到双链核酸片段中。如本文所用，术语“保护性元件”当用于指多核苷酸的5'或3'端时，旨在意指抑制多核苷酸的该端的修饰的元件。说明性地，保护性元件可抑制一种或多种酶对多核苷酸的该端的作用，诸如5'或3'外切核酸酶的作用。保护性元件的非限制性示例包括连接至双链多核苷酸末端的5'和3'链的发夹序列、修饰的碱基(例如，包括硫代磷酸酯键或3'磷酸酯)或去磷酸化的碱基。

G.间隙填充连接

在一些实施方案中，转座事件后留下的DNA序列中的间隙也可使用链置换延伸反应来填充，这种反应包含Bst DNA聚合酶和dNTP混合物。在一些实施方案中，使用延伸-连接混合缓冲液进行间隙填充连接。

在一些实施方案中，方法包括用聚合酶和连接酶处理多个带5'标签的片段以延伸和连接链，以产生完全双链带标签的片段。

然后可任选地扩增(诸如用簇扩增)双链DNA片段文库并用测序引物测序。

H.扩增

本公开还涉及对根据本文提供的方法产生的带标签的片段进行扩增。在一些实施方案中，在固体载体上扩增固定的带标签的片段。在一些实施方案中，固体载体与在其上发生表面结合的标签化的固体载体相同。在此类实施方案中，本文提供的方法和组合物允许在来自初始样本引入步骤的相同固体载体上通过扩增且任选地通过测序步骤进行样本制备。

例如，在一些实施方案中，使用簇扩增方法扩增固定的带标签的片段，如美国专利7,985,565和7,115,400的公开内容所例示，这些专利中的每一篇的内容以引用方式全文并入本文。美国专利7,985,565和7,115,400的并入材料描述了固相核酸扩增的方法，这些方法允许扩增产物固定在固体载体上以便形成由固定核酸分子的簇或“集群”构成的阵列。此类阵列上的每个簇或集群由多个相同的固定多核苷酸链和多个相同的固定互补多核苷酸链形成。如此形成的阵列在本文中通常被称为“簇阵列”。固相扩增反应的产物(诸如美国专利7,985,565和7,115,400中描述的那些)是所谓的“桥接”结构，这些结构通过对成对的固定多核苷酸链和固定互补链(两条链在一些实施方案中经由共价附接在5'端固定在固体载体上)进行退火形成。簇扩增方法是其中固定核酸模板用于产生固定扩增子的方法的示例。也可使用其他合适的方法由根据本文提供的方法产生的固定化DNA片段产生固定化扩增子。例如，无论每对扩增引物中的一个或两个引物是否被固定，都可以经由固相PCR形成一个或多个簇或集群。

在其他实施方案中，在溶液中扩增带标签的片段。例如，在一些实施方案中，带标签的片段被裂解或以其他方式从固体载体释放，然后扩增引物在溶液中与释放的分子杂交。在其他实施方案中，扩增引物与带标签的片段杂交以进行一个或多个初始扩增步骤，然后在溶液中进行后续扩增步骤。在一些实施方案中，固定核酸模板可以用于产生溶液相扩增子。

应当理解，本文所述的或本领域通常已知的扩增方法中的任一种方法可与通用引物或靶标特异性引物一起用于扩增带标签的片段。合适的扩增方法包括但不限于聚合酶链反应(PCR)、链置换扩增(SDA)、转录介导的扩增(TMA)和基于核酸序列的扩增(NASBA)，如美国专利第8,003,354号中所述，该专利全文以引用方式并入本文。上述扩增方法可用于扩增一种或多种感兴趣核酸。例如，可利用PCR(包括多重PCR)、SDA、TMA、NASBA等扩增固定DNA片段。在一些实施方案中，在扩增反应中包括特异性针对感兴趣核酸的引物。

其他合适的核酸扩增方法可包括寡核苷酸延伸和连接、滚环扩增(RCA)(Lizardi等人，Nat.Genet.19:225-232(1998)，该文献以引用方式并入本文)和寡核苷酸连接测定(OLA)(通常参见美国专利7,582,420、5,185,243、5,679,524和5,573,907，EP 0 320 308B1，EP 0 336 731 B1，EP 0 439 182B1，WO 90/01069，WO 89/12696和WO 89/09835，所有这些专利以引用方式并入)技术。应当理解，这些扩增方法可被设计成用于扩增固定DNA片段。例如，在一些实施方案中，扩增方法可包括连接探针扩增或含有特异性针对感兴趣核酸的引物的寡核苷酸连接测定(OLA)反应。在一些实施方案中，扩增方法可包括引物延伸-连接反应，该引物延伸-连接反应包含特异性针对感兴趣核酸的引物。作为可被特别设计用于扩增感兴趣的核酸的引物延伸和连接引物的非限制性示例，扩增可包括用于GoldenGate测定(Illumina,Inc.,San Diego,CA)的引物，如美国专利第7,582,420号和第7,611,869号所示例，这两篇专利中的每一篇专利全文均以引用方式并入本文。

在本公开的方法中可使用的示例性等温扩增方法包括但不限于由例如Dean等人，Proc.Natl.Acad.Sci.USA 99:5261-66(2002)所示例的多重置换扩增(MDA)，或由例如美国专利第6,214,587号所示例的等温链置换核酸扩增，这两篇文献中的每篇文献全文以引用方式并入本文。可用于本公开的其他非基于PCR的方法包括：例如链置换扩增(SDA)，其描述于例如Walker等人，Molecular Methods for Virus Detection,Academic Press,Inc.,1995年；美国专利5,455,166和5,130,238，以及Walker等人，Nucl.Acids Res，第20卷：第1691-1696页(1992年)；或超支化链置换扩增，其描述于例如Lage等人，Genome Research，第13卷，第294-307页(2003年)中，这些文献中的每篇文献均全文以引用方式并入本文。等温扩增方法可与链置换Phi 29聚合酶或Bst DNA聚合酶大片段

5'→3'exo-一起用于基因组DNA的随机引物扩增。这些聚合酶的使用利用了它们的高持续合成能力和链置换活性。高持续合成能力允许聚合酶产生长度为10kb-20kb的片段。如上所述，可使用具有低持续合成能力和链置换活性的聚合酶(诸如Klenow聚合酶)在等温条件下产生较小的片段。对扩增反应、条件和组分的附加描述在美国专利7,670,810的公开内容中详细阐述，该专利以引用方式全文并入本文。

可用于本公开的另一种核酸扩增方法是带标签的PCR，其使用具有恒定5'区，接着是随机3'区的二结构域引物的群体，如例如Grothues等人，Nucleic Acids Res，第21卷第5期：第1321-1322页(1993年)中所述，该专利全文以引用方式并入本文。基于来自随机合成的3'区的单独杂交，进行第一轮扩增以允许大量启动热变性的DNA。由于3'区的性质，设想启动位点在整个基因组中是随机的。然后，可移除未结合的引物，并且可使用与恒定5'区互补的引物进行进一步的复制。

I.测序和重新测序

可使用多种不同的方法进行初始测序(和潜在的重新测序)。

本公开还涉及对根据本文提供的方法产生的带标签的片段进行测序。在一些实施方案中，方法包括对带5'标签的片段或完全双链带标签的片段中的一者或多者进行测序。

可根据任何合适的测序方法对通过转座体介导的标签化产生的带标签的片段进行测序，这些测序方法诸如直接测序，包括边合成边测序、边连接边测序、杂交测序、纳米孔测序等。在一些实施方案中，在固体载体上对带标签的片段进行测序。在一些实施方案中，用于测序的固体载体与在其上发生表面结合的标签化的固体载体相同。在一些实施方案中，用于测序的固体载体与在其上发生扩增的固体载体相同。

一种示例性测序方法是边合成边测序(SBS)。在SBS中，监测核酸引物沿核酸模板(例如，靶核酸或其扩增子)的延伸，以确定模板中核苷酸的序列。基础化学过程可以是聚合(例如，由聚合酶催化)。在特定的基于聚合酶的SBS实施方案中，以模板依赖性方式将荧光标记的核苷酸添加到引物(从而使引物延伸)，使得对添加到引物中的核苷酸的顺序和类型的检测可以用于确定模板的序列。

流通池为容纳通过本公开的方法产生的扩增DNA片段提供了方便的固体载体。可以使这种格式的一种或多种扩增DNA片段经受SBS或涉及在循环中重复递送试剂的其他检测技术。例如，为了启动第一SBS循环，一个或多个标记的核苷酸、DNA聚合酶等可流入/通过容纳一个或多个扩增核酸分子的流通池。可以检测其中引物延伸引起标记核苷酸掺入的那些位点。任选地，核苷酸还可以包括一旦将核苷酸添加到引物就终止进一步的引物延伸的可逆终止属性。例如，可以将具有可逆终止子部分的核苷酸类似物添加到引物，使得后续的延伸直到递送解封闭剂以去除该部分才发生。因此，对于使用可逆终止的实施方案，可以将解封闭试剂递送到流通池(在检测发生之前或之后)。洗涤可以在各个递送步骤之间进行。然后可以重复该循环n次以使引物延伸n个核苷酸，从而检测长度为n的序列。可以容易地适于与通过本公开的方法产生的扩增子一起使用的示例性SBS程序、流体系统和检测平台在例如以下文献中描述：Bentley等人，Nature 456:53-59(2008)、WO 04/018497、US 7,057,026、WO 91/06678、WO 07/123744、US 7,329,492、US 7,211,414、US 7,315,019、US 7,405,281和US 2008/0108082，这些文献中的每一篇均以引用方式并入本文。

可以使用利用循环反应的其他测序程序，诸如焦磷酸测序。焦磷酸测序检测当特定核苷酸掺入新生核酸链中时无机焦磷酸盐(PPi)的释放(Ronaghi等人，AnalyticalBiochemistry 242(1),84-9(1996)；Ronaghi,Genome Res.第11卷第1期，第3-11页(2001年)；Ronaghi等人，Science，第281卷第5375期，第363页(1998年)；US 6,210,891、US 6,258,568和US 6,274,320，这些文献中的每一篇均以引用方式并入本文。在焦磷酸测序中，所释放的PPi可通过ATP硫酸化酶立即转化成三磷酸腺苷(ATP)来检测，并且所产生ATP的水平可经由荧光素酶产生的光子来检测。因此，可经由发光检测系统来监测测序反应。用于基于荧光的检测系统的激发辐射源不是焦磷酸测序程序所必需的。可适于对根据本公开产生的扩增子应用焦磷酸测序的可用流体系统、检测器和程序在例如WIPO专利申请公布WO2012058096、US 2005/0191698 A1、US 7,595,883和US 7,244,559中描述，这些文献中的每一篇均以引用方式并入本文。

一些实施方案可利用涉及DNA聚合酶活性的实时监测的方法。例如，可以通过带有荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用或者利用零模式波导(ZMW)来检测核苷酸掺入。用于基于FRET的测序的技术和试剂在例如以下文献中描述：Levene等人，Science，299，682–686(2003)；Lundquist等人，Opt.Lett.33,1026–1028(2008)；Korlach等人，Proc.Natl.Acad.Sci.USA 105,1176–1181(2008)，这些文献的公开内容以引用方式并入本文。

一些SBS实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如，基于释放质子的检测的测序可使用可从Ion Torrent公司(Guilford,CT，它是Life Technologies子公司)商购获得的电检测器和相关技术或在US 2009/0026082A1、US 2009/0127589A1、US2010/0137143A1或US 2010/0282617A1中所述的测序方法和系统，这些文献中的每一篇均以引用方式并入本文。本文阐述的使用动力学排阻来扩增靶核酸的方法可以容易地应用于用于检测质子的基板。更具体地，本文阐述的方法可以用于产生用于检测质子的扩增子克隆群体。

另一种有用的测序技术是纳米孔测序(参见例如Deamer等人，TrendsBiotechnol.18,147–151(2000)；Deamer等人，Acc.Chem.Res.35:817-825(2002)；Li等人，Nat.Mater.2:611-615(2003)，这些文献的公开内容以引用方式并入本文)。在一些纳米孔实施方案中，靶核酸或从靶核酸除去的单独核苷酸穿过纳米孔。当核酸或核苷酸穿过纳米孔时，可通过测量孔的电导率的波动来识别每种核苷酸类型。(美国专利7,001,792；Soni等人，Clin.Chem.53,1996–2001(2007)；Healy,Nanomed.2,459–481(2007)；Cockroft等人，J.Am.Chem.Soc.130,818–820(2008)，这些文献的公开内容以引用方式并入本文)。

可应用于根据本公开的检测的基于阵列的表达和基因分型分析的示例性方法描述于以下文献中：美国专利7,582,420、6,890,741、6,913,884或6,355,431或者美国专利公布2005/0053980A1、2009/0186349A1或US 2005/0181440A1，这些文献中的每一篇均以引用方式并入本文。

本文阐述的方法的优点是它们并行提供了对多个靶核酸的快速且有效检测。因此，本公开提供了能够使用本领域已知的技术(诸如上文所例示的那些)来制备和检测核酸的整合系统。因此，本公开的整合系统可以包括能够将扩增试剂和/或测序试剂递送到一个或多个固定DNA片段的流体部件，该系统包括诸如泵、阀、贮存器、流体管线等的部件。流通池在整合系统中可以被配置用于和/或用于检测靶核酸。示例性流通池描述于例如US2010/0111768A1和美国专利公布2012/0270305A1中，这些文献中的每一篇均以引用方式并入本文。如针对流通池所例示的，整合系统的一个或多个流体部件可以用于扩增方法和检测方法。以核酸测序实施方案为例，整合系统的一个或多个流体部件可以用于本文阐述的扩增方法以及用于在测序方法(诸如上文例示的那些)中递送测序试剂。另选地，整合系统可包括单独的流体系统以执行扩增方法并执行检测方法。能够产生扩增核酸并且还确定核酸序列的整合测序系统的示例包括但不限于MiSeqTM平台(Illumina,Inc.,San Diego,CA)以及美国专利公布2012/0270305中所述的设备，该专利公布以引用方式并入本文。

J.在对靶核酸进行测序时保留邻接信息

在一些实施方案中，基于靶向寡核苷酸保留邻接信息。

在一些实施方案中，在对靶核酸进行测序时保留邻接信息的方法包括用包含靶向转座体复合物的方法产生靶核酸的带标签的片段，所述靶向转座体复合物包含用重组酶包被的靶向寡核苷酸；对所述带5'标签的片段或完全双链带标签的片段进行测序以提供所述片段的序列；将包含相同靶向寡核苷酸的所述序列的片段的序列分组；以及如果一组序列包含相同靶向寡核苷酸的所述序列，则确定它们在所述靶核酸内是接近的。

还可基于包含独特分子标识符(UMI)序列的衔接子序列来保留邻接信息。在一些实施方案中，在对靶核酸进行测序时保留邻接信息的方法包括使用包含用重组酶包被的靶向寡核苷酸的靶向转座体复合物产生靶核酸的带标签的片段，其中一个或多个衔接子序列包含与单个靶向寡核苷酸序列缔合的独特分子标识符(UMI)；对所述带5'标签的片段或完全双链带标签的片段进行测序以提供所述片段的序列；将包含相同UMI的所述序列的片段的序列分组；以及如果一组序列包含相同UMI的所述序列，则确定它们在所述靶核酸内是接近的。

靶向转座体也可用于生成固定多核苷酸的物理图谱的方法中。可以有利地利用这些方法来鉴定可能包含连接序列(即，来自相同靶多核苷酸分子的第一部分和第二部分)的簇。因此，由固定多核苷酸产生的任何两个簇的相对接近度提供了可用于比对从两个簇获得的序列信息的信息。具体地，固体表面上任何两个给定簇之间的距离与两个簇来自相同靶多核苷酸分子的概率正相关，如WO 2012/025250中更详细地描述，该文献以引用方式全文并入本文。

例如，在一些实施方案中，在流通池的表面上伸展的长DNA分子原位被标签化，从而在流通池的表面上形成一条连接的DNA桥。此外，固定DNA的物理图谱。因此，在扩增固定DNA之后，物理图谱与簇的物理关系相关。具体地，物理图谱用于计算从任何两个簇获得的序列数据被连接的概率，如WO 2012/025250的并入材料中所述。

在一些实施方案中，通过对DNA进行成像以确定固定DNA分子在整个固体表面上的位置来生成物理图谱。在一些实施方案中，通过将成像剂添加到固体载体并检测来自成像剂的信号来对固定DNA进行成像。在一些实施方案中，成像剂是可检测标记。合适的可检测标记包括但不限于质子、半抗原、放射性核素、酶、荧光标记、化学发光标记和/或显色剂。例如，在一些实施方案中，成像剂是嵌入染料或非嵌入DNA结合剂。可以使用如本领域中已知的任何合适的嵌入染料或非嵌入DNA结合剂，包括但不限于U.S.2012/0282617中阐述的那些，该文献以引用方式全文并入本文。

在一些实施方案中，在链交换和簇生成之前，进一步片段化固定DNA双链体以释放自由端。裂解桥接结构可以使用本领域已知的任何合适的方法来执行，如WO 2012/025250的并入材料所例示。例如，裂解可以如WO 2012/025250中所述通过掺入经修饰的核苷酸(诸如尿嘧啶)、通过掺入限制性内切核酸酶位点或通过将溶液相转座体复合物施加到桥接DNA结构而发生，如本文其他地方所述。

在某些实施方案中，多个核酸流到包括多个纳米通道的流通池上，该纳米通道具有固定到其上的多个转座体复合物。如本文所用，术语纳米通道是指长线性核酸分子流入其中的窄通道。在一些实施方案中，靶DNA的不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900个或不超过1000条单个长链流入每个纳米通道中。在一些实施方案中，单个纳米通道被物理屏障隔开，该物理屏障防止靶DNA的单个长链与多个纳米通道相互作用。在一些实施方案中，固体载体包含至少10、50、100、200、500、1000、3000、5000、10000、30000、50000、80000个或100000个纳米通道。在一些实施方案中，结合到纳米通道表面的转座体使DNA带标签。然后可以例如通过沿这些通道中的一个的长度向下跟随簇来执行连续性标测。在一些实施方案中，靶DNA的长链的长度可以为至少0.1kb、1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kb、55kb、60kb、65kb、70kb、75kb、80kb、85kb、90kb、95kb、100kb、150kb、200kb、250kb、300kb、350kb、400kb、450kb、500kb、550kb、600kb、650kb、700kb、750kb、800kb、850kb、900kb、950kb、1000kb、5000kb、10000kb、20000kb、30000kb或50000kb。在一些实施方案中，靶DNA的长链的长度不超过0.1kb、1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kb、55kb、60kb、65kb、70kb、75kb、80kb、85kb、90kb、95kb、100kb、150kb、200kb、250kb、300kb、350kb、400kb、450kb、500kb、550kb、600kb、650kb、700kb、750kb、800kb、850kb、900kb、950kb或不超过1000kb。例如，具有1000个或更多个纳米通道且在纳米通道中具有标测的固定标签化产物的流通池可以用于对具有短“定位”读段的生物体的基因组进行测序。在一些实施方案中，纳米通道中标测的固定标签化产物可以用于解析单倍型。在一些实施方案中，纳米通道中标测的固定标签化产物可以用于解决定相问题。

IV.使用靶向转座体复合物与包含无细胞DNA的样品的方法

本文所述的靶向转座体可用于简化的文库制备和富集方案中的靶向转座。在一些实施方案中，与现有方案相比，简化方案需要更少的时间或用户步骤。在一些实施方案中，一个或多个感兴趣的核酸序列包含在与组蛋白缔合的DNA中。在一些实施方案中，与组蛋白缔合的DNA是无细胞DNA。

在一些实施方案中，简化的文库制备和富集方案用于无细胞DNA(cfDNA)，诸如图15中所示的示例性方法。用于cfDNA的现有文库制备通常涉及几个步骤：从血浆中提取cfDNA(30分钟)、末端修复(30分钟)、A-加尾(30分钟)、非随机独特分子标识符(UMI)的连接(30分钟)、衔接子的连接(30分钟)，和SPRI清除，随后PCR扩增(～30分钟)。标准方法中从血浆中提取cfDNA可包括蛋白酶步骤(例如蛋白酶K，如提供VeriSeq NIPT方案的Illumina文件#1000000001856v06(2020年4月)中所述)。基于这些步骤，cfDNA文库制备是耗时且低效的过程，其对于自动化具有挑战性。

已知血浆中的无细胞DNA(cfDNA)与组蛋白缔合存在(参见Marshman等人,CellDeath and Disease(2016)7,e2518以及Rumore和Steinman J.Clin Inv.86:69-74(1990))。直接在血浆样品中进行标签化的关键挑战是从cfDNA中除去组蛋白。除去组蛋白的方法可涉及蛋白酶步骤，其中该蛋白酶也可降解标签化中涉及的蛋白质。例如，在VeriSeq非侵入性产前测试(NIPT)方法(Illumina)中从血浆中提取cfDNA包括蛋白酶步骤(蛋白酶K，如VeriSeq NIPT溶液包装说明书中所述，Illumina文件#1000000001856v06(2020年4月))，随后在文库制备之前进行多个洗涤步骤。将转座体靶向感兴趣的特定序列(诸如基因组内的基因)，而不需要除去组蛋白，可以显著简化使用包含cfDNA的样品的工作流程。

锌指DNA结合结构域可将锌指核酸酶靶向基因组的特定区域以进行编辑(参见Costa等人,Genome Editing Using Engineered Nucleases and Their Use in GenomicScreening,PMID:29165977，在测定指导手册中(Markossian等人编)(2017年))。特别地，ZFN保留了有效切割结合到组蛋白的DNA的能力，而当DNA结合到组蛋白时，Cas9核酸酶被强烈抑制(参见Yarringon等人,PNAS 115(38):9351-9358(2018))。

在一些实施方案中，结合到组蛋白的DNA可包含在核小体中。如本文所用，“核小体”是指由缠绕在八个组蛋白周围的DNA片段组成的结构。在一些实施方案中，结合到组蛋白的DNA是无细胞DNA。示例性无细胞DNA可以是包含在来自孕妇(其中cfDNA可来自胎儿)或患有已知或疑似癌症的患者(其中cfDNA可来自肿瘤细胞)的血液样品中的cfDNA。

在一些实施方案中，靶向转座体通过锌指DNA结合结构域靶向cfDNA中的一个或多个区域。在一些实施方案中，使用包含锌指DNA结合结构域的靶向转座体对组蛋白结合的DNA(诸如cfDNA)进行标签化。

在一些实施方案中，该方法还包括在片段化之后将亲和力结合配偶体添加在固体载体上，其中带标签的靶片段结合到固体载体。在一些实施方案中，在将亲和力元件添加在固体载体上之前停止片段化。在一些实施方案中，通过添加包含蛋白酶K和/或SDS的溶液来停止片段化。

例如，包含锌指DNA结合结构域的转座体复合物可靶向cfDNA内的感兴趣的特定序列，如图15中所示。在一些实施方案中，包含在靶向转座体中的锌指DNA结合结构域可与包含在癌基因内或附近的序列结合，以从来自癌症患者的样品内的cfDNA生成靶向文库，从而评估在cfDNA中是否存在功能获得性突变。另选地，包含在靶向转座体中的锌指DNA结合结构域可与包含在肿瘤抑制基因内或附近的序列结合，以从cfDNA生成特定文库，从而评估在cfDNA中是否存在功能丧失突变(即，活化突变)。以这种方式，这种靶向转座子可用于生成用于评估与更具侵袭性的肿瘤相关或与较差预后相关的癌细胞的变化的靶向文库。

类似地，来自cfDNA的靶向文库可用于评估与遗传疾病相关的特定基因序列。这些遗传疾病可以是由基因序列的已知改变引起的已知可遗传疾病，例如泰-萨克斯病(Tay-Sachs disease)、囊性纤维化和本领域技术人员更熟知的疾病。在一些实施方案中，包含在靶向转座体中的锌指DNA结合结构域可结合到包含在与可遗传疾病相关的基因内或附近的序列以生成靶向文库。在一些实施方案中，靶向文库可用于使用包含来自胎儿的cfDNA的母体血浆对产前测试中的SNP或其他突变的感兴趣的基因的区域进行测序。

V.单细胞核酸的分选和选择方法

本文描述了利用sc-NGS(单细胞下一代测序)方法结合核酸选择技术以实现基于“组学”特征部的细胞分选的方法。该方法可涉及靶向独特的细胞条形码以富集或耗尽sc-文库成员。包括两个测序步骤工作流程的本工作流程提供了易处理的方法，其中初始测序运行创建细胞数据库，该细胞数据库用于决定在选择期望的细胞后的第二更全面的测序运行中哪些细胞获得额外的‘组学’数据。图3提供了这种分选和选择方法的概述，其中最初的16s测序用于确定感兴趣的细胞条形码ID，随后富集期望样品或耗尽不需要的样品。富集/耗尽后，期望样品可进行全面测序。

在一些实施方案中，细胞选择通过基于它们指定的UBC从sc-文库中耗尽不需要的样品(诸如低感兴趣的丰富细胞)来实现。该耗尽后的二次测序可表征从期望样品(即文库中可能罕见的感兴趣的细胞)生成的DNA文库。在一些实施方案中，通过使用来自sc-文库的指定UBC富集期望样品来实现细胞选择。这些期望样品在样品中可以是稀有的或低丰度的。

VI.表征样品混合池中的期望样品的方法

本文描述了一种表征包含期望样品和不需要的样品两者的样品混合池中的期望样品的方法。在一些实施方案中，该方法包括最初对包含来自样品混合池的多个核酸样品的文库进行测序以从双链核酸产生测序数据。在一些实施方案中，每个核酸文库包含来自单个样品的核酸和独特样品条形码以将来自单个样品的核酸与来自文库中其他样品的核酸区分开。

基于与具有期望基因组特征(其中期望基因组特征可以是特定基因突变的存在、给定基因的甲基化状态等)的细胞相关的条形码，本方法可以是表征给定群体内单细胞的节省成本的方法。该期望基因组特征可从初始测序中确定，该初始测序之后是选择步骤，然后重新测序以提供关于感兴趣的单细胞的进一步信息。掺入条形码的代表性方法在图5和图6中给出。

在一些实施方案中，该方法还包括分析测序数据并鉴定与来自期望样品的测序数据相关联的独特样品条形码；对所述文库进行选择步骤，包括从期望样品富集核酸样品以及/或者从不需要的样品耗尽核酸样品；以及对所述核酸文库进行重新测序。

在一些实施方案中，重新测序是正交重新测序。如本文所用，“正交重新测序”是指分析与初始测序相比不同的生理特征的重新测序。例如，初始测序可评估甲基化状态，并且重新测序可以是具有期望的甲基化模式的细胞的全面基因组宽测序。换句话讲，初始测序和重新测序可评估样品混合池的相同特征，但初始测序和重新测序也可评估期望样品的不同特征。

本方法的优点是可以避免通常可用于在期望样品上生成测序数据的某些步骤。换句话讲，本方法可以比其他方法更快或更容易，或者可以避免可能使结果产生偏差的步骤。在一些实施方案中，该方法不采用基于细胞分选的富集方法。在一些实施方案中，该方法不采用FACS。在一些实施方案中，该方法不采用基于细胞大小、形态或表面蛋白表达的FACS。在一些实施方案中，该方法不采用微流体。在一些实施方案中，该方法不采用全基因组扩增。在本方法中避免这些步骤可减少对期望样品生成全面测序数据所需的时间和成本。此外，避免这些步骤可以避免来自某些方法(诸如依赖于表面蛋白表达以用FACS方法学分选细胞)的偏差。

此外，本发明的测序和分析方法可使用测序系统进行，也不需要FACS机器等。

在一些实施方案中，初始测序结果可用于指导选择步骤，而无需预先通过分选步骤偏置初始测序。使用本方法，本领域技术人员可通过对感兴趣的性状进行初始测序来分选多个单细胞文库，并使用这些初始序列结果来确定哪些细胞是期望的细胞，然后选择期望的细胞并重新测序。

本方法的其他优点将在本文中描述。

A.文库的制备

这些方法的初始测序步骤可以是生成包含来自样品混合池的多个核酸样品的文库的任何方法。在一些实施方案中，文库是单细胞文库(sc-文库)。如本文所用，“单细胞文库”或“sc-文库”是指由混合细胞群内的单细胞生成的文库。然而，文库也可以是来自混合群体内的单核、病毒或高分子量(HMW)DNA的文库。因此，本方法可用于多种混合群体，并且所述用于sc-文库的任何方法可用于其他类型的文库。

在一些实施方案中，本方法在文库索引之后但在文库的全面测序之前进行。

在一些实施方案中，核酸文库包含来自包含独特样品条形码的单个样品的核酸以将来自单个样品的核酸与来自文库中其他样品的核酸区分开。生成此类文库的多种方法是本领域熟知的。本方法的优点在于其可与经由多种不同方式生成的库一起使用。因此，本领域技术人员可选择特定的方法以基于其自身的偏好从样品混合池中生成包含多个核酸样品的文库并进行初始测序。然后，所公开的方法可用于基于独特样品条形码进行选择，随后重新测序。

sc-测序的代表性方法包括WO 2016/130704的那些方法，该文献以引用方式并入本文。在一些实施方案中，该方法包括在掺入独特样品条形码之前对核酸样品进行空间分离的步骤。

这些方法适用于使用独特细胞条形码(UBC)或独特样品条形码的任何sc-文库生成和测序方法。示例性sc-文库生成/测序方法包括Biorad ddSEQ(例如，使用IlluminaBio-Rad SureCell WTA 3'文库制备试剂盒)、各种10X基因组学系统(诸如铬单细胞表达)、Drop-Seq(参见Macosko等人,Cell 161(5):1202-1214(2015))、InDrop^TM(1CellBio)、Tapestri^TMPlatform(MissionBio)、Split-Seq(参见Rosenburg等人,Science 360(6385):176-182(2018))或Illlumina的单细胞组合索引测序(SCI-seq，参见Cao等人,Science 357(6352):661–667(2017))，其全部以引用方式并入以公开文库生成和测序方法。

在一些实施方案中，该方法包括在对来自样品混合池的多个核酸样品进行测序之前进行标签化。在一些实施方案中，使用标签化生成文库。在一些实施方案中，标签化将独特样品条形码掺入到每个核酸样品中。

在一些实施方案中，将通用引物掺入到核酸文库内的每个核酸样品中。在一些实施方案中，在文库制备期间将通用引物掺入到每个核酸样品中。在一些实施方案中，通用引物是P5和P7引物。在一些实施方案中，将P5和P7序列掺入到核酸文库内的每个核酸样品中。

在一些实施方案中，将i5和i7序列掺入到核酸文库内的每个核酸样品中。在一些实施方案中，在文库制备期间将i5和i7序列掺入到每个核酸样品中。

B.初始测序

在一些实施方案中，非靶向初始测序可有益于表征多个单细胞，之后可进行选择和重新测序以进一步分析群体中感兴趣的单细胞。在一些实施方案中，初始测序鉴定与不需要的样品相关联的独特样品条形码。在一些实施方案中，初始测序鉴定与期望样品相关联的独特样品条形码。

在一些实施方案中，靶向初始测序可确定单细胞群体内的感兴趣细胞(即，确定期望样品)，并且然后可选择从这些感兴趣细胞生成的文库并重新测序以提供额外的信息。

在一些实施方案中，初始测序步骤包括靶向测序，并且重新测序步骤包括全基因组测序。在一些实施方案中，初始测序可以是基因特异性测序。在一些实施方案中，初始测序可以是16s测序。

在一些实施方案中，初始测序步骤包括用一种或多种基因特异性引物(如图7中所例示)进行靶向测序。在一些实施方案中，基因特异性引物包含通用引物尾。

在一些实施方案中，初始测序步骤不包括全基因组测序，并且重新测序步骤包括全基因组测序。换句话讲，初始测序可能不太全面，并且重新测序更全面。这种方法可通过避免对不需要的样品进行重新测序来显著减少对期望样品生成全面数据所需的时间/成本。

在一些实施方案中，初始测序步骤包括核糖体测序，并且重新测序步骤包括全基因组测序。在一些实施方案中，核糖体测序包括16s、18s或内部转录间隔区测序。在一些实施方案中，内部转录间隔区位于16s和23srRNA基因之间。在一些实施方案中，使用核糖体测序来确定包含样品混合池的样品内的物种，该样品混合池包含来自不同物种的样品。例如，核糖体测序可用于确定宏基因组学样品内的菌种。在一些实施方案中，在从感兴趣的物种富集这些期望样品或从不感兴趣的物种耗尽不需要的样品之后，重新测序包括感兴趣的物种的全基因组测序。

在一些实施方案中，初始测序表征细胞群，然后重新测序。例如，初始测序可鉴定血液样品中期望细胞类型的细胞，并且重新测序可特异性地集中于这些细胞。

1.靶向初始测序

在一些实施方案中，初始测序是靶向测序。如本文所用，靶向测序是指靶核酸区域的测序。例如，靶向测序可以是靶基因组内特定基因的测序。

图7示出了可如何进行靶向初始测序的示例。可制备包含多个细胞核酸文库的sc-文库，每个文库用一个或多个UBC标记。每个细胞核酸文库中的片段在一端包含P5序列，并且在另一端包含P7序列。为了从sc-文库生成扩增的靶基因特异性，可将P7-尾基因特异引物与P5引物一起使用。以这种方式，特异性扩增包含感兴趣的基因的片段，然后可用于基于包含在扩增片段中的Read 1和Read 2引物序列的初始测序。初始测序结果的分析可鉴定与来自表达靶基因的感兴趣序列的细胞的细胞核酸文库相关联的UBC。然后可进行选择，随后对期望样品进行测序。

在一些实施方案中，靶向初始测序鉴定与感兴趣的细菌分类群或物种相关联的16s rRNA序列。在一些实施方案中，靶向初始测序鉴定包含表达突变的KRAS G12基因的癌症活检中的细胞。在对期望样品进行初始测序和鉴定后，可富集期望样品或耗尽不需要的样品。选择的细胞核酸文库可用于更深的测序或全基因组分析以更好地理解感兴趣的单细胞的序列。

类似的方法可用于任何感兴趣的基因。此外，初始测序可测定靶核酸的不同区域的mRNA表达水平或甲基化状态以对相应不同条形码的细胞类型进行分类。当在初始测序中评估表观遗传因子时，重新测序然后可提供期望表型的细胞的全面全基因组测序。

2.从初始测序获得的代表性测序信息

在这些方法中，初始测序可提供用于基于“组学”特征进行分选的序列信息。在一些实施方案中，初始测序提供关于基因组特征的信息，诸如一个或多个基因的序列或变体。在一些实施方案中，对来自样品的DNA进行测序以生成基因组数据。在一些实施方案中，初始测序提供关于转录组学特征的信息，诸如不同基因的表达。在一些实施方案中，对来自样品的RNA进行测序以生成转录组学数据。在一些实施方案中，初始测序提供关于甲基化标记或模式的数据。在一些实施方案中，来自样品的DNA用于甲基化分析。在一些实施方案中，甲基化分析是亚硫酸氢盐测序。在一些实施方案中，可对单细胞进行分选，然后可将来自单细胞的样品用于亚硫酸氢盐测序和甲基化分析。对于这些初始测序方法中的任一者，测序可以是全基因组或靶向测序。

在一些实施方案中，初始测序用于生成宏基因组学数据。在一些实施方案中，初始测序用于鉴定包含来自多种物种的样品的样品混合池内的物种。在一些实施方案中，初始测序用于鉴定包含来自多种物种的样品的样品混合池内的丰富物种。然后重新测序可生成关于期望物种的进一步测序数据。在一些实施方案中，物种是细菌物种。在一些实施方案中，样品混合池包括从患者分离的细菌混合池。

可用任何生物信息学方法分析初始测序数据。初始测序结果的分析将取决于用户想要如何使用该方法。换句话讲，用户可基于他们想要如何将样品表征为期望的和不需要的样品来选择分析初始测序结果的最适当的方式。例如，如果用户想要将甲基化状态作为选择标准，则他们将使用甲基化状态的分析。

此外，本方法的一个明显优点是初始测序可以是对混合群体的无偏分析，随后对经由初始测序确定的期望样品进行重新测序。例如，用户可具有来自感染的疾病患者的宏基因组学样品，但用户可能不具有关于包含在样品中的菌种的任何信息。使用本方法，最初的16s测序可鉴定样品中的菌种，并且用户可鉴定来自已知病原体的菌种的样品。在这种情况下，期望样品将是这些潜在的病原体菌种，而不需要的样品可以是样品中已知为非致病性的丰富物种。然后可进行重新测序以提供关于期望样品的更多信息，诸如潜在致病菌是否表达与抗生素抗性相关的基因。然后这些结果可用于确定受试者的最佳抗菌疗法。该方法特别有效，因为用户不必对假定的致病物种进行任何预测，如果感染是由稀有细菌引起的，这可能会使结果产生偏差。这种方法对于评估其中致病菌是不能很好培养的致病菌的样品也特别有用。在这种情况下，本方法可允许潜在致病菌的鉴定和临床相关评估，而评估相同患者样品的基于培养的方法将错过这些不可培养的致病菌的存在。

3.扩增和重新测序

在一些实施方案中，该方法包括在初始测序之后的一个或多个扩增步骤。在一些实施方案中，该方法包括在重新测序之前的扩增步骤。

在一些实施方案中，使用扩增进行选择。在一些实施方案中，经由使用独特样品条形码对期望样品进行PCR扩增来富集期望样品，如下文将讨论的。

在一些实施方案中，在选择之后进行扩增。在一些实施方案中，在扩增步骤之前富集期望样品或耗尽不需要的样品。在这种情况下，扩增可以是无偏的，并且在选择之后扩增文库中的所有剩余样品。在一些实施方案中，扩增步骤使用通用引物。

在一些实施方案中，扩增和重新测序步骤重复一次。在一些实施方案中，扩增和重新测序步骤重复多于一次。在一些实施方案中，扩增和重新测序步骤重复1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55次或更多次或由所列整数产生的任何间隔。

在一些实施方案中，在固体载体上扩增样品。

C.样品

在一些实施方案中，该方法包括对文库进行初始测序，该文库包含从核酸样品的混合池生成的多个单独的核酸文库。

1.样品混合池

样品混合池可以是任何非均质的样品组。例如，样品混合池可以是包含不同单个细胞的血液样品，包含不同单个细胞的组织样品(即，肿瘤样品)，或包含不同菌种的环境样品等。

在一些实施方案中，样品混合池包括细胞混合池、细胞核混合池或高分子量DNA(HMW DNA)混合池。在一些实施方案中，样品是细胞、细胞核或HMW DNA。在一些实施方案中，HMW DNA是病毒DNA。高分子量DNA具有20kb或更高的平均片段长度。在一些实施方案中，DNA具有25、30、35、40、45、50kb或更高的平均片段长度。

在一些实施方案中，单个样品是单细胞。在一些实施方案中，来自混合池的多个核酸样品是来自细胞混合池的多个核酸。

在一些实施方案中，从患者收集样品混合池。在一些实施方案中，混合池来自血液或其他组织样品或取自肿瘤的活检样品。

在一些实施方案中，样品混合池是环境样品。在一些实施方案中，混合池来自不同种类的细菌或其他微生物的混合池。

在一些实施方案中，样品混合池包含期望样品和不需要的样品两者。

2.期望样品

如本文所用，“期望样品”是指本领域技术人员希望评估的样品。通过该定义，并不意味着期望样品本身是期望的，因为用户可能想要研究对被评估的受试者有害的恶性细胞等。

例如，本领域技术人员可能只对多个单细胞文库中的某些单个细胞文库感兴趣。用户可能想要研究具有某些‘组学’特征的细胞，诸如研究表达赋予对癌症药物治疗的抗性的基因突变的细胞。使用本方法，本领域技术人员可监测患者对某些药物治疗的抗性的潜在演变。

在许多情况下，期望样品包括在样品池中，该样品池包括不需要的(即，不期望的)其他样品。期望样品可以是具有特定特征的样品，其中期望样品在包括不需要的样品的样品池中。例如，期望样品可表达某种基因突变，该基因突变不是由来自样品混合池的不需要的样品表达的。另选地，期望样品可以是包含在还包含大量非致病菌的样品中的致病菌。

在本文所述的方法中，可用测序分析的任何特征可用于表征期望样品。因此，本方法的优点在于其可用于宽范围的不同样品。

在一些实施方案中，期望样品是细胞或细胞核。在一些实施方案中，期望样品是细胞。在一些实施方案中，期望样品是来自细胞的细胞核。

在一些实施方案中，期望样品是人细胞或来自人细胞的细胞核。在一些实施方案中，期望样品是癌细胞或来自癌细胞的细胞核。在一些实施方案中，期望细胞或细胞核是特定的期望细胞类型或来自特定的期望细胞类型。在一些实施方案中，期望样品相对于池中的其他样品具有突变。在一些实施方案中，期望样品是癌细胞或免疫细胞或来自癌细胞或免疫细胞。

在一些实施方案中，期望样品是癌细胞或来自癌细胞。在一些实施方案中，期望样品是癌干细胞或来自癌干细胞。在一些实施方案中，期望样品是液体或肿瘤活检样品中的癌细胞或来自液体或肿瘤活检样品中的癌细胞。在一些实施方案中，期望样品是对药物治疗有抗性的癌细胞或来自对药物治疗有抗性的癌细胞。

在一些实施方案中，期望样品是相对于细胞池中的其他癌细胞具有至少一个突变的癌细胞或来自相对于细胞池中的其他癌细胞具有至少一个突变的癌细胞。在一些实施方案中，该方法用于追踪癌症进化。在一些实施方案中，癌症进化可以是对给定化疗治疗的抗性的出现。在一些实施方案中，期望样品是具有体细胞驱动突变的细胞或来自具有体细胞驱动突变的细胞。

在一些实施方案中，期望样品是宏基因组学样品。在一些实施方案中，期望样品是来自环境样品的微生物。在一些实施方案中，期望样品是不从环境样品培养的微生物。在一些实施方案中，微生物包括细菌、真菌、古细菌、真菌、藻类、原生动物或病毒。在一些实施方案中，期望样品是病原体。

在一些实施方案中，与其他样品相比，期望样品在其核酸中具有突变。在一些实施方案中，期望样品具有单核苷酸变体(SNV)。在一些实施方案中，期望样品具有拷贝数变异(CNV)。

在一些实施方案中，期望样品具有期望的甲基化模式。在一些实施方案中，期望样品具有期望的表达模式。在一些实施方案中，期望样品具有期望的表观遗传模式。在一些实施方案中，期望样品具有期望的免疫基因重组。

在一些实施方案中，样品具有特定物种类型。在一些实施方案中，特定物种类型是人物种。在一些实施方案中，特定物种类型是特定细菌物种。

下文描述本方法对不同类型样品的一些代表性用途。

a)稀有样品

在一些实施方案中，期望样品在起始群体中是稀有的。例如，期望样品可以是来自用于生成sc-文库的细胞群中稀有的单细胞的样品。因此，如果对来自细胞混合池中单个细胞的整个文库池的测序数据进行评估，则来自稀有细胞的期望测序数据可能被来自大量不需要的细胞的测序数据所掩盖。

如本文所用，期望样品是以小于或等于1％、0.1％、0.01％、0.001％、0.0001％、0.00001％、0.000001％、0.0000001％、0.00000001％或0.000000001％的样品混合池存在的“稀有样品”。在一些实施方案中，期望样品是期望细胞。在一些实施方案中，期望细胞以小于或等于1％、0.1％、0.01％、0.001％、0.0001％、0.00001％、0.000001％、0.0000001％、0.00000001％或0.000000001％的细胞混合池存在。稀有细胞可通过任何可通过初始测序评估的特征来表征，所述特征基于细胞的基因组或表观遗传组成。例如，稀有细胞可以是与样品中其他细胞的DNA相比其DNA包含突变的细胞。在一些实施方案中，稀有细胞可以是与样品中其他细胞相比其DNA的甲基化模式不同的细胞。在本文所述的方法中，可用测序数据分析的任何特征可用于表征稀有样品。

在一些实施方案中，本方法中的初始测序可用于鉴定由稀有细胞产生的文库。可进行选择步骤以富集期望样品(即，来自感兴趣的稀有细胞的文库)或耗尽不需要的样品(即，来自大量不需要的细胞的文库)。选择后，所得文库可通过更深的测序重新测序以评估期望的稀有细胞的特征。

3.不需要的样品

如本文所用，“不需要的样品”是指本领域技术人员不想测序的样品。不需要的样品可以是有益的细胞，但对用户不感兴趣。例如，用户可能想要评估来自活检的肝癌细胞，但不评估包含正常非癌性肝组织的细胞。本领域技术人员也可能只想要对来自表达某些遗传突变的细胞的样品进行测序，而不想对来自样品中其他细胞的样品进行测序。在不选择富集期望样品或耗尽不需要的样品的情况下，对不需要的样品进行测序会浪费时间、资源和测序能力。

D.核酸

这些方法可用于评估核酸。在一些实施方案中，这些核酸来自单细胞。在一些实施方案中，核酸是DNA。在一些实施方案中，核酸是RNA。在一些实施方案中，核酸是核糖体RNA(rRNA)。在一些实施方案中，核酸是16s rRNA。在一些实施方案中，核酸是18s rRNA。

在一些实施方案中，核酸是核糖体DNA(rDNA)。

在一些实施方案中，核酸是内部转录间隔区核酸。

E.独特样品条形码和独特细胞条形码

如本文所用，“独特样品条形码”是指对于样品池中的单个样品是独特的条形码。在一些实施方案中，对文库进行初始测序包括对包含来自样品混合池的多个核酸样品的文库进行测序。该样品混合池可以是任何非均质的样品组，诸如包含不同单个细胞的血液样品。在一些实施方案中，独特样品条形码可将来自期望的单个样品的核酸与来自文库中其他样品的核酸区分开。

独特样品条形码可由单个条形码序列构成。另选地，独特样品条形码可由多个条形码序列构成。如本文所用，“条形码序列”是指可用于区分样品的序列。例如，即使给定的条形码序列可能与多个样品相关联，基于包含在独特样品条形码中的多个条形码，独特样品条形码对于样品混合池中的给定的期望样品可能是独特的。在这种情况下，独特样品条形码内的条形码序列的特定组合可以是独特的，尽管独特样品条形码内的一个或多个条形码序列是与其他样品共享的。

在一些实施方案中，独特样品条形码是独特细胞条形码。如本文所用，“独特细胞条形码”或“UBC”是指对于细胞混合池内的单细胞独特的条形码。当分析测序数据时，UBC可用于鉴定最初包含在起始细胞混合池内的相同单细胞中的序列。

在一些实施方案中，独特样品条形码对于一种类型的细胞核、HMW DNA等是独特的，并且本发明不限于用于单细胞。

为了实现稳健的富集方法，可能需要某些独特样品条形码设计。例如，如果使用杂交捕获方法，富集特异性将取决于设计探针与期望的独特样品条形码独特杂交的能力。类似的考虑也适用于独特样品条形码靶向PCR扩增。为此，可能需要使独特样品条形码作为附加到细胞DNA文库的连续核酸序列存在。另选地，可能需要在独特样品条形码中的条形码序列之间具有固定序列，使得用户知道将结合的引物以结合独特样品条形码内的条形码序列的组合。

独特样品条形码可与其他已知的条形码或衔接子序列组合使用。例如，文库片段可包含独特样品条形码并且还包含一种或多种可商购的衔接子。在一些实施方案中，i5和/或i7衔接子序列(Illumina)包含在文库片段中。

1.条形码的类型

在一些实施方案中，条形码是可物理寻址的条形码。“可物理寻址”是指条形码包含一个或多个可结合另一种试剂的核酸序列。在一些实施方案中，可物理寻址的条形码可结合互补核酸序列。在一些实施方案中，可物理寻址的条形码可以被引物或捕获寡核苷酸结合。例如，可物理寻址的条形码可与测序引物结合以允许对文库片段进行测序。在另一个示例中，可物理寻址的条形码可与捕获寡核苷酸结合以允许将文库片段固定在流通池上。

在一些实施方案中，条形码是独特样品条形码。

在一些实施方案中，独特样品条形码是单个连续条形码。在一些实施方案中，独特样品条形码包含多于一个条形码序列，在不同的条形码序列之间没有核酸序列。例如，可在不同的步骤中添加多个条形码序列(BC₁-BC_X)，其中在条形码序列之间没有掺入核酸序列。如图5的示例性方法所示，BC₁可在标签化期间掺入，并且BC₂-BC_X可经由连接掺入。如图6的示例性方法所示，BC₁可在标签化期间掺入，随后是一轮或多轮的孔特异性BC的连接，随后是合并。单个连续条形码的制备可允许容易地设计可结合独特样品条形码的引物。

在一些实施方案中，独特样品条形码是多个不连续条形码。在一些实施方案中，多个不连续条形码由核酸序列隔开。在一些实施方案中，多个不连续条形码由固定序列隔开。例如，可在不同的步骤中添加多个条形码序列(BC₁-BC_X)，其中在条形码序列之间掺入核酸序列。由于条形码和固定序列是已知的，此类多个不连续条形码可允许容易地设计可结合独特样品条形码的引物。

F.内切核酸酶

不同的内切核酸酶可用于本方法中。如本文所用，术语“内切核酸酶”用于指可切割核酸的酶。内切核酸酶可指有催化活性的内切核酸酶或无催化活性的内切核酸酶。内切核酸酶的一些特征，诸如靶向基于与内切核酸酶缔合的指导RNA的特异性靶序列的能力，对于有催化活性和无催化活性的内切核酸酶是共同的。在一些实施方案中，内切核酸酶与结合到一个或多个独特样品条形码的指导RNA缔合。可用于提高特异性(即，提高靶向和降低脱靶活性)的多种不同内切核酸酶呈现于图8中。

在一些实施方案中，内切核酸酶是无催化活性的内切核酸酶。如本文所用，“无催化活性的内切核酸酶”是可结合核酸但不介导核酸切割的内切核酸酶。无催化活性的内切核酸酶也可称为失活的内切核酸酶(诸如“dCas”蛋白)。示例性无催化活性的内切核酸酶是dCas9，如图3(其中dCas9结合到生物素)和图8(其中dCas9包含在具有FokI的融合蛋白中)所示。通常，内切核酸酶可结合到核酸，然后介导切割。因此，无催化活性的内切核酸酶是保留核酸结合功能而不具有切割活性的内切核酸酶。无催化活性的内切核酸酶可用于本方法的选择步骤。在一些实施方案中，无催化活性的内切核酸酶用于耗尽不需要的样品。在一些实施方案中，无催化活性的内切核酸酶用于富集期望样品。在一些实施方案中，无催化活性的内切核酸酶直接或间接结合到固体载体。在一些实施方案中，有催化活性的内切核酸酶通过生物素-链霉抗生物素蛋白相互作用结合到固体载体。

此外，本领域技术人员知道内切核酸酶的催化结构域并且可设计突变以从野生型内切核酸酶产生无催化活性的内切核酸酶(参见Maeder等人,Nat Methods 10(10):977–979(2013年))。可测试这种设计的无催化活性的内切核酸酶以证实其缺乏切割活性。代表性的无催化活性的Cas9蛋白包括在US 10457969中公开的那些，其全文并入本文。

在一些实施方案中，内切核酸酶是有催化活性的内切核酸酶，这意味着其可切割核酸。在一些实施方案中，有催化活性的内切核酸酶用于耗尽不需要的样品。

在一些实施方案中，内切核酸酶与指导RNA缔合。内切核酸酶可通过指导RNA靶向一个或多个感兴趣的核酸序列。在一些实施方案中，感兴趣的核酸序列是一个或多个独特样品条形码。

在一些实施方案中，内切核酸酶具有最小的PAM特异性(如图8中所示)，这在设计指导RNA中允许更大的灵活性。

在一些实施方案中，内切核酸酶与结合到一个或多个独特样品条形码的指导RNA缔合。在一些实施方案中，指导RNA针对与不需要的样品的核酸缔合的独特样品条形码进行指导。在一些实施方案中，指导RNA针对与期望样品的核酸缔合的独特样品条形码进行指导。

在一些实施方案中，内切核酸酶来自蓝细菌贺氏伪枝藻属(ShCAST)。ShCAST是由Tn7样转座酶亚单位和V-K型CRISPR效应子(Cas12k)介导的RNA指导的(sgRNA)DNA转座的4-蛋白系统(参见Strecker等人,Science.365(6448):48–53(2019)，包括Strecker的图5中所示的实施方案)。还描述了其中Tn7样转座子具有共同选择的核酸酶缺陷型CRISPR-Cas体系以产生CRISPR相关转座酶的其他体系(参见Klompe等人,Nature 571:219-225(2019))。

图8示出了增加内切核酸酶特异性的许多不同方法。本文所述的方法可使用可提高特异性的任何类型的内切核酸酶和/或指导RNA。在一些实施方案中，内切核酸酶的提高的特异性是由于内切核酸酶与一个或多个独特样品条形码的改进的结合。与结合到其他序列(即，非特异性结合)相比，这种改进的结合可以是更高百分比的结合到一个或多个感兴趣的独特样品条形码(即，特异性结合)。

在一些实施方案中，有催化活性的内切核酸酶是对切割核酸具有更高特异性的内切核酸酶。在一些实施方案中，这种更高特异性不仅仅是由于与核酸中的靶序列结合的更高特异性。在一些实施方案中，这些具有更高特异性的有催化活性的内切核酸酶可切割不需要的样品并从样品中耗尽它们。

在一些实施方案中，有催化活性的内切核酸酶是高保真突变体。“高保真”内切核酸酶是指与野生型内切核酸酶相比具有降低的脱靶活性的内切核酸酶。

在一些实施方案中，有催化活性的内切核酸酶与FokI核酸酶一起包含在融合蛋白中。在一些实施方案中，融合蛋白包含Cas9和FokI核酸酶(参见Guilinger等人,NatBiotechnol.32(6):577–582(2014))。这种融合蛋白可能需要结合两个单独的融合蛋白，该融合蛋白包含与FokI核酸酶(如图8所示)紧密融合的无催化活性的Cas9，此后二聚化的FokI核酸酶可切割靶核酸。在一些实施方案中，两种融合蛋白结合不同的靶序列。在一些实施方案中，两种融合蛋白结合两种不同的独特样品条形码。

G.富集

可使用许多不同的富集方法来选择期望样品，而不选择不需要的样品。以这种方式，仅对期望样品进行重新测序，而不对不需要的样本进行重新测序。

在一些实施方案中，耗尽是指将不需要的样品与期望样品物理分离。在一些实施方案中，耗尽包括在固体载体上捕获期望样品并丢弃未捕获的序列。这种捕获步骤可避免捕获不需要的样品，并且不需要的样品将被丢弃。在这种富集步骤之后，仅期望样品将保留在文库内。

在一些实施方案中，富集步骤包括杂交捕获、独特样品条形码特异性扩增或经由无催化活性的内切核酸酶的捕获。在一些实施方案中，独特样品条形码用于指导期望样品的富集。在一些实施方案中，独特样品条形码用于指导从细胞混合池中的一个或多个单细胞中富集期望样品。

在一些实施方案中，进行富集的多个步骤。在一些实施方案中，多个步骤包括相同类型的富集。例如，进行两个或更多个杂交捕获步骤，其中不同的杂交捕获寡核苷酸可用于不同的步骤。

在一些实施方案中，富集的多个步骤包括不同类型的富集。例如，可进行通过杂交捕获的富集，随后进行PCR扩增。

在一些实施方案中，可在多个富集步骤之间进行测序。这种测序结果可指示应进一步富集的期望样品。

在一些实施方案中，通过将富集和耗尽步骤组合来进行选择。换句话讲，本文描述的选择步骤的任何组合可由用户组合。

1.杂交捕获

在一些实施方案中，富集步骤包括杂交捕获。在一些实施方案中，杂交捕获步骤包括将杂交捕获寡核苷酸与独特样品条形码杂交。该步骤可用与一组独特样品条形码结合的许多杂交捕获寡核苷酸进行，其中独特样品条形码代表许多期望样品的独特样品条形码。例如，初始测序数据可指示细胞混合池中的一组单细胞表达给定的基因突变，并且与这些单细胞相关联的独特样品条形码可用于杂交捕获以富集来自这些特定单细胞的核酸文库。富集后，可进行重新测序以在感兴趣的单细胞上生成额外的测序数据。该方法可避免在不需要的细胞上生成额外的测序数据，因为来自不需要的细胞的样品在杂交捕获步骤期间不会被富集。

在一些实施方案中，选择独特样品条形码以与一组已知的杂交捕获寡核苷酸杂交。另选地，可基于在制备核酸文库时使用的独特样品条形码产生杂交捕获寡核苷酸的定制组。

在一些实施方案中，杂交捕获寡核苷酸结合到亲和力元件。在一些实施方案中，亲和力元件用于允许捕获与某些独特样品条形码结合的寡核苷酸，以允许富集包含这些独特样品条形码的文库。在一些实施方案中，亲和力元件是生物素。一系列亲和力元件是本领域技术人员已知的，此类磁性微粒可被某些捕获小珠结合。

在一些实施方案中，杂交捕获寡核苷酸直接或间接结合到固体载体。在一些实施方案中，杂交捕获寡核苷酸通过生物素-链霉抗生物素蛋白相互作用结合到固体载体。在一些实施方案中，固体载体为小珠。

2.经由无催化活性的内切核酸酶的捕获

以类似于杂交捕获的方式，与特异性指导RNA缔合的无催化活性的内切核酸酶可用于富集。这些无催化活性的内切核酸酶可使用指导RNA靶向特定的独特样品条形码。在一些实施方案中，经由无催化活性的内切核酸酶的捕获包括经由指导RNA将无催化活性的内切核酸酶结合到独特样品条形码。

在一些实施方案中，无催化活性的内切核酸酶结合到亲和力元件。在一些实施方案中，亲和力元件用于允许捕获与某些独特样品条形码结合的无催化活性的内切核酸酶，以允许富集包含这些独特样品条形码的文库。在一些实施方案中，亲和力元件是生物素。一系列亲和力元件是本领域技术人员已知的，此类磁性微粒可被某些捕获小珠结合。

在一些实施方案中，无催化活性的内切核酸酶直接或间接结合到固体载体。在一些实施方案中，无催化活性的内切核酸酶通过生物素-链霉抗生物素蛋白相互作用结合到固体载体。在一些实施方案中，固体载体为小珠。

3.PCR扩增

在一些实施方案中，经由PCR扩增进行富集。在一些实施方案中，通过独特样品条形码靶向PCR扩增进行富集。在一些实施方案中，基于已知与来自初始测序的期望样品相关联的独特样品条形码，结合某些独特样品条形码的引物允许期望样品的扩增。相比之下，在扩增反应中不包括结合与不需要的样品相关联的其他独特样品条形码的引物。以这种方式，可选择期望样品。

H.耗尽

可使用许多不同的耗尽方法来除去不需要的样品，而不除去期望样品。以这种方式，仅对期望样品进行重新测序，而不对不需要的样本进行重新测序。

在一些实施方案中，耗尽步骤包括杂交捕获、经由无催化活性的内切核酸酶的捕获或CRISPR消化。

在一些实施方案中，独特样品条形码用于指导不需要的样品的耗尽。在一些实施方案中，独特样品条形码用于指导从细胞混合池中的一个或多个单细胞中耗尽不需要的样品。

在一些实施方案中，进行耗尽的多个步骤。在一些实施方案中，多个步骤包括相同类型的耗尽。在一些实施方案中，富集的多个步骤包括不同类型的耗尽。例如，可进行通过杂交捕获的耗尽，随后进行CRISPR消化。在一些实施方案中，可在耗尽步骤之间进行测序。例如，方法可包括初始靶向测序、耗尽不需要的样品、另一种靶向测序、耗尽另外的不需要的样品以及全面的重新测序。

1.通过从期望样品中物理分离不需要的样品来进行耗尽

在一些实施方案中，耗尽是指将不需要的样品与期望样品物理分离。在一些实施方案中，耗尽包括将不需要的样品捕获在固体载体上并将它们除去。在这种耗尽步骤之后，仅期望样品将保留在文库内。

在一些实施方案中，杂交捕获可如富集期望样品所述进行，除了通过杂交捕获分离的不需要的样品然后从进一步的重新测序中除去(而不是如富集实施方案中期望样品的情况那样保留用于重新测序)。

在一些实施方案中，经由无催化活性的内切核酸酶的捕获可如富集期望样品所述进行，除了通过经由无催化活性的内切核酸酶的捕获分离的不需要的样品然后从进一步的重新测序中除去(而不是如富集实施方案中期望样品的情况那样保留用于重新测序)。

2.通过切割不需要的样品而耗尽

在一些实施方案中，耗尽包括使不需要的样品不能被正确测序的切割。换句话讲，耗尽可以指使不需要的样品具有较少的或没有能力基于样品的切割进行正确测序。在一些实施方案中，来自不需要的样品的核酸在文库和选择内，但耗尽是指这些不需要的样品被测序的能力降低。

例如，与不需要的样品相关联的一个或多个独特样品条形码内或附近的序列的切割可从不需要的样品的其余部分分离出测序所需的核酸序列。以这种方式，该不需要的样品将不再能够在耗尽后产生重新测序的测序结果。在一些实施方案中，这种切割将核酸序列与不需要的样品的其余部分分离。在一些实施方案中，分离的核酸序列是衔接子序列。在一些实施方案中，这种衔接子序列可以是引物序列或用于将核酸固定到用于测序的流通池的序列。例如，从不需要的样品的其余部分分离测序引物结合位点可使得不需要的样品不能经由选择的测序方法进行测序。基于用于测序的平台和最初生成的文库的组成，本领域技术人员可鉴定可被分离以介导耗尽的此类序列。

在一些实施方案中，耗尽步骤包括CRISPR消化。如本文所用，CRISPR(成簇的规则间隔短螺旋对称的重复序列)是指在原核生物诸如细菌和古细菌的基因组中发现的DNA序列家族。如本文所用，CRISPR消化是指基于CRISPR序列的一种或多种核酸的任何消化。内切核酸酶，诸如Cas9，可利用CRISPR序列在限定的序列处切割核酸。在一些实施方案中，内切核酸酶是有催化活性的内切核酸酶。

在一些实施方案中，CRISPR消化针对与不需要的样品的核酸缔合的独特样品条形码进行指导。在一些实施方案中，CRISPR消化包括切割不需要的样品。在一些实施方案中，CRISPR消化将测序所必需的核酸序列与不需要的样品的其余部分分离以耗尽不需要的样品。

a)用ShCAST切割不需要的样品的方法

在一些实施方案中，使用ShCAST切割进行耗尽方法。在一些实施方案中，切割使得不需要的样品不能被扩增和/或测序。

在一些实施方案中，ShCAST包含Cas12K；转座酶包含Tn5或Tn7样转座酶；并且/或者gRNA和转座酶中的至少一者是生物素化的，其中生物素化的gRNA和转座酶中的至少一者能够与链霉抗生物素蛋白包被的小珠偶联。在一些实施方案中，生物素化的gRNA和/或转座酶允许将不需要的样品捕获到链霉抗生物素蛋白小珠上。以这种方式，可从反应混合物中除去不需要的样品，同时保留期望样品。

在一些实施方案中，使用限制包含在ShCAST中的转座酶的结合的流体(也称为反应流体)。在一些实施方案中，限制或抑制转座酶的结合减少了由包含在ShCAST中的转座酶介导的脱靶转座反应。当脱靶切割减少时，耗尽步骤对于仅耗尽不需要的样品可以是更具选择性的，而不影响期望样品。

在一些实施方案中，从不需要的样品中耗尽核酸样品在具有限制复合物切割的条件的流体中进行。本领域技术人员知道许多限制由转座酶介导的转座反应的切割的方法，并且可使用本领域已知的任何方法。例如，转座酶活性是剂量依赖性的(即，较低浓度的转座酶限制转座反应的数目)。此外，转座酶是镁依赖性的。在一些实施方案中，限制复合物切割的条件是15mM或更低的镁浓度和/或50nM或更低的Cas12K和/或转座酶的浓度。

在一些实施方案中，通过ShCAST切割核酸允许步骤的定时。例如，用户可能希望在初始反应步骤中通过ShCAST限制核酸的结合和/或切割，以允许更大的选择性(例如，切割不需要的样品和不期望的样品)。在后面的反应步骤中，用户可能希望促进复合物中包含的转座酶对核酸的切割，以有效切割不需要的样品。换句话讲，用户可能希望转座酶的结合是相对选择性的，而转座酶对核酸的切割以相对高的效率发生。因此，复合物与核酸杂交期间的初始条件可抑制复合物中包含的转座酶与核酸的结合和/或抑制复合物中包含的转座酶的切割。随后的方法条件可促进转座酶对核酸的切割。

在一些实施方案中，从不需要的样品中耗尽核酸样品包括(1)在抑制核酸被复合物切割的条件下将复合物结合到双链核酸，以及(2)在结合后，促进复合物对核酸的切割。

在一些实施方案中，结合在以下条件下进行：(1)抑制复合物与靶核酸的结合以及(2)抑制复合物对靶核酸的切割。换句话讲，初始条件可抑制复合物的结合并抑制复合物的切割。

在一些实施方案中，可使用选择性活化转座酶的不同方法。在一些实施方案中，在结合期间，基于所使用的反应条件，包含在ShCAST中的转座酶是无活性的或活性较低。在一些实施方案中，在ShCAST与核酸结合后改变反应条件，允许在ShCAST的更选择性结合后通过转座酶的高效切割。在此类实施方案中，可使用可逆失活的转座酶，其中用户可通过使用选择性活化步骤来控制转座酶有活性的时间。虽然针对ShCAST描述了这样的转座酶选择性活化的方法，但这些方法可与掺入转座酶的其他方法一起使用。

在一些实施方案中，在结合期间镁浓度低(例如，小于15mM)，并且促进切割包括增加镁浓度。

在一些实施方案中，在结合期间不存在转座酶，并且促进切割包括添加转座酶。

VII.方法的代表性用途

本方法可用于多种测序应用。本文所述的具体用途并不意味着限制本发明，因为本领域技术人员可设想本方法可用于改善各种测序应用的结果的广泛方式。

A.校正文库质量控制

在一些实施方案中，本方法可用于包含来自样品混合池的多个核酸样品的文库的质量控制(QC)。在一些实施方案中，富集或耗尽步骤用于质量控制。在一些实施方案中，质量控制步骤是校正的，因为其减少来自不需要的样品的信号。图2提供了没有本文所述的质量控制步骤的当前单细胞方法如何可能丢失来自宏基因组学样品的稀有细胞的信息的概述。

如本文所用，“质量控制”或“QC”是指基于来自文库内各个个体的所得文库的性质而不是基于与原始样品混合群体相关的因素的选择步骤。换句话讲，QC方法不一定基于用于产生文库的原始样品混合池中样品之间的生物差异来鉴定单细胞文库的期望样品或不需要的样品，而是基于与产生的文库相关的因素来鉴定期望样品或不需要的样品。

例如，基于文库产生过程中的随机差异，而不是基于该细胞与原始细胞混合池中的其他细胞之间的生物学差异，由单细胞产生的给定文库可能具有较低的质量。不需要的样品可包括那些具有不足数目片段的单细胞文库，那些具有不期望的大小的片段的单细胞文库等。任何可能降低测序结果质量的因素都可能导致特定的核酸文库被分类为不需要的样品。换句话讲，本领域技术人员可使用本方法校正亚标准文库制备(其中与独特样品条形码相关联的一些样品是噪声和散射的)，并且从文库中除去不需要的样品，然后进行重新测序。然后可将这种重新测序集中在可能产生足够质量的测序数据的那些文库上。

在一些实施方案中，初始测序基于测序结果的质量鉴定期望的文库和不需要的文库。

在一些实施方案中，初始测序反应鉴定与作为不需要的样品的单细胞文库相关联的独特样品条形码，因为这些文库具有较低的质量。在一些实施方案中，通过初始测序鉴定不需要的文库样品，并且在重新测序之前从sc-文库中耗尽这些文库。在一些实施方案中，通过初始测序鉴定文库的期望样品以鉴定更高质量的文库，并且在重新测序之前从sc-文库中富集这些文库。

在一些实施方案中，质量控制步骤提高用于重新测序的文库的质量。以这种方式，重新测序可集中于更高质量文库的更深测序。在一些实施方案中，QC步骤可通过避免较低质量文库(即，不需要的样品)的更深测序来避免时间和试剂的浪费。

B.肿瘤学用途

在一些实施方案中，本方法用于评估或监测疾病。在一些实施方案中，疾病是癌症。

在一些实施方案中，癌症是血液或实体瘤。在一些实施方案中，可基于来自实体瘤或血液样品的活检来评估癌症。在一些实施方案中，本方法用于评估异质肿瘤或评估循环癌细胞(CTC)。CTC是肿瘤预后的推定标记物，并且可用于评估受试者对给定治疗(诸如化学疗法或免疫疗法)的应答。

在一些实施方案中，本方法用于评估肿瘤微环境中的细胞，该细胞可以是或可以不是癌细胞。这些不是癌细胞的细胞可以是基质细胞、血管细胞或任何其他类型的细胞，其可接近癌细胞而本身没有癌变。已知肿瘤微环境中的细胞影响肿瘤生长和转移。

在一些实施方案中，初始测序经由针对变体细胞的靶向测序来评估sc-文库内的文库。这些变体细胞可以是在其核酸中具有单核苷酸多态性、插入、缺失和/或拷贝数变体的那些细胞。这些变体细胞还可在另一个因子或多个因子方面具有差异，诸如甲基化的变化。在一些实施方案中，这些变体是CTC。基于初始测序，可进行选择步骤以富集或耗尽变体细胞，产生包含感兴趣的细胞核酸文库的sc-文库。然后可将这些文库用于重新测序步骤，以对变体细胞进行更深的基因组表征。

在一些实施方案中，初始测序是体细胞驱动突变区的靶向测序。体细胞驱动突变是赋予表达它的细胞生长优势的突变，并且这些细胞可在癌症进化期间被正向选择。在一些实施方案中，初始测序将癌性/分子类型分配给由多个细胞核酸文库内的给定独特样品条形码标记的单个细胞核酸文库。在一些实施方案中，在选择由与驱动突变相关联的独特样品条形码标记的文库后进行更深的重新测序。

在一些实施方案中，体细胞驱动突变是KRAS G12中的突变。在一些实施方案中，初始测序是KRAS G12的靶向测序。在一些实施方案中，进行分析以确定具有KRAS G12突变的单个细胞核酸文库的UBC条形码(如图7中所示)。在一些实施方案中，在选择这些感兴趣的文库后，重新测序是更深的测序或全基因组测序以更好地理解具有KRAS G12的细胞的特征。类似的方案可用于从表达任何其他感兴趣的突变的细胞中选择和评估测序数据。

在一些实施方案中，本方法用于追踪癌症进化。如本文所用，“肿瘤进化”是指癌细胞的特征随时间的变化，并且追踪肿瘤进化可涉及表征细胞进化模式。例如，肿瘤是异质的，并且随时间推移，这种肿瘤内的异质性允许肿瘤特征的变化，因为随时间推移选择了某些性状。肿瘤特征的变化可允许肿瘤具有更快的生长或转移或进化为对给定的治疗具有抗性。

如果受试者的肿瘤对给定的化学疗法产生抗性，例如，用该药剂治疗可能不再起减缓或停止肿瘤生长的作用。本文所述的方法可使用对感兴趣的细胞进行深度测序的选择来评估对给定治疗的抗性的存在或发展。以这种方式，可优化受试者的治疗计划以集中于可能对受试者有效的疗法并且避免不太可能有效的疗法。

C.宏基因组学用途

本方法可用于宏基因组学。如本文所用，“宏基因组学”是指对直接从环境样品中回收的遗传物质的研究。在一些实施方案中，这些环境样品包含多于一种微生物。如本文所用，微生物可包括细菌、病毒、真菌或其他小生物体。例如，宏基因组学样品可包含微生物群落(诸如多种细菌)。

在一些实施方案中，宏基因组学分析避免生物体的培养。换句话讲，宏基因组学样品可在不首先培养它们以人工生长它们的情况下进行评估。避免培养可避免对在培养物中生长不好的生物体的选择压力。此外，如果对感兴趣的微生物知之甚少，诸如适当的培养条件，避免培养可能特别重要。另外，可根据培养条件选择感兴趣的微生物，并在测序前从混合群体中丢失，因为其他微生物培养得更好。

使用先前的方法，几乎不可能从头组装和物种鉴定稀有的，不可培养的微生物(参见Malmstrom和Eloe-Fadrosh mSystems 4:e00118-19(2019))。先前的方法包括通过细胞分配(即FACS，微流体)分离单扩增基因组(SAG)，随后进行细胞裂解和全基因组分析(方法1)。另一种方法是宏基因组组装基因组(MAG)分析，使用覆盖差异分箱的短/长读鸟枪法测序，和四核苷酸频率分析(方法2)。另一种方法是“迷你宏基因组”混合方法(Quake lab,MetaSort)(方法3)。

然而，本领域中的这些方法最适合于低多样性样品中丰富物种的组装和物种鉴定。就多样性而言，它可以指样品中不同物种的数目。换句话讲，现有的宏基因组学方法对于高多样性样品中不常见或稀有物种的组装和物种鉴定具有有限的用途。

例如，方法1只有在可分类表型的先验知识的情况下才能处理，以耗尽丰富的物种并富集稀有物种。此外，方法1的细胞分配不能在缺乏可富集或可分配特征的情况下进行。此外，所有现有技术方法可与完全表征微生物组样品的过高测序成本相关联。

相反，本方法可用于基于初始测序选择期望样品。这些期望样品可以是来自宏基因组学样品中感兴趣的微生物的细胞核酸文库。在通过富集或耗尽进行选择后，可进行重新测序以提供关于这些感兴趣的微生物的更深入的测序数据。

在一些实施方案中，本方法独特地对微生物组样品中的每个生物体的DNA(RNA)进行条形码化，使得其可物理寻址以在初始测序和分析后富集期望的细胞核酸文库或耗尽不需要的细胞核酸文库。

在一些实施方案中，初始测序集中于靶向测序。在一些实施方案中，初始测序是核糖体RNA或DNA(rRNA或rDNA)测序。在一些实施方案中，初始测序是16S、18S或内部转录间隔区测序。在一些实施方案中，初始测序为多个细胞核酸文库内由给定条形码标记的细胞RNA/DNA指定分类群水平鉴定。在一些实施方案中，该靶向测序是原核16s rDNA或rRNA测序。16s rRNA可变区的测序经常用于系统发育分类，诸如不同微生物群中的属或种。

在一些实施方案中，进行初始测序反应，随后进行分析，诸如从16srDNA分析确定丰富的物种/分类群(关于此类靶向测序的示例，参见图7)。例如，初始测序可以是所有细胞核酸文库的16s rRNA测序，随后是选择步骤后期望的细胞核酸文库的全基因组测序。这种方法可通过将深度测序集中在来自感兴趣的微生物的文库上来节省时间和金钱。

在一些实施方案中，使用邻接保留转座测序进行初始测序。在一些实施方案中，当样品在提取后包含显著量的完整单染色体或高分子量基因组时，使用邻接保留转座测序。

在一些实施方案中，宏基因组学可用于评估取自患者的样品。在一些实施方案中，样品可取自显示出未知感染症状的患者。在一些实施方案中，样品可以是微生物组样品(诸如用于评估受试者的微生物组的粪便样品)。如本文所用，微生物组样品是指驻留在人组织或生物流体上或内的微生物群的聚集体。

D.免疫学用途

在一些实施方案中，本方法用于免疫学分析。在一些实施方案中，该方法用于评估T细胞克隆型。给定个体T细胞克隆型的组成可称为T细胞库。在一些实施方案中，初始测序表征TCR库。在一些实施方案中，选择步骤耗尽大量的T细胞克隆型。在一些实施方案中，重新测序用于不常见的T细胞克隆型的更深测序。

实施例

实施例1.从Sci-RNA3文库或其他sc-文库中富集

产生单细胞文库(sc-文库)的多种不同方法是本领域已知的。本方法可基于文库片段中包含的特定索引与产生sc-文库的这些不同方法中的任一种方法一起使用。

例如，可使用sci-RNA-seq3生成单细胞测序文库(参见Cao等人,Nature 566(7745):496–502(2019))，如图4所示。该方法利用RT索引(BCRT)和连接衔接子索引(BCLIG)，以及i5和i7索引。i5和i7索引是可商购的96个独特衔接子(Illumina)的集合。

RT索引可与发夹衔接子索引(oligoTp)组合。多个索引允许读段的解复用，诸如基于具有相同UMI、RT索引、连接衔接子索引和标签化位点的读段除去重复项。图4示出了用作黑色椭圆的不同索引(即，条形码)：BCRT(10个核苷酸)、BCLIG(10个核苷酸)、i5(8个核苷酸)和i7。

多种不同的方法可用于与通过sci-RNA-seq3方法(Sci-RNA3)生成的sc-文库一起富集。

首先，可使用避免i7选择的探针捕获方法。基于i5、BCLIG和BCRT索引中包含的核苷酸，总共28个碱基代表用于开发捕获探针的特异性杂交碱基，总共67个核苷酸可用于杂交(包括R1引物的33个核苷酸和固定区域的6个核苷酸)。在该计算中，捕获探针将包含用于结合UMI序列的通用序列。

第二，可使用嵌套式PCR方法。在该方法中，用i7引物与结合选定的i5、BCLIG和BCRT索引的引物一起进行用于富集期望样品的PCR。在该方法中，可设计文库以交换文库片段中的BCRT和UMI位置，使得使用BCRT的嵌套式PCR方法在所得PCR产物中保留UMI序列。

第三，可使用组合方法。在组合的方法中，探针捕获富集步骤之后是i7特异性PCR富集步骤。

虽然这些特定方法使用sci-RNA-seq3文库的设计，但在其他类型的sc-文库中使用的条形码/索引也可用于富集步骤。这些sc-文库包括BioRad-ddSEQ、10X Genomics、InDrop、Drop-Seq和Split-Seq。如图4所示，文库的特定条形码结构(包括不同条形码区域中的核苷酸数目)可用于设计富集方案。基于用于初始测序的特定sc-文库，本领域技术人员可使用关于各种方法的信息来设计最合适的富集方法。

实施例2.产生包含连续条形码的文库片段的修改的SCI-seq方法

修改的SCI-seq方法可用于产生包含连续条形码的单细胞RNA/DNA NGS文库，如图5所示。

在第一步中，用包含Tn5转座酶的转座体复合物进行标签化，该转座酶负载有包含BC1序列的转座子以掺入BC1条形码。细胞或细胞核分布到反应孔中。如果起始靶核酸是RNA，则进行cDNA合成以产生第一链和第二链。用孔特异性条形码(BC1条形码)进行标签化。从各孔收集DNA。进行间隙修复(3'填充)，随后进行5'磷酸化并产生3'A尾端。

在第二步中，用一个或多个条形码(BC2,…,BCx)进行T/A连接。这些条形码可以是非随机的。对于该步骤，将细胞核或细胞重新分配到反应孔中，随后用孔特异性条形码(BC2条形码)进行T-尾衔接子连接。从各孔收集DNA，随后进行5'磷酸化并生成3'A-尾。另选地，文库片段可具有用于后续C/G-连接的C/G悬伸部(用于每隔一个条形码化轮次)。根据需要，这些步骤在多个条形码化轮次中重复。

在第三步中，进行T/A连接以产生具有BCn条形码的期望片段。对于该步骤，将细胞核或细胞重新分配到反应孔中，并且将T-尾Y-形衔接子与孔特异性条形码连接。然后从各孔收集DNA，并用样品索引进行PCR。

在sc-文库生成期间，不必完全构建该文库。短粗的不对称末端可提高杂交和/或PCR结果的特异性。

然后可将所得文库用于初始测序，随后基于文库片段中存在的连续条形码进行富集或耗尽。连续条形码的存在可改善随后通过PCR的富集，因为可在完整的连续条形码上设计引物。

实施例3.在宏基因组学样品中使用分布式微生物细胞的方法

本方法可用于宏基因组学，诸如生物体基因组组装，其中不培养生物体。这些生物体可以是微生物细胞，诸如取自患者的样品中的那些。

对于该方法，将细胞分配到孔中并且标签化插入BC1(仅)。合并DNA，随后延伸至平端并产生A-尾。将样品分配到适当稀释的DNA中。

接下来，用包含BC2的T-尾衔接子进行T/A连接。合并DNA并进行延伸至平端并产生A-尾。重复这些步骤以掺入期望数目的条形码(BCn)。

对于最后的连接，添加叉状衔接子，随后进行PCR以添加i5/i7和P5/P7序列。P5和P7序列可用于使用Illumina平台的测序方法，尽管如果在其他平台上进行测序，则可添加其他序列。

进行初始测序反应，随后进行分析。分析可包括从全基因组组装或核糖体DNA(rDNA)分析确定丰富的物种/分类群。例如，初始测序可以是16s rDNA(或rRNA)测序。对rDNA或rRNA进行初始测序可减少该步骤所需的时间和资源，并且这些数据可足以鉴定丰富的物种或分类群。

另选地，如果样品中的大多数微生物在提取后包含完整的单染色体或高分子量基因组DNA，则保持邻接的转座测序(CPT-seq，Illumina)可适用于测序。CPT-seq和组合索引的使用允许全基因组单倍型分析(参见Amini等人,Nat Genet.46(12):1343–1349(2014))。该方法可应用于合成连接的长读文库。对连接长读文库进行(短读)测序，并且可靶向鉴定示例性亲本‘长’分子的DNA条形码以从复合文库中富集或耗尽，随后进行二次测序。例如，在与宏基因组样品一起工作时，原核生物具有～1个染色体，因此，诸如CPT-seq的连接长读测序方法可用于稀有物种表征和解析的从头组装。

初始测序可生成关于感兴趣的物种/分类群的数据以用于富集或耗尽。例如，可针对丰富的物种分类群的UBC设计特异性探针或Cas9-指导RNA以允许它们的耗尽集中在感兴趣的较稀有的物种/分类群上。丰富物种的耗尽可通过基于与丰富物种相关联的条形码的杂交捕获或CRISPR消化来进行。

选择后，剩余的文库可用通用引物(P5/P7)重新扩增。然后，可进行重新测序。

如果需要，可进行多轮丰富物种/分类群的鉴定，随后进行另一轮耗尽。可重复鉴定和耗尽过程，直到在测序数据中看到丰富的物种/分类群的充分耗尽，使得满足宏基因组学表征标准。

如果需要，如果初始测序集中于rDNA或rRNA分析，则可进行全基因组测序以进行重新测序。在这种情况下，初始测序可集中于核糖体信号，而最终的重新测序提供关于感兴趣的较稀有的物种或分类群的更全面的数据。

实施例4.具有可物理寻址的条形码和靶向测序的NGS文库构建

如图6所示，方法还可使用具有独立释放步骤的转座反应来用于产生可物理寻址的条形码。

将细胞、细胞核或HMW DNA分配到反应孔中。然后可任选地裂解细胞或细胞核以使DNA可用于制备。用负载有第一条形码的转座酶(负载有BC1的Tn5)进行转座。该步骤掺入具有孔特异性第一条形码的标签，但转座酶不被释放。然后可从各孔收集DNA。为了适应具有固定的2级条形码方案的高细胞通量，该方法可在每个反应孔中掺入更多的条形码。

然后将DNA重新分配到反应孔中并释放转座酶。进行间隙填充(3'延伸)和5'磷酸化，并添加3'A尾端。进行具有孔特异性第二条形码(BC2)的T-尾Y-形衔接子连接。从各孔收集DNA，并且基于样品索引进行PCR。在该步骤不必完全构建文库，因为短粗的不对称末端可提高引物杂交和/或PCR反应的特异性。

实施例5.重组酶介导的靶向转座

序列特异性转座可由包含重组酶包被的靶向寡核苷酸的转座体复合物介导。如图9所示，将包含基因组DNA的样品与包含重组酶包被的靶向寡核苷酸的转座体复合物组合。

重组酶包被的寡核苷酸将沿着双链DNA(dsDNA)“扫描”，直到在靶DNA中发现互补序列(图9中基因组DNA的白色部分)。此时，重组酶将促进链侵入以将该寡核苷酸置于dsDNA结构中(经由D-环形成)。该过程将使转座体复合物紧密靠近靶序列，并且随后的转座将插入靠近链侵入位点的转座子序列。

经由负载重组酶的转座体的靶向转座可如下进行。首先，通过将5μl的10X TEN缓冲液(100mM Tris pH 8，10mM EDTA，250mM NaCl)与17.5μl的SEQ ID NO:1的寡核苷酸和27.5μl的SEQ ID NO:2的寡核苷酸组合来使第一组转座体寡核苷酸退火。SEQ ID NO:2的寡核苷酸可通过加热至95℃持续10分钟并且然后以0.1℃/s的降温速率冷却至10℃的方法与SEQ ID NO:1的寡核苷酸退火(以3'至5'方向)。

类似地，可通过使SEQ ID NO:3和4的寡核苷酸退火来产生第二组退火的寡核苷酸。

退火的寡核苷酸可使用以下方案负载转座酶Tn5。将14.28μl的35μM退火的寡核苷酸、15.9μl的95.6μM tsTn5酶和220μl的50％甘油储存缓冲液合并，并在37℃处温育过夜。可添加另外的250μl的50％甘油储存缓冲液并在-20℃处储存直至需要。

接下来，可将重组酶添加到DNA中，随后进行标签化。重组酶可用于经由链侵入产生单链DNA区域以允许寡核苷酸对的结合。可将10μl负载Tn5的寡核苷酸“1”(SEQ ID NO:1和2的退火对)与10μl负载Tn5的寡核苷酸“2”(SEQ ID NO:3和4的退火对)、10μl的5X缓冲液(250mM Tris pH7.6、50mM MgCl₂、25mM DTT、2.5mM ATP)、0.5μg的DNA、2μl的2μg/μl RecA和17.5μl H₂O(总体积50μl)合并，轻轻混合，并在37℃处温育1小时。

然后可通过添加10μl的终止缓冲液(1％ SDS)，以1600rpm涡旋1分钟并在室温处温育5分钟来终止反应。

可使用2.5X SPRI小珠进行尺寸选择。将150μl的SPRI小珠添加到管中，并在室温处温育5分钟。使用TWB洗涤缓冲液进行2次洗涤，随后除去TWB洗涤缓冲液。

接下来，进行PCR文库扩增。将20μl EPM混合物(Illumina)、20μlH₂O和10μl P5-A14/P7-B15引物混合物(每个引物在H₂O中2μM)添加到洗涤过的小珠中。然后将反应物置于如下编程的PCR机器上：68℃持续3分钟；98℃持续3分钟；98℃持续45秒、62℃持续30秒和68℃持续2分钟的8个循环；68℃持续1分钟；以及最后保持在4℃处。

实施例6.使用单链核酸和靶向寡核苷酸的靶向转座

转座酶可介导双链DNA(诸如双链DNA)的转座。方法可用于在单链靶核酸内选择性地产生双链DNA区域。该单链核酸可通过使双链核酸变性而产生。

如图10所示，靶向寡核苷酸可与单链核酸内的感兴趣的序列杂交，诸如当靶向寡核苷酸与感兴趣的序列完全或部分互补时。在该实施方案中，靶向寡核苷酸不需要用重组酶包被，并且靶向寡核苷酸不必以任何方式连接至转座体。

由靶向寡核苷酸结合的单链核酸区域现在将是双链的。当添加转座体复合物时，其然后可继续结合到双链区域并且然后产生带标签的片段。换句话讲，在靶向寡核苷酸杂交后，然后可使用标准转座体，并且应该仅插入靶DNA经由杂交形成双链的位置。以这种方式，靶向寡核苷酸可用于从靶核酸产生包含感兴趣的特定区域的带标签的片段。

提供了使用靶向寡核苷酸介导标签化的代表性方法。将2μl的包含SEQ ID NO:5和6的寡核苷酸(100μM原液)添加到500ng的基因组DNA(诸如PhiX)中。将反应物在1X TEN缓冲液(10mM Tris pH8，1mM EDTA，25mM NaCl)中稀释至50μl的最终体积。将反应物加热至95℃持续5分钟以使DNA变性，然后以0.1℃/s的降温速率冷却至10℃。

接下来，对DNA进行标签化。将10μl的Nextera Tn5#1、10μl的Nextera Tn5#2、10μl的5X标签化缓冲液和20μl的来自上述步骤的退火的寡核苷酸+DNA合并。将反应物在41℃处温育5分钟，随后保持在10℃处。通过添加10μl的终止缓冲液(1％ SDS)，以1600rpm涡旋1分钟并在室温处温育5分钟来终止反应。

使用2.5X SPRI小珠进行尺寸选择。将150μl的SPRI小珠添加到管中并在室温处温育5分钟。使用TWB洗涤缓冲液洗涤反应物2次，随后除去TWB洗涤缓冲液。

最后，使用PCR来扩增文库。添加20μl EPM混合物(Illumina)、20μl H₂O和10μlP5-A14/P7-B15引物混合物(每个引物在H₂O中2μM)。将反应物置于如下编程的PCR机器上：68℃持续3分钟；98℃持续3分钟；98℃持续45秒、62℃持续30秒和68℃持续2分钟的8个循环；68℃持续1分钟；以及保持在4℃处。

实施例7.使用锌指DNA结合结构域的无细胞DNA的靶向转座

序列特异性转座也可用cfDNA进行，如图15中所概述。可将包含cfDNA的血浆样品与包含锌指DNA结合结构域的靶向转座体复合物混合。锌指DNA结合结构域可包含在如图15所示的锌指核酸酶(ZFN)中，其中ZFN可以是无催化活性的。此外，可设计转座体复合物以允许固定到固体载体(诸如用在5'端包含生物素的第一转座子或在3'端包含生物素的第二转座子)。

锌指DNA结合结构域可结合到感兴趣的特定DNA序列，诸如在用户想要测序的基因内或其附近的那些序列。该结合可在cfDNA与组蛋白结合时发生(即，不用蛋白酶预处理cfDNA)。在由靶向转座体复合物介导的标签化后，靶向cfDNA文库结合到链霉抗生物素蛋白小珠。在间隙填充和连接后，由cfDNA产生的靶向文库可从固体载体释放或在固体载体上扩增和/或测序。

该方法相对于由cfDNA产生文库的其他方法的优点是该方法的简易性，其避免了在标签化前除去组蛋白的蛋白酶步骤。由cfDNA除去组蛋白的任何蛋白酶步骤之后都需要洗涤或其他步骤以除去蛋白酶，因为蛋白酶否则将干扰转座体复合物内的转座酶。以这种方式，图15中概述的方法为用户提供改进的简易性和速度。

此外，靶向转座体的使用可避免需要其他类型的富集步骤。靶向转座体复合物中的锌指DNA结合结构域可特异性靶向感兴趣的序列。例如，包含锌指DNA结合结构域的靶向转座体可产生包含已知与可遗传疾病相关联的基因序列的片段文库。以这种方式，怀孕患者血浆中的cfDNA可用于产生包含与遗传疾病相关联的基因序列的靶向文库，以评估基因中胎儿突变的潜在存在。类似地，来自癌症患者血浆的cfDNA可用于产生包含肿瘤抑制基因和癌基因序列的靶向文库，以确定是否存在与不良预后相关联的突变。

实施例8.ShCAST(贺氏伪枝藻属CRISPR相关转座酶)靶向文库制备和富集

在文库制备后使用单独的富集步骤对特定基因进行靶向测序可能是耗时的。例如，这种单独的富集步骤可涉及使寡核苷酸探针与文库DNA杂交，并在链霉抗生物素蛋白包被的小珠上分离杂交的DNA。尽管在效率和所需时间方面有显著的改进，但这种单独的富集方案可能花费约两小时，并且多种试剂和步骤可能使这些方案难以自动化。

相比之下，本文公开的方法可用于制备和富集用于特定基因的靶向测序的文库，使用单一步骤进行制备和富集。例如，图16A-图16B示意性地说明了用于ShCAST(贺氏伪枝藻属CRISPR相关转座酶)靶向文库制备和富集的示例性组合物和工艺中的操作。ShCAST包括Cas12k和Tn7样转座酶，其能够使用指导RNA(gRNA)将DNA插入大肠杆菌基因组中的特定位点。这些gRNA可使用熟知的设计算法对靶核酸中的一个或多个感兴趣的序列产生亲和力。

这些方法可利用ShCAST或掺入Tn5转座酶的ShCAST的修饰形式(ShCAST-Tn5)来靶向片段化和扩增特定基因。因此，将文库制备和富集步骤组合。组合方案简化并提高了靶文库测序工作流程的效率。组合方案还可减少步骤和用户触摸点的数目，并且因此促进自动化。

在示例性方法中，gRNA可设计成靶向特定基因(感兴趣的序列)，并且靶核酸内gRNA的结合位点之间的间隔可用于控制插入序列大小。换句话讲，gRNA可设计成结合到靶核酸内的序列，其导致靶向转座体复合物以产生所需大小的插入序列(即，双链DNA片段)。gRNA和/或ShCAST/ShCAST-Tn5可以是生物素化的。以诸如图16A中所示的方式，可将gRNA和具有衔接子(例如，包含用于扩增和/或测序方法的序列的Illumina衔接子)的转座元件加载到ShCAST的转座酶中，产生复合物6000。以诸如图16B的工艺流程6010中所示的方式，所得ShCAST/ShCAST-Tn5复合物可在抑制标签化的流体条件(例如，低镁或无镁)下与基因组DNA混合，同时允许复合物结合到靶DNA中的相应序列。然后可使用与生物素化的gRNA和/或ShCAST/ShCAST-Tn5偶联的链霉抗生物素蛋白小珠分离复合物。可以洗去任何未结合的DNA，例如以减少或最小化脱靶标签化。然后可改变流体条件(例如，充分增加镁)以促进标签化。在准备测序时，可使用间隙填充连接步骤，随后热解离以从小珠释放文库。

注意，在诸如图16A-图16B所示的组合物和操作中，复合物的转座酶部分也可以能够随机插入DNA中。这种插入可通过将ShCAST/ShCAST-Tn5复合物与基因组DNA在抑制标签化的流体条件(例如，低镁或无镁)下混合来抑制或最小化，从而允许靶标被结合。

关于ShCAST的进一步细节，包括其中的Cas12K和Tn7，参见Strecker等人，“RNA-Guided DNA insertion with CRISPR-associated transposases,”Science 365(6448):48-53(2019)，该文献的全部内容以引用方式并入本文。

等同内容

上述书面说明书被认为足以使得本领域的技术人员能够实践实施方案。上述详细描述和实施例详述了某些实施方案，并且描述了发明人所设想的最佳模式。然而，应当理解，无论前述内容在文本中可能描述得多么详尽，该实施方案都可以多种方式实践，并且应当根据所附权利要求及所附权利要求的任何等同条款来解释。

如本文所用，术语“约”是指数值，包括例如整数、分数和百分比，无论是否明确指出。术语“约”通常是指本领域普通技术人员将认为等于所列举的值(例如，具有相同的功能或结果)的数值范围(例如，所列举范围的+/-5-10％)。当术语诸如“至少”和“约”在数值或范围的列表之前时，该术语修饰列表中提供的所有值或范围。在一些情况下，术语“约”可包括四舍五入到最近有效数字的数值。

序列表

<110> Illumina公司（Illumina, Inc.）

Illumina剑桥有限公司（Illumina Cambridge Limited）

<120> 核酸的序列特异性靶向转座和选择以及分选

<130> 01243-0020-00PCT

<150> US 63/066,905

<151> 2020-08-18

<150> US 63/066,906

<151> 2020-08-18

<150> US 63/168,753

<151> 2020-03-31

<160> 8

<170> PatentIn version 3.5

<210> 1

<211> 73

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 40聚体_A14_ME

<400> 1

gccttttgta ataattaccg cagctcgcag gccaatttcg tcgtcggcag cgtcagatgt 60

gtataagaga cag 73

<210> 2

<211> 19

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> ME’（3’至5’）

<400> 2

tctacacata ttctctgtc 19

<210> 3

<211> 84

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 40聚体_B15_ME

<400> 3

tcaactttac cattattctg ctggttagac tggtcgttcc ttcggttcta gtctcgtggg 60

ctcggagatg tgtataagag acag 84

<210> 4

<211> 19

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> ME’（5’至3’）

<400> 4

ctgtctctta tacacatct 19

<210> 5

<211> 30

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 靶向PhiX DNA的单链30聚体DNA引物

<400> 5

gccttttgta ataattaccg cagctcgcag 30

<210> 6

<211> 30

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 靶向PhiX DNA的单链30聚体DNA引物

<400> 6

ggcagaaaga ggtaacgcag caccggaacg 30

<210> 7

<211> 29

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> P5引物

<220>

<221> misc_feature

<222> (23)..(23)

<223> n为u

<400> 7

aatgatacgg cgaccaccga ganctacac 29

<210> 8

<211> 24

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> P7引物

<400> 8

caagcagaag acggcatacg agat 24

Claims

1.一种靶向转座体复合物，包含：

a.转座酶；

b.第一转座子，包含：

i.3'转座子末端序列，

ii.5'衔接子序列，以及

c.与指导RNA缔合的无催化活性的内切核酸酶，其中所述指导RNA能够指导内切核酸酶结合到一个或多个感兴趣的核酸序列；以及

d.第二转座子，包含所述转座子末端序列的互补序列。

2.根据权利要求1所述的靶向转座体复合物，其中所述无催化活性的内切核酸酶来自蓝细菌贺氏伪枝藻属(ShCAST)，任选地其中：

a.所述gRNA和所述转座酶中的至少一者是生物素化的，并且其中生物素化的所述gRNA和所述转座酶中的至少一者能够与链霉抗生物素蛋白包被的小珠偶联；

b.ShCAST包含Cas12K；

c.所述转座酶包含Tn5或Tn7样转座酶；并且/或者

d.所述第一转座子包含P5衔接子和P7衔接子中的至少一者。

3.一种靶向转座体复合物，包含：

a.转座酶，

b.第一转座子，包含

i.3'转座子末端序列；

ii.5'衔接子序列；以及

c.锌指DNA结合结构域，其中所述锌指DNA结合结构域能够结合到一个或多个感兴趣的核酸序列；以及

d.第二转座子，包含所述转座子末端序列的互补序列。

4.根据权利要求3所述的靶向转座体复合物，其中所述锌指DNA结合结构域包含在锌指核酸酶中，任选地其中所述锌指核酸酶是无催化活性的。

5.根据权利要求3或4所述的靶向转座体复合物，其中所述一个或多个感兴趣的核酸序列包含在与组蛋白缔合的DNA中，任选地其中所述与组蛋白缔合的DNA是无细胞DNA。

6.一种靶向生成靶核酸的带5'标签的片段的方法，包括：

a.将包含双链核酸的样品和作为靶向转座体复合物的根据权利要求1至5中任一项所述的转座体复合物混合；以及

b.通过将所述第一转座子的3'端接合到所述片段的5'端以产生多个带5'标签的片段，通过所述转座酶将所述核酸片段化成多个片段。

7.一种生成带标签的核酸片段的文库的方法，包括：

a.将包含双链核酸的样品、作为靶向转座体复合物的根据权利要求1至5中任一项所述的第一转座体复合物和第二转座体复合物混合，所述第二转座体复合物包含

i.转座酶；

ii.第一转座子，包含3'转座子末端序列和5'衔接子序列；以及

iii.第二转座子，包含5'转座子末端序列，其中所述5'转座子末端序列与所述3'转座子末端序列互补；以及

b.通过将每个第一转座子的3'端接合到所述靶片段的5'端以产生由所述第一转座体复合物生成的多个第一带5'标签的靶片段和由所述第二转座体复合物生成的多个第二带5'标签的靶片段，通过所述转座酶将所述核酸片段化成多个片段。

8.一种生成带标签的核酸片段的文库的方法，包括：

a.将包含双链核酸的样品、作为靶向转座体复合物的根据权利要求1至5中任一项所述的第一转座体复合物和作为靶向转座体复合物的根据权利要求1至5中任一项所述的第二转座体复合物混合；以及

9.根据权利要求6至8中任一项所述的方法，其中将包含双链核酸的样品与一种或多种靶向的转座体复合物混合包括：

a.将所述样品与锌指DNA结合结构域或无催化活性的内切核酸酶混合，其中所述锌指DNA结合结构域或无催化活性的内切核酸酶结合到第一结合配偶体，以及

b.添加所述转座酶以及第一转座子和第二转座子，其中所述转座酶结合到第二结合配偶体，其中所述转座酶能够通过所述第一结合配偶体和第二结合配偶体的配对结合到所述锌指DNA结合结构域或无催化活性的内切核酸酶。

10.一种靶向转座体复合物，包含：

a.转座酶，

b.第一转座子，包含

i.3'转座子末端序列；

ii.5'衔接子序列；以及

iii.用重组酶包被的靶向寡核苷酸，其中所述靶向寡核苷酸能够结合到一个或多个感兴趣的核酸序列；以及

c.第二转座子，包含5'转座子末端序列，其中所述5'转座子末端序列与所述3'转座子末端序列互补。

11.根据权利要求10所述的转座体复合物，其中所述靶向寡核苷酸的序列与所述一个或多个感兴趣的核酸序列完全或部分互补并且/或者其中所述重组酶是UVSX、Rec233或RecA。

12.一种试剂盒或组合物，包含作为靶向转座体复合物的根据权利要求10或权利要求11所述的第一转座体复合物和第二转座体复合物，所述第二转座体复合物包含：

i.转座酶；

ii.第一转座子，包含3'转座子末端序列和5'衔接子序列；以及

iii.第二转座子，包含5'转座子末端序列，其中所述5'转座子末端序列与所述3'转座子末端序列互补。

13.一种靶向生成靶核酸的带5'标签的片段的方法，包括：

a.将包含双链核酸的样品和作为靶向转座体复合物的根据权利要求10或11所述的转座体复合物混合；

b.通过所述重组酶启动所述核酸的链侵入；以及

c.通过将所述第一转座子的3'端接合到所述片段的5'端以产生多个带5'标签的片段，通过所述转座酶将所述核酸片段化成多个片段。

14.一种生成带标签的核酸片段的文库的方法，包括：

a.将包含双链核酸的样品、作为靶向转座体复合物的根据权利要求10或11所述的第一转座体复合物和第二转座体复合物混合，所述第二转座体复合物包含

i.转座酶；

ii.第一转座子，包含3'转座子末端序列和5'衔接子序列；以及

iii.第二转座子，包含5'转座子末端序列，其中所述5'转座子末端序列与所述3'转座子末端序列互补；

b.通过所述重组酶启动所述核酸的链侵入；以及

c.通过将每个第一转座子的3'端接合到所述靶片段的5'端以产生由所述第一转座体复合物生成的多个第一带5'标签的靶片段和由所述第二转座体复合物生成的多个第二带5'标签的靶片段，通过所述转座酶将所述核酸片段化成多个片段。

15.一种生成带标签的核酸片段的文库的方法，包括：

a.将包含双链核酸的样品、作为靶向转座体复合物的根据权利要求10或11所述的第一转座体复合物和作为靶向转座体复合物的根据权利要求10或11所述的第二转座体复合物混合；

b.通过所述重组酶启动所述核酸的链侵入；以及

16.根据权利要求15所述的方法，其中包含在作为靶向转座体复合物的所述第一转座体复合物和作为靶向转座体复合物的所述第二转座体复合物中的所述靶向寡核苷酸是不同的，任选地其中作为靶向转座体复合物的所述第一转座体复合物和作为靶向转座体复合物的所述第二转座体复合物的所述靶向寡核苷酸结合到所述双链核酸的相反链。

17.根据权利要求13至16中任一项所述的方法，其中用于启动链侵入的温度低于通过所述转座酶进行片段化的最佳温度，任选地其中启动链侵入在27℃至47℃处进行并且/或者其中所述片段化在45℃至65℃处进行。

18.根据权利要求13至17中任一项所述的方法，其中在启动侵入之后和片段化之前将所述转座酶的辅因子添加到所述转座体复合物中。

19.一种在对靶核酸进行测序时保留邻接信息的方法，包括：

a.根据权利要求13至18中任一项所述的方法产生所述靶核酸的带标签的片段；

b.对所述带5'标签的片段或完全双链带标签的片段进行测序以提供所述片段的序列；

c.将包含相同靶向寡核苷酸的所述序列的片段的序列分组；以及

d.如果一组序列包含相同靶向寡核苷酸的所述序列，则确定它们在所述靶核酸内是接近的。

20.一种在对靶核酸进行测序时保留邻接信息的方法，包括：

a.根据权利要求13至19中任一项所述的方法产生所述靶核酸的带标签的片段，其中一个或多个衔接子序列包含与单个靶向寡核苷酸序列缔合的独特分子标识符(UMI)；

c.将包含相同UMI的所述序列的片段的序列分组；以及

d.如果一组序列包含相同UMI的所述序列，则确定它们在所述靶核酸内是接近的。

21.一种靶向生成核酸的带5'标签的片段的方法，包括：

a.使一个或多个靶向寡核苷酸与包含单链核酸的样品杂交，其中所述一个或多个靶向寡核苷酸能够各自结合到所述核酸中的感兴趣的序列；

b.施加转座体复合物，所述转座体复合物包含：

i.转座酶；

ii.第一转座子，包含3'转座子末端序列和5'衔接子序列；以及

22.一种表征包含期望样品和不需要的样品两者的样品混合池中的期望样品的方法，包括：

a.从双链核酸产生测序数据，首先对包含来自所述混合池的多个核酸样品的文库进行测序，其中每个核酸文库包含来自单个样品的核酸和独特样品条形码以将来自所述单个样品的核酸与来自所述文库中其他样品的核酸区分开；

b.分析所述测序数据并鉴定与来自期望样品的测序数据相关联的独特样品条形码；

c.对所述文库进行选择步骤，包括：

i.从期望样品富集核酸样品以及/或者

ii.从不需要的样品耗尽核酸样品；以及

d.对所述核酸文库进行重新测序。

23.根据权利要求22所述的方法，其中所述样品混合池包括细胞混合池、细胞核混合池或高分子量DNA混合池，并且/或者所述独特样品条形码是独特细胞条形码。

24.根据任一权利要求22或权利要求23所述的方法，其中：

a.所述富集步骤包括杂交捕获、经由无催化活性的内切核酸酶捕获或独特样品条形码特异性扩增；或者

b.所述耗尽步骤包括杂交捕获、经由无催化活性的内切核酸酶捕获、CRISPR消化或通过包含与指导RNA(gRNA)偶联的ShCAST的复合物切割。

25.根据权利要求24所述的方法，其中所述耗尽步骤包括通过包含与gRNA偶联的ShCAST的复合物切割，任选地其中：

a.所述ShCAST包含Cas12K；

b.所述转座酶包含Tn5或Tn7样转座酶；

c.来自不需要的样品的所述核酸样品包含双链DNA；并且/或者

d.所述gRNA和所述转座酶中的至少一者是生物素化的，其中生物素化的所述gRNA和所述转座酶中的至少一者能够与链霉抗生物素蛋白包被的小珠偶联。

26.根据权利要求22至25中任一项所述的方法，其中所述内切核酸酶与结合到一个或多个独特样品条形码的指导RNA缔合，并且/或者指导RNA针对与不需要的样品的核酸缔合的独特样品条形码进行指导，或者指导RNA针对与期望样品的核酸缔合的独特样品条形码进行指导。

27.根据权利要求22至26中任一项所述的方法，其中所述期望样品是以小于或等于1％、0.1％、0.01％、0.001％、0.0001％、0.00001％、0.000001％、0.0000001％、0.00000001％或0.000000001％的样品混合池存在的稀有样品。

28.根据权利要求22至27中任一项所述的方法，其中所述方法包括在掺入独特样品条形码之前对所述核酸样品进行空间分离和/或在对来自所述样品混合池的多个核酸样品进行测序之前进行标签化的步骤。

29.根据权利要求22至28中任一项所述的方法，其中将独特样品条形码掺入到每个核酸样品中，任选地其中所述独特样品条形码是单个连续条形码或多个不连续条形码。

30.根据权利要求22至29中任一项所述的方法，其中所述初始测序步骤：

a.不包括全基因组测序，并且所述重新测序步骤包括全基因组测序；

b.包括靶向测序，并且所述重新测序步骤包括全基因组测序；

c.包括用一种或多种基因特异性引物进行靶向测序，任选地其中所述基因特异性引物包含通用引物尾；并且/或者

d.包括核糖体测序，并且所述重新测序步骤包括全基因组测序。

31.根据权利要求22至30中任一项所述的方法，其中所述方法用于对来自环境样品的微生物进行测序，任选地其中所述方法不包括培养来自所述环境样品的所述微生物。