CN116096887A

CN116096887A - 包括改进的向导rna的组合物和方法

Info

Publication number: CN116096887A
Application number: CN202180035114.8A
Authority: CN
Inventors: J·E·彼得斯
Original assignee: Cornell University
Current assignee: Cornell University
Priority date: 2020-03-16
Filing date: 2021-03-16
Publication date: 2023-05-09
Also published as: EP4121531A1; WO2021188553A1; CA3171941A1; US20230114119A1; JP2023518051A

Abstract

提供了用于在基于CRISPR的DNA编辑中使用的组合物、方法、系统和试剂盒。所述组合物包括RNA多核苷酸，所述RNA多核苷酸包括一个或多个非典型重复序列，并且可以包括截短的间隔子。所述RNA多核苷酸与蛋白质在系统中一起使用，所述系统包括CRISPR和转座子基因，或由所述基因编码的蛋白质。所述基因包括：转座子基因tnsA、tnsB、tnsC和tniQ；以及Cas基因cas8f、cas5f、cas7f和cas6f。相对于不包括非典型重复序列的向导RNA，用作向导RNA的包括非典型重复序列的所述RNA多核苷酸与转座子和CRISPR蛋白的使用表现出增强的转座。使用代表性IF‑3b系统证明了增强的转座。

Description

包括改进的向导RNA的组合物和方法

相关申请的交叉引用

本申请要求于2020年3月16日提交的美国临时申请第62/990,111号以及于2020年7月1日提交的美国临时申请第63/047,209号的优先权，所述美国临时专利申请中的每个美国临时专利申请的全部公开内容通过引用并入本文。

关于联邦资助研究或开发的声明

本发明是在由美国国立卫生研究院(National Institutes of Health)授予的授权号R01GM129118下由政府支持进行的。政府享有本发明中的某些权利。

序列表

本申请包括已经以ASCII格式电子提交的序列表，并且特此通过引用整体并入。创建于2021年3月12日的所述ASCII副本命名为018617_01284_SL.txt并且大小为2,176,959字节。

技术领域

本公开总体上涉及用于修饰DNA的方法，并且更具体地涉及使用具有包括非典型重复序列的序列的向导RNA进行基于CRISPR的编辑的改进的组合物和方法。向导RNA也可以或可替代地包括并且缩短的间隔子。

背景技术

在过去的数年中，已经研究了各种成簇规律间隔短回文重复序列(CRISPR)阵列。CRISPR阵列通常包括富含AT的前导序列，随后是被间隔子分开的短重复序列，所述间隔子各自包括不同的序列。CRISPR重复序列通常跨越28至37个碱基对的长度，尽管已经报道了更短或更长的序列。

从CRISPR阵列转录的RNA多核苷酸通过各种机制进行加工，以便使用所谓的向导RNA(通常称为gRNA)促进多核苷酸的RNA向导的编辑。根据允许合理设计用于虚拟靶向的引导RNA和任何细胞类型中的DNA序列的增加的知识和资源，最近对于许多基于CRISPR的RNA引导的DNA编辑系统和技术的采用急剧增加。然而，对于用于增强这些方法的改进的组合物和方法仍有着持续存在且未被满足的需要。本公开与这种需要相关。

发明内容

本公开提供了用于在基于CRISPR的DNA编辑中使用的组合物、方法、系统和试剂盒。本公开表明，使用私有化的向导RNA的某些CRISPR系统表现出增强的转座效率。增强的转座效率支持使用所描述系统在如染色体或质粒等DNA底物中的预定位置处插入DNA负载。

私有化的向导RNA包括如本文进一步描述的一个或多个非典型重复序列，并且还可以包括截短的间隔子。在某些实施方式中，非典型重复序列衍生自CRISPR阵列中紧邻间隔子的一个或多个重复序列，所述间隔子不是所述阵列中最近获得的间隔子。

在一实施方式中，本公开提供了用于在CRISPR系统中使用的RNA多核苷酸(例如，向导RNA，也称为“gRNA”)，所述CRISPR系统在某些实例中是I-F3b型CRISPR系统。

在实施方式中，RNA多核苷酸在5′至3′方向上连续地包括：i)5′末端区段，所述5′末端区段包括第一CRISPR重复序列；ii)间隔子序列，所述间隔子序列包括与DNA靶标中的原型间隔子(例如，靶序列)互补的靶向序列；以及iii)3′末端区段，所述3′末端区段包括第二CRISPR重复序列。所述5′末端区段、所述3′末端区段或两者包括分别相对于第一参考重复序列或第二参考重复序列的一个或多个核苷酸变化或此类核苷酸变化的组合。在实施方式中，所述RNA多核苷酸与IF-3b型CRISPR系统一起时具有功能性，并且表现出比在所述IF-3b型CRISPR系统中用作向导RNA的RNA多核苷酸更有效的包括原型间隔子的DNA模板的修饰，但其中所述向导RNA不包括所述一个或多个核苷酸变化，例如，所述向导RNA不包括非典型重复序列。在实施方式中，所述向导RNA包括5′末端区段，所述5′末端区段包括8个核苷酸或由其组成。在实施方式中，所述向导RNA包括3′末端区段，所述3′末端区段包括20个核苷酸或由其组成，并且任选地所述20个核苷酸的3′末端是G。在实施方式中，所述向导RNA的3'末端区段形成包括回文序列的茎环。

在非限制性实例中，本公开的RNA多核苷酸包括作为参考序列的第一重复参考序列，所述第一重复参考序列由第一已存在重复序列编码，所述第一已存在重复序列位于内源性原核CRISPR阵列中的Cas6编码序列的3'端。在实施方式中，第二参考重复序列由第二已存在重复序列编码，所述第二已存在重复序列位于所述内源性原核CRISPR阵列中的所述Cas6编码序列的3′端。在实施方式中，所述第一参考重复序列和/或所述第二参考重复序列与存在于细菌或古菌中的重复序列相同，其中所述细菌或古菌中的所述重复序列与CRISPR阵列中不是通过所述细菌获得的最近获得的间隔子的间隔子邻接，例如，第一重复序列的3'末端紧邻间隔子的5′末端，所述间隔子不是插入到所述阵列中的最近的间隔子。同样，所述间隔子的3'末端紧邻所描述的重复序列-间隔子-重复区段中的第二重复序列的5′核苷酸。在实施方式中，所述内源性原核CRISPR阵列可以是γ变形菌纲CRISPR阵列。在非限制性实施方式中，所述参考重复序列和/或所述非典型重复序列可以从杀鲑气单胞菌(A.salmonicida)CRISPR阵列获得。

本公开包括作为核糖核蛋白(RNP)复合物的组分提供的所描述的RNA多核苷酸。在实施方式中，所述RNP包括所描述的向导RNA和蛋白质，所述蛋白质选自Cas5、Cas6、Cas7、Cas8和其组合。在一实施方式中，所述RNP包括所述Cas6，并且包括非典型重复序列的3′末端区段的至少一部分的茎环被所述RNP中的所述Cas6识别。在实施方式中，所述向导RNA的所述靶向序列被选择用于包括在加工成向导RNA的所述RNA多核苷酸中，使得所述RNA多核苷酸适用于对包括原型间隔子的已知DNA靶序列进行基于CRISPR的修饰。在实施方式中，所述向导RNA中的所述靶向序列(例如，间隔子)可以与所述原型间隔子完全相同，或者可以包括所述间隔子与所述原型间隔子之间的某些错配。在某些实施方式中，所述间隔子的长度不超过29个核苷酸，并且因此可以构成截短的间隔子。在实施方式中，本公开的RNA多核苷酸仅包括一个重复序列-间隔子-重复序列或多于一个重复序列-间隔子-重复序列，其中所述重复序列中的至少一个重复序列是非典型重复序列。在实施方式中，所描述的重复序列-间隔子-重复序列中的间隔子可以是同一间隔子序列，或者可以使用不同的间隔子序列，其中在所述RNA多核苷酸中存在多于一个重复序列-间隔子-重复区段。

本公开包括编码本文所述的RNA多核苷酸中的所有RNA多核苷酸的表达载体，包括但不限于所有非典型重复序列和非典型重复序列的所有组合。还包括从这种表达载体转录的分离的RNA多核苷酸，也包括细胞，包括真核细胞和原核细胞，所述细胞包括所述表达载体。

在一方面，本公开提供了一种用于修饰一个或多个细胞中的遗传靶标的系统。所述系统包括所描述的RNA多核苷酸或编码所述RNA多核苷酸的一个或多个载体，并且还包括第一组转座子基因tnsA、tnsB、tnsC和tniQ；Cas基因cas8f、cas5f、cas7f和cas6f；以及任选地编码转录调节子的xre基因，或任选地由所述基因中的一个或多个基因编码的一种或多种蛋白质。在实施方式中，所描述的蛋白质中的至少两种蛋白质可以存在于融合蛋白中。

所述系统还包括DNA负载，所述DNA负载可以在DNA靶标中接近所述原型间隔子的位置被引入到DNA中。在非限制性实施方式中，用于所描述系统的基因或由所述基因编码的蛋白质任选地包括相对于参考序列的一个或多个氨基酸变化。在实施方式中，所述氨基酸变化可以在tnsA基因、tnsB基因、tnsC基因或作为所述系统的组分的本文所述的其它基因和蛋白质中。

在一方面，本公开包括一种方法，所述方法包括在细胞中引入或表达所描述的系统。在实施方式中，所述方法适用于修饰原核细胞或真核细胞。在实施方式中，包括所描述的向导RNA的RNA多核苷酸中的靶向序列靶向细胞中的染色体或质粒中的原型间隔子。所描述的方法包括将DNA负载引入到所述细胞中。所述DNA负载在接近所述原型间隔子的位置插入到所述染色体或质粒中。在实施方式中，所述DNA负载在距所述原型间隔子的末端48个核苷酸的位置处插入到所述染色体或所述质粒中。在某些实施方式中，所述DNA负载包括转座子左末端和转座子右末端。

在另一方面，本公开提供了一种方法，所述方法包括：分析来自多个生物体的CRISPR阵列；确定所述CRISPR阵列中的侧接间隔子的重复序列；将侧接较早获得的间隔子的重复序列与侧接较晚获得的间隔子的重复序列进行比较；确定侧接所述较早获得的间隔子的重复序列与所述较晚获得的间隔子的重复序列之间的差异；以及将不同于侧接所述较晚获得的间隔子的所述重复序列的侧接所述较早获得的间隔子的所述重复序列指定为用于设计在基于CRISPR的DNA修饰中使用的向导RNA的候选物。在实施方式中，本公开包括产生RNA多核苷酸，所述RNA多核苷酸包括使用所描述的方法所鉴定的序列。本公开进一步包括在基于CRISPR的DNA修饰中使用所描述的方法鉴定的RNA多核苷酸，所述修饰可以包括将DNA负载插入到染色体或质粒中。因此，在实施方式中，本公开包括在具有不同间隔子和/或重复序列的所分析的CRISPR阵列中提供和使用RNA多核苷酸，所述RNA多核苷酸包含间隔子或重复序列或其组合的取代的RNA多核苷酸。在实施方式中，所述间隔子的长度任选地不长于29个核苷酸。本公开包括文库，所述文库包括根据所描述的方法鉴定和产生的RNA多核苷酸，其中所述RNA多核苷酸包括靶向DNA的区段的间隔子。所述间隔子序列可以由系统的用户设计。

本公开还包括数据库，所述数据库包括多个条目，所述多个条目包括通过所描述的方法鉴定的序列。本公开进一步包括从所描述的数据库中选择序列，以及产生包括经鉴定的序列的表达载体和/或RNA多核苷酸。

在另一方面，本公开包括一种用于产生在基于CRISPR的DNA修饰中使用的表达载体的试剂盒。所述试剂盒包括表达载体，所述表达载体包括一个或多个限制性核酸内切酶识别位点，所述一个或多个限制性核酸内切酶识别位点被配置成克隆期望的间隔子，使得所述间隔子与根据权利要求所述的方法鉴定的一个或多个重复序列或如本文进一步描述的其它非典型重复序列邻接。所述试剂盒还可以包括表达载体，所述表达载体包括以下中的一些或全部：tnsA、tnsB、tnsC和tniQ；Cas基因cas8f、cas5f、cas7f和cas6f；以及任选地xre基因，或由这些基因中的一个或多个基因编码的一种或多种蛋白质。

附图说明

图1：在γ变形菌纲中发现的具有I-F3 CRISPR-Cas系统的Tn7样元件。代表由宿主菌株指示的802个元件的TnsA蛋白相似性树。>90％相同的元件用单一代表指示。计算重复序列的相似性评分，并且以黑色(高)至灰色(低)阴影指示。间隔子用矩形指示(较短的矩形指示截短的间隔子)。

图2：从具有I-F3 CRISPR-Cas系统的Tn7样元件的四个att-位点家族中选择的代表。三个主要家族(att位点；yciA、guaC和ffs)和一个次要家族(rsmJ)的代表由宿主指示。(A)指示了转座基因(tnsA、tnsB、tnsC和tniQ/tnsD)；Cas基因cas6、cas7和cas8/5；以及调节子xre。如图1所示的CRISPR阵列。指示了元件的左(L)末端和右(R)末端以及推定的Xre结合位点(星号)。(B)向导RNA与原型间隔子之间的匹配示出在每个基因上(框箭头)，其中指示元件的右端(灰色框)和宿主。示出了从原型间隔子到靶位点重复(TSD，灰色且加有括号)的距离。图2B按出现顺序分别公开了SEQ ID NO:5731-5741。(C)CRISPR阵列用前导区域和间隔子(S#)以及所指示的重复序列(R#)来指示，所示重复序列示出了重复序列的序列。指示了与第一重复序列(红色)的序列差异，注意到保持茎(浅蓝色)的变化以及使茎(加框)的反向重复。指示阵列中的空位的大小，注意推定的Xre调节位点。图2C按列顺序分别公开了SEQ ID NO:4762、4762-4766、374-376、3021、3021-3024以及1286-1289。

图3：源自杀鲑气单胞菌S44的I-F3b Tn6900元件允许用典型和非典型重复序列进行RNA向导的转座。使用杀鲑气单胞菌S44天然阵列或作为单独的重复序列-间隔子-重复单元测试各种转座靶。(A)转座/CRISPR相关基因、CRISPR阵列(如图1所标记)以及具有所指示的5′和3′柄的所得典型和非典型向导RNA的简化表示。指示了Cas6处理的位置(剪刀)。图5A按出现顺序分别公开了SEQ ID NO:5742-5744。(B)用天然杀鲑气单胞菌S44阵列发现的转座频率，其中靶构建到F质粒中；杀鲑气单胞菌S44质粒pS44-1(pS44-1)、染色体ffs att位点(ffs)或阴性对照lacZ基因。(lacZ)(C至E)在间隔子与来自Tn6900的典型或非典型重复序列的各种组合中用单个重复序列-间隔子-重复单元发现的转座频率，其中所指示靶标构建到F质粒中。所有数据表示平均值+/-标准偏差(n＝3)。

图4：Tn7-CRISPR-Cas元件、Tn6677和Tn6900的非典型重复序列的分析。(A)作为阵列中位置的函数的典型和非典型重复序列的共有序列。符号如先前图所示，其中指示茎环(顶部，对于I-F3a，n＝85；对于I-F3b，n＝74)、(中间，对于I-F3a，n＝51；对于I-F3b，n＝41)或(底部，对于I-F3a，n＝51；对于I-F3b，n＝41)。(B-D)通过具有所指示间隔子和其相关靶标的Tn6900(B)或Tn6677(C和D)的典型和非典型向导RNA的变化发现的转座频率。图4B按出现顺序分别公开了SEQ ID NO:5743、5745-5746和5744。图4D按出现顺序分别公开了SEQ IDNO:5747-5750。测试典型的向导RNA，与非典型重复序列(红色)或经工程化的突变(加下划线)的天然存在的变化进行比较。所有数据表示平均值+/-标准偏差(n＝3)。

图5：铜绿假单胞菌(P.Aeruginosa)I-F1型级联可以在质粒干扰测定中利用异源I-F3CRISPR阵列，但错配和I-F3b非典型向导RNA允许私有化。具有各种阵列的铜绿假单胞菌Cas蛋白的表达降低了包括原型间隔子的质粒而非对照的转化效率。来自铜绿假单胞菌PA14和具有ffs间隔子的杀鲑气单胞菌S44 Tn6900以及具有guaC间隔子的霍乱弧菌(V.Cholerae)HE-45Tn6677的单个单元阵列在典型和非典型重复构型中进行测试。间隔子与原型间隔子完全匹配或包括天然错配。图10B呈现了重复构型序列。所有数据表示平均值+/-标准偏差(n＝3)。

图6：Xre蛋白调节RNA向导的转座的组分。(A至B)I-F3a和I-Fb元件中推定的Xre结合基序的共有序列。(C至D)由EMSA解析的Xre-结合。在电泳之前，将具有转录控制区的DNA片段与来自相应元件的渐增量的Xre蛋白一起温育(100nM DNA；蛋白质:DNA比率＝0:1、2:1、5:1、10:1、20:1)。(E至F)在不同阿拉伯糖控制的Xre表达水平下，通过由米勒单位监测的LacZ表达解析的启动子功能。从霍乱弧菌HE-45Tn6677(Vc)、副溶血性弧菌(V.parahaemolyticus)RIMD221063(Vp)、杀鲑气单胞菌S44 Tn6900(As)和弧菌(Vibriosp.)10N.286.45.B6(VB6)指示转录控制区。

图7：Xre调节程序允许在缀合转移之后在新宿主中接合子诱导转座功能启动子。与Xre转录控制区融合的lacZ的转移导致在天然受体菌株中表达的突发，但不包括表达Xre调节蛋白的受体。供体和受体被电镀在一起进行配对(实线)或单独电镀(虚线)作为对照。收获细胞并且将对照混合，并且通过如所指示的米勒单位监测LacZ表达。所有数据表示平均值+/-标准偏差(n＝3)。

图8：气单胞菌(Aeromonas)元件特征和转座。(a)在表明最近的活性的不同细菌物种中发现的两个近乎相同的I-F3b Tn7-CRISPR-Cas元件的示意图。核心特征如图2a所示。元件位于嗜水气单胞菌(A.hydrophila)AFG_SD03的染色体ffs位点或插入到杀鲑气单胞菌S44中的大缀合质粒(pS44-1)上发现的磷酸腺苷磷酸硫酸还原酶基因(cysH)中。嗜水气单胞菌元件在被明显的IS元件插入所中断的若干重叠群中分裂。(b)杀鲑气单胞菌S44和嗜水气单胞菌AFG_SD03 CRISPR阵列的前导序列-近端位置的间隔子与编码cysH的质粒中的原型间隔子相匹配。指示了原型间隔子的相对位置。示出了距与杀鲑气单胞菌S44间隔子相匹配的原型间隔子的边缘至靶位点重复(TSD)的中心位置、5bp TSD(加下划线)以及转座子末端的末端序列的距离。图8B按出现顺序分别公开了SEQ ID NO:5751-5752。(c)来自杀鲑气单胞菌S44和嗜水气单胞菌AFG_SD03中的Tn7样CRISPR阵列的重复序列和间隔子。重复序列如图2c所标注。与第一重复序列的差异用红色指示。向导RNA与原型间隔子之间的匹配由短垂直线指示。推定的I-F PAM加下划线。图8C按列顺序分别公开了SEQ ID NO:5802-5803、5753、5754、5804、5755-5758、777-781、5759、5760、5757和5805。(d)用非典型向导RNA复合物以高效率靶向染色体或F质粒上的原型间隔子。用F::lacZ质粒或染色体(lacZ在其天然位置)测试相同的三种lacZ向导RNA复合物，并且通过在麦康基氏乳糖指示剂培养基(MacConkey′s lactose indicator media)上产生白色对红色菌落来指示插入事件。图示出了三个生物重复品的平均值+/-标准偏差以及观察到的白色菌落数和菌落总数。(e)染色体上的不同基因可以被靶向用于大肠杆菌(E.coli)染色体中的非典型向导RNA定向的转座。对半乳糖(galK)和山梨糖醇(srlD)的两个基因进行测试，其中每个基因具有两个间隔子(顶部链和底部链)。通过监测导致糖分解代谢损失的基因失活来测定转座频率，如在适当的麦康基氏指示剂培养基上通过白色对红色菌落可视化的。图示出了三个生物重复品的平均值+/-标准偏差。

图9：测定全转座频率和位置。(a)配对输出测定示意图：将具有适当的原型间隔子的靶DNA重组到F质粒上，并且在表达载体上提供转座基因和阵列，以动员位于染色体中的微型Tn供体元件(方法)。诱导后，通过将F质粒群体配对到供体菌株中，并且如图所示定量转接合子中存在的抗生素标志物来确定转座频率。(b)转接合子中的转座位置和定向通过PCR来确定。内部引物和侧接靶位点的两种引物捕获插入的定向。对于Tn6900，监测pS44-1靶向的插入；对于Tn6677，监测guaC^Vc靶向的插入。*对于Tn6900典型阵列插入分离株12、13和14，第一PCR反应失败，并且用同一模板菌株重复。(c)转座位置和靶位点重复通过Tn6900转座的桑格测序(Sanger sequencing)来确认。箭头指示靶向pS44-1的分离的转座事件的靶位点重复的中心碱基的位置，其中从原型间隔子至八个转座事件列出的靶位点复制的中心位置的距离证实了先前描述的靶位点摆动。图中示出了实际靶位点重复(TSD)的一个代表。图9C按出现顺序分别公开了SEQ ID NO:5759、5761-5765和5763。

图10：干扰测定重复序列。在干扰测定中使用的重复序列(按出现顺序分别为SEQID NO:5766-5770)。与铜绿假单胞菌重复序列的差异用灰色指示。框指示在I-F重复序列中包括推定的茎环的先前建立的保守区。N32指示在间隔子中编码的位置。

图11：I-F3 Xre聚集成具有限制性修饰C蛋白的两个进化支。(a)具有相关C蛋白C.AhdI和C.Csp23II(以青色和紫红色进行标记)的Xre(生根中点)的相似性树，这表明在两个分支中聚集。特征如图1所示。(b)Xre和相关C蛋白的预测的调节子序列。保守的反向基序序列由粗体文本和黑色箭头指示。下游基因的起始密码子被加下划线，除了pAttGuide序列之外，其中att靶向间隔子的前三个碱基被加下划线。图11B按出现顺序分别公开了SEQ IDNO:5792-5801。

图12：相对于阅读框比较间隔子和原型间隔子。将四个主要的att位点靶向间隔子与每个宿主中的原型间隔子(靶标)进行比较：ffs、guaC、yciA和rsmJ。错配的百分比由比较独特间隔子-原型间隔子组合的间隔子中的位置指示(涉及以红色显示预测的翻转出的第6个位置的向导RNA的图)。表明氨基酸序列与编码序列有关(注意，ffs作为RNA起作用，并且yciA基因在guaC和rsmJ的相反链上编码)。独特间隔子和原型间隔子的共有序列如Weblogo所示。指出每个间隔子-原型间隔子的错配总数，排除在I-F系统中的级联复合物中翻转出的第6个位置。包括在表格中的数字被指示为(n)。图12按出现顺序分别公开了SEQ ID NO:5771-5773。

图13：具有缩短的间隔子的元件及其插入位置。(a)ffs整合元件(按出现顺序分别为SEQ ID NO:5737、5738、5774-5780、5778、5781和5780)，(b)araC样整合元件(按出现顺序分别为SEQ ID NO:5782-5785、5782-5784、5786-5788、5784、5789、5787、5790、5784和5791)。特征如图2b所示。示出了每个元件的阵列，其中重复序列用深灰色标记，间隔子用浅灰色标记，并且保守Cas6结合基序被加下划线。

图14：插入在pare下游的元件的示意图。TniQ蛋白的相似性树表明，弯头副希瓦氏菌(Parashewanella curva)C51具有代表性的组，所述组具有靶向parE att位点的元件和使用I-F3 CRISPR-Cas系统的元件。在元件中找到两个TniQ的情况下，用于相似性树的TniQ用突出显示来指示。

图15：底图描绘了与经加工的向导RNA相关的酶(上图)以及说明性上游和下游重复序列、匹配的间隔子、CRISPR阵列的重复序列、间隔子和重复区段的3′和5′处理区段。包括核苷酸的图形描绘。示出了通用I型系统。S蛋白是不存在于IF-3系统中的小亚基蛋白。在I-F3系统中，Cas8和Cas5蛋白存在于融合蛋白中。

图16：使用如图3B和9A中描述的实验方法使用配对输出测定确定的转座效率的图形描绘，其中F质粒lacZ靶标具有单一向导RNA、lacZ4间隔子(还参见图3E)。向导RNA包括来自杀鲑气单胞菌S44的非典型重复序列。854GC构建体包括TnsA和TnsB蛋白的融合体，在TnsA蛋白的C末端处具有HG的缺失，并且在缺失位点处具有A的插入。TnsA-TnsB 855GC包括TnsA和TnsB蛋白的融合体，在TnsA蛋白的C末端处具有HG的缺失，并且在缺失位点处具有R的插入。产酸克雷伯菌(K.ocytoca)连接子构建体包括TnsA-TnsB蛋白的融合体，其通过插入来自产酸克雷伯菌的8个氨基酸连接子分开，如下所述。NLS-Strep构建体包括TnsA-TnsB的融合体，其中两个蛋白区段在N-C末端方向的连续序列中由GSG连接子、核定位信号、Strep亲和标签和另一个GSG连接子分开。TnsABC载体表达未融合的TnsA、TnsB和TnsC蛋白作为对照。所有实验包括TniQ和级联蛋白，所述级联蛋白在本文中进一步进行描述。数据表明，某些氨基酸(即，HG)的去除、氨基酸(例如，A和R)的添加、标签(例如，Strep标签)的添加以及连接子(例如，GSG和产酸克雷伯菌连接子)的添加是耐受的，并且所描述系统保留其转座功能。

具体实施方式

本公开提供了涉及在DNA修饰中使用的CRISPR系统的组合物和方法。具体地，本公开提供了向导RNA(gRNA)和编码所述gRNA的表达载体，其中所述gRNA包括非典型重复序列(例如，作为非典型重复顺序的RNA等效物的序列，如在CRISPR阵列中发现的序列)，如下文进一步描述的。gRNA还可以包括截短的间隔子。gRNA与蛋白质协作以形成用于在增强的DNA编辑中使用的系统。

除非本文另有定义，否则本公开中所使用的所有技术术语和科学术语的含义与本公开所属领域的普通技术人员通常所理解的含义相同。

贯穿本说明书给出的每一数值范围包括所述数值范围的上限值和下限值，以及落入其中的每一较窄数值范围，如同此类较窄数值范围全部在本文中明确写出一样。

本公开包括本文所述的所有多核苷酸序列和氨基酸序列。每个RNA序列包括其DNA等效物，并且每个DNA序列包括其RNA等效物。包括互补和反平行的多核苷酸序列。本公开涵盖了编码本文所公开的多肽的每个DNA和RNA序列。还包括所有蛋白质序列的氨基酸和编码其的所有多核苷酸序列，包括但不限于通过序列比对的方式包括的序列。包括与本公开的任何序列(氨基酸序列和核苷酸序列)80.00％至99.99％相同的序列。

本公开包括本文中通过数据库条目鉴定的所有多核苷酸和所有氨基酸序列。此类序列以其存在于本申请或专利的提交日的数据库中的方式并入本文。本公开包括未加工的(例如，未被所描述的CRISPR蛋白修剪的RNA)和经加工的RNA多核苷酸(例如，被所描述的CRISPR蛋白修剪的RNA)。本公开包括：序列表和附图中所呈现的序列中的所有序列；包括那些序列中的每个序列的较长序列，例如，包括在5'和3′末端具有另外的序列的所描述序列或由所述所描述序列组成的序列；以及所描述序列中的所有连续区段。在实施方式中，所描述的gRNA序列的长度为28至37个核苷酸，包括但不限于所有非典型重复序列和间隔子序列，包括但不限于截短的间隔子序列。在实施方式中，gRNAs可以包括长度为29个核苷酸的间隔子。本公开包括不同序列及其区段的组合。还包括每个序列的RNA等效物(例如，用U替换T)，gRNA也是如此，所述gRNA包括此类RNA等效物，无论任何另外的序列(包括间隔子)如何。包括编码本文所述的重复序列的任何一个或组合的表达载体。包括序列的cDNA序列。在描述基因的情况下，本公开包括基因编码的蛋白质。

本公开的任何RNA多核苷酸可以最初转录为向导RNA前体，包括但不限于crRNA，并且可以从仅包括一个重复序列-间隔子-区段或多于一个重复序列-间隔子-区段的DNA模板转录，其后者包括但不限于CRISPR阵列的全部或一部分，例如，编码多于一个重复序列-间隔子-重复区段的DNA的区段。本公开还包括混合阵列，其中至少一个或一些重复序列包括如下文所讨论的非典型重复序列，而其它重复序列可以与同样如下文所讨论的一个或多个参考重复序列相同。

预期本公开的向导RNA(有时被称为“gRNA”)可以适用于许多CRISPR系统。本公开的gRNA包括但不限于本文中通过作为DNA重复序列的RNA等效物的完整序列的方式明确描述的序列，或者在如本文所述的某些位置处的核苷酸位置可以变化的此类序列。本公开还包括gRNA及其用途，所述gRNA包括可以根据本文所述的方法制备的gRNA。

在实施方式中，本公开的gRNA可以与任何1类或2类CRISPR系统一起发挥作用。在实施方式中，本公开的gRNA与CRISPR系统，例如最初在细菌或古菌中发现的CRISPR系统一起使用，所述CRISPR系统包括转座子蛋白。在实施方式中，本公开的gRNA与I-F型或I-B型CRISPR-Cas系统一起使用。在实施方式中，本公开提供了用于在与Tn7样转座子相关的CRISPR系统中使用的gRNA。具体地，细菌基因组显示许多Tn7样转座子包括：“最小”I-F型CRISPR-Cas系统，其包括融合的cas8f和cas5f、cas7f和cas6f基因；以及短的CRISPR阵列。在实施方式中，本公开的gRNA与I-F CRISPR/Cas元件一起使用。此类系统连同本文所述的另外的组分提供了gRNA的代表性用途，所述gRNA是本公开的至少一个方面。

无论所使用的CRISPR系统的类型如何，最近对CRISPR促进的遗传编辑(包括但不限于插入)的分析表明，所有插入都可以通过向导RNA来解释。另外，在染色体中发现并且来源于多次使用的某些CRISPR系统的保守插入位点的家族包括附着位点，缩写为“att”位点。

在实施方式中，向导RNA包括重复序列，相对于相同阵列中的其它重复序列，所述重复序列是在某些CRISPR阵列中鉴定为具有突变的重复序列的区段的RNA等效物，并且此类重复序列在本文中有时被称为“非典型的”。如本文所使用的“RNA”等效物意指RNA多核苷酸与所描述的DNA序列具有相同序列和相同定向，除了在RNA多核苷酸中用尿嘧啶替代胸腺嘧啶的常规取代之外。

在不旨在受任何特定理论的束缚的情况下，先前已经认为“较老的”重复序列(例如，侧接较不最近获得的间隔子的重复序列)具有阻碍包括重复序列和较不最近获得的间隔子序列的向导RNA的功能的突变。然而，如本公开中所揭示的，认为包括非典型重复序列(可以或可以不侧接截短的间隔子)的gRNA可以优先地被某些Cas酶(如Cas5和Cas6)复合和加工，所述酶识别5′重复序列和3′重复序列(相对于5′->3′定向的中间间隔子)，使向导RNA-Cas蛋白复合物更具活性。可替代地或另外地，所得向导RNA Cas蛋白复合物具有在用典型重复序列制备的复合物中未发现的增强的活性。

在实施方式中，本公开提供了用于在DNA的基于CRISPR的修饰中使用的RNA多核苷酸(例如，gRNA)，如本文进一步所描述。在实施方式中，RNA多核苷酸在5′至3′定向上连续包括以下组分，为了清楚起见，列为A、B和C：

A)5′末端区段，所述5′末端区段包括第一RNA序列，所述第一RNA序列是编码向导RNA的DNA模板(包括但不限于CRISPR阵列)中的非典型第一重复序列的RNA等效物或从所述非典型第一重复序列转录。在实施方式中，向导RNA的5′末端区段(例如，源自重复序列)当在操作中(例如，在RNA-蛋白复合物的DNA结合期间以促进例如DNA模板的插入)时包括8个核苷酸或由其组成。

B)用于DNA靶向的RNA序列(靶向序列，例如，间隔子)，其中靶向序列与DNA中的原型间隔子互补，并且其中间隔子可以具有如本文进一步所描述的核苷酸长度。

C)3′末端区段，所述3′末端区段包括第二RNA序列，所述第二RNA序列是编码向导RNA的DNA模板中的第二非典型重复序列的RNA等效物或从所述第二非典型重复序列转录，其中任选地3′末端区段包括20个核苷酸或由其组成。但可以包括另外的核苷酸，如下文进一步所描述。

所描述的RNA多核苷酸(例如，所描述的向导RNA)包括间隔子序列，包括但不限于截短的间隔子序列，所述间隔子序列可以由所描述系统的用户进行选择，以将CRISPR系统引导到DNA底物中的所选位置，由此促进任何期望的DNA模板在预定位置处的插入。

在实施方式中，RNA多核苷酸是重组RNA多核苷酸。“重组”多核苷酸意指相对于天然存在的RNA多核苷酸已经发生实验改变的RNA多核苷酸。因此，重组RNA多核苷酸已经被工程化以，例如，包括靶向DNA序列的所选间隔子。重组RNA多核苷酸还可以包括已经置于所选间隔子的上下文中的一个或多个非典型重复序列。重组多核苷酸可以包括从被设计成编码期望RNA的表达载体而表达的RNA，或者可以是化学合成的。重组RNA多核苷酸还可以包括本文进一步所描述的修饰。本公开还包括例如编码本文所述的RNA多核苷酸和/或蛋白质的重组DNA分子。

本公开的某些方面总体上通过参考图15来说明。图15示出了代表性“上游”和“下游”重复序列(例如，中间间隔子的5′和3′)，在天然阵列设置中，所述重复序列衍生自具有适当的原型间隔子相邻基序(PAM)的原型间隔子。DNA序列以5′->3′定向示出，并且编码可以与所指示的Cas蛋白形成复合物的向导RNA，如插图所示。为简单起见，仅示出了包括CRISPR阵列的重复序列-间隔子-重复区段的DNA的单链。图15中所示的序列与向导RNA相同，除了每个T被U替代之外。编码作为单个单元与CRISPR蛋白缔合的向导RNA区段的DNA区段被标记为“此区域与上文所示的向导RNA相对应”。因此，所描述的区域说明了将作为单个向导RNA进行加工的内容，以及其与DNA模板的相互作用。在经匹配的间隔子之上的是经加工的单个向导RNA(标记为“crRNA”)的底图描绘，以及PAM在双链DNA靶标中的相对位置。Cas6切割位点由剪刀指示。在图15中，如相对于阵列中的重复序列进行编号的核苷酸展示了侧接中间间隔子的5′和3′区段边界。根据本公开用作向导RNA的RNA多核苷酸包括靶向如“经匹配的间隔子”区段中所示的DNA底物的RNA序列。本公开提供的向导RNA包括RNA核苷酸序列，所述核苷酸序列是上游和下游重复序列的RNA等效物，其中可变核苷酸位置由核苷酸的相对大小说明，使用图15作为非限制性说明。

关于图15，在如本文所述的基于CRISPR的DNA修饰技术中使用的RNA多核苷酸可以由包括至少一个重复序列-间隔子-重复序列的双链DNA模板产生，其中图15示出了包括CRISPR阵列中的代表性和非限制性上游和下游重复序列的单个DNA序列。

在不旨在受任何特定理论的束缚的情况下，认为定义如本文所述的非典型重复序列的核苷酸影响本文所述的CRISPR系统的功能，所述核苷酸的至少部分可以掺入到本公开的向导RNA中。然而，并且再次在不旨在受理论的束缚的情况下，还认为存在于DNA中的上游和下游非典型重复序列中的核苷酸可以影响靶DNA的基于CRISPR的修饰的性能，即使此类RNA等效核苷酸最终不存在于经加工的向导RNA中。例如，使用图15作为非限制性说明，在某些实施方式中，本公开的向导RNA的第一5′末端区段可以仅包括与上游重复序列相对应的核苷酸21-28，但是此区段以及核苷酸21的更上游的DNA模板中的核苷酸可以从参考重复序列发散，并且这种发散的非典型序列也可以有助于改善目前提供的系统的性能。因此，在某些实施方式中，本公开的RNA多核苷酸的第一(非典型)5′/上游区段重复序列中的核苷酸中的任何一个或多个核苷酸可以与参考重复序列在上游重复序列的核苷酸位置21、22、23、24、25、26、27或28之一或任何组合上不同。在实施方式中，相对于参考重复序列，仅1个、2个、3个、4个、5个、6个、7个或全部8个此类核苷酸发生改变。在某些实施方式中，上游重复序列中的核苷酸21可以与参考重复序列相同或不同。这同样适用于非典型重复序列中的更上游的核苷酸位置，例如，上游重复序列的位置22-41中的任何一个或组合中的非典型核苷酸可以影响并改善本公开的系统的功能。这被认为是这种情况，即使此类非典型核苷酸在特定向导RNA的序列被加工并且在至少部分由靶向DNA区段指定的序列的修饰中起作用之后不存在于所述序列中。同样，本公开的向导RNA的3′末端区段(例如，“下游”区段)可以包括下游重复序列的核苷酸1-20，所述核苷酸可以包括不同于参考下游重复序列的至少一些核苷酸，但本公开包括可以延伸超过下游重复序列中的核苷酸20的RNA多核苷酸。

在某些实施方式中，3′区段将通常但不一定总是包括G作为其3′末端核苷酸，作为功能性向导RNA的组分，例如，如图15的底图中所描绘的向导RNA。在某些实施方式中，下游重复序列中的核苷酸变化保留核苷酸6-9和16-20中的参考重复序列，如以促进形成适当的3′发夹结构，如图15的底图所示。然而，本公开包括相对于参考重复序列，下游重复序列中的核苷酸6-9和16-20的变化，前提是变化的核苷酸共同能够形成被认为是向导RNA加工所需的发夹结构。因此，本公开包括从在DNA模板中的下游重复序列的位置21-28中包括非典型核苷酸的模板制备将充当经加工的向导RNA的RNA多核苷酸，即使此类序列的RNA等效物不存在于用于修饰预期靶DNA的经加工的RNA中。

在某些实施方式中，靶向DNA靶向序列(例如，间隔子)的RNA序列与原型间隔子序列互补。DNA靶向序列被选择用于包括在RNA多核苷酸中，使得RNA多核苷酸适用于已知的DNA靶序列的基于CRISPR的修饰，所述靶序列包括与RNA多核苷酸中的靶向DNA序列互补的序列。在实施方式中，使用所描述的RNA多核苷酸作为向导RNA的DNA的CRISPR修饰包括将转座元件引入到作为染色体或质粒的一部分的DNA中。

在非限制性实例中，在RNA多核苷酸的5′末端区段和/或3′末端区段中，相对于参考重复序列中的同一核苷酸位置，核苷酸5′末端或3′末端区段序列的核苷酸位置1-4内的至少一个核苷酸在第一序列和/或第二序列中发生变化。非典型重复序列中的核苷酸变异的位置的非限制性说明示出在本公开的附图中，并且提供于序列表中。相对于参考重复位置，5′和3′末端序列可以在1-10位置(包括端点)中变化。在实施方式中，包括所描述的RNA多核苷酸的核糖核蛋白复合物以与Cas5、Cas6、Cas7和Cas8之一或组合的复合物存在。这种复合物可以在体外或体内，如在原核细胞或真核细胞中。

在实施方式中，所描述的RNA多核苷酸的5′末端区段和3'末端区段包括与参考重复序列中的回文序列相同或不同的回文序列。在实施方式中，第一参考重复序列和/或第二参考重复序列与存在于细菌或古菌中的重复序列相同，其中细菌中的重复序列与生物体获得的最后一个间隔子邻接，或与比在同一阵列中的另一个间隔子较不最近获得的间隔子邻接。下文进一步描述了适合与所描述的向导RNA一起使用的蛋白质。

本公开包括编码RNA多核苷酸的表达载体，所述RNA多核苷酸包括本文所述的或通过本文所述的方法鉴定的非典型重复序列(例如，作为非典型重复序列或此类重复序列的部分的RNA等效物的RNA序列)。在实施方式中，本公开包括从这种表达载体转录的RNA多核苷酸，其中RNA多核苷酸可以是分离和/或纯化的。包括细胞，所述细胞包括此类RNA多核苷酸和编码所述RNA多核苷酸的表达载体。

在非限制性实施方式中，所描述系统中所使用的蛋白质包括至少一种蛋白质，所述至少一种蛋白质来自或衍生自包括I-F3b转座子的一种或多种生物体。在实施方式中，蛋白质源自生物体，所述生物体通过例如使用表达载体或mRNA表达蛋白质，所述mRNA由用于修饰DNA模板的所描述系统的用户产生，如本文进一步所描述。源自天然存在的蛋白质的蛋白质也可以具有修饰，如核定位信号，和/纯化标签。

在实施方式中，所述一种或多种I-F3b蛋白包括I-F3b转座子蛋白TnsA、TnsB、TnsC、TniQ；以及I-F3b Cas蛋白Cas8、Cas5、Cas7和Cas6。所述蛋白质中的一种或多种蛋白质可以与或不与其它蛋白质融合在一起。在实施方式中，Cas8和Cas5存在于单个融合蛋白中。在实施方式中，TnsA和TnsB存在于单个融合蛋白中。在实施方式中，TniQ与所描述蛋白质中的另一种蛋白质融合。在实施方式中，TniC和TniQ彼此融合。在实施方式中，所描述蛋白质中的多于两种蛋白质可以存在于融合蛋白中。在实施方式中，蛋白质在不连接氨基酸的情况下彼此融合。在替代性实施方式中，可以包括连接氨基酸。在非限制性实施方式中，连接氨基酸可以形成柔性连接子，并且因此可以包括一个或多个氨基酸以提供柔性，如富含甘氨酸的连接子。在非限制性实施方式中，连接子包括甘氨酸和丝氨酸。在一实施方式中，连接子包括1至12个氨基酸。在一实施方式中，连接子包括GSG序列或由其组成。在实施方式中，可以使用多于一个连接子。在一实施方式中，连接子包括来自产酸克雷伯菌(K.oxytoca)的蛋白质的区段。在一实施方式中，产酸克雷伯菌连接子包括N末端至C末端方向上的连续序列，所述连续序列包括所有KYA、QQN、SLF、ICS和FP。在实施方式中，本公开的蛋白质可以包括标签(如纯化标签)或其它标签。在一实施方式中，标签包括Strep标签。合适的Strep标签的氨基酸序列是本领域已知的。在一实施方式中，Strep标签在N末端至C末端方向上包括所有WSH、PQF和EK。在实施方式中，本公开的蛋白质包括核定位信号(NLS)。合适的NLS序列是本领域已知的。在一实施方式中，NLS包括在N末端至C末端方向上的连续序列，所述连续序列包括所有PKK、KRK和V。在一实施方式中，本公开的蛋白质包括连续序列，所述连续序列在N末端至C末端方向上包括连接子、NLS、Strep标签和另一个连接子，所述另一个连接子可以包括与第一连接子相同的序列。在一实施方式中，所描述的氨基酸序列的改变包括氨基酸的缺失。在一实施方式中，可以在融合蛋白中缺失例如由杀鲑气单胞菌(Aeromonas salmonicida)菌株S44质粒pS44-1编码的TnsA的末端HG。在实施方式中，HG的缺失伴随着在缺失位置处插入A或R。代表性融合蛋白已经被构建并确定为在标准配对输出测定(所述测定结合图3B和9A描述)中用于转座起作用，其中在非典型重复序列的上下文中，F质粒lacZ靶标具有单个向导RNA、lacZ4间隔子(参见图3E)。图16中呈现了使用此类融合蛋白的结果。在实施方式中，从所描述系统表达的蛋白质可以从包括核糖体跳跃序列的编码序列表达。核糖体跳跃序列是本领域已知的，并且在非限制性实施方式中包括核糖体跳跃肽T2A、P2A、E2A和F2A。

所描述系统还提供了用于插入到DNA底物中的DNA负载序列。DNA负载序列可以包括左末端和右末端转座子序列。转座子左末端和右末端序列也可以与DNA负载一起插入。通过所描述的蛋白质和靶向RNA的协作，将DNA负载序列插入到DNA底物中以产生DNA编辑。本领域技术人员将能够理解术语“左”和“右”转座子序列，并且识别此类序列。

为了与I-F3b系统一起使用，所述一种或多种I-F3b蛋白可以从编码本文(包括在文本、表格和附图中)所描述的I-F3b蛋白的生物体中的任何生物体获得，并且如果期望，可以从所述生物体修饰。在实施方式中，I-F3b蛋白来自或衍生自所描述的包括I-F3b转座子的生物体的子集的任何成员。在实施方式中，I-F3b蛋白由生物体的在编码信号识别粒子的ffs基因下游具有附着位点以及在rsmJ基因下游的下游具有附着位点的基因组编码。

例如在附图中示出了合适的I-F3b蛋白和使用所述蛋白的生物体。包括功能性IF-3b系统的此类生物体还可以包括其它转座元件。

在实施方式中，如本文进一步所描述，I-F3b蛋白与包括短于29个核苷酸的间隔子序列的靶向RNA具有功能性，并且表现出的转座频率可以比用其它I-F蛋白如

IF-3a系统实现的转座频率更大。另外，增加的转座频率可以受一个或多个非典型重复序列的存在的影响，当靶向RNA在DNA编辑中操作时，从所述非典型重复序列中至少一些核苷酸包括在所述靶向RNA中。因此，在实施方式中，产生靶向RNA的DNA模板包括一个或多个非典型重复序列，如下文进一步所描述。本文(包括在附图、文本和序列表中)描述了非典型重复序列的代表性实施例。在实施方式中，靶向RNA包括重复序列，所述重复序列是CRISPR阵列中的重复序列的区段的RNA等效物，此类重复序列包括非典型重复序列。

如以上所讨论的，先前已经认为，与较不最近获得的间隔子序列相比，侧接较不最近获得的间隔子的较老重复序列包括阻碍包括重复序列的向导RNA的功能的突变。在实施方式中，较老重复序列位于距CRISPR阵列的富含AT的前导区渐增的距离处，在所述位置处，重复序列最初被插入。本领域技术人员将能够识别CRISPR阵列前导序列。另外，如本领域已知的，在cas6编码基因附近的前导区域处添加新的间隔子/重复序列组合。

本公开包括靶向RNA，所述靶向RNA可以包括前体，例如从CRISPR阵列转录并且由Cas蛋白识别和/或加工的较长RNA多核苷酸，所述前体利用来自侧接不是插入到CRISPR阵列中的最近间隔子的间隔子的重复序列的核苷酸序列。在实施方式中，靶向RNA由模板编码，所述模板包括侧接CRISPR阵列中的最老间隔子或者不是最近获得的间隔子的一个或多个重复序列。在实施方式中，CRISPR阵列包括至少两个间隔子，但本公开不一定排除使用可以存在于仅包括一个间隔子的CRISPR RNA编码模板中的非典型重复序列。

更详细地，由于DNA复制引起的突变更可能出现并且在存在于CRISPR阵列中的重复序列中(在重复序列-间隔子-重复区段中)持续比其更最近获得的对应物更长的时间段，从而产生简并重复序列，所述简并重复序列先前已经被认为对于加工成活的向导RNA效应子复合物不具有功能性。具体地，在已经观察到此类突变序列的程度上，已经假定CRISPR阵列中的简并重复序列(如果用于产生向导RNA的话)将使所述向导RNA在其CRISPR编辑功能中不具有功能性或具有较少功能性。然而，本公开表明，在一些情况下，至少在某些类型的转座子元件参与过程的情况下，改变的重复序列实际上被增强用于编辑功能，如下文进一步所描述。如上所述，具有增强功能的这些重复序列被称为“非典型”重复序列。在实施方式中，简并重复序列可以不同于由重组过程或由另一同源驱动的过程引起的变化，其中DNA聚合酶将重复序列的模板DNA上的核苷酸跳过到下一重复序列，从而也引起缺失。

再次，并且在不旨在受任何特定解释限制的情况下，认为非典型重复序列可以优先地由某些Cas酶(如Cas5和Cas6)复合和加工，所述Cas酶识别5′和3'重复序列(相对于5'->3′定向的中间间隔子)，包括但不一定限于重复序列的RNA等效物，以分别制备更具活性的向导RNA-Cas蛋白复合物。可替代地或另外地，所得向导RNA/Cas蛋白复合物具有在用典型重复序列制备的复合物中未发现的增强的活性。因此，在实施方式中，本公开提供了可以用于DNA的基于CRISPR的修饰的RNA多核苷酸，所述RNA多核苷酸在5′至3′定向上连续包括：5'末端区段，所述5′末端区段包括第一RNA序列、用于DNA靶向的RNA序列(靶向序列)，所述第一RNA序列是编码向导RNA的DNA模板中的非典型第一重复序列的RNA等效物，其中靶向序列与靶向的DNA中的原型间隔子完全或至少部分互补；以及3′末端区段，所述3′末端区段包括第二RNA序列，所述第二RNA序列是编码向导RNA的DNA模板中的第二非典型重复序列的RNA等效物。5′末端区段、3′末端区段或两者分别包括相对于第一参考重复序列和/或第二参考重复序列的一个或多个核苷酸变化。在实施方式中，RNA多核苷酸的5′末端区段和3′末端区段各自分别包括相对于第一参考重复序列和第二参考重复序列的一个或多个核苷酸变化，并且如下文进一步所描述。

参考序列可以是不同于第一重复序列和/或第二重复序列的任何合适的序列，所述第一重复序列和/或第二重复序列是RNA多核苷酸的组分，并且可以包括在重复序列中发现的另外的序列，所述重复序列不一定包括在DNA编辑期间使用的经加工的向导RNA中。在实施方式中，参考序列包括重复序列，所述重复序列与非典型重复序列紧邻同一阵列中的更最近获得的间隔子。因此，在实施方式中，靶向RNA中的5′末端区段、3′末端区段或两者各自分别包括相对于第一参考重复序列和第二参考重复序列的一个或多个核苷酸变化。因此，本公开包括侧接较早获得的间隔子的重复序列的使用。在这方面，并且如本领域通常对于某些CRISPR系统已知的，CRISPR阵列中的重复序列编码由Cas蛋白结合的向导RNA“柄”，所述向导RNA由crRNA加工而来。

图3(除了图15和本公开的其它附图之外)示出了包括典型重复序列和非典型重复序列的crRNA的加工的非限制性说明。在图3A的下图中，左侧的第一个R1示出了未加工的CRISPR阵列转录物的5′末端。左侧的第二个R1示出了从典型重复序列转录的5′柄以及由第一个剪刀和垂直线示出的其切割位点。S1示出了在CRISPR阵列中更最近获得的代表性32个核苷酸间隔子相对于S2间隔子的位置。第二个R2示出了典型3′茎环。第二个剪刀和垂直线示出了产生第一例如更最近获得的间隔子的3′末端以及具有典型3′茎环的下游重复序列的切割位置。第二个剪刀的右侧示出了通过由第二剪刀展示的切割而产生的非典型5′柄，随后是较晚获得的间隔子S2，以及由R3指定的非典型3′茎环。在S2前面的两个UU核苷酸、紧接在S2之后的A、在茎环的第一链之前的UUU序列和在茎环的非典型环部分的第四位置中的A中，重复序列-间隔子-重复区段之间的差异是显而易见的。图3B、3C和3D提供了比较使用靶向RNA的数据的图形表示，所述靶向RNA是从所描述的较早获得的间隔子和较晚获得的间隔子转录的。这些数据表明，相对于从包括典型重复序列的模板的区段转录的靶向RNA，从包括非典型重复序列的模板转录和加工的靶向RNA可以促进DNA元件的增强转座。因此，本公开表明，使用从包括非典型重复序列的模板转录的靶向RNA对转座效率提供了有益效果。以下实施例中提供了关于图3的更多讨论。

因此，使用从包括非典型重复序列的DNA模板转录的靶向RNA可以改善任何向导RNA引导的CRISPR系统的功能，并且虽然本公开说明了使用所描述的gRNA与IF-3b型系统的某些优点，但本公开包括使用具有任何合适的CRISPR系统的非典型重复序列，包括但不限于任何Tn7-CRISPR/Cas元件，包括但不局限于任何I-F元件，以及I型、II型、II型、IV型、V型、VI型系统、1型和2型CRISPR系统、Cas12K以及多个I-B型系统。另外，所描述的非典型重复序列可以与可以识别所描述柄的任何其它Cas酶一起使用。此类系统可以包括改变的间隔子，如缩短的间隔子。在这方面，本公开通过证明当与Cas12K和多种I-B型系统一起使用时从包括非典型重复序列的模板转录的靶向RNA可以有效增加转座频率，扩展了对非典型重复序列的增强功能的证明。另外，如通过I-F3b系统可以实现增强的转座，但是当使用比图3中所示的间隔子更短的间隔子(其可以伴随一个或两个非典型重复序列)时。例如，虽然图3描绘了32个核苷酸间隔子([N32])，但本公开包括使用较短的间隔子以增强转座效率，在实施方式中，这是使用I-F3b系统执行的。如本文所使用的“系统”意指蛋白质和向导RNA的组合，所述蛋白质和向导RNA对于实现DNA修饰是必需和充分的，本文讨论了其非限制性实例。

尽管具有上述描述，但认为在一个实施方式中，所描述的向导RNA的使用适于与IF-3b系统一起使用，如本文进一步所描述。另外，本公开提供了使用所描述的IF-3b系统相对于对照(如IF-3a系统)表现出增加的转座效率的证明。因此，在实施方式中，本公开提供了所描述的向导RNA的使用，所述向导RNA可以包括CRISPR阵列和/或从其转录并且还可以包括缩短的间隔子，所述CRISPR阵列包括至少一个非典型重复序列。

应当注意，作为本公开的一部分包括的序列表包括来自某些生物体的长度为仅31个核苷酸的间隔子。认为某些系统使用通常长度为32个核苷酸的间隔子，但是可以存在长度变化，并且仍然不能以与本公开的截短的间隔子相同的方式提供增强的转座。因此，在实施方式中，本公开提供了包括间隔子序列的靶向RNA，所述靶向RNA的长度可以小于29个核苷酸。在这方面，当与例如I-F3a系统一起使用时，具有缩短的(例如，18至20个核苷酸)间隔子的靶向RNA显示出具有降低的或没有可检测的转座功能(Klompe等人,2019a)。

附图中提供了示出了截短的间隔子对I-F3b系统具有功能性的非限制性证明。因此，本公开在使用从包括非典型重复序列的模板转录的靶向RNA以及使用截短的间隔子方面提供了意想不到的优势。因此，本公开包括从模板转录的靶向RNA，所述模板包括一个或两个非典型重复序列以及任选地截短的间隔子。在实施方式中，本公开的向导RNA可以包括从仅一个非典型重复序列转录的区段或从非典型重复序列转录的多于一个区段，其中每个区段包括与非典型重复序列相同的序列。在实施方式中，本公开的向导RNA包括同一非典型重复序列的多于一个拷贝。在实施方式中，本公开的向导RNA可以包括侧接相同或不同间隔子的两个非典型重复序列。在实施方式中，向导RNA可以仅包括一个间隔子，或同一间隔子的多于一个拷贝，或者两个或更多个不同的间隔子。所述向导RNA不同于天然产生的向导RNA，至少是因为在非典型重复序列的上下文中，所选间隔子在自然界中未出现。本公开的向导RNA还可以不同于在自然界中出现的向导RNA，这是由于具有至少从非典型重复序列转录的区段，所述非典型重复序列被配置成用未在内源性存在的CRISPR阵列中编码的所选间隔子进行操作。

在实施方式中，本公开的间隔子可以由18个、19个、20个、21个、22个、23个或24个核苷酸组成。在实施方式中，间隔子包括1个、2个、3个、4个或5个核苷酸，所述核苷酸是从在CRISPR阵列中指定为非典型重复序列的序列转录的，如本文进一步所描述。在实施方式中，所描述的RNA多核苷酸的5′末端区段和3′末端区段包括与参考重复序列中的回文序列相同或不同的回文序列。在实施方式中，间隔子通过减小环结构的大小而变得非典型。

在实施方式中，本公开的向导RNA的柄包括作为CCUAC的5′核苷酸序列或作为UAC的此序列的截短物，所述序列由CRISPR阵列编码，所述CRISPR阵列可以包括编码非典型重复序列的序列。在实施方式中，CC序列是重复序列的一部分或间隔子序列的一部分或两者，这取决于考虑间隔子的哪个末端。

更详细地，向导RNA(也称为靶向RNA，如以上所讨论的)可以由CRISPR构建体编码，包括但不一定限于CRISPR阵列。在实施方式中，可以使用合适的向导RNA或向导RNA前体，其仅包括侧接一个间隔子序列的一组非典型重复序列，或侧接相同或不同的间隔子序列的多于一组相同或不同的非典型重复序列。预期的是基于本公开，合适的靶向RNA可以用作为本公开的一方面的任何向导RNA来产生，例如，形成向导RNA的典型5′末端或3′末端可以被工程化以形成作为非典型重复序列的RNA等效物的序列。

还如以上所讨论的，所描述的I-F3b系统使用I-F3b CRISPR相关蛋白(或Cas蛋白)来制备复合物(Cas蛋白+向导RNA)以靶向与向导RNA序列相匹配的DNA，其中对间隔子与原型间隔子之间的某些错配具有耐受性，如本文进一步所描述。天然存在的元件已经进化成使用I-F3b Cas蛋白的子集(Cas8/5f、Cas7f和Cas6f)来加工包括向导RNA的同源CRISPR阵列，以靶向引导与向导RNA序列匹配的DNA相邻的转座的同源元件，同样具有某些潜在错配。I-F3b Cas8/5f(也称为Cas8-5)是天然融合的，并且本公开包括此类融合蛋白。I-F3b转座子蛋白TnsA、TnsB、TnsC和TnsD/TniQ识别可以存在于靶向的DNA底物或插入DNA模板中的同源“左”和“右”转座子DNA序列。如本领域已知的，每个左末端和右末端序列对通常与特定组的tnsA、tnsB和tnsC基因相关，并且相对于特定的tnsA、tnsB和tnsC盒，左末端和右末端序列被认为“同源的”。

本公开包括本文所述的完整蛋白质，并且还包括其功能片段。“功能片段”意指本文所述的多肽的连续氨基酸的一个或多个区段，所述一个或多个区段保持参与DNA插入模板的靶RNA编程插入的足够能力。在实施方式中，功能片段可以因此包括例如核心结构域、催化结构域、多核苷酸结合结构域等或由其组成。单个结构域或多于一个结构域可以存在于功能片段中。

在实施方式中，使用天然存在的蛋白质的组合，其中蛋白质来自不同来源。

在实施方式中，本公开的组合物和方法在异源系统中具有功能性。如本文所使用的“异源的”意指系统(例如，细胞类型)，在所述系统中，在没有细胞/系统的修饰的情况下，没有产生系统的组分中的一个或多个组分。异源系统的非限制性实施方式是任何不是杀鲑气单胞菌的细菌，包括但不一定限于杀鲑气单胞菌菌株S44。在实施方式中，代表性且非限制性异源系统是任何类型的大肠杆菌。异源系统还包括任何真核细胞。在实施方式中，异源细胞是不内源使用I-F3b系统的任何组的成员。在实施方式中，本公开包括适配序列表和附图中描述的任何蛋白质、重复序列和向导RNA序列，所述向导RNA序列具有长度小于31个核苷酸的匹配间隔子长度。

在实施方式中，目前描述的系统用于以定向依赖性方式将DNA插入模板插入细菌基因组中的几乎任何位置、任何附加型元件或真核生物染色体中，但在某些情况下可能需要PAM序列。在实施方式中，系统通过靶向RNA靶向真核细胞中的染色体中的序列，或靶向真核细胞中的DNA染色体外元件，如DNA病毒基因组。因此，本公开包括修饰真核染色体和真核染色体外元件，如任何细胞器中的DNA。因此，可以根据目前描述的组合物和方法修饰的染色体外元件的类型不受特别限制。

在实施方式中，本公开的系统包括用于插入到真核染色体或染色体外元件，或在原核生物的情况下，插入到染色体或质粒中的DNA负载。因此，代替以转座子通常起作用的方式转座基因组的现有区段，本公开提供可以由系统的用户选择的DNA负载的插入。DNA负载可以提供为例如圆形或线性DNA分子。可以在将本公开的系统引入到细胞中之前、同时或之后将DNA负载引入到细胞中。除了需要系统的蛋白质识别的合适的右末端和左末端之外，DNA负载的序列不受特别限制。识别所需的右末端和左末端序列的长度通常为约90bp至150bp。如本领域已知的，这种90bp至150bp长度包括在可以重叠或间隔的末端中的每个末端中的元件中I-F3b TnsB转座酶的多个22bp结合位点。

DNA负载的最小长度通常为约700bp，但是预期可以使用和插入700bp至120kb。本公开提供了DNA负载的插入，而不产生双链断裂并且不破坏现有序列，除了插入位点处的残余核苷酸之外，如转座子领域已知的。在实施方式中，DNA负载的插入发生在距来自靶(例如，染色体或质粒)序列中的原型间隔子的大约47个、48个或49个核苷酸的位置处。

在不旨在受任何特定限制的情况下，认为除了要求某些序列与本文所述的I-F3b序列一起起作用之外，目前提供的系统相对于DNA插入模板的DNA序列是矛盾的。因此，在实施方式中，DNA插入模板可以缺乏可以被转录的任何序列，并且因此可以是转录惰性的。此类序列可以用于例如改变基因组中的调节序列，例如，启动子、增强子、miRNA结合位点或转录因子结合位点，以引起内源性基因的敲除或在两个基因座之间的dsDNA底物中提供间隔，并且可以用于各种目的，包括但不限于遗传病的治疗、期望表型的增强、基因效应的研究、染色质建模、增强子分析、DNA结合蛋白分析、甲基化研究等。

在实施方式中，DNA序列包括可以通过任何RNA聚合酶转录的序列，例如，真核RNA聚合酶，例如，RNA聚合酶I、RNA聚合酶II或RNA聚合酶III。在实施方式中，所转录的RNA可以编码蛋白质或可以不编码蛋白质，或者可以包括编码蛋白质的区段和具有功能的非编码序列。例如，功能性RNA包括任何催化RNA或可以参与RNAi介导的过程的RNA。在实施方式中，功能性RNA包括siRNA、shRNA、tRNA、剪接体RNA或任何类型的微小RNA(miRNA)、snoRNA等的全部或一个片段。在实施方式中，不编码蛋白质的RNA编码长的非编码RNA(lncRNA)。

在实施方式中，功能性RNA可以包括催化区段，并且因此可以作为核酶提供。在实施方式中，核酶包括锤头状核酶、发夹核酶或丁型肝炎病毒核酶。此类药剂可以用于例如调节所述药剂所靶向的任何RNA。

在实施方式中，DNA插入模板包括一个或多个启动子。启动子可以是组成型或诱导型的。启动子可以与编码任何蛋白质或肽或功能性RNA的序列可操作地连接。

在实施方式中，DNA插入模板包括一个或多个剪接点。因此，插入模板可以包括靠近编码序列的5′末端的GU和靠近编码序列的3′末端的分支位点。在实施方式中，DNA插入模板导致外显子跳跃，或者所述插入模板提供互斥的外显子，或者所述插入模板提供作为供体位点的替代性5′剪接点或作为受体位点的替代性3′剪接点或其组合。在实施方式中，DNA插入模板减少或消除内含子保留。

在实施方式中，DNA插入模板包括至少一个开放阅读框，所述开放阅读框可以与DNA插入模板所包括的启动子可操作地连接，或者DNA插入模板一旦整合就与内源性细胞启动子连接。开放阅读框以及因此由其编码的蛋白质不受限制。在非限制性实施方式中，DNA插入模板包括编码肽(例如，可以被翻译并且其长度可以为例如若干至50个氨基酸的肽)的开放阅读框，而较长的序列被认为是蛋白质。

在实施方式中，由DNA插入模板编码的蛋白质包括细胞定位信号，并且因此可以被转运到任何特定的细胞区室。在实施方式中，经编码的蛋白质包括分泌信号。在实施方式中，经编码的蛋白质包括跨膜结构域，并且因此可以被运输到细胞膜并且锚定在细胞膜中。在实施方式中，经锚定的蛋白质可以包括胞内结构域和胞外结构域中的一者或两者，并且因此可以显示在细胞表面上，并且可以进一步参与例如信号转导，例如，蛋白质包括表面受体。在实施方式中，由DNA整合模板编码的蛋白质包括核定位信号。在实施方式中，由DNA整合模板编码的蛋白质包括一个或多个糖基化位点。

在实施方式中，由DNA插入模板编码的蛋白质包括至少一个抗原决定簇，例如表位，并且因此可以用于产生细胞，如抗原呈递细胞，所述细胞可以通过MHC(例如，HLA)呈递显示包括细胞表面上的表位的肽。

在实施方式中，由DNA插入模板编码的蛋白质编码结合配偶体，如抗体或抗体的抗原结合片段。在实施方式中，结合配偶体包括完整的免疫球蛋白，或作为免疫球蛋白的片段，包括但不一定限于抗原结合(Fab)片段、Fab′片段、(Fab′)₂片段、Fd(重链的N末端部分)片段、Fv片段(两个可变结构域)、dAb片段、单个结构域片段或单个单体可变抗体结构域、分离的CDR区、单链可变片段(scFv)以及保留抗原结合功能的其它抗体片段。在实施方式中，一个或多个结合配偶体由DNA插入模板编码，并且编码双特异性T细胞衔接子(BiTE)、双特异性杀伤细胞衔接子(BiKE)或嵌合抗原受体(CAR)的全部或部分，如用于产生嵌合抗原受体T细胞(例如，CAR T细胞)。在实施方式中，结合配偶体是多价的，并且因此可以包括三特异性抗体或其它三特异性结合配偶体。

在实施方式中，DNA插入模板编码T细胞受体，并且因此可以编码α和β链T细胞受体两者，或者可以使用单独的DNA插入模板。

在实施方式中，DNA插入模板编码酶；结构蛋白；信号传导蛋白；调节蛋白；转运蛋白；传感蛋白；马达蛋白；防御蛋白；或储存蛋白。在实施方式中，DNA插入模板编码蛋白质或肽激素。在实施方式中，DNA插入模板编码血红蛋白。在实施方式中，DNA插入模板编码肌营养不良蛋白的全部或一部分。在实施方式中，DNA插入模板编码杆状或锥状蛋白。在实施方式中，DNA插入模板编码可选择或可检测标志物。在实施方式中，可检测标志物包括荧光蛋白，如绿色荧光蛋白(GFP)、增强型GFP(eGFP)、mCherry等。在实施方式中，DNA插入模板编码营养缺陷型标志物，如用于酵母。在实施方式中，DNA插入模板编码一种或多种参与代谢途径的蛋白质。

在实施方式中，DNA插入模板编码旨在刺激免疫应答的肽或蛋白质，所述免疫应答可以是体液和/或细胞介导的免疫应答，并且还可以包括旨在诱导耐受性的肽或蛋白质，如在自身免疫性疾病或过敏症的情况下。在实施方式中，DNA插入模板编码Toll样受体(TLR)或TLR配体，其可以是激动剂或拮抗性TLR配体。

在实施方式中，DNA插入模板包括旨在破坏或替换基因或基因区段的序列。因此，本公开包括在细胞中产生敲入基因修饰和敲出基因修饰两者，以及包括此类细胞的转基因非人类动物，以及以类似方式修饰的原核细胞。

在实施方式中，将可转座的DNA负载序列插入到染色体或染色体外元件的5核苷酸序列中，所述核苷酸序列包括位于相对于原型间隔子的3′末端的47个核苷酸3′端的核苷酸。在实施方式中，DNA负载插入包括5bp靶位点重复(TSD)的中心处的插入。因此，在非限制性实施方式中，合适的向导RNA将编辑复合物引导到包括与原型间隔子同源的PAM的DNA靶标，以便可以实现DNA负载的精确整合。在实施方式中，PAM包括TACC或CC、NC或CN，或由其组成(其中“N”是任何核苷酸)。

I-F3b转座子和I-F3b Cas基因或来自任何其它合适的系统的基因可以从各种现有机制中的任何机制表达，所述现有机制可以在细胞中单独地复制或整合到宿主细胞基因组中。可替代地，所述基因可以从将不被维持的表达系统中瞬时表达。在某些实施方式中，蛋白质本身可以直接转化到宿主菌株中以实现所述蛋白质的功能。本公开允许引入不同转座子基因盒的多个拷贝、Cas基因的多个拷贝、CRISPR阵列以及多个不同负载编码序列，并且修饰同一细胞中的遗传物质。在实施方式中，第一组I-F3b基因tnsA、tnsB、tnsC以及一个或多个I-F3b tniQ基因以及I-F3b Cas基因cas8f、cas5f、cas7f和cas6f，以及编码与由Cas基因编码的I-F3b蛋白具有功能性的至少第一向导RNA的序列，其中第一组I-F3b转座子基因、I-F3b Cas基因或编码第一向导RNA的序列中的至少一个存在于引入到异源细菌或真核细胞中的重组多核苷酸内和/或由所述重组多核苷酸编码。因此，本公开包括不同的I-F3b转座子基因、I-F3b Cas基因和不同负载编码序列的第二、第三、第四、第五或更多个拷贝。

当在原核生物中使用时，递送载体可以基于任何数量的质粒、噬菌体或另一遗传元件。载体可以被工程化，使得所述载体得到维持或未得到维持(使用任何数量的现有质粒、噬菌体或其它遗传元件)。这些DNA构建体在细菌中的递送可以通过缀合、噬菌体或在所关注的细菌宿主中具有功能性的任何转化过程来进行。

此系统的修饰可以包括调整表达系统，以允许在真核宿主或古菌宿主中表达。在实施方式中，对于真核细胞，本公开包括在一种或多种蛋白质中使用至少一个核定位信号(NLS)。通常，合适的NLS包括暴露于蛋白质表面上的带正电荷的赖氨酸或精氨酸的一个或多个短序列。在实施方式中，使用例如一种或多种表达载体或通过直接引入核糖核蛋白(RNP)，将本公开的系统引入到真核细胞中。在实施方式中，表达载体包括病毒载体。在实施方式中，使用病毒表达载体。病毒表达载体可以用作裸多核苷酸，或可以包括任何病毒颗粒，包括但不限于缺陷型干扰颗粒或其它复制缺陷型病毒构建体，以及病毒样颗粒。在实施方式中，表达载体包括经修饰的病毒多核苷酸，如来自腺病毒、疱疹病毒或逆转录病毒，如慢病毒载体。在实施方式中，可以使用杆状病毒载体。在实施方式中，可以使用任何类型的重组腺相关病毒(rAAV)载体。在实施方式中，可以使用重组腺相关病毒(rAAV)载体。rAAV载体是可商购获得的，如来自TAKARA

和其它商业供应商，并且鉴于本公开的益处，可以适于与所描述系统一起使用。在实施方式中，为了产生rAAV载体，质粒载体可以编码熟知的rep、cap和腺辅助组分中的全部或一些。在某些实施方式中，表达载体是自身互补型腺相关病毒(scAAV)。合适的ssAAV载体是可商购获得的，如来自CELL BIOLABS,

并且鉴于本公开的益处，可以适于在目前提供的实施方式中使用。

此方法的进一步修饰可以包括此过程所需的蛋白质的表达和分离，以及在体外进行一些或全部过程，以允许组装新的DNA底物。这些DNA底物随后可以被递送到活宿主细胞中或直接用于其它程序。因此，本公开包括用于本发明DNA编辑方法的组合物、方法、载体和试剂盒。

在一个实例中，本公开提供了一种用于修饰细菌和/或真核细胞中的遗传靶标的系统。系统包括第一组I-F3b转座子基因tnsA、tnsB、tnsC；一个或多个I-F3b tniQ基因；Cas基因cas8f、cas5f、cas7f和cas6f；以及编码如本文所述的至少与由I-F3b Cas基因编码的蛋白质具有功能性的第一向导RNA的序列，其中所述第一组转座子基因、Cas基因和/或或编码第一向导RNA的序列中的至少一个存在于重组多核苷酸内和/或由所述重组多核苷酸编码。

在实施方式中，使用所描述的I-F3b系统表现出的转座频率比转座参考频率更大。在实施方式中，使用所描述的I-F3b系统表现出的转座频率比使用相同蛋白质组和向导RNA但是其中所述蛋白质来自I-F3a系统的转座频率更大。在实施方式中，例如在细菌中，转座频率可以使用例如不能复制或整合到测定中所使用的细菌菌株中的噬菌体(即病毒)载体来确定。因此，当病毒载体将其DNA注入细胞中时，所述病毒载体在细胞复制期间丢失。在噬菌体DNA中进行编码的是微型Tn7元件，其中所述元件的右末端和左末端侧接编码对抗生素(如卡那霉素(KanR))的抗性的基因。如果转座子保留在噬菌体DNA上，那么细胞将仍然被抗生素杀死，因为噬菌体无法维持在所述特定细菌菌株中。然而，如果将TnsA、TnsB、TnsC以及其它所需的I-F3b转座子蛋白和本文所述的核苷酸序列添加到细胞中，那么将发生转座，因为转座子可以从噬菌体DNA移动到染色体(或质粒)中，其中所述转座子将被维持，并且允许具有抗生素抗性的细菌菌落生长。因此，当测定中感染性噬菌体颗粒的数量是已知时，允许计算转座频率，作为实验中所使用的每个噬菌体的抗生素抗性细菌菌落。因此，在实施方式中，使用本文所述的I-F3b蛋白之一或组合增加了转座频率。因此，在一些实施方式中，如本文所述的一种或多种I-F3b蛋白和向导RNA元件可以用于增强CRISPR介导的插入，所述插入伴有本文所述的基于转座子的构建体。

在替代性实施方式中，可以使用可检测标志物和选择元件。在实施方式中，转座频率可以例如通过报告基因中表达的变化来测量。可以使用任何合适的报告基因，所述报告基因的非限制性实例包括产生视觉上可检测读数的标准酶反应的适应。在实施方式中，使用β-半乳糖苷酶(LacZ)测定的适应。在实施方式中，元件从一个染色体位置转座到另一个染色体位置或从质粒转座到染色体或从染色体转座到质粒引起如LacZ等报告蛋白的表达的变化。在实施方式中，使用本文所述的系统引起LacZ或任何其它合适的标志物在细胞群中的表达的变化。在实施方式中，转座效率是通过测量群体内经历转座事件的细胞数量来确定的，如使用任何合适的方法(如通过报告基因表达和/或通过任何其它合适的标志物和/或选择标准)确定的。在实施方式中，本公开提供了相对于对照增加的转座，如在细胞群内。如上所述，对照可以是任何合适的对照，如参考值，或使用I-F3a转座子蛋白的对照实验的任何值。在实施方式中，参考值包括标准曲线、截止值或阈值等。在实施方式中，转座效率包括使用本公开的系统来将DNA的全部或一部分在相同的或分离的染色体内从一个位置转座到另一位置，从染色体转座到质粒或从质粒或其它DNA负载转座到染色体。在实施方式中，转座效率大于使用所描述系统从转座效率获得或得到的对照值。

在一方面，本公开提供了一种用于修饰一个或多个细胞中的遗传靶标的系统，所述系统包括第一组转座子基因tnsA、tnsB、tnsC和tniQ；Cas基因cas8f、cas5f、cas7f和cas6f；以及任选地编码转录调节子的xre基因，或任选地由所述基因中的一个或多个基因编码的一种或多种蛋白质，并且其中任选地所述蛋白质中的至少两种蛋白质位于融合蛋白内；以及编码RNA多核苷酸的序列，所述序列包括作为非典型重复序列的部分或全部RNA等效物的序列。可以使用野生型或经修饰的基因，以及由野生型或经修饰的基因编码的蛋白质。例如，在非限制性实施方式中，tnsA基因任选地包括序列的变化，使得由tnsA基因编码的TnsA蛋白中的至少一个氨基酸相对于所述TnsA蛋白的野生型序列发生变化。在实施方式中，以下中的至少一项为真：

i)所述tnsB基因包括序列的变化，使得由所述tnsB基因编码的TnsB蛋白中的至少一个氨基酸相对于所述TnsB蛋白的野生型序列发生变化，或者如果使用所述蛋白质，那么所述蛋白质包括所述变化；

ii)所述tnsC基因包括序列的变化，使得由所述tnsC基因编码的TnsC蛋白中的至少一个氨基酸相对于所述TnsC蛋白的野生型序列发生变化，或者如果使用所述蛋白质，那么所述蛋白质包括所述变化。

在实施方式中，所述TnsA蛋白的变化包括杀鲑气单胞菌TnsA蛋白的位置125处的Ala的变化，其中任选地所述变化是变成Asp或是同源TnsA蛋白的同源变化。

在另一个实施方式中，本公开提供了一种方法，所述方法包括在细胞中表达如上文所描述的RNA多核苷酸，所述细胞包括第一转座子基因tnsA、tnsB、tnsC，以及任选地至少一个tniQ；Cas基因cas8f、cas5f、cas7f和cas6f；以及任选地xre，其中任选地所述第一组转座子基因或所述Cas基因中的至少一个存在于重组多核苷酸内。在实施方式中，RNA多核苷酸中的间隔子被靶向细胞中的染色体或质粒中的DNA区段，所述区段可以包括原型间隔子并且可以与合适的PAM相邻。

在另一个实施方式中，本公开提供了一种用于鉴定和使用可以用作用于产生如本文所述的RNA多核苷酸的模板的非典型重复序列和/或截短的间隔子序列的方法。此方法包括：分析CRISPR阵列；以及确定所述CRISPR阵列中的侧接间隔子的重复序列；将侧接较早获得的间隔子的重复序列与侧接较晚获得的间隔子的重复序列进行比较；确定侧接所述较早获得的间隔子的重复序列与侧接所述较晚获得的间隔子的重复序列之间的差异；以及将不同于侧接所述较晚获得的间隔子的所述重复序列的侧接所述较早获得的间隔子的所述重复序列指定为相对于使用包括侧接所述较晚获得的间隔子的重复序列的RNA等效物的区段的RNA的基于CRISPR的DNA修饰，用于在具有改进效率的基于CRISPR的DNA修饰中使用的候选物。相同方法适用于鉴定截短的间隔子，例如，相对于正常间隔子长度，核苷酸长度短于先前认为无功能的或表现出降低的功能的间隔子。

在实施方式中，所述方法进一步包括产生包括5′和3′末端的RNA多核苷酸，所述5′和3′末端是侧接较早获得的间隔子的重复序列的RNA等效物(并且可以包括比先前用于靶向任何合适的原型间隔子的间隔子更短的间隔子)。在实施方式中，此方法进一步包括在基于CRISPR的DNA修饰中使用所描述的RNA多核苷酸。在实施方式中，所述方法为使得RNA多核苷酸包括用靶向存在于染色体或质粒中的预定DNA序列的不同序列取代所分析的CRISPR阵列中的间隔子。本公开包括根据所描述方法产生的RNA多核苷酸，以及编码此类RNA多核苷酸的表达载体。在一个实施方式中，提供了非典型重复序列的文库。在实施方式中，提供了编码通过所描述方法鉴定的RNA多核苷酸的表达载体的文库。

在另一个实施方式中，本公开提供了一种数据库，所述数据库包括多个条目，所述条目包括侧接根据本公开的方法鉴定的较早获得的间隔子的重复序列或由所述重复序列组成，并且因此还包括作为此类重复序列的完整或部分RNA等效物的RNA序列。在实施方式中，本公开包括从数据库中选择一个或多个重复序列，以及产生编码作为所述一个或多个重复序列的全部或一部分的RNA等效物的区段的表达载体，和/或产生包括所述一个或多个RNA等效序列的RNA多核苷酸，所述RNA等效序列可以包括或可以不包括靶向任何原型间隔子的序列。

在另一个实施方式中，本公开提供了一种用于产生在基于CRISPR的DNA修饰中使用的表达载体的试剂盒，所述试剂盒包括载体，所述载体包括一个或多个限制性核酸内切酶识别位点，所述一个或多个限制性核酸内切酶识别位点被配置成克隆期望的靶向DNA，使得所述靶向DNA与作为根据本公开的方法鉴定的重复序列的RNA等效物的一个或多个序列和/或本文所述的任何特定非典型重复序列邻接。

一种用于在DNA的基于CRISPR的修饰中使用的RNA多核苷酸(例如，向导RNA)，所述RNA多核苷酸在5′至3′定向上连续包括：A)5′末端区段，所述5′末端区段包括第一RNA序列，所述第一RNA序列是编码向导RNA的DNA模板中的非典型第一重复序列的RNA等效物或从所述非典型第一重复序列转录。在实施方式中，当在操作中与CRISPR蛋白缔合时(例如，在RNA-蛋白复合物的DNA结合期间以促进例如DNA模板的插入)，向导RNA的5′末端区段包括8个核苷酸或由其组成；B)用于DNA靶向的RNA序列(靶向序列，例如，间隔子)，其中所述靶向序列与DNA中的原型间隔子互补；C)以及3′末端区段，所述3′末端区段包括第二RNA序列，所述第二RNA序列是编码向导RNA的DNA模板中的第二非典型重复序列的RNA等效物或从所述第二非典重复序列转录，其中任选地所述3′末端区段包括20个核苷酸或由其组成，但可以包括另外的核苷酸，如下文进一步所描述。所描述的RNA多核苷酸(例如，所描述的向导RNA)可以包括由所描述系统的用户选择的间隔子序列，以将CRISPR系统引导到DNA底物中的所选位置，由此促进DNA模板的插入，所述DNA模板也可以由所描述系统的用户选择。

在实施方式中，据信增加的转座频率受一个或多个非典型重复序列的存在的影响，当靶向RNA在DNA编辑中操作时，从所述非典型重复序列中至少一些核苷酸包括在所述靶向RNA中。因此，相对于使用具有相同向导RNA的IF-3b系统的转座频率，本公开证明了使用I-F3b系统的增加的转座效率。

如以上所讨论的，代表性IF-3b系统包括所描述的向导RNA和从杀鲑气单胞菌获得或衍生的蛋白质，包括但不一定限于杀鲑气单胞菌菌株S44。表A提供了包括IF-3b系统的另外的生物体。然而，认为非IF-3b系统，如果存在于这些生物体中的任何生物体中，那么当与所描述的向导RNA和CRISPR系统一起使用时，将不表现出增强的转座。

表A：包括IF-3b系统的代表性生物体。

CRISPR I-F3系统元件(例如，编码此类蛋白质的蛋白质或核酸序列)可以衍生自表A或表B中所示的生物体中的任何一种。在一些实施方式中，I-F3系统是I-F3b系统，并且I-F3b系统的蛋白质或元件衍生自或获自表A中的生物体。就所述生物体表达可以仅使用常规向导RNA起作用的非I-F3b系统的程度而言，表A和表B两者中列出的生物体可以从表B列表中排除。通常，考虑并且如下文进一步所描述的，I-F3a系统主要使用与yciA和guaC(IMPDH)基因相邻的附着位点。I-F3b元件主要发现于编码信号识别颗粒的RNA组分的ffs基因下游的附着位点以及具有位于rsmJ基因下游的元件的小分支中。

表B：具有IF-3a系统的生物体。

表A和表B中描述的所有细菌都是本领域技术人员可获得的，所述细菌的基因组序列也是如此。

在实施方式中，预期包括非IF-3b系统的生物体不与所描述的向导非典型RNA一起起作用，或者至少认为所述生物体不能表现出用所描述的非典型向导RNA增强的转座，所述非典型向导RNA包括来自在表A中描述的生物体的非典型重复序列和间隔子。

在本公开的某些方法中，使用表达载体(如质粒)来产生系统的一种或多于一种构建体和/或组分，以及其任何克隆步骤或中间体。本领域已知的各种合适的表达载体可以适于产生本公开的组分，包括包含任何期望的负载的载体，但是在本文所述的其它组分的上下文中，以及非典型重复序列。

在实施方式中，本公开的组合物和方法在异源系统中具有功能性。如本文所使用的“异源的”意指系统(例如，细胞类型)，在所述系统中，在没有细胞/系统的修饰的情况下，没有产生系统的组分中的一个或多个组分。异源系统的非限制性实施方式是任何不是杀鲑气单胞菌的细菌，包括但不一定限于杀鲑气单胞菌菌株S44。在实施方式中，代表性且非限制性异源系统是任何类型的大肠杆菌。

在实施方式中，本公开的任何蛋白质可以是杀鲑气单胞菌菌株S44蛋白或其衍生物，除了TnsA蛋白不是在没有修饰的情况下由杀鲑气单胞菌菌株S44产生的，如通过本文进一步所描述的类型的重组工程化。在实施方式中，所描述系统来自杀鲑气单胞菌S44，并且表现出比来自嗜水气单胞菌AFG_SD03的系统更高的转座效率。

在实施方式中，包括具有非典型重复序列和/或非典型间隔子的gRNA的目前描述的系统用于以定向依赖性方式将基因块引导到细菌基因组、任何附加型元件或真核染色体中的几乎任何位置。在实施方式中，系统因此靶向真核细胞中的染色体中的序列，或靶向真核细胞中的DNA染色体外元件，如DNA病毒基因组。因此，本公开包括修饰真核染色体和真核染色体外元件。因此，可以根据目前描述的组合物和方法修饰的染色体外元件的类型不受特别限制。

如本领域已知的，转座子是可以在基因组内移动的遗传元件，所述基因组似乎存在于所有形式的生命中。除了以上所讨论的gRNA之外，本公开包括部分使用Tn7样元件的版本，其中所述元件已经将CRISPR-Cas系统适应为转座子移动的靶向机制，并且本公开进一步包括在某些Tn相关蛋白中的突变，所述突变使用转座子蛋白增强基于CRISPR-Cas的编辑。

本公开证明，转座子和CRISPR-Cas系统可以用于细胞中，以靶向将元件插入到在一个方向上与向导RNA的匹配相邻的单个位置中。已经使用重组方法概括了这种系统，使得转座子蛋白和Cas蛋白可以在细胞中的任何位置中得到表达，并且所述转座子蛋白和Cas蛋白将作用于CRISPR阵列以及在细胞中其它地方发现的转座子末端序列。

本文所述的每组基因还可以包括编码转录调节子的合适的xre基因。另外，如本文进一步所描述的，任何tns基因可以包括突变，使得tns基因编码不同于在自然界中产生的蛋白质的蛋白质，即，由尚未被工程化以产生经修饰的Tns蛋白的细菌产生的蛋白质。

具体地，任何所关注细胞可以适于表达转座子和Cas蛋白。对于细菌，这可以来自独立复制的质粒或噬菌体DNA或其它元件，或整合到基因组中的载体，或此后维持或不维持的替代性递送载体。在一个实施方式中，用户设计如本文所述的向导RNA，如包括一个、两个或多个非典型重复序列的向导RNA，所述向导RNA包括与期望的插入点相邻的序列相匹配的间隔子。根据本公开设计向导RNA可以考虑由任何相邻基序(称为PAM序列)决定的任何序列要求。将编码改进的向导RNA的序列克隆到重复序列之间的递送载体中，所述重复序列的至少一个重复序列包括非典型重复序列(参见例如，图3、4和17)。

本公开包括使用至少一个tniQ基因，并且因此可以使用两个或更多个不同的tniQ基因。tniQ基因产生作为本发明系统的任选部分的TniQ蛋白。在构建体中包括此基因将转座事件引导到由TniQ蛋白识别的一个特定同源位点中。在不旨在受任何特定理论的束缚的情况下，认为TniQ还可以与CRISPR/Cas相互作用并且对于向导RNA靶向是必需的。使用现有的标准实验室技术将待递送到细菌菌株或其它合适的细胞中的所关注基因克隆到递送载体中的多克隆位点(MCS)中(图2，图B)。MCS位于左(L)与右(R)合成转座子末端序列之间。如果最终插入的定向对于特定实施方式是重要的，则元件的右末端将接近所选向导RNA的匹配。递送载体可以被设计为如果期望的话将不维持的条件载体。如果期望的话，可选择遗传标志物还可以包括在此载体中。如果不维持递送载体，那么可以直接选择通过靶向转座过程的DNA整合。如果效率足够高，那么不需要这种可选择标志物。

此系统还可以用于使原核基因组或真核基因组中的任何基因失活。许多可选择标志物中的任何一个都可以包括在递送载体中，以允许由向导RNA靶向的基因的失活。这种类型的技术广泛适用于工程化用于工业、研究和治疗应用的新细菌菌株和真核细胞。

与现有的基于CRISPR的编辑技术相比，除了目前描述的gRNA之外，本发明系统的一个优点是不使用单独的DNA断裂；相反，所关注DNA片段在由用户确定的一个位置处直接连接到基因组中。因此，在一实施方式中，本公开提供了在不产生双链DNA断裂的情况下编辑靶DNA。

在非限制性证明中，本公开支持在本文所述的系统中使用具有非典型间隔子的向导RNA，并且包括重组产生的蛋白质(具有或不具有TniQ的Cas蛋白在某些情况下被称为“级联”)可以特异性识别包括原型间隔子的DNA底物并且与其结合。如在某些实例中所使用的，级联包括Cas8-5(编码融合的Cas蛋白)、Cas7、Cas6以及具有或不具有一种或多种TniQ蛋白的向导RNA。这种组合说明了与Tn7样元件相关的变体I-F系统的级联。

预期可以用作为本公开的一方面的任何向导RNA产生如下描述的本公开的实施方式的结果，例如，形成向导RNA的典型5′末端或3′末端可以被工程化以形成序列，所述序列是非典型重复序列的RNA等效物并且在所得向导RNA中表现出增强的活性。认为在此类向导RNA中包括匹配非典型重复序列的序列将改进以下描述中的结果。

例如，如本公开的实施例和附图所示，级联的体外结合特异性地发生在包括原型间隔子的DNA底物上，使用合适的向导RNA将级联复合物引导到所述底物，所述向导RNA可以适于使用当前提供的具有非典型重复序列的向导RNA。同样，附图和实施例证明了包括TniQ和级联的复合物的共纯化。因此，本公开示出了重组产生的TinQ和级联形成物理缔合。此外，如在前述描述和附图中所述，本公开证明了系统在活异源系统中的功能(使用大肠杆菌说明)。具体地，附图示出了对缀合质粒中的特定位置具有特异性的向导转座，并且这种转座具有PAM特异性。具体地，在内源性气单胞菌中，插入距原型间隔子48个碱基对。因此，本公开证明了在活细胞中使用重组方法的系统的功能性，所述重组方法在没有如本文所述的修饰的情况下不产生定向转座事件。另外，本公开证明了从染色体中的一个位置到染色体中的另一个位置的转座，使用大肠杆菌为代表性实例，在异源系统中也获得了结果。

在实施方式中，本公开的系统包括用于插入到真核染色体或染色体外元件，或在原核生物的情况下，插入到染色体或质粒中的DNA负载。因此，代替以转座子通常起作用的方式转座基因组的现有区段，本公开提供可以由系统的用户选择的DNA负载的插入。DNA负载可以提供为例如圆形或线性DNA分子。可以在将本公开的系统引入到细胞中之前、同时或之后将DNA负载引入到细胞中。除了需要系统的蛋白质识别的合适的右末端和左末端之外，DNA负载的序列不受特别限制。识别所需的右末端和左末端序列的长度通常为约90bp至150bp。如本领域已知的，这种90bp至150bp长度包括在可以重叠或间隔的末端中的每个末端中的元件中TnsB转座酶的多个22bp结合位点。

在实施方式中，将可转座的DNA负载序列转座到染色体或染色体外元件的5核苷酸序列中，所述核苷酸序列包括位于相对于原型间隔子的3′末端的47个核苷酸3′端的核苷酸。在实施方式中，DNA负载插入包括5bp靶位点重复(TSD)的中心处的插入。因此，通过提供如本文所述的与原型间隔子同源的向导RNA，可以实现DNA负载的精确和PAM特异性整合。在实施方式中，PAM包括TACC或CC或者NC和CN的变体或由其组成，包括CG、CA和TC的任一种，如图2b中的非限制性实施方式所示。

转座子和Cas基因可以从各种现有机制中的任何机制表达，所述现有机制可以在细胞中单独地复制或整合到宿主细胞基因组中。可替代地，所述基因可以从将不被维持的表达系统中瞬时表达。在实施方式中，蛋白质本身可以直接转化到宿主菌株中以实现所述蛋白质的功能。本公开允许引入不同转座子基因盒的多个拷贝、Cas基因的多个拷贝、CRISPR阵列以及多个不同负载编码序列，并且修饰同一细胞中的遗传物质。在实施方式中，第一组转座子基因tnsA、tnsB、tnsC，以及任选地一个或多个tniQ基因；Cas基因cas8f、cas5f、cas7f和cas6f；以及xre基因；以及编码如本文所述的与由Cas基因编码的蛋白质具有功能性的至少第一向导RNA的序列，其中所述第一组转座子基因、Cas基因或编码第一向导RNA的序列中的至少一个存在于被引入到细菌或真核细胞中的重组多核苷酸内和/或由所述重组多核苷酸编码。因此，本公开包括不同的转座子基因、Cas基因和不同负载编码序列的第二、第三、第四、第五或更多个拷贝。

在一个实例中，本公开提供了一种用于修饰细菌和/或真核细胞中的遗传靶标的系统。系统包括第一组转座子基因tnsA、tnsB、tnsC，以及任选地一个或多个tniQ基因；Cas基因cas8f、cas5f、cas7f和cas6f；以及编码转录调节子的xre基因；以及编码如本文所述的与由Cas基因编码的蛋白质具有功能性的第一向导RNA的序列，其中所述第一组转座子基因、Cas基因和/或编码第一向导RNA的序列中的至少一个存在于重组多核苷酸内和/或由所述重组多核苷酸编码。在不旨在受任何特定理论的限制的情况下，认为xre基因虽然注释为转录调节子，但也可以使本文所述的转座复合物更有效。

在实施方式中，所述tns基因中的一个或多个tns基因以及因此所述基因编码的蛋白质被修饰，如下文更详细地描述。根据本公开和本领域技术人员已知的其它信息，可以识别、比对同源蛋白，并且可以在蛋白质中进行氨基酸改变，使得蛋白质以类似于本文所述的方式的方式起作用。所有此类同源蛋白及其突变包括在本公开中。本公开还包括天然存在的基因和蛋白质的组合，除了所述天然存在的序列中的一个或多个天然存在的序列可以从一个或多个重组载体表达。在实施方式中，同源蛋白来自任何细菌，包括但不限于变形菌纲。

下文提供了包括在本公开中的蛋白质中的突变的某些实施方式。这些突变可以发生在由tnsA基因、tnsB基因和tnsC基因编码的蛋白质中的任何一种或任何组合中。

在实施方式中，由本公开提供的Tns蛋白包括相对于野生型序列的突变。如本文所使用的，“野生型”序列意指在没有实验工程化序列变化的情况下先前存在于自然界的序列。在实施方式中，野生型序列是转座元件的序列，所述序列的非限制性实例是可以通过登录号CP022176(版本CP022176.1)，如通过www.ncbi.nlm.nih.gov/nuccore/CP022176获得的杀鲑气单胞菌菌株S44质粒pS44-1的序列。

在实施方式中，在以下i)、ii)和iii)中描述的突变提供了类似于或大于从对照构建体获得的值的转座频率的增加。在实施方式中，对照构建体包括不存在本文所述的突变的一个或多个tns基因，和/或对照包括具有识别典型重复序列的一个或多个区段的向导RNA，其中用本公开的向导RNA实现增加的转座效率，所述向导RNA包括识别非典型重复序列的一个或多个序列。在实施方式中，对照转座频率是由来自嗜水气单胞菌菌株AFG_SD03的转座元件所表现的频率，其可以从登录号PUTQ01000019(版本PUTQ01000019.1)中鉴定并且包括下文所述的代表性氨基酸序列，除了所指示的突变之外。嗜水气单胞菌菌株AFG_SD03的相关序列可以通过例如www.ncbi.nlm.nih.gov/nuccore/1427716682获得。杀鲑气单胞菌Cas8/5氨基酸序列可根据登录号ASI25653，www.ncbi.nlm.nih.gov/protein/ASI25653.1获得；杀鲑气单胞菌。Cas7氨基酸序列可根据登录号ASI25654，www.ncbi.nlm.nih.gov/protein/ASI25654.1获得；杀鲑气单胞菌。Cas6氨基酸序列可根据登录号ASI25655，www.ncbi.nlm.nih.gov/protein/ASI25655.1.获得。在一实施方式中，对照包括存在于Tn6677元件上的系统，如下文进一步所描述。

在实施方式中，假设仅用于说明，0.0001％的转座频率是对照值，因为无法在代表性阵列中测量转座效率(例如，假设在100,000个细胞中仅有一个细胞，其中使用野生型TnsA蛋白的目前描述的系统经历转座事件)。在这方面，相对于转座的对照频率，本公开提供了1倍至200倍的转座效率增加，包括端值，并且包括其间到第一个小数点的所有数字和范围。在实施方式中，转座效率可以等同于插入用户提供的DNA模板，所述DNA模板被插入到DNA底物中的所选位置中。

在实施方式中，本文提供的CRISPR向导RNA和系统影响DNA靶序列中的修饰，例如，通过转座将序列插入到DNA靶序列中。DNA靶序列可以包括用于插入的DNA负载序列。在一些实施方式中，与使用对照向导RNA的修饰效率相比，向导RNA促进修饰效率增加。在一些实施方式中，向导RNA是非典型向导RNA，并且修饰是使用如本文所述的I-F3b型CRISPR复合物实现的，并且对照向导RNA是不包括如本文所述的分散重复序列的向导RNA(例如，“典型”向导RNA)。在一些实施方式中，修饰(例如，转座)效率为使用对照向导RNA的对照修饰效率的至少1.5倍。在一些实施方式中，修饰效率为使用对照向导RNA的对照修饰效率的至少2倍。在一些实施方式中，修饰效率为使用对照向导RNA的对照修饰效率的至少4倍。在实施方式中，本公开促进相对于对照(如从染色体到质粒的转座)转座效率的增加为对照值的1倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍、15倍、16倍、17倍、18倍、19倍、20倍、21倍、22倍、23倍、24倍、25倍、26倍、27倍、28倍、29倍、30倍、31倍、32倍、33倍、34倍、35倍、36倍、37倍、38倍、39倍、40倍、41倍、42倍、43倍、44倍、45倍、46倍、47倍、48倍、49倍、50倍、51倍、52倍、53倍、54倍、55倍、56倍、57倍、58倍、59倍、60倍、61倍、62倍、63倍、64倍、65倍、66倍、67倍、68倍、69倍、70倍、71倍、72倍、73倍、74倍、75倍、76倍、77倍、78倍、79倍、80倍、81倍、82倍、83倍、84倍、85倍、86倍、87倍、88倍、89倍、90倍、91倍、92倍、93倍、94倍、95倍、96倍、97倍、98倍、99倍、100倍、101倍、102倍、103倍、104倍、105倍、106倍、107倍、108倍、109倍、110倍、111倍、112倍、113倍、114倍、115倍、116倍、117倍、118倍、119倍、120倍、121倍、122倍、123倍、124倍、125倍、126倍、127倍、128倍、129倍、130倍、131倍、132倍、133倍、134倍、135倍、136倍、137倍、138倍、139倍、140倍、141倍、142倍、143倍、144倍、145倍、146倍、147倍、148倍、149倍、150倍、151倍、152倍、153倍、154倍、155倍、156倍、157倍、158倍、159倍、160倍、161倍、162倍、163倍、164倍、165倍、166倍、167倍、168倍、169倍、170倍、171倍、172倍、173倍、174倍、175倍、176倍、177倍、178倍、179倍、180倍、181倍、182倍、183倍、184倍、185倍、186倍、187倍、188倍。可以针对转座事件确定类似的转座效率，其中转座包括将元件转座为顺式，例如，从染色体中的一个位置转座至同一染色体中的不同位置。

i)在本公开的一个实施方式中，tnsA基因包括序列的变化，使得由tnsA基因编码的TnsA蛋白中的至少一个氨基酸相对于所述TnsA蛋白的野生型序列发生变化。在一实施方式中，TnsA蛋白的变化包括杀鲑气单胞菌TnsA蛋白的位置125处的Ala的变化，其中任选地所述变化是变成Asp或是同源TnsA蛋白的同源变化。下文提供了代表性TnsA氨基酸序列。在这方面，已经证明，这种构建体可以引入许多插入，但没有接近背景水平的改变的插入，或不可检测到。

ii)在实施方式中，本公开包括tnsB基因，所述tnsB基因包括序列的变化，使得由tnsB基因编码的TnsB蛋白中的至少一个氨基酸相对于所述TnsB蛋白的野生型序列发生变化。在一实施方式中，TnsB蛋白的变化包括杀鲑气单胞菌TsnB蛋白的氨基酸位置167处的变化，其中任选地所述变化是Ser或是同源TnsB蛋白的同源位置中的同源变化。下文提供了代表性TnsB氨基酸序列。

iii)与TnsA和TnsB蛋白一样，在实施方式中，本公开包括经修饰的tnsC基因，所述tnsC基因包括序列的变化，使得由tnsC基因编码的TnsC蛋白中的至少一个氨基酸相对于所述TnsC蛋白的野生型序列发生变化。在实施方式中，所述改变任选地位于TnsC Walker B基序中。在实施方式中，Walker B基序的变化例如在杀鲑气单胞菌TnsC蛋白的位置135、136、137、138、139或140中，其代表性实施例如下文所示。在一个实施方式中，所述变化是TnsC蛋白中的位置140处的氨基酸的变化，其中，例如，氨基酸140是变成Ala或Gln，或者在同源TnsC蛋白的同源位置中进行同源变化。

iii)tnsC基因包括序列的变化，使得由tnsC基因编码的TnsC蛋白中的至少一个氨基酸相对于所述TnsC蛋白的野生型序列发生变化，其中所述变化任选地在TnsC Walker B基序中。

在实施方式中，可以在不存在任何TnsE转座子蛋白的情况下进行本公开的任何组合物、系统或方法。TnsE转座子蛋白是本领域已知的。在非限制性实施方式中，可以在不存在和/或不参与包括以下氨基酸序列或由其组成的大肠杆菌TnsE蛋白的情况下进行本公开的任何组合物、系统和/或方法：

在实施方式中，可以在不存在和/或不参与任何TnsE蛋白的情况下进行本公开的任何组合物、系统和/或方法，所述TnsE蛋白是前述序列的同源物，但来自非大肠杆菌的细菌类型。

包括突变和/或突变位置的氨基酸序列的非限制性实施方式在本文中进行描述，并且通过以下氨基酸序列和登录号进行描述。放大、粗体和斜体氨基酸表示由本公开涵盖的突变的非限制性实例。放大序列是可以进行其它突变的位置，并且也包括在本公开中。

来自杀鲑气单胞菌菌株S44质粒pS44-1的TnsA(A125D)变化或TnsA(精确来自嗜水气单胞菌菌株AFG_SD03)

TnsB(来自杀鲑气单胞菌菌株S44质粒pS44-1)

来自杀鲑气单胞菌菌株S44质粒pS44-1的TnsB(P167S)变化

TnsC(来自杀鲑气单胞菌菌株S44质粒pS44-1)

来自杀鲑气单胞菌菌株S44质粒pS44-1的TnsC(E140A)变化

来自杀鲑气单胞菌菌株S44质粒pS44-1的TnsC(E140Q)变化

来自杀鲑气单胞菌菌株S44质粒pS44-1的Xre(基因91099..91428，基因座标签CE463_00475)。本公开包括同源Xre序列。下文的序列与嗜水气单胞菌菌株AFG_SD03中的Xre蛋白相同。

除了前述突变中的任何突变之外，本公开还包括另外的氨基酸变化，如TnsC的变化，所述变化可以包括规范Tn7(例如，同源蛋白)中的活性获得突变，包括但不一定限于TnsABC(A225V)、TnsABC(E233K)、TnsABC(E233A)和TnsABC(E233Q)。

在一方面，本公开包括试剂盒，所述试剂盒包括一个或多个表达载体，所述一个或多个表达载体编码一种或多种Cas或本文所述的其它酶。在某些方法中，表达载体包括克隆位点，如聚克隆位点，使得可以将任何期望的负载基因克隆到克隆位点中，以在系统被引入到或已经包括其中的任何靶细胞中表达。所述试剂盒可以进一步包括一个或多个容器、提供关于如何使用表达载体制备和/或使用表达载体产生合适的载体的说明的印刷材料，以及用于将表达载体引入到细胞中的试剂。所述试剂盒可以进一步包括用于产生系统组件的一种或多种细菌菌株。细菌菌株可以以组合物提供，其中细菌的生长受到限制，如具有一种或多种冷冻保护剂(如甘油)的冷冻培养物。在实施方式中，试剂盒包括用于表达包括用户所选间隔子的向导RNA的载体。表达载体编码包括至少一个非典型重复序列的向导RNA的至少一部分。表达载体可以被配置成使得可以将用户所选间隔子克隆到与至少一个非典型重复序列相邻的表达载体中。克隆位点可以被配置成使得一对非典型重复序列将侧接克隆到表达载体中的间隔子。

在另一方面，本公开包括通过本公开的系统向细胞递送DNA负载。所述方法通常包括将本公开的一个或多个多核苷酸、或混合物或蛋白质以及编码所述蛋白质的多核苷酸(其还可以与RNA多核苷酸，如目前描述的向导RNA一起提供)引入到一种或多种细菌或真核细胞中，由此Cas和转座子酶/蛋白质得到表达，并且通过Cas酶和转座子的组合编辑染色体或另一个DNA靶标。

在非限制性实施方式中，本公开被认为适用于靶向真核细胞以及易于通过如本文所述的系统进行编辑的任何微生物。在实施方式中，微生物包括对一种或多种抗生素具有抗性的细菌，由此通过本发明系统进行的编辑杀死或减少抗生素抗性细菌的生长，和/或系统通过例如使用靶向抗生素抗性基因的负载使细菌对抗生素敏感，所述抗生素抗性基因可以存在于染色体或质粒上。因此，本公开适用于靶向细菌染色体或附加型元件，例如，质粒。在实施方式中，细菌染色体或质粒的修饰引起细菌从病原性变为非病原性。

在实施方式中，细菌被杀死。在实施方式中，本文所述的系统的一种或所有组分可以在药物调配物中提供。因此，在实施方式中，DNA、RNA、蛋白质及其组合可以在包括至少一种药学上可接受的添加剂的组合物中提供。

在实施方式中，本公开的方法用于减少或根除细菌细胞，并且可以用于从个体或无生命表面或食物物质减少或根除持留细菌和/或休眠的活的但不可培养(VBNC)的细菌。

在实施方式中，并且如上所述，本公开被认为适用于编辑真核细胞。在实施方式中，当进行修饰时，通过本公开的方法修饰的真核细胞是全能干细胞、多能干细胞、专能干细胞或寡能干细胞。在实施方式中，细胞是神经干细胞。在实施方式中，细胞是造血干细胞。在实施方式中，细胞是白细胞。在实施方式中，白细胞属于髓系或淋巴系。在实施方式中，细胞是胚胎干细胞或成体干细胞。在实施方式中，细胞是表皮干细胞或上皮干细胞。在实施方式中，细胞是癌细胞或癌干细胞。在实施方式中，当进行修饰时，细胞是分化的细胞。在实施方式中，细胞是哺乳动物细胞。在实施方式中，细胞是人类或非人类动物细胞。在实施方式中，非人类真核细胞包括真菌细胞、植物细胞或昆虫细胞。在一种方法中，细胞被工程化以表达可检测或可选择标志物或其组合。

在实施方式中，本公开包括从个体获得细胞；使用如本文所述的CRISPR系统离体修饰细胞；以及将细胞或其后代重新引入到个体体内，以便预防和/或治疗病状、疾病或病症，或者治疗损伤、创伤或解剖缺陷。在实施方式中，如本文所述的离体修饰的细胞是自体使用的。

在实施方式中，根据本公开修饰的细胞被提供为细胞系。在实施方式中，细胞被工程化以产生蛋白质或其它化合物，并且细胞本身或所述细胞产生的蛋白质或化合物用于预防应用或治疗应用。

在各个实施方式中，根据本公开引入到真核细胞的修饰是纯合或杂合的。在实施方式中，修饰包括与表型或病状相关的纯合显性或纯合隐性或杂合显性或杂合隐性突变，并且因此可用于对这种表型或病状进行建模。在实施方式中，修饰导致恶性细胞恢复为非恶性表型。

在某些方面，本公开包括药物调配物，所述药物调配物包括本文所述的系统的一种或多种组分。药物调配物包括一种或多种药学上可接受的添加剂，所述一种或多种药学上可接受的添加剂中的许多添加剂都是本领域已知的。在一些实施方式中，药物组合物包括适用于施用于人的药学上可接受的载体。在一些实施方式中，药物组合物包括适用于眼内注射的药学上可接受的载体。在一些实施方式中，药物组合物包括适用于局部应用的药学上可接受的载体。在一些实施方式中，药物组合物包括适用于静脉内注射的药学上可接受的载体。在一些实施方式中，药物组合物包括适用于注射到动脉中的药学上可接受的载体。在一些实施方式中，药物组合物适用于口服或局部施用。本公开涵盖了所有所描述的施用途径。

在实施方式中，表达载体、蛋白质、RNP、多核苷酸及其组合可以作为药物调配物提供。药物调配物可以通过将所描述组分与任何合适的药物添加剂、缓冲液等混合来制备。药学上可接受的载体、赋形剂和稳定剂的实例可以在以下文献中找到：例如，《雷明顿：药学科学与实践(Remington:The Science and Practice of Pharmacy)》(2005)第21版,宾夕法尼亚州费城的利平科特威廉姆斯与威尔金斯出版公司(Philadelphia,PA.LippincottWilliams&Wilkins)，所述文献的公开内容通过引用并入本文。另外，可以使用各种治疗递送剂中的任何治疗递送剂，并且包括但不限于纳米颗粒、脂质纳米颗粒(LNP)、外泌体等。在实施方式中，可以使用生物可降解材料。在实施方式中，聚(丙交酯-共-乙交酯)(PLGA)是代表性生物可降解材料。在实施方式中，任何生物可降解材料，包括但不一定限于生物可降解聚合物。作为PLGA的替代方案，生物可降解材料可以包括聚(乙交酯)(PGA)、聚(L-丙交酯)(PLA)或聚(β-氨基酯)。在实施方式中，生物可降解材料可以是水凝胶、藻酸盐或胶原。在一实施方式中，生物可降解材料可以包括聚酯、聚酰胺或聚乙二醇(PEG)。在实施方式中，可以使用脂质稳定的微米颗粒和纳米颗粒。

在某些方法中，本公开的组合物(包括所描述系统)以及使用所描述系统修饰的细胞用于治疗有需要的个体的病状或病症。如本文所使用的术语“治疗”是指减轻与所治疗的具体病状或疑似病状的存在相关的一种或多种症状或特征。治疗不一定意味着完全治愈或缓解，也不排除复发或恶化。治疗可以在短期内、在中期内实现，或者可以是长期治疗，如在维持疗法的背景下。治疗可以是连续或间歇的。

在实施方式中，本公开的系统以治疗有效量施用于个体。在实施方式中，使用治疗有效量的本公开的组合物。如本文所使用的术语“治疗有效量”是指足以以单剂量或多剂量实现预期治疗目的的药剂的量。期望或所需的量将根据所使用的具体化合物或组合物、其施用模式、患者特异性等而变化。适当的有效量可以由本公开所告知的本领域普通技术人员使用常规实验来确定。例如，治疗有效量(例如，剂量)可以最初在细胞培养测定中或在动物模型中进行估计。动物模型也可以用于确定合适的浓度范围和施用途径。然后，此类信息可以用于确定在人体中施用或施用于非人类动物的有用剂量和途径。精确剂量可以根据待治疗的患者来选择。可以调整剂量和施用以提供足够水平的组分，从而实现期望的效果，如在阈值数量的细胞中的修饰。可以考虑的其它因素包括所涉及的特定基因或其它遗传元件、病状类型、患者的年龄、体重和性别、期望的治疗持续时间、施用方法、施用时间和频率、药物组合、反应敏感性和对疗法的耐受性/应答。在某些实施方式中，治疗有效量是减少疾病的一种或多种体征或症状，和/或减少疾病的严重程度的量。治疗有效量还可以抑制或预防疾病的发作或疾病恶化。在实施方式中，根据本公开修饰的细胞以治疗有效量施用于有需要的个体。

在实施方式中，本公开包括通过向有需要的个体引入治疗有效量的本公开的组合物或如本文所述的经修饰的细胞来向所述个体提供治疗，其中包括DNA插入的细胞治疗、减轻、抑制或预防一种或多种病状、疾病或病症的形成。在实施方式中，细胞首先从个体获得，根据本公开进行修饰，并且移植回到个体体内。在实施方式中，可以使用同种异体细胞。在实施方式中，经修饰的真核细胞可以在药物调配物中提供，并且此类调配物包括在本公开中。

在实施方式中，将本公开的所描述系统引入到一种或多种原核细胞或真核细胞中。在实施方式中，原核细胞包括革兰氏阳性细菌或革兰氏阴性细菌或由其组成。细菌可以是非病原性的或病原性的。在实施方式中，在宿主(例如，人类、动物或植物宿主)的背景下，将所描述系统引入到原核细胞(例如，细菌或古菌细胞)中，例如，细菌是宿主微生物组的组分或是微生物组的异常组分，例如，病原体。在一些实施方式中，本文所述的系统的递送使得重组微生物稳定形成。在一些实施方式中，如本文所述的系统所产生的重组微生物引起酶或代谢物的产生，所述酶或代谢物可以改变宿主(例如，人类宿主)的健康或代谢。在一些实施方式中，本文所述的系统的递送导致微生物的毒力决定簇的失活，例如，抗生素抗性或毒素产生。在一些实施方式中，本文所述的系统的递送导致受体细胞被杀死。系统可以杀死一些或所有细胞，或使细胞是非病原的和/或对一种或多种抗生素敏感。在实施方式中，细菌用作食品或饮料产品的组分，包括但不限于发酵食品和饮料以及乳制品。在实施方式中，此类细菌包括乳酸菌。在实施方式中，通过可以表达所有或一些所描述组分的噬菌体或经包装的噬菌粒，使用向特定类型的细菌的选择性递送，但是其中噬菌体表现出对特定类型的细菌的特异性趋性。在一些实施方式中，递送媒剂仅提供针对靶向特定细胞的部分特异性，并且另外的特异性通过选择被靶向的DNA序列来提供。

在实施方式中，将所描述系统引入到真核细胞中。此类细胞包括但不一定限于动物细胞、真菌如酵母、原生生物、藻类和植物细胞。

在实施方式中，本公开提供了一个或多个细胞，其中细胞中的DNA包括至少一个插入的DNA插入模板。所描述细胞可以是任何原核细胞或真核细胞。因此，本公开还提供了包括插入的DNA序列的一个或多个细胞。

在实施方式中，真核细胞包括动物细胞，所述动物细胞可以包括哺乳动物细胞或禽类细胞或昆虫细胞。在实施方式中，哺乳动物细胞是人类或非人类哺乳动物细胞。在实施方式中，将本公开的组合物施用于禽类动物或犬科动物、猫科动物、马科动物(equineanimal)或牛，包括但不限于奶牛。

在实施方式中，当进行修饰时，通过本公开的方法修饰的细胞是全能干细胞、多能干细胞、专能干细胞或寡能干细胞。在实施方式中，细胞是神经干细胞。在实施方式中，细胞是造血干细胞。在实施方式中，细胞是白细胞。在实施方式中，白细胞属于髓系或淋巴系。在实施方式中，细胞是胚胎干细胞或成体干细胞。在实施方式中，细胞是表皮干细胞或上皮干细胞。在实施方式中，细胞是癌细胞或癌干细胞。在实施方式中，当进行修饰时，细胞是分化的细胞。

在实施方式中，本公开包括从个体获得细胞；使用如本文所述的系统离体修饰细胞；以及将细胞或其后代重新引入到个体或免疫匹配的个体体内，以便预防和/或治疗病状、疾病或病症，或者治疗损伤、创伤或解剖缺陷。在实施方式中，如本文所述的离体修饰的细胞是自体细胞。在实施方式中，细胞作为细胞系提供。在实施方式中，细胞被工程化以产生蛋白质或其它化合物，并且细胞本身和/或所述细胞产生的蛋白质或化合物用于预防应用或治疗应用。

在实施方式中，根据本公开制备的真核细胞可以用于产生转基因非人类生物体。

在实施方式中，根据本公开的一种或多种经修饰的细胞可以用于在动物群体中进行基因驱动，所述动物包括但不一定限于昆虫。

在实施方式中，所描述系统被引入到其中的一个或多个细胞包括植物细胞。如本文所使用的术语“植物细胞”是指原生质体、产生配子的细胞，并且包括再生为完整植物的细胞。植物细胞包括但不一定限于从以下获得或存在于以下中的细胞：种子、悬浮培养物、胚胎、分生组织区、愈伤组织、叶、根、芽、配子体、孢子体、花粉和小孢子。植物细胞还可以被理解为包括从上述组织获得的经修饰的细胞，如原生质体。包括根据本公开制备的植物产品。

在实施方式中，本公开提供了一种制品，所述制品可以包括试剂盒。在实施方式中，所述制品可以包括一个或多个克隆载体。所述一个或多个克隆载体可以编码本文所述的蛋白质和多核苷酸中的任一种或其组合。克隆载体可以适于包括例如多克隆位点(MCS)，可以将编码任何蛋白质或多核苷酸(如任何期望的靶向RNA)的序列引入到MCS中。制品可以包括一种或多种密封容器，所述一种或多种密封容器包括上述组分中的任何组分，并且可以进一步包括包装和/或印刷材料。印刷材料可以提供关于制品的内容物的信息，并且可以提供关于如何使用制品的内容物的说明或其它指示。在一实施方式中，印刷材料提供了使用制品的内容物治疗的疾病或病症的指示。

在实施方式中，当递送多核苷酸时，所述多核苷酸可以包括经修饰的多核苷酸或其它修饰(如磷酸酯主链修饰)以及经修饰的核苷酸(如核苷酸类似物)。用于制备核酸类似物的合适的修饰和方法是本领域已知的。一些实例包括但不限于包括经修饰的核糖核苷酸或脱氧核糖核苷酸的多核苷酸。例如，经修饰的核糖核苷酸可以包括用包括1至6个饱和或不饱和碳原子的--O--低级烷基或用具有2至6个碳原子的--O-芳基对核糖部分的2′位置进行甲基化和/或取代，其中此类烷基或芳基可以是未经取代的或可以例如被卤基、羟基、三氟甲基、氰基、硝基、酰基、酰氧基、烷氧基、羧基、碳酰氧基或氨基取代；或与羟基、氨基或卤基反应。在实施方式中，经修饰的核苷酸包括甲基-胞苷和/或假尿苷。核苷酸可以通过磷酸二酯键或通过合成键(即，除磷酸二酯键之外的键)连接。可以在本公开中使用的多核苷酸药剂中的核苷间键的实例包括但不限于磷酸二酯、磷酸烷基酯、硫代磷酸酯、二硫代磷酸酯、磷酸酯、烷基硫代膦酸酯、氨基磷酸酯、氨基甲酸酯、碳酸酯、吗啉代、磷酸三酯、乙酰胺酸酯(acetamidate)、羧甲酯或其组合。在实施方式中，DNA类似物可以是肽核酸(PNA)。

以下描述和实施例旨在说明但不限于本公开。

描述和实施例说明了Tn7-CRISPR-Cas元件进化出向导RNA分类的系统，以实现双途径生活方式。多种机制允许功能上不同的用于转座的向导RNA，这是一种能够获得针对新质粒和噬菌体靶标的向导RNA的常规系统，并且第二机制提供用于在进入新宿主后进入染色体位点的长期记忆。将向导RNA私有化以仅由转座子适应系统通过序列特化、错配耐受性和选择性调节来识别，以避免由内源性CRISPR-Cas防御系统的毒性自我靶向。因此，本描述和实施例支持工程化向导RNA用于增强的CRISPR-Cas功能性以用于基因组修饰的前述方法。

除了其它方面之外，本公开提供了I-F3 Tn7-CRISPR-Cas元件的生物信息学分析，并且揭示了允许涉及向导RNA分类的向导RNA引导的转座的进化的机制。本公开展示了I-F3Tn7-CRISPR-Cas插入事件由在元件内的CRISPR阵列中编码的向导RNA解释。一种形式的治愈允许I-F3元件维持不同类别的向导RNA，以反映用原型Tn7但用仅向导RNA系统发现的双途径生活方式。向导RNA引导的转座到染色体中是通过CRISPR阵列发生的，所述阵列在引导途径选择的专门转录调节系统的控制下，或使用允许向导RNA专用于Tn7-CRISPR-Cas转座子的非典型CRISPR重复序列结构，所述转座子可以被开发用于基因组修饰，如上所述。由识别染色体的元件编码的向导RNA也具有错配，所述错配对于引导转座是耐受的，但对于规范I-F1系统的干扰不是耐受的。在I-F3 Tn7-CRISPR-Cas元件中发现的向导RNA属性有助于解释所述向导RNA属性如何与相关的I-F型CRISPR-Cas系统相互作用，如耐受自我靶向向导RNA的能力，否则所述自身靶向向导RNA将引起规范CRISPR-Cas系统降解宿主染色体。本公开利用如上所述的这些发现来提供改进的DNA编辑方法，并且如以下实施例中所说明的。

实施例1

在非典型CRISPR阵列构型中，I-F3 Tn7-CRISPR-Cas元件靶向由间隔子解释

对Tn7-CRISPR-Cas元件的I-F3家族进行生物信息学分析。对来自γ变形菌纲的超过53,000个基因组的分析鉴定出了编码发现于两个分支中的I-F3型CRISPR-Cas系统的802个Tn7样元件(图1)。一个分支I-F3a主要使用与yciA和guaC(IMPDH)基因相邻的附着位点。第二个分支I-F3b中的元件主要发现于编码信号识别颗粒的RNA组分的ffs基因下游的附着位点以及具有位于rsmJ基因下游的元件的小分支中。作为此分析的一部分，重新检查CRISPR阵列并且得到惊人的发现，所述发现改变了对如何跨所有I-F3元件靶向转座的理解。本公开证明，在不旨在受任何特定理论的束缚的情况下，所有元件的插入位置可以通过向导RNA定向的转座来解释；基本上所有I-F3元件在元件编码的CRISPR阵列内包括与距所述元件的右末端约48bp的区域相匹配的间隔子(图1、2a和2b)，并且如序列表中所示。在这些情况中的每种情况下，阵列中的间隔子与yciA、guaC、ffs或rsmJ基因中的相同原型间隔子相匹配(图2b)。除了位于基因的其中一末端以正好在阅读框外部引导转座之外，与yciA、guaC和rsmJ基因相匹配的间隔子全都被发现位于同一阅读框寄存器中，所述同一阅读框寄存器将密码子的可变摆动位置与向导RNA中的每第六个位置(已知翻转出并且不需要与原型间隔子相匹配的位置)对齐(Fineran等人,2014；Jackson等人,2014；Mulepati等人,2014，Zhao等人,2014)。在细菌基因组中鉴定的约百分之六的Tn7-CRISPR-Cas插入不位于四个主要att位点之一中。然而，即使在主要att位点外部插入，仍然可以鉴定阵列中的对距元件的右末端约48bp的原型间隔子具有特异性的间隔子(图1)。

识别四个主要att位点中的每个位点的间隔子位于元件编码的CRISPR阵列中的特定位置。存在在I-F3元件的两个主要分支中不同的CRISPR阵列的此位置和构型的趋势。在I-F3a元件的分支中，与yciA或guaC att位点相匹配的间隔子位于紧邻tniQ、cas8/5、cas7、cas6操纵子下游发现的阵列中的70bp至90bp空位之后(图2a和2c)(参见下文)。在CRISPR阵列不连续的这些情况下，不清楚阵列是否被转录为单个前体crRNA和/或所有间隔子是否能够成熟为功能性向导RNA复合物(下文所述)。在元件的识别与ffs和rsmJ基因相关的att位点的I-F3b分支中，att位点特异性间隔子倾向于在位于tniQ-cas操纵子下游的单个CRISPR阵列中被发现，但总是作为阵列中的最后一个间隔子(图1和2a)。

在分析中，仅一个转座事件在质粒中而不是在染色体中被鉴定。杀鲑气单胞菌S44中的Tn7-CRISPR-Cas元件Tn6900基于在缀合DNA转移(tra基因)中具有已知作用的基因的存在而位于被预测为可移动的大质粒(pS44-1)上。转座到质粒上的位点仍然可以通过阵列中编码的向导RNA来解释，然而，在这种情况下，间隔子位于阵列中的前导序列-近端位置处(图8a-c)。有趣的是，发现于嗜水气单胞菌AFG_SD03(Boehmer等人,2018)中的ffs att位点中的近乎相同的Tn7-CRISPR-Cas元件Tn6899具有识别同一质粒编码基因但位于不同位置(图8b-c)的间隔子，这提示了对于这些元件在气单胞菌中的分散而言重要的可能质粒载体。

除了其在CRISPR阵列中的独特位置之外，att间隔子侧接具有新序列的重复序列。在复制前导序列-近端重复序列的过程中，在阵列的前导序列-近端处将新间隔子添加到CRISPR阵列(Xiao等人,2017)。因此，尽管重复序列可以随着时间的推移而发散，但第一重复序列和第二重复序列在CRISPR阵列中开始是相同的。在I-F3 Tn7-CRISPR-Cas元件中，用于向导RNA定向转座到染色体中的末端间隔子总是侧接相对于前导序列-近端重复序列高度发散的重复序列(图2c和序列表)。如上所述，本公开将发散的重复序列称为“非典型”重复序列，并且将由这些序列形成的向导RNA称为非典型向导RNA。

实施例2

高度发散的非典型重复序列-间隔子单元形成功能性向导RNA复合物

为了分析发现于I-F3 Tn7-CRISPR-Cas元件中的CRISPR阵列结构的独特性质，在异源和遗传易处理的系统大肠杆菌中建立了向导RNA定向转座。在杀鲑气单胞菌S44中的质粒中和在嗜水气单胞菌AFG_SD03中的ffs附着位点中鉴定的元件是特别令人感兴趣的，因为所述元件近乎相同，但发现于不同物种、不同插入点处，这提示了所述元件最近是具有功能的(图8a)。对于转座(Tns)和Cas蛋白，利用编码序列构型，通过寻找发现于气单胞菌中的多个元件的共有序列，预测所述编码序列构型对转座具有活性。

试图在异源宿主中建立Tn7-CRISPR-Cas转座的先前研究在很大程度上依赖于基于间接PCR的技术来评估转座，即易受人为因素影响的技术(Rice等人,2020；Strecker等人,2020)。为了开发Tn7-CRISPR-Cas转座的更完整图片，使用监测完全转座事件的测定。小型Tn7-CRISPR-Cas元件位于染色体中，在所描述测定中用于转座的供体位点，用侧接抗生素抗性决定子的推定TnsB-结合位点(Peters,2014)预测的顺式作用转座子末端序列构建。在这一测定中，候选转座靶位于缀合F质粒上。在诱导向导RNA定向转座系统的组分的表达之后，通过将缀合质粒配对到测试菌株中并且在小型转座子中筛选抗生素抗性基因来检测到完全转座事件(图9a)。tnsABC、tniQ-cas8/5,7,6和CRISPR阵列由三个单独的表达载体表达。

最初，分析从发现于杀鲑气单胞菌S44中的Tn6900中的CRISPR阵列的野生型构型产生的候选向导RNA。在这种构型中，前导序列-近端间隔子与来自天然宿主的可移动质粒编码的基因完美匹配，并且第二/末端间隔子与具有10个错配的ffs原型间隔子具有简并匹配(图3a、8c)。靶标中的间隔子与原型间隔子之间的一些错配位于每第六个位置处，并且因此将不影响ffs向导RNA靶的识别(图8c)。监测在天然阵列构型的表达后的转座证实，功能性向导RNA是从在前导序列-近端位置处具有规范重复结构的间隔子和侧接高度发散的非典型重复序列的末端间隔子两者产生的(图3b)。有趣的是，向导RNA介导的转座与ffs特异性间隔子以更高频率发生，尽管所述转座包括错配并且侧接非典型重复序列(图3b)。

为了测试间隔子、原型间隔子和重复序列的单独贡献，设计了具有前导序列-近端(典型)或末端(非典型)侧接重复序列的CRISPR阵列构建体作为单一向导RNA表达构建体，并且单独地测试了各种天然间隔子序列和合成间隔子序列。不仅具有非典型重复序列的向导RNA是具有功能的，而且与用三种不同间隔子进行测试时的典型重复序列相比，所述向导RNA始终允许更高的转座频率(图3c)。另外，ffs特异性间隔子示出了比针对质粒靶标的间隔子更高的转座频率，即使质粒间隔子与其靶标完美匹配，并且ffs间隔子与其靶标具有10个错配(若干错配不在预测被翻转的第六个位置处)(图3c)。改变天然ffs特异性间隔子使得其与ffs原型间隔子完美匹配始终允许适度更高的转座频率(图3c-d)。

还使用与lacZ中的不同位置相匹配的间隔子设计向导RNA复合物(图3d-e)。发现用不同的间隔子，转座频率变化多达10倍，即使所识别的序列全都具有同一候选PAM序列，这一结果无法由在高度表达的lacZ基因中靶向的DNA链来解释(图3d-e)。然而，无论测试的间隔子如何，与来自杀鲑气单胞菌S44的Tn7-CRISPR-Cas系统中的典型重复序列相比，始终发现具有非典型重复序列的向导RNA具有适度更高的转座频率(图3c-d)。这些实验证实，可以从非典型重复序列产生功能性向导RNA复合物，并且表明这些复合物的功能性显示出与典型重复序列的重要差异。发现使用向导RNA定向转座也可以在大肠杆菌染色体中靶向多个不同位置，这支持这不是质粒特异性过程的观点(图8d-e)。

实施例3

非典型重复序列与来自杀鲑气单胞菌S44的Tn7-CRISPR-Cas系统形成功能上不同的向导RNA复合物

实验表明，从非典型重复序列产生的向导RNA是具有功能的，并且似乎允许用衍生自杀鲑气单胞菌S44中的Tn6900元件的系统增强转座活性。为了更好地理解重复序列的差异的相关性，比较了前导序列-近端典型重复序列与侧接末端间隔子的非典型重复序列，以寻找跨两个分支的共同趋势(图4a)。在两个分支中，在编码向导RNA的3′柄的最终重复序列中存在共同趋势，具有丢失典型GTG的趋势(位置1-3)，从最终向导RNA切割的区域的保守性丢失(位置21-28)，以及环中腺嘌呤的普遍富集(图4a)。通过改变编码向导RNA的5′和3′柄的重复区用Tn6900来检查相对于典型重复序列和非典型重复序列的变化的功能差异(图4b)。在典型重复序列(典型*)的3′柄中将GUG区改变成AUU或在非典型重复序列(非典型*)中将AUU改变成GUG仅导致向导RNA定向转座的频率发生小变化(图4b)，这提示这些保守位置不是单独负责非典型重复频率优势的并且发挥着更复杂的相互依赖性的作用。

发现具有来自霍乱弧菌(Vibrio cholerae)HE-45的Tn6677元件的不同I-F3Tn7-CRISPR-Cas系统的先前工作指示，可以使用向导RNA将向导RNA复合物引导到大肠杆菌中的编程靶位点(Klompe等人,2019)。Tn6677元件位于元件的I-F3a分支中，并且提供了良好的比较点以便理解I-F3 Tn7-CRISPR-Cas元件的两个分支之间的差异(图1)。Tn6677天然存在于guaC下游的att位点中并且与上文所鉴定的趋势一致，此元件在非典型重复结构的非连续阵列中携带att位点靶向间隔子(图2)。在乳糖和阿拉伯糖表达系统下构建来自Tn6677的Tns、Cas和CRISPR阵列模块，并且在用于上述Tn6900衍生物的转座测定中进行测试(图9a)。发现转座到由Tn6677使用的天然guaC附着位点中需要在阵列中编码的guaC特异性向导RNA，并且Tn6677中的非典型重复序列也是具有功能的(图4c)。然而，与Tn6900衍生物不同，在典型和非典型阵列中发现类似的转座频率(图4c)，或在具有Tn6677元件的典型和非典行重复序列中发现适度的变化(图4d)。天然存在的Tn7样和Tn7-CRISPR-Cas元件控制其插入的从左到右定向。Tn6677可以经过松弛以便进行定向控制(图9b)(Klompe等人,2019)。Tn6900衍生物示出了对于用规范Tn7发现的并且在分析24个独立插入时自然发现的一个定向的偏倚(图9b)。Tn6900衍生物插入距原型间隔子约48bp，并且与靶位点重复一起发生(图9c)。

实施例4

通过错配耐受性和具有非典型向导RNA的专门化功能，可以使向导RNA专用于I-F3转座

先前未用Tn7-CRISPR-Cas系统解决的问题涉及CRISPR阵列与其它I-F型CRISPR-Cas系统之间的可能的串扰。如果标准I-F1系统可以使用来自Tn7-CRISPR-Cas元件的CRISPR阵列与对染色体具有特异性的向导RNA，则染色体att位点将是用于降解的靶标。如果I-F3 Tn7-CRISPR-Cas元件进入编码标准I-F1 CRISPR-Cas系统的新宿主，这可能限制所述元件的扩散。研究了I-F1系统是否可以访问在I-F3 CRISPR阵列中编码的典型和非典型向导RNA(Chowdhury等人,2017)。在铜绿假单胞菌(P.aerigunosa)系统中，用T7表达系统共同表达Cas蛋白和单个间隔子CRISPR阵列(Vorontsova等人,2015)。使用检查具有和不具有原型间隔子的质粒的转化效率测定来检查来自铜绿假单胞菌的I-F1型系统、I-F3a型霍乱弧菌Tn6677系统或衍生自杀鲑气单胞菌Tn6900的I-F3b型系统的重复序列。在对照实验中，使用来自铜绿假单胞菌PA14的I-F1 CRISPR-Cas系统观察到稳健干扰(图5)。与缺乏原型间隔子的质粒相比，用编码原型间隔子的质粒的转化降低三个数量级。类似地，当来自Tn6677和Tn6900的I-F3系统的典型重复序列包括与质粒中的原型间隔子精确匹配时，所述典型重复序列也允许对质粒转化测定产生稳健干扰。来自规范I-F1和I-F3 Tn7-CRISPR-Cas系统的重复序列是类似的(图10)，并且可能的是I-F3Tn7-CRISPR-Cas系统依赖于标准I-F1系统进行间隔子获取。

基于错配常见于Tn7-CRISPR-Cas系统中的att位点向导RNA中的观察结果，还测试了I-F1干扰系统中针对错配的耐受性。虽然天然的错配对具有10个错配的Tn6900衍生物(图3c)和具有7个错配(图4c)的Tn6677元件的向导RNA定向转座的功能的能力几乎没有影响或没有影响，但这些相同的向导RNA对来自铜绿假单胞菌PA14的I-F1CRISPR-Cas系统的干扰具有深远影响，从而允许在转化测定中没有可观察到的干扰(图5)。这表明一种私有化的形式，其中与向导RNA的错配对向导RNA定向转座具有最小影响或没有影响，所述错配被在工作中测试的I-F1系统变得不可用。

还确定了规范I-F1系统是否可以使用专门的非典型向导RNA。当间隔子位于来自用Tn6900衍生物发现的I-F3b系统的非典型重复序列时，由非典型重复序列形成的向导RNA复合物在质粒转化测定中发挥干扰的功能的能力显著降低，甚至具有完美的间隔子-原型间隔子匹配(图5)。干扰非典型重复序列的折衷使用与所发现的与I-F3b系统的向导RNA定向转座的增强使用形成对比(图3和4)。这一结果表明将允许染色体靶向间隔子在具有标准I-F1 CRISPR-Cas系统的宿主中通过允许所述染色体靶向间隔子对I-F3b系统保持私有而被耐受的第二机制。在霍乱弧菌的Tn6677 I-F3a系统中不存在这种私有化。对于I-F3a Vc系统，发现典型重复序列或来自该元件的高度发散的非典型阵列存在稳健干扰。然而，以下结果表明，I-F3a Tn7-CRISPR-Cas元件可以使用单独的转录网络来帮助耐受自我靶向间隔子。

实施例5

I-F3元件利用Xre家族转录调节子来调节CRISPR-Cas组分

为了更好地理解I-F3 Tn7-CRISPR-Cas元件传播，搜索在这个组的不同成员中保守的基因。发现跨I-F3 Tn7-CRISPR-Cas元件保守的其它基因之一是预测的Xre家族转录调节子。xre基因位于几乎所有的I-F3元件中的tnsABC与tniQ-cas8/5,7,6操纵子之间的保守位置处(图2a)。虽然I-F3元件的两个分支中的每个分支都具有xre基因，但每个分支中的所预测的调节基因和与限制性修饰系统相关的系统发生的不同的控制器(C)蛋白家族分离。I-F3a元件具有与C.AhdI相关的68个氨基酸的Xre蛋白，并且I-F3b元件具有与C.Csp23II相关的约100个氨基酸的Xre蛋白(图11a)。基于与先前建立的系统的同源性，还可以用tniQ-cas和CRISPR阵列鉴定候选调节特征(图11b，参见下文)(Streeter等人,2004)。

分析了I-F3a元件中的推定启动子区域，并且发现了Xre介导的xre上游以及Tn6677中的att靶向间隔子和该元件分支的其它成员的直接上游的调节的候选位点(图6a)。在体外用I-F3a分支中的两个元件，霍乱弧菌HE-45Tn6677(Vc)和副溶血性弧菌RIMD221063(Vp)证实了调节区(图6c)。这种相互作用的功能作用通过LacZ报告基因测定显示。发现Xre可以自动调节其自身的pXre启动子，所述启动子在没有Xre的情况下允许最小转录，被少量的Xre激活，并且随着Xre表达的增加而被阻遏(图6e)。同时，当Xre不存在时，针对att靶向间隔子(pAttGuide)鉴定的启动子被高度表达，并且随着Xre诱导量的增加而被逐渐阻遏(图6e)。如下所示，当通过接合子诱导进入新宿主中时，这种系统提供了具有I-F3a元件的对guaC或yciA att位点具有特异性的非典型向导RNA的突发。

还调查了针对反向重复基序的I-F3b元件，以研究保守的C.Csp23II样Xre调节子的功能作用。与I-F3a元件一样，在xre的启动子区域发现保守基序，所述保守基序与C.Csp23II所使用的保守基序几乎相同(图6b，图11b)(McGeehan等人,2011)。与I-F3a元件不同，保守基序不能在具有I-F3b元件的CRISPR阵列的上游被鉴定，并且相反在tniQ-cas8/5,7,6操纵子上游发现该基序的单个拷贝(图2a和6b)。用来自杀鲑气单胞菌S44 Tn6900(As)和弧菌10N.286.45.B6(VB6)的两个I-F3b元件在体外证实调节区。与Xre的上游区域的两个所预测基序结合可以被可视化为两个单独迁移的物种(图6d)。使xre近端调节基序突变减弱了相互作用，如通过实现完全移动性转变所需的更高浓度的蛋白质所证明(图6d)。另外，可视化了与tniQ-cas8/5,7,6上游的基序的相互作用，并且通过利用减弱相互作用的突变基序证实了结合的序列特异性性质。LacZ报告基因测定再次用于证实调节中的功能作用。显示Xre调节子充当其自身pXre启动子的阻遏物(图6f)。有趣的是，在体外受损结合的近端结合位点的突变导致Xre调节子反而充当激活物，这提示与远端位点的相互作用激活转录，而与近端位点的相互作用阻遏转录(图6f)。与I-F3a元件的结果类似，Xre调节子能够阻遏tniQ-cas8/5,7,6表达，并且这种阻遏受到保守结合基序的突变的损害(图6f)。

使用另外的测定来确认调节区与来自I-F3a和I-F3b系统的实施例缀合转移后的接合子诱导。与具有发现于Tn7-CRISPR-Cas元件中的Xre蛋白的生物化学和表达控制数据以及先前具有控制器蛋白的文献一致，Xre蛋白允许已建立的供体中的紧密阻遏以及当传送到新受体中时表达的强突发(图7)。在缀合之后，从这一表达突发中免疫表达Xre调节子的受体菌株。为了表示用CRISPR-Cas启动子在Tn7-CRISPR-Cas元件中证明的Xre依赖性控制，本公开包括命名xre基因rtaC和rtbC(RNA向导的转座子/转座I-F3a或I-F3b控制器)。

实施例的讨论

从上述内容将认识到，除其它事项之外，本公开表明，用于靶向染色体位点的间隔子显示出某些特性；除了位于阵列中的最后位置中(图1)之外，所述间隔子侧接高度发散的重复序列(图2)并保持错配，所述错配显示出对向导RNA定向转座几乎没有影响或没有影响(图3c和4c)，但使得所述间隔子不可用于干扰常规1-F1系统(图5)。重复发散似乎对于来自杀鲑气单胞菌S44的I-F3b型元件是特别有益的，因为这些非典型向导RNA复合物几乎完全不可用于I-F1介导的干扰，即使是与靶标完全匹配时(图5)，同时允许比用典型向导RNA发现的更高水平的转座(图3)。因此，使用错配耐受性、专门的非典型向导RNA和选择性调节，将转座子编码的向导RNA私有化至转座子适应的I-F3系统，该向导RNA允许长期记忆直接转座到染色体位点中，以通过规范CRISPR-Cas防御系统来防御毒性自我靶向。靶向蛋白编码基因的向导RNA在与摆动位置重合的第3个位置处显示出错配的浓度(图12)。在来自杀鲑气单胞菌S44的I-F3b系统的情况下，非典型重复序列似乎是特异性适应，其允许更高频率的向导RNA靶向转座(图3和4)和来自规范I-F1干扰系统的私有化(图5)。来自Tn6677的I-F3a型Tn7-CRISPR-Cas系统未显示出与此系统中发现的非典型阵列的增强转座；转座频率与典型重复序列和高度发散的非典型重复序列相同(图4c和4d)。本公开表明I-F3b元件内的一个子分支，最终间隔子的长度被截短10至12个碱基对(图1和图13)。这些较小的间隔子产生功能性向导RNA，如通过更靠近原型间隔子的插入物的相称自然重新定位所预测的(图13)。如上所述，先前在密切相关的CRISPR-Cas系统中的工作表明，具有这一长度的向导RNA对于靶向转座或稳健干扰都没有作用(Klompe等人,2019；Kuznedelov等人,2016)。然而，I-F3b系统适应更短的向导RNA的能力可以提供来自其它I-F CRISPR-Cas系统的私有化的另一种机制。在实验室中测试的天然存在的最小I-F2型CRISPR-Cas系统对于干扰类似截短的向导RNA是没有作用的，但仍可以形成能够形成R环以与原型间隔子相匹配的复合物(Gleditzsch等人,2016)。

使用以下材料和方法来产生上述实施例中描述的结果。

实验模型和受试者细节

大肠杆菌(Escherichia coli)菌株在30℃或37℃下在溶原性肉汤(LB)或LB琼脂(除非在方法细节中另有说明)上生长，所述LB琼脂在适当时补充有以下浓度的抗生素：100μg/mL羧苄青霉素(carbenicillin)、10μg/mL庆大霉素(gentamicin)、30μg/mL氯霉素(chloramphenicol)、8μg/mL四环素(tetracycline)、50μg/mL卡那霉素、100μg/mL壮观霉素(spectinomycin)。

方法细节

鉴定I-F型CRISPR向导的Tn7样转座子

总共分析了53,079个基因组。可以从欧洲生物信息研究所(The EuropeanBioinformatics Institute，EMBL-EBI)Pfam数据库下载的与TnsA(PF08722，PF08721)、TnsB(PF00665)、TnsC(PF11426，PF05621)、TniQ(PF06527)、Cas5f(PF09614)、Cas6f(PF09618)、Cas7f(PF09615)和Xre家族蛋白(PF01381)相关的剖面隐含HMM用于用hmmsearch(HMMER3)检测同系物。

基于候选蛋白的定向和接近度，将候选蛋白分组为tnsABC操纵子和tniQ-cas操纵子。然后将每个tnsABC操纵子与其下游tniQ-cas操纵子分组到一个转座子功能单元中。将位于两个操纵子之间并且与限制性控制器蛋白(blastp，同一性>40％)同源的Xre/HTH(螺旋转角螺旋)蛋白定义为候选调节子。

CRISPR阵列检测

使用Tn7-CRISPR-Cas元件的手动整理的CRISPR重复序列来产生DNA序列谱，将所述谱用作nhmmscan搜索(HMMER3)的查询，以在cas6的下游20kb区域中找到CRISPR重复序列。将推定重复序列按照彼此之间的距离分组成阵列。重复序列之间的距离要求为>55bp且<65bp，位评分阈值为-1。允许后一重复序列与前一重复序列之间的距离介于43bp与55bp之间，但在这种情况下，其位评分必须>＝0.3。阵列中重复序列的位评分的总和不能低于6.0。收集最长的非重叠阵列作为推定的CRISPR阵列。使用除了来自cas6下游的第一阵列的最终重复序列之外的所有重复序列来产生经更新的重复序列谱，并且用新谱重复CRISPR检测程序两次。

原型间隔子检测

为了检测与转座子相关CRISPR间隔子相匹配的原型间隔子，将每个间隔子转换到位置特异性评分矩阵(PSSM)中并且用于搜索tnsA的上游1kb DNA以便获得与Biopython的匹配(阈值＝11.0)。因为在I型CRISPR级联复合物中，间隔子的每第6个碱基都被翻转，所以矩阵的所有第6个位置都被设定为在所有四个碱基上具有相等的权重。

除了ffs(SRP-RNA)之外，用NCBI中提供的注释对包括候选原型间隔子的主要附着位点基因进行分类。附着位点SRP-RNA基因(ffs)通常注释不佳，因此使用在RFAM(//rfam.xfam.org/)上可获得的cmsearch(Infernal)和SRP-RNA谱(RF00169)对所述基因进行重新注释。

构建相似性树

使用Cd-hit对TnsA、TniQ和Xre蛋白进行聚类，其中同一性阈值设定为90％。使用MUSCLE对代表进行多重比对。使用具有20个速率类别的WAG进化模型和离散γ模型用FastTree制造相似性树，如先前所述(Peters等人,2017)。用ETEToolkit完成对树、主要附着位点、CRISPR阵列和匹配的间隔子的可视化。

鉴定xre和CRISPR-Cas基因的共享启动子基序

基于相关的xre长度(对于I-F3a，68a.a.或对于I-F3b，约100a.a.)以及与C.AhdI和C.Csp23II的相似性，将转座子分为两组。对于每个组，收集xre、第二CRISPR阵列和tniQ-cas操纵子上游的100bp，并且使用具有70％同一性阈值或30个编辑距离的dedupe.sh(BBTools)进行去重复。然后将序列发送到MEME进行基序检测和比较。

将染色体靶向间隔子的共有CRISPR重复序列与其它间隔子的共有CRISPR重复序列进行比较

为了制备CRISPR重复序列的共有序列，用Cd-hit选择具有非冗余TniQ的转座子代表，并且基于所述转座子代表的附着位点是ffs/rsmJ或guaC/yciA将其分为两组。收集染色体靶向间隔子的上游和下游CRISPR重复序列以及不侧接染色体靶向间隔子的重复序列，并且使用WebLogo 3创建序列标志。

转座测定

所有转座测定在MTP1191或者MTP997或MTP1196之一与F质粒衍生物中进行。

对于Tn6900转座，通过标准化学方法(Peters,2007)使用于监测转座的菌株具有感受态，并且用pMTP130、pMTP140以及pMTP150、pMTP160、pMTP170或pMTP190的衍生物转化到补充有100μg/mL羧苄青霉素、10μg/mL庆大霉素、30μg/mL氯霉素和0.2％w/v葡萄糖的LB琼脂上。在37℃下温育16小时之后，将数百个转化体在补充有0.2％w/v麦芽糖的M9基本培养基中洗涤(Peters,2007)，并且在补充有100μg/mL羧苄青霉素、10μg/mL庆大霉素、30μg/mL氯霉素、0.2％w/v阿拉伯糖和100μM IPTG的M9中稀释至计算的OD＝0.2，以诱导转座。

对于通过麦康基氏培养基上的糖代谢损失监测转座频率的实验，在连续稀释在LB中并且铺板在麦康基1％w/v乳糖、山梨糖醇或半乳糖上之前，在30℃下振荡的情况下，将诱导池温育24小时。在对菌落进行计数之前，将板在37℃下温育16小时。

对于通过配对输出测定监测转座频率的实验(图9a)，在30℃下振荡的情况下温育24小时之后，将一部分所诱导培养物洗涤一次并且重悬于补充有0.2％w/v葡萄糖的LB中。在37℃下温育2小时之后，将诱导池与所制备的对数中期CW51受体菌株以1:5的供体:受体比率混合，并且在37℃下伴随轻轻搅拌温育90分钟以允许配对。温育后，将培养物涡旋，置于冰上，然后连续稀释在LB 0.2％w/v葡萄糖中，并且铺板在补充有20μg/mL萘啶酸、100μg/mL利福平(rifampicin)、100μg/mL壮观霉素、50μg/mL X-gal、补充有或未补充有50μg/mL卡那霉素的LB上，以分别对整个转接合子群体进行取样或选择用于转座。在对菌落进行计数之前，将板在37℃下温育36小时。

除了当存在时用8μg/mL四环素替代庆大霉素之外，如上用功能质粒pMTP230、pMTP240以及pMTP250、pMTP260或pMTP270的衍生物进行Tn6677转座测定。

在所有实验中，使用间隔子与靶F质粒不匹配的非靶对照，其中转座频率类似于图3B中的杀鲑气单胞菌S44转座的非靶速率或图4D中的Tn6677转座的非靶速率。

转座事件的筛选定向

在补充有20μg/mL萘啶酸、100μg/mL利福平、100μg/mL壮观霉素、50μg/mL X-gal和50μg/mL卡那霉素的LB上对来自配对输出测定的具有微型元件插入的单独分离的CW51转接合子进行纯化。使用引物组A(JEP1386+JEP1958)或引物组B(JEP1387+JEP1958)进行菌落PCR，以捕获插入事件的位置和定向。

铜绿假单胞菌CRISPR干扰测定

所有干扰测定均在BL21-AI中进行。通过标准化学方法(Peters,2007)使BL21-AI具有感受态，并且用pOPO322、pCsy_复合物和pCOLADuet-1的衍生物转化到补充有100μg/mL羧苄青霉素、100μg/mL壮观霉素、30μg/mL氯霉素和0.2％w/v葡萄糖的LB琼脂上。将在补充有100μg/mL羧苄青霉素、100μg/mL壮观霉素、30μg/mL氯霉素的LB琼脂中生长的过夜培养物以1:50稀释在补充有100μg/mL羧苄青霉素、100μg/mL壮观霉素、30μg/mL氯霉素、100μMIPTG和1mM阿拉伯糖的LB中。在通过标准方法(Peters,2007)制备电感受态细胞并且用1ngpOPO275或pOPO390转化之前，使培养物生长到OD＝0.4。在连续稀释并铺板在补充有100μg/mL羧苄青霉素、50μg/mL卡那霉素、30μg/mL氯霉素和100μg/mL壮观霉素的LB上之前，在37℃下，将细胞在SOC中回收一小时。在对菌落进行计数之前，将板在37℃下温育16小时。

Xre蛋白纯化

将pOPO223、pOPO239、pOPO331或pOPO360转化到BL21(DE3)中，将BL21在37℃下在Terrific肉汤中培养并且在对数期期间用0.1mM IPTG诱导。在用离心收集并且通过超声在补充有0.15mg/mL溶菌酶的镍缓冲液(20mM HEPES–NaOH(pH 7.5)、500mM NaCl、30mM咪唑、5％(v/v)甘油、5mMβ-巯基乙醇)中裂解之前，将细胞在18℃下再培养12至16小时。通过离心使裂解物澄清，并加载到镍-NTA柱上，用镍缓冲液洗涤，并且在镍缓冲液中经30mM至500mM咪唑梯度洗脱。将所选的经纯化级分合并，透析，并且将缓冲液交换到储存缓冲液(20mMHEPES–NaOH(pH 7.5)、100mM KCl、5％(v/v)甘油、1mM DTT)中。将经纯化的蛋白质用液氮快速冷冻并储存在-80℃下。

电泳迁移率转变测定(EMSA)

对推定的Xre调节基因及其突变变体的启动子片段进行PCR扩增和纯化。在25℃下，将100nM DNA用含不同量的经纯化的Xre蛋白的平衡缓冲液(50mM Tris–HCl(pH 8.0)、1mM DTT、10mM MgCl2)温育20分钟，然后与甘油混合(最终浓度6％)。EMSA在6％非变性TBEPAGE(聚丙烯酰胺凝胶)中用0.5x TBE作为运行缓冲液进行，在室温下以80V运行一小时。将凝胶EtBr染色并用UV成像仪可视化。

DNA底物是如下产生的：从pBAD24(JEP175+JEP1364)扩增ArapBAD；从副溶血性弧菌RIMD221063(JEP1956+JEP1957，pXre(Vp)；JEP1954+JEP1955，pAttguide(Vp))扩增pXre(Vp)和pAttguide(Vp)；从gBlock11(JEP29+JEP30，pXre(Vc)；JEP1553+JEP82、pAttguide(Vc))扩增pXre(Vc)和pAttguide(Vc)；从pOPO08(JEP1321+JEP81)扩增pXre(As)；从pOPO09(JEP1322+JEP81)扩增pTniQ(As)；从pOPO10(JEP1321+JEP81)扩增pXre*(As)；从pOPO11(JEP1322+JEP81)扩增pTniQ*(As)；从pOPO06(JEP1553+JEP81)扩增pXre(VB6)；并且从pOPO07(JEP1554+JEP81)扩增pTniQ(VB6)。

体内启动子测定

在补充有100μg/mL羧苄青霉素和30μg/mL氯霉素的LB琼脂上，将pOPO256、pOPO258、pOPO364或pOPO345以及pOPO221的衍生物转化到通过标准化学方法(Peters,2007)具有感受态的BW27783中。将在补充有100μg/mL羧苄青霉素和30μg/mL氯霉素的LB中生长的过夜培养物以1:100稀释到补充有100μg/mL羧苄青霉素、30μg/mL氯霉素和各种浓度的葡萄糖或阿拉伯糖的LB中，如图6所示，并且在30℃下再培养20小时。用标准米勒单位测定(Malke,1993)测量LacZ活性。

接合子诱导测定

通过标准化学方法(Peters,2007)使PO429具有感受态，并且在补充有50μg/mL卡那霉素的LB琼脂上用pOPO392、pOPO394或pOPO435之一进行转化以产生供体菌株。通过标准化学方法(Peters,2007)使DH5α具有感受态，并且在补充有100μg/mL羧苄青霉素的LB琼脂上用pETDuet-1、pOPO395、pOPO397或pOPO438进行转化以产生受体菌株。将在补充有适当抗生素的LB中生长的供体和受体的过夜培养物在同一培养基中以1:10稀释并生长两小时，然后用LB洗涤三次以去除抗生素。供体和受体菌株以1:2的比率混合，并且在37℃下点样在LB琼脂上进行配对。用标准米勒单位测定(Malke,1993)测量配对细胞在不同时间点的LacZ活性。通过在同一板上分别点样供体和受体来进行非配对对照。

菌株构建

通过在30℃下生长的补充有100μg/mL羧苄青霉素的LB琼脂上，将pMTP112或pMTP113转化到通过标准化学方法(Peters,2007)具有感受态的BW27783中来构建MTP997和MTP1196。在42℃下生长的补充有50μg/mL卡那霉素的LB琼脂上对单独的菌落进行纯化，以选择将miniTn7插入到染色体中，同时固化pMS26衍生物。在30℃下，在补充有羧苄青霉素或卡那霉素的LB琼脂上对单独的菌落进行纯化，以证实羧苄青霉素抗性的丧失。

通过用在菌株EMG2上生长的噬菌体对MTP997进行P1转导来构建MTP1191，以用野生型lac操纵子替代lacZ缺失。在补充有0.2％w/v乳糖的M9基本培养基上选择转导子。

通过使用重组工程(Datsenko和Wanner,2000)以用从miniTn7(genR)lacZ插入文库PCR扩增的lacZ::miniTn7(genR)等位基因替代野生型lacZ来构建PO429。

质粒构建

使用标准的分子克隆技术使用供应商的说明制备以下所描述的载体。

在用NotI消化之后，通过将gBlock1连接到pMS26的NotI位点来构建pMTP112。所使用的克隆具有接近Tn7右末端的杀鲑气单胞菌左末端。通过组装从pSL0527(pDonor)(JEP1858+JEP1859和JEP1860+JEP1861)扩增的两种PCR产物、从gBlock1(JEP1862+JEP1863)扩增的一种PCR产物以及使用NEBuilder Hifi(NEB)用NotI消化的pMS26来构建pMTP113。通过组装从F质粒(JEP1398+1340和JEP1341+1399，GenBank：AP001918.1)扩增的两种PCR产物、从pMTP150(JEP1343+JEP1344)扩增的一种PCR产物、从pBAD322S(JEP1345+JEP1346，GenBank：DQ131584.1)扩增的一种PCR产物，以及使用NEBuilder Hifi用EcoRV消化的pTSC29来构建pMTP114。在使用金门克隆(golden gate cloning)(Engler等人,2008)用BsaI消化之后通过将从EMG2(JEP1663+JEP1664，GenBank：U00096.3)扩增的PCR产物插入到pMTP114中来构建pMTP115。在使用金门克隆用BsaI消化之后通过将退火的寡核苷酸(JEP1485+JEP1486)插入到pMTP114中来构建pMTP116。在使用金门克隆用BsaI消化之后通过将退火和延伸的寡核苷酸(JEP1481+JEP1482)插入到pMP114中来构建pMTP117。在使用金门克隆用BsaI消化之后通过将退火和延伸的寡核苷酸(JEP1878+JEP1879)插入到pMTP114中来构建pMTP118。通过组装gBlock2、gBlock3以及从用DraII消化的pTA106(JEP1146+JEP1467)用使用NEBuilder Hifi纯化的3,800bp片段凝胶扩增的PCR产物来构建pMTP130。通过组装gBlock4、gBlock5、gBlock6以及使用NEBuilder Hifi用NcoI和HindIII消化的pBAD322G来构建pMTP140。通过组装从pBAD33(JEP1766+JEP1767和JEP1768+JEP1769)扩增的两种PCR产物与使用NEBuilder Hifi的gBlock7和gBlock8来构建pMTP150。在使用金门克隆用BsaI消化之后通过将退火的寡核苷酸(JEP1477+JEP1478)插入到pMTP150中来构建pMTP151。通过组装从pBAD33(JEP1766+JEP1767和JEP1768+JEP1769)扩增的两种PCR产物与gBlock7以及使用NEBuilder Hifi从gBlock8(JEP1475+JEP1773)扩增的一种PCR产物来构建pMTP160。通过连接退火的寡核苷酸(JEP1477+JEP1478，pMTP161；JEP1776+JEP1777，pMTP162；JEP1778+JEP1779，pMTP163；JEP1669+JEP1670，pMTP164；JEP1671+JEP1672，pMTP165)来构建pMTP161-165。通过组装从pBAD33(JEP1766+JEP1767和JEP1770+JEP1769)扩增的两种PCR产物与从gBlock7(JEP1774+JEP1474)扩增的一种PCR产物以及使用NEBuilder Hifi从gBlock8(JEP1475+JEP1775)扩增的一种PCR产物来构建pMTP170。在使用金门克隆用BsaI消化之后通过将退火的寡核苷酸(JEP1784+JEP1785，pMTP171；JEP1780+1781，pMTP172；JEP1782+JEP1783，pMTP173；JEP1794+JEP1795，pMTP174；JEP1796+JEP1797，pMTP175；JEP1786+JEP1787，pMTP176；JEP1788+JEP1789，pMTP177；JEP1798+JEP1799，pMTP178；JEP1800+JEP1801，pMTP179；JEP1808+JEP1809，pMTP180；JEP1810+JEP1811，pMTP181；JEP1816+JEP1817，pMTP182；JEP1818+JEP1819，pMTP183)插入到pMTP170中来构建pMTP171-183。通过组装使用NEBuilder Hifi从pBAD33(JEP1766+JEP1767和JEP1771+JEP1769)扩增的两种PCR产物来构建pMTP190。通过退火四个寡核苷酸(JEP1928、JEP1929、JEP1930、JEP1931：pMTP191；JEP1932、JEP1933、JEP1934、JEP1935：pMTP192)并与用XmaI和BsaI消化的pMTP190连接来构建pMTP191和pMTP192。

通过组装从pBAD33(JEP1864+JEP1865)扩增的一种PCR产物、从pMTP130(JEP1866+JEP1867)扩增的一种PCR产物和用NcoI和PflFI消化的pSL0284用使用NEBuilder Hifi纯化的3,707bp片段凝胶来构建pMTP230。通过组装从pBAD322(JEP1868+JEP1869)扩增的PCR产物与用NdeI和BglI消化的pSL0284用使用NEBuilder Hifi纯化的5,152bp片段凝胶来构建pMTP240。通过组装使用NEBuilder Hifi从pCDFDuet-1(JEP1838+JEP1839)扩增的PCR产物、从pBAD322(JEP1834+JEP1835)扩增的PCR产物和从pBBR1MCS-3(JEP1836+JEP1837)扩增的PCR产物来构建pMTP250。通过退火四个寡核苷酸(JEP1870、JEP1871、JEP1872、JEP1873：pMTP260；JEP1908、JEP1909、JEP1910、JEP1911：pMTP270)并与用XmaI和BsaI消化的pMTP250连接来构建pMTP260和pMTP270。在使用金门克隆用BsaI消化之后通过将退火的寡核苷酸(JEP1914+JEP1915，pMTP161；JEP1912+JEP1913，pMTP162；JEP1880+JEP1881，pMTP163；JEP1882+JEP1883，pMTP164)插入到pMTP260中来构建pMTP261-264。在使用金门克隆用BsaI消化之后通过将退火的寡核苷酸(JEP1914+JEP1919，pMTP271；JEP1912+JEP1917，pMTP272；JEP1880+JEP1916，pMTP273；JEP1882+JEP1917，pMTP27)插入到pMTP270中来构建pMTP271-274。通过退火四个寡核苷酸(JEP1920、JEP1921、JEP1922、JEP1923：pMTP275；JEP1924、JEP1925、JEP1926、JEP1927：pMTP276)并与用XmaI和BsaI消化的pMTP250连接来构建pMTP275和pMTP276。

所有F衍生物都是通过使用重组工程(Datsenko和Wanner,2000)用从pMTP114衍生物扩增的PCR片段替代来自菌株EMG2(GenBank：AP001918.1)的质粒F的大区域来制备(JEP1376+1386，pMTP115，FΔ(finO-fxsA)::lacZ specR；pMTP116；FΔ(finO-fxsA)::cysH^As specR；pMTP117，FΔ(finO-fxsA)::ffs^As specR；pMTP118，FΔ(finO-fxsA)::guaC^VcspecR)。

通过将从用NdeI和HindIII消化的gBlock9(JEP1657+JEP1757)扩增的PCR产物连接到用相同酶消化的pBAD33中来构建pOPO256。将所得构建体用NdeI和XbaI消化并且与磷酸化退火的寡核苷酸(JEP1842+JEP1843)连接。通过组装从gBlock10(JEP1764+JEP1765)扩增的PCR产物与使用NEBuilder Hifi用NdeI和HindIII消化的pBAD33来构建pOPO258。将所得构建体用NdeI和XbaI消化并且与磷酸化退火的寡核苷酸(JEP1842+JEP1843)连接。通过将从用NdeI和HindIII消化的副溶血性弧菌RIMD221063(由Tobias Doerr友好地提供)(JEP1952+JEP1960)的gDNA扩增的PCR产物和磷酸化退火的寡核苷酸(JEP1842+JEP1843)连接到用NdeI和HindIII消化的pBAD33中来构建pOPO364。通过将从用SpeI和HindIII消化的gBlock11(JEP1555+JEP1556)扩增的PCR产物连接到用XbaI和HindIII消化的pBAD33中来构建pOPO345。通过将从用BsaI和XhoI消化的pBAD24(JEP1759+JEP1760)扩增的PCR产物与从用相同酶消化的EMG2(JEP1761+JEP1762)扩增的PCR产物连接来构建pOPO221。通过将来自用XhoI和StuI消化的gBlock10或gBlock11(gBlock10：pOPO227-230；gBlock11：pOPO332、pOPO334、pOPO341、pOPO337)的片段连接到用XhoI和SmaI消化的pOPO221中来构建pOPO227-230、pOPO332、pOPO334、pOPO341和pOPO337。通过将从副溶血性弧菌RIMD221063(JEP1956+JEP1957，pOPO329；JEP1954+JEP1955，pOPO330)的gDNA扩增的PCR产物连接到用XhoI和SmaI消化的pOPO221中来构建pOPO329和pOPO330。通过将用NdeI和XhoI消化的(从gBlock9，JEP1675+JEP1758，pMTP016；从gBlock10，JEP1556+JEP1764，pMTP017；从副溶血性弧菌RIMD221063的gDNA，JEP1952+JEP1953，pMTP018；从gBlock11，JEP1950+1951，pMTP019)扩增的PCR产物连接到用相同酶消化的pET22b(+)中来构建pOPO223、pOPO239、pOPO331、pOPO360。通过将退火的寡核苷酸(分别为JEP2119、JEP2120、JEP1906+JEP1907)连接到从用SapI消化的pCOLADuet-1(JEP1902+JEP1903)扩增的PCR产物中来构建pOPO390和pOPO275。通过组装从pCas1_pCas2/3(JEP1889+JEP1890)扩增的PCR产物和使用NEBuilder Hifi用NcoI和AvrII消化的pACYCDuet-1来构建pOPO322。通过组装从副溶血性弧菌RIMD221063(JEP2107+JEP2108)的gDNA扩增的PCR产物和pOPO330(JEP2109+JEP2110)与使用NEBuilderHifi用NsiI和BamHI消化的pBBR1MCS-2来构建pOPO392。通过组装从gBlock10(JEP2111+JEP2112，JEP2113+JEP2114)扩增的PCR产物和pOPO227(JEP2115+JEP2116)与使用NEBuilder Hifi用NsiI和BamHI消化的pBBR1MCS-2来构建pOPO394。通过组装从gBlock11(JEP2154+JEP2155，JEP2156+JEP2157)扩增的PCR产物和pOPO337(JEP2158+JEP2159)与使用NEBuilder Hifi用NsiI和BamHI消化的pBBR1MCS-2来构建pOPO435。通过组装从副溶血性弧菌RIMD221063(JEP2101+JEP2102)的gDNA扩增的PCR产物和使用NEBuilder Hifi用XbaI和AvrII消化的pETDuet-1来构建pOPO395。通过组装从gBlock10(JEP2103+JEP2104，JEP2105+JEP2106)扩增的PCR产物与使用NEBuilder Hifi用XbaI和AvrII消化的pETDuet-1来构建pOPO397。通过组装从gBlock11(JEP2160+JEP2161，JEP2162+JEP2163)扩增的PCR产物与使用NEBuilder Hifi用XbaI和AvrII消化的pETDuet-1来构建pOPO438。

通过连接从用BsaI消化的pCDFDuet-1(JEP1577+JEP1891)扩增的PCR产物和两对磷酸化退火的寡核苷酸(JEP1995+JEP1996，JEP1997+JEP1998)来构建pOPO374。用同一方法但用寡核苷酸(JEP2003+JEP2004，JEP2005+JEP2006)和(JEP2007+JEP2008，JEP2009+JEP2010)来构建pOPO376和pOPO378。

通过连接从用BsaI消化的pCDFDuet-1(JEP2032+JEP2033)扩增的PCR产物与四个退火的寡核苷酸(JEP2063、JEP2064、JEP2065、JEP2066：pMTP281；JEP2078、JEP2079、JEP2080、JEP2081：pMTP282；JEP2035、JEP2036、JEP2037、JEP2038：pMTP283；JEP2049、JEP2050、JEP2051、JEP2052：pMTP284；JEP2067、JEP2068、JEP2069、JEP2066：pMTP285；JEP2082、JEP2083、JEP2084、JEP2081：pMTP286)来构建pMTP281-286。

定量和统计分析

统计细节列于图例中。当陈述时，用三个生物重复品(n＝3)进行实验。

本公开中所使用的质粒如下。序列表中提供了质粒序列。

质粒表

在本公开中使用以下寡核苷酸。

寡核苷酸表：

在本公开中使用的合成基因片段(gBlock)通过以下名称提及。序列表中提供序列。

以下引用的参考文献列表并不表明所述参考文献中的任何参考文献对专利性都是重要的。

Bainton,R.、Gamas,P.和Craig,N.L.(1991).Tn7体外转座通过由DNA中的交错断裂产生的切离的转座子中间体进行(Tn7 transposition in vitro proceeds through anexcised transposon intermediate generated by staggered breaks in DNA.)《细胞(Cell)》65,805-816。

Bainton,R.J.、Kubo,K.M.、Feng,J.-N.和Craig,N.L.(1993).Tn7转座：靶DNA识别是由经纯化的体外系统中的多个Tn7编码的蛋白质介导的(Tn7 transposition:targetDNA recognition is mediated by multiple Tn7-encoded proteins in a purified invitro system.)《细胞》72,931-943。

Boehmer,T.、Vogler,A.J.、Thomas,A.、Sauer,S.、Hergenroether,M.、Straubinger,R.K.、Birdsell,D.、Keim,P.、Sahl,J.W.、Williamson,C.H.D.等人(2018).从德国狗分离的产超广谱β-内酰胺酶的细菌的表型表征和全基因组分析(Phenotypiccharacterization and whole genome analysis of extended-spectrum beta-lactamase-producing bacteria isolated from dogs in Germany.)《公共科学图书馆·综合(PLoS One)》13,e0206252。

Borges,A.L.、Davidson,A.R.和Bondy-Denomy,J.(2017).抗CRISPR的发现、机制和进化影响(The Discovery,Mechanisms,and Evolutionary Impact of Anti-CRISPRs.)《病毒学年评(Annu Rev Virol)》4,37-59。

Chowdhury,S.、Carter,J.、Rollins,M.F.、Golden,S.M.、Jackson,R.N.、Hoffmann,C.、Nosaka,L.、Bondy-Denomy,J.、Maxwell,K.L.、Davidson,A.R.等人(2017).结构揭示了拦截CRISPR RNA向导的监视复合物的病毒抑制子的机制(Structure RevealsMechanisms of Viral Suppressors that Intercept a CRISPR RNA-GuidedSurveillance Complex.)《细胞》169,47-57.e11。

Datsenko,K.A.和Wanner,B.L.(2000).使用PCR产物使大肠杆菌K-12中的染色体基因一步失活(One-step inactivation of chromosomal genes in Escherichia coliK-12using PCR products.)《美国国家科学院院刊(Proc Natl Acad Sci U S A)》97,6640-6645。

Engler,C.、Kandzia,R.和Marillonnet,S.(2008).具有高通量能力的一锅一步精确克隆方法(A one pot,one step,precision cloning method with high throughputcapability.)《公共科学图书馆·综合》3,e3647-e3647。

Faure,G.、Makarova,K.S.和Koonin,E.V.(2019a).CRISPR-Cas：超越适应性免疫的复杂功能网络和多重角色(CRISPR-Cas:Complex Functional Networks and MultipleRoles beyond Adaptive Immunity.)《分子生物学杂志(J Mol Biol)》431,3-20。

Faure,G.、Shmakov,S.A.、Yan,W.X.、Cheng,D.R.、Scott,D.A.、Peters,J.E.、Makarova,K.S.和Koonin,E.V.(2019b).可移动遗传元件中的CRISPR-Cas：反防御与超越(CRISPR-Cas in mobile genetic elements:counter-defence and beyond.)《自然微生物学综述(Nat Rev Microbiol)》17,513-525。

Fineran,P.C.、Gerritzen,M.J.、Suarez-Diez,M.、Kunne,T.、Boekhorst,J.、vanHijum,S.A.、Staals,R.H.和Brouns,S.J.(2014).简并靶位点介导快速致敏的CRISPR适应(Degenerate target sites mediate rapid primed CRISPR adaptation.)《美国国家科学院院刊》111,E1629-1638。

Gleditzsch,D.、Muller-Esparza,H.、Pausch,P.、Sharma,K.、Dwarakanath,S.、Urlaub,H.、Bange,G.和Randau,L.(2016).调制最小I-F型CRISPR-Cas系统的级联架构(Modulating the Cascade architecture of a minimal Type I-F CRISPR-Cassystem.)《核酸研究(Nucleic Acids Res)》44,5872-5882。

Hoyland-Kroghsbo,N.M.、Paczkowski,J.、Mukherjee,S.、Broniewski,J.、Westra,E.、Bondy-Denomy,J.和Bassler,B.L.(2017).群体感测控制铜绿假单胞菌CRISPR-Cas适应性免疫系统(Quorum sensing controls the Pseudomonas aeruginosa CRISPR-Cas adaptive immune system.)《美国国家科学院院刊》114,131-135。

Jackson,R.N.、Golden,S.M.、van Erp,P.B.、Carter,J.、Westra,E.R.、Brouns,S.J.、van der Oost,J.、Terwilliger,T.C.、Read,R.J.和Wiedenheft,B.(2014).结构生物学(Structural biology.),来自大肠杆菌的CRISPR RNA向导的监视复合物的晶体结构(Crystal structure of the CRISPR RNA-guided surveillance complex fromEscherichia coli.)《科学(Science)》345,1473-1479。

Klompe,S.E.、Vo,P.L.H.、Halpin-Healy,T.S.和Sternberg,S.H.(2019).转座子编码的CRISPR–Cas系统引导RNA向导的DNA整合(Transposon-encoded CRISPR–Cassystems direct RNA-guided DNA integration.)《自然(Nature)》571,219-225。

Kuznedelov,K.、Mekler,V.、Lemak,S.、Tokmina-Lukaszewska,M.、Datsenko,K.A.、Jain,I.、Savitskaya,E.、Mallon,J.、Shmakov,S.、Bothner,B.等人(2016).具有缩短的CRISPR RNA间隔子的改变的化学计量大肠杆菌级联复合物能够干扰和引发适应(Altered stoichiometry Escherichia coli Cascade complexes with shortenedCRISPR RNA spacers are capable of interference and primed adaptation.)《核酸研究》44,10849-10861。

Makarova,K.S.、Wolf,Y.I.、Iranzo,J.、Shmakov,S.A.、Alkhnbashi,O.S.、Brouns,S.J.J.、Charpentier,E.、Cheng,D.、Haft,D.H.、Horvath,P.等人(2020).CRISPR-Cas系统的进化分类：第2类和衍生的变体的突发(Evolutionary classification ofCRISPR-Cas systems:a burst of class 2and derived variants.)《自然微生物学综述》18,67-83。

Malke,H.(1993).Jeffrey H.Miller,细菌遗传学的短期课程—大肠杆菌和相关细菌的实验室手册和指南(A Short Course in Bacterial Genetics–A LaboratoryManual and Handbook for Escherichia coli and Related Bacteria.)冷泉港(ColdSpring Harbor)1992.冷泉港实验室出版社(Cold Spring Harbor Laboratory Press.)ISBN：0–87969-349–5.《基础微生物学杂志(Journal of Basic Microbiology)》33,278-278。

Martynov,A.、Severinov,K.和Ispolatov,I.(2017).CRISPR阵列中的间隔子的最佳数量(Optimal number of spacers in CRISPR arrays.)《公共科学图书馆计算生物学(PLoS Comput Biol)》13,e1005891。

McGeehan,J.E.、Streeter,S.D.、Thresh,S.J.、Taylor,J.E.、Shevtsov,M.B.和Kneale,G.G.(2011).一类新型R-M控制器蛋白的结构分析：来自柠檬酸杆菌RFL231的C.Csp23II(Structural analysis of a novel class of R-M controller proteins:C.Csp23II from Citrobacter sp.RFL231.)《分子生物学杂志》409,177-188。

Mitra,R.、McKenzie,G.J.、Yi,L.、Lee,C.A.和Craig,N.L.(2010).促进Tn7的位点特异性插入的TnsD-attTn7复合物的表征(Characterization of the TnsD-attTn7complex that promotes site-specific insertion of Tn7.)《可移动DNA(Mobile DNA)》1,18。

Mulepati,S.、Heroux,A.和Bailey,S.(2014).结构生物学,与ssDNA靶标结合的CRISPR RNA向导的监视复合物的晶体结构(Crystal structure of a CRISPR RNA-guidedsurveillance complex bound to a ssDNA target.)《科学》345,1479-1484。

Parks,A.R.、Li,Z.、Shi,Q.、Owens,R.M.、Jin,M.M.和Peters,J.E.(2009).通过与持续性因子的相互作用发生向复制DNA的转座(Transposition into replicating DNAoccurs through interaction with the processivity factor.)《细胞》138,685-695。

Patterson,A.G.、Jackson,S.A.、Taylor,C.、Evans,G.B.、Salmond,G.P.C.、Przybilski,R.、Staals,R.H.J.和Fineran,P.C.(2016).群体感测通过对多个CRISPR-Cas系统的调节来控制适应性免疫(Quorum Sensing Controls Adaptive Immunity throughthe Regulation of Multiple CRISPR-Cas Systems.)《分子细胞(Mol Cell)》64,1102-1108。

Peters,J.E.(2014).Tn7.《微生物学光谱(Microbiology Spectrum)》2,1-20。

Peters,J.E.(2019).使用Tn7元件的靶向转座：安全位点、可移动质粒、CRISPR/Cas及更多(Targeted transposition with Tn7 elements:safe sites,mobileplasmids,CRISPR/Cas and beyond.)《分子微生物学(Mol Microbiol)》112,1635-1644。

Peters,J.E.和Craig,N.L.(2001).Tn7使用DNA结合蛋白TnsE识别与DNA复制相关的靶结构(Tn7 recognizes target structures associated with DNA replicationusing the DNA binding protein TnsE.)《基因与发育(Genes&Dev)》15,737-747。

Peters,J.E.、Makarova,K.S.、Shmakov,S.和Koonin,E.V.(2017).通过Tn7样转座子进行的CRISPR-Cas系统的募集(Recruitment of CRISPR-Cas systems by Tn7-liketransposons.)《美国国家科学院院刊(Proceedings of the National Academy ofSciences)》114,E7358。

Rice,P.A.、Craig,N.L.和Dyda,F.(2020).关于“具有CRISPR相关转座酶的RNA向导的DNA插入”的评论(Comment on"RNA-guided DNA insertion with CRISPR-associatedtransposases".)《科学》368。

Rodic,A.、Blagojevic,B.、Zdobnov,E.、Djordjevic,M.和Djordjevic,M.(2017).通过定量建模理解细菌限制修饰系统的关键特征(Understanding key features ofbacterial restriction-modification systems through quantitative modeling.)《BMC系统生物学(BMC Syst Biol)》11,377。

Shi,Q.、Straus,M.R.、Caron,J.J.、Wang,H.、Chung,Y.S.、Guarne,A.和Peters,J.E.(2015).构象切换控制异聚转座酶元件Tn7的靶位点选择(Conformational togglingcontrols target site choice for the heteromeric transposase element Tn7.)《核酸研究》。

Stellwagen,A.E.和Craig,N.L.(1998).可移动DNA元件：用ATP依赖性分子开关控制转座(Mobile DNA elements:controlling transposition with ATP-dependentmolecular switches.)《生物化学科学趋势(Trends Biochem Sci)》23,486-490。

Strecker,J.、Ladha,A.、Gardner,Z.、Schmid-Burgk,J.L.、Makarova,K.S.、Koonin,E.V.和Zhang,F.(2019).具有CRISPR相关转座酶的RNA向导的DNA插入(RNA-guidedDNA insertion with CRISPR-associated transposases.)《科学》365,48-53。

Strecker,J.、Ladha,A.、Makarova,K.S.、Koonin,E.V.和Zhang,F.(2020).对关于“具有CRISPR相关转座酶的RNA向导的DNA插入”的评论的响应(Response to Comment on"RNA-guided DNA insertion with CRISPR-associated transposases".)《科学》368。

Streeter,S.D.、Papapanagiotou,I.、McGeehan,J.E.和Kneale,G.G.(2004).控制器蛋白C.AhdI的DNA足迹和生物物理表征表明遗传开关的基础(DNA footprinting andbiophysical characterization of the controller protein C.AhdI suggests thebasis of a genetic switch.)《核酸研究》32,6445-6453。

Vorontsova,D.、Datsenko,K.A.、Medvedeva,S.、Bondy-Denomy,J.、Savitskaya,E.E.、Pougach,K.、Logacheva,M.、Wiedenheft,B.、Davidson,A.R.、Severinov,K.等人(2015).通过I-F CRISPR-Cas系统获得外来DNA需要干扰机制的所有组分(Foreign DNAacquisition by the I-F CRISPR-Cas system requires all components of theinterference machinery.)《核酸研究》43,10848-10860。

Waddell,C.S.和Craig,N.L.(1988).Tn7转座：由五个Tn7编码的基因引导的两个转座途径(Tn7 transposition:two transposition pathways directed by five Tn7-encoded genes.)《基因与发育(Genes Dev)》2,137-149。

Westra,E.R.、Pul,U.、Heidrich,N.、Jore,M.M.、Lundgren,M.、Stratmann,T.、Wurm,R.、Raine,A.、Mescher,M.、Van Heereveld,L.等人(2010).可以通过转录激活剂LeuO减轻大肠杆菌K12中的基于CRISPR的免疫力的H-NS介导的阻遏(H-NS-mediatedrepression of CRISPR-based immunity in Escherichia coli K12 can be relievedby the transcription activator LeuO.)《分子微生物学》77,1380-1393。

Wiegand,T.、Karambelkar,S.、Bondy-Denomy,J.和Wiedenheft,B.(2020).抗CRISPR介导的免疫抑制的结构和策略(Structures and Strategies of Anti-CRISPR-Mediated Immune Suppression.)《微生物学年评(Annu Rev Microbiol.)》。

Xiao,Y.、Ng,S.、Nam,K.H.和Ke,A.(2017).II型CRISPR-Cas如何通过Cas1-Cas2介导的间隔子整合建立免疫力(How type II CRISPR-Cas establish immunity throughCas1-Cas2-mediated spacer integration.)《自然》550,137-141。

Zhao,H.、Sheng,G.、Wang,J.、Wang,M.、Bunkoczi,G.、Gong,W.、Wei,Z.和Wang,Y.(2014).大肠杆菌中RNA向导的免疫监视级联复合物的晶体结构(Crystal structure ofthe RNA-guided immune surveillance Cascade complex in Escherichia coli.)《自然》515,147-150。

虽然已经结合本公开的详细描述对本公开进行了描述，但前面的描述旨在说明而非限制本发明的范围，本发明的范围由所附权利要求的范围限定。其它方面、优势和修改在以下权利要求的范围内。

Claims

1.一种重组RNA多核苷酸，其在5′至3′方向上连续包括：

i)5′末端区段，所述5′末端区段包括第一CRISPR重复序列；

ii)间隔子序列，所述间隔子序列包括与DNA靶序列中的原型间隔子互补的靶向序列；以及

iii)3′末端区段，所述3′末端区段包括第二CRISPR重复序列；

其中所述5′末端区段或所述3′末端区段包括相对于第一参考重复序列的一个或多个核苷酸变化，并且其中当与I-F3型CRISPR-Cas蛋白接触时，所述重组RNA多核苷酸与所述I-F3型CRISPR-Cas蛋白相互作用以形成在所述DNA靶序列中实现修饰的功能性I-F3型CRISPR-Cas复合物。

2.根据权利要求1所述的重组RNA多核苷酸，其中所述3′末端区段或所述5′末端区段包括相对于第二参考重复序列的一个或多个核苷酸变化。

3.根据权利要求1所述的重组RNA多核苷酸，其中所述5′末端区段和所述3′末端区段各自分别包括相对于所述第一参考重复序列和所述第二参考重复序列的一个或多个核苷酸变化。

4.根据权利要求1所述的重组RNA多核苷酸，其中所述I-F3型CRISPR-Cas蛋白包括I-F3b型CRISPR-Cas蛋白以形成功能性I-F3b型CRISPR-Cas复合物，并且其中所述CRISPR重复序列任选地在5'末端处包括三个不是GUG的连续核苷酸。

5.根据权利要求1所述的重组RNA多核苷酸，其中与不包括所述一个或多个核苷酸变化的对照向导RNA相比，经工程化的向导多核苷酸在与所述DNA靶序列连同IF-3b型CRISPR蛋白复合物接触时表现出对所述DNA靶序列的更有效修饰。

6.根据权利要求5所述的重组RNA多核苷酸，其中所述修饰包括将DNA负载插入到所述DNA靶序列中。

7.根据权利要求5所述的重组RNA多核苷酸，其中所述5'末端区段包括8个核苷酸或由其组成，和/或其中所述3'末端区段包括20个核苷酸或由其组成，并且其中所述20个核苷酸的3′末端是G。

8.根据权利要求5所述的RNA多核苷酸，其中所述3′末端区段形成茎环，所述茎环包括回文序列。

9.根据权利要求8所述的重组RNA多核苷酸，其中所述第一参考重复序列由第一已存在重复序列编码，所述第一已存在重复序列位于内源性原核CRISPR阵列中的Cas6编码序列的3′端，和/或其中所述第二参考重复序列由第二已存在重复序列编码，所述第二已存在重复序列位于所述内源性原核CRISPR阵列中的所述Cas6编码序列的3′端，并且其中所述内源性原核CRISPR阵列任选地是γ变形菌纲CRISPR阵列。

10.根据权利要求9所述的重组RNA多核苷酸，其中所述γ变形菌纲CRISPR阵列包括杀鲑气单胞菌CRISPR阵列。

11.根据权利要求1至10中任一项所述的重组RNA多核苷酸，其中所述RNA多核苷酸存在于核糖核蛋白复合物中。

12.根据权利要求11所述的重组RNA多核苷酸，其中核糖核蛋白中的蛋白质选自Cas5、Cas6、Cas7、Cas8和其组合。

13.根据权利要求12所述的重组RNA多核苷酸，其中所述核糖核蛋白包括所述Cas6，并且其中包括所述3′末端区段的至少一部分的茎环被所述核糖核蛋白复合物中的所述Cas6识别。

14.根据权利要求11所述的重组RNA多核苷酸，其中所述靶向序列被选择用于包括在所述RNA多核苷酸中，使得所述RNA多核苷酸适用于对包括所述原型间隔子的已知DNA靶序列进行基于CRISPR的修饰。

15.根据权利要求11所述的重组RNA多核苷酸，其中所述间隔子的长度不超过29个核苷酸。

16.根据权利要求1至11中任一项所述的重组RNA多核苷酸，其中所述第一参考重复序列和/或所述第二参考重复序列与存在于细菌或古菌中的重复序列相同，其中所述细菌或古菌中的所述重复序列与CRISPR阵列中的间隔子邻接，所述间隔子不是由所述细菌获得的最近获得的间隔子。

17.一种表达载体，其编码权利要求1至11中任一项的经工程化的向导多核苷酸。

18.一种分离的RNA多核苷酸，其从根据权利要求17所述的表达载体转录。

19.一种细胞，其包括根据权利要求17所述的表达载体。

20.一种用于修饰一个或多个细胞中的遗传靶标的系统，所述系统包括：第一组转座子基因tnsA、tnsB、tnsC和tniQ；Cas基因cas8f、cas5f、cas7f和cas6f；以及任选地编码转录调节因子的xre基因，或任选地由所述基因中的一个或多个基因编码的一种或多种蛋白质，并且其中任选地所述蛋白质中的至少两种蛋白质位于融合蛋白内；以及编码根据权利要求1至11中任一项所述的重组RNA多核苷酸的序列；以及任选地DNA负载，所述DNA负载能够在接近所述原型间隔子的位置被引入到DNA中。

21.根据权利要求20所述的系统，其中所述tnsA基因包括序列的变化，使得由所述tnsA基因编码的TnsA蛋白中的至少一个氨基酸相对于所述TnsA蛋白的野生型序列发生变化，或者如果使用所述蛋白质，那么所述蛋白质包括所述变化。

22.根据权利要求20所述的系统，其中：

i)所述tnsB基因包括序列的变化，使得由所述tnsB基因编码的TnsB蛋白中的至少一个氨基酸相对于所述TnsB蛋白的野生型序列发生变化，或者如果使用所述蛋白质，那么所述蛋白质包括所述变化；或者

23.根据权利要求20所述的系统，其中：

a)所述TnsA蛋白的所述变化包括杀鲑气单胞菌TnsA蛋白的位置125处的Ala的变化，其中任选地所述变化是变成Asp或是同源TnsA蛋白的同源变化；

b)所述TnsB蛋白的所述变化包括杀鲑气单胞菌TsnB蛋白的氨基酸位置167的变化，其中任选地所述变化是变成Ser或是同源TnsB蛋白的同源位置的同源变化；或者

c)所述TnsC蛋白的所述变化包括杀鲑气单胞菌TnsC蛋白的位置135、136、137、138、139或140中的至少一个氨基酸的变化，其中任选地所述变化是所述TnsC蛋白中的位置140处的氨基酸的变化，其中任选地氨基酸140的所述变化是变成Ala或Gln或是同源TnsC蛋白的同源位置的同源变化。

24.一种方法，其包括在细胞中表达根据权利要求1至11中任一项所述的重组RNA多核苷酸，所述细胞包括：第一转座子基因tnsA、tnsB、tnsC；以及任选地至少一个tniQ；Cas基因cas8f、cas5f、cas7f和cas6f；以及任选地xre，其中任选地第一组转座子基因或所述Cas基因中的至少一个存在于重组多核苷酸内。

25.根据权利要求24所述的方法，其中所述靶向序列靶向所述细胞中的染色体或质粒中的原型间隔子。

26.根据权利要求24所述的方法，其中所述细胞是原核细胞。

27.根据权利要求24所述的方法，其中所述细胞是真核细胞，并且所述靶向序列靶向所述染色体。

28.根据权利要求24所述的方法，其进一步包括将DNA负载引入所述细胞中，其中所述DNA负载在接近所述原型间隔子的位置处插入到所述染色体或所述质粒中。

29.根据权利要求28所述的方法，其中所述DNA负载包括转座子左末端和转座子右末端。

30.根据权利要求29所述的方法，其中所述DNA负载在距所述原型间隔子的末端48个核苷酸的位置处插入到所述染色体或所述质粒中。

31.一种方法，其包括：分析来自多个生物体的CRISPR阵列；确定所述CRISPR阵列中的侧接间隔子的重复序列；将侧接较早获得的间隔子的重复序列与侧接较晚获得的间隔子的重复序列进行比较；确定侧接所述较早获得的间隔子的重复序列与侧接所述较晚获得的间隔子的重复序列之间的差异；以及将不同于侧接所述较晚获得的间隔子的所述重复序列的侧接所述较早获得的间隔子的所述重复序列指定为用于设计在基于CRISPR的DNA修饰中使用的向导RNA的候选物，其中任选地所述基于CRISPR的修饰相对于使用从侧接所述较晚获得的间隔子的序列转录的向导RNA的基于CRISPR的DNA修饰有所改善。

32.根据权利要求31所述的方法，其进一步包括产生包括5′末端序列和/或3′末端序列的RNA多核苷酸，所述5′末端序列和/或所述3′末端序列从侧接所述较早获得的重复序列的所述重复序列转录。

33.根据权利要求32所述的方法，其进一步包括在基于CRISPR的DNA修饰中使用所述RNA多核苷酸。

34.根据权利要求33所述的方法，其中所述RNA多核苷酸包括用靶向存在于染色体或质粒中的预定DNA序列的不同间隔子序列取代所分析的CRISPR阵列中的间隔子，并且其中所述间隔子的长度任选地不长于29个核苷酸。

35.一种RNA多核苷酸，其根据权利要求31所述的方法产生。

36.一种表达载体文库，其编码通过根据权利要求31所述的方法鉴定的RNA多核苷酸。

37.一种数据库，其包括多个条目，所述条目包括根据权利要求31所述的方法鉴定的侧接较早获得的间隔子的重复序列或由所述重复序列组成。

38.一种方法，其包括从根据权利要求37所述的数据库中选择一个或多个重复序列，以及产生编码所述一个或多个重复序列的表达载体。

39.一种用于产生在基于CRISPR的DNA修饰中使用的表达载体的试剂盒，所述试剂盒包括载体，所述载体包括一个或多个限制性核酸内切酶识别位点，所述一个或多个限制性核酸内切酶识别位点被配置成克隆期望的间隔子，使得所述间隔子与根据权利要求31所述的方法鉴定的一个或多个重复序列邻接。

40.根据权利要求39所述的试剂盒，其进一步包括一种或多种表达载体，所述一种或多种表达载体编码以下：第一组转座子基因tnsA、tnsB、tnsC和tniQ；Cas基因cas8f、cas5f、cas7f和cas6f；以及任选地xre基因，或任选地由所述基因中的一个或多个基因编码的一种或多种蛋白质。

41.一种用于修饰DNA靶序列的方法，所述方法包括使所述DNA靶序列与以下接触：

i)向导多核苷酸，所述向导多核苷酸包括间隔子序列和CRISPR重复序列；以及

ii)I-F型CRISPR-Cas蛋白，

其中所述间隔子序列包括与所述DNA靶序列中的原型间隔子序列互补的靶向序列，其中所述CRISPR重复序列包括相对于参考重复序列的核苷酸变化，并且其中向导多核苷酸引导所述I-F型CRISPR-Cas蛋白在所述DNA靶序列中实现修饰。

42.根据权利要求41所述的方法，其中所述向导多核苷酸进一步包括第二CRISPR重复序列，其中所述第二CRISPR重复序列包括相对于第二参考重复序列的核苷酸变化。

43.根据权利要求41或42所述的方法，其中所述第一参考重复序列由第一已存在重复序列编码，所述第一已存在重复序列位于内源性原核CRISPR阵列中的Cas6编码序列的3′端，和/或其中所述第二参考重复序列由第二已存在重复序列编码，所述第二已存在重复序列位于所述内源性原核CRISPR阵列中的所述Cas6编码序列的3'端，并且其中所述内源性原核CRISPR阵列任选地是γ变形菌纲CRISPR阵列。

44.根据权利要求41至43中任一项所述的方法，其中所述CRISPR重复序列在5′末端处包括三个不是GTG或GUG的连续核苷酸。

45.根据权利要求41至44中任一项所述的方法，其中与由所述I-F型CRISPR-Cas蛋白和参考向导RNA诱导的修饰相比，所述修饰更有效，所述参考向导RNA包括所述第一参考重复序列或所述第二参考重复序列并且不包括所述核苷酸变化。

46.根据权利要求41至45中任一项所述的方法，其中所述I-F型CRISPR-Cas蛋白包括Cas8、Cas5、Cas7或Cas6。

47.根据权利要求46所述的方法，其包括使所述DNA靶序列与Cas8、Cas5、Cas7和Cas6接触。

48.根据权利要求47所述的方法，其中所述Cas8、Cas5、Cas7和Cas6蛋白中的两种或更多种通过连接子连接。

49.根据权利要求41至48中任一项所述的方法，其进一步包括使所述DNA靶序列与选自由以下组成的组的转座子蛋白接触：tnsA、tnsB、tnsC、tniQ和tnsD。

50.根据权利要求49所述的方法，其中所述TnsA蛋白包括以TnsA参考序列作为参比的A125D氨基酸取代。

51.根据权利要求49所述的方法，其中所述TnsB蛋白包括以TnsB参考序列作为参比的P167S氨基酸取代。

52.根据权利要求49所述的方法，其中所述TnsC蛋白包括以TnsC参考序列作为参比的L135、I136、I137、I138、D139、E140A或E140Q氨基酸取代。

53.根据权利要求41至52中任一项所述的方法，其中所述修饰包括将DNA负载插入到所述DNA靶序列中。

54.根据权利要求53所述的方法，其中所述修饰不会引起所述DNA靶序列中的双链断裂。

55.根据权利要求53或54所述的方法，其中所述DNA靶序列位于真核染色体中。

56.根据权利要求41至55中任一项所述的方法，其中所述DNA靶序列位于细胞中。

57.根据权利要求56所述的方法，其中所述细胞是哺乳动物细胞，任选地其中所述细胞是人类细胞。

58.根据权利要求52至57中任一项所述的方法，其中所述DNA靶序列位于受试者体内。

59.根据权利要求58所述的方法，其中所述受试者患有疾病，并且其中所述DNA负载包括编码蛋白质的DNA序列，其中所述蛋白质在所述受试者体内的表达治疗或改善所述疾病。

60.一种用于治疗有需要的受试者的疾病的方法，所述方法包括向所述受试者施用权利要求1至11中任一项的经工程化的多核苷酸、根据权利要求17所述的载体、根据权利要求19所述的细胞或根据权利要求20至23中任一项所述的系统，其中所述修饰治疗或改善所述受试者的所述疾病的症状。