CN112912497A

CN112912497A - 工程化长散在元件(line)转座子及其使用方法

Info

Publication number: CN112912497A
Application number: CN201980069027.7A
Authority: CN
Inventors: 肖恩·克里斯滕森
Original assignee: University of Texas System
Current assignee: University of Texas System
Priority date: 2018-10-19
Filing date: 2019-10-21
Publication date: 2021-06-04
Anticipated expiration: 2039-10-21
Also published as: US20210340562A1; EP3867365A1; JP2022512739A; CN112912497B; WO2020082076A1; CN117925571A; CA3116762A1

Abstract

提供了工程化转座子及其使用方法。转座子通常包括RNA成分和蛋白质成分。RNA成分可包括例如DNA靶向序列，一个或多个蛋白质结合基序以及待整合到靶DNA中的目标核酸序列。蛋白质成分通常衍生自RLE LINE元件蛋白质，并且可以包括DNA结合结构域、RNA结合结构域、逆转录酶、接头结构域和内切核酸酶。还提供了用于将核酸序列引入细胞基因组中的药物组合物和使用方法。

Description

工程化长散在元件(LINE)转座子及其使用方法

相关申请的交叉引用

本申请要求于2018年10月19日提交的美国专利申请U.S.S.N.62/748,227的权益和优先权，通过引用将其全部内容纳入本文。

关于联邦政府赞助的研究的声明

本发明是在国家科学基金会资助的基金0950983的政府支持下完成的。政府拥有本发明的某些权利。

序列表的引用

序列表以名称为“UTSB_18_47_PCT_ST25.txt”的文本文件的形式提交，其大小为17,183字节，在此根据37 C.F.R.§1.52(e)(5)通过引用纳入本文。

技术领域

大体来说，本发明涉及用于基因组修饰的组合物和方法。

背景技术

基因组编辑技术具有治疗多种疾病和病症的潜力，所述疾病和病症包括但不限于癌症，遗传病症和HIV/AIDS。体细胞的基因组编辑是治疗开发的有前途的领域，复杂的酶编辑工具CRISPR-Cas9已被用于从人胚胎的种系中消除人β-球蛋白(HBB)基因(Otieno，(2015)，J Clin Res Bioeth 6：253.doi：10.4172/2155-9627.1000253)。但是，从历史上看，基因编辑技术的临床应用受到多种因素的限制，其中包括编辑事件的频率低、脱靶事件高或其组合。

因此，本发明的目的是提供用于基因递送和基因编辑的改进的组合物和方法。

发明简述

提供了工程化转座子及其使用方法。转座子通常包括RNA成分和蛋白质成分。RNA成分可以包括例如DNA靶向序列、一个或多个蛋白质结合基序以及待整合在DNA靶位点上的目标核酸序列。通常将DNA靶向序列、蛋白质结合基序和目标序列可操作地连接，以使它们可以与衍生自限制样内切核酸酶长散在(RLE LINE)元件蛋白质的蛋白质成分结合并被逆转录，从而获得的cDNA可以在DNA靶位点整合到DNA中，例如在细胞基因组中的DNA。目标序列可以编码例如基因或其片段或功能性核酸。

参与结合蛋白质、蛋白质结合基序(PMB)的RNA区段通常与蛋白质成分的RNA结合结构域(结构域-1)、逆转录酶、接头结构域、内切核酸酶或其组合结合。

RNA成分可以包括来自或衍生自亲本LINE或SINE骨架的元件，并且RNA成分的目标核酸序列通常与LINE或SINE异源。在典型的实施方案中，DNA靶向序列与亲本LINE或SINE是异源的。RNA成分可以包括例如来自或衍生自亲本LINE或SINE元件的3'PBM序列，CRISPR/Cas示踪序列、CRISPR/Cas引导序列或其组合，来自或衍生自亲本LINE或SINE元件的5'PBM序列，优选其中任何IRES序列都是无功能的，核酶如丁型肝炎病毒样核酶，或其任何组合。

蛋白质成分通常衍生自RLE LINE元件蛋白质，并且可以包括一个或多个DNA结合结构域、一个或多个RNA结合结构域、逆转录酶，接头结构域和内切核酸酶。通常，将DNA结合结构域、RNA结合结构域、逆转录酶、接头结构域和内切核酸酶可操作地连接，使得它们可以在DNA靶位点结合RNA成分和DNA(例如细胞基因组DNA)，促进RNA成分逆转录为cDNA，并将cDNA在DNA靶位点整合到DNA中。通常，DNA结合结构域相对于亲本LINE DNA结合结构域是突变的，或者亲本DNA结合结构域被备选的DNA结合结构域取代。在一些实施方案中，DNA结合结构域是来自另一种DNA结合蛋白的DNA结合结构域或其基序，例如螺旋-转角-螺旋、锌指、亮氨酸拉链、翼状螺旋、翼状螺旋-转角-螺旋、螺旋-环-螺旋，HMG-盒、Wor3结构域、OB折叠结构域、免疫球蛋白折叠、B3结构域、TAL效应子或RNA导向结构域。通常，RNA结合结构域、逆转录酶、接头结构域和内切核酸酶中的一个或多个的序列与LINE元件蛋白质的序列相同，或优选相对于亲本LINE元件蛋白质进行突变以改善与RNA成分或靶DNA的结合和/或酶活性。

在一些实施方案中，RNA成分的亲本LINE或SINE骨架和蛋白质成分的亲本LINE骨架是相同的LINE和/或SINE源自LINE的祖先或是LINE的祖先。RNA成分的RNA序列、蛋白质序列的氨基酸序列或其组合可以是亲本骨架的重组序列和/或变体。

还提供了编码RNA成分和蛋白质成分的载体，以及包括所述成分、载体和/或由此形成的工程化转座子的药物组合物。优选地，转座子可以在DNA靶位点的整合反应期间形成生产性的4向连接。

还提供了使用方法。例如，将目标核酸序列引入一个或多个细胞的基因组中的方法，所述方法可以包括使一个或多个细胞与(i)RNA成分或编码RNA成分的载体和蛋白质成分或编码蛋白质成分的载体的组合；或(ii)包含RNA成分和蛋白质成分的工程化转座子接触。可以在体外或体内接触细胞。在一些实施方案中，离体修饰的细胞随后被引入需要其的受试者中。在一些实施方案中，将组合物直接施用至需要其的受试者。

还提供了治疗疾病和病症的方法。在这样的用途中，目标核酸序列在细胞中的表达可以改善疾病或病症的一种或多种症状，或改善疾病或病症潜在的分子途径。在优选的实施方案中，修饰有效数量的细胞以治疗患有疾病或病症的受试者。

附图说明

图1A是R2Bm结构的示意图。R2Bm RNA(波浪线)和开放阅读框(ORF)结构(盒)。ORF编码已知功能和未知功能的保守结构域：锌指(ZF)、Myb(Myb)、逆转录酶结构域(RT)、富含半胱氨酸-组氨酸的基序(CCHC)和PD-(D/E)XK型限制样内切核酸酶(RLE)。结合R2蛋白的5′和3′非翻译区中存在的RNA结构分别标记为5′和3′蛋白质结合基序(PBM)。括号表示本文中使用的R2Bm RNA的各个区段：5'PBM RNA(320nt)，3′PBM RNA(249nt)，元件5′端的RNA(25或40nt)和RNA3′端(25或40nt)。图1B是R2Bm整合反应的示意图。在28S rDNA的区段(平行线)上描绘了四步整合模型。R2蛋白质亚基(六边形)结合在插入位点(竖条形)的上游，R2蛋白亚基结合在插入位点的下游。上游亚基与3′PBM RNA缔合，而下游亚基与5'PBM RNA缔合。标出了蛋白质亚基在靶DNA上的足迹。上游足迹从-40bp到-20bp，但在第一链DNA切割后增长到插入位点(垂直线)的正上方。下游亚基足迹从插入位点正前方到+20 bp(Christensen等，Nucleic Acids Res 33，6461(2005)，Christensen和Eickbush，Proc Natl Acad SciUSA 103，17602(2006))。整合的四个步骤是：(1)靶DNA的底部/第一链的DNA切割，(2)TPRT，(3)靶DNA的顶部/第二链的DNA切割，和(4)第二链DNA合成。第四步骤以前未在体外直接观察到。实施例1-8中使用的靶位点的重叠部分用括号表示。

图2A和2B是非特异性4向连接(2A)和线性DNA(2B)DNA构建体的示意图。4向连接的设计和序列来自(Middleton和Bond，Nucleic Acids Res 32，5442(2004))，是通过b、x、h和r DNA寡核苷酸退火形成的。所得连接的每个臂为25bp。通过将寡核苷酸b退火为由x和h寡核苷酸组合而成的寡核苷酸来产生线性DNA。因此，连接和线性DNA共享共同的DNA寡核苷酸(oligo b)。在形成和纯化线性和连接DNA之前，将共享的DNA寡核苷酸用32P进行5′端标记(星号)。

图3是几种线性、3向和4向分支DNA构建体的示意图。直线代表DNA，波浪线代表RNA。细线代表图2A-2B中描绘的非特异性DNA。粗线代表28S rDNA以及R2元件衍生的序列。R2序列来自元件的5′和3′端。28S序列是下游DNA(28Sd)加上上游DNA的7bp。每个构建体中的“臂”长度为25bp。出于讨论的目的，对每个构建体进行了编号。星号表示该链的末端如上图进行标记。测试了构建体v的两种变体，一种在R2 3′臂中具有DNA双链体，另一种具有可能是TPRT结果的RNA/DNA杂合体。在构建体i-v上未发现可检测的第二链DNA切割。在构建体vi-viii上可检测到第二链DNA切割。

图4A是图3的4向连接的几种衍生物的示意图，用于测试在部分连接上的切割。构建体已经编号。28S下游(28Sd)DNA臂增加了47bp，从而等于历史上用于线性28S靶DNA的下游DNA的量(Christensen等，Nucleic Acids Res 33，6461(2005)，Christensen和Eickbush，Proc Natl Acad Sci USA 103，17602(2006))。图4B是对于图4A的每组构建体而言，切割的级分(f切割)作为结合的级分(f结合)的函数的示意图。点的直径描述了R2Bm对构建体的相对可切割性。图4C是设计用于测试在包括上游28S DNA的4向连接上的DNA切割的构建体的示意图。28S上游(28Su)DNA臂为73bp，对应于线性靶DNA中通常使用的上游DNA的量(Christensen和Eickbush，Mol Cell Biol 25，6617(2005)，Christensen和Eickbush，J Mol Biol 336，1035(2004))。黑线是DNA，细线是非特异性DNA，粗线是28S或R2衍生的DNA。图4D是对于图4C的每组构建体而言，切割的级分(f切割)作为结合的级分(f结合的)的函数的示意图。点的直径描述了R2Bm对构建体的相对可切割性。缩写和符号如前图所示。

图5是用于DNA切割(-dNTP)和切割加第二链合成(+dNTP)反应的变性凝胶分析的4向连接的示意图。

图6A是设计用于保持预切割产物非常接近并测试哪个臂用作模板的构建体的示意图。5'臂和3'臂的长度不同(40bp vs 25bp)。28S下游臂为47bp，28S上游臂为73bp。图6B是设计用于测试上游或下游蛋白质亚基是否可能负责第二链合成的构建体的示意图。图6C是合成的级分(f合成)作为结合的级分(f结合)的函数的示意图。

图7A是示出用于R2整合的新模型的示意图。R2 28S靶位点标记有第一链切割和第二链切割的位置，所述第一链切割和第二链切割将导致R2新元件的插入。整合反应(I，ii)的初始步骤如图1B所示，除了出于图解目的，靶位点在第二链插入位点附近弯曲了90°。步骤iii描绘了在第二链切割位点附近的模板跳跃/重组事件，其产生了4向连接。步骤iv描述了第二链切割。最后，步骤v描述了第二链DNA合成。缩写：up(插入位点的靶序列上游)，dwn(插入位点的靶序列下游)。图7B是示出用于L1整合的新模型的示意图。用交错的第一链切割和第二链切割标记靶位点，使得在元件插入时会发生靶位点复制(tsd)。步骤与R2中的步骤相同，除了模板跳跃使靶标的tsd区域移位/融化以生成4向连接。

图8A是显示R2靶位点、28S rDNA和插入模型的示意图。与3′PBM RNA缔合的R2蛋白结合插入位点(垂直线)上游的20至40个碱基(28Su)，与5'PBM RNA缔合的蛋白质结合插入位点下游的20个碱基(Christensen等，Nucleic Acids Res.33，6461-6468(2005)，Christensen和Eickbush，J.Mol.Biol.336，1035-1045(2004))。插入分为五个步骤：(1)通过上游蛋白质亚基内切核酸酶的第一链切割。(2)通过上游蛋白质亚基逆转录酶进行第一链合成(TPRT)。(3)模板跳跃/重组至上游靶DNA(28Su)，形成4向连接的分支结构(在示意图中放大)。(4)通过下游蛋白质亚基的内切核酸酶的第二链切割。(5)通过下游蛋白质亚基的逆转录酶的第二链合成。图8B是RLE LINE的接头区域(SEQ ID NO：31-44)的多序列和二级结构比对。星号代表突变的残基，半三角形代表在推测的α-指和锌关节区域生成的双点突变体。为该研究生成的双点突变体是：GR/AD/A，H/AIN/AALP，SR/AIR/A，SR/AGR/A，C/SC/SHC，CR/AAGCK/A，HILQ/AQ/A和RT/AH/A。如顶部的括号所示，前四个突变体位于推定的α-指区域，后四个突变体位于锌关节区域。通过Ali2D预测二级结构，灰色条表示α-螺旋，箭头表示β-链。缩写：R2Bm＝家蚕(Bombyx mori)，R2Dm＝黑腹果蝇(Drosophila melanogaster)，R2Dana＝嗜凤梨果蝇(Drosophila ananassae)，R2Dwil＝果蝇(Drosophila willistoni)，R2Dsim＝拟果蝇(Drosophila simulans)，R2Dpse＝拟暗果蝇(Drosophilapseudoobscura)，R2Fauric＝地蜈蚣(Forficula auricularia)，R2Amar＝海懒跳虫(Anurida maritima)，R2Nv-B＝蝇蛹金小蜂(Nasonia vitripennis)，R2Lp＝鲎(Limuluspolyphemus)，R2Amel＝意蜂(Apis mellifera)，R2Dr＝斑马鱼(Danio rerio)，R8Hm-A＝九头蛇(Hydra magnipapillata)，R9Av-1＝蛭形轮虫(Adineta vaga)。

图9A和9B是柱状图，显示了在存在3′PBM RNA(9A)和5′PBM(9B)RNA的情况下，突变体与靶DNA结合的能力。将野生型(WT)蛋白质活性设置为1，然后将突变蛋白质活性作为WT活性(fWT活性)的分数给出。每个图形的柱形从左到右表示：R2：WT，H/AIN/AALP，C/SC，SHC。

图10A-10D是示出α-指突变蛋白质与DNA结合的柱状图。图10A和10B报道了突变体结合线性靶DNA的相对能力。WT和KPD/A WT用作阳性对照，而Pet28a和仅DNA泳道用作阴性对照。标准差显示在柱的顶部。图10C报道了与分支的插入中间体的类似物的结合。底物示意图中的星号表示5′端标记的链。图10D报道了在不存在RNA的情况下α-指突变蛋白质的线性靶DNA结合活性。每个图形的柱形从左到右表示：R2：KPD/A WT，GR/AD/A，SR/AIR/A，SR/AGR/A。

图11是散点图，示出了α-指突变蛋白质对第一链DNA的切割活性。通过变性凝胶定量经受第一链切割(f切割)的靶DNA的级分。散点图显示了在每种蛋白质浓度下，切割的靶DNA的级分(f切割)作为蛋白质结合的靶DNA的级分(f结合)的函数。WT、GR/AD/A、S/AIR/A和SR/AGR/A的数据点分别由星号、白框、灰框和黑框表示。

图12A是用于第一链合成测定的实验设置的示意图，其中在存在3'PBM RNA和dNTP的情况下，将预切割靶DNA与R2蛋白一起孵育。图12B是散点图，其显示了在整个蛋白质滴定系列中进行了合成的DNA级分(f合成)作为R2蛋白质结合的DNA级分(f结合)的函数。符号和缩写与前面的图中相同。

图13A是α-指突变蛋白质对线性靶DNA的第二链切割活性的散点图。使用EMSA凝胶来计算R2蛋白质结合的靶DNA的级分。使用变性凝胶来计算R2蛋白质切割的靶DNA的级分。符号和缩写与前面的图中相同。图13B是α-指突变蛋白对4向连接DNA的第二链DNA切割活性的散点图。使用EMSA凝胶计算R2蛋白质结合的靶DNA的级分。使用变性凝胶计算R2蛋白质切割的靶DNA的级分。符号和缩写与前面的图中相同。

图14A是说明用于第二链合成测定的实验设置的示意图，其中在存在dNTP的情况下，将预切割4向连接DNA与R2蛋白质一起孵育。图14B是第二链合成活性的散点图。符号和缩写与前面的图中相同。

图15A是散点图，显示锌关节突变蛋白质的第一链切割活性。在每种蛋白质浓度下，绘制切割的靶DNA的级分(f切割)作为蛋白质结合的靶DNA的级分(f结合)的函数。图15B是显示锌关节突变蛋白质的第一链合成活性的散点图。该图绘制了通过TPRT(f合成)进行第一链合成的靶DNA的级分作为蛋白质结合的预切割线性靶DNA的级分(f结合)的函数。图15C是散点图，显示锌关节突变体对4向连接靶DNA的第二链切割活性。该图绘制了第二链切割的靶DNA(f切割)作为蛋白质结合的4向连接DNA的级分(f结合)的函数。图15D是锌关节突变体对线性靶DNA的第二链切割活性作为结合DNA的函数的散点图。

图16是锌关节突变体的第二链合成活性的散点图。实验设置如图14A所示。

图17A是一系列结构域图，显示了R2Bm、人L1(L1H)和酿酒酵母(Saccharomycescerevisiae)Prp8的ORF结构(Mahbub等，Mob.DNA 8，1-15(2017)，Wan等，Science(80-.)(2016)doi：10.1126/science.aad6466；Bertram等，Cell(2017)；doi：10.1016/j.cell.2017.07.011；Qu等，Nat.Struct.Mol.Biol.(2016)；doi：10.1038/nsmb.3220；Nguyen等，Nature530，298-302(2016)；Galej等，Current Opinion in StructuralBiology(2014).doi：10.1016/j.sbi.2013.12.002；Blocker等，RNA 11，14-28(2005)。在接头区域中，带有星号的α螺旋(圆条形)序列对齐地很好。剩下的彩色α-螺旋和β-链(箭头)(可能)形成结构相似的关节。图17B是R2BM的RT和RLE的模型(Mahbub等，Mob.DNA 8，1-15(2017))。图17C是Prp8的大片段的冷冻电子显微镜结构(Wan等，Science(80-.).(2016.doi：10.1126/scelscem.aad6466)。图17D是来自B剪接体复合体的Prp8和RNA的冷冻电子显微镜结构(Bertram等，Cell(2017).Doi：10.1016/J.Cell.2017.07.011)。还示出了由剪接体的RNA成分形成的分支结构。

图18A是工程化LINE的RNA成分的示意图。HDV＝丁型肝炎病毒核酶(任选的)；PBM＝蛋白质结合基序(如果形成异质RNP，可以来自一个元件或来自两个元件)；Prom＝用于ORF表达的pol II启动子和相关转录因子结合位点；ORF＝通过TPRT进入基因组的基因的ORF；tracr＝示踪RNA；示踪/引导＝标准cas 9靶向RNA；TS＝靶序列。可以以顺式(如上所述)或反式提供示踪、引导或示踪/引导RNA。图18B是具有工程化DNA结合结构域的RLE ORF的示意图。R2或其他RLE蛋白表达构建体可以在细菌(为了纯化进行使用)或真核表达系统中表达，用于在预期细胞中直接生产。工程化的DB＝来自ZF文库或talens或Cas9(EN-)的ZF注释：R2中的DB是ZF和Myb。αF＝α-指。图18C是在靶位点上的RLE LINE结合的两个不同模型的示意图。图18D是RLE LINE整合的两个不同模型的示意图。

发明详述

I.定义

如本文所使用的，术语“载体”或“赋形剂”是指制剂中的有机或无机成分，天然或合成的无活性成分，使用其组合一种或多种活性成分。

如本文所使用的，术语“药学上可接受的”是指不干扰活性成分的生物活性的有效性的无毒性材料。

如本文所使用的，术语“有效量”或“治疗有效量”是指足以缓解治疗的病症、疾病或病情的一种或多种症状，或者提供所需的药理学和/或生理学效果的剂量。精确剂量将根据多种因素变化，例如受试者依赖性变量(例如，年龄、免疫系统健康情况等)，所治疗的疾病或病症以及给药的药剂的给药途径和药代动力学。

如本文所使用的，术语“预防(prevention)”或“预防(preventing)”意指将组合物施用于受试者或系统，所述受试者或系统具有由疾病或病症引起的一种或多种症状的易感性的风险或具有由疾病或病症引起的一种或多种症状的易感性，以引起疾病或病症的特定症状的停止，减少或预防疾病或病症的一种或多种症状，减少疾病或病症的严重程度，完全消除疾病或病症，稳定或延迟疾病或病症的发展或进展。

如本文所使用的，术语“构建体”是指具有一个或多个分离的多核苷酸序列的重组遗传分子。

如本文所使用的，术语“调控序列”是指控制和调节功能例如，另一种核酸序列的转录和/或翻译的核酸序列。适用于原核生物的控制序列可包括启动子，任选的操纵基因序列和/或核糖体结合位点。已知真核细胞利用序列，例如启动子、终止子、聚腺苷酸化信号和增强子。调控序列包括控制病毒基因转录和复制的病毒蛋白识别元件。

如本文所使用的，术语“基因”是指通过其模板或信使RNA编码特异性肽、多肽或蛋白质的特征性氨基酸序列的DNA序列。术语“基因”还指编码RNA产物的DNA序列。参考基因组DNA，本文使用的术语基因包括间插、非编码区域以及调控序列，并且可包括5′端和3′端。

如本文所使用的，术语多肽包括蛋白质和其片段。多肽可以是“内源性的”或“外源性的”，其意味着它们是“异源性的”，即外源于所使用的宿主细胞，例如由细菌细胞产生的人多肽。本文中公开的多肽为氨基酸残基序列。

如本文所使用的，术语“载体”是指复制子，例如质粒、噬菌体或粘粒，其中可以插入另一个DNA区段，以便引起插入的区段的复制。载体可以是表达载体。

如本文所使用的，术语“表达载体”是指包含一个或多个表达控制序列的载体。

如本文所使用的，术语“转染的”或“转导的”是指引入异源核酸分子的宿主细胞或生物体。核酸分子可以稳定地整合到宿主的基因组中，或者核酸分子也可以作为稳定或不稳定的染色体外结构存在。这种染色体外结构可以自主复制。转化的细胞或生物体可能不仅包括转化过程的终产物，而且还包括其转基因后代。“未转化的”或“未转导的”宿主是指不含异源核酸分子的细胞或生物体。

如本文所使用的，关于核酸的术语“内源性的”是指通常存在于宿主中的核酸。

如本文所使用的，术语“异源性的”是指在通常未发现它们的地方出现的元件。例如，内源性启动子可以与异源性核酸序列连接，例如，通常没有发现与启动子可操作地连接的序列。当在本文中使用以描述启动子元件时，异源性的是指启动子元件，其与通常在天然启动子中发现的启动子元件在序列、种类或是数量上不同。例如，启动子序列中的异源性控制元件可以是加入的不同启动子的控制/调控元件，以增强启动子控制，或相同启动子的另外的控制元件。因此，术语“异源性的”还可以包括“外源性的”和“非天然”元件。

II.工程化的转座子

长散在元件(LINE)是在生命树的真核基因组中发现的一组丰富而多样化的自主转座元件(TE)。LINE还动员非自主短散在元件(SINE)。SINE占用LINE的蛋白质机制进行复制。LINE和SINE的运动参与癌症的进展和基因组的演变，包括调节基因表达、基因组重排、DNA修复以及新基因的来源。LINE通过称为靶向引发逆转录(TPRT)的过程复制，其中元件RNA在插入位点使用靶DNA中的切口逆转录成DNA，以引发逆转录(Luan等，Cell 72,595(1993年)；Cost等，EMBO J 21,5899(2002)；Moran等，Eds.(ASM Press，Washington，DC，2002)，第836-869页)。LINE编码用于执行插入反应的重要步骤的蛋白质。LINE蛋白质结合其自身的mRNA，识别靶DNA，执行第一链靶DNA切割，和进行TPRT。虽然证据稀少，还认为蛋白质执行第二链靶DNA切割和第二链元件DNA合成(Luan等,Cell 72,595(1993)；Cost等,EMBOJ 21,5899(2002)；Moran等,Eds.(ASM Press,Washington,DC,2002),pp.836-869；Christensen和Eickbush,Mol Cell Biol 25,6617(2005)；Kulpa和Moran,Nat Struct MolBiol 13，655(2006)；Dewannieux和Heidmann,Cytogenet Genome Res 110,35(2005)；Doucet等，Mol Cell 60,728(2015)；Christensen等,Nucleic Acids Res33,6461(2005)；Govindaraju等,Nucleic Acids Res 44，3276(2016)；Martin,RNA Biol 7,67(2010)；Martin,J Biomed Biotechnol 2006,45621(2006)；Matsumoto等,Mol Cell Biol 26,5168(2006)；Zingler等,Genome Res 15,780(2005)；Kurzynska-Kokorniak等,J Mol Biol374，322(2007)；Ichiyanagi等，N.Okada,Genome Res 17,33(2007)；Gasior等,J Mol Biol357，1383(2006)；Suzuki等,PLoS Genet 5,e1000461(2009)；Christensen和Eickbush,Proc Natl Acad Sci USA 103,17602(2006))。

LINE的早期分支进化枝编码限制样内切核酸酶(RLE)，而后期分支LINE编码无嘌呤-无嘧啶DNA内切核酸酶(APE)(Eickbush和Malik,Origins and Evolution ofRetrotransposons,Craig,NL,Craigie,R,Gellert,M,A.M.Lambowitz,Eds.(ASM Press,Washington,DC,2002),pp.1111-1146；Yang等，Proc Natl Acad Sci USA 96,7847(1999)；Feng等,Cell 87,905(1996)；Weichenrieder等,Structure 12,975(2004))。认为这两种类型的元件都是通过功能等效的整合过程整合的(Moran等,Eds.(ASM Press,Washington,DC,2002),pp.836-869；Han,Mob DNA 1,15(2010)；Fujiwara,Microbiol Spectr 3,MDNA3(2015)；Eickbush和Eickbush,Microbiol Spectr 3,MDNA3(2015))。

复制通过使用编码的核酸结合、内切核酸酶和聚合酶功能的有序的一系列DNA切割和聚合事件发生(Christensen和Eickbush,Proc Natl Acad Sci U S A 103,17602(2006)；Shivram等，Mobile Genetic Elements,1：3,169-178(2011)，还参见下面的实施例)。元件编码的蛋白质，一旦翻译，用转录物形成核糖核蛋白(RNP)颗粒，元件编码的蛋白质由转录物翻译而成——一种称为顺式偏好的方法。RNP与靶DNA结合，切割DNA链中的一个，并使用靶位点暴露的3′-OH以引发元件RNA逆转录为cDNA(cDNA)——一种称为靶向引发逆转录(TPRT)的过程。然后切割相对的靶DNA链。cDNA变成双链DNA，完成整合事件。新的逆转录DNA在靶位点的成功整合取决于转座子和靶位点DNA的DNA、RNA和蛋白质成分之间的相互作用。

提供了利用来自或衍生的LINE和SINE逆转录转座子和由其形成的工程化转座子的工程化RNA成分和蛋白质成分。如本文所使用的，“衍生”自LINE或SINE，意指RNA和/或蛋白质成分可以将其一个或多个结构域的起源追踪到亲本LINE或SINE的相应RNA或蛋白质成分。在一些实施方案中，工程化RNA或蛋白质成分具有相对于亲本LINE或SINE的相应RNA或蛋白质成分的一个或多个结构域的缺失、取代、添加或突变。在一些实施方案中，工程化RNA和/或蛋白质成分与亲本LINE或SINE的相应RNA或蛋白质成分的核酸或氨基酸序列具有至少50，60，70，75，80，85，80，95或更多的百分比序列同一性。工程化RNA和/或蛋白质成分可包括包含整个结构域的序列，其与亲本LINE或SINE的相应RNA或蛋白质成分是异源的。工程化RNA和/或蛋白质成分可以是重组序列。

通常，含有待插入/递送到基因组的目标基因的RNA成分可以与工程化蛋白质成分结合。通过蛋白质成分介导的靶向引发逆转录(第一链DNA切割，cDNA从释放的靶位点3-OH的引发，第二链切割，第二链合成)将RNA转化为DNA，并插入到基因组中。

为了改变插入位点，包括氨基末端ZF/myb的RLE LINE的现有DNA结合区域，接头的α-指(参见下面的实施例)和RLE(Govindaraju等,Nucleic Acids Res 44,3276(2016))可以修饰或替换以结合和切割新的目标位点。ZF/myb是用于用靶向新的目标位点的DNA结合结构域替换的候选者。在一些实施方案中，通常可以适当修饰接头、RT、RLE。可以整体和部分使用和交换不同的RLE LINE骨架。用于氨基末端结构域的DNA结合模块的可能来源包括来自锌指文库、Talens、CRISPR/cas等的锌指，如下面更详细地讨论的。

当改变转座子的编码和非编码核酸序列以设计重新靶向基因递送系统时，应采取步骤以确保系统的每个成分部分在结构和功能上仍然兼容，同时还特异性地靶向所需的位点(例如，基因组定位)。下面更详细地讨论重要结构元件的设计考虑因素。无论从业者选择的成分部分是什么，都应注意确保工程化的转座子可以进行基本活动进行整合：RNA结合活性，DNA结合活性，DNA内切核酸酶活性，逆转录酶(RT)活性，并通过第二链合成完成整合。

A.工程化转座子的结构

在图18A-18D中概述了基于RLE LINE骨架的示例性工程化转座子。工程化转座子包括RNA成分和蛋白质成分。

1.RNA成分

通常，RNA成分包括允许或促进蛋白质成分与RNA成分结合的元件，允许或促进工程化转座子与DNA靶位点的靶向的元件，优选工程化转座子与DNA靶位点的结合(例如，引发)的元件，和允许或促进蛋白质成分或其他内切核酸酶、逆转录酶或反式提供的辅助元件的内切酶、逆转录和整合活性中的一个或多个。至少，RNA成分的设计，包括其一级和二级结构，不应防止，优选辅助目标开放阅读框适当地整合到DNA靶位点。

图18A中示出了工程化转座子的示例性RNA成分。因此，例如，工程化转座子的RNA成分可以包括靶序列(TS)，核酶(例如，丁型肝炎病毒核酶)(HDV)，示踪序列(例如，示踪，引导，或示踪/引导序列，例如Cas9靶向RNA))，编码IRES/PBM蛋白质结合基序结构域的序列，启动子(例如，pol II启动子或转录因子结合位点，以确保ORF表达)(Prom)，编码插入靶位点的目标转基因的开放阅读框(ORF)，和PBM蛋白质结合基序。示踪，引导，或示踪/引导序列可以以顺式或反式提供。RNA成分不需要，并且优选地不包括编码来自LINE转座子的开放阅读的序列。

短散在元件(SINE)是APE LINE的寄生元件(parasites)。SINE募集LINE的蛋白质成分以整合到基因组中。由于这种SINE表示或至少近似用于结合LINE蛋白质并插入基因组的最小的RNA要求。RLE LINE的SINE被称为短内缺失元件(SIDE)。RLE LINE R2具有存在于各种果蝇物种中的SIDE，所述果蝇物种具有丁型肝炎病毒样核酶和亲本LINE元件的3′PBMRNA成分(D.G.Eickbush，T.H.Eickbush，Mob DNA 3,10(2012))。

核酶用于从rRNA/R2共转录物切割元件RNA，并且存在于亲本R2以及SIDE中(Eickbush等，Mol Cell Biol(2010)；Eickbush等，Mob DNA3,10(2012))。由R2元件编码的许多HDV核糖体酶切割rDNA/R2元件共转录物，以留下在元件RNA的5′端的一些核糖体序列。如下呈现的实验所示，当存在时，靶序列用于退火到TPRT后的上游靶序列，以形成4向连接整合中间体。4向连接整合-中间体是整合反应的下半部分的入口。对于其HDV修剪所有目标序列的R2元件，发生模板跳跃以形成4向连接。核酶可以在工程化RNA中是可选的，因为RNA不会作为共转录物制备。然而，核酶(例如，HDV核酶)的存在可以通过细胞核糖核酸酶保护元件RNA免于降解。另外，R2蛋白可以与HDV核酶相互作用和/或有助于整合反应。

工程化RNA上靶序列的存在可能有助于形成4向连接，特别是如果使用来自已知在其mRNA上留下靶序列的R2元件的蛋白质成分和RNA成分。

如果CRISPR/Cas将用于帮助驱动工程化RNA蛋白质颗粒(RNP)作为DNA结合结构域或作为DNA结合加DNA切割结构域，那么工程化CRISPR/Cas-9系统的RNA成分可以包括在工程化的R2“SIDE”RNA中。

3′PBM是重要的RNA元件。3′PBM RNA是与能够进行TPRT的R2蛋白质结合的RNA的唯一结构成分，因为这种3′PBM RNA是用于待整合到基因组中的工程化RNA的重要成分。在工程化RNA中使用的3′PBM RNA的序列和结构应与亲本LINE RNA和与其结合的亲本蛋白匹配。

SIDE整合不需要5′PBM RNA，但通常是全长整合R2元件的重要成分。其存在有助于形成能够整合的RNA蛋白质颗粒(RNP)，保护RNA免于降解，并作为进入整合反应的下半部分的定时机制(Christensen等，Proc Natl Acad Sci USA 103,17602(2006)；还参见下面的实施例)。R2LINE使用包含在5′PBM内的疑似内部核糖体入口位点(IRE)翻译mRNA。如果在工程化RNA中使用5′PBM RNA，则可能必须使IRES为非功能的(例如，突变，缺失，排除等)。

在工程化RNA成分中，可以用待整合到基因组中的目标基因或调控序列替换LINEORF序列。

2.蛋白质成分

设计工程化RLE LINE蛋白质与RNA成分结合，并单独或与其他内切核酸酶、逆转录酶或以反式提供的辅助元件组合促进目标基因的逆转录和整合。基于LINE的蛋白质包括LINE转座子的开放阅读框的许多或全部蛋白质结构域。通常，工程化LINE蛋白质被设计成与RNA成分结合，与基因组DNA结合，切割靶DNA的第一股，进行TPRT，结合4向连接中间体，并切割4向连接，和促进第二链合成。

在图18B中示出了，使用通用RLE ORF骨架作为示例的蛋白质成分。所示的蛋白质包括N-末端DNA结合结构域(DB)，RNA结合结构域(RB)，逆转录酶(RT)，包括推定的α-指(αF)和锌关节样CCHC基序的接头，和限制样DNA内切核酸酶(RLE)。

R2Bm中的DB具有ZF和myb。在R2Lp、R8Hm和R9Av中，它具有三个ZF和myb。在NeSL-1中，它具有两个ZF。在R2BM中，已知在存在5'PBM RNA的情况下，myb定位插入位点下游的蛋白质亚基(Christensen和Eickbush，Proc Natl Acad SCI USA 103,17602(2006)。在R2LP中，其靶向相同位点，myb结合靶位点的上游。myb结合插入位点的上游的序列是下游位点的简并回文结构(Thompson和Christensen，Mobile Genetic Elements1，29(2011))。在NeS1中，ZF结合插入位点的上游，并且认为有助于靶向第一链切割(Shivram等，Mob GenetElements1,169(2011))。认为R2BM中的锌指像在NeS1中一样参与靶向第一链DNA切割(Shivram等，Mob Genet Elements1,169(2011))。包括R8和R9的R2进化枝元件还使用ZF和myb来帮助结合蛋白质亚基到上游，也可能是下游序列(Shivram等，Mob Genet Elements1,169(2011))。如上所述，R2 SIDE，缺少5′PBM RNA，因此不会像亲本LINE一样，预先定位蛋白质亚基下游。来自骨架LINE转座子的DB可以在适当的地方突变或用不同的DNA结合结构域取代，例如，来自文库的ZF或其他已知的ZF，或talens或cas9等，以靶向新位点。在R2元件的情况下，认为DB接触插入位点的上游和下游，但是在NeSL-1的情况下仅接触上游靶序列。工程化蛋白质可以设计成在某些情况下结合上游序列，在其他情况下结合上游和下游序列。

如图18B所示的接头结构域包括αF和CCHC锌关节样结构域(Mahbub等，Mob DNA 8,16(2017))。如下面的实验中所示，αF和CCHC锌关节在整合反应的所有阶段定位靶DNA以进行切割和合成。特别是αF对于4向连接的结合和识别很重要。4向连接是第二链DNA切割和第二链DNA合成的入口。在R2Bm中，插入位点下游的序列(即，4向连接的北臂)对DNA切割是重要的，并且由DB识别。在R2 LINE RNP中，蛋白质亚基通过与5′PBM RNA的缔合与下游DNA序列预结合。南臂、西臂和东臂的结构和序列由蛋白质识别。R2 SIDE RNP不会预定位插入位点下游的蛋白质亚基，但预定位上游位点的蛋白质亚基。像NeSL的元件可能不会通过DB结合插入位点下游的序列。相反，4向连接的识别和内切核酸酶的定位由接头，尤其是αF完成。4向连接的识别是序列特异性和结构特异性的。与剪接体中的5′剪接位点的多分支RNA结合的Prp8的αF类似，αF被认为与4向连接的心脏接触(Mahbub等，Mob DNA 8，16(2017年))。还参见下面的实验。因此，RLE LINE蛋白质靶向新位点的工程化可包括修饰接头，尤其是αF，以及氨基末端DNA结合结构域。

虽然大部分靶切割特异性可能来自系在DB和接头上的RLE，但内切核酸酶确实与靶DNA进行了一些重要的接触，并且似乎具有一些特异性(Govindaraju等，Nucleic AcidsRes 44，3276(2016)和以下实验)。因此，将转座子靶向新位点可以包括修饰RLE。

R2Bm的RNA结合结构域(RB)结合3′和5′PBM RNA(Jamburuthugoda和Eickbush，Nucleic Acids Res 42，8405(2014))。RNA结合结构域应该能够结合工程化转座子的RNA，并以导致逆转录和在靶位点的整合的方式结合。通常可以通过使用亲本蛋白质和来自相同亲本LINE的PBM RNA来实现。然而，上游3′PBM结合的亚基使用一个亲本LINE，下游5′PBM结合亚基使用另一个亲本LINE可能是有利的。可以根据需要突变RNA结合结构域，来调整由蛋白质和RNA成分的工程化引入的扰动。

图18C和18D示出了与RNA成分(18C)的工程化转座子结合和DNA靶位点的逆转录和整合(18D)的两种模型。蛋白质亚基被工程化为结合所需的基因组位置。蛋白质亚基可以来自相同或来自不同的亲本RLE来源，因为不同的RLE谱系似乎使用不同构型的氨基末端DB以结合插入位点的上游和下游。该设计还可以考虑两个插入模型(图18D)：(1)R2 LINE样整合，和(2)R2 SIDE样整合。

DB、接头和RLE中的突变(例如，点突变)将可能在重新靶向元件时需要，因为DNA结合和识别包括这些结构域中的每一个。

B.RNA和蛋白质成分的序列源

1.亲本逆转录转座子

工程化逆转录转座子通常由现有的LINE或SINE/SIDE构建，也称为亲本LINE或SINE/SIDE；或LINE或SINE/SIDE骨架。因此，可以根据需要定制、突变或以其他方式修饰LINE和SINE的合适的核酸序列和氨基酸序列，以实现目标基因在目标靶位点的整合。

例如，RNA成分序列包括但不限于3′PBM，其可以衍生自已知的RLE LINE或SIDE。蛋白质成分序列通常衍生自RLE LINE。如上所述，RNA成分和蛋白质成分应兼容，以确保适当的逆转录和目标基因的整合。

有两组主要的LINE。两组共享常用的RT和接头(αF和IAP/gag样CCHC锌关节)。两组在用于形成元件RNP并整合到宿主DNA中的开放阅读框(ORF)结构、RNA结合结构域、DNA结合结构域和DNA内切核酸酶结构域中不同。

早期的分支组有单个ORF。ORF编码具有N-末端锌指和myb基序、RT、gag关节样基序以及具有限制性内切核酸酶样折叠(REL)的II型限制样内切核酸酶(RLE)的多功能蛋白(在Eickbush等，Microbiol Spectr.2015；3：MDNA3-0011.doi：10.1128/microbiolspec.MDNA3-0011-2014；和Eickbush，“R2 and related site-specific non-long terminal repeat Retrotransposons”在：Craig Nl，Craigie R，Gellert M，Lambowitz Am，editors.Mobile DNA II.Washington,DC：ASM Press；2002.p.813–35中进行了综述)。这组LINE在整合期间通常是位点特异性的。

昆虫R2元件是该早期分支LINE组的充分研究的实例。Muhbub等,Mobile DNA(2017)8：16DOI 10.1186/s13100-017-0097-9n呈现了R2 RT的更新模型，以及RT与内切核酸酶之间的接头区域的分析。R2蛋白水解数据与RT、接头和RLE的序列结构比对，表明RLELINE与Prp8的大片段、具有RT结构域和RLE结构域的高度保守的真核剪接因子共享许多共性。

RLE LINE和其SIDE可用作亲本骨架，作为获得工程化转座子的RNA和蛋白质成分的基础。

2.DNA结合结构域的来源

在一些实施方案中，可以用备选DNA结合结构域修饰或替代LINE或SINE的一个或多个DNA结合结构域或其中的基序。例如，N末端ZF(如果存在的话，Myb基序)可以表示用于包含这些基序的所有位点特异性的携带RLE的非LTR逆转录转座子的靶向模块的大部分。Myb和ZF可以进行修饰，允许靶向新位点。在修饰期间，可以获得或丢失单个ZF和Myb基序。此外，各种核酸结合活性(5′UTR RNA结合，3′UTR RNA结合，上游DNA结合和下游DNA结合)和催化活性(第一链切割，TPRT，第二链切割和第二链合成)之间的物理/时间连接配置可以重新配置为靶向基因组中的新位点的元件过渡。上文还讨论了与整合和接头区域相关的特定考虑因素。

在一些实施方案中，取代DNA结合结构域衍生自DNA结合蛋白质的DNA结合结构域或其基序。DNA结合结构域的实例包括但不限于螺旋-转角-螺旋、锌指、亮氨酸拉链、翼状螺旋、翼状螺旋-转角-螺旋、螺旋-环-螺旋、HMG盒、Wor3结构域、OB-折叠结构域、免疫球蛋白折叠、B3结构域、TAL效应子、RNA导向结构域，例如CAS蛋白质中的结构域。

3.转基因来源

如上所述，RNA成分通常编码目标基因，在本文中也称为转基因，以及目标开放阅读框。在一些实施方案中，转基因序列编码一种或多种蛋白质或功能性核酸。转基因可以是单顺反子的或多顺反子的。在一些实施方案中，转基因是多基因的。由于LINE在3-7kB范围内，其SINE/SIDE为几百个碱基，转基因的大小可以类似。也可以是较大的转基因。

所公开的工程化转座子可用于诱导基因校正、基因替换、基因诱导、基因标记、转基因插入、核苷酸缺失、基因破坏，基因突变等。例如，转座子可用于添加，即插入或替换核酸材料到靶DNA序列(例如，“敲入”编码蛋白质、siRNA，miRNA等的核酸)，添加标签(例如，6xHis，荧光蛋白(例如，绿色荧光蛋白；黄色荧光蛋白等)，血细胞凝集素(HA)，FLAG等)，向基因添加调控序列(例如，启动子，多腺苷酸化信号，内部核糖体进入序列(IRES)，2A肽，起始密码子，终止密码子，剪接信号，定位信号等)，修饰核酸序列(例如，引入突变)等。因此，组合物可以用于以位点特异性，即“靶向”方式修饰DNA，例如基因敲除、基因敲入、基因编辑，基因标记等，用于例如，基因治疗，例如，治疗疾病或抗病毒，抗病原体或抗癌治疗。

因此，尽管待整合在靶位点的RNA成分的序列在本文中通常称为目标基因、转基因或目标开放阅读框，但是应当理解，在一些实施方案中，目标基因不是全长基因或转基因，而是基因片段、调控元件或另一种未翻译的元件。

a.目标多肽

转基因可以编码一种或多种目标多肽。多肽可以是任何多肽。例如，由转基因编码的目标多肽可以是为生物体提供治疗或预防效果的多肽，或可用于诊断生物体中的疾病或病症。转基因可以补偿或以其他方式纠正遗传疾病或病症。转基因可以在治疗癌症、自身免疫性病症、寄生虫感染、病毒感染、细菌感染、真菌感染或其他感染发挥作用。待表达的转基因可以编码作为免疫系统的细胞的配体或受体发挥功能的多肽，或者可以用于刺激或抑制生物体的免疫系统。

在一些实施方案中，转基因包括选择标记，例如在真核细胞中有效的选择标记，例如耐药性选择标记。该选择标记基因可以编码在选择性培养基中生长的转化的宿主细胞的存活或生长所需的因子。未转化选择基因的宿主细胞在培养基中无法存活。典型的选择基因编码赋予抗生素或其他毒素的抗性的蛋白质，例如氨苄青霉素、新霉素、甲氨蝶呤、卡那霉素、庆大霉素、博莱霉素(Zeocin)或四环素、补充营养缺陷型的缺陷，或供应从培养基中截留的重要营养物质。

在一些实施方案中，转基因包括报告基因。报告基因通常是在宿主细胞中不存在或表达的基因。报告基因通常编码蛋白质，所述蛋白质提供一些表型变化或酶性质。这些基因的实例在K.Weising等，Ann.Rev.Genetics，22，421(1988)中提供。优选的报告基因包括葡萄糖醛酸酶(GUS)基因和GFP基因。

其他基因包括产生iPC、白细胞介素、受体、转录因子，促凋亡和抗凋亡蛋白质的基因。

b.功能性核酸

转基因可以编码功能性核酸。功能性核酸是具有特异性功能的核酸分子，例如结合靶分子或催化特异性反应。功能性核酸分子可分为以下非限制性类别：反义分子、siRNA、miRNA、适体、核酶、三链体形成分子、RNAi和外部引导序列。功能性核酸分子可以作为靶分子所具有的特异性活性的效应子、抑制剂，调节剂和刺激剂，或者功能性核酸分子可以具有独立于任何其他分子的新生活性。

功能性核酸分子可以与任何大分子，例如DNA、RNA、多肽或碳水化合物链相互作用。因此，功能性核酸可以与靶多肽的mRNA或基因组DNA相互作用，或者它们可以与多肽本身相互作用。基于靶分子和功能性核酸分子之间的序列同源性，通常功能性核酸被设计为与其他核酸相互作用。在其他情况下，功能性核酸分子与靶分子之间的特异性识别不是基于功能性核酸分子和靶分子之间的序列同源性，而是基于形成允许发生特异性识别的三级结构。

c.表达元件

如上所述，转基因可以包括或可操作地与表达控制序列连接，所述表达控制序列允许一旦整合在靶DNA位点上，转基因表达。可操作地连接意味着所公开的序列被参入遗传构建体中，使得表达控制序列有效地控制目标序列的表达。表达控制序列的实例包括启动子、增强子和转录终止区域。启动子是由核酸序列分子的区域组成的表达控制序列，通常在转录开始的点上游的100个核苷酸内(通常在RNA聚合酶II的起始位点附近)。

一些启动子是“组成型的”，在不存在调控影响的情况下，指导转录。一些启动子是“组织特异性的”，专门或选择性地在一种或几种组织类型中启动转录。一些启动子是“诱导性的”，并在诱导子的影响下实现基因转录。可以发生诱导，例如，作为生理反应的结果，对外部信号的响应，或者作为人工操纵的结果。一些启动子响应四环素的存在；“rtTA”是反向四环素控制的反式激活因子。这种启动子是本领域技术人员公知的。常用的启动子序列和增强子序列源自多瘤病毒、腺病毒2、猿猴病毒40(SV40)和人巨细胞病毒。源自SV40病毒基因组的DNA序列可用于提供用于在哺乳动物宿主细胞中的结构基因序列表达的其他遗传元件，例如SV40起点，早期和晚期启动子、增强子、剪接和多腺苷酸化位点。病毒早期和晚期启动子是特别有用的，因为两者都是容易从病毒基因组中获得的片段，其也含有病毒复制起点。用于哺乳动物宿主细胞的示例性表达载体是本领域熟知的。

为了使编码序列置于启动子的控制下，优选将多肽的翻译阅读框的翻译起始位点定位在启动子下游的1至约50个核苷酸之间。增强子在时间、位置和水平方面提供表达特异性。与启动子不同，增强子可以在位于相距转录位点的不同距离时起作用。增强子也可以位于转录起始位点的下游。当RNA聚合酶能够将编码序列转录为mRNA，mRNA然后可以被翻译为由编码序列编码的蛋白质时，编码序列是“可操作地连接的”和在表达控制序列的“控制”下。

C.设计考虑因素

设计工程化转座子的重要考虑因素是工程化转座子如何整合到靶位点中。对RNA成分和蛋白质成分的修饰应以确保目标基因在靶位点整合的方式进行。

1.4向分枝DNA中间体

第二链DNA切割仍然令人费解，因为切割位点通常不是回文结构：第二切割位点周围的序列通常与第一链位点周围的序列无关。此外，切割可以产生平端或交错，从而导致靶位点复制或靶位点缺失，这取决于该元件的切割事件的交错切口。交错的切割可以距离几个碱基(例如，在R2Bm中2bp)或相当遥远，例如，R9中126bp(Gladyshev和Arkhipova，Gene448，145(2009)，Christensen和Eickbush，J Mol Biol 336，1035(2004))。在APE LINE中，切割通常是交错的，以便在插入时产生适度的10-20个靶位点复制(Zingler等，CytogenetGenome Res 110，250(2005)；Christensen等，Genetica 110，245(2001)；Ostertag等，AnnuRev Genet 35，501(2001))。APE携带的LINE(APE LINE)的内切核酸酶似乎对第一DNA切割位点具有一些特异性，但对于线性靶DNA上的第二个具有较少的特异性(Feng等，Cell 87,905(1996),Zingler等，Cytogenet Genome Res 110,250(2005)，Christensen等，Genetica110,245(2001)，Feng等,Proc Natl Acad Sci USA 95,2083(1998)，Maita等，NucleicAcids Res 35,3918(2007))。来自RLE携带的LINE(RLE LINE)的内切核酸酶类似地参与靶位点识别(Govindaraju等，Nucleic Acids Res 44，3276(2016))。然而，在这两种情况下，已经调用了用于切割的另外的专门负责者(specifiers)，以负责第一链切割和第二链切割的不同特异性，所述专门负责者包括通过蛋白质中未识别的DNA结合结构域系在DNA上的内切核酸酶。另一个复杂因素是，第一切割事件应该在存在元件RNA的情况下发生，而根据先验推理，第二切割事件应当在不存在元件RNA的情况下发生，但这难以在体外证明(Christensen和Eickbush，Proc Natl Acad Sci USA 103，17602(2006))。

20多年来，第二链DNA合成仍未得到解决，从未在体外直接观察到(Cost等，EMBO J21，5899(2002)，Zingler等，Genome Res 15，780(2005)，Han，Mob DNA 1，15(2010)，Eickbush等，PLoS One 8，e66441(2013)，Kajikawa等，Gene 505，345(2012))。认为第二链合成被第二链切割事件产生的游离3′-OH引发(primed off)，并由元件编码的逆转录酶合成。尚不清楚所提出的引物模板缔合如何产生作为靶标(ds)DNA末端，在体外反应中在第二链DNA切割后彼此远离(Christensen和Eickbush，Mol Cell Biol25,6617(2005)，Christensen和Eickbush，Proc Natl Acad Sci USA 103，17602(2006))。

来自家蚕(Bombyx Mori)的R2元件R2Bm是已经用于研究LINE的插入反应的多种模式系统之一(Eickbush和Eickbush，Microbiol Spectr 3,MDNA3(2015))。R2元件是位点特异性的，靶向28S rRNA基因中的“R2位点”(Eickbush和Eickbush，Microbiol Spectr 3,MDNA3(2015))。R2元件编码具有N-末端锌指(ZF)和myb结构域(MYB)、中心逆转录酶(RT)、限制样内切核酸酶(RLE)和C末端gag关节样CCHC基序的单个开放阅读框(图1A)。R2Bm蛋白质已在大肠杆菌中表达并纯化用于体外反应。

R2Bm蛋白质和RNA的体外研究导致R2Bm的整合模型(图1B)(Christensen和Eickbush，Proc Natl Acad Sci USA 103,17602(2006))。R2蛋白质的两个亚基，一个与R2RNA的3'蛋白质结合基序(PBM)结合，另一个与5'PBM结合，被认为参与整合反应。5'PBM RNA和3′PBM RNA决定了两个亚基的作用，并协调导致通过TPRT的元件整合的一系列DNA切割和聚合步骤(图1A)。与元件3'PBM结合的蛋白质亚基与R2插入位点上游的28S rDNA序列相互作用。上游亚基的RLE切割第一(底部/反义)DNA链。在第一链靶DNA切割后，亚基的RT使用由切割事件产生的3'-OH进行TPRT，以引发第一链cDNA合成。与5′PBM RNA结合的蛋白质亚基通过ZF和Myb结构域与R2插入位点下游的28S rDNA序列相互作用。下游亚基的RLE切割第二(顶部/正义)DNA链。然而，认为在从亚基中拉出5'PBM RNA之后，第二链DNA切割才推测通过TPRT过程发生，将蛋白质置于“无RNA结合”构象中。在体外反应中，在没有RNA的情况下，不发生第二链DNA切割。到本报告为止，第二链切割需要观察窄范围的R2蛋白、5'PBM RNA和靶DNA比率(Christensen和Eickbush,Proc Natl Acad Sci USA 103,17602(2006))。另外，第二链切割使下游靶DNA与上游靶DNA分离，使得第二链DNA合成从上游靶-DNA起始到连接至下游靶DNA的TPRT产物有问题(Christensen和Eickbush,Mol Cell Biol 25,6617(2005),Christensen和Eickbush,Proc Natl Acad Sci US A 103,17602(2006))。

DNA内切核酸酶在LINE的整合反应中起着核心作用。在早期分支LINE中发现的RLE是内切核酸酶的PD-(D/E)XK超家族的变体(Govindaraju等,Nucleic Acids Res 44,3276(2016)，Yang等,Proc Natl Acad Sci USA 96,7847(1999))。LINE RLE与古细菌Holliday连接解离酶具有序列和结构同源性(Govindaraju等，Nucleic Acids Res 44,3276(2016))。然而，以前的研究留下了R2蛋白是否具有Holliday连接解离酶的功能以及该推定功能在插入机制中具有什么样的相关性的问题。在下面的实施例中探讨了R2蛋白在分支DNA上进行整合功能的能力。结果表明，整合特异性4向连接是整合事件的下半部分的重要中间体和入口。该4向连接通过结构和序列由RLE蛋白质识别。结构和序列要求可用于促进功能性工程化转座子的设计。

a.R2蛋白不是通常的Holliday连接解离酶，但确实在解离酶样的反应中切割其自身的整合中间体。

发现R2蛋白质结合非特异性的4向DNA连接，Holliday连接，优先于非特异性的线性DNA。当在负RNA构象中时，R2蛋白质似乎具有用于结合连接DNA的大表面。这使得在R2整合的背景下机制是有意义的，因为R2蛋白的负RNA构象可能进行第二链DNA切割。5'RNA的存在废除与非特异性连接DNA(以及总的来说非特异性DNA)的结合。不知道R2蛋白质的哪一部分结合4向DNA连接，可能不是内切核酸酶。实际上，下面的实验暗示接头，特别是接头的α-指，是4向连接DNA识别和结合的主要决定因素。还不知道5'PBM结合位点是否与连接结合表面重叠，或者如果缺乏RNA促进蛋白质构象变化，则揭示连接结合表面。认为5”PBM RNA和3'PBM RNA的结合表面分布在R2蛋白质的大部分中，尽管目前唯一鉴定的RNA结合区域是结构域-1和结构域0(Jamburuthugoda和Eickbush，Nucleic Acids Res 42,8405(2014))。CCHC锌关节也被认为与元件RNA结合，但其真实功能仍然是未知的。可能是5′PBM RNA形成4向连接样模拟物。Holliday连接解离酶的DNA结合表面大且高度带正电荷，因此R2蛋白质可能使用这种阳性表面帮助结合R2 RNA(Wyatt和West，Cold Spring Harb Perspect Biol 6,a023192(2014))。

虽然R2在没有RNA的情况下与非特异性DNA连接结合，但随后无法解离那些连接；没有发生DNA切割，特别是对称的DNA切割。因此，R2蛋白质不是最严格意义上的Holliday连接解离酶。然而，对于含有28SrDNA和R2序列的更特异性的4向连接，第二/顶链28S rDNA切割事件几乎对称，其底部/第一链切割已经被工程化为4向连接。该DNA切割活性是非常Holliday连接解离酶样的。

模板跳跃和双链的5'(南)臂的存在似乎是最重要的连接决定因素，超出下游28SrDNA(北)臂中靶序列的存在，用于可切割性。单链东臂是进一步刺激性的。

有趣的是，除非R2蛋白质在溶液中作为二聚体(其中没有令人信服的证据)，否则结合对DNA活性的图是线性的，因此与内切核酸酶为单体一致((Christensen和Eickbush,Mol Cell Biol 25,6617(2005),Christensen和Eickbush,Proc Natl Acad Sci USA 103,17602(2006))。连接中心的DNA序列也可能是重要的，但是测试的构建体不会解决该预期，因为所有R2特异性连接都在插入位点的任一侧含有28S序列的5-7个碱基。另外，每个连接都含有至少25bp的R2 5’端序列和25bp的R2 3'端序列。R2 3'臂似乎不太重要。具有R2 3'臂双链甚至是抑制性的。所有DNA版本中，R2 3’臂的移除仍然是可切割的，虽然仅仅是可切割的。第一链切割事件的存在似乎也在切割性中发挥作用，因为共价封闭的4向连接所有DNA版本也难以通过R2蛋白切割，尽管缺乏RNA-DNA杂合体，特别是在5'臂中，可能有助于降低可切割性。

除非西臂(即28s上游DNA臂)包括模板跳跃结构(“带襟翼的缺口”)，否则在4向连接中存在全靶点抑制DNA切割。数据进一步表明源自模板跳跃的西臂必须在相当窄的稳定窗内，过于稳定或过于刚性是抑制性的。太低的解链温度导致单链柔性区域大部分的解离和/或形成，伴随切割保真度的丧失。

b.R2Bm整合的新模型

对R2Bm的插入反应的下半部分的更深入了解，允许提出改进的R2Bm整合模型(图7A)。整合反应的前半部分与图1B中的步骤1和2相同。然而，在TPRT之后，新模型提出来自R2RNA的5′端到R2插入位点上游的28s rDNA的顶链的模板跳跃或重组事件，形成4向连接(步骤3)。迄今为止，正是该步骤，在体外不会发生，并且可以利用宿主因子来形成，如果它完全存在的话。然而，cDNA与上游靶DNA的缔合与大量的之前的数据相一致，并且4向连接呈现出5’连接形成、第二链DNA切割和第二链DNA合成，导致全长元件插入的简单统一机制。

该模型在早期体内实验中具有意义，其中已经注意到连接至R2Bm元件RNA的5’端的“上游”核糖体RNA序列是全长元件插入的要求(Fujimoto等，Nucleic Acids Res 32，1555(2004)，Eickbush等，Mol Cell Biol 20，213(2000))。最近，R2 RNA转录物的生物信息和体外研究已经确定R2 RNA与核糖体RNA共转录，作为相同大转录物的一部分(Eickbush等，PLoS One 8，e66441(2013)，Eickbush和Eickbush，Mol Cell Biol(2010))。然后通过在R2 RNA的5′端附近发现的HDV样核酶从大部分的核糖体RNA处理R2 RNA(Eickbush等，PLoSOne 8，e66441(2013)，Eickbush和Eickbush，Mol Cell Biol(2010))。然而，对于许多R2元件，最终处理的R2 RNA保留在5′端的一些核糖体RNA，在R2Bm的情况下保留27nt的核糖体RNA(Eickbush等，PLoS One 8，e66441(2013))。对于保留这么多的核糖体RNA的元件，模板跳跃可能更多的是链侵入或重组事件而不是模板跳跃(Fujimoto等，Nucleic Acids Res32，1555(2004)；Eickbush等，Mol Cell Biol20，213(2000))。然而，对于其他R2元件，核酶在处理的R2 RNA(例如，拟果蝇R2)上没有留下核糖体序列，并且如图7A所示，预期发生模板跳跃(Kurzynska-Kokorniak等，J Mol Biol 374，322(2007)，Eickbush等，PLoS One 8，e66441(2013)，Stage和Eickbush，Genome Biol 10，R49(2009)，Bibillo和Eickbush，J MolBiol 316，459(2002))。已经证明了APE LINE和RLE LINE的RT可以具有从模板的一端跳跃到没有任何同源性的另一个模板的开始的能力(Bibillo和Eickbush，J Mol Biol 316,459(2002))。长期以来，认为模板跳跃参与了两种类型的元件的5’连接形成(Kurzynska-Kokorniak等，J Mol Biol 374,322(2007)，Eickbush等，PLoS One8，e66441(2013)，Stage和Eickbush，Genome Biol 10,R49(2009)，Bibillo和Eickbush，J Mol Biol 316，459(2002))。除模板跳跃外，LINE逆转录酶还能够在DNA合成期间使用DNA和RNA作为模板，并在聚合时移位双链(Kurzynska-Kokorniak等，J Mol Biol 374，322(2007))。

最近，R2 RLE报告的与古细菌Holliday连接解离酶的相似性，未解决R2是否可以结合和切割分支的DNA的问题(Govindaraju等，Nucleic Acids Res 44，3276(2016)，Mukha等，Front Genet 4,63(2013))。事实证明，在没有RNA的情况下，R2蛋白确实可以结合并切割4向连接。第二链DNA切割是图7A中的步骤4。从R2特异性4向连接的第一链切割发生第二链切割，提示Holliday连接解离酶的反应。第二链切割依赖于结构和序列，因为从插入位点区域开始和插入位点下游的序列有助于驱动切割。

南臂，即R2 5′ARM，是重要的切割决定簇。5′PBM RNA的存在防止与非特异性4向连接的结合，并防止特异性连接的DNA切割。R2蛋白仅在不存在RNA时切割。三向TPRT连接不是DNA切割的良好底物。

对于在5′端具有rRNA序列的元件，如R2Bm，尚不清楚在图2-8A的步骤3中描述的cDNA链形成连接时，从异源双链体移位的RNA链或位移的′底部链′靶DNA副翼发生了什么，如果有的话，移位的链在DNA切割中发挥什么作用。移位的RNA不包括在R2Bm整合4向连接构建体中，副翼是非特异性DNA。另外，还需要研究跳跃/重组是否移动上游蛋白质亚基，因为当亚基结合到线性28S rDNA时，核糖体序列的27nt侵占观察到的上游亚基的最小DNA酶足迹(Christensen和Eickbush，Mol Cell Biol 25，6617(2005)，Christensen和Eickbush，JMol Biol 336，1035(2004))。图4A和4C中含有完全靶序列以及移位的靶DNA链的构建体表现比具有完全靶序列而无移位的靶DNA的连接更加类似于缺乏上游靶序列的连接。在这些构建体中，重组的cDNA/靶DNA双链体为27bp，与为R2Bm所想的相匹配(Eickbush等，PLoSOne 8,e66441(2013))。

支持该模型的第五个和最终证据是4向连接的切割产生用于第二链DNA合成的天然引物模板。“下游结合的”亚基似乎引发第二链DNA合成(图7A，步骤5)。

体内宿主因子可能有助于将连接半部保持在一起，以引发第二链合成。至少当上游靶DNA臂由非特异性DNA组成时，在体外释放引物模板。

c.将R2模型外推到具有不同切割交错切口的LINE

第二链DNA切割位点相对于第一链切割的位置在物种间变化相当大，在进化枝R2中变化更大。R2Bm中的第一DNA切割事件和第二DNA切割事件的交错切口是2bp的小5’突出端，在插入元件时导致2bp靶位点缺失。在果蝇中，R2内切核酸酶产生平端切割(Stage和Eickbush，Genome Biol 10,R49(2009))。其他R2元件产生小的3′突出端。图7A中呈现的模型同样适用于具有任意这些小交错切口的元件。通过假设TSD区域的局部解链或位移，随后是模板切换来产生4向连接，该模型可以适用于具有中等3’突出端交错切口的元件。APELINE倾向于在10-20的范围内产生中等3′突出端的交错切口。是否APE LINE使用4向连接结构驱动第二链DNA切割和合成，仍有待确定。全长L1和Alu元件的5’连接的生物信息学分析表明模板跳跃到上游靶序列，并且DNA修复过程可能是用于中止插入事件的5’连接形成的替代路径(Zingler等，Genome Res 15，780(2005)，Ichiyanagi等，N.Okada，Genome Res17，33(2007)，Gasior和Deininger，DNA Repair(Amst)7，983(2008)，Coufal等，Proc NatlAcad Sci USA 108,20382(2011)Richardson等Microbiol Spectr 3，MDNA3(2015))。

L1中的双引发可能是与第二链合成相关的，尽管异常的现象(Ostertag和Kazazian，Genome Res 11，2059(2001))。认为cDNA和上游靶DNA之间的缔合是用于R1元件(Stage和Eickbush，Genome Biol 10，R49(2009))。在R1Bm以及其他位点特异性LINE的第一链合成期间，核糖体序列对于元件RNA/靶-DNA相互作用也很重要，但对R2Bm似乎不是很重要(Fujiwara，Microbiol Spectr 3，MDNA3(2015)，Anzai等，Nucleic Acids Res 33，1993(2005)，Luan等，Mol Cell Biol 16，4726(1996))。多种LINE具有较大的交错切口。R9 AV元件(R2进化枝成员)产生126bp的交错切口(Arkhipova等，Mob DNA 3，19(2012))。对于大的交错切口，D环开口允许模板跳跃和4向连接的形成。

d.保持整合的设计考虑因素

在基因组DNA靶位点的设计中，必须注意通过工程化LINE蛋白质将其插入到基因组中的工程化RNA的设计，使得在整合反应期间形成生产性4向连接。在工程化RNA的5′端的靶序列的存在或不存在将取决于亲本LINE的HDV是否在其切割时留下靶序列。大多数核酶留下衍生自靶DNA的10-25nt RNA。R2Bm核酶留下靶序列。R2Dm核酶没有。剩下的靶序列确定了4向连接如何形成，连接的西臂的稳定性如何以及第二链切割事件的位置和保真度。西臂的稳定性(模板跳跃区域的大小)似乎部分地由设计为结合上游亚基的插入位点的上游距离有多远。对于R2元件和NeSL，该距离位于插入位点上游约10-20个碱基，留下空间以形成约两个转角的西臂螺旋。由于R2Bm是大多数支持生物化学已经完成的亲本LINE，R2Bm是优选的亲本LINE蛋白质和亲本RNA。

DNA切割事件的交错切口决定了4向连接的东臂是否为单链或双链。导致3’突出端的交错切口产生具有单链东臂的4向连接。单链东臂对第二链DNA切割是刺激性的。在R2Bm中，交错切口使得东臂是RNA/DNA双链体，直到细胞核糖核酸酶从东臂的RNA/DNA双链体去除RNA。

由于南臂也是4向连接识别和切割的主要决定因素，所以工程化RNA将需要通过确保将变成南臂的工程化的5’端序列相对于亲本LINE蛋白质/RNA具有适当的序列和性质，以保持该臂的序列和结构元件。

2.接头区域

LINE通过称为靶向引发逆转录(TPRT)的过程整合到新位点。该元件编码的DNA内切核酸酶在宿主染色质中产生切口，以暴露游离3′-OH基团。元件编码的逆转录酶使用3′-OH基团以在插入位点引发元件RNA的逆转录。LINE在逆转录酶的下游编码不变的gag样锌关节富半胱氨酸/组氨酸基序(CX2-3CX7-8HX4C)(Jakubczak等，J.Mol.Biol.(1990).doi：10.1016/0022-2836(90)90303-4，Matsumoto等，Mol.Cell.Biol.26,5168–5179(2006))。关节中的半胱氨酸和组氨酸的间隔对于在LINE中发现的关节是独特的。在锌关节的正上游是一组预测的螺旋(Mahbub等，Mob.DNA8,1–15(2017))。

来自家蚕的R2 LINE(R2Bm)是位点特异性的LINE，其用作模式系统，其中在生物化学水平上仔细分析LINE的整合反应，因为蛋白质可以以活性形式纯化并用于体外测定(Jakubczak等，J.Mol.Biol.(1990).doi：10.1016/0022-2836(90)90303-4，Kojima等，Mol.Biol.Evol.(2006).doi：10.1093/molbev/msl067；Gladyshev等，Gene(2009).doi：10.1016/j.gene.2009.08.016)。R2 ORF编码具有参与DNA结合的N-末端锌指(ZF)和myb结构域；RNA结合(RB)结构域；中心逆转录酶(RT)；含有多个保守的预测螺旋(HINALP基序)和gag样锌关节(CCHC基序)的接头区域，以及PD-(D/E)XK II型限制样内切核酸酶(RLE)结构域的多功能蛋白质(图1A)(Jakubczak等，J.Mol.Biol.(1990).doi：10.1016/0022-2836(90)90303-4，Mahbub等，Mob.DNA 8，1-15(2017)，Burke等，Mol.Cell.Biol.(1987).doi：10.1128/MCB.7.6.2221.更新的，Yang等，Proc.Natl.Acad.Sci.U.S.A.96，7847–52(1999)，Christensen等，Nucleic Acids Res.33，6461–6468(2005)，Jamburuthugoda等，NucleicAcids Res.42，8405–8415(2014)，Christensen等，Mol.Cell.Biol.25，6617–6628(2005))。对应于5′和3′非翻译区(UTR)的R2 RNA序列折叠成已知结合R2蛋白质的不同结构，因此分别称为5′PBM和3′PBM(图1A)(Kierzek等，Nucleic Acids Res.(2008)，doi：10.1093/nar/gkm1085，Kierzek等，J.Mol.Biol.390,428–442(2009),Christensen等,Proc.Natl.Acad.Sci.U.S.A.103,17602–17607(2006))。与5′PBM和3'PBM RNA的结合控制蛋白质的构象和在整合反应中的作用(图8B)(Christensen等,Mol.Cell.Biol.25,6617–6628(2005))。选择性添加RNA、DNA和蛋白质成分允许测定整合反应的不同阶段。

结合到3'PBM的R2蛋白采用允许蛋白质结合相对于插入位点上游28S DNA序列(28Su)的构象。接触28Su以形成上游蛋白质亚基的R2蛋白质的结构域仍然很大程度上是未鉴定的(Govindaraju等,Nucleic Acids Res.44,3276–3287(2016),Thompson等,Elements1,29–37(2011),Shivram等,Mob.Genet.Elements 1,169–178(2011))。与5'PBM结合的R2蛋白质采用允许蛋白质结合下游28S DNA序列(28Sd)的构象。R2蛋白质的ZF和Myb基序包括已知与形成下游蛋白质亚基的28Sd相互作用的主要残基(Christensen等,Nucleic AcidsRes.33,6461–6468(2005))。上游和下游蛋白质亚基催化R2元件在两个半反应中整合，每个半反应都包括DNA切割，然后进行DNA合成(Christensen等,Mol.Cell.Biol.25,6617–6628(2005))。整合的五个步骤是：(1)来自上游亚基的内切核酸酶切开靶DNA，暴露在插入位点的3′-OH；(2)暴露的3′-OH用作TPRT的上游亚基的逆转录酶的引物；(3)发生模板跳跃或重组事件，其中逆转录的5′端的cDNA变得与上游靶DNA序列缔合，以形成四向连接；(4)下游亚基切割4向连接；(5)由切割事件产生的3′-OH用作元件的第二链DNA合成的引物。

在所有LINE的RT之后定位的接头区域的作用先前仍然是迷惑人的(Mahbub等,Mob.DNA 8,1–15(2017))。将点突变引入接头的gag样锌关节和推定的α指(图8B)中。CCHC基序的间距对LINE是独特的(Malik等,Mol.Biol.Evol.16,793-805(1999),Fanning和Singer,Nucleic Acids Res.(1987).doi：10.1093/nar/15.5.2251)。在使用携带有APE的人的LINE-1元件的先前的体内研究中，突变在接头区域的CCHC基序中的前两个半胱氨酸，显著减少了LINE-1逆转录转座(Moran等,Cell 87,917–927(1996))。在另一个使用人LINE-1的体内研究中，当突变前两个半胱氨酸时观察到RNP复合物水平降低，这表明其在核酸结合中可能的作用(Doucet等,PLoS Genet.6,1–19(2010))。当通过将前三个半胱氨酸取代为丝氨酸来改变锌关节结构时，据报道，对于体外人LINE-1元件没有RNA结合活性的降低(Piskareva等,FEBS Open Bio 3,433–437(2013))。然而，在相同的研究中，发现RT的C末端序列参与RNA结合。突变在LINE-1元件的推定α指上游的残基降低了体内的逆转录转座活性(Moran等,Cell 87，917–927(1996))。锌关节上游的螺旋，以及锌关节本身，据报道，与真核生物的剪接因子Prp8的α指和非锌关节对齐(Mahbub等,Mob.DNA 8,1-15(2017),Wan等,Science(80-.).(2016).doi：10.1126/science.aad6466,Bertram等,Cell(2017).doi：10.1016/j.cell.2017.07.011)。

以下实施例测试了在测试DNA结合、第一链DNA切割、第一链DNA合成、第二链DNA切割和第二链DNA合成的条件下，在R2Bm的整个推定α指和R2BM的锌关节中产生的一系列双突变对体外功能的影响。结果导致可用于促进功能性工程化转座子的设计的结论。

a.接头的主要作用似乎不是结合元件RNA。

CCHC突变降低了ORF2蛋白在核糖核蛋白(RNP)复合物中的积累，暗示了结合元件RNA中的可能作用(Doucet等,PLoS Genet.6，1-19(2010))。同样，发现推定的α指上游的序列降低了体内逆转录转座活性(Moran等，Cell 87,917–927(1996))。人和小鼠L1元件之间的结构域交换实验还表明，锌关节的正上游序列对于体内逆转录转座很重要(Wagstaff等,PLoS One 6,(2011))。上游序列以尚未很好的理解的复杂而模块化方式与蛋白质的锌关节和其他部分功能性地连接。许多这些结构域在推定的α指中间交换。另外，发现含有L1H的ORF2的C末端的180个氨基酸的多肽在体外非特异性地结合RNA，所述L1H含有大部分的α指和锌关节，但突变半胱氨酸不会影响核酸结合(Piskareva等,FEBS Open Bio 3，433–437(2013))。

体外研究发现，R2Bm中锌关节和α指的突变不会明显减少与元件5'PBM RNA或3'PBM RNA的结合。然而，应当注意的是，通过在EMSA凝胶中形成不同的DNA-RNA蛋白质复合物推测RNA结合(Jamburuthugoda等，Nucleic Acids Res.42,8405–8415(2014),Christensen等，Proc.Natl.Acad.Sci.U.S A.103,17602–17607(2006))。具有5'PBM RNA或3'PBM RNA的蛋白质-DNA和蛋白质-DNA-RNA复合物在EMSA凝胶中具有独特的明确的迁移模式(Christensen等,Mol.Cell.Biol.25,6617–6628(2005))。因此可以将影响RNA掺入蛋白质-核酸复合物中的氨基酸在通用蛋白质滴定系列中检测为蛋白质-DNA与蛋白质-DNA-RNA复合物的比率的变化。使用相同的测定系统确定RT-1和RT 0结构域是RNA结合结构域(Jamburuthugoda等,Nucleic Acids Res.42,8405–8415(2014))。在几个突变体中也进行RNA滴定而不是蛋白质滴定，没有表明RNA结合的变化。也就是说，不能排除RNA结合作用。对于点突变体，RNA结合表面可能太大并且广泛分布在R2蛋白的表面上，无法在测定中观察到差异。这是使用双点突变体而不是单点突变体的一个原因(Jamburuthugoda等,NucleicAcids Res.42,8405–8415(2014))。

锌关节(C/SC/SHC)的核心CCHC基序的突变和推定的α指(H/AIN/AALP)的HINALP基序的突变与蛋白质结构的局部破坏一致，导致在EMSA凝胶中无法形成稳定的凝胶迁移蛋白质-核酸复合物。由于没有观察到明显的蛋白质-DNA或蛋白质-DNA-RNA条带，无法从具有这两个突变体的EMSA中辨别出RNA是否结合。锌关节和α指区域中的所有其他突变都保留了以与WT蛋白类似的模式有效地形成适当的蛋白质-RNA-DNA复合物的能力。

b.在整合反应的前半部分期间接头将核酸呈递给RLE和RT

下表2中给出了本研究中测试的每个突变体的DNA结合、切割和合成结果的比较性概述。CCHC基序(C/SC/SHC)的核心的突变和HINALP基序(H/AIN/AALP)的核心的突变导致无限制的DNA内切核酸酶和无法形成稳定的上游结合蛋白质-核酸复合物。所有其他突变体都能够形成正常上游蛋白质-RNA-DNA复合物。α-指突变中的两个(SR/AIR/A和SR/AGR/A)导致内切核酸酶过度受限而不切割。无法执行第一链切割与突变体对上游DNA序列的结合能力无关，因为一个突变体在3′PBM RNA存在下在DNA结合中未受损，另一个突变实际上增加了在3′PBM RNA存在下蛋白质与靶DNA的结合能力。相反，使用残基R849、R851、R854和R856定位靶DNA和/或DNA内切核酸酶以进行第一链DNA切割。

一旦切割，α指GR/AD/A和SR/AIR/A突变体无法在预切开的靶DNA上执行第一链cDNA合成(TPRT)，这表明突变残基在相对于彼此定位RT和/或核酸成分中的作用。实际上，GR/AD/A突变体缺乏超出无法进行TPRT的任何其他主要表型和与上游DNA序列结合的适度减少。锌关节突变体CR/AAGCK/A、HILQ/AQ/A和RT/AH/A适度降低了第一链DNA切割，并保留了接近野生型的第一链DNA的合成活性。未仔细检查上游DNA结合，但似乎是正常的。

c.接头区域是整合反应的下半部分的关键。

整合反应的下半部分从与5′PBM RNA缔合的R2蛋白质开始，因此变得结合在线性靶DNA上的插入位点下游的DNA序列。CCHC基序(C/SC/SHC)的核心突变和HINALP基序(H/AIN/AALP)的核心突变导致无限制的DNA内切核酸酶，和无法形成稳定的下游结合蛋白质-核酸复合物。所有其他突变体都能够在线性靶DNA上形成正常下游蛋白质-RNA-DNA复合物，并且似乎对与线性DNA的结合具有最小的影响。也就是说，SR/AIR/A突变确实显示与线性DNA上的下游序列结合的适度降低，并且未定量测试锌关节突变体。

当下游亚基处于“无RNA结合”状态时，仅进行整合的下半部分(Christensen等,Proc.Natl.Acad.Sci.U.S.A.103,17602–17607(2006))。虽然可在线性DNA发生第二链DNA切割，但它需要一组复杂的5′RNA、DNA和蛋白质比例来这样做，在不发生第二链合成时是非生产性的(Christensen等,Mol.Cell.Biol.25,6617–6628(2005),Christensen等,Proc.Natl.Acad.Sci.U.S.A.103,17602–17607(2006))。因此，现在认为，整合反应的下半部分，具体是第二链DNA切割和第二链合成，机械地需要形成4向连接(参见实施例1-8)。在没有RNA的情况下，4向连接适当地切割连接，且切割产物是第二链合成的底物(参见实施例1-8)。

除CR/AAGCK/A突变体外，所有测试的锌关节和α-指突变体都无法在线性DNA进行第二链切割(表2)，但重要的是，锌关节突变体并不损害对更重要的4向连接的第二链切割。最接近锌关节、SR/AIR/A和SR/AGR/A的α-指突变大大减少了与4向连接的结合，并废除第二链DNA切割。第二链合成类似地受两组突变的影响。结果表明，α-指对于4向连接识别以及将结合的DNA呈递至内切核酸酶和逆转录酶都很重要。锌关节突变体HILQ/AQ/A和RT/AH/A大大降低了第二链合成，表明锌关节残基参与切割连接和/或逆转录酶的定位，以进行引物延伸。

d.与APE LINE和Prp8的结构和功能连接

已确定由R2Bm编码的蛋白质由两个球状结构域组成。这两个结构域中较大的一个结构域(在图17A-17D中为彩色)包含RT，RLE，和位于两者之间的称为接头的区域(Mahbub等，Mob.DNA 8,1–15(2017))。接头区域的末端包含不变的锌关节和锌关节上游的多个保守的螺旋。上游螺旋在这里被称为“推定的α指”，其HINALP基序位于R2Bm中的α指中心。APELINE还包含“接头”，该“接头”具有位于RT以外的推定的α指和锌关节(图17A-17D)。

R2Bm的大球状结构域、RLE LINE与真核生物剪接因子Prp8的大片段共享结构和序列相似性(见图17A-17D)。Prp8具有RT、RLE和RT与RLE之间的接头区域。在Prp8中，接头区域的末端是非锌关节结构。非锌关节的上游是与在LINE中的锌关节上游发现的螺旋对齐的一组螺旋。Prp8中的非锌关节上游的螺旋形成非常突出且重要的α指。α指突出于逆转录酶之上(参见图17C)(Bertram等,Cell(2017).doi：10.1016/j.cell.2017.07.011)。类似于Prp8中的α指，RLE LINE的相应区域被称为“推定的α指”(Mahbub等,Mob.DNA 8,1–15(2017))。在Prp8中，非锌关节、α指和RT拇指共同作用以结合剪接位点和剪接体RNA。在剪接反应的所有方面，Prp8中的非锌关节和α指都是动态的，经历/促进蛋白质和蛋白质-RNA构象变化。特别令人感兴趣的事实是，在U4/U6.U5三-snRNP和B复合物中，α指和非锌关节都与重要的分支RNA结构结合。

此处报告的数据表明，无论R2Bm接头的实际结构是什么，接头都位于识别4向连接整合中间体的中心。它还充当蛋白质-DNA构象开关或中枢，以正确地相对于彼此定位EN、RT和底物DNA。

e.保持整合的设计考虑

接头区域是重要的DNA结合区域和蛋白质-核酸构象控制区域。接头区域进行特异性和非特异性的接触。α指和IAP/Gag样锌关节均调节DNA切割和DNA合成事件。特别地，α指在与四向连接的结合中发挥作用。人们认为，α指会接触4向连接的中心，就像Prp8中的α指，其位于5′剪接位点的中心一样，是多分支的RNA结构。除了非特异性接触外，转座子α-指也可能与碱基发生特异性接触。还认为该接头参与与LINE RNA的结合。在设计工程化LINE蛋白、工程化RNA和靶DNA时，必须注意保持某些靶DNA序列和RNA序列之间的亲本蛋白质接触，或突变接头，以使其产生新的所需DNA/RNA接触。

III.使用方法

所公开的组合物可以用于离体或体内将目标基因引入目标DNA靶位点。例如，在优选的实施方案中，工程化转座子的RNA成分和蛋白质成分被递送至细胞或在细胞中表达，并且目标基因整合到细胞基因组的目标DNA靶位点。RNA成分可以作为RNA或作为编码RNA成分的DNA(例如表达载体)递送。蛋白质成分可以作为蛋白质或编码蛋白质成分的RNA或DNA(例如表达载体)来递送。在一些实施方案中，编码蛋白质的载体在细菌或真核表达系统中表达，收获蛋白质并递送至靶细胞。在一些实施方案中，通过体外转录制备RNA，和/或通过体外转录/翻译制备蛋白质。RNA和蛋白质成分可以从相同或不同的载体表达。

A.载体和宿主细胞

还提供了用于制备工程化转座子的载体和宿主细胞。合适的表达载体包括但不限于衍生自例如噬菌体、杆状病毒、烟草花叶病毒、疱疹病毒、巨细胞病毒、逆转录病毒、牛痘病毒、腺病毒和腺相关病毒的质粒和病毒载体。许多载体和表达系统可从诸如Novagen(Madison，WI)，Clontech(Palo Alto，CA)，Stratagene(La Jolla，CA)和Invitrogen LifeTechnologies(Carlsbad，CA)等公司商购。

表达载体可以包括标签序列。标签序列通常表达为与编码多肽的融合物。这样的标签可以插入多肽内的任何地方，包括在羧基端或氨基端。有用标签的实例包括但不限于绿色荧光蛋白(GFP)，谷胱甘肽S-转移酶(GST)，多组氨酸，c-myc，血细胞凝集素，Flag^TM标签(Kodak,New Haven，CT)，麦芽糖E结合蛋白质和蛋白A。

可以将含有待表达的核酸的载体转移到宿主细胞中。术语“宿主细胞”旨在包括可引入重组表达载体的原核和真核细胞。如本文所使用的，“转化的”和“转染的”涵盖通过多种技术之一将核酸分子(例如，载体)引入细胞。尽管不限于特定技术，但是在本领域内已经很好地建立了许多这些技术。可以通过例如电穿孔或氯化钙介导的转化用核酸转化原核细胞。可以通过包括例如磷酸钙共沉淀，DEAE-葡聚糖介导的转染，脂质转染，电穿孔或显微注射的技术将核酸转染到哺乳动物细胞中。

用于表达和产生多肽的有用的原核和真核系统是本领域众所周知的，例如包括大肠杆菌菌株如BL-21和培养的哺乳动物细胞如CHO细胞。

B.编辑细胞基因组的方法

这些方法通常包括使细胞与有效量的工程化转座子接触，以修饰细胞的基因组。如本文所讨论的，使细胞与工程化逆转录转座子接触意味着RNA成分和蛋白质成分都同时存在于同一细胞中。在一些实施方案中，在与细胞接触之前将RNA和蛋白质成分混合在一起。在一些实施方案中，它们分别与细胞接触并在细胞内第一次形成复合物。在一些实施方案中，一种或两种成分作为在细胞中表达的DNA被递送。任何实施方案可包括使用电穿孔、脂质转染、磷酸钙或氯化钙共沉淀、DEAE葡聚糖或其他合适的转染方法以促进核酸或蛋白质向细胞的递送。

如下面更详细讨论的，接触可以离体或在体内发生。在优选的实施方案中，该方法包括使靶细胞群与有效量的工程化逆转录转座子接触以获得治疗结果。

例如，有效量或治疗有效量可以是足以治疗、抑制或减轻疾病或病症的一种或多种症状，或提供所需的生理作用，例如减少、抑制或逆转疾病或病症的潜在病理生理机制中的一种或多种的剂量。

制备适合于给药方式的制剂。药学上可接受的载体部分地由所施用的特定组合物以及用于施用该组合物的特定方法确定。因此，存在多种包含核酸和蛋白质的药物组合物的合适制剂。精确剂量将根据多种因素而变化，例如依赖于受试者的变量(例如年龄、免疫系统健康，临床症状等)。

1.离体基因治疗

在一些实施方案中，细胞的离体基因治疗用于治疗疾病或病症，包括但不限于受试者的遗传病症。对于离体基因治疗，可以从受试者分离细胞，并与组合物离体接触以产生含有插入的转基因的细胞。在优选的实施方案中，从待治疗的受试者或同基因宿主中分离细胞。在与工程化逆转录转座子接触之前，从受试者中去除靶细胞。在一些实施方案中，细胞是造血祖细胞或干细胞。在优选的实施方案中，靶细胞是CD34+造血干细胞。造血干细胞(HSC)，例如CD34+细胞是多能干细胞，可产生包括红细胞在内的所有血细胞类型。因此，可以从患有例如地中海贫血、镰状细胞病或溶酶体贮积病的患者中分离CD34+细胞，使用所公开的组合物和方法离体改变或修复突变基因，并将细胞重新引入患者中，作为治疗或治愈方法。

可以由本领域技术人员分离和富集干细胞。用于CD34+和其他细胞的这种分离和富集的方法在本领域中是已知的，并且例如公开在美国专利号4,965,204；4,714,680；5,061,620；5,643,741；5,677，136；5,716,827；5,750，397和5,759,793中。如本文在造血祖细胞和干细胞中富集的组合物的上下文中所使用的，“富集”表示所需元件(例如造血祖细胞和干细胞)的比例高于在细胞的天然来源中发现的比例。细胞的组合物可以在细胞的天然来源上富集至少一个数量级，优选两个或三个数量级，并且更优选10、100、200或1000个数量级。

一旦分离出祖细胞或干细胞，就可以通过在任何合适的培养基中生长来繁殖它们。例如，祖细胞或干细胞可以在基质细胞的条件培养基中生长，例如可以从与因子分泌相关的骨髓或肝脏中获得的基质细胞，或在包括支持干细胞增殖的细胞表面因子的培养基中生长。可以使用合适的单克隆抗体去除不需要的细胞，使基质细胞脱离造血细胞。

修饰的细胞还可以在施用于受试者之前在培养物中维持或扩增。根据细胞类型，培养条件是本领域公知的。

在其他实施方案中，该技术被用作基于CAR T治疗的一部分。从患者血液中采集免疫细胞(例如T细胞)。使用工程化转座子将嵌合抗原受体(CAR)引入细胞基因组的靶位点。大量的CAR T细胞可以在实验室中生长并通过输注给予患者。CAR T细胞疗法用于治疗某些类型的癌症。

2.体内基因治疗

所公开的组合物可以直接施用于受试者进行体内基因治疗。

a.药物制剂

所公开的组合物优选与合适的药物载体组合用于治疗用途。这样的组合物包括有效量的组合物，以及药学上可接受的载体或赋形剂。

本领域普通技术人员应理解，体内施用的核苷酸被吸收并分布到细胞和组织中(Huang等,FEBS Lett.,558(1-3)：69-73(2004))。例如，Nyce等已显示，反义寡脱氧核苷酸(ODN)吸入后会与内源性表面活性剂(肺细胞产生的脂质)结合，并被肺细胞吸收而无需其他载体脂质(Nyce等,Nature,385∶721-725(1997))。小核酸易于吸收到T24膀胱癌组织培养细胞中(Ma等,Antisense Nucleic Acid Drug Dev.,8：415-426(1998))。

所公开的组合物可以是用于在合适的药物载体中外用、局部或全身给药的制剂。E.W.Martin(Mark Publishing Company，1975)的第15版的《雷明顿药物科学》(Remington's Pharmaceutical Sciences)公开了典型的载体和制备方法。化合物也可以被包封在由可生物降解或不可生物降解的聚合物或蛋白质或脂质体形成的合适的生物相容性微胶囊、微颗粒、纳米颗粒或微球中，以靶向细胞。这样的系统对于本领域技术人员是众所周知的，并且可以被优化以与适当的核酸一起使用。

核酸递送的各种方法描述于，例如，Sambrook et al.,Molecular Cloning：ALaboratory Manual,Cold Spring Harbor Laboratory,New York(1989)；和Ausubel,etal.,Current Protocols in Molecular Biology,John Wiley&Sons,New York(1994)。此类核酸递送系统包括所需的核酸，例如但不限于，以“裸”形式作为“裸”核酸，或例如在适合于递送的赋形剂中配制，例如以具有阳离子分子或脂质体形成脂质的复合物的形式，或作为载体的成分，或作为药物组合物的成分。核酸递送系统可以直接提供给细胞，例如通过使其与细胞接触，或间接提供给细胞，例如通过任何生物过程的作用。可以通过内吞作用、受体靶向、与天然或合成细胞膜片段偶联，物理手段(例如电穿孔)，将核酸递送系统与聚合物载体(例如控释膜或纳米颗粒或微颗粒)结合，使用载体，将核酸递送系统注射到细胞周围的组织或流体中，核酸递送系统在细胞膜上的简单扩散，或通过细胞膜上的任何主动或被动转运机制，将核酸递送系统提供给细胞。另外，可以使用诸如抗体相关靶向和抗体介导的病毒载体的固定技术将核酸递送系统提供给细胞。

用于局部给药的制剂可以包括软膏、洗剂、乳剂、凝胶剂，滴剂、栓剂、喷雾剂、液体剂和粉剂。可以根据需要使用常规的药物载体，水性、粉末或油性基质或增稠剂。

适用于肠胃外给药的制剂，例如通过关节内(在关节中)、静脉内、肌肉内、皮内、腹膜内和皮下途径给药，包括水性和非水性等渗无菌注射溶液，其可以含有抗氧化剂、缓冲剂、抑菌剂和使制剂与预期受体的血液等渗的溶质，以及水性和非水性无菌悬液，溶液或乳剂，其可包括助悬剂、增溶剂、增稠剂、分散剂、稳定剂和防腐剂。注射用制剂可以单位剂型存在，例如在安瓿或多剂量容器中，任选地添加防腐剂。所述组合物可以采取诸如无菌水溶液或非水溶液、悬浮液和乳剂的形式，其在某些实施方案中可以与受试者的血液等渗。非水溶剂的实例是聚丙二醇，聚乙二醇，植物油(例如橄榄油，芝麻油，椰子油，花生油，花生油，矿物油)，可注射有机酯(例如油酸乙酯)或不挥发性油，包括合成的单或双-甘油酯。水性载体包括水，醇/水溶液，乳液或悬浮液，包括盐溶液和缓冲介质。肠胃外运载体包括氯化钠溶液，1，3-丁二醇，林格氏葡萄糖，葡萄糖和氯化钠，乳酸林格氏油或不挥发性油。静脉内赋形剂包括液体和营养补充剂以及电解质补充剂(例如基于林格氏葡萄糖的补充剂)。也可以存在防腐剂和其他添加剂，例如抗微生物剂，抗氧化剂，螯合剂和惰性气体。另外，无菌的不挥发性油通常用作溶剂或悬浮介质。为此，可以使用任何温和的不挥发性油，包括合成的甘油单酯或甘油二酯。另外，在注射剂的制备中可以使用脂肪酸，例如油酸。载体制剂可以在宾夕法尼亚州伊斯顿的麦克出版公司的雷明顿药物科学中找到。本领域技术人员可以容易地确定用于制备和配制组合物的各种参数，而无需过度实验。

所公开的组合物可以单独或与其他合适的成分组合，也可以制成气雾剂制剂(即，它们可以被“雾化”)以通过吸入给药。可以将气溶胶制剂放入加压的可接受的推进剂中，例如二氯二氟甲烷，丙烷，氮气和空气。为了通过吸入给药，使用合适的推进剂，将化合物以气雾剂形式从加压包装或喷雾器中递送。

在一些实施方案中，组合物包括具有制剂成分的药学上可接受的载体，例如盐，载体，缓冲剂，乳化剂，稀释剂，赋形剂，螯合剂，填充剂，干燥剂，抗氧化剂，抗微生物剂，防腐剂，粘合剂，膨胀剂，二氧化硅，增溶剂或稳定剂。在一个实施方案中，将核酸与亲脂性基团如胆固醇以及具有C32官能度的月桂酸和石胆酸衍生物缀合，以改善细胞摄取。例如，已经证明胆固醇在体外(Lorenz等,Bioorg.Med.Chem.Lett.,14(19)：4975-4977(2004))和在体内(Soutschek等,Nature,432(7014)：173-178(2004))可增强siRNA的摄取和血清稳定性。此外，已显示类固醇缀合的寡核苷酸与血流中不同脂蛋白(例如LDL)的结合可保护完整性并促进生物分布(Rump等,Biochem.Pharmacol.,59(11)：1407-1416(2000))。可以与上述化合物连接或缀合以增加细胞摄取的其他基团包括吖啶衍生物；交联剂，例如补骨脂素衍生物，叠氮基苯甲酰甲基，原黄素和叠氮基原黄素；人工内切核酸酶；金属络合物，例如EDTA-Fe(II)和卟啉-Fe(II)；烷基化部分；核酸酶，例如碱性磷酸酶；末端转移酶；抗体酶；胆固醇部分；亲脂性载体；肽缀合物；长链醇；磷酸酯；放射性标记；非放射性标记；碳水化合物和聚赖氨酸或其他多胺。Levy等的美国专利号6,919,208也描述了增强递送的方法。这些药物制剂可以以本身已知的方式制造，例如，通过常规的混合、溶解、制粒、磨细、乳化、包囊，包埋或冻干方法。

b.给药方法

通常，施用核酸和蛋白质组合物的方法是本领域众所周知的。特别地，已经用于核酸治疗剂的给药途径以及当前使用的制剂为上述工程化转座子提供了优选的给药途径和制剂。优选地，将组合物注射到经历遗传操作的生物体中，例如需要基因治疗的动物。

所公开的组合物可以通过多种途径施用，包括但不限于口服，静脉内，腹膜内，肌内，透皮，皮下，局部，舌下，直肠，鼻内，肺和其他合适的方式。该组合物也可以通过脂质体给药。这样的给药途径和合适的制剂是本领域技术人员通常已知的。

可以通过允许基因编辑组合物达到其靶标的任何可接受的方法来完成制剂的施用。

本领域普通技术人员已知的任何可接受的方法可以用于将制剂施用于受试者。取决于所治疗的病症，施用可以是局部的(即，到特定区域，生理系统，组织，器官或细胞类型)或全身的。

注射剂可以是例如静脉内，皮内，皮下，肌内或腹膜内。在一些实施方案中，可以在多个位置给予注射。植入包括插入可植入药物递送系统，例如微球，水凝胶，聚合物储库，胆固醇基质，聚合物系统，例如基质侵蚀和/或扩散系统以及非聚合物系统，例如压缩，融合或部分融合的丸剂。吸入包括在吸入器中将所述组合物与气雾剂一起给药，既可以单独给药，也可以与可吸收的载体一起。对于全身给药，可优选将组合物封装在脂质体中。

所述组合物可以使试剂和/或核苷酸递送系统能够组织特异性吸收的方式递送。技术包括使用组织或器官定位装置，例如伤口敷料或透皮递送系统，使用侵入性装置，例如血管或导尿管，以及使用介入装置，例如具有药物递送能力并被配置为扩张装置或支架移植物的支架。

可以使用生物蚀解性植入物通过聚合物基质的扩散或降解来递送制剂。在某些实施方案中，可以设计制剂的施用，以导致在一定时间段，例如数小时、数天、数周、数月或数年内连续暴露于组合物。例如，这可以通过重复施用制剂或通过持续释放或控制释放的递送系统来实现，其中在不重复施用的情况下在延长的时间内递送组合物。使用这种递送系统的制剂的施用可以例如通过口服剂型、推注、透皮贴剂或皮下植入物进行。在某些情况下，保持组合物浓度基本恒定可能是优选的。

其他合适的递送系统包括定时释放、延迟释放、持续释放或控释递送系统。在许多情况下，这样的系统可以避免重复施用，从而增加了对受试者和医师的便利性。许多类型的释放递送系统是可用的，并且是本领域普通技术人员已知的。它们包括例如基于聚合物的体系，例如聚乳酸和/或聚乙醇酸、聚酐、聚己内酯、共聚草酸酯、聚酰胺酯、聚原酸酯、聚羟基丁酸和/或这些的组合。前述含有核酸的聚合物的微胶囊描述于例如美国专利号5,075,109中。其他实例包括基于脂质的非聚合物体系，包括固醇(例如胆固醇，胆固醇酯)，和脂肪酸或中性脂肪(例如甘油单酯、甘油二酸酯和甘油三酸酯)；水凝胶释放系统；基于脂质体的系统；基于磷脂的系统；硅橡胶系统；基于肽的系统；蜡涂层；使用常规粘合剂和赋形剂的压制片；或部分融合的植入物。具体实例包括侵蚀系统，其中寡核苷酸包含在基质内的制剂中(例如，如美国专利号4,452,775、4,675,189、5,736,152、4,667,013、4,748,034和5,239,660中所述)，或其中活性成分控制释放速率的扩散系统(例如，如美国专利号3,832,253、3,854,480、5,133,974和5,407,686中所述)。制剂可以是例如微球、水凝胶、聚合物储库、胆固醇基质或聚合物系统。在一些实施方案中，系统可允许例如通过控制含有工程化转座子的制剂的扩散或侵蚀/降解速率来发生组合物的持续或受控释放。另外，在一个或多个实施方案中，基于泵的硬件递送系统可以用于递送。

突发释放的系统的实例包括其中组合物被包裹在包封在聚合物基质中的脂质体中的系统，脂质体对特定刺激例如温度、pH、光或降解酶敏感，和其中组合物被具有微胶囊核心降解酶的离子包被的微胶囊包封的系统。其中抑制剂的释放是逐步和连续的系统的实例包括，例如，其中组合物以包含在基质中的形式的侵蚀系统，和其中组合物以受控速率例如通过聚合物渗透的渗出系统。这样的持续释放系统可以是小丸或胶囊的形式。

在一些实施方案中，使用长期释放植入物可能是特别合适的。如本文所使用的，“长期释放”是指构建和布置包含组合物的植入物以递送治疗有效水平的组合物至少30天或45天，优选至少60天或90天，在某些情况下甚至更长。长期释放植入物是本领域普通技术人员众所周知的，并且包括上述一些释放系统。

c.粘膜和肺部施用的优选制剂

活性剂及其组合物可以配制用于肺部或粘膜给药。施用可包括将组合物递送至肺、鼻、口腔(舌下、颊)、阴道或直肠粘膜。

在一个实施方案中，将化合物配制成用于肺部递送，例如鼻内给药或口服吸入。呼吸道是参与大气和血流之间气体交换的结构。肺是分支结构，最终以发生气体交换的肺泡结束。肺泡表面积是呼吸系统中最大的区域，是发生药物吸收的地方。肺泡被薄的上皮覆盖，没有纤毛或粘液层，并分泌表面活性剂磷脂。呼吸道包括上呼吸道，包括口咽和喉，然后是下呼吸道，包括气管，然后分叉进入支气管和细支气管。上呼吸道和下呼吸道称为传导气管。末端细支气管然后分成呼吸细支气管，然后通向最终的呼吸区、肺泡或深肺。深肺或肺泡是吸入治疗性气雾剂的主要靶点，用于全身性药物递送。

已经观察到肺施用由低分子量药物组成的治疗组合物，例如β-雄激素拮抗剂来治疗哮喘。在肺部有活性的其他治疗剂已被全身给药，并通过肺吸收进行靶向。由于以下原因，鼻腔递送被认为是一种有前景的治疗剂施用技术：鼻子由于被大量微绒毛覆盖上皮表面，具有可用于药物吸收的大表面积，上皮下层高度血管化，来自鼻子的静脉血液直接进入全身循环，因此避免了肝脏中首先通过代谢引起的药物损失，它提供了更低的剂量，更快速地达到治疗性血液水平，药理活性起效更快，副作用更少，每立方厘米高的总血流量，多孔的基于内皮的膜，很容易获得。

本文所用的术语气雾剂是指颗粒细雾的任何制剂，其可以是溶液形式的也可以是悬浮液形式的，无论是否使用推进剂来生产。可以使用标准技术(例如超声处理或高压处理)生产气雾剂。

肺部制剂的载体可分为干粉制剂的载体和溶液给药的载体。用于将治疗剂递送至呼吸道的气雾剂在本领域中是已知的。为了通过上呼吸道给药，可以将制剂配制成溶液，例如水或等渗盐盐水，缓冲的或非缓冲的，或作为悬浮液，以滴剂或喷雾剂的形式鼻内给药。优选地，这样的溶液剂或悬浮剂相对于鼻腔分泌物是等渗的并且具有大约相同的pH，例如在大约pH4.0至大约pH 7.4或从pH 6.0至pH 7.0的范围内。缓冲液应该是生理相容的，并且仅以举例的方式包括磷酸盐缓冲液。例如，代表性的鼻减充血剂被描述为缓冲至约6.2的pH。本领域技术人员可以容易地确定用于鼻和/或上呼吸道施用的无害水溶液的合适的盐含量和pH。

优选地，水溶液是水，含有盐和/或缓冲剂的生理上可接受的水溶液，例如磷酸盐缓冲盐溶液(PBS)，或可接受施用至动物或人的任何其他水溶液。这样的溶液是本领域技术人员众所周知的，包括但不限于蒸馏水、去离子水、纯水或超纯水、盐溶液、磷酸盐缓冲盐溶液(PBS)。其他合适的水性运载体包括但不限于林格氏溶液和等渗氯化钠。水性悬浮液可包括悬浮剂，例如纤维素衍生物，海藻酸钠，聚乙烯吡咯烷酮和黄蓍胶，以及润湿剂，例如卵磷脂。用于水性悬浮液的合适的防腐剂包括对羟基苯甲酸乙酯和对羟基苯甲酸正丙酯。

在另一个实施方案中，可以将为低毒性有机(即非水)3类残留溶剂的溶剂，例如乙醇、丙酮、乙酸乙酯、四氢呋喃、乙醚和丙醇用于制剂。基于其容易雾化制剂的能力来选择溶剂。溶剂不应与化合物发生有害反应。应该使用溶解化合物或形成化合物悬浮液的适当溶剂。溶剂应具有足够的挥发性，以能够形成溶液或悬浮液的气雾剂。可以根据需要添加其他溶剂或雾化剂，例如氟利昂，以增加溶液或悬浮液的挥发性。

在一个实施方案中，组合物可包含少量的聚合物、表面活性剂或本领域技术人员众所周知的其他赋形剂。在本文中，“少量”是指不存在可能影响或介导肺中化合物摄取的赋形剂，并且所存在的赋形剂的以不会对肺中化合物的摄取产生不利影响的量存在。

干脂质粉剂由于其疏水性特征可以直接分散在乙醇中。对于存储在有机溶剂(例如氯仿)中的脂质，将所需量的溶液置于小瓶中，然后在氮气流下蒸发氯仿，以在玻璃小瓶的表面上形成干燥的薄膜。当用乙醇复溶时，该膜容易膨胀。为了将脂质分子完全分散在有机溶剂中，对悬浮液进行超声处理。脂质的非水悬浮液也可以使用可重复使用的PARI LCJet+雾化器(PARI Respiratory Equipment，加利福尼亚州蒙特雷)在无水乙醇中制备。

C.待治疗的疾病

所公开的工程化转座子尤其可用于治疗由单个基因突变引起的遗传缺陷、病症和疾病，例如，纠正由点突变引起的遗传缺陷、病症和疾病。如果靶基因包含引起遗传病症的突变，则所公开的组合物可用于诱变修复，其可将靶基因的DNA序列恢复至正常。靶序列可以在基因的编码DNA序列内或内含子内。靶序列也可以在调节靶基因表达的DNA序列内，包括启动子或增强子序列。所公开的转座子可以另外或备选地递送野生型或甚至增强目标基因的版本，或向细胞递送新的(例如异源性的)基因。因此，该技术可以修复或替换基因、补充基因或添加新基因。

如果靶基因是导致不受控的增殖的致癌基因(例如在癌细胞中)，那么工程化转座子可用于引起使基因失活，和终止或减少细胞不受控制的增殖的突变。工程化转座子也是激活失去其抑制增殖能力的阻遏基因的有用抗癌剂。靶基因也可以是编码免疫调节因子(例如PD-1)的基因，以增强宿主对癌症的免疫反应。因此，可以设计工程化转座子以减少或防止PD-1的表达，并以有效量施用PD-1。

所述工程化转座子可以用作抗病毒剂，例如，当被设计为修饰病毒的适当增殖或功能所需的病毒基因组的特定部分时。

实施例

Muhbub等，Mobile DNA(2017)8：16DOI 10.1186/s13100-017-0097-9，通过引用全部纳入本文。

实施例1：与非特异性线性DNA相比，R2蛋白优先与非特异性4向连接DNA结合

材料和方法

蛋白质纯化

R2Bm蛋白质的表达和纯化如先前发表的那样进行(Govindaraju等，NucleicAcids Res 44，3276(2016))。简而言之，将含有R2表达质粒的BL21细胞在LB液体培养基中生长并用IPTG诱导。通过离心沉淀诱导的细胞，重悬，并在含有溶菌酶和Triton X-100的HEPES缓冲液中轻轻裂解。旋转细胞DNA和碎片，并在Talon树脂(Clontech#635501)上纯化含有R2Bm蛋白质的上清液。R2Bm蛋白质从Talon树脂柱上洗脱下来并存储在蛋白质存储缓冲液中，该缓冲液包含50mM HEPES pH 7.5、100mM NaCl，50％甘油，0.1％triton X-100，0.1mg/ml牛血清白蛋白(BSA)和2mM二硫苏糖醇(DTT)，保存在-20℃。在添加BSA进行存储之前，通过对在十二烷基硫酸钠-聚丙烯酰胺凝胶电泳上运行的样品进行SYPRO Orange(Sigma#S5692)染色，对R2蛋白质进行定量。使用FIJI软件对数码照片进行分析来完成所有定量(Schindelin等，Nat Methods 9，676(2012))。

核酸制备

从Sigma-Aldrich订购了包含28S R2靶DNA，非靶(非特异性)DNA和R2序列的寡核苷酸。上游(28Su)和下游(28Sd)靶DNA的命名是相对于28S rRNA基因中的R2插入对的。寡核苷酸序列列于表1。

所有线性DNA的长度都是50bp。除了用于cDNA合成测试的连接外，大多数3向和4向连接的每个臂长25bp，为此，有策略地改变28S DNA臂的长度以观察第二链合成产物。在主要图中提供了构建体的示意图。具有28Sd序列的寡核苷酸包含R2插入位点28S rDNA后的25bp或47bp。在这些“下游”寡核苷酸中还包括上游序列的七个碱基对，以跨越插入位点。具有28Su序列的寡核苷酸在插入位点之前包含72bp，在R2插入位点28S rDNA后包含5bp。最大的寡核苷酸包含上游72bp和下游28SrDNA的47bp。多个寡核苷酸掺入了与3'或5'RNA互补的25bp序列。在许多构建体中还使用了对应于R2Bm的第一个和最后一个25bp的较短寡核苷酸(25bp)序列。非特异性4-向连接的x、h、b和r链的序列获自Middleton等(Middleton和Bond，Nucleic Acids Res 32，5442(2004))。通过退火成分寡核苷酸程序形成构建体：将20pmole的标记的寡核苷酸与66pmole的每种冷寡核苷酸混合。将引物在SSC缓冲液(15mM柠檬酸钠和0.15M氯化钠)中于95℃退火2分钟，然后在65℃退火10分钟，在37℃退火10分钟，最后在室温退火10分钟。在其他成分寡核苷酸退火之前，一种成分寡核苷酸已被5'32P末端标记。通过聚丙烯酰胺凝胶电泳纯化退火的连接，在凝胶洗脱缓冲液(0.3M乙酸钠，0.05％SDS和0.5mM EDTA pH 8.0)中洗脱，萃取氯仿，乙醇沉淀，然后重悬于Tris-EDTA中。共享共同标记的寡核苷酸的连接通过计数DNA进行平衡，否则R2反应中通常使用等体积的纯化构建体。R23'PBM RNA(249nt)，5'PBM RNA(320nt)和非特异性RNA(180nt)是通过体外转录产生的，如先前所发表的(Gasior等，J Mol Biol 357，1383(2006)。

R2Bm反应和分析

R2蛋白质与靶DNA的结合和裂解反应很大程度上按照先前的报道进行(Govindaraju等，Nucleic Acids Res 44，3276(2016))。简而言之，测试每个DNA构建体在存在和不存在5'PBM RNA、3'PBM RNA和非特异性RNA的情况下与R2蛋白质结合并进行DNA切割的能力。所有反应均包含过量的冷竞争DNA dIdC。将反应物加载到电泳迁移率变动分析(EMSA)凝胶和伴随的变性凝胶上进行分析。从EMSA凝胶获得结合支链和线性DNA的能力，并且从变性尿素凝胶获得切割DNA的能力以及切割位置。在变性凝胶中的反应旁边运行A+G梯，以帮助绘制切割图。通过在不存在RNA的情况下向DNA切割反应中添加dNTP来进行第二链合成测定。将所有凝胶干燥，暴露于磷光成像仪屏幕，并使用磷光成像仪(Moleculardynamics STORM 840)进行扫描。对所得的16位TIFF图像进行线性调整，以使最强烈的条带为深灰色。调整后的TIFF文件使用FIJI进行定量(Schindelin等，Nat Methods 9，676(2012))。

表1该表显示了用于构建线性和连接DNA的DNA和RNA寡核苷酸。“Comp”链代表互补链。

结果

Holliday连接解离酶结合并对称切割4向DNA连接(Holliday连接)，将这些连接解离为线性DNA。Holliday连接解离酶识别DNA结构而不是DNA序列。与古细菌Holliday连接解离酶共享结构和氨基酸序列同源性的R2 RLE，可能表现出相似的DNA结合和切割活性。

通过比较R2蛋白质单独和竞争地与非特异性线性和非特异性4向连接DNA结合的相对能力，测试了R2蛋白质识别和结合4向DNA分支结构的潜力(图2A-2B)。线性和连接DNA是通过退火互补寡核苷酸形成的。线性和连接DNA共享共同的DNA寡核苷酸，所述DNA寡核苷酸在退火之前已被放射性标记。共享共同的标记DNA链允许放射性衰变计数成为平衡线性DNA和连接DNA之间的DNA浓度以及待探测的相似DNA序列的代理人。通过电泳迁移率变动分析(EMSA)分析DNA结合。在不存在RNA的情况下(图2A-2B)，当在整个蛋白质浓度系列中进行单独检测时，R2蛋白质以几乎相同的效率与非特异性线性和非特异性4向连接DNA结合。然而，在竞争性结合反应中，与线性DNA相比，R2蛋白质明显优先与4向连接结合。应该注意的是，连接DNA包含较多的总碱基对(100bp；每个臂为25bp)，而线性DNA较少(50bp)。但是，DNA的“长度”差异不太可能对竞争反应中观察到的结合亲和力产生显著影响，因为直到大多数连接DNA被结合后，R2蛋白质才与线性DNA结合：差异大于两倍。

线性和连接DNA的迁移模式都非常相似。信号的一部分被粘在孔中，而成片条带则从孔中流到凝胶中微弱的蛋白质-DNA复合物。线性DNA和连接DNA的凝胶电泳蛋白质-DNA复合物迁移到凝胶中大致相同的位置。在线性DNA的情况下，成片条带从孔一直延伸到游离DNA。迁移模式，特别是结合到连接DNA的R2蛋白质的迁移模式，类似于在DNA切割前不存在RNA的情况下结合其自身靶DNA的R2蛋白质的迁移模式(Christensen和Eickbush，Mol CellBiol 25，6617(2005)，Christensen和Eickbush，J Mol Biol 336，1035(2004)。

在存在非特异性RNA(缩写为nsRNA)的情况下，R2蛋白质仍然像在不存在RNA的情况下一样，优先与连接DNA结合。再次，有从孔到凝胶中的主要复合物的成片条带。连接和线性蛋白质-RNA-DNA复合物迁移到凝胶中相似但不同的位置。在存在R2 3'PBM RNA的情况下，R2蛋白质以与非特异性RNA结合相同的方式主要与连接DNA结合，并且与非特异性线性DNA相比，优先结合4向连接DNA。有趣的是，在存在5′PBM RNA的情况下，其行为有所不同(请参阅下章节)。

实施例2：5’PBM RNA而不是3’PBM RNA抑制结合非特异性的4向DNA连接

设计了一种测定法直接比较在非特异性RNA，3'PBM RNA和5'PBM RNA的一系列RNA浓度范围内，结合到4向连接DNA的R2蛋白质。对于每个RNA滴定组，所用蛋白质的量足以结合反应中缺少RNA的大多数连接DNA。通常，添加三种RNA中的任何一种都会将物质从孔中拉出并进入凝胶。R2 RNA将物质从孔中拉出并进入凝胶的效率更高。当R2蛋白质在存在R2RNA的情况下与其正常(线性)28S靶DNA结合时，会观察到类似现象(Christensen和Eickbush，Mol Cell Biol 25，6617(2005)，Christensen和Eickbush，Proc Natl Acad SciUSA 103，17602(2006)，Christensen and Eickbush，J Mol Biol 336，1035(2004))。与线性28S靶DNA结合不同，5'PBM RNA的存在极大地抑制了R2蛋白质与4向连接DNA的结合。只有5'PBM RNA的存在会极大地影响R2蛋白质与连接DNA的结合，并且抑制作用随5'PBM RNA浓度而放大。5’RNA的存在对与非特异性线性DNA和三向连接的结合的影响较小，但在5’RNA的存在下仍会减少。如果在任何DNA构建体中存在下游28S rDNA序列，则不会观察到这种抑制作用(Christensen等，Nucleic Acids Res 33，6461(2005)，Zingler等，Cytogenet GenomeRes 110，250(2005))。

实施例3：R2蛋白不解离非特异性4向连接DNA

在不存在RNA的情况下，在一定的蛋白质浓度范围内，将R2蛋白质与非特异性线性和非特异性4向连接结合的反应中的DNA通过变性聚丙烯酰胺凝胶电泳分析DNA切割事件。通过依次放射性标记不同DNA链的5'端，可独立地追踪连接DNA和线性DNA的每一链的DNA切割事件。随机低强度背景切割的复杂模式尤其在蛋白质过量时发生。当R2蛋白质过量时，在不存在RNA的情况下，与其正常的28S靶DNA结合的R2蛋白质发生类似的背景切割现象。非特异性连接上的背景切割不受结构驱动，因为切割发生在相同序列的线性DNA中的相同位置。三种RNA中的任何一种的存在(5'PBM RNA>3'PBM RNA>非特异性RNA)都消除了随机背景DNA切割。

实施例4：线性靶DNA和TPRT产物是用于第二链切割的不良底物

R2Bm插入28S rDNA的特异性位点。已确定与插入位点下游的靶序列结合的蛋白质亚基提供了参与第二链(即，顶链)DNA切割的内切核酸酶。然而，第二链切割一直很难实现和研究。以前，第二链切割需要5'PBM RNA，R2蛋白质和DNA比率的狭窄范围。先前的数据表明，可能需要先切割第一链DNA，然后才能切割第二链，而且下游亚基必须与DNA结合(需要5'PBM RNA)，然后必须将5'PBM RNA从下游亚基上解离，用于发生第二链切割。在体内，对于全长R2 RNA，TPRT的过程被认为会从下游亚基中拉出5'PBM RNA，从而将下游亚基推入“无RNA结合”状态，从而启动第二链DNA切割。

考虑到在不存在RNA的情况下，R2蛋白质能够结合分支DNA，研究了在不存在RNA的情况下DNA结构对下游亚基切割DNA的能力的作用。DNA构建体包含下游R2蛋白质亚基的结合位点，但不包含上游结合R2蛋白质亚基的结合位点，以便分离与下游亚基相关的活性。上游DNA序列由先前附图中使用的4向连接衍生的非特异性DNA取代。不管是否存在第一链DNA切割事件，包含下游28S DNA的线性DNA都不是第二链切割的底物(图2，构建体iii和iv)。TPRT后的类似物(构建体v)都不能被R2蛋白质切割。TPRT类似物是包含下游28S DNA的三向连接，其在第一(底部)链切割位点被预先切割，并与对应于R2元件3′端的cDNA序列共价连接，这可以从TPRT反应中看出。与构建体的cDNA部分退火的是25bp的R2 RNA或相同25bp的DNA版本。R2Bm蛋白无法切割这些三向连接的顶链。含有R2 3'序列的臂是RNA-DNA双链体还是DNA双链体的形式都没有关系。

实施例5：特异性4向连接被R2蛋白质切割

与线性和TPRT连接(图3，构建体iii-v)DNA不同，发现包含靶序列和R2序列的4向连接可被R2蛋白质切割(图3，构建体viii)。构建体viii与TPRT连接(构建体v)相似，但有一个额外的臂：5'R2臂。R2 5′臂和R2 3'臂的长度均为25bp，由RNA-DNA双链体组成。构建体Viii模拟了cDNA与靶DNA之间的提议的缔合。认为R2Bm mRNA的5'端含有对应于上游靶DNA的rRNA序列(Eickbush等，PLoS One 8，e66441(2013)，Stage和Eickbush，Genome Biol 10，R49(2009)，Fujimoto等，Nucleic Acids Res 32，1555(2004)，Eickbush等，Mol Cell Biol20，213(2000)。然后，逆转录的cDNA可以与靶标的顶链杂交，形成4向连接。与缺乏R2 3′臂的构建体(构建体vii)一样，也可以切割相同连接的完全共价封闭的所有DNA形式，尽管程度较小(参见构建体vi，图3)。

实施例6：进一步探索第二链DNA切割

为了进一步探索第二链切割的结构要求，测试了图3构建体viii的许多结构变体(即，部分连接)的可切割性(图4A-4B，构建体i-viii)。图3的构建体viii与图4A的构建体i相同，除了28S下游臂的长度增加到47bp，而不是图3的构建体viii中使用的最初的25bp。该调整是将图4A-4B构建体中的下游DNA设置为等于先前出版物中使用的历史性线性DNA构建体中包含的下游DNA的量(Govindaraju等，Nucleic Acids Res 44，3276(2016))。测试部分连接(图4A-4B，连接ii-viii)的可切割性的原因是要确定图3中观察到的DNA切割信号在多大程度上(如果有的话)来自较小但存在的结合和切割反应中的污染性部分连接。还需要确定模拟RNA成分的细胞去除的构建体(例如，通过细胞RNase；构建体vi-viii)在被R2蛋白质切割时是否比具有完整的RNA-DNA双链体的构建体更好或更差。似乎可以切割多个部分连接(复合物ii和iii)，因此可能在包含完整连接(复合物i)的反应中部分促成整体切割。缺乏两个RNA成分的4向连接(复合体vi)几乎无法切割，表明需要双链R2臂。缺乏5′端RNA但包含3′端RNA的4向连接；构建体vii)也未能明显切割，表明在R2 5′臂中存在RNA-DNA双链体的重要性。缺乏3′端RNA但包含5′端RNA的4向连接(构建体viii)切割得很好。实际上，它比构建体i更有效地被切割，表明R2 3′臂中双链体的存在是部分抑制性的，但是5'臂中双链体的存在是刺激性的。

为了研究上游靶序列对第二链DNA切割的相对重要性，将73bp的上游28S DNA掺入了4向连接中(图4C-4D；构建体ii-iv)。在构建体ii中，下游28S DNA的47bp被非特异性DNA替代，并且构建体iii包含完整的靶DNA序列(上游28S DNA的73bp和下游28S DNA的47bp)。构建体ii能够被切割，尽管其效率比包含下游靶DNA但不包含先前附图中的上游的构建体i低得多。构建体ii能够被切割的事实表明，构建体i和ii共有的12bp(上游DNA的7bp和下游DNA的5bp)可能参与了指导DNA切割的过程。矛盾的是，包含完整靶序列的构建体iii的切割效率甚至低于构建体ii。认为在模板跳跃过程中发生的加入襟翼或移位链(构建体iv)明显增加了连接的可切割性。

实施例7：在dNTP存在下，第二链切割导致第二链合成

为了测试第二链切割是否可以进行到第二链合成，将dNTP添加到DNA切割反应中。用于测试第二链合成的构建体是图4A-4B的构建体i。它切割得比较好。使用了一系列的R2蛋白质浓度，并通过变性(图5)和天然聚丙烯酰胺凝胶电泳对反应进行了分析。在第二链DNA切割后，4向连接的标记链未切割72nt，长度为24nt(在变性凝胶上标记为SSC)。当在变性凝胶上分析时，第二链合成(SSS)，即DNA切割后标记链的延伸，将产生50nt的产物。仅在变性凝胶中蛋白质滴定系列的较高端观察到第二链DNA合成。其原因在天然(EMSA)凝胶中变得很清楚。切割时，4向连接被解离为两个线性DNA：一个包含下游和R2 3′臂的DNA，另一个包含“上游”和R2 5′臂的DNA。在DNA切割后，R2蛋白质似乎保持与包含下游28S DNA的DNA结合，而释放出具有包含非特异性“上游”DNA的DNA。仅当蛋白质过量时，释放的DNA引物模板才被R2 RT延长。EMSA凝胶旁边标出了第二链切割和第二链合成产物的迁移位置。

在存在dNTP的情况下，变性凝胶上全长寡核苷酸上的信号是由于原始全长寡核苷酸被R2延长而产生的。R2几乎可以占据任何3′端并以顺式或反式延长模板(Bibillo等，JBiol Chem 279，14945(2004)，Bibillo和Eickbush，J Mol Biol 316，459(2002))。

实施例8：在预切割的DNA构建体上的第二链合成

尽管当4向连接中不存在上游DNA时，引物模板会从蛋白质-DNA复合物中释放出来，但人们可能会认为在包含完整靶序列的连接中，这不会在体内发生。这种信念部分是因为认为下游亚基进行了第二链合成(Christensen和Eickbush，Mol Cell Biol 25，6617(2005))。不幸的是，在体外测试时，具有完整靶序列的连接不能很好地切割(图4C和4D)，并且第二链合成低于检测水平。由于这个原因，产生了第二链切割后类似物。为了使第二链切割产物系在一起，R2 3′和5′端的“RNA”共价连接，尽管为了方便起见，使用DNA代替RNA。上游的含有28S DNA的第二链切割产物能够以栓系构型进行引物延伸(即第二链合成)。5′端cDNA链用作模板(图6A)。

为了确定哪个R2蛋白质亚基用于第二链合成，测试了线性第二链切割后产物(图6B，复合物iv和v)和栓系(图6B，复合物i和iii)第二链切割后产物进行第二链合成的相对能力(图6C)。结果与负责第二链切割的结合于四向连接的亚基是一致的。复合物iii是用于第二链合成的最有效底物，而复合物是效率最低的底物。

实施例9：HINALP和CCHC基序的核心残基中的突变影响靶DNA的结合并导致DNA切割特异性的丧失

材料和方法

突变

为了研究接头区域的推定的α-指(HINALP基序区域)和锌关节(CCHC基序区域)的作用，产生了许多双点突变体(图8B)。推定的α-指区域中的突变包括GR/AD/A，VH/ATH/A，H/AIN/ALP，SR/AIR/A和SR/AGR/A。与野生型(WT)蛋白质相比，H/AIN/AALP和SR/AIR/A突变导致回收的可溶性蛋白质减少。VH/ATH/A突变不产生可溶性蛋白，因此被从研究中退出。锌关节区域的突变为C/SC/SHC，CR/AAGCK/A，E/AT/AT，HILQ/AQ/A和RT/AH/A(图8B)。与野生型(WT)蛋白质相比，C/SC/SHC突变导致回收的可溶性蛋白质大大减少。E/AT/AT突变不产生可用数量的蛋白质，因此被从研究中退出。

蛋白质和核酸制备

如先前公开的那样表达和纯化蛋白质(Govindaraju等，Nucleic Acids Res.44，3276-3287(2016))。使用QuikChange定点诱变试剂盒(Stratagene#200523-5)生成GR/AD/A，SR/AIR/A，SR/AGR/A，H/AIN/ALP，C/SC/SHC，CR/AAGCK/A，HILQ/AQ/A和RT/AH/A突变体。如先前所发表的(Govindaraju等，Nucleic Acids Res.44，3276-3287(2016))那样制备5′PBM(320nt)，3'PBM(249nt)，线性靶DNA和4向连接。

R2Bm反应和分析

如先前报道的那样(Govindaraju等，Nucleic Acids Res.44，3276-3287(2016))进行DNA结合、第一链和第二链切割以及第一链和第二链合成反应。

对于DNA结合测定，制备并等分了含有除蛋白质以外的所有成分的主混合物。通过在数据集中测试的所有蛋白质中以已知且均等的浓度添加3ul蛋白质来启动结合反应。为每个数据集准备了一式两份的反应，并生成了两个不同的数据集，每个数据集的蛋白质浓度不同。WT和WT KPD/A蛋白分别充当内切核酸酶活性和内切核酸酶缺陷型突变的结合活性参考和阳性对照。

对于DNA切割分析，制备并等分了包含除了蛋白质和DNA以外的所有成分的主混合物。来自蛋白质稀释系列的蛋白质在添加靶DNA开始切割反应之前，在37℃下与RNA结合5分钟。将反应在37℃下温育30分钟。将反应物保持在冰上，然后在5％天然(1X Tris-硼酸盐-EDTA)聚丙烯酰胺凝胶和变性(8M尿素)7％聚丙烯酰胺凝胶上运行。

第一和第二链合成反应在主混合物中包含标记的靶DNA以及蛋白质以外的所有其他成分。使用预切割的线性DNA，以便可以检测DNA切割缺陷的突变体以及具有正常切割能力的突变体。第二链合成测定的靶DNA底物是在第二条链上预切割的四向连接DNA，在第2章中进行了描述。类似于切割测定，通过天然和变性聚丙烯酰胺凝胶分析反应。

将所有凝胶干燥并使用磷光成像仪(Molecular dynamics STORM 840)和FIJI(Schindelin等，Nat.Methods(2012).doi：10.1038/nmeth.2019.Fiji)进行定量。

结果

在HINALP区域中创建了四个双点突变体，在锌关节区域中创建了四个双点突变体。H/AIN/AALP和C/SC/SHC突变体似乎具有几乎相同的表型。两组突变都严重损害了DNA与线性DNA的结合以及在EMSA凝胶中在线性DNA上形成正确的DNA-RNA-蛋白质复合物的能力(图9A-9B)。仅观察到孔复合体和从孔向下通向游离DNA的弥散成片条带(图9A-9B)。对于上游结合条件(即，存在3′PBM RNA)和下游结合条件(即，存在5′PBM RNA)该观察都是如此。锌关节基序的半胱氨酸和组氨酸残基是推定的锌配位残基。C/SC/SHC突变可能会促进接头的局部错误折叠。H/AIN/AALP突变也可能影响接头的折叠。

在存在3′PBM RNA的情况下，H/AIN/AALP和C/SC/SHC突变体在插入位点几乎没有或没有第一条链切割。在存在5′PBM RNA的情况下，第二链DNA切割也被消除。在靶DNA的两条链上的异常位点观察到大量的混杂切割，而不是位点特异性的DNA切割。

实施例10：推定的α-指的突变影响DNA结合，特别是与特异性分支整合中间体类似物的结合

为了更好地确定推定的α-指是否参与将蛋白质固定到上游和/或下游靶DNA序列，测试了核心HANALP基序周围的突变。测试了GR/AD/A，SR/AIR/A和SR/AGR/A突变体在3′PBMRNA和5′PBM RNA存在下结合线性靶标的能力。使用了两个阳性对照，即WT R2蛋白质和R2蛋白质，其中RLE的催化残基突变为丙氨酸(KPD/A)，以敲除DNA切割但不敲除DNA结合，从而使适当控制影响或不影响DNA切割的α-指突变(参见下一章节)。相对于对照R2蛋白质，突变体的DNA结合能力使用电泳迁移率变动分析(EMSA)进行了测定(图10A-10B)。加载一式两份的泳道并运行一式两份的结合反应。载体对照提取物和无蛋白泳道用作阴性对照泳道。

上游靶标DNA结合被GR/AD/A突变中等程度降低(24％)，并被SR/AIR/A突变轻度降低(13％)。但是，SR/AGR/A突变体将上游靶DNA结合活性显著提高达32％(图10A-10B)。GR/AD/A和SR/AGR/A突变体的下游靶DNA结合活性与WT活性相似，仅轻度降低约13％。SR/AIR/A突变使结合降低19-28％。这三个突变体似乎都不会影响蛋白质-RNA-DNA复合物的迁移模式太多(如果影响的话)，尽管对于SR/AIR/A突变体，观察到更多的孔复合物形成(图10A-10B)。在不存在RNA的情况下，突变体结合线性靶DNA的能力示于图10D中。

还测试了突变体结合四向连接整合中间体的能力。四向连接模拟了模板跳跃步骤后28S rDNA所采用的分支结构，并包含28Sd rDNA序列(北臂)，非特异性序列(西臂)，R2 5′端RNA-DNA双链体(南臂)和R2 3′端RNA-DNA双链体(东臂)(图10C)(也请参见实施例1-8)。在西臂5′端的顶链上对四向连接DNA进行了放射性标记。在不存在RNA的情况下，将连接DNA与R2蛋白质一起孵育，并在EMSA凝胶中运行等分试样(图10C)。如上所述的定量后，显示两个突变体具有显著降低的R2蛋白质结合四向连接的能力，SR/AIR/A降低了63％，SR/AGR/A降低了48％，而GR/AD/A突变体的结合活性与WT活性相当，仅表现出12％的轻度降低。

实施例11：推定的α-指的突变降低了第一链DNA切割

分析了GR/AD/A，SR/AIR/A和SR/AGR/A突变体执行第一链DNA切割的能力。将R2蛋白预先结合到3′PBM，然后与靶DNA孵育。使用了蛋白质滴定系列(七个1：3的蛋白质稀释度)。将每个反应的等分试样在EMSA凝胶和变性(8M尿素)聚丙烯酰胺凝胶上运行。靶DNA在底链的5'端(即28S反义链)被³²P标记，从而可以在变性凝胶中追踪该链的切割。

在EMSA凝胶中较高的蛋白质浓度泳道(前两个)处，对于WT、GR/AD/A和SR/AGR/A突变体，观察到了与不存在RNA的情况对应的蛋白质-DNA复合物，因为RNA浓度已经保持恒定，当蛋白质与RNA浓度接近相等时，DNA复合物与蛋白质-RNA-DNA复合物一起出现，然后一切都陷在孔中。与野生型相比，该突变似乎并未极大地影响蛋白质-RNA-DNA复合物的迁移模式。将每个突变体的切割活性报告为由尿素变性凝胶计算的切割DNA(f切割)的级分作为从EMSA凝胶计算的结合的(f结合)DNA的级分的函数的散点图。GR/AD/A突变体不会影响R2蛋白质的第一链切割活性，但是SR/AIR/A和SR/AGR/A突变体会显著降低结合蛋白进行第一链DNA切割的能力(图11)。对于WT或突变体均未观察到超出R2切割位点的切割。

实施例12：推定的α-指中的突变减少了第一链cDNA合成

为了研究HINALP区是否影响TPRT(第一链DNA合成)，在存在3′PBM RNA和dNTP的情况下，将在第一/底链插入位点上带有切开的预切割的靶DNA与R2蛋白质一起孵育(图12A)。在底链的5′端对靶DNA进行放射性标记，以追踪TPRT产物的形成。在EMSA和变性聚丙烯酰胺凝胶上分析了整个蛋白滴定系列的反应等分试样。图12B报道了经历了TPRT的靶DNA的级分(f合成)作为R2蛋白质结合的靶DNA的级分(f结合)的函数图。GR/AD/A和SR/AIR/A突变体完全消除了TPRT活性，而SR/AGR/A突变体使第一链合成活性降低了约50％(图12B)。

实施例13：推定的α-指的突变影响第二链DNA切割

为了确定GR/AD/A，SR/AIR/A和SR/AGR/A突变体在第二链切割中的作用，进行了两种不同的切割测定：(1)在存在5′PBM RNA的情况下，在线性靶DNA上，以及(2)在不存在RNA的情况下，在4向连接DNA上切割。在线性DNA上，在存在5′PBM RNA的情况下，R2蛋白质结合到插入位点的下游，但仅在RNA从复合物中解离后才切割。在整个蛋白质滴定系列中，解离随着RNA与蛋白质的比率下降(RNA保持恒定)而发生(Christensen等，Proc.Natl.Acad.Sci.U.S.A.103，17602–17607(2006))。在EMSA凝胶中，突变体的蛋白质-RNA-DNA复合物的迁移模式与野生型相似，但是，SR/AIR/A和SR/AGR/A突变体不存在对应于位于主要蛋白质-RNA-DNA复合物正下方的第二链切割产物的条带。在变性凝胶中，对于SR/AIR/A和SR/AGR/A突变体看不到第二链切割产物的信号。对于任何突变体均未观察到非特异性切割。尽管GR/AD/A显示出WT活性，但SR/AIR/A和SR/AGR/A突变体敲除了R2蛋白质的内切核酸酶活性，从而在线性靶DNA上进行了第二链切割(图13A)。

如上所述，还使用4向连接整合中间体测试了第二链的切割活性(图13B)。认为当蛋白质处于“无RNA”结合状态且DNA切割的适当底物是由模板跳跃形成的4向连接中间体时，就会发生第二链DNA切割。所用的连接DNA的示意图显示在图10C中。在西臂的5′端对连接DNA进行了放射性标记，以追踪28S DNA顶链的切割。如先前的靶DNA切割测定中所示，但是在不存在RNA的情况下，测试了突变体相对于WT的切割活性。SR/AIR/A和SR/AGR/A突变体完全敲除了在四向连接DNA上切割第二链的内切核酸酶活性，而GR/AD/A突变体显示出了WT切割活性或更好，如散点图所示(图13B)。

实施例14：推定的α-指的突变影响第二链合成

除了测试HINALP突变体的第二链切割活性外，还对相同的突变体进行了设计用于测试第二链DNA合成活性的实验。由于DNA切割效率不高，因此使用了预切割的DNA，并且在DNA切割后，由于上游和下游端在体外分开，因此两端通过东臂和南臂之间的共价键连接保持在一起(即，R25′端序列和R2 3′端序列)(参见图14A-14B中的示意图)(也参见实施例1-8)。第二链切割后类似物是在先前的研究中开发并报道的。使用该构建体测试了HINALP突变体的第二链DNA合成活性(图14C)。放射标记了西臂的5′端，以使新合成的第二链在变性凝胶中可视化(在图14A-14B中用黑色星形表示)。图14C中所示的图是从EMSA和变性凝胶获得的，如先前针对第一链合成测定所述。除了在最高蛋白质浓度下，GR/AD/A突变体的作用似乎更像WT，第二链合成的数量减少了。SR/AIR/A突变体看起来更像WT，直到约40％的靶DNA被蛋白质结合，但是随着蛋白质浓度的增加，第二链合成显著下降。SR/AGR/A突变体极大地降低了R2蛋白质合成第二链的能力，如图14C所示。

实施例15：锌关节区域中的突变残基影响靶DNA切割和第二链合成

尽管C/SC/SHC突变体显示可影响靶DNA的结合和切割，但在该区域另外三个双点突变体：CR/AAGCK/A，HILQ/AQ/A和RT/AH/A的帮助下，进一步研究了CCHC区域的作用(图8B)。如前所述，分析了突变体的DNA切割和新链合成活性。

所有这三个突变体仅略微降低了R2蛋白质在插入位点切割第一链的能力(图15A)，并且它们似乎对TPRT的第一条链合成活性没有任何影响(图15B)。尽管CR/AAGCK/A，HILQ/AQ/A和RT/AH/A突变体在第一链切割和合成中几乎是野生型，但至少有两个突变体HILQ/AQ/A和RT/AH/A显著废除在线性DNA上的第二链链切割活性(图15D)。除了在插入位点的第二链切割活性降低之外，还发现RT/AH/A突变体的内切核酸酶在线性靶标顶链的附近位点切割。还使用四向连接靶DNA测试了突变体的第二链切割活性，但是，所有三个突变体均显示出WT活性(图15C)。再一次，RT/AH/A突变体的内切核酸酶在非R2特异性位点显示出额外的切割。

如图14所示，对三个CCHC区突变体进行了预先产生切口的四向连接DNA的第二链合成测定，如之前对HINALP区域突变体所述的。对于CR/AAGCK/A，靶DNA每结合单位的第二链合成产物形成与野生型的非常相似，但是对于HILQ/AQ/A和RT/AH/A，第二链合成产物的形成大大减少，如图16所示。

不适用(N.A.)，未检测(N.T.)

“++”：+30％和以上

“+”：+15％至30％

“WT”：WT活性的15％至-15％：功能性WT

“-”：-15％至-30％：轻度降低

“--”：-30％至-50％：大部分降低

“---”：-50％至75％：严重降低

：75％和以上：功能性死亡

除非另有限定，否则本文所使用的所有技术和科学术语具有与所公开的发明所属领域的技术人员通常所理解的相同含义。本文所引用的出版物及其所引用的材料通过引用特别并入到本文中。

仅通过常规实验，本领域技术人员将认识到或能够确定本文所述的本发明的具体实施方案的许多等同方案。这样的等同方案旨在由所附权利要求书涵盖。

Claims

1.RNA成分，其包含DNA靶向序列，一个或多个蛋白质结合基序(PBM)以及待整合到DNA靶位点中的目标核酸序列，其中所述DNA靶向序列，蛋白质结合基序和目标序列可操作地连接，使得它们能够与源自亲本长散在(LINE)元件蛋白质的蛋白质成分结合并逆转录成cDNA，所述cDNA能够在DNA靶位点整合到DNA中。

2.根据权利要求1所述的RNA成分，其中所述蛋白质成分包含RNA结合结构域、接头结构域、逆转录酶、DNA内切核酸酶中的一个或多个，其中所述一个或多个蛋白质结合基序将所述RNA成分结合至所述蛋白质成分的所述RNA结合结构域、接头结构域、逆转录酶、DNA内切核酸酶或其组合。

3.根据权利要求1或2所述的RNA成分，

其中所述RNA成分包含来自或衍生自亲本LINE或SINE骨架的元件，并且所述RNA成分的目标核酸序列与LINE或SINE异源；

其中所述蛋白质成分包含来自或衍生自亲本LINE的元件；或

其组合。

4.根据权利要求1-3中任一项所述的RNA成分，其中所述DNA靶向序列与所述亲本LINE或SINE是异源的。

5.根据权利要求1-4中任一项所述的RNA成分，其中所述目标序列编码基因、基因的片段或功能性核酸。

6.根据权利要求1-5中任一项所述的RNA成分，其包含来自或衍生自亲本LINE或SINE元件的3'PBM序列。

7.根据权利要求1-6中任一项所述的RNA成分，其包含CRISPR/Cas示踪序列、CRISPR/Cas引导序列或其组合。

8.根据权利要求1-7中任一项所述的RNA成分，其包含来自或衍生自亲本LINE或SINE元件的5'PBM序列。

9.根据权利要求8所述的RNA成分，其中所述5′PBM包含非功能性IRES序列。

10.根据权利要求1-9中任一项所述的RNA成分，其进一步包含核酶。

11.根据权利要求10所述的RNA成分，其中所述核酶是丁型肝炎病毒样核酶。

12.根据权利要求2-10中任一项所述的RNA成分，其中所述亲本LINE或SINE是限制样内切核酸酶(RLE)LINE。

13.根据权利要求10所述的RNA成分，其中RLE LINE是R2 LINE。

14.根据权利要求3-13中任一项所述的RNA成分，其中所述RNA成分的亲本LINE或SINE骨架与所述蛋白成分的亲本LINE骨架是相同的LINE和/或所述SINE源自LINE的祖先或是LINE的祖先。

15.蛋白质成分，其包含DNA结合结构域、RNA结合结构域、逆转录酶、接头结构域和内切核酸酶，其中所述DNA结合结构域、RNA结合结构域、逆转录酶、接头结构域和内切核酸酶可操作地连接，使得它们可以在DNA靶位点与RNA成分和DNA结合，并促进RNA成分逆转录成cDNA，和cDNA在DNA靶位点整合到DNA中。

16.根据权利要求15所述的蛋白质成分，其中所述RNA成分包含DNA靶向序列，一个或多个蛋白质结合基序以及待整合到所述DNA靶位点的目标核酸序列。

17.根据权利要求15或16所述的蛋白质成分，其中所述RNA成分包含来自或衍生自亲本LINE或SINE骨架的元件，并且所述RNA成分的目标核酸序列与所述LINE或SINE异源；

其中所述蛋白质成分包含来自或衍生自亲本LINE的元件；或

其组合。

18.根据权利要求15-17中任一项所述的蛋白质成分，其中所述DNA结合结构域相对于亲本LINE DNA结合结构域是突变的。

19.根据权利要求15-17中任一项所述的蛋白质成分，其中所述DNA结合结构域由相对于亲本LINE DNA结合结构域的备选DNA结合结构域取代。

20.根据根据权利要求19所述的蛋白质成分，其中所述DNA结合结构域是来自另一DNA结合蛋白质的DNA结合结构域。

21.根据权利要求19或20所述的蛋白质成分，其中所述DNA结合结构域包含以下一种或多种：螺旋-转角-螺旋，锌指，亮氨酸拉链，翼状螺旋，翼状螺旋-转角-螺旋，螺旋-环-螺旋，HMG-盒，Wor3结构域，OB折叠结构域，免疫球蛋白折叠，B3结构域，TAL效应子或RNA导向结构域。

22.根据权利要求15至22中任一项所述的蛋白质成分，其中所述RNA结合结构域、逆转录酶、接头结构域和内切核酸酶中的一个或多个的序列与所述亲本LINE元件蛋白质的序列相同，或被突变以改善RNA成分相对于亲本LINE元件蛋白质的结合或酶促活性。

23.根据权利要求17-22中任一项所述的蛋白质成分，其中所述亲本LINE或SINE是限制样内切核酸酶(RLE)LINE。

24.根据权利要求23所述的蛋白质成分，其中所述RLE LINE是R2LINE。

25.根据权利要求17至24中任一项所述的蛋白成分，其中所述RNA成分的亲本LINE或SINE骨架和所述蛋白质成分的亲本LINE骨架是相同的LINE和/或所述SINE源自LINE的祖先或是LINE的祖先。

26.载体，其编码根据权利要求1-14中任一项所述的RNA成分。

27.载体，其编码根据权利要求15-25中任一项所述的蛋白质成分。

28.工程化转座子，其包含根据权利要求1-14中任一项的RNA成分和根据权利要求15-25中任一项所述的蛋白质成分。

29.根据权利要求28所述的转座子，其中在整合反应期间在所述DNA靶位点形成生产性的4向连接。

30.药物组合物，其包含根据权利要求1-14中任一项所述的RNA成分，根据权利要求15-25中任一项所述的蛋白质成分，根据权利要求26所述的载体，根据权利要求27所述的载体，根据权利要求28或29所述的工程化转座子，或其任何组合。

31.将目标核酸序列引入一个或多个细胞的基因组中的方法，包括使所述一个或多个细胞接触(i)根据权利要求1-14中任一项所述的RNA成分或根据权利要求26所述的载体与根据权利要求15-25中任一项所述的蛋白质成分或根据权利要求17所述的载体的组合；或(ii)根据权利要求28或29所述的工程化转座子。

32.根据权利要求31所述的方法，其中所述细胞在体外接触。

33.根据权利要求32所述的方法，其中，所述细胞随后被引入受试者。

34.根据权利要求31所述的方法，其中所述细胞在体内接触。

35.根据权利要求31-34中任一项所述的方法，其中所述目标核酸序列在所述细胞中的表达改善了疾病或病症的一种或多种症状，或改善了疾病或病症潜在的分子途径。

36.根据权利要求35所述的方法，其中对有效数量的细胞进行修饰以治疗需要其的受试者。