CN118119704A

CN118119704A - 用于转座货物核苷酸序列的系统和方法

Info

Publication number: CN118119704A
Application number: CN202280060459.3A
Authority: CN
Inventors: 布莱恩·C·托马斯; 克利斯多佛·布朗; 丹妮拉·S·A·戈尔茨曼; 莎拉·拉佩里埃; 辛迪·卡斯泰勒; 利萨·亚历山大; 玛丽·凯特琳·赵; 莫拉伊玛·特莫彻-迪亚兹; 安努·托马斯
Original assignee: Macrogenomics
Current assignee: Macrogenomics
Priority date: 2021-09-08
Filing date: 2022-09-07
Publication date: 2024-05-31
Also published as: EP4399286A1; WO2023039434A1

Abstract

本公开提供了用于将货物核苷酸序列转座至靶核酸位点的系统和方法。这些系统和方法可以包括：第一双链核酸，所述第一双链核酸包括所述货物核苷酸序列，其中所述货物核苷酸序列被配置成与逆转录转座酶相互作用；以及所述逆转录转座酶，其中所述逆转录转座酶被配置成将所述货物核苷酸序列转座至所述靶核酸位点。

Description

用于转座货物核苷酸序列的系统和方法

相关申请交叉引用

本申请要求于2021年9月8日提交的标题为“用于转座货物核苷酸序列的系统和方法(SYSTEMS AND METHODS FOR TRNAPOSING CARGO NUCLEOTIDE SEQUENCES)”的美国临时申请第63/241,954号的权益，所述文献通过引用以其整体并入本文。

背景技术

可转座元件是在基因功能和进化中起关键作用的可移动DNA序列。虽然在几乎所有形式的生命中都发现可转座元件，但其流行率在生物体之间变化，其中大部分真核基因组编码可转座元件(在人类中至少45％)。

发明内容

虽然在20世纪40年代对可转座元件进行了基础研究，但其在DNA操纵和基因编辑应用中的潜在效用直到最近几年才被认识到。

在一些方面，本公开提供了一种经工程化的逆转录转座酶系统，所述经工程化的逆转录转座酶系统包括：(a)双链核酸，所述双链核酸包括货物核苷酸序列，其中所述货物核苷酸序列被配置成与逆转录转座酶相互作用；以及(b)逆转录转座酶，其中：(i)所述逆转录转座酶被配置成将所述货物核苷酸序列转座至靶核酸基因座；并且(ii)所述逆转录转座酶源自未培养的微生物。在一些实施例中，所述逆转录转座酶包括与SEQ ID NO:1-16中的任一者具有至少75％序列同一性的序列。在一些实施例中，所述逆转录转座酶包括逆转录酶结构域。在一些实施例中，所述逆转录转座酶进一步包括一个或多个锌指结构域。在一些实施例中，所述逆转录转座酶进一步包括核酸内切酶结构域。在一些实施例中，所述逆转录转座酶与已知逆转录转座酶具有小于80％序列同一性。在一些实施例中，所述货物核苷酸序列侧接3'非翻译区(UTR)和5'非翻译区(UTR)。在一些实施例中，所述逆转录转座酶被配置成通过核糖核酸多核苷酸中间体转座所述货物核苷酸序列。在一些实施例中，所述逆转录转座酶包括邻近所述逆转录转座酶的N末端或C末端的一个或多个核定位序列(NLS)。在一些实施例中，所述NLS包括与来自由SEQ ID NO:17-32组成的组的序列至少80％相同的序列。在一些实施例中，所述序列同一性是通过BLASTP、CLUSTALW、MUSCLE、MAFFT或CLUSTALW使用史密斯-沃特曼同源性搜索算法(Smith-Waterman homology search algorithm)的参数来确定的。在一些实施例中，所述序列同一性是通过所述BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在11，扩展为1并且使用条件组成评分矩阵调整来确定的。

在一些方面，本公开提供了一种经工程化的逆转录转座酶系统，所述经工程化的逆转录转座酶系统包括：(a)双链核酸，所述双链核酸包括货物核苷酸序列，其中所述货物核苷酸序列被配置成与逆转录转座酶相互作用；以及(b)逆转录转座酶，其中：(i)所述逆转录转座酶被配置成将所述货物核苷酸序列转座至靶核酸基因座；并且(ii)所述逆转录转座酶包括与SEQ ID NO:1-16中的任一者具有至少75％序列同一性的序列。在一些实施例中，所述逆转录转座酶源自未培养的微生物。在一些实施例中，所述逆转录转座酶包括逆转录酶结构域。在一些实施例中，所述逆转录转座酶进一步包括一个或多个锌指结构域。在一些实施例中，所述逆转录转座酶进一步包括核酸内切酶结构域。在一些实施例中，所述逆转录转座酶与已知逆转录转座酶具有小于80％序列同一性。在一些实施例中，所述货物核苷酸序列侧接3'非翻译区(UTR)和5'非翻译区(UTR)。在一些实施例中，所述逆转录转座酶被配置成通过核糖核酸多核苷酸中间体转座所述货物核苷酸序列。在一些实施例中，所述序列同一性是通过BLASTP、CLUSTALW、MUSCLE、MAFFT或CLUSTALW使用史密斯-沃特曼同源性搜索算法的参数来确定的。在一些实施例中，所述序列同一性是通过所述BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在11，扩展为1并且使用条件组成评分矩阵调整来确定的。

在一些方面，本公开提供了一种脱氧核糖核酸多核苷酸，所述脱氧核糖核酸多核苷酸编码本文所描述的各方面或实施例的任一方面和实施例的所述经工程化的逆转录转座酶系统。

在一些方面，本公开提供了一种核酸，所述核酸包括为在生物体中表达而优化的经工程化的核酸序列，其中所述核酸编码逆转录转座酶，并且其中所述逆转录转座酶源自未培养的微生物，其中所述生物体不是所述未培养的微生物。在一些实施例中，所述逆转录转座酶包括与SEQ ID NO:1-16中的任一者具有至少75％序列同一性的变体。在一些实施例中，所述逆转录转座酶包括编码邻近所述逆转录转座酶的N末端或C末端的一个或多个核定位序列(NLS)的序列。在一些实施例中，所述NLS包括选自SEQ ID NO:17-32的序列。在一些实施例中，所述NLS包括SEQ ID NO:18。在一些实施例中，所述NLS邻近所述逆转录转座酶的所述N末端。在一些实施例中，所述NLS包括SEQ ID NO:17。在一些实施例中，所述NLS邻近所述逆转录转座酶的所述C末端。在一些实施例中，所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿动物或人。

在一些方面，本公开提供了一种载体，所述载体包括本文所描述的各方面或实施例中的任一方面或实施例的所述核酸。在一些实施例中，所述方法进一步包括编码货物核苷酸序列的核酸，所述货物核苷酸序列被配置成与所述逆转录转座酶形成复合物。在一些实施例中，所述载体是质粒、微环、CELiD、腺相关病毒(AAV)源性病毒体或慢病毒。

在一些方面，本公开提供了一种细胞，所述细胞包括本文所描述的各方面或实施例中的任一方面或实施例中的任一方面或实施例的所述载体。

在一些方面，本公开提供了一种产生逆转录转座酶的方法，所述方法包括培养本文所描述的各方面或实施例中的任一方面或实施例的所述细胞。

在一些方面，本公开提供了一种用于结合、切刻、切割、标记、修饰或转座双链脱氧核糖核酸多核苷酸的方法，所述方法包括：(a)使所述双链脱氧核糖核酸多核苷酸与逆转录转座酶接触，所述逆转录转座酶被配置成将所述货物核苷酸序列转座至靶核酸基因座；并且(b)其中所述逆转录转座酶包括与SEQ ID NO:1-16中的任一者具有至少75％序列同一性的序列。在一些实施例中，所述逆转录转座酶源自未培养的微生物。在一些实施例中，所述逆转录转座酶包括逆转录酶结构域。在一些实施例中，所述逆转录转座酶进一步包括一个或多个锌指结构域。在一些实施例中，所述逆转录转座酶进一步包括核酸内切酶结构域。在一些实施例中，所述逆转录转座酶与已知逆转录转座酶具有小于80％序列同一性。在一些实施例中，所述货物核苷酸序列侧接3'非翻译区(UTR)和5'非翻译区(UTR)。在一些实施例中，所述双链脱氧核糖核酸多核苷酸通过核糖核酸多核苷酸中间体转座。在一些实施例中，所述双链脱氧核糖核酸多核苷酸是真核生物、植物、真菌、哺乳动物、啮齿动物或人双链脱氧核糖核酸多核苷酸。

在一些方面，本公开提供了一种修饰靶核酸基因座的方法，所述方法包括向所述靶核酸基因座递送本文所描述的各方面或实施例中的任一方面或实施例的所述经工程化的逆转录转座酶系统，其中所述逆转录转座酶被配置成将所述货物核苷酸序列转座至所述靶核酸基因座，并且其中所述复合物被配置成使得在所述复合物与所述靶核酸基因座结合时，所述复合物修饰所述靶核酸基因座。在一些实施例中，所述靶核酸基因座包括结合、切刻、切割、标记、修饰或转座所述靶核酸基因座。在一些实施例中，所述靶核酸基因座包括脱氧核糖核酸(DNA)。在一些实施例中，所述靶核酸基因座包括基因组DNA、病毒DNA或细菌DNA。在一些实施例中，所述靶核酸基因座在体外。在一些实施例中，所述靶核酸基因座在细胞内。在一些实施例中，所述细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞、人细胞或原代细胞。在一些实施例中，所述细胞是原代细胞。在一些实施例中，所述原代细胞是T细胞。在一些实施例中，所述原代细胞是造血干细胞(HSC)。在一些实施例中，将所述经工程化的逆转录转座酶系统递送至所述靶核酸基因座包括递送本文所描述的各方面或实施例中的任一方面或实施例的核酸或本文所描述的各方面或实施例中的任一方面或实施例的载体。在一些实施例中，将所述经工程化的逆转录转座酶系统递送至所述靶核酸基因座包括递送包括编码所述逆转录转座酶的开放阅读框的核酸。在一些实施例中，所述核酸包括与编码所述逆转录转座酶的所述开放阅读框可操作地连接的启动子。在一些实施例中，将所述经工程化的逆转录转座酶系统递送至所述靶核酸基因座包括递送含有编码所述逆转录转座酶的所述开放阅读框的加帽mRNA。在一些实施例中，将所述经工程化的逆转录转座酶系统递送至所述靶核酸基因座包括递送翻译的多肽。在一些实施例中，所述逆转录转座酶不在所述靶核酸基因座处或附近诱导断裂。

在一些方面，本公开提供了一种宿主细胞，所述宿主细胞包括编码与SEQ ID NO:1-16中的任一者或其变体具有至少75％序列同一性的异源性逆转录转座酶的开放阅读框。在一些实施例中，所述宿主细胞是大肠杆菌细胞。在一些实施例中，所述大肠杆菌细胞是λDE3溶素原，或者所述大肠杆菌细胞是BL21(DE3)菌株。在一些实施例中，所述大肠杆菌细胞具有ompT lon基因型。在一些实施例中，所述开放阅读框与以下可操作地连接：T7启动子序列、T7-lac启动子序列、lac启动子序列、tac启动子序列、trc启动子序列、ParaBAD启动子序列、PrhaBAD启动子序列、T5启动子序列、cspA启动子序列、araP_BAD启动子、来自噬菌体λ的强向左启动子(pL启动子)或其任何组合。在一些实施例中，所述开放阅读框包括编码与编码所述逆转录转座酶的序列框内连接的亲和标签的序列。在一些实施例中，所述亲和标签是固定化金属亲和色谱法(IMAC)标签。在一些实施例中，所述IMAC标签是聚组氨酸标签。在一些实施例中，所述亲和标签是myc标签、人流感血凝素(HA)标签、麦芽糖结合蛋白(MBP)标签、谷胱甘肽S-转移酶(GST)标签、链霉亲和素标签、FLAG标签或其任何组合。在一些实施例中，所述亲和标签通过编码蛋白酶切割位点的连接子序列与编码所述逆转录转座酶的所述序列框内连接。在一些实施例中，所述蛋白酶切割位点是烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。在一些实施例中，所述开放阅读框经密码子优化以在所述宿主细胞中表达。在一些实施例中，所述开放阅读框在载体上提供。在一些实施例中，所述开放阅读框被整合到所述宿主细胞的基因组中。

在一些方面，本公开提供了一种培养物，所述培养物包括在相容性液体培养基中的本文所描述的各方面或实施例中的任一方面或实施例的宿主细胞。

在一些方面，本公开提供了一种产生逆转录转座酶的方法，所述方法包括在相容性生长培养基中培养本文所描述的各方面或实施例中的任一方面或实施例的宿主细胞。在一些实施例中，所述方法进一步包括通过添加另外的化学剂或增加量的营养物来诱导所述逆转录转座酶的表达。在一些实施例中，所述另外的化学剂或增加量的营养物包括异丙基β-D-1-硫代半乳糖苷(IPTG)或另外量的乳糖。在一些实施例中，所述方法进一步包括在所述培养之后分离所述宿主细胞，并且裂解所述宿主细胞以产生蛋白提取物。在一些实施例中，所述方法进一步包括使所述蛋白提取物经受IMAC或离子亲和色谱法。在一些实施例中，所述开放阅读框包括编码与编码所述逆转录转座酶的序列框内连接的IMAC亲和标签的序列。在一些实施例中，所述IMAC亲和标签通过编码蛋白酶切割位点的连接子序列与编码所述逆转录转座酶的所述序列框内连接。在一些实施例中，所述蛋白酶切割位点包括烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。在一些实施例中，所述方法进一步包括通过使与所述蛋白酶切割位点相对应的蛋白酶与所述逆转录转座酶接触来切割所述IMAC亲和标签。在一些实施例中，所述方法进一步包括执行减材IMAC亲和色谱法以从包括所述逆转录转座酶的组合物去除所述亲和标签。

在一些方面，本公开提供了一种破坏细胞中的基因座的方法，所述方法包括使包括以下的组合物与所述细胞接触：(a)双链核酸，所述双链核酸包括货物核苷酸序列，其中所述货物核苷酸序列被配置成与逆转录转座酶相互作用；以及(b)逆转录转座酶，其中：(i)所述逆转录转座酶被配置成将所述货物核苷酸序列转座至靶核酸基因座；(ii)所述逆转录转座酶包括与SEQ ID NO:1-16中的任一者具有至少75％序列同一性的序列；并且(iii)所述逆转录转座酶与细胞中的已知逆转录转座酶具有至少等同的转座活性。在一些实施例中，通过将所述逆转录转座酶引入包括所述靶核酸基因座的细胞并检测所述细胞中的所述靶核酸基因座的转座来体外测量所述转座活性。在一些实施例中，所述组合物包括20皮摩尔或更少的所述逆转录转座酶。在一些实施例中，所述组合物包括1pmol或更少的所述逆转录转座酶。

对于本领域技术人员而言，通过以下具体实施方式，本公开的另外的方面和优点将变得显而易见，其中仅示出和描述了本公开的说明性实施例。如将认识到，本公开能够具有其它不同的实施例，并且其若干细节能够在各种明显的方面进行修改，所有这些都不脱离本公开。因此，附图和说明书本质上被视为是说明性的而非限制性的。

通过引用并入

本说明书中所提到的所有公开、专利和专利申请均通过相同的程度引用结合在此，如同特定且单独地指示每个单独的公开、专利或专利申请是通过引用并入的。

附图说明

本发明的新颖特征在所附权利要求书中具体阐述。通过参考阐述了说明性实施例的以下详细说明，将获得对本发明的特征和优点的更好理解，在所述实施例中利用了本发明的原理，并且在其附图中：

图1描绘了细菌逆转录转座子的基因组背景。MG140-34是编码逆转录酶结构域的预测逆转录转座酶(箭头)。侧接逆转录转座酶的区表现出可能表示逆转录转座酶的结合位点的二级结构(二级结构框和放大图像)。

图2A和2B描绘了家族MG140的MG逆转录转座酶蛋白序列的多序列比对(MSA)。图2A描绘了逆转录酶结构域的MSA。保守的催化残基D、QG、[Y/F]ADD和LG在共有序列上突出显示。图2B描绘了Zn指和核酸内切酶催化残基的MSA。Zn指基序(CX[2-3]C)和核酸酶催化残基在共有序列上突出显示。

图3A和3B描绘了MG和参考逆转录转座酶基因的系统发育基因树。图3A描绘了微生物MG逆转录转座酶(进化枝4上的黑色分支)与真核的相关性比病毒逆转录转座酶(进化枝6上的灰色分支)与真核的相关性更紧密。进化枝1：端粒酶逆转录酶；进化枝2：II组内含子逆转录酶；进化枝3：真核R1型逆转录转座酶；进化枝4：微生物和真核R2逆转录转座酶；进化枝5：真核逆转录病毒相关逆转录酶；以及进化枝6：病毒逆转录酶。图3B描绘了来自(A)的系统发育基因树的进化枝3和4。一些微生物MG逆转录转座酶含有多个Zn指基序(竖直矩形)、保守的RVT_1逆转录酶结构域和APE/RLE或其它核酸内切酶结构域(上图和下图)。一些微生物MG逆转录转座酶缺乏核酸内切酶结构域(中图)。

图4描绘了根据来自不同酶的逆转录酶结构域的多序列比对推断出的系统发育树。RT序列源自DNA以及RNA组装。出于分类目的，参考RT包含在树中。

图5A描绘了根据从新颖RT家族(MG148)鉴定的RT结构域的多序列比对推断出的系统发育树。图5B描绘了MG140-34-R2 RT的基因组背景。与RT无关的预测基因显示为白色箭头。图5C描绘了指示RT上游的保守区(序列下方的框)(在共有序列上注释的箭头)的MG148家族的四个成员的核苷酸序列比对。

图6描绘了通过qPCR(MG148)筛选RTns酶家族的体外活性。使用引物通过qPCR检测活性，所述引物扩增源自含有相应RT的引物延伸反应的全长cDNA产物。样品源自含有100nM底物的RT反应。阴性对照是PURExpress反应中的无模板水。阳性对照：R2Tg(斑胸草雀(Taeniopygia guttata))，先前描述的逆转录转座子。被定义为信号是阴性对照的信号的至少10倍的活性候选物以深灰色标记，而在这些条件下非活性候选物以浅灰色标记。

图7A描绘了根据全长II组内含子RT鉴定的C类新颖序列的多序列比对推断出的系统发育树。图7B描绘了II组内含子的MG153家族的汇总表。AAI：家族成员与参考II组内含子序列的平均成对氨基酸同一性。

图8A和8B描绘了通过引物延伸测定筛选GII内含子C类候选物MG153-22、MG153-23和MG153-24的体外活性。图8A泳道编号与以下各项相对应：1-PURExpress无模板对照、2-MMLV对照RT、3-TGIRT-III对照RT、4-MarathonRT对照RT、5-7与新颖候选物MG153-22至24相对应。粗体编号与具有活性新颖候选物的凝胶泳道相对应。结果表示两个独立实验。图8B描绘了通过qPCR检测全长cDNA产生。深灰色条与产生的产物是背景的产物的至少10倍的RT相对应。结果由两个技术复制品确定。

图9描绘了评估指定的对照RT和GII内含子C类候选物在哺乳动物细胞中合成cDNA的能力的筛选。通过D1000 TapeStation检测MG153-23的542bp PCR产物。与所描述的实验无关的泳道由黑框覆盖。

图10描绘了MG160-7逆转录子样单结构域RT的基因组背景。来自RT的上游区(虚线框)是跨MG160成员保守的，并且折叠成活性和功能可能需要的二级结构(插图)。

图11A和11B描绘了通过引物延伸测定筛选逆转录子样候选物MG160-7的体外活性。图11A泳道编号与以下样品相对应：1-PURExpress无模板对照、2-MMLV对照RT、3-TGIRT-III对照RT、4：MG160-7。图11B描绘了通过qPCR定量全长cDNA产生。深灰色条与产生的产物是背景的产物的至少10倍的RT相对应。结果由两个技术复制品确定。

图12描绘了MG153 GII源性RT在哺乳动物细胞中合成cDNA的能力的筛选。通过Taqman qPCR测定542bp cDNA合成PCR产物的检测。cDNA活性相对于活性TGIRT对照归一化，其中TGIRT表示值为1。Y轴以log 10标度示出。

图13A和13B描绘了通过免疫印迹的MG153 GII源性RT的蛋白质表达。图13A：将细胞用含有候选物RT的质粒转染，并且通过免疫印迹评估蛋白质表达，从而检测与RT的N末端融合的HA肽。将所有泳道相对于总蛋白质浓度归一化。与图13A中描述的实验无关的泳道由黑框覆盖。图13B：测试的RT的预期分子大小表。

图14描绘了相对于蛋白质表达归一化的MG153-23 GII源性RT的相对活性。通过Taqman qPCR检测cDNA合成，通过免疫印迹检测蛋白质表达。相对于TGIRT的活性根据总蛋白浓度归一化。Y轴以线性标度示出。

序列表简要说明

随此提交的序列表提供了用于根据本公开的方法、组合物和系统的示例性多核苷酸和多肽序列。下文是其中的序列的示例性描述。

MG140

SEQ ID NO:1-16示出了MG140转座蛋白的全长肽序列。

MG148

SEQ ID NO:32-41示出了MG148逆转录酶蛋白的全长肽序列。

SEQ ID NO:25-31示出了编码HA-His标记的MG148逆转录酶蛋白的基因的核苷酸序列。

MG153

SEQ ID NO:42-44示出了MG153逆转录酶蛋白的全长肽序列。

SEQ ID NO:17-19示出了编码MG153逆转录酶蛋白的大肠杆菌密码子优化的基因的核苷酸序列。

SEQ ID NO:20-23示出了编码strep标记的MG153逆转录酶蛋白的基因的核苷酸序列。

MG160

SEQ ID NO:45示出了MG160逆转录酶蛋白的全长肽序列。

SEQ ID NO:24示出了编码MG160逆转录酶蛋白的大肠杆菌密码子优化的基因的核苷酸序列。

具体实施方式

虽然本文中已经示出并描述了本发明的各种实施例，但是对于本领域的技术人员显而易见的是，这些实施例仅作为实例提供。在不脱离本发明的情况下，本领域技术人员可以想到多种变化、改变和替换。应当理解，可以采用本文所述的本发明实施例的各种替代方案。

除非另有指示，否则本文所公开的一些方法的实践采用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的技术。参见例如，Sambrook和Green等人,《分子克隆：实验室手册(Molecular Cloning:A Laboratory Manual)》,第4版(2012)；丛书《当代分子生物学实验指南(Current Protocols in Molecular Biology)》(F.M.Ausubel等人编辑)；丛书《酶学方法(Methods In Enzymology)》(学术出版社公司(Academic Press,Inc.)),《PCR 2：实用方法(PCR 2:A Practical Approach)》(M.J.MacPherson,B.D.Hames和G.R.Taylor编辑(1995)),Harlow和Lane编辑(1988)《抗体：实验室手册(Antibodies,ALaboratory Manual)》以及《动物细胞培养：基础技术和专门应用手册(Culture of Animal Cells:A Manual of Basic Technique and SpecializedApplications)》,第6版(R.I.Freshney编辑(2010))(所述文献通过引用整体并入本文)。

如本文所使用的，除非上下文另外清楚地指示，否则单数形式“一个/一种(a/an)”和“所述”也旨在包含复数形式。此外，在详细描述和/或权利要求中使用术语“包含(including)”、“包含(include)”、“具有(having)”、“具有(has)”、“具有(with)”或其变体的情况下，这种术语旨在以类似于术语“包括(comprising)”的方式是包含性的。

术语“约(about)”或“大约(approximately)”意指在如由本领域普通技术人员确定的特定值的可接受误差范围内，这将部分地取决于值是如何测量或确定的，即，测量系统的局限性。例如，“约”可以意指按照本领域的实践在一个或超过一个标准偏差内。可替代地，“约”可以意指给定值的至多20％、至多15％、至多10％、至多5％或至多1％的范围。

如本文所使用的，“细胞”通常是指生物细胞。细胞可以是活生物体的基本结构、功能和/或生物单位。细胞可以源自具有一个或多个细胞的任何生物体。一些非限制性实例包含：原核细胞、真核细胞、细菌细胞、古细菌细胞，单细胞真核生物体的细胞、原生动物细胞、来自植物(例如来自种植农作物、水果、蔬菜、谷物、大豆、玉米、玉蜀黍、小麦、种子、西红柿、大米、木薯、甘蔗、南瓜、干草、土豆、棉花、大麻、烟草、开花植物、针叶树、裸子植物、蕨类植物、石松、金鱼藻、地钱、苔藓的细胞)的细胞、藻细胞(例如，布朗葡萄藻(Botryococcusbraunii)、莱茵衣藻(Chlamydomonas reinhardtii)、拟微球藻(Nannochloropsisgaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、C.Agardh展枝马尾藻(Sargassumpatens C.Agardh)等)、海藻(例如海带)、真菌细胞(例如酵母细胞，来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如鱼、两栖动物、爬行动物、鸟、哺乳动物)的细胞、来自哺乳动物(例如猪、牛、山羊、绵羊、啮齿动物、大鼠、小鼠、非人灵长类动物、人等)的细胞等。有时，细胞并非源自天然生物体(例如，细胞可以是合成制造的，有时称为人工细胞)。

如本文所使用的，术语“核苷酸”通常是指碱基-糖-磷酸组合。核苷酸可以包括合成核苷酸。核苷酸可以包括合成核苷酸类似物。核苷酸可以是核酸序列(例如脱氧核糖核酸(DNA)和核糖核酸(RNA))的单体单元。术语核苷酸可以包含核糖核苷三磷酸、腺苷三磷酸(ATP)、尿苷三磷酸(UTP)、胞嘧啶三磷酸(CTP)、鸟苷三磷酸(GTP)和脱氧核糖核苷三磷酸如dATP、dCTP、dITP、dUTP、dGTP、dTTP或其衍生物。此类衍生物可以包含例如[αS]dATP、7-脱氮-dGTP和7-脱氮-dATP，以及赋予含有它们的核酸分子核酸酶抗性的核苷酸衍生物。如本文所使用的，术语核苷酸可以是指双脱氧核糖核苷三磷酸(ddNTP)和其衍生物。双脱氧核糖核苷三磷酸的说明性实例可以包含但不限于：ddATP、ddCTP、ddGTP、ddITP和ddTTP。核苷酸可以是未标记的或可检测标记的，如使用包括光学可检测部分(例如荧光团)的部分。也可以用量子点进行标记。可检测标记可以包含例如放射性同位素、荧光标记、化学发光标记、生物发光标记和酶标记。核苷酸的荧光标记可以包含但不限于荧光素、5-羧基荧光素(FAM)、2'7'-二甲氧基-4'5-二氯-6-羧基荧光素(JOE)、罗丹明、6-羧基罗丹明(R6G)、N,N,N',N'-四甲基-6-羧基罗丹明(TAMRA)、6-羧基-X-罗丹明(ROX)、4-(4'二甲氨基苯偶氮基)苯甲酸(DABCYL)、瀑布蓝、俄勒冈绿、德克萨斯红、青色素和5-(2'-氨乙基)氨基萘-1-磺酸(EDANS)。荧光标记的核苷酸的具体实例可以包含可从加利福尼亚州福斯特市的铂金埃尔默公司(Perkin Elmer,Foster City,Calif)获得的[R6G]dUTP、[TAMRA]dUTP、[R110]dCTP、[R6G]dCTP、[TAMRA]dCTP、[JOE]ddATP、[R6G]ddATP、[FAM]ddCTP、[R110]ddCTP、[TAMRA]ddGTP、[ROX]ddTTP、[dR6G]ddATP、[dR110]ddCTP、[dTAMRA]ddGTP和[dROX]ddTTP；可从伊利诺伊州阿灵顿高地的安玛西亚公司(Amersham,Arlington Heights,Il.)获得的FluoroLink脱氧核苷酸、FluoroLink Cy3-dCTP、FluoroLink Cy5-dCTP、FluoroLink FluorX-dCTP、FluoroLink Cy3-dUTP和FluoroLink Cy5-dUTP；可从印第安纳州印第安纳波利斯的宝灵曼公司(Boehringer Mannheim,Indianapolis,Ind.)获得的荧光素-15-dATP、荧光素-12-dUTP、四甲基-罗丹明-6-dUTP、IR770-9-dATP、荧光素-12-ddUTP、荧光素-12-UTP和荧光素-15-2'-dATP；以及可从俄勒冈州尤金的分子探针公司(Molecular Probes,Eugene,Oreg)获得的染色体标记的核苷酸、BODIPY-FL-14-UTP、BODIPY-FL-4-UTP、BODIPY-TMR-14-UTP、BODIPY-TMR-14-dUTP、BODIPY-TR-14-UTP、BODIPY-TR-14-dUTP、瀑布蓝-7-UTP、瀑布蓝-7-dUTP、荧光素-12-UTP、荧光素-12-dUTP、俄勒冈绿488-5-dUTP、罗丹明绿-5-UTP、罗丹明绿-5-dUTP、四甲基罗丹明-6-UTP、四甲基罗丹明-6-dUTP、德克萨斯红-5-UTP、德克萨斯红-5-dUTP和德克萨斯红-12-dUTP。核苷酸也可以通过化学修饰进行标记或标出。经化学修饰的单核苷酸可以是生物素-dNTP。生物素化dNTP的一些非限制性实例可以包含生物素-dATP(例如bio-N6-ddATP、生物素-14-dATP)、生物素-dCTP(例如生物素-11-dCTP、生物素-14-dCTP)和生物素-dUTP(例如生物素-11-dUTP、生物素-16-dUTP、生物素-20-dUTP)。

术语“多核苷酸”、“寡核苷酸”和“核酸”可互换使用以通常指代任何长度的核苷酸的聚合形式，脱氧核糖核苷酸或核糖核苷酸或其类似物，呈单链、双链或多链形式。多核苷酸对于细胞可以是外源性的或内源性的。多核苷酸可以存在于无细胞环境中。多核苷酸可以是基因或其片段。多核苷酸可以是DNA。多核苷酸可以是RNA。多核苷酸可以具有任何三维结构，并且可以进行任何功能。多核苷酸可以包括一种或多种类似物(例如，改变的主链、糖或核碱基)。如果存在，则可以在组装聚合物之前或之后赋予对核苷酸结构的修饰。类似物的一些非限制性实例包含：5-溴尿嘧啶、肽核酸、异源核酸、吗啉代、锁核酸、甘油核酸、苏糖核酸、双脱氧核苷酸、虫草素、7-脱氮-GTP、荧光团(例如，与糖连接的罗丹明或荧光素)、含硫醇的核苷酸、生物素连接的核苷酸、荧光碱基类似物、CpG岛、甲基-7-鸟苷、甲基化核苷酸、肌苷、硫尿苷、假尿苷、二氢尿苷、辫苷和怀俄苷。多核苷酸的非限制性实例包含基因或基因片段的编码或非编码区、根据连接分析定义的多个基因座(一个基因座)、外显子、内含子、信使RNA(mRNA)、转移RNA(tRNA)、核糖体RNA(rRNA)、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微RNA(miRNA)、核酶、cDNA、重组多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的分离的DNA、包含无细胞DNA(cfDNA)和无细胞RNA(cfRNA)的无细胞多核苷酸、核酸探针和引物。核苷酸序列可以间杂有非核苷酸组分。

术语“转染”或“转染的”通常指通过非病毒或基于病毒的方法将核酸引入细胞中。核酸分子可以是编码完整蛋白或其功能部分的基因序列。参见例如Sambrook等人(1989),《分子克隆：实验室手册》,18.1-18.88(所述文献通过引用整体并入本文)。

术语“肽”、“多肽”和“蛋白质”在本文中可互换使用以通常指代至少两个通过肽键连接的氨基酸残基的聚合物。此术语不表示聚合物的具体长度，也不旨在暗示或区分肽是使用重组技术、化学或酶促合成产生的还是天然存在的。所述术语适用于天然存在的氨基酸聚合物以及包括至少一种经修饰的氨基酸的氨基酸聚合物。在一些实施例中，聚合物可以间杂有非氨基酸。所述术语包含任何长度的氨基酸链，包含全长蛋白质以及具有或不具有次级和/或三级结构(例如，结构域)的蛋白质。术语还涵盖已被修饰的氨基酸聚合物；例如通过二硫键形成、糖基化、脂化、乙酰化、磷酸化、氧化和任何其它操作，如与标记组分缀合。如本文所使用的，术语“氨基酸(amino acid)”和“氨基酸(amino acids)”通常是指天然和非天然氨基酸，包含但不限于经修饰的氨基酸和氨基酸类似物。经修饰的氨基酸可以包含已被化学修饰以包含非天然存在于氨基酸上的基团或化学部分的天然氨基酸和非天然氨基酸。氨基酸类似物可以指氨基酸衍生物。术语“氨基酸”包含D-氨基酸和L-氨基酸。

如本文所使用的，“非天然”通常可以指在天然核酸或蛋白质中未发现的核酸或多肽序列。非天然可以指亲和标签。非天然可以指融合物。非天然可以指天然存在的包括突变、插入和/或缺失的核酸或多肽序列。非天然序列可以表现出和/或编码也可以由与非天然序列融合的核酸和/或多肽序列表现出的活性(例如，酶活性、甲基转移酶活性、乙酰转移酶活性、激酶活性、泛素化活性等)。非天然核酸或多肽序列可以通过基因工程化与天然存在的核酸或多肽序列(或其变体)连接以产生嵌合核酸和/或编码嵌合核酸和/或多肽的多肽序列。

如本文所使用的，术语“启动子”通常是指控制基因转录或表达并且可以位于与启动RNA转录的核苷酸或核苷酸的区邻近或重叠的调节DNA区。启动子可以含有结合蛋白质因子(通常称为转录因子)的特定DNA序列，其促进RNA聚合酶与DNA的结合，从而导致基因转录。‘基础启动子’，也称为‘核心启动子’，通常可以指含有促进可操作连接的多核苷酸转录表达的所有基本元件的启动子。真核基础启动子可以含有TATA盒和/或CAAT盒。

如本文所使用的，术语“表达”通常是指从DNA模板转录核酸序列或多核苷酸(如转录为mRNA或其它RNA转录本)的过程和/或随后将经转录的mRNA翻译为肽、多肽、或蛋白质的过程。转录物和编码的多肽可以统称为“基因产物”。如果多核苷酸衍生自基因组DNA，则表达可以包含在真核细胞中的mRNA的剪接。

如本文所使用的，“可操作地连接”、“可操作连接”、“操作性地连接”或其语法等效物通常是指遗传元素，例如启动子、增强子、聚腺苷酸化序列等的并置，其中所述元素处于允许其以预期方式操作的关系中。例如，如果调节元件有助于启动编码序列的转录，则可以包括启动子和/或增强子序列的调节元件可操作地连接到编码区。只要维持这种功能关系，调节元件与编码区之间就会存在插入残基。

如本文所使用的，“载体”通常是指包括多核苷酸或与多核苷酸缔合并且可以用于介导多核苷酸到细胞的递送的大分子或大分子缔合物。载体的实例包含质粒、病毒载体、脂质体和其它基因递送媒剂。载体通常包括遗传元件，例如调节元件，其可操作地连接到基因以促进基因在靶标中的表达。

如本文所使用的，“表达盒”和“核酸盒”通常可互换使用以指代一起表达或可操作地连接用于表达的核酸序列或元件的组合。在一些实施例中，表达盒是指调节元件和其可操作地连接用于表达的一个或多个基因的组合。

DNA或蛋白质序列的“功能片段”通常是指保留与全长DNA或蛋白质序列的生物活性基本上类似的生物活性(功能或结构)的片段。DNA序列的生物活性可能是其以归因于全长序列的已知方式影响表达的能力。

如本文所使用的，“经工程化的”对象通常表明所述对象已通过人为干预进行修饰。根据非限制性实例：核酸可以通过将其序列改变成自然界中不存在的序列来修饰；核酸可以通过将其连接到自然界中不与其缔合的核酸来修饰，使得连接产物具有原始核酸中不存在的功能；经工程化的核酸可以用自然界不存在的序列在体外合成；可以通过将蛋白质的氨基酸序列改变为自然界中不存在的序列来修饰蛋白质；经工程化的蛋白质可以获得新的功能或特性。“经工程化的”系统包括至少一个经工程化的组分。

如本文所使用的，“合成的”和“人工的”通常可以互换使用是指与天然存在的人蛋白质具有低序列同一性(例如小于50％序列同一性、小于25％序列同一性、小于10％序列同一性、小于5％序列同一性、小于1％序列同一性)的蛋白质或其结构域。例如，VPR和VP64结构域是合成的反式激活结构域。

如本文所使用的，术语“可转座元件”是指可以从基因组中的一个位置移动到另一个位置的DNA序列(即，其可以被“转座”)。可转座元件通常可以分成两类。I类可转座元件或“逆转录转座子”通过RNA中间体的转录和翻译转座，所述RNA中间体随后通过逆转录(由逆转录酶介导的过程)重新并入其新位置到基因组中。II类可转座元件或“DNA转座子”通过侧接转座酶的任一侧的单链或双链DNA的复合物转座。此酶家族的另外的特征可见于例如《自然教育(Nature Education)》2008,1(1),204；以及《基因组生物学(Genome Biology)》2018,19(199),1-12；所述文献中的每个文献通过引用并入本文。

如本文所使用的，术语“逆转录转座子”是指根据涉及RNA中间体的两部分“复制和粘贴”机制起作用的I类可转座元件。“逆转录转座酶”是指负责逆转录转座子的转座的酶。在一些实施例中，逆转录转座酶包括逆转录酶结构域。在一些实施例中，逆转录转座酶进一步包括一个或多个锌指结构域。在一些实施例中，逆转录转座酶进一步包括核酸内切酶结构域。

在两个或更多个核酸或多肽序列的上下文中，术语“序列同一性”或“百分比同一性”通常是指当在局部或全局比较窗内进行比较和比对以获得最大对应性时，两个(例如，在成对比对中)或更多个(例如，在多序列比对中)相同或具有相同特定百分比的氨基酸残基或核苷酸的序列，如使用序列比较算法测量的。用于多肽序列的合适的序列比较算法包含例如使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在为11，扩展为1并且使用长于30个残基的多肽序列的条件组成评分矩阵调整的BLASTP；使用字长(W)为2、期望值(E)为1000000的参数以及PAM30评分矩阵(对于少于30个残基的序列，将空位罚分设置为9来打开空位，并且设置为1来扩展空位)(这些是BLAST套件中BLASTP的默认参数，可在https://blast.ncbi.nlm.nih.gov获得)的BLASTP；具有参数的CLUSTALW；具有以下参数的CLUSTALW与史密斯-沃特曼同源性搜索算法：匹配为2、失配为-1并且间隙为-1；具有默认参数的MUSCLE；具有以下参数的MAFFT：retree为2并且maxiterations为1000；具有默认参数的Novafold；具有默认参数的HMMER hmmalign。

在两个或更多个核酸或多肽序列的上下文中，术语“最佳比对”通常是指已经与氨基酸残基或核苷酸的最大对应性比对的两个(例如，成对比对)或更多个(例如，在多序列比对中)序列，例如，如通过产生最高或“优化”百分比同一性评分的比对确定的。

本公开包含本文所描述的具有一个或多个保守氨基酸取代的酶中的任何酶的变体。此类保守取代可以在多肽的氨基酸序列中进行，而不破坏多肽的三维结构或功能。保守取代可以通过具有类似疏水性、极性和R链长度的氨基酸相互取代来完成。另外地或可替代地，通过比较来自不同物种的同源蛋白质的比对序列，可以通过在不改变经编码的蛋白质的基本功能的情况下定位物种(例如，非保守残基)之间突变的氨基酸残基来鉴定保守取代。此类保守取代的变体可以包含与本文所描述的逆转录转座酶蛋白序列中的任一个逆转录转座酶蛋白序列(例如，本文所描述的MG140家族逆转录转座酶，或本文所描述的任何其它家族逆转录转座酶)具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％同一性的变体。在一些实施例中，此类保守取代的变体是功能变体。此类功能变体可以涵盖具有取代的序列，使得逆转录转座酶的一个或多个关键活性位点残基的活性不被破坏。在一些实施例中，本文所描述的蛋白质中的任何蛋白质的功能变体缺乏对图2中所示的保守或功能残基中的至少一个的取代。在一些实施例中，本文所描述的蛋白质中的任何蛋白质的功能变体缺乏对图2中所示的所有保守或功能残基的取代。

本公开还包括本文所描述的酶中的任何酶的变体，其取代一个或多个催化残基以降低或消除酶(例如，活性降低的变体)的活性。在一些实施例中，作为本文所描述的蛋白质的活性降低的变体包括图2中所示的至少一个、至少两个或所有三个催化残基的破坏性取代。

提供功能类似氨基酸的保守取代表可从各种参考文献中获得(参见例如Creighton,《蛋白质：结构与分子特性(Proteins:Structures and MolecularProperties)》(W H弗里曼出版社(W H Freeman&Co.)；第2版(1993年12月))。以下八个基团各自含有彼此保守取代的氨基酸：

1)丙氨酸(A)、甘氨酸(G)；

2)天冬氨酸(D)、谷氨酸(E)；

3)天冬酰胺(N)、谷氨酰胺(Q)；

4)精氨酸(R)、赖氨酸(K)；

5)异亮氨酸(I)、亮氨酸(L)、甲硫氨酸(M)、缬氨酸(V)；

6)苯丙氨酸(F)、酪氨酸(Y)、色氨酸(W)；

7)丝氨酸(S)、苏氨酸(T)；以及

8)半胱氨酸(C)、甲硫氨酸(M)

概述

具有独特功能和结构的新可转座元件的发现可能会提供进一步破坏脱氧核糖核酸(DNA)编辑技术的可能性，从而提高速度、特异性、功能和易用性。相对于微生物中可转座元件的预测流行率和微生物物种的纯粹多样性，文献中存在相对较少的功能表征的可转座元件。这部分是因为大量的微生物物种可能不容易在实验室条件下培养。对含有大量微生物物种的自然环境生态位进行宏基因组测序可能会提供大幅增加已知新可转座元件的数量，并且加速新寡核苷酸编辑功能的发现的可能性。

可转座元件是可以改变基因组内的位置的脱氧核糖核酸序列，通常导致突变的产生或改善。在真核生物中，基因组的大部分和细胞DNA质量的大部分可归因于可转座元件。尽管可转座元件是以牺牲其它基因为代价繁殖自身的“自体基因”，但已发现其具有各种重要功能并且对基因组进化至关重要。基于其机制，可转座元件被分类为I类“逆转录转座子”或II类“DNA转座子”。

I类可转座元件，也被称为逆转录转座子，根据涉及RNA中间体的两部分“复制和粘贴”机制起作用。首先，转录逆转录转座子。所得RNA随后通过逆转录酶(通常由逆转录转座子自身编码)转化回到DNA，并且逆转录的逆转录转座子通过整合酶整合到其在基因组中的新位置中。逆转录转座子被进一步分类为三个顺序。具有长末端重复序列(“LTR”)的逆转录转座子编码逆转录酶，并且侧接长链的重复DNA。具有长散布核元件(“LINE”)的逆转录转座子编码逆转录酶，缺乏LTR，并且由RNA聚合酶II转录。具有短散布核元件(“SINE”)的逆转录转座子由RNA聚合酶III转录但缺乏逆转录酶，而是依赖于其它可转座元件(例如LINE)的逆转录机制。

II类可转座元件，也被称为DNA转座子，根据不涉及RNA中间体的机制起作用。许多DNA转座子表现出“切割和粘贴”机制，其中转座酶与侧接转座子的末端反向重复序列(“TIR”)结合，从供体区切割转座子，并将其插入到基因组的靶区中。被称为“helitron”的其它DNA转座子表现出“滚环”机制，所述机制涉及单链DNA中间体并且由据信具有HUH核酸内切酶功能和5'至3'解螺旋酶活性的无记录蛋白质介导。首先，对DNA的环状链进行切刻以产生两条单DNA链。蛋白质保持与有切口的链的5'磷酸酯连接，从而使互补链的3'羟基端暴露，并且因此允许聚合酶复制无切口的链。一旦复制完成，新链就解离，并且其自身与原始模板链一起复制。理论上，其它DNA转座子“Polinton”仍经历“自合成”机制。转座由整合酶切除单链染色体外Polinton元件引发，所述单链染色体外Polinton元件形成球拍样结构(racket-like structure)。Polinton经历DNA聚合酶B的复制，并且双链Polinton通过整合酶插入到基因组中。另外，一些DNA转座子，如IS200/IS605家族中的转座子，通过“剥离和粘贴”机制进行，其中TnpA从供体基因的滞后链模板切除一条单链DNA(作为环状“转座子接头”)并将其重新插入到靶基因的复制叉中。

虽然可转座元件已发现用作生物工具的一些用途，但有记录的可转座元件并不涵盖所有范围的可能的生物多样性和可靶向性，并且可能并不表示所有可能的活性。在此，从大量的宏基因组中提取了可转座元件的数千个基因组片段。有记录的可转座元件的多样性可能已经扩大，并且新颖系统可能已经发展成为高度靶向、紧凑和精确的基因编辑剂。

MG酶

在一些方面，本公开提供了新颖逆转录转座酶。这些候选物可以表示一种或多种新颖亚型，并且可能已经鉴定出一些亚家族。这些逆转录转座酶的长度小于约1,500个氨基酸。这些逆转录转座酶可以简化递送并且可以延伸治疗性应用。

在一些方面，本公开提供了一种新颖逆转录转座酶。此类逆转录转座酶可以是如本文所描述的MG140(参见图1和2)。

一方面，本公开提供了一种通过宏基因组测序发现的经工程化的逆转录转座酶系统。在一些实施例中，对样品进行宏基因组测序。在一些实施例中，可以从各种环境中收集样品。此类环境可以是人微生物组、动物微生物组、高温环境、低温环境。此类环境可以包含沉积物。

一方面，本公开提供了一种包括逆转录转座酶的经工程化的逆转录转座酶系统。在一些实施例中，所述逆转录转座酶源自未培养的微生物。逆转录转座酶可以被配置成与3'非翻译区(UTR)结合。逆转录转座酶可以与5'非翻译区(UTR)结合。

一方面，本公开提供了一种包括逆转录转座酶的经工程化的逆转录转座酶系统。在一些实施例中，所述逆转录转座酶与SEQ ID NO:1-16中的任一者具有至少约70％序列同一性。在一些实施例中，所述逆转录转座酶与SEQ ID NO:1-16中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性。

在一些实施例中，所述逆转录转座酶包括与SEQ ID NO:1-16中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性的变体。在一些实施例中，所述逆转录转座酶可以与SEQ ID NO:1-16中的任一者基本上相同。

在一些实施例中，所述逆转录转座酶包括逆转录酶结构域。在一些实施例中，所述逆转录转座酶进一步包括一个或多个锌指结构域。在一些实施例中，所述逆转录转座酶进一步包括核酸内切酶指结构域。

在一些实施例中，所述逆转录转座酶与已知或有记录的逆转录转座酶具有小于约90％、小于约85％、小于约80％、小于约75％、小于约70％、小于约65％、小于约60％、小于约55％、小于约50％、小于约45％、小于约40％、小于约35％、小于约30％、小于约25％、小于约20％、小于约15％、小于约10％或小于约5％序列同一性。

在一些实施例中，所述货物核苷酸序列侧接3'非翻译区(UTR)和5'非翻译区(UTR)。

在一些实施例中，所述逆转录转座酶被配置成转座所述货物核苷酸序列作为单链脱氧核糖核酸多核苷酸。在一些实施例中，所述逆转录转座酶被配置成转座所述货物核苷酸序列作为双链脱氧核糖核酸多核苷酸。在一些实施例中，所述逆转录转座酶被配置成通过核糖核酸多核苷酸中间体转座所述货物核苷酸序列。

在一些实施例中，所述逆转录转座酶包括与真核、真菌、植物、哺乳动物或人基因组多核苷酸序列互补的序列。在一些实施例中，所述逆转录转座酶包括与真核基因组多核苷酸序列互补的序列。在一些实施例中，所述逆转录转座酶包括与真菌基因组多核苷酸序列互补的序列。在一些实施例中，所述逆转录转座酶包括与植物基因组多核苷酸序列互补的序列。在一些实施例中，所述逆转录转座酶包括与哺乳动物基因组多核苷酸序列互补的序列。在一些实施例中，所述逆转录转座酶包括与人基因组多核苷酸序列互补的序列。

在一些实施例中，所述逆转录转座酶可以包括具有一个或多个核定位序列(NLS)的变体。所述NLS可以邻近所述逆转录转座酶的N末端或C末端。所述NLS可以被附加到SEQID NO:17-32中的任一者的N末端或C末端，或者被附加到与SEQ ID NO:17-32中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性的变体。在一些实施例中，所述NLS可以包括与SEQ ID NO:17-32中的任一者基本上相同的序列。在一些实施例中，所述NLS可以包括与SEQ ID NO:17基本上相同的序列。在一些实施例中，所述NLS可以包括与SEQ ID NO:18基本上相同的序列。

表1：可以与根据本公开的逆转录转座酶一起使用的示例NLS序列

在一些实施例中，序列可以通过BLASTP、CLUSTALW、MUSCLE或MAFFT算法或CLUSTALW算法使用史密斯-沃特曼同源性搜索算法参数来确定。序列同一性可以通过所述BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在为11，扩展为1并且使用条件组成评分矩阵调整来确定。

一方面，本公开提供了一种编码本文所描述的经工程化的逆转录转座酶系统的脱氧核糖核酸多核苷酸。

一方面，本公开提供了一种包括经工程化的核酸序列的核酸。在一些实施例中，所述经工程化的核酸序列经优化以在生物体中表达。在一些实施例中，所述逆转录转座酶源自未培养的微生物。在一些实施例中，所述生物体不是未培养的生物体。

在一些实施例中，所述逆转录转座酶与SEQ ID NO:1-16中的任一者具有至少约70％序列同一性。在一些实施例中，所述逆转录转座酶与SEQ ID NO:1-16中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性。

在一些实施例中，所述逆转录转座酶包括与SEQ ID NO:1-16中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％序列同一性的变体。在一些实施例中，所述逆转录转座酶可以与SEQ ID NO:1-16中的任一者基本上相同。

在一些实施例中，所述生物体是原核生物。在一些实施例中，所述生物体是细菌。在一些实施例中，所述生物体是真核生物。在一些实施例中，所述生物体是真菌。在一些实施例中，所述生物体是植物。在一些实施例中，所述生物体是哺乳动物。在一些实施例中，所述生物体是啮齿动物。在一些实施例中，所述生物体是人。

一方面，本公开提供了一种经工程化的载体。在一些实施例中，所述经工程化的载体包括编码逆转录转座酶的核酸序列。在一些实施例中，所述逆转录转座酶源自未培养的微生物。

在一些实施例中，所述经工程化的载体包括本文所描述的核酸。在一些实施例中，本文所描述的核酸是本文所描述的脱氧核糖核酸多核苷酸。在一些实施例中，所述载体是质粒、微环、CELiD、腺相关病毒(AAV)源性病毒体或慢病毒。

一方面，本公开提供了一种包括本文所描述的载体的细胞。

一方面，本公开提供了一种产生逆转录转座酶的方法。在一些实施例中，所述方法包括培养所述细胞。

一方面，本公开提供了一种用于结合、切刻、切割、标记、修饰或转座双链脱氧核糖核酸多核苷酸的方法。所述方法可以包括使所述双链脱氧核糖核酸多核苷酸与逆转录转座酶接触。在一些实施例中，所述货物核苷酸序列侧接3'非翻译区(UTR)和5'非翻译区(UTR)。

在一些实施例中，所述逆转录转座酶源自未培养的微生物。在一些实施例中，所述双链脱氧核糖核酸多核苷酸是真核生物、植物、真菌、哺乳动物、啮齿动物或人双链脱氧核糖核酸多核苷酸。

一方面，本公开提供了一种修饰靶核酸基因座的方法。所述方法可以包括将本文所描述的经工程化的逆转录转座酶系统递送至靶核酸基因座。在一些实施例中，复合物被配置成使得在复合物与靶核酸基因座结合时，复合物修饰靶核酸基因座。

在一些实施例中，修饰所述靶核酸基因座包括结合、切刻、切割、标记、修饰或转座所述靶核酸基因座。在一些实施例中，所述靶核酸基因座包括脱氧核糖核酸(DNA)或核糖核酸(RNA)。在一些实施例中，所述靶核酸包括基因组DNA、病毒DNA、病毒RNA或细菌DNA。在一些实施例中，所述靶核酸基因座在体外。在一些实施例中，所述靶核酸基因座在细胞内。在一些实施例中，所述细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞或人细胞。在一些实施例中，所述细胞是原代细胞。在一些实施例中，所述原代细胞是T细胞。在一些实施例中，所述原代细胞是造血干细胞(HSC)。

在一些实施例中，所述经工程化的逆转录转座酶系统向所述靶核酸基因座的递送包括递送本文所描述的核酸或本文所描述的载体。在一些实施例中，所述经工程化的逆转录转座酶系统向所述靶核酸基因座的递送包括递送包括编码所述逆转录转座酶的开放阅读框的核酸。在一些实施例中，所述核酸包括启动子。在一些实施例中，所述编码逆转录转座酶的开放阅读框与所述启动子可操作地连接。

在一些实施例中，所述经工程化的逆转录转座酶系统向所述靶核酸基因座的递送包括递送含有所述编码所述逆转录转座酶的开放阅读框的加帽mRNA。在一些实施例中，所述经工程化的逆转录转座酶系统向所述靶核酸基因座的递送包括递送翻译的多肽。在一些实施例中，所述经工程化的逆转录转座酶系统向所述靶核酸基因座的递送包括递送编码与核糖核酸(RNA)pol III启动子可操作地连接的经工程化的向导RNA的脱氧核糖核酸(DNA)。

在一些实施例中，所述逆转录转座酶不在所述靶核酸基因座处或附近诱导断裂。

一方面，本公开提供了一种包括编码异源性逆转录转座酶的开放阅读框的宿主细胞。在一些实施例中，所述逆转录转座酶与SEQ ID NO:1-16中的任一者具有至少约70％序列同一性。在一些实施例中，所述逆转录转座酶与SEQ ID NO:1-16中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性。

在一些实施例中，所述逆转录转座酶被配置成转座所述货物核苷酸序列作为双链脱氧核糖核酸多核苷酸。在一些实施例中，所述逆转录转座酶被配置成转座所述货物核苷酸序列作为双链脱氧核糖核酸多核苷酸。在一些实施例中，所述逆转录转座酶被配置成通过核糖核酸多核苷酸中间体转座所述货物核苷酸序列。

在一些实施例中，所述宿主细胞是大肠杆菌细胞。在一些实施例中，所述大肠杆菌细胞是λDE3溶素原，或者所述大肠杆菌细胞是BL21(DE3)菌株。在一些实施例中，所述大肠杆菌细胞具有ompT lon基因型。

在一些实施例中，所述开放阅读框与以下可操作地连接：T7启动子序列、T7-lac启动子序列、lac启动子序列、tac启动子序列、trc启动子序列、ParaBAD启动子序列、PrhaBAD启动子序列、T5启动子序列、cspA启动子序列、araP_BAD启动子、来自噬菌体λ的强向左启动子(pL启动子)或其任何组合。

在一些实施例中，所述开放阅读框包括编码与编码所述逆转录转座酶的序列框内连接的亲和标签的序列。在一些实施例中，所述亲和标签是固定化金属亲和色谱法(IMAC)标签。在一些实施例中，所述IMAC标签是聚组氨酸标签。在一些实施例中，所述亲和标签是myc标签、人流感血凝素(HA)标签、麦芽糖结合蛋白(MBP)标签、谷胱甘肽S-转移酶(GST)标签、链霉亲和素标签、FLAG标签或其任何组合。在一些实施例中，所述亲和标签通过编码蛋白酶切割位点的连接子序列与编码所述逆转录转座酶的所述序列框内连接。在一些实施例中，所述蛋白酶切割位点是烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。

在一些实施例中，所述开放阅读框经密码子优化以在所述宿主细胞中表达。在一些实施例中，所述开放阅读框在载体上提供。在一些实施例中，所述开放阅读框被整合到所述宿主细胞的基因组中。

一方面，本公开提供了一种培养物，所述培养物包括在相容性液体培养基中的本文所描述的宿主细胞。

一方面，本公开提供了一种产生逆转录转座酶的方法，所述方法包括在相容性生长培养基中培养本文所描述的宿主细胞。在一些实施例中，所述方法进一步包括通过添加另外的化学剂或增加量的营养物来诱导所述逆转录转座酶的表达。在一些实施例中，所述另外的化学剂或增加量的营养物包括异丙基β-D-1-硫代半乳糖苷(IPTG)或另外量的乳糖。在一些实施例中，所述方法进一步包括在所述培养之后分离所述宿主细胞，并且裂解所述宿主细胞以产生蛋白提取物。在一些实施例中，所述方法进一步包括使所述蛋白提取物经受IMAC或离子亲和色谱法。在一些实施例中，所述开放阅读框包括编码与编码所述逆转录转座酶的序列框内连接的IMAC亲和标签的序列。在一些实施例中，所述IMAC亲和标签通过编码蛋白酶切割位点的连接子序列与编码所述逆转录转座酶的所述序列框内连接。在一些实施例中，所述蛋白酶切割位点包括烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。在一些实施例中，所述方法进一步包括通过使与所述蛋白酶切割位点相对应的蛋白酶与所述逆转录转座酶接触来切割所述IMAC亲和标签。在一些实施例中，所述方法进一步包括执行减材IMAC亲和色谱法以从包括所述逆转录转座酶的组合物去除所述亲和标签。

一方面，本公开提供了一种破坏细胞中的基因座的方法。在一些实施例中，所述方法包括使包括逆转录转座酶的组合物与所述细胞接触。在一些实施例中，所述逆转录转座酶与细胞中的已知或有记录的逆转录转座酶具有至少等同的转座活性。在一些实施例中，所述逆转录转座酶与SEQ ID NO:1-16中的任一者具有至少约70％序列同一性。在一些实施例中，所述逆转录转座酶与SEQ ID NO:1-16中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性。

在一些实施例中，所述逆转录转座酶被配置成转座所述货物核苷酸序列作为双链脱氧核糖核酸多核苷酸。在一些实施例中，所述逆转录转座酶被配置成转座所述货物核苷酸序列作为单链脱氧核糖核酸多核苷酸。在一些实施例中，所述逆转录转座酶被配置成通过核糖核酸多核苷酸中间体转座所述货物核苷酸序列。

在一些实施例中，通过将所述逆转录转座酶引入包括所述靶核酸基因座的细胞并检测所述细胞中的所述靶核酸基因座的转座来体外测量所述转座活性。在一些实施例中，所述组合物包括20皮摩尔或更少的所述逆转录转座酶。在一些实施例中，所述组合物包括1pmol或更少的所述逆转录转座酶。

本公开的系统可以用于各种应用，例如核酸编辑(例如基因编辑)、与核酸分子结合(例如序列特异性结合)。此类系统可以用于例如解决(例如，去除或替换)可能引起受试者的疾病的遗传突变，使基因灭活以便确定其在细胞中的功能，作为检测致病遗传元件的诊断工具(例如通过裂解逆转录病毒RNA或编码致病突变的扩增DNA序列)，作为灭活酶与探针结合以靶向和检测特定核苷酸序列(例如编码细菌抗生素抗性的序列)，通过靶向病毒基因组使病毒灭活或无法感染宿主细胞，添加基因或修改代谢途径来对生物体进行工程化以产生有价值的小分子、大分子或次级代谢物，建立用于进化选择的基因驱动元件，作为生物传感器检测外来小分子和核苷酸对细胞的干扰。

实例

根据IUPAC惯例，贯穿实例使用以下缩略语：

A＝腺嘌呤

C＝胞嘧啶

G＝鸟嘌呤

T＝胸腺嘧啶

R＝腺嘌呤或鸟嘌呤

Y＝胞嘧啶或胸腺嘧啶

S＝鸟嘌呤或胞嘧啶

W＝腺嘌呤或胸腺嘧啶

K＝鸟嘌呤或胸腺嘧啶

M＝腺嘌呤或胞嘧啶

B＝C、G或T

D＝A、G或T

H＝A、C或T

V＝A、C或G

实例1-一种新蛋白质的宏基因组分析的方法

从沉积物、土壤和动物收集宏基因组样品。用Zymobiomics DNA微量制备型试剂盒提取脱氧核糖核酸(DNA)并在Illumina2500上测序。在产权所有者同意的情况下收集样品。来自公共来源的另外的原始序列数据包含动物微生物组、沉积物、土壤、温泉、深海热泉、海洋、泥炭沼泽、永久冻土和污水序列。使用基于有记录的逆转录转座酶蛋白序列生成的隐马尔可夫模型(Hidden Markov Model)搜索宏基因组序列数据以鉴定新逆转录转座酶。通过搜索鉴定的新颖逆转录转座酶蛋白与有记录的蛋白质比对以鉴定潜在活性位点。此宏基因组工作流导致本文所描述的MG140家族的描绘。

实例2-逆转录转座酶的MG140家族的发现

对来自实例1的宏基因组分析的数据的分析揭示了包括1个家族(MG140)的未描述的推定逆转录转座酶系统的新簇。这些新酶和其亚结构域的对应蛋白质序列如SEQ ID NO:1-16所呈现。

实例3-逆转录的DNA体外活性的整合(预示性)

整合酶活性可以通过在基于大肠杆菌裂解物的表达系统(例如，myTXTL、Arbor生物科学公司(Arbor Biosciences))中表达来询问。体外测试所需的组分是三种质粒：T7启动子下的具有逆转录转座子基因的表达质粒、靶质粒和供体质粒，所述供体质粒含有由围绕选择标志物基因(例如Tet抗性基因)的逆转录转座酶识别的所需5'和3'UTR序列。将基于裂解物的表达产物、靶DNA和供体质粒温育以允许发生转座。通过PCR检测转座。另外，转座产物将用T5标记并且通过NGS进行测序以确定转座事件群体上的插入位点。可替代地，体外转座产物可以在抗生素(例如Tet)选择下转化成大肠杆菌，其中生长需要将选择标志物稳定地插入到质粒中。可以对单个菌落或大肠杆菌群体进行测序以确定插入位点。

整合效率可以通过靶DNA与整合货物的实验输出的ddPCR或qPCR来测量，相对于未经修饰的靶DNA的量归一化也通过ddPCR测量。

此测定也可以用经纯化的蛋白质组分进行，而不是从基于裂解物的表达中进行。在这种情况下，在T7诱导型启动子下，在大肠杆菌蛋白酶缺陷型B菌株中表达蛋白质，使用超声处理裂解细胞，并且使用HisTrap FF(通用生命科学公司(GE Lifescience))Ni-NTA亲和色谱法在AKTAAvant FPLC(通用生命科学公司)上纯化所关注的His标记的蛋白质。使用ImageLab软件(伯乐公司)中的密度测定法测定在SDS-PAGE和InstantBlue超高速(西格玛-奥德里奇公司)考马斯染色的丙烯酰胺凝胶(伯乐公司)上解析的蛋白质带的纯度。将蛋白质在由50mM Tris-HCl、300mM NaCl、1mM TCEP、5％甘油组成的储存缓冲液中脱盐；pH 7.5(或如最大稳定性所确定的其它缓冲液)，并在-80℃下储存。在纯化后，将转座子基因添加到如上文所描述的反应缓冲液(例如补充有15mM MgOAc₂的26mM HEPES pH 7.5、4.2mMTRIS pH 8、50ug/mL BSA、2mM ATP、2.1mM DTT、0.05mM EDTA、0.2mM MgCl₂、30-200mMNaCl,、21mM KCl、1.35％甘油(最终pH 7.5))中的靶DNA和供体质粒中。

实例4-通过凝胶偏移的逆转录转座子端验证(预示性)

通过电泳迁移率偏移测定(EMSA)测试逆转录转座子端的逆转录转座酶结合。在这种情况下，靶DNA片段(100-500bp)使用FAM标记的引物通过PCR用FAM进行端标记。3'UTRRNA和5'UTR RNA使用T7 RNA聚合酶体外产生并纯化。逆转录转座酶蛋白在体外转录/翻译系统(例如，PURExpress)中合成。在合成后，在10μL反应的情况下将1μL的蛋白质添加到含50nM的标记的DNA和100ng的3'或5'UTR RNA的结合缓冲液(例如，20mM HEPES pH 7.5、2.5mM Tris pH 7.5、10mM NaCl、0.0625mM EDTA、5mM TCEP、0.005％ BSA、1ug/mL poly(dI-dC)和5％甘油)中。将结合在30°下温育40分钟，然后添加2μL的6X加载缓冲液(60mMKCl、10mM Tris pH 7.6、50％甘油)。将结合反应在5％ TBE凝胶上分离并可视化。在存在逆转录转座酶蛋白和靶DNA的情况下3'或5'UTR的偏移可归因于成功结合，并且指示逆转录转座酶活性。此测定也可以用逆转录转座酶截短或突变，以及使用大肠杆菌提取物或经纯化的蛋白质进行。

实例5-靶DNA验证的切割(预示性)

为了确认逆转录转座酶涉及靶DNA的切割，使用FAM标记的引物通过PCR，用FAM在两端处标记短(约140bp)DNA片段。体外转录/翻译逆转录转座酶产物与1μg的RNA酶A(阴性对照)或3'UTR、5'UTR或非特异性RNA片段(对照)一起预温育，然后在37℃下与标记的靶DNA一起温育。然后在变性凝胶上分析DNA。DNA的一条或两条链的切割可以导致各种大小的标记的片段，所述片段在凝胶上以不同速率迁移。

实例6-大肠杆菌中的整合酶活性(预示性)

经工程化的大肠杆菌菌株用表达逆转录转座子基因的质粒和含有温度敏感复制起点的质粒转化，所述温度敏感复制起点具有侧接整合所需的逆转录转座子的5'和3'UTR的可选择标志物。然后通过选择在限制温度下进行质粒复制来筛选诱导这些基因表达的转化子以将标志物转移到基因组靶标，并且通过PCR确认基因组中的标志物整合。

使用无偏方法筛选整合。简而言之，用Tn5标记经纯化的gDNA，并且然后使用对Tn5标记和可选择标志物具有特异性的引物对所关注的DNA进行PCR扩增。然后制备扩增子以用于NGS测序。对所得序列的分析修剪转座子序列，并且将侧接序列映射到基因组以确定插入位置，并且确定插入速率。

实例7-将逆转录的DNA整合到哺乳动物基因组中(预示性)

为了显示哺乳动物细胞中的靶向和切割活性，将整合酶蛋白在大肠杆菌或sf9细胞中在N末端、C末端或蛋白质序列的两个末端用2个NLS肽纯化。合成含有可选择新霉素抗性标志物(NeoR)或侧接转座所需的5'和3'UTR区的荧光标志物并且在CMV启动子的控制下的质粒。将细胞用质粒转染，回收4-6小时以进行RNA转录，并且随后用经纯化的整合酶蛋白电穿孔。通过G418抗性集落计数(选择在转染后7天开始)定量整合到基因组中的抗生素抗性，并且通过荧光激活的细胞计量术测定荧光标志物的阳性转座。在第二转染后7-10天，提取基因组DNA并用于制备NGS文库。通过使基因组片段化并制备转座子标志物的扩增子和侧接DNA以用于NGS文库制备来测定脱靶频率。选择至少40个不同的靶位点用于测试每个靶向系统的活性。

哺乳动物细胞中的整合也可以通过RNA递送来评估。设计了编码具有2个NLS的逆转录转座酶的RNA，并且添加帽和polyA尾部。第二RNA被设计成含有可选择新霉素抗性标志物(NeoR)或侧接5'和3'UTR区的荧光标志物。通过Lipofectamine^TMRNAiMAX或转染试剂将RNA构建体引入到哺乳动物细胞中。转染后10天，提取基因组DNA以使用ddPCR和NGS测量转座效率。

实例8-RT的生物信息学发现

挖掘微生物、病毒和真核基因组的广泛组装驱动的宏基因组数据库，以检索具有逆转录酶功能的预测蛋白质。基于对PFam结构域PF00078和PF07727的命中预测超过450万个RT蛋白，其中340万个RT蛋白具有显著的e值(<1×10^-5)。在过滤RT结构域覆盖度≥70％并且预测催化残基([F/Y]XDD)的完全ORF之后，保留近五十万个蛋白质用于进一步分析。从这组蛋白质以及从公共数据库中检索的参考序列中提取RT结构域。用MMseqs2易簇(MMseqs2easy-cluster)将结构域序列在80％覆盖度内以50％同一性聚类(《生物信息学(Bioinformatics)》2016年5月1日；32(9):1323-30)，用参数--全球配对--大(--globalpair--large)将代表性序列(总共26,824个)与MAFFT进行比对(《生物信息学》2016；32:3246-3251)，并且将结构域比对用于推断具有FastTree2的系统发育树(《公共科学图书馆综合(Plos One)》2010；5:e9490)。RT结构域的系统发育分析表明，回收了许多不同类别的具有高序列多样性的RT(图4)。

实例9-非LTR逆转录转座子(MG148家族)

逆转录转座子相关的RT生物信息学分析

逆转录转座子相关的RT的MG148家族包含非常不同的RT同源物，通过所有预期催化残基和多个Zn结合带基序的存在预测所述同源物是有活性的(图5A和5B)。若干家族成员在核苷酸水平上的比对揭示了5'UTR内的保守区，所述保守区可能涉及RT功能、活性或动员(图5C)。

通过qPCR测试逆转录转座子RT的体外活性

通过引物延伸反应评估逆转录转座子RT的体外活性，所述引物延伸反应含有源自无细胞表达系统(PURExpress，NEB公司(NEB))的RT酶和100nM的RNA模板(200nt)，所述模板退火到含有40mM Tris-HCl(pH 7.5)、0.2M NaCl、10mM MgCl₂、1mM TCEP和0.5mM dNTP的反应缓冲液中的DNA引物。所得全长cDNA产物通过qPCR通过从用已知浓度的DNA模板产生的标准曲线外推值来定量。MG148家族成员MG140-33-R2到MG140-34-R2(SEQ ID NO:5-6)、MG140-42-R2到MG140-44-R2(SEQ ID NO:14-16)和MG148-12(SEQ ID NO:32)在cDNA合成中具有活性，如通过引物延伸所确定的(图6)。

实例10-II组内含子RT(MG153家族)

II组内含子生物信息学分析

II组内含子能够通过RNA模板的逆转录将大货物整合到靶位点中。来自II组内含子的RT结构域在图4的系统发育树中鉴定并描绘。用参数--全球配对--大将含有来自具有>2kb的序列侧接RT酶的重叠群的RT结构域的超过10,000个独特的全长II组内含子蛋白与MAFFT进行比对。从该比对推断出系统发育树，并进一步鉴定了II组内含子家族(图7)。鉴定了C类的II组内含子，并且其结构域架构包含预测为活性的RT结构域，以及涉及内含子动员的成熟酶结构域。一些II组内含子蛋白含有可能涉及靶识别和切割的另外的核酸内切酶结构域。来自鉴定的所有家族的许多候选物被提名用于实验室表征。

测试II组内含子RT C类的体外活性

通过引物延伸反应评估GII内含子C类(MG153)RT的体外活性，所述引物延伸反应含有源自无细胞表达系统(PURExpress，NEB公司)的RT酶。针对大肠杆菌对表达构建体进行密码子优化，并且含有N末端单个Strep标签。通过SDS-PAGE分析确认RT的表达。用于反应的底物是100nM的退火到5'-FAM标记的引物的RNA模板(200nt)。反应缓冲液含有以下组分：50mM Tris-HCl(pH 8.0)、75mM KCl、3mM MgCl₂、10mM DTT和0.5mM dNTP。在37℃下温育1小时之后，将反应通过用RNA酶H(NEB公司)温育淬灭，然后添加2X RNA加载染料(NEB公司)。将所得cDNA产物在10％变性聚丙烯酰胺凝胶上分离，并且在Gel Green设置(Gel Greensetting)下使用ChemiDoc可视化。还通过qPCR用扩增全长cDNA产物的引物评估RT活性。稀释来自引物延伸测定的产物，以确保cDNA浓度在线性检测范围内。cDNA的量通过从用已知浓度的DNA模板产生的标准曲线外推值来定量。通过检测变性凝胶上的cDNA产物并通过qPCR，以下GII内含子C类候选物在这些实验条件下是有活性的：MG153-22到MG153-24(SEQID NO:42-44)。(图8)。

人细胞cDNA合成结果

通过在哺乳动物细胞中表达这些酶并通过PCR，然后通过琼脂糖电泳和D1000TapeStation检测cDNA合成来测试这些酶在哺乳动物环境中产生cDNA的能力。除了flag-HA标签(FH)之外，将逆转录酶克隆在质粒中以在CMV启动子下进行哺乳动物表达，作为在N末端处具有MS2包衣蛋白(MCP)的融合蛋白。MCP是源自MS2噬菌体的以高亲和力(亚纳摩尔Kd)识别20个核苷酸RNA茎环的蛋白质。通过将RT与MCP融合并且在RNA模板中具有MS2环，确保RT一旦被翻译就找到RNA模板并从与RNA模板杂交的DNA引物开始cDNA合成。

将含有与RT候选物融合的MCP的质粒在CMV启动子下克隆并分离以在HEK293T细胞中转染。使用lipofectamine 2000进行转染。根据制造商说明书，使用mMESSAGE mMACHINE(赛默飞世尔公司(Thermo Fisher))制备编码纳米荧光素酶的mRNA。为了降解mRNA制备中留下的任何DNA模板，将反应用Turbo DNA酶(赛默飞世尔公司)处理1小时，并且使用MEGAclear Transcription Clean-Up试剂盒(赛默飞世尔公司)清洁mRNA。将mRNA在95℃下与互补DNA引物在10mM Tris pH 7.5、50mM NaCl中杂交2分钟，并以0.1℃/秒的速率冷却至4℃。在转染含有MCP-RT融合体的质粒后6小时之后，使用Lipofectamine Messenger Max将mRNA/DNA杂交体转染到HEK293T细胞中。在mRNA/DNA转染后18小时，将细胞使用QuickExtraDNA提取溶液(卢西根公司(Lucigen))裂解，在24孔板中每24孔添加100μL的快速提取物。纳米荧光素酶为约500bp长，设计用于扩增来自新合成cDNA的100bp和542bp的产物的引物。使用上文所提及的引物组扩增cDNA，并且通过琼脂糖凝胶电泳或DNATape Station检测PCR产物。

检测到对照GII内含子RT TGIRT的活性(图9)，如500bp DNA产物的存在所示。此外，还示出了新颖GII内含子源性RT、MG153-23(SEQ ID NO:43)的cDNA合成活性(图9)。总的来说，这表明这些新发现的RT被表达、正确折叠并且在活哺乳动物细胞内是活性的，从而为其生物技术应用提供了选择。

人细胞RT表达和cDNA合成结果

在进行小修饰的情况下测试了新颖GII RT在哺乳动物细胞环境中合成cDNA的能力，如先前所描述的。cDNA合成先前使用PCR检测，并通过琼脂糖凝胶电泳和/或TapeStation进行分析。为了进行定量读出，使用先前用Taqman探针“ACTCTGTGAGCGGATCTTGGCTTAGCC”描述的Taqman qPCR引物开发Taqman qPCR测定。MG153-23和MG153-24 RT在不同程度上具有活性，其中MG153-23的活性与TGIRT对照的活性几乎一样(图12)。

为了理解GII RT在哺乳动物细胞中的蛋白质表达和稳定性，进行免疫印迹。简而言之，用补充有蛋白酶抑制剂的RIPA裂解缓冲液(赛默飞世尔公司)(80μL/孔，呈24孔形式)裂解经转染的细胞。将裂解物在4℃下以14,000g离心10分钟，以便去除不溶性聚集体。使用BCA定量蛋白质。在4-12％聚丙烯酰胺SDS凝胶(赛默飞世尔公司)中每条泳道加载3或10ug的总蛋白。所有泳道相对于相同量的蛋白质归一化。使用iBlot凝胶转移系统(英杰公司(Invitrogen))将蛋白质转移到PVDF膜。通过使用兔HA抗体(细胞信号传导公司(CellSignaling))，使用基于HRP的检测方法来检测蛋白质。结果表明MG153-23在人细胞中表达，如带的强度给出的(图13)。当通过定量表达使cDNA合成归一化时，MG153-23 RT优于TGIRT对照六倍以上(图14)。

实例11-逆转录子样RT(MG160家族)

逆转录子生物信息学分析

细菌逆转录子是长度为大约2000bp的编码RT编码基因(ret)和含有反向序列msr和msd的连续非编码RNA的DNA元件。逆转录子采用独特的RT-DNA合成机制，其中ncRNA模板折叠成保守的二级结构，在两个反向重复序列(a1/a2)之间绝缘。逆转录子RT识别折叠的ncRNA，并且逆转录由邻近反向重复序列的保守鸟苷2'OH引发，从而在模板RNA与新生cDNA链之间形成2'-5'连接。在一些逆转录子中，这种2'-5'连接持续到经处理的RT-DNA的成熟形式中，而在其它逆转录子中，核酸外切酶切割DNA产物，从而产生游离的5'端。此外，RT仅靶向源自与其RNA模板相同的逆转录子的msr-msd，从而提供可以避免脱靶逆转录的特异性。

一组不同的“逆转录子样”单结构域RT序列在图4中的逆转录子进化枝内鉴定。MG160家族的单结构域RT的范围在250与300aa之间，并且基于预期RT催化残基[F/Y]XDD的存在而被预测为具有活性。MG160家族的5'UTR在家族成员中是保守的并折叠成保守的二级结构(图10)，这对元件活性或动员可能是重要的。

测试逆转录子样RT的MG160家族的体外活性

通过引物延伸反应评估逆转录子样RT(MG160家族)的体外活性，所述引物延伸反应含有源自无细胞表达系统(PURExpress，NEB公司)的RT酶。针对大肠杆菌对表达构建体进行密码子优化，并且含有N末端单个Strep标签。用于反应的底物是100nM的退火到5'-FAM标记的引物的RNA模板(200nt)。反应缓冲液含有以下组分：50mM Tris-HCl(pH 8.0)、75mMKCl、3mM MgCl₂、10mM DTT和0.5mM dNTP。在37℃下温育1小时之后，将反应通过用RNA酶H(NEB公司)温育淬灭，然后添加2X RNA加载染料(NEB公司)。将所得cDNA产物在10％变性聚丙烯酰胺凝胶上分离，并且在Gel Green设置下使用ChemiDoc可视化。还通过qPCR用扩增全长cDNA产物的引物评估RT活性。稀释来自引物延伸测定的产物，以确保cDNA浓度在线性检测范围内。cDNA的量通过从用已知浓度的DNA模板产生的标准曲线外推值来定量。通过凝胶分析并通过qPCR，MG160-7(SEQ ID NO:45)是活性的(图11)。

实例12-逆转录子RT的无细胞表达和逆转录子ncRNA的体外转录(预示性)

通过在37℃下用PURExpress组分将10ng/μL的编码大肠杆菌优化的基因的DNA模板与N末端单个Strep标签一起温育2小时，在无细胞表达系统(PURExpress)中产生逆转录子RT。所有测试的逆转录子RT如SDS-PAGE分析所指示的那样表达。

在T7启动子之后，使用HiScribe T7体外转录试剂盒(NEB公司)和编码相应ncRNA基因的DNA模板产生逆转录子ncRNA。然后将反应与DNA酶-I一起温育以消除DNA模板，并通过RNAcleanup试剂盒(Monarch公司(Monarch))纯化。ncRNA的量通过纳米滴确定，并且纯度通过TapeStation RNA分析测定。

实例13-测试逆转录子RT体外活性(预示性)

使用含有具有如上文所描述的N末端Strep标签的大肠杆菌密码子优化基因的构建体在无细胞表达系统中产生逆转录子RT酶。通过SDS-PAGE分析确认酶的表达。通过如上文所描述的引物延伸测定来确定通用模板上的逆转录子RT活性，所述引物延伸测定含有退火到5'-FAM标记的DNA引物的200nt RNA。在变性聚丙烯酰胺凝胶上或通过qPCR使用对全长cDNA产物具有特异性的引物来检测所得cDNA产物。

在含有缓冲液、dNTP、由无细胞表达系统产生的逆转录子RT和重折叠的ncRNA的反应中评估逆转录子RT对其自身ncRNA的体外活性。比较通过N末端单个Strp标签从无细胞表达系统纯化RT之前和之后的RT活性。在温育之后，用RNA酶A/T1处理一半反应。在变性聚丙烯酰胺凝胶上评估RNA酶A/T1处理之前和之后的产物，并通过SYBR金染色可视化。RNA酶A/T1应消化掉RNA模板，并且导致朝向仅含有ssDNA的较小产物的质量偏移。由于预期RNA酶H改善5'和3'ssDNA边界的均质性，因此还通过凝胶分析评估RNA酶H对产物分布的影响。ncRNA模板与ssDNA之间的共价连接通过在用脱支酶(DBR1)处理之前或之后将RT产物与5'至3'ssDNA核酸外切酶(RecJ)一起温育来确认。RecJ应仅在DBR1已去除RNA与ssDNA之间的2'-5'磷酸二酯连接之后才能降解ssDNA。

实例14-通过NGS确定逆转录子msr-msd边界(预示性)

在通过DBR1去除2'-5'磷酸二酯连接之后，通过衔接子序列与msDNA产物的5'和3'端的无偏连接来确定msr-msd边界。将所得连接的产物进行PCR扩增，文库制备，并进行下一代测序。将测序读段与参考序列进行比对以确定msd的5'和3'边界。还评估了RT反应中RNA酶H的存在对5'和3'msd边界的均质性的影响。

实例15-对插入到msd中的序列的RT活性的系统评估(预示性)

将不同长度、预测的二级结构和GC含量的序列插入到在由NGS和ncRNA的二级结构预测确定的msd边界通知的所选插入位点处的msd中。通过凝胶分析或NGS评估这些插入序列对RT活性的影响，如上文所描述的。

实例16-测试RT的体外活性(预示性)

使用引物延伸测定评估RT活性，所述引物延伸测定含有源自无细胞表达系统的RT和退火到DNA引物的RNA模板，如上文所描述的。通过变性聚丙烯酰胺凝胶和qPCR检测所得cDNA产物，如上文所描述的。检测变性凝胶上的cDNA滴落产物提供了对新颖候选物的持续合成能力的相对评估。

实例17-评估RT的启动要求(预示性)

通过测试RT在退火到长度为6、8、10、13、16或20个核苷酸的5'-FAM标记的DNA引物的RNA模板上的活性来确定引物长度偏好。RT源自如上所述的无细胞表达系统。在温育反应之后，通过添加RNA酶H淬灭反应。在变性聚丙烯酰胺凝胶上分析cDNA产物的大小分布，如上文所描述的。最佳引物长度被确定为使RT能够将最多的引物转化为cDNA产物的长度。然后，在如保真度和持续合成能力测定等后续实验中使用实验确定的最佳引物长度，以进一步表征体外RT。

实例18-评估RT保真度(预示性)

为了考虑在PCR和测序期间引入的错误，通过如上文所描述的引物延伸测定来评估RT保真度，不同之处在于引物中包含14-nt独特分子标识符(UMI)条形码以用于逆转录反应。将所得全长cDNA产物进行PCR扩增，文库制备，并进行下一代测序。分析具有>5个读段的条形码。在与参考序列进行比对之后，突变、插入和缺失仅在具有相同条形码的所有序列读段中存在错误时才计数。一个但并非所有测序读段中存在的错误被视为是在PCR或测序期间引入的。除了鉴定RNA模板内的突变热点之外，还对取代、插入和缺失图谱进行了进一步分析。保真度测量还将用模板中的经修饰的碱基，例如假尿苷来进行。

实例19-确定RT的持续合成能力系数(预示性)

使用引物延伸测定来评估RT持续合成能力，所述引物延伸测定含有源自如上文所描述的无细胞表达系统的RT酶和长度在1.6kb-6.6kb之间的RNA模板，所述模板退火到5'-FAM标记的引物(用于凝胶分析)或未标记的引物(用于测序分析)。

在单循环条件下进行逆转录反应以预防在cDNA合成期间从RNA模板脱落的RT酶的再结合。实验确定实现单循环条件的最佳捕集分子和浓度。如果在反应起始之前温育，则所选条件应提供对cDNA合成的充分抑制，否则不应影响反应的速度。要测试的最佳捕集分子包含不相关RNA模板和退火到各种长度的DNA引物的不相关RNA模板。

一旦单循环反应条件得到优化，就通过在用退火到反应缓冲液中的DNA引物的RNA模板来预平衡RT之后，通过添加dNTP和所选捕集分子来引发反应来评估持续合成能力。在温育反应之后，通过添加RNA酶H淬灭反应。在如上文所描述的变性聚丙烯酰胺凝胶上分析cDNA产物的大小分布和/或进行PCR和文库制备用于长读段测序。从这些实验中，将持续合成能力系数定量为产生50％的全长cDNA产物的模板长度。来自单循环引物延伸反应的cDNA产物的中值长度用于评估RT将在测试的模板上解离的概率。由此，计算RT将在每个核苷酸位置处解离的概率，假设每个解离是独立事件，并且解离的概率在所有核苷酸位置处相等。然后，将表示50％的RT解离所需的模板长度的持续合成能力系数确定为1/(2*P_d)，其中P_d是每个核苷酸处的解离概率。

实例20-引物延伸上的激发结构的系统分析(预示性)

为了评估激发模板对RT活性的影响，在进行修饰的情况下如上所述进行引物延伸反应。RNA模板含有引物结合位点下游固定距离(100-300nt)处的以下激发基序之一：均聚物拉伸、热力学稳定的富含GC的茎环、假结、tRNA、GII内含子和含有碱基或主链修饰(即假尿苷、硫代磷酸酯键)的RNA模板。在淬灭反应之后，通过使聚丙烯酰胺凝胶变性来分析cDNA产物的大小分布。衔接子序列也使用T4连接酶与cDNA产物的3'端无偏地连接。然后将连接的产物进行PCR扩增，以及文库制备用于下一代测序，以鉴定RT错误掺入/插入/缺失的位点和具有单核苷酸分辨率的RT滴落的位点两者。通过将与滴落产物相对应的测序读段的数目和与全长产物相对应的测序读段的数目进行比较来定量给定位置处的RT滴落的程度。

实例21-评估非模板化碱基添加(预示性)

通过下一代测序评估cDNA产物的5'末端的非模板化碱基添加。进行引物延伸反应，所述引物延伸反应含有源自无细胞表达系统和RNA模板的RT，如上文所描述的。测试在5'端处的不同RNA模板长度和序列基序的系统分析。衔接子序列通过T4连接酶与所得cDNA产物的3'端无偏地连接，导致捕获所有cDNA产物，尽管其3'端具有潜在的异构性质。然后将连接的产物进行PCR扩增，以及文库制备，用于下一代测序。将预期全长cDNA参考序列与实验产生的长于全长的cDNA序列进行比较能够鉴定未由RNA模板化的5'端的碱基添加的类型和数量两者。

实例22-确定R2样系统的活性和持续合成能力的5'和3'UTR要求(预示性)

在大肠杆菌中进行IPTG诱导过表达之后，通过Twin-strep标签纯化所关注的蛋白质。针对1kb和4kb货物测试经纯化的蛋白质，所述货物侧接从其天然上下文鉴定的3'UTR和5'UTR加超过起始密码子的400bp。5'和3'侧接序列对活性的影响通过qPCR对模板端部附近的部分进行测定，以确定具有这些天然特征的货物是否是优选的底物。

实例23-人细胞cDNA合成结果(预示性)

将含有与RT候选物融合的MCP的质粒在CMV启动子下克隆并分离以在HEK293T细胞中转染。使用lipofectamine 2000进行转染。根据制造商说明书，使用mMESSAGE mMACHINE(赛默飞世尔公司)制备mRNA编码纳米荧光素酶。为了降解mRNA制备中留下的任何DNA模板，将反应用Turbo DNA酶(赛默飞世尔公司)处理1小时，并且使用MEGAclear TranscriptionClean-Up试剂盒(赛默飞世尔公司)清洁mRNA。将mRNA在95℃下与互补DNA引物在10mM TrispH 7.5、50mM NaCl中杂交2分钟，并以0.1℃/秒的速率冷却至4℃。在转染含有MCP-RT融合体的质粒后6小时之后，使用Lipofectamine Messenger Max将mRNA/DNA杂交体转染到HEK293T细胞中。在mRNA/DNA转染后18小时，将细胞使用QuickExtra DNA提取溶液(卢西根公司(Lucigen))裂解，在24孔板中每24孔添加100μL的快速提取物。纳米荧光素酶为约500bp长，设计用于扩增来自新合成cDNA的100bp和542bp的产物的引物。使用上文所提及的引物组扩增cDNA，并且通过琼脂糖凝胶电泳或DNATape Station检测PCR产物。

实施例24-RT cDNA合成活性可以用于多种应用(预示性)

依赖于RNA生物学中重要的RNA的过程，如表达、加工、修饰和半衰期，以及生物技术中的质量控制步骤，需要关键步骤：RNA转化为cDNA。因此，多年来，已经使用多个RT来产生cDNA文库。用于这些目的的可商购获得的RT包含MMLV RT、AMV RT和GsI-IIC RT(TGIRT)。前两者表示逆转录病毒RT，而后者是GII内含子源性RT。GII内含子源性RT以及非LTR源性RT与其逆转录病毒对应物相比显示出若干优点。例如，其更具过程性，通过结构和经修饰的RNA进行读取。结构和/或经修饰的RNA不能被逆转录病毒RT适当地逆转录，因为其产生可以被误解为RNA片段的提前终止产物。另外，可以利用一些RT的模板切换的能力来早期添加衔接子，从而在文库制备期间去除衔接子连接步骤。因此，高度处理性RT适合于产生具有复杂RNA的文库。此外，一些高度处理性RT通常小于目前使用的逆转录病毒RT，使得其产生和相关联的下游步骤更容易。本文所公开的数据表明，本文所描述的若干新颖RT优于可商购获得的TGIRT酶，其中一些的活性是其cDNA合成活性的六倍。因此，这些新颖RT中的许多对于其cDNA合成试剂盒的商业应用显示出巨大的前景。

表2-本文提及的蛋白质和核酸序列

虽然已经在本文示出并描述了本发明的优选实施例，但是对本领域的普通技术人员而言应该显而易见是此类实施例仅以举例方式提供。本发明不旨在受说明书中提供的具体实施例的限制。虽然已参考前述说明书描述本发明，但本文实施例的描述和说明不打算以限制性意义进行。在不脱离本发明的情况下，所属领域的技术人员现在将意识到许多变型、变化和替代物。此外，应当理解，本发明的全部方面不限于本文所阐述的具体描述、配置或相对比例，其取决于各种条件和变量。应理解，本文所描述的本发明的实施例的各个替代方案都可以用于实践本发明。因此，经考虑本发明应同样涵盖任何这类替代方案、修改、变型或等效物。所附权利要求书旨在限定本发明的范围，并且由此覆盖这些权利要求和其等效物的范围内的方法和结构。

Claims

1.一种经工程化的逆转录转座酶系统，其包括：

(a)双链核酸，所述双链核酸包括货物核苷酸序列，其中所述货物核苷酸序列被配置成与逆转录转座酶相互作用；以及

(b)逆转录转座酶，其中：

(i)所述逆转录转座酶被配置成将所述货物核苷酸序列转座至靶核酸基因座；并且

(ii)所述逆转录转座酶源自未培养的微生物。

2.根据权利要求1所述的经工程化的逆转录转座酶系统，其中所述逆转录转座酶包括与SEQ ID NO:1-16中的任一者具有至少75％序列同一性的序列。

3.根据权利要求1或权利要求2所述的经工程化的逆转录转座酶系统，其中所述逆转录转座酶包括逆转录酶结构域。

4.根据权利要求1至3中任一项所述的经工程化的逆转录转座酶系统，其中所述逆转录转座酶进一步包括一个或多个锌指结构域。

5.根据权利要求1至4中任一项所述的经工程化的逆转录转座酶系统，其中所述逆转录转座酶进一步包括核酸内切酶结构域。

6.根据权利要求1至5中任一项所述的经工程化的逆转录转座酶系统，其中所述逆转录转座酶与已知逆转录转座酶具有小于80％序列同一性。

7.根据权利要求1至6中任一项所述的经工程化的逆转录转座酶系统，其中所述货物核苷酸序列侧接3'非翻译区(UTR)和5'非翻译区(UTR)。

8.根据权利要求1至7中任一项所述的经工程化的逆转录转座酶系统，其中所述逆转录转座酶被配置成通过核糖核酸多核苷酸中间体转座所述货物核苷酸序列。

9.根据权利要求1至8中任一项所述的经工程化的逆转录转座酶系统，其中所述逆转录转座酶包括邻近所述逆转录转座酶的N末端或C末端的一个或多个核定位序列(NLS)。

10.根据权利要求1至9中任一项所述的经工程化的逆转录转座酶系统，其中所述NLS包括与来自由SEQ ID NO:17-32组成的组的序列至少80％相同的序列。

11.根据权利要求1至10中任一项所述的经工程化的逆转录转座酶系统，其中所述序列同一性是通过BLASTP、CLUSTALW、MUSCLE、MAFFT或CLUSTALW使用史密斯-沃特曼同源性搜索算法(Smith-Waterman homology search algorithm)的参数来确定的。

12.根据权利要求11所述的经工程化的逆转录转座酶系统，其中所述序列同一性是通过所述BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在11，扩展为1并且使用条件组成评分矩阵调整来确定的。

13.一种经工程化的逆转录转座酶系统，其包括：

(b)逆转录转座酶，其中：

(ii)所述逆转录转座酶包括与SEQ ID NO:1-16中的任一者具有至少75％序列同一性的序列。

14.根据权利要求13所述的经工程化的逆转录转座酶系统，其中所述逆转录转座酶源自未培养的微生物。

15.根据权利要求13或权利要求14所述的经工程化的逆转录转座酶系统，其中所述逆转录转座酶包括逆转录酶结构域。

16.根据权利要求13至15中任一项所述的经工程化的逆转录转座酶系统，其中所述逆转录转座酶进一步包括一个或多个锌指结构域。

17.根据权利要求13至16中任一项所述的经工程化的逆转录转座酶系统，其中所述逆转录转座酶进一步包括核酸内切酶结构域。

18.根据权利要求13至17中任一项所述的经工程化的逆转录转座酶系统，其中所述逆转录转座酶与已知逆转录转座酶具有小于80％序列同一性。

19.根据权利要求13至18中任一项所述的经工程化的逆转录转座酶系统，其中所述货物核苷酸序列侧接3'非翻译区(UTR)和5'非翻译区(UTR)。

20.根据权利要求13至19中任一项所述的经工程化的逆转录转座酶系统，其中所述逆转录转座酶被配置成通过核糖核酸多核苷酸中间体转座所述货物核苷酸序列。

21.根据权利要求13至20中任一项所述的经工程化的逆转录转座酶系统，其中所述序列同一性是通过BLASTP、CLUSTALW、MUSCLE、MAFFT或CLUSTALW使用史密斯-沃特曼同源性搜索算法的参数来确定的。

22.根据权利要求21所述的经工程化的逆转录转座酶系统，其中所述序列同一性是通过所述BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在11，扩展为1并且使用条件组成评分矩阵调整来确定的。

23.一种脱氧核糖核酸多核苷酸，其编码根据权利要求1至22中任一项所述的经工程化的逆转录转座酶系统。

24.一种核酸，其包括为在生物体中表达而优化的经工程化的核酸序列，其中所述核酸编码逆转录转座酶，并且其中所述逆转录转座酶源自未培养的微生物，其中所述生物体不是所述未培养的微生物。

25.根据权利要求24所述的核酸，其中所述逆转录转座酶包括与SEQ ID NO:1-16中的任一者具有至少75％序列同一性的变体。

26.根据权利要求24或权利要求25所述的核酸，其中所述逆转录转座酶包括编码邻近所述逆转录转座酶的N末端或C末端的一个或多个核定位序列(NLS)的序列。

27.根据权利要求26所述的核酸，其中所述NLS包括选自SEQ ID NO:17-32的序列。

28.根据权利要求26或27所述的核酸，其中所述NLS包括SEQ ID NO:18。

29.根据权利要求28所述的核酸，其中所述NLS邻近所述逆转录转座酶的所述N末端。

30.根据权利要求26或27所述的核酸，其中所述NLS包括SEQ ID NO:17。

31.根据权利要求30所述的核酸，其中所述NLS邻近所述逆转录转座酶的所述C末端。

32.根据权利要求24至31中任一项所述的核酸，其中所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿动物或人。

33.一种载体，其包括根据权利要求24至32中任一项所述的核酸。

34.根据权利要求33所述的载体，其进一步包括编码货物核苷酸序列的核酸，所述货物核苷酸序列被配置成与所述逆转录转座酶形成复合物。

35.根据权利要求33或权利要求34所述的载体，其中所述载体是质粒、微环、CELiD、腺相关病毒(AAV)源性病毒体或慢病毒。

36.一种细胞，其包括根据权利要求33至35中任一项中任一项所述的载体。

37.一种产生逆转录转座酶的方法，所述方法包括培养根据权利要求36所述的细胞。

38.一种用于结合、切刻、切割、标记、修饰或转座双链脱氧核糖核酸多核苷酸的方法，所述方法包括：

(a)使所述双链脱氧核糖核酸多核苷酸与逆转录转座酶接触，所述逆转录转座酶被配置成将所述货物核苷酸序列转座至靶核酸基因座；以及

(b)其中所述逆转录转座酶包括与SEQ ID NO:1-16中的任一者具有至少75％序列同一性的序列。

39.根据权利要求38所述的方法，其中所述逆转录转座酶源自未培养的微生物。

40.根据权利要求38或权利要求39所述的经工程化的逆转录转座酶系统，其中所述逆转录转座酶包括逆转录酶结构域。

41.根据权利要求38至40中任一项所述的经工程化的逆转录转座酶系统，其中所述逆转录转座酶进一步包括一个或多个锌指结构域。

42.根据权利要求38至41中任一项所述的经工程化的逆转录转座酶系统，其中所述逆转录转座酶进一步包括核酸内切酶结构域。

43.根据权利要求38至42中任一项所述的方法，其中所述逆转录转座酶与已知逆转录转座酶具有小于80％序列同一性。

44.根据权利要求38至43中任一项所述的经工程化的逆转录转座酶系统，其中所述货物核苷酸序列侧接3'非翻译区(UTR)和5'非翻译区(UTR)。

45.根据权利要求38至44中任一项所述的方法，其中所述双链脱氧核糖核酸多核苷酸通过核糖核酸多核苷酸中间体转座。

46.根据权利要求38至45中任一项所述的方法，其中所述双链脱氧核糖核酸多核苷酸是真核生物、植物、真菌、哺乳动物、啮齿动物或人双链脱氧核糖核酸多核苷酸。

47.一种修饰靶核酸基因座的方法，所述方法包括向所述靶核酸基因座递送根据权利要求1至22中任一项所述的经工程化的逆转录转座酶系统，其中所述逆转录转座酶被配置成将所述货物核苷酸序列转座至所述靶核酸基因座，并且其中所述复合物被配置成使得在所述复合物与所述靶核酸基因座结合时，所述复合物修饰所述靶核酸基因座。

48.根据权利要求47所述的方法，其中修饰所述靶核酸基因座包括结合、切刻、切割、标记、修饰或转座所述靶核酸基因座。

49.根据权利要求47至48所述的方法，其中所述靶核酸基因座包括脱氧核糖核酸(DNA)。

50.根据权利要求49所述的方法，其中所述靶核酸基因座包括基因组DNA、病毒DNA或细菌DNA。

51.根据权利要求47至50中任一项所述的方法，其中所述靶核酸基因座在体外。

52.根据权利要求47至50中任一项所述的方法，其中所述靶核酸基因座在细胞内。

53.根据权利要求52所述的方法，其中所述细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞、人细胞或原代细胞。

54.根据权利要求52或53所述的方法，其中所述细胞是原代细胞。

55.根据权利要求54所述的方法，其中所述原代细胞是T细胞。

56.根据权利要求54所述的方法，其中所述原代细胞是造血干细胞(HSC)。

57.根据权利要求47至56中任一项所述的方法，其中将所述经工程化的逆转录转座酶系统递送至所述靶核酸基因座包括递送根据权利要求24至32中任一项所述的核酸或根据权利要求33至35中任一项所述的载体。

58.根据权利要求47至57中任一项所述的方法，其中将所述经工程化的逆转录转座酶系统递送至所述靶核酸基因座包括递送包括编码所述逆转录转座酶的开放阅读框的核酸。

59.根据权利要求58所述的方法，其中所述核酸包括与编码所述逆转录转座酶的所述开放阅读框可操作地连接的启动子。

60.根据权利要求47至59中任一项所述的方法，其中将所述经工程化的逆转录转座酶系统递送至所述靶核酸基因座包括递送含有编码所述逆转录转座酶的所述开放阅读框的加帽mRNA。

61.根据权利要求47至60中任一项所述的方法，其中将所述经工程化的逆转录转座酶系统递送至所述靶核酸基因座包括递送翻译的多肽。

62.根据权利要求47至61中任一项所述的方法，其中所述逆转录转座酶不在所述靶核酸基因座处或附近诱导断裂。

63.一种宿主细胞，其包括编码与SEQ ID NO:1-16中的任一者或其变体具有至少75％序列同一性的异源性逆转录转座酶的开放阅读框。

64.根据权利要求63所述的宿主细胞，其中所述宿主细胞是大肠杆菌细胞。

65.根据权利要求64所述的宿主细胞，其中所述大肠杆菌细胞是λDE3溶素原，或者所述大肠杆菌细胞是BL21(DE3)菌株。

66.根据权利要求64或权利要求65所述的宿主细胞，其中所述大肠杆菌细胞具有ompTlon基因型。

67.根据权利要求63至66中任一项所述的宿主细胞，其中所述开放阅读框与以下可操作地连接：T7启动子序列、T7-lac启动子序列、lac启动子序列、tac启动子序列、trc启动子序列、ParaBAD启动子序列、PrhaBAD启动子序列、T5启动子序列、cspA启动子序列、araP_BAD启动子、来自噬菌体λ的强向左启动子(pL启动子)或其任何组合。

68.根据权利要求63至67中任一项所述的宿主细胞，其中所述开放阅读框包括编码与编码所述逆转录转座酶的序列框内连接的亲和标签的序列。

69.根据权利要求68所述的宿主细胞，其中所述亲和标签是固定化金属亲和色谱法(IMAC)标签。

70.根据权利要求69所述的宿主细胞，其中所述IMAC标签是聚组氨酸标签。

71.根据权利要求68所述的宿主细胞，其中所述亲和标签是myc标签、人流感血凝素(HA)标签、麦芽糖结合蛋白(MBP)标签、谷胱甘肽S-转移酶(GST)标签、链霉亲和素标签、FLAG标签或其任何组合。

72.根据权利要求68至71中任一项所述的宿主细胞，其中所述亲和标签通过编码蛋白酶切割位点的连接子序列与编码所述逆转录转座酶的所述序列框内连接。

73.根据权利要求72所述的宿主细胞，其中所述蛋白酶切割位点是烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。

74.根据权利要求63至73中任一项所述的宿主细胞，其中所述开放阅读框经密码子优化以在所述宿主细胞中表达。

75.根据权利要求63至74中任一项所述的宿主细胞，其中所述开放阅读框在载体上提供。

76.根据权利要求63至74中任一项所述的宿主细胞，其中所述开放阅读框被整合到所述宿主细胞的基因组中。

77.一种培养物，其包括在相容性液体培养基中的根据权利要求63至76中任一项所述的宿主细胞。

78.一种产生逆转录转座酶的方法，所述方法包括在相容性生长培养基中培养根据权利要求63至76中任一项所述的宿主细胞。

79.根据权利要求78所述的方法，其进一步包括通过添加另外的化学剂或增加量的营养物来诱导所述逆转录转座酶的表达。

80.根据权利要求79所述的方法，其中所述另外的化学剂或增加量的营养物包括异丙基β-D-1-硫代半乳糖苷(IPTG)或另外量的乳糖。

81.根据权利要求78至80中任一项所述的方法，其进一步包括在所述培养之后分离所述宿主细胞，并且裂解所述宿主细胞以产生蛋白提取物。

82.根据权利要求81所述的方法，其进一步包括使所述蛋白提取物经受IMAC或离子亲和色谱法。

83.根据权利要求82所述的方法，其中所述开放阅读框包括编码与编码所述逆转录转座酶的序列框内连接的IMAC亲和标签的序列。

84.根据权利要求83所述的方法，其中所述IMAC亲和标签通过编码蛋白酶切割位点的连接子序列与编码所述逆转录转座酶的所述序列框内连接。

85.根据权利要求84所述的方法，其中所述蛋白酶切割位点包括烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。

86.根据权利要求84或权利要求85所述的方法，其进一步包括通过使与所述蛋白酶切割位点相对应的蛋白酶与所述逆转录转座酶接触来切割所述IMAC亲和标签。

87.根据权利要求86所述的方法，其进一步包括执行减材IMAC亲和色谱法以从包括所述逆转录转座酶的组合物去除所述亲和标签。

88.一种破坏细胞中的基因座的方法，所述方法包括使包括以下的组合物与所述细胞接触：

(b)逆转录转座酶，其中：

(i)所述逆转录转座酶被配置成将所述货物核苷酸序列转座至靶核酸基因座；

(ii)所述逆转录转座酶包括与SEQ ID NO:1-16中的任一者具有至少75％序列同一性的序列；并且

(iii)所述逆转录转座酶与细胞中的已知逆转录转座酶具有至少等同的转座活性。

89.根据权利要求88所述的方法，其中通过将所述逆转录转座酶引入包括所述靶核酸基因座的细胞并检测所述细胞中的所述靶核酸基因座的转座来体外测量所述转座活性。

90.根据权利要求88或权利要求89所述的方法，其中所述组合物包括20皮摩尔或更少的所述逆转录转座酶。

91.根据权利要求90所述的方法，其中所述组合物包括1皮摩尔或更少的所述逆转录转座酶。