CN118076731A

CN118076731A - 涉及逆转座子和其功能片段的系统、组合物和方法

Info

Publication number: CN118076731A
Application number: CN202280062406.5A
Authority: CN
Inventors: 布莱恩·C·托马斯; 克利斯多佛·布朗; 丹妮拉·S·A·戈尔茨曼; 莎拉·拉佩里埃; 辛迪·卡斯泰勒; 利萨·亚历山大; 玛丽·凯特琳·赵; 莫拉伊玛·特莫彻-迪亚兹; 安努·托马斯
Original assignee: Macrogenomics
Current assignee: Macrogenomics
Priority date: 2021-09-08
Filing date: 2022-09-07
Publication date: 2024-05-24
Also published as: WO2023039438A1; AU2022343719A1; KR20240051994A; CA3230213A1

Abstract

本公开提供了用于将货物核苷酸序列转座到靶核酸位点的系统和方法。这些系统和方法可以包括核酸，所述核酸包括所述货物核苷酸序列和逆转座酶，其中所述货物核苷酸序列被配置成与所述逆转座酶相互作用，其中所述逆转座酶被配置成将所述货物核苷酸序列转座到所述靶核酸位点。所述系统和方法还可以涉及使用逆转座酶的功能片段。

Description

涉及逆转座子和其功能片段的系统、组合物和方法

相关申请交叉引用

本申请要求于2021年9月8日提交的标题为“用于转座货物核苷酸序列的系统和方法(SYSTEMS AND METHODS FOR TRANSPOSING CARGO NUCLEOTIDE SEQUENCES)”的美国临时申请第63/241,943号的权益，所述申请通过引用以其整体并入本文。

背景技术

转座元件是可移动DNA序列，其在基因功能和进化中起关键作用。虽然在几乎所有形式的生命中都发现转座元件，但所述转座元件的流行率在生物体之间变化，其中大部分真核基因组编码转座元件(在人类中至少45％)。

序列表

本申请含有已经以XML格式电子提交的序列表，并且特此以其整体并入。创建于2022年9月7日的所述XML副本命名为55921-734_601_SL.xml并且大小为1,677,029字节。

发明内容

虽然在20世纪40年代对转座元件进行了基础研究，但转座元件在DNA操纵和基因编辑应用中的潜在效用近年来才得到认可。

在一些方面，本公开提供了一种经工程化的逆转座酶系统，其包括：(a)RNA，所述RNA包括经异源工程化的货物核苷酸序列，其中所述货物核苷酸序列被配置成与逆转座酶相互作用；以及(b)逆转座酶，其中：(i)所述逆转座酶被配置成将所述货物核苷酸序列转座到靶核酸基因座；并且(ii)所述逆转座酶包括逆转录酶(RT)结构域、核酸内切酶结构域，所述RT结构域、核酸内切酶结构域包括与SEQ ID NO:1-29或393-401中的任一者的RT或核酸内切酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体。在一些实施例中，所述逆转座酶进一步包括SEQID NO:1-29或393-401中的任一者的Zn结合带基序中的任一者或其变体。在一些实施例中，所述逆转座酶进一步包括与SEQ ID NO:1-29或393-401中的任一者具有至少80％序列同一性的序列或其变体。在一些实施例中，其中所述逆转座酶进一步包括与图2A中的序列中的任一者相关的保守的催化D、QG、[Y/F]XDD或LG基序。在一些实施例中，所述逆转座酶进一步包括与图2B中的序列中的任一者相关的保守的CX_[2-3]C Zn指基序。在一些实施例中，所述逆转座酶包括与SEQ ID NO:3、6、7、8、14或402中的任一者具有至少80％序列同一性的序列或其变体。在一些实施例中，所述系统进一步包括：(c)包括所述靶核酸基因座的双链DNA序列。在一些实施例中，所述双链DNA序列包括5'识别序列和3'识别序列，所述5'识别序列和所述3'识别序列被配置成与所述逆转座酶相互作用，其中所述5'识别序列包括GG核苷酸序列，并且所述3'识别序列包括TGAC核苷酸序列。在一些实施例中，所述RNA是经体外转录的RNA。在一些实施例中，所述RNA包括位于所述货物序列的5'的序列或位于所述货物序列的3'的序列，所述货物序列与SEQ ID NO:761-798中的任一者的RNA同源物、其补体或其反向补体具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性。在一些实施例中，所述RNA包括编码所述逆转座酶的序列。在一些实施例中，所述经异源工程化的货物核苷酸序列包括表达盒。

在一些实施例中，本公开提供了一种经工程化的DNA序列，其包括：(a)5'序列，所述5'序列能够编码RNA序列，所述序列被配置成与逆转座酶相互作用；(b)异源货物序列；(c)编码逆转座酶的序列，所述序列被配置成与所述5'序列的RNA同源物相互作用，其中所述逆转座酶包括逆转录酶(RT)结构域或核酸内切酶结构域，所述RT结构域或核酸内切酶结构域包括与SEQ ID NO:1-29或393-401中的任一者的RT或核酸内切酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体；以及(d)3'序列，所述3'序列能够编码RNA序列，所述序列被配置成与逆转座酶相互作用。在一些实施例中，所述逆转座酶进一步包括SEQ ID NO:1-29或393-401中的任一者的Zn结合带基序中的任一者或其变体。在一些实施例中，所述逆转座酶进一步包括与SEQ ID NO:1-29或393-401中的任一者具有至少80％序列同一性的序列或其变体。在一些实施例中，所述逆转座酶进一步包括与图2A中的序列中的任一者相关的保守的催化D、QG、[Y/F]XDD或LG基序。在一些实施例中，所述逆转座酶进一步包括与图2B中的序列中的任一者相关的保守的CX_[2-3]C Zn指基序。在一些实施例中，所述逆转座酶包括与SEQ ID NO:3、6、7、8、14或402中的任一者具有至少80％序列同一性的序列或其变体。在一些实施例中，所述5'序列或所述3'序列包括与SEQ ID NO:761-798中的任一者的RNA同源物、其补体或其反向补体具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列。

在一些方面，本公开提供了一种用于合成互补DNA(cDNA)的方法，所述方法包括：(a)提供RNA分子作为模板以供cDNA合成；(b)提供引物寡核苷酸以引发由所述RNA分子进行cDNA合成；以及(c)使用逆转录酶合成由所述引物寡核苷酸从所述模板引发的cDNA，所述逆转录酶包括与SEQ ID NO:1-29、393-401或427-439中的任一者的逆转录酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体。在一些实施例中，所述逆转录酶包括与SEQ ID NO:799-894或427-439中的任一者具有至少80％序列同一性的序列或其变体。在一些实施例中，所述引物寡核苷酸包括至少六个寡核苷酸的oligo(dT)序列或简并序列。在一些实施例中，所述合成cDNA包括在适于从所述RNA模板延伸DNA序列的条件下在反应混合物中温育所述模板RNA分子、所述引物寡核苷酸和所述逆转录酶。在一些实施例中，所述反应混合物进一步包括dNTP、反应缓冲液、二价金属离子、Mg²⁺或Mn²⁺。

在一些方面，本公开提供了一种蛋白质，其包括逆转录酶结构域，所述逆转录酶结构域包括与SEQ ID NO:1-29、393-401或427-439中的任一者的逆转录酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体，其中所述序列在N末端或C末端与非逆转座酶结构域或亲和标签融合。在一些实施例中，所述逆转录酶结构域包括与SEQ ID NO:799-894、427-439中的任一者具有至少80％序列同一性的序列或其变体。在一些实施例中，所述非逆转座酶结构域是RNA结合蛋白结构域。在一些实施例中，所述RNA结合蛋白结构域包括噬菌体MS2外壳蛋白(MCP)结构域。

在一些方面，本公开提供了一种核酸，其编码本文所述的蛋白质中的任一种。

在一些方面，本公开提供了一种核酸，其编码开放阅读框，其中所述开放阅读框编码与SEQ ID NO:1-29、393-401或427-439中的任一者的RT或核酸内切酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的RT或核酸内切酶结构域或其变体，其中：(a)所述开放阅读框被优化以在生物体中表达，并且所述生物体与所述RT或核酸内切酶结构域的来源不同；或(b)所述ORF包括编码亲和标签的序列。在一些实施例中，所述核酸进一步编码包括与SEQ ID NO:1-29、393-401或427-439中的任一者的RT或核酸内切酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体的逆转座酶。

在一些实施例中，本公开提供了一种经工程化的逆转座酶系统，其包括：(a)RNA，所述RNA包括经异源工程化的货物核苷酸序列，其中所述货物核苷酸序列被配置成与逆转座酶相互作用；以及(b)逆转座酶，其中：(i)所述逆转座酶被配置成将所述货物核苷酸序列转座到靶核酸基因座；并且(ii)所述逆转座酶包括逆转录酶(RT)结构域或核酸内切酶结构域，所述RT结构域或核酸内切酶结构域包括与SEQ ID NO:402或895的RT或核酸内切酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体。在一些实施例中，所述逆转座酶进一步包括SEQ ID NO:402或895的Zn结合带基序中的任一者。在一些实施例中，所述逆转座酶进一步包括与SEQID NO:402或895具有至少80％序列同一性的序列或其变体。在一些实施例中，所述逆转座酶进一步包括SEQ ID NO:402或895的保守的催化D、QG、[Y/F]XDD或LG基序。在一些实施例中，所述逆转座酶进一步包括SEQ ID NO:402或895的保守的CX_[2-3]C Zn指基序。在一些实施例中，所述系统进一步包括：(c)包括所述靶基因座的双链DNA序列。在一些实施例中，所述RNA是经体外转录的RNA。在一些实施例中，所述RNA包括编码所述逆转座酶的序列。

在一些方面，本公开提供了一种经工程化的DNA序列，其包括：(a)5'序列，所述5'序列能够编码RNA序列，所述序列被配置成与逆转座酶相互作用；(b)异源货物序列；(c)编码逆转座酶的序列，所述序列被配置成与所述5'序列的RNA同源物相互作用，其中所述逆转座酶包括逆转录酶(RT)结构域、核酸内切酶结构域，所述RT结构域、核酸内切酶结构域包括与SEQ ID NO:402或895的RT或核酸内切酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体；以及(d)3'序列，所述3'序列能够编码RNA序列，所述序列被配置成与逆转座酶相互作用。在一些实施例中，所述逆转座酶进一步包括SEQ ID NO:402或895的Zn结合带基序中的任一者。在一些实施例中，所述逆转座酶进一步包括与SEQ ID NO:402或895具有至少80％序列同一性的序列或其变体。在一些实施例中，所述逆转座酶进一步包括SEQ ID NO:402或895的保守的催化D、QG、[Y/F]XDD或LG基序。在一些实施例中，所述逆转座酶进一步包括SEQ ID NO:402或895的保守的CX_[2-3]C Zn指基序。

在一些方面，本公开提供了一种用于合成互补DNA(cDNA)的方法，所述方法包括：(a)提供RNA分子作为模板以供cDNA合成；(b)提供引物寡核苷酸以引发由所述RNA分子进行cDNA合成；以及(c)使用逆转录酶合成由所述引物寡核苷酸从所述模板引发的cDNA，所述逆转录酶包括与SEQ ID NO:402或895的逆转录酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体。在一些实施例中，所述逆转录酶包括与SEQ ID NO:402或895具有至少80％序列同一性的序列或其变体。在一些实施例中，所述引物寡核苷酸包括至少六个寡核苷酸的oligo(dT)序列或简并序列。在一些实施例中，所述合成cDNA包括在适于从所述RNA模板延伸DNA序列的条件下在反应混合物中温育所述模板RNA分子、所述引物寡核苷酸和所述逆转录酶。在一些实施例中，所述反应混合物进一步包括dNTP、反应缓冲液、二价金属离子、Mg²⁺或Mn²⁺。

在一些方面，本公开提供了一种蛋白质，其包括逆转录酶结构域，所述逆转录酶结构域包括与SEQ ID NO:402或895的逆转录酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体，其中所述序列在N末端或C末端与非逆转座酶结构域或亲和标签融合。在一些实施例中，所述逆转录酶结构域包括与SEQ ID NO:402或895具有至少80％序列同一性的序列或其变体。在一些实施例中，所述非逆转座酶结构域是RNA结合蛋白结构域。在一些实施例中，所述RNA结合蛋白结构域包括噬菌体MS2外壳蛋白(MCP)结构域。

在一些方面，本公开提供了一种核酸，其编码开放阅读框，其中所述开放阅读框编码与SEQ ID NO:402或895的RT或核酸内切酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的RT或核酸内切酶结构域或其变体，其中：(a)所述开放阅读框被优化以在生物体中表达，并且所述生物体与所述RT或核酸内切酶结构域的来源不同；或(b)所述ORF包括编码亲和标签的序列。在一些实施例中，所述核酸进一步编码包括与SEQ ID NO:402或895具有至少80％序列同一性的序列或其变体的逆转座酶。

在一些方面，本公开提供了一种用于合成互补DNA(cDNA)的方法，所述方法包括：(a)提供RNA分子作为模板以供cDNA合成；(b)提供引物寡核苷酸以引发由所述RNA分子进行cDNA合成；以及(c)使用逆转录酶合成由所述引物寡核苷酸从所述模板引发的cDNA，所述逆转录酶包括与SEQ ID NO:555-728中的任一者的逆转录酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体。在一些实施例中，所述逆转录酶包括与SEQ ID NO:555-560、563、564、566、567、569、572、574、580-582、584-588、592、593、596、602、604、605、608、561、562、564、565、568、571、573、576-579、583、590、591、594、598、601、606、607中的任一者具有至少80％序列同一性的序列或其变体。在一些实施例中，所述逆转录酶包括与SEQ ID NO:555-560、563、564、566、567、569、572、574、580-582、584-588、592、593、596、602、604、605、608中的任一者具有至少80％序列同一性的序列或其变体。在一些实施例中，所述引物寡核苷酸包括至少六个寡核苷酸的oligo(dT)序列或简并序列。在一些实施例中，所述引物寡核苷酸包括至少一个硫代磷酸酯键。在一些实施例中，所述合成cDNA包括在适于从所述RNA模板延伸DNA序列的条件下在反应混合物中温育所述模板RNA分子、所述引物寡核苷酸和所述逆转录酶。在一些实施例中，所述反应混合物进一步包括dNTP、反应缓冲液、二价金属离子、Mg²⁺或Mn²⁺。

在一些方面，本公开提供了一种蛋白质，其包括逆转录酶结构域，所述逆转录酶结构域包括与SEQ ID NO:555-728中的任一者的逆转录酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体，其中所述序列在N末端或C末端与非逆转座酶结构域或亲和标签融合。在一些实施例中，所述逆转录酶结构域包括与SEQ ID NO:555-560、563、564、566、567、569、572、574、580-582、584-588、592、593、596、602、604、605、608、561、562、564、565、568、571、573、576-579、583、590、591、594、598、601、606、607中的任一者具有至少80％序列同一性的序列或其变体。在一些实施例中，所述逆转录酶包括与SEQ ID NO:555-560、563、564、566、567、569、572、574、580-582、584-588、592、593、596、602、604、605、608中的任一者具有至少80％序列同一性的序列或其变体。在一些实施例中，所述非逆转座酶结构域是RNA结合蛋白结构域。在一些实施例中，所述RNA结合蛋白结构域包括噬菌体MS2外壳蛋白(MCP)结构域。在一些实施例中，所述蛋白质包括与SEQ ID NO:30-32、40-50、740-756、757-760中的任一者具有至少80％序列同一性的序列或其变体。在一些实施例中，所述逆转录酶结构域包括与SEQ IDNO:555-558、561-567、569、570、575中的任一者具有至少80％序列同一性的序列或其变体。

在一些方面，本公开提供了一种核酸，其编码开放阅读框，其中所述开放阅读框编码与SEQ ID NO:555-728中的任一者的RT或核酸内切酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的RT或核酸内切酶结构域或其变体，其中：(a)所述开放阅读框被优化以在生物体中表达，并且所述生物体与所述RT或核酸内切酶结构域的来源不同；或(b)所述ORF包括编码亲和标签的序列。在一些实施例中，所述核酸进一步编码包括与SEQ ID NO:555-560、563、564、566、567、569、572、574、580-582、584-588、592、593、596、602、604、605、608、561、562、564、565、568、571、573、576-579、583、590、591、594、598、601、606、607中的任一者的RT或核酸内切酶结构域具有至少80％序列同一性的序列或其变体的逆转座酶。在一些实施例中，所述逆转录酶包括与SEQ ID NO:555-560、563、564、566、567、569、572、574、580-582、584-588、592、593、596、602、604、605、608中的任一者具有至少80％序列同一性的序列或其变体。

在一些方面，本公开提供了一种核酸，其包括序列，所述序列包括开放阅读框(ORF)，所述ORF包括编码与SEQ ID NO:729-733中的任一者的逆转录酶结构域或成熟酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的逆转录酶结构域或成熟酶结构域的序列或其变体，其中：(a)所述开放阅读框被优化以在生物体中表达，并且所述生物体与所述RT或核酸内切酶结构域的来源不同；或(b)所述ORF包括编码亲和标签的序列。在一些实施例中，所述ORF编码与SEQ ID NO:729-733中的任一者具有至少80％序列同一性的蛋白质或其变体。在一些实施例中，所述ORF被优化以在所述细菌生物体中表达或者其中所述生物体是大肠杆菌(E.coli)。在一些实施例中，所述ORF被优化以在哺乳动物生物体中表达或者其中所述生物体是灵长类动物生物体。在一些实施例中，所述灵长类动物生物体是智人(H.sapiens)。在一些实施例中，所述ORF包括亲和标签，所述亲和标签与编码所述逆转录酶结构域或所述成熟酶结构域的所述序列可操作地连接，其中所述ORF与SEQ ID NO:298-302中的任一者具有至少80％序列同一性。在一些实施例中，所述ORF包括与SEQ ID NO:303-307中的任一者具有至少80％序列同一性的序列。在一些实施例中，所述逆转录酶结构域或所述成熟酶结构域包括SEQ IDNO:729-733中的任一者的保守的Y[I/L]DD活性位点基序。

在一些方面，本公开提供了一种用于合成互补DNA(cDNA)的方法，所述方法包括：(a)提供RNA分子作为模板以供cDNA合成；(b)提供引物寡核苷酸以引发由所述RNA分子进行cDNA合成；以及(c)使用逆转录酶合成由所述引物寡核苷酸从所述模板引发的cDNA，所述逆转录酶包括与SEQ ID NO:440-554中的任一者的逆转录酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体。在一些实施例中，所述逆转录酶包括与SEQ ID NO:518-522、524-527和529-532中的任一者具有至少80％序列同一性的序列或其变体。在一些实施例中，所述逆转录酶包括与SEQID NO:526中的任一者具有至少80％序列同一性的序列或其变体。在一些实施例中，所述引物寡核苷酸包括至少六个寡核苷酸的oligo(dT)序列或简并序列。在一些实施例中，所述合成cDNA包括在适于从所述RNA模板延伸DNA序列的条件下在反应混合物中温育所述模板RNA分子、所述引物寡核苷酸和所述逆转录酶。在一些实施例中，所述反应混合物进一步包括dNTP、反应缓冲液、二价金属离子、Mg²⁺或Mn²⁺。

在一些方面，本公开提供了一种蛋白质，其包括逆转录酶结构域，所述逆转录酶结构域包括与SEQ ID NO:440-554中的任一者的逆转录酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体，其中所述序列在N末端或C末端与非逆转座酶结构域或亲和标签融合。在一些实施例中，所述逆转录酶结构域包括与SEQ ID NO:518-522、524-527和529-532中的任一者具有至少80％序列同一性的序列或其变体。在一些实施例中，所述逆转录酶包括与SEQ ID NO:526具有至少80％序列同一性的序列或其变体。在一些实施例中，所述非逆转座酶结构域是RNA结合蛋白结构域。在一些实施例中，所述RNA结合蛋白结构域包括噬菌体MS2外壳蛋白(MCP)结构域。在一些实施例中，所述序列在N末端或C末端与亲和标签融合。

在一些方面，本公开提供了一种核酸，其编码开放阅读框，其中所述开放阅读框编码与SEQ ID NO:440-554中的任一者的RT结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的RT结构域或其变体，其中：(a)所述开放阅读框被优化以在生物体中表达，并且所述生物体与所述RT或核酸内切酶结构域的来源不同；或(b)所述ORF包括编码亲和标签的序列。在一些实施例中，所述核酸进一步编码与SEQ ID NO:518-522、524-527和529-532中的任一者具有至少80％序列同一性的RT或其变体。在一些实施例中，所述逆转录酶包括与SEQ ID NO:526具有至少80％序列同一性的序列或其变体。在一些实施例中，所述开放阅读框包括与SEQ ID NO:356-373中的任一者具有至少80％序列同一性的序列。

在一些方面，本公开提供了一种用于合成互补DNA(cDNA)的方法，所述方法包括：(a)提供RNA分子作为模板以供cDNA合成；(b)提供引物寡核苷酸以引发由所述RNA分子进行cDNA合成；以及(c)使用逆转录酶合成由所述引物寡核苷酸从所述模板引发的cDNA，所述逆转录酶包括与SEQ ID NO:609-610、611-615、616-617、618-622、623、624-626、627-673中的任一者的逆转录酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体。在一些实施例中，所述逆转录酶结构域包括SEQ ID NO:609-610、611-615、616-617、618-622、623、624-626或627-673中的任一者的保守的xxDD、[F/Y]XDD、NAxxH或VTG基序。在一些实施例中，所述逆转录酶包括与SEQID NO:612-613、616-619、622、624、627-630、633中的任一者具有至少80％序列同一性的序列或其变体。在一些实施例中，所述引物寡核苷酸包括至少六个寡核苷酸的oligo(dT)序列或简并序列。在一些实施例中，所述引物寡核苷酸包括与SEQ ID NO:340-341、342-344、345-346、347-351、352或353-355中的任一者具有至少80％序列同一性的至少六个连续核苷酸。在一些实施例中，所述合成cDNA包括在适于从所述RNA模板延伸DNA序列的条件下在反应混合物中温育所述模板RNA分子、所述引物寡核苷酸和所述逆转录酶。在一些实施例中，所述反应混合物进一步包括dNTP、反应缓冲液、二价金属离子、Mg²⁺或Mn²⁺。

在一些方面，本公开提供了一种蛋白质，其包括逆转录酶结构域，所述逆转录酶结构域包括与SEQ ID NO:609-610、611-615、616-617、618-622、623、624-626、627-673中的任一者的逆转录酶结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体，其中所述序列在N末端或C末端与非逆转座酶结构域或亲和标签融合。在一些实施例中，所述逆转录酶结构域包括SEQ ID NO:609-610、611-615、616-617、618-622、623、624-626或627-673中的任一者的保守的xxDD、[F/Y]XDD、NAxxH或VTG基序。在一些实施例中，所述逆转录酶结构域包括与SEQ ID NO:612-613、616-619、622、624、627-630、633中的任一者具有至少80％序列同一性的序列或其变体。在一些实施例中，所述非逆转座酶结构域是RNA结合蛋白结构域。在一些实施例中，所述RNA结合蛋白结构域包括噬菌体MS2外壳蛋白(MCP)结构域。在一些实施例中，所述序列在N末端或C末端与亲和标签融合。

在一些方面，本公开提供了一种核酸，其编码开放阅读框(ORF)，所述ORF被优化以在生物体中表达，其中所述开放阅读框编码与SEQ ID NO:609-610、611-615、616-617、618-622、623、624-626、627-673中的任一者的RT结构域具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的RT结构域或其变体，其中：(a)所述开放阅读框被优化以在生物体中表达，并且所述生物体与所述RT或核酸内切酶结构域的来源不同；或(b)所述ORF包括编码亲和标签的序列。在一些实施例中，所述逆转录酶结构域包括SEQ ID NO:609-610、611-615、616-617、618-622、623、624-626或627-673中的任一者的保守的xxDD、[F/Y]XDD、NAxxH或VTG基序。在一些实施例中，所述核酸进一步编码与SEQ ID NO:612-613、616-619、622、624、627-630、633中的任一者具有至少80％序列同一性的RT或其变体。在一些实施例中，所述ORF包括编码亲和标签的序列。在一些实施例中，所述开放阅读框包括与SEQ ID NO:308-309、310-312、313-314、315-319、320、321-323或174-180中的任一者具有至少80％序列同一性的序列。在一些实施例中，所述生物体与所述RT结构域的来源不同。在一些实施例中，所述ORF包括与SEQ ID NO:324-325、326-328、329-330、331-335、336、327-329或181-187中的任一者具有至少80％序列同一性的序列。

在一些方面，本公开提供了一种合成寡核苷酸，其包括与SEQ ID NO:340-341、342-344、345-346、347-351、352或353-355中的任一者具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的至少六个连续核苷酸。在一些实施例中，所述合成寡核苷酸包括DNA核苷酸。在一些实施例中，所述寡核苷酸进一步包括至少一个硫代磷酸酯键。

在一些方面，本公开提供了一种载体，其包括与SEQ ID NO:340-341、342-344、345-346、347-351、352或353-355中的任一者具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列。

在一些方面，本公开提供了一种载体，其包括本文所述的核酸中的任一种。

在一些方面，本公开提供了一种宿主细胞，其包括本文所述的核酸中的任一种。在一些实施例中，所述宿主细胞是大肠杆菌细胞。在一些实施例中，所述大肠杆菌细胞是λDE3溶原菌，或者所述大肠杆菌细胞是BL21(DE3)菌株。在一些实施例中，所述大肠杆菌细胞具有ompT lon基因型。在一些实施例中，所述核酸包括开放阅读框(ORF)，所述ORF编码逆转座酶、其片段或逆转录酶结构域，其中所述开放阅读框与以下可操作地连接：T7启动子序列、T7-lac启动子序列、lac启动子序列、tac启动子序列、trc启动子序列、ParaBAD启动子序列、PrhaBAD启动子序列、T5启动子序列、cspA启动子序列、araP_BAD启动子、来自噬菌体λ的强左侧启动子(pL启动子)或其任何组合。在一些实施例中，所述开放阅读框包括编码亲和标签的序列，所述亲和标签与编码所述逆转座酶、其所述片段或所述逆转录酶结构域的序列框内连接。

在一些方面，本公开提供了一种培养物，其包括在相容液体培养基中的本文所述的宿主细胞中的任一种。

在一些方面，本公开提供了一种产生逆转座酶、其片段或逆转录酶结构域的方法，所述方法包括在相容液体培养基中培养本文所述的宿主细胞中的任一种。在一些实施例中，所述方法进一步包括通过添加另外的化学药剂或增加量的营养物来诱导所述逆转座酶、其所述片段或所述逆转录酶结构域的表达。在一些实施例中，所述另外的化学药剂或增加量的营养物包括异丙基β-D-1-硫代半乳糖苷(IPTG)或另外的量的乳糖。在一些实施例中，所述方法进一步包括在所述培养后分离所述宿主细胞并且使所述宿主细胞裂解以产生蛋白质提取物。在一些实施例中，所述方法进一步包括使所述蛋白质提取物经受对亲和标签或离子亲和色谱法具有特异性的亲和色谱法。

在一些方面，本公开提供了一种经体外转录的mRNA，其包括本文所述的核酸中的任一种的RNA同源物。

在一些方面，本公开提供了一种经工程化的逆转座酶系统，其包括：(a)双链核酸，所述双链核酸包括货物核苷酸序列，其中所述货物核苷酸序列被配置成与逆转座酶相互作用；以及(b)逆转座酶，其中：(i)所述逆转座酶被配置成将所述货物核苷酸序列转座到靶核酸基因座；并且(ii)所述逆转座酶衍生自未经培养的微生物。在一些实施例中，所述货物核苷酸序列是经工程化的。在一些实施例中，所述货物核苷酸序列是异源的。在一些实施例中，所述货物核苷酸序列不具有生物体中存在的野生型基因组序列的序列。在一些实施例中，所述逆转座酶包括与SEQ ID NO:1-29中的任一者具有至少75％序列同一性的序列。在一些实施例中，所述逆转座酶包括逆转录酶结构域。在一些实施例中，所述逆转座酶进一步包括一个或多个锌指结构域。在一些实施例中，所述逆转座酶进一步包括核酸内切酶结构域。在一些实施例中，所述逆转座酶与有记录的逆转座酶具有小于80％的序列同一性。在一些实施例中，所述货物核苷酸序列侧接有3'非翻译区(UTR)和5'非翻译区(UTR)。在一些实施例中，所述逆转座酶被配置成经由核糖核酸多核苷酸中间体将所述货物核苷酸序列转座。在一些实施例中，所述逆转座酶包括接近所述逆转座酶的N末端或C末端的一个或多个核定位序列(NLS)。在一些实施例中，所述NLS包括与选自由SEQ ID NO:896-911组成的组的序列至少80％相同的序列。在一些实施例中，所述序列同一性是通过BLASTP、CLUSTALW、MUSCLE、MAFFT或CLUSTALW使用史密斯-沃特曼同源性搜索算法的参数来确定的。在一些实施例中，所述序列同一性是通过BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在11，扩展1并且使用条件组成评分矩阵调整来确定的。

在一些方面，本公开提供了一种经工程化的逆转座酶系统，其包括：(a)双链核酸，所述双链核酸包括货物核苷酸序列，其中所述货物核苷酸序列被配置成与逆转座酶相互作用；以及(b)逆转座酶，其中：(i)所述逆转座酶被配置成将所述货物核苷酸序列转座到靶核酸基因座；并且(ii)所述逆转座酶包括与SEQ ID NO:1-29中的任一者具有至少75％序列同一性的序列。在一些实施例中，所述逆转座酶衍生自未经培养的微生物。在一些实施例中，所述逆转座酶包括逆转录酶结构域。在一些实施例中，所述逆转座酶进一步包括一个或多个锌指结构域。在一些实施例中，所述逆转座酶进一步包括核酸内切酶结构域。在一些实施例中，所述逆转座酶与有记录的逆转座酶具有小于80％的序列同一性。在一些实施例中，所述货物核苷酸序列侧接有3'非翻译区(UTR)和5'非翻译区(UTR)。在一些实施例中，所述逆转座酶被配置成经由核糖核酸多核苷酸中间体将所述货物核苷酸序列转座。在一些实施例中，所述序列同一性是通过BLASTP、CLUSTALW、MUSCLE、MAFFT或CLUSTALW使用史密斯-沃特曼同源性搜索算法的参数来确定的。在一些实施例中，所述序列同一性是通过BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在11，扩展1并且使用条件组成评分矩阵调整来确定的。

在一些方面，本公开提供了一种脱氧核糖核酸多核苷酸，其编码本文所述的方面或实施例中的任一方面或实施例的经工程化的逆转座酶系统。

在一些方面，本公开提供了一种核酸，其包括经工程化的核酸序列，所述经工程化的核酸序列被优化以在生物体中表达，其中所述核酸编码逆转座酶，并且其中所述逆转座酶衍生自未经培养的微生物，其中所述生物体不是所述未经培养的微生物。在一些实施例中，所述逆转座酶包括与SEQ ID NO:1-29中的任一者具有至少75％序列同一性的变体。在一些实施例中，所述逆转座酶包括编码接近所述逆转座酶的N末端或C末端的一个或多个核定位序列(NLS)的序列。在一些实施例中，所述NLS包括选自SEQ ID NO:896-911的序列。在一些实施例中，所述NLS包括SEQ ID NO:897。在一些实施例中，所述NLS接近所述逆转座酶的N末端。在一些实施例中，所述NLS包括SEQ ID NO:896。在一些实施例中，所述NLS接近所述逆转座酶的C末端。在一些实施例中，所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿动物或人。

在一些方面，本公开提供了一种载体，其包括本文所述的方面或实施例中的任一方面或实施例的核酸。在一些实施例中，所述载体进一步包括编码货物核苷酸序列的核酸，所述货物核苷酸序列被配置成与逆转座酶形成复合物。在一些实施例中，所述载体是质粒、微环、CELiD、腺相关病毒(AAV)源性病毒体或慢病毒。

在一些方面，本公开提供了一种细胞，其包括本文所述的方面或实施例中的任一方面或实施例中的任一种的载体。

在一些方面，本公开提供了一种制备逆转座酶的方法，所述方法包括培养本文所述的方面或实施例中的任一方面或实施例的细胞。

在一些方面，本公开提供了一种用于结合、切口、切割、标记、修饰或转座双链脱氧核糖核酸多核苷酸的方法，所述方法包括：(a)使所述双链脱氧核糖核酸多核苷酸与逆转座酶接触，所述逆转座酶被配置成将所述货物核苷酸序列转座到靶核酸基因座；其中所述逆转座酶包括与SEQ ID NO:1-29中的任一者具有至少75％序列同一性的序列。在一些实施例中，所述逆转座酶衍生自未经培养的微生物。在一些实施例中，所述逆转座酶包括逆转录酶结构域。在一些实施例中，所述逆转座酶进一步包括一个或多个锌指结构域。在一些实施例中，所述逆转座酶进一步包括核酸内切酶结构域。在一些实施例中，所述逆转座酶与有记录的逆转座酶具有小于80％的序列同一性。在一些实施例中，所述货物核苷酸序列侧接有3'非翻译区(UTR)和5'非翻译区(UTR)。在一些实施例中，所述双链脱氧核糖核酸多核苷酸经由核糖核酸多核苷酸中间体转座。在一些实施例中，所述双链脱氧核糖核酸多核苷酸是真核生物、植物、真菌、哺乳动物、啮齿动物或人双链脱氧核糖核酸多核苷酸。

在一些方面中，本公开提供了一种修饰靶核酸基因座的方法，所述方法包括向所述靶核酸基因座递送本文所述的方面或实施例中的任一方面或实施例中的经工程化的逆转座酶系统，其中所述逆转座酶被配置成将所述货物核苷酸序列转座到所述靶核酸基因座，并且其中复合物被配置成使得在所述复合物与所述靶核酸基因座结合时，所述复合物修饰所述靶核酸基因座。在一些实施例中，修饰所述靶核酸基因座包括结合、切口、切割、标记、修饰或转座所述靶核酸基因座。在一些实施例中，所述靶核酸基因座包括脱氧核糖核酸(DNA)。在一些实施例中，所述靶核酸基因座包括基因组DNA、病毒DNA或细菌DNA。在一些实施例中，所述靶核酸基因座是在体外的。在一些实施例中，所述靶核酸基因座是在细胞内的。在一些实施例中，所述细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞、人细胞或原代细胞。在一些实施例中，所述细胞是原代细胞。在一些实施例中，所述原代细胞是T细胞。在一些实施例中，所述原代细胞是造血干细胞(HSC)。

在一些方面，本公开提供了一种本文所述的方面或实施例中的任一方面或实施例中的方法，其中向所述靶核酸基因座递送所述经工程化的逆转座酶系统包括递送本文所述的方面或实施例中的任一方面或实施例的核酸或本文所述的方面或实施例中的任一方面或实施例的载体。在一些实施例中，向所述靶核酸基因座递送所述经工程化的逆转座酶系统包括递送包括编码所述逆转座酶的开放阅读框的核酸。在一些实施例中，所述核酸包括编码所述逆转座酶的所述开放阅读框所可操作地连接的启动子。在一些实施例中，向所述靶核酸基因座递送所述经工程化的逆转座酶系统包括递送包含编码所述逆转座酶的开放阅读框的加帽mRNA。在一些实施例中，向所述靶核酸基因座递送所述经工程化的逆转座酶系统包括递送经翻译的多肽。在一些实施例中，所述逆转座酶不诱导所述靶核酸基因座处或附近的断裂。

在一些方面，本公开提供了一种宿主细胞，其包括编码与SEQ ID NO:1-29中的任一者具有至少75％序列同一性的异源逆转座酶或其变体的开放阅读框。在一些实施例中，所述宿主细胞是大肠杆菌细胞。在一些实施例中，所述大肠杆菌细胞是λDE3溶原菌，或者所述大肠杆菌细胞是BL21(DE3)菌株。在一些实施例中，所述大肠杆菌细胞具有ompT lon基因型。在一些实施例中，所述开放阅读框与以下可操作地连接：T7启动子序列、T7-lac启动子序列、lac启动子序列、tac启动子序列、trc启动子序列、ParaBAD启动子序列、PrhaBAD启动子序列、T5启动子序列、cspA启动子序列、araP_BAD启动子、来自噬菌体λ的强左侧启动子(pL启动子)或其任何组合。在一些实施例中，所述开放阅读框包括编码亲和标签的序列，所述亲和标签与编码所述逆转座酶的序列框内连接。在一些实施例中，所述亲和标签是固定化金属亲和色谱法(IMAC)标签。在一些实施例中，所述IMAC标签是多组氨酸标签。在一些实施例中，所述亲和标签是myc标签、人流感血凝素(HA)标签、麦芽糖结合蛋白(MBP)标签、谷胱甘肽S-转移酶(GST)标签、链霉亲和素标签、FLAG标签或其任何组合。在一些实施例中，所述亲和标签经由编码蛋白酶切割位点的接头序列与编码所述逆转座酶的所述序列框内连接。在一些实施例中，所述蛋白酶切割位点是烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。在一些实施例中，所述开放阅读框被密码子优化以在宿主细胞中表达。在一些实施例中，所述开放阅读框被提供在载体上。在一些实施例中，所述开放阅读框被整合到宿主细胞的基因组中。

在一些方面，本公开提供了一种培养物，其包括在相容液体培养基中的本文所述的方面或实施例中的任一方面或实施例的宿主细胞。

在一些方面，本公开提供了一种产生逆转座酶的方法，所述方法包括在相容液体培养基中培养本文所述的方面或实施例中的任一方面或实施例的宿主细胞。在一些实施例中，所述方法进一步包括通过添加另外的化学药剂或增加量的营养物来诱导所述逆转座酶的表达。在一些实施例中，所述另外的化学药剂或增加量的营养物包括异丙基β-D-1-硫代半乳糖苷(IPTG)或另外的量的乳糖。在一些实施例中，所述方法进一步包括在所述培养后分离所述宿主细胞并且使所述宿主细胞裂解以产生蛋白质提取物。在一些实施例中，所述方法进一步包括使所述蛋白质提取物经受IMAC或离子亲和色谱法。在一些实施例中，所述开放阅读框包括编码IMAC亲和标签的序列，所述IMAC亲和标签与编码所述逆转座酶的序列框内连接。在一些实施例中，所述IMAC亲和标签经由编码蛋白酶切割位点的接头序列与编码所述逆转座酶的序列框内连接。在一些实施例中，所述蛋白酶切割位点包括烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。在一些实施例中，所述IMAC亲和标签通过使对应于蛋白酶切割位点的蛋白酶与逆转座酶接触。在一些实施例中，所述方法进一步包括执行减材IMAC亲和色谱法以从包括所述逆转座酶的组合物去除所述亲和标签。

在一些方面，本公开提供了一种破坏细胞中的基因座的方法，所述方法包括使包括以下的组合物与所述细胞接触：(a)双链核酸，所述双链核酸包括货物核苷酸序列，其中所述货物核苷酸序列被配置成与逆转座酶相互作用；以及(b)逆转座酶，其中：(i)所述逆转座酶被配置成将所述货物核苷酸序列转座到靶核酸基因座；并且(ii)所述逆转座酶包括与SEQ ID NO:1-29中的任一者具有至少75％序列同一性的序列；并且(iii)所述逆转座酶与有记录的逆转座酶在细胞中具有至少等效的转座活性。在一些实施例中，所述转座活性通过将逆转座酶引入包括所述靶核酸基因座的细胞并检测细胞中的所述靶核酸基因座的转座来在体外测量。在一些实施例中，所述组合物包括20pmol或更少的逆转座酶。在一些实施例中，所述组合物包括1pmol或更少的逆转座酶。

在一些方面，本公开提供了一种宿主细胞，其包括编码本文所述的蛋白质中的任一种的开放阅读框。在一些实施例中，所述宿主细胞是大肠杆菌细胞或哺乳动物细胞。在一些实施例中，所述宿主细胞是大肠杆菌细胞，其中所述大肠杆菌细胞是λDE3溶原菌，或者所述大肠杆菌细胞是BL21(DE3)菌株。在一些实施例中，所述大肠杆菌细胞具有ompT lon基因型。在一些实施例中，所述开放阅读框与以下可操作地连接：T7启动子序列、T7-lac启动子序列、lac启动子序列、tac启动子序列、trc启动子序列、ParaBAD启动子序列、PrhaBAD启动子序列、T5启动子序列、cspA启动子序列、araP_BAD启动子、来自噬菌体λ的强左侧启动子(pL启动子)或其任何组合。在一些实施例中，所述开放阅读框包括编码亲和标签的序列，所述亲和标签与编码所述蛋白质的序列框内连接。在一些实施例中，所述亲和标签是固定化金属亲和色谱法(IMAC)标签。在一些实施例中，所述IMAC标签是多组氨酸标签。在一些实施例中，所述亲和标签是myc标签、人流感血凝素(HA)标签、麦芽糖结合蛋白(MBP)标签、谷胱甘肽S-转移酶(GST)标签、链霉亲和素标签、链球菌标签、FLAG标签或其任何组合。在一些实施例中，所述亲和标签经由编码蛋白酶切割位点的接头序列与编码所述蛋白质的所述序列框内连接。在一些实施例中，所述蛋白酶切割位点是烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。在一些实施例中，所述开放阅读框被密码子优化以在宿主细胞中表达。在一些实施例中，所述开放阅读框被提供在载体上。在一些实施例中，所述开放阅读框被整合到宿主细胞的基因组中。

在一些方面，本公开提供了一种产生本文所述的蛋白质中的任一种的方法，所述方法包括在相容液体培养基中培养编码本文所述的蛋白质中的任一种的本文所述的宿主细胞中的任一种。在一些实施例中，所述方法进一步包括诱导所述蛋白质的表达。在一些实施例中，所述诱导所述核酸酶的表达是通过添加另外的化学药剂或增加量的营养物或通过温度增加或降低。在一些实施例中，另外的化学药剂或增加量的营养物包括异丙基β-D-1-硫代半乳糖苷(IPTG)或另外的量的乳糖。在一些实施例中，所述方法进一步包括在所述培养后分离所述宿主细胞并且使所述宿主细胞裂解以产生包括蛋白质的蛋白质提取物。在一些实施例中，所述方法进一步包括分离所述蛋白质。在一些实施例中，所述分离包括使蛋白质提取物经受IMAC、离子交换色谱法、阴离子交换色谱法或阳离子交换色谱法。在一些实施例中，所述宿主细胞包括核酸，所述核酸包括开放阅读框，所述开放阅读框包括编码亲和标签的序列，所述亲和标签与编码所述蛋白质的序列框内连接。在一些实施例中，所述亲和标签经由编码蛋白酶切割位点的接头序列与编码所述蛋白质的所述序列框内连接。在一些实施例中，所述蛋白酶切割位点包括烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。在一些实施例中，所述方法进一步包括通过使对应于蛋白酶切割位点的蛋白酶与逆转座酶接触来切割所述亲和标签。在一些实施例中，所述亲和标签是IMAC亲和标签。在一些实施例中，所述方法进一步包括执行减材IMAC亲和色谱法以从包括所述蛋白质的组合物去除所述亲和标签。

根据以下具体实施方式，本领域的技术人员将显而易知本公开的另外的方面和优势，在具体实施方式中仅示出和描述本公开的说明性实施例。如将认识到，本公开能够具有其它不同的实施例，并且其若干细节能够在各种明显的方面进行修改，所有这些都不脱离本公开。因此，附图和说明书本质上被视为是说明性的而非限制性的。

通过引用并入

本说明书中所提到的所有公开、专利和专利申请均通过以相同的程度引用并入本文，如同特定且单独地指示每个单独的公开、专利或专利申请是通过引用并入的。

附图说明

本发明的新颖特征在所附权利要求书中具体阐述。通过参考阐述了说明性实施例的以下具体实施方式，将获得对本发明的特征和优点的更好理解，在所述实施例中利用了本发明的原理，并且在其附图中：

图1描绘了细菌逆转座子的基因组背景。MG140-1是编码Zn指DNA结合结构域和逆转录酶结构域的预测逆转座酶(箭头)。侧接逆转座酶的区域显示出可能表示逆转座酶的结合位点的二级结构(二级结构框和放大图像)。与其它同源物类似的区域指示逆转座子整合的推定靶位点。

图2描绘了家族MG140的MG逆转座酶蛋白质序列的多序列比对(MSA)。图2A描绘了逆转录酶结构域的MSA。保守的催化残基D、QG、[Y/F]ADD和LG在共有序列上突出显示。图2B描绘了Zn指和核酸内切酶结构域的MSA。Zn指基序(CX_[2-3]C)、核酸内切酶结构域的一部分和核酸酶催化残基在共有序列上突出显示。

图3描绘了MG和参考逆转座酶基因的系统发育基因树。图3A描绘了微生物MG逆转座酶(进化枝4上的黑色分枝)相对于真核细胞比病毒逆转座酶(进化枝6上的灰色分枝)离得更近。进化枝1：端粒酶逆转录酶；进化枝2：II组内含子逆转录酶；进化枝3：真核R1型逆转座酶；进化枝4：微生物和真核R2逆转座酶；进化枝5：真核逆转录病毒相关逆转录酶；以及进化枝6：病毒逆转录酶。图3B描绘了来自图3A的系统发育基因树的进化枝3和4。一些微生物MG逆转座酶含有多个Zn指基序(竖直矩形)、保守的RVT_1逆转录酶结构域和APE/RLE或其它核酸内切酶结构域(上图和下图)。一些微生物MG逆转座酶缺乏核酸内切酶结构域(中图)。

图4描绘了从来自不同酶的逆转录酶结构域的多序列比对中推断的系统发育树。RT序列源自DNA以及RNA组装。出于分类目的，参考RT被包含在树中。

图5A描绘了由从非LTR逆转座酶(MG140、MG146和MG147)和相关RT(MG148)的新型家族鉴定的RT结构域的多序列比对推断的系统发育树。图5B描绘了证实非LTR逆转座酶(MG140、MG146和MG147)含有RT结构域、核酸内切酶结构域(Endo)和多个锌结合带基序，而家族MG148RT缺乏核酸内切酶结构域的数据。

图6A描绘了证实MG140 R2逆转座酶含有RT和核酸内切酶(EN)结构域以及多个锌指，并且与参考Danio rerio R2逆转座酶(R2Dr)共有24％至26％平均氨基酸同一性(AAI)的数据。图6B描绘了证实MG140-47 R2逆转座子整合到28S rRNA基因的数据。由于R2元件整合到MG140-47 28S rDNA基因(虚线框)中，MG140-47重叠群与参考(GQ398061)核糖体RNA操纵子的比对显示参考28S rDNA基因中的较大间隙。

图7A描绘了MG145-45逆转座子的基因组背景。所述酶含有RT和锌指结构域。部分18S rDNA基因在5'端处命中并且在3'端处的poly-A尾可能描绘转座子的边界。图7B描绘了MG140-3、MG140-8和MG140-45基因组序列的比对，示出了18S rRNA基因保留到比对的位置200，并且指示R2元件整合到18S rDNA基因中(箭头)。

图8A描绘了用RT和核酸内切酶结构域编码MG146-1逆转座酶的重叠群。图8B描绘了编码预测将涉及移动的三个基因的MG140-17-R2逆转座子：RNA识别基序基因(RRM)；核酸内切酶；以及具有RT和RNA酶H结构域的逆转录酶。

图9A描绘了RT的MG148家族的两个成员的基因组背景。与RT无关的预测基因显示为白色箭头。图9B描绘了MG148家族的五个成员的核苷酸序列比对，指示RT(共有序列上注释的箭头)的上游的保守区(序列下方的框)。

图10描绘了通过qPCR的酶的RTns家族的体外活性的筛选(MG140)。使用引物通过qPCR来检测活性，所述引物扩增源自含有相应RT的引物延伸反应的全长cDNA产物。样品源自含有100nM底物的RT反应。阴性对照：PURExpress反应中的无模板水对照；阳性对照1：R2Tg(斑胸草雀(Taeniopygia guttata))；阳性对照2：R2Bm(家蚕(Bombyx mori))。两个阳性对照是有记录的R2逆转座子。被定义为信号是阴性对照的信号的至少10倍的活性候选物以深灰色标记，而在这些条件下无活性的候选物以浅灰色标记。

图11描绘了通过qPCR的酶的RTns家族(MG146、MG147、MG148)的体外活性的筛选。使用引物通过qPCR来检测活性，所述引物扩增源自含有相应RT的引物延伸反应的全长cDNA产物。样品源自含有100nM底物的RT反应。阴性对照：PURExpress反应中的无模板水对照；阳性对照1：R2Tg(斑胸草雀)，有记录的R2逆转座子。被定义为信号是阴性对照的信号的至少10倍的活性候选物以深灰色标记，而在这些条件下无活性的候选物以浅灰色标记。

图12描绘了通过下一代测序评估R2和R2样候选物的保真度的测定。将来自引物延伸反应的所得cDNA产物PCR扩增并制备用于NGS的文库。将修剪的读段与参考序列比对，并且计算错误掺入的频率。背景：PURExpress反应中的无模板水对照；阳性对照1：R2Tg(斑胸草雀)。

图13A描绘了由从来自不同类别的新型家族鉴定的全长II组内含子RT的多序列比对推断的系统发育树。图13B描绘了II组内含子的MG家族的汇总表格。AAI：MG家族与参考II组内含子序列的平均成对氨基酸同一性。

图14描绘了通过引物延伸测定筛选GII内含子C类候选物MG153-1至MG153-21和MG153-25至MG153-27的体外活性。对于图14A至图14C，泳道号对应于以下内容：1-PURExpress无模板对照、2-MMLV对照RT、3-TGIRT-III对照RT、4-MarathonRT对照RT。粗体编号对应于具有活性新型候选物的凝胶泳道。结果表示两个独立实验。图14A泳道号5-14对应于新型候选物MG153-1至MG153-10。图14B泳道号5-14对应于新型候选物MG153-11至MG153-20。图14C泳道号5-8分别对应于新型候选物MG153-21、MG153-25、MG153-26和MG153-27。图14D描绘了通过qPCR检测全长cDNA产生。深灰色条对应于RT，所述RT产生的产物是背景产生的产物的至少10倍。结果由两次技术重复确定。图14A至图14C中的箭头指示全长cDNA产物(靠近凝胶顶部的箭头)和cDNA下降的实例(下部箭头)。

图15描绘了通过引物延伸测定筛选GII内含子C类候选物MG153-28至MG153-37和MG153-39至MG153-57的体外活性。对于图15A至图15C，泳道号对应于以下内容：1-PURExpress无模板对照、2-MMLV对照RT、3-TGIRT-III对照RT。粗体编号对应于凝胶泳道。图15A泳道号4-13对应于新型候选物MG153-28至MG153-37。图15B泳道号4-13对应于新型候选物MG153-39至MG153-48。图15C泳道号4-13对应于新型候选物MG153-49至MG153-57。图15D描绘了通过qPCR检测全长cDNA产生。深灰色条对应于RT，所述RT产生的产物是背景产生的产物的至少10倍。结果由两次技术重复确定。图15A至图15C中的箭头指示全长cDNA产物(靠近凝胶顶部的箭头)和cDNA下降的实例(下部箭头)。

图16描绘了通过引物延伸测定筛选GII内含子D类MG165逆转录酶家族的体外活性。对于图16A，泳道号对应于以下内容：1-PURExpress无模板对照、2-MMLV对照RT、3-TGIRT-III对照RT、4至12-新型候选物MG165-1至9。粗体编号对应于具有活性新型候选物的凝胶泳道。图16B描绘了通过qPCR定量全长cDNA产生。深灰色条对应于RT，所述RT产生的产物是背景产生的产物的至少10倍。结果由两次技术重复确定。图16A中的箭头指示全长cDNA产物(靠近凝胶顶部的箭头)和cDNA下降的实例(下部箭头)。

图17描绘了通过引物延伸测定筛选GII内含子F类MG167逆转录酶家族的体外活性。对于图17A，泳道号对应于以下内容：1-PURExpress无模板对照、2-MMLV对照RT、3-TGIRT-III对照RT、4至-新型候选物MG167-1至8。粗体编号对应于具有活性新型候选物的凝胶泳道。图17B描绘了通过qPCR定量全长cDNA产生。深灰色条对应于RT，所述RT产生的产物是背景产生的产物的至少10倍。结果由两次技术重复确定。图17A中的箭头指示全长cDNA产物(靠近凝胶顶部的箭头)和cDNA下降的实例(下部箭头)。

图18描绘了通过下一代测序评估来自MG153家族的GII内含子C类RT候选物的保真度的测定。将来自引物延伸反应的所得cDNA产物PCR扩增并制备用于NGS的文库。将修剪的读段与参考序列比对，并且计算错误掺入的频率。结果由两个独立实验确定。

图19描绘了筛选以评估哺乳动物细胞中的指定的对照RT和GII内含子C类候选物合成cDNA的能力。图19A描绘了通过琼脂糖凝胶分析检测542bp(顶部)和100bp(底部)PCR产物。图19B描绘了通过D1000 TapeStation检测542bp(顶部)和100bp(底部)PCR产物。图19C描绘了通过D1000TapeStation检测542bp PCR产物以用于另外的候选物。与图19A和图19B中所描述的实验不相关的泳道用黑框覆盖。

图20A描绘了全长G2L4样RT的系统发育树。参考G2L4序列和MG172候选物(点)被突出显示。图20B描绘了证实参考和MG172 RT的第277至280列代表负责逆转录酶功能的催化残基的数据。

图21A描绘了全长LTR RT的系统发育树。参考LTR RT序列和MG151候选物(点)被突出显示。图21B描绘了MG151-82 RT的基因组背景(标记为ORF 7)。预测结构域显示为暗框，并且长末端重复序列(LTR)显示为侧接LTR转座子的箭头。图21C描绘了显示蛋白酶、RT、RNA酶H和整合酶结构域的MG151-82的3D结构预测。

图22描绘了全长pol蛋白序列的多序列比对，以突出显示蛋白酶、RT-RNA酶H和整合酶结构域。MMLV RT的RT、RNA酶H和整合酶结构域的催化残基由每个结构域下方的条示出。MMLV参考序列的蛋白酶结构域未显示在比对中。

图23描绘了通过引物延伸测定筛选病毒候选物MG151-80至MG151-97的体外活性。对于图23A，泳道号对应于以下内容：1-RNA模板退火至引物；2-MMLV对照RT；3-Ty3对照RT；4至9新型候选物MG151-80至85；10-RT对照。对于图23B，泳道号对应于以下内容：1-RNA模板退火至引物，2至12-新型候选物MG151-87至97，13-MMLV对照RT。图23C描绘了在不同缓冲液条件下的Ty3对照RT的体外活性的测试。泳道号对应于以下内容：1-PURExpress无模板对照；2-缓冲液A(pH为7.5的40mM Tris-HCl、0.2M NaCl、10mM MgCl₂、1mM TCEP)；3-缓冲液B(pH为7.5的20mM Tris、150mM KCl、5mM MgCl₂、1mM TCEP、2％PEG-8000)；4-缓冲液C(pH为7.5的10mm Tris-HCl、80mm NaCl、9mm MgCl₂、1mM TCEP、0.01％(v/v)Triton X-100)；5-缓冲液D(pH为7.5的10mM Tris、130mM NaCl、9mM MgCl₂、1mM TCEP、10％甘油)。图23A至图23C中的箭头指示全长cDNA产物(靠近凝胶顶部的箭头)和cDNA下降的实例(下部箭头)。

图24描绘了在结构化RNA模板上测试候选物MG151-89、MG151-92和MG151-97的体外RT持续合成能力和引发参数。对于图24A和图24B，泳道1：6、10和16个核苷酸寡核苷酸标记(箭头)；泳道2：8、13和20个核苷酸寡核苷酸标记；泳道3：43和55个核苷酸寡核苷酸标记；泳道4和10：6个核苷酸引物；泳道5和11：8个核苷酸引物；泳道6和12：10个核苷酸引物；泳道7和13：13个核苷酸引物；泳道8和14：16个核苷酸引物；泳道9和15：20个核苷酸引物。图24A泳道4-9对应于含有具有不同引物长度的MMLV的逆转录反应。MMLV通过结构化RNA发夹逆转录。泳道10-15对应于含有具有不同引物长度的MG151-89的逆转录反应。MG151-89优选16和20个核苷酸的引物长度，并且似乎在结构化RNA发夹处停止逆转录。图24B泳道4-9对应于含有具有不同引物长度的MG151-92的逆转录反应。泳道10-15对应于含有具有不同引物长度的MG151-97的逆转录反应。在这些实验条件下，MG151–92或MG151-97均不具有活性。

图25描绘了2407反转录子RT的系统发育分析，其中选定用于体外下游表征的第一候选物被突出显示。添加文献中的16个经实验验证的反转录子中的9个并在树中突出显示。灰星代表候选物MG154-MG159和MG173家族成员。

图26描绘了选定用于体外下游表征的一些反转录子-RT候选物的蛋白质比对。图上指示所有记录的逆转录酶共有的反转录子特异性基序和催化XXDD核心。

图27A描绘了MG157-1反转录子的基因组背景(在浓黑线中标记为RT的箭头)。反转录子非编码RNA(ncRNA)用虚线框突出显示。图27B描绘了显示MG157-1反转录子ncRNA及其侧翼反向重复序列的插图。图27C描绘了MG157-1反转录子ncRNA的预测结构。

图28A描绘了MG160-3反转录子样单结构域RT的基因组背景。RT上游的区域(虚线框)在MG160成员之间是保守的。图28B描绘了MG160-3的3D结构预测，显示了与II组内含子cryo-EM结构进行比对的RT结构域。图28C描绘了五个MG160成员的5'UTR的预测结构。

图29描绘了通过引物延伸测定筛选反转录子样候选物MG160-1至MG160-6和MG160-8的体外活性。图29A泳道号对应于以下样品：1-PURExpress无模板对照、2-MMLV对照RT、3-TGIRT-III对照RT、4至10-新型候选物MG160-1至MG160-6和MG160-8。粗体编号对应于具有活性新型候选物的凝胶泳道。图29B描绘了通过qPCR定量全长cDNA产生。深灰色条对应于RT，所述RT产生的产物是背景产生的产物的至少10倍。结果由两次技术重复确定。图29A中的箭头指示全长cDNA产物(靠近凝胶顶部的箭头)和cDNA下降的实例(下部箭头)。

图30描绘了反转录子RT候选物的无细胞表达和通过体外转录的反转录子ncRNA的生成。图30A描绘了证实在无细胞表达系统中的反转录子RT蛋白产生。泳道对应于以下内容：1：序列梯，2：无模板对照，3：MG156-1(39kDa)，4：MG156-2(40kDa)，5：MG157-1(38kDa)。图30B描绘了证实在无细胞表达系统中的反转录子RT蛋白产生。泳道对应于以下——1：序列梯，2：无模板对照，3：MG157-2(37kDa)，4：MG157-5(43kDa)，5：MG159-1(53kDa)，6：Ec86(38kDa，阳性对照反转录子RT)。图30C描绘了通过体外转录的反转录子ncRNA模板的生成。泳道对应于对应于以下反转录子的以下ncRNA——1：MG154-1，2：MG154-2，3：MG155-1，4：MG155-2，5：MG155-3，6：MG156-1，7：MG156-2，8：MG157-1，9：MG157-2，10：MG157-5，11：MG158-1，12：MG159-1，13：Ec86，14：MG155-4，15：MG173-1，16：MG155-5。

图31描绘了证实MG140-1 R2逆转座子整合到28S rRNA基因的结构域架构。R2逆转座酶(浅灰色箭头)含有多个Zn指，以及RT和核酸内切酶结构域。MG140-1侧接5'和3'UTR，其限定转座子边界。MG140-1在靶位点基序GGTAGC中的G和T核苷酸之间精确整合。

图32描绘了通过用含有硫代磷酸酯键修饰的DNA寡核苷酸进行引物延伸来测试RT活性。泳道数对应于以下，1：具有经PS修饰的引物1的PURExpress无模板对照，2：具有经PS修饰的引物2的PURExpress无模板对照，3：具有经PS修饰的引物3的PURExpress无模板对照，4：具有未经修饰的引物的MMLV RT，5：具有经PS修饰的引物1的MMLV RT，6：具有经PS修饰的引物2的MMLV RT，7：具有经PS修饰的引物3的MMLV RT，8：具有未经修饰的引物的TGIRT-III，9：具有经PS修饰的引物1的TGIRT-III，10：具有经PS修饰的引物2的TGIRT-III，11：具有经PS修饰的引物3的TGIRT-III，12：具有未经修饰的引物的MG153-9，13：具有经PS修饰的引物1的MG153-9，14：具有经PS修饰的引物2的MG153-9，15具有经PS修饰的引物3的MG153-9。MMLV RT和TGIRT-III是对照RT。

图33描绘了通过引物延伸测定筛选RNA模板上的反转录子RT的活性。泳道数对应于以下，1：PURExpress无模板对照，2：MMLV对照RT，3：MG154-1，4：MG155-1，5：MG155-2，6：MG155-3，7：MG156-2，8：MG157-1，9：MG157-2，10：MG157-5，11：MG158-1，12：MG159-1，13：Ec86对照反转录子RT，14：Sa163对照反转录子RT，15：St85对照反转录子RT。粗体泳道对应于在测试的底物上表现出引物延伸活性的新型反转录子RT。

图34描绘了哺乳动物细胞中的MG153 GII衍生的RT合成cDNA的能力的筛选。通过Taqman qPCR测定542bp cDNA合成PCR产物的检测。将cDNA活性相对于活性TGIRT对照归一化，其中TGIRT表示值1。Y轴以log 10标度示出。

图35描绘了通过免疫印迹法检测MG153 GII衍生的RT的蛋白质表达。图35A和35B：用含有候选物RT的质粒转染细胞，并且通过免疫印迹来评估蛋白质表达，从而检测与RT的N末端融合的HA肽。将所有泳道相对于总蛋白质浓度归一化。白色箭头指向蛋白质的预期分子大小2X处的条带，这指示蛋白质二聚体。与图35A和35B中所描述的实验不相关的泳道用黑框覆盖。图35C：GII衍生的RT的多序列比对。所示的区域对应于比对的位置196至201。二聚化基序CAQQ被突出显示。

图36描绘了相对于蛋白质表达归一化的GII衍生的RT的相对活性。通过TaqmanqPCR检测cDNA合成，通过免疫印迹检测蛋白质表达。相对于TGIRT的活性根据总蛋白质浓度归一化。Y轴以线性标度示出。

序列表简要说明

随此提交的序列表提供了用于根据本公开的方法、组合物和系统的示例性多核苷酸和多肽序列。下文是其中的序列的示例性描述。

MG140

SEQ ID NO:1-29和393-401示出了MG140转座蛋白的全长肽序列。

SEQ ID NO:374-386示出了编码经HA-His标记的MG140逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:761-798示出了MG140 UTR的核苷酸序列。

SEQ ID NO:799-894示出了MG140逆转录酶蛋白的全长肽序列。

MG146

SEQ ID NO:402和895示出了MG140转座蛋白的全长肽序列。

SEQ ID NO:387示出了编码经HA-His标记的MG146逆转录酶蛋白的基因的核苷酸序列。

MG147

SEQ ID NO:388示出了编码经HA-His标记的MG147逆转录酶蛋白的基因的核苷酸序列。

MG148

SEQ ID NO:403-426示出了MG148逆转录酶蛋白的全长肽序列。

SEQ ID NO:389-392示出了编码经HA-His标记的MG148逆转录酶蛋白的基因的核苷酸序列。

MG149

SEQ ID NO:427-439示出了MG149逆转录酶蛋白的全长肽序列。

MG151

SEQ ID NO:440-554示出了MG151逆转录酶蛋白的全长肽序列。

SEQ ID NO:356-362示出了编码经TwinStrep标记的MG151逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:363-373示出了编码经链球菌标记的MG151逆转录酶蛋白的基因的核苷酸序列。

MG153

SEQ ID NO:555-608示出了MG153逆转录酶蛋白的全长肽序列。

SEQ ID NO:30-32和40-50示出了包括MG153逆转录酶蛋白和MS2外壳蛋白(MCP)的融合蛋白的核苷酸序列。

SEQ ID NO:66-119示出了编码经链球菌标记的MG153逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:120-173示出了编码MG153逆转录酶蛋白的经大肠杆菌密码子优化的基因的核苷酸序列。

SEQ ID NO:740-756示出了编码经MCP标记的MG153逆转录酶蛋白的基因的核苷酸序列。

MG154

SEQ ID NO:609-610示出了MG154逆转录酶蛋白的全长肽序列。

SEQ ID NO:308-309示出了编码经链球菌标记的MG154逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:324-325示出了编码MG154逆转录酶蛋白的经大肠杆菌密码子优化的基因的核苷酸序列。

SEQ ID NO:340-341示出了与MG154核酸酶相容的ncRNA的核苷酸序列。

MG155

SEQ ID NO:611-615示出了MG155逆转录酶蛋白的全长肽序列。

SEQ ID NO:310-312示出了编码经链球菌标记的MG155逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:326-328示出了编码MG155逆转录酶蛋白的经大肠杆菌密码子优化的基因的核苷酸序列。

SEQ ID NO:342-344示出了与MG155核酸酶相容的ncRNA的核苷酸序列。

MG156

SEQ ID NO:616-617示出了MG156逆转录酶蛋白的全长肽序列。

SEQ ID NO:313-314示出了编码经链球菌标记的MG156逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:329-330示出了编码MG156逆转录酶蛋白的经大肠杆菌密码子优化的基因的核苷酸序列。

SEQ ID NO:345-346示出了与MG156核酸酶相容的ncRNA的核苷酸序列。

MG157

SEQ ID NO:618-622示出了MG157逆转录酶蛋白的全长肽序列。

SEQ ID NO:315-319示出了编码经链球菌标记的MG157逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:331-335示出了编码MG157逆转录酶蛋白的经大肠杆菌密码子优化的基因的核苷酸序列。

SEQ ID NO:347-351示出了与MG157核酸酶相容的ncRNA的核苷酸序列。

MG158

SEQ ID NO:623示出了MG158逆转录酶蛋白的全长肽序列。

SEQ ID NO:320示出了编码经链球菌标记的MG158逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:336示出了编码MG158逆转录酶蛋白的经大肠杆菌密码子优化的基因的核苷酸序列。

SEQ ID NO:352示出了与MG158核酸酶相容的ncRNA的核苷酸序列。

MG159

SEQ ID NO:624-626示出了MG159逆转录酶蛋白的全长肽序列。

SEQ ID NO:321-323示出了编码经链球菌标记的MG159逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:337-339示出了编码MG159逆转录酶蛋白的经大肠杆菌密码子优化的基因的核苷酸序列。

SEQ ID NO:353-355示出了与MG159核酸酶相容的ncRNA的核苷酸序列。

MG160

SEQ ID NO:627-673示出了MG160逆转录酶蛋白的全长肽序列。

SEQ ID NO:174-180示出了编码经链球菌标记的MG160逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:181-187示出了编码优化的MG160逆转录酶蛋白的大肠杆菌密码子基因的核苷酸序列。

MG163

SEQ ID NO:674-678示出了MG163逆转录酶蛋白的全长肽序列。

SEQ ID NO:188-192示出了编码经链球菌标记的MG163逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:193-197示出了编码优化的MG163逆转录酶蛋白的大肠杆菌密码子基因的核苷酸序列。

MG164

SEQ ID NO:679-683示出了MG164逆转录酶蛋白的全长肽序列。

SEQ ID NO:198-202示出了编码经链球菌标记的MG164逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:203-207示出了编码优化的MG164逆转录酶蛋白的大肠杆菌密码子基因的核苷酸序列。

MG165

SEQ ID NO:684-692示出了MG165逆转录酶蛋白的全长肽序列。

SEQ ID NO:208-216示出了编码经链球菌标记的MG165逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:217-225示出了编码优化的MG165逆转录酶蛋白的大肠杆菌密码子基因的核苷酸序列。

SEQ ID NO:757-759示出了编码经MCP标记的MG165逆转录酶蛋白的基因的核苷酸序列。

MG166

SEQ ID NO:693-697示出了MG166逆转录酶蛋白的全长肽序列。

SEQ ID NO:226-230示出了编码经链球菌标记的MG166逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:231-235示出了编码优化的MG166逆转录酶蛋白的大肠杆菌密码子基因的核苷酸序列。

MG167

SEQ ID NO:698-702示出了MG167逆转录酶蛋白的全长肽序列。

SEQ ID NO:236-240示出了编码经链球菌标记的MG167逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:241-245示出了编码优化的MG167逆转录酶蛋白的大肠杆菌密码子基因的核苷酸序列。

SEQ ID NO:759-760示出了编码经MCP标记的MG167逆转录酶蛋白的基因的核苷酸序列。

MG168

SEQ ID NO:703-707示出了MG168逆转录酶蛋白的全长肽序列。

SEQ ID NO:246-250示出了编码经链球菌标记的MG168逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:251-255示出了编码优化的MG168逆转录酶蛋白的大肠杆菌密码子基因的核苷酸序列。

MG169

SEQ ID NO:708-718示出了MG169逆转录酶蛋白的全长肽序列。

SEQ ID NO:256-266示出了编码经链球菌标记的MG169逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:267-277示出了编码优化的MG169逆转录酶蛋白的大肠杆菌密码子基因的核苷酸序列。

MG170

SEQ ID NO:719-728示出了MG170逆转录酶蛋白的全长肽序列。

SEQ ID NO:278-287示出了编码经链球菌标记的MG170逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:288-297示出了编码优化的MG170逆转录酶蛋白的大肠杆菌密码子基因的核苷酸序列。

MG172

SEQ ID NO:729-733示出了MG172逆转录酶蛋白的全长肽序列。

SEQ ID NO:298-302示出了编码经链球菌标记的MG172逆转录酶蛋白的基因的核苷酸序列。

SEQ ID NO:303-307示出了编码优化的MG172逆转录酶蛋白的大肠杆菌密码子基因的核苷酸序列。

MG173

SEQ ID NO:734-735示出了MG173逆转录酶蛋白的全长肽序列。

其它序列

SEQ ID NO:736-738示出了经硫代磷酸酯修饰的引物的核苷酸序列。

SEQ ID NO:739示出了用于qPCR的Taqman探针的核苷酸序列。

具体实施方式

虽然本文中已经示出并描述了本发明的各种实施例，但是对于本领域的技术人员显而易见的是，此类实施例仅作为实例提供。在不脱离本发明的情况下，本领域技术人员可以想到多种变化、改变和替换。应当理解，可以采用本文所描述的本发明的实施例的各种替代方案。

除非另有指示，否则本文所公开的一些方法的实践采用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的技术。参见例如，Sambrook和Green、《分子克隆：实验室手册(Molecular Cloning:A Laboratory Manual)》,第4版(2012)；丛书《当代分子生物学实验指南(Current Protocols in Molecular Biology)》(F.M.Ausubel等人编辑)；丛书《酶学方法(Methods In Enzymology)》(学术出版社公司(Academic Press,Inc.)),《PCR 2：实用方法(PCR 2:A Practical Approach)》(M.J.MacPherson,B.D.Hames和G.R.Taylor编辑(1995))；Harlow和Lane编辑(1988)《抗体：实验室手册(Antibodies,A Laboratory Manual)》以及《动物细胞培养：基础技术和专门应用手册(Culture of Animal Cells:A Manual of Basic Technique and SpecializedApplications)》,第6版(R.I.Freshney编辑(2010))(所述文献通过引用整体并入本文)。

如本文所使用的，除非上下文另外清楚地指示，否则单数形式“一个(a)”、“一种(an)”和“所述(the)”旨在也包含复数形式。此外，在具体实施方式和/或权利要求中使用术语“包含(including)”、“包含(include)”、“具有(having)”、“具有(has)”、“具有(with)”或其变体的情况下，此类术语旨在以类似于术语“包括”的方式是包含性的。

术语“约”或“大约”意指在如由本领域普通技术人员确定的特定值的可接受误差范围内，这将部分地取决于值是如何测量或确定的，例如，测量系统的局限性。例如，“约”可以意指按照本领域的实践在一个或多于一个标准差内。可替代地，“约”可以意指给定值的至多20％、至多15％、至多10％、至多5％或至多1％的范围。

如本文所使用的，“细胞”通常是指生物细胞。细胞可以是活生物体的基本结构、功能或生物单位。细胞可以源自具有一个或多个细胞的任何生物体。一些非限制性实例包含：原核细胞、真核细胞、细菌细胞、古细菌细胞，单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如来自种植农作物、水果、蔬菜、谷物、大豆、玉米、玉蜀黍、小麦、种子、西红柿、大米、木薯、甘蔗、南瓜、干草、土豆、棉花、大麻、烟草、开花植物、针叶树、裸子植物、蕨类植物、石松、角苔纲、苔类、苔藓的细胞)、藻细胞(例如，布朗葡萄藻(Botryococcusbraunii)、莱茵衣藻(Chlamydomonas reinhardtii)、拟微球藻(Nannochloropsisgaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、亨氏马尾藻(Sargassum patensC.Agardh)等)、海藻(例如海带)、真菌细胞(例如酵母细胞，来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如鱼、两栖动物、爬行动物、鸟、哺乳动物)的细胞、来自哺乳动物(例如猪、牛、山羊、绵羊、啮齿动物、大鼠、小鼠、非人灵长类动物、人等)的细胞等。有时，细胞并非源自天然生物体(例如，细胞可以是合成制造的，有时被称为人工细胞)。

如本文所使用的，术语“核苷酸”通常是指碱基-糖-磷酸组合。核苷酸可以包括合成核苷酸。核苷酸可以包括合成核苷酸类似物。核苷酸可以是核酸序列(例如脱氧核糖核酸(DNA)和核糖核酸(RNA))的单体单元。术语核苷酸可以包含：核糖核苷三磷酸，腺苷三磷酸(ATP)、尿苷三磷酸(UTP)、胞嘧啶三磷酸(CTP)、鸟苷三磷酸(GTP)；以及脱氧核糖核苷三磷酸，如dATP、dCTP、dITP、dUTP、dGTP、dTTP或其衍生物。此类衍生物可以包含例如[αS]dATP、7-脱氮-dGTP和7-脱氮-dATP，以及赋予含有其的核酸分子核酸酶抗性的核苷酸衍生物。如本文所使用的，术语核苷酸可以是指双脱氧核糖核苷三磷酸(ddNTP)及其衍生物。双脱氧核糖核苷三磷酸的说明性实例可以包含但不限于：ddATP、ddCTP、ddGTP、ddITP和ddTTP。核苷酸可以是未经标记的或经可检测标记的，如使用包括光学可检测部分(例如荧光团)的部分。也可以用量子点进行标记。可检测标记可以包含例如放射性同位素、荧光标记、化学发光标记、生物发光标记和酶标记。核苷酸的荧光标记可以包含但不限于：荧光素、5-羧基荧光素(FAM)、2'7'-二甲氧基-4'5-二氯-6-羧基荧光素(JOE)、罗丹明、6-羧基罗丹明(R6G)、N,N,N',N'-四甲基-6-羧基罗丹明(TAMRA)、6-羧基-X-罗丹明(ROX)、4-(4'二甲氨基苯偶氮基)苯甲酸(DABCYL)、瀑布蓝、俄勒冈绿、德克萨斯红、青色素和5-(2'-氨乙基)氨基萘-1-磺酸(EDANS)。经荧光标记的核苷酸的具体实例可以包含：可从加利福尼亚州福斯特市的铂金埃尔默公司(Perkin Elmer、Foster City、Calif)获得的[R6G]dUTP、[TAMRA]dUTP、[R110]dCTP、[R6G]dCTP、[TAMRA]dCTP、[JOE]ddATP、[R6G]ddATP、[FAM]ddCTP、[R110]ddCTP、[TAMRA]ddGTP、[ROX]ddTTP、[dR6G]ddATP、[dR110]ddCTP、[dTAMRA]ddGTP和[dROX]ddTTP；可从伊利诺伊州阿灵顿高地的安玛西亚公司(Amersham,Arlington Heights,II.)获得的FluoroLink脱氧核苷酸、FluoroLink Cy3-dCTP、FluoroLink Cy5-dCTP、FluoroLink FluorX-dCTP、FluoroLink Cy3-dUTP和FluoroLink Cy5-dUTP；可从印第安纳州印第安纳波利斯的宝灵曼公司(Boehringer Mannheim,Indianapolis,Ind.)获得的荧光素-15-dATP、荧光素-12-dUTP、四甲基-罗丹明-6-dUTP、IR770-9-dATP、荧光素-12-ddUTP、荧光素-12-UTP和荧光素-15-2'-dATP；以及可从俄勒冈州尤金的分子探针公司(Molecular Probes,Eugene,Oreg)获得的经染色体标记的核苷酸、BODIPY-FL-14-UTP、BODIPY-FL-4-UTP、BODIPY-TMR-14-UTP、BODIPY-TMR-14-dUTP、BODIPY-TR-14-UTP、BODIPY-TR-14-dUTP、瀑布蓝-7-UTP、瀑布蓝-7-dUTP、荧光素-12-UTP、荧光素-12-dUTP、俄勒冈绿488-5-dUTP、罗丹明绿-5-UTP、罗丹明绿-5-dUTP、四甲基罗丹明-6-UTP、四甲基罗丹明-6-dUTP、德克萨斯红-5-UTP、德克萨斯红-5-dUTP和德克萨斯红-12-dUTP。核苷酸也可以通过化学修饰进行标记或标记。经化学修饰的单核苷酸可以是生物素-dNTP。经生物素化的dNTP的一些非限制性实例可以包含生物素-dATP(例如，bio-N6-ddATP、生物素-14-dATP)、生物素-dCTP(例如，生物素-11-dCTP、生物素-14-dCTP)和生物素-dUTP(例如生物素-11-dUTP、生物素-16-dUTP、生物素-20-dUTP)。

术语“多核苷酸”、“寡核苷酸”和“核酸”可互换使用以通常指代具有任何长度的核苷酸，即脱氧核糖核苷酸或核糖核苷酸或其类似物的聚合形式，呈单链、双链或多链形式。多核苷酸对于细胞可以是外源性的或内源性的。多核苷酸可以存在于无细胞的环境中。多核苷酸可以是基因或其片段。多核苷酸可以是DNA。多核苷酸可以是RNA。多核苷酸可以具有任何三维结构，并且可以进行任何功能。多核苷酸可以包括一种或多种类似物(例如，改变的主链、糖或核碱基)。如果存在，则可以在组装聚合物之前或之后赋予对核苷酸结构的修饰。类似物的一些非限制性实例包含：5-溴尿嘧啶、肽核酸、异源核酸、吗啉代、锁核酸、甘油核酸、苏糖核酸、双脱氧核苷酸、虫草素、7-脱氮-GTP、荧光团(例如，与糖连接的罗丹明或荧光素)、含硫醇的核苷酸、生物素连接的核苷酸、荧光碱基类似物、CpG岛、甲基-7-鸟苷、甲基化核苷酸、肌苷、硫尿苷、假尿苷、二氢尿苷、辫苷和怀俄苷。多核苷酸的非限制性实例包含基因或基因片段的编码或非编码区域、根据连接分析定义的多个基因座(基因座)、外显子、内含子、信使RNA(mRNA)、转移RNA(tRNA)、核糖体RNA(rRNA)、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微RNA(miRNA)、核酶、cDNA、重组多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的分离的RNA、包含无细胞DNA(cfDNA)和无细胞RNA(cfRNA)的无细胞多核苷酸、核酸探针和引物。核苷酸的序列可以间杂有非核苷酸组分。

术语“转染(transfection)”或“转染(transfected)”通常指通过非病毒或基于病毒的方法将核酸引入细胞中。核酸分子可以是编码完整蛋白或其功能部分的基因序列。参见例如Sambrook等人1989,《分子克隆：实验室手册》,18.1-18.88(所述文献通过引用整体并入本文)。

术语“肽”、“多肽”和“蛋白质”在本文中可互换使用以通常指代至少两个通过肽键连接的氨基酸残基的聚合物。此术语不表示聚合物的具体长度，也不旨在暗示或区分肽是使用重组技术、化学或酶促合成产生的还是天然存在的。所述术语适用于天然存在的氨基酸聚合物以及包括至少一种经修饰的氨基酸的氨基酸聚合物。在一些实施例中，聚合物可以间杂有非氨基酸。所述术语包含具有任何长度的氨基酸链，包含全长蛋白质以及具有或不具有二级或三级结构(例如，结构域)的蛋白质。术语还涵盖已被修饰的氨基酸聚合物；例如通过二硫键形成、糖基化、脂化、乙酰化、磷酸化、氧化和任何其它操作，如与标记组分缀合。如本文所使用的，术语“氨基酸(amino acid)”和“氨基酸(amino acids)”通常是指天然和非天然氨基酸，包含但不限于经修饰的氨基酸和氨基酸类似物。经修饰的氨基酸可以包含已被化学修饰以包含非天然存在于氨基酸上的基团或化学部分的天然氨基酸和非天然氨基酸。氨基酸类似物可以指氨基酸衍生物。术语“氨基酸”包含D-氨基酸和L-氨基酸。

如本文所使用的，“非天然”通常可以指在天然核酸或蛋白质中未发现的核酸或多肽序列。非天然可以指亲和标签。非天然可以指融合物。非天然可以指包括突变、插入或缺失的天然存在的核酸或多肽序列。非天然序列可以表现出或编码的活性(例如，酶活性、甲基转移酶活性、乙酰转移酶活性、激酶活性、泛素化活性等)也可以由非天然序列所融合的核酸或多肽序列表现出。非天然核酸或多肽序列可以通过基因工程化连接到天然存在的核酸或多肽序列(或其变体)以产生嵌合核酸或编码嵌合核酸或多肽的多肽序列。

如本文所使用的，术语“启动子”通常是指控制基因的转录或表达并且可以位于与启动RNA转录的核苷酸或核苷酸的区域相邻或重叠的调节DNA区域。启动子可以含有结合蛋白质因子(通常被称为转录因子)的特定DNA序列，其促进RNA聚合酶与DNA的结合，从而导致基因转录。‘基础启动子’(也被称为‘核心启动子’)通常可以指含有促进可操作连接多核苷酸的转录表达的所有基本元件的启动子。真核基础启动子可以含有TATA盒或CAAT盒。

如本文所使用的，术语“表达”通常是指从DNA模板转录核酸序列或多核苷酸(如转录成mRNA或其它RNA转录本)的过程或随后将经转录的mRNA翻译为肽、多肽、或蛋白质的过程。转录物和经编码的多肽可以统称为“基因产物”。如果多核苷酸源自基因组DNA，则表达可以包含在真核细胞中剪接mRNA。

如本文所使用的，“可操作地连接”、“可操作连接”、“操作性地连接”或其语法等效物通常是指遗传元件，例如启动子、增强子、聚腺苷酸化序列等的并置，其中所述元件处于允许其以预期方式操作的关系中。例如，如果调节元件有助于启动编码序列的转录，则可以包括启动子或增强子序列的调节元件与编码区可操作地连接。只要维持这种功能关系，调节元件与编码区之间就可以存在插入残基。

如本文所使用的，“载体”通常是指包括多核苷酸或与多核苷酸缔合并且可以被用于介导多核苷酸到细胞的递送的大分子或大分子的缔合物。载体的实例包含质粒、病毒载体、脂质体和其它基因递送媒剂。载体通常包括遗传元件(例如调节元件)，其与基因可操作地连接以促进基因在靶标中的表达。

如本文所使用的，“表达盒”和“核酸盒”通常可互换使用以指代一起表达或可操作地连接用于表达的核酸序列或元件的组合。在一些实施例中，表达盒是指调节元件和其可操作地连接用于表达的一个或多个基因的组合。

DNA或蛋白质序列的“功能片段”通常是指保留与全长DNA或蛋白质序列的生物活性基本上类似的(功能或结构)生物活性的片段。DNA序列的生物活性可能是其以归因于全长序列的方式影响表达的能力。

如本文所使用的，“经工程化的”对象通常表明所述对象已通过人为干预进行修饰。根据非限制性实例：核酸可以通过将其序列改变成自然界中不存在的序列来修饰；核酸可以通过将其连接到自然界中不与其缔合的核酸来修饰，使得连接产物具有原始核酸中不存在的功能；经工程化的核酸可以用自然界不存在的序列在体外合成；蛋白质可以通过将其氨基酸序列改变成自然界中不存在的序列来修饰；经工程化的蛋白质可以获得新的功能或特性。“经工程化的”系统包括至少一个经工程化的组分。

如本文所使用的，“合成的”和“人工的”通常可以互换使用以指代与天然存在的人蛋白质具有低序列同一性(例如小于50％序列同一性、小于25％序列同一性、小于10％序列同一性、小于5％序列同一性、小于1％序列同一性)的蛋白质或其结构域。例如，VPR和VP64结构域是合成的反式激活结构域。

如本文所使用的，术语“转座元件”是指可以从基因组中的一个位置移动到另一个位置的DNA序列(例如，其可以被“转座”)。可转座元件通常可以被分成两类。I类转座元件或“逆转座子”经由RNA中间体的转录和翻译转座，随后将其经由逆转录(由逆转录酶介导的过程)重新并入到其在基因组中的新位置中。II类转座元件或“DNA转座子”通过转座酶经由侧接在任一侧上的单链或双链DNA的复合物转座。此酶家族的另外的特征可见于例如，《自然教育(Nature Education)》2008,1(1),204；以及《基因组生物学(Genome Biology)》2018,19(199),1-12；所述文献中的每一个通过引用并入本文。

如本文所使用的，术语“逆转座子”是指根据涉及RNA中间体的两部分“复制和粘贴”机制起作用的I类转座元件。“逆转座酶”是指负责逆转座子的转座的酶。在一些实施例中，逆转座酶包括逆转录酶结构域。在一些实施例中，逆转座酶进一步包括一个或多个锌指结构域。在一些实施例中，逆转座酶进一步包括核酸内切酶结构域。

在两个或更多个核酸或多肽序列的上下文中，术语“序列同一性”或“百分比同一性”通常是指当在局部或全局比较窗内进行比较和比对以获得最大对应性时，两个(例如，在成对比对中)或更多个(例如，在多序列比对中)序列相同或具有相同特定百分比的氨基酸残基或核苷酸，如使用序列比较算法测量的。用于多肽序列的合适的序列比较算法包含例如：用于长于30个残基的多肽序列的使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在11，扩展1并且使用条件组成评分矩阵调整的BLASTP；用于少于30个残基的序列的使用字长(W)为2、期望值(E)为1000000的参数以及PAM30评分矩阵将空位罚分设置为空位打开为9以及扩展空位为1的BLASTP(这些是BLAST套件中BLASTP的默认参数，可在https://blast.ncbi.nlm.nih.gov获得)；使用匹配为2、失配为-1并且间隙为-1的史密斯-沃特曼同源性搜索算法参数的CLUSTALW；使用默认参数的MUSCLE；使用retree为2并且最大迭代为1000的参数的MAFFT：；使用默认参数的Novafold；使用默认参数的HMMER hmmalign。

在两个或更多个核酸或多肽序列的上下文中，术语“最佳比对”通常是指已经与氨基酸残基或核苷酸的最大对应性比对的两个(例如，在成对比对中)或更多个(例如，在多序列比对中)序列，例如，如通过产生最高或“优化”百分比同一性评分的比对确定的。

术语“开放阅读框”或“ORF”通常是指可以编码蛋白质或蛋白质的一部分的核苷酸序列。开放阅读框可以从起始密码子开始(在标准编码中表示为例如RNA分子的AUG和DNA分子中的ATG)，并且可以在密码子三联体中读取，直到框以终止密码子结束(在标准编码中表示为例如RNA分子的UAA、UGA或UAG和DNA分子中的TAA、TGA或TAG)。

本公开包含本文所描述的具有一个或多个保守氨基酸取代的酶中的任何酶的变体。此类保守取代可以在多肽的氨基酸序列中进行，而不破坏多肽的三维结构或功能。保守取代可以通过具有类似疏水性、极性和R链长度的氨基酸彼此取代来完成。另外或可替代地，通过比较来自不同物种的同源蛋白质的比对序列，可以通过定位物种之间已突变的氨基酸残基(例如非保守残基)而不改变经编码的蛋白质的基本功能来鉴定保守取代。此类经保守取代的变体可以包含与本文所述的逆转座酶蛋白质序列(例如，本文所述的MG140家族逆转座酶或本文所述的任何其它家族逆转座酶)中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的变体。在一些实施例中，此类经保守取代的变体是功能变体。此类功能变体可以涵盖具有取代的序列，使得逆转座酶的一个或多个关键活性位点残基的活性不被破坏。在一些实施例中，本文所述的蛋白质中的任何蛋白质的功能变体缺乏图2中所指示的保守或功能残基中的至少一个的取代。在一些实施例中，本文所述的蛋白质中的任何蛋白质的功能变体缺乏图2中所指示的全部保守或功能残基的取代。

本公开还包含本文所述的酶中的任何酶的变体，其取代一个或多个催化残基以降低或消除酶的活性(例如，活性降低的变体)。在一些实施例中，作为本文所述的蛋白质的活性降低的变体包括图2中所指示的至少一个、至少两个或所有三个催化残基的破坏性取代。

提供功能类似氨基酸的保守取代表可从各种参考文献中获得(参见例如Creighton,《蛋白质：结构与分子特性(Proteins:Structures and MolecularProperties)》(W H弗里曼出版社(W H Freeman&Co.)；第2版(1993年12月)))。以下八个基团各自含有彼此保守取代的氨基酸：

1)丙氨酸(A)、甘氨酸(G)；

2)天冬氨酸(D)、谷氨酸(E)；

3)天冬酰胺(N)、谷氨酰胺(Q)；

4)精氨酸(R)、赖氨酸(K)；

5)异亮氨酸(I)、亮氨酸(L)、甲硫氨酸(M)、缬氨酸(V)；

6)苯丙氨酸(F)、酪氨酸(Y)、色氨酸(W)；

7)丝氨酸(S)、苏氨酸(T)；以及

8)半胱氨酸(C)、甲硫氨酸(M)。

本公开还包含具有一个或多个取代、缺失或插入的本文所述的核酸序列中的任一个的变体。在一些实施例中，此类变体与本文所述的核酸序列中的任一个具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性。

本文所述的蛋白质序列中的一些涉及从所选择的较大蛋白质(例如逆转座酶)的序列中确定特定结构域(例如逆转录酶或RT结构域)。在此类情况下，使用具有其中结构域已被验证(例如具有3D结构)的参考较大蛋白质(例如逆转座酶)的多序列比对(MSA)以通过将所选蛋白质与具有验证结构域的较大蛋白质比对来识别结构域边界。当MSA由于序列如此发散而不确定时，确定较大蛋白质的3D结构，并将结构结构域与已知结构域进行比较以限定边界。可以通过确保结构域边界内的结构域存在重要的催化残基来进一步验证这些边界。

如本文所使用的，术语“LINE逆转座酶”通常是指一类自主的非LTR逆转座子(长散置元件)。如本文所使用的，术语“R2逆转座酶”或“R4逆转座酶”通常是指共享类似的结构域架构的LINE逆转座酶的亚类，但不同之处在于R2逆转座酶可以是位点特异性的(例如，整合在rRNA基因的特定位点)，而R4逆转座子可以在rRNA基因以及其它含有重复序列的非特异性位点两者处整合。

概述

具有独特功能和结构的新转座元件的发现可以提供进一步破坏脱氧核糖核酸(DNA)编辑技术的可能性，从而提高速度、特异性、功能和易用性。相对于微生物中转座元件的预测普遍性和微生物物种的纯粹多样性，文献中存在相对较少的功能表征的转座元件。这部分地因为大量的微生物物种可能不容易在实验室条件下培养。对含有大量微生物物种的自然环境生态位进行宏基因组测序可以提供大幅增加新的记录的转座元件的数量以及加速新寡核苷酸编辑功能的发现的可能性。

转座元件是可以改变在基因组中的位置的脱氧核糖核酸序列，这通常导致突变的产生或改善。在真核生物中，基因组的很大一部分和细胞DNA的很大一部分可归因于转座元件。尽管转座元件是以牺牲其它基因为代价繁殖自身的“自私基因”，但已发现其具有各种重要功能并且对基因组进化至关重要。基于其机制，转座元件被归类为I类“逆转座子”或II类“DNA转座子”。

I类转座元件(也被称为逆转座子)根据涉及RNA中间体的两部分“复制和粘贴”机制起作用。首先，转录逆转座子。随后将所得RNA通过逆转录酶(通常由逆转座子本身编码)转化回到DNA，并且经逆转录的逆转座子通过整合酶整合到其在基因组中的新位置中。逆转座子被进一步分为三个顺序。具有长末端重复序列(“LTR”)的逆转座子编码逆转录酶，并且侧接重复DNA的长链。具有长散置核元件(“LINE”)的逆转座子编码逆转录酶，缺乏LTR，并且被RNA聚合酶II转录。具有短散置核元件(“SINE”)的逆转座子被RNA聚合酶III转录，但缺乏逆转录酶，而是依赖于其它转座元件(例如LINE)的逆转录机制。

II类转座元件(也被称为DNA转座子)根据不涉及RNA中间体的机制起作用。许多DNA转座子展示“切割和粘贴”机制，其中转座酶结合侧接转座子的末端反向重复序列(“TIR”)，从供体区切割转座子，并将其插入基因组的靶区中。被称为“直升子”的其它展示出“滚转环”机制，涉及单链DNA中间体并且由未记录的蛋白质介导，所述蛋白质被理解为具有HUH核酸内切酶功能和5'至3'解旋酶活性。首先，对DNA的圆形链进行切口以产生两条单DNA链。蛋白质保持附着到有切口的链的5'磷酸酯，从而使互补链的3'羟基端暴露，并且因此允许聚合酶复制无切口的链。一旦复制完成，新链就解离，并且自身与原始模板链一起复制。理论上，其它DNA转座子“聚体”仍经历“自合成”机制。转座由整合酶切除单链染色体外聚体元件引发，所述单链染色体外聚体元件形成球拍样结构。聚体经历用DNA聚合酶B进行复制，并且双链聚体通过整合酶插入基因组中。另外，一些DNA转座子(如IS200/IS605家族中的转座子)经由“剥离和粘贴”机制进行，其中TnpA从供体基因的滞后链模板切除一条单链DNA(作为圆形“转座子接头”)并将其重新插入靶基因的复制叉中。

虽然转座元件已发现一些用作生物工具，但有记录的转座元件并不涵盖所有可能的生物多样性和可靶向性，并且可能并不代表所有可能的活性。在此，从大量的宏基因组中提取了数千个基因组片段用于转座元件。记录的转座元件的多样性可能已经扩大，并且新型系统可能已经发展成为高度靶向、紧凑和精确的基因编辑药剂。

MG酶

在一些方面，本公开提供了新型逆转座酶。这些候选物可以表示一种或多种新型亚型，并且可能已经鉴定出一些亚家族。这些逆转座酶的长度小于约1,400个氨基酸。这些逆转座酶可以简化递送并且可以扩展治疗性应用。

在一些方面，本公开提供了一种新型逆转座酶。此类逆转座酶可以是如本文所述的MG140(参见图1和2)。

一方面，本公开提供了一种通过宏基因组测序发现的经工程化的逆转座酶系统。在一些实施例中，对样品进行所述宏基因组测序。在一些实施例中，所述样品可以从多种环境收集。此类环境可以是人微生物组、动物微生物组、高温环境、低温环境。此类环境可以包含沉积物。

一方面，本公开提供了一种经工程化的逆转座酶系统，其包括逆转座酶。在一些实施例中，所述逆转座酶衍生自未经培养的微生物。所述逆转座酶可以被配置成结合3'非翻译区(UTR)。所述逆转座酶可以结合5'非翻译区(UTR)。

一方面，本公开提供了一种经工程化的逆转座酶系统，其包括逆转座酶。在一些实施例中，所述逆转座酶包括与SEQ ID NO:1-29、393-735或799-895中的任一者具有至少约70％序列同一性的序列。在一些实施例中，所述逆转座酶包括与SEQ ID NO:1-29、393-735或799-895中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％序列同一性的序列。

在一些实施例中，所述逆转座酶包括与SEQ ID NO:1-29、393-735或799-895中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％序列同一性的变体。在一些实施例中，所述逆转座酶可以与SEQ ID NO:1-29、393-735或799-895中的任一者基本上相同。

在一些实施例中，所述逆转座酶包括逆转录酶结构域。在一些实施例中，所述逆转座酶进一步包括一个或多个锌指结构域。在一些实施例中，所述逆转座酶进一步包括核酸内切酶指结构域。

在一些实施例中，所述逆转座酶与有记录的逆转座酶具有小于约90％、小于约85％、小于约80％、小于约75％、小于约70％、小于约65％、小于约60％、小于约55％、小于约50％、小于约45％、小于约40％、小于约35％、小于约30％、小于约25％、小于约20％、小于约15％、小于约10％或小于约5％的序列同一性。

在一些实施例中，所述货物核苷酸序列侧接有3'非翻译区(UTR)和5'非翻译区(UTR)。

在一些实施例中，所述逆转座酶被配置成将所述货物核苷酸序列作为单链脱氧核糖核酸多核苷酸转座。在一些实施例中，所述逆转座酶被配置成将所述货物核苷酸序列作为双链脱氧核糖核酸多核苷酸转座。在一些实施例中，所述逆转座酶被配置成经由核糖核酸多核苷酸中间体转座所述货物核苷酸序列。

在一些实施例中，所述逆转座酶包括与真核生物、真菌、植物、哺乳动物或人基因组多核苷酸序列互补的序列。在一些实施例中，所述逆转座酶包括与真核生物基因组多核苷酸序列互补的序列。在一些实施例中，所述逆转座酶包括与真菌基因组多核苷酸序列互补的序列。在一些实施例中，所述逆转座酶包括与植物基因组多核苷酸序列互补的序列。在一些实施例中，所述逆转座酶包括与哺乳动物基因组多核苷酸序列互补的序列。在一些实施例中，所述逆转座酶包括与人基因组多核苷酸序列互补的序列。

在一些实施例中，所述逆转座酶可以包括具有一个或多个核定位序列(NLS)的变体。所述NLS可以接近所述逆转座酶的N末端或C末端。所述NLS可以被附加到SEQ ID NO:896-911中的任一者的N末端或C末端，或者被附加到与SEQ ID NO:896-911中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％序列同一性的变体。在一些实施例中，所述NLS可以包括与SEQ ID NO:896-911中的任一者基本上相同的序列。在一些实施例中，所述NLS可以包括与SEQ ID NO:896基本上相同的序列。在一些实施例中，所述NLS可以包括与SEQ IDNO:897基本上相同的序列。

表1：可以与根据本公开的逆转座酶一起使用的示例NLS序列

在一些实施例中，序列可以通过BLASTP、CLUSTALW、MUSCLE或MAFFT算法或CLUSTALW算法使用史密斯-沃特曼同源性搜索算法参数来测定。序列同一性可以通过BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在11，扩展1并且使用条件组成评分矩阵调整来确定。

一方面，本公开提供了一种脱氧核糖核酸多核苷酸，其编码本文所述的经工程化的逆转座酶系统。

一方面，本公开提供了一种核酸，其包括经工程化的核酸序列。在一些实施例中，所述经工程化的核酸序列被优化以在生物体中表达。在一些实施例中，所述逆转座酶衍生自未经培养的微生物。在一些实施例中，所述生物体不是未经培养的生物体。

在一些实施例中，所述逆转座酶包括与SEQ ID NO:1-29、393-735或799-895中的任一者具有至少约70％序列同一性的序列。在一些实施例中，所述逆转座酶包括与SEQ IDNO:1-29、393-735或799-895中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％序列同一性的序列。

在一些实施例中，所述生物体是原核细胞。在一些实施例中，所述生物体是细菌。在一些实施例中，所述生物体是真核生物。在一些实施例中，所述生物体是真菌。在一些实施例中，所述生物体是植物。在一些实施例中，所述生物体是哺乳动物。在一些实施例中，所述生物体是啮齿动物。在一些实施例中，所述生物体是人。

一方面，本公开提供了一种经工程化的载体。在一些实施例中，所述经工程化的载体包括编码逆转座酶的核酸序列。在一些实施例中，所述逆转座酶衍生自未经培养的微生物。

在一些实施例中，所述经工程化的载体包括本文所述的核酸。在一些实施例中，本文所述的核酸是本文所述的脱氧核糖核酸多核苷酸。在一些实施例中，所述载体是质粒、微环、CELiD、腺相关病毒(AAV)源性病毒体或慢病毒。

一方面，本公开提供了一种细胞，其包括本文所述的载体。

一方面，本公开提供了一种制备逆转座酶的方法。在一些实施例中，所述方法包括培养所述细胞。

一方面，本公开提供了一种用于结合、切口、切割、标记、修饰或转座双链脱氧核糖核酸多核苷酸的方法。所述方法可以包括使双链脱氧核糖核酸多核苷酸与逆转座酶接触。在一些实施例中，所述货物核苷酸序列侧接有3'非翻译区(UTR)和5'非翻译区(UTR)。

在一些实施例中，所述逆转座酶衍生自未经培养的微生物。在一些实施例中，所述双链脱氧核糖核酸多核苷酸是真核生物、植物、真菌、哺乳动物、啮齿动物或人双链脱氧核糖核酸多核苷酸。

一方面，本公开提供了一种修饰靶核酸基因座的方法。所述方法可以包括向所述靶核酸基因座递送本文所述的经工程化的逆转座酶系统。在一些实施例中，复合物被配置成使得在所述复合物与所述靶核酸基因座结合时，所述复合物修饰所述靶核酸基因座。

在一些实施例中，修饰所述靶核酸基因座包括结合、切口、切割、标记、修饰或转座所述靶核酸基因座。在一些实施例中，所述靶核酸基因座包括脱氧核糖核酸(DNA)或核糖核酸(RNA)。在一些实施例中，所述靶核酸包括基因组DNA、病毒DNA、病毒RNA或细菌DNA。在一些实施例中，所述靶核酸基因座是在体外的。在一些实施例中，所述靶核酸基因座是在细胞内的。在一些实施例中，所述细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞或人细胞。在一些实施例中，所述细胞是原代细胞。在一些实施例中，所述原代细胞是T细胞。在一些实施例中，所述原代细胞是造血干细胞(HSC)。

在一些实施例中，向所述靶核酸基因座递送所述经工程化的逆转座酶系统包括递送本文所述的核酸或本文所述的载体。在一些实施例中，向所述靶核酸基因座递送经工程化的逆转座酶系统包括递送包括编码所述逆转座酶的开放阅读框的核酸。在一些实施例中，所述核酸包括启动子。在一些实施例中，编码所述逆转座酶的所述开放阅读框与所述启动子可操作地连接。

在一些实施例中，向所述靶核酸基因座递送所述经工程化的逆转座酶系统包括递送包含编码所述逆转座酶的开放阅读框的加帽mRNA。在一些实施例中，向所述靶核酸基因座递送所述经工程化的逆转座酶系统包括递送经翻译的多肽。在一些实施例中，向所述靶核酸基因座递送所述经工程化的逆转座酶系统包括递送编码经工程化的向导RNA的脱氧核糖核酸(DNA)，所述经工程化的向导RNA与核糖核酸(RNA)pol III启动子可操作地连接。

在一些实施例中，所述逆转座酶不诱导所述靶核酸基因座处或附近的断裂。

一方面，本公开提供了一种宿主细胞，其包括编码异源逆转座酶的开放阅读框。在一些实施例中，所述逆转座酶包括与SEQ ID NO:1-29、393-735或799-895中的任一者具有至少约70％序列同一性的序列。在一些实施例中，所述逆转座酶包括与SEQ ID NO:1-29、393-735或799-895中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％序列同一性的序列。

在一些实施例中，所述逆转座酶被配置成将所述货物核苷酸序列作为双链脱氧核糖核酸多核苷酸转座。在一些实施例中，所述逆转座酶被配置成将所述货物核苷酸序列作为双链脱氧核糖核酸多核苷酸转座。在一些实施例中，所述逆转座酶被配置成经由核糖核酸多核苷酸中间体转座所述货物核苷酸序列。

在一些实施例中，所述宿主细胞是大肠杆菌细胞。在一些实施例中，所述大肠杆菌细胞是λDE3溶原菌，或者所述大肠杆菌细胞是BL21(DE3)菌株。在一些实施例中，所述大肠杆菌细胞具有ompT lon基因型。

在一些实施例中，所述开放阅读框与以下可操作地连接：T7启动子序列、T7-lac启动子序列、lac启动子序列、tac启动子序列、trc启动子序列、ParaBAD启动子序列、PrhaBAD启动子序列、T5启动子序列、cspA启动子序列、araP_BAD启动子、来自噬菌体λ的强左侧启动子(pL启动子)或其任何组合。

在一些实施例中，所述开放阅读框包括编码亲和标签的序列，所述亲和标签与编码所述逆转座酶的序列框内连接。在一些实施例中，所述亲和标签是固定化金属亲和色谱法(IMAC)标签。在一些实施例中，所述IMAC标签是多组氨酸标签。在一些实施例中，所述亲和标签是myc标签、人流感血凝素(HA)标签、麦芽糖结合蛋白(MBP)标签、谷胱甘肽S-转移酶(GST)标签、链霉亲和素标签、FLAG标签或其任何组合。在一些实施例中，所述亲和标签经由编码蛋白酶切割位点的接头序列与编码所述逆转座酶的所述序列框内连接。在一些实施例中，所述蛋白酶切割位点是烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。

在一些实施例中，所述开放阅读框被密码子优化以在宿主细胞中表达。在一些实施例中，所述开放阅读框被提供在载体上。在一些实施例中，所述开放阅读框被整合到宿主细胞的基因组中。

一方面，本公开提供了一种培养物，其包括在相容液体培养基中的本文所述的宿主细胞。

一方面，本公开提供了一种产生逆转座酶的方法，所述方法包括在相容液体培养基中培养本文所述的宿主细胞。在一些实施例中，所述方法进一步包括通过添加另外的化学药剂或增加量的营养物来诱导所述逆转座酶的表达。在一些实施例中，所述另外的化学药剂或增加量的营养物包括异丙基β-D-1-硫代半乳糖苷(IPTG)或另外的量的乳糖。在一些实施例中，所述方法进一步包括在所述培养后分离所述宿主细胞并且使所述宿主细胞裂解以产生蛋白质提取物。在一些实施例中，所述方法进一步包括使所述蛋白质提取物经受IMAC或离子亲和色谱法。在一些实施例中，所述开放阅读框包括编码IMAC亲和标签的序列，所述IMAC亲和标签与编码所述逆转座酶的序列框内连接。在一些实施例中，所述IMAC亲和标签经由编码蛋白酶切割位点的接头序列与编码所述逆转座酶的序列框内连接。在一些实施例中，所述蛋白酶切割位点包括烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。在一些实施例中，所述方法进一步包括通过使对应于蛋白酶切割位点的蛋白酶与逆转座酶接触来切割IMAC亲和标签。在一些实施例中，所述方法进一步包括执行减材IMAC亲和色谱法以从包括所述逆转座酶的组合物去除所述亲和标签。

一方面，本公开提供了一种破坏细胞中的基因座的方法。在一些实施例中，所述方法包括使包括逆转座酶的组合物与细胞接触。在一些实施例中，所述逆转座酶具有与细胞中的有记录的逆转座酶至少等同的转座活性。在一些实施例中，所述逆转座酶包括与SEQID NO:1-29、393-735或799-895中的任一者具有至少约70％序列同一性的序列。在一些实施例中，所述逆转座酶包括与SEQ ID NO:1-29、393-735或799-895中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％序列同一性的序列。

在一些实施例中，所述逆转座酶被配置成将所述货物核苷酸序列作为双链脱氧核糖核酸多核苷酸转座。在一些实施例中，所述逆转座酶被配置成将所述货物核苷酸序列作为单链脱氧核糖核酸多核苷酸转座。在一些实施例中，所述逆转座酶被配置成经由核糖核酸多核苷酸中间体转座所述货物核苷酸序列。

在一些实施例中，所述转座活性通过将逆转座酶引入包括所述靶核酸基因座的细胞并检测细胞中的所述靶核酸基因座的转座来在体外测量。在一些实施例中，所述组合物包括20pmol或更少的逆转座酶。在一些实施例中，所述组合物包括1pmol或更少的逆转座酶。

本公开的系统可以用于各种应用，例如核酸编辑(例如基因编辑)、与核酸分子结合(例如序列特异性结合)。此类系统可以用于例如：解决(例如，去除或替换)可能引起受试者的疾病的遗传突变；使基因灭活以便确定其在细胞中的功能；作为检测致病遗传元件的诊断工具(例如通过切割逆转录病毒RNA或编码致病突变的扩增DNA序列)；作为灭活酶与探针结合以靶向和检测特定核苷酸序列(例如编码细菌抗生素抗性的序列)；通过靶向病毒基因组使病毒灭活或无法感染宿主细胞；添加基因或修改代谢途径来对生物体进行工程化以产生有价值的小分子、大分子或次级代谢物；建立用于进化选择的基因驱动元件；作为生物传感器检测外来小分子和核苷酸对细胞的干扰。

实例

根据IUPAC惯例，在各个实例中使用以下缩写：

A＝腺嘌呤

C＝胞嘧啶

G＝鸟嘌呤

T＝胸腺嘧啶

R＝腺嘌呤或鸟嘌呤

Y＝胞嘧啶或胸腺嘧啶

S＝鸟嘌呤或胞嘧啶

W＝腺嘌呤或胸腺嘧啶

K＝鸟嘌呤或胸腺嘧啶

M＝腺嘌呤或胞嘧啶

B＝C、G或T

D＝A、G或T

H＝A、C或T；

V＝A、C或G

实例1-新蛋白质的宏基因组分析方法

从沉积物、土壤和动物收集宏基因组样品。用Zymobiomics DNA微型制备试剂盒提取脱氧核糖核酸(DNA)并在Illumina 2500上测序。在产权所有者同意的情况下收集样品。来自公共来源的另外的原始序列数据包含动物微生物群、沉积物、土壤、温泉、深海热泉、海洋、泥炭沼泽、永久冻土和污水序列。使用基于有记录的逆转座酶蛋白序列生成的隐马尔可夫模型搜索宏基因组序列数据以识别新的逆转座酶。通过搜索鉴定的新型逆转座酶蛋白与有记录的蛋白质比对以鉴定潜在的活性位点。此宏基因组工作流导致本文所描述的MG140家族的描绘。

实例2-逆转座酶的MG140家族的发现

对来自实例1的宏基因组分析的数据的分析揭示了包括1个家族(MG140)的未描述的推定逆转座酶系统的新簇。这些新酶及其示例亚结构域的对应蛋白质序列如SEQ ID NO:1-29、393-401和799-894所示。

实例3-经逆转录的DNA体外活性的整合(预测)

整合酶活性可以通过在基于大肠杆菌切割物的表达系统(例如，阿伯生物科学公司(Arbor Biosciences)的myTXTL)中表达来进行。用于体外测试的组分是三种质粒：T7启动子下的具有逆转座子基因的表达质粒、靶质粒和供体质粒，所述供体质粒含有由逆转座酶在选择标记基因(例如Tet抗性基因)周围识别的5'和3'UTR序列。将基于切割物的表达产物、靶DNA和供体质粒温育以允许发生转座。通过PCR检测转座。另外，转座产物将用T5标记并且经由NGS测序以确定转座事件群体上的插入位点。可替代地，体外转座产物可以在抗生素(例如Tet)选择下转化成大肠杆菌，其中当选择标记稳定地插入质粒中时发生生长。可以对单个集落或大肠杆菌群体进行测序以确定插入位点。

整合效率可以经由具有整合货物的靶DNA的实验输出的ddPCR或qPCR来测量，相对于也经由ddPCR测量的未经修饰的靶DNA的量归一化。

此测定也可以用纯化的蛋白质组分，而不是从基于切割物的表达中进行。在这种情况下，在T7诱导型启动子下在大肠杆菌蛋白酶缺陷型B菌株中表达蛋白质，使用超声处理切割细胞，并且使用HisTrap FF(通用生命科学公司(GE Lifescience))Ni-NTA亲和色谱法在AKTA Avant FPLC(通用生命科学公司)上纯化所关注的经His标记的蛋白质。使用在SDS-PAGE和InstantBlue超高速(西格玛-奥德里奇公司(Sigma-Aldrich))经考马斯染色的丙烯酰胺凝胶(伯乐公司)上解析的蛋白质带的ImageLab软件(伯乐公司(Bio-Rad))中的密度测定法确定纯度。将蛋白质在pH为7.5的由50mM Tris-HCl、300mM NaCl、1mM TCEP、5％甘油组成的储存缓冲液(或如最大稳定性所确定的其它缓冲液)中脱盐并在-80℃下储存。在纯化后，将转座子基因添加到如上文所描述的补充有15mM MgOAc₂的反应缓冲液，例如pH为7.5的26mM HEPES、pH为8的4.2mM TRIS、50μg/mL BSA、2mM ATP、2.1mM DTT、0.05mM EDTA、0.2mM MgCl₂、30-200mM NaCl、21mM KCl、1.35％甘油(测量的pH 7.5)中的靶DNA和供体质粒中。

实例4-经由凝胶移位的逆转座子端验证(预测)

经由电泳迁移率移位测定(EMSA)测试逆转座子端的逆转座酶结合。在这种情况下，靶DNA片段(100-500bp)通过具有经FAM标记的引物的PCR用FAM进行端标记。3'UTR RNA和5'UTR RNA使用T7 RNA聚合酶在体外产生并纯化。逆转座酶蛋白在体外转录/翻译系统(例如PURExpress)中合成。在合成后，将1μL的蛋白质添加到结合缓冲液(例如，pH为7.5的20mM HEPES、pH为7.5的2.5mM Tris、10mM NaCl、0.0625mM EDTA、5mM TCEP、0.005％BSA、1μg/mL聚(dI-dC)和5％甘油)中的10μL反应中的50nM的经标记的DNA和100ng的3'或5'UTRRNA中。将结合在30°下温育40分钟，然后添加2μL的6X上样缓冲液(60mM KCl，pH为7.6的10mM Tris，50％甘油)。将结合反应在5％TBE凝胶上分离并可视化。在存在逆转座酶蛋白和靶DNA的情况下的3'或5'UTR的移位可归因于成功结合，并且指示逆转座酶活性。此测定也可以用逆转座酶截短或突变，以及使用大肠杆菌提取物或经纯化的蛋白质进行。

实例5-靶DNA验证的切割(预测)

为了确认逆转座酶参与靶DNA的切割，经由具有经FAM标记的引物的PCR用FAM在两端标记短(约140bp)DNA片段。体外转录/翻译逆转座酶产物用1μg的RNA酶A(阴性对照)或3'UTR、5'UTR或非特异性RNA片段(对照)预温育，随后在37℃下与经标记的靶DNA一起温育。然后在变性凝胶上分析DNA。DNA的一条或两条链的切割可以导致具有各种大小的经标记的片段，所述片段在凝胶上以不同速率迁移。

实例6-大肠杆菌中的整合酶活性(预测)

经工程化的大肠杆菌菌株用表达逆转座子基因的质粒和含有温度敏感复制起点的质粒进行转化，所述温度敏感复制起点具有侧接有参与整合的逆转座子的5'和3'UTR的选择性标记。然后通过选择在限制温度下进行质粒复制来筛选诱导这些基因表达的转化物以将标记转移到基因组靶标，并且通过PCR确认基因组中的标记整合。

使用无偏方法筛选整合。简而言之，用Tn5标记纯化的gDNA，并且然后使用对Tn5标记和选择性标记具有特异性的引物对所关注的DNA进行PCR扩增。然后制备扩增子用于NGS测序。对所得序列的分析是转座子序列的修剪，并且将侧接序列映射到基因组以确定插入位置，并且确定插入速率。

实例7-经逆转录的DNA整合到哺乳动物基因组中(预测)

为了显示哺乳动物细胞中的靶向和切割活性，将整合酶蛋白在大肠杆菌或sf9细胞中在蛋白质序列的N末端、C末端或两个末端中用2个NLS肽纯化。在此程序中，合成含有选择性新霉素抗性标记(NeoR)或侧接有涉及转座和控制CMV启动子的5'和3'UTR区的荧光标记的质粒。将细胞用质粒转染，回收4-6小时以进行RNA转录，并且随后用纯化的整合酶蛋白电穿孔。整合到基因组中的抗生素抗性通过G418抗性集落计数(选择在转染后7天开始)进行定量，并且通过荧光活化细胞细胞术测定通过荧光标记引起的阳性转座。在第二次转染后7-10天，提取基因组DNA并用于制备NGS文库。通过使基因组片段化并制备转座子标记的扩增子并且侧接DNA以用于NGS文库制备来测定脱靶频率。选择至少40个不同的靶位点来测试每种靶系统的活性。

哺乳动物细胞中的整合也可以通过RNA递送来评估。设计了编码具有2个NLS的逆转座酶的RNA，并且添加帽和polyA尾。第二RNA被设计成含有可选新霉素抗性标记(NeoR)或侧接有5'和3'UTR区的荧光标记。经由Lipofectamine^TMRNAiMAX或转染试剂将RNA构建体引入到哺乳动物细胞中。转染后10天，提取基因组DNA以使用ddPCR和NGS测量转座效率。

实例8-RT的生物信息发现

挖掘微生物、病毒和真核基因组的广泛组装驱动的宏基因组数据库，以检索具有逆转录酶功能的预测蛋白质。基于对Pfam结构域PF00078和PF07727的命中预测了超过450万个RT蛋白，其中的340万个具有显著的e值(<1x10^-5)。在以≥70％的RT(逆转录酶)结构域覆盖度和预测的催化残基([F/Y]XDD)过滤完全ORF之后，保留近五十万个蛋白质用于进一步分析。从这组蛋白质以及从由公共数据库中检索的参考序列中提取RT结构域。将结构域序列用Mmseqs2易簇在80％覆盖度上以50％同一性进行聚类(参见《生物信息学(Bioinformatics)》2016年5月1日；32(9):1323-30，所述文献通过引用以其整体并入本文)，将代表性序列(总计26,824)与具有参数-全球对-大的MAFFT进行比对(参见《生物信息学》2016；32:3246–3251，所述文献通过引用以其整体并入本文)，并且使用结构域比对来推断具有FastTree2的系统发育树(参见《公共科学图书馆期刊(Plos One)》2010；5:e9490，所述文献通过引用以其整体并入本文)。RT结构域的系统发育分析表明回收了许多不同类别的具有高序列多样性的RT(图4)。

实例9-实例非LTR逆转座子(MG140、MG146、MG147、MG148和MG149家族)

逆转座子生物信息分析

非长末端重复(非LTR)逆转座酶能够经由RNA模板的逆转录将大货物整合到靶位点中。非LTR逆转座酶在来自图4中的系统发育树的R2/R4和LINE进化枝中鉴定。将含有分类为R2、R4和LINE的RT结构域的全长蛋白质以99％序列同一性进行聚类，并且将代表性序列与具有参数-全球对-大的MAFFT比对。从这种比对推断出系统发育树，并且描绘了R2/R4逆转座酶家族以及其它RT相关家族(图5A)。

R2是经由靶引发的逆转录(TPRT)整合货物的非LTR逆转座子。MG140家族的许多R2酶含有RT结构域，以及核酸内切酶结构域和描绘Zn指的多个Zn结合带基序(图5B和6A)。一些R2逆转座子整合到28S rDNA中，如由侧接有28S rDNA基因的片段的MG140-47(SEQ IDNO:395)R2逆转座子的边界所示(图6B)。其它逆转座子整合到18S rRNA基因中并且含有限定转座子的3'端的polyA或polyT尾(图7)。精确的靶结合位点以及5'-UTR、3'-UTR和聚-T可能涉及准确和特异性整合。

源自古细菌基因组的逆转座子MG146-1(SEQ ID NO:402)含有RT结构域、Zn结合带基序和核酸内切酶结构域，并且酶内的结构域架构不同于其它单个ORF非LTR逆转座子的结构域架构(图8A)。

MG147家族成员MG140-17-R2(SEQ ID NO:18)逆转座子被组织成侧接有5'和3'UTR的三个ORF(图8B)。RNA识别基序(RRM)基因可能涉及RNA模板的识别，而核酸内切酶基因可能涉及靶位点的识别和切口。ORF三是负责模板的逆转录的酶，并且含有RT结构域、Zn结合带基序和RNA酶-H结构域。

家族MG148包含极度不同的RT同源物，其被预测为通过存在所有预期的催化残基而具有活性。若干家族成员在核苷酸水平上的比对揭示了5'UTR内的保守区，这可能涉及RT功能、活性或移动(图9B)。

通过qPCR测试逆转座子RT(逆转录酶)的体外活性

通过引物延伸反应来评估逆转座子RT的体外活性，所述引物延伸反应含有衍生自无细胞表达系统(NEB公司(NEB)的PURExpress)的RT酶和退火到含有40mM Tris-HCl(pH7.5)、0.2M NaCl、10mM MgCl₂、1mM TCEP和0.5mM dNTP的反应缓冲液中的DNA引物的100nM的RNA模板(200nt)。所得全长cDNA产物通过从用特定浓度的DNA模板生成的标准曲线外推值通过qPCR进行定量。

MG140-3(SEQ ID NO:3)、MG140-6(SEQ ID NO:6)、MG140-7(SEQ ID NO:7)、MG140-8(SEQ ID NO:8)、MG140-13(SEQ ID NO:14)和MG146-1(SEQ ID NO:402)是经由引物延伸具有活性的(图10和11)。对MG140-3和MG146-1进行保真度的初步评估，使得相对误差率分别为MMLV的相对误差率的1.5倍和1.35倍(图12)。对于保真度测量，将上述引物延伸测定中产生的所得全长cDNA产物进行PCR扩增、文库制备并进行下一代测序。将修剪的读段与参考序列比对，并且计算错误掺入的频率。

整合位点

一些非LTR逆转座子(例如MG140家族，如MG140-1)被预测通过靶向特定GGTGAC基序而整合到28S rDNA基因中，其中插入位点在第二(G)位置与第三(T)位置之间。此类逆转座子蛋白的N末端含有三个锌(Zn)指(CCHH型中的两个和CCHC型中的一个)，其后是具有YADD活性位点的逆转录酶(RT)结构域。此类逆转座子蛋白的C末端包含具有另外的CCHC Zn指的核酸内切酶结构域。蛋白质侧接有分别为289和478bp长的5'和3'UTR(图31)。

实例10-II组内含子RT(MG153、MG163、MG164、MG165、MG166、MG167、MG168、MG169和MG170家族)

II组生物信息分析

II组内含子能够经由RNA模板的逆转录将大货物整合到靶位点中。来自II组内含子的RT结构域在图4中的系统发育树中被鉴定和描绘。将含有来自侧接RT酶的具有>2kb的序列的重叠群的RT结构域的超过10,000种独特的全长II组内含子蛋白与具有参数-全球对-大的MAFFT进行比对。从这种比对推断出系统发育树，并且进一步鉴定II组内含子家族(图13)。II组内含子酶可以分类为A-G、ML和CL类，并且其结构域架构包含预测有活性的RT结构域，以及涉及内含子移动的成熟酶结构域。一些II组内含子蛋白含有可能涉及靶识别和切割的另外的核酸内切酶结构域。来自所鉴定的所有家族的许多候选物被提名用于实验室表征。

测试II组内含子RT C、D和F类的体外活性

通过引物延伸反应评估GII内含子C类(MG153)、D类(MG165)和F类(MG167)RT的体外活性，所述引物延伸反应含有源自无细胞表达系统(NEB公司的PURExpress)的RT酶。表达构建体针对大肠杆菌进行密码子优化，并且含有N末端单链球菌标签。通过SDS-PAGE分析确认RT的表达。反应的底物是退火到经5'-FAM标记的引物的100nM的RNA模板(200nt)。反应缓冲液含有以下组分：50mM Tris-HCl(pH 8.0)、75mM KCl、3mM MgCl₂、10mM DTT和0.5mMdNTPs。在37℃下温育1小时后，将反应经由用RNA酶H(NEB)温育进行淬灭，然后添加2X RNA上样染料(NEB)。将所得cDNA产物在10％变性聚丙烯酰胺凝胶上分离，并且使用ChemiDoc在Gel Green设置上可视化。还用扩增全长cDNA产物的引物通过qPCR评估RT活性。稀释来自引物延伸测定的产物，以确保cDNA浓度在线性检测范围内。通过从用特定浓度的DNA模板生成的标准曲线外推值来定量cDNA的量。

通过检测变性凝胶上的cDNA产物，以下GII内含子C类候选物在这些实验条件下是活性的：MG153-1至MG153-6(SEQ ID NO:555-560)、MG153-9(SEQ ID NO:563)、MG153-10(SEQ ID NO:564)、MG153-12(SEQ ID NO:566)、MG153-13(SEQ ID NO:567)、MG153-15(SEQID NO:569)、MG153-18(SEQ ID NO:572)、MG153-20(SEQ ID NO:574)、MG153-29至MG153-31(SEQ ID NO:580-582)、MG153-33至MG153-37(SEQ ID NO:584-588)、MG153-41(SEQ ID NO:592)、MG153-42(SEQ ID NO:593)、MG153-45(SEQ ID NO:596)、MG153-51(SEQ ID NO:602)、MG153-53(SEQ ID NO:604)、MG153-54(SEQ ID NO:605)和MG153-57(SEQ ID NO:608)。(图14和15)。活性新型候选物表现出与高度过程性对照GIIC类RT GsI-IIC和MarathonRT相比不同程度的表观持续合成能力，这由较小cDNA滴落产物的存在指示。通过qPCR，以下另外的候选物在这些实验条件下也是活性的(检测到的cDNA是背景的检测到的cDNA的>10倍)：MG153-7(SEQ ID NO:561)、MG153-8(SEQ ID NO:562)、MG153-10(SEQ ID NO:564)、MG153-11(SEQ ID NO:565)、MG153-14(SEQ ID NO:568)、MG153-17(SEQ ID NO:571)、MG153-19(SEQ ID NO:573)、MG153-25至MG153-28(SEQ ID NO:576-579)、MG153-32(SEQ ID NO:583)、MG153-39(SEQ ID NO:590)、MG153-40(SEQ ID NO:591)、MG153-43(SEQ ID NO:594)、MG153-47(SEQ ID NO:598)、MG153-50(SEQ ID NO:601)、MG153-55(SEQ ID NO:606)和MG153-56(SEQ ID NO:607)(图14D和15D)。

通过检测变性凝胶上的cDNA产物，GII内含子D类候选物MG165-1(SEQ ID NO:684)和MG165-5(SEQ ID NO:688)在这些实验条件下是活性的(图16A)。通过qPCR，另外的候选物MG165-4(SEQ ID NO:687)、MG165-6(SEQ ID NO:689)和MG165-8(SEQ ID NO:691)在这些实验条件下也是活性的(检测到的cDNA是背景的检测到的cDNA的>10倍)(图16B)。

通过检测变性凝胶上的cDNA产物，GII内含子F类候选物MG167-1(SEQ ID NO:698)和MG167-4(SEQ ID NO:701)在这些实验条件下是有活性的(图17A)。通过qPCR，另外的候选物MG167-3(SEQ ID NO:700)和MG167-5(SEQ ID NO:702)在这些实验条件下也是活性的(检测到的cDNA是背景的检测到的cDNA的>10倍)(图17B)。

GII内含子RT的相对保真度的评估

为了评估GIIC类MG153候选物的相对保真度，将上述引物延伸测定中产生的所得全长cDNA产物进行PCR扩增、文库制备并经受下一代测序。使用bbmerge.sh合并配对的读段，需要完全重叠并修剪所有非重叠部分(《公共科学图书馆期刊》2017；12:e0185056)。然后使用BWA-MEM(Li H.2013)将合并的读段与参考模板比对，并且使用Pysamstat(https://github.com/alimanfoo/pysamstats)来计算相对于参考的每个位置处的失配数量。在所测试的GIIC类候选物中，与MMLV对照RT和其它GII内含子C类RT相比，MG153-6(SEQ ID NO:560)和MG153-12(SEQ ID NO:566)具有可再现地更高的错误率(图18)。

人细胞cDNA合成结果

通过在哺乳动物细胞中表达这些酶并通过PCR，随后通过琼脂糖电泳和D1000TapeStation检测cDNA合成来测试这些酶在哺乳动物环境中产生cDNA的能力。除了flag-HA标签(FH)之外，将逆转录酶在质粒中克隆以在CMV启动子下进行哺乳动物表达作为在N末端处具有MS2外壳蛋白(MCP)的融合蛋白。MCP是源自MS2噬菌体的蛋白质，所述蛋白质识别具有高亲和力(次纳摩尔Kd)的20核苷酸RNA茎环。通过将RT与MCP融合并且在RNA模板中具有MS2环，确保一旦RT被翻译，就找到RNA模板并从与RNA模板杂交的DNA引物开始cDNA合成。

将在CMV启动子下与RT候选物融合的含有MCP的质粒克隆并分离以在HEK293T细胞中转染。使用脂质体2000进行转染。根据制造商说明书，使用mMESSAGE mMACHINE(赛默飞世尔公司(Thermo Fisher))制备mRNA编码纳米荧光素酶(SEQ ID NO:33)。为了降解mRNA制备中留下的任何DNA模板，将反应用Turbo Dnase(赛默飞世尔公司)处理1小时，并且使用MEGAclear转录清洁试剂盒(Transcription)清洁mRNA。将mRNA在95℃下与互补DNA引物(SEQ ID NO:34)在pH为7.5的10mM Tris、50mM NaCl中杂交2分钟，并以0.1℃/秒的速率冷却到4℃。在转染含有MCP-RT融合体的质粒后，使用脂质体信使Max将mRNA/DNA混合体转染到HEK293T细胞中6小时。在mRNA/DNA转染后18小时，使用QuickExtra DNA提取溶液(路西恩公司(Lucigen))切割细胞，在24孔板中每24孔添加100μL的快速提取物。纳米荧光素酶为约500bp长，设计了扩增来自新合成cDNA的具有100bp和542bp的产物的引物(SEQ ID NO:38和39)。使用上述引物组扩增cDNA，并通过琼脂糖凝胶电泳(图19A)或DNATape Station(图19B)检测PCR产物。

检测到对照GII内含子RT Marathon、Marathon PE2和TGIRT的活性(图19A和19B)，如100bp和500bp DNA产物的存在所示。此外，还示出了新型GII内含子衍生的RT MG153-1至MG153-4(SEQ ID NO:555-558)、MG153-7至MG153-13(SEQ ID NO:561-567)、MG153-15(SEQID NO:569)、MG153-16(SEQ ID NO:570)和MG153-21(SEQ ID NO:575)的活性(图19A、19B和19C)。新型RT的PCR产物的信号类似于Marathon和TGIRT的信号。总的来说，这表明这些新发现的RT被表达、正确折叠并且在活哺乳动物细胞内是活性的，从而为其生物技术应用打开了选择。

II组内含子RT能够使用经修饰的引物合成cDNA

通过引物延伸反应评估RT的体外活性，所述引物延伸反应含有源自无细胞表达系统(NEB公司的PURExpress)的RT酶。表达构建体针对大肠杆菌进行密码子优化，并且含有N末端单链球菌标签。反应的底物是退火到在引物内的各个位置处含有硫代磷酸酯(PS)键修饰的经5'-FAM标记的DNA引物的100nM的RNA模板(202nt)。引物1(SEQ ID NO:736，其包括序列/56-FAM/A*G*A*C*G*GTCACAGCTTGTCTG)在寡核苷酸的5'端处含有5个PS键。引物2(SEQID NO:737，其包括序列/56-FAM/A*G*A*C*G*GTCACAGCTT*G*T*C*T*G，其中*表示硫代磷酸酯键)在寡核苷酸的5'端和3端两者处含有5个PS键。引物3(SEQ ID NO:738，其包括/56-FAM/A*G*A*C*G*GTCACAGCTT*G*T*C*TG的序列，其中*表示硫代磷酸酯键)与引物2的不同之处在于在两个最3'末端核苷酸之间替换标准键。反应缓冲液含有以下组分：50mM Tris-HCl(pH 8.0)、75mM KCl、3mM MgCl₂、10mM DTT和0.5mM dNTPs。在37℃下温育1小时后，将反应经由用RNA酶H(NEB)温育进行淬灭，然后添加2X RNA上样染料(NEB)。将所得cDNA产物在10％变性聚丙烯酰胺凝胶上分离，并且使用ChemiDoc在Gel Green设置上可视化。基于这些结果，对照RT MMLV(病毒)和TGIRT-III(GII内含子)均能够用所有经修饰的引物进行引物延伸(图32)。GII内含子RT MG153-9还能够从所有测试的经PS修饰的DNA引物延伸(图33)。

人细胞RT表达和cDNA合成结果

如先前所描述的，测试了新型GII RT在哺乳动物细胞环境中合成cDNA的能力，其中不大量修饰。使用PCR检测cDNA合成，并通过琼脂糖凝胶电泳或TapeStation进行分析。为了进行定量读出，使用已经用所列出的Taqman探针记录为SEQ ID NO:739的Taqman qPCR引物来开发Taqman qPCR测定。MG153家族的所有测试候选物在各个程度上都是活性的，其活性宽至四个数量级(图34)。所测试的家族的RT包含MG153-1至MG153-13、MG153-15、MG153-16、MG153-18、MG153-20、MG153-21、MG153-29至MG153-31、MG153-33至MG153-37、MG153-45、MG153-51、MG153-53、MG153-54、MG153-57、MG165-1、MG165-5、MG167-1和MG167-4。若干RT(MG153-15、MG153-53、MG153-4、MG153-18、MG153-20、MG153-7和MG153-5)优于TGIRT对照(图34)。

为了理解GII RT在哺乳动物细胞中的蛋白质表达和稳定性，进行免疫印迹。简言之，将经转染的细胞用补充有蛋白酶抑制剂的RIPA裂解缓冲液(赛默飞世尔公司)(24孔式中的80μL/孔)进行切割。将切割物在4℃下以14,000g离心10分钟，以便去除不溶性聚集体。使用BCA定量蛋白质。在4-12％聚丙烯酰胺SDS凝胶(赛默飞世尔公司)中每条泳道上样3或10μg的总蛋白。将所有泳道相对于相同量的蛋白质归一化。使用iBlot凝胶蛋白转移系统(英杰公司(Invitrogen))将蛋白质转移到PVDF膜。使用基于HRP的检测方法通过使用兔HA抗体(细胞信号传导公司(Cell Signaling))来检测蛋白质。结果表明，如由带强度给出的，蛋白质表达或稳定性水平不同(图35)。将每种蛋白质的表达和相对于总蛋白表达归一化的cDNA合成活性进行量化：七个MG153 RT优于TGIRT对照(图36)。在这些条件下，MG153-15显著地示出cDNA合成活性是TGIRT的cDNA合成活性的10倍。

一些GII衍生的RT形成非常稳定的二聚体，包含阳性对照MarathonRT以及MG153-1至MG153-4和MG153-9中的一种(图35)。“CAQQ”基序被记录为负责Marathon RT中的稳定二聚化(《自然结构与分子生物学(Nat Struct Mol Biol.)》2016年6月；23(6):558–565)。在免疫印迹(MG153-1至MG153-4)上显示出稳定二聚体形成的RT还包含CAQQ二聚化氨基酸基序(图35C)。由于复杂性增加，二聚化可能是不利的特征，因此不形成二聚体的RT对于特定生物技术应用可能是最佳的。

表2：测试的RT候选物的预期分子大小

RT	预期蛋白质大小(kDa)蛋白质大小*
		Marathon	67.8
TGIRT	67
		MG153-1	74
MG153-2	74
		MG153-3	74
MG153-4	67.6
		MG153-7	71.7
MG153-8	67.6
		MG153-9	72
MG153-10	72.2
		MG153-11	70.9
MG153-12	72.5
		MG153-13	67.9
MG153-15	68.6
		MG153-16	71.7
MG153-21	70.6

*大小包含Flag-HA-MCP标签

实例11-G2L4(MG172家族)

G2L4是与II组内含子远相关的含RT的序列(II组内含子样RT)，其在图4中被鉴定。将超过600种新型全长G2L4酶与具有参数-全球对-大的MAFFT进行比对，并且由此比对推断出系统发育树(图20)。MG172家族成员含有RT和成熟酶结构域，并且被预测具有保守的Y[I/L]DD活性位点基序。基序YIDD最近被报道在一个G2L4参考中显示出具有较短DNA引物的效率增加(BioRxiv 10.1101/2022.03.14.484287)。MG172酶的平均长度为425aa并且共有32％的AAI，这突出了这些系统的新颖性。

实例12-LTR逆转座子(MG151家族)

LTR逆转座子生物信息分析

长末端重复(LTR)逆转座子通过RNA模板的逆转录整合到其靶位点中。包含逆转录病毒和非病毒转座子在内的LTR逆转座子的MG151家族在图4中的系统发育树中被鉴定。将含有LTR RT结构域的全长蛋白质与具有参数-全球配对-大的MAFFT比对。由此比对推断出系统发育树(图21A)。MG151家族的超过100种非病毒和逆转录病毒RT酶含有RT和RNA酶H结构域，并且基于催化残基的存在预测为具有活性。LTR RT多聚蛋白还在HIV和MMLV LTR RT所见的类似架构中编码蛋白酶和整合酶结构域(图21A、21B、21C和22)。如gag或包膜等RT和其它基因侧接有长不完美的长末端重复序列(图21B)。MG151家族成员是多样且新型的，共有30％氨基酸同一性(图22)。

LTR逆转座子的多聚蛋白被天然加工成蛋白酶、RT和RNA酶H以及整合酶功能单元。因此，MG151 RT-RNA酶H功能单元边界通过序列和结构比对的组合来确定。MG151多聚蛋白的3D结构使用Alphafold2来预测(《自然(Nature)》2021；596:583–589；和《核酸研究(Nucleic Acids Res)》2022；50:D439–D444)并且用PyMOL可视化(https://github.com/schrodinger/pymol-open-source)。例如，对于MG151-82(SEQ ID NO:457)，预测的3D结构鉴定由非结构化接头区域分开的离散蛋白酶、RT、RNA酶H和整合酶结构域(图21C)。因此，RT-RNA酶H功能单元被确定为侧接有非结构化环的两个相关结构结构域。包含RT和RNA酶H结构域的经修剪的变体被提名用于合成和实验室表征。

测试LTR逆转座子RT的体外活性

通过引物延伸反应来评估LTR逆转座子RT(MG151)的体外活性，所述引物延伸反应含有衍生自无细胞表达系统的RT酶和退火到含有pH为8的50mM Tris-HCl、75mM KCl、3mMMgCl₂、1mM TCEP和0.5mM dNTP的反应缓冲液中如上所述的经5'-FAM标记的引物的RNA模板。将所得cDNA产物在变性聚丙烯酰胺凝胶上分离，并且使用ChemiDoc在Gel Green设置上可视化。基于这些结果，MG151-80至MG151-84(图23A)以及MG151-87至MG151-90(SEQ IDNO:524-527)和MG151-92至MG151-95(SEQ ID NO:529-532)(图23B)可以在体外合成cDNA。

为了确定观察Ty3、对照LTR逆转座子RT的体外活性的测定条件，测试了以下四种反应缓冲液：缓冲液A(pH为7.5的40mM Tris-HCl、0.2M NaCl、10mM MgCl₂、1mM TCEP)；缓冲液B(pH为7.5的20mM Tris、150mM KCl、5mM MgCl₂、1mM TCEP、2％PEG-8000)；缓冲液C(pH为7.5的10mm Tris-HCl、80mm NaCl、9mm MgCl₂、1mM TCEP、0.01％(v/v)Triton X-100)；以及缓冲液D(pH为7.5的10mM Tris、130mM NaCl、9mM MgCl₂、1mM TCEP、10％甘油)。观察到缓冲液A和B的体外活性(图23C)。

测试结构RNA模板上的引发参数和持续合成能力

为了确定这些LTR RT在结构化RNA模板上的逆转录酶活性，将长度为6、8、10、13、16和20nt的不同引物退火到结构化RNA支架上。这些退火的RNA/DNA杂合体用于与用于总体活性的杂合体等效的cDNA生成测定中。如图24所示，MMLV在具有10-20nt的引物结合位点的结构化RNA上具有活性，并且将模板完全延伸到5'末端，从而打开模板中的所有结构。MG151-89(SEQ ID NO:526)在引物长度为13-20的情况下是有活性的，并且可以将pegRNA的长度延伸大约18nt，直到达到sgRNA支架发夹。MG151-92(SEQ ID NO:529)和MG151-97(SEQID NO:534)在检测水平下在此模板上不具有活性。

实例13-反转录子RT(MG154、MG155、MG156、MG157、MG158、MG159和MG160家族)

反转录子生物信息分析

细菌反转录子是长度为大约2000bp的DNA元件，其编码RT编码基因(ret)和含有反向序列的连续非编码RNA，msr和msd。反转录子采用独特的RT-DNA合成机制，其中ncRNA模板折叠成保守的二级结构，在两个反向重复序列(a1/a2)之间绝缘。反转录子RT识别折叠的ncRNA，并且由邻近反向重复序列的保守鸟苷2'OH引发逆转录，从而在模板RNA与新生cDNA链之间形成2'-5'键连接。在一些反转录子中，这种2'-5'键持续到经处理的RT-DNA的成熟形式中，而在其它反转录子中，核酸外切酶切割DNA产物，从而产生游离的5'末端。此外，RT靶向源自与其RNA模板相同的反转录子的msr-msd，从而提供可以避免脱靶逆转录的特异性。

超过4031个RT结构域序列在图4中的系统发育树中被鉴定为反转录子RT。基于催化残基(xxDD)和在反转录子RT中记录的保守基序(NaxxH和VTG)的存在，选择了2407个全长反转录子蛋白序列的子集用于进一步分析(图25和26)。家族MG154-MG159和MG173的反转录子包含长度为300至650aa的成员，并且其5'UTR含有修剪侧接有反向重复序列的预测ncRNA(msr-msd)(图27)。

此外，不同组的“反转录子样”单结构域RT序列在图4中的反转录进化枝中被鉴定。MG160家族的单结构域RT的范围在250与300aa之间，并且基于预期的RT催化残基[F/Y]XDD的存在被预测为有活性的。尽管公共数据库中缺乏反转录子RT晶体和低温EM结构，但MG160-3(SEQ ID NO:629)的3D结构预测指示与II组内含子RT结构域一致的保守RT结构域(图28A和28B)。MG160家族的5'UTR在家族成员中是保守的并折叠成保守的二级结构(图28C)，这对于元件活性或移动可能是重要的。

反转录子样RT的MG154、MG155、MG156、MG157、MG158和MG159家族的体外活性

通过引物延伸反应评估通用RNA模板上的反转录子RT的体外活性，所述引物延伸反应含有源自无细胞表达系统(NEB公司的PURExpress)的RT酶。表达构建体针对大肠杆菌进行密码子优化，并且含有N末端单链球菌标签。反应的底物是退火到经5'-FAM标记的引物的100nM的RNA模板(202nt)。反应缓冲液含有以下组分：50mM Tris-HCl(pH 8.0)、75mMKCl、3mM MgCl₂、10mM DTT和0.5mM dNTPs。在37℃下温育1小时后，将反应经由用RNA酶H(NEB)温育进行淬灭，然后添加2X RNA上样染料(NEB)。将所得cDNA产物在10％变性聚丙烯酰胺凝胶上分离，并且使用ChemiDoc在Gel Green设置上可视化。基于这些结果，以下反转录子RT能够在非其自身ncRNA的通用RNA模板上进行引物延伸：MG155-2(SEQ ID NO:612)、MG155-3(SEQ ID NO:613)、MG156-2(SEQ ID NO:617)、MG157-5(SEQ ID NO:622)和MG159-1(SEQ ID NO:624)。

反转录子样RT的MG160家族的体外活性

通过引物延伸反应评估反转录子样RT(MG160家族)的体外活性，所述引物延伸反应含有源自无细胞表达系统(NEB公司的PURExpress)的RT酶。表达构建体针对大肠杆菌进行密码子优化，并且含有N末端单链球菌标签。反应的底物是退火到经5'-FAM标记的引物的100nM的RNA模板(200nt)。反应缓冲液含有以下组分：50mM Tris-HCl(pH 8.0)、75mM KCl、3mM MgCl₂、10mM DTT和0.5mM dNTPs。在37℃下温育1小时后，将反应经由用RNA酶H(NEB)温育进行淬灭，然后添加2X RNA上样染料(NEB)。将所得cDNA产物在10％变性聚丙烯酰胺凝胶上分离，并且使用ChemiDoc在Gel Green设置上可视化。还用扩增全长cDNA产物的引物通过qPCR评估RT活性。稀释来自引物延伸测定的产物，以确保cDNA浓度在线性检测范围内。通过从用记录的浓度的DNA模板生成的标准曲线外推值来定量cDNA的量。

通过凝胶分析，MG160-1至MG160-4(SEQ ID NO:627-630)和MG160-6(SEQ ID NO:633)是活性的，并且与GsI-IIC，对照GII内含子C类RT相比，具有减弱的持续合成能力(图29)。持续合成能力似乎更类似于产生cDNA产物的类似下降模式的逆转录病毒对照RT的MMLV的持续合成能力(图29A)。通过qPCR，MG160-1至MG160-4(SEQ ID NO:627-630)可以产生全长cDNA，而MG160-6(SEQ ID NO:633)产生小于全长的产物(图29B)。

反转录子RT(MG154、MG155、MG156、MG157、MG158、MG159和MG173家族)的无细胞表达和反转录子ncRNA的体外转录

通过将编码经大肠杆菌优化的基因的10ng/μL的DNA模板与N末端单链球菌标签与PURExpress组分一起在37℃下温育2小时来在无细胞表达系统(PURExpress)中产生反转录子RT。所有测试的反转录子RT(MG156-1(SEQ ID NO:616)、MG156-2(SEQ ID NO:617)、MG157-1(SEQ ID NO:618)、MG157-2(SEQ ID NO:619)、MG157-5(SEQ ID NO:622)、MG159-1(SEQ ID NO:624))如通过SDS-PAGE分析所指示产生(图30A和30B)。

在T7启动子之后，使用HiScribe T7体外转录试剂盒(NEB)和编码相应ncRNA基因的DNA模板产生反转录子ncRNA。然后将反应与Dnase-I一起温育以消除DNA模板，并且然后通过RNA清除试剂盒(蒙那多公司(Monarch))进行纯化。ncRNA的量通过纳米滴确定，并且通过Tape Station RNA分析评估纯度(图30C)。

实例14-测试反转录子RT体外活性(预测)

使用包含具有如上所述的N末端单链球菌标签的经大肠杆菌密码子优化的基因的构建体在无细胞表达系统中产生反转录子RT酶。通过SDS-PAGE分析确认酶的表达。通过如上所述的引物延伸测定确定通用模板上的反转录子RT活性，所述引物延伸测定含有退火到经5'-FAM标记的DNA引物的200nt RNA。所得cDNA产物在变性聚丙烯酰胺凝胶上或用对全长cDNA产物具有特异性的引物通过qPCR进行检测。

在含有缓冲液、dNTP、由无细胞表达系统产生的反转录子RT和重折叠的ncRNA的反应中评估反转录子RT对自身ncRNA的体外活性。比较经由N末端单链球菌标签从无细胞表达系统纯化RT前后的RT活性。温育后，用RNA酶A/T1处理一半反应。在变性聚丙烯酰胺凝胶上评价在RNA酶A/T1处理前后的产物，并通过SYBR金染色可视化。在此程序中，RNA酶A/T1被理解为消化掉RNA模板，并且导致朝向含有ssDNA的较小产物的质量偏移。由于RNA酶H被预期改善5'和3'ssDNA边界的均质性，因此还通过凝胶分析评价了RNA酶H对产物分布的影响。ncRNA模板与ssDNA之间的共价键合通过在用去支链酶(DBR1)处理之前或之后用5'至3'ssDNA核酸外切酶(RecJ)温育RT产物来确认。RecJ预期能够在DBR1已去除RNA与ssDNA之间的2'-5'磷酸二酯键之后降解ssDNA。

实例15-通过NGS确定反转录子msr-msd边界(预测)

在通过DBR1去除2'-5'磷酸二酯键之后，通过接头序列与msDNA产物的5'和3'端的无偏连接来确定msr-msd边界。将所得连接产物PCR扩增，文库制备，并进行下一代测序。将测序读段与参考序列比对以确定msd的5'和3'边界。还评价了RT反应中RNA酶H的存在对5'和3'msd边界的均质性的影响。

实例16-将序列插入到msd中对RT活性的系统评价(预测)

在由NGS和ncRNA的二级结构预测确定的msd边界通知的选定插入位点处将具有不同长度、预测二级结构和GC含量的序列插入到msd中。如上所述，通过凝胶分析或NGS评估这些插入序列对RT活性的影响。

实例17-测试新型RT的体外活性(预测)

使用引物延伸测定评估RT活性，所述引物延伸测定法含有源自无细胞表达系统的RT和退火到如上所述的DNA引物的RNA模板。如上所述通过变性聚丙烯酰胺凝胶和qPCR检测所得cDNA产物。检测变性凝胶上的cDNA脱落产物提供了对新型候选物的持续合成能力的相对评估。

实例18-评价新型RT的引发参数(预测)

通过测试RT在退火到长度为6、8、10、13、16或20个核苷酸的经5'-FAM标记的DNA引物的RNA模板上的活性来确定最佳引物长度。RT源自如上所述的无细胞表达系统。在温育反应后，将反应通过添加RNA酶H进行淬灭。如上所述在变性聚丙烯酰胺凝胶上分析cDNA产物的尺寸分布。最佳引物长度被确定为使RT能够将最多的引物转化为cDNA产物的长度。然后在后续实验，如保真度和持续合成能力测定中使用经实验确定的最佳引物长度以进一步在体外表征RT。

实例19-评价RT保真度(预测)

为了考虑PCR和测序期间引入的错误，如上所述通过引物延伸测定来评估RT保真度，不同之处在于引物中包含14-nt唯一分子标识符(UMI)条形码以用于逆转录反应。将所得全长cDNA产物进行PCR扩增、文库制备并经受下一代测序。分析具有>5个读段的条形码。与参考序列比对后，如果错误存在于具有相同条形码的所有序列读段中，则计数突变、插入和缺失。在一个但并非所有测序读段中存在的错误被视为在PCR或测序期间引入。除了鉴定RNA模板内的突变热点之外，还对取代、插入和缺失谱进行了进一步分析。保真度测量也用模板中的经修饰的碱基，例如假尿苷来执行。

实例20-确定RT的持续合成能力系数(预测)

使用引物延伸测定来评估RT持续合成能力，所述引物延伸测定含有源自如上所述的无细胞表达系统的RT酶和退火到经5'-FAM标记的引物(用于凝胶分析)或未经标记的引物(用于测序分析)的长度为1.6kb–6.6kb的RNA模板。

在单循环条件下进行逆转录反应，以不利于在cDNA合成期间从RNA模板脱落的RT酶的再结合。实验确定实现单循环条件的最佳捕集分子和浓度。如果在反应起始之前温育，则所选条件被设计成提供对cDNA合成的充分抑制，否则被设计成不影响反应的速度。待测试的最佳陷阱分子包含不相关RNA模板和退火到具有各种长度的DNA引物的不相关RNA模板。

一旦单循环反应条件得到优化，就通过在用退火到反应缓冲液中的DNA引物的RNA模板来预平衡RT之后，添加dNTP和选定的捕集分子来引发反应以评价持续合成能力。温育反应后，将反应通过添加RNA酶H来淬灭。将cDNA产物的大小分布如上所述在变性聚丙烯酰胺凝胶上分析，或进行PCR和制备用于长读段测序的文库。从这些实验中，将持续合成能力系数量化为模板长度，其产生50％的全长cDNA产物。来自单循环引物延伸反应的cDNA产物的中值长度被用于估计RT将在测试模板上解离的概率。由此，计算RT将在每个核苷酸位置处解离的概率，假设每个解离是独立事件，并且解离的概率在所有核苷酸位置处相等。然后将表示RT解离的50％处的模板长度的持续合成能力系数确定为1/(2*P_d)，其中P_d是每个核苷酸处的解离概率。

实例21-引物延伸上的攻击结构的系统分析(预测)

为了评价攻击模板对RT活性的影响，如上所述进行引物延伸反应，并进行修饰。RNA模板含有引物结合位点下游固定距离(100-300nt)处的以下挑战基序中的一种：均聚物拉伸、热力学稳定的富含GC的茎环、假结、tRNA、GII内含子和含有碱基或骨架修饰(例如假尿苷、硫代磷酸酯键)的RNA模板。在淬灭反应后，通过使聚丙烯酰胺凝胶变性来分析cDNA产物的尺寸分布。接头序列也使用T4连接酶无偏地连接到cDNA产物的3'端。然后将连接产物进行PCR扩增并制备文库用于下一代测序，以鉴定RT错误掺入/插入/缺失的位点和具有单核苷酸分辨率的RT脱落的位点。通过将对应于脱落产物的测序读段的数量与对应于全长产物的测序读段的数量进行比较来定量给定位置处的RT脱落的程度。

实例22-评价非模板化的碱基添加(预测)

将碱基非模板化添加到cDNA产物的5'端通过下一代测序进行评价。如上所述进行含有源自无细胞表达系统的RT和RNA模板的引物延伸反应。测试了在5'端处的具有不同RNA模板长度和序列基序的系统分析。接头序列通过T4连接酶无偏地连接到所得cDNA产物的3'端，从而导致捕获所有cDNA产物，尽管其3'端具有潜在的异质性。然后将连接产物进行PCR扩增并制备文库用于下一代测序。将预期的全长cDNA参考序列与实验产生的长于全长的cDNA序列进行比较能够鉴定未由RNA模板化的添加到5'末端的碱基的类型和数量。

实例23-确定R2、非LTR和类似系统的活性和持续合成能力的5'和3'UTR参数(预测)

将所关注的蛋白质在IPTG诱导的在大肠杆菌中的过表达之后经由Twin-strep标签进行纯化。将经纯化的蛋白质针对侧接有从其天然背景鉴定的3'UTR和5'UTR加超过起始密码子的400bp的1kb和4kb货物进行测试。经由对模板的端附近的切片进行qPCR测定5'和3'侧接序列对活性的影响，以确定具有这些天然特征的货物是否产生优异的结果。

实例24-RT cDNA合成活性可用于多种应用(预测)

依赖于RNA的过程在如表达、加工、修饰和半衰期等生物学中很重要。对RNA进行的生物技术中的质量控制程序利用RNA转化为cDNA。因此，多年来已使用多个RT来产生cDNA文库。用于这些目的的市售可得的RT包含MMLV RT、AMV RT和GsI-IIC RT(TGIRT)。前两者表示逆转录病毒RT，而后者是GII内含子衍生的RT。GII内含子衍生的RT以及非LTR衍生的RT与其逆转录病毒对应物相比显示出若干优点。例如，其更具过程性，通过结构和修饰的RNA进行阅读。结构性或经修饰的RNA可能不是逆转录病毒RT的最佳底物，因为其产生可能被误解为RNA片段的提前终止产物。另外，可以利用一些RT的模板化开关的能力来早期添加衔接子，使得衔接子连接程序在文库制备期间不太重要。因此，高处理性的RT适合于生成具有复杂RNA的文库。此外，一些高处理性的RT通常小于目前使用的逆转录病毒RT，使得其生产和相关联的下游过程更容易。本文所述的若干新型RT优于市售可得的TGIRT酶，一些的cDNA合成活性是其cDNA合成活性的大于10倍。因此，这些新型RT中的许多对于cDNA合成试剂盒的商业应用显示出极大的希望。

虽然本文已经示出和描述本发明的优选实施例，但对于本领域技术人员明显的是此类实施例仅借助于实例提供。本发明不旨在受说明书中提供的具体实例的限制。虽然已参考前述说明书描述本发明，但本文实施例的描述和说明不打算以限制性意义进行。在不背离本发明的情况下，本领域技术人员现在将想到许多变化、改变和替代。此外，应当理解，本发明的全部方面不限于本文所阐述的具体描述、配置或相对比例，其取决于各种条件和变量。应当理解，在实践本发明时可以采用本文所述的本发明的实施例的各种替代方案。因此，经考虑本发明应同样涵盖任何这类替代方案、修改、变型或等效物。所附权利要求书旨在限定本发明的范围，并且由此覆盖这些权利要求和其等效物的范围内的方法和结构。

表3-本文提及的蛋白质和核酸序列

/>

实施例以下实施例不旨在在任何意义上进行限制。

实施例1.一种经工程化的逆转座酶系统，其包括：

(a)RNA，所述RNA包括经异源工程化的货物核苷酸序列，其中所述货物核苷酸序列被配置成与逆转座酶相互作用；以及

(b)逆转座酶，其中：

所述逆转座酶被配置成将所述货物核苷酸序列转座到靶核酸基因座；并且所述逆转座酶衍生自未经培养的微生物。

实施例2.根据实施例1所述的经工程化的逆转座酶系统，其中所述逆转座酶包括与SEQ ID NO:1-29、393-735或799-895中的任一者具有至少75％序列同一性的序列。

实施例3.根据实施例1或实施例2所述的经工程化的逆转座酶系统，其中所述逆转座酶包括逆转录酶结构域。

实施例4.根据实施例1至实施例3中任一项所述的经工程化的逆转座酶系统，其中所述逆转座酶进一步包括一个或多个锌指结构域。

实施例5.根据实施例1至实施例4中任一项所述的经工程化的逆转座酶系统，其中所述逆转座酶进一步包括核酸内切酶结构域。

实施例6.根据实施例1至实施例5中任一项所述的经工程化的逆转座酶系统，其中所述逆转座酶与有记录的逆转座酶具有小于80％的序列同一性。

实施例7.根据实施例1至实施例6中任一项所述的经工程化的逆转座酶系统，其中所述货物核苷酸序列侧接有3'非翻译区(UTR)和5'非翻译区(UTR)。

实施例8.根据实施例1至实施例7中任一项所述的经工程化的逆转座酶系统，其中所述逆转座酶被配置成经由核糖核酸多核苷酸中间体转座所述货物核苷酸序列。

实施例9.根据实施例1至实施例8中任一项所述的经工程化的逆转座酶系统，其中所述逆转座酶包括接近所述逆转座酶的N末端或C末端的一个或多个核定位序列(NLS)。

实施例10.根据实施例1至实施例9中任一项所述的经工程化的逆转座酶系统，其中所述NLS包括与选自由SEQ ID NO:896-911组成的组的序列至少80％相同的序列。

实施例11.根据实施例1至实施例10中任一项所述的经工程化的逆转座酶系统，其中所述序列同一性是通过BLASTP、CLUSTALW、MUSCLE、MAFFT或CLUSTALW使用史密斯-沃特曼同源性搜索算法的参数来确定的。

实施例12.根据实施例11所述的经工程化的逆转座酶系统，其中所述序列同一性是通过所述BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在11，扩展1并且使用条件组成评分矩阵调整来确定的。

实施例13.一种经工程化的逆转座酶系统，其包括：

(b)逆转座酶，其中：

所述逆转座酶被配置成将所述货物核苷酸序列转座到靶核酸基因座；并且所述逆转座酶包括与SEQ ID NO:1-29、393-735或799-895中的任一者具有至少75％序列同一性的序列。

实施例14.根据实施例13所述的经工程化的逆转座酶系统，其中所述逆转座酶衍生自未经培养的微生物。

实施例15.根据实施例13或实施例14所述的经工程化的逆转座酶系统，其中所述逆转座酶包括逆转录酶结构域。

实施例16.根据实施例13至实施例15中任一项所述的经工程化的逆转座酶系统，其中所述逆转座酶进一步包括一个或多个锌指结构域。

实施例17.根据实施例13至实施例16中任一项所述的经工程化的逆转座酶系统，其中所述逆转座酶进一步包括核酸内切酶结构域。

实施例18.根据实施例13至实施例17中任一项所述的经工程化的逆转座酶系统，其中所述逆转座酶与有记录的逆转座酶具有小于80％的序列同一性。

实施例19.根据实施例13至实施例18中任一项所述的经工程化的逆转座酶系统，其中所述货物核苷酸序列侧接有3'非翻译区(UTR)和5'非翻译区(UTR)。

实施例20.根据实施例13至实施例19中任一项所述的经工程化的逆转座酶系统，其中所述逆转座酶被配置成经由核糖核酸多核苷酸中间体转座所述货物核苷酸序列。

实施例21.根据实施例13至实施例20中任一项所述的经工程化的逆转座酶系统，其中所述序列同一性是通过BLASTP、CLUSTALW、MUSCLE、MAFFT或具有史密斯-沃特曼同源性搜索算法的参数的CLUSTALW来确定的。

实施例22.根据实施例21所述的经工程化的逆转座酶系统，其中所述序列同一性是通过所述BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在11，扩展1并且使用条件组成评分矩阵调整来确定的。

实施例23.一种脱氧核糖核酸多核苷酸，其编码根据实施例1至实施例22中任一项所述的经工程化的逆转座酶系统。

实施例24.一种核酸，其包括经工程化的核酸序列，所述经工程化的核酸序列被优化以在生物体中表达，其中所述核酸编码逆转座酶，并且其中所述逆转座酶衍生自未经培养的微生物，其中所述生物体不是所述未经培养的微生物。

实施例25.根据实施例24所述的核酸，其中所述逆转座酶包括与SEQ ID NO:1-29、393-735或799-895中的任一者具有至少75％序列同一性的变体。

实施例26.根据实施例24或实施例25所述的核酸，其中所述逆转座酶包括编码接近所述逆转座酶的N末端或C末端的一个或多个核定位序列(NLS)的序列。

实施例27.根据实施例26所述的核酸，其中所述NLS包括选自SEQ ID NO:896-911的序列。

实施例28.根据实施例26或实施例27所述的核酸，其中所述NLS包括SEQ ID NO:897。

实施例29.根据实施例28所述的核酸，其中所述NLS接近所述逆转座酶的所述N末端。

实施例30.根据实施例26或实施例27所述的核酸，其中所述NLS包括SEQ ID NO:896。

实施例31.根据实施例30所述的核酸，其中所述NLS接近所述逆转座酶的所述C末端。

实施例32.根据实施例24至实施例31中任一项所述的核酸，其中所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿动物或人。

实施例33.一种载体，其包括根据实施例24至实施例32中任一项所述的所述核酸。

实施例34.根据实施例33所述的载体，其进一步包括编码货物核苷酸序列的核酸，所述货物核苷酸序列被配置成与所述逆转座酶形成复合物。

实施例35.根据实施例33或实施例34所述的载体，其中所述载体是质粒、微环、CELiD、腺相关病毒(AAV)源性病毒体、慢病毒或腺病毒。

实施例36.一种细胞，其包括根据实施例33至实施例35中任一项所述的所述载体。

实施例37.一种制备逆转座酶的方法，所述方法包括培养根据实施例36所述的所述细胞。

实施例38.一种用于破坏、结合、切口、切割、标记或修饰包括靶核酸基因座的双链脱氧核糖核酸多核苷酸的方法，所述方法包括：

(a)使包括所述靶核酸基因座的所述双链脱氧核糖核酸多核苷酸与逆转座酶接触，所述逆转座酶被配置成将货物核苷酸序列转座到所述靶核酸基因座；并且

(b)其中所述逆转座酶包括与SEQ ID NO:1-29、393-735或799-895中的任一者具有至少75％序列同一性的序列。

实施例39.根据实施例38所述的方法，其中所述逆转座酶衍生自未经培养的微生物。

实施例40.根据实施例38或实施例39所述的经工程化的逆转座酶系统，其中所述逆转座酶包括逆转录酶结构域。

实施例41.根据实施例38至实施例40中任一项所述的经工程化的逆转座酶系统，其中所述逆转座酶进一步包括一个或多个锌指结构域。

实施例42.根据实施例38至实施例41中任一项所述的经工程化的逆转座酶系统，其中所述逆转座酶进一步包括核酸内切酶结构域。

实施例43.根据实施例38至实施例42中任一项所述的方法，其中所述逆转座酶与有记录的逆转座酶具有小于80％的序列同一性。

实施例44.根据实施例38至实施例43中任一项所述的经工程化的逆转座酶系统，其中所述货物核苷酸序列侧接有3'非翻译区(UTR)和5'非翻译区(UTR)。

实施例45.根据实施例38至实施例44中任一项所述的方法，其中所述双链脱氧核糖核酸多核苷酸经由核糖核酸多核苷酸中间体转座。

实施例46.根据实施例38至实施例45中任一项所述的方法，其中所述双链脱氧核糖核酸多核苷酸是真核生物、植物、真菌、哺乳动物、啮齿动物或人双链脱氧核糖核酸多核苷酸。

实施例47.一种破坏或修饰靶核酸基因座的方法，所述方法包括向所述靶核酸基因座递送根据实施例1至实施例22中任一项所述的所述经工程化的逆转座酶系统，其中所述逆转座酶被配置成将货物核苷酸序列转座到所述靶核酸基因座，并且其中所述复合物被配置成使得在所述复合物与所述靶核酸基因座结合时，所述复合物修饰所述靶核酸基因座。

实施例48.根据实施例47所述的方法，其中修饰所述靶核酸基因座包括结合、切口、切割、标记、修饰或转座所述靶核酸基因座。

实施例49.根据实施例47至实施例48所述的方法，其中所述靶核酸基因座包括脱氧核糖核酸(DNA)。

实施例50.根据实施例49所述的方法，其中所述靶核酸基因座包括基因组DNA、病毒DNA或细菌DNA。

实施例51.根据实施例47至实施例50中任一项所述的方法，其中所述靶核酸基因座是在体外的。

实施例52.根据实施例47至实施例50中任一项所述的方法，其中所述靶核酸基因座是在细胞内的。

实施例53.根据实施例52所述的方法，其中所述细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞、人细胞或原代细胞。

实施例54.根据实施例52或实施例53所述的方法，其中所述细胞是原代细胞。

实施例55.根据实施例54所述的方法，其中所述原代细胞是T细胞。

实施例56.根据实施例54所述的方法，其中所述原代细胞是造血干细胞(HSC)。

实施例57.根据实施例47至实施例56中任一项所述的方法，其中向所述靶核酸基因座递送所述经工程化的逆转座酶系统包括递送根据实施例24至实施例32中任一项所述的核酸或根据实施例33至实施例35中任一项所述的载体。

实施例58.根据实施例47至实施例57中任一项所述的方法，其中向所述靶核酸基因座递送所述经工程化的逆转座酶系统包括递送包括编码所述逆转座酶的开放阅读框的核酸。

实施例59.根据实施例58所述的方法，其中所述核酸包括编码所述逆转座酶的所述开放阅读框所可操作地连接的启动子。

实施例60.根据实施例47至实施例59中任一项所述的方法，其中向所述靶核酸基因座递送所述经工程化的逆转座酶系统包括递送包含编码所述逆转座酶的所述开放阅读框的加帽mRNA。

实施例61.根据实施例47至实施例60中任一项所述的方法，其中向所述靶核酸基因座递送所述经工程化的逆转座酶系统包括递送经翻译的多肽。

实施例62.根据实施例47至实施例61中任一项所述的方法，其中所述逆转座酶不诱导所述靶核酸基因座处或附近的断裂。

实施例63.一种宿主细胞，其包括编码异源逆转座酶的开放阅读框，所述异源逆转座酶与SEQ ID NO:1-29、393-735或799-895中的任一者或其变体具有至少75％序列同一性。

实施例64.根据实施例63所述的宿主细胞，其中所述宿主细胞是大肠杆菌细胞。

实施例65.根据实施例64所述的宿主细胞，其中所述大肠杆菌细胞是λDE3溶原菌，或者所述大肠杆菌细胞是BL21(DE3)菌株。

实施例66.根据实施例64或实施例65所述的宿主细胞，其中所述大肠杆菌细胞具有ompT lon基因型。

实施例67.根据实施例63至实施例66中任一项所述的宿主细胞，其中所述开放阅读框与以下可操作地连接：T7启动子序列、T7-lac启动子序列、lac启动子序列、tac启动子序列、trc启动子序列、ParaBAD启动子序列、PrhaBAD启动子序列、T5启动子序列、cspA启动子序列、araP_BAD启动子、来自噬菌体λ的强左侧启动子(pL启动子)或其任何组合。

实施例68.根据实施例63至实施例67中任一项所述的宿主细胞，其中所述开放阅读框包括编码亲和标签的序列，所述亲和标签与编码所述逆转座酶的序列框内连接。

实施例69.根据实施例68所述的宿主细胞，其中所述亲和标签是固定化金属亲和色谱法(IMAC)标签。

实施例70.根据实施例69所述的宿主细胞，其中所述IMAC标签是多组氨酸标签。

实施例71.根据实施例68所述的宿主细胞，其中所述亲和标签是myc标签、人流感血凝素(HA)标签、麦芽糖结合蛋白(MBP)标签、谷胱甘肽S-转移酶(GST)标签、链霉亲和素标签、FLAG标签或其任何组合。

实施例72.根据实施例68至实施例71中任一项所述的宿主细胞，其中所述亲和标签经由编码蛋白酶切割位点的接头序列与编码所述逆转座酶的所述序列框内连接。

实施例73.根据实施例72所述的宿主细胞，其中所述蛋白酶切割位点是烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。

实施例74.根据实施例63至实施例73中任一项所述的宿主细胞，其中所述开放阅读框被密码子优化以在所述宿主细胞中表达。

实施例75.根据实施例63至实施例74中任一项所述的宿主细胞，其中所述开放阅读框被提供在载体上。

实施例76.根据实施例63至实施例74中任一项所述的宿主细胞，其中所述开放阅读框被整合到所述宿主细胞的基因组中。

实施例77.一种培养物，其包括在相容液体培养基中的根据实施例63至实施例76中任一项所述的宿主细胞。

实施例78.一种产生逆转座酶的方法，所述方法包括在相容液体培养基中培养根据实施例63至实施例76中任一项所述的宿主细胞。

实施例79.根据实施例78所述的方法，其进一步包括通过添加另外的化学药剂或增加量的营养物来诱导所述逆转座酶的表达。

实施例80.根据实施例79所述的方法，其中所述另外的化学药剂或增加量的营养物包括异丙基β-D-1-硫代半乳糖苷(IPTG)或另外的量的乳糖。

实施例81.根据实施例78至实施例80中任一项所述的方法，其进一步包括在所述培养后分离所述宿主细胞并且使所述宿主细胞裂解以产生蛋白质提取物。

实施例82.根据实施例81所述的方法，其进一步包括使所述蛋白质提取物经受IMAC或离子亲和色谱法。

实施例83.根据实施例82所述的方法，其中所述开放阅读框包括编码IMAC亲和标签的序列，所述IMAC亲和标签与编码所述逆转座酶的序列框内连接。

实施例84.根据实施例83所述的方法，其中所述IMAC亲和标签经由编码蛋白酶切割位点的接头序列与编码所述逆转座酶的所述序列框内连接。

实施例85.根据实施例84所述的方法，其中所述蛋白酶切割位点包括烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。

实施例86.根据实施例84或实施例85所述的方法，其进一步包括通过使对应于所述蛋白酶切割位点的蛋白酶与所述逆转座酶接触来切割所述IMAC亲和标签。

实施例87.根据实施例86所述的方法，其进一步包括执行减材IMAC亲和色谱法以从包括所述逆转座酶的组合物去除所述亲和标签。

实施例88.一种破坏细胞中的基因座的方法，所述方法包括使包括以下的组合物与所述细胞接触：

(a)双链核酸，所述双链核酸包括经异源工程化的货物核苷酸序列，其中所述货物核苷酸序列被配置成与逆转座酶相互作用；以及

(b)逆转座酶，其中：

所述逆转座酶被配置成将所述货物核苷酸序列转座到靶核酸基因座；

所述逆转座酶包括与SEQ ID NO:1-29、393-735或799-895中的任一者具有至少75％序列同一性的序列或其变体；并且

所述逆转座酶具有与细胞中的有记录的逆转座酶至少等同的转座活性。

实施例89.根据实施例88所述的方法，其中所述转座活性通过将所述逆转座酶引入包括所述靶核酸基因座的细胞并检测所述细胞中的所述靶核酸基因座的转座来在体外测量。

实施例90.根据实施例88或实施例89所述的方法，其中所述组合物包括20pmol或更少的所述逆转座酶。

实施例91.根据实施例90所述的方法，其中所述组合物包括1pmol或更少的所述逆转座酶。

Claims

1.一种经工程化的逆转座酶系统，其包括：

(b)逆转座酶，其中：

(i)所述逆转座酶被配置成将所述货物核苷酸序列转座到靶核酸基因座；并且

(ii)所述逆转座酶包括逆转录酶(RT)结构域、核酸内切酶结构域，所述RT结构域、核酸内切酶结构域包括与SEQ ID NO:1-29或393-401中的任一者的RT或核酸内切酶结构域具有至少80％序列同一性的序列或其变体。

2.根据权利要求1所述的经工程化的逆转座酶系统，其中所述逆转座酶进一步包括SEQID NO:1-29或393-401中的任一者的Zn结合带基序中的任一者或其变体。

3.根据权利要求1或2所述的经工程化的逆转座酶系统，其中所述逆转座酶进一步包括与SEQ ID NO:1-29或393-401中的任一者具有至少80％序列同一性的序列或其变体。

4.根据权利要求1至3中任一项所述的经工程化的逆转座酶系统，其中所述逆转座酶进一步包括与图2A中的序列中的任一者相关的保守的催化D、QG、[Y/F]XDD或LG基序。

5.根据权利要求1至4中任一项所述的经工程化的逆转座酶系统，其中所述逆转座酶进一步包括与图2B中的序列中的任一者相关的保守的CX_[2-3]C Zn指基序。

6.根据权利要求1至5中任一项所述的经工程化的逆转座酶系统，其中所述逆转座酶包括与SEQ ID NO:3、6、7、8、14或402中的任一者具有至少80％序列同一性的序列或其变体。

7.根据权利要求1至6中任一项所述的经工程化的逆转座酶系统，其进一步包括：(c)包括所述靶核酸基因座的双链DNA序列。

8.根据权利要求7所述的经工程化的逆转座酶系统，其中所述双链DNA序列包括5'识别序列和3'识别序列，所述5'识别序列和所述3'识别序列被配置成与所述逆转座酶相互作用，其中所述5'识别序列包括GG核苷酸序列，并且所述3'识别序列包括TGAC核苷酸序列。

9.根据权利要求1至8中任一项所述的经工程化的逆转座酶系统，其中所述RNA是经体外转录的RNA。

10.根据权利要求1至9中任一项所述的经工程化的逆转座酶系统，其中所述RNA包括位于所述货物序列的5'的序列或位于所述货物序列的3'的序列，所述序列与SEQ ID NO:761-798中的任一者的RNA同源物、其补体或其反向补体具有至少80％序列同一性。

11.根据权利要求1至10中任一项所述的经工程化的逆转座酶系统，其中所述RNA包括编码所述逆转座酶的序列。

12.根据权利要求1至11中任一项所述的经工程化的逆转座酶系统，其中所述经异源工程化的货物核苷酸序列包括表达盒。

13.一种经工程化的DNA序列，其包括：

(a)5'序列，所述5'序列能够编码RNA序列，所述序列被配置成与逆转座酶相互作用；

(b)异源货物序列；

(c)编码逆转座酶的序列，所述序列被配置成与所述5'序列的RNA同源物相互作用，其中所述逆转座酶包括逆转录酶(RT)结构域或核酸内切酶结构域，所述RT结构域或核酸内切酶结构域包括与SEQ ID NO:1-29或393-401中的任一者的RT或核酸内切酶结构域具有至少80％序列同一性的序列或其变体；以及

(d)3'序列，所述3'序列能够编码RNA序列，所述序列被配置成与逆转座酶相互作用。

14.根据权利要求13所述的经工程化的DNA序列，其中所述逆转座酶进一步包括SEQ IDNO:1-29或393-401中的任一者的Zn结合带基序中的任一者或其变体。

15.根据权利要求13或权利要求14所述的经工程化的DNA序列，其中所述逆转座酶进一步包括与SEQ ID NO:1-29或393-401中的任一者具有至少80％序列同一性的序列或其变体。

16.根据权利要求13至15中任一项所述的经工程化的DNA序列，其中所述逆转座酶进一步包括与图2A中的序列中的任一者相关的保守的催化D、QG、[Y/F]XDD或LG基序。

17.根据权利要求13至16中任一项所述的经工程化的DNA序列，其中所述逆转座酶进一步包括与图2B中的序列中的任一者相关的保守的CX_[2-3]C Zn指基序。

18.根据权利要求13至17中任一项所述的经工程化的DNA序列，其中所述逆转座酶包括与SEQ ID NO:3、6、7、8、14或402中的任一者具有至少80％序列同一性的序列或其变体。

19.根据权利要求13至18中任一项所述的经工程化的DNA序列，其中所述5'序列或所述3'序列包括与SEQ ID NO:761-798中的任一者的RNA同源物、其补体或其反向补体具有至少80％序列同一性的序列。

20.一种用于合成互补DNA(cDNA)的方法，所述方法包括：

(a)提供RNA分子作为模板以供cDNA合成；

(b)提供引物寡核苷酸以引发由所述RNA分子进行cDNA合成；以及

(c)使用逆转录酶合成由所述引物寡核苷酸从所述模板引发的cDNA，所述逆转录酶包括与SEQ ID NO:1-29、393-401或427-439中的任一者的逆转录酶结构域具有至少80％序列同一性的序列或其变体。

21.根据权利要求20所述的方法，其中所述逆转录酶包括与SEQ ID NO:799-894或427-439中的任一者具有至少80％序列同一性的序列或其变体。

22.根据权利要求20或21所述的方法，其中所述引物寡核苷酸包括至少六个寡核苷酸的oligo(dT)序列或简并序列。

23.根据权利要求20至22中任一项所述的方法，其中所述合成cDNA包括在适于从所述RNA模板延伸DNA序列的条件下在反应混合物中温育所述模板RNA分子、所述引物寡核苷酸和所述逆转录酶。

24.根据权利要求23所述的方法，其中所述反应混合物进一步包括dNTP、反应缓冲液、二价金属离子、Mg²⁺或Mn²⁺。

25.一种蛋白质，其包括逆转录酶结构域，所述逆转录酶结构域包括与SEQ ID NO:1-29、393-401或427-439中的任一者的逆转录酶结构域具有至少80％序列同一性的序列或其变体，其中所述序列在N末端或C末端与非逆转座酶结构域或亲和标签融合。

26.根据权利要求25所述的方法，其中所述逆转录酶结构域包括与SEQ ID NO:799-894、427-439中的任一者具有至少80％序列同一性的序列或其变体。

27.根据权利要求25或26所述的方法，其中所述非逆转座酶结构域是RNA结合蛋白结构域。

28.根据权利要求27所述的方法，其中所述RNA结合蛋白结构域包括噬菌体MS2外壳蛋白(MCP)结构域。

29.一种核酸，其编码根据权利要求25至28中任一项所述的蛋白质。

30.一种核酸，其编码开放阅读框，其中所述开放阅读框编码与SEQ ID NO:1-29、393-401或427-439中的任一者的RT或核酸内切酶结构域具有至少80％序列同一性的RT或核酸内切酶结构域或其变体，其中：(a)所述开放阅读框被优化以在生物体中表达，并且所述生物体与所述RT或核酸内切酶结构域的来源不同；或(b)所述ORF包括编码亲和标签的序列。

31.根据权利要求30所述的核酸，其进一步编码包括与SEQ ID NO:1-29、393-401或427-439中的任一者的RT或核酸内切酶结构域具有至少80％序列同一性的序列或其变体的逆转座酶。

32.一种经工程化的逆转座酶系统，其包括：

(b)逆转座酶，其中：

(ii)所述逆转座酶包括逆转录酶(RT)结构域或核酸内切酶结构域，所述RT结构域或核酸内切酶结构域包括与SEQ ID NO:402或895的RT或核酸内切酶结构域具有至少80％序列同一性的序列或其变体。

33.根据权利要求32所述的经工程化的逆转座酶系统，其中所述逆转座酶进一步包括SEQ ID NO:402或895的Zn结合带基序中的任一者。

34.根据权利要求32或33所述的经工程化的逆转座酶系统，其中所述逆转座酶进一步包括与SEQ ID NO:402或895具有至少80％序列同一性的序列或其变体。

35.根据权利要求32至34中任一项所述的经工程化的逆转座酶系统，其中所述逆转座酶进一步包括SEQ ID NO:402或895的保守的催化D、QG、[Y/F]XDD或LG基序。

36.根据权利要求32至35中任一项所述的经工程化的逆转座酶系统，其中所述逆转座酶进一步包括SEQ ID NO:402或895的保守的CX_[2-3]C Zn指基序。

37.根据权利要求32至36中任一项所述的经工程化的逆转座酶系统，其进一步包括：(c)包括所述靶基因座的双链DNA序列。

38.根据权利要求32至37中任一项所述的经工程化的逆转座酶系统，其中所述RNA是经体外转录的RNA。

39.根据权利要求32至38中任一项所述的经工程化的逆转座酶系统，其中所述RNA包括编码所述逆转座酶的序列。

40.一种经工程化的DNA序列，其包括：

(b)异源货物序列；

(c)编码逆转座酶的序列，所述序列被配置成与所述5'序列的RNA同源物相互作用，其中所述逆转座酶包括逆转录酶(RT)结构域、核酸内切酶结构域，所述RT结构域、核酸内切酶结构域包括与SEQ ID NO:402或895的RT或核酸内切酶结构域具有至少80％序列同一性的序列或其变体；以及

41.根据权利要求40所述的经工程化的DNA序列，其中所述逆转座酶进一步包括SEQ IDNO:402或895的Zn结合带基序中的任一者。

42.根据权利要求40或41所述的经工程化的DNA序列，其中所述逆转座酶进一步包括与SEQ ID NO:402或895具有至少80％序列同一性的序列或其变体。

43.根据权利要求40至42中任一项所述的经工程化的DNA序列，其中所述逆转座酶进一步包括SEQ ID NO:402或895的保守的催化D、QG、[Y/F]XDD或LG基序。

44.根据权利要求40至43中任一项所述的经工程化的DNA序列，其中所述逆转座酶进一步包括SEQ ID NO:402或895的保守的CX_[2-3]C Zn指基序。

45.一种用于合成互补DNA(cDNA)的方法，所述方法包括：

(a)提供RNA分子作为模板以供cDNA合成；

(b)提供引物寡核苷酸以引发由所述RNA分子进行cDNA合成；以及

(c)使用逆转录酶合成由所述引物寡核苷酸从所述模板引发的cDNA，所述逆转录酶包括与SEQ ID NO:402或895的逆转录酶结构域具有至少80％序列同一性的序列或其变体。

46.根据权利要求45所述的方法，其中所述逆转录酶包括与SEQ ID NO:402或895具有至少80％序列同一性的序列或其变体。

47.根据权利要求45或46所述的方法，其中所述引物寡核苷酸包括至少六个寡核苷酸的oligo(dT)序列或简并序列。

48.根据权利要求45至47中任一项所述的方法，其中所述合成cDNA包括在适于从所述RNA模板延伸DNA序列的条件下在反应混合物中温育所述模板RNA分子、所述引物寡核苷酸和所述逆转录酶。

49.根据任何权利要求48所述的方法，其中所述反应混合物进一步包括dNTP、反应缓冲液、二价金属离子、Mg²⁺或Mn²⁺。

50.一种蛋白质，其包括逆转录酶结构域，所述逆转录酶结构域包括与SEQ ID NO:402或895的逆转录酶结构域具有至少80％序列同一性的序列或其变体，其中所述序列在N末端或C末端与非逆转座酶结构域或亲和标签融合。

51.根据权利要求50所述的蛋白质，其中所述逆转录酶结构域包括与SEQ ID NO:402或895具有至少80％序列同一性的序列或其变体。

52.根据权利要求50或51所述的蛋白质，其中所述非逆转座酶结构域是RNA结合蛋白结构域。

53.根据权利要求52所述的蛋白质，其中所述RNA结合蛋白结构域包括噬菌体MS2外壳蛋白(MCP)结构域。

54.一种核酸，其编码根据权利要求50至53中任一项所述的蛋白质。

55.一种核酸，其编码开放阅读框，其中所述开放阅读框编码与SEQ ID NO:402或895的RT或核酸内切酶结构域具有至少80％序列同一性的RT或核酸内切酶结构域或其变体，其中：(a)所述开放阅读框被优化以在生物体中表达，并且所述生物体与所述RT或核酸内切酶结构域的来源不同；或(b)所述ORF包括编码亲和标签的序列。

56.根据权利要求55所述的核酸，其进一步编码包括与SEQ ID NO:402或895具有至少80％序列同一性的序列或其变体的逆转座酶。

57.一种用于合成互补DNA(cDNA)的方法，所述方法包括：

(a)提供RNA分子作为模板以供cDNA合成；

(b)提供引物寡核苷酸以引发由所述RNA分子进行cDNA合成；以及

(c)使用逆转录酶合成由所述引物寡核苷酸从所述模板引发的cDNA，所述逆转录酶包括与SEQ ID NO:555-728中的任一者的逆转录酶结构域具有至少80％序列同一性的序列或其变体。

58.根据权利要求57所述的方法，其中所述逆转录酶包括与SEQ ID NO:555-560、563、564、566、567、569、572、574、580-582、584-588、592、593、596、602、604、605、608、561、562、564、565、568、571、573、576-579、583、590、591、594、598、601、606、607中的任一者具有至少80％序列同一性的序列或其变体。

59.根据权利要求58所述的方法，其中所述逆转录酶包括与SEQ ID NO:555-560、563、564、566、567、569、572、574、580-582、584-588、592、593、596、602、604、605、608中的任一者具有至少80％序列同一性的序列或其变体。

60.根据权利要求57至59中任一项所述的方法，其中所述引物寡核苷酸包括至少六个寡核苷酸的oligo(dT)序列或简并序列。

61.根据权利要求57至60中任一项所述的方法，其中所述引物寡核苷酸包括至少一个硫代磷酸酯键。

62.根据权利要求57至61中任一项所述的方法，其中所述合成cDNA包括在适于从所述RNA模板延伸DNA序列的条件下在反应混合物中温育所述模板RNA分子、所述引物寡核苷酸和所述逆转录酶。

63.根据权利要求62所述的方法，其中所述反应混合物进一步包括dNTP、反应缓冲液、二价金属离子、Mg²⁺或Mn²⁺。

64.一种蛋白质，其包括逆转录酶结构域，所述逆转录酶结构域包括与SEQ ID NO:555-728中的任一者的逆转录酶结构域具有至少80％序列同一性的序列或其变体，其中所述序列在N末端或C末端与非逆转座酶结构域或亲和标签融合。

65.根据权利要求64所述的蛋白质，其中所述逆转录酶结构域包括与SEQ ID NO:555-560、563、564、566、567、569、572、574、580-582、584-588、592、593、596、602、604、605、608、561、562、564、565、568、571、573、576-579、583、590、591、594、598、601、606、607中的任一者具有至少80％序列同一性的序列或其变体。

66.根据权利要求65所述的蛋白质，其中所述逆转录酶包括与SEQ ID NO:555-560、563、564、566、567、569、572、574、580-582、584-588、592、593、596、602、604、605、608中的任一者具有至少80％序列同一性的序列或其变体。

67.根据权利要求64至66中任一项所述的蛋白质，其中所述非逆转座酶结构域是RNA结合蛋白结构域。

68.根据权利要求67所述的蛋白质，其中所述RNA结合蛋白结构域包括噬菌体MS2外壳蛋白(MCP)结构域。

69.根据权利要求68所述的蛋白质，其中所述蛋白质包括与SEQ ID NO:30-32、40-50、740-756、757-760中的任一者具有至少80％序列同一性的序列或其变体。

70.根据权利要求68所述的蛋白质，其中所述逆转录酶结构域包括与SEQ ID NO:555-558、561-567、569、570、575中的任一者具有至少80％序列同一性的序列或其变体。

71.一种核酸，其编码根据权利要求64至70中任一项所述的蛋白质。

72.一种核酸，其编码开放阅读框，其中所述开放阅读框编码与SEQ ID NO:555-728中的任一者的RT或核酸内切酶结构域具有至少80％序列同一性的RT或核酸内切酶结构域或其变体，其中：(a)所述开放阅读框被优化以在生物体中表达，并且所述生物体与所述RT或核酸内切酶结构域的来源不同；或(b)所述ORF包括编码亲和标签的序列。

73.根据权利要求72所述的核酸，其进一步编码包括与SEQ ID NO:555-560、563、564、566、567、569、572、574、580-582、584-588、592、593、596、602、604、605、608、561、562、564、565、568、571、573、576-579、583、590、591、594、598、601、606、607中的任一者的RT或核酸内切酶结构域具有至少80％序列同一性的序列或其变体的逆转座酶。

74.根据权利要求73所述的核酸，其中所述逆转录酶包括与SEQ ID NO:555-560、563、564、566、567、569、572、574、580-582、584-588、592、593、596、602、604、605、608中的任一者具有至少80％序列同一性的序列或其变体。

75.一种核酸，其包括序列，所述序列包括开放阅读框(ORF)，所述ORF包括编码与SEQID NO:729-733中的任一者的逆转录酶结构域或成熟酶结构域具有至少80％序列同一性的逆转录酶结构域或成熟酶结构域的序列或其变体，其中：(a)所述开放阅读框被优化以在生物体中表达，并且所述生物体与所述RT或核酸内切酶结构域的来源不同；或(b)所述ORF包括编码亲和标签的序列。

76.根据权利要求75所述的核酸，其中所述ORF编码与SEQ ID NO:729-733中的任一者具有至少80％序列同一性的蛋白质或其变体。

77.根据权利要求75或76所述的核酸，其中所述ORF被优化以在所述细菌生物体中表达，或者其中所述生物体是大肠杆菌(E.coli)。

78.根据权利要求75或76所述的核酸，其中所述ORF被优化以在哺乳动物生物体中表达，或者其中所述生物体是灵长类动物生物体。

79.根据权利要求78所述的核酸，其中所述灵长类动物生物体是智人(H.sapiens)。

80.根据权利要求75至79中任一项所述的核酸，其中所述ORF包括亲和标签，所述亲和标签与编码所述逆转录酶结构域或所述成熟酶结构域的所述序列可操作地连接，其中所述ORF与SEQ ID NO:298-302中的任一者具有至少80％序列同一性。

81.根据权利要求77所述的核酸，其中所述ORF包括与SEQ ID NO:303-307中的任一者具有至少80％序列同一性的序列。

82.根据权利要求75至81中任一项所述的核酸，其中所述逆转录酶结构域或所述成熟酶结构域包括SEQ ID NO:729-733中的任一者的保守的Y[I/L]DD活性位点基序。

83.一种用于合成互补DNA(cDNA)的方法，所述方法包括：

(a)提供RNA分子作为模板以供cDNA合成；

(b)提供引物寡核苷酸以引发由所述RNA分子进行cDNA合成；以及

(c)使用逆转录酶合成由所述引物寡核苷酸从所述模板引发的cDNA，所述逆转录酶包括与SEQ ID NO:440-554中的任一者的逆转录酶结构域具有至少80％序列同一性的序列或其变体。

84.根据权利要求83所述的方法，其中所述逆转录酶包括与SEQ ID NO:518-522、524-527和529-532中的任一者具有至少80％序列同一性的序列或其变体。

85.根据权利要求84所述的方法，其中所述逆转录酶包括与SEQ ID NO:526中的任一者具有至少80％序列同一性的序列或其变体。

86.根据权利要求83至85中任一项所述的方法，其中所述引物寡核苷酸包括至少六个寡核苷酸的oligo(dT)序列或简并序列。

87.根据权利要求83至86中任一项所述的方法，其中所述合成cDNA包括在适于从所述RNA模板延伸DNA序列的条件下在反应混合物中温育所述模板RNA分子、所述引物寡核苷酸和所述逆转录酶。

88.根据权利要求87所述的方法，其中所述反应混合物进一步包括dNTP、反应缓冲液、二价金属离子、Mg²⁺或Mn²⁺。

89.一种蛋白质，其包括逆转录酶结构域，所述逆转录酶结构域包括与SEQ ID NO:440-554中的任一者的逆转录酶结构域具有至少80％序列同一性的序列或其变体，其中所述序列在N末端或C末端与非逆转座酶结构域或亲和标签融合。

90.根据权利要求89所述的蛋白质，其中所述逆转录酶结构域包括与SEQ ID NO:518-522、524-527和529-532中的任一者具有至少80％序列同一性的序列或其变体。

91.根据权利要求90所述的蛋白质，其中所述逆转录酶包括与SEQ ID NO:526具有至少80％序列同一性的序列或其变体。

92.根据权利要求89至91中任一项所述的蛋白质，其中所述非逆转座酶结构域是RNA结合蛋白结构域。

93.根据权利要求92所述的蛋白质，其中所述RNA结合蛋白结构域包括噬菌体MS2外壳蛋白(MCP)结构域。

94.根据权利要求89至93中任一项所述的蛋白质，其中所述序列在N末端或C末端与亲和标签融合。

95.一种核酸，其编码根据权利要求89至94中任一项所述的蛋白质。

96.一种核酸，其编码开放阅读框，其中所述开放阅读框编码与SEQ ID NO:440-554中的任一者的RT结构域具有至少80％序列同一性的RT结构域或其变体，其中：(a)所述开放阅读框被优化以在生物体中表达，并且所述生物体与所述RT或核酸内切酶结构域的来源不同；或(b)所述ORF包括编码亲和标签的序列。

97.根据权利要求96所述的核酸，其编码与SEQ ID NO:518-522、524-527和529-532中的任一者具有至少80％序列同一性的RT或其变体。

98.根据权利要求97所述的核酸，其中所述逆转录酶包括与SEQ ID NO:526具有至少80％序列同一性的序列或其变体。

99.根据权利要求96至98中任一项所述的核酸，其中所述开放阅读框包括与SEQ IDNO:356-373中的任一者具有至少80％序列同一性的序列。

100.一种用于合成互补DNA(cDNA)的方法，所述方法包括：

(a)提供RNA分子作为模板以供cDNA合成；

(b)提供引物寡核苷酸以引发由所述RNA分子进行cDNA合成；以及

(c)使用逆转录酶合成由所述引物寡核苷酸从所述模板引发的cDNA，所述逆转录酶包括与SEQ ID NO:609-610、611-615、616-617、618-622、623、624-626、627-673中的任一者的逆转录酶结构域具有至少80％序列同一性的序列或其变体。

101.根据权利要求100所述的方法，其中所述逆转录酶结构域包括SEQ ID NO:609-610、611-615、616-617、618-622、623、624-626或627-673中的任一者的保守的xxDD、[F/Y]XDD、NAxxH或VTG基序。

102.根据权利要求100或101所述的方法，其中所述逆转录酶包括与SEQ ID NO:612-613、616-619、622、624、627-630、633中的任一者具有至少80％序列同一性的序列或其变体。

103.根据权利要求100至102中任一项所述的方法，其中所述引物寡核苷酸包括至少六个寡核苷酸的oligo(dT)序列或简并序列。

104.根据权利要求100至103中任一项所述的方法，其中所述引物寡核苷酸包括与SEQID NO:340-341、342-344、345-346、347-351、352或353-355中的任一者具有至少80％序列同一性的至少六个连续核苷酸。

105.根据权利要求100至104中任一项所述的方法，其中所述合成cDNA包括在适于从所述RNA模板延伸DNA序列的条件下在反应混合物中温育所述模板RNA分子、所述引物寡核苷酸和所述逆转录酶。

106.根据权利要求105所述的方法，其中所述反应混合物进一步包括dNTP、反应缓冲液、二价金属离子、Mg²⁺或Mn²⁺。

107.一种蛋白质，其包括逆转录酶结构域，所述逆转录酶结构域包括与SEQ ID NO:609-610、611-615、616-617、618-622、623、624-626、627-673中的任一者的逆转录酶结构域具有至少80％序列同一性的序列或其变体，其中所述序列在N末端或C末端与非逆转座酶结构域或亲和标签融合。

108.根据权利要求107所述的蛋白质，其中所述逆转录酶结构域包括SEQ ID NO:609-610、611-615、616-617、618-622、623、624-626或627-673中的任一者的保守的xxDD、[F/Y]XDD、NAxxH或VTG基序。

109.根据权利要求107或108所述的蛋白质，其中所述逆转录酶结构域包括与SEQ IDNO:612-613、616-619、622、624、627-630、633中的任一者具有至少80％序列同一性的序列或其变体。

110.根据权利要求107至109中任一项所述的蛋白质，其中所述非逆转座酶结构域是RNA结合蛋白结构域。

111.根据权利要求110所述的蛋白质，其中所述RNA结合蛋白结构域包括噬菌体MS2外壳蛋白(MCP)结构域。

112.根据权利要求107至112中任一项所述的蛋白质，其中所述序列在N末端或C末端与亲和标签融合。

113.一种核酸，其编码根据权利要求107至112中任一项所述的蛋白质。

114.一种核酸，其编码开放阅读框(ORF)，所述ORF被优化以在生物体中表达，其中所述开放阅读框编码与SEQ ID NO:609-610、611-615、616-617、618-622、623、624-626、627-673中的任一者的RT结构域具有至少80％序列同一性的RT结构域或其变体，其中：(a)所述开放阅读框被优化以在生物体中表达，并且所述生物体与所述RT或核酸内切酶结构域的来源不同；或(b)所述ORF包括编码亲和标签的序列。

115.根据权利要求114所述的核酸，其中所述逆转录酶结构域包括SEQ ID NO:609-610、611-615、616-617、618-622、623、624-626或627-673中的任一者的保守的xxDD、[F/Y]XDD、NAxxH或VTG基序。

116.根据权利要求114或115所述的核酸，其编码与SEQ ID NO:612-613、616-619、622、624、627-630、633中的任一者具有至少80％序列同一性的RT或其变体。

117.根据权利要求114至116中任一项所述的核酸，其中所述ORF包括编码亲和标签的序列。

118.根据权利要求117所述的核酸，其中所述开放阅读框包括与SEQ ID NO:308-309、310-312、313-314、315-319、320、321-323或174-180中的任一者具有至少80％序列同一性的序列。

119.根据权利要求114至115中任一项所述的核酸，其中所述生物体与所述RT结构域的来源不同。

120.根据权利要求119所述的核酸，其中所述ORF包括与SEQ ID NO:324-325、326-328、329-330、331-335、336、327-329或181-187中的任一者具有至少80％序列同一性的序列。

121.一种合成寡核苷酸，其包括与SEQ ID NO:340-341、342-344、345-346、347-351、352,或353-355中的任一者具有至少80％序列同一性的至少六个连续核苷酸。

122.根据权利要求121所述的合成寡核苷酸，其包括DNA核苷酸。

123.根据权利要求121或122所述的合成寡核苷酸，其进一步包括至少一个硫代磷酸酯键。

124.一种载体，其包括与SEQ ID NO:340-341、342-344、345-346、347-351、352或353-355中的任一者具有至少80％序列同一性的序列。

125.一种核酸，其编码本文所述的蛋白质中的任一种。

126.一种宿主细胞，其包括本文所述的核酸中的任一种。

127.一种载体，其包括根据权利要求29-31、54-56、71-74、75-82、95-99,或113至120中任一项所述的核酸。

128.一种宿主细胞，其包括根据权利要求124或权利要求127所述的载体。

129.一种宿主细胞，其包括根据权利要求29-31、54-56、71-74、75-82、95-99,或113至120中任一项所述的核酸。

130.根据权利要求129所述的宿主细胞，其中所述宿主细胞是大肠杆菌细胞。

131.根据权利要求129或130所述的宿主细胞，其中所述大肠杆菌细胞是λDE3溶原菌，或者所述大肠杆菌细胞是BL21(DE3)菌株。

132.根据权利要求130或131所述的宿主细胞，其中所述大肠杆菌细胞具有ompT lon基因型。

133.根据权利要求129至132中任一项所述的宿主细胞，其中所述核酸包括开放阅读框(ORF)，所述ORF编码逆转座酶、其片段或逆转录酶结构域，其中所述开放阅读框与以下可操作地连接：T7启动子序列、T7-lac启动子序列、lac启动子序列、tac启动子序列、trc启动子序列、ParaBAD启动子序列、PrhaBAD启动子序列、T5启动子序列、cspA启动子序列、araP_BAD启动子、来自噬菌体λ的强左侧启动子(pL启动子)或其任何组合。

134.根据权利要求133所述的宿主细胞，其中所述开放阅读框包括编码亲和标签的序列，所述亲和标签与编码所述逆转座酶、其所述片段或所述逆转录酶结构域的序列框内连接。

135.一种培养物，其包括在相容液体培养基中的根据权利要求126或128至134中任一项所述的宿主细胞。

136.一种产生逆转座酶、其片段或逆转录酶结构域的方法，所述方法包括在相容液体培养基中培养根据权利要求126或128至134中任一项所述的宿主细胞。

137.根据权利要求136所述的方法，其进一步包括通过添加另外的化学药剂或增加量的营养物来诱导所述逆转座酶、其所述片段或所述逆转录酶结构域的表达。

138.根据权利要求137所述的方法，其中所述另外的化学药剂或增加量的营养物包括异丙基β-D-1-硫代半乳糖苷(IPTG)或另外的量的乳糖。

139.根据权利要求138所述的方法，其进一步包括在所述培养后分离所述宿主细胞并且使所述宿主细胞裂解以产生蛋白质提取物。

140.根据权利要求139所述的方法，其进一步包括使所述蛋白质提取物经受对亲和标签或离子亲和色谱法具有特异性的亲和色谱法。

141.一种经体外转录的mRNA，其包括根据权利要求29至31、54至56、71至74、75至82、95至99或113至120中任一项所述的核酸中的任一种的RNA同源物。