CN118139979A

CN118139979A - 具有hepn结构域的酶

Info

Publication number: CN118139979A
Application number: CN202280071006.0A
Authority: CN
Inventors: 布莱恩·C·托马斯; 克利斯多佛·布朗; 利萨·亚历山大; 辛迪·卡斯泰勒; 利利安娜·冈萨雷斯-奥索里奥; 莫拉伊玛·特莫彻-迪亚兹
Original assignee: Macrogenomics
Current assignee: Macrogenomics
Priority date: 2021-10-27
Filing date: 2022-10-26
Publication date: 2024-06-04
Also published as: WO2023076952A1

Abstract

本公开提供了具有HEPN结构域的核酸内切酶，以及使用此类酶或其变体的方法。

Description

具有HEPN结构域的酶

相关申请交叉引用

本申请要求于2021年10月27日提交的题为“具有HEPN结构域的酶(ENZYMES WITHHEPN DOMAINS)”的美国临时申请第63/272,500号的权益，所述美国临时申请通过引用整体并入本文。

序列表

本申请含有已经以XML格式电子提交的序列表，并且特此通过引用整体并入。创建于2022年10月25日的所述XML副本命名为55921-740-601-sequence-listing.xml并且大小为505,724字节。

背景技术

Cas酶以及其相关的成簇的规则间隔的短回文重复序列(CRISPR)向导核糖核酸(RNA)似乎是原核免疫系统的普遍(约45％的细菌，约84％的古细菌)组分，用于通过CRISPR-RNA引导的核酸切割来保护此类微生物免受非自身核酸的侵害，如传染性病毒和质粒。虽然编码CRISPR RNA元件的脱氧核糖核酸(DNA)元件在结构和长度上可能相对保守，但其CRISPR相关(Cas)蛋白是高度多样化的，含有多种核酸相互作用结构域。虽然早在1987年就观察到CRISPR DNA元件，但CRISPR/Cas复合物的可编程核酸内切酶切割能力直到最近才被认识到，从而引起重组CRISPR/Cas系统在各种DNA操纵和基因编辑应用中的使用。

发明内容

在一些方面，本公开提供了一种经工程化的核酸酶系统，所述经工程化的核酸酶系统包括：(a)核酸内切酶，所述核酸内切酶包括HEPN结构域，其中所述核酸内切酶源自未经培养的微生物；以及(b)经工程化的向导核糖核酸结构，所述经工程化的向导核糖核酸结构被配置成与所述核酸内切酶形成复合物，所述经工程化的向导核糖核酸结构包括：(i)被配置成与靶核糖核酸序列杂交的核糖核酸序列；以及(ii)被配置成与所述核酸内切酶结合的核糖核酸序列。在一些实施例中，所述核酸内切酶包括与SEQ ID NO:1-15和62-84中的任一者具有至少约75％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体。在一些实施例中，所述核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas13d核酸内切酶。在一些实施例中，所述核酸内切酶与Cas13b核酸内切酶的同一性小于80％。在一些实施例中，所述核酸内切酶包括与SEQ ID NO:1、4、5、6、7、8、10、11、12、13或15中的任一者具有至少约75％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体。在一些实施例中，所述经工程化的向导核糖核酸结构包括具有至少30个、至少31个、至少32个、至少33个、至少34个、至少35个或至少36个连续核苷酸的重复序列，所述重复序列与SEQ ID NO:21、26、30、35、41、46、50、54、60、122、123、124或125中的任一者具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性。在一些实施例中，所述被配置成与所述靶核糖核酸序列杂交的核糖核酸序列包括至少约18至约26个核苷酸。在一些实施例中，所述经工程化的向导核糖核酸结构以以下序列的形式提供，所述序列包括：(i)所述重复序列的第一拷贝；(ii)所述被配置成与所述靶核糖核酸序列杂交的核糖核酸序列；以及(iii)所述重复序列的第二拷贝。在一些实施例中，所述经工程化的向导核糖核酸结构包括与SEQ ID NO:36、37、55或61中的任一者的非简并核苷酸具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列。

在一些方面，本公开提供了一种经工程化的核酸酶系统，经工程化的核酸酶系统包括：(a)经工程化的向导核糖核酸结构，所述经工程化的向导核糖核酸结构包括：(i)被配置成与靶核糖核酸序列杂交的核糖核酸序列；以及(ii)被配置成与核酸内切酶结合的核糖核酸序列；以及(b)2类VI型核酸内切酶，所述2类VI型核酸内切酶被配置成与所述经工程化的向导核糖核酸结合。在一些实施例中，所述向导核糖核酸序列的长度为60-100个核苷酸。在一些实施例中，所述核酸内切酶包括与SEQ ID NO:1、4、5、6、7、8、10、11、12或13中的任一者具有至少75％序列同一性的序列或其变体。在一些实施例中，所述经工程化的向导核糖核酸结构包括具有至少30个、至少31个、至少32个、至少33个、至少34个、至少35个或至少36个连续核苷酸的重复序列，所述重复序列与SEQ ID NO:21、26、30、35、41、46、50、54、60、122、123、124或125中的任一者具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性。在一些实施例中，所述被配置成与所述靶核糖核酸序列杂交的核糖核酸序列包括至少约18至约26个核苷酸。在一些实施例中，所述经工程化的向导核糖核酸结构以以下序列的形式提供，所述序列包括：(i)所述重复序列的第一拷贝；(ii)所述被配置成与所述靶核糖核酸序列杂交的核糖核酸序列；以及(iii)所述重复序列的第二拷贝。在一些实施例中，所述经工程化的向导核糖核酸结构包括与SEQ ID NO:36、37、55或61中的任一者的非简并核苷酸具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列。在一些实施例中，所述核酸内切酶包括接近所述核酸内切酶的N末端或C末端的一个或多个核定位序列(NLS)。在一些实施例中，所述NLS包括SEQ ID NO:155-170中的任一者。在一些实施例中，所述系统进一步包括单链RNA修复模板，所述单链RNA修复模板从5'至3'包括：第一同源臂，所述第一同源臂包括位于所述靶核糖核酸序列的5'的至少20个核苷酸的序列；至少10个核苷酸的合成RNA序列；以及第二同源臂，所述第二同源臂包括位于所述靶序列的3'的至少20个核苷酸的序列。在一些实施例中，所述第一同源臂或所述第二同源臂包括至少40个、80个、120个、150个、200个、300个、500个或1,000个核苷酸的序列。在一些实施例中，所述序列同一性通过BLASTP、CLUSTALW、MUSCLE、MAFFT或具有史密斯-沃特曼同源性搜索算法参数的CLUSTALW来测定。在一些实施例中，所述序列同一性是通过所述BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在11，扩展1并且使用条件组成评分矩阵调整来确定的。在一些实施例中，所述核酸内切酶在其N末端或C末端处与另外的蛋白质结构域融合。在一些实施例中，所述另外的蛋白质结构域是异源结构域。

在一些方面，本公开提供了一种经工程化的向导核糖核酸多核苷酸，所述经工程化的向导核糖核酸多核苷酸包括：(a)RNA靶向区段，所述RNA靶向区段包括与靶RNA分子中的靶序列互补的核苷酸序列；以及(b)蛋白质结合区段，所述蛋白质结合区段包括杂交以形成双链RNA(dsRNA)双链体的两个互补核苷酸延伸段，其中所述两个互补核苷酸延伸段与中间核苷酸彼此共价连接，并且其中所述经工程化的向导核糖核酸多核苷酸被配置成与核酸内切酶形成复合物并且将所述复合物靶向所述靶RNA分子的所述靶序列，所述核酸内切酶包括与SEQ ID NO:1-15和62-84中的任一者具有至少约75％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体。

一方面，本公开提供了一种经工程化的核酸酶系统，所述经工程化的核酸酶系统包括：(a)核酸内切酶，所述核酸内切酶包括HEPN结构域；以及(b)经工程化的向导核糖核酸结构，所述经工程化的向导核糖核酸结构被配置成与所述核酸内切酶形成复合物，所述经工程化的向导核糖核酸结构包括：(i)被配置成与靶核糖核酸序列杂交的核糖核酸序列；以及(ii)被配置成与所述核酸内切酶结合的核糖核酸序列。在一些实施例中，所述核酸内切酶包括与SEQ ID NO:1-15和62-84中的任一者具有至少75％序列同一性的序列。在一些实施例中，核酸内切酶源自未经培养的微生物。在一些实施例中，所述核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas13d核酸内切酶。在一些实施例中，核酸内切酶与Cas13b核酸内切酶的同一性小于80％。

另一方面，本公开提供了一种经工程化的核酸酶系统，其包括：(a)经工程化的向导核糖核酸结构，所述经工程化的向导核糖核酸结构包括：(i)被配置成与靶核糖核酸序列杂交的核糖核酸序列；以及(ii)被配置成与核酸内切酶结合的核糖核酸序列；以及(b)2类VI型核酸内切酶，所述2类VI型核酸内切酶被配置成与所述经工程化的向导核糖核酸结合。在一些实施例中，所述向导核糖核酸序列的长度为60-100个核苷酸。在一些实施例中，所述核酸内切酶包括接近所述核酸内切酶的N末端或C末端的一个或多个核定位序列(NLS)。在一些实施例中，所述NLS包括选自SEQ ID NO:155-170的序列。在一些实施例中，所述经工程化的核酸酶系统进一步包括单链RNA修复模板，所述单链RNA修复模板从5'至3'包括：第一同源臂，所述第一同源臂包括位于所述靶核糖核酸序列的5'的至少20个核苷酸的序列；至少10个核苷酸的合成RNA序列；以及第二同源臂，所述第二同源臂包括位于所述靶序列的3'的至少20个核苷酸的序列。在一些实施例中，所述第一同源臂或所述第二同源臂包括至少40个、80个、120个、150个、200个、300个、500个或1,000个核苷酸的序列。在一些实施例中，所述序列同一性是通过BLASTP、CLUSTALW、MUSCLE、MAFFT或具有史密斯-沃特曼同源性搜索算法的参数的CLUSTALW来确定的。在一些实施例中，所述序列同一性是通过使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵(将空位罚分设置为存在11，扩展1)并且使用条件组成评分矩阵调整的BLASTP同源性搜索算法来确定的。在一些实施例中，所述核酸内切酶在其N末端或C末端处与另外的蛋白质结构域融合。在一些实施例中，所述另外的蛋白质结构域是异源结构域。另一方面，本公开提供了一种经工程化的向导核糖核酸多核苷酸，所述经工程化的向导核糖核酸多核苷酸包括：(a)RNA靶向区段，所述RNA靶向区段包括与靶RNA分子中的靶序列互补的核苷酸序列；以及(b)蛋白质结合区段，所述蛋白质结合区段包括杂交以形成双链RNA(dsRNA)双链体的两个互补核苷酸延伸段，其中所述两个互补核苷酸延伸段与中间核苷酸彼此共价连接，其中所述经工程化的向导核糖核酸多核苷酸被配置成与核酸内切酶形成复合物并且将所述复合物靶向所述靶RNA分子的所述靶序列，所述核酸内切酶包括与SEQ ID NO:1-15和62-84中的任一者具有至少75％序列同一性的序列。在一些实施例中，RNA靶向区段位于所述两个互补核苷酸延伸段中的两者的5'。另一方面，本公开提供了一种脱氧核糖核酸多核苷酸，所述脱氧核糖核酸多核苷酸编码本文所描述的经工程化的向导核糖核酸多核苷酸或结构。另一方面，本公开提供了一种核酸，所述核酸包括经工程化的核酸序列，所述经工程化的核酸序列被优化以在生物体中表达，其中所述核酸编码核酸内切酶，所述核酸内切酶包括与SEQ ID NO:1-15和62-84中的任一者具有至少75％序列同一性的序列。在一些实施例中，所述核酸内切酶包括编码接近所述核酸内切酶的N末端或C末端的一个或多个核定位序列(NLS)的序列。在一些实施例中，所述NLS包括选自SEQ ID NO:155-170的序列。在一些实施例中，所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿动物或人。另一方面，本公开提供了一种载体，所述载体包括本文所描述的核酸。在一些实施例中，所述载体进一步包括核酸，所述核酸编码经工程化的向导核糖核酸结构，所述经工程化的向导核糖核酸结构被配置成与所述核酸内切酶形成复合物，所述经工程化的向导核糖核酸结构包括：(a)核糖核酸序列，所述核糖核酸序列被配置成与靶核糖核酸序列杂交；以及(b)核糖核酸序列，所述核糖核酸序列被配置成与所述核酸内切酶结合。在一些实施例中，所述载体是质粒、微环、CELiD、腺相关病毒(AAV)源性病毒体或慢病毒。另一方面，本公开提供了一种细胞，所述细胞包括本文所描述的载体。另一方面，本公开提供了一种制备核酸内切酶的方法，所述方法包括培养本文所描述的细胞。另一方面，本公开提供了一种用于结合、切割、标记或修饰单链核糖核酸多核苷酸的方法，所述方法包括：使所述单链核糖核酸多核苷酸与2类VI型核酸内切酶接触，所述2类VI型核酸内切酶与经工程化的向导核糖核酸结构形成复合物，所述经工程化的向导核糖核酸结构被配置成与所述核酸内切酶和所述单链核糖核酸多核苷酸结合。在一些实施例中，所述单链核糖核酸多核苷酸包括原间隔子侧接位点(PFS)。在一些实施例中，所述单链核糖核酸多核苷酸包括与所述经工程化的向导核糖核酸结构的序列互补的序列和PFS。在一些实施例中，所述PFS与和所述经工程化的向导核糖核酸结构的所述序列互补的所述序列直接相邻。在一些实施例中，所述单链核糖核酸多核苷酸不包括原间隔子侧接位点(PFS)。在一些实施例中，所述2类VI型核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas13d核酸内切酶。在一些实施例中，所述单链核糖核酸多核苷酸是真核生物、植物、真菌、哺乳动物、啮齿动物或人单链核糖核酸多核苷酸。另一方面，本公开提供了一种修饰靶核酸基因座的方法，所述方法包括向所述靶核酸基因座递送本文所描述的经工程化的核酸酶系统，其中所述核酸内切酶被配置成与所述经工程化的向导核糖核酸结构形成复合物，并且其中所述复合物被配置成使得在所述复合物与所述靶核酸基因座结合时，所述复合物修饰所述靶核酸基因座。在一些实施例中，修饰所述靶核酸基因座包括结合、切口、切割或标记所述靶核酸基因座。在一些实施例中，所述靶核酸基因座包括脱氧核糖核酸(DNA)或核糖核酸(RNA)。在一些实施例中，所述靶核酸包括基因组DNA、基因组RNA、病毒DNA、病毒RNA、细菌DNA或细菌RNA。在一些实施例中，所述靶核酸基因座在体外。在一些实施例中，所述靶核酸基因座位于细胞内。在一些实施例中，所述细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞或人细胞。在一些实施例中，向所述靶核酸基因座递送所述经工程化的核酸酶系统包括递送本文所描述的核酸或本文所描述的载体。在一些实施例中，向所述靶核酸基因座递送所述经工程化的核酸酶系统包括递送包括编码所描述的核酸内切酶的开放阅读框的核酸。在一些实施例中，所述核酸包括启动子，编码所述核酸内切酶的所述开放阅读框与所述启动子可操作地连接。在一些实施例中，向所述靶核酸基因座递送所述经工程化的核酸酶系统包括递送含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA。在一些实施例中，向所述靶核酸基因座递送所述经工程化的核酸酶系统包括递送经翻译的多肽。在一些实施例中，向所述靶核酸基因座递送所述经工程化的核酸酶系统包括递送编码与核糖核酸(RNA)pol III启动子可操作地连接的所述经工程化的向导核糖核酸结构的脱氧核糖核酸(DNA)。在一些实施例中，所述核酸内切酶在所述靶基因座处或附近诱导单链断裂。另一方面，本公开提供了一种经工程化的向导核糖核酸多核苷酸，所述经工程化的向导核糖核酸多核苷酸包括：(a)RNA靶向区段，所述RNA靶向区段包括与靶RNA分子中的靶序列互补的核苷酸序列；以及(b)蛋白质结合区段，所述蛋白质结合区段包括杂交以形成双链RNA(dsRNA)双链体的两个互补核苷酸延伸段，其中所述两个互补核苷酸延伸段与中间核苷酸彼此共价连接，并且其中所述经工程化的向导核糖核酸多核苷酸被配置成与2类VI型核酸内切酶形成复合物并且将所述复合物靶向所述靶RNA分子的所述靶序列。

另一方面，本公开提供了一种用于产生经编辑的免疫细胞的系统，所述系统包括：(a)RNA引导的核酸内切酶；(b)本文所描述的经工程化的向导核糖核酸多核苷酸，所述经工程化的向导核糖核酸多核苷酸被配置成与所述RNA引导的核酸内切酶结合；以及(c)单链RNA修复模板，所述单链RNA修复模板包括侧接于编码嵌合抗原受体(CAR)的序列上的第一同源臂和第二同源臂。在一些实施例中，所述细胞是外周血单核细胞、T细胞、NK细胞、造血干细胞(HSCT)或B细胞。在一些实施例中，所述RNA引导的核酸内切酶是II类VI型核酸内切酶。在一些实施例中，所述RNA引导的核酸内切酶包括HEPN结构域。

通过引用并入

本说明书中所提到的所有公开、专利和专利申请均通过以相同的程度引用并入本文，如同特定且单独地指示每个单独的公开、专利或专利申请通过引用并入。

附图说明

本发明的新颖特征在所附权利要求书中具体阐述。通过参考对说明性实施例进行阐述的以下详细说明，将获得对本发明的特征和优点的更好理解，在这些实施例中利用了本发明的原理，并且在附图(在本文也称为“图(Figure/FIG.)”)中：

图1A-1C描绘了MG103家族。(图1A)描绘了MG103效应子图示的多重比对，示出了对于单链RNA切割的功能至关重要的HEPN催化残基的结构域组成和保守性。(图1B)描绘了其中基因组背景围绕CRISPR阵列和效应子(MG103-2的实例)的含有CRISPR的重叠群的图示。(图1C)描绘了MG103-2的直接重复序列的折叠。

图2A-2C描绘了MG105家族。(图2A)描绘了MG105效应子图示的多重比对，示出了对于单链RNA切割活性的功能至关重要的HEPN催化残基的保守性。(图2B)描绘了其中基因组背景围绕CRISPR阵列和效应子(MG105-1的实例)的含有CRISPR的重叠群的图示。(图2C)描绘了MG105-1的直接重复序列的折叠。

图3描绘了根据Cas13d蛋白质序列的多序列比对推断的系统发育树。出于分类目的，参考Cas13d序列被包含在树中。黑色实心圆圈表示新型候选物。

图4描绘了基于荧光的mRNA顺式切割测定。靶向deGFP mRNA和核酸酶的最小阵列在体外用PURExpress(NEB)进行了转录和翻译。成熟crRNA用经翻译的核酸酶进行了处理。在37℃下温育20分钟后，将deGFP mRNA添加到每个反应，以与成熟靶向crRNA形成激活的复合物。在37℃下以3分钟间隔对经翻译的deGFP进行3小时mRNA的荧光信号测量。与apo条件(-crRNA)相比，预期活性复合物(+crRNA)表现出荧光显著降低。在3小时温育后，立即将所有反应储存在-80℃下，直到准备好进行RNA提取。将RNA提取物用T4 PNK处理以使成熟crRNA的5'端单磷酸化，并测序以确定活性crRNA处理。

图5描绘了体外deGFP mRNA切割。以485/20激发和528/20发射以3-5分钟间隔进行了2-3小时荧光测量。MA2X1是指具有两个重复序列和一个靶向间隔子的最小阵列设计。在正向(FWD)和反向(REV)取向上对重复序列进行了测试。Apo和非靶向(NT)条件产生了高荧光，而在靶向活性条件时表现出荧光显著降低。从背景荧光(非模板条件)中减去数据，并且将每个曲线拟合到平台后接单相指数衰减。对每个条件的复制品进行了测试。

图6描绘了通过靶向切割进行的deGFP荧光敲低。MA2X1是指具有两个重复序列和一个靶向间隔子的最小阵列设计。在正向(FWD)和反向(REV)取向上对重复序列进行了测试。根据平台参数对荧光下降百分比进行了定量。从每个条件中减去Apo平台值，然后除以apo平台并乘以100。分别用实心条形图和条纹条形图绘制了靶向和非靶向(NT)反应的百分比。靶向切割导致荧光降低至多97.70％。对每个条件的复制品进行了测试。

图7描绘了基于荧光的mRNA反式切割测定。靶向101nt激活因子RNA和核酸酶的最小阵列在体外用PURExpress(NEB)进行了转录和翻译。成熟crRNA用经翻译的核酸酶进行了处理。在37℃下温育20分钟后，将deGFP mRNA和激活因子RNA添加到每个反应，以与成熟靶向crRNA形成激活的复合物。deGFP mRNA没有被最小阵列靶向，其作为旁观者RNA存在，可以被反式活性切割。在37℃下以3分钟间隔对经翻译的deGFP mRNA进行了3小时的荧光信号测量。与apo条件(-crRNA)相比，预期活性复合物(+crRNA)表现出荧光显著降低。

图8描述了体外deGFP mRNA顺式与反式切割。用圆圈绘制出了Apo反应。用正方形绘制的反应测试了用靶向deGFP mRNA的最小阵列进行的切割。用三角形绘制的反应测试了用不靶向deGFP mRNA的最小阵列进行的切割。用菱形绘制的反应测试了用激活的核酸酶复合物对deGFP mRNA进行的反式切割，最小阵列中的间隔子与deGFP mRNA不互补。与顺式和反式切割反应相比，Apo和非靶向条件表现出高荧光。从背景荧光(非模板条件)中减去数据，并且将除了MG105-1反应之外的每条曲线都拟合到平台后接单相指数衰减。

图9描绘了通过顺式切割与反式切割进行的deGFP荧光敲低。根据平台参数对荧光下降百分比进行了定量。从每个条件中减去Apo平台值，然后除以apo平台并乘以100。对于MG105-1，没有收集到足够的数据点以使数据适当地拟合到平台后接单相指数衰减。相反，从每个条件中减去Apo最大荧光信号，然后除以apo最大荧光信号并乘以100。顺式和反式切割结果示出了荧光的降低相当。对每个条件的复制品进行了测试。

图10A-10C描绘了RNAseq分析。读段被映射到每个反应中使用的最小阵列序列。crRNA处理边界用白色双箭头表示。图10A和10B证明了MG103核酸酶处理重复序列的5'端和间隔子的3'端上的crRNA。所得活性间隔子长度为21个或26个核苷酸并且活性重复序列长度为30个核苷酸。图10C证明了MG105-1处理crRNA的方式不同。在间隔子的5'端上修剪了crRNA的10个核苷酸，留下了未修剪的重复序列。

图11描述了测试HEK293 T细胞中的VI型核酸酶的方案概述。

图12A-12B描述了使用cas13阳性对照的HEK293T细胞中的GFP敲低。通过使用经引导和未经引导的阳性对照验证了测定的适用性。图12A描绘了经引导的条件(质粒向导、化学合成的向导)和未经引导的条件(Apo)下GFP荧光的重叠分布，示出了经引导的条件下向更低的荧光的偏移。图12B描绘了图12A的定量，示出了每个群体的平均值。“质粒向导”和“质粒”指质粒中编码的阵列。“化学合成的向导”和“化学合成的”指具有5'修饰和3'修饰的化学合成的阵列。

图13A-13J描绘了使用阳性对照和MG核酸酶的HEK293T细胞中的GFP敲低。图13A至13E：经引导的条件(阵列1-4和阵列5-8)和未经引导的条件(Apo)下GFP荧光的重叠分布示出了经引导的条件下向更低的荧光的偏移。图13A至13E代表每个候选者。图13F至13J：经引导的条件(阵列1-2、3-4、5-6或7-8)和未经引导的条件(Apo)下GFP荧光的重叠分布示出了经引导的条件下向更低的荧光的偏移。图13F至13J代表每个候选者。

图14A-14K描绘了使用阳性对照和MG核酸酶的HEK293T细胞中的GFP敲低的定量。图14A至14E：经引导的条件(阵列1-4和阵列5-8)和未经引导的条件(Apo)下GFP荧光定量和分布示出了经引导的条件下向更低的荧光的偏移。Apo条件与经引导的条件在所有条件下都具有显著的差异。所示出的数字表示每个群体的中值荧光。图14A至14E代表每个候选者。图14F至14K：最高敲低化学合成的向导阵列(1-2、3-4、5-6或7-8)和未经引导的条件(Apo)下的GFP荧光定量和分布。103-9、103-11、103-12和103-14示出了经引导的条件下的中值低于Apo对照的中值。除了103-10外，Apo条件与经引导的条件在所有条件下都具有显著的差异，其中经引导的阵列的荧光与Apo的荧光相同或较之更高。所示出的线和相关值代表每个具有25,000个细胞的群体的中值荧光。图14F代表阳性对照并且图14G至14K代表每个候选者。

图15A描绘了使用阳性对照和MG核酸酶的HEK293T细胞中的GFP敲低。设置Apo条件的中值为100％ GFP表达来计算敲低效率。103-3示出了与阳性对照相似的抑制水平。103-3抑制之后是103-6、103-7和103-2。图15B描绘了使用化学合成的向导的使用阳性对照和MG新型核酸酶的HEK293T细胞中的GFP敲低。设置Apo条件的中值为100％ GFP表达来计算敲低效率。103-12示出了与阳性对照相似的敲低。

序列表简要说明

随此提交的序列表提供了用于根据本公开的方法、组合物和系统的示例性多核苷酸和多肽序列。下文是其中的序列的示例性描述。

MG105

SEQ ID NO:1-2示出了MG105核酸酶的全长肽序列。

SEQ ID NO:56-61示出了用于本文所描述的MG105核酸酶体外转录和翻译的DNA模板的核苷酸序列。

MG103

SEQ ID NO:3-15和62-84示出了MG103核酸酶的全长肽序列。

SEQ ID NO:18-55示出了用于本文所描述的MG103核酸酶体外转录和翻译的DNA模板的核苷酸序列。

SEQ ID NO:86-89和135-154示出了适于与本文所描述的MG103核酸酶一起使用的化学合成的RNA向导的核苷酸序列。

SEQ ID NO:90-105示出了适于与本文所描述的MG103核酸酶一起使用的靶向eGFP的CRISPR阵列的核苷酸序列。

SEQ ID NO:106-113示出了适于与本文所描述的MG103核酸酶一起使用的编码靶向eGFP的CRISPR阵列的质粒的核苷酸序列。

SEQ ID NO:122-125示出了由本文所描述的MG103核酸酶鉴定的重复序列。

SEQ ID NO:126-134示出了编码本文所描述的MG103核酸酶的密码子优化的DNA序列。

MG106

SEQ ID NO:171-172示出了MG106核酸酶的全长肽序列。

SEQ ID NO:173-180示出了用于本文所描述的MG106核酸酶体外转录和翻译的DNA模板的核苷酸序列。

测定材料

SEQ ID NO:16-17示出了RNA模板的用于评估本文所描述的核酸酶系统的切割活性的核苷酸序列。

SEQ ID NO:85示出了可用于评估本文所描述的核酸酶系统在哺乳动物细胞中的RNA切割活性的GFP-PEST报告基因蛋白的全长肽序列。

SEQ ID NO:114-121示出了可用于评估本文所描述的核酸酶系统在哺乳动物细胞中的RNA切割活性的ueGFP靶向间隔子序列的核苷酸序列。

具体实施方式

虽然本文中已经示出并描述了本发明的各个实施例，但是对于本领域的技术人员显而易见的是，这些实施例仅作为实例提供。在不脱离本发明的情况下，本领域技术人员可以想到多种变化、改变和替换。应当理解，可以采用本文所描述的本发明实施例的各种替代方案。

除非另有指示，否则本文所公开的一些方法的实践采用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的技术。参见例如，Sambrook和Green等人,《分子克隆：实验室手册(Molecular Cloning:A Laboratory Manual)》,第4版(2012)；丛书《当代分子生物学实验指南(Current Protocols in Molecular Biology)》(F.M.Ausubel等人编辑)；丛书《酶学方法(Methods In Enzymology)》(学术出版社公司(Academic Press,Inc.)),《PCR 2：实用方法(PCR 2:A Practical Approach)》(M.J.MacPherson,B.D.Hames和G.R.Taylor编辑(1995))；Harlow和Lane编辑(1988)《抗体：实验室手册(Antibodies,ALaboratory Manual)》以及《动物细胞培养：基础技术和专门应用手册(Culture of Animal Cells:A Manual of Basic Technique and SpecializedApplications)》,第6版(R.I.Freshney编辑(2010))(所述文献通过引用整体并入本文)。

如本文所使用的，除非上下文另外清楚地指示，否则单数形式“一个/一种(a/an)”和“所述(the)”也旨在包含复数形式。此外，在详细描述和/或权利要求中使用术语“包含(including)”、“包含(include)”、“具有(having)”、“具有(has)”、“具有(with)”或其变体的情况下，这种术语旨在以类似于术语“包括(comprising)”的方式是包含性的。

术语“约(about)”或“大约(approximately)”意指在如由本领域普通技术人员确定的特定值的可接受误差范围内，这将部分地取决于值是如何测量或测定的，即，测量系统的局限性。例如，“约”可以意指按照本领域的实践在一个或超过一个标准偏差内。可替代地，“约”可以意指给定值的至多20％、至多15％、至多10％、至多5％或至多1％的范围。

如本文所使用的，“细胞”通常是指生物细胞。细胞可以是活生物体的基本结构、功能和/或生物单位。细胞可以源自具有一个或多个细胞的任何生物体。一些非限制性实例包含：原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物的细胞、原生动物细胞、来自植物(例如来自种植农作物、水果、蔬菜、谷物、大豆、玉米、玉蜀黍、小麦、种子、西红柿、大米、木薯、甘蔗、南瓜、干草、土豆、棉花、大麻、烟草、开花植物、针叶树、裸子植物、蕨类植物、石松、金鱼藻、地钱、苔藓的细胞)的细胞、藻细胞(例如布朗葡萄藻(Botryococcusbraunii)、莱茵衣藻(Chlamydomonas reinhardtii)、拟微球藻(Nannochloropsisgaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、马尾藻属(Sargassum patensC.Agardh)等)、海藻(例如海带)、真菌细胞(例如酵母细胞，来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如鱼、两栖动物、爬行动物、鸟、哺乳动物)的细胞、来自哺乳动物(例如猪、牛、山羊、绵羊、啮齿动物、大鼠、小鼠、非人灵长类动物、人等)的细胞等。有时，细胞并非源自天然生物体(例如，细胞可以是合成制造的，有时称为人工细胞)。

如本文所使用的，术语“核苷酸”通常是指碱基-糖-磷酸组合。核苷酸可以包括合成核苷酸。核苷酸可以包括合成核苷酸类似物。核苷酸可以是核酸序列(例如脱氧核糖核酸(DNA)和核糖核酸(RNA))的单体单元。术语核苷酸可以包含核糖核苷三磷酸、腺苷三磷酸(ATP)、尿苷三磷酸(UTP)、胞嘧啶三磷酸(CTP)、鸟苷三磷酸(GTP)和脱氧核糖核苷三磷酸，如dATP、dCTP、dITP、dUTP、dGTP、dTTP或其衍生物。此类衍生物可以包含例如[αS]dATP、7-脱氮-dGTP和7-脱氮-dATP，以及赋予含有它们的核酸分子核酸酶抗性的核苷酸衍生物。如本文所使用的，术语核苷酸可以是指双脱氧核糖核苷三磷酸(ddNTP)和其衍生物。双脱氧核糖核苷三磷酸的说明性实例可以包含但不限于：ddATP、ddCTP、ddGTP、ddITP和ddTTP。核苷酸可以是未经标记的或可检测标记的，如使用包括光学可检测部分(例如荧光团)的部分。也可以用量子点进行标记。可检测标记可以包含例如放射性同位素、荧光标记、化学发光标记、生物发光标记和酶标记。核苷酸的荧光标记可以包含但不限于荧光素、5-羧基荧光素(FAM)、2'7'-二甲氧基-4'5-二氯-6-羧基荧光素(JOE)、罗丹明、6-羧基罗丹明(R6G)、N,N,N',N'-四甲基-6-羧基罗丹明(TAMRA)、6-羧基-X-罗丹明(ROX)、4-(4'二甲基氨基苯偶氮基)苯甲酸(DABCYL)、瀑布蓝、俄勒冈绿、德克萨斯红、青色素和5-(2'-氨乙基)氨基萘-1-磺酸(EDANS)。荧光标记的核苷酸的具体实例可以包含可从加利福尼亚州福斯特市的珀金埃尔默公司(Perkin Elmer,Foster City,Calif)获得的[R6G]dUTP、[TAMRA]dUTP、[R110]dCTP、[R6G]dCTP、[TAMRA]dCTP、[JOE]ddATP、[R6G]ddATP、[FAM]ddCTP、[R110]ddCTP、[TAMRA]ddGTP、[ROX]ddTTP、[dR6G]ddATP、[dR110]ddCTP、[dTAMRA]ddGTP和[dROX]ddTTP；可从伊利诺伊州阿灵顿高地的安玛西亚公司(Amersham,Arlington Heights,Ill.)获得的FluoroLink脱氧核苷酸、FluoroLink Cy3-dCTP、FluoroLink Cy5-dCTP、FluoroLink FluorX-dCTP、FluoroLink Cy3-dUTP和FluoroLink Cy5-dUTP；可从印第安纳州印第安纳波利斯的宝灵曼公司(Boehringer Mannheim,Indianapolis,Ind.)获得的荧光素-15-dATP、荧光素-12-dUTP、四甲基-罗丹明-6-dUTP、IR770-9-dATP、荧光素-12-ddUTP、荧光素-12-UTP和荧光素-15-2'-dATP；以及可从俄勒冈州尤金的分子探针公司(Molecular Probes,Eugene,Oreg)获得的染色体标记的核苷酸、BODIPY-FL-14-UTP、BODIPY-FL-4-UTP、BODIPY-TMR-14-UTP、BODIPY-TMR-14-dUTP、BODIPY-TR-14-UTP、BODIPY-TR-14-dUTP、瀑布蓝-7-UTP、瀑布蓝-7-dUTP、荧光素-12-UTP、荧光素-12-dUTP、俄勒冈绿488-5-dUTP、罗丹明绿-5-UTP、罗丹明绿-5-dUTP、四甲基罗丹明-6-UTP、四甲基罗丹明-6-dUTP、德克萨斯红-5-UTP、德克萨斯红-5-dUTP和德克萨斯红-12-dUTP。核苷酸也可以通过化学修饰进行标记或标出。经化学修饰的单核苷酸可以是生物素-dNTP。经生物素化的dNTP的一些非限制性实例可以包含生物素-dATP(例如，bio-N6-ddATP、生物素-14-dATP)、生物素-dCTP(例如，生物素-11-dCTP、生物素-14-dCTP)和生物素-dUTP(例如生物素-11-dUTP、生物素-16-dUTP、生物素-20-dUTP)。

术语“多核苷酸”、“寡核苷酸”和“核酸”可互换使用以通常指代任何长度的核苷酸的聚合形式，脱氧核糖核苷酸或核糖核苷酸或其类似物，呈单链、双链或多链形式。多核苷酸对于细胞可以是外源性的或内源性的。多核苷酸可以存在于无细胞的环境中。多核苷酸可以是基因或其片段。多核苷酸可以是DNA。多核苷酸可以是RNA。多核苷酸可以具有任何三维结构，并且可以进行任何功能。多核苷酸可以包括一种或多种类似物(例如，改变的主链、糖或核碱基)。如果存在，则可以在组装聚合物之前或之后赋予对核苷酸结构的修饰。类似物的一些非限制性实例包含：5-溴尿嘧啶、肽核酸、异源核酸、吗啉代、锁核酸、甘油核酸、苏糖核酸、双脱氧核苷酸、虫草素、7-脱氮-GTP、荧光团(例如，与糖连接的罗丹明或荧光素)、含硫醇的核苷酸、生物素连接的核苷酸、荧光碱基类似物、CpG岛、甲基-7-鸟苷、甲基化核苷酸、肌苷、硫尿苷、假尿苷、二氢尿苷、辫苷和怀俄苷。多核苷酸的非限制性实例包含基因或基因片段的编码或非编码区、根据连接分析定义的多个基因座(一个基因座)、外显子、内含子、信使RNA(mRNA)、转移RNA(tRNA)、核糖体RNA(rRNA)、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微RNA(miRNA)、核酶、cDNA、重组多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的分离的DNA、包含无细胞DNA(cfDNA)和无细胞RNA(cfRNA)的无细胞多核苷酸、核酸探针和引物。核苷酸的序列可以通过非核苷酸组分而中断。

术语“转染”或“经转染的”通常指通过非病毒或基于病毒的方法将核酸引入到细胞中。核酸分子可以是编码完整蛋白或其功能部分的基因序列。参见例如Sambrook等人(1989),《分子克隆：实验室手册》,18.1-18.88。

术语“肽”、“多肽”和“蛋白质”在本文中可互换使用以通常指代至少两个通过肽键连接的氨基酸残基的聚合物。此术语不表示聚合物的具体长度，也不旨在暗示或区分肽是使用重组技术、化学或酶促合成产生的还是天然存在的。所述术语适用于天然存在的氨基酸聚合物以及包括至少一种经修饰的氨基酸的氨基酸聚合物。在一些情况下，聚合物可以间杂有非氨基酸。所述术语包含任何长度的氨基酸链，包含全长蛋白质以及具有或不具有二级和/或三级结构(例如，结构域)的蛋白质。术语还涵盖已被修饰的氨基酸聚合物；例如通过二硫键形成、糖基化、脂化、乙酰化、磷酸化、氧化和任何其它操作，如与标记组分缀合。如本文所使用的，术语“氨基酸(amino acid)”和“氨基酸(amino acids)”通常是指天然和非天然氨基酸，包含但不限于经修饰的氨基酸和氨基酸类似物。经修饰的氨基酸可以包含已被化学修饰以包含非天然存在于氨基酸上的基团或化学部分的天然氨基酸和非天然氨基酸。氨基酸类似物可以指氨基酸衍生物。术语“氨基酸”包含D-氨基酸和L-氨基酸两者。

如本文所使用的，“非天然”通常可以指在天然核酸或蛋白质中未发现的核酸或多肽序列。非天然可以指亲和标签。非天然可以指融合物。非天然可以指天然存在的包括突变、插入和/或缺失的核酸或多肽序列。非天然序列可以表现出和/或编码也可以由与非天然序列融合的核酸和/或多肽序列表现出的活性(例如，酶活性、甲基转移酶活性、乙酰转移酶活性、激酶活性、泛素化活性等)。非天然核酸或多肽序列可以通过基因工程化与天然存在的核酸或多肽序列(或其变体)连接以产生嵌合核酸和/或编码嵌合核酸和/或多肽的多肽序列。

如本文所使用的，术语“启动子”通常是指控制基因转录或表达并且可以位于与启动RNA转录的核苷酸或核苷酸区相邻或重叠的调控DNA区。启动子可以含有结合蛋白质因子(通常称为转录因子)的特定DNA序列，其促进RNA聚合酶与DNA的结合，从而导致基因转录。‘基础启动子’(也被称为‘核心启动子’)通常可以指含有促进可操作连接多核苷酸的转录表达的所有基本元件的启动子。真核基础启动子可以含有TATA盒和/或CAAT盒。

如本文所使用的，术语“表达”通常是指从DNA模板转录核酸序列或多核苷酸(如转录为mRNA或其它RNA转录物)的过程和/或随后将经转录的mRNA翻译为肽、多肽或蛋白质的过程。转录物和编码的多肽可以统称为“基因产物”。如果多核苷酸源自基因组DNA，则表达可以包含在真核细胞中剪接mRNA。

如本文所使用的，“可操作地连接”、“可操作连接”、“操作性地连接”或其语法等效物通常是指遗传元件，例如启动子、增强子、聚腺苷酸化序列等的并置，其中所述元件处于允许其以预期方式操作的关系中。例如，如果调控元件有助于启动编码序列的转录，则可以包括启动子和/或增强子序列的调控元件可操作地连接到编码区。只要维持这种功能关系，调控元件与编码区之间就可能存在插入残基。

如本文所使用的，“载体”通常是指包括多核苷酸或与多核苷酸缔合并且可以被用于介导多核苷酸到细胞的递送的大分子或大分子的缔合物。载体的实例包含质粒、病毒载体、脂质体和其它基因递送媒剂。载体通常包括遗传元件(例如调控元件)，其与基因可操作地连接以促进基因在靶标中的表达。

如本文所使用的，“表达盒”和“核酸盒”通常可互换使用以指代一起表达或可操作地连接用于表达的核酸序列或元件的组合。在一些情况下，表达盒是指调控元件和其可操作地连接用于表达的一个或多个基因的组合。

DNA或蛋白质序列的“功能片段”通常是指保留与全长DNA或蛋白质序列的生物活性基本上类似的生物活性(功能或结构)的片段。DNA序列的生物活性可能是其以归因于全长序列的已知方式影响表达的能力。

如本文所使用的，“经工程化的”对象通常表明所述对象已通过人为干预进行修饰。根据非限制性实例：核酸可以通过将其序列改变成自然界中不存在的序列来修饰；核酸可以通过将其连接到自然界中不与其缔合的核酸来修饰，使得连接产物具有原始核酸中不存在的功能；经工程化的核酸可以用自然界不存在的序列在体外合成；蛋白质可以通过将其氨基酸序列改变成自然界中不存在的序列来修饰；经工程化的蛋白质可以获取新的功能或特性。“经工程化的”系统包括至少一个经工程化的组分。

如本文所使用的，“合成的”和“人工的”可互换使用，是指与天然存在的人蛋白质具有低序列同一性(例如小于50％序列同一性、小于25％序列同一性、小于10％序列同一性、小于5％序列同一性、小于1％序列同一性)的蛋白质或其结构域。例如，VPR和VP64结构域是合成的反式激活结构域。

如本文所使用的，术语“tracrRNA”或“tracr序列”通常可以指与野生型示例性tracrRNA序列(例如，来自化脓性链球菌(S.pyogenes)、金黄色葡萄球菌(S.aureus)等的tracrRNA或SEQ ID NO:5476-5511)具有至少约5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、95％或100％序列同一性和/或序列相似性的核酸。tracrRNA可以指与野生型示例性tracrRNA序列(例如来自化脓性链球菌、金黄色葡萄球菌等的tracrRNA)具有至多约5％、10％、20％、30％、40％、50％、60％、70％、80％、90％或100％序列同一性和/或序列相似性的核酸。tracrRNA可以指tracrRNA的经修饰的形式，其可以包括核苷酸改变，如缺失、插入或取代、变体、突变或嵌合体。tracrRNA可以是指在一段至少6个连续核苷酸上与野生示例性tracrRNA序列(例如，来自酿脓链球菌、金黄色葡萄球菌等的tracrRNA)至少约60％相同的核酸。例如，tracrRNA序列可以在一段至少6个连续核苷酸上与野生型示例性tracrRNA(例如，来自酿脓链球菌、金黄色葡萄球菌等的tracrRNA)序列至少约60％相同、至少约65％相同、至少约70％相同、至少约75％相同、至少约80％相同、至少约85％相同、至少约90％相同、至少约95％相同、至少约98％相同、至少约99％相同或100％相同。通过鉴定与相邻CRISPR阵列中部分重复序列互补的区域，可以在基因组序列上预测II型tracrRNA序列。

如本文所使用的，“向导核酸”通常可以指可以与另一个核酸杂交的核酸。向导核酸可以是RNA。向导核酸可以是DNA。向导核酸可以被编程成与核酸序列位点特异性结合。要靶向的核酸或靶核酸可以包括核苷酸。向导核酸可以包括核苷酸。靶核酸的一部分可以与向导核酸的一部分互补。与向导核酸互补并杂交的双链靶多核苷酸的链可以被称为互补链。双链靶多核苷酸的与互补链互补并且因此可能不与向导核酸互补的链可以被称为非互补链。与向导核酸互补并杂交的单链靶多核苷酸的链可以被称为互补链。向导核酸可以包括多核苷酸链，并且可以被称为“单向导核酸”。向导核酸可以包括两条多核苷酸链，并且可以称为“双向导核酸”。如果没有另外说明，则术语“向导核酸”可以是包含性的，是指单向导核酸和双向导核酸两者。向导核酸可以包括可以被称为“核酸靶向区段”或“核酸靶向序列”的区段。核酸靶向区段可以包括子区段，所述子区段可以被称为“蛋白质结合区段”或“蛋白质结合序列”。

在两个或更多个核酸或多肽序列的上下文中，术语“序列同一性”或“百分比同一性”通常是指当在局部或全局比较窗内进行比较和比对以获得最大对应性时，两个(例如，在成对比对中)或更多个(例如，在多序列比对中)序列相同或具有相同特定百分比的氨基酸残基或核苷酸，如使用序列比较算法测量的。用于多肽序列的合适的序列比较算法包含例如使用字长(W)为3、期望值I为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在11，扩展1并且使用长于30个残基的多肽序列的条件组成评分矩阵调整的BLASTP；使用字长(W)为2、期望值(E)为1000000的参数以及PAM30评分矩阵(对于少于30个残基的序列，将空位罚分设置为9来打开空隙，并且设置为1来扩展空隙)(这些是BLAST套件中BLASTP的默认参数，可在https://blast.ncbi.nlm.nih.gov获得)的BLASTP；具有参数的CLUSTALW；具有以下参数的史密斯-沃特曼同源性搜索算法：匹配为2、失配为-1并且空隙为-1；具有默认参数的MUSCLE；具有以下参数的MAFFT：retree为2并且maxiterations为1000；具有默认参数的Novafold；具有默认参数的HMMER hmmalign。

本公开包含本文所描述的具有一个或多个保守氨基酸取代的酶中的任何酶的变体。此类保守取代可以在多肽的氨基酸序列中进行，而不破坏多肽的三维结构或功能。保守取代可以通过具有类似疏水性、极性和R链长度的氨基酸彼此取代来完成。另外地或可替代地，通过比较来自不同物种的同源蛋白质的比对序列，可以通过在不改变经编码的蛋白质的基本功能的情况下定位物种(例如，非保守残基)之间突变的氨基酸残基来鉴定保守取代。此类经保守取代的变体可以包含与本文描述的核酸内切酶蛋白质序列中的任何一个核酸内切酶蛋白质序列(例如，本文所描述的MG103或MG105家族核酸内切酶)具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％序列同一性的变体。在一些实施例中，此类保守取代的变体是功能变体。此类功能变体可以涵盖具有取代的序列，使得核酸内切酶的关键活性位点残基的活性不被破坏。在一些实施例中，本文所描述的蛋白质中的任何蛋白质的功能变体缺乏对图1或2中所示的保守或功能残基中的至少一个的取代。在一些实施例中，本文所描述的蛋白质中的任何蛋白质的功能变体缺乏对图1或2中所示的所有保守或功能残基的取代。

提供功能类似氨基酸的保守取代表可从各种参考文献中获得(参见例如Creighton,《蛋白质：结构与分子特性(Proteins:Structures and MolecularProperties)》(W H弗里曼出版社(W H Freeman&Co.)；第2版(1993年12月)))。以下八个基团各自含有彼此保守取代的氨基酸：

1)丙氨酸(A)、甘氨酸(G)；

2)天冬氨酸(D)、谷氨酸(E)；

3)天冬酰胺(N)、谷氨酰胺(Q)；

4)精氨酸(R)、赖氨酸(K)；

5)异亮氨酸(I)、亮氨酸(L)、甲硫氨酸(M)、缬氨酸(V)；

6)苯丙氨酸(F)、酪氨酸(Y)、色氨酸(W)；

7)丝氨酸(S)、苏氨酸(T)；以及

8)半胱氨酸(C)、甲硫氨酸(M)

如本文所使用的，术语“HEPN结构域”通常是指具有特征性组氨酸和精氨酸残基的核酸内切酶结构域。HEPN结构域通常可以通过与记录的结构域序列比对、与具有注释结构域的蛋白质的结构比对或通过与基于已知结构域序列构建的隐马尔可夫模型(HiddenMarkov Model，HMM)(例如，结构域HEPN的Pfam HMM PF05168)进行比较来鉴定。

如本文所使用的，术语“原间隔子侧接位点(PFS)”通常是指与影响核酸酶活性的靶RNA原间隔子相邻的序列基序。PFS通常存在于RNA原间隔子的一端处。本文所描述的核酸酶在PFS位置处可以具有或可以不具有序列偏好。在一些情况下，PFS对核酸酶活性具有积极影响。在一些情况下，本文中的任何靶向的核酸序列可以包括与靶核酸位点相邻的PFS序列。在一些情况下，本文中的任何靶向的核酸序列可以包括靶核酸位点3'处的PFS序列。在一些情况下，PFS对核酸酶活性具有消极影响。在一些情况下，本文中的任何靶向的核酸序列可能缺乏与靶核酸位点相邻的PFS序列。在一些情况下，本文中的任何靶向的核酸序列可能缺乏靶核酸位点3'处的PFS序列。

本公开中包含包括本文所描述的核酸内切酶中的任一种的杂交、嵌合或融合蛋白变体。此类杂交、嵌合或融合蛋白变体可以包括：(i)本文所描述的核酸内切酶中的任一种；(ii)与核酸内切酶的N末端或C末端融合的另外的蛋白质结构域；以及(iii)核酸内切酶与另外的蛋白质结构域之间的任选的接头结构域。在一些情况下，另外的蛋白质结构域是与核酸内切酶异源的结构域。根据本公开的杂交、嵌合或融合蛋白变体中含有的另外的蛋白质结构域可以包含连接酶结构域、修复蛋白结构域、甲基转移酶结构域、重组酶结构域、转座酶结构域、argonaute结构域、胞苷脱氨酶结构域、腺嘌呤脱氨酶结构域、双链RNA特异性腺苷脱氨酶(ADAR)结构域、反转录子、II组内含子、磷酸酶结构域、磷酸化酶结构域、硫酸化酶结构域、激酶结构域、聚合酶结构域、核酸外切酶结构域、解旋酶结构域、脱甲基酶结构域、翻译共激活因子结构域、RNA聚合酶结构域、报告基因蛋白结构域、荧光蛋白结构域、配体结合蛋白结构域、信号肽结构域、亚细胞定位序列或抗体表位。

概述

具有独特功能和结构的新Cas酶的发现可能会提供进一步破坏脱氧核糖核酸(DNA)编辑技术的可能性，从而提高速度、特异性、功能和易用性。相对于微生物中成簇的规则间隔的短回文重复序列(CRISPR)系统的预测流行率和微生物物种的纯粹多样性，文献中存在功能表征的CRISPR/Cas酶相对较少。这部分是因为大量的微生物物种可能不容易在实验室条件下培养。对表示大量微生物物种的自然环境生态位进行宏基因组测序可能会提供大幅增加记录的新CRISPR/Cas系统的数量，并且加速新寡核苷酸编辑功能的发现的可能性。这种方法富有成效的最近的实例通过2016年通过对天然微生物群落的宏基因组分析发现CasX/CasY CRISPR系统证明。

CRISPR/Cas系统是RNA引导的核酸酶复合物，其已描述为在微生物中充当适应性免疫系统。在CRISPR/Cas系统的自然环境中，所述CRISPR/Cas系统出现在CRISPR(成簇的规则间隔的短回文重复序列)操纵子或基因座中，其通常包括两部分：(i)由同样短的间隔子序列分隔的短重复序列阵列(30-40bp)，其编码基于RNA的靶向元件；以及(ii)编码Cas的ORF，所述Cas编码由基于RNA的靶向元件以及辅助蛋白/酶引导的核酸酶多肽。特定靶核酸序列的高效核酸酶靶向通常需要以下两者：(i)靶标(靶种子)的前6-8个核酸与crRNA向导之间的互补杂交；以及(ii)靶种子的定义附近内存在原间隔子邻近基序(PAM)序列(PAM通常是宿主基因组内不常表示的序列)。根据系统的确切功能和组织，CRISPR-Cas系统通常基于共享的功能特性和进化类似性分为2种类别、5种类型和16种亚型。在一些情况下，特定靶核酸序列的高效核酸酶靶向可能需要以下两者：(i)靶标(靶种子)的前6-8个核酸与crRNA向导之间的互补杂交；以及(ii)靶种子的定义附近内存在原间隔子侧接位点。在一些情况下，特定靶核酸序列的高效核酸酶靶向可能需要以下两者：(i)靶标(靶种子)的前6-8个核酸与crRNA向导之间的互补杂交；以及(ii)靶种子的定义附近内不存在原间隔子侧接位点。

I类CRISPR-Cas系统具有大的多亚基效应子复合物，并且包括I、III和IV型。

I型CRISPR-Cas系统在组分方面被认为具有中等复杂性。在I型CRISPR-Cas系统中，RNA靶向元件阵列被转录为长前体crRNA(pre-crRNA)，所述pre-crRNA在重复元件处进行处理以释放出短的成熟crRNA，当它们后面跟着称为原间隔子邻近基序(PAM)的合适的短共有序列时，所述短的成熟crRNA将核酸酶复合物引导到核酸靶标。这种处理是通过称为级联的大的核酸内切酶复合物的内切核糖核酸酶亚基(Cas6)进行的，所述核酸内切酶复合物还包括crRNA引导的核酸酶复合物的核酸酶(Cas3)蛋白组分。Cas I核酸酶主要充当DNA核酸酶。

III型CRISPR系统的特征可能在于存在称为Cas10的中心核酸酶以及包括Csm或Cmr蛋白亚基的重复相关神秘蛋白(RAMP)。与在I型系统中一样，使用Cas6样酶由pre-crRNA处理成熟的crRNA。与I型和II型系统不同，III型系统似乎靶向并切割DNA-RNA双链体(如用作RNA聚合酶模板的DNA链)。

IV型CRISPR-Cas系统具有效应子复合物，其包括高度还原的大亚基核酸酶(csf1)、Cas5(csf3)和Cas7(csf2)组的RAMP蛋白的两个基因以及在一些情况下预测的小亚基的基因；此类系统通常可见于内源性质粒上。

II类CRISPR-Cas系统通常具有单多肽多结构域核酸酶效应子，并且包括II型、V型和VI型。

II型CRISPR-Cas系统在组分方面被认为是最简单的。在II型CRISPR-Cas系统中，将CRISPR阵列处理成成熟的crRNA不需要存在特殊的核酸内切酶亚基，而是需要小的反式编码的crRNA(tracrRNA)，其区域与阵列重复序列互补；tracrRNA与其对应的效应子核酸酶(例如Cas9)和重复序列相互作用以形成前体dsRNA结构，所述前体dsRNA结构被内源性RNA酶III切割，从而生成负载tracrRNA和crRNA两者的成熟的效应子酶。Cas II核酸酶被称为DNA核酸酶。2型效应子通常表现出包括RuvC样核酸内切酶结构域的结构，所述RuvC样核酸内切酶结构域采用RNA酶H折叠，其中RuvC样核酸酶结构域的所述折叠内插入有不相关的HNH核酸酶结构域。RuvC样结构域负责靶(例如，crRNA互补)DNA链的切割，而HNH结构域负责置换的DNA链的切割。

V型CRISPR-Cas系统的特征在于与包括RuvC样结构域的II型效应子的结构类似的核酸酶效应子(例如Cas12)结构。类似于II型，大多数(但不是全部)V型CRISPR系统使用tracrRNA将pre-crRNA处理成成熟的crRNA；然而，与需要RNA酶III将pre-crRNA切割成多个crRNA的II型系统不同，V型系统能够使用效应子核酸酶本身来切割pre-crRNA。与II型CRISPR-Cas系统一样，V型CRISPR-Cas系统再次被称为DNA核酸酶。与II型CRISPR-Cas系统不同，一些V型酶(例如Cas12a)似乎具有强大的由双链靶序列的第一个crRNA定向切割激活的单链非特异性脱氧核糖核酸酶活性。

VI型CRIPSR-Cas系统具有RNA引导的RNA核酸内切酶。VI型系统(例如Cas13)的单个多肽效应子包括两个HEPN核糖核酸酶结构域，而不是RuvC样结构域。与II型和V型系统两者不同，VI型系统可能不需要tracrRNA来将pre-crRNA处理成crRNA。然而，类似于V型系统，一些VI型系统(例如C2C2)似乎具有强大的由靶RNA的第一个crRNA定向切割激活的单链非特异性核酸酶(核糖核酸酶)活性。VI型CRISPR-Cas系统可以或可以不另外具有影响核酸酶活性的原间隔子侧接位点(PFS)的要求。

MG酶

VI型CRISPR系统正快速用于各种基因组编辑应用中。这些可编程核酸酶是适应性微生物免疫系统的一部分，其天然多样性在很大程度上尚未被探索。通过对从各种复杂环境中收集的宏基因组进行大规模分析来鉴定VI型CRISPR酶的新家族，并将这些系统的代表开发到基因编辑平台中。这些系统中的大多数来自未经培养的生物体，其中一些编码同一CRISPR操纵子内的发散VI型效应子。

在一些方面，本公开提供了VI型候选者。这些候选者可以表示一种或多种新型亚型，并且可能已经鉴定出一些亚家族。这些核酸酶的长度为小于约1,000个氨基酸。这些新型亚型可以存在于与记录的VI型效应子相同的CRISPR基因座中。HEPN催化残基可能已经鉴定为新型VI型候选者，并且这些新型VI型候选者可能不需要tracrRNA。

在一些方面，本公开提供了较小的VI型效应子。此类效应子可以是小的推定效应子。这些效应子可以简化递送并且可以延伸治疗性应用。

在一些方面，本公开提供了新型VI型效应子。此类效应子可以是如本文所描述的MG103(参见图1)。此类效应子可以是如本文所描述的MG105(参见图2)。

一方面，本公开提供了一种通过宏基因组测序发现的经工程化的核酸酶系统。在一些情况下，对样品进行宏基因组测序。在一些情况下，可以通过各种环境中收集样品。此类环境可以是人微生物组、动物微生物组、高温环境、低温环境。此类环境可以包含沉积物。

MG103酶

一方面，本公开提供了一种经工程化的核酸酶系统，所述经工程化的核酸酶系统包括核酸内切酶。在一些情况下，所述核酸内切酶是II型VI类核酸内切酶。所述核酸内切酶可以包括第一HEPN结构域。所述核酸内切酶可以包括第二HEPN结构域。所述核酸内切酶可以包括第一HEPN结构域和第二HEPN结构域。

在一些情况下，所述核酸内切酶可以包括变体，所述变体与SEQ ID NO:3-15和62-84中的任一者具有至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性。在一些情况下，所述核酸内切酶可以与SEQ ID NO:3-15和62-84中的任一者基本上相同。在一些情况下，所述核酸内切酶可以包括与SEQ ID NO:3-15和62-84中的任一者基本上相同的肽基序。

在一些情况下，所述核酸内切酶可以包括具有一个或多个核定位序列(NLS)的变体。NLS可以接近所述核酸内切酶的N末端或C末端。所述NLS可以被附加到以下的N末端或C末端：SEQ ID NO:3-15和62-84中的任一者，或者与SEQ ID NO:3-15和62-84中的任一者具有至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性的变体。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可以包括与SEQ ID NO:155-170中的任一者具有至少约80％、至少约85％、至少约90％、至少约95％、至少约99％同一性的序列。NLS可以包括与SEQ ID NO:155-170中的任一者基本上相同的序列。NLS可以包括下表1中的序列中的任一者或其组合：

表1：可以与根据本公开的效应子一起使用的示例NLS序列

在一些情况下，序列同一性可以通过BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold，或具有史密斯-沃特曼同源性搜索算法参数的CLUSTALW来测定。可以通过所述BLASTP算法使用字长(W)为3、期望值(E)为10的参数并且使用BLOSUM62评分矩阵将空位罚分设置为存在为11，扩展为1并且使用条件组成评分矩阵调整来确定序列同一性。

在一些情况下，上述系统可以包括至少一种经工程化的合成向导核糖核酸(sgRNA)，其能够与核酸内切酶形成复合物，所述核酸内切酶带有与切割序列互补的靶向区。在一些情况下，靶向区定位于sgRNA的5'端处。在一些情况下，靶向区定位于sgRNA的3'端处。在一些情况下，切割序列可以包括与核酸内切酶兼容的原间隔子侧接位点(PFS)序列。在一些情况下，切割序列可以不包括与核酸内切酶兼容的原间隔子侧接位点(PFS)序列。在一些情况下，靶向区的长度可以为18-30个核苷酸。sgRNA可以包括与靶向区相邻并且能够结合核酸内切酶的crRNA重复区。sgRNA可以包括能够与细胞中的靶序列杂交的非天然向导核酸序列。

在一些情况下，上述系统可以包括靶向第一区和第二区以在靶RNA基因座中切割的两个不同的sgRNA，其中所述第二区位于所述第一区的3'。在一些情况下，上述系统可以包括单链RNA修复模板，所述模板从5'至3'包括：第一同源臂，其包括位于第一区5'的至少约20个(例如至少约40个、80个、120个、150个、200个、300个、500个或1kb)核苷酸的序列、至少约10个核苷酸的合成RNA序列；以及第二同源臂，其包括位于第二区3'的至少约20个(例如至少约40个、80个、120个、150个、200个、300个、500个或1kb)核苷酸的序列。

另一方面，本公开提供了一种用于修饰靶核酸基因座的方法。所述方法可以包括向靶核酸基因座递送本文所公开的非天然系统中的任何非天然系统，包含本文所公开的酶和至少一种合成向导RNA(sgRNA)。所述酶可以与至少一种sgRNA形成复合物，并且在复合物与靶核酸基因座结合时，可以修饰靶核酸基因座。将酶递送到所述基因座可以包括用系统或编码系统的核酸转染细胞。将核酸酶递送到所述基因座可以包括用系统或编码系统的核酸电穿孔细胞。将核酸酶递送到所述基因座可以包括在缓冲液中将系统与包括所关注的基因座的核酸一起温育。在一些情况下，靶核酸基因座包括脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可以包括基因组DNA、基因组RNA、病毒DNA、病毒RNA、细菌DNA或细菌RNA。靶核酸基因座可以位于细胞内。靶核酸基因座可以在体外。靶核酸基因座可以位于真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古菌细胞或植物细胞。所述酶可以在所关注的靶基因座处或附近诱导单链或双链断裂。

在靶核酸基因座可以位于细胞内的情况下，所述酶可以作为含有开放阅读框的核酸来提供，所述开放阅读框编码具有HEPN结构域的酶，所述HEPN结构域与SEQ ID NO:3-15和62-84中的任一者具有至少约75％(例如至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％)同一性。含有编码所述核酸内切酶的开放阅读框的脱氧核糖核酸(DNA)可以包括与SEQ ID NO:3-15和62-84中的任一者基本上相同的序列或与SEQ ID NO:3-15和62-84中的任一者具有至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性的变体。在一些情况下，所述核酸包括编码所述核酸内切酶的所述开放阅读框可操作地连接的启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为经翻译的多肽来供应。所述至少一种经工程化的sgRNA可以作为脱氧核糖核酸(DNA)来供应，所述DNA含有编码与核糖核酸(RNA)pol III启动子可操作地连接的所述至少一种经工程化的sgRNA的基因序列。在一些情况下，生物体可以是真核生物。在一些情况下，生物体可以是真菌。在一些情况下，生物体可以是人。

在一些情况下，本公开可以提供一种表达盒，所述表达盒包括本文所描述的系统或本文所描述的核酸。在一些情况下，表达盒或核酸可以作为载体来供应。在一些情况下，表达盒、核酸或载体可以在细胞中供应。

MG105酶

在一些情况下，所述核酸内切酶可以包括变体，所述变体与SEQ ID NO:1-2中的任一者具有至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性。在一些情况下，所述核酸内切酶可以与SEQ ID NO:1-2中的任一者基本上相同。在一些情况下，所述核酸内切酶可以包括与SEQ ID NO:1-2中的任一者基本上相同的肽基序。

在一些情况下，所述核酸内切酶可以包括具有一个或多个核定位序列(NLS)的变体。NLS可以接近所述核酸内切酶的N末端或C末端。所述NLS可以被附加到以下的N末端或C末端：SEQ ID NO:1-2中的任一者，或者与SEQ ID NO:1-2中的任一者具有至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性的变体。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可以包括与SEQ ID NO:155-170中的任一者具有至少约80％、至少约85％、至少约90％、至少约95％、至少约99％同一性的序列。NLS可以包括与SEQ ID NO:155-170中的任一者基本上相同的序列。NLS可以包括表1中的序列中的任一者或其组合。

在靶核酸基因座可以位于细胞内的情况下，所述酶可以作为含有开放阅读框的核酸来提供，所述开放阅读框编码具有HEPN结构域的酶，所述HEPN结构域与SEQ ID NO:1-2中的任一者具有至少约75％(例如至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％)同一性。含有编码所述核酸内切酶的开放阅读框的脱氧核糖核酸(DNA)可以包括与SEQ ID NO:1-2中的任一者基本上相同的序列或者与SEQ ID NO:1-2中的任一者具有至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性的变体。在一些情况下，所述核酸包括编码所述核酸内切酶的所述开放阅读框可操作地连接的启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为经翻译的多肽来供应。所述至少一种经工程化的sgRNA可以作为脱氧核糖核酸(DNA)来供应，所述DNA含有编码与核糖核酸(RNA)polIII启动子可操作地连接的所述至少一种经工程化的sgRNA的基因序列。在一些情况下，生物体可以是真核生物。在一些情况下，生物体可以是真菌。在一些情况下，生物体可以是人。

本公开的系统可以用于各种应用，例如核酸编辑(例如基因编辑)、与核酸分子结合(例如序列特异性结合)。此类系统可以用于例如解决(例如，去除或替代)可能引起受试者的疾病的遗传突变，使基因灭活以便确定其在细胞中的功能，作为检测致病遗传元件的诊断工具(例如通过切割逆转录病毒RNA或编码致病突变的扩增DNA序列)，作为灭活酶与探针结合以靶向和检测特定核苷酸序列(例如编码细菌抗生素抗性的序列)，通过靶向病毒基因组使病毒灭活或无法感染宿主细胞，添加基因或修改代谢途径来对生物体进行工程化以产生有价值的小分子、大分子或次级代谢物，建立用于进化选择的基因驱动元件，作为生物传感器检测外来小分子和核苷酸对细胞的干扰。

实例

根据IUPAC惯例，在各个实例中使用以下缩写：

A＝腺嘌呤

C＝胞嘧啶

G＝鸟嘌呤

T＝胸腺嘧啶

R＝腺嘌呤或鸟嘌呤

Y＝胞嘧啶或胸腺嘧啶

S＝鸟嘌呤或胞嘧啶

W＝腺嘌呤或胸腺嘧啶

K＝鸟嘌呤或胸腺嘧啶

M＝腺嘌呤或胞嘧啶

B＝C、G或T

D＝A、G或T

H＝A、C或T

V＝A、C或G

实例1-新蛋白质的宏基因组分析

从沉积物、土壤和动物收集宏基因组样品。用Zymobiomics DNA微量制备型试剂盒提取脱氧核糖核酸(DNA)并在因美纳公司(Illumina)2500上测序。在产权所有者同意的情况下收集样品。来自公共来源的另外的原始序列数据包含动物微生物组、沉积物、土壤、温泉、深海热泉、海洋、泥炭沼泽、永久冻土和污水序列。使用基于包含VI型Cas效应子蛋白的记录的Cas蛋白质序列产生的隐马尔可夫模型搜索宏基因组序列数据以鉴定新的效应子。通过搜索鉴定的新型效应子蛋白与记录的蛋白质对比以鉴定潜在的活性位点。此宏基因组工作流程产生了本文所描述的II类VI型CRISPR核酸内切酶的MG103和MG105家族的描绘。

实例2-CRISPR系统的MG103和MG105家族的发现

对来自实例1的宏基因组分析的数据的分析揭示了包括2个家族(MG103和MG105)的未描述的推定转座酶系统的新簇。这些新酶和其示例亚结构域的对应蛋白质序列如SEQID NO:1-15和62-84所呈现。

实例3-用于转录和翻译的模板DNA(预示性)

在具有T7启动子和C末端His标签的质粒中排序有所有MG VI型核酸酶的大肠杆菌密码子优化的序列(特维斯特生物科学公司(Twist Biosciences))。通过PCR从质粒扩增线性模板以包含T7和核酸酶序列。从引物对扩增crRNA以包含用于体外转录(集成DNA技术公司(Integrated DNATechnologies))的T7启动子、30nt或20nt间隔子和36nt重复序列(DR)或反向补体重复序列(DR-RC)。类似地，ssRNA靶标作为引物对排序，其中正向引物含有T7启动子和原间隔子序列。反向引物含有15nt互补原间隔子序列以与正向引物和ssRNA靶序列的其余32nt重叠。

实例4-用于靶向大肠杆菌中的TetA的PFS测定分析的克隆(预示性)

MGR1-1从具有20nt重叠突出端的扭转质粒主链(AmpR)扩增，以用于将Gibson组装到pMGHX(N末端6xHis、MBP、NLS和C末端NLS)。将0.02pmol的主链和0.04pmol的MGR1-1ORFPCR模板用HiFi DNA组装主混合物(新英格兰生物实验室公司(NewEngland Biolabs Inc.))在50℃下组装15分钟。/>

然后将具有18nt重叠突出端的TetA基因克隆到pMGHX-MGR1-1质粒中。将0.015pmol的主链和0.03pmol的TetA PCR模板用HiFi DNA组装主混合物(新英格兰生物实验室公司)组装。将所有组合件转化到/>5-α感受态大肠杆菌(高效)中，并通过桑格测序(以琳生物医药公司(Elim Biopharm,Inc.))进行确认。

在两个操作中组装TetA间隔子文库质粒。首先，将含有BsaI着陆位点的ssDNA超聚体在45℃下以1:1的主链与插入物摩尔比克隆到pTCM(CmR)中，持续1小时，所述BsaI着陆位点包含具有两个36nt MGR1-1重复序列、两个BsaI位点、T7启动子和18nt gibson突出端的120nt序列，。通过电穿孔将组合件转化到Endura^TM电感受态细胞(卢西根公司(Lucigen))中，并通过桑格测序(以琳生物医药公司)进行确认。其次，用1μM反向引物、0.1U/μlKelnow、200nM dNTP和1X NEB 2.1使1μM具有侧接BsaI位点的200寡核苷酸间隔子文库(集成DNA技术公司)双链化。用0.2mM EDTA在75℃下对反应进行热灭活，持续20分钟。所述文库由随机平铺Tet mRNA的170个靶向和30个非靶向30nt间隔子构成。将此文库在37℃下以2:1的插入物与主链摩尔比通过金门组装(Golden Gate Assembly)组装到pTCM-BsaI-着陆主链中，持续1小时，然后在60℃下，持续5分钟。将pTCM-TetA-间隔子-文库转化到稳定的感受态大肠杆菌(新英格兰生物实验室公司)中，其中覆盖率>2000倍，从75mL混合的菌落的培养物Midiprep(ZymoPURE II质粒Midiprep试剂盒)，并通过桑格测序(以琳生物医药公司)进行确认。

实例5-靶向大肠杆菌中的TetA的PFS测定分析(预示性)

将上述核酸酶和间隔子文库质粒转化到NEB BL21(DE3)感受态细胞中，然后平板接种在具有下述三种不同条件的LB板上：1)具有氨苄青霉素、四环素和氯霉素的LB琼脂板，其允许具有两种质粒的所有转化子生长(阳性对照)。2)具有氨苄西林、氯霉素、IPTG、脱水四环素和镰刀菌酸的LB琼脂板。镰刀菌酸的添加选择抗tetA基因的表达，而脱水四环素诱导tetA表达。因此，敲低tetA产生的细胞有利于生长，这是通过核酸酶和正确的crRNA(选择条件)成功靶向tetA来实现的。3)具有氨苄西林、氯霉素、脱水四环素和镰刀菌酸的LB琼脂板。镰刀菌酸的添加选择抗tetA基因的表达，而脱水四环素诱导tetA表达。在这种情况下，由于不存在IPTG，核酸酶的表达受到抑制，并且所有细胞生长都可能被镰刀菌酸抑制(阴性对照)。选择条件下的所有菌落都被刮除并进行微型制备。对间隔子进行PCR扩增，添加illumina引物，并且然后进行NGS测序。所得测序数据使得能够鉴定成功靶向tetA的富集的间隔子序列。

实例6-crRNA和ssRNA靶标的体外转录和标记(预示性)

使用HiScribe^TMT7高产率RNA合成试剂盒通过体外转录产生RNA。ssRNA靶标以两种方式标记以产生两种交替的经标记的底物。在体外转录反应中，用2.5mM荧光素-12-UTP(美国西格玛奥德里奇公司(Sigma Aldrich US))对其进行体标记。单独的反应也用荧光素马来酰亚胺和5'端标记DNA/RNA标记试剂盒(载体实验室(Vector Laboratories))进行5'端标记。将RNA用DNA酶I处理，在37℃下温育15分钟，并使用RNA Cleanup试剂盒(新英格兰生物实验室公司)纯化。通过RNATapestation或通过变性脲PAGE凝胶验证所有转录产物的产率和纯度。

实例7-TXTL表达(预示性)

使用Sigma 70主混合物试剂盒(Arbor生物科学公司(ArborBiosciences))在转录-翻译反应混合物中表达核酸酶。最终的反应混合物含有5nM核酸酶DNA模板、0.1nM pTXTL-P70a-T7rnap和1X/>Sigma 70主混合物。将反应在29℃下温育16小时，然后储存在4℃下。

实例8-PURExpress表达(预示性)

将5nM的核酸酶PCR模板用体外蛋白质合成试剂盒(新英格兰生物实验室公司)在37℃下表达3小时以用经体外转录的RNA进行切割。这些反应用于按照与如切割反应部分中所描述的程序相同的程序测试体外切割。

实例9-大肠杆菌表达和纯化(预示性)

将质粒转化到BL21(DE3)感受态大肠杆菌((新英格兰生物实验室公司)中，并接种到Luria肉汤培养基中以用于过夜菌种培养物。然后过夜培养物用于接种500ml MagicMedia(赛默飞公司(Thermo))表达培养基，并遵循制造商的方案表达蛋白质。将细胞采集并在pH 7.5下在20mM Tris(Sigma T2319-100ML)、300mM氯化钠(VWR VWRVE529-500ML)、5％甘油、10mM MgCl2和10mM咪唑(Sigma 68268-100ML-F)以及Pierce EDTA游离蛋白酶抑制剂混合物(Fisher PIA32965)中进行超声裂解。在Akta FPLC上用5ml HisTrap FF柱通过镍亲和色谱法纯化经澄清的裂解物。最终的蛋白质储存缓冲液包括50mM Tris-HCl、300mMNaCl、10mM MgCl2、5％甘油；pH值为7.5。

实例10-顺式切割反应(预示性)

使用TXTL表达

通过将100-250nM体标记的ssRNA靶标、5倍稀释的TXTL表达和100-500nM crRNA在10mM TrisHCl pH 7.5、50mM NaCl、0.5mM MgCl2、1U/μL鼠类RNA酶抑制剂(新英格兰生物实验室公司)和0.1％ BSA中在37℃下温育30分钟来进行ssRNA切割反应。每个反应在37℃下用0.8U蛋白酶K(新英格兰生物实验室公司)猝灭15分钟，然后混合等份的RNA上样染料，在95℃下变性5分钟，并且然后在冰上冷却2分钟。通过在15％PAGE TBE-脲凝胶上进行变性凝胶电泳来分析切割产物。

使用PURExpress表达

将500nM crRNA和5倍稀释的PURExpressed核酸酶在37℃下温育15分钟。在37℃下预温育crRNA和核酸酶之后，将250nM ssRNA靶标在pH7.5的10mM TrisHCl、50mM NaCl、0.5mM MgCl2、1U/μL鼠类RNase抑制剂(新英格兰生物实验室公司)和0.1％ BSA在37℃下进行30-60分钟。每个反应在37℃下用0.8U蛋白酶K(新英格兰生物实验室公司)猝灭15分钟，然后混合等份RNA上样染料，在95℃下变性5分钟，然后在冰上冷却2分钟。如上文所描述地分析产品。

使用IMAC纯化的核酸酶

将400nM crRNA和400nM纯化的核酸酶在37℃下温育15分钟。在37℃下预温育crRNA和核酸酶之后，将200nM ssRNA(5'端标记或体标记的RNA)靶标于50mM NaCl、10mMTris-HCl、10mM MgCl2、100μg/ml BSA pH 7.9和1U/μL鼠类RNase抑制剂(新英格兰生物实验室公司)中在37℃下进行30-60分钟。每个反应在37℃下用0.8U蛋白酶K(新英格兰生物实验室公司)猝灭15分钟，然后混合等份RNA上样染料，在95℃下变性5分钟，然后在冰上冷却2分钟。如上文所描述地分析产品。

由这些核酸酶进行的crRNA介导的ssRNA切割可产生多种产物，其模式取决于RNA靶标的结构和序列。相对于未经切割的，阳性切割也降低了66nt ssRNA靶标的信号。

实例11-通过GFP报告基因靶向的PURExpress活性(预示性)

将5nM的核酸酶PCR模板用体外蛋白质合成试剂盒(新英格兰生物实验室公司)在37℃下表达30分钟。在30分钟后，将反应分离并针对GFP补充50-100nM经体外转录的RNA和mRNA。在荧光读板器(Synergy HTX)中以384孔形式进行荧光检测。相对活性通过在存在靶向与非靶向间隔子的情况下的荧光减少来检测。还可以通过添加非荧光靶向的基因(例如，DHFR)来修改此测定以报告反式切割活性(而不是顺式和反式切割活性的组合)。在这种情况下，如果反式切割被非荧光基因的正确靶向激活，就会出现GFP减少。

实例12-哺乳动物细胞中的RNA切割(预示性)

构建一种报告基因HEK293T细胞系，所述细胞系表达具有C端PEST标签的增强的GFP(eGFP)，以促进在人磷酸甘油酸激酶1启动子(hPGK)下的蛋白质不稳定性(ueGFP)。将VI型核酸酶候选者用人密码子优化，并在EF1a启动子下克隆到慢病毒载体中。将VI型核酸酶的gRNA在U6启动子下克隆到单独的慢病毒载体中。用VI型核酸酶和gRNA两者成功转导的细胞通过用1μg/mL嘌呤霉素和5μg/mL杀稻瘟菌素进行3天的双重选择来选择。通过流式细胞术分析GFP信号。使用mirVANA RNA提取试剂盒提取GFP mRNA，并使用qPCR进行定量。当通过流式细胞术和qPCR定量时，成功的VI型候选者示出了>50％的GFP信号损失。

实例13-MG103家族中核酸酶的发现和表征

MG103家族中新型紧凑2类VI型核酸酶的计算机模拟鉴定

使用hmmsearch(http://hmmer.org/)在广泛的经组装的微生物、真核生物和病毒基因组的数据库中搜索了VI型核酸酶。使用MMseqs2(易簇-cov-模式1-c 0.8；《自然生物技术(Nature Biotechnology)》2017,35(11),1026-1028)以99％的氨基酸同一性(AAI)复制了VI型同源物以去除冗余。在复制后，将1,283个cas13蛋白和205个参考序列与MAFFT(mafft-大的-全球配对；《分子生物学与进化(Molecular Biology and Evolution)》2013,30(4),772-780)进行全球比对，并使用具有默认参数的FastTree(《公共科学图书馆·综合(PloS One)》2010,5(3),e9490)构建系统发育树。鉴于存在已知参考文献，基于树的拓扑结构鉴定了新型VI型核酸酶(图3，SEQ ID NO:62-84)。

通过GFP荧光测定证明的体外RNA核酸酶活性

用于2类VI型系统体外转录和翻译的DNA模板

最小阵列eBlock被设计成具有T7启动子、一个36bp重复序列、一个靶向deGFPmRNA的30bp间隔子，随后是第二相同的重复序列和一个21bp引物结合位点(IDT)(SEQ IDNO:18-61)。为了将序列长度延长至300bp，最小阵列在T7启动子上游携带了另外的159bp5'端序列。在第二种设计中，最小阵列中的重复序列取向相反。在第三种设计中，包含了不靶向deGFP mRNA的间隔子序列。第四种设计携带与101nt激活因子RNA底物互补的30bp间隔子序列。

大肠杆菌密码子优化的核酸酶质粒从特维斯特生物科学公司获得。线性核酸酶模板和最小阵列模板通过PCR进行了扩增、清洗、用HighPrep^TMPCR纯化系统(MagBio基因组学公司(MagBioGenomics)进行了浓缩，并在10mM Tris HCl pH 8.0中进行了洗脱。通过Nanodrop和D1000 Tapestation(安捷伦科技公司(Agilent Technologies))验证了PCR模板的产率和纯度。

用于VI型系统的体外转录的RNA模板

从来自Arbor生物科学公司的T7p14_deGFP质粒(SEQ ID NO:16)扩增含有T7启动子、deGFP基因和T7终止子的deGFP线性模板。将扩增子用HighPrep^TMPCR纯化系统(MagBio基因组学公司)纯化和浓缩，并在不含RNA酶的水中洗脱。用HiScribe^TMT7高产率RNA合成试剂盒合成deGFP mRNA，并用RNA纯化试剂盒(50μg)(新英格兰生物实验室公司)纯化。通过Nanodrop和RNA Tapestation(安捷伦科技公司)验证了转录产物的产率和纯度。

为了测试VI型酶对侧枝RNA靶标的反式切割活性，设计了第二底物模板。反向补体的ssDNA序列用T7启动子排序，并且100nt序列用30nt可靶向序列(SEQ ID NO:17)排序。T7启动子的18nt的互补序列退火到ssDNA寡核苷酸并如上文所描述合成。

基于体外荧光的RNA切割测定

用体外蛋白质合成试剂盒(NEB公司)在20μL反应中进行切割。将25nM最小阵列DNA模板和5nM效应子DNA模板在37℃下转录并翻译成最小阵列RNA和蛋白质，持续20分钟。然后将500nM deGFP RNA模板添加到每个反应中作为靶向底物。将这些样品转移到384黑色板并用ABsolute qPCR板密封件(赛默飞世尔科技公司(Thermo Scientific))密封，并立即在Synergy Neo2多模式读取器(伯腾仪器公司(BioTek Instruments))中开始荧光测量(图4)。在37℃下以3分钟间隔以485/20激发和528/20发射测量3小时。使用这些核酸酶靶向的deGFP mRNA导致mRNA的切割和GFP蛋白的翻译敲低，所述敲低被测量为荧光(RFU)的降低。在RFU对时间的图中绘制了数据，并且将每个曲线拟合到平台后接单相指数衰减。

如上文所描述的，用不同的最小阵列模板和靶向底物进行了反式切割评估(图7)。最小阵列靶向与101nt激活因子RNA靶标互补的30nt序列。将500nM的激活因子RNA靶标和deGFP mRNA旁观者靶标同时添加到反应中。激活因子RNA的靶向导致deGFP mRNA的反式切割和deGFP蛋白的翻译敲低，所述敲低进而被测量为荧光(RFU)的降低。在RFU对时间的图中绘制了数据，并且将每个曲线拟合到平台后接单相指数衰减。

在所有反应中均观察到荧光信号滞后，可能是由于翻译和折叠deGFP需要时间。包含Apo和非靶向阵列的对照反应翻译的deGFP最多并且产生的荧光信号最多。相较于Apo，一些非靶向最小阵列反应显示出略低的信号；这可以解释为当向反应中添加更多时转录/翻译资源受到限制。相较于非靶向阵列，靶向阵列更能降低荧光信号。首先从没有转录/翻译deGFP或任何其它模板的对照反应的背景信号中减去每个数据点。通过将每个曲线拟合到平台后接单相指数衰减来定量敲低百分比(图5)。用于定量的参数是所述平台，其被理解为代表最大荧光。从每个条件中减去Apo平台值，然后除以apo平台并乘以100。MG103s靶向的顺式切割导致至多96.79％的显著荧光敲低百分比(图6)。大多数活性重复序列(除了MG103-4之外)携带AAAC-3'基序。

如上文所描述处理和分析了MG103反式切割数据(图8)。为了进行比较，在同一天测试了顺式和反式切割。deGFP敲低揭示了顺式活性和反式活性两者的切割相当(图9)。

经处理的crRNA的RNAseq

从PURExpress细胞裂解表达物中提取RNA，随后是Quick-RNA^TM微量制备型试剂盒(Zymo研究公司(Zymo Research))，并在30-50μL的水中洗脱。在25-50μL反应中，用10单位的T4多核苷酸激酶、40单位的鼠类RNase抑制剂和1X的T4 DNA连接酶缓冲液(NEB公司)使经处理的crRNA的5'端单磷酸化。在37℃下温育30分钟后，使用RNA Cleanup试剂盒(50μg)(NEB公司)进行柱纯化来停止反应。在Nanodrop、Tapestation和Qubit上测量转录物的总浓度。

使用用于因美纳的NEBNext小型RNA文库制备套件(NEB公司)制备来自每个样品的100ng-1μg的总RNA以进行RNA测序。将150-300bp之间的扩增子通过Tapestation和Qubit定量，并合并到4nM的浓度。将12.5pM的浓度上样到MiSeq V3试剂盒中，并在Miseq系统(因美纳公司)中测序176个总循环。RNAseq读段用于鉴定经处理的crRNA序列。使用fastp(参见例如《生物信息学(Bioinformatics)》)2018,34(17),i884-i890，所述文献通过引用整体并入本文)从所有读段中移除因美纳衔接子。使用BWA-MEM将经修剪的读段映射到RNA模板上(参见例如Li H.,“比对序列读段、克隆序列和具有BWA-MEM的组装重叠群(Aligning sequence reads,clone sequences andassembly contigs with BWA-MEM)” 2013,预印本第00卷第 00期2013,第1-3页，所述文献通过引用整体并入本文)，并使用samtools移除所有反向读段、未映射读段和映射至5'PCR衔接子的读段。

通过RNAseq确定的crRNA处理

映射到活性MG103-6和MG103-12最小阵列的读段示出了重复序列5'端的6个核苷酸的处理，剩下30个核苷酸处理的重复序列(图10A和10B)。MG103-6读段还示出了5'端处理将间隔子修剪至21和26nt(SEQ ID NO:36-37)。MG103-12映射的读段示出了一些5'端修剪产生了21nt间隔子(SEQ ID NO:55)。这些发现可以用于通过在经设计的crRNA中使用检测到的crRNA处理边界来设计合成向导RNA。

经处理的位点的确认(预示性)

RNAseq确认的经处理的crRNA的ssDNA寡核苷酸模板被设计为在crRNA序列上游具有T7启动子，并被排序作为反向补体。T7启动子的18nt的互补序列退火到每个ssDNA寡核苷酸并如上文所描述合成。为了验证经处理的crRNA设计的活性，进行了相同的基于体外荧光的RNA切割测定。

哺乳动物细胞中的RNA切割活性

使用慢病毒来创建表达(CMV启动子)增强的具有C端PEST标签的GFP(eGFP)的报告基因HEK293T细胞系，以促进蛋白质不稳定性(参见例如，《科学(Science)》1986,234 (4774),364-368，所述文献通过引用整体并入本文)(ueGFP，SEQ ID NO:85)，并增强GFP的周转率以使酶荧光对mRNA水平的变化更敏感。ueGFP工程化的细胞系用作报告基因。每种VI型CRISPR酶的间隔子都被设计为靶向ueGFP mRNA的5'端，从而敲低GFP荧光。

对所选VI型核酸酶候选者进行人密码子优化，并在CMV启动子(MG103-2、MG103-3、MG103-6、MG103-7、MG103-9、MG103-10、MG103-11、MG103-12、MG103-14和阳性对照；SEQ IDNO:126-134)下克隆到哺乳细胞表达载体。将含有预测的重复序列和30nt靶向间隔子，包括5个重复序列和4个间隔子(SEQ ID NO:106-113)的CRISPR阵列在U6启动子下克隆到表达载体中。此外，化学合成了包括3个重复序列和2个间隔子的CRISPR阵列(IDT)，其在5'端和3'端处具有2'-O-甲基和硫代磷酸酯(PS)键(每端具有3个2'-O-甲基和3个PS键)(SEQ ID NO:90-105和135-154)。

将表达ueGFP的细胞用单独含有效应子(Apo条件)的质粒转染作为对照，或者用质粒编码的CRISPR阵列或化学合成的CRISPR阵列转染。使用Lipofectamine 2000转染了质粒DNA，并使用Lipofectamine Messenger Max转染了化学合成的阵列。简而言之，将150,000个细胞接种到24孔板中。将750ng含有效应子的质粒和500ng含有CRISPR阵列的质粒在无血清Optimem中混合。同时，将Optimem与2μL lipofectamine 2000混合(每次反应并根据需要汇集)。将Optimem中的质粒和Optimem中的Lipofectamine2000分别温育5分钟，并且然后混合并涡旋在一起，然后温育30分钟。当使用化学合成的阵列替代时，将10pmole化学合成的向导与Optimem混合。另外，将Optimem与1.5μL的Lipofectamine messenger max混合。每个反应温育5分钟，然后混合在一起并温育15分钟。然后将脂质/核酸混合物添加到接种的细胞中。转染后48小时，使细胞胰蛋白酶化，以300g沉淀10分钟，重悬于300μL含5％ FBS的PBS中，并通过0.4μM筛过滤，以滤出双链体或更高的细胞聚集体。然后通过流式细胞术分析单个细胞(描绘过程的底图示出于图11中)。

为了验证ueGFP细胞系的适用性以及实验设计，运行阳性对照，以及靶向在质粒中编码的ueGFP或作为化学合成的向导的间隔子阵列。在存在CRISPR阵列的条件下，通过观察GFP荧光的显著敲低验证了实验设置的适用性(图12A)。图12A的定量在图12B中示出。

一旦对系统进行验证，便测试了若干MG103核酸酶：MG103-2、MG103-3、MG103-6、MG103-7、MG103-9、MG103-10、MG103-11、MG103-12和MG103-14以及阳性对照。由于使用质粒中编码的gRNA的验证与化学合成的阵列的水平相似(图12B)，因此针对MG103-2、MG103-3、MG103-6和MG103-7系统测试了质粒编码的向导，并且针对MG103-9、MG103-10、MG103-11、MG103-12和MG103-14测试了化学合成的向导。如图13A-13J、图14A-14K和图15A-15B所示，在所有测试的新型核酸酶中，经引导的条件与未经引导的条件下存在不同水平的GFP敲低。MG103-3具有最高水平的GFP敲低(图14C和图15A)，其次是MG103-6和MG103-12。尽管未在所有条件下测试化学合成的向导，但预期获得与质粒编码的向导相似的结果，如图12B所验证的。总的来说，研究表明MG VI型核酸酶在哺乳动物细胞中具有活性，并且可以达到与阳性对照的敲低水平相似的敲低水平(>70％的敲低)，从而为其在所关注的治疗靶标中的应用打开了大门。

实例14-MG105家族中核酸酶的发现和表征

MG105家族中新型紧凑VI型核酸酶的计算机模拟鉴定

使用实例13中描述的生物信息学方法鉴定了MG105核酸酶。

通过GFP荧光测定证明的体外RNA核酸酶活性

按照如实例13中描述的类似方案，测试了来自MG105家族的新型核酸酶的体外切割活性(图4和图7)。与其apo反应相比，MG105靶向的deGFP顺式切割导致荧光下降97.7％。

通过对每个反应进行最大荧光测量来定量反式切割。对于MG105-1，没有收集到足够的数据点以使数据适当地拟合到平台后接单相指数衰减。相反，从每个条件中减去Apo最大荧光信号，然后除以apo最大荧光信号并乘以100(图8和图9)。

通过RNAseq确定的crRNA处理

映射到活性MG105-1最小阵列的读段示出了间隔子5'端的10个核苷酸的修剪，同时留下36个核苷酸的重复序列(图10C；SEQ ID NO:60)。这表明活性crRNA在重复序列的5'端具有一个间隔子。

哺乳动物细胞活性(预示性)

ueGFP细胞系用于证明使用MG105家族的敲低GFP的概念。按照上述类似方案，通过流式细胞术分析GFP水平来证明此家族成员的哺乳动物细胞活性。预期酶将实现高于50％的GFP抑制。

表2-本文所提及的蛋白质和核酸序列的关键信息

/>

表3-本文提及的另外的蛋白质和核酸序列

/>

虽然已经在本文示出并描述了本发明的优选实施例，但是对本领域的普通技术人员而言应该显而易见的是此类实施例仅以举例方式提供。本发明不旨在受说明书中提供的具体实例的限制。虽然已参考前述说明书描述本发明，但本文实施例的描述和说明不打算以限制性意义进行。在不脱离本发明的情况下，所属领域的技术人员现在将意识到许多变型、变化和取代。此外，应当理解，本发明的全部方面不限于本文所阐述的具体描述、配置或相对比例，其取决于各种条件和变量。应理解，本文所描述的本发明的实施例的各个替代方案都可以用于实践本发明。因此，经考虑本发明应同样涵盖任何这类替代方案、修改、变型或等效物。所附权利要求书旨在限定本发明的范围，并且由此覆盖这些权利要求和其等效物的范围内的方法和结构。

Claims

1.一种经工程化的核酸酶系统，其包括：

(a)核酸内切酶，所述核酸内切酶包括HEPN结构域，其中所述核酸内切酶源自未经培养的微生物；以及

(b)经工程化的向导核糖核酸结构，所述经工程化的向导核糖核酸结构被配置成与所述核酸内切酶形成复合物，所述经工程化的向导核糖核酸结构包括：

(i)被配置成与靶核糖核酸序列杂交的核糖核酸序列；以及

(ii)被配置成与所述核酸内切酶结合的核糖核酸序列。

2.根据权利要求1所述的经工程化的核酸酶系统，其中所述核酸内切酶包括与SEQ IDNO:1-15和62-84中的任一者具有至少75％序列同一性的序列或其变体。

3.根据权利要求1或权利要求2所述的经工程化的核酸酶系统，其中所述核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas13d核酸内切酶。

4.根据权利要求1至3中任一项所述的经工程化的核酸酶系统，其中所述核酸内切酶与Cas13b核酸内切酶具有小于80％的同一性。

5.根据权利要求1至4中任一项所述的经工程化的核酸酶系统，其中所述核酸内切酶包括与SEQ ID NO:1、4、5、6、7、8、10、11、12、13或15中的任一者具有至少约75％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体。

6.根据权利要求1至5中任一项所述的经工程化的核酸酶系统，其中所述经工程化的向导核糖核酸结构包括具有至少30个、至少31个、至少32个、至少33个、至少34个、至少35个或至少36个连续核苷酸的重复序列，所述重复序列与SEQ ID NO:21、26、30、35、41、46、50、54、60、122、123、124或125中的任一者具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性。

7.根据权利要求1至6中任一项所述的经工程化的核酸酶系统，其中所述被配置成与所述靶核糖核酸序列杂交的核糖核酸序列包括至少约18个至约26个核苷酸。

8.根据权利要求6至7中任一项所述的经工程化的核酸酶系统，其中所述经工程化的向导核糖核酸结构以以下序列的形式提供，所述序列包括：

(i)所述重复序列的第一拷贝；

(ii)所述被配置成与所述靶核糖核酸序列杂交的核糖核酸序列；以及

(iii)所述重复序列的第二拷贝。

9.根据权利要求1至7中任一项所述的经工程化的核酸酶系统，其中所述经工程化的向导核糖核酸结构包括与SEQ ID NO:36、37、55或61中的任一者的非简并核苷酸具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列。

10.一种经工程化的核酸酶系统，其包括：

(a)经工程化的向导核糖核酸结构，所述经工程化的向导核糖核酸结构包括：

(i)被配置成与靶核糖核酸序列杂交的核糖核酸序列；以及

(ii)被配置成与核酸内切酶结合的核糖核酸序列；以及

(b)2类VI型核酸内切酶，所述2类VI型核酸内切酶被配置成与所述经工程化的向导核糖核酸结合。

11.根据权利要求10所述的经工程化的核酸酶系统，其中所述向导核糖核酸序列的长度为60-100个核苷酸。

12.根据权利要求10至11中任一项所述的经工程化的核酸酶系统，其中所述核酸内切酶包括与SEQ ID NO:1、4、5、6、7、8、10、11、12或13中的任一者具有至少75％序列同一性的序列或其变体。

13.根据权利要求10至12中任一项所述的经工程化的核酸酶系统，其中所述经工程化的向导核糖核酸结构包括具有至少30个、至少31个、至少32个、至少33个、至少34个、至少35个或至少36个连续核苷酸的重复序列，所述重复序列与SEQ ID NO:21、26、30、35、41、46、50、54、60、122、123、124或125中的任一者具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性。

14.根据权利要求10至13中任一项所述的经工程化的核酸酶系统，其中所述被配置成与所述靶核糖核酸序列杂交的核糖核酸序列包括至少约18个至约26个核苷酸。

15.根据权利要求13至14中任一项所述的经工程化的核酸酶系统，其中所述经工程化的向导核糖核酸结构以以下序列的形式提供，所述序列包括：

(i)所述重复序列的第一拷贝；

(iii)所述重复序列的第二拷贝。

16.根据权利要求10至15中任一项所述的经工程化的核酸酶系统，其中所述经工程化的向导核糖核酸结构包括与SEQ ID NO:36、37、55或61中的任一者的非简并核苷酸具有至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列。

17.根据权利要求1至16中任一项所述的经工程化的核酸酶系统，其中所述核酸内切酶包括接近所述核酸内切酶的N末端或C末端的一个或多个核定位序列(NLS)。

18.根据权利要求1至17中任一项所述的经工程化的核酸酶系统，其中所述NLS包括选自SEQ ID NO:155-170的序列。

19.根据权利要求1至18中任一项所述的经工程化的核酸酶系统，其进一步包括

单链RNA修复模板，所述单链RNA修复模板从5'至3'包括：第一同源臂，所述第一同源臂包括位于所述靶核糖核酸序列的5'的至少20个核苷酸的序列；至少10个核苷酸的合成RNA序列；以及第二同源臂，所述第二同源臂包括位于所述靶序列的3'的至少20个核苷酸的序列。

20.根据权利要求19所述的经工程化的核酸酶系统，其中所述第一同源臂或所述第二同源臂包括至少40个、80个、120个、150个、200个、300个、500个或1,000个核苷酸的序列。

21.根据权利要求1至20中任一项所述的经工程化的核酸酶系统，其中所述序列同一性是通过BLASTP、CLUSTALW、MUSCLE、MAFFT或CLUSTALW使用史密斯-沃特曼同源性搜索算法(Smith-Waterman homology search algorithm)的参数来确定的。

22.根据权利要求21所述的经工程化的核酸酶系统，其中所述序列同一性是通过所述BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在11，扩展1并且使用条件组成评分矩阵调整来确定的。

23.根据权利要求1至22中任一项所述的经工程化的核酸酶系统，其中所述核酸内切酶在其N末端或C末端处与另外的蛋白质结构域融合。

24.根据权利要求23所述的经工程化的核酸酶系统，其中所述另外的蛋白质结构域是异源结构域。

25.一种经工程化的向导核糖核酸多核苷酸，其包括：

(a)RNA靶向区段，所述RNA靶向区段包括与靶RNA分子中的靶序列互补的核苷酸序列；以及

(b)蛋白质结合区段，所述蛋白质结合区段包括杂交以形成双链RNA(dsRNA)双链体的两个互补核苷酸延伸段；

其中所述两个互补核苷酸延伸段用中间核苷酸彼此共价连接，并且

其中所述经工程化的向导核糖核酸多核苷酸被配置成与核酸内切酶形成复合物并且将所述复合物靶向所述靶RNA分子的所述靶序列，所述核酸内切酶包括与SEQ ID NO:1-15和62-84中的任一者具有至少75％序列同一性的序列或其变体。

26.根据权利要求25所述的经工程化的向导核糖核酸多核苷酸，其中所述RNA靶向区段定位于所述两个互补核苷酸延伸段中的两者的5'。

27.一种脱氧核糖核酸多核苷酸，其编码根据权利要求25至26中任一项所述的经工程化的向导核糖核酸多核苷酸或结构。

28.一种核酸，其包括经工程化的核酸序列，所述经工程化的核酸序列被优化以在生物体中表达，其中所述核酸编码核酸内切酶，所述核酸内切酶包括与SEQ ID NO:1-15和62-84中的任一者具有至少约75％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性的序列或其变体；或者其中所述核酸包括与SEQ IDNO:126-134中的任一者具有至少75％序列同一性的序列。

29.根据权利要求28所述的核酸，其中所述核酸内切酶包括编码接近所述核酸内切酶的N末端或C末端的一个或多个核定位序列(NLS)的序列。

30.根据权利要求29所述的核酸，其中所述NLS包括选自SEQ ID NO:155-170的序列。

31.根据权利要求28至30中任一项所述的核酸，其中所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿动物或人。

32.一种载体，其包括根据权利要求28至31中任一项所述的核酸。

33.根据权利要求32所述的载体，其进一步包括编码经工程化的向导核糖核酸结构的核酸，所述经工程化的向导核糖核酸结构被配置成与所述核酸内切酶形成复合物，所述经工程化的向导核糖核酸结构包括：

(a)被配置成与靶核糖核酸序列杂交的核糖核酸序列；以及

(b)被配置成与所述核酸内切酶结合的核糖核酸序列。

34.根据权利要求32至33中任一项所述的载体，其中所述载体是质粒、微环、CELiD、腺相关病毒(AAV)源性病毒体或慢病毒。

35.一种细胞，其包括根据权利要求32至34中任一项所述的载体。

36.一种制备核酸内切酶的方法，所述方法包括培养根据权利要求35所述的所述细胞。

37.一种用于结合、切割、标记或修饰单链核糖核酸多核苷酸的方法，所述方法包括：

使所述单链核糖核酸多核苷酸与2类VI型核酸内切酶接触，所述2类VI型核酸内切酶与经工程化的向导核糖核酸结构复合，所述经工程化的向导核糖核酸结构被配置成与所述核酸内切酶结合并且将所述VI型核酸内切酶靶向靶核糖核酸序列和所述单链核糖核酸多核苷酸。

38.根据权利要求37所述的方法，其中所述单链核糖核酸多核苷酸包括原间隔子侧接位点(PFS)。

39.根据权利要求38所述的方法，其中所述PFS包括GTT。

40.根据权利要求37或38所述的方法，其中所述单链核糖核酸多核苷酸包括与所述经工程化的向导核糖核酸结构的序列互补的序列和PFS。

41.根据权利要求38所述的方法，其中所述PFS与和所述经工程化的向导核糖核酸结构的所述序列互补的所述序列相邻。

42.根据权利要求37所述的方法，其中所述单链核糖核酸多核苷酸不包括原间隔子侧接位点(PFS)。

43.根据权利要求37至42中任一项所述的方法，其中所述2类VI型核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas Cas12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas13d核酸内切酶。

44.根据权利要求37至43中任一项所述的方法，其中所述单链核糖核酸多核苷酸是真核生物、植物、真菌、哺乳动物、啮齿动物或人单链核糖核酸多核苷酸。

45.一种修饰靶核酸基因座的方法，所述方法包括向所述靶核酸基因座递送根据权利要求1至24中任一项所述的所述经工程化的核酸酶系统，其中所述核酸内切酶被配置成与所述经工程化的向导核糖核酸结构形成复合物，并且其中所述复合物被配置成使得在所述复合物与所述靶核酸基因座结合时，所述复合物修饰所述靶核酸基因座。

46.根据权利要求45所述的方法，其中修饰所述靶核酸基因座包括结合、切口、切割或标记所述靶核酸基因座。

47.根据权利要求45至46中任一项所述的方法，其中所述靶核酸基因座包括脱氧核糖核酸(DNA)或核糖核酸(RNA)。

48.根据权利要求47所述的方法，其中所述靶核酸包括基因组DNA、基因组RNA、病毒DNA、病毒RNA、细菌DNA或细菌RNA。

49.根据权利要求45至48中任一项所述的方法，其中所述靶核酸基因座在体外。

50.根据权利要求45至48中任一项所述的方法，其中所述靶核酸基因座位于细胞内。

51.根据权利要求50所述的方法，其中所述细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞或人细胞。

52.根据权利要求45至51中任一项所述的方法，其中向所述靶核酸基因座递送所述经工程化的核酸酶系统包括递送根据权利要求28至31中任一项所述的核酸或根据权利要求32至34中任一项所述的载体。

53.根据权利要求45至51中任一项所述的方法，其中向所述靶核酸基因座递送所述经工程化的核酸酶系统包括递送包括编码所述核酸内切酶的开放阅读框的核酸。

54.根据权利要求53所述的方法，其中所述核酸包括启动子，编码所述核酸内切酶的所述开放阅读框与所述启动子可操作地连接。

55.根据权利要求45至51中任一项所述的方法，其中向所述靶核酸基因座递送所述经工程化的核酸酶系统包括递送含有编码所述核酸内切酶的所述开放阅读框的加帽mRNA。

56.根据权利要求45至51中任一项所述的方法，其中向所述靶核酸基因座递送所述经工程化的核酸酶系统包括递送经翻译的多肽。

57.根据权利要求45至51中任一项所述的方法，其中向所述靶核酸基因座递送所述经工程化的核酸酶系统包括递送编码与核糖核酸(RNA)pol III启动子可操作地连接的所述经工程化的向导核糖核酸结构的脱氧核糖核酸(DNA)。

58.根据权利要求45至57中任一项所述的方法，其中所述核酸内切酶在所述靶基因座处或附近诱导单链断裂。

59.一种经工程化的向导核糖核酸多核苷酸，其包括：

(b)蛋白质结合区段，所述蛋白质结合区段包括杂交以形成双链RNA(dsRNA)双链体的两个互补核苷酸延伸段，

其中所述经工程化的向导核糖核酸多核苷酸被配置成与2类VI型核酸内切酶形成复合物并且将所述复合物靶向所述靶RNA分子的所述靶序列。

60.一种系统，其用于产生经编辑的免疫细胞，所述系统包括：

(a)RNA引导的核酸内切酶；

(b)根据权利要求45所述的经工程化的向导核糖核酸多核苷酸，所述经工程化的向导核糖核酸多核苷酸被配置成与所述RNA引导的核酸内切酶结合；以及

(c)单链RNA修复模板，所述单链RNA修复模板包括侧接于编码嵌合抗原受体(CAR)的序列上的第一同源臂和第二同源臂。

61.根据权利要求60所述的系统，其中所述细胞是外周血单核细胞、T细胞、NK细胞、造血干细胞(HSCT)或B细胞。

62.根据权利要求60或61所述的系统，其中所述RNA引导的核酸内切酶是II类VI型核酸内切酶。

63.根据权利要求60至62中任一项所述的方法，其中所述RNA引导的核酸内切酶包括HEPN结构域。