CN117431235A

CN117431235A - CRISPR-Cas系统及其应用

Info

Publication number: CN117431235A
Application number: CN202311464815.0A
Authority: CN
Inventors: 陈柏洪; 胡洋; 余宇霖; 谭文琼; 林少芸; 徐文倡; 吴幼玉; 马肖杰; 余嘉俊; 孙金帅
Original assignee: Microlight Gene Suzhou Co ltd
Current assignee: Microlight Gene Suzhou Co ltd
Priority date: 2023-11-06
Filing date: 2023-11-06
Publication date: 2024-01-23

Abstract

本文公开了Cas12i多肽及其在CRISPR‑Cas系统中的应用。本文具体公开了Cas12i多肽、Cas12i融合多肽、引导RNA、Cas12i多肽或融合多肽与引导RNA形成的复合物、核酸、载体、载体系统、递送系统、试剂盒、组合物、以及利用上述组分修饰核酸的方法。

Description

CRISPR-Cas系统及其应用

技术领域

本发明涉及核酸编辑领域，特别是规律成簇的间隔短回文重复(CRISPR)技术领域。具体而言，本发明涉及Cas效应蛋白，包含此类蛋白的融合蛋白，以及编码它们的核酸分子。本发明还涉及用于核酸编辑(例如，基因或基因组编辑)的复合物和组合物，其包含本发明的蛋白或融合蛋白，或编码它们的核酸分子。本发明还涉及用于核酸编辑(例如，基因或基因组编辑)的方法，其使用包含本发明的蛋白或融合蛋白。

背景技术

成簇规律间隔短回文重复序列(CRISPR)和CRISPR相关(Cas)基因(统称为CRISPR-Cas或CRISPR/Cas系统)是古细菌和细菌中针对外来遗传元件而防御特定物种的适应性免疫系统。CRISPR-Cas系统是一种高效且具有成本效益的基因组编辑技术，可广泛应用于原核生物和真核生物中。迄今为止，基于该系统的突出的功能上和进化上的模块性，已经对包括六型(I–VI型)两类(第1类和第2类)的CRISPR-Cas系统进行了表征。在第2类CRISPR-Cas系统中，CRISPR-Cas9系统应用最为广泛，传统的CRISPR-Cas9系统由Cas9核酸酶和工程化的sgRNA组成，后者负责将Cas9引导至靶位点并引起双链DNA断裂(DSB)，继而通过非同源末端链接(NHEJ)、同源重组修复(HDR)等内源性途径对断裂位点进行修复，CRISPR-Cas9系统已被利用来进行体细胞编辑、同步多位点编辑、单碱基编辑等为生物医学研究提供了广阔的前景。

但是，当前的CRISPR-Cas9系统具有多种局限性，包括较大的分子量限制其在体内的有效递送。因此，开发一种更稳健的、具有多方面良好性能的新型CRISPR/Cas系统对生物技术的发展具有重要意义。

发明内容

本发明的一个方面提供一种工程化的嵌合Cas12i多肽，其包含Nuc结构域，其中所述Nuc结构域来源于第一Cas12i多肽的Nuc结构域，所述工程化的嵌合Cas12i多肽的非Nuc结构域部分来源于第二Cas12i多肽的非Nuc结构域部分，所述第一Cas12i多肽与所述第二Cas12i多肽相比序列同一性不超过80％，并且所述工程化的嵌合Cas12i多肽能够结合并且任选地切割所述核酸。

在优选的实施方式中，所述工程化的嵌合Cas12i多肽：(i)包含与SEQ ID NO.1或2所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；或(ii)包含与SEQ IDNO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列。

在另一些实施方式中，本发明提供一种工程化的嵌合Cas12i多肽，其能够结合并且任选地切割所述核酸，其中所述工程化的嵌合Cas12i多肽：(i)包含与SEQ ID NO.3至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；或(ii)包含与SEQ IDNO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列。

在另一些实施方式中，本发明提供一种工程化的嵌合Cas12i多肽，其能够结合并且任选地切割所述核酸，其中所述工程化的嵌合Cas12i多肽由N端至C端包含依次连接的第一肽段、第二肽段和第三肽段，其中：

所述第一肽段包含与SEQ ID NO.1的aa 1至897或SEQ ID NO.3的aa 1至895的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；

所述第二肽段包含与SEQ ID NO.67至72任一项所示的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；并且

所述第三肽段包含与SEQ ID NO.1的aa 1008至1044或SEQ ID NO.3的aa 1016至1054的氨基酸序列相比具有至少80％序列同一性氨基酸序列。

在一些实施方式中，所述工程化的嵌合Cas12i多肽被突变以使其具有以下一个或多个特征：(i)核酸切割活性部分或完全失活，或核酸切割活性增强；(ii)核酸结合活性增强。

在一些实施方式中，所述工程化的嵌合Cas12i多肽，根据SEQ ID NO.1所示的序列编号，在D1009位置处具有氨基酸取代，优选被丙氨酸取代。

在一些实施方式中，所述工程化的嵌合Cas12i多肽，根据SEQ ID NO.1所示的序列编号，在N229位置处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代。

在一些实施方式中，所述工程化的嵌合Cas12i多肽，(i)包含与SEQ ID NO.1所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；或(ii)包含与SEQ ID NO.1的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ IDNO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；并且，所述工程化的嵌合Cas12i多肽在D924和S925两个位置中的至少一个处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代。

在本发明的另一个方面提供一种CRISPR-Cas系统，其包含：(a)Cas12i多肽，所述Cas12i多肽为本发明提供的任一所述工程化的嵌合Cas12i多肽；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些实施方式中，所述引导RNA包含与所述靶核酸杂交的引导区段和与Cas12i多肽结合的重复区段，并且所述引导RNA不包含且不结合tracrRNA。

在一些实施方式中，在所述CRISPR-Cas系统中，所述引导RNA的重复区段包含SEQID NO.7至14任一项所示的核苷酸序列或与SEQ ID NO.7至14任一项所示的核苷酸序列相比具有1至10个核苷酸替换、缺失和/或插入的核苷酸序列；优选地，其中所述引导RNA的重复区段为SEQ ID NO.7至14任一项所示的核苷酸序列。

本发明的另一个方面提供一种融合多肽，其包含与一个或多个异源多肽融合的Cas12i多肽，所述Cas12i多肽为本发明提供的任一所述工程化的嵌合Cas12i多肽。

在优选的实施方式中，所述融合多肽中的所述一个或多个异源多肽独立地为表位标签、核定位信号或具有以下一种或多种酶促活性：逆转录酶活性、核酸酶活性、甲基转移酶活性、脱甲基化酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、脱泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如来自O-GlcNAc转移酶)和脱糖基化活性、DNA修复活性、DNA损伤活性、脱氨酶活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活。在优选的实施方式中，所述酶促活性结构域具有以下一种或多种酶促活性：脱氨酶活性、甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性和脱乙酰酶活性。在优选的实施方式中，所述一个或多个异源多肽独立地为转录阻遏结构域、转录激活结构域、脱氨酶结构域。

在优选的实施方式中，所述融合多肽中的所述转录激活结构域包含选自以下的酶形成的结构域：转录激活因子、组蛋白赖氨酸甲基转移酶、组蛋白赖氨酸脱甲基酶、组蛋白乙酰转移酶以及DNA脱甲基酶；优选地，所述转录阻遏结构域包含选自以下的结构域：转录阻遏物、ZIM3结构域、KOX1阻遏结构域、Mad mSIN3相互作用结构域(SID)、ERF阻遏物结构域(ERD)、SRDX阻遏结构域、组蛋白赖氨酸甲基转移酶、组蛋白赖氨酸脱甲基酶、组蛋白赖氨酸脱乙酰酶、DNA甲基化酶以及外周募集元件。在优选的实施方式中，所述转录激活结构域包含VP64；P65；RTA；截短的P65；截短的RTA；或它们各自或之间的一个或多个的融合形式。在优选的实施方式中，所述转录阻遏结构域选自KRAB催化结构域、DNA甲基转移酶或其组合。

在优选的实施方式中，所述融合多肽的结构选自：

NH₂-[Cas12i]-[转录调控结构域]-COOH；

NH₂-[转录调控结构域]-[Cas12i]-COOH；

NH₂-[Cas12i]-[转录激活结构域]-COOH；

NH₂-[转录激活结构域]-[Cas12i]-COOH；

NH₂-[NLS]-[Cas12i]-[转录激活结构域]-COOH；

NH₂-[Cas12i]-[转录激活结构域]-[NLS]-COOH；

NH₂-[NLS]-[Cas12i]-[转录激活结构域]-[NLS]-COOH；

NH₂-[NLS]-[转录激活结构域]-[Cas12i]-COOH；

NH₂-[转录激活结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[NLS]-[转录激活结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[Cas12i]-[VP64-P65-RTA融合蛋白及其截短的融合蛋白]-COOH；

NH₂-[VP64-P65-RTA融合蛋白及其截短的融合蛋白]-[Cas12i]-COOH；

NH₂-[NLS]-[Cas12i]-[VP64-P65-RTA融合蛋白及其截短的融合蛋白]-COOH；

NH₂-[Cas12i]-[VP64-P65-RTA融合蛋白及其截短的融合蛋白]-[NLS]-COOH；

NH₂-[NLS]-[Cas12i]-[VP64-P65-RTA融合蛋白及其截短的融合蛋白]-[NLS]-COOH；

NH₂-[NLS]-[VP64-P65-RTA融合蛋白及其截短的融合蛋白]-[Cas12i]-COOH；

NH₂-[VP64-P65-RTA融合蛋白及其截短的融合蛋白]-[Cas12i]-[NLS]-COOH；

NH₂-[Cas12i]-[转录抑制结构域]-COOH；

NH₂-[转录抑制结构域]-[Cas12i]-COOH；

NH₂-[NLS]-[Cas12i]-[转录抑制结构域]-COOH；

NH₂-[Cas12i]-[转录抑制结构域]-[NLS]-COOH；

NH₂-[NLS]-[Cas12i]-[转录抑制结构域]-[NLS]-COOH；

NH₂-[NLS]-[转录抑制结构域]-[Cas12i]-COOH；

NH₂-[转录抑制结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[NLS]-[转录抑制结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[Cas12i]-[第一转录抑制结构域]-[第二转录抑制结构域]-COOH；

NH₂-[Cas12i]-[第二转录抑制结构域]-[第一转录抑制结构域]-COOH；

NH₂-[第一转录抑制结构域]-[第二转录抑制结构域]-[Cas12i]-COOH；

NH₂-[第二转录抑制结构域]-[第一转录抑制结构域]-[Cas12i]-COOH；

NH₂-[第一转录抑制结构域]-[Cas12i]-[第二转录抑制结构域]-COOH；

NH₂-[第二转录抑制结构域]-[Cas12i]-[第一转录抑制结构域]-COOH；

NH₂-[NLS]-[Cas12i]-[KRAB催化结构域]-[DNMT3A-DNMT3L]-COOH；

NH₂-[Cas12i]-[KRAB催化结构域]-[DNMT3A-DNMT3L]-[NLS]-COOH；

NH₂-[NLS]-[Cas12i]-[KRAB催化结构域]-[DNMT3A-DNMT3L]-[NLS]-COOH；

NH₂-[NLS]-[KRAB催化结构域]-[DNMT3A-DNMT3L]-[Cas12i]-COOH；

NH₂-[KRAB催化结构域]-[DNMT3A-DNMT3L]-[Cas12i]-[NLS]-COOH；

NH₂-[NLS]-[KRAB催化结构域]-[DNMT3A-DNMT3L]-[Cas12i]-[NLS]-COOH；

NH₂-[NLS]-[KRAB催化结构域]-[Cas12i]-[DNMT3A-DNMT3L]-COOH；

NH₂-[KRAB催化结构域]-[Cas12i]-[DNMT3A-DNMT3L]-[NLS]-COOH；

NH₂-[NLS]-[KRAB催化结构域]-[Cas12i]-[DNMT3A-DNMT3L]-[NLS]-COOH；

NH₂-[NLS]-[DNMT3A-DNMT3L]-[Cas12i]-[KRAB催化结构域]-COOH；

NH₂-[DNMT3A-DNMT3L]-[Cas12i]-[KRAB催化结构域]-[NLS]-COOH；和

NH₂-[NLS]-[DNMT3A-DNMT3L]-[Cas12i]-[KRAB催化结构域]-[NLS]-COOH。

在一些实施方式中，所述融合多肽中的所述脱氨酶结构域包括腺苷脱氨酶结构域、胞苷脱氨酶结构域或其组合。在优选的实施方式中，所述胞苷脱氨酶选自活化诱导的胞苷脱氨酶(AID)、载脂蛋白B mRNA编辑复合物(APOBEC)和PmCDA1。在优选的实施方式中，所述腺苷脱氨酶结构域是TadA、ecTadA、saTadA、ecTadA7.10、TadA-8e、TadA8.17、TadA8.20、TadA9或其组合。

在优选的实施方式中，所述融合多肽的结构选自：

NH₂-[腺苷脱氨酶结构域]-[Cas12i]-COOH；

NH₂-[Cas12i]-[腺苷脱氨酶结构域]-COOH；

NH₂-[第一腺苷脱氨酶结构域]-[第二腺苷脱氨酶结构域]-[Cas12i]-COOH；

NH₂-[第一腺苷脱氨酶结构域]-[Cas12i]-[第二腺苷脱氨酶结构域]-COOH；

NH₂-[Cas12i]-[第一腺苷脱氨酶结构域]-[第二腺苷脱氨酶结构域]-COOH；

NH₂-[第二腺苷脱氨酶结构域]-[第一腺苷脱氨酶结构域]-[Cas12i]-COOH；

NH₂-[第二腺苷脱氨酶结构域]-[Cas12i]-[第一腺苷脱氨酶结构域]-COOH；

NH₂-[Cas12i]-[第二腺苷脱氨酶结构域]-[第一腺苷脱氨酶结构域]-COOH；

NH₂-[腺苷脱氨酶结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[Cas12i]-[腺苷脱氨酶结构域]-[NLS]-COOH；

NH₂-[NLS]-[腺苷脱氨酶结构域]-[Cas12i]-COOH；

NH₂-[NLS]-[Cas12i]-[腺苷脱氨酶结构域]-COOH；

NH₂-[NLS]-[腺苷脱氨酶结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[NLS]-[Cas12i]-[腺苷脱氨酶结构域]-[NLS]-COOH；

NH₂-[胞苷脱氨酶结构域]-[Cas12i]-[尿嘧啶糖基化酶抑制剂(UGI)]-COOH；

NH₂-[尿嘧啶糖基化酶抑制剂(UGI)]-[Cas12i]-[胞苷脱氨酶结构域]-COOH；

NH₂-[NLS]-[胞苷脱氨酶结构域]-[Cas12i]-[尿嘧啶糖基化酶抑制剂(UGI)]-COOH；

NH₂-[NLS]-[尿嘧啶糖基化酶抑制剂(UGI)]-[Cas12i]-[胞苷脱氨酶结构域]-COOH；

NH₂-[胞苷脱氨酶结构域]-[Cas12i]-[尿嘧啶糖基化酶抑制剂(UGI)]-[NLS]-COOH；

NH₂-[尿嘧啶糖基化酶抑制剂(UGI)]-[Cas12i]-[胞苷脱氨酶结构域]-[NLS]-COOH；

NH₂-[NLS]-[胞苷脱氨酶结构域]-[Cas12i]-[尿嘧啶糖基化酶抑制剂(UGI)]-[NLS]-COOH；和

NH₂-[NLS]-[尿嘧啶糖基化酶抑制剂(UGI)]-[Cas12i]-[胞苷脱氨酶结构域]-[NLS]-COOH。

本发明的另一个方面提供一种复合物，其包含本发明提供任何一种融合多肽以及引导RNA，所述引导RNA与所述融合多肽复合以引导所述融合多肽结合至靶核酸。在优选的实施方式中，在所述复合物中，所述引导RNA包含与所述靶核酸杂交的引导区段和与融合多肽结合的重复区段，并且所述引导RNA不包含且不结合tracrRNA。在优选的实施方式中，在所述复合物中，所述引导RNA的重复区段包含SEQ ID NO.7至14任一项所示的核苷酸序列或与SEQ ID NO.7至14任一项所示的核苷酸序列相比具有1至10个核苷酸替换、缺失和/或插入的核苷酸序列；优选地，其中所述引导RNA的重复区段为SEQ ID NO.7至14任一项所示的核苷酸序列。

在优选的实施方式中，所述复合物是表观遗传编辑器。在优选的实施方式中，所述复合物是碱基编辑器。

本发明的另一个方面提供一种核酸，其包含编码本发明提供的任何一种融合多肽或Cas12i多肽的多核苷酸。在优选的实施方式中，所述多核苷酸被密码子优化以在原核或真核细胞中表达。在优选的实施方式中，所述多核苷酸包含或为如SEQ ID NO.59至64任一个所示的核苷酸序列。

本发明的另一个方面提供一种核酸，包含引导RNA或编码所述引导RNA的核苷酸序列，所述引导RNA包含重复区段，包含SEQ ID NO.7至14任一项所示的核苷酸序列或与SEQID NO.7至14任一项所示的核苷酸序列相比具有1至10个核苷酸替换、缺失和/或插入的核苷酸序列；优选地，其中所述引导RNA的重复区段为SEQ ID NO.7至14任一项所示的核苷酸序列。在优选的实施方式中，所述引导RNA不包含且不结合tracrRNA。在优选的实施方式中，所述核酸是DNA或mRNA。

本发明的另一个方面提供一种载体，其包含本发明提供的任何一种核酸。在优选的实施方式中，所述载体是质粒或病毒载体。在优选的实施方式中，所述病毒载体是腺相关病毒载体、腺病毒载体、逆转录病毒载体、慢病毒载体或单纯疱疹病毒载体。

本发明的另一个方面提供一种载体系统，其包括第一载体和与第一载体不同的第二载体，所述第一载体包含编码本发明提供的任何一种融合多肽或Cas12i多肽的多核苷酸；所述第二载体包含引导RNA或编码所述引导RNA的核苷酸序列。在优选的实施方式中，所述第一载体和第二载体独立地是质粒或病毒载体。在优选的实施方式中，所述病毒载体是腺相关病毒载体、腺病毒载体、逆转录病毒载体、慢病毒载体或单纯疱疹病毒载体。

本发明的另一个方面提供一种递送系统，包含本发明提供的任一Cas12i多肽、本发明提供的任一CRISPR-Cas系统、本发明提供的任一融合多肽、本发明提供的任一复合物、本发明提供的任一核酸、本发明提供的任一载体、或本发明提供的任一载体系统。在优选的实施方式中，所述递送系统包括脂质体、纳米颗粒或外泌体。

本发明的另一个方面提供一种细胞，其包含本发明提供的任一Cas12i多肽、本发明提供的任一CRISPR-Cas系统、本发明提供的任一融合多肽、本发明提供的任一复合物、本发明提供的任一核酸、本发明提供的任一载体、本发明提供的任一载体系统、或本发明提供的任一递送系统。在优选的实施方式中，所述细胞是真核细胞。在优选的实施方式中，所述细胞是人细胞。

本发明的另一个方面提供组合物或试剂盒，其包含本发明提供的任一Cas12i多肽、本发明提供的任一CRISPR-Cas系统、本发明提供的任一融合多肽、本发明提供的任一复合物、本发明提供的任一核酸、本发明提供的任一载体、本发明提供的任一载体系统、本发明提供的任一递送系统、或本发明提供的任一细胞；以及药学上可接受的载体。

本发明的另一个方面提供修饰靶核酸的方法，所述方法包括使靶核酸与本发明提供的任一CRISPR-Cas系统、本发明提供的任一复合物、本发明提供的任一载体系统、或本发明提供的任一递送系统接触，所述接触导致所述靶核酸被修饰。在优选的实施方式中，所述修饰包括增加或减少所述靶核酸中的靶序列的表达。在优选的实施方式中，所述修饰包括对所述靶核酸中的靶腺嘌呤或靶胞嘧啶进行脱氨基以实现碱基对转换。在优选的实施方式中，其中所述靶核酸选自：双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。在优选的实施方式中，其中所述接触在体外在细胞外部发生、在培养的细胞内部发生或在体内细胞内部发生。在优选的实施方式中，所述细胞是真核细胞，更优选为人细胞。

附图说明

图1显示本发明的嵌合Cas12i多肽的预测的crRNA的二级结构图。

图2显示本发明的denCas12i-001与腺嘌呤脱氨酶TadA-8e形成的编辑器的重组载体图。

图3显示各腺嘌呤碱基编辑器对RNF2靶点的编辑效率。

图4显示本发明的嵌合Cas12i效应蛋白的PAM碱基偏好性结果。

图5显示将enCas12i-001和enCas12i-002效应蛋白经过真核生物密码子优化的核苷酸构建在真核表达载体中的载体示意图。

图6显示经琼脂糖凝胶电泳分析检测PCR产物的切割结果的电泳图。

图7显示将enCas12i-001、enCas12i-002、Cas12i^Max效应蛋白经过真核生物密码子优化的核苷酸构建在真核表达载体中的载体示意图。

图8通过测序结果展示本发明的enCas12i效应蛋白在真核细胞中的切割活性。

图9展示以本发明的denCas12i和TadA8e构建的针对RNF2和TTR基因的碱基编辑器的重组载体示意图。

图10通过测序结果展示本发明的碱基编辑器在真核细胞中的编辑活性。

图11通过测序结果展示本发明的enCas12i效应蛋白突变体在真核细胞中的切割活性。

图12通过测序结果展示本发明的enCas12i效应蛋白突变体在真核细胞中的编辑活性。

图13显示基于enCas12i-001和enCas12i-001-N229R构建的表观遗传激活器的表达载体示意图。

图14显示转染本发明的表观遗传激活器的293T细胞中GFP荧光的表达。

具体实施方式

定义

在本文中可互换使用的术语“多核苷酸”和“核酸”是指任何长度的核苷酸(核糖核苷酸或脱氧核糖核苷酸)的聚合形式。因此，该术语包括但不限于单链、双链或多链DNA或RNA、基因组DNA、cDNA、DNA-RNA杂交体、或包含嘌呤和嘧啶碱基或其他天然的、经化学或生物化学修饰的、非天然或衍生的核苷酸碱基的聚合物。

“可杂交的”或“互补的”或“大致上互补的”意指核酸(例如RNA、DNA)包含能使其在适当的温度和溶液离子强度的体外和/或体内条件下以序列特异性、反平行的方式(即，核酸特异性结合互补核酸)非共价结合(即形成沃森-克里克碱基对和/或G/U碱基对)、“退火”或“杂交”另一个核酸的核苷酸序列。标准沃森-克里克碱基配对包括：腺嘌呤(A)与胸腺嘧啶(T)配对、腺嘌呤(A)与尿嘧啶(U)配对以及鸟嘌呤(G)与胞嘧啶(C)配对[DNA、RNA]。此外，对于两个RNA分子(例如，dsRNA)之间的杂交，以及对于DNA分子与RNA分子的杂交(例如，当DNA靶核酸碱基与引导RNA配对时，等)：鸟嘌呤(G)也可以与尿嘧啶(U)碱基配对。例如，G/U碱基配对为tRNA抗密码子碱基配对mRNA中的密码子的背景下的遗传密码简并(即，冗余)的至少部分原因。因此，在本发明的上下文中，鸟嘌呤(G)(例如，引导RNA分子的dsRNA双链体；与靶核酸配对的引导RNA碱基等)被认为与尿嘧啶(U)和腺嘌呤(A)互补。例如，当G/U碱基对可以在引导RNA分子的dsRNA双链体的给定核苷酸位置产生时，所述位置不被认为是非互补的，而是被认为是互补的。

杂交要求两个核酸含有互补序列，虽然碱基之间有可能存在错配。适用于两个核酸之间的杂交的条件取决于核酸的长度和互补的程度、本领域中熟知的变量。两个核苷酸序列之间的互补程度越大，对于具有那些序列的核酸的杂交体的解链温度(Tm)的值越大。对于具有短序列段互补性(例如，在35或更少、30或更少、25或更少、22或更少、20或更少或18或更少个核苷酸上的互补性)的核酸之间的杂交，错配的位置可变得重要(参见Sambrook等，同上,11.7-11.8)。通常，可杂交核酸的长度为8个核苷酸或更多(例如，10个核苷酸或更多、12个核苷酸或更多、15个核苷酸或更多、20个核苷酸或更多、22个核苷酸或更多、25个核苷酸或更多、或30个核苷酸或更多)。根据诸如互补区域的长度和互补程度的因素，可以根据需要调节温度、洗涤溶液盐浓度和其它条件。

应当理解，多核苷酸的序列不需要与其靶核酸的序列100％互补才能特异性杂交或可杂交。此外，多核苷酸可在一个或多个区段上杂交以使得中间区段或相邻区段不涉及杂交事件(例如，凸起、环结构或发夹结构等)。多核苷酸可以与同它杂交的靶核酸序列内的靶区域具有60％或更多、65％或更多、70％或更多、75％或更多、80％或更多、85％或更多、90％或更多、95％或更多、98％或更多、99％或更多、99.5％或更多或100％序列互补性。例如，其中反义化合物的20个核苷酸中的18个与靶区域互补并且因此将特异性杂交的反义核酸将表示90％互补性。在此实例中，剩下的非互补核苷酸可与互补核苷酸集群或穿插在互补核苷酸中并且不需要彼此邻接或与互补核苷酸邻接。可以使用任何方便的方法来确定核酸内特定核酸序列片段之间的互补百分比。示例方法包括BLAST程序(基本局部比对搜索工具)和PowerBLAST程序、Gap程序(例如使用默认设置)等。

术语“肽”、“多肽”和“蛋白质”在本文中可互换使用，并且是指任何长度的氨基酸(其可包括编码和非编码的氨基酸、经化学或生物化学修饰或衍生的氨基酸)的聚合形式，以及具有经修饰的肽骨架的多肽。

如本文所用，“结合”(例如，关于多肽的RNA结合结构域，与靶核酸的结合等)是指大分子之间(例如，蛋白质和核酸之间；在Cas12i多肽/引导RNA复合物与靶核酸之间；等等)的非共价相互作用。当在非共价相互作用的状态下，大分子被称作“缔合”或“相互作用”或“结合”(例如，当分子X被称作与分子Y相互作用时，意指分子X以非共价方式结合分子Y)。不是所有的结合相互作用组分都需要为序列特异性的(例如，与DNA骨架中的磷酸酯残基接触)，但结合相互作用的一些部分可为序列特异性的。结合相互作用的特征通常在于解离常数(K_D)小于10^-6M、小于10^-7M、小于10^-8M、小于10^-9M、小于10^-10M、小于10^-11M、小于10^-12M、小于10^-13M、小于10^-14M或小于10^-15M。“亲和力”是指结合的强度，增加的结合亲和力与较低的K_D相关。

“结合结构域”意指能够非共价结合另一分子的蛋白质结构域。结合结构域可结合例如DNA分子(DNA结合结构域)、RNA分子(RNA结合结构域)和/或蛋白质分子(蛋白质结合结构域)。就具有蛋白质结合结构域的蛋白质来说，在一些实施方式中，它可结合其自身(以形成同源二聚体、同源三聚体等)和/或它可结合不同蛋白质的一个或多个区。

术语“保守氨基酸取代”是指具有类似侧链的氨基酸残基的蛋白质中的可互换性。例如，具有脂肪族侧链的一组氨基酸由甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸组成；具有脂肪族-羟基侧链的一组氨基酸由丝氨酸和苏氨酸组成；具有含酰胺侧链的一组氨基酸由天冬酰胺和谷氨酰胺组成；具有芳香族侧链的一组氨基酸由苯丙氨酸、酪氨酸和色氨酸组成；具有碱性侧链的一组氨基酸由赖氨酸、精氨酸和组氨酸组成；具有酸性侧链的一组氨基酸由谷氨酸酯和天冬氨酸酯组成；并且具有含硫侧链的一组氨基酸由半胱氨酸和甲硫氨酸组成。示例性保守氨基酸取代基团为：缬氨酸-亮氨酸-异亮氨酸、苯丙氨酸-酪氨酸、赖氨酸-精氨酸、丙氨酸-缬氨酸-甘氨酸以及天冬酰胺-谷氨酰胺。

多核苷酸或多肽与另一多核苷酸或多肽具有一定的“序列同一性”百分比，这意味着当比对时碱基或氨基酸的百分数为相同的，并且当比较两个序列时在相同的相对位置上。可以许多不同方式确定序列同一性。为了确定序列同一性，可使用在包括ncbi.nlm.nili.gov/BLAST、ebi.ac.uk/Tools/msa/tcoffee/、ebi.ac.uk/Tools/msa/muscle/、maff t.cbrc.jp/alignment/software/的万维网网址上可获得的各种方便的方法和计算机程序(例如，BLAST、T-COFFEE、MUSCLE、MAFFT等)来比对序列。本文使用的术语“序列同一性”是指在比较窗内基于一个核苷酸接着一个核苷酸或基于一个氨基酸接着一个氨基酸的序列相同的程度。因此，“序列同一性百分比(percentage of sequenceidentity)”如下计算：通过在比较窗内比较两个最佳比对的序列，确定两个序列中出现相同的核酸碱基(例如，A、T、C、G、I)或相同的氨基酸残基(例如，Ala、Pro、Ser、Thr、Gly、Val、Leu、Ile、Phe、Tyr、Trp、Lys、Arg、His、Asp、Glu、Asn、Gln、Cys和Met)的位置数目以产生匹配位置的数目，将匹配位置的数目除以比较窗中位置的总数目(即，窗大小)，并将结果乘以100以得到序列同一性的百分比。

在本发明中，当比对的序列是非连续的两段序列时，序列同一性的计算基于该两段序列的比对结果获得。例如，“与SEQ ID NO.1的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性”是指：(i)与SEQ ID NO.1的aa 1至897的氨基酸序列相比具有至少80％序列同一性，并且与SEQ ID NO.1的aa 1008至1044的氨基酸序列相比具有至少80％序列同一性；或(ii)与SEQ ID NO.1的aa 1至897的氨基酸序列相比具有低于或高于80％序列同一性，并且与SEQ ID NO.1的aa 1008至1044的氨基酸序列相比具有高于或低于80％序列同一性，但在aa 1至897以及aa 1008至1044共934个aa上具有至少80％序列同一性。

术语“至少80％”在本发明中是指80％至100％的任何值，例如80％、85％、90％、90.5％、91％、91.5％、92％、92.5％、93％、93.5％、94％、94.5％、95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或100％。术语“至少95％”在本发明中是指95％至100％的任何值，例如95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或100％。

“编码”具体RNA的DNA序列为转录成RNA的DNA核苷酸序列。DNA多核苷酸可以编码翻译成蛋白质的RNA(mRNA)(因此DNA和mRNA都编码蛋白质)，或者DNA多核苷酸可以编码不翻译成蛋白质的RNA(例如tRNA、rRNA、微小RNA(miRNA)、“非编码”RNA(ncRNA)、引导RNA等)。

“蛋白质编码序列”或编码具体蛋白质或多肽的序列为当置于适当调节序列的控制下时转录成mRNA(在DNA的情况下)并且在体外或体内翻译(在mRNA的情况下)成多肽的核苷酸序列。

本文可互换使用的术语“DNA调节序列”、“控制元件”和“调节元件”是指提供和/或调节非编码序列(例如，引导RNA)或编码序列(例如Cas12i多肽、Cas12i融合多肽等)的转录和/或调节编码多肽的翻译的转录和翻译控制序列，例如启动子、增强子、聚腺苷酸化信号、终止子、蛋白质降解信号等。

如本文所使用，“启动子”或“启动子序列”为能够结合RNA聚合酶并且启动下游(3'方向)编码或非编码序列的转录的DNA调节区。出于本发明的目的，启动子序列在其3'末端上通过转录起始位点结合并且向上游(5'方向)序列段以包括启动高于背景的可检测水平转录所需要的最小数目的碱基或元件。在启动子序列内将发现转录起始位点以及蛋白质结合结构域为造成RNA聚合酶结合的原因。真核生物启动子将经常但不总是含有“TATA”盒和“CAT”盒。包括诱导型启动子的各种启动子可用来驱动本发明的各种载体表达。

如本文所使用适用于核酸、多肽、细胞或生物的术语“天然存在的”或“未修饰的”或“野生型”是指存在于自然中的核酸、多肽、细胞或生物。例如，可从自然中的来源分离的存在于生物中的多肽或多核苷酸序列为天然存在的。

如本文所使用适用于核酸或多肽的术语“融合”是指通过源自不同来源的结构定义的两种组分。例如，当在融合多肽(例如，融合Cas12i蛋白)的上下文中使用“融合”时，融合多肽包括源自不同多肽的氨基酸序列。融合多肽可包含修饰的或天然存在的多肽序列(例如，来自修饰或未修饰的Cas12i蛋白的第一氨基酸序列；和来自除Cas12i蛋白之外的修饰或未修饰蛋白的第二氨基酸序列等)。类似地，在编码融合多肽的多核苷酸的背景下的“融合”包括源自不同编码区的核苷酸序列(例如，编码修饰的或未修饰的Cas12i蛋白的第一核苷酸序列；和编码除了Cas12i蛋白以外的多肽的第二核苷酸序列)。

术语“融合多肽”是指通常通过人干预，通过组合(即，“融合”)氨基酸序列的两个另外分开的区段而制得的多肽。

如本文所用，“异源的”意指分别不存在于天然核酸或蛋白质中的核苷酸或多肽序列。例如，在一些实施方式中，在本发明的融合蛋白中，嵌合Cas12i多肽(或其变体)的一部分可以融合到来自除形成所述嵌合Cas12i多肽的来源之外的蛋白质的氨基酸序列；或来自另一种生物体的氨基酸序列。作为另一个实例，融合Cas12i多肽可包含与异源多肽融合的嵌合Cas12i多肽(或其变体)的全部或部分，所述异源多肽即来自除形成所述嵌合Cas12i多肽的来源之外的蛋白质的多肽或来自另一种生物体的多肽。异源多肽可表现出嵌合Cas12i蛋白或融合Cas12i蛋白也会表现出的活性(例如，酶促活性)(例如，生物素连接酶活性；核定位；等)。异源核酸序列可连接至核酸序列(或其变体)(例如，通过基因工程化)以产生编码融合多肽(融合蛋白)的核苷酸序列。

如本文所使用的“重组”意指具体核酸(DNA或RNA)为克隆、限制、聚合酶链反应(PCR)和/或连接步骤的各种组合的产物，所述步骤产生具有可与天然系统中发现的内源核酸区别开的结构编码或非编码序列的构建体。编码多肽的DNA序列可由cDNA片段或由一系列合成寡核苷酸组装以提供能够由包含在细胞中或无细胞转录和翻译系统中的重组转录单元表达的合成核酸。包含相关序列的基因组DNA还可用于形成重组基因或转录单元。非翻译DNA的序列可存在于开放读码框的5'端或3'端，其中此类序列不干扰编码区的操纵或表达，并且实际上可通过各种机制起到调节希望的产物产生的作用。或者，未翻译的编码RNA的DNA序列(例如，引导RNA)也可被认为是重组的。因此，例如术语“重组”核酸是指非天然存在的，例如通过人干预通过人工组合序列的两个另外分开的区段而制得的核酸。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分离区段(例如，通过遗传工程化技术)来完成。这通常是用编码相同氨基酸、保守氨基酸或非保守氨基酸的密码子来替代一个密码子。可替代地，执行这种操作以将具有所需功能的核酸区段连接在一起以产生所需的功能组合。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分离区段(例如，通过遗传工程化技术)来完成。当重组多核苷酸编码多肽时，编码多肽的序列可为天然存在的(“野生型”)或可为天然存在的序列的变体(例如，突变体)。这种情况的实例是编码野生型蛋白质的DNA(重组体)，其中该DNA序列被密码子优化用于在不天然存在所述蛋白质的细胞(例如，真核细胞)中表达所述蛋白质(例如，在真核细胞中表达CRISPR/Cas RNA引导的多肽，诸如Cas12i(例如嵌合Cas12i；融合Cas12i等等))。因此，密码子优化的DNA可以是重组的和非天然存在的，而由所述DNA编码的蛋白质可以具有野生型氨基酸序列。

因此，术语“重组”多肽未必是指其氨基酸序列不是天然存在的多肽。相反，“重组”多肽通过重组非天然存在的DNA序列来编码，但多肽的氨基酸序列可为天然存在的(“野生型”)或非天然存在的(例如，变体、突变体等)。因此，“重组”多肽为人干预的结果，但可具有天然存在的氨基酸序列。

“载体”或“表达载体”为复制子，如质粒、噬菌体、病毒、人工染色体或粘粒，另一个DNA区段(即“插入物”)可附着至所述复制子以便在细胞中引起所附着的区段的复制。

“表达盒”包含可操作地连接至启动子的DNA编码序列。“可操作地连接”是指并置，其中所述组分处于容许其以预期的方式起作用的关系中。例如，如果启动子影响其转录或表达，则启动子可操作地连接到编码序列(或者编码序列也可以被认为可操作地连接到启动子)。

术语“重组表达载体”或“DNA构建体”在本文中可互换使用，是指包含载体和插入物的DNA分子。通常出于表达和/或繁殖插入物的目的或出于构建其它重组核苷酸序列而产生重组表达载体。插入物可以或可以不可操作地连接至启动子序列并且可以或可以不可操作地连接至DNA调节序列。

当此类DNA引入到细胞内部时，细胞被外源DNA或外源RNA例如重组表达载体“遗传修饰”或“转化”或“转染”。外源DNA的存在导致永久或瞬时的遗传变化。转化DNA可以或可以不整合(共价连接)到细胞基因组中。在例如原核生物、酵母和哺乳动物细胞中，转化DNA可维持在游离元件如质粒上。相对于真核细胞，稳定转化的细胞为其中转化DNA逐渐整合到染色体中以使得通过染色体复制遗传给子细胞的一种细胞。此稳定性通过真核细胞建立包含含有转化DNA的子细胞群的细胞系或克隆的能力来展示。“克隆”为通过有丝分裂源自单个细胞或共同祖先的一群细胞。“细胞系”为能够在体外稳定生长许多代的原代细胞的克隆。

遗传修饰(也称为“转化”)的合适的方法包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送等。遗传修饰的方法的选择通常取决于待转化的细胞类型和在其下发生转化的环境(例如，体外、离体或体内)。

如本文所用，“靶核酸”是多核苷酸(例如DNA，诸如基因组DNA)，其包括被RNA引导的核酸内切酶多肽(例如嵌合Cas12i；融合Cas12i等)靶向的位点(“靶位点”或“靶序列”)。靶序列是Cas12i引导RNA(例如双Cas12i引导RNA或单分子Cas12i引导RNA)的引导序列将与之杂交的序列。合适的杂交条件包括细胞中正常存在的生理条件。对于双链靶核酸，与引导RNA互补并杂交的靶核酸链被称为“互补链”或“靶链”；而与“靶链”互补的靶核酸链(并因此不与引导RNA互补)被称为“非靶链”或“非互补链”。

如本文所用，术语“治疗(treatment)、治疗(treating)”等是指获得所需的药理学和/或生理学效果。就完全或部分预防疾病或其症状而言，所述效果可以是预防性的，并且/或者就部分或完全治愈疾病和/或可归因于所述疾病的副作用而言，所述效果可以是治疗性的。如本文所用，“治疗”涵盖对哺乳动物(例如，人)的疾病的任何治疗，并且包括：(a)在可能易患疾病但还未诊断患有所述疾病的受试者中预防疾病发生；(b)抑制疾病，即阻止其发展；以及(c)缓解疾病，即引起疾病消退。

在本文中可互换使用的术语“个体”、“受试者”、“宿主”和“患者”是指个体生物体，例如哺乳动物，包括但不限于鼠类、猿、人类、非人灵长类动物、有蹄类动物、猫科动物、犬科动物、牛科动物、绵羊、哺乳类农场动物、哺乳类运动动物和哺乳动物宠物。

嵌合Cas12i多肽

本发明的一个方面提供一种工程化的嵌合Cas12i多肽，其包含Nuc结构域，其中所述Nuc结构域来源于第一Cas12i多肽的Nuc结构域，所述工程化的嵌合Cas12i多肽的非Nuc结构域部分来源于第二Cas12i多肽的非Nuc结构域部分，所述第一Cas12i多肽与所述第二Cas12i多肽相比序列同一性不超过80％，并且所述工程化的嵌合Cas12i多肽能够结合核酸，并且任选地切割所述核酸。

在一些实施方式中，第一Cas12i多肽和第二Cas12i多肽具有相同的双叶分区结构，例如均包含识别叶(REC lobe)和核酸酶叶(NUC lobe)。例如，识别叶分为两个Helical-I(包括第一Helical-I和第二Helical-I)、PI(PAM-interacting domain)和Helical-II结构域，而核酸酶叶由WED(wedge domain，包括WED-I和WED-II)、RuvC核酸酶结构域和其他三部分结构域：Helical-III、BH(Bridge Hinge)和Nuc结构域共同构成；RuvC核酸酶结构域被分为序列上不连续的3个部分(包括RuvC-I、RuvC-II和RuvC-III)。在一些实施方式中，第一Cas12i多肽和第二Cas12i多肽缺乏HNH核酸酶结构域，也不含有常见于真核生物的锌指结构域(Cys2/His2锌指、Cys2/Cys2锌指等)。

在一些实施方式中，第一Cas12i多肽和第二Cas12i多肽由N端至C端依次包括WED-I、第一Helical-I、PI、第二Helical-I、Helical-II、WED-II、RuvC-I、Helical-III、BH、RuvC-II、Nuc和RuvC-III结构域。此外，所述嵌合Cas12i多肽由N端至C端依次包括WED-I、第一Helical-I、PI、第二Helical-I、Helical-II、WED-II、RuvC-I、Helical-III、BH、RuvC-II、Nuc和RuvC-III结构域。

第一Cas12i多肽和第二Cas12i多肽可独立地选自WO2023138685A1、WO2023078314A1、WO2023039534A2、US11649444B1或WO2022247873A1中公开的那些Cas12i多肽，通过引用将它们公开的内容完整合并至本文中。

在一些实施方式中，所述工程化的嵌合Cas12i多肽包含或为与SEQ ID NO.1或2所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列。例如，所述工程化的嵌合Cas12i多肽包含或为与SEQ ID NO.1所示的氨基酸序列相比具有至少95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。例如，所述工程化的嵌合Cas12i多肽包含或为与SEQ ID NO.2所示的氨基酸序列相比具有至少95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。

在一些实施方式中，所述工程化的嵌合Cas12i多肽包含或为与SEQ ID NO.3至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列。例如，所述工程化的嵌合Cas12i多肽包含或为与SEQ ID NO.3所示的氨基酸序列相比具有至少95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。例如，所述工程化的嵌合Cas12i多肽包含或为与SEQ ID NO.4所示的氨基酸序列相比具有至少95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。例如，所述工程化的嵌合Cas12i多肽包含或为与SEQ IDNO.5所示的氨基酸序列相比具有至少95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。例如，所述工程化的嵌合Cas12i多肽包含或为与SEQ ID NO.6所示的氨基酸序列相比具有至少95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。

在一些实施方式中，所述工程化的嵌合Cas12i多肽包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ IDNO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列。

例如，所述工程化的嵌合Cas12i多肽包含或为与SEQ ID NO.1的aa 1至897以及aa1008至1044的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性且与SEQ ID NO.1的aa 898至1007的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。例如，所述工程化的嵌合Cas12i多肽包含或为与SEQ ID NO.2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性且与SEQID NO.2的aa 898至1007的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。

在一些实施方式中，所述工程化的嵌合Cas12i多肽包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列。

例如，所述工程化的嵌合Cas12i多肽包含或为与SEQ ID NO.3的aa 1至895以及aa1016至1054的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性且与SEQ ID NO.3的aa 896至1015的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。例如，所述工程化的嵌合Cas12i多肽包含或为与SEQ ID NO.4的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性且与SEQID NO.4的aa 896至1015的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。例如，所述工程化的嵌合Cas12i多肽包含或为与SEQ ID NO.5的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性且与SEQ ID NO.5的aa 896至1015的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。例如，所述工程化的嵌合Cas12i多肽包含或为与SEQ ID NO.6的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性且与SEQ ID NO.6的aa 896至1015的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。

在一些实施方式中，本发明提供一种工程化的嵌合Cas12i多肽，其能够结合核酸，并且任选地切割所述核酸，所述工程化的嵌合Cas12i多肽由N端至C端包含依次连接的第一肽段、第二肽段和第三肽段，其中：所述第一肽段包含或为与SEQ ID NO.1的aa 1至897或SEQ ID NO.3的aa 1至895的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；所述第二肽段包含或为与SEQ ID NO.67至72任一项所示的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；并且所述第三肽段包含或为与SEQ ID NO.1的aa 1008至1044或SEQ ID NO.3的aa 1016至1054的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性氨基酸序列。

在一些实施方式中，本发明提供一种工程化的嵌合Cas12i多肽，其能够结合核酸，并且任选地切割所述核酸，所述工程化的嵌合Cas12i多肽由N端至C端包含依次连接的第一肽段、第二肽段和第三肽段，其中：所述第一肽段包含或为与SEQ ID NO.1的aa 1至897的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；所述第二肽段包含或为与SEQ ID NO.67至72任一项所示的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；并且所述第三肽段包含或为与SEQ ID NO.1的aa 1008至1044的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性氨基酸序列。

在一些实施方式中，本发明提供一种工程化的嵌合Cas12i多肽，其能够结合核酸，并且任选地切割所述核酸，所述工程化的嵌合Cas12i多肽由N端至C端包含依次连接的第一肽段、第二肽段和第三肽段，其中：所述第一肽段包含或为与SEQ ID NO.1的aa 1至897的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；所述第二肽段包含或为与SEQ ID NO.67至72任一项所示的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；并且所述第三肽段包含或为与SEQ ID NO.3的aa 1016至1054的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性氨基酸序列。

在一些实施方式中，本发明提供一种工程化的嵌合Cas12i多肽，其能够结合核酸，并且任选地切割所述核酸，所述工程化的嵌合Cas12i多肽由N端至C端包含依次连接的第一肽段、第二肽段和第三肽段，其中：所述第一肽段包含或为与SEQ ID NO.3的aa 1至895的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；所述第二肽段包含或为与SEQ ID NO.67至72任一项所示的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；并且所述第三肽段包含或为与SEQ ID NO.1的aa 1008至1044的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性氨基酸序列。

在一些实施方式中，本发明提供一种工程化的嵌合Cas12i多肽，其能够结合核酸，并且任选地切割所述核酸，所述工程化的嵌合Cas12i多肽由N端至C端包含依次连接的第一肽段、第二肽段和第三肽段，其中：所述第一肽段包含或为与SEQ ID NO.3的aa 1至895的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；所述第二肽段包含或为与SEQ ID NO.67至72任一项所示的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；并且所述第三肽段包含或为与SEQ ID NO.3的aa 1016至1054的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性氨基酸序列。

在一些实施方式中，其中所述工程化的嵌合Cas12i多肽(i)包含或为与SEQ IDNO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；(ii)包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；或(iii)包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；并且被突变以使其具有以下一个或多个特征：(i)核酸切割活性部分或完全失活，或核酸切割活性增强；(ii)核酸结合活性增强。

在一些实施方式中，所述突变导致所述嵌合Cas12i多肽的核酸结合活性、与引导RNA结合活性和/或核酸切割活性基本不变，例如与亲本嵌合Cas12i多肽相比，核酸结合活性、与引导RNA结合活性和/或核酸切割活性增加或降低约10％以下，例如1％至约10％。

在一些实施方式中，所述突变导致所述嵌合Cas12i多肽的核酸结合活性增强，例如与亲本嵌合Cas12i多肽相比，核酸结合活性增强至少10％，例如10％至500％，10％至100％、10％至200％、10％至300％、10％至50％、10％至30％、10％至20％、50％至100％、50％至200％、50％至300％、100％至200％、或200％至300％。

在一些实施方式中，所述突变导致所述嵌合Cas12i多肽的与引导RNA结合活性增强，例如与亲本嵌合Cas12i多肽相比，与引导RNA结合活性增强至少10％，例如10％至500％，10％至100％、10％至200％、10％至300％、10％至50％、10％至30％、10％至20％、50％至100％、50％至200％、50％至300％、100％至200％、或200％至300％。

在一些实施方式中，所述突变导致所述嵌合Cas12i多肽的核酸切割活性降低，例如与亲本嵌合Cas12i多肽相比，核酸切割活性降低至少10％，例如10％至500％，10％至100％、10％至200％、10％至300％、10％至50％、10％至30％、10％至20％、50％至100％、50％至200％、50％至300％、100％至200％、或200％至300％。在一些实施方式中，所述突变导致所述嵌合Cas12i多肽的核酸切割活性完全丧失。

在一些实施方式中，所述突变导致所述嵌合Cas12i多肽的核酸结合活性增强，例如与亲本嵌合Cas12i多肽相比，核酸结合活性增强至少10％，例如10％至500％，10％至100％、10％至200％、10％至300％、10％至50％、10％至30％、10％至20％、50％至100％、50％至200％、50％至300％、100％至200％、或200％至300％；所述嵌合Cas12i多肽的与引导RNA结合活性增强，例如与亲本嵌合Cas12i多肽相比，与引导RNA结合活性增强至少10％，例如10％至500％，10％至100％、10％至200％、10％至300％、10％至50％、10％至30％、10％至20％、50％至100％、50％至200％、50％至300％、100％至200％、或200％至300％；并且所述嵌合Cas12i多肽的核酸切割活性降低，例如与亲本嵌合Cas12i多肽相比，核酸切割活性降低至少10％，例如10％至500％，10％至100％、10％至200％、10％至300％、10％至50％、10％至30％、10％至20％、50％至100％、50％至200％、50％至300％、100％至200％、或200％至300％、或完全丧失。

在一些实施方式中，所述嵌合Cas12i多肽(i)包含或为与SEQ ID NO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；(ii)包含或为与SEQ IDNO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；或(iii)包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列，并且进一步具有至少一个(例如1至10个，例如1、2、3、4、5、6、7、8、9或10个)氨基酸取代、缺失和/或插入的氨基酸序列。在这样的实施方式中，所述至少一个氨基酸取代、缺失和/或插入可导致所述嵌合Cas12i多肽的核酸结合活性和/或核酸切割活性基本不变，例如与亲本嵌合Cas12i多肽相比，核酸结合活性、与引导RNA结合活性和/或核酸切割活性增加或降低约10％以下，例如1％至约10％。在这样的实施方式中，所述至少一个氨基酸取代、缺失和/或插入可导致所述嵌合Cas12i多肽的核酸结合活性增强，例如与亲本嵌合Cas12i多肽相比，核酸结合活性增强至少10％，例如10％至500％，10％至100％、10％至200％、10％至300％、10％至50％、10％至30％、10％至20％、50％至100％、50％至200％、50％至300％、100％至200％、或200％至300％。在这样的实施方式中，所述至少一个氨基酸取代、缺失和/或插入可导致所述嵌合Cas12i多肽的与引导RNA结合活性增强，例如与亲本嵌合Cas12i多肽相比，与引导RNA结合活性增强至少10％，例如10％至500％，10％至100％、10％至200％、10％至300％、10％至50％、10％至30％、10％至20％、50％至100％、50％至200％、50％至300％、100％至200％、或200％至300％。在这样的实施方式中，所述至少一个氨基酸取代、缺失和/或插入可导致所述嵌合Cas12i多肽的核酸切割活性降低，例如与亲本嵌合Cas12i多肽相比，核酸切割活性降低至少10％，例如10％至500％，10％至100％、10％至200％、10％至300％、10％至50％、10％至30％、10％至20％、50％至100％、50％至200％、50％至300％、100％至200％、或200％至300％、或完全丧失。

在一些实施方式中，本发明提供一种嵌合Cas12i多肽，其(i)包含或为与SEQ IDNO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；(ii)包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；或(iii)包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列，并且根据SEQ ID NO.1所示的序列编号，在D1009位置处具有氨基酸取代。在优选的实施方式中，D1009优选被丙氨酸取代。在一些实施方式中，所述取代导致与亲本嵌合Cas12i多肽相比，核酸切割活性降低至少10％，例如10％至500％，10％至100％、10％至200％、10％至300％、10％至50％、10％至30％、10％至20％、50％至100％、50％至200％、50％至300％、100％至200％、或200％至300％、或完全丧失。

在一些实施方式中，本发明提供一种嵌合Cas12i多肽，其(i)包含或为与SEQ IDNO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；(ii)包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；或(iii)包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列，并且根据SEQ ID NO.1所示的序列编号，在N229位置处具有氨基酸取代。在优选的实施方式中，N229被赖氨酸、精氨酸或组氨酸取代。在更优选的实施方式中，N229被精氨酸取代。

在一些实施方式中，本发明提供一种嵌合Cas12i多肽，其(i)包含或为与SEQ IDNO.1所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；或(ii)包含或为与SEQ ID NO.1的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；并且，所述嵌合Cas12i多肽在D924和S925两个位置中的至少一个处具有氨基酸取代。在优选的实施方式中，D924和S925两个位置中的至少一个被赖氨酸、精氨酸或组氨酸取代。在优选的实施方式中，D924和S925两个位置均被赖氨酸、精氨酸或组氨酸取代。在更优选的实施方式中，D924和S925两个位置中的至少一个被精氨酸取代。在更优选的实施方式中，D924和S925两个位置均被精氨酸取代。

在优选的实施方式中，本发明提供一种嵌合Cas12i多肽，其(i)包含或为与SEQ IDNO.1所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；或(ii)包含或为与SEQ ID NO.1的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；并且，所述嵌合Cas12i多肽在N229、D924和S925三个位置中的至少一个处具有氨基酸取代。在优选的实施方式中，N229、D924和S925三个位置中的至少一个被赖氨酸、精氨酸或组氨酸取代。在优选的实施方式中，N229被赖氨酸、精氨酸或组氨酸取代并且D924和S925两个位置中的至少一个被赖氨酸、精氨酸或组氨酸取代。在优选的实施方式中，N229、D924和S925均被赖氨酸、精氨酸或组氨酸取代。在优选的实施方式中，N229、D924和S925均被精氨酸取代。

在一些实施方式中，所述嵌合Cas12i多肽包含或为SEQ ID NO.1至6所示的氨基酸序列，分别称为“enCas12i-001”、“enCas12i-002”、“enCas12i-003”、“enCas12i-004”、“enCas12i-005”、“enCas12i-006”。在另一些实施方式中，所述嵌合Cas12i多肽在SEQ IDNO.1至6所示的氨基酸序列的基础上具有D1009A或D1019A突变，从而形成“denCas12i”，分别称为“denCas12i-001”(即enCas12i-001(D1009A))、“denCas12i-002”(即enCas12i-002(D1009A))、“denCas12i-003”(即enCas12i-003(D1019A))、“denCas12i-004”(即enCas12i-004(D1019A))、“denCas12i-005”(即enCas12i-005(D1019A))、“denCas12i-006”(即enCas12i-006(D1019A))。在本发明中，这些嵌合Cas12i多肽及其突变体也称为“enCas12i多肽”、“Cas12i多肽”、“Cas12i效应蛋白”“enCas12i效应蛋白”，这些术语在本文可互换使用。

在一些实施方式中，所述嵌合Cas12i多肽的氨基酸(aa)序列长度为1000至1200，例如1000至1100，例如1000至1080、1000至1060、1020至1060、1030至1060、1040至1060、1050至1060、1040、1041、1042、1043、1044、1045、1046、1047、1048、1049、1050、1051、1052、1053、1054、1055、1056、1057、1058、1059或1060。

引导RNA(gRNA)

本发明的另一个方面提供引导RNA。所述引导RNA包含与靶核酸杂交的引导区段和与嵌合Cas12i多肽结合的重复区段。在一些实施方式中，所述引导RNA不包含且不结合tracrRNA。

引导RNA的引导区段也称靶向区段，其包含与靶核酸(例如，靶dsDNA、靶ssRNA、靶ssDNA、双链靶DNA的互补链等)内的特定序列(靶位点)互补(并因此杂交)的核苷酸序列(引导序列)。引导RNA的重复区段也称蛋白质结合区段(“蛋白质结合序列”或crRNA)，其与本发明提供的嵌合Cas12i多肽相互作用(结合)。靶核酸(例如，基因组DNA、dsDNA、RNA等)的位点特异性结合可发生在由引导RNA(引导序列)与靶核酸之间的碱基配对互补性确定的位置(例如，靶基因座的靶序列)处。

在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比为60％或更高(例如，65％或更高、70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比为100％。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在靶核酸的靶位点最3'端的七个连续核苷酸上为100％。

在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60％或更高(例如，70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100％。

在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如，20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60％或更高(例如，70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如，20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如，20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如，20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100％。

在一些实施方案中，引导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为60％或更高(例如，70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为100％。

在一些实施方案中，引导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为60％或更高(例如，70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为100％。

在一些实施方式中，引导序列具有在17-30个核苷酸(nt)(例如，17-25个、17-22个、17-20个、19-30个、19-25个、19-22个、19-20个、20-30个、20-25个或20-22个nt)的范围内的长度。在一些实施方式中，引导序列具有在17-25个核苷酸(nt)(例如，17-22个、17-20个、19-25个、19-22个、19-20个、20-25个或20-22个nt)的范围内的长度。在一些实施方式中，引导序列具有17或更多个nt(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个或者22个或更多个nt；19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些实施方式中，引导序列具有19个或更多个nt(例如，20个或更多个、21个或更多个或者22个或更多个nt；19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些实施方式中，引导序列具有17个nt的长度。在一些实施方式中，引导序列具有18个nt的长度。在一些实施方式中，引导序列具有19个nt的长度。在一些实施方式中，引导序列具有20个nt的长度。在一些实施方式中，引导序列具有21个nt的长度。在一些实施方式中，引导序列具有22个nt的长度。在一些实施方式中，引导序列具有23个nt的长度。在一些实施方式中，引导序列具有15至50个核苷酸的长度(例如，15个核苷酸(nt)至20nt、20nt至25nt、25nt至30nt、30nt至35nt、35nt至40nt、40nt至45nt或45nt至50nt)。

在本发明的一些实施方式中，引导RNA的重复区段(蛋白质结合区段)为单段核苷酸序列，其不与tracrRNA互补配对，也不以其他方式与tracrRNA结合。因此，在所形成的CRISPR-Cas系统或复合物中不包含tracrRNA。

具体地，重复区段的序列长度可以为15至100个nt，例如20-80nt、20-50nt、20至40nt，例如20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个nt。

在一些实施方式中，所述引导RNA的重复区段包含或为SEQ ID NO.7至14任一个所示的核苷酸序列或与SEQ ID NO.7至14任一项所示的核苷酸序列相比具有1至10个(例如1、2、3、4、5、6、7、8、9或10个)核苷酸替换、缺失和/或插入的核苷酸序列。

在这样的实施方式中，所述至少一个核苷酸替换、缺失和/或插入可导致所述重复区段的嵌合Cas12i多肽结合活性基本不变，例如与亲本核苷酸序列相比，嵌合Cas12i多肽结合活性增加或降低约10％以下，例如1％至约10％。在这样的实施方式中，所述至少一个核苷酸替换、缺失和/或插入可导致嵌合Cas12i多肽结合活性增强，例如与亲本核苷酸序列相比，嵌合Cas12i多肽结合活性增强至少10％，例如10％至500％，10％至100％、10％至200％、10％至300％、10％至50％、10％至30％、10％至20％、50％至100％、50％至200％、50％至300％、100％至200％、或200％至300％。在这样的实施方式中，所述至少一个核苷酸替换、缺失和/或插入可导致嵌合Cas12i多肽结合活性降低，例如与亲核苷酸序列相比，嵌合Cas12i多肽结合活性降低至少10％，例如10％至500％，10％至100％、10％至200％、10％至300％、10％至50％、10％至30％、10％至20％、50％至100％、50％至200％、50％至300％、100％至200％、或200％至300％。任何在所述至少一个核苷酸替换、缺失和/或插入后仍保留嵌合Cas12i多肽结合活性的核苷酸序列均在本发明的范围之内。

在一些实施方式中，所述引导RNA的重复区段包含或为SEQ ID NO.7所示的核苷酸序列。在一些实施方式中，所述引导RNA的重复区段包含或为SEQ ID NO.8所示的核苷酸序列。在一些实施方式中，所述引导RNA的重复区段包含或为SEQ ID NO.9所示的核苷酸序列。在一些实施方式中，所述引导RNA的重复区段包含或为SEQ ID NO.10所示的核苷酸序列。在一些实施方式中，所述引导RNA的重复区段包含或为SEQ ID NO.11所示的核苷酸序列。在一些实施方式中，所述引导RNA的重复区段包含或为SEQ ID NO.12所示的核苷酸序列。在一些实施方式中，所述引导RNA的重复区段包含或为SEQ ID NO.13所示的核苷酸序列。在一些实施方式中，所述引导RNA的重复区段包含或为SEQ ID NO.14所示的核苷酸序列。采用最小自由能算法(Minimum Free Energy,MFE)计算引导RNA的重复区段的二级结构，如图1所示。

在一些实施方式中所述引导RNA的重复区段可包括可以形成茎和茎环结构的回文区。在一些实施方式中，所述回文区包括由5至15个碱基对(bp)形成的茎结构，例如8至12个bp或10至15个bp，例如7、8、9、10、11、12、13、14或15个bp。在一些实施方式中，并非茎结构中的所有核苷酸都是配对的，因此茎结构可包含凸起。本文中的术语“凸起”用于意指一段核苷酸(其可以是一个核苷酸)，这段核苷酸对茎结构没有贡献，但是在5'端和3'端被有贡献的核苷酸围绕，因此凸起被认为是茎结构的一部分。在一些实施方式中，茎结构包含1个或更多个凸起(例如，2个或更多个、3个或更多个、4个或更多个凸起)。在一些实施方式中，茎结构包含2个或更多个凸起(例如，3个或更多个、4个或更多个凸起)。在一些实施方式中，茎结构包含1-5个凸起(例如，1-4个、1-3个、2-5个、2-4个或2-3个凸起)。

在一些实施方式中，所述引导RNA包含或为SEQ ID NO.15至22任一个所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数，例如15至30、15至20、17至25、17至22、18至22、18至20、20至25或25至30，例如可以为15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30。在一些实施方式中，所述引导RNA包含或为SEQ ID NO.15所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数。在一些实施方式中，所述引导RNA包含或为SEQ ID NO.16所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数。在一些实施方式中，所述引导RNA包含或为SEQ ID NO.17所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数。在一些实施方式中，所述引导RNA包含或为SEQ ID NO.18所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数。在一些实施方式中，所述引导RNA包含或为SEQ IDNO.19所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数。在一些实施方式中，所述引导RNA包含或为SEQ ID NO.20所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数。在一些实施方式中，所述引导RNA包含或为SEQ ID NO.21所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数。在一些实施方式中，所述引导RNA包含或为SEQ ID NO.22所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数。

在本发明中，引导RNA可被修饰。在一些实施方案中，引导RNA具有一个或多个修饰(例如，碱基修饰、骨架修饰等)以对核酸提供新的或增强的特征(例如，改进的稳定性)。合适的核酸修饰包括但不限于：2'-O甲基修饰的核苷酸、2'-氟修饰的核苷酸、锁核酸(LNA)修饰的核苷酸、肽核酸(PNA)修饰的核苷酸、具有硫代磷酸酯键的核苷酸和5'帽(例如，7-甲基鸟苷酸帽(m7G))。

例如，修饰包含适配子。适配子是一种结合特异性靶分子的合成寡核苷酸；例如，已经通过重复数轮的体外选择或SELEX(指数富集配体系统进化法)被工程化为结合不同分子的核苷酸分子靶向诸如小分子、蛋白质、核酸以及甚至细胞、组织和生物体。适配子可提供类似抗体的分子识别特性，且其在治疗性应用中几乎不引发免疫原性。

CRISPR-Cas12i系统

CRISPR/Cas效应多肽(例如，嵌合Cas12i蛋白)与相应的引导RNA(例如，嵌合Cas12i引导RNA)相互作用(结合)以形成核糖核蛋白(RNP)复合物，所述复合物通过引导RNA与靶核酸分子内的靶序列之间的碱基配对被靶向至靶核酸(例如，靶DNA)中的特定位点。引导RNA包括与靶核酸的序列(靶位点)互补的核苷酸序列(引导序列)。因此，嵌合Cas12i蛋白与嵌合Cas12i引导RNA形成复合物，并且引导RNA通过引导序列为RNP复合物提供序列特异性。换言之，嵌合Cas12i蛋白借助于其与引导RNA缔合而被引导至靶核酸序列(例如染色体序列或染色体外序列，例如游离型序列、微环序列、线粒体序列、叶绿体序列等)内的靶位点(例如在靶位点处稳定)。

因此，本发明的一个方面提供一种CRISPR-Cas系统，其包含：(a)Cas12i多肽，所述Cas12i多肽为本发明提供的任一工程化的嵌合Cas12i多肽；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些实施方式中，在本发明提供的CRISPR-Cas系统中，所述Cas12i多肽为任何一个在上文“嵌合Cas12i多肽”小节描述的嵌合Cas12i多肽。在一些实施方式中，在本发明提供的CRISPR-Cas系统中，所述引导RNA为任何一个在上文“引导RNA(gRNA)”小节描述的引导RNA。

在一些具体的实施方式中，本发明提供一种CRISPR-Cas系统，其包含：(a)Cas12i多肽，所述Cas12i多肽包含或为与SEQ ID NO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种CRISPR-Cas系统，其包含：(a)Cas12i多肽，所述Cas12i多肽包含Nuc结构域，其中所述Nuc结构域来源于第一Cas12i多肽的Nuc结构域，所述工程化的嵌合Cas12i多肽的非Nuc结构域部分来源于第二Cas12i多肽的非Nuc结构域部分，所述第一Cas12i多肽与所述第二Cas12i多肽相比序列同一性不超过80％，并且所述工程化的嵌合Cas12i多肽能够结合核酸，并且任选地切割所述核酸；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种CRISPR-Cas系统，其包含：(a)Cas12i多肽，所述Cas12i多肽包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种CRISPR-Cas系统，其包含：(a)Cas12i多肽，所述Cas12i多肽包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种CRISPR-Cas系统，其包含：(a)Cas12i多肽，所述Cas12i多肽包含或为与SEQ ID NO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列并且根据SEQ ID NO.1所示的序列编号，在D1009位置处具有氨基酸取代，优选被丙氨酸取代；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种CRISPR-Cas系统，其包含：(a)Cas12i多肽，所述Cas12i多肽包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列并且根据SEQ ID NO.1所示的序列编号，在D1009位置处具有氨基酸取代，优选被丙氨酸取代；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种CRISPR-Cas系统，其包含：(a)Cas12i多肽，所述Cas12i多肽包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列并且根据SEQ ID NO.1所示的序列编号，在D1009位置处具有氨基酸取代，优选被丙氨酸取代；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种CRISPR-Cas系统，其包含：(a)Cas12i多肽，所述Cas12i多肽包含或为与SEQ ID NO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列并且根据SEQ ID NO.1所示的序列编号，在N229位置处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种CRISPR-Cas系统，其包含：(a)Cas12i多肽，所述Cas12i多肽包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列并且根据SEQ ID NO.1所示的序列编号，在N229位置处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种CRISPR-Cas系统，其包含：(a)Cas12i多肽，所述Cas12i多肽包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列并且根据SEQ ID NO.1所示的序列编号，在N229位置处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种CRISPR-Cas系统，其包含：(a)Cas12i多肽，其包含或为与SEQ ID NO.1所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列，并且在N229、D924和S925三个位置的至少一个处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种CRISPR-Cas系统，其包含：(a)Cas12i多肽，其包含与或为SEQ ID NO.1的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列，并且在N229、D924和S925三个位置的至少一个处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，在以上所述的任何一种CRISPR-Cas系统中，所述引导RNA包含与所述靶核酸杂交的引导区段和与Cas12i多肽结合的重复区段，并且所述引导RNA不包含且不结合tracrRNA。

在一些具体的实施方式中，在以上所述的任何一种CRISPR-Cas系统中，所述引导RNA的重复区段包含或为SEQ ID NO.7至14任一项所示的核苷酸序列或与SEQ ID NO.7至14任一项所示的核苷酸序列相比具有1至10个核苷酸替换、缺失和/或插入的核苷酸序列。

在一些具体的实施方式中，在以上所述的任何一种CRISPR-Cas系统中，所述引导RNA的重复区段为SEQ ID NO.7至14任一项所示的核苷酸序列。

在一些具体的实施方式中，在以上所述的任何一种CRISPR-Cas系统中，所述引导RNA的包含或为SEQ ID NO.15至22任一个所示的核苷酸序列。

嵌合Cas12i多肽在由靶向靶核酸的RNA与靶核酸之间的互补性区域限定的靶序列处与靶核酸结合。双链靶核酸的位点特异性结合发生在由以下二者确定的位置处：(i)引导RNA与靶核酸之间的碱基配对互补性；和(ii)靶核酸中的原间隔序列相邻基序(PAM)。

本发明的CRISPR-Cas12i系统识别并结合靶核酸的过程需要靶序列上/下游的一段短保守序列，即前间区序列临近基序(protospacer adjacent motif，PAM)的参与。gRNA介导Cas12i蛋白识别靶点序列5’端PAM，当PAM出现特定的碱基组成特征时，催化该靶点序列附近的DNA双链解链，引导RNA的靶向区段(引导区段)通过碱基互补配对与DNA双链中的靶向链杂交形成RNA-DNA异源双链复合体，进而与靶核酸链结合。经过实验测试发现，本发明的嵌合Cas12i多肽的PAM序列为5'-TTN(N＝A、T、C或G)、5'-ATN(N＝A、T、C或G)、5'-TAN(N＝A、T、C或G)、或5'-AAN(N＝A、T、C或G)。

融合多肽

本发明的另一个方面提供一种融合多肽，其包含与一个或多个异源多肽融合的嵌合Cas12i多肽，所述嵌合Cas12i多肽包含Nuc结构域，其中所述Nuc结构域来源于第一Cas12i多肽的Nuc结构域，所述工程化的嵌合Cas12i多肽的非Nuc结构域部分来源于第二Cas12i多肽的非Nuc结构域部分，所述第一Cas12i多肽与所述第二Cas12i多肽相比序列同一性不超过80％，并且所述工程化的嵌合Cas12i多肽能够结合核酸，并且优选地所述嵌合Cas12i不切割所述核酸或只切割所述核酸的单链。

在一些实施方式中，本发明提供一种融合多肽，其包含与一个或多个异源多肽融合的Cas12i多肽，所述Cas12i多肽为任何一个在上文“嵌合Cas12i多肽”小节描述的嵌合Cas12i多肽。

在一些实施方式中，本发明提供一种融合多肽，其包含与一个或多个异源多肽融合的Cas12i多肽，所述Cas12i多肽包含或为与SEQ ID NO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列。

在一些实施方式中，本发明提供一种融合多肽，其包含与一个或多个异源多肽融合的Cas12i多肽，所述Cas12i多肽包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列。

在一些实施方式中，本发明提供一种融合多肽，其与一个或多个异源多肽融合的Cas12i多肽，所述Cas12i多肽包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列。

在一些实施方式中，本发明提供一种融合多肽，其包含与一个或多个异源多肽融合的Cas12i多肽，所述Cas12i多肽包含或为与SEQ ID NO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列并且根据SEQ ID NO.1所示的序列编号，在D1009位置处具有氨基酸取代，优选被丙氨酸取代。

在一些实施方式中，本发明提供一种融合多肽，其包含与一个或多个异源多肽融合的Cas12i多肽，所述Cas12i多肽包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列，并且根据SEQ ID NO.1所示的序列编号，在D1009位置处具有氨基酸取代，优选被丙氨酸取代。

在一些实施方式中，本发明提供一种融合多肽，其与一个或多个异源多肽融合的Cas12i多肽，所述Cas12i多肽包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列，并且根据SEQ ID NO.1所示的序列编号，在D1009位置处具有氨基酸取代，优选被丙氨酸取代。

在一些实施方式中，本发明提供一种融合多肽，其包含与一个或多个异源多肽融合的Cas12i多肽，所述Cas12i多肽(i)包含或为与SEQ ID NO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；(ii)包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；或(iii)包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列，并且根据SEQ ID NO.1所示的序列编号，在D1009位置处具有氨基酸取代，优选被丙氨酸取代；并且所述一个或多个异源多肽独立地选自为表位标签、核定位信号或具有以下一种或多种酶促活性：逆转录酶活性、核酸酶活性、甲基转移酶活性、脱甲基化酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、脱泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如来自O-GlcNAc转移酶)和脱糖基化活性、DNA修复活性、DNA损伤活性、脱氨酶活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活。

在一些实施方式中，本发明提供一种融合多肽，其包含与一个或多个异源多肽融合的Cas12i多肽，所述Cas12i多肽(i)包含或为与SEQ ID NO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；(ii)包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；或(iii)包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列，并且根据SEQ ID NO.1所示的序列编号，在D1009位置处具有氨基酸取代，优选被丙氨酸取代；并且所述一个或多个异源多肽独立地选自为表位标签、核定位信号或具有以下一种或多种酶促活性：脱氨酶活性、甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性和脱乙酰酶活性。

在一些实施方式中，本发明提供一种融合多肽，其包含与一个或多个异源多肽融合的Cas12i多肽，所述Cas12i多肽(i)包含或为与SEQ ID NO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；(ii)包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；或(iii)包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列，并且根据SEQ ID NO.1所示的序列编号，在D1009位置处具有氨基酸取代，优选被丙氨酸取代；所述一个或多个异源多肽独立地为转录阻遏结构域(在本文中也称为转录抑制结构域)、转录激活结构域或脱氨酶结构域。

在具体的实施方式中，本发明提供一种融合多肽，其包含与转录阻遏结构域融合的Cas12i多肽，所述Cas12i多肽(i)包含或为与SEQ ID NO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；(ii)包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；或(iii)包或为含与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列，并且根据SEQ ID NO.1所示的序列编号，在D1009位置处具有氨基酸取代，优选被丙氨酸取代。

在具体的实施方式中，本发明提供一种融合多肽，其包含与转录激活结构域融合的Cas12i多肽，所述Cas12i多肽(i)包含或为与SEQ ID NO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；(ii)包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；或(iii)包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列，并且根据SEQ ID NO.1所示的序列编号，在D1009位置处具有氨基酸取代，优选被丙氨酸取代。

在具体的实施方式中，本发明提供一种融合多肽，其包含与脱氨酶结构域融合的Cas12i多肽，所述Cas12i多肽(i)包含或为与SEQ ID NO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；(ii)包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；或(iii)包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列，并且根据SEQ ID NO.1所示的序列编号，在D1009位置处具有氨基酸取代，优选被丙氨酸取代。

可用于增加转录的蛋白质(或其片段)的实例包括但不限于：转录激活因子，例如VP16、VP64、VP48、VP160、p65亚结构域(例如，来自NFkB)以及EDLL的激活结构域和/或TAL激活结构域(例如，针对植物中的活性)；组蛋白赖氨酸甲基转移酶，例如SET1A、SET1B、MLL1-5、ASH1、SYMD2、NSD1等；组蛋白赖氨酸脱甲基酶，例如JHDM2a/b、UTX、JMJD3等；组蛋白乙酰转移酶，例如GCN5、PCAF、CBP、p300、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、SRC1、ACTR、P160、CLOCK等；以及DNA脱甲基酶，例如TET1CD、TET1、DME、DML1、DML2、ROS1等。

可用于减少转录的蛋白质(或其片段)的实例包括但不限于：转录阻遏物，例如Krüppel相关盒(KRAB或SKD)；ZIM3结构域；KOX1阻遏结构域；Mad mSIN3相互作用结构域(SID)；ERF阻遏物结构域(ERD)、SRDX阻遏结构域(例如，针对动物中的阻遏)等；组蛋白赖氨酸甲基转移酶，例如Pr-SET7/8、SUV4-20H1、RIZ1等；组蛋白赖氨酸脱甲基酶，例如JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY等；组蛋白赖氨酸脱乙酰酶，例如HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等；DNA甲基化酶，例如HhaIDNA m5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、DNA甲基转移酶3L(DNMT3L)、DNA甲基转移酶3c(DNMT3c)、METI、DRM3、ZMET2、CMT1、CMT2等；以及外周募集元件，例如核纤层蛋白A、核纤层蛋白B等。

在一些实施方式中，所述异源多肽还可以选自具有修饰靶核酸(例如，ssRNA、dsRNA、ssDNA、dsDNA)的酶活性的分子，包括但不限于：核酸酶活性，例如由限制性酶(例如，FokI核酸酶)提供的活性；甲基转移酶活性，例如由甲基转移酶(例如，HhaIDNAm5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2等)提供的活性；脱甲基酶活性，例如由脱甲基酶(例如；TET1CD、TET1、DME、DML1、DML2、ROS1等)提供的活性；DNA修复活性；DNA损伤活性；脱氨基活性，例如由脱氨酶(例如，胞嘧啶脱氨酶，例如大鼠APOBEC1)提供的活性；歧化酶活性；烷基化活性；脱嘌呤活性；氧化活性；嘧啶二聚体形成活性；整合酶活性，例如由整合酶和/或解离酶(例如，Gin转化酶，例如Gin转化酶的过度活跃突变体GinH106Y、人免疫缺陷病毒1型整合酶(IN)、Tn3解离酶等)提供的活性；转座酶活性；重组酶活性，例如由重组酶(例如，Gin重组酶的催化结构域)提供的活性；聚合酶活性；连接酶活性；解旋酶活性；光裂合酶活性和糖基化酶活性)。

在一些实施方式中，所述异源多肽还可以选自具有修饰与靶核酸(例如，ssRNA、dsRNA、ssDNA、dsDNA)相关联的蛋白质(例如，组蛋白、RNA结合蛋白、DNA结合蛋白等)酶活性的分子，包括但不限于：甲基转移酶活性，例如由组蛋白甲基转移酶(HMT)、常染色体组蛋白赖氨酸甲基转移酶2(G9A，也称为KMT1C和EHMT2)、SUV39H2、ESET/SETDB1等、SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1、DOT1L、Pr-SET7/8、SUV4-20H1、EZH2、RIZ1)提供的活性；脱甲基酶活性，例如由组蛋白脱甲基酶(例如，赖氨酸脱甲基酶1A(KDM1A，也称为LSD1)、JHDM2a/b、JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY、UTX、JMJD3等)提供的活性；乙酰转移酶活性，例如由组蛋白乙酰转移酶(例如，人乙酰转移酶p300、GCN5、PCAF、CBP、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、HBO1/MYST2、HMOF/MYST1、SRC1、ACTR、P160、CLOCK等的催化核心/片段)提供的活性；脱乙酰酶活性，例如由组蛋白脱乙酰酶(例如，HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等)提供的活性；激酶活性；磷酸酶活性；泛素连接酶活性；去泛素化活性；腺苷酸化活性；脱腺苷酸化活性；SUMO化活性；脱SUMO化活性；核糖基化活性；脱核糖基化活性；豆蔻酰化活性和脱豆蔻酰化活性。

在一些实施方式中，所述异源多肽选自表位标签(epitope tag)。这类表位标签为现有常规的标签，包括但不限于His、V5、FLAG、HA、Myc、VSV-G、Trx等，并且本领域技术人员已知如何根据期望目的(例如，纯化、检测或示踪)选择合适的表位标签。

在一些实施方式中，所述异源多肽选自报告基因序列，这类报告基因是本领域技术人员熟知的，其实例包括但不限于GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP等。

在一些实施方式中，所述异源多肽选自能够与DNA分子或细胞内分子结合的结构域，例如麦芽糖结合蛋白(MBP)、Lex A的DNA结合结构域(DBD)、GAL4的DBD等。

在一些实施方式中，所述异源多肽还可以是可检测信号的酶、放射性同位素、特异性结合对的成员、荧光团、荧光蛋白、量子点等。

在一些实施方式中，本发明提供的Cas12i融合多肽包含：i)本发明提供的嵌合Cas12i多肽；和ii)核酸酶。合适的核酸酶包括但不限于归巢核酸酶多肽；Fok1多肽；转录激活因子样效应核酸酶(TALEN)多肽；MegaTAL多肽；大范围核酸酶多肽；锌指核酸酶(ZFN)；ARCUS核酸酶；等等。大范围核酸酶可以由LADLIDADG归巢核酸内切酶(LHE)改造而来。MegaTAL多肽可以包含TALE DNA结合结构域和工程化大范围核酸酶。

在一些实施方式中，本发明提供的Cas12i融合多肽包含：i)本发明提供的嵌合Cas12i多肽；和ii)逆转录酶多肽。在某些情况下，嵌合Cas12i多肽没有催化活性。合适的逆转录酶包括例如鼠白血病病毒逆转录酶；劳斯肉瘤病毒逆转录酶；人免疫缺陷病毒I型逆转录酶；莫洛尼鼠白血病病毒逆转录酶；等等。

在一些实施方式中，本发明提供的Cas12i融合多肽包含：i)本发明提供的嵌合Cas12i多肽；和ii)脱氨酶。合适的脱氨酶包括腺苷脱氨酶(如TadA脱氨酶，如TadA、ecTadA、saTadA、ecTadA7.10、TadA-8e、TadA8.17、TadA8.20、TadA9或其组合等)或胞苷脱氨酶(例如AID、APOBEC3G等)。合适的腺苷脱氨酶是能够使DNA中的腺苷脱氨基的任何酶。在一些实施方式中，脱氨酶是TadA脱氨酶。

在一些实施方式中，合适的腺苷脱氨酶包含或为与SEQ ID NO:23至31任一个所示的氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列。

合适的胞苷脱氨酶包括能够使DNA中的胞苷脱氨基的任何酶。在一些实施方式中，胞苷脱氨酶是来自脱氨酶的载脂蛋白B mRNA-编辑复合物(APOBEC)家族的脱氨酶。在一些实施方式中，APOBEC家族脱氨酶选自由以下构成的组：APOBEC1脱氨酶、APOBEC2脱氨酶、APOBEC3A脱氨酶、APOBEC3B脱氨酶、APOBEC3C脱氨酶、APOBEC3D脱氨酶、APOBEC3F脱氨酶、APOBEC3G脱氨酶和APOBEC3H脱氨酶。在一些实施方式中，胞苷脱氨酶是激活诱导的脱氨酶(AID)。

在一些实施方式中，合适的胞苷脱氨酶包含或为与SEQ ID NO:32至34任一个所示的氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列。

在一些实施方式中，本发明提供的Cas12i融合多肽包含：i)本发明提供的嵌合Cas12i多肽；和ii)转录因子。转录因子可以包括：i)DNA结合结构域；和ii)转录激活因子。转录因子可以包括：i)DNA结合结构域；和ii)转录阻遏子。合适的转录因子包括包含转录激活因子或转录抑制子结构域的多肽(例如，相关框(KRAB或SKD))；Mad mSIN3相互作用结构域(SID)；ERF阻遏结构域(ERD)等)；基于锌指的人工转录因子；基于TALE的人工转录因子；等等。在一些实施方式中，转录因子包括VP64多肽(转录激活)。在某些情况下，转录因子包含相关盒(KRAB)多肽(转录抑制)。在一些实施方式中，转录因子包括MadmSIN3相互作用结构域(SID)多肽(转录阻遏)。在一些实施方式中，转录因子包括ERF阻遏子结构域(ERD)多肽(转录阻遏)。在一些实施方式中，转录因子包括DNMT3A-DNMT3L(转录阻遏)。在一些实施方式中，转录因子是转录激活因子，其中转录激活因子是GAL4-VP16。在一些实施方式中，转录因子是转录激活因子，其中转录激活因子是VP64；P65；RTA；截短的P65；截短的RTA；或它们各自或之间的一个或多个的融合形式。

在一些实施方式中，本发明提供的Cas12i融合多肽包含：i)本发明提供的嵌合Cas12i多肽；和ii)重组酶。合适的重组酶包括例如Cre重组酶；Hin重组酶；Tre重组酶；FLP重组酶；等等。

在一些实施方式中，异源多肽提供亚细胞定位，即异源多肽含有亚细胞定位序列(例如，用于靶向细胞核的核定位信号(NLS)、用于将融合蛋白保持在细胞核外的序列(例如核输出序列(NES))、用于将融合蛋白保留在细胞质中的序列、用于靶向线粒体的线粒体定位信号、用于靶向叶绿体的叶绿体定位信号、ER保留信号等)。在一些实施方案中，Cas12i融合多肽不包括NLS，使得蛋白质不靶向细胞核(这可能是有利的，例如，当靶核酸是存在于胞质溶胶中的RNA时)。

在一些实施方式中，Cas12i融合多肽包含(融合有)核定位信号(NLS)(例如，在一些实施方式中，2个或更多、3个或更多、4个或更多、或5个或更多个NLS)。因此，在一些实施方式中，Cas12i融合多肽包括一个或多个NLS(例如，2个或更多个、3个或更多个、4个或更多个或5个或更多个NLS)。在一些实施方式中，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)定位在N末端和/或C末端处或附近(例如，在50个氨基酸内)。在一些实施方式中，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)定位在N末端处或附近(例如，在50个氨基酸内)。在一些实施方式中，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)定位在C末端处或附近(例如，在50个氨基酸内)。在一些实施方式中，一个或多个NLS(3个或更多个、4个或更多个或者5个或更多个NLS)定位在N末端和C末端二者处或附近(例如，在50个氨基酸内)。在一些实施方式中，一个或多个NLS定位在N末端，并且一个或多个NLS定位在C末端。具体地，核定位信号(NLS)连接顺序可以为：NH₂-[enCas12i]-[NLS]-COOH；NH₂-[NLS]-[enCas12i]-COOH；其中]-[表示可任选地存在的根据下文定义的连接肽(下同)。

在一些实施方式中，Cas12i融合多肽包含(融合有)1至10个NLS(例如，1-9、1-8、1-7、1-6、1-5、2-10、2-9、2-8、2-7、2-6或2-5个NLS)。在一些实施方式中，Cas12i融合多肽包含(融合有)2至5个NLS(例如，2-4个或2-3个NLS)。

NLS的非限制性实例包括如SEQ ID NO.35至50的任一项所示的氨基酸序列。

在一些实施方式中，Cas12i融合多肽包含“蛋白转导结构域”或PTD(又称为CPP–细胞穿透肽)，其是指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。连接至另一个分子(所述分子可在小极性分子至大的高分子和/或纳米颗粒的范围内)的PTD促进分子横穿膜，例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器内。在一些实施方案中，PTD与嵌合Cas12i多肽氨基末端共价连接以生成融合蛋白。在一些实施方案中，PTD与嵌合Cas12i多肽的羧基末端共价连接以生成融合蛋白。在一些实施方式中，PTD在合适的插入位点处内插在Cas12i融合多肽中(即，不在Cas12i融合多肽的N端或C端)。在一些实施方式中，Cas12i融合多肽包含(缀合至、融合至)一个或多个PTD(例如，两个或更多个、三个或更多个、四个或更多个PTD)。在一些实施方式中，PTD包括核定位信号(NLS)(例如，在一些实施方式中，2个或更多个、3个或更多个、4个或更多个或5个或更多个NLS)。

在一些实施方案中，Cas12i多肽可经由一个或多个接头多肽(或称连接肽)与异源多肽融合。接头多肽可具有多种氨基酸序列中的任一种。蛋白质可通过间隔肽连接，间隔肽通常具有柔性性质，但不排除其他化学键。合适的接头包括长度在4至40个氨基酸之间或者长度在4至25个氨基酸之间的多肽。这些接头可通过使用合成的编码接头的寡核苷酸来产生以偶联蛋白质，或者可由编码融合蛋白的核酸序列编码。可使用具有一定程度柔性的肽接头。连接肽实际上可具有任何氨基酸序列，应记住优选的接头将具有产生总体上柔性的肽的序列。小氨基酸(诸如甘氨酸和丙氨酸)的用途用于产生柔性肽。对于本领域技术人员来说，产生此类序列是常规的。多种不同的接头是可商购获得的并且被认为是适合使用的。

接头多肽的实例包括甘氨酸聚合物(G)n、甘氨酸-丝氨酸聚合物、甘氨酸-丙氨酸聚合物、丙氨酸-丝氨酸聚合物。示例性接头可包含氨基酸序列，所述氨基酸序列包括但不限于GGSG、GGSGG(SEQ ID NO:51)、GSGSG(SEQ ID NO:52)、GSGGG(SEQ ID NO:53)、GGGSG(SEQ ID NO:54)、GSSSG(SEQ ID NO:55)、SGGSGGSGGS(SEQ ID NO:87)等。连接肽还可以是各种XTEN linker等，XTEN linker的长度约为16-80个氨基酸，XTEN linker可以为XTEN16linker、XTEN80 linker(SEQ ID NO:86)。更具体的，该连接肽包括但不限于SEQ ID NO.56至58、83和86所示的氨基酸序列。本领域技术人员将认识到，与任何所需元件缀合的肽的设计可包括全部或部分柔性的接头，使得接头可包括柔性接头以及赋予较少柔性结构的一个或多个部分。

在一些实施方式中，本发明提供一种用于形成表观遗传编辑器的融合多肽，其包含或为与SEQ ID NO.88至93任一个所示的氨基酸序列具有至少80％序列同一性的氨基酸序列。

在一些实施方式中，本发明提供一种用于形成碱基编辑器的融合多肽，其包含或为与SEQ ID NO.94至97任一个所示的氨基酸序列具有至少80％序列同一性的氨基酸序列。

Cas12i融合蛋白：gRNA复合物

本发明的另一个方面提供一种复合物，其包含本发明提供的任何一个Cas12i融合多肽以及本发明提供的任何一个引导RNA，所述引导RNA与所述融合多肽复合以引导所述融合多肽结合至靶核酸。

在一些实施方式中，所述复合物是表观遗传编辑器，其包含与转录激活结构域或转录抑制结构域(统称为转录调控结构域)融合的本发明的任何一个嵌合Cas12i多肽，以及本发明提供的任何一个引导RNA。优选地，转录抑制结构域的数量至少为2个，可以为2个相同/不同的转录抑制结构域、3个相同/不同的转录抑制结构域、4个相同/不同的转录抑制结构域、5个相同/不同的转录抑制结构域、6个相同/不同的转录抑制结构域、7个相同/不同的转录抑制结构域、8个相同/不同的转录抑制结构域、9个相同/不同的转录抑制结构域、10个相同/不同的转录抑制结构域。具体地，转录抑制结构域的数量可为两个，包括第一转录抑制结构域和第二转录抑制结构域；第一转录抑制结构域和第二转录抑制结构域可以是同一个转录抑制结构域，第一转录抑制结构域和第二转录抑制结构域也可以是不同的转录抑制结构域。

具体地，转录抑制结构域的数量可为两个以上，这些转录抑制结构域通过连接肽串联后连接在嵌合Cas12i(如enCas12i-001、enCas12i-002、enCas12i-003、enCas12i-004、enCas12i-005、enCas12i-006、denCas12i-001、或denCas12i-002，优选为denCas12i-001或denCas12i-002)蛋白的N端或/和C端。

转录抑制结构域可以包括DNA甲基转移酶(例如DNMT1、DNMT3A、DNMT3B、DNMT3L或其任何功能变体或片段)、RYBP(RING1 and YY1 binding protein)催化结构域及其同源物、YAF2催化结构域及其同源物、KRAB催化结构域、MBD2催化结构域及其同源物、MeCP2催化结构域及其同源物、RBBP4催化结构域及其同源物、CDYL2催化结构域及其同源物、HP1α催化结构域及其同源物、HP1β(CBX1)催化结构域及其同源物、TOX催化结构域及其同源物、TOX3催化结构域及其同源物、TOX4催化结构域及其同源物、SCMH1催化结构域及其同源物、SCMH2催化结构域及其同源物、CBX8催化结构域及其同源物、HDAC5催化结构域及其同源物、I2BP1催化结构域及其同源物、EZH2催化结构域及其同源物、SUZ12催化结构域及其同源物、SIN3A催化结构域及其同源物、RING2催化结构域及其同源物、SetDB1催化结构域及其同源物。

具体地，KRAB催化结构域可以选自ZIM3 KRAB、ZNF554、ZNF264、ZNF324、ZNF354A、ZNF189、ZNF543、ZFP82、ZNF669、ZNF582、KOX1-MeCP2、ZNF30、ZNF680、ZNF331、ZNF33A、ZNF528、ZNF320、ZNF350、ZNF175、ZNF214、ZNF184、ZNF8、ZNF596、KOX1、ZNF37A、ZNF394、ZNF610、ZNF273、ZNF34、ZNF250、ZNF98、ZNF675、ZNF213、NLuc、ZFP28-2、ZNF224、ZNF257、ZIM2 KRAB、ZNF566、ZNF595、ZNF419、ZNF254、ZNF557、ZNF785、ZNF140、ZNF764、ZNF45、ZNF816、ZNF729、ZNF28-1、ZNF547、ZFP1、ZNF677、ZNF41、ZNF14、ZNF490、ZNF436或ZNF18。优选地，KRAB催化结构域可以为ZIM3KRAB、ZNF554、ZNF264、ZNF324、ZNF354A、ZNF189、ZNF543、ZFP82、ZNF669、ZNF582、KOX1-MeCP2、ZNF30、ZNF680、ZNF331、ZNF33A、ZNF528、ZNF320、ZNF350、ZNF175、ZNF214、ZNF184、ZNF8、ZNF596、KOX1、ZIM2KRAB、ZNF566、ZNF595、ZNF419、ZNF254、ZNF557、ZNF785、ZNF140、ZNF764、ZNF45、ZNF816、ZNF729、ZNF28-1、ZNF547、ZFP1、ZNF677。

具体地，本发明提供的嵌合Cas12i(如denCas12i-001、或denCas12i-002)蛋白的gRNA的靶向区段可作用于靶核酸的转录起始位点(TSS)上游3000bp，优选为200-500bp之间，使得该表观遗传编辑器作用于目的基因的启动子、增强子、沉默子等调控元件。

在具体的实施方式中，用于本发明的表观遗传编辑器的融合多肽的结构选自以下结构中的任何一个，其中Cas12i代表本发明提供的任何一个嵌合Cas12i多肽，包括但不限于enCas12i-001、enCas12i-002、enCas12i-003、enCas12i-004、enCas12i-005、enCas12i-006、denCas12i-001、或denCas12i-002。

NH₂-[Cas12i]-[转录调控结构域]-COOH；

NH₂-[转录调控结构域]-[Cas12i]-COOH；

NH₂-[Cas12i]-[转录激活结构域]-COOH；

NH₂-[转录激活结构域]-[Cas12i]-COOH；

NH₂-[NLS]-[Cas12i]-[转录激活结构域]-COOH；

NH₂-[Cas12i]-[转录激活结构域]-[NLS]-COOH；

NH₂-[NLS]-[Cas12i]-[转录激活结构域]-[NLS]-COOH；

NH₂-[NLS]-[转录激活结构域]-[Cas12i]-COOH；

NH₂-[转录激活结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[NLS]-[转录激活结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[Cas12i]-[VP64-P65-RTA融合蛋白及其截短的融合蛋白]-COOH；

NH₂-[VP64-P65-RTA融合蛋白及其截短的融合蛋白]-[Cas12i]-COOH；

NH₂-[Cas12i]-[转录抑制结构域]-COOH；

NH₂-[转录抑制结构域]-[Cas12i]-COOH；

NH₂-[NLS]-[Cas12i]-[转录抑制结构域]-COOH；

NH₂-[Cas12i]-[转录抑制结构域]-[NLS]-COOH；

NH₂-[NLS]-[Cas12i]-[转录抑制结构域]-[NLS]-COOH；

NH₂-[NLS]-[转录抑制结构域]-[Cas12i]-COOH；

NH₂-[转录抑制结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[NLS]-[转录抑制结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[NLS]-[Cas12i]-[KRAB催化结构域]-[DNMT3A-DNMT3L]-COOH；

NH₂-[Cas12i]-[KRAB催化结构域]-[DNMT3A-DNMT3L]-[NLS]-COOH；

NH₂-[NLS]-[Cas12i]-[KRAB催化结构域]-[DNMT3A-DNMT3L]-[NLS]-COOH；

NH₂-[NLS]-[KRAB催化结构域]-[DNMT3A-DNMT3L]-[Cas12i]-COOH；

NH₂-[KRAB催化结构域]-[DNMT3A-DNMT3L]-[Cas12i]-[NLS]-COOH；

NH₂-[NLS]-[KRAB催化结构域]-[DNMT3A-DNMT3L]-[Cas12i]-[NLS]-COOH；

NH₂-[NLS]-[KRAB催化结构域]-[Cas12i]-[DNMT3A-DNMT3L]-COOH；

NH₂-[KRAB催化结构域]-[Cas12i]-[DNMT3A-DNMT3L]-[NLS]-COOH；

NH₂-[NLS]-[KRAB催化结构域]-[Cas12i]-[DNMT3A-DNMT3L]-[NLS]-COOH；

NH₂-[NLS]-[DNMT3A-DNMT3L]-[Cas12i]-[KRAB催化结构域]-COOH；

NH₂-[DNMT3A-DNMT3L]-[Cas12i]-[KRAB催化结构域]-[NLS]-COOH；和

NH₂-[NLS]-[DNMT3A-DNMT3L]-[Cas12i]-[KRAB催化结构域]-[NLS]-COOH。

在一些实施方式中，所述复合物是碱基编辑器，其包含与脱氨酶结构域融合的本发明的任何一个嵌合Cas12i多肽，以及本发明提供的任何一个引导RNA。

在具体的实施方式中，本发明提供的碱基编辑器包括腺嘌呤碱基编辑器(ABEs)和胞嘧啶碱基编辑器(CBEs)。

在ABEs中，将腺苷脱氨酶结构域与嵌合Cas12i蛋白融合，可实现A·T碱基对转化为G·C碱基对。在一些实施方式中，本发明提供的碱基编辑器包括第一腺苷脱氨酶结构域与第二腺苷脱氨酶结构域，它们可以是相同的腺苷脱氨酶结构域，也可以是不同的腺苷脱氨酶结构域。腺苷脱氨酶结构域包括但不限于：TadA及其各种变体(如ecTadA、saTadA、ecTadA7.10、TadA-8e、TadA8.17、TadA8.20、TadA9等)。

在CBEs中，胞苷脱氨酶结构域APOBEC/AID与嵌合Cas12i蛋白融合，并与一个或多个尿嘧啶糖基化酶抑制剂(UGI)融合，以提高CBEs碱基编辑的准确性和效率，将C·G碱基对转化为T·A碱基对。

在具体的实施方式中，用于本发明的碱基编辑器的融合多肽的结构选自以下结构中的任何一个，其中Cas12i代表本发明提供的任何一个嵌合Cas12i多肽，包括但不限于enCas12i-001、enCas12i-002、enCas12i-003、enCas12i-004、enCas12i-005、enCas12i-006、denCas12i-001、或denCas12i-002。

NH₂-[腺苷脱氨酶结构域]-[Cas12i]-COOH；

NH₂-[Cas12i]-[腺苷脱氨酶结构域]-COOH；

NH₂-[腺苷脱氨酶结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[Cas12i]-[腺苷脱氨酶结构域]-[NLS]-COOH；

NH₂-[NLS]-[腺苷脱氨酶结构域]-[Cas12i]-COOH；

NH₂-[NLS]-[Cas12i]-[腺苷脱氨酶结构域]-COOH；

NH₂-[NLS]-[腺苷脱氨酶结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[NLS]-[Cas12i]-[腺苷脱氨酶结构域]-[NLS]-COOH；

NH₂-[NLS]-[腺苷脱氨酶结构域]-[Cas12i]-[NLS]-COOH；

在一些实施方式中，本发明提供一种表观遗传编辑器，其包含由融合蛋白和gRNA形成的复合物，其中所述融合蛋白包含或为与SEQ ID NO.88至93任一个所示的氨基酸序列具有至少80％序列同一性的氨基酸序列。

在一些实施方式中，本发明提供一种碱基编辑器，其包含由融合蛋白和gRNA形成的复合物，其中所述融合蛋白包含或为与SEQ ID NO.94至97任一个所示的氨基酸序列具有至少80％序列同一性的氨基酸序列。

核酸

本发明的另一个方面提供多种核酸。

在一些实施方式中，本发明提供一种核酸，其包含编码本发明提供的任何一种嵌合Cas12i多肽或任何一种Cas12i融合多肽的核苷酸序列。

在一些实施方式中，本发明提供一种核酸，其包含本发明提供的任何一种引导RNA或编码所述引导RNA的核苷酸序列。

在一些实施方式中，编码本发明的嵌合Cas12i多肽或融合多肽的核苷酸序列是密码子优化的。这种类型的优化可能需要编码嵌合Cas12i多肽或融合多肽的核苷酸序列的突变以模拟预期的宿主生物体或细胞同时编码相同蛋白质时的密码子偏好。因此，密码子可改变，但编码的蛋白质保持不变。例如，如果预期的靶细胞是人细胞，可使用人密码子优化的编码嵌合Cas12i多肽或融合多肽的核苷酸序列。作为另一个非限制性实例，如果预期的宿主细胞是小鼠细胞，则可生成小鼠密码子优化的编码嵌合Cas12i多肽或融合多肽的核苷酸序列。作为另一个非限制性实例，如果预期的宿主细胞是植物细胞，则可生成植物密码子优化的编码嵌合Cas12i多肽或融合多肽的核苷酸序列。作为另一个非限制性实例，如果预期的宿主细胞是昆虫细胞，则可生成昆虫密码子优化的编码嵌合Cas12i多肽或融合多肽的核苷酸序列。

在一些实施方式中，所述核酸是DNA。在一些实施方式中，所述核酸是mRNA。在一些实施方式中，所述核酸是RNA。

在一些实施方式中，所述编码嵌合Cas12i多肽的核酸包含或为如SEQ ID NO.59至64任一个所示的核苷酸序列。在一些实施方式中，所述编码嵌合Cas12i多肽的核酸包含或为如SEQ ID NO.59所示的核苷酸序列。在一些实施方式中，所述编码嵌合Cas12i多肽的核酸包含或为如SEQ ID NO.60所示的核苷酸序列。在一些实施方式中，所述编码嵌合Cas12i多肽的核酸包含或为如SEQ ID NO.61所示的核苷酸序列。在一些实施方式中，所述编码嵌合Cas12i多肽的核酸包含或为如SEQ ID NO.62所示的核苷酸序列。在一些实施方式中，所述编码嵌合Cas12i多肽的核酸包含或为如SEQ ID NO.63所示的核苷酸序列。在一些实施方式中，所述编码嵌合Cas12i多肽的核酸包含或为如SEQ ID NO.64所示的核苷酸序列。

载体及载体系统

本发明的另一个方面提供多种载体，其包含本发明提供的任何一种核酸。

在一些实施方式中，本发明提供一种载体，其包含一种核酸，所述核酸包含编码本发明提供的任何一种嵌合Cas12i多肽或任何一种Cas12i融合多肽的核苷酸序列。

在一些实施方式中，本发明提供一种载体，其包含一种核酸，所述核酸包含引导RNA或编码所述引导RNA的核苷酸序列。

在一些实施方式中，本发明提供一种载体，其包含一种核酸，所述核酸包含编码本发明提供的任何一种嵌合Cas12i多肽或任何一种Cas12i融合多肽的核苷酸序列，并且所述核酸包含引导RNA或编码所述引导RNA的核苷酸序列。

在一些实施方式中，本发明提供一种载体系统，其包括一个或多个相同的载体，每个所述载体包含一种核酸，所述核酸包含编码本发明提供的任何一种嵌合Cas12i多肽或任何一种Cas12i融合多肽的核苷酸序列，并且所述核酸包含引导RNA或编码所述引导RNA的核苷酸序列。

在一些实施方式中，本发明提供一种载体系统，其包括第一载体和与第一载体不同的第二载体，所述第一载体包含一种核酸，所述核酸包含编码本发明提供的任何一种嵌合Cas12i多肽或任何一种Cas12i融合多肽的核苷酸序列；所述第二载体包含一种核酸，所述核酸包含引导RNA或编码所述引导RNA的核苷酸序列。

合适的载体包括脂质体、质粒、粒子、外泌体、微囊泡、基因枪或病毒载体。病毒载体的例子包括腺相关病毒载体、腺病毒载体、逆转录病毒载体、慢病毒载体或单纯疱疹病毒载体。在一些实施方式中，本发明的载体是重组腺相关病毒(AAV)载体。在一些实施方式中，本发明的载体是重组慢病毒载体。在一些实施方式中，本发明的载体是重组逆转录病毒载体。载体可以是表达载体或复制载体。

根据所用的宿主/载体系统，可在载体中使用多种合适的转录和翻译控制元件中的任一种，包括组成型启动子和诱导型启动子、转录增强子元件、转录终止子等。在一些实施方案中，编码引导RNA的核苷酸序列可操作地连接至控制元件，例如转录控制元件，诸如启动子。在一些实施方案中，编码嵌合Cas12i多肽或Cas12i融合多肽的核苷酸序列可操作地连接至控制元件，例如转录控制元件，诸如启动子。

转录控制元件可以是启动子。在一些实施方式中，启动子是组成型活性启动子。在一些实施方式中，启动子是可调控启动子。在一些实施方式中，启动子是诱导型启动子。在一些实施方式中，启动子是组织特异性启动子。在一些实施方式中，启动子是细胞类型特异性启动子。在一些实施方式中，转录控制元件(例如，启动子)在所靶向细胞类型或所靶向细胞群中是功能性的。例如，在一些实施方式中，转录控制元件在真核细胞(例如，造血干细胞(例如，动员的外周血(mPB)CD34(+)细胞、骨髓(BM)CD34(+)细胞等))中可以是功能性的。

真核启动子(在真核细胞中是功能性的启动子)的非限制性实例包括EF1α，来自巨细胞病毒(CMV)立即早期、单纯疱疹病毒(HSV)胸苷激酶、早期和晚期SV40、逆转录病毒的长末端重复序列(LTR)以及小鼠金属硫蛋白-I的那些启动子。选择适当的载体和启动子完全在本领域普通技术人员的水平之内。表达载体还可含有用于翻译起始的核糖体结合位点和转录终止子。表达载体还可包含用于扩增表达的适当序列。表达载体还可包含编码蛋白质标签(例如，6xHis标签、血凝素标签、荧光蛋白等)的核苷酸序列，所述蛋白质标签可融合至嵌合Cas12i多肽，从而产生Cas12i融合多肽。

在一些实施方案中，编码引导RNA和/或Cas12i融合多肽的核苷酸序列可操作地连接至诱导型启动子。在一些实施方案中，编码引导RNA和/或Cas12i融合蛋白的核苷酸序列可操作地连接至组成型启动子。启动子可以是组成型活性启动子(即，组成性地处于活性/“ON”状态的启动子)，它可以是诱导型启动子(即，通过外界刺激例如特定温度、化合物或蛋白质的存在控制其状态(活性/“ON”或非活性/“OFF”)的启动子)，它可以是空间限制的启动子(即，转录控制元件、增强子等)(例如，组织特异性启动子、细胞类型特异性启动子等)，并且它可以是时间限制的启动子(即，启动子在胚胎发育的特定阶段过程中或在生物过程的特定阶段(例如，小鼠体内的毛囊周期)过程中处于“ON”状态或“OFF”状态)。

合适的启动子可衍生自病毒并且可因此称为病毒启动子，或者它们可衍生自任何生物，包括原核生物或真核生物。合适的启动子可用来通过任何RNA聚合酶(例如，pol I、pol II、pol III)驱动表达。示例性启动子包括但不限于SV40早期启动子、小鼠乳腺肿瘤病毒长末端重复序列(LTR)启动子；腺病毒主要晚期启动子(Ad MLP)；单纯疱疹病毒(HSV)启动子、巨细胞病毒(CMV)启动子诸如CMV立即早期启动子区(CMVIE)、劳斯肉瘤病毒(RSV)启动子、人U6小核启动子(U6)、增强的U6启动子、人H1启动子(H1)等。

在一些实施方式中，编码引导RNA的核苷酸序列可操作地连接至(受控制于)在真核细胞中可操作的启动子(例如，U6启动子、增强的U6启动子、H1启动子等)。如本领域的普通技术人员所理解的，当使用U6启动子(例如，在真核细胞中)或另一种PolIII启动子由核酸(例如，表达载体)表达RNA(例如，引导RNA)时，如果连续存在若干个T(在RNA中编码U)，则可能需要对RNA进行突变。这是因为DNA中的一串T(例如，5个T)可充当聚合酶III(PolIII)的终止子。因此，为了确保引导RNA在真核细胞中的转录，有时可能需要修饰编码引导RNA的序列以消除T的作用。在一些实施方式中，编码Cas12i多肽的核苷酸序列可操作地连接至在真核细胞中可操作的启动子(例如，CMV启动子、EF1α启动子、雌激素受体调控的启动子等)。

诱导型启动子的实例包括但不限于T7 RNA聚合酶启动子、T3RNA聚合酶启动子、异丙基-β-D-硫代半乳糖苷(IPTG)调控的启动子、乳糖诱导的启动子、热休克启动子、四环素调控的启动子、类固醇调控的启动子、金属调控的启动子、雌激素受体调控的启动子等。因此，诱导型启动子可通过分子调控，所述分子包括但不限于强力霉素；雌激素和/或雌激素类似物；IPTG等。

在一些实施方式中，启动子是可逆启动子。合适的可逆启动子，包括可逆诱导型启动子，在本领域中是已知的。此类可逆启动子可分离自并衍生自许多生物体，例如真核生物和原核生物。用于第二生物体的衍生自第一生物体(例如，第一原核生物和第二真核生物、第一真核生物和第二原核生物等)的可逆启动子的修饰在本领域中是众所周知的。此类可逆启动子和基于此类可逆启动子但还包含另外的控制蛋白的系统包括但不限于醇调控的启动子(例如，醇脱氢酶I(alcA)基因启动子、响应于醇反式激活因子蛋白(AlcR)的启动子等)、四环素调控的启动子(例如，包括Tet激活因子、TetON、TetOFF等的启动子系统)、类固醇调控的启动子(例如，大鼠糖皮质激素受体启动子系统、人雌激素受体启动子系统、类视黄醇启动子系统、甲状腺启动子系统、蜕皮激素启动子系统、米非司酮启动子系统等)、金属调控的启动子(例如，金属硫蛋白启动子系统等)、发病原相关的调控启动子(例如，水杨酸调控的启动子、乙烯调控的启动子、苯并噻二唑调控的启动子等)、温度调控的启动子(例如，热休克诱导型启动子(例如，HSP-70、HSP-90、大豆热休克启动子等))、光调控的启动子、合成诱导型启动子等。

RNA聚合酶III(Pol III)启动子可用于驱动非蛋白质编码RNA分子(例如，引导RNA)表达。在一些实施方式中，合适的启动子是Pol III启动子。在一些实施方式中，PolIII启动子可操作地连接到编码引导RNA(gRNA)的核苷酸序列。在一些实施方式中，Pol III启动子可操作地连接到编码CRISPR RNA(crRNA)的核苷酸序列。

Pol III启动子的非限制性实例包括U6启动子、Hl启动子、5S启动子、腺病毒2(Ad2)VAI启动子、tRNA启动子和7SK启动子。在一些实施方式中，Pol III启动子选自由以下组成的组：U6启动子、Hl启动子、5S启动子、腺病毒2(Ad2)VAI启动子、tRNA启动子和7SK启动子。在一些实施方式中，引导RNA编码核苷酸序列可操作地连接到选自由U6启动子、Hl启动子、5S启动子、腺病毒2(Ad2)VAI启动子、tRNA启动子和7SK启动子组成的组的启动子。

将核酸(例如，包含一种或多种编码嵌合Cas12i多肽和/或Cas12i引导RNA的核酸等)引入宿主细胞中的方法在本领域中是已知的，并且可使用任何方便的方法来将核酸(例如，表达构建体)引入细胞中。合适的方法包括例如病毒感染、转染、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送等。将重组表达载体引入细胞中可在促进细胞存活的任何培养基中和任何培养条件下发生。将重组表达载体引入靶细胞中可在体内或离体进行。将重组表达载体引入靶细胞中可在体外进行。在一些实施方案中，嵌合Cas12i多肽可以作为RNA提供。RNA可通过直接化学合成提供，或者可在体外从DNA(例如，编码嵌合Cas12i多肽的DNA)转录。一旦合成，可通过用于将核酸引入细胞中的任何众所周知的技术(例如，微注射、电穿孔、转染等)将RNA引入细胞中。

可直接向靶宿主细胞提供载体。换句话讲，使细胞与包含所述核酸的载体(例如包含编码嵌合Cas12i引导RNA的核酸以及编码嵌合Cas12i多肽或融合多肽的核酸的重组表达载体等)接触，使得载体被细胞吸收。用于使细胞与作为质粒的核酸载体接触的方法(包括电穿孔、氯化钙转染、微注射和脂质体转染)在本领域中是众所周知的。对于病毒载体递送，可使细胞与包含主题病毒表达载体的病毒颗粒接触。

逆转录病毒，例如慢病毒，适用于本发明的方法。通常使用的逆转录病毒载体是“缺陷型的”，即不能产生生产性感染所需要的病毒蛋白质。而且载体的复制需要在包装细胞系中生长。为了生成包含目标核酸的病毒颗粒，通过包装细胞系将包含核酸的逆转录病毒核酸包装到病毒衣壳中。不同的包装细胞系提供待并入衣壳中的不同包膜蛋白(嗜亲性、双嗜性或嗜异性)，此包膜蛋白决定病毒颗粒对细胞的特异性(对鼠和大鼠的嗜亲性；对包括人、狗和小鼠的大多数哺乳动物细胞类型的双嗜性；以及对除了鼠细胞之外的大多数哺乳动物细胞类型的嗜异性)。适当的包装细胞系可用来确保细胞被包装的病毒颗粒靶向。将主题载体表达载体引入包装细胞系中以及采集由包装细胞系生成的病毒颗粒的方法在本领域中是众所周知的。还可通过直接微注射引入核酸(例如，RNA的注射)。

在一些实施方式中，本发明的核酸及包含核酸的载体包含目标引导序列的插入位点。例如，核酸可包含目标引导序列的插入位点，其中所述插入位点紧邻编码嵌合Cas12i引导RNA的部分的核苷酸序列，当引导序列被改变而与所需靶序列(例如，有助于引导RNA的嵌合Cas12i结合方面的序列，即重复区段)杂交时，嵌合Cas12i引导RNA的所述部分不会改变。因此，在一些实施方式中，本发明提供的核酸(例如，表达载体)包含编码嵌合Cas12i引导RNA的核苷酸序列，不同的是编码引导RNA的引导序列部分的部分是插入序列(插入位点)。插入位点是用于插入所需序列的任何核苷酸序列。用于各种技术的“插入位点”是本领域的普通技术人员已知的，并且可使用任何方便的插入位点。插入位点可用于操纵核酸序列的任何方法。例如，在一些实施方式中，插入位点是多克隆位点(MCS)(例如，包含一个或多个限制性酶识别序列的位点)，用于不依赖于连接的克隆的位点，用于基于重组的克隆(例如，基于att位点的重组)的位点，由基于CRISPR/Cas(例如Cas9)的技术识别的核苷酸序列等。

插入位点可以是任何期望的长度，并且可取决于插入位点的类型(例如，可取决于位点是否包含一个或多个限制性酶识别序列(以及包含多少限制性酶识别序列)，位点是否包括CRISPR/Cas蛋白的靶位点等)。在一些实施方式中，本发明的核酸的插入位点的长度为3个或更多个核苷酸(nt)(例如，长度为5个或更多个、8个或更多个、10个或更多个、15个或更多个、17个或更多个、18个或更多个、19个或更多个、20个或更多个、或者25个或更多个、或者30个或更多个nt)。在一些实施方式中，本发明的核酸的插入位点的长度具有在2至50个核苷酸(nt)的范围内(例如，2至40个nt、2至30个nt、2至25个nt、2至20个nt、5至50个nt、5至40个nt、5至30个nt、5至25个nt、5至20个nt、10至50个nt、10至40个nt、10至30个nt、10至25个nt、10至20个nt、17至50个nt、17至40个nt、17至30个nt、17至25个nt)的长度。在一些实施方式中，本发明的插入位点的长度具有在5至40个nt的范围内的长度。

递送系统

可通过多种熟知的方法中的任一种将Cas12i引导RNA(或包含编码所述引导RNA的核苷酸序列的核酸)和/或本发明的嵌合Cas12i多肽(或包含编码所述多肽的核苷酸序列的核酸)和/或本发明的Cas12i融合多肽(或包含编码本发明的Cas12i融合多肽的核苷酸序列的核酸)引入到宿主细胞中。

多种化合物和方法中的任一种可用于将本发明的Cas12i系统递送至靶细胞。所述Cas12i系统可包含：a)本发明的嵌合Cas12i多肽和Cas12i引导RNA；b)本发明的Cas12i融合多肽和Cas12i引导RNA；c)编码本发明的嵌合Cas12i多肽的mRNA；和Cas12i引导RNA；d)编码本发明的Cas12i融合多肽的mRNA和Cas12i引导RNA；e)重组表达载体，其包含编码本发明的Cas12i多肽的核苷酸序列和编码Cas12i引导RNA的核苷酸序列；f)重组表达载体，其包含编码本发明的Cas12i融合多肽的核苷酸序列和编码Cas12i引导RNA的核苷酸序列；g)包含编码本发明的嵌合Cas12i多肽的核苷酸序列的第一重组表达载体，和包含编码Cas12i引导RNA的核苷酸序列的第二重组表达载体；h)包含编码本发明的Cas12i融合多肽的核苷酸序列的第一重组表达载体，和包含编码Cas12i引导RNA的核苷酸序列的第二重组表达载体；i)重组表达载体，其包含编码本发明的嵌合Cas12i多肽的核苷酸序列、编码第一Cas12i引导RNA的核苷酸序列和编码第二Cas12i引导RNA的核苷酸序列；或j)重组表达载体，其包含编码本发明的Cas12i融合多肽的核苷酸序列、编码第一Cas12i引导RNA的核苷酸序列和编码第二Cas12i引导RNA的核苷酸序列；或者是(a)到(j)之一的某种变体。作为非限制性实例，本发明的Cas12i系统可与脂质组合。作为另一个非限制性实例，本发明的Cas12i系统可与颗粒组合或配制成颗粒。

将核酸引入宿主细胞中的方法在本领域中是已知的，并且可使用任何方便的方法来将主题核酸(例如，表达构建体/载体)引入靶细胞(例如，原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、人细胞等)中。合适的方法包括例如病毒感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送。

在一些实施方式中，本发明的嵌合Cas12i多肽作为编码嵌合Cas12i多肽的核酸(例如，mRNA、DNA、质粒、表达载体、病毒载体等)提供。在一些实施方式中，本发明的嵌合Cas12i多肽直接作为蛋白质(例如，不与相关联的引导RNA一起或与相关联的引导RNA一起，即作为核糖核蛋白复合物)提供。可通过任何方便的方法将本发明的嵌合Cas12i多肽引入细胞中(提供至细胞)；此类方法是本领域的普通技术人员已知的。作为说明性实例，可将本发明的嵌合Cas12i多肽直接注射到细胞中(例如，与或不与Cas12i引导RNA或编码Cas12i引导RNA的核酸一起，并且与或不与供体多核苷酸一起)。作为另一个实例，可将本发明的嵌合Cas12i多肽和Cas12i引导RNA的预先形成的复合物(RNP)引入细胞(例如，真核细胞)中(例如，通过注射、通过核转染；通过缀合至一种或多种组分的蛋白转导结构域(PTD)，例如缀合至嵌合Cas12i蛋白、缀合至引导RNA、缀合至本发明的嵌合Cas12i多肽以及引导RNA；等)。

在一些实施方式中，Cas12i融合多肽(例如，融合到异源多肽Cas12i多肽)作为编码Cas12i融合多肽的核酸(例如，mRNA、DNA、质粒、表达载体、病毒载体等)提供。在一些实施方式中，本发明的Cas12i融合多肽直接作为蛋白质(例如，不与相关联的引导RNA一起或与相关联的引导RNA一起，即作为核糖核蛋白复合物)提供。本发明的Cas12i融合多肽可通过任何方便的方法引入到细胞中(提供给细胞)；此类方法是本领域普通技术人员已知的。作为说明性实例，本发明的Cas12i融合多肽可以直接注射到细胞中(例如，与或不与编码Cas12i引导RNA的核酸一起，并且与或不与供体多核苷酸一起)。作为另一个实例，可将本发明的Cas12i融合多肽和Cas12i引导RNA(RNP)的预形成复合物引入到细胞中(例如，通过注射；通过核转染；通过与一种或多种组分缀合的蛋白质转导结构域(PTD)，例如与Cas12i融合蛋白缀合，与引导RNA缀合，与本发明的Cas12i融合多肽和引导RNA缀合；等)。

包含编码本发明的嵌合Cas12i多肽的核苷酸序列和/或Cas12i引导RNA的重组表达载体、包含编码本发明的嵌合Cas12i多肽的核苷酸序列的mRNA以及引导RNA可使用颗粒或脂质包膜同时递送；例如，嵌合Cas12i多肽和Cas12i引导RNA，例如作为复合物(例如，核糖核蛋白(RNP)复合物)可通过颗粒递送，例如通过包含脂质或类脂质以及亲水性聚合物(例如，阳离子脂质和亲水聚合物)的递送颗粒递送，例如，其中阳离子脂质包括1,2-二油酰基-3-三甲基铵-丙烷(DOTAP)或1,2-二十四烷酰基-sn-甘油基-3-磷酸胆碱(DMPC)并且/或者其中亲水性聚合物包括乙二醇或聚乙二醇(PEG)；并且/或者其中颗粒还包含胆固醇。例如，可使用多步骤方法形成颗粒，其中将嵌合Cas12i多肽和Cas12i引导RNA例如以1:1的摩尔比、例如在室温下、例如持续30分钟、例如在无菌无核酸酶的1x磷酸盐缓冲盐水(PBS)中混合在一起；并且将适用于制剂的DOTAP、DMPC、PEG和胆固醇单独地溶于醇(例如，100％乙醇)，并且将两种溶液混合在一起以形成含有复合物的颗粒)。

本发明的嵌合Cas12i多肽(或包含编码本发明的嵌合Cas12i多肽的核苷酸序列的mRNA；或包含编码本发明的嵌合Cas12i多肽的核苷酸序列的重组表达载体)和/或Cas12i引导RNA(或核酸，诸如一种或多种编码嵌合Cas12i引导RNA的表达载体)可使用颗粒或脂质包膜同时递送。例如，可使用具有由磷脂双层壳包封的聚(β-氨基酯)(PBAE)核的可生物降解的核壳结构的纳米颗粒。在一些实施方式中，使用基于自组装生物粘附聚合物的颗粒/纳米颗粒；此类颗粒/纳米颗粒可应用于肽的口服递送、肽的静脉内递送和肽的鼻内递送，例如递送至脑。还考虑了其他实施方案，诸如疏水性药物的口服吸收和眼部递送。可使用分子包膜技术，其涉及受保护并递送至疾病部位的工程化聚合物包膜。可以单剂量或多剂量使用约5mg/kg的剂量，这取决于各种因素，例如靶组织。

在一些实施方式中，脂质纳米颗粒(LNP)用于将本发明的嵌合Cas12i多肽、本发明的Cas12i融合多肽、本发明的RNP、本发明的核酸或本发明的Cas12i系统递送至靶细胞。带负电的聚合物(诸如RNA)可在低pH值(例如，pH 4)下装载到LNP中，其中可电离的脂质显示正电荷。然而，在生理pH值下，LNP表现出与较长的循环时间相容的低表面电荷。可使用阳离子脂质1,2-二亚油酰基-3-二甲基铵-丙烷(DLinDAP)、1,2-二亚油基氧基-3-N,N-二甲基氨基丙烷(DLinDMA)、1,2-二亚油基氧基酮基-N,N-二甲基-3-氨基丙烷(DLinK-DMA)、1,2-二亚油基-4-(2-二甲基氨基乙基)-[1,3]-二氧戊环(DLinKC2-DMA)、(3-o-[2'’-(甲氧基聚乙二醇2000)琥珀酰基]-1,2-二肉豆蔻酰基-sn-乙二醇(PEG-S-DMG)，以及R-3-[(ω-甲氧基-聚(乙二醇)2000)氨甲酰基]-1,2-二肉豆蔻酰氧基丙基-3-胺(PEG-C-DOMG)。核酸(例如，Cas12i引导RNA；本发明的核酸等)可包封在含有DLinDAP、DLinDMA、DLinK-DMA和DLinKC2-DMA(阳离子脂质:DSPC:CHOL:PEGS-DMG或PEG-C-DOMG的摩尔比为40:10:40:10)的LNP中。在一些实施方式中，并入0.2％SP-DiOC18。

球形核酸(SNATM)构建体和其它纳米颗粒(特别是金纳米颗粒)可用于将本发明的嵌合Cas12i多肽、本发明的Cas12i融合多肽、本发明的RNP、本发明的核酸或本发明的Cas12i系统递送至靶细胞。具有RNA的自组装纳米颗粒可以用聚乙烯亚胺(PEI)来构建，所述聚乙烯亚胺用连接在聚乙二醇(PEG)远端的Arg-Gly-Asp(RGD)肽配体聚乙二醇化。一般来讲，“纳米颗粒”是指具有小于1000nm的直径的任何颗粒。在一些实施方式中，适用于将本发明的Cas12i多肽、本发明的Cas12i融合多肽、本发明的RNP、本发明的核酸或本发明的Cas12i系统递送至靶细胞的纳米颗粒具有500nm或更小，例如，25nm至35nm、35nm至50nm、50nm至75nm、75nm至100nm、100nm至150nm、150nm至200nm、200nm至300nm、300nm至400nm或400nm至500nm的直径。在一些实施方式中，适用于将本发明的嵌合Cas12i多肽、本发明的Cas12i融合多肽、本发明的RNP、本发明的核酸或本发明的Cas12i系统递送至靶细胞的纳米颗粒具有25nm至200nm的直径。在一些实施方式中，适用于将本发明的嵌合Cas12i多肽、本发明的Cas12i融合多肽、本发明的RNP、本发明的核酸或本发明的Cas12i系统递送至靶细胞的纳米颗粒具有100nm或更小的直径。在一些实施方式中，适用于将本发明的嵌合Cas12i多肽、本发明的Cas12i融合多肽、本发明的RNP、本发明的核酸或本发明的Cas12i系统递送至靶细胞的纳米颗粒具有35nm至60nm的直径。适用于将本发明的嵌合Cas12i多肽、本发明的Cas12i融合多肽、本发明的RNP、本发明的核酸或本发明的Cas12i系统递送至靶细胞的纳米颗粒可以不同的形式提供，例如，作为固体纳米颗粒(例如，金属(诸如银、金、铁、钛)、非金属、基于脂质的固体、聚合物)、纳米颗粒的悬浮液或它们的组合提供。可制备金属、介电和半导体纳米颗粒，以及混合结构(例如，核壳纳米颗粒)。如果由半导体材料制成的纳米颗粒足够小(通常低于10nm)以致发生电子能级的量子化，则也可将它们标记量子点。此类纳米级颗粒在生物医学应用中用作药物运载体或成像剂，并且可适用于本发明中的相似目的。

在一些实施方式中，外来体用于将本发明的嵌合Cas12i多肽、本发明的Cas12i融合多肽、本发明的RNP、本发明的核酸或本发明的Cas12i系统递送至靶细胞。外泌体是内源性纳米囊泡，其运输RNA和蛋白质，并且可将RNA递送至脑和其他靶器官。在一些实施方式中，脂质体用于将本发明的嵌合Cas12i多肽、本发明的Cas12i融合多肽、本发明的RNP、本发明的核酸或本发明的Cas12i系统递送至靶细胞。脂质体是球形囊泡结构，其由围绕内部水性隔室的单层或多层脂质双层和相对不可渗透的外部亲脂性磷脂双层构成。脂质体可由若干种不同类型的脂质制成；然而，磷脂最常用于生成脂质体。尽管当脂质膜与水性溶液混合时，脂质体形成是自发的，但是也可通过使用均化器、超声波破碎仪或挤出装置以摇动的形式施加力来加速脂质体的形成。可将若干种其他添加剂添加到脂质体中以便改变它们的结构和特性。例如，可将胆固醇或鞘磷脂添加到脂质体混合物中，以便帮助稳定脂质体结构并防止脂质体内容物(inner cargo)的泄漏。脂质体制剂可主要由以下组成：天然磷脂和脂质，诸如1,2-二硬脂酰基-sn-甘油基-3-磷脂酰胆碱(DSPC)、鞘磷脂、卵磷脂酰胆碱和单唾液酸神经节苷脂。

细胞

本发明提供一种修饰的细胞，所述修饰的细胞包含本发明的嵌合Cas12i多肽或融合多肽和/或包含编码本发明的Cas12i多肽或融合多肽的核苷酸序列的核酸。本发明提供一种修饰的细胞，所述修饰的细胞包含本发明的嵌合Cas12i多肽或融合多肽，其中所述修饰的细胞是通常不包含本发明的Cas12i多肽或融合多肽的细胞。本发明提供一种修饰的细胞(例如，遗传修饰的细胞)，所述修饰的细胞包含核酸，所述核酸包含编码本发明的嵌合Cas12i多肽或融合多肽的核苷酸序列。本发明提供一种用mRNA遗传修饰的遗传修饰的细胞，所述mRNA包含编码本发明的嵌合Cas12i多肽或融合多肽的核苷酸序列。本发明提供一种用重组表达载体遗传修饰的遗传修饰的细胞，所述重组表达载体包含编码本发明的嵌合Cas12i多肽或融合多肽的核苷酸序列。本发明提供一种用重组表达载体遗传修饰的遗传修饰细胞，所述重组表达载体包含：a)编码本发明的嵌合Cas12i多肽或融合多肽的核苷酸序列；和b)编码本发明的Cas12i引导RNA的核苷酸序列。

受体的细胞可以是多种细胞中的任一种，这些细胞包括例如体外细胞；体内细胞；离体细胞；原代细胞；癌细胞；动物细胞；植物细胞；藻类细胞；真菌细胞等。用作本发明的嵌合Cas12i多肽或融合多肽和/或包含编码本发明的嵌合Cas12i多肽或融合多肽和/或本发明的Cas12i引导RNA的核苷酸序列的核酸的受体的细胞被称为“宿主细胞”或“靶细胞”。宿主细胞或靶细胞可以是本发明的Cas12i系统的受体。宿主细胞或靶细胞可以是本发明的Cas12i RNP的受体。宿主细胞或靶细胞可以是本发明的Cas12i系统的单一组分的受体。

细胞(靶细胞)的非限制性实例包括：原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、植物细胞、藻类细胞(例如，布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonas reinhardtii)、海洋富油微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻(Sargassum patens)、羽藻(C.agardh)等)、海藻(例如巨藻(kelp))、真菌细胞(例如，酵母细胞、来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如，果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如，鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如，有蹄类动物(例如，猪、牛、山羊、绵羊)；啮齿动物(例如，大鼠、小鼠)；非人灵长类动物；人；猫科动物(例如，猫)；犬(例如，狗)等)的细胞等。在一些实施方式中，细胞是不源自天然生物体的细胞(例如，细胞可以是合成制得的细胞；也称为人造细胞)。

细胞可以是体外细胞(例如，建立的培养细胞系)。细胞可以是离体细胞(来自个体的培养细胞)。细胞可以是体内细胞(例如，个体中的细胞)。细胞可以是分离的细胞。细胞可以是生物体内部的细胞。细胞可以是生物体。细胞可以是细胞培养物(例如，体外细胞培养物)中的细胞。细胞可以是细胞集合中的一者。细胞可以是原核细胞或衍生自原核细胞。细胞可以是细菌细胞或可衍生自细菌细胞。细胞可以是古细菌细胞或衍生自古细菌细胞。细胞可以是真核细胞或衍生自真核细胞。细胞可以是植物细胞或衍生自植物细胞。细胞可以是动物细胞或衍生自动物细胞。细胞可以是无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可以是脊椎动物细胞或衍生自脊椎动物细胞。细胞可以是哺乳动物细胞或衍生自哺乳动物细胞。细胞可以是啮齿动物细胞或衍生自啮齿动物细胞。细胞可以是人细胞或衍生自人细胞。细胞可以是微生物细胞或衍生自微生物细胞。细胞可以是真菌细胞或衍生自真菌细胞。细胞可以是昆虫细胞。细胞可以是节肢动物细胞。细胞可以是原生动物细胞。细胞可以是蠕虫细胞。

合适的细胞包括干细胞(例如胚胎干(ES)细胞、诱导多能干(iPS)细胞；生殖细胞(例如，卵母细胞、精子、卵原细胞、精原细胞等)；体细胞，例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞等。

合适的细胞包括人胚胎干细胞、胚胎心肌细胞、肌成纤维细胞、间充质干细胞、自体移植的扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、胚胎干细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。

在一些实施方式中，细胞是免疫细胞、神经元、上皮细胞和内皮细胞或干细胞。在一些实施方式中，免疫细胞是T细胞、B细胞、单核细胞、天然杀伤细胞、树突状细胞或巨噬细胞。在一些实施方式中，免疫细胞是细胞毒性T细胞。在一些实施方式中，免疫细胞是辅助性T细胞。在一些实施方式中，免疫细胞是调节性T细胞(Treg)。在一些实施方式中，细胞是干细胞。干细胞包括成体干细胞。成体干细胞也称为体细胞干细胞。在一些实施方案中，干细胞是造血干细胞(HSC)。在其他实施方案中，干细胞是神经干细胞(NSC)。在其他实施方案中，干细胞是间充质干细胞(MSC)。

组合物或试剂盒

本发明的另一个方面涉及组合物或试剂盒，所述组合物或试剂盒包含本发明的Cas12i系统，所述Cas12i系统可包含：a)本发明的嵌合Cas12i多肽和Cas12i引导RNA；b)本发明的Cas12i融合多肽和Cas12i引导RNA；c)编码本发明的嵌合Cas12i多肽的mRNA；和Cas12i引导RNA；d)编码本发明的Cas12i融合多肽的mRNA和Cas12i引导RNA；e)重组表达载体，其包含编码本发明的嵌合Cas12i多肽的核苷酸序列和编码Cas12i引导RNA的核苷酸序列；f)重组表达载体，其包含编码本发明的Cas12i融合多肽的核苷酸序列和编码Cas12i引导RNA的核苷酸序列；g)包含编码本发明的嵌合Cas12i多肽的核苷酸序列的第一重组表达载体，和包含编码Cas12i引导RNA的核苷酸序列的第二重组表达载体；h)包含编码本发明的Cas12i融合多肽的核苷酸序列的第一重组表达载体，和包含编码Cas12i引导RNA的核苷酸序列的第二重组表达载体；i)重组表达载体，其包含编码本发明的嵌合Cas12i多肽的核苷酸序列、编码第一Cas12i引导RNA的核苷酸序列和编码第二Cas12i引导RNA的核苷酸序列；或j)重组表达载体，其包含编码本发明的Cas12i融合多肽的核苷酸序列、编码第一Cas12i引导RNA的核苷酸序列和编码第二Cas12i引导RNA的核苷酸序列；或者是(a)到(j)之一的某种变体。

本发明的组合物或试剂盒可进一步包括药学上可接受的载体，例如一种或多种另外的试剂，例如，i)缓冲剂；ii)蛋白酶抑制剂；iii)核酸酶抑制剂；iv)显影或可视化可检测标记所需的试剂；v)阳性和/或阴性对照靶DNA；vi)阳性和/或阴性对照Cas12i引导RNA等。本发明的组合物或试剂盒可包括：a)如上所述的本发明的Cas12i系统的组分，或者可包含本发明的Cas12i系统；和b)治疗剂。

本发明的组合物或试剂盒可包括重组表达载体，所述重组表达载体包含：a)用于插入核酸的插入位点，所述核酸包含编码Cas12i引导RNA的一部分的核苷酸序列，所述Cas12i引导RNA的一部分与靶核酸中的靶核苷酸序列杂交；和b)编码Cas12i引导RNA的Cas12i结合部分的核苷酸序列。本发明的组合物或试剂盒可包括重组表达载体，所述重组表达载体包含：a)用于插入核酸的插入位点，所述核酸包含编码Cas12i导RNA的一部分的核苷酸序列，所述Cas12i引导RNA的一部分与靶核酸中的靶核苷酸序列杂交；b)编码Cas12i引导RNA的Cas12i结合部分的核苷酸序列；和c)编码本发明的Cas12i多肽的核苷酸序列。

方法及用途

本发明的嵌合Cas12i多肽或本发明的Cas12i融合多肽可用于多种方法中(例如，与Cas12i引导RNA组合)。例如，本发明的嵌合Cas12i多肽可用于(i)修饰(例如甲基化等)靶核酸(DNA或RNA；单链或双链)；(ii)调节靶核酸的转录；(iii)标记靶核酸；(iv)结合靶核酸(例如，用于分离、标记、成像、追踪等的目的)；(v)修饰与靶核酸相关联的多肽(例如，组蛋白)；(vi)对靶核酸进行碱基对转换等。因此，本发明提供一种修饰靶核酸的方法。在一些实施方式中，本发明的用于修饰靶核酸的方法包括使靶核酸与以下物质接触：a)本发明的嵌合Cas12i多肽或融合多肽；和b)一种或多种(例如，两种)Cas12i引导RNA。在一些实施方式中，接触步骤在体外细胞中进行。在一些实施方式中，接触步骤在体内细胞中进行。在一些实施方式中，接触步骤在离体细胞中进行。

例如，本发明提供(但不限于)编辑靶核酸的方法；调节靶从核酸转录的方法；分离靶核酸的方法、结合靶核酸的方法、对靶核酸成像的方法、修饰靶核酸的方法等。

在一些实施方式中，所述修饰包括增加或减少所述靶核酸中的靶序列的表达。例如，所述修饰包括对所述靶核酸中的靶腺嘌呤或靶胞嘧啶进行脱氨基以实现碱基对转换。

如本文所用，术语/短语“使靶核酸，例如，与嵌合Cas12i多肽或与Cas12i融合多肽等接触”，涵盖用于接触靶核酸的所有方法。例如，嵌合Cas12i多肽可以作为蛋白质、RNA(编码Cas12i多肽或融合多肽)或DNA(编码Cas12i多肽或融合多肽)提供给细胞；而Cas12i引导RNA可以作为引导RNA或编码引导RNA的核酸提供。因此，当例如在细胞中(例如，在体外细胞内部、在体内细胞内部、在离体细胞内部)执行方法时，包括接触靶核酸的方法涵盖将处于活性/最终状态的任何或所有组分(例如，呈嵌合Cas12i多肽的一种或多种蛋白质形式；呈Cas12i融合多肽的蛋白质形式；在一些实施方式中，呈引导RNA的RNA形式)引入细胞中，并且还涵盖将编码一种或多种组分的一种或多种核酸(例如，一种或多种包含编码嵌合Cas12i多肽或Cas12i融合多肽的一种或多种核苷酸序列的核酸、一种或多种包含编码一种或多种引导RNA的一种或多种核苷酸序列的核酸等)引入细胞中。因为所述方法也可在体外在细胞外部执行，所以包括接触靶核酸的方法(除非另外指明)涵盖在体外在细胞外部、在体外在细胞内部、在体内在细胞内部、离体在细胞内部接触等。

在一些实施方式中，本发明的用于修饰靶核酸的方法包括向靶细胞中引入Cas12i基因座，例如来自包含Cas12i基因座的细胞(例如，在一些实施方式中，处于天然状态包含Cas12i基因座的细胞)的核酸，所述核酸包含编码Cas12i多肽的核苷酸序列以及长度为约1千碱基(kb)至5kb的在编码Cas12i的核苷酸序列周围的核苷酸序列，其中靶细胞通常(在天然状态下)不包含Cas12i基因座。然而，可以修饰一个或多个间隔序列，一个或多个编码crRNA的编码引导序列，使得靶向一个或多个目标靶序列。因此，例如，在一些实施方式中，本发明的用于修饰靶核酸的方法包括向靶细胞中引入Cas12i基因座，例如，从源细胞(例如处于天然状态包含Cas12i基因座的细胞)获得的核酸，其中核酸具有100个核苷酸(nt)至5kb(例如，100nt至500nt、500nt至1kb、1kb至1.5kb、1.5kb至2kb、2kb至2.5kb、2.5kb至3kb、3kb至3.5kb、3.5kb至4kb、或4kb至5kb)的长度并且包含编码Cas12i多肽的核苷酸序列。如上所述，在一些此类情况下，可以修饰一个或多个间隔序列，一个或多个编码crRNA的编码引导序列，使得靶向一个或多个目标靶序列。在一些实施方式中，所述方法包括向靶细胞中引入：i)Cas12i基因座；和ii)Cas12i gRNA。在一些实施方式中，靶核酸在体外无细胞组合物中。在一些实施方式中，靶核酸存在于靶细胞中。在一些实施方式中，靶核酸存在于靶细胞中，其中靶细胞是原核细胞。在一些实施方式中，靶核酸存在于靶细胞中，其中靶细胞是真核细胞。在一些实施方式中，靶核酸存在于靶细胞中，其中靶细胞是哺乳动物细胞。在一些实施方式中，靶核酸存在于靶细胞中，其中靶细胞是植物细胞。

在一些实施方式中，本发明的用于修饰靶核酸的方法包括使靶核酸与本发明的Cas12i多肽或本发明的Cas12i融合多肽接触。在一些实施方式中，本发明的用于修饰靶核酸的方法包括使靶核酸与Cas12i融合多肽和Cas12i引导RNA接触。在一些实施方式中，本发明的用于修饰靶核酸的方法包括使靶核酸与Cas12i融合多肽、第一Cas12i引导RNA和第二Cas12i引导RNA接触。

当与Cas12i引导RNA结合时，本发明的嵌合Cas12i多肽或本发明的Cas12i融合多肽可结合靶核酸，并且在一些实施方式中，可结合并修饰靶核酸。靶核酸可以是任何核酸(例如，DNA、RNA)，可以是双链或单链的，可以是任何类型的核酸(例如，染色体(基因组DNA)、衍生自染色体、染色体DNA、质粒、病毒、细胞外、细胞内、线粒体、叶绿体、线性、环状等)并且可来自任何生物体(例如，只要Cas12i引导RNA包含与靶核酸中的靶序列杂交的核苷酸序列，使得靶核酸可被靶向即可)。靶核酸可以是DNA或RNA。靶核酸可以是双链的(例如，dsDNA、dsRNA)或单链的(例如，ssRNA、ssDNA)。

本发明的另一个方面提供了用于治疗被诊断患有与点突变相关或由点突变引起的疾病的受试者的方法，所述点突变可以通过本文提供的碱基编辑器来校正。例如，在一些实施例中，提供了一种方法，包括向患有这种疾病的受试者(例如，与如上所述的点突变相关联的癌症)施用有效量的腺苷碱基编辑器，该编辑器纠正点突变或将失活突变引入疾病相关基因。在一些实施方案中，该疾病是增殖性疾病。在一些实施方案中，该疾病是遗传性疾病。在一些实施方案中，该疾病是肿瘤性疾病。在一些实施方案中，该疾病是一种代谢性疾病。在一些实施方案中，该疾病是溶酶体贮积病。可以通过校正点突变或将失活突变引入疾病相关基因中来治疗的其他疾病将是本领域技术人员已知的。

在一些实施方案中，突变的A的脱氨作用导致编码野生型氨基酸的密码子。在一些实施方案中，接触是在受试者体内进行的。在一些实施方案中，受试者已经或已经被诊断患有疾病或病症。在一些实施方案中，所述疾病或病症是血红蛋白病。在一些实施方案中，所述疾病或病症是镰状细胞病。在一些实施方案中，该疾病或病症是地中海贫血。在一些实施方案中，该疾病或病症是与葡萄糖-6-磷酸酶-α(G6PC)酶中的R83C突变相关的1A型糖原储存病，以及与ATP结合盒A亚家族成员4(ABCA4)蛋白中的G1961E突变相关的Stargardt黄斑营养不良。在一些实施方案中，该疾病或病症是苯丙酮尿症、von Willebrand病(vWD)、与突变PTEN或BRCA1相关的肿瘤性疾病或Li-Fraumeni综合征。

一些实施例提供了使用本文提供的碱基编辑器的方法。在一些实施方案中，碱基编辑器用于通过将靶核碱基(例如A碱基)脱氨基而将点突变引入核酸。在一些实施方案中，靶核碱基的脱氨基导致遗传缺陷的校正，例如导致基因产物中引起功能丧失的点突变的校正。在一些实施方案中，本文提供的方法用于将失活点突变引入编码与疾病或病症相关的基因产物的基因或等位基因中。例如，在一些实施方案中，本文提供了使用碱基编辑器将失活点突变引入癌基因的方法(例如，在治疗增殖性疾病中)。在一些实施方案中，失活突变可以在编码序列中产生过早终止密码子，其导致截短的基因产物(例如缺乏全长蛋白功能的截短的蛋白)的表达。

在一些实施方案中，本文提供的方法的目的是通过基因组编辑恢复功能失调基因的功能。本文提供的碱基编辑器可以在体外验证用于基于基因编辑的人类治疗，例如，通过校正人类细胞培养中的疾病相关突变。本领域技术人员将理解，本文提供的碱基编辑器可用于校正任何单点G至A或C至T突变。

本发明的其他方面涉及包含本文所述的融合蛋白：gRNA复合物中的任何一种的药物组合物。本发明的其它方面涉及包含任何所述多核苷酸或载体的药物组合物，所述多核苷酸或载体包含编码本文所述融合蛋白：gRNA复合物的核酸片段。

在一些实施方案中，本文所述的任何融合蛋白：gRNA复合物作为药物组合物的一部分提供。在一些实施方案中，药物组合物包含本文提供的任何碱基编辑器。在一些实施方案中，药物组合物包含本文提供的任何复合物。在一些实施方案中，药物组合物包含融合蛋白：gRNA复合物和药学上可接受的赋形剂。药物组合物可以任选地包含一种或多种额外的治疗活性物质。

在一些实施方案中，本文提供的组合物被配制用于递送至受试者，例如递送至人类受试者以在受试者内实现靶向基因组修饰。在一些实施方案中，从受试者获得细胞并与本文提供的任何药物组合物接触。在一些实施方案中，任选地在细胞中实现或检测到所需的基因组修饰之后，将从受试者移除并与药物组合物离体接触的细胞重新引入受试者中。

本文所述的药物组合物的制剂可以通过药理学领域中已知的任何方法制备。通常，这种制备方法包括使活性成分与赋形剂和/或一种或多种其他辅助成分结合，然后，如果必要和/或需要，将产品成型和/或包装成所需的单剂量或多剂量单元的步骤。

在一些实施方案中，药物组合物被配制用于递送至受试者，例如用于基因编辑。施用本文所述药物组合物的合适途径包括但不限于：局部、皮下、透皮、皮内、病变内、关节内、腹膜内、膀胱内、透粘膜、牙龈、颏内、耳蜗内、经鼓室、耳内、硬膜外、鞘内、肌内、静脉内、血管内、骨内、眼周、肿瘤内、脑内和侧脑室给药。

在各种实施方案中，所公开的编辑方法在靶核碱基对处产生至少约35％、40％、50％、60％、70％、80％、85％、90％、95％、98％或99％的靶上DNA碱基编辑效率。接触步骤可导致至少约60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％或75％的DNA碱基编辑效率。特别地，接触的步骤导致大于75％的基于目标的编辑效率。在某些实施例中，可以实现99％的碱基编辑效率。

在一些实施方案中，所公开的碱基编辑器的编辑方法导致在一些实施例中约2.0％或更小、1.75％或更小、1.5％或更小、1.2％或更小、1％或更小、0.9％或更小、0.8％或更小、0.75％或更小、0.7％或更小、0.65％或更小或0.6％或更小的实际或平均脱靶DNA编辑频率，公开的编辑方法产生0.5％、小于0.5％、小于0.4％、小于0.35％、小于0.3％、小于0.25％、小于0.2％或小于0.1％的实际或平均脱靶DNA编辑频率。

在一些实施方案中，预期编辑的碱基对是PAM位点上游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施例中，预期编辑的碱基对在PAM位点的下游。在一些实施方案中，预期编辑的碱基对是PAM位点下游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中，靶区包括靶窗口，其中靶窗口包括靶核碱基对。在一些实施例中，靶窗口包括1-10个核苷酸。在一些实施方案中，靶窗口的长度为1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-2或1个核苷酸。在一些实施方案中，靶窗口的长度为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施例中，预期编辑的碱基对在靶窗口内。在一些实施方案中，使用本文提供的任何碱基编辑器来执行该方法。在一些实施例中，靶窗口是脱氨基窗口。

本发明的再一方面提供本文提供的融合蛋白：gRNA复合物在制备用于治疗核碱基A或C突变介导的疾病中的应用。本发明的再一方面还提供用于治疗核碱基A或C突变介导的疾病的本文提供的融合蛋白：gRNA复合物。核碱基A突变介导的疾病可以是上文所提及的任何一种可治疗的疾病。核碱基C突变介导的疾病例如囊性纤维化(cysticfibrosis)，苯丙酮尿症(phenylketonuria)，表皮松解角化过度症(epidermolytichyperkeratosis)(EHK)，夏科-马里-图思病(Charcot-Marie-Toot disease)4J型，神经母细胞瘤(neuroblastoma)(NB)，血管性血友病(von Willebrand disease)(vWD)，先天性肌强直(myotoniacongenital)，遗传性肾淀粉样变性(hereditary renal amyloidosis)，扩张型心肌病(dilated cardiomyopathy)(DCM)，遗传性淋巴水肿(hereditarylymphedema)，家族性阿尔茨海默氏病，HIV，朊病毒病(Prion disease)，慢性婴儿神经系统皮肤关节综合征(chronicinfantile neurologic cutaneous articular syndrome)(CINCA)，结蛋白相关性肌病(desmin-related myopathy)(DRM)，与突变体PI3KCA蛋白，突变体CTNNB1蛋白，突变体HRAS蛋白或突变体p53蛋白相关的肿瘤性疾病(neoplasticdisease)。

具体地，本文提供的融合蛋白可用于治疗各种罕见病、肿瘤、癌症、炎症、病毒感染疾病、遗传疾病、中枢神经系统疾病、衰老和多种自身免疫性疾病以及常见和慢性疾病。更具体地，治疗的疾病可以为高血压、高脂血症、乙型肝炎病毒(HBV)、肝细胞癌(HCC)、肩肱型肌营养不良症(FSHD)、杂合子家族性高胆固醇血症(HeFH)、α-1抗胰蛋白酶缺乏症(A1AD)、非动脉性前部缺血性视神经病变(NAION)或杜氏肌营养不良(DMD)。

序列表

实施例

实施例1.预测enCas12i效应蛋白的crRNA

采用常用软件预测本发明提供的嵌合Cas12i蛋白的crRNA，预测得到crRNA-1至crRNA-8(图1)序列分别如SEQ ID NO.7至14所示。

将denCas12i-001(D1009A，经过真核生物密码子优化)的核苷酸通过XTEN linker(SGGSSGGSSGSETPGTSESATPESSGGSSGGS，SEQ ID NO.83)与腺嘌呤脱氨酶TadA-8e(来源自ABE8e的脱氨酶TadA-8e，参考Richter,Michelle F et al.“Phage-assisted evolutionof an adenine base editor with improved Cas domain compatibility andactivity.”Nature biotechnology vol.38,7(2020):883-891.doi:10.1038/s41587-020-0453-z)的碱基编辑器连接片段构建在真核表达载体pX330中，denCas12i-001由chickenβ-actin promoter启动子启动表达，在该碱基编辑器下游通过自剪切多肽2A(P2A)连接eGFP基因(用于进行细胞分选)，同时在U6启动子下游构建sgRNA序列(sgRNA序列包含两个区段，分别为Target gRNA和crRNA)，该sgRNA的靶向区段作用的靶基因分别为RNF2，即RNF2-Target gRNA(5’-TTCAACATATCCAAACAAAT-3’,SEQ ID NO.75)，crRNA分别为crRNA-1、crRNA-2、crRNA-3、crRNA-8，形成重组载体，分别标记为：pX330-ABE8e-crRNA1-RNF2-Target gRNA(载体1)、pX330-ABE8e-crRNA2-RNF2-Target gRNA(载体2)、pX330-ABE8e-crRNA3-RNF2-Target gRNA(载体3)、pX330-ABE8e-crRNA8-RNF2-Target gRNA(载体4)，载体图参见图2。

然后，分别将上述腺嘌呤碱基编辑器载体1-载体4转染人HEK293T细胞，在37℃、5％二氧化碳浓度下培养，转染72小时后，进行流式细胞术分选，通过荧光活化细胞分选(FACS)收集eGFP阳性细胞，细胞分选后继续培养48小时，并使用测序来测定到腺嘌呤碱基编辑器对RNF2靶点的编辑效率，结果如图3。结果显示，crRNA-1、crRNA-2、crRNA-3、crRNA-8与靶向区段形成的sgRNA均能对靶点的碱基A编辑为碱基G，编辑位点为第9位，编辑效率约为7％-46％，因为crRNA-1至crRNA-8的序列和二级结构相似度较高，推测crRNA-1至crRNA-8均有效。以下实施例均采用crRNA-1。

实施例2.基于大肠杆菌高通量PAM-SCANR实验

方法参考Leenay,Ryan T et al.“Identifying and Visualizing FunctionalPAM Diversity across CRISPR-Cas Systems.”Molecular cell vol.62,1(2016):137-47.doi:10.1016/j.molcel.2016.02.031，采用该实验确认和分析enCas12i-001效应蛋白(图4A)和enCas12i-001-N229R突变体(图4B)的PAM的碱基偏好性，结果如图4，实验发现该效应蛋白具有广泛的基因组靶向范围，能够高效地识别富含T/A等PAM序列，具体的，enCas12i效应蛋白与目标dsDNA的结合依赖于5’-TTN PAM(N＝A、T、C或G)、5'-ATN(N＝A、T、C或G)、5'-TAN(N＝A、T、C或G)、或5'-AAN(N＝A、T、C或G)，以下实施例的PAM选择5’-TTC。

实施例3.enCas12i效应蛋白的表达和纯化

为了获得enCas12i-001效应蛋白，将编码enCas12i-001效应蛋白的重组质粒pET-enCas12i转化到大肠杆菌(Arctic Express(DE3))中表达，该菌株生长在补充有抗生素的LB肉汤中。使细菌在37℃下生长至OD₆₀₀为0.5，此时生长温度降低至16℃，并诱导表达20h。将细胞沉淀并重悬于加载缓冲液(20m MKH₂PO₄，pH 7.0，0.5M NaCl，10mM咪唑，5％甘油)中，并通过超声处理进行破裂。通过离心去除细胞碎片。将上清液装载到Ni²⁺带电的5ml HiTrap螯合HP柱(GE医疗集团(GE Healthcare))上，并且用线性递增浓度梯度的咪唑进行洗脱。将含有enCas12i-001效应蛋白的级分合并，并且随后装载到heparin柱上，使用线性递增浓度梯度的NaCl(从0.5M至1M NaCl)用于洗脱。将含有enCas12i-001效应蛋白的级分合并，并且对10mM Bis-Tris-HCl pH 7.0、300mM KCl、1mM EDTA、1mM DTT、50％(v/v)甘油进行透析，并储存在-20℃。enCas12i-001效应蛋白能成功被表达。

实施例4.T7核酸内切酶1(T7E1)测定切割性能

4.1、本实验采用常用的T7E1实验测试效应蛋白的切割活性，构建多个靶向不同基因的真核生物表达载体，靶向的基因分别为CCR5、BCL11A和RNF2，靶点Target gRNA序列如下，sgRNA中crRNA为crRNA-1。靶点位于这些基因的内部。

CCR5-Target gRNA：5’-AGGCCAAAGAATTCCTGGAA-3’(SEQ ID NO.73)；

BCL11A-Target gRNA：5’-TCACAGGCTCCAGGAAGGGT-3’(SEQ ID NO.74)；

RNF2-Target gRNA：5’-TTCAACATATCCAAACAAAT-3’(SEQ ID NO.75)。

真核生物表达载体图结构如表1和图5所示。

4.2、T7E1实验：分别将上述表达Cas12效应蛋白和sgRNA的质粒(载体5-载体14)转染HEK293T细胞72h后提取转基因细胞的DNA检测。使用相应的引物对(如表2)在不同基因组位点(CCR5、BCL11A和RNF2)中包含靶位点的dsDNA片段进行PCR扩增。通过切胶回收纯化PCR产物，使用PCR产物，添加ddH₂O。然后将该混合物进行变性退火以形成异源双链dsDNA。然后，在37℃下用含有盐离子的缓冲液NEB buffer 2和T7EI(NEB)内切酶处理混合物。然后通过3％琼脂糖凝胶电泳分析检测PCR产物的切割结果。结果如电泳图6所示。

电泳图6中，电泳核酸Marker为2000bp DNA ladder，CCR5靶点目标片段长度约为305bp，切割位点突变被T7E1消化后两段长度约为128bp/177bp(图中标注为切割cleaved)；BCL11A靶点目标片段长度约为324bp，切割位点突变被T7E1消化后两段长度约为120bp/204bp(图中标注为切割cleaved)；RNF2靶点目标片段长度约为430bp，切割位点突变被T7E1消化后两段长度约为151bp/279bp(图中标注为切割cleaved)。电泳图中标记为M的泳道为Marker，标记为1、5和9的泳道为空白对照(即转染载体14的结果)，标记为2-4的泳道为转染载体5-载体7的结果，标记为6-8的泳道为转染载体8-载体10的结果，标记为10-12的泳道为转染载体11-载体13的结果。图6结果显示：空白对照只有未切割条带，其余泳道均含有明显的切割条带，且RNF2位点的切割条带最明显。若enCas12i效应蛋白具有特异性切割dsDNA的活性，导致体系中含有效应蛋白编辑后不完全配对的dsDNA，T7E1可识别这些不完全配对的dsDNA并对其进行消化切割，使得体系中出现多条被T7E1切割条带，反之亦然，图6的切割后的两条短条带说明：enCas12i效应蛋白具有体内特异性切割dsDNA的活性。

具体的，构建载体如下。

切割载体：分别将enCas12i-001和enCas12i-002效应蛋白(SEQ ID NO.59和SEQID NO.60)经过真核生物密码子优化的核苷酸构建在真核表达载体pX330中，这两个效应蛋白由chickenβ-actin promoter启动子启动表达，同时在U6启动子下游构建sgRNA序列(sgRNA序列包含两个区段，分别为crRNA-1和Target gRNA)，该sgRNA的靶向区段作用的靶基因分别为CCR5、BCL11A和RNF2，具体为CCR5-Target gRNA、BCL11A-Target gRNA和RNF2-Target gRNA)，形成切割载体，分别标记为：pX330-enCas12i-002-CCR5-Target gRNA(载体5)、pX330-enCas12i-001-CCR5-Target gRNA(载体6)、pX330-enCas12i-002-BCL11A-Target gRNA(载体8)、pX330-enCas12i-001-BCL11A-Target gRNA(载体9)、pX330-enCas12i-002-RNF2-Target gRNA(载体11)和pX330-enCas12i-001-RNF2-Target gRNA(载体12)。

阳性对照载体：将现有的Cas12i^Max核苷酸(参考文献：Chen Y,Hu Y,Wang X,etal.Synergistic engineering of CRISPR-Cas nucleases enables robust mammaliangenome editing.Innovation(Camb).2022；3(4):100264.Published 2022May 26.doi:10.1016/j.xinn.2022.100264)构建在真核表达载体pX330中，该Cas12i^Max由chickenβ-actin promoter启动子启动表达，同时在U6启动子下游构建sgRNA序列(sgRNA序列包含两个区段，分别为crRNA-1和Target gRNA)，该sgRNA的靶向区段作用的靶基因分别为CCR5、BCL11A和RNF2，具体为CCR5-Target gRNA、BCL11A-Target gRNA和RNF2-Target gRNA)，形成阳性切割载体，分别标记为：pX330-Cas12i^Max-CCR5-Target gRNA(载体7)、pX330-Cas12i^Max-BCL11A-Target gRNA(载体10)、pX330-Cas12i^Max-RNF2-Target gRNA(载体13)。

阳性空载：将上述的Cas12i^Max核苷酸构建在真核表达载体pX330中，该Cas12i^Max由chickenβ-actin promoter启动子启动表达，同时在U6启动子下游构建crRNA-1，不构建Target gRNA，形成阳性空载，标记为：pX330-Cas12i^Max-crRNA(载体14)。

表1(载体图参见图5)

表2(用于T7E1实验中PCR扩增的引物对)

引物名称	序列(5’→3’)	SEQ ID NO.
			CCR5-F	TCTGCTTCGGTGTCGAAATGAG	76
CCR5-R	TGCAGAAGCGTTTGGCAATGTG	77
			BCL11A-F	GCTGAAAAGCGATACAGGGC	78
BCL11A-R	ATCACCAAGAGAGCCTTCCG	79
			RNF2-F	TTTATAACAGTGGTGGTGAGGCT	80
RNF2-R	TTCTCAAACCCTGGAAAGCACT	81

实施例5.enCas12i效应蛋白在人类细胞系中切割活性验证

为了进一步证实enCas12i效应蛋白在哺乳动物细胞中的dsDNA切割活性，本实验采用测序方式进行验证，如表3所示载体结构，分别将enCas12i-001效应蛋白(SEQ IDNO.59)、enCas12i-002效应蛋白(SEQ ID NO.60)和现有的Cas12i^Max经过真核生物密码子优化的核苷酸与靶向RNF2基因的sgRNA构建真核生物表达载体pX330中，靶点RNF2-TargetgRNA序列为：5’-TTCAACATATCCAAACAAAT-3’(SEQ ID NO.75)，RNF2-Target gRNA的反向互补序列为：5’-ATTTGTTTGGATATGTTGAA-3’(SEQ ID NO.82)。sgRNA中crRNA为crRNA-1，该sgRNA由U6启动子启动表达；该enCas12i效应蛋白由chickenβ-actin promoter启动子启动表达；在enCas12i核苷酸或Cas12i^Max核苷酸下游通过自剪切多肽2A(P2A)连接eGFP基因(用于进行细胞分选)，形成重组载体，分别标记为：pX330-Cas12i^Max-crRNA-eGFP(载体15，不含有Target gRNA，为空白对照)、pX330-Cas12i^Max-RNF2-eGFP(载体16，为阳性对照)、pX330-enCas12i-001-RNF2-eGFP(载体17)和pX330-enCas12i-002-RNF2-eGFP(载体18)。

分别将上述载体(载体15-载体18)转染人HEK293T细胞。在37℃、5％二氧化碳浓度下培养，转染72h后，通过荧光活化细胞分选(FACS)收集eGFP阳性细胞，细胞分选后继续培养48小时，随后提取分选的细胞基因组，采用上述引物(RNF2-F和RNF2-R)进行测序，结果如图8所示，测序结果可知，图8A空白对照中，箭头区为RNF2-Target gRNA反向互补序列，该靶点序列上游和下游的峰形比较完整，基本为单一峰形，仅有基线噪音，在RNF2-Target gRNA反向互补序列下游(箭头方向)不存在移码突变的峰形；enCas12i-001(图8C)和enCas12i-002(图8D)的测序峰形与阳性对照Cas12i^Max(图8B)一致，均在RNF2靶点序列的下游(箭头方向)，也即阅读框下游存在连续稳定的套峰，说明本专利的enCas12i效应蛋白在RNF2靶点上进行切割，导致RNF2靶点下游(箭头方向)的阅读框下游序列发生移码突变，引起阅读框架变化，导致其位点下游出现连续稳定的套峰，说明本发明的enCas12i效应蛋白具有在真核细胞的切割活性。

表3(载体15-18结构如图7所示)

实施例6.enCas12i效应蛋白与腺苷脱氨酶构建的碱基编辑器ABE的碱基编辑活性验证

CRISPR-Cas蛋白与腺苷脱氨酶构建的碱基编辑器ABE能有效引起DNA中A:T到G:C碱基对的转化或C:G到T:A碱基对的转化，因此，可通过碱基编辑器检测denCas12i在人类细胞系中编辑能力，并能测定碱基编辑器的编辑效果。按照表4所述的sgRNA，构建对应的载体。

实验组：分别将denCas12i-001至denCas12i-002(D1009A)、denCas12i-003至denCas12i-006(D1019A)经过真核生物密码子优化的核苷酸通过XTEN linker(SGGSSGGSSGSETPGTSESATPESSGGSSGGS，SEQ ID NO.83)与上述腺嘌呤脱氨酶TadA-8e的碱基编辑器连接片段构建在真核表达载体pX330中，该碱基编辑器由chickenβ-actin promoter启动子启动表达；在该碱基编辑器下游通过自剪切多肽2A(P2A)连接eGFP基因(用于进行细胞分选)，同时在U6启动子下游构建sgRNA序列(crRNA-1和RNF2-Target gRNA、或crRNA-1和TTR-Target gRNA)的真核表达载体中形成重组腺嘌呤碱基编辑器载体，分别标记为：pX330-ABE8e-denCas12i-001-RNF2-eGFP(载体19)、pX330-ABE8e-denCas12i-002-RNF2-eGFP(载体20)、pX330-ABE8e-denCas12i-003-RNF2-eGFP(载体21)、pX330-ABE8e-denCas12i-004-RNF2-eGFP(载体22)、pX330-ABE8e-denCas12i-005-RNF2-eGFP(载体23)、pX330-ABE8e-denCas12i-006-RNF2-eGFP(载体24)、pX330-ABE8e-denCas12i-001-TTR-eGFP(载体25)、pX330-ABE8e-denCas12i-002-TTR-eGFP(载体26)、pX330-ABE8e-denCas12i-003-TTR-eGFP(载体27)、pX330-ABE8e-denCas12i-004-TTR-eGFP(载体28)、pX330-ABE8e-denCas12i-005-TTR-eGFP(载体29)和pX330-ABE8e-denCas12i-006-TTR-eGFP(载体30)。

编辑靶点：RNF2-Target gRNA和TTR-Target gRNA的序列如下：

RNF2-Target gRNA：5’-TTCAACATATCCAAACAAAT-3’(SEQ ID NO.75)。

TTR-Target gRNA：5’-TTGTATAATAGGAAAGGGAA-3’(SEQ ID NO.84)。

表4(载体19-30结构如图9所示)

然后，分别将上述腺嘌呤碱基编辑器载体19-载体30转染人HEK293T细胞，在37℃、5％二氧化碳浓度下培养，转染72小时后，进行流式细胞术分选，通过荧光活化细胞分选(FACS)收集eGFP阳性细胞，细胞分选后继续培养48小时，并使用测序来测定到腺嘌呤碱基编辑器对RNF2靶点和TTR靶点的编辑效率，结果如图10。结果显示，denCas12i-001至denCas12i-006的六种效应蛋白均能对靶点的碱基A编辑为碱基G。采用本发明提供的enCas12i效应蛋白形成的腺嘌呤碱基编辑器的编辑效率为20％-40％，编辑窗口为靶点开始第7位、第8位、第9位和第10位，其中，在RNF2靶点看，enCas12i-001和enCas12i-002的编辑窗口为第7位和第9位，enCas12i-003至denCas12i-006的编辑窗口为第7位和第9位，在TTR靶点看，enCas12i-001和enCas12i-002的编辑窗口为第7位和第10位，enCas12i-003至denCas12i-006的编辑窗口为第7位、第8位和第10位。以下实验采用enCas12i-001效应蛋白。

实施例7.enCas12i的突变体的对DNA的结合和切割活性验证

经过大量实验验证发现，enCas12i效应蛋白的第229位、第924位和第925位氨基酸会影响该效应蛋白对DNA的结合和切割活性，因此本实验为验证enCas12i-001-N229R突变体、enCas12i-001-D924R突变体和enCas12i-001-S925R突变体的核酸酶活性。

7.1参照实施例5的方法，构建pX330-enCas12i-001-N229R-RNF2-eGFP、pX330-enCas12i-001-D924R-RNF2-eGFP、pX330-enCas12i-001-S925R-RNF2-eGFP载体，分别将这些载体转染293T细胞，然后对细胞进行培养、分选和靶点扩增测序分析，结果如图11；结果的箭头为RNF2靶点(5’-TTCAACATATCCAAACAAAT-3’，SEQ ID NO.75)，RNF2靶点下游(箭头方向)的阅读框下游序列发生移码突变，引起阅读框架变化，导致其位点下游出现连续稳定的套峰，说明本申请的enCas12i效应蛋白具有在真核细胞的切割活性。

7.2参照实施例6的方法，构建pX330-ABE8e-denCas12i-001-N229R-RNF2-eGFP、pX330-ABE8e-denCas12i-001-D924R-RNF2-eGFP、pX330-ABE8e-denCas12i-001-S925R-RNF2-eGFP、pX330-ABE8e-denCas12i-001-N229R-TTR-eGFP、pX330-ABE8e-denCas12i-001-D924R-TTR-eGFP、pX330-ABE8e-denCas12i-001-S925R-TTR-eGFP载体，分别将这些载体转染293T细胞，然后对细胞进行培养、分选和靶点扩增测序分析，结果如图12；结果显示，enCas12i的突变体(enCas12i-N229R、enCas12i-D924R、enCas12i-S925R)均能对靶点(RNF2和TTR)的碱基A编辑为碱基G，对于RNF2，三个突变体均对第9位具有最高的编辑效率，其中，N229R的编辑效率最高，对于TTR，三个突变体对第7位和第10位具有编辑效率。以下实验采用enCas12i-001-N229R进行。

实施例8.基于enCas12i-001和enCas12i-001-N229R构建的表观遗传激活器在人类细胞系的效果测试

测试本发明的enCas12i效应蛋白是否能在哺乳动物细胞中结合dsDNA并诱导转录激活，本实施例将rtTA(反四环素控制的反式激活子)表达盒和由最小CMV启动子(PminiCMV)控制的eGFP表达盒加上六个拷贝的四环素应答元件(TRE，含有5’-TTC-3’PAM和enCas12i-001或enCas12i-001-N229R的靶序列)构建至慢病毒载体上，得到TRE-eGFP报告系统(图13A)，将该报告系统载体转染至HEK293T细胞，得到稳定的含有报告系统的293T细胞。

同时，分别将转录激活剂VP64-p65-Rta58融合到每个密码子优化的denCas12i-001和denCas12i-001-N229R中，形成denCas12i-001-VPR和denCas12i-001-N229R-VPR、crRNA-1与靶向TRE序列的gRNA(即TRE-eGFP Target，5’-TCTATCACTGATAGGGAGTG-3’，SEQID NO.85)构建至含有蓝色荧光蛋白TagBFP的真核生物载体上，命名为pX330-denCas12i-001-VPR-TagBFP和pX330-denCas12i-001-N229R-VPR-TagBFP(图13B至图13D；图13B为对照空载，构建有denCas12i-001-VPR，但不含有TRE-eGFP Target，图13C至13D为实验组，图13C构建有denCas12i-001-VPR和TRE-eGFP Target，图13D构建有denCas12i-001-N229R-VPR和TRE-eGFP Target)，将这些质粒分别转染到上述含有报告系统的293T细胞中，通过FACS流式细胞术检测同时表达TagBFP和GFP荧光蛋白，结果如图14，图14A为转染对照空载后，在表达TagBFP细胞中检测GFP荧光结果，图14B为转染pX330-denCas12i-001-VPR-TagBFP载体后，在表达TagBFP细胞中检测GFP荧光结果，图14C为转染pX330-denCas12i-001-N229R-VPR-TagBFP载体后在，表达TagBFP细胞中检测GFP荧光结果，结果可知，对照空载组细胞无eGFP荧光，本发明的denCas12i-VPR实验组的eGFP阳性细胞的百分比显著增加，表明denCas12i-001-VPR和denCas12i-001-N229R-VPR成功靶向TRE-eGFP Target对eGFP进行转录激活。说明本发明的enCas12i-001和enCas12i-001-N229R可用于表观遗传编辑器，从数据可知，由enCas12i-001-N229R构成的表观遗传激活器的激活效率更高。

上述实验表明，对enCas12i效应蛋白的N229R进行点突变能显著提高enCas12i的切割与结合活性。

Claims

1.工程化的嵌合Cas12i多肽，其包含Nuc结构域，其中所述Nuc结构域来源于第一Cas12i多肽的Nuc结构域，所述工程化的嵌合Cas12i多肽的非Nuc结构域部分来源于第二Cas12i多肽的非Nuc结构域部分，所述第一Cas12i多肽与所述第二Cas12i多肽相比序列同一性不超过80％，并且所述工程化的嵌合Cas12i多肽能够结合核酸，并且任选地切割所述核酸。

2.根据权利要求1所述的工程化的嵌合Cas12i多肽，其中所述工程化的嵌合Cas12i多肽：

(i)包含与SEQ ID NO.1或2所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；或

(ii)包含与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列。

3.工程化的嵌合Cas12i多肽，其能够结合核酸，并且任选地切割所述核酸，所述工程化的嵌合Cas12i多肽：

(i)包含与SEQ ID NO.3至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；或

(ii)包含与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列。

4.工程化的嵌合Cas12i多肽，其能够结合核酸，并且任选地切割所述核酸，所述工程化的嵌合Cas12i多肽由N端至C端包含依次连接的第一肽段、第二肽段和第三肽段，其中：

5.根据权利要求1至4任一项所述的工程化的嵌合Cas12i多肽，其中所述工程化的嵌合Cas12i多肽被突变以使其具有以下一个或多个特征：

(i)核酸切割活性部分或完全失活，或核酸切割活性增强；

(ii)核酸结合活性增强。

6.根据权利要求2所述的工程化的嵌合Cas12i多肽，其中所述工程化的嵌合Cas12i多肽，根据SEQ ID NO.1所示的序列编号，在D1009位置处具有氨基酸取代，优选被丙氨酸取代。

7.根据权利要求2所述的工程化的嵌合Cas12i多肽，其中所述工程化的嵌合Cas12i多肽，根据SEQ ID NO.1所示的序列编号，在N229位置处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代。

8.根据权利要求1或7所述的工程化的嵌合Cas12i多肽，其中所述工程化的嵌合Cas12i多肽，

(i)包含与SEQ ID NO.1所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；或

(ii)包含与SEQ ID NO.1的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；

并且，所述工程化的嵌合Cas12i多肽在D924和S925两个位置中的至少一个处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代。

9.一种CRISPR-Cas系统，其包含：

(a)Cas12i多肽，所述Cas12i多肽选自权利要求1至8任一项所述的工程化的嵌合Cas12i多肽；以及

(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

10.根据权利要求9所述的CRISPR-Cas系统，其中所述引导RNA包含与所述靶核酸杂交的引导区段和与Cas12i多肽结合的重复区段，并且所述引导RNA不包含且不结合tracrRNA。

11.根据权利要求10所述的CRISPR-Cas系统，其中所述引导RNA的重复区段包含SEQ IDNO.7至14任一项所示的核苷酸序列或与SEQ ID NO.7至14任一项所示的核苷酸序列相比具有1至10个核苷酸替换、缺失和/或插入的核苷酸序列；优选地，其中所述引导RNA的重复区段为SEQ ID NO.7至14任一项所示的核苷酸序列。

12.一种融合多肽，其包含与一个或多个异源多肽融合的Cas12i多肽，所述Cas12i多肽选自权利要求1至8任一项所述的工程化的嵌合Cas12i多肽。

13.根据权利要求12所述的融合多肽，其中所述一个或多个异源多肽独立地为表位标签、核定位信号或具有以下一种或多种酶促活性：逆转录酶活性、核酸酶活性、甲基转移酶活性、脱甲基化酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、脱泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如来自O-GlcNAc转移酶)和脱糖基化活性、DNA修复活性、DNA损伤活性、脱氨酶活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活；更优选地，所述酶促活性结构域具有以下一种或多种酶促活性：脱氨酶活性、甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性和脱乙酰酶活性；优选地，所述一个或多个异源多肽独立地为转录阻遏结构域、转录激活结构域、脱氨酶结构域。

14.根据权利要求13所述的融合多肽，其中所述转录激活结构域包含选自以下的酶形成的结构域：转录激活因子、组蛋白赖氨酸甲基转移酶、组蛋白赖氨酸脱甲基酶、组蛋白乙酰转移酶以及DNA脱甲基酶；优选地，所述转录阻遏结构域包含选自以下的结构域：转录阻遏物、ZIM3结构域、KOX1阻遏结构域、Mad mSIN3相互作用结构域(SID)、ERF阻遏物结构域(ERD)、SRDX阻遏结构域、组蛋白赖氨酸甲基转移酶、组蛋白赖氨酸脱甲基酶、组蛋白赖氨酸脱乙酰酶、DNA甲基化酶以及外周募集元件；更优选地，所述转录激活结构域包含VP64；P65；RTA；截短的P65；截短的RTA；或它们各自或之间的一个或多个的融合形式；更优选地，所述转录阻遏结构域选自KRAB催化结构域、DNA甲基转移酶或其组合。

15.根据权利要求14所述的融合多肽，其中所述融合多肽的结构选自：

NH₂-[Cas12i]-[转录调控结构域]-COOH；

NH₂-[转录调控结构域]-[Cas12i]-COOH；

NH₂-[Cas12i]-[转录激活结构域]-COOH；

NH₂-[转录激活结构域]-[Cas12i]-COOH；

NH₂-[NLS]-[Cas12i]-[转录激活结构域]-COOH；

NH₂-[Cas12i]-[转录激活结构域]-[NLS]-COOH；

NH₂-[NLS]-[Cas12i]-[转录激活结构域]-[NLS]-COOH；

NH₂-[NLS]-[转录激活结构域]-[Cas12i]-COOH；

NH₂-[转录激活结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[NLS]-[转录激活结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[Cas12i]-[VP64-P65-RTA融合蛋白及其截短的融合蛋白]-COOH；

NH₂-[VP64-P65-RTA融合蛋白及其截短的融合蛋白]-[Cas12i]-COOH；

NH₂-[Cas12i]-[转录抑制结构域]-COOH；

NH₂-[转录抑制结构域]-[Cas12i]-COOH；

NH₂-[NLS]-[Cas12i]-[转录抑制结构域]-COOH；

NH₂-[Cas12i]-[转录抑制结构域]-[NLS]-COOH；

NH₂-[NLS]-[Cas12i]-[转录抑制结构域]-[NLS]-COOH；

NH₂-[NLS]-[转录抑制结构域]-[Cas12i]-COOH；

NH₂-[转录抑制结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[NLS]-[转录抑制结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[NLS]-[Cas12i]-[KRAB催化结构域]-[DNMT3A-DNMT3L]-COOH；

NH₂-[Cas12i]-[KRAB催化结构域]-[DNMT3A-DNMT3L]-[NLS]-COOH；

NH₂-[NLS]-[Cas12i]-[KRAB催化结构域]-[DNMT3A-DNMT3L]-[NLS]-COOH；

NH₂-[NLS]-[KRAB催化结构域]-[DNMT3A-DNMT3L]-[Cas12i]-COOH；

NH₂-[KRAB催化结构域]-[DNMT3A-DNMT3L]-[Cas12i]-[NLS]-COOH；

NH₂-[NLS]-[KRAB催化结构域]-[DNMT3A-DNMT3L]-[Cas12i]-[NLS]-COOH；

NH₂-[NLS]-[KRAB催化结构域]-[Cas12i]-[DNMT3A-DNMT3L]-COOH；

NH₂-[KRAB催化结构域]-[Cas12i]-[DNMT3A-DNMT3L]-[NLS]-COOH；

NH₂-[NLS]-[KRAB催化结构域]-[Cas12i]-[DNMT3A-DNMT3L]-[NLS]-COOH；

NH₂-[NLS]-[DNMT3A-DNMT3L]-[Cas12i]-[KRAB催化结构域]-COOH；

NH₂-[DNMT3A-DNMT3L]-[Cas12i]-[KRAB催化结构域]-[NLS]-COOH；和

NH₂-[NLS]-[DNMT3A-DNMT3L]-[Cas12i]-[KRAB催化结构域]-[NLS]-COOH。

16.根据权利要求13所述的融合多肽，其中所述脱氨酶结构域包括腺苷脱氨酶结构域、胞苷脱氨酶结构域或其组合；优选地，所述胞苷脱氨酶选自活化诱导的胞苷脱氨酶(AID)、载脂蛋白B mRNA编辑复合物(APOBEC)和PmCDA1；优选地，所述腺苷脱氨酶结构域是TadA、ecTadA、saTadA、ecTadA7.10、TadA-8e、TadA8.17、TadA8.20、TadA9或其组合。

17.根据权利要求16所述的融合多肽，其中所述融合多肽的结构选自：

NH₂-[腺苷脱氨酶结构域]-[Cas12i]-COOH；

NH₂-[Cas12i]-[腺苷脱氨酶结构域]-COOH；

NH₂-[腺苷脱氨酶结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[Cas12i]-[腺苷脱氨酶结构域]-[NLS]-COOH；

NH₂-[NLS]-[腺苷脱氨酶结构域]-[Cas12i]-COOH；

NH₂-[NLS]-[Cas12i]-[腺苷脱氨酶结构域]-COOH；

NH₂-[NLS]-[腺苷脱氨酶结构域]-[Cas12i]-[NLS]-COOH；

NH₂-[NLS]-[Cas12i]-[腺苷脱氨酶结构域]-[NLS]-COOH；

18.一种复合物，其包含权利要求12至17任一项所述的融合多肽以及引导RNA，所述引导RNA与所述融合多肽复合以引导所述融合多肽结合至靶核酸；优选地，所述引导RNA包含与所述靶核酸杂交的引导区段和与融合多肽结合的重复区段，并且所述引导RNA不包含且不结合tracrRNA；优选地，所述引导RNA的重复区段包含SEQ ID NO.7至14任一项所示的核苷酸序列或与SEQ ID NO.7至14任一项所示的核苷酸序列相比具有1至10个核苷酸替换、缺失和/或插入的核苷酸序列；优选地，其中所述引导RNA的重复区段为SEQ ID NO.7至14任一项所示的核苷酸序列。

19.根据权利要求18所述的复合物，其中所述复合物是表观遗传编辑器，其包含权利要求14或15所述的融合多肽；优选地，所述融合多肽包含SEQ ID NO.88至93任一个所示的氨基酸序列。

20.根据权利要求18所述的复合物，其中所述复合物是碱基编辑器，其包含权利要求16或17所述的融合多肽；优选地，所述融合多肽包含SEQ ID NO.94至97任一个所示的氨基酸序列。

21.一种核酸，其包含编码如权利要求1至8任一项所述的工程化的嵌合Cas12i多肽或权利要求12至17任一项所述的融合多肽的多核苷酸；优选地，所述多核苷酸被密码子优化以在原核或真核细胞中表达；优选地，所述多核苷酸包含或为如SEQ ID NO.59至64任一个所示的核苷酸序列。

22.一种核酸，其包含引导RNA或编码所述引导RNA的核苷酸序列，所述引导RNA包含重复区段，包含SEQ ID NO.7至14任一项所示的核苷酸序列或与SEQ ID NO.7至14任一项所示的核苷酸序列相比具有1至10个核苷酸替换、缺失和/或插入的核苷酸序列；优选地，其中所述引导RNA的重复区段为SEQ ID NO.7至14任一项所示的核苷酸序列；优选地，所述引导RNA不包含且不结合tracrRNA；优选地，所述核酸是DNA或mRNA。

23.一种载体，其包含权利要求21和/或22所述的核酸；优选地，所述载体是质粒或病毒载体；优选地，所述病毒载体是腺相关病毒载体、腺病毒载体、逆转录病毒载体、慢病毒载体或单纯疱疹病毒载体。

24.一种载体系统，其包括第一载体和与第一载体不同的第二载体，所述第一载体包含权利要求21所述的核酸；所述第二载体包含权利要求22所述的核酸；优选地，所述第一载体和第二载体独立地是质粒或病毒载体；优选地，所述病毒载体是腺相关病毒载体、腺病毒载体、逆转录病毒载体、慢病毒载体或单纯疱疹病毒载体。

25.一种递送系统，包含权利要求1至8任一项所述的工程化的嵌合Cas12i多肽、权利要求9至11任一项所述的CRISPR-Cas系统、权利要求12至17任一项所述的融合多肽、权利要求18至20任一项所述的复合物、权利要求21或22所述的核酸、权利要求23所述的载体、或权利要求24所述的载体系统；优选地，所述递送系统包括脂质体、纳米颗粒或外泌体。

26.一种细胞，其包含权利要求1至8任一项所述的工程化的嵌合Cas12i多肽、权利要求9至11任一项所述的CRISPR-Cas系统、权利要求12至17任一项所述的融合多肽、权利要求18至20任一项所述的复合物、权利要求21或22所述的核酸、权利要求23所述的载体、权利要求24所述的载体系统、或权利要求25所述的递送系统；优选地，所述细胞是真核细胞；更优选地，所述细胞是人细胞。

27.一种组合物或试剂盒，其包含权利要求1至8任一项所述的工程化的嵌合Cas12i多肽、权利要求9至11任一项所述的CRISPR-Cas系统、权利要求12至17任一项所述的融合多肽、权利要求18至20任一项所述的复合物、权利要求21或22所述的核酸、权利要求23所述的载体、权利要求24所述的载体系统、权利要求25所述的递送系统或权利要求26所述的细胞；以及药学上可接受的载体。

28.一种修饰靶核酸的方法，所述方法包括使靶核酸与权利要求9至11任一项所述的CRISPR-Cas系统、权利要求18至20任一项所述的复合物、权利要求23所述的载体、权利要求24所述的载体系统、或权利要求25所述的递送系统接触，所述接触导致所述靶核酸被修饰；优选地，所述修饰包括增加或减少所述靶核酸中的靶序列的表达，或所述修饰包括对所述靶核酸中的靶腺嘌呤或靶胞嘧啶进行脱氨基以实现碱基对转换。

29.根据权利要求28所述的方法，其中所述靶核酸选自：双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA；优选地，其中所述接触在体外在细胞外部发生、在培养的细胞内部发生或在体内细胞内部发生；优选地，所述细胞是真核细胞，更优选为人细胞。