CN117916372A

CN117916372A - 无切割活性的cas12f1、基于无切割活性的cas12f1的融合蛋白、包括其的crispr基因编辑系统及其制备方法和用途

Info

Publication number: CN117916372A
Application number: CN202280060155.7A
Authority: CN
Inventors: 金龙三; 金掉妍
Original assignee: Keenkorey Co ltd
Current assignee: Keenkorey Co ltd
Priority date: 2021-07-05
Filing date: 2022-07-05
Publication date: 2024-04-19

Abstract

本申请文件公开了：具有移除的核酸切割活性的死亡Cas12f1；以及融合蛋白，其中功能结构域与死亡Cas12f1融合。死亡Cas12f1和基于dCas12f1的融合蛋白可以：与引导RNA一起形成CRISPR基因编辑系统；并且表现出与靶基因相关的各种功能，例如，碱基编辑和表达控制。

Description

无切割活性的CAS12F1、基于无切割活性的CAS12F1的融合蛋白、包括其的CRISPR基因编辑系统及其制备方法和用途

技术领域

本公开涉及经工程化的CRISPR/Cas12f1系统。特别地，本公开涉及无切割活性的Cas12f1(死亡Cas12f1)蛋白和融合蛋白，其中，附加结构域与死亡Cas12f1蛋白融合。具体地，融合蛋白包括具有靶基因的碱基编辑功能的CRISPR碱基编辑复合物和具有靶基因的表达调控功能的CRISPR表达调控复合物。

背景技术

除了基于Cas蛋白的核酸切割活性的CRISPR/Cas系统的应用外，还积极开展研究，以利用其高的靶特异性结合能力，将CRISPR/Cas系统用于基因调控的整体领域，例如，碱基编辑和基因表达调控。本文中，为了在诸如碱基编辑和基因表达调控的技术领域中利用Cas蛋白，有必要使用移除核酸切割活性的其死亡形式。此外，有必要将适当的功能结构域添加到Cas蛋白的死亡形式，从而产生能够实现期望效果的融合蛋白。

同时，主要用于CRISPR调控系统的死亡Cas9蛋白的尺寸大，使其难以创建用于CRISPR调控系统的融合蛋白并将其封装在载体(例如，AAV)中以递送到细胞。为了解决这个问题，正在努力寻找解决方案(例如，分裂Cas9蛋白)，以便使用多种载体将其递送到细胞中，以及开发和应用相对小的Cas蛋白。

发明内容

技术问题

本申请文件旨在提供死亡Cas12f1蛋白。

本申请文件旨在提供dCas12f1-碱基编辑融合蛋白，其中，死亡Cas12f1蛋白和碱基编辑结构域融合在一起。

本申请文件旨在提供dCas12f1-表达调控融合蛋白，其中，死亡Cas12f1蛋白和基因表达调控结构域融合在一起。

本申请文件旨在提供引导RNA，所述引导RNA可以与经工程化的Cas12f1蛋白(包括死亡Cas12f1蛋白、dCas12f1-碱基编辑融合蛋白和/或dCas12f1-表达调控融合蛋白)一起形成CRISPR基因调控系统。

本申请文件旨在提供包括经工程化的Cas12f1蛋白和引导RNA的CRISPR基因调控复合物(系统)。

本申请文件旨在提供能够表达CRISPR基因调控系统的各个组分的载体。

本申请文件旨在提供经工程化的CRISPR/Cas12f1组合物。

本申请文件旨在提供利用CRISPR基因调控系统的基因调控方法。

本申请文件旨在提供CRISPR基因调控系统的用途。

技术方案

本文公开了基于野生型Cas12f1的死亡Cas12f1蛋白，其由以下的氨基酸序列示出：

其中，X₁是异亮氨酸或色氨酸，X₂是丝氨酸或酪氨酸，X₃是天冬氨酸、丙氨酸、谷氨酰胺、亮氨酸、色氨酸或缬氨酸，X₄是谷氨酸、丙氨酸、谷氨酰胺、亮氨酸、色氨酸或缬氨酸，X₅是精氨酸、丙氨酸、谷氨酰胺、亮氨酸、色氨酸酯或缬氨酸，以及X₆是天冬氨酸、丙氨酸、谷氨酰胺、亮氨酸、色氨酸或缬氨酸，以及

X₃、X₄、X₅和X₆中的至少一个是丙氨酸、谷氨酰胺、亮氨酸、色氨酸或缬氨酸。

本文公开了死亡Cas12f1蛋白，所述蛋白包括：

包括20个至30个氨基酸的虚设部分(dummy portion)；和

基于野生型Cas12f1的死亡Cas12f1蛋白，

其中，所述虚设部分由选自MGEKSSRRRRNGKSGAWTAAITSCVGGK(SEQ ID NO：10)、MAGGPGAGSAAPVSSTSSLPLAALNMRV(SEQ ID NO：11)、MAGGPGAGSAAPVSSTSSLPLAALNM(SEQ IDNO：12)和MEKRINKIRKKLSADNATKPVSRSGP(SEQ ID NO：13)的氨基酸序列示出，并且

所述虚设部分和基于野生型Cas12f1的死亡Cas12f1蛋白在死亡Cas12f1蛋白的N末端到C末端的方向上顺序地彼此连接。

在实施方式中，死亡Cas12f1蛋白可以由选自SEQ ID NO：2至SEQ ID NO：8、SEQ IDNO：15至SEQ ID NO：24、SEQ ID NO：26至SEQ ID NO：29、SEQ ID NO：31至SEQ ID NO：34和SEQ ID NO：36至SEQ ID NO：39的氨基酸序列示出。

本文公开了dCas12f1-碱基编辑融合蛋白，所述融合蛋白包括：死亡Cas12f1蛋白；和脱氨酶，其中，所述脱氨酶具有选自SEQ ID NO：245、SEQ ID NO：247至SEQ ID NO：249和SEQ ID NO：274至SEQ ID NO：283的氨基酸序列。

在实施方式中，脱氨酶可以具有选自SEQ ID NO：274至SEQ ID NO：279的氨基酸序列。

在实施方式中，脱氨酶可以与死亡Cas12f1蛋白的N-末端和/或C-末端融合。

在实施方式中，dCas12f1-碱基编辑融合蛋白可以具有选自SEQ ID NO：284至SEQID NO：324和SEQ ID NO：418至SEQ ID NO：442的氨基酸序列。

在实施方式中，dCas12f1-碱基编辑融合蛋白可以进一步包括至少一种尿嘧啶糖基化酶抑制剂(UGI)，脱氨酶可具有选自SEQ ID NO：280至SEQ ID NO：283的氨基酸序列，并且至少一种UGI可与死亡Cas12f1蛋白融合。

在实施方式中，脱氨酶可以与死亡Cas12f1蛋白的N末端(C-末端)融合，并且至少一种UGI可以与死亡Cas12f1蛋白的C末端(N末端)融合。

在实施方式中，dCas12f1-碱基编辑融合蛋白可以由选自SEQ ID NO：325至SEQ IDNO：328的氨基酸序列示出。

在实施方式中，死亡Cas12f1蛋白和脱氨酶可以通过连接子连接，并且连接子可以由选自SEQ ID NO：260至SEQ ID NO：273的氨基酸序列示出。

在实施方式中，dCas12f1-碱基编辑融合蛋白可以进一步包括至少一种核定位信号(NLS)，并且NLS可以位于N-末端、C-末端或这两个末端。

本文公开了dCas12f1-表达调控融合蛋白，所述融合蛋白包括：死亡Cas12f1蛋白；和至少一个表达调控结构域，其各自选自VP64、KRAB、MeCP2、DNMT、HDAC、Tet1和p300。

在实施方式中，表达调控结构域可以各自独立地由选自SEQ ID NO：329至SEQ IDNO：333的氨基酸序列示出。

在实施方式中，表达调控结构域可以位于死亡Cas12f1蛋白的N-末端和/或C-末端。

在实施方式中，dCas12f1-表达调控融合蛋白可以由选自SEQ ID NO：511至SEQ IDNO：521的氨基酸序列示出。

本文提供了经工程化的CRISPR/Cas12f1组合物，所述组合物包括：选自死亡Cas12f1蛋白、dCas12f1-碱基编辑融合蛋白和dCas12f1-表达调控融合蛋白的经工程化的Cas12f1蛋白，或编码经工程化的Cas12f1蛋白的核酸；和至少一种引导RNA，或编码引导RNA的核酸，其中，各引导RNA包括支架、间隔区和富含U的尾部，所述支架、所述间隔区和所述富含U的尾部以5’至3’的方向彼此顺序连接，所述支架由选自SEQ ID NO：197至SEQ ID NO：199的核苷酸序列示出，所述富含U的尾部由(U_aN)_bU_c的核苷酸序列示出，其中，N各自独立地选自A、U、C和G，a是1至5之间且含端值的整数，b是0或更大的整数，并且所述间隔区包括10个至50个之间且含端值的核苷并具有与预先确定的靶序列互补的核苷酸序列。

在实施方式中，经工程化的CRISPR/Cas12f1组合物可以包括处于核糖核蛋白(RNP)形式的引导RNA和经工程化的Cas12f1蛋白。

在实施方式中，经工程化的CRISPR/Cas12f1组合物可以包括处于载体形式的编码引导RNA的核酸和编码经工程化的Cas12f1蛋白的核酸。

在实施方式中，载体可包括编码经工程化的Cas12f1蛋白的核酸、编码第一引导RNA的核酸和编码第二引导RNA的核酸，并且第一引导RNA中的间隔区的核苷酸序列和第二引导RNA中的间隔区的核苷酸序列可彼此不同。

本文公开了在细胞中对靶基因进行碱基编辑的方法，所述方法包括：将包括dCas12f1-碱基编辑蛋白的CRISPR/Cas12f1组合物引入活细胞中，其中，细胞中的靶基因是包括靶链和非靶链的双链DNA，靶链具有靶序列，非靶链具有原间隔区邻近基序(PAM)和原间隔区，所述原间隔区是与靶序列互补的10nts至50nts的核苷酸序列，经工程化的CRISPR/Cas12f1组合物的引导RNA中的间隔区能够与靶链中的靶序列杂交，并且将经工程化的CRISPR/Cas12f1组合物引入细胞中使得在细胞中形成CRISPR-碱基编辑复合物，并且CRISPR-碱基编辑复合物用鸟嘌呤取代原间隔区中的至少一个腺嘌呤。

在实施方式中，靶基因中的原间隔区可以在从5’端起的第2位、第3位、第4位、第5位、第6位、第7位、第8位、第9位、第15位、第16位、第17位、第18位、第19位和第20位处含有至少一个腺嘌呤，并且进行碱基编辑的方法可以使得用鸟嘌呤取代第2位、第3位、第4位、第5位、第6位、第7位、第8位、第9位、第15位、第16位、第17位、第18位、第19位和第20位的腺嘌呤中的至少一个。

本文提供了在细胞中对靶基因进行碱基编辑的方法，所述方法包括：将包括dCas12f1-碱基编辑蛋白的经工程化的CRISPR/Cas12f1组合物引入细胞中，其中，细胞中的靶基因是包括靶链和非靶链的双链DNA，靶链具有靶序列，非靶链具有原间隔区邻近基序(PAM)和原间隔区，所述原间隔区是与靶序列互补的10nts至50nts的核苷酸序列，经工程化的CRISPR/Cas12f1组合物的引导RNA中的间隔区能够与靶链中的靶序列杂交，并且将经工程化的CRISPR/Cas12f1组合物引入细胞中使得在细胞中形成CRISPR-碱基编辑复合物，并且CRISPR-碱基编辑复合物用胸腺嘧啶取代原间隔区中的至少一个胞嘧啶。

在实施方式中，靶基因中的原间隔区在从5’端起的第2位、第3位、第4位、第5位、第6位、第7位、第8位和第9位处含有至少一个胞嘧啶，并且进行碱基编辑的方法使得用胸腺嘧啶取代第2位、第3位、第4位、第5位、第6位、第7位、第8位和第9位的胞嘧啶中的至少一个。

在实施方式中，细胞可为真核细胞。

本文提供了在细胞中调控靶基因表达的方法，所述方法包括：将包括dCas12f1-表达调控融合蛋白的经工程化的CRISPR/Cas12f1组合物引入细胞中，其中，将经工程化的CRISPR/Cas12f1组合物引入细胞使得形成CRISPR基因调控复合物，并且CRISPR基因调控复合物调控靶基因的表达。

在实施方式中，细胞可为真核细胞。

有益效果

本文公开的CRISPR基因调控复合物及其组分可以表现出各种基因功能调控作用，例如，细胞中的靶基因的碱基编辑和靶基因的表达调控(促进或抑制)。此外，可以将CRISPR基因调控系统加载到单个单位的腺相关病毒(AAV)载体上，从中可以预期到高效率和可用性。

附图说明

图1示出了根据本公开的用于碱基编辑的超紧凑碱基编辑构建体的各种实例的示意图。

图2示出了腺苷脱氨酶的异二聚体结构及其氨基酸序列，包括在本公开提供的用于碱基编辑的超紧凑碱基编辑构建体中。(a)示出了腺苷脱氨酶TadA-eTadA1的结构。该结构具有以连接子-TadA-连接子-eTadA1-NLS的顺序连接的构型，并且示出了TadA、eTadA1、连接子和NLS的氨基酸序列。(b)示出了腺苷脱氨酶eTadA1-Tad的结构。该结构具有以连接子-eTadAl-连接子-TadA-NLS的顺序连接的构型，并且示出了TadA、eTadA1、连接子和NLS的氨基酸序列。图中所示的每个序列是示例性序列，并且本公开不限于此。

图3示出了胞苷脱氨酶模块及其氨基酸序列，包括在本公开提供的用于碱基编辑的超紧凑碱基编辑构建体中。顶部的结构代表胞苷脱氨酶APOBEC1的模块结构。该结构具有以NLS-APOBEC1-连接子的顺序连接的构型，并且示出了APOBEC1、连接子和NLS的氨基酸序列。APOBEC1中的第一个甲硫氨酸(M)已被省略。中间的结构代表胞苷脱氨酶APOBEC3A的模块结构。该结构具有以APOBEC3A-连接子-NLS的顺序连接的构型，并且示出了APOBEC3A、连接子和NLS的氨基酸序列。底部的结构代表胞苷脱氨酶APOBEC3B的模块结构。该结构具有以APOBEC3B-连接子-NLS的顺序连接的构型，并且示出了APOBEC3B、连接子和NLS的氨基酸序列。图中所示的每个序列是示例性序列，并且本公开不限于此。

图4示出了本公开提供的示例性腺相关病毒(AAV)载体的结构。

图5示出了通过鉴定由本公开提供的Cas12f1变体1(TnpB)的死亡形式的核酸切割活性而获得的结果。本文中，TnpB(D354A)代表SEQ ID NO：15的死亡Cas12f1，TnpB(D354A)代表SEQ ID NO：16的死亡Cas12f1，TnpB(D354A)代表SEQ ID NO：17的死亡Cas12f1，TnpB(D354A)代表SEQ ID NO：19的死亡Cas12f1，TnpB(D354A)代表SEQ ID NO：22的死亡Cas12f1，TnpB(D354A)代表SEQ ID NO：23的死亡Cas12f1，以及TnpB(D354A)代表SEQ IDNO：24的死亡Cas12f1。wt TnpB是对照并且代表SEQ ID NO：14的Cas12f1变体蛋白。

图6示出了取决于dCas12f1-碱基编辑蛋白中包括的死亡Cas12f1的类型的CRISPR碱基编辑复合物的碱基编辑效率。本文中，靶原间隔区序列是Target-3，并且所使用的引导RNA是v4.1。本文中，D326A、E422A、R490A和D510A分别代表SEQ ID NO：287、SEQ ID NO：292、SEQ ID NO：293和SEQ ID NO：294的dCas12f1-碱基编辑融合蛋白。

图7示出了取决于dCas12f1-碱基编辑蛋白中包括的死亡Cas12f1的类型的CRISPR碱基编辑复合物的碱基编辑效率。本文中，靶原间隔区序列是Target-3，并且所使用的引导RNA是v4.1。本文中，D354A和E450A、R518A和D538A分别代表SEQ ID NO：295、SEQ ID NO：296和SEQ ID NO：297的dCas12f1-碱基编辑融合蛋白。

图8示出了根据实验例3.4的实验结果，其示出了取决于表达载体中包括的启动子类型的碱基编辑效率。(a)和(b)分别示出了取决于Target-1和Target-3的启动子类型的碱基编辑率的结果。本文中，用于各个标记的CRISPR碱基编辑复合物的构型如表11所示。

图9示出了根据实验例3.5的实验结果，其示出了取决于连接子长度的碱基编辑效率。本文中，用于各个标记的CRISPR碱基编辑复合物的构型如表12所示。

图10示出了根据实验例3.5的实验结果，其示出了取决于连接子长度的碱基编辑效率。本文中，用于各个标记的CRISPR碱基编辑复合物的构型如表13所示。

图11示出了根据实验例3.5的实验结果，其示出了取决于连接子长度的碱基编辑效率。本文中，用于各个标记的CRISPR碱基编辑复合物的构型如表14所示。

图12示出了根据实验例3.6通过鉴定CRISPR碱基编辑系统的碱基编辑效率而获得的结果，所述系统包括基于死亡Cas12f1变体的各种dCas12f1-碱基编辑蛋白。本文中，用于各个标记的CRISPR碱基编辑复合物的构型如表15所示。

图13示出了根据实验例3.6通过鉴定CRISPR碱基编辑系统的碱基编辑效率而获得的结果，所述系统包括基于死亡Cas12f1变体的各种dCas12f1-碱基编辑蛋白。本文中，用于各个标记的CRISPR碱基编辑复合物的构型如表15所示。

图14示出了根据实验例3.6通过鉴定CRISPR碱基编辑系统的碱基编辑效率而获得的结果，所述系统包括基于死亡Cas12f1变体的各种dCas12f1-碱基编辑蛋白。本文中，I159W对应表15中的“D538A、I159W”，S164Y对应表15中的“D538A、S164Y”，以及I159W/S164Y对应表15中的“D538A、I159W、S164Y”。WT是对照并且代表包括SEQ ID NO：14的Cas12f1变体1的CRISPR/Cas12f1系统。

图15、图16、图17和图18示出了根据实验例3.7通过鉴定CRISPR碱基编辑系统的碱基编辑效率而获得的结果，所述系统包括基于死亡Cas12f1变体的各种dCas12f1-碱基编辑蛋白。本文中，用于各个标记的CRISPR碱基编辑复合物的构型如表16和表17所示。

图19、图20、图21、图22、图23和图24示出了根据实验例3.8通过鉴定CRISPR碱基编辑系统的碱基编辑效率而获得的结果，所述系统靶向各种基因且其各自包括基于死亡Cas12f1变体的dCas12f1-碱基编辑蛋白。本文中，在CRISPR碱基编辑系统中使用的dCas12f1-碱基编辑融合蛋白是SEQ ID NO：299，并且各靶的每个引导RNA如每个图的gRNA列中所示。

图25、图26和图27示出了根据实验例3.9通过鉴定包括各种碱基编辑结构域的CRISPR碱基编辑系统的碱基编辑效率而获得的结果。本文中，各个标记如表18所示，并且图25、图26和图27分别示出了通过使用引导RNAs v3.0、v4.0和v4.1获得的结果。

图28、图29和图30示出了根据实验例3.9通过鉴定包括各种碱基编辑结构域的CRISPR碱基编辑系统的碱基编辑效率而获得的结果。本文中，各个标记如表19所示，并且图28、图29和图30分别示出了通过使用引导RNAs v3.0、v4.0和v4.1获得的结果。

图31示出了根据实验例3.11通过比较基于死亡Cas12f1变体的各种dCas12f1-碱基编辑蛋白的碱基编辑效率与现有的基于Cas9的碱基编辑系统的碱基编辑效率而获得的结果。本文中，用于各个标记的CRISPR碱基编辑复合物的构型如表22所示。

图32示出了根据实验例3.12通过比较现有miniABEmax的碱基编辑效率与本公开的CRISPR碱基编辑系统的碱基编辑效率而获得的结果。本文中，用于各个标记的CRISPR碱基编辑复合物的构型如实验例3.12所示。

图33示出了根据实验例3.13通过鉴定包括胞苷脱氨酶作为碱基编辑结构域的CRISPR碱基编辑复合物是否表现出胞嘧啶碱基编辑活性而获得的结果。本文中，用于各个标记的CRISPR碱基编辑复合物的构型如表23所示。

图34示出了根据实验例3.14通过鉴定本公开的CRISPR碱基编辑复合物是否产生不想要的插入缺失而获得的结果。本文中，用于各个标记的CRISPR碱基编辑复合物的组成如表24所示。

图35示出了根据实验例3.15通过鉴定加载有CRISPR碱基编辑系统的相应组分的AAV载体的细胞内碱基编辑率而获得的结果。左边的示意图示意性地示出了经转化的细胞系。右边的示意图示意性地示出了加载有CRISPR碱基编辑系统的AAV载体和用该载体转染并经历碱基编辑的细胞，所述系统包括SEQ ID NO：287的dCas12f1-碱基编辑融合蛋白。底部的表示出了通过AAV载体实现的在细胞中靶基因的靶原间隔区位点处的腺嘌呤碱基编辑率。

图36示出了根据实验例3.15通过鉴定加载有CRISPR碱基编辑系统的相应组分的AAV载体的细胞内碱基编辑率而获得的结果。左边的示意图示意性地示出了经转化的细胞系。右边的示意图示意性地示出了加载有CRISPR碱基编辑系统的AAV载体和用该载体转染并经历碱基编辑的细胞，所述系统包括SEQ ID NO：291的dCas12f1-碱基编辑融合蛋白。底部的表示出了通过AAV载体实现的在细胞中靶基因的靶原间隔区位点处的腺嘌呤碱基编辑率。

图37示出了根据实验例3.15通过比较加载有本公开的CRISPR碱基编辑系统的AAV载体的碱基编辑效率与SpCas9-ABE分裂AAV的碱基编辑效率而获得的结果。顶部的图示出了一段时间内的碱基编辑率。底部的图示出了由碱基编辑引起的mRuby基因的表达水平。

图38示出了通过鉴定由加载有本公开的CRISPR碱基编辑系统的AAV载体的递送引起的多基因编辑而获得的结果。(a)示出了AAV载体AAV-S1和AAV-S2(其各自包含一种类型的gRNA)和包含两种不同类型gRNA的AAV载体AAV-S1/2的示意图。(b)示出了由AAV载体实现的在细胞中靶原间隔区位点处的碱基编辑率(％)的结果。

图39、图40、图41、图42、图43、图44、图45、图46、图47、图48和图49示出了根据实验例4.1通过鉴定在本公开的CRISPR表达调控系统之中由具有表达抑制功能的CRISPR干扰系统实现的抑制BRCA1基因表达的效果而获得的结果。本文中，将CRISPR干扰系统中包括的各dCas12f1-表达调控融合蛋白示意性地显示在各图的顶部。本文中，KRAB、MeCP2、hHDAC3和DNMT3A如本文所述，并且TnpB与SEQ ID NO：17的死亡Cas12f1蛋白相同。根据实验结果，BRCA1基因的mRNA的相对表达水平的差异如底部的图所示。

图50示出了根据实验例4.2通过鉴定本公开的CRISPR表达调控系统之中由具有表达促进功能的CRISPR激活系统实现的促进OCT4基因表达的效果而获得的结果。本文中，1、2、3和4分别对应于表28中的靶激活-1、激活-2、激活-3和激活-4。

图51、图52、图53和图54示出了根据实验例3.2通过鉴定包括本公开的各种结构的dCas12f1-碱基编辑蛋白的CRISPR碱基编辑系统的碱基编辑效率而获得的结果。本文中，靶原间隔区序列如表1和表2所示。dCas12f1-碱基编辑融合蛋白如表9所示。具体地，ABE_N1、ABE_N2、ABE_C1和ABE_C2分别代表dCas12f1-ABE-N1、dCas12f1-ABE-N2、dCas12f1-ABE-C1和dCas12f1-ABE-C2。

图55、图56和图57示出了根据实验例3.2通过鉴定包括本公开的各种结构的dCas12f1-碱基编辑蛋白的CRISPR碱基编辑系统的碱基编辑效率而获得的结果。本文中，靶原间隔区序列如表1和表2所示。dCas12f1-碱基编辑融合蛋白如表9所示。具体地，ABE_N1、ABE_N2、ABE_C1和ABE_C2分别代表dTnpB-ABE-N1、dTnpB-ABE-N2、dTnpB-ABE-C1和dTnpB-ABE-C2。

图58示出了通过对死亡Cas12f1蛋白是否移除了其核酸切割活性进行实验而获得的图，所述蛋白通过使用突变位置内的各种氨基酸进行取代而制备。

本文中，各个标记表示基于SEQ ID NO：1的Cas12f1氨基酸序列的突变位置和突变靶。例如，dCas12f(R490A)-KRAB是指通过用丙氨酸取代SEQ ID NO：1的Cas12f1氨基酸序列的第490位的精氨酸而获得的变体。其他标记是使用相同的规则创建的。

具体实施方式

在下文中，参考附图，将通过具体实施方式和实施例更详细地描述本公开。应当注意，附图包括本公开的一些但不是全部实施方式。本文所述的公开内容可以以各种方式体现，并且不限于本文所述的特定实施方式。这些实施方式应当被视为是为了满足适用于本说明书的法定要求而提供的。本公开所属领域的技术人员将能够想到本文所述的公开内容的许多修改和其他实施方式。因此，应当理解，本文所述的公开内容不限于本文所述的特定实施方式，其修改和其他实施方式也包括在权利要求的范围内。

术语定义

约

如本文所用，术语“约”是指相对于参比的量、水平、值、数目、频率、百分比、尺寸、大小、量、重量或长度变化约30％、25％、20％、15％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％的量、水平、值、数目、频率、百分比、尺寸、大小、量、重量或长度。

氨基酸序列的表示法

除非另有说明，在本文描述氨基酸序列的情况下，使用氨基酸的单字母表示法或三字母表示法从N-末端到C-末端描述氨基酸序列。例如，在被描述为MAKN的情况下，它指的是其中甲硫氨酸、丙氨酸、赖氨酸和天冬酰胺从N-末端到C-末端依次相互连接的肽。作为另一实例，在被描述为Thr-Leu-Lys的情况下，它是指其中苏氨酸、亮氨酸和赖氨酸从N-末端到C-末端顺序地彼此连接的肽。对于不能使用单字母表示法描述的氨基酸，使用其他字母进行描述，并额外提供补充说明。

各氨基酸的表示法如下：丙氨酸(Ala，A)；精氨酸(Arg，R)；天冬酰胺(Asn，N)；天冬氨酸(Asp，D)；半胱氨酸(Cys，C)；谷氨酸(Glu，E)；谷氨酰胺(Gln，Q)；甘氨酸(Gly，G)；组氨酸(His，H)；异亮氨酸(Ile，I)；亮氨酸(Leu，L)；赖氨酸(Lys，K)；甲硫氨酸(Met，M)；苯丙氨酸(Phe，F)；脯氨酸(Pro，P)；丝氨酸(Ser，S)；苏氨酸(Thr，T)；色氨酸(Trp，W)；酪氨酸(Tyr，Y)；和缬氨酸(Val，V)。

A、T、C、G和U

本文所用的符号A、T、C、G和U被解释为具有与本领域技术人员通常理解相同的含义。根据上下文和描述，所述符号可被恰当地解释为DNA或RNA中的碱基、核苷或核苷酸。例如，在所述符号意味着碱基的情况下，它们可被分别解释为腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)、鸟嘌呤(G)或尿嘧啶(U)；在所述符号意味着核苷的情况下，它们可被分别解释为腺苷(A)、胸苷(T)、胞苷(C)、鸟苷(G)或尿苷(U)；并且在所述符号意味着序列中的核苷酸的情况下，它们可被解释为意味着包含相应核苷的核苷酸。

可操作地连接

如本文所用，在基因表达技术中，术语“可操作地连接”是指特定的组分被连接至另一组分而使得该特定组分可以如预期地起作用。例如，在启动子序列被可操作地连接至编码序列的情况下，这意味着启动子与其连接从而影响所述编码序列在细胞内的转录和/或表达。此外，该术语包括由本领域技术人员认可的所有含义，并且可根据上下文进行适当解释。

靶基因或靶核酸

本文所用的“靶基因”或“靶核酸”基本上意味着成为基因表达调控的靶标的细胞中的基因或核酸。靶基因或靶核酸可互换使用，并且可指同一靶标。除非另有说明，靶基因或靶核酸可指靶细胞中固有的基因或核酸、或者外部来源的基因或核酸，并且只要其可为基因表达调控的靶标，就不受特别限制。靶基因或靶核酸可为单链DNA、双链DNA和/或RNA。此外，该术语包括由本领域技术人员认可的所有含义，并且可根据上下文进行适当解释。

靶序列

如本文所用，“靶序列”是指由CRISPR激活复合物或CRISPR干扰复合物识别以调控靶基因或靶核酸的表达的特定序列。可根据其目的适当地选择靶序列。

例如，“靶序列”是指靶基因或靶核苷酸序列中包括的序列，其与本文提供的引导RNA中包括的间隔区序列(引导结构域)具有互补性或与间隔区互补结合。靶序列位于由引导RNA识别的靶链内。本文中，PAM序列是由Cas蛋白识别的序列，并且位于非靶链内，该非靶链是与靶链互补的链。非靶链包括原间隔区序列，其中，原间隔区序列位于PAM序列的3'端。原间隔区序列是与靶序列形成互补结合的序列。

作为另一实例，靶序列可以仅指与CRISPR/Cas系统的引导RNA互补结合的特定链，或者可以指包括特定链部分的整个靶双链，并且根据上下文适当地对其进行解释。

此外，该术语包括由本领域技术人员认可的所有含义，并且可根据上下文进行适当解释。

载体

如本文所用，除非另有指明，“载体”统指能够将遗传材料运送至细胞中的任何材料。例如，载体可为DNA分子，包括：感兴趣的遗传材料、例如编码包括死亡Cas12f1蛋白的融合蛋白的核酸，和/或编码引导RNA的核酸；然而，载体不限于此。该术语包括由本领域技术人员认可的所有含义，并且可根据上下文进行适当解释。

天然存在的

本文所用的术语“天然存在的”是指在自然界中发现的且未经修饰的客体。该术语用于与通过人工修饰获得的“经工程化的客体”进行区分。“天然存在的”基因、核酸、DNA、RNA等被用作如下概念，其涵盖野生型和成熟形式(活化形式)的所有基因、核酸、DNA和RNA。该术语包括由本领域技术人员认可的所有含义，并且应根据上下文进行适当解释。

经工程化的

本文所用的术语“经工程化的”用于与其构型已存在于自然界中的材料、分子等进行区分，并且这意味着材料、分子等经过了人工修饰。例如，“经工程化的Cas12f1蛋白”统指通过对天然存在的Cas12f1蛋白的构型施用人工修饰而获得的Cas12f1蛋白。此外，该术语包括由本领域技术人员认可的所有含义，并且可以根据上下文进行适当解释。

NLS(核定位序列或信号)

在通过核转运而将细胞核外的物质运送至核内的情况下，本文所用的术语“NLS”是指具有一定长度的肽或其序列，其中，该肽附着至待运送的蛋白并充当一种“标签”。具体地，NLS可为但不限于源自如下的NLS序列：具有氨基酸序列PKKKRKV(SEQ ID NO：200)的SV40病毒大T抗原的NLS；来自核质蛋白的NLS(例如，具有序列KRPAATKKAGQAKKKK(SEQ IDNO：201)的双分型核质蛋白(nucleoplasmin bipartite)NLS)；具有氨基酸序列PAAKRVKLD(SEQ ID NO：202)或RQRRNELKRSP(SEQ ID NO：203)的c-myc NLS；具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO：204)的hRNPA1 M9 NLS；来自输入蛋白α的IBB结构域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO：205)；肌瘤T蛋白的序列VSRKRPRP(SEQ ID NO：206)和PPKKARED(SEQ ID NO：207)；人p53的序列PQPKKKPL(SEQ ID NO：208)；小鼠c-abl IV的序列SALIKKKKKMAP(SEQ ID NO：209)；流感病毒NS1的序列DRLRR(SEQ ID NO：210)和PKQKKRK(SEQ ID NO：211)；δ肝炎病毒抗原的序列RKLKKKIKKL(SEQ ID NO：212)；小鼠Mx1蛋白的序列REKKKFLKRR(SEQ ID NO：213)；人多聚(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK(SEQ ID NO：214)；或类固醇激素受体(人)糖皮质激素的序列RKCLQAGMNLEARKTKK(SEQ ID NO：215)。如本文所用，术语“NLS”包括由本领域技术人员认可的所有含义，并且可根据上下文进行适当解释。

核输出序列或信号(NES)

在通过核转运而将细胞核内的物质运送至核外的情况下，本文所用的术语“NES”是指具有一定长度的肽或其序列，其中该肽附着至待运送的蛋白并充当一种“标签”。如本文所用，术语“NES”包括由本领域技术人员认可的所有含义，并且可根据上下文适当地解释。

标签

如本文所用，术语“标签”统指被添加以便于肽或蛋白质的示踪和/或分离和纯化的功能结构域。具体地，标签包括但不限于：标签蛋白，如组氨酸(His)标签、V5标签、FLAG标签、流感血凝素(HA)标签、Myc标签、VSV-G标签和硫氧还蛋白(Trx)标签；自体荧光蛋白，如绿色荧光蛋白(GFP)、黄色荧光蛋白(YFP)、青色荧光蛋白(CFP)、蓝色荧光蛋白(BFP)、HcRED和DsRed；以及报告蛋白，如谷胱甘肽-S-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)β-半乳糖苷酶、β-葡萄糖醛酸酶和荧光素酶。如本文所用，术语“标签”包括由本领域技术人员认可的所有含义，并且可根据上下文进行适当解释。

除非另有定义，否则本文中使用的所有技术和科学术语具有与本公开所属领域的技术人员通常理解的相同的含义。尽管与本文中描述的方法或材料相似或等同的方法和材料可用于本公开的实践或实验中，下文对合适的方法和材料进行了描述。本文提到的所有出版物、专利和其他参考文献均通过引用方式以其整体并入本文。此外，材料、方法和实例仅是说明性的，并不旨在限制本公开。

腺苷脱氨酶

如本文所用，术语“腺苷脱氨酶”是指参与脱氨基反应的蛋白，或执行这种功能的结构域，所述脱氨基反应使得RNA/DNA和DNA双链体中的腺嘌呤(A)被靶向，并且腺嘌呤或含腺嘌呤分子的腺嘌呤部分(例如，腺苷、DNA、RNA)被水解为次黄嘌呤或含次黄嘌呤分子的次黄嘌呤部分(例如，肌苷(I))。腺苷脱氨酶很少在高等动物中发现，并且已知在牛肌肉、牛奶和鼠血中少量存在，并且在鳌虾肠道和昆虫中大量存在。

胞苷脱氨酶

如本文所用，术语“胞苷脱氨酶”是指靶向胞嘧啶(C)并使胞嘧啶(C)脱氨化，从而使其转化为尿嘧啶(U)的酶蛋白。在胞嘧啶由于氨基的去除而转化为尿嘧啶的情况下，尿嘧啶通过一系列细胞内修复机制转化为胸腺嘧啶(T)。以这种方式，胞嘧啶(C)碱基到胸腺嘧啶(T)碱基的碱基编辑可被最终诱导。胞苷脱氨酶通常对RNA起作用。然而，已知一些胞苷脱氨酶能够对单链DNA(ssDNA)起作用(Harris等，2002)，其实例包括但不限于人活化诱导的胞苷脱氨酶(AID)、人APOBEC3G、鼠APOBEC1、APOBEC3A、APOBEC3B、CDA、AID和七鳃鳗PmCDA1。

连接子

如本文所用，术语“连接子”是指连接两个分子或两个组分的连接部分。连接子可为核酸、氨基酸或其他化合物，并且其类型可以根据待连接的两个分子来确定。除非另有说明，在相同类型的组分或分子通过连接子连接的情况下，连接子也可以理解为与待连接的靶标相同类型的分子。例如，在通过连接子连接的靶标是蛋白、肽或氨基酸的情况下，连接子也可为蛋白、肽或氨基酸。作为另一实例，在通过连接子连接的靶标是核酸的情况下，连接子也可为核酸。具体地，在所有待连接的靶标都是DNA的情况下，连接子也可为DNA，并且在所有待连接的靶标是RNA的情况下，连接子也可为RNA。

在本文描述的不同组分彼此连接、融合和/或结合的情况下，这种情况应理解为包括两种情况，其中，两种组分彼此直接连接，以及两种组分通过相同类型的连接子连接。

在连接子是RNA或DNA的情况下，它可为但不限于具有5’-GAAA-3’核苷酸序列的核酸。在连接子为氨基酸、肽或蛋白的情况下，其可选自但不限于

本文中，n是1以上的整数，并且X是选自标准氨基酸中的一种。

本文中使用的术语“连接子”包括由本领域技术人员认可的所有其它含义，并且可根据上下文进行适当解释。

下面将描述本公开内容。

CRISPR/Cas12f1系统

CRISPR/Cas12f系统属于V型CRISPR/Cas系统之中的V-F亚型，进一步分为V-F1至V-F3的变体。CRISPR/Cas12f系统包括CRISPR/Cas14系统，包括在先前的研究中命名为Cas14的效应蛋白中的Cas14a、Cas14b和Cas14c变体(Harrington等，Programmed DNAdestruction by miniature CRISPR-Cas14 enzymes，Science 362，839-842(2018))。其中，包含Cas14a效应蛋白的CRISPR/Cas14a系统被归类为CRISPR/Cas12f1系统(Makarova等，Nature Reviews，Microbiology，第18卷，67(2020))。最近的前期研究(Takeda等，Structure of the miniature type V-F CRISPR-Cas effector enzyme，Molecular Cell81，1-13(2021)，Xiao等，Structural basis for the dimerization-dependent CRISPR-Cas12f nuclease，bioRxiv(2020))等，揭示了CRISPR/Cas12f1复合物的结构。

如先前的研究(Harrington等，Science 362，839-842(2018)，TautvydasKarvelis等，Nucleic Acids Research 48，5016-5023(2020))所揭示的，CRISPR/Cas12f1系统对细胞中的双链DNA没有显示出切割活性或显示出极低效率的切割活性，这限制了其在基因编辑中的积极应用。然而，为了克服这种限制，本发明人最近开发了经工程化的Cas12f1引导RNA，以增加CRISPR/Cas12f1系统的细胞内基因编辑活性。

现有技术的限制

为了有效利用Cas核酸酶或基于Cas核酸酶的各种融合蛋白，必须使用编码Cas核酸酶和引导RNA、将它们加载到载体上并将载体递送到细胞的技术。然而，对于以前研究的大多数Cas核酸酶，由于其大小，很难将其加载到载体上。腺相关病毒(AAV)是应用最广泛和最重要的载体，具有可加载至其上的长度有限(约4.7kb)的核苷酸序列。然而，编码大多数Cas核酸酶的核酸的长度超过了AAV的加载能力。

同时，积极进行研究，以通过将功能结构域与Cas核酸酶融合来开发具有例如碱基编辑和基因表达的调控的功能的融合蛋白，其中，使用了Cas核酸酶的高的靶序列识别能力。然而，由于这样的研究还涉及将额外的结构域融合到具有大的尺寸的Cas核酸酶，因此开发这样的融合蛋白及递送其的载体变得越来越困难。

死亡Cas12f1蛋白和基于dCas12f1的融合蛋白

死亡Cas12f1蛋白和基于dCas12f1的融合蛋白的概述

本发明人试图开发具有非常小的尺寸的基于Cas12f1的融合蛋白，从而：1)易于开发通过与额外的结构域融合形成的新的融合蛋白，以及2)容易地将完成的融合蛋白加载到AAV上。

本发明人首先创造了从野生型Cas12f1蛋白和Cas12f1变体通过丧失其核酸切割活性而获得的死亡Cas12f1蛋白，使得它们可以应用于各种融合蛋白。

此外，本发明人创造了dCas12f1-碱基编辑融合蛋白，各融合蛋白都具有对细胞中的靶基因的碱基编辑功能，所述融合蛋白是通过将碱基编辑结构域与由此开发的死亡Cas12f1蛋白融合而获得的。具体地，dCas12f1-碱基编辑融合蛋白取决于它们的特定的构型而具有1)将靶基因中特定位置处的腺嘌呤(A)编辑为鸟嘌呤(G)的功能，和/或2)将靶基因中特定位置处的胞嘧啶(C)编辑为胸腺嘧啶(T)的功能。

此外，本发明人创造了dCas12f1-表达调控融合蛋白，各融合蛋白都具有调控细胞中的靶基因的表达的功能，所述融合蛋白是通过将基因表达调控结构域融合到由此开发的死亡Cas12f1蛋白而获得的。具体地，dCas12f1-表达调控融合蛋白取决于它们的特定的构型而具有1)促进靶基因转录的功能，和/或2)抑制靶基因转录的功能。

在下文中，为了便于描述，这些各种死亡Cas12f1蛋白、dCas12f1-碱基编辑融合蛋白和dCas12f1-表达调控融合蛋白可以统称为经工程化的Cas12f1蛋白。

通过先前的研究，本发明人已经创造了经工程化的引导RNAs，其显著提高了Cas12f1蛋白的靶序列识别和核酸切割活性，并且能够进行双链核酸切割。通过将这些引导RNAs与死亡Cas12f1和基于dCas12f1的融合蛋白结合，并通过实验鉴定此类经工程化的CRISPR/Cas12f1系统是否执行其预期功能，本发明人已经完成了本公开。

死亡Cas12f1蛋白

本文公开的死亡Cas12f1蛋白可为已丧失核酸切割活性的Cas12f1蛋白的修饰形式。本文中，Cas12f1蛋白可为野生型Cas12f1蛋白或Cas12f1变体蛋白。本发明人已经创造了死亡Cas12f1蛋白，其通过已知参与野生型Cas12f1的核酸切割活性且是通过研究选择的位置处的氨基酸的修饰而丧失核酸切割活性。同时，本发明人已经揭示，在通过将氨基酸添加到野生型Cas12f1蛋白的氨基酸序列的N-末端和/或C-末端而获得的变体之中，存在具有与Cas12f1蛋白相同或改进的功能的Cas12f1变体，并通过应用将野生型Cas12f1蛋白修饰成其死亡形式的技术，基于Cas12f1变体创造了死亡Cas12f1蛋白。

在实施方式中，基于野生型Cas12f1的死亡Cas12f1蛋白可以具有选自SEQ ID NO：2至SEQ ID NO：8的序列。在实施方式中，基于Cas12f1变体的死亡Cas12f1蛋白可以具有选自SEQ ID NO：15至SEQ IDNO：24、SEQ ID NO：26至SEQ ID NO：29、SEQ ID NO：31至SEQ IDNO：34和SEQ ID NO：36至SEQ ID NO：39的序列。

dCas12f1-碱基编辑融合蛋白

本文公开了dCas12f1-碱基编辑融合蛋白，其中，碱基编辑结构域与死亡Cas12f1蛋白融合。碱基编辑结构域是具有将基因中的特定碱基编辑为另一个碱基的功能的结构域，并且在与死亡Cas12f1蛋白的高的靶序列识别能力结合的情况下能够将特定位点处的碱基编辑为期望的碱基。

在实施方式中，碱基编辑结构域可为腺苷脱氨酶和/或胞苷脱氨酶，并且通过与该结构域融合形成的dCas12f1-碱基编辑融合蛋白起到腺嘌呤和/或胞嘧啶碱基编辑器的作用。

dCas12f1-表达调控融合蛋白

本文公开了dCas12f1-表达调控融合蛋白，其中，碱基编辑结构域与死亡Cas12f1蛋白融合。表达调控结构域是具有调控靶基因的表达的功能的结构域，并且在与死亡Cas12f1蛋白的高的靶序列识别能力结合的情况下能够促进或抑制特定基因的表达。

在实施方式中，表达调控结构域可为VP64，并且通过与VP64融合形成的dCas12f1-表达调控融合蛋白起到促进特定基因的表达的功能。在另一实施方式中，表达调控结构域可以选自KRAB、MeCP2、DNMT3A和hHDAC3，并且通过与该结构域融合形成的dCas12f1-表达调控融合蛋白起到抑制特定基因的表达的功能。

死亡Cas12f1蛋白的特征——使其易于开发融合蛋白

本文公开的死亡Cas12f1蛋白的大小非常小，与本文公开的引导RNA协同工作，并且具有非常高的靶特异性结合活性，这使得通过将额外的功能结构域融合到死亡Cas12f1蛋白来开发功能蛋白非常容易。

死亡Cas12f1蛋白和基于dCas12f1的融合蛋白的特性——易于加载到载体上

本文公开的死亡Cas12f1蛋白和基于dCas12f1的融合蛋白如此小，以至于它们可以加载到AAV上，并且在某些情况下，靶向两个以上的靶序列的引导RNAs也可以加载到其上。因此，与由于其非常大的尺寸而不能加载到AAV的单个单元上的其他Cas系统相比，此类蛋白使生产载体变得容易，这允许所有组分(例如，蛋白和引导RNA)从AAV的单个单元表达。从这个角度来看，在实际开发基因治疗剂的情况下，可以预期非常高的疗效。

Cas12f1蛋白

Cas12f1蛋白-概述

本文公开的死亡Cas12f1蛋白或基于dCas12f1的融合蛋白是1)基于野生型Cas12f1蛋白或Cas12f1变体蛋白并且2)从其修饰而不显示核酸切割活性(死亡Cas12f1)的那些，以及3)在蛋白是基于dCas12f1的融合蛋白的情况下，其中，额外的功能结构域与死亡Cas12f1融合的那些。

野生型Cas12f1蛋白包括如上所述的Cas14a效应蛋白的CRISPR/Cas14a系统(Makarova等，Nature Reviews，Microbiology volume18，67(2020))。

本发明人已经开发出具有与野生型Cas12f1蛋白相同功能的Cas12f1变体蛋白，并且Cas12f1变体蛋白对应于野生型Cas12f1蛋白的功能类似物。

在下文中，除非另有说明，否则本文中使用的术语“Cas12f1蛋白”统称为野生型Cas12f1蛋白和具有与野生型Cas12f1蛋白相同功能的Cas12f1变体蛋白(野生型Cas12f1的功能类似物)，并且应根据上下文进行适当解释。

野生型Cas12f1蛋白

Cas12f1蛋白可为野生型Cas12f1蛋白。本文中，Cas12f1蛋白能够切割靶核酸或靶基因的双链或单链。

作为一个实施方式，Cas12f1蛋白可以来源于Cas14家族(Harrington等，Science362，839-842(2018)；US2020/0172886 A1)。

作为另一个实施方式，Cas12f1蛋白可为来自未培养的古细菌的Cas14a1蛋白(Harrington等，Science 362，839-842(2018)；US 2020/0172886A1)。例如，Cas14a1蛋白可以具有SEQ ID NO：1的氨基酸序列。

Cas12f1变体蛋白1-通用

Cas12f1蛋白可为Cas12f1变体蛋白。Cas12f1变体可为野生型Cas12f1蛋白的变体，其中，野生型Cas12f1蛋白的氨基酸序列中的至少一个氨基酸被修饰。本文中，修饰可为缺失和/或取代。或者，Cas12f1变体可为野生型Cas12f1蛋白的变体，其中，至少一个氨基酸序列被添加到野生型Cas12f1蛋白的氨基酸序列的两端和/或其氨基酸序列内。本文中，修饰可为插入。本文中，Cas12f1变体被称为“Cas12f1突变体”或“Cas14a1突变体”。

在实施方式中，可以通过删除野生型Cas12f1蛋白的氨基酸序列中的至少一个氨基酸来获得Cas12f1突变体。例如，可以通过删除野生型Cas12f1蛋白中包括的RuvC结构域中的至少一个氨基酸来获得Cas12f1突变体。或者，可以通过删除识别野生型Cas12f1蛋白中包括的PAM的结构域中的至少一个氨基酸来获得Cas12f1突变体。或者，可以通过删除SEQID NO：1的氨基酸序列中的至少一个氨基酸来获得Cas12f1突变体。

在另一实施方式中，可以通过用其他氨基酸取代野生型Cas12f1蛋白的氨基酸序列中的至少一个氨基酸来获得Cas12f1突变体。本文中，取代可以是使得一个氨基酸被一个其它氨基酸取代。或者，取代可以是使得一个氨基酸被多个其它氨基酸取代。或者，取代可以是使得多个氨基酸被一个其它氨基酸取代。或者，取代可以是使得多个氨基酸被多个其它氨基酸取代，其中，待取代的氨基酸的数量和取代氨基酸的数量可以彼此相同或不同。例如，可以通过用其它氨基酸取代野生型Cas12f1蛋白中包括的RuvC结构域中的至少一个氨基酸来获得Cas12f1突变体。或者，可以通过用其它氨基酸取代识别野生型Cas12f1蛋白中包括的PAM的结构域中的至少一个氨基酸来获得Cas12f1突变体。或者，可以通过用其它氨基酸取代SEQ ID NO：1的氨基酸序列中的至少一个氨基酸来获得Cas12f1突变体。例如，Cas12f1突变体可以由适度选择的氨基酸序列示出。

Cas12f1突变体可为与野生型Cas12f1蛋白具有相同功能的变体，或者与野生型Cas12f1蛋白相比其部分或全部功能被修饰的变体。例如，Cas12f1突变体可为变体，其中，进行修饰以仅切割靶核酸的双链中的一条链。或者，Cas12f1突变体可为变体，其中，进行修饰以识别除5’-TTTA-3’或5’-TTTG-3’之外的PAM序列。

Cas12f1变体蛋白2-包括虚设序列的Cas12f1变体蛋白

本发明人进行了研究，并发现在将氨基酸添加到野生型Cas12f1蛋白的氨基酸序列的N-末端和/或C-末端的突变体之中，存在具有与Cas12f1蛋白相同或改进的功能的Cas12f1变体。此外，本发明人通过向野生型Cas12f1蛋白的N-末端添加一定长度的氨基酸序列，创造了与野生型Cas12f1蛋白具有相同功能的Cas12f1变体。在韩国专利申请号10-2021-0181875中详细公开了Cas12f1变体。除非另有说明，否则本文可参考关于Cas12f1变体或其功能类似物的上述申请的内容。

在实施方式中，Cas12f1变体可为野生型Cas12f1蛋白的变体，其中，将1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个或30个氨基酸添加到野生型Cas12f1蛋白的N-末端和/或C-末端。在实施方式中，Cas12f1变体可为野生型Cas12f1蛋白的变体，其中，将上述两个数值范围内的氨基酸数量添加到野生型Cas12f1蛋白的N-末端和/或C-末端。例如，Cas12f1变体可为野生型Cas12f1蛋白的变体，其中，将26个至28个氨基酸添加到野生型Cas12f1蛋白的N-末端。

特定长度的氨基酸序列可称为虚设序列，并且虚设序列没有特别限制，只要1)它不阻止Cas12f1变体蛋白与引导RNA相互作用以形成复合物，2)它不影响Cas12f1变体蛋白展现核酸切割活性的能力，和3)它不影响Cas12f1变体蛋白识别靶基因中PAM序列的能力。

在实施方式中，虚设序列可以包括1个至40个氨基酸。例如，虚设序列可为选自SEQID NO：10至SEQ ID NO：13的氨基酸序列。

在实施方式中，Cas12f1变体可为由选自SEQ ID NO：14、SEQ ID NO：25、SEQ IDNO：30和SEQ ID NO：35的氨基酸序列示出的蛋白。其中，SEQ ID NO：14所示的蛋白也称为来源于Candidatus Woesearchaeota archaeon的转座子相关转座酶B(TnpB)，并且术语如Cas12f1蛋白、Cas12f1变体、Cas12f1功能类似物、TnpB和TnpB功能类似物可在本说明书中互换使用。

在本说明书中，SEQ ID NO：14的Cas12f1变体蛋白可称为Cas12f1变体1，SEQ IDNO：25的Cas12f1变体蛋白可称为Cas12f1变体2，SEQ ID NO：30的Cas12f1变体蛋白可称为Cas12f1变体3，并且SEQ ID NO：35的Cas12f1变体蛋白可称为Cas12f1变体4。上述名称仅用于方便，并且Cas12f1蛋白变体不受这些术语的限制。

Cas12f1蛋白的PAM序列

Cas12f1蛋白能够识别存在于靶基因或靶核酸中的原间隔区临近基序(PAM)序列。本文中，PAM序列是由Cas14a1蛋白确定的独特序列。

Cas12f1蛋白的PAM序列可为富含T的序列。Cas12f1蛋白的PAM序列可为5’-TTTN-3’。本文中，N可为A、T、C或G。例如，PAM序列可为5'-TTTA-3'、5'-TTTT-3'、5'-TTTC-3'或5'-TTTG-3'。

死亡Cas12f1蛋白

死亡Cas12f1蛋白的概述

本文公开了无切割活性的Cas12f1(死亡Cas12f1)蛋白，其是移除了核酸切割活性的Cas12f1蛋白。死亡Cas12f1蛋白是指野生型Cas12f1蛋白和/或Cas12f1蛋白变体的功能变体，具有移除的核酸切割活性。

本发明人进行了研究，并发现野生型Cas12f1蛋白中的特定氨基酸显著参与核酸切割活性，从而创造了具有通过相应位点处的修饰而移除的核酸切割活性的死亡Cas12f1蛋白。

此外，本发明人已经揭示，可以通过应用所进行的使野生型Cas12f1蛋白成为其死亡形式的修饰来制备基于Cas12f1变体蛋白的死亡Cas12f1蛋白。因此，本发明人已经创造了Cas12f1变体蛋白的死亡形式。

与包括基于野生型Cas12f1的死亡Cas12f1蛋白的融合蛋白相比，包括基于Cas12f1变体的死亡Cas12f1蛋白的碱基编辑/表达调控融合蛋白根据靶序列显示至少等效的功能或显示更好的功能。

用于死亡Cas12f1的制备的突变位置

与野生型Cas12f1蛋白相比，本文公开的死亡Cas12f1蛋白的特征在于核酸切割活性的丧失，其是由另一种氨基酸取代参与核酸切割活性中的氨基酸引起的。靶突变位置没有特别限制，只要它是参与核酸切割活性的氨基酸位置，并且突变可以发生在一个或多个位置。

在实施方式中，突变位置可为基于SEQ ID NO：1的位置326处的天冬氨酸、位置422处的谷氨酸、位置490处的精氨酸和/或位置510处的天冬氨酸。

用于死亡Cas12f1的制备的突变靶标

在Cas12f1蛋白的靶突变位置处适当进行突变的情况下，可以预期Cas12f1蛋白丧失其核酸切割活性。本文中，为了实现这种活性的丧失，考虑到原始氨基酸的类型和结构，需要用另一种合适的氨基酸取代靶突变位置处的原始氨基酸。

在实施方式中，死亡Cas12f1蛋白可以使得参与核酸切割活性的一个或多个靶突变位置处的氨基酸被其他标准氨基酸取代。具体地，这种取代可以用丙氨酸、谷氨酰胺、亮氨酸、色氨酸和/或缬氨酸进行。

Cas12f1变体蛋白的死亡形式

用于死亡Cas12f1的制备的突变位置和突变靶标也可被应用于Cas12f1变体蛋白，从而制备Cas12f1变体蛋白的死亡形式。具体地，在Cas12f1变体蛋白是包括虚设序列的变体的情况下，可以使Cas12f1变体蛋白经受用突变的靶氨基酸取代与野生型Cas12f1蛋白的氨基酸序列相对应的突变位置处的氨基酸，从而制备基于Cas12f1变体蛋白的死亡Cas12f1蛋白。

在实施方式中，死亡Cas12f1蛋白可以使得由SEQ ID NO：14示出的野生型Cas12f1中的一个或多个相应突变位置已经被一个或多个突变靶标取代，具有选自以下的突变位置和突变靶标：

突变位置：位置354处的天冬氨酸、位置450处的谷氨酸、位置518处的精氨酸和/或位置538处的天冬氨酸；和

突变靶标：丙氨酸、谷氨酰胺、亮氨酸、色氨酸和/或缬氨酸。

其更具体的实例在“本发明的可能实施方式”节的“死亡Cas12f1蛋白”小节中进行了描述。

死亡Cas12f1蛋白的氨基酸序列的实例

在实施方式中，死亡Cas12f1蛋白可以具有选自SEQ ID NO：2至SEQ ID NO：5、SEQID NO：15至SEQ ID NO：24、SEQ ID NO：26至SEQ ID NO：29、SEQ ID NO：31至SEQ ID NO：34和SEQ ID NO：36至SEQ ID NO：39的氨基酸序列。

dCas12f1-碱基编辑融合蛋白

dCas12f1-碱基编辑融合蛋白的概述

本文公开了dCas12f1-碱基编辑融合蛋白，其中，死亡Cas12f1蛋白和碱基编辑结构域融合在一起。dCas12f1-碱基编辑融合蛋白是其中死亡Cas12f1蛋白、至少一个碱基编辑结构域和其他额外的组分融合在一起的蛋白；并且在递送到细胞中时，其可以与引导RNA一起起作用以编辑细胞的靶基因中的预定靶序列的碱基或与靶序列临近的核苷酸序列。dCas12f1-碱基编辑融合蛋白可以基本上包括死亡Cas12f1蛋白和至少一个碱基编辑结构域，并且可以包括额外的组分。

作为结果，dCas12f1-碱基编辑融合蛋白可以用作CRISPR碱基编辑系统，其起到编辑靶基因中与靶序列临近的位点处的碱基的作用。

在下文中，将详细描述dCas12f1-碱基编辑融合蛋白的构型。

dCas12f1-碱基编辑融合蛋白的组分1-死亡Cas12f1蛋白

dCas12f1-碱基编辑融合蛋白包括已经丧失核酸切割活性的死亡Cas12f1蛋白。如上所述，死亡Cas12f1蛋白识别靶基因中的预定的靶序列，并起到与相应位点结合的功能，使得它用于允许碱基编辑结构域(其是dCas12f1-碱基编辑融合蛋白的另一组分)来编辑靶序列或与靶序列相邻的位点处的碱基。换言之，死亡Cas12f1蛋白是被设计为将碱基编辑结构域位置特异性地递送到具有待编辑碱基的靶序列位点的部分。死亡Cas12f1蛋白的特征在于核酸切割活性的丧失，并因此不会引起不想要的核酸切割和插入缺失产生。死亡Cas12f1蛋白的具体构型如“死亡Cas12f1蛋白”节所述。

dCas12f1-碱基编辑融合蛋白的组分2-碱基编辑结构域

dCas12f1-碱基编辑融合蛋白包括碱基编辑结构域。碱基编辑结构域没有特别限制，只要它是具有编辑靶基因中的特定碱基的功能的结构域即可。更具体地，腺苷脱氨酶能够将靶基因中特定位置处的腺嘌呤编辑为鸟嘌呤，而胞苷脱氨酶能够将胞嘧啶编辑为胸腺嘧啶，均被称为碱基编辑结构域。本发明人将这种脱氨酶与死亡Cas12f1结合，并因此创造了腺嘌呤碱基编辑器(ABE)和胞嘧啶碱基编辑器(CBE)。

碱基编辑结构域1-腺苷脱氨酶

碱基编辑结构域可为整个腺苷脱氨酶或其部分结构域。在dCas12f1-碱基编辑融合蛋白包括腺苷脱氨酶的情况下，dCas12f1-碱基编辑融合蛋白起到腺嘌呤碱基编辑器(以下称为ABE)的作用。包括整个腺苷脱氨酶或其部分结构域的dCas12f1-碱基编辑融合蛋白起到用鸟嘌呤取代靶序列或与靶序列临近的序列中包括的至少一个腺嘌呤的作用。腺苷脱氨酶没有特别限制，只要它允许dCas12f1-碱基编辑融合蛋白执行这样的功能即可。例如，腺苷脱氨酶可为源自大肠杆菌(E.coli)的tRNA腺苷脱氨酶(TadA)和/或TadA的变体。此外，dCas12f1-碱基编辑融合蛋白可以包括至少一个单元的TadA和/或TadA的变体。

碱基编辑结构域2-胞苷脱氨酶

碱基编辑结构域可为整个胞苷脱氨酶或其部分结构域。在dCas12f1-碱基编辑融合蛋白包括胞苷脱氨酶的情况下，dCas12f1-碱基编辑融合蛋白起到胞嘧啶碱基编辑器(以下称为CBE)的作用。包括整个胞苷脱氨酶或其部分结构域的dCas12f1-碱基编辑融合蛋白起到用胸腺嘧啶取代靶序列或与靶序列临近的序列中包括的至少一个胞嘧啶的作用。胞苷脱氨酶没有特别限制，只要它允许dCas12f1-碱基编辑融合蛋白执行这样的功能即可。例如，它可为人活化诱导的胞苷脱氨酶(AID)、人APOBEC3G、鼠APOBEC1、APOBEC3A、APOBEC3B、CDA、AID和/或七鳃鳗PmCDA1。

其它组分1-参与碱基编辑的其它结构域

除了碱基编辑结构域外，dCas12f1-碱基编辑融合蛋白还可以包括参与碱基编辑的额外结构域。额外的结构域可以用于辅助脱氨酶的碱基编辑功能或提高其效率。dCas12f1-碱基编辑融合蛋白可以包括一个、两个、或三个或更多个额外结构域。

在实施方式中，额外结构域可为尿嘧啶糖基化酶抑制剂。在另一实施方式中，额外结构域可为gam蛋白。

其它组分2-NLS、连接子等

本文公开的dCas12f1-碱基编辑融合蛋白可以进一步包括至少一个额外结构域。额外结构域可以位于dCas12f1-碱基编辑融合蛋白的N末端和/或C末端。额外结构域可以位于死亡Cas12f1蛋白和碱基编辑结构域之间，所述结构域被包括在dCas12f1-碱基编辑融合蛋白中。

dCas12f1-碱基编辑融合蛋白可以进一步包括NLS(核定位序列)和/或NES(核输出序列)中的一种或多种。NLS可以如“术语定义”节的“核定位序列或信号(NLS)”小节所述。

dCas12f1-碱基编辑融合蛋白可以包括至少一个连接子。连接子连接融合蛋白中的各个组分，并且不受特别限制，只要其不影响各个组分的功能即可。dCas12f1-碱基编辑融合蛋白的各个组分可以彼此直接连接，或者可以通过连接子连接。连接子可以如“术语定义”节的“连接子”小节所述。

dCas12f1-碱基编辑融合蛋白的结构

本文公开的dCas12f1-碱基编辑融合蛋白是具有死亡Cas12f1蛋白和碱基编辑结构域彼此顺序连接的结构的融合蛋白。本文中，dCas12f1-碱基编辑融合蛋白的特征在于，它可以通过在类型、数量、组合和融合位置方面不同地组合碱基编辑结构域和额外组分来设计。用于dCas12f1-碱基编辑融合蛋白的此类各种模块化方法使得能够通过利用Cas12f1蛋白具有小尺寸的优点来开发更有效的dCas12f1-碱基编辑融合蛋白。根据每个模块的构型，dCas12f1-碱基编辑融合蛋白可能具有不同的碱基编辑效率；并且根据每个靶基因可以通过各种模块化方法来设计最优的CRISPR碱基编辑系统。

在实施方式中，dCas12f1-碱基编辑融合蛋白可以包括至少一个碱基编辑结构域。在实施方式中，dCas12f1-碱基编辑融合蛋白可以包括参与碱基编辑的至少一个其它结构域。在实施方式中，dCas12f1-碱基编辑融合蛋白可以包括至少一个其它组分。

在实施方式中，死亡Cas12f1蛋白和碱基编辑结构域可以彼此直接连接，或者可以通过连接子连接。在实施方式中，基于死亡Cas12f1蛋白和碱基编辑结构域彼此连接的结构，dCas12f1-碱基编辑融合蛋白可以包括各种额外的组分。

在实施方式中，dCas12f1-碱基编辑融合蛋白可以由选自以下的结构来表示：

NH₂-[dCas12f1]-[Linker]-[BE]-COOH；和

NH₂-[BE]-[Linker]-[dCas12f1]-COOH。

在实施方式中，dCas12f1-碱基编辑融合蛋白可以由图1所示的结构表示。

dCas12f1-碱基编辑融合蛋白的示例性序列

在实施方式中，dCas12f1-碱基编辑融合蛋白可以由选自SEQ ID NO：284至SEQ IDNO：328和SEQ ID NO：418至SEQ ID NO：442的氨基酸序列示出。

dCas12f1-表达调控融合蛋白

dCas12f1-表达调控融合蛋白的概述

本文公开了dCas12f1-表达调控融合蛋白，其中，死亡Cas12f1蛋白和基因表达调控结构域融合在一起。dCas12f1-表达调控融合蛋白是其中死亡Cas12f1蛋白、至少一个基因表达调控结构域和其它组分融合在一起的蛋白，并且在递送到细胞中时，它可以与引导RNA一起发挥作用，以调控细胞中预定的靶基因的表达。dCas12f1-表达调控融合蛋白可以基本上包括死亡Cas12f1蛋白和至少一个基因调控结构域，并且可以包括额外的组分。因此，dCas12f1-表达调控融合蛋白可以充当促进基因表达的CRISPR激活系统和/或抑制基因表达的CRISPR干扰系统。

dCas12f1-表达调控融合蛋白的组分1-死亡Cas12f1蛋白

dCas12f1-表达调控融合蛋白包括已经丧失核酸切割活性的死亡Cas12f1蛋白。如上所述，死亡Cas12f1蛋白识别靶基因中的预定的靶序列，并起到与相应位点结合的作用，从而允许基因表达调控结构域(其为dCas12f1-表达调控融合蛋白的另一组分)调控靶基因的表达。换言之，死亡Cas12f1蛋白是被设计为将表达调控结构域位置特异性地递送到待调控的靶基因位点的部分。死亡Cas12f1蛋白的特征在于核酸切割活性的丧失，并因此不会引起不想要的核酸切割和插入缺失产生。死亡Cas12f1蛋白的具体构型如“死亡Cas12f1蛋白”节所述。

dCas12f1-表达调控融合蛋白的组分2-基因表达调控结构域

dCas12f1-表达调控融合蛋白包括基因表达调控结构域。基因表达调控结构域没有特别限制，只要其能够调控靶基因的表达即可。更具体地，基因表达调控结构域可为用于激活或促进特定基因转录的转录激活蛋白，和/或用于抑制或阻抑特定基因转录的转录抑制蛋白。本发明人将这样的基因表达调控结构域与死亡Cas12f1融合，并由此创造了能够形成CRISPR激活系统和CRISPR干扰系统的dCas12f1-表达调控融合蛋白。

基因表达调控结构域1-转录启动子因子

基因表达调控结构域可为转录激活蛋白。转录激活蛋白可为用于激活或促进靶基因转录的蛋白质。转录激活蛋白可为能够与靶基因的增强子或启动子近端元件结合的DNA结合蛋白。转录激活蛋白可以与位于启动子附近的调控DNA位点结合，并与一般转录机制(RNA聚合酶和一般转录因子)进行蛋白-蛋白相互作用，从而促进转录机制与启动子的结合，由此促进基因的转录。或者，转录激活蛋白可以触发RNA聚合酶从启动子释放，并沿着DNA进行合成，从而促进基因的转录。

在实施方式中，转录激活蛋白可为VP64、Sun Tag、VPR(VP64、p65、Rta)或TV(TAL、VP64)。

基因表达调控结构域2-转录抑制因子

表达调控结构域可为转录抑制蛋白。转录抑制蛋白可为用于抑制或阻抑靶基因转录的蛋白质。转录抑制蛋白可为与靶基因的操纵子或沉默子结合以抑制或阻抑靶基因表达的DNA结合蛋白或肽。本文中，转录抑制蛋白可以阻断RNA聚合酶附着至启动子，从而抑制或阻抑基因的转录。或者，转录抑制蛋白可为诱导染色质的结构变化以抑制或阻抑基因转录的蛋白或肽。本文中，染色质的结构变化可能是由甲基化、去甲基化、乙酰化、脱乙酰化等引起的。

在实施方式中，转录抑制蛋白可为KRAB、DNMT、MeCP2、HDAC、LSD、SRDX SALL1和/或SDS3。本文中，DNMT可为DNMT1、TRDMT1或DNMT3。本文中，HDAC可为HDAC1、HDAC2、HDAC3、HDAC4、HDAC5、HDAC6、HDAC7、HDAC8、HDAC9、HDAC10或HDAC11。

其它组分-NLS、连接子等

本文公开的dCas12f1-表达调控融合蛋白可以进一步包含至少一个额外结构域。额外结构域可以位于dCas12f1-表达调控融合蛋白的N末端和/或C末端。或者，额外结构域可以位于死亡Cas12f1蛋白和基因表达调控结构域之间，所述基因表达调控结构域被包含在dCas12f1-表达调控融合蛋白中。

本文提供的Cas12f1融合蛋白的特征在于包含连接经修饰的Cas12f1蛋白和表达调控结构域的连接子。本文中，连接子的特征在于如下氨基酸序列，该氨基酸序列不影响经修饰的Cas12f1蛋白的功能和结构以及表达调控结构域。具体地，连接子可以如“术语定义”节的“连接子”小节所述。

dCas12f1-表达调控融合蛋白可以进一步包含NLS(核定位序列)和/或NES(核输出序列)中的一种或多种。具体地，NLS可以如“术语定义”节的“核定位序列或信号(NLS)”小节所述。

dCas12f1-表达调控融合蛋白可以包含至少一个标签。具体地，标签可以如“术语定义”节的“标签”小节所述。

dCas12f1-表达调控融合蛋白的结构

本文公开的dCas12f1-表达调控融合蛋白是具有死亡Cas12f1蛋白和基因表达调控结构域顺序彼此相互连接的结构的融合蛋白。本文中，dCas12f1-表达调控融合蛋白的特征在于，它可以通过在类型、数量、组合和融合位置方面对基因表达调控结构域和额外组分进行各种组合来设计。用于dCas12f1-表达调控融合蛋白的此类各种模块化方法使得能够利用Cas12f1蛋白具有小尺寸的优点来开发更有效的dCas12f1-表达调控融合蛋白。根据每个模块的构型，dCas12f1-表达调控融合蛋白可能具有不同的表达调控效率；并且可以根据每个靶基因通过各种模块化方法来设计最优的CRISPR表达调控系统。

在实施方式中，dCas12f1-表达调控融合蛋白可包含至少一个基因表达调控结构域。在实施方式中，dCas12f1-表达调控融合蛋白可以包含参与表达调控的至少一个其它结构域。在实施方式中，dCas12f1-表达调控融合蛋白可包含至少一个其它组分。

在实施方式中，死亡Cas12f1蛋白和表达调控结构域可以彼此直接连接，或者可以通过连接子和/或NLS连接。在实施方式中，基于死亡Cas12f1蛋白和表达调控结构域彼此连接的结构，dCas12f1-表达调控融合蛋白可以包含各种额外组分。

具体的示例性构型在“本发明的可能实施方式”节的“dCas12f1表达调控结构域融合蛋白”小节中进行了描述。

引导RNA

引导RNA的概述

本文公开了引导RNA，其能够与死亡Cas12f1和基于dCas12f1的融合蛋白(以下统称为经工程化的Cas12f1蛋白)形成复合物，并允许经工程化的Cas12f1蛋白以靶特异性的方式发挥作用。所述引导RNA能够与野生型Cas12f1形成CRISPR/Cas12f1系统，以表现出双链核酸切割活性，并且是本发明人通过基于野生型引导RNA进行各种修饰而创造的。引导RNA使支架、间隔区和富含U的尾部以5'至3'的方向顺序地彼此连接。

支架是能够与经工程化的Cas12f1蛋白相互作用以形成复合物的部分，并且对应于野生型引导RNA的tracrRNA和crRNA直接重复部分；并且所述支架是以各种方式修饰的野生型引导RNA的一部分。间隔区是能够与经工程化的Cas12f1蛋白靶向的靶序列互补结合的部分，并且其序列取决于靶序列而确定。富含U的尾部是位于间隔区的3'端的部分，并且富含尿苷(U)。富含U的尾部与支架协同作用，以提高经工程化的Cas12f1以靶特异性方式发挥作用的效率。

支架

支架是能够与经工程化的Cas12f1蛋白相互作用以形成复合物的部分，并且是对本文公开的(经工程化的)Cas12f1而言特异性的组分。所述支架是通过对野生型Cas12f1引导RNA的tracrRNA部分和crRNA直接重复部分应用各种操作而制备的，并且包括经工程化的tracrNA部分和经工程化的crRNA直接重复部分，其对应于野生型引导RNA的tracrRNA部分和野生型引导RNA的crRNA直接重复部分。为了有效表达和使用，支架通常采取经工程化的tracrRNA部分和经工程化的crRNA直接重复部分通过连接子连接的形式；然而，连接子不是必需的。换言之，支架可以由一个核酸分子组成，或者可以由两个核酸分子组成，其中，每个核酸分子的一部分彼此形成互补结合。

在实施方式中，支架可以具有5'-[经工程化的tracrRNA]-连接子-[经工程化的crRNA直接重复]-3'的结构。支架的每个部件的各种实施方式在“本发明的可能实施方式”节中进行了描述

间隔区

间隔区是设计用于在经工程化的Cas12f1蛋白和引导RNA形成复合物后特异性结合至靶基因中的靶序列并以靶特异性方式发挥作用的部分。间隔区是识别、结合或靶向靶基因的RNA序列。更具体地，间隔区是与靶序列互补结合的RNA序列、能够与靶序列形成互补结合的RNA序列，或与靶序列具有互补性的RNA序列。间隔区是与原间隔序列相同、相似或对应的RNA序列。本文中，原间隔序列与靶序列具有密切的关系，并且其描述如“术语定义”节中的“靶序列、靶链和非靶链”小节所述。间隔区是根据靶序列而变化的序列。间隔区根据靶序列而变化。此外，间隔区是RNA序列，并且包括能够与靶基因的靶序列中存在的腺苷(A)形成互补结合的尿苷(U)。或者，对于靶基因的原间隔序列中存在的胸苷(T)，间隔区包括尿苷(U)而不是胸苷(T)。此外，间隔区也被称为引导结构域。在下文中，间隔区和引导结构域可以互换使用。

富含U的尾部

富含U的尾部是位于间隔区的3'端的部分，并且富含尿苷(U)。具体地，富含U的尾部与支架协同作用，以提高经工程化的Cas12f1以靶特异性方式发挥作用的效率。例如，富含U的尾部可为UUUUAUUUUUU(SEQ ID NO：231)。富含U的尾部的各种实施方式在“本发明的可能实施方式”节中进行了描述。

经工程化的Cas12f1蛋白-引导RNA复合物

经工程化的Cas12f1蛋白-引导RNA复合物的组分

本文公开了经工程化的Cas12f1蛋白-引导RNA复合物。经工程化的Cas12f1蛋白-引导RNA复合物包含：1)经工程化的Cas12f1蛋白，其选自死亡Cas12f1蛋白、dCas12f1-碱基编辑融合蛋白和dCas12f1-表达调控融合蛋白，以及2)引导RNA。本文中，死亡Cas12f1蛋白、dCas12f1-碱基编辑融合蛋白和dCas12f1-表达调控融合蛋白中的每一个如上所述。

经工程化的Cas12f1蛋白引导RNA复合物可被称为CRISPR基因调控复合物(系统)。例如，在经工程化的Cas12f1蛋白是dCas12f1-碱基编辑融合蛋白的情况下，经工程化的Cas12f1蛋白引导RNA复合物可被称为CRISPR碱基编辑复合物(系统)。作为另一个实例，在经工程化的Cas12f1蛋白是dCas12f1-表达调控融合蛋白的情况下，经工程化的Cas12f1蛋白-引导RNA复合物可被称为CRISPR表达调控复合物(系统)。

经工程化的Cas12f1蛋白

经工程化的Cas12f1蛋白-引导RNA复合物包含经工程化的Cas12f1蛋白。经工程化的Cas12f1蛋白统称为上述死亡Cas12f1蛋白、dCas12f1-碱基编辑融合蛋白和dCas12f1-表达调控融合蛋白，并且可以根据CRISPR基因调控复合物的预期用途进行适当选择和优化。死亡Cas12f1蛋白、dCas12f1-碱基编辑融合蛋白和dCas12f1-表达调控融合蛋白中的每一种的描述如相应部分所述。

引导RNA

经工程化的Cas12f1蛋白-引导RNA复合物包含引导RNA。引导RNA能够在CRISPR/Cas12f1系统中执行其功能，如相应部分所述。引导RNA中的支架可以与经工程化的Cas12f1蛋白相互作用以形成复合物。

经工程化的Cas12f1蛋白-引导RNA复合物1-CRISPR碱基编辑复合物

在实施方式中，在经工程化的Cas12f1是dCas12f1-碱基编辑融合蛋白的情况下，CRISPR基因调控复合物具有编辑靶基因中的至少一个碱基的功能，其可被称为CRISPR碱基编辑复合物(系统)。

具体地，在dCas12f1-碱基编辑融合蛋白包含腺苷脱氨酶作为碱基编辑结构域的情况下，CRISPR碱基编辑复合物可被称为CRISPR腺嘌呤碱基编辑器(ABE)复合物(系统)，其能够结合至靶基因中的靶序列并用鸟嘌呤碱基编辑存在于原间隔序列中或与其临近的腺嘌呤碱基。

具体地，在dCas12f1-碱基编辑融合蛋白包含胞苷脱氨酶作为碱基编辑结构域的情况下，CRISPR碱基编辑复合物可被称为CRISPR胞嘧啶碱基编辑器(CBE)复合物(系统)，其能够结合至靶基因中的靶序列并用胸腺嘧啶碱基编辑存在于原间隔序列中或与其临近的胞嘧啶碱基。

经工程化的Cas12f1蛋白-引导RNA复合物2-CRISPR激活/干扰复合物

在实施方式中，在经工程化的Cas12f1是dCas12f1-表达调控融合蛋白的情况下，CRISPR基因调控复合物具有调控(促进或抑制)靶基因表达的功能，其可被称为CRISPR表达调控复合物(系统)。

具体地，在dCas12f1-表达调控融合蛋白包含转录激活蛋白作为表达调控结构域的情况下，CRISPR表达调控复合物可被称为CRISPR激活复合物(系统)，其能够与位于增强子或启动子附近的调控DNA位点结合，并触发RNA聚合酶从启动子释放并沿着DNA进行合成，从而促进基因的转录。

另一方面，在dCas12f1-表达调控融合蛋白包含转录抑制蛋白作为表达调控结构域的情况下，CRISPR表达调控复合物可被称为CRISPR干扰复合物(系统)，其能够与靶基因的操纵子或沉默子结合以阻断RNA聚合酶附着于启动子，从而抑制或阻抑基因的转录。

编码经工程化的Cas12f1蛋白和引导RNA的载体

编码经工程化的Cas12f1蛋白和引导RNA的载体-概述

本文提供了用于表达CRISPR基因调控系统的各个组分的载体。具体地，所述载体包含编码经工程化的Cas12f1蛋白的核酸和编码引导RNA的核酸，并且被配置为能够表达经工程化的Cas12f1蛋白和引导RNA。载体的序列包括至少一个启动子序列。启动子可操作地连接至编码经工程化的Cas12f1蛋白的核苷酸序列和/或编码引导RNA的核苷酸序列，从而可以在细胞中促进核苷酸序列的转录。本文中，经工程化的Cas12f1蛋白选自死亡Cas12f1蛋白、dCas12f1-碱基编辑融合蛋白和dCas12f1-表达调控融合蛋白，并且各自的蛋白质如“死亡Cas12f1蛋白”、“dCas12f1-碱基编辑融合蛋白”和“dCas12f1-表达调控融合蛋白”节所述。此外，引导RNA如“引导RNA”节所述。

载体的组分-经工程化的Cas12f1蛋白表达序列

所述载体包含编码经工程化的Cas12f1蛋白的核酸。本文中，经工程化的Cas12f1蛋白选自死亡Cas12f1蛋白、dCas12f1-碱基编辑融合蛋白和dCas12f1-表达调控融合蛋白，并且各自的蛋白如“死亡Cas12f1蛋白”、“dCas12f1-碱基编辑融合蛋白”和“dCas12f1-表达调控融合蛋白”节所述。编码经工程化的Cas12f1蛋白的核酸是能够表达经工程化的Cas12f1蛋白的序列，并且可以根据其表达的环境进行适当的密码子优化。

载体的组分-引导RNA表达序列

所述载体包含编码所述引导RNA的核酸。本文中，引导RNA如“引导RNA”节所述

载体的组分-启动子序列

载体的序列包括可操作地连接至编码每个组分的序列的启动子序列。为了使载体的表达靶在细胞中表达，启动子序列需要与编码每种组分的序列可操作地连接，从而使RNA转录因子可以在细胞中被激活。启动子序列可以根据其相应的RNA转录因子或表达靶得以表达的环境进行不同的设计，并且不受限制，只要启动子序列能够在细胞中适当表达CRISPR基因调控系统的每个组分即可。启动子序列可为促进RNA聚合酶(例如，RNA Pol I、Pol II或Pol III)的转录的启动子。例如，启动子可以为但不限于如下中的任一种：SV40早期启动子、小鼠乳腺肿瘤病毒长末端重复序列(LTR)启动子、腺病毒主要晚期启动子(AdMLP)、单纯疱疹病毒(HSV)启动子、巨细胞病毒(CMV)启动子(例如CMV立即早期启动子区(CMVIE))、劳斯肉瘤病毒(RSV)启动子、人U6小核启动子(U6)(Miyagishi等,NatureBiotechnology 20,497-500(2002))、增强型U6启动子(例如，Xia等,Nucleic AcidsRes.2003Sep.1；31(17))、人H1启动子(H1)和7SK启动子。

在实施方式中，载体的序列可以包括编码经工程化的Cas12f1蛋白的序列和启动子序列。本文中，启动子序列可以与编码经工程化的Cas12f1蛋白的序列可操作地连接。在实施方式中，载体的序列可以包括编码引导RNA的序列和启动子序列。本文中，启动子序列可以与编码引导RNA的序列可操作地连接。在实施方式中，载体的序列可以包括编码经工程化的Cas12f1蛋白的序列、编码引导RNA的序列和启动子序列。本文中，启动子序列与编码经工程化的Cas12f1蛋白的序列和编码引导RNA的序列可操作地连接，其中，由启动子序列激活的转录因子引起经工程化的Cas12f1蛋白和引导RNA的表达。

载体的组分-可能包含两个以上的启动子序列

在实施方式中，载体的序列可以包括第一启动子序列、编码经经工程化的Cas12f1蛋白的第一序列、第二启动子序列和编码引导RNA的第二序列。本文中，第一启动子序列可操作地连接至第一序列，并且第二启动子序列可操作地连接至第二序列，其中，第一序列的转录由第一启动子序列诱导，并且第二序列的转录由第二启动子序列诱导。本文中，第一启动子和第二启动子可为相同类型的启动子。本文中，第一启动子和第二启动子可为不同类型的启动子。

在实施方式中，载体的序列可以包括第一启动子序列、编码经工程化的Cas12f1蛋白的第一序列、第二启动子序列、编码第一引导RNA的第二序列、第三启动子序列和编码第二引导RNA的第三序列。本文中，第一启动子序列可操作地连接至第一序列，第二启动子序列可操作地连接至第二序列，并且第三启动子序列可操作地连接至第三序列，其中，第一序列的转录由第一启动子序列诱导，第二序列的转录由第二启动子序列诱导，并且第三序列的转录由第三启动子序列诱导。本文中，第二启动子和第三启动子可为相同类型的启动子。具体地，第二启动子序列和第三启动子序列可为U6启动子序列，但不限于此。本文中，第二启动子和第三启动子可为不同类型的启动子。具体地，第二启动子可为U6启动子序列，并且第三启动子可为H1启动子序列；然而，这些启动子不限于此。

载体的组分-终止信号

载体可包含与启动子序列可操作地连接的终止信号。在载体的序列包括启动子序列的情况下，可操作地连接至启动子的序列的转录由RNA转录因子诱导；并且诱导RNA转录因子的转录终止的序列被称为终止信号。终止信号可以根据启动子序列的类型而变化。例如，在启动子是U6或H1启动子的情况下，启动子将胸苷连续序列(例如，TTTTTT(T6))识别为终止信号。

在实施方式中，在载体的序列包括U6启动子序列的情况下，可操作地连接至U6启动子序列的胸苷连续序列可以作为终止信号。在实施方式中，胸苷连续序列可为其中五个或更多个胸苷连续连接的序列。在实施方式中，在载体的序列包括H1启动子序列的情况下，可操作地连接至H1启动子序列的胸苷连续序列可以作为终止信号。在实施方式中，胸苷连续序列可为其中五个或更多个胸苷连续连接的序列。

载体的组分-其它组分

除了上述组分外，载体的序列还可以根据目的包含必要的组分。

在实施方式中，载体的序列可以包括调控/控制组分的序列和/或额外组分的序列。在实施方式中，可以添加额外组分，以用于区分经转染的细胞和未转染的细胞的目的。本文中，调控/控制组分和额外组分的序列可以包括但不限于启动子、增强子、内含子、多聚腺苷酸化信号、Kozak共有序列、内部核糖体进入位点(IRES)、剪接受体、2A序列和/或复制起点。本文中，复制起点可以为但不限于f1复制起点、SV40复制起点、pMB1复制起点、腺复制起点、AAV复制起点和/或BBV复制起点。

额外组分

除了上述表达靶外，载体还可以被配置为表达额外组分，例如NLS和标签蛋白。在实施方式中，额外组分可以独立于经工程化的Cas12f1蛋白和/或引导RNA而表达。在另一实施方式中，额外组分可以与经工程化的Cas12f1蛋白和/或引导RNA一起表达。本文中，额外组分可为在CRISPR基因调控系统待表达的情况下通常表达的组分，并且可以参考已知技术以获取其细节。例如，额外组分可为“术语定义”节的“标签”小节中描述的标签之一，但不限于此。例如，所述额外组分可为除草剂抗性基因，例如草甘膦、草铵膦或草丁膦；或抗生素抗性基因，例如氨苄青霉素、卡那霉素、G418、博来霉素、潮霉素或氯霉素，但不限于此。

载体类型-病毒载体

所述载体可为病毒载体。

在实施方式中，病毒载体可为选自于由逆转录病毒、慢病毒、腺病毒、腺相关病毒、痘苗病毒、痘病毒和单纯疱疹病毒所组成的组中的至少一个。在实施方式中，病毒载体可为腺相关病毒。

载体类型-非病毒载体

所述载体可为非病毒载体。

在实施方式中，非病毒载体可为选自于由质粒、噬菌体、裸DNA、DNA复合物和mRNA所组成的组中的至少一个。在实施方式中，质粒可以选自于由pcDNA系列、pS456、pG1806、pACYC177、ColE1、pKT230、pME290、pBR322、pUC8/9、pUC6、pBD9、pHC79、pIJ61、pLAFR1、pHV14、pGEX系列、pET系列和pUC19所组成的组。在实施方式中，噬菌体可以选自于由λgt4λB、λ-Charon、λΔz1和M13所组成的组。在实施方式中，载体可为PCR扩增子。

载体的形式-环状载体或线状载体

载体可以具有环状形式或线状形式。在载体为线状载体的情况下，即使线状载体的序列不单独包含终止信号，RNA转录也在3'端终止。相反，在载体是环状载体的情况下，RNA转录不终止，除非环状载体的序列单独包含终止信号。因此，在载体以环状载体的形式使用的情况下，必须包含与每个启动子序列相关的转录因子相对应的终止信号，以使载体表达预期的靶。

经工程化的CRISPR/Cas12f1组合物

本文公开了经工程化的CRISPR/Cas12f1组合物，该组合物包含CRISPR基因调控复合物的各个组分或编码其的核酸。具体地，经工程化的CRISPR/Cas12f1组合物包含经工程化的Cas12f1蛋白或编码所述Cas12f1蛋白的核酸，以及引导RNA或编码所述引导RNA的核酸。本文中，经工程化的Cas12f1蛋白选自死亡Cas12f1蛋白、dCas12f1-碱基编辑融合蛋白和dCas12f1-表达调控融合蛋白，如以上各节中所述。引导RNA如“引导RNA”节所述。除上述组分外，经工程化的CRISPR/Cas12f1组合物还可包含适当的额外组分。

使用经工程化的CRISPR/Cas12f1组合物的基因调控方法——通用的

使用CRISPR复合物的基因调控方法-概述

本文公开了使用经工程化的CRISPR/Cas12f1组合物调控细胞中的靶基因的方法。本文中，“基因调控”统称为人工遗传操作和功能调控，如基因切割、促进突变产生、碱基编辑、促进基因表达、以及抑制基因表达，并且不限于特定的方法。因此，应当理解，术语“基因调控方法”综合地指靶基因的碱基编辑方法、调控靶基因表达的方法以及调控基因的其它方法。

本文具体公开了：1)使用包含dCas12f1-碱基编辑融合蛋白的经工程化的CRISPR/Cas12f1组合物对靶基因进行碱基编辑的方法，以及2)使用包含dCas12f1-表达调控融合蛋白的经工程化的CRISPR/Cas12f1组合物调控靶基因的表达的方法。

从本公开的方法都包括将经工程化的CRISPR/Cas12f1组合物引入、递送、施用和/或注射到靶细胞中的观点来看，将首先描述这些方法的共同部分，然后将分别描述碱基编辑方法和表达调控方法。

靶细胞

在实施方式中，靶细胞可为原核细胞。在实施方式中，靶细胞可为真核细胞。具体地，真核细胞可以为但不限于植物细胞、动物细胞和/或人细胞。

靶序列的确定

可以考虑目的、靶细胞的环境、由经工程化的CRISPR/Cas12f1组合物的经工程化的Cas12f1蛋白识别的PAM序列和/或其它变量来确定待通过CRISPR碱基编辑复合物编辑的靶基因和/或待通过CRISPR表达调控复合物调控其表达的靶基因。本文中，对方法没有特别限制，只要其能够确定存在于靶基因中的适当长度的靶序列即可；并且可以使用本领域中已知的技术。

根据靶序列确定间隔区序列

一旦确定了靶序列，就设计与其相对应的间隔区序列。间隔区序列被设计为能够与靶序列互补结合的序列。在实施方式中，间隔区序列被设计为能够与靶基因互补结合的序列。在实施方式中，间隔区序列被设计为能够与靶核酸互补结合。在实施方式中，间隔区序列被设计为与靶核酸的靶链序列中包含的靶序列互补的序列。在实施方式中，间隔区序列被设计为与靶核酸的非靶链序列中包含的原间隔区的DNA序列相对应的RNA序列。具体地，间隔区序列被设计为具有与原间隔序列相同的核苷酸序列，除了核苷酸序列中包含的各胸苷都被尿苷取代。

靶序列和间隔区序列之间的互补性

在实施方式中，间隔区序列可以与靶序列互补60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％。在实施方式中，间隔区序列可为在从前一句中选择的数字范围内与靶序列互补的序列。例如，间隔区序列可为与靶序列互补60％至90％的序列。作为另一个实例，间隔区序列可为与靶序列90％至100％互补的序列。

靶序列和间隔区序列之间的错配数

在实施方式中，间隔区序列可为与靶序列互补的序列，并且与其具有0、1、2、3、4、5、6、7、8、9或10个错配。在实施方式中，间隔区序列可以具有在从前一句中选择的数字范围内的错配。例如，间隔区序列可以与靶序列具有1个到5个错配。作为另一个实例，间隔区序列可以与靶序列具有6个到10个错配。

将经工程化的Cas12f1-引导RNA复合物的各个组分递送到细胞中

本文提供的基因表达调控方法是以CRISPR基因调控复合物与靶细胞中的靶基因接触为前提的。因此，为了诱导CRISPR基因调控复合物与靶基因接触，基因表达调控方法包括将CRISPR基因调控复合物的相应组分递送到靶细胞中。

在实施方式中，基因表达调控方法可包括将引导RNA或编码引导RNA的核酸和经工程化的Cas12f1蛋白或编码经工程化的Cas12f1蛋白的核酸递送到靶细胞中。在实施方式中，基因表达调控方法可以包括将引导RNA和经工程化的Cas12f1蛋白递送到靶细胞中。在实施方式中，基因表达调控方法可以包括将编码引导RNA和经工程化的Cas12f1蛋白的核酸递送到靶细胞中。在实施方式中，基因表达调控方法可以包括将引导RNA和编码经工程化的Cas12f1蛋白的核酸递送到靶细胞中。在实施方式中，基因表达调控方法可以包括将编码引导RNA的核酸和编码经工程化的Cas12f1蛋白的核酸递送到靶细胞中。可以使用各种递送方法以各种递送形式将引导RNA或编码引导RNA的核酸和经工程化的Cas12f1蛋白或编码经工程化的Cas12f1蛋白的核酸递送到靶细胞中。

递送形式1-RNP

作为递送形式，可以使用核糖核蛋白(RNP)，其中，引导RNA和经工程化的Cas12f1蛋白彼此结合。在实施方式中，基因表达调控方法可以包括将CRISPR基因调控复合物引入靶细胞中，其中，引导RNA和经工程化的Cas12f1蛋白彼此结合。

递送形式2-非病毒载体

作为另一种递送形式，可以使用非病毒载体，所述非病毒载体包含编码引导RNA的核苷酸序列和编码经工程化的Cas12f1蛋白的核苷酸序列。在实施方式中，基因表达调控方法可包括将非病毒载体引入靶细胞中，所述非病毒载体包含编码引导RNA的核苷酸序列和编码经工程化的Cas12f1蛋白的核苷酸序列。具体地，非病毒载体可为质粒、裸DNA、DNA复合物或mRNA，但不限于此。在另一实施方式中，基因表达调控方法可包括将包含编码引导RNA的核苷酸序列的第一非病毒载体和包含编码经工程化的Cas12f1蛋白的核苷酸序列的第二非病毒载体引入靶细胞中。具体地，第一非病毒载体和第二非病毒载体中的每一个可为选自质粒、裸DNA、DNA复合物和mRNA中的一种，但不限于此。

递送形式3-病毒载体

作为另一种递送形式，可以使用病毒载体，所述病毒载体包含编码引导RNA的核苷酸序列和编码经工程化的Cas12f1蛋白的核苷酸序列。在实施方式中，基因表达调控方法可包括将病毒载体引入靶细胞中，所述病毒载体包含编码引导RNA的核苷酸序列和编码经工程化的Cas12f1蛋白的核苷酸序列。具体地，病毒载体可为选自于由逆转录病毒、慢病毒、腺病毒、腺相关病毒、痘苗病毒、痘病毒和单纯疱疹病毒所组成的组中的一种，但不限于此。在实施方式中，病毒载体可为腺相关病毒。

在另一实施方式中，所述基因表达调控方法可包括将包含编码引导RNA的核苷酸序列的第一病毒载体和包含编码经工程化的Cas12f1蛋白的核苷酸序列的第二病毒载体引入靶细胞中。具体地，第一病毒载体和第二病毒载体中的每一个可为选自于由逆转录病毒、慢病毒、腺病毒、腺相关病毒、痘苗病毒、痘病毒和单纯疱疹病毒所组成的组中的一种，但不限于此。

递送方法1-通用递送方式

递送方法没有特别限制，只要其能够以适当的递送形式将引导RNA或编码引导RNA的核酸和经工程化的Cas12f1蛋白或编码经工程化的Cas12f1蛋白的核酸递送到细胞中即可。在实施方式中，递送方法可为电穿孔、基因枪、超声穿孔、磁转染和/或瞬时细胞压缩或挤压。

递送方法2-纳米颗粒

递送方法可为使用纳米颗粒递送至少一个组分，该组分包含在CRISPR基因调控系统中。本文中，所述递送方法可为本领域已知的方法，所述方法可以由本领域技术人员适当选择。例如，所述纳米颗粒递送方法可以为WO 2019/089820 A1中公开的方法，但不限于此。

在实施方式中，递送方法可为使用纳米颗粒递送经工程化的Cas12f1蛋白或编码经工程化的Cas12f1蛋白的核酸和/或引导RNA或编码引导RNA的核酸。在实施方式中，递送方法可为使用纳米颗粒递送经工程化的Cas12f1蛋白或编码经工程化的Cas12f1蛋白的核酸、第一引导RNA或编码第一引导RNA的核酸、和/或第二引导RNA或编码第二引导RNA的核酸。本文中，递送方法可为阳离子脂质体法、乙酸锂-二甲基亚砜(DMSO)、脂质介导的转染、磷酸钙沉淀、脂质转染、聚乙烯亚胺(PEI)介导的转染、二乙氨基乙基(DEAE)-右旋糖酐介导的转染和/或纳米颗粒介导的核酸递送(参见Panyam等,Adv Drug Deliv Rev.2012Sep13.pii:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)，但不限于此。本文中，CRISPR基因调控系统的组分可处于RNP、非病毒载体和/或病毒载体的形式。例如，CRISPR基因调控系统的每个组分可处于编码其的mRNA的形式，但不限于此。

递送形式和方法的组合

所述基因表达调控方法包括将引导RNA或编码引导RNA的核酸和经工程化的Cas12f1蛋白或编码经工程化的Cas12f1蛋白的核酸递送到细胞中，其中，各个组分的递送形式和/或递送方法可以彼此相同或不同。在实施方式中，基因表达调控方法可包括以第一递送形式递送引导RNA或编码引导RNA的核酸，和以第二递送形式递送经工程化的Cas12f1蛋白或编码经工程化的Cas12f1蛋白的核酸。本文中，第一递送形式和第二递送形式中的每一个可为上述递送形式的任何一种。在实施方式中，基因表达调控方法可以包括在第一递送方法中递送引导RNA或编码引导RNA的核酸，以及在第二递送方法中递送经工程化的Cas12f1蛋白或编码经工程化的Cas12f1蛋白的核酸。本文中，第一递送方法和第二递送方法中的每一种可为上述递送方法中的任一种。

递送顺序

所述基因表达调控方法包括将引导RNA或编码引导RNA的核酸和经工程化的Cas12f1蛋白或编码经工程化的Cas12f1蛋白的核酸递送到细胞中，其中，所述组分可以同时或以一定时间间隔顺序地递送到细胞中。

在实施方式中，基因表达调控方法可以包括同时递送引导RNA或编码引导RNA的核酸和经工程化的Cas12f1蛋白或编码经工程化的Cas12f1蛋白的核酸。在实施方式中，基因表达调控方法可以包括将引导RNA或编码引导RNA的核酸递送到细胞中，然后以一定时间间隔将经工程化的Cas12f1蛋白或编码其的核酸递送到该细胞中。在实施方式中，基因表达调控方法可以包括将经工程化的Cas12f1蛋白或编码经工程化的Cas12f1蛋白的核酸递送到细胞中，然后以一定时间间隔将引导RNA递送到细胞中。在实施方式中，基因表达调控方法可包括将编码经工程化的Cas12f1蛋白的核酸递送到细胞中，然后以一定时间间隔将引导RNA递送到细胞中。

使CRISPR基因调控复合物与靶核酸接触

在本文公开的基因表达调控方法中，当CRISPR基因调控复合物与靶基因接触时，进行靶基因表达的调控。因此，基因表达调控方法可以包括使CRISPR基因调控复合物与靶细胞接触或诱导CRISPR基因调控复合物与其接触。在实施方式中，基因表达调控方法可以包括将具有靶基因的CRISPR基因调控复合物引入靶细胞。在实施方式中，基因表达调控方法可以包括诱导CRISPR基因调控复合物与靶细胞中的靶基因接触。本文中，诱导方法不受特别限制，只要其允许CRISPR基因调控复合物与细胞中的靶基因接触即可。在实施方式中，可以通过将引导RNA或编码引导RNA的核酸和经工程化的Cas12f1蛋白或编码经工程化的Cas12f1蛋白的核酸递送到细胞中来实现诱导。

使用经工程化的CRISPR/Cas12f1组合物的碱基编辑方法

碱基编辑方法的概述

在“使用经工程化的CRISPR/Cas12f1组合物的基因调控方法”节中描述的遗传方法中，在以下情况下，基因表达调控方法可被称为使用经工程化的CRISPR/Cas12f1组合物的碱基编辑方法：1)该方法的目的是将靶基因中包含的特定碱基编辑、取代或改变为感兴趣的碱基或用感兴趣的碱基编辑、取代或改变，2)经工程化的CRISPR/Cas12f1组合物的经工程化的Cas12f1蛋白在“dCas12f1-碱基编辑融合蛋白”节中描述，以及3)将靶序列设计为与待编辑的特定碱基临近的序列。

作为执行碱基编辑方法的结果，将靶基因中的特定碱基(例如，腺嘌呤或胞嘧啶)编辑为感兴趣的碱基(例如，鸟嘌呤或胸腺嘧啶)。

碱基编辑机制1-碱基编辑的含义

本文中公开的碱基编辑方法允许将细胞中靶基因的特定碱基编辑为感兴趣的碱基。在下文中，将详细描述待编辑的碱基的位置和编辑范围。

在靶基因是双链DNA的情况下，具有靶序列的链被称为靶链，并且具有PAM序列和原间隔序列的链被称为非靶链。所述碱基编辑方法允许在细胞内形成CRISPR碱基编辑复合物，其中，CRISPR碱基编辑复合物与靶序列结合。本文中，原间隔序列(或与其临近的序列)(其是与靶序列互补的序列)中的至少一个特定碱基被CRISPR碱基编辑复合物修饰。然后，基于上述修饰，细胞自身的碱基修复机制在靶基因的序列中引起核苷酸序列修饰，称为碱基编辑。

在实施方式中，碱基编辑可以使原间隔序列中的至少一个腺嘌呤被修饰成鸟嘌呤。在另一实施方式中，碱基编辑可以使原间隔序列中的至少一个胞嘧啶被修饰成胸腺嘧啶。

碱基编辑机制2-碱基编辑范围

发生碱基编辑的位置范围可根据CRISPR碱基编辑复合物中包含的dCas12f1-碱基编辑融合蛋白的构型和类型而变化。本文中，可将碱基编辑发生的位置范围称为编辑窗口。

在本文公开的碱基编辑方法中，除非另有说明，在将原间隔序列的5'端处的碱基设置为位置1(第一位置)的情况下，编辑窗口可以以朝向3'端的方向(下游方向)被称为位置2(第二位置)、位置3(第三位置)和位置n(第n位置，n是自然数)。如有必要，在将原间隔序列的5'端处的碱基设置为位置1(第一位置)的情况下，编辑窗口可以以朝向5'端的方向(上游方向)被称为位置0(PAM序列的3'端处的碱基)、位置-1、位置-2和位置n(n是0以外的负数)。

在实施方式中，作为执行碱基编辑方法的结果，在将原间隔序列的5'端处的碱基设置为位置1的情况下，可编辑朝向3'端的方向的位置1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50处的碱基。本文中，碱基编辑窗口可为由从前一句中选择的两个数值组成的位置范围。例如，碱基编辑窗口可为位置2到位置8的范围。在实施方式中，碱基编辑可以使碱基编辑窗口中的至少一个腺嘌呤被修饰成鸟嘌呤。在另一实施方式中，碱基编辑可以使碱基编辑窗口中的至少一个胞嘧啶被修饰成胸腺嘧啶。

碱基编辑机制3-经编辑的碱基数

碱基编辑不限于修饰一个碱基，并且可以同时修饰两个、三个、四个或五个或更多个碱基。

在实施方式中，碱基编辑可为使得基于原间隔序列的5'端处的碱基，将在以朝向3'端的方向从位置2到位置8的碱基编辑窗口内的至少一个腺嘌呤修饰成鸟嘌呤。在另一实施方式中，碱基编辑可为使得基于原间隔序列的5'端处的碱基，将在以朝向3'端的方向从位置3到位置5的碱基编辑窗口内的至少一个胞嘧啶修饰成胸腺嘧啶。

通过执行碱基编辑方法获得的结果

作为执行本文提供的碱基编辑方法的结果，将包含在靶基因中的原间隔、或与原间隔临近的核酸、和/或与靶序列临近的核酸中的特定碱基编辑为、取代为或改变为感兴趣的碱基。

在实施方式中，将特定碱基编辑为感兴趣的碱基可为将腺嘌呤编辑为鸟嘌呤。在实施方式中，将特定碱基编辑为靶碱基可为将胞嘧啶编辑为胸腺嘧啶。

使用经工程化的CRISPR/Cas12f1组合物的基因表达调控方法

基因表达调控方法的概述

在“使用经工程化的CRISPR/Cas12f1组合物的基因表达调控方法”节中描述的遗传方法中，在以下情况下，基因表达调控法可被称为使用经工程化的CRISPR/Cas12f1组合物的基因表达调控方法：1)所述方法的目的是促进/激活或抑制/失活靶基因的表达，2)经工程化的CRISPR/Cas12f1组合物的经工程化的Cas12f1蛋白在“dCas12f1-表达调控融合蛋白”节中描述，以及3)将靶序列设计为其表达被调控的靶基因或与其临近的核酸。

作为执行碱基编辑方法的结果，靶基因的表达可被促进(或增加)或阻抑(或抑制)。

通过执行基因表达调控方法获得的结果

作为执行本文提供的基因表达调控方法的结果，靶基因的表达可被促进(或增加)或阻抑(或抑制)。本文中，表达可意味着靶基因转录成mRNA。通常，在靶基因的表达被促进(或增加)的情况下，所述基因的mRNA的表达水平增加，并且由所述基因编码的蛋白的产生增加。此外，在靶基因的表达被阻抑(或抑制)的情况下，所述基因的mRNA的表达水平降低，并且由所述基因编码的蛋白的产生降低。在实施方式中，作为执行基因表达调控方法的结果，靶基因编码的蛋白的产生可增加或减少。

本发明的可能实施方式

在下文中，以下描述了本公开提供的可能的实施方式。本节中提供的以下实施方式仅仅是本公开的实施例。因此，本公开不应被解释为限于以下实施例。此外，与实施例编号一起提供的简要说明仅为了便于区分各个实施例，而不应被解释为限制本公开。

死亡Cas12f1蛋白

实施例1.死亡Cas12f1，基于WT

一种死亡Cas12f1蛋白，

其中，所述死亡Cas12f1蛋白使得由

示出的野生型Cas12f1中的选自于以下的至少一个氨基酸被丙氨酸、谷氨酰胺、亮氨酸、色氨酸或缬氨酸取代：

326位处的天冬氨酸；422位处的谷氨酸；490位处的精氨酸；和510位处的天冬氨酸。

实施例2，基于WT，定义的序列

实施例1的死亡Cas12f1蛋白，其中，所述死亡Cas12f1蛋白具有选自以下的氨基酸序列：

/>

实施例3.死亡Cas12f1，基于变体1

一种死亡Cas12f1蛋白，

其中，所述死亡Cas12f1蛋白使得由

示出的Cas12f1变体蛋白中的选自以下的至少一个氨基酸被丙氨酸、谷氨酰胺、亮氨酸、色氨酸或缬氨酸取代：

354位处的天冬氨酸；450位处的谷氨酸；518位处的精氨酸；和538位处的天冬氨酸。

实施例4.基于变体1，定义的序列

实施例3的死亡Cas12f1蛋白，其中，所述死亡Cas12f1蛋白具有选自以下的氨基酸序列：

/>

实施例5.死亡Cas12f1，基于变体2

一种死亡Cas12f1蛋白，

其中，所述死亡Cas12f1蛋白使得由

示出的Cas12f1变体蛋白中的选自于以下的至少一个氨基酸被丙氨酸、谷氨酰胺、亮氨酸、色氨酸或缬氨酸取代：

实施例6.基于变体2，定义的序列

实施例5的死亡Cas12f1蛋白，其中，所述死亡Cas12f1蛋白具有选自以下的氨基酸序列：

/>

实施例7.死亡Cas12f1，基于变体3

一种死亡Cas12f1蛋白，

其中，所述死亡Cas12f1蛋白使得由

352位处的天冬氨酸；448位处的谷氨酸；516位处的精氨酸；和536位处的天冬氨酸。

实施例8.基于变体3，定义的序列

实施例7的死亡Cas12f1蛋白，其中，所述死亡Cas12f1蛋白具有选自以下的氨基酸序列：

/>

实施例9.死亡Cas12f1，基于变体4

一种死亡Cas12f1蛋白，

其中，所述死亡Cas12f1蛋白使得由

示出的野生型Cas12f1中的选自以下的至少一个氨基酸被丙氨酸、谷氨酰胺、亮氨酸、色氨酸或缬氨酸取代：

实施例10.基于变体4，定义的序列

实施例9的死亡Cas12f1蛋白，其中，所述死亡Cas12f1蛋白具有选自以下的氨基酸序列：

/>

实施例11.死亡Cas12f1，由结构式示出

死亡Cas12f1，由以下序列示出：

N-[虚设序列]-[死亡Cas12f1]-C

其中，所述虚设序列是具有1聚体、2聚体、3聚体、4聚体、5聚体、6聚体、7聚体、8聚体、9聚体、10聚体、11聚体、12聚体、13聚体、14聚体、15聚体、16聚体、17聚体、18聚体、19聚体、20聚体、21聚体、22聚体、23聚体、24聚体、25聚体、26聚体、27聚体、28聚体、29聚体、30聚体、31聚体、32聚体、33聚体、34聚体、35聚体、36聚体、37聚体、38聚体、39聚体、40聚体、41聚体、42聚体、43聚体、44聚体、45聚体、46聚体、47聚体、48聚体、49聚体或50聚体长度的氨基酸序列，以及

死亡Cas12f1具有如下的氨基酸序列：

其中，X₁是异亮氨酸或色氨酸，X₂是丝氨酸或酪氨酸，

X₃是天冬氨酸或丙氨酸，X₄是谷氨酸或丙氨酸，X₅是精氨酸、丙氨酸、谷氨酰胺、亮氨酸或色氨酸，并且X₆是天冬氨酸酯、丙氨酸、亮氨酸或缬氨酸，以及

实施例12.定义的虚设序列

实施例11的死亡Cas12f1，其中，所述虚设序列选自

以及

碱基编辑结构域

实施例13.脱氨酶

一种碱基编辑结构域，所述结构域包括1种、2种、3种、4种或5种或更多种结构域蛋白，

其中，所述结构域蛋白各自独立地为选自以下的蛋白(多肽)的全部或部分：

源自大肠杆菌(E.coli)的tRNA腺苷脱氨酶(TadA)；源自大肠杆菌的tRNA腺苷脱氨酶(TadA)变体；人活化诱导的胞苷脱氨酶(AID)；人APOBEC3G；鼠APOBEC1；APOBEC3A；APOBEC3B；CDA；AID；和七鳃鳗PmCDA1。

实施例14.腺苷脱氨酶

实施例13的碱基编辑结构域，其中，所述结构域蛋白各自独立地为选自以下的蛋白(多肽)的全部或部分：

源自大肠杆菌(E.coli)的tRNA腺苷脱氨酶(TadA)；和源自大肠杆菌(E.coli)的tRNA腺苷脱氨酶(TadA)变体，以及

所述结构域蛋白可被称为腺苷脱氨酶。

实施例15.腺苷脱氨酶，定义的序列

实施例14的碱基编辑结构域，其中，TadA和/或TadA变体由选自以下的氨基酸序列示出：

/>

实施例16.腺苷脱氨酶的结构，马库什型

一种碱基编辑结构域(腺苷脱氨酶)，由以下结构示出：

NH₂-[Tad₁]-[Linker]-[Tad₂]-COOH

其中，Tad₁是具有选自SEQ ID NO：241至SEQ ID NO：256的氨基酸序列的第一结构域蛋白，

Linker是连接子或不存在，

Tad₂是具有选自SEQ ID NO：241至SEQ ID NO：256的氨基酸序列的第二结构域蛋白、或不存在，以及

在Tad₂不存在的情况下，Linker也不存在。

实施例17.马库什型，定义的连接子

如实施例16的碱基编辑结构域，其中，所述连接子由选自SEQ ID NO：260至SEQ IDNO：273的氨基酸序列示出。

实施例18.胞苷脱氨酶

人活化诱导的胞苷脱氨酶(AID)；人APOBEC3G；鼠APOBEC1；APOBEC3A；APOBEC3B；CDA；AID；和七鳃鳗PmCDA1；并且

结构域蛋白可被称为胞苷脱氨酶。

实施例19.胞苷脱氨酶，定义的序列

实施例18的碱基编辑结构域，其中，所述结构域蛋白具有选自以下的氨基酸序列：

实施例20.包含腺苷/胞苷脱氨酶两者

实施例13的碱基编辑结构域，其中，所述碱基编辑结构域包含两种以上的结构域蛋白，并且

碱基编辑结构域包含至少一个腺苷脱氨酶和至少一个胞苷脱氨酶，所述腺苷脱氨酶为实施例14至实施例17中的任何一个，所述胞苷脱氨酶为实施例18至实施例19中的任何一个。

实施例21.CBE，由实验例中所示的结构定义

实施例20的碱基编辑结构域，其中，所述碱基编辑结构域具有选自以下的结构：

NH₂-[ABE]-[Linker]-[CBE]-COOH；以及

NH₂-[CBE]-[Linker]-[ABE]-COOH，

其中，所述ABE是腺苷脱氨酶，该腺苷脱氨酶为实施例14至实施例17中的任何一个，所述CBE是胞苷脱氨酶，该胞苷脱氨酶为实施例18至实施例19中的任何一个，并且所述Linker是连接子或不存在。

实施例22.添加的连接子

实施例13至实施例21中任何一个的碱基编辑结构域，其中，所述碱基编辑结构域进一步包含至少一个连接子，并且所述连接子将各个结构域蛋白(其被包含在所述碱基编辑结构域中)彼此连接。

基因表达调控结构域

实施例23.基因表达调控结构域

一种基因表达调控结构域，所述结构域包含1种、2种、3种、4种或5种或更多种结构域蛋白，

VP64；Sun Tag；VPR(VP64，p65，Rta)；TV(TAL，VP64)；KRAB；DNMT；MeCP2；HDAC；LSD；SRDX SALL1；和SDS3。

实施例24.定义的结构域详情

实施例23的基因表达调控结构域，其中，所述DNMT选自DNMT1、TRDMT1和DNMT3；和/或所述HDAC选自HDAC1、HDAC2、HDAC3、HDAC4、HDAC5、HDAC6、HDAC7、HDAC8、HDAC9、HDAC10和HDAC11。

实施例25.定义的序列

实施例23的基因表达调控结构域，其中，所述基因表达调控结构域包含一种或多种结构域蛋白，并且所述结构域蛋白各自独立地具有选自以下的氨基酸序列：

实施例26.包含的连接子/NLS

实施例23至实施例25中任何一个的基因表达调控结构域，其中，所述基因表达调控结构域进一步包含至少一个连接子和/或至少一个核定位信号(NLS)。

实施例27.定义的转录促进蛋白

实施例23至实施例26中任何一个的基因表达调控结构域，其中，所述结构域蛋白选自VP64、Sun Tag、VPR(VP64、p65、Rta)和TV(TAL、VP64)。

实施例28.定义的转录抑制蛋白质

实施例23至实施例27中任何一个的基因表达调控结构域，其中，所述结构域蛋白选自KRAB、DNMT、MeCP2、HDAC、LSD、SRDX SALL1和SDS3。

其它组分

实施例29.NLS

一种核定位信号，所述核定位信号由选自以下的氨基酸序列示出：

实施例30.氨基酸连接子

一种氨基酸连接子，所述连接子不会影响待连接的靶的功能。

实施例31.氨基酸连接子

实施例30的氨基酸连接子，其中，所述氨基酸连接子由选自以下的氨基酸序列示出：

实施例32.尿嘧啶糖基化酶抑制剂

一种尿嘧啶糖基化酶抑制剂，所述抑制剂具有至少一个尿嘧啶糖基化酶抑制剂结构域，

其中，所述尿嘧啶糖基化酶抑制剂结构域各自独立地为选自以下的氨基酸序列：

实施例33.两个以上的UGI，包含的连接子

实施例32的尿嘧啶糖基化酶抑制剂，其中，所述尿嘧啶糖基化酶抑制剂包含两个以上的尿嘧啶糖酰基化酶抑制剂结构域，并且所述尿嘧啶糖基化糖抑制剂结构域通过连接子连接。

引导RNA

实施例34.经工程化的tracrRNA，天然发生序列

经工程化的tracrRNA，所述tracrRNA由选自以下的核苷酸序列示出：

实施例35.经工程化的tracrRNA，基于WT

一种经工程化的tracrRNA，所述tracrRNA由以下序列示出：

5'-[第一序列]-[第二序列]-[第二序列]-[第二序列]-[第二序列]-3'

其中，所述第一序列具有选自以下的核苷酸序列：

所述第二序列具有选自以下的核苷酸序列：

所述第三序列具有选自以下的核苷酸序列：

所述第四序列具有选自以下的核苷酸序列：

所述第五序列具有选自以下的核苷酸序列：

并且

经工程化的tracrRNA不同于SEQ ID NO：41-SEQ ID NO：42中任何一个的核苷酸序列。

实施例36.连接子序列取代

实施例35的tracrRNA支架序列，其中，包含在第四序列中的5'-UUAG-3'被5'-GAAA-3'取代。

实施例37.经工程化的tracrRNA，基于MF

经工程化的tracrRNA支架，由以下序列示出：

5'-[第一区域]-[第二区域]-[第三区域]-[第四区域]-3'，

其中，所述第一区域具有选自以下的核苷酸序列：

所述第二区域具有选自以下的核苷酸序列：

/>

所述第三区域具有选自以下的核苷酸序列：

/>

所述第四区域具有选自以下的核苷酸序列：

并且

实施例38.经工程化的tracrRNA，包含的相似序列

Cas12a蛋白，该蛋白与实施例34至实施例37中任何一个的tracrRNA序列具有约70％或更多、约71％或更多、约72％或更多、约73％或更多、约74％或更多、约75％或更多、约76％或更多、约77％或更多、约78％或更多、约79％或更多、约80％或更多、约81％或更多、约82％或更多、约83％或更多、约84％或更多、约85％或更多、约86％或更多、约87％或更多、约88％或更多、约89％或更多、约90％或更多、约91％或更多、约92％或更多、约93％或更多、约94％或更多、约95％或更多、约96％或更多、约97％或更多、约98％或更多、或约99％或更多同一、相同、匹配和/或等同的序列，

其中，术语“约”具有与“术语定义”节的“约”小节中定义的相同含义。

实施例39.经工程化的crRNA直接重复序列

经工程化的crRNA直接重复序列，所述直接重复序列由选自以下的核苷酸序列示出：

实施例40.经工程化的crRNA直接重复序列，基于WT

经工程化的crRNA直接重复序列，所述直接重复序列由以下序列示出：

5'-[第六序列]-[第七序列]-3'

其中，所述第六序列具有选自以下的核苷酸序列：

并且

第七序列是5′-AUGCAAC-3′，

其中，每个N独立地为A、C、G或U。

实施例41.经工程化的crRNA直接重复序列，基于MF

5'-[第五区域]-[第六区域]-3'

其中，所述第五区域具有选自以下的核苷酸序列：

第六区域为5′-AUGCAAC-3′，以及

所述序列不同于SEQ ID NO：43至SEQ ID NO：44中任何一个的核苷酸序列。

实施例42.包含的相似序列

Cas12a蛋白，该蛋白与实施例39至实施例41中任何一个的crRNA直接重复序列具有约70％或更多、约71％或更多、约72％或更多、约73％或更多、约74％或更多、约75％或更多、约76％或更多、约77％或更多、约78％或更多、约79％或更多、约80％或更多、约81％或更多、约82％或更多、约83％或更多、约84％或更多、约85％或更多、约86％或更多、约87％或更多、约88％或更多、约89％或更多、约90％或更多、约91％或更多、约92％或更多、约93％或更多、约94％或更多、约95％或更多、约96％或更多、约97％或更多、约98％或更多、或约99％或更多同一、相同、匹配和/或等同的序列，

实施例43.富含U的尾部

富含U的尾部，所述尾部由选自以下的序列示出：

5′-(U_aN)_dU_e-3′；

5′-U_aVU_aVU_e-3′；和

5′-U_aVU_aVU_aVU_e-3′，

其中，N是A、C、G或U，并且每个V独立地是A、C或G，并且

a是0到4之间且含端值的整数，d是0到3之间且含端值的整数，并且e是1到10之间且含端值的整数。

实施例44.示例性富含U的尾部序列

实施例43的富含U的尾部，其中，所述富含U的尾部具有选自以下的核苷酸序列：

实施例45.引导RNA

引导RNA，所述引导RNA包括：

包含经工程化的tracrRNA和经工程化的crRNA直接重复序列的支架；

间隔区(引导结构域)；以及

可选地，富含U的尾部，

其中，所述支架可与实施例中任何一个的死亡Cas12f1蛋白、实施例中任何一个的dCas12f1-碱基编辑融合蛋白和/或实施例中任何一个的dCas12f1表达调控融合蛋白相互作用，从而形成复合物，

所述间隔区被设计为与预定的靶序列互补结合，

所述富含U的尾部是富含尿苷(U)的序列，以及

支架、间隔区和富含U的尾部以5'至3'的方向顺序地彼此连接。

实施例46.支架，两分子核酸

实施例45的引导RNA，

其中，支架的经工程化的tracrRNA和支架的经工程化的crRNA直接重复序列是不同的核酸分子，

经工程化的tracrRNA的部分和经工程化的crRNA直接重复序列彼此形成互补结合，以及

经工程化的crRNA直接重复序列的3'端部分连接到间隔区的3'端部分。

实施例47.支架，一分子核酸

实施例45的引导RNA，

其中，所述支架的经工程化的tracrRNA的3'端和所述支架的经工程化的crRNA直接重复序列的3'端通过连接子连接，以及

实施例48.定义的连接子

实施例47的引导RNA，其中，所述连接子为5′-GAAA-3′。

实施例49.定义的经工程化的tracrRNA

实施例45至实施例48中任何一个的引导RNA，

其中，所述经工程化的tracrRNA是实施例34至实施例38中任何一个的tracrRNA。

实施例50.定义的经工程化的crRNA直接重复序列

实施例45至实施例49中任何一个的引导RNA，

其中，所述经工程化的crRNA直接重复序列是实施例39至实施例42中任何一个的crRNA直接重复序列。

实施例51.定义的富含U的尾部

实施例45至实施例50中任何一个的引导RNA，

其中，所述富含U的尾部是实施例43至实施例44中任何一个的富含U的尾部。

实施例52.包含的相似序列

Cas12a蛋白，该蛋白与实施例45至实施例51中任何一个的引导RNA序列具有约70％或更多、约71％或更多、约72％或更多、约73％或更多、约74％或更多、约75％或更多、约76％或更多、约77％或更多、约78％或更多、约79％或更多、约80％或更多、约81％或更多、约82％或更多、约83％或更多、约84％或更多、约85％或更多、约86％或更多、约87％或更多、约88％或更多、约89％或更多、约90％或更多、约91％或更多、约92％或更多、约93％或更多、约94％或更多、约95％或更多、约96％或更多、约97％或更多、约98％或更多、或约99％或更多同一、相同、匹配和/或等同的序列，

实施例53.DNA编码的引导RNA

一种DNA，所述DNA编码实施例45至实施例52中任何一个的引导RNA。

dCas12f1-碱基编辑融合蛋白

实施例54.dCas12f1-碱基编辑融合蛋白

dCas12f1-碱基编辑融合蛋白，该融合蛋白包括：

实施例1至实施例12中任何一个的死亡Cas12f1蛋白；以及

至少一个碱基编辑结构域，该结构域为实施例13至实施例22中的任何一个。

实施例55.腺嘌呤碱基编辑器(ABE)

实施例的dCas12f1-碱基编辑融合蛋白，其中，所述碱基编辑结构域是实施例14至实施例17中任何一个的腺苷脱氨酶。

实施例56.ABE，定义的结构

实施例55的dCas12f1-碱基编辑融合蛋白，其中，所述dCas12f1-碱基编辑融合蛋白具有选自以下的结构：

NH₂-[dCas12f1]-[Linker]-[BE]-COOH；和

NH₂-[BE]-[Linker]-[dCas12f1]-COOH，

其中，dCas12f1是死亡Cas12f1蛋白，BE是腺苷脱氨酶，并且Linker是连接子或不存在。

实施例57.ABE，定义的序列

实施例56的dCas12f1-碱基编辑融合蛋白，其中，所述dCas12f1-碱基编辑融合蛋白具有选自SEQ ID NO：284至SEQ ID NO：324和SEQ ID NO：418至SEQ ID NO：442的氨基酸序列。

实施例58.胞苷碱基编辑器(CBE)

实施例54的dCas12f1-碱基编辑融合蛋白，其中，所述碱基编辑结构域是实施例18至实施例22中任何一个的胞苷脱氨酶。

实施例59.CBE，定义的结构

实施例58的dCas12f1-碱基编辑融合蛋白，其中，所述dCas12f1-碱基编辑融合蛋白包括实施例32至实施例33中任何一个的尿嘧啶糖基化酶抑制剂，以及

dCas12f1-碱基编辑融合蛋白具有选自以下的结构：

NH₂-[UGI]-[Linker₂]-[dCas12f1]-[Linker₁]-[BE]-COOH；以及

NH₂-[BE]-[Linker₁]-[dCas12f1]-[Linker₂]-[UGI]-COOH，

其中，dCas12f1是死亡Cas12f1蛋白，BE是腺苷脱氨酶，并且Linker₁是第一连接子或不存在，且Linker₂是第二连接子或不存在。

实施例60.CBE，定义的序列

实施例59的dCas12f1-碱基编辑融合蛋白，其中，所述dCas12f1-碱基编辑融合蛋白具有选自SEQ ID NO：325至SEQ ID NO：328的氨基酸序列。

实施例61.额外包括的NLS

实施例54至实施例60中任何一个的dCas12f1-碱基编辑融合蛋白，

其中，dCas12f1-碱基编辑融合蛋白进一步包括实施例29的至少一个NLS，

所述NLS位于dCas12f1-碱基编辑融合蛋白的N末端和/或C末端，以及

所述dCas12f1-碱基编辑融合蛋白和所述NLS通过连接子连接、或彼此直接连接。

dCas12f1-表达调控融合蛋白

实施例62.dCas12f1-表达调控结构域融合蛋白

dCas12f1-表达调控融合蛋白，所述融合蛋白包括：

实施例1至实施例12中任何一个的死亡Cas12f1蛋白；以及

至少一个基因表达调控结构域，该结构域为实施例23至实施例28中的任何一个。

实施例63.N末端模块

实施例62的dCas12f1-表达调控融合蛋白，其中，所述至少一个基因表达调控结构域连接到死亡Cas12f1蛋白的N末端。

实施例64.N末端，额外组分

实施例63的dCas12f1-表达调控融合蛋白，

其中，所述dCas12f1-表达调控融合蛋白包括至少一个额外结构域，

每个额外组分独立地选自连接子、NLS和标签，以及

所述额外组分连接到选自以下的至少一个位置：

dCas12f1-表达调控融合蛋白的N末端；

dCas12f1-表达调控融合蛋白的C末端；

在死亡Cas12f1蛋白和基因表达调控结构域之间；以及

在基因表达调控结构域和另一基因表达调控结构域之间。

实施例65.实验例示出的模块结构

实施例63的dCas12f1-表达调控融合蛋白，其中，所述dCas12f1-表达调控融合蛋白由选自以下的结构示出：

NH₂-[NLS₁]-[Linker1]-[调控子₁]-[Linker₂]-[NLS₂]-[dCas12f1]-[NLS₃]-COOH；

NH₂-[NLS₁]-[Linker₁]-[FLAG]-[Linker₂]-[调控子₁]-[Linker₃]-[NLS₂]-[Linker₄]-[dCas12f1]-[NLS₃]-COOH；以及

NH₂-[NLS₁]-[Linker₁]-[调控子₁]-[Linker₂]-[NLS₂]-[调控子₂]-[NLS₃]-[Linker₃]-[dCas12f1]-[NLS₄]-COOH，

其中，所述Linker₁、Linker₂、Linker₃和Linker₄各自独立地为实施例30至实施例31中任何一个的连接子或不存在，

所述FLAG是DYKDDDDK(SEQ ID NO：510)或不存在，

所述调控子₁和调控子₂各自独立地为实施例23至实施例28中任何一个的基因表达调控结构域，

所述dCas12f1是实施例1至实施例12中任何一个的死亡Cas12f1，以及

所述NLS₁、NLS₂、NLS₃和NLS₄各自独立地为实施例29的NLS或不存在。

实施例66.由实验例定义

实施例65的dCas12f1-表达调控融合蛋白，其中，所述dCas12f1-表达调控融合蛋白选自以下：

由NH₂-[NLS₁]-[Linker₁]-[调控子₁]-[Linker₂]-[NLS₂]-[dCas12f1]-[NLS₃]-COOH示出的结构，

其中，所述调控子₁是KRAB，并且所述dCas12f1由选自SEQ ID NO：17至SEQ ID NO：18的氨基酸序列示出；

由NH₂-[NLS₁]-[Linker₁]-[FLAG]-[Linker₂]-[调控子₁]-[Linker₃]-[NLS₂]-[Linker₄]-[dCas12f1]-[NLS₃]-COOH示出的结构，

其中，所述调控子₁是DNMT3A，并且所述dCas12f1由选自SEQ ID NO：17至SEQ IDNO：18的氨基酸序列示出；以及

由NH₂-[NLS₁]-[Linker₁]-[调控子₁]-[Linker₂]-[NLS₂]-[调控子₂]-[NL₃]-[Linker₃]-[dCas12f1]-[NLS₄]-COOH示出的结构，

其中，所述调控子₁为KRAB，所述调控子₂为MeCP2，并且所述dCas12f1由选自SEQ IDNO：17至SEQ ID NO：18的氨基酸序列示出。

实施例67.C末端模块

实施例62至实施例66中任何一个的dCas12f1-表达调控融合蛋白，其中，所述至少一个基因表达调控结构域连接到死亡Cas12f1蛋白的C末端。

实施例68.C末端，额外组分

实施例67的dCas12f1-表达调控融合蛋白，

每个额外组分独立地选自连接子、NLS和标签，

所述额外组分连接到选自以下的至少一个位置：

dCas12f1-表达调控融合蛋白的N末端；

dCas12f1-表达调控融合蛋白的C末端；

在死亡Cas12f1蛋白和基因表达调控结构域之间；以及

在基因表达调控结构域和另一个基因表达调控结构域之间。

实施例69.实验例示出的模块结构

实施例67的dCas12f1-表达调控融合蛋白，其中，所述dCas12f1-表达调控融合蛋白由选自以下的结构表示：

NH₂-[NLS₁]-[Linker₁]-[dCas12f1]-[NLS₂]-[Linker₂]-[调控子₁]-COOH；

NH₂-[NLS₁]-[Linker₁]-[dCas12f1]-[NLS₂]-[Linker₂]-[调控子₁]-[Linker₃]-[NLS₃]-[调控子₂]-COOH；

NH₂-[NLS₁]-[Linker₁]-[dCas12f1]-[NLS₂]-[Linker₂]-[调控子₁]-[Linker₃]-[调控子₂]-COOH；以及

NH₂-[NLS₁]-[Linker₁]-[dCas12f1]-[NLS₂]-[Linker₂]-[调控子₁]-[Linker₃]-[调控子₂]-[Linker₄]-[NLS₃]-[调控子₃]-COOH，

所述调控子₁、调控子₂和调控子₃各自独立地为实施例23至实施例28中任何一个的基因表达调控结构域，

NLS₁、NLS₂和NLS₃各自独立地为实施例29的NLS或不存在。

实施例70.由实验例定义

实施例69的dCas12f1-表达调控融合蛋白，其中，所述dCas12f1-表达调控融合蛋白选自以下：

由NH₂-[NLS₁]-[Linker₁]-[dCas12f1]-[NLS₂]-[Linker₂]-[调控子₁]-COOH示出的结构，

其中，所述调控子₁是hHDAC3，并且所述dCas12f1由选自SEQ ID NO：17至SEQ IDNO：18的氨基酸序列示出；

由NH₂-[NLS₁]-[Linker₁]-[dCas12f1]-[NLS₂]-[Linker₂]-[调控子₁]-[Linker₃]-[NLS₃]-[调控子₂]-COOH示出的结构，

其中，所述调控子₁为KRAB，所述调控子₂为MeCP2，并且所述dCas12f1由选自SEQ IDNO：17至SEQ ID NO：18的氨基酸序列示出；

由NH₂-[NLS₁]-[Linker₁]-[dCas12f1]-[NLS₂]-[Linker₂]-[调控子₁]-[Linker₃]-[调控子₂]-COOH示出的结构，

其中，所述调控子₁和调控子₂是KRAB，并且所述dCas12f1由选自SEQ ID NO：17至SEQ ID NO：18的氨基酸序列示出；以及

由NH₂-[NLS₁]-[Linker₁]-[dCas12f1]-[NLS₂]-[Linker₂]-[调控子₁]-[Linker₃]-[调控子₂]-[Linker₄]-[NLS₃]-[调控子₃]-COOH示出的结构，

其中，所述调控子₁和调控子₂是KRAB，所述调控子₃是MeCP2，并且所述dCas12f1由选自SEQ ID NO：17至SEQ ID NO：18的氨基酸序列示出。

实施例71.N/C末端模块

实施例62至实施例70中任何一个的dCas12f1-表达调控融合蛋白，

其中，所述dCas12f1-表达调控融合蛋白包括第一基因表达调控结构域和第二基因表达调控结构域，

所述第一基因表达调控结构域连接到死亡Cas12f1蛋白的N末端，以及

所述第二基因表达调控结构域连接到死亡Cas12f1蛋白的C末端。

实施例72.N/C末端，额外组分

实施例71的dCas12f1-表达调控融合蛋白，

每个额外组分独立地选自连接子、NLS和标签，以及

所述额外组分连接到选自以下的至少一个位置：

dCas12f1-表达调控融合蛋白的N末端；

dCas12f1-表达调控融合蛋白的C末端；

死亡Cas12f1蛋白和基因表达调控结构域之间；以及

基因表达调控结构域和另一个基因表达调控结构域之间。

实施例73.实验例示出的模块结构

实施例71的dCas12f1-表达调控融合蛋白，其中，所述dCas12f1-表达调控融合蛋白由选自以下的结构示出：

NH₂-[NLS₁]-[Linker₁]-[FLAG]-[Linker₂]-[调控子₁]-[Linker₃]-[NLS₂]-[Linker₄]-[dCas12f1]-[NLS₃]-[调控子₃]-COOH；

NH₂-[NLS₁]-[Linker₁]-[调控子₁]-[Linker₂]-[NLS₂]-[调控子₂]-[NLS₃]-[Linker₃]-[dCas12f1]-[NLS₄]-[Linker₄]-[调控子₃]-COOH；以及

NH₂-[NLS₁]-[调控子₁]-[NLS₂]-[Linker₁]-[dCas12f1]-[NLS₃]-[Li nker₂]-[调控子₃]-COOH，

所述FLAG为“FLAG”或不存在，

实施例74.由实验例定义

实施例73的dCas12f1-表达调控融合蛋白，其中，所述dCas12f1-表达调控融合蛋白选自以下：

由NH₂-[NLS₁]-[Linker₁]-[FLAG]-[Linker₂]-[调控子₁]-[Linker₃]-[NLS₂]-[Linker₄]-[dCas12f1]-[NLS₃]-[调控子₃]-COOH示出的结构，

由NH₂-[NLS₁]-[Linker₁]-[调控子₁]-[Linker₂]-[NLS₂]-[调控子₂]-[NLS₃]-[Linker₃]-[dCas12f1]-[NLS₄]-[Linker₄]-[调控子₃]-COOH示出的结构，

其中，所述调控子₁和所述调控子₃是KRAB，所述调控子₂是MeCP2，并且所述dCas12f1由选自SEQ ID NO：17至SEQ ID NO：18的氨基酸序列示出；以及

由NH₂-[NLS₁]-[调控子₁]-[NLS₂]-[Linker₁]-[dCas12f1]-[NLS₃]-[Linker₂]-[调控子₃]-COOH示出的结构，

其中，所述调控子₁为MeCP2，所述调控子₂为KRAB，并且所述dCas12f1由选自SEQ IDNO：17至SEQ ID NO：18的氨基酸序列示出。

实施例75.转录促进蛋白

实施例62至实施例74中任何一个的dCas12f1-表达调控融合蛋白，其中，所述表达调控结构域是实施例27的基因表达调控结构域。

实施例76.转录抑制蛋白

实施例62至实施例75中任何一个的dCas12f1-表达调控融合蛋白，其中，所述表达调控结构域是实施例28的基因表达调控结构域。

实施例77.图中示出的结构

具有图39至图49中任何一个所示结构的dCas12f1-表达调控融合蛋白，

其中，图中的dTnpB是实施例1至实施例12中任何一个的死亡Cas12f1。

经工程化的Cas12f1-引导RNA复合物

实施例78.经工程化的Cas12f1-引导RNA复合物

经工程化的Cas12f1-引导RNA复合物，包括：

选自实施例1至实施例12中任何一个的死亡Cas12f1蛋白的经工程化的Cas12f1蛋白、实施例54至实施例61中任何一个的dCas12f1-碱基编辑蛋白、和实施例62至实施例77中任何一个的dCas12f1-表达调控蛋白；以及

实施例45至实施例52中任何一个的引导RNA，

其中，所述引导RNA的支架能够与所述经工程化的Cas12f1蛋白相互作用以形成复合物，以及

引导RNA的间隔区被设计为靶向预定的靶序列。

实施例79.死亡Cas12f1复合物

实施例78的经工程化的Cas12f1-引导RNA复合物，

其中，所述经工程化的Cas12f1蛋白是实施例1至实施例12中任何一个的死亡Cas12f1蛋白。

实施例80.碱基编辑复合物

实施例78的经工程化的Cas12f1-引导RNA复合物，

其中，所述经工程化的Cas12f1蛋白是实施例54至实施例61中任何一个的dCas12f1-碱基编辑蛋白，以及

所述经工程化的Cas12f1蛋白-引导RNA复合物可被称为碱基编辑复合物。

实施例81.表达调控复合物

实施例78的经工程化的Cas12f1-引导RNA复合物，

其中，所述经工程化的Cas12f1蛋白是实施例62至实施例77中任何一个的dCas12f1-表达调控蛋白，以及

所述经工程化的Cas12f1蛋白-引导RNA复合物可被称为表达调控复合物。

编码经工程化的Cas12f1和引导RNA的载体

实施例82.编码经工程化的Cas12f1和引导RNA的载体，一种类型的引导

编码经工程化的Cas12f1和引导RNA的载体，该载体包括：

编码经工程化的Cas12f1蛋白的核酸，所述核酸选自实施例1至实施例12中任何一个的死亡Cas12f1蛋白、实施例54至实施例61中任何一个的dCas12f1-碱基编辑蛋白、和实施例62至实施例77中任何一个的dCas12f1-表达调控蛋白；以及

编码实施例45至实施例52中任何一个的引导RNA的核酸，

引导RNA的间隔区被设计为靶向预定的靶序列。

实施例83.编码经工程化的Cas12f1和引导RNA的载体，两种类型的引导

编码经工程化的Cas12f1和引导RNA的载体，该载体包括：

编码经工程化的Cas12f1蛋白的核酸，该核酸选自实施例1至实施例12中任何一个的死亡Cas12f1蛋白、实施例54至实施例61中任何一个的dCas12f1-碱基编辑蛋白、和实施例62至实施例77中任何一个的dCas12f1-表达调控蛋白；

编码选自实施例45至实施例52中任何一个的第一引导RNA的核酸，以及

编码选自实施例45至实施例52中任何一个的第二引导RNA的核酸，

其中，所述第一引导RNA和所述第二引导RNA中的每一个的支架能够与所述经工程化的Cas12f1蛋白相互作用以形成复合物，以及

第一引导RNA和第二引导RNA中的每一个的间隔区被设计为靶向预定的靶序列。

实施例84.载体数量

实施例82至实施例83中任何一个的载体，其中，编码经工程化的Cas12f1蛋白的核酸和编码引导RNA的核酸都被加载到一个载体(一个单元)上。

实施例85.载体类型

实施例的载体，其中，所述载体是病毒载体或非病毒载体。

实施例86.病毒载体类型

实施例85的载体，其中，所述载体是选自逆转录病毒、慢病毒、腺病毒、腺相关病毒、痘苗病毒、痘病毒和单纯疱疹病毒的病毒载体。

实施例87.非病毒载体类型

实施例85的载体，其中，所述载体是选自质粒、噬菌体、裸DNA、DNA复合物、PCR扩增子和mRNA的非病毒载体，

其中，任选地，所述质粒选自pcDNA系列、pS456、pG1806、pACYC177、ColE1、pKT230、pME290、pBR322、pUC8/9、pUC6、pBD9、pHC79、pIJ61、pLAFR1、pHV14、pGEX系列、pET系列和pUC19，以及

任选地，所述噬菌体选自λgt4λB、λ-Charon、λΔz1和M13。

经工程化的CRISPR/Cas12f1组合物

实施例88.经工程化的CRISPR/Cas12f1组合物

经工程化的CRISPR/Cas12f1组合物，该组合物包括：

经工程化的Cas12f1蛋白，该蛋白选自实施例1至实施例12中任何一个的死亡Cas12f1蛋白、实施例54至实施例61中任何一个的dCas12f1-碱基编辑蛋白、和实施例62至实施例77中任何一个的dCas12f1-表达调控蛋白，或编码经工程化的Cas12f1蛋白的核酸；以及

实施例45至实施例52中任何一个的至少一个(一个单元、一种或一种类型)引导RNA，或编码所述引导RNA的核酸，

其中，每个引导RNA的支架能够与经工程化的Cas12f1蛋白相互作用以形成复合物，以及

每个引导RNA的间隔区被设计为靶向预定的靶序列。

实施例89.包含的核糖核蛋白

实施例88的经工程化的CRISPR/Cas12f1组合物，

其中，所述经工程化的CRISPR/Cas12f1组合物包括处于核糖核蛋白(RNP)形式的一种引导RNA和经工程化的Cas12f1蛋白。

实施例90.包含的编码核酸

实施例88的经工程化的CRISPR/Cas12f1组合物，

其中，经工程化的CRISPR/Cas12f1组合物包括编码经工程化的Cas12f1蛋白的核酸和编码至少一个引导RNA的核酸。

实施例91.包含的载体

实施例90的经工程化的CRISPR/Cas12f1组合物，其中，所述经工程化的CRISPR/Cas12f1组合物包括编码经工程化的Cas12f1蛋白的核酸和编码实施例82至实施例87中任何一个的载体形式的至少一个引导RNA的核酸。

实施例92.碱基编辑组合物

实施例88至实施例91中任何一个的经工程化的CRISPR/Cas12f1组合物，

其中，所述经工程化的Cas12f1蛋白是实施例54至实施例61中任何一个的dCas12f1-碱基编辑融合蛋白，以及

所述经工程化的CRISPR/Cas12f1组合物可被称为碱基编辑组合物。

实施例93.ABE组合物

实施例92的经工程化的CRISPR/Cas12f1组合物，

其中，所述经工程化的Cas12f1蛋白是实施例55至实施例57中任何一个的腺苷脱氨酶，以及

所述经工程化的CRISPR/Cas12f1组合物可被称为腺嘌呤碱基编辑器(ABE)组合物。

实施例94.CBE组合物

实施例92的经工程化的CRISPR/Cas12f1组合物，

其中，所述经工程化的Cas12f1蛋白是实施例58至实施例61中任何一个的胞嘧啶脱氨酶，以及

所述经工程化的CRISPR/Cas12f1组合物可被称为胞嘧啶碱基编辑器(CBE)组合物。

实施例95.表达调控组合物

实施例88至实施例94中任何一个的经工程化的CRISPR/Cas12f1组合物，

其中，所述经工程化的Cas12f1蛋白是实施例62至实施例77中任何一个的dCas12f1-表达调控融合蛋白，以及

所述经工程化的CRISPR/Cas12f1组合物可被称为表达调控组合物。

包含经工程化的CRISPR/Cas12f1系统的药物组合物

实施例96.药物组合物，概述

用于治疗癌症、遗传性疾病或感染性疾病的药物组合物，该组合物包括：

实施例88至实施例95中任何一个的CRISPR/Cas12f1组合物；以及

药学上可接受的载体。

实施例97.定义的载体

实施例96的药物组合物，其中，所述药学上可接受的载体是选自以下的至少一个：

粘合剂，例如，乳糖、蔗糖、山梨醇、甘露醇、淀粉、支链淀粉、纤维素或明胶；赋形剂，例如，磷酸二钙；崩解剂，例如，玉米淀粉或红薯淀粉；润滑剂，例如，硬脂酸镁、硬脂酸钙、硬脂富马酸钠或聚乙二醇蜡；甜味剂；芳香剂；糖浆；液体载体，例如，脂肪油；无菌水性溶液；丙二醇；聚乙二醇；可注射的酯，例如，油酸乙酯；悬浮液；乳液；冻干制剂；局部制剂；稳定剂；缓冲剂；动物油；植物油；蜡；石蜡；淀粉；西黄蓍胶；纤维素衍生物；聚乙二醇；硅；膨润土；二氧化硅；滑石；氧化锌。

靶基因的碱基编辑方法

实施例98.碱基编辑方法1

用于编辑、校正或取代细胞的靶基因中包含的碱基的方法，所述方法包括：

将实施例92至实施例94中任何一个的碱基编辑组合物递送、注射或给予至细胞，

其中，所述碱基编辑组合物中的引导RNA的间隔区能够靶向、识别所述细胞的靶基因中包含的靶序列、或与其杂交。

实施例99.碱基编辑方法2

用于对细胞的靶基因中包含的碱基进行编辑的方法，所述方法包括：

诱导实施例80的碱基编辑复合物和靶基因在细胞中彼此接触，

实施例100.特定的机制

实施例98至实施例99中任何一个的方法，其中，所述细胞的靶基因是双链DNA并包括靶链和非靶链，

靶链具有靶序列，

非靶链具有原间隔临近基序(PAM)和原间隔，

原间隔具有与靶序列互补的序列，

引导RNA的间隔区能够靶向、识别所述细胞的靶基因中包含的靶序列、或与其杂交，以及

所述方法使得原间隔中包含或邻近原间隔的至少一个腺嘌呤被编辑为鸟嘌呤、校正为鸟嘌呤或用鸟嘌呤取代，和/或原间隔中包含或邻近原间隔的至少一个胞嘧啶被编辑为胸腺嘧啶、校正为胸腺嘧啶或用胸腺嘧啶取代。

实施例101.ABE方法

实施例98至实施例100中任何一个的方法，其中，所述碱基编辑组合物是实施例93的ABE组合物，以及

所述方法使得包含在原间隔中的至少一个腺嘌呤被编辑为鸟嘌呤、校正为鸟嘌呤或用鸟嘌呤取代。

实施例102.ABE方法，定义的碱基编辑窗口

实施例101的方法，

其中，靶基因的原间隔在从5'端起的第1位、第2位、第3位、第4位、第5位、第6位、第7位、第8位、第9位、第10位、第11位、第12位、第13位、第14位、第15位、第16位、第17位、第18位、第19位、第20位、第21位、第22位、第23位、第24位、第25位、第26位、第27位、第28位、第29位或第30位处包含至少一个腺苷，以及

所述方法使得原间隔中包含的至少一个腺嘌呤被编辑为鸟嘌呤、校正为鸟嘌呤或用鸟嘌呤取代。

实施例103.CBE方法

实施例98至实施例100中任何一个的方法，其中，所述碱基编辑组合物是实施例94的CBE组合物，以及

所述方法使得原间隔中包含的至少一个胞嘧啶被编辑为胸腺嘧啶、校正为胸腺嘧啶或用胸腺嘧啶取代。

实施例104.CBE方法，定义的碱基编辑窗口

实施例101的方法，

其中，靶基因的原间隔在从5'端起的第1位、第2位、第3位、第4位、第5位、第6位、第7位、第8位、第9位、第10位、第11位、第12位、第13位、第14位、第15位、第16位、第17位、第18位、第19位、第20位、第21位、第22位、第23位、第24位、第25位、第26位、第27位、第28位、第29位或第30位处包含至少一个胞嘧啶，以及

调控靶基因表达的方法

实施例105.表达调控方法

调控细胞中的靶基因表达的方法，所述方法包括：

将实施例的任何一个的表达调控组合物递送、注射或给予至细胞，

其中，所述表达调控组合物中的引导RNA的间隔区能够靶向、识别所述细胞的靶基因中包含的靶序列、或与其杂交。

实施例106.通过执行方法获得的结果

实施例105的方法，其中，引入所述表达调控组合物使得在细胞中形成CRISPR表达调控复合物，以及

CRISPR表达调控复合物调控靶基因的表达。

实施例107.促进基因表达的方法

实施例106的方法，

其中，所述表达调控组合物包含实施例75的dCas12f1-表达调控融合蛋白，

所述CRISPR表达调控复合物是CRISPR激活复合物，以及

所述CRISPR激活复合物促进靶基因的表达。

实施例108.抑制基因表达的方法

实施例106的方法，

其中，所述表达调控组合物包含实施例76的dCas12f1-表达调控融合蛋白，

所述CRISPR表达调控复合物是CRISPR干扰复合物，以及

所述CRISPR干扰复合物抑制靶基因的表达。

经工程化的Cas12f1蛋白的使用

实施例109.经工程化的Cas12f1蛋白的用途

经工程化的Cas12f1蛋白用于调控基因表达的方法中的用途，所述蛋白选自实施例1至实施例12的任何一个的死亡Cas12f1蛋白、实施例54至实施例61的任何一个的dCas12f1-碱基编辑蛋白、和实施例62至实施例77的任何一个dCas12f1-表达调控蛋白。

实施例110.定义的碱基编辑用途

实施例109的用途，其中，所述经工程化的Cas12f1蛋白选自实施例54至实施例61的任何一个的dCas12f1-碱基编辑蛋白，以及

调控基因表达的方法是实施例98至实施例104的任何一个的靶基因的碱基编辑方法。

实施例111.定义的表达调控用途

实施例109的用途，其中，所述经工程化的Cas12f1蛋白选自实施例62至实施例77的任何一个的dCas12f1表达调控蛋白，以及

调控基因表达的方法是实施例105至实施例108的任何一个的调控靶基因表达的方法。

实施发明的方式

在下文中，将通过实验例和实施例的方式更详细地描述本公开。这些实施例仅用于说明本申请文件所公开的实施方式，并且对本领域技术人员将显而易见的是，本申请文件所公开的实施方式的范围不应被解释为受这些实施例的限制。

实验例1.实验方法和材料

实验例1.1.Cas12f1蛋白的制备

为了在人类细胞中表达，对Cas12f1基因进行密码子优化(SEQ ID NO：460)，并合成经优化的序列以用于载体构建。最后，向编码Cas12f1蛋白的序列加入鸡β-肌动蛋白启动子、5'-末端核定位信号序列和3'-末端核定位信号序列、以及编码通过自切割T2A肽连接的eGFP的序列。

合成编码(经工程化的)Cas12f1引导RNA的模板DNA，并将其克隆到pTwist Amp质粒载体(Twist Bioscience)中。如有必要，使用U6-互补正向引物和原间隔-互补反向引物将载体用作扩增引导RNA编码序列的模板。使用Gibson组装，将编码经工程化的Cas12f1引导RNA的寡核苷酸克隆到包含经密码子优化的Cas12f1基因的载体中，使得构建用于经工程化的CRISPR/Cas12f1系统的载体。

实验例1.2.死亡Cas12f1变体蛋白的制备

使实验例1.1中构建的表达Cas12f1的载体经受诱变，从而将Cas12f1修饰成其死亡形式，并制备可用于各实验的各种死亡Cas12f1蛋白。根据每种死亡形式使用合适的引物(参见每个实验例)。

实验例1.3.碱基编辑结构域融合蛋白的制备

指明编码待在每个实验中使用的碱基编辑结构域融合蛋白的核苷酸序列，然后按以下方式制备碱基编辑结构域融合蛋白：

将编码核苷酸序列克隆到pMAL-c2质粒载体中以用于复制。将质粒载体用于转化大肠杆菌BL21(DE3)。使经转化的大肠杆菌的菌落在37℃下于LB肉汤中生长，直到其光密度达到0.7。将经转化的大肠杆菌在0.1mM异丙基硫代-β-D-半乳糖苷的存在下于18℃孵育过夜。

然后，将经转化的大肠杆菌以3500g离心30分钟并收集。将所收集的经转化的大肠杆菌重悬于20mM Tris-HCl(pH 7.6)、500mM NaCl、5mMβ-巯基乙醇和5％甘油中。将重悬的大肠杆菌裂解并通过超声处理进行破坏。将含有经破坏的大肠杆菌的各样品以15,000g离心30分钟，然后通过0.45μm注射器过滤器(Millipore)过滤上清液。使用FPLC纯化系统(KTAPurifier，GE Healthcare)将存在于经过滤的上清液中的与腺苷脱氨酶或胞苷脱氨酶结合的dCas12f1蛋白加载到Ni²⁺亲和柱上。以80mM至400mM咪唑、20mM Tris-HCl(pH 7.5)的梯度洗脱所加载的dCas12f1蛋白。

用TEV蛋白酶处理经洗脱的蛋白质16小时。在肝素柱上以0.15M-1.6M NaCl的线性浓度梯度纯化所分离的蛋白质。用20mM Tris pH7.6、150mM NaCl、5mMβ-巯基乙醇、5％甘油对通过肝素柱纯化的重组Cas12f1蛋白进行透析。使透析后的蛋白质通过MBP柱进行纯化，然后在monoS柱(GE Healthcare)或EnrichS上以0.5M至1.2M NaCl的线性梯度再纯化。将再纯化的蛋白质进行收集，并用20mM Tris pH 7.6、150mM NaCl、5mMβ-巯基乙醇、5％甘油进行透析，从而将超紧凑碱基编辑构建体进行纯化。使用牛血清白蛋白(BSA)作为标准品，通过Bradford定量法对所产生的蛋白质的浓度进行定量，并在考马斯蓝染色的SDS-PAGE凝胶上进行电泳测量。

实验例1.4.基因表达调控结构域融合蛋白的制备

将KRAB、MeCP2和DNMT3A或其组合各自克隆到实验例1.2中制备的死亡Cas12f1的N末端和/或C末端中(图39至图49)。使用模板以KOD-one(TOYOBO)扩增载体和插入片段，然后使用GibsonMaster Mix(NEB)根据实验方案进行连接。将用于产生载体和插入片段中的每一个的模板DNA和引物在表1和表2中示出。

[表1]

[表2]

实验例1.4.引导RNA的制备

指明待在每个实验中使用的引导RNA的核苷酸序列，然后以如下的方式制备引导RNA：

为了制备所设计的Cas12f1 sgRNA，通过化学合成预先设计的引导RNA来制备引导RNA，然后制备包含预先设计的引导RNA序列和T7启动子序列的PCR扩增子。

在经序列修饰的引物和用于Cas12f1引导RNA的质粒载体的存在下，使用Pfu PCRMaster Mix5(Biofact)将富含U的尾部连接到经工程化的Cas12f1单引导RNA的3'端。使用HiGene^TM GEL&PCR纯化系统(Biofact)对PCR扩增子进行纯化。

此外，通过将含有修饰序列的合成寡核苷酸克隆到已使用ApoI和BamHI限制性内切酶线性化的引导RNA编码载体中，对经工程化的Cas12f1单引导RNA的经工程化的支架区域中的第二、第四和第五区域进行修饰。

通过使用靶向tracrRNA的5'-端部分的正向引物和靶向U6启动子区域的反向引物对经典的或经工程化的模板质粒载体进行PCR扩增，对经工程化的Cas12f1单一引导RNA的经工程化的支架区域中的第一区域进行修饰。

通过Q5热启动高保真DNA聚合酶(NEB)进行PCR扩增，并使用KLD酶混合物(NEX)连接PCR产物。将所连接的PCR产物转化到大肠杆菌DH5α细胞中。通过Sanger测序鉴定诱变。

使用Xtra Midi EF试剂盒(MN)对经修饰的质粒载体进行纯化。使用T7 RNA聚合酶(NEB)和NTPs(Jena Bioscience)将1微克经纯化的质粒用作合成mRNA的模板。使用/>RNA cleanup kit(NEB)对由此制备的经工程化的Cas12f1引导RNA进行纯化，等分入低温小瓶中，并储存在液氮中。

为了制备经工程化的引导RNA和引导RNA的扩增子，使用U6互补正向引物和原间隔序列互补反向引物，用KAPA HiFi HotStart DNA聚合酶(Roche)或Pfu DNA聚合酶(Biofact)对经典的引导RNA的模板DNA质粒和经工程化的引导RNA的模板DNA质粒进行PCR扩增。使用Higene^TM Gel和PCR纯化系统(Biofact)对PCR扩增的所得产物进行纯化，以获得经工程化的引导RNA和引导RNA的扩增子。

使用PCR扩增子作为模板，用NEB T7聚合酶进行体外转录。用NEB DNase I处理所得的体外转录的产物，并使用Monarch RNA Cleanup Kit(NEB)进行纯化以获得引导RNA。然后，根据Tblunt质粒克隆方法制备包含预先设计的引导RNA序列和T7启动子序列的质粒载体。

通过将包含T7启动子序列的引导RNA序列的两端进行双切割来纯化载体，然后使用NEB T7聚合酶对所得产物进行体外转录。用NEB DNase I处理所得的体外转录的产物，然后使用Monarch RNA Cleanup Kit(NEB)进行纯化以获得引导RNA。

在以下实验例中使用的引导RNA的序列如表3所示。

[表3]

本文中，每个引导RNA具有5'-支架-间隔区-富含U的尾部-3'的结构，并且所述间隔区被设计为等同于每个实验例中的原间隔的RNA序列(DNA序列中的T被U取代)。

实验例1.5.核糖核蛋白(RNP)颗粒的制备

指明待在每个实验中使用的经工程化的Cas12f1蛋白(死亡Cas12f1蛋白、dCas12f1-碱基编辑融合蛋白和/或dCas12f1-表达调控融合蛋白)和引导RNA的组合，然后以如下方式制备RNP颗粒：

将在实验例1.1至实施例1.3中制备的300nM经工程化的Cas12f1蛋白和在实验例1.4中制备的900nM引导RNA在室温下孵育10分钟以制备核糖核蛋白颗粒(RNP)。

实验例1.6.质粒、rAAV载体(AAV反向末端重复序列载体)的设计与构建

指明待在每个实验中使用的经工程化的Cas12f1蛋白(死亡Cas12f1蛋白、dCas12f1-碱基编辑融合蛋白和/或dCas12f1-表达调控组合物)、引导RNA和其它载体组分，然后以如下方式设计和构建质粒载体。

将经工程化的Cas12f1蛋白进行人密码子优化，以用于人细胞中的表达，并合成包含经密码子优化的核苷酸序列的多核苷酸。

通过可操作地连接至质粒，对编码经工程化的Cas12f1蛋白的经密码子优化的多核苷酸进行克隆，所述质粒包含鸡β-肌动蛋白(CBA)启动子、5'-末端核定位信号和3'-末端核定位信号(NLS)序列，和编码由自切割T2A肽连接的eGFP的序列，或所述质粒包含CMV增强子、CMV启动子、5'-末端核定位信号和3'-末端核定位信号(NLS)序列。

此外，合成所指明的引导RNA的模板DNA(Twist Bioscience)，并将其克隆到pTwist Amp质粒载体中以用于复制。使用酶克隆技术制备经工程化的引导RNA的模板DNA，并将其克隆到pTwist Amp质粒以用于复制。此外，使用U6互补正向引物和原间隔序列互补反向引物，以质粒作为模板制备经工程化的引导RNA和引导RNA的扩增子。如有必要，将所制备的扩增子克隆到T-blunt质粒(Biofact)中进行复制。

此外，为了制备经工程化的双引导RNA，用限制性内切酶BamHI和HindIII(NewEngland Biolabs)对编码经工程化的tracrRNA和经工程化的crRNA的寡核苷酸进行切割，并将其克隆到pSilencer 2.0(ThermoFisher Scientific)以用于复制。

合成编码所指明的引导RNA的模板DNA，并将其克隆到pTwist Amp质粒载体(TwistBioscience)中。如有必要，使用载体作为模板，该模板用于以U6互补正向引物和原间隔互补反向引物扩增引导RNA编码序列。

使用Gibson组装，将编码引导RNA的多核苷酸克隆到包含编码经工程化的Cas12f1蛋白的经密码子优化的多核苷酸的载体中，从而构建表达经工程化的Cas12f1系统的各个组分的载体。

具体地，构建了腺相关病毒反向末端重复序列质粒载体(AAV反向末端重复序列载体)和载体，其中，1)鸡β-肌动蛋白(CBA)启动子、5'-末端核定位信号(NLS)序列和3'-末端核定位信号序列、以及编码通过自切割T2A肽连接的eGFP的序列，或1)-1CMV增强子、CMV启动子、和5'-末端核定位信号(NLS)或3'-末端核定位信号序列，2)编码经工程化的Cas12f1蛋白的经密码子优化的多核苷酸，以及3)引导RNA被可操作地连接。

本文中，经工程化的Cas12f1蛋白和引导RNA的转录分别由鸡β-肌动蛋白(CBA)启动子和U6启动子、或CMV启动子和U6启动子驱动。此外，载体和AAV载体可以根据基因编辑的目的而适当改变，例如，eGFP、引导RNA的数量和/或效应蛋白的添加。

为了大规模生产AAV，将AAV载体、辅助质粒和RC质粒转化到HEK 293T细胞中，并将经转化的HEK 293T细胞在包含2％ FBS的DMEM培养基中培养。用PEIpro(Polyplus转染)和PEI共沉淀产生重组假型AAV载体库，使用以等摩尔比的质粒进行的三重转染来进行所述共沉淀。孵育72小时后，裂解细胞并使裂解物经受碘克沙醇(Sigma-Aldrich)分步梯度超速离心，从而纯化AAV。

实验例1.7.细胞培养和转染

在37℃和5％ CO₂下，在补充有10％热灭活FBS、1％青霉素/链霉素和0.1mM非必需氨基酸的DMEM培养基中培养HEK 293T(ATCC CRL-11268)、HeLa(ATCC CLL-2)、U-2OS(ATCCHTB-96)和K-562(ATCC CCL-243)细胞。

对于用实验例1.6中构建的载体进行的细胞转染，在转染前1天接种1.0×10⁵个HEK 293T细胞。通过电穿孔或脂质转染进行细胞转染。

对于电穿孔，使用Neon转染系统(Invitrogen)将编码经工程化的Cas12f1蛋白的质粒载体和编码引导RNA的DNA各2μg-5μg转染到4×10⁵个HEK 293T细胞中。在1300V、10mA和3次脉冲的条件下进行电穿孔。

对于脂质转染，将6μL-15μL FuGene试剂(Promega)与2μg-5μg编码经工程化的Cas12f1蛋白的质粒载体和1.5μg-5μg PCR扩增子混合15分钟。在转染前1天，将混合物(300μL)加入1.5mL的DMEM培养基中，所述培养基接种有1×10⁶个细胞。在混合物的存在下将细胞培养1天-10天。培养后，收集细胞，并使用PureHelixTM基因组DNA制备试剂盒(NanoHelix)或Maxwell RSC培养的细胞DNA试剂盒(Promega)手动分离其基因组DNA。

对于用实验例1.6中构建的AAV载体转染的细胞，以如通过定量PCR确定的1、5、10、50、100、100、1000、10000、50000和100000的不同的感染复数(MOI)用AAV载体转染人HEK293T细胞。将经转染的HEK 293T细胞在包含2％ FBS的DMEM培养基中培养。在不同的时间点(例如，第1、3、5、7和9天)收集细胞以分离基因组DNA。

此外，使用电穿孔或脂质转染进行实验例1.5中制备的核糖核蛋白颗粒(RNP)的转染，并且1天后使用电穿孔进行实验例1.4中制备的引导RNA的转染。

实验例1.8.基因编辑效率分析

在从HEK 293T细胞分离的基因组DNA中，在KAPA HiFi HotStart DNA聚合酶(Roche)存在下，使用靶特异性引物对包含原间隔的区域进行PCR。扩增方法按照制造商的说明书进行。

使用Illumina iSeq 100对扩增产生的包含Illumina TruSeq HT双索引的PCR扩增子进行150bp双端测序。使用MAUND计算插入缺失频率。MAUND可在https://github.com/ibscge/maund获取。

使用BioFACT^TM Lamp Pfu DNA聚合酶获得PCR产物。使PCR产物(100μg-300μg)与25μg反应混合物中的10单位的T7E1酶(NewEngland Biolabs)在37℃下反应30分钟。将20μL反应混合物直接加载到10％丙烯酰胺凝胶上，并以TBE缓冲体系运行经裂解的PCR产物。用溴化乙锭溶液对凝胶图像进行染色，然后使用Printgraph 2M凝胶成像系统(Atto)进行数字化。对数字化结果进行分析以评估基因编辑效率。此外，为了鉴别不想要的插入缺失，通过NGS进行分析。

实验例1.9.细胞中碱基编辑活性的分析

按照如下对位于细胞中靶核酸或靶基因的靶位点处的腺嘌呤(A)碱基或胞嘧啶(C)碱基的进行脱氨分析。

根据实验例1.7，将能够表达经工程化的Cas12f1系统的载体转染到细胞中。在3、5和7天后，从经转染的HEK 293T细胞中获得基因组DNA，并使用基因组DNA制备试剂盒(QIAGEN，目录号：69504)进行纯化。在纯化的产物中，通过PCR扩增靶核酸或靶基因的靶位点，然后使用靶向深度测序来分析最终的PCR产物。

使用KAPA HiFi HotStart PCR试剂盒(KAPA Biosystems#：KK2501)扩增靶位点以产生文库。使用MiniSeq和TruSeq HT双索引系统(Illumina)对该文库进行测序。

实验例1.10.细胞中基因表达阻抑作用的分析

为了阻抑细胞中的基因表达，指明了dCas12f1基因表达抑制融合蛋白和与其一起使用的引导RNA，然后使用以下方法分析其在细胞中的表达阻抑效果：

根据实验例1.7，将实验例1.6中构建的1.5μg经工程化的Cas12f1表达载体和0.5μg引导RNA盒各自转染到HEK293T-lentiX细胞中。转染后96小时收获细胞。使用RSC miRNA Tissue Kit(Promega)从中提取RNA。根据实验方案，使用SuperScript IVReverse Transcriptase(Invitrogen)从1μg RNA合成cDNA。

实验例1.11.细胞中基因表达促进作用的分析

为了促进细胞中的基因表达，指明了dCas12f1基因表达促进蛋白和与其一起使用的引导RNA，然后使用以下方法分析其在细胞中的基因表达促进作用：

使用FugeneHD(Promega)试剂将实验例1.6中构建的dCas12f1基因表达促进融合蛋白表达载体和引导RNA表达载体转染到HEK 293T细胞中。转染方法根据试剂的实验方案进行。

转染后72小时，收获细胞并从中提取RNA。使用SuperScript iV(Invitrogen)试剂盒从所提取的RNA合成cDNA。使用cDNA作为模板，通过qPCR分析表达的变化。

实验例1.12.统计分析

通过Sigma Plot软件(版本14.0)进行双尾学生t检验的统计学显著性验证。将小于0.05的p值视为统计学上显著的，并且将p值在每幅图中示出。使用Sigma plot绘制所有数据的误差棒，并意味着每个数据的标准差的值。样本量并不是根据统计方法预先确定的。对每个实验例进行三次实验，并使用各值的平均值进行分析。

对于实验例1.2中制备的死亡Cas12f1变体，通过实验例1.7和实验例1.9鉴定它们在细胞中的基因切割活性。实验中使用的实例如下表所示，并将靶-3用作靶原间隔序列。

[表4]死亡Cas12f1变体

No	标记	dCas12f1	引导RNA
				1	TnpB(D354A)	SEQ ID NO：15	v4.1
2	TnpB(E450A)	SEQ ID NO：16	v4.1
				3	TnpB(R518A)	SEQ ID NO：17	v4.1
4	TnpB(D538A)	SEQ ID NO：18	v4.1
				5	wt TnpB	SEQ ID NO：14	v4.1
6	TnpB(D354A，D538A)	SEQ ID NO：22	v4.1
				7	TnpB(D354A，E450A，R518A)	SEQ ID NO：23	v4.1
8	TnpB(D354A，E450A，R518A，D538A)	SEQ ID NO：24	v4.1

经鉴定，所制备的变体是不产生插入缺失的死亡形式(图5)。

实验例3.碱基编辑结构域融合蛋白的碱基编辑效果

实验例3.1.靶序列的选择

为了研究本文公开的dCas12f1-碱基编辑融合蛋白是否对细胞中的靶核酸或基因具有碱基编辑活性，鉴定了人内源性DNA靶位点，该位点包含Cas12f1的PAM序列并且其中在编辑窗口范围内包含多种腺嘌呤(A)。

实验中使用的原间隔序列如下表所示。

[表5]碱基编辑靶序列1

标记	PAM(5′至3′)	原间隔(5′至3′)	SEQ ID NO
				靶-1	TTTG	CACACACACAGTGGGCTACC	334
靶-2	TTTG	CATCCCCAGGACACACACAC	335
				靶-3	TTTA	CAAAGACACTCACCCTGTTG	336
靶-4	TTTA	AAGAAAGCTACAGGAAAGCA	337
				靶-5	TTTA	CAAAACCCAACTGATTCACC	338
靶-6	TTTA	CAAAAGCTACCACACATAGC	339
				靶-7	TTTA	CAAAACTGTGGCCAATACAG	340
靶-8	TTTG	GAAAACTGCAGGCAAGATTC	341
				靶-9	TTTG	CAAAACTGTACACGTGGGCC	342
靶-10	TTTG	CAAAACGTGCACAATGTGCA	343

[表6]碱基编辑靶序列2

标记	PAM(5′至3′)	原间隔(5′至3′)	SEQ ID NO
				靶-11	TTTA	CCCCCACAGGATTGTAATAA	344
靶-12	TTTA	GGCCAAGTGCGAAGTCAGAG	345
				靶-13	TTTA	CTAGGACACTCACCCTGTTG	346
靶-14	TTTG	CTAGCACACAGTGGGCAGAG	347
				靶-15	TTTA	CTAGGACACTCACCCTGGAG	348
靶-16	TTTA	CTAGTCGGCCATTCAGAGAG	349
				靶-17	TTTA	GCAGTCGGAATGGCGGATGG	350
靶-18	TTTA	AGAACACATACCCCTGGGCC	351
				靶-19	TTTG	CAGTGTGTGCAGGAACGGAG	352
靶-20	TTTA	ATACAGAAATCCTAAATGGT	353

[表7]碱基编辑靶序列3

[表8]碱基编辑靶序列4

实验例3.2.腺苷脱氨酶融合蛋白的碱基编辑效果1

根据表9，用以下方式鉴定包含腺苷脱氨酶的dCas12f1-碱基编辑融合蛋白的作用：

[表9]包含腺苷脱氨酶的dCas12f1-碱基编辑融合蛋白

本文中，用于设计引导RNA的间隔区的原间隔序列是靶-1、靶-2和靶-5至靶-10。

根据上表，根据实验例1.6构建能够表达经工程化的Cas12f1蛋白的载体和能够表达引导RNA的载体。根据实验例1.7将构建的载体转染到HEK 293T细胞中，并在3天后从中分离基因组DNA。

然后，根据表9，根据实验例1.9分析基因组DNA中靶序列位点的碱基编辑效率。具体地，对于表te3-01中所示的10个靶位点，分析了在5'-端靶位点的引导RNA结合区域内(其为预期的编辑窗口范围)，范围为N1至N20(PAM序列之后的第1个核苷酸至第20个核苷酸)的相应核苷酸处是否发生了用另一碱基对任何碱基进行的取代。

结果如图51-图57所示，鉴定了包含dCas12f1-碱基编辑融合蛋白的经工程化的Cas12f1系统在编辑窗口范围内有效地将腺嘌呤(A)编辑为鸟嘌呤(G)，所述融合蛋白包括腺苷脱氨酶。特别地，观察到用鸟嘌呤碱基取代位置A3和A4处的腺嘌呤碱基的最佳效率。

对于包含dCas12f1(D326A)的dCas12f1-ABE-N1，鉴定了将靶-1的A2碱基编辑为鸟嘌呤的频率为约15％(图53)，并且将靶-3的A3和A4碱基编辑为鸟嘌呤的频率分别为约41％和约35％(图53)。此外，鉴定了将靶-5、靶-7和靶-8的A3和A4碱基同时编辑为鸟嘌呤的频率为30％至40％(图54)。

对于包含dCas12f1变体1型(D354A)的dCas12f1.v1-ABE-C2，将靶-1的A4碱基编辑为鸟嘌呤的频率约为14％(图55和图56)。此外，鉴定了将靶-3的A3和A4碱基编辑为鸟嘌呤的频率分别为约47％和约40％，并且将靶-4的A4碱基编辑为鸟嘌呤的频率约为37％，这是非常高的(图57)。

实验例3.3.腺苷脱氨酶融合蛋白的碱基编辑效果2

使用实验例3.2中公开的方法，鉴定了根据表10的每个dCas12f1-碱基编辑融合蛋白的效果：

[表10]包含腺苷脱氨酶的dCas12f1-碱基编辑融合蛋白

本文中，用于设计引导RNA的间隔区的原间隔序列是靶-3。

根据实验结果，如图6和图7所示，对于靶-3的3A，dCas12f1(D326A)、dCas12f1(E422A)、dCas12f1(R490A)和dCas12f1(D510A)分别表现出约9％、约13％、约3％和约5％的碱基编辑率，并且对于靶-3的4A，dCas12f1(D326A)、dCas12f1(E422A)、dCas12f1(R490A)和dCas12f1(D510A)分别表现出约4％、约5％、约2％和约7％的碱基编辑率。

对于靶-3的2A，dTnpB(D354A)、dTnpB(E450A)、dTnpB(R518A)和dTnpB(D538A)分别表现出约10％、约14％、约11％和约17％的碱基编辑率，对于靶-3的3A，dTnpB(D354A)、dTnpB(E450A)、dTnpB(R518A)和dTnpB(D538A)分别表现出约22％、约25％、约17％和约33％的碱基编辑率，并且对于靶-3的4A，dTnpB(D354A)、dTnpB(E450A)、dTnpB(R518A)和dTnpB(D538A)分别表现出约20％、约22％、约15％和约26％的碱基编辑率。

作为结果，鉴定了dTnpB具有比dCas12f1更好的碱基编辑效率。

实验例3.4.腺苷脱氨酶融合蛋白的碱基编辑效果3

为了鉴定dCas12f1碱基编辑系统的碱基编辑效率是否与表达载体中包含的启动子的类型相关，参照实验例3.2检查了根据表11的每个碱基编辑系统的碱基编辑效率。

[表11]包含腺苷脱氨酶的dCas12f1-碱基编辑融合蛋白

本文中，用于设计引导RNA的间隔区的原间隔序列是靶-1和靶-3。

本文中，对于相同的dCas12f1-碱基编辑蛋白，使用用于表达载体的不同启动子进行实验。

结果，所使用的CBA启动子和CMV启动子都表现出优异的碱基编辑效率，并且特别是CBV启动子在与gRNA Ver4.1结合的情况下表现出最佳活性(图8)。

实验例3.5.腺苷脱氨酶融合蛋白的碱基编辑效果4

为了鉴定dCas12f1碱基编辑系统的碱基编辑效率是否与将碱基编辑结构域连接到死亡Cas12f1蛋白的连接子的长度有关，参照实验例3.2，根据表12至表14检查每个碱基编辑系统的碱基编辑效率。

[表12]包含腺苷脱氨酶的dCas12f1-碱基编辑融合蛋白

[表13]包含腺苷脱氨酶的dCas12f1-碱基编辑融合蛋白

[表14]包含腺苷脱氨酶的dCas12f1-碱基编辑融合蛋白

本文中，用于设计引导RNA的间隔区的原间隔序列是靶-3。

参考实验结果，即使在它们的长度从10个到40个氨基酸变化的情况下，所有连接子也都表现出相似的活性(图9至图11)。因此，发现将死亡Cas12f1蛋白连接到碱基编辑结构域的连接子的长度对碱基编辑效率没有显著影响。

实验例3.6.腺苷脱氨酶融合蛋白的碱基编辑效果5

为了研究各种基于死亡Cas12f1变体的dCas12f1-碱基编辑蛋白的碱基编辑效率，参照实验例3.2，根据表15检查每个碱基编辑系统的碱基编辑效率。

本文中，用于设计引导RNA的间隔区的原间隔序列是靶-3。

[表15]包含腺苷脱氨酶的dCas12f1-碱基编辑融合蛋白

参考实验结果，所测试的变体对靶-3的3A和4A表现出相似的碱基编辑率。与野生型相比，预期影响碱基编辑窗口的I159W和/或S164Y变体对靶-3的6A表现出显著增加的碱基编辑率(图12和图13)。

实验例3.7.腺苷脱氨酶融合蛋白的碱基编辑效果6

为了研究各种基于死亡Cas12f1变体的dCas12f1-碱基编辑蛋白的碱基编辑效率，参照实验例3.2，根据表16和表17检查每个碱基编辑系统的碱基编辑效率。

[表16]包含腺苷脱氨酶的dCas12f1-碱基编辑融合蛋白

[表17]包含腺苷脱氨酶的dCas12f1-碱基编辑融合蛋白

本文中，用于设计引导RNA的间隔区的原间隔序列是靶-1。

根据实验结果，发现在使用各种基于死亡Cas12f1变体的dCas12f1-碱基编辑蛋白的情况下，对于靶序列1，碱基编辑窗口从N2延伸到N18(图15至图18)。

实验例3.8.腺苷脱氨酶融合蛋白的碱基编辑效果7

为了研究dCas12f1-碱基编辑蛋白对各种靶序列的碱基编辑效率，参考实验例3.2，检查包含SEQ ID NO：299的dCas12f1-碱基编辑融合蛋白和v4.0或v4.1的引导RNA的碱基编辑系统的碱基编辑效率。

本文中，用于设计引导RNA的间隔区的原间隔序列如表7和表8所示。

此外，作为实施方式，在各种靶序列上验证了使用TadAeTadA3的碱基编辑系统。结果，鉴定了对于25个不同的靶序列，可用的碱基编辑窗口在A2到A8和/或A15到A20的范围内(图19至图24)。

实验例3.9.腺苷脱氨酶融合蛋白的碱基编辑效果8

为了研究根据其中包含的碱基编辑结构域的类型，dCas12f1-碱基编辑蛋白的碱基编辑效率，参照实验例3.2，根据表18和表19检查每个碱基编辑系统的碱基编辑效率。

[表18]包含腺苷脱氨酶的dCas12f1-碱基编辑融合蛋白

/>

[表19]包含腺苷脱氨酶的dCas12f1-碱基编辑融合蛋白

本文中，用于设计引导RNA的间隔区的原间隔序列是靶-3。

根据实验结果，如图25至图30所示，TadA-eTadA2、eTadA2和TadA-eTadA1与dCas12f1或dTnpB一起表现出优异的碱基编辑效率。结果表明，Tad是影响碱基编辑效率的重要因素。

实验例3.10.腺苷脱氨酶融合蛋白的碱基编辑效果9

为了研究取决于Cas12f1变体蛋白的类型(其为dCas12f1-碱基编辑蛋白中包含的死亡Cas12f1蛋白的基础)的dCas12f1-碱基编辑蛋白的碱基编辑效率，对于根据表20的每个碱基编辑系统，参考实验例3.2检查其碱基编辑效率。

[表20]包含腺苷脱氨酶的dCas12f1-碱基编辑融合蛋白

将每个由此产生的超紧凑基碱基编辑系统的碱基编辑效果在表21中示出。

[表21]取决于碱基编辑系统类型的碱基编辑效率

根据实验结果，发现与包含基于野生型Cas12f1蛋白的死亡Cas12f1的dCas12f1-碱基编辑蛋白的碱基编辑效率相比，包含基于Cas12f1变体蛋白的死亡Cas12f1蛋白的dCas12f1-碱基编辑蛋白的碱基编辑效率总体非常高，并且特别地，SEQ ID NO：15的Cas12f1变体1表现出高的碱基编辑效率。

实验例3.11.腺苷脱氨酶融合蛋白的碱基编辑效果10

为了比较基于各种死亡Cas12f1变体的dCas12f1-碱基编辑蛋白与现有的基于Cas9的碱基编辑系统之间的碱基编辑效率，参考实验例3.2，根据表22和作为比较例的基于Cas9的ABE 7.10、ABE 8e和ABE 9，检查每个碱基编辑系统的碱基编辑效率。

[表22]

根据实验结果，如图31所示，与基于死亡Cas12f1的ABEMINI(SEQ ID NO：284)或基于Cas9的ABE 7.10、ABE 8e和ABE 9相比，基于死亡Cas12f1变体1的ABE-C3(SEQ ID NO：299)在位置A3和A4处表现出优异的碱基编辑率。结果表明，基于死亡Cas12f1变体1的碱基编辑系统表现出最佳的ABE活性。

实验例3.12.腺苷脱氨酶融合蛋白的碱基编辑效果11

在本文公开的CRISPR碱基编辑系统和腺嘌呤碱基编辑器miniABEmax之间的碱基编辑活性方面进行比较，所述腺嘌呤碱基编辑器miniABEmax具有允许通过现有AAV载体递送的大小。

为此目的，构建了包含编码根据SEQ ID NO：287的dCas12f1-碱基编辑蛋白(ABE-C2)的核酸的AAV载体，包含编码ABE-C2的核酸和引导RNA(ABE-C2+sgRNA)的AAV载体，和包含除ABE-C2+sgRNA之外大的辅助靶序列(Auxillary)多核苷酸的AAV载体。

此外，为了在细胞内碱基编辑效率方面与根据本公开的超紧凑碱基编辑系统进行比较，制备了miniABEmax，其是现有的基于spCas9n的腺嘌呤碱基编辑器AAV载体。

将所制备的载体转染到HEK 293T细胞中，并在3天后，从经转染的HEK 293T细胞中获得基因组DNA。使用靶向深度测序来分析其PCR产物，以确定腺嘌呤(A)碱基是否被鸟嘌呤(G)碱基取代。

作为分析的结果，如图32所示，根据本公开的超紧凑碱基编辑系统，ABE-C2+sgRNA和ABE-C2+sgRNA+Auxillary分别表现出30％和40％的碱基编辑率，其中，腺嘌呤(A)碱基被鸟嘌呤(G)碱基取代。

另一方面，现有的基于SpCas9n的腺嘌呤碱基编辑器miniABEmax表现出5％或更低的低腺嘌呤碱基编辑特异性。

根据上述结果，发现根据本公开的包含dCas12f1或其功能类似物的超紧凑碱基编辑系统不仅由于其如上所述的小的尺寸而具有广泛的基因编辑应用的优点，而且与已经进行了大多数研究的当前使用的碱基编辑器相比，还表现出显著提高的碱基编辑效率。

实验例3.13.胞苷脱氨酶融合蛋白的碱基编辑效果1

对本文提供的包含胞苷脱氨酶作为碱基编辑结构域的dCas12f1-碱基编辑融合蛋白是否具有胞嘧啶碱基编辑活性进行实验。为了鉴定这一点，选择了人内源性DNA靶位点，其中，多个胞嘧啶被包括在胞嘧啶碱基编辑组合物的编辑窗口范围内。具体地，所选择的靶的原间隔序列与表5和表6中示出的靶-2、靶-11和靶-12相同。

为了鉴定胞嘧啶编辑活性，根据表23检查每个胞苷碱基编辑系统的碱基编辑效率。

[表23]包含胞苷脱氨酶dCas12f1-碱基编辑融合蛋白

本文中，用于设计引导RNA的间隔区的原间隔序列是靶-2、靶-11和靶-12。

根据实验例1.6构建根据上表的能够表达经工程化的Cas12f1蛋白的载体和能够表达引导RNA的载体。根据实验例1.7将所构建的载体转染到HEK 293T细胞中，并在3天后从中分离基因组DNA。

然后，根据表te3-01，根据实验例1.9分析基因组DNA中靶序列位点的碱基编辑效率。具体地，对于表5中所示的10个靶位点，分析在作为所预期的编辑窗口范围的5'-端靶位点的引导RNA结合区内的范围为N1至N20(PAM序列之后的第1个核苷酸至第20个核苷酸)的各个核苷酸处是否发生了用另一碱基取代任何碱基。

根据实验结果，鉴定了碱基编辑系统在编辑窗口范围内将胞嘧啶编辑为胸腺嘧啶(图33)。

对于靶-2，被指定为CBE-C1和CBE-C2的胞苷碱基编辑系统具有用胸腺嘧啶碱基取代C4和C5位置处的胞嘧啶碱基的最高频率(图33)。此外，鉴定了被指定为CBE-C2的胞苷碱基编辑系统分别具有约20％和约16％的将靶-12的C3和C4碱基编辑为胸腺嘧啶的频率(图33)。

根据上述结果，鉴定了本公开的包含胞苷脱氨酶的dCas12f1-碱基编辑融合蛋白能够同时将两个胞嘧啶编辑为胸腺嘧啶，这两个胞嘧啶连续地位于PAM序列之后的C3至C5处(即C3和C4，或C4和C5)。

根据上述结果，鉴定了根据本公开的用于胞嘧啶碱基编辑的超紧凑碱基编辑系统表现出范围为C3到C5的窄的编辑窗口，并且能够同时将该范围内的两个连续的胞嘧啶碱基编辑为胸腺嘧啶碱基。

这些结果表明，从它也能够解决与碱基编辑相关的问题的角度来说，与上述的腺苷碱基编辑系统一样，所述胞苷碱基编辑系统是新的碱基编辑器，所述碱基编辑引起沉默突变并具有克服以下问题的优势：对于UAA的终止密码子，由于即使在第三腺嘌呤被编辑为鸟嘌呤的情况下终止密码子仍然是UAG，所以不发生碱基编辑效果。

实验例3.14.对CRISPR碱基编辑复合物是否产生不想要的插入缺失的鉴定

同时，现有的腺嘌呤碱基编辑器(ABE)或胞嘧啶碱基编辑器(CBE)(其中，腺苷脱氨酶或胞苷脱氨酶与dCas9或nCas9蛋白结合)存在问题，因为除了碱基编辑外，它们还引起了“不想要的插入缺失”，这是由于靶核酸中的双链DNA断裂而使得其中的碱基缺失或添加。

因此，鉴定了包含dCas12f1-碱基编辑蛋白的碱基编辑系统在细胞中编辑碱基的过程中是否引起不想要的插入缺失。

为了鉴定这点，根据实验例1.8，对表24的每个碱基编辑系统检查不想要的插入缺失的生成。本文中，将基于dCas9或nCas9的腺嘌呤碱基编辑器(ABE)ABE7.10和ABE8e、以及胞嘧啶碱基编辑器(CBE)BE4和BE4-GAM用作比较组。

[表24]dCas12f1-碱基编辑融合蛋白

结果如图34所示，鉴定了被指定为ABE-C2的腺嘌呤碱基编辑系统和被指定为CBE-C2的胞嘧啶碱基编辑系统很少产生不想要的插入缺失。

然而，鉴定了与根据本公开的ABE-C2和CBE-C2相比，现有的基于dCas9或nCas9蛋白的腺嘌呤碱基编辑器(ABE)ABE7.10和ABE8e以及胞嘧啶碱基编辑器(CBE)BE4和BE4-Gam中的每一个分别产生10倍或更高的不想要的插入缺失。

上述结果与显示类似的碱基编辑活性形成鲜明对比，例如将腺嘌呤(A)编辑为鸟嘌呤(G)或将胞嘧啶(C)编辑为胸腺嘧啶(T)。这表明本文公开的碱基编辑系统在只需要编辑特定碱基而不生成插入缺失的情况下是非常有用的碱基编辑器。

此外，上述结果新鉴定了本文公开的CRISPR碱基编辑复合物是超紧凑碱基编辑系统，允许无限制地选择期望的基因编辑方法，如插入缺失、碱基编辑或引物编辑，并允许有效地执行这种方法而无不利影响。

实验例3.15.编码CRISPR碱基编辑复合物的各组分的AAV载体的碱基编辑效果的鉴定1

为了鉴定AAV载体对细胞中的靶基因的碱基编辑效果，将rAAV载体转染到细胞中以鉴定其碱基编辑效率，所述AAV载体编码本文提供的CRISPR碱基编辑复合物的各个组分。

具体地，为了鉴定碱基编辑效率，使用以下方法产生经转染的细胞系，其中，细胞系正常表达eGFP，并由于其前面的终止密码子而不能表达mRuby基因。构建了质粒载体，其中，1)鸡β-肌动蛋白(CBA)启动子、5'-末端核定位信号序列和3'-末端核定位信号序列、以及编码通过自切割T2A肽连接的eGFP的序列；2)靶序列(Target)和/或辅助靶序列(Auxillary)的多核苷酸，该多核苷酸可通过根据本公开的经密码子优化的超紧凑碱基编辑结构识别并具有终止密码子(TAG)；以及3)mRuby基因的序列可操作地连接。将每个载体转染到HEK 293T细胞中。具有插入其染色体中的质粒载体的HEK 293T细胞正常表达eGFP，并且由于其前面的终止密码子而不能表达mRuby基因。

每个质粒载体的结构和靶序列在图35和图36中详细示出。

继向其中插入质粒载体的HEK 293T细胞之后，根据实验例1.6构建rAAV载体。加载到载体上的CRISPR碱基编辑系统如表25所示。

[表25]加载到rAAV载体上的CRISPR碱基编辑系统

/>

本文中，引导RNA的间隔区分别由靶-14、靶-15、靶-16和靶-43的原间隔序列设计。载体的结构分别在图35和图36中详细示出。

根据实验例1.7，将由此构建的rAAV载体转染到所产生的细胞中，并检查mRuby基因的表达，以确定CRISPR碱基编辑系统是否按预期执行其碱基编辑功能。本文中，将spCas9-ABE分裂AAV作为对照转染到所产生的细胞中，并进行鉴定。

检查mRuby的表达的原因为由于在如下的情况下，mRuby基因将正常表达：载体被递送到经转染的HEK 293T细胞中、识别靶序列并位于该位点，使得靶序列中存在的终止密码子TAG的腺嘌呤(A)碱基被鸟嘌呤(G)碱基取代，在mRuby基因前的终止密码子变为TGG(Trp)并因此终止密码子消失。

根据实验结果，如图37所示，鉴定了CRISPR碱基编辑系统在经转染的HEK 293T细胞中正常表达mRuby基因。发现碱基编辑率为25.2％。此外，鉴定了CRISPR碱基编辑系统在转染后的第6天表现出约40％的碱基编辑率，并在第9天表现出60％或更高的碱基编辑率，并使得mRuby基因在HEK 293T细胞中正常表达(图37)。

本文提供的加载有CRISPR碱基编辑系统的rAAV载体表现出比spCas9-ABE分裂AAV更好的碱基编辑效率，并且这种效果在转染后随着时间的推移似乎变得更加明显。

实验例3.16.编码碱基编辑结构域融合蛋白的AAV载体的碱基编辑效果的鉴定2

本文公开的CRISPR基因调控系统的最大优势是它不受AAV的可递送大小的限制。此外，在加载一个引导RNA的情况下，通过本公开开发的碱基编辑系统允许在AAV的可递送限度内的额外空间。通过将例如引导RNA或shRNA的额外元件添加到这一额外空间中，碱基编辑系统具有能够同时编辑多个基因的优势。

为了证明这点，如图38所示，参考实验例1.6产生了各自加载有不同的引导RNA的AAV2和加载有两种引导RNA的AAV2。然后，参考实验例1.7，用包括编码SEQ ID NO：299的dCas12f1-碱基编辑融合蛋白的核酸的每个AAV2以相同的感染复数(MOI)转染HEK 293T细胞。

将每个所制备的AAV2载体转染到HEK 293T细胞中，并在10天后，从经转染的HEK293T细胞获得基因组DNA。然后，参考实验例1.9，使用靶向深度测序来分析PCR产物，以确定腺嘌呤(A)碱基是否被鸟嘌呤(G)碱基取代。

作为分析的结果，如图38所示，对于加载有两种类型的引导RNA的AAV2，检查了两个靶的腺嘌呤碱基编辑的效率。每个靶的效率与在加载有一种类型的引导RNA的情况下观察到的效率相似。从结果中发现，在使用加载有包含两种以上类型的引导RNA的多靶点CRISPR基因调控系统的AAV载体的情况下，可以实现多靶点碱基编辑。

实验例4.CRISPR表达调控系统的表达调控效果

实验例4.1.CRISPR干扰系统的靶基因表达抑制效果

为了鉴定本文公开的CRISPR干扰系统的靶基因表达抑制效果，通过将BRCA1基因设置为靶，选择其原间隔靶，并相应地设计引导RNA的间隔区序列。将间隔区序列在表26中示出：

[表26]

标记	间隔区序列(5′至3′)	SEQ ID NO
			gRNA_1	ATCAGATAGGATCGTCCGAT	445
gRNA_2	GGGAGGGCGAGGCCGAAACC	446
			gRNA_3	GGAGTTTTTTCTTCCCTCTG	447
gRNA_4	GAAGGCTGCCAGGTTAAGGC	448
			gRNA_5	TGCACCCTGCACACTGACCT	449

本文中，比较组使用18s作为靶，并且比较组的用于qPCR的引物如表27所示：

[表27]

名称	序列(5′至3′)	SEQ ID NO
			18s_rRNA_F	TCAACTTTCGATGGTAGTCGCC	458
18s_rRNA_R	GGCCTCGAAAGAGTCCTGTATTGT	459

根据实验例1.4构建能够表达CRISPR干扰系统的载体，所述系统包含以下的dCas12f1-表达调控融合蛋白和表26中所述的靶引导RNA，并根据实验例1.10将所构建的载体转染到HEK293T-lentiX细胞中，以分析其在细胞中的基因表达阻抑效果。

根据实验结果，如图39至图49所示，鉴定了BRCA1 mRNA的水平在大多数模块中降低，与基因表达调控结构域和死亡Cas12f1融合的位置(N-末端和/或C-末端)无关。

实验例4.2.CRISPR激活系统对促进靶基因表达的效果

为了鉴定本文公开的CRISPR激活系统对促进靶基因表达的效果，通过将OCT4基因设置为靶，选择其原间隔靶。所选择的靶原间隔序列如表28所示：

[表28]

标记	PAM	原间隔(5′至3′)	SEQ ID NO
				激活-1	TTTG	TTGCCCAGACTGGAGTGCAG	450
激活-2	TTTG	GCCCAGTAGATCGAGGCTAC	451
				激活-3	TTTG	CCTAATGGTGGTGGCAATGG	452
激活-4	TTTA	AGACAGGGTCTCACTTTGTTG	453

参照实验例1.4制备dCas12f1-表达调控融合蛋白，该融合蛋白包含SEQ ID NO：5的死亡Cas12f1蛋白和SEQ ID NO：329的VP64基因表达促进结构域。使用FugeneHD(Promega)试剂将编码所制备的dCas12f1-表达调控融合蛋白和每个引导RNA的载体转染到HEK 293T细胞中。转染方法根据试剂的实验方案进行。转染后72小时，收获细胞并从中提取RNA。使用所提取的RNA，使用SuperScript iV(Invitrogen)试剂盒合成cDNA。使用cDNA作为模板，通过qPCR分析表达的变化。

如图50所示，发现CRISPR激活系统促进OCT4基因的转录。

实验例5.死亡Cas12f1蛋白突变的进一步扩展

进行以下实验以确定甚至在可以产生Cas12f1蛋白的死亡形式的突变位置处发生用丙氨酸以外的氨基酸取代的情况下，是否也可以产生Cas12f1蛋白的死亡形式：

对于实验例1.1中的表达Cas12f1的载体，使用诱变进行修饰，使Cas12f1成为其死亡形式。死亡形式为D326A、E422A、R490A或D510A，并且包括R490Q、R490W、R490L、D510L、D510V或丧失切割活性的其它突变形式。用于每种诱变的引物如表29所示。

[表29]

为了鉴定所产生的死亡Cas12f1的切割活性是否被去除，通过将5′-CACACACACAGTGGGCTACCATT-3′(SEQ ID NO：522)设置为靶来进行HEK 293T细胞的转染。转染后96小时，从中提取gDNA，并在插入缺失的产生方面通过NGS分析进行比较(图58)。

根据实验结果，发现基于SEQ ID NO：1的野生型Cas12f1蛋白的R490A、R490Q、R490L、R490W、D510A、D510L、D510V、E422A和E326A全部丧失了核酸切割活性，这表明即使在适当的突变位置处的氨基酸被谷氨酰胺、亮氨酸、色氨酸或缬氨酸(丙氨酸以外的氨基酸)取代的情况下，也可以产生死亡形式的Cas12f1。

工业实用性

本文公开的CRISPR基因调控复合物及其组分能够表现出各种基因功能调控作用，例如，细胞中的靶基因的碱基编辑和靶基因表达调控(促进或抑制)，这允许CRISPR基因调控复合物被用于基因碱基编辑和/或基因表达调控的技术领域。此外，可以将CRISPR基因调控系统加载到单个单元的腺相关病毒(AAV)载体上，从中可以预期高效率和可用性。

Claims

1.一种基于野生型Cas12f1的死亡Cas12f1蛋白，所述蛋白由以下的氨基酸序列示出：

(SEQ ID NO：9)，

其中，X₁是异亮氨酸或色氨酸，X₂是丝氨酸或酪氨酸，X₃是天冬氨酸、丙氨酸、谷氨酰胺、亮氨酸、色氨酸或缬氨酸，X₄是谷氨酸、丙氨酸、谷氨酰胺、亮氨酸、色氨酸或缬氨酸，X₅是精氨酸、丙氨酸、谷氨酰胺、亮氨酸、色氨酸或缬氨酸，并且X₆是天冬氨酸、丙氨酸、谷氨酰胺、亮氨酸、色氨酸或缬氨酸，以及

2.一种死亡Cas12f1蛋白，所述蛋白包括：

包括20个至30个氨基酸的虚设部分；以及

基于野生型Cas12f1的死亡Cas12f1蛋白，

其中，所述虚设部分由选自以下的氨基酸序列示出：

所述基于野生型Cas12f1的死亡Cas12f1蛋白由以下示出：

(SEQ ID NO：9)，

其中，X₁是异亮氨酸或色氨酸，X₂是丝氨酸或酪氨酸，X₃是天冬氨酸、丙氨酸、谷氨酰胺、亮氨酸、色氨酸或缬氨酸，X₄是谷氨酸、丙氨酸、谷氨酰胺、亮氨酸、色氨酸或缬氨酸，X₅是精氨酸、丙氨酸、谷氨酰胺、亮氨酸、色氨酸或缬氨酸，并且X₆是天冬氨酸、丙氨酸、谷氨酰胺、亮氨酸、色氨酸或缬氨酸，

X₃、X₄、X₅和X₆中的至少一个是丙氨酸、谷氨酰胺、亮氨酸、色氨酸或缬氨酸，以及

所述虚设部分和基于野生型Cas12f1的死亡Cas12f1蛋白以从所述死亡Cas12f1蛋白的N末端到C末端的方向顺序地彼此连接。

3.如权利要求1所述的死亡Cas12f1蛋白，其中，所述死亡Cas12f1蛋白由选自SEQ IDNO：2至SEQ ID NO：8的氨基酸序列示出。

4.如权利要求2所述的死亡Cas12f1蛋白，其中，所述死亡Cas12f1蛋白由选自SEQ IDNO：15至SEQ ID NO：24、SEQ ID NO：26至SEQ ID NO：29、SEQ ID NO：31至SEQ ID NO：34和SEQ ID NO：36至SEQ ID NO：39的氨基酸序列示出。

5.一种dCas12f1-碱基编辑融合蛋白，所述融合蛋白包括：

如权利要求1-4中任一项所述的死亡Cas12f1蛋白；以及

脱氨酶，

其中，所述脱氨酶具有选自SEQ ID NO：245、SEQ ID NO：247至SEQ ID NO：249和SEQ IDNO：274至SEQ ID NO：283的氨基酸序列。

6.如权利要求5所述的dCas12f1-碱基编辑融合蛋白，其中，所述脱氨酶具有选自SEQID NO：274至SEQ ID NO：279的氨基酸序列。

7.如权利要求6所述的dCas12f1-碱基编辑融合蛋白，其中，所述脱氨酶与所述死亡Cas12f1蛋白的N末端融合。

8.如权利要求6所述的dCas12f1-碱基编辑融合蛋白，其中，所述脱氨酶与所述死亡Cas12f1蛋白的C末端融合。

9.如权利要求6所述的dCas12f1-碱基编辑融合蛋白，其中，所述dCas12f1-碱基编辑融合蛋白具有选自SEQ ID NO：284至SEQ ID NO：324和SEQ ID NO：418至SEQ ID NO：442的氨基酸序列。

10.如权利要求5所述的dCas12f1-碱基编辑融合蛋白，其中，所述dCas12f1-碱基编辑融合蛋白进一步包括至少一种尿嘧啶糖基化酶抑制剂(UGI)，

所述脱氨酶具有选自SEQ ID NO：280至SEQ ID NO：283的氨基酸序列，以及

所述至少一种UGI与死亡Cas12f1蛋白融合。

11.如权利要求10所述的dCas12f1-碱基编辑融合蛋白，其中，所述脱氨酶与所述死亡Cas12f1蛋白的N末端融合，以及

所述至少一种UGI与所述死亡Cas12f1蛋白的C末端融合。

12.如权利要求10所述的dCas12f1-碱基编辑融合蛋白，其中，所述脱氨酶与所述死亡Cas12f1蛋白的C末端融合，以及

所述至少一种UGI与所述死亡Cas12f1蛋白的N末端融合。

13.如权利要求10所述的dCas12f1-碱基编辑融合蛋白，所述融合蛋白由选自SEQ IDNO：325至SEQ ID NO：328的氨基酸序列示出。

14.如权利要求5-13中任一项所述的dCas12f1-碱基编辑融合蛋白，其中，所述死亡Cas12f1蛋白和所述脱氨酶通过连接子连接，以及

所述连接子由选自SEQ ID NO：260至SEQ ID NO：273的氨基酸序列示出。

15.如权利要求5-14中任一项所述的dCas12f1-碱基编辑融合蛋白，其中，所述dCas12f1-碱基编辑融合蛋白进一步包括至少一个核定位信号(NLS)，以及

所述NLS位于N-末端、C-末端或两个末端。

16.一种dCas12f1-表达调控融合蛋白，所述融合蛋白包括：

如权利要求1-4中任一项所述的死亡Cas12f1蛋白；以及

至少一个表达调控结构域，所述结构域各自选自VP64、KRAB、MeCP2、DNMT、HDAC、Tet1和p300。

17.如权利要求16所述的dCas12f1-表达调控融合蛋白，其中，所述表达调控结构域各自独立地由选自SEQ ID NO：329至SEQ ID NO：333的氨基酸序列示出。

18.如权利要求16-17中任一项所述的dCas12f1-表达调控融合蛋白，其中，所述表达调控结构域均位于所述死亡Cas12f1蛋白的N末端。

19.如权利要求18所述的dCas12f1-表达调控融合蛋白，所述融合蛋白由选自SEQ IDNO：511至SEQ ID NO：513的氨基酸序列示出。

20.如权利要求16-17中任一项所述的dCas12f1-表达调控融合蛋白，其中，所述表达调控结构域均位于所述死亡Cas12f1蛋白的C末端。

21.如权利要求20所述的dCas12f1-表达调控融合蛋白，所述融合蛋白由选自SEQ IDNO：514至SEQ ID NO：518的氨基酸序列示出。

22.如权利要求16-17中任一项所述的dCas12f1-表达调控融合蛋白，其中，所述dCas12f1-表达调控融合蛋白包括第一表达调控结构域和第二表达调控结构域，

所述第一表达调控结构域位于所述死亡Cas12f1蛋白的N末端，以及

所述第二表达调控结构域位于所述死亡Cas12f1蛋白的C末端。

23.如权利要求22所述的dCas12f1-表达调控融合蛋白，所述融合蛋白由选自SEQ IDNO：519至SEQ ID NO：521的氨基酸序列示出。

24.一种经工程化的CRISPR/Cas12f1组合物，所述组合物包括：

经工程化的Cas12f1蛋白、或编码所述经工程化的Cas12f1蛋白的核酸，所述经工程化的Cas12f1蛋白选自权利要求1-4中任一项所述的死亡Cas12f1蛋白、权利要求5-15中任一项所述的dCas12f1-碱基编辑融合蛋白、和权利要求16-23中任一项所述的dCas12f1-表达调控融合蛋白；以及

至少一个引导RNA或编码所述引导RNA的核酸，

其中，每个所述引导RNA包括支架、间隔区和富含U的尾部，

所述支架、所述间隔区和所述富含U的尾部以5'到3'的方向顺序地彼此连接，

所述支架由选自SEQ ID NO：197至SEQ ID NO：199的核苷酸序列示出，

所述富含U的尾部由(U_aN)_bU_c的核苷酸序列示出，其中，N各自独立地选自A、U、C和G，a是1至5之间且含端值的整数，并且b是0或更大的整数，以及

所述间隔区包括10个至50个之间且含端值的核苷，并且具有与预定的靶序列互补的核苷酸序列。

25.如权利要求24所述的经工程化的CRISPR/Cas12f1组合物，其中，所述经工程化的Cas12f1蛋白是如权利要求5-15中任一项所述的dCas12f1-碱基编辑融合蛋白。

26.如权利要求25所述的经工程化的CRISPR/Cas12f1组合物，其中，所述经工程化的CRISPR/Cas12f1组合物包括处于核糖核蛋白(RNP)形式的所述引导RNA和所述经工程化的Cas12f1蛋白。

27.如权利要求25所述的经工程化的CRISPR/Cas12f1组合物，其中，所述经工程化的CRISPR/Cas12f1组合物包括处于载体形式的编码所述经工程化的Cas12f1蛋白的核酸和编码所述引导RNA的核酸。

28.如权利要求27所述的经工程化的CRISPR/Cas12f1组合物，其中，所述载体包括编码所述经工程化的Cas12f1蛋白的核酸、编码第一引导RNA的核酸和编码第二引导RNA的核酸，以及

所述第一引导RNA中的间隔区的核苷酸序列和所述第二引导RNA中的间隔区的核苷酸序列彼此不同。

29.如权利要求25-28中任一项所述的经工程化的CRISPR/Cas12f1组合物，其中，所述经工程化的Cas12f1蛋白是如权利要求6-9中任一项所述的dCas12f1-碱基编辑融合蛋白。

30.如权利要求25-28中任一项所述的经工程化的CRISPR/Cas12f1组合物，其中，所述经工程化的Cas12f1蛋白是如权利要求10-14中任一项所述的dCas12f1-碱基编辑融合蛋白。

31.如权利要求24所述的经工程化的CRISPR/Cas12f1组合物，其中，所述经工程化的Cas12f1蛋白是如权利要求16-23中任一项所述的dCas12f1-表达调控融合蛋白。

32.如权利要求31所述的经工程化的CRISPR/Cas12f1组合物，其中，所述dCas12f1-表达调控融合蛋白包括至少一个VP64。

33.如权利要求31所述的经工程化的CRISPR/Cas12f1组合物，其中，所述dCas12f1-表达调控融合蛋白包括选自VP64、KRAB、MeCP2、DNMT、HDAC、Tet1和p300的至少一个表达调控结构域。

34.如权利要求31所述的经工程化的CRISPR/Cas12f1组合物，其中，所述经工程化的CRISPR/Cas12f1组合物包括处于核糖核蛋白(RNP)形式的所述引导RNA和所述经工程化的Cas12f1蛋白。

35.如权利要求31所述的经工程化的CRISPR/Cas12f1组合物，其中，所述经工程化的CRISPR/Cas12f1组合物包括载体，所述载体包括编码所述经工程化的Cas12f1蛋白的核酸和编码所述引导RNA的核酸。

36.如权利要求35所述的经工程化的CRISPR/Cas12f1组合物，其中，所述载体包括编码所述经工程化的Cas12f1蛋白的核酸、编码第一引导RNA的核酸和编码第二引导RNA的核酸，以及

所述第一引导RNA中的间隔区的核苷酸序列和第二引导RNA中的间隔区的核苷酸序列彼此不同。

37.一种用于在细胞中对靶基因进行碱基编辑的方法，所述方法包括：

将权利要求29所述的经工程化的CRISPR/Cas12f1组合物引入活细胞中，

其中，所述细胞中的靶基因是包含靶链和非靶链的双链DNA，

所述靶链具有靶序列，

所述非靶链具有原间隔临近基序(PAM)和原间隔，

所述原间隔是与所述靶序列互补的10nt至50nt的核苷酸序列，

所述经工程化的CRISPR/Cas12f1组合物的引导RNA中的间隔区能够与所述靶链中的靶序列杂交，以及

将所述经工程化的CRISPR/Cas12f1组合物引入所述细胞中使得在所述细胞中形成CRISPR-碱基编辑复合物，并且所述CRISPR-碱基编辑复合物用鸟嘌呤取代所述原间隔中的至少一个腺嘌呤。

38.如权利要求37所述的方法，其中，所述靶基因中的原间隔在5'端起的第2位、第3位、第4位、第5位、第6位、第7位、第8位、第9位、第15位、第16位、第17位、第18位、第19位和第20位处包含至少一个腺嘌呤，并且所述进行碱基编辑的方法使得用鸟嘌呤取代在第2位、第3位、第4位、第5位、第6位、第7位、第8位、第9位、第15位、第16位、第17位、第18位、第19位和第20位处的腺嘌呤中的至少一个。

39.一种用于在细胞中对靶基因进行碱基编辑的方法，所述方法包括：

将如权利要求30所述的经工程化的CRISPR/Cas12f1组合物引入细胞中，

其中，所述细胞中的靶基因是包含靶链和非靶链的双链DNA，

所述靶链具有靶序列，

所述非靶链具有原间隔临近基序(PAM)和原间隔，

所述原间隔是与所述靶序列互补的10nt至50nt的核苷酸序列，

将所述经工程化的CRISPR/Cas12f1组合物引入所述细胞中，使得在所述细胞中形成CRISPR-碱基编辑复合物，并且所述CRISPR-碱基编辑复合物用胸腺嘧啶取代原间隔中的至少一个胞嘧啶。

40.如权利要求39所述的方法，其中，所述靶基因中的原间隔在5'端起的第2位、第3位、第4位、第5位、第6位、第7位、第8位和第9位含有至少一个胞嘧啶，并且所述进行碱基编辑的方法使得用胸腺嘧啶取代在第2位、第3位、第4位、第5位、第6位、第7位、第8位和第9位的胞嘧啶中的至少一个。

41.如权利要求37-40中任一项所述的方法，其中，所述细胞是真核细胞。

42.一种用于调控细胞中的靶基因表达的方法，所述方法包括：

将如权利要求31-36中任一项所述的经工程化的CRISPR/Cas12f1组合物引入所述细胞中，

其中，将所述经工程化的CRISPR/Cas12f1组合物引入所述细胞中，使得形成CRISPR基因调控复合物，以及

所述CRISPR基因调控复合物调控所述靶基因的表达。

43.如权利要求42所述的方法，其中，所述细胞是真核细胞。