CN116376874A

CN116376874A - 一种Cas蛋白、其基因编辑系统及应用

Info

Publication number: CN116376874A
Application number: CN202310302690.5A
Authority: CN
Inventors: 张红玲
Original assignee: Yaotang Shanghai Biotechnology Co ltd
Current assignee: Yaotang Shanghai Biotechnology Co ltd
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-07-04

Abstract

本发明提供了一种Cas蛋白、其基因编辑系统及应用，具体地，本发明的Cas蛋白具有非常好的基因编辑活性，可对靶基因进行有效编辑或切割，可有效治疗有需要的受试者的病症或疾病。

Description

一种Cas蛋白、其基因编辑系统及应用

技术领域

本发明涉及基因编辑领域，具体地，涉及一种Cas蛋白、其基因编辑系统及应用。

背景技术

Clusteredregularlyinterspacedshortpalindromicrepeats(CRISPR)系统,是细菌和古细菌为了防御入侵噬菌体的DNA而形成的。CRISPR系统的免疫干扰过程主要包括3个阶段：适应、表达和干扰。适应阶段，CRISPR系统会将来自噬菌体或质粒的DNA短片段整合到前导序列和第一段重复序列之间，每一次整合都伴随着重复序列的复制，进而形成一个新的重复-间隔序列单元。表达阶段，CRISPR基因座会被转录成一段CRISPR RNA(crRNA)前体(pre-crRNA)，该前体在Cas蛋白和tracrRNA的存在下会在重复序列处被进一步加工成小的crRNA。成熟的crRNA与Cas蛋白形成Cas/crRNA复合体。干扰阶段，crRNA通过其与靶序列互补的区域引导Cas/crRNA复合体寻找靶点，并在靶点位置通过Cas蛋白的核酸酶活性造成靶点位置的双链DNA断裂，从而使靶标DNA失去原有功能。

CRISPR系统分为I，II，III型三个家族，其中II型系统最常见的为CRISPR/Cas9系统，Cas9蛋白可在反式编码小RNA(trans-encodedsmallRNA，tracrRNA)的协助下将pre-crRNA加工成与tracrRNA结合的成熟crRNA。之后，人们发现通过人工构建模拟crRNA：tracrRNA复合体的单链嵌合体引导RNA(guideRNA)，即可有效的介导Cas9蛋白对靶点的识别和切割。其中与靶点3′端紧邻的3个碱基必须是5′-NGG-3′的形式，从而构成Cas/crRNA复合体识别靶点所需的PAM(protospaceradjacentmotif)结构。然而目前存在的不同的CRISPR/Cas各有不同的优点和缺陷。例如Cas9,C2c1和CasX均需要两条RNA进行向导RNA。常见的Cas9，C2c1,CasY和Cpf1通常大小在1300个氨基酸左右。此外，Cas9，Cpf1，CasX，CasY的PAM序列都复杂多样。

目前仍需要开发新的具有Cas蛋白和CRISPR-Cas系统以满足多样化的应用需求。

发明内容

本发明的主要目的在于提供一种新的Cas蛋白、其基因编辑系统及应用，以满足上述应用需求。基于此，本发明还提供了新的CRISPR-Cas组合物以及基于该系统的基因编辑方法和核酸检测方法。

本发明的第一方面提供了一种蛋白，所述蛋白选自下组：

(a)具有SEQ ID NO:1所示氨基酸序列的多肽；

(b)具有与SEQ ID NO:1所示氨基酸序列≥80％，81％，82％，83％，84％，85％，86％，87％，88％，89％，90％，91％，92％，93％，94％，95％，96％，97％，98％，99％或99.5％同源性(或同一性)的多肽，且所述多肽具有SEQ ID NO:1的生物学功能；

(c)将SEQ ID NO:1中任一所示氨基酸序列经过一个或多个(较佳地，1-20个，更佳地为1-10个、更佳地1-5个)氨基酸残基的取代、缺失或添加而形成的，且保留SEQ ID NO:1的生物学功能的衍生多肽。

在另一优选例中，所述蛋白是CRISPR/Cas系统中的效应蛋白。

本发明第二方面提供了一种蛋白变体，所述变体为非天然蛋白，并且所述变体在野生型蛋白的对应于SEQ ID NO:1的选自下组一个或多个与切割活性相关的核心氨基酸位点发生突变：

第659位的天冬氨酸(D)位点；和/或

第711位的天冬氨酸(D)位点；和/或

第895位的谷氨酸(E)位点；和/或

第1069位的天冬氨酸(D)位点。

在另一优选例中，所述蛋白变体是CRISPR/Cas系统中的效应蛋白的变体。

在另一个优选例中，相对于野生型蛋白的切割活性，所述蛋白变体对与向导RNA序列互补的靶标分子的靶序列的切割活性降低(例如，降低50％、60％、70％、80％、90％、95％或更多)或实质性缺乏。

在另一优选例中，所述第659位的天冬氨酸(D)突变为任何氨基酸，优选突变为表A所示的氨基酸类型，优选突变为选自下组的一种或多种氨基酸：Ala(A)、Val(V)、Leu(L)、Ile(I)，优选突变为Ala(A)、Val(V)，更优选Ala(A)。

在另一优选例中，所述第711位的天冬氨酸(D)突变为任何氨基酸，优选突变为表A所示的氨基酸类型，优选突变为选自下组的一种或多种氨基酸：Ala(A)、Val(V)、Leu(L)、Ile(I)，优选突变为Ala(A)、Val(V)，更优选Ala(A)。

在另一优选例中，所述第895位的谷氨酸(E)突变为任何氨基酸，优选突变为表A所示的氨基酸类型，优选突变为选自下组的一种或多种氨基酸：Ala(A)、Val(V)、Leu(L)、Ile(I)，优选突变为Ala(A)、Val(V)，更优选Ala(A)。

在另一优选例中，所述第1069位的天冬氨酸(D)突变为任何氨基酸，优选突变为表A所示的氨基酸类型，优选突变为选自下组的一种或多种氨基酸：Ala(A)、Val(V)、Leu(L)、Ile(I)，优选突变为Ala(A)、Val(V)，更优选Ala(A)。

在另一优选例中，所述第659位的天冬氨酸(D)突变为丙氨酸(A)。

在另一优选例中，所述第711位的天冬氨酸(D)突变为丙氨酸(A)。

在另一优选例中，所述第895位的谷氨酸(E)突变为丙氨酸(A)。

在另一优选例中，所述第1069位的天冬氨酸(D)突变为丙氨酸(A)。

在另一优选例中，所述的突变选自下组：D659A、D711A、E895A、D1069A、或其组合。

在另一优选例中，所述蛋白变体的氨基酸序列如SEQ ID NO.44-47中任一所示。

在另一优选例中，所述的蛋白变体为具有SEQ ID NO.44-47任一所示氨基酸序列的多肽、其活性片段、或其保守性变异多肽。

在另一优选例中，所述的蛋白变体除所述突变(如659、711、895、和/或1069位)外，其余的氨基酸序列与野生型蛋白的序列相同或基本相同。

在另一优选例中，所述的基本相同是至多有50个(较佳地为1-20个，更佳地为1-10个、更佳地1-5个)氨基酸不相同，其中，所述的不相同包括氨基酸的取代、缺失或添加，且所述的蛋白变体的切割活性降低。

在另一优选例中，所述变体与所述野生型蛋白的同源性至少为80％，较佳地至少为85％或90％，更佳地至少为95％，最佳地至少为98％或99％。

在另一优选例中，所述的蛋白变体选自下组：

(a)具有SEQ ID NO.44-47中任一所示氨基酸序列的多肽；

(b)将SEQ ID NO.44-47中任一所示氨基酸序列经过一个或多个(如2个、3个、4个或5个)氨基酸残基的取代、缺失或添加而形成的，且切割活性降低的由(a)衍生的多肽。

在另一优选例中，所述的衍生的多肽与SEQ ID NO.:44-47中任一所示序列的同源性至少为60％，较佳地至少为70％，更佳地至少为80％，最佳地至少为90％，如95％、97％、99％。

在另一优选例中，所述蛋白变体为所述野生型蛋白经突变形成的。

本发明第三方面提供了一种融合蛋白，包含本发明第一方面所述的蛋白或本发明第二方面所述的蛋白变体；以及一个或多个功能结构域。

在另一优选例中，所述功能结构域选自定位信号、报告蛋白、Cas蛋白靶向部分、DNA结合域、表位标签、转录激活域、转录抑制域、核酸酶、脱氨结构域、甲基化酶、脱甲基酶、转录释放因子、HDAC、裂解活性多肽、连接酶、整合酶、转座酶、重组酶、聚合酶和碱基切除修复抑制剂(如尿嘧啶-DNA糖基化酶抑制剂(UGI))。

在另一优选例中，所述功能结构域包括以下一种或多种对靶序列的酶活性：甲基化酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如，来自O-GlcNAc转移酶)和脱糖基化活性。

在另一优选例中，所述功能结构域选自腺苷脱氨酶催化结构域或胞苷脱氨酶催化结构域。

在另一优选例中，所述腺苷脱氨酶催化结构域或胞苷脱氨酶催化结构域包括ADAR1、ADAR2、APOBEC、AID或TAD中的一种或多种。

在另一优选例中，所述腺苷脱氨酶催化结构域包含与SEQ ID NO:28(选自CN114634923A中的005V1脱氨酶，在该申请中氨基酸序列为SEQ ID NO:2)所示的氨基酸序列具有至少80％、82％、85％、87％、90％、92％、95％、96％、97％、98％或99％同一性的氨基酸序列，并且其保留如SEQ ID NO:28所示的氨基酸序列的脱氨活性。

在另一优选例中，所述腺苷脱氨酶催化结构域的氨基酸序列相对于SEQ ID NO:28所示的氨基酸序列出现氨基酸添加、插入、缺失和置换。

在另一优选例中，所述腺苷脱氨酶催化结构域包括SEQ ID NO:29所示的氨基酸序列的突变体：Q148G+Q149M+P150R，命名为脱氨酶005V1-10-3。

在另一优选例中，所述功能结构域是TadA8e的全长或功能性片段。

在另一优选例中，所述定位信号包括核定位信号(NLS)和/或核输出信号(NES)。

在另一优选例中，所述核定位信号的序列如SEQ ID NO:35-42中任一所示。

在另一优选例中，所述核定位信号的序列位于、靠近或接近权利要求1所述的蛋白的末端(例如，N端或C端)。

在另一优选例中，所述核输出信号包括蛋白酪氨酸激酶2(如人蛋白酪氨酸激酶2)。

在另一优选例中，所述报告蛋白包括谷胱甘肽-S-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)、β-半乳糖苷酶、β-葡糖醛酸糖苷酶、自发荧光蛋白。

在另一优选例中，所述自发荧光蛋白包括绿色荧光蛋白(例如，GFP、GFP-2、tagGFP、turboGFP、eGFP、CopGFP、AceGFP等)、HcRed、DsRed、青色荧光蛋白(例如，eCFP、Cerulean、CyPet、AmCyanl等)、黄色荧光蛋白(例如，(例如，YFP、eYFP、Citrine、Venus、YPet、PhiYFP等)、蓝色荧光蛋白(例如，eBFP、eBFP2、Azurite、mKalamal、GFPuv、Sapphire、T-sapphire)。

在另一优选例中，所述DNA结合域包括甲基化结合蛋白、LexADBD、Gal4DBD。

在另一优选例中，所述表位标签包括组氨酸标签、V5标签、FLAG标签、流感病毒血凝素标签、Myc标签、VSV-G标签、硫氧还蛋白标签、链霉亲和素标签。

在另一优选例中，所述转录激活域包括VP64和/或VPR。

在另一优选例中，所述转录抑制域包括KRAB和/或SID。

在另一优选例中，所述核酸酶包括FokI。

在另一优选例中，所述裂解活性多肽包括具有单链RNA裂解活性的多肽、具有双链RNA裂解活性的多肽、具有单链DNA裂解活性的多肽或具有双链DNA裂解活性的多肽。

在另一优选例中，所述连接酶包括DNA连接酶和/或RNA连接酶。

在另一优选例中，所述功能结构域连接于所述的蛋白的N端，和/或C端。

在另一优选例中，所述功能结构域插入到所述蛋白的N端和C端之间。

在另一优选例中，所述一个或多个功能结构域任选地通过接头连接至所述蛋白的N端和/或C端。

在另一优选例中，所述功能结构域通过接头插入到所述蛋白的N端和C端之间。

在另一个优选例中，所述融合蛋白从N端到C端具有如下结构：

Z1-Z2(I)；或

Z2-Z1(II)；或

Z3-Z1-Z4(III)；

其中，Z1为胞嘧啶脱氨酶或腺苷脱氨酶；

Z2为权利要求1所述的蛋白；

Z3为权利要求1所述的蛋白的N端片段；

Z4为权利要求1所述的蛋白的C端片段；

并且，各“-”独立地为键或接头。

在另一优选例中，所述融合蛋白具有SEQ ID NO:43所示的氨基酸序列。

本发明第四方面提供了一种分离的多核苷酸，所述的多核苷酸编码本发明第一方面所述的蛋白或本发明第二方面所述的蛋白变体或本发明第三方面所述的融化蛋白。

在另一个优选例中，所述多核苷酸序列包含SEQ ID NO.30所示序列的多核苷酸。

在另一优选例中，所述多核苷酸选自下组：

(a)序列如SEQ ID NO.2或34所示的多核苷酸；

(b)核苷酸序列与SEQ ID NO.2或34所示序列的同源性≥70％(较佳地≥80％，更佳地，≥90％，更佳地≥95％，最佳地≥99％)，且编码SEQ ID NO.:1或43所示多肽的多核苷酸；

(c)与(a)-(b)任一所述的多核苷酸互补的多核苷酸。

在另一优选例中，所述的多核苷酸在所述变体的ORF的侧翼还额外含有选自下组的辅助元件：信号肽、分泌肽、标签序列(如6His)、或其组合。

在另一优选例中，所述的多核苷酸选自下组：基因组序列、cDNA序列、RNA序列、或其组合。

在另一优选例中，该多核苷酸还包含与所述变体的ORF序列操作性连接的启动子。

在另一优选例中，所述的启动子选自下组：组成型启动子、组织特异性启动子、诱导型启动子、或者强启动子。

另一优选例中，所述多核苷酸为根据宿主细胞的密码子偏好性进行密码子优化的多核苷酸。

在另一优选例中，宿主细胞包括原核细胞或真核细胞。

在另一优选例中，所述的宿主细胞为真核细胞，如酵母细胞、植物细胞或哺乳动物细胞(包括人和非人哺乳动物)。

在另一优选例中，所述的宿主细胞为原核细胞，如大肠杆菌。

在另一优选例中，所述酵母细胞选自下组的一种或多种来源的酵母：毕氏酵母、克鲁维酵母、或其组合；较佳地，所述的酵母细胞包括：克鲁维酵母，更佳地为马克斯克鲁维酵母、和/或乳酸克鲁维酵母。

在另一优选例中，所述宿主细胞选自下组：大肠杆菌、麦胚细胞，昆虫细胞，SF9、Hela、HEK293、CHO、酵母细胞、或其组合。

本发明第五方面提供了一种分离的核酸分子，包含选自下列的序列，或由选自下列的序列组成：

(i)SEQ ID NO：5所示的序列；

(ii)与SEQ ID NO：5所示的序列相比具有一个或多个碱基的置换、缺失或添加(例如1个，2个，3个，4个，5个，6个，7个，8个，9个或10个碱基的置换、缺失或添加)的序列；

(iii)与SEQ ID NO：5所示的序列具有至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％的序列同一性的序列；

(iv)在严格条件下与(i)-(iii)任一项中所述的序列杂交的序列；或

(v)(i)-(iii)任一项中所述的序列的互补序列；

并且，(ii)-(v)中任一项所述的序列基本保留了其所源自的序列的生物学功能；

例如，所述分离的核酸分子是RNA；

例如，所述分离的核酸分子包含CRISPR/Cas系统中的同向重复序列。

在另一优选例中，所述核酸分子包含一个或多个茎环或优化的二级结构；

例如，(ii)-(v)中任一项所述的序列保留了其所源自的序列的二级结构。

另一优选例中，所述核酸分子为根据宿主细胞的密码子偏好性进行密码子优化的核酸分子。

在另一优选例中，所述核酸分子包含选自下列的序列，或由选自下列的序列组成：

(a)SEQ ID NO：5所示的核苷酸序列；

(b)在严格条件下与(a)中所述的序列杂交的序列；或

(c)SEQ ID NO：5所示的核苷酸序列的互补序列。

本发明第六方面提供了一种向导RNA(gRNA)，所述向导RNA包括能够结合本发明第一方面所述的蛋白的同向重复(Direct Repeat，DR)序列和能够靶向靶序列的间隔(spacer)序列。

本发明第七方面提供了一种复合物，包含：

(i)蛋白组分，选自下组：本发明第一方面所述的蛋白、本发明第二方面所述的蛋白变体、本发明第三方面所述的融合蛋白、或其组合；和

(ii)核酸组分，选自下组：本发明第六方面所述的向导RNA，编码本发明第六方面所述的向导RNA的核酸，本发明第六方面所述的向导RNA的前体RNA，编码本发明第六方面所述的向导RNA的前体RNA核酸、或其组合；

其中，所述蛋白组分与核酸组分相互结合形成复合物。

在另一优选例中，所述向导RNA(gRNA)中的同向重复(Direct Repeat，DR)序列连接于所述核酸分子的3’端或5’端。

在另一优选例中，所述向导RNA(gRNA)中的间隔(spacer)序列包含所述靶序列的互补序列。

本发明第八方面提供了一种载体，包含本发明第四方面所述的多核苷酸或本发明第五方面所述的核酸分子。

在另一优选例中，所述载体包含：

(1)第一调控元件，所述第一调控元件可操作地连接至编码本发明第一方面所述的蛋白的核苷酸序列或编码本发明第二方面所述的蛋白变体的核苷酸序列或编码本发明第三方面所述的融合蛋白的核苷酸序列；和

(2)第二调控元件，所述第二调控元件可操作地连接至编码向导RNA的核苷酸序列，所述向导RNA包含：

(a)能够与靶序列杂交的间隔(spacer)序列，和

(b)同向重复(Direct Repeat，DR)序列，其连接至所述间隔(spacer)序列，能够引导本发明第一方面所述蛋白或本发明第二方面所述蛋白变体结合至所述向导RNA以形成靶向所述靶序列的本发明第七方面所述的复合物。

在另一优选例中，所述第一调控元件和所述第二调控元件位于相同或不同载体上。

在另一优选例中，所述第一调节元件和/或第二调节元件是启动子，例如诱导型启动子。

在另一优选例中，所述载体包含一个或多个启动子，所述启动子可操作地与所述核酸序列、增强子、转录终止信号、多腺苷酸化序列、复制起点、选择性标记、核酸限制性位点、和/或同源重组位点连接。

在另一优选例中，所述载体包括质粒、病毒载体。

在另一优选例中，所述的病毒载体选自下组：腺相关病毒(AAV)、腺病毒、慢病毒、逆转录病毒、疱疹病毒、SV40、痘病毒、或其组合。

在另一优选例中，所述载体包括克隆载体、转化载体、表达载体、穿梭载体、整合载体、多功能载体。

本发明第九方面提供了一种宿主细胞，包含本发明第四方面所述的多核苷酸或本发明第五方面所述的核酸分子或本发明第八方面所述的载体。

本发明第十方面提供了一种CRISPR-Cas组合物，包含：

(i)第一组分，选自下组：本发明第一方面所述的蛋白、本发明第二方面所述的蛋白变体、本发明第三方面所述的融合蛋白、编码本发明第一方面所述的蛋白或本发明第二方面所述的蛋白变体或本发明第三方面所述的融合蛋白的核苷酸序列，以及其任意组合；和

(ii)第二组分，所述第二组分为包含一种或多种本发明第六方面所述的向导RNA的核苷酸序列，或者编码所述包含一种或多种本发明第六方面所述的向导RNA的核苷酸序列的核苷酸序列；

所述向导RNA能够与(i)中所述的蛋白或蛋白变体或融合蛋白形成复合物。

在另一优选例中，所述向导RNA从5’至3’方向包含同向重复序列和间隔(spacer)序列，所述间隔(spacer)序列能够与靶序列杂交。

在另一优选例中，所述同向重复序列是本发明第五方面中所定义的核酸分子。

在另一优选例中，所述组合物还包括药学上可接受的载体。

在另一优选例中，所述组合物包括药物组合物。

在另一优选例中，所述组合物的剂型选自下组：冻干制剂、液体制剂、或其组合。

在另一优选例中，所述组合物的剂型为液体制剂。

在另一优选例中，所述组合物的剂型为注射剂型。

在另一优选例中，所述组合物为细胞制剂。

本发明第十一方面提供了一种CRISPR-Cas系统，包含一种或多种载体，所述一种或多种载体包含：

(i)第一核酸，其为编码本发明第一方面所述的蛋白或本发明第二方面所述的蛋白变体或本发明第三方面所述的融合蛋白的核苷酸序列；任选地所述第一核酸可操作地连接至第一调节元件；以及

(ii)第二核酸，其编码包含本发明第六方面所述的向导RNA的核苷酸序列；任选地所述第二核酸可操作地连接至第二调节元件；

其中：

所述第一核酸与第二核酸存在于相同或不同的载体上；

所述向导RNA能够与(i)中所述的蛋白或融合蛋白形成复合物。

在另一优选例中，所述载体包括质粒、病毒载体。

在另一优选例中，所述向导RNA包括能够与靶序列杂交的间隔(spacer)序列；和与间隔(spacer)序列连接，并能够引导所述蛋白结合至所述向导RNA，从而形成靶向所述靶序列的CRISPR-Cas组合物或复合物的同向重复(Direct Repeat，DR)序列。

在另一优选例中，所述向导RNA包括未修饰和经修饰的向导RNA。

在另一优选例中，所述经修饰的向导RNA包括碱基的化学修饰。

在另一优选例中，所述化学修饰包括甲基化修饰、甲氧基修饰、氟化修饰或硫代修饰。

在另一优选例中，所述同向重复序列是权利要求5中所定义的核酸分子。

在另一优选例中，所述组合物中的至少一个组分是非天然存在的或经修饰的。

在另一优选例中，所述间隔(spacer)序列连接至所述同向重复(Direct Repeat，DR)序列的3’端。

在另一优选例中，所述间隔(spacer)序列包含所述靶序列的互补序列。

在另一优选例中，当所述靶序列为DNA时，所述靶序列位于原间隔序列临近基序(PAM)的3'端，并且所述PAM具有5'-PAM为TTN所示的序列，N为A、T、C或G。

在另一优选例中，所述靶序列是来自原核细胞或真核细胞的DNA或基于RNA反转录形成的DNA序列；或者，所述靶序列是非天然存在的DNA或基于RNA反转录形成的DNA序列。

在另一优选例中，所述靶序列包括cDNA序列。

在另一优选例中，所述靶序列包括单链DNA、双链DNA序列。

在另一优选例中，所述靶序列存在于细胞内。

在另一优选例中，所述靶序列存在于细胞核内或细胞质(例如，细胞器)内。

在另一优选例中，所述细胞是真核细胞。

在另一优选例中，所述细胞是原核细胞。

在另一优选例中，所述靶序列存在于细胞外部。

在另一优选例中，本发明第一方面所述蛋白连接有一个或多个NLS序列，或者，所述融合蛋白包含一个或多个NLS序列。

在另一优选例中，所述NLS序列连接至本发明第一方面所述蛋白的N端或C端。

在另一优选例中，所述NLS序列融合至本发明第一方面所述蛋白的N端或C端。

本发明第十二方面提供了一种试剂盒，包括一种或多种选自下列的组分：本发明第一方面所述的蛋白、本发明第二方面所述的蛋白变体、本发明第三方面所述的融合蛋白、本发明第四方面所述的多核苷酸、本发明第七方面所述的复合物、本发明第八方面所述的载体、本发明第十方面所述的CRISPR-Cas组合物或本发明第十一方面所述的系统。

在另一优选例中，所述试剂盒还包括标签或说明书。

在另一优选例中，所述试剂盒用于基因或基因组编辑、疾病治疗、靶向靶基因、切割目的基因或非目的基因的一种或多种。

本发明第十三方面提供了一种递送组合物，其特征在于，包含递送载体，以及选自下列的一种或多种：本发明第一方面所述的蛋白、本发明第二方面所述的蛋白变体、本发明第三方面所述的融合蛋白、本发明第四方面所述的多核苷酸、本发明第七方面所述的复合物、本发明第八方面所述的载体、本发明第十方面所述的CRISPR-Cas组合物或本发明第十一方面所述的系统。

在另一优选例中，所述递送载体是粒子。

在另一优选例中，所述递送载体选自脂质颗粒、糖颗粒、金属颗粒、蛋白颗粒、脂质体、外泌体、微泡、基因枪或病毒载体(例如，复制缺陷型逆转录病毒、慢病毒、腺病毒或腺相关病毒)。

本发明第十四方面提供了一种酶制剂，所述酶制剂包括本发明第一方面所述的蛋白、本发明第二方面所述的蛋白变体、本发明第三方面所述的融合蛋白、本发明第七方面所述的复合物、本发明第十方面所述的CRISPR-Cas组合物或本发明第十一方面所述的系统或本发明第十三方面所述的递送组合物。

在另一优选例中，所述的酶制剂包括注射剂、和/或冻干制剂。

15.一种药盒，其特征在于，包括：

第一容器，以及位于所述第一容器中的本发明第七方面所述的复合物或本发明第十方面所述的组合物或本发明第十一方面所述的系统，或含有本发明第七方面所述的复合物或本发明第十方面所述的组合物或本发明第十一方面所述的系统的药物。

在另一优选例中，所述的第一容器的药物是含本发明第七方面所述的复合物或本发明第十方面所述的组合物或本发明第十方面所述的系统的单方制剂。

在另一优选例中，所述药物的剂型选自下组：冻干制剂、液体制剂、或其组合。

在另一优选例中，所述药物的剂型为口服剂型或注射剂型。

在另一优选例中，所述的药盒还含有说明书。

本发明第十六方面提供了一种药盒，包括：

(a1)第一容器，以及位于所述第一容器中的本发明第一方面所述的蛋白、或本发明第二方面所述的蛋白变体、或本发明第三方面所述的融合蛋白、或其编码基因或其表达载体，或含有本发明第一方面所述的蛋白、或本发明第二方面所述的蛋白变体、或本发明第三方面所述的融合蛋白、或其编码基因或其表达载体的药物；

(b1)任选的第二容器，以及位于所述第二容器中的本发明第六方面所述的向导RNA或其表达载体，或含有本发明第六方面所述的向导RNA或其表达载体的药物。

在另一优选例中，所述的第一容器和第二容器为不同的容器。

在另一优选例中，所述的第一容器的药物是含本发明第一方面所述的蛋白、或本发明第二方面所述的蛋白变体、或本发明第三方面所述的融合蛋白、或其编码基因或其表达载体的单方制剂。

在另一优选例中，所述的第二容器的药物是含本发明第六方面所述的向导RNA或其表达载体的单方制剂。

在另一优选例中，所述药物的剂型为口服剂型或注射剂型。

在另一优选例中，所述的药盒还含有说明书。

本发明第十七方面提供了一种靶向和编辑靶基因或切割靶基因的方法，其特征在于，包括：将本发明第一方面所述的蛋白、或本发明第二方面所述的蛋白变体、或本发明第三方面所述的融合蛋白、或本发明第七方面所述的复合物或本发明第十方面所述的组合物或本发明第十一方面所述的系统或本发明第十三方面所述的递送组合物或本发明第十四方面所述的酶制剂或本发明第十五方面或本发明第十六方面所述的药盒与所述靶基因接触，或者递送至包含所述靶基因的细胞中，靶序列存在于所述靶基因中。

在另一优选例中，所述靶基因存在于细胞内。

在另一优选例中，所述细胞是原核细胞。

在另一优选例中，所述细胞是真核细胞，例如哺乳动物细胞(例如人类细胞)或植物细胞。

在另一优选例中，所述靶基因存在于体外的核酸分子(例如，质粒)中。

在另一优选例中，所述编辑靶基因或切割靶基因包括靶序列的断裂，如DNA的双链断裂或RNA的单链断裂，或将外源核酸插入所述断裂中。

在另一优选例中，所述靶基因包括DNA。

在另一优选例中，所述DNA包括单链DNA、双链DNA。

本发明第十八方面提供了一种诱导细胞状态改变的方法，所述方法包括将本发明第一方面所述的蛋白、或本发明第二方面所述的蛋白变体、或本发明第三方面所述的融合蛋白、或本发明第七方面所述的复合物或本发明第十方面所述的组合物或本发明第十一方面所述的系统或本发明第十三方面所述的递送组合物或本发明第十四方面所述的酶制剂或本发明第十五方面或本发明第十六方面所述的药盒与细胞中的靶基因接触。

本发明第十九方面提供了一种改变基因产物的表达的方法，包括：将本发明第一方面所述的蛋白、或本发明第二方面所述的蛋白变体、或本发明第三方面所述的融合蛋白、或本发明第七方面所述的复合物或本发明第十方面所述的组合物或本发明第十一方面所述的系统或本发明第十三方面所述的递送组合物或本发明第十四方面所述的酶制剂或本发明第十五方面或本发明第十六方面所述的药盒与编码所述基因产物的核酸分子接触，或者递送至包含所述核酸分子的细胞中，所述靶序列存在于所述核酸分子中。

在另一优选例中，所述核酸分子存在于体外的核酸分子(例如，质粒)中。

在另一优选例中，所述基因产物的表达被改变(例如，增强或降低)。

在另一优选例中，所述基因产物是蛋白。

在另一优选例中，所述的蛋白、融合蛋白、多核苷酸、分离的核酸分子、复合物、载体或组合物包含于递送载体中。

在另一优选例中，所述递送载体选自脂质颗粒、糖颗粒、金属颗粒、蛋白颗粒、脂质体、外泌体、病毒载体(如复制缺陷型逆转录病毒、慢病毒、腺病毒或腺相关病毒)。

在另一优选例中，用于改变靶基因或编码靶基因产物的核酸分子中的一个或多个靶序列来修饰细胞、细胞系或生物体。

本发明第二十方面提供了一种由本发明第十七方面至本发明第十九方面任一方面所述的方法获得的细胞或其子代，其中所述细胞包含在其野生型中不存在的修饰。

本发明第二十一方面提供了本发明第二十方面所述的细胞或其子代的细胞产物。

本发明第二十二方面提供了一种体外的、离体的或体内的细胞或细胞系或它们的子代，所述细胞或细胞系或它们的子代包含：本发明第一方面所述的蛋白、本发明第二方面所述的蛋白变体、本发明第三方面所述的融合蛋白、本发明第四方面所述的多核苷酸、本发明第七方面所述的复合物、本发明第八方面所述的载体、本发明第十方面所述的CRISPR-Cas组合物或本发明第十一方面所述的系统或本发明第十三方面所述的递送组合物。

在另一优选例中，所述细胞是原核细胞。

在另一优选例中，所述细胞是干细胞或干细胞系。

本发明第二十三方面提供了本发明第一方面所述的蛋白、本发明第二方面所述的蛋白变体、本发明第三方面所述的融合蛋白、本发明第四方面所述的多核苷酸、本发明第五方面所述的核酸分子、本发明第七方面所述的复合物、本发明第八方面所述的载体、本发明第十方面所述的CRISPR-Cas组合物或本发明第十一方面所述的系统或本发明第十二方面所述的试剂盒或本发明第十三方面所述的递送组合物或本发明第十四方面所述的酶制剂或本发明第十五方面或本发明第十六方面所述的药盒的用途，用于制备药物或制剂，所述药物或制剂用于核酸编辑(例如，基因或基因组编辑)。

在另一优选例中，所述基因或基因组编辑包括修饰基因、敲除基因、改变基因产物的表达、修复突变、和/或插入多核苷酸。

本发明第二十四方面提供了本发明第一方面所述的蛋白、本发明第二方面所述的蛋白变体、本发明第三方面所述的融合蛋白、本发明第四方面所述的多核苷酸、本发明第七方面所述的复合物、本发明第八方面所述的载体、本发明第十方面所述的CRISPR-Cas组合物或本发明第十一方面所述的系统或本发明第十二方面所述的试剂盒或本发明第十三方面所述的递送组合物或本发明第十四方面所述的酶制剂或本发明第十五方面或本发明第十六方面所述的药盒的用途，用于制备药物或制剂，所述药物或制剂用于选自下组的一种或多种：

(i)离体基因或基因组编辑；

(ii)离体单链DNA的检测；

(iii)编辑靶基因座中的靶序列来修饰生物或非人类生物；

(iv)治疗由靶基因座中的靶序列的缺陷引起的病症；

(v)治疗有需要的受试者的病症或疾病。

在另一优选例中，所述病症或疾病包括癌症、传染性疾病、神经疾病、眼科疾病、听力疾病。

在另一优选例中，所述疾病或病症包括囊性纤维化、进行性假肥大性肌营养不良(Duchenne型肌营养不良，DMD)、贝克肌营养不良、α-1-抗胰蛋白酶缺乏、庞贝病(糖原贮积病Ⅱ型)、强直性肌营养不良、亨廷顿病、脆性X综合征、弗里德赖希共济失调、肌萎缩侧索硬化、遗传性慢性肾脏病、镰状细胞病、β地中海贫血、额颞叶痴呆、莱伯氏先天性黑蒙、高脂血症、高胆固醇血症、转甲状腺素蛋白淀粉样变、视网膜疾病、黄斑变性、维尔姆斯瘤、尤文肉瘤、神经内分泌瘤、胶质母细胞瘤、神经母细胞瘤、黑色素瘤、皮肤癌、乳腺癌、结肠癌、直肠癌、前列腺癌、肝癌、肾癌、胰腺癌、肺癌、胆道癌、宫颈癌、子宫内膜癌、食管癌、胃癌、头颈癌、甲状腺髓样癌、卵巢癌、胶质瘤、淋巴瘤、白血病、骨髓瘤、急性淋巴细胞白血病、急性髓细胞性白血病、慢性淋巴细胞白血病、慢性髓细胞性白血病、何杰金氏淋巴瘤、非何杰金氏淋巴瘤和尿膀胱癌。

在另一优选例中，所述病症或疾病是由致病性点突变引起。

本发明第二十五方面提供了一种检测样品中是否存在靶标核酸分子的方法，所述方法包括将样品与本发明第一方面所述的蛋白、本发明第二方面所述的蛋白变体、本发明第三方面所述的融合蛋白、或本发明第七方面所述的复合物、本发明第十方面所述的CRISPR-Cas组合物或本发明第十一方面所述的系统、本发明第十二方面所述的试剂盒或本发明第十三方面所述的递送组合物或本发明第十四方面所述的酶制剂和非靶序列接触，检测非靶序列被切割产生的可检测信号，从而检测靶标核酸分子，所述非靶序列不与向导RNA杂交。

在另一优选例中，所述非靶序列被复合物或CRISPR-Cas组合物或系统或递送组合物中的蛋白切割，则表示所述样本中存在靶标核酸分子；而所述非靶序列不被复合物或CRISPR-Cas组合物或系统或递送组合物中的蛋白切割，则表示所述样本中不存在靶标核酸分子。

在另一优选例中，所述靶标核酸分子为靶标DNA。

在另一优选例中，所述的靶标DNA包括基于RNA反转录形成的DNA。

在另一优选例中，所述的靶标DNA包括cDNA。

在另一优选例中，所述的靶标DNA选自下组：单链DNA、双链DNA、或其组合。

应理解，在本发明范围内中，本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合，从而构成新的或优选的技术方案。限于篇幅，在此不再一一累述。

附图说明

图1显示了CasY6重组表达质粒(图1A)和LbCpf1重组表达图谱(图1B)。

图2显示了CasY6对应的直接重复(DirectRepeat，DR)序列的二级结构预测。

图3显示了Target质粒图谱。

图4显示了CasY6与LbCpf1在大肠杆菌体内的编辑效率对比。

图5显示了PHK09T质粒图谱。

图6显示了CasY6与LbCpf1在HEK293T细胞内的编辑效率对比。

图7示出了CasY6的四种突变体，其相较于野生型CasY6蛋白消除了催化活性(切割活性)。

图8示出了dCasY6在碱基编辑中的活性检测，其中，图8A示出了dCasY6构成的碱基编辑器在A2、A4、A13、A15-A17位点的单碱基编辑(A>G)效率；图8B示出了dCasY6构成的碱基编辑器在A7、A13、A20的单碱基编辑(A>G)效率。

具体实施方式

本发明人经过广泛而深入的研究，首次意外的发现了一种新的Cas蛋白，本发明的Cas蛋白具有非常好的基因编辑活性，可对靶基因进行有效编辑或切割，可有效治疗有需要的受试者的病症或疾病(比如，由致病性点突变引起的病症或疾病，包括囊性纤维化、进行性假肥大性肌营养不良(Duchenne型肌营养不良，DMD)、贝克肌营养不良、α-1-抗胰蛋白酶缺乏、庞贝病(糖原贮积病Ⅱ型)、强直性肌营养不良、亨廷顿病、脆性X综合征、弗里德赖希共济失调、肌萎缩侧索硬化、遗传性慢性肾脏病、镰状细胞病、β地中海贫血、额颞叶痴呆、莱伯氏先天性黑蒙、高脂血症、高胆固醇血症、转甲状腺素蛋白淀粉样变、视网膜疾病、黄斑变性、维尔姆斯瘤、尤文肉瘤、神经内分泌瘤、胶质母细胞瘤、神经母细胞瘤、黑色素瘤、皮肤癌、乳腺癌、结肠癌、直肠癌、前列腺癌、肝癌、肾癌、胰腺癌、肺癌、胆道癌、宫颈癌、子宫内膜癌、食管癌、胃癌、头颈癌、甲状腺髓样癌、卵巢癌、胶质瘤、淋巴瘤、白血病、骨髓瘤、急性淋巴细胞白血病、急性髓细胞性白血病、慢性淋巴细胞白血病、慢性髓细胞性白血病、何杰金氏淋巴瘤、非何杰金氏淋巴瘤和尿膀胱癌)；与现有技术已公开的Cas酶相比，本发明的Cas蛋白的编辑效率具备优势，为碱基编辑工具提供了更多选择；本发明所公开的Cas酶所构建的碱基编辑器能够有效进行碱基编辑，具有潜在的应用前景。在此基础上，本发明人完成了本发明。

术语

以下实施例仅用于描述本发明，而非限定本发明。除非特别指明，否则基本上按照本领域内熟知的以及在各种参考文献中描述的常规方法进行实施例中描述的实验和方法。

另外，实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。本领域技术人员知晓，实施例以举例方式描述本发明，且不意欲限制本发明所要求保护的范围。本文中提及的全部公开案和其他参考资料以其全文通过引用合并入本文。

为了可以更容易地理解本公开，首先定义某些术语。如本申请中所使用的，除非本文另有明确规定，否则以下术语中的每一个应具有下面给出的含义。在整个申请中阐述了其它定义。

术语“约”可以是指在本领域普通技术人员确定的特定值或组成的可接受误差范围内的值或组成，其将部分地取决于如何测量或测定值或组成。例如，如本文所用，表述“约100”包括99和101和之间的全部值(例如，99.1、99.2、99.3、99.4等)。

如本文所用，术语“含有”或“包括(包含)”可以是开放式、半封闭式和封闭式的。换言之，所述术语也包括“基本上由…构成”、或“由…构成”。

序列同一性(或同源性)通过沿着预定的比较窗(其可以是参考核苷酸序列或蛋白的长度的50％、60％、70％、80％、90％、95％或100％)比较两个对齐的序列，并且确定出现相同的残基的位置的数目来确定。通常地，这表示为百分比。核苷酸序列的序列同一性的测量是本领域技术人员熟知的方法。

Cas蛋白

在本发明中，Cas蛋白、Cas酶、Cas效应蛋白可以互换使用，Cas蛋白取其最广泛的含义，包含野生型Cas蛋白，其衍生物或变体、类似物，及其功能性片段例如寡核苷酸结合片段。

术语“野生型”具有本领域技术人员通常理解的含义，其表示生物、菌株、基因、蛋白的典型形式或者当它在自然界存在时区别于突变体或变体形式的特征，其可从自然中的来源分离并且没有被人为有意地修饰。

术语“变体”、“衍生物”和“类似物”是指基本上保持本发明Cas蛋白的功能或活性的多肽。

通常，蛋白的衍生化不会不利影响该蛋白的期望活性(例如，与向导RNA结合的活性、核酸内切酶活性、在向导RNA引导下与靶序列特定位点结合并切割的活性)，也就是说蛋白的衍生物与蛋白有相同的活性。“衍生物”的经修饰形式包括蛋白的一个或多个氨基酸可以被缺失、插入、修饰和/或取代。术语“非天然存在的”或“工程化的”可互换地使用并且表示人工的参与。

在一个方面，本发明提供了一种Cas蛋白，其包含与SEQ ID NO.1的氨基酸序列具有至少80％，81％，82％，83％，84％，85％，86％，87％，88％，89％，90％，91％，92％，93％，94％，95％，96％，97％，98％，99％或100％同一性的氨基酸序列，并且基本保留了其源自的序列的生物学功能；

在一个实施方式中，所述Cas蛋白的氨基酸序列与SEQ ID NO.1的氨基酸序列相比，具有一个或多个氨基酸的置换、缺失或添加的序列，并且基本保留了其源自的序列的生物学功能；

在一个实施方式中，所述的Cas蛋白，其包含SEQ ID NO.1所示的氨基酸序列；

或与SEQ ID NO.1所示的序列相比，具有一个或多个氨基酸的置换、缺失或添加(例如1个，2个，3个，4个，5个，6个，7个，8个，9个或10个氨基酸的置换、缺失或添加)的序列；或与SEQ ID NO.1所示的氨基酸序列具有至少90％，91％，92％，93％，94％，95％，96％，97％，98％，99％或100％的氨基酸序列同一性的序列；

在一个实施方式中，所述蛋白具有SEQ ID NO.1所示的氨基酸序列。

本领域技术人员清楚，可以改变蛋白质的结构而不对其活性和功能性产生不利影响，例如在蛋白质氨基酸序列中引入一个或多个保守性氨基酸取代，而不会对蛋白质分子的活性和/或三维结构产生不利影响。

本领域技术人员清楚保守性氨基酸取代的实例以及实施方式。具体的说，可以用与待取代位点属于相同组的另一氨基酸残基取代该氨基酸残基，即用非极性氨基酸残基取代另一非极性氨基酸残基，用极性不带电荷的氨基酸残基取代另一极性不带电荷的氨基酸残基，用碱性氨基酸残基取代另一碱性氨基酸残基，和用酸性氨基酸残基取代另一酸性氨基酸残基。这样的取代的氨基酸残基可以是也可以不是由遗传密码编码的。只要取代不导致蛋白质生物活性的失活，则一种氨基酸被属于同组的其他氨基酸替换的保守取代落在本发明的范围内。因此，本发明的蛋白可以在氨基酸序列中包含一个或多个保守性取代，这些保守性取代最好根据表A进行替换而产生。另外，本发明也涵盖还包含一个或多个其他非保守取代的蛋白，只要该非保守取代不显著影响本发明的蛋白质的所需功能和生物活性即可。

保守氨基酸置换可以在一个或多个预测的非必需氨基酸残基处进行。“非必需”氨基酸残基是可以发生改变(缺失、取代或置换)而不改变生物活性的氨基酸残基，而“必需”氨基酸残基是生物活性所需的。“保守氨基酸置换”是其中氨基酸残基被具有类似侧链的氨基酸残基替代的置换。氨基酸置换可以在Cas酶的非保守区域中进行。一般而言，此类置换不对保守的氨基酸残基，或者不对位于保守基序内的氨基酸残基进行，其中此类残基是蛋白质活性所需的。然而，本领域技术人员应当理解，功能变体可以具有较少的在保守区域中的保守或非保守改变。

表A

本领域技术人员已经知晓，从蛋白质的N和/或C末端改变(置换、删除、截短或插入)一或多个氨基酸残基而仍可以保留其功能活性。因此，从本发明的Cas蛋白的N和/或C末端改变了一或多个氨基酸残基、同时保留了其所需功能活性的蛋白，也在本发明的范围内。这些改变可以包括通过现代分子方法例如PCR而引入的改变，所述方法包括借助于在PCR扩增中使用的寡核苷酸之中包含氨基酸编码序列而改变或延长蛋白质编码序列的PCR扩增。

应认识到，蛋白质可以以各种方式进行改变，包括氨基酸置换、删除、截短和插入，用于此类操作的方法是本领域技术人员通常已知晓的。

例如，可以通过对DNA的突变来制备Cas蛋白的氨基酸序列变体。还可以通过其他诱变形式和/或通过定向进化来完成，例如，使用已知的诱变、重组和/或改组方法，结合相关的筛选方法，来进行一或多个氨基酸取代；或一至多个氨基酸的缺失和/一至多个氨基酸插入。

本领域技术人员能够理解，本发明Cas蛋白中的这些微小氨基酸变化可以出现(例如，天然存在的突变)或者产生(例如，可使用r-DNA技术)而不损失蛋白质功能或活性。如果这些突变出现在蛋白的催化结构域、活性位点或其它功能结构域中，则多肽的性质可改变，但多肽可保持其活性。如果存在的突变不接近催化结构域、活性位点或其它功能结构域中，则可预期影响较小。

本领域技术人员可以根据本领域已知的方法，例如定位诱变或蛋白进化或生物信息系的分析，来鉴定Cas蛋白的必需氨基酸。蛋白的催化结构域、活性位点或其它功能结构域也能够通过结构的物理分析而确定，如通过以下这些技术：如核磁共振、晶体学、电子衍射或光亲和标记，结合推定的关键位点氨基酸的突变来确定。

直系同源物(orthologue,ortholog)

如本文中所使用的，术语“直系同源物(orthologue,ortholog)”具有本领域技术人员通常理解的含义。作为进一步指导，如本文中所述的蛋白质的“直系同源物”是指属于不同物种的蛋白质，该蛋白质执行与作为其直系同源物的蛋白相同或相似的功能。

本发明的核酸切割包括：由所述Cas蛋白产生的靶核酸中的DNA或RNA断裂(Cis切割)、利用Cas蛋白旁切活性导致的DNA或RNA在侧枝核酸底物(单链核酸底物)中的断裂(即非特异性或非靶向性切割，Trans切割或旁切活性)。在一些实施方式中，所述切割是双链DNA断裂。在一些实施方案中，切割是单链DNA断裂或单链RNA断裂。

Trans切割是指在某些环境中，激活的Cas12家族蛋白在结合靶序列后仍然保持活性，并继续非特异性地切割非靶寡核苷酸。该旁切活性能够使用Cas系统检测特定靶寡核苷酸的存在。例如，将Cas12i系统工程化以非特异性切割ssDNA或转录物。旁切活性被用于称为SHERLOCK的高灵敏度和特异性核酸检测平台，可用于许多临床诊断(Gootenberg,J.S.等人,Nucleic acid detection with CRISPR-Cas13a/C2c2.Science 356,438-442(2017))。

融合蛋白

在一个方面，本发明提供了一种融合蛋白，所述融合蛋白包括前述任一项权利要求所述的Cas蛋白和一个或多个功能结构域。

在一个实施方式中，所述功能结构域包括定位信号、报告蛋白、Cas蛋白靶向部分、DNA结合域、表位标签、转录激活域、转录抑制域、核酸酶、脱氨结构域、甲基化酶、脱甲基酶、转录释放因子、HDAC、裂解活性多肽、连接酶中的一种或多种；

在一个实施例中，“甲基化酶”，示例性的，例如HhaI DNA m5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3、ZMET2、CMT1、CMT2等。

“脱甲基化酶”是指从核酸、蛋白(例如，组蛋白)和其他分子中去除甲基(CH3-)基团的酶。脱甲基化酶在表观遗传修饰机制中很重要。脱甲基化酶蛋白通过控制DNA和组蛋白上发生的甲基化水平来改变基因组的转录调控，并且进而调控生物体内特定基因座处的染色质状态，例如TET1(ten-eleven translocation 1)、十-十一易位(TET)双加氧酶1(TET1CD)、DME、DML1、DML2、ROS1等。

在另一优选例中，所述转录释放因子，示例性的，例如真核释放因子1(ERF1)活性、真核释放因子3(ERF3)。

在一个实施方式中，所述功能结构域选自腺苷脱氨酶催化结构域或胞苷脱氨酶催化结构域。

在一个实施方式中，所述定位信号包括核定位信号和/或核输出信号；

优选地，所述核输出信号包括人类蛋白酪氨酸激酶2；

优选地，所述报告蛋白包括谷胱甘肽-S-转移酶、辣根过氧化物酶、氯霉素乙酰转移酶、β-半乳糖苷酶、β-葡糖醛酸糖苷酶或自发荧光蛋白中的一种或多种；

优选地，所述自发荧光蛋白包括绿色荧光蛋白、HcRed、DsRed、青色荧光蛋白、黄色荧光蛋白或蓝色荧光蛋白中的一种或多种；

优选地，所述DNA结合域包括甲基化结合蛋白、LexADBD或Gal4DBD中的一种或多种；

优选地，所述表位标签包括组氨酸标签、V5标签、FLAG标签、流感病毒血凝素标签、Myc标签、VSV-G标签或硫氧还蛋白标签中的一种或多种；

优选地，所述转录激活域包括VP64和/或VPR；

优选地，所述转录抑制域包括KRAB和/或SID；

优选地，所述核酸酶包括FokI；

优选地，所述脱氨结构域包括ADAR1、ADAR2、APOBEC、AID或TAD中的一种或多种；

优选地，所述裂解活性多肽包括具有单链RNA裂解活性的多肽、具有双链RNA裂解活性的多肽、具有单链DNA裂解活性的多肽或具有双链DNA裂解活性的多肽；

优选地，所述连接酶包括DNA连接酶和/或RNA连接酶。

在一个实施方式中，所述功能结构域是TadA8e的全长或功能性片段。

多核苷酸

在一个方面，本发明提供了一种多核苷酸，所述多核苷酸为编码所述Cas蛋白的多核苷酸序列，或编码前述所述融合蛋白的多核苷酸序列。

在一个实施方式中，所述多核苷酸为根据宿主细胞的密码子偏好性进行密码子优化的DNA分子；

在一个实施方式中，宿主细胞包括原核细胞或真核细胞；

在一个实施方式中，所述DNA分子包括与SEQ ID NO.2中任一项所述的核苷酸序列具有70％以上，优选90％以上，更优选95％以上，进一步优选99％，更进一步优选为100％同一性的核苷酸。

CRISPR系统

术语“规律成簇的间隔短回文重复(CRISPR)-CRISPR-相关(Cas)(CRISPR-Cas)系统”或“CRISPR系统”可互换地使用并且具有本领域技术人员通常理解的含义，其通常包含与CRISPR相关(“Cas”)基因的表达有关的转录产物或其他元件，或者能够指导所述Cas基因活性的转录产物或其他元件。

CRISPR-Cas组合物

在一个方面，本发明还提供了一种CRISPR-Cas组合物，所述组合物包含：

(1)蛋白组分：前述的Cas蛋白，或前述的融合蛋白；或编码所述Cas蛋白或所述的融合蛋白的核酸分子；

(2)RNA组分：向导RNA，或一种或多种编码所述向导RNA的核酸，或向导RNA的前体RNA，或编码所述向导RNA的前体RNA的核酸；

所述蛋白组分与核酸组分相互结合形成复合物。

在一个实施方式中，所述的组合物为活化的CRISPR复合物，所述活化的CRISPR复合物进一步包含：结合在所述向导RNA上的靶核酸的靶序列。

在一个实施方式中，所述的CRISPR-Cas组合物，包括一个或多个载体，所述一个或多个载体包含：

(1)第一调控元件，所述第一调控元件可操作地连接至编码所述的Cas蛋白的核苷酸序列或编码所述的融合蛋白的核苷酸序列；和

(2)第二调控元件，所述第二调控元件可操作地连接至编码所述的向导RNA的核苷酸序列，所述向导RNA包含：

(a)能够与靶核酸的靶序列杂交的间隔(Spacer)序列，和

(b)连接至所述间隔(Spacer)序列的能够引导所述Cas蛋白结合至所述向导RNA以形成靶向所述靶序列的CRISPR-Cas复合物的直接重复(Direct Repeat，DR)序列；

其中所述第一调控元件和所述第二调控元件位于所述CRISPR-Cas载体系统的相同或不同载体上。

在一个实施方式中，所述第一调控元件或第二调控元件包括启动子，所述启动子包括诱导型启动子、组成型启动子或组织特异性启动子中的一种或多种；

在一个实施方式中，所述启动子包括T7、SP6、T3、CMV、EF1a、SV40、PGK1、humanβ-actin、CAG、U6、H1、T7、T7lac、araBAD、trp、lac或Ptac中的一种或多种；

在一个实施方式中，所述第一调控元件和第二调控元件位于相同或不同载体上。

在一个实施方式中，所述载体包括逆转录病毒载体、慢病毒载体、腺病毒载体、腺相关病毒载体、单纯疱疹载体或噬菌粒载体；

在一个实施方式中，所述载体包括质粒载体。

在一个实施方式中，所述靶核酸包括来源于真核生物的DNA或来源于原核生物的DNA；

在一个实施方式中，所述真核生物包括动物或植物；

在一个实施方式中，所述靶核酸包括非人类哺乳动物DNA、人类DNA、昆虫DNA、鸟类DNA、爬行动物DNA、两栖动物DNA、啮齿动物DNA、鱼类DNA、蠕虫DNA、线虫DNA或酵母DNA；

在一个实施方式中，所述非人类哺乳动物DNA包括非人类灵长类DNA。

CRISPR/Cas复合物

术语“CRISPR/Cas复合物”是指，gRNA(guide RNA)或成熟crRNA(或指导RNA)与Cas蛋白结合所形成的复合体，其包含杂交到靶序列的引导序列上并且与Cas蛋白结合的同向重复序列，该复合体能够识别并切割能与该指导RNA或成熟crRNA杂交的靶核苷酸。

向导RNA(gRNA，guide RNA)

术语“向导RNA(guide RNA，gRNA)”、“成熟crRNA”、“crRNA”、“指导序列”、“指导RNA”可互换地使用并且具有本领域技术人员通常理解的含义。一般而言，指导RNA可以包含同向重复序列(direct repeat，DR)序列和间隔(spacer)序列，或者基本上由或由同向重复(DR)序列和间隔(spacer)序列组成。

在某些情况下，间隔(spacer)序列是与靶序列具有足够互补性从而与所述靶序列杂交并引导CRISPR-Cas复合物与所述靶序列的特异性结合的任何多核苷酸序列。在一个实施方式中，当最佳比对时，间隔(spacer)序列与其相应靶序列之间的互补程度为至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、或至少99％。指导序列包含与靶核酸序列具有足够互补性以与靶核酸序列杂交并引导复合物与靶核酸序列的序列特异性结合的序列(例如直接重复(DR)序列)。

在本领域已知，在有足够的互补性发挥作用的基础上，不需要完全的互补性，因此，在需要的情况下，可以通过引入错配(例如，间隔(spacer)序列与靶核酸之间的一个或多个错配，诸如1或2个核苷酸的错配(包括沿着间隔序列/靶标序列的错配的位置))来实现对切割效率的调节。例如，如果期望靶标的小于100％的切割率(例如，在细胞群体中)，则间隔序列中可以引入间隔序列与靶序列之间的1或2个错配。

在一个方面，本发明提供了一种向导RNA，所述向导RNA包括能够结合所述的Cas蛋白的直接重复(DirectRepeat，DR)序列和能够靶向靶序列的间隔(spacer)序列。

在一个实施方式中，所述同向重复序列，所述同向重复序列(Direct Repeat，DR)包含SEQ ID NO.5所示的序列。

在一个实施方式中，所述同向重复序列的3’端包含茎环结构，还包括由第一茎核苷酸链和第二茎核苷酸链彼此杂交形成所述茎环结构的茎，所述环核苷酸链形成所述茎环结构的环；

在一个实施方式中，所述同向重复序列包括与SEQ ID NO.5所述的核苷酸序列具有至少80％同一性的核苷酸序列；

在一个实施方式中，所述同向重复序列包括与SEQ ID NO.5所述的核苷酸序列具有至少85％以上，更优选90％以上，进一步优选95％以上同一性的核苷酸序列；

在一个实施方式中，所述同向重复序列包括SEQ ID NO.5所述的核苷酸序列。

在一个实施方式中，所述间隔(spacer)序列的80％以上与所述靶核酸互补；

在一个实施方式中，所述间隔(spacer)序列的90％以上，更优选95％以上，进一步优选99％以上，更进一步优选100％与所述靶核酸互补；

在一个实施方式中，所述间隔(spacer)序列的长度为18-41nt；

在一个实施方式中，所述间隔(spacer)序列长度为20nt。

靶核酸

在本发明中，靶核酸与靶序列或靶核酸序列或靶标核酸分子互换使用，是指特定的核酸，其包含与向导RNA中的间隔序列全部或部分互补的核酸序列。“靶序列”是指被向导RNA中的间隔序列所靶向的多核苷酸，例如与该间隔序列具有互补性的序列，其中靶序列与间隔序列之间的杂交将促进CRISPR-Cas复合物(包括Cas蛋白和向导RNA)的形成。完全互补性不是必需的，只要存在足够互补性以引起杂交并且促进一种CRISPR-Cas复合物的形成即可。在一些实施例中，靶核酸包含非编码区(例如，启动子或终止子)。在一些实施例中，靶核酸是单链的，或双链的。

靶序列可以包含任何多核苷酸，如DNA。在某些情况下，所述靶序列位于细胞内或细胞外。在某些情况下，所述靶序列位于细胞的细胞核、细胞质、细胞器(例如线粒体或叶绿体)内。

该靶核酸可以是一个编码基因产物(例如，蛋白质)的序列或一个非编码序列(例如，调节多核苷酸或无用DNA)。在某些情况下，该靶序列应该与原间隔序列临近基序(PAM)相关。

供体模板

本发明中，供体模板核酸或供体模板可互换使用，是指在本文所述Cas蛋白改变了靶核酸之后，一种或多种细胞蛋白质可以使用其来改变靶核酸的结构的核酸分子。

在一些实施例中，供体模板核酸是双链核酸或单链核酸。在一些实施例中，供体模板核酸是线性的或环状的(例如，质粒)。在一些实例中，供体模板核酸是外源核酸分子。在一些实例中，供体模板核酸是内源核酸分子(例如，染色体)。在一些实施例中，可以利用供体模板实现基因重组，该重组是同源重组。

切割

切割是指由本文所述Cas蛋白产生的靶核酸中的DNA断裂。在一些实施例中，切割是双链DNA断裂。在一些实施例中，切割是单链DNA断裂。

本发明中，切割靶核酸或修饰靶核酸的含义可以重叠。修饰靶核酸不仅包括对单核苷酸的修饰，还包括核酸片段的插入或缺失。

报告核酸

报告核酸是指可被本文所述的激活的CRISPR系统蛋白切割或以其他方式减活的分子。报告核酸包含可被CRISPR蛋白切割的核酸元件(例如，采用单链非靶向核酸分子，其两端包括不同的报告基团或标记分子)。核酸元件的切割产生可检测的信号。在切割之前，或者当报告核酸处于“活性”状态时，报告核酸阻止阳性可检测信号的产生或检测。将理解的是，在某些示例实施方式中，在存在活性报告核酸的情况下可产生最小的背景信号。阳性可检测信号可以是可使用光学、荧光、化学发光、电化学或本领域已知的其他检测方法检测的任何信号。例如，在某些实施方式中，当存在报告核酸时，可检测到第一信号(即阴性可检测信号)，然后在检测到靶分子以及通过激活的CRISPR蛋白切割或减活后将其转换为第二信号(例如阳性可检测信号)。报告核酸可以为单链DNA分子、单链RNA分子或单链DNA-RNA杂交体。

本发明所述的检测方法，可用于待检测靶核酸的定量检测。所述的定量检测指标可以根据报告基团的信号强弱进行定量，如根据荧光基团的发光强度，或根据显色条带的宽度等。

功能结构域

在本发明中，功能结构域取其最广泛的含义，包括蛋白例如酶或因子本身或其具有特定功能片段/结构域。Cas蛋白(例如dCas蛋白)与一个或多个功能结构域相连接/缔结，所述功能结构域选自定位信号、报告蛋白、Cas蛋白靶向部分、DNA结合域、表位标签、转录激活域、转录抑制域、核酸酶、脱氨结构域、甲基化酶、脱甲基酶、转录释放因子、HDAC、裂解活性多肽、连接酶中的一种或多种。当包括多于一个功能结构域时，所述功能结构域可以相同或不同。

脱氨结构域

在本发明中脱氨结构域包括脱氨酶(例如腺苷脱氨酶或胞苷脱氨酶)催化结构域，如本文所用，“腺苷脱氨酶”或“腺苷脱氨酶蛋白”是指蛋白质，多肽，或蛋白质或多肽的一个或多个功能结构域，其能够催化将腺嘌呤(或分子的腺嘌呤部分)转化为次黄嘌呤(或分子的次黄嘌呤部分)的水解脱氨反应，如下所示。在一些实施方式中，含腺嘌呤的分子是腺苷(A)，并且含次黄嘌呤的分子是肌苷(I)。含腺嘌呤的分子可以是脱氧核糖核酸(DNA)或核糖核酸(RNA)。

腺苷脱氨酶包括但不限于称为作用于RNA的腺苷脱氨酶的酶家族成员(ADAR)，称为作用于tRNA的腺苷脱氨酶的酶家族成员(ADAT)，以及其他含腺苷脱氨酶结构域(ADAD)的家族成员。根据本公开，腺苷脱氨酶能够靶向RNA/DNA和RNA双链体中的腺嘌呤。在特定的实施方式中，腺苷脱氨酶已被修饰以增加其编辑RNA双链体的RNA/DNA异源双链体中的DNA的能力。

在一些实施例中，脱氨酶是胞苷脱氨酶。术语“胞苷脱氨酶”或“胞苷脱氨酶蛋白”是指蛋白质、多肽或者蛋白质或多肽的一个或多个功能结构域，其能够催化将胞嘧啶(或分子的胞嘧啶部分)转化为尿嘧啶(或分子的尿嘧啶部分)的水解脱氨基反应。在一些实施例中，含胞嘧啶的分子是胞苷(C)，并且含尿嘧啶的分子是尿苷(U)。所述含胞嘧啶的分子可以是脱氧核糖核酸(DNA)或核糖核酸(RNA)。

胞苷脱氨酶包括但不限于被称为载脂蛋白BmRNA编辑复合物(APOBEC)家族脱氨酶的酶家族的成员，激活诱导的脱氨酶(AID)，或胞苷脱氨酶1(CDA1)。在特定的实施方式中，APOBEC家族脱氨酶。

同一性

“同一性”用于指两个多肽之间或两个核酸之间序列的匹配情况，“同一性”表示所述多肽或核酸序列之间相同的残基的数目占残基总数的百分比，且基于突变类型确定残基总数的计算。突变类型包括在序列任一端或两端的插入(延伸)、在序列任一端或两端的缺失(截短)、一个或多个氨基酸/核苷酸的置换/替代、在序列内部的插入、在序列内部的缺失。

以多肽序列为例，如果突变类型为以下中的一种或多种：一个或多个氨基酸/核苷酸的置换/替代、在序列内部的插入和在序列内部的缺失，则残基总数以比较的分子中较大者来计算。如果突变类型还包括在序列任一端或两端的插入(延伸)或在序列任一端或两端的缺失(截短)，则在任一端或两端插入或缺失的氨基酸的数量(例如，在两端插入或缺失的数量小于20个)并不计入残基总数中。在计算同一性百分数时，将正在比较的序列以产生序列之间最大匹配的方式比对，通过特定算法解决比对中的空位(如果存在的话)。核苷酸的同一性计算同理。

载体

载体为一种核酸分子，能够运送与其连接的另一种核酸分子。

载体包括但不限于，单链、双链、或部分双链的核酸分子；包括一个或多个自由端、无自由端(例如环状的)的核酸分子；包括DNA、RNA、或两者的核酸分子；以及本领域已知的其他多种多样的多核苷酸。载体可以通过转化，转导或者转染导入宿主细胞，使其携带的遗传物质元件在宿主细胞中获得表达。一种载体可以被引入到宿主细胞中而由此产生转录物、蛋白质、或肽，包括由如本文所述的蛋白、融合蛋白、分离的核酸分子等(例如，CRISPR转录物，如核酸转录物、蛋白或酶)。一种载体可以含有多种控制表达的元件，包括但不限于，启动子序列、转录起始序列、增强子序列、选择元件及报告基因。载体还可含有复制起始位点。

载体包括质粒、病毒载体，所述质粒是指其中可以通过例如标准分子克隆技术插入另外的DNA片段的环状双链DNA环。病毒载体，其中病毒衍生的DNA或RNA序列存在于用于包装病毒的载体中，病毒包括例如逆转录病毒、复制缺陷型逆转录病毒、腺病毒、复制缺陷型腺病毒及腺相关病毒。病毒载体还包含由用于转染到一种宿主细胞中的病毒携带的多核苷酸。一些载体(例如，具有细菌复制起点的细菌载体和附加型哺乳动物载体)能够在它们被导入的宿主细胞中自主复制。

其他载体(例如，非附加型哺乳动物载体)在引入宿主细胞后整合到该宿主细胞的基因组中，并且由此与该宿主基因组一起复制。而且，某些载体能够指导它们可操作连接的基因的表达。这样的载体被称为“表达载体”。

在一些实施方式中，可以通过例如以下方式将载体(例如，病毒载体或非病毒载体，例如慢病毒载体或质粒)递送至目的组织：肌肉内注射、静脉内施用、经皮施用、鼻内施用、口服施用或粘膜施用。上述递送可以是经由单剂量或者多剂量进行的。本领域技术人员应理解的是，本文有待递送的实际剂量可以在很大程度上根据多种因素而变化，该多种因素包括但不限于载体选择、靶细胞、生物体、组织、有待治疗的受试者的一般状况、所寻求的转化/修饰的程度、施用途径、施用方式和所寻求的转化/修饰的类型。

调控元件

“调控元件”包括启动子、增强子、内部核糖体进入位点(IRES)和其他表达控制元件(例如转录终止信号，如多聚腺苷酸化信号、poly-U序列)，其详细描述可参考Goeddel，GENE EXPRESSIONTECHNOLOGY:METHODS IN ENZYMOLOGY 185，Academic Press，SanDiego，Calif(1990)。在一些情况下，调控元件包括指导一个核苷酸序列在许多类型的宿主细胞中的组成型表达的那些序列以及指导该核苷酸序列只在某些宿主细胞中表达的那些序列(例如，组织特异型调节序列)。组织特异型启动子可主要指导在感兴趣的期望组织中的表达，所述组织例如肌肉、神经元、骨、皮肤、血液、特定的器官(例如肝、胰腺)或特殊的细胞类型(例如淋巴细胞)。在另一些情况下，调控元件还可以时序依赖性方式(如以细胞周期依赖性或发育阶段依赖性方式)指导表达，该方式可以是或者可以不是组织或细胞类型特异性的。

“启动子”是指一段位于基因的上游能启动下游基因表达的非编码核苷酸序列。组成型启动子是这样的核苷酸序列：当其与编码或者限定基因产物的多核苷酸可操作地相连时，在细胞的大多数或者所有生理条件下，将会导致细胞中基因产物的产生。诱导型启动子是指对内源或外源刺激的存在，例如通过化学化合物(化学诱导剂)响应，或对环境、激素、化学品、和/或发育信号响应，选择性表达编码序列或功能RNA的启动子。诱导型或调节型启动子包括例如通过光、热、胁迫、水淹或干旱、盐胁迫、渗透胁迫、植物激素、伤口或化学品(如乙醇、脱落酸(ABA)、茉莉酮酸酯、水杨酸或安全剂)诱导或调节的启动子。

宿主细胞

“宿主细胞”，是指真核细胞(例如，动物细胞、植物细胞、真菌细胞等)、原核细胞(例如一些微生物细胞、大肠杆菌、枯草菌等)或来自以单细胞实体形式培养的多细胞生物体(例如细胞系)的细胞，所述细胞用作核酸的受体(例如表达载体)，且包括已通过核酸遗传修饰的原始细胞的后代。

应理解，单一细胞的后代可归因于天然、偶发或故意突变而不一定与原始亲本细胞具有完全相同的形态或基因组等。“重组宿主细胞”(也称为“遗传修饰宿主细胞”)为其中已引入异源核酸，例如表达载体的宿主细胞。

本领域技术人员将理解，表达载体的设计可取决于诸如待转化的宿主细胞的选择、所希望的表达水平等因素。

在另一个方面中，本发明还提供了一种宿主细胞或其后代，所述宿主细胞包含前述Cas蛋白，或前述融合蛋白，或前述多核苷酸，或前述载体系统，或前述CRISPR-Cas系统，或前述组合物。

在一个实施方式中，所述宿主细胞包括非人类哺乳动物、人类、昆虫、鸟类、爬行动物、两栖动物、啮齿动物、鱼类、蠕虫、线虫或酵母细胞。

在一个方面，本发明还提供了一种多细胞生物体，所述多细胞生物体包含前述细胞或其后代。

在一个实施方式中，所述的多细胞生物体是用于相关疾病的动物模型或植物模型。

NLS

NLS是指“核定位序列”或“核定位信号”，是指促使蛋白质进入细胞核内的氨基酸序列。核定位序列是本领域中已知的(例如Plank等人在2000年11月23日提交的国际PCT申请PCT/EP2000/011690并且在2001年5月31日公布为WO/2001/038547中有所描述)，所述专利通过引用其对于示例性核定位序列的公开内容而并入本文。在其他实施方案中，NLS是经优化的NLS，例如，Koblan等人,Nature Biotech.2018doi:10.1038/nbt.4172中所述。在一些实施例中，NLS包含以下氨基酸序列：KRTADGSEFESPKKKRKV(SEQ ID NO.35)、AVKRPAATKKAGQAKKKKLD(SEQ ID NO.36)、KRPAATKKAGQAKKKK(SEQ ID NO.37)、KKTELQTTNAENKTKKL(SEQ ID NO.38)、KRGINDRNFWRGENGRKTR(SEQ ID NO.39)、RKSGKIAAIVVKRPRK(SEQ ID NO.40)、PKKKRKV(SEQ ID NO.41)或MDSLLMNRRKFLYQFKNVRWAKGRRETYLC(SEQ ID NO.42)。

可操作地连接

“可操作地连接”是指目标核苷酸序列以允许核苷酸序列表达的方式(例如，在体外转录/翻译系统中或者当载体被引入宿主细胞中时在宿主细胞中)连接至调控元件。有利的载体包括慢病毒和腺相关病毒，并且也可选择这些载体的类型以靶向特定类型的细胞。

互补

“互补性”是指一个核酸序列与另一个核酸序列借助于传统的沃森-克里克或其他非传统类型形成一个或多个氢键的能力。互补百分比表示一个核酸分子中可与另一个核酸序列形成氢键(例如，沃森-克里克碱基配对)的残基的百分比(例如，10个之中有5、6、7、8、9、10个互补，则互补百分比为50％、60％、70％、80％、90％和100％)。“完全互补”表示一个核酸序列的所有连续残基与另一个核酸序列中的相同数目的连续残基均形成氢键。“基本上互补”是指在一个具有8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50个或更多个核苷酸的区域上至少为60％、65％、70％、75％、80％、85％、90％、95％、97％、98％、99％或100％的互补程度，或者是指在严格条件下杂交的两个核酸。

与杂交相关的术语“严格条件”是指与靶序列具有互补性的一个核酸主要地与该靶序列杂交并且基本上不杂交到非靶序列上的条件。严格条件通常是序列依赖性的，并且取决于许多因素。一般而言，该序列越长，则该序列特异性地杂交到其靶序列上的温度就越高。

“杂交”是指其中一个或多个多核苷酸反应形成一种复合物的反应，该复合物经由这些核苷酸残基之间的碱基的氢键键合而稳定化。该复合物可包含形成一个双链体的两条链、形成多链复合物的三条或多条链、单个自我杂交链、或这些的任何组合。杂交反应可以构成一个更广泛的过程(如PCR的开始、或经由一种酶的多核苷酸的切割)中的一个步骤。能够与一个给定序列杂交的序列被称为该给定序列的“互补物”。

靶序列与gRNA的杂交，表示靶序列和gRNA的核酸序列至少60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的可以杂交，形成复合物；或者代表靶序列和gRNA的核酸序列至少有12个、15个、16个、17个、18个、19个、20个或更多个碱基可以互补配对，杂交形成复合物。

表达

核酸表达包括从DNA序列产生RNA模板(例如转录)、RNA转录物的加工(例如通过剪接、编辑、5′帽形成和/或3′末端加工)、将RNA翻译成多肽或蛋白质或多肽或蛋白质的翻译后修饰中的一种或多种。

递送

“递送”指向目的地提供实体(如药物)，例如，本发明的CRISPR-Cas系统/组合物的组分可以各种形式递送，例如DNA/RNA或RNA/RNA或蛋白质RNA的组合。例如，Cas蛋白可作为编码DNA的多核苷酸或编码RNA的多核苷酸或作为蛋白质被递送。

在一个方面，本发明还提供了一种递送系统，所述递送系统包括所述的Cas蛋白或所述的融合蛋白，或所述的多核苷酸，或所述的CRISPR-Cas组合物。

在一个实施方式中，所述的递送系统还包括递送媒介物，所述的递送媒介物包括纳米颗粒、脂质体、外泌体、微泡、基因枪或电转装置。

此外，当递送对象为植物细胞时，还会采用诸如细胞穿透肽(CPP)进行递送的方式。例如，在一个具体实施方式中，Cas蛋白和/或至少一种向导RNA与一种或多种CPP偶联，从而有效地将偶联有Cas蛋白和/或向导RNA的CPP运输到植物细胞内(例如原生质体内)。CPP具有少于35个氨基酸的短肽，其衍生自蛋白质或衍生自嵌合序列，能够以非受体依赖性方式跨细胞膜运输生物分子。CPP可以是阳离子肽、具有疏水序列的肽、两亲性肽、具有富含脯氨酸及抗微生物序列的肽以及嵌合或二分肽。CPP能够穿透生物膜，并且因此触发不同生物分子跨细胞膜移动到细胞质中，并能改进它们的细胞内通路，并且因此促进生物分子与靶标的相互作用。

示例性的，CPP包括Tat(为通过HIV 1型进行病毒复制所需的核转录活化蛋白)、穿透素、卡波西(Kaposi)成纤维细胞生长因子(FGF)信号肽序列、整联蛋白β3信号肽序列、聚精氨酸肽Arg序列、富含鸟嘌呤分子转运体、甜箭头肽等。

接头

“接头”是指由多个氨基酸残基通过肽键连接形成的线性多肽。接头可以选择人工合成的氨基酸序列或天然存在的多肽序列。

检测

在一个方面，本发明还提供了一种靶向和编辑靶核酸的方法，所述方法包括使所述靶核酸与前述任一项CRISPR-Cas系统或组合物接触。

在一个方面，本发明还提供了一种在识别靶核酸后非特异性降解单链DNA的方法，所述方法包括使所述靶核酸与前述CRISPR-Cas组合物接触。

在一个方面，本发明还提供了一种在识别双链靶核酸的间隔(Spacer)互补链后靶向所述双链靶核酸的非间隔(Spacer)互补链并使其产生切口的方法，所述方法包括使所述双链靶核酸与前述CRISPR-Cas系统或组合物接触。

在一个方面，本发明还提供了一种靶向和切割双链靶核酸的方法，所述方法包括使所述双链靶核酸与前述CRISPR-Cas系统或组合物接触。

在一个实施方式中，在使所述双链DNA的间隔(Spacer)互补链产生切口之前，使所述双链靶核酸的非间隔(Spacer)序列互补链产生切口。

在一个方面，本发明还提供了一种特异性编辑双链核酸的方法，所述方法包括在充分的条件下使以下进行接触充分的时间量，

(1)前述所述Cas蛋白、或融合蛋白、另一具有序列特异性切口活性的酶，以及所述向导RNA，所述向导RNA指导所述Cas蛋白或所述融合蛋白，相对于所述另一序列特异性切口酶的活性使相对链产生切口；以及(2)所述双链核酸；所述方法导致双链断裂的形成。

在一个方面，本发明还提供了一种编辑双链核酸的方法，所述方法包括在充分的条件下使以下进行接触充分的时间量：

(1)前述Cas蛋白、或融合蛋白，和具有DNA修饰活性的蛋白质结构域的融合蛋白，以及靶向所述双链核酸的所述RNA指导物；以及(2)所述双链核酸；

所述融合蛋白的Cas蛋白被修饰以使所述双链核酸的非靶链产生切口。

在一个实施方式中，所述双链核酸的两条链在不同的位点被切割，导致交错切割。

在一个实施方式中，所述双链核酸的两条链在同一位点被切割，导致平双链断裂。

在一个方面，本发明还提供了一种靶向并切割单链靶核酸的方法，所述方法包括使靶核酸与前述任一项权利要求中任一项所述的CRISPR-Cas组合物接触。

在一个方面，本发明还提供了一种诱导细胞状态改变的方法，所述方法包括使前述CRISPR-Cas组合物与细胞中的所述靶核酸接触。

在一个实施方式中，所述细胞状态包括凋亡或休眠；

在一个实施方式中，所述细胞包括真核细胞或原核细胞；

在一个实施方式中，所述细胞包括哺乳动物细胞或植物病变细胞；

在一个实施方式中，所述细胞包括癌细胞；

在一个实施方式中，所述细胞包括感染性细胞或被感染原感染的细胞；

在一个实施方式中，所述细胞包括被病毒感染的细胞、被朊病毒感染的细胞；

在一个实施方式中，所述细胞包括真菌细胞、原生动物或寄生虫细胞。

在一个方面，本发明还提供了一种检测样品中靶核酸的方法，所述方法包括将样品与前述Cas蛋白、向导RNA和非靶序列接触；检测由所述Cas蛋白切割非靶序列产生的可检测信号，从而检测靶核酸；所述非靶序列不与所述向导RNA杂交。

试剂盒

在一个方面，本发明提供了一种试剂盒，所述试剂盒包括前述的Cas蛋白、前述的融合蛋白、前述多核苷酸、前述的CRISPR-Cas组合物、前述的宿主细胞在制备试剂盒的用途，所述试剂盒的组分在相同或不同的容器中。

在一个方面，本发明还提供了一种容器，所述容器包含前述试剂盒。

在一个实施方式中，所述容器包括无菌容器；

在一个实施方式中，所述容器包括注射器。

在一些实施方式中，试剂盒还包括使用该试剂盒的说明书，例如一种以上语言的说明书。试剂盒还可以包含一种或多种试剂，用于利用上述一种或多种组分的过程中。试剂可在任何合适容器中提供。例如，试剂盒可提供一种或多种反应或储存缓冲液。上述试剂可以在使用前以需要添加一种或多种其他组分的形式(例如，以浓缩或冻干形式)提供；缓冲液可以是任何缓冲液，包括但不限于碳酸钠缓冲液、碳酸氢钠缓冲液、硼酸盐缓冲液、Tris缓冲液、MOPS缓冲液、HEPES缓冲液以及它们的组合。缓冲液可以具有适合的酸碱度(pH值)，例如，可以是碱性的。在一些实施方案中，缓冲液的pH为约7-10之间。

治疗

“治疗”是指，治疗或治愈受试者病症，延缓病症的症状的发作，和/或延缓病症严重程度。术语“受试者”包括但不限于各种动物、植物和微生物。动物，包括哺乳动物，例如牛科动物、马科动物、羊科动物、猪科动物、犬科动物、猫科动物、兔科动物、啮齿类动物(例如，小鼠或大鼠)、非人灵长类动物(例如，猕猴或食蟹猴)或人。在某些实施方式中，所述受试者(例如人)患有病症(例如，疾病相关基因缺陷所导致的病症)。“植物”为能够进行光合作用的任何分化的多细胞生物，在包括处于任何成熟或发育阶段的作物植物。

在一个方面，本发明还提供了前述的Cas蛋白、前述的融合蛋白、前述多核苷酸、前述的CRISPR-Cas组合物、前述的宿主细胞在制备治疗有需要的受试者病症或疾病的药物中的应用。

在一个实施方式中，所述应用包括向所述受试者或所述受试者的离体细胞施用所述CRISPR-Cas组合物；

在一个实施方式中，所述间隔(spacer)序列与跟所述病症或疾病相关的所述靶核酸的至少15个核苷酸互补，所述Cas蛋白或所述融合蛋白切割所述靶核酸；

在一个实施方式中，所述病症或疾病包括癌症或感染性疾病；

在一个实施方式中，所述癌症包括维尔姆斯瘤、尤文肉瘤、神经内分泌瘤、胶质母细胞瘤、神经母细胞瘤、黑色素瘤、皮肤癌、乳腺癌、结肠癌、直肠癌、前列腺癌、肝癌、肾癌、胰腺癌、肺癌、胆道癌、宫颈癌、子宫内膜癌、食管癌、胃癌、头颈癌、甲状腺髓样癌、卵巢癌、胶质瘤、淋巴瘤、白血病、骨髓瘤、急性淋巴细胞白血病、急性髓细胞性白血病、慢性淋巴细胞白血病、慢性髓细胞性白血病、何杰金氏淋巴瘤、非何杰金氏淋巴瘤或尿膀胱癌中的一种或多种；

在一个实施方式中，所述病症或疾病包括囊性纤维化、进行性假肥大性肌营养不良、贝克肌营养不良、α-1-抗胰蛋白酶缺乏、庞贝病、强直性肌营养不良、亨廷顿病、脆性X综合征、弗里德赖希共济失调、肌萎缩侧索硬化、额颞叶痴呆、遗传性慢性肾脏病、高脂血症、高胆固醇血症、莱伯氏先天性黑蒙、镰状细胞病、高胆固醇血症、转甲状腺素蛋白淀粉样变或β地中海贫血中的一种或多种；

在一个实施方式中，所述感染性疾病的感染原包括人类免疫缺陷病毒、单纯疱疹病毒-1或单纯疱疹病毒-2中的一种或多种。

本发明的主要优点包括：

(a)本发明首次发现一种新的Cas蛋白，本发明的Cas蛋白具有非常好的基因编辑活性，可对靶基因进行有效编辑或切割，可有效治疗有需要的受试者的病症或疾病(比如，囊性纤维化、进行性假肥大性肌营养不良、贝克肌营养不良、α-1-抗胰蛋白酶缺乏、庞贝病、强直性肌营养不良、亨廷顿病、脆性X综合征、弗里德赖希共济失调、肌萎缩侧索硬化、额颞叶痴呆、遗传性慢性肾脏病、高脂血症、高胆固醇血症、莱伯氏先天性黑蒙、镰状细胞病、高胆固醇血症、转甲状腺素蛋白淀粉样变或β地中海贫血中的一种或多种)。

(b)本发明的Cas蛋白为全新的Cas酶，其在体内和体外表现出较好的核酸酶的活性，具有广泛的应用前景。

(c)与现有技术已公开的Cas酶相比，本发明的Cas蛋白的编辑效率具备优势，为碱基编辑工具提供了更多选择。

(d)本发明所公开的Cas酶所构建的碱基编辑器能够有效进行碱基编辑，具有潜在的应用前景。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件，例如Sambrook等人，分子克隆：实验室手册(New York:Cold Spring HarborLaboratory Press,1989)中所述的条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数是重量百分比和重量份数。

除非有特别说明，否则本发明实施例中的试剂和材料均为市售产品。

实施例1Cas蛋白的获得

发明人通过对未培养物的宏基因组进行分析，通过去冗余、蛋白质聚类等分析，鉴定得到了1个新的Cas蛋白。Blast分析结果显示，Cas蛋白与已报道的Cas蛋白的序列一致性较低，本发明中将其命名为CasY6。

上述CasY6蛋白的氨基酸序列分别如SEQ ID NO.1所示，其人源密码子优化后的核苷酸序列如SEQ ID NO.2所示。

对上述CasY6蛋白所对应的向导RNA的同向重复(DR)序列进行分析，结果显示：

编码CasY6蛋白对应的向导RNA的同向重复(Direct Repeat，DR)序列的DNA序列为：

TATCCATCGTGCCGCCTCTTGGCAC(SEQ ID NO：5)。

发明人使用RNAfold对pre-crRNA中的DR序列的RNA二级结构进行了进一步分析。分析结果如图2所示。分析发现CasY6对应的PAM为TTN，N为A/T/C/G。所述CasY6蛋白的sgRNA(又称为crRNA)序列由间隔(spacer)序列和同向重复(Direct Repeat，DR)序列组成。

经过鉴定，本发明的CasY6属于Cas12蛋白家族。

实施例2.Cas蛋白切割活性的验证

1、质粒构建

(1)将TTR基因作为靶标，并根据靶基因TTR基因的目标序列设计间隔(spacer)序列：GCATCTCCCCATTCCATGAG(SEQ ID NO.6)。

根据CasY6蛋白和LbCpf1蛋白的DR序列，设计靶向TTR靶标基因的sgRNA序列，具体参见下表：

根据载体表达的需要，在前述CasY6和LbCpf1各自的sgRNA序列5’端和3’端各加上T7启动子和rrnB T2终止子，得到CasY6-sgRNA表达片段序列：

其中单下划线序列部分为CasY6DR序列，双下划线序列部分为spacer序列，斜体序列部分为T7启动子，波浪下划线序列部分为rrnB T2终止子序列，spacer序列和rrnB T2终止子序列之间为linker序列，虚线序列部分为MfeI酶切位点，粗体序列部分为MluI酶切位点，CACCG为linker。

以同样的方式，合成LbCpf1-sgRNA表达片段序列：

其中单下划线序列部分为LbCpf1DR序列，双下划线序列部分为spacer序列，斜体序列部分为T7启动子，波浪下划线序列部分为rrnB T2终止子序列，spacer序列和rrnB T2终止子序列之间为linker序列，虚线序列部分为MfeI酶切位点，粗体序列部分为MluI酶切位点，CACCG为linker。

为保护序列完整性，在合成CasY6-sgRNA表达片段序列和LbCpfl-sgRNA表达片段序列时，在序列5'端引入AGC，在3'端引入ATA作为保护碱基。

(2)由苏州泓迅生物科技有限公司合成CasY6蛋白的编码核苷酸序列(SEQ IDNO.2)片段，并将合成的CasY6蛋白的编码核苷酸序列片段构建到ABE8e质粒(Addgene，Plasmid#138489)466-5160位置，构建得到CasY6重组表达质粒(质粒图谱参见图1A)。

由苏州泓迅生物科技有限公司合成优化后的LbCpf1的编码核苷酸序列(SEQ IDNO.13)，以同样的方式构建，获得LbCpf1重组表达质粒(质粒图谱参见图1B)。

(3)由苏州泓迅生物科技有限公司合成如步骤(1)中所述的sgRNA表达序列片段(CasY6-sgRNA表达片段序列和LbCpf1-sgRNA表达片段序列)，并对sgRNA表达片段序列进行双酶切(MfeI/MluI)处理，将其插入到同样进行双酶切(MfeI/MluI)处理的CasY6重组表达质粒载体上，获得表达CasY6和sgRNA的重组表达质粒CasY6+sgRNA表达质粒；以同样的方式构建获得LbCpf1+sgRNA表达质粒。

(4)构建带有靶向序列的Target质粒，构建过程如下：

由苏州泓迅生物科技有限公司合成带有TTR靶标序列(SEQ ID NO.6)的araC-pBAD-CCDB片段(SEQ ID NO.11)，并将araC-pBAD-CCDB片段插入到pKESK22(Addgene，Plasmid#64857)质粒的1284-1300位点处，获得Target质粒。Target质粒的序列参见SEQ IDNO.4，质粒图谱参见图3。

2、大肠杆菌感受态细胞的制备及转化

将Target质粒转入DH5a感受态细胞中，用接种环划线分离接种于含50μg/ml硫酸卡那霉素的LB固体培养基上。置于生化培养箱中37℃条件下过夜培养，第二天从平板上挑取单个菌落，接种至含有4ml 50μg/ml硫酸卡那霉素(生工生物，A100408-0100)的LB液体培养基试管，37℃、200rpm条件下，震荡培养过夜。次日取菌液4ml接种至含有400ml 50μg/ml硫酸卡那霉素的LB液体培养基的2L摇瓶中，37℃、200rpm震荡条件下培养2-3小时。

当菌液OD600nm值达到0.3-0.5时，将摇瓶取出置于冰上10-15min。在无菌条件下把菌液倒入预冷处理的500ml离心瓶中，4℃、3000rpm条件下离心8min，弃去上清，加入约200ml预冷处理的CaCl₂溶液，吹打混匀以悬浮菌体，冰浴条件下放置30min。之后将菌液在4℃、3000rpm条件下离心8min，弃去上清，加入约8ml预冷的CaCl₂溶液，重新悬浮菌体，将重新悬浮的菌体分装于1.5ml的EP管中，每管110μl，保存于-80℃的超低温冰箱中备用。

3、大肠杆菌体内编辑效率测定

将CasY6+sgRNA表达质粒和LbCpf1+sgRNA表达质粒分别转入步骤2制备好的感受态细胞中。具体流程如下：

(1)将感受态细胞从-80℃拿出，迅速插入冰中，约5分钟后菌块融化，加入CasY6+sgRNA表达质粒，之后并用手拨打离心管底轻轻混匀，冰中静置25分钟。42℃水浴热激45秒，迅速放回冰中并静置2分钟。向离心管中加入900μl不含抗生素的无菌LB培养基，混匀后37℃，220rpm条件下复苏60min。各取100μl菌液分别涂布于含30μg/ml羧苄青霉素抗性(生工生物，A100358-0001)的LB琼脂平板(简称C-LB培养基)上和同时含30μg/ml羧苄青霉素抗性、10mM的L-阿拉伯糖(生工生物，A610071-0100)的LB琼脂平板(简称CL-LB培养基)上。将两个LB琼脂平板倒置放于培养箱，37℃条件下过夜培养。

(2)大肠杆菌体内编辑效率检测

如图3所示，所述的Target质粒上带有可由L-阿拉伯糖诱导的PBAD启动子、由PBAD启动子调控表达的CCDB基因，CCDB基因能够表达CCDB毒性蛋白，CCDB毒性蛋白作为DNA促旋酶抑制剂，能够锁定DNA促旋酶和断裂的双链DNA复合物，使DNA促旋酶不能发挥作用，最终导致细胞死亡。

基于此，发明人设计了大肠杆菌体内编辑效率的检测方法：

在培养基上存在L-阿拉伯糖的条件下，如果CasY6蛋白或LbCpf1蛋白在sgRNA的引导下，能够特异性靶向Target质粒上的TTR基因的靶标序列(SEQ ID NO.6)，并发挥切割作用，则PBAD启动子对CCDB毒性蛋白的调控表达通路被切断，宿主细胞由于不会产生ccdB毒性蛋白而存活下来；反之，如果CasY6蛋白或LbCpf1蛋白无法特异性靶向Target质粒上的TTR靶标序列，则由于L-阿拉伯糖诱导的PBAD启动子调控CCDB基因表达出CCDB毒性蛋白而导致宿主细胞大肠杆菌死亡。

因此，根据步骤(2)中CL-LB培养基上的细菌克隆数/C-LB培养基上细菌克隆数的比值即可计算得出CasY6蛋白在大肠杆菌体内靶向切割TTR靶标基因的编辑效率。

结果如图4所示，经过对大肠杆菌克隆数的计数和比值计算，得出CasY6蛋白的编辑效率为16.2％，另外LbCpf1蛋白的编辑效率为6.4％，CasY6蛋白编辑效率明显高于LbCpf1蛋白。

实施例3HEK293T细胞中的编辑效率检测

1、TTR-sgRNA表达质粒构建

(1)根据TTR基因的靶标序列(SEQ ID NO.6)设计TTR-sgRNA序列，并合成寡核苷酸(oligos)：

CasY6-TTR-sgRNA序列：

TATCCATCGTGCCGCCTCTTGGCACGCATCTCCCCATTCCATGAG(SEQ ID NO.8)，下划线部分序列为DR序列，其余序列为spacer序列。

LbCpf1-TTR-sgRNA序列：

TAATTTCTACTAAGTGTAGATGCATCTCCCCATTCCATGAG(SEQ ID NO.15)，下划线部分序列为DR序列，其余序列为spacer序列。

(2)在TTR-sgRNA上游序列5’端加CACC序列，下游序列的5’端加AAAA序列，并合成oligos，具体序列如下：

前述TTR-sgRNA上下游引物合成后，通过预设程序(95℃，5min；95℃-85℃以-2℃/s；85℃-25℃以-0.1℃/s；保持在4℃)进行退火，之后将退火产物连接到经过BsmBI(NEB，#R0580L)线性化的PHK09T载体，PHK09T载体的序列SEQ ID NO.3所示，质粒图谱参见图5。

PHK09T载体进行线性化及其与TTR-sgRNA退火产物的连接方式如下：

先对PHK09T载体进行线性化线性化体系：PHK09T载体3μg；缓冲液(NEB：R0539L)6μL；BsmBI 2μL；ddH₂O补齐到60μL，50℃酶切过夜。

TTR-gRNA退火产物与线性化载体连接体系：

T4连接酶缓冲液(NEB，#M0202L)1μL，线性化载体20ng，经退火的oligo片段5μL，T4连接酶(NEB，#M0202L)0.5μL，ddH₂O补齐到10μL，16℃连接过夜，得到CasY6-TTR-sgRNA表达质粒和LbCpf1-TTR-sgRNA表达质粒。

(3)将步骤(2)得到的CasY6-TTR-sgRNA表达质粒和LbCpf1-TTR-sgRNA表达质粒转至大肠杆菌DH5a感受态细胞(唯地生物，DL1001)，具体步骤如下：

将DH5α感受态细胞从-80℃冰箱取出后迅速插入冰中，5分钟后待菌块融化，加入连接产物并用手拨打离心管底轻轻混匀，冰中静置25分钟。42℃水浴热激45秒，迅速放回冰中并静置2分钟。向离心管中加入700μl不含抗生素的无菌LB培养基，混匀后37℃，200rpm复苏60分钟。3000rpm离心一分钟后收菌，留取100μl左右上清轻轻吹打重悬菌块并涂布到Amp抗生素的LB培养基上。将平板倒置放于37℃培养箱过夜培养。挑取单菌落，经过测序确认后对阳性克隆摇菌并提取质粒(采用无内毒素质粒大提试剂盒，TIANGEN：DP120-01)后测定浓度，-20℃冰箱中保存备用。

2、细胞水平编辑效率检测

(1)HEK293T细胞培养

将HEK293T细胞(购自ATCC)接种于添加了10％FBS(v/v)的DMEM培养基中(Gibco,11965092)，其中含1％Penicillin Streptomycin(v/v)(Gibco,15140122)，在含有5％CO₂的37℃细胞培养箱中进行培养。用于转染的细胞，前一天接种于24孔细胞培养板中进行培养，第二天观察细胞，当细胞生长到细胞密度为80％左右时进行转染。

(2)CasY6重组表达质粒(质粒图谱参见图1A)、CasY6-TTR-sgRNA表达质粒，LbCpf1重组表达质粒(质粒图谱参见图1B)、LbCpf1-TTR-sgRNA表达质粒分别与EGFP-C1(Addgene，Plasmid，#54759)质粒转染至HEK293T细胞。

24孔板中每孔细胞转染的质粒用量分别是核酸酶表达质粒(CasY6重组表达质粒或LbCpf1重组表达质粒)0.3μg，sgRNA表达质粒(CasY6-TTR-sgRNA表达质粒或LbCpf1-TTR-sgRNA表达质粒)0.3μg，EGFP-C1质粒0.3ug。具体转染操作如下：

将CasY6表达质粒、CasY6-TTR-sgRNA表达质粒、EGFP-C1质粒分别混合后用25μl的

转染专用减血清培养基(源培生物，L530KJ)培养基稀释，再加入2μlLipofectamine 3000(Invitrogen，L3000015)试剂，吹打混匀作为试剂A，静置5分钟。同时，将2μl的Lipofectamine 3000转染试剂(Invitrogen,L3000015)用25μl的/>

转染专用减血清培养基(源培生物，L530KJ)稀释并混匀，作为试剂B，静置5分钟。

将上述试剂A与试剂B混合并吹打均匀，静置20分钟。静置结束后将混合试剂逐滴加入待转染的24孔板细胞中，放回37℃、5％CO₂培养箱培养。转染6小时后将培养基换为含有10％FBS的DMEM培养基。

采用同样的方式，将LbCpf1重组表达质粒、LbCpf1-TTR-sgRNA表达质粒、EGFP-C1质粒转染至HEK293T细胞中。

(3)编辑效率检测

转染48小时后，EGFP荧光蛋白表达表明细胞转染成功，分选EGFP表达阳性的细胞进行编辑效率的检测。将所述细胞进行基因组抽提(采用基因组DNA提取试剂盒，TIANGEN，DP304-03)。根据实验需求设计鉴定引物，所用到的鉴定引物序列如下表所示：

引物名称	具体序列
		TTR-F	aactgaggaggaatttgtag(SEQ ID NO.9)
TTR-R	caaaagcaaaaaccaaaacc(SEQ ID NO.10)

以基因组为模板，采用上表中的引物对靶点附近序列进行PCR扩增，PCR扩增体系如下：

2×Taq Master Mix(Vazyme，P112-03)25μL；Primer-F(TTR-F)(10pmol/μL)1μL；Primer-R(TTR-R)(10pmol/μL)1μL；模板1μL；ddH₂O补齐到50μL。

扩增得到的PCR产物用于高通量深度测序(金唯智生物科技有限公司)或Sanger测序(铂尚生物技术(上海)有限公司)进行编辑效率的鉴定。

通过对CasY6和LbCpf1的编辑效率进行检测鉴定，结果如图6所示，在293T细胞中，CasY6的编辑效率为25％，而LbCpf1的编辑效率只有18％，CasY6蛋白的编辑效率远高于LbCpf1。

实施例4CasY6在碱基编辑中的应用

(1)无催化活性CasY6的获得

为获得无催化活性(即失去切割活性)的dCasY6，发明人构建了分别具有D659A、D711A、E895A、D1069A的单点突变的CasY6突变体：D659A-dCasY6、D711A-dCasY6、E895A-dCasY6、D1069A-dCasY6，具体构建方法如下：

将实施例2中步骤1(3)得到的CasY6+sgRNA表达质粒进行点突变，对CasY6进行4个位点的氨基酸改造，分别为SEQ ID No.1的第659位的天冬氨酸(Asp，D)、第711位的天冬氨酸(Asp，D)、第895位的谷氨酸(Glu，E)、第1069位的天冬氨酸(Asp，D)，并将上述位点的氨基酸突变为丙氨酸(Ala，A)，上述各个氨基酸的突变前后密码子如下表所示：

突变前氨基酸	密码子	突变后氨基酸	密码子
				天冬氨酸(Asp，D)	GAC	丙氨酸(Ala，A)	GCA
天冬氨酸(Asp，D)	GAC	丙氨酸(Ala，A)	GCA
				谷氨酸(Glu，E)	GAG	丙氨酸(Ala，A)	GCA
天冬氨酸(Asp，D)	GAC	丙氨酸(Ala，A)	GCA

分别对上述表格中氨基酸及其密码子设计正反向引物并合成，再以CasY6+sgRNA表达质粒为模板，分别进行PCR扩增。扩增后，利用通用型DNA纯化回收试剂盒(天根生化科技(北京)有限公司，DP214)进行扩增产物的回收纯化，纯化产物转化大肠杆菌Dh5a感受态细胞(唯地生物，DL1001)，37℃培养过夜，第二天挑取单克隆送测序，经过测序确认后对阳性克隆摇菌并提取质粒(TIANGEN，DP120-01)后测定浓度，-20℃冰箱中保存备用。

所获得点突变的重组质粒分别命名为：D659A-dCasY6+sgRNA表达质粒、D711A-dCasY6+sgRNA表达质粒、E895A-dCasY6+sgRNA表达质粒、D1069A-dCasY6+sgRNA表达质粒。

之后将构建的D659A-dCasY6+sgRNA表达质粒、D711A-dCasY6+sgRNA表达质粒、E895A-dCasY6+sgRNA表达质粒、D1069A-dCasY6+sgRNA表达质粒分别进行大肠杆菌体内编辑效率检测，检测方法及计算方式与实施例2步骤2、3相同，实验结果如图7所示，通过对大肠杆菌克隆数的计数和比值计算，认为D659A-dCasY6、D711A-dCasY6、E895A-dCasY6、D1069A-dCasY6失去催化活性(切割活性)，也就是说，D659A、D711A、E895A、D1069A的点突变使得CasY6蛋白丧失了切割活性。

2、细胞水平碱基编辑效率检测

(1)CasY6-TTR-sgRNA”、CasY6-TTR-sgRNA”质粒构建

根据TTR基因的靶标序列设计sgRNA：CasY6-TTR-sgRNA’、CasY6-TTR-sgRNA”序列，并合成寡核苷酸(oligos)：

CasY6-TTR-sgRNA’：

TATCCATCGTGCCGCCTCTTGGCACtatatcccttctacaaattc(SEQ ID NO.20)；

CasY6-TTR-sgRNA”：

TATCCATCGTGCCGCCTCTTGGCACgtgtctatttccactttgta(SEQ ID NO.21)，其中，下划线部分序列为DR序列，其余序列为spacer序列。

(2)在每个sgRNA的上游序列5’端加CACC序列，下游序列的5’端加AAAA序列，具体形式如下：

/>

按照实施例3步骤1的方法，将CasY6-TTR-sgRNA’、CasY6-TTR-sgRNA”上、下游序列退火后连接到PHK09T载体上，获得CasY6-TTR-sgRNA’表达质粒、CasY6-TTR-sgRNA”表达质粒，并转入大肠杆菌DH5a感受态细胞进行质粒扩增培养，测序正确、测定浓度后保存备用。

(3)碱基编辑器质粒构建(以005V1-10-3为例，进行说明)

发明人选用的腺苷脱氨酶催化结构域选自SEQ ID NO:28所示的氨基酸序列的突变体(命名为005V1-10-3)：Q148G+Q149M+P150R，该突变体的氨基酸序列如SEQ ID NO.29所示，编码脱氨酶005V1-10-3的核苷酸序列如SEQ IDNO.30所示。通过同源重组的方式构建由脱氨酶005V10-3和CasY6蛋白构成的碱基编辑器融合蛋白。具体操作如下：

先由苏州泓迅生物科技有限公司合成带有同源臂序列和linker的005V1-10-3核苷酸片段：

其中粗体部分为005V1-10-3核苷酸序列，斜体部分为左右同源臂区域，波浪线部分为linker序列。

对步骤(1)中得到的D1069A-dCasY6+sgRNA表达质粒进行PCR扩增以线性化，获得线性化表达载体，所用引物如下表所示：

引物名称	具体序列
		D1069A-dCasY6-F	ATCAAGAACCAAATCATCGG(SEQ ID NO:32)
D1069A-dCasY6-R	Gactttccgcttcttctttgg(SEQ ID NO:33)

将带有同源臂序列和linker的005V1-10-3的核苷酸片段(SEQ ID NO:31)和D1069A-dCasY6+sgRNA线性化表达载体进行同源重组，使用Gibson Assembly Master Mix(NEB，E2611S)进行反应，反应结束后将连接产物转化大肠杆菌DH5a感受态细胞(唯地生物，DL1001)。具体流程如下：

DH5α感受态细胞从-80℃冰箱取出后，迅速插入冰中，5分钟后待菌块融化，加入连接产物并用手拨打离心管底轻轻混匀，冰中静置25分钟。42℃水浴热激45秒，迅速放回冰中并静置2分钟。向离心管中加入700μl的无菌LB培养基，混匀后37℃，200rpm复苏60分钟。5000rpm离心一分钟收菌，留取100μl左右上清轻轻吹打重悬菌块并涂布到Amp抗生素的LB培养基上。将平板倒置放于37℃培养箱过夜培养。挑取单菌落，经过测序确认后对阳性克隆摇菌并利用无内毒素质粒大提试剂盒(TIANGEN：DP120-01)提取碱基编辑器质粒，后测定浓度，-20℃冰箱中保存备用，其中，编码碱基编辑器融合蛋白005V1-10-3-D1069A-dCasY6的核苷酸序列参见SEQ ID NO:34。

(4)按照实施例3步骤2的方法将碱基编辑器质粒、EGFP-C1(Addgene，Plasmid#54759)质粒分别与CasY6-TTR-sgRNA’、CasY6-TTR-sgRNA”表达质粒共转染293T细胞中。

转染48小时后，EGFP荧光蛋白表达表明细胞转染成功，分选EGFP表达阳性的细胞进行编辑效率的检测。利用试剂盒(TIANGEN，DP304-03)抽提所述293T细胞基因组。

(5)根据实施例3步骤(3)的方法进行碱基编辑效率检测。

根据实验需求设计引物，所用到的鉴定引物序列如下表所示：

引物名称	具体序列
		TTR-F’	gggtgtattactttgccatg(SEQ ID NO.26)
TTR-R’	aacctttggtcattcatcaccttc(SEQ ID NO.27)

结果如图8A、8B所示，D1069A-dCasY6所构成的碱基编辑器在多个位点可以实现有效编辑，从图8A可以看出，在CasY6-TTR-sgRNA’的+2、+4、+13、+15、+16、+17位点都存在有效编辑，在+13、+15、+16、+17位点的编辑效率达到了接近10％到接近30％。

从图8B可以看出，在CasY6-TTR-sgRNA”的+7、+13、+20位点均存在有效编辑，在+13位点的碱基编辑效率达到10％以上，在+20位点的编辑效率达到了15％以上。

序列信息

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种蛋白，其特征在于，所述蛋白选自下组：

(a)具有SEQ ID NO:1所示氨基酸序列的多肽；

2.一种蛋白变体，其特征在于，所述变体为非天然蛋白，并且所述变体在野生型蛋白的对应于SEQ ID NO:1的选自下组一个或多个与切割活性相关的核心氨基酸位点发生突变：

第659位的天冬氨酸(D)位点；和/或

第711位的天冬氨酸(D)位点；和/或

第895位的谷氨酸(E)位点；和/或

第1069位的天冬氨酸(D)位点。

3.一种融合蛋白，其特征在于，包含权利要求1所述的蛋白或权利要求2所述的蛋白变体；以及一个或多个功能结构域。

4.一种分离的多核苷酸，其特征在于，所述的多核苷酸编码权利要求1所述的蛋白或权利要求2所述的蛋白变体或权利要求3所述的融合蛋白。

5.一种分离的核酸分子，其特征在于，包含选自下列的序列，或由选自下列的序列组成：

(i)SEQ ID NO：5所示的序列；

(v)(i)-(iii)任一项中所述的序列的互补序列；

例如，所述分离的核酸分子是RNA；

6.一种向导RNA(gRNA)，其特征在于，所述向导RNA包括能够结合权利要求1所述的蛋白的同向重复(Direct Repeat，DR)序列和能够靶向靶序列的间隔(spacer)序列。

7.一种复合物，其特征在于，包含：

(i)蛋白组分，选自下组：权利要求1所述的蛋白、权利要求2所述的蛋白变体、权利要求2所述的融合蛋白、或其组合；和

(ii)核酸组分，选自下组：权利要求6所述的向导RNA，编码权利要求6所述的向导RNA的核酸，权利要求6所述的向导RNA的前体RNA，编码权利要求6所述的向导RNA的前体RNA核酸、或其组合；

其中，所述蛋白组分与核酸组分相互结合形成复合物。

8.一种载体，其特征在于，包含权利要求4所述的多核苷酸或权利要求5所述的核酸分子。

9.一种宿主细胞，其特征在于，包含权利要求4所述的多核苷酸或权利要求5所述的核酸分子或权利要求8所述的载体。

10.一种CRISPR-Cas组合物，其特征在于，包含：

(i)第一组分，选自下组：权利要求1所述的蛋白、权利要求2所述的蛋白变体、权利要求3所述的融合蛋白、编码权利要求1所述的蛋白或权利要求2所述的蛋白变体或权利要求3所述的融合蛋白的核苷酸序列，以及其任意组合；和

(ii)第二组分，所述第二组分为包含一种或多种权利要求6所述的向导RNA的核苷酸序列，或者编码所述包含一种或多种权利要求6所述的向导RNA的核苷酸序列的核苷酸序列；

11.一种CRISPR-Cas系统，其特征在于，包含一种或多种载体，所述一种或多种载体包含：

(i)第一核酸，其为编码权利要求1所述的蛋白或权利要求2所述的蛋白变体或权利要求3所述的融合蛋白的核苷酸序列；任选地所述第一核酸可操作地连接至第一调节元件；以及

(ii)第二核酸，其编码包含权利要求6所述的向导RNA的核苷酸序列；任选地所述第二核酸可操作地连接至第二调节元件；

其中：

所述第一核酸与第二核酸存在于相同或不同的载体上；

所述向导RNA能够与(i)中所述的蛋白或融合蛋白形成复合物。

12.一种试剂盒，其特征在于，包括一种或多种选自下列的组分：权利要求1所述的蛋白、权利要求2所述的蛋白变体、权利要求3所述的融合蛋白、权利要求4所述的多核苷酸、权利要求7所述的复合物、权利要求8所述的载体、权利要求10所述的CRISPR-Cas组合物或权利要求11所述的系统。

13.一种递送组合物，其特征在于，包含递送载体，以及选自下列的一种或多种：权利要求1所述的蛋白、权利要求2所述的蛋白变体、权利要求3所述的融合蛋白、权利要求4所述的多核苷酸、权利要求7所述的复合物、权利要求8所述的载体、权利要求10所述的CRISPR-Cas组合物或权利要求11所述的系统。

14.一种酶制剂，其特征在于，所述酶制剂包括权利要求1所述的蛋白、权利要求2所述的蛋白变体、权利要求3所述的融合蛋白、权利要求7所述的复合物、权利要求10所述的CRISPR-Cas组合物或权利要求11所述的系统或权利要求13所述的递送组合物。

15.一种药盒，其特征在于，包括：

第一容器，以及位于所述第一容器中的权利要求7所述的复合物或权利要求10所述的组合物或权利要求11所述的系统，或含有权利要求7所述的复合物或权利要求10所述的组合物或权利要求11所述的系统的药物。

16.一种药盒，其特征在于，包括：

(a1)第一容器，以及位于所述第一容器中的权利要求1所述的蛋白、或权利要求2所述的蛋白变体、或权利要求3所述的融合蛋白、或其编码基因或其表达载体，或含有权利要求1所述的蛋白、或权利要求2所述的蛋白变体、或权利要求3所述的融合蛋白、或其编码基因或其表达载体的药物；

(b1)任选的第二容器，以及位于所述第二容器中的权利要求6所述的向导RNA或其表达载体，或含有权利要求6所述的向导RNA或其表达载体的药物。

17.一种靶向和编辑靶基因或切割靶基因的方法，其特征在于，包括：将权利要求1所述的蛋白、或权利要求2所述的蛋白变体、或权利要求3所述的融合蛋白、或权利要求7所述的复合物或权利要求10所述的组合物或权利要求11所述的系统或权利要求13所述的递送组合物或权利要求14所述的酶制剂或权利要求15或16所述的药盒与所述靶基因接触，或者递送至包含所述靶基因的细胞中，靶序列存在于所述靶基因中。

18.一种诱导细胞状态改变的方法，其特征在于，所述方法包括将权利要求1所述的蛋白、或权利要求2所述的蛋白变体、或权利要求3所述的融合蛋白、或权利要求7所述的复合物或权利要求10所述的组合物或权利要求11所述的系统或权利要求13所述的递送组合物或权利要求14所述的酶制剂或权利要求15或16所述的药盒与细胞中的靶基因接触。

19.一种改变基因产物的表达的方法，其特征在于，包括：将权利要求1所述的蛋白、或权利要求2所述的蛋白变体、或权利要求3所述的融合蛋白、或权利要求7所述的复合物或权利要求10所述的组合物或权利要求11所述的系统或权利要求13所述的递送组合物或权利要求14所述的酶制剂或权利要求15或16所述的药盒与编码所述基因产物的核酸分子接触，或者递送至包含所述核酸分子的细胞中，所述靶序列存在于所述核酸分子中。

20.一种体外的、离体的或体内的细胞或细胞系或它们的子代，其特征在于，所述细胞或细胞系或它们的子代包含：权利要求1所述的蛋白、权利要求2所述的蛋白变体、权利要求3所述的融合蛋白、权利要求4所述的多核苷酸、权利要求7所述的复合物、权利要求8所述的载体、权利要求10所述的CRISPR-Cas组合物或权利要求11所述的系统或权利要求13所述的递送组合物。

21.权利要求1所述的蛋白、权利要求2所述的蛋白变体、权利要求3所述的融合蛋白、权利要求4所述的多核苷酸、权利要求5所述的核酸分子、权利要求7所述的复合物、权利要求8所述的载体、权利要求10所述的CRISPR-Cas组合物或权利要求11所述的系统或权利要求12所述的试剂盒或权利要求13所述的递送组合物或权利要求14所述的酶制剂或权利要求15或16所述的药盒的用途，其特征在于，用于制备药物或制剂，所述药物或制剂用于核酸编辑(例如，基因或基因组编辑)。

22.权利要求1所述的蛋白、权利要求2所述的蛋白变体、权利要求3所述的融合蛋白、权利要求4所述的多核苷酸、权利要求7所述的复合物、权利要求8所述的载体、权利要求10所述的CRISPR-Cas组合物或权利要求11所述的系统或权利要求12所述的试剂盒或权利要求13所述的递送组合物或权利要求14所述的酶制剂或权利要求15或16所述的药盒的用途，其特征在于，用于制备药物或制剂，所述药物或制剂用于选自下组的一种或多种：

(i)离体基因或基因组编辑；

(ii)离体单链DNA的检测；

(iii)编辑靶基因座中的靶序列来修饰生物或非人类生物；

(iv)治疗由靶基因座中的靶序列的缺陷引起的病症；

(v)治疗有需要的受试者的病症或疾病。

23.一种检测样品中是否存在靶标核酸分子的方法，其特征在于，所述方法包括将样品与权利要求1所述的蛋白、或权利要求2所述的蛋白变体、或权利要求3所述的融合蛋白、或权利要求7所述的复合物、权利要求10所述的CRISPR-Cas组合物或权利要求11所述的系统、权利要求12所述的试剂盒或权利要求13所述的递送组合物或权利要求14所述的酶制剂和非靶序列接触，检测非靶序列被切割产生的可检测信号，从而检测靶标核酸分子，所述非靶序列不与向导RNA杂交。