CN116121251A

CN116121251A - VI-E型和VI-F型CRISPR-Cas系统及其用途

Info

Publication number: CN116121251A
Application number: CN202211635024.5A
Authority: CN
Inventors: 杨辉; 胥春龙; 周英思; 肖庆全
Original assignee: Huida Shanghai Biotechnology Co ltd
Current assignee: Huida Gene Therapy Singapore Private Ltd; Huida Shanghai Biotechnology Co ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2023-05-16
Also published as: US20220119808A1; IL295935A; CN116590257B; JP2023516974A; CN116590257A; CN115315519A; KR20240035924A; AU2020431316A2; US11225659B2; WO2021168799A1; CN112410377B; JP2024038096A; AU2020431316A1; CN112410377A; KR20230029585A; US20210269795A1; KR102647294B1; MX2022010666A; EP4110933A4; BR112022017070A2

Abstract

本申请提供了一种新型CRISPR/Cas组合物及其用于靶向核酸的用途。特别地，提供了非天然存在的或工程化的靶向RNA的系统，所述系统包含新型靶向RNA的Cas13e或Cas13f效应蛋白，以及至少一种靶向核酸组分，如指导RNA(gRNA)或crRNA。所述新型Cas效应蛋白是已知Cas效应蛋白中最小的一种，大小为约800个氨基酸，并因此特别适合使用小容量载体(如AAV载体)进行递送。

Description

VI-E型和VI-F型CRISPR-Cas系统及其用途

本申请是申请日为2020年2月28日、申请号为202080097601.2、发明名称为“VI-E型和VI-F型CRISPR-Cas系统及其用途”的发明专利申请的分案申请。

背景技术

CRISPR(成簇的规律间隔的短回文重复序列)是在原核生物(如细菌和古细菌)的基因组中发现的DNA序列家族。这些序列应理解为源自先前已感染原核生物的噬菌体的DNA片段，并在随后的原核生物感染期间用于检测和破坏相似噬菌体的DNA。

CRISPR相关系统是一组同源基因或Cas基因，其中一些编码具有解旋酶和核酸酶活性的Cas蛋白。Cas蛋白是利用源自CRISPR序列的RNA(crRNA)作为指导序列以识别并切割与crRNA互补的多核苷酸特定链(例如，DNA)的酶。

CRISPR-Cas系统共同构成原始的原核“免疫系统”，其赋予对外来致病遗传元件(如存在于染色体外DNA(例如，质粒)和噬菌体中的那些)或由外来DNA编码的外来RNA的抗性或获得性免疫。

CRISPR/Cas系统似乎是在自然界中广泛存在的针对外来遗传物质的原核防御机制，并且见于大约50％的经测序细菌基因组和近90％的经测序古细菌中。这种原核系统后来经过发展形成称为CRISPR-Cas技术的基础，所述技术广泛用在包括人在内的众多真核生物中，用在包括基础生物学研究、生物技术产品开发和疾病治疗在内的多种应用中。

原核CRISPR-Cas系统包括一组极其多样的蛋白效应子、非编码元件以及基因座架构，其中一些实例已经过工程化并适于产生重要的生物技术。

CRISPR基因座结构已在许多系统中进行了研究。在这些系统中，基因组DNA中的CRISPR阵列典型地包含富含AT的前导序列，随后是由独特的间隔序列隔开的短DR序列。这些CRISPR DR序列的大小范围可以是23-55bp，但典型地在从28至37bp的范围。一些DR序列显示出双向对称性(dyad symmetry)，这提示RNA中二级结构如茎环(“发夹”)的形成，而其他序列则呈现为非结构化。不同CRISPR阵列中的间隔子大小典型地是32-38bp(范围为21-72bp)。CRISPR阵列中的重复-间隔序列通常少于50个单位。

通常在这样的CRISPR重复-间隔阵列旁发现小簇的cas基因。到目前为止，已将所鉴定的93种cas基因基于其编码的蛋白的序列相似性分为35个家族。所述35个家族中的十一个家族形成所谓的cas核心，所述核心包括Cas1至Cas9的蛋白家族。完整的CRISPR-Cas基因座具有至少一个属于cas核心的基因。

CRISPR-Cas系统可广义地分为两类——1类系统使用多种Cas蛋白的复合物来降解外来核酸，而2类系统使用单个大Cas蛋白用于相同目的。2类系统的单亚基效应组合物为工程化和应用转化提供了更简单的组分集，并且迄今为止已成为用于基因组工程化和其他方面的新颖强大且可编程技术的发现、工程化和优化的重要来源。

1类系统进一步分为I型、III型和IV型；并且2类系统分为II型、V型和VI型。这6种系统类型又分为19种亚型。分类也基于存在的cas基因的互补序列。大多数CRISPR-Cas系统具有Cas1蛋白。许多原核生物含有多个CRISPR-Cas系统，表明这些系统相容并且可共享组分。

最早且最佳表征的Cas蛋白之一Cas9是2类II型的原型成员，并起源于化脓性链球菌(Streptococcus pyogenes)(SpCas9)。Cas9是DNA内切核酸酶，其由与靶DNA序列互补的小crRNA分子和单独的反式激活CRISPR RNA(tracrRNA)激活。crRNA由负责使蛋白与crRNA结合的同向重复(DR)序列和间隔序列组成，所述间隔序列可以经工程化为与任何希望的核酸靶序列互补。通过这种方式，可以将CRISPR系统进行编程以通过修饰crRNA的间隔序列来靶向DNA或RNA靶标。已将crRNA和tracrRNA融合以形成实用性更好的单个指导RNA(sgRNA)。当与Cas9结合时，sgRNA与其靶DNA杂交，并指导Cas9切割靶DNA。也已类似地鉴定并使用来自其他物种的其他Cas9效应蛋白，包括来自嗜热链球菌(S.thermophilus)CRISPR系统的Cas9。这些CRISPR/Cas9系统已广泛用在众多真核生物中，包括面包酵母(酿酒酵母(Saccharomyces cerevisiae))、条件致病病原体白色念珠菌(Candida albicans)、斑马鱼(zebrafish)(斑马鱼(Danio rerio))、果蝇(黑腹果蝇(Drosophila melanogaster))、蚂蚁(跳镰猛蚁(Harpegnathos saltator)和毕氏卵角蚁(Ooceraea biroi))、蚊(埃及伊蚊(Aedes aegypti))、线虫(秀丽隐杆线虫(Caenorhabditis elegans))、植物、小鼠、猴和人胚胎。

最近表征的另一Cas效应蛋白是Cas12a(以前称为Cpf1)。Cas12a与C2c1和C2c3都是属于2类V型Cas蛋白的成员，所述蛋白缺乏HNH核酸酶，但具有RuvC核酸酶活性。Cas12a最初在细菌新凶手弗朗西斯菌(Francisella novicida)的CRISPR/Cpf1系统中表征。它的原名反映其CRISPR-Cas亚型在普雷沃菌属(Prevotella)和弗朗西斯菌属(Francisella)谱系中的普遍性。Cas12a显示出与Cas9的几个关键差异，包括：引起双链DNA的“交错(staggered)”切割，而不是Cas9产生的“钝(blunt)”切割，依赖于“富含T”的PAM序列(它为Cas9提供替代性靶向位点)，以及只需要CRISPR RNA(crRNA)而不需要tracrRNA就可成功靶向。Cas12a的小crRNA比Cas9更适合用于多重基因组编辑，因为与Cas9的sgRNA可以包装在一个载体中的数量相比，它们可以包装在一个载体中的数量更多。此外，Cas12a留下的粘性5'突出端可用于DNA组装，所述组装比传统的限制性酶克隆的靶标特异性大得多。最后，Cas12a在其PAM位点下游切割DNA 18-23个碱基对，这意味着在通过NHEJ系统产生双链断裂(DSB)后，在DNA修复后，不会破坏核酸酶识别序列，因此Cas12a能够实现多轮DNA切割，与之相反，Cas9切割后可能实现一轮DNA切割，因为Cas9切割序列仅在PAM位点上游的3个碱基对处，并且NHEJ途径典型地导致插入缺失(indel)突变，所述插入缺失突变破坏识别序列，从而防止另外的多轮切割。理论上，重复多轮的DNA切割与发生所希望的基因组编辑的机会增加相关。

最近，已经鉴定了几种2类VI型Cas蛋白，包括Cas13(也称为C2c2)、Cas13b、Cas13c和Cas13d，每一种都是RNA指导的RNA酶(即，这些Cas蛋白使用它们的crRNA来识别Cas9和Cas12a中的靶RNA序列，而不是靶DNA序列)。总体而言，与传统的RNAi和CRISPRi技术相比，CRISPR/Cas13系统可以实现更高的RNA消化效率，同时与RNAi相比，展现出少得多的脱靶切割。

这些目前鉴定的Cas13蛋白的一个缺点是它们的尺寸相对较大。Cas13a、Cas13b和Cas13c中的每一个具有多于1100个氨基酸残基。因此，就算可能，也很难将它们的编码序列(约3.3kb)和sgRNA以及任何所需的启动子序列和翻译调节序列包装到某些小容量基因疗法载体中，所述小容量基因疗法载体例如目前最有效且最安全的基于腺相关病毒(AAV)的基因疗法载体，其具有约4.7kb的包装容量。虽然迄今为止最小的Cas13蛋白Cas13d仅具有约920个氨基酸(即，约2.8kb的编码序列)，并且理论上可以被包装到AAV载体中，但它在基于单碱基编辑的基因疗法中具有有限的用途，所述基于单碱基编辑的基因疗法依赖于使用具有单碱基编辑功能的基于Cas13d的融合蛋白，如dCas13d-ADAR2DD(其具有约3.9kb的编码序列)。

此外，目前已知的Cas13蛋白/系统在通过基于crRNA的靶序列识别激活后全部都具有非特异性/附带(collateral)RNA酶活性。这种活性在Cas13a和Cas13b中特别强烈，并且仍然以可检测的方式存在于Cas13d中。虽然这种特性可以有利地用于核酸检测方法中，但这些Cas13蛋白的非特异性/附带RNA酶活性对基因疗法的使用构成巨大的潜在危险。

发明内容

本发明的一个方面提供成簇的规律间隔的短回文重复序列(CRISPR)-Cas复合物，所述复合物包含：(1)RNA指导序列，其包含能够与靶RNA杂交的间隔序列以及在所述间隔序列的3'的同向重复(DR)序列；和(2)CRISPR相关蛋白(Cas)或所述Cas的衍生物或功能性片段，所述CRISPR相关蛋白具有SEQ ID NO:1-7中的任一者的氨基酸序列；其中所述Cas、所述Cas的衍生物和功能性片段能够：(i)与所述RNA指导序列结合，并且(ii)靶向所述靶RNA，条件是当所述复合物包含SEQ ID NO:1-7中的任一者的Cas时，所述间隔序列与天然存在的噬菌体核酸不是100％互补，或者其中所述靶RNA由真核DNA编码。

在某些实施方式中，所述DR序列具有与SEQ ID NO:8-14中的任一者的二级结构基本相同的二级结构。

在某些实施方式中，所述DR序列由SEQ ID NO:8-14中的任一者编码。

在某些实施方式中，所述靶RNA由真核DNA编码。

在某些实施方式中，所述真核DNA是非人哺乳动物DNA、非人灵长类动物DNA、人DNA、植物DNA、昆虫DNA、鸟DNA、爬行动物DNA、啮齿动物DNA、鱼DNA、蠕虫/线虫DNA、酵母DNA。

在某些实施方式中，所述靶RNA是mRNA。

在某些实施方式中，所述间隔序列在15-55个核苷酸之间、在25-35个核苷酸之间、或为约30个核苷酸。

在某些实施方式中，所述间隔序列与所述靶RNA是90％-100％互补。

在某些实施方式中，所述衍生物包含SEQ ID NO:1-7中的任一者的一个或多个残基的保守氨基酸取代。

在某些实施方式中，所述衍生物仅包含保守氨基酸取代。

在某些实施方式中，所述衍生物在HEPN结构域或RXXXXH基序中具有与SEQ ID NO:1-7中的任一者的野生型Cas相同的序列。

在某些实施方式中，所述衍生物能够与杂交至所述靶RNA的RNA指导序列结合，但由于所述Cas的RNA酶催化位点突变而不具有RNA酶催化活性。

在某些实施方式中，所述衍生物具有不超过210个残基的N-末端缺失、和/或不超过180个残基的C-末端缺失。

在某些实施方式中，所述衍生物具有约180个残基的N-末端缺失、和/或约150个残基的C-末端缺失。

在某些实施方式中，所述衍生物进一步包含RNA碱基编辑结构域。

在某些实施方式中，所述RNA碱基编辑结构域是腺苷脱氨酶，如双链RNA特异性腺苷脱氨酶(例如，ADAR1或ADAR2)；载脂蛋白B mRNA编辑酶，催化多肽样(APOBEC)；或激活诱导的胞苷脱氨酶(AID)。

在某些实施方式中，ADAR2具有E488Q/T375G双突变或者是ADAR2DD。

在某些实施方式中，将所述碱基编辑结构域与RNA结合结构域，如MS2进一步融合。

在某些实施方式中，所述衍生物进一步包含RNA甲基转移酶、RNA去甲基化酶、RNA剪接修饰子、定位因子或翻译修饰因子。

在某些实施方式中，所述Cas、所述衍生物或所述功能性片段包含核定位信号(NLS)序列或核输出信号(NES)。

在某些实施方式中，靶向所述靶RNA导致对所述靶RNA进行修饰。

在某些实施方式中，所述靶RNA修饰是切割所述靶RNA。

在某些实施方式中，所述靶RNA修饰是腺苷(A)脱氨基为肌苷(I)。

在某些实施方式中，本发明的CRISPR-Cas复合物进一步包含靶RNA，所述靶RNA包含能够与所述间隔序列杂交的序列。

本发明的另一方面提供融合蛋白，所述融合蛋白包含(1)本发明的Cas、其衍生物或其功能性片段，和(2)异源功能性结构域。

在某些实施方式中，所述异源功能性结构域包含：核定位信号(NLS)、报告蛋白或检测标记(例如，GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、定位信号、蛋白靶向部分、DNA结合结构域(例如，MBP、Lex ADBD、Gal4 DBD)、表位标签(例如，His、myc、V5、FLAG、HA、VSV-G、Trx等)、转录激活结构域(例如，VP64或VPR)、转录抑制结构域(例如，KRAB部分或SID部分)、核酸酶(例如，FokI)、脱氨基结构域(例如，ADAR1、ADAR2、APOBEC、AID或TAD)、甲基化酶、去甲基化酶、转录释放因子、HDAC、具有ssRNA切割活性的多肽、具有dsRNA切割活性的多肽、具有ssDNA切割活性的多肽、具有dsDNA切割活性的多肽、DNA或RNA连接酶、或其任何组合。

在某些实施方式中，将所述异源功能性结构域在所述融合蛋白的N-末端、C-末端或内部融合。

本发明的另一方面提供缀合物，所述缀合物包含与(2)缀合的(1)：(1)本发明的Cas、其衍生物或其功能性片段，(2)异源功能性部分。

在某些实施方式中，所述异源功能性部分包含：核定位信号(NLS)、报告蛋白或检测标记(例如，GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、定位信号、蛋白靶向部分、DNA结合结构域(例如，MBP、Lex A DBD、Gal4 DBD)、表位标签(例如，His、myc、V5、FLAG、HA、VSV-G、Trx等)、转录激活结构域(例如，VP64或VPR)、转录抑制结构域(例如，KRAB部分或SID部分)、核酸酶(例如，FokI)、脱氨基结构域(例如，ADAR1、ADAR2、APOBEC、AID或TAD)、甲基化酶、去甲基化酶、转录释放因子、HDAC、具有ssRNA切割活性的多肽、具有dsRNA切割活性的多肽、具有ssDNA切割活性的多肽、具有dsDNA切割活性的多肽、DNA或RNA连接酶、或其任何组合。

在某些实施方式中，所述异源功能性部分相对于所述Cas、其衍生物或其功能性片段在N-末端、C-末端或内部缀合。

本发明的另一方面提供多核苷酸，所述多核苷酸编码SEQ ID NO:1-7中的任一者、或其衍生物、或其功能性片段、或其融合蛋白，条件是所述多核苷酸不是SEQ ID NO:15-21中的任一者。

在某些实施方式中，所述多核苷酸经密码子优化以在细胞中表达。

在某些实施方式中，所述细胞是真核细胞。

本发明的另一方面提供非天然存在的多核苷酸，所述非天然存在的多核苷酸包含SEQ ID NO:8-14中的任一者的衍生物，其中所述衍生物(i)与SEQ ID NO:8-14中的任一者相比具有一个或多个(例如，1、2、3、4、5、6、7、8、9或10个)核苷酸添加、缺失或取代；(ii)与SEQ ID NO:8-14中的任一者具有至少20％、30％、40％、50％、60％、70％、80％、90％、95％或97％的序列同一性；(iii)在严格条件下与SEQ ID NO:8-14中的任一者或(i)和(ii)中的任一者杂交；或(iv)是(i)-(iii)中的任一者的互补序列，条件是所述衍生物不是SEQ IDNO:8-14中的任一者，并且所述衍生物编码RNA(或者是RNA)，所述RNA保持与由SEQ ID NO:8-14编码的任一RNA基本相同的二级结构。

在某些实施方式中，所述衍生物用作本发明的Cas、其衍生物或其功能性片段中的任一者的DR序列。

本发明的另一方面提供载体，所述载体包含本发明的多核苷酸。

在某些实施方式中，所述多核苷酸与启动子和任选的增强子可操作地连接。

在某些实施方式中，所述启动子是组成型启动子、诱导型启动子、泛素启动子或组织特异性启动子。

在某些实施方式中，所述载体是质粒。

在某些实施方式中，所述载体是逆转录病毒载体、噬菌体载体、腺病毒载体、单纯疱疹病毒(HSV)载体、AAV载体或慢病毒载体。

在某些实施方式中，所述AAV载体是血清型AAV1、AAV2、AAV4、AAV5、AAV6、AAV7、AAVrh74、AAV8、AAV9、AAV10、AAV 11、AAV 12或AAV 13的重组AAV载体。

本发明的另一方面提供递送系统，所述递送系统包含(1)递送媒介物，和(2)本发明的CRISPR-Cas复合物、本发明的融合蛋白、本发明的缀合物、本发明的多核苷酸、或本发明的载体。

在某些实施方式中，所述递送媒介物是纳米颗粒、脂质体、外泌体、微泡或基因枪。

本发明的另一方面提供细胞或其后代，所述细胞或其后代包含本发明的CRISPR-Cas复合物、本发明的融合蛋白、本发明的缀合物、本发明的多核苷酸、或本发明的载体。

在某些实施方式中，所述细胞或其后代是真核细胞(例如，非人哺乳动物细胞、人细胞或植物细胞)或原核细胞(例如，细菌细胞)。

本发明的另一方面提供非人多细胞真核生物，所述非人多细胞真核生物包含本发明的细胞。

在某些实施方式中，所述非人类多细胞真核生物是针对人遗传障碍的动物(例如，啮齿动物或灵长类动物)模型。

本发明的另一方面提供修饰靶RNA的方法，所述方法包括使所述靶RNA与本发明的CRISPR-Cas复合物接触，其中所述间隔序列与所述靶RNA的至少15个核苷酸互补；其中所述Cas、所述衍生物或所述功能性片段与所述RNA指导序列缔合以形成所述复合物；其中所述复合物与所述靶RNA结合；并且其中在所述复合物与所述靶RNA结合后，所述Cas、所述衍生物或所述功能性片段修饰所述靶RNA。

在某些实施方式中，通过由所述Cas进行切割来修饰所述靶RNA。

在某些实施方式中，通过由包含双链RNA特异性腺苷脱氨酶的衍生物进行脱氨基来修饰所述靶RNA。

在某些实施方式中，所述靶RNA是mRNA、tRNA、rRNA、非编码RNA、lncRNA或核RNA。

在某些实施方式中，在所述复合物与所述靶RNA结合后，所述Cas、所述衍生物和所述功能性片段不会展现出大量的(或可检测的)附带RNA酶活性。

在某些实施方式中，所述靶RNA在细胞内。

在某些实施方式中，所述细胞是癌细胞。

在某些实施方式中，所述细胞受感染原感染。

在某些实施方式中，所述感染原是病毒、朊病毒、原生动物、真菌或寄生物。

在某些实施方式中，所述CRISPR-Cas复合物由以下编码：编码SEQ ID NO:1-7中的任一者或其衍生物或功能性片段的第一多核苷酸，以及包含SEQ ID NO:8-14中的任一者和编码能够与所述靶RNA结合的间隔RNA的序列的第二多核苷酸，其中将所述第一多核苷酸和所述第二多核苷酸引入所述细胞中。

在某些实施方式中，通过相同的载体将所述第一多核苷酸和所述第二多核苷酸引入所述细胞中。

在某些实施方式中，所述方法导致以下中的一项或多项：(i)体外或体内诱导细胞衰老；(ii)体外或体内细胞周期停滞；(iii)体外或体内细胞生长抑制；(iv)体外或体内诱导无反应性；(v)体外或体内诱导细胞凋亡；以及(vi)体外或体内诱导坏死。

本发明的另一方面提供在有需要的受试者中治疗病症或疾病的方法，所述方法包括向所述受试者施用包含本发明的CRISPR-Cas复合物或编码所述CRISPR-Cas复合物的多核苷酸的组合物；其中所述间隔序列与以下互补：与所述病症或疾病相关的靶RNA的至少15个核苷酸；其中所述Cas、所述衍生物或所述功能性片段与所述RNA指导序列缔合以形成所述复合物；其中所述复合物与所述靶RNA结合；并且其中在所述复合物与所述靶RNA结合后，所述Cas、所述衍生物或所述功能性片段切割所述靶RNA，从而在所述受试者中治疗所述病症或疾病。

在某些实施方式中，所述病症或疾病是癌症或感染性疾病。

在某些实施方式中，所述癌症是威尔姆斯肿瘤、尤因肉瘤、神经内分泌肿瘤、胶质母细胞瘤、神经母细胞瘤、黑素瘤、皮肤癌、乳腺癌、结肠癌、直肠癌、前列腺癌、肝癌、肾癌、胰腺癌、肺癌、胆道癌、子宫颈癌、子宫内膜癌、食道癌、胃癌、头颈癌、甲状腺髓样癌、卵巢癌、神经胶质瘤、淋巴瘤、白血病、骨髓瘤、急性淋巴细胞白血病、急性骨髓性白血病、慢性淋巴细胞白血病、慢性骨髓性白血病、霍奇金淋巴瘤、非霍奇金淋巴瘤或膀胱癌。

在某些实施方式中，所述方法是体外方法、体内方法或离体方法。

本发明的另一方面提供细胞或其后代，所述细胞或其后代通过本发明的方法获得，其中所述细胞和所述后代包含非天然存在的修饰(例如，在所述细胞/后代的转录的RNA中的非天然存在的修饰)。

本发明的另一方面提供检测靶RNA的存在的方法，所述方法包括使所述靶RNA与包含本发明的融合蛋白、或本发明的缀合物、或编码所述融合蛋白的多核苷酸的组合物接触，其中所述融合蛋白或所述缀合物包含可检测标记(例如，可通过荧光、RNA印迹或FISH检测的标记)和能够与所述靶RNA结合的复合间隔序列。

本发明的另一方面提供真核细胞，所述真核细胞包含成簇的规律间隔的短回文重复序列(CRISPR)-Cas复合物，所述CRISPR-Cas复合物包含：(1)RNA指导序列，其包含能够与靶RNA杂交的间隔序列以及在所述间隔序列的3'的同向重复(DR)序列；和(2)CRISPR相关蛋白(Cas)或所述Cas的衍生物或功能性片段，所述CRISPR相关蛋白具有SEQ ID NO:1-7中的任一者的氨基酸序列；其中所述Cas、所述Cas的衍生物和功能性片段能够(i)与所述RNA指导序列结合，并且(ii)靶向所述靶RNA。

应理解，本文描述的本发明的任何一个实施方式，包括仅在实施例或权利要求中、或仅在下文的一个方面/部分中描述的那些实施方式，可以与本发明的任何其他一个或多个实施方式组合，除非明确否认或认为不当。

本发明还涉及以下项目：

项目1.一种成簇的规律间隔的短回文重复序列(CRISPR)-Cas复合物，所述复合物包含：

(1)RNA指导序列，其包含能够与靶RNA杂交的间隔序列以及在所述间隔序列的3'的同向重复(DR)序列；和

(2)CRISPR相关蛋白(Cas)或所述Cas的衍生物或功能性片段，所述CRISPR相关蛋白具有SEQ ID NO:1-7中的任一者的氨基酸序列；

其中所述Cas、所述Cas的衍生物和功能性片段能够(i)与所述RNA指导序列结合，并且(ii)靶向所述靶RNA，

条件是当所述复合物包含SEQ ID NO:1-7中的任一者的Cas时，所述间隔序列与天然存在的噬菌体核酸不是100％互补。

项目2.如项目1所述的CRISPR-Cas复合物，其中所述DR序列具有与SEQ ID NO:8-14中的任一者的二级结构基本相同的二级结构。

项目3.如项目1所述的CRISPR-Cas复合物，其中所述DR序列由SEQ ID NO:8-14中的任一者编码。

项目4.如项目1、2或3所述的CRISPR-Cas复合物，其中所述靶RNA由真核DNA编码。

项目5.如项目4所述的CRISPR-Cas复合物，其中所述真核DNA是非人哺乳动物DNA、非人灵长类动物DNA、人DNA、植物DNA、昆虫DNA、鸟DNA、爬行动物DNA、啮齿动物DNA、鱼DNA、蠕虫/线虫DNA、酵母DNA。

项目6.如项目1-5中任一项所述的CRISPR-Cas复合物，其中所述靶RNA是mRNA。

项目7.如项目1-6中任一项所述的CRISPR-Cas复合物，其中所述间隔序列在15-60个核苷酸之间、在25-50个核苷酸之间、或为约30个核苷酸。

项目8.如项目1-7中任一项所述的CRISPR-Cas复合物，其中所述间隔序列与所述靶RNA是90％-100％互补。

项目9.如项目1-8中任一项所述的CRISPR-Cas复合物，其中所述衍生物包含SEQID NO:1-7中的任一者的一个或多个残基的保守氨基酸取代。

项目10.如项目9所述的CRISPR-Cas复合物，其中所述衍生物仅包含保守氨基酸取代。

项目11.如项目1-10中任一项所述的CRISPR-Cas复合物，其中所述衍生物在HEPN结构域或RXXXXH基序中具有与SEQ ID NO:1-7中的任一者的野生型Cas相同的序列。

项目12.如项目1-9中任一项所述的CRISPR-Cas复合物，其中所述衍生物能够与杂交至所述靶RNA的RNA指导序列结合，但由于所述Cas的RNA酶催化位点突变而不具有RNA酶催化活性。

项目13.如项目12所述的CRISPR-Cas复合物，其中所述衍生物具有不超过210个残基的N-末端缺失、和/或不超过180个残基的C-末端缺失。

项目14.如项目13所述的CRISPR-Cas复合物，其中所述衍生物具有约180个残基的N-末端缺失、和/或约150个残基的C-末端缺失。

项目15.如项目12-14中任一项所述的CRISPR-Cas复合物，其中所述衍生物进一步包含RNA碱基编辑结构域。

项目16.如项目15所述的CRISPR-Cas复合物，其中所述RNA碱基编辑结构域是腺苷脱氨酶，如双链RNA特异性腺苷脱氨酶(例如，ADAR1或ADAR2)；载脂蛋白B mRNA编辑酶，催化多肽样(APOBEC)；或激活诱导的胞苷脱氨酶(AID)。

项目17.如项目16所述的CRISPR-Cas复合物，其中所述ADAR2具有E488Q/T375G双突变或者是ADAR2DD。

项目18.如项目15-17中任一项所述的CRISPR-Cas复合物，其中将所述碱基编辑结构域与RNA结合结构域，如MS2进一步融合。

项目19.如项目12-14中任一项所述的CRISPR-Cas复合物，其中所述衍生物进一步包含RNA甲基转移酶、RNA去甲基化酶、RNA剪接修饰子、定位因子或翻译修饰因子。

项目20.如项目1-19中任一项所述的CRISPR-Cas复合物，其中所述Cas、所述衍生物或所述功能性片段包含核定位信号(NLS)序列或核输出信号(NES)。

项目21.如项目1-20中任一项所述的CRISPR-Cas复合物，其中靶向所述靶RNA导致对所述靶RNA进行修饰。

项目22.如项目21所述的CRISPR-Cas复合物，其中所述靶RNA修饰是切割所述靶RNA。

项目23.如项目21所述的CRISPR-Cas复合物，其中所述靶RNA修饰是腺苷(A)脱氨基为肌苷(I)。

项目24.如项目1-23中任一项所述的CRISPR-Cas复合物，所述CRISPR-Cas复合物进一步包含靶RNA，所述靶RNA包含能够与所述间隔序列杂交的序列。

项目25.一种融合蛋白，所述融合蛋白包含(1)如项目1-24中任一项所述的Cas、其衍生物或其功能性片段，和(2)异源功能性结构域。

项目26.如项目25所述的融合蛋白，其中所述异源功能性结构域包含：核定位信号(NLS)、报告蛋白或检测标记(例如，GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、定位信号、蛋白靶向部分、DNA结合结构域(例如，MBP、Lex A DBD、Gal4 DBD)、表位标签(例如，His、myc、V5、FLAG、HA、VSV-G、Trx等)、转录激活结构域(例如，VP64或VPR)、转录抑制结构域(例如，KRAB部分或SID部分)、核酸酶(例如，FokI)、脱氨基结构域(例如，ADAR1、ADAR2、APOBEC、AID或TAD)、甲基化酶、去甲基化酶、转录释放因子、HDAC、具有ssRNA切割活性的多肽、具有dsRNA切割活性的多肽、具有ssDNA切割活性的多肽、具有dsDNA切割活性的多肽、DNA或RNA连接酶、或其任何组合。

项目27.如项目25或26所述的融合蛋白，其中将所述异源功能性结构域在所述融合蛋白的N-末端、C-末端或内部融合。

项目28.一种缀合物，所述缀合物包含与(2)缀合的(1)：(1)如项目1-24中任一项所述的Cas、其衍生物或其功能性片段，(2)异源功能性部分。

项目29.如项目28所述的缀合物，其中所述异源功能性部分包含：核定位信号(NLS)、报告蛋白或检测标记(例如，GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、定位信号、蛋白靶向部分、DNA结合结构域(例如，MBP、Lex A DBD、Gal4 DBD)、表位标签(例如，His、myc、V5、FLAG、HA、VSV-G、Trx等)、转录激活结构域(例如，VP64或VPR)、转录抑制结构域(例如，KRAB部分或SID部分)、核酸酶(例如，FokI)、脱氨基结构域(例如，ADAR1、ADAR2、APOBEC、AID或TAD)、甲基化酶、去甲基化酶、转录释放因子、HDAC、具有ssRNA切割活性的多肽、具有dsRNA切割活性的多肽、具有ssDNA切割活性的多肽、具有dsDNA切割活性的多肽、DNA或RNA连接酶、或其任何组合。

项目30.如项目28或29所述的缀合物，其中所述异源功能性部分相对于所述Cas、其衍生物或其功能性片段在N-末端、C-末端或内部缀合。

项目31.一种多核苷酸，所述多核苷酸编码SEQ ID NO:1-7中的任一者、或其衍生物、或其功能性片段、或其融合蛋白，条件是所述多核苷酸不是SEQ ID NO:15-21中的任一者。

项目32.如项目31所述的多核苷酸，所述多核苷酸经密码子优化以在细胞中表达。

项目33.如项目32所述的多核苷酸，其中所述细胞是真核细胞。

项目34.一种非天然存在的多核苷酸，所述非天然存在的多核苷酸包含SEQ IDNO:8-14中的任一者的衍生物，其中所述衍生物(i)与SEQ ID NO:8-14中的任一者相比具有一个或多个(例如，1、2、3、4、5、6、7、8、9或10个)核苷酸添加、缺失或取代；(ii)与SEQ IDNO:8-14中的任一者具有至少20％、30％、40％、50％、60％、70％、80％、90％、95％或97％的序列同一性；(iii)在严格条件下与SEQ ID NO:8-14中的任一者或(i)和(ii)中的任一者杂交；或(iv)是(i)-(iii)中的任一者的互补序列，条件是所述衍生物不是SEQ ID NO:8-14中的任一者，并且所述衍生物编码RNA(或者是RNA)，所述RNA保持与由SEQ ID NO:8-14编码的任一RNA基本相同的二级结构。

项目35.如项目34所述的非天然存在的多核苷酸，其中所述衍生物用作如项目1-24中任一项所述的Cas、其衍生物或其功能性片段中的任一者的DR序列。

项目36.一种载体，所述载体包含如项目31-33中任一项所述的多核苷酸。

项目37.如项目36所述的载体，其中所述多核苷酸与启动子和任选的增强子可操作地连接。

项目38.如项目37所述的载体，其中所述启动子是组成型启动子、诱导型启动子、泛素启动子或组织特异性启动子。

项目39.如项目36-38中任一项所述的载体，所述载体是质粒。

项目40.如项目36-38中任一项所述的载体，所述载体是逆转录病毒载体、噬菌体载体、腺病毒载体、单纯疱疹病毒(HSV)载体、AAV载体或慢病毒载体。

项目41.如项目40所述的载体，其中所述AAV载体是血清型AAV1、AAV2、AAV4、AAV5、AAV6、AAV7、AAVrh74、AAV8、AAV9、AAV10、AAV 11、AAV12或AAV 13的重组AAV载体。

项目42.一种递送系统，所述递送系统包含(1)递送媒介物，和(2)如项目1-24中任一项所述的CRISPR-Cas复合物、如项目25-27中任一项所述的融合蛋白、如项目28-30中任一项所述的缀合物、如项目31-33中任一项所述的多核苷酸、或如项目36-41中任一项所述的载体。

项目43.如项目42所述的递送系统，其中所述递送媒介物是纳米颗粒、脂质体、外泌体、微泡或基因枪。

项目44.一种细胞或其后代，所述细胞或其后代包含如项目1-24中任一项所述的CRISPR-Cas复合物、如项目25-27中任一项所述的融合蛋白、如项目28-30中任一项所述的缀合物、如项目31-33中任一项所述的多核苷酸、或如项目36-41中任一项所述的载体。

项目45.如项目44所述的细胞或其后代，所述细胞或其后代是真核细胞(例如，非人哺乳动物细胞、人细胞或植物细胞)或原核细胞(例如，细菌细胞)。

项目46.一种非人多细胞真核生物，所述非人多细胞真核生物包含如项目44或45所述的细胞。

项目47.如项目46所述的非人多细胞真核生物，所述非人多细胞真核生物是针对人遗传障碍的动物(例如，啮齿动物或灵长类动物)模型。

项目48.一种修饰靶RNA的方法，所述方法包括使所述靶RNA与如项目1-24中任一项所述的CRISPR-Cas复合物接触，其中所述间隔序列与所述靶RNA的至少15个核苷酸互补；其中所述Cas、所述衍生物或所述功能性片段与所述RNA指导序列缔合以形成所述复合物；其中所述复合物与所述靶RNA结合；并且其中在所述复合物与所述靶RNA结合后，所述Cas、所述衍生物或所述功能性片段修饰所述靶RNA。

项目49.如项目48所述的方法，其中通过由所述Cas进行切割来修饰所述靶RNA。

项目50.如项目48所述的方法，其中通过由包含双链RNA特异性腺苷脱氨酶的衍生物进行脱氨基来修饰所述靶RNA。

项目51.如项目48-50中任一项所述的方法，其中所述靶RNA是mRNA、tRNA、rRNA、非编码RNA、lncRNA或核RNA。

项目52.如项目48-51中任一项所述的方法，其中在所述复合物与所述靶RNA结合后，所述Cas、所述衍生物和所述功能性片段不会展现出大量的(或可检测的)附带RNA酶活性。

项目53.如项目48-52中任一项所述的方法，其中所述靶RNA在细胞内。

项目54.如项目53所述的方法，其中所述细胞是癌细胞。

项目55.如项目53所述的方法，其中所述细胞受感染原感染。

项目56.如项目55所述的方法，其中所述感染原是病毒、朊病毒、原生动物、真菌或寄生物。

项目57.如项目53-56中任一项所述的方法，其中所述CRISPR-Cas复合物由以下编码：编码SEQ ID NO:1-7中的任一者或其衍生物或功能性片段的第一多核苷酸，以及包含SEQ ID NO:8-14中的任一者和编码能够与所述靶RNA结合的间隔RNA的序列的第二多核苷酸，其中将所述第一多核苷酸和所述第二多核苷酸引入所述细胞中。

项目58.如项目57所述的方法，其中通过相同的载体将所述第一多核苷酸和所述第二多核苷酸引入所述细胞中。

项目59.如项目53-58中任一项所述的方法，所述方法导致以下中的一项或多项：(i)体外或体内诱导细胞衰老；(ii)体外或体内细胞周期停滞；(iii)体外或体内细胞生长抑制；(iv)体外或体内诱导无反应性；(v)体外或体内诱导细胞凋亡；以及(vi)体外或体内诱导坏死。

项目60.一种在有需要的受试者中治疗病症或疾病的方法，所述方法包括向所述受试者施用包含如项目1-24中任一项所述的CRISPR-Cas复合物或编码所述CRISPR-Cas复合物的多核苷酸的组合物；其中所述间隔序列与以下互补：与所述病症或疾病相关的靶RNA的至少15个核苷酸；其中所述Cas、所述衍生物或所述功能性片段与所述RNA指导序列缔合以形成所述复合物；其中所述复合物与所述靶RNA结合；并且其中在所述复合物与所述靶RNA结合后，所述Cas、所述衍生物或所述功能性片段切割所述靶RNA，从而在所述受试者中治疗所述病症或疾病。

项目61.如项目60所述的方法，其中所述病症或疾病是癌症或感染性疾病。

项目62.如项目61所述的方法，其中所述癌症是威尔姆斯肿瘤、尤因肉瘤、神经内分泌肿瘤、胶质母细胞瘤、神经母细胞瘤、黑素瘤、皮肤癌、乳腺癌、结肠癌、直肠癌、前列腺癌、肝癌、肾癌、胰腺癌、肺癌、胆道癌、子宫颈癌、子宫内膜癌、食道癌、胃癌、头颈癌、甲状腺髓样癌、卵巢癌、神经胶质瘤、淋巴瘤、白血病、骨髓瘤、急性淋巴细胞白血病、急性骨髓性白血病、慢性淋巴细胞白血病、慢性骨髓性白血病、霍奇金淋巴瘤、非霍奇金淋巴瘤或膀胱癌。

项目63.如项目60-62中任一项所述的方法，所述方法是体外方法、体内方法或离体方法。

项目64.一种细胞或其后代，所述细胞或其后代通过如项目48-59中任一项所述的方法获得，其中所述细胞和所述后代包含非天然存在的修饰(例如，在所述细胞/后代的转录的RNA中的非天然存在的修饰)。

项目65.一种检测靶RNA的存在的方法，所述方法包括使所述靶RNA与包含如项目25-27中任一项所述的融合蛋白、或如项目28-30中任一项所述的缀合物、或编码所述融合蛋白的多核苷酸的组合物接触，其中所述融合蛋白或所述缀合物包含可检测标记(例如，可通过荧光、RNA印迹或FISH检测的标记)和能够与所述靶RNA结合的复合间隔序列。

项目66.一种真核细胞，所述真核细胞包含成簇的规律间隔的短回文重复序列(CRISPR)-Cas复合物，所述CRISPR-Cas复合物包含：

其中所述Cas、所述Cas的衍生物和功能性片段能够(i)与所述RNA指导序列结合，并且(ii)靶向所述靶RNA。

附图说明

图1是代表性Cas13e和Cas13f家族成员的基因组基因座的示意图(未按比例绘制)。显示出Cas编码序列(带尖端的长条)，随后是多个附近的同向重复序列(DR)(短条)和间隔序列(菱形)。

图2显示出与各个Cas13e和Cas13f蛋白相关的DR序列的推定二级结构。它们的编码序列从左到右分别由SEQ ID NO:8-14表示。

图3显示出本发明新发现的Cas13e和Cas13f效应蛋白以及相关的先前发现的Cas13a、Cas13b、Cas13c和Cas13d效应蛋白的系统发育树。

图4显示出Cas13a-Cas13f蛋白的结构域结构。指示出Cas蛋白的每个代表性成员上两个RXXXXH基序的总体大小和位置。

图5显示出Cas13e.1效应蛋白的预测3D结构。

图6是示意图，其显示出可以将分别编码以下的三种质粒转染至细胞以表达它们各自的基因产物，从而导致报告mCherry mRNA的降解：(1)Cas13e效应蛋白，(2)指导RNA(gRNA)的编码序列，其可以产生与mCherry mRNA互补、并且可以与所述Cas13e效应蛋白形成复合物的指导RNA，以及(3)mCherry报告基因。

图7显示出通过与mCherry mRNA互补的指导RNA进行的mCherry mRNA的敲低，如在荧光显微镜下mCherry的表达降低所证明的。作为阴性对照，不与mCherry mRNA杂交/结合的非靶向(NT)指导RNA未能敲低mCherry的表达。

图8显示出在图6的实验中mCherry表达的约75％敲低。

图9显示出Cas13e利用具有在3'端的DR序列的指导RNA(与在指导RNA的5'端的DR序列相反)。

图10显示出相对于非靶向(NT)对照，间隔序列长度与针对靶RNA的特异性(指导RNA依赖性)RNA酶活性之间的相关性。

图11显示出相对于非靶向(NT)对照，间隔序列长度与针对靶RNA的非特异性/附带(非指导RNA依赖性)RNA酶活性之间的相关性。

图12显示出dCas13e.1-ADAR2DD融合物具有RNA碱基编辑活性。特别地，可以将分别编码以下的三种质粒转染至细胞以表达它们各自的基因产物：(1)与单碱基RNA编辑子(editor)ADAR2DD融合的dCas13e(RNA酶死亡)蛋白，(2)指导RNA(gRNA)的编码序列，其可以产生与具有G至A点突变的突变体mCherry mRNA互补、并且可以与所述dCas13e效应蛋白形成复合物的指导RNA，以及(3)编码所述具有G至A点突变的mCherry mRNA的突变体mCherry报告基因。由于点突变，突变体mCherry mRNA通常不能产生荧光mCherry蛋白。在指导RNA与突变体mCherry mRNA结合后，融合的ADAR2DD碱基编辑子将A转化为I(G等同物)，从而恢复mRNA编码荧光mCherry蛋白的能力。

图13显示出由于成功的RNA碱基编辑而恢复的mCherry表达。在图12的实验中，单独的编码突变体mCherry的质粒(mCherry*)无法表达荧光mCherry。单独的编码dCas13e-ADAR2DD碱基编辑子的质粒也无法表达荧光mCherry。单独的编码gRNA-1或gRNA-2的质粒(其也表达GFP报告子)尽管显著地表达GFP，但也无法表达荧光mCherry。然而，当将所有三种质粒转染至相同的细胞中时，观察到显著的荧光mCherry表达(连同GFP报告子表达)。

图14显示出具有提前终止密码子TAG的突变体mCherry基因的相关区段、可与dCas13e-ADAR2DD RNA碱基编辑子复合的两个gRNA的序列、以及“校正的”TGG密码子。

图15是示意图(未按比例绘制)，其显示出与ADAR2DD RNA碱基编辑子(显示为“ADAR2”)以及其他转录控制元件融合的dCas13e.1的一系列渐进C-末端缺失构建体。

图16显示出针对图15中的C-末端缺失突变体系列，mCherry突变体转化回野生型mCherry的百分比结果。

图17是示意图(未按比例绘制)，其显示出与ADAR2DD RNA碱基编辑子融合的dCas13e.1的一系列渐进C-末端和任选的N-末端缺失构建体。

图18显示出针对选定的图17中的C-末端和N-末端缺失突变体，mCherry突变体转化回野生型mCherry的百分比结果。

图19显示出编码Cas13a、Cas13b、Cas13d、Cas13e.1和Cas13f.1、mCherry报告基因、以及靶向ANXA4的gRNA编码序列或作为对照的非靶向gRNA的一系列质粒。

图20显示出Cas13e.1、Cas13f.1、Cas13a以及Cas13d对ANXA4表达的高效敲低。

具体实施方式

1.概述

本文描述的本发明提供新型2类VI型Cas效应蛋白，有时在本文中称为Cas13e和Cas13f。本发明的新型Cas13蛋白比先前发现的Cas13效应蛋白(Cas13a-Cas13d)小得多，使得它们可以很容易地与它们的crRNA编码序列一起包装到小容量基因疗法载体(如AAV载体)中。此外，与Cas13a、Cas13b和Cas13d效应蛋白相比，新发现的Cas13e和Cas13f效应蛋白在敲低RNA靶序列方面更有效，并且在RNA单碱基编辑方面更高效，同时在通过基于crRNA的靶识别激活后展现出可忽略不计的非特异性/附带RNA酶活性，除非间隔序列在特定的窄范围内(例如，约30个核苷酸)。因此，这些新的Cas蛋白非常适合基因疗法。

因此，在第一方面，本发明提供Cas13e和Cas13f效应蛋白(如具有SEQ ID NO:1-7的氨基酸序列的那些)、或其直系同源物、同源物、各种衍生物(下文描述)、功能性片段(下文描述)，其中所述直系同源物、同源物、衍生物和功能性片段保持SEQ ID NO:1-7的任一种蛋白的至少一种功能。这样的功能包括但不限于结合本发明的指导RNA/crRNA(下文描述)以形成复合物的能力、RNA酶活性、以及在与靶RNA至少部分互补的crRNA的指导下在特定位点处结合并切割所述靶RNA的能力。

在某些实施方式中，本发明的Cas13e或Cas13f效应蛋白可以是：(i)SEQ ID NO:1-7中的任一者；(ii)具有SEQ ID NO:1-7中的任一者的一个或多个氨基酸(例如，1、2、3、4、5、6、7、8、9或10个残基)的添加、缺失和/或取代(例如，保守取代)的衍生物；或(iii)与SEQ IDNO:1-7中的任一者相比具有至少约80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的氨基酸序列同一性的衍生物。

在某些实施方式中，Cas13e和Cas13f效应蛋白、其直系同源物、同源物、衍生物和功能性片段不是天然存在的，例如与天然存在的序列相比具有至少一个氨基酸差异。

在相关方面，本发明提供基于SEQ ID NO:1-7中任一者的Cas13e和Cas13f效应蛋白、或其上述直系同源物、同源物、衍生物和功能性片段的额外的衍生物，所述额外的衍生物包含另一共价或非共价连接的蛋白或多肽或其他分子(如检测试剂或药物/化学部分)。这样的其他蛋白/多肽/其他分子可以通过例如化学偶联、基因融合或其他非共价连接(如生物素-链霉亲和素结合)来连接。这样的衍生的蛋白不影响原始蛋白的功能，如结合本发明的指导RNA/crRNA(下文描述)以形成复合物的能力、RNA酶活性、以及在与靶RNA至少部分互补的crRNA的指导下在特定位点处结合并切割所述靶RNA的能力。

例如，这样的衍生可用于添加核定位信号(NLS，如SV40大T抗原NLS)以增强主题Cas13e和Cas13f效应蛋白进入细胞核的能力。这样的衍生也可用于添加靶向分子或部分，以将主题Cas13e和Cas13f效应蛋白引导至特定的细胞或亚细胞位置。这样的衍生还可用于添加可检测标记，以促进主题Cas13e和Cas13f效应蛋白的检测、监测或纯化。这样的衍生可进一步用于添加脱氨基酶部分(如具有腺嘌呤或胞嘧啶脱氨基活性的酶部分)以促进RNA碱基编辑。

衍生可以通过在主题Cas13e和Cas13f效应蛋白的N-末端或C-末端处或在内部(例如，通过内部氨基酸的侧链进行内部融合或连接)添加任一额外的部分来进行。

在相关的第二方面，本发明提供基于SEQ ID NO:1-7中任一者的主题Cas13e和Cas13f效应蛋白、或其上述直系同源物、同源物、衍生物和功能性片段的缀合物，所述缀合物缀合有如其他蛋白或多肽、可检测标记、或其组合等部分。这样的缀合的部分可包括但不限于定位信号、报告基因(例如，GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、标记(例如，荧光染料，如FITC或DAPI)、NLS、靶向部分、DNA结合结构域(例如，MBP、Lex A DBD、Gal4DBD)、表位标签(例如，His、myc、V5、FLAG、HA、VSV-G、Trx等)、转录激活结构域(例如，VP64或VPR)、转录抑制结构域(例如，KRAB部分或SID部分)、核酸酶(例如，FokI)、脱氨基结构域(例如，ADAR1、ADAR2、APOBEC、AID或TAD)、甲基化酶、去甲基化酶、转录释放因子、HDAC、具有ssRNA切割活性的多肽、具有dsRNA切割活性的多肽、具有ssDNA切割活性的多肽、具有dsDNA切割活性的多肽、DNA或RNA连接酶、其任何组合等。

例如，所述缀合物可包括一个或多个NLS，其可以位于或接近N-末端、C-末端、内部、或其组合。缀合可以通过氨基酸(如D或E、或S或T)、氨基酸衍生物(如Ahx、β-Ala、GABA或Ava)或PEG连接来进行。

在某些实施方式中，缀合不影响原始蛋白的功能，如结合本发明的指导RNA/crRNA(下文描述)以形成复合物的能力、RNA酶活性、以及在与靶RNA至少部分互补的crRNA的指导下在特定位点处结合并切割所述靶RNA的能力。

在相关的第三方面，本发明提供基于SEQ ID NO:1-7中任一者的主题Cas13e和Cas13f效应蛋白、或其上述直系同源物、同源物、衍生物和功能性片段的融合物，所述融合物具有如下部分，如定位信号、报告基因(例如，GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、NLS、蛋白靶向部分、DNA结合结构域(例如，MBP、Lex ADBD、Gal4 DBD)、表位标签(例如，His、myc、V5、FLAG、HA、VSV-G、Trx等)、转录激活结构域(例如，VP64或VPR)、转录抑制结构域(例如，KRAB部分或SID部分)、核酸酶(例如，FokI)、脱氨基结构域(例如，ADAR1、ADAR2、APOBEC、AID或TAD)、甲基化酶、去甲基化酶、转录释放因子、HDAC、具有ssRNA切割活性的多肽、具有dsRNA切割活性的多肽、具有ssDNA切割活性的多肽、具有dsDNA切割活性的多肽、DNA或RNA连接酶、其任何组合等。

例如，所述融合物可包括一个或多个NLS，其可以位于或接近N-末端、C-末端、内部、或其组合。在某些实施方式中，融合不影响原始蛋白的功能，如结合本发明的指导RNA/crRNA(下文描述)以形成复合物的能力、RNA酶活性、以及在与靶RNA至少部分互补的crRNA的指导下在特定位点处结合并切割所述靶RNA的能力。

在第四方面，本发明提供分离的多核苷酸，所述分离的多核苷酸包含：(i)SEQ IDNO:8-14中的任一者；(ii)与SEQ ID NO:8-14中的任一者相比具有1、2、3、4或5个核苷酸的缺失、添加和/或取代的多核苷酸；(iii)与SEQ ID NO:8-14中的任一者共享至少80％、85％、90％、95％序列同一性的多核苷酸；(iv)在严格条件下与(i)-(iii)中的任一种多核苷酸或其互补序列杂交的多核苷酸；(v)(i)-(iii)中的任一多核苷酸的互补序列。

(ii)-(iv)中的任一多核苷酸保持原始SEQ ID NO:8-14的功能，即在主题Cas13e或Cas13f系统中编码crRNA的同向重复(DR)序列。

如本文所用，“同向重复序列”可指CRISPR基因座中的DNA编码序列，或指在crRNA中由其编码的RNA。因此，当在RNA分子(如crRNA)的上下文中提到SEQ ID NO:8-14中的任一者时，每个T应理解为代表U。

因此，在某些实施方式中，分离的多核苷酸是DNA，所述DNA编码主题Cas13e和Cas13f系统的crRNA的DR序列。

在某些其他实施方式中，分离的多核苷酸是RNA，所述RNA是主题Cas13e和Cas13f系统的crRNA的DR序列。

在第五方面，本发明提供复合物，所述复合物包含：(i)蛋白组合物，所述蛋白组合物可以是以下中的任一者：主题Cas13e或Cas13f效应蛋白、或其直系同源物、同源物、衍生物、功能性片段、其缀合物、或其融合物；和(ii)多核苷酸组合物，所述多核苷酸组合物包含本发明第4方面中描述的分离的多核苷酸(例如，DR序列)以及与靶RNA的至少一部分互补的间隔序列。在某些实施方式中，所述DR序列在所述间隔序列的3'端。

在一些实施方式中，所述多核苷酸组合物是主题Cas13e或Cas13f系统的指导RNA/crRNA，其不包括tracrRNA。

在某些实施方式中，为了与Cas13e和Cas13f效应蛋白、其同源物、直系同源物、衍生物、融合物、缀合物或具有RNA酶活性的功能性片段一起使用，所述间隔序列为至少约10个核苷酸，或在10-60、15-50、20-50、25-40、25-50或19-50个核苷酸之间。在某些实施方式中，为了与Cas13e和Cas13f效应蛋白、其同源物、直系同源物、衍生物、融合物、缀合物或不具有RNA酶活性但具有结合指导RNA和与所述指导RNA互补的靶RNA的能力的功能性片段一起使用，所述间隔序列为至少约10个核苷酸，或在约10-200、15-180、20-150、25-125、30-110、35-100、40-80、45-60、50-55个核苷酸之间或为约50个核苷酸。

在某些实施方式中，所述DR序列在15-36、20-36、22-36个核苷酸之间、或约36个核苷酸。在某些实施方式中，指导RNA中的DR序列具有与SEQ ID NO:8-14中的任一者的RNA版本基本相同的二级结构(包括茎、凸起(bulge)和环)。

在某些实施方式中，指导RNA比上述任一间隔序列的长度长约36个核苷酸，如在45-96、55-86、60-86、62-86或63-86个核苷酸之间。

在第六方面，本发明提供分离的多核苷酸，所述分离的多核苷酸包含：(i)编码以下的多核苷酸：SEQ ID NO:1-7的Cas13e或Cas13f效应蛋白中的任一者、或其直系同源物、同源物、衍生物、功能性片段、融合物；(ii)SEQ ID NO:8-14中的任一者的多核苷酸；或(iii)包含(i)和(ii)的多核苷酸。

在一些实施方式中，所述多核苷酸不是天然存在的(naturally occurring/naturally existing)，例如不包括SEQ ID NO:15-21。

在一些实施方式中，所述多核苷酸经密码子优化以在原核生物中表达。在一些实施方式中，所述多核苷酸经密码子优化以在真核生物中(例如在人或人细胞中)表达。

在第七方面，本发明提供载体，所述载体包含或涵盖第六方面的任一多核苷酸。所述载体可以是克隆载体或表达载体。仅举几例，所述载体可以是质粒、噬菌粒或粘粒。在某些实施方式中，所述载体可用于在哺乳动物细胞(如人细胞)中表达多核苷酸、SEQ ID NO:1-7的Cas13e或Cas13f效应蛋白中的任一者、或其直系同源物、同源物、衍生物、功能性片段、融合物；或第4方面的任一多核苷酸；或第5方面的任一复合物。

在第八方面，本发明提供宿主细胞，所述宿主细胞包含本发明第4或第6方面的任一多核苷酸和/或第7方面的载体。所述宿主细胞可以是原核生物(如大肠杆菌)或来自真核生物(如酵母、昆虫、植物、动物(例如，哺乳动物，包括人和小鼠))的细胞。所述宿主细胞可以是分离的原代细胞(如用于离体疗法的骨髓细胞)或已建立的细胞系，如肿瘤细胞系、293T细胞或干细胞、iPC等。

在相关方面，本发明提供真核细胞，所述真核细胞包含成簇的规律间隔的短回文重复序列(CRISPR)-Cas复合物，所述CRISPR-Cas复合物包含：(1)RNA指导序列，其包含能够与靶RNA杂交的间隔序列以及在所述间隔序列的3'的同向重复(DR)序列；和(2)CRISPR相关蛋白(Cas)或所述Cas的衍生物或功能性片段，所述CRISPR相关蛋白具有SEQ ID NO:1-7中的任一者的氨基酸序列；其中所述Cas、所述Cas的衍生物和功能性片段能够(i)与所述RNA指导序列结合，并且(ii)靶向所述靶RNA。

在第九方面，本发明提供组合物，所述组合物包含：(i)选自以下的第一(蛋白)组合物：SEQ ID NO:1-7的Cas13e或Cas13f效应蛋白中的任一者、或其直系同源物、同源物、衍生物、缀合物、功能性片段、融合物；和(ii)包含RNA的第二(核苷酸)组合物，所述RNA涵盖指导RNA/crRNA、特别是间隔序列或其编码序列。所述指导RNA可包含DR序列和可与靶RNA互补或杂交的间隔序列。所述指导RNA可以与(i)的第一(蛋白)组合物形成复合物。在一些实施方式中，所述DR序列可以是本发明第4方面的多核苷酸。在一些实施方式中，所述DR序列可以在所述指导RNA的3'端。在一些实施方式中，所述组合物(如(i)和/或(ii))是非天然存在的或从天然存在的组合物修饰而来。在一些实施方式中，所述组合物的至少一种组分是非天然存在的或从所述组合物的天然存在的组分修饰而来。在一些实施方式中，所述靶序列是来自原核生物或真核生物的RNA，如非天然存在的RNA。所述靶RNA可以存在于细胞内，如在胞质溶胶中或在细胞器内。在一些实施方式中，所述蛋白组合物可以具有可位于其N-末端或C-末端或内部的NLS。

在第十方面，本发明提供组合物，所述组合物包含本发明第7方面的一种或多种载体，所述一种或多种载体包含：(i)编码以下的第一多核苷酸：SEQ ID NO:1-7的Cas13e或Cas13f效应蛋白中的任一者、或其直系同源物、同源物、衍生物、功能性片段、融合物；任选地与第一调节元件可操作地连接；和(ii)编码本发明的指导RNA的第二多核苷酸；任选地与第二调节元件可操作地连接。所述第一多核苷酸和所述第二多核苷酸可以在不同的载体上或在相同的载体上。所述指导RNA可与由所述第一多核苷酸编码的蛋白产物形成复合物，并包含DR序列(如第4方面的任一DR序列)和可与靶RNA结合/互补的间隔序列。在一些实施方式中，所述第一调节元件是启动子，如诱导型启动子。在一些实施方式中，所述第二调节元件是启动子，如诱导型启动子。在一些实施方式中，所述组合物(如(i)和/或(ii))是非天然存在的或从天然存在的组合物修饰而来。在一些实施方式中，所述组合物的至少一种组分是非天然存在的或从所述组合物的天然存在的组分修饰而来。在一些实施方式中，所述靶序列是来自原核生物或真核生物的RNA，如非天然存在的RNA。所述靶RNA可以存在于细胞内，如在胞质溶胶中或在细胞器内。在一些实施方式中，所述蛋白组合物可以具有可位于其N-末端或C-末端或内部的NLS。

在一些实施方式中，所述载体是质粒。在一些实施方式中，所述载体是病毒载体，所述病毒载体基于逆转录病毒、不能复制的逆转录病毒、腺病毒、不能复制的腺病毒或AAV。在一些实施方式中，所述载体可以在宿主细胞中自我复制(例如，具有细菌复制起点序列)。在一些实施方式中，所述载体可以整合到宿主基因组中并与其一起复制。在一些实施方式中，所述载体是克隆载体。在一些实施方式中，所述载体是表达载体。

本发明进一步提供递送组合物，所述递送组合物用于递送本发明第1-第3方面的SEQ ID NO:1-7的Cas13e或Cas13f效应蛋白中的任一者、或其直系同源物、同源物、衍生物、缀合物、功能性片段、融合物；本发明第4和/或第6方面的多核苷酸；本发明第5方面的复合物；本发明第7方面的载体；本发明第8方面的细胞，以及本发明第9和/或第10方面的组合物。递送可以使用媒介物(如一种或多种脂质体、一种或多种纳米颗粒、一种或多种外泌体、一种或多种微泡、基因枪或一种或多种病毒载体)通过本领域已知的任何一种方式，如转染、脂质转染、电穿孔、基因枪、显微注射、超声、磷酸钙转染、阳离子转染、病毒载体递送等来进行。

本发明进一步提供试剂盒，所述试剂盒包含以下中的任一者或多者：本发明第1-第3方面的SEQ ID NO:1-7的Cas13e或Cas13f效应蛋白中的任一者、或其直系同源物、同源物、衍生物、缀合物、功能性片段、融合物；本发明第4和/或第6方面的多核苷酸；本发明第5方面的复合物；本发明第7方面的载体；本发明第8方面的细胞，以及本发明第9和/或第10方面的组合物。在一些实施方式中，所述试剂盒可进一步包括关于如何使用试剂盒组分和/或如何从第3方获得用于与所述试剂盒组分一起使用的其他组分的说明。所述试剂盒的任何组分都可以储存在任何合适的容器中。

上文大体描述了本发明，本发明各个方面的更详细描述在下文的单独部分中提供。然而，应理解，为了简洁和减少冗余，本发明的某些实施方式仅在一个部分下描述或仅在权利要求或实施例中描述。因此，还应理解，本发明的任何一个实施方式，包括仅在一个方面、部分下或仅在权利要求或实施例中描述的那些实施方式，可以与本发明的任何其他实施方式组合，除非特别否认或组合不当。

2.新型2类VI型CRISPR RNA指导的RNA酶及其衍生物

在一个方面，本文描述的本发明提供两个新型CRISPR 2类VI型效应子家族，其具有两个严格保守的RX4-6H(RXXXXH)基序，这是高等真核生物和原核生物核苷酸结合(HEPN)结构域的特征。含有两个HEPN结构域的相似CRISPR 2类VI型效应子先前已被表征，并且包括例如CRISPR Cas13a(C2c2)、Cas13b、Cas13c和Cas13d。

HEPN结构域经证明是RNA酶结构域并赋予结合和切割靶RNA分子的能力。所述靶RNA可以是任何合适形式的RNA，包括但不限于mRNA、tRNA、核糖体RNA、非编码RNA、lncRNA(长链非编码RNA)和核RNA。例如，在一些实施方式中，Cas蛋白识别并切割位于开放阅读框(ORF)的编码链上的RNA靶标。

在一个实施方式中，本披露提供两个CRISPR 2类VI型效应子家族，在本文中通常称为VI-E型和VI-F型CRISPR-Cas效应蛋白Cas13e或Cas13f。VI-E型和VI-F型CRISPR-Cas效应蛋白与这些其他系统的效应子的直接比较显示出VI-E型和VI-F型CRISPR-Cas效应蛋白甚至比先前鉴定的最小的VI-D型/Cas13d效应子显著更小(例如，氨基酸少约20％)(参见图4)，并且在与其他先前描述的效应蛋白(包括系统发育上最接近的亲属Cas13b)的一对一序列比对中具有小于30％的序列相似性(参见图3)。

这两个新鉴定的CRISPR 2类VI型效应子家族可用于多种应用中，并且特别适用于治疗性应用，因为它们比其他效应子(例如，CRISPR Cas13a、Cas13b、Cas13c和Cas13d效应子)显著更小，这允许将编码效应子的核酸及它们的指导RNA编码序列包装到具有大小限制的递送系统(如AAV载体)中。此外，在特定的RNA酶活性激活后，在选定的间隔序列长度范围(如约30个核苷酸，参见图11)处可检测的附带/非特异性RNA酶活性的缺乏使这些Cas效应子在希望不受破坏的靶细胞中较不易于(如果不能免于)产生潜在危险的普遍脱靶RNA消化。另一方面，在其他选定的间隔子长度(如约30个核苷酸)处，这些Cas效应子存在显著的附带RNA酶活性，因此主题Cas效应子也可以用于依赖这样的附带RNA酶活性的效用中。

在细菌中，VI-E型和VI-F型CRISPR-Cas系统包括紧邻CRISPR阵列的单个效应子(分别为大约775个残基和790个残基)(参见图1)。所述CRISPR阵列包括长度典型地为36个核苷酸的同向重复(DR)序列，其在序列和二级结构中通常都非常保守(参见图2)。

本文提供的数据表明crRNA从5'端加工，使得所述DR序列在成熟的crRNA的3'端处终止。

Cas13e和Cas13f CRISPR阵列中含有的间隔子最常见的长度为30个核苷酸，大部分长度变化包含在29至30个核苷酸的范围内。然而，可以容忍宽范围的间隔子长度。例如，为了在功能性Cas13e或Cas13f效应蛋白、或其同源物、直系同源物、衍生物、融合物、缀合物或功能性片段中使用，间隔子可以在10-60个核苷酸、20-50个核苷酸、25-45个核苷酸、25-35个核苷酸之间，或为约27、28、29、30、31、32或33个核苷酸。然而，为了在上述任一者的dCas版本中使用，间隔子可以在10-200个核苷酸、20-150个核苷酸、25-100个核苷酸、25-85个核苷酸、35-75个核苷酸、45-60个核苷酸之间，或为约46、47、48、49、50、51、52、53、54或55个核苷酸。

示例性VI-E型和VI-F型CRISPR-Cas效应蛋白在下表中提供。

在上面的序列中，每个效应子中的两个RX4-6H(RXXXXH)基序加双下划线。在Cas13e.1中，由于基序侧翼的RR和HH序列，C-末端基序可具有两种可能性。在一个或两个这样的结构域处的突变可能产生Cas13e和Cas13f效应蛋白、其同源物、直系同源物、融合物、缀合物、衍生物或功能性片段的RNA酶死亡版本(或“dCas”)，同时基本上保持它们结合指导RNA和与所述指导RNA互补的靶RNA的能力。

Cas效应子的对应DR编码序列在下面列出：

由于DR序列的二级结构(包括茎、凸起和环结构的位置和大小)可能比形成这样的二级结构的特定核苷酸序列更重要，替代性或衍生性DR序列也可用于本发明的系统和方法中，只要这些衍生性或替代性DR序列具有与由SEQ ID NO:8-14中的任一者编码的RNA的二级结构基本类似的二级结构即可。例如，衍生性DR序列可以在一个或两个茎中具有±1或2个碱基对(参见图2)，在凸起的一条或两条单链中具有±1、2或3个碱基，和/或在环区中具有±1、2、3或4个碱基。

在一些实施方式中，VI-E型和VI-F型CRISPR-Cas效应蛋白包括“衍生物”，所述衍生物具有如下氨基酸序列，所述氨基酸序列与上述SEQ ID NO:1-7中的任一者的氨基酸序列具有至少约80％的序列同一性(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)。与SEQ ID NO:1-7中的任一者共享显著的蛋白序列同一性的这样的衍生性Cas效应子保留SEQ ID NO:1-7的Cas的至少一种功能(参见下文)，例如与包含SEQ ID NO:8-14的DR序列中的至少一个的crRNA结合并形成复合物的能力。例如，Cas13e.1衍生物可分别与SEQ ID NO:1、2、3、4、5、6或7共享85％的氨基酸序列同一性，并保留分别与具有SEQ ID NO:8、9、10、11、12、13或14的DR序列的crRNA结合并形成复合物的能力。

在一些实施方式中，所述衍生物包含保守的氨基酸残基取代。在一些实施方式中，所述衍生物仅包含保守的氨基酸残基取代(即，所述衍生物中的所有氨基酸取代都是保守取代，并且没有不保守的取代)。

在一些实施方式中，所述衍生物将不超过1、2、3、4、5、6、7、8、9或10个氨基酸插入或缺失包含到SEQ ID NO:1-7的任一种野生型序列中。只要保留野生型序列的至少一种功能，插入和/或缺失就可以聚集在一起，或在序列的整个长度上分开。这样的功能可以包括结合指导/crRNA的能力、RNA酶活性、结合和/或切割与指导/crRNA互补的靶RNA的能力。在一些实施方式中，插入和/或缺失不存在于RXXXXH基序中，或距RXXXXH基序5、10、15或20个残基内。

在一些实施方式中，所述衍生物保留结合指导RNA/crRNA的能力。

在一些实施方式中，所述衍生物保留指导/crRNA激活的RNA酶活性。

在一些实施方式中，在所结合的在序列方面与至少一部分靶RNA互补的指导/crRNA存在下，所述衍生物保留结合靶RNA和/或切割所述靶RNA的能力。

在其他实施方式中，由于例如RNA指导的RNA酶的一个或多个催化残基的突变，所述衍生物完全或部分丧失指导/crRNA激活的RNA酶活性。这样的衍生物有时称为dCas，如dCas13e.1等。

因此，在某些实施方式中，所述衍生物可以经修饰以具有减弱的核酸酶/RNA酶活性，例如，与相应的野生型蛋白相比，核酸酶灭活至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、至少97％或100％。可以通过本领域已知的几种方法减弱核酸酶活性，例如，将突变引入蛋白的核酸酶(催化)结构域中。在一些实施方式中，鉴定出核酸酶活性的催化残基，并且这些氨基酸残基可以被不同的氨基酸残基(例如，甘氨酸或丙氨酸)取代以减弱核酸酶活性。在一些实施方式中，所述氨基酸取代是保守性氨基酸取代。在一些实施方式中，所述氨基酸取代是非保守性氨基酸取代。

在一些实施方式中，修饰包含在至少一个HEPN结构域中的一个或多个突变(例如，氨基酸缺失、插入或取代)。在一些实施方式中，在至少一个HEPN结构域中存在一个、两个、三个、四个、五个、六个、七个、八个、九个或更多个氨基酸取代。例如，在一些实施方式中，所述一个或多个突变包含在与以下对应的氨基酸残基处的取代(例如，丙氨酸取代)：SEQ IDNO:1的R84、H89、R739、H744、R740、H745，或SEQ ID NO:2的R97、H102、R770、H775，或SEQ IDNO:3的R77、H82、R764、H769，或SEQ ID NO:4的R79、H84、R766A、H771，或SEQ ID NO:5的R79、H84、R766、H771，或SEQ ID NO:6的R89、H94、R773、H778，或SEQ ID NO:7的R89、H94、R777、H782。

在某些实施方式中，所述一个或多个突变或所述两个或更多个突变可以在包含HEPN结构域的效应蛋白的催化活性结构域或与HEPN结构域同源的催化活性结构域中。在某些实施方式中，所述效应蛋白包含一个或多个以下突变：R84A、H89A、R739A、H744A、R740A、H745A(其中氨基酸位置对应于Cas13e.1的氨基酸位置)。本领域技术人员将理解，不同的Cas13e和Cas13f蛋白中的对应氨基酸位置可以突变成相同效果。在某些实施方式中，一个或多个突变完全或部分消除蛋白的催化活性(例如，改变的切割速率、改变的特异性等)。

其他示例性(催化)残基突变包括：Cas13e.2的R97A、H102A、R770A、H775A，或Cas13f.1的R77A、H82A、R764A、H769A，或Cas13f.2的R79A、H84A、R766A、H771A，或Cas13f.3的R79A、H84A、R766A、H771A，或Cas13f.4的R89A、H94A、R773A、H778A，或Cas13f.5的R89A、H94A、R777A、H782A。在某些实施方式中，本文的任一R和/或H残基可以被G、V或I而不是A替代。

与缺乏突变的对应野生型蛋白相比，这些突变中的至少一个的存在导致具有减少的或减弱的RNA酶活性的衍生物。

在某些实施方式中，如本文描述的效应蛋白是“死”效应蛋白，如死Cas13e或Cas13f效应蛋白(即dCas13e和dCas13f)。在某些实施方式中，所述效应蛋白在HEPN结构域1(N-末端)中具有一个或多个突变。在某些实施方式中，所述效应蛋白在HEPN结构域2(C-末端)中具有一个或多个突变。在某些实施方式中，所述效应蛋白在HEPN结构域1和HEPN结构域2中具有一个或多个突变。

失活的Cas或其衍生物或功能性片段可以与一个或多个异源/功能性结构域融合或缔合(例如，经由融合蛋白、接头肽、“GS”接头等)。这些功能性结构域可以具有多种活性，例如，甲基化酶活性、去甲基化酶活性、转录激活活性、转录抑制活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性、DNA切割活性、核酸结合活性、碱基编辑活性和开关活动(例如，光诱导型)。在一些实施方式中，所述功能性结构域是Krüppel相关盒(KRAB)、SID(例如SID4X)、VP64、VPR、VP16、Fok1、P65、HSF1、MyoD1、作用于RNA的腺苷脱氨酶(如ADAR1、ADAR2)、APOBEC、胞苷脱氨酶(AID)、TAD、小型-SOG、APEX和生物素-APEX。

在一些实施方式中，所述功能性结构域是碱基编辑结构域，例如，ADAR1(包括野生型或其ADAR1DD版本，具有或不具有E1008Q)、ADAR2(包括野生型或其ADAR2DD版本，具有或不具有一个或多个E488Q突变)、APOBEC或AID。

在一些实施方式中，所述功能性结构域可以包含一个或多个核定位信号(NLS)结构域。所述一个或多个异源功能性结构域可以包含至少两个或更多个NLS结构域。所述一个或多个NLS结构域可位于或接近或邻近所述效应蛋白(例如，Cas13e/Cas13f效应蛋白)的末端处，并且如果有两个或更多个NLS，则两者中的每一个可位于或接近或邻近所述效应蛋白(例如，Cas13e/Cas13f效应蛋白)的末端处。

在一些实施方式中，至少一个或多个异源功能性结构域可以位于或接近所述效应蛋白的氨基末端处，并且/或者其中至少一个或多个异源功能性结构域位于或接近所述效应蛋白的羧基末端处。所述一个或多个异源功能性结构域可以与所述效应蛋白融合。所述一个或多个异源功能性结构域可以与所述效应蛋白相连。所述一个或多个异源功能性结构域可以通过接头部分与所述效应蛋白连接。

在一些实施方式中，存在多个(例如，两个、三个、四个、五个、六个、七个、八个或更多个)相同或不同的功能性结构域。

在一些实施方式中，所述功能性结构域(例如，碱基编辑结构域)进一步与RNA结合结构域(例如，MS2)融合。

在一些实施方式中，所述功能性结构域与接头序列(例如，柔性接头序列或刚性接头序列)缔合或经由接头序列(例如，柔性接头序列或刚性接头序列)融合。示例性接头序列和功能性结构域序列在下表中提供。

VI-E型和VI-F型CRISPR Cas效应子的工程化的变体中基序和功能性结构域的氨基酸序列

所述一个或多个功能性结构域在失活的Cas蛋白上的定位允许所述功能性结构域的正确的空间取向，从而以所归属的功能性效应影响靶标。例如，如果所述功能性结构域是转录激活子(例如，VP16、VP64或p65)，则将所述转录激活子放置成允许其影响所述靶标的转录的空间取向。同样地，将转录阻遏子定位成影响所述靶标的转录，并且将核酸酶(例如，Fok1)定位成切割或部分切割所述靶标。在一些实施方式中，所述功能性结构域位于Cas/dCas的N-末端处。在一些实施方式中，所述功能性结构域位于Cas/dCas的C-末端处。在一些实施方式中，将失活的CRISPR相关蛋白(dCas)修饰为包含在N-末端处的第一功能性结构域和在C-末端处的第二功能性结构域。

与一个或多个功能性结构域融合的失活的CRISPR相关蛋白的多种实例及其使用方法描述于例如国际公布号WO 2017/219027中，将所述文献通过引用以其全文并且特别是关于本文描述的特征并入本文。

在一些实施方式中，VI-E型和VI-F型CRISPR-Cas效应蛋白包括上述SEQ IDNO:1-7中的任一者的氨基酸序列。在一些实施方式中，VI-E型和VI-F型CRISPR-Cas效应蛋白不包括上述SEQ ID NO:1-7中的任一者的天然存在的氨基酸序列。

在一些实施方式中，可以不使用全长野生型(SEQ ID NO:1-7)或衍生性VI-E型和VI-F型Cas效应子，而使用其“功能性片段”。

如本文所用，“功能性片段”是指具有小于全长序列的、SEQ ID NO:1-7中的任一者的野生型蛋白或其衍生物的片段。所述功能性片段中缺失的残基可以在N-末端、C-末端和/或内部。所述功能性片段保留野生型VI-E或VI-F Cas的至少一种功能、或其衍生物的至少一种功能。因此，功能性片段相对于所讨论的功能而特别定义。例如，其中所述功能是结合crRNA和靶RNA的能力的功能性片段，相对于RNA酶功能而言可能不是功能性片段，因为丢失Cas两端的RXXXXH基序可能不会影响其结合crRNA和靶RNA的能力，但可能消除或破坏RNA酶活性。

在一些实施方式中，与全长序列SEQ ID NO:1-7相比，所述VI-E型或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能性片段缺少来自N-末端的约30、60、90、120、150或约180个残基。

在一些实施方式中，与全长序列SEQ ID NO:1-7相比，所述VI-E型或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能性片段缺少来自C-末端的约30、60、90、120或约150个残基。

在一些实施方式中，与全长序列SEQ ID NO:1-7相比，所述VI-E型或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能性片段缺少来自N-末端的约30、60、90、120、150或约180个残基，并且缺少来自C-末端的约30、60、90、120或约150个残基。

在一些实施方式中，所述VI-E型或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能性片段具有RNA酶活性，例如，指导/crRNA激活的特异性RNA酶活性。

在一些实施方式中，所述VI-E型或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能性片段不具有大量的/可检测的附带RNA酶活性。

这里，“附带RNA酶活性”是指在某些其他2类VI型RNA指导的RNA酶(如Cas13a)中观察到的非特异性RNA酶活性。包含Cas13a的复合物，例如，在通过与靶核酸(例如，靶RNA)结合而激活后，产生构象变化，这又导致所述复合物充当非特异性RNA酶，从而切割和/或降解附近的RNA分子(例如，ssRNA或dsRNA分子)(即，“附带”效应)。

在某些实施方式中，由(但不限于)VI-E型或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能性片段和crRNA构成的复合物在靶标识别后不会展现出附带RNA酶活性。该“无附带”实施方式可包含野生型、工程化的/衍生性效应蛋白或其功能性片段。

在一些实施方式中，所述VI-E型或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能性片段识别并切割所述靶RNA，而无邻近原型间隔子或在原型间隔子侧翼的任何额外要求(即，原型间隔子邻近基序“PAM”或原型间隔子侧翼序列“PFS”的要求)。

本披露还提供本文描述的CRISPR相关蛋白的拆分版本(例如，VI-E型或VI-F型CRISPR-Cas效应蛋白)。所述CRISPR相关蛋白的拆分版本可有利于递送。在一些实施方式中，将所述CRISPR相关蛋白拆分成酶的两个部分，所述酶的两个部分合在一起基本上构成有功能的CRISPR相关蛋白。

所述拆分能以一个或多个催化结构域不受影响的方式进行。所述CRISPR相关蛋白可以作为核酸酶发挥作用，或者可以是失活的酶，所述失活的酶本质上是具有非常小的催化活性或没有催化活性(例如，由于其催化结构域中的一个或多个突变)的RNA结合蛋白。拆分型酶描述于例如Wright等人,“Rational design of a split-Cas9enzyme complex[拆分型Cas9酶复合物的合理设计],”Proc.Nat'l.Acad.Sci.[美国国家科学院院刊]112(10):2984-2989,2015中，将所述文献通过引用以其全文并入本文。

例如，在一些实施方式中，核酸酶叶(nuclease lobe)和α-螺旋叶(α-helicallobe)经表达为单独的多肽。尽管所述叶自身并不相互作用，但crRNA将它们募集到三元复合物中，所述复合物重现全长CRISPR相关蛋白的活性并催化位点特异性DNA切割。使用经修饰的crRNA通过防止二聚化来消除拆分型酶的活性，从而允许开发诱导型二聚化系统。

在一些实施方式中，可以例如通过采用雷帕霉素敏感性二聚化结构域将拆分型CRISPR相关蛋白与二聚化配偶体融合。这允许生成用于对蛋白活性进行时间控制的化学诱导型CRISPR相关蛋白。因此，所述CRISPR相关蛋白可以通过拆分成两个片段而成为化学诱导性，并且雷帕霉素敏感性二聚化结构域可以用于蛋白的受控重组。

拆分点典型地经由计算机模拟设计并克隆到构建体中。在此过程期间，可以将突变引入拆分型CRISPR相关蛋白中，并且可以去除非功能性结构域。

在一些实施方式中，所述拆分型CRISPR相关蛋白的两个部分或片段(即，N-末端和C-末端片段)可以形成完整的CRISPR相关蛋白，其包含野生型CRISPR相关蛋白的例如至少70％、至少80％、至少90％、至少95％或至少99％的序列。

本文描述的CRISPR相关蛋白(例如，VI-E型或VI-F型CRISPR-Cas效应蛋白)可以设计为自我激活或自我灭活。例如，可以将靶序列引入所述CRISPR相关蛋白的编码构建体中。因此，所述CRISPR相关蛋白可以切割所述靶序列以及编码所述蛋白的构建体，从而自我灭活它们的表达。构建自我灭活CRISPR系统的方法描述于例如Epstein和Schaffer,Mol.Ther.[分子疗法]24:S50,2016中，将所述文献通过引用以其全文并入本文。

在一些其他实施方式中，在弱启动子(例如，7SK启动子)的控制下表达的额外的crRNA可以靶向编码所述CRISPR相关蛋白的核酸序列以防止和/或阻断其表达(例如，通过防止所述核酸的转录和/或翻译)。用表达所述CRISPR相关蛋白、所述crRNA、和靶向编码所述CRISPR相关蛋白的核酸的crRNA的载体转染细胞，可导致编码所述CRISPR相关蛋白的核酸的高效破坏并降低所述CRISPR相关蛋白的水平，从而限制基因组编辑活性。

在一些实施方式中，所述CRISPR相关蛋白的基因组编辑活性可以通过哺乳动物细胞中的内源性RNA特征(例如，miRNA)来调节。可以通过在编码所述CRISPR相关蛋白的mRNA的5'-UTR中使用miRNA互补序列来制造CRISPR相关蛋白开关。所述开关选择性地并且高效地响应靶细胞中的miRNA。因此，所述开关可以通过感应异质细胞群内的内源性miRNA活性来对基因组编辑进行差异控制。因此，开关系统可以为基于细胞内miRNA信息的细胞类型选择性基因组编辑和细胞工程化提供框架(参见例如，Hirosawa等人,Nucl.Acids Res.[核酸研究]45(13):e118,2017)。

所述CRISPR相关蛋白(例如，VI-E型和VI-F型CRISPR-Cas效应蛋白)可以经诱导表达，例如，它们的表达可以是光诱导的或化学诱导的。这种机制允许激活所述CRISPR相关蛋白中的功能性结构域。光诱导性可以通过本领域已知的各种方法来实现，例如，通过设计如下融合复合物来实现，其中将CRY2 PHR/CIBN配对用于拆分型CRISPR相关蛋白中(参见例如，Konermann等人,“Optical control of mammalian endogenous transcription andepigenetic states[哺乳动物内源性转录和表观遗传状态的光学控制],”Nature[自然]500:7463,2013)。

化学诱导性可以例如通过设计如下融合复合物来实现，其中将FKBP/FRB(FK506结合蛋白/FKBP雷帕霉素结合结构域)配对用于拆分型CRISPR相关蛋白中。需要雷帕霉素来形成融合复合物，从而激活所述CRISPR相关蛋白(参见例如，Zetsche等人,“A split-Cas9architecture for inducible genome editing and transcription modulation[用于诱导型基因组编辑和转录调节的拆分型Cas9架构],”Nature Biotech.[自然生物技术]33:2:139-42,2015)。

此外，所述CRISPR相关蛋白的表达可以通过诱导型启动子，例如四环素或强力霉素控制的转录激活(Tet-开和Tet-关表达系统)、激素诱导型基因表达系统(例如，蜕皮素诱导型基因表达系统)和阿拉伯糖诱导型基因表达系统来调节。当作为RNA递送时，RNA靶向效应蛋白的表达可以经由核糖开关进行调节，所述核糖开关可以感应小分子(像四环素)(参见例如，Goldfless等人,“Direct and specific chemical control of eukaryotictranslation with a synthetic RNA-protein interaction[通过合成的RNA-蛋白相互作用对真核生物的翻译进行直接和特异性的化学控制],”Nucl.Acids Res.[核酸研究]40:9:e64-e64,2012)。

诱导型CRISPR相关蛋白和诱导型CRISPR系统的各种实施方式描述于例如美国专利号8,871,445、美国公布号2016/0208243和国际公布号WO 2016/205764中，将各个文献通过引用以其全文并入本文。

在一些实施方式中，所述CRISPR相关蛋白包括至少一个(例如，1、2、3、4、5、6、7、8、9或10个)附接至所述蛋白的N-末端或C-末端的核定位信号(NLS)。NLS的非限制性实例包括源自以下的NLS序列：SV40病毒大T抗原的NLS，其具有氨基酸序列PKKKRKV；来自核质蛋白的NLS(例如，具有序列KRPAATKKAGQAKKKK的核质蛋白二分NLS)；c-myc NLS，其具有氨基酸序列PAAKRVKLD或RQRRNELKRSP；hRNPA1 M9 NLS，其具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY；来自输入蛋白-α的IBB结构域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV；肌瘤T蛋白的序列VSRKRPRP和PPKKARED；人p53的序列PQPKKKPL；小鼠c-abl IV的序列SALIKKKKKMAP；流感病毒NS1的序列DRLRR和PKQKKRK；肝炎病毒δ抗原的序列RKLKKKIKKL；小鼠Mx1蛋白的序列REKKKFLKRR；人聚(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK；以及人糖皮质激素受体的序列RKCLQAGMNLEARKTKK。在一些实施方式中，所述CRISPR相关蛋白包含至少一个(例如，1、2、3、4、5、6、7、8、9或10个)附接所述蛋白的N-末端或C-末端的核输出信号(NES)。在优选的实施方式中，附接C-末端和/或N-末端NLS或NES，用于在真核细胞(例如，人细胞)中进行最佳表达和核靶向。

在一些实施方式中，本文描述的CRISPR相关蛋白在一个或多个氨基酸残基处突变以改变一种或多种功能性活性。

例如，在一些实施方式中，所述CRISPR相关蛋白在一个或多个氨基酸残基处突变以改变其解旋酶活性。

在一些实施方式中，所述CRISPR相关蛋白在一个或多个氨基酸残基处突变以改变其核酸酶活性(例如，内切核酸酶活性或外切核酸酶活性)。

在一些实施方式中，所述CRISPR相关蛋白在一个或多个氨基酸残基处突变以改变其与指导RNA功能性缔合的能力。

在一些实施方式中，所述CRISPR相关蛋白在一个或多个氨基酸残基处突变以改变其与靶核酸功能性缔合的能力。

在一些实施方式中，本文描述的CRISPR相关蛋白能够切割靶RNA分子。

在一些实施方式中，所述CRISPR相关蛋白在一个或多个氨基酸残基处突变以改变其切割活性。例如，在一些实施方式中，所述CRISPR相关蛋白可以包含一个或多个突变，所述突变使酶不能切割靶核酸。

在一些实施方式中，所述CRISPR相关蛋白能够切割与指导RNA杂交的链互补的靶核酸链。

在一些实施方式中，本文描述的CRISPR相关蛋白可以经工程化以具有一个或多个氨基酸残基的缺失，以减小酶的大小，同时保留一种或多种所希望的功能性活性(例如，核酸酶活性和与指导RNA功能上相互作用的能力)。截短型CRISPR相关蛋白可以有利地与具有负载限制的递送系统组合使用。

在一些实施方式中，本文描述的CRISPR相关蛋白可以与一种或多种肽标签，包括His标签、GST标签、V5标签、FLAG标签、HA标签、VSV-G标签、Trx标签或myc标签融合。

在一些实施方式中，本文描述的CRISPR相关蛋白可以与可检测部分，例如GST、荧光蛋白(例如GFP、HcRed、DsRed、CFP、YFP或BFP)或酶(如HRP或CAT)融合。

在一些实施方式中，本文描述的CRISPR相关蛋白可以与MBP、LexA DNA结合结构域或Gal4 DNA结合结构域融合。

在一些实施方式中，本文描述的CRISPR相关蛋白可以与可检测标记(如荧光染料，包括FITC和DAPI)连接或缀合。

在本文的任一实施方式中，本文描述的CRISPR相关蛋白与其他部分之间的连接可以经由共价化学键在所述CRISPR相关蛋白的N-末端或C-末端处，并且有时甚至在内部。所述连接可以通过本领域已知的任何化学连接来实现，所述化学连接例如肽连接、通过氨基酸(如D、E、S、T)的侧链或氨基酸衍生物(Ahx、β-Ala、GABA或Ava)连接、或PEG连接。

3.多核苷酸

本发明还提供核酸，所述核酸编码本文描述的蛋白(例如，CRISPR相关蛋白或辅助蛋白)和指导RNA(例如，crRNA)。

在一些实施方式中，所述核酸是合成的核酸。在一些实施方式中，所述核酸是DNA分子。在一些实施方式中，所述核酸是RNA分子(例如，编码所述Cas、其衍生物或功能性片段的mRNA分子)。在一些实施方式中，将所述mRNA加帽、聚腺苷酸化、用5-甲基胞苷取代、用假尿苷取代、或其组合。

在一些实施方式中，所述核酸(例如，DNA)与调节元件(例如，启动子)可操作地连接以控制所述核酸的表达。在一些实施方式中，所述启动子是组成型启动子。在一些实施方式中，所述启动子是诱导型启动子。在一些实施方式中，所述启动子是细胞特异性启动子。在一些实施方式中，所述启动子是生物特异性启动子。

合适的启动子是本领域已知的并且包括例如pol I启动子、pol II启动子、polIII启动子、T7启动子、U6启动子、H1启动子、逆转录病毒劳斯肉瘤病毒LTR启动子、巨细胞病毒(CMV)启动子、SV40启动子、二氢叶酸还原酶启动子和β-肌动蛋白启动子。例如，U6启动子可用于调节本文描述的指导RNA分子的表达。

在一些实施方式中，一个或多个核酸存在于载体(例如，病毒载体或噬菌体)中。所述载体可以是克隆载体或表达载体。所述载体可以是质粒、噬菌粒、粘粒等。所述载体可以包括一个或多个允许所述载体在目的细胞(例如，细菌细胞或哺乳动物细胞)中繁殖的调节元件。在一些实施方式中，所述载体包括编码本文描述的CRISPR相关(Cas)系统的单个组分的核酸。在一些实施方式中，所述载体包括多个核酸，每个核酸编码本文描述的CRISPR相关(Cas)系统的组分。

在一个方面，本披露提供与本文描述的核酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％同一性的核酸序列，即，编码如下的核酸序列：Cas蛋白、衍生物、功能性片段、或包括SEQ IDNO:8-14的DR序列的指导/crRNA。

在另一方面，本披露还提供编码如下氨基酸序列的核酸序列，所述氨基酸序列与本文描述的氨基酸序列(如SEQ ID NO:1-7)具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％同一性。

在一些实施方式中，所述核酸序列具有至少一部分(例如，至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个核苷酸，例如，连续或非连续核苷酸)与本文描述的序列相同。在一些实施方式中，所述核酸序列具有至少一部分(例如，至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个核苷酸，例如，连续或非连续核苷酸)与本文描述的序列不同。

在相关的实施方式中，本发明提供如下氨基酸序列，所述氨基酸序列具有至少一部分(例如，至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个氨基酸残基，例如，连续或非连续氨基酸残基)与本文描述的序列相同。在一些实施方式中，所述氨基酸序列具有至少一部分(例如，至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个氨基酸残基，例如，连续或非连续氨基酸残基)与本文描述的序列不同。

为了确定两个氨基酸序列或两个核酸序列的同一性百分比，出于最佳比较目的对序列进行比对(例如，可以在第一和第二氨基酸或核酸序列的一者或两者中引入空位以用于最佳比对，并且出于比较目的可以忽略非同源序列)。一般来说，出于比较目的而比对的参考序列的长度应是参考序列长度的至少80％，并且在一些实施方式中是参考序列长度的至少90％、95％或100％。然后比较对应的氨基酸位置或核苷酸位置处的氨基酸残基或核苷酸。当第一序列中的位置被与第二序列中的对应位置相同的氨基酸残基或核苷酸占据时，则分子在该位置处是相同的。将空位的数量和每个空位的长度考虑在内，两个序列之间的同一性百分比是所述序列共享的相同位置的数量的函数，需要引入所述空位以进行所述两个序列的最佳比对。出于本披露的目的，序列的比较和两个序列之间同一性百分比的确定可以使用具有空位罚分12、空位延伸罚分4、以及移码空位罚分5的Blosum 62评分矩阵来完成。

本文描述的蛋白(例如，CRISPR相关蛋白或辅助蛋白)可以作为核酸分子或多肽递送或使用。

在某些实施方式中，编码所述CRISPR相关蛋白、其衍生物或功能性片段的核酸分子经密码子优化以在宿主细胞或生物中表达。所述宿主细胞可以包括已建立的细胞系(如293T细胞)或分离的原代细胞。所述核酸可以经密码子优化以用于在任何目的生物(特别是人细胞或细菌)中使用。例如，所述核酸可以针对以下进行密码子优化：任何原核生物(如大肠杆菌(E.coli))或任何真核生物，如人和其他非人真核生物，包括酵母、蠕虫、昆虫、植物和藻类(包括粮食作物、稻、玉米、蔬菜、水果、树木、草)、脊椎动物、鱼、非人哺乳动物(例如，小鼠、大鼠、兔子、狗、鸟(如鸡)、牲畜(母牛或牛、猪、马、绵羊、山羊等)、或非人灵长类动物)。密码子使用表易于获得，例如在www.kazusa.orjp/codon/上可获得的“密码子使用数据库(Codon Usage Database)”中，并且这些表能以多种方式进行调整。参见Nakamura等人,Nucl.Acids Res.[核酸研究]28:292,2000(将所述文献通过引用以其全文并入本文)。用于密码子优化特定序列以在特定宿主细胞中表达的计算机算法也是可获得的，如基因制造(Gene Forge)(Aptagen公司；宾夕法尼亚州雅各布斯(Jacobus,PA))。

在这种情况下，经密码子优化的序列的实例是经优化以在以下中表达的序列：真核生物，例如人(即，经优化以在人中表达)，或如本文所讨论的另一真核生物、动物或哺乳动物；参见例如，WO 2014/093622(PCT/US2013/074667)中的经SaCas9人密码子优化的序列。尽管这是优选的，但应理解其他实例是可能的，并且针对人以外的宿主物种的密码子优化或针对特定器官的密码子优化是已知的。一般来说，密码子优化是指在维持天然氨基酸序列的情况下通过以下方式修饰核酸序列以增强在目的宿主细胞中的表达的方法：用该宿主细胞的基因中更频繁使用或最频繁使用的密码子替代天然序列的至少一个密码子(例如，约或超过约1、2、3、4、5、10、15、20、25、50或更多个密码子)。多种物种对特定氨基酸的某些密码子展现出特定偏倚。密码子偏倚(生物之间密码子使用的差异)通常与信使RNA(mRNA)的翻译效率相关，而所述信使RNA(mRNA)的翻译效率又被认为尤其依赖于经翻译的密码子的特性和特定的转移RNA(tRNA)分子的可获得性。选定的tRNA在细胞中的优势通常反映出肽合成中最频繁使用的密码子。相应地，可以对基因进行定制以基于密码子优化在给定生物中实现最佳基因表达。密码子使用表易于获得，例如在http://www.kazusa.orjp/codon/上可获得的“密码子使用数据库”中，并且这些表能以多种方式进行调整。参见Nakamura,Y.等人“Codon usage tabulated from the international DNA sequencedatabases:status for the year 2000[从国际DNA序列数据库中制表的密码子使用：2000年的状态]”Nucl.Acids Res.[核酸研究]28:292(2000)。用于密码子优化特定序列以在特定宿主细胞中表达的计算机算法也是可获得的，如基因制造(Aptagen公司；宾夕法尼亚州雅各布斯)。在一些实施方式中，编码Cas的序列中的一个或多个密码子(例如，1、2、3、4、5、10、15、20、25、50或更多个或所有密码子)对应于特定氨基酸最频繁使用的密码子。

4.RNA指导物或crRNA

在一些实施方式中，本文描述的CRISPR系统包括至少RNA指导物(例如，gRNA或crRNA)。

多种RNA指导物的架构是本领域已知的(参见例如，国际公布号WO2014/093622和WO 2015/070083，将各个文献的全部内容通过引用并入本文)。

在一些实施方式中，本文描述的CRISPR系统包括多种RNA指导物(例如，一种、两种、三种、四种、五种、六种、七种、八种或更多种RNA指导物)。

在一些实施方式中，所述RNA指导物包括crRNA。在一些实施方式中，所述RNA指导物包括crRNA，但不包括tracrRNA。

来自多个CRISPR系统的指导RNA的序列在本领域中通常是已知的，参见例如Grissa等人(Nucleic Acids Res.[核酸研究]35(网页服务器议题):W52-7,2007；Grissa等人,BMC Bioinformatics[BMC生物信息学]8:172,2007；Grissa等人,Nucleic Acids Res.[核酸研究]36(网页服务器议题):W145-8,2008；以及Moller和Liang,PeerJ[同行评审科学期刊]5:e3788,2017；在crispr.i2bc.paris-saclayfr/crispr/BLAST/CRISPRsBlast.php处的CRISPR数据库；以及在github.com/molleraj/MetaCRAST处可获得的MetaCRAST)。将所有文献通过引用并入本文。

在一些实施方式中，所述crRNA包括同向重复(DR)序列和间隔序列。在某些实施方式中，所述crRNA包含如下同向重复序列、基本上由其组成或由其组成，所述同向重复序列与指导序列或间隔序列(优选地在所述间隔序列的3'端处)连接。

一般来说，Cas蛋白与成熟的crRNA形成复合物，所述成熟的crRNA的间隔序列引导所述复合物与靶RNA序列特异性结合，所述靶RNA与所述间隔序列互补和/或与所述间隔序列杂交。所得的复合物包含所述Cas蛋白和与所述靶RNA结合的成熟的crRNA。

所述Cas13e和Cas13f系统的同向重复序列通常非常保守，尤其是在末端处，在5'端处的Cas13e的GCTG和Cas13f的GCTGT与在3'端处的Cas13e的CAGC和Cas13f的ACAGC反向互补。这种保守表明潜在地与基因座中的一种或多种蛋白相互作用的RNA茎环结构的强碱基配对。

在一些实施方式中，当在RNA中时，同向重复序列包含5'-S1a-Ba-S2a-L-S2b-Bb-S1b-3'的一般二级结构，其中区段S1a和S1b是反向互补序列并形成第一茎(S1)，所述第一茎(S1)具有在Cas13e中的4个核苷酸和在Cas13f中的5个核苷酸；区段Ba和Bb不相互碱基配对，并形成对称的或接近对称的凸起(B)，并且各具有在Cas13e中的5个核苷酸、以及分别在Cas13f中的5个(Ba)和4个(Bb)或6个(Ba)和5个(Bb)核苷酸；区段S2a和S2b是反向互补序列并形成第二茎(S2)，所述第二茎(S2)具有在Cas13e中的5个碱基对和在Cas13f中的6或5个碱基对；并且L是在Cas13e中的8个核苷酸的环和在Cas13f中的5个核苷酸的环。参见图2。

在某些实施方式中，S1a具有在Cas13e中的GCUG序列和在Cas13f中的GCUGU序列。

在某些实施方式中，S2a具有在Cas13e中的GCCCC序列和在Cas13f中的A/GCCUC G/A序列(其中第一个A或G可以不存在)。

在一些实施方式中，所述同向重复序列包含SEQ ID NO:8-14的核酸序列或由其组成。

在一些实施方式中，所述同向重复序列包含如下核酸序列或由其组成，所述核酸序列具有SEQ ID NO:8-14的多达1、2、3、4、5、6、7或8个核苷酸的缺失、插入或取代。在一些实施方式中，所述同向重复序列包含如下核酸序列或由其组成，所述核酸序列与SEQ IDNO:8-14具有至少80％、85％、90％、95％或97％的序列同一性(例如，由于SEQ ID NO:8-14中核苷酸的缺失、插入或取代)。在一些实施方式中，所述同向重复序列包含如下核酸序列或由其组成，所述核酸序列与SEQ IDNO:8-14中的任一者不同，但可以在严格杂交条件下与SEQ ID NO:8-14中的任一者的互补序列杂交，或者可以在生理条件下与SEQ ID NO:8-14中的任一者的互补序列结合。

在某些实施方式中，所述缺失、插入或取代不改变SEQ ID NO:8-14的总体二级结构(例如，茎和凸起及环的相对位置和/或大小不显著偏离原始茎、凸起和环的相对位置和/或大小)。例如，所述缺失、插入或取代可以在所述凸起或环区中，使得所述凸起的总体对称性大致保持相同。所述缺失、插入或取代可以在所述茎中，使得所述茎的长度不显著偏离原始茎的长度(例如，在两个茎的每一个中添加或缺失一个碱基对对应于总共4个碱基变化)。

在某些实施方式中，所述缺失、插入或取代导致衍生性DR序列，所述衍生性DR序列可在一个或两个茎中具有±1或2个碱基对(参见图2)，在所述凸起的一条或两条单链中具有±1、2或3个碱基，和/或在所述环区中具有±1、2、3或4个碱基。

在某些实施方式中，与SEQ ID NO:8-14中的任一者不同的任一上述同向重复序列保留在所述Cas13e或Cas13f蛋白中作为同向重复序列(作为SEQ ID NO:8-14的DR序列)发挥作用的能力。

在一些实施方式中，所述同向重复序列包含如下核酸或由其组成，所述核酸具有SEQ ID NO:8-14中的任一者的核酸序列，且具有初始三个、四个、五个、六个、七个或八个3'核苷酸的截短。

在一些实施方式中，所述Cas蛋白包含SEQ ID NO:1的氨基酸序列，并且所述crRNA包含同向重复序列，其中所述同向重复序列包含SEQ ID NO:8的核酸序列或由其组成。

在一些实施方式中，所述Cas蛋白包含SEQ ID NO:2的氨基酸序列，并且所述crRNA包含同向重复序列，其中所述同向重复序列包含SEQ ID NO:9的核酸序列或由其组成。

在一些实施方式中，所述Cas蛋白包含SEQ ID NO:3的氨基酸序列，并且所述crRNA包含同向重复序列，其中所述同向重复序列包含SEQ ID NO:10的核酸序列或由其组成。

在一些实施方式中，所述Cas蛋白包含SEQ ID NO:4的氨基酸序列，并且所述crRNA包含同向重复序列，其中所述同向重复序列包含SEQ ID NO:11的核酸序列或由其组成。

在一些实施方式中，所述Cas蛋白包含SEQ ID NO:5的氨基酸序列，并且所述crRNA包含同向重复序列，其中所述同向重复序列包含SEQ ID NO:12的核酸序列或由其组成。

在一些实施方式中，所述Cas蛋白包含SEQ ID NO:6的氨基酸序列，并且所述crRNA包含同向重复序列，其中所述同向重复序列包含SEQ ID NO:13的核酸序列或由其组成。

在一些实施方式中，所述Cas蛋白包含SEQ ID NO:7的氨基酸序列，并且所述crRNA包含同向重复序列，其中所述同向重复序列包含SEQ ID NO:14的核酸序列或由其组成。

在经典的CRISPR系统中，指导序列(例如，crRNA)与其对应的靶序列之间的互补程度可以是约50％、60％、75％、80％、85％、90％、95％、97.5％、99％或100％。在一些实施方式中，所述互补程度是90％-100％。

指导RNA的长度可以是约5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、75、100、125、150、175、200或更多个核苷酸。例如，为了在功能性Cas13e或Cas13f效应蛋白、或其同源物、直系同源物、衍生物、融合物、缀合物或功能性片段中使用，间隔子可以在10-60个核苷酸、20-50个核苷酸、25-45个核苷酸、25-35个核苷酸之间，或为约27、28、29、30、31、32或33个核苷酸。然而，为了在上述任一者的dCas版本中使用，间隔子可以在10-200个核苷酸、20-150个核苷酸、25-100个核苷酸、25-85个核苷酸、35-75个核苷酸、45-60个核苷酸之间，或为约46、47、48、49、50、51、52、53、54或55个核苷酸。

为了减少脱靶相互作用，例如，为了减少指导物与具有低互补性的靶序列相互作用，可以将突变引入所述CRISPR系统中，使得所述CRISPR系统可以区分具有大于80％、85％、90％或95％互补性的靶序列与脱靶序列。在一些实施方式中，所述互补程度为从80％至95％，例如，约83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％或95％(例如，区分具有18个核苷酸的靶标与具有1、2或3个错配的18个核苷酸的脱靶)。相应地，在一些实施方式中，指导序列与其对应的靶序列之间的互补程度大于94.5％、95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或99.9％。在一些实施方式中，所述互补程度是100％。

本领域已知不需要完全的互补性，前提是有足够的互补性发挥作用。可以通过引入错配(例如，间隔序列与靶序列之间的一个或多个错配，如1或2个错配(包括沿着间隔子/靶标的错配的位置))来利用对切割效率的调节。错配(例如，双错配)位于越中心的位置(即，不在3'端或5'端处)，切割效率受到的影响越大。相应地，通过选择沿着所述间隔序列的错配位置，可以调节切割效率。例如，如果希望靶标切割小于100％(例如，在细胞群中)，可以在所述间隔序列中引入在间隔子和靶序列之间的1或2个错配。

已表明VI型CRISPR-Cas效应子采用多于一种RNA指导物，从而使这些效应子以及包括它们的系统和复合物能够实现靶向多个核酸的能力。在一些实施方式中，本文描述的CRISPR系统包括多种RNA指导物(例如，两种、三种、四种、五种、六种、七种、八种、九种、十种、十五种、二十种、三十种、四十种或更多种RNA指导物)。在一些实施方式中，本文描述的CRISPR系统包括单条RNA链或编码单条RNA链的核酸，其中所述RNA指导物串联排列。所述单条RNA链可以包括相同RNA指导物的多个拷贝、不同RNA指导物的多个拷贝、或其组合。本文描述的VI-E型和VI-F型CRISPR-Cas效应蛋白的加工能力使这些效应子能够靶向多个靶核酸(例如，靶RNA)而不丧失活性。在一些实施方式中，所述VI-E型和VI-F型CRISPR-Cas效应蛋白可以与针对不同靶RNA的多种RNA指导物复合进行递送。在一些实施方式中，所述VI-E型和VI-F型CRISPR-Cas效应蛋白可以与多种RNA指导物共同递送，每种RNA指导物对不同的靶核酸具有特异性。使用CRISPR相关蛋白进行多重复合(multiplexing)的方法描述于例如美国专利号9,790,490B2和EP 3009511 B1中，将各个文献的全部内容通过引用明确并入本文。

crRNA的间隔子长度可以在约10-60个核苷酸的范围内，如15-50个核苷酸、20-50个核苷酸、25-50个核苷酸或19-50个核苷酸。在一些实施方式中，指导RNA的间隔子长度为至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、或至少22个核苷酸。在一些实施方式中，所述间隔子长度为从15至17个核苷酸(例如，15、16或17个核苷酸)、从17至20个核苷酸(例如，17、18、19或20个核苷酸)、从20至24个核苷酸(例如，20、21、22、23或24个核苷酸)、从23至25个核苷酸(例如，23、24或25个核苷酸)、从24至27个核苷酸、从27至30个核苷酸、从30至45个核苷酸(例如，30、31、32、33、34、35、36、37、38、39、40、41、42、43、44或45个核苷酸)、从30或35至40个核苷酸、从41至45个核苷酸、从45至50个核苷酸(例如，45、46、47、48、49或50个核苷酸)或更长。在一些实施方式中，所述间隔子长度为从约15至约42个核苷酸。

在一些实施方式中，所述指导RNA的同向重复序列长度为15-36个核苷酸、为至少16个核苷酸、为从16至20个核苷酸(例如，16、17、18、19或20个核苷酸)、为20-30个核苷酸(例如，20、21、22、23、24、25、26、27、28、29或30个核苷酸)、为30-40个核苷酸(例如，30、31、32、33、34、35、36、37、38、39或40个核苷酸)、或为约36个核苷酸(例如，33、34、35、36、37、38或39个核苷酸)。在一些实施方式中，所述指导RNA的同向重复序列长度为36个核苷酸。

在一些实施方式中，所述crRNA/指导RNA的总体长度比上文任一间隔序列长度长约36个核苷酸。例如，所述crRNA/指导RNA的总体长度可以在45-86个核苷酸、或60-86个核苷酸、62-86个核苷酸、或63-86个核苷酸之间。

所述crRNA序列可以按以下方式修饰：允许在所述crRNA与CRISPR相关蛋白之间形成复合物并与靶标成功结合，同时不允许成功的核酸酶活性(即，没有核酸酶活性/没有导致插入缺失)。这些经修饰的指导序列称为“死crRNA”、“死指导物”或“死指导序列”。关于核酸酶活性，这些死指导物或死指导序列可以是无催化活性的或无构象活性的。死指导序列典型地比导致活性RNA切割的相应指导序列短。在一些实施方式中，死指导物比具有核酸酶活性的相应指导RNA短5％、10％、20％、30％、40％或50％。指导RNA的死指导序列的长度可以为从13至15个核苷酸(例如，长度为13、14或15个核苷酸)、长度为从15至19个核苷酸、或长度为从17至18个核苷酸(例如，长度为17个核苷酸)。

因此，在一个方面，本披露提供非天然存在的或工程化的CRISPR系统，所述CRISPR系统包括如本文描述的功能性CRISPR相关蛋白和crRNA，其中所述crRNA包含死crRNA序列，由此所述crRNA能够与靶序列杂交，使得将所述CRISPR系统引导至细胞中的目的基因组基因座而没有可检测的核酸酶活性(例如，RNA酶活性)。

对死指导物的详细描述例如在国际公布号WO 2016/094872中进行描述，将所述文献通过引用以其全文并入本文。

可以生成作为诱导型系统的组分的指导RNA(例如，crRNA)。所述系统的诱导型性质允许对基因编辑或基因表达进行时空控制。在一些实施方式中，用于所述诱导型系统的刺激包括例如电磁辐射、声能、化学能和/或热能。

在一些实施方式中，指导RNA(例如，crRNA)的转录可以通过诱导型启动子，例如四环素或强力霉素控制的转录激活(Tet-开和Tet-关表达系统)、激素诱导型基因表达系统(例如，蜕皮素诱导型基因表达系统)和阿拉伯糖诱导型基因表达系统来调节。诱导型系统的其他实例包括例如小分子双杂交转录激活系统(FKBP、ABA等)、光诱导型系统(光敏色素、LOV结构域或隐花色素)或光诱导型转录效应子(LITE)。这些诱导型系统描述于例如WO2016205764和美国专利号8,795,965中，将所述两个文献通过引用以其全文并入本文。

化学修饰可以应用于crRNA的磷酸骨架、糖和/或碱基。骨架修饰(如硫代磷酸酯)修饰磷酸骨架上的电荷并有助于寡核苷酸的递送和核酸酶抗性(参见例如，Eckstein,“Phosphorothioates,essential components of therapeutic oligonucleotides[硫代磷酸酯：治疗性寡核苷酸的必要组分],”Nucl.Acid Ther.[核酸疗法],24,第374-387页,2014)；糖的修饰(如2'-O-甲基(2'-OMe)、2'-F和锁核酸(LNA))增强碱基配对和核酸酶抗性两者(参见例如，Allerson等人“Fully 2’-modified oligonucleotide duplexes withimproved in vitro potency and stability compared to unmodified smallinterfering RNA[与未经修饰的小干扰RNA相比，完全2'修饰的寡核苷酸双链体具有改善的体外效力和稳定性],”J.Med.Chem.[药物化学杂志]48.4:901-904,2005)。化学修饰的碱基(如2-硫代尿苷或N6-甲基腺苷等)可允许更强或更弱的碱基配对(参见例如，Bramsen等人,“Development of therapeutic-grade small interfering RNAs by chemicalengineering[通过化学工程开发治疗级小干扰RNA],”Front.Genet.[遗传学前沿],2012年8月20日；3:154)。另外，RNA适于5’端和3’端两者与多种功能性部分(包括荧光染料、聚乙二醇或蛋白)缀合。

可以对化学合成的crRNA分子应用多种修饰。例如，用2'-OMe修饰寡核苷酸以改善核酸酶抗性可以改变沃森-克里克(Watson-Crick)碱基配对的结合能。此外，2'-OMe修饰可以影响寡核苷酸与转染试剂、蛋白或细胞中任何其他分子相互作用的方式。这些修饰的效果可以通过经验测试来确定。

在一些实施方式中，所述crRNA包括一个或多个硫代磷酸酯修饰。在一些实施方式中，所述crRNA包括用于增强碱基配对和/或增加核酸酶抗性目的的一个或多个锁核酸。

这些化学修饰的汇总可见于例如Kelley等人,“Versatility of chemicallysynthesized guide RNAs for CRISPR-Cas9 genome editing[用于CRISPR-Cas9基因组编辑的化学合成的指导RNA的多功能性],”J.Biotechnol.[生物技术杂志]233:74-83,2016；WO 2016205764；和美国专利号8,795,965B2中；将各个文献通过引用以其全文并入。

可以优化本文描述的RNA指导物(例如，crRNA)的序列和长度。在一些实施方式中，RNA指导物的优化长度可以通过鉴定crRNA的加工形式(即，成熟的crRNA)或通过对crRNA四环的经验长度研究来确定。

所述crRNA还可以包括一个或多个适配序列。适配子是具有特定的三维结构并可以与特定的靶分子结合的寡核苷酸或肽分子。所述适配子可以对基因效应子、基因激活子或基因阻遏子具有特异性。在一些实施方式中，所述适配子可以对蛋白具有特异性，而所述蛋白又对特定的基因效应子、基因激活子或基因阻遏子具有特异性并对其进行募集和/或与其结合。所述效应子、激活子或阻遏子能够以融合蛋白的形式存在。在一些实施方式中，所述指导RNA具有对相同的衔接蛋白具有特异性的两个或更多个适配序列。在一些实施方式中，所述两个或更多个适配序列对不同的衔接蛋白具有特异性。所述衔接蛋白可以包括例如MS2、PP7、Qβ、F2、GA、fr、JP501、M12、R17、BZ13、JP34、JP500、KU1、M11、MX1、TW18、VK、SP、FI、ID2、NL95、TW19、AP205、φkCb5、φkCb8r、φkCb12r、φkCb23r、7s和PRR1。相应地，在一些实施方式中，所述适配子选自特异性结合如本文描述的任一种衔接蛋白的结合蛋白。在一些实施方式中，所述适配序列是MS2结合环(5’-ggcccAACAUGAGGAUCACCCAUGUCUGCAGgggcc-3’)。在一些实施方式中，所述适配序列是Qβ结合环(5’-ggcccAUGCUGUCUAAGACAGCAUgggcc-3’)。在一些实施方式中，所述适配序列是PP7结合环(5’-ggcccUAAGGGUUUAUAUGGAAACCCUUAgggcc-3’)。对适配子的详细描述可见于例如Nowak等人,“Guide RNAengineering for versatile Cas9 functionality[针对多种Cas9功能的指导RNA工程化],”Nucl.Acid.Res.[核酸研究],44(20):9555-9564,2016；和WO2016205764中，将所述文献通过引用以其全文并入本文。

在某些实施方式中，所述方法利用化学修饰的指导RNA。指导RNA化学修饰的实例包括但不限于在一个或多个末端核苷酸处掺入2'-O-甲基(M)、2'-O-甲基3'-硫代磷酸酯(MS)、或2'-O-甲基3'-硫基PACE(MSP)。与未经修饰的指导RNA相比，这样的化学修饰的指导RNA可以具有增加的稳定性和增加的活性，尽管中靶相对于脱靶特异性是不可预测的。参见Hendel,Nat Biotechnol.[自然生物技术]33(9):985-9,2015，将所述文献通过引用并入。化学修饰的指导RNA可进一步包括但不限于具有硫代磷酸酯键和锁核酸(LNA)核苷酸的RNA，所述锁核酸(LNA)核苷酸包含在核糖环的2'与4'碳之间的亚甲基桥。

本发明还涵盖用于递送多种核酸组分的方法，其中每种核酸组分对不同的目的靶基因座具有特异性，从而修饰多种目的靶基因座。复合物的核酸组分可以包含一个或多个蛋白结合RNA适配子。所述一个或多个适配子能够结合噬菌体外壳蛋白。所述噬菌体外壳蛋白可以选自Qβ、F2、GA、fr、JP501、MS2、M12、R17、BZ13、JP34、JP500、KU1、M11、MX1、TW18、VK、SP、FI、ID2、NL95、TW19、AP205、φCb5、φCb8r、φCb12r、φCb23r、7s和PRR1。在某些实施方式中，所述噬菌体外壳蛋白是MS2。

5.靶RNA

所述靶RNA可以是任何目的RNA分子，包括天然存在的和工程化的RNA分子。所述靶RNA可以是mRNA、tRNA、核糖体RNA(rRNA)、微小RNA(miRNA)、干扰RNA(siRNA)、核酶、核糖开关、卫星RNA、微开关、微酶(microzyme)或病毒RNA。

在一些实施方式中，所述靶核酸与病症或疾病(例如，感染性疾病或癌症)相关。

因此，在一些实施方式中，本文描述的系统可用于通过靶向这些核酸来治疗病症或疾病。例如，与病症或疾病相关的靶核酸可以是在患病细胞(例如，癌细胞或肿瘤细胞)中过表达的RNA分子。所述靶核酸也可以是毒性RNA和/或突变的RNA(例如，具有剪接缺陷或突变的mRNA分子)。所述靶核酸还可以是对特定微生物(例如，致病性细菌)具有特异性的RNA。

6.复合物和细胞

本发明的一个方面提供CRISPR/Cas13e或CRISPR/Cas13f复合物，其包含(1)如本文描述的任一Cas13e/Cas13f效应蛋白、其同源物、直系同源物、融合物、衍生物、缀合物、或功能性片段，和(2)本文描述的任一指导RNA，每个指导RNA包括设计为与靶RNA至少部分互补的间隔序列和与所述Cas13e/Cas13f效应蛋白、其同源物、直系同源物、融合物、衍生物、缀合物、或功能性片段相容的DR序列。

在某些实施方式中，所述复合物进一步包含所述指导RNA结合的靶RNA。

在某些实施方式中，所述复合物不是天然存在的。例如，所述复合物的组分中的至少一种不是天然存在的。在某些实施方式中，所述Cas13e/Cas13f效应蛋白、其同源物、直系同源物、融合物、衍生物、缀合物、或功能性片段不是天然存在的，这是由于例如与野生型蛋白相比，存在至少一个氨基酸突变(缺失、插入和/或取代)。在某些实施方式中，所述DR序列不是天然存在的，即，不是SEQ ID NO:8-14中的任一者，这是由于例如在野生型序列中添加、缺失和/或取代至少一个核苷酸碱基。在某些实施方式中，所述间隔序列不是天然存在的，因为它不存在或不由存在于以下中的任何间隔序列编码：主题Cas13e或Cas13f存在于其中的原核生物的野生型CRISPR基因座。当所述间隔序列与天然存在的噬菌体核酸不是100％互补时，它可能不是天然存在的。

在相关方面，本发明还提供细胞，所述细胞包含本发明的任一复合物。

在某些实施方式中，所述细胞是原核生物。

在某些实施方式中，所述细胞是真核生物。当所述细胞是真核生物时，在所述真核细胞中的复合物可以是分离出Cas13e/Cas13f的原核生物中天然存在的Cas13e/Cas13f复合物。

7.使用CRISPR系统的方法

本文描述的CRISPR系统具有多种效用，包括在多种细胞类型中修饰(例如，缺失、插入、易位、灭活或激活)靶多核苷酸或核酸。所述CRISPR系统在以下方面具有广泛的应用：例如DNA/RNA检测(例如，特异性高灵敏度酶促报告子解锁(SHERLOCK))、核酸的跟踪和标记、富集测定(从背景提取所希望的序列)、控制干扰RNA或miRNA、检测循环肿瘤DNA、制备下一代文库、药物筛选、疾病诊断和预后、以及治疗各种遗传障碍。

DNA/RNA检测

在一个方面，本文描述的CRISPR系统可用于DNA或RNA检测中。如实施例中所示，当间隔序列为约30个核苷酸时，本发明的Cas13e和Cas13f蛋白在其指导RNA依赖性特异性RNA酶活性激活后展现出非特异性/附带RNA酶活性。因此，本发明的CRISPR相关蛋白可以用CRISPR RNA(crRNA)重新编程以提供用于特定RNA感应的平台。通过选择特定的间隔序列长度，并在识别其RNA靶标后，激活的CRISPR相关蛋白参与附近非靶向的RNA的“附带”切割。这种crRNA编程的附带切割活性允许所述CRISPR系统通过触发程序性细胞死亡或通过经标记的RNA的非特异性降解来检测特定RNA的存在。

SHERLOCK方法(特异性高灵敏度酶促报告子解锁)提供基于报告RNA的核酸扩增和附带切割的具有渺摩尔(attomolar)灵敏度的体外核酸检测平台，从而允许实时检测靶标。为了实现信号检测，可以将检测与不同的等温扩增步骤组合。例如，重组酶聚合酶扩增(RPA)可以与T7转录偶联，以将扩增的DNA转化为RNA，用于后续检测。通过RPA进行扩增、T7RNA聚合酶将扩增的DNA转录为RNA、以及通过附带RNA切割介导的报告信号释放检测靶RNA的组合称为SHERLOCK。在SHERLOCK中使用CRISPR的方法详细描述于例如Gootenberg等人“Nucleic acid detection with CRISPR-Cas13a/C2c2[用CRISPR-Cas13a/C2c2进行核酸检测],”Science[科学],2017年4月28日；356(6336):438-442中，将所述文献通过引用以其全文并入本文。

所述CRISPR相关蛋白可用于RNA印迹测定中，所述测定使用电泳按大小分离RNA样品。所述CRISPR相关蛋白可用于特异性结合和检测靶RNA序列。所述CRISPR相关蛋白也可以与荧光蛋白(例如，GFP)融合，并用于跟踪活细胞中的RNA定位。更特别地，可以灭活所述CRISPR相关蛋白，因为它们不再如上所述切割RNA。因此，CRISPR相关蛋白可用于确定RNA或特定剪接变体的定位、mRNA转录物的水平、转录物的上调或下调以及疾病特异性诊断。所述CRISPR相关蛋白可用于(活)细胞中的RNA的可视化，例如使用荧光显微镜检查术或流式细胞术，如荧光激活细胞分选术(FACS)，其允许对细胞进行高通量筛选和回收细胞分选后的活细胞。关于如何检测DNA和RNA的详细描述可见于例如国际公布号WO2017/070605中，将所述文献通过引用以其全文并入本文。

在一些实施方式中，本文描述的CRISPR系统可用于多重抗错荧光原位杂交(multiplexed error-robust fluorescence in situ hybridization，MERFISH)。这些方法描述于例如Chen等人,“Spatially resolved,highly multiplexed RNAprofiling insingle cells[在单细胞中进行空间分辨的高度多重化RNA分析],”Science[科学],2015年4月24日；348(6233):aaa6090，将所述文献通过在本文中引用以其全文并入本文。

在一些实施方式中，本文描述的CRISPR系统可用于检测样品(例如，临床样品、细胞或细胞裂解物)中的靶RNA。当间隔序列具有选择的特定长度(如约30个核苷酸)时，当本文描述的VI-E型和/或VI-F型CRISPR-Cas效应蛋白与靶核酸结合时，所述效应蛋白的附带RNA酶活性受到激活。在与目的靶RNA结合后，所述效应蛋白切割经标记的检测RNA以生成信号(例如，增加的信号或减少的信号)，从而允许对样品中的靶RNA进行定性和定量检测。样品中的RNA的特异性检测和定量允许包括诊断在内的多种应用。在一些实施方式中，所述方法包括a)使样品与以下接触：(i)RNA指导物(例如，crRNA)和/或编码所述RNA指导物的核酸，其中所述RNA指导物由同向重复序列和能够与所述靶RNA杂交的间隔序列组成；(ii)VI-E型或VI-F型CRISPR-Cas效应蛋白(Cas13e或Cas13f)和/或编码所述效应蛋白的核酸；和(iii)经标记的检测RNA；其中所述效应蛋白与所述RNA指导物缔合以形成复合物；其中所述RNA指导物与所述靶RNA杂交；并且其中在所述复合物与所述靶RNA结合后，所述效应蛋白展现出附带RNA酶活性并切割所述经标记的检测RNA；以及b)测量通过所述经标记的检测RNA的切割产生的可检测信号，其中所述测量提供对所述样品中单链靶RNA的检测。在一些实施方式中，所述方法进一步包括将所述可检测信号与参考信号进行比较并确定所述样品中靶RNA的量。在一些实施方式中，所述测量使用以下进行：金纳米颗粒检测、荧光偏振、胶体相变/分散、电化学检测和基于半导体的感应。在一些实施方式中，所述经标记的检测RNA包括荧光发射染料对、荧光共振能量转移(FRET)对或猝灭剂/荧光团对。在一些实施方式中，在所述经标记的检测RNA经所述效应蛋白切割后，由所述经标记的检测RNA产生的可检测信号的量减少或增加。在一些实施方式中，所述经标记的检测RNA在经所述效应蛋白切割之前产生第一可检测信号，并且在经所述效应蛋白切割之后产生第二可检测信号。在一些实施方式中，当所述经标记的检测RNA经所述效应蛋白切割时产生可检测信号。在一些实施方式中，所述经标记的检测RNA包含经修饰的核碱基、经修饰的糖部分、经修饰的核酸连接、或其组合。在一些实施方式中，所述方法包括通过使用多个VI-E型和/或VI-F型CRISPR-Cas(Cas13e和/或Cas13f)系统，对样品中的多个独立靶RNA(例如，两个、三个、四个、五个、六个、七个、八个、九个、十个、十五个、二十个、三十个、四十个或更多个靶RNA)进行多通道检测，每个所述系统包括不同的直系同源效应蛋白和对应的RNA指导物，从而允许区分所述样品中的多个靶RNA。在一些实施方式中，所述方法包括使用VI-E型和/或VI-F型CRISPR-Cas系统的多个实例，对样品中的多个独立靶RNA进行多通道检测，每个所述实例含有具有可区分的附带RNA酶底物的直系同源效应蛋白。使用CRISPR相关蛋白检测样品中的RNA的方法描述于例如美国专利公布号2017/0362644中，将所述文献的全部内容通过引用并入本文。

核酸的跟踪和标记

细胞过程依赖于蛋白、RNA和DNA间的分子相互作用网络。准确检测蛋白-DNA和蛋白-RNA相互作用是理解这样的过程的关键。体外邻近标记技术采用与报告基团(例如，可光激活基团)组合的亲和标签，以在体外标记目的蛋白或RNA附近的多肽和RNA。在UV辐照后，所述可光激活基团与紧邻加标签分子的蛋白和其他分子发生反应，从而标记它们。随后可回收和鉴定经标记的相互作用分子。例如，所述CRISPR相关蛋白可用于将探针靶向选定的RNA序列。这些应用也可以应用于动物模型中，用于疾病或难以培养的细胞类型的体内成像。跟踪和标记核酸的方法描述于例如美国专利号8,795,965、WO 2016205764和WO2017070605中；将各个文献通过本文引用以其全文并入本文。

RNA分离、纯化、富集和/或耗竭

本文描述的CRISPR系统(例如，CRISPR相关蛋白)可用于分离和/或纯化RNA。可以将所述CRISPR相关蛋白与亲和标签融合，所述亲和标签可用于分离和/或纯化RNA-CRISPR相关蛋白复合物。这些应用例如可用于分析细胞中的基因表达谱。

在一些实施方式中，所述CRISPR相关蛋白可用于靶向特定的非编码RNA(ncRNA)，从而阻断其活性。在一些实施方式中，所述CRISPR相关蛋白可用于特异性富集特定RNA(包括但不限于增加稳定性等)，或替代性地，特异性耗竭特定RNA(例如，特定的剪接变体、同种型等)。

这些方法描述于例如美国专利号8,795,965、WO 2016205764和WO 2017070605中；将各个文献通过本文引用以其全文并入本文。

高通量筛选

本文描述的CRISPR系统可用于制备下一代测序(NGS)文库。例如，为了创建有成本效益的NGS文库，可以使用所述CRISPR系统破坏靶基因的编码序列，并且可以通过下一代测序(例如，在离子激流(Ion Torrent)PGM系统上)同时筛选经所述CRISPR相关蛋白转染的克隆。关于如何制备NGS文库的详细描述可见于例如Bell等人,“Ahigh-throughputscreening strategy for detecting CRISPR-Cas9induced mutations using next-generation sequencing[用于使用下一代测序检测CRISPR-Cas9诱导的突变的高通量筛选策略],”BMC Genomics[BMC基因组学],15.1(2014):1002，将所述文献通过引用以其全文并入本文。

工程化的微生物

微生物(例如，大肠杆菌、酵母和微藻)广泛用于合成生物学。合成生物学的发展具有广泛的效用，包括各种临床应用。例如，可编程CRISPR系统可以用于拆分具有用于靶向细胞死亡的毒性结构域的蛋白，例如使用癌症关联的RNA作为靶转录物。此外，涉及蛋白-蛋白相互作用的途径可以在使用例如与适当效应子(如激酶或酶)的融合复合物的合成生物系统中受到影响。

在一些实施方式中，可以将靶向噬菌体序列的crRNA引入微生物中。因此，本披露还提供针对噬菌体感染接种微生物(例如，生产菌株)的方法。

在一些实施方式中，本文提供的CRISPR系统可用于对微生物进行工程化，例如以改善产率或改善发酵效率。例如，本文描述的CRISPR系统可用于对微生物(如酵母)进行工程化，以从可发酵糖生成生物燃料或生物聚合物，或降解源自作为可发酵糖的来源的农业废弃物的植物衍生的木质纤维素。更特别地，本文描述的方法可用于修饰生物燃料生产所需的内源性基因的表达和/或修饰可能干扰生物燃料合成的内源性基因。对微生物进行工程化的这些方法描述于例如Verwaal等人,“CRISPR/Cpf1 enables fast and simplegenome editing of Saccharomyces cerevisiae[CRISPR/Cpf1能实现对酿酒酵母的快速简单的基因组编辑],”Yeast[酵母]doi:10.1002/yea.3278,2017；和Hlavova等人,“Improving microalgae for biotechnology-from genetics to synthetic biology[改善用于生物技术的微藻——从遗传学到合成生物学],”Biotechnol.Adv.[生物技术进展],33:1194-203,2015，将所述两个文献通过引用以全文并入本文。

在一些实施方式中，本文提供的CRISPR系统可用于诱导细胞(例如，微生物，如工程化的微生物)的死亡或休眠。这些方法可用于诱导多种细胞类型的休眠或死亡，所述细胞类型包括原核细胞和真核细胞，包括但不限于哺乳动物细胞(例如，癌细胞或组织培养细胞)、原生动物、真菌细胞、受病毒感染的细胞、受细胞内细菌感染的细胞、受细胞内原生动物感染的细胞、受朊病毒感染的细胞、细菌(例如，致病性细菌和非致病性细菌)、以及单细胞和多细胞寄生物。例如，在合成生物学领域，非常希望有控制工程化的微生物(例如，细菌)以防止它们繁殖或传播的机制。本文描述的系统可用作“杀灭开关(kill-switches)”以调节和/或防止工程化的微生物的繁殖或传播。此外，本领域需要现有抗生素治疗的替代物。本文描述的系统还可用于希望杀灭或控制特定微生物群(例如，细菌群)的应用中。例如，本文描述的系统可包括靶向属、种或株特异性的核酸(例如，RNA)并且可以递送至细胞的RNA指导物(例如，crRNA)。在与所述靶核酸复合和结合后，VI-E型和/或VI-F型CRISPR-Cas效应蛋白的附带RNA酶活性受到激活，从而导致微生物内非靶RNA的切割，最终导致休眠或死亡。在一些实施方式中，所述方法包括使细胞与本文描述的系统接触，所述系统包括VI-E型和/或VI-F型CRISPR-Cas效应蛋白或编码所述效应蛋白的核酸、以及RNA指导物(例如，crRNA)或编码所述RNA指导物的核酸，其中间隔序列与靶核酸(例如，属、株或种特异性RNA指导物)的至少15个核苷酸(例如，16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50或更多个核苷酸)互补。不希望受任何特定理论的束缚，所述VI-E型和/或VI-F型CRISPR-Cas效应蛋白对非靶RNA的切割可诱导程序性细胞死亡、细胞毒性、细胞凋亡、坏死、坏死性凋亡、细胞死亡、细胞周期停滞、细胞无反应性、细胞生长减少或细胞增殖减少。例如，在细菌中，所述VI-E型和/或VI-F型CRISPR-Cas效应蛋白对非靶RNA的切割可以是抑细菌的或杀细菌的。

在植物中的应用

本文描述的CRISPR系统在植物中具有多种效用。在一些实施方式中，所述CRISPR系统可用于对植物基因组进行工程化(例如，改善产量、制造具有希望的翻译后修饰的产物、或引入用于生产工业产物的基因)。在一些实施方式中，所述CRISPR系统可用于将希望的性状引入植物中(例如，对基因组进行或不进行可遗传修饰)，或调节植物细胞或整株植物中内源性基因的表达。

在一些实施方式中，所述CRISPR系统可用于鉴定、编辑和/或沉默编码特定蛋白(例如，过敏原蛋白(例如，花生、大豆、扁豆、豌豆、四季豆和绿豆中的过敏原蛋白))的基因。关于如何鉴定、编辑和/或沉默编码蛋白的基因的详细描述在例如以下中描述：Nicolaou等人,“Molecular diagnosis of peanut and legume allergy[花生和豆类过敏的分子诊断],”Curr.Opin.Allergy Clin.Immunol.[过敏和临床免疫学的当前观点]11(3):222-8,2011，和WO 2016205764 A1；将所述两个文献通过引用以全文并入本文。

基因驱动

基因驱动是有利地偏倚特定基因或一组基因的遗传的现象。本文描述的CRISPR系统可用于建立基因驱动。例如，所述CRISPR系统可以设计为靶向并破坏基因的特定等位基因，从而导致细胞拷贝第二等位基因以固定序列。由于所述拷贝，第一等位基因将转化为第二等位基因，从而增加所述第二等位基因传给子代的机会。关于如何使用本文描述的CRISPR系统建立基因驱动的详细方法描述于例如Hammond等人,“ACRISPR-Cas9 genedrive system targeting female reproduction in the malaria mosquito vectorAnopheles gambiae[靶向疟疾蚊载体冈比亚按蚊中雌性生殖的CRISPR-Cas9基因驱动系统],”Nat.Biotechnol.[自然生物技术]34(1):78-83,2016，将所述文献通过引用以其全文并入本文。

混合筛选(Pooled-Screening)

如本文所述，混合CRISPR筛选是用于鉴定参与生物机制(如细胞增殖、药物抗性和病毒感染)的基因的强大工具。用本文描述的编码指导RNA(gRNA)的载体的文库批量转导细胞，并且在应用选择性激发之前和之后测量gRNA的分布。混合CRISPR筛选非常适用于影响细胞存活和增殖的机制，并且它们可以扩展至测量单个基因的活性(例如，通过使用工程化的报告细胞系)。一次只靶向一个基因的阵列CRISPR筛选使得使用RNA-seq作为读数成为可能。在一些实施方式中，如本文描述的CRISPR系统可用于单细胞CRISPR筛选中。关于混合CRISPR筛选的详细描述可见于例如Datlinger等人,“Pooled CRISPR screening withsingle-cell transcriptome read-out[具有单细胞转录组读数的混合CRISPR筛选],”Nat.Methods.[自然方法]14(3):297-301,2017，将所述文献通过引用以其全文并入本文。

饱和诱变(过度攻击(Bashing))

本文描述的CRISPR系统可用于原位饱和诱变。在一些实施方式中，混合指导RNA文库可用于对特定基因或调节元件进行原位饱和诱变。这样的方法可以揭示这些基因或调节元件(例如，增强子)的关键最小特征和离散脆弱性(discrete vulnerabilities)。这些方法描述于例如Canver等人,“BCL11A enhancer dissection by Cas9-mediated in situsaturating mutagenesis[通过Cas9介导的原位饱和诱变进行的BCL11A增强子解析],”Nature[自然]527(7577):192-7,2015中，将所述文献通过引用以其全文并入本文。

RNA相关应用

本文描述的CRISPR系统可具有多种RNA相关应用，例如，调节基因表达、降解RNA分子、抑制RNA表达、筛选RNA或RNA产物、确定lincRNA或非编码RNA的功能、诱导细胞休眠、诱导细胞周期停滞、减少细胞生长和/或细胞增殖、诱导细胞无反应性、诱导细胞凋亡、诱导细胞坏死、诱导细胞死亡和/或诱导程序性细胞死亡。对这些应用的详细描述可见于例如WO2016/205764 A1中，将所述文献通过引用以其全文并入本文。在不同的实施方式中，本文描述的方法可以在体外、在体内或离体进行。

例如，可以将本文描述的CRISPR系统向患有疾病或障碍的受试者施用，以靶向处于患病状态中的细胞(例如，癌细胞或受感染原感染的细胞)并诱导所述细胞中的细胞死亡。例如，在一些实施方式中，本文描述的CRISPR系统可用于靶向癌细胞并诱导所述癌细胞中的细胞死亡，其中所述癌细胞来自患有以下的受试者：威尔姆斯肿瘤、尤因肉瘤、神经内分泌肿瘤、胶质母细胞瘤、神经母细胞瘤、黑素瘤、皮肤癌、乳腺癌、结肠癌、直肠癌、前列腺癌、肝癌、肾癌、胰腺癌、肺癌、胆道癌、子宫颈癌、子宫内膜癌、食道癌、胃癌、头颈癌、甲状腺髓样癌、卵巢癌、神经胶质瘤、淋巴瘤、白血病、骨髓瘤、急性淋巴细胞白血病、急性骨髓性白血病、慢性淋巴细胞白血病、慢性骨髓性白血病、霍奇金淋巴瘤、非霍奇金淋巴瘤或膀胱癌。

调节基因表达

本文描述的CRISPR系统可用于调节基因表达。所述CRISPR系统可以与合适的指导RNA一起使用，以经由RNA加工的控制来靶向基因表达。所述RNA加工的控制可以包括例如RNA加工反应，如RNA剪接(例如，可变剪接)、病毒复制和tRNA生物合成。与合适的指导RNA组合的RNA靶向蛋白也可用于控制RNA激活(RNAa)。RNA激活是小RNA指导的和Argonaute(Ago)依赖性基因调节现象，其中启动子靶向的短双链RNA(dsRNA)在转录/表观遗传水平上诱导靶基因表达。RNAa导致基因表达的促进，因此可以通过破坏或减少RNAa来实现对基因表达的控制。在一些实施方式中，所述方法包括使用RNA靶向CRISPR作为例如干扰核糖核酸(如siRNA、shRNA或dsRNA)的取代物。调节基因表达的方法描述于例如WO 2016205764中，将所述文献通过引用以其全文并入本文。

控制RNA干扰

对干扰RNA或微小RNA(miRNA)的控制可以通过减少所述干扰RNA或miRNA在体内或体外的寿命来帮助减少脱靶效应。在一些实施方式中，靶RNA可以包括干扰RNA，即，参与RNA干扰途径的RNA，如小发夹RNA(shRNA)、小干扰RNA(siRNA)等。在一些实施方式中，靶RNA包括例如miRNA或双链RNA(dsRNA)。

在一些实施方式中，如果选择性地表达RNA靶向蛋白和合适的指导RNA(例如在空间或时间上，在受调节的启动子(例如组织或细胞周期特异性启动子)和/或增强子的控制下)，则这可以用于保护细胞或系统(在体内或体外)免受那些细胞中的RNA干扰(RNAi)。在不需要RNAi的邻近组织或细胞中，或者出于对表达和不表达CRISPR相关蛋白和合适的crRNA的细胞或组织进行比较(即，分别为RNAi不受控制和受控制的情况)的目的，这可能是有用的。所述RNA靶向蛋白可用于控制或结合包含RNA或由其组成的分子，如核酶、核糖体或核糖开关。在一些实施方式中，所述指导RNA可以将所述RNA靶向蛋白募集到这些分子中，使得所述RNA靶向蛋白能够与它们结合。这些方法描述于例如WO 2016205764和WO2017070605中，将所述两个文献通过引用以其全文并入本文。

修饰核糖开关和控制代谢调节

核糖开关是信使RNA的调节区段，其结合小分子并继而调节基因表达。这种机制允许细胞感应这些小分子的细胞内浓度。特定的核糖开关典型地通过改变该基因的转录、翻译或剪接来调节其相邻基因。因此，在一些实施方式中，可以通过使用与合适的指导RNA组合的RNA靶向蛋白以靶向核糖开关来控制核糖开关活性。这可以通过切割所述核糖开关或与其结合来实现。使用CRISPR系统控制核糖开关的方法描述于例如WO 2016205764和WO2017070605中，将所述两个文献通过引用以其全文并入本文。

RNA修饰

在一些实施方式中，本文描述的CRISPR相关蛋白可以与碱基编辑结构域，如ADAR1、ADAR2、APOBEC或激活诱导的胞苷脱氨酶(AID)融合，并且可以用于修饰RNA序列(例如，mRNA)。在一些实施方式中，所述CRISPR相关蛋白包括一个或多个突变(例如，在催化结构域中)，这使得所述CRISPR相关蛋白不能切割RNA。

在一些实施方式中，所述CRISPR相关蛋白可以与RNA结合融合多肽一起使用，所述RNA结合融合多肽包含与RNA结合结构域(如MS2(也称为MS2外壳蛋白)、Qβ(也称为Qβ外壳蛋白)或PP7(也称为PP7外壳蛋白))融合的碱基编辑结构域(例如，ADAR1、ADAR2、APOBEC或AID)。所述RNA结合结构域MS2、Qβ和PP7的氨基酸序列在下文提供：

MS2(MS2外壳蛋白)

MASNFTQFVLVDNGGTGDVTVAPSNFANGVAEWISSNSRSQAYKVTCSVRQSSAQKRKYTIKVEVPKV

ATQTVGGVELPVAAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSGIY

Qβ(Qβ外壳蛋白)

MAKLETVTLGNIGKDGKQTLVLNPRGVNPTNGVASLSQAGAVPALEKRVTVSVSQPSRNRKNYKVQVK

IQNPTACTANGSCDPSVTRQAYADVTFSFTQYSTDEERAFVRTELAALLASPLLIDAIDQLNPAY

PP7(PP7外壳蛋白)

MSKTIVLSVGEATRTLTEIQSTADRQIFEEKVGPLVGRLRLTASLRQNGAKTAYRVNLKLDQADVVDC

STSVCGELPKVRYTQVWSHDVTIVANSTEASRKSLYDLTKSLVVQATSEDLVVNLVPLGR

在一些实施方式中，所述RNA结合结构域可以与本文描述的系统的crRNA上(例如，当所述crRNA在效应子-crRNA复合物中时)的特定序列(例如，适配序列)或二级结构基序结合，从而将所述RNA结合融合多肽(其具有碱基编辑结构域)募集至所述效应子复合物中。例如，在一些实施方式中，所述CRISPR系统包括CRISPR相关蛋白、具有适配序列(例如，MS2结合环、Qβ结合环或PP7结合环)的crRNA、以及具有与RNA结合结构域融合的碱基编辑结构域的RNA结合融合多肽，所述RNA结合结构域与所述适配序列特异性结合。在该系统中，所述CRISPR相关蛋白与具有所述适配序列的crRNA形成复合物。此外，所述RNA结合融合多肽与所述crRNA结合(经由所述适配序列)，从而形成可以修饰靶RNA的三分复合物(tripartitecomplex)。

使用CRISPR系统进行碱基编辑的方法描述于例如国际公布号WO2017/219027中，将所述文献通过引用以其全文并且特别是关于其对RNA修饰的讨论并入本文。

RNA剪接

在一些实施方式中，本文描述的失活的CRISPR相关蛋白(例如，在催化结构域中具有一个或多个突变的CRISPR相关蛋白)可用于靶向RNA转录物上的特定剪接位点并与其结合。所述失活的CRISPR相关蛋白与RNA的结合可在空间上抑制剪接体与转录物的相互作用，从而能够改变特定转录物同种型的生成频率。这样的方法可用于通过外显子跳跃(exonskipping)来治疗疾病，使得可以在成熟的蛋白中跳过具有突变的外显子。使用CRISPR系统改变剪接的方法描述于例如国际公布号WO 2017/219027中，将所述文献通过引用以其全文并且特别是关于其对RNA剪接的讨论并入本文。

治疗性应用

本文描述的CRISPR系统可以具有多种治疗性应用。这样的应用可基于主题CRISPR/Cas13e或Cas13f系统的以下一种或多种体外和体内能力：诱导细胞衰老、诱导细胞周期停滞、抑制细胞生长和/或增殖、诱导细胞凋亡、诱导坏死等。

在一些实施方式中，新的CRISPR系统可用于治疗多种疾病和障碍，例如遗传障碍(例如，单基因疾病)、可通过核酸酶活性(例如，Pcsk9靶向或BCL11a靶向)治疗的疾病(杜氏肌营养不良(DMD))、以及多种癌症等。

在一些实施方式中，本文描述的CRISPR系统可用于编辑靶核酸以修饰所述靶核酸(例如，通过插入、缺失或突变一个或多个核酸残基)。例如，在一些实施方式中，本文描述的CRISPR系统包含外源性供体模板核酸(例如，DNA分子或RNA分子)，所述外源性供体模板核酸包含所希望的核酸序列。在解决用本文描述的CRISPR系统诱导的切割事件后，细胞的分子机制将利用所述外源性供体模板核酸修复和/或解决切割事件。替代性地，细胞的分子机制可以利用内源性模板修复和/或解决切割事件。在一些实施方式中，本文描述的CRISPR系统可用于改变靶核酸，从而导致插入、缺失和/或点突变。在一些实施方式中，所述插入是无痕插入(即，在解决切割事件后将预期的核酸序列插入靶核酸中未导致额外的非预期的核酸序列)。供体模板核酸可以是双链或单链核酸分子(例如，DNA或RNA)。设计外源性供体模板核酸的方法描述于例如国际公布号WO 2016/094874 A1中，将所述文献的全部内容通过引用明确并入本文。

在一个方面，本文描述的CRISPR系统可用于治疗由RNA、毒性RNA和/或突变RNA(例如，剪接缺陷或截短)的过表达引起的疾病。例如，毒性RNA的表达可以与核包涵体的形成以及脑、心脏或骨骼肌的迟发型退行性变化相关。在一些实施方式中，所述障碍是强直性肌营养不良。在强直性肌营养不良中，所述毒性RNA的主要致病作用是隔离(sequester)结合蛋白并损害可变剪接的调节(参见例如，Osborne等人,“RNA-dominant diseases[RNA显性疾病],”Hum.Mol.Genet.[人类分子遗传学],2009年4月15日；18(8):1471-81)。遗传学家对强直性肌营养不良(营养不良性肌强直(DM))特别感兴趣，因为它产生极其广泛的临床特征。DM的经典形式(现在称为1型DM(DM1))由编码细胞溶质蛋白激酶的基因DMPK的3'-非翻译区(UTR)中CTG重复序列的扩增引起。如本文描述的CRISPR系统可以靶向过表达的RNA或毒性RNA，例如DMPK基因或DM1骨骼肌、心脏或脑中的任一错误调节的可变剪接。

本文描述的CRISPR系统还可以靶向影响RNA依赖性功能的反式作用突变，所述突变导致多种疾病，例如像普拉德-威利综合征(Prader Willi syndrome)、脊髓性肌萎缩(SMA)和先天性角化不良。可以使用本文描述的CRISPR系统治疗的疾病列表汇总于Cooper等人,“RNAand disease[RNA和疾病],”Cell[细胞],136.4(2009):777-793和WO 2016/205764 A1中，将所述两个文献通过引用以全文并入本文。本领域的技术人员将理解如何使用新的CRISPR系统治疗这些疾病。

本文描述的CRISPR系统还可用于治疗各种tau蛋白病，包括例如原发性和继发性tau蛋白病，如原发性年龄相关性tau蛋白病(PART)/神经原纤维缠结(NFT)优势型老年性痴呆(其中NFT类似于在阿尔茨海默病(AD)中见到的那些，但没有斑块)、拳击性痴呆(慢性创伤性脑病)和进行性核上性麻痹。tau蛋白病的可用列表和治疗这些疾病的方法描述于例如WO 2016205764中，将所述文献通过引用以其全文并入本文。

本文描述的CRISPR系统还可用于靶向破坏顺式作用剪接代码的突变，所述突变可导致剪接缺陷和疾病。这些疾病包括例如，由SMN1基因的缺失导致的运动神经元退行性疾病(例如，脊髓性肌萎缩)、杜氏肌营养不良(DMD)、17号染色体相关的额颞叶痴呆合并帕金森综合征(FTDP-17)、以及囊性纤维化。

本文描述的CRISPR系统可进一步用于抗病毒活性，特别是抗RNA病毒。所述CRISPR相关蛋白可以使用经选择以靶向病毒RNA序列的合适的指导RNA来靶向病毒RNA。

本文描述的CRISPR系统还可用于在受试者(例如，人受试者)中治疗癌症。例如，本文描述的CRISPR相关蛋白可以用靶向RNA分子的crRNA编程，所述RNA分子是异常的(例如，包含点突变或者经可变剪接)并见于癌细胞中，以诱导癌细胞中的细胞死亡(例如，经由细胞凋亡)。

本文描述的CRISPR系统还可用于在受试者(例如，人受试者)中治疗自身免疫疾病或障碍。例如，本文描述的CRISPR相关蛋白可以用靶向RNA分子的crRNA编程，所述RNA分子是异常的(例如，包含点突变或者经可变剪接)并见于负责引起自身免疫疾病或障碍的细胞中。

此外，本文描述的CRISPR系统还可用于在受试者中治疗感染性疾病。例如，本文描述的CRISPR相关蛋白可以用靶向RNA分子的crRNA编程，所述RNA分子由感染原(例如，细菌、病毒、寄生物或原生动物)表达，以靶向并诱导感染原细胞中的细胞死亡。所述CRISPR系统还可用于治疗细胞内感染原感染宿主受试者细胞的疾病。通过对所述CRISPR相关蛋白进行编程以靶向由感染原基因编码的RNA分子，可以靶向受感染原感染的细胞并诱导细胞死亡。

此外，体外RNA感应测定可用于检测特定RNA底物。所述CRISPR相关蛋白可用于活细胞中基于RNA的感应。应用的实例是通过感应例如疾病特异性RNA进行的诊断。

本文描述的CRISPR系统的治疗性应用的详细描述可见于例如美国专利号8,795,965、EP 3009511、WO 2016205764和WO 2017070605中；将各个文献通过引用以其全文并入本文。

细胞及其后代

在某些实施方式中，本发明的方法可用于将本文描述的CRISPR系统引入细胞中，并引起所述细胞和/或其后代改变一种或多种细胞产物(如抗体、淀粉、乙醇、或任何其他所希望的产物)的产生。这样的细胞及其后代在本发明的范围内。

在某些实施方式中，本文描述的方法和/或CRISPR系统导致细胞的一种或多种RNA产物的翻译和/或转录的修饰。例如，所述修饰可导致RNA产物的转录/翻译/表达增加。在其他实施方式中，所述修饰可导致RNA产物的转录/翻译/表达降低。

在某些实施方式中，所述细胞是原核细胞。

在某些实施方式中，所述细胞是真核细胞，如哺乳动物细胞，包括人细胞(原代人细胞或已建立的人细胞系)。在某些实施方式中，所述细胞是非人哺乳动物细胞，如来自非人灵长类动物(例如，猴)、母牛/公牛/牛、绵羊、山羊、猪、马、狗、猫、啮齿动物(如兔子、小鼠、大鼠、仓鼠等)的细胞。在某些实施方式中，所述细胞来自鱼(如鲑鱼)、鸟(如禽鸟，包括鸡、鸭、鹅)、爬行动物、贝类(例如，牡蛎、蛤蜊、龙虾、对虾)、昆虫、蠕虫、酵母等。在某些实施方式中，所述细胞来自植物，如单子叶植物或双子叶植物。在某些实施方式中，所述植物是粮食作物，如大麦、木薯、棉花、落花生或花生、玉蜀黍、小米、油棕果、马铃薯、干豆、油菜籽或低芥酸菜籽(canola)、稻、黑麦、高粱、大豆、甘蔗、甜菜、向日葵和小麦。在某些实施方式中，所述植物是谷类(大麦、玉蜀黍、小米、稻、黑麦、高粱和小麦)。在某些实施方式中，所述植物是块茎(木薯和马铃薯)。在某些实施方式中，所述植物是糖料作物(甜菜和甘蔗)。在某些实施方式中，所述植物是含油作物(大豆、落花生或花生、油菜籽或低芥酸菜籽、向日葵和油棕果)。在某些实施方式中，所述植物是纤维作物(棉花)。在某些实施方式中，所述植物是树木(如桃树或油桃树、苹果树或梨树、坚果树(如杏仁树或核桃树或开心果树)、或柑橘树(例如，橙树、葡萄柚树或柠檬树))、草、蔬菜、水果或藻类。在某些实施方式中，所述植物是茄属植物；芸苔属(Brassica)植物；莴苣属(Lactuca)植物；菠菜属(Spinacia)植物；辣椒属(Capsicum)植物；棉花、烟草、芦笋、胡萝卜、卷心菜、西兰花、花椰菜、番茄、茄子、胡椒、生菜、菠菜、草莓、蓝莓、覆盆子、黑莓、葡萄、咖啡、可可等。

相关方面提供使用本文描述的CRISPR系统通过本发明的方法修饰的细胞或其后代。

在某些实施方式中，所述细胞在体外、在体内或离体进行修饰。

在某些实施方式中，所述细胞是干细胞。

8.递送

通过本披露和本领域的知识，本文描述的CRISPR系统或本文描述的其任一组分(Cas蛋白、其衍生物、功能性片段或各种融合物或加合物，以及指导RNA/crRNA)、其核酸分子、和/或编码或提供其组分的核酸分子可以通过各种递送系统(如载体，例如质粒和病毒递送载体)使用本领域中任何合适的手段递送。这样的方法包括(但不限于)电穿孔、脂质转染、显微注射、转染、超声、基因枪等。

在某些实施方式中，所述CRISPR相关蛋白和/或任一RNA(例如，指导RNA或crRNA)和/或辅助蛋白可以使用合适的载体递送，所述载体例如质粒或病毒载体(如腺相关病毒(AAV)、慢病毒、腺病毒、逆转录病毒载体和其他病毒载体、或其组合)。可以将所述蛋白和一种或多种crRNA包装到一种或多种载体(例如，质粒或病毒载体)中。对于细菌应用，可以使用噬菌体将编码本文描述的CRISPR系统的任一组分的核酸递送至细菌。示例性噬菌体包括但不限于T4噬菌体、Mu、λ噬菌体、T5噬菌体、T7噬菌体、T3噬菌体、Φ29、M13、MS2、Qβ和ΦX174。

在一些实施方式中，通过例如肌内注射、静脉内施用、经皮施用、鼻内施用、口服施用或粘膜施用将所述载体(例如，质粒或病毒载体)递送至目的组织。这样的递送可以经由单剂量或多剂量进行。本领域技术人员应理解，本文待递送的实际剂量可取决于多种因素而大幅变化，如载体选择、靶细胞、生物、组织、待治疗受试者的一般状况、所寻求的转化/修饰的程度、施用途径、施用模式、所寻求的转化/修饰的类型等。

在某些实施方式中，所述递送经由腺病毒进行，其可以是含有至少1×10⁵个颗粒(也称为颗粒单位，pu)的腺病毒的单剂量。在一些实施方式中，所述剂量优选地是至少约1×10⁶个颗粒、至少约1×10⁷个颗粒、至少约1×10⁸个颗粒、和至少约1×10⁹个颗粒的腺病毒。所述递送方法和所述剂量描述于例如WO 2016205764A1和美国专利号8,454,972B2中，将所述两个文献通过引用以全文并入本文。

在一些实施方式中，所述递送经由质粒进行。所述剂量可以是足够数量的质粒以引发响应。在一些情况下，质粒组合物中质粒DNA的合适量可以是从约0.1至约2mg。质粒将通常包括(i)启动子；(ii)编码靶向核酸的CRISPR相关蛋白和/或辅助蛋白的序列，每个序列与启动子(例如，相同的启动子或不同的启动子)可操作地连接；(iii)可选择标志物；(iv)复制起点；以及(v)位于(ii)的下游并与其可操作地连接的转录终止子。质粒还可以编码CRISPR复合物的RNA组分，但这些组分中的一种或多种可以替代地在不同的载体上编码。施用频率在医学或兽医学从业者(例如，医师、兽医师)或本领域技术人员的范围内。

在另一实施方式中，所述递送经由脂质体或脂质转染配制品等进行，并且可以通过本领域技术人员已知的方法制备。这样的方法描述于例如WO 2016205764和美国专利号5,593,972、5,589,466、和5,580,859中，将各个文献通过引用以其全文并入本文。

在一些实施方式中，所述递送经由纳米颗粒或外泌体进行。例如，已表明外泌体在递送RNA方面特别有用。

将新的CRISPR系统的一种或多种组分引入细胞中的另外的手段是通过使用细胞穿透肽(CPP)。在一些实施方式中，细胞穿透肽与所述CRISPR相关蛋白连接。在一些实施方式中，所述CRISPR相关蛋白和/或指导RNA与一种或多种CPP偶联以有效地将它们转运到细胞(例如，植物原生质体)内。在一些实施方式中，所述CRISPR相关蛋白和/或一种或多种指导RNA由一种或多种环状或非环状DNA分子编码，所述环状或非环状DNA分子与一种或多种CPP偶联用于细胞递送。

CPP是少于35个氨基酸的短肽，所述短肽源自能够以非受体依赖性方式跨细胞膜转运生物分子的蛋白或嵌合序列。CPP可以是阳离子肽、具有疏水性序列的肽、两亲性肽、具有富含脯氨酸且抗微生物的序列的肽、以及嵌合肽或二分肽。CPP的实例包括例如Tat(其是1型HIV病毒复制所需的核转录激活蛋白)、穿膜肽、卡波西成纤维细胞生长因子(FGF)信号肽序列、整合素β3信号肽序列、聚精氨酸肽Args序列、富含鸟嘌呤的分子转运蛋白和甜箭肽。CPP和使用它们的方法描述于例如

等人,“Prediction of cell-penetratingpeptides[细胞穿透肽的预测],”Methods Mol.Biol.[分子生物学方法],2015；1324:39-58；Ramakrishna等人,“Gene disruption by cell-penetrating peptide-mediateddelivery of Cas9 protein and guide RNA[通过细胞穿透肽介导的Cas9蛋白和指导RNA的递送来破坏基因],”Genome Res.[基因组研究],2014年6月；24(6):1020-7；以及WO2016205764 A1中；将各个文献通过引用以其全文并入本文。

用于本文描述的CRISPR系统的各种递送方法还描述于例如美国专利号8,795,965、EP 3009511、WO 2016205764和WO 2017070605中；将各个文献通过引用以其全文并入本文。

9.试剂盒

本发明的另一方面提供试剂盒，所述试剂盒包含本文描述的主题CRISPR/Cas系统的任意两种或更多种组分，如Cas13e和Cas13f蛋白、其衍生物、功能性片段或各种融合物或加合物、指导RNA/crRNA、其复合物、涵盖它们的载体、或涵盖它们的宿主。

在某些实施方式中，所述试剂盒进一步包括使用其中涵盖的组分的说明，和/或与可在别处获得的其他组分组合的说明。

在某些实施方式中，所述试剂盒进一步包含一种或多种核苷酸，例如对应于以下的一种或多种核苷酸：可用于将指导RNA编码序列插入载体中并将所述编码序列与所述载体的一种或多种控制元件可操作地连接的那些。

在某些实施方式中，所述试剂盒进一步包含一种或多种缓冲液，所述缓冲液可用于溶解任一所述组分和/或为一种或多种所述组分提供合适的反应条件。这样的缓冲液可以包括以下中的一种或多种：PBS、HEPES、Tris、MOPS、Na₂CO₃、NaHCO₃、NaB、或其组合。在某些实施方式中，所述反应条件包括适当的pH，如碱性pH。在某些实施方式中，所述pH在7-10之间。

在某些实施方式中，任一种或多种所述试剂盒组分可以储存在合适的容器中。

实施例

实施例1新型Cas13e和Cas13f系统的鉴定

使用了计算流水线技术从基因组和宏基因组来源产生2类CRISPR-Cas系统的扩展数据库。从以下下载了基因组和宏基因组序列：NCBI(Benson等人,2013；Pruitt等人,2012)、NCBI全基因组测序(WGS)、和DOE JGI整合微生物基因组(DOE JGI IntegratedMicrobial Genomes)(Markowitz等人,2012)。在长度至少5kb的所有重叠群上预测了蛋白(Prodigal(Hyatt等人,2010)，匿名模式(anon mode))，并对其进行了去重(即，去除相同的蛋白序列)以构建完整的蛋白数据库。认为大于600个残基的蛋白是大蛋白(LP)。由于目前鉴定出的Cas13蛋白的大小大多数都大于900个残基，为了降低计算的复杂度，只进一步考虑了大蛋白。

使用Piler-CR(Edgar,PILER-CR:Fast and accurate identification ofCRISPR repeats[PILER-CR：CRISPR重复序列的快速准确鉴定].BMC Bioinformatics[BMC生物信息学]8:18,2007)，使用所有默认参数鉴定了CRISPR阵列。将位于距CRISPR阵列±10kb内的编码非冗余大蛋白序列的ORF分组为CRISPR近端大蛋白编码簇，并将编码的LP定义为Cas-LP。

首先，使用了BLASP在Cas-LP之间进行成对比对，并获得了E值<1E-10的BLASTP比对结果。然后基于所述BLASTP结果使用了MCL进一步聚集Cas-LP，以创建Cas蛋白家族。

接下来，使用了BLASTP将Cas-LP与所有LP进行比对，并获得了E值<1E-10的BLASP比对结果。根据所述BLASTP比对结果进一步扩展了Cas-LP家族。获得了所述Cas-LP家族用于进一步分析，扩展后增加不超过一倍。

对于候选Cas蛋白的功能性表征，使用了蛋白家族数据库Pfam(Finn等人,2014)、NR数据库、和NCBI中的Cas蛋白注释所述候选Cas蛋白。然后使用MAFFT(Katoh和Standley,2013)对每个候选Cas效应蛋白进行了多序列比对。然后使用了JPred和HHpred分析这些蛋白中的保守区，以鉴定具有两个保守RXXXXH基序的候选Cas蛋白/家族。

该分析导致鉴定出了七种新型Cas13效应蛋白，它们属于两个新的Cas13家族，不同于先前鉴定出的所有2类CRISPR-Cas系统。这些包括新的Cas13e家族的Cas13e.1(SEQ IDNO:1)和Cas13e.2(SEQ ID NO:2)，以及新的Cas13f家族的Cas13f.1(SEQ ID NO:3)、Cas13f.2(SEQ ID NO:4)、Cas13f.3(SEQ ID NO:5)、Cas13f.4(SEQ ID NO:6)和Cas13f.5(SEQ ID NO:7)。

MAQVSKQTSKKRELSIDEYQGARKWCFTIAFNKALVNRDKNDGLFVESLLRHEKYSKHDWYDEDTRALIKCSTQA

ANAKAEALRNYFSHYRHSPGCLTFTAEDELRTIMERAYERAIFECRRRETEVIIEFPSLFEGDRITTAGVVFFVS

FFVERRVLDRLYGAVSGLKKNEGQYKLTRKALSMYCLKDSRFTKAWDKRVLLFRDILAQLGRIPAEAYEYYHGEQ

GDKKRANDNEGTNPKRHKDKFIEFALHYLEAQHSEICFGRRHIVREEAGAGDEHKKHRTKGKVVVDFSKKDEDQS

YYISKNNVIVRIDKNAGPRSYRMGLNELKYLVLLSLQGKGDDAIAKLYRYRQHVENILDVVKVTDKDNHVFLPRF

VLEQHGIGRKAFKQRIDGRVKHVRGVWEKKKAATNEMTLHEKARDILQYVNENCTRSFNPGEYNRLLVCLVGKDV

ENFQAGLKRLQLAERIDGRVYSIFAQTSTINEMHQVVCDQILNRLCRIGDQKLYDYVGLGKKDEIDYKQKVAWFK

EHISIRRGFLRKKFWYDSKKGFAKLVEEHLESGGGQRDVGLDKKYYHIDAIGRFEGANPALYETLARDRLCLMMA

QYFLGSVRKELGNKIVWSNDSIELPVEGSVGNEKSIVFSVSDYGKLYVLDDAEFLGRICEYFMPHEKGKIRYHTV

YEKGFRAYNDLQKKCVEAVLAFEEKVVKAKKMSEKEGAHYIDFREILAQTMCKEAEKTAVNKVRRAFFHHHLKFVIDEFGLFSDVMKKYGIEKEWKFPVK*(SEQ ID NO:1)

MKVENIKEKSKKAMYLINHYEGPKKWCFAIVLNRACDNYEDNPHLFSKSLLEFEKTSRKDWFDEETRELVEQADT

EIQPNPNLKPNTTANRKLKDIRNYFSHHYHKNECLYFKNDDPIRCIMEAAYEKSKIYIKGKQIEQSDIPLPELFE

SSGWITPAGILLLASFFVERGILHRLMGNIGGFKDNRGEYGLTHDIFTTYCLKGSYSIRAQDHDAVMFRDILGYL

SRVPTESFQRIKQPQIRKEGQLSERKTDKFITFALNYLEDYGLKDLEGCKACFARSKIVREQENVESINDKEYKP

HENKKKVEIHFDQSKEDRFYINRNNVILKIQKKDGHSNIVRMGVYELKYLVLMSLVGKAKEAVEKIDNYIQDLRD

QLPYIEGKNKEEIKEYVRFFPRFIRSHLGLLQINDEEKIKARLDYVKTKWLDKKEKSKELELHKKGRDILRYINE

RCDRELNRNVYNRILELLVSKDLTGFYRELEELKRTRRIDKNIVQNLSGQKTINALHEKVCDLVLKEIESLDTEN

LRKYLGLIPKEEKEVTFKEKVDRILKQPVIYKGFLRYQFFKDDKKSFVLLVEDALKEKGGGCDVPLGKEYYKIVS

LDKYDKENKTLCETLAMDRLCLMMARQYYLSLNAKLAQEAQQIEWKKEDSIELIIFTLKNPDQSKQSFSIRFSVR

DFTKLYVTDDPEFLARLCSYFFPVEKEIEYHKLYSEGINKYTNLQKEGIEAILELEKKLIERNRIQSAKNYLSFNEIMNKSGYNKDEQDDLKKVRNSLLHYKLIFEKEHLKKFYEVMRGEGIEKKWSLIV*(SEQ ID NO:2)MNGIELKKEEAAFYFNQAELNLKAIEDNIFDKERRKTLLNNPQILAKMENFIFNFRDVTKNAKGEIDCLLLKLRELRNFYSHYVHKRDVRELSKGEKPILEKYYQFAIESTGSENVKLEIIENDAWLADAGVLFFLCIFLKKSQANKLISGISGFKRNDDTGQPRRNLFTYFSIREGYKVVPEMQKHFLLFSLVNHLSNQDDYIEKAHQPYDIGEGLFFHRIASTFLNISGILRNMKFYTYQSKRLVEQRGELKREKDIFAWEEPFQGNSYFEINGHKGVIGEDELKELCYAFLIGNQDANKVEGRITQFLEKFRNANSVQQVKDDEMLKPEYFPANYFAESGVGRIKDRVLNRLNKAIKSNKAKKGEIIAYDKMREVMAFINNSLPVDEKLKPKDYKRYLGMVRFWDREKDNIKREFETKEWSKYLPSNFWTAKNLERVYGLAREKNAELFNKLKADVEKMDERELEKYQKINDAKDLANLRRLASDFGVKWEEKDWDEYSGQIKKQITDSQKLTIMKQRITAGLKKKHGIENLNLRITIDINKSRKAVLNRIAIPRGFVKRHILGWQESEKVSKKIREAECEILLSKEYEELSKQFFQSKDYDKMTRINGLYEKNKLIALMAVYLMGQLRILFKEHTKLDDITKTTVDFKISDKVTVKIPFSNYPSLVYTMSSKYVDNIGNYGFSNKDKDKPILGKIDVIEKQRMEFIKEVLGFEKYLFDDKIIDKSKFADTATHISFAEIVEELVEKGWDKDRLTKLKDARNKALHGEILTGTSFDETKSLINELKK*(SEQ ID NO:3)

MSPDFIKLEKQEAAFYFNQTELNLKAIESNILDKQQRMILLNNPRILAKVGNFIFNFRDVTKNAKGEIDCLLFKL

EELRNFYSHYVHTDNVKELSNGEKPLLERYYQIAIQATRSEDVKFELFETRNENKITDAGVLFFLCMFLKKSQAN

KLISGISGFKRNDPTGQPRRNLFTYFSAREGYKALPDMQKHFLLFTLVNYLSNQDEYISELKQYGEIGQGAFFNR

IASTFLNISGISGNTKFYSYQSKRIKEQRGELNSEKDSFEWIEPFQGNSYFEINGHKGVIGEDELKELCYALLVA

KQDINAVEGKIMQFLKKFRNTGNLQQVKDDEMLEIEYFPASYFNESKKEDIKKEILGRLDKKIRSCSAKAEKAYD

KMKEVMEFINNSLPAEEKLKRKDYRRYLKMVRFWSREKGNIEREFRTKEWSKYFSSDFWRKNNLEDVYKLATQKN

AELFKNLKAAAEKMGETEFEKYQQINDVKDLASLRRLTQDFGLKWEEKDWEEYSEQIKKQITDRQKLTIMKQRVT

AELKKKHGIENLNLRITIDSNKSRKAVLNRIAIPRGFVKKHILGWQGSEKISKNIREAECKILLSKKYEELSRQF

FEAGNFDKLTQINGLYEKNKLTAFMSVYLMGRLNIQLNKHTELGNLKKTEVDFKISDKVTEKIPFSQYPSLVYAM

SRKYVDNVDKYKFSHQDKKKPFLGKIDSIEKERIEFIKEVLDFEEYLFKNKVIDKSKFSDTATHISFKEICDEMGKKGCNRNKLTELNNARNAALHGEIPSETSFREAKPLINELKK*(SEQ ID NO:4)

MSPDFIKLEKQEAAFYFNQTELNLKAIESNIFDKQQRVILLNNPQILAKVGDFIFNFRDVTKNAKGEIDCLLLKL

RELRNFYSHYVYTDDVKILSNGERPLLEKYYQFAIEATGSENVKLEIIESNNRLTEAGVLFFLCMFLKKSQANKL

ISGISGFKRNDPTGQPRRNLFTYFSVREGYKVVPDMQKHFLLFVLVNHLSGQDDYIEKAQKPYDIGEGLFFHRIA

STFLNISGILRNMEFYIYQSKRLKEQQGELKREKDIFPWIEPFQGNSYFEINGNKGIIGEDELKELCYALLVAGK

DVRAVEGKITQFLEKFKNADNAQQVEKDEMLDRNNFPANYFAESNIGSIKEKILNRLGKTDDSYNKTGTKIKPYD

MMKEVMEFINNSLPADEKLKRKDYRRYLKMVRIWDSEKDNIKREFESKEWSKYFSSDFWMAKNLERVYGLAREKN

AELFNKLKAVVEKMDEREFEKYRLINSAEDLASLRRLAKDFGLKWEEKDWQEYSGQIKKQISDRQKLTIMKQRIT

AELKKKHGIENLNLRITIDSNKSRKAVLNRIAVPRGFVKEHILGWQGSEKVSKKTREAKCKILLSKEYEELSKQF

FQTRNYDKMTQVNGLYEKNKLLAFMVVYLMERLNILLNKPTELNELEKAEVDFKISDKVMAKIPFSQYPSLVYAM

SSKYADSVGSYKFENDEKNKPFLGKIDTIEKQRMEFIKEVLGFEEYLFEKKIIDKSEFADTATHISFDEICNELIKKGWDKDKLTKLKDARNAALHGEIPAETSFREAKPLINGLKK*(SEQ ID NO:5)

MNI IKLKKEEAAFYFNQTILNLSGLDEIIEKQIPHIISNKENAKKVIDKIFNNRLLLKSVENYIYNFKDVAKNARTEIEAILLKLVELRNFYSHYVHNDTVKILSNGEKPILEKYYQIAIEATGSKNVKLVIIENNNCLTDSGVLFLLCMFLKKSQANKLISSVSGFKRNDKEGQPRRNLFTYYSVREGYKVVPDMQKHFLLFALVNHLSEQDDHIEKQQQSDELGKGLFFHRIASTFLNESGIFNKMQFYTYQSNRLKEKRGELKHEKDTFTWIEPFQGNSYFTLNGHKGVISEDQLKELCYTILIEKQNVDSLEGKIIQFLKKFQNVSSKQQVDEDELLKREYFPANYFGRAGTGTLKEKILNRLDKRMDPTSKVTDKAYDKMIEVMEFINMCLPSDEKLRQKDYRRYLKMVRFWNKEKHNIKREFDSKKWTRFLPTELWNKRNLEEAYQLARKENKKKLEDMRNQVRSLKENDLEKYQQINYVNDLENLRLLSQELGVKWQEKDWVEYSGQIKKQISDNQKLTIMKQRITAELKKMHGIENLNLRISIDTNKSRQTVMNRIALPKGFVKNHIQQNSSEKISKRIREDYCKIELSGKYEELSRQFFDKKNFDKMTLINGLCEKNKLIAFMVIYLLERLGFELKEKTKLGELKQTRMTYKISDKVKEDIPLSYYPKLVYAMNRKYVDNIDSYAFAAYESKKAILDKVDIIEKQRMEFIKQVLCFEEYIFENRIIEKSKFNDEETHISFTQIHDELIKKGRDTEKLSKLKHARNKALHGEIPDGTSFEKAKLLINEIKK*(SEQ ID NO:6)

MNAIELKKEEAAFYFNQARLNISGLDEIIEKQLPHIGSNRENAKKTVDMILDNPEVLKKMENYVFNSRDIAKNAR

GELEALLLKLVELRNFYSHYVHKDDVKTLSYGEKPLLDKYYEIAIEATGSKDVRLEIIDDKNKLTDAGVLFLLCM

FLKKSEANKLISSIRGFKRNDKEGQPRRNLFTYYSVREGYKVVPDMQKHFLLFTLVNHLSNQDEYISNLRPNQEI

GQGGFFHRIASKFLSDSGILHSMKFYTYRSKRLTEQRGELKPKKDHFTWIEPFQGNSYFSVQGQKGVIGEEQLKE

LCYVLLVAREDFRAVEGKVTQFLKKFQNANNVQQVEKDEVLEKEYFPANYFENRDVGRVKDKILNRLKKITESYK

AKGREVKAYDKMKEVMEFINNCLPTDENLKLKDYRRYLKMVRFWGREKENIKREFDSKKWERFLPRELWQKRNLE

DAYQLAKEKNTELFNKLKTTVERMNELEFEKYQQINDAKDLANLRQLARDFGVKWEEKDWQEYSGQIKKQITDRQ

KLTIMKQRITAALKKKQGIENLNLRITTDTNKSRKVVLNRIALPKGFVRKHILKTDIKISKQIRQSQCPIILSNN

YMKLAKEFFEERNFDKMTQINGLFEKNVLIAFMIVYLMEQLNLRLGKNTELSNLKKTEVNFTITDKVTEKVQISQ

YPSLVFAINREYVDGISGYKLPPKKPKEPPYTFFEKIDAIEKERMEFIKQVLGFEEHLFEKNVIDKTRFTDTATHISFNEICDELIKKGWDENKIIKLKDARNAALHGKIPEDTSFDEAKVLINELKK*(SEQ ID NO:7)

编码对应的在各pre-crRNA序列中的同向重复(DR)序列的DNA分别为SEQ ID NO:8-14。

GCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:8)

GCTGAAGAAGCCTCCGATTTGAGAGGTGATTACAGC(SEQ ID NO:9)

GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:10)

GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:11)

GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:12)

GCTGTGATGGGCCTCAATTTGTGGGGAAGTAACAGC(SEQ ID NO:13)

GCTGTGATAGGCCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:14)

Cas13e.1、Cas13e.2、Cas13f.1、Cas13f.2、Cas13f.3、Cas13f.4和Cas13f.5蛋白的天然(野生型)DNA编码序列分别为SEQ ID NO:15-21。

ATGGCGCAAGTGTCAAAGCAGACTTCGAAAAAGAGAGAGTTGTCTATCGATGAATATCAAGGTGCTCGGAAATGG

TGTTTTACGATTGCCTTCAACAAGGCTCTTGTGAATCGAGATAAGAACGACGGGCTTTTTGTCGAGTCGCTGTTA

CGCCATGAAAAGTATTCAAAGCACGACTGGTACGATGAGGATACACGCGCTTTGATCAAGTGTAGCACACAAGCG

GCCAATGCGAAGGCCGAGGCGTTAAGAAACTATTTCTCCCACTATCGACATTCGCCCGGGTGTCTGACATTTACA

GCAGAAGATGAGTTGCGGACAATCATGGAAAGGGCGTATGAGCGGGCGATCTTTGAATGCAGGAGACGCGAAACT

GAAGTGATCATCGAGTTTCCCAGCCTGTTCGAAGGCGACCGGATCACTACGGCGGGGGTTGTGTTTTTCGTTTCG

TTCTTTGTTGAACGGCGGGTGCTGGATCGTTTGTACGGTGCGGTAAGTGGGCTTAAGAAAAACGAAGGACAGTAC

AAGCTGACTCGGAAGGCGCTTTCGATGTATTGCCTGAAAGACAGTCGTTTCACGAAGGCGTGGGACAAACGCGTG

CTGCTTTTCAGGGATATACTCGCGCAGCTTGGACGCATCCCTGCGGAGGCGTATGAATACTACCACGGAGAGCAG

GGCGACAAGAAAAGAGCAAACGACAATGAGGGGACGAATCCGAAACGCCATAAAGACAAGTTCATCGAGTTTGCA

CTGCATTATCTGGAGGCGCAACACAGTGAGATATGCTTCGGGCGGCGACACATTGTCAGGGAGGAGGCCGGGGCA

GGCGACGAACACAAAAAGCACAGGACCAAAGGCAAGGTAGTTGTCGACTTTTCAAAAAAAGACGAAGATCAGTCA

TACTATATCAGTAAGAACAATGTTATCGTCAGGATTGATAAGAATGCCGGGCCTCGGAGTTATCGCATGGGGCTT

AACGAATTGAAATACCTTGTATTGCTTAGCCTTCAGGGAAAGGGCGACGATGCGATTGCAAAACTGTACAGGTAT

CGGCAGCATGTGGAGAACATTCTGGATGTAGTGAAGGTCACAGATAAGGATAATCACGTCTTCCTGCCGCGATTT

GTGCTGGAGCAACATGGGATTGGCAGGAAAGCTTTTAAGCAAAGAATAGACGGCAGAGTAAAGCATGTTCGAGGG

GTGTGGGAAAAGAAGAAGGCGGCGACCAACGAGATGACACTTCACGAGAAGGCGCGGGACATTCTTCAATACGTA

AATGAAAATTGCACGAGGTCTTTCAATCCCGGCGAGTACAACCGGCTGCTGGTGTGTCTGGTTGGCAAGGATGTT

GAGAATTTTCAGGCGGGACTGAAACGCCTGCAACTGGCCGAGCGAATCGACGGGCGGGTATATTCAATTTTTGCG

CAGACCTCCACAATAAACGAGATGCATCAGGTGGTGTGTGATCAGATTCTCAACAGACTTTGCCGAATCGGCGAT

CAGAAGCTCTACGATTATGTGGGGCTTGGGAAGAAGGATGAAATAGATTACAAGCAGAAGGTTGCATGGTTCAAG

GAGCATATTTCTATCCGCAGGGGTTTCTTGCGCAAGAAGTTCTGGTATGACAGCAAGAAGGGATTCGCGAAGCTT

GTGGAAGAGCATTTGGAAAGCGGCGGCGGACAGAGGGACGTTGGGCTGGATAAAAAGTATTATCATATTGATGCG

ATTGGGCGATTCGAGGGTGCTAATCCAGCCTTGTATGAAACGCTGGCGCGAGACCGTTTGTGTCTGATGATGGCG

CAATACTTCCTGGGGAGTGTACGCAAGGAATTGGGTAATAAAATTGTGTGGTCGAATGATAGCATCGAGTTGCCC

GTGGAGGGCTCAGTGGGTAACGAAAAAAGCATCGTCTTCTCAGTGAGTGATTACGGCAAGTTATATGTGTTGGAT

GACGCTGAGTTTCTTGGGCGGATATGTGAGTACTTTATGCCGCACGAAAAAGGGAAGATACGGTATCATACAGTT

TACGAAAAAGGGTTTAGGGCATATAATGATCTGCAGAAGAAATGTGTCGAGGCGGTGCTGGCGTTTGAAGAGAAG

GTTGTCAAAGCCAAAAAGATGAGCGAGAAGGAAGGGGCGCATTATATTGATTTTCGTGAGATACTGGCACAAACA

ATGTGTAAAGAGGCGGAGAAGACCGCCGTGAATAAGGTGCGTAGAGCGTTTTTCCATCATCATTTAAAGTTTGTG

ATAGATGAATTTGGGTTGTTTAGTGATGTTATGAAGAAATATGGAATTGAAAAGGAGTGGAAGTTTCCTGTTAAATGA(SEQ ID NO:15)

ATGAAGGTTGAAAATATTAAAGAAAAAAGCAAAAAAGCAATGTATTTAATCAACCATTATGAGGGACCCAAAAAA

TGGTGTTTTGCAATAGTTCTGAATAGGGCATGTGATAATTACGAGGACAATCCACACTTGTTTTCCAAATCACTT

TTGGAATTTGAAAAAACAAGTCGAAAAGATTGGTTTGACGAAGAAACACGAGAGCTTGTTGAGCAAGCAGATACA

GAAATACAGCCAAATCCTAACCTGAAACCTAATACAACAGCTAACCGAAAACTCAAAGATATAAGAAACTATTTT

TCGCATCATTATCACAAGAACGAATGCCTGTATTTTAAGAACGATGATCCCATACGCTGCATTATGGAAGCGGCG

TATGAAAAATCTAAAATTTATATCAAAGGAAAGCAGATTGAGCAAAGCGATATACCATTGCCCGAATTGTTTGAA

AGCAGCGGTTGGATTACACCGGCGGGGATTTTGTTACTGGCATCCTTTTTTGTTGAACGAGGGATTCTACATCGC

TTGATGGGAAATATCGGAGGATTTAAAGATAATCGAGGCGAATACGGTCTTACACACGATATTTTTACCACCTAT

TGTCTTAAGGGTAGTTATTCAATTCGGGCGCAGGATCATGATGCGGTAATGTTCAGAGATATTCTCGGCTATCTG

TCACGAGTTCCCACTGAGTCATTTCAGCGTATCAAGCAACCTCAAATACGAAAAGAAGGCCAATTAAGTGAAAGA

AAGACGGACAAATTTATAACATTTGCACTAAATTATCTTGAGGATTATGGGCTGAAAGATTTGGAAGGCTGCAAA

GCCTGTTTTGCCAGAAGTAAAATTGTAAGGGAACAAGAAAATGTTGAAAGCATAAATGATAAGGAATACAAACCT

CACGAGAACAAAAAGAAAGTTGAAATTCACTTCGATCAGAGCAAAGAAGACCGATTTTATATTAATCGCAATAAC

GTTATTTTGAAGATTCAGAAGAAAGATGGACATTCCAACATAGTTAGGATGGGAGTATATGAACTTAAATATCTC

GTTCTTATGAGTTTAGTGGGAAAAGCAAAAGAAGCAGTTGAAAAAATTGACAACTATATCCAGGATTTGCGAGAC

CAGTTGCCTTACATAGAGGGGAAAAATAAGGAAGAGATTAAAGAATACGTCAGGTTCTTTCCACGATTTATACGT

TCTCACCTCGGTTTACTACAGATTAACGATGAAGAAAAGATAAAAGCTCGATTAGATTATGTTAAGACCAAGTGG

TTAGATAAAAAGGAAAAATCGAAAGAGCTTGAACTTCATAAAAAAGGACGGGACATCCTCAGGTATATCAACGAG

CGATGTGATAGAGAGCTTAACAGGAATGTATATAACCGTATTTTAGAGCTCCTGGTCAGCAAAGACCTCACTGGT

TTTTATCGTGAGCTTGAAGAACTAAAAAGAACAAGGCGGATAGATAAAAATATTGTCCAGAATCTTTCTGGGCAA

AAAACCATTAATGCACTGCATGAAAAGGTCTGTGATCTGGTGCTGAAGGAAATCGAAAGTCTCGATACAGAAAAT

CTCAGGAAATATCTTGGATTGATACCCAAAGAAGAAAAAGAGGTCACTTTCAAAGAAAAGGTCGATAGGATTTTG

AAACAGCCAGTTATTTACAAAGGGTTTCTGAGATACCAATTCTTCAAAGATGACAAAAAGAGTTTTGTCTTACTT

GTTGAAGACGCATTGAAGGAAAAAGGAGGAGGTTGTGATGTTCCTCTTGGGAAAGAGTATTATAAAATCGTGTCA

CTTGATAAGTATGATAAAGAAAATAAAACCCTGTGTGAAACTCTGGCGATGGATAGGCTTTGCCTTATGATGGCA

AGACAATATTATCTCAGTCTGAATGCAAAACTTGCACAGGAAGCTCAGCAAATCGAATGGAAGAAAGAAGATAGT

ATAGAATTGATTATTTTCACCTTAAAAAATCCCGATCAATCAAAGCAGAGTTTTTCTATACGGTTTTCGGTCAGA

GATTTTACGAAGTTGTATGTAACGGATGATCCTGAATTTCTGGCCCGGCTTTGTTCCTACTTTTTCCCAGTTGAA

AAAGAGATTGAATATCACAAGCTCTATTCAGAAGGGATAAATAAATACACAAACCTGCAAAAAGAGGGAATCGAA

GCAATACTCGAGCTTGAAAAAAAGCTTATTGAACGAAATCGGATTCAATCTGCAAAAAATTATCTCTCATTTAAT

GAGATAATGAATAAAAGCGGTTATAATAAAGATGAGCAGGATGATCTAAAGAAGGTGCGAAATTCTCTTTTGCAT

TATAAGCTTATCTTTGAGAAAGAACATCTCAAGAAGTTCTATGAGGTTATGAGAGGAGAAGGGATAGAGAAAAAGTGGTCTTTAATAGTATGA(SEQ ID NO:16)

ATGAATGGCATTGAATTAAAAAAAGAAGAAGCAGCATTTTATTTTAATCAGGCAGAGCTTAATTTAAAAGCCATA

GAAGACAATATTTTTGATAAAGAAAGACGAAAGACTCTGCTTAATAATCCACAGATACTTGCCAAAATGGAAAAT

TTCATTTTCAATTTCAGAGATGTAACAAAAAATGCAAAAGGGGAAATTGACTGCTTGCTGTTGAAACTAAGAGAG

CTGAGAAACTTTTACTCGCATTATGTCCACAAACGAGATGTAAGAGAATTAAGCAAGGGCGAGAAACCTATACTT

GAAAAGTATTACCAATTTGCGATTGAATCAACCGGAAGTGAAAATGTTAAACTTGAGATAATAGAAAACGACGCG

TGGCTTGCAGATGCCGGTGTGTTGTTTTTCTTATGTATTTTTTTGAAGAAATCTCAGGCAAATAAGCTTATAAGC

GGTATCAGCGGTTTTAAAAGAAACGATGATACCGGTCAGCCGAGAAGGAATTTATTTACCTATTTCAGTATAAGG

GAGGGATACAAGGTTGTTCCGGAAATGCAGAAACATTTCCTTTTGTTTTCTCTTGTTAATCATCTCTCTAATCAA

GATGATTATATTGAAAAAGCGCATCAGCCATACGATATAGGCGAGGGTTTATTTTTTCATCGAATAGCTTCTACA

TTTCTTAATATAAGTGGGATTTTAAGAAATATGAAATTCTATACCTATCAGAGTAAAAGGTTAGTAGAGCAGCGG

GGAGAACTCAAACGAGAAAAGGATATTTTTGCGTGGGAAGAACCGTTTCAAGGAAATAGTTATTTTGAAATAAAT

GGTCATAAAGGAGTAATCGGTGAAGATGAATTGAAGGAACTATGTTATGCATTTCTGATTGGCAATCAAGATGCT

AATAAAGTGGAAGGCAGGATTACACAATTTCTAGAAAAGTTTAGAAATGCGAACAGTGTGCAACAAGTTAAAGAT

GATGAAATGCTAAAACCAGAGTATTTTCCTGCAAATTATTTTGCTGAATCAGGCGTCGGAAGAATAAAGGATAGA

GTGCTTAATCGTTTGAATAAAGCGATTAAAAGCAATAAGGCCAAGAAAGGAGAGATTATAGCATACGATAAGATG

AGAGAGGTTATGGCGTTCATAAATAATTCTCTGCCGGTAGATGAAAAATTGAAACCAAAAGATTACAAACGATAT

CTGGGAATGGTTCGTTTCTGGGACAGGGAAAAAGATAACATAAAGCGGGAGTTCGAGACAAAAGAATGGTCTAAA

TATCTTCCATCTAATTTCTGGACGGCAAAAAACCTTGAAAGGGTCTATGGTCTGGCAAGAGAGAAAAACGCAGAA

TTATTCAATAAACTAAAAGCGGATGTAGAAAAAATGGACGAACGGGAACTTGAGAAGTATCAGAAGATAAATGAT

GCAAAGGATTTGGCAAATTTACGCCGGCTTGCAAGCGACTTTGGTGTGAAGTGGGAAGAAAAAGACTGGGATGAG

TATTCAGGACAGATAAAAAAACAAATTACAGACAGCCAGAAACTAACAATAATGAAGCAGCGGATAACCGCAGGA

CTAAAGAAAAAGCACGGCATAGAAAATCTTAACCTGAGAATAACTATCGACATCAATAAAAGCAGAAAGGCAGTT

TTGAACAGAATTGCGATTCCGAGGGGTTTTGTAAAAAGGCATATTTTAGGATGGCAAGAGTCTGAGAAGGTATCG

AAAAAGATAAGAGAGGCAGAATGCGAAATTCTGCTGTCGAAAGAATACGAAGAACTATCGAAACAATTTTTCCAA

AGCAAAGATTATGACAAAATGACACGGATAAATGGCCTTTATGAAAAAAACAAACTTATAGCCCTGATGGCAGTT

TATCTAATGGGGCAATTGAGAATCCTGTTTAAAGAACACACAAAACTTGACGATATTACGAAAACAACTGTGGAT

TTCAAAATATCTGATAAGGTGACGGTAAAAATCCCCTTTTCAAATTATCCTTCGCTCGTTTATACAATGTCCAGT

AAGTATGTTGATAATATAGGGAATTATGGATTTTCCAACAAAGATAAAGACAAGCCGATTTTAGGTAAGATTGAT

GTAATAGAAAAACAGCGAATGGAATTTATAAAAGAGGTTCTTGGTTTTGAAAAATATCTTTTTGATGATAAAATA

ATAGATAAAAGCAAATTTGCTGATACAGCGACTCATATAAGTTTTGCAGAAATAGTTGAGGAGCTTGTTGAAAAA

GGATGGGACAAAGACAGACTGACAAAACTTAAAGATGCAAGAAATAAAGCCCTGCATGGTGAAATACTGACGGGAACCAGCTTTGATGAAACAAAATCATTGATAAACGAATTAAAAAAATGA(SEQ ID NO:17)

ATGTCCCCAGATTTCATCAAATTAGAAAAACAGGAAGCAGCTTTTTACTTTAATCAGACAGAGCTTAATTTAAAA

GCCATAGAAAGCAATATTTTAGACAAACAACAGCGAATGATTCTGCTTAATAATCCACGGATACTTGCCAAAGTA

GGAAATTTCATTTTCAATTTCAGAGATGTAACAAAAAATGCAAAAGGAGAAATAGACTGTCTGCTATTTAAACTG

GAAGAGCTAAGAAACTTTTACTCGCATTATGTTCATACCGACAATGTAAAGGAATTGAGTAACGGAGAAAAACCC

CTACTGGAAAGATATTATCAAATCGCTATTCAGGCAACCAGGAGTGAGGATGTTAAGTTCGAATTGTTTGAAACA

AGAAACGAGAATAAGATTACGGATGCCGGTGTATTGTTTTTCTTATGTATGTTTTTAAAAAAATCACAGGCAAAC

AAGCTTATAAGCGGTATCAGCGGCTTCAAAAGAAATGATCCAACAGGCCAGCCGAGAAGAAACTTATTTACCTAT

TTCAGTGCAAGAGAAGGATATAAGGCTTTGCCTGATATGCAGAAACATTTTCTTCTTTTTACTCTGGTTAATTAT

TTGTCGAATCAGGATGAGTATATCAGCGAGCTTAAACAATATGGAGAGATTGGTCAAGGAGCCTTTTTTAATCGA

ATAGCTTCAACATTTTTGAATATCAGCGGGATTTCAGGAAATACGAAATTCTATTCGTATCAAAGTAAAAGGATA

AAAGAGCAGCGAGGCGAACTCAATAGCGAAAAGGACAGCTTTGAATGGATAGAGCCTTTCCAAGGAAACAGCTAT

TTTGAAATAAATGGGCATAAAGGAGTAATCGGCGAAGACGAATTAAAAGAACTTTGTTATGCATTGTTGGTTGCC

AAGCAAGATATTAATGCCGTTGAAGGCAAAATTATGCAATTCCTGAAAAAGTTTAGAAATACTGGCAATTTGCAG

CAAGTTAAAGATGATGAAATGCTGGAAATAGAATATTTTCCCGCAAGTTATTTTAATGAATCAAAAAAAGAGGAC

ATAAAGAAAGAGATTCTTGGCCGGCTGGATAAAAAGATTCGCTCCTGCTCTGCAAAGGCAGAAAAAGCCTATGAT

AAGATGAAAGAGGTGATGGAGTTTATAAATAATTCTCTGCCGGCAGAGGAAAAATTGAAACGCAAAGATTATAGA

AGATATCTAAAGATGGTTCGTTTCTGGAGCAGAGAAAAAGGCAATATAGAGCGGGAATTTAGAACAAAGGAATGG

TCAAAATATTTTTCATCTGATTTTTGGCGGAAGAACAATCTTGAAGATGTGTACAAACTGGCAACACAAAAAAAC

GCTGAACTGTTCAAAAATCTAAAAGCGGCAGCAGAGAAAATGGGTGAAACGGAATTTGAAAAGTATCAGCAGATA

AACGATGTAAAGGATTTGGCAAGTTTAAGGCGGCTTACGCAAGATTTTGGTTTGAAGTGGGAAGAAAAGGACTGG

GAGGAGTATTCCGAGCAGATAAAAAAACAAATTACGGACAGGCAGAAACTGACAATAATGAAACAAAGGGTTACG

GCTGAACTAAAGAAAAAGCACGGCATAGAAAATCTTAATCTGAGAATAACCATCGACAGCAATAAAAGCAGAAAG

GCGGTTTTGAACAGAATAGCAATTCCAAGAGGATTTGTAAAAAAACATATTTTAGGCTGGCAGGGATCTGAGAAG

ATATCGAAAAATATAAGGGAAGCAGAATGCAAAATTCTGCTATCGAAAAAATATGAAGAGTTATCAAGGCAGTTT

TTTGAAGCCGGTAATTTCGATAAGCTGACGCAGATAAATGGTCTTTATGAAAAGAATAAACTTACAGCTTTTATG

TCAGTATATTTGATGGGTCGGTTGAATATTCAGCTTAATAAGCACACAGAACTTGGAAATCTTAAAAAAACAGAG

GTGGATTTTAAGATATCTGATAAGGTGACTGAAAAAATACCGTTTTCTCAGTATCCTTCGCTTGTCTATGCGATG

TCTCGCAAATATGTTGACAATGTGGATAAATATAAATTTTCTCATCAAGATAAAAAGAAGCCATTTTTAGGTAAA

ATTGATTCAATTGAAAAAGAACGTATTGAATTCATAAAAGAGGTTCTCGATTTTGAAGAGTATCTTTTTAAAAAT

AAGGTAATAGATAAAAGCAAATTTTCCGATACAGCGACTCATATTAGCTTTAAGGAAATATGTGATGAAATGGGT

AAAAAAGGATGTAACCGAAACAAACTAACCGAACTTAACAACGCAAGGAACGCAGCCCTGCATGGTGAAATACCG

TCGGAGACCTCTTTTCGTGAAGCAAAACCGTTGATAAATGAATTGAAAAAATGA(SEQ ID NO:18)

ATGTCCCCAGATTTCATCAAATTAGAAAAACAAGAAGCAGCTTTTTACTTTAATCAGACAGAGCTTAATTTAAAA

GCCATAGAAAGCAATATTTTCGACAAACAACAGCGAGTGATTCTGCTTAATAATCCACAGATACTTGCCAAAGTA

GGAGATTTTATTTTCAATTTCAGAGATGTAACAAAAAACGCAAAAGGAGAAATAGACTGTTTGCTATTGAAACTA

AGAGAGCTGAGAAACTTTTACTCACACTATGTCTATACCGATGACGTGAAGATATTGAGTAACGGCGAAAGACCT

CTGCTGGAAAAATATTATCAATTTGCGATTGAAGCAACCGGAAGTGAAAATGTTAAACTTGAAATAATAGAAAGC

AACAACCGACTTACGGAAGCGGGCGTGCTGTTTTTCTTGTGTATGTTTTTGAAAAAGTCTCAGGCAAATAAGCTT

ATAAGCGGTATCAGCGGTTTTAAAAGAAATGACCCGACAGGTCAGCCGAGAAGGAATTTATTTACCTACTTCAGT

GTAAGGGAGGGATACAAGGTTGTGCCGGATATGCAGAAACATTTTCTTTTGTTTGTTCTTGTCAATCATCTCTCT

GGTCAGGATGATTATATTGAAAAGGCGCAAAAGCCATACGATATAGGCGAGGGTTTATTTTTTCATCGAATAGCT

TCTACATTTCTTAATATCAGTGGGATTTTAAGAAATATGGAATTCTATATTTACCAGAGCAAAAGACTAAAGGAG

CAGCAAGGAGAGCTCAAACGTGAAAAGGATATTTTTCCATGGATAGAGCCTTTCCAGGGAAATAGTTATTTTGAA

ATAAATGGTAATAAAGGAATAATCGGCGAAGATGAATTGAAAGAGCTTTGTTATGCGTTGCTGGTTGCAGGAAAA

GATGTCAGAGCCGTCGAAGGTAAAATAACACAATTTTTGGAAAAGTTTAAAAATGCGGACAATGCTCAGCAAGTT

GAAAAAGATGAAATGCTGGACAGAAACAATTTTCCCGCCAATTATTTCGCCGAATCGAACATCGGCAGCATAAAG

GAAAAAATACTTAATCGTTTGGGAAAAACTGATGATAGTTATAATAAGACGGGGACAAAGATTAAACCATACGAC

ATGATGAAAGAGGTAATGGAGTTTATAAATAATTCTCTTCCGGCAGATGAAAAATTGAAACGCAAAGATTACAGA

AGATATCTAAAGATGGTTCGTATCTGGGACAGTGAGAAAGATAATATAAAGCGGGAGTTTGAAAGCAAAGAATGG

TCAAAATATTTTTCATCTGATTTCTGGATGGCAAAAAATCTTGAAAGGGTCTATGGGTTGGCAAGAGAGAAAAAC

GCCGAATTATTCAATAAGCTAAAAGCGGTTGTGGAGAAAATGGACGAGCGGGAATTTGAGAAGTATCGGCTGATA

AATAGCGCAGAGGATTTGGCAAGTTTAAGACGGCTTGCGAAAGATTTTGGCCTGAAGTGGGAAGAAAAGGACTGG

CAAGAGTATTCTGGGCAGATAAAAAAACAAATTTCTGACAGGCAGAAACTGACAATAATGAAACAAAGGATTACG

GCTGAACTAAAGAAAAAGCACGGCATAGAAAATCTCAATCTTAGAATAACCATCGACAGCAATAAAAGCAGAAAG

GCAGTTTTGAACAGAATCGCAGTTCCAAGAGGTTTTGTGAAAGAGCATATTTTAGGATGGCAGGGGTCTGAGAAG

GTATCGAAAAAGACAAGAGAAGCAAAGTGCAAAATTCTGCTCTCGAAAGAATATGAAGAATTATCAAAGCAATTT

TTCCAAACCAGAAATTACGACAAGATGACGCAGGTAAACGGTCTTTACGAAAAGAATAAACTCTTAGCATTTATG

GTCGTTTATCTTATGGAGCGGTTGAATATCCTGCTTAATAAGCCCACAGAACTTAATGAACTTGAAAAAGCAGAG

GTGGATTTCAAGATATCTGATAAGGTGATGGCCAAAATCCCGTTTTCACAGTATCCTTCGCTTGTGTACGCGATG

TCCAGCAAATATGCTGATAGTGTAGGCAGTTATAAATTTGAGAATGATGAAAAAAACAAGCCGTTTTTAGGCAAG

ATCGATACAATAGAAAAACAACGAATGGAGTTTATAAAAGAAGTCCTTGGTTTTGAAGAGTATCTTTTTGAAAAG

AAGATAATAGATAAAAGCGAATTTGCCGACACAGCGACTCATATAAGTTTTGATGAAATATGTAATGAGCTTATT

AAAAAAGGATGGGATAAAGACAAACTAACCAAACTTAAAGATGCCAGGAACGCGGCCCTGCATGGCGAAATACCG

GCGGAGACCTCTTTTCGTGAAGCAAAACCGTTGATAAATGGATTGAAAAAATGA(SEQ ID NO:19)ATGAACATCATTAAATTAAAAAAAGAAGAAGCTGCGTTTTATTTTAATCAGACGATCCTCAATCTTTCAGGGCTTGATGAAATTATTGAAAAACAAATTCCGCACATAATCAGCAACAAGGAAAATGCAAAGAAAGTGATTGATAAGATTTTCAATAACCGCTTATTATTAAAAAGTGTGGAGAATTATATCTACAACTTTAAAGATGTGGCTAAAAACGCAAGAACTGAAATTGAGGCTATATTGTTGAAATTAGTAGAGCTACGTAATTTTTACTCACATTACGTTCATAATGATACCGTCAAGATACTAAGTAACGGTGAAAAACCTATACTGGAAAAATATTATCAAATTGCTATAGAAGCAACCGGAAGTAAAAATGTTAAACTTGTAATCATAGAAAACAACAACTGTCTCACGGATTCTGGCGTGCTGTTTTTGCTGTGTATGTTCTTAAAAAAATCACAGGCAAACAAGCTTATAAGTTCCGTTAGTGGTTTTAAAAGGAATGATAAAGAAGGACAACCGAGAAGAAATCTATTCACTTATTATAGTGTGAGGGAGGGATATAAGGTTGTGCCTGATATGCAGAAGCATTTCCTTCTATTCGCTCTGGTCAATCATCTATCTGAGCAGGATGATCATATTGAGAAGCAGCAGCAGTCAGACGAGCTCGGTAAGGGTTTGTTTTTCCATCGTATAGCTTCGACTTTTTTAAACGAGAGCGGCATCTTCAATAAAATGCAATTTTATACATATCAGAGCAACAGGCTAAAAGAGAAAAGAGGAGAACTCAAACACGAAAAGGATACCTTTACATGGATAGAGCCTTTTCAAGGCAATAGTTATTTTACGTTAAATGGACATAAGGGAGTGATTAGTGAAGATCAATTGAAGGAGCTTTGTTACACAATTTTAATTGAGAAGCAAAACGTTGATTCCTTGGAAGGTAAAATTATACAATTTCTCAAAAAATTTCAGAATGTCAGCAGCAAGCAGCAAGTTGACGAAGATGAATTGCTTAAAAGAGAATATTTCCCTGCAAATTACTTTGGCCGGGCAGGAACAGGGACCCTAAAAGAAAAGATTCTAAACCGGCTTGATAAGAGGATGGATCCTACATCTAAAGTGACGGATAAAGCTTATGACAAAATGATTGAAGTGATGGAATTTATCAATATGTGCCTTCCGTCTGATGAGAAGTTGAGGCAAAAGGATTATAGACGATACTTAAAGATGGTTCGTTTCTGGAATAAGGAAAAGCATAACATTAAGCGCGAGTTTGACAGTAAAAAATGGACGAGGTTTTTGCCGACGGAATTGTGGAATAAAAGAAATCTAGAAGAAGCCTATCAATTAGCACGGAAAGAGAACAAAAAGAAACTTGAAGATATGAGAAATCAAGTACGAAGCCTTAAAGAAAATGACCTTGAAAAATATCAGCAGATTAATTACGTTAATGACCTGGAGAATTTAAGGCTTCTGTCACAGGAGTTAGGTGTGAAATGGCAGGAAAAGGACTGGGTTGAATATTCCGGGCAGATAAAGAAGCAGATATCAGACAATCAGAAACTTACAATCATGAAACAAAGGATTACCGCTGAACTAAAGAAAATGCACGGCATCGAGAATCTTAATCTTAGAATAAGCATTGACACGAATAAAAGCAGGCAGACGGTTATGAACAGGATAGCTTTGCCCAAAGGTTTTGTGAAGAATCATATCCAGCAAAATTCGTCTGAGAAAATATCGAAAAGAATAAGAGAGGATTATTGTAAAATTGAGCTATCGGGAAAATATGAAGAACTTTCAAGGCAATTTTTTGATAAAAAGAATTTCGATAAGATGACACTGATAAACGGCCTTTGTGAAAAGAACAAACTTATCGCATTTATGGTTATCTATCTTTTGGAGCGGCTTGGATTTGAATTAAAGGAGAAAACAAAATTAGGCGAGCTTAAACAAACAAGGATGACATATAAAATATCCGATAAGGTAAAAGAAGATATCCCGCTTTCCTATTACCCCAAGCTTGTGTATGCAATGAACCGAAAATATGTTGACAATATCGATAGTTATGCATTTGCGGCTTACGAATCCAAAAAAGCTATTTTGGATAAAGTGGATATCATAGAAAAGCAACGTATGGAATTTATCAAACAAGTTCTCTGTTTTGAGGAATATATTTTCGAAAATAGGATTATCGAAAAAAGCAAATTTAATGACGAGGAGACTCATATAAGTTTTACACAAATACATGATGAGCTTATTAAAAAAGGACGGGACACAGAAAAACTCTCTAAACTCAAACATGCAAGGAATAAAGCCTTGCACGGCGAGATTCCTGATGGGACTTCTTTTGAAAAAGCAAAGCTATTGATAAATGAAATCAAAAAATGA(SEQ ID NO:20)

ATGAATGCTATCGAACTAAAAAAAGAGGAAGCAGCATTTTATTTTAATCAGGCAAGACTCAACATTTCAGGACTT

GATGAAATTATTGAAAAGCAGTTACCACATATAGGTAGTAACAGGGAGAATGCGAAAAAAACTGTTGATATGATT

TTGGATAATCCCGAAGTCTTGAAGAAGATGGAAAATTATGTCTTTAACTCACGAGATATAGCAAAGAACGCAAGA

GGTGAACTTGAAGCATTGTTGTTGAAATTAGTAGAACTGCGTAATTTTTATTCACATTATGTTCATAAAGATGAT

GTTAAGACATTGAGTTACGGAGAAAAACCTTTACTGGATAAATATTATGAAATTGCGATTGAAGCGACCGGAAGT

AAAGATGTCAGACTTGAGATAATAGATGATAAAAATAAGCTTACAGATGCCGGTGTGCTTTTTTTATTGTGTATG

TTTTTGAAAAAATCAGAGGCAAACAAACTTATCAGTTCAATCAGGGGCTTTAAAAGAAACGATAAAGAAGGCCAG

CCGAGAAGAAATCTATTCACTTACTACAGTGTCAGAGAGGGATATAAGGTTGTGCCTGATATGCAGAAACATTTT

CTTTTATTCACACTGGTTAACCATTTGTCAAATCAGGATGAATACATCAGTAATCTTAGGCCGAATCAAGAAATC

GGCCAAGGGGGATTTTTCCATAGAATAGCATCAAAATTTTTGAGCGATAGCGGGATTTTACATAGTATGAAATTC

TACACCTACCGGAGTAAAAGACTAACAGAACAACGGGGGGAGCTTAAGCCGAAAAAAGATCATTTTACATGGATA

GAGCCTTTTCAGGGAAACAGTTATTTTTCAGTGCAGGGCCAAAAAGGAGTAATTGGTGAAGAGCAATTAAAGGAG

CTTTGTTATGTATTGCTGGTTGCCAGAGAAGATTTTAGGGCCGTTGAGGGCAAAGTTACACAATTTCTGAAAAAG

TTTCAGAATGCTAATAACGTACAGCAAGTTGAAAAAGATGAAGTGCTGGAAAAAGAATATTTTCCTGCAAATTAT

TTTGAAAATCGAGACGTAGGCAGAGTAAAGGATAAGATACTTAATCGTTTGAAAAAAATCACTGAAAGCTATAAA

GCTAAAGGGAGGGAGGTTAAAGCCTATGACAAGATGAAAGAGGTAATGGAGTTTATAAATAATTGCCTGCCAACA

GATGAAAATTTGAAACTCAAAGATTACAGAAGATATCTGAAAATGGTTCGTTTCTGGGGCAGGGAAAAGGAAAAT

ATAAAGCGGGAATTTGACAGTAAAAAATGGGAGAGGTTTTTGCCAAGAGAACTCTGGCAGAAAAGAAACCTCGAA

GATGCGTATCAACTGGCAAAAGAGAAAAACACCGAGTTATTCAATAAATTGAAAACAACTGTTGAGAGAATGAAC

GAACTGGAATTCGAAAAGTATCAGCAGATAAACGACGCAAAAGATTTGGCAAATTTAAGGCAACTGGCGCGGGAC

TTCGGCGTGAAGTGGGAAGAAAAGGACTGGCAAGAGTATTCGGGGCAGATAAAAAAACAAATTACAGACAGGCAA

AAACTTACAATAATGAAACAAAGGATTACTGCTGCATTGAAGAAAAAGCAAGGCATAGAAAATCTTAATCTTAGG

ATAACAACCGACACCAATAAAAGCAGAAAGGTGGTATTGAACAGAATAGCGCTACCTAAAGGTTTTGTAAGGAAG

CATATCTTAAAAACAGATATAAAGATATCAAAGCAAATAAGGCAATCACAATGTCCTATTATACTGTCAAACAAT

TATATGAAGCTGGCAAAGGAATTCTTTGAGGAGAGAAATTTTGATAAGATGACGCAGATAAACGGGCTATTTGAG

AAAAATGTACTTATAGCGTTTATGATAGTTTATCTGATGGAACAACTGAATCTTCGACTTGGTAAGAATACGGAA

CTTAGCAATCTTAAAAAAACGGAGGTTAATTTTACGATAACCGACAAGGTAACGGAAAAAGTCCAGATTTCGCAG

TATCCATCGCTTGTTTTCGCCATAAACAGAGAATATGTTGATGGAATCAGCGGTTATAAGTTACCGCCCAAAAAA

CCGAAAGAGCCTCCGTATACTTTCTTCGAGAAAATAGACGCAATAGAAAAAGAACGAATGGAATTCATAAAACAG

GTCCTCGGTTTCGAAGAACATCTTTTTGAGAAGAATGTAATAGACAAAACTCGCTTTACTGATACTGCGACTCAT

ATAAGTTTTAATGAAATATGTGATGAGCTTATAAAAAAAGGATGGGACGAAAACAAAATAATAAAACTTAAAGAT

GCGAGGAATGCAGCATTGCATGGTAAGATACCGGAGGATACGTCTTTTGATGAAGCGAAAGTACTGATAAATGAATTAAAAAAATGA(SEQ ID NO:21)

针对另外的功能性实验生成了七种Cas13e和Cas13f蛋白(即，Cas13e.1、Cas13e.2、Cas13f.1、Cas13f.2、Cas13f.3、Cas13f.4和Cas13f.5)，它们的经人密码子优化的编码序列分别为SEQ ID NO:22-28。

ATGGCCCAGGTGAGCAAGCAGACCTCCAAGAAGAGGGAGCTGAGCATCGACGAGTACCAGGGCGCCCGGAAGTGG

TGCTTCACCATTGCCTTCAACAAGGCCCTGGTGAACCGGGACAAGAACGACGGCCTGTTCGTGGAAAGCCTGCTG

AGACACGAGAAGTACAGCAAGCACGACTGGTACGACGAAGATACCCGGGCCCTGATCAAGTGCAGCACCCAGGCC

GCCAACGCCAAGGCTGAAGCCCTGCGGAACTACTTCAGTCACTACCGGCATAGCCCTGGCTGCCTGACCTTCACC

GCCGAGGACGAACTGCGGACCATCATGGAGAGAGCCTATGAGCGGGCCATCTTCGAGTGCAGAAGAAGAGAGACA

GAGGTGATCATCGAGTTTCCCAGCCTGTTCGAGGGCGACCGGATCACCACCGCCGGCGTGGTGTTTTTCGTGAGC

TTTTTCGTGGAAAGAAGAGTGCTGGATCGGCTGTATGGAGCCGTGTCCGGCCTGAAGAAGAATGAGGGACAGTAC

AAGCTGACCCGGAAGGCCCTGAGCATGTACTGCCTGAAGGACAGCAGATTCACCAAGGCCTGGGATAAGCGGGTG

CTGCTGTTCAGAGACATCCTGGCCCAGCTGGGAAGAATCCCCGCCGAGGCCTACGAGTACTACCACGGCGAGCAG

GGTGATAAGAAGAGAGCTAACGACAATGAGGGCACAAATCCCAAGCGGCACAAGGACAAGTTCATCGAATTTGCA

CTGCACTACCTGGAAGCCCAGCACAGCGAGATCTGCTTCGGCAGACGCCACATCGTGCGGGAAGAGGCCGGCGCC

GGCGATGAGCACAAGAAGCACCGGACCAAGGGAAAGGTGGTGGTGGACTTCAGCAAGAAGGACGAGGACCAGAGC

TACTATATCTCCAAGAACAACGTGATCGTGCGGATCGACAAGAACGCCGGCCCTAGAAGCTACCGGATGGGCCTG

AACGAGCTGAAGTACCTCGTGCTGCTGAGCCTGCAGGGGAAGGGCGACGATGCCATCGCCAAGCTGTACAGATAC

AGACAGCACGTGGAGAACATCCTGGATGTGGTGAAGGTGACCGATAAGGATAACCACGTGTTCCTGCCCCGCTTC

GTGCTGGAGCAGCACGGCATCGGCAGAAAGGCCTTCAAGCAGCGGATCGATGGACGGGTGAAGCACGTGCGGGGC

GTGTGGGAGAAGAAGAAGGCCGCCACCAATGAAATGACCCTGCACGAGAAGGCCAGAGACATCCTGCAGTACGTG

AACGAAAACTGCACCCGGTCCTTCAACCCTGGCGAATACAACAGACTGCTGGTGTGCCTGGTGGGCAAGGACGTG

GAGAACTTTCAGGCCGGCCTGAAGCGGCTGCAGCTGGCCGAAAGGATCGATGGCCGGGTGTACTCCATCTTCGCC

CAGACCAGCACCATCAATGAGATGCACCAGGTGGTGTGCGACCAGATCCTGAACCGGCTGTGCAGAATCGGCGAC

CAGAAGCTGTACGATTACGTGGGACTGGGCAAGAAGGACGAAATCGACTACAAGCAGAAGGTGGCCTGGTTCAAG

GAGCACATCAGCATCCGGAGAGGATTCCTGAGAAAGAAGTTCTGGTACGATAGCAAGAAGGGATTCGCAAAGCTG

GTGGAGGAACACCTGGAGTCCGGCGGCGGCCAGCGCGACGTGGGCCTGGACAAGAAGTACTACCACATCGACGCC

ATCGGCAGATTCGAGGGCGCCAACCCCGCCCTGTACGAGACCCTGGCCAGAGATCGGCTGTGCCTCATGATGGCC

CAGTACTTCCTGGGCAGCGTGAGAAAGGAACTGGGCAACAAGATTGTGTGGAGCAACGACAGCATCGAACTGCCT

GTGGAAGGCTCTGTGGGAAATGAGAAGAGCATCGTGTTCTCCGTGTCTGACTACGGCAAGCTGTACGTGCTGGAC

GATGCCGAATTCCTGGGCCGGATCTGCGAATACTTCATGCCCCACGAAAAGGGCAAGATCCGGTACCACACAGTG

TACGAAAAGGGCTTTAGAGCATACAACGACCTGCAGAAGAAGTGCGTGGAGGCCGTGCTGGCTTTCGAAGAGAAG

GTGGTGAAGGCCAAGAAGATGAGCGAGAAGGAAGGCGCCCACTACATCGACTTCCGGGAGATCCTGGCCCAGACC

ATGTGCAAGGAGGCCGAGAAGACCGCAGTGAACAAGGTGAGACGCGCCTTCTTCCACCACCACCTGAAGTTCGTG

ATTGACGAGTTCGGCCTGTTCAGCGACGTGATGAAGAAGTACGGCATCGAGAAGGAATGGAAGTTCCCTGTCAAGTAA(SEQ ID NO:22)

ATGAAGGTGGAGAACATCAAGGAAAAGTCCAAGAAGGCTATGTATCTGATCAACCACTATGAAGGCCCTAAGAAG

TGGTGCTTCGCCATCGTGCTGAATAGGGCCTGCGACAACTATGAGGATAACCCCCACCTGTTCAGCAAGAGCCTG

CTGGAATTTGAAAAGACCAGCAGAAAGGACTGGTTCGACGAGGAGACCAGGGAACTGGTGGAGCAGGCCGACACC

GAGATCCAGCCCAACCCCAACCTGAAGCCTAACACCACCGCCAACAGAAAGCTGAAGGACATCCGGAACTACTTC

AGCCACCACTACCACAAGAATGAGTGCCTGTACTTCAAGAACGACGACCCTATCCGGTGCATCATGGAGGCAGCC

TACGAGAAGTCCAAGATCTACATCAAGGGCAAGCAGATTGAGCAGTCCGACATCCCCCTCCCTGAGCTGTTTGAG

TCTAGCGGCTGGATCACCCCAGCCGGCATCCTGCTGCTGGCCAGCTTCTTTGTGGAGAGAGGCATTCTGCACAGA

CTGATGGGCAACATCGGCGGCTTCAAGGACAACCGGGGCGAATACGGACTGACCCACGATATCTTCACCACCTAC

TGCCTGAAGGGCAGCTACTCCATCAGAGCCCAGGACCACGACGCCGTGATGTTCAGAGACATCCTGGGCTACCTG

AGCAGAGTGCCGACCGAGAGCTTTCAGCGCATCAAGCAGCCACAGATCAGAAAGGAGGGGCAGCTGAGCGAGCGG

AAGACAGACAAGTTTATCACCTTCGCCCTGAACTACCTGGAAGATTATGGACTGAAGGATCTGGAAGGCTGCAAG

GCCTGCTTCGCCCGGAGCAAGATCGTGAGAGAGCAGGAGAACGTGGAAAGCATCAATGACAAGGAGTACAAGCCT

CACGAAAACAAGAAGAAGGTGGAAATCCACTTCGATCAGTCTAAGGAAGACCGGTTCTACATCAACCGGAACAAC

GTGATCCTGAAGATCCAGAAGAAGGACGGCCACAGCAACATCGTGAGAATGGGCGTGTACGAGCTGAAGTATCTG

GTGCTGATGTCCCTGGTGGGCAAGGCCAAGGAAGCCGTGGAGAAGATCGACAACTACATCCAGGATCTGAGAGAC

CAGCTGCCCTACATCGAGGGCAAGAACAAGGAAGAAATCAAGGAGTACGTGAGATTCTTCCCCAGATTCATCAGA

TCCCACCTGGGCCTGCTGCAGATTAACGATGAGGAGAAGATCAAGGCCCGGCTGGACTATGTGAAGACAAAGTGG

CTGGACAAGAAGGAGAAGTCCAAGGAGCTGGAGCTGCACAAGAAGGGCCGGGATATCCTGCGGTACATCAACGAG

CGGTGCGACCGGGAGCTGAACCGGAACGTGTACAACCGGATCCTGGAGCTGCTGGTGAGCAAGGACCTGACCGGC

TTCTACCGGGAGCTGGAGGAGCTGAAGCGGACCAGACGGATCGATAAGAACATTGTGCAGAACCTGTCCGGCCAG

AAGACCATCAACGCCCTGCACGAAAAGGTGTGCGATCTCGTGCTGAAGGAGATCGAGAGCCTGGACACCGAGAAC

CTGCGGAAGTACCTGGGCCTGATCCCCAAGGAGGAGAAGGAAGTGACCTTTAAGGAGAAGGTGGACAGGATCCTG

AAGCAGCCGGTGATCTACAAGGGCTTCCTGCGGTACCAGTTCTTCAAGGACGACAAGAAGAGCTTCGTGCTGCTG

GTGGAAGACGCCCTGAAGGAGAAGGGAGGCGGCTGCGACGTGCCCCTGGGCAAGGAGTACTACAAGATCGTGTCC

CTGGACAAGTATGACAAGGAAAATAAGACCCTGTGCGAGACCCTGGCAATGGATAGACTGTGCCTGATGATGGCC

CGGCAGTATTACCTGAGCCTGAACGCCAAGCTGGCCCAGGAGGCCCAGCAGATCGAATGGAAGAAGGAGGATAGC

ATTGAGCTGATCATCTTCACACTGAAGAATCCTGACCAGTCCAAGCAGAGCTTCTCCATCCGGTTCAGCGTGCGG

GACTTCACCAAGCTGTACGTGACCGACGACCCCGAATTCCTGGCCCGGCTGTGCAGCTACTTCTTCCCCGTGGAG

AAGGAGATCGAATACCACAAGCTGTACTCTGAAGGCATTAACAAGTACACCAACCTGCAGAAGGAGGGGATCGAA

GCCATCCTGGAGCTGGAGAAGAAGCTGATCGAAAGAAACCGGATCCAGTCCGCCAAGAACTACCTGAGCTTTAAC

GAAATCATGAACAAGAGCGGCTACAACAAGGATGAGCAGGATGACCTGAAGAAGGTGAGGAACTCCCTGCTGCAC

TACAAGCTGATCTTCGAAAAGGAGCACCTGAAGAAGTTCTATGAAGTGATGCGGGGCGAGGGAATCGAGAAGAAGTGGTCCCTGATCGTGTAA(SEQ ID NO:23)

ATGAATGGCATCGAGCTGAAGAAGGAAGAAGCCGCCTTCTACTTCAATCAGGCCGAGCTGAACCTGAAGGCCATT

GAGGACAACATCTTCGACAAGGAGAGACGGAAGACACTGCTGAACAACCCCCAGATCCTGGCCAAGATGGAGAAC

TTTATCTTCAATTTCCGGGACGTGACCAAGAACGCCAAGGGCGAAATCGACTGCCTGCTGCTGAAGCTGAGAGAG

CTGCGGAACTTTTACAGCCACTACGTGCACAAGCGGGACGTCAGAGAACTGAGCAAGGGCGAGAAGCCGATCCTG

GAGAAGTACTACCAGTTCGCCATCGAATCCACCGGCTCTGAGAACGTGAAGCTCGAAATCATCGAAAACGACGCC

TGGCTGGCCGACGCCGGCGTGCTGTTCTTCCTGTGCATCTTCCTGAAGAAGAGCCAGGCAAACAAGCTGATCAGC

GGCATCAGCGGCTTCAAGAGAAACGACGACACCGGCCAGCCTCGGAGAAACCTGTTCACCTACTTCTCCATCCGG

GAGGGCTACAAGGTGGTGCCCGAAATGCAGAAGCACTTCCTGCTGTTCTCCCTGGTGAACCACCTGAGCAACCAG

GACGATTATATCGAAAAGGCCCACCAGCCCTACGACATCGGCGAGGGCCTCTTCTTCCACCGGATTGCCAGCACC

TTCCTGAACATCTCCGGAATCCTGAGAAACATGAAGTTCTACACCTATCAGAGCAAGAGACTGGTGGAGCAGAGA

GGCGAGCTGAAGCGGGAAAAGGACATCTTCGCCTGGGAAGAACCGTTTCAGGGCAATTCCTACTTTGAGATCAAC

GGCCACAAGGGCGTGATTGGCGAAGACGAGCTGAAGGAGCTGTGCTACGCCTTCCTGATCGGCAACCAGGACGCC

AACAAGGTGGAGGGCCGGATCACCCAGTTCCTGGAGAAGTTCAGAAACGCCAACAGCGTGCAGCAGGTGAAGGAC

GACGAGATGCTGAAGCCTGAATATTTCCCCGCCAACTACTTTGCCGAGAGCGGCGTGGGCCGGATCAAGGACCGG

GTGCTGAACAGACTGAACAAGGCCATCAAGAGCAACAAGGCCAAGAAGGGCGAGATCATCGCCTATGACAAGATG

AGAGAAGTGATGGCTTTCATCAATAACTCTCTGCCCGTGGACGAGAAGCTGAAGCCCAAGGATTACAAGAGATAC

CTGGGCATGGTGAGATTCTGGGATAGAGAAAAGGACAATATCAAGCGCGAGTTCGAAACGAAGGAGTGGAGCAAG

TATCTGCCCTCCAACTTCTGGACCGCCAAGAACCTGGAGAGAGTGTACGGACTGGCCCGGGAAAAGAACGCAGAG

CTGTTTAACAAGCTGAAGGCCGACGTGGAGAAGATGGACGAAAGAGAGCTGGAAAAGTATCAGAAGATCAACGAC

GCCAAGGATCTGGCCAACCTGCGGCGGCTGGCCAGCGACTTCGGAGTGAAGTGGGAGGAGAAGGATTGGGACGAG

TACTCCGGCCAGATCAAGAAGCAGATCACAGATTCCCAGAAGCTGACCATCATGAAGCAGAGAATCACAGCCGGC

CTGAAGAAGAAGCACGGCATCGAAAACCTGAACCTGAGGATCACCATCGACATCAACAAGTCCAGAAAGGCCGTG

CTGAATCGGATCGCCATCCCCAGAGGATTTGTGAAGCGGCACATCCTGGGCTGGCAGGAATCCGAGAAGGTGAGC

AAGAAGATCAGAGAAGCCGAATGCGAGATTCTGCTGAGCAAGGAGTACGAGGAGCTGAGCAAGCAGTTCTTTCAG

AGCAAGGACTACGACAAGATGACCCGCATCAACGGCCTGTACGAGAAGAATAAGCTGATCGCCCTGATGGCCGTG

TATCTGATGGGGCAGCTGAGAATCCTGTTCAAGGAGCACACCAAGCTGGACGACATCACCAAGACCACCGTGGAT

TTCAAGATCAGCGACAAGGTGACCGTGAAGATCCCCTTCTCCAACTATCCCTCCCTGGTGTACACCATGAGCAGC

AAGTACGTGGACAATATCGGCAACTACGGCTTCAGCAACAAGGACAAGGATAAGCCCATTCTGGGCAAGATCGAC

GTGATCGAGAAGCAGCGGATGGAGTTTATCAAGGAGGTGCTGGGATTCGAGAAGTACCTGTTTGACGATAAGATC

ATCGACAAGAGCAAGTTCGCCGACACCGCCACCCACATCAGCTTTGCCGAAATCGTGGAAGAACTGGTGGAGAAG

GGCTGGGACAAGGACCGGCTGACGAAGCTGAAGGATGCCCGGAACAAGGCCCTGCACGGCGAGATCCTGACCGGCACCAGCTTCGACGAGACAAAGTCCCTGATCAACGAGCTGAAGAAGTAA(SEQ ID NO:24)

ATGAGCCCTGATTTCATCAAGCTGGAGAAGCAGGAAGCAGCCTTCTACTTTAACCAGACCGAGCTGAACCTGAAG

GCCATCGAATCCAATATCCTGGATAAGCAGCAGAGAATGATCCTGCTGAACAACCCCAGAATCCTGGCCAAGGTG

GGCAACTTCATCTTCAATTTCCGGGACGTGACCAAGAACGCAAAGGGCGAAATCGACTGCCTGCTGTTCAAGCTG

GAGGAACTGCGGAACTTCTACAGCCACTACGTGCACACCGATAACGTGAAGGAACTGTCCAACGGAGAGAAGCCT

CTGCTGGAGCGGTACTACCAGATCGCCATCCAGGCCACAAGAAGCGAGGACGTGAAGTTCGAGCTGTTCGAGACC

AGGAACGAGAACAAGATCACCGACGCAGGCGTGCTGTTCTTCCTGTGCATGTTCCTGAAGAAGAGCCAGGCTAAT

AAGCTGATTTCCGGCATCAGCGGCTTCAAGCGGAACGACCCCACCGGCCAGCCCAGACGGAACCTCTTTACCTAC

TTCTCTGCCCGGGAGGGCTACAAGGCCCTGCCTGACATGCAGAAGCACTTCCTGCTGTTCACCCTGGTGAACTAC

CTGAGCAACCAGGACGAGTACATCTCCGAGCTGAAGCAGTACGGAGAGATCGGACAGGGAGCCTTCTTCAACAGA

ATCGCCAGCACCTTCCTGAACATCAGCGGCATCAGCGGCAACACCAAGTTCTACAGCTACCAGAGCAAGAGAATC

AAGGAGCAGCGGGGCGAACTGAACAGCGAAAAGGACAGCTTCGAGTGGATCGAGCCCTTTCAGGGCAACTCTTAT

TTTGAGATCAACGGCCACAAGGGCGTGATCGGCGAAGACGAGCTGAAGGAGCTGTGCTACGCCCTGCTGGTGGCC

AAGCAGGACATCAATGCCGTGGAGGGAAAGATCATGCAGTTCCTGAAGAAGTTCAGGAACACCGGCAACCTGCAG

CAGGTGAAGGACGACGAGATGCTGGAAATCGAGTACTTTCCCGCCAGCTACTTCAACGAGAGCAAGAAGGAGGAC

ATCAAGAAGGAGATCCTGGGCAGACTGGACAAGAAGATCCGGTCCTGCAGCGCCAAGGCCGAGAAGGCCTACGAC

AAGATGAAGGAGGTGATGGAGTTTATCAATAACAGCCTGCCCGCCGAGGAGAAGCTGAAGAGGAAGGACTACCGC

AGATACCTGAAGATGGTGAGATTCTGGTCCAGAGAAAAGGGCAACATCGAGAGAGAGTTCAGAACCAAGGAGTGG

TCCAAGTACTTCAGCAGCGACTTCTGGAGAAAGAACAATCTGGAGGATGTGTACAAGCTGGCCACCCAGAAGAAC

GCCGAGCTGTTCAAGAATCTGAAGGCCGCCGCCGAGAAGATGGGCGAAACAGAATTCGAAAAGTACCAGCAGATC

AACGATGTGAAGGACCTGGCCAGCCTGAGACGGCTGACCCAGGATTTCGGCCTGAAGTGGGAGGAGAAGGATTGG

GAGGAGTACAGCGAACAGATCAAGAAGCAGATCACCGACCGGCAGAAGCTGACAATCATGAAGCAGCGGGTGACC

GCCGAGCTGAAGAAGAAGCACGGCATCGAGAATCTGAACCTCAGAATTACCATCGATTCCAACAAGAGCAGAAAG

GCCGTGCTGAACAGAATCGCCATTCCCCGGGGCTTCGTGAAGAAGCACATTCTGGGCTGGCAGGGCAGCGAAAAG

ATCAGCAAGAATATCCGGGAGGCCGAGTGCAAGATCCTGCTGTCCAAGAAGTATGAGGAGCTGTCTCGGCAGTTC

TTTGAGGCTGGCAACTTCGACAAGCTGACCCAGATCAACGGCCTGTACGAAAAGAATAAGCTGACCGCCTTCATG

TCCGTCTACCTGATGGGCAGACTGAACATCCAGCTGAACAAGCACACGGAGCTGGGAAATCTGAAGAAGACCGAG

GTGGACTTCAAGATTTCCGACAAGGTGACAGAAAAGATCCCCTTCTCCCAGTACCCTAGCCTGGTGTACGCTATG

AGCCGGAAGTACGTGGACAACGTGGACAAGTACAAGTTCAGCCACCAGGACAAGAAGAAGCCCTTCCTGGGCAAG

ATCGACAGCATCGAAAAGGAGAGAATCGAATTCATCAAGGAGGTGCTGGACTTCGAAGAGTACCTGTTTAAGAAC

AAGGTGATCGACAAGAGCAAGTTCAGCGATACCGCCACCCATATCTCTTTCAAGGAAATCTGCGACGAGATGGGC

AAGAAGGGCTGCAACCGCAACAAGCTGACCGAGCTGAATAACGCTAGAAACGCCGCACTGCACGGAGAAATCCCCAGCGAGACCAGCTTCCGGGAGGCCAAGCCCCTGATCAACGAACTGAAGAAGTAA(SEQ ID NO:25)ATGAGCCCTGACTTCATCAAGCTGGAAAAGCAGGAAGCCGCCTTCTACTTTAATCAGACCGAGCTGAACCTGAAGGCCATCGAGAGCAACATCTTCGACAAGCAGCAGCGGGTGATCCTGCTGAATAACCCCCAGATCCTGGCCAAGGTGGGCGACTTCATCTTCAACTTCCGGGACGTGACCAAGAACGCCAAGGGAGAAATCGACTGCCTGCTGCTGAAGCTGCGGGAGCTGAGAAACTTCTACAGCCACTATGTGTACACCGACGACGTGAAGATCCTGAGCAACGGCGAGAGGCCCCTGCTGGAGAAGTACTACCAGTTTGCCATCGAGGCCACCGGATCTGAGAATGTGAAGCTGGAGATCATCGAGAGCAACAACCGGCTGACCGAAGCGGGCGTGCTGTTCTTCCTGTGCATGTTCCTGAAGAAGAGCCAGGCCAACAAGCTGATTTCCGGCATCTCCGGATTCAAGCGCAACGACCCTACCGGACAGCCTCGGCGGAACCTGTTCACCTACTTTAGCGTGCGGGAGGGCTACAAGGTGGTGCCCGACATGCAGAAGCACTTCCTGCTGTTCGTGCTGGTGAACCACCTGTCCGGCCAGGATGACTATATTGAGAAGGCCCAGAAGCCCTACGACATCGGCGAAGGCCTGTTCTTCCACAGAATCGCCAGCACCTTTCTCAACATCAGCGGCATCCTGAGAAACATGGAATTCTACATCTACCAGAGCAAGCGGCTGAAGGAGCAGCAGGGAGAGCTGAAGAGAGAGAAGGACATCTTCCCTTGGATCGAGCCTTTCCAGGGCAACAGCTACTTTGAGATCAACGGAAACAAGGGCATCATCGGCGAGGACGAACTGAAGGAACTGTGCTACGCCCTGCTGGTGGCCGGCAAGGACGTGAGAGCCGTGGAAGGAAAGATCACCCAGTTCCTGGAGAAGTTCAAGAACGCCGATAACGCCCAGCAGGTGGAGAAGGATGAAATGCTGGACCGGAACAACTTCCCTGCCAATTACTTTGCCGAAAGCAACATCGGCAGCATCAAGGAAAAGATCCTGAATAGACTGGGCAAGACCGACGACTCCTACAACAAGACCGGCACCAAGATCAAGCCCTACGACATGATGAAGGAGGTGATGGAGTTCATCAATAATTCTCTGCCCGCCGATGAGAAGCTGAAGCGGAAGGACTACCGGAGATACCTGAAGATGGTCCGGATCTGGGACAGCGAAAAGGACAATATCAAGCGGGAGTTTGAGAGCAAGGAATGGAGCAAGTATTTCAGCAGCGACTTCTGGATGGCCAAGAACCTGGAAAGAGTGTACGGCCTGGCCAGGGAAAAGAACGCCGAGCTGTTTAACAAGCTGAAGGCCGTGGTGGAGAAGATGGACGAGCGGGAGTTCGAAAAGTACCGGCTGATCAACAGCGCCGAAGACCTGGCCAGCCTGCGGAGACTGGCCAAGGACTTCGGCCTGAAGTGGGAGGAGAAGGACTGGCAGGAGTATTCTGGCCAGATCAAGAAGCAGATCTCCGACAGACAGAAGCTGACAATTATGAAGCAGCGGATCACAGCCGAACTGAAGAAGAAGCACGGAATCGAGAACCTGAATCTGCGGATCACCATCGACAGCAACAAGTCCAGAAAGGCCGTGCTGAACCGGATCGCCGTGCCCCGGGGCTTCGTGAAGGAACACATCCTGGGCTGGCAAGGCTCTGAAAAGGTGAGCAAGAAGACCAGAGAAGCCAAGTGCAAGATCCTGCTGAGCAAGGAGTACGAGGAACTGAGCAAGCAGTTCTTTCAGACACGGAATTACGACAAGATGACCCAGGTGAACGGCCTGTACGAGAAGAACAAGCTGCTGGCCTTCATGGTGGTGTACCTGATGGAGAGACTGAACATCCTGCTGAACAAGCCCACAGAGCTGAACGAACTGGAAAAGGCCGAAGTGGACTTCAAGATCTCCGACAAGGTGATGGCCAAGATCCCTTTCTCTCAGTACCCCAGCCTGGTGTATGCAATGAGCTCCAAGTACGCCGACAGCGTGGGCTCTTACAAGTTCGAAAACGACGAGAAGAACAAGCCCTTTCTGGGCAAGATCGACACAATCGAGAAGCAGAGAATGGAGTTCATCAAGGAGGTGCTGGGCTTCGAGGAATACCTGTTCGAGAAGAAGATCATCGATAAGAGCGAATTCGCCGACACCGCCACCCACATCAGCTTCGACGAGATCTGCAACGAGCTGATCAAGAAGGGCTGGGACAAGGACAAGCTGACCAAGCTGAAGGACGCCCGGAACGCCGCCCTGCACGGCGAGATCCCCGCCGAGACCAGCTTCCGGGAGGCCAAGCCCCTGATTAACGGCCTGAAGAAGTAA(SEQ ID NO:26)ATGAACATCATCAAGCTGAAGAAGGAGGAAGCCGCCTTTTACTTTAACCAGACAATCCTGAATCTGAGCGGCCTGGACGAGATCATCGAGAAGCAGATCCCCCACATCATCTCCAATAAGGAAAACGCCAAGAAGGTGATTGATAAGATCTTCAATAACAGACTGCTGCTGAAGAGCGTGGAAAACTATATCTACAACTTCAAGGACGTGGCCAAGAACGCCCGGACCGAAATCGAAGCCATCCTGCTGAAGCTGGTGGAGCTGAGAAACTTCTACTCCCACTACGTGCACAACGACACCGTGAAGATCCTGTCCAATGGCGAGAAGCCCATCCTGGAAAAGTACTACCAGATCGCCATCGAAGCCACCGGCTCTAAGAACGTGAAGCTGGTCATTATCGAAAACAACAACTGCCTGACCGACTCCGGCGTGCTGTTCCTGCTGTGCATGTTCCTGAAGAAGAGCCAGGCCAACAAGCTGATTAGCAGCGTGAGCGGCTTTAAGCGGAACGACAAGGAAGGCCAGCCCAGAAGGAACCTCTTTACTTACTATAGCGTGAGGGAAGGCTACAAGGTGGTGCCAGACATGCAGAAGCACTTCCTGCTGTTCGCCCTGGTCAACCACCTGTCCGAGCAGGACGACCACATCGAGAAGCAGCAGCAGAGCGACGAGCTGGGCAAGGGCCTGTTCTTCCACAGAATCGCCAGCACATTCCTGAATGAAAGCGGCATCTTCAACAAGATGCAGTTTTACACCTACCAGAGCAATCGGCTGAAGGAGAAGCGGGGCGAGCTGAAGCACGAGAAGGACACCTTCACCTGGATCGAGCCTTTCCAGGGAAACAGCTACTTCACCCTGAACGGGCACAAGGGCGTGATCAGCGAGGATCAGCTGAAGGAACTGTGCTACACAATCCTGATCGAGAAGCAGAACGTGGACAGCCTGGAGGGCAAGATCATTCAGTTCCTGAAGAAGTTTCAGAACGTGTCTAGCAAGCAGCAGGTGGATGAGGACGAGCTGCTGAAGCGGGAATACTTCCCCGCCAACTACTTCGGCCGGGCCGGCACCGGCACCCTGAAGGAGAAGATCCTGAACCGGCTGGACAAGCGGATGGACCCCACCAGCAAGGTGACCGACAAGGCCTATGACAAGATGATCGAGGTGATGGAGTTCATCAACATGTGCCTGCCCAGCGACGAGAAGCTGCGGCAGAAGGATTACCGGAGATATCTGAAGATGGTCAGATTCTGGAACAAGGAGAAGCACAACATCAAGAGAGAATTCGACAGCAAGAAGTGGACCAGATTCCTGCCCACCGAGCTGTGGAATAAGCGGAACCTGGAGGAAGCCTACCAGCTGGCCCGGAAGGAGAACAAGAAGAAGCTGGAGGACATGAGGAATCAGGTGAGGAGCCTGAAGGAGAACGACCTGGAGAAGTACCAGCAGATCAACTATGTGAACGACCTGGAAAACCTGCGGCTGCTGTCCCAAGAGCTGGGCGTGAAGTGGCAGGAGAAGGACTGGGTGGAATACAGCGGCCAGATCAAGAAGCAGATCAGCGATAACCAGAAGCTGACAATCATGAAGCAGAGAATCACCGCCGAGCTGAAGAAGATGCACGGCATCGAGAACCTGAACCTGAGAATCAGCATCGACACCAACAAGTCCCGGCAGACTGTGATGAACAGAATTGCCCTGCCCAAGGGCTTCGTGAAGAACCACATTCAGCAGAACAGCAGCGAGAAGATCAGCAAGAGAATCAGAGAGGACTACTGCAAGATCGAGCTGTCCGGCAAGTACGAAGAGCTGAGCAGACAGTTTTTCGACAAGAAGAACTTTGACAAGATGACCCTGATCAACGGACTGTGCGAGAAGAATAAGCTCATCGCCTTCATGGTGATTTACCTGCTGGAGCGGCTGGGCTTCGAGCTGAAGGAGAAGACCAAGCTGGGCGAGCTGAAGCAGACCCGGATGACATATAAGATCAGCGACAAGGTGAAGGAGGACATCCCCCTCTCCTACTACCCCAAGCTGGTGTACGCCATGAATCGGAAGTATGTGGACAACATCGATAGCTACGCCTTCGCCGCCTACGAGTCTAAGAAGGCCATCCTGGACAAGGTGGACATCATTGAGAAGCAGAGAATGGAATTCATCAAGCAGGTGCTGTGCTTCGAGGAATACATCTTCGAGAACAGAATCATCGAGAAGAGCAAGTTCAACGATGAGGAGACCCACATCAGCTTCACCCAGATCCACGACGAACTGATCAAGAAGGGCAGAGATACCGAAAAGCTGAGCAAGCTGAAGCACGCCAGAAACAAGGCCCTGCACGGCGAGATCCCCGACGGGACCAGCTTTGAGAAGGCCAAGCTGCTGATCAACGAAATCAAGAAGTAA(SEQ ID NO:27)

ATGAACGCCATCGAGCTGAAGAAGGAAGAGGCCGCCTTCTACTTCAACCAGGCCAGACTGAACATCTCTGGCCTG

GACGAAATCATCGAGAAGCAACTGCCACACATCGGCTCTAACAGAGAGAACGCCAAGAAGACTGTGGACATGATC

CTGGATAACCCCGAGGTGCTGAAGAAGATGGAAAACTACGTGTTCAACTCCCGCGATATTGCCAAGAATGCCCGG

GGCGAGCTGGAGGCCCTGCTGCTGAAGCTGGTCGAGCTGAGAAACTTCTATAGCCACTACGTGCACAAGGACGAC

GTCAAGACACTGAGCTACGGTGAGAAGCCTCTGCTGGATAAGTACTACGAGATCGCCATCGAAGCCACCGGATCC

AAGGACGTGCGGCTGGAGATCATTGACGACAAGAATAAGCTGACCGACGCCGGAGTGCTGTTCCTGCTGTGCATG

TTCCTGAAGAAGAGCGAGGCTAACAAGCTGATTTCCAGCATCCGGGGCTTCAAGAGGAACGACAAGGAGGGCCAG

CCTAGAAGAAACCTGTTCACCTACTACAGCGTGAGAGAGGGCTATAAGGTGGTGCCCGACATGCAGAAGCACTTT

CTGCTGTTCACCCTGGTGAACCACCTGTCCAATCAGGACGAGTACATCTCCAACCTGCGCCCAAACCAGGAAATC

GGCCAGGGCGGATTTTTCCACCGGATCGCCAGCAAGTTCCTGAGCGACAGCGGAATCCTGCACAGCATGAAGTTC

TACACATACAGATCCAAGCGGCTGACCGAGCAGCGGGGAGAGCTGAAGCCCAAGAAGGACCACTTTACATGGATC

GAGCCTTTCCAGGGCAATTCCTACTTCAGCGTGCAGGGCCAGAAGGGCGTGATCGGAGAGGAGCAGCTCAAGGAG

CTGTGCTACGTGCTGCTGGTGGCCCGGGAGGACTTCAGAGCCGTGGAGGGCAAGGTGACCCAGTTCCTGAAGAAG

TTCCAGAATGCCAATAACGTGCAGCAGGTGGAGAAGGACGAGGTGCTGGAAAAGGAGTACTTCCCCGCCAACTAC

TTTGAGAACCGGGACGTGGGAAGAGTCAAGGACAAGATCCTGAACAGACTGAAGAAGATCACCGAGAGTTATAAG

GCCAAGGGTAGAGAGGTGAAGGCCTACGACAAGATGAAGGAAGTGATGGAGTTCATCAACAACTGCCTGCCCACC

GATGAAAACCTGAAGCTGAAGGACTACCGGCGGTACCTGAAGATGGTGAGATTCTGGGGCAGAGAGAAGGAAAAC

ATCAAGCGGGAGTTCGACTCCAAGAAGTGGGAGCGCTTTCTCCCCCGGGAGCTGTGGCAGAAGAGAAACCTGGAG

GACGCCTACCAGCTCGCCAAGGAGAAGAACACAGAGCTGTTCAACAAGCTGAAGACCACCGTGGAGAGAATGAAC

GAACTGGAGTTCGAGAAGTACCAGCAGATCAATGACGCCAAGGACCTGGCCAACCTGAGACAGCTGGCCAGAGAC

TTTGGAGTGAAGTGGGAGGAAAAGGACTGGCAGGAATACTCTGGACAGATCAAGAAGCAGATCACCGACCGGCAG

AAGCTGACCATCATGAAGCAGCGGATCACCGCCGCCCTGAAGAAGAAGCAGGGAATCGAAAACCTGAACCTGAGA

ATCACAACAGATACGAATAAGAGCAGGAAGGTGGTGCTGAACCGGATCGCACTGCCCAAGGGATTCGTCAGAAAG

CACATCCTGAAGACCGACATCAAGATCAGCAAGCAGATCCGGCAGAGCCAGTGCCCTATCATCCTGTCTAACAAC

TACATGAAGCTGGCCAAGGAGTTCTTTGAAGAGCGGAACTTCGATAAGATGACCCAGATCAATGGCCTGTTCGAG

AAGAACGTGCTGATCGCCTTCATGATCGTGTACCTGATGGAGCAGCTGAACCTGAGACTGGGCAAGAACACCGAG

CTGTCCAACCTGAAGAAGACCGAGGTGAACTTTACCATCACCGACAAGGTGACCGAGAAGGTGCAAATCTCCCAG

TACCCCAGCCTGGTGTTCGCCATTAACCGGGAGTACGTGGACGGCATCAGCGGCTACAAGCTGCCCCCCAAGAAG

CCCAAGGAACCTCCCTACACCTTCTTCGAAAAGATCGACGCCATCGAAAAGGAGCGGATGGAATTCATCAAGCAG

GTGCTGGGCTTCGAGGAGCACCTCTTCGAAAAGAACGTGATCGACAAGACCCGGTTTACCGACACCGCCACCCAC

ATCAGCTTCAATGAGATCTGCGATGAGCTGATCAAGAAGGGCTGGGACGAAAACAAGATCATCAAGCTGAAGGAT

GCACGGAACGCTGCCCTGCACGGCAAGATCCCTGAAGATACCTCCTTTGACGAAGCCAAGGTGCTGATCAACGAACTGAAGAAGTAA(SEQ ID NO:28)

图1显示了七种CRISPR/Cas13e和Cas13f基因座结构。

使用RNAfold对pre-crRNA中的七个DR序列的RNA二级结构进行了进一步分析。图2显示了结果。很明显，全部都共享了非常保守的二级结构。

例如，在Cas13e家族中，每个DR序列形成由以下组成的二级结构：4碱基对茎(5'-GCUG-3')、随后是5+5个核苷酸的对称的凸起(不包括4个茎核苷酸)、进一步地随后是5碱基对茎(5’-GCC C/U C-3’)和末端8碱基环(5'-CGAUUUGU-3'，不包括2个茎核苷酸)。

同样地，在Cas13f家族中，除了一个例外(Cas13f.4)，每个DR序列形成由以下组成的二级结构：5碱基对茎(5’GCUGU3’)、随后是5+4个核苷酸的接近对称的凸起(不包括4个茎核苷酸)、进一步地随后是6碱基对茎(5’A/G CCUCG3’)和末端5碱基环(5’AUUUG3’，不包括2个茎核苷酸)。唯一的例外是Cas13f.4的DR，其中第二茎短1个碱基对，并在第一凸起处添加了2个额外的碱基以形成大致对称的6+5凸起。

使用MAFFT对Cas13e和Cas13f蛋白以及先前鉴定的Cas13a、Cas13b、Cas13c和Cas13d家族蛋白进行的多序列比对揭示了Cas13e和Cas13f蛋白与Cas13b蛋白在系统发育树上相对最接近(图3)。

此外，在RXXXXH基序相对于Cas蛋白的N-末端和C-末端的位置方面，与Cas13a、Cas13c和Cas13d相比，Cas13e和Cas13f蛋白以及Cas13b蛋白(在较小程度上)具有更接近它们的N-末端和C-末端的RXXXXH基序(参见图4)。

然后使用了I-TASSER预测Cas13e蛋白的3D结构，随后使用PyMOL对预测结构进行可视化。尽管两个RXXXXH基序非常接近Cas13e.1的N-末端和C-末端，但它们在3D结构中非常接近(图5)。

实施例2Cas13e是效应RNA酶

为了确认新鉴定的Cas13e蛋白是在CRISPR/Cas系统中发挥作用的有效RNA酶，将Cas13e.1编码序列经密码子优化用于人表达(SEQ ID NO:22)，并克隆到具有GFP基因的第一质粒中。同时，将靶向报告基因(mCherry)mRNA的指导RNA(gRNA)的编码序列克隆到具有GFP基因的第二质粒中。gRNA由侧翼为Cas13e.1的两个同向重复序列的间隔编码区(SEQ IDNO:29)组成。GFP和mCherry报告基因的序列分别为SEQ ID NO:30-31。

GCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGCGGTCTTCGATATTCAAGCGTCGGAAGACCTGCTGGAGCA GCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:29)

ATGGTGAGCAAGGGCGAGGAGGATAACATGGCCATCATCAAGGAGTTCATGCGCTTCAAGGTGCACATGGAGGGC

TCCGTGAACGGCCACGAGTTCGAGATCGAGGGCGAGGGCGAGGGCCGCCCCTACGAGGGCACCCAGACCGCCAAG

CTGAAGGTGACCAAGGGTGGCCCCCTGCCCTTCGCCTGGGACATCCTGTCCCCTCAGTTCATGTACGGCTCCAAG

GCCTACGTGAAGCACCCCGCCGACATCCCCGACTACTTGAAGCTGTCCTTCCCCGAGGGCTTCAAGTGGGAGCGC

GTGATGAACTTCGAGGACGGCGGCGTGGTGACCGTGACCCAGGACTCCTCCCTGCAGGACGGCGAGTTCATCTAC

AAGGTGAAGCTGCGCGGCACCAACTTCCCCTCCGACGGCCCCGTAATGCAGAAGAAGACCATGGGCTGGGAGGCC

TCCTCCGAGCGGATGTACCCCGAGGACGGCGCCCTGAAGGGCGAGATCAAGCAGAGGCTGAAGCTGAAGGACGGC

GGCCACTACGACGCTGAGGTCAAGACCACCTACAAGGCCAAGAAGCCCGTGCAGCTGCCCGGCGCCTACAACGTC

AACATCAAGTTGGACATCACCTCCCACAACGAGGACTACACCATCGTGGAACAGTACGAACGCGCCGAGGGCCGCCACTCCACCGGCGGCATGGACGAGCTGTACAAGTAA(SEQ ID NO:30)

ATGGTGAGCAAGGGCGAGGAGCTGTTCACCGGGGTGGTGCCCATCCTGGTCGAGCTGGACGGCGACGTAAACGGC

CACAAGTTCAGCGTGTCCGGCGAGGGCGAGGGCGATGCCACCTACGGCAAGCTGACCCTGAAGTTCATCTGCACC

ACCGGCAAGCTGCCCGTGCCCTGGCCCACCCTCGTGACCACCCTGACCTACGGCGTGCAGTGCTTCAGCCGCTAC

CCCGACCACATGAAGCAGCACGACTTCTTCAAGTCCGCCATGCCCGAAGGCTACGTCCAGGAGCGCACCATCTTC

TTCAAGGACGACGGCAACTACAAGACCCGCGCCGAGGTGAAGTTCGAGGGCGACACCCTGGTGAACCGCATCGAG

CTGAAGGGCATCGACTTCAAGGAGGACGGCAACATCCTGGGGCACAAGCTGGAGTACAACTACAACAGCCACAAC

GTCTATATCATGGCCGACAAGCAGAAGAACGGCATCAAGGTGAACTTCAAGATCCGCCACAACATCGAGGACGGC

AGCGTGCAGCTCGCCGACCACTACCAGCAGAACACCCCCATCGGCGACGGCCCCGTGCTGCTGCCCGACAACCAC

TACCTGAGCACCCAGTCCGCCCTGAGCAAAGACCCCAACGAGAAGCGCGATCACATGGTCCTGCTGGAGTTCGTGACCGCCGCCGGGATCACTCTCGGCATGGACGAGCTGTACAAGTGA(SEQ ID NO:31)

将HEK293T细胞按照标准方案在24孔组织培养板中培养，并用于使用

3000和P3000^TM试剂进行的三重质粒转染，以引入分别编码Cas13e.1蛋白、靶向mCherry的gRNA、和mCherry编码序列的三种质粒。在阴性对照实验中，没有使用编码靶向mCherry的gRNA的质粒，而是使用了编码非靶标gRNA的对照质粒。Cas13e.1和gRNA质粒中存在GFP编码序列，因此GFP的表达可用作转染成功/效率的内部对照。参见图6中的示意图。然后将经转染的HEK293T细胞在37℃、5％ CO₂下孵育约24小时，然后在荧光显微镜下对细胞进行检查。

如图7所示，经靶向mCherry的gRNA转染的细胞和经对照非靶向(NT)gRNA转染的细胞在明场显微镜下具有等同的生长和形态，并且两者中的GFP表达大致等同。然而，基于流式细胞术分析，来自mCherry表达的RFP信号显著降低了高达75％(图8)。这表明Cas13e可以利用靶向mCherry的gRNA有效地敲低mCherry mRNA水平，从而敲低mCherry蛋白表达。

实施例3Cas13e的sgRNA的有效方向

由于Cas13e系统理论上可以利用DR+间隔子(5'DR)或间隔子+DR(3'DR)取向，本实验旨在确定Cas13e使用的正确取向。

使用与实施例2中类似的三重转染实验设置，发现只有3'DR取向(间隔子+DR)支持显著的mCherry敲低。这表明Cas13e使用其crRNA，所述crRNA具有在间隔子的3'端的DR序列。参见图9。

DR+间隔子(5’DR)和间隔子+DR(3’DR)的sgRNA分别为SEQ ID NO:32和33。

GCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGCGGTCTTCGATATTCAAGCGTCGGAAGACCT(SEQ ID NO:32)

GGTCTTCGATATTCAAGCGTCGGAAGACCTGCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:33)

实施例4间隔序列长度对Cas13e.1的特异性活性和附带活性的影响

为了研究间隔序列长度对Cas13e.1的特异性活性和附带活性的影响，设计了一组靶向mCherry报告基因的sgRNA，间隔序列长度为20nt、25nt、30nt、35nt、40nt、45nt或50nt(SEQ ID NO:34-40)。

TTGGTGCCGCGCAGCTTCAC(SEQ ID NO:34)

TTGGTGCCGCGCAGCTTCACCTTGT(SEQ ID NO:35)

TTGGTGCCGCGCAGCTTCACCTTGTAGATG(SEQ ID NO:36)

TTGGTGCCGCGCAGCTTCACCTTGTAGATGAACTC(SEQ ID NO:37)

TTGGTGCCGCGCAGCTTCACCTTGTAGATGAACTCGCCGT(SEQ ID NO:38)

TTGGTGCCGCGCAGCTTCACCTTGTAGATGAACTCGCCGTCCTGC(SEQ ID NO:39)

TTGGTGCCGCGCAGCTTCACCTTGTAGATGAACTCGCCGTCCTGCAGGGA(SEQ ID NO:40)

使用与实施例2中类似的三重转染实验设置，通过流式细胞术分析了mCherry和GFP基因的敲低效率。

mCherry和GFP敲低实验的结果分别显示了Cas13e.1的特异性活性和非特异性活性(附带活性)。发现间隔子长度在约30nt至约50nt之间的Cas13e.1具有高特异性活性。参见图10。同时，当间隔子长度为约30nt时，Cas13e.1具有最高的非特异性活性。参见图11。

实施例5使用dCas13e.1-ADAR2DD融合物进行的单碱基RNA编辑

为了测试Cas13e是否可用于RNA单碱基编辑，通过对两个RXXXXH基序进行突变以消除RNA酶活性来生成dCas13e.1。然后将具有E488Q和T375G双突变的高保真ADAR2DD突变体与dCas13e.1的(C-末端)融合，以创建命名为dCas13e.1-ADAR2DD的推定A至G单碱基RNA编辑子。参见SEQ ID NO:41中的编码序列。

ATGCCCAAGAAGAAGCGGAAGGTGGCCCAGGTGAGCAAGCAGACCTCCAAGAAGAGGGAGCTGAGCATCGACGAG

TACCAGGGCGCCCGGAAGTGGTGCTTCACCATTGCCTTCAACAAGGCCCTGGTGAACCGGGACAAGAACGACGGC

CTGTTCGTGGAAAGCCTGCTGAGACACGAGAAGTACAGCAAGCACGACTGGTACGACGAAGATACCCGGGCCCTG

ATCAAGTGCAGCACCCAGGCCGCCAACGCCAAGGCTGAAGCCCTGGCGAACTACTTCAGTGCTTACCGGCATAGC

CCTGGCTGCCTGACCTTCACCGCCGAGGACGAACTGCGGACCATCATGGAGAGAGCCTATGAGCGGGCCATCTTC

GAGTGCAGAAGAAGAGAGACAGAGGTGATCATCGAGTTTCCCAGCCTGTTCGAGGGCGACCGGATCACCACCGCC

GGCGTGGTGTTTTTCGTGAGCTTTTTCGTGGAAAGAAGAGTGCTGGATCGGCTGTATGGAGCCGTGTCCGGCCTG

AAGAAGAATGAGGGACAGTACAAGCTGACCCGGAAGGCCCTGAGCATGTACTGCCTGAAGGACAGCAGATTCACC

AAGGCCTGGGATAAGCGGGTGCTGCTGTTCAGAGACATCCTGGCCCAGCTGGGAAGAATCCCCGCCGAGGCCTAC

GAGTACTACCACGGCGAGCAGGGTGATAAGAAGAGAGCTAACGACAATGAGGGCACAAATCCCAAGCGGCACAAG

GACAAGTTCATCGAATTTGCACTGCACTACCTGGAAGCCCAGCACAGCGAGATCTGCTTCGGCAGACGCCACATC

GTGCGGGAAGAGGCCGGCGCCGGCGATGAGCACAAGAAGCACCGGACCAAGGGAAAGGTGGTGGTGGACTTCAGC

AAGAAGGACGAGGACCAGAGCTACTATATCTCCAAGAACAACGTGATCGTGCGGATCGACAAGAACGCCGGCCCT

AGAAGCTACCGGATGGGCCTGAACGAGCTGAAGTACCTCGTGCTGCTGAGCCTGCAGGGGAAGGGCGACGATGCC

ATCGCCAAGCTGTACAGATACAGACAGCACGTGGAGAACATCCTGGATGTGGTGAAGGTGACCGATAAGGATAAC

CACGTGTTCCTGCCCCGCTTCGTGCTGGAGCAGCACGGCATCGGCAGAAAGGCCTTCAAGCAGCGGATCGATGGA

CGGGTGAAGCACGTGCGGGGCGTGTGGGAGAAGAAGAAGGCCGCCACCAATGAAATGACCCTGCACGAGAAGGCC

AGAGACATCCTGCAGTACGTGAACGAAAACTGCACCCGGTCCTTCAACCCTGGCGAATACAACAGACTGCTGGTG

TGCCTGGTGGGCAAGGACGTGGAGAACTTTCAGGCCGGCCTGAAGCGGCTGCAGCTGGCCGAAAGGATCGATGGC

CGGGTGTACTCCATCTTCGCCCAGACCAGCACCATCAATGAGATGCACCAGGTGGTGTGCGACCAGATCCTGAAC

CGGCTGTGCAGAATCGGCGACCAGAAGCTGTACGATTACGTGGGACTGGGCAAGAAGGACGAAATCGACTACAAG

CAGAAGGTGGCCTGGTTCAAGGAGCACATCAGCATCCGGAGAGGATTCCTGAGAAAGAAGTTCTGGTACGATAGC

AAGAAGGGATTCGCAAAGCTGGTGGAGGAACACCTGGAGTCCGGCGGCGGCCAGCGCGACGTGGGCCTGGACAAG

AAGTACTACCACATCGACGCCATCGGCAGATTCGAGGGCGCCAACCCCGCCCTGTACGAGACCCTGGCCAGAGAT

CGGCTGTGCCTCATGATGGCCCAGTACTTCCTGGGCAGCGTGAGAAAGGAACTGGGCAACAAGATTGTGTGGAGC

AACGACAGCATCGAACTGCCTGTGGAAGGCTCTGTGGGAAATGAGAAGAGCATCGTGTTCTCCGTGTCTGACTAC

GGCAAGCTGTACGTGCTGGACGATGCCGAATTCCTGGGCCGGATCTGCGAATACTTCATGCCCCACGAAAAGGGC

AAGATCCGGTACCACACAGTGTACGAAAAGGGCTTTAGAGCATACAACGACCTGCAGAAGAAGTGCGTGGAGGCC

GTGCTGGCTTTCGAAGAGAAGGTGGTGAAGGCCAAGAAGATGAGCGAGAAGGAAGGCGCCCACTACATCGACTTC

CGGGAGATCCTGGCCCAGACCATGTGCAAGGAGGCCGAGAAGACCGCAGTGAACAAGGTGGCGGCTGCCTTCTTC

GCTGCGCACCTGAAGTTCGTGATTGACGAGTTCGGCCTGTTCAGCGACGTGATGAAGAAGTACGGCATCGAGAAG

GAATGGAAGTTCCCTGTCAAGCCCAAGAAGAAGCGGAAGGTGGGTGGAGGCGGAGGTTCTGGGGGAGGAGGTAGT

GGCGGTGGTGGTTCAGGAGGCGGCGGAAGCCAGCTGCATTTACCGCAGGTTTTAGCTGACGCTGTCTCACGCCTG

GTCCTGGGTAAGTTTGGTGACCTGACCGACAACTTCTCCTCCCCTCACGCTCGCAGAAAAGTGCTGGCTGGAGTC

GTCATGACAACAGGCACAGATGTTAAAGATGCCAAGGTGATAAGTGTTTCTACAGGAGGCAAATGTATTAATGGT

GAATACATGAGTGATCGTGGCCTTGCATTAAATGACTGCCATGCAGAAATAATATCTCGGAGATCCTTGCTCAGA

TTTCTTTATACACAACTTGAGCTTTACTTAAATAACAAAGATGATCAAAAAAGATCCATCTTTCAGAAATCAGAG

CGAGGGGGGTTTAGGCTGAAGGAGAATGTCCAGTTTCATCTGTACATCAGCACCTCTCCCTGTGGAGATGCCAGA

ATCTTCTCACCACATGAGCCAATCCTGGAAGAACCAGCAGATAGACACCCAAATCGTAAAGCAAGAGGACAGCTA

CGGACCAAAATAGAGTCTGGTCAGGGGACGATTCCAGTGCGCTCCAATGCGAGCATCCAAACGTGGGACGGGGTG

CTGCAAGGGGAGCGGCTGCTCACCATGTCCTGCAGTGACAAGATTGCACGCTGGAACGTGGTGGGCATCCAGGGA

TCACTGCTCAGCATTTTCGTGGAGCCCATTTACTTCTCGAGCATCATCCTGGGCAGCCTTTACCACGGGGACCAC

CTTTCCAGGGCCATGTACCAGCGGATCTCCAACATAGAGGACCTGCCACCTCTCTACACCCTCAACAAGCCTTTG

CTCAGTGGCATCAGCAATGCAGAAGCACGGCAGCCAGGGAAGGCCCCCAACTTCAGTGTCAACTGGACGGTAGGC

GACTCCGCTATTGAGGTCATCAACGCCACGACTGGGAAGGATGAGCTGGGCCGCGCGTCCCGCCTGTGTAAGCAC

GCGTTGTACTGTCGCTGGATGCGTGTGCACGGCAAGGTTCCCTCCCACTTACTACGCTCCAAGATTACCAAGCCC

AACGTGTACCATGAGTCCAAGCTGGCGGCAAAGGAGTACCAGGCCGCCAAGGCGCGTCTGTTCACAGCCTTCATC

AAGGCGGGGCTGGGGGCCTGGGTGGAGAAGCCCACCGAGCAGGACCAGTTCTCACTCACGTACCCATACGACGTACCAGATTACGCTTAA(SEQ ID NO:41)

为了用作推定RNA碱基编辑子的靶标，野生型mCherry编码序列经突变以产生提前终止密码子TAG(参见SEQ ID NO:42中的粗体且加双下划线的序列)，使得在没有通过RNA碱基编辑子将A校正为G的情况下不会产生功能性mCherry蛋白。参见图12和14。然后设计gRNA以实现所希望的A至G编辑(图12和14)，并且使用标准方案将编码dCas13e.1-ADAR2DD碱基编辑子的CX530质粒、编码sgRNA的CX537/Cx538质粒、和编码突变mCherry基因的CX337质粒三重转染到HEK293T细胞中。将经转染的HEK293T细胞在37℃、5％CO₂下孵育24小时，然后使细胞经受流式细胞术以分离具有校正的mCherry mRNA并表达mCherry蛋白的细胞。参见说明性图——图12。图13显示了流式细胞术分析的结果。

很明显，gRNA-1(SEQ ID NO:43)和gRNA-2(SEQ ID NO:44)两者都成功地校正了TAG提前终止密码子以生成功能性mCherry蛋白。

caagtagtcggggatgtcggcggggtgcttcacCtaggccttggagccgtGCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:43)

cggggatgtcggcggggtgcttcacCtaggccttggagccgtacatgaacGCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:44)

实施例6使用缩短的dCas13e.1-ADAR2DD融合物进行的单碱基RNA编辑

为了确定可用于RNA单碱基编辑的dCas13e.1的最小尺寸，生成了一系列五种表达dCas13e.1的渐进增大的C-末端缺失的构建体，每个构建体的C-末端减少30个残基(即，30个、60个、90个、120个和150个残基缺失)。所得的构建体用于创建在各自的C-末端处与高保真adar2(ADAR2DD)融合的dCas13e.1的编码序列。将这些构建体克隆到Vysz15(“V15”)至Vysz-19(“V19”)质粒中(图15)，用于与实施例4中的实验类似的实验。在所有这些构建体中，融合蛋白从CMV启动子(pCMV)和增强子(eCMV)表达，并且紧接进一步增强蛋白表达的内含子的下游。两个核定位序列(NLS)位于融合物的dCas13e.1部分的N-末端和C-末端处，并且ADAR2结构域(如ADAR2DD)通过NLS接头与C-末端NLS融合，并由HA标签在C-末端处加标签。在EFS启动子(pEFS)独立控制下的EGFP编码序列存在于所有质粒的聚A添加序列的下游。

有趣的是，发现渐进C-末端缺失稳定地增加了融合编辑子中的RNA碱基编辑活性，使得具有150个C-末端残基缺失的编辑子(在V19中)展现了最高的碱基编辑活性。参见图16。然而，C-末端缺失180个残基似乎已经消除了碱基编辑活性，这表明Cas13e.1的C-末端的最大/最佳缺失可能在150-180个残基之间。

基于这一发现，针对具有150个C-末端残基缺失的dCas13e.1生成了一系列N-末端缺失突变体。生成了七个这样的N-末端缺失突变体，分别具有30个、60个、90个、120个、150个、180个和210个残基缺失。参见图17。图18中的结果显示出在以下突变体中观察到最好的RNA编辑活性：所述突变体具有180个N-末端残基缺失和150个C-末端残基缺失，即从775个残基的Cas13e.1蛋白中总共缺失330个残基，以产生用于生成ADAR2DD融合物的445个残基的最佳dCas13e.1。

实施例7使用不同的Cas13蛋白进行的哺乳动物内源性mRNA敲低效率比较

该实验表明，Cas13e和Cas13f蛋白(尤其是Cas13f.1)高效敲低了哺乳动物内源性靶mRNA，比先前鉴定出的Cas13蛋白好。

特别地，构建了五种质粒，每种质粒表达Cas13蛋白中的一种，所述Cas13蛋白即Cas13e.1(SEQ ID NO:22)、Cas13f.1(SEQ ID NO:24)、LwaCas13a(SEQ IDNO:45)、PspCas13b(SEQ ID NO:46)、和RxCas13d(SEQ ID NO:47)。每种质粒还编码了mCherry报告基因，以及侧翼为两个天然DR序列的各个Cas13蛋白的sgRNA/crRNA编码序列。这些sgRNA设计为具有靶向ANXA4 mRNA的间隔序列。参见SEQ ID NO:48-50。作为阴性对照，构建了5种额外的质粒，每种质粒编码非靶向sgRNA/crRNA，而不是靶向ANXA4的sgRNA/crRNA(“对照NT构建体”)。参见图19。

ATGCCCAAGAAGAAGCGGAAGGTGGGATCCATGAAAGTGACCAAGGTCGATGGCATCAGCCACAAGAAGTACATC

GAAGAGGGCAAGCTCGTGAAGTCCACCAGCGAGGAAAACCGGACCAGCGAGAGACTGAGCGAGCTGCTGAGCATC

CGGCTGGACATCTACATCAAGAACCCCGACAACGCCTCCGAGGAAGAGAACCGGATCAGAAGAGAGAACCTGAAG

AAGTTCTTTAGCAACAAGGTGCTGCACCTGAAGGACAGCGTGCTGTATCTGAAGAACCGGAAAGAAAAGAACGCC

GTGCAGGACAAGAACTATAGCGAAGAGGACATCAGCGAGTACGACCTGAAAAACAAGAACAGCTTCTCCGTGCTG

AAGAAGATCCTGCTGAACGAGGACGTGAACTCTGAGGAACTGGAAATCTTTCGGAAGGACGTGGAAGCCAAGCTG

AACAAGATCAACAGCCTGAAGTACAGCTTCGAAGAGAACAAGGCCAACTACCAGAAGATCAACGAGAACAACGTG

GAAAAAGTGGGCGGCAAGAGCAAGCGGAACATCATCTACGACTACTACAGAGAGAGCGCCAAGCGCAACGACTAC

ATCAACAACGTGCAGGAAGCCTTCGACAAGCTGTATAAGAAAGAGGATATCGAGAAACTGTTTTTCCTGATCGAG

AACAGCAAGAAGCACGAGAAGTACAAGATCCGCGAGTACTATCACAAGATCATCGGCCGGAAGAACGACAAAGAG

AACTTCGCCAAGATTATCTACGAAGAGATCCAGAACGTGAACAACATCAAAGAGCTGATTGAGAAGATCCCCGAC

ATGTCTGAGCTGAAGAAAAGCCAGGTGTTCTACAAGTACTACCTGGACAAAGAGGAACTGAACGACAAGAATATT

AAGTACGCCTTCTGCCACTTCGTGGAAATCGAGATGTCCCAGCTGCTGAAAAACTACGTGTACAAGCGGCTGAGC

AACATCAGCAACGATAAGATCAAGCGGATCTTCGAGTACCAGAATCTGAAAAAGCTGATCGAAAACAAACTGCTG

AACAAGCTGGACACCTACGTGCGGAACTGCGGCAAGTACAACTACTATCTGCAAGTGGGCGAGATCGCCACCTCC

GACTTTATCGCCCGGAACCGGCAGAACGAGGCCTTCCTGAGAAACATCATCGGCGTGTCCAGCGTGGCCTACTTC

AGCCTGAGGAACATCCTGGAAACCGAGAACGAGAACGATATCACCGGCCGGATGCGGGGCAAGACCGTGAAGAAC

AACAAGGGCGAAGAGAAATACGTGTCCGGCGAGGTGGACAAGATCTACAATGAGAACAAGCAGAACGAAGTGAAA

GAAAATCTGAAGATGTTCTACAGCTACGACTTCAACATGGACAACAAGAACGAGATCGAGGACTTCTTCGCCAAC

ATCGACGAGGCCATCAGCAGCATCAGACACGGCATCGTGCACTTCAACCTGGAACTGGAAGGCAAGGACATCTTC

GCCTTCAAGAATATCGCCCCCAGCGAGATCTCCAAGAAGATGTTTCAGAACGAAATCAACGAAAAGAAGCTGAAG

CTGAAAATCTTCAAGCAGCTGAACAGCGCCAACGTGTTCAACTACTACGAGAAGGATGTGATCATCAAGTACCTG

AAGAATACCAAGTTCAACTTCGTGAACAAAAACATCCCCTTCGTGCCCAGCTTCACCAAGCTGTACAACAAGATT

GAGGACCTGCGGAATACCCTGAAGTTTTTTTGGAGCGTGCCCAAGGACAAAGAAGAGAAGGACGCCCAGATCTAC

CTGCTGAAGAATATCTACTACGGCGAGTTCCTGAACAAGTTCGTGAAAAACTCCAAGGTGTTCTTTAAGATCACC

AATGAAGTGATCAAGATTAACAAGCAGCGGAACCAGAAAACCGGCCACTACAAGTATCAGAAGTTCGAGAACATC

GAGAAAACCGTGCCCGTGGAATACCTGGCCATCATCCAGAGCAGAGAGATGATCAACAACCAGGACAAAGAGGAA

AAGAATACCTACATCGACTTTATTCAGCAGATTTTCCTGAAGGGCTTCATCGACTACCTGAACAAGAACAATCTG

AAGTATATCGAGAGCAACAACAACAATGACAACAACGACATCTTCTCCAAGATCAAGATCAAAAAGGATAACAAA

GAGAAGTACGACAAGATCCTGAAGAACTATGAGAAGCACAATCGGAACAAAGAAATCCCTCACGAGATCAATGAG

TTCGTGCGCGAGATCAAGCTGGGGAAGATTCTGAAGTACACCGAGAATCTGAACATGTTTTACCTGATCCTGAAG

CTGCTGAACCACAAAGAGCTGACCAACCTGAAGGGCAGCCTGGAAAAGTACCAGTCCGCCAACAAAGAAGAAACC

TTCAGCGACGAGCTGGAACTGATCAACCTGCTGAACCTGGACAACAACAGAGTGACCGAGGACTTCGAGCTGGAA

GCCAACGAGATCGGCAAGTTCCTGGACTTCAACGAAAACAAAATCAAGGACCGGAAAGAGCTGAAAAAGTTCGAC

ACCAACAAGATCTATTTCGACGGCGAGAACATCATCAAGCACCGGGCCTTCTACAATATCAAGAAATACGGCATG

CTGAATCTGCTGGAAAAGATCGCCGATAAGGCCAAGTATAAGATCAGCCTGAAAGAACTGAAAGAGTACAGCAAC

AAGAAGAATGAGATTGAAAAGAACTACACCATGCAGCAGAACCTGCACCGGAAGTACGCCAGACCCAAGAAGGAC

GAAAAGTTCAACGACGAGGACTACAAAGAGTATGAGAAGGCCATCGGCAACATCCAGAAGTACACCCACCTGAAG

AACAAGGTGGAATTCAATGAGCTGAACCTGCTGCAGGGCCTGCTGCTGAAGATCCTGCACCGGCTCGTGGGCTAC

ACCAGCATCTGGGAGCGGGACCTGAGATTCCGGCTGAAGGGCGAGTTTCCCGAGAACCACTACATCGAGGAAATT

TTCAATTTCGACAACTCCAAGAATGTGAAGTACAAAAGCGGCCAGATCGTGGAAAAGTATATCAACTTCTACAAA

GAACTGTACAAGGACAATGTGGAAAAGCGGAGCATCTACTCCGACAAGAAAGTGAAGAAACTGAAGCAGGAAAAA

AAGGACCTGTACATCCGGAACTACATTGCCCACTTCAACTACATCCCCCACGCCGAGATTAGCCTGCTGGAAGTG

CTGGAAAACCTGCGGAAGCTGCTGTCCTACGACCGGAAGCTGAAGAACGCCATCATGAAGTCCATCGTGGACATT

CTGAAAGAATACGGCTTCGTGGCCACCTTCAAGATCGGCGCTGACAAGAAGATCGAAATCCAGACCCTGGAATCA

GAGAAGATCGTGCACCTGAAGAATCTGAAGAAAAAGAAACTGATGACCGACCGGAACAGCGAGGAACTGTGCGAACTCGTGAAAGTCATGTTCGAGTACAAGGCCCTGGAATGA(SEQ ID NO:45)

ATGCCCAAGAAGAAGCGGAAGGTGGTCGACAACATCCCCGCTCTGGTGGAAAACCAGAAGAAGTACTTTGGCACC

TACAGCGTGATGGCCATGCTGAACGCTCAGACCGTGCTGGACCACATCCAGAAGGTGGCCGATATTGAGGGCGAG

CAGAACGAGAACAACGAGAATCTGTGGTTTCACCCCGTGATGAGCCACCTGTACAACGCCAAGAACGGCTACGAC

AAGCAGCCCGAGAAAACCATGTTCATCATCGAGCGGCTGCAGAGCTACTTCCCATTCCTGAAGATCATGGCCGAG

AACCAGAGAGAGTACAGCAACGGCAAGTACAAGCAGAACCGCGTGGAAGTGAACAGCAACGACATCTTCGAGGTG

CTGAAGCGCGCCTTCGGCGTGCTGAAGATGTACAGGGACCTGACCAACCACTACAAGACCTACGAGGAAAAGCTG

AACGACGGCTGCGAGTTCCTGACCAGCACAGAGCAACCTCTGAGCGGCATGATCAACAACTACTACACAGTGGCC

CTGCGGAACATGAACGAGAGATACGGCTACAAGACAGAGGACCTGGCCTTCATCCAGGACAAGCGGTTCAAGTTC

GTGAAGGACGCCTACGGCAAGAAAAAGTCCCAAGTGAATACCGGATTCTTCCTGAGCCTGCAGGACTACAACGGC

GACACACAGAAGAAGCTGCACCTGAGCGGAGTGGGAATCGCCCTGCTGATCTGCCTGTTCCTGGACAAGCAGTAC

ATCAACATCTTTCTGAGCAGGCTGCCCATCTTCTCCAGCTACAATGCCCAGAGCGAGGAACGGCGGATCATCATC

AGATCCTTCGGCATCAACAGCATCAAGCTGCCCAAGGACCGGATCCACAGCGAGAAGTCCAACAAGAGCGTGGCC

ATGGATATGCTCAACGAAGTGAAGCGGTGCCCCGACGAGCTGTTCACAACACTGTCTGCCGAGAAGCAGTCCCGG

TTCAGAATCATCAGCGACGACCACAATGAAGTGCTGATGAAGCGGAGCAGCGACAGATTCGTGCCTCTGCTGCTG

CAGTATATCGATTACGGCAAGCTGTTCGACCACATCAGGTTCCACGTGAACATGGGCAAGCTGAGATACCTGCTG

AAGGCCGACAAGACCTGCATCGACGGCCAGACCAGAGTCAGAGTGATCGAGCAGCCCCTGAACGGCTTCGGCAGA

CTGGAAGAGGCCGAGACAATGCGGAAGCAAGAGAACGGCACCTTCGGCAACAGCGGCATCCGGATCAGAGACTTC

GAGAACATGAAGCGGGACGACGCCAATCCTGCCAACTATCCCTACATCGTGGACACCTACACACACTACATCCTG

GAAAACAACAAGGTCGAGATGTTTATCAACGACAAAGAGGACAGCGCCCCACTGCTGCCCGTGATCGAGGATGAT

AGATACGTGGTCAAGACAATCCCCAGCTGCCGGATGAGCACCCTGGAAATTCCAGCCATGGCCTTCCACATGTTT

CTGTTCGGCAGCAAGAAAACCGAGAAGCTGATCGTGGACGTGCACAACCGGTACAAGAGACTGTTCCAGGCCATG

CAGAAAGAAGAAGTGACCGCCGAGAATATCGCCAGCTTCGGAATCGCCGAGAGCGACCTGCCTCAGAAGATCCTG

GATCTGATCAGCGGCAATGCCCACGGCAAGGATGTGGACGCCTTCATCAGACTGACCGTGGACGACATGCTGACC

GACACCGAGCGGAGAATCAAGAGATTCAAGGACGACCGGAAGTCCATTCGGAGCGCCGACAACAAGATGGGAAAG

AGAGGCTTCAAGCAGATCTCCACAGGCAAGCTGGCCGACTTCCTGGCCAAGGACATCGTGCTGTTTCAGCCCAGC

GTGAACGATGGCGAGAACAAGATCACCGGCCTGAACTACCGGATCATGCAGAGCGCCATTGCCGTGTACGATAGC

GGCGACGATTACGAGGCCAAGCAGCAGTTCAAGCTGATGTTCGAGAAGGCCCGGCTGATCGGCAAGGGCACAACA

GAGCCTCATCCATTTCTGTACAAGGTGTTCGCCCGCAGCATCCCCGCCAATGCCGTCGAGTTCTACGAGCGCTAC

CTGATCGAGCGGAAGTTCTACCTGACCGGCCTGTCCAACGAGATCAAGAAAGGCAACAGAGTGGATGTGCCCTTC

ATCCGGCGGGACCAGAACAAGTGGAAAACACCCGCCATGAAAACCCTGGGCAGAATCTACAGCGAGGATCTGCCC

GTGGAACTGCCCAGACAGATGTTCGACAATGAGATCAAGTCCCACCTGAAGTCCCTGCCACAGATGGAAGGCATC

GACTTCAACAATGCCAACGTGACCTATCTGATCGCCGAGTACATGAAGAGAGTGCTGGACGACGACTTCCAGACC

TTCTACCAGTGGAACCGCAACTACCGGTACATGGACATGCTTAAGGGCGAGTACGACAGAAAGGGCTCCCTGCAG

CACTGCTTCACCAGCGTGGAAGAGAGAGAAGGCCTCTGGAAAGAGCGGGCCTCCAGAACAGAGCGGTACAGAAAG

CAGGCCAGCAACAAGATCCGCAGCAACCGGCAGATGAGAAACGCCAGCAGCGAAGAGATCGAGACAATCCTGGAT

AAGCGGCTGAGCAACAGCCGGAACGAGTACCAGAAAAGCGAGAAAGTGATCCGGCGCTACAGAGTGCAGGATGCC

CTGCTGTTTCTGCTGGCCAAAAAGACCCTGACCGAACTGGCCGATTTCGACGGCGAGAGGTTCAAACTGAAAGAA

ATCATGCCCGACGCCGAGAAGGGAATCCTGAGCGAGATCATGCCCATGAGCTTCACCTTCGAGAAAGGCGGCAAG

AAGTACACCATCACCAGCGAGGGCATGAAGCTGAAGAACTACGGCGACTTCTTTGTGCTGGCTAGCGACAAGAGG

ATCGGCAACCTGCTGGAACTCGTGGGCAGCGACATCGTGTCCAAAGAGGATATCATGGAAGAGTTCAACAAATAC

GACCAGTGCAGGCCCGAGATCAGCTCCATCGTGTTCAACCTGGAAAAGTGGGCCTTCGACACATACCCCGAGCTG

TCTGCCAGAGTGGACCGGGAAGAGAAGGTGGACTTCAAGAGCATCCTGAAAATCCTGCTGAACAACAAGAACATC

AACAAAGAGCAGAGCGACATCCTGCGGAAGATCCGGAACGCCTTCGATCACAACAATTACCCCGACAAAGGCGTG

GTGGAAATCAAGGCCCTGCCTGAGATCGCCATGAGCATCAAGAAGGCCTTTGGGGAGTACGCCATCATGAAGGGATCCCTTCAATGA(SEQ ID NO:46)

ATGCCTAAAAAGAAAAGAAAGGTGGGTTCTGGTATCGAGAAGAAGAAGAGCTTCGCCAAGGGCATGGGAGTGAAG

AGCACCCTGGTGTCCGGCTCTAAGGTGTACATGACCACATTTGCTGAGGGAAGCGACGCCAGGCTGGAGAAGATC

GTGGAGGGCGATAGCATCAGATCCGTGAACGAGGGAGAGGCTTTCAGCGCCGAGATGGCTGACAAGAACGCTGGC

TACAAGATCGGAAACGCCAAGTTTTCCCACCCAAAGGGCTACGCCGTGGTGGCTAACAACCCACTGTACACCGGA

CCAGTGCAGCAGGACATGCTGGGACTGAAGGAGACACTGGAGAAGAGGTACTTCGGCGAGTCCGCCGACGGAAAC

GATAACATCTGCATCCAGGTCATCCACAACATCCTGGATATCGAGAAGATCCTGGCTGAGTACATCACAAACGCC

GCTTACGCCGTGAACAACATCTCCGGCCTGGACAAGGATATCATCGGCTTCGGAAAGTTTTCTACCGTGTACACA

TACGACGAGTTCAAGGATCCAGAGCACCACCGGGCCGCTTTTAACAACAACGACAAGCTGATCAACGCCATCAAG

GCTCAGTACGACGAGTTCGATAACTTTCTGGATAACCCCAGGCTGGGCTACTTCGGACAGGCTTTCTTTTCTAAG

GAGGGCAGAAACTACATCATCAACTACGGAAACGAGTGTTACGACATCCTGGCCCTGCTGAGCGGACTGAGGCAC

TGGGTGGTGCACAACAACGAGGAGGAGTCTCGGATCAGCCGCACCTGGCTGTACAACCTGGACAAGAACCTGGAT

AACGAGTACATCTCCACACTGAACTACCTGTACGACAGGATCACCAACGAGCTGACAAACAGCTTCTCCAAGAAC

TCTGCCGCTAACGTGAACTACATCGCTGAGACCCTGGGCATCAACCCAGCTGAGTTCGCTGAGCAGTACTTCAGA

TTTTCCATCATGAAGGAGCAGAAGAACCTGGGCTTCAACATCACAAAGCTGAGAGAAGTGATGCTGGACAGAAAG

GATATGTCCGAGATCAGGAAGAACCACAAGGTGTTCGATTCTATCAGAACCAAGGTGTACACAATGATGGACTTT

GTGATCTACAGGTACTACATCGAGGAGGATGCCAAGGTGGCCGCTGCCAACAAGAGCCTGCCCGACAACGAGAAG

TCTCTGAGCGAGAAGGATATCTTCGTGATCAACCTGAGAGGCTCCTTTAACGACGATCAGAAGGACGCTCTGTAC

TACGATGAGGCCAACAGGATCTGGAGAAAGCTGGAGAACATCATGCACAACATCAAGGAGTTCCGGGGAAACAAG

ACCCGCGAGTACAAGAAGAAGGACGCTCCAAGGCTGCCTAGGATCCTGCCTGCTGGAAGGGACGTGAGCGCCTTC

AGCAAGCTGATGTACGCCCTGACAATGTTTCTGGACGGAAAGGAGATCAACGATCTGCTGACCACACTGATCAAC

AAGTTCGACAACATCCAGTCTTTTCTGAAAGTGATGCCTCTGATCGGCGTGAACGCTAAGTTCGTGGAGGAGTAC

GCCTTCTTTAAGGACAGCGCCAAGATCGCTGATGAGCTGCGGCTGATCAAGTCCTTTGCCAGGATGGGAGAGCCA

ATCGCTGACGCTAGGAGAGCTATGTACATCGATGCCATCCGGATCCTGGGAACCAACCTGTCTTACGACGAGCTG

AAGGCTCTGGCCGACACCTTCAGCCTGGATGAGAACGGCAACAAGCTGAAGAAGGGCAAGCACGGAATGCGCAAC

TTCATCATCAACAACGTGATCAGCAACAAGCGGTTTCACTACCTGATCAGATACGGCGACCCAGCTCACCTGCAC

GAGATCGCTAAGAACGAGGCCGTGGTGAAGTTCGTGCTGGGACGGATCGCCGATATCCAGAAGAAGCAGGGCCAG

AACGGAAAGAACCAGATCGACCGCTACTACGAGACCTGCATCGGCAAGGATAAGGGAAAGTCCGTGTCTGAGAAG

GTGGACGCTCTGACCAAGATCATCACAGGCATGAACTACGACCAGTTCGATAAGAAGAGATCTGTGATCGAGGAC

ACCGGAAGGGAGAACGCCGAGAGAGAGAAGTTTAAGAAGATCATCAGCCTGTACCTGACAGTGATCTACCACATC

CTGAAGAACATCGTGAACATCAACGCTAGATACGTGATCGGCTTCCACTGCGTGGAGCGCGATGCCCAGCTGTAC

AAGGAGAAGGGATACGACATCAACCTGAAGAAGCTGGAGGAGAAGGGCTTTAGCTCCGTGACCAAGCTGTGCGCT

GGAATCGACGAGACAGCCCCCGACAAGAGGAAGGATGTGGAGAAGGAGATGGCCGAGAGAGCTAAGGAGAGCATC

GACTCCCTGGAGTCTGCTAACCCTAAGCTGTACGCCAACTACATCAAGTACTCCGATGAGAAGAAGGCCGAGGAG

TTCACCAGGCAGATCAACAGAGAGAAGGCCAAGACCGCTCTGAACGCCTACCTGAGGAACACAAAGTGGAACGTG

ATCATCCGGGAGGACCTGCTGCGCATCGATAACAAGACCTGTACACTGTTCCGGAACAAGGCTGTGCACCTGGAG

GTGGCTCGCTACGTGCACGCCTACATCAACGACATCGCCGAGGTGAACTCCTACTTTCAGCTGTACCACTACATC

ATGCAGAGGATCATCATGAACGAGAGATACGAGAAGTCTAGCGGCAAGGTGTCTGAGTACTTCGACGCCGTGAAC

GATGAGAAGAAGTACAACGATAGACTGCTGAAGCTGCTGTGCGTGCCTTTCGGATACTGTATCCCACGGTTTAAG

AACCTGAGCATCGAGGCCCTGTTCGACCGCAACGAGGCTGCCAAGTTTGATAAGGAGAAGAAGAAGGTGAGCGGCAACTCCTGA(SEQ ID NO:47)

ATGGCCCTTCGCAGCTCTTGCACGTCATAC(SEQ ID NO:48)

TTAGGCAGCCCTCATCAGTGCCGGCTCCCT(SEQ ID NO:49)

GGCCAGGATCTCAATTAGGCAGCCCTCATC(SEQ ID NO:50)

如在实施例4中，将五种编码Cas13/sgRNA的质粒转染到HEK293细胞中。在培养24小时后，通过流式细胞术分离表达mCherry的细胞，并使用RT-PCR确定ANXA4 mRNA的表达，以评估与由编码Cas13/NT的质粒转染的对照细胞相比的敲低效率。

图20显示出Cas13b仅具有边缘ANXA4 mRNA敲低，而Cas13e.1、Cas13f.1和Cas13d均具有超过80％的靶ANXA4 mRNA敲低。在它们当中，Cas13e.1似乎具有最强的敲低效率。

Claims

1.一种CRISPR-Cas复合物，所述CRISPR-Cas复合物包含：

(1)RNA指导序列，其包含能够与靶RNA杂交的间隔序列以及在所述间隔序列的3'的同向重复序列；和

(2)Cas，其氨基酸序列如SEQ ID NO:4所示；

其中所述Cas能够(i)与所述RNA指导序列结合，并且(ii)靶向所述靶RNA，

条件是当所述CRISPR-Cas复合物包含所述Cas时，所述间隔序列与天然存在的噬菌体核酸不是100％互补。

2.如权利要求1所述的CRISPR-Cas复合物，其中所述同向重复序列具有与SEQ ID NO:11的二级结构基本相同的二级结构。

3.如权利要求1所述的CRISPR-Cas复合物，其中所述同向重复序列由SEQ ID NO:11编码。

4.如权利要求1-3中任一项所述的CRISPR-Cas复合物，其中所述靶RNA由真核DNA编码。

5.如权利要求1-3中任一项所述的CRISPR-Cas复合物，其中所述间隔序列在15-60个核苷酸之间。

6.如权利要求1-3中任一项所述的CRISPR-Cas复合物，其中所述间隔序列在25-50个核苷酸之间。

7.如权利要求1-3中任一项所述的CRISPR-Cas复合物，其中所述间隔序列为约30个核苷酸。

8.如权利要求1-3中任一项所述的CRISPR-Cas复合物，其中所述间隔序列与所述靶RNA是90％-100％互补。

9.一种修饰靶RNA的方法，所述方法包括使所述靶RNA与如权利要求1-8中任一项所述的CRISPR-Cas复合物接触，其中所述间隔序列与所述靶RNA的至少15个核苷酸互补；其中所述Cas与所述RNA指导序列缔合以形成所述复合物；其中所述复合物与所述靶RNA结合；并且其中在所述复合物与所述靶RNA结合后，所述Cas修饰所述靶RNA。