本申请是申请日为2020年2月28日、申请号为202080097601.2、发明名称为“VI-E型和VI-F型CRISPR-Cas系统及其用途”的发明专利申请的分案申请。
具体实施方式
1.概述
本文描述的本发明提供新型2类VI型Cas效应蛋白,有时在本文中称为Cas13e和Cas13f。本发明的新型Cas13蛋白比先前发现的Cas13效应蛋白(Cas13a-Cas13d)小得多,使得它们可以很容易地与它们的crRNA编码序列一起包装到小容量基因疗法载体(如AAV载体)中。此外,与Cas13a、Cas13b和Cas13d效应蛋白相比,新发现的Cas13e和Cas13f效应蛋白在敲低RNA靶序列方面更有效,并且在RNA单碱基编辑方面更高效,同时在通过基于crRNA的靶识别激活后展现出可忽略不计的非特异性/附带RNA酶活性,除非间隔序列在特定的窄范围内(例如,约30个核苷酸)。因此,这些新的Cas蛋白非常适合基因疗法。
因此,在第一方面,本发明提供Cas13e和Cas13f效应蛋白(如具有SEQ ID NO:1-7的氨基酸序列的那些)、或其直系同源物、同源物、各种衍生物(下文描述)、功能性片段(下文描述),其中所述直系同源物、同源物、衍生物和功能性片段保持SEQ ID NO:1-7的任一种蛋白的至少一种功能。这样的功能包括但不限于结合本发明的指导RNA/crRNA(下文描述)以形成复合物的能力、RNA酶活性、以及在与靶RNA至少部分互补的crRNA的指导下在特定位点处结合并切割所述靶RNA的能力。
在某些实施方式中,本发明的Cas13e或Cas13f效应蛋白可以是:(i)SEQ ID NO:1-7中的任一者;(ii)具有SEQ ID NO:1-7中的任一者的一个或多个氨基酸(例如,1、2、3、4、5、6、7、8、9或10个残基)的添加、缺失和/或取代(例如,保守取代)的衍生物;或(iii)与SEQ IDNO:1-7中的任一者相比具有至少约80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的氨基酸序列同一性的衍生物。
在某些实施方式中,Cas13e和Cas13f效应蛋白、其直系同源物、同源物、衍生物和功能性片段不是天然存在的,例如与天然存在的序列相比具有至少一个氨基酸差异。
在相关方面,本发明提供基于SEQ ID NO:1-7中任一者的Cas13e和Cas13f效应蛋白、或其上述直系同源物、同源物、衍生物和功能性片段的额外的衍生物,所述额外的衍生物包含另一共价或非共价连接的蛋白或多肽或其他分子(如检测试剂或药物/化学部分)。这样的其他蛋白/多肽/其他分子可以通过例如化学偶联、基因融合或其他非共价连接(如生物素-链霉亲和素结合)来连接。这样的衍生的蛋白不影响原始蛋白的功能,如结合本发明的指导RNA/crRNA(下文描述)以形成复合物的能力、RNA酶活性、以及在与靶RNA至少部分互补的crRNA的指导下在特定位点处结合并切割所述靶RNA的能力。
例如,这样的衍生可用于添加核定位信号(NLS,如SV40大T抗原NLS)以增强主题Cas13e和Cas13f效应蛋白进入细胞核的能力。这样的衍生也可用于添加靶向分子或部分,以将主题Cas13e和Cas13f效应蛋白引导至特定的细胞或亚细胞位置。这样的衍生还可用于添加可检测标记,以促进主题Cas13e和Cas13f效应蛋白的检测、监测或纯化。这样的衍生可进一步用于添加脱氨基酶部分(如具有腺嘌呤或胞嘧啶脱氨基活性的酶部分)以促进RNA碱基编辑。
衍生可以通过在主题Cas13e和Cas13f效应蛋白的N-末端或C-末端处或在内部(例如,通过内部氨基酸的侧链进行内部融合或连接)添加任一额外的部分来进行。
在相关的第二方面,本发明提供基于SEQ ID NO:1-7中任一者的主题Cas13e和Cas13f效应蛋白、或其上述直系同源物、同源物、衍生物和功能性片段的缀合物,所述缀合物缀合有如其他蛋白或多肽、可检测标记、或其组合等部分。这样的缀合的部分可包括但不限于定位信号、报告基因(例如,GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、标记(例如,荧光染料,如FITC或DAPI)、NLS、靶向部分、DNA结合结构域(例如,MBP、Lex A DBD、Gal4DBD)、表位标签(例如,His、myc、V5、FLAG、HA、VSV-G、Trx等)、转录激活结构域(例如,VP64或VPR)、转录抑制结构域(例如,KRAB部分或SID部分)、核酸酶(例如,FokI)、脱氨基结构域(例如,ADAR1、ADAR2、APOBEC、AID或TAD)、甲基化酶、去甲基化酶、转录释放因子、HDAC、具有ssRNA切割活性的多肽、具有dsRNA切割活性的多肽、具有ssDNA切割活性的多肽、具有dsDNA切割活性的多肽、DNA或RNA连接酶、其任何组合等。
例如,所述缀合物可包括一个或多个NLS,其可以位于或接近N-末端、C-末端、内部、或其组合。缀合可以通过氨基酸(如D或E、或S或T)、氨基酸衍生物(如Ahx、β-Ala、GABA或Ava)或PEG连接来进行。
在某些实施方式中,缀合不影响原始蛋白的功能,如结合本发明的指导RNA/crRNA(下文描述)以形成复合物的能力、RNA酶活性、以及在与靶RNA至少部分互补的crRNA的指导下在特定位点处结合并切割所述靶RNA的能力。
在相关的第三方面,本发明提供基于SEQ ID NO:1-7中任一者的主题Cas13e和Cas13f效应蛋白、或其上述直系同源物、同源物、衍生物和功能性片段的融合物,所述融合物具有如下部分,如定位信号、报告基因(例如,GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、NLS、蛋白靶向部分、DNA结合结构域(例如,MBP、Lex ADBD、Gal4 DBD)、表位标签(例如,His、myc、V5、FLAG、HA、VSV-G、Trx等)、转录激活结构域(例如,VP64或VPR)、转录抑制结构域(例如,KRAB部分或SID部分)、核酸酶(例如,FokI)、脱氨基结构域(例如,ADAR1、ADAR2、APOBEC、AID或TAD)、甲基化酶、去甲基化酶、转录释放因子、HDAC、具有ssRNA切割活性的多肽、具有dsRNA切割活性的多肽、具有ssDNA切割活性的多肽、具有dsDNA切割活性的多肽、DNA或RNA连接酶、其任何组合等。
例如,所述融合物可包括一个或多个NLS,其可以位于或接近N-末端、C-末端、内部、或其组合。在某些实施方式中,融合不影响原始蛋白的功能,如结合本发明的指导RNA/crRNA(下文描述)以形成复合物的能力、RNA酶活性、以及在与靶RNA至少部分互补的crRNA的指导下在特定位点处结合并切割所述靶RNA的能力。
在第四方面,本发明提供分离的多核苷酸,所述分离的多核苷酸包含:(i)SEQ IDNO:8-14中的任一者;(ii)与SEQ ID NO:8-14中的任一者相比具有1、2、3、4或5个核苷酸的缺失、添加和/或取代的多核苷酸;(iii)与SEQ ID NO:8-14中的任一者共享至少80%、85%、90%、95%序列同一性的多核苷酸;(iv)在严格条件下与(i)-(iii)中的任一种多核苷酸或其互补序列杂交的多核苷酸;(v)(i)-(iii)中的任一多核苷酸的互补序列。
(ii)-(iv)中的任一多核苷酸保持原始SEQ ID NO:8-14的功能,即在主题Cas13e或Cas13f系统中编码crRNA的同向重复(DR)序列。
如本文所用,“同向重复序列”可指CRISPR基因座中的DNA编码序列,或指在crRNA中由其编码的RNA。因此,当在RNA分子(如crRNA)的上下文中提到SEQ ID NO:8-14中的任一者时,每个T应理解为代表U。
因此,在某些实施方式中,分离的多核苷酸是DNA,所述DNA编码主题Cas13e和Cas13f系统的crRNA的DR序列。
在某些其他实施方式中,分离的多核苷酸是RNA,所述RNA是主题Cas13e和Cas13f系统的crRNA的DR序列。
在第五方面,本发明提供复合物,所述复合物包含:(i)蛋白组合物,所述蛋白组合物可以是以下中的任一者:主题Cas13e或Cas13f效应蛋白、或其直系同源物、同源物、衍生物、功能性片段、其缀合物、或其融合物;和(ii)多核苷酸组合物,所述多核苷酸组合物包含本发明第4方面中描述的分离的多核苷酸(例如,DR序列)以及与靶RNA的至少一部分互补的间隔序列。在某些实施方式中,所述DR序列在所述间隔序列的3'端。
在一些实施方式中,所述多核苷酸组合物是主题Cas13e或Cas13f系统的指导RNA/crRNA,其不包括tracrRNA。
在某些实施方式中,为了与Cas13e和Cas13f效应蛋白、其同源物、直系同源物、衍生物、融合物、缀合物或具有RNA酶活性的功能性片段一起使用,所述间隔序列为至少约10个核苷酸,或在10-60、15-50、20-50、25-40、25-50或19-50个核苷酸之间。在某些实施方式中,为了与Cas13e和Cas13f效应蛋白、其同源物、直系同源物、衍生物、融合物、缀合物或不具有RNA酶活性但具有结合指导RNA和与所述指导RNA互补的靶RNA的能力的功能性片段一起使用,所述间隔序列为至少约10个核苷酸,或在约10-200、15-180、20-150、25-125、30-110、35-100、40-80、45-60、50-55个核苷酸之间或为约50个核苷酸。
在某些实施方式中,所述DR序列在15-36、20-36、22-36个核苷酸之间、或约36个核苷酸。在某些实施方式中,指导RNA中的DR序列具有与SEQ ID NO:8-14中的任一者的RNA版本基本相同的二级结构(包括茎、凸起(bulge)和环)。
在某些实施方式中,指导RNA比上述任一间隔序列的长度长约36个核苷酸,如在45-96、55-86、60-86、62-86或63-86个核苷酸之间。
在第六方面,本发明提供分离的多核苷酸,所述分离的多核苷酸包含:(i)编码以下的多核苷酸:SEQ ID NO:1-7的Cas13e或Cas13f效应蛋白中的任一者、或其直系同源物、同源物、衍生物、功能性片段、融合物;(ii)SEQ ID NO:8-14中的任一者的多核苷酸;或(iii)包含(i)和(ii)的多核苷酸。
在一些实施方式中,所述多核苷酸不是天然存在的(naturally occurring/naturally existing),例如不包括SEQ ID NO:15-21。
在一些实施方式中,所述多核苷酸经密码子优化以在原核生物中表达。在一些实施方式中,所述多核苷酸经密码子优化以在真核生物中(例如在人或人细胞中)表达。
在第七方面,本发明提供载体,所述载体包含或涵盖第六方面的任一多核苷酸。所述载体可以是克隆载体或表达载体。仅举几例,所述载体可以是质粒、噬菌粒或粘粒。在某些实施方式中,所述载体可用于在哺乳动物细胞(如人细胞)中表达多核苷酸、SEQ ID NO:1-7的Cas13e或Cas13f效应蛋白中的任一者、或其直系同源物、同源物、衍生物、功能性片段、融合物;或第4方面的任一多核苷酸;或第5方面的任一复合物。
在第八方面,本发明提供宿主细胞,所述宿主细胞包含本发明第4或第6方面的任一多核苷酸和/或第7方面的载体。所述宿主细胞可以是原核生物(如大肠杆菌)或来自真核生物(如酵母、昆虫、植物、动物(例如,哺乳动物,包括人和小鼠))的细胞。所述宿主细胞可以是分离的原代细胞(如用于离体疗法的骨髓细胞)或已建立的细胞系,如肿瘤细胞系、293T细胞或干细胞、iPC等。
在相关方面,本发明提供真核细胞,所述真核细胞包含成簇的规律间隔的短回文重复序列(CRISPR)-Cas复合物,所述CRISPR-Cas复合物包含:(1)RNA指导序列,其包含能够与靶RNA杂交的间隔序列以及在所述间隔序列的3'的同向重复(DR)序列;和(2)CRISPR相关蛋白(Cas)或所述Cas的衍生物或功能性片段,所述CRISPR相关蛋白具有SEQ ID NO:1-7中的任一者的氨基酸序列;其中所述Cas、所述Cas的衍生物和功能性片段能够(i)与所述RNA指导序列结合,并且(ii)靶向所述靶RNA。
在第九方面,本发明提供组合物,所述组合物包含:(i)选自以下的第一(蛋白)组合物:SEQ ID NO:1-7的Cas13e或Cas13f效应蛋白中的任一者、或其直系同源物、同源物、衍生物、缀合物、功能性片段、融合物;和(ii)包含RNA的第二(核苷酸)组合物,所述RNA涵盖指导RNA/crRNA、特别是间隔序列或其编码序列。所述指导RNA可包含DR序列和可与靶RNA互补或杂交的间隔序列。所述指导RNA可以与(i)的第一(蛋白)组合物形成复合物。在一些实施方式中,所述DR序列可以是本发明第4方面的多核苷酸。在一些实施方式中,所述DR序列可以在所述指导RNA的3'端。在一些实施方式中,所述组合物(如(i)和/或(ii))是非天然存在的或从天然存在的组合物修饰而来。在一些实施方式中,所述组合物的至少一种组分是非天然存在的或从所述组合物的天然存在的组分修饰而来。在一些实施方式中,所述靶序列是来自原核生物或真核生物的RNA,如非天然存在的RNA。所述靶RNA可以存在于细胞内,如在胞质溶胶中或在细胞器内。在一些实施方式中,所述蛋白组合物可以具有可位于其N-末端或C-末端或内部的NLS。
在第十方面,本发明提供组合物,所述组合物包含本发明第7方面的一种或多种载体,所述一种或多种载体包含:(i)编码以下的第一多核苷酸:SEQ ID NO:1-7的Cas13e或Cas13f效应蛋白中的任一者、或其直系同源物、同源物、衍生物、功能性片段、融合物;任选地与第一调节元件可操作地连接;和(ii)编码本发明的指导RNA的第二多核苷酸;任选地与第二调节元件可操作地连接。所述第一多核苷酸和所述第二多核苷酸可以在不同的载体上或在相同的载体上。所述指导RNA可与由所述第一多核苷酸编码的蛋白产物形成复合物,并包含DR序列(如第4方面的任一DR序列)和可与靶RNA结合/互补的间隔序列。在一些实施方式中,所述第一调节元件是启动子,如诱导型启动子。在一些实施方式中,所述第二调节元件是启动子,如诱导型启动子。在一些实施方式中,所述组合物(如(i)和/或(ii))是非天然存在的或从天然存在的组合物修饰而来。在一些实施方式中,所述组合物的至少一种组分是非天然存在的或从所述组合物的天然存在的组分修饰而来。在一些实施方式中,所述靶序列是来自原核生物或真核生物的RNA,如非天然存在的RNA。所述靶RNA可以存在于细胞内,如在胞质溶胶中或在细胞器内。在一些实施方式中,所述蛋白组合物可以具有可位于其N-末端或C-末端或内部的NLS。
在一些实施方式中,所述载体是质粒。在一些实施方式中,所述载体是病毒载体,所述病毒载体基于逆转录病毒、不能复制的逆转录病毒、腺病毒、不能复制的腺病毒或AAV。在一些实施方式中,所述载体可以在宿主细胞中自我复制(例如,具有细菌复制起点序列)。在一些实施方式中,所述载体可以整合到宿主基因组中并与其一起复制。在一些实施方式中,所述载体是克隆载体。在一些实施方式中,所述载体是表达载体。
本发明进一步提供递送组合物,所述递送组合物用于递送本发明第1-第3方面的SEQ ID NO:1-7的Cas13e或Cas13f效应蛋白中的任一者、或其直系同源物、同源物、衍生物、缀合物、功能性片段、融合物;本发明第4和/或第6方面的多核苷酸;本发明第5方面的复合物;本发明第7方面的载体;本发明第8方面的细胞,以及本发明第9和/或第10方面的组合物。递送可以使用媒介物(如一种或多种脂质体、一种或多种纳米颗粒、一种或多种外泌体、一种或多种微泡、基因枪或一种或多种病毒载体)通过本领域已知的任何一种方式,如转染、脂质转染、电穿孔、基因枪、显微注射、超声、磷酸钙转染、阳离子转染、病毒载体递送等来进行。
本发明进一步提供试剂盒,所述试剂盒包含以下中的任一者或多者:本发明第1-第3方面的SEQ ID NO:1-7的Cas13e或Cas13f效应蛋白中的任一者、或其直系同源物、同源物、衍生物、缀合物、功能性片段、融合物;本发明第4和/或第6方面的多核苷酸;本发明第5方面的复合物;本发明第7方面的载体;本发明第8方面的细胞,以及本发明第9和/或第10方面的组合物。在一些实施方式中,所述试剂盒可进一步包括关于如何使用试剂盒组分和/或如何从第3方获得用于与所述试剂盒组分一起使用的其他组分的说明。所述试剂盒的任何组分都可以储存在任何合适的容器中。
上文大体描述了本发明,本发明各个方面的更详细描述在下文的单独部分中提供。然而,应理解,为了简洁和减少冗余,本发明的某些实施方式仅在一个部分下描述或仅在权利要求或实施例中描述。因此,还应理解,本发明的任何一个实施方式,包括仅在一个方面、部分下或仅在权利要求或实施例中描述的那些实施方式,可以与本发明的任何其他实施方式组合,除非特别否认或组合不当。
2.新型2类VI型CRISPR RNA指导的RNA酶及其衍生物
在一个方面,本文描述的本发明提供两个新型CRISPR 2类VI型效应子家族,其具有两个严格保守的RX4-6H(RXXXXH)基序,这是高等真核生物和原核生物核苷酸结合(HEPN)结构域的特征。含有两个HEPN结构域的相似CRISPR 2类VI型效应子先前已被表征,并且包括例如CRISPR Cas13a(C2c2)、Cas13b、Cas13c和Cas13d。
HEPN结构域经证明是RNA酶结构域并赋予结合和切割靶RNA分子的能力。所述靶RNA可以是任何合适形式的RNA,包括但不限于mRNA、tRNA、核糖体RNA、非编码RNA、lncRNA(长链非编码RNA)和核RNA。例如,在一些实施方式中,Cas蛋白识别并切割位于开放阅读框(ORF)的编码链上的RNA靶标。
在一个实施方式中,本披露提供两个CRISPR 2类VI型效应子家族,在本文中通常称为VI-E型和VI-F型CRISPR-Cas效应蛋白Cas13e或Cas13f。VI-E型和VI-F型CRISPR-Cas效应蛋白与这些其他系统的效应子的直接比较显示出VI-E型和VI-F型CRISPR-Cas效应蛋白甚至比先前鉴定的最小的VI-D型/Cas13d效应子显著更小(例如,氨基酸少约20%)(参见图4),并且在与其他先前描述的效应蛋白(包括系统发育上最接近的亲属Cas13b)的一对一序列比对中具有小于30%的序列相似性(参见图3)。
这两个新鉴定的CRISPR 2类VI型效应子家族可用于多种应用中,并且特别适用于治疗性应用,因为它们比其他效应子(例如,CRISPR Cas13a、Cas13b、Cas13c和Cas13d效应子)显著更小,这允许将编码效应子的核酸及它们的指导RNA编码序列包装到具有大小限制的递送系统(如AAV载体)中。此外,在特定的RNA酶活性激活后,在选定的间隔序列长度范围(如约30个核苷酸,参见图11)处可检测的附带/非特异性RNA酶活性的缺乏使这些Cas效应子在希望不受破坏的靶细胞中较不易于(如果不能免于)产生潜在危险的普遍脱靶RNA消化。另一方面,在其他选定的间隔子长度(如约30个核苷酸)处,这些Cas效应子存在显著的附带RNA酶活性,因此主题Cas效应子也可以用于依赖这样的附带RNA酶活性的效用中。
在细菌中,VI-E型和VI-F型CRISPR-Cas系统包括紧邻CRISPR阵列的单个效应子(分别为大约775个残基和790个残基)(参见图1)。所述CRISPR阵列包括长度典型地为36个核苷酸的同向重复(DR)序列,其在序列和二级结构中通常都非常保守(参见图2)。
本文提供的数据表明crRNA从5'端加工,使得所述DR序列在成熟的crRNA的3'端处终止。
Cas13e和Cas13f CRISPR阵列中含有的间隔子最常见的长度为30个核苷酸,大部分长度变化包含在29至30个核苷酸的范围内。然而,可以容忍宽范围的间隔子长度。例如,为了在功能性Cas13e或Cas13f效应蛋白、或其同源物、直系同源物、衍生物、融合物、缀合物或功能性片段中使用,间隔子可以在10-60个核苷酸、20-50个核苷酸、25-45个核苷酸、25-35个核苷酸之间,或为约27、28、29、30、31、32或33个核苷酸。然而,为了在上述任一者的dCas版本中使用,间隔子可以在10-200个核苷酸、20-150个核苷酸、25-100个核苷酸、25-85个核苷酸、35-75个核苷酸、45-60个核苷酸之间,或为约46、47、48、49、50、51、52、53、54或55个核苷酸。
示例性VI-E型和VI-F型CRISPR-Cas效应蛋白在下表中提供。
在上面的序列中,每个效应子中的两个RX4-6H(RXXXXH)基序加双下划线。在Cas13e.1中,由于基序侧翼的RR和HH序列,C-末端基序可具有两种可能性。在一个或两个这样的结构域处的突变可能产生Cas13e和Cas13f效应蛋白、其同源物、直系同源物、融合物、缀合物、衍生物或功能性片段的RNA酶死亡版本(或“dCas”),同时基本上保持它们结合指导RNA和与所述指导RNA互补的靶RNA的能力。
Cas效应子的对应DR编码序列在下面列出:
由于DR序列的二级结构(包括茎、凸起和环结构的位置和大小)可能比形成这样的二级结构的特定核苷酸序列更重要,替代性或衍生性DR序列也可用于本发明的系统和方法中,只要这些衍生性或替代性DR序列具有与由SEQ ID NO:8-14中的任一者编码的RNA的二级结构基本类似的二级结构即可。例如,衍生性DR序列可以在一个或两个茎中具有±1或2个碱基对(参见图2),在凸起的一条或两条单链中具有±1、2或3个碱基,和/或在环区中具有±1、2、3或4个碱基。
在一些实施方式中,VI-E型和VI-F型CRISPR-Cas效应蛋白包括“衍生物”,所述衍生物具有如下氨基酸序列,所述氨基酸序列与上述SEQ ID NO:1-7中的任一者的氨基酸序列具有至少约80%的序列同一性(例如,81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%)。与SEQ ID NO:1-7中的任一者共享显著的蛋白序列同一性的这样的衍生性Cas效应子保留SEQ ID NO:1-7的Cas的至少一种功能(参见下文),例如与包含SEQ ID NO:8-14的DR序列中的至少一个的crRNA结合并形成复合物的能力。例如,Cas13e.1衍生物可分别与SEQ ID NO:1、2、3、4、5、6或7共享85%的氨基酸序列同一性,并保留分别与具有SEQ ID NO:8、9、10、11、12、13或14的DR序列的crRNA结合并形成复合物的能力。
在一些实施方式中,所述衍生物包含保守的氨基酸残基取代。在一些实施方式中,所述衍生物仅包含保守的氨基酸残基取代(即,所述衍生物中的所有氨基酸取代都是保守取代,并且没有不保守的取代)。
在一些实施方式中,所述衍生物将不超过1、2、3、4、5、6、7、8、9或10个氨基酸插入或缺失包含到SEQ ID NO:1-7的任一种野生型序列中。只要保留野生型序列的至少一种功能,插入和/或缺失就可以聚集在一起,或在序列的整个长度上分开。这样的功能可以包括结合指导/crRNA的能力、RNA酶活性、结合和/或切割与指导/crRNA互补的靶RNA的能力。在一些实施方式中,插入和/或缺失不存在于RXXXXH基序中,或距RXXXXH基序5、10、15或20个残基内。
在一些实施方式中,所述衍生物保留结合指导RNA/crRNA的能力。
在一些实施方式中,所述衍生物保留指导/crRNA激活的RNA酶活性。
在一些实施方式中,在所结合的在序列方面与至少一部分靶RNA互补的指导/crRNA存在下,所述衍生物保留结合靶RNA和/或切割所述靶RNA的能力。
在其他实施方式中,由于例如RNA指导的RNA酶的一个或多个催化残基的突变,所述衍生物完全或部分丧失指导/crRNA激活的RNA酶活性。这样的衍生物有时称为dCas,如dCas13e.1等。
因此,在某些实施方式中,所述衍生物可以经修饰以具有减弱的核酸酶/RNA酶活性,例如,与相应的野生型蛋白相比,核酸酶灭活至少50%、至少60%、至少70%、至少80%、至少90%、至少95%、至少97%或100%。可以通过本领域已知的几种方法减弱核酸酶活性,例如,将突变引入蛋白的核酸酶(催化)结构域中。在一些实施方式中,鉴定出核酸酶活性的催化残基,并且这些氨基酸残基可以被不同的氨基酸残基(例如,甘氨酸或丙氨酸)取代以减弱核酸酶活性。在一些实施方式中,所述氨基酸取代是保守性氨基酸取代。在一些实施方式中,所述氨基酸取代是非保守性氨基酸取代。
在一些实施方式中,修饰包含在至少一个HEPN结构域中的一个或多个突变(例如,氨基酸缺失、插入或取代)。在一些实施方式中,在至少一个HEPN结构域中存在一个、两个、三个、四个、五个、六个、七个、八个、九个或更多个氨基酸取代。例如,在一些实施方式中,所述一个或多个突变包含在与以下对应的氨基酸残基处的取代(例如,丙氨酸取代):SEQ IDNO:1的R84、H89、R739、H744、R740、H745,或SEQ ID NO:2的R97、H102、R770、H775,或SEQ IDNO:3的R77、H82、R764、H769,或SEQ ID NO:4的R79、H84、R766A、H771,或SEQ ID NO:5的R79、H84、R766、H771,或SEQ ID NO:6的R89、H94、R773、H778,或SEQ ID NO:7的R89、H94、R777、H782。
在某些实施方式中,所述一个或多个突变或所述两个或更多个突变可以在包含HEPN结构域的效应蛋白的催化活性结构域或与HEPN结构域同源的催化活性结构域中。在某些实施方式中,所述效应蛋白包含一个或多个以下突变:R84A、H89A、R739A、H744A、R740A、H745A(其中氨基酸位置对应于Cas13e.1的氨基酸位置)。本领域技术人员将理解,不同的Cas13e和Cas13f蛋白中的对应氨基酸位置可以突变成相同效果。在某些实施方式中,一个或多个突变完全或部分消除蛋白的催化活性(例如,改变的切割速率、改变的特异性等)。
其他示例性(催化)残基突变包括:Cas13e.2的R97A、H102A、R770A、H775A,或Cas13f.1的R77A、H82A、R764A、H769A,或Cas13f.2的R79A、H84A、R766A、H771A,或Cas13f.3的R79A、H84A、R766A、H771A,或Cas13f.4的R89A、H94A、R773A、H778A,或Cas13f.5的R89A、H94A、R777A、H782A。在某些实施方式中,本文的任一R和/或H残基可以被G、V或I而不是A替代。
与缺乏突变的对应野生型蛋白相比,这些突变中的至少一个的存在导致具有减少的或减弱的RNA酶活性的衍生物。
在某些实施方式中,如本文描述的效应蛋白是“死”效应蛋白,如死Cas13e或Cas13f效应蛋白(即dCas13e和dCas13f)。在某些实施方式中,所述效应蛋白在HEPN结构域1(N-末端)中具有一个或多个突变。在某些实施方式中,所述效应蛋白在HEPN结构域2(C-末端)中具有一个或多个突变。在某些实施方式中,所述效应蛋白在HEPN结构域1和HEPN结构域2中具有一个或多个突变。
失活的Cas或其衍生物或功能性片段可以与一个或多个异源/功能性结构域融合或缔合(例如,经由融合蛋白、接头肽、“GS”接头等)。这些功能性结构域可以具有多种活性,例如,甲基化酶活性、去甲基化酶活性、转录激活活性、转录抑制活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性、DNA切割活性、核酸结合活性、碱基编辑活性和开关活动(例如,光诱导型)。在一些实施方式中,所述功能性结构域是Krüppel相关盒(KRAB)、SID(例如SID4X)、VP64、VPR、VP16、Fok1、P65、HSF1、MyoD1、作用于RNA的腺苷脱氨酶(如ADAR1、ADAR2)、APOBEC、胞苷脱氨酶(AID)、TAD、小型-SOG、APEX和生物素-APEX。
在一些实施方式中,所述功能性结构域是碱基编辑结构域,例如,ADAR1(包括野生型或其ADAR1DD版本,具有或不具有E1008Q)、ADAR2(包括野生型或其ADAR2DD版本,具有或不具有一个或多个E488Q突变)、APOBEC或AID。
在一些实施方式中,所述功能性结构域可以包含一个或多个核定位信号(NLS)结构域。所述一个或多个异源功能性结构域可以包含至少两个或更多个NLS结构域。所述一个或多个NLS结构域可位于或接近或邻近所述效应蛋白(例如,Cas13e/Cas13f效应蛋白)的末端处,并且如果有两个或更多个NLS,则两者中的每一个可位于或接近或邻近所述效应蛋白(例如,Cas13e/Cas13f效应蛋白)的末端处。
在一些实施方式中,至少一个或多个异源功能性结构域可以位于或接近所述效应蛋白的氨基末端处,并且/或者其中至少一个或多个异源功能性结构域位于或接近所述效应蛋白的羧基末端处。所述一个或多个异源功能性结构域可以与所述效应蛋白融合。所述一个或多个异源功能性结构域可以与所述效应蛋白相连。所述一个或多个异源功能性结构域可以通过接头部分与所述效应蛋白连接。
在一些实施方式中,存在多个(例如,两个、三个、四个、五个、六个、七个、八个或更多个)相同或不同的功能性结构域。
在一些实施方式中,所述功能性结构域(例如,碱基编辑结构域)进一步与RNA结合结构域(例如,MS2)融合。
在一些实施方式中,所述功能性结构域与接头序列(例如,柔性接头序列或刚性接头序列)缔合或经由接头序列(例如,柔性接头序列或刚性接头序列)融合。示例性接头序列和功能性结构域序列在下表中提供。
VI-E型和VI-F型CRISPR Cas效应子的工程化的变体中基序和功能性结构域的氨基酸序列
所述一个或多个功能性结构域在失活的Cas蛋白上的定位允许所述功能性结构域的正确的空间取向,从而以所归属的功能性效应影响靶标。例如,如果所述功能性结构域是转录激活子(例如,VP16、VP64或p65),则将所述转录激活子放置成允许其影响所述靶标的转录的空间取向。同样地,将转录阻遏子定位成影响所述靶标的转录,并且将核酸酶(例如,Fok1)定位成切割或部分切割所述靶标。在一些实施方式中,所述功能性结构域位于Cas/dCas的N-末端处。在一些实施方式中,所述功能性结构域位于Cas/dCas的C-末端处。在一些实施方式中,将失活的CRISPR相关蛋白(dCas)修饰为包含在N-末端处的第一功能性结构域和在C-末端处的第二功能性结构域。
与一个或多个功能性结构域融合的失活的CRISPR相关蛋白的多种实例及其使用方法描述于例如国际公布号WO 2017/219027中,将所述文献通过引用以其全文并且特别是关于本文描述的特征并入本文。
在一些实施方式中,VI-E型和VI-F型CRISPR-Cas效应蛋白包括上述SEQ IDNO:1-7中的任一者的氨基酸序列。在一些实施方式中,VI-E型和VI-F型CRISPR-Cas效应蛋白不包括上述SEQ ID NO:1-7中的任一者的天然存在的氨基酸序列。
在一些实施方式中,可以不使用全长野生型(SEQ ID NO:1-7)或衍生性VI-E型和VI-F型Cas效应子,而使用其“功能性片段”。
如本文所用,“功能性片段”是指具有小于全长序列的、SEQ ID NO:1-7中的任一者的野生型蛋白或其衍生物的片段。所述功能性片段中缺失的残基可以在N-末端、C-末端和/或内部。所述功能性片段保留野生型VI-E或VI-F Cas的至少一种功能、或其衍生物的至少一种功能。因此,功能性片段相对于所讨论的功能而特别定义。例如,其中所述功能是结合crRNA和靶RNA的能力的功能性片段,相对于RNA酶功能而言可能不是功能性片段,因为丢失Cas两端的RXXXXH基序可能不会影响其结合crRNA和靶RNA的能力,但可能消除或破坏RNA酶活性。
在一些实施方式中,与全长序列SEQ ID NO:1-7相比,所述VI-E型或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能性片段缺少来自N-末端的约30、60、90、120、150或约180个残基。
在一些实施方式中,与全长序列SEQ ID NO:1-7相比,所述VI-E型或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能性片段缺少来自C-末端的约30、60、90、120或约150个残基。
在一些实施方式中,与全长序列SEQ ID NO:1-7相比,所述VI-E型或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能性片段缺少来自N-末端的约30、60、90、120、150或约180个残基,并且缺少来自C-末端的约30、60、90、120或约150个残基。
在一些实施方式中,所述VI-E型或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能性片段具有RNA酶活性,例如,指导/crRNA激活的特异性RNA酶活性。
在一些实施方式中,所述VI-E型或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能性片段不具有大量的/可检测的附带RNA酶活性。
这里,“附带RNA酶活性”是指在某些其他2类VI型RNA指导的RNA酶(如Cas13a)中观察到的非特异性RNA酶活性。包含Cas13a的复合物,例如,在通过与靶核酸(例如,靶RNA)结合而激活后,产生构象变化,这又导致所述复合物充当非特异性RNA酶,从而切割和/或降解附近的RNA分子(例如,ssRNA或dsRNA分子)(即,“附带”效应)。
在某些实施方式中,由(但不限于)VI-E型或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能性片段和crRNA构成的复合物在靶标识别后不会展现出附带RNA酶活性。该“无附带”实施方式可包含野生型、工程化的/衍生性效应蛋白或其功能性片段。
在一些实施方式中,所述VI-E型或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能性片段识别并切割所述靶RNA,而无邻近原型间隔子或在原型间隔子侧翼的任何额外要求(即,原型间隔子邻近基序“PAM”或原型间隔子侧翼序列“PFS”的要求)。
本披露还提供本文描述的CRISPR相关蛋白的拆分版本(例如,VI-E型或VI-F型CRISPR-Cas效应蛋白)。所述CRISPR相关蛋白的拆分版本可有利于递送。在一些实施方式中,将所述CRISPR相关蛋白拆分成酶的两个部分,所述酶的两个部分合在一起基本上构成有功能的CRISPR相关蛋白。
所述拆分能以一个或多个催化结构域不受影响的方式进行。所述CRISPR相关蛋白可以作为核酸酶发挥作用,或者可以是失活的酶,所述失活的酶本质上是具有非常小的催化活性或没有催化活性(例如,由于其催化结构域中的一个或多个突变)的RNA结合蛋白。拆分型酶描述于例如Wright等人,“Rational design of a split-Cas9enzyme complex[拆分型Cas9酶复合物的合理设计],”Proc.Nat'l.Acad.Sci.[美国国家科学院院刊]112(10):2984-2989,2015中,将所述文献通过引用以其全文并入本文。
例如,在一些实施方式中,核酸酶叶(nuclease lobe)和α-螺旋叶(α-helicallobe)经表达为单独的多肽。尽管所述叶自身并不相互作用,但crRNA将它们募集到三元复合物中,所述复合物重现全长CRISPR相关蛋白的活性并催化位点特异性DNA切割。使用经修饰的crRNA通过防止二聚化来消除拆分型酶的活性,从而允许开发诱导型二聚化系统。
在一些实施方式中,可以例如通过采用雷帕霉素敏感性二聚化结构域将拆分型CRISPR相关蛋白与二聚化配偶体融合。这允许生成用于对蛋白活性进行时间控制的化学诱导型CRISPR相关蛋白。因此,所述CRISPR相关蛋白可以通过拆分成两个片段而成为化学诱导性,并且雷帕霉素敏感性二聚化结构域可以用于蛋白的受控重组。
拆分点典型地经由计算机模拟设计并克隆到构建体中。在此过程期间,可以将突变引入拆分型CRISPR相关蛋白中,并且可以去除非功能性结构域。
在一些实施方式中,所述拆分型CRISPR相关蛋白的两个部分或片段(即,N-末端和C-末端片段)可以形成完整的CRISPR相关蛋白,其包含野生型CRISPR相关蛋白的例如至少70%、至少80%、至少90%、至少95%或至少99%的序列。
本文描述的CRISPR相关蛋白(例如,VI-E型或VI-F型CRISPR-Cas效应蛋白)可以设计为自我激活或自我灭活。例如,可以将靶序列引入所述CRISPR相关蛋白的编码构建体中。因此,所述CRISPR相关蛋白可以切割所述靶序列以及编码所述蛋白的构建体,从而自我灭活它们的表达。构建自我灭活CRISPR系统的方法描述于例如Epstein和Schaffer,Mol.Ther.[分子疗法]24:S50,2016中,将所述文献通过引用以其全文并入本文。
在一些其他实施方式中,在弱启动子(例如,7SK启动子)的控制下表达的额外的crRNA可以靶向编码所述CRISPR相关蛋白的核酸序列以防止和/或阻断其表达(例如,通过防止所述核酸的转录和/或翻译)。用表达所述CRISPR相关蛋白、所述crRNA、和靶向编码所述CRISPR相关蛋白的核酸的crRNA的载体转染细胞,可导致编码所述CRISPR相关蛋白的核酸的高效破坏并降低所述CRISPR相关蛋白的水平,从而限制基因组编辑活性。
在一些实施方式中,所述CRISPR相关蛋白的基因组编辑活性可以通过哺乳动物细胞中的内源性RNA特征(例如,miRNA)来调节。可以通过在编码所述CRISPR相关蛋白的mRNA的5'-UTR中使用miRNA互补序列来制造CRISPR相关蛋白开关。所述开关选择性地并且高效地响应靶细胞中的miRNA。因此,所述开关可以通过感应异质细胞群内的内源性miRNA活性来对基因组编辑进行差异控制。因此,开关系统可以为基于细胞内miRNA信息的细胞类型选择性基因组编辑和细胞工程化提供框架(参见例如,Hirosawa等人,Nucl.Acids Res.[核酸研究]45(13):e118,2017)。
所述CRISPR相关蛋白(例如,VI-E型和VI-F型CRISPR-Cas效应蛋白)可以经诱导表达,例如,它们的表达可以是光诱导的或化学诱导的。这种机制允许激活所述CRISPR相关蛋白中的功能性结构域。光诱导性可以通过本领域已知的各种方法来实现,例如,通过设计如下融合复合物来实现,其中将CRY2 PHR/CIBN配对用于拆分型CRISPR相关蛋白中(参见例如,Konermann等人,“Optical control of mammalian endogenous transcription andepigenetic states[哺乳动物内源性转录和表观遗传状态的光学控制],”Nature[自然]500:7463,2013)。
化学诱导性可以例如通过设计如下融合复合物来实现,其中将FKBP/FRB(FK506结合蛋白/FKBP雷帕霉素结合结构域)配对用于拆分型CRISPR相关蛋白中。需要雷帕霉素来形成融合复合物,从而激活所述CRISPR相关蛋白(参见例如,Zetsche等人,“A split-Cas9architecture for inducible genome editing and transcription modulation[用于诱导型基因组编辑和转录调节的拆分型Cas9架构],”Nature Biotech.[自然生物技术]33:2:139-42,2015)。
此外,所述CRISPR相关蛋白的表达可以通过诱导型启动子,例如四环素或强力霉素控制的转录激活(Tet-开和Tet-关表达系统)、激素诱导型基因表达系统(例如,蜕皮素诱导型基因表达系统)和阿拉伯糖诱导型基因表达系统来调节。当作为RNA递送时,RNA靶向效应蛋白的表达可以经由核糖开关进行调节,所述核糖开关可以感应小分子(像四环素)(参见例如,Goldfless等人,“Direct and specific chemical control of eukaryotictranslation with a synthetic RNA-protein interaction[通过合成的RNA-蛋白相互作用对真核生物的翻译进行直接和特异性的化学控制],”Nucl.Acids Res.[核酸研究]40:9:e64-e64,2012)。
诱导型CRISPR相关蛋白和诱导型CRISPR系统的各种实施方式描述于例如美国专利号8,871,445、美国公布号2016/0208243和国际公布号WO 2016/205764中,将各个文献通过引用以其全文并入本文。
在一些实施方式中,所述CRISPR相关蛋白包括至少一个(例如,1、2、3、4、5、6、7、8、9或10个)附接至所述蛋白的N-末端或C-末端的核定位信号(NLS)。NLS的非限制性实例包括源自以下的NLS序列:SV40病毒大T抗原的NLS,其具有氨基酸序列PKKKRKV;来自核质蛋白的NLS(例如,具有序列KRPAATKKAGQAKKKK的核质蛋白二分NLS);c-myc NLS,其具有氨基酸序列PAAKRVKLD或RQRRNELKRSP;hRNPA1 M9 NLS,其具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY;来自输入蛋白-α的IBB结构域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV;肌瘤T蛋白的序列VSRKRPRP和PPKKARED;人p53的序列PQPKKKPL;小鼠c-abl IV的序列SALIKKKKKMAP;流感病毒NS1的序列DRLRR和PKQKKRK;肝炎病毒δ抗原的序列RKLKKKIKKL;小鼠Mx1蛋白的序列REKKKFLKRR;人聚(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK;以及人糖皮质激素受体的序列RKCLQAGMNLEARKTKK。在一些实施方式中,所述CRISPR相关蛋白包含至少一个(例如,1、2、3、4、5、6、7、8、9或10个)附接所述蛋白的N-末端或C-末端的核输出信号(NES)。在优选的实施方式中,附接C-末端和/或N-末端NLS或NES,用于在真核细胞(例如,人细胞)中进行最佳表达和核靶向。
在一些实施方式中,本文描述的CRISPR相关蛋白在一个或多个氨基酸残基处突变以改变一种或多种功能性活性。
例如,在一些实施方式中,所述CRISPR相关蛋白在一个或多个氨基酸残基处突变以改变其解旋酶活性。
在一些实施方式中,所述CRISPR相关蛋白在一个或多个氨基酸残基处突变以改变其核酸酶活性(例如,内切核酸酶活性或外切核酸酶活性)。
在一些实施方式中,所述CRISPR相关蛋白在一个或多个氨基酸残基处突变以改变其与指导RNA功能性缔合的能力。
在一些实施方式中,所述CRISPR相关蛋白在一个或多个氨基酸残基处突变以改变其与靶核酸功能性缔合的能力。
在一些实施方式中,本文描述的CRISPR相关蛋白能够切割靶RNA分子。
在一些实施方式中,所述CRISPR相关蛋白在一个或多个氨基酸残基处突变以改变其切割活性。例如,在一些实施方式中,所述CRISPR相关蛋白可以包含一个或多个突变,所述突变使酶不能切割靶核酸。
在一些实施方式中,所述CRISPR相关蛋白能够切割与指导RNA杂交的链互补的靶核酸链。
在一些实施方式中,本文描述的CRISPR相关蛋白可以经工程化以具有一个或多个氨基酸残基的缺失,以减小酶的大小,同时保留一种或多种所希望的功能性活性(例如,核酸酶活性和与指导RNA功能上相互作用的能力)。截短型CRISPR相关蛋白可以有利地与具有负载限制的递送系统组合使用。
在一些实施方式中,本文描述的CRISPR相关蛋白可以与一种或多种肽标签,包括His标签、GST标签、V5标签、FLAG标签、HA标签、VSV-G标签、Trx标签或myc标签融合。
在一些实施方式中,本文描述的CRISPR相关蛋白可以与可检测部分,例如GST、荧光蛋白(例如GFP、HcRed、DsRed、CFP、YFP或BFP)或酶(如HRP或CAT)融合。
在一些实施方式中,本文描述的CRISPR相关蛋白可以与MBP、LexA DNA结合结构域或Gal4 DNA结合结构域融合。
在一些实施方式中,本文描述的CRISPR相关蛋白可以与可检测标记(如荧光染料,包括FITC和DAPI)连接或缀合。
在本文的任一实施方式中,本文描述的CRISPR相关蛋白与其他部分之间的连接可以经由共价化学键在所述CRISPR相关蛋白的N-末端或C-末端处,并且有时甚至在内部。所述连接可以通过本领域已知的任何化学连接来实现,所述化学连接例如肽连接、通过氨基酸(如D、E、S、T)的侧链或氨基酸衍生物(Ahx、β-Ala、GABA或Ava)连接、或PEG连接。
3.多核苷酸
本发明还提供核酸,所述核酸编码本文描述的蛋白(例如,CRISPR相关蛋白或辅助蛋白)和指导RNA(例如,crRNA)。
在一些实施方式中,所述核酸是合成的核酸。在一些实施方式中,所述核酸是DNA分子。在一些实施方式中,所述核酸是RNA分子(例如,编码所述Cas、其衍生物或功能性片段的mRNA分子)。在一些实施方式中,将所述mRNA加帽、聚腺苷酸化、用5-甲基胞苷取代、用假尿苷取代、或其组合。
在一些实施方式中,所述核酸(例如,DNA)与调节元件(例如,启动子)可操作地连接以控制所述核酸的表达。在一些实施方式中,所述启动子是组成型启动子。在一些实施方式中,所述启动子是诱导型启动子。在一些实施方式中,所述启动子是细胞特异性启动子。在一些实施方式中,所述启动子是生物特异性启动子。
合适的启动子是本领域已知的并且包括例如pol I启动子、pol II启动子、polIII启动子、T7启动子、U6启动子、H1启动子、逆转录病毒劳斯肉瘤病毒LTR启动子、巨细胞病毒(CMV)启动子、SV40启动子、二氢叶酸还原酶启动子和β-肌动蛋白启动子。例如,U6启动子可用于调节本文描述的指导RNA分子的表达。
在一些实施方式中,一个或多个核酸存在于载体(例如,病毒载体或噬菌体)中。所述载体可以是克隆载体或表达载体。所述载体可以是质粒、噬菌粒、粘粒等。所述载体可以包括一个或多个允许所述载体在目的细胞(例如,细菌细胞或哺乳动物细胞)中繁殖的调节元件。在一些实施方式中,所述载体包括编码本文描述的CRISPR相关(Cas)系统的单个组分的核酸。在一些实施方式中,所述载体包括多个核酸,每个核酸编码本文描述的CRISPR相关(Cas)系统的组分。
在一个方面,本披露提供与本文描述的核酸序列具有至少50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的核酸序列,即,编码如下的核酸序列:Cas蛋白、衍生物、功能性片段、或包括SEQ IDNO:8-14的DR序列的指导/crRNA。
在另一方面,本披露还提供编码如下氨基酸序列的核酸序列,所述氨基酸序列与本文描述的氨基酸序列(如SEQ ID NO:1-7)具有至少50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性。
在一些实施方式中,所述核酸序列具有至少一部分(例如,至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个核苷酸,例如,连续或非连续核苷酸)与本文描述的序列相同。在一些实施方式中,所述核酸序列具有至少一部分(例如,至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个核苷酸,例如,连续或非连续核苷酸)与本文描述的序列不同。
在相关的实施方式中,本发明提供如下氨基酸序列,所述氨基酸序列具有至少一部分(例如,至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个氨基酸残基,例如,连续或非连续氨基酸残基)与本文描述的序列相同。在一些实施方式中,所述氨基酸序列具有至少一部分(例如,至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个氨基酸残基,例如,连续或非连续氨基酸残基)与本文描述的序列不同。
为了确定两个氨基酸序列或两个核酸序列的同一性百分比,出于最佳比较目的对序列进行比对(例如,可以在第一和第二氨基酸或核酸序列的一者或两者中引入空位以用于最佳比对,并且出于比较目的可以忽略非同源序列)。一般来说,出于比较目的而比对的参考序列的长度应是参考序列长度的至少80%,并且在一些实施方式中是参考序列长度的至少90%、95%或100%。然后比较对应的氨基酸位置或核苷酸位置处的氨基酸残基或核苷酸。当第一序列中的位置被与第二序列中的对应位置相同的氨基酸残基或核苷酸占据时,则分子在该位置处是相同的。将空位的数量和每个空位的长度考虑在内,两个序列之间的同一性百分比是所述序列共享的相同位置的数量的函数,需要引入所述空位以进行所述两个序列的最佳比对。出于本披露的目的,序列的比较和两个序列之间同一性百分比的确定可以使用具有空位罚分12、空位延伸罚分4、以及移码空位罚分5的Blosum 62评分矩阵来完成。
本文描述的蛋白(例如,CRISPR相关蛋白或辅助蛋白)可以作为核酸分子或多肽递送或使用。
在某些实施方式中,编码所述CRISPR相关蛋白、其衍生物或功能性片段的核酸分子经密码子优化以在宿主细胞或生物中表达。所述宿主细胞可以包括已建立的细胞系(如293T细胞)或分离的原代细胞。所述核酸可以经密码子优化以用于在任何目的生物(特别是人细胞或细菌)中使用。例如,所述核酸可以针对以下进行密码子优化:任何原核生物(如大肠杆菌(E.coli))或任何真核生物,如人和其他非人真核生物,包括酵母、蠕虫、昆虫、植物和藻类(包括粮食作物、稻、玉米、蔬菜、水果、树木、草)、脊椎动物、鱼、非人哺乳动物(例如,小鼠、大鼠、兔子、狗、鸟(如鸡)、牲畜(母牛或牛、猪、马、绵羊、山羊等)、或非人灵长类动物)。密码子使用表易于获得,例如在www.kazusa.orjp/codon/上可获得的“密码子使用数据库(Codon Usage Database)”中,并且这些表能以多种方式进行调整。参见Nakamura等人,Nucl.Acids Res.[核酸研究]28:292,2000(将所述文献通过引用以其全文并入本文)。用于密码子优化特定序列以在特定宿主细胞中表达的计算机算法也是可获得的,如基因制造(Gene Forge)(Aptagen公司;宾夕法尼亚州雅各布斯(Jacobus,PA))。
在这种情况下,经密码子优化的序列的实例是经优化以在以下中表达的序列:真核生物,例如人(即,经优化以在人中表达),或如本文所讨论的另一真核生物、动物或哺乳动物;参见例如,WO 2014/093622(PCT/US2013/074667)中的经SaCas9人密码子优化的序列。尽管这是优选的,但应理解其他实例是可能的,并且针对人以外的宿主物种的密码子优化或针对特定器官的密码子优化是已知的。一般来说,密码子优化是指在维持天然氨基酸序列的情况下通过以下方式修饰核酸序列以增强在目的宿主细胞中的表达的方法:用该宿主细胞的基因中更频繁使用或最频繁使用的密码子替代天然序列的至少一个密码子(例如,约或超过约1、2、3、4、5、10、15、20、25、50或更多个密码子)。多种物种对特定氨基酸的某些密码子展现出特定偏倚。密码子偏倚(生物之间密码子使用的差异)通常与信使RNA(mRNA)的翻译效率相关,而所述信使RNA(mRNA)的翻译效率又被认为尤其依赖于经翻译的密码子的特性和特定的转移RNA(tRNA)分子的可获得性。选定的tRNA在细胞中的优势通常反映出肽合成中最频繁使用的密码子。相应地,可以对基因进行定制以基于密码子优化在给定生物中实现最佳基因表达。密码子使用表易于获得,例如在http://www.kazusa.orjp/codon/上可获得的“密码子使用数据库”中,并且这些表能以多种方式进行调整。参见Nakamura,Y.等人“Codon usage tabulated from the international DNA sequencedatabases:status for the year 2000[从国际DNA序列数据库中制表的密码子使用:2000年的状态]”Nucl.Acids Res.[核酸研究]28:292(2000)。用于密码子优化特定序列以在特定宿主细胞中表达的计算机算法也是可获得的,如基因制造(Aptagen公司;宾夕法尼亚州雅各布斯)。在一些实施方式中,编码Cas的序列中的一个或多个密码子(例如,1、2、3、4、5、10、15、20、25、50或更多个或所有密码子)对应于特定氨基酸最频繁使用的密码子。
4.RNA指导物或crRNA
在一些实施方式中,本文描述的CRISPR系统包括至少RNA指导物(例如,gRNA或crRNA)。
多种RNA指导物的架构是本领域已知的(参见例如,国际公布号WO2014/093622和WO 2015/070083,将各个文献的全部内容通过引用并入本文)。
在一些实施方式中,本文描述的CRISPR系统包括多种RNA指导物(例如,一种、两种、三种、四种、五种、六种、七种、八种或更多种RNA指导物)。
在一些实施方式中,所述RNA指导物包括crRNA。在一些实施方式中,所述RNA指导物包括crRNA,但不包括tracrRNA。
来自多个CRISPR系统的指导RNA的序列在本领域中通常是已知的,参见例如Grissa等人(Nucleic Acids Res.[核酸研究]35(网页服务器议题):W52-7,2007;Grissa等人,BMC Bioinformatics[BMC生物信息学]8:172,2007;Grissa等人,Nucleic Acids Res.[核酸研究]36(网页服务器议题):W145-8,2008;以及Moller和Liang,PeerJ[同行评审科学期刊]5:e3788,2017;在crispr.i2bc.paris-saclayfr/crispr/BLAST/CRISPRsBlast.php处的CRISPR数据库;以及在github.com/molleraj/MetaCRAST处可获得的MetaCRAST)。将所有文献通过引用并入本文。
在一些实施方式中,所述crRNA包括同向重复(DR)序列和间隔序列。在某些实施方式中,所述crRNA包含如下同向重复序列、基本上由其组成或由其组成,所述同向重复序列与指导序列或间隔序列(优选地在所述间隔序列的3'端处)连接。
一般来说,Cas蛋白与成熟的crRNA形成复合物,所述成熟的crRNA的间隔序列引导所述复合物与靶RNA序列特异性结合,所述靶RNA与所述间隔序列互补和/或与所述间隔序列杂交。所得的复合物包含所述Cas蛋白和与所述靶RNA结合的成熟的crRNA。
所述Cas13e和Cas13f系统的同向重复序列通常非常保守,尤其是在末端处,在5'端处的Cas13e的GCTG和Cas13f的GCTGT与在3'端处的Cas13e的CAGC和Cas13f的ACAGC反向互补。这种保守表明潜在地与基因座中的一种或多种蛋白相互作用的RNA茎环结构的强碱基配对。
在一些实施方式中,当在RNA中时,同向重复序列包含5'-S1a-Ba-S2a-L-S2b-Bb-S1b-3'的一般二级结构,其中区段S1a和S1b是反向互补序列并形成第一茎(S1),所述第一茎(S1)具有在Cas13e中的4个核苷酸和在Cas13f中的5个核苷酸;区段Ba和Bb不相互碱基配对,并形成对称的或接近对称的凸起(B),并且各具有在Cas13e中的5个核苷酸、以及分别在Cas13f中的5个(Ba)和4个(Bb)或6个(Ba)和5个(Bb)核苷酸;区段S2a和S2b是反向互补序列并形成第二茎(S2),所述第二茎(S2)具有在Cas13e中的5个碱基对和在Cas13f中的6或5个碱基对;并且L是在Cas13e中的8个核苷酸的环和在Cas13f中的5个核苷酸的环。参见图2。
在某些实施方式中,S1a具有在Cas13e中的GCUG序列和在Cas13f中的GCUGU序列。
在某些实施方式中,S2a具有在Cas13e中的GCCCC序列和在Cas13f中的A/GCCUC G/A序列(其中第一个A或G可以不存在)。
在一些实施方式中,所述同向重复序列包含SEQ ID NO:8-14的核酸序列或由其组成。
如本文所用,“同向重复序列”可指CRISPR基因座中的DNA编码序列,或指在crRNA中由其编码的RNA。因此,当在RNA分子(如crRNA)的上下文中提到SEQ ID NO:8-14中的任一者时,每个T应理解为代表U。
在一些实施方式中,所述同向重复序列包含如下核酸序列或由其组成,所述核酸序列具有SEQ ID NO:8-14的多达1、2、3、4、5、6、7或8个核苷酸的缺失、插入或取代。在一些实施方式中,所述同向重复序列包含如下核酸序列或由其组成,所述核酸序列与SEQ IDNO:8-14具有至少80%、85%、90%、95%或97%的序列同一性(例如,由于SEQ ID NO:8-14中核苷酸的缺失、插入或取代)。在一些实施方式中,所述同向重复序列包含如下核酸序列或由其组成,所述核酸序列与SEQ IDNO:8-14中的任一者不同,但可以在严格杂交条件下与SEQ ID NO:8-14中的任一者的互补序列杂交,或者可以在生理条件下与SEQ ID NO:8-14中的任一者的互补序列结合。
在某些实施方式中,所述缺失、插入或取代不改变SEQ ID NO:8-14的总体二级结构(例如,茎和凸起及环的相对位置和/或大小不显著偏离原始茎、凸起和环的相对位置和/或大小)。例如,所述缺失、插入或取代可以在所述凸起或环区中,使得所述凸起的总体对称性大致保持相同。所述缺失、插入或取代可以在所述茎中,使得所述茎的长度不显著偏离原始茎的长度(例如,在两个茎的每一个中添加或缺失一个碱基对对应于总共4个碱基变化)。
在某些实施方式中,所述缺失、插入或取代导致衍生性DR序列,所述衍生性DR序列可在一个或两个茎中具有±1或2个碱基对(参见图2),在所述凸起的一条或两条单链中具有±1、2或3个碱基,和/或在所述环区中具有±1、2、3或4个碱基。
在某些实施方式中,与SEQ ID NO:8-14中的任一者不同的任一上述同向重复序列保留在所述Cas13e或Cas13f蛋白中作为同向重复序列(作为SEQ ID NO:8-14的DR序列)发挥作用的能力。
在一些实施方式中,所述同向重复序列包含如下核酸或由其组成,所述核酸具有SEQ ID NO:8-14中的任一者的核酸序列,且具有初始三个、四个、五个、六个、七个或八个3'核苷酸的截短。
在一些实施方式中,所述Cas蛋白包含SEQ ID NO:1的氨基酸序列,并且所述crRNA包含同向重复序列,其中所述同向重复序列包含SEQ ID NO:8的核酸序列或由其组成。
在一些实施方式中,所述Cas蛋白包含SEQ ID NO:2的氨基酸序列,并且所述crRNA包含同向重复序列,其中所述同向重复序列包含SEQ ID NO:9的核酸序列或由其组成。
在一些实施方式中,所述Cas蛋白包含SEQ ID NO:3的氨基酸序列,并且所述crRNA包含同向重复序列,其中所述同向重复序列包含SEQ ID NO:10的核酸序列或由其组成。
在一些实施方式中,所述Cas蛋白包含SEQ ID NO:4的氨基酸序列,并且所述crRNA包含同向重复序列,其中所述同向重复序列包含SEQ ID NO:11的核酸序列或由其组成。
在一些实施方式中,所述Cas蛋白包含SEQ ID NO:5的氨基酸序列,并且所述crRNA包含同向重复序列,其中所述同向重复序列包含SEQ ID NO:12的核酸序列或由其组成。
在一些实施方式中,所述Cas蛋白包含SEQ ID NO:6的氨基酸序列,并且所述crRNA包含同向重复序列,其中所述同向重复序列包含SEQ ID NO:13的核酸序列或由其组成。
在一些实施方式中,所述Cas蛋白包含SEQ ID NO:7的氨基酸序列,并且所述crRNA包含同向重复序列,其中所述同向重复序列包含SEQ ID NO:14的核酸序列或由其组成。
在经典的CRISPR系统中,指导序列(例如,crRNA)与其对应的靶序列之间的互补程度可以是约50%、60%、75%、80%、85%、90%、95%、97.5%、99%或100%。在一些实施方式中,所述互补程度是90%-100%。
指导RNA的长度可以是约5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、75、100、125、150、175、200或更多个核苷酸。例如,为了在功能性Cas13e或Cas13f效应蛋白、或其同源物、直系同源物、衍生物、融合物、缀合物或功能性片段中使用,间隔子可以在10-60个核苷酸、20-50个核苷酸、25-45个核苷酸、25-35个核苷酸之间,或为约27、28、29、30、31、32或33个核苷酸。然而,为了在上述任一者的dCas版本中使用,间隔子可以在10-200个核苷酸、20-150个核苷酸、25-100个核苷酸、25-85个核苷酸、35-75个核苷酸、45-60个核苷酸之间,或为约46、47、48、49、50、51、52、53、54或55个核苷酸。
为了减少脱靶相互作用,例如,为了减少指导物与具有低互补性的靶序列相互作用,可以将突变引入所述CRISPR系统中,使得所述CRISPR系统可以区分具有大于80%、85%、90%或95%互补性的靶序列与脱靶序列。在一些实施方式中,所述互补程度为从80%至95%,例如,约83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%或95%(例如,区分具有18个核苷酸的靶标与具有1、2或3个错配的18个核苷酸的脱靶)。相应地,在一些实施方式中,指导序列与其对应的靶序列之间的互补程度大于94.5%、95%、95.5%、96%、96.5%、97%、97.5%、98%、98.5%、99%、99.5%或99.9%。在一些实施方式中,所述互补程度是100%。
本领域已知不需要完全的互补性,前提是有足够的互补性发挥作用。可以通过引入错配(例如,间隔序列与靶序列之间的一个或多个错配,如1或2个错配(包括沿着间隔子/靶标的错配的位置))来利用对切割效率的调节。错配(例如,双错配)位于越中心的位置(即,不在3'端或5'端处),切割效率受到的影响越大。相应地,通过选择沿着所述间隔序列的错配位置,可以调节切割效率。例如,如果希望靶标切割小于100%(例如,在细胞群中),可以在所述间隔序列中引入在间隔子和靶序列之间的1或2个错配。
已表明VI型CRISPR-Cas效应子采用多于一种RNA指导物,从而使这些效应子以及包括它们的系统和复合物能够实现靶向多个核酸的能力。在一些实施方式中,本文描述的CRISPR系统包括多种RNA指导物(例如,两种、三种、四种、五种、六种、七种、八种、九种、十种、十五种、二十种、三十种、四十种或更多种RNA指导物)。在一些实施方式中,本文描述的CRISPR系统包括单条RNA链或编码单条RNA链的核酸,其中所述RNA指导物串联排列。所述单条RNA链可以包括相同RNA指导物的多个拷贝、不同RNA指导物的多个拷贝、或其组合。本文描述的VI-E型和VI-F型CRISPR-Cas效应蛋白的加工能力使这些效应子能够靶向多个靶核酸(例如,靶RNA)而不丧失活性。在一些实施方式中,所述VI-E型和VI-F型CRISPR-Cas效应蛋白可以与针对不同靶RNA的多种RNA指导物复合进行递送。在一些实施方式中,所述VI-E型和VI-F型CRISPR-Cas效应蛋白可以与多种RNA指导物共同递送,每种RNA指导物对不同的靶核酸具有特异性。使用CRISPR相关蛋白进行多重复合(multiplexing)的方法描述于例如美国专利号9,790,490B2和EP 3009511 B1中,将各个文献的全部内容通过引用明确并入本文。
crRNA的间隔子长度可以在约10-60个核苷酸的范围内,如15-50个核苷酸、20-50个核苷酸、25-50个核苷酸或19-50个核苷酸。在一些实施方式中,指导RNA的间隔子长度为至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、或至少22个核苷酸。在一些实施方式中,所述间隔子长度为从15至17个核苷酸(例如,15、16或17个核苷酸)、从17至20个核苷酸(例如,17、18、19或20个核苷酸)、从20至24个核苷酸(例如,20、21、22、23或24个核苷酸)、从23至25个核苷酸(例如,23、24或25个核苷酸)、从24至27个核苷酸、从27至30个核苷酸、从30至45个核苷酸(例如,30、31、32、33、34、35、36、37、38、39、40、41、42、43、44或45个核苷酸)、从30或35至40个核苷酸、从41至45个核苷酸、从45至50个核苷酸(例如,45、46、47、48、49或50个核苷酸)或更长。在一些实施方式中,所述间隔子长度为从约15至约42个核苷酸。
在一些实施方式中,所述指导RNA的同向重复序列长度为15-36个核苷酸、为至少16个核苷酸、为从16至20个核苷酸(例如,16、17、18、19或20个核苷酸)、为20-30个核苷酸(例如,20、21、22、23、24、25、26、27、28、29或30个核苷酸)、为30-40个核苷酸(例如,30、31、32、33、34、35、36、37、38、39或40个核苷酸)、或为约36个核苷酸(例如,33、34、35、36、37、38或39个核苷酸)。在一些实施方式中,所述指导RNA的同向重复序列长度为36个核苷酸。
在一些实施方式中,所述crRNA/指导RNA的总体长度比上文任一间隔序列长度长约36个核苷酸。例如,所述crRNA/指导RNA的总体长度可以在45-86个核苷酸、或60-86个核苷酸、62-86个核苷酸、或63-86个核苷酸之间。
所述crRNA序列可以按以下方式修饰:允许在所述crRNA与CRISPR相关蛋白之间形成复合物并与靶标成功结合,同时不允许成功的核酸酶活性(即,没有核酸酶活性/没有导致插入缺失)。这些经修饰的指导序列称为“死crRNA”、“死指导物”或“死指导序列”。关于核酸酶活性,这些死指导物或死指导序列可以是无催化活性的或无构象活性的。死指导序列典型地比导致活性RNA切割的相应指导序列短。在一些实施方式中,死指导物比具有核酸酶活性的相应指导RNA短5%、10%、20%、30%、40%或50%。指导RNA的死指导序列的长度可以为从13至15个核苷酸(例如,长度为13、14或15个核苷酸)、长度为从15至19个核苷酸、或长度为从17至18个核苷酸(例如,长度为17个核苷酸)。
因此,在一个方面,本披露提供非天然存在的或工程化的CRISPR系统,所述CRISPR系统包括如本文描述的功能性CRISPR相关蛋白和crRNA,其中所述crRNA包含死crRNA序列,由此所述crRNA能够与靶序列杂交,使得将所述CRISPR系统引导至细胞中的目的基因组基因座而没有可检测的核酸酶活性(例如,RNA酶活性)。
对死指导物的详细描述例如在国际公布号WO 2016/094872中进行描述,将所述文献通过引用以其全文并入本文。
可以生成作为诱导型系统的组分的指导RNA(例如,crRNA)。所述系统的诱导型性质允许对基因编辑或基因表达进行时空控制。在一些实施方式中,用于所述诱导型系统的刺激包括例如电磁辐射、声能、化学能和/或热能。
在一些实施方式中,指导RNA(例如,crRNA)的转录可以通过诱导型启动子,例如四环素或强力霉素控制的转录激活(Tet-开和Tet-关表达系统)、激素诱导型基因表达系统(例如,蜕皮素诱导型基因表达系统)和阿拉伯糖诱导型基因表达系统来调节。诱导型系统的其他实例包括例如小分子双杂交转录激活系统(FKBP、ABA等)、光诱导型系统(光敏色素、LOV结构域或隐花色素)或光诱导型转录效应子(LITE)。这些诱导型系统描述于例如WO2016205764和美国专利号8,795,965中,将所述两个文献通过引用以其全文并入本文。
化学修饰可以应用于crRNA的磷酸骨架、糖和/或碱基。骨架修饰(如硫代磷酸酯)修饰磷酸骨架上的电荷并有助于寡核苷酸的递送和核酸酶抗性(参见例如,Eckstein,“Phosphorothioates,essential components of therapeutic oligonucleotides[硫代磷酸酯:治疗性寡核苷酸的必要组分],”Nucl.Acid Ther.[核酸疗法],24,第374-387页,2014);糖的修饰(如2'-O-甲基(2'-OMe)、2'-F和锁核酸(LNA))增强碱基配对和核酸酶抗性两者(参见例如,Allerson等人“Fully 2’-modified oligonucleotide duplexes withimproved in vitro potency and stability compared to unmodified smallinterfering RNA[与未经修饰的小干扰RNA相比,完全2'修饰的寡核苷酸双链体具有改善的体外效力和稳定性],”J.Med.Chem.[药物化学杂志]48.4:901-904,2005)。化学修饰的碱基(如2-硫代尿苷或N6-甲基腺苷等)可允许更强或更弱的碱基配对(参见例如,Bramsen等人,“Development of therapeutic-grade small interfering RNAs by chemicalengineering[通过化学工程开发治疗级小干扰RNA],”Front.Genet.[遗传学前沿],2012年8月20日;3:154)。另外,RNA适于5’端和3’端两者与多种功能性部分(包括荧光染料、聚乙二醇或蛋白)缀合。
可以对化学合成的crRNA分子应用多种修饰。例如,用2'-OMe修饰寡核苷酸以改善核酸酶抗性可以改变沃森-克里克(Watson-Crick)碱基配对的结合能。此外,2'-OMe修饰可以影响寡核苷酸与转染试剂、蛋白或细胞中任何其他分子相互作用的方式。这些修饰的效果可以通过经验测试来确定。
在一些实施方式中,所述crRNA包括一个或多个硫代磷酸酯修饰。在一些实施方式中,所述crRNA包括用于增强碱基配对和/或增加核酸酶抗性目的的一个或多个锁核酸。
这些化学修饰的汇总可见于例如Kelley等人,“Versatility of chemicallysynthesized guide RNAs for CRISPR-Cas9 genome editing[用于CRISPR-Cas9基因组编辑的化学合成的指导RNA的多功能性],”J.Biotechnol.[生物技术杂志]233:74-83,2016;WO 2016205764;和美国专利号8,795,965B2中;将各个文献通过引用以其全文并入。
可以优化本文描述的RNA指导物(例如,crRNA)的序列和长度。在一些实施方式中,RNA指导物的优化长度可以通过鉴定crRNA的加工形式(即,成熟的crRNA)或通过对crRNA四环的经验长度研究来确定。
所述crRNA还可以包括一个或多个适配序列。适配子是具有特定的三维结构并可以与特定的靶分子结合的寡核苷酸或肽分子。所述适配子可以对基因效应子、基因激活子或基因阻遏子具有特异性。在一些实施方式中,所述适配子可以对蛋白具有特异性,而所述蛋白又对特定的基因效应子、基因激活子或基因阻遏子具有特异性并对其进行募集和/或与其结合。所述效应子、激活子或阻遏子能够以融合蛋白的形式存在。在一些实施方式中,所述指导RNA具有对相同的衔接蛋白具有特异性的两个或更多个适配序列。在一些实施方式中,所述两个或更多个适配序列对不同的衔接蛋白具有特异性。所述衔接蛋白可以包括例如MS2、PP7、Qβ、F2、GA、fr、JP501、M12、R17、BZ13、JP34、JP500、KU1、M11、MX1、TW18、VK、SP、FI、ID2、NL95、TW19、AP205、φkCb5、φkCb8r、φkCb12r、φkCb23r、7s和PRR1。相应地,在一些实施方式中,所述适配子选自特异性结合如本文描述的任一种衔接蛋白的结合蛋白。在一些实施方式中,所述适配序列是MS2结合环(5’-ggcccAACAUGAGGAUCACCCAUGUCUGCAGgggcc-3’)。在一些实施方式中,所述适配序列是Qβ结合环(5’-ggcccAUGCUGUCUAAGACAGCAUgggcc-3’)。在一些实施方式中,所述适配序列是PP7结合环(5’-ggcccUAAGGGUUUAUAUGGAAACCCUUAgggcc-3’)。对适配子的详细描述可见于例如Nowak等人,“Guide RNAengineering for versatile Cas9 functionality[针对多种Cas9功能的指导RNA工程化],”Nucl.Acid.Res.[核酸研究],44(20):9555-9564,2016;和WO2016205764中,将所述文献通过引用以其全文并入本文。
在某些实施方式中,所述方法利用化学修饰的指导RNA。指导RNA化学修饰的实例包括但不限于在一个或多个末端核苷酸处掺入2'-O-甲基(M)、2'-O-甲基3'-硫代磷酸酯(MS)、或2'-O-甲基3'-硫基PACE(MSP)。与未经修饰的指导RNA相比,这样的化学修饰的指导RNA可以具有增加的稳定性和增加的活性,尽管中靶相对于脱靶特异性是不可预测的。参见Hendel,Nat Biotechnol.[自然生物技术]33(9):985-9,2015,将所述文献通过引用并入。化学修饰的指导RNA可进一步包括但不限于具有硫代磷酸酯键和锁核酸(LNA)核苷酸的RNA,所述锁核酸(LNA)核苷酸包含在核糖环的2'与4'碳之间的亚甲基桥。
本发明还涵盖用于递送多种核酸组分的方法,其中每种核酸组分对不同的目的靶基因座具有特异性,从而修饰多种目的靶基因座。复合物的核酸组分可以包含一个或多个蛋白结合RNA适配子。所述一个或多个适配子能够结合噬菌体外壳蛋白。所述噬菌体外壳蛋白可以选自Qβ、F2、GA、fr、JP501、MS2、M12、R17、BZ13、JP34、JP500、KU1、M11、MX1、TW18、VK、SP、FI、ID2、NL95、TW19、AP205、φCb5、φCb8r、φCb12r、φCb23r、7s和PRR1。在某些实施方式中,所述噬菌体外壳蛋白是MS2。
5.靶RNA
所述靶RNA可以是任何目的RNA分子,包括天然存在的和工程化的RNA分子。所述靶RNA可以是mRNA、tRNA、核糖体RNA(rRNA)、微小RNA(miRNA)、干扰RNA(siRNA)、核酶、核糖开关、卫星RNA、微开关、微酶(microzyme)或病毒RNA。
在一些实施方式中,所述靶核酸与病症或疾病(例如,感染性疾病或癌症)相关。
因此,在一些实施方式中,本文描述的系统可用于通过靶向这些核酸来治疗病症或疾病。例如,与病症或疾病相关的靶核酸可以是在患病细胞(例如,癌细胞或肿瘤细胞)中过表达的RNA分子。所述靶核酸也可以是毒性RNA和/或突变的RNA(例如,具有剪接缺陷或突变的mRNA分子)。所述靶核酸还可以是对特定微生物(例如,致病性细菌)具有特异性的RNA。
6.复合物和细胞
本发明的一个方面提供CRISPR/Cas13e或CRISPR/Cas13f复合物,其包含(1)如本文描述的任一Cas13e/Cas13f效应蛋白、其同源物、直系同源物、融合物、衍生物、缀合物、或功能性片段,和(2)本文描述的任一指导RNA,每个指导RNA包括设计为与靶RNA至少部分互补的间隔序列和与所述Cas13e/Cas13f效应蛋白、其同源物、直系同源物、融合物、衍生物、缀合物、或功能性片段相容的DR序列。
在某些实施方式中,所述复合物进一步包含所述指导RNA结合的靶RNA。
在某些实施方式中,所述复合物不是天然存在的。例如,所述复合物的组分中的至少一种不是天然存在的。在某些实施方式中,所述Cas13e/Cas13f效应蛋白、其同源物、直系同源物、融合物、衍生物、缀合物、或功能性片段不是天然存在的,这是由于例如与野生型蛋白相比,存在至少一个氨基酸突变(缺失、插入和/或取代)。在某些实施方式中,所述DR序列不是天然存在的,即,不是SEQ ID NO:8-14中的任一者,这是由于例如在野生型序列中添加、缺失和/或取代至少一个核苷酸碱基。在某些实施方式中,所述间隔序列不是天然存在的,因为它不存在或不由存在于以下中的任何间隔序列编码:主题Cas13e或Cas13f存在于其中的原核生物的野生型CRISPR基因座。当所述间隔序列与天然存在的噬菌体核酸不是100%互补时,它可能不是天然存在的。
在相关方面,本发明还提供细胞,所述细胞包含本发明的任一复合物。
在某些实施方式中,所述细胞是原核生物。
在某些实施方式中,所述细胞是真核生物。当所述细胞是真核生物时,在所述真核细胞中的复合物可以是分离出Cas13e/Cas13f的原核生物中天然存在的Cas13e/Cas13f复合物。
7.使用CRISPR系统的方法
本文描述的CRISPR系统具有多种效用,包括在多种细胞类型中修饰(例如,缺失、插入、易位、灭活或激活)靶多核苷酸或核酸。所述CRISPR系统在以下方面具有广泛的应用:例如DNA/RNA检测(例如,特异性高灵敏度酶促报告子解锁(SHERLOCK))、核酸的跟踪和标记、富集测定(从背景提取所希望的序列)、控制干扰RNA或miRNA、检测循环肿瘤DNA、制备下一代文库、药物筛选、疾病诊断和预后、以及治疗各种遗传障碍。
DNA/RNA检测
在一个方面,本文描述的CRISPR系统可用于DNA或RNA检测中。如实施例中所示,当间隔序列为约30个核苷酸时,本发明的Cas13e和Cas13f蛋白在其指导RNA依赖性特异性RNA酶活性激活后展现出非特异性/附带RNA酶活性。因此,本发明的CRISPR相关蛋白可以用CRISPR RNA(crRNA)重新编程以提供用于特定RNA感应的平台。通过选择特定的间隔序列长度,并在识别其RNA靶标后,激活的CRISPR相关蛋白参与附近非靶向的RNA的“附带”切割。这种crRNA编程的附带切割活性允许所述CRISPR系统通过触发程序性细胞死亡或通过经标记的RNA的非特异性降解来检测特定RNA的存在。
SHERLOCK方法(特异性高灵敏度酶促报告子解锁)提供基于报告RNA的核酸扩增和附带切割的具有渺摩尔(attomolar)灵敏度的体外核酸检测平台,从而允许实时检测靶标。为了实现信号检测,可以将检测与不同的等温扩增步骤组合。例如,重组酶聚合酶扩增(RPA)可以与T7转录偶联,以将扩增的DNA转化为RNA,用于后续检测。通过RPA进行扩增、T7RNA聚合酶将扩增的DNA转录为RNA、以及通过附带RNA切割介导的报告信号释放检测靶RNA的组合称为SHERLOCK。在SHERLOCK中使用CRISPR的方法详细描述于例如Gootenberg等人“Nucleic acid detection with CRISPR-Cas13a/C2c2[用CRISPR-Cas13a/C2c2进行核酸检测],”Science[科学],2017年4月28日;356(6336):438-442中,将所述文献通过引用以其全文并入本文。
所述CRISPR相关蛋白可用于RNA印迹测定中,所述测定使用电泳按大小分离RNA样品。所述CRISPR相关蛋白可用于特异性结合和检测靶RNA序列。所述CRISPR相关蛋白也可以与荧光蛋白(例如,GFP)融合,并用于跟踪活细胞中的RNA定位。更特别地,可以灭活所述CRISPR相关蛋白,因为它们不再如上所述切割RNA。因此,CRISPR相关蛋白可用于确定RNA或特定剪接变体的定位、mRNA转录物的水平、转录物的上调或下调以及疾病特异性诊断。所述CRISPR相关蛋白可用于(活)细胞中的RNA的可视化,例如使用荧光显微镜检查术或流式细胞术,如荧光激活细胞分选术(FACS),其允许对细胞进行高通量筛选和回收细胞分选后的活细胞。关于如何检测DNA和RNA的详细描述可见于例如国际公布号WO2017/070605中,将所述文献通过引用以其全文并入本文。
在一些实施方式中,本文描述的CRISPR系统可用于多重抗错荧光原位杂交(multiplexed error-robust fluorescence in situ hybridization,MERFISH)。这些方法描述于例如Chen等人,“Spatially resolved,highly multiplexed RNAprofiling insingle cells[在单细胞中进行空间分辨的高度多重化RNA分析],”Science[科学],2015年4月24日;348(6233):aaa6090,将所述文献通过在本文中引用以其全文并入本文。
在一些实施方式中,本文描述的CRISPR系统可用于检测样品(例如,临床样品、细胞或细胞裂解物)中的靶RNA。当间隔序列具有选择的特定长度(如约30个核苷酸)时,当本文描述的VI-E型和/或VI-F型CRISPR-Cas效应蛋白与靶核酸结合时,所述效应蛋白的附带RNA酶活性受到激活。在与目的靶RNA结合后,所述效应蛋白切割经标记的检测RNA以生成信号(例如,增加的信号或减少的信号),从而允许对样品中的靶RNA进行定性和定量检测。样品中的RNA的特异性检测和定量允许包括诊断在内的多种应用。在一些实施方式中,所述方法包括a)使样品与以下接触:(i)RNA指导物(例如,crRNA)和/或编码所述RNA指导物的核酸,其中所述RNA指导物由同向重复序列和能够与所述靶RNA杂交的间隔序列组成;(ii)VI-E型或VI-F型CRISPR-Cas效应蛋白(Cas13e或Cas13f)和/或编码所述效应蛋白的核酸;和(iii)经标记的检测RNA;其中所述效应蛋白与所述RNA指导物缔合以形成复合物;其中所述RNA指导物与所述靶RNA杂交;并且其中在所述复合物与所述靶RNA结合后,所述效应蛋白展现出附带RNA酶活性并切割所述经标记的检测RNA;以及b)测量通过所述经标记的检测RNA的切割产生的可检测信号,其中所述测量提供对所述样品中单链靶RNA的检测。在一些实施方式中,所述方法进一步包括将所述可检测信号与参考信号进行比较并确定所述样品中靶RNA的量。在一些实施方式中,所述测量使用以下进行:金纳米颗粒检测、荧光偏振、胶体相变/分散、电化学检测和基于半导体的感应。在一些实施方式中,所述经标记的检测RNA包括荧光发射染料对、荧光共振能量转移(FRET)对或猝灭剂/荧光团对。在一些实施方式中,在所述经标记的检测RNA经所述效应蛋白切割后,由所述经标记的检测RNA产生的可检测信号的量减少或增加。在一些实施方式中,所述经标记的检测RNA在经所述效应蛋白切割之前产生第一可检测信号,并且在经所述效应蛋白切割之后产生第二可检测信号。在一些实施方式中,当所述经标记的检测RNA经所述效应蛋白切割时产生可检测信号。在一些实施方式中,所述经标记的检测RNA包含经修饰的核碱基、经修饰的糖部分、经修饰的核酸连接、或其组合。在一些实施方式中,所述方法包括通过使用多个VI-E型和/或VI-F型CRISPR-Cas(Cas13e和/或Cas13f)系统,对样品中的多个独立靶RNA(例如,两个、三个、四个、五个、六个、七个、八个、九个、十个、十五个、二十个、三十个、四十个或更多个靶RNA)进行多通道检测,每个所述系统包括不同的直系同源效应蛋白和对应的RNA指导物,从而允许区分所述样品中的多个靶RNA。在一些实施方式中,所述方法包括使用VI-E型和/或VI-F型CRISPR-Cas系统的多个实例,对样品中的多个独立靶RNA进行多通道检测,每个所述实例含有具有可区分的附带RNA酶底物的直系同源效应蛋白。使用CRISPR相关蛋白检测样品中的RNA的方法描述于例如美国专利公布号2017/0362644中,将所述文献的全部内容通过引用并入本文。
核酸的跟踪和标记
细胞过程依赖于蛋白、RNA和DNA间的分子相互作用网络。准确检测蛋白-DNA和蛋白-RNA相互作用是理解这样的过程的关键。体外邻近标记技术采用与报告基团(例如,可光激活基团)组合的亲和标签,以在体外标记目的蛋白或RNA附近的多肽和RNA。在UV辐照后,所述可光激活基团与紧邻加标签分子的蛋白和其他分子发生反应,从而标记它们。随后可回收和鉴定经标记的相互作用分子。例如,所述CRISPR相关蛋白可用于将探针靶向选定的RNA序列。这些应用也可以应用于动物模型中,用于疾病或难以培养的细胞类型的体内成像。跟踪和标记核酸的方法描述于例如美国专利号8,795,965、WO 2016205764和WO2017070605中;将各个文献通过本文引用以其全文并入本文。
RNA分离、纯化、富集和/或耗竭
本文描述的CRISPR系统(例如,CRISPR相关蛋白)可用于分离和/或纯化RNA。可以将所述CRISPR相关蛋白与亲和标签融合,所述亲和标签可用于分离和/或纯化RNA-CRISPR相关蛋白复合物。这些应用例如可用于分析细胞中的基因表达谱。
在一些实施方式中,所述CRISPR相关蛋白可用于靶向特定的非编码RNA(ncRNA),从而阻断其活性。在一些实施方式中,所述CRISPR相关蛋白可用于特异性富集特定RNA(包括但不限于增加稳定性等),或替代性地,特异性耗竭特定RNA(例如,特定的剪接变体、同种型等)。
这些方法描述于例如美国专利号8,795,965、WO 2016205764和WO 2017070605中;将各个文献通过本文引用以其全文并入本文。
高通量筛选
本文描述的CRISPR系统可用于制备下一代测序(NGS)文库。例如,为了创建有成本效益的NGS文库,可以使用所述CRISPR系统破坏靶基因的编码序列,并且可以通过下一代测序(例如,在离子激流(Ion Torrent)PGM系统上)同时筛选经所述CRISPR相关蛋白转染的克隆。关于如何制备NGS文库的详细描述可见于例如Bell等人,“Ahigh-throughputscreening strategy for detecting CRISPR-Cas9induced mutations using next-generation sequencing[用于使用下一代测序检测CRISPR-Cas9诱导的突变的高通量筛选策略],”BMC Genomics[BMC基因组学],15.1(2014):1002,将所述文献通过引用以其全文并入本文。
工程化的微生物
微生物(例如,大肠杆菌、酵母和微藻)广泛用于合成生物学。合成生物学的发展具有广泛的效用,包括各种临床应用。例如,可编程CRISPR系统可以用于拆分具有用于靶向细胞死亡的毒性结构域的蛋白,例如使用癌症关联的RNA作为靶转录物。此外,涉及蛋白-蛋白相互作用的途径可以在使用例如与适当效应子(如激酶或酶)的融合复合物的合成生物系统中受到影响。
在一些实施方式中,可以将靶向噬菌体序列的crRNA引入微生物中。因此,本披露还提供针对噬菌体感染接种微生物(例如,生产菌株)的方法。
在一些实施方式中,本文提供的CRISPR系统可用于对微生物进行工程化,例如以改善产率或改善发酵效率。例如,本文描述的CRISPR系统可用于对微生物(如酵母)进行工程化,以从可发酵糖生成生物燃料或生物聚合物,或降解源自作为可发酵糖的来源的农业废弃物的植物衍生的木质纤维素。更特别地,本文描述的方法可用于修饰生物燃料生产所需的内源性基因的表达和/或修饰可能干扰生物燃料合成的内源性基因。对微生物进行工程化的这些方法描述于例如Verwaal等人,“CRISPR/Cpf1 enables fast and simplegenome editing of Saccharomyces cerevisiae[CRISPR/Cpf1能实现对酿酒酵母的快速简单的基因组编辑],”Yeast[酵母]doi:10.1002/yea.3278,2017;和Hlavova等人,“Improving microalgae for biotechnology-from genetics to synthetic biology[改善用于生物技术的微藻——从遗传学到合成生物学],”Biotechnol.Adv.[生物技术进展],33:1194-203,2015,将所述两个文献通过引用以全文并入本文。
在一些实施方式中,本文提供的CRISPR系统可用于诱导细胞(例如,微生物,如工程化的微生物)的死亡或休眠。这些方法可用于诱导多种细胞类型的休眠或死亡,所述细胞类型包括原核细胞和真核细胞,包括但不限于哺乳动物细胞(例如,癌细胞或组织培养细胞)、原生动物、真菌细胞、受病毒感染的细胞、受细胞内细菌感染的细胞、受细胞内原生动物感染的细胞、受朊病毒感染的细胞、细菌(例如,致病性细菌和非致病性细菌)、以及单细胞和多细胞寄生物。例如,在合成生物学领域,非常希望有控制工程化的微生物(例如,细菌)以防止它们繁殖或传播的机制。本文描述的系统可用作“杀灭开关(kill-switches)”以调节和/或防止工程化的微生物的繁殖或传播。此外,本领域需要现有抗生素治疗的替代物。本文描述的系统还可用于希望杀灭或控制特定微生物群(例如,细菌群)的应用中。例如,本文描述的系统可包括靶向属、种或株特异性的核酸(例如,RNA)并且可以递送至细胞的RNA指导物(例如,crRNA)。在与所述靶核酸复合和结合后,VI-E型和/或VI-F型CRISPR-Cas效应蛋白的附带RNA酶活性受到激活,从而导致微生物内非靶RNA的切割,最终导致休眠或死亡。在一些实施方式中,所述方法包括使细胞与本文描述的系统接触,所述系统包括VI-E型和/或VI-F型CRISPR-Cas效应蛋白或编码所述效应蛋白的核酸、以及RNA指导物(例如,crRNA)或编码所述RNA指导物的核酸,其中间隔序列与靶核酸(例如,属、株或种特异性RNA指导物)的至少15个核苷酸(例如,16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50或更多个核苷酸)互补。不希望受任何特定理论的束缚,所述VI-E型和/或VI-F型CRISPR-Cas效应蛋白对非靶RNA的切割可诱导程序性细胞死亡、细胞毒性、细胞凋亡、坏死、坏死性凋亡、细胞死亡、细胞周期停滞、细胞无反应性、细胞生长减少或细胞增殖减少。例如,在细菌中,所述VI-E型和/或VI-F型CRISPR-Cas效应蛋白对非靶RNA的切割可以是抑细菌的或杀细菌的。
在植物中的应用
本文描述的CRISPR系统在植物中具有多种效用。在一些实施方式中,所述CRISPR系统可用于对植物基因组进行工程化(例如,改善产量、制造具有希望的翻译后修饰的产物、或引入用于生产工业产物的基因)。在一些实施方式中,所述CRISPR系统可用于将希望的性状引入植物中(例如,对基因组进行或不进行可遗传修饰),或调节植物细胞或整株植物中内源性基因的表达。
在一些实施方式中,所述CRISPR系统可用于鉴定、编辑和/或沉默编码特定蛋白(例如,过敏原蛋白(例如,花生、大豆、扁豆、豌豆、四季豆和绿豆中的过敏原蛋白))的基因。关于如何鉴定、编辑和/或沉默编码蛋白的基因的详细描述在例如以下中描述:Nicolaou等人,“Molecular diagnosis of peanut and legume allergy[花生和豆类过敏的分子诊断],”Curr.Opin.Allergy Clin.Immunol.[过敏和临床免疫学的当前观点]11(3):222-8,2011,和WO 2016205764 A1;将所述两个文献通过引用以全文并入本文。
基因驱动
基因驱动是有利地偏倚特定基因或一组基因的遗传的现象。本文描述的CRISPR系统可用于建立基因驱动。例如,所述CRISPR系统可以设计为靶向并破坏基因的特定等位基因,从而导致细胞拷贝第二等位基因以固定序列。由于所述拷贝,第一等位基因将转化为第二等位基因,从而增加所述第二等位基因传给子代的机会。关于如何使用本文描述的CRISPR系统建立基因驱动的详细方法描述于例如Hammond等人,“ACRISPR-Cas9 genedrive system targeting female reproduction in the malaria mosquito vectorAnopheles gambiae[靶向疟疾蚊载体冈比亚按蚊中雌性生殖的CRISPR-Cas9基因驱动系统],”Nat.Biotechnol.[自然生物技术]34(1):78-83,2016,将所述文献通过引用以其全文并入本文。
混合筛选(Pooled-Screening)
如本文所述,混合CRISPR筛选是用于鉴定参与生物机制(如细胞增殖、药物抗性和病毒感染)的基因的强大工具。用本文描述的编码指导RNA(gRNA)的载体的文库批量转导细胞,并且在应用选择性激发之前和之后测量gRNA的分布。混合CRISPR筛选非常适用于影响细胞存活和增殖的机制,并且它们可以扩展至测量单个基因的活性(例如,通过使用工程化的报告细胞系)。一次只靶向一个基因的阵列CRISPR筛选使得使用RNA-seq作为读数成为可能。在一些实施方式中,如本文描述的CRISPR系统可用于单细胞CRISPR筛选中。关于混合CRISPR筛选的详细描述可见于例如Datlinger等人,“Pooled CRISPR screening withsingle-cell transcriptome read-out[具有单细胞转录组读数的混合CRISPR筛选],”Nat.Methods.[自然方法]14(3):297-301,2017,将所述文献通过引用以其全文并入本文。
饱和诱变(过度攻击(Bashing))
本文描述的CRISPR系统可用于原位饱和诱变。在一些实施方式中,混合指导RNA文库可用于对特定基因或调节元件进行原位饱和诱变。这样的方法可以揭示这些基因或调节元件(例如,增强子)的关键最小特征和离散脆弱性(discrete vulnerabilities)。这些方法描述于例如Canver等人,“BCL11A enhancer dissection by Cas9-mediated in situsaturating mutagenesis[通过Cas9介导的原位饱和诱变进行的BCL11A增强子解析],”Nature[自然]527(7577):192-7,2015中,将所述文献通过引用以其全文并入本文。
RNA相关应用
本文描述的CRISPR系统可具有多种RNA相关应用,例如,调节基因表达、降解RNA分子、抑制RNA表达、筛选RNA或RNA产物、确定lincRNA或非编码RNA的功能、诱导细胞休眠、诱导细胞周期停滞、减少细胞生长和/或细胞增殖、诱导细胞无反应性、诱导细胞凋亡、诱导细胞坏死、诱导细胞死亡和/或诱导程序性细胞死亡。对这些应用的详细描述可见于例如WO2016/205764 A1中,将所述文献通过引用以其全文并入本文。在不同的实施方式中,本文描述的方法可以在体外、在体内或离体进行。
例如,可以将本文描述的CRISPR系统向患有疾病或障碍的受试者施用,以靶向处于患病状态中的细胞(例如,癌细胞或受感染原感染的细胞)并诱导所述细胞中的细胞死亡。例如,在一些实施方式中,本文描述的CRISPR系统可用于靶向癌细胞并诱导所述癌细胞中的细胞死亡,其中所述癌细胞来自患有以下的受试者:威尔姆斯肿瘤、尤因肉瘤、神经内分泌肿瘤、胶质母细胞瘤、神经母细胞瘤、黑素瘤、皮肤癌、乳腺癌、结肠癌、直肠癌、前列腺癌、肝癌、肾癌、胰腺癌、肺癌、胆道癌、子宫颈癌、子宫内膜癌、食道癌、胃癌、头颈癌、甲状腺髓样癌、卵巢癌、神经胶质瘤、淋巴瘤、白血病、骨髓瘤、急性淋巴细胞白血病、急性骨髓性白血病、慢性淋巴细胞白血病、慢性骨髓性白血病、霍奇金淋巴瘤、非霍奇金淋巴瘤或膀胱癌。
调节基因表达
本文描述的CRISPR系统可用于调节基因表达。所述CRISPR系统可以与合适的指导RNA一起使用,以经由RNA加工的控制来靶向基因表达。所述RNA加工的控制可以包括例如RNA加工反应,如RNA剪接(例如,可变剪接)、病毒复制和tRNA生物合成。与合适的指导RNA组合的RNA靶向蛋白也可用于控制RNA激活(RNAa)。RNA激活是小RNA指导的和Argonaute(Ago)依赖性基因调节现象,其中启动子靶向的短双链RNA(dsRNA)在转录/表观遗传水平上诱导靶基因表达。RNAa导致基因表达的促进,因此可以通过破坏或减少RNAa来实现对基因表达的控制。在一些实施方式中,所述方法包括使用RNA靶向CRISPR作为例如干扰核糖核酸(如siRNA、shRNA或dsRNA)的取代物。调节基因表达的方法描述于例如WO 2016205764中,将所述文献通过引用以其全文并入本文。
控制RNA干扰
对干扰RNA或微小RNA(miRNA)的控制可以通过减少所述干扰RNA或miRNA在体内或体外的寿命来帮助减少脱靶效应。在一些实施方式中,靶RNA可以包括干扰RNA,即,参与RNA干扰途径的RNA,如小发夹RNA(shRNA)、小干扰RNA(siRNA)等。在一些实施方式中,靶RNA包括例如miRNA或双链RNA(dsRNA)。
在一些实施方式中,如果选择性地表达RNA靶向蛋白和合适的指导RNA(例如在空间或时间上,在受调节的启动子(例如组织或细胞周期特异性启动子)和/或增强子的控制下),则这可以用于保护细胞或系统(在体内或体外)免受那些细胞中的RNA干扰(RNAi)。在不需要RNAi的邻近组织或细胞中,或者出于对表达和不表达CRISPR相关蛋白和合适的crRNA的细胞或组织进行比较(即,分别为RNAi不受控制和受控制的情况)的目的,这可能是有用的。所述RNA靶向蛋白可用于控制或结合包含RNA或由其组成的分子,如核酶、核糖体或核糖开关。在一些实施方式中,所述指导RNA可以将所述RNA靶向蛋白募集到这些分子中,使得所述RNA靶向蛋白能够与它们结合。这些方法描述于例如WO 2016205764和WO2017070605中,将所述两个文献通过引用以其全文并入本文。
修饰核糖开关和控制代谢调节
核糖开关是信使RNA的调节区段,其结合小分子并继而调节基因表达。这种机制允许细胞感应这些小分子的细胞内浓度。特定的核糖开关典型地通过改变该基因的转录、翻译或剪接来调节其相邻基因。因此,在一些实施方式中,可以通过使用与合适的指导RNA组合的RNA靶向蛋白以靶向核糖开关来控制核糖开关活性。这可以通过切割所述核糖开关或与其结合来实现。使用CRISPR系统控制核糖开关的方法描述于例如WO 2016205764和WO2017070605中,将所述两个文献通过引用以其全文并入本文。
RNA修饰
在一些实施方式中,本文描述的CRISPR相关蛋白可以与碱基编辑结构域,如ADAR1、ADAR2、APOBEC或激活诱导的胞苷脱氨酶(AID)融合,并且可以用于修饰RNA序列(例如,mRNA)。在一些实施方式中,所述CRISPR相关蛋白包括一个或多个突变(例如,在催化结构域中),这使得所述CRISPR相关蛋白不能切割RNA。
在一些实施方式中,所述CRISPR相关蛋白可以与RNA结合融合多肽一起使用,所述RNA结合融合多肽包含与RNA结合结构域(如MS2(也称为MS2外壳蛋白)、Qβ(也称为Qβ外壳蛋白)或PP7(也称为PP7外壳蛋白))融合的碱基编辑结构域(例如,ADAR1、ADAR2、APOBEC或AID)。所述RNA结合结构域MS2、Qβ和PP7的氨基酸序列在下文提供:
MS2(MS2外壳蛋白)
MASNFTQFVLVDNGGTGDVTVAPSNFANGVAEWISSNSRSQAYKVTCSVRQSSAQKRKYTIKVEVPKV
ATQTVGGVELPVAAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSGIY
Qβ(Qβ外壳蛋白)
MAKLETVTLGNIGKDGKQTLVLNPRGVNPTNGVASLSQAGAVPALEKRVTVSVSQPSRNRKNYKVQVK
IQNPTACTANGSCDPSVTRQAYADVTFSFTQYSTDEERAFVRTELAALLASPLLIDAIDQLNPAY
PP7(PP7外壳蛋白)
MSKTIVLSVGEATRTLTEIQSTADRQIFEEKVGPLVGRLRLTASLRQNGAKTAYRVNLKLDQADVVDC
STSVCGELPKVRYTQVWSHDVTIVANSTEASRKSLYDLTKSLVVQATSEDLVVNLVPLGR
在一些实施方式中,所述RNA结合结构域可以与本文描述的系统的crRNA上(例如,当所述crRNA在效应子-crRNA复合物中时)的特定序列(例如,适配序列)或二级结构基序结合,从而将所述RNA结合融合多肽(其具有碱基编辑结构域)募集至所述效应子复合物中。例如,在一些实施方式中,所述CRISPR系统包括CRISPR相关蛋白、具有适配序列(例如,MS2结合环、Qβ结合环或PP7结合环)的crRNA、以及具有与RNA结合结构域融合的碱基编辑结构域的RNA结合融合多肽,所述RNA结合结构域与所述适配序列特异性结合。在该系统中,所述CRISPR相关蛋白与具有所述适配序列的crRNA形成复合物。此外,所述RNA结合融合多肽与所述crRNA结合(经由所述适配序列),从而形成可以修饰靶RNA的三分复合物(tripartitecomplex)。
使用CRISPR系统进行碱基编辑的方法描述于例如国际公布号WO2017/219027中,将所述文献通过引用以其全文并且特别是关于其对RNA修饰的讨论并入本文。
RNA剪接
在一些实施方式中,本文描述的失活的CRISPR相关蛋白(例如,在催化结构域中具有一个或多个突变的CRISPR相关蛋白)可用于靶向RNA转录物上的特定剪接位点并与其结合。所述失活的CRISPR相关蛋白与RNA的结合可在空间上抑制剪接体与转录物的相互作用,从而能够改变特定转录物同种型的生成频率。这样的方法可用于通过外显子跳跃(exonskipping)来治疗疾病,使得可以在成熟的蛋白中跳过具有突变的外显子。使用CRISPR系统改变剪接的方法描述于例如国际公布号WO 2017/219027中,将所述文献通过引用以其全文并且特别是关于其对RNA剪接的讨论并入本文。
治疗性应用
本文描述的CRISPR系统可以具有多种治疗性应用。这样的应用可基于主题CRISPR/Cas13e或Cas13f系统的以下一种或多种体外和体内能力:诱导细胞衰老、诱导细胞周期停滞、抑制细胞生长和/或增殖、诱导细胞凋亡、诱导坏死等。
在一些实施方式中,新的CRISPR系统可用于治疗多种疾病和障碍,例如遗传障碍(例如,单基因疾病)、可通过核酸酶活性(例如,Pcsk9靶向或BCL11a靶向)治疗的疾病(杜氏肌营养不良(DMD))、以及多种癌症等。
在一些实施方式中,本文描述的CRISPR系统可用于编辑靶核酸以修饰所述靶核酸(例如,通过插入、缺失或突变一个或多个核酸残基)。例如,在一些实施方式中,本文描述的CRISPR系统包含外源性供体模板核酸(例如,DNA分子或RNA分子),所述外源性供体模板核酸包含所希望的核酸序列。在解决用本文描述的CRISPR系统诱导的切割事件后,细胞的分子机制将利用所述外源性供体模板核酸修复和/或解决切割事件。替代性地,细胞的分子机制可以利用内源性模板修复和/或解决切割事件。在一些实施方式中,本文描述的CRISPR系统可用于改变靶核酸,从而导致插入、缺失和/或点突变。在一些实施方式中,所述插入是无痕插入(即,在解决切割事件后将预期的核酸序列插入靶核酸中未导致额外的非预期的核酸序列)。供体模板核酸可以是双链或单链核酸分子(例如,DNA或RNA)。设计外源性供体模板核酸的方法描述于例如国际公布号WO 2016/094874 A1中,将所述文献的全部内容通过引用明确并入本文。
在一个方面,本文描述的CRISPR系统可用于治疗由RNA、毒性RNA和/或突变RNA(例如,剪接缺陷或截短)的过表达引起的疾病。例如,毒性RNA的表达可以与核包涵体的形成以及脑、心脏或骨骼肌的迟发型退行性变化相关。在一些实施方式中,所述障碍是强直性肌营养不良。在强直性肌营养不良中,所述毒性RNA的主要致病作用是隔离(sequester)结合蛋白并损害可变剪接的调节(参见例如,Osborne等人,“RNA-dominant diseases[RNA显性疾病],”Hum.Mol.Genet.[人类分子遗传学],2009年4月15日;18(8):1471-81)。遗传学家对强直性肌营养不良(营养不良性肌强直(DM))特别感兴趣,因为它产生极其广泛的临床特征。DM的经典形式(现在称为1型DM(DM1))由编码细胞溶质蛋白激酶的基因DMPK的3'-非翻译区(UTR)中CTG重复序列的扩增引起。如本文描述的CRISPR系统可以靶向过表达的RNA或毒性RNA,例如DMPK基因或DM1骨骼肌、心脏或脑中的任一错误调节的可变剪接。
本文描述的CRISPR系统还可以靶向影响RNA依赖性功能的反式作用突变,所述突变导致多种疾病,例如像普拉德-威利综合征(Prader Willi syndrome)、脊髓性肌萎缩(SMA)和先天性角化不良。可以使用本文描述的CRISPR系统治疗的疾病列表汇总于Cooper等人,“RNAand disease[RNA和疾病],”Cell[细胞],136.4(2009):777-793和WO 2016/205764 A1中,将所述两个文献通过引用以全文并入本文。本领域的技术人员将理解如何使用新的CRISPR系统治疗这些疾病。
本文描述的CRISPR系统还可用于治疗各种tau蛋白病,包括例如原发性和继发性tau蛋白病,如原发性年龄相关性tau蛋白病(PART)/神经原纤维缠结(NFT)优势型老年性痴呆(其中NFT类似于在阿尔茨海默病(AD)中见到的那些,但没有斑块)、拳击性痴呆(慢性创伤性脑病)和进行性核上性麻痹。tau蛋白病的可用列表和治疗这些疾病的方法描述于例如WO 2016205764中,将所述文献通过引用以其全文并入本文。
本文描述的CRISPR系统还可用于靶向破坏顺式作用剪接代码的突变,所述突变可导致剪接缺陷和疾病。这些疾病包括例如,由SMN1基因的缺失导致的运动神经元退行性疾病(例如,脊髓性肌萎缩)、杜氏肌营养不良(DMD)、17号染色体相关的额颞叶痴呆合并帕金森综合征(FTDP-17)、以及囊性纤维化。
本文描述的CRISPR系统可进一步用于抗病毒活性,特别是抗RNA病毒。所述CRISPR相关蛋白可以使用经选择以靶向病毒RNA序列的合适的指导RNA来靶向病毒RNA。
本文描述的CRISPR系统还可用于在受试者(例如,人受试者)中治疗癌症。例如,本文描述的CRISPR相关蛋白可以用靶向RNA分子的crRNA编程,所述RNA分子是异常的(例如,包含点突变或者经可变剪接)并见于癌细胞中,以诱导癌细胞中的细胞死亡(例如,经由细胞凋亡)。
本文描述的CRISPR系统还可用于在受试者(例如,人受试者)中治疗自身免疫疾病或障碍。例如,本文描述的CRISPR相关蛋白可以用靶向RNA分子的crRNA编程,所述RNA分子是异常的(例如,包含点突变或者经可变剪接)并见于负责引起自身免疫疾病或障碍的细胞中。
此外,本文描述的CRISPR系统还可用于在受试者中治疗感染性疾病。例如,本文描述的CRISPR相关蛋白可以用靶向RNA分子的crRNA编程,所述RNA分子由感染原(例如,细菌、病毒、寄生物或原生动物)表达,以靶向并诱导感染原细胞中的细胞死亡。所述CRISPR系统还可用于治疗细胞内感染原感染宿主受试者细胞的疾病。通过对所述CRISPR相关蛋白进行编程以靶向由感染原基因编码的RNA分子,可以靶向受感染原感染的细胞并诱导细胞死亡。
此外,体外RNA感应测定可用于检测特定RNA底物。所述CRISPR相关蛋白可用于活细胞中基于RNA的感应。应用的实例是通过感应例如疾病特异性RNA进行的诊断。
本文描述的CRISPR系统的治疗性应用的详细描述可见于例如美国专利号8,795,965、EP 3009511、WO 2016205764和WO 2017070605中;将各个文献通过引用以其全文并入本文。
细胞及其后代
在某些实施方式中,本发明的方法可用于将本文描述的CRISPR系统引入细胞中,并引起所述细胞和/或其后代改变一种或多种细胞产物(如抗体、淀粉、乙醇、或任何其他所希望的产物)的产生。这样的细胞及其后代在本发明的范围内。
在某些实施方式中,本文描述的方法和/或CRISPR系统导致细胞的一种或多种RNA产物的翻译和/或转录的修饰。例如,所述修饰可导致RNA产物的转录/翻译/表达增加。在其他实施方式中,所述修饰可导致RNA产物的转录/翻译/表达降低。
在某些实施方式中,所述细胞是原核细胞。
在某些实施方式中,所述细胞是真核细胞,如哺乳动物细胞,包括人细胞(原代人细胞或已建立的人细胞系)。在某些实施方式中,所述细胞是非人哺乳动物细胞,如来自非人灵长类动物(例如,猴)、母牛/公牛/牛、绵羊、山羊、猪、马、狗、猫、啮齿动物(如兔子、小鼠、大鼠、仓鼠等)的细胞。在某些实施方式中,所述细胞来自鱼(如鲑鱼)、鸟(如禽鸟,包括鸡、鸭、鹅)、爬行动物、贝类(例如,牡蛎、蛤蜊、龙虾、对虾)、昆虫、蠕虫、酵母等。在某些实施方式中,所述细胞来自植物,如单子叶植物或双子叶植物。在某些实施方式中,所述植物是粮食作物,如大麦、木薯、棉花、落花生或花生、玉蜀黍、小米、油棕果、马铃薯、干豆、油菜籽或低芥酸菜籽(canola)、稻、黑麦、高粱、大豆、甘蔗、甜菜、向日葵和小麦。在某些实施方式中,所述植物是谷类(大麦、玉蜀黍、小米、稻、黑麦、高粱和小麦)。在某些实施方式中,所述植物是块茎(木薯和马铃薯)。在某些实施方式中,所述植物是糖料作物(甜菜和甘蔗)。在某些实施方式中,所述植物是含油作物(大豆、落花生或花生、油菜籽或低芥酸菜籽、向日葵和油棕果)。在某些实施方式中,所述植物是纤维作物(棉花)。在某些实施方式中,所述植物是树木(如桃树或油桃树、苹果树或梨树、坚果树(如杏仁树或核桃树或开心果树)、或柑橘树(例如,橙树、葡萄柚树或柠檬树))、草、蔬菜、水果或藻类。在某些实施方式中,所述植物是茄属植物;芸苔属(Brassica)植物;莴苣属(Lactuca)植物;菠菜属(Spinacia)植物;辣椒属(Capsicum)植物;棉花、烟草、芦笋、胡萝卜、卷心菜、西兰花、花椰菜、番茄、茄子、胡椒、生菜、菠菜、草莓、蓝莓、覆盆子、黑莓、葡萄、咖啡、可可等。
相关方面提供使用本文描述的CRISPR系统通过本发明的方法修饰的细胞或其后代。
在某些实施方式中,所述细胞在体外、在体内或离体进行修饰。
在某些实施方式中,所述细胞是干细胞。
8.递送
通过本披露和本领域的知识,本文描述的CRISPR系统或本文描述的其任一组分(Cas蛋白、其衍生物、功能性片段或各种融合物或加合物,以及指导RNA/crRNA)、其核酸分子、和/或编码或提供其组分的核酸分子可以通过各种递送系统(如载体,例如质粒和病毒递送载体)使用本领域中任何合适的手段递送。这样的方法包括(但不限于)电穿孔、脂质转染、显微注射、转染、超声、基因枪等。
在某些实施方式中,所述CRISPR相关蛋白和/或任一RNA(例如,指导RNA或crRNA)和/或辅助蛋白可以使用合适的载体递送,所述载体例如质粒或病毒载体(如腺相关病毒(AAV)、慢病毒、腺病毒、逆转录病毒载体和其他病毒载体、或其组合)。可以将所述蛋白和一种或多种crRNA包装到一种或多种载体(例如,质粒或病毒载体)中。对于细菌应用,可以使用噬菌体将编码本文描述的CRISPR系统的任一组分的核酸递送至细菌。示例性噬菌体包括但不限于T4噬菌体、Mu、λ噬菌体、T5噬菌体、T7噬菌体、T3噬菌体、Φ29、M13、MS2、Qβ和ΦX174。
在一些实施方式中,通过例如肌内注射、静脉内施用、经皮施用、鼻内施用、口服施用或粘膜施用将所述载体(例如,质粒或病毒载体)递送至目的组织。这样的递送可以经由单剂量或多剂量进行。本领域技术人员应理解,本文待递送的实际剂量可取决于多种因素而大幅变化,如载体选择、靶细胞、生物、组织、待治疗受试者的一般状况、所寻求的转化/修饰的程度、施用途径、施用模式、所寻求的转化/修饰的类型等。
在某些实施方式中,所述递送经由腺病毒进行,其可以是含有至少1×105个颗粒(也称为颗粒单位,pu)的腺病毒的单剂量。在一些实施方式中,所述剂量优选地是至少约1×106个颗粒、至少约1×107个颗粒、至少约1×108个颗粒、和至少约1×109个颗粒的腺病毒。所述递送方法和所述剂量描述于例如WO 2016205764A1和美国专利号8,454,972B2中,将所述两个文献通过引用以全文并入本文。
在一些实施方式中,所述递送经由质粒进行。所述剂量可以是足够数量的质粒以引发响应。在一些情况下,质粒组合物中质粒DNA的合适量可以是从约0.1至约2mg。质粒将通常包括(i)启动子;(ii)编码靶向核酸的CRISPR相关蛋白和/或辅助蛋白的序列,每个序列与启动子(例如,相同的启动子或不同的启动子)可操作地连接;(iii)可选择标志物;(iv)复制起点;以及(v)位于(ii)的下游并与其可操作地连接的转录终止子。质粒还可以编码CRISPR复合物的RNA组分,但这些组分中的一种或多种可以替代地在不同的载体上编码。施用频率在医学或兽医学从业者(例如,医师、兽医师)或本领域技术人员的范围内。
在另一实施方式中,所述递送经由脂质体或脂质转染配制品等进行,并且可以通过本领域技术人员已知的方法制备。这样的方法描述于例如WO 2016205764和美国专利号5,593,972、5,589,466、和5,580,859中,将各个文献通过引用以其全文并入本文。
在一些实施方式中,所述递送经由纳米颗粒或外泌体进行。例如,已表明外泌体在递送RNA方面特别有用。
将新的CRISPR系统的一种或多种组分引入细胞中的另外的手段是通过使用细胞穿透肽(CPP)。在一些实施方式中,细胞穿透肽与所述CRISPR相关蛋白连接。在一些实施方式中,所述CRISPR相关蛋白和/或指导RNA与一种或多种CPP偶联以有效地将它们转运到细胞(例如,植物原生质体)内。在一些实施方式中,所述CRISPR相关蛋白和/或一种或多种指导RNA由一种或多种环状或非环状DNA分子编码,所述环状或非环状DNA分子与一种或多种CPP偶联用于细胞递送。
CPP是少于35个氨基酸的短肽,所述短肽源自能够以非受体依赖性方式跨细胞膜转运生物分子的蛋白或嵌合序列。CPP可以是阳离子肽、具有疏水性序列的肽、两亲性肽、具有富含脯氨酸且抗微生物的序列的肽、以及嵌合肽或二分肽。CPP的实例包括例如Tat(其是1型HIV病毒复制所需的核转录激活蛋白)、穿膜肽、卡波西成纤维细胞生长因子(FGF)信号肽序列、整合素β3信号肽序列、聚精氨酸肽Args序列、富含鸟嘌呤的分子转运蛋白和甜箭肽。CPP和使用它们的方法描述于例如
等人,“Prediction of cell-penetratingpeptides[细胞穿透肽的预测],”Methods Mol.Biol.[分子生物学方法],2015;1324:39-58;Ramakrishna等人,“Gene disruption by cell-penetrating peptide-mediateddelivery of Cas9 protein and guide RNA[通过细胞穿透肽介导的Cas9蛋白和指导RNA的递送来破坏基因],”Genome Res.[基因组研究],2014年6月;24(6):1020-7;以及WO2016205764 A1中;将各个文献通过引用以其全文并入本文。
用于本文描述的CRISPR系统的各种递送方法还描述于例如美国专利号8,795,965、EP 3009511、WO 2016205764和WO 2017070605中;将各个文献通过引用以其全文并入本文。
9.试剂盒
本发明的另一方面提供试剂盒,所述试剂盒包含本文描述的主题CRISPR/Cas系统的任意两种或更多种组分,如Cas13e和Cas13f蛋白、其衍生物、功能性片段或各种融合物或加合物、指导RNA/crRNA、其复合物、涵盖它们的载体、或涵盖它们的宿主。
在某些实施方式中,所述试剂盒进一步包括使用其中涵盖的组分的说明,和/或与可在别处获得的其他组分组合的说明。
在某些实施方式中,所述试剂盒进一步包含一种或多种核苷酸,例如对应于以下的一种或多种核苷酸:可用于将指导RNA编码序列插入载体中并将所述编码序列与所述载体的一种或多种控制元件可操作地连接的那些。
在某些实施方式中,所述试剂盒进一步包含一种或多种缓冲液,所述缓冲液可用于溶解任一所述组分和/或为一种或多种所述组分提供合适的反应条件。这样的缓冲液可以包括以下中的一种或多种:PBS、HEPES、Tris、MOPS、Na2CO3、NaHCO3、NaB、或其组合。在某些实施方式中,所述反应条件包括适当的pH,如碱性pH。在某些实施方式中,所述pH在7-10之间。
在某些实施方式中,任一种或多种所述试剂盒组分可以储存在合适的容器中。
实施例
实施例1新型Cas13e和Cas13f系统的鉴定
使用了计算流水线技术从基因组和宏基因组来源产生2类CRISPR-Cas系统的扩展数据库。从以下下载了基因组和宏基因组序列:NCBI(Benson等人,2013;Pruitt等人,2012)、NCBI全基因组测序(WGS)、和DOE JGI整合微生物基因组(DOE JGI IntegratedMicrobial Genomes)(Markowitz等人,2012)。在长度至少5kb的所有重叠群上预测了蛋白(Prodigal(Hyatt等人,2010),匿名模式(anon mode)),并对其进行了去重(即,去除相同的蛋白序列)以构建完整的蛋白数据库。认为大于600个残基的蛋白是大蛋白(LP)。由于目前鉴定出的Cas13蛋白的大小大多数都大于900个残基,为了降低计算的复杂度,只进一步考虑了大蛋白。
使用Piler-CR(Edgar,PILER-CR:Fast and accurate identification ofCRISPR repeats[PILER-CR:CRISPR重复序列的快速准确鉴定].BMC Bioinformatics[BMC生物信息学]8:18,2007),使用所有默认参数鉴定了CRISPR阵列。将位于距CRISPR阵列±10kb内的编码非冗余大蛋白序列的ORF分组为CRISPR近端大蛋白编码簇,并将编码的LP定义为Cas-LP。
首先,使用了BLASP在Cas-LP之间进行成对比对,并获得了E值<1E-10的BLASTP比对结果。然后基于所述BLASTP结果使用了MCL进一步聚集Cas-LP,以创建Cas蛋白家族。
接下来,使用了BLASTP将Cas-LP与所有LP进行比对,并获得了E值<1E-10的BLASP比对结果。根据所述BLASTP比对结果进一步扩展了Cas-LP家族。获得了所述Cas-LP家族用于进一步分析,扩展后增加不超过一倍。
对于候选Cas蛋白的功能性表征,使用了蛋白家族数据库Pfam(Finn等人,2014)、NR数据库、和NCBI中的Cas蛋白注释所述候选Cas蛋白。然后使用MAFFT(Katoh和Standley,2013)对每个候选Cas效应蛋白进行了多序列比对。然后使用了JPred和HHpred分析这些蛋白中的保守区,以鉴定具有两个保守RXXXXH基序的候选Cas蛋白/家族。
该分析导致鉴定出了七种新型Cas13效应蛋白,它们属于两个新的Cas13家族,不同于先前鉴定出的所有2类CRISPR-Cas系统。这些包括新的Cas13e家族的Cas13e.1(SEQ IDNO:1)和Cas13e.2(SEQ ID NO:2),以及新的Cas13f家族的Cas13f.1(SEQ ID NO:3)、Cas13f.2(SEQ ID NO:4)、Cas13f.3(SEQ ID NO:5)、Cas13f.4(SEQ ID NO:6)和Cas13f.5(SEQ ID NO:7)。
MAQVSKQTSKKRELSIDEYQGARKWCFTIAFNKALVNRDKNDGLFVESLLRHEKYSKHDWYDEDTRALIKCSTQA
ANAKAEALRNYFSHYRHSPGCLTFTAEDELRTIMERAYERAIFECRRRETEVIIEFPSLFEGDRITTAGVVFFVS
FFVERRVLDRLYGAVSGLKKNEGQYKLTRKALSMYCLKDSRFTKAWDKRVLLFRDILAQLGRIPAEAYEYYHGEQ
GDKKRANDNEGTNPKRHKDKFIEFALHYLEAQHSEICFGRRHIVREEAGAGDEHKKHRTKGKVVVDFSKKDEDQS
YYISKNNVIVRIDKNAGPRSYRMGLNELKYLVLLSLQGKGDDAIAKLYRYRQHVENILDVVKVTDKDNHVFLPRF
VLEQHGIGRKAFKQRIDGRVKHVRGVWEKKKAATNEMTLHEKARDILQYVNENCTRSFNPGEYNRLLVCLVGKDV
ENFQAGLKRLQLAERIDGRVYSIFAQTSTINEMHQVVCDQILNRLCRIGDQKLYDYVGLGKKDEIDYKQKVAWFK
EHISIRRGFLRKKFWYDSKKGFAKLVEEHLESGGGQRDVGLDKKYYHIDAIGRFEGANPALYETLARDRLCLMMA
QYFLGSVRKELGNKIVWSNDSIELPVEGSVGNEKSIVFSVSDYGKLYVLDDAEFLGRICEYFMPHEKGKIRYHTV
YEKGFRAYNDLQKKCVEAVLAFEEKVVKAKKMSEKEGAHYIDFREILAQTMCKEAEKTAVNKVRRAFFHHHLKFVIDEFGLFSDVMKKYGIEKEWKFPVK*(SEQ ID NO:1)
MKVENIKEKSKKAMYLINHYEGPKKWCFAIVLNRACDNYEDNPHLFSKSLLEFEKTSRKDWFDEETRELVEQADT
EIQPNPNLKPNTTANRKLKDIRNYFSHHYHKNECLYFKNDDPIRCIMEAAYEKSKIYIKGKQIEQSDIPLPELFE
SSGWITPAGILLLASFFVERGILHRLMGNIGGFKDNRGEYGLTHDIFTTYCLKGSYSIRAQDHDAVMFRDILGYL
SRVPTESFQRIKQPQIRKEGQLSERKTDKFITFALNYLEDYGLKDLEGCKACFARSKIVREQENVESINDKEYKP
HENKKKVEIHFDQSKEDRFYINRNNVILKIQKKDGHSNIVRMGVYELKYLVLMSLVGKAKEAVEKIDNYIQDLRD
QLPYIEGKNKEEIKEYVRFFPRFIRSHLGLLQINDEEKIKARLDYVKTKWLDKKEKSKELELHKKGRDILRYINE
RCDRELNRNVYNRILELLVSKDLTGFYRELEELKRTRRIDKNIVQNLSGQKTINALHEKVCDLVLKEIESLDTEN
LRKYLGLIPKEEKEVTFKEKVDRILKQPVIYKGFLRYQFFKDDKKSFVLLVEDALKEKGGGCDVPLGKEYYKIVS
LDKYDKENKTLCETLAMDRLCLMMARQYYLSLNAKLAQEAQQIEWKKEDSIELIIFTLKNPDQSKQSFSIRFSVR
DFTKLYVTDDPEFLARLCSYFFPVEKEIEYHKLYSEGINKYTNLQKEGIEAILELEKKLIERNRIQSAKNYLSFNEIMNKSGYNKDEQDDLKKVRNSLLHYKLIFEKEHLKKFYEVMRGEGIEKKWSLIV*(SEQ ID NO:2)MNGIELKKEEAAFYFNQAELNLKAIEDNIFDKERRKTLLNNPQILAKMENFIFNFRDVTKNAKGEIDCLLLKLRELRNFYSHYVHKRDVRELSKGEKPILEKYYQFAIESTGSENVKLEIIENDAWLADAGVLFFLCIFLKKSQANKLISGISGFKRNDDTGQPRRNLFTYFSIREGYKVVPEMQKHFLLFSLVNHLSNQDDYIEKAHQPYDIGEGLFFHRIASTFLNISGILRNMKFYTYQSKRLVEQRGELKREKDIFAWEEPFQGNSYFEINGHKGVIGEDELKELCYAFLIGNQDANKVEGRITQFLEKFRNANSVQQVKDDEMLKPEYFPANYFAESGVGRIKDRVLNRLNKAIKSNKAKKGEIIAYDKMREVMAFINNSLPVDEKLKPKDYKRYLGMVRFWDREKDNIKREFETKEWSKYLPSNFWTAKNLERVYGLAREKNAELFNKLKADVEKMDERELEKYQKINDAKDLANLRRLASDFGVKWEEKDWDEYSGQIKKQITDSQKLTIMKQRITAGLKKKHGIENLNLRITIDINKSRKAVLNRIAIPRGFVKRHILGWQESEKVSKKIREAECEILLSKEYEELSKQFFQSKDYDKMTRINGLYEKNKLIALMAVYLMGQLRILFKEHTKLDDITKTTVDFKISDKVTVKIPFSNYPSLVYTMSSKYVDNIGNYGFSNKDKDKPILGKIDVIEKQRMEFIKEVLGFEKYLFDDKIIDKSKFADTATHISFAEIVEELVEKGWDKDRLTKLKDARNKALHGEILTGTSFDETKSLINELKK*(SEQ ID NO:3)
MSPDFIKLEKQEAAFYFNQTELNLKAIESNILDKQQRMILLNNPRILAKVGNFIFNFRDVTKNAKGEIDCLLFKL
EELRNFYSHYVHTDNVKELSNGEKPLLERYYQIAIQATRSEDVKFELFETRNENKITDAGVLFFLCMFLKKSQAN
KLISGISGFKRNDPTGQPRRNLFTYFSAREGYKALPDMQKHFLLFTLVNYLSNQDEYISELKQYGEIGQGAFFNR
IASTFLNISGISGNTKFYSYQSKRIKEQRGELNSEKDSFEWIEPFQGNSYFEINGHKGVIGEDELKELCYALLVA
KQDINAVEGKIMQFLKKFRNTGNLQQVKDDEMLEIEYFPASYFNESKKEDIKKEILGRLDKKIRSCSAKAEKAYD
KMKEVMEFINNSLPAEEKLKRKDYRRYLKMVRFWSREKGNIEREFRTKEWSKYFSSDFWRKNNLEDVYKLATQKN
AELFKNLKAAAEKMGETEFEKYQQINDVKDLASLRRLTQDFGLKWEEKDWEEYSEQIKKQITDRQKLTIMKQRVT
AELKKKHGIENLNLRITIDSNKSRKAVLNRIAIPRGFVKKHILGWQGSEKISKNIREAECKILLSKKYEELSRQF
FEAGNFDKLTQINGLYEKNKLTAFMSVYLMGRLNIQLNKHTELGNLKKTEVDFKISDKVTEKIPFSQYPSLVYAM
SRKYVDNVDKYKFSHQDKKKPFLGKIDSIEKERIEFIKEVLDFEEYLFKNKVIDKSKFSDTATHISFKEICDEMGKKGCNRNKLTELNNARNAALHGEIPSETSFREAKPLINELKK*(SEQ ID NO:4)
MSPDFIKLEKQEAAFYFNQTELNLKAIESNIFDKQQRVILLNNPQILAKVGDFIFNFRDVTKNAKGEIDCLLLKL
RELRNFYSHYVYTDDVKILSNGERPLLEKYYQFAIEATGSENVKLEIIESNNRLTEAGVLFFLCMFLKKSQANKL
ISGISGFKRNDPTGQPRRNLFTYFSVREGYKVVPDMQKHFLLFVLVNHLSGQDDYIEKAQKPYDIGEGLFFHRIA
STFLNISGILRNMEFYIYQSKRLKEQQGELKREKDIFPWIEPFQGNSYFEINGNKGIIGEDELKELCYALLVAGK
DVRAVEGKITQFLEKFKNADNAQQVEKDEMLDRNNFPANYFAESNIGSIKEKILNRLGKTDDSYNKTGTKIKPYD
MMKEVMEFINNSLPADEKLKRKDYRRYLKMVRIWDSEKDNIKREFESKEWSKYFSSDFWMAKNLERVYGLAREKN
AELFNKLKAVVEKMDEREFEKYRLINSAEDLASLRRLAKDFGLKWEEKDWQEYSGQIKKQISDRQKLTIMKQRIT
AELKKKHGIENLNLRITIDSNKSRKAVLNRIAVPRGFVKEHILGWQGSEKVSKKTREAKCKILLSKEYEELSKQF
FQTRNYDKMTQVNGLYEKNKLLAFMVVYLMERLNILLNKPTELNELEKAEVDFKISDKVMAKIPFSQYPSLVYAM
SSKYADSVGSYKFENDEKNKPFLGKIDTIEKQRMEFIKEVLGFEEYLFEKKIIDKSEFADTATHISFDEICNELIKKGWDKDKLTKLKDARNAALHGEIPAETSFREAKPLINGLKK*(SEQ ID NO:5)
MNI IKLKKEEAAFYFNQTILNLSGLDEIIEKQIPHIISNKENAKKVIDKIFNNRLLLKSVENYIYNFKDVAKNARTEIEAILLKLVELRNFYSHYVHNDTVKILSNGEKPILEKYYQIAIEATGSKNVKLVIIENNNCLTDSGVLFLLCMFLKKSQANKLISSVSGFKRNDKEGQPRRNLFTYYSVREGYKVVPDMQKHFLLFALVNHLSEQDDHIEKQQQSDELGKGLFFHRIASTFLNESGIFNKMQFYTYQSNRLKEKRGELKHEKDTFTWIEPFQGNSYFTLNGHKGVISEDQLKELCYTILIEKQNVDSLEGKIIQFLKKFQNVSSKQQVDEDELLKREYFPANYFGRAGTGTLKEKILNRLDKRMDPTSKVTDKAYDKMIEVMEFINMCLPSDEKLRQKDYRRYLKMVRFWNKEKHNIKREFDSKKWTRFLPTELWNKRNLEEAYQLARKENKKKLEDMRNQVRSLKENDLEKYQQINYVNDLENLRLLSQELGVKWQEKDWVEYSGQIKKQISDNQKLTIMKQRITAELKKMHGIENLNLRISIDTNKSRQTVMNRIALPKGFVKNHIQQNSSEKISKRIREDYCKIELSGKYEELSRQFFDKKNFDKMTLINGLCEKNKLIAFMVIYLLERLGFELKEKTKLGELKQTRMTYKISDKVKEDIPLSYYPKLVYAMNRKYVDNIDSYAFAAYESKKAILDKVDIIEKQRMEFIKQVLCFEEYIFENRIIEKSKFNDEETHISFTQIHDELIKKGRDTEKLSKLKHARNKALHGEIPDGTSFEKAKLLINEIKK*(SEQ ID NO:6)
MNAIELKKEEAAFYFNQARLNISGLDEIIEKQLPHIGSNRENAKKTVDMILDNPEVLKKMENYVFNSRDIAKNAR
GELEALLLKLVELRNFYSHYVHKDDVKTLSYGEKPLLDKYYEIAIEATGSKDVRLEIIDDKNKLTDAGVLFLLCM
FLKKSEANKLISSIRGFKRNDKEGQPRRNLFTYYSVREGYKVVPDMQKHFLLFTLVNHLSNQDEYISNLRPNQEI
GQGGFFHRIASKFLSDSGILHSMKFYTYRSKRLTEQRGELKPKKDHFTWIEPFQGNSYFSVQGQKGVIGEEQLKE
LCYVLLVAREDFRAVEGKVTQFLKKFQNANNVQQVEKDEVLEKEYFPANYFENRDVGRVKDKILNRLKKITESYK
AKGREVKAYDKMKEVMEFINNCLPTDENLKLKDYRRYLKMVRFWGREKENIKREFDSKKWERFLPRELWQKRNLE
DAYQLAKEKNTELFNKLKTTVERMNELEFEKYQQINDAKDLANLRQLARDFGVKWEEKDWQEYSGQIKKQITDRQ
KLTIMKQRITAALKKKQGIENLNLRITTDTNKSRKVVLNRIALPKGFVRKHILKTDIKISKQIRQSQCPIILSNN
YMKLAKEFFEERNFDKMTQINGLFEKNVLIAFMIVYLMEQLNLRLGKNTELSNLKKTEVNFTITDKVTEKVQISQ
YPSLVFAINREYVDGISGYKLPPKKPKEPPYTFFEKIDAIEKERMEFIKQVLGFEEHLFEKNVIDKTRFTDTATHISFNEICDELIKKGWDENKIIKLKDARNAALHGKIPEDTSFDEAKVLINELKK*(SEQ ID NO:7)
编码对应的在各pre-crRNA序列中的同向重复(DR)序列的DNA分别为SEQ ID NO:8-14。
GCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:8)
GCTGAAGAAGCCTCCGATTTGAGAGGTGATTACAGC(SEQ ID NO:9)
GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:10)
GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:11)
GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:12)
GCTGTGATGGGCCTCAATTTGTGGGGAAGTAACAGC(SEQ ID NO:13)
GCTGTGATAGGCCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:14)
Cas13e.1、Cas13e.2、Cas13f.1、Cas13f.2、Cas13f.3、Cas13f.4和Cas13f.5蛋白的天然(野生型)DNA编码序列分别为SEQ ID NO:15-21。
ATGGCGCAAGTGTCAAAGCAGACTTCGAAAAAGAGAGAGTTGTCTATCGATGAATATCAAGGTGCTCGGAAATGG
TGTTTTACGATTGCCTTCAACAAGGCTCTTGTGAATCGAGATAAGAACGACGGGCTTTTTGTCGAGTCGCTGTTA
CGCCATGAAAAGTATTCAAAGCACGACTGGTACGATGAGGATACACGCGCTTTGATCAAGTGTAGCACACAAGCG
GCCAATGCGAAGGCCGAGGCGTTAAGAAACTATTTCTCCCACTATCGACATTCGCCCGGGTGTCTGACATTTACA
GCAGAAGATGAGTTGCGGACAATCATGGAAAGGGCGTATGAGCGGGCGATCTTTGAATGCAGGAGACGCGAAACT
GAAGTGATCATCGAGTTTCCCAGCCTGTTCGAAGGCGACCGGATCACTACGGCGGGGGTTGTGTTTTTCGTTTCG
TTCTTTGTTGAACGGCGGGTGCTGGATCGTTTGTACGGTGCGGTAAGTGGGCTTAAGAAAAACGAAGGACAGTAC
AAGCTGACTCGGAAGGCGCTTTCGATGTATTGCCTGAAAGACAGTCGTTTCACGAAGGCGTGGGACAAACGCGTG
CTGCTTTTCAGGGATATACTCGCGCAGCTTGGACGCATCCCTGCGGAGGCGTATGAATACTACCACGGAGAGCAG
GGCGACAAGAAAAGAGCAAACGACAATGAGGGGACGAATCCGAAACGCCATAAAGACAAGTTCATCGAGTTTGCA
CTGCATTATCTGGAGGCGCAACACAGTGAGATATGCTTCGGGCGGCGACACATTGTCAGGGAGGAGGCCGGGGCA
GGCGACGAACACAAAAAGCACAGGACCAAAGGCAAGGTAGTTGTCGACTTTTCAAAAAAAGACGAAGATCAGTCA
TACTATATCAGTAAGAACAATGTTATCGTCAGGATTGATAAGAATGCCGGGCCTCGGAGTTATCGCATGGGGCTT
AACGAATTGAAATACCTTGTATTGCTTAGCCTTCAGGGAAAGGGCGACGATGCGATTGCAAAACTGTACAGGTAT
CGGCAGCATGTGGAGAACATTCTGGATGTAGTGAAGGTCACAGATAAGGATAATCACGTCTTCCTGCCGCGATTT
GTGCTGGAGCAACATGGGATTGGCAGGAAAGCTTTTAAGCAAAGAATAGACGGCAGAGTAAAGCATGTTCGAGGG
GTGTGGGAAAAGAAGAAGGCGGCGACCAACGAGATGACACTTCACGAGAAGGCGCGGGACATTCTTCAATACGTA
AATGAAAATTGCACGAGGTCTTTCAATCCCGGCGAGTACAACCGGCTGCTGGTGTGTCTGGTTGGCAAGGATGTT
GAGAATTTTCAGGCGGGACTGAAACGCCTGCAACTGGCCGAGCGAATCGACGGGCGGGTATATTCAATTTTTGCG
CAGACCTCCACAATAAACGAGATGCATCAGGTGGTGTGTGATCAGATTCTCAACAGACTTTGCCGAATCGGCGAT
CAGAAGCTCTACGATTATGTGGGGCTTGGGAAGAAGGATGAAATAGATTACAAGCAGAAGGTTGCATGGTTCAAG
GAGCATATTTCTATCCGCAGGGGTTTCTTGCGCAAGAAGTTCTGGTATGACAGCAAGAAGGGATTCGCGAAGCTT
GTGGAAGAGCATTTGGAAAGCGGCGGCGGACAGAGGGACGTTGGGCTGGATAAAAAGTATTATCATATTGATGCG
ATTGGGCGATTCGAGGGTGCTAATCCAGCCTTGTATGAAACGCTGGCGCGAGACCGTTTGTGTCTGATGATGGCG
CAATACTTCCTGGGGAGTGTACGCAAGGAATTGGGTAATAAAATTGTGTGGTCGAATGATAGCATCGAGTTGCCC
GTGGAGGGCTCAGTGGGTAACGAAAAAAGCATCGTCTTCTCAGTGAGTGATTACGGCAAGTTATATGTGTTGGAT
GACGCTGAGTTTCTTGGGCGGATATGTGAGTACTTTATGCCGCACGAAAAAGGGAAGATACGGTATCATACAGTT
TACGAAAAAGGGTTTAGGGCATATAATGATCTGCAGAAGAAATGTGTCGAGGCGGTGCTGGCGTTTGAAGAGAAG
GTTGTCAAAGCCAAAAAGATGAGCGAGAAGGAAGGGGCGCATTATATTGATTTTCGTGAGATACTGGCACAAACA
ATGTGTAAAGAGGCGGAGAAGACCGCCGTGAATAAGGTGCGTAGAGCGTTTTTCCATCATCATTTAAAGTTTGTG
ATAGATGAATTTGGGTTGTTTAGTGATGTTATGAAGAAATATGGAATTGAAAAGGAGTGGAAGTTTCCTGTTAAATGA(SEQ ID NO:15)
ATGAAGGTTGAAAATATTAAAGAAAAAAGCAAAAAAGCAATGTATTTAATCAACCATTATGAGGGACCCAAAAAA
TGGTGTTTTGCAATAGTTCTGAATAGGGCATGTGATAATTACGAGGACAATCCACACTTGTTTTCCAAATCACTT
TTGGAATTTGAAAAAACAAGTCGAAAAGATTGGTTTGACGAAGAAACACGAGAGCTTGTTGAGCAAGCAGATACA
GAAATACAGCCAAATCCTAACCTGAAACCTAATACAACAGCTAACCGAAAACTCAAAGATATAAGAAACTATTTT
TCGCATCATTATCACAAGAACGAATGCCTGTATTTTAAGAACGATGATCCCATACGCTGCATTATGGAAGCGGCG
TATGAAAAATCTAAAATTTATATCAAAGGAAAGCAGATTGAGCAAAGCGATATACCATTGCCCGAATTGTTTGAA
AGCAGCGGTTGGATTACACCGGCGGGGATTTTGTTACTGGCATCCTTTTTTGTTGAACGAGGGATTCTACATCGC
TTGATGGGAAATATCGGAGGATTTAAAGATAATCGAGGCGAATACGGTCTTACACACGATATTTTTACCACCTAT
TGTCTTAAGGGTAGTTATTCAATTCGGGCGCAGGATCATGATGCGGTAATGTTCAGAGATATTCTCGGCTATCTG
TCACGAGTTCCCACTGAGTCATTTCAGCGTATCAAGCAACCTCAAATACGAAAAGAAGGCCAATTAAGTGAAAGA
AAGACGGACAAATTTATAACATTTGCACTAAATTATCTTGAGGATTATGGGCTGAAAGATTTGGAAGGCTGCAAA
GCCTGTTTTGCCAGAAGTAAAATTGTAAGGGAACAAGAAAATGTTGAAAGCATAAATGATAAGGAATACAAACCT
CACGAGAACAAAAAGAAAGTTGAAATTCACTTCGATCAGAGCAAAGAAGACCGATTTTATATTAATCGCAATAAC
GTTATTTTGAAGATTCAGAAGAAAGATGGACATTCCAACATAGTTAGGATGGGAGTATATGAACTTAAATATCTC
GTTCTTATGAGTTTAGTGGGAAAAGCAAAAGAAGCAGTTGAAAAAATTGACAACTATATCCAGGATTTGCGAGAC
CAGTTGCCTTACATAGAGGGGAAAAATAAGGAAGAGATTAAAGAATACGTCAGGTTCTTTCCACGATTTATACGT
TCTCACCTCGGTTTACTACAGATTAACGATGAAGAAAAGATAAAAGCTCGATTAGATTATGTTAAGACCAAGTGG
TTAGATAAAAAGGAAAAATCGAAAGAGCTTGAACTTCATAAAAAAGGACGGGACATCCTCAGGTATATCAACGAG
CGATGTGATAGAGAGCTTAACAGGAATGTATATAACCGTATTTTAGAGCTCCTGGTCAGCAAAGACCTCACTGGT
TTTTATCGTGAGCTTGAAGAACTAAAAAGAACAAGGCGGATAGATAAAAATATTGTCCAGAATCTTTCTGGGCAA
AAAACCATTAATGCACTGCATGAAAAGGTCTGTGATCTGGTGCTGAAGGAAATCGAAAGTCTCGATACAGAAAAT
CTCAGGAAATATCTTGGATTGATACCCAAAGAAGAAAAAGAGGTCACTTTCAAAGAAAAGGTCGATAGGATTTTG
AAACAGCCAGTTATTTACAAAGGGTTTCTGAGATACCAATTCTTCAAAGATGACAAAAAGAGTTTTGTCTTACTT
GTTGAAGACGCATTGAAGGAAAAAGGAGGAGGTTGTGATGTTCCTCTTGGGAAAGAGTATTATAAAATCGTGTCA
CTTGATAAGTATGATAAAGAAAATAAAACCCTGTGTGAAACTCTGGCGATGGATAGGCTTTGCCTTATGATGGCA
AGACAATATTATCTCAGTCTGAATGCAAAACTTGCACAGGAAGCTCAGCAAATCGAATGGAAGAAAGAAGATAGT
ATAGAATTGATTATTTTCACCTTAAAAAATCCCGATCAATCAAAGCAGAGTTTTTCTATACGGTTTTCGGTCAGA
GATTTTACGAAGTTGTATGTAACGGATGATCCTGAATTTCTGGCCCGGCTTTGTTCCTACTTTTTCCCAGTTGAA
AAAGAGATTGAATATCACAAGCTCTATTCAGAAGGGATAAATAAATACACAAACCTGCAAAAAGAGGGAATCGAA
GCAATACTCGAGCTTGAAAAAAAGCTTATTGAACGAAATCGGATTCAATCTGCAAAAAATTATCTCTCATTTAAT
GAGATAATGAATAAAAGCGGTTATAATAAAGATGAGCAGGATGATCTAAAGAAGGTGCGAAATTCTCTTTTGCAT
TATAAGCTTATCTTTGAGAAAGAACATCTCAAGAAGTTCTATGAGGTTATGAGAGGAGAAGGGATAGAGAAAAAGTGGTCTTTAATAGTATGA(SEQ ID NO:16)
ATGAATGGCATTGAATTAAAAAAAGAAGAAGCAGCATTTTATTTTAATCAGGCAGAGCTTAATTTAAAAGCCATA
GAAGACAATATTTTTGATAAAGAAAGACGAAAGACTCTGCTTAATAATCCACAGATACTTGCCAAAATGGAAAAT
TTCATTTTCAATTTCAGAGATGTAACAAAAAATGCAAAAGGGGAAATTGACTGCTTGCTGTTGAAACTAAGAGAG
CTGAGAAACTTTTACTCGCATTATGTCCACAAACGAGATGTAAGAGAATTAAGCAAGGGCGAGAAACCTATACTT
GAAAAGTATTACCAATTTGCGATTGAATCAACCGGAAGTGAAAATGTTAAACTTGAGATAATAGAAAACGACGCG
TGGCTTGCAGATGCCGGTGTGTTGTTTTTCTTATGTATTTTTTTGAAGAAATCTCAGGCAAATAAGCTTATAAGC
GGTATCAGCGGTTTTAAAAGAAACGATGATACCGGTCAGCCGAGAAGGAATTTATTTACCTATTTCAGTATAAGG
GAGGGATACAAGGTTGTTCCGGAAATGCAGAAACATTTCCTTTTGTTTTCTCTTGTTAATCATCTCTCTAATCAA
GATGATTATATTGAAAAAGCGCATCAGCCATACGATATAGGCGAGGGTTTATTTTTTCATCGAATAGCTTCTACA
TTTCTTAATATAAGTGGGATTTTAAGAAATATGAAATTCTATACCTATCAGAGTAAAAGGTTAGTAGAGCAGCGG
GGAGAACTCAAACGAGAAAAGGATATTTTTGCGTGGGAAGAACCGTTTCAAGGAAATAGTTATTTTGAAATAAAT
GGTCATAAAGGAGTAATCGGTGAAGATGAATTGAAGGAACTATGTTATGCATTTCTGATTGGCAATCAAGATGCT
AATAAAGTGGAAGGCAGGATTACACAATTTCTAGAAAAGTTTAGAAATGCGAACAGTGTGCAACAAGTTAAAGAT
GATGAAATGCTAAAACCAGAGTATTTTCCTGCAAATTATTTTGCTGAATCAGGCGTCGGAAGAATAAAGGATAGA
GTGCTTAATCGTTTGAATAAAGCGATTAAAAGCAATAAGGCCAAGAAAGGAGAGATTATAGCATACGATAAGATG
AGAGAGGTTATGGCGTTCATAAATAATTCTCTGCCGGTAGATGAAAAATTGAAACCAAAAGATTACAAACGATAT
CTGGGAATGGTTCGTTTCTGGGACAGGGAAAAAGATAACATAAAGCGGGAGTTCGAGACAAAAGAATGGTCTAAA
TATCTTCCATCTAATTTCTGGACGGCAAAAAACCTTGAAAGGGTCTATGGTCTGGCAAGAGAGAAAAACGCAGAA
TTATTCAATAAACTAAAAGCGGATGTAGAAAAAATGGACGAACGGGAACTTGAGAAGTATCAGAAGATAAATGAT
GCAAAGGATTTGGCAAATTTACGCCGGCTTGCAAGCGACTTTGGTGTGAAGTGGGAAGAAAAAGACTGGGATGAG
TATTCAGGACAGATAAAAAAACAAATTACAGACAGCCAGAAACTAACAATAATGAAGCAGCGGATAACCGCAGGA
CTAAAGAAAAAGCACGGCATAGAAAATCTTAACCTGAGAATAACTATCGACATCAATAAAAGCAGAAAGGCAGTT
TTGAACAGAATTGCGATTCCGAGGGGTTTTGTAAAAAGGCATATTTTAGGATGGCAAGAGTCTGAGAAGGTATCG
AAAAAGATAAGAGAGGCAGAATGCGAAATTCTGCTGTCGAAAGAATACGAAGAACTATCGAAACAATTTTTCCAA
AGCAAAGATTATGACAAAATGACACGGATAAATGGCCTTTATGAAAAAAACAAACTTATAGCCCTGATGGCAGTT
TATCTAATGGGGCAATTGAGAATCCTGTTTAAAGAACACACAAAACTTGACGATATTACGAAAACAACTGTGGAT
TTCAAAATATCTGATAAGGTGACGGTAAAAATCCCCTTTTCAAATTATCCTTCGCTCGTTTATACAATGTCCAGT
AAGTATGTTGATAATATAGGGAATTATGGATTTTCCAACAAAGATAAAGACAAGCCGATTTTAGGTAAGATTGAT
GTAATAGAAAAACAGCGAATGGAATTTATAAAAGAGGTTCTTGGTTTTGAAAAATATCTTTTTGATGATAAAATA
ATAGATAAAAGCAAATTTGCTGATACAGCGACTCATATAAGTTTTGCAGAAATAGTTGAGGAGCTTGTTGAAAAA
GGATGGGACAAAGACAGACTGACAAAACTTAAAGATGCAAGAAATAAAGCCCTGCATGGTGAAATACTGACGGGAACCAGCTTTGATGAAACAAAATCATTGATAAACGAATTAAAAAAATGA(SEQ ID NO:17)
ATGTCCCCAGATTTCATCAAATTAGAAAAACAGGAAGCAGCTTTTTACTTTAATCAGACAGAGCTTAATTTAAAA
GCCATAGAAAGCAATATTTTAGACAAACAACAGCGAATGATTCTGCTTAATAATCCACGGATACTTGCCAAAGTA
GGAAATTTCATTTTCAATTTCAGAGATGTAACAAAAAATGCAAAAGGAGAAATAGACTGTCTGCTATTTAAACTG
GAAGAGCTAAGAAACTTTTACTCGCATTATGTTCATACCGACAATGTAAAGGAATTGAGTAACGGAGAAAAACCC
CTACTGGAAAGATATTATCAAATCGCTATTCAGGCAACCAGGAGTGAGGATGTTAAGTTCGAATTGTTTGAAACA
AGAAACGAGAATAAGATTACGGATGCCGGTGTATTGTTTTTCTTATGTATGTTTTTAAAAAAATCACAGGCAAAC
AAGCTTATAAGCGGTATCAGCGGCTTCAAAAGAAATGATCCAACAGGCCAGCCGAGAAGAAACTTATTTACCTAT
TTCAGTGCAAGAGAAGGATATAAGGCTTTGCCTGATATGCAGAAACATTTTCTTCTTTTTACTCTGGTTAATTAT
TTGTCGAATCAGGATGAGTATATCAGCGAGCTTAAACAATATGGAGAGATTGGTCAAGGAGCCTTTTTTAATCGA
ATAGCTTCAACATTTTTGAATATCAGCGGGATTTCAGGAAATACGAAATTCTATTCGTATCAAAGTAAAAGGATA
AAAGAGCAGCGAGGCGAACTCAATAGCGAAAAGGACAGCTTTGAATGGATAGAGCCTTTCCAAGGAAACAGCTAT
TTTGAAATAAATGGGCATAAAGGAGTAATCGGCGAAGACGAATTAAAAGAACTTTGTTATGCATTGTTGGTTGCC
AAGCAAGATATTAATGCCGTTGAAGGCAAAATTATGCAATTCCTGAAAAAGTTTAGAAATACTGGCAATTTGCAG
CAAGTTAAAGATGATGAAATGCTGGAAATAGAATATTTTCCCGCAAGTTATTTTAATGAATCAAAAAAAGAGGAC
ATAAAGAAAGAGATTCTTGGCCGGCTGGATAAAAAGATTCGCTCCTGCTCTGCAAAGGCAGAAAAAGCCTATGAT
AAGATGAAAGAGGTGATGGAGTTTATAAATAATTCTCTGCCGGCAGAGGAAAAATTGAAACGCAAAGATTATAGA
AGATATCTAAAGATGGTTCGTTTCTGGAGCAGAGAAAAAGGCAATATAGAGCGGGAATTTAGAACAAAGGAATGG
TCAAAATATTTTTCATCTGATTTTTGGCGGAAGAACAATCTTGAAGATGTGTACAAACTGGCAACACAAAAAAAC
GCTGAACTGTTCAAAAATCTAAAAGCGGCAGCAGAGAAAATGGGTGAAACGGAATTTGAAAAGTATCAGCAGATA
AACGATGTAAAGGATTTGGCAAGTTTAAGGCGGCTTACGCAAGATTTTGGTTTGAAGTGGGAAGAAAAGGACTGG
GAGGAGTATTCCGAGCAGATAAAAAAACAAATTACGGACAGGCAGAAACTGACAATAATGAAACAAAGGGTTACG
GCTGAACTAAAGAAAAAGCACGGCATAGAAAATCTTAATCTGAGAATAACCATCGACAGCAATAAAAGCAGAAAG
GCGGTTTTGAACAGAATAGCAATTCCAAGAGGATTTGTAAAAAAACATATTTTAGGCTGGCAGGGATCTGAGAAG
ATATCGAAAAATATAAGGGAAGCAGAATGCAAAATTCTGCTATCGAAAAAATATGAAGAGTTATCAAGGCAGTTT
TTTGAAGCCGGTAATTTCGATAAGCTGACGCAGATAAATGGTCTTTATGAAAAGAATAAACTTACAGCTTTTATG
TCAGTATATTTGATGGGTCGGTTGAATATTCAGCTTAATAAGCACACAGAACTTGGAAATCTTAAAAAAACAGAG
GTGGATTTTAAGATATCTGATAAGGTGACTGAAAAAATACCGTTTTCTCAGTATCCTTCGCTTGTCTATGCGATG
TCTCGCAAATATGTTGACAATGTGGATAAATATAAATTTTCTCATCAAGATAAAAAGAAGCCATTTTTAGGTAAA
ATTGATTCAATTGAAAAAGAACGTATTGAATTCATAAAAGAGGTTCTCGATTTTGAAGAGTATCTTTTTAAAAAT
AAGGTAATAGATAAAAGCAAATTTTCCGATACAGCGACTCATATTAGCTTTAAGGAAATATGTGATGAAATGGGT
AAAAAAGGATGTAACCGAAACAAACTAACCGAACTTAACAACGCAAGGAACGCAGCCCTGCATGGTGAAATACCG
TCGGAGACCTCTTTTCGTGAAGCAAAACCGTTGATAAATGAATTGAAAAAATGA(SEQ ID NO:18)
ATGTCCCCAGATTTCATCAAATTAGAAAAACAAGAAGCAGCTTTTTACTTTAATCAGACAGAGCTTAATTTAAAA
GCCATAGAAAGCAATATTTTCGACAAACAACAGCGAGTGATTCTGCTTAATAATCCACAGATACTTGCCAAAGTA
GGAGATTTTATTTTCAATTTCAGAGATGTAACAAAAAACGCAAAAGGAGAAATAGACTGTTTGCTATTGAAACTA
AGAGAGCTGAGAAACTTTTACTCACACTATGTCTATACCGATGACGTGAAGATATTGAGTAACGGCGAAAGACCT
CTGCTGGAAAAATATTATCAATTTGCGATTGAAGCAACCGGAAGTGAAAATGTTAAACTTGAAATAATAGAAAGC
AACAACCGACTTACGGAAGCGGGCGTGCTGTTTTTCTTGTGTATGTTTTTGAAAAAGTCTCAGGCAAATAAGCTT
ATAAGCGGTATCAGCGGTTTTAAAAGAAATGACCCGACAGGTCAGCCGAGAAGGAATTTATTTACCTACTTCAGT
GTAAGGGAGGGATACAAGGTTGTGCCGGATATGCAGAAACATTTTCTTTTGTTTGTTCTTGTCAATCATCTCTCT
GGTCAGGATGATTATATTGAAAAGGCGCAAAAGCCATACGATATAGGCGAGGGTTTATTTTTTCATCGAATAGCT
TCTACATTTCTTAATATCAGTGGGATTTTAAGAAATATGGAATTCTATATTTACCAGAGCAAAAGACTAAAGGAG
CAGCAAGGAGAGCTCAAACGTGAAAAGGATATTTTTCCATGGATAGAGCCTTTCCAGGGAAATAGTTATTTTGAA
ATAAATGGTAATAAAGGAATAATCGGCGAAGATGAATTGAAAGAGCTTTGTTATGCGTTGCTGGTTGCAGGAAAA
GATGTCAGAGCCGTCGAAGGTAAAATAACACAATTTTTGGAAAAGTTTAAAAATGCGGACAATGCTCAGCAAGTT
GAAAAAGATGAAATGCTGGACAGAAACAATTTTCCCGCCAATTATTTCGCCGAATCGAACATCGGCAGCATAAAG
GAAAAAATACTTAATCGTTTGGGAAAAACTGATGATAGTTATAATAAGACGGGGACAAAGATTAAACCATACGAC
ATGATGAAAGAGGTAATGGAGTTTATAAATAATTCTCTTCCGGCAGATGAAAAATTGAAACGCAAAGATTACAGA
AGATATCTAAAGATGGTTCGTATCTGGGACAGTGAGAAAGATAATATAAAGCGGGAGTTTGAAAGCAAAGAATGG
TCAAAATATTTTTCATCTGATTTCTGGATGGCAAAAAATCTTGAAAGGGTCTATGGGTTGGCAAGAGAGAAAAAC
GCCGAATTATTCAATAAGCTAAAAGCGGTTGTGGAGAAAATGGACGAGCGGGAATTTGAGAAGTATCGGCTGATA
AATAGCGCAGAGGATTTGGCAAGTTTAAGACGGCTTGCGAAAGATTTTGGCCTGAAGTGGGAAGAAAAGGACTGG
CAAGAGTATTCTGGGCAGATAAAAAAACAAATTTCTGACAGGCAGAAACTGACAATAATGAAACAAAGGATTACG
GCTGAACTAAAGAAAAAGCACGGCATAGAAAATCTCAATCTTAGAATAACCATCGACAGCAATAAAAGCAGAAAG
GCAGTTTTGAACAGAATCGCAGTTCCAAGAGGTTTTGTGAAAGAGCATATTTTAGGATGGCAGGGGTCTGAGAAG
GTATCGAAAAAGACAAGAGAAGCAAAGTGCAAAATTCTGCTCTCGAAAGAATATGAAGAATTATCAAAGCAATTT
TTCCAAACCAGAAATTACGACAAGATGACGCAGGTAAACGGTCTTTACGAAAAGAATAAACTCTTAGCATTTATG
GTCGTTTATCTTATGGAGCGGTTGAATATCCTGCTTAATAAGCCCACAGAACTTAATGAACTTGAAAAAGCAGAG
GTGGATTTCAAGATATCTGATAAGGTGATGGCCAAAATCCCGTTTTCACAGTATCCTTCGCTTGTGTACGCGATG
TCCAGCAAATATGCTGATAGTGTAGGCAGTTATAAATTTGAGAATGATGAAAAAAACAAGCCGTTTTTAGGCAAG
ATCGATACAATAGAAAAACAACGAATGGAGTTTATAAAAGAAGTCCTTGGTTTTGAAGAGTATCTTTTTGAAAAG
AAGATAATAGATAAAAGCGAATTTGCCGACACAGCGACTCATATAAGTTTTGATGAAATATGTAATGAGCTTATT
AAAAAAGGATGGGATAAAGACAAACTAACCAAACTTAAAGATGCCAGGAACGCGGCCCTGCATGGCGAAATACCG
GCGGAGACCTCTTTTCGTGAAGCAAAACCGTTGATAAATGGATTGAAAAAATGA(SEQ ID NO:19)ATGAACATCATTAAATTAAAAAAAGAAGAAGCTGCGTTTTATTTTAATCAGACGATCCTCAATCTTTCAGGGCTTGATGAAATTATTGAAAAACAAATTCCGCACATAATCAGCAACAAGGAAAATGCAAAGAAAGTGATTGATAAGATTTTCAATAACCGCTTATTATTAAAAAGTGTGGAGAATTATATCTACAACTTTAAAGATGTGGCTAAAAACGCAAGAACTGAAATTGAGGCTATATTGTTGAAATTAGTAGAGCTACGTAATTTTTACTCACATTACGTTCATAATGATACCGTCAAGATACTAAGTAACGGTGAAAAACCTATACTGGAAAAATATTATCAAATTGCTATAGAAGCAACCGGAAGTAAAAATGTTAAACTTGTAATCATAGAAAACAACAACTGTCTCACGGATTCTGGCGTGCTGTTTTTGCTGTGTATGTTCTTAAAAAAATCACAGGCAAACAAGCTTATAAGTTCCGTTAGTGGTTTTAAAAGGAATGATAAAGAAGGACAACCGAGAAGAAATCTATTCACTTATTATAGTGTGAGGGAGGGATATAAGGTTGTGCCTGATATGCAGAAGCATTTCCTTCTATTCGCTCTGGTCAATCATCTATCTGAGCAGGATGATCATATTGAGAAGCAGCAGCAGTCAGACGAGCTCGGTAAGGGTTTGTTTTTCCATCGTATAGCTTCGACTTTTTTAAACGAGAGCGGCATCTTCAATAAAATGCAATTTTATACATATCAGAGCAACAGGCTAAAAGAGAAAAGAGGAGAACTCAAACACGAAAAGGATACCTTTACATGGATAGAGCCTTTTCAAGGCAATAGTTATTTTACGTTAAATGGACATAAGGGAGTGATTAGTGAAGATCAATTGAAGGAGCTTTGTTACACAATTTTAATTGAGAAGCAAAACGTTGATTCCTTGGAAGGTAAAATTATACAATTTCTCAAAAAATTTCAGAATGTCAGCAGCAAGCAGCAAGTTGACGAAGATGAATTGCTTAAAAGAGAATATTTCCCTGCAAATTACTTTGGCCGGGCAGGAACAGGGACCCTAAAAGAAAAGATTCTAAACCGGCTTGATAAGAGGATGGATCCTACATCTAAAGTGACGGATAAAGCTTATGACAAAATGATTGAAGTGATGGAATTTATCAATATGTGCCTTCCGTCTGATGAGAAGTTGAGGCAAAAGGATTATAGACGATACTTAAAGATGGTTCGTTTCTGGAATAAGGAAAAGCATAACATTAAGCGCGAGTTTGACAGTAAAAAATGGACGAGGTTTTTGCCGACGGAATTGTGGAATAAAAGAAATCTAGAAGAAGCCTATCAATTAGCACGGAAAGAGAACAAAAAGAAACTTGAAGATATGAGAAATCAAGTACGAAGCCTTAAAGAAAATGACCTTGAAAAATATCAGCAGATTAATTACGTTAATGACCTGGAGAATTTAAGGCTTCTGTCACAGGAGTTAGGTGTGAAATGGCAGGAAAAGGACTGGGTTGAATATTCCGGGCAGATAAAGAAGCAGATATCAGACAATCAGAAACTTACAATCATGAAACAAAGGATTACCGCTGAACTAAAGAAAATGCACGGCATCGAGAATCTTAATCTTAGAATAAGCATTGACACGAATAAAAGCAGGCAGACGGTTATGAACAGGATAGCTTTGCCCAAAGGTTTTGTGAAGAATCATATCCAGCAAAATTCGTCTGAGAAAATATCGAAAAGAATAAGAGAGGATTATTGTAAAATTGAGCTATCGGGAAAATATGAAGAACTTTCAAGGCAATTTTTTGATAAAAAGAATTTCGATAAGATGACACTGATAAACGGCCTTTGTGAAAAGAACAAACTTATCGCATTTATGGTTATCTATCTTTTGGAGCGGCTTGGATTTGAATTAAAGGAGAAAACAAAATTAGGCGAGCTTAAACAAACAAGGATGACATATAAAATATCCGATAAGGTAAAAGAAGATATCCCGCTTTCCTATTACCCCAAGCTTGTGTATGCAATGAACCGAAAATATGTTGACAATATCGATAGTTATGCATTTGCGGCTTACGAATCCAAAAAAGCTATTTTGGATAAAGTGGATATCATAGAAAAGCAACGTATGGAATTTATCAAACAAGTTCTCTGTTTTGAGGAATATATTTTCGAAAATAGGATTATCGAAAAAAGCAAATTTAATGACGAGGAGACTCATATAAGTTTTACACAAATACATGATGAGCTTATTAAAAAAGGACGGGACACAGAAAAACTCTCTAAACTCAAACATGCAAGGAATAAAGCCTTGCACGGCGAGATTCCTGATGGGACTTCTTTTGAAAAAGCAAAGCTATTGATAAATGAAATCAAAAAATGA(SEQ ID NO:20)
ATGAATGCTATCGAACTAAAAAAAGAGGAAGCAGCATTTTATTTTAATCAGGCAAGACTCAACATTTCAGGACTT
GATGAAATTATTGAAAAGCAGTTACCACATATAGGTAGTAACAGGGAGAATGCGAAAAAAACTGTTGATATGATT
TTGGATAATCCCGAAGTCTTGAAGAAGATGGAAAATTATGTCTTTAACTCACGAGATATAGCAAAGAACGCAAGA
GGTGAACTTGAAGCATTGTTGTTGAAATTAGTAGAACTGCGTAATTTTTATTCACATTATGTTCATAAAGATGAT
GTTAAGACATTGAGTTACGGAGAAAAACCTTTACTGGATAAATATTATGAAATTGCGATTGAAGCGACCGGAAGT
AAAGATGTCAGACTTGAGATAATAGATGATAAAAATAAGCTTACAGATGCCGGTGTGCTTTTTTTATTGTGTATG
TTTTTGAAAAAATCAGAGGCAAACAAACTTATCAGTTCAATCAGGGGCTTTAAAAGAAACGATAAAGAAGGCCAG
CCGAGAAGAAATCTATTCACTTACTACAGTGTCAGAGAGGGATATAAGGTTGTGCCTGATATGCAGAAACATTTT
CTTTTATTCACACTGGTTAACCATTTGTCAAATCAGGATGAATACATCAGTAATCTTAGGCCGAATCAAGAAATC
GGCCAAGGGGGATTTTTCCATAGAATAGCATCAAAATTTTTGAGCGATAGCGGGATTTTACATAGTATGAAATTC
TACACCTACCGGAGTAAAAGACTAACAGAACAACGGGGGGAGCTTAAGCCGAAAAAAGATCATTTTACATGGATA
GAGCCTTTTCAGGGAAACAGTTATTTTTCAGTGCAGGGCCAAAAAGGAGTAATTGGTGAAGAGCAATTAAAGGAG
CTTTGTTATGTATTGCTGGTTGCCAGAGAAGATTTTAGGGCCGTTGAGGGCAAAGTTACACAATTTCTGAAAAAG
TTTCAGAATGCTAATAACGTACAGCAAGTTGAAAAAGATGAAGTGCTGGAAAAAGAATATTTTCCTGCAAATTAT
TTTGAAAATCGAGACGTAGGCAGAGTAAAGGATAAGATACTTAATCGTTTGAAAAAAATCACTGAAAGCTATAAA
GCTAAAGGGAGGGAGGTTAAAGCCTATGACAAGATGAAAGAGGTAATGGAGTTTATAAATAATTGCCTGCCAACA
GATGAAAATTTGAAACTCAAAGATTACAGAAGATATCTGAAAATGGTTCGTTTCTGGGGCAGGGAAAAGGAAAAT
ATAAAGCGGGAATTTGACAGTAAAAAATGGGAGAGGTTTTTGCCAAGAGAACTCTGGCAGAAAAGAAACCTCGAA
GATGCGTATCAACTGGCAAAAGAGAAAAACACCGAGTTATTCAATAAATTGAAAACAACTGTTGAGAGAATGAAC
GAACTGGAATTCGAAAAGTATCAGCAGATAAACGACGCAAAAGATTTGGCAAATTTAAGGCAACTGGCGCGGGAC
TTCGGCGTGAAGTGGGAAGAAAAGGACTGGCAAGAGTATTCGGGGCAGATAAAAAAACAAATTACAGACAGGCAA
AAACTTACAATAATGAAACAAAGGATTACTGCTGCATTGAAGAAAAAGCAAGGCATAGAAAATCTTAATCTTAGG
ATAACAACCGACACCAATAAAAGCAGAAAGGTGGTATTGAACAGAATAGCGCTACCTAAAGGTTTTGTAAGGAAG
CATATCTTAAAAACAGATATAAAGATATCAAAGCAAATAAGGCAATCACAATGTCCTATTATACTGTCAAACAAT
TATATGAAGCTGGCAAAGGAATTCTTTGAGGAGAGAAATTTTGATAAGATGACGCAGATAAACGGGCTATTTGAG
AAAAATGTACTTATAGCGTTTATGATAGTTTATCTGATGGAACAACTGAATCTTCGACTTGGTAAGAATACGGAA
CTTAGCAATCTTAAAAAAACGGAGGTTAATTTTACGATAACCGACAAGGTAACGGAAAAAGTCCAGATTTCGCAG
TATCCATCGCTTGTTTTCGCCATAAACAGAGAATATGTTGATGGAATCAGCGGTTATAAGTTACCGCCCAAAAAA
CCGAAAGAGCCTCCGTATACTTTCTTCGAGAAAATAGACGCAATAGAAAAAGAACGAATGGAATTCATAAAACAG
GTCCTCGGTTTCGAAGAACATCTTTTTGAGAAGAATGTAATAGACAAAACTCGCTTTACTGATACTGCGACTCAT
ATAAGTTTTAATGAAATATGTGATGAGCTTATAAAAAAAGGATGGGACGAAAACAAAATAATAAAACTTAAAGAT
GCGAGGAATGCAGCATTGCATGGTAAGATACCGGAGGATACGTCTTTTGATGAAGCGAAAGTACTGATAAATGAATTAAAAAAATGA(SEQ ID NO:21)
针对另外的功能性实验生成了七种Cas13e和Cas13f蛋白(即,Cas13e.1、Cas13e.2、Cas13f.1、Cas13f.2、Cas13f.3、Cas13f.4和Cas13f.5),它们的经人密码子优化的编码序列分别为SEQ ID NO:22-28。
ATGGCCCAGGTGAGCAAGCAGACCTCCAAGAAGAGGGAGCTGAGCATCGACGAGTACCAGGGCGCCCGGAAGTGG
TGCTTCACCATTGCCTTCAACAAGGCCCTGGTGAACCGGGACAAGAACGACGGCCTGTTCGTGGAAAGCCTGCTG
AGACACGAGAAGTACAGCAAGCACGACTGGTACGACGAAGATACCCGGGCCCTGATCAAGTGCAGCACCCAGGCC
GCCAACGCCAAGGCTGAAGCCCTGCGGAACTACTTCAGTCACTACCGGCATAGCCCTGGCTGCCTGACCTTCACC
GCCGAGGACGAACTGCGGACCATCATGGAGAGAGCCTATGAGCGGGCCATCTTCGAGTGCAGAAGAAGAGAGACA
GAGGTGATCATCGAGTTTCCCAGCCTGTTCGAGGGCGACCGGATCACCACCGCCGGCGTGGTGTTTTTCGTGAGC
TTTTTCGTGGAAAGAAGAGTGCTGGATCGGCTGTATGGAGCCGTGTCCGGCCTGAAGAAGAATGAGGGACAGTAC
AAGCTGACCCGGAAGGCCCTGAGCATGTACTGCCTGAAGGACAGCAGATTCACCAAGGCCTGGGATAAGCGGGTG
CTGCTGTTCAGAGACATCCTGGCCCAGCTGGGAAGAATCCCCGCCGAGGCCTACGAGTACTACCACGGCGAGCAG
GGTGATAAGAAGAGAGCTAACGACAATGAGGGCACAAATCCCAAGCGGCACAAGGACAAGTTCATCGAATTTGCA
CTGCACTACCTGGAAGCCCAGCACAGCGAGATCTGCTTCGGCAGACGCCACATCGTGCGGGAAGAGGCCGGCGCC
GGCGATGAGCACAAGAAGCACCGGACCAAGGGAAAGGTGGTGGTGGACTTCAGCAAGAAGGACGAGGACCAGAGC
TACTATATCTCCAAGAACAACGTGATCGTGCGGATCGACAAGAACGCCGGCCCTAGAAGCTACCGGATGGGCCTG
AACGAGCTGAAGTACCTCGTGCTGCTGAGCCTGCAGGGGAAGGGCGACGATGCCATCGCCAAGCTGTACAGATAC
AGACAGCACGTGGAGAACATCCTGGATGTGGTGAAGGTGACCGATAAGGATAACCACGTGTTCCTGCCCCGCTTC
GTGCTGGAGCAGCACGGCATCGGCAGAAAGGCCTTCAAGCAGCGGATCGATGGACGGGTGAAGCACGTGCGGGGC
GTGTGGGAGAAGAAGAAGGCCGCCACCAATGAAATGACCCTGCACGAGAAGGCCAGAGACATCCTGCAGTACGTG
AACGAAAACTGCACCCGGTCCTTCAACCCTGGCGAATACAACAGACTGCTGGTGTGCCTGGTGGGCAAGGACGTG
GAGAACTTTCAGGCCGGCCTGAAGCGGCTGCAGCTGGCCGAAAGGATCGATGGCCGGGTGTACTCCATCTTCGCC
CAGACCAGCACCATCAATGAGATGCACCAGGTGGTGTGCGACCAGATCCTGAACCGGCTGTGCAGAATCGGCGAC
CAGAAGCTGTACGATTACGTGGGACTGGGCAAGAAGGACGAAATCGACTACAAGCAGAAGGTGGCCTGGTTCAAG
GAGCACATCAGCATCCGGAGAGGATTCCTGAGAAAGAAGTTCTGGTACGATAGCAAGAAGGGATTCGCAAAGCTG
GTGGAGGAACACCTGGAGTCCGGCGGCGGCCAGCGCGACGTGGGCCTGGACAAGAAGTACTACCACATCGACGCC
ATCGGCAGATTCGAGGGCGCCAACCCCGCCCTGTACGAGACCCTGGCCAGAGATCGGCTGTGCCTCATGATGGCC
CAGTACTTCCTGGGCAGCGTGAGAAAGGAACTGGGCAACAAGATTGTGTGGAGCAACGACAGCATCGAACTGCCT
GTGGAAGGCTCTGTGGGAAATGAGAAGAGCATCGTGTTCTCCGTGTCTGACTACGGCAAGCTGTACGTGCTGGAC
GATGCCGAATTCCTGGGCCGGATCTGCGAATACTTCATGCCCCACGAAAAGGGCAAGATCCGGTACCACACAGTG
TACGAAAAGGGCTTTAGAGCATACAACGACCTGCAGAAGAAGTGCGTGGAGGCCGTGCTGGCTTTCGAAGAGAAG
GTGGTGAAGGCCAAGAAGATGAGCGAGAAGGAAGGCGCCCACTACATCGACTTCCGGGAGATCCTGGCCCAGACC
ATGTGCAAGGAGGCCGAGAAGACCGCAGTGAACAAGGTGAGACGCGCCTTCTTCCACCACCACCTGAAGTTCGTG
ATTGACGAGTTCGGCCTGTTCAGCGACGTGATGAAGAAGTACGGCATCGAGAAGGAATGGAAGTTCCCTGTCAAGTAA(SEQ ID NO:22)
ATGAAGGTGGAGAACATCAAGGAAAAGTCCAAGAAGGCTATGTATCTGATCAACCACTATGAAGGCCCTAAGAAG
TGGTGCTTCGCCATCGTGCTGAATAGGGCCTGCGACAACTATGAGGATAACCCCCACCTGTTCAGCAAGAGCCTG
CTGGAATTTGAAAAGACCAGCAGAAAGGACTGGTTCGACGAGGAGACCAGGGAACTGGTGGAGCAGGCCGACACC
GAGATCCAGCCCAACCCCAACCTGAAGCCTAACACCACCGCCAACAGAAAGCTGAAGGACATCCGGAACTACTTC
AGCCACCACTACCACAAGAATGAGTGCCTGTACTTCAAGAACGACGACCCTATCCGGTGCATCATGGAGGCAGCC
TACGAGAAGTCCAAGATCTACATCAAGGGCAAGCAGATTGAGCAGTCCGACATCCCCCTCCCTGAGCTGTTTGAG
TCTAGCGGCTGGATCACCCCAGCCGGCATCCTGCTGCTGGCCAGCTTCTTTGTGGAGAGAGGCATTCTGCACAGA
CTGATGGGCAACATCGGCGGCTTCAAGGACAACCGGGGCGAATACGGACTGACCCACGATATCTTCACCACCTAC
TGCCTGAAGGGCAGCTACTCCATCAGAGCCCAGGACCACGACGCCGTGATGTTCAGAGACATCCTGGGCTACCTG
AGCAGAGTGCCGACCGAGAGCTTTCAGCGCATCAAGCAGCCACAGATCAGAAAGGAGGGGCAGCTGAGCGAGCGG
AAGACAGACAAGTTTATCACCTTCGCCCTGAACTACCTGGAAGATTATGGACTGAAGGATCTGGAAGGCTGCAAG
GCCTGCTTCGCCCGGAGCAAGATCGTGAGAGAGCAGGAGAACGTGGAAAGCATCAATGACAAGGAGTACAAGCCT
CACGAAAACAAGAAGAAGGTGGAAATCCACTTCGATCAGTCTAAGGAAGACCGGTTCTACATCAACCGGAACAAC
GTGATCCTGAAGATCCAGAAGAAGGACGGCCACAGCAACATCGTGAGAATGGGCGTGTACGAGCTGAAGTATCTG
GTGCTGATGTCCCTGGTGGGCAAGGCCAAGGAAGCCGTGGAGAAGATCGACAACTACATCCAGGATCTGAGAGAC
CAGCTGCCCTACATCGAGGGCAAGAACAAGGAAGAAATCAAGGAGTACGTGAGATTCTTCCCCAGATTCATCAGA
TCCCACCTGGGCCTGCTGCAGATTAACGATGAGGAGAAGATCAAGGCCCGGCTGGACTATGTGAAGACAAAGTGG
CTGGACAAGAAGGAGAAGTCCAAGGAGCTGGAGCTGCACAAGAAGGGCCGGGATATCCTGCGGTACATCAACGAG
CGGTGCGACCGGGAGCTGAACCGGAACGTGTACAACCGGATCCTGGAGCTGCTGGTGAGCAAGGACCTGACCGGC
TTCTACCGGGAGCTGGAGGAGCTGAAGCGGACCAGACGGATCGATAAGAACATTGTGCAGAACCTGTCCGGCCAG
AAGACCATCAACGCCCTGCACGAAAAGGTGTGCGATCTCGTGCTGAAGGAGATCGAGAGCCTGGACACCGAGAAC
CTGCGGAAGTACCTGGGCCTGATCCCCAAGGAGGAGAAGGAAGTGACCTTTAAGGAGAAGGTGGACAGGATCCTG
AAGCAGCCGGTGATCTACAAGGGCTTCCTGCGGTACCAGTTCTTCAAGGACGACAAGAAGAGCTTCGTGCTGCTG
GTGGAAGACGCCCTGAAGGAGAAGGGAGGCGGCTGCGACGTGCCCCTGGGCAAGGAGTACTACAAGATCGTGTCC
CTGGACAAGTATGACAAGGAAAATAAGACCCTGTGCGAGACCCTGGCAATGGATAGACTGTGCCTGATGATGGCC
CGGCAGTATTACCTGAGCCTGAACGCCAAGCTGGCCCAGGAGGCCCAGCAGATCGAATGGAAGAAGGAGGATAGC
ATTGAGCTGATCATCTTCACACTGAAGAATCCTGACCAGTCCAAGCAGAGCTTCTCCATCCGGTTCAGCGTGCGG
GACTTCACCAAGCTGTACGTGACCGACGACCCCGAATTCCTGGCCCGGCTGTGCAGCTACTTCTTCCCCGTGGAG
AAGGAGATCGAATACCACAAGCTGTACTCTGAAGGCATTAACAAGTACACCAACCTGCAGAAGGAGGGGATCGAA
GCCATCCTGGAGCTGGAGAAGAAGCTGATCGAAAGAAACCGGATCCAGTCCGCCAAGAACTACCTGAGCTTTAAC
GAAATCATGAACAAGAGCGGCTACAACAAGGATGAGCAGGATGACCTGAAGAAGGTGAGGAACTCCCTGCTGCAC
TACAAGCTGATCTTCGAAAAGGAGCACCTGAAGAAGTTCTATGAAGTGATGCGGGGCGAGGGAATCGAGAAGAAGTGGTCCCTGATCGTGTAA(SEQ ID NO:23)
ATGAATGGCATCGAGCTGAAGAAGGAAGAAGCCGCCTTCTACTTCAATCAGGCCGAGCTGAACCTGAAGGCCATT
GAGGACAACATCTTCGACAAGGAGAGACGGAAGACACTGCTGAACAACCCCCAGATCCTGGCCAAGATGGAGAAC
TTTATCTTCAATTTCCGGGACGTGACCAAGAACGCCAAGGGCGAAATCGACTGCCTGCTGCTGAAGCTGAGAGAG
CTGCGGAACTTTTACAGCCACTACGTGCACAAGCGGGACGTCAGAGAACTGAGCAAGGGCGAGAAGCCGATCCTG
GAGAAGTACTACCAGTTCGCCATCGAATCCACCGGCTCTGAGAACGTGAAGCTCGAAATCATCGAAAACGACGCC
TGGCTGGCCGACGCCGGCGTGCTGTTCTTCCTGTGCATCTTCCTGAAGAAGAGCCAGGCAAACAAGCTGATCAGC
GGCATCAGCGGCTTCAAGAGAAACGACGACACCGGCCAGCCTCGGAGAAACCTGTTCACCTACTTCTCCATCCGG
GAGGGCTACAAGGTGGTGCCCGAAATGCAGAAGCACTTCCTGCTGTTCTCCCTGGTGAACCACCTGAGCAACCAG
GACGATTATATCGAAAAGGCCCACCAGCCCTACGACATCGGCGAGGGCCTCTTCTTCCACCGGATTGCCAGCACC
TTCCTGAACATCTCCGGAATCCTGAGAAACATGAAGTTCTACACCTATCAGAGCAAGAGACTGGTGGAGCAGAGA
GGCGAGCTGAAGCGGGAAAAGGACATCTTCGCCTGGGAAGAACCGTTTCAGGGCAATTCCTACTTTGAGATCAAC
GGCCACAAGGGCGTGATTGGCGAAGACGAGCTGAAGGAGCTGTGCTACGCCTTCCTGATCGGCAACCAGGACGCC
AACAAGGTGGAGGGCCGGATCACCCAGTTCCTGGAGAAGTTCAGAAACGCCAACAGCGTGCAGCAGGTGAAGGAC
GACGAGATGCTGAAGCCTGAATATTTCCCCGCCAACTACTTTGCCGAGAGCGGCGTGGGCCGGATCAAGGACCGG
GTGCTGAACAGACTGAACAAGGCCATCAAGAGCAACAAGGCCAAGAAGGGCGAGATCATCGCCTATGACAAGATG
AGAGAAGTGATGGCTTTCATCAATAACTCTCTGCCCGTGGACGAGAAGCTGAAGCCCAAGGATTACAAGAGATAC
CTGGGCATGGTGAGATTCTGGGATAGAGAAAAGGACAATATCAAGCGCGAGTTCGAAACGAAGGAGTGGAGCAAG
TATCTGCCCTCCAACTTCTGGACCGCCAAGAACCTGGAGAGAGTGTACGGACTGGCCCGGGAAAAGAACGCAGAG
CTGTTTAACAAGCTGAAGGCCGACGTGGAGAAGATGGACGAAAGAGAGCTGGAAAAGTATCAGAAGATCAACGAC
GCCAAGGATCTGGCCAACCTGCGGCGGCTGGCCAGCGACTTCGGAGTGAAGTGGGAGGAGAAGGATTGGGACGAG
TACTCCGGCCAGATCAAGAAGCAGATCACAGATTCCCAGAAGCTGACCATCATGAAGCAGAGAATCACAGCCGGC
CTGAAGAAGAAGCACGGCATCGAAAACCTGAACCTGAGGATCACCATCGACATCAACAAGTCCAGAAAGGCCGTG
CTGAATCGGATCGCCATCCCCAGAGGATTTGTGAAGCGGCACATCCTGGGCTGGCAGGAATCCGAGAAGGTGAGC
AAGAAGATCAGAGAAGCCGAATGCGAGATTCTGCTGAGCAAGGAGTACGAGGAGCTGAGCAAGCAGTTCTTTCAG
AGCAAGGACTACGACAAGATGACCCGCATCAACGGCCTGTACGAGAAGAATAAGCTGATCGCCCTGATGGCCGTG
TATCTGATGGGGCAGCTGAGAATCCTGTTCAAGGAGCACACCAAGCTGGACGACATCACCAAGACCACCGTGGAT
TTCAAGATCAGCGACAAGGTGACCGTGAAGATCCCCTTCTCCAACTATCCCTCCCTGGTGTACACCATGAGCAGC
AAGTACGTGGACAATATCGGCAACTACGGCTTCAGCAACAAGGACAAGGATAAGCCCATTCTGGGCAAGATCGAC
GTGATCGAGAAGCAGCGGATGGAGTTTATCAAGGAGGTGCTGGGATTCGAGAAGTACCTGTTTGACGATAAGATC
ATCGACAAGAGCAAGTTCGCCGACACCGCCACCCACATCAGCTTTGCCGAAATCGTGGAAGAACTGGTGGAGAAG
GGCTGGGACAAGGACCGGCTGACGAAGCTGAAGGATGCCCGGAACAAGGCCCTGCACGGCGAGATCCTGACCGGCACCAGCTTCGACGAGACAAAGTCCCTGATCAACGAGCTGAAGAAGTAA(SEQ ID NO:24)
ATGAGCCCTGATTTCATCAAGCTGGAGAAGCAGGAAGCAGCCTTCTACTTTAACCAGACCGAGCTGAACCTGAAG
GCCATCGAATCCAATATCCTGGATAAGCAGCAGAGAATGATCCTGCTGAACAACCCCAGAATCCTGGCCAAGGTG
GGCAACTTCATCTTCAATTTCCGGGACGTGACCAAGAACGCAAAGGGCGAAATCGACTGCCTGCTGTTCAAGCTG
GAGGAACTGCGGAACTTCTACAGCCACTACGTGCACACCGATAACGTGAAGGAACTGTCCAACGGAGAGAAGCCT
CTGCTGGAGCGGTACTACCAGATCGCCATCCAGGCCACAAGAAGCGAGGACGTGAAGTTCGAGCTGTTCGAGACC
AGGAACGAGAACAAGATCACCGACGCAGGCGTGCTGTTCTTCCTGTGCATGTTCCTGAAGAAGAGCCAGGCTAAT
AAGCTGATTTCCGGCATCAGCGGCTTCAAGCGGAACGACCCCACCGGCCAGCCCAGACGGAACCTCTTTACCTAC
TTCTCTGCCCGGGAGGGCTACAAGGCCCTGCCTGACATGCAGAAGCACTTCCTGCTGTTCACCCTGGTGAACTAC
CTGAGCAACCAGGACGAGTACATCTCCGAGCTGAAGCAGTACGGAGAGATCGGACAGGGAGCCTTCTTCAACAGA
ATCGCCAGCACCTTCCTGAACATCAGCGGCATCAGCGGCAACACCAAGTTCTACAGCTACCAGAGCAAGAGAATC
AAGGAGCAGCGGGGCGAACTGAACAGCGAAAAGGACAGCTTCGAGTGGATCGAGCCCTTTCAGGGCAACTCTTAT
TTTGAGATCAACGGCCACAAGGGCGTGATCGGCGAAGACGAGCTGAAGGAGCTGTGCTACGCCCTGCTGGTGGCC
AAGCAGGACATCAATGCCGTGGAGGGAAAGATCATGCAGTTCCTGAAGAAGTTCAGGAACACCGGCAACCTGCAG
CAGGTGAAGGACGACGAGATGCTGGAAATCGAGTACTTTCCCGCCAGCTACTTCAACGAGAGCAAGAAGGAGGAC
ATCAAGAAGGAGATCCTGGGCAGACTGGACAAGAAGATCCGGTCCTGCAGCGCCAAGGCCGAGAAGGCCTACGAC
AAGATGAAGGAGGTGATGGAGTTTATCAATAACAGCCTGCCCGCCGAGGAGAAGCTGAAGAGGAAGGACTACCGC
AGATACCTGAAGATGGTGAGATTCTGGTCCAGAGAAAAGGGCAACATCGAGAGAGAGTTCAGAACCAAGGAGTGG
TCCAAGTACTTCAGCAGCGACTTCTGGAGAAAGAACAATCTGGAGGATGTGTACAAGCTGGCCACCCAGAAGAAC
GCCGAGCTGTTCAAGAATCTGAAGGCCGCCGCCGAGAAGATGGGCGAAACAGAATTCGAAAAGTACCAGCAGATC
AACGATGTGAAGGACCTGGCCAGCCTGAGACGGCTGACCCAGGATTTCGGCCTGAAGTGGGAGGAGAAGGATTGG
GAGGAGTACAGCGAACAGATCAAGAAGCAGATCACCGACCGGCAGAAGCTGACAATCATGAAGCAGCGGGTGACC
GCCGAGCTGAAGAAGAAGCACGGCATCGAGAATCTGAACCTCAGAATTACCATCGATTCCAACAAGAGCAGAAAG
GCCGTGCTGAACAGAATCGCCATTCCCCGGGGCTTCGTGAAGAAGCACATTCTGGGCTGGCAGGGCAGCGAAAAG
ATCAGCAAGAATATCCGGGAGGCCGAGTGCAAGATCCTGCTGTCCAAGAAGTATGAGGAGCTGTCTCGGCAGTTC
TTTGAGGCTGGCAACTTCGACAAGCTGACCCAGATCAACGGCCTGTACGAAAAGAATAAGCTGACCGCCTTCATG
TCCGTCTACCTGATGGGCAGACTGAACATCCAGCTGAACAAGCACACGGAGCTGGGAAATCTGAAGAAGACCGAG
GTGGACTTCAAGATTTCCGACAAGGTGACAGAAAAGATCCCCTTCTCCCAGTACCCTAGCCTGGTGTACGCTATG
AGCCGGAAGTACGTGGACAACGTGGACAAGTACAAGTTCAGCCACCAGGACAAGAAGAAGCCCTTCCTGGGCAAG
ATCGACAGCATCGAAAAGGAGAGAATCGAATTCATCAAGGAGGTGCTGGACTTCGAAGAGTACCTGTTTAAGAAC
AAGGTGATCGACAAGAGCAAGTTCAGCGATACCGCCACCCATATCTCTTTCAAGGAAATCTGCGACGAGATGGGC
AAGAAGGGCTGCAACCGCAACAAGCTGACCGAGCTGAATAACGCTAGAAACGCCGCACTGCACGGAGAAATCCCCAGCGAGACCAGCTTCCGGGAGGCCAAGCCCCTGATCAACGAACTGAAGAAGTAA(SEQ ID NO:25)ATGAGCCCTGACTTCATCAAGCTGGAAAAGCAGGAAGCCGCCTTCTACTTTAATCAGACCGAGCTGAACCTGAAGGCCATCGAGAGCAACATCTTCGACAAGCAGCAGCGGGTGATCCTGCTGAATAACCCCCAGATCCTGGCCAAGGTGGGCGACTTCATCTTCAACTTCCGGGACGTGACCAAGAACGCCAAGGGAGAAATCGACTGCCTGCTGCTGAAGCTGCGGGAGCTGAGAAACTTCTACAGCCACTATGTGTACACCGACGACGTGAAGATCCTGAGCAACGGCGAGAGGCCCCTGCTGGAGAAGTACTACCAGTTTGCCATCGAGGCCACCGGATCTGAGAATGTGAAGCTGGAGATCATCGAGAGCAACAACCGGCTGACCGAAGCGGGCGTGCTGTTCTTCCTGTGCATGTTCCTGAAGAAGAGCCAGGCCAACAAGCTGATTTCCGGCATCTCCGGATTCAAGCGCAACGACCCTACCGGACAGCCTCGGCGGAACCTGTTCACCTACTTTAGCGTGCGGGAGGGCTACAAGGTGGTGCCCGACATGCAGAAGCACTTCCTGCTGTTCGTGCTGGTGAACCACCTGTCCGGCCAGGATGACTATATTGAGAAGGCCCAGAAGCCCTACGACATCGGCGAAGGCCTGTTCTTCCACAGAATCGCCAGCACCTTTCTCAACATCAGCGGCATCCTGAGAAACATGGAATTCTACATCTACCAGAGCAAGCGGCTGAAGGAGCAGCAGGGAGAGCTGAAGAGAGAGAAGGACATCTTCCCTTGGATCGAGCCTTTCCAGGGCAACAGCTACTTTGAGATCAACGGAAACAAGGGCATCATCGGCGAGGACGAACTGAAGGAACTGTGCTACGCCCTGCTGGTGGCCGGCAAGGACGTGAGAGCCGTGGAAGGAAAGATCACCCAGTTCCTGGAGAAGTTCAAGAACGCCGATAACGCCCAGCAGGTGGAGAAGGATGAAATGCTGGACCGGAACAACTTCCCTGCCAATTACTTTGCCGAAAGCAACATCGGCAGCATCAAGGAAAAGATCCTGAATAGACTGGGCAAGACCGACGACTCCTACAACAAGACCGGCACCAAGATCAAGCCCTACGACATGATGAAGGAGGTGATGGAGTTCATCAATAATTCTCTGCCCGCCGATGAGAAGCTGAAGCGGAAGGACTACCGGAGATACCTGAAGATGGTCCGGATCTGGGACAGCGAAAAGGACAATATCAAGCGGGAGTTTGAGAGCAAGGAATGGAGCAAGTATTTCAGCAGCGACTTCTGGATGGCCAAGAACCTGGAAAGAGTGTACGGCCTGGCCAGGGAAAAGAACGCCGAGCTGTTTAACAAGCTGAAGGCCGTGGTGGAGAAGATGGACGAGCGGGAGTTCGAAAAGTACCGGCTGATCAACAGCGCCGAAGACCTGGCCAGCCTGCGGAGACTGGCCAAGGACTTCGGCCTGAAGTGGGAGGAGAAGGACTGGCAGGAGTATTCTGGCCAGATCAAGAAGCAGATCTCCGACAGACAGAAGCTGACAATTATGAAGCAGCGGATCACAGCCGAACTGAAGAAGAAGCACGGAATCGAGAACCTGAATCTGCGGATCACCATCGACAGCAACAAGTCCAGAAAGGCCGTGCTGAACCGGATCGCCGTGCCCCGGGGCTTCGTGAAGGAACACATCCTGGGCTGGCAAGGCTCTGAAAAGGTGAGCAAGAAGACCAGAGAAGCCAAGTGCAAGATCCTGCTGAGCAAGGAGTACGAGGAACTGAGCAAGCAGTTCTTTCAGACACGGAATTACGACAAGATGACCCAGGTGAACGGCCTGTACGAGAAGAACAAGCTGCTGGCCTTCATGGTGGTGTACCTGATGGAGAGACTGAACATCCTGCTGAACAAGCCCACAGAGCTGAACGAACTGGAAAAGGCCGAAGTGGACTTCAAGATCTCCGACAAGGTGATGGCCAAGATCCCTTTCTCTCAGTACCCCAGCCTGGTGTATGCAATGAGCTCCAAGTACGCCGACAGCGTGGGCTCTTACAAGTTCGAAAACGACGAGAAGAACAAGCCCTTTCTGGGCAAGATCGACACAATCGAGAAGCAGAGAATGGAGTTCATCAAGGAGGTGCTGGGCTTCGAGGAATACCTGTTCGAGAAGAAGATCATCGATAAGAGCGAATTCGCCGACACCGCCACCCACATCAGCTTCGACGAGATCTGCAACGAGCTGATCAAGAAGGGCTGGGACAAGGACAAGCTGACCAAGCTGAAGGACGCCCGGAACGCCGCCCTGCACGGCGAGATCCCCGCCGAGACCAGCTTCCGGGAGGCCAAGCCCCTGATTAACGGCCTGAAGAAGTAA(SEQ ID NO:26)ATGAACATCATCAAGCTGAAGAAGGAGGAAGCCGCCTTTTACTTTAACCAGACAATCCTGAATCTGAGCGGCCTGGACGAGATCATCGAGAAGCAGATCCCCCACATCATCTCCAATAAGGAAAACGCCAAGAAGGTGATTGATAAGATCTTCAATAACAGACTGCTGCTGAAGAGCGTGGAAAACTATATCTACAACTTCAAGGACGTGGCCAAGAACGCCCGGACCGAAATCGAAGCCATCCTGCTGAAGCTGGTGGAGCTGAGAAACTTCTACTCCCACTACGTGCACAACGACACCGTGAAGATCCTGTCCAATGGCGAGAAGCCCATCCTGGAAAAGTACTACCAGATCGCCATCGAAGCCACCGGCTCTAAGAACGTGAAGCTGGTCATTATCGAAAACAACAACTGCCTGACCGACTCCGGCGTGCTGTTCCTGCTGTGCATGTTCCTGAAGAAGAGCCAGGCCAACAAGCTGATTAGCAGCGTGAGCGGCTTTAAGCGGAACGACAAGGAAGGCCAGCCCAGAAGGAACCTCTTTACTTACTATAGCGTGAGGGAAGGCTACAAGGTGGTGCCAGACATGCAGAAGCACTTCCTGCTGTTCGCCCTGGTCAACCACCTGTCCGAGCAGGACGACCACATCGAGAAGCAGCAGCAGAGCGACGAGCTGGGCAAGGGCCTGTTCTTCCACAGAATCGCCAGCACATTCCTGAATGAAAGCGGCATCTTCAACAAGATGCAGTTTTACACCTACCAGAGCAATCGGCTGAAGGAGAAGCGGGGCGAGCTGAAGCACGAGAAGGACACCTTCACCTGGATCGAGCCTTTCCAGGGAAACAGCTACTTCACCCTGAACGGGCACAAGGGCGTGATCAGCGAGGATCAGCTGAAGGAACTGTGCTACACAATCCTGATCGAGAAGCAGAACGTGGACAGCCTGGAGGGCAAGATCATTCAGTTCCTGAAGAAGTTTCAGAACGTGTCTAGCAAGCAGCAGGTGGATGAGGACGAGCTGCTGAAGCGGGAATACTTCCCCGCCAACTACTTCGGCCGGGCCGGCACCGGCACCCTGAAGGAGAAGATCCTGAACCGGCTGGACAAGCGGATGGACCCCACCAGCAAGGTGACCGACAAGGCCTATGACAAGATGATCGAGGTGATGGAGTTCATCAACATGTGCCTGCCCAGCGACGAGAAGCTGCGGCAGAAGGATTACCGGAGATATCTGAAGATGGTCAGATTCTGGAACAAGGAGAAGCACAACATCAAGAGAGAATTCGACAGCAAGAAGTGGACCAGATTCCTGCCCACCGAGCTGTGGAATAAGCGGAACCTGGAGGAAGCCTACCAGCTGGCCCGGAAGGAGAACAAGAAGAAGCTGGAGGACATGAGGAATCAGGTGAGGAGCCTGAAGGAGAACGACCTGGAGAAGTACCAGCAGATCAACTATGTGAACGACCTGGAAAACCTGCGGCTGCTGTCCCAAGAGCTGGGCGTGAAGTGGCAGGAGAAGGACTGGGTGGAATACAGCGGCCAGATCAAGAAGCAGATCAGCGATAACCAGAAGCTGACAATCATGAAGCAGAGAATCACCGCCGAGCTGAAGAAGATGCACGGCATCGAGAACCTGAACCTGAGAATCAGCATCGACACCAACAAGTCCCGGCAGACTGTGATGAACAGAATTGCCCTGCCCAAGGGCTTCGTGAAGAACCACATTCAGCAGAACAGCAGCGAGAAGATCAGCAAGAGAATCAGAGAGGACTACTGCAAGATCGAGCTGTCCGGCAAGTACGAAGAGCTGAGCAGACAGTTTTTCGACAAGAAGAACTTTGACAAGATGACCCTGATCAACGGACTGTGCGAGAAGAATAAGCTCATCGCCTTCATGGTGATTTACCTGCTGGAGCGGCTGGGCTTCGAGCTGAAGGAGAAGACCAAGCTGGGCGAGCTGAAGCAGACCCGGATGACATATAAGATCAGCGACAAGGTGAAGGAGGACATCCCCCTCTCCTACTACCCCAAGCTGGTGTACGCCATGAATCGGAAGTATGTGGACAACATCGATAGCTACGCCTTCGCCGCCTACGAGTCTAAGAAGGCCATCCTGGACAAGGTGGACATCATTGAGAAGCAGAGAATGGAATTCATCAAGCAGGTGCTGTGCTTCGAGGAATACATCTTCGAGAACAGAATCATCGAGAAGAGCAAGTTCAACGATGAGGAGACCCACATCAGCTTCACCCAGATCCACGACGAACTGATCAAGAAGGGCAGAGATACCGAAAAGCTGAGCAAGCTGAAGCACGCCAGAAACAAGGCCCTGCACGGCGAGATCCCCGACGGGACCAGCTTTGAGAAGGCCAAGCTGCTGATCAACGAAATCAAGAAGTAA(SEQ ID NO:27)
ATGAACGCCATCGAGCTGAAGAAGGAAGAGGCCGCCTTCTACTTCAACCAGGCCAGACTGAACATCTCTGGCCTG
GACGAAATCATCGAGAAGCAACTGCCACACATCGGCTCTAACAGAGAGAACGCCAAGAAGACTGTGGACATGATC
CTGGATAACCCCGAGGTGCTGAAGAAGATGGAAAACTACGTGTTCAACTCCCGCGATATTGCCAAGAATGCCCGG
GGCGAGCTGGAGGCCCTGCTGCTGAAGCTGGTCGAGCTGAGAAACTTCTATAGCCACTACGTGCACAAGGACGAC
GTCAAGACACTGAGCTACGGTGAGAAGCCTCTGCTGGATAAGTACTACGAGATCGCCATCGAAGCCACCGGATCC
AAGGACGTGCGGCTGGAGATCATTGACGACAAGAATAAGCTGACCGACGCCGGAGTGCTGTTCCTGCTGTGCATG
TTCCTGAAGAAGAGCGAGGCTAACAAGCTGATTTCCAGCATCCGGGGCTTCAAGAGGAACGACAAGGAGGGCCAG
CCTAGAAGAAACCTGTTCACCTACTACAGCGTGAGAGAGGGCTATAAGGTGGTGCCCGACATGCAGAAGCACTTT
CTGCTGTTCACCCTGGTGAACCACCTGTCCAATCAGGACGAGTACATCTCCAACCTGCGCCCAAACCAGGAAATC
GGCCAGGGCGGATTTTTCCACCGGATCGCCAGCAAGTTCCTGAGCGACAGCGGAATCCTGCACAGCATGAAGTTC
TACACATACAGATCCAAGCGGCTGACCGAGCAGCGGGGAGAGCTGAAGCCCAAGAAGGACCACTTTACATGGATC
GAGCCTTTCCAGGGCAATTCCTACTTCAGCGTGCAGGGCCAGAAGGGCGTGATCGGAGAGGAGCAGCTCAAGGAG
CTGTGCTACGTGCTGCTGGTGGCCCGGGAGGACTTCAGAGCCGTGGAGGGCAAGGTGACCCAGTTCCTGAAGAAG
TTCCAGAATGCCAATAACGTGCAGCAGGTGGAGAAGGACGAGGTGCTGGAAAAGGAGTACTTCCCCGCCAACTAC
TTTGAGAACCGGGACGTGGGAAGAGTCAAGGACAAGATCCTGAACAGACTGAAGAAGATCACCGAGAGTTATAAG
GCCAAGGGTAGAGAGGTGAAGGCCTACGACAAGATGAAGGAAGTGATGGAGTTCATCAACAACTGCCTGCCCACC
GATGAAAACCTGAAGCTGAAGGACTACCGGCGGTACCTGAAGATGGTGAGATTCTGGGGCAGAGAGAAGGAAAAC
ATCAAGCGGGAGTTCGACTCCAAGAAGTGGGAGCGCTTTCTCCCCCGGGAGCTGTGGCAGAAGAGAAACCTGGAG
GACGCCTACCAGCTCGCCAAGGAGAAGAACACAGAGCTGTTCAACAAGCTGAAGACCACCGTGGAGAGAATGAAC
GAACTGGAGTTCGAGAAGTACCAGCAGATCAATGACGCCAAGGACCTGGCCAACCTGAGACAGCTGGCCAGAGAC
TTTGGAGTGAAGTGGGAGGAAAAGGACTGGCAGGAATACTCTGGACAGATCAAGAAGCAGATCACCGACCGGCAG
AAGCTGACCATCATGAAGCAGCGGATCACCGCCGCCCTGAAGAAGAAGCAGGGAATCGAAAACCTGAACCTGAGA
ATCACAACAGATACGAATAAGAGCAGGAAGGTGGTGCTGAACCGGATCGCACTGCCCAAGGGATTCGTCAGAAAG
CACATCCTGAAGACCGACATCAAGATCAGCAAGCAGATCCGGCAGAGCCAGTGCCCTATCATCCTGTCTAACAAC
TACATGAAGCTGGCCAAGGAGTTCTTTGAAGAGCGGAACTTCGATAAGATGACCCAGATCAATGGCCTGTTCGAG
AAGAACGTGCTGATCGCCTTCATGATCGTGTACCTGATGGAGCAGCTGAACCTGAGACTGGGCAAGAACACCGAG
CTGTCCAACCTGAAGAAGACCGAGGTGAACTTTACCATCACCGACAAGGTGACCGAGAAGGTGCAAATCTCCCAG
TACCCCAGCCTGGTGTTCGCCATTAACCGGGAGTACGTGGACGGCATCAGCGGCTACAAGCTGCCCCCCAAGAAG
CCCAAGGAACCTCCCTACACCTTCTTCGAAAAGATCGACGCCATCGAAAAGGAGCGGATGGAATTCATCAAGCAG
GTGCTGGGCTTCGAGGAGCACCTCTTCGAAAAGAACGTGATCGACAAGACCCGGTTTACCGACACCGCCACCCAC
ATCAGCTTCAATGAGATCTGCGATGAGCTGATCAAGAAGGGCTGGGACGAAAACAAGATCATCAAGCTGAAGGAT
GCACGGAACGCTGCCCTGCACGGCAAGATCCCTGAAGATACCTCCTTTGACGAAGCCAAGGTGCTGATCAACGAACTGAAGAAGTAA(SEQ ID NO:28)
图1显示了七种CRISPR/Cas13e和Cas13f基因座结构。
使用RNAfold对pre-crRNA中的七个DR序列的RNA二级结构进行了进一步分析。图2显示了结果。很明显,全部都共享了非常保守的二级结构。
例如,在Cas13e家族中,每个DR序列形成由以下组成的二级结构:4碱基对茎(5'-GCUG-3')、随后是5+5个核苷酸的对称的凸起(不包括4个茎核苷酸)、进一步地随后是5碱基对茎(5’-GCC C/U C-3’)和末端8碱基环(5'-CGAUUUGU-3',不包括2个茎核苷酸)。
同样地,在Cas13f家族中,除了一个例外(Cas13f.4),每个DR序列形成由以下组成的二级结构:5碱基对茎(5’GCUGU3’)、随后是5+4个核苷酸的接近对称的凸起(不包括4个茎核苷酸)、进一步地随后是6碱基对茎(5’A/G CCUCG3’)和末端5碱基环(5’AUUUG3’,不包括2个茎核苷酸)。唯一的例外是Cas13f.4的DR,其中第二茎短1个碱基对,并在第一凸起处添加了2个额外的碱基以形成大致对称的6+5凸起。
使用MAFFT对Cas13e和Cas13f蛋白以及先前鉴定的Cas13a、Cas13b、Cas13c和Cas13d家族蛋白进行的多序列比对揭示了Cas13e和Cas13f蛋白与Cas13b蛋白在系统发育树上相对最接近(图3)。
此外,在RXXXXH基序相对于Cas蛋白的N-末端和C-末端的位置方面,与Cas13a、Cas13c和Cas13d相比,Cas13e和Cas13f蛋白以及Cas13b蛋白(在较小程度上)具有更接近它们的N-末端和C-末端的RXXXXH基序(参见图4)。
然后使用了I-TASSER预测Cas13e蛋白的3D结构,随后使用PyMOL对预测结构进行可视化。尽管两个RXXXXH基序非常接近Cas13e.1的N-末端和C-末端,但它们在3D结构中非常接近(图5)。
实施例2Cas13e是效应RNA酶
为了确认新鉴定的Cas13e蛋白是在CRISPR/Cas系统中发挥作用的有效RNA酶,将Cas13e.1编码序列经密码子优化用于人表达(SEQ ID NO:22),并克隆到具有GFP基因的第一质粒中。同时,将靶向报告基因(mCherry)mRNA的指导RNA(gRNA)的编码序列克隆到具有GFP基因的第二质粒中。gRNA由侧翼为Cas13e.1的两个同向重复序列的间隔编码区(SEQ IDNO:29)组成。GFP和mCherry报告基因的序列分别为SEQ ID NO:30-31。
GCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGCGGTCTTCGATATTCAAGCGTCGGAAGACCTGCTGGAGCA GCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:29)
ATGGTGAGCAAGGGCGAGGAGGATAACATGGCCATCATCAAGGAGTTCATGCGCTTCAAGGTGCACATGGAGGGC
TCCGTGAACGGCCACGAGTTCGAGATCGAGGGCGAGGGCGAGGGCCGCCCCTACGAGGGCACCCAGACCGCCAAG
CTGAAGGTGACCAAGGGTGGCCCCCTGCCCTTCGCCTGGGACATCCTGTCCCCTCAGTTCATGTACGGCTCCAAG
GCCTACGTGAAGCACCCCGCCGACATCCCCGACTACTTGAAGCTGTCCTTCCCCGAGGGCTTCAAGTGGGAGCGC
GTGATGAACTTCGAGGACGGCGGCGTGGTGACCGTGACCCAGGACTCCTCCCTGCAGGACGGCGAGTTCATCTAC
AAGGTGAAGCTGCGCGGCACCAACTTCCCCTCCGACGGCCCCGTAATGCAGAAGAAGACCATGGGCTGGGAGGCC
TCCTCCGAGCGGATGTACCCCGAGGACGGCGCCCTGAAGGGCGAGATCAAGCAGAGGCTGAAGCTGAAGGACGGC
GGCCACTACGACGCTGAGGTCAAGACCACCTACAAGGCCAAGAAGCCCGTGCAGCTGCCCGGCGCCTACAACGTC
AACATCAAGTTGGACATCACCTCCCACAACGAGGACTACACCATCGTGGAACAGTACGAACGCGCCGAGGGCCGCCACTCCACCGGCGGCATGGACGAGCTGTACAAGTAA(SEQ ID NO:30)
ATGGTGAGCAAGGGCGAGGAGCTGTTCACCGGGGTGGTGCCCATCCTGGTCGAGCTGGACGGCGACGTAAACGGC
CACAAGTTCAGCGTGTCCGGCGAGGGCGAGGGCGATGCCACCTACGGCAAGCTGACCCTGAAGTTCATCTGCACC
ACCGGCAAGCTGCCCGTGCCCTGGCCCACCCTCGTGACCACCCTGACCTACGGCGTGCAGTGCTTCAGCCGCTAC
CCCGACCACATGAAGCAGCACGACTTCTTCAAGTCCGCCATGCCCGAAGGCTACGTCCAGGAGCGCACCATCTTC
TTCAAGGACGACGGCAACTACAAGACCCGCGCCGAGGTGAAGTTCGAGGGCGACACCCTGGTGAACCGCATCGAG
CTGAAGGGCATCGACTTCAAGGAGGACGGCAACATCCTGGGGCACAAGCTGGAGTACAACTACAACAGCCACAAC
GTCTATATCATGGCCGACAAGCAGAAGAACGGCATCAAGGTGAACTTCAAGATCCGCCACAACATCGAGGACGGC
AGCGTGCAGCTCGCCGACCACTACCAGCAGAACACCCCCATCGGCGACGGCCCCGTGCTGCTGCCCGACAACCAC
TACCTGAGCACCCAGTCCGCCCTGAGCAAAGACCCCAACGAGAAGCGCGATCACATGGTCCTGCTGGAGTTCGTGACCGCCGCCGGGATCACTCTCGGCATGGACGAGCTGTACAAGTGA(SEQ ID NO:31)
将HEK293T细胞按照标准方案在24孔组织培养板中培养,并用于使用
3000和P3000
TM试剂进行的三重质粒转染,以引入分别编码Cas13e.1蛋白、靶向mCherry的gRNA、和mCherry编码序列的三种质粒。在阴性对照实验中,没有使用编码靶向mCherry的gRNA的质粒,而是使用了编码非靶标gRNA的对照质粒。Cas13e.1和gRNA质粒中存在GFP编码序列,因此GFP的表达可用作转染成功/效率的内部对照。参见图6中的示意图。然后将经转染的HEK293T细胞在37℃、5% CO
2下孵育约24小时,然后在荧光显微镜下对细胞进行检查。
如图7所示,经靶向mCherry的gRNA转染的细胞和经对照非靶向(NT)gRNA转染的细胞在明场显微镜下具有等同的生长和形态,并且两者中的GFP表达大致等同。然而,基于流式细胞术分析,来自mCherry表达的RFP信号显著降低了高达75%(图8)。这表明Cas13e可以利用靶向mCherry的gRNA有效地敲低mCherry mRNA水平,从而敲低mCherry蛋白表达。
实施例3Cas13e的sgRNA的有效方向
由于Cas13e系统理论上可以利用DR+间隔子(5'DR)或间隔子+DR(3'DR)取向,本实验旨在确定Cas13e使用的正确取向。
使用与实施例2中类似的三重转染实验设置,发现只有3'DR取向(间隔子+DR)支持显著的mCherry敲低。这表明Cas13e使用其crRNA,所述crRNA具有在间隔子的3'端的DR序列。参见图9。
DR+间隔子(5’DR)和间隔子+DR(3’DR)的sgRNA分别为SEQ ID NO:32和33。
GCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGCGGTCTTCGATATTCAAGCGTCGGAAGACCT(SEQ ID NO:32)
GGTCTTCGATATTCAAGCGTCGGAAGACCTGCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:33)
实施例4间隔序列长度对Cas13e.1的特异性活性和附带活性的影响
为了研究间隔序列长度对Cas13e.1的特异性活性和附带活性的影响,设计了一组靶向mCherry报告基因的sgRNA,间隔序列长度为20nt、25nt、30nt、35nt、40nt、45nt或50nt(SEQ ID NO:34-40)。
TTGGTGCCGCGCAGCTTCAC(SEQ ID NO:34)
TTGGTGCCGCGCAGCTTCACCTTGT(SEQ ID NO:35)
TTGGTGCCGCGCAGCTTCACCTTGTAGATG(SEQ ID NO:36)
TTGGTGCCGCGCAGCTTCACCTTGTAGATGAACTC(SEQ ID NO:37)
TTGGTGCCGCGCAGCTTCACCTTGTAGATGAACTCGCCGT(SEQ ID NO:38)
TTGGTGCCGCGCAGCTTCACCTTGTAGATGAACTCGCCGTCCTGC(SEQ ID NO:39)
TTGGTGCCGCGCAGCTTCACCTTGTAGATGAACTCGCCGTCCTGCAGGGA(SEQ ID NO:40)
使用与实施例2中类似的三重转染实验设置,通过流式细胞术分析了mCherry和GFP基因的敲低效率。
mCherry和GFP敲低实验的结果分别显示了Cas13e.1的特异性活性和非特异性活性(附带活性)。发现间隔子长度在约30nt至约50nt之间的Cas13e.1具有高特异性活性。参见图10。同时,当间隔子长度为约30nt时,Cas13e.1具有最高的非特异性活性。参见图11。
实施例5使用dCas13e.1-ADAR2DD融合物进行的单碱基RNA编辑
为了测试Cas13e是否可用于RNA单碱基编辑,通过对两个RXXXXH基序进行突变以消除RNA酶活性来生成dCas13e.1。然后将具有E488Q和T375G双突变的高保真ADAR2DD突变体与dCas13e.1的(C-末端)融合,以创建命名为dCas13e.1-ADAR2DD的推定A至G单碱基RNA编辑子。参见SEQ ID NO:41中的编码序列。
ATGCCCAAGAAGAAGCGGAAGGTGGCCCAGGTGAGCAAGCAGACCTCCAAGAAGAGGGAGCTGAGCATCGACGAG
TACCAGGGCGCCCGGAAGTGGTGCTTCACCATTGCCTTCAACAAGGCCCTGGTGAACCGGGACAAGAACGACGGC
CTGTTCGTGGAAAGCCTGCTGAGACACGAGAAGTACAGCAAGCACGACTGGTACGACGAAGATACCCGGGCCCTG
ATCAAGTGCAGCACCCAGGCCGCCAACGCCAAGGCTGAAGCCCTGGCGAACTACTTCAGTGCTTACCGGCATAGC
CCTGGCTGCCTGACCTTCACCGCCGAGGACGAACTGCGGACCATCATGGAGAGAGCCTATGAGCGGGCCATCTTC
GAGTGCAGAAGAAGAGAGACAGAGGTGATCATCGAGTTTCCCAGCCTGTTCGAGGGCGACCGGATCACCACCGCC
GGCGTGGTGTTTTTCGTGAGCTTTTTCGTGGAAAGAAGAGTGCTGGATCGGCTGTATGGAGCCGTGTCCGGCCTG
AAGAAGAATGAGGGACAGTACAAGCTGACCCGGAAGGCCCTGAGCATGTACTGCCTGAAGGACAGCAGATTCACC
AAGGCCTGGGATAAGCGGGTGCTGCTGTTCAGAGACATCCTGGCCCAGCTGGGAAGAATCCCCGCCGAGGCCTAC
GAGTACTACCACGGCGAGCAGGGTGATAAGAAGAGAGCTAACGACAATGAGGGCACAAATCCCAAGCGGCACAAG
GACAAGTTCATCGAATTTGCACTGCACTACCTGGAAGCCCAGCACAGCGAGATCTGCTTCGGCAGACGCCACATC
GTGCGGGAAGAGGCCGGCGCCGGCGATGAGCACAAGAAGCACCGGACCAAGGGAAAGGTGGTGGTGGACTTCAGC
AAGAAGGACGAGGACCAGAGCTACTATATCTCCAAGAACAACGTGATCGTGCGGATCGACAAGAACGCCGGCCCT
AGAAGCTACCGGATGGGCCTGAACGAGCTGAAGTACCTCGTGCTGCTGAGCCTGCAGGGGAAGGGCGACGATGCC
ATCGCCAAGCTGTACAGATACAGACAGCACGTGGAGAACATCCTGGATGTGGTGAAGGTGACCGATAAGGATAAC
CACGTGTTCCTGCCCCGCTTCGTGCTGGAGCAGCACGGCATCGGCAGAAAGGCCTTCAAGCAGCGGATCGATGGA
CGGGTGAAGCACGTGCGGGGCGTGTGGGAGAAGAAGAAGGCCGCCACCAATGAAATGACCCTGCACGAGAAGGCC
AGAGACATCCTGCAGTACGTGAACGAAAACTGCACCCGGTCCTTCAACCCTGGCGAATACAACAGACTGCTGGTG
TGCCTGGTGGGCAAGGACGTGGAGAACTTTCAGGCCGGCCTGAAGCGGCTGCAGCTGGCCGAAAGGATCGATGGC
CGGGTGTACTCCATCTTCGCCCAGACCAGCACCATCAATGAGATGCACCAGGTGGTGTGCGACCAGATCCTGAAC
CGGCTGTGCAGAATCGGCGACCAGAAGCTGTACGATTACGTGGGACTGGGCAAGAAGGACGAAATCGACTACAAG
CAGAAGGTGGCCTGGTTCAAGGAGCACATCAGCATCCGGAGAGGATTCCTGAGAAAGAAGTTCTGGTACGATAGC
AAGAAGGGATTCGCAAAGCTGGTGGAGGAACACCTGGAGTCCGGCGGCGGCCAGCGCGACGTGGGCCTGGACAAG
AAGTACTACCACATCGACGCCATCGGCAGATTCGAGGGCGCCAACCCCGCCCTGTACGAGACCCTGGCCAGAGAT
CGGCTGTGCCTCATGATGGCCCAGTACTTCCTGGGCAGCGTGAGAAAGGAACTGGGCAACAAGATTGTGTGGAGC
AACGACAGCATCGAACTGCCTGTGGAAGGCTCTGTGGGAAATGAGAAGAGCATCGTGTTCTCCGTGTCTGACTAC
GGCAAGCTGTACGTGCTGGACGATGCCGAATTCCTGGGCCGGATCTGCGAATACTTCATGCCCCACGAAAAGGGC
AAGATCCGGTACCACACAGTGTACGAAAAGGGCTTTAGAGCATACAACGACCTGCAGAAGAAGTGCGTGGAGGCC
GTGCTGGCTTTCGAAGAGAAGGTGGTGAAGGCCAAGAAGATGAGCGAGAAGGAAGGCGCCCACTACATCGACTTC
CGGGAGATCCTGGCCCAGACCATGTGCAAGGAGGCCGAGAAGACCGCAGTGAACAAGGTGGCGGCTGCCTTCTTC
GCTGCGCACCTGAAGTTCGTGATTGACGAGTTCGGCCTGTTCAGCGACGTGATGAAGAAGTACGGCATCGAGAAG
GAATGGAAGTTCCCTGTCAAGCCCAAGAAGAAGCGGAAGGTGGGTGGAGGCGGAGGTTCTGGGGGAGGAGGTAGT
GGCGGTGGTGGTTCAGGAGGCGGCGGAAGCCAGCTGCATTTACCGCAGGTTTTAGCTGACGCTGTCTCACGCCTG
GTCCTGGGTAAGTTTGGTGACCTGACCGACAACTTCTCCTCCCCTCACGCTCGCAGAAAAGTGCTGGCTGGAGTC
GTCATGACAACAGGCACAGATGTTAAAGATGCCAAGGTGATAAGTGTTTCTACAGGAGGCAAATGTATTAATGGT
GAATACATGAGTGATCGTGGCCTTGCATTAAATGACTGCCATGCAGAAATAATATCTCGGAGATCCTTGCTCAGA
TTTCTTTATACACAACTTGAGCTTTACTTAAATAACAAAGATGATCAAAAAAGATCCATCTTTCAGAAATCAGAG
CGAGGGGGGTTTAGGCTGAAGGAGAATGTCCAGTTTCATCTGTACATCAGCACCTCTCCCTGTGGAGATGCCAGA
ATCTTCTCACCACATGAGCCAATCCTGGAAGAACCAGCAGATAGACACCCAAATCGTAAAGCAAGAGGACAGCTA
CGGACCAAAATAGAGTCTGGTCAGGGGACGATTCCAGTGCGCTCCAATGCGAGCATCCAAACGTGGGACGGGGTG
CTGCAAGGGGAGCGGCTGCTCACCATGTCCTGCAGTGACAAGATTGCACGCTGGAACGTGGTGGGCATCCAGGGA
TCACTGCTCAGCATTTTCGTGGAGCCCATTTACTTCTCGAGCATCATCCTGGGCAGCCTTTACCACGGGGACCAC
CTTTCCAGGGCCATGTACCAGCGGATCTCCAACATAGAGGACCTGCCACCTCTCTACACCCTCAACAAGCCTTTG
CTCAGTGGCATCAGCAATGCAGAAGCACGGCAGCCAGGGAAGGCCCCCAACTTCAGTGTCAACTGGACGGTAGGC
GACTCCGCTATTGAGGTCATCAACGCCACGACTGGGAAGGATGAGCTGGGCCGCGCGTCCCGCCTGTGTAAGCAC
GCGTTGTACTGTCGCTGGATGCGTGTGCACGGCAAGGTTCCCTCCCACTTACTACGCTCCAAGATTACCAAGCCC
AACGTGTACCATGAGTCCAAGCTGGCGGCAAAGGAGTACCAGGCCGCCAAGGCGCGTCTGTTCACAGCCTTCATC
AAGGCGGGGCTGGGGGCCTGGGTGGAGAAGCCCACCGAGCAGGACCAGTTCTCACTCACGTACCCATACGACGTACCAGATTACGCTTAA(SEQ ID NO:41)
为了用作推定RNA碱基编辑子的靶标,野生型mCherry编码序列经突变以产生提前终止密码子TAG(参见SEQ ID NO:42中的粗体且加双下划线的序列),使得在没有通过RNA碱基编辑子将A校正为G的情况下不会产生功能性mCherry蛋白。参见图12和14。然后设计gRNA以实现所希望的A至G编辑(图12和14),并且使用标准方案将编码dCas13e.1-ADAR2DD碱基编辑子的CX530质粒、编码sgRNA的CX537/Cx538质粒、和编码突变mCherry基因的CX337质粒三重转染到HEK293T细胞中。将经转染的HEK293T细胞在37℃、5%CO2下孵育24小时,然后使细胞经受流式细胞术以分离具有校正的mCherry mRNA并表达mCherry蛋白的细胞。参见说明性图——图12。图13显示了流式细胞术分析的结果。
很明显,gRNA-1(SEQ ID NO:43)和gRNA-2(SEQ ID NO:44)两者都成功地校正了TAG提前终止密码子以生成功能性mCherry蛋白。
caagtagtcggggatgtcggcggggtgcttcacCtaggccttggagccgtGCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:43)
cggggatgtcggcggggtgcttcacCtaggccttggagccgtacatgaacGCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:44)
实施例6使用缩短的dCas13e.1-ADAR2DD融合物进行的单碱基RNA编辑
为了确定可用于RNA单碱基编辑的dCas13e.1的最小尺寸,生成了一系列五种表达dCas13e.1的渐进增大的C-末端缺失的构建体,每个构建体的C-末端减少30个残基(即,30个、60个、90个、120个和150个残基缺失)。所得的构建体用于创建在各自的C-末端处与高保真adar2(ADAR2DD)融合的dCas13e.1的编码序列。将这些构建体克隆到Vysz15(“V15”)至Vysz-19(“V19”)质粒中(图15),用于与实施例4中的实验类似的实验。在所有这些构建体中,融合蛋白从CMV启动子(pCMV)和增强子(eCMV)表达,并且紧接进一步增强蛋白表达的内含子的下游。两个核定位序列(NLS)位于融合物的dCas13e.1部分的N-末端和C-末端处,并且ADAR2结构域(如ADAR2DD)通过NLS接头与C-末端NLS融合,并由HA标签在C-末端处加标签。在EFS启动子(pEFS)独立控制下的EGFP编码序列存在于所有质粒的聚A添加序列的下游。
有趣的是,发现渐进C-末端缺失稳定地增加了融合编辑子中的RNA碱基编辑活性,使得具有150个C-末端残基缺失的编辑子(在V19中)展现了最高的碱基编辑活性。参见图16。然而,C-末端缺失180个残基似乎已经消除了碱基编辑活性,这表明Cas13e.1的C-末端的最大/最佳缺失可能在150-180个残基之间。
基于这一发现,针对具有150个C-末端残基缺失的dCas13e.1生成了一系列N-末端缺失突变体。生成了七个这样的N-末端缺失突变体,分别具有30个、60个、90个、120个、150个、180个和210个残基缺失。参见图17。图18中的结果显示出在以下突变体中观察到最好的RNA编辑活性:所述突变体具有180个N-末端残基缺失和150个C-末端残基缺失,即从775个残基的Cas13e.1蛋白中总共缺失330个残基,以产生用于生成ADAR2DD融合物的445个残基的最佳dCas13e.1。
实施例7使用不同的Cas13蛋白进行的哺乳动物内源性mRNA敲低效率比较
该实验表明,Cas13e和Cas13f蛋白(尤其是Cas13f.1)高效敲低了哺乳动物内源性靶mRNA,比先前鉴定出的Cas13蛋白好。
特别地,构建了五种质粒,每种质粒表达Cas13蛋白中的一种,所述Cas13蛋白即Cas13e.1(SEQ ID NO:22)、Cas13f.1(SEQ ID NO:24)、LwaCas13a(SEQ IDNO:45)、PspCas13b(SEQ ID NO:46)、和RxCas13d(SEQ ID NO:47)。每种质粒还编码了mCherry报告基因,以及侧翼为两个天然DR序列的各个Cas13蛋白的sgRNA/crRNA编码序列。这些sgRNA设计为具有靶向ANXA4 mRNA的间隔序列。参见SEQ ID NO:48-50。作为阴性对照,构建了5种额外的质粒,每种质粒编码非靶向sgRNA/crRNA,而不是靶向ANXA4的sgRNA/crRNA(“对照NT构建体”)。参见图19。
ATGCCCAAGAAGAAGCGGAAGGTGGGATCCATGAAAGTGACCAAGGTCGATGGCATCAGCCACAAGAAGTACATC
GAAGAGGGCAAGCTCGTGAAGTCCACCAGCGAGGAAAACCGGACCAGCGAGAGACTGAGCGAGCTGCTGAGCATC
CGGCTGGACATCTACATCAAGAACCCCGACAACGCCTCCGAGGAAGAGAACCGGATCAGAAGAGAGAACCTGAAG
AAGTTCTTTAGCAACAAGGTGCTGCACCTGAAGGACAGCGTGCTGTATCTGAAGAACCGGAAAGAAAAGAACGCC
GTGCAGGACAAGAACTATAGCGAAGAGGACATCAGCGAGTACGACCTGAAAAACAAGAACAGCTTCTCCGTGCTG
AAGAAGATCCTGCTGAACGAGGACGTGAACTCTGAGGAACTGGAAATCTTTCGGAAGGACGTGGAAGCCAAGCTG
AACAAGATCAACAGCCTGAAGTACAGCTTCGAAGAGAACAAGGCCAACTACCAGAAGATCAACGAGAACAACGTG
GAAAAAGTGGGCGGCAAGAGCAAGCGGAACATCATCTACGACTACTACAGAGAGAGCGCCAAGCGCAACGACTAC
ATCAACAACGTGCAGGAAGCCTTCGACAAGCTGTATAAGAAAGAGGATATCGAGAAACTGTTTTTCCTGATCGAG
AACAGCAAGAAGCACGAGAAGTACAAGATCCGCGAGTACTATCACAAGATCATCGGCCGGAAGAACGACAAAGAG
AACTTCGCCAAGATTATCTACGAAGAGATCCAGAACGTGAACAACATCAAAGAGCTGATTGAGAAGATCCCCGAC
ATGTCTGAGCTGAAGAAAAGCCAGGTGTTCTACAAGTACTACCTGGACAAAGAGGAACTGAACGACAAGAATATT
AAGTACGCCTTCTGCCACTTCGTGGAAATCGAGATGTCCCAGCTGCTGAAAAACTACGTGTACAAGCGGCTGAGC
AACATCAGCAACGATAAGATCAAGCGGATCTTCGAGTACCAGAATCTGAAAAAGCTGATCGAAAACAAACTGCTG
AACAAGCTGGACACCTACGTGCGGAACTGCGGCAAGTACAACTACTATCTGCAAGTGGGCGAGATCGCCACCTCC
GACTTTATCGCCCGGAACCGGCAGAACGAGGCCTTCCTGAGAAACATCATCGGCGTGTCCAGCGTGGCCTACTTC
AGCCTGAGGAACATCCTGGAAACCGAGAACGAGAACGATATCACCGGCCGGATGCGGGGCAAGACCGTGAAGAAC
AACAAGGGCGAAGAGAAATACGTGTCCGGCGAGGTGGACAAGATCTACAATGAGAACAAGCAGAACGAAGTGAAA
GAAAATCTGAAGATGTTCTACAGCTACGACTTCAACATGGACAACAAGAACGAGATCGAGGACTTCTTCGCCAAC
ATCGACGAGGCCATCAGCAGCATCAGACACGGCATCGTGCACTTCAACCTGGAACTGGAAGGCAAGGACATCTTC
GCCTTCAAGAATATCGCCCCCAGCGAGATCTCCAAGAAGATGTTTCAGAACGAAATCAACGAAAAGAAGCTGAAG
CTGAAAATCTTCAAGCAGCTGAACAGCGCCAACGTGTTCAACTACTACGAGAAGGATGTGATCATCAAGTACCTG
AAGAATACCAAGTTCAACTTCGTGAACAAAAACATCCCCTTCGTGCCCAGCTTCACCAAGCTGTACAACAAGATT
GAGGACCTGCGGAATACCCTGAAGTTTTTTTGGAGCGTGCCCAAGGACAAAGAAGAGAAGGACGCCCAGATCTAC
CTGCTGAAGAATATCTACTACGGCGAGTTCCTGAACAAGTTCGTGAAAAACTCCAAGGTGTTCTTTAAGATCACC
AATGAAGTGATCAAGATTAACAAGCAGCGGAACCAGAAAACCGGCCACTACAAGTATCAGAAGTTCGAGAACATC
GAGAAAACCGTGCCCGTGGAATACCTGGCCATCATCCAGAGCAGAGAGATGATCAACAACCAGGACAAAGAGGAA
AAGAATACCTACATCGACTTTATTCAGCAGATTTTCCTGAAGGGCTTCATCGACTACCTGAACAAGAACAATCTG
AAGTATATCGAGAGCAACAACAACAATGACAACAACGACATCTTCTCCAAGATCAAGATCAAAAAGGATAACAAA
GAGAAGTACGACAAGATCCTGAAGAACTATGAGAAGCACAATCGGAACAAAGAAATCCCTCACGAGATCAATGAG
TTCGTGCGCGAGATCAAGCTGGGGAAGATTCTGAAGTACACCGAGAATCTGAACATGTTTTACCTGATCCTGAAG
CTGCTGAACCACAAAGAGCTGACCAACCTGAAGGGCAGCCTGGAAAAGTACCAGTCCGCCAACAAAGAAGAAACC
TTCAGCGACGAGCTGGAACTGATCAACCTGCTGAACCTGGACAACAACAGAGTGACCGAGGACTTCGAGCTGGAA
GCCAACGAGATCGGCAAGTTCCTGGACTTCAACGAAAACAAAATCAAGGACCGGAAAGAGCTGAAAAAGTTCGAC
ACCAACAAGATCTATTTCGACGGCGAGAACATCATCAAGCACCGGGCCTTCTACAATATCAAGAAATACGGCATG
CTGAATCTGCTGGAAAAGATCGCCGATAAGGCCAAGTATAAGATCAGCCTGAAAGAACTGAAAGAGTACAGCAAC
AAGAAGAATGAGATTGAAAAGAACTACACCATGCAGCAGAACCTGCACCGGAAGTACGCCAGACCCAAGAAGGAC
GAAAAGTTCAACGACGAGGACTACAAAGAGTATGAGAAGGCCATCGGCAACATCCAGAAGTACACCCACCTGAAG
AACAAGGTGGAATTCAATGAGCTGAACCTGCTGCAGGGCCTGCTGCTGAAGATCCTGCACCGGCTCGTGGGCTAC
ACCAGCATCTGGGAGCGGGACCTGAGATTCCGGCTGAAGGGCGAGTTTCCCGAGAACCACTACATCGAGGAAATT
TTCAATTTCGACAACTCCAAGAATGTGAAGTACAAAAGCGGCCAGATCGTGGAAAAGTATATCAACTTCTACAAA
GAACTGTACAAGGACAATGTGGAAAAGCGGAGCATCTACTCCGACAAGAAAGTGAAGAAACTGAAGCAGGAAAAA
AAGGACCTGTACATCCGGAACTACATTGCCCACTTCAACTACATCCCCCACGCCGAGATTAGCCTGCTGGAAGTG
CTGGAAAACCTGCGGAAGCTGCTGTCCTACGACCGGAAGCTGAAGAACGCCATCATGAAGTCCATCGTGGACATT
CTGAAAGAATACGGCTTCGTGGCCACCTTCAAGATCGGCGCTGACAAGAAGATCGAAATCCAGACCCTGGAATCA
GAGAAGATCGTGCACCTGAAGAATCTGAAGAAAAAGAAACTGATGACCGACCGGAACAGCGAGGAACTGTGCGAACTCGTGAAAGTCATGTTCGAGTACAAGGCCCTGGAATGA(SEQ ID NO:45)
ATGCCCAAGAAGAAGCGGAAGGTGGTCGACAACATCCCCGCTCTGGTGGAAAACCAGAAGAAGTACTTTGGCACC
TACAGCGTGATGGCCATGCTGAACGCTCAGACCGTGCTGGACCACATCCAGAAGGTGGCCGATATTGAGGGCGAG
CAGAACGAGAACAACGAGAATCTGTGGTTTCACCCCGTGATGAGCCACCTGTACAACGCCAAGAACGGCTACGAC
AAGCAGCCCGAGAAAACCATGTTCATCATCGAGCGGCTGCAGAGCTACTTCCCATTCCTGAAGATCATGGCCGAG
AACCAGAGAGAGTACAGCAACGGCAAGTACAAGCAGAACCGCGTGGAAGTGAACAGCAACGACATCTTCGAGGTG
CTGAAGCGCGCCTTCGGCGTGCTGAAGATGTACAGGGACCTGACCAACCACTACAAGACCTACGAGGAAAAGCTG
AACGACGGCTGCGAGTTCCTGACCAGCACAGAGCAACCTCTGAGCGGCATGATCAACAACTACTACACAGTGGCC
CTGCGGAACATGAACGAGAGATACGGCTACAAGACAGAGGACCTGGCCTTCATCCAGGACAAGCGGTTCAAGTTC
GTGAAGGACGCCTACGGCAAGAAAAAGTCCCAAGTGAATACCGGATTCTTCCTGAGCCTGCAGGACTACAACGGC
GACACACAGAAGAAGCTGCACCTGAGCGGAGTGGGAATCGCCCTGCTGATCTGCCTGTTCCTGGACAAGCAGTAC
ATCAACATCTTTCTGAGCAGGCTGCCCATCTTCTCCAGCTACAATGCCCAGAGCGAGGAACGGCGGATCATCATC
AGATCCTTCGGCATCAACAGCATCAAGCTGCCCAAGGACCGGATCCACAGCGAGAAGTCCAACAAGAGCGTGGCC
ATGGATATGCTCAACGAAGTGAAGCGGTGCCCCGACGAGCTGTTCACAACACTGTCTGCCGAGAAGCAGTCCCGG
TTCAGAATCATCAGCGACGACCACAATGAAGTGCTGATGAAGCGGAGCAGCGACAGATTCGTGCCTCTGCTGCTG
CAGTATATCGATTACGGCAAGCTGTTCGACCACATCAGGTTCCACGTGAACATGGGCAAGCTGAGATACCTGCTG
AAGGCCGACAAGACCTGCATCGACGGCCAGACCAGAGTCAGAGTGATCGAGCAGCCCCTGAACGGCTTCGGCAGA
CTGGAAGAGGCCGAGACAATGCGGAAGCAAGAGAACGGCACCTTCGGCAACAGCGGCATCCGGATCAGAGACTTC
GAGAACATGAAGCGGGACGACGCCAATCCTGCCAACTATCCCTACATCGTGGACACCTACACACACTACATCCTG
GAAAACAACAAGGTCGAGATGTTTATCAACGACAAAGAGGACAGCGCCCCACTGCTGCCCGTGATCGAGGATGAT
AGATACGTGGTCAAGACAATCCCCAGCTGCCGGATGAGCACCCTGGAAATTCCAGCCATGGCCTTCCACATGTTT
CTGTTCGGCAGCAAGAAAACCGAGAAGCTGATCGTGGACGTGCACAACCGGTACAAGAGACTGTTCCAGGCCATG
CAGAAAGAAGAAGTGACCGCCGAGAATATCGCCAGCTTCGGAATCGCCGAGAGCGACCTGCCTCAGAAGATCCTG
GATCTGATCAGCGGCAATGCCCACGGCAAGGATGTGGACGCCTTCATCAGACTGACCGTGGACGACATGCTGACC
GACACCGAGCGGAGAATCAAGAGATTCAAGGACGACCGGAAGTCCATTCGGAGCGCCGACAACAAGATGGGAAAG
AGAGGCTTCAAGCAGATCTCCACAGGCAAGCTGGCCGACTTCCTGGCCAAGGACATCGTGCTGTTTCAGCCCAGC
GTGAACGATGGCGAGAACAAGATCACCGGCCTGAACTACCGGATCATGCAGAGCGCCATTGCCGTGTACGATAGC
GGCGACGATTACGAGGCCAAGCAGCAGTTCAAGCTGATGTTCGAGAAGGCCCGGCTGATCGGCAAGGGCACAACA
GAGCCTCATCCATTTCTGTACAAGGTGTTCGCCCGCAGCATCCCCGCCAATGCCGTCGAGTTCTACGAGCGCTAC
CTGATCGAGCGGAAGTTCTACCTGACCGGCCTGTCCAACGAGATCAAGAAAGGCAACAGAGTGGATGTGCCCTTC
ATCCGGCGGGACCAGAACAAGTGGAAAACACCCGCCATGAAAACCCTGGGCAGAATCTACAGCGAGGATCTGCCC
GTGGAACTGCCCAGACAGATGTTCGACAATGAGATCAAGTCCCACCTGAAGTCCCTGCCACAGATGGAAGGCATC
GACTTCAACAATGCCAACGTGACCTATCTGATCGCCGAGTACATGAAGAGAGTGCTGGACGACGACTTCCAGACC
TTCTACCAGTGGAACCGCAACTACCGGTACATGGACATGCTTAAGGGCGAGTACGACAGAAAGGGCTCCCTGCAG
CACTGCTTCACCAGCGTGGAAGAGAGAGAAGGCCTCTGGAAAGAGCGGGCCTCCAGAACAGAGCGGTACAGAAAG
CAGGCCAGCAACAAGATCCGCAGCAACCGGCAGATGAGAAACGCCAGCAGCGAAGAGATCGAGACAATCCTGGAT
AAGCGGCTGAGCAACAGCCGGAACGAGTACCAGAAAAGCGAGAAAGTGATCCGGCGCTACAGAGTGCAGGATGCC
CTGCTGTTTCTGCTGGCCAAAAAGACCCTGACCGAACTGGCCGATTTCGACGGCGAGAGGTTCAAACTGAAAGAA
ATCATGCCCGACGCCGAGAAGGGAATCCTGAGCGAGATCATGCCCATGAGCTTCACCTTCGAGAAAGGCGGCAAG
AAGTACACCATCACCAGCGAGGGCATGAAGCTGAAGAACTACGGCGACTTCTTTGTGCTGGCTAGCGACAAGAGG
ATCGGCAACCTGCTGGAACTCGTGGGCAGCGACATCGTGTCCAAAGAGGATATCATGGAAGAGTTCAACAAATAC
GACCAGTGCAGGCCCGAGATCAGCTCCATCGTGTTCAACCTGGAAAAGTGGGCCTTCGACACATACCCCGAGCTG
TCTGCCAGAGTGGACCGGGAAGAGAAGGTGGACTTCAAGAGCATCCTGAAAATCCTGCTGAACAACAAGAACATC
AACAAAGAGCAGAGCGACATCCTGCGGAAGATCCGGAACGCCTTCGATCACAACAATTACCCCGACAAAGGCGTG
GTGGAAATCAAGGCCCTGCCTGAGATCGCCATGAGCATCAAGAAGGCCTTTGGGGAGTACGCCATCATGAAGGGATCCCTTCAATGA(SEQ ID NO:46)
ATGCCTAAAAAGAAAAGAAAGGTGGGTTCTGGTATCGAGAAGAAGAAGAGCTTCGCCAAGGGCATGGGAGTGAAG
AGCACCCTGGTGTCCGGCTCTAAGGTGTACATGACCACATTTGCTGAGGGAAGCGACGCCAGGCTGGAGAAGATC
GTGGAGGGCGATAGCATCAGATCCGTGAACGAGGGAGAGGCTTTCAGCGCCGAGATGGCTGACAAGAACGCTGGC
TACAAGATCGGAAACGCCAAGTTTTCCCACCCAAAGGGCTACGCCGTGGTGGCTAACAACCCACTGTACACCGGA
CCAGTGCAGCAGGACATGCTGGGACTGAAGGAGACACTGGAGAAGAGGTACTTCGGCGAGTCCGCCGACGGAAAC
GATAACATCTGCATCCAGGTCATCCACAACATCCTGGATATCGAGAAGATCCTGGCTGAGTACATCACAAACGCC
GCTTACGCCGTGAACAACATCTCCGGCCTGGACAAGGATATCATCGGCTTCGGAAAGTTTTCTACCGTGTACACA
TACGACGAGTTCAAGGATCCAGAGCACCACCGGGCCGCTTTTAACAACAACGACAAGCTGATCAACGCCATCAAG
GCTCAGTACGACGAGTTCGATAACTTTCTGGATAACCCCAGGCTGGGCTACTTCGGACAGGCTTTCTTTTCTAAG
GAGGGCAGAAACTACATCATCAACTACGGAAACGAGTGTTACGACATCCTGGCCCTGCTGAGCGGACTGAGGCAC
TGGGTGGTGCACAACAACGAGGAGGAGTCTCGGATCAGCCGCACCTGGCTGTACAACCTGGACAAGAACCTGGAT
AACGAGTACATCTCCACACTGAACTACCTGTACGACAGGATCACCAACGAGCTGACAAACAGCTTCTCCAAGAAC
TCTGCCGCTAACGTGAACTACATCGCTGAGACCCTGGGCATCAACCCAGCTGAGTTCGCTGAGCAGTACTTCAGA
TTTTCCATCATGAAGGAGCAGAAGAACCTGGGCTTCAACATCACAAAGCTGAGAGAAGTGATGCTGGACAGAAAG
GATATGTCCGAGATCAGGAAGAACCACAAGGTGTTCGATTCTATCAGAACCAAGGTGTACACAATGATGGACTTT
GTGATCTACAGGTACTACATCGAGGAGGATGCCAAGGTGGCCGCTGCCAACAAGAGCCTGCCCGACAACGAGAAG
TCTCTGAGCGAGAAGGATATCTTCGTGATCAACCTGAGAGGCTCCTTTAACGACGATCAGAAGGACGCTCTGTAC
TACGATGAGGCCAACAGGATCTGGAGAAAGCTGGAGAACATCATGCACAACATCAAGGAGTTCCGGGGAAACAAG
ACCCGCGAGTACAAGAAGAAGGACGCTCCAAGGCTGCCTAGGATCCTGCCTGCTGGAAGGGACGTGAGCGCCTTC
AGCAAGCTGATGTACGCCCTGACAATGTTTCTGGACGGAAAGGAGATCAACGATCTGCTGACCACACTGATCAAC
AAGTTCGACAACATCCAGTCTTTTCTGAAAGTGATGCCTCTGATCGGCGTGAACGCTAAGTTCGTGGAGGAGTAC
GCCTTCTTTAAGGACAGCGCCAAGATCGCTGATGAGCTGCGGCTGATCAAGTCCTTTGCCAGGATGGGAGAGCCA
ATCGCTGACGCTAGGAGAGCTATGTACATCGATGCCATCCGGATCCTGGGAACCAACCTGTCTTACGACGAGCTG
AAGGCTCTGGCCGACACCTTCAGCCTGGATGAGAACGGCAACAAGCTGAAGAAGGGCAAGCACGGAATGCGCAAC
TTCATCATCAACAACGTGATCAGCAACAAGCGGTTTCACTACCTGATCAGATACGGCGACCCAGCTCACCTGCAC
GAGATCGCTAAGAACGAGGCCGTGGTGAAGTTCGTGCTGGGACGGATCGCCGATATCCAGAAGAAGCAGGGCCAG
AACGGAAAGAACCAGATCGACCGCTACTACGAGACCTGCATCGGCAAGGATAAGGGAAAGTCCGTGTCTGAGAAG
GTGGACGCTCTGACCAAGATCATCACAGGCATGAACTACGACCAGTTCGATAAGAAGAGATCTGTGATCGAGGAC
ACCGGAAGGGAGAACGCCGAGAGAGAGAAGTTTAAGAAGATCATCAGCCTGTACCTGACAGTGATCTACCACATC
CTGAAGAACATCGTGAACATCAACGCTAGATACGTGATCGGCTTCCACTGCGTGGAGCGCGATGCCCAGCTGTAC
AAGGAGAAGGGATACGACATCAACCTGAAGAAGCTGGAGGAGAAGGGCTTTAGCTCCGTGACCAAGCTGTGCGCT
GGAATCGACGAGACAGCCCCCGACAAGAGGAAGGATGTGGAGAAGGAGATGGCCGAGAGAGCTAAGGAGAGCATC
GACTCCCTGGAGTCTGCTAACCCTAAGCTGTACGCCAACTACATCAAGTACTCCGATGAGAAGAAGGCCGAGGAG
TTCACCAGGCAGATCAACAGAGAGAAGGCCAAGACCGCTCTGAACGCCTACCTGAGGAACACAAAGTGGAACGTG
ATCATCCGGGAGGACCTGCTGCGCATCGATAACAAGACCTGTACACTGTTCCGGAACAAGGCTGTGCACCTGGAG
GTGGCTCGCTACGTGCACGCCTACATCAACGACATCGCCGAGGTGAACTCCTACTTTCAGCTGTACCACTACATC
ATGCAGAGGATCATCATGAACGAGAGATACGAGAAGTCTAGCGGCAAGGTGTCTGAGTACTTCGACGCCGTGAAC
GATGAGAAGAAGTACAACGATAGACTGCTGAAGCTGCTGTGCGTGCCTTTCGGATACTGTATCCCACGGTTTAAG
AACCTGAGCATCGAGGCCCTGTTCGACCGCAACGAGGCTGCCAAGTTTGATAAGGAGAAGAAGAAGGTGAGCGGCAACTCCTGA(SEQ ID NO:47)
ATGGCCCTTCGCAGCTCTTGCACGTCATAC(SEQ ID NO:48)
TTAGGCAGCCCTCATCAGTGCCGGCTCCCT(SEQ ID NO:49)
GGCCAGGATCTCAATTAGGCAGCCCTCATC(SEQ ID NO:50)
如在实施例4中,将五种编码Cas13/sgRNA的质粒转染到HEK293细胞中。在培养24小时后,通过流式细胞术分离表达mCherry的细胞,并使用RT-PCR确定ANXA4 mRNA的表达,以评估与由编码Cas13/NT的质粒转染的对照细胞相比的敲低效率。
图20显示出Cas13b仅具有边缘ANXA4 mRNA敲低,而Cas13e.1、Cas13f.1和Cas13d均具有超过80%的靶ANXA4 mRNA敲低。在它们当中,Cas13e.1似乎具有最强的敲低效率。