具体实施方式
概述
本文所述的发明提供了第2类VI型新型Cas效应蛋白,在本文中有时被称为Cas13e和Cas13f。本发明的新型Cas13蛋白比先前发现的Cas13效应蛋白(Cas13a-Cas13d)要小得多,其crRNA编码序列可以轻易包装入小容量基因治疗载体中,例如AAV载体。此外,与Cas13a、Cas13b和Cas13d效应子蛋白相比,新发现地Cas13e和Cas13f效应蛋白在敲除RNA靶序列方面更有效,并且在RNA单碱基编辑中有更高效率,同时在被基于crRNA的靶标识别激活后,表现出可忽略的非特异性RNA酶活性,此外它的间隔区序列长度在一个狭窄(如约30个核苷酸)的范围内。因此,所述新型Cas蛋白非常适合基因疗法。
因此,在第一方面,本发明提供了Cas13e和Cas13f,例如具有SEQ ID NO:1-7的氨基酸序列,或直系同源物、同系物、各种衍生物(在下文描述)、其功能片段(在下文描述),其中上述直系同源物、同源物、衍生物、功能性片段保持了SEQ ID NO:1-7中的任何一种蛋白质的至少一种功能。此类功能包括但不限于:与本发明中的向导RNA/crRNA(在下文描述)结合形成复合物的能力、RNA酶活性,以及在与靶RNA至少部分互补的crRNA向导下能够在特定位点结合与切割靶RNA的能力。
在一些实施方案中,本发明的Cas13e或Cas13f效应蛋白可以是:(i)SEQ ID NO:1-7中任何一个;(ii)一个衍生物,其含有一个或多个SEQ ID NO:1-7中任何一个氨基酸(例如1、2、3、4、5、6、7、8、9或10个残基)的添加、缺失和/或取代(例如保守取代);(iii)一个衍生物,至少具有与约与SEQ ID NO:1-7中任意一个80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99的氨基酸序列同一性。
在一些实施方案中,Cas13e和Cas13f效应蛋白、其直系同源物、同系物、衍生物和功能片段不是天然存在的,例如可能与天然存在的序列相比至少有一个氨基酸的差异。
在一个相关方面,本发明提供了加成衍生物Cas13e和Cas13f效应蛋白,它们基于SEQ ID NO:1-7中任何一个或其上述直系同源物、同系物、衍生物和功能片段,包含另一个共价或非共价连接的蛋白质或多肽或其他分子(例如检测试剂或药物/化学部分)。此类其他蛋白质/多肽/其他分子可以通过如化学偶联、基因融合或其他非共价连接(如生物素-链霉亲和素结合)进行连接。此类衍生蛋白质不影响原始蛋白质的功能,如与本发明中向导RNA/crRNA(在下文描述)结合形成复合物的能力、RNA酶活性以及以及在与靶RNA至少部分互补的crRNA向导下能够在特定位点结合与切割靶RNA的能力。
此类衍生可用于例如添加核定位信号(NLS,例如SV40大T抗原NLS),增强受试Cas13e和Cas13f效应蛋白进入细胞核的能力。此类衍生也可以用于添加靶向分子或靶向部分,将受试Cas13e和Cas13f效应蛋白引导至特定细胞或亚细胞位置。此类衍生也可用于添加可检测标记,促进受试Cas13e和Cas13f效应蛋白的检测、监测或纯化。此类衍生也可用于添加脱氨酶部分(例如含有腺嘌呤或胞嘧啶脱氨活性的部分),促进RNA碱基的编辑。
所述衍生可以通过将上述添加部分添加至受试Cas13e和Cas13f效应蛋白的N端或C端,或添加至内部(例如内部融合或通过内部氨基酸侧链键合)。
在第二个相关方面,本发明提供了受试Cas13e和Cas13f效应蛋白的缀合物,它们基于SEQ ID NO:1-7中任何一个或其上述直系同源物、同系物、衍生物和功能片段,与如其他蛋白质或多肽、可检测标记或以上组合这些部分缀合。此类缀合部分可包括但不限于:定位信号、报告基因(例如GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、标记(如FITC或DAPI这种荧光染料)、NLS、靶向部分、DNA结合域(例如MBP、Lex A DBD、Gal4DBD)、抗原决定簇标签(例如Hismyc、V5、FLAG、HA、VSV-G、Trx等)、转录激活域(例如VP64或VPR)、转录抑制域(例如KRAB或SID部分)、核酸酶(如FokI)、脱氨基域(例如ADAR1,ADAR2,APOBEC,AID或TAD)、甲基化酶、脱甲基酶、转录释放因子、HDAC、ssRNA裂解活性、dsRNA裂解活性、ssDNA裂解活性、dsDNA裂解活性、DNA或RNA连接酶、以上任意组合等。
例如,所述缀合物可以包括一个或多个NLS,此类NLS可以在N端、C端、内部或以上几处附近。所述连接可以通过氨基酸(例如D或E,或S或T)、氨基酸衍生物(例如Ahx、β-Ala、GABA或Ava)或PEG连接实现。
在一些实施方案中,缀合不影响原始蛋白的功能,例如与本发明中向导RNA/crRNA(在下文描述)结合形成复合物的能力、RNA酶活性,以及在与靶RNA至少部分互补的crRNA向导下能够在特定位点结合与切割靶RNA的能力。
在相关的第三方面,本发明提供了受试Cas13e和Cas13f效应蛋白的融合物,它们基于SEQ ID NO:1-7中任何一个或其上述直系同源物、同系物、衍生物和功能片段与下述部分融合:如定位信号、报告基因(例如GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、NLS、蛋白质靶向部分、DNA结合域(如MBP、Lex A DBD、Gal4DBD)、表位标签(例如His、myc、V5、FLAG、HA、VSV-G、Trx等)、转录激活域(如VP64或VPR)、转录抑制域(例如KRAB或SID部分)、核酸酶(如FokI)、脱氨结构域(如ADAR1、ADAR2、APOBEC、AID或TAD)、甲基化酶、脱甲基酶、转录释放因子、HDAC、ssRNA裂解活性、dsRNA裂解活性、ssDNA裂解活性、dsDNA裂解活性、DNA或RNA连接酶、以上任何组合等
例如,所述融合物可以包括一个或多个NLS,此类NLS可以在N端、C端、内部附近。在一些实施方案中,缀合不影响原始蛋白的功能,例如与本发明中向导RNA/crRNA(在下文描述)结合形成复合物的能力、RNA酶活性,以及在与靶RNA至少部分互补的crRNA向导下能够在特定位点结合与切割靶RNA的能力。
在第四方面,本发明提供了一种分离的多核苷酸,其包含:(i)SEQ ID NO:8-14中任何一个;(ii)一种多核苷酸,与SEQ ID NO:8-14中任一个相比有1、2、3、4或5个核苷酸缺失、添加和/或取代;(iii)与SEQ ID NO:8-14中任何一个具有至少80%、85%、90%、95%序列同一性的一种多核苷酸;(iv)一种多核苷酸,在严格条件下可与(i)-(iii)的多核苷酸中的任何一种或其互补序列杂交;(v)(i)-(iii)的任何多核苷酸的互补序列。
(ii)-(iv)中的任何多核苷酸都保持了原始SEQ ID NO:8-14的功能,所述功能为编码受试Cas13e或Cas13f系统中crRNA的同向重复(DR)序列。
本文所用的“同向重复序列”可以指CRISPR基因座中的DNA编码序列,或指crRNA中由其编码的RNA。因此,在关于RNA分子的上下文中,若提及SEQ ID NO:8-14中任何一个时(如crRNA),每个T应被理解为代表一个U。
因此,在一些实施方案中,分离的多核苷酸是DNA,它对受试Cas13e和Cas13f系统crRNA的DR序列编码。
在一些其他实施方案中,分离的多核苷酸是RNA,它是受试Cas13e和Cas13f系统crRNA的DR序列。
在第五方面,本发明提供一种复合物,包含:(i)蛋白质组合物,其可以是受试Cas13e或Cas13f效应蛋白,或直系同源物、同系物、衍生物、缀合物、其功能片段、其缀合物、其融合体中的任何一种;(ii)一种多核苷酸组合物,它含有一个本发明第四方面所述的分离的多核苷酸(例如DR序列)、一个与靶RNA至少一部分互补的间隔区序列。在一些实施方案中,DR序列位于间隔区序列的3'末端。
在一些实施方案中,多核苷酸组合物是受试Cas13e或Cas13f系统的向导RNA/crRNA,它不包含tracrRNA。
在一些实施方案中,为了与具有RNase活性的Cas13e和Cas13f效应蛋白、其同系物、直系同源物、衍生物、融合物、缀合物或功能片段一起使用,所述间隔区序列至少为约10个核苷酸,或在10-60、15-50、20-50、25-40、25-50或19-50个核苷酸之间。在一些实施方案中,为了与不具有RNase活性的Cas13e和Cas13f效应蛋白、其同系物、直系同源物、衍生物、融合体、缀合物或功能片段一起使用,但能够结合向导RNA、与向导RNA互补的靶RNA,所述间隔区序列至少为约10个核苷酸,或在约10-200、15-180、20-150、25-125、30-110、35-100、40-80、45-60、50-55或约50个核苷酸之间。
在一些实施方案中,所述DR序列在15-36、20-36、22-36或约36个核苷酸之间。在一些实施方案中,向导RNA中的DR序列具有与SEQ ID NO:8-14中任一项RNA版本基本相同的二级结构(包括茎状、凸起和环状结构)。
在一些实施方案中,向导RNA的长度比上述任何间隔区序列要长约36个核苷酸,例如在45-96、55-86、60-86、62-86或63-86个核苷酸之间。
在第六方面,本发明提供了一种分离的多核苷酸,包含:(i)一种多核苷酸,它编码SEQ ID NO:1-7的Cas13e或Cas13f效应蛋白中任何一个,或其直系同源物、同系物、衍生物、功能片段、融合体;和(ii)SEQ ID NO:8-14中任一项的多核苷酸;或(iii)包含(i)和(ii)的多核苷酸。
在一些实施方案中,所述多核苷酸不是天然形成/天然存在的,如除SEQ ID NO:15-21外
在一些实施方案中,多核苷酸被进行了密码子优化以在原核生物中表达。在一些实施方案中,多核苷酸被进行了密码子优化以在真核生物如人类或人类细胞中表达。
在第七方面,本发明提供了一种载体,它包含或涵盖第六方面所述的任何多核苷酸的。所述载体可以是克隆载体或表达载体。所述载体可以是质粒、噬菌粒或粘粒,此处仅举几例。在一些实施方案中,所述载体可在以下情况被用于表达多核苷酸:在哺乳动物细胞例如人类细胞中、SEQ ID NO:1-7的任一种Cas13e或Cas13f效应蛋白中、或其直系同源物、同系物、衍生物、功能性蛋白片段、融合物中;或第四方面所述的任何多核苷酸中;或第五方面所述的任何复合物中。
在第八方面,本发明提供了一种宿主细胞,它包含本发明第四或第六方面所述的多核苷酸,和/或第七方面所述载体。所述宿主细胞可以是原核生物,例如大肠杆菌,或者是来自真核生物的细胞,例如酵母、昆虫、植物、动物(例如人和小鼠这种哺乳动物)。所述宿主细胞可以是分离的原代细胞(例如用于离体治疗的骨髓细胞),也可以是已建立的细胞系,例如肿瘤细胞系、293T细胞或干细胞、iPC等。
在一个相关方面,本发明提供了一种真核细胞,它包含簇状的规则间隔的短回文重复序列(CRISPR)-Cas复合物,所述CRISPR-Cas复合物包括:(1)一个RNA向导序列,它含有能够与靶RNA杂交的间隔区序列,以及一个间隔区序列的3'同向重复序列(DR);(2)一种CRISPR相关蛋白(Cas),它具有SEQ ID NO:1-7中任一项的氨基酸序列,或所述Cas的衍生物或功能片段;其中所述Cas、所述Cas的衍生物和功能片段能够(i)结合至RNA向导序列和(ii)靶向靶RNA。
在第九方面,本发明提供了一种组合物,它包含:(i)第一(蛋白质)组合物,选自SEQ ID NO:1-7中任一种Cas13e或Cas13f效应蛋白,或其直系同源物、同系物、衍生物、缀合物、功能片段、融合物;(ii)第二种(核苷酸)组合物,它包含了一个含有一个向导RNA/crRNA的RNA,特别是间隔区序列或所述RNA的编码序列。所述向导RNA可以包含一个DR序列,以及一个可以与靶RNA互补或杂交的间隔区序列。所述向导RNA可以与(i)中的第一(蛋白质)组合物形成复合物。在一些实施方案中,所述DR序列可以是本发明第四方面所述多核苷酸。在一些实施方案中,所述DR序列可以位于向导RNA的3'末端。在一些实施方案中,所述组合物(例如(i)和/或(ii)中的组合物)是非天然存在的,或由天然存在的组合物改造而成的。在一些实施方案中,所述组合物的至少一种组分是非天然存在的或由组合物的天然存在的组分改性而成的。在一些实施方案中,所述靶序列是一个来自原核生物或真核生物的RNA,例如非天然存在的RNA。所述靶RNA可以存在于细胞内部,例如细胞质中或细胞器内部。在一些实施方案中,所述蛋白质组合物可具有一个NLS,该NLS可位于其N端、C端或内部。
在第十方面,本发明提供了一个包含一个或多个本发明第七方面所述载体的组合物,所述的一个或多个载体包含:(i)一个第一多核苷酸,它编码SEQ ID NO:1-7中任何一种Cas13e或Cas13f效应蛋白、或其直系同源物、同系物、衍生物、功能片段、融合物;操作上可任意连接至第一级调控元件;(ii)一个第二多核苷酸,它编码本发明中的向导RNA,操作上可任意连接至第二级调控元件。第一和第二多核苷酸可以在不同的载体上或在相同的载体上。所述向导RNA可以与由第一多核苷酸编码的蛋白质产物形成复合物,并且包含一个DR序列(如第四方面所述的任何DR序列)、一个可以与靶RNA结合/互补的间隔区序列。在一些实施方案中,所述第一调节元件是一个启动子,例如诱导型启动子。在一些实施方案中,第二调节元件是一个启动子,例如诱导型启动子。在一些实施方案中,所述组合物(例如(i)和/或(ii))是非天然存在的或由天然存在的组合物改性而成的。在一些实施方案中,所述组合物的至少一种组分是非天然存在的或由组合物的天然存在的组分改性的。在一些实施方案中,所述靶序列是来自原核生物或真核生物的RNA,例如非天然存在的RNA。所述靶RNA可以存在于细胞内部,例如细胞质中或细胞器内部。在一些实施方案中,所述蛋白质组合物可具有一个NLS,该NLS可位于其N端、C端或内部。
在一些实施方案中,所述载体是一个质粒。在一些实施方案中,所述载体是一个病毒载体,它基于逆转录病毒、无复制能力的逆转录病毒、腺病毒、无复制能力的腺病毒或AAV。在一些实施方案中,所述载体可以在宿主细胞中自我复制(如具有细菌复制起点序列)。在一些实施方案中,所述载体可以整合入宿主基因组并随后复制。在一些实施方案中,所述载体是一个克隆载体。在一些实施方案中,所述载体是一个表达载体。
本发明还提供了一种递送组合物,用于递送本发明第一至第三方面所述的任何SEQ ID NO:1-7的Cas13e或Cas13f效应蛋白,或其直系同源物、同系物、衍生物、缀合物,功能片段、融合体;本发明的第四和/或第六方面所述多核苷酸;本发明第五方面所述复合物;本发明第七方面所述载体;本发明的第八方面所述细胞,以及本发明第九和/或第十方面所述的组合物。递送可以是通过本领域中任何已知的递送方法,如转染、脂质转染、电穿孔、基因枪、显微注射、超声处理、磷酸钙转染、阳离子转染、病毒载体递送等,通过使用媒介物,如脂质体、纳米颗粒、外来体、微泡、基因枪,或一种或多种病毒载体。
本发明还提供了一种试剂盒,其包含以下任一种或多种:本发明第一至第三方面所述的SEQ ID NO:1-7中任何一种Cas13e或Cas13f效应蛋白,或其直系同源物、同系物、衍生物、缀合物、功能片段、融合物;本发明的第四和/或第六方面所述多核苷酸;本发明第五方面所述复合物;本发明第七方面所述载体;本发明第八方面所述细胞,以及本发明的第九和/或第十方面所述组合物。在一些实施方案中,试剂盒可能还包括一份说明书,关于如何使用试剂盒的组分,和/或如何从第三方处获得附加组分与试剂盒的组分一起使用。所述试剂盒的任何组分都可以存储在任意合适的容器中。
以上内容即为对本发明的总体描述,以下单独部分将对本发明的各个方面进行更详细的描述。然而,对本发明的描述应作如下理解:为了简化和减少冗余,本发明的某些实施方案仅在一个部分进行描述,或仅在权利要求或实施例中描述。因此,还应作如下理解:除非特别声明否认或组合形式不当,本发明的任何一个实施方案,包括仅在一个方面、一个部分或仅在权利要求或实施例中描述的实施方案,都可以与本发明中所述任何其他实施方案进行组合。
1.新型2类VI型CRISPR RNA引导的RNase及其衍生物
一方面,本文描述的发明提供了两个新型CRISPR第2类VI型效应蛋白家族,它们具有两个严格保守的RX4-6H(RXXXXH)基序,是高级真核生物和原核生物核苷酸结合(HEPN)结构域的特征。此前已发现类似的含有两个HEPN结构域的CRISPR第2类VI型效应蛋白,包括例如CRISPR Cas13a(C2c2)、Cas13b、Cas13c、Cas13d。
HEPN结构域已被证明为RNase结构域,并具有结合与切割靶RNA分子的能力。所述靶RNA可以是RNA的任何合适形式,包括但不限于mRNA、tRNA、核糖体RNA、非编码RNA、lncRNA(长非编码RNA)、核RNA。例如,在一些实施方案中,所述Cas蛋白对开放阅读框(ORF)的编码链上的RNA靶标进行识别与切割。
在一个实施方案中,本文公开提供了两个家族的CRISPR第2类VI型效应蛋白,在本文中通常称为VI-E和VI-F型CRISPR-Cas效应蛋白、Cas13e或Cas13f。将VI-E、VI-F的CRISPR-Cas效应蛋白与其他系统的效应蛋白相比较,会发现VI-E、VI-F的CRISPR-Cas效应蛋白显著更小(例如约少20%的氨基酸),甚至比此前发现最小的VI-D/Cas13d效应蛋白(参见图4)要小,且与上述其他效应蛋白在一对一序列比对中序列相似性小于30%(参见图3),包括系统发育最相近的缘种Cas13b。
T这两个新发现的CRISPR第2类VI型效应蛋白家族可用于多种应用,且尤其适合在治疗中运用,因为这些效应蛋白要显著小于其他效应蛋白(如CRISPR Cas13a、Cas13b、Cas13c、Cas13d),因此编码效应蛋白的核酸及它们的引导RNA编码序列可以被包装到有大小限制的递送系统中(如AAV载体)。此外,所述Cas效应蛋白被异性RNA酶活性激活时,一定长度范围内的间隔区序列(如约30个核苷酸范围内,参见图11)不存在可检测的附带/非特异性RNase活性,使得这些Cas效应蛋较不容易发生(或者免于)目标细胞中广义上的脱靶RNA消化的潜在危险,而这种目标细胞并不应被破坏。另一方面,在一些其他特定间隔区长度(例如约30个核苷酸)内,这些Cas效应蛋白存在显著的附带RNase活性,因此受试Cas效应蛋白也应用于需要附带RNase活性的用途中。
在细菌中,VI-E和VI-F型CRISPR-Cas系统在CRISPR阵列邻近的范围内,含有一个单独的效应蛋白(长度分别约为775个残基和790个残基)(见图1)。所述CRISPR阵列含有一些长度通常为36个核苷酸的同向重复(DR)序列,所述DR序列通常在序列和二级结构上都保守良好(参见图2)。
本文提供的数据表明,所述crRNA是从5'末端开始加工的,因此所述DR序列最终会位于成熟crRNA的3'末端。
Cas13e和Cas13f CRISPR阵列中包含的间隔区序列,最常见长度是30个核苷酸,大部分长度在29至30个核苷酸之间,但间隔区序列的长度可以在一个很大的范围内。例如,为了用于功能性Cas13e或Cas13f效应蛋白或其同系物、直系同源物、衍生物、融合物、缀合物或功能片段,间隔区长度可以介于10-60个核苷酸、20-50个核苷酸、25-45个核苷酸、25-35个核苷酸之间,或大约为27、28、29、30、31、32或33个核苷酸。但是,如果时用于上述任何一种dCas版本,间隔区长度可以介于10-200个核苷酸、20-150个核苷酸、25-100个核苷酸、25-85个核苷酸、35-75个核苷酸、45-60个核苷酸之间,或大约为46、47、48、49、50、51、52、53、54或55个核苷酸。
下表中提供了VI-E和VI-F型CRISPR-Cas效应蛋白的序列。
在上述序列中,每个效应蛋白中的两个RX4-6H(RXXXXH)基序用双下划线标示。在Cas13e.1中,由于RR和HH序列位于基序的两侧,因此C端基序可能有两种可能。在一个或两个这样的结构域上产生的突变,可能会产生Cas13e和Cas13f效应蛋白、其同系物、直系同源物、融合物、缀合物、衍生物或功能片段的RNase失活版本(或称“dCas”),同时基本上保持其与向导RNA、与向导RNA互补的靶RNA结合的能力。
下面列出了所述Cas效应蛋白相应的DR编码序列:
Cas13e.1 |
GCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:8) |
Cas13e.2 |
GCTGAAGAAGCCTCCGATTTGAGAGGTGATTACAGC(SEQ ID NO:9) |
Cas13f.1 |
GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:10) |
Cas13f.2 |
GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:11) |
Cas13f.3 |
GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:12) |
Cas13f.4 |
GCTGTGATGGGCCTCAATTTGTGGGGAAGTAACAGC(SEQ ID NO:13) |
Cas13f.5 |
GCTGTGATAGGCCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:14) |
由于DR序列的颈环二级结构可能比形成此类二级结构的特定核苷酸序列更重要,因此本发明的系统和方法中,也可使用这些DR系列的二级结构、取代物或衍生物,只要这些衍生物或DR序列取代物的二级结构与由SEQ ID NO:8-14中任何一个编码的RNA的二级结构基本类似。例如,衍生DR序列在一个或两个茎结构中可具有±1或2个碱基对(见图2),在凸起结构的一个或两个单链上可具有±1、2或3个碱基,和/或在环状结构域中具有±1、2、3或4个碱基。
在一些实施方案中,VI-E和VI-F型CRISPR-Cas效应蛋白含有一个具有氨基酸序列的“衍生物”,所述氨基酸序列与上述SEQ ID NO:1-7中任一项的氨基酸序列至少约80%的序列同一(如81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%)。此类衍生Cas效应蛋白与SEQ ID NO:1-7中任一项在蛋白质序列上具有显著同一性,与SEQ ID NOs:1-7的Cas拥有至少一种相同功能(见下文),如与一个包含至少一个SEQ ID NO:8-14中DR序列的crRNA结合并形成复合物的能力。例如,Cas13e.1衍生物可分别与SEQ ID NO:1、2、3、4、5、6或具有85%的氨基酸序列同一性,并同时保留与一个crRNA结合并形成复合物的能力,该crRNA具有SEQ ID NO:8、9、10、11、12、13或14中的一个DR序列。
在一些实施方案中,所述衍生物含由保守基酸残基取代。在一些实施方案中,该衍生物仅包含保守氨基酸残基取代(即所述衍生物中的所有氨基酸取代都是保守取代,并且不存在不保守取代)。
在一些实施方案中,所述衍生物在SEQ ID NO:1-7任何一种野生型序列中的插入或缺失不超过1、2、3、4、5、6、7、8、9或10个氨基酸。只要野生型序列保留至少一种功能,所述插入和/或缺失可以聚集在一起,或在整个序列上分开。这样的功能可包括结合向导RNA/crRNA的能力、RNase活性、结合和/或切割与向导RNA/crRNA互补的靶RNA的能力。在一些实施方案中,RXXXXH基序中不存在插入和/或缺失,或在RXXXXH基序附近5、10、15或20个残基以内不存在。
在一些实施方案中,所述衍生物保留了结合向导RNA/crRNA的能力。
在一些实施方案中,所述衍生物保留了由向导RNA/crRNA激活的RNase活性。
在一些实施方案中,在结合的向导RNA/crRNA的存在下,其与靶RNA的至少一部分序列互补,所述衍生物保留了结合靶RNA和/或切割靶RNA的能力。
在其他实施方案中,由于一些原因,例如RNA向导的RNase中一个或多个催化残基的突变,所述衍生物已经完全或部分丧失了由向导rRNA/crRNA激活的RNase活性。此类衍生物有时被称为dCas,如dCas13e.1等。
T因此在一些实施方案中,所述衍生物可通过修饰降低核酸酶/RNase活性,如相比野生型蛋白质核酸酶至少失活50%、60%、70%、80%、90%、95%、97%或100%。核酸酶活性可以通过本领域已知的几种方法来降低,例如将突变引入蛋白质的核酸酶(催化)结构域。在一些实施方案中,发现了一些核酸酶活性的催化残基,而且这些酸残基可以被不同的氨基酸残基(例甘氨酸或丙氨酸)取代以降低核酸酶活性。在一些实施方案中,上述氨基酸取代是保守氨基酸取代。在一些实施方案中,上述氨基酸取代是非保守氨基酸取代。
在一些实施方案中,上述修饰含有在至少一个HEPN结构域中的一个或多个突变(例如氨基酸缺失、插入或取代)。在一些实施方案中,在至少一个HEPN结构域中存在1、2、3、4、5、6、7、8、9或更多个氨基酸取代。例如,在一些实施方案中,上述的一个或多个突变包含一个在氨基酸残基处的取代(如丙氨酸取代),该取代与SEQ ID NO:1的R84、H89,、R739、H744、R740、H745,或SEQ ID NO:2的R97、H102、R770、H775,或SEQ ID NO:3的R77、H82、R764、H769,或SEQ ID NO:4的R79、H84、R766A、H771,或SEQ ID NO:5的R79、H84、R766、H771,或SEQID NO:6的R89、H94、R773、H778,或SEQ ID NO:7的R89、H94、R777、H782。
在一些实施方案中,所述的一个或多个突变,或两个或多个突变,可以位于一个效应蛋白的催化活性结构域中,该效应蛋白含有一个HEPN结构域或一个与HEPN结构域同源的催化活性结构域。在一些实施方案中,该效应蛋白包含以下一个或多个突变:R84A、H89A、R739A、H744A、R740A、H745A(其中氨基酸位置对应Cas13e.1的氨基酸位置)。本领域的专业人员能够理解,不同的Cas13e和Cas13f蛋白中的相应氨基酸位置可以通过突变达到相同效果。在一些实施方案中,所述的一种或多种突变完全或部分消除了蛋白质的催化活性(如切割速率改变、特异性改变等)。
其他残基突变(催化)实施例包括:Cas13e.2的R97A、H102A、R770A、H775A,或Cas13f.1的R77A、H82A、R764A、H769A,或Cas13f.2的R79A、H84A、R766A、H771A,或Cas13f.3的R79A、H84A、R766A、H771A,或Cas13f.4的R89A、H94A、R773A、H778A,或Cas13f.5的R89A、H94A、R777A、H782A。在一些实施方案中,本文任何R残基和/或H残基可以被G、V或I而非A取代。
与缺少该种突变的相应野生型蛋白相比,存在上述突变中的至少一种,会产生一种RNase活性降低或减低的衍生物。
在一些实施方案中,本文所述的效应蛋白是“失活”效应蛋白,例如失活的Cas13e或Cas13f效应蛋白(即dCas13e和dCas13f)。在一些实施方案中,所述效应蛋白在HEPN结构域1(N端)中有一个或多个突变。在一些实施方案中,效应蛋白在HEPN结构域2(C端)中具有一个或多个突变。在一些实施方案中,效应蛋白在HEPN结构域1和HEPN结构域2中具有一个或多个突变。
所述失活的Cas或其衍生物或功能片段,可与一个或多个异源/功能结构域融合或缔合(例如通过融合蛋白、接头肽、“GS”接头等)。这些功能域可以具有各种活性,例如甲基化酶活性、脱甲基酶活性、转录激活活性、转录抑制活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性、DNA切割活性、核酸结合活性、碱基编辑活性,以及切换活动(如光诱导)。在一些实施方案中,所述功能结构域是Krüppel相关盒(即KRAB)、SID(如SID4X)、VP64、VPR、VP16、Fok1、P65、HSF1、MyoD1或作用于RNA的腺苷脱氨酶,如ADAR1、ADAR2、APOBEC、胞苷脱氨酶(AID)、TAD、小型SOG、APEX和生物素APEX。
在一些实施方案中,所述功能域是基础编辑域,例如ADAR1(包括其野生型或ADAR1DD版本,带有或不带有E1008Q)、ADAR2(包括其野生型或ADAR2DD版本,带有或不带有一个或多个E488Q突变)、APOBEC或AID。
在一些实施方案中,所述功能域可以包含一个或多个核定位信号(NLS)域。所述一个或多个异源功能域可包含至少两个或多个NLS域。所述一个或多个NLS结构域可位于效应蛋白(例如Cas13e/Cas13f效应蛋白)的末端、邻近或中间,而且如果有两个或多个NLS,则两者都可位于效应蛋白(例如Cas13e/Cas13f效应蛋白)的末端、附近或邻近。
在一些实施方案中,至少一个或多个异源功能结构域可以位于或靠近效应蛋白的氨基末端,和/或其中至少一个或多个异源功能域位于或靠近效应蛋白的羧基末端。所述一个或多个异源功能域可以与该效应蛋白融合。所述一个或多个异源功能域可以与该效应蛋白融合在一起。所述一个或多个异源功能结构域可以通过接头部分连接至效应蛋白。
在一些实施方案中,存在多个(例如2、3、4、5、6、7、8或更多个)相同或不同的功能域。
在一些实施方案中,所述功能结构域(如碱基编辑域)进一步与结合至RNA的结构域(例如MS2)融合。
在一些实施方案中,所述功能域与一个接头序列(如柔性接头序列或刚性接头序列)缔合或融合。下表提供了接头序列和功能域序列的实施例。
人工改造的VI-E和VI-F CRISPR Cas效应蛋白变体中的基序和功能域的氨基酸序列
所述一个或多个功能域在失活的Cas蛋白上的位置。这种位置可以使得所述功能域有正确的空间定向,从而对靶标产生的附带的功能效应。例如,如果所述功能结构域是转录激活子(如VP16、VP64或p65),转录激活子则被放置于能能够影响靶标转录的空间定向上。同理,一个定位转录抑制子会被放置于能够影响靶标转录的定位上,一个核酸酶(如Fok1)会被放置于能够切割或部分切割靶标的定位上。在一些实施方案中,所述功能结构域位于Cas/dCas的N端。在一些实施方案中,所述功能结构域位于Cas/dCas的C端。在一些实施方案中,所述的灭活CRISPR相关蛋白(dCas)经过修饰,修饰后的该dCas在N端包含第一功能域并在C端包含第二功能域。
关于失活的CRISPR相关蛋白与一个或多个功能域融合的各种实例及方法,已在如国际公开号WO 2017/219027中进行描述,本文此处以引用全文的方式并入该文献,尤其是关于本文所描述的特征的部分。
在一些实施方案中,VI-E和VI-F型CRISPR-Cas效应蛋白包括上述SEQ ID NO:1-7中任一项的氨基酸序列。在一些实施方案中,VI-E型和VI-F型CRISPR-Cas效应蛋白不包括以上SEQ ID NO:1-7中任一个的天然存在的氨基酸序列。
在一些实施方案中,可以不使用全长的野生型效应蛋白(SEQ ID NO:1-7)或衍生的VI-E和VI-F型Cas效应蛋白,而使用它们的“功能片段”。
本文所用的一个“功能片段”,指的是SEQ ID NO:1-7中任一项的野生型蛋白质的片段或其衍生物,它的序列少于全长序列。所述功能片段中的缺失残基可以在N末端、C末端和/或内部。所述功能片段保留了至少一种野生型VI-E或VI-F Cas的功能,或至少一种其衍生物的功能。因此,功能片段是专门针对所讨论的功能所定义的。例如,一个功能片段,其功能是结合crRNA和靶RNA的能力,它可能不是一个关于RNA酶功能的功能片段,因为在Cas两端丢失RXXXXH基序可能不会影响其结合crRNA和靶RNA的能力,但可能会破坏RNase的活性。
在一些实施方案中,与全长序列SEQ ID NO:1-7相比,所述VI-E或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能片段在N端缺少约30、60、90、120、150或约180个残基。
在一些实施方案中,与全长序列SEQ ID NO:1-7相比,所述VI-E或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能片段在C端缺少约30、60、90、120或约150个残基。
在一些实施方案中,与全长序列SEQ ID NO:1-7相比,所述VI-E或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能片段在N端缺少约30、60、90、120、150或约180个残基,并且在C端缺少约30、60、90、120或约150个残基。
在一些实施方案中,所述VI-E或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能片段具有RNase活性,例如由向导RNA/crRNA激活的特异性RNase活性。
在一些实施方案中,所述VI-E或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能片段不具有实质性/可检测的附带RNase活性。
此处“附带RNase活性”是指在第2类VI型某些RNA向导的其他RNase(例如Cas13a)中观察到的非特异性RNase活性。例如,一种包含Cas13a的复合物通过与靶核酸(例如靶RNA)结合被激活后,会发生构象变化,进而导致所述复合物充当一个非特异性RNase,对附近RNA分子(例如ssRNA或dsRNA分子)进行裂解和/或降解(即“附带”效应)。
在一些实施方案中,包含(但不限于)一个cRNA与所述VI-E或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能片段的一种复合物,在靶标识别后不显示附带的RNase活性。这种“无附带”的实施方案可以包含野生型或工程化/衍生的效应蛋白,或其它们的功能片段。
在一些实施方案中,所述VI-E或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能片段对靶RNA进行识别和切割,无需与原型间隔区(即原型间隔区相邻基序“PAM”或原型间隔区侧翼序列“PFS”要求)的额外要求。
本公开还提供了本文所述的CRISPR关联蛋白的一个分裂形式(例如一种VI-E或VI-F型CRISPR-Cas效应蛋白)。所述CRISPR关联蛋白的分裂形式可有利于递送。在一些实施方案中,CRISPR关联蛋白被分为酶的两部分,这两部分一起基本包含具有功能的CRISPR关联蛋白。
所述分裂可以通过不影响催化域的方式完成。所述CRISPR关联蛋白可以充当一个核酸酶或灭活的酶,其本质是一个催化活性很少或没有催化活性(如由于其催化结构域的突变)的RNA结合蛋白。分裂酶在例如Wright等人的《分裂Cas9酶复合物的合理设计》,Proc.Nat'l.Acad.Sci.112(10):2984-2989,2015中有所描述,此处引用全文并入本文。
例如,在一些实施方案中,所述核酸酶叶和α-螺旋叶表达为分开的多肽。尽管这些叶不会自行相互作用,但crRNA却将它们招募为三元复合物,该复合物概括了全长CRISPR关联蛋白的活性,且催化位点特异性DNA切割。可以使用一个经修饰的crRNA开发诱导型二聚化系统,因该crRNA可通过防止二聚化消除分裂酶的活性。
在一些实施方案中,该分裂的CRISPR关联蛋白可以融合至一个二聚化伴侣,如通过采用雷帕霉素敏感的二聚化结构域的方式。这能够产生可化学诱导的CRISPR关联蛋白,实现暂时控制所述蛋白的活性。因此,可以将CRISPR关联蛋白分成两个片段使其变成可化学诱导,且雷帕霉素敏感的二聚化结构域可用于所述蛋白的受控重组。
所述分裂点通常是分子设计并克隆到所述构建体中的。在此过程中,可将突变引入CRISPR关联的分裂蛋白中,去除非功能性结构域。
在一些实施方案中,上述分裂的CRISPR关联蛋白的两个部分或片段(即N端和C端片段)可以形成一个完整的CRISPR关联蛋白,其包含野生型CRISPR关联蛋白例如至少70%、至少80%、至少90%、至少95%或至少99%的序列。
本文所述的CRISPR关联蛋白质(如VI-E或VI-F型CRISPR-Cas效应蛋白)可以被设计成自激活或自灭活。例如,可以将靶序列引入CRISPR关联蛋白的编码构建体中。因此,CRISPR关联蛋白可以切割靶序列,还可以编码所述蛋白质的构建体,使得它们的表达自我失活。构建自我灭活的CRISPR系统的方法在例如Epstein和Schaffer的Mol.Ther.24:S50,2016中进行了描述,此处引用全文并入本文。
在一些其他实施方案中,另外一个crRNA在弱启动子(如7SK启动子)的控制下表达,该crRNA可以靶向编码所述CRISPR关联蛋白质的核酸序列,以防止和/或阻断其表达(例如通过防止核酸的转录和/或翻译)。一种细胞若含有表达CRISPR关联蛋白的载体、上述crRNA以及靶向编码CRISPR关联蛋白核酸的crRNA,这种细胞的转染会有效阻断编码CRISPR关联蛋白的核酸,降低CRISPR关联蛋白的水平,从而限制基因组编辑活性。
在一些实施方案中,上述CRISPR关联蛋白的基因组编辑活性,可以通过哺乳动物细胞中的内源RNA签名(例如miRNA)来调节。在编码CRISPR关联蛋白mRNA的5'-UTR中使用miRNA互补序列,可以形成一个CRISPR关联蛋白的开关,这些开关会选择性地、有效地响应靶细胞中的miRNA。因此,这些开关可以通过感测异种细胞群体内的内源性miRNA活性,实现对基因组编辑的差异控制。因此,这种开关系统为细胞类的选择性基因组编辑和细胞工程提供一个基于细胞内miRNA信息的框架(参见如Hirosawa等人的Nucl.Acids Res.45(13):e118,2017)。
所述CRISPR关联蛋白(如VI-E和VI-F型CRISPR-Cas效应蛋白)可被诱导表达,如可以为光诱导或化学诱导表达。这种机制能够允许CRISPR关联蛋白中的功能域的激活。光诱导性可以通过本领域已知的各种方法来实现,例如设计一种分裂CRISPR关联蛋白中使用CRY2PHR/CIBN配对的融合复合物(参见如Konermann等人的《哺乳动物内源转录和表观遗传状态的光学控制》,Nature 500:7463,2013.)。
化学诱导性可以通过各种方法实现,如设计一个融合复合物,该融合分裂的CRISPR关联蛋白使用FKBP/FRB(FK506结合蛋白/FKBP雷帕霉素结合域)配对。在形成此融合复合物中必须使用雷帕霉素,从而实现激活CRISPR关联蛋白(参见如Zetsche等人的《用于诱导型基因组编辑和转录调节的Split-Cas9结构》,Nature Biotech.33:2:139-42,2015)。
此外,所述CRISPR关联蛋白的表达可以通过诱导型启动子(如四环素或强力霉素控制的转录激活,即Tet-On和Tet-Off表达系统)、激素诱导型基因表达系统(如蜕皮激素诱导型基因表达系统)以及阿拉伯糖诱导的基因表达系统进行调节。当以RNA的形式进行传递时,靶向RNA的效应蛋白其表达可以通过一个核糖开关进行调节,这个开关可以感应一个如四环素的小分子(参见例如Goldfless等人所著《使用合成RNA对真核生物的直接和特异性化学控制——蛋白质相互作用》,Nucl.Acids Res.40:9:e64-e64,2012)。
各种关于诱导型CRISPR关联蛋白、诱导型CRISPR系统的实施方案已有描述,请参见美国专利第8,871,445号、美国专利公开第2016/0208243号、国际专利公开第WO2016/205764号,此处引用以上全文并入本文。
在一些实施方案中,所述CRISPR关联蛋白含有至少一个(例如1、2、3、4、5、6、7、8、9或10个)附着在N端或C端的核定位信号(NLS)。例如,所述NLS的某些中包含一个源自如下项目的NLS序列(此处不穷举):含有氨基酸序列PKKKRKV的T抗原的NLS;核纤溶酶的NLS(如含有序列KRPAATKKAGQAKKKK的核糖蛋白双部分NLS);含有氨基酸序列PAAKRVKLD或RQRRNELKRSP的c-myc NLS;含有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY的hRNPA1M9NLS;importin-alpha中IBB功能域的RMRIZFKNKGKDTAELRRRRVEVSVELRK序列;肌瘤T蛋白的VSRKRPRP and PPKKARED序列;人类p53的PQPKKKPL序列;小鼠c-abl IV的SALIKKKKKMAP序列;流感病毒NS1的DRLRR和PKQKKRK序列;肝炎病毒δ抗原的RKLKKKIKKL序列;小鼠Mx1蛋白的REKKKFLKRR序列;人类聚(ADP-核糖)聚合酶的KRKGDEVDGVDEVAKKKSKK序列;与人类糖皮质激素受体的RKCLQAGMNLEARKTKK序列。在一些实施方案中,CRISPR关联蛋白包含有至少一个(例如1、2、3、4、5、6、7、8、9或10个)附着在N端或C端的核输出信号(NES)。在一个较为理想的实施方案中,该CRISPR关联蛋白的C端和/或N端附着了一个NLS或NES,这种情况下该蛋白在真核细胞中(如人类细胞)可实现最佳表达及最佳靶向效果。
在一些实施方案中,本文所述的CRISPR关联蛋白进行了一个或多个氨基酸残基处的突变,以改变一种或多种功能活性。
例如,在一些实施方案中,所述CRISPR关联蛋白进行了一个或多个氨基酸残基处的突变,以改变其解旋酶活性。
在一些实施方案中,所述CRISPR关联蛋白质进行了一个或多个氨基酸残基处的突变,以改变其核酸酶活性(如核酸内切酶活性或核酸外切酶活性)。
在一些实施方案中,所述CRISPR关联蛋白进行了一个或多个氨基酸残基处的突变,以改变其与向导RNA功能性结合的能力。
在一些实施方案中,所述CRISPR关联蛋白进行了一个或多个氨基酸残基处的突变,以改变其与靶核酸功能性缔合的能力。
在一些实施方案中,本文描述的CRISPR关联蛋白能够切割靶RNA分子。
在一些实施方案中,所述CRISPR关联蛋白进行了一个或多个氨基酸残基处的突变,以改变其切割活性。例如在一些实施方案中,CRISPR关联蛋白可能存在一种或多种突变,使得酶不能切割靶核酸。
在一些实施方案中,所述CRISPR关联蛋白能够切割:与向导RNA杂交的链互补的靶核酸链。
在一些实施方案中,本文所述的CRISPR关联蛋白可被工程化改造为缺失一个或多个氨基酸残基,这种方式可以在保留一种或多种所需的功能活性(如核酸酶活性、与向导RNA功能性相互作用的能力)的同时缩小酶的大小。在与有负载限制的递送系统组合时,利用这种截短的CRISPR关联蛋白具有一定优势。
在一些实施方案中,本文所述的CRISPR关联蛋白可以与一种或多种肽标签融合,所述肽标签包括His标签、GST标签、V5-标签、FLAG标签、HA标签、SV-G标签、Trx标签或myc标签。
在一些实施方案中,本文所述的CRISPR关联蛋白可以与一个可检测的部分融合,例如GST、荧光蛋白(如GFP、HcRed、DsRed、CFP、YFP或BFP)或酶(如HRP或CAT)。
在一些实施方案中,本文所述的CRISPR关联蛋白可以与MBP、结合LexA DNA的结构域或Gal4DNA结合结构域融合。
在一些实施方案中,本文所述的CRISPR关联蛋白可与可检测的标记连接或缀合,例如荧光染料(包括FITC和DAPI)。
在本文任何实施方案中,本文所述的CRISPR关联蛋白与上述的另一部分的连接可以在CRISPR关联蛋白的N端或C端,有时甚至通过共价化学键在内部连接。上述连接可通过本领域已知的任何化学连接来实现,例如肽连接、PEG连接、或通过氨基酸侧链如D、E、S、T或氨基酸衍生物(Ahx、β-Ala、GABA或Ava)进行连接。
2.多核苷酸
本发明还提供了编码对本文所述蛋白和向导RNA(例如crRNA)编码的核酸(如CRISPR关联蛋白或辅助蛋白)。
在一些实施方案中,所述核酸是一种合成核酸。在一些实施方案中,所述核酸是一个DNA分子。在一些实施方案中,所述核酸是一个RNA分子(如编码所述Cas、其衍生物或其功能片段的mRNA分子)。在一些实施方案中,上述mRNA被加帽、聚腺苷酸化、被5-甲基胞嘧啶核苷取代、被伪尿苷取代,或以上任意组合。
在一些实施方案中,所述核酸(如DNA)在操作上可连接至调节元件(如启动子),以便控制核酸的表达。在一些实施方案中,上述启动子是组成型启动子。在一些实施方案中,上述启动子是诱导型启动子。在一些实施方案中,上述启动子是细胞特异性启动子。在一些实施方案中,上述启动子是生物体特异性启动子。
合适的启动子是本领域已知的启动子,包括如pol I启动子、pol II启动子、polIII启动子、T7启动子、U6启动子、H1启动子、逆转录病毒劳斯肉瘤病毒LTR启动子、巨细胞病毒(CMV)启动子、SV40启动子、二氢叶酸还原酶启动子和β-肌动蛋白启动子。例如,U6启动子可用于调节本文所述向导RNA分子表达。
在一些实施方案中,所述一种或多种核酸存在于一个载体中(如病毒载体或噬菌体)。该载体可以是一个克隆载体或表达载体。该载体可以是一个质粒、噬菌粒、粘粒等。该载体可以包括一种或多种调节元件,让这种载体得以在目的细胞(例如细菌细胞或哺乳动物细胞)中复制。在一些实施方案中,该载体含有一个核酸,该核酸编码本文所述的CRISPR关联(Cas)系统一个单个组分。在一些实施方案中,该载体包括多个核酸,每个核酸编码本文所述的CRISPR关联(Cas)系统的一个组分。
一方面,本文公开提供了与本文所述的核酸序列至少50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%相同的核酸序列,即对所述Cas蛋白、衍生物、功能片段或向导RNA/crRNA编码的核酸序列,包括SEQ ID NO:8-14的DR序列。
在另一方面,本文公开还提供了一些核酸序列,它们编码了与本文所述的氨基酸序列至少50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%与相同的氨基酸序列,例如SEQ ID NO:1-7序列。
在一些实施方案中,所述核酸序列含有至少一部分与本文所述的序列相同(例如至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个核苷酸,如连续或不连续核苷酸)。在一些实施方案中,所述核酸序列具有至少一部分与本文描述的序列不同(例如至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个核苷酸,如连续或非连续核苷酸)。
在相关的实施方案中,本发明提供了一些氨基酸序列,它们与本文所述序列有至少一部分相同(例如至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15 20、30、40、50、60、70、80、90或100个氨基酸残基,如连续或不连续氨基酸残基)。在一些实施方案中,上述氨基酸序列与本文描述的序列有至少一部分不同(如至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个氨基酸残基,如连续或非连续氨基酸残基)。
为了确定两个氨基酸序列或两个核酸序列的同一性百分比,将这些序列进行比对以达到最佳比较目的(如为达到最佳比对效果,可以在第一和/或第二氨基酸或核酸序列中引入缺口,以及出于比较可以忽略非同源序列)。通常,以比较为目的,进行比对的参考序列长度应至少为参考序列长度的80%,且在一些实施方案中,进行比对的参考序列长度至少为参考序列长度的90%、95%或100%。
然后,对相应氨基酸位置或核苷酸位置的氨基酸残基或核苷酸进行了比较。当第一序列与第二个序列的同一置被被相同的氨基酸残基或核苷酸所占据,这两个分子则在所述位置相同。两个序列之间同一性的百分比是这两个序列共有相同位置的数目的函数,这已将缺口数和每个缺口的长度考虑在内,若要实现两个序列的最佳比对需要引入这两个因素。为用于本公开中,可以使用Blossum 62评分矩阵进行序列之间的比较和确定两个序列同一性的百分比,Blossum 62评分矩阵的间隙罚分为12、延伸间隙罚分为4、移码间隙罚分为5。
本文所述的蛋白质(如CRISPR关联蛋白或辅助蛋白)可被递送,或被用作核酸分子或多肽。
在一些实施方案中,对编码CRISPR关联蛋白、其衍生物或功能片段的核酸分子进行了密码子优化,以在宿主细胞或生物中表达。该宿主细胞可以包括已建立的细胞系(例如293T细胞)或分离的原代细胞。可对上述核酸通过密码子优化,使其得以用于任何目的生物,尤其是人类细胞或细菌。例如,该可对核酸进行密码子优化以用于任何原核生物(如大肠杆菌)或任何真核生物如人类,以及其他非人类真核生物,包括酵母、蠕虫、昆虫、植物和藻类(包括粮食作物、水稻、玉米、蔬菜、水果、树木、草)、脊椎动物、鱼类、非人类哺乳动物(例如小鼠、大鼠、兔子、狗、鸟类(例如鸡)、牲畜(奶牛或牛、猪、马、绵羊、山羊等)或非人类灵长类动物)。密码子用途表格可以在如“密码子使用数据库”(“Codon Usage Database”)www.kazusa.orjp/codon/中找到,且这些表格可以进行多种方式的修改。请参见Nakamura等的Nucl.Acids Res.28:292,2000,此处引用全文并入本文。使在特定宿主细胞中表达的密码子特定序列优化计算机算法也可在如Gene Forge(Aptagen;Jacobus,Pa.)处获得。
优化密码子序列的一个实施例请参见WO 2014/093622(PCT/US2013/074667)中SaCas9人类密码子优化序列,在此处讨论的是真核生物(例如人类)中表达的经优化序列(即为了在人类中表达而进行优化),或本文讨论的另一种真核生物、动物或哺乳动物。尽管这个实施例较为理想,但应理解为其他实施例也是可行的,而且除此之外,已知存在为人类以外宿主物种或为用于特定器官而实现的密码子优化实施例。通常,密码子优化是指修饰一个核酸序列以实现在目标宿主细胞中更好表达,通过用所述宿主细胞基因中更频繁或最频繁使用的密码子,替换原序列至少一个密码子(例如等于或大于约1、2、3、4、5、10、15、20、25、50或更多密码子),同时保持其天然的氨基酸序列。许多物种对特定氨基酸的某些密码子表现出特定偏倚。密码子偏倚(生物之间密码子使用的差异)通常与信使RNA(mRNA)的翻译效率相关,而信使RNA(mRNA)的翻译效率又被认为尤其取决于被翻译密码子的特性以及特定转移RNA(tRNA)分子的可用性。选定tRNA在一个细胞中的主导通常反映了肽合成中那些最常使用的密码子。因此,可以基于密码子优化来定制基因,实现在目标生物中的最佳基因表达。密码子用途表格可以在如“密码子使用数据库”(“Codon Usage Database”)www.kazusa.orjp/codon/中获得,且这些表格可进行多种方式的修改。请参见Nakamura,Y.,等人《来自国际DNA序列数据库的密码子使用表》,Nucl.Acids Res.28:292(2000)。使在特定宿主细胞中表达的密码子特定序列优化计算机算法也可在如Gene Forge(Aptagen;Jacobus,Pa.)处获得。在一些实施方案中,编码Cas的序列中一个或多个密码子(例如1、2、3、4、5、10、15、20、25、50或更多,或所有密码子)对应所述在一个特定氨基酸中最频繁使用的密码子。
3.RNA向导或crRNA
在一些实施方案中,本文所述的CRISPR系统至少含有RNA向导(例如一个gRNA或crRNA)。
多个RNA向导的结构是在本领域中已知的结构(参见如国际公开号WO2014/093622和WO 2015/070083,此处引用以上全文并入本文)。
在一些实施方案中,本文描述的CRISPR系统包括多个RNA向导(例如1、2、3、4、5、6、7、8或更多个RNA向导)。
在一些实施方案中,所述RNA向导包括一个crRNA。在一些实施方案中,所述RNA向导包括一个crRNA但不包括tracrRNA。
来自几个CRISPR系统的向导RNA的序列在基本上是在本领域中已知的,参例如Grissa等人(Nucleic Acids Res.35:W52-7,2007;Grissa et al.,BMC Bioinformatics8:172,2007;Grissa et al.,Nucleic Acids Res.36(web server issue):W145-8,2008;and Moller and Liang,PeerJ 5:e3788,2017;the CRISPR database at:crispr.i2bc.paris-saclayfr/crispr/BLAST/CRISPRsBlast.php;and MetaCRASTavailable at:github.com/molleraj/MetaCRAST).。所有以上内容均以引用方式并入本文。
在一些实施方案中,该crRNA包括一个同向重复(DR)序列和一个间隔区序列。在一些实施方案中,该crRNA包含或由一个同向重复序列组成或基本组成,该同向重复序列连接至一个向导序列或间隔序列,理想情况连接至间隔序列的3'末端。
通常,所述Cas蛋白与该成熟的crRNA形成一个复合物,间隔物序列将该复合物引导至与靶RNA序列特异性结合,该靶RNA与间隔物序列互补和/或与间隔物序列杂交。所得复合物包含上述Cas蛋白和与靶RNA结合的该成熟crRNA。
Cas13e和Cas13f系统的同向重复序列通常保守良好,尤其在末端,Cas13e的GCTG和Cas13f在5'端有一个GCTGT,在3'端与Cas13e的一个CAGC和CAS13f的ACAGC反向互补。这种保守意味着RNA茎-环结构的强碱基配对,该结构可能会与基因座中的蛋白质相互作用。
在一些实施方案中,当在RNA中,所述同向重复序列包含一般二级结构5'-S1a-Ba-S2a-L-S2b-Bb-S1b-3',其中片段S1a和S1b是反向互补序列,并形成一个在Cas13e中有4个核苷酸、在Cas13f中有5个核苷酸的第一茎(S1);片段Ba和Bb互补碱基配对,并形成一个对称或几乎对称的凸起结构(B),片段Ba和Bb分别在Cas13e中有5个核苷酸,分别在Cas13f中有5(Ba)和4(Bb)或6(Ba)和5(Bb)个核苷酸;片段S2a和S2b是反向互补序列,并形成一个在Cas13e中有5个碱基对、在Cas13f中有6个或5个碱基对的第二茎(S2);L是一个Cas13e中的8个核苷酸环与Cas13f中的5个核苷酸环。请见图2。
在一些实施方案中,S1a在Cas13e中具有GCUG的序列,在Cas13f中具有GCUGU的序列。
在一些实施方案中,S2a在Cas13e中具有GCCCC序列,在Cas13f中具A/G CCUC G/A序列(其中可能第一个A或G不存在)。
在一些实施方案中,所述同向重复序列包含或由SEQ ID NO:8-14的核酸序列组成。
本文所用的“同向重复序列”可以指所述CRISPR基因座中的DNA编码序列,或指crRNA是由它编码RNA。因此,在关于RNA分子的上下文中,若提及SEQ ID NO:8-14中任何一个时(如crRNA),每个T应理解为代表一个U。
在一些实施方案中,所述同向重复序列含有或由一种核酸序列组成,该核酸序列缺失、插入或取代可达1、2、3、4、5、6、7或8个SEQ ID NO:8-14的核苷酸。在一些实施方案中,所述同向重复序列包含或由一种核酸序列组成,该核酸序列与SEQ ID NO:8-14(如由于SEQID NO:8-14中核苷酸的缺失、插入或取代)具有至少80%、85%、90%、95%或97%的序列同一性。在一些实施方案中,该同向重复序列包含或由一种核酸序列组成,该核酸序列与SEQID NO:8-14中的任一个不同,但可以与SEQ ID NO:8-14中任何一个的互补序列在严格的杂交条件下进行杂交,或可以在生理条件下结合SEQ ID NO:8-14中任何一个的互补序列。
在一些实施方案中,上述缺失、插入或取代不会改变SEQ ID NO:8-14的整体二级结构(例如所述茎状、凸起和环状结构与原始的茎状、凸起和环状相对位置和/或大小没有明显偏离)。例如,缺失、插入或取代可能发生在凸起或环状结构与区域,使得凸起结构的整体对称性在很大程度上保持相同。缺失、插入或取代可能发生在茎状结构中,使得茎状结构的长度不会明显偏离原始长度(如在两个茎中的分别添加或缺失一个碱基对,产生总共4个碱基的变化)。
在一些实施方案中,所述缺失、插入或取代会产生一个衍生DR序列,它在一个或两个茎状结构中可以有±1或2个碱基对(见图2)、在凸起结构的一个或两个单链中具有±1、2或3个碱基、和/或在环状结构区中有±1、2、3或4个碱基。
在一些实施方案中,所述缺失、插入或取代会产生一个衍生的DR序列,它在一个或两个茎状结构中可以有±1或2个碱基对(见图2)、在凸起结构的一个或两个单链中有±1、2或3个碱基、和/或在环状结构区中有±1、2、3或4个碱基。
在一些实施方案中,上述同向重复序列若与任何一个与SEQ ID NO:8-14中任何一个不同,均保留了在Cas13e或Cas13f蛋白中作为同向重复序列的功能,正如SEQ ID NO:8-14的DR序列。
在一些实施方案中,所述同向重复序列含有或由一种核酸组成,这种核酸具有SEQID NO:8-14中任意一项的核酸序列,并截短了起始的3、4、5、6、7或8个3'核苷酸。
在一些实施方案中,所述Cas蛋白包含SEQ ID NO:1的氨基酸序列,且所述crRNA含有一个同向重复序列,其中该同向重复序列包含或由SEQ ID NO:8的核酸序列组成。
在一些实施方案中,所述Cas蛋白包含SEQ ID NO:2的氨基酸序列,且所述crRNA包含一个同向重复序列,其中该同向重复序列包含或由SEQ ID NO:9的核酸序列组成。
在一些实施方案中,所述Cas蛋白包含SEQ ID NO:3的氨基酸序列,且所述crRNA包含一个同向重复序列,其中该同向重复序列包含或由SEQ ID NO:10的核酸序列组成。
在一些实施方案中,所述Cas蛋白包含SEQ ID NO:4的氨基酸序列,且所述crRNA包含一个同向重复序列,其中该同向重复序列包含或由SEQ ID NO:11的核酸序列组成。
在一些实施方案中,所述Cas蛋白包含SEQ ID NO:5的氨基酸序列,且所述crRNA包含一个同向重复序列,其中该同向重复序列包含或由SEQ ID NO:12的核酸序列组成。
在一些实施方案中,所述Cas蛋白包含SEQ ID NO:6的氨基酸序列,且所述crRNA包含一个同向重复序列,其中该同向重复序列包含或由SEQ ID NO:13的核酸序列组成。
在一些实施方案中,所述Cas蛋白包含SEQ ID NO:7的氨基酸序列,且所述crRNA包含一个同向重复序列,其中该同向重复序列包含或由SEQ ID NO:14的核酸序列组成。
在经典的CRISPR系统中,向导序列(例如crRNA)与其对应的靶序列之间的互补程度可以是约50%、60%、75%、80%、85%、90%、95%、97.5%、99%或100%。在一些实施方案中,这种互补程度是90-100%。
所述向导RNA长度可约为5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、75、100、125、150、175、200或更多个核苷酸。例如,为了用于一个功能性Cas13e或Cas13f效应蛋白或其同系物、直系同源物、衍生物、融合物、缀合物或功能片段,所诉间隔区长度可以介于10-60个核苷酸、20-50个核苷酸、25-45个核苷酸、25-35个核苷酸之间,或约为27、28、29、30、31、32或33个核苷酸。然而,若要使用在以上任意一项的dCas版本中,所述间隔区长度可为10-200个核苷酸、20-150个核苷酸、25-100个核苷酸、25-85个核苷酸、35-75个核苷酸、45-60个核苷酸之间,或大为46、47、48、49、50、51、52、53、54或55个核苷酸。
为减少脱靶相互作用,如为了减少向导与低互补性靶序列的相互作用,可以在CRISPR系统引入突变,使CRISPR系统能够区分靶序列和脱靶序列,这些靶序列和脱靶序列有大于80%、85%、90%或95%的互补性。在一些实施方案中,这种互补程度是80%-95%,如约83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%或95%(例如,可以区分一个有18个核苷酸的靶标与一个有1、2或3个错配的18个核苷酸的脱靶标)。因此,在一些实施方案中,一个向导序列与其对应的靶序列的互补程度大于94.5%、95%、95.5%、96%、96.5%、97%、97.5%、98%、98.5%、99%、99.5%或99.9%。在一些实施方案中,互补程度为100%。
在本领域中已知,有足够的互补性能够发挥作用则不需要完全互补性。可以通过引入错配来调节切割效率,例如引入一种或多种错配,如在间隔区序列和靶序列之间(包括沿着间隔区/靶标的错配的位置)引入1或2个错配。若一个错配(如双错配)位于越靠近中心的位置(即不在3'或5'末端),对切割效率的影响越大。因此,可以将错配引入沿着该间隔区序列的位置来调节切割效率。例如,如果期望实现少于100%的靶标切割(如在细胞群体中),则可以将1或2个间隔区与靶序列之间的错配引入间隔序列中。
经证明,VI型CRISPR-Cas效应蛋白可使用多个RNA向导,使得这些效应蛋白、包括这些效应蛋白的系统和复合物能够靶向多种核酸。在一些实施方案中,本文所述的CRISPR系统包含多个(例如2、3、4、5、6、7、8、9、10、15、20、30、40、或更多个)RNA向导。在一些实施方案中,本文描述的CRISPR系统包括一个RNA单链或一个编码单链RNA的核酸,其中所述这些RNA向导串联排列。该RNA单链可包括一个RNA向导的多个相同拷贝、不同RNA向导的多个不同拷贝,或以上二者。本文所述的VI-E和VI-F型CRISPR-Cas效应蛋白的加工能力使这些效应蛋白能够靶向多种靶核酸(例如靶RNA)而不丧失活性。在一些实施方案中,这种VI-E和VI-F CRISPR-Cas效应蛋白可以与多个被引导向不同靶RNA的RNA向导复合递送。在一些实施方案中,所述VI-E和VI-F型CRISPR-Cas效应蛋白可以与多个RNA向导共同递送,每个RNA向导都是不同靶核酸的特异性RNA向导。CRISPR关联蛋白的多路复用的方法已经在如美国专利No.9,790,490B2和No.EP 3009511B1中进行描述,此处引用上述全文并明确并入本文。
所述crRNA的间隔区长度范围可在约10-60个核苷酸之间,例如15-50个核苷酸、20-50个核苷酸、25-50个核苷酸或19-50个核苷酸。在一些实施方案中,向导RNA的间隔区长度为至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸或至少22个核苷酸。在一些实施方案中,所述间隔区长度为15-17个核苷酸(如15、16或17个核苷酸)、17-20个核苷酸(例如17、18、19或20个核苷酸)、20-24个核苷酸(例如20、21、22、23或24个核苷酸),23至25个核苷酸(例如23、24或25个核苷酸),24至27个核苷酸,27至30个核苷酸、30-45个核苷酸(例如30、31、32、33、34、35、36、37、38、39、40、41、42、43、44或45个核苷酸)、30或35至40个核苷酸、41-45个核苷酸、45-50个核苷酸(例如45、46、47、48、49或50个核苷酸),或更长。在一些实施方案中,所述间隔区长度为约15至约42个核苷酸。
在一些实施方案中,所述向导RNA的同向重复序列长度是15-36个核苷酸、至少16个核苷酸、16-20个核苷酸(例如16、17、18、19或20个核苷酸)、20-30个核苷酸(例如20、21、22、23、24、25、26、27、28、29或30个核苷酸)、30-40个核苷酸(例如30、31、32、33、34、35,36、37、38、39或40个核苷酸)、或约36个核苷酸(例如33、34、35、36、37、38或39个核苷酸)。在一些实施方案中,所述向导RNA的同向重复长度是36个核苷酸。
在一些实施方案中,crRNA/向导RNA的总长度比任何一个上述间隔区序列的长度约长36个核苷酸。例如,crRNA/向导RNA的总长度可以在45-86个核苷酸或60-86个核苷酸,62-86个核苷酸或63-86个核苷酸之间。
所述crRNA序列可通过以下方式进行修饰:形成一个crRNA和CRISPR关联蛋白复合物并使之成功与靶标结合,但与此同时不允许有成功的核酸酶活性(即没有核酸酶活性/没有造成插入缺失)。这些经过修饰的向导序列被称为“死亡crRNA”、“死亡向导”或“死亡向导序列”。这些死亡向导或死亡向导序列的核酸酶活性可以是催化失活或构象失活。这些死亡向导序列通常短于可进行活性RNA切割的相应向导序列。在一些实施方案中,所述死亡向导比具有核酸酶活性的相应向导RNA短5%、10%、20%、30%、40%或50%。向导RNA的死亡向导序列的长度可为13-15个核苷酸(如长度为13、14或15个核苷酸)、15-19个核苷酸、或17-18个核苷酸(如17个核苷酸)。
因此,本公开的一方面提供了非天然存在或工程改造的CRISPR系统,它们包括一个如本文所述的功能性CRISPR关联蛋白和一个crRNA,该crRNA包含一个死亡crRNA序列使该crRNA能够与靶标序列杂交,使得所述CRISPR系统能够被引导至细胞中的一个目的基因组位点而不具有可检测的核酸酶活性(例如RNase活性)。
例如,国际公开No.WO 2016/094872中对死亡向导进行了详细描述,此处引用全文并入本文。
向导RNA(例如crRNA)可生成作为诱导系统的组分。由于系统的可诱导性,可实现对基因编辑或基因表达的时空控制。在一些实施方案中,对可诱导系统使用电磁辐射、声能、化学能和/或热能等方式刺激。
在一些实施方案中,可通过以下方式对向导RNA(例如crRNA)的转录进行调节:诱导型启动子如四环素或强力霉素控制的转录激活(Tet-On和Tet-Off表达系统)、激素诱导型基因表达系统(例如蜕皮激素)或阿拉伯糖诱导型基因表达系统。一些其他诱导系统的实施例包括:小分子双杂交转录激活系统(FKBP、ABA等)、光诱导系统(植物色素、LOV结构域或隐花色素)或光诱导转录效应子(LITE)。这些诱导系统已在如WO2016205764及美国专利第8,795,965号中进行描述,此处引用以上全文并入本文。
化学修饰可应用于所述crRNA的磷酸骨架、糖和/或碱基。骨干修饰(如硫代磷酸酯)修饰磷酸主链上的电荷,并帮助寡核苷酸的递送和核酸酶抗性(参见如Eckstein的《硫代磷酸酯、治疗性寡核苷酸的基本成分》,Nucl.Acid Ther.,24,pp.374-387,2014);糖的修饰,例如2'-O-甲基(2'-OMe)、2'-F、锁核酸(LNA)的修饰,可增强碱基配对和核酸酶抗性(参见如Allerson等人的《与未修饰的小干扰RNA相比,2'-全修饰的寡核苷酸双链体具有更好的体外效能和稳定性》,J.Med.Chem.48.4:901-904,2005)。经化学修饰的碱基,例如2-硫尿苷或N6-甲基腺苷,可以使得碱基配对变强或变弱(参见如,Bramsen等人《通过化学工程开发治疗级小分子干扰RNA》,Front.Genet.,2012Aug.20;3:154)。此外,RNA可以在5'和3'末端与各种功能部分缀合,包括荧光染料、聚乙二醇或蛋白质。
多种修饰可应用于化学合成的crRNA分子。例如,用2'-OMe修饰寡核苷酸可以提高核酸酶抗性,从而改变Watson-Crick碱基配对的结合能。此外,2'-OMe修饰可影响寡核苷酸与细胞中转染试剂、蛋白质或与其他任何分子的相互作用。这些修饰的效果可经实证检验获得。
在一些实施方案中,所述crRNA包含一种或多种硫代磷酸酯修饰。在一些实施方案中,为增强碱基配对和/或增加核酸酶抗性,所述crRNA包括一种或多种被锁定的核酸。
可以在如《用于CRISPR-Cas9基因组编辑的化学合成的向导RNA的多功能性》(Kelley等,J.Biotechnol.233:74-83,2016)、WO 2016205764、美国专利第8,795,965B2号中找到这些化学修饰的总结。此处引入以上全文并入本文。
本文所述的RNA向导(例如crRNA)的序列和长度可被优化。在一些实施方案中,可通过鉴定加工过的crRNA(即成熟的crRNA)或研究crRNA四环的实证长度来确定RNA向导的最佳长度。
这些crRNA还可包含一个或多个适体序列。适体是具有一个特定三维结构且可以结合至特定靶分子的一种寡核苷酸或肽分子。适体可以是基因效应子、基因激活子或基因阻遏子。在一些实施方案中,所述适体可以对一个蛋白质具有特异性,该蛋白又招募和/或结合、对特定的基因效应蛋白、基因激活子或基因阻抑子具有特异性。所述基因效应蛋白、基因激活子或基因阻抑子可以融合蛋白的形式存在。在一些实施方案中,所述向导RNA有两个或更多个适体序列对同样的适体蛋白具有特异性。在一些实施方案中,两个或更多个适体序列对不同的适体蛋白具有特异性。适体蛋白可包括如MS2、PP7、Qβ、F2、GA、fr、JP501、M12、R17、BZ13、JP34、JP500、KU1、M11、MX1、TW18、VK、SP、FI、ID2、NL95、TW19、AP205、φkCb5、φkCb8r、φkCb12r、φkCb23r、7s、PRR1。因此,在一些实施方案中,适体选自与本文所述任何一个适体蛋白特异性结合的结合蛋白。在一些实施方案中,该适体序列是一个结合环(5’-ggcccAACAUGAGGAUCACCCAUGUCUGCAGgggcc-3’)。在一些实施方案中,该适体序列是一个QBeta结合环(5’-ggcccAUGCUGUCUAAGACAGCAUgggcc-3’)。在一些实施方案中,该适体序列是一个PP7结合环(5’-ggcccUAAGGGUUUAUAUGGAAACCCUUAgggcc-3’)。对适体的详细描述可以在如《用于通用Cas9功能性的指南RNA工程》(Nowak等人,Nucl.Acid.Res.,44(20):9555-9564,2016)、WO 2016205764中找到,此处引用以上全文并入本文。
在一些实施方案中,所述方法利用了经化学修饰的向导RNA。向导RNA化学修饰的实施例包括但不限于在一个或多个末端核苷酸处掺入2'-O-甲基(M)、2'-O-甲基3'-硫代磷酸酯(MS)或2'-O-甲基3'-thioPACE(MSP)。与未经修饰的向导RNA相比,经过化学修饰的向导RNA可具有更高稳定性和活性,靶上特异性与脱靶特异性无法预测。参见,Hendel所著NatBiotechnol.33(9):985-9,2015,此处引用全文并入本文。化学修饰的向导RNA还可以包括但不限于一种RNA,它含有硫代磷酸酯键以及锁核酸(LNA)核苷酸,这种核苷酸在2'和4'碳之间有一个亚甲基桥。
本发明还包括递送多种核酸组分的方法,其中每种核酸组分对不同的目标靶基因座具有特异性,修饰多个目标靶基因座。所述复合物的核酸组分可包含一种或多种蛋白质结合RNA适体。上述一种或多种适体可能能够与一个噬菌体外壳蛋白结合。所述噬菌体外壳蛋白可以选自Qβ、F2、GA、fr、JP501、MS2、M12、R17、BZ13、JP34、JP500、KU1、M11、MX1、TW18、VK、SP、FI、ID2、NL95、TW19、AP205、φCb5、φCb8r、φCb12r、φCb23r、7s与PRR1。在一些实施方案中,所述噬菌体外壳蛋白是MS2。
3.靶RNA
所述靶RNA可以是任何目的RNA分子,包括天然存在的RNA分子与工程化RNA分子。所述靶RNA可以是一个mRNA、tRNA、核糖体RNA(rRNA)、microRNA(miRNA)、干扰RNA(siRNA)、核酶、核糖开关、卫星RNA、微开关、微酶或病毒RNA。
在一些实施方案中,所述靶核酸与一种病症或疾病(例如传染病或癌症)关联。
因此,在一些实施方案中,本文所述的系统可用于靶向这些病症或疾病核酸来治疗这些病症或疾病。例如,与病症或疾病关联的靶核酸可以是在一个患病细胞(如癌细胞或肿瘤细胞)中过量表达的RNA分子。所述靶核酸还可以是毒性RNA和/或突变的RNA(例如有一个剪接缺陷或突变的mRNA分子)。所述靶核酸也可以是对一种特定微生物(例如病原细菌)具有特异性的RNA。
4.复合体和细胞
本发明的一方面提供了一种CRISPR/Cas13e或CRISPR/Cas13f复合物,它包含(1)任何本文所述的Cas13e/Cas13f效应蛋白、其同系物、直系同源物、融合物、衍生物、缀合物或其功能片段,和(2)任何本文所述的向导RNA,每个RNA均包含一个被设计为与一个靶RNA至少部分互补的间隔区序列,以及一个与所述Cas13e/Cas13f效应蛋白、其同系物、直系同源物、融合物、衍生物、缀合物或功能性片段相容的DR序列。
在一些实施方案中,该复合物还包含与向导RNA结合的靶RNA。
在一些实施方案中,该复合物不是天然存在/天然产生的。例如,所述复合物中至少一种成分不是天然存在/天然产生的。在一些实施方案中,所述Cas13e/Cas13f效应蛋白、其同系物、直系同源物、融合物、衍生物、缀合物或功能片段不是天然存在/天然产生的,如存在至少一种氨基酸突变(缺失、插入和/或取代)。在一些实施方案中,所述DR序列不是天然存在/天然产生的,即非SEQ ID NO:8-14中的任何一个,如该序列与野生型序列相比,存在至少一个核苷酸碱基的添加、缺失和/或取代。在一些实施方案中,所述间隔区序列不是天然存在的,因为它不存在于任何原核生物野生型CRISPR基因座中存在的间隔区序列,或由这种间隔区序列编码,而上述CRISPR基因座中存在受试Cas13e或Cas13f。当间隔序列与天然存在的细菌噬菌体核酸不是100%互补时,它可能为非天然存在的序列。
本发明在一个相关方面还提供了一个含有任何本发明中复合物的细胞。
在一些实施方案中,该细胞是一个原核生物。
在一些实施方案中,该细胞是真核生物。当该细胞是真核生物时,真核细胞中的复合物可以是一个原核生物中天然存在的Cas13e/Cas13f复合物,从中可分离出Cas13e/Cas13f。
本发明所述的细胞不是动物胚胎干细胞,不是人生殖细胞,不是动物生殖细胞、或不是用于工业或商业目的的人类胚胎细胞,除非所述人类胚胎细胞是未经过体内发育的受精14天以内的、用于分离或者获取干细胞的人类胚胎细胞。
5.使用CRISPR系统的方法
本文所述的CRISPR系统具有多种用途,包括修饰多种细胞类型中的靶多核苷酸或核酸(例如删除、插入、转运、失活或活化)。所述CRISPR系统可广泛应用于如:DNA/RNA检测(例如特定的高灵敏度酶报告分子解锁,即SHERLOCK)、核酸跟踪与标记、富集测定(从背景中提取所需序列)、控制干扰RNA或miRNA、检测循环肿瘤DNA、准备下一代文库、药物筛选、疾病诊断和预后、各种遗传性疾病的治疗等方面。
DNA/RNA检测
一方面,本文所述的CRISPR系统可用于DNA或RNA检测。如实施例中所示,当间隔区序列为约30个核苷酸,被其向导RNA依赖的特异性RNase活性激活时,本发明的Cas13e和Cas13f蛋白显示出非特异性/附带的RNase活性。因此,本发明CRISPR相关联蛋白可以被CRISPR RNA(crRNA)重新编程,提供一个特异性RNA感测平台。通过选择特定的间隔序列长度,CRISPR关联蛋白会在其RNA靶标被识别时激活,从而参与附近非靶向RNA的“附带”切割。这种crRNA编程的附带切割活性使得该CRISPR系统可以触发程序性细胞死亡或标记RNA的非特异性降解,从而检测特定RNA的存在。
所述SHERLOCK方法(特定的高灵敏度酶报告分子解锁)提供了一种渺摩尔级(attomolar)敏感性的体外核酸检测平台,该平台通过核酸扩增和报告RNA的附带切割,实现实时检测靶标。将不同等温放大步骤进行组合可用于进行信号检测。例如重组酶聚合酶扩增(RPA)可以与T7转录结合,将扩增的DNA转化为RNA后进行检测。以下组合称为SHERLOCK:RPA扩增、用T7RNA聚合酶将扩增的DNA转录为RNA、用附带RNA切割介导释放的报告基因信号来检测靶RNA。在SHERLOCK中使用CRISPR的方法在如Gootenberg等人《使用CRISPR-Cas13a/C2c2检测核酸》(Science,2017Apr.28;356(6336):438-442)中作了详细描述,此处引用全文并入本文。
本文所述CRISPR关联蛋白可用于Northern blot分析,Northern blot分析通过电泳对RNA样品按大小进行分离。所述CRISPR关联蛋白可用于与目标RNA序列进行特异性结合并对齐进行检测。所述CRISPR关联蛋白还可与荧光蛋白(例如GFP)融合,并用于追踪活细胞中的RNA定位。具体来说可以让CRISPR关联蛋白可以失活而不再如上所述一样切割RNA。因此,所诉CRISPR关联蛋白可用于确定RNA或特定剪接变体的定位、确定mRNA转录物的水平、上调或下调转录物水平,及进行疾病特异性的诊断。所述CRISPR关联蛋白可用于可视化(活)细胞中的RNA,如利用荧光显微镜或流式细胞术(如荧光激活细胞分选,即FACS),实现细胞的高通量筛选、细胞分选后回收活细胞。关于如何检测DNA和RNA的详细描述可以在如国际公开号WO 2017/070605中找到,此处引用全文体并入本文。
在一些实施方案中,本文所述的CRISPR系统可用于多重错误鲁棒性荧光原位杂交(MERFISH)。所述方法在如Chen等人的《在单细胞中空间分辨的、高度多重化的RNA谱图》(Science,2015Apr.24;348(6233):aaa6090,)中有所描述,此处引用全文体并入本文。
检测和定量样品中RNA的特异性可以有广泛的应用,包括应用在诊断上。在一些实施方案中,所述方法包括使样品与以下物质接触:i)一个RNA向导(例如crRNA)和/或对所述RNA向导进行编码的核酸,其中所述RNA向导由一个同向重复序列和一个能够与靶RNA杂交的间隔区序列组成;(ii)一个VI-E或VI-F型CRISPR-Cas效应蛋白(Cas13e或Cas13f)和/或一个编码效应蛋白的核酸;(iii)一个被标记的检测子RNA;其中所述效应蛋白可与RNA向导结合形成一个复合物;其中上述RNA向导可与靶RNA杂交;其中上述复合物与靶RNA结合后,所述效应蛋白表现出附带的RNase活性并切割标记的检测子RNA;和b)测量一个可检测信号,该信号由标记检测RNA产生切割所产生,其中上述测量可对样品中单链靶RNA进行检测。在一些实施方案中,本文所述的CRISPR系统可用于检测样品(例如临床样品、细胞或细胞裂解液)中的靶RNA。间隔区序列具有特定选择的长度(如约30个核苷酸)时,当本文所述的VI-E和/或VI-FCRISPR-Cas效应蛋白与一个靶核酸结合,所述效应蛋白的附带RNase活性被激活。当所述效应蛋白与目标靶RNA结合后,会通过切割标记的检测子RNA来产生一个信号(例如一个增强/减弱的信号),从而完成对样品中的靶RNA的定性和定量检测。在一些实施方案中,所述方法还包括比较可检测信号与参考信号,以确定样品中靶RNA的量。在一些实施方案中通过以下方式测量:金纳米粒子检测、荧光偏振、胶体相变/分散、电化学检测、基于半导体的感测。在一些实施方案中,被标记的检测子RNA包括荧光发射染料对、荧光共振能量转移(FRET)对或猝灭剂/荧光对。在一些实施方案中,效应蛋白切割被标记的检测子RNA时,被标记的检测子RNA产生的可检测信号的量会减少或增加。在一些实施方案中,被标记的检测子RNA在被效应蛋白切割之前产生第一可检测信号,并在被效应蛋白切割之后产生第二可检测信号。在一些实施方案中,当被标记的检测子RNA被效应蛋白切割时产生一个可检测的信号。在一些实施方案中,被标记的检测子RNA包含经修饰的核碱基、修经饰的糖部分、经修饰的核酸键,或以上组合。在一些实施方案中,所述方法包括对一个样品中多个(例如2、3、4、5、6、7、8、9、10、15、20、30、40、或更多个)独立靶RNA的多通道检测,通过使用多个VI-E和/或VI-F CRISPR-Cas(Cas13e和/或Cas13f)系统以区分样品中多个靶RNA,每个系统都包含一个不同的直系同源效应蛋白和相应的RNA向导。在一些实施方案中,所述方法包括使用VI-E和/或VI-FCRISPR-Cas型系统的多个实例,对一个样品中多个独立的靶RNA进行多通道检测,每个实例均包含一个直系同源效应蛋白和可区分的附带RNase底物。使用CRISPR关联蛋白检测样品中RNA的方法在如美国专利公开第2017/0362644号中有所描述,此处引用全文本并入本文。
核酸追踪和标记
细胞过程取决于蛋白质、RNA和DNA之间分子相互作用的网络,要了解细胞过程,关键是要准确检测蛋白质与DNA、蛋白质与RNA之间的相互作用。体外邻近标记技术采用了一个与报道基团(例如可光活化的基团)组合的亲和标记,以在体外标记目的蛋白或RNA附近的多肽和RNA。紫外线照射后,可光活化的基团会与在被标记分子附近的蛋白和其他分子蛋白质发生反应并对它们进行标记。发生相互作用的被标记分子可以随后被回收和鉴定。所述CRISPR关联蛋白可以用于如将探针靶向选定的RNA序列。这些应用还可以应用于动物模型,对疾病或难以培养的细胞类型进行体内成像。追踪和标记核酸的方法在如美国专利第8,795,965号、WO 2016205764、WO 2017070605有所描述,在此引用全文并入本文。
RNA的分离、纯化、富集和/或消耗
本文所述的CRISPR系统(例如CRISPR关联蛋白)可用于分离和/或纯化RNA。可将CRISPR关联蛋白融合一个亲和标记上,该亲和标记可用于分离和/或纯化RNA-CRISPR关联蛋白复合物。这些可用于如细胞中的基因表达谱分析。
在一些实施方案中,CRISPR关联蛋白可用于靶向特定的非编码RNA(ncRNA)而阻断其活性。在一些实施方案中,CRISPR关联蛋白可用于特异性富集一种特定RNA(包括但不限于增加稳定性等),或者特异性消耗一个特定RNA(例如特定的剪接变体、同工型)。
这些方法如在美国专利第8,795,965号、WO 2016205764、WO 2017070605中有所描述,在此引用全文并入本文。
高通量筛选
本文所述的CRISPR系统可用于制备下一代测序(NGS)文库。例如,为了创建一个成本效益高的NGS文库,CRISPR系统可用于破坏靶基因的编码序列,CRISPR关联蛋白转染的克隆页同时可以用下一代测序(如在离子激流PGM系统上)筛选。关于如何制备NGS文库的详细描述,可参见如Bell等人《使用下一代测序技术检测CRISPR-Cas9诱导的突变的高通量筛选策略》(BMC Genomics,15.1(2014):1002,),此处引用全文并入本文。
工程化改造微生物
微生物(例如大肠杆菌、酵母和微藻)被广泛用于合成生物学中。合成生物学的发展具有包括各种临床应用在内的广泛用途。例如,CRISPR系统可被编程用于分裂毒性结构域的蛋白质,实现靶向细胞死亡,例如使用与癌症相关的RNA作为靶转录物。另外,涉及蛋白质与蛋白质相互作用的途径,可以在合成的生物系统中受到适当效应子(如激酶或酶的融合复合物)的影响。
在一些实施方案中,靶向噬菌体序列的crRNA可被引入微生物中。因此,本公开内容还提供了噬菌体感染接种微生物(如生产菌株)的方法。
在一些实施方案中,本文提供的CRISPR系统可用于工程改造微生物,如用来提高产量或提高发酵效率。例如,本文描述的CRISPR系统可用于工程化改造酵母,将工程化改造后的酵母用于可发酵糖,生产生物燃料或可燃生物聚合物;或将工程化改造酵母用于降解来源于农业废物的植物木质纤维素,成为可发酵糖的来源。具体来说,本文描述的方法可用于修饰生产生物燃料所需的内源基因的表达,和/或修饰可干扰生物燃料合成的内源基因。这些工程化改造微生物的方法在如Verwaal等人《CRISPR/Cpf1实现酿酒酵母的快速简单的基因组编辑》(Yeast doi:10.1002/yea.3278,2017)、Hlavova等人《为生物技术改进微藻——从遗传学到合成生物学》(Biotechnol.Adv.,33:1194-203,2015)中有所描述,此处引用以上两篇全文并入本文。
在一些实施方案中,本文提供的CRISPR系统可用于诱导细胞(如微生物、工程化后的微生物)的死亡或休眠。这些方法可用于诱导多种细胞类型的休眠或死亡,包括原核和细胞真核细胞,包括但不限于哺乳动物细胞(如癌细胞或组织培养细胞)、原生动物、真菌细胞、病毒、受胞内细菌感染的细胞、受胞内原生动物感染的细胞、受pr病毒感染的细胞、细菌(如致病性和非致病性细菌)、原生动物、单细胞和多细胞寄生虫。例如在合成生物学领域中,非常需要一种控制工程化改造微生物(如细菌)的机制,以防止它们的繁殖或传播。本文所述的系统可用作“杀灭开关”,用以调节和/或防止工程化微生物的繁殖或传播。此外,目前在本领域中需要找到替代抗生素治疗的方式。本文描述的系统还可以用于杀死或控制特定微生物种群(如细菌种群)。例如,本文描述的系统可包括一个RNA向导(如crRNA),可以靶向一个属、种或株特异性的核酸(例如RNA)且可以被递送至细胞。与该靶核酸复合并结合后,所述VI-E和/或VI-F CRISPR-Cas效应蛋白的附带RNase活性被激活,导致微该生物内非靶RNA裂解,最终导致休眠或死亡。在一些实施方案中,所述方法包括让该细胞与本文所述的系统接触,该系统包括一个VI-E和/或VI-F型CRISPR-Cas效应蛋白或一个编码该效应蛋白的核酸,以及一个RNA向导(如crRNA)或一个编码RNA向导的核酸,其中该间隔区序列与靶核酸(如属特异性、株特异性或种特异性RNA向导)的中至少15个核苷酸互补(如16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、45、50或更多个核苷酸)。在不希望受到任何特定理论束缚的情况下,所述VI-E和/或VI-F CRISPR-Cas效应蛋白对非靶RNA的切割可能诱导程序性细胞死亡、细胞毒性、凋亡、坏死、程序性坏死、细胞死亡、细胞周期停滞、细胞无反应、细胞生长减少或细胞增殖减少。例如在细菌中,通过所述VI-E和/或VI-FCRISPR-Cas效应蛋白对非靶RNA的切割,可以产生抑菌的或杀菌结果。
植物中的应用
本文所述的CRISPR系统在植物中具有多种用途。在一些实施方案中,该CRISPR系统可以用于工程化改造植物的基因组(例如提高产量、制备具有所需的翻译后修饰的产物,或引入基因实现工业化生产作物)。在一些实施方案中,CRISPR系统可用于将所需性状引入植物(如在对基因组进行或不进行遗传修饰的情况下),或调节植物细胞或整个植物中内源基因的表达。
在一些实施方案中,该CRISPR系统可用于鉴定、编辑和/或使编码特定蛋白的基因沉默,如过敏原蛋白(如花生、大豆、小扁豆、豌豆、豆角、绿豆中的过敏原蛋白)。关于如何鉴定、编辑和/或使编码蛋白质的基因沉默的详细描述可在如Nicolaou等人《花生和豆类过敏的分子诊断》(Curr.Opin.Allergy Clin.Immunol.11(3):222-8,2011)与WO2016205764A1中找到,此处对以上两篇全文作整体引用并入本文。
基因驱动
基因驱动是一个特定基因或一组特定基因的遗传受到有利偏倚的现象。本文所述的CRISPR系统可用于构建基因驱动。例如,可以将CRISPR系统设计为靶向并破坏一个基因的特定等位基因,使细胞通过复制第二个等位基因来修复序列。上述复制使第一等位基因被转换为第二等位基因,从而增加第二等位基因传递给后代的机会。例如,在Hammond等人《冈比亚按蚊疟疾蚊子载体中靶向雌性繁殖的CRISPR-Cas9基因驱动系统》(Nat.Biotechnol.34(1):78-83,2016)中,描述了如何使用本文所述的CRISPR系统来构建基因驱动的详细方法。此处整体引用以上全文并入本文。
混合筛选
如本文所述,CRISPR混合筛选是一个可以鉴定某些生物学机制中基因的有效工具,如细胞增殖、药物抗性、病毒感染中的基因。使用本文所述的由向导RNA(gRNA)编码的载体文库大量转导细胞,并且在施加选择性攻击之前和之后测量gRNA的分布。汇集的CRISPR筛选对于影响细胞存活和增殖的机制非常有效,并且可以扩展以测量单个基因的活性(例如,通过使用工程报告基因细胞系)。一次仅靶向一个基因的阵列式CRISPR筛选使得使用RNA序列作为读数成为可能。在一些实施方案中,本文所述的CRISPR系统可以用于单细胞CRISPR筛选中。关于汇集的CRISPR筛选的详细描述可以在例如Datlinger等人的“具有单细胞转录组读出的汇集的CRISPR筛选”中找到。方法。14(3):297-301,2017,通过引用将其全文并入本文。
饱和诱变(扑灭)
本文所述的CRISPR系统可用于原位饱和诱变。在一些实施方案中,合并的向导RNA文库可用于对特定基因或调节元件进行原位饱和诱变。这样的方法可以揭示这些基因或调节元件(例如增强子)的关键的最小特征和离散的脆弱性。这些方法描述于例如Canver等人,“通过Cas9介导的原位饱和诱变进行的BCL11A增强子剥离”,Nature 527(7577):192-7,2015中,其通过引用整体并入本文。
RNA相关应用
本文所述的CRISPR系统可具有多种与RNA相关的应用,例如调节基因表达,降解RNA分子,抑制RNA表达,筛选RNA或RNA产物,确定lincRNA或非编码RNA的功能,诱导细胞休眠,诱导细胞周期停滞,减少细胞生长和/或细胞增殖,诱导细胞无反应,诱导细胞凋亡,诱导细胞坏死,诱导细胞死亡和/或诱导程序性细胞死亡。这些应用的详细描述可以在例如WO2016/205764A1中找到,其通过引用整体并入本文。在不同的实施方案中,本文所述的方法可以在体外,体内或离体进行。
例如,本文所述的CRISPR系统可以用于一个患有疾病或病症的受试者,用以靶向和诱导处于患病状态的细胞(例如癌细胞或被感染因子感染的细胞)细胞中的死亡。例如在一些实施方案中,本文所述的CRISPR系统可用于靶向并诱导癌细胞中的细胞死亡,所述癌细胞来自患有威尔姆斯氏肿瘤、尤因肉瘤、神经内分泌肿瘤、成胶质细胞瘤、神经母细胞瘤、黑色素瘤、皮肤癌、乳腺癌、结肠癌、直肠癌、前列腺癌、肝癌、肾癌、胰腺癌、肺癌、胆道癌、宫颈癌、子宫内膜癌、食道癌、胃癌、头颈癌、甲状腺髓样癌、卵巢癌、神经胶质瘤、淋巴瘤、白血病、骨髓瘤、急性淋巴细胞白血病、急性骨髓性白血病、慢性淋巴细胞性白血病、慢性骨髓性白血病、霍奇金淋巴瘤、非霍奇金淋巴瘤或膀胱癌的受试者。
调节基因表达
本文所述的CRISPR系统可用于调节基因表达。所述CRISPR系统可与合适的向导RNA一起通过控制RNA加工来靶向基因表达。控制RNA加工可包括:RNA加工反应如RNA剪接(如选择性剪接)、病毒复制、tRNA生物合成。RNA靶向蛋白与合适的向导RNA结合也可用于控制RNA激活(即RNAa)。RNA激活是一种由小型的RNA向导且依赖Argonaute(Ago)的基因调控现象,其中,被启动子靶向的短双链RNA(dsRNA)在转录/表观水平上诱导靶基因的表达。RNAa可促进基因表达,因此可以通过破坏或减少RNAa的方式来实现对基因表达的控制。在一些实施方案中,这种方法包括使用靶向CRISPR的RNA作为取代物,取代如干扰核糖核酸(例如siRNA、shRNA或dsRNA)。调节基因表达的方法在如WO 2016205764中有所描述,此处作整体引用并入本文。
控制RNA干扰
控制干扰RNA或microRNA(miRNA)可以帮助减少脱靶效应,这种控制通过降低体内或体外干扰RNA或miRNA的寿命来实现。在一些实施方案中,所述靶RNA可以包括干扰RNA,即参与RNA干扰途径的RNA,例如小发夹RNA(shRNA)、小干扰(siRNA)等。在一些实施方案中,所述靶RNA包括如miRNA或双链RNA(dsRNA)。
在一些实施方案中,如果RNA靶向蛋白和合适的向导RNA被选择性表达(如空间或时间上受到一个被调控的启动子控制,如组织或细胞周期特异性启动子和/或增强子),这可用于细胞或系统(体内或体外)的保护,免受所述细胞中RNA干扰(RNAi)。这可以用于不需要RNAi的邻近组织或细胞中,或用于比较CRISPR关联蛋白及合适的crRNA表达或不表达的细胞或组织(即其中RNAi分别受控或不受控)。该RNA靶向蛋白可用于控制或结合含有RNA或由RNA组成的分子,如核酶、核糖体或核糖开关。在一些实施方案中,所述向导RNA可以将RNA靶向蛋白招募到这些分子中,使得这些RNA靶向蛋白能够与它们结合。上述方法在如WO2016205764和WO 2017070605中有所描述,此处对这两项内容作整体引用并入本文。
修饰核糖开关及控制代谢调控
核糖开关是信使RNA的调控片段,它们通过与小分子结合来调控基因表达。这种机制使细胞能够感知这些小分子的细胞内浓度。特定的核糖开关常通过改变其邻近基因的转录、翻译或剪接来调节这些基因。因此,在一些实施方案中,可以通过所述RNA靶向蛋白与合适的向导RNA结合来靶向核糖开关,达到控制核糖开关活性的目的。这可以通过切割或结合至核糖开关来实现。使用CRISPR系统控制核糖开关的方法在如WO 2016205764和WO2017070605中已进行描述,此处对这两项内容作整体引用并入本文。
RNA修饰
在一些实施方案中,本文所述的CRISPR关联蛋白可与碱基编辑域融合,如ADAR1、ADAR2、APOBEC或激活诱导的胞苷脱氨酶(AID),用于修饰一个RNA序列(如mRNA)。在一些实施方案中,CRISPR关联蛋白包括一个或多个突变(如在催化结构域中),使得该CRISPR关联蛋白不能切割RNA。
I在一些实施方案中,该CRISPR关联蛋白可与一个RNA结合融合多肽一起使用,所述融合多肽包含一个碱基编辑结构域(如ADAR1、ADAR2、APOBEC或AID),该结构域与一个RNA结合结构域融合,如MS2(也称为MS2外壳蛋白)、Qbeta(也称为Qbeta外壳蛋白)或PP7(也称为PP7外壳蛋白)。所述RNA结合结构域MS2、Qbeta和PP7的氨基酸序列如下:
MS2(MS2外壳蛋白)
MASNFTQFVLVDNGGTGDVTVAPSNFANGVAEWISSNSRSQAYKVTCSVRQSSAQKRKYTIKVEVPKVATQTVGGVELPVAAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSGIY
Qbeta(Qbeta外壳蛋白)
MAKLETVTLGNIGKDGKQTLVLNPRGVNPTNGVASLSQAGAVPALEKRVTVSVSQPSRNRKNYKVQVKIQNPTACTANGSCDPSVTRQAYADVTFSFTQYSTDEERAFVRTELAALLASPLLIDAIDQLNPAY
PP7(PP7外壳蛋白)
MSKTIVLSVGEATRTLTEIQSTADRQIFEEKVGPLVGRLRLTASLRQNGAKTAYRVNLKLDQADVVDCSTSVCGELPKVRYTQVWSHDVTIVANSTEASRKSLYDLTKSLVVQATSEDLVVNLVPLGR
在一些实施方案中,所述RNA结合结构域可以与一个本文描述的系统中的crRNA上的特定序列(如适体序列)或二级结构基序结合(如当该crRNA在一个效应子-crRNA复合物中时),从而招募RNA结合融合多肽(有一个碱基编辑域)至该效应子复合物中。例如在一些实施方案中,所述CRISPR系统包括一个CRISPR关联蛋白、一个有适体序列(如MS2结合环、QBeta结合环或PP7结合环)的crRNA、一个RNA结合融合多肽,该多肽有一个与适体序列特异性结合的碱基编辑域。在所述系统中,CRISPR关联蛋白与含有适体序列的crRNA形成一个复合物。此外,该RNA结合融合多肽(通过适体序列)与crRNA结合,形成可以修饰靶RNA的三方复合物。
使用CRISPR系统进行碱基编辑的方法在如国际公开号WO 2017/219027中进行了描述,此处将全文引用并入本文,尤其是关于RNA修饰的讨论部分。
RNA剪接
在一些实施方案中,本文所述的灭活CRISPR关联蛋白(如一个在催化结构域中有一个或多个突变的CRISPR关联蛋白)可用于靶向并结合RNA转录物上特定的剪接位点。灭活的CRISPR关联蛋白与RNA结合,可在空间上抑制剪接体与转录物的相互作用,从而能够改变特定转录物同工型的产生频率。用这种方法可以跳过外显子来治疗疾病,可以在成熟蛋白中跳过发生突变的外显子。使用CRISPR系统改变剪接的方法在如在国际公开号WO 2017/219027中已进行描述,此处将全文引用并入本文特,尤其是关于RNA剪接的讨论部分。
治疗应用
本文所述的CRISPR系统可以进行多种治疗应用,这些治疗应用可基于以下一种或多种CRISPR/Cas13e或Cas13f系统在体外和体内的能力:诱导细胞衰老、诱导细胞周期停滞、抑制细胞生长和/或增殖、诱导细胞凋亡、诱导坏死等。
在一些实施方案中,本文所述的新型CRISPR系统可以用于治疗各种疾病和病症,如遗传疾病(如单基因疾病)、可通过核酸酶活性治疗的疾病(例如用于靶向Pcsk9、杜兴氏肌营养不良症即DMD、靶向BCL11a)以及各种癌症等。
在一些实施方案中,本文所述的CRISPR系统可用于编辑靶核酸以对其进行修饰(例如通过一个或多个核酸残基插入、缺失或突变)。例如在一些实施方案中,本文所述的CRISPR系统包含一个外源供体模板核酸(如DNA分子或RNA分子),其中包含我们所需的核酸序列。在本文所述的CRISPR系统解决诱导的切割时,细胞的分子机制会利用外源供体模板核酸修复和/或解决切割。或者,细胞的分子机制可以利用内源性模板来修复和/或完成切割事件。在一些实施方案中,本文所述的CRISPR系统可用于改变靶核酸,形成插入、缺失和/或点突变。在一些实施方案中,所述插入是无疤痕的插入(即把一个想要插入的核酸序列插入靶核酸中,使得在解决切割事件时不会意外插入额外的核酸序列)。所述供体模板核酸可以是双链或单链核酸分子(例如DNA或RNA)。设计外源供体模板核酸的方法在如国际公开号WO 2016/094874A1中已进行描述,此处明确引用全文并入本文。
一方面,本文所述的CRISPR系统可用于治疗RNA、毒性RNA和/或突变RNA的过度表达(例如有剪接缺陷或截短)所引起的疾病。例如,毒性RNA的表达可能与脑、心脏或骨骼肌中的核内含物形成、迟发性变性变化有关。在一些实施方案中,所述疾病是强直性肌营养不良。在强直性肌营养不良症中,毒性RNA的主要致病作用是螯合结合蛋白并损害选择性剪接的调控,参见如Osborne等人《RNA主导型疾病》(Hum.Mol.Genet.,2009Apr.15;18(8):1471-81)遗传学家还特别关注强直性肌营养不良症(或称肌营养不良症,DM),因为它可产生极多的临床特征。我们所说的经典DM,现称DM 1型(DM1),是由DMPK(编码胞质蛋白激酶的基因)的3'-非翻译区(UTR)中CTG重复序列的扩增引起的。本文所述的CRISPR系统可靶向过量表达的RNA或毒性RNA,如DMPK基因,或可靶向任何DM1骨骼肌、心脏或大脑中的错误调节的选择性剪接。
本文所述的CRISPR系统还可靶向反式突变,这种突变可以影响会引起多种疾病的依赖RNA的功能,例如普拉德·威利综合征、脊髓性肌萎缩(SMA)和先天性角化病。Cooper等人的《RNA与疾病》(Cell,136.4(2009):777-793)与WO 2016/205764A1中总结了使用本文所述的CRISPR系统可治疗的疾病列表。此处引用全文并入本文。该领域的专业人员将了解如何使用该新型CRISPR系统来治疗以上疾病。
本文所述的CRISPR系统还可以用于治疗各种Tau蛋白病变(tauopathies),包括例如原发性和继发性Tau病变,如与年龄相关的原发性Tau病变(PART)/神经原纤维缠结(NFT)主导的老年性痴呆(其中的NFT与阿尔茨海默病(AD)中的NFT相似但无斑块)、普吉斯痴呆(慢性创伤性脑病)、进行性核上性麻痹。在如WO 2016205764中提供了一个Tau病变的列表并描述了治疗这些疾病的方法,此处引用全文并入本文。
本文所述的CRISPR系统也可用于靶向一些能够破坏顺式作用剪接密码的突变,这种间接密码可引起剪接缺陷和疾病,这种疾病包括,如SMN1基因缺失导致的运动神经元退化性疾病(如脊髓性肌萎缩症)、杜兴氏肌营养不良症(DMD)、额颞叶痴呆、17号染色体相关的帕金森氏症(FTDP-17)、囊性纤维化。
本文所述的CRISPR系统还可用于抗病毒活性,尤其是RNA病毒。所述CRISPR关联蛋白可以使用选择的合适向导RNA来靶向病毒RNA序列,通过这种方式来靶向病毒RNA。
本文所述的CRISPR系统还可用于治疗受试者(如人类受试者)的癌症。例如,可对本文所述的CRISPR关联蛋白进行编程以,使用crRNA来靶向一个异常的(如包含点突变或交替剪接)并在癌细胞中发现的RNA分子,实现诱导癌细胞中的细胞死亡(例如凋亡)。
本文所述的CRISPR系统还可用于治疗受试者(如人类受试者)的自身免疫疾病或病症。例如,可对本文所述的与CRISPR关联蛋白进行被编,用crRNA来靶向一个异常的(如包一个含点突变或被选择性剪接)、存在引起自身免疫疾病或病症的细胞中的RNA分子。
此外,本文所述的CRISPR系统也可以用于治疗受试者的传染病。例如,可对本文所述的CRISPR关联蛋白进行编程,用crRNA来靶向一个由感染因子(如细菌、病毒、寄生虫或原生动物)表达的RNA分子,来靶向和诱导感染因子细胞的细胞死亡。所述CRISPR系统也可用于治疗受到细胞内感染因子感染的宿主细胞受试者的疾病。对CRISPR关联蛋白进行编程来靶向感染因子基因编码的RNA分子,通过这种方式可以靶向受感染因子感染的细胞,并诱导其细胞死亡。
此外,体外RNA感应测定可用于检测特定的RNA底物。本文所述CRISPR关联蛋白可用于传感活细胞中基于RNA的物质。该应用的一些实施包括感测疾病特异性RNA的诊断方法。
本文描述的CRISPR系统的治疗应用的在如美国专利第No.8,795,965号、EP3009511、WO 2016205764、WO 2017070605中进行了详细描述,此处引用以上几项全文并入本文。
细胞及其后代
在一些实施方案中,本发明的方法可用于将本文所述的CRISPR系统引入一个细胞中,使得该细胞和/或其后代改变一种或多种细胞产物,如抗体、淀粉、乙醇或任何其他想要改变的产物。这种细胞及其后代包括在本发明的范围内。
在一些实施方案中,本文描述的方法和/或CRISPR系统会修饰细胞的一种或多种RNA产物的翻译和/或转录。例如,这种修饰可以增加RNA产物的转录/翻译/表达。在其他实施方案中,这种修饰可降低RNA产物的转录/翻译/表达。
在一些实施方案中,所述细胞是原核细胞。
在一些实施方案中,所述细胞是真核细胞,例如哺乳动物细胞,包括人类细胞(人类原代细胞或已建立的人类细胞系)。在一些实施方案中,所述细胞为非人类哺乳动物细胞,例如来自非人类灵长类动物(如猴子)、奶牛/公牛/家牛、绵羊、山羊、猪、马、狗、猫、啮齿动物(如兔子、小、大鼠、仓鼠)等。在一些实施方案中,所述细胞来自鱼(如鲑鱼)、鸟(如禽鸟,包括小鸡、鸭、鹅)、爬行动物、贝类(如牡蛎、蛤、龙虾、虾)、昆虫、蠕虫、酵母等。在一些实施方案中,所述细胞来自植物,如单子叶植物或双子叶植物。在一些实施方案中,上述植物是粮食作物,例如大麦、木薯、棉花、花生、玉米、小米、油棕果、土豆、豆类、油菜籽或低芥酸菜子、大米、黑麦、高粱、大豆、甘蔗、糖甜菜、向日葵和小麦。在一些实施方案中,上述植物是谷物(大麦、玉米、小米、大米、黑麦、高粱和小麦)。在一些实施方案中,上述植物是块茎(木薯和土豆)。在一些实施方案中,上述植物是糖料作物(甜菜和甘蔗)。在一些实施方案中,上述植物是含油作物(大豆、花生、油菜籽或低芥酸菜子、向日葵和油棕果)。在一些实施方案中,上述植物是纤维作物(棉花)。在一些实施方案中,上述植物是树(如桃树或油桃树、苹果或梨树、坚果树(如杏仁或核桃树或开心果树)或柑橘属树(例如橙子、葡萄柚或柠檬树)、草、蔬菜、水果或藻类。在一些实施方案中,上述植物是茄属植物;芸苔属(Brassica)植物;莴苣属(Lactuca)植物;菠菜属(Spinacia)植物;辣椒属(Capsicum)植物;棉花、烟草、芦笋、胡萝卜、卷心菜、西兰花、花椰菜、番茄、茄子、胡椒、生菜、菠菜、草莓、蓝莓、覆盆子、黑莓、葡萄、咖啡、可可等。
在一个相关方面,本文提供了经修饰的细胞或其后代,修饰方法是本发明中使用所述CRISPR系统的方法。
在一些实施方案中,所述细胞在体外、体内或离体进行修饰。
在一些实施方案中,所述细胞是一个干细胞。
6.递送
根据本公开及本领域中的知识,本文所描述的CRISPR系统或其任何组分(其Cas蛋白、衍生物、功能片段或各种融合或加合物,以及向导RNA/crRNA)、其核酸分子、和/或编码或提供其组分的核酸分子,可以使用本领域任何合适的方式,通过各种递送系统进行递送(如通过质粒、病毒递送载体等载体)。此类方法包括(但不限于)电穿孔、脂质转染、显微注射、转染、超声处理、基因枪等。
在一些实施方案中,可以使用合适的载体(如质粒或病毒载体)来递送CRISPR关联蛋白和/或任何所述RNA(如向导RNA或crRNA)和/或辅助蛋白,如使用腺相关病毒(即AAV)、慢病毒、腺病毒、逆转录病毒载体、其他病毒载体,或以上载体的组合。所述蛋白与一种或多种crRNA可以被包装入一种或多种载体中,如质粒或病毒载体。如要应用于细菌中,可以利用一个噬菌体,将对所述CRISPR系统中任何组分进行编码的核酸递送至细菌内。这种噬菌体的实施例包括但不限于T4噬菌体、Mu、λ噬菌体、T5噬菌体、T7噬菌体、T3噬菌体、Φ29、M13、MS2、Qβ、ΦX174。
在一些实施方案中,将载体(如质粒或病毒载体)递送至目标组织,是通过例如肌内注射、静脉内施用、透皮施用、鼻内施用、口服施用或粘膜施用等方式。这种递送可以是单剂量或多剂量的。本领域专业人员应理解,本文所述的递送实际剂量,受多种因素印象可能产生很大的变化,受到如载体的选择、靶细胞、生物体、组织、待治疗对象的总体情况、所追求的转换/修改程度、施用途径、施用模式、所追求的转换/修改的类型等影响。
在一些实施方案中,所述递送通过腺病毒完成,可以使用单剂量包含至少1×105个腺病毒颗粒(也称为颗粒单位,pu)的腺病毒。在一些实施方案中,理想剂量为至少约1×106个颗粒、至少约1×107个颗粒、至少约1×108个颗粒、至少约1×109个颗粒的腺病毒。所述递送方法和剂量在如WO 2016205764A1和美国专利第8,454,972B2号中有作描述,此处引用以上两项全文并入本文。
在一些实施方案中,所述递送是通过质粒完成。剂量可以是能够引起应答的足够数量的质粒。在某些情况下,质粒组合物中质粒DNA的适合数量可以为约0.1至约2mg。质粒通常将包括(i)一个启动子;(ii)一个序列,该序列编码一个靶向核酸的CRISPR关联蛋白和/或一个辅助蛋白,这些蛋白在操作上可分别连接至一个启动子(例如相同的启动子或不同的启动子);(iii)一个可选择的标记;(iv)一个复制起点;(v)一个在(ii)下游并与之有效连接的转录终止子。所述质粒还可以编码一个CRISPR复合物的RNA组分,但其中的一种或多种组分也可在不同的载体上被编码。施用频率是在医学或兽医从业者(例如医师、兽医)或本领域专业人员的能力范围内的。
在另一个实施方案中,所述递送是通过脂质体或脂质转染制剂等完成的,这些脂质体或脂质转染制剂可以由本领域专业人员已知的方法来制备。所述方法在如WO2016205764和美国专利第5,593,972号、第5,589,466号、第5,580,859号中进行了描述,此处对以上每一项的全文进行引用并入本文。
在一些实施方案中,所述递送是通过纳米颗粒或外来体完成的。例如,外来体被证实为在递送RNA中尤其有用。
除此之外,还有一些通过细胞穿透肽(CPP)将新型CRISPR系统一个或多个组件引入细胞的方法。在一些实施方案中,一个细胞穿透肽与所述CRISPR关联蛋白连接。在一些实施方案中,CRISPR关联蛋白和/或向导RNA与一种或多种CPP偶联,从而将这些CPP有效转运到细胞内(如植物原生质体)。在一些实施方案中,CRISPR关联蛋白和/或向导RNA由与一种或多种环状或非环状DNA分子编码以实现细胞递送,这些DNA分子与一种或多种CPP偶联。
CPP是源于蛋白质或嵌合序列、少于35个氨基酸的短肽,能够以受体独立的方式跨细胞膜转运生物分子。CPP可以为阳离子肽、具有疏水序列的肽、两亲性肽、具有富集脯氨酸与抗微生物序列的肽、嵌合肽或二分体肽。CPP的示例包括:Tat(一种1型HIV病毒复制所需的核转录激活蛋白)、渗透肽、卡波西成纤维细胞生长因子(FGF)信号肽序列、整联蛋白β3信号肽序列、聚精氨酸肽Arg序列、鸟嘌呤富集分子转运蛋白、甜箭肽。CPP及其使用方法在如
等人《细胞穿透肽的预测》(Methods Mol.Biol.,2015;1324:39-58)、Ramakrishna等人《由穿透细胞、肽介导的Cas9蛋白及向导RNA的递送实现的基因破坏》(Genome Res.,2014June;24(6):1020-7)、WO 2016205764A1中已进行描述,此处引用以上每一项的全文并入本文。
使用本文所述CRISPR系统的各种递送方法页在如美国专利第8,795,965号、EP300951、WO 2016205764、WO 2017070605中进行了描述,此处引用以上每一项的全文并入本文。
7.试剂盒
本发明的另一方面提供了一个试剂盒,这个试剂盒包含了本文所述受试CRISPR/Cas系统中两种或以上任何组分,所述组分例如Cas13e和Cas13f蛋白、衍生物、其功能片段或各种融合物或加合物、向导RNA/crRNA、它们的复合物、包含以上各项的载体或包含以上各项的宿主。
在一些实施方案中,该试剂盒还包括了如何使用其中组分的说明书,和/或如何与在别处获得的其他组分组合使用的说明书。
在一些实施方案中,该试剂盒还包含一个或多个核苷酸,这些核苷酸有些可响应将RNA编码序列插入一个载体的核苷酸,而上述编码序列在操作上可以连接至该载体中一个或多个控制元件。
在一些实施方案中,该试剂盒还包含一种或多种缓冲液,这种缓冲液可用于溶解任何组分,和/或为一种或多种组分提供合适的反应条件。所述缓冲剂可包括一种或多种以下缓冲剂:PBS、HEPES、Tris、MOPS、Na2CO3、NaHCO3、NaB或以上任意组合。在一些实施方案中,上述反应条件包括适当的pH值,例如一个碱性pH值。在一些实施方案中,所述pH值在7-10之间。
在一些实施方案中,该试剂盒中任何一种或多种组分可以存储在合适的容器中。
实施例
实施例1:新型Cas13e和Cas13f系统的鉴定
我们利用一个计算流程通过挖掘基因组和宏基因组数据对第2类CRISPR-Cas系统进行了扩充。所用基因组和宏基因组序列是从NCBI(Benson等人,2013;Pruitt等人,2012)、NCBI全基因组测序(WGS)、DOE JGI集成微生物基因组(Markowitz等人,2012)等数据库下载所得。对所有重叠群上大于5kb长的蛋白进行了预测(Prodigal匿名模式,Hyatt等人,2010)以及去重复(即去除相同的蛋白序列),以构建完整的蛋白数据库。大于600个残基的蛋白被视为大蛋白(LP)。由于目前鉴定出的Cas13蛋白大小大多数大于900个残基,为降低计算的复杂性,在后续步骤中仅考虑了大蛋白。
然后,使用Pidle-CR(参见Edgar《PILER-CR:快速、准确地鉴定CRISPR重复序列》BMC Bioinformatics 8:18,2007)的所有默认参数来鉴定CRISPR阵列。距离CRISPR阵列±10kb内的非冗余大蛋白的序列编码ORF被分组为几个CRISPR邻近大蛋白编码簇,且被编码的LP被定义为Cas-LP。
首先,用BLASP对Cas-LP进行成对的比对,得到Evalue<1E-10的BLASTP比对结果。然后,根据BLASTP结果,用MCL将Cas-LP进一步分类成簇,创建Cas蛋白家族。
然后,用BLASTP将Cas-LP与所有LP进行比对,获得Evalue<1E-10的BLASP比对结果。根据BLASTP比对结果进一步扩展Cas-LPs家族,所得到的Cas-LP家族用于进一步分析,保留扩增不超过一倍的Cas-LP蛋白家族。
我们用蛋白家族数据库Pfam(Finn等人,2014)、NR数据库、NCBI中的Cas蛋白来对候选Cas蛋白进行功能注释,过滤掉有已知功能的蛋白。然后用MAFFT对每种候选Cas效应蛋白进行多序列比对(Katoh和Standley,2013)。然后用JPred和HHpred分析这些蛋白质中的保守区域,来鉴定具有两个保守RXXXXH基序的候选Cas蛋白/家族。
上述分析鉴定出了七个新的Cas13效应蛋白,它们属于两个新的Cas13家族,这两个家族与所有以前鉴定的第2类CRISPR-Cas系统都不同,包括新Cas13e家族中的Cas13e.1(SEQ ID NO:1)、Cas13e.2(SEQ ID NO:2),以及新Cas13f家族中的Cas13f.1(SEQ ID NO:3)、Cas13f.2(SEQ ID NO:4)、Cas13f.3(SEQ ID NO:5)、Cas13f.4(SEQ ID NO:6)、Cas13f.5(SEQ ID NO:7)。
MAQVSKQTSKKRELSIDEYQGARKWCFTIAFNKALVNRDKNDGLFVESLLRHEKYSKHDWYDEDTRALIKCSTQAANAKAEALRNYFSHYRHSPGCLTFTAEDELRTIMERAYERAIFECRRRETEVIIEFPSLFEGDRITTAGVVFFVSFFVERRVLDRLYGAVSGLKKNEGQYKLTRKALSMYCLKDSRFTKAWDKRVLLFRDILAQLGRIPAEAYEYYHGEQGDKKRANDNEGTNPKRHKDKFIEFALHYLEAQHSEICFGRRHIVREEAGAGDEHKKHRTKGKVVVDFSKKDEDQSYYISKNNVIVRIDKNAGPRSYRMGLNELKYLVLLSLQGKGDDAIAKLYRYRQHVENILDVVKVTDKDNHVFLPRFVLEQHGIGRKAFKQRIDGRVKHVRGVWEKKKAATNEMTLHEKARDILQYVNENCTRSFNPGEYNRLLVCLVGKDVENFQAGLKRLQLAERIDGRVYSIFAQTSTINEMHQVVCDQILNRLCRIGDQKLYDYVGLGKKDEIDYKQKVAWFKEHISIRRGFLRKKFWYDSKKGFAKLVEEHLESGGGQRDVGLDKKYYHIDAIGRFEGANPALYETLARDRLCLMMAQYFLGSVRKELGNKIVWSNDSIELPVEGSVGNEKSIVFSVSDYGKLYVLDDAEFLGRICEYFMPHEKGKIRYHTVYEKGFRAYNDLQKKCVEAVLAFEEKVVKAKKMSEKEGAHYIDFREILAQTMCKEAEKTAVNKVRRAFFHHHLKFVIDEFGLFSDVMKKYGIEKEWKFPVK*(SEQ ID NO:1)
MKVENIKEKSKKAMYLINHYEGPKKWCFAIVLNRACDNYEDNPHLFSKSLLEFEKTSRKDWFDEETRELVEQADTEIQPNPNLKPNTTANRKLKDIRNYFSHHYHKNECLYFKNDDPIRCIMEAAYEKSKIYIKGKQIEQSDIPLPELFESSGWITPAGILLLASFFVERGILHRLMGNIGGFKDNRGEYGLTHDIFTTYCLKGSYSIRAQDHDAVMFRDILGYLSRVPTESFQRIKQPQIRKEGQLSERKTDKFITFALNYLEDYGLKDLEGCKACFARSKIVREQENVESINDKEYKPHENKKKVEIHFDQSKEDRFYINRNNVILKIQKKDGHSNIVRMGVYELKYLVLMSLVGKAKEAVEKIDNYIQDLRDQLPYIEGKNKEEIKEYVRFFPRFIRSHLGLLQINDEEKIKARLDYVKTKWLDKKEKSKELELHKKGRDILRYINERCDRELNRNVYNRILELLVSKDLTGFYRELEELKRTRRIDKNIVQNLSGQKTINALHEKVCDLVLKEIESLDTENLRKYLGLIPKEEKEVTFKEKVDRILKQPVIYKGFLRYQFFKDDKKSFVLLVEDALKEKGGGCDVPLGKEYYKIVSLDKYDKENKTLCETLAMDRLCLMMARQYYLSLNAKLAQEAQQIEWKKEDSIELIIFTLKNPDQSKQSFSIRFSVRDFTKLYVTDDPEFLARLCSYFFPVEKEIEYHKLYSEGINKYTNLQKEGIEAILELEKKLIERNRIQSAKNYLSFNEIMNKSGYNKDEQDDLKKVRNSLLHYKLIFEKEHLKKFYEVMRGEGIEKKWSLIV*(SEQ ID NO:2)
MNGIELKKEEAAFYFNQAELNLKAIEDNIFDKERRKTLLNNPQILAKMENFIFNFRDVTKNAKGEIDCLLLKLRELRNFYSHYVHKRDVRELSKGEKPILEKYYQFAIESTGSENVKLEIIENDAWLADAGVLFFLCIFLKKSQANKLISGISGFKRNDDTGQPRRNLFTYFSIREGYKVVPEMQKHFLLFSLVNHLSNQDDYIEKAHQPYDIGEGLFFHRIASTFLNISGILRNMKFYTYQSKRLVEQRGELKREKDIFAWEEPFQGNSYFEINGHKGVIGEDELKELCYAFLIGNQDANKVEGRITQFLEKFRNANSVQQVKDDEMLKPEYFPANYFAESGVGRIKDRVLNRLNKAIKSNKAKKGEIIAYDKMREVMAFINNSLPVDEKLKPKDYKRYLGMVRFWDREKDNIKREFETKEWSKYLPSNFWTAKNLERVYGLAREKNAELFNKLKADVEKMDERELEKYQKINDAKDLANLRRLASDFGVKWEEKDWDEYSGQIKKQITDSQKLTIMKQRITAGLKKKHGIENLNLRITIDINKSRKAVLNRIAIPRGFVKRHILGWQESEKVSKKIREAECEILLSKEYEELSKQFFQSKDYDKMTRINGLYEKNKLIALMAVYLMGQLRILFKEHTKLDDITKTTVDFKISDKVTVKIPFSNYPSLVYTMSSKYVDNIGNYGFSNKDKDKPILGKIDVIEKQRMEFIKEVLGFEKYLFDDKIIDKSKFADTATHISFAEIVEELVEKGWDKDRLTKLKDARNKALHGEILTGTSFDETKSLINELKK*(SEQ ID NO:3)
MSPDFIKLEKQEAAFYFNQTELNLKAIESNILDKQQRMILLNNPRILAKVGNFIFNFRDVTKNAKGEIDCLLFKLEELRNFYSHYVHTDNVKELSNGEKPLLERYYQIAIQATRSEDVKFELFETRNENKITDAGVLFFLCMFLKKSQANKLISGISGFKRNDPTGQPRRNLFTYFSAREGYKALPDMQKHFLLFTLVNYLSNQDEYISELKQYGEIGQGAFFNRIASTFLNISGISGNTKFYSYQSKRIKEQRGELNSEKDSFEWIEPFQGNSYFEINGHKGVIGEDELKELCYALLVAKQDINAVEGKIMQFLKKFRNTGNLQQVKDDEMLEIEYFPASYFNESKKEDIKKEILGRLDKKIRSCSAKAEKAYDKMKEVMEFINNSLPAEEKLKRKDYRRYLKMVRFWSREKGNIEREFRTKEWSKYFSSDFWRKNNLEDVYKLATQKNAELFKNLKAAAEKMGETEFEKYQQINDVKDLASLRRLTQDFGLKWEEKDWEEYSEQIKKQITDRQKLTIMKQRVTAELKKKHGIENLNLRITIDSNKSRKAVLNRIAIPRGFVKKHILGWQGSEKISKNIREAECKILLSKKYEELSRQFFEAGNFDKLTQINGLYEKNKLTAFMSVYLMGRLNIQLNKHTELGNLKKTEVDFKISDKVTEKIPFSQYPSLVYAMSRKYVDNVDKYKFSHQDKKKPFLGKIDSIEKERIEFIKEVLDFEEYLFKNKVIDKSKFSDTATHISFKEICDEMGKKGCNRNKLTELNNARNAALHGEIPSETSFREAKPLINELKK*(SEQ ID NO:4)
MSPDFIKLEKQEAAFYFNQTELNLKAIESNIFDKQQRVILLNNPQILAKVGDFIFNFRDVTKNAKGEIDCLLLKLRELRNFYSHYVYTDDVKILSNGERPLLEKYYQFAIEATGSENVKLEIIESNNRLTEAGVLFFLCMFLKKSQANKLISGISGFKRNDPTGQPRRNLFTYFSVREGYKVVPDMQKHFLLFVLVNHLSGQDDYIEKAQKPYDIGEGLFFHRIASTFLNISGILRNMEFYIYQSKRLKEQQGELKREKDIFPWIEPFQGNSYFEINGNKGIIGEDELKELCYALLVAGKDVRAVEGKITQFLEKFKNADNAQQVEKDEMLDRNNFPANYFAESNIGSIKEKILNRLGKTDDSYNKTGTKIKPYDMMKEVMEFINNSLPADEKLKRKDYRRYLKMVRIWDSEKDNIKREFESKEWSKYFSSDFWMAKNLERVYGLAREKNAELFNKLKAVVEKMDEREFEKYRLINSAEDLASLRRLAKDFGLKWEEKDWQEYSGQIKKQISDRQKLTIMKQRITAELKKKHGIENLNLRITIDSNKSRKAVLNRIAVPRGFVKEHILGWQGSEKVSKKTREAKCKILLSKEYEELSKQFFQTRNYDKMTQVNGLYEKNKLLAFMVVYLMERLNILLNKPTELNELEKAEVDFKISDKVMAKIPFSQYPSLVYAMSSKYADSVGSYKFENDEKNKPFLGKIDTIEKQRMEFIKEVLGFEEYLFEKKIIDKSEFADTATHISFDEICNELIKKGWDKDKLTKLKDARNAALHGEIPAETSFREAKPLINGLKK*(SEQ ID NO:5)
MNIIKLKKEEAAFYFNQTILNLSGLDEIIEKQIPHIISNKENAKKVIDKIFNNRLLLKSVENYIYNFKDVAKNARTEIEAILLKLVELRNFYSHYVHNDTVKILSNGEKPILEKYYQIAIEATGSKNVKLVIIENNNCLTDSGVLFLLCMFLKKSQANKLISSVSGFKRNDKEGQPRRNLFTYYSVREGYKVVPDMQKHFLLFALVNHLSEQDDHIEKQQQSDELGKGLFFHRIASTFLNESGIFNKMQFYTYQSNRLKEKRGELKHEKDTFTWIEPFQGNSYFTLNGHKGVISEDQLKELCYTILIEKQNVDSLEGKIIQFLKKFQNVSSKQQVDEDELLKREYFPANYFGRAGTGTLKEKILNRLDKRMDPTSKVTDKAYDKMIEVMEFINMCLPSDEKLRQKDYRRYLKMVRFWNKEKHNIKREFDSKKWTRFLPTELWNKRNLEEAYQLARKENKKKLEDMRNQVRSLKENDLEKYQQINYVNDLENLRLLSQELGVKWQEKDWVEYSGQIKKQISDNQKLTIMKQRITAELKKMHGIENLNLRISIDTNKSRQTVMNRIALPKGFVKNHIQQNSSEKISKRIREDYCKIELSGKYEELSRQFFDKKNFDKMTLINGLCEKNKLIAFMVIYLLERLGFELKEKTKLGELKQTRMTYKISDKVKEDIPLSYYPKLVYAMNRKYVDNIDSYAFAAYESKKAILDKVDIIEKQRMEFIKQVLCFEEYIFENRIIEKSKFNDEETHISFTQIHDELIKKGRDTEKLSKLKHARNKALHGEIPDGTSFEKAKLLINEIKK*(SEQ ID NO:6)
MNAIELKKEEAAFYFNQARLNISGLDEIIEKQLPHIGSNRENAKKTVDMILDNPEVLKKMENYVFNSRDIAKNARGELEALLLKLVELRNFYSHYVHKDDVKTLSYGEKPLLDKYYEIAIEATGSKDVRLEIIDDKNKLTDAGVLFLLCMFLKKSEANKLISSIRGFKRNDKEGQPRRNLFTYYSVREGYKVVPDMQKHFLLFTLVNHLSNQDEYISNLRPNQEIGQGGFFHRIASKFLSDSGILHSMKFYTYRSKRLTEQRGELKPKKDHFTWIEPFQGNSYFSVQGQKGVIGEEQLKELCYVLLVAREDFRAVEGKVTQFLKKFQNANNVQQVEKDEVLEKEYFPANYFENRDVGRVKDKILNRLKKITESYKAKGREVKAYDKMKEVMEFINNCLPTDENLKLKDYRRYLKMVRFWGREKENIKREFDSKKWERFLPRELWQKRNLEDAYQLAKEKNTELFNKLKTTVERMNELEFEKYQQINDAKDLANLRQLARDFGVKWEEKDWQEYSGQIKKQITDRQKLTIMKQRITAALKKKQGIENLNLRITTDTNKSRKVVLNRIALPKGFVRKHILKTDIKISKQIRQSQCPIILSNNYMKLAKEFFEERNFDKMTQINGLFEKNVLIAFMIVYLMEQLNLRLGKNTELSNLKKTEVNFTITDKVTEKVQISQYPSLVFAINREYVDGISGYKLPPKKPKEPPYTFFEKIDAIEKERMEFIKQVLGFEEHLFEKNVIDKTRFTDTATHISFNEICDELIKKGWDENKIIKLKDARNAALHGKIPEDTSFDEAKVLINELKK*(SEQ ID NO:7)
在相应前crRNA序列中,编码同向重复(DR)序列的DNA分别为SEQ ID NO:8-14。
GCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:8)
GCTGAAGAAGCCTCCGATTTGAGAGGTGATTACAGC(SEQ ID NO:9)
GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:10)
GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:11)
GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:12)
GCTGTGATGGGCCTCAATTTGTGGGGAAGTAACAGC(SEQ ID NO:13)
GCTGTGATAGGCCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:14)
Cas13e.1、Cas13e.2、Cas13f.1、Cas13f.2、Cas13f.3、Cas13f.4、Cas13f.5蛋白质的天然(野生型)DNA编码序列,分别为SEQ ID NO:15-21。
ATGGCGCAAGTGTCAAAGCAGACTTCGAAAAAGAGAGAGTTGTCTATCGATGAATATCAAGGTGCTCGGAAATGGTGTTTTACGATTGCCTTCAACAAGGCTCTTGTGAATCGAGATAAGAACGACGGGCTTTTTGTCGAGTCGCTGTTACGCCATGAAAAGTATTCAAAGCACGACTGGTACGATGAGGATACACGCGCTTTGATCAAGTGTAGCACACAAGCGGCCAATGCGAAGGCCGAGGCGTTAAGAAACTATTTCTCCCACTATCGACATTCGCCCGGGTGTCTGACATTTACAGCAGAAGATGAGTTGCGGACAATCATGGAAAGGGCGTATGAGCGGGCGATCTTTGAATGCAGGAGACGCGAAACTGAAGTGATCATCGAGTTTCCCAGCCTGTTCGAAGGCGACCGGATCACTACGGCGGGGGTTGTGTTTTTCGTTTCGTTCTTTGTTGAACGGCGGGTGCTGGATCGTTTGTACGGTGCGGTAAGTGGGCTTAAGAAAAACGAAGGACAGTACAAGCTGACTCGGAAGGCGCTTTCGATGTATTGCCTGAAAGACAGTCGTTTCACGAAGGCGTGGGACAAACGCGTGCTGCTTTTCAGGGATATACTCGCGCAGCTTGGACGCATCCCTGCGGAGGCGTATGAATACTACCACGGAGAGCAGGGCGACAAGAAAAGAGCAAACGACAATGAGGGGACGAATCCGAAACGCCATAAAGACAAGTTCATCGAGTTTGCACTGCATTATCTGGAGGCGCAACACAGTGAGATATGCTTCGGGCGGCGACACATTGTCAGGGAGGAGGCCGGGGCAGGCGACGAACACAAAAAGCACAGGACCAAAGGCAAGGTAGTTGTCGACTTTTCAAAAAAAGACGAAGATCAGTCATACTATATCAGTAAGAACAATGTTATCGTCAGGATTGATAAGAATGCCGGGCCTCGGAGTTATCGCATGGGGCTTAACGAATTGAAATACCTTGTATTGCTTAGCCTTCAGGGAAAGGGCGACGATGCGATTGCAAAACTGTACAGGTATCGGCAGCATGTGGAGAACATTCTGGATGTAGTGAAGGTCACAGATAAGGATAATCACGTCTTCCTGCCGCGATTTGTGCTGGAGCAACATGGGATTGGCAGGAAAGCTTTTAAGCAAAGAATAGACGGCAGAGTAAAGCATGTTCGAGGGGTGTGGGAAAAGAAGAAGGCGGCGACCAACGAGATGACACTTCACGAGAAGGCGCGGGACATTCTTCAATACGTAAATGAAAATTGCACGAGGTCTTTCAATCCCGGCGAGTACAACCGGCTGCTGGTGTGTCTGGTTGGCAAGGATGTTGAGAATTTTCAGGCGGGACTGAAACGCCTGCAACTGGCCGAGCGAATCGACGGGCGGGTATATTCAATTTTTGCGCAGACCTCCACAATAAACGAGATGCATCAGGTGGTGTGTGATCAGATTCTCAACAGACTTTGCCGAATCGGCGATCAGAAGCTCTACGATTATGTGGGGCTTGGGAAGAAGGATGAAATAGATTACAAGCAGAAGGTTGCATGGTTCAAGGAGCATATTTCTATCCGCAGGGGTTTCTTGCGCAAGAAGTTCTGGTATGACAGCAAGAAGGGATTCGCGAAGCTTGTGGAAGAGCATTTGGAAAGCGGCGGCGGACAGAGGGACGTTGGGCTGGATAAAAAGTATTATCATATTGATGCGATTGGGCGATTCGAGGGTGCTAATCCAGCCTTGTATGAAACGCTGGCGCGAGACCGTTTGTGTCTGATGATGGCGCAATACTTCCTGGGGAGTGTACGCAAGGAATTGGGTAATAAAATTGTGTGGTCGAATGATAGCATCGAGTTGCCCGTGGAGGGCTCAGTGGGTAACGAAAAAAGCATCGTCTTCTCAGTGAGTGATTACGGCAAGTTATATGTGTTGGATGACGCTGAGTTTCTTGGGCGGATATGTGAGTACTTTATGCCGCACGAAAAAGGGAAGATACGGTATCATACAGTTTACGAAAAAGGGTTTAGGGCATATAATGATCTGCAGAAGAAATGTGTCGAGGCGGTGCTGGCGTTTGAAGAGAAGGTTGTCAAAGCCAAAAAGATGAGCGAGAAGGAAGGGGCGCATTATATTGATTTTCGTGAGATACTGGCACAAACAATGTGTAAAGAGGCGGAGAAGACCGCCGTGAATAAGGTGCGTAGAGCGTTTTTCCATCATCATTTAAAGTTTGTGATAGATGAATTTGGGTTGTTTAGTGATGTTATGAAGAAATATGGAATTGAAAAGGAGTGGAAGTTTCCTGTTAAATGA(SEQ ID NO:15)
ATGAAGGTTGAAAATATTAAAGAAAAAAGCAAAAAAGCAATGTATTTAATCAACCATTATGAGGGACCCAAAAAATGGTGTTTTGCAATAGTTCTGAATAGGGCATGTGATAATTACGAGGACAATCCACACTTGTTTTCCAAATCACTTTTGGAATTTGAAAAAACAAGTCGAAAAGATTGGTTTGACGAAGAAACACGAGAGCTTGTTGAGCAAGCAGATACAGAAATACAGCCAAATCCTAACCTGAAACCTAATACAACAGCTAACCGAAAACTCAAAGATATAAGAAACTATTTTTCGCATCATTATCACAAGAACGAATGCCTGTATTTTAAGAACGATGATCCCATACGCTGCATTATGGAAGCGGCGTATGAAAAATCTAAAATTTATATCAAAGGAAAGCAGATTGAGCAAAGCGATATACCATTGCCCGAATTGTTTGAAAGCAGCGGTTGGATTACACCGGCGGGGATTTTGTTACTGGCATCCTTTTTTGTTGAACGAGGGATTCTACATCGCTTGATGGGAAATATCGGAGGATTTAAAGATAATCGAGGCGAATACGGTCTTACACACGATATTTTTACCACCTATTGTCTTAAGGGTAGTTATTCAATTCGGGCGCAGGATCATGATGCGGTAATGTTCAGAGATATTCTCGGCTATCTGTCACGAGTTCCCACTGAGTCATTTCAGCGTATCAAGCAACCTCAAATACGAAAAGAAGGCCAATTAAGTGAAAGAAAGACGGACAAATTTATAACATTTGCACTAAATTATCTTGAGGATTATGGGCTGAAAGATTTGGAAGGCTGCAAAGCCTGTTTTGCCAGAAGTAAAATTGTAAGGGAACAAGAAAATGTTGAAAGCATAAATGATAAGGAATACAAACCTCACGAGAACAAAAAGAAAGTTGAAATTCACTTCGATCAGAGCAAAGAAGACCGATTTTATATTAATCGCAATAACGTTATTTTGAAGATTCAGAAGAAAGATGGACATTCCAACATAGTTAGGATGGGAGTATATGAACTTAAATATCTCGTTCTTATGAGTTTAGTGGGAAAAGCAAAAGAAGCAGTTGAAAAAATTGACAACTATATCCAGGATTTGCGAGACCAGTTGCCTTACATAGAGGGGAAAAATAAGGAAGAGATTAAAGAATACGTCAGGTTCTTTCCACGATTTATACGTTCTCACCTCGGTTTACTACAGATTAACGATGAAGAAAAGATAAAAGCTCGATTAGATTATGTTAAGACCAAGTGGTTAGATAAAAAGGAAAAATCGAAAGAGCTTGAACTTCATAAAAAAGGACGGGACATCCTCAGGTATATCAACGAGCGATGTGATAGAGAGCTTAACAGGAATGTATATAACCGTATTTTAGAGCTCCTGGTCAGCAAAGACCTCACTGGTTTTTATCGTGAGCTTGAAGAACTAAAAAGAACAAGGCGGATAGATAAAAATATTGTCCAGAATCTTTCTGGGCAAAAAACCATTAATGCACTGCATGAAAAGGTCTGTGATCTGGTGCTGAAGGAAATCGAAAGTCTCGATACAGAAAATCTCAGGAAATATCTTGGATTGATACCCAAAGAAGAAAAAGAGGTCACTTTCAAAGAAAAGGTCGATAGGATTTTGAAACAGCCAGTTATTTACAAAGGGTTTCTGAGATACCAATTCTTCAAAGATGACAAAAAGAGTTTTGTCTTACTTGTTGAAGACGCATTGAAGGAAAAAGGAGGAGGTTGTGATGTTCCTCTTGGGAAAGAGTATTATAAAATCGTGTCACTTGATAAGTATGATAAAGAAAATAAAACCCTGTGTGAAACTCTGGCGATGGATAGGCTTTGCCTTATGATGGCAAGACAATATTATCTCAGTCTGAATGCAAAACTTGCACAGGAAGCTCAGCAAATCGAATGGAAGAAAGAAGATAGTATAGAATTGATTATTTTCACCTTAAAAAATCCCGATCAATCAAAGCAGAGTTTTTCTATACGGTTTTCGGTCAGAGATTTTACGAAGTTGTATGTAACGGATGATCCTGAATTTCTGGCCCGGCTTTGTTCCTACTTTTTCCCAGTTGAAAAAGAGATTGAATATCACAAGCTCTATTCAGAAGGGATAAATAAATACACAAACCTGCAAAAAGAGGGAATCGAAGCAATACTCGAGCTTGAAAAAAAGCTTATTGAACGAAATCGGATTCAATCTGCAAAAAATTATCTCTCATTTAATGAGATAATGAATAAAAGCGGTTATAATAAAGATGAGCAGGATGATCTAAAGAAGGTGCGAAATTCTCTTTTGCATTATAAGCTTATCTTTGAGAAAGAACATCTCAAGAAGTTCTATGAGGTTATGAGAGGAGAAGGGATAGAGAAAAAGTGGTCTTTAATAGTATGA(SEQ IDNO:16)
ATGAATGGCATTGAATTAAAAAAAGAAGAAGCAGCATTTTATTTTAATCAGGCAGAGCTTAATTTAAAAGCCATAGAAGACAATATTTTTGATAAAGAAAGACGAAAGACTCTGCTTAATAATCCACAGATACTTGCCAAAATGGAAAATTTCATTTTCAATTTCAGAGATGTAACAAAAAATGCAAAAGGGGAAATTGACTGCTTGCTGTTGAAACTAAGAGAGCTGAGAAACTTTTACTCGCATTATGTCCACAAACGAGATGTAAGAGAATTAAGCAAGGGCGAGAAACCTATACTTGAAAAGTATTACCAATTTGCGATTGAATCAACCGGAAGTGAAAATGTTAAACTTGAGATAATAGAAAACGACGCGTGGCTTGCAGATGCCGGTGTGTTGTTTTTCTTATGTATTTTTTTGAAGAAATCTCAGGCAAATAAGCTTATAAGCGGTATCAGCGGTTTTAAAAGAAACGATGATACCGGTCAGCCGAGAAGGAATTTATTTACCTATTTCAGTATAAGGGAGGGATACAAGGTTGTTCCGGAAATGCAGAAACATTTCCTTTTGTTTTCTCTTGTTAATCATCTCTCTAATCAAGATGATTATATTGAAAAAGCGCATCAGCCATACGATATAGGCGAGGGTTTATTTTTTCATCGAATAGCTTCTACATTTCTTAATATAAGTGGGATTTTAAGAAATATGAAATTCTATACCTATCAGAGTAAAAGGTTAGTAGAGCAGCGGGGAGAACTCAAACGAGAAAAGGATATTTTTGCGTGGGAAGAACCGTTTCAAGGAAATAGTTATTTTGAAATAAATGGTCATAAAGGAGTAATCGGTGAAGATGAATTGAAGGAACTATGTTATGCATTTCTGATTGGCAATCAAGATGCTAATAAAGTGGAAGGCAGGATTACACAATTTCTAGAAAAGTTTAGAAATGCGAACAGTGTGCAACAAGTTAAAGATGATGAAATGCTAAAACCAGAGTATTTTCCTGCAAATTATTTTGCTGAATCAGGCGTCGGAAGAATAAAGGATAGAGTGCTTAATCGTTTGAATAAAGCGATTAAAAGCAATAAGGCCAAGAAAGGAGAGATTATAGCATACGATAAGATGAGAGAGGTTATGGCGTTCATAAATAATTCTCTGCCGGTAGATGAAAAATTGAAACCAAAAGATTACAAACGATATCTGGGAATGGTTCGTTTCTGGGACAGGGAAAAAGATAACATAAAGCGGGAGTTCGAGACAAAAGAATGGTCTAAATATCTTCCATCTAATTTCTGGACGGCAAAAAACCTTGAAAGGGTCTATGGTCTGGCAAGAGAGAAAAACGCAGAATTATTCAATAAACTAAAAGCGGATGTAGAAAAAATGGACGAACGGGAACTTGAGAAGTATCAGAAGATAAATGATGCAAAGGATTTGGCAAATTTACGCCGGCTTGCAAGCGACTTTGGTGTGAAGTGGGAAGAAAAAGACTGGGATGAGTATTCAGGACAGATAAAAAAACAAATTACAGACAGCCAGAAACTAACAATAATGAAGCAGCGGATAACCGCAGGACTAAAGAAAAAGCACGGCATAGAAAATCTTAACCTGAGAATAACTATCGACATCAATAAAAGCAGAAAGGCAGTTTTGAACAGAATTGCGATTCCGAGGGGTTTTGTAAAAAGGCATATTTTAGGATGGCAAGAGTCTGAGAAGGTATCGAAAAAGATAAGAGAGGCAGAATGCGAAATTCTGCTGTCGAAAGAATACGAAGAACTATCGAAACAATTTTTCCAAAGCAAAGATTATGACAAAATGACACGGATAAATGGCCTTTATGAAAAAAACAAACTTATAGCCCTGATGGCAGTTTATCTAATGGGGCAATTGAGAATCCTGTTTAAAGAACACACAAAACTTGACGATATTACGAAAACAACTGTGGATTTCAAAATATCTGATAAGGTGACGGTAAAAATCCCCTTTTCAAATTATCCTTCGCTCGTTTATACAATGTCCAGTAAGTATGTTGATAATATAGGGAATTATGGATTTTCCAACAAAGATAAAGACAAGCCGATTTTAGGTAAGATTGATGTAATAGAAAAACAGCGAATGGAATTTATAAAAGAGGTTCTTGGTTTTGAAAAATATCTTTTTGATGATAAAATAATAGATAAAAGCAAATTTGCTGATACAGCGACTCATATAAGTTTTGCAGAAATAGTTGAGGAGCTTGTTGAAAAAGGATGGGACAAAGACAGACTGACAAAACTTAAAGATGCAAGAAATAAAGCCCTGCATGGTGAAATACTGACGGGAACCAGCTTTGATGAAACAAAATCATTGATAAACGAATTAAAAAAATGA(SEQ ID NO:17)
ATGTCCCCAGATTTCATCAAATTAGAAAAACAGGAAGCAGCTTTTTACTTTAATCAGACAGAGCTTAATTTAAAAGCCATAGAAAGCAATATTTTAGACAAACAACAGCGAATGATTCTGCTTAATAATCCACGGATACTTGCCAAAGTAGGAAATTTCATTTTCAATTTCAGAGATGTAACAAAAAATGCAAAAGGAGAAATAGACTGTCTGCTATTTAAACTGGAAGAGCTAAGAAACTTTTACTCGCATTATGTTCATACCGACAATGTAAAGGAATTGAGTAACGGAGAAAAACCCCTACTGGAAAGATATTATCAAATCGCTATTCAGGCAACCAGGAGTGAGGATGTTAAGTTCGAATTGTTTGAAACAAGAAACGAGAATAAGATTACGGATGCCGGTGTATTGTTTTTCTTATGTATGTTTTTAAAAAAATCACAGGCAAACAAGCTTATAAGCGGTATCAGCGGCTTCAAAAGAAATGATCCAACAGGCCAGCCGAGAAGAAACTTATTTACCTATTTCAGTGCAAGAGAAGGATATAAGGCTTTGCCTGATATGCAGAAACATTTTCTTCTTTTTACTCTGGTTAATTATTTGTCGAATCAGGATGAGTATATCAGCGAGCTTAAACAATATGGAGAGATTGGTCAAGGAGCCTTTTTTAATCGAATAGCTTCAACATTTTTGAATATCAGCGGGATTTCAGGAAATACGAAATTCTATTCGTATCAAAGTAAAAGGATAAAAGAGCAGCGAGGCGAACTCAATAGCGAAAAGGACAGCTTTGAATGGATAGAGCCTTTCCAAGGAAACAGCTATTTTGAAATAAATGGGCATAAAGGAGTAATCGGCGAAGACGAATTAAAAGAACTTTGTTATGCATTGTTGGTTGCCAAGCAAGATATTAATGCCGTTGAAGGCAAAATTATGCAATTCCTGAAAAAGTTTAGAAATACTGGCAATTTGCAGCAAGTTAAAGATGATGAAATGCTGGAAATAGAATATTTTCCCGCAAGTTATTTTAATGAATCAAAAAAAGAGGACATAAAGAAAGAGATTCTTGGCCGGCTGGATAAAAAGATTCGCTCCTGCTCTGCAAAGGCAGAAAAAGCCTATGATAAGATGAAAGAGGTGATGGAGTTTATAAATAATTCTCTGCCGGCAGAGGAAAAATTGAAACGCAAAGATTATAGAAGATATCTAAAGATGGTTCGTTTCTGGAGCAGAGAAAAAGGCAATATAGAGCGGGAATTTAGAACAAAGGAATGGTCAAAATATTTTTCATCTGATTTTTGGCGGAAGAACAATCTTGAAGATGTGTACAAACTGGCAACACAAAAAAACGCTGAACTGTTCAAAAATCTAAAAGCGGCAGCAGAGAAAATGGGTGAAACGGAATTTGAAAAGTATCAGCAGATAAACGATGTAAAGGATTTGGCAAGTTTAAGGCGGCTTACGCAAGATTTTGGTTTGAAGTGGGAAGAAAAGGACTGGGAGGAGTATTCCGAGCAGATAAAAAAACAAATTACGGACAGGCAGAAACTGACAATAATGAAACAAAGGGTTACGGCTGAACTAAAGAAAAAGCACGGCATAGAAAATCTTAATCTGAGAATAACCATCGACAGCAATAAAAGCAGAAAGGCGGTTTTGAACAGAATAGCAATTCCAAGAGGATTTGTAAAAAAACATATTTTAGGCTGGCAGGGATCTGAGAAGATATCGAAAAATATAAGGGAAGCAGAATGCAAAATTCTGCTATCGAAAAAATATGAAGAGTTATCAAGGCAGTTTTTTGAAGCCGGTAATTTCGATAAGCTGACGCAGATAAATGGTCTTTATGAAAAGAATAAACTTACAGCTTTTATGTCAGTATATTTGATGGGTCGGTTGAATATTCAGCTTAATAAGCACACAGAACTTGGAAATCTTAAAAAAACAGAGGTGGATTTTAAGATATCTGATAAGGTGACTGAAAAAATACCGTTTTCTCAGTATCCTTCGCTTGTCTATGCGATGTCTCGCAAATATGTTGACAATGTGGATAAATATAAATTTTCTCATCAAGATAAAAAGAAGCCATTTTTAGGTAAAATTGATTCAATTGAAAAAGAACGTATTGAATTCATAAAAGAGGTTCTCGATTTTGAAGAGTATCTTTTTAAAAATAAGGTAATAGATAAAAGCAAATTTTCCGATACAGCGACTCATATTAGCTTTAAGGAAATATGTGATGAAATGGGTAAAAAAGGATGTAACCGAAACAAACTAACCGAACTTAACAACGCAAGGAACGCAGCCCTGCATGGTGAAATACCGTCGGAGACCTCTTTTCGTGAAGCAAAACCGTTGATAAATGAATTGAAAAAATGA(SEQ ID NO:18)
ATGTCCCCAGATTTCATCAAATTAGAAAAACAAGAAGCAGCTTTTTACTTTAATCAGACAGAGCTTAATTTAAAAGCCATAGAAAGCAATATTTTCGACAAACAACAGCGAGTGATTCTGCTTAATAATCCACAGATACTTGCCAAAGTAGGAGATTTTATTTTCAATTTCAGAGATGTAACAAAAAACGCAAAAGGAGAAATAGACTGTTTGCTATTGAAACTAAGAGAGCTGAGAAACTTTTACTCACACTATGTCTATACCGATGACGTGAAGATATTGAGTAACGGCGAAAGACCTCTGCTGGAAAAATATTATCAATTTGCGATTGAAGCAACCGGAAGTGAAAATGTTAAACTTGAAATAATAGAAAGCAACAACCGACTTACGGAAGCGGGCGTGCTGTTTTTCTTGTGTATGTTTTTGAAAAAGTCTCAGGCAAATAAGCTTATAAGCGGTATCAGCGGTTTTAAAAGAAATGACCCGACAGGTCAGCCGAGAAGGAATTTATTTACCTACTTCAGTGTAAGGGAGGGATACAAGGTTGTGCCGGATATGCAGAAACATTTTCTTTTGTTTGTTCTTGTCAATCATCTCTCTGGTCAGGATGATTATATTGAAAAGGCGCAAAAGCCATACGATATAGGCGAGGGTTTATTTTTTCATCGAATAGCTTCTACATTTCTTAATATCAGTGGGATTTTAAGAAATATGGAATTCTATATTTACCAGAGCAAAAGACTAAAGGAGCAGCAAGGAGAGCTCAAACGTGAAAAGGATATTTTTCCATGGATAGAGCCTTTCCAGGGAAATAGTTATTTTGAAATAAATGGTAATAAAGGAATAATCGGCGAAGATGAATTGAAAGAGCTTTGTTATGCGTTGCTGGTTGCAGGAAAAGATGTCAGAGCCGTCGAAGGTAAAATAACACAATTTTTGGAAAAGTTTAAAAATGCGGACAATGCTCAGCAAGTTGAAAAAGATGAAATGCTGGACAGAAACAATTTTCCCGCCAATTATTTCGCCGAATCGAACATCGGCAGCATAAAGGAAAAAATACTTAATCGTTTGGGAAAAACTGATGATAGTTATAATAAGACGGGGACAAAGATTAAACCATACGACATGATGAAAGAGGTAATGGAGTTTATAAATAATTCTCTTCCGGCAGATGAAAAATTGAAACGCAAAGATTACAGAAGATATCTAAAGATGGTTCGTATCTGGGACAGTGAGAAAGATAATATAAAGCGGGAGTTTGAAAGCAAAGAATGGTCAAAATATTTTTCATCTGATTTCTGGATGGCAAAAAATCTTGAAAGGGTCTATGGGTTGGCAAGAGAGAAAAACGCCGAATTATTCAATAAGCTAAAAGCGGTTGTGGAGAAAATGGACGAGCGGGAATTTGAGAAGTATCGGCTGATAAATAGCGCAGAGGATTTGGCAAGTTTAAGACGGCTTGCGAAAGATTTTGGCCTGAAGTGGGAAGAAAAGGACTGGCAAGAGTATTCTGGGCAGATAAAAAAACAAATTTCTGACAGGCAGAAACTGACAATAATGAAACAAAGGATTACGGCTGAACTAAAGAAAAAGCACGGCATAGAAAATCTCAATCTTAGAATAACCATCGACAGCAATAAAAGCAGAAAGGCAGTTTTGAACAGAATCGCAGTTCCAAGAGGTTTTGTGAAAGAGCATATTTTAGGATGGCAGGGGTCTGAGAAGGTATCGAAAAAGACAAGAGAAGCAAAGTGCAAAATTCTGCTCTCGAAAGAATATGAAGAATTATCAAAGCAATTTTTCCAAACCAGAAATTACGACAAGATGACGCAGGTAAACGGTCTTTACGAAAAGAATAAACTCTTAGCATTTATGGTCGTTTATCTTATGGAGCGGTTGAATATCCTGCTTAATAAGCCCACAGAACTTAATGAACTTGAAAAAGCAGAGGTGGATTTCAAGATATCTGATAAGGTGATGGCCAAAATCCCGTTTTCACAGTATCCTTCGCTTGTGTACGCGATGTCCAGCAAATATGCTGATAGTGTAGGCAGTTATAAATTTGAGAATGATGAAAAAAACAAGCCGTTTTTAGGCAAGATCGATACAATAGAAAAACAACGAATGGAGTTTATAAAAGAAGTCCTTGGTTTTGAAGAGTATCTTTTTGAAAAGAAGATAATAGATAAAAGCGAATTTGCCGACACAGCGACTCATATAAGTTTTGATGAAATATGTAATGAGCTTATTAAAAAAGGATGGGATAAAGACAAACTAACCAAACTTAAAGATGCCAGGAACGCGGCCCTGCATGGCGAAATACCGGCGGAGACCTCTTTTCGTGAAGCAAAACCGTTGATAAATGGATTGAAAAAATGA(SEQ ID NO:19)
ATGAACATCATTAAATTAAAAAAAGAAGAAGCTGCGTTTTATTTTAATCAGACGATCCTCAATCTTTCAGGGCTTGATGAAATTATTGAAAAACAAATTCCGCACATAATCAGCAACAAGGAAAATGCAAAGAAAGTGATTGATAAGATTTTCAATAACCGCTTATTATTAAAAAGTGTGGAGAATTATATCTACAACTTTAAAGATGTGGCTAAAAACGCAAGAACTGAAATTGAGGCTATATTGTTGAAATTAGTAGAGCTACGTAATTTTTACTCACATTACGTTCATAATGATACCGTCAAGATACTAAGTAACGGTGAAAAACCTATACTGGAAAAATATTATCAAATTGCTATAGAAGCAACCGGAAGTAAAAATGTTAAACTTGTAATCATAGAAAACAACAACTGTCTCACGGATTCTGGCGTGCTGTTTTTGCTGTGTATGTTCTTAAAAAAATCACAGGCAAACAAGCTTATAAGTTCCGTTAGTGGTTTTAAAAGGAATGATAAAGAAGGACAACCGAGAAGAAATCTATTCACTTATTATAGTGTGAGGGAGGGATATAAGGTTGTGCCTGATATGCAGAAGCATTTCCTTCTATTCGCTCTGGTCAATCATCTATCTGAGCAGGATGATCATATTGAGAAGCAGCAGCAGTCAGACGAGCTCGGTAAGGGTTTGTTTTTCCATCGTATAGCTTCGACTTTTTTAAACGAGAGCGGCATCTTCAATAAAATGCAATTTTATACATATCAGAGCAACAGGCTAAAAGAGAAAAGAGGAGAACTCAAACACGAAAAGGATACCTTTACATGGATAGAGCCTTTTCAAGGCAATAGTTATTTTACGTTAAATGGACATAAGGGAGTGATTAGTGAAGATCAATTGAAGGAGCTTTGTTACACAATTTTAATTGAGAAGCAAAACGTTGATTCCTTGGAAGGTAAAATTATACAATTTCTCAAAAAATTTCAGAATGTCAGCAGCAAGCAGCAAGTTGACGAAGATGAATTGCTTAAAAGAGAATATTTCCCTGCAAATTACTTTGGCCGGGCAGGAACAGGGACCCTAAAAGAAAAGATTCTAAACCGGCTTGATAAGAGGATGGATCCTACATCTAAAGTGACGGATAAAGCTTATGACAAAATGATTGAAGTGATGGAATTTATCAATATGTGCCTTCCGTCTGATGAGAAGTTGAGGCAAAAGGATTATAGACGATACTTAAAGATGGTTCGTTTCTGGAATAAGGAAAAGCATAACATTAAGCGCGAGTTTGACAGTAAAAAATGGACGAGGTTTTTGCCGACGGAATTGTGGAATAAAAGAAATCTAGAAGAAGCCTATCAATTAGCACGGAAAGAGAACAAAAAGAAACTTGAAGATATGAGAAATCAAGTACGAAGCCTTAAAGAAAATGACCTTGAAAAATATCAGCAGATTAATTACGTTAATGACCTGGAGAATTTAAGGCTTCTGTCACAGGAGTTAGGTGTGAAATGGCAGGAAAAGGACTGGGTTGAATATTCCGGGCAGATAAAGAAGCAGATATCAGACAATCAGAAACTTACAATCATGAAACAAAGGATTACCGCTGAACTAAAGAAAATGCACGGCATCGAGAATCTTAATCTTAGAATAAGCATTGACACGAATAAAAGCAGGCAGACGGTTATGAACAGGATAGCTTTGCCCAAAGGTTTTGTGAAGAATCATATCCAGCAAAATTCGTCTGAGAAAATATCGAAAAGAATAAGAGAGGATTATTGTAAAATTGAGCTATCGGGAAAATATGAAGAACTTTCAAGGCAATTTTTTGATAAAAAGAATTTCGATAAGATGACACTGATAAACGGCCTTTGTGAAAAGAACAAACTTATCGCATTTATGGTTATCTATCTTTTGGAGCGGCTTGGATTTGAATTAAAGGAGAAAACAAAATTAGGCGAGCTTAAACAAACAAGGATGACATATAAAATATCCGATAAGGTAAAAGAAGATATCCCGCTTTCCTATTACCCCAAGCTTGTGTATGCAATGAACCGAAAATATGTTGACAATATCGATAGTTATGCATTTGCGGCTTACGAATCCAAAAAAGCTATTTTGGATAAAGTGGATATCATAGAAAAGCAACGTATGGAATTTATCAAACAAGTTCTCTGTTTTGAGGAATATATTTTCGAAAATAGGATTATCGAAAAAAGCAAATTTAATGACGAGGAGACTCATATAAGTTTTACACAAATACATGATGAGCTTATTAAAAAAGGACGGGACACAGAAAAACTCTCTAAACTCAAACATGCAAGGAATAAAGCCTTGCACGGCGAGATTCCTGATGGGACTTCTTTTGAAAAAGCAAAGCTATTGATAAATGAAATCAAAAAATGA(SEQ ID NO:20)
ATGAATGCTATCGAACTAAAAAAAGAGGAAGCAGCATTTTATTTTAATCAGGCAAGACTCAACATTTCAGGACTTGATGAAATTATTGAAAAGCAGTTACCACATATAGGTAGTAACAGGGAGAATGCGAAAAAAACTGTTGATATGATTTTGGATAATCCCGAAGTCTTGAAGAAGATGGAAAATTATGTCTTTAACTCACGAGATATAGCAAAGAACGCAAGAGGTGAACTTGAAGCATTGTTGTTGAAATTAGTAGAACTGCGTAATTTTTATTCACATTATGTTCATAAAGATGATGTTAAGACATTGAGTTACGGAGAAAAACCTTTACTGGATAAATATTATGAAATTGCGATTGAAGCGACCGGAAGTAAAGATGTCAGACTTGAGATAATAGATGATAAAAATAAGCTTACAGATGCCGGTGTGCTTTTTTTATTGTGTATGTTTTTGAAAAAATCAGAGGCAAACAAACTTATCAGTTCAATCAGGGGCTTTAAAAGAAACGATAAAGAAGGCCAGCCGAGAAGAAATCTATTCACTTACTACAGTGTCAGAGAGGGATATAAGGTTGTGCCTGATATGCAGAAACATTTTCTTTTATTCACACTGGTTAACCATTTGTCAAATCAGGATGAATACATCAGTAATCTTAGGCCGAATCAAGAAATCGGCCAAGGGGGATTTTTCCATAGAATAGCATCAAAATTTTTGAGCGATAGCGGGATTTTACATAGTATGAAATTCTACACCTACCGGAGTAAAAGACTAACAGAACAACGGGGGGAGCTTAAGCCGAAAAAAGATCATTTTACATGGATAGAGCCTTTTCAGGGAAACAGTTATTTTTCAGTGCAGGGCCAAAAAGGAGTAATTGGTGAAGAGCAATTAAAGGAGCTTTGTTATGTATTGCTGGTTGCCAGAGAAGATTTTAGGGCCGTTGAGGGCAAAGTTACACAATTTCTGAAAAAGTTTCAGAATGCTAATAACGTACAGCAAGTTGAAAAAGATGAAGTGCTGGAAAAAGAATATTTTCCTGCAAATTATTTTGAAAATCGAGACGTAGGCAGAGTAAAGGATAAGATACTTAATCGTTTGAAAAAAATCACTGAAAGCTATAAAGCTAAAGGGAGGGAGGTTAAAGCCTATGACAAGATGAAAGAGGTAATGGAGTTTATAAATAATTGCCTGCCAACAGATGAAAATTTGAAACTCAAAGATTACAGAAGATATCTGAAAATGGTTCGTTTCTGGGGCAGGGAAAAGGAAAATATAAAGCGGGAATTTGACAGTAAAAAATGGGAGAGGTTTTTGCCAAGAGAACTCTGGCAGAAAAGAAACCTCGAAGATGCGTATCAACTGGCAAAAGAGAAAAACACCGAGTTATTCAATAAATTGAAAACAACTGTTGAGAGAATGAACGAACTGGAATTCGAAAAGTATCAGCAGATAAACGACGCAAAAGATTTGGCAAATTTAAGGCAACTGGCGCGGGACTTCGGCGTGAAGTGGGAAGAAAAGGACTGGCAAGAGTATTCGGGGCAGATAAAAAAACAAATTACAGACAGGCAAAAACTTACAATAATGAAACAAAGGATTACTGCTGCATTGAAGAAAAAGCAAGGCATAGAAAATCTTAATCTTAGGATAACAACCGACACCAATAAAAGCAGAAAGGTGGTATTGAACAGAATAGCGCTACCTAAAGGTTTTGTAAGGAAGCATATCTTAAAAACAGATATAAAGATATCAAAGCAAATAAGGCAATCACAATGTCCTATTATACTGTCAAACAATTATATGAAGCTGGCAAAGGAATTCTTTGAGGAGAGAAATTTTGATAAGATGACGCAGATAAACGGGCTATTTGAGAAAAATGTACTTATAGCGTTTATGATAGTTTATCTGATGGAACAACTGAATCTTCGACTTGGTAAGAATACGGAACTTAGCAATCTTAAAAAAACGGAGGTTAATTTTACGATAACCGACAAGGTAACGGAAAAAGTCCAGATTTCGCAGTATCCATCGCTTGTTTTCGCCATAAACAGAGAATATGTTGATGGAATCAGCGGTTATAAGTTACCGCCCAAAAAACCGAAAGAGCCTCCGTATACTTTCTTCGAGAAAATAGACGCAATAGAAAAAGAACGAATGGAATTCATAAAACAGGTCCTCGGTTTCGAAGAACATCTTTTTGAGAAGAATGTAATAGACAAAACTCGCTTTACTGATACTGCGACTCATATAAGTTTTAATGAAATATGTGATGAGCTTATAAAAAAAGGATGGGACGAAAACAAAATAATAAAACTTAAAGATGCGAGGAATGCAGCATTGCATGGTAAGATACCGGAGGATACGTCTTTTGATGAAGCGAAAGTACTGATAAATGAATTAAAAAAATGA(SEQ ID NO:21)
我们对七个Cas13e和Cas13f蛋白(即Cas13e.1、Cas13e.2、Cas13f.1、Cas13f.2、Cas13f.3、Cas13f.4、Cas13f.5)的进行人类密码子优化,用于进一步的功能实验。这些密码子优化的编码序列分别是SEQ ID NO:22-28。
ATGGCCCAGGTGAGCAAGCAGACCTCCAAGAAGAGGGAGCTGAGCATCGACGAGTACCAGGGCGCCCGGAAGTGGTGCTTCACCATTGCCTTCAACAAGGCCCTGGTGAACCGGGACAAGAACGACGGCCTGTTCGTGGAAAGCCTGCTGAGACACGAGAAGTACAGCAAGCACGACTGGTACGACGAAGATACCCGGGCCCTGATCAAGTGCAGCACCCAGGCCGCCAACGCCAAGGCTGAAGCCCTGCGGAACTACTTCAGTCACTACCGGCATAGCCCTGGCTGCCTGACCTTCACCGCCGAGGACGAACTGCGGACCATCATGGAGAGAGCCTATGAGCGGGCCATCTTCGAGTGCAGAAGAAGAGAGACAGAGGTGATCATCGAGTTTCCCAGCCTGTTCGAGGGCGACCGGATCACCACCGCCGGCGTGGTGTTTTTCGTGAGCTTTTTCGTGGAAAGAAGAGTGCTGGATCGGCTGTATGGAGCCGTGTCCGGCCTGAAGAAGAATGAGGGACAGTACAAGCTGACCCGGAAGGCCCTGAGCATGTACTGCCTGAAGGACAGCAGATTCACCAAGGCCTGGGATAAGCGGGTGCTGCTGTTCAGAGACATCCTGGCCCAGCTGGGAAGAATCCCCGCCGAGGCCTACGAGTACTACCACGGCGAGCAGGGTGATAAGAAGAGAGCTAACGACAATGAGGGCACAAATCCCAAGCGGCACAAGGACAAGTTCATCGAATTTGCACTGCACTACCTGGAAGCCCAGCACAGCGAGATCTGCTTCGGCAGACGCCACATCGTGCGGGAAGAGGCCGGCGCCGGCGATGAGCACAAGAAGCACCGGACCAAGGGAAAGGTGGTGGTGGACTTCAGCAAGAAGGACGAGGACCAGAGCTACTATATCTCCAAGAACAACGTGATCGTGCGGATCGACAAGAACGCCGGCCCTAGAAGCTACCGGATGGGCCTGAACGAGCTGAAGTACCTCGTGCTGCTGAGCCTGCAGGGGAAGGGCGACGATGCCATCGCCAAGCTGTACAGATACAGACAGCACGTGGAGAACATCCTGGATGTGGTGAAGGTGACCGATAAGGATAACCACGTGTTCCTGCCCCGCTTCGTGCTGGAGCAGCACGGCATCGGCAGAAAGGCCTTCAAGCAGCGGATCGATGGACGGGTGAAGCACGTGCGGGGCGTGTGGGAGAAGAAGAAGGCCGCCACCAATGAAATGACCCTGCACGAGAAGGCCAGAGACATCCTGCAGTACGTGAACGAAAACTGCACCCGGTCCTTCAACCCTGGCGAATACAACAGACTGCTGGTGTGCCTGGTGGGCAAGGACGTGGAGAACTTTCAGGCCGGCCTGAAGCGGCTGCAGCTGGCCGAAAGGATCGATGGCCGGGTGTACTCCATCTTCGCCCAGACCAGCACCATCAATGAGATGCACCAGGTGGTGTGCGACCAGATCCTGAACCGGCTGTGCAGAATCGGCGACCAGAAGCTGTACGATTACGTGGGACTGGGCAAGAAGGACGAAATCGACTACAAGCAGAAGGTGGCCTGGTTCAAGGAGCACATCAGCATCCGGAGAGGATTCCTGAGAAAGAAGTTCTGGTACGATAGCAAGAAGGGATTCGCAAAGCTGGTGGAGGAACACCTGGAGTCCGGCGGCGGCCAGCGCGACGTGGGCCTGGACAAGAAGTACTACCACATCGACGCCATCGGCAGATTCGAGGGCGCCAACCCCGCCCTGTACGAGACCCTGGCCAGAGATCGGCTGTGCCTCATGATGGCCCAGTACTTCCTGGGCAGCGTGAGAAAGGAACTGGGCAACAAGATTGTGTGGAGCAACGACAGCATCGAACTGCCTGTGGAAGGCTCTGTGGGAAATGAGAAGAGCATCGTGTTCTCCGTGTCTGACTACGGCAAGCTGTACGTGCTGGACGATGCCGAATTCCTGGGCCGGATCTGCGAATACTTCATGCCCCACGAAAAGGGCAAGATCCGGTACCACACAGTGTACGAAAAGGGCTTTAGAGCATACAACGACCTGCAGAAGAAGTGCGTGGAGGCCGTGCTGGCTTTCGAAGAGAAGGTGGTGAAGGCCAAGAAGATGAGCGAGAAGGAAGGCGCCCACTACATCGACTTCCGGGAGATCCTGGCCCAGACCATGTGCAAGGAGGCCGAGAAGACCGCAGTGAACAAGGTGAGACGCGCCTTCTTCCACCACCACCTGAAGTTCGTGATTGACGAGTTCGGCCTGTTCAGCGACGTGATGAAGAAGTACGGCATCGAGAAGGAATGGAAGTTCCCTGTCAAGTAA(SEQ ID NO:22)
ATGAAGGTGGAGAACATCAAGGAAAAGTCCAAGAAGGCTATGTATCTGATCAACCACTATGAAGGCCCTAAGAAGTGGTGCTTCGCCATCGTGCTGAATAGGGCCTGCGACAACTATGAGGATAACCCCCACCTGTTCAGCAAGAGCCTGCTGGAATTTGAAAAGACCAGCAGAAAGGACTGGTTCGACGAGGAGACCAGGGAACTGGTGGAGCAGGCCGACACCGAGATCCAGCCCAACCCCAACCTGAAGCCTAACACCACCGCCAACAGAAAGCTGAAGGACATCCGGAACTACTTCAGCCACCACTACCACAAGAATGAGTGCCTGTACTTCAAGAACGACGACCCTATCCGGTGCATCATGGAGGCAGCCTACGAGAAGTCCAAGATCTACATCAAGGGCAAGCAGATTGAGCAGTCCGACATCCCCCTCCCTGAGCTGTTTGAGTCTAGCGGCTGGATCACCCCAGCCGGCATCCTGCTGCTGGCCAGCTTCTTTGTGGAGAGAGGCATTCTGCACAGACTGATGGGCAACATCGGCGGCTTCAAGGACAACCGGGGCGAATACGGACTGACCCACGATATCTTCACCACCTACTGCCTGAAGGGCAGCTACTCCATCAGAGCCCAGGACCACGACGCCGTGATGTTCAGAGACATCCTGGGCTACCTGAGCAGAGTGCCGACCGAGAGCTTTCAGCGCATCAAGCAGCCACAGATCAGAAAGGAGGGGCAGCTGAGCGAGCGGAAGACAGACAAGTTTATCACCTTCGCCCTGAACTACCTGGAAGATTATGGACTGAAGGATCTGGAAGGCTGCAAGGCCTGCTTCGCCCGGAGCAAGATCGTGAGAGAGCAGGAGAACGTGGAAAGCATCAATGACAAGGAGTACAAGCCTCACGAAAACAAGAAGAAGGTGGAAATCCACTTCGATCAGTCTAAGGAAGACCGGTTCTACATCAACCGGAACAACGTGATCCTGAAGATCCAGAAGAAGGACGGCCACAGCAACATCGTGAGAATGGGCGTGTACGAGCTGAAGTATCTGGTGCTGATGTCCCTGGTGGGCAAGGCCAAGGAAGCCGTGGAGAAGATCGACAACTACATCCAGGATCTGAGAGACCAGCTGCCCTACATCGAGGGCAAGAACAAGGAAGAAATCAAGGAGTACGTGAGATTCTTCCCCAGATTCATCAGATCCCACCTGGGCCTGCTGCAGATTAACGATGAGGAGAAGATCAAGGCCCGGCTGGACTATGTGAAGACAAAGTGGCTGGACAAGAAGGAGAAGTCCAAGGAGCTGGAGCTGCACAAGAAGGGCCGGGATATCCTGCGGTACATCAACGAGCGGTGCGACCGGGAGCTGAACCGGAACGTGTACAACCGGATCCTGGAGCTGCTGGTGAGCAAGGACCTGACCGGCTTCTACCGGGAGCTGGAGGAGCTGAAGCGGACCAGACGGATCGATAAGAACATTGTGCAGAACCTGTCCGGCCAGAAGACCATCAACGCCCTGCACGAAAAGGTGTGCGATCTCGTGCTGAAGGAGATCGAGAGCCTGGACACCGAGAACCTGCGGAAGTACCTGGGCCTGATCCCCAAGGAGGAGAAGGAAGTGACCTTTAAGGAGAAGGTGGACAGGATCCTGAAGCAGCCGGTGATCTACAAGGGCTTCCTGCGGTACCAGTTCTTCAAGGACGACAAGAAGAGCTTCGTGCTGCTGGTGGAAGACGCCCTGAAGGAGAAGGGAGGCGGCTGCGACGTGCCCCTGGGCAAGGAGTACTACAAGATCGTGTCCCTGGACAAGTATGACAAGGAAAATAAGACCCTGTGCGAGACCCTGGCAATGGATAGACTGTGCCTGATGATGGCCCGGCAGTATTACCTGAGCCTGAACGCCAAGCTGGCCCAGGAGGCCCAGCAGATCGAATGGAAGAAGGAGGATAGCATTGAGCTGATCATCTTCACACTGAAGAATCCTGACCAGTCCAAGCAGAGCTTCTCCATCCGGTTCAGCGTGCGGGACTTCACCAAGCTGTACGTGACCGACGACCCCGAATTCCTGGCCCGGCTGTGCAGCTACTTCTTCCCCGTGGAGAAGGAGATCGAATACCACAAGCTGTACTCTGAAGGCATTAACAAGTACACCAACCTGCAGAAGGAGGGGATCGAAGCCATCCTGGAGCTGGAGAAGAAGCTGATCGAAAGAAACCGGATCCAGTCCGCCAAGAACTACCTGAGCTTTAACGAAATCATGAACAAGAGCGGCTACAACAAGGATGAGCAGGATGACCTGAAGAAGGTGAGGAACTCCCTGCTGCACTACAAGCTGATCTTCGAAAAGGAGCACCTGAAGAAGTTCTATGAAGTGATGCGGGGCGAGGGAATCGAGAAGAAGTGGTCCCTGATCGTGTAA(SEQ IDNO:23)
ATGAATGGCATCGAGCTGAAGAAGGAAGAAGCCGCCTTCTACTTCAATCAGGCCGAGCTGAACCTGAAGGCCATTGAGGACAACATCTTCGACAAGGAGAGACGGAAGACACTGCTGAACAACCCCCAGATCCTGGCCAAGATGGAGAACTTTATCTTCAATTTCCGGGACGTGACCAAGAACGCCAAGGGCGAAATCGACTGCCTGCTGCTGAAGCTGAGAGAGCTGCGGAACTTTTACAGCCACTACGTGCACAAGCGGGACGTCAGAGAACTGAGCAAGGGCGAGAAGCCGATCCTGGAGAAGTACTACCAGTTCGCCATCGAATCCACCGGCTCTGAGAACGTGAAGCTCGAAATCATCGAAAACGACGCCTGGCTGGCCGACGCCGGCGTGCTGTTCTTCCTGTGCATCTTCCTGAAGAAGAGCCAGGCAAACAAGCTGATCAGCGGCATCAGCGGCTTCAAGAGAAACGACGACACCGGCCAGCCTCGGAGAAACCTGTTCACCTACTTCTCCATCCGGGAGGGCTACAAGGTGGTGCCCGAAATGCAGAAGCACTTCCTGCTGTTCTCCCTGGTGAACCACCTGAGCAACCAGGACGATTATATCGAAAAGGCCCACCAGCCCTACGACATCGGCGAGGGCCTCTTCTTCCACCGGATTGCCAGCACCTTCCTGAACATCTCCGGAATCCTGAGAAACATGAAGTTCTACACCTATCAGAGCAAGAGACTGGTGGAGCAGAGAGGCGAGCTGAAGCGGGAAAAGGACATCTTCGCCTGGGAAGAACCGTTTCAGGGCAATTCCTACTTTGAGATCAACGGCCACAAGGGCGTGATTGGCGAAGACGAGCTGAAGGAGCTGTGCTACGCCTTCCTGATCGGCAACCAGGACGCCAACAAGGTGGAGGGCCGGATCACCCAGTTCCTGGAGAAGTTCAGAAACGCCAACAGCGTGCAGCAGGTGAAGGACGACGAGATGCTGAAGCCTGAATATTTCCCCGCCAACTACTTTGCCGAGAGCGGCGTGGGCCGGATCAAGGACCGGGTGCTGAACAGACTGAACAAGGCCATCAAGAGCAACAAGGCCAAGAAGGGCGAGATCATCGCCTATGACAAGATGAGAGAAGTGATGGCTTTCATCAATAACTCTCTGCCCGTGGACGAGAAGCTGAAGCCCAAGGATTACAAGAGATACCTGGGCATGGTGAGATTCTGGGATAGAGAAAAGGACAATATCAAGCGCGAGTTCGAAACGAAGGAGTGGAGCAAGTATCTGCCCTCCAACTTCTGGACCGCCAAGAACCTGGAGAGAGTGTACGGACTGGCCCGGGAAAAGAACGCAGAGCTGTTTAACAAGCTGAAGGCCGACGTGGAGAAGATGGACGAAAGAGAGCTGGAAAAGTATCAGAAGATCAACGACGCCAAGGATCTGGCCAACCTGCGGCGGCTGGCCAGCGACTTCGGAGTGAAGTGGGAGGAGAAGGATTGGGACGAGTACTCCGGCCAGATCAAGAAGCAGATCACAGATTCCCAGAAGCTGACCATCATGAAGCAGAGAATCACAGCCGGCCTGAAGAAGAAGCACGGCATCGAAAACCTGAACCTGAGGATCACCATCGACATCAACAAGTCCAGAAAGGCCGTGCTGAATCGGATCGCCATCCCCAGAGGATTTGTGAAGCGGCACATCCTGGGCTGGCAGGAATCCGAGAAGGTGAGCAAGAAGATCAGAGAAGCCGAATGCGAGATTCTGCTGAGCAAGGAGTACGAGGAGCTGAGCAAGCAGTTCTTTCAGAGCAAGGACTACGACAAGATGACCCGCATCAACGGCCTGTACGAGAAGAATAAGCTGATCGCCCTGATGGCCGTGTATCTGATGGGGCAGCTGAGAATCCTGTTCAAGGAGCACACCAAGCTGGACGACATCACCAAGACCACCGTGGATTTCAAGATCAGCGACAAGGTGACCGTGAAGATCCCCTTCTCCAACTATCCCTCCCTGGTGTACACCATGAGCAGCAAGTACGTGGACAATATCGGCAACTACGGCTTCAGCAACAAGGACAAGGATAAGCCCATTCTGGGCAAGATCGACGTGATCGAGAAGCAGCGGATGGAGTTTATCAAGGAGGTGCTGGGATTCGAGAAGTACCTGTTTGACGATAAGATCATCGACAAGAGCAAGTTCGCCGACACCGCCACCCACATCAGCTTTGCCGAAATCGTGGAAGAACTGGTGGAGAAGGGCTGGGACAAGGACCGGCTGACGAAGCTGAAGGATGCCCGGAACAAGGCCCTGCACGGCGAGATCCTGACCGGCACCAGCTTCGACGAGACAAAGTCCCTGATCAACGAGCTGAAGAAGTAA(SEQ ID NO:24)
ATGAGCCCTGATTTCATCAAGCTGGAGAAGCAGGAAGCAGCCTTCTACTTTAACCAGACCGAGCTGAACCTGAAGGCCATCGAATCCAATATCCTGGATAAGCAGCAGAGAATGATCCTGCTGAACAACCCCAGAATCCTGGCCAAGGTGGGCAACTTCATCTTCAATTTCCGGGACGTGACCAAGAACGCAAAGGGCGAAATCGACTGCCTGCTGTTCAAGCTGGAGGAACTGCGGAACTTCTACAGCCACTACGTGCACACCGATAACGTGAAGGAACTGTCCAACGGAGAGAAGCCTCTGCTGGAGCGGTACTACCAGATCGCCATCCAGGCCACAAGAAGCGAGGACGTGAAGTTCGAGCTGTTCGAGACCAGGAACGAGAACAAGATCACCGACGCAGGCGTGCTGTTCTTCCTGTGCATGTTCCTGAAGAAGAGCCAGGCTAATAAGCTGATTTCCGGCATCAGCGGCTTCAAGCGGAACGACCCCACCGGCCAGCCCAGACGGAACCTCTTTACCTACTTCTCTGCCCGGGAGGGCTACAAGGCCCTGCCTGACATGCAGAAGCACTTCCTGCTGTTCACCCTGGTGAACTACCTGAGCAACCAGGACGAGTACATCTCCGAGCTGAAGCAGTACGGAGAGATCGGACAGGGAGCCTTCTTCAACAGAATCGCCAGCACCTTCCTGAACATCAGCGGCATCAGCGGCAACACCAAGTTCTACAGCTACCAGAGCAAGAGAATCAAGGAGCAGCGGGGCGAACTGAACAGCGAAAAGGACAGCTTCGAGTGGATCGAGCCCTTTCAGGGCAACTCTTATTTTGAGATCAACGGCCACAAGGGCGTGATCGGCGAAGACGAGCTGAAGGAGCTGTGCTACGCCCTGCTGGTGGCCAAGCAGGACATCAATGCCGTGGAGGGAAAGATCATGCAGTTCCTGAAGAAGTTCAGGAACACCGGCAACCTGCAGCAGGTGAAGGACGACGAGATGCTGGAAATCGAGTACTTTCCCGCCAGCTACTTCAACGAGAGCAAGAAGGAGGACATCAAGAAGGAGATCCTGGGCAGACTGGACAAGAAGATCCGGTCCTGCAGCGCCAAGGCCGAGAAGGCCTACGACAAGATGAAGGAGGTGATGGAGTTTATCAATAACAGCCTGCCCGCCGAGGAGAAGCTGAAGAGGAAGGACTACCGCAGATACCTGAAGATGGTGAGATTCTGGTCCAGAGAAAAGGGCAACATCGAGAGAGAGTTCAGAACCAAGGAGTGGTCCAAGTACTTCAGCAGCGACTTCTGGAGAAAGAACAATCTGGAGGATGTGTACAAGCTGGCCACCCAGAAGAACGCCGAGCTGTTCAAGAATCTGAAGGCCGCCGCCGAGAAGATGGGCGAAACAGAATTCGAAAAGTACCAGCAGATCAACGATGTGAAGGACCTGGCCAGCCTGAGACGGCTGACCCAGGATTTCGGCCTGAAGTGGGAGGAGAAGGATTGGGAGGAGTACAGCGAACAGATCAAGAAGCAGATCACCGACCGGCAGAAGCTGACAATCATGAAGCAGCGGGTGACCGCCGAGCTGAAGAAGAAGCACGGCATCGAGAATCTGAACCTCAGAATTACCATCGATTCCAACAAGAGCAGAAAGGCCGTGCTGAACAGAATCGCCATTCCCCGGGGCTTCGTGAAGAAGCACATTCTGGGCTGGCAGGGCAGCGAAAAGATCAGCAAGAATATCCGGGAGGCCGAGTGCAAGATCCTGCTGTCCAAGAAGTATGAGGAGCTGTCTCGGCAGTTCTTTGAGGCTGGCAACTTCGACAAGCTGACCCAGATCAACGGCCTGTACGAAAAGAATAAGCTGACCGCCTTCATGTCCGTCTACCTGATGGGCAGACTGAACATCCAGCTGAACAAGCACACGGAGCTGGGAAATCTGAAGAAGACCGAGGTGGACTTCAAGATTTCCGACAAGGTGACAGAAAAGATCCCCTTCTCCCAGTACCCTAGCCTGGTGTACGCTATGAGCCGGAAGTACGTGGACAACGTGGACAAGTACAAGTTCAGCCACCAGGACAAGAAGAAGCCCTTCCTGGGCAAGATCGACAGCATCGAAAAGGAGAGAATCGAATTCATCAAGGAGGTGCTGGACTTCGAAGAGTACCTGTTTAAGAACAAGGTGATCGACAAGAGCAAGTTCAGCGATACCGCCACCCATATCTCTTTCAAGGAAATCTGCGACGAGATGGGCAAGAAGGGCTGCAACCGCAACAAGCTGACCGAGCTGAATAACGCTAGAAACGCCGCACTGCACGGAGAAATCCCCAGCGAGACCAGCTTCCGGGAGGCCAAGCCCCTGATCAACGAACTGAAGAAGTAA(SEQ ID NO:25)
ATGAGCCCTGACTTCATCAAGCTGGAAAAGCAGGAAGCCGCCTTCTACTTTAATCAGACCGAGCTGAACCTGAAGGCCATCGAGAGCAACATCTTCGACAAGCAGCAGCGGGTGATCCTGCTGAATAACCCCCAGATCCTGGCCAAGGTGGGCGACTTCATCTTCAACTTCCGGGACGTGACCAAGAACGCCAAGGGAGAAATCGACTGCCTGCTGCTGAAGCTGCGGGAGCTGAGAAACTTCTACAGCCACTATGTGTACACCGACGACGTGAAGATCCTGAGCAACGGCGAGAGGCCCCTGCTGGAGAAGTACTACCAGTTTGCCATCGAGGCCACCGGATCTGAGAATGTGAAGCTGGAGATCATCGAGAGCAACAACCGGCTGACCGAAGCGGGCGTGCTGTTCTTCCTGTGCATGTTCCTGAAGAAGAGCCAGGCCAACAAGCTGATTTCCGGCATCTCCGGATTCAAGCGCAACGACCCTACCGGACAGCCTCGGCGGAACCTGTTCACCTACTTTAGCGTGCGGGAGGGCTACAAGGTGGTGCCCGACATGCAGAAGCACTTCCTGCTGTTCGTGCTGGTGAACCACCTGTCCGGCCAGGATGACTATATTGAGAAGGCCCAGAAGCCCTACGACATCGGCGAAGGCCTGTTCTTCCACAGAATCGCCAGCACCTTTCTCAACATCAGCGGCATCCTGAGAAACATGGAATTCTACATCTACCAGAGCAAGCGGCTGAAGGAGCAGCAGGGAGAGCTGAAGAGAGAGAAGGACATCTTCCCTTGGATCGAGCCTTTCCAGGGCAACAGCTACTTTGAGATCAACGGAAACAAGGGCATCATCGGCGAGGACGAACTGAAGGAACTGTGCTACGCCCTGCTGGTGGCCGGCAAGGACGTGAGAGCCGTGGAAGGAAAGATCACCCAGTTCCTGGAGAAGTTCAAGAACGCCGATAACGCCCAGCAGGTGGAGAAGGATGAAATGCTGGACCGGAACAACTTCCCTGCCAATTACTTTGCCGAAAGCAACATCGGCAGCATCAAGGAAAAGATCCTGAATAGACTGGGCAAGACCGACGACTCCTACAACAAGACCGGCACCAAGATCAAGCCCTACGACATGATGAAGGAGGTGATGGAGTTCATCAATAATTCTCTGCCCGCCGATGAGAAGCTGAAGCGGAAGGACTACCGGAGATACCTGAAGATGGTCCGGATCTGGGACAGCGAAAAGGACAATATCAAGCGGGAGTTTGAGAGCAAGGAATGGAGCAAGTATTTCAGCAGCGACTTCTGGATGGCCAAGAACCTGGAAAGAGTGTACGGCCTGGCCAGGGAAAAGAACGCCGAGCTGTTTAACAAGCTGAAGGCCGTGGTGGAGAAGATGGACGAGCGGGAGTTCGAAAAGTACCGGCTGATCAACAGCGCCGAAGACCTGGCCAGCCTGCGGAGACTGGCCAAGGACTTCGGCCTGAAGTGGGAGGAGAAGGACTGGCAGGAGTATTCTGGCCAGATCAAGAAGCAGATCTCCGACAGACAGAAGCTGACAATTATGAAGCAGCGGATCACAGCCGAACTGAAGAAGAAGCACGGAATCGAGAACCTGAATCTGCGGATCACCATCGACAGCAACAAGTCCAGAAAGGCCGTGCTGAACCGGATCGCCGTGCCCCGGGGCTTCGTGAAGGAACACATCCTGGGCTGGCAAGGCTCTGAAAAGGTGAGCAAGAAGACCAGAGAAGCCAAGTGCAAGATCCTGCTGAGCAAGGAGTACGAGGAACTGAGCAAGCAGTTCTTTCAGACACGGAATTACGACAAGATGACCCAGGTGAACGGCCTGTACGAGAAGAACAAGCTGCTGGCCTTCATGGTGGTGTACCTGATGGAGAGACTGAACATCCTGCTGAACAAGCCCACAGAGCTGAACGAACTGGAAAAGGCCGAAGTGGACTTCAAGATCTCCGACAAGGTGATGGCCAAGATCCCTTTCTCTCAGTACCCCAGCCTGGTGTATGCAATGAGCTCCAAGTACGCCGACAGCGTGGGCTCTTACAAGTTCGAAAACGACGAGAAGAACAAGCCCTTTCTGGGCAAGATCGACACAATCGAGAAGCAGAGAATGGAGTTCATCAAGGAGGTGCTGGGCTTCGAGGAATACCTGTTCGAGAAGAAGATCATCGATAAGAGCGAATTCGCCGACACCGCCACCCACATCAGCTTCGACGAGATCTGCAACGAGCTGATCAAGAAGGGCTGGGACAAGGACAAGCTGACCAAGCTGAAGGACGCCCGGAACGCCGCCCTGCACGGCGAGATCCCCGCCGAGACCAGCTTCCGGGAGGCCAAGCCCCTGATTAACGGCCTGAAGAAGTAA(SEQ ID NO:26)
ATGAACATCATCAAGCTGAAGAAGGAGGAAGCCGCCTTTTACTTTAACCAGACAATCCTGAATCTGAGCGGCCTGGACGAGATCATCGAGAAGCAGATCCCCCACATCATCTCCAATAAGGAAAACGCCAAGAAGGTGATTGATAAGATCTTCAATAACAGACTGCTGCTGAAGAGCGTGGAAAACTATATCTACAACTTCAAGGACGTGGCCAAGAACGCCCGGACCGAAATCGAAGCCATCCTGCTGAAGCTGGTGGAGCTGAGAAACTTCTACTCCCACTACGTGCACAACGACACCGTGAAGATCCTGTCCAATGGCGAGAAGCCCATCCTGGAAAAGTACTACCAGATCGCCATCGAAGCCACCGGCTCTAAGAACGTGAAGCTGGTCATTATCGAAAACAACAACTGCCTGACCGACTCCGGCGTGCTGTTCCTGCTGTGCATGTTCCTGAAGAAGAGCCAGGCCAACAAGCTGATTAGCAGCGTGAGCGGCTTTAAGCGGAACGACAAGGAAGGCCAGCCCAGAAGGAACCTCTTTACTTACTATAGCGTGAGGGAAGGCTACAAGGTGGTGCCAGACATGCAGAAGCACTTCCTGCTGTTCGCCCTGGTCAACCACCTGTCCGAGCAGGACGACCACATCGAGAAGCAGCAGCAGAGCGACGAGCTGGGCAAGGGCCTGTTCTTCCACAGAATCGCCAGCACATTCCTGAATGAAAGCGGCATCTTCAACAAGATGCAGTTTTACACCTACCAGAGCAATCGGCTGAAGGAGAAGCGGGGCGAGCTGAAGCACGAGAAGGACACCTTCACCTGGATCGAGCCTTTCCAGGGAAACAGCTACTTCACCCTGAACGGGCACAAGGGCGTGATCAGCGAGGATCAGCTGAAGGAACTGTGCTACACAATCCTGATCGAGAAGCAGAACGTGGACAGCCTGGAGGGCAAGATCATTCAGTTCCTGAAGAAGTTTCAGAACGTGTCTAGCAAGCAGCAGGTGGATGAGGACGAGCTGCTGAAGCGGGAATACTTCCCCGCCAACTACTTCGGCCGGGCCGGCACCGGCACCCTGAAGGAGAAGATCCTGAACCGGCTGGACAAGCGGATGGACCCCACCAGCAAGGTGACCGACAAGGCCTATGACAAGATGATCGAGGTGATGGAGTTCATCAACATGTGCCTGCCCAGCGACGAGAAGCTGCGGCAGAAGGATTACCGGAGATATCTGAAGATGGTCAGATTCTGGAACAAGGAGAAGCACAACATCAAGAGAGAATTCGACAGCAAGAAGTGGACCAGATTCCTGCCCACCGAGCTGTGGAATAAGCGGAACCTGGAGGAAGCCTACCAGCTGGCCCGGAAGGAGAACAAGAAGAAGCTGGAGGACATGAGGAATCAGGTGAGGAGCCTGAAGGAGAACGACCTGGAGAAGTACCAGCAGATCAACTATGTGAACGACCTGGAAAACCTGCGGCTGCTGTCCCAAGAGCTGGGCGTGAAGTGGCAGGAGAAGGACTGGGTGGAATACAGCGGCCAGATCAAGAAGCAGATCAGCGATAACCAGAAGCTGACAATCATGAAGCAGAGAATCACCGCCGAGCTGAAGAAGATGCACGGCATCGAGAACCTGAACCTGAGAATCAGCATCGACACCAACAAGTCCCGGCAGACTGTGATGAACAGAATTGCCCTGCCCAAGGGCTTCGTGAAGAACCACATTCAGCAGAACAGCAGCGAGAAGATCAGCAAGAGAATCAGAGAGGACTACTGCAAGATCGAGCTGTCCGGCAAGTACGAAGAGCTGAGCAGACAGTTTTTCGACAAGAAGAACTTTGACAAGATGACCCTGATCAACGGACTGTGCGAGAAGAATAAGCTCATCGCCTTCATGGTGATTTACCTGCTGGAGCGGCTGGGCTTCGAGCTGAAGGAGAAGACCAAGCTGGGCGAGCTGAAGCAGACCCGGATGACATATAAGATCAGCGACAAGGTGAAGGAGGACATCCCCCTCTCCTACTACCCCAAGCTGGTGTACGCCATGAATCGGAAGTATGTGGACAACATCGATAGCTACGCCTTCGCCGCCTACGAGTCTAAGAAGGCCATCCTGGACAAGGTGGACATCATTGAGAAGCAGAGAATGGAATTCATCAAGCAGGTGCTGTGCTTCGAGGAATACATCTTCGAGAACAGAATCATCGAGAAGAGCAAGTTCAACGATGAGGAGACCCACATCAGCTTCACCCAGATCCACGACGAACTGATCAAGAAGGGCAGAGATACCGAAAAGCTGAGCAAGCTGAAGCACGCCAGAAACAAGGCCCTGCACGGCGAGATCCCCGACGGGACCAGCTTTGAGAAGGCCAAGCTGCTGATCAACGAAATCAAGAAGTAA(SEQ ID NO:27)
ATGAACGCCATCGAGCTGAAGAAGGAAGAGGCCGCCTTCTACTTCAACCAGGCCAGACTGAACATCTCTGGCCTGGACGAAATCATCGAGAAGCAACTGCCACACATCGGCTCTAACAGAGAGAACGCCAAGAAGACTGTGGACATGATCCTGGATAACCCCGAGGTGCTGAAGAAGATGGAAAACTACGTGTTCAACTCCCGCGATATTGCCAAGAATGCCCGGGGCGAGCTGGAGGCCCTGCTGCTGAAGCTGGTCGAGCTGAGAAACTTCTATAGCCACTACGTGCACAAGGACGACGTCAAGACACTGAGCTACGGTGAGAAGCCTCTGCTGGATAAGTACTACGAGATCGCCATCGAAGCCACCGGATCCAAGGACGTGCGGCTGGAGATCATTGACGACAAGAATAAGCTGACCGACGCCGGAGTGCTGTTCCTGCTGTGCATGTTCCTGAAGAAGAGCGAGGCTAACAAGCTGATTTCCAGCATCCGGGGCTTCAAGAGGAACGACAAGGAGGGCCAGCCTAGAAGAAACCTGTTCACCTACTACAGCGTGAGAGAGGGCTATAAGGTGGTGCCCGACATGCAGAAGCACTTTCTGCTGTTCACCCTGGTGAACCACCTGTCCAATCAGGACGAGTACATCTCCAACCTGCGCCCAAACCAGGAAATCGGCCAGGGCGGATTTTTCCACCGGATCGCCAGCAAGTTCCTGAGCGACAGCGGAATCCTGCACAGCATGAAGTTCTACACATACAGATCCAAGCGGCTGACCGAGCAGCGGGGAGAGCTGAAGCCCAAGAAGGACCACTTTACATGGATCGAGCCTTTCCAGGGCAATTCCTACTTCAGCGTGCAGGGCCAGAAGGGCGTGATCGGAGAGGAGCAGCTCAAGGAGCTGTGCTACGTGCTGCTGGTGGCCCGGGAGGACTTCAGAGCCGTGGAGGGCAAGGTGACCCAGTTCCTGAAGAAGTTCCAGAATGCCAATAACGTGCAGCAGGTGGAGAAGGACGAGGTGCTGGAAAAGGAGTACTTCCCCGCCAACTACTTTGAGAACCGGGACGTGGGAAGAGTCAAGGACAAGATCCTGAACAGACTGAAGAAGATCACCGAGAGTTATAAGGCCAAGGGTAGAGAGGTGAAGGCCTACGACAAGATGAAGGAAGTGATGGAGTTCATCAACAACTGCCTGCCCACCGATGAAAACCTGAAGCTGAAGGACTACCGGCGGTACCTGAAGATGGTGAGATTCTGGGGCAGAGAGAAGGAAAACATCAAGCGGGAGTTCGACTCCAAGAAGTGGGAGCGCTTTCTCCCCCGGGAGCTGTGGCAGAAGAGAAACCTGGAGGACGCCTACCAGCTCGCCAAGGAGAAGAACACAGAGCTGTTCAACAAGCTGAAGACCACCGTGGAGAGAATGAACGAACTGGAGTTCGAGAAGTACCAGCAGATCAATGACGCCAAGGACCTGGCCAACCTGAGACAGCTGGCCAGAGACTTTGGAGTGAAGTGGGAGGAAAAGGACTGGCAGGAATACTCTGGACAGATCAAGAAGCAGATCACCGACCGGCAGAAGCTGACCATCATGAAGCAGCGGATCACCGCCGCCCTGAAGAAGAAGCAGGGAATCGAAAACCTGAACCTGAGAATCACAACAGATACGAATAAGAGCAGGAAGGTGGTGCTGAACCGGATCGCACTGCCCAAGGGATTCGTCAGAAAGCACATCCTGAAGACCGACATCAAGATCAGCAAGCAGATCCGGCAGAGCCAGTGCCCTATCATCCTGTCTAACAACTACATGAAGCTGGCCAAGGAGTTCTTTGAAGAGCGGAACTTCGATAAGATGACCCAGATCAATGGCCTGTTCGAGAAGAACGTGCTGATCGCCTTCATGATCGTGTACCTGATGGAGCAGCTGAACCTGAGACTGGGCAAGAACACCGAGCTGTCCAACCTGAAGAAGACCGAGGTGAACTTTACCATCACCGACAAGGTGACCGAGAAGGTGCAAATCTCCCAGTACCCCAGCCTGGTGTTCGCCATTAACCGGGAGTACGTGGACGGCATCAGCGGCTACAAGCTGCCCCCCAAGAAGCCCAAGGAACCTCCCTACACCTTCTTCGAAAAGATCGACGCCATCGAAAAGGAGCGGATGGAATTCATCAAGCAGGTGCTGGGCTTCGAGGAGCACCTCTTCGAAAAGAACGTGATCGACAAGACCCGGTTTACCGACACCGCCACCCACATCAGCTTCAATGAGATCTGCGATGAGCTGATCAAGAAGGGCTGGGACGAAAACAAGATCATCAAGCTGAAGGATGCACGGAACGCTGCCCTGCACGGCAAGATCCCTGAAGATACCTCCTTTGACGAAGCCAAGGTGCTGATCAACGAACTGAAGAAGTAA(SEQ ID NO:28)
所述的七个CRISPR/Cas13e和Cas13f的基因座结构请见图1。
我们用RNAfold对pre-crRNA中的七个DR序列进行了RNA二级结构的进一步分析。结果请见图2。所有DR序列明显都拥有非常保守的二级结构。
例如,在Cas13e家族中,每个DR序列都形成一个二级结构,这个二级结构由4个碱基对的茎(5’-GCUG-3’)组成,紧接着一个5+5个核苷酸的对称凸起(不包括上述4个茎核苷酸),随后是一个5个碱基对的茎(5’-GCC C/U C-3’),末端是一个8个碱基的环状结构(5’-CGAUUUGU-3’,不包括上述2个茎核苷酸)。
同样,在Cas13f家族中,除Cas13f.4是一个例外,每个DR序列均形成一个如下的二级结构:5个碱基对的茎(5'GCUGU3'),紧接着的一个大致对称的5+4个核苷酸的突起(不包括上述4个茎核苷酸),接着一个6个碱基对的茎(5’A/G CCUCG3’),末端是一个5个碱基的环(5’AUUUG3’,不包括上述2个茎核苷酸)。唯一一个例外是Cas13f.4的DR序列,Cas13f.4的DR序列在第二步少了1个碱基对,第一个凸起结构中多了2个额外的碱基,形成了一个大致对称的6+5凸起。
用MAFFT对Cas13e和Cas13f蛋白以与先前鉴定的Cas13a、Cas13b、Cas13c和Cas13d家族的蛋白进行多序列比对,结果显示Cas13e和Cas13f蛋白在系统树上相对最接近Cas13b蛋白(见图3)。
此外,关于RXXXXH基序相对于Cas蛋白N端和C端的位置,与Cas13a、Cas13c、Cas13d相比,Cas13e和Cas13f蛋白的RXXXXH基序更接近其N端和C端,Cas13b蛋白的RXXXXH基序较没有那么接近其N端和C端(参见图4)。
我们用I-TASSER预测Cas13e蛋白质的3D结构,再用PyMOL对预测的结构进行可视化。尽管所述两个RXXXXH基序非常靠近Cas13e.1的N端和C端,但它们在3D结构中非常相近(见图5)。
实施例2 Cas13e是一个效应RNA酶
为了验证新发现的Cas13e蛋白是否是一个具有RNA核酸酶活性的CRISPR/Cas系统,首先对细菌中编码Cas13e.1的DNA序列进行密码子优化,使其适合于在人类细胞中过表达(SEQ ID NO:22),然后将密码子优化的Cas13e.1克隆到带有绿色荧光蛋白(GFP)基因的质粒中。同时,将靶向报告基因(mCherry)mRNA的向导RNA(gRNA)的编码序列克隆到GFP的质粒中。gRNA包含一个靶向mCherry的间隔序列和位于其两侧的同向重复序列(SEQ ID NO:29)。GFP和mCherry基因的序列分别为SEQ ID NO:30-31。
GCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGCGGTCTTCGATATTCAAGCGTCGGAAGACCTGCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:29)
ATGGTGAGCAAGGGCGAGGAGGATAACATGGCCATCATCAAGGAGTTCATGCGCTTCAAGGTGCACATGGAGGGCTCCGTGAACGGCCACGAGTTCGAGATCGAGGGCGAGGGCGAGGGCCGCCCCTACGAGGGCACCCAGACCGCCAAGCTGAAGGTGACCAAGGGTGGCCCCCTGCCCTTCGCCTGGGACATCCTGTCCCCTCAGTTCATGTACGGCTCCAAGGCCTACGTGAAGCACCCCGCCGACATCCCCGACTACTTGAAGCTGTCCTTCCCCGAGGGCTTCAAGTGGGAGCGCGTGATGAACTTCGAGGACGGCGGCGTGGTGACCGTGACCCAGGACTCCTCCCTGCAGGACGGCGAGTTCATCTACAAGGTGAAGCTGCGCGGCACCAACTTCCCCTCCGACGGCCCCGTAATGCAGAAGAAGACCATGGGCTGGGAGGCCTCCTCCGAGCGGATGTACCCCGAGGACGGCGCCCTGAAGGGCGAGATCAAGCAGAGGCTGAAGCTGAAGGACGGCGGCCACTACGACGCTGAGGTCAAGACCACCTACAAGGCCAAGAAGCCCGTGCAGCTGCCCGGCGCCTACAACGTCAACATCAAGTTGGACATCACCTCCCACAACGAGGACTACACCATCGTGGAACAGTACGAACGCGCCGAGGGCCGCCACTCCACCGGCGGCATGGACGAGCTGTACAAGTAA(SEQ ID NO:30)
ATGGTGAGCAAGGGCGAGGAGCTGTTCACCGGGGTGGTGCCCATCCTGGTCGAGCTGGACGGCGACGTAAACGGCCACAAGTTCAGCGTGTCCGGCGAGGGCGAGGGCGATGCCACCTACGGCAAGCTGACCCTGAAGTTCATCTGCACCACCGGCAAGCTGCCCGTGCCCTGGCCCACCCTCGTGACCACCCTGACCTACGGCGTGCAGTGCTTCAGCCGCTACCCCGACCACATGAAGCAGCACGACTTCTTCAAGTCCGCCATGCCCGAAGGCTACGTCCAGGAGCGCACCATCTTCTTCAAGGACGACGGCAACTACAAGACCCGCGCCGAGGTGAAGTTCGAGGGCGACACCCTGGTGAACCGCATCGAGCTGAAGGGCATCGACTTCAAGGAGGACGGCAACATCCTGGGGCACAAGCTGGAGTACAACTACAACAGCCACAACGTCTATATCATGGCCGACAAGCAGAAGAACGGCATCAAGGTGAACTTCAAGATCCGCCACAACATCGAGGACGGCAGCGTGCAGCTCGCCGACCACTACCAGCAGAACACCCCCATCGGCGACGGCCCCGTGCTGCTGCCCGACAACCACTACCTGAGCACCCAGTCCGCCCTGAGCAAAGACCCCAACGAGAAGCGCGATCACATGGTCCTGCTGGAGTTCGTGACCGCCGCCGGGATCACTCTCGGCATGGACGAGCTGTACAAGTGA(SEQ ID NO:31)
根据常见哺乳动物细胞的培养方法,将人HEK293T细胞种在24孔组织培养板上中,并使用
3000和P3000TM试剂进行3质粒共转染,同时导入编码Cas13e.1蛋白、靶向mCherry的gRNA和mCherry报告基因的质粒。阴性对照实验中使用的是一个编码不靶向mCherry的gRNA(NT)的对照质粒。Cas13e.1和gRNA的质粒中存在一个GFP编码序列,因此可以使用GFP的表达作为转染成功/转染效率的参照。请参见图6中的示意图。然后,将转染后的HEK293T细胞在37℃的温度5%CO
2的条件下培养约24小时,然后在荧光显微镜下对其进行检测和分析。
如图7所示,在明视野显微镜下,靶向mCherry的gRNA转染的细胞与非靶向(NT)gRNA转染的对照细胞具有相同的生长和形态,且两者中的GFP表达基本相同。然而,流式细胞术分析发现,mCherry荧光信号强度显著降低,降低高达75%(见图8)。这表明Cas13e可以利用靶向mCherry的gRNA有效降低mCherry的mRNA水平,从而降低mCherry蛋白的表达。
实施例3 sgRNA对Cas13e的有效引导
在理论上,由于CRISPR/Cas13e系统中crRNA前体在成熟过程中可以产生两种结构的crRNA,即同向重复序列(DR)+间隔区(5’DR)或间隔区+同向重复序列(3’DR),因此设计本实验来确定Cas13e结合哪种结构的crRNA行使功能。
通过使用实施例2类似的三质粒共转染实验方法,发现只有3'DR方向(即间隔区+同向重复序列)才能显著地敲低mCherry水平。这表明Cas13e结合具有间隔区+同向重复序列的成熟crRNA结构发挥功能。见图9。
同向重复序列(DR)+间隔区(5’DR)或间隔区+同向重复序列(3’DR)的SgRNA序列分别为SEQ ID NO:32和SEQ ID NO:33。
GCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGCGGTCTTCGATATTCAAGCGTCGGAAGACCT(SEQ ID NO:32)
GGTCTTCGATATTCAAGCGTCGGAAGACCTGCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:33)
实施例4间隔区序列长度对Cas13e.1特异性活性和附带活性的影响
为了研究间隔区序列长度对Cas13e.1的特异性和非特异性的核酸酶活性的影响,本实验设计了一套靶向mCherry报告基因的sgRNA,它们的间隔区序列长度分别为20nt、25nt、30nt、35nt、40nt、45nt或50nt(SEQ ID NO:34-40)。
TTGGTGCCGCGCAGCTTCAC(SEQ ID NO:34)
TTGGTGCCGCGCAGCTTCACCTTGT(SEQ ID NO:35)
TTGGTGCCGCGCAGCTTCACCTTGTAGATG(SEQ ID NO:36)
TTGGTGCCGCGCAGCTTCACCTTGTAGATGAACTC(SEQ ID NO:37)
TTGGTGCCGCGCAGCTTCACCTTGTAGATGAACTCGCCGT(SEQ ID NO:38)
TTGGTGCCGCGCAGCTTCACCTTGTAGATGAACTCGCCGTCCTGC(SEQ ID NO:39)
TTGGTGCCGCGCAGCTTCACCTTGTAGATGAACTCGCCGTCCTGCAGGGA(SEQ ID NO:40)
通过使用实例2类似的三质粒共转染实验方法,利用流式细胞术分析转染48小时后细胞中mCherry和GFP报告蛋白的敲低效率,mCherry和GFP的敲低效率分别代表Cas13e的特异性和非特异性的核酸酶活性。
mCherry和GFP敲低实验的结果发现Cas13e.1具有高的特异性活性,其间隔区长度在约30nt至约50nt之间。结果见图10。同时,当间隔物长度为约30nt时,Cas13e.1具有最高的非特异性活性。结果见图11。
实施例5用dCas13e.1-ADAR2DD融合物进行单碱基RNA编辑
为了测试Cas13e是否可用于RNA单碱基编辑,我们通过突变两个RXXXXH基序来消除其核酸酶活性来制备核酸酶失活的Cas13e.1(dCas13e.1)。然后,将含有E488Q和T375G双重突变的高保真ADAR2dd突变体融合在dCas13e.1的C端,由此便创建了一个实现A向G定点突变的RNA单碱基编辑器,将其命名为dCas13e.1-ADAR2dd*(eABE)。参见SEQ ID NO:41中的编码序列。
ATGCCCAAGAAGAAGCGGAAGGTGGCCCAGGTGAGCAAGCAGACCTCCAAGAAGAGGGAGCTGAGCATCGACGAGTACCAGGGCGCCCGGAAGTGGTGCTTCACCATTGCCTTCAACAAGGCCCTGGTGAACCGGGACAAGAACGACGGCCTGTTCGTGGAAAGCCTGCTGAGACACGAGAAGTACAGCAAGCACGACTGGTACGACGAAGATACCCGGGCCCTGATCAAGTGCAGCACCCAGGCCGCCAACGCCAAGGCTGAAGCCCTGGCGAACTACTTCAGTGCTTACCGGCATAGCCCTGGCTGCCTGACCTTCACCGCCGAGGACGAACTGCGGACCATCATGGAGAGAGCCTATGAGCGGGCCATCTTCGAGTGCAGAAGAAGAGAGACAGAGGTGATCATCGAGTTTCCCAGCCTGTTCGAGGGCGACCGGATCACCACCGCCGGCGTGGTGTTTTTCGTGAGCTTTTTCGTGGAAAGAAGAGTGCTGGATCGGCTGTATGGAGCCGTGTCCGGCCTGAAGAAGAATGAGGGACAGTACAAGCTGACCCGGAAGGCCCTGAGCATGTACTGCCTGAAGGACAGCAGATTCACCAAGGCCTGGGATAAGCGGGTGCTGCTGTTCAGAGACATCCTGGCCCAGCTGGGAAGAATCCCCGCCGAGGCCTACGAGTACTACCACGGCGAGCAGGGTGATAAGAAGAGAGCTAACGACAATGAGGGCACAAATCCCAAGCGGCACAAGGACAAGTTCATCGAATTTGCACTGCACTACCTGGAAGCCCAGCACAGCGAGATCTGCTTCGGCAGACGCCACATCGTGCGGGAAGAGGCCGGCGCCGGCGATGAGCACAAGAAGCACCGGACCAAGGGAAAGGTGGTGGTGGACTTCAGCAAGAAGGACGAGGACCAGAGCTACTATATCTCCAAGAACAACGTGATCGTGCGGATCGACAAGAACGCCGGCCCTAGAAGCTACCGGATGGGCCTGAACGAGCTGAAGTACCTCGTGCTGCTGAGCCTGCAGGGGAAGGGCGACGATGCCATCGCCAAGCTGTACAGATACAGACAGCACGTGGAGAACATCCTGGATGTGGTGAAGGTGACCGATAAGGATAACCACGTGTTCCTGCCCCGCTTCGTGCTGGAGCAGCACGGCATCGGCAGAAAGGCCTTCAAGCAGCGGATCGATGGACGGGTGAAGCACGTGCGGGGCGTGTGGGAGAAGAAGAAGGCCGCCACCAATGAAATGACCCTGCACGAGAAGGCCAGAGACATCCTGCAGTACGTGAACGAAAACTGCACCCGGTCCTTCAACCCTGGCGAATACAACAGACTGCTGGTGTGCCTGGTGGGCAAGGACGTGGAGAACTTTCAGGCCGGCCTGAAGCGGCTGCAGCTGGCCGAAAGGATCGATGGCCGGGTGTACTCCATCTTCGCCCAGACCAGCACCATCAATGAGATGCACCAGGTGGTGTGCGACCAGATCCTGAACCGGCTGTGCAGAATCGGCGACCAGAAGCTGTACGATTACGTGGGACTGGGCAAGAAGGACGAAATCGACTACAAGCAGAAGGTGGCCTGGTTCAAGGAGCACATCAGCATCCGGAGAGGATTCCTGAGAAAGAAGTTCTGGTACGATAGCAAGAAGGGATTCGCAAAGCTGGTGGAGGAACACCTGGAGTCCGGCGGCGGCCAGCGCGACGTGGGCCTGGACAAGAAGTACTACCACATCGACGCCATCGGCAGATTCGAGGGCGCCAACCCCGCCCTGTACGAGACCCTGGCCAGAGATCGGCTGTGCCTCATGATGGCCCAGTACTTCCTGGGCAGCGTGAGAAAGGAACTGGGCAACAAGATTGTGTGGAGCAACGACAGCATCGAACTGCCTGTGGAAGGCTCTGTGGGAAATGAGAAGAGCATCGTGTTCTCCGTGTCTGACTACGGCAAGCTGTACGTGCTGGACGATGCCGAATTCCTGGGCCGGATCTGCGAATACTTCATGCCCCACGAAAAGGGCAAGATCCGGTACCACACAGTGTACGAAAAGGGCTTTAGAGCATACAACGACCTGCAGAAGAAGTGCGTGGAGGCCGTGCTGGCTTTCGAAGAGAAGGTGGTGAAGGCCAAGAAGATGAGCGAGAAGGAAGGCGCCCACTACATCGACTTCCGGGAGATCCTGGCCCAGACCATGTGCAAGGAGGCCGAGAAGACCGCAGTGAACAAGGTGGCGGCTGCCTTCTTCGCTGCGCACCTGAAGTTCGTGATTGACGAGTTCGGCCTGTTCAGCGACGTGATGAAGAAGTACGGCATCGAGAAGGAATGGAAGTTCCCTGTCAAGCCCAAGAAGAAGCGGAAGGTGGGTGGAGGCGGAGGTTCTGGGGGAGGAGGTAGTGGCGGTGGTGGTTCAGGAGGCGGCGGAAGCCAGCTGCATTTACCGCAGGTTTTAGCTGACGCTGTCTCACGCCTGGTCCTGGGTAAGTTTGGTGACCTGACCGACAACTTCTCCTCCCCTCACGCTCGCAGAAAAGTGCTGGCTGGAGTCGTCATGACAACAGGCACAGATGTTAAAGATGCCAAGGTGATAAGTGTTTCTACAGGAGGCAAATGTATTAATGGTGAATACATGAGTGATCGTGGCCTTGCATTAAATGACTGCCATGCAGAAATAATATCTCGGAGATCCTTGCTCAGATTTCTTTATACACAACTTGAGCTTTACTTAAATAACAAAGATGATCAAAAAAGATCCATCTTTCAGAAATCAGAGCGAGGGGGGTTTAGGCTGAAGGAGAATGTCCAGTTTCATCTGTACATCAGCACCTCTCCCTGTGGAGATGCCAGAATCTTCTCACCACATGAGCCAATCCTGGAAGAACCAGCAGATAGACACCCAAATCGTAAAGCAAGAGGACAGCTACGGACCAAAATAGAGTCTGGTCAGGGGACGATTCCAGTGCGCTCCAATGCGAGCATCCAAACGTGGGACGGGGTGCTGCAAGGGGAGCGGCTGCTCACCATGTCCTGCAGTGACAAGATTGCACGCTGGAACGTGGTGGGCATCCAGGGATCACTGCTCAGCATTTTCGTGGAGCCCATTTACTTCTCGAGCATCATCCTGGGCAGCCTTTACCACGGGGACCACCTTTCCAGGGCCATGTACCAGCGGATCTCCAACATAGAGGACCTGCCACCTCTCTACACCCTCAACAAGCCTTTGCTCAGTGGCATCAGCAATGCAGAAGCACGGCAGCCAGGGAAGGCCCCCAACTTCAGTGTCAACTGGACGGTAGGCGACTCCGCTATTGAGGTCATCAACGCCACGACTGGGAAGGATGAGCTGGGCCGCGCGTCCCGCCTGTGTAAGCACGCGTTGTACTGTCGCTGGATGCGTGTGCACGGCAAGGTTCCCTCCCACTTACTACGCTCCAAGATTACCAAGCCCAACGTGTACCATGAGTCCAAGCTGGCGGCAAAGGAGTACCAGGCCGCCAAGGCGCGTCTGTTCACAGCCTTCATCAAGGCGGGGCTGGGGGCCTGGGTGGAGAAGCCCACCGAGCAGGACCAGTTCTCACTCACGTACCCATACGACGTACCAGATTACGCTTAA(SEQ ID NO:41)
为了能直观检测eABE的编辑活性,我们在野生型mCherry编码序列中制造一个终止密码子(TAG)来破坏完整mCherry的翻译(请参见SEQ ID NO:42中的加粗双下划线的序列),因此在TAG突变没有修复前,突变的mCherry*基因无法产生有荧光的蛋白,只有在eABE将A编辑为G才会恢复mCherry的正常翻译,从而产生有荧光的蛋白。示意图见图12和图14。在设计针对TAG突变位点的crRNA后,将编码eABE的pCX530质粒、sgRNA(crRNA)的pCX537(gRNA-1)/Cx538(gRNA-2)质粒和mCherry*报告质粒pCX337共转染到HEK293T细胞中。将转染的HEK293T细胞在37℃、5%CO2的条件下培养24小时,然后用流式细胞术分离出恢复mCherry荧光表达的细胞,并提取RNA进行逆转录和PCR扩增及测序分析。参见图12的说明。流式细胞术的分析结果请见图13。
流式和测序结果表明,gRNA-1(SEQ ID NO:43)和gRNA-2(SEQ ID NO:44)均成功校正了引入的TAG终止密码子,恢复mCherry正常翻译表达。
caagtagtcggggatgtcggcggggtgcttcacCtaggccttggagccgtGCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:43)
cggggatgtcggcggggtgcttcacCtaggccttggagccgtacatgaacGCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:44)
实施例6使用缩短的dCas13e.1-ADAR2DD Fusion的单碱基RNA编辑
为了构建迷你版的eABE单碱基编辑器,通过截短dCas13e.1制备了一系列的突变体,首先对dCas13e.1的C端开始以30氨基酸为步长进行截短,这样便产生了C端缺失30、60、90、120和150个残基的五个突变体,然后分别与高保真ADAR2dd*进行融合构建截短版eABE,将这些eABE的构建质粒分别命名为Vysz-19(“V19”)至Vysz15(“V15”)(见图15),在这些质粒中,融合基因均从CMV启动子(pCMV)和增强子(eCMV)后的内含子开始转录表达。截短的eABE的两端均融合了核定位序列(NLS),ADAR2dd*融合在截短的dCas13e.1的C端,并使用polyA终止转录。同时,这些质粒还带有一个单独由EFS启动的GFP表达原件来指示细胞转染阳性的细胞。
实验结果发现,随着dCas13e的C端缺失长度逐渐增加,上述的截短版eABE的编辑活性却有所升高,其中,C端150个氨基酸缺失的编辑器V19表现出最高的碱基编辑活性。请见图16。然而,当C端截短长度达180个氨基酸时,碱基编辑活性几乎完全丧失,这表明dCas13e.1的最长可容忍的缺失长度在150-180个残基之间。
在C端缺失150氨基酸的突变体基础上,我们接着构建了一系列N端缺失的突变体。共生成了7个这样的N端缺失突变体,它们分别在N端有30、60、90、120、150、180和210个残基缺失。请见图17。图18的结果显示,同时含有N端180个残基和C端150个残基缺失的突变体具有最佳的碱基编辑活性,原长775a.a.的Cas13e.1蛋白在截短330个残基后变成一个仅有445a.a.的迷你版dCas13e.1,而且与ADAR2dd*融合后的eABE具有最佳的编辑活性。
实施例7用不同Cas13蛋白比较哺乳动物内源性mRNA的敲除效率
本实验表明,Cas13e和Cas13f蛋白(尤其是Cas13f.1)在敲除哺乳动物内源性靶mRNA方面非常有效,优于先前鉴定的Cas13蛋白。
具体而言,我们构建了五个质粒,每个质粒表达一种Cas13蛋白,即Cas13e.1(SEQID NO:22)、Cas13f.1(SEQ ID NO:24)、LwaCas13a(SEQ ID NO:45)、PspCas13b(SEQ ID ID:46)、RxCas13d(SEQ ID NO:47)。每个质粒还编码其mCherry报告基因,以及每个Cas13蛋白的相应sgRNA/crRNA的编码序列,该编码序列位于两个天然DR序列的侧翼。这些sgRNA被设计为具有靶向ANXA4mRNA的间隔区序列。参见SEQ ID NO:48-50。作为阴性对照,我们还构建了5个其他质粒,每个质粒编码非靶向的sgRNA/crRNA,而非编码靶向ANXA4的sgRNA/crRNA(即“对照NT构建体”)。请见图19。
ATGCCCAAGAAGAAGCGGAAGGTGGGATCCATGAAAGTGACCAAGGTCGATGGCATCAGCCACAAGAAGTACATCGAAGAGGGCAAGCTCGTGAAGTCCACCAGCGAGGAAAACCGGACCAGCGAGAGACTGAGCGAGCTGCTGAGCATCCGGCTGGACATCTACATCAAGAACCCCGACAACGCCTCCGAGGAAGAGAACCGGATCAGAAGAGAGAACCTGAAGAAGTTCTTTAGCAACAAGGTGCTGCACCTGAAGGACAGCGTGCTGTATCTGAAGAACCGGAAAGAAAAGAACGCCGTGCAGGACAAGAACTATAGCGAAGAGGACATCAGCGAGTACGACCTGAAAAACAAGAACAGCTTCTCCGTGCTGAAGAAGATCCTGCTGAACGAGGACGTGAACTCTGAGGAACTGGAAATCTTTCGGAAGGACGTGGAAGCCAAGCTGAACAAGATCAACAGCCTGAAGTACAGCTTCGAAGAGAACAAGGCCAACTACCAGAAGATCAACGAGAACAACGTGGAAAAAGTGGGCGGCAAGAGCAAGCGGAACATCATCTACGACTACTACAGAGAGAGCGCCAAGCGCAACGACTACATCAACAACGTGCAGGAAGCCTTCGACAAGCTGTATAAGAAAGAGGATATCGAGAAACTGTTTTTCCTGATCGAGAACAGCAAGAAGCACGAGAAGTACAAGATCCGCGAGTACTATCACAAGATCATCGGCCGGAAGAACGACAAAGAGAACTTCGCCAAGATTATCTACGAAGAGATCCAGAACGTGAACAACATCAAAGAGCTGATTGAGAAGATCCCCGACATGTCTGAGCTGAAGAAAAGCCAGGTGTTCTACAAGTACTACCTGGACAAAGAGGAACTGAACGACAAGAATATTAAGTACGCCTTCTGCCACTTCGTGGAAATCGAGATGTCCCAGCTGCTGAAAAACTACGTGTACAAGCGGCTGAGCAACATCAGCAACGATAAGATCAAGCGGATCTTCGAGTACCAGAATCTGAAAAAGCTGATCGAAAACAAACTGCTGAACAAGCTGGACACCTACGTGCGGAACTGCGGCAAGTACAACTACTATCTGCAAGTGGGCGAGATCGCCACCTCCGACTTTATCGCCCGGAACCGGCAGAACGAGGCCTTCCTGAGAAACATCATCGGCGTGTCCAGCGTGGCCTACTTCAGCCTGAGGAACATCCTGGAAACCGAGAACGAGAACGATATCACCGGCCGGATGCGGGGCAAGACCGTGAAGAACAACAAGGGCGAAGAGAAATACGTGTCCGGCGAGGTGGACAAGATCTACAATGAGAACAAGCAGAACGAAGTGAAAGAAAATCTGAAGATGTTCTACAGCTACGACTTCAACATGGACAACAAGAACGAGATCGAGGACTTCTTCGCCAACATCGACGAGGCCATCAGCAGCATCAGACACGGCATCGTGCACTTCAACCTGGAACTGGAAGGCAAGGACATCTTCGCCTTCAAGAATATCGCCCCCAGCGAGATCTCCAAGAAGATGTTTCAGAACGAAATCAACGAAAAGAAGCTGAAGCTGAAAATCTTCAAGCAGCTGAACAGCGCCAACGTGTTCAACTACTACGAGAAGGATGTGATCATCAAGTACCTGAAGAATACCAAGTTCAACTTCGTGAACAAAAACATCCCCTTCGTGCCCAGCTTCACCAAGCTGTACAACAAGATTGAGGACCTGCGGAATACCCTGAAGTTTTTTTGGAGCGTGCCCAAGGACAAAGAAGAGAAGGACGCCCAGATCTACCTGCTGAAGAATATCTACTACGGCGAGTTCCTGAACAAGTTCGTGAAAAACTCCAAGGTGTTCTTTAAGATCACCAATGAAGTGATCAAGATTAACAAGCAGCGGAACCAGAAAACCGGCCACTACAAGTATCAGAAGTTCGAGAACATCGAGAAAACCGTGCCCGTGGAATACCTGGCCATCATCCAGAGCAGAGAGATGATCAACAACCAGGACAAAGAGGAAAAGAATACCTACATCGACTTTATTCAGCAGATTTTCCTGAAGGGCTTCATCGACTACCTGAACAAGAACAATCTGAAGTATATCGAGAGCAACAACAACAATGACAACAACGACATCTTCTCCAAGATCAAGATCAAAAAGGATAACAAAGAGAAGTACGACAAGATCCTGAAGAACTATGAGAAGCACAATCGGAACAAAGAAATCCCTCACGAGATCAATGAGTTCGTGCGCGAGATCAAGCTGGGGAAGATTCTGAAGTACACCGAGAATCTGAACATGTTTTACCTGATCCTGAAGCTGCTGAACCACAAAGAGCTGACCAACCTGAAGGGCAGCCTGGAAAAGTACCAGTCCGCCAACAAAGAAGAAACCTTCAGCGACGAGCTGGAACTGATCAACCTGCTGAACCTGGACAACAACAGAGTGACCGAGGACTTCGAGCTGGAAGCCAACGAGATCGGCAAGTTCCTGGACTTCAACGAAAACAAAATCAAGGACCGGAAAGAGCTGAAAAAGTTCGACACCAACAAGATCTATTTCGACGGCGAGAACATCATCAAGCACCGGGCCTTCTACAATATCAAGAAATACGGCATGCTGAATCTGCTGGAAAAGATCGCCGATAAGGCCAAGTATAAGATCAGCCTGAAAGAACTGAAAGAGTACAGCAACAAGAAGAATGAGATTGAAAAGAACTACACCATGCAGCAGAACCTGCACCGGAAGTACGCCAGACCCAAGAAGGACGAAAAGTTCAACGACGAGGACTACAAAGAGTATGAGAAGGCCATCGGCAACATCCAGAAGTACACCCACCTGAAGAACAAGGTGGAATTCAATGAGCTGAACCTGCTGCAGGGCCTGCTGCTGAAGATCCTGCACCGGCTCGTGGGCTACACCAGCATCTGGGAGCGGGACCTGAGATTCCGGCTGAAGGGCGAGTTTCCCGAGAACCACTACATCGAGGAAATTTTCAATTTCGACAACTCCAAGAATGTGAAGTACAAAAGCGGCCAGATCGTGGAAAAGTATATCAACTTCTACAAAGAACTGTACAAGGACAATGTGGAAAAGCGGAGCATCTACTCCGACAAGAAAGTGAAGAAACTGAAGCAGGAAAAAAAGGACCTGTACATCCGGAACTACATTGCCCACTTCAACTACATCCCCCACGCCGAGATTAGCCTGCTGGAAGTGCTGGAAAACCTGCGGAAGCTGCTGTCCTACGACCGGAAGCTGAAGAACGCCATCATGAAGTCCATCGTGGACATTCTGAAAGAATACGGCTTCGTGGCCACCTTCAAGATCGGCGCTGACAAGAAGATCGAAATCCAGACCCTGGAATCAGAGAAGATCGTGCACCTGAAGAATCTGAAGAAAAAGAAACTGATGACCGACCGGAACAGCGAGGAACTGTGCGAACTCGTGAAAGTCATGTTCGAGTACAAGGCCCTGGAATGA(SEQ ID NO:45)
ATGCCCAAGAAGAAGCGGAAGGTGGTCGACAACATCCCCGCTCTGGTGGAAAACCAGAAGAAGTACTTTGGCACCTACAGCGTGATGGCCATGCTGAACGCTCAGACCGTGCTGGACCACATCCAGAAGGTGGCCGATATTGAGGGCGAGCAGAACGAGAACAACGAGAATCTGTGGTTTCACCCCGTGATGAGCCACCTGTACAACGCCAAGAACGGCTACGACAAGCAGCCCGAGAAAACCATGTTCATCATCGAGCGGCTGCAGAGCTACTTCCCATTCCTGAAGATCATGGCCGAGAACCAGAGAGAGTACAGCAACGGCAAGTACAAGCAGAACCGCGTGGAAGTGAACAGCAACGACATCTTCGAGGTGCTGAAGCGCGCCTTCGGCGTGCTGAAGATGTACAGGGACCTGACCAACCACTACAAGACCTACGAGGAAAAGCTGAACGACGGCTGCGAGTTCCTGACCAGCACAGAGCAACCTCTGAGCGGCATGATCAACAACTACTACACAGTGGCCCTGCGGAACATGAACGAGAGATACGGCTACAAGACAGAGGACCTGGCCTTCATCCAGGACAAGCGGTTCAAGTTCGTGAAGGACGCCTACGGCAAGAAAAAGTCCCAAGTGAATACCGGATTCTTCCTGAGCCTGCAGGACTACAACGGCGACACACAGAAGAAGCTGCACCTGAGCGGAGTGGGAATCGCCCTGCTGATCTGCCTGTTCCTGGACAAGCAGTACATCAACATCTTTCTGAGCAGGCTGCCCATCTTCTCCAGCTACAATGCCCAGAGCGAGGAACGGCGGATCATCATCAGATCCTTCGGCATCAACAGCATCAAGCTGCCCAAGGACCGGATCCACAGCGAGAAGTCCAACAAGAGCGTGGCCATGGATATGCTCAACGAAGTGAAGCGGTGCCCCGACGAGCTGTTCACAACACTGTCTGCCGAGAAGCAGTCCCGGTTCAGAATCATCAGCGACGACCACAATGAAGTGCTGATGAAGCGGAGCAGCGACAGATTCGTGCCTCTGCTGCTGCAGTATATCGATTACGGCAAGCTGTTCGACCACATCAGGTTCCACGTGAACATGGGCAAGCTGAGATACCTGCTGAAGGCCGACAAGACCTGCATCGACGGCCAGACCAGAGTCAGAGTGATCGAGCAGCCCCTGAACGGCTTCGGCAGACTGGAAGAGGCCGAGACAATGCGGAAGCAAGAGAACGGCACCTTCGGCAACAGCGGCATCCGGATCAGAGACTTCGAGAACATGAAGCGGGACGACGCCAATCCTGCCAACTATCCCTACATCGTGGACACCTACACACACTACATCCTGGAAAACAACAAGGTCGAGATGTTTATCAACGACAAAGAGGACAGCGCCCCACTGCTGCCCGTGATCGAGGATGATAGATACGTGGTCAAGACAATCCCCAGCTGCCGGATGAGCACCCTGGAAATTCCAGCCATGGCCTTCCACATGTTTCTGTTCGGCAGCAAGAAAACCGAGAAGCTGATCGTGGACGTGCACAACCGGTACAAGAGACTGTTCCAGGCCATGCAGAAAGAAGAAGTGACCGCCGAGAATATCGCCAGCTTCGGAATCGCCGAGAGCGACCTGCCTCAGAAGATCCTGGATCTGATCAGCGGCAATGCCCACGGCAAGGATGTGGACGCCTTCATCAGACTGACCGTGGACGACATGCTGACCGACACCGAGCGGAGAATCAAGAGATTCAAGGACGACCGGAAGTCCATTCGGAGCGCCGACAACAAGATGGGAAAGAGAGGCTTCAAGCAGATCTCCACAGGCAAGCTGGCCGACTTCCTGGCCAAGGACATCGTGCTGTTTCAGCCCAGCGTGAACGATGGCGAGAACAAGATCACCGGCCTGAACTACCGGATCATGCAGAGCGCCATTGCCGTGTACGATAGCGGCGACGATTACGAGGCCAAGCAGCAGTTCAAGCTGATGTTCGAGAAGGCCCGGCTGATCGGCAAGGGCACAACAGAGCCTCATCCATTTCTGTACAAGGTGTTCGCCCGCAGCATCCCCGCCAATGCCGTCGAGTTCTACGAGCGCTACCTGATCGAGCGGAAGTTCTACCTGACCGGCCTGTCCAACGAGATCAAGAAAGGCAACAGAGTGGATGTGCCCTTCATCCGGCGGGACCAGAACAAGTGGAAAACACCCGCCATGAAAACCCTGGGCAGAATCTACAGCGAGGATCTGCCCGTGGAACTGCCCAGACAGATGTTCGACAATGAGATCAAGTCCCACCTGAAGTCCCTGCCACAGATGGAAGGCATCGACTTCAACAATGCCAACGTGACCTATCTGATCGCCGAGTACATGAAGAGAGTGCTGGACGACGACTTCCAGACCTTCTACCAGTGGAACCGCAACTACCGGTACATGGACATGCTTAAGGGCGAGTACGACAGAAAGGGCTCCCTGCAGCACTGCTTCACCAGCGTGGAAGAGAGAGAAGGCCTCTGGAAAGAGCGGGCCTCCAGAACAGAGCGGTACAGAAAGCAGGCCAGCAACAAGATCCGCAGCAACCGGCAGATGAGAAACGCCAGCAGCGAAGAGATCGAGACAATCCTGGATAAGCGGCTGAGCAACAGCCGGAACGAGTACCAGAAAAGCGAGAAAGTGATCCGGCGCTACAGAGTGCAGGATGCCCTGCTGTTTCTGCTGGCCAAAAAGACCCTGACCGAACTGGCCGATTTCGACGGCGAGAGGTTCAAACTGAAAGAAATCATGCCCGACGCCGAGAAGGGAATCCTGAGCGAGATCATGCCCATGAGCTTCACCTTCGAGAAAGGCGGCAAGAAGTACACCATCACCAGCGAGGGCATGAAGCTGAAGAACTACGGCGACTTCTTTGTGCTGGCTAGCGACAAGAGGATCGGCAACCTGCTGGAACTCGTGGGCAGCGACATCGTGTCCAAAGAGGATATCATGGAAGAGTTCAACAAATACGACCAGTGCAGGCCCGAGATCAGCTCCATCGTGTTCAACCTGGAAAAGTGGGCCTTCGACACATACCCCGAGCTGTCTGCCAGAGTGGACCGGGAAGAGAAGGTGGACTTCAAGAGCATCCTGAAAATCCTGCTGAACAACAAGAACATCAACAAAGAGCAGAGCGACATCCTGCGGAAGATCCGGAACGCCTTCGATCACAACAATTACCCCGACAAAGGCGTGGTGGAAATCAAGGCCCTGCCTGAGATCGCCATGAGCATCAAGAAGGCCTTTGGGGAGTACGCCATCATGAAGGGATCCCTTCAATGA(SEQ ID NO:46)
ATGCCTAAAAAGAAAAGAAAGGTGGGTTCTGGTATCGAGAAGAAGAAGAGCTTCGCCAAGGGCATGGGAGTGAAGAGCACCCTGGTGTCCGGCTCTAAGGTGTACATGACCACATTTGCTGAGGGAAGCGACGCCAGGCTGGAGAAGATCGTGGAGGGCGATAGCATCAGATCCGTGAACGAGGGAGAGGCTTTCAGCGCCGAGATGGCTGACAAGAACGCTGGCTACAAGATCGGAAACGCCAAGTTTTCCCACCCAAAGGGCTACGCCGTGGTGGCTAACAACCCACTGTACACCGGACCAGTGCAGCAGGACATGCTGGGACTGAAGGAGACACTGGAGAAGAGGTACTTCGGCGAGTCCGCCGACGGAAACGATAACATCTGCATCCAGGTCATCCACAACATCCTGGATATCGAGAAGATCCTGGCTGAGTACATCACAAACGCCGCTTACGCCGTGAACAACATCTCCGGCCTGGACAAGGATATCATCGGCTTCGGAAAGTTTTCTACCGTGTACACATACGACGAGTTCAAGGATCCAGAGCACCACCGGGCCGCTTTTAACAACAACGACAAGCTGATCAACGCCATCAAGGCTCAGTACGACGAGTTCGATAACTTTCTGGATAACCCCAGGCTGGGCTACTTCGGACAGGCTTTCTTTTCTAAGGAGGGCAGAAACTACATCATCAACTACGGAAACGAGTGTTACGACATCCTGGCCCTGCTGAGCGGACTGAGGCACTGGGTGGTGCACAACAACGAGGAGGAGTCTCGGATCAGCCGCACCTGGCTGTACAACCTGGACAAGAACCTGGATAACGAGTACATCTCCACACTGAACTACCTGTACGACAGGATCACCAACGAGCTGACAAACAGCTTCTCCAAGAACTCTGCCGCTAACGTGAACTACATCGCTGAGACCCTGGGCATCAACCCAGCTGAGTTCGCTGAGCAGTACTTCAGATTTTCCATCATGAAGGAGCAGAAGAACCTGGGCTTCAACATCACAAAGCTGAGAGAAGTGATGCTGGACAGAAAGGATATGTCCGAGATCAGGAAGAACCACAAGGTGTTCGATTCTATCAGAACCAAGGTGTACACAATGATGGACTTTGTGATCTACAGGTACTACATCGAGGAGGATGCCAAGGTGGCCGCTGCCAACAAGAGCCTGCCCGACAACGAGAAGTCTCTGAGCGAGAAGGATATCTTCGTGATCAACCTGAGAGGCTCCTTTAACGACGATCAGAAGGACGCTCTGTACTACGATGAGGCCAACAGGATCTGGAGAAAGCTGGAGAACATCATGCACAACATCAAGGAGTTCCGGGGAAACAAGACCCGCGAGTACAAGAAGAAGGACGCTCCAAGGCTGCCTAGGATCCTGCCTGCTGGAAGGGACGTGAGCGCCTTCAGCAAGCTGATGTACGCCCTGACAATGTTTCTGGACGGAAAGGAGATCAACGATCTGCTGACCACACTGATCAACAAGTTCGACAACATCCAGTCTTTTCTGAAAGTGATGCCTCTGATCGGCGTGAACGCTAAGTTCGTGGAGGAGTACGCCTTCTTTAAGGACAGCGCCAAGATCGCTGATGAGCTGCGGCTGATCAAGTCCTTTGCCAGGATGGGAGAGCCAATCGCTGACGCTAGGAGAGCTATGTACATCGATGCCATCCGGATCCTGGGAACCAACCTGTCTTACGACGAGCTGAAGGCTCTGGCCGACACCTTCAGCCTGGATGAGAACGGCAACAAGCTGAAGAAGGGCAAGCACGGAATGCGCAACTTCATCATCAACAACGTGATCAGCAACAAGCGGTTTCACTACCTGATCAGATACGGCGACCCAGCTCACCTGCACGAGATCGCTAAGAACGAGGCCGTGGTGAAGTTCGTGCTGGGACGGATCGCCGATATCCAGAAGAAGCAGGGCCAGAACGGAAAGAACCAGATCGACCGCTACTACGAGACCTGCATCGGCAAGGATAAGGGAAAGTCCGTGTCTGAGAAGGTGGACGCTCTGACCAAGATCATCACAGGCATGAACTACGACCAGTTCGATAAGAAGAGATCTGTGATCGAGGACACCGGAAGGGAGAACGCCGAGAGAGAGAAGTTTAAGAAGATCATCAGCCTGTACCTGACAGTGATCTACCACATCCTGAAGAACATCGTGAACATCAACGCTAGATACGTGATCGGCTTCCACTGCGTGGAGCGCGATGCCCAGCTGTACAAGGAGAAGGGATACGACATCAACCTGAAGAAGCTGGAGGAGAAGGGCTTTAGCTCCGTGACCAAGCTGTGCGCTGGAATCGACGAGACAGCCCCCGACAAGAGGAAGGATGTGGAGAAGGAGATGGCCGAGAGAGCTAAGGAGAGCATCGACTCCCTGGAGTCTGCTAACCCTAAGCTGTACGCCAACTACATCAAGTACTCCGATGAGAAGAAGGCCGAGGAGTTCACCAGGCAGATCAACAGAGAGAAGGCCAAGACCGCTCTGAACGCCTACCTGAGGAACACAAAGTGGAACGTGATCATCCGGGAGGACCTGCTGCGCATCGATAACAAGACCTGTACACTGTTCCGGAACAAGGCTGTGCACCTGGAGGTGGCTCGCTACGTGCACGCCTACATCAACGACATCGCCGAGGTGAACTCCTACTTTCAGCTGTACCACTACATCATGCAGAGGATCATCATGAACGAGAGATACGAGAAGTCTAGCGGCAAGGTGTCTGAGTACTTCGACGCCGTGAACGATGAGAAGAAGTACAACGATAGACTGCTGAAGCTGCTGTGCGTGCCTTTCGGATACTGTATCCCACGGTTTAAGAACCTGAGCATCGAGGCCCTGTTCGACCGCAACGAGGCTGCCAAGTTTGATAAGGAGAAGAAGAAGGTGAGCGGCAACTCCTGA(SEQ ID NO:47)
ATGGCCCTTCGCAGCTCTTGCACGTCATAC(SEQ ID NO:48)
TTAGGCAGCCCTCATCAGTGCCGGCTCCCT(SEQ ID NO:49)
GGCCAGGATCTCAATTAGGCAGCCCTCATC(SEQ ID NO:50)
如实施例4中所述,5个Cas13/sgRNA编码质粒被转染到HEK293细胞中。培养24小时后,通过流式细胞术分离出表达mCherry的细胞,然后用RT-PCR确定ANXA4mRNA的表达来评估敲低效率,与Cas13/NT编码质粒转染的对照细胞相比较。
图20显示,Cas13b仅具有少量ANXA4mRNA敲低,而Cas13e.1、Cas13f.1、Cas13d分别具有超过80%的靶标ANXA4mRNA敲低。其中Cas13e.1显示具有最强的敲低效率。
序列表
<110> 中国科学院脑科学与智能技术卓越创新中心
<120> VI-E型和VI-F型CRISPR-Cas系统及用途
<130> 202656
<150> PCT/CN2020/077211
<151> 2020-02-28
<160> 50
<170> SIPOSequenceListing 1.0
<210> 1
<211> 775
<212> PRT
<213> 宏基因组(metagenomic)
<400> 1
Met Ala Gln Val Ser Lys Gln Thr Ser Lys Lys Arg Glu Leu Ser Ile
1 5 10 15
Asp Glu Tyr Gln Gly Ala Arg Lys Trp Cys Phe Thr Ile Ala Phe Asn
20 25 30
Lys Ala Leu Val Asn Arg Asp Lys Asn Asp Gly Leu Phe Val Glu Ser
35 40 45
Leu Leu Arg His Glu Lys Tyr Ser Lys His Asp Trp Tyr Asp Glu Asp
50 55 60
Thr Arg Ala Leu Ile Lys Cys Ser Thr Gln Ala Ala Asn Ala Lys Ala
65 70 75 80
Glu Ala Leu Arg Asn Tyr Phe Ser His Tyr Arg His Ser Pro Gly Cys
85 90 95
Leu Thr Phe Thr Ala Glu Asp Glu Leu Arg Thr Ile Met Glu Arg Ala
100 105 110
Tyr Glu Arg Ala Ile Phe Glu Cys Arg Arg Arg Glu Thr Glu Val Ile
115 120 125
Ile Glu Phe Pro Ser Leu Phe Glu Gly Asp Arg Ile Thr Thr Ala Gly
130 135 140
Val Val Phe Phe Val Ser Phe Phe Val Glu Arg Arg Val Leu Asp Arg
145 150 155 160
Leu Tyr Gly Ala Val Ser Gly Leu Lys Lys Asn Glu Gly Gln Tyr Lys
165 170 175
Leu Thr Arg Lys Ala Leu Ser Met Tyr Cys Leu Lys Asp Ser Arg Phe
180 185 190
Thr Lys Ala Trp Asp Lys Arg Val Leu Leu Phe Arg Asp Ile Leu Ala
195 200 205
Gln Leu Gly Arg Ile Pro Ala Glu Ala Tyr Glu Tyr Tyr His Gly Glu
210 215 220
Gln Gly Asp Lys Lys Arg Ala Asn Asp Asn Glu Gly Thr Asn Pro Lys
225 230 235 240
Arg His Lys Asp Lys Phe Ile Glu Phe Ala Leu His Tyr Leu Glu Ala
245 250 255
Gln His Ser Glu Ile Cys Phe Gly Arg Arg His Ile Val Arg Glu Glu
260 265 270
Ala Gly Ala Gly Asp Glu His Lys Lys His Arg Thr Lys Gly Lys Val
275 280 285
Val Val Asp Phe Ser Lys Lys Asp Glu Asp Gln Ser Tyr Tyr Ile Ser
290 295 300
Lys Asn Asn Val Ile Val Arg Ile Asp Lys Asn Ala Gly Pro Arg Ser
305 310 315 320
Tyr Arg Met Gly Leu Asn Glu Leu Lys Tyr Leu Val Leu Leu Ser Leu
325 330 335
Gln Gly Lys Gly Asp Asp Ala Ile Ala Lys Leu Tyr Arg Tyr Arg Gln
340 345 350
His Val Glu Asn Ile Leu Asp Val Val Lys Val Thr Asp Lys Asp Asn
355 360 365
His Val Phe Leu Pro Arg Phe Val Leu Glu Gln His Gly Ile Gly Arg
370 375 380
Lys Ala Phe Lys Gln Arg Ile Asp Gly Arg Val Lys His Val Arg Gly
385 390 395 400
Val Trp Glu Lys Lys Lys Ala Ala Thr Asn Glu Met Thr Leu His Glu
405 410 415
Lys Ala Arg Asp Ile Leu Gln Tyr Val Asn Glu Asn Cys Thr Arg Ser
420 425 430
Phe Asn Pro Gly Glu Tyr Asn Arg Leu Leu Val Cys Leu Val Gly Lys
435 440 445
Asp Val Glu Asn Phe Gln Ala Gly Leu Lys Arg Leu Gln Leu Ala Glu
450 455 460
Arg Ile Asp Gly Arg Val Tyr Ser Ile Phe Ala Gln Thr Ser Thr Ile
465 470 475 480
Asn Glu Met His Gln Val Val Cys Asp Gln Ile Leu Asn Arg Leu Cys
485 490 495
Arg Ile Gly Asp Gln Lys Leu Tyr Asp Tyr Val Gly Leu Gly Lys Lys
500 505 510
Asp Glu Ile Asp Tyr Lys Gln Lys Val Ala Trp Phe Lys Glu His Ile
515 520 525
Ser Ile Arg Arg Gly Phe Leu Arg Lys Lys Phe Trp Tyr Asp Ser Lys
530 535 540
Lys Gly Phe Ala Lys Leu Val Glu Glu His Leu Glu Ser Gly Gly Gly
545 550 555 560
Gln Arg Asp Val Gly Leu Asp Lys Lys Tyr Tyr His Ile Asp Ala Ile
565 570 575
Gly Arg Phe Glu Gly Ala Asn Pro Ala Leu Tyr Glu Thr Leu Ala Arg
580 585 590
Asp Arg Leu Cys Leu Met Met Ala Gln Tyr Phe Leu Gly Ser Val Arg
595 600 605
Lys Glu Leu Gly Asn Lys Ile Val Trp Ser Asn Asp Ser Ile Glu Leu
610 615 620
Pro Val Glu Gly Ser Val Gly Asn Glu Lys Ser Ile Val Phe Ser Val
625 630 635 640
Ser Asp Tyr Gly Lys Leu Tyr Val Leu Asp Asp Ala Glu Phe Leu Gly
645 650 655
Arg Ile Cys Glu Tyr Phe Met Pro His Glu Lys Gly Lys Ile Arg Tyr
660 665 670
His Thr Val Tyr Glu Lys Gly Phe Arg Ala Tyr Asn Asp Leu Gln Lys
675 680 685
Lys Cys Val Glu Ala Val Leu Ala Phe Glu Glu Lys Val Val Lys Ala
690 695 700
Lys Lys Met Ser Glu Lys Glu Gly Ala His Tyr Ile Asp Phe Arg Glu
705 710 715 720
Ile Leu Ala Gln Thr Met Cys Lys Glu Ala Glu Lys Thr Ala Val Asn
725 730 735
Lys Val Arg Arg Ala Phe Phe His His His Leu Lys Phe Val Ile Asp
740 745 750
Glu Phe Gly Leu Phe Ser Asp Val Met Lys Lys Tyr Gly Ile Glu Lys
755 760 765
Glu Trp Lys Phe Pro Val Lys
770 775
<210> 2
<211> 805
<212> PRT
<213> 宏基因组(metagenomic)
<400> 2
Met Lys Val Glu Asn Ile Lys Glu Lys Ser Lys Lys Ala Met Tyr Leu
1 5 10 15
Ile Asn His Tyr Glu Gly Pro Lys Lys Trp Cys Phe Ala Ile Val Leu
20 25 30
Asn Arg Ala Cys Asp Asn Tyr Glu Asp Asn Pro His Leu Phe Ser Lys
35 40 45
Ser Leu Leu Glu Phe Glu Lys Thr Ser Arg Lys Asp Trp Phe Asp Glu
50 55 60
Glu Thr Arg Glu Leu Val Glu Gln Ala Asp Thr Glu Ile Gln Pro Asn
65 70 75 80
Pro Asn Leu Lys Pro Asn Thr Thr Ala Asn Arg Lys Leu Lys Asp Ile
85 90 95
Arg Asn Tyr Phe Ser His His Tyr His Lys Asn Glu Cys Leu Tyr Phe
100 105 110
Lys Asn Asp Asp Pro Ile Arg Cys Ile Met Glu Ala Ala Tyr Glu Lys
115 120 125
Ser Lys Ile Tyr Ile Lys Gly Lys Gln Ile Glu Gln Ser Asp Ile Pro
130 135 140
Leu Pro Glu Leu Phe Glu Ser Ser Gly Trp Ile Thr Pro Ala Gly Ile
145 150 155 160
Leu Leu Leu Ala Ser Phe Phe Val Glu Arg Gly Ile Leu His Arg Leu
165 170 175
Met Gly Asn Ile Gly Gly Phe Lys Asp Asn Arg Gly Glu Tyr Gly Leu
180 185 190
Thr His Asp Ile Phe Thr Thr Tyr Cys Leu Lys Gly Ser Tyr Ser Ile
195 200 205
Arg Ala Gln Asp His Asp Ala Val Met Phe Arg Asp Ile Leu Gly Tyr
210 215 220
Leu Ser Arg Val Pro Thr Glu Ser Phe Gln Arg Ile Lys Gln Pro Gln
225 230 235 240
Ile Arg Lys Glu Gly Gln Leu Ser Glu Arg Lys Thr Asp Lys Phe Ile
245 250 255
Thr Phe Ala Leu Asn Tyr Leu Glu Asp Tyr Gly Leu Lys Asp Leu Glu
260 265 270
Gly Cys Lys Ala Cys Phe Ala Arg Ser Lys Ile Val Arg Glu Gln Glu
275 280 285
Asn Val Glu Ser Ile Asn Asp Lys Glu Tyr Lys Pro His Glu Asn Lys
290 295 300
Lys Lys Val Glu Ile His Phe Asp Gln Ser Lys Glu Asp Arg Phe Tyr
305 310 315 320
Ile Asn Arg Asn Asn Val Ile Leu Lys Ile Gln Lys Lys Asp Gly His
325 330 335
Ser Asn Ile Val Arg Met Gly Val Tyr Glu Leu Lys Tyr Leu Val Leu
340 345 350
Met Ser Leu Val Gly Lys Ala Lys Glu Ala Val Glu Lys Ile Asp Asn
355 360 365
Tyr Ile Gln Asp Leu Arg Asp Gln Leu Pro Tyr Ile Glu Gly Lys Asn
370 375 380
Lys Glu Glu Ile Lys Glu Tyr Val Arg Phe Phe Pro Arg Phe Ile Arg
385 390 395 400
Ser His Leu Gly Leu Leu Gln Ile Asn Asp Glu Glu Lys Ile Lys Ala
405 410 415
Arg Leu Asp Tyr Val Lys Thr Lys Trp Leu Asp Lys Lys Glu Lys Ser
420 425 430
Lys Glu Leu Glu Leu His Lys Lys Gly Arg Asp Ile Leu Arg Tyr Ile
435 440 445
Asn Glu Arg Cys Asp Arg Glu Leu Asn Arg Asn Val Tyr Asn Arg Ile
450 455 460
Leu Glu Leu Leu Val Ser Lys Asp Leu Thr Gly Phe Tyr Arg Glu Leu
465 470 475 480
Glu Glu Leu Lys Arg Thr Arg Arg Ile Asp Lys Asn Ile Val Gln Asn
485 490 495
Leu Ser Gly Gln Lys Thr Ile Asn Ala Leu His Glu Lys Val Cys Asp
500 505 510
Leu Val Leu Lys Glu Ile Glu Ser Leu Asp Thr Glu Asn Leu Arg Lys
515 520 525
Tyr Leu Gly Leu Ile Pro Lys Glu Glu Lys Glu Val Thr Phe Lys Glu
530 535 540
Lys Val Asp Arg Ile Leu Lys Gln Pro Val Ile Tyr Lys Gly Phe Leu
545 550 555 560
Arg Tyr Gln Phe Phe Lys Asp Asp Lys Lys Ser Phe Val Leu Leu Val
565 570 575
Glu Asp Ala Leu Lys Glu Lys Gly Gly Gly Cys Asp Val Pro Leu Gly
580 585 590
Lys Glu Tyr Tyr Lys Ile Val Ser Leu Asp Lys Tyr Asp Lys Glu Asn
595 600 605
Lys Thr Leu Cys Glu Thr Leu Ala Met Asp Arg Leu Cys Leu Met Met
610 615 620
Ala Arg Gln Tyr Tyr Leu Ser Leu Asn Ala Lys Leu Ala Gln Glu Ala
625 630 635 640
Gln Gln Ile Glu Trp Lys Lys Glu Asp Ser Ile Glu Leu Ile Ile Phe
645 650 655
Thr Leu Lys Asn Pro Asp Gln Ser Lys Gln Ser Phe Ser Ile Arg Phe
660 665 670
Ser Val Arg Asp Phe Thr Lys Leu Tyr Val Thr Asp Asp Pro Glu Phe
675 680 685
Leu Ala Arg Leu Cys Ser Tyr Phe Phe Pro Val Glu Lys Glu Ile Glu
690 695 700
Tyr His Lys Leu Tyr Ser Glu Gly Ile Asn Lys Tyr Thr Asn Leu Gln
705 710 715 720
Lys Glu Gly Ile Glu Ala Ile Leu Glu Leu Glu Lys Lys Leu Ile Glu
725 730 735
Arg Asn Arg Ile Gln Ser Ala Lys Asn Tyr Leu Ser Phe Asn Glu Ile
740 745 750
Met Asn Lys Ser Gly Tyr Asn Lys Asp Glu Gln Asp Asp Leu Lys Lys
755 760 765
Val Arg Asn Ser Leu Leu His Tyr Lys Leu Ile Phe Glu Lys Glu His
770 775 780
Leu Lys Lys Phe Tyr Glu Val Met Arg Gly Glu Gly Ile Glu Lys Lys
785 790 795 800
Trp Ser Leu Ile Val
805
<210> 3
<211> 790
<212> PRT
<213> 宏基因组(metagenomic)
<400> 3
Met Asn Gly Ile Glu Leu Lys Lys Glu Glu Ala Ala Phe Tyr Phe Asn
1 5 10 15
Gln Ala Glu Leu Asn Leu Lys Ala Ile Glu Asp Asn Ile Phe Asp Lys
20 25 30
Glu Arg Arg Lys Thr Leu Leu Asn Asn Pro Gln Ile Leu Ala Lys Met
35 40 45
Glu Asn Phe Ile Phe Asn Phe Arg Asp Val Thr Lys Asn Ala Lys Gly
50 55 60
Glu Ile Asp Cys Leu Leu Leu Lys Leu Arg Glu Leu Arg Asn Phe Tyr
65 70 75 80
Ser His Tyr Val His Lys Arg Asp Val Arg Glu Leu Ser Lys Gly Glu
85 90 95
Lys Pro Ile Leu Glu Lys Tyr Tyr Gln Phe Ala Ile Glu Ser Thr Gly
100 105 110
Ser Glu Asn Val Lys Leu Glu Ile Ile Glu Asn Asp Ala Trp Leu Ala
115 120 125
Asp Ala Gly Val Leu Phe Phe Leu Cys Ile Phe Leu Lys Lys Ser Gln
130 135 140
Ala Asn Lys Leu Ile Ser Gly Ile Ser Gly Phe Lys Arg Asn Asp Asp
145 150 155 160
Thr Gly Gln Pro Arg Arg Asn Leu Phe Thr Tyr Phe Ser Ile Arg Glu
165 170 175
Gly Tyr Lys Val Val Pro Glu Met Gln Lys His Phe Leu Leu Phe Ser
180 185 190
Leu Val Asn His Leu Ser Asn Gln Asp Asp Tyr Ile Glu Lys Ala His
195 200 205
Gln Pro Tyr Asp Ile Gly Glu Gly Leu Phe Phe His Arg Ile Ala Ser
210 215 220
Thr Phe Leu Asn Ile Ser Gly Ile Leu Arg Asn Met Lys Phe Tyr Thr
225 230 235 240
Tyr Gln Ser Lys Arg Leu Val Glu Gln Arg Gly Glu Leu Lys Arg Glu
245 250 255
Lys Asp Ile Phe Ala Trp Glu Glu Pro Phe Gln Gly Asn Ser Tyr Phe
260 265 270
Glu Ile Asn Gly His Lys Gly Val Ile Gly Glu Asp Glu Leu Lys Glu
275 280 285
Leu Cys Tyr Ala Phe Leu Ile Gly Asn Gln Asp Ala Asn Lys Val Glu
290 295 300
Gly Arg Ile Thr Gln Phe Leu Glu Lys Phe Arg Asn Ala Asn Ser Val
305 310 315 320
Gln Gln Val Lys Asp Asp Glu Met Leu Lys Pro Glu Tyr Phe Pro Ala
325 330 335
Asn Tyr Phe Ala Glu Ser Gly Val Gly Arg Ile Lys Asp Arg Val Leu
340 345 350
Asn Arg Leu Asn Lys Ala Ile Lys Ser Asn Lys Ala Lys Lys Gly Glu
355 360 365
Ile Ile Ala Tyr Asp Lys Met Arg Glu Val Met Ala Phe Ile Asn Asn
370 375 380
Ser Leu Pro Val Asp Glu Lys Leu Lys Pro Lys Asp Tyr Lys Arg Tyr
385 390 395 400
Leu Gly Met Val Arg Phe Trp Asp Arg Glu Lys Asp Asn Ile Lys Arg
405 410 415
Glu Phe Glu Thr Lys Glu Trp Ser Lys Tyr Leu Pro Ser Asn Phe Trp
420 425 430
Thr Ala Lys Asn Leu Glu Arg Val Tyr Gly Leu Ala Arg Glu Lys Asn
435 440 445
Ala Glu Leu Phe Asn Lys Leu Lys Ala Asp Val Glu Lys Met Asp Glu
450 455 460
Arg Glu Leu Glu Lys Tyr Gln Lys Ile Asn Asp Ala Lys Asp Leu Ala
465 470 475 480
Asn Leu Arg Arg Leu Ala Ser Asp Phe Gly Val Lys Trp Glu Glu Lys
485 490 495
Asp Trp Asp Glu Tyr Ser Gly Gln Ile Lys Lys Gln Ile Thr Asp Ser
500 505 510
Gln Lys Leu Thr Ile Met Lys Gln Arg Ile Thr Ala Gly Leu Lys Lys
515 520 525
Lys His Gly Ile Glu Asn Leu Asn Leu Arg Ile Thr Ile Asp Ile Asn
530 535 540
Lys Ser Arg Lys Ala Val Leu Asn Arg Ile Ala Ile Pro Arg Gly Phe
545 550 555 560
Val Lys Arg His Ile Leu Gly Trp Gln Glu Ser Glu Lys Val Ser Lys
565 570 575
Lys Ile Arg Glu Ala Glu Cys Glu Ile Leu Leu Ser Lys Glu Tyr Glu
580 585 590
Glu Leu Ser Lys Gln Phe Phe Gln Ser Lys Asp Tyr Asp Lys Met Thr
595 600 605
Arg Ile Asn Gly Leu Tyr Glu Lys Asn Lys Leu Ile Ala Leu Met Ala
610 615 620
Val Tyr Leu Met Gly Gln Leu Arg Ile Leu Phe Lys Glu His Thr Lys
625 630 635 640
Leu Asp Asp Ile Thr Lys Thr Thr Val Asp Phe Lys Ile Ser Asp Lys
645 650 655
Val Thr Val Lys Ile Pro Phe Ser Asn Tyr Pro Ser Leu Val Tyr Thr
660 665 670
Met Ser Ser Lys Tyr Val Asp Asn Ile Gly Asn Tyr Gly Phe Ser Asn
675 680 685
Lys Asp Lys Asp Lys Pro Ile Leu Gly Lys Ile Asp Val Ile Glu Lys
690 695 700
Gln Arg Met Glu Phe Ile Lys Glu Val Leu Gly Phe Glu Lys Tyr Leu
705 710 715 720
Phe Asp Asp Lys Ile Ile Asp Lys Ser Lys Phe Ala Asp Thr Ala Thr
725 730 735
His Ile Ser Phe Ala Glu Ile Val Glu Glu Leu Val Glu Lys Gly Trp
740 745 750
Asp Lys Asp Arg Leu Thr Lys Leu Lys Asp Ala Arg Asn Lys Ala Leu
755 760 765
His Gly Glu Ile Leu Thr Gly Thr Ser Phe Asp Glu Thr Lys Ser Leu
770 775 780
Ile Asn Glu Leu Lys Lys
785 790
<210> 4
<211> 792
<212> PRT
<213> 宏基因组(metagenomic)
<400> 4
Met Ser Pro Asp Phe Ile Lys Leu Glu Lys Gln Glu Ala Ala Phe Tyr
1 5 10 15
Phe Asn Gln Thr Glu Leu Asn Leu Lys Ala Ile Glu Ser Asn Ile Leu
20 25 30
Asp Lys Gln Gln Arg Met Ile Leu Leu Asn Asn Pro Arg Ile Leu Ala
35 40 45
Lys Val Gly Asn Phe Ile Phe Asn Phe Arg Asp Val Thr Lys Asn Ala
50 55 60
Lys Gly Glu Ile Asp Cys Leu Leu Phe Lys Leu Glu Glu Leu Arg Asn
65 70 75 80
Phe Tyr Ser His Tyr Val His Thr Asp Asn Val Lys Glu Leu Ser Asn
85 90 95
Gly Glu Lys Pro Leu Leu Glu Arg Tyr Tyr Gln Ile Ala Ile Gln Ala
100 105 110
Thr Arg Ser Glu Asp Val Lys Phe Glu Leu Phe Glu Thr Arg Asn Glu
115 120 125
Asn Lys Ile Thr Asp Ala Gly Val Leu Phe Phe Leu Cys Met Phe Leu
130 135 140
Lys Lys Ser Gln Ala Asn Lys Leu Ile Ser Gly Ile Ser Gly Phe Lys
145 150 155 160
Arg Asn Asp Pro Thr Gly Gln Pro Arg Arg Asn Leu Phe Thr Tyr Phe
165 170 175
Ser Ala Arg Glu Gly Tyr Lys Ala Leu Pro Asp Met Gln Lys His Phe
180 185 190
Leu Leu Phe Thr Leu Val Asn Tyr Leu Ser Asn Gln Asp Glu Tyr Ile
195 200 205
Ser Glu Leu Lys Gln Tyr Gly Glu Ile Gly Gln Gly Ala Phe Phe Asn
210 215 220
Arg Ile Ala Ser Thr Phe Leu Asn Ile Ser Gly Ile Ser Gly Asn Thr
225 230 235 240
Lys Phe Tyr Ser Tyr Gln Ser Lys Arg Ile Lys Glu Gln Arg Gly Glu
245 250 255
Leu Asn Ser Glu Lys Asp Ser Phe Glu Trp Ile Glu Pro Phe Gln Gly
260 265 270
Asn Ser Tyr Phe Glu Ile Asn Gly His Lys Gly Val Ile Gly Glu Asp
275 280 285
Glu Leu Lys Glu Leu Cys Tyr Ala Leu Leu Val Ala Lys Gln Asp Ile
290 295 300
Asn Ala Val Glu Gly Lys Ile Met Gln Phe Leu Lys Lys Phe Arg Asn
305 310 315 320
Thr Gly Asn Leu Gln Gln Val Lys Asp Asp Glu Met Leu Glu Ile Glu
325 330 335
Tyr Phe Pro Ala Ser Tyr Phe Asn Glu Ser Lys Lys Glu Asp Ile Lys
340 345 350
Lys Glu Ile Leu Gly Arg Leu Asp Lys Lys Ile Arg Ser Cys Ser Ala
355 360 365
Lys Ala Glu Lys Ala Tyr Asp Lys Met Lys Glu Val Met Glu Phe Ile
370 375 380
Asn Asn Ser Leu Pro Ala Glu Glu Lys Leu Lys Arg Lys Asp Tyr Arg
385 390 395 400
Arg Tyr Leu Lys Met Val Arg Phe Trp Ser Arg Glu Lys Gly Asn Ile
405 410 415
Glu Arg Glu Phe Arg Thr Lys Glu Trp Ser Lys Tyr Phe Ser Ser Asp
420 425 430
Phe Trp Arg Lys Asn Asn Leu Glu Asp Val Tyr Lys Leu Ala Thr Gln
435 440 445
Lys Asn Ala Glu Leu Phe Lys Asn Leu Lys Ala Ala Ala Glu Lys Met
450 455 460
Gly Glu Thr Glu Phe Glu Lys Tyr Gln Gln Ile Asn Asp Val Lys Asp
465 470 475 480
Leu Ala Ser Leu Arg Arg Leu Thr Gln Asp Phe Gly Leu Lys Trp Glu
485 490 495
Glu Lys Asp Trp Glu Glu Tyr Ser Glu Gln Ile Lys Lys Gln Ile Thr
500 505 510
Asp Arg Gln Lys Leu Thr Ile Met Lys Gln Arg Val Thr Ala Glu Leu
515 520 525
Lys Lys Lys His Gly Ile Glu Asn Leu Asn Leu Arg Ile Thr Ile Asp
530 535 540
Ser Asn Lys Ser Arg Lys Ala Val Leu Asn Arg Ile Ala Ile Pro Arg
545 550 555 560
Gly Phe Val Lys Lys His Ile Leu Gly Trp Gln Gly Ser Glu Lys Ile
565 570 575
Ser Lys Asn Ile Arg Glu Ala Glu Cys Lys Ile Leu Leu Ser Lys Lys
580 585 590
Tyr Glu Glu Leu Ser Arg Gln Phe Phe Glu Ala Gly Asn Phe Asp Lys
595 600 605
Leu Thr Gln Ile Asn Gly Leu Tyr Glu Lys Asn Lys Leu Thr Ala Phe
610 615 620
Met Ser Val Tyr Leu Met Gly Arg Leu Asn Ile Gln Leu Asn Lys His
625 630 635 640
Thr Glu Leu Gly Asn Leu Lys Lys Thr Glu Val Asp Phe Lys Ile Ser
645 650 655
Asp Lys Val Thr Glu Lys Ile Pro Phe Ser Gln Tyr Pro Ser Leu Val
660 665 670
Tyr Ala Met Ser Arg Lys Tyr Val Asp Asn Val Asp Lys Tyr Lys Phe
675 680 685
Ser His Gln Asp Lys Lys Lys Pro Phe Leu Gly Lys Ile Asp Ser Ile
690 695 700
Glu Lys Glu Arg Ile Glu Phe Ile Lys Glu Val Leu Asp Phe Glu Glu
705 710 715 720
Tyr Leu Phe Lys Asn Lys Val Ile Asp Lys Ser Lys Phe Ser Asp Thr
725 730 735
Ala Thr His Ile Ser Phe Lys Glu Ile Cys Asp Glu Met Gly Lys Lys
740 745 750
Gly Cys Asn Arg Asn Lys Leu Thr Glu Leu Asn Asn Ala Arg Asn Ala
755 760 765
Ala Leu His Gly Glu Ile Pro Ser Glu Thr Ser Phe Arg Glu Ala Lys
770 775 780
Pro Leu Ile Asn Glu Leu Lys Lys
785 790
<210> 5
<211> 792
<212> PRT
<213> 宏基因组(metagenomic)
<400> 5
Met Ser Pro Asp Phe Ile Lys Leu Glu Lys Gln Glu Ala Ala Phe Tyr
1 5 10 15
Phe Asn Gln Thr Glu Leu Asn Leu Lys Ala Ile Glu Ser Asn Ile Phe
20 25 30
Asp Lys Gln Gln Arg Val Ile Leu Leu Asn Asn Pro Gln Ile Leu Ala
35 40 45
Lys Val Gly Asp Phe Ile Phe Asn Phe Arg Asp Val Thr Lys Asn Ala
50 55 60
Lys Gly Glu Ile Asp Cys Leu Leu Leu Lys Leu Arg Glu Leu Arg Asn
65 70 75 80
Phe Tyr Ser His Tyr Val Tyr Thr Asp Asp Val Lys Ile Leu Ser Asn
85 90 95
Gly Glu Arg Pro Leu Leu Glu Lys Tyr Tyr Gln Phe Ala Ile Glu Ala
100 105 110
Thr Gly Ser Glu Asn Val Lys Leu Glu Ile Ile Glu Ser Asn Asn Arg
115 120 125
Leu Thr Glu Ala Gly Val Leu Phe Phe Leu Cys Met Phe Leu Lys Lys
130 135 140
Ser Gln Ala Asn Lys Leu Ile Ser Gly Ile Ser Gly Phe Lys Arg Asn
145 150 155 160
Asp Pro Thr Gly Gln Pro Arg Arg Asn Leu Phe Thr Tyr Phe Ser Val
165 170 175
Arg Glu Gly Tyr Lys Val Val Pro Asp Met Gln Lys His Phe Leu Leu
180 185 190
Phe Val Leu Val Asn His Leu Ser Gly Gln Asp Asp Tyr Ile Glu Lys
195 200 205
Ala Gln Lys Pro Tyr Asp Ile Gly Glu Gly Leu Phe Phe His Arg Ile
210 215 220
Ala Ser Thr Phe Leu Asn Ile Ser Gly Ile Leu Arg Asn Met Glu Phe
225 230 235 240
Tyr Ile Tyr Gln Ser Lys Arg Leu Lys Glu Gln Gln Gly Glu Leu Lys
245 250 255
Arg Glu Lys Asp Ile Phe Pro Trp Ile Glu Pro Phe Gln Gly Asn Ser
260 265 270
Tyr Phe Glu Ile Asn Gly Asn Lys Gly Ile Ile Gly Glu Asp Glu Leu
275 280 285
Lys Glu Leu Cys Tyr Ala Leu Leu Val Ala Gly Lys Asp Val Arg Ala
290 295 300
Val Glu Gly Lys Ile Thr Gln Phe Leu Glu Lys Phe Lys Asn Ala Asp
305 310 315 320
Asn Ala Gln Gln Val Glu Lys Asp Glu Met Leu Asp Arg Asn Asn Phe
325 330 335
Pro Ala Asn Tyr Phe Ala Glu Ser Asn Ile Gly Ser Ile Lys Glu Lys
340 345 350
Ile Leu Asn Arg Leu Gly Lys Thr Asp Asp Ser Tyr Asn Lys Thr Gly
355 360 365
Thr Lys Ile Lys Pro Tyr Asp Met Met Lys Glu Val Met Glu Phe Ile
370 375 380
Asn Asn Ser Leu Pro Ala Asp Glu Lys Leu Lys Arg Lys Asp Tyr Arg
385 390 395 400
Arg Tyr Leu Lys Met Val Arg Ile Trp Asp Ser Glu Lys Asp Asn Ile
405 410 415
Lys Arg Glu Phe Glu Ser Lys Glu Trp Ser Lys Tyr Phe Ser Ser Asp
420 425 430
Phe Trp Met Ala Lys Asn Leu Glu Arg Val Tyr Gly Leu Ala Arg Glu
435 440 445
Lys Asn Ala Glu Leu Phe Asn Lys Leu Lys Ala Val Val Glu Lys Met
450 455 460
Asp Glu Arg Glu Phe Glu Lys Tyr Arg Leu Ile Asn Ser Ala Glu Asp
465 470 475 480
Leu Ala Ser Leu Arg Arg Leu Ala Lys Asp Phe Gly Leu Lys Trp Glu
485 490 495
Glu Lys Asp Trp Gln Glu Tyr Ser Gly Gln Ile Lys Lys Gln Ile Ser
500 505 510
Asp Arg Gln Lys Leu Thr Ile Met Lys Gln Arg Ile Thr Ala Glu Leu
515 520 525
Lys Lys Lys His Gly Ile Glu Asn Leu Asn Leu Arg Ile Thr Ile Asp
530 535 540
Ser Asn Lys Ser Arg Lys Ala Val Leu Asn Arg Ile Ala Val Pro Arg
545 550 555 560
Gly Phe Val Lys Glu His Ile Leu Gly Trp Gln Gly Ser Glu Lys Val
565 570 575
Ser Lys Lys Thr Arg Glu Ala Lys Cys Lys Ile Leu Leu Ser Lys Glu
580 585 590
Tyr Glu Glu Leu Ser Lys Gln Phe Phe Gln Thr Arg Asn Tyr Asp Lys
595 600 605
Met Thr Gln Val Asn Gly Leu Tyr Glu Lys Asn Lys Leu Leu Ala Phe
610 615 620
Met Val Val Tyr Leu Met Glu Arg Leu Asn Ile Leu Leu Asn Lys Pro
625 630 635 640
Thr Glu Leu Asn Glu Leu Glu Lys Ala Glu Val Asp Phe Lys Ile Ser
645 650 655
Asp Lys Val Met Ala Lys Ile Pro Phe Ser Gln Tyr Pro Ser Leu Val
660 665 670
Tyr Ala Met Ser Ser Lys Tyr Ala Asp Ser Val Gly Ser Tyr Lys Phe
675 680 685
Glu Asn Asp Glu Lys Asn Lys Pro Phe Leu Gly Lys Ile Asp Thr Ile
690 695 700
Glu Lys Gln Arg Met Glu Phe Ile Lys Glu Val Leu Gly Phe Glu Glu
705 710 715 720
Tyr Leu Phe Glu Lys Lys Ile Ile Asp Lys Ser Glu Phe Ala Asp Thr
725 730 735
Ala Thr His Ile Ser Phe Asp Glu Ile Cys Asn Glu Leu Ile Lys Lys
740 745 750
Gly Trp Asp Lys Asp Lys Leu Thr Lys Leu Lys Asp Ala Arg Asn Ala
755 760 765
Ala Leu His Gly Glu Ile Pro Ala Glu Thr Ser Phe Arg Glu Ala Lys
770 775 780
Pro Leu Ile Asn Gly Leu Lys Lys
785 790
<210> 6
<211> 799
<212> PRT
<213> 宏基因组(metagenomic)
<400> 6
Met Asn Ile Ile Lys Leu Lys Lys Glu Glu Ala Ala Phe Tyr Phe Asn
1 5 10 15
Gln Thr Ile Leu Asn Leu Ser Gly Leu Asp Glu Ile Ile Glu Lys Gln
20 25 30
Ile Pro His Ile Ile Ser Asn Lys Glu Asn Ala Lys Lys Val Ile Asp
35 40 45
Lys Ile Phe Asn Asn Arg Leu Leu Leu Lys Ser Val Glu Asn Tyr Ile
50 55 60
Tyr Asn Phe Lys Asp Val Ala Lys Asn Ala Arg Thr Glu Ile Glu Ala
65 70 75 80
Ile Leu Leu Lys Leu Val Glu Leu Arg Asn Phe Tyr Ser His Tyr Val
85 90 95
His Asn Asp Thr Val Lys Ile Leu Ser Asn Gly Glu Lys Pro Ile Leu
100 105 110
Glu Lys Tyr Tyr Gln Ile Ala Ile Glu Ala Thr Gly Ser Lys Asn Val
115 120 125
Lys Leu Val Ile Ile Glu Asn Asn Asn Cys Leu Thr Asp Ser Gly Val
130 135 140
Leu Phe Leu Leu Cys Met Phe Leu Lys Lys Ser Gln Ala Asn Lys Leu
145 150 155 160
Ile Ser Ser Val Ser Gly Phe Lys Arg Asn Asp Lys Glu Gly Gln Pro
165 170 175
Arg Arg Asn Leu Phe Thr Tyr Tyr Ser Val Arg Glu Gly Tyr Lys Val
180 185 190
Val Pro Asp Met Gln Lys His Phe Leu Leu Phe Ala Leu Val Asn His
195 200 205
Leu Ser Glu Gln Asp Asp His Ile Glu Lys Gln Gln Gln Ser Asp Glu
210 215 220
Leu Gly Lys Gly Leu Phe Phe His Arg Ile Ala Ser Thr Phe Leu Asn
225 230 235 240
Glu Ser Gly Ile Phe Asn Lys Met Gln Phe Tyr Thr Tyr Gln Ser Asn
245 250 255
Arg Leu Lys Glu Lys Arg Gly Glu Leu Lys His Glu Lys Asp Thr Phe
260 265 270
Thr Trp Ile Glu Pro Phe Gln Gly Asn Ser Tyr Phe Thr Leu Asn Gly
275 280 285
His Lys Gly Val Ile Ser Glu Asp Gln Leu Lys Glu Leu Cys Tyr Thr
290 295 300
Ile Leu Ile Glu Lys Gln Asn Val Asp Ser Leu Glu Gly Lys Ile Ile
305 310 315 320
Gln Phe Leu Lys Lys Phe Gln Asn Val Ser Ser Lys Gln Gln Val Asp
325 330 335
Glu Asp Glu Leu Leu Lys Arg Glu Tyr Phe Pro Ala Asn Tyr Phe Gly
340 345 350
Arg Ala Gly Thr Gly Thr Leu Lys Glu Lys Ile Leu Asn Arg Leu Asp
355 360 365
Lys Arg Met Asp Pro Thr Ser Lys Val Thr Asp Lys Ala Tyr Asp Lys
370 375 380
Met Ile Glu Val Met Glu Phe Ile Asn Met Cys Leu Pro Ser Asp Glu
385 390 395 400
Lys Leu Arg Gln Lys Asp Tyr Arg Arg Tyr Leu Lys Met Val Arg Phe
405 410 415
Trp Asn Lys Glu Lys His Asn Ile Lys Arg Glu Phe Asp Ser Lys Lys
420 425 430
Trp Thr Arg Phe Leu Pro Thr Glu Leu Trp Asn Lys Arg Asn Leu Glu
435 440 445
Glu Ala Tyr Gln Leu Ala Arg Lys Glu Asn Lys Lys Lys Leu Glu Asp
450 455 460
Met Arg Asn Gln Val Arg Ser Leu Lys Glu Asn Asp Leu Glu Lys Tyr
465 470 475 480
Gln Gln Ile Asn Tyr Val Asn Asp Leu Glu Asn Leu Arg Leu Leu Ser
485 490 495
Gln Glu Leu Gly Val Lys Trp Gln Glu Lys Asp Trp Val Glu Tyr Ser
500 505 510
Gly Gln Ile Lys Lys Gln Ile Ser Asp Asn Gln Lys Leu Thr Ile Met
515 520 525
Lys Gln Arg Ile Thr Ala Glu Leu Lys Lys Met His Gly Ile Glu Asn
530 535 540
Leu Asn Leu Arg Ile Ser Ile Asp Thr Asn Lys Ser Arg Gln Thr Val
545 550 555 560
Met Asn Arg Ile Ala Leu Pro Lys Gly Phe Val Lys Asn His Ile Gln
565 570 575
Gln Asn Ser Ser Glu Lys Ile Ser Lys Arg Ile Arg Glu Asp Tyr Cys
580 585 590
Lys Ile Glu Leu Ser Gly Lys Tyr Glu Glu Leu Ser Arg Gln Phe Phe
595 600 605
Asp Lys Lys Asn Phe Asp Lys Met Thr Leu Ile Asn Gly Leu Cys Glu
610 615 620
Lys Asn Lys Leu Ile Ala Phe Met Val Ile Tyr Leu Leu Glu Arg Leu
625 630 635 640
Gly Phe Glu Leu Lys Glu Lys Thr Lys Leu Gly Glu Leu Lys Gln Thr
645 650 655
Arg Met Thr Tyr Lys Ile Ser Asp Lys Val Lys Glu Asp Ile Pro Leu
660 665 670
Ser Tyr Tyr Pro Lys Leu Val Tyr Ala Met Asn Arg Lys Tyr Val Asp
675 680 685
Asn Ile Asp Ser Tyr Ala Phe Ala Ala Tyr Glu Ser Lys Lys Ala Ile
690 695 700
Leu Asp Lys Val Asp Ile Ile Glu Lys Gln Arg Met Glu Phe Ile Lys
705 710 715 720
Gln Val Leu Cys Phe Glu Glu Tyr Ile Phe Glu Asn Arg Ile Ile Glu
725 730 735
Lys Ser Lys Phe Asn Asp Glu Glu Thr His Ile Ser Phe Thr Gln Ile
740 745 750
His Asp Glu Leu Ile Lys Lys Gly Arg Asp Thr Glu Lys Leu Ser Lys
755 760 765
Leu Lys His Ala Arg Asn Lys Ala Leu His Gly Glu Ile Pro Asp Gly
770 775 780
Thr Ser Phe Glu Lys Ala Lys Leu Leu Ile Asn Glu Ile Lys Lys
785 790 795
<210> 7
<211> 803
<212> PRT
<213> 宏基因组(metagenomic)
<400> 7
Met Asn Ala Ile Glu Leu Lys Lys Glu Glu Ala Ala Phe Tyr Phe Asn
1 5 10 15
Gln Ala Arg Leu Asn Ile Ser Gly Leu Asp Glu Ile Ile Glu Lys Gln
20 25 30
Leu Pro His Ile Gly Ser Asn Arg Glu Asn Ala Lys Lys Thr Val Asp
35 40 45
Met Ile Leu Asp Asn Pro Glu Val Leu Lys Lys Met Glu Asn Tyr Val
50 55 60
Phe Asn Ser Arg Asp Ile Ala Lys Asn Ala Arg Gly Glu Leu Glu Ala
65 70 75 80
Leu Leu Leu Lys Leu Val Glu Leu Arg Asn Phe Tyr Ser His Tyr Val
85 90 95
His Lys Asp Asp Val Lys Thr Leu Ser Tyr Gly Glu Lys Pro Leu Leu
100 105 110
Asp Lys Tyr Tyr Glu Ile Ala Ile Glu Ala Thr Gly Ser Lys Asp Val
115 120 125
Arg Leu Glu Ile Ile Asp Asp Lys Asn Lys Leu Thr Asp Ala Gly Val
130 135 140
Leu Phe Leu Leu Cys Met Phe Leu Lys Lys Ser Glu Ala Asn Lys Leu
145 150 155 160
Ile Ser Ser Ile Arg Gly Phe Lys Arg Asn Asp Lys Glu Gly Gln Pro
165 170 175
Arg Arg Asn Leu Phe Thr Tyr Tyr Ser Val Arg Glu Gly Tyr Lys Val
180 185 190
Val Pro Asp Met Gln Lys His Phe Leu Leu Phe Thr Leu Val Asn His
195 200 205
Leu Ser Asn Gln Asp Glu Tyr Ile Ser Asn Leu Arg Pro Asn Gln Glu
210 215 220
Ile Gly Gln Gly Gly Phe Phe His Arg Ile Ala Ser Lys Phe Leu Ser
225 230 235 240
Asp Ser Gly Ile Leu His Ser Met Lys Phe Tyr Thr Tyr Arg Ser Lys
245 250 255
Arg Leu Thr Glu Gln Arg Gly Glu Leu Lys Pro Lys Lys Asp His Phe
260 265 270
Thr Trp Ile Glu Pro Phe Gln Gly Asn Ser Tyr Phe Ser Val Gln Gly
275 280 285
Gln Lys Gly Val Ile Gly Glu Glu Gln Leu Lys Glu Leu Cys Tyr Val
290 295 300
Leu Leu Val Ala Arg Glu Asp Phe Arg Ala Val Glu Gly Lys Val Thr
305 310 315 320
Gln Phe Leu Lys Lys Phe Gln Asn Ala Asn Asn Val Gln Gln Val Glu
325 330 335
Lys Asp Glu Val Leu Glu Lys Glu Tyr Phe Pro Ala Asn Tyr Phe Glu
340 345 350
Asn Arg Asp Val Gly Arg Val Lys Asp Lys Ile Leu Asn Arg Leu Lys
355 360 365
Lys Ile Thr Glu Ser Tyr Lys Ala Lys Gly Arg Glu Val Lys Ala Tyr
370 375 380
Asp Lys Met Lys Glu Val Met Glu Phe Ile Asn Asn Cys Leu Pro Thr
385 390 395 400
Asp Glu Asn Leu Lys Leu Lys Asp Tyr Arg Arg Tyr Leu Lys Met Val
405 410 415
Arg Phe Trp Gly Arg Glu Lys Glu Asn Ile Lys Arg Glu Phe Asp Ser
420 425 430
Lys Lys Trp Glu Arg Phe Leu Pro Arg Glu Leu Trp Gln Lys Arg Asn
435 440 445
Leu Glu Asp Ala Tyr Gln Leu Ala Lys Glu Lys Asn Thr Glu Leu Phe
450 455 460
Asn Lys Leu Lys Thr Thr Val Glu Arg Met Asn Glu Leu Glu Phe Glu
465 470 475 480
Lys Tyr Gln Gln Ile Asn Asp Ala Lys Asp Leu Ala Asn Leu Arg Gln
485 490 495
Leu Ala Arg Asp Phe Gly Val Lys Trp Glu Glu Lys Asp Trp Gln Glu
500 505 510
Tyr Ser Gly Gln Ile Lys Lys Gln Ile Thr Asp Arg Gln Lys Leu Thr
515 520 525
Ile Met Lys Gln Arg Ile Thr Ala Ala Leu Lys Lys Lys Gln Gly Ile
530 535 540
Glu Asn Leu Asn Leu Arg Ile Thr Thr Asp Thr Asn Lys Ser Arg Lys
545 550 555 560
Val Val Leu Asn Arg Ile Ala Leu Pro Lys Gly Phe Val Arg Lys His
565 570 575
Ile Leu Lys Thr Asp Ile Lys Ile Ser Lys Gln Ile Arg Gln Ser Gln
580 585 590
Cys Pro Ile Ile Leu Ser Asn Asn Tyr Met Lys Leu Ala Lys Glu Phe
595 600 605
Phe Glu Glu Arg Asn Phe Asp Lys Met Thr Gln Ile Asn Gly Leu Phe
610 615 620
Glu Lys Asn Val Leu Ile Ala Phe Met Ile Val Tyr Leu Met Glu Gln
625 630 635 640
Leu Asn Leu Arg Leu Gly Lys Asn Thr Glu Leu Ser Asn Leu Lys Lys
645 650 655
Thr Glu Val Asn Phe Thr Ile Thr Asp Lys Val Thr Glu Lys Val Gln
660 665 670
Ile Ser Gln Tyr Pro Ser Leu Val Phe Ala Ile Asn Arg Glu Tyr Val
675 680 685
Asp Gly Ile Ser Gly Tyr Lys Leu Pro Pro Lys Lys Pro Lys Glu Pro
690 695 700
Pro Tyr Thr Phe Phe Glu Lys Ile Asp Ala Ile Glu Lys Glu Arg Met
705 710 715 720
Glu Phe Ile Lys Gln Val Leu Gly Phe Glu Glu His Leu Phe Glu Lys
725 730 735
Asn Val Ile Asp Lys Thr Arg Phe Thr Asp Thr Ala Thr His Ile Ser
740 745 750
Phe Asn Glu Ile Cys Asp Glu Leu Ile Lys Lys Gly Trp Asp Glu Asn
755 760 765
Lys Ile Ile Lys Leu Lys Asp Ala Arg Asn Ala Ala Leu His Gly Lys
770 775 780
Ile Pro Glu Asp Thr Ser Phe Asp Glu Ala Lys Val Leu Ile Asn Glu
785 790 795 800
Leu Lys Lys
<210> 8
<211> 36
<212> DNA
<213> 宏基因组(metagenomic)
<400> 8
gctggagcag cccccgattt gtggggtgat tacagc 36
<210> 9
<211> 36
<212> DNA
<213> 宏基因组(metagenomic)
<400> 9
gctgaagaag cctccgattt gagaggtgat tacagc 36
<210> 10
<211> 36
<212> DNA
<213> 宏基因组(metagenomic)
<400> 10
gctgtgatag acctcgattt gtggggtagt aacagc 36
<210> 11
<211> 36
<212> DNA
<213> 宏基因组(metagenomic)
<400> 11
gctgtgatag acctcgattt gtggggtagt aacagc 36
<210> 12
<211> 36
<212> DNA
<213> 宏基因组(metagenomic)
<400> 12
gctgtgatag acctcgattt gtggggtagt aacagc 36
<210> 13
<211> 36
<212> DNA
<213> 宏基因组(metagenomic)
<400> 13
gctgtgatgg gcctcaattt gtggggaagt aacagc 36
<210> 14
<211> 36
<212> DNA
<213> 宏基因组(metagenomic)
<400> 14
gctgtgatag gcctcgattt gtggggtagt aacagc 36
<210> 15
<211> 2328
<212> DNA
<213> 宏基因组(metagenomic)
<400> 15
atggcgcaag tgtcaaagca gacttcgaaa aagagagagt tgtctatcga tgaatatcaa 60
ggtgctcgga aatggtgttt tacgattgcc ttcaacaagg ctcttgtgaa tcgagataag 120
aacgacgggc tttttgtcga gtcgctgtta cgccatgaaa agtattcaaa gcacgactgg 180
tacgatgagg atacacgcgc tttgatcaag tgtagcacac aagcggccaa tgcgaaggcc 240
gaggcgttaa gaaactattt ctcccactat cgacattcgc ccgggtgtct gacatttaca 300
gcagaagatg agttgcggac aatcatggaa agggcgtatg agcgggcgat ctttgaatgc 360
aggagacgcg aaactgaagt gatcatcgag tttcccagcc tgttcgaagg cgaccggatc 420
actacggcgg gggttgtgtt tttcgtttcg ttctttgttg aacggcgggt gctggatcgt 480
ttgtacggtg cggtaagtgg gcttaagaaa aacgaaggac agtacaagct gactcggaag 540
gcgctttcga tgtattgcct gaaagacagt cgtttcacga aggcgtggga caaacgcgtg 600
ctgcttttca gggatatact cgcgcagctt ggacgcatcc ctgcggaggc gtatgaatac 660
taccacggag agcagggcga caagaaaaga gcaaacgaca atgaggggac gaatccgaaa 720
cgccataaag acaagttcat cgagtttgca ctgcattatc tggaggcgca acacagtgag 780
atatgcttcg ggcggcgaca cattgtcagg gaggaggccg gggcaggcga cgaacacaaa 840
aagcacagga ccaaaggcaa ggtagttgtc gacttttcaa aaaaagacga agatcagtca 900
tactatatca gtaagaacaa tgttatcgtc aggattgata agaatgccgg gcctcggagt 960
tatcgcatgg ggcttaacga attgaaatac cttgtattgc ttagccttca gggaaagggc 1020
gacgatgcga ttgcaaaact gtacaggtat cggcagcatg tggagaacat tctggatgta 1080
gtgaaggtca cagataagga taatcacgtc ttcctgccgc gatttgtgct ggagcaacat 1140
gggattggca ggaaagcttt taagcaaaga atagacggca gagtaaagca tgttcgaggg 1200
gtgtgggaaa agaagaaggc ggcgaccaac gagatgacac ttcacgagaa ggcgcgggac 1260
attcttcaat acgtaaatga aaattgcacg aggtctttca atcccggcga gtacaaccgg 1320
ctgctggtgt gtctggttgg caaggatgtt gagaattttc aggcgggact gaaacgcctg 1380
caactggccg agcgaatcga cgggcgggta tattcaattt ttgcgcagac ctccacaata 1440
aacgagatgc atcaggtggt gtgtgatcag attctcaaca gactttgccg aatcggcgat 1500
cagaagctct acgattatgt ggggcttggg aagaaggatg aaatagatta caagcagaag 1560
gttgcatggt tcaaggagca tatttctatc cgcaggggtt tcttgcgcaa gaagttctgg 1620
tatgacagca agaagggatt cgcgaagctt gtggaagagc atttggaaag cggcggcgga 1680
cagagggacg ttgggctgga taaaaagtat tatcatattg atgcgattgg gcgattcgag 1740
ggtgctaatc cagccttgta tgaaacgctg gcgcgagacc gtttgtgtct gatgatggcg 1800
caatacttcc tggggagtgt acgcaaggaa ttgggtaata aaattgtgtg gtcgaatgat 1860
agcatcgagt tgcccgtgga gggctcagtg ggtaacgaaa aaagcatcgt cttctcagtg 1920
agtgattacg gcaagttata tgtgttggat gacgctgagt ttcttgggcg gatatgtgag 1980
tactttatgc cgcacgaaaa agggaagata cggtatcata cagtttacga aaaagggttt 2040
agggcatata atgatctgca gaagaaatgt gtcgaggcgg tgctggcgtt tgaagagaag 2100
gttgtcaaag ccaaaaagat gagcgagaag gaaggggcgc attatattga ttttcgtgag 2160
atactggcac aaacaatgtg taaagaggcg gagaagaccg ccgtgaataa ggtgcgtaga 2220
gcgtttttcc atcatcattt aaagtttgtg atagatgaat ttgggttgtt tagtgatgtt 2280
atgaagaaat atggaattga aaaggagtgg aagtttcctg ttaaatga 2328
<210> 16
<211> 2418
<212> DNA
<213> 宏基因组(metagenomic)
<400> 16
atgaaggttg aaaatattaa agaaaaaagc aaaaaagcaa tgtatttaat caaccattat 60
gagggaccca aaaaatggtg ttttgcaata gttctgaata gggcatgtga taattacgag 120
gacaatccac acttgttttc caaatcactt ttggaatttg aaaaaacaag tcgaaaagat 180
tggtttgacg aagaaacacg agagcttgtt gagcaagcag atacagaaat acagccaaat 240
cctaacctga aacctaatac aacagctaac cgaaaactca aagatataag aaactatttt 300
tcgcatcatt atcacaagaa cgaatgcctg tattttaaga acgatgatcc catacgctgc 360
attatggaag cggcgtatga aaaatctaaa atttatatca aaggaaagca gattgagcaa 420
agcgatatac cattgcccga attgtttgaa agcagcggtt ggattacacc ggcggggatt 480
ttgttactgg catccttttt tgttgaacga gggattctac atcgcttgat gggaaatatc 540
ggaggattta aagataatcg aggcgaatac ggtcttacac acgatatttt taccacctat 600
tgtcttaagg gtagttattc aattcgggcg caggatcatg atgcggtaat gttcagagat 660
attctcggct atctgtcacg agttcccact gagtcatttc agcgtatcaa gcaacctcaa 720
atacgaaaag aaggccaatt aagtgaaaga aagacggaca aatttataac atttgcacta 780
aattatcttg aggattatgg gctgaaagat ttggaaggct gcaaagcctg ttttgccaga 840
agtaaaattg taagggaaca agaaaatgtt gaaagcataa atgataagga atacaaacct 900
cacgagaaca aaaagaaagt tgaaattcac ttcgatcaga gcaaagaaga ccgattttat 960
attaatcgca ataacgttat tttgaagatt cagaagaaag atggacattc caacatagtt 1020
aggatgggag tatatgaact taaatatctc gttcttatga gtttagtggg aaaagcaaaa 1080
gaagcagttg aaaaaattga caactatatc caggatttgc gagaccagtt gccttacata 1140
gaggggaaaa ataaggaaga gattaaagaa tacgtcaggt tctttccacg atttatacgt 1200
tctcacctcg gtttactaca gattaacgat gaagaaaaga taaaagctcg attagattat 1260
gttaagacca agtggttaga taaaaaggaa aaatcgaaag agcttgaact tcataaaaaa 1320
ggacgggaca tcctcaggta tatcaacgag cgatgtgata gagagcttaa caggaatgta 1380
tataaccgta ttttagagct cctggtcagc aaagacctca ctggttttta tcgtgagctt 1440
gaagaactaa aaagaacaag gcggatagat aaaaatattg tccagaatct ttctgggcaa 1500
aaaaccatta atgcactgca tgaaaaggtc tgtgatctgg tgctgaagga aatcgaaagt 1560
ctcgatacag aaaatctcag gaaatatctt ggattgatac ccaaagaaga aaaagaggtc 1620
actttcaaag aaaaggtcga taggattttg aaacagccag ttatttacaa agggtttctg 1680
agataccaat tcttcaaaga tgacaaaaag agttttgtct tacttgttga agacgcattg 1740
aaggaaaaag gaggaggttg tgatgttcct cttgggaaag agtattataa aatcgtgtca 1800
cttgataagt atgataaaga aaataaaacc ctgtgtgaaa ctctggcgat ggataggctt 1860
tgccttatga tggcaagaca atattatctc agtctgaatg caaaacttgc acaggaagct 1920
cagcaaatcg aatggaagaa agaagatagt atagaattga ttattttcac cttaaaaaat 1980
cccgatcaat caaagcagag tttttctata cggttttcgg tcagagattt tacgaagttg 2040
tatgtaacgg atgatcctga atttctggcc cggctttgtt cctacttttt cccagttgaa 2100
aaagagattg aatatcacaa gctctattca gaagggataa ataaatacac aaacctgcaa 2160
aaagagggaa tcgaagcaat actcgagctt gaaaaaaagc ttattgaacg aaatcggatt 2220
caatctgcaa aaaattatct ctcatttaat gagataatga ataaaagcgg ttataataaa 2280
gatgagcagg atgatctaaa gaaggtgcga aattctcttt tgcattataa gcttatcttt 2340
gagaaagaac atctcaagaa gttctatgag gttatgagag gagaagggat agagaaaaag 2400
tggtctttaa tagtatga 2418
<210> 17
<211> 2373
<212> DNA
<213> 宏基因组(metagenomic)
<400> 17
atgaatggca ttgaattaaa aaaagaagaa gcagcatttt attttaatca ggcagagctt 60
aatttaaaag ccatagaaga caatattttt gataaagaaa gacgaaagac tctgcttaat 120
aatccacaga tacttgccaa aatggaaaat ttcattttca atttcagaga tgtaacaaaa 180
aatgcaaaag gggaaattga ctgcttgctg ttgaaactaa gagagctgag aaacttttac 240
tcgcattatg tccacaaacg agatgtaaga gaattaagca agggcgagaa acctatactt 300
gaaaagtatt accaatttgc gattgaatca accggaagtg aaaatgttaa acttgagata 360
atagaaaacg acgcgtggct tgcagatgcc ggtgtgttgt ttttcttatg tatttttttg 420
aagaaatctc aggcaaataa gcttataagc ggtatcagcg gttttaaaag aaacgatgat 480
accggtcagc cgagaaggaa tttatttacc tatttcagta taagggaggg atacaaggtt 540
gttccggaaa tgcagaaaca tttccttttg ttttctcttg ttaatcatct ctctaatcaa 600
gatgattata ttgaaaaagc gcatcagcca tacgatatag gcgagggttt attttttcat 660
cgaatagctt ctacatttct taatataagt gggattttaa gaaatatgaa attctatacc 720
tatcagagta aaaggttagt agagcagcgg ggagaactca aacgagaaaa ggatattttt 780
gcgtgggaag aaccgtttca aggaaatagt tattttgaaa taaatggtca taaaggagta 840
atcggtgaag atgaattgaa ggaactatgt tatgcatttc tgattggcaa tcaagatgct 900
aataaagtgg aaggcaggat tacacaattt ctagaaaagt ttagaaatgc gaacagtgtg 960
caacaagtta aagatgatga aatgctaaaa ccagagtatt ttcctgcaaa ttattttgct 1020
gaatcaggcg tcggaagaat aaaggataga gtgcttaatc gtttgaataa agcgattaaa 1080
agcaataagg ccaagaaagg agagattata gcatacgata agatgagaga ggttatggcg 1140
ttcataaata attctctgcc ggtagatgaa aaattgaaac caaaagatta caaacgatat 1200
ctgggaatgg ttcgtttctg ggacagggaa aaagataaca taaagcggga gttcgagaca 1260
aaagaatggt ctaaatatct tccatctaat ttctggacgg caaaaaacct tgaaagggtc 1320
tatggtctgg caagagagaa aaacgcagaa ttattcaata aactaaaagc ggatgtagaa 1380
aaaatggacg aacgggaact tgagaagtat cagaagataa atgatgcaaa ggatttggca 1440
aatttacgcc ggcttgcaag cgactttggt gtgaagtggg aagaaaaaga ctgggatgag 1500
tattcaggac agataaaaaa acaaattaca gacagccaga aactaacaat aatgaagcag 1560
cggataaccg caggactaaa gaaaaagcac ggcatagaaa atcttaacct gagaataact 1620
atcgacatca ataaaagcag aaaggcagtt ttgaacagaa ttgcgattcc gaggggtttt 1680
gtaaaaaggc atattttagg atggcaagag tctgagaagg tatcgaaaaa gataagagag 1740
gcagaatgcg aaattctgct gtcgaaagaa tacgaagaac tatcgaaaca atttttccaa 1800
agcaaagatt atgacaaaat gacacggata aatggccttt atgaaaaaaa caaacttata 1860
gccctgatgg cagtttatct aatggggcaa ttgagaatcc tgtttaaaga acacacaaaa 1920
cttgacgata ttacgaaaac aactgtggat ttcaaaatat ctgataaggt gacggtaaaa 1980
atcccctttt caaattatcc ttcgctcgtt tatacaatgt ccagtaagta tgttgataat 2040
atagggaatt atggattttc caacaaagat aaagacaagc cgattttagg taagattgat 2100
gtaatagaaa aacagcgaat ggaatttata aaagaggttc ttggttttga aaaatatctt 2160
tttgatgata aaataataga taaaagcaaa tttgctgata cagcgactca tataagtttt 2220
gcagaaatag ttgaggagct tgttgaaaaa ggatgggaca aagacagact gacaaaactt 2280
aaagatgcaa gaaataaagc cctgcatggt gaaatactga cgggaaccag ctttgatgaa 2340
acaaaatcat tgataaacga attaaaaaaa tga 2373
<210> 18
<211> 2379
<212> DNA
<213> 宏基因组(metagenomic)
<400> 18
atgtccccag atttcatcaa attagaaaaa caggaagcag ctttttactt taatcagaca 60
gagcttaatt taaaagccat agaaagcaat attttagaca aacaacagcg aatgattctg 120
cttaataatc cacggatact tgccaaagta ggaaatttca ttttcaattt cagagatgta 180
acaaaaaatg caaaaggaga aatagactgt ctgctattta aactggaaga gctaagaaac 240
ttttactcgc attatgttca taccgacaat gtaaaggaat tgagtaacgg agaaaaaccc 300
ctactggaaa gatattatca aatcgctatt caggcaacca ggagtgagga tgttaagttc 360
gaattgtttg aaacaagaaa cgagaataag attacggatg ccggtgtatt gtttttctta 420
tgtatgtttt taaaaaaatc acaggcaaac aagcttataa gcggtatcag cggcttcaaa 480
agaaatgatc caacaggcca gccgagaaga aacttattta cctatttcag tgcaagagaa 540
ggatataagg ctttgcctga tatgcagaaa cattttcttc tttttactct ggttaattat 600
ttgtcgaatc aggatgagta tatcagcgag cttaaacaat atggagagat tggtcaagga 660
gcctttttta atcgaatagc ttcaacattt ttgaatatca gcgggatttc aggaaatacg 720
aaattctatt cgtatcaaag taaaaggata aaagagcagc gaggcgaact caatagcgaa 780
aaggacagct ttgaatggat agagcctttc caaggaaaca gctattttga aataaatggg 840
cataaaggag taatcggcga agacgaatta aaagaacttt gttatgcatt gttggttgcc 900
aagcaagata ttaatgccgt tgaaggcaaa attatgcaat tcctgaaaaa gtttagaaat 960
actggcaatt tgcagcaagt taaagatgat gaaatgctgg aaatagaata ttttcccgca 1020
agttatttta atgaatcaaa aaaagaggac ataaagaaag agattcttgg ccggctggat 1080
aaaaagattc gctcctgctc tgcaaaggca gaaaaagcct atgataagat gaaagaggtg 1140
atggagttta taaataattc tctgccggca gaggaaaaat tgaaacgcaa agattataga 1200
agatatctaa agatggttcg tttctggagc agagaaaaag gcaatataga gcgggaattt 1260
agaacaaagg aatggtcaaa atatttttca tctgattttt ggcggaagaa caatcttgaa 1320
gatgtgtaca aactggcaac acaaaaaaac gctgaactgt tcaaaaatct aaaagcggca 1380
gcagagaaaa tgggtgaaac ggaatttgaa aagtatcagc agataaacga tgtaaaggat 1440
ttggcaagtt taaggcggct tacgcaagat tttggtttga agtgggaaga aaaggactgg 1500
gaggagtatt ccgagcagat aaaaaaacaa attacggaca ggcagaaact gacaataatg 1560
aaacaaaggg ttacggctga actaaagaaa aagcacggca tagaaaatct taatctgaga 1620
ataaccatcg acagcaataa aagcagaaag gcggttttga acagaatagc aattccaaga 1680
ggatttgtaa aaaaacatat tttaggctgg cagggatctg agaagatatc gaaaaatata 1740
agggaagcag aatgcaaaat tctgctatcg aaaaaatatg aagagttatc aaggcagttt 1800
tttgaagccg gtaatttcga taagctgacg cagataaatg gtctttatga aaagaataaa 1860
cttacagctt ttatgtcagt atatttgatg ggtcggttga atattcagct taataagcac 1920
acagaacttg gaaatcttaa aaaaacagag gtggatttta agatatctga taaggtgact 1980
gaaaaaatac cgttttctca gtatccttcg cttgtctatg cgatgtctcg caaatatgtt 2040
gacaatgtgg ataaatataa attttctcat caagataaaa agaagccatt tttaggtaaa 2100
attgattcaa ttgaaaaaga acgtattgaa ttcataaaag aggttctcga ttttgaagag 2160
tatcttttta aaaataaggt aatagataaa agcaaatttt ccgatacagc gactcatatt 2220
agctttaagg aaatatgtga tgaaatgggt aaaaaaggat gtaaccgaaa caaactaacc 2280
gaacttaaca acgcaaggaa cgcagccctg catggtgaaa taccgtcgga gacctctttt 2340
cgtgaagcaa aaccgttgat aaatgaattg aaaaaatga 2379
<210> 19
<211> 2379
<212> DNA
<213> 宏基因组(metagenomic)
<400> 19
atgtccccag atttcatcaa attagaaaaa caagaagcag ctttttactt taatcagaca 60
gagcttaatt taaaagccat agaaagcaat attttcgaca aacaacagcg agtgattctg 120
cttaataatc cacagatact tgccaaagta ggagatttta ttttcaattt cagagatgta 180
acaaaaaacg caaaaggaga aatagactgt ttgctattga aactaagaga gctgagaaac 240
ttttactcac actatgtcta taccgatgac gtgaagatat tgagtaacgg cgaaagacct 300
ctgctggaaa aatattatca atttgcgatt gaagcaaccg gaagtgaaaa tgttaaactt 360
gaaataatag aaagcaacaa ccgacttacg gaagcgggcg tgctgttttt cttgtgtatg 420
tttttgaaaa agtctcaggc aaataagctt ataagcggta tcagcggttt taaaagaaat 480
gacccgacag gtcagccgag aaggaattta tttacctact tcagtgtaag ggagggatac 540
aaggttgtgc cggatatgca gaaacatttt cttttgtttg ttcttgtcaa tcatctctct 600
ggtcaggatg attatattga aaaggcgcaa aagccatacg atataggcga gggtttattt 660
tttcatcgaa tagcttctac atttcttaat atcagtggga ttttaagaaa tatggaattc 720
tatatttacc agagcaaaag actaaaggag cagcaaggag agctcaaacg tgaaaaggat 780
atttttccat ggatagagcc tttccaggga aatagttatt ttgaaataaa tggtaataaa 840
ggaataatcg gcgaagatga attgaaagag ctttgttatg cgttgctggt tgcaggaaaa 900
gatgtcagag ccgtcgaagg taaaataaca caatttttgg aaaagtttaa aaatgcggac 960
aatgctcagc aagttgaaaa agatgaaatg ctggacagaa acaattttcc cgccaattat 1020
ttcgccgaat cgaacatcgg cagcataaag gaaaaaatac ttaatcgttt gggaaaaact 1080
gatgatagtt ataataagac ggggacaaag attaaaccat acgacatgat gaaagaggta 1140
atggagttta taaataattc tcttccggca gatgaaaaat tgaaacgcaa agattacaga 1200
agatatctaa agatggttcg tatctgggac agtgagaaag ataatataaa gcgggagttt 1260
gaaagcaaag aatggtcaaa atatttttca tctgatttct ggatggcaaa aaatcttgaa 1320
agggtctatg ggttggcaag agagaaaaac gccgaattat tcaataagct aaaagcggtt 1380
gtggagaaaa tggacgagcg ggaatttgag aagtatcggc tgataaatag cgcagaggat 1440
ttggcaagtt taagacggct tgcgaaagat tttggcctga agtgggaaga aaaggactgg 1500
caagagtatt ctgggcagat aaaaaaacaa atttctgaca ggcagaaact gacaataatg 1560
aaacaaagga ttacggctga actaaagaaa aagcacggca tagaaaatct caatcttaga 1620
ataaccatcg acagcaataa aagcagaaag gcagttttga acagaatcgc agttccaaga 1680
ggttttgtga aagagcatat tttaggatgg caggggtctg agaaggtatc gaaaaagaca 1740
agagaagcaa agtgcaaaat tctgctctcg aaagaatatg aagaattatc aaagcaattt 1800
ttccaaacca gaaattacga caagatgacg caggtaaacg gtctttacga aaagaataaa 1860
ctcttagcat ttatggtcgt ttatcttatg gagcggttga atatcctgct taataagccc 1920
acagaactta atgaacttga aaaagcagag gtggatttca agatatctga taaggtgatg 1980
gccaaaatcc cgttttcaca gtatccttcg cttgtgtacg cgatgtccag caaatatgct 2040
gatagtgtag gcagttataa atttgagaat gatgaaaaaa acaagccgtt tttaggcaag 2100
atcgatacaa tagaaaaaca acgaatggag tttataaaag aagtccttgg ttttgaagag 2160
tatctttttg aaaagaagat aatagataaa agcgaatttg ccgacacagc gactcatata 2220
agttttgatg aaatatgtaa tgagcttatt aaaaaaggat gggataaaga caaactaacc 2280
aaacttaaag atgccaggaa cgcggccctg catggcgaaa taccggcgga gacctctttt 2340
cgtgaagcaa aaccgttgat aaatggattg aaaaaatga 2379
<210> 20
<211> 2400
<212> DNA
<213> 宏基因组(metagenomic)
<400> 20
atgaacatca ttaaattaaa aaaagaagaa gctgcgtttt attttaatca gacgatcctc 60
aatctttcag ggcttgatga aattattgaa aaacaaattc cgcacataat cagcaacaag 120
gaaaatgcaa agaaagtgat tgataagatt ttcaataacc gcttattatt aaaaagtgtg 180
gagaattata tctacaactt taaagatgtg gctaaaaacg caagaactga aattgaggct 240
atattgttga aattagtaga gctacgtaat ttttactcac attacgttca taatgatacc 300
gtcaagatac taagtaacgg tgaaaaacct atactggaaa aatattatca aattgctata 360
gaagcaaccg gaagtaaaaa tgttaaactt gtaatcatag aaaacaacaa ctgtctcacg 420
gattctggcg tgctgttttt gctgtgtatg ttcttaaaaa aatcacaggc aaacaagctt 480
ataagttccg ttagtggttt taaaaggaat gataaagaag gacaaccgag aagaaatcta 540
ttcacttatt atagtgtgag ggagggatat aaggttgtgc ctgatatgca gaagcatttc 600
cttctattcg ctctggtcaa tcatctatct gagcaggatg atcatattga gaagcagcag 660
cagtcagacg agctcggtaa gggtttgttt ttccatcgta tagcttcgac ttttttaaac 720
gagagcggca tcttcaataa aatgcaattt tatacatatc agagcaacag gctaaaagag 780
aaaagaggag aactcaaaca cgaaaaggat acctttacat ggatagagcc ttttcaaggc 840
aatagttatt ttacgttaaa tggacataag ggagtgatta gtgaagatca attgaaggag 900
ctttgttaca caattttaat tgagaagcaa aacgttgatt ccttggaagg taaaattata 960
caatttctca aaaaatttca gaatgtcagc agcaagcagc aagttgacga agatgaattg 1020
cttaaaagag aatatttccc tgcaaattac tttggccggg caggaacagg gaccctaaaa 1080
gaaaagattc taaaccggct tgataagagg atggatccta catctaaagt gacggataaa 1140
gcttatgaca aaatgattga agtgatggaa tttatcaata tgtgccttcc gtctgatgag 1200
aagttgaggc aaaaggatta tagacgatac ttaaagatgg ttcgtttctg gaataaggaa 1260
aagcataaca ttaagcgcga gtttgacagt aaaaaatgga cgaggttttt gccgacggaa 1320
ttgtggaata aaagaaatct agaagaagcc tatcaattag cacggaaaga gaacaaaaag 1380
aaacttgaag atatgagaaa tcaagtacga agccttaaag aaaatgacct tgaaaaatat 1440
cagcagatta attacgttaa tgacctggag aatttaaggc ttctgtcaca ggagttaggt 1500
gtgaaatggc aggaaaagga ctgggttgaa tattccgggc agataaagaa gcagatatca 1560
gacaatcaga aacttacaat catgaaacaa aggattaccg ctgaactaaa gaaaatgcac 1620
ggcatcgaga atcttaatct tagaataagc attgacacga ataaaagcag gcagacggtt 1680
atgaacagga tagctttgcc caaaggtttt gtgaagaatc atatccagca aaattcgtct 1740
gagaaaatat cgaaaagaat aagagaggat tattgtaaaa ttgagctatc gggaaaatat 1800
gaagaacttt caaggcaatt ttttgataaa aagaatttcg ataagatgac actgataaac 1860
ggcctttgtg aaaagaacaa acttatcgca tttatggtta tctatctttt ggagcggctt 1920
ggatttgaat taaaggagaa aacaaaatta ggcgagctta aacaaacaag gatgacatat 1980
aaaatatccg ataaggtaaa agaagatatc ccgctttcct attaccccaa gcttgtgtat 2040
gcaatgaacc gaaaatatgt tgacaatatc gatagttatg catttgcggc ttacgaatcc 2100
aaaaaagcta ttttggataa agtggatatc atagaaaagc aacgtatgga atttatcaaa 2160
caagttctct gttttgagga atatattttc gaaaatagga ttatcgaaaa aagcaaattt 2220
aatgacgagg agactcatat aagttttaca caaatacatg atgagcttat taaaaaagga 2280
cgggacacag aaaaactctc taaactcaaa catgcaagga ataaagcctt gcacggcgag 2340
attcctgatg ggacttcttt tgaaaaagca aagctattga taaatgaaat caaaaaatga 2400
<210> 21
<211> 2412
<212> DNA
<213> 宏基因组(metagenomic)
<400> 21
atgaatgcta tcgaactaaa aaaagaggaa gcagcatttt attttaatca ggcaagactc 60
aacatttcag gacttgatga aattattgaa aagcagttac cacatatagg tagtaacagg 120
gagaatgcga aaaaaactgt tgatatgatt ttggataatc ccgaagtctt gaagaagatg 180
gaaaattatg tctttaactc acgagatata gcaaagaacg caagaggtga acttgaagca 240
ttgttgttga aattagtaga actgcgtaat ttttattcac attatgttca taaagatgat 300
gttaagacat tgagttacgg agaaaaacct ttactggata aatattatga aattgcgatt 360
gaagcgaccg gaagtaaaga tgtcagactt gagataatag atgataaaaa taagcttaca 420
gatgccggtg tgcttttttt attgtgtatg tttttgaaaa aatcagaggc aaacaaactt 480
atcagttcaa tcaggggctt taaaagaaac gataaagaag gccagccgag aagaaatcta 540
ttcacttact acagtgtcag agagggatat aaggttgtgc ctgatatgca gaaacatttt 600
cttttattca cactggttaa ccatttgtca aatcaggatg aatacatcag taatcttagg 660
ccgaatcaag aaatcggcca agggggattt ttccatagaa tagcatcaaa atttttgagc 720
gatagcggga ttttacatag tatgaaattc tacacctacc ggagtaaaag actaacagaa 780
caacgggggg agcttaagcc gaaaaaagat cattttacat ggatagagcc ttttcaggga 840
aacagttatt tttcagtgca gggccaaaaa ggagtaattg gtgaagagca attaaaggag 900
ctttgttatg tattgctggt tgccagagaa gattttaggg ccgttgaggg caaagttaca 960
caatttctga aaaagtttca gaatgctaat aacgtacagc aagttgaaaa agatgaagtg 1020
ctggaaaaag aatattttcc tgcaaattat tttgaaaatc gagacgtagg cagagtaaag 1080
gataagatac ttaatcgttt gaaaaaaatc actgaaagct ataaagctaa agggagggag 1140
gttaaagcct atgacaagat gaaagaggta atggagttta taaataattg cctgccaaca 1200
gatgaaaatt tgaaactcaa agattacaga agatatctga aaatggttcg tttctggggc 1260
agggaaaagg aaaatataaa gcgggaattt gacagtaaaa aatgggagag gtttttgcca 1320
agagaactct ggcagaaaag aaacctcgaa gatgcgtatc aactggcaaa agagaaaaac 1380
accgagttat tcaataaatt gaaaacaact gttgagagaa tgaacgaact ggaattcgaa 1440
aagtatcagc agataaacga cgcaaaagat ttggcaaatt taaggcaact ggcgcgggac 1500
ttcggcgtga agtgggaaga aaaggactgg caagagtatt cggggcagat aaaaaaacaa 1560
attacagaca ggcaaaaact tacaataatg aaacaaagga ttactgctgc attgaagaaa 1620
aagcaaggca tagaaaatct taatcttagg ataacaaccg acaccaataa aagcagaaag 1680
gtggtattga acagaatagc gctacctaaa ggttttgtaa ggaagcatat cttaaaaaca 1740
gatataaaga tatcaaagca aataaggcaa tcacaatgtc ctattatact gtcaaacaat 1800
tatatgaagc tggcaaagga attctttgag gagagaaatt ttgataagat gacgcagata 1860
aacgggctat ttgagaaaaa tgtacttata gcgtttatga tagtttatct gatggaacaa 1920
ctgaatcttc gacttggtaa gaatacggaa cttagcaatc ttaaaaaaac ggaggttaat 1980
tttacgataa ccgacaaggt aacggaaaaa gtccagattt cgcagtatcc atcgcttgtt 2040
ttcgccataa acagagaata tgttgatgga atcagcggtt ataagttacc gcccaaaaaa 2100
ccgaaagagc ctccgtatac tttcttcgag aaaatagacg caatagaaaa agaacgaatg 2160
gaattcataa aacaggtcct cggtttcgaa gaacatcttt ttgagaagaa tgtaatagac 2220
aaaactcgct ttactgatac tgcgactcat ataagtttta atgaaatatg tgatgagctt 2280
ataaaaaaag gatgggacga aaacaaaata ataaaactta aagatgcgag gaatgcagca 2340
ttgcatggta agataccgga ggatacgtct tttgatgaag cgaaagtact gataaatgaa 2400
ttaaaaaaat ga 2412
<210> 22
<211> 2328
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(2328)
<223> Human codon-optimized coding sequences
<400> 22
atggcccagg tgagcaagca gacctccaag aagagggagc tgagcatcga cgagtaccag 60
ggcgcccgga agtggtgctt caccattgcc ttcaacaagg ccctggtgaa ccgggacaag 120
aacgacggcc tgttcgtgga aagcctgctg agacacgaga agtacagcaa gcacgactgg 180
tacgacgaag atacccgggc cctgatcaag tgcagcaccc aggccgccaa cgccaaggct 240
gaagccctgc ggaactactt cagtcactac cggcatagcc ctggctgcct gaccttcacc 300
gccgaggacg aactgcggac catcatggag agagcctatg agcgggccat cttcgagtgc 360
agaagaagag agacagaggt gatcatcgag tttcccagcc tgttcgaggg cgaccggatc 420
accaccgccg gcgtggtgtt tttcgtgagc tttttcgtgg aaagaagagt gctggatcgg 480
ctgtatggag ccgtgtccgg cctgaagaag aatgagggac agtacaagct gacccggaag 540
gccctgagca tgtactgcct gaaggacagc agattcacca aggcctggga taagcgggtg 600
ctgctgttca gagacatcct ggcccagctg ggaagaatcc ccgccgaggc ctacgagtac 660
taccacggcg agcagggtga taagaagaga gctaacgaca atgagggcac aaatcccaag 720
cggcacaagg acaagttcat cgaatttgca ctgcactacc tggaagccca gcacagcgag 780
atctgcttcg gcagacgcca catcgtgcgg gaagaggccg gcgccggcga tgagcacaag 840
aagcaccgga ccaagggaaa ggtggtggtg gacttcagca agaaggacga ggaccagagc 900
tactatatct ccaagaacaa cgtgatcgtg cggatcgaca agaacgccgg ccctagaagc 960
taccggatgg gcctgaacga gctgaagtac ctcgtgctgc tgagcctgca ggggaagggc 1020
gacgatgcca tcgccaagct gtacagatac agacagcacg tggagaacat cctggatgtg 1080
gtgaaggtga ccgataagga taaccacgtg ttcctgcccc gcttcgtgct ggagcagcac 1140
ggcatcggca gaaaggcctt caagcagcgg atcgatggac gggtgaagca cgtgcggggc 1200
gtgtgggaga agaagaaggc cgccaccaat gaaatgaccc tgcacgagaa ggccagagac 1260
atcctgcagt acgtgaacga aaactgcacc cggtccttca accctggcga atacaacaga 1320
ctgctggtgt gcctggtggg caaggacgtg gagaactttc aggccggcct gaagcggctg 1380
cagctggccg aaaggatcga tggccgggtg tactccatct tcgcccagac cagcaccatc 1440
aatgagatgc accaggtggt gtgcgaccag atcctgaacc ggctgtgcag aatcggcgac 1500
cagaagctgt acgattacgt gggactgggc aagaaggacg aaatcgacta caagcagaag 1560
gtggcctggt tcaaggagca catcagcatc cggagaggat tcctgagaaa gaagttctgg 1620
tacgatagca agaagggatt cgcaaagctg gtggaggaac acctggagtc cggcggcggc 1680
cagcgcgacg tgggcctgga caagaagtac taccacatcg acgccatcgg cagattcgag 1740
ggcgccaacc ccgccctgta cgagaccctg gccagagatc ggctgtgcct catgatggcc 1800
cagtacttcc tgggcagcgt gagaaaggaa ctgggcaaca agattgtgtg gagcaacgac 1860
agcatcgaac tgcctgtgga aggctctgtg ggaaatgaga agagcatcgt gttctccgtg 1920
tctgactacg gcaagctgta cgtgctggac gatgccgaat tcctgggccg gatctgcgaa 1980
tacttcatgc cccacgaaaa gggcaagatc cggtaccaca cagtgtacga aaagggcttt 2040
agagcataca acgacctgca gaagaagtgc gtggaggccg tgctggcttt cgaagagaag 2100
gtggtgaagg ccaagaagat gagcgagaag gaaggcgccc actacatcga cttccgggag 2160
atcctggccc agaccatgtg caaggaggcc gagaagaccg cagtgaacaa ggtgagacgc 2220
gccttcttcc accaccacct gaagttcgtg attgacgagt tcggcctgtt cagcgacgtg 2280
atgaagaagt acggcatcga gaaggaatgg aagttccctg tcaagtaa 2328
<210> 23
<211> 2418
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(2418)
<223> Human codon-optimized coding sequences
<400> 23
atgaaggtgg agaacatcaa ggaaaagtcc aagaaggcta tgtatctgat caaccactat 60
gaaggcccta agaagtggtg cttcgccatc gtgctgaata gggcctgcga caactatgag 120
gataaccccc acctgttcag caagagcctg ctggaatttg aaaagaccag cagaaaggac 180
tggttcgacg aggagaccag ggaactggtg gagcaggccg acaccgagat ccagcccaac 240
cccaacctga agcctaacac caccgccaac agaaagctga aggacatccg gaactacttc 300
agccaccact accacaagaa tgagtgcctg tacttcaaga acgacgaccc tatccggtgc 360
atcatggagg cagcctacga gaagtccaag atctacatca agggcaagca gattgagcag 420
tccgacatcc ccctccctga gctgtttgag tctagcggct ggatcacccc agccggcatc 480
ctgctgctgg ccagcttctt tgtggagaga ggcattctgc acagactgat gggcaacatc 540
ggcggcttca aggacaaccg gggcgaatac ggactgaccc acgatatctt caccacctac 600
tgcctgaagg gcagctactc catcagagcc caggaccacg acgccgtgat gttcagagac 660
atcctgggct acctgagcag agtgccgacc gagagctttc agcgcatcaa gcagccacag 720
atcagaaagg aggggcagct gagcgagcgg aagacagaca agtttatcac cttcgccctg 780
aactacctgg aagattatgg actgaaggat ctggaaggct gcaaggcctg cttcgcccgg 840
agcaagatcg tgagagagca ggagaacgtg gaaagcatca atgacaagga gtacaagcct 900
cacgaaaaca agaagaaggt ggaaatccac ttcgatcagt ctaaggaaga ccggttctac 960
atcaaccgga acaacgtgat cctgaagatc cagaagaagg acggccacag caacatcgtg 1020
agaatgggcg tgtacgagct gaagtatctg gtgctgatgt ccctggtggg caaggccaag 1080
gaagccgtgg agaagatcga caactacatc caggatctga gagaccagct gccctacatc 1140
gagggcaaga acaaggaaga aatcaaggag tacgtgagat tcttccccag attcatcaga 1200
tcccacctgg gcctgctgca gattaacgat gaggagaaga tcaaggcccg gctggactat 1260
gtgaagacaa agtggctgga caagaaggag aagtccaagg agctggagct gcacaagaag 1320
ggccgggata tcctgcggta catcaacgag cggtgcgacc gggagctgaa ccggaacgtg 1380
tacaaccgga tcctggagct gctggtgagc aaggacctga ccggcttcta ccgggagctg 1440
gaggagctga agcggaccag acggatcgat aagaacattg tgcagaacct gtccggccag 1500
aagaccatca acgccctgca cgaaaaggtg tgcgatctcg tgctgaagga gatcgagagc 1560
ctggacaccg agaacctgcg gaagtacctg ggcctgatcc ccaaggagga gaaggaagtg 1620
acctttaagg agaaggtgga caggatcctg aagcagccgg tgatctacaa gggcttcctg 1680
cggtaccagt tcttcaagga cgacaagaag agcttcgtgc tgctggtgga agacgccctg 1740
aaggagaagg gaggcggctg cgacgtgccc ctgggcaagg agtactacaa gatcgtgtcc 1800
ctggacaagt atgacaagga aaataagacc ctgtgcgaga ccctggcaat ggatagactg 1860
tgcctgatga tggcccggca gtattacctg agcctgaacg ccaagctggc ccaggaggcc 1920
cagcagatcg aatggaagaa ggaggatagc attgagctga tcatcttcac actgaagaat 1980
cctgaccagt ccaagcagag cttctccatc cggttcagcg tgcgggactt caccaagctg 2040
tacgtgaccg acgaccccga attcctggcc cggctgtgca gctacttctt ccccgtggag 2100
aaggagatcg aataccacaa gctgtactct gaaggcatta acaagtacac caacctgcag 2160
aaggagggga tcgaagccat cctggagctg gagaagaagc tgatcgaaag aaaccggatc 2220
cagtccgcca agaactacct gagctttaac gaaatcatga acaagagcgg ctacaacaag 2280
gatgagcagg atgacctgaa gaaggtgagg aactccctgc tgcactacaa gctgatcttc 2340
gaaaaggagc acctgaagaa gttctatgaa gtgatgcggg gcgagggaat cgagaagaag 2400
tggtccctga tcgtgtaa 2418
<210> 24
<211> 2373
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(2373)
<400> 24
atgaatggca tcgagctgaa gaaggaagaa gccgccttct acttcaatca ggccgagctg 60
aacctgaagg ccattgagga caacatcttc gacaaggaga gacggaagac actgctgaac 120
aacccccaga tcctggccaa gatggagaac tttatcttca atttccggga cgtgaccaag 180
aacgccaagg gcgaaatcga ctgcctgctg ctgaagctga gagagctgcg gaacttttac 240
agccactacg tgcacaagcg ggacgtcaga gaactgagca agggcgagaa gccgatcctg 300
gagaagtact accagttcgc catcgaatcc accggctctg agaacgtgaa gctcgaaatc 360
atcgaaaacg acgcctggct ggccgacgcc ggcgtgctgt tcttcctgtg catcttcctg 420
aagaagagcc aggcaaacaa gctgatcagc ggcatcagcg gcttcaagag aaacgacgac 480
accggccagc ctcggagaaa cctgttcacc tacttctcca tccgggaggg ctacaaggtg 540
gtgcccgaaa tgcagaagca cttcctgctg ttctccctgg tgaaccacct gagcaaccag 600
gacgattata tcgaaaaggc ccaccagccc tacgacatcg gcgagggcct cttcttccac 660
cggattgcca gcaccttcct gaacatctcc ggaatcctga gaaacatgaa gttctacacc 720
tatcagagca agagactggt ggagcagaga ggcgagctga agcgggaaaa ggacatcttc 780
gcctgggaag aaccgtttca gggcaattcc tactttgaga tcaacggcca caagggcgtg 840
attggcgaag acgagctgaa ggagctgtgc tacgccttcc tgatcggcaa ccaggacgcc 900
aacaaggtgg agggccggat cacccagttc ctggagaagt tcagaaacgc caacagcgtg 960
cagcaggtga aggacgacga gatgctgaag cctgaatatt tccccgccaa ctactttgcc 1020
gagagcggcg tgggccggat caaggaccgg gtgctgaaca gactgaacaa ggccatcaag 1080
agcaacaagg ccaagaaggg cgagatcatc gcctatgaca agatgagaga agtgatggct 1140
ttcatcaata actctctgcc cgtggacgag aagctgaagc ccaaggatta caagagatac 1200
ctgggcatgg tgagattctg ggatagagaa aaggacaata tcaagcgcga gttcgaaacg 1260
aaggagtgga gcaagtatct gccctccaac ttctggaccg ccaagaacct ggagagagtg 1320
tacggactgg cccgggaaaa gaacgcagag ctgtttaaca agctgaaggc cgacgtggag 1380
aagatggacg aaagagagct ggaaaagtat cagaagatca acgacgccaa ggatctggcc 1440
aacctgcggc ggctggccag cgacttcgga gtgaagtggg aggagaagga ttgggacgag 1500
tactccggcc agatcaagaa gcagatcaca gattcccaga agctgaccat catgaagcag 1560
agaatcacag ccggcctgaa gaagaagcac ggcatcgaaa acctgaacct gaggatcacc 1620
atcgacatca acaagtccag aaaggccgtg ctgaatcgga tcgccatccc cagaggattt 1680
gtgaagcggc acatcctggg ctggcaggaa tccgagaagg tgagcaagaa gatcagagaa 1740
gccgaatgcg agattctgct gagcaaggag tacgaggagc tgagcaagca gttctttcag 1800
agcaaggact acgacaagat gacccgcatc aacggcctgt acgagaagaa taagctgatc 1860
gccctgatgg ccgtgtatct gatggggcag ctgagaatcc tgttcaagga gcacaccaag 1920
ctggacgaca tcaccaagac caccgtggat ttcaagatca gcgacaaggt gaccgtgaag 1980
atccccttct ccaactatcc ctccctggtg tacaccatga gcagcaagta cgtggacaat 2040
atcggcaact acggcttcag caacaaggac aaggataagc ccattctggg caagatcgac 2100
gtgatcgaga agcagcggat ggagtttatc aaggaggtgc tgggattcga gaagtacctg 2160
tttgacgata agatcatcga caagagcaag ttcgccgaca ccgccaccca catcagcttt 2220
gccgaaatcg tggaagaact ggtggagaag ggctgggaca aggaccggct gacgaagctg 2280
aaggatgccc ggaacaaggc cctgcacggc gagatcctga ccggcaccag cttcgacgag 2340
acaaagtccc tgatcaacga gctgaagaag taa 2373
<210> 25
<211> 2379
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(2379)
<223> Human codon-optimized coding sequences
<400> 25
atgagccctg atttcatcaa gctggagaag caggaagcag ccttctactt taaccagacc 60
gagctgaacc tgaaggccat cgaatccaat atcctggata agcagcagag aatgatcctg 120
ctgaacaacc ccagaatcct ggccaaggtg ggcaacttca tcttcaattt ccgggacgtg 180
accaagaacg caaagggcga aatcgactgc ctgctgttca agctggagga actgcggaac 240
ttctacagcc actacgtgca caccgataac gtgaaggaac tgtccaacgg agagaagcct 300
ctgctggagc ggtactacca gatcgccatc caggccacaa gaagcgagga cgtgaagttc 360
gagctgttcg agaccaggaa cgagaacaag atcaccgacg caggcgtgct gttcttcctg 420
tgcatgttcc tgaagaagag ccaggctaat aagctgattt ccggcatcag cggcttcaag 480
cggaacgacc ccaccggcca gcccagacgg aacctcttta cctacttctc tgcccgggag 540
ggctacaagg ccctgcctga catgcagaag cacttcctgc tgttcaccct ggtgaactac 600
ctgagcaacc aggacgagta catctccgag ctgaagcagt acggagagat cggacaggga 660
gccttcttca acagaatcgc cagcaccttc ctgaacatca gcggcatcag cggcaacacc 720
aagttctaca gctaccagag caagagaatc aaggagcagc ggggcgaact gaacagcgaa 780
aaggacagct tcgagtggat cgagcccttt cagggcaact cttattttga gatcaacggc 840
cacaagggcg tgatcggcga agacgagctg aaggagctgt gctacgccct gctggtggcc 900
aagcaggaca tcaatgccgt ggagggaaag atcatgcagt tcctgaagaa gttcaggaac 960
accggcaacc tgcagcaggt gaaggacgac gagatgctgg aaatcgagta ctttcccgcc 1020
agctacttca acgagagcaa gaaggaggac atcaagaagg agatcctggg cagactggac 1080
aagaagatcc ggtcctgcag cgccaaggcc gagaaggcct acgacaagat gaaggaggtg 1140
atggagttta tcaataacag cctgcccgcc gaggagaagc tgaagaggaa ggactaccgc 1200
agatacctga agatggtgag attctggtcc agagaaaagg gcaacatcga gagagagttc 1260
agaaccaagg agtggtccaa gtacttcagc agcgacttct ggagaaagaa caatctggag 1320
gatgtgtaca agctggccac ccagaagaac gccgagctgt tcaagaatct gaaggccgcc 1380
gccgagaaga tgggcgaaac agaattcgaa aagtaccagc agatcaacga tgtgaaggac 1440
ctggccagcc tgagacggct gacccaggat ttcggcctga agtgggagga gaaggattgg 1500
gaggagtaca gcgaacagat caagaagcag atcaccgacc ggcagaagct gacaatcatg 1560
aagcagcggg tgaccgccga gctgaagaag aagcacggca tcgagaatct gaacctcaga 1620
attaccatcg attccaacaa gagcagaaag gccgtgctga acagaatcgc cattccccgg 1680
ggcttcgtga agaagcacat tctgggctgg cagggcagcg aaaagatcag caagaatatc 1740
cgggaggccg agtgcaagat cctgctgtcc aagaagtatg aggagctgtc tcggcagttc 1800
tttgaggctg gcaacttcga caagctgacc cagatcaacg gcctgtacga aaagaataag 1860
ctgaccgcct tcatgtccgt ctacctgatg ggcagactga acatccagct gaacaagcac 1920
acggagctgg gaaatctgaa gaagaccgag gtggacttca agatttccga caaggtgaca 1980
gaaaagatcc ccttctccca gtaccctagc ctggtgtacg ctatgagccg gaagtacgtg 2040
gacaacgtgg acaagtacaa gttcagccac caggacaaga agaagccctt cctgggcaag 2100
atcgacagca tcgaaaagga gagaatcgaa ttcatcaagg aggtgctgga cttcgaagag 2160
tacctgttta agaacaaggt gatcgacaag agcaagttca gcgataccgc cacccatatc 2220
tctttcaagg aaatctgcga cgagatgggc aagaagggct gcaaccgcaa caagctgacc 2280
gagctgaata acgctagaaa cgccgcactg cacggagaaa tccccagcga gaccagcttc 2340
cgggaggcca agcccctgat caacgaactg aagaagtaa 2379
<210> 26
<211> 2379
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(2379)
<223> Human codon-optimized coding sequences
<400> 26
atgagccctg acttcatcaa gctggaaaag caggaagccg ccttctactt taatcagacc 60
gagctgaacc tgaaggccat cgagagcaac atcttcgaca agcagcagcg ggtgatcctg 120
ctgaataacc cccagatcct ggccaaggtg ggcgacttca tcttcaactt ccgggacgtg 180
accaagaacg ccaagggaga aatcgactgc ctgctgctga agctgcggga gctgagaaac 240
ttctacagcc actatgtgta caccgacgac gtgaagatcc tgagcaacgg cgagaggccc 300
ctgctggaga agtactacca gtttgccatc gaggccaccg gatctgagaa tgtgaagctg 360
gagatcatcg agagcaacaa ccggctgacc gaagcgggcg tgctgttctt cctgtgcatg 420
ttcctgaaga agagccaggc caacaagctg atttccggca tctccggatt caagcgcaac 480
gaccctaccg gacagcctcg gcggaacctg ttcacctact ttagcgtgcg ggagggctac 540
aaggtggtgc ccgacatgca gaagcacttc ctgctgttcg tgctggtgaa ccacctgtcc 600
ggccaggatg actatattga gaaggcccag aagccctacg acatcggcga aggcctgttc 660
ttccacagaa tcgccagcac ctttctcaac atcagcggca tcctgagaaa catggaattc 720
tacatctacc agagcaagcg gctgaaggag cagcagggag agctgaagag agagaaggac 780
atcttccctt ggatcgagcc tttccagggc aacagctact ttgagatcaa cggaaacaag 840
ggcatcatcg gcgaggacga actgaaggaa ctgtgctacg ccctgctggt ggccggcaag 900
gacgtgagag ccgtggaagg aaagatcacc cagttcctgg agaagttcaa gaacgccgat 960
aacgcccagc aggtggagaa ggatgaaatg ctggaccgga acaacttccc tgccaattac 1020
tttgccgaaa gcaacatcgg cagcatcaag gaaaagatcc tgaatagact gggcaagacc 1080
gacgactcct acaacaagac cggcaccaag atcaagccct acgacatgat gaaggaggtg 1140
atggagttca tcaataattc tctgcccgcc gatgagaagc tgaagcggaa ggactaccgg 1200
agatacctga agatggtccg gatctgggac agcgaaaagg acaatatcaa gcgggagttt 1260
gagagcaagg aatggagcaa gtatttcagc agcgacttct ggatggccaa gaacctggaa 1320
agagtgtacg gcctggccag ggaaaagaac gccgagctgt ttaacaagct gaaggccgtg 1380
gtggagaaga tggacgagcg ggagttcgaa aagtaccggc tgatcaacag cgccgaagac 1440
ctggccagcc tgcggagact ggccaaggac ttcggcctga agtgggagga gaaggactgg 1500
caggagtatt ctggccagat caagaagcag atctccgaca gacagaagct gacaattatg 1560
aagcagcgga tcacagccga actgaagaag aagcacggaa tcgagaacct gaatctgcgg 1620
atcaccatcg acagcaacaa gtccagaaag gccgtgctga accggatcgc cgtgccccgg 1680
ggcttcgtga aggaacacat cctgggctgg caaggctctg aaaaggtgag caagaagacc 1740
agagaagcca agtgcaagat cctgctgagc aaggagtacg aggaactgag caagcagttc 1800
tttcagacac ggaattacga caagatgacc caggtgaacg gcctgtacga gaagaacaag 1860
ctgctggcct tcatggtggt gtacctgatg gagagactga acatcctgct gaacaagccc 1920
acagagctga acgaactgga aaaggccgaa gtggacttca agatctccga caaggtgatg 1980
gccaagatcc ctttctctca gtaccccagc ctggtgtatg caatgagctc caagtacgcc 2040
gacagcgtgg gctcttacaa gttcgaaaac gacgagaaga acaagccctt tctgggcaag 2100
atcgacacaa tcgagaagca gagaatggag ttcatcaagg aggtgctggg cttcgaggaa 2160
tacctgttcg agaagaagat catcgataag agcgaattcg ccgacaccgc cacccacatc 2220
agcttcgacg agatctgcaa cgagctgatc aagaagggct gggacaagga caagctgacc 2280
aagctgaagg acgcccggaa cgccgccctg cacggcgaga tccccgccga gaccagcttc 2340
cgggaggcca agcccctgat taacggcctg aagaagtaa 2379
<210> 27
<211> 2400
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(2400)
<223> Human codon-optimized coding sequences
<400> 27
atgaacatca tcaagctgaa gaaggaggaa gccgcctttt actttaacca gacaatcctg 60
aatctgagcg gcctggacga gatcatcgag aagcagatcc cccacatcat ctccaataag 120
gaaaacgcca agaaggtgat tgataagatc ttcaataaca gactgctgct gaagagcgtg 180
gaaaactata tctacaactt caaggacgtg gccaagaacg cccggaccga aatcgaagcc 240
atcctgctga agctggtgga gctgagaaac ttctactccc actacgtgca caacgacacc 300
gtgaagatcc tgtccaatgg cgagaagccc atcctggaaa agtactacca gatcgccatc 360
gaagccaccg gctctaagaa cgtgaagctg gtcattatcg aaaacaacaa ctgcctgacc 420
gactccggcg tgctgttcct gctgtgcatg ttcctgaaga agagccaggc caacaagctg 480
attagcagcg tgagcggctt taagcggaac gacaaggaag gccagcccag aaggaacctc 540
tttacttact atagcgtgag ggaaggctac aaggtggtgc cagacatgca gaagcacttc 600
ctgctgttcg ccctggtcaa ccacctgtcc gagcaggacg accacatcga gaagcagcag 660
cagagcgacg agctgggcaa gggcctgttc ttccacagaa tcgccagcac attcctgaat 720
gaaagcggca tcttcaacaa gatgcagttt tacacctacc agagcaatcg gctgaaggag 780
aagcggggcg agctgaagca cgagaaggac accttcacct ggatcgagcc tttccaggga 840
aacagctact tcaccctgaa cgggcacaag ggcgtgatca gcgaggatca gctgaaggaa 900
ctgtgctaca caatcctgat cgagaagcag aacgtggaca gcctggaggg caagatcatt 960
cagttcctga agaagtttca gaacgtgtct agcaagcagc aggtggatga ggacgagctg 1020
ctgaagcggg aatacttccc cgccaactac ttcggccggg ccggcaccgg caccctgaag 1080
gagaagatcc tgaaccggct ggacaagcgg atggacccca ccagcaaggt gaccgacaag 1140
gcctatgaca agatgatcga ggtgatggag ttcatcaaca tgtgcctgcc cagcgacgag 1200
aagctgcggc agaaggatta ccggagatat ctgaagatgg tcagattctg gaacaaggag 1260
aagcacaaca tcaagagaga attcgacagc aagaagtgga ccagattcct gcccaccgag 1320
ctgtggaata agcggaacct ggaggaagcc taccagctgg cccggaagga gaacaagaag 1380
aagctggagg acatgaggaa tcaggtgagg agcctgaagg agaacgacct ggagaagtac 1440
cagcagatca actatgtgaa cgacctggaa aacctgcggc tgctgtccca agagctgggc 1500
gtgaagtggc aggagaagga ctgggtggaa tacagcggcc agatcaagaa gcagatcagc 1560
gataaccaga agctgacaat catgaagcag agaatcaccg ccgagctgaa gaagatgcac 1620
ggcatcgaga acctgaacct gagaatcagc atcgacacca acaagtcccg gcagactgtg 1680
atgaacagaa ttgccctgcc caagggcttc gtgaagaacc acattcagca gaacagcagc 1740
gagaagatca gcaagagaat cagagaggac tactgcaaga tcgagctgtc cggcaagtac 1800
gaagagctga gcagacagtt tttcgacaag aagaactttg acaagatgac cctgatcaac 1860
ggactgtgcg agaagaataa gctcatcgcc ttcatggtga tttacctgct ggagcggctg 1920
ggcttcgagc tgaaggagaa gaccaagctg ggcgagctga agcagacccg gatgacatat 1980
aagatcagcg acaaggtgaa ggaggacatc cccctctcct actaccccaa gctggtgtac 2040
gccatgaatc ggaagtatgt ggacaacatc gatagctacg ccttcgccgc ctacgagtct 2100
aagaaggcca tcctggacaa ggtggacatc attgagaagc agagaatgga attcatcaag 2160
caggtgctgt gcttcgagga atacatcttc gagaacagaa tcatcgagaa gagcaagttc 2220
aacgatgagg agacccacat cagcttcacc cagatccacg acgaactgat caagaagggc 2280
agagataccg aaaagctgag caagctgaag cacgccagaa acaaggccct gcacggcgag 2340
atccccgacg ggaccagctt tgagaaggcc aagctgctga tcaacgaaat caagaagtaa 2400
<210> 28
<211> 2412
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(2412)
<223> Human codon-optimized coding sequences
<400> 28
atgaacgcca tcgagctgaa gaaggaagag gccgccttct acttcaacca ggccagactg 60
aacatctctg gcctggacga aatcatcgag aagcaactgc cacacatcgg ctctaacaga 120
gagaacgcca agaagactgt ggacatgatc ctggataacc ccgaggtgct gaagaagatg 180
gaaaactacg tgttcaactc ccgcgatatt gccaagaatg cccggggcga gctggaggcc 240
ctgctgctga agctggtcga gctgagaaac ttctatagcc actacgtgca caaggacgac 300
gtcaagacac tgagctacgg tgagaagcct ctgctggata agtactacga gatcgccatc 360
gaagccaccg gatccaagga cgtgcggctg gagatcattg acgacaagaa taagctgacc 420
gacgccggag tgctgttcct gctgtgcatg ttcctgaaga agagcgaggc taacaagctg 480
atttccagca tccggggctt caagaggaac gacaaggagg gccagcctag aagaaacctg 540
ttcacctact acagcgtgag agagggctat aaggtggtgc ccgacatgca gaagcacttt 600
ctgctgttca ccctggtgaa ccacctgtcc aatcaggacg agtacatctc caacctgcgc 660
ccaaaccagg aaatcggcca gggcggattt ttccaccgga tcgccagcaa gttcctgagc 720
gacagcggaa tcctgcacag catgaagttc tacacataca gatccaagcg gctgaccgag 780
cagcggggag agctgaagcc caagaaggac cactttacat ggatcgagcc tttccagggc 840
aattcctact tcagcgtgca gggccagaag ggcgtgatcg gagaggagca gctcaaggag 900
ctgtgctacg tgctgctggt ggcccgggag gacttcagag ccgtggaggg caaggtgacc 960
cagttcctga agaagttcca gaatgccaat aacgtgcagc aggtggagaa ggacgaggtg 1020
ctggaaaagg agtacttccc cgccaactac tttgagaacc gggacgtggg aagagtcaag 1080
gacaagatcc tgaacagact gaagaagatc accgagagtt ataaggccaa gggtagagag 1140
gtgaaggcct acgacaagat gaaggaagtg atggagttca tcaacaactg cctgcccacc 1200
gatgaaaacc tgaagctgaa ggactaccgg cggtacctga agatggtgag attctggggc 1260
agagagaagg aaaacatcaa gcgggagttc gactccaaga agtgggagcg ctttctcccc 1320
cgggagctgt ggcagaagag aaacctggag gacgcctacc agctcgccaa ggagaagaac 1380
acagagctgt tcaacaagct gaagaccacc gtggagagaa tgaacgaact ggagttcgag 1440
aagtaccagc agatcaatga cgccaaggac ctggccaacc tgagacagct ggccagagac 1500
tttggagtga agtgggagga aaaggactgg caggaatact ctggacagat caagaagcag 1560
atcaccgacc ggcagaagct gaccatcatg aagcagcgga tcaccgccgc cctgaagaag 1620
aagcagggaa tcgaaaacct gaacctgaga atcacaacag atacgaataa gagcaggaag 1680
gtggtgctga accggatcgc actgcccaag ggattcgtca gaaagcacat cctgaagacc 1740
gacatcaaga tcagcaagca gatccggcag agccagtgcc ctatcatcct gtctaacaac 1800
tacatgaagc tggccaagga gttctttgaa gagcggaact tcgataagat gacccagatc 1860
aatggcctgt tcgagaagaa cgtgctgatc gccttcatga tcgtgtacct gatggagcag 1920
ctgaacctga gactgggcaa gaacaccgag ctgtccaacc tgaagaagac cgaggtgaac 1980
tttaccatca ccgacaaggt gaccgagaag gtgcaaatct cccagtaccc cagcctggtg 2040
ttcgccatta accgggagta cgtggacggc atcagcggct acaagctgcc ccccaagaag 2100
cccaaggaac ctccctacac cttcttcgaa aagatcgacg ccatcgaaaa ggagcggatg 2160
gaattcatca agcaggtgct gggcttcgag gagcacctct tcgaaaagaa cgtgatcgac 2220
aagacccggt ttaccgacac cgccacccac atcagcttca atgagatctg cgatgagctg 2280
atcaagaagg gctgggacga aaacaagatc atcaagctga aggatgcacg gaacgctgcc 2340
ctgcacggca agatccctga agatacctcc tttgacgaag ccaaggtgct gatcaacgaa 2400
ctgaagaagt aa 2412
<210> 29
<211> 102
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(102)
<223> gRNA
<400> 29
gctggagcag cccccgattt gtggggtgat tacagcggtc ttcgatattc aagcgtcgga 60
agacctgctg gagcagcccc cgatttgtgg ggtgattaca gc 102
<210> 30
<211> 711
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(711)
<223> GFP reporter genes
<400> 30
atggtgagca agggcgagga ggataacatg gccatcatca aggagttcat gcgcttcaag 60
gtgcacatgg agggctccgt gaacggccac gagttcgaga tcgagggcga gggcgagggc 120
cgcccctacg agggcaccca gaccgccaag ctgaaggtga ccaagggtgg ccccctgccc 180
ttcgcctggg acatcctgtc ccctcagttc atgtacggct ccaaggccta cgtgaagcac 240
cccgccgaca tccccgacta cttgaagctg tccttccccg agggcttcaa gtgggagcgc 300
gtgatgaact tcgaggacgg cggcgtggtg accgtgaccc aggactcctc cctgcaggac 360
ggcgagttca tctacaaggt gaagctgcgc ggcaccaact tcccctccga cggccccgta 420
atgcagaaga agaccatggg ctgggaggcc tcctccgagc ggatgtaccc cgaggacggc 480
gccctgaagg gcgagatcaa gcagaggctg aagctgaagg acggcggcca ctacgacgct 540
gaggtcaaga ccacctacaa ggccaagaag cccgtgcagc tgcccggcgc ctacaacgtc 600
aacatcaagt tggacatcac ctcccacaac gaggactaca ccatcgtgga acagtacgaa 660
cgcgccgagg gccgccactc caccggcggc atggacgagc tgtacaagta a 711
<210> 31
<211> 720
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(720)
<223> mCherry reporter genes
<400> 31
atggtgagca agggcgagga gctgttcacc ggggtggtgc ccatcctggt cgagctggac 60
ggcgacgtaa acggccacaa gttcagcgtg tccggcgagg gcgagggcga tgccacctac 120
ggcaagctga ccctgaagtt catctgcacc accggcaagc tgcccgtgcc ctggcccacc 180
ctcgtgacca ccctgaccta cggcgtgcag tgcttcagcc gctaccccga ccacatgaag 240
cagcacgact tcttcaagtc cgccatgccc gaaggctacg tccaggagcg caccatcttc 300
ttcaaggacg acggcaacta caagacccgc gccgaggtga agttcgaggg cgacaccctg 360
gtgaaccgca tcgagctgaa gggcatcgac ttcaaggagg acggcaacat cctggggcac 420
aagctggagt acaactacaa cagccacaac gtctatatca tggccgacaa gcagaagaac 480
ggcatcaagg tgaacttcaa gatccgccac aacatcgagg acggcagcgt gcagctcgcc 540
gaccactacc agcagaacac ccccatcggc gacggccccg tgctgctgcc cgacaaccac 600
tacctgagca cccagtccgc cctgagcaaa gaccccaacg agaagcgcga tcacatggtc 660
ctgctggagt tcgtgaccgc cgccgggatc actctcggca tggacgagct gtacaagtga 720
<210> 32
<211> 66
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(66)
<223> SgRNA
<400> 32
gctggagcag cccccgattt gtggggtgat tacagcggtc ttcgatattc aagcgtcgga 60
agacct 66
<210> 33
<211> 66
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(66)
<223> SgRNA
<400> 33
ggtcttcgat attcaagcgt cggaagacct gctggagcag cccccgattt gtggggtgat 60
tacagc 66
<210> 34
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(20)
<223> SgRNA
<400> 34
ttggtgccgc gcagcttcac 20
<210> 35
<211> 25
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_
<222> (1)..(25)
<223> SgRNA
<400> 35
ttggtgccgc gcagcttcac cttgt 25
<210> 36
<211> 30
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(30)
<223> SgRNA
<400> 36
ttggtgccgc gcagcttcac cttgtagatg 30
<210> 37
<211> 35
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(35)
<223> SgRNA
<400> 37
ttggtgccgc gcagcttcac cttgtagatg aactc 35
<210> 38
<211> 40
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(40)
<400> 38
ttggtgccgc gcagcttcac cttgtagatg aactcgccgt 40
<210> 39
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(45)
<223> SgRNA
<400> 39
ttggtgccgc gcagcttcac cttgtagatg aactcgccgt cctgc 45
<210> 40
<211> 50
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(50)
<223> SgRNA
<400> 40
ttggtgccgc gcagcttcac cttgtagatg aactcgccgt cctgcaggga 50
<210> 41
<211> 3615
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(3615)
<223> dCas13e.1-ADAR2DD
<400> 41
atgcccaaga agaagcggaa ggtggcccag gtgagcaagc agacctccaa gaagagggag 60
ctgagcatcg acgagtacca gggcgcccgg aagtggtgct tcaccattgc cttcaacaag 120
gccctggtga accgggacaa gaacgacggc ctgttcgtgg aaagcctgct gagacacgag 180
aagtacagca agcacgactg gtacgacgaa gatacccggg ccctgatcaa gtgcagcacc 240
caggccgcca acgccaaggc tgaagccctg gcgaactact tcagtgctta ccggcatagc 300
cctggctgcc tgaccttcac cgccgaggac gaactgcgga ccatcatgga gagagcctat 360
gagcgggcca tcttcgagtg cagaagaaga gagacagagg tgatcatcga gtttcccagc 420
ctgttcgagg gcgaccggat caccaccgcc ggcgtggtgt ttttcgtgag ctttttcgtg 480
gaaagaagag tgctggatcg gctgtatgga gccgtgtccg gcctgaagaa gaatgaggga 540
cagtacaagc tgacccggaa ggccctgagc atgtactgcc tgaaggacag cagattcacc 600
aaggcctggg ataagcgggt gctgctgttc agagacatcc tggcccagct gggaagaatc 660
cccgccgagg cctacgagta ctaccacggc gagcagggtg ataagaagag agctaacgac 720
aatgagggca caaatcccaa gcggcacaag gacaagttca tcgaatttgc actgcactac 780
ctggaagccc agcacagcga gatctgcttc ggcagacgcc acatcgtgcg ggaagaggcc 840
ggcgccggcg atgagcacaa gaagcaccgg accaagggaa aggtggtggt ggacttcagc 900
aagaaggacg aggaccagag ctactatatc tccaagaaca acgtgatcgt gcggatcgac 960
aagaacgccg gccctagaag ctaccggatg ggcctgaacg agctgaagta cctcgtgctg 1020
ctgagcctgc aggggaaggg cgacgatgcc atcgccaagc tgtacagata cagacagcac 1080
gtggagaaca tcctggatgt ggtgaaggtg accgataagg ataaccacgt gttcctgccc 1140
cgcttcgtgc tggagcagca cggcatcggc agaaaggcct tcaagcagcg gatcgatgga 1200
cgggtgaagc acgtgcgggg cgtgtgggag aagaagaagg ccgccaccaa tgaaatgacc 1260
ctgcacgaga aggccagaga catcctgcag tacgtgaacg aaaactgcac ccggtccttc 1320
aaccctggcg aatacaacag actgctggtg tgcctggtgg gcaaggacgt ggagaacttt 1380
caggccggcc tgaagcggct gcagctggcc gaaaggatcg atggccgggt gtactccatc 1440
ttcgcccaga ccagcaccat caatgagatg caccaggtgg tgtgcgacca gatcctgaac 1500
cggctgtgca gaatcggcga ccagaagctg tacgattacg tgggactggg caagaaggac 1560
gaaatcgact acaagcagaa ggtggcctgg ttcaaggagc acatcagcat ccggagagga 1620
ttcctgagaa agaagttctg gtacgatagc aagaagggat tcgcaaagct ggtggaggaa 1680
cacctggagt ccggcggcgg ccagcgcgac gtgggcctgg acaagaagta ctaccacatc 1740
gacgccatcg gcagattcga gggcgccaac cccgccctgt acgagaccct ggccagagat 1800
cggctgtgcc tcatgatggc ccagtacttc ctgggcagcg tgagaaagga actgggcaac 1860
aagattgtgt ggagcaacga cagcatcgaa ctgcctgtgg aaggctctgt gggaaatgag 1920
aagagcatcg tgttctccgt gtctgactac ggcaagctgt acgtgctgga cgatgccgaa 1980
ttcctgggcc ggatctgcga atacttcatg ccccacgaaa agggcaagat ccggtaccac 2040
acagtgtacg aaaagggctt tagagcatac aacgacctgc agaagaagtg cgtggaggcc 2100
gtgctggctt tcgaagagaa ggtggtgaag gccaagaaga tgagcgagaa ggaaggcgcc 2160
cactacatcg acttccggga gatcctggcc cagaccatgt gcaaggaggc cgagaagacc 2220
gcagtgaaca aggtggcggc tgccttcttc gctgcgcacc tgaagttcgt gattgacgag 2280
ttcggcctgt tcagcgacgt gatgaagaag tacggcatcg agaaggaatg gaagttccct 2340
gtcaagccca agaagaagcg gaaggtgggt ggaggcggag gttctggggg aggaggtagt 2400
ggcggtggtg gttcaggagg cggcggaagc cagctgcatt taccgcaggt tttagctgac 2460
gctgtctcac gcctggtcct gggtaagttt ggtgacctga ccgacaactt ctcctcccct 2520
cacgctcgca gaaaagtgct ggctggagtc gtcatgacaa caggcacaga tgttaaagat 2580
gccaaggtga taagtgtttc tacaggaggc aaatgtatta atggtgaata catgagtgat 2640
cgtggccttg cattaaatga ctgccatgca gaaataatat ctcggagatc cttgctcaga 2700
tttctttata cacaacttga gctttactta aataacaaag atgatcaaaa aagatccatc 2760
tttcagaaat cagagcgagg ggggtttagg ctgaaggaga atgtccagtt tcatctgtac 2820
atcagcacct ctccctgtgg agatgccaga atcttctcac cacatgagcc aatcctggaa 2880
gaaccagcag atagacaccc aaatcgtaaa gcaagaggac agctacggac caaaatagag 2940
tctggtcagg ggacgattcc agtgcgctcc aatgcgagca tccaaacgtg ggacggggtg 3000
ctgcaagggg agcggctgct caccatgtcc tgcagtgaca agattgcacg ctggaacgtg 3060
gtgggcatcc agggatcact gctcagcatt ttcgtggagc ccatttactt ctcgagcatc 3120
atcctgggca gcctttacca cggggaccac ctttccaggg ccatgtacca gcggatctcc 3180
aacatagagg acctgccacc tctctacacc ctcaacaagc ctttgctcag tggcatcagc 3240
aatgcagaag cacggcagcc agggaaggcc cccaacttca gtgtcaactg gacggtaggc 3300
gactccgcta ttgaggtcat caacgccacg actgggaagg atgagctggg ccgcgcgtcc 3360
cgcctgtgta agcacgcgtt gtactgtcgc tggatgcgtg tgcacggcaa ggttccctcc 3420
cacttactac gctccaagat taccaagccc aacgtgtacc atgagtccaa gctggcggca 3480
aaggagtacc aggccgccaa ggcgcgtctg ttcacagcct tcatcaaggc ggggctgggg 3540
gcctgggtgg agaagcccac cgagcaggac cagttctcac tcacgtaccc atacgacgta 3600
ccagattacg cttaa 3615
<210> 42
<211> 711
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(711)
<223> mutated mCherry
<400> 42
atggtgagca agggcgagga ggataacatg gccatcatca aggagttcat gcgcttcaag 60
gtgcacatgg agggctccgt gaacggccac gagttcgaga tcgagggcga gggcgagggc 120
cgcccctacg agggcaccca gaccgccaag ctgaaggtga ccaagggtgg ccccctgccc 180
ttcgcctggg acatcctgtc ccctcagttc atgtacggct ccaaggccta cgtgaagcac 240
cccgccgaca tccccgacta cttgaagctg tccttccccg agggcttcaa gtaggagcgc 300
gtgatgaact tcgaggacgg cggcgtggtg accgtgaccc aggactcctc cctgcaggac 360
ggcgagttca tctacaaggt gaagctgcgc ggcaccaact tcccctccga cggccccgta 420
atgcagaaga agaccatggg ctgggaggcc tcctccgagc ggatgtaccc cgaggacggc 480
gccctgaagg gcgagatcaa gcagaggctg aagctgaagg acggcggcca ctacgacgct 540
gaggtcaaga ccacctacaa ggccaagaag cccgtgcagc tgcccggcgc ctacaacgtc 600
aacatcaagt tggacatcac ctcccacaac gaggactaca ccatcgtgga acagtacgaa 660
cgcgccgagg gccgccactc caccggcggc atggacgagc tgtacaagta a 711
<210> 43
<211> 86
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(86)
<223> gRNA
<400> 43
caagtagtcg gggatgtcgg cggggtgctt cacctaggcc ttggagccgt gctggagcag 60
cccccgattt gtggggtgat tacagc 86
<210> 44
<211> 86
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(86)
<223> gRNA
<400> 44
cggggatgtc ggcggggtgc ttcacctagg ccttggagcc gtacatgaac gctggagcag 60
cccccgattt gtggggtgat tacagc 86
<210> 45
<211> 3489
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(3489)
<223> LwaCas13a
<400> 45
atgcccaaga agaagcggaa ggtgggatcc atgaaagtga ccaaggtcga tggcatcagc 60
cacaagaagt acatcgaaga gggcaagctc gtgaagtcca ccagcgagga aaaccggacc 120
agcgagagac tgagcgagct gctgagcatc cggctggaca tctacatcaa gaaccccgac 180
aacgcctccg aggaagagaa ccggatcaga agagagaacc tgaagaagtt ctttagcaac 240
aaggtgctgc acctgaagga cagcgtgctg tatctgaaga accggaaaga aaagaacgcc 300
gtgcaggaca agaactatag cgaagaggac atcagcgagt acgacctgaa aaacaagaac 360
agcttctccg tgctgaagaa gatcctgctg aacgaggacg tgaactctga ggaactggaa 420
atctttcgga aggacgtgga agccaagctg aacaagatca acagcctgaa gtacagcttc 480
gaagagaaca aggccaacta ccagaagatc aacgagaaca acgtggaaaa agtgggcggc 540
aagagcaagc ggaacatcat ctacgactac tacagagaga gcgccaagcg caacgactac 600
atcaacaacg tgcaggaagc cttcgacaag ctgtataaga aagaggatat cgagaaactg 660
tttttcctga tcgagaacag caagaagcac gagaagtaca agatccgcga gtactatcac 720
aagatcatcg gccggaagaa cgacaaagag aacttcgcca agattatcta cgaagagatc 780
cagaacgtga acaacatcaa agagctgatt gagaagatcc ccgacatgtc tgagctgaag 840
aaaagccagg tgttctacaa gtactacctg gacaaagagg aactgaacga caagaatatt 900
aagtacgcct tctgccactt cgtggaaatc gagatgtccc agctgctgaa aaactacgtg 960
tacaagcggc tgagcaacat cagcaacgat aagatcaagc ggatcttcga gtaccagaat 1020
ctgaaaaagc tgatcgaaaa caaactgctg aacaagctgg acacctacgt gcggaactgc 1080
ggcaagtaca actactatct gcaagtgggc gagatcgcca cctccgactt tatcgcccgg 1140
aaccggcaga acgaggcctt cctgagaaac atcatcggcg tgtccagcgt ggcctacttc 1200
agcctgagga acatcctgga aaccgagaac gagaacgata tcaccggccg gatgcggggc 1260
aagaccgtga agaacaacaa gggcgaagag aaatacgtgt ccggcgaggt ggacaagatc 1320
tacaatgaga acaagcagaa cgaagtgaaa gaaaatctga agatgttcta cagctacgac 1380
ttcaacatgg acaacaagaa cgagatcgag gacttcttcg ccaacatcga cgaggccatc 1440
agcagcatca gacacggcat cgtgcacttc aacctggaac tggaaggcaa ggacatcttc 1500
gccttcaaga atatcgcccc cagcgagatc tccaagaaga tgtttcagaa cgaaatcaac 1560
gaaaagaagc tgaagctgaa aatcttcaag cagctgaaca gcgccaacgt gttcaactac 1620
tacgagaagg atgtgatcat caagtacctg aagaatacca agttcaactt cgtgaacaaa 1680
aacatcccct tcgtgcccag cttcaccaag ctgtacaaca agattgagga cctgcggaat 1740
accctgaagt ttttttggag cgtgcccaag gacaaagaag agaaggacgc ccagatctac 1800
ctgctgaaga atatctacta cggcgagttc ctgaacaagt tcgtgaaaaa ctccaaggtg 1860
ttctttaaga tcaccaatga agtgatcaag attaacaagc agcggaacca gaaaaccggc 1920
cactacaagt atcagaagtt cgagaacatc gagaaaaccg tgcccgtgga atacctggcc 1980
atcatccaga gcagagagat gatcaacaac caggacaaag aggaaaagaa tacctacatc 2040
gactttattc agcagatttt cctgaagggc ttcatcgact acctgaacaa gaacaatctg 2100
aagtatatcg agagcaacaa caacaatgac aacaacgaca tcttctccaa gatcaagatc 2160
aaaaaggata acaaagagaa gtacgacaag atcctgaaga actatgagaa gcacaatcgg 2220
aacaaagaaa tccctcacga gatcaatgag ttcgtgcgcg agatcaagct ggggaagatt 2280
ctgaagtaca ccgagaatct gaacatgttt tacctgatcc tgaagctgct gaaccacaaa 2340
gagctgacca acctgaaggg cagcctggaa aagtaccagt ccgccaacaa agaagaaacc 2400
ttcagcgacg agctggaact gatcaacctg ctgaacctgg acaacaacag agtgaccgag 2460
gacttcgagc tggaagccaa cgagatcggc aagttcctgg acttcaacga aaacaaaatc 2520
aaggaccgga aagagctgaa aaagttcgac accaacaaga tctatttcga cggcgagaac 2580
atcatcaagc accgggcctt ctacaatatc aagaaatacg gcatgctgaa tctgctggaa 2640
aagatcgccg ataaggccaa gtataagatc agcctgaaag aactgaaaga gtacagcaac 2700
aagaagaatg agattgaaaa gaactacacc atgcagcaga acctgcaccg gaagtacgcc 2760
agacccaaga aggacgaaaa gttcaacgac gaggactaca aagagtatga gaaggccatc 2820
ggcaacatcc agaagtacac ccacctgaag aacaaggtgg aattcaatga gctgaacctg 2880
ctgcagggcc tgctgctgaa gatcctgcac cggctcgtgg gctacaccag catctgggag 2940
cgggacctga gattccggct gaagggcgag tttcccgaga accactacat cgaggaaatt 3000
ttcaatttcg acaactccaa gaatgtgaag tacaaaagcg gccagatcgt ggaaaagtat 3060
atcaacttct acaaagaact gtacaaggac aatgtggaaa agcggagcat ctactccgac 3120
aagaaagtga agaaactgaa gcaggaaaaa aaggacctgt acatccggaa ctacattgcc 3180
cacttcaact acatccccca cgccgagatt agcctgctgg aagtgctgga aaacctgcgg 3240
aagctgctgt cctacgaccg gaagctgaag aacgccatca tgaagtccat cgtggacatt 3300
ctgaaagaat acggcttcgt ggccaccttc aagatcggcg ctgacaagaa gatcgaaatc 3360
cagaccctgg aatcagagaa gatcgtgcac ctgaagaatc tgaagaaaaa gaaactgatg 3420
accgaccgga acagcgagga actgtgcgaa ctcgtgaaag tcatgttcga gtacaaggcc 3480
ctggaatga 3489
<210> 46
<211> 3312
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(3312)
<223> PspCas13b
<400> 46
atgcccaaga agaagcggaa ggtggtcgac aacatccccg ctctggtgga aaaccagaag 60
aagtactttg gcacctacag cgtgatggcc atgctgaacg ctcagaccgt gctggaccac 120
atccagaagg tggccgatat tgagggcgag cagaacgaga acaacgagaa tctgtggttt 180
caccccgtga tgagccacct gtacaacgcc aagaacggct acgacaagca gcccgagaaa 240
accatgttca tcatcgagcg gctgcagagc tacttcccat tcctgaagat catggccgag 300
aaccagagag agtacagcaa cggcaagtac aagcagaacc gcgtggaagt gaacagcaac 360
gacatcttcg aggtgctgaa gcgcgccttc ggcgtgctga agatgtacag ggacctgacc 420
aaccactaca agacctacga ggaaaagctg aacgacggct gcgagttcct gaccagcaca 480
gagcaacctc tgagcggcat gatcaacaac tactacacag tggccctgcg gaacatgaac 540
gagagatacg gctacaagac agaggacctg gccttcatcc aggacaagcg gttcaagttc 600
gtgaaggacg cctacggcaa gaaaaagtcc caagtgaata ccggattctt cctgagcctg 660
caggactaca acggcgacac acagaagaag ctgcacctga gcggagtggg aatcgccctg 720
ctgatctgcc tgttcctgga caagcagtac atcaacatct ttctgagcag gctgcccatc 780
ttctccagct acaatgccca gagcgaggaa cggcggatca tcatcagatc cttcggcatc 840
aacagcatca agctgcccaa ggaccggatc cacagcgaga agtccaacaa gagcgtggcc 900
atggatatgc tcaacgaagt gaagcggtgc cccgacgagc tgttcacaac actgtctgcc 960
gagaagcagt cccggttcag aatcatcagc gacgaccaca atgaagtgct gatgaagcgg 1020
agcagcgaca gattcgtgcc tctgctgctg cagtatatcg attacggcaa gctgttcgac 1080
cacatcaggt tccacgtgaa catgggcaag ctgagatacc tgctgaaggc cgacaagacc 1140
tgcatcgacg gccagaccag agtcagagtg atcgagcagc ccctgaacgg cttcggcaga 1200
ctggaagagg ccgagacaat gcggaagcaa gagaacggca ccttcggcaa cagcggcatc 1260
cggatcagag acttcgagaa catgaagcgg gacgacgcca atcctgccaa ctatccctac 1320
atcgtggaca cctacacaca ctacatcctg gaaaacaaca aggtcgagat gtttatcaac 1380
gacaaagagg acagcgcccc actgctgccc gtgatcgagg atgatagata cgtggtcaag 1440
acaatcccca gctgccggat gagcaccctg gaaattccag ccatggcctt ccacatgttt 1500
ctgttcggca gcaagaaaac cgagaagctg atcgtggacg tgcacaaccg gtacaagaga 1560
ctgttccagg ccatgcagaa agaagaagtg accgccgaga atatcgccag cttcggaatc 1620
gccgagagcg acctgcctca gaagatcctg gatctgatca gcggcaatgc ccacggcaag 1680
gatgtggacg ccttcatcag actgaccgtg gacgacatgc tgaccgacac cgagcggaga 1740
atcaagagat tcaaggacga ccggaagtcc attcggagcg ccgacaacaa gatgggaaag 1800
agaggcttca agcagatctc cacaggcaag ctggccgact tcctggccaa ggacatcgtg 1860
ctgtttcagc ccagcgtgaa cgatggcgag aacaagatca ccggcctgaa ctaccggatc 1920
atgcagagcg ccattgccgt gtacgatagc ggcgacgatt acgaggccaa gcagcagttc 1980
aagctgatgt tcgagaaggc ccggctgatc ggcaagggca caacagagcc tcatccattt 2040
ctgtacaagg tgttcgcccg cagcatcccc gccaatgccg tcgagttcta cgagcgctac 2100
ctgatcgagc ggaagttcta cctgaccggc ctgtccaacg agatcaagaa aggcaacaga 2160
gtggatgtgc ccttcatccg gcgggaccag aacaagtgga aaacacccgc catgaaaacc 2220
ctgggcagaa tctacagcga ggatctgccc gtggaactgc ccagacagat gttcgacaat 2280
gagatcaagt cccacctgaa gtccctgcca cagatggaag gcatcgactt caacaatgcc 2340
aacgtgacct atctgatcgc cgagtacatg aagagagtgc tggacgacga cttccagacc 2400
ttctaccagt ggaaccgcaa ctaccggtac atggacatgc ttaagggcga gtacgacaga 2460
aagggctccc tgcagcactg cttcaccagc gtggaagaga gagaaggcct ctggaaagag 2520
cgggcctcca gaacagagcg gtacagaaag caggccagca acaagatccg cagcaaccgg 2580
cagatgagaa acgccagcag cgaagagatc gagacaatcc tggataagcg gctgagcaac 2640
agccggaacg agtaccagaa aagcgagaaa gtgatccggc gctacagagt gcaggatgcc 2700
ctgctgtttc tgctggccaa aaagaccctg accgaactgg ccgatttcga cggcgagagg 2760
ttcaaactga aagaaatcat gcccgacgcc gagaagggaa tcctgagcga gatcatgccc 2820
atgagcttca ccttcgagaa aggcggcaag aagtacacca tcaccagcga gggcatgaag 2880
ctgaagaact acggcgactt ctttgtgctg gctagcgaca agaggatcgg caacctgctg 2940
gaactcgtgg gcagcgacat cgtgtccaaa gaggatatca tggaagagtt caacaaatac 3000
gaccagtgca ggcccgagat cagctccatc gtgttcaacc tggaaaagtg ggccttcgac 3060
acataccccg agctgtctgc cagagtggac cgggaagaga aggtggactt caagagcatc 3120
ctgaaaatcc tgctgaacaa caagaacatc aacaaagagc agagcgacat cctgcggaag 3180
atccggaacg ccttcgatca caacaattac cccgacaaag gcgtggtgga aatcaaggcc 3240
ctgcctgaga tcgccatgag catcaagaag gcctttgggg agtacgccat catgaaggga 3300
tcccttcaat ga 3312
<210> 47
<211> 2934
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(2934)
<223> RxCas13d
<400> 47
atgcctaaaa agaaaagaaa ggtgggttct ggtatcgaga agaagaagag cttcgccaag 60
ggcatgggag tgaagagcac cctggtgtcc ggctctaagg tgtacatgac cacatttgct 120
gagggaagcg acgccaggct ggagaagatc gtggagggcg atagcatcag atccgtgaac 180
gagggagagg ctttcagcgc cgagatggct gacaagaacg ctggctacaa gatcggaaac 240
gccaagtttt cccacccaaa gggctacgcc gtggtggcta acaacccact gtacaccgga 300
ccagtgcagc aggacatgct gggactgaag gagacactgg agaagaggta cttcggcgag 360
tccgccgacg gaaacgataa catctgcatc caggtcatcc acaacatcct ggatatcgag 420
aagatcctgg ctgagtacat cacaaacgcc gcttacgccg tgaacaacat ctccggcctg 480
gacaaggata tcatcggctt cggaaagttt tctaccgtgt acacatacga cgagttcaag 540
gatccagagc accaccgggc cgcttttaac aacaacgaca agctgatcaa cgccatcaag 600
gctcagtacg acgagttcga taactttctg gataacccca ggctgggcta cttcggacag 660
gctttctttt ctaaggaggg cagaaactac atcatcaact acggaaacga gtgttacgac 720
atcctggccc tgctgagcgg actgaggcac tgggtggtgc acaacaacga ggaggagtct 780
cggatcagcc gcacctggct gtacaacctg gacaagaacc tggataacga gtacatctcc 840
acactgaact acctgtacga caggatcacc aacgagctga caaacagctt ctccaagaac 900
tctgccgcta acgtgaacta catcgctgag accctgggca tcaacccagc tgagttcgct 960
gagcagtact tcagattttc catcatgaag gagcagaaga acctgggctt caacatcaca 1020
aagctgagag aagtgatgct ggacagaaag gatatgtccg agatcaggaa gaaccacaag 1080
gtgttcgatt ctatcagaac caaggtgtac acaatgatgg actttgtgat ctacaggtac 1140
tacatcgagg aggatgccaa ggtggccgct gccaacaaga gcctgcccga caacgagaag 1200
tctctgagcg agaaggatat cttcgtgatc aacctgagag gctcctttaa cgacgatcag 1260
aaggacgctc tgtactacga tgaggccaac aggatctgga gaaagctgga gaacatcatg 1320
cacaacatca aggagttccg gggaaacaag acccgcgagt acaagaagaa ggacgctcca 1380
aggctgccta ggatcctgcc tgctggaagg gacgtgagcg ccttcagcaa gctgatgtac 1440
gccctgacaa tgtttctgga cggaaaggag atcaacgatc tgctgaccac actgatcaac 1500
aagttcgaca acatccagtc ttttctgaaa gtgatgcctc tgatcggcgt gaacgctaag 1560
ttcgtggagg agtacgcctt ctttaaggac agcgccaaga tcgctgatga gctgcggctg 1620
atcaagtcct ttgccaggat gggagagcca atcgctgacg ctaggagagc tatgtacatc 1680
gatgccatcc ggatcctggg aaccaacctg tcttacgacg agctgaaggc tctggccgac 1740
accttcagcc tggatgagaa cggcaacaag ctgaagaagg gcaagcacgg aatgcgcaac 1800
ttcatcatca acaacgtgat cagcaacaag cggtttcact acctgatcag atacggcgac 1860
ccagctcacc tgcacgagat cgctaagaac gaggccgtgg tgaagttcgt gctgggacgg 1920
atcgccgata tccagaagaa gcagggccag aacggaaaga accagatcga ccgctactac 1980
gagacctgca tcggcaagga taagggaaag tccgtgtctg agaaggtgga cgctctgacc 2040
aagatcatca caggcatgaa ctacgaccag ttcgataaga agagatctgt gatcgaggac 2100
accggaaggg agaacgccga gagagagaag tttaagaaga tcatcagcct gtacctgaca 2160
gtgatctacc acatcctgaa gaacatcgtg aacatcaacg ctagatacgt gatcggcttc 2220
cactgcgtgg agcgcgatgc ccagctgtac aaggagaagg gatacgacat caacctgaag 2280
aagctggagg agaagggctt tagctccgtg accaagctgt gcgctggaat cgacgagaca 2340
gcccccgaca agaggaagga tgtggagaag gagatggccg agagagctaa ggagagcatc 2400
gactccctgg agtctgctaa ccctaagctg tacgccaact acatcaagta ctccgatgag 2460
aagaaggccg aggagttcac caggcagatc aacagagaga aggccaagac cgctctgaac 2520
gcctacctga ggaacacaaa gtggaacgtg atcatccggg aggacctgct gcgcatcgat 2580
aacaagacct gtacactgtt ccggaacaag gctgtgcacc tggaggtggc tcgctacgtg 2640
cacgcctaca tcaacgacat cgccgaggtg aactcctact ttcagctgta ccactacatc 2700
atgcagagga tcatcatgaa cgagagatac gagaagtcta gcggcaaggt gtctgagtac 2760
ttcgacgccg tgaacgatga gaagaagtac aacgatagac tgctgaagct gctgtgcgtg 2820
cctttcggat actgtatccc acggtttaag aacctgagca tcgaggccct gttcgaccgc 2880
aacgaggctg ccaagtttga taaggagaag aagaaggtga gcggcaactc ctga 2934
<210> 48
<211> 30
<212> DNA
<213> 智人(Homo sapiens)
<400> 48
atggcccttc gcagctcttg cacgtcatac 30
<210> 49
<211> 30
<212> DNA
<213> 智人(Homo sapiens)
<400> 49
ttaggcagcc ctcatcagtg ccggctccct 30
<210> 50
<211> 30
<212> DNA
<213> 智人(Homo sapiens)
<400> 50
ggccaggatc tcaattaggc agccctcatc 30