具体实施方式
本发明的一个实施方案提供了靶向目标DNA序列的方法,包括将Cas蛋白或编码它的核酸导入细胞。
具体地,根据一个方面,本公开提供了用于靶向包含SEQ ID NO:1的PAM(原体间隔序列临近基序)序列的DNA序列的方法,包括将识别SEQ ID NO:1的PAM序列NNNNRYAC的Cas蛋白或编码Cas蛋白的核酸导入细胞。在SEQ ID NO:1中,根据IUPAC命名法,“N”是指任何核苷酸,例如选自A、C、G和T;“R”是指嘌呤(A/G);“Y”是指嘧啶(C/T)。
在本公开的一个方面,所述方法可以进一步包括引入包含能够与邻近SEQ ID NO:1的PAM序列的目标DNA(靶DNA)的互补链形成双链体的序列的引导RNA:引导RNA可以与识别SEQ ID NO:1的PAM序列的Cas蛋白或编码Cas蛋白的核酸同时或依次导入。
如本文所用,术语“靶向”意图包括将Cas蛋白与目标DNA序列结合,伴随或不伴随DNA切割。
稍后将描述的术语适用于本公开的所有实施例,并且可以组合使用。
Cas蛋白可以在与CRISPR RNA(crRNA)和反式激活的crRNA(tracrRNA)形成复合物后表现其活性。Cas蛋白可以表现出内切核酸酶或切口酶活性。
与Cas蛋白或编码Cas蛋白的基因相关的信息可以在众所周知的数据库中找到,例如NCBI(National Center for Biotechnology Information)的GenBank。根据一个实施方案,Cas蛋白可以是Cas9蛋白。在另一个实施方案中,Cas蛋白可以是来源于(衍生自)弯曲杆菌属的蛋白,并且可以特别是来源于空肠弯曲杆菌。更具体地,Cas9蛋白可以源自空肠弯曲杆菌。在本公开的一些实施方案中,Cas蛋白可以包含由SEQ ID NO:22表示的氨基酸序列,或者可以与SEQ ID NO:22的氨基酸序列同源,保留其内在活性。例如,但不限于,本公开内容所涵盖的Cas蛋白及其同源序列可以与SEQ ID NO:22的序列具有至少50%、60%、70%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性。
此外,如本公开内容的某些实施方案中所使用的Cas蛋白意图包括可以作为与引导RNA以及天然蛋白合作的活化的内切核酸酶或切口酶的任何变体。活化的内切核酸酶或切口酶可以切割靶DNA,或者能够用切割功能进行基因组编辑。对于失活的变体,其功能可用于调节转录或分离目标DNA。
Cas9蛋白变体可以是来自用不同氨基酸取代催化性天冬氨酸或组氨酸残基的Cas9的衍生物、变体或突变体。例如,不同的氨基酸可以是丙氨酸,但不限于此。
具体地,Cas蛋白,例如源自空肠弯曲杆菌的Cas9蛋白位置8处的催化性天冬氨酸(D)或位置559处的组氨酸残基(H)可以用不同于野生型氨基酸序列的氨基酸替换。在一些实施方案中,SEQ ID NO.22的序列的位置8处的催化性天冬氨酸(D)或位置559处的组氨酸残基(H)被不同的氨基酸取代。例如,不同的氨基酸可以是但不限于丙氨酸。通过将突变导入天然Cas9核酸酶的一个活性位点而制备的Cas9核酸酶变体可以作为与引导RNA结合的切口酶。当与一个引导RNA分子结合时,两个切口酶分子可以切割目标DNA双链体的两条链,从而产生双链断裂(DSB)。因此,这样的变型也属于本公开所涵盖的RGEN的范围。
如本文所用,术语“失活Cas蛋白”是指Cas核酸酶,其功能是完全或部分失活的。失活Cas蛋白可以缩写为dCas。Cas可以是Cas9蛋白。此外,它可以源自弯曲杆菌属,特别是来自空肠弯曲杆菌。任何方法可用于制备失活的Cas9核酸酶,只要其消除核酸酶活性。例如,可以通过将突变导入Cas9核酸酶的两个上述活性位点中来构建dCAS9蛋白。dCAS9然后可以作为与指导DNA的DNA结合复合物,而缺乏DNA切割功能。此外,dCAS9蛋白可以具有除位置8的天冬氨酸(D)和位置559的组氨酸(H)以外的取代基。例如,在一些实施方案中,dCAS9蛋白可以具有除SEQ ID NO:22序列的位置8的天冬氨酸(D)和位置559的组氨酸(H)以外的取代基。取代基可以是但不限于丙氨酸。
如本文所用,术语“切割”是指核苷酸分子的共价主链的断裂。
在本公开的一些实施方案中,Cas蛋白可以是重组蛋白。
与例如细胞、核酸、蛋白质或载体结合使用的术语“重组体”,是指通过导入异源核酸或蛋白或者通过改变天然核酸或蛋白质而被修饰的细胞、核酸、蛋白质或载体,或衍生自这种修饰的细胞。因此,例如,可以基于人密码子表通过重构编码Cas蛋白的核酸序列(即,编码Cas蛋白的序列)来产生重组Cas蛋白。
在本公开的一些实施方案中,Cas蛋白或编码其的核酸可以是允许在细胞核内有活性的形式。
在本公开的一些实施方案中,分离的Cas蛋白可以是易于导入细胞的形式。例如,Cas蛋白可以与细胞穿透肽或蛋白转导结构域连接。蛋白转导结构域可以是但不限于聚精氨酸或HIV衍生的TAT蛋白。本公开包括本领域熟知的细胞穿透肽或蛋白质转导结构域的各种实例。
在本公开的一些实施方案中,Cas蛋白或编码其的核酸可以进一步包含用于通过核转运将蛋白或核酸转运到细胞核中的核定位信号(NSL)。此外,编码Cas蛋白的核酸可以进一步包含核定位信号(NLS)序列。因此,编码Cas蛋白的核酸可以作为表达盒的组分存在,所述表达盒可以包含但不限于NLS序列以及调节元件,例如启动子。
在本公开的一些实施方案中,Cas蛋白可以与有助于分离和/或纯化的标签连接。作为非限制性实例,取决于目的,可以使用小肽标签,例如His标签、Flag标签、S标签等,谷胱甘肽S-转移酶(GST)标签或麦芽糖结合蛋白(MBP)标签。
在本公开的一些实施方案中,当Cas蛋白与靶DNA特异性引导RNA相关联时,Cas蛋白可以统称为RGEN(RNA-引导工程核酸酶)。如本文所用,术语“RGEN”是指具有靶DNA特异性引导RNA和Cas蛋白的核酸酶。
为了应用于细胞,根据本公开的一些实施方案,RGEN可以具有靶DNA特异性引导RNA或编码引导RNA的DNA;以及分离的Cas蛋白或编码Cas蛋白的核酸。在这点上,引导RNA或编码引导RNA的DNA可以与Cas蛋白或编码Cas蛋白的核酸同时或依次应用于细胞。
在本公开的一个方面,用于递送至细胞的RGEN包括1)靶DNA特异性引导RNA和分离的Cas蛋白,或2)编码引导RNA的DNA或编码Cas蛋白的核酸。以1)形式的递送被指定为“RNP递送”。
分离的引导RNA的实例可以包括但不限于体外转录的RNA。
在本公开的一些实施方案中,引导RNA编码DNA(编码引导RNA的DNA)和Cas蛋白编码核酸本身可被用作分离的核酸。或者,但不限于,它们可存在于具有用于表达引导RNA和/或Cas蛋白的表达盒的载体中。
合适的载体的实例包括病毒载体、质粒载体和农杆菌载体。病毒载体可以例举但不限于AAV(腺相关病毒)。
在本公开的一些实施方案中,非限制性地,引导RNA编码DNA和Cas蛋白编码核酸可以分别存在于各个载体中或一起存在于单个载体中。
本主题的前述应用实施例可以应用于如本说明书中所描述的更多示例性实施例。另外,稍后将描述的应用实施例可以与其他构成元件组合应用。
如本文所使用的,术语“引导RNA”可以指对靶DNA具有特异性的RNA(即,靶DNA特异性RNA),其可以与Cas蛋白偶联以将Cas蛋白引导至靶DNA。
此外,至少在一些实施方案中,引导RNA可以被设计为对于待切割的某个靶标是特异性的。
在本公开的一些实施方案中,引导RNA可以是由两种RNA组成的双RNA,即,crRNA和tracrRNA。在其他实施方案中,引导RNA可以是sgRNA,其包含或由含有与能够与靶DNA的互补链形成双链体的靶DNA互补的序列的第一区域和含有负责与Cas蛋白相互作用的序列的第二区域组成。更具体地,引导RNA可以是通过融合crRNA和tracrRNA的各个必要部分而合成的sgRNA(单引导RNA或单链引导RNA)。
在本公开的一些实施方案中,能够与引导RNA中的靶DNA序列的互补链形成双链体的序列可以在长度上不限于17至23bp,18至23bp,19至23bp,特别是20至23bp,更特别是21至23bp。长度可以应用于双RNA和sgRNA,更具体地应用于sgRNA。
在本公开内容的一些实施方案中,引导RNA可以在能够与靶DNA的互补链形成双链体的序列的5′端之前包含一至三个,更特别是两个或三个附加核苷酸序列。核苷酸选自A、T、G、C及其组合。引导RNA可以包含一至三个连续的鸟嘌呤(G)残基,更优选地,两个或三个连续的G残基作为附加核苷酸。这不限于应用于双RNA和sgRNA,更优选应用于sgRNA。
在本公开的一些实施方案中,sgRNA可以包含与靶DNA序列互补的区域(称为“间隔序列”,“靶DNA识别序列”,“碱基配对区”等)和发夹结构用于结合Cas蛋白。
在本公开的一些实施方案中,sgRNA可以包含与靶DNA序列互补的区域,用于结合Cas蛋白的发夹结构和终止子序列。这些元件可以是但不限于沿5′至3′方向顺序排列。
在本公开的一些实施方案中,可以使用任何形式的引导RNA,只要其含有crRNA和tracrRNA的各自的必要部分和与靶DNA互补的区域即可。
在本公开的一些实施方案中,crRNA可与靶DNA杂交。
在本公开的一些实施方案中,RGEN可以由Cas蛋白和双RNA,或Cas蛋白和sgRNA组成。或者,RGEN可以包含编码Cas蛋白的各自的核酸和sgRNA作为构成元件,但不限于此。
在本公开的一些实施方案中,引导RNA(例如crRNA或sgRNA)可以含有与靶DNA序列互补的序列,并且可以包含位于crRNA或sgRNA上游,特别是在sgRNA或双RNA的crRNA的5′端的一个或多个附加核苷酸。附加核苷酸可以是但不限于鸟嘌呤(G)残基。
在本公开的一些实施方案中,引导RNA可以包含能够与邻近PAM(原间隔序列邻近基序)序列NNNNRYAC(SEQ ID NO:1)的靶DNA序列的互补链形成双链体(即形成碱基对或杂交)的序列。
在本公开的一些实施方案中,引导RNA可以包含能够与靶DNA序列的互补架构形成双链体的第一区域和包含以长度为13-18bp的茎为特征的茎-环结构的第二区域。在某些实施方案中,茎可包含SEQ ID NO:2(5′-GUUUUAGUCCCUUGUG-3′)的核苷酸序列及其互补序列。
在本公开的一些实施方案中,引导RNA可以包含能够与靶DNA序列的互补链形成双链体的第一区域和包含以5-10bp长度的环为特征的茎-环结构的第二区域。该环可以包含SEQ ID NO:3(5′-AUAUUCAA-3′)的核苷酸序列。
在本公开的一些实施方案中,上文或稍后描述的Cas蛋白和引导RNA,特别是sgRNA,可以是非天然存在的或被工程化的那些。另外,针对每个主题描述的因素可以组合在一起以用于应用。
在本公开的一些实施方案中,RGEN的细胞内导入可以通过但不限于(1)递送在细菌过度表达后纯化的Cas9蛋白和识别在细胞中体外转录后制备的特异性HLA靶序列的sgRNA(单引导的RNA)来实现,,或(2)将携带Cas9基因和sgRNA的质粒递送到细胞中用于表达或转录来实现。
此外,可以通过本领域已知的各种方法,例如但不限于电穿孔或使用脂质体、病毒载体、纳米颗粒或PTD(蛋白转运结构域)融合蛋白的技术将包含在本公开内容范围内的蛋白质、RNA或质粒DNA导入细胞中。
在一些实施方案中,本公开的方法可用于切割包含SEQ ID NO:1的PAM序列的靶DNA,更具体地,用于编辑基因组。在本文中,Cas蛋白可以是具有核酸酶或切口酶活性的活性形式。
在某些实施方案中,Cas蛋白可以是失活(灭活)形式。在这种情况下,本公开的方法以包含SEQ ID NO:1的PAM序列的靶DNA序列不被切割,但与Cas蛋白相关联的方式进行。
此外,在一些其他实施方案中,Cas蛋白,更特别地,失活Cas蛋白,可以进一步包含转录效应子结构域。详细地,失活Cas蛋白可以与(但不限于)激活剂、阻遏物等连接。
给定转录效应结构域,至少在一些实施方案中,该方法可以应用于Cas介导的包含转录调节或表观遗传调节的基因表达调节。
根据另一方面,本公开提供了分离的引导RNA,其包含能够与邻近PAM(原间隔序列邻近基序)NNNNRYAC(SEQ ID NO:1)的靶DNA序列的互补链形成双链体的序列。分离的引导RNA可以是非天然存在的或人工工程化的RNA。
各个元件如上所述。
在本公开的一些实施方案中,引导RNA可以是单引导RNA,其中能够与靶DNA的互补链形成双链体的序列的长度可以在17至23bp,18至23bp,19至23bp,特别是20至23bp,更特别是21至23bp,但不限于此。
此外,引导RNA,至少在一些实施方案中,可以包含正好在靶DNA的互补链的5′端的上游的一至三个连续的鸟嘌呤(G)残基,但不限于此。另外,上述对附加核苷酸的描述也可以适用于该实施方案。
此外,根据本公开的另一方面提供了组合物,其包含引导RNA,所述引导RNA包含能够与邻近PAM(原间隔序列邻近基序)序列NNNNRYAC(SEQ ID NO:1)的靶DNA序列的互补链形成双链体的序列,或编码引导RNA的DNA。
在至少一些实施方案中,各组分如上所述。
在本公开的一些实施方案中,组合物可以进一步包含识别序列NNNNRYAC(SEQ IDNO:1)的Cas蛋白或编码Cas蛋白的核酸。
此外,在某些实施方案中,组合物可用于基因组编辑。
此外,在一些实施方案中,组合物可以包含:(i)引导RNA,其包含能够与邻近PAM(原间隔序列邻近基序)NNNNRYAC(SEQ ID NO:1)的靶DNA序列的互补链形成双链体的序列或编码引导RNA的DNA;和(ii)失活Cas蛋白(dCas)或编码dCas的核酸。
在一个实施方案中,失活Cas蛋白可以进一步包含转录效应结构域。
在本公开的一些实施方案中,组合物可用于分离包含靶DNA序列的目标DNA。在这点上,失活Cas蛋白可以用可用于分离和纯化的标签标记,但不限于此。标签可以如上所述。
在本公开的一些实施方案中,组合物可用于Cas-介导的基因表达调节,所述基因表达调节包括转录调节或表观遗传调节。
在本公开的一些实施方案中,靶DNA可以存在于分离的细胞中,例如真核细胞。真核细胞的实例包括酵母,真菌,原生动物,来自植物、高等植物、昆虫或两栖动物的细胞,以及哺乳动物细胞例如CHO、HeLa、HEK293和COS-1细胞。不限于,本领域通常使用培养细胞(体外)、移植细胞、原代细胞培养(体外和离体)、体内细胞和包括人细胞的哺乳动物细胞。
根据另一方面,本公开提供了CRISPR-CAS系统,其包含(i)引导RNA,其包含能够与邻近PAM(原间隔序列-临近基序)NNNNRYAC(SEQ ID NO:1)的靶DNA序列形成双链体的序列,或编码引导RNA的DNA;和(ii)识别PAM序列NNNNRYAC(SEQ ID NO:1)的Cas蛋白或编码Cas蛋白的核酸。
各个因素如上所述。这些因子可以是非天然存在的或工程化的。
本公开的另一方面涉及重组病毒载体,其包含(i)用于引导RNA的表达盒,其包含能够与邻近PAM(原间隔序列-临近基序)NNNNRYAC(SEQ ID NO:1)的靶DNA序列形成双链体的序列,和(ii)识别NNNNRYAC(SEQ ID NO:1)的PAM序列的Cas蛋白的表达盒。
各个因素如上所述。这些因子可以是非天然存在的或工程化的。
病毒载体,至少在一些实施方案中,可以是AAV(腺相关病毒)来源的。
本公开的另一方面涉及分离的引导RNA,其包含长度为21-23bp的序列,其能够与靶DNA序列的互补链形成双链体。
引导RNA如上所定义。引导RNA可以是非天然存在的或工程化的。
本公开的另一方面涉及包含引导RNA或编码引导RNA的DNA的组合物。
各个因素如上所述。这些因子可以是非天然存在的或工程化的。
组合物,至少在一些实施方案中,可以包含识别PAM序列NNNNRYAC(SEQ ID NO:1)的Cas蛋白或编码Cas蛋白的核酸。
此外,在一些实施方案中,组合物可以包含识别NNNNRYAC序列(SEQ ID NO:1)的失活Cas或编码失活Cas蛋白的核酸。
在一些实施方案中,失活Cas蛋白可以进一步包含转录效应子结构域。
根据另一方面,本公开提供了分离的引导RNA,其包含第一区域和第二区域,所述第一区域包含能够与靶DNA序列的互补链形成双链体的序列,所述第二区域包含茎环结构,其以长度为13-18bp的茎为特征。
各个因素如上所定义。这些因子可以是非天然存在的或工程化的。
在某些实施方案中,茎可包含SEQ ID NO:2(5′-GUUUUAGUCCCUUGUG-3′)的核苷酸序列及其互补序列。
根据另外的方面,本公开提供了分离的引导RNA,其包含第一区域和第二区域,所述第一区域包含能够与靶DNA序列的互补链形成双链体的序列,所述第二区域包含茎环结构,其特征在于长度为5-10bp的环。
各个因子如上所定义。这些因子可以是非天然存在的或工程化的。
在某些实施方案中,环可包含SEQ ID NO:3(5′-AUAUUCAA-3′)的核苷酸序列。
根据另一方面,本公开提供了包含引导RNA以及Cas蛋白或编码Cas蛋白的核酸的组合物。
各个因子如上所定义。这些因子可以是非天然存在的或工程化的。
本公开的又另一方面提供了用于在细胞中进行基因组编辑的方法,包括向细胞中引入分离的引导RNA或编码分离的引导RNA的DNA以及Cas蛋白或编码Cas蛋白的核酸。
各个因子如上所定义。这些因子可以是非天然存在的或工程化的。
本公开的另一方面提供了用于切割细胞中靶DNA的方法,包括将分离的引导RNA或编码分离的引导RNA的DNA与Cas蛋白或编码Cas蛋白的核酸一起导入细胞中。
各个因子如上所定义。这些因子可以是非天然存在的或工程化的。
在某些实施方案中,引导RNA或编码引导RNA的DNA可以与Cas蛋白或编码Cas蛋白的核酸同时或依次导入细胞。
本公开的又一方面提供了用于制备引导RNA的靶DNA识别序列(即,负责识别靶DNA的引导RNA中的序列)的方法,其包括:(i)识别给定序列中PAM序列NNNNRYAC(SEQ ID NO:1)的存在;和(ii)如果在步骤(i)中鉴定到所述PAM序列的存在,则将正好位于所述PAM序列NNNNRYAC(SEQ ID NO:1)上游的序列确定为可被引导RNA识别。
各个因子如上所定义。这些因子可以是非天然存在的或工程化的。
在本公开的一些实施方案中,位于PAM序列上游的序列可以但不限于在从17到23bp,从18到23bp,从19到23bp,更特别地从20到23bp,甚至更特别是21到23bp的长度范围内。
本公开的另一方面提供了分离目标DNA的方法,包括:(i)将引导RNA或编码引导RNA的DNA与失活Cas蛋白或编码失活Cas蛋白的核酸一起导入细胞中,从而允许引导RNA和失活Cas蛋白与包含靶DNA序列的目标DNA形成复合物;和(ii)从样品中分离复合物。
各个因子如上所定义。这些因子可以是非天然存在的或工程化的。
至少在一些实施方案中,失活Cas蛋白可以识别PAM(原体间隔临近基序)序列NNNNRYAC(SEQ ID NO:1)。
在某些实施方案中,用于分离目标DNA的方法可以通过允许特异性结合目标DNA的引导RNA(gRNA)和失活Cas蛋白(dCas)以及目标DNA来形成dCas-gRNA-目标DNA复合物;并从样品中分离复合物来进行。
在一些实施方案中,可以使用公知的检测方法例如PCR扩增等来鉴定目标DNA。
在一些实施方案中,分离方法可以适于不通过在DNA、gRNA和dCas之间的共价键形成交联的体外无细胞DNA。
此外,在一些实施方案中,分离方法可以进一步包括从复合物中分离目标DNA。
在一些实施方案中,失活Cas蛋白可以与亲和标签连接以用于分离目标DNA。亲和标签可以选自His标签、Flag标签、S标签、GST(谷胱甘肽S-转移酶)标签、MBP(麦芽糖结合蛋白)标签、CBP(几丁质结合蛋白)标签、Avi标签、钙调蛋白标签、聚谷氨酸标签、E标签、HA标签、myc标签、SBP标签、softag 1、softag 3、strep标签、TC标签、Xpress标签、BCCP(生物素羧基载体蛋白)标签和GFP(绿色荧光蛋白)标签,但不限于此。
在一些实施方案中,失活Cas蛋白可以是缺乏DNA切割活性的Cas蛋白。
在一些实施方案中,可以使用能够结合所使用的标签的亲和柱或磁珠来实现目标DNA的分离。例如,当His标签用于分离目标DNA时,可以使用能够结合His标签的金属亲和柱或磁珠。磁珠可以包括但不限于Ni-NTA磁珠。
在一些实施方案中,可以使用核糖核酸酶和蛋白酶从复合物中分离目标DNA。
在用于分离目标DNA的方法的一些实施方案中,可从含有两种或更多种不同基因型DNA的混合物的分离的样品中分离某种基因型DNA或两种或更多种不同的目标DNA。当所述方法包括分离两种或更多种不同的目标DNA时,可以使用分别对两种或更多种不同的目标DNA特异性的引导RNA来分离两种或更多种目标DNA。
在某些实施方案中,引导RNA可以是单引导RNA(sgRNA),或包含crRNA和tracrRNA的双RNA。引导RNA可以是分离的RNA,或可以在质粒中被编码。
在某些实施方案中,分离方法可以通过以下步骤执行:将引导RNA(gRNA)特异性结合到1)目标DNA和2)失活Cas蛋白(dCas)以与目标DNA形成dCas-gRNA-DNA复合物;并从所述样品中分离所述复合物。
本公开的另一方面提供了用于在包括靶DNA序列的目标DNA中的Cas介导的基因表达调节的方法,所述方法包括:将特异性识别靶DNA的分离的引导RNA或编码引导RNA的DNA,连同与转录效应子结构域融合的失活Cas蛋白或编码失活Cas蛋白的核酸一起导入细胞。
各个因子如上所定义。这些因子可以是非天然存在的或工程化的。
实施例
提供以下实施例是为了说明本公开的一些方面,并且它们不应被解释为以任何方式限制本公开的范围。
空肠弯曲杆菌CRISPR/CAS9系统
实施例1:使用空肠弯曲杆菌CRISPR/CAS9的基因组编辑
本发明人成功地从空肠弯曲杆菌中分离了RGEN。为了鉴定关于基因组编辑的空肠弯曲杆菌CRISPR/CAS9衍生的RGEN的特征,合成了针对人密码子优化的空肠弯曲杆菌CAS9基因(表1),然后插入哺乳动物表达载体中构建空肠弯曲杆菌CAS9表达盒,其中HA-标记的NLS-连接的Cas基因处于CMV启动子的调节下(图1)。
表1空肠弯曲杆菌Cas9蛋白的氨基酸序列
空肠弯曲杆菌CRISPR/CAS9系统的天然引导RNA由tracrRNA和靶特异性crRNA组成。考虑到引导RNA本身用作两种RNA分子或作为其中crRNA和tracrRNA彼此融合的单一引导RNA(sgRNA)的概念,本发明人设计并构建了用于空肠弯曲杆菌sgRNA(C.jejuni sgRNA)的表达质粒(表2)。
表2
然后,基于空肠弯曲杆菌CRISPR/CAS9系统的PAM序列(NNNACA)选择人AAVS1和小鼠Rosa-26的潜在靶位点(表3)。
表3
sgRNAs |
靶序列 |
序列ID号 |
人AAVs1_C.Jejuni |
ATATAAGGTGGTCCCAGCTC<u>GGGGACA</u> |
24 |
小鼠Rosa26_C.Jejuni |
ATTCCCCTGCAGGACAACGC<u>CCACACA</u> |
25 |
为了检查空肠弯曲杆菌RGEN是否可以用于哺乳动物细胞中内源基因的靶向断裂,分析使用T7内切核酸酶I(T7E1)从转染的细胞中分离的基因组DNA,T7内切核酸酶I是一种错配敏感性内切核酸酶,其特异性识别和切割由野生型和突变体DNA序列杂交形成的异源双链。使用的引物序列如下(表4)。
表4
引物 |
序列 |
序列ID号 |
人AAVS1-F |
TGCTTCTCCTCTTGGGAAGT |
26 |
人AAVS1-R |
CCCCGTTCTCCTGTGGATTC |
27 |
小鼠Rosa26-F |
ACGTTTCCGACTTGAGTTGC |
28 |
小鼠Rosa26-R |
CCCAGCTACAGCCTCGATTT |
29 |
结果,仅在将CAS9蛋白和引导RNA一起导入的细胞中检测到突变(可互换的为取代或变异)。根据基于相对DNA条带强度测量,发现突变频率是RNA一剂量依赖性的(图2A)。此外,PCR扩增产物的DNA测序分析证实在内源位点诱导RGEN介导的突变。在靶位点观察到了插入/缺失(indel)和微同源性(microhomology),其特征在于易错的非同源末端连接(NHEJ)修复(图2B)。通过直接测序(=2个突变体克隆/12个克隆)测量的突变频率为16.7%。
同样,当小鼠Rosa26空肠弯曲杆菌RGEN被递送到小鼠NHI3T3细胞中时,根据通过T7E1测定法所测量,在小鼠Rosa26位点有效诱导突变(图3A)。此外,PCR扩增产物的DNA测序分析揭示了在内源基因位点的空肠弯曲杆菌RGEN介导的突变的诱导(图3B)。通过直接测序(2个突变体克隆/9个克隆)测量,发现突变频率为22.2%。
实施例2:sgRNA的结构修饰
预期空肠弯曲杆菌crRNA:tracrRNA复合物将包含比来自其他细菌物种的环结构更短的环结构,设计修饰的茎或环结构以结构稳定实施例1中构建的空肠弯曲杆菌RGENsgRNA(表5)。
表5
在表5中,标准茎部分以粗体和下划线显示。
当导入修饰的sgRNA以靶向通过正常sgRNA结构成功诱导突变的人类AAVS1空肠弯曲杆菌RGEN的靶位点时,观察到相似的突变频率(图4)。在这点上,使用的引物序列如表4所示。
实施例3:sgRNA间隔长度的优化
在文献中报道了识别靶序列的空肠弯曲杆菌crRNA的间隔序列的长度为20bp。为了确定哪个间隔长度是最佳的,如表6所示,使用具有各种长度的间隔序列和在5′末端具有附加核苷酸的sgRNA突变体结构对人AAVS1位点上的空肠弯曲杆菌Cas9的4个靶位点进行基因组编辑测试(图5A至图5C)。对于本实验中使用的方法,参考Genome Res.2014Jan;24(1):132-41。
表6
目标位点
sgRNA |
序列(20bp-SPACERnnnnACA) |
序列ID号 |
人AAVS1-CJ1 |
ATATAAGGTGGTCCCAGCTCggggACA |
32 |
人AAVS1-NRG1 |
GTAGAGGCGGCCACGACCTGgtgaACA |
33 |
人AAVS1-NRG3 |
TCACAAAGGGAGTTTTCCACacggACA |
34 |
人AAVS1-NRG5 |
TAGGCAGATTCCTTATCTGGtgacACA |
35 |
将sgRNA表达载体递送到293-细胞三天后,分离基因组DNA并通过深度测序分析突变效率。结果示于图5C中。可以看出,当间隔序列的长度为21-23bp时,检测到高效率。此外,即使当在20bp长间隔序列的sgRNA的5′末端添加2-3个附加G残基时,也观察到基因组编辑的改善。
表7
这里,F*表示正向引物,R.**表示反向引物。
实施例4:空肠弯曲杆菌Cas9 PAM序列分析
在本公开中,基于现有文献中的数据,空肠弯曲杆菌Cas9的PAM序列被推断为包含“NNNNACA”,并进行实验。对于为五个基因组位点构建的34个空肠弯曲杆菌CRISPR/CAS9系统,只有三个显示出活性。特别地,覆盖三个活性系统中的位点的序列的另外的分析显示,在所有三个位点中,在PAM序列(NNNNACA)之后立即鉴定核苷酸“C”(表8)。
表8
基于该结果,推断PAM序列包含“NNNNACAC”。当“ACAC”的每个位点的核苷酸被A/T/G/C取代时,分析空肠弯曲杆菌Cas9的活性以鉴定空肠弯曲杆菌RGEN的PAM序列。为此,利用替代性报告载体。结果,空肠弯曲杆菌被鉴定为包含“NNNNRYAC(SEQ ID NO:1)”的PAM序列(图6,其中R是嘌呤残基(A或G),Y是嘧啶残基(C/T))。该实验使用Nat Methods.2011 Oct9;8(11):941-3中描述的替代性报告载体进行。
实施例5:空肠弯曲杆菌CRISPR/CAS9的特异性和PAM序列的测定
使用Digenome-seq(本发明人开发并提交专利保护的CRISPR/CAS9脱靶测定)在基因组水平分析AAVS1-CJ1位点中的空肠弯曲杆菌CRISPR/CAS9的切割位点。使用NatMethods.2015Mar;12(3):237-43中描述的方法进行实验。
通过Digenome-Seq,确定了其中AAVS1-CJ1 CRISPR/CAS9似乎被切割的41个位点(表9中的基因组位置)。共有序列获自41个位点的切割位点序列的比对,并验证与实施例4中鉴定的一致的PAM。
此外,为了检查是否实际将脱靶突变导入通过Digenome-Seq获得的潜在脱靶中,来自其中递送AAVS1-CJ1 CRISPR工程化核酸酶的293-细胞的基因组DNA进行深度测序40个潜在脱靶位点。如表9所示,没有观察到显著的突变。
表9
此外,从在体外显示裂解的41个位点的序列的整个比对获得了共有序列。与先前的结果一致,实际上观察到PAM为NNNNRYAC(SEQ ID NO:1)。
实施例6:PAM的前两个核苷酸的退化
在实施例5中发现空肠弯曲杆菌的PAM序列是“NNNNRYAC”以及“NNNNACAC”,显示在前两个位置的退化。为了证实简并性,分别构建人AAVS1位点的空肠弯曲杆菌的7个PAM靶序列的sgRNA,其在前两个位置携带G或T残基(表10),并分析HEK293细胞中的突变效率。
表10
在七个构建的sgRNA中,发现六个诱导突变,证明在PAM序列的前两个位置处的退化(图8)。因此,这种退化增加了PAM序列的频率,允许改善空肠弯曲杆菌的基因组编辑的准确性。
实施例7:使用AAV通过空肠弯曲杆菌CRISPR/CAS9递送进行基因组编辑
在其中基因组编辑可应用的有希望的领域中的代表是用于基因和细胞治疗的基因组编辑技术。基因组编辑对治疗的实际应用需要临床可应用的载体,用于在体外或体内有效地将工程化的核酸酶和供体DNA递送至靶细胞。两种最广泛使用的工程化核酸酶平台,TALEN和RGEN由于其大尺寸限于应用于已建立的基因治疗载体。相比之下,本公开的空肠弯曲杆菌RGEN由迄今开发的RGEN中的最小的CAS9蛋白和sgRNA组成。由于其小尺寸,空肠弯曲杆菌RGEN可以允许大规模基因治疗载体用于基因组操作。例如,作为基因治疗的最重要载体之一的AAV(腺相关病毒)对由其携带的DNA的大小施加严格的限制,因此难以应用于源自化脓性链球菌(S.pyogenes)、嗜热链球菌(S.thermophilus)或脑膜炎奈瑟氏球菌(N.meningitidis)的RGEN,或目前使用的工程化核酸酶平台TALEN。相比之下,空肠弯曲杆菌RGEN可以应用于AAV载体。
在本公开中,通过实际的AAV递送对空肠弯曲杆菌Cas9的操作进行了检查。为此,构建携带空肠弯曲杆菌Cas9表达盒和sgRNA表达盒的AAV载体(图9),并用于产生AAV。在用AAV感染后,定量分析小鼠C2C12细胞的突变(图10)。可以看出,以AAV剂量和时间依赖性方式在靶位点诱导突变。特别地,在高MOI(100)感染4周后,在靶位点以90%或更高的效率诱导突变。
因此,空肠弯曲杆菌RGEN被证明在培养的细胞中有效地进行基因组编辑。此外,空肠弯曲杆菌CRISPR/CAS9系统的PAM序列实际上确定,因为在先前研究中提出的序列被发现不是完美的。此外,空肠弯曲杆菌RGEN可由于其元件的小尺寸而被装载到单一病毒中,因此可用于有效的基因组编辑。
使用dCAS9:gRNA复合物富集靶DNA
此外,使用由化脓性链球菌来源的、失活的Cas9蛋白和引导RNA组成的RGEN(dCas9:gRNA复合物)分离和富集靶DNA。
在这方面,dCas9蛋白用六个连续的His残基标记,使得其可以使用Ni-NTA磁珠来纯化,用于选择性结合His标签。此外,dCas蛋白-sgRNA复合物可用于靶DNA的选择性纯化,因为复合物可以特异性结合某一DNA序列,但缺乏核酸酶活性。
测试由引导RNA和失活的Cas核酸酶组成的RGEN(dCas9:gRNA复合物)分离靶DNA的能力。为此,首先,用限制酶(SpeI,XmaI,XhoI)消化质粒pUC19,得到长度分别为4134bp、2570bp和1263bp的质粒DNA片段。
对于用限制酶消化的每个质粒DNA片段,合成两种不同的sgRNA(4134bp_sg#1,4134bp_sg#2,2570bp_sg#1,2570bp_sg#2,1263bp_sg#1,和1263bp_sg#2)。使用对应于靶DNA的sgRNA,单独或组合(4134bp_sg#1+2,2570bp_sg#1+2,和1263bp_sg#1+2)进行纯化程序。sgRNA的核苷酸序列列于下表11中。
表11
*除了U代替T,sgRNA的核苷酸序列与靶DNA的核苷酸序列相同。
将总共200μl含有DNA:dCas9蛋白:sgRNA(摩尔比为1∶20∶100)的混合物溶液在37℃温育1.5小时。然后,将溶液与50μl与His标签特异性结合的Ni-NTA磁珠混合,并用200μl洗涤缓冲液洗涤两次,随后用200μl洗脱缓冲液纯化dCas9-sgRNA-靶DNA复合物缓冲液(Bioneer,K-7200)。
然后,将洗脱液在37℃下用0.2mg/ml核糖核酸酶A(Amresco,E866)孵育2小时,然后在55℃下用0.2mg/ml蛋白酶K孵育45分钟,以除去sgRNA和dCas9蛋白。单独的靶DNA在乙醇中沉淀。
结果,对于单独的靶DNA,,无论是单独的还是两个结合地使用sgRNAs,所需的靶DNA都可以从通过大小消化的三个DNA片段中分离出来。此外,当多种靶DNA用sgRNA的组合纯化时,例如对于两种不同的靶DNA总共4种不同的sgRNA(对于每种靶DNA有2种sgRNA),靶DNA与相应的sgRNA结合并因此纯化。结果表明,每个靶DNA可以以95%或更高的纯度被分离。
此外,纯化技术适用于识别本公开的PAM(原间隔序列邻近基序)序列NNNNRYAC(SEQ ID NO:1)的Cas蛋白。
基于上述描述,本领域技术人员应当理解,在不脱离本发明的技术思想或必要特征的情况下,可以在实施本发明时采用本发明实施例的各种替代方案,在所附权利要求中限定。在这点上,上述示例仅用于说明性目的,并且本发明不旨在受这些示例的限制。本发明的范围应当被理解为包括从以下权利要求或等同概念的含义和范围导出的所有修改或修改形式。
<110> 基因工具股份有限公司
<120> 使用空肠弯曲杆菌CRISPR/CAS系统
衍生的RNA引导的工程化核酸酶的基因编辑
<130> OPA15185-PCT
<150> US 62/033,852
<151> 2014-08-06
<160> 88
<170> KopatentIn 2.0
<210> 1
<211> 8
<212> DNA
<213> 人工序列
<220>
<223> PAM 序列
<220>
<221> 其他特征
<222> (1)..(4)
<223> n = 任何核苷酸
<400> 1
nnnnryac 8
<210> 2
<211> 16
<212> RNA
<213> 人工序列
<220>
<223> 引导RNA的茎序列
<400> 2
guuuuagucc cuugug 16
<210> 3
<211> 8
<212> RNA
<213> 人工序列
<220>
<223> 引导RNA的环序列
<400> 3
auauucaa 8
<210> 4
<211> 60
<212> DNA
<213> 人
<400> 4
cacattaacc ggccctggga atataaggtg gtcccagctc ggggacacag gatccctgga 60
60
<210> 5
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> hAAVS1 突变体克隆 (-2, x1)
<400> 5
cacattaacc ggccctggga atataaggtg gtcccagcgg ggacacagga tccctgga 58
<210> 6
<211> 59
<212> DNA
<213> 人工序列
<220>
<223> hAAVS 突变体克隆 (-1, x1)
<400> 6
cacattaacc ggccctggga atataaggtg gtcccagtcg gggacacagg atccctgga 59
<210> 7
<211> 59
<212> DNA
<213> 小家鼠
<400> 7
cttaaaggct aacctggtgt gtgggcgttg tcctgcaggg gaattgaaca ggtgtaaaa 59
<210> 8
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> 小鼠 Rosa26 (-1, X1)
<400> 8
cttaaaggct aacctggtgt gtgggcttgt cctgcagggg aattgaacag gtgtaaaa 58
<210> 9
<211> 60
<212> DNA
<213> 人工序列
<220>
<223> 小鼠 Rosa26 (+1, X1)
<400> 9
cttaaaggct aacctggtgt gtgggcgttt gtcctgcagg ggaattgaac aggtgtaaaa 60
60
<210> 10
<211> 38
<212> DNA
<213> 人工序列
<220>
<223> 靶序列
<400> 10
ggccctggga atataaggtg gtcccagctc ggggacac 38
<210> 11
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> GX19
<400> 11
gtataaggtg gtcccagctc ggggacac 28
<210> 12
<211> 29
<212> DNA
<213> 人工序列
<220>
<223> GX20
<400> 12
gatataaggt ggtcccagct cggggacac 29
<210> 13
<211> 30
<212> DNA
<213> 人工序列
<220>
<223> GX21
<400> 13
gaatataagg tggtcccagc tcggggacac 30
<210> 14
<211> 31
<212> DNA
<213> 人工序列
<220>
<223> GX22
<400> 14
ggaatataag gtggtcccag ctcggggaca c 31
<210> 15
<211> 32
<212> DNA
<213> 人工序列
<220>
<223> GX23
<400> 15
gggaatataa ggtggtccca gctcggggac ac 32
<210> 16
<211> 30
<212> DNA
<213> 人工序列
<220>
<223> GGX20
<400> 16
ggatataagg tggtcccagc tcggggacac 30
<210> 17
<211> 31
<212> DNA
<213> 人工序列
<220>
<223> GGGX20
<400> 17
gggatataag gtggtcccag ctcggggaca c 31
<210> 18
<211> 38
<212> DNA
<213> 人工序列
<220>
<223> hAAVS-CJ1的靶位点
<400> 18
ggccctggga atataaggtg gtcccagctc ggggacac 38
<210> 19
<211> 38
<212> DNA
<213> 人工序列
<220>
<223> hAAVS-NRG1的靶位点
<400> 19
gagaaaggga gtagaggcgg ccacgacctg gtgaacac 38
<210> 20
<211> 38
<212> DNA
<213> 人工序列
<220>
<223> hAAVS-NRG3的靶位点
<400> 20
cgcaccattc tcacaaaggg agttttccac acggacac 38
<210> 21
<211> 38
<212> DNA
<213> 人工序列
<220>
<223> hAAVS-NRG5靶位点
<400> 21
cacctcctgt taggcagatt ccttatctgg tgacacac 38
<210> 22
<211> 1003
<212> PRT
<213> 空肠弯曲杆菌
<400> 22
Met Ala Arg Ile Leu Ala Phe Asp Ile Gly Ile Ser Ser Ile Gly Trp
1 5 10 15
Ala Phe Ser Glu Asn Asp Glu Leu Lys Asp Cys Gly Val Arg Ile Phe
20 25 30
Thr Lys Val Glu Asn Pro Lys Thr Gly Glu Ser Leu Ala Leu Pro Arg
35 40 45
Arg Leu Ala Arg Ser Ala Arg Lys Arg Leu Ala Arg Arg Lys Ala Arg
50 55 60
Leu Asn His Leu Lys His Leu Ile Ala Asn Glu Phe Lys Leu Asn Tyr
65 70 75 80
Glu Asp Tyr Gln Ser Phe Asp Glu Ser Leu Ala Lys Ala Tyr Lys Gly
85 90 95
Ser Leu Ile Ser Pro Tyr Glu Leu Arg Phe Arg Ala Leu Asn Glu Leu
100 105 110
Leu Ser Lys Gln Asp Phe Ala Arg Val Ile Leu His Ile Ala Lys Arg
115 120 125
Arg Gly Tyr Asp Asp Ile Lys Asn Ser Asp Asp Lys Glu Lys Gly Ala
130 135 140
Ile Leu Lys Ala Ile Lys Gln Asn Glu Glu Lys Leu Ala Asn Tyr Gln
145 150 155 160
Ser Val Gly Glu Tyr Leu Tyr Lys Glu Tyr Phe Gln Lys Phe Lys Glu
165 170 175
Asn Ser Lys Glu Phe Thr Asn Val Arg Asn Lys Lys Glu Ser Tyr Glu
180 185 190
Arg Cys Ile Ala Gln Ser Phe Leu Lys Asp Glu Leu Lys Leu Ile Phe
195 200 205
Lys Lys Gln Arg Glu Phe Gly Phe Ser Phe Ser Lys Lys Phe Glu Glu
210 215 220
Glu Val Leu Ser Val Ala Phe Tyr Lys Arg Ala Leu Lys Asp Phe Ser
225 230 235 240
His Leu Val Gly Asn Cys Ser Phe Phe Thr Asp Glu Lys Arg Ala Pro
245 250 255
Lys Asn Ser Pro Leu Ala Phe Met Phe Val Ala Leu Thr Arg Ile Ile
260 265 270
Asn Leu Leu Asn Asn Leu Lys Asn Thr Glu Gly Ile Leu Tyr Thr Lys
275 280 285
Asp Asp Leu Asn Ala Leu Leu Asn Glu Val Leu Lys Asn Gly Thr Leu
290 295 300
Thr Tyr Lys Gln Thr Lys Lys Leu Leu Gly Leu Ser Asp Asp Tyr Glu
305 310 315 320
Phe Lys Gly Glu Lys Gly Thr Tyr Phe Ile Glu Phe Lys Lys Tyr Lys
325 330 335
Glu Phe Ile Lys Ala Leu Gly Glu His Asn Leu Ser Gln Asp Asp Leu
340 345 350
Asn Glu Ile Ala Lys Asp Ile Thr Leu Ile Lys Asp Glu Ile Lys Leu
355 360 365
Lys Lys Ala Leu Ala Lys Tyr Asp Leu Asn Gln Asn Gln Ile Asp Ser
370 375 380
Leu Ser Lys Leu Glu Phe Lys Asp His Leu Asn Ile Ser Phe Lys Ala
385 390 395 400
Leu Lys Leu Val Thr Pro Leu Met Leu Glu Gly Lys Lys Tyr Asp Glu
405 410 415
Ala Cys Asn Glu Leu Asn Leu Lys Val Ala Ile Asn Glu Asp Lys Lys
420 425 430
Asp Phe Leu Pro Ala Phe Asn Glu Thr Tyr Tyr Lys Asp Glu Val Thr
435 440 445
Asn Pro Val Val Leu Arg Ala Ile Lys Glu Tyr Arg Lys Val Leu Asn
450 455 460
Ala Leu Leu Lys Lys Tyr Gly Lys Val His Lys Ile Asn Ile Glu Leu
465 470 475 480
Ala Arg Glu Val Gly Lys Asn His Ser Gln Arg Ala Lys Ile Glu Lys
485 490 495
Glu Gln Asn Glu Asn Tyr Lys Ala Lys Lys Asp Ala Glu Leu Glu Cys
500 505 510
Glu Lys Leu Gly Leu Lys Ile Asn Ser Lys Asn Ile Leu Lys Leu Arg
515 520 525
Leu Phe Lys Glu Gln Lys Glu Phe Cys Ala Tyr Ser Gly Glu Lys Ile
530 535 540
Lys Ile Ser Asp Leu Gln Asp Glu Lys Met Leu Glu Ile Asp His Ile
545 550 555 560
Tyr Pro Tyr Ser Arg Ser Phe Asp Asp Ser Tyr Met Asn Lys Val Leu
565 570 575
Val Phe Thr Lys Gln Asn Gln Glu Lys Leu Asn Gln Thr Pro Phe Glu
580 585 590
Ala Phe Gly Asn Asp Ser Ala Lys Trp Gln Lys Ile Glu Val Leu Ala
595 600 605
Lys Asn Leu Pro Thr Lys Lys Gln Lys Arg Ile Leu Asp Lys Asn Tyr
610 615 620
Lys Asp Lys Glu Gln Lys Asn Phe Lys Asp Arg Asn Leu Asn Asp Thr
625 630 635 640
Arg Tyr Ile Ala Arg Leu Val Leu Asn Tyr Thr Lys Asp Tyr Leu Asp
645 650 655
Phe Leu Pro Leu Ser Asp Asp Glu Asn Thr Lys Leu Asn Asp Thr Gln
660 665 670
Lys Gly Ser Lys Val His Val Glu Ala Lys Ser Gly Met Leu Thr Ser
675 680 685
Ala Leu Arg His Thr Trp Gly Phe Ser Ala Lys Asp Arg Asn Asn His
690 695 700
Leu His His Ala Ile Asp Ala Val Ile Ile Ala Tyr Ala Asn Asn Ser
705 710 715 720
Ile Val Lys Ala Phe Ser Asp Phe Lys Lys Glu Gln Glu Ser Asn Ser
725 730 735
Ala Glu Leu Tyr Ala Lys Lys Ile Ser Glu Leu Asp Tyr Lys Asn Lys
740 745 750
Arg Lys Phe Phe Glu Pro Phe Ser Gly Phe Arg Gln Lys Val Leu Asp
755 760 765
Lys Ile Asp Glu Ile Phe Val Ser Lys Pro Glu Arg Lys Lys Pro Ser
770 775 780
Gly Ala Leu His Glu Glu Thr Phe Arg Lys Glu Glu Glu Phe Tyr Gln
785 790 795 800
Ser Tyr Gly Gly Lys Glu Gly Val Leu Lys Ala Leu Glu Leu Gly Lys
805 810 815
Ile Arg Lys Val Asn Gly Lys Ile Val Lys Asn Gly Asp Met Phe Arg
820 825 830
Val Asp Ile Phe Lys His Lys Lys Thr Asn Lys Phe Tyr Ala Val Pro
835 840 845
Ile Tyr Thr Met Asp Phe Ala Leu Lys Val Leu Pro Asn Lys Ala Val
850 855 860
Ala Arg Ser Lys Lys Gly Glu Ile Lys Asp Trp Ile Leu Met Asp Glu
865 870 875 880
Asn Tyr Glu Phe Cys Phe Ser Leu Tyr Lys Asp Ser Leu Ile Leu Ile
885 890 895
Gln Thr Lys Asp Met Gln Glu Pro Glu Phe Val Tyr Tyr Asn Ala Phe
900 905 910
Thr Ser Ser Thr Val Ser Leu Ile Val Ser Lys His Asp Asn Lys Phe
915 920 925
Glu Thr Leu Ser Lys Asn Gln Lys Ile Leu Phe Lys Asn Ala Asn Glu
930 935 940
Lys Glu Val Ile Ala Lys Ser Ile Gly Ile Gln Asn Leu Lys Val Phe
945 950 955 960
Glu Lys Tyr Ile Val Ser Ala Leu Gly Glu Val Thr Lys Ala Glu Phe
965 970 975
Arg Gln Arg Glu Asp Phe Lys Lys Ser Gly Pro Pro Lys Lys Lys Arg
980 985 990
Lys Val Tyr Pro Tyr Asp Val Pro Asp Tyr Ala
995 1000
<210> 23
<211> 100
<212> DNA
<213> 人工序列
<220>
<223> C.jejuni_sgRNA
<220>
<221> 其他特征
<222> (1)..(20)
<223> n = 任何核苷酸
<400> 23
nnnnnnnnnn nnnnnnnnnn gttttagtcc ctgaaaaggg actaaaataa agagtttgcg 60
ggactctgcg gggttacaat cccctaaaac cgcttttttt 100
<210> 24
<211> 27
<212> DNA
<213> 人工序列
<220>
<223> 人 AAVS1的靶序列
<400> 24
atataaggtg gtcccagctc ggggaca 27
<210> 25
<211> 27
<212> DNA
<213> 人工序列
<220>
<223> 小鼠 Rosa26的靶序列
<400> 25
attcccctgc aggacaacgc ccacaca 27
<210> 26
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 人 AAVS1-F
<400> 26
tgcttctcct cttgggaagt 20
<210> 27
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 人 AAVS1-R
<400> 27
ccccgttctc ctgtggattc 20
<210> 28
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 小鼠 Rosa26-F
<400> 28
acgtttccga cttgagttgc 20
<210> 29
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 小鼠 Rosa26-R
<400> 29
cccagctaca gcctcgattt 20
<210> 30
<211> 108
<212> DNA
<213> 人工序列
<220>
<223> C.jejuni_sgRNA_修饰的茎
<220>
<221> 其他特征
<222> (1)..(20)
<223> n = 任何核苷酸
<400> 30
nnnnnnnnnn nnnnnnnnnn gttttagtcc cttgtggaaa tataagggac taaaataaag 60
agtttgcggg actctgcggg gttacaatcc cctaaaaccg cttttttt 108
<210> 31
<211> 104
<212> DNA
<213> 人工序列
<220>
<223> C.jejuni_sgRNA_修饰的环
<220>
<221> 其他特征
<222> (1)..(20)
<223> n = 任何核苷酸
<400> 31
nnnnnnnnnn nnnnnnnnnn gttttagtcc ctatattcaa agggactaaa ataaagagtt 60
tgcgggactc tgcggggtta caatccccta aaaccgcttt tttt 104
<210> 32
<211> 27
<212> DNA
<213> 人工序列
<220>
<223> 人 AAVS1-CJ1
<400> 32
atataaggtg gtcccagctc ggggaca 27
<210> 33
<211> 27
<212> DNA
<213> 人工序列
<220>
<223> 人 AAVS1-NRG1
<400> 33
gtagaggcgg ccacgacctg gtgaaca 27
<210> 34
<211> 27
<212> DNA
<213> 人工序列
<220>
<223> 人 AAVS1-NRG3
<400> 34
tcacaaaggg agttttccac acggaca 27
<210> 35
<211> 27
<212> DNA
<213> 人工序列
<220>
<223> 人 AAVS1-NRG5
<400> 35
taggcagatt ccttatctgg tgacaca 27
<210> 36
<211> 53
<212> DNA
<213> 人工序列
<220>
<223> AS-AV-F1
<400> 36
acactctttc cctacacgac gctcttccga tctaggagga ggcctaagga tgg 53
<210> 37
<211> 53
<212> DNA
<213> 人工序列
<220>
<223> AS-AV-F2
<400> 37
acactctttc cctacacgac gctcttccga tctgctctgg gcggaggaat atg 53
<210> 38
<211> 53
<212> DNA
<213> 人工序列
<220>
<223> AS-AV-F4
<400> 38
acactctttc cctacacgac gctcttccga tctatcctct ctggctccat cgt 53
<210> 39
<211> 54
<212> DNA
<213> 人工序列
<220>
<223> AS-AV-R1
<400> 39
gtgactggag ttcagacgtg tgctcttccg atcttgtcat ggcatcttcc aggg 54
<210> 40
<211> 54
<212> DNA
<213> 人工序列
<220>
<223> AS-AV-R2
<400> 40
gtgactggag ttcagacgtg tgctcttccg atcttccgtg cgtcagtttt acct 54
<210> 41
<211> 54
<212> DNA
<213> 人工序列
<220>
<223> AS-AV-R4
<400> 41
gtgactggag ttcagacgtg tgctcttccg atctccggtt aatgtggctc tggt 54
<210> 42
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 42
atataaggtg gtcccagctc ggggacac 28
<210> 43
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 43
tggccccact gtggggtgga ggggacag 28
<210> 44
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 44
caccccacag tggggccact agggacag 28
<210> 45
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 45
ctagcagcaa accttccctt cactacaa 28
<210> 46
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 46
ctccatgaat gcaaactgtt ttatacat 28
<210> 47
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 47
tgcattcatg gagggcaact aaatacat 28
<210> 48
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 48
atcaagtgtc aagtccaatc tatgacat 28
<210> 49
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 49
ccaatctatg acatcaatta ttatacat 28
<210> 50
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 50
gcaaaaggct gaagagcatg actgacat 28
<210> 51
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 51
gcagcatagt gagcccagaa ggggacag 28
<210> 52
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 52
gccgcccagt gggactttgg aaatacaa 28
<210> 53
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 53
tccactgcag ctcccttact gataacaa 28
<210> 54
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 54
attcccctgc aggacaacgc ccacacac 28
<210> 55
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 55
acacctgttc aattcccctg caggacaa 28
<210> 56
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 56
ttgaacaggt gtaaaattgg agggacaa 28
<210> 57
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 57
ttgcccctat taaaaaactt cccgacaa 28
<210> 58
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 58
agatccttac tacagtatga aattacag 28
<210> 59
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 59
agccttatca aaaggtattt tagaacac 28
<210> 60
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 60
cggggcccac tcaccgtgca cataacag 28
<210> 61
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 61
gccgtgtccg cgccatggcc atctacaa 28
<210> 62
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 62
tggccatcta caagaagtca cagcacat 28
<210> 63
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 63
ccgagtgtca ggagctcctg cagcacag 28
<210> 64
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 64
ctccccgggg cccactcacc gtgcacat 28
<210> 65
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 65
cctgtgcagt tgtgggtcag cgccacac 28
<210> 66
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 66
ggtgtggcgc tgacccacaa ctgcacag 28
<210> 67
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 67
ttcttgtaga tggccatggc gcggacac 28
<210> 68
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 68
cgccatggcc atctacaaga agtcacag 28
<210> 69
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 69
acatcatcaa tattgttcct gtatacac 28
<210> 70
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 70
tgaatccaaa aaccttaaaa caaaacaa 28
<210> 71
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 71
tgctttgaat ccaaaaacct taaaacaa 28
<210> 72
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 72
agcataaaaa ccattacaag atatacaa 28
<210> 73
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 73
gtagatgtgc tgagagacat tatgacac 28
<210> 74
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 74
ggcggtgtca taatgtctct cagcacat 28
<210> 75
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 测试序列
<400> 75
atttaactgc agaggtatgt ataaacat 28
<210> 76
<211> 30
<212> DNA
<213> 人工序列
<220>
<223> 靶序列
<400> 76
gccacgacct ggtgaacacc taggacgcac 30
<210> 77
<211> 30
<212> DNA
<213> 人工序列
<220>
<223> 靶序列
<400> 77
ggccttatct cacaggtaaa actgacgcac 30
<210> 78
<211> 30
<212> DNA
<213> 人工序列
<220>
<223> 靶序列
<400> 78
ctcttgggaa gtgtaaggaa gctgcagcac 30
<210> 79
<211> 30
<212> DNA
<213> 人工序列
<220>
<223> 靶序列
<400> 79
agctgcagca ccaggatcag tgaaacgcac 30
<210> 80
<211> 30
<212> DNA
<213> 人工序列
<220>
<223> 靶序列
<400> 80
ctgtggggtg gaggggacag ataaaagtac 30
<210> 81
<211> 30
<212> DNA
<213> 人工序列
<220>
<223> 靶序列
<400> 81
gccggttaat gtggctctgg ttctgggtac 30
<210> 82
<211> 30
<212> DNA
<213> 人工序列
<220>
<223> 靶序列
<400> 82
gccatgacag ggggctggaa gagctagcac 30
<210> 83
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 靶序列
<400> 83
gagaaccaga ccacccagaa 20
<210> 84
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 靶序列
<400> 84
ggcagccccg ccatcaagaa 20
<210> 85
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 靶序列
<400> 85
gtaagatgct tttctgtgac 20
<210> 86
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 靶序列
<400> 86
gatcctttga tcttttctac 20
<210> 87
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 靶序列
<400> 87
gcctccaaaa aagaagagaa 20
<210> 88
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 靶序列
<400> 88
tgacatcaat tattatacat 20