CN106922154B

CN106922154B - 使用空肠弯曲杆菌crispr/cas系统衍生的rna引导的工程化核酸酶的基因编辑

Info

Publication number: CN106922154B
Application number: CN201580052262.5A
Authority: CN
Inventors: 金殷智; 金奭中
Original assignee: Toolgen Inc; Institute for Basic Science
Current assignee: Toolgen Inc; Institute for Basic Science
Priority date: 2014-08-06
Filing date: 2015-08-06
Publication date: 2022-01-07
Anticipated expiration: 2035-08-06
Also published as: AU2020267249A1; EP3178935B1; EP4194557A1; KR101817482B1; CN113789317B; AU2015299850B2; AU2015299850A1; WO2016021973A1; US20200172912A1; CA2957441A1; EP3178935A1; US20170145425A1; US10519454B2; JP2017526387A; EP3178935A4; CN113789317A; KR20180015731A; CN106922154A; JP6715419B2; AU2020267249B2

Abstract

本文提供的公开涉及空肠弯曲杆菌(Campylobacter jejuni)CRISPR/CAS系统衍生的RNA引导的工程核酸酶(RGEN)及使用其的方法。

Description

使用空肠弯曲杆菌CRISPR/CAS系统衍生的RNA引导的工程化核酸酶的基因编辑

技术领域

本发明涉及空肠弯曲杆菌(Campylobacter jejuni)CRISPR/CAS系统衍生的RNA引导的工程化核酸酶(RGEN)及使用其的方法。

背景技术

工程化核酸酶可以用于通过在基因组中的期望位置处产生位点特异性双链断裂来有效地操作活细胞或整个生物体中的基因(Nat Rev Genet，2014.15(5)：第321-34页)。工程化核酸酶，其包含为II型限制性酶定制的DNA结合结构域和核酸酶结构域，在生物技术和医学领域以及各种其他工业中具有广谱的基因组工程应用。最近，基于CRISPR/CAS9细菌适应性免疫系统开发了更有效的RGEN平台。

RGEN靶向的序列限于原间隔序列邻近基序(PAM)，其是紧接在由Cas9核酸酶靶向的DNA序列之后的DNA序列。PAM序列先前在CRISPR细菌适应性免疫系统中不是可重编程的。规范PAM包含序列5′-NGG-3′，并且与源自化脓性链球菌的CAS9核酸酶的RGEN相连。因此，GG基序是RGEN进行DNA识别的先决条件。为了扩增用作PAM的序列，已经尝试用通用的PAM从不同的细菌物种中分离RGEN。事实上，已经发现不同的PAM与嗜热链球菌(Streptococcusthermophilus)(PAM：NNAGAAW)和脑膜炎奈瑟球菌(Neisseria meningitidis)(PAM：NNNNGATT)的CAS9蛋白相关，拓宽了确定RGEN靶位点的选择范围。

发明内容

技术问题

如本文所述，对来自化脓性链球菌(Streptococcus pyogenes)以外的细菌的RGEN的开发的深入和彻底的研究已经导致发现来源于空肠弯曲杆菌(Campylobacter jejuni，C..jejuni)的Cas蛋白特异性识别NNNNRYAC序列，其可以在靶向目标DNA中作为PAM使用。此外，可以对引导RNA进行工程化以使DNA最优化，从而导致有效的基因组编辑、转录调节和目标DNA的分离。

技术解决方案

因此，一方面，本发明提供了用于靶向包含SEQ ID NO：1的PAM序列的DNA序列的方法，所述方法包括将识别SEQ ID NO：1的PAM序列的Cas蛋白，或编码Cas蛋白的核酸导入细胞。

在另一方面，本发明提供了分离的引导RNA，其包含能够与邻近SEQ ID NO：1的PAM序列的感兴趣的目标DNA序列的互补链形成双链体(形成碱基对或杂交)的序列，或包含其的组合物。

在另一方面，本文提供的公开内容提供了CRISPR-CAS系统，其包含：(i)引导RNA，其包含能够与邻近NNNNRYAC(SEQ ID NO：1)的PAM序列的靶DNA序列形成双链体的序列，或编码引导RNA的DNA，和(ii)识别NNNNRYAC序列(SEQ ID NO：1)的Cas蛋白，或编码Cas蛋白的核酸。

在另一方面，本文提供的公开内容提供了重组病毒载体，其包含(i)用于引导RNA的表达盒，其包含能够与邻近PAM序列NNNNRYAC(SEQ ID NO：1)的靶DNA序列形成双链体的序列，和(ii)识别PAM序列NNNNRYAC(SEQ ID NO：1)的Cas蛋白的表达盒。

在另一方面，本公开提供了分离的引导RNA，其包含长度为21-23bp、能够与靶DNA序列的互补链形成双链体的序列，或包含其的组合物。

在另一方面，本公开提供了分离的引导RNA，其包含：包含能够与靶DNA序列的互补链形成双链体的序列的第一区域和包含茎环结构的第二区域，所述茎环结构以长度为13-18bp的茎为特征，或包含分离的引导RNA的组合物。

在另一方面，本公开提供了分离的引导RNA，其包含：包含能够与靶DNA序列的互补链形成双链体的序列的第一区域和包含茎环结构的第二区域，所述茎环结构以长度为5-10bp的环为特征，或包含分离的引导RNA的组合物。

在另一方面，本公开提供了在细胞中基因组编辑的方法，其包括将分离的引导RNA或编码分离的引导RNA的DNA，和Cas蛋白或编码Cas蛋白的核酸，导入细胞。

在另一方面，本公开提供了裂解细胞中靶DNA的方法，其包括将分离的引导RNA或编码分离的引导RNA的DNA和Cas蛋白或编码Cas蛋白的核酸导入细胞。

在另一方面，本公开提供了制备引导RNA的靶DNA识别序列的方法，包括：(i)鉴定给定序列中PAM序列NNNNRYAC(SEQ ID NO：1)的存在；和(ii)如果在步骤(i)中鉴定到PAM序列的存在，则将位于PAM序列NNNNRYAC(SEQ ID NO：1)上游的序列确定为可被引导RNA识别。

在另一方面，本公开提供了分离目标DNA的方法，包括：(i)将引导RNA或编码引导RNA的DNA连同失活Cas蛋白或编码失活的核酸Cas蛋白导入细胞中，以允许引导RNA和失活Cas蛋白与包含靶DNA序列的目标DNA形成复合物；和(ii)从样品中分离复合物。

在另一方面，本公开提供了用于包含靶DNA序列的目标DNA中的Cas介导的基因表达调节的方法，包括将特异性识别靶DNA序列的分离的引导RNA或编码引导RNA的DNA，和与转录效应子(transcription effector)结构域融合的失活Cas蛋白或编码失活Cas蛋白的核酸导入细胞。

有益效果

如上所述，在一些实施方案中，CRISPR/Cas系统可以有效地用于靶向靶DNA，从而实现基因组编辑、转录调节和目标DNA的分离。

附图说明

图1描绘了空肠弯曲杆菌Cas9表达载体的示意图。载体被设计为使得人源化Cas9蛋白在CMV启动子的调控下表达，并且在C端区域具有核定位信号(NLS)和HA标签。

图2A、图2B描绘了在内源人AAVS1靶位点中空肠弯曲杆菌RGEN诱导的突变的实验。图2A显示使用T7E1测定法检测RGEN驱动的染色体突变。星号(*)表示预期被T7E1切割的DNA条带。使用HEK293野生型(wt)gDNA作为阴性对照(-)。将先前证实的RGEN用作阳性对照(+)。图2B显示hAAVS1突变体克隆的DNA序列。与嵌合RNA互补的靶序列区域以粗体显示。用CAS9识别的PAM序列加下划线。图2B的WT序列由SEQ ID NO：4表示，(-2，x1)序列由SEQ ID NO：5表示，(-1，x1)序列由SEQ ID NO：6表示。

图3A和图3B显示了在内源小鼠ROSA26(mROSA)靶位点中的空肠弯曲杆菌RGEN诱导的突变的实验。图3A显示使用T7E1测定法检测RGEN驱动的染色体突变。星号(*)表示预期被T7E1切割的DNA条带。使用NIH3T3wt gDNA作为阴性对照(-)。将先前证实的RGEN用作阳性对照(+)。图3B显示mROSA突变体克隆的DNA序列。与嵌合RNA互补的靶序列区域以粗体显示。空肠弯曲杆菌CAS9识别的PAM序列加下划线。图3B的WT序列由SEQ ID NO：7表示，(-1，x1)序列由SEQ ID NO：8表示，并且(+1，x1)序列由SEQ ID NO：9表示。

图4显示突变体空肠弯曲杆菌sgRNA结构在内源性AAVS1靶位点中诱导的某些突变。使用T7E1测定检测RGEN驱动的染色体突变。星号(*)表示预期被T7E1切割的DNA条带。将HEK293wt gDNA用作阴性对照(-)。将先前证实的RGEN用作阳性对照(+)。

图5A至5C说明了sgRNA的间隔序列长度的优化。图5A显示了各种sgRNA结构。在sgRNA的间隔序列的5′末端的紧邻上游的附加核苷酸加下划线，其中小写字母表示关于靶序列的错配的核苷酸。PAM序列加框。在图5A中，靶序列由SEQ ID NO：10表示，GX19由SEQ IDNO：11表示，GX20由SEQ ID NO：12表示，GX21由SEQ ID NO：13表示，GX22由SEQ ID NO：14表示，GX23由SEQ ID NO：15表示，GGX20由SEQ ID NO：16表示，GGGX20由SEQ ID NO：17表示。图5B显示了sgRNA的靶位点，其中hAAVS-CJ1、hAAVS-NRG1、hAAVS-NRG3和hAAVS-NRG5的序列分别由SEQ ID NO：18、19、20和21表示。图5C显示了sgRNA构建体诱导RGEN介导的突变的效率。简言之，构建sgRNA以具有不同长度的间隔序列(19-23bp)和在间隔序列的紧邻上游存在的不同数目的附加G(鸟嘌呤)残基。图1中所示的每个sgRNA 5A被设计用于人类AAVS1位点的4个靶位点(图5B)，并被递送到人293细胞。随后，在细胞中鉴定由NHEJ诱导的突变。在该实施方案中，通过PCR扩增靶位点，并使用miSEQ(Illumine)通过深度测序分析以检测突变。总体上，当识别序列长度为21-23bp时或与在空肠弯曲杆菌或其他物种中使用的GX19或GX20相比，在5′端提供2或3个另外的G残基时，基因组编辑(突变)频率增加。

图6是显示空肠弯曲杆菌CRISPR/CAS9的活性的图，其中将AAVS1-CJ1位点插入替代性报告载体(surrogate reporter)。相对于在PAM位点检测到的ACAC序列的活性(100)，当在每个位置取代不同的核苷酸时计算活性。在第一个位置，G以及A保证高活性。T和C在第二位置有效。然而，仅A和C分别在第三和第四位置表现出活性。因此，至少在一些实施方案中，推断NNNN-A/G-C/T-C-A(或NNNNRYAC，SEQ ID NO：1，其中A/G＝R，C/T＝Y)是最佳PAM序列。

图7显示了通过Digenome-Seq分析开发的hAAVS1-CJ1sgRNA的潜在脱靶序列的共有标记。

图8显示了空肠弯曲杆菌Cas9的PAM序列的测试结果。分析NNNNRYAC(SEQ ID NO：1)的七个靶位点的突变效率。hAAVS1-RYN1-7：sgRNA/Cas9处理的细胞中每个位点的突变率，WT1-7：模拟处理的细胞的基因组DNA中每个位点的突变率。

图9是显示空肠弯曲杆菌CRISPR/CAS9表达AAV载体的结构的示意图。

图10显示了在Rosa26位点中由空肠弯曲杆菌CRISPR/CAS9AAV(腺相关病毒)进行的基因组编辑。简言之，用携带不同MOI(感染复数)的Rosa26-sgRNA和空肠弯曲杆菌Cas9的重组AAV载体感染C2C12细胞。在感染后3、5、7、10和14天，分离基因组DNA，并通过深度测序分析突变率。

具体实施方式

本发明的一个实施方案提供了靶向目标DNA序列的方法，包括将Cas蛋白或编码它的核酸导入细胞。

具体地，根据一个方面，本公开提供了用于靶向包含SEQ ID NO：1的PAM(原体间隔序列临近基序)序列的DNA序列的方法，包括将识别SEQ ID NO：1的PAM序列NNNNRYAC的Cas蛋白或编码Cas蛋白的核酸导入细胞。在SEQ ID NO：1中，根据IUPAC命名法，“N”是指任何核苷酸，例如选自A、C、G和T；“R”是指嘌呤(A/G)；“Y”是指嘧啶(C/T)。

在本公开的一个方面，所述方法可以进一步包括引入包含能够与邻近SEQ ID NO：1的PAM序列的目标DNA(靶DNA)的互补链形成双链体的序列的引导RNA：引导RNA可以与识别SEQ ID NO：1的PAM序列的Cas蛋白或编码Cas蛋白的核酸同时或依次导入。

如本文所用，术语“靶向”意图包括将Cas蛋白与目标DNA序列结合，伴随或不伴随DNA切割。

稍后将描述的术语适用于本公开的所有实施例，并且可以组合使用。

Cas蛋白可以在与CRISPR RNA(crRNA)和反式激活的crRNA(tracrRNA)形成复合物后表现其活性。Cas蛋白可以表现出内切核酸酶或切口酶活性。

与Cas蛋白或编码Cas蛋白的基因相关的信息可以在众所周知的数据库中找到，例如NCBI(National Center for Biotechnology Information)的GenBank。根据一个实施方案，Cas蛋白可以是Cas9蛋白。在另一个实施方案中，Cas蛋白可以是来源于(衍生自)弯曲杆菌属的蛋白，并且可以特别是来源于空肠弯曲杆菌。更具体地，Cas9蛋白可以源自空肠弯曲杆菌。在本公开的一些实施方案中，Cas蛋白可以包含由SEQ ID NO：22表示的氨基酸序列，或者可以与SEQ ID NO：22的氨基酸序列同源，保留其内在活性。例如，但不限于，本公开内容所涵盖的Cas蛋白及其同源序列可以与SEQ ID NO：22的序列具有至少50％、60％、70％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性。

此外，如本公开内容的某些实施方案中所使用的Cas蛋白意图包括可以作为与引导RNA以及天然蛋白合作的活化的内切核酸酶或切口酶的任何变体。活化的内切核酸酶或切口酶可以切割靶DNA，或者能够用切割功能进行基因组编辑。对于失活的变体，其功能可用于调节转录或分离目标DNA。

Cas9蛋白变体可以是来自用不同氨基酸取代催化性天冬氨酸或组氨酸残基的Cas9的衍生物、变体或突变体。例如，不同的氨基酸可以是丙氨酸，但不限于此。

具体地，Cas蛋白，例如源自空肠弯曲杆菌的Cas9蛋白位置8处的催化性天冬氨酸(D)或位置559处的组氨酸残基(H)可以用不同于野生型氨基酸序列的氨基酸替换。在一些实施方案中，SEQ ID NO.22的序列的位置8处的催化性天冬氨酸(D)或位置559处的组氨酸残基(H)被不同的氨基酸取代。例如，不同的氨基酸可以是但不限于丙氨酸。通过将突变导入天然Cas9核酸酶的一个活性位点而制备的Cas9核酸酶变体可以作为与引导RNA结合的切口酶。当与一个引导RNA分子结合时，两个切口酶分子可以切割目标DNA双链体的两条链，从而产生双链断裂(DSB)。因此，这样的变型也属于本公开所涵盖的RGEN的范围。

如本文所用，术语“失活Cas蛋白”是指Cas核酸酶，其功能是完全或部分失活的。失活Cas蛋白可以缩写为dCas。Cas可以是Cas9蛋白。此外，它可以源自弯曲杆菌属，特别是来自空肠弯曲杆菌。任何方法可用于制备失活的Cas9核酸酶，只要其消除核酸酶活性。例如，可以通过将突变导入Cas9核酸酶的两个上述活性位点中来构建dCAS9蛋白。dCAS9然后可以作为与指导DNA的DNA结合复合物，而缺乏DNA切割功能。此外，dCAS9蛋白可以具有除位置8的天冬氨酸(D)和位置559的组氨酸(H)以外的取代基。例如，在一些实施方案中，dCAS9蛋白可以具有除SEQ ID NO：22序列的位置8的天冬氨酸(D)和位置559的组氨酸(H)以外的取代基。取代基可以是但不限于丙氨酸。

如本文所用，术语“切割”是指核苷酸分子的共价主链的断裂。

在本公开的一些实施方案中，Cas蛋白可以是重组蛋白。

与例如细胞、核酸、蛋白质或载体结合使用的术语“重组体”，是指通过导入异源核酸或蛋白或者通过改变天然核酸或蛋白质而被修饰的细胞、核酸、蛋白质或载体，或衍生自这种修饰的细胞。因此，例如，可以基于人密码子表通过重构编码Cas蛋白的核酸序列(即，编码Cas蛋白的序列)来产生重组Cas蛋白。

在本公开的一些实施方案中，Cas蛋白或编码其的核酸可以是允许在细胞核内有活性的形式。

在本公开的一些实施方案中，分离的Cas蛋白可以是易于导入细胞的形式。例如，Cas蛋白可以与细胞穿透肽或蛋白转导结构域连接。蛋白转导结构域可以是但不限于聚精氨酸或HIV衍生的TAT蛋白。本公开包括本领域熟知的细胞穿透肽或蛋白质转导结构域的各种实例。

在本公开的一些实施方案中，Cas蛋白或编码其的核酸可以进一步包含用于通过核转运将蛋白或核酸转运到细胞核中的核定位信号(NSL)。此外，编码Cas蛋白的核酸可以进一步包含核定位信号(NLS)序列。因此，编码Cas蛋白的核酸可以作为表达盒的组分存在，所述表达盒可以包含但不限于NLS序列以及调节元件，例如启动子。

在本公开的一些实施方案中，Cas蛋白可以与有助于分离和/或纯化的标签连接。作为非限制性实例，取决于目的，可以使用小肽标签，例如His标签、Flag标签、S标签等，谷胱甘肽S-转移酶(GST)标签或麦芽糖结合蛋白(MBP)标签。

在本公开的一些实施方案中，当Cas蛋白与靶DNA特异性引导RNA相关联时，Cas蛋白可以统称为RGEN(RNA-引导工程核酸酶)。如本文所用，术语“RGEN”是指具有靶DNA特异性引导RNA和Cas蛋白的核酸酶。

为了应用于细胞，根据本公开的一些实施方案，RGEN可以具有靶DNA特异性引导RNA或编码引导RNA的DNA；以及分离的Cas蛋白或编码Cas蛋白的核酸。在这点上，引导RNA或编码引导RNA的DNA可以与Cas蛋白或编码Cas蛋白的核酸同时或依次应用于细胞。

在本公开的一个方面，用于递送至细胞的RGEN包括1)靶DNA特异性引导RNA和分离的Cas蛋白，或2)编码引导RNA的DNA或编码Cas蛋白的核酸。以1)形式的递送被指定为“RNP递送”。

分离的引导RNA的实例可以包括但不限于体外转录的RNA。

在本公开的一些实施方案中，引导RNA编码DNA(编码引导RNA的DNA)和Cas蛋白编码核酸本身可被用作分离的核酸。或者，但不限于，它们可存在于具有用于表达引导RNA和/或Cas蛋白的表达盒的载体中。

合适的载体的实例包括病毒载体、质粒载体和农杆菌载体。病毒载体可以例举但不限于AAV(腺相关病毒)。

在本公开的一些实施方案中，非限制性地，引导RNA编码DNA和Cas蛋白编码核酸可以分别存在于各个载体中或一起存在于单个载体中。

本主题的前述应用实施例可以应用于如本说明书中所描述的更多示例性实施例。另外，稍后将描述的应用实施例可以与其他构成元件组合应用。

如本文所使用的，术语“引导RNA”可以指对靶DNA具有特异性的RNA(即，靶DNA特异性RNA)，其可以与Cas蛋白偶联以将Cas蛋白引导至靶DNA。

此外，至少在一些实施方案中，引导RNA可以被设计为对于待切割的某个靶标是特异性的。

在本公开的一些实施方案中，引导RNA可以是由两种RNA组成的双RNA，即，crRNA和tracrRNA。在其他实施方案中，引导RNA可以是sgRNA，其包含或由含有与能够与靶DNA的互补链形成双链体的靶DNA互补的序列的第一区域和含有负责与Cas蛋白相互作用的序列的第二区域组成。更具体地，引导RNA可以是通过融合crRNA和tracrRNA的各个必要部分而合成的sgRNA(单引导RNA或单链引导RNA)。

在本公开的一些实施方案中，能够与引导RNA中的靶DNA序列的互补链形成双链体的序列可以在长度上不限于17至23bp，18至23bp，19至23bp，特别是20至23bp，更特别是21至23bp。长度可以应用于双RNA和sgRNA，更具体地应用于sgRNA。

在本公开内容的一些实施方案中，引导RNA可以在能够与靶DNA的互补链形成双链体的序列的5′端之前包含一至三个，更特别是两个或三个附加核苷酸序列。核苷酸选自A、T、G、C及其组合。引导RNA可以包含一至三个连续的鸟嘌呤(G)残基，更优选地，两个或三个连续的G残基作为附加核苷酸。这不限于应用于双RNA和sgRNA，更优选应用于sgRNA。

在本公开的一些实施方案中，sgRNA可以包含与靶DNA序列互补的区域(称为“间隔序列”，“靶DNA识别序列”，“碱基配对区”等)和发夹结构用于结合Cas蛋白。

在本公开的一些实施方案中，sgRNA可以包含与靶DNA序列互补的区域，用于结合Cas蛋白的发夹结构和终止子序列。这些元件可以是但不限于沿5′至3′方向顺序排列。

在本公开的一些实施方案中，可以使用任何形式的引导RNA，只要其含有crRNA和tracrRNA的各自的必要部分和与靶DNA互补的区域即可。

在本公开的一些实施方案中，crRNA可与靶DNA杂交。

在本公开的一些实施方案中，RGEN可以由Cas蛋白和双RNA，或Cas蛋白和sgRNA组成。或者，RGEN可以包含编码Cas蛋白的各自的核酸和sgRNA作为构成元件，但不限于此。

在本公开的一些实施方案中，引导RNA(例如crRNA或sgRNA)可以含有与靶DNA序列互补的序列，并且可以包含位于crRNA或sgRNA上游，特别是在sgRNA或双RNA的crRNA的5′端的一个或多个附加核苷酸。附加核苷酸可以是但不限于鸟嘌呤(G)残基。

在本公开的一些实施方案中，引导RNA可以包含能够与邻近PAM(原间隔序列邻近基序)序列NNNNRYAC(SEQ ID NO：1)的靶DNA序列的互补链形成双链体(即形成碱基对或杂交)的序列。

在本公开的一些实施方案中，引导RNA可以包含能够与靶DNA序列的互补架构形成双链体的第一区域和包含以长度为13-18bp的茎为特征的茎-环结构的第二区域。在某些实施方案中，茎可包含SEQ ID NO：2(5′-GUUUUAGUCCCUUGUG-3′)的核苷酸序列及其互补序列。

在本公开的一些实施方案中，引导RNA可以包含能够与靶DNA序列的互补链形成双链体的第一区域和包含以5-10bp长度的环为特征的茎-环结构的第二区域。该环可以包含SEQ ID NO：3(5′-AUAUUCAA-3′)的核苷酸序列。

在本公开的一些实施方案中，上文或稍后描述的Cas蛋白和引导RNA，特别是sgRNA，可以是非天然存在的或被工程化的那些。另外，针对每个主题描述的因素可以组合在一起以用于应用。

在本公开的一些实施方案中，RGEN的细胞内导入可以通过但不限于(1)递送在细菌过度表达后纯化的Cas9蛋白和识别在细胞中体外转录后制备的特异性HLA靶序列的sgRNA(单引导的RNA)来实现，，或(2)将携带Cas9基因和sgRNA的质粒递送到细胞中用于表达或转录来实现。

此外，可以通过本领域已知的各种方法，例如但不限于电穿孔或使用脂质体、病毒载体、纳米颗粒或PTD(蛋白转运结构域)融合蛋白的技术将包含在本公开内容范围内的蛋白质、RNA或质粒DNA导入细胞中。

在一些实施方案中，本公开的方法可用于切割包含SEQ ID NO：1的PAM序列的靶DNA，更具体地，用于编辑基因组。在本文中，Cas蛋白可以是具有核酸酶或切口酶活性的活性形式。

在某些实施方案中，Cas蛋白可以是失活(灭活)形式。在这种情况下，本公开的方法以包含SEQ ID NO：1的PAM序列的靶DNA序列不被切割，但与Cas蛋白相关联的方式进行。

此外，在一些其他实施方案中，Cas蛋白，更特别地，失活Cas蛋白，可以进一步包含转录效应子结构域。详细地，失活Cas蛋白可以与(但不限于)激活剂、阻遏物等连接。

给定转录效应结构域，至少在一些实施方案中，该方法可以应用于Cas介导的包含转录调节或表观遗传调节的基因表达调节。

根据另一方面，本公开提供了分离的引导RNA，其包含能够与邻近PAM(原间隔序列邻近基序)NNNNRYAC(SEQ ID NO：1)的靶DNA序列的互补链形成双链体的序列。分离的引导RNA可以是非天然存在的或人工工程化的RNA。

各个元件如上所述。

在本公开的一些实施方案中，引导RNA可以是单引导RNA，其中能够与靶DNA的互补链形成双链体的序列的长度可以在17至23bp，18至23bp，19至23bp，特别是20至23bp，更特别是21至23bp，但不限于此。

此外，引导RNA，至少在一些实施方案中，可以包含正好在靶DNA的互补链的5′端的上游的一至三个连续的鸟嘌呤(G)残基，但不限于此。另外，上述对附加核苷酸的描述也可以适用于该实施方案。

此外，根据本公开的另一方面提供了组合物，其包含引导RNA，所述引导RNA包含能够与邻近PAM(原间隔序列邻近基序)序列NNNNRYAC(SEQ ID NO：1)的靶DNA序列的互补链形成双链体的序列，或编码引导RNA的DNA。

在至少一些实施方案中，各组分如上所述。

在本公开的一些实施方案中，组合物可以进一步包含识别序列NNNNRYAC(SEQ IDNO：1)的Cas蛋白或编码Cas蛋白的核酸。

此外，在某些实施方案中，组合物可用于基因组编辑。

此外，在一些实施方案中，组合物可以包含：(i)引导RNA，其包含能够与邻近PAM(原间隔序列邻近基序)NNNNRYAC(SEQ ID NO：1)的靶DNA序列的互补链形成双链体的序列或编码引导RNA的DNA；和(ii)失活Cas蛋白(dCas)或编码dCas的核酸。

在一个实施方案中，失活Cas蛋白可以进一步包含转录效应结构域。

在本公开的一些实施方案中，组合物可用于分离包含靶DNA序列的目标DNA。在这点上，失活Cas蛋白可以用可用于分离和纯化的标签标记，但不限于此。标签可以如上所述。

在本公开的一些实施方案中，组合物可用于Cas-介导的基因表达调节，所述基因表达调节包括转录调节或表观遗传调节。

在本公开的一些实施方案中，靶DNA可以存在于分离的细胞中，例如真核细胞。真核细胞的实例包括酵母，真菌，原生动物，来自植物、高等植物、昆虫或两栖动物的细胞，以及哺乳动物细胞例如CHO、HeLa、HEK293和COS-1细胞。不限于，本领域通常使用培养细胞(体外)、移植细胞、原代细胞培养(体外和离体)、体内细胞和包括人细胞的哺乳动物细胞。

根据另一方面，本公开提供了CRISPR-CAS系统，其包含(i)引导RNA，其包含能够与邻近PAM(原间隔序列-临近基序)NNNNRYAC(SEQ ID NO：1)的靶DNA序列形成双链体的序列，或编码引导RNA的DNA；和(ii)识别PAM序列NNNNRYAC(SEQ ID NO：1)的Cas蛋白或编码Cas蛋白的核酸。

各个因素如上所述。这些因子可以是非天然存在的或工程化的。

本公开的另一方面涉及重组病毒载体，其包含(i)用于引导RNA的表达盒，其包含能够与邻近PAM(原间隔序列-临近基序)NNNNRYAC(SEQ ID NO：1)的靶DNA序列形成双链体的序列，和(ii)识别NNNNRYAC(SEQ ID NO：1)的PAM序列的Cas蛋白的表达盒。

病毒载体，至少在一些实施方案中，可以是AAV(腺相关病毒)来源的。

本公开的另一方面涉及分离的引导RNA，其包含长度为21-23bp的序列，其能够与靶DNA序列的互补链形成双链体。

引导RNA如上所定义。引导RNA可以是非天然存在的或工程化的。

本公开的另一方面涉及包含引导RNA或编码引导RNA的DNA的组合物。

组合物，至少在一些实施方案中，可以包含识别PAM序列NNNNRYAC(SEQ ID NO：1)的Cas蛋白或编码Cas蛋白的核酸。

此外，在一些实施方案中，组合物可以包含识别NNNNRYAC序列(SEQ ID NO：1)的失活Cas或编码失活Cas蛋白的核酸。

在一些实施方案中，失活Cas蛋白可以进一步包含转录效应子结构域。

根据另一方面，本公开提供了分离的引导RNA，其包含第一区域和第二区域，所述第一区域包含能够与靶DNA序列的互补链形成双链体的序列，所述第二区域包含茎环结构，其以长度为13-18bp的茎为特征。

各个因素如上所定义。这些因子可以是非天然存在的或工程化的。

在某些实施方案中，茎可包含SEQ ID NO：2(5′-GUUUUAGUCCCUUGUG-3′)的核苷酸序列及其互补序列。

根据另外的方面，本公开提供了分离的引导RNA，其包含第一区域和第二区域，所述第一区域包含能够与靶DNA序列的互补链形成双链体的序列，所述第二区域包含茎环结构，其特征在于长度为5-10bp的环。

各个因子如上所定义。这些因子可以是非天然存在的或工程化的。

在某些实施方案中，环可包含SEQ ID NO：3(5′-AUAUUCAA-3′)的核苷酸序列。

根据另一方面，本公开提供了包含引导RNA以及Cas蛋白或编码Cas蛋白的核酸的组合物。

本公开的又另一方面提供了用于在细胞中进行基因组编辑的方法，包括向细胞中引入分离的引导RNA或编码分离的引导RNA的DNA以及Cas蛋白或编码Cas蛋白的核酸。

本公开的另一方面提供了用于切割细胞中靶DNA的方法，包括将分离的引导RNA或编码分离的引导RNA的DNA与Cas蛋白或编码Cas蛋白的核酸一起导入细胞中。

在某些实施方案中，引导RNA或编码引导RNA的DNA可以与Cas蛋白或编码Cas蛋白的核酸同时或依次导入细胞。

本公开的又一方面提供了用于制备引导RNA的靶DNA识别序列(即，负责识别靶DNA的引导RNA中的序列)的方法，其包括：(i)识别给定序列中PAM序列NNNNRYAC(SEQ ID NO：1)的存在；和(ii)如果在步骤(i)中鉴定到所述PAM序列的存在，则将正好位于所述PAM序列NNNNRYAC(SEQ ID NO：1)上游的序列确定为可被引导RNA识别。

在本公开的一些实施方案中，位于PAM序列上游的序列可以但不限于在从17到23bp，从18到23bp，从19到23bp，更特别地从20到23bp，甚至更特别是21到23bp的长度范围内。

本公开的另一方面提供了分离目标DNA的方法，包括：(i)将引导RNA或编码引导RNA的DNA与失活Cas蛋白或编码失活Cas蛋白的核酸一起导入细胞中，从而允许引导RNA和失活Cas蛋白与包含靶DNA序列的目标DNA形成复合物；和(ii)从样品中分离复合物。

至少在一些实施方案中，失活Cas蛋白可以识别PAM(原体间隔临近基序)序列NNNNRYAC(SEQ ID NO：1)。

在某些实施方案中，用于分离目标DNA的方法可以通过允许特异性结合目标DNA的引导RNA(gRNA)和失活Cas蛋白(dCas)以及目标DNA来形成dCas-gRNA-目标DNA复合物；并从样品中分离复合物来进行。

在一些实施方案中，可以使用公知的检测方法例如PCR扩增等来鉴定目标DNA。

在一些实施方案中，分离方法可以适于不通过在DNA、gRNA和dCas之间的共价键形成交联的体外无细胞DNA。

此外，在一些实施方案中，分离方法可以进一步包括从复合物中分离目标DNA。

在一些实施方案中，失活Cas蛋白可以与亲和标签连接以用于分离目标DNA。亲和标签可以选自His标签、Flag标签、S标签、GST(谷胱甘肽S-转移酶)标签、MBP(麦芽糖结合蛋白)标签、CBP(几丁质结合蛋白)标签、Avi标签、钙调蛋白标签、聚谷氨酸标签、E标签、HA标签、myc标签、SBP标签、softag 1、softag 3、strep标签、TC标签、Xpress标签、BCCP(生物素羧基载体蛋白)标签和GFP(绿色荧光蛋白)标签，但不限于此。

在一些实施方案中，失活Cas蛋白可以是缺乏DNA切割活性的Cas蛋白。

在一些实施方案中，可以使用能够结合所使用的标签的亲和柱或磁珠来实现目标DNA的分离。例如，当His标签用于分离目标DNA时，可以使用能够结合His标签的金属亲和柱或磁珠。磁珠可以包括但不限于Ni-NTA磁珠。

在一些实施方案中，可以使用核糖核酸酶和蛋白酶从复合物中分离目标DNA。

在用于分离目标DNA的方法的一些实施方案中，可从含有两种或更多种不同基因型DNA的混合物的分离的样品中分离某种基因型DNA或两种或更多种不同的目标DNA。当所述方法包括分离两种或更多种不同的目标DNA时，可以使用分别对两种或更多种不同的目标DNA特异性的引导RNA来分离两种或更多种目标DNA。

在某些实施方案中，引导RNA可以是单引导RNA(sgRNA)，或包含crRNA和tracrRNA的双RNA。引导RNA可以是分离的RNA，或可以在质粒中被编码。

在某些实施方案中，分离方法可以通过以下步骤执行：将引导RNA(gRNA)特异性结合到1)目标DNA和2)失活Cas蛋白(dCas)以与目标DNA形成dCas-gRNA-DNA复合物；并从所述样品中分离所述复合物。

本公开的另一方面提供了用于在包括靶DNA序列的目标DNA中的Cas介导的基因表达调节的方法，所述方法包括：将特异性识别靶DNA的分离的引导RNA或编码引导RNA的DNA，连同与转录效应子结构域融合的失活Cas蛋白或编码失活Cas蛋白的核酸一起导入细胞。

实施例

提供以下实施例是为了说明本公开的一些方面，并且它们不应被解释为以任何方式限制本公开的范围。

空肠弯曲杆菌CRISPR/CAS9系统

实施例1：使用空肠弯曲杆菌CRISPR/CAS9的基因组编辑

本发明人成功地从空肠弯曲杆菌中分离了RGEN。为了鉴定关于基因组编辑的空肠弯曲杆菌CRISPR/CAS9衍生的RGEN的特征，合成了针对人密码子优化的空肠弯曲杆菌CAS9基因(表1)，然后插入哺乳动物表达载体中构建空肠弯曲杆菌CAS9表达盒，其中HA-标记的NLS-连接的Cas基因处于CMV启动子的调节下(图1)。

表1空肠弯曲杆菌Cas9蛋白的氨基酸序列

空肠弯曲杆菌CRISPR/CAS9系统的天然引导RNA由tracrRNA和靶特异性crRNA组成。考虑到引导RNA本身用作两种RNA分子或作为其中crRNA和tracrRNA彼此融合的单一引导RNA(sgRNA)的概念，本发明人设计并构建了用于空肠弯曲杆菌sgRNA(C.jejuni sgRNA)的表达质粒(表2)。

表2

然后，基于空肠弯曲杆菌CRISPR/CAS9系统的PAM序列(NNNACA)选择人AAVS1和小鼠Rosa-26的潜在靶位点(表3)。

表3

sgRNAs	靶序列	序列ID号
			人AAVs1_C.Jejuni	ATATAAGGTGGTCCCAGCTC<u>GGGGACA</u>	24
小鼠Rosa26_C.Jejuni	ATTCCCCTGCAGGACAACGC<u>CCACACA</u>	25

为了检查空肠弯曲杆菌RGEN是否可以用于哺乳动物细胞中内源基因的靶向断裂，分析使用T7内切核酸酶I(T7E1)从转染的细胞中分离的基因组DNA，T7内切核酸酶I是一种错配敏感性内切核酸酶，其特异性识别和切割由野生型和突变体DNA序列杂交形成的异源双链。使用的引物序列如下(表4)。

表4

引物	序列	序列ID号
			人AAVS1-F	TGCTTCTCCTCTTGGGAAGT	26
人AAVS1-R	CCCCGTTCTCCTGTGGATTC	27
			小鼠Rosa26-F	ACGTTTCCGACTTGAGTTGC	28
小鼠Rosa26-R	CCCAGCTACAGCCTCGATTT	29

结果，仅在将CAS9蛋白和引导RNA一起导入的细胞中检测到突变(可互换的为取代或变异)。根据基于相对DNA条带强度测量，发现突变频率是RNA一剂量依赖性的(图2A)。此外，PCR扩增产物的DNA测序分析证实在内源位点诱导RGEN介导的突变。在靶位点观察到了插入/缺失(indel)和微同源性(microhomology)，其特征在于易错的非同源末端连接(NHEJ)修复(图2B)。通过直接测序(＝2个突变体克隆/12个克隆)测量的突变频率为16.7％。

同样，当小鼠Rosa26空肠弯曲杆菌RGEN被递送到小鼠NHI3T3细胞中时，根据通过T7E1测定法所测量，在小鼠Rosa26位点有效诱导突变(图3A)。此外，PCR扩增产物的DNA测序分析揭示了在内源基因位点的空肠弯曲杆菌RGEN介导的突变的诱导(图3B)。通过直接测序(2个突变体克隆/9个克隆)测量，发现突变频率为22.2％。

实施例2：sgRNA的结构修饰

预期空肠弯曲杆菌crRNA：tracrRNA复合物将包含比来自其他细菌物种的环结构更短的环结构，设计修饰的茎或环结构以结构稳定实施例1中构建的空肠弯曲杆菌RGENsgRNA(表5)。

表5

在表5中，标准茎部分以粗体和下划线显示。

当导入修饰的sgRNA以靶向通过正常sgRNA结构成功诱导突变的人类AAVS1空肠弯曲杆菌RGEN的靶位点时，观察到相似的突变频率(图4)。在这点上，使用的引物序列如表4所示。

实施例3：sgRNA间隔长度的优化

在文献中报道了识别靶序列的空肠弯曲杆菌crRNA的间隔序列的长度为20bp。为了确定哪个间隔长度是最佳的，如表6所示，使用具有各种长度的间隔序列和在5′末端具有附加核苷酸的sgRNA突变体结构对人AAVS1位点上的空肠弯曲杆菌Cas9的4个靶位点进行基因组编辑测试(图5A至图5C)。对于本实验中使用的方法，参考Genome Res.2014Jan；24(1)：132-41。

表6

目标位点

sgRNA	序列(20bp-SPACERnnnnACA)	序列ID号
			人AAVS1-CJ1	ATATAAGGTGGTCCCAGCTCggggACA	32
人AAVS1-NRG1	GTAGAGGCGGCCACGACCTGgtgaACA	33
			人AAVS1-NRG3	TCACAAAGGGAGTTTTCCACacggACA	34
人AAVS1-NRG5	TAGGCAGATTCCTTATCTGGtgacACA	35

将sgRNA表达载体递送到293-细胞三天后，分离基因组DNA并通过深度测序分析突变效率。结果示于图5C中。可以看出，当间隔序列的长度为21-23bp时，检测到高效率。此外，即使当在20bp长间隔序列的sgRNA的5′末端添加2-3个附加G残基时，也观察到基因组编辑的改善。

表7

这里，F*表示正向引物，R.**表示反向引物。

实施例4：空肠弯曲杆菌Cas9 PAM序列分析

在本公开中，基于现有文献中的数据，空肠弯曲杆菌Cas9的PAM序列被推断为包含“NNNNACA”，并进行实验。对于为五个基因组位点构建的34个空肠弯曲杆菌CRISPR/CAS9系统，只有三个显示出活性。特别地，覆盖三个活性系统中的位点的序列的另外的分析显示，在所有三个位点中，在PAM序列(NNNNACA)之后立即鉴定核苷酸“C”(表8)。

表8

基于该结果，推断PAM序列包含“NNNNACAC”。当“ACAC”的每个位点的核苷酸被A/T/G/C取代时，分析空肠弯曲杆菌Cas9的活性以鉴定空肠弯曲杆菌RGEN的PAM序列。为此，利用替代性报告载体。结果，空肠弯曲杆菌被鉴定为包含“NNNNRYAC(SEQ ID NO：1)”的PAM序列(图6，其中R是嘌呤残基(A或G)，Y是嘧啶残基(C/T))。该实验使用Nat Methods.2011 Oct9；8(11)：941-3中描述的替代性报告载体进行。

实施例5：空肠弯曲杆菌CRISPR/CAS9的特异性和PAM序列的测定

使用Digenome-seq(本发明人开发并提交专利保护的CRISPR/CAS9脱靶测定)在基因组水平分析AAVS1-CJ1位点中的空肠弯曲杆菌CRISPR/CAS9的切割位点。使用NatMethods.2015Mar；12(3)：237-43中描述的方法进行实验。

通过Digenome-Seq，确定了其中AAVS1-CJ1 CRISPR/CAS9似乎被切割的41个位点(表9中的基因组位置)。共有序列获自41个位点的切割位点序列的比对，并验证与实施例4中鉴定的一致的PAM。

此外，为了检查是否实际将脱靶突变导入通过Digenome-Seq获得的潜在脱靶中，来自其中递送AAVS1-CJ1 CRISPR工程化核酸酶的293-细胞的基因组DNA进行深度测序40个潜在脱靶位点。如表9所示，没有观察到显著的突变。

表9

此外，从在体外显示裂解的41个位点的序列的整个比对获得了共有序列。与先前的结果一致，实际上观察到PAM为NNNNRYAC(SEQ ID NO：1)。

实施例6：PAM的前两个核苷酸的退化

在实施例5中发现空肠弯曲杆菌的PAM序列是“NNNNRYAC”以及“NNNNACAC”，显示在前两个位置的退化。为了证实简并性，分别构建人AAVS1位点的空肠弯曲杆菌的7个PAM靶序列的sgRNA，其在前两个位置携带G或T残基(表10)，并分析HEK293细胞中的突变效率。

表10

在七个构建的sgRNA中，发现六个诱导突变，证明在PAM序列的前两个位置处的退化(图8)。因此，这种退化增加了PAM序列的频率，允许改善空肠弯曲杆菌的基因组编辑的准确性。

实施例7：使用AAV通过空肠弯曲杆菌CRISPR/CAS9递送进行基因组编辑

在其中基因组编辑可应用的有希望的领域中的代表是用于基因和细胞治疗的基因组编辑技术。基因组编辑对治疗的实际应用需要临床可应用的载体，用于在体外或体内有效地将工程化的核酸酶和供体DNA递送至靶细胞。两种最广泛使用的工程化核酸酶平台，TALEN和RGEN由于其大尺寸限于应用于已建立的基因治疗载体。相比之下，本公开的空肠弯曲杆菌RGEN由迄今开发的RGEN中的最小的CAS9蛋白和sgRNA组成。由于其小尺寸，空肠弯曲杆菌RGEN可以允许大规模基因治疗载体用于基因组操作。例如，作为基因治疗的最重要载体之一的AAV(腺相关病毒)对由其携带的DNA的大小施加严格的限制，因此难以应用于源自化脓性链球菌(S.pyogenes)、嗜热链球菌(S.thermophilus)或脑膜炎奈瑟氏球菌(N.meningitidis)的RGEN，或目前使用的工程化核酸酶平台TALEN。相比之下，空肠弯曲杆菌RGEN可以应用于AAV载体。

在本公开中，通过实际的AAV递送对空肠弯曲杆菌Cas9的操作进行了检查。为此，构建携带空肠弯曲杆菌Cas9表达盒和sgRNA表达盒的AAV载体(图9)，并用于产生AAV。在用AAV感染后，定量分析小鼠C2C12细胞的突变(图10)。可以看出，以AAV剂量和时间依赖性方式在靶位点诱导突变。特别地，在高MOI(100)感染4周后，在靶位点以90％或更高的效率诱导突变。

因此，空肠弯曲杆菌RGEN被证明在培养的细胞中有效地进行基因组编辑。此外，空肠弯曲杆菌CRISPR/CAS9系统的PAM序列实际上确定，因为在先前研究中提出的序列被发现不是完美的。此外，空肠弯曲杆菌RGEN可由于其元件的小尺寸而被装载到单一病毒中，因此可用于有效的基因组编辑。

使用dCAS9：gRNA复合物富集靶DNA

此外，使用由化脓性链球菌来源的、失活的Cas9蛋白和引导RNA组成的RGEN(dCas9：gRNA复合物)分离和富集靶DNA。

在这方面，dCas9蛋白用六个连续的His残基标记，使得其可以使用Ni-NTA磁珠来纯化，用于选择性结合His标签。此外，dCas蛋白-sgRNA复合物可用于靶DNA的选择性纯化，因为复合物可以特异性结合某一DNA序列，但缺乏核酸酶活性。

测试由引导RNA和失活的Cas核酸酶组成的RGEN(dCas9：gRNA复合物)分离靶DNA的能力。为此，首先，用限制酶(SpeI，XmaI，XhoI)消化质粒pUC19，得到长度分别为4134bp、2570bp和1263bp的质粒DNA片段。

对于用限制酶消化的每个质粒DNA片段，合成两种不同的sgRNA(4134bp_sg#1，4134bp_sg#2，2570bp_sg#1，2570bp_sg#2，1263bp_sg#1，和1263bp_sg#2)。使用对应于靶DNA的sgRNA，单独或组合(4134bp_sg#1+2，2570bp_sg#1+2，和1263bp_sg#1+2)进行纯化程序。sgRNA的核苷酸序列列于下表11中。

表11

*除了U代替T，sgRNA的核苷酸序列与靶DNA的核苷酸序列相同。

将总共200μl含有DNA：dCas9蛋白：sgRNA(摩尔比为1∶20∶100)的混合物溶液在37℃温育1.5小时。然后，将溶液与50μl与His标签特异性结合的Ni-NTA磁珠混合，并用200μl洗涤缓冲液洗涤两次，随后用200μl洗脱缓冲液纯化dCas9-sgRNA-靶DNA复合物缓冲液(Bioneer，K-7200)。

然后，将洗脱液在37℃下用0.2mg/ml核糖核酸酶A(Amresco，E866)孵育2小时，然后在55℃下用0.2mg/ml蛋白酶K孵育45分钟，以除去sgRNA和dCas9蛋白。单独的靶DNA在乙醇中沉淀。

结果，对于单独的靶DNA，，无论是单独的还是两个结合地使用sgRNAs，所需的靶DNA都可以从通过大小消化的三个DNA片段中分离出来。此外，当多种靶DNA用sgRNA的组合纯化时，例如对于两种不同的靶DNA总共4种不同的sgRNA(对于每种靶DNA有2种sgRNA)，靶DNA与相应的sgRNA结合并因此纯化。结果表明，每个靶DNA可以以95％或更高的纯度被分离。

此外，纯化技术适用于识别本公开的PAM(原间隔序列邻近基序)序列NNNNRYAC(SEQ ID NO：1)的Cas蛋白。

基于上述描述，本领域技术人员应当理解，在不脱离本发明的技术思想或必要特征的情况下，可以在实施本发明时采用本发明实施例的各种替代方案，在所附权利要求中限定。在这点上，上述示例仅用于说明性目的，并且本发明不旨在受这些示例的限制。本发明的范围应当被理解为包括从以下权利要求或等同概念的含义和范围导出的所有修改或修改形式。

<110> 基因工具股份有限公司

<120> 使用空肠弯曲杆菌CRISPR/CAS系统

衍生的RNA引导的工程化核酸酶的基因编辑

<130> OPA15185-PCT

<150> US 62/033,852

<151> 2014-08-06

<160> 88

<170> KopatentIn 2.0

<210> 1

<211> 8

<212> DNA

<213> 人工序列

<220>

<223> PAM 序列

<220>

<221> 其他特征

<222> (1)..(4)

<223> n = 任何核苷酸

<400> 1

nnnnryac 8

<210> 2

<211> 16

<212> RNA

<213> 人工序列

<220>

<223> 引导RNA的茎序列

<400> 2

guuuuagucc cuugug 16

<210> 3

<211> 8

<212> RNA

<213> 人工序列

<220>

<223> 引导RNA的环序列

<400> 3

auauucaa 8

<210> 4

<211> 60

<212> DNA

<213> 人

<400> 4

cacattaacc ggccctggga atataaggtg gtcccagctc ggggacacag gatccctgga 60

60

<210> 5

<211> 58

<212> DNA

<213> 人工序列

<220>

<223> hAAVS1 突变体克隆 (-2, x1)

<400> 5

cacattaacc ggccctggga atataaggtg gtcccagcgg ggacacagga tccctgga 58

<210> 6

<211> 59

<212> DNA

<213> 人工序列

<220>

<223> hAAVS 突变体克隆 (-1, x1)

<400> 6

cacattaacc ggccctggga atataaggtg gtcccagtcg gggacacagg atccctgga 59

<210> 7

<211> 59

<212> DNA

<213> 小家鼠

<400> 7

cttaaaggct aacctggtgt gtgggcgttg tcctgcaggg gaattgaaca ggtgtaaaa 59

<210> 8

<211> 58

<212> DNA

<213> 人工序列

<220>

<223> 小鼠 Rosa26 (-1, X1)

<400> 8

cttaaaggct aacctggtgt gtgggcttgt cctgcagggg aattgaacag gtgtaaaa 58

<210> 9

<211> 60

<212> DNA

<213> 人工序列

<220>

<223> 小鼠 Rosa26 (+1, X1)

<400> 9

cttaaaggct aacctggtgt gtgggcgttt gtcctgcagg ggaattgaac aggtgtaaaa 60

60

<210> 10

<211> 38

<212> DNA

<213> 人工序列

<220>

<223> 靶序列

<400> 10

ggccctggga atataaggtg gtcccagctc ggggacac 38

<210> 11

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> GX19

<400> 11

gtataaggtg gtcccagctc ggggacac 28

<210> 12

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> GX20

<400> 12

gatataaggt ggtcccagct cggggacac 29

<210> 13

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> GX21

<400> 13

gaatataagg tggtcccagc tcggggacac 30

<210> 14

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> GX22

<400> 14

ggaatataag gtggtcccag ctcggggaca c 31

<210> 15

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> GX23

<400> 15

gggaatataa ggtggtccca gctcggggac ac 32

<210> 16

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> GGX20

<400> 16

ggatataagg tggtcccagc tcggggacac 30

<210> 17

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> GGGX20

<400> 17

gggatataag gtggtcccag ctcggggaca c 31

<210> 18

<211> 38

<212> DNA

<213> 人工序列

<220>

<223> hAAVS-CJ1的靶位点

<400> 18

ggccctggga atataaggtg gtcccagctc ggggacac 38

<210> 19

<211> 38

<212> DNA

<213> 人工序列

<220>

<223> hAAVS-NRG1的靶位点

<400> 19

gagaaaggga gtagaggcgg ccacgacctg gtgaacac 38

<210> 20

<211> 38

<212> DNA

<213> 人工序列

<220>

<223> hAAVS-NRG3的靶位点

<400> 20

cgcaccattc tcacaaaggg agttttccac acggacac 38

<210> 21

<211> 38

<212> DNA

<213> 人工序列

<220>

<223> hAAVS-NRG5靶位点

<400> 21

cacctcctgt taggcagatt ccttatctgg tgacacac 38

<210> 22

<211> 1003

<212> PRT

<213> 空肠弯曲杆菌

<400> 22

Met Ala Arg Ile Leu Ala Phe Asp Ile Gly Ile Ser Ser Ile Gly Trp

1 5 10 15

Ala Phe Ser Glu Asn Asp Glu Leu Lys Asp Cys Gly Val Arg Ile Phe

20 25 30

Thr Lys Val Glu Asn Pro Lys Thr Gly Glu Ser Leu Ala Leu Pro Arg

35 40 45

Arg Leu Ala Arg Ser Ala Arg Lys Arg Leu Ala Arg Arg Lys Ala Arg

50 55 60

Leu Asn His Leu Lys His Leu Ile Ala Asn Glu Phe Lys Leu Asn Tyr

65 70 75 80

Glu Asp Tyr Gln Ser Phe Asp Glu Ser Leu Ala Lys Ala Tyr Lys Gly

85 90 95

Ser Leu Ile Ser Pro Tyr Glu Leu Arg Phe Arg Ala Leu Asn Glu Leu

100 105 110

Leu Ser Lys Gln Asp Phe Ala Arg Val Ile Leu His Ile Ala Lys Arg

115 120 125

Arg Gly Tyr Asp Asp Ile Lys Asn Ser Asp Asp Lys Glu Lys Gly Ala

130 135 140

Ile Leu Lys Ala Ile Lys Gln Asn Glu Glu Lys Leu Ala Asn Tyr Gln

145 150 155 160

Ser Val Gly Glu Tyr Leu Tyr Lys Glu Tyr Phe Gln Lys Phe Lys Glu

165 170 175

Asn Ser Lys Glu Phe Thr Asn Val Arg Asn Lys Lys Glu Ser Tyr Glu

180 185 190

Arg Cys Ile Ala Gln Ser Phe Leu Lys Asp Glu Leu Lys Leu Ile Phe

195 200 205

Lys Lys Gln Arg Glu Phe Gly Phe Ser Phe Ser Lys Lys Phe Glu Glu

210 215 220

Glu Val Leu Ser Val Ala Phe Tyr Lys Arg Ala Leu Lys Asp Phe Ser

225 230 235 240

His Leu Val Gly Asn Cys Ser Phe Phe Thr Asp Glu Lys Arg Ala Pro

245 250 255

Lys Asn Ser Pro Leu Ala Phe Met Phe Val Ala Leu Thr Arg Ile Ile

260 265 270

Asn Leu Leu Asn Asn Leu Lys Asn Thr Glu Gly Ile Leu Tyr Thr Lys

275 280 285

Asp Asp Leu Asn Ala Leu Leu Asn Glu Val Leu Lys Asn Gly Thr Leu

290 295 300

Thr Tyr Lys Gln Thr Lys Lys Leu Leu Gly Leu Ser Asp Asp Tyr Glu

305 310 315 320

Phe Lys Gly Glu Lys Gly Thr Tyr Phe Ile Glu Phe Lys Lys Tyr Lys

325 330 335

Glu Phe Ile Lys Ala Leu Gly Glu His Asn Leu Ser Gln Asp Asp Leu

340 345 350

Asn Glu Ile Ala Lys Asp Ile Thr Leu Ile Lys Asp Glu Ile Lys Leu

355 360 365

Lys Lys Ala Leu Ala Lys Tyr Asp Leu Asn Gln Asn Gln Ile Asp Ser

370 375 380

Leu Ser Lys Leu Glu Phe Lys Asp His Leu Asn Ile Ser Phe Lys Ala

385 390 395 400

Leu Lys Leu Val Thr Pro Leu Met Leu Glu Gly Lys Lys Tyr Asp Glu

405 410 415

Ala Cys Asn Glu Leu Asn Leu Lys Val Ala Ile Asn Glu Asp Lys Lys

420 425 430

Asp Phe Leu Pro Ala Phe Asn Glu Thr Tyr Tyr Lys Asp Glu Val Thr

435 440 445

Asn Pro Val Val Leu Arg Ala Ile Lys Glu Tyr Arg Lys Val Leu Asn

450 455 460

Ala Leu Leu Lys Lys Tyr Gly Lys Val His Lys Ile Asn Ile Glu Leu

465 470 475 480

Ala Arg Glu Val Gly Lys Asn His Ser Gln Arg Ala Lys Ile Glu Lys

485 490 495

Glu Gln Asn Glu Asn Tyr Lys Ala Lys Lys Asp Ala Glu Leu Glu Cys

500 505 510

Glu Lys Leu Gly Leu Lys Ile Asn Ser Lys Asn Ile Leu Lys Leu Arg

515 520 525

Leu Phe Lys Glu Gln Lys Glu Phe Cys Ala Tyr Ser Gly Glu Lys Ile

530 535 540

Lys Ile Ser Asp Leu Gln Asp Glu Lys Met Leu Glu Ile Asp His Ile

545 550 555 560

Tyr Pro Tyr Ser Arg Ser Phe Asp Asp Ser Tyr Met Asn Lys Val Leu

565 570 575

Val Phe Thr Lys Gln Asn Gln Glu Lys Leu Asn Gln Thr Pro Phe Glu

580 585 590

Ala Phe Gly Asn Asp Ser Ala Lys Trp Gln Lys Ile Glu Val Leu Ala

595 600 605

Lys Asn Leu Pro Thr Lys Lys Gln Lys Arg Ile Leu Asp Lys Asn Tyr

610 615 620

Lys Asp Lys Glu Gln Lys Asn Phe Lys Asp Arg Asn Leu Asn Asp Thr

625 630 635 640

Arg Tyr Ile Ala Arg Leu Val Leu Asn Tyr Thr Lys Asp Tyr Leu Asp

645 650 655

Phe Leu Pro Leu Ser Asp Asp Glu Asn Thr Lys Leu Asn Asp Thr Gln

660 665 670

Lys Gly Ser Lys Val His Val Glu Ala Lys Ser Gly Met Leu Thr Ser

675 680 685

Ala Leu Arg His Thr Trp Gly Phe Ser Ala Lys Asp Arg Asn Asn His

690 695 700

Leu His His Ala Ile Asp Ala Val Ile Ile Ala Tyr Ala Asn Asn Ser

705 710 715 720

Ile Val Lys Ala Phe Ser Asp Phe Lys Lys Glu Gln Glu Ser Asn Ser

725 730 735

Ala Glu Leu Tyr Ala Lys Lys Ile Ser Glu Leu Asp Tyr Lys Asn Lys

740 745 750

Arg Lys Phe Phe Glu Pro Phe Ser Gly Phe Arg Gln Lys Val Leu Asp

755 760 765

Lys Ile Asp Glu Ile Phe Val Ser Lys Pro Glu Arg Lys Lys Pro Ser

770 775 780

Gly Ala Leu His Glu Glu Thr Phe Arg Lys Glu Glu Glu Phe Tyr Gln

785 790 795 800

Ser Tyr Gly Gly Lys Glu Gly Val Leu Lys Ala Leu Glu Leu Gly Lys

805 810 815

Ile Arg Lys Val Asn Gly Lys Ile Val Lys Asn Gly Asp Met Phe Arg

820 825 830

Val Asp Ile Phe Lys His Lys Lys Thr Asn Lys Phe Tyr Ala Val Pro

835 840 845

Ile Tyr Thr Met Asp Phe Ala Leu Lys Val Leu Pro Asn Lys Ala Val

850 855 860

Ala Arg Ser Lys Lys Gly Glu Ile Lys Asp Trp Ile Leu Met Asp Glu

865 870 875 880

Asn Tyr Glu Phe Cys Phe Ser Leu Tyr Lys Asp Ser Leu Ile Leu Ile

885 890 895

Gln Thr Lys Asp Met Gln Glu Pro Glu Phe Val Tyr Tyr Asn Ala Phe

900 905 910

Thr Ser Ser Thr Val Ser Leu Ile Val Ser Lys His Asp Asn Lys Phe

915 920 925

Glu Thr Leu Ser Lys Asn Gln Lys Ile Leu Phe Lys Asn Ala Asn Glu

930 935 940

Lys Glu Val Ile Ala Lys Ser Ile Gly Ile Gln Asn Leu Lys Val Phe

945 950 955 960

Glu Lys Tyr Ile Val Ser Ala Leu Gly Glu Val Thr Lys Ala Glu Phe

965 970 975

Arg Gln Arg Glu Asp Phe Lys Lys Ser Gly Pro Pro Lys Lys Lys Arg

980 985 990

Lys Val Tyr Pro Tyr Asp Val Pro Asp Tyr Ala

995 1000

<210> 23

<211> 100

<212> DNA

<213> 人工序列

<220>

<223> C.jejuni_sgRNA

<220>

<221> 其他特征

<222> (1)..(20)

<223> n = 任何核苷酸

<400> 23

nnnnnnnnnn nnnnnnnnnn gttttagtcc ctgaaaaggg actaaaataa agagtttgcg 60

ggactctgcg gggttacaat cccctaaaac cgcttttttt 100

<210> 24

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 人 AAVS1的靶序列

<400> 24

atataaggtg gtcccagctc ggggaca 27

<210> 25

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 小鼠 Rosa26的靶序列

<400> 25

attcccctgc aggacaacgc ccacaca 27

<210> 26

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人 AAVS1-F

<400> 26

tgcttctcct cttgggaagt 20

<210> 27

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人 AAVS1-R

<400> 27

ccccgttctc ctgtggattc 20

<210> 28

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 小鼠 Rosa26-F

<400> 28

acgtttccga cttgagttgc 20

<210> 29

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 小鼠 Rosa26-R

<400> 29

cccagctaca gcctcgattt 20

<210> 30

<211> 108

<212> DNA

<213> 人工序列

<220>

<223> C.jejuni_sgRNA_修饰的茎

<220>

<221> 其他特征

<222> (1)..(20)

<223> n = 任何核苷酸

<400> 30

nnnnnnnnnn nnnnnnnnnn gttttagtcc cttgtggaaa tataagggac taaaataaag 60

agtttgcggg actctgcggg gttacaatcc cctaaaaccg cttttttt 108

<210> 31

<211> 104

<212> DNA

<213> 人工序列

<220>

<223> C.jejuni_sgRNA_修饰的环

<220>

<221> 其他特征

<222> (1)..(20)

<223> n = 任何核苷酸

<400> 31

nnnnnnnnnn nnnnnnnnnn gttttagtcc ctatattcaa agggactaaa ataaagagtt 60

tgcgggactc tgcggggtta caatccccta aaaccgcttt tttt 104

<210> 32

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 人 AAVS1-CJ1

<400> 32

atataaggtg gtcccagctc ggggaca 27

<210> 33

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 人 AAVS1-NRG1

<400> 33

gtagaggcgg ccacgacctg gtgaaca 27

<210> 34

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 人 AAVS1-NRG3

<400> 34

tcacaaaggg agttttccac acggaca 27

<210> 35

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 人 AAVS1-NRG5

<400> 35

taggcagatt ccttatctgg tgacaca 27

<210> 36

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> AS-AV-F1

<400> 36

acactctttc cctacacgac gctcttccga tctaggagga ggcctaagga tgg 53

<210> 37

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> AS-AV-F2

<400> 37

acactctttc cctacacgac gctcttccga tctgctctgg gcggaggaat atg 53

<210> 38

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> AS-AV-F4

<400> 38

acactctttc cctacacgac gctcttccga tctatcctct ctggctccat cgt 53

<210> 39

<211> 54

<212> DNA

<213> 人工序列

<220>

<223> AS-AV-R1

<400> 39

gtgactggag ttcagacgtg tgctcttccg atcttgtcat ggcatcttcc aggg 54

<210> 40

<211> 54

<212> DNA

<213> 人工序列

<220>

<223> AS-AV-R2

<400> 40

gtgactggag ttcagacgtg tgctcttccg atcttccgtg cgtcagtttt acct 54

<210> 41

<211> 54

<212> DNA

<213> 人工序列

<220>

<223> AS-AV-R4

<400> 41

gtgactggag ttcagacgtg tgctcttccg atctccggtt aatgtggctc tggt 54

<210> 42

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 42

atataaggtg gtcccagctc ggggacac 28

<210> 43

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 43

tggccccact gtggggtgga ggggacag 28

<210> 44

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 44

caccccacag tggggccact agggacag 28

<210> 45

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 45

ctagcagcaa accttccctt cactacaa 28

<210> 46

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 46

ctccatgaat gcaaactgtt ttatacat 28

<210> 47

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 47

tgcattcatg gagggcaact aaatacat 28

<210> 48

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 48

atcaagtgtc aagtccaatc tatgacat 28

<210> 49

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 49

ccaatctatg acatcaatta ttatacat 28

<210> 50

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 50

gcaaaaggct gaagagcatg actgacat 28

<210> 51

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 51

gcagcatagt gagcccagaa ggggacag 28

<210> 52

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 52

gccgcccagt gggactttgg aaatacaa 28

<210> 53

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 53

tccactgcag ctcccttact gataacaa 28

<210> 54

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 54

attcccctgc aggacaacgc ccacacac 28

<210> 55

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 55

acacctgttc aattcccctg caggacaa 28

<210> 56

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 56

ttgaacaggt gtaaaattgg agggacaa 28

<210> 57

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 57

ttgcccctat taaaaaactt cccgacaa 28

<210> 58

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 58

agatccttac tacagtatga aattacag 28

<210> 59

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 59

agccttatca aaaggtattt tagaacac 28

<210> 60

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 60

cggggcccac tcaccgtgca cataacag 28

<210> 61

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 61

gccgtgtccg cgccatggcc atctacaa 28

<210> 62

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 62

tggccatcta caagaagtca cagcacat 28

<210> 63

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 63

ccgagtgtca ggagctcctg cagcacag 28

<210> 64

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 64

ctccccgggg cccactcacc gtgcacat 28

<210> 65

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 65

cctgtgcagt tgtgggtcag cgccacac 28

<210> 66

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 66

ggtgtggcgc tgacccacaa ctgcacag 28

<210> 67

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 67

ttcttgtaga tggccatggc gcggacac 28

<210> 68

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 68

cgccatggcc atctacaaga agtcacag 28

<210> 69

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 69

acatcatcaa tattgttcct gtatacac 28

<210> 70

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 70

tgaatccaaa aaccttaaaa caaaacaa 28

<210> 71

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 71

tgctttgaat ccaaaaacct taaaacaa 28

<210> 72

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 72

agcataaaaa ccattacaag atatacaa 28

<210> 73

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 73

gtagatgtgc tgagagacat tatgacac 28

<210> 74

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 74

ggcggtgtca taatgtctct cagcacat 28

<210> 75

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 测试序列

<400> 75

atttaactgc agaggtatgt ataaacat 28

<210> 76

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 靶序列

<400> 76

gccacgacct ggtgaacacc taggacgcac 30

<210> 77

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 靶序列

<400> 77

ggccttatct cacaggtaaa actgacgcac 30

<210> 78

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 靶序列

<400> 78

ctcttgggaa gtgtaaggaa gctgcagcac 30

<210> 79

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 靶序列

<400> 79

agctgcagca ccaggatcag tgaaacgcac 30

<210> 80

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 靶序列

<400> 80

ctgtggggtg gaggggacag ataaaagtac 30

<210> 81

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 靶序列

<400> 81

gccggttaat gtggctctgg ttctgggtac 30

<210> 82

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 靶序列

<400> 82

gccatgacag ggggctggaa gagctagcac 30

<210> 83

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 靶序列

<400> 83

gagaaccaga ccacccagaa 20

<210> 84

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 靶序列

<400> 84

ggcagccccg ccatcaagaa 20

<210> 85

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 靶序列

<400> 85

gtaagatgct tttctgtgac 20

<210> 86

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 靶序列

<400> 86

gatcctttga tcttttctac 20

<210> 87

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 靶序列

<400> 87

gcctccaaaa aagaagagaa 20

<210> 88

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 靶序列

<400> 88

tgacatcaat tattatacat 20

Claims

1.一种组合物，其包含：

识别SEQ ID NO：1的原间隔序列邻近基序序列的Cas蛋白或编码所述Cas蛋白的核酸；

其中所述Cas蛋白是空肠弯曲杆菌Cas9蛋白；和

引导RNA，所述引导RNA包括用于CRISPR-Cas系统的crRNA和tracrRNA，或者编码所述引导RNA的DNA；

其中所述crRNA具有能够与邻近所述SEQ ID NO：1的原间隔序列邻近基序序列的靶DNA序列的互补链形成双链体的序列和所述crRNA的必要部分的序列。

2.如权利要求1的组合物，其中所述组合物进一步包含核定位信号。

3.如权利要求1所述的组合物，其中所述Cas蛋白由SEQ ID NO：22组成。

4.如权利要求1所述的组合物，其中所述引导RNA是双引导RNA。

5.如权利要求1所述的组合物，其中所述引导RNA是所述crRNA和所述tracrRNA彼此融合的单引导RNA。

6.如权利要求1所述的组合物，其中所述能够与所述靶DNA序列的互补链形成双链体的序列具有17至23bp的长度。

7.如权利要求6所述的组合物，其中所述能够与所述靶DNA序列的互补链形成双链体的序列具有21至23bp的长度。

8.如权利要求1所述的组合物，其中所述引导RNA还包含在能够与靶DNA序列的互补链形成双链体的序列的5′端之前的一至三个附加核苷酸。

9.如权利要求8所述的组合物，其中所述附加核苷酸包含鸟嘌呤。

10.如权利要求1所述的组合物，其中所述Cas蛋白具有核酸酶或切口酶活性。

11.如权利要求10所述的组合物，其中所述具有切口酶活性的Cas蛋白在SEQ ID NO：22的位置8处的催化性天冬氨酸或SEQ ID NO：22的位置559处的组氨酸被其它氨基酸所取代。

12.如权利要求11所述的组合物，其中所述其它氨基酸是丙氨酸。

13.如权利要求1所述的组合物，其中所述组合物用于利用SEQ ID NO：1的原间隔序列邻近基序序列切割所述靶DNA。

14.如权利要求1所述的组合物，其中所述组合物用于编辑包含SEQ ID NO：1的原间隔序列邻近基序序列的基因组。

15.如权利要求1所述的组合物，其中所述Cas蛋白是失活形式。

16.如权利要求15所述的组合物，其中所述是失活形式的Cas蛋白在SEQ ID NO：22的位置8处的催化性天冬氨酸和SEQ ID NO：22的位置559处的组氨酸被其它氨基酸所取代。

17.如权利要求16所述的组合物，其中所述其它氨基酸是丙氨酸。

18.如权利要求15所述的组合物，其中所述组合物的特征在于所述Cas蛋白结合包含SEQ ID NO：1的原间隔序列邻近基序序列的靶DNA序列，而不切割靶DNA。

19.如权利要求15所述的组合物，其中所述Cas蛋白还包含转录效应子结构域。

20.如权利要求15所述的组合物，其中所述组合物用于Cas-介导的基因表达调节，所述基因表达调节包括转录调节或表观遗传调节。

21.一种用于靶DNA序列的靶向复合物，所述靶DNA序列具有SED ID NO：1的原间隔序列邻近基序序列，所述靶向复合物包括：

识别SEQ ID NO：1序列的Cas蛋白；其中所述Cas蛋白是空肠弯曲杆菌Cas9蛋白；和

22.一种载体，其包括：

编码Cas蛋白的核酸，所述Cas蛋白识别SEQ ID NO：1的原间隔序列邻近基序序列，其中所述Cas蛋白是空肠弯曲杆菌Cas9蛋白；和

23.如权利要求22所述的载体，其中所述编码Cas蛋白的核酸和编码所述引导RNA的DNA可以分别存在于各个载体中或一起存在于单个载体中。

24.如权利要求22所述的载体，其中所述载体是病毒载体、质粒载体或土壤杆菌载体。

25.如权利要求24所述的载体，其中所述病毒载体是腺相关病毒。

26.如权利要求22所述的载体，其还包含核定位信号序列。

27.一种重组病毒载体，其包含：

（i）用于引导RNA的表达盒，其包括用于CRISPR-Cas系统的crRNA和tracrRNA，或者编码所述引导RNA的DNA；

其中所述crRNA具有能够与邻近SEQ ID NO：1的原间隔序列邻近基序序列的靶DNA序列的互补链形成双链体的序列和所述crRNA的必要部分的序列，和

（ii）识别SEQ ID NO：1的原间隔序列邻近基序序列的Cas蛋白的表达盒，其中所述Cas蛋白是空肠弯曲杆菌Cas9蛋白。

28.如权利要求27所述的重组病毒载体，其中所述病毒载体是腺相关病毒。

29.一种细胞，其包括：

识别SEQ ID NO：1的原间隔序列邻近基序序列的Cas蛋白或编码所述Cas蛋白的核酸，其中所述Cas蛋白是空肠弯曲杆菌Cas9蛋白；和

引导RNA，其包含：用于CRISPR-Cas系统的crRNA和tracrRNA，或者编码所述引导RNA的DNA；

30.载体转染的细胞，其包含：

编码Cas蛋白的核酸，所述Cas蛋白识别SEQ ID NO：1的序列，其中所述Cas蛋白是空肠弯曲杆菌Cas9蛋白；

引导RNA，所述引导RNA包含：用于CRISPR-Cas系统的crRNA和tracrRNA，或者编码所述引导RNA的DNA；

31.一种在体外将用于靶向靶DNA序列的组合物导入细胞中的方法，所述靶DNA序列包含SEQ ID NO：1的原间隔序列邻近基序序列，

其中所述组合物包含：

识别SEQ ID NO：1的原间隔序列邻近基序序列的Cas蛋白或编码所述Cas蛋白的核酸；其中所述Cas蛋白是空肠弯曲杆菌Cas9蛋白，和

32.如权利要求31所述的方法，其中所述引导RNA或编码所述引导RNA的DNA；和所述Cas蛋白或编码所述Cas蛋白的核酸同时或依次地被导入细胞中。

33.如权利要求31所述的方法，其中所述导入方法由电穿孔、脂质体、病毒载体、纳米颗粒和PTD蛋白转导结构域融合蛋白的任何一个实施。

34.一种切割细胞中靶 DNA的方法，所述细胞是来自人类的分离的真核细胞或来自非人类的真核细胞，所述方法包括：

将组合物转染到人类的分离的真核细胞或来自非人类的真核细胞，其包括靶DNA序列，

其中所述组合物包含：识别SEQ ID NO：1的原间隔序列邻近基序序列的Cas蛋白或编码所述Cas蛋白的核酸；其中所述Cas蛋白是空肠弯曲杆菌Cas9蛋白，和

35.一种在细胞中进行基因组编辑的方法，所述细胞是来自人类的分离的真核细胞或来自非人类的真核细胞，所述方法包括：

其中所述组合物包含：

引导RNA，所述引导RNA包括：用于CRISPR-Cas系统的crRNA和tracrRNA，或者编码所述引导RNA的DNA；