CN110520163A

CN110520163A - 独立于dna双链断裂的靶向基因编辑平台及其用途

Info

Publication number: CN110520163A
Application number: CN201880016012.XA
Authority: CN
Inventors: 金晟侃; J-C·科兰特斯
Original assignee: Rutgers State University of New Jersey
Current assignee: Rutgers State University of New Jersey
Priority date: 2017-01-05
Filing date: 2018-01-04
Publication date: 2019-11-29
Also published as: EP3565608A4; WO2018129129A1; US20190330658A1; JP2020503055A; JP7219972B2; EP3565608A1

Abstract

本发明公开了用于靶向基因编辑的系统及相关用途。

Description

独立于DNA双链断裂的靶向基因编辑平台及其用途

相关申请的交叉引用

本申请要求于2017年1月5日提交的美国临时申请号62/442,704的优先权。该申请的内容通过引用整体并入本文。

政府利益

本文所公开的发明至少部分是在美国国务院富布赖特外国学生计划的资助号15130816的政府支持下完成的。因此，美国政府对本发明具有一定的权利。

发明领域

本发明涉及用于靶向基因编辑的系统及相关用途。

发明背景

靶向基因编辑是真核细胞、胚胎和动物遗传操作的有力工具。使用它，靶向的基因组位置和/或特定的染色体序列可以被缺失、失活或修饰。目前的几种方法依赖于使用工程化的核酸酶，例如锌指核酸酶(ZFN)或转录激活子样效应子核酸酶(TALEN)。这些嵌合核酸酶含有与非特异性DNA切割结构域连接的可编程的、序列特异性DNA结合模块。由于每个新的基因组靶均需要设计包含新的序列特异性DNA结合模块的新的ZFN或TALEN，这些定制设计的核酸酶制备起来往往是昂贵且耗时的。而且，ZFN和TALEN的特异性使得它们能够介导脱靶(off-target)切割。最近开发的基因组修饰技术利用细菌成簇规律间隔短回文重复序列(clusters of regularly interspaced short palindromic repeats，CRISPR)相关蛋白9(Cas9)(一种RNA指导的DNA内切核酸酶)诱导DNA靶位点上特定的双链断裂(DSB)。RNA-Cas9复合物识别其同源DNA靶序列并与其碱基配对，导致靶切割形成DSB。

然而，一个尚未解决的主要问题是如何校正体细胞中的基因突变。目前现有技术的共同效应子是核酸酶，所述核酸酶导致DNA DSB，其进而触发细胞通路的激活，如同源重组和非同源末端连接。这个过程有许多严重缺点。首先，由于末端连接的最终产品具有不可预知的性质，DSB以随机和不可预测的方式导致框内(in-frame)和移框(frame-shift)突变，这限制了其用于直接临床应用。其次，DSB可能引起非局部致突变事件，如染色体易位，这是该过程的不良后果。在体内，这些变化可能是潜在有害的。第三，修复或校正通常需要DSB介导的同源重组，其活性在治疗剂尤为重要的大多数体细胞组织/细胞中低或甚至不存在。

因此，目前基于DSB核酸酶的技术对基因编辑的适用性有限，并且存在对不依赖于导致双链断裂的核酸酶活性的靶向基因修饰技术的需求。

发明概述

本发明通过提供靶向基因编辑系统和相关用途来解决上述需求。

本发明一方面提供了靶核酸或多核苷酸(例如，DNA或RNA)的位点特异性修饰的方法。该方法包括将基因编辑系统导入靶核酸。基因编辑系统包含识别靶核酸或多核苷酸(例如，DNA或RNA)的两种不同特定核酸序列的第一系统和第二系统。(参见，例如，图1A中的图示)。

第一系统包含(i)第一序列靶向的单链DNA(ssDNA)切口蛋白(STP)，(ii)第一RNA支架，其包含：(a)第一核酸靶向基序，其包含与靶DNA中的第一靶核酸序列互补的第一指导RNA序列，(b)能够结合第一序列靶向蛋白的第一CRISPR基序，和(c)第一募集RNA基序，和(iii)第一非核酸酶效应子融合蛋白，其包含：(a)能够结合第一募集RNA基序的第一RNA结合结构域，(b)第一接头，和(c)第一效应子结构域。第一非核酸酶效应子融合蛋白具有酶活性。

第二系统识别靶DNA中的第二特定核酸序列。第一靶核酸序列和第二靶核酸序列在靶DNA的同一条链上。两个靶核酸序列中的任一个可以在另一个的上游或下游，使得第一和第二系统识别围绕靶核苷酸的两个特定序列(例如，由gRNA指导)(例如，一个gRNA在靶位点上游，一个在靶位点的下游)，以顺式(即在相同的DNA链上)引入彼此接近的两个缺口。通过这种方式，瞬时暴露一段ssDNA，允许效应子模块(例如，下文描述的CRC效应子模块)催化核苷酸转换，然后在链修复时固定引入的修饰(参见，例如图8B和图10A-D)。

第二系统可以具有各种组分组，但通常具有(i)第二序列靶向的ssDNA切口蛋白，用于靶向靶DNA中的第二靶核酸序列。该序列靶向的ssDNA切口蛋白可以与第一系统中的序列靶向的ssDNA切口蛋白相同。

在一个实施方案中，第二系统进一步包含(ii)第二RNA支架，其包含：(a)第二核酸靶向基序，其包含与靶DNA中的第二靶核酸序列互补的第二指导RNA序列，(b)能够结合第二序列靶向蛋白的第二CRISPR基序，和(c)第二募集RNA基序，和(iii)第二非核酸酶效应子融合蛋白，其包含：(a)能够结合第二募集RNA基序的第二RNA结合结构域，(b)第二接头，和(c)第二效应子结构域。(ii)中的第二募集RNA基序和(iii)中的所有组分可以与第一个系统的组分相同或不同。第二效应子融合蛋白可具有或不具有酶活性。

在另一个实施方案中，第二系统可以进一步包含(ii)第二RNA支架，其包含(a)第二核酸靶向基序，其包含与靶DNA中的第二靶核酸序列互补的第二指导RNA序列和(b)能够结合第二序列靶向蛋白的第二CRISPR基序。优选地，第二RNA支架不具有募集RNA基序，使得没有效应子蛋白募集至第二靶核酸序列。

在另一个实施方案中，第二系统可以进一步包含(ii)第二RNA支架，其包含：(a)第二核酸靶向基序，其包含与靶DNA中的第二靶核酸序列互补的第二指导RNA序列，(b)能够结合第二序列靶向蛋白的第二CRISPR基序，和(c)第二募集RNA基序，和(iii)局部DNA修复抑制剂融合蛋白，其包含：(a)能够结合第二募集RNA基序的第二RNA结合结构域，(b)第二接头，和(c)局部DNA修复抑制剂结构域。

在上述方法中，第一或第二序列靶向蛋白可以是CRISPR蛋白。优选地，第一或第二序列靶向蛋白不具有产生双链断裂的核酸酶活性。第一或第二序列靶向蛋白的实例包括选自由以下组成的组的物种的dCas9或nCas9(切口酶Cas9)的序列：化脓性链球菌(Streptococcus pyogenes)、无乳链球菌(Streptococcus agalactiae)、金黄色葡萄球菌(Staphylococcus aureus)、嗜热链球菌(Streptococcus thermophilus)、嗜热链球菌(Streptococcus thermophilus)、脑膜炎奈瑟球菌(Neisseria meningitidis)和齿垢密螺旋体(Treponema denticola)。在一些实施方案中，第一序列靶向蛋白和第二序列靶向蛋白可以是直系同源物并且结合不同的PAM。

在上述方法中，(i)第一募集RNA基序和第一RNA结合结构域或(ii)第二募集RNA基序和第二RNA结合结构域可以是选自由以下组成的组的对：端粒酶Ku结合基序和Ku蛋白或其RNA结合部分、端粒酶Sm7结合基序和Sm7蛋白或其RNA结合部分、MS2噬菌体操纵子茎环和MS2外壳蛋白(MCP)或其RNA结合部分、PP7噬菌体操纵子茎环和PP7外壳蛋白(PCP)或其RNA结合部分、SfMu噬菌体Com茎环和Com RNA结合蛋白或其RNA结合部分和非天然RNA适体和相应的适体配体或其RNA结合部分。

在上述非核酸酶效应子融合蛋白中，接头序列的长度可以是0至100(例如1-100、5-80、10-50和20-30)个氨基酸残基。酶活性可以是脱氨基活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光解酶活性或糖基化酶活性。在一些实施方案中，酶活性是脱氨基活性(例如，胞苷脱氨基活性或腺苷脱氨基活性)、甲基转移酶活性或脱甲基酶活性。第一或第二RNA结合结构域不是Cas9或其功能等价物，也不是其RNA结合结构域。第二效应子融合蛋白可以具有或不具有任何酶活性，但可以改善由第一效应子融合蛋白介导的所需编辑特性。

靶核酸可以在细胞中。靶核酸可以是RNA、染色体外DNA或染色体上的基因组DNA。细胞可以选自由以下组成的组：古细菌细胞、细菌细胞、真核细胞、真核单细胞生物、体细胞、生殖细胞、干细胞、植物细胞、藻类细胞、动物细胞、无脊椎动物细胞、脊椎动物细胞、鱼细胞、蛙细胞、鸟类细胞、哺乳动物细胞、猪细胞、牛细胞、山羊细胞、绵羊细胞、啮齿动物细胞、大鼠细胞、小鼠细胞、非人灵长类动物细胞和人细胞。

细胞可以在人或非人受试者中或来源于人或非人受试者。人或非人受试者具有基因的基因突变或多态性。在一些实施方案中，受试者患有由基因突变引起的病况或有患有该病况的风险。在这种情况下，位点特异性修饰校正了基因突变或使基因表达失活。在其他实施方案中，受试者具有病原体或处于暴露于该病原体的风险中，并且位点特异性修饰使病原体的基因失活。

还提供了分离的编码上述第一或第二系统的组分(i)至(iii)的一种或更多种组分的核酸、包含所述核酸的表达载体或包含该所述核酸的宿主细胞。

本发明的另一方面提供了组合物，其包含选自由以下组成的组：上述第一系统、上述第二系统、上述分离的核酸、上述表达载体和上述宿主细胞的一个或更多个。还提供了试剂盒，其包含选自由以下组成的组：上述第一系统、上述第二系统、上述分离的核酸、上述表达载体和上述宿主细胞的一个或更多个。所述试剂盒可以进一步含有一种或多种选自由以下组成的组的组分：用于重构和/或稀释的试剂和用于将核酸或多肽引入宿主细胞的试剂。

在下面的描述中阐述了本发明的一个或更多个实施方案的细节。从说明书和权利要求中，本发明的其他特征、目的和优点将是显而易见的。

附图简要说明

图1A是基因编辑系统的示意图，其包含分别与靶DNA中的两个特定核酸序列相互作用的两个系统。第一系统含有(i)序列靶向的单链DNA(ssDNA)切口蛋白(STP)，(ii)RNA支架，其包含：(a)核酸靶向基序，其包含与靶DNA中靶核酸序列互补的指导RNA序列，(b)能够与序列靶向蛋白结合的CRISPR基序，和(c)募集RNA基序，和(iii)非核酸酶效应子融合蛋白，其包含：(a)能够结合募集RNA基序的RNA结合结构域，(b)接头，和(c)效应子结构域。C-G对仅用于说明，而A-T对也是适合的。第二系统可以含有与第一系统相似的识别第二特定核酸序列的组分组，其中组分(ii)(c)(即募集RNA基序)和组分(iii)(即非核酸酶效应子融合蛋白)是可选的。

图1B、1C、1D、1E和1F是用于体内靶向基因编辑的示例性的核酸酶非依懒性的CasRcure或CRC平台的一组示意图。图1B.平台的组分，从左到右：(1)序列靶向组分dCas9，(2)RNA支架，其含有指导RNA基序(用于序列靶向)、CRISPR基序(用于dCas9结合)和募集RNA基序(用于募集效应子-RNA结合蛋白融合体)，和(3)效应子-RNA结合结构域融合蛋白。系统可以经安排为靶向DNA或RNA分子上的特定核苷酸(右)。图1C.如果效应子蛋白作为单体起作用，则该系统可以靶向靶位点的上游(左侧)或下游(右侧)的单个位点。图1D.如果效应子蛋白需要二聚化才能发挥正常的催化功能，则可以将该系统多重化以同时靶向靶位点的上游和下游的序列，因此允许效应子蛋白二聚化(右)。或者，将效应子蛋白募集至单个位点可足以增加其对相邻效应子蛋白的亲和力，促进二聚化(右)。图1E.募集并定位在靶位点的四聚体效应子酶的实例，其可通过双(左)或单靶向(右)实现。图1F.可用于编辑RNA靶(例如逆转录病毒失活)的系统。

图2A、2B、2C、2D、2E和2F显示AID的靶向募集能够引入核苷酸转换的位点特异性转换。图2A.沿大肠杆菌rpoB基因的RRDR簇I的靶区域(SEQ ID NO：23和24)的示意图。显示了(顶部)DNA序列(SEQ ID NO：23)，其中显示了PAM(加框)和可突变位置(箭头)；(中部)这些实验中使用的gRNA的结合位点，所有的gRNA被编程为靶向模板链(TS，-)；(底部)蛋白序列(SEQ ID NO：25)，其中显示了涉及利福平耐药性的关键氨基酸(箭头)。图2B.用^AIDCRC和指定的gRNA处理大肠杆菌MG1655细胞并在含有120μM利福平的平板中选择。图2C.从B顶部图计算突变频率。图2D.来自用rpoB_TS-4gRNA处理的^AIDCRC(顶部，SEQ ID NO：26)和未处理细胞(中部，SEQ ID NO：27)的代表性测序结果。C1592>T突变导致蛋白序列中S531F改变(底部，SEQ ID NO：28和29)，已知该突变诱导Rif(Petersen-Mahrt等,Nature 418,99-104(2002)，Xu,M等,Journal of Bacteriology 187,2783-2792,doi:10.1128/JB.187.8.2783-2792.2005(2005)和Zenkin,N等,Antimicrobial Agents andChemotherapy 49,1587-1590,doi：10.1128/AAC49.4.1587-1590.2005(2005))。在C和S(野生型)和T和F(突变体)中显示修饰的核苷酸和氨基酸残基。图2E.用gRNA rpoB_TS-3、rpoB_TS-4和乱序序列(scramble)(SEQ ID NO：30-41)处理^AIDCRC的突变分布。图2F.数据表明CRC主动地将位于未配对的链(原间隔区(protospacer))上的靶胞嘧啶残基脱氨基，优先更接近5'末端。

图3A和3B显示CRC系统模块性：靶向模块的工程化提高了突变频率。图3A.当用rpoB_TS-4gRNA靶向时，将靶向模块从dCas9改变为nCas9_D10A(SEQ ID NO：52)提高了系统效率，将利福平平板上的存活分数从高于对照18倍(^AIDCRC)增加至43倍(^AIDCRC_D10A)。图3B.用rpoB_TS-4作为靶(SEQ ID No：30-32)的^AIDCRC_D10A处理的突变分布。C1592在100％克隆中被修饰，75％的C被突变为T，25％的C被突变为A。

图4A和4B显示CRC系统模块性：效应子模块的工程化增加了突变频率。图4A.APOBEC3G(^APO3GCRC_D10A)和APOBEC1(^APO3GCRC_D10A)作为效应子用原系统(^AIDCRC)一起进行测试。当用rpoB_TS-4gRNA靶向时，用APOBEC1处理提高了相对于^AIDCRC_D10A的突变频率。^APO3GCRC_D10A比^AIDCRC活性低。图4B.用rpoB_TS-4作为靶(SEQ ID NO：30-32)的^APO1CRC_D10A处理的突变分布(以％表示)。在100％的克隆中观察到C1592>T转换。另外，25％的分析克隆是双突变体，转换C1590>T，没有氨基酸改变。

图5A和5B显示CRC系统模块性：增加RNA募集支架的数量提高了突变频率。图5A.增加募集支架的数量同时靶向相同的位置使突变效率从高于它们各自的乱序gRNA对照50倍(rpoB_TS-4lxMS2，SEQ ID NO：2)增加到140倍(rpoB_TS-4 2xMS2，SEQ ID NO：54)。图5B.用rpoB_TS-4_2xMS2作为靶(SEQ ID No：30-32)的^AIDCRC_D10A处理的突变分布(以％表示)。C1592在100％的克隆中被修饰，62.5％的C被突变为T，37.5％的C被突变为A。

图6A、6B、6C和6D显示CRC系统能够修饰哺乳动物细胞中染色体外DNA中的靶核苷酸，恢复蛋白功能。图6A.这些实验中使用的构建体的示意图。(上图)蛋白编码基因在人泛素蛋白C启动子(UbC)的控制下作为多顺反子构建体被克隆，以确保该系统的两种蛋白组分的化学计量浓度。(下图)嵌合gRNA_MS2构建体在U6或H1启动子的控制下被克隆，以分别用5'-G或5'-A表达靶。图6B._nfEGFP^Y66C缺陷荧光周围靶区域的示意图。显示了(顶部)在这些实验中使用的gRNA的结合位点，所有的gRNA都被编程为靶向非模板链(NT，+)；(中部)DNA序列(SEQ ID NO：42和43)，其中显示PAM(加框)和可突变位置(箭头)；(底部)蛋白序列(SEQ IDNo：44)，其中显示了消除EGFP荧光的突变氨基酸(箭头)。图6C.293T细胞中_nfEGFP^Y66C靶向。用_nfEGFP^Y66C_NT-1和用效率较低的_nfEGFP^Y66CNT-2处理诱导EGFP信号，而用乱序gRNA检测不到信号。此外，将CRC平台与不同的基因编辑系统(BE3)进行比较，所述基因编辑系统需要胞苷脱氨酶蛋白与Cas9蛋白直接融合用于募集，并且需要共同表达尿嘧啶DNA糖基化酶(UGI)的抑制剂以提高效率。BF，明场。图6D.使用_nfEGFP^Y66CNT-1作为靶向gRNA，用^AIDCRC_D10A和BE3系统处理GFP阳性细胞的定量(以％表示)。

图7A和7B显示处理CRC系统可导致哺乳动物细胞中内源基因的位点特异性核苷酸转换。图7A.中国仓鼠HPRT基因外显子3上靶区域示意图。显示了(顶部)DNA序列(SEQ IDNO：45和46)，其中显示了PAM(加框)和可突变位置(箭头)；(中部)显示在这些实验中使用的gRNA的结合位点，gRNA被编程以靶向模板链(TS，-)；(底部)蛋白序列(SEQ ID NO：47)，其中显示了涉及HPRT蛋白不稳定性的关键氨基酸(箭头)。图7B.用^AIDCRC_D10A、BE3HPRT靶向或未处理后抗6-TG的V79-4细胞的定量。与未处理的细胞相比，^AIDCRC_D10A处理的存活分数比未处理细胞高140倍，而BE3高40倍。

图8A和8B是顺式双切口方法的示意图。图8A.在该实例中，靶胞苷(红色)位于原间隔区的5'末端的位置2，这使得其无法接近CRC效应子模块。图8B.上图。为了暴露靶胞苷使其更容易接近效应子模块，将系统多重化以靶向靶核苷酸的顺式、上游和下游的邻近序列。可能仅通过使用没有募集模块的gRNA(RNA支架)从第二位点排除效应子模块。中图。在同时顺式双切口后，瞬时产生一段ssDNA。以这种方式，效应子模块可以接近靶胞苷，催化脱氨基反应，将靶核苷酸突变为T(黑色)。黑色箭头显示nCas9_D10A切口位点。下图。修复切口链后，固定转换的核苷酸。

图9A和9B是显示细菌基因组中顺式双切口的示意图。图9A.沿大肠杆菌rpoB基因的RRDR簇I的靶区域(SEQ ID No：23和24)的示意图。显示了(顶部)DNA序列(SEQ ID NO：23)，其中绿色为PAM(加框)且红色为可突变位置(箭头)；(中部)这些实验中使用的gRNA的结合位点。所有gRNA被编程以靶向模板链(TS，-)；(底部)蓝色的蛋白序列(SEQ ID NO：25)，其中显示了涉及利福平耐药性的关键氨基酸(红色)(箭头)。在该实验中，使用gRNA TS2和TS3。图9B.顺式双切口与单切口突变频率比较。对于双切口实验，两种形式的gRNA TS2和TS3分别在有和没有募集RNA基序(2xMS2)的情况下被工程化以募集或排除效应子模块(AID_MCP)。与用TS3_2xMS2 gRNA的单一靶向相比，顺式双切口加上募集效应子模块至位置TS3(TS2/TS3_2xMS2处理)略微增加突变频率。重要的是，与用TS2_2xMS2处理的单一靶向相比，顺式双切口加上募集效应子模块至位置TS2(TS2_2xMS2/TS3处理)使突变频率增加130倍。

图10A、10B、10C和10D是显示使用顺式双切口方法的CRC系统的各种应用的示意图。图10A.CRC效应子被募集至两个切口位点。图10B.通过使用具有或不具有募集RNA基序的gRNA，可以将CRC效应子募集至切口位点或从切口位点排除。上图显示CRC效应子专门募集至下游切口位点，而在下图中，CRC效应子仅募集至上游切口位点。图10C.为了进一步提高核苷酸转换效率，系统可以被编程以募集CRC效应子(下游)和局部DNA修复抑制剂(例如，UGI)。为了避免两个切口位点之间的串扰，可能使用正交RNA募集基序来独立地募集CRC效应子和抑制剂(例如，MS2-MCP募集与MCP融合的CRC效应子，并且PP7-PCP募集与PCP融合的UGI)。图10D.如果需要双切口，但附近没有其他化脓性链球菌PAM序列，可以使用Cas9直系同源物，这取决于哪种PAM序列可用。在该实例中，嗜热链球菌Cas9(StCas9_D10A)被编程以靶向上游切口位点，而化脓性链球菌Cas9(SpCas9_D10A)则靶向下游切口位点。

图11A和11B是使用AID_S38A变体(非磷酸化变体)的示意图，并且结果显示通过该方法转换效率没有变化(但是由于S38A突变导致脱靶效应的潜在减少)。

发明详述

目前的基因特异性编辑技术主要基于核酸酶诱导的DNA DSB和由此产生的DSB诱导的同源重组。由于大多数体细胞中同源重组的活性很低或不存在，因此这些技术在大多数疾病的体细胞组织中的病理性遗传突变的治疗性纠正的用途有限。

如本文所公开的，本发明(至少部分)基于允许基因或RNA转录物的DNA序列定向编辑的新型平台或系统。该系统不依赖于核酸酶活性，不产生DSB，也不依赖于DSB介导的同源重组。此外，该平台的RNA支架的这种设计是模块化的，这允许以极其灵活和方便的方式靶向任何期望的DNA或RNA序列。实质上，这种方法能够使人们将DNA或RNA编辑酶引导至体细胞(包括干细胞)中的任何DNA或RNA序列。通过精确编辑靶DNA或RNA序列，该酶能够校正遗传病况中的突变基因，使病毒感染的细胞中的病毒基因组失活，消除神经退行性疾病中致病蛋白的表达，或沉默癌症中的致癌蛋白。此外，这种方法能够通过离体编辑干细胞或祖细胞的基因组用于基于细胞的治疗。除了治疗应用外，该系统还能够作为强大的研究工具广泛应用于任何生物的基因组的靶向修饰。参见PCT/US2016/042413，其内容通过引用整体并入本文。

基因编辑平台

本发明的一个方面提供了一种基因编辑平台，其克服了当前核酸酶和DSB依赖的基因组工程化和基因编辑技术的上述限制。该平台被命名为CasRcure系统或CRC系统，具有三个功能组分：(1)经工程化用于序列靶向的基于核酸酶缺陷型CRISPR/Cas的模块；(2)基于RNA支架的模块，用于将平台指导至靶序列以及用于募集校正模块；和(3)作为效应子校正模块的非核酸酶DNA/RNA修饰酶，如胞嘧啶脱氨酶(例如激活诱导的胞嘧啶脱氨酶，AID)。CasRcure系统一起允许特定的DNA/RNA测序锚定，将效应子DNA/RNA修饰酶灵活地和模块化地募集到特定序列，并引发在体细胞中有活性的细胞通路，用于校正遗传信息，特别是点突变。

图1B-1F示出了示例性CasRcure系统的示意图。更具体地，该系统包括图1B中总结的三种结构和功能组分：(1)序列靶向模块(例如，dCas9蛋白)；(2)用于序列识别和用于效应子募集的RNA支架(包含指导RNA基序、CRISPR RNA基序和募集RNA基序的RNA分子)和(3)效应子(非核酸酶DNA修饰酶，如与结合到募集RNA基序的小蛋白融合的AID)。三个组分可以构建在单个表达载体中或者构建在两个到三个单独的表达载体中。三个具体组分的整体和组合构成了技术平台的使能(enabling)。

如本文所公开的，募集机制之间有许多明确的区别：RNA支架介导的募集系统(CRC)相对于Cas9与效应子蛋白(BE3)的直接融合。以下实例中显示的结果表明，RNA支架介导的募集比染色体外靶(图6C和6D)和内源基因(图7B)的直接融合更有效。另外，CRC系统不依赖于UNG抑制(DNA修复酶)，而BE3使用有效的UNG抑制物肽(UGI)。全局或局部DNA修复抑制可能导致不期望的、不可控制的、潜在的有害结果。另外，CRC系统的模块化设计可以实现灵活的系统工程化。模块是可以互换的，可以轻松实现不同模块的许多组合。另一方面，直接融合总是需要新的融合过程来工程化新的模块。此外，RNA支架介导的募集可能促进效应子蛋白的寡聚化，而直接融合将由于空间位阻而不会形成寡聚体。

a.序列靶向模块

上述系统的序列靶向组分基于来自细菌物种的CRISPR/Cas系统。原始的功能性细菌CRISPR-Cas系统需要三个组分：提供核酸酶活性的Cas蛋白和称为CRISPR RNA(crRNA)和反式作用RNA(tracrRNA)的两个短的非编码RNA物质，这两种RNA物质形成所谓的指导RNA(gRNA)。II型CRISPR是表征最好的系统之一，并以四个连续的步骤进行靶向的DNA双链断裂。第一，从CRISPR基因座转录两个非编码RNA-pre-crRNA和tracrRNA。第二，tracrRNA与pre-crRNA分子的重复区域杂交，并介导pre-crRNA分子加工成含有单独间隔区序列的成熟crRNA分子。第三，成熟的crRNA：tracrRNA复合物(即所谓的指导RNA)通过在crRNA上的间隔区序列与包含3-核苷酸(nt)原间隔区邻近基序(PAM)的靶DNA上的原间隔区的互补序列之间的Watson-Crick碱基配对，指引Cas核酸酶(例如Cas9)至靶DNA。PAM序列对于Cas9靶向是必需的。最后，Cas核酸酶介导靶DNA的切割以在靶位点内产生双链断裂。在其天然情况下，CRISPR/Cas系统作用为适应性免疫系统，其保护细菌免受重复病毒感染，并且PAM序列可以作为自我/非自我识别信号，而Cas9蛋白具有核酸酶活性。已显示CRISPR/Cas系统在体外和体内具有巨大的基因编辑潜力。

在本文公开的发明中，序列识别机制可以以类似的方式实现。也就是说，突变Cas蛋白(例如在其核酸酶催化结构域含有突变并因此不具有核酸酶活性的dCas9蛋白质，或者在催化结构域之一处部分突变并因此不具有用于产生DSB的核酸酶活性的nCas9蛋白质)特异性识别含有短的间隔区序列(典型的长20个核苷酸)的非编码RNA支架分子，其将Cas蛋白指导至其靶DNA或RNA序列。后者侧翼是3'PAM。

本发明可使用各种Cas蛋白。Cas蛋白(CRISPR相关蛋白或CRISPR蛋白，可互换使用)是指I型、II型或III型CRISPR-Cas系统(其具有RNA指导的DNA结合)的蛋白或由此衍生的蛋白。合适的CRISPR/Cas蛋白的非限制性实例包括Cas3、Cas4、Cas5、Cas5e(或CasD)、Cas6、Cas6e、Cas6f、Cas7、Cas8al、Cas8a2、Cas8b、Cas8c、Cas9、Cas10、Cas10d、CasF、CasG、CasH、Csyl、Csy2、Csy3、Cse1(或CasA)、Cse2(或CasB)、Cse3(或CasE)、Cse4(或CasC)、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmrl、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csz1、Csx15、Csf1、Csf2、Csf3、Csf4和Cu1966。参见例如WO2014144761、WO2014144592、WO2013176772、US20140273226和US20140273233，其内容通过引用整体并入本文。

在一个实施方案中，Cas蛋白衍生自II型CRISPR-Cas系统。在示例性实施方案中，Cas蛋白是Cas9蛋白或衍生自Cas9蛋白。Cas9蛋白可以来自化脓性链球菌(Streptococcuspyogenes)、嗜热链球菌(Streptococcus thermophilus)、链球菌属(Streptococcus sp.)、达松维尔拟诺卡氏菌(Nocardiopsis dassonvillei)、始旋链霉菌(Streptomycespristinaespiralis)、绿色产色链霉菌(Streptomyces viridochromogenes)、绿色产色链霉菌(Streptomyces viridochromogenes)、玫瑰链孢囊菌(Streptosporangium roseum)、玫瑰链孢囊菌(Streptosporangium roseum)、酸热脂环酸杆菌(Alicyclobacillusacidocaldarius)、假蕈状芽孢杆菌(Bacillus pseudomycoides)、砷还原芽孢杆菌(Bacillus selenitireducens)、西伯利亚微小杆菌(Exiguobacterium sibiricum)、德氏乳杆菌(Lactobacillus delbrueckii)、唾液乳杆菌(Lactobacillus salivarius)、海洋微颤蓝细菌(Microscilla marina)、伯克氏菌(Burkholderiales bacterium)、Polaromonasnaphthalenivorans、极地单胞菌属(Polaromonas sp.)、瓦氏鳄球藻(Crocosphaerawatsonii)、蓝杆藻属(Cyanothece sp.)、铜绿微囊蓝细菌(Microcystis aeruginosa)、聚球菌(Synechococcus sp.)、伯糖醋盐杆菌(Acetohalobium arabaticum)、Ammonifexdegensii、Caldicelulosiruptor becscii、Candidatus Desulforudis、肉毒梭菌(Clostridium botulinum)、艰难梭菌(Clostridium difficile)、大芬戈尔德菌(Finegoldia magna)、嗜热盐碱厌氧菌(Natranaerobius thermophilus)、丙酸互营细菌(Pelotomaculum thermopropionicum)、喜温嗜酸硫杆菌(Acidithiobacillus caldus)、嗜酸氧化亚铁硫杆菌(Acidithiobacillus ferrooxidans)、紫色硫细菌(Allochromatiumvinosum)、海杆菌(Marinobacter sp.)、嗜盐硝化球菌(Nitrosococcus halophilus)、瓦生氏亚硝化球菌(Nitrosococcus watsoni)、河豚毒素假交替单胞菌(Pseudoalteromonashaloplanktis)、Ktedonobacter racemifer、Methanohalobium evestigatum、多鱼腥蓝细菌(Anabaena variabilis)、产泡沫节球蓝细菌(Nodularia spumigena)、念珠藻属(Nostocsp.)、最大节螺蓝细菌(Arthrospira maxima)、钝顶节旋藻(Arthrospira platensis)、节旋藻属(Arthrospira sp.)、鞘丝藻属(Lyngbya sp.)、原型微鞘藻(Microcoleuschthonoplastes)、颤藻属(Oscillatoria sp.)、Petrotoga mobilis、非洲栖热腔菌(Thermosipho africanus)或Acaryochloris marina。

通常，Cas蛋白包括至少一个RNA结合结构域。RNA结合结构域与指导RNA相互作用。Cas蛋白可以是野生型Cas蛋白或不具有核酸酶活性的修饰形式。可以修饰Cas蛋白以增加核酸结合亲和力和/或特异性，改变酶活性，和/或改变蛋白的另一种性质。例如，可修饰、缺失或失活所述蛋白的核酸酶(即DNase、RNase)结构域。或者，可以截短蛋白以除去对该蛋白功能不是必需的结构域。所述蛋白也可以被截短或修饰以优化效应子结构域的活性。

在一些实施方案中，Cas蛋白可以是野生型Cas蛋白(例如Cas9)或其片段的突变体。在其他实施方案中，Cas蛋白可以衍生自突变Cas蛋白。例如，可以修饰Cas9蛋白的氨基酸序列以改变蛋白的一种或多种性质(例如核酸酶活性、亲和力、稳定性等)。或者，可以从Cas9蛋白中除去不涉及RNA靶向的所述蛋白的结构域，使得修饰的Cas9蛋白小于野生型Cas9蛋白。在一些实施方案中，本系统利用来自化脓性链球菌(S.pyogenes)的Cas9蛋白，其在细菌中所编码或经密码子优化以在哺乳动物细胞中表达。

突变Cas蛋白是指野生型蛋白的多肽衍生物，例如具有一个或多个点突变、插入、缺失、截短、融合蛋白或其组合的蛋白。该突变体具有RNA指导的DNA结合活性或RNA指导的核酸酶活性中的至少一种或两者。通常，修改形式与野生型蛋白如下面的SEQ ID NO.1至少50％(例如，50％和100％之间的任何数字，包括例如50％、60％、70％、75％、80％、85％、90％、95％和99％)相同。

可以作为重组多肽获得Cas蛋白(以及本发明中描述的其他蛋白组分)。为了制备重组多肽，编码它的核酸可以与编码融合伴侣(例如谷胱甘肽-s-转移酶(GST)、6x-His表位标签或M13基因3蛋白)的另一核酸连接。所得到的融合核酸在合适的宿主细胞中表达表达可以通过本领域已知的方法分离的融合蛋白。可以进一步处理分离的融合蛋白，例如通过酶消化来除去融合伴侣并获得本发明的重组多肽。或者，可以化学合成(参见例如Creighton,“Proteins：Structures and Molecular Principles”,W.H.Freeman&Co.,NY,1983)，或者如本文所述通过重组DNA技术产生这些蛋白。本领域技术人员可以参考Frederick M.Ausubel等,Current Protocols in Molecular Biology,John Wiley&Sons，2003；和Sambrook等,Molecular Cloning,A Laboratory Manual,“Cold Spring HarborPress,Cold Spring Harbor,NY,2001得到另外的指导。

本发明中描述的Cas蛋白可以以纯化或分离的形式提供，或者可以是组合物的一部分。优选地，在组合物形式的情况下，首先将这些蛋白纯化至一定程度，更优选至高水平的纯度(例如，约80％、90％、95％或99％或更高)。根据本发明的组合物可以是任何类型的所需组合物，但通常是适合用作或包含在用于RNA指导的靶向的组合物中的含水组合物。本领域技术人员很清楚可以包含在这类核酸酶反应组合物中的各种物质。

如本文所公开，可以使用核酸酶失活的Cas9(dCas9，例如来自化脓性链球菌D10A的H840A突变蛋白，图1B，SEQ ID NO：1)，或核酸酶缺陷切口酶Cas9(nCas9，例如来自化脓性链球菌D10A突变蛋白，SEQ ID NO：52，图1B和图2F)。dCas9或nCas9也可以来自各种细菌物种。表1列出了dCas9及它们相应的PAM要求实例的非穷尽列表。

表1.

b.用于序列识别和效应子募集的RNA支架：

本文公开的平台的第二组分是RNA支架，其具有三个亚组分：可编程的指导RNA基序、CRISPR RNA基序和募集RNA基序。该支架可以是单个RNA分子，或者是多个RNA分子的复合物。如本文所公开的，可编程的指导RNA、CRISPR RNA和Cas蛋白一起形成用于序列靶向和识别的基于CRISPR/Cas的模块，而募集RNA基序通过RNA-蛋白结合对募集携带遗传修正的蛋白质效应子。因此，该第二组分连接校正模块和序列识别模块。

可编程指导RNA

一个关键的亚组分是可编程的指导RNA。由于其简单和高效，CRISPR-Cas系统已被用于在各种生物的细胞中进行基因组编辑。该系统的特异性由靶DNA和定制设计的指导RNA之间的碱基配对决定。通过工程化和调整指导RNA的碱基配对性质，只要靶序列中存在PAM序列，就可以靶向任何感兴趣的序列。

在本文公开的RNA支架的亚组分中，指导序列提供靶向特异性。它包括与预先选定的感兴趣的靶位点互补并能够与之杂交的区域。在各种实施方案中，该指导序列可以包含约10个核苷酸至超过约25个核苷酸。例如，指导序列和相应的靶位点序列之间的碱基配对区域可以长约10、11、12、13、14、15、16、17、18、19、20、22、23、24、25或超过25个核苷酸。在示例性实施方案中，指导序列长约17至20个核苷酸，例如20个核苷酸。

选择合适的靶核酸的一个要求是它具有3'PAM位点/序列。每个靶序列及其相应的PAM位点/序列在本文中被称为Cas靶向位点。表征最好的系统之一的II型CRISPR系统只需要Cas9蛋白和与靶序列互补的指导RNA来影响靶切割。化脓性链球菌的II型CRISPR系统使用具有N12-20NGG的靶位点，其中NGG代表化脓性链球菌的PAM位点，且N12-20代表直接位于PAM位点5'的12至20个核苷酸。来自其他细菌物种的其他PAM位点序列包括NGGNG、NNNNGATT、NNAGAA、NNAGAAW和NAAAAC。参见例如US 20140273233、WO 2013176772、Cong等人,(2012),Science 339(6121):819-823、Jinek等人,(2012),Science 337(6096):816-821、Mali等人,(2013),Science 339(6121):823-826、Gasiunas等,(2012),Proc NatlAcad Sci U S A.109(39):E2579-E2586、Cho等,(2013)Nature Biotechnology 31,230-232、Hou等,Proc Natl Acad Sci U S A.2013Sep 24；110(39)：15644-9,Mojica等,Microbiology.2009Mar；155(Pt 3):733-40和www.addgene.org/CRISPR/。这些文献的内容通过引用整体并入本文。

靶核酸链可以是宿主细胞中基因组DNA上的两条链中的任一条。这样的基因组dsDNA的实例包括但不一定限于宿主细胞染色体、线粒体DNA和稳定维持的质粒。然而，可以理解的是，本方法可以对存在于宿主细胞中的其他dsDNA实施，例如非稳定的质粒DNA、病毒DNA和噬菌粒DNA，只要存在Cas靶向位点而不管宿主细胞dsDNA的性质。本方法也可以对RNA实施。

CRISPR基序

除了上述指导序列之外，本发明的RNA支架还包括额外的活性或非活性亚组分。在一个实例中，支架具有具有tracrRNA活性的CRISPR基序。例如，支架可以是杂合RNA分子，其中上述可编程指导RNA与tracrRNA融合以模拟天然crRNA：tracrRNA双链体。示例性的杂合crRNA：tracRNA，sgRNA序列显示如下：5'-(20nt指导)-GUUUAAGAGCUAUGCUGGAAACAGCAUAGCAAGUUUAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUUU-3'(SEQ IDNO：4；Chen等，Cell2013Dec 19；155(7):1479-91)。本领域已知各种tracrRNA序列，并且实例包括以下tracrRNA及其活性部分。如本文所用，tracrRNA的活性部分保留与Cas蛋白(例如Cas9或dCas9)形成复合物的能力。参见例如WO2014144592。产生crRNA-tracrRNA杂合RNA的方法是本领域已知的。参见例如WO2014099750、US 20140179006和US 20140273226。这些文献的内容通过引用整体并入本文。

GGAACCAUUCAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQ ID NO：5)；

UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQ IDNO：6)；

AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQID NO：7)；

CAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQ ID NO：8)；

UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUG(SEQ ID NO：9)；

UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCA(SEQ ID NO：10)；和UAGCAAGUUAAAAUAAGGCUAGUCCG(SEQ ID NO：11)。

在一些实施方案中，tracrRNA活性和指导序列是两个独立的RNA分子，它们一起形成指导RNA和相关支架。在这种情况下，具有tracrRNA活性的分子应该能够与具有指导序列的分子相互作用(通常通过碱基配对)。

募集RNA基序

RNA支架的第三个亚组分是募集RNA基序，其连接校正模块和序列识别模块。这个连接对于本文公开的平台是至关重要的。

将效应子/DNA编辑酶募集到靶序列的一种方法是通过效应子蛋白与dCas9的直接融合。效应子酶(“校正模块”)与序列识别所需蛋白(如dCas9)的直接融合已经在序列特异性转录活化或抑制方面取得了成功，但蛋白-蛋白融合设计可能会造成空间位阻，其对于需要为其活性形成多聚体复合物的酶而言不是理想的。事实上，大多数核苷酸编辑酶(如AID或APOBEC3G)的DNA编辑催化活性都需要形成二聚体、四聚体或更高级的寡聚体。与dCas9直接融合(其以确定的构象锚定到DNA上)将阻碍在正确位置形成功能性寡聚酶复合物。

相比之下，本文公开的平台基于RNA支架介导的效应子蛋白募集。更具体地，该平台利用各种RNA基序/RNA结合蛋白结合对的优势。为此目的，设计RNA支架以使与RNA结合蛋白(例如MS2外壳蛋白，MCP)特异性结合的RNA基序(例如，MS2操纵子基序)连接至gRNA-CRISPR支架(图1.B)。

结果，本文公开的平台的这种RNA支架组分是设计的RNA分子，其不仅包含用于特异性DNA/RNA序列识别的gRNA基序、用于dCas9结合的CRISPR RNA基序，而且含有用于效应子募集的募集RNA基序(图1B)。通过这种方式，募集的效应子蛋白融合体可以通过其与募集RNA基序结合的能力而募集到靶位点。由于RNA支架介导的募集的灵活性，功能单体以及二聚体、四聚体或寡聚体可以相对容易在靶DNA或RNA序列附近形成。图1B-E中示出了示例构象。这些RNA募集基序/结合蛋白对可以衍生自天然存在的来源(例如RNA噬菌体或酵母端粒酶)，或可以是人工设计的(例如，RNA适体及其相应的结合蛋白配体)。表2总结了可以在CasRcure系统中使用的募集RNA基序/RNA结合蛋白对的非穷尽列表。

表2.能够用于本发明的募集RNA基序以及它们配对的RNA结合蛋白/蛋白结构域的实例。

^*募集的蛋白融合至效应子蛋白，例如参见表3。

以下列出了上述结合对的序列。

1.端粒酶Ku结合基序/Ku异二聚体

a.Ku结合发夹

5'-TTCTTGTCGTACTTATAGATCGCTACGTTATTTCAATTTTGAAAATCTGAGTCCTGGGAGTGCGGA-3'(SEQ ID NO：12)

b.Ku异二聚体

MSGWESYYKTEGDEEAEEEQEENLEASGDYKYSGRDSLIFLVDASKAMFESQSEDELTPFDMSIQCIQSVYISKIISSDRDLLAVVFYGTEKDKNSVNFKNIYVLQELDNPGAKRILELDQFKGQQGQKRFQDMMGHGSDYSLSEVLWVCANLFSDVQFKMSHKRIMLFTNEDNPHGNDSAKASRARTKAGDLRDTGIFLDLMHLKKPGGFDISLFYRDIISIAEDEDLRVHFEESSKLEDLLRKVRAKETRKRALSRLKLKLNKDIVISVGIYNLVQKALKPPPIKLYRETNEPVKTKTRTFNTSTGGLLLPSDTKRSQIYGSRQIILEKEETEELKRFDDPGLMLMGFKPLVLLKKHHYLRPSLFVYPEESLVIGSSTLFSALLIKCLEKEVAALCRYTPRRNIPPYFVALVPQEEELDDQKIQVTPPGFQLVFLPFADDKRKMPFTEKIMATPEQVGKMKAIVEKLRFTYRSDSFENPVLQQHFRNLEALALDLMEPEQAVDLTLPKVEAMNKRLGSLVDEFKELVYPPDYNPEGKVTKRKHDNEGSGSKRPKVEYSEEELKTHISKGTLGKFTVPMLKEACRAYGLKSGLKKQELLEALTKHFQD>(SEQ ID NO：13)

MVRSGNKAAVVLCMDVGFTMSNSIPGIESPFEQAKKVITMFVQRQVFAENKDEIALVLFGTDGTDNPLSGGDQYQNITVHRHLMLPDFDLLEDIESKIQPGSQQADFLDALIVSMDVIQHETIGKKFEKRHIEIFTDLSSRFSKSQLDIIIHSLKKCDISERHSIHWPCRLTIGSNLSIRIAAYKSILQERVKKTWTVVDAKTLKKEDIQKETVYCLNDDDETEVLKEDIIQGFRYGSDIVPFSKVDEEQMKYKSEGKCFSVLGFCKSSQVQRRFFMGNQVLKVFAARDDEAAAVALSSLIHALDDLDMVAIVRYAYDKRANPQVGVAFPHIKHNYECLVYVQLPFMEDLRQYMFSSLKNSKKYAPTEAQLNAVDALIDSMSLAKKDEKTDTLEDLFPTTKIPNPRFQRLFQCLLHRALHPREPLPPIQQHIWNMLNPPAEVTTKSQIPLSKIKTLFPLIEAKKKDQVTAQEIFQDNHEDGPTAK(SEQ ID NO：14)

2.端粒酶Sm7结合基序/Sm7同七聚体

a.Sm共有位点(单链)

5’-AATTTTTGGA-3’(SEQ ID NO：15)

b.单体Sm样蛋白(古细菌)

GSVIDVSSQRVNVQRPLDALGNSLNSPVIIKLKGDREFRGVLKSFDLHMNLVLNDAEELEDGEVTRRLGTVLIRGDNIVYISP(SEQ ID NO：16)

3.MS2噬菌体操纵子茎环/MS2外壳蛋白

a.MS2噬菌体操纵子茎环

5’-GCGCACATGAGGATCACCCATGTGC-3’(SEQ ID NO：17)

b.MS2外壳蛋白

MASNFTQFVLVDNGGTGDVTVAPSNFANGIAEWISSNSRSQAYKVTCSVRQSSAQNRKYTIKVEVPKGAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSGIY(SEQ ID NO：18)

4.PP7噬菌体操纵子茎环/PP7外壳蛋白

a.PP7噬菌体操纵子茎环

5'-aTAAGGAGTTTATATGGAAACCCTTA-3'(SEQ ID NO：19)

b.PP7外壳蛋白(PCP)

MSKTIVLSVGEATRTLTEIQSTADRQIFEEKVGPLVGRLRLTASLRQNGAKTAYRVNLKLDQADVVDCSTSVCGELPKVRYTQVWSHDVTIVANSTEASRKSLYDLTKSLVATSQVEDLVVNLVPLGR.(SEQ ID NO：20)

5.SfMu Com茎环/SfMu Com结合蛋白

a.SfMu Com茎环

5'-CTGAATGCCTGCGAGCATC-3'(SEQ ID NO：21)

b.SfMu Com结合蛋白

MKSIRCKNCNKLLFKADSFDHIEIRCPRCKRHIIMLNACEHPTEKHCGKREKITHSDETVRY(SEQ IDNO：22)

RNA支架可以是单个RNA分子，或者是多个RNA分子的复合物。例如，指导RNA、CRISPR基序和募集RNA基序可以是一个长的单个RNA分子的三个区段。或者，它们中的一个、两个或三个可以在独立的分子上。在后一种情况下，三种组分可以通过共价或非共价连接或结合(包括例如Watson-Crick碱基配对)连接在一起形成支架。

在一个实例中，RNA支架可包含两个单独的RNA分子。第一RNA分子可包含可编程的指导RNA和能够与互补区形成茎双链体结构的区域。除了CRISPR基序和募集DNA基序之外，第二RNA分子还可以包含互补区。通过这种茎双链体结构，第一和第二RNA分子形成本发明的RNA支架。在一个实施方案中，第一和第二RNA分子各自均包含与其他序列碱基配对的(约6至约20个核苷酸的)序列。同样，CRISPR基序和募集DNA基序也可以在不同的RNA分子上并且与另一个茎双链体结构在一起。

本发明的RNA和相关支架可通过本领域已知的各种方法(包括基于细胞的表达、体外转录和化学合成)制备。使用TC-RNA化学(参见例如美国专利8,202,983)化学合成相对长的RNA(长达200mer或更多)的能力能够产生具有胜过四个基本核糖核苷酸(A、C、G和U)所能够具有的性质的特殊特征的RNA。

可以使用本领域已知的宿主细胞系统或体外翻译-转录系统，用重组技术制备Cas蛋白-指导RNA支架复合物。这些系统和技术的细节可以在例如WO2014144761、WO2014144592、WO2013176772、US20140273226和US20140273233中找到，其内容通过引用整体并入本文。复合物可以从细胞的细胞物质或产生它们的体外翻译-转录系统中分离或纯化(至少至某种程度)。

RNA支架可包括一种或多种修饰。此类修饰可包括包含至少一种非天然存在的核苷酸，或经修饰的核苷酸或其类似物。修饰的核苷酸可以在核糖、磷酸和/或碱基部分被修饰。修饰的核苷酸可以包括2'-O-甲基类似物、2'-脱氧类似物或2'-氟代类似物。核酸主链可以被修饰，例如，可以使用硫代磷酸酯主链。锁核酸(LNA)或桥接核酸(BNA)的使用也可能是可以的。修饰的碱基的其他实例包括但不限于2-氨基嘌呤、5-溴-尿苷、假尿苷、肌苷、7-甲基鸟苷。这些修饰可能应用于CRISPR系统的任何组分。在优选的实施方案中，对RNA成分(例如指导RNA序列)进行这些修饰。

c.效应子：非核酸酶DNA修饰酶

本发明中公开的平台的第三个组分是非核酸酶效应子。效应子不是核酸酶，并且不具有任何核酸酶活性，但可以具有其他类型的DNA修饰酶的活性。酶活性的实例包括但不限于脱氨基活性、甲基转移酶活性、去甲基酶活性、DNA修复活性、DNA损伤活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光解酶活性或糖基化酶活性。在一些实施方案中，效应子具有胞嘧啶脱氨酶(例如AID，APOBEC3G)、腺苷脱氨酶(例如ADA)、DNA甲基转移酶和DNA脱甲基酶的活性。

在优选的实施方案中，该第三组分是具有RNA结合结构域和效应子结构域的缀合物或融合蛋白。这两个结构域可以通过接头连接。

RNA结合结构域

尽管本发明可以使用各种RNA结合结构域，但不应使用Cas蛋白(例如Cas9)或其变体(例如dCas9)的RNA结合结构域。如上所述，与dCas9直接融合(其以确定的构象锚定于DNA)将阻碍在正确位置形成功能性寡聚酶复合物。相反，本发明利用了各种其他RNA基序-RNA结合蛋白结合对。实例包括表2中列出的那些实例。

通过这种方式，可以通过RNA结合结构域与募集RNA基序结合的能力将效应子蛋白募集到靶位点。由于RNA支架介导的募集的灵活性，功能单体以及二聚体、四聚体或寡聚体可相对容易地在靶DNA或RNA序列附近形成。

效应子结构域

效应子组分包含活性部分，即效应子结构域。在一些实施方案中，效应子结构域包含非核酸酶蛋白(例如脱氨酶)的天然存在的活性部分。在其他实施方案中，效应子结构域包含非核酸酶蛋白的天然存在的活性部分的修饰的氨基酸序列(例如，置换、缺失、插入)。效应子结构域具有酶活性。该活性的实例包括脱氨基活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光解酶活性、糖基化酶活性、DNA甲基化、组蛋白乙酰化活性，或组蛋白甲基化活性。非核酸酶蛋白(例如脱氨基酶)的一些修饰可以帮助减少脱靶效应。例如，如下所述，可以通过将AID中的Ser38突变为Ala(SEQ ID NO：51)来减少AID向脱靶位点的募集。

接头

上述两个结构域以及本文所公开的其他结构域可以通过接头，例如但不限于化学修饰、肽接头、化学接头、共价或非共价键或蛋白质融合、或通过本领域技术人员已知的任何方式连接。连接可以是永久的或可逆的。参见例如美国专利号4625014、5057301和5514363，美国申请号20150182596和20100063258以及WO2012142515，其内容通过引用整体并入本文。在一些实施方案中，可以包括几种接头以利用缀合物中每个接头和每个蛋白结构域的期望性质。例如，柔性接头和增加缀合物溶解度的接头可以考虑单独使用或与其它接头一起使用。肽接头可以通过表达编码接头的DNA和缀合物中的一个或多个蛋白质结构域来连接。接头可以是酸可切割、可光裂合和热敏接头。缀合方法是本领域技术人员众所周知的，并且包括用于本发明。

在一些实施方案中，RNA结合结构域和效应子结构域可以通过肽接头连接。可以通过表达框内编码两个结构域和接头的核酸来连接肽接头。任选地，可以在结构域的氨基末端和羧基末端之一或两者处连接接头肽。在一些实例中，接头是如美国专利号6,165,476、5,856,456、美国申请号20150182596和2010/0063258以及国际申请WO2012/142515中公开的免疫球蛋白铰链区接头，其每一篇通过引用整体并入本文。

其他结构域

效应子融合蛋白可包含其他结构域。在某些实施方案中，效应子融合蛋白可以包含至少一种核定位信号(NLS)。通常，NLS包含一段碱性氨基酸。核定位信号是本领域已知的(参见例如Lange等，J.Biol.Chem.,2007,282:5101-5105)。NLS可位于融合蛋白的N末端、C末端或内部位置中。

在一些实施方案中，融合蛋白可包含至少一个细胞穿透结构域以促进将蛋白递送到靶细胞中。在一个实施方案中，细胞穿透结构域可以是细胞穿透肽序列。本领域已知各种细胞穿透肽序列，实例包括HIV-1TAT蛋白、人HBV的TLM、Pep-1、VP22和聚精氨酸肽序列。

在其他实施方案中，融合蛋白可以包含至少一个标志物结构域。标志物结构域的非限制性实例包括荧光蛋白、纯化标签和表位标签。在一些实施方案中，标志物结构域可以是荧光蛋白。在其他实施方案中，标志物结构域可以是纯化标签和/或表位标签。参见例如US 20140273233。

在一个实施方案中，使用AID作为实例来说明系统如何工作。AID是一种胞苷脱氨酶，其能够催化DNA或RNA情况下胞嘧啶脱氨反应。当被带到靶位点时，AID将C碱基改为U碱基。在分裂细胞中，这可能导致C到T点突变。或者，C到U的变化可以触发细胞DNA修复途径，主要是剪切修复途径，其将去除错配的U-G碱基对，并替换为T-A、A-T、C-G或G-C对。结果，将在靶C-G位点产生点突变。由于剪切修复途径存在于大多数(如果不是全部的话)体细胞中，因此募集AID至靶位点可以将C-G碱基对校正为其他碱基对。在这种情况下，如果C-G碱基对是体细胞组织/细胞中引起潜在疾病的遗传突变，则上述方法能够用于校正突变并由此治疗疾病。

同样，如果引起潜在疾病的遗传突变是特定位点上的A-T碱基对，则能够使用相同方法将腺苷脱氨酶募集至特定位点，其中腺苷脱氨酶能够将A-T碱基对校正为其他碱基对。预计其他效应子酶会产生其他类型的碱基配对变化。表3中详细列出了DNA/RNA修饰酶实例的非穷尽列表。

表3.能够用于本发明的效应子蛋白的实例

上述三个具体组分构成了该技术平台。可以从表1-3中的列表中分别选择每种组分以实现特定的治疗/效用目标。

在一个实例中，使用(i)来自化脓性链球菌的dCas9作为序列靶向蛋白，(ii)含有指导RNA序列、CRISPR RNA基序和MS2操纵子基序的RNA支架，和(iii)含有与MS2操纵子结合蛋白MCP融合的人AID的效应子融合体，来构建CasRcure系统。下面列出了这些组分的序列

化脓性链球菌dCas9蛋白序列(SEQ ID NO.1)

MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

(加下划线的残基：D10A、H840A活性位点突变体)

Cas9 D10A蛋白(加下划线的残基：D10A，SEQ ID NO：52)

DNA编码Cas9 D10A蛋白(SEQ ID NO：53)

GATAAAAAGTATTCTATTGGTTTAGCCATCGGCACTAATTCCGTTGGATGGGCTGTCATAACCGATGAATACAAAGTACCTTCAAAGAAATTTAAGGTGTTGGGGAACACAGACCGTCATTCGATTAAAAAGAATCTTATCGGTGCCCTCCTATTCGATAGTGGCGAAACGGCAGAGGCGACTCGCCTGAAACGAACCGCTCGGAGAAGGTATACACGTCGCAAGAACCGAATATGTTACTTACAAGAAATTTTTAGCAATGAGATGGCCAAAGTTGACGATTCTTTCTTTCACCGTTTGGAAGAGTCCTTCCTTGTCGAAGAGGACAAGAAACATGAACGGCACCCCATCTTTGGAAACATAGTAGATGAGGTGGCATATCATGAAAAGTACCCAACGATTTATCACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCGGACCTGAGGTTAATCTACTTGGCTCTTGCCCATATGATAAAGTTCCGTGGGCACTTTCTCATTGAGGGTGATCTAAATCCGGACAACTCGGATGTCGACAAACTGTTCATCCAGTTAGTACAAACCTATAATCAGTTGTTTGAAGAGAACCCTATAAATGCAAGTGGCGTGGATGCGAAGGCTATTCTTAGCGCCCGCCTCTCTAAATCCCGACGGCTAGAAAACCTGATCGCACAATTACCCGGAGAGAAGAAAAATGGGTTGTTCGGTAACCTTATAGCGCTCTCACTAGGCCTGACACCAAATTTTAAGTCGAACTTCGACTTAGCTGAAGATGCCAAATTGCAGCTTAGTAAGGACACGTACGATGACGATCTCGACAATCTACTGGCACAAATTGGAGATCAGTATGCGGACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCAATCCTCCTATCTGACATACTGAGAGTTAATACTGAGATTACCAAGGCGCCGTTATCCGCTTCAATGATCAAAAGGTACGATGAACATCACCAAGACTTGACACTTCTCAAGGCCCTAGTCCGTCAGCAACTGCCTGAGAAATATAAGGAAATATTCTTTGATCAGTCGAAAAACGGGTACGCAGGTTATATTGACGGCGGAGCGAGTCAAGAGGAATTCTACAAGTTTATCAAACCCATATTAGAGAAGATGGATGGGACGGAAGAGTTGCTTGTAAAACTCAATCGCGAAGATCTACTGCGAAAGCAGCGGACTTTCGACAACGGTAGCATTCCACATCAAATCCACTTAGGCGAATTGCATGCTATACTTAGAAGGCAGGAGGATTTTTATCCGTTCCTCAAAGACAATCGTGAAAAGATTGAGAAAATCCTAACCTTTCGCATACCTTACTATGTGGGACCCCTGGCCCGAGGGAACTCTCGGTTCGCATGGATGACAAGAAAGTCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCGATAAAGGTGCGTCAGCTCAATCGTTCATCGAGAGGATGACCAACTTTGACAAGAATTTACCGAACGAAAAAGTATTGCCTAAGCACAGTTTACTTTACGAGTATTTCACAGTGTACAATGAACTCACGAAAGTTAAGTATGTCACTGAGGGCATGCGTAAACCCGCCTTTCTAAGCGGAGAACAGAAGAAAGCAATAGTAGATCTGTTATTCAAGACCAACCGCAAAGTGACAGTTAAGCAATTGAAAGAGGACTACTTTAAGAAAATTGAATGCTTCGATTCTGTCGAGATCTCCGGGGTAGAAGATCGATTTAATGCGTCACTTGGTACGTATCATGACCTCCTAAAGATAATTAAAGATAAGGACTTCCTGGATAACGAAGAGAATGAAGATATCTTAGAAGATATAGTGTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTGAGGAAAGACTAAAAACATACGCTCACCTGTTCGACGATAAGGTTATGAAACAGTTAAAGAGGCGTCGCTATACGGGCTGGGGACGATTGTCGCGGAAACTTATCAACGGGATAAGAGACAAGCAAAGTGGTAAAACTATTCTCGATTTTCTAAAGAGCGACGGCTTCGCCAATAGGAACTTTATGCAGCTGATCCATGATGACTCTTTAACCTTCAAAGAGGATATACAAAAGGCACAGGTTTCCGGACAAGGGGACTCATTGCACGAACATATTGCGAATCTTGCTGGTTCGCCAGCCATCAAAAAGGGCATACTCCAGACAGTCAAAGTAGTGGATGAGCTAGTTAAGGTCATGGGACGTCACAAACCGGAAAACATTGTAATCGAGATGGCACGCGAAAATCAAACGACTCAGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGAGAATAGAAGAGGGTATTAAAGAACTGGGCAGCCAGATCTTAAAGGAGCATCCTGTGGAAAATACCCAATTGCAGAACGAGAAACTTTACCTCTATTACCTACAAAATGGAAGGGACATGTATGTTGATCAGGAACTGGACATAAACCGTTTATCTGATTACGACGTCGATCACATTGTACCCCAATCCTTTTTGAAGGACGATTCAATCGACAATAAAGTGCTTACACGCTCGGATAAGAACCGAGGGAAAAGTGACAATGTTCCAAGCGAGGAAGTCGTAAAGAAAATGAAGAACTATTGGCGGCAGCTCCTAAATGCGAAACTGATAACGCAAAGAAAGTTCGATAACTTAACTAAAGCTGAGAGGGGTGGCTTGTCTGAACTTGACAAGGCCGGATTTATTAAACGTCAGCTCGTGGAAACCCGCCAAATCACAAAGCATGTTGCACAGATACTAGATTCCCGAATGAATACGAAATACGACGAGAACGATAAGCTGATTCGGGAAGTCAAAGTAATCACTTTAAAGTCAAAATTGGTGTCGGACTTCAGAAAGGATTTTCAATTCTATAAAGTTAGGGAGATAAATAACTACCACCATGCGCACGACGCTTATCTTAATGCCGTCGTAGGGACCGCACTCATTAAGAAATACCCGAAGCTAGAAAGTGAGTTTGTGTATGGTGATTACAAAGTTTATGACGTCCGTAAGATGATCGCGAAAAGCGAACAGGAGATAGGCAAGGCTACAGCCAAATACTTCTTTTATTCTAACATTATGAATTTCTTTAAGACGGAAATCACTCTGGCAAACGGAGAGATACGCAAACGACCTTTAATTGAAACCAATGGGGAGACAGGTGAAATCGTATGGGATAAGGGCCGGGACTTCGCGACGGTGAGAAAAGTTTTGTCCATGCCCCAAGTCAACATAGTAAAGAAAACTGAGGTGCAGACCGGAGGGTTTTCAAAGGAATCGATTCTTCCAAAAAGGAATAGTGATAAGCTCATCGCTCGTAAAAAGGACTGGGACCCGAAAAAGTACGGTGGCTTCGATAGCCCTACAGTTGCCTATTCTGTCCTAGTAGTGGCAAAAGTTGAGAAGGGAAAATCCAAGAAACTGAAGTCAGTCAAAGAATTATTGGGGATAACGATTATGGAGCGCTCGTCTTTTGAAAAGAACCCCATCGACTTCCTTGAGGCGAAAGGTTACAAGGAAGTAAAAAAGGATCTCATAATTAAACTACCAAAGTATAGTCTGTTTGAGTTAGAAAATGGCCGAAAACGGATGTTGGCTAGCGCCGGAGAGCTTCAAAAGGGGAACGAACTCGCACTACCGTCTAAATACGTGAATTTCCTGTATTTAGCGTCCCATTACGAGAAGTTGAAAGGTTCACCTGAAGATAACGAACAGAAGCAACTTTTTGTTGAGCAGCACAAACATTATCTCGACGAAATCATAGAGCAAATTTCGGAATTCAGTAAGAGAGTCATCCTAGCTGATGCCAATCTGGACAAAGTATTAAGCGCATACAACAAGCACAGGGATAAACCCATACGTGAGCAGGCGGAAAATATTATCCATTTGTTTACTCTTACCAACCTCGGCGCTCCAGCCGCATTCAAGTATTTTGACACAACGATAGATCGCAAACGATACACTTCTACCAAGGAGGTGCTAGACGCGACACTGATTCACCAATCCATCACGGGATTATATGAAACTCGGATAGATTTGTCACAGCTTGGGGGTGAC

RNA支架表达盒(化脓性链球菌)，含有20-核苷酸可编程序列、CRISPR RNA基序和MS2操纵子基序(SEQ ID No.2)：

(N_20:可编程序列；加下划线：CRISPR RNA基序；粗体：MS2基序；斜体：终止子)

上述RNA支架含有一个MS2环(1xMS2)。下面显示含有2个MS2环(2xMS2)的RNA支架，其中加下划线的是MS2支架：

效应子AID-MCP融合体(SEQ ID NO.3)：

(NH₂)-AID---(COOH)

像上述的Cas蛋白一样，非核酸酶效应子也可以作为重组多肽获得。制备重组多肽的技术是本领域已知的。参见例如Creighton，“Proteins:Structures and MolecularPrinciples,”W.H.Freeman&Co.,NY,1983)；Ausubel等,Current Protocols in MolecularBiology,John Wiley&Sons,2003；和Sambrook等,Molecular Cloning,A LaboratoryManual,“Cold Spring Harbor Press,Cold Spring Harbor,NY,2001)。

如本文所述，通过将AID中的Ser38突变为Ala，可以减少AID募集至脱靶位点。下面列出了野生型AID和AID_S38A(磷酸化无，pnAID)的DNA和蛋白质序列：

wtAID cDNA(粗体和下划线表示Ser38密码子，SEQ ID NO：48)：

wtAID蛋白(粗体和下划线表示Ser38密码子，SEQ ID NO：49)：

AID_S38A cDNA(粗体和下划线表示S38A突变，SEQ ID NO：50)

AID_S38A蛋白(粗体和下划线表示S38A突变，SEQ ID NO：51)

可以使用一种到三种表达载体来表达本文公开的平台/系统的上述三种组分。该系统可以被编程为实际上靶向任何DNA或RNA序列。

表达系统

为了使用上述平台，可能需要从编码它们的核酸中表达一种或更多种蛋白和RNA组分。这可以以各种方式进行。例如，编码RNA支架或蛋白的核酸可被克隆到一个或多个中间载体中，用于引入原核或真核细胞中进行复制和/或转录。中间载体通常是用于储存或操作编码RNA支架或蛋白的核酸以产生RNA支架或蛋白的原核载体，例如质粒或穿梭载体或昆虫载体。也可以将核酸克隆到一个或多个表达载体中，用于施用于植物细胞，动物细胞，优选哺乳动物细胞或人细胞，真菌细胞，细菌细胞或原生动物细胞。因此，本发明提供了编码任何上述RNA支架或蛋白的核酸。优选地，所述核酸经分离和/或纯化。

本发明还提供了具有编码上述RNA支架或蛋白中的一个或多个的序列的重组构建体或载体。构建体的实例包括已经以正向或反向方向插入了本发明的核酸序列的载体如质粒或病毒载体。在优选的实施方案中，构建体还包括与该序列有效连接的调控序列，包括启动子。大量合适的载体和启动子是本领域技术人员已知的，并且是可商购获得的。用于原核和真核宿主使用的合适克隆和表达载体也描述于例如Sambrook等人.(2001,MolecularCloning:A Laboratory Manual,Cold Spring Harbor Press)中。

载体是指能够运输已经与其连接的另一核酸的核酸分子。载体能够自主复制或整合到宿主DNA中。载体的实例包括质粒、粘粒或病毒载体。本发明的载体包括适于在宿主细胞中表达核酸的形式的核酸。优选地，载体包括与待表达的核酸序列有效连接的一个或多个调控序列。“调控序列”包括启动子、增强子和其他表达控制元件(例如多腺苷酸化信号)。调控序列包括指导核苷酸序列组成型表达的调控序列，以及诱导型调控序列。表达载体的设计可取决于诸如待转化、转染或感染的宿主细胞的选择，期望的RNA或蛋白的表达水平等因素。

表达载体的实例包括染色体，非染色体和合成DNA序列，细菌质粒，噬菌体DNA，杆状病毒，酵母质粒，由质粒和噬菌体DNA组合衍生得到的载体，病毒DNA如牛痘、腺病毒、禽痘病毒和伪狂犬病。但是，可以使用任何其他载体，只要其在宿主中是可复制且能存活的。可以通过各种方法将合适的核酸序列插入载体中。通常，可以通过本领域已知的方法将编码上述RNA或蛋白之一的核酸序列插入合适的限制性内切核酸酶位点内。这样的方法和相关的亚克隆方法在本领域技术人员的范围内。

载体可以包括用于扩增表达的合适序列。此外，表达载体优选含有一个或多个选择性标志物基因以提供用于选择转化的宿主细胞的表型性状，例如用于真核细胞培养物的二氢叶酸还原酶或新霉素抗性，或例如在大肠杆菌中的四环素或氨苄青霉素抗性。

用于表达RNA的载体可包括RNA Pol III启动子例如HI、U6或7SK启动子，以驱动RNA的表达。这些人启动子允许质粒转染后在哺乳动物细胞中表达RNA。或者，可以使用T7启动子，例如用于体外转录，并且可以在体外转录并纯化RNA。

含有如上所述的合适核酸序列以及合适的启动子或控制序列的载体可用于转化、转染或感染合适的宿主以使宿主表达上述的RNA或蛋白。合适的表达宿主的实例包括细菌细胞(例如大肠杆菌(E.coli)、链霉菌(Streptomyces)、鼠伤寒沙门氏菌(Salmonellatyphimurium))、真菌细胞(酵母)、昆虫细胞(例如果蝇(Drosophila)和草地贪夜蛾(Spodoptera frugiperda)(Sf9))，动物细胞(例如CHO、COS和HEK 293)、腺病毒和植物细胞。选择合适的宿主在本领域技术人员的范围内。在一些实施方案中，本发明提供了通过用具有编码所述RNA或多肽或蛋白之一的核苷酸序列的表达载体转化、转染或感染宿主细胞来产生上述RNA或蛋白的方法。然后在允许表达RNA或蛋白的合适条件下培养宿主细胞。

可以使用本领域已知的用于将外源核苷酸序列引入宿主细胞的任何方法。实例包括使用磷酸钙转染、聚凝胺、原生质体融合、电穿孔、核转染、脂质体、显微注射、裸DNA、质粒载体，病毒载体(游离型和整合型)以及将克隆的基因组DNA、cDNA、合成DNA或其他外来遗传物质引入宿主细胞中的任何其他众所周知的方法。

方法

本发明的另一方面包括修饰细胞、胚胎、人或非人动物中的靶DNA序列(例如染色体序列)或靶RNA序列的方法。该方法包含将上述(i)序列靶向蛋白或编码其的多核苷酸、(ii)RNA支架或编码其的DNA多核苷酸和(iii)非-核酸酶效应子融合蛋白或编码其的多核苷酸引入细胞或胚胎中。RNA支架将序列靶向蛋白和融合蛋白指导至靶位点处的靶多核苷酸，并且融合蛋白的效应子结构域修饰序列。如本文所公开的，对序列靶向蛋白(例如cas9蛋白)进行修饰，使得内切核酸酶活性被消除。

在某些实施方案中，效应子蛋白作为单体起作用。在这种情况下，如图1C所示，本发明的系统可以靶向靶位点的上游(左)或下游(右)的单个位点。在其他实施方案中，效应子蛋白需要二聚化以获得合适的催化功能。为此目的，可以将系统多重化以同时靶向至靶位点上游和下游的靶序列，因此使效应子蛋白二聚化(图1D，左)。或者，将效应子蛋白募集到单个位点可足以增加其对相邻效应子蛋白的亲和力，促进二聚化(图1D，右)。在又一些实施方案中，如图1E所示，四聚体效应子酶可以被募集并定位在靶位点。这可以通过双靶向(图1E，左)或单靶向(图1E，右)实现。本发明中公开的系统也可用于编辑RNA靶(例如逆转录病毒失活)。参见图1F。在该情况下，如果效应子蛋白需要装配功能性寡聚体，则如图1D和1E的右图所示，单靶向RNA分子可促进寡聚化。

靶多核苷酸不具有序列限制，除了该序列紧跟着PAM序列(下游或3')。PAM的实例包括但不限于NGG、NGGNG和NNAGAAW(其中N定义为任何核苷酸，W定义为A或T)。以上给出了PAM序列的其他实例，本领域技术人员将能够鉴定用于给定CRISPR蛋白的进一步的PAM序列。靶位点可以位于基因的编码区域、基因的内含子、基因间的控制区域等中。基因可以是蛋白编码基因或RNA编码基因。

靶多核苷酸可以是相对于细胞内源或外源的任何多核苷酸。例如，靶多核苷酸可以是存在于真核细胞核内的多核苷酸。靶多核苷酸可以是编码基因产物(例如蛋白)或非编码序列(例如，调控多核苷酸)的序列。

本发明的该系统的蛋白组分可以作为分离的蛋白引入细胞或胚胎中。在一个实施方案中，每种蛋白可以包含至少一个细胞穿透结构域，其促进蛋白的细胞摄取。在其他实施方案中，编码一种或多种蛋白的mRNA分子或DNA分子可被引入细胞或胚胎中。通常，编码蛋白的DNA序列有效连接到将在目的细胞或胚胎中起作用的启动子序列。DNA序列可以是线性的，或者DNA序列可以是载体的一部分。在其他实施方案中，可以将蛋白作为包含上述蛋白和RNA支架的RNA-蛋白复合物引入细胞或胚胎中。

在替代实施方案中，编码所述蛋白的DNA可以进一步包含编码RNA支架的组分的一个或多个序列。通常，编码所述蛋白和RNA支架的DNA序列有效连接到合适的启动子控制序列，所述启动子控制序列允许蛋白和RNA支架分别在细胞或胚胎中表达。编码所述蛋白和RNA支架的DNA序列可以进一步包含额外的表达控制、调控和/或加工序列。编码所述蛋白和指导RNA的DNA序列可以是线性的或可以是载体的一部分。

在通过编码RNA的DNA分子将RNA引入细胞的实施方案中，RNA编码序列可以有效连接至启动子控制序列以在真核细胞中表达指导RNA。例如，RNA编码序列可以有效连接到被RNA聚合酶III(Pol III)识别的启动子序列。合适的Pol III启动子的实例包括但不限于哺乳动物U6或H1启动子。在示例性实施方案中，RNA编码序列与小鼠或人U6启动子连接。在其他示例性实施方案中，RNA编码序列与小鼠或人H1启动子连接。

编码蛋白和/或RNA的DNA分子可以是线性的或环状的。在一些实施方案中，DNA序列可以是载体的一部分。合适的载体包括质粒载体、噬菌粒、粘粒、人工/微型染色体、转座子和病毒载体。在示例性实施方案中，编码所述蛋白和/或RNA的DNA存在于质粒载体中。合适的质粒载体的非限制性实例包括pUC、pBR322、pET、pBluescript及其变体。载体可以包含额外的表达控制序列(例如，增强子序列、Kozak序列、多腺苷酸化序列、转录终止序列等)、可选择的标志物序列(例如抗生素抗性基因)、复制起点等。

本发明的这个系统的蛋白组分(或编码它们的核酸)和RNA组分(或编码它们的DNA)可通过各种方法引入细胞或胚胎中。通常，胚胎是感兴趣物种的受精的单细胞阶段胚胎。在一些实施方案中，转染细胞或胚胎。合适的转染方法包括磷酸钙介导的转染、核转染(或电穿孔)、阳离子聚合物转染(例如，DEAE-葡聚糖或聚乙烯亚胺)、病毒转导、病毒体转染、病毒粒子转染、脂质体转染(liposome transfection)、阳离子脂质体转染、免疫脂质体转染、非脂质体脂质转染、树枝状大分子转染、热休克转染、磁转染、脂质转染(lipofection)、基因枪递送、基因交付(impalefection)、声致穿孔(sonoporation)、光学转染以及核酸的专有药剂增强的摄取。转染方法是本领域众所周知的(参见例如“CurrentProtocols in Molecular Biology”Ausubel等,John Wiley&Sons,New York,2003或“Molecular Cloning:A Laboratory Manual”Sambrook&Russell,Cold Spring HarborPress,Cold Spring Harbor,NY,第三版,2001)。在其他实施方案中，通过显微注射将分子引入细胞或胚胎中。例如，可以将分子注入一个细胞胚胎的原核中。

本发明的该系统的蛋白组分(或编码它们的核酸)和RNA组分(或编码它们的DNA)可以同时或顺序地引入细胞或胚胎中。所述蛋白(或其编码核酸)与RNA(或编码RNA的DNA)的比例通常将是近似化学计量的，使得它们可以形成RNA-蛋白质复合物。类似地，两种不同蛋白(或编码核酸)的比例将是近似化学计量的。在一个实施方案中，所述蛋白组分和RNA组分(或编码它们的DNA序列)在同一核酸或载体内一起递送。

该方法还包括维持细胞或胚胎在合适的条件下，使得指导RNA将效应子蛋白指导至靶序列中的靶向位点，并且效应子结构域修饰靶序列。

通常，可以维持细胞在适合于细胞生长和/或维持的条件下。合适的细胞培养条件在本领域是众所周知的，并且描述于例如"Current Protocols in Molecular Biology"Ausubel等,John Wiley&Sons,New York,2003或"Molecular Cloning:A LaboratoryManual"Sambrook&Russell,Cold Spring Harbor Press,Cold Spring Harbor,NY,第三版,2001)、Santiago等,(2008)PNAS 105:5809-5814；Moehle等,(2007)PNAS 104：3055-3060；Urnov等.(2005)Nature 435:646-651；和Lombardo等,(2007)Nat.Biotechnology25:1298-1306中。本领域技术人员知道本领域已知的用于培养细胞的方法，并且能够并且会根据细胞类型而变化。在所有情况下，可以使用常规优化来确定针对特定细胞类型的最佳技术。

可以在体外(例如在细胞培养物中)培养胚胎。通常，将胚胎在合适的温度和合适的培养基中以必要的O₂/CO₂比例培养以允许蛋白和RNA支架的表达(如果需要的话)。培养基的合适的非限制性实例包括M2、M16、KSOM、BMOC和HTF培养基。本领域技术人员将意识到，培养条件能够并且将根据胚胎的种类而变化。在所有情况下，可以使用常规优化来确定特定种类胚胎的最佳培养条件。在一些情况下，细胞系可以衍生自体外培养的胚胎(例如胚胎干细胞系)。

或者，可以通过将胚胎转移到雌性宿主的子宫中来在体内培养胚胎。一般来说，雌性寄主来自与胚胎相同或相似的物种。优选地，雌性宿主是假孕的。制备假孕雌性宿主的方法是本领域已知的。另外，将胚胎转移到雌性宿主中的方法是已知的。在体内培养胚胎允许胚胎发育并且能够导致衍生自胚胎的动物的活产。这种动物将在身体的每个细胞中包含修饰的染色体序列。

各种真核细胞适用于该方法。例如，细胞可以是人细胞、非人哺乳动物细胞、非哺乳动物脊椎动物细胞、无脊椎动物细胞、昆虫细胞、植物细胞、酵母细胞或单细胞真核生物。各种胚胎适用于该方法。例如，胚胎可以是1细胞、2细胞或4细胞的人或非人的哺乳动物胚胎。示例性的哺乳动物胚胎，包括1细胞胚胎，包括但不限于小鼠、大鼠、仓鼠、啮齿动物、兔、猫、犬、羊、猪、牛、马和灵长类动物胚胎。在其他实施方案中，细胞可以是干细胞。合适的干细胞包括但不限于胚胎干细胞、ES样干细胞、胎儿干细胞、成体干细胞、多能(pluripotent)干细胞、诱导多能(pluripotent)干细胞、多能(multipotent)干细胞、寡能(oligopotent)干细胞、单能(unipotent)干细胞和其他干细胞。在示例性实施方案中，细胞是哺乳动物细胞或胚胎是哺乳动物胚胎。

当涉及基于CRISPR的靶特异性核苷酸时，一个限制是靶核苷酸相对于最接近的原间隔区相邻基序(PAM)的位置。理想地，靶核苷酸应位于从原间隔区的5'端开始计数位置4至8之间，即远离PAM的位置。然而，在实践中，对于所有靶这可能无法实现(图8A)。为了解决该问题，本发明还提供了使用例如Cas9切口酶(nCas9)作为靶向模块的系统，其识别靶核苷酸周围的两个序列(由gRNA指导)(一个gRNA在靶位点上游，一个在靶位点下游)。以顺式(即同一DNA链上)引入两个彼此接近的切口。通过这种方式，一段ssDNA将被瞬时暴露，允许CRC效应子模块催化核苷酸转换，然后在链修复时固定引入的修饰(图8B)。

该方法极大地提高了转换效率。由于PAM的空间/位置要求，它使得可以靶向先前未能靶向的序列或非常难以靶向的序列。另外，该技术还具有以下附加益处：(1)设计两个gRNA以靶向CRC系统中的特定基因组区域，增加了靶向特异性并降低脱靶效应；(2)它允许向CRC系统灵活地添加功能模块，以协同增强转换效率，增加特异性并减少脱靶效应。

如下面的实施例4所示，应用该顺式双切口技术进行研究，以提高细菌基因转化模型中的转化效率(图9)。在实验上，设计nCas9(nCas9_D10A或nCas9_H840)以靶向相同DNA链上的两个相邻位置。用两条gRNA双切口相同的链不会诱导双链DNA断裂或激活DSB修复途径，因此这是一种安全的方法。该过程的示意图在图8中描述。为了测试该方法，使用gRNA TS-2和TS-3靶向编码RNA聚合酶β亚基(rpoB)的细菌基因(图9A)。这是一种负选择系统，其中可以使用抗生素利福平选择特定的rpoB突变体，因为突变体对该药物具有抗性(Rif^R)。原核细胞中的结果表明靶向效率可以提高多达100倍(图9B)。

通过利用CRC的模块化设计，本发明还提供了一种方法，其可以将两种效应子(相同或不同)募集至靶序列，协同增强基因转换。这些设计在图10中举例说明。例如，两种gRNA可以被工程化成具有相同的募集RNA基序(例如MS2支架)，与MCP蛋白融合的CRC效应子可以被募集至两个切口位点(图10A)。这允许向靶序列募集两个相同的效应子，增加效应子的局部浓度或促进效应子功能所需的二聚化或多聚化。

同样地，本发明还提供了一种方法，该方法可以通过分别选择具有或不具有募集RNA基序的gRNA从任何切口位点募集或排除CRC效应子(图9B和10B)。这允许募集一种效应子但暴露单链DNA，促进效应子功能。

在另一个实例中，本发明提供了将两种不同的功能效应子募集至相同靶序列中的方法。两种效应子协同作用以促进遗传转换。例如，为了进一步提高靶向效率，可以设计将脱氨基酶的CRC募集(例如，AID)至更接近靶核苷酸的切口位点，和募集局部DNA修复抑制剂至第二切口位点(例如，UNG抑制剂，UGI)。虽然AID促进例如在靶序列处C至T的转换，但UGI局部地抑制内源性修复途径。因此，这两种效应子在靶位点特异性地配合以提高转换效率。为了避免CRC募集位点和抑制剂募集位点之间的串扰，可以将正交募集RNA基序用于这些模块中的每一个(例如，MS2-MCP募集与MCP融合的CRC效应子AID和PP7-PCP募集与PCP融合的UGI)(图10C)。

在一些实施方案中，如果需要异二聚化以实现合适的效应子活性，也可以应用异募配置。异募配置也可以应用于需要至少两种组分以有效起作用的任何基因转换酶系统。表2总结了募集RNA支架及其RNA结合蛋白伴侣的非详尽列表。最后，如果顺式双切口存在PAM序列限制，则还可以根据在靶向位点附近可获得的PAM序列来设计来自化脓性链球菌(S.pyogenes)以外的物种的Cas9直系同源物(图10D)。表1总结了来自不同物种的Cas9直系同源物的非详尽列表。

用途和应用

本文公开的系统和方法具有多种用途，包括修饰和编辑(例如失活和激活)多种细胞类型中的靶多核苷酸。因此，这些系统和方法具有广泛的应用，例如用在研究和治疗中。

许多毁灭性的人类疾病具有一个共同的原因：遗传改变或突变。患者的致病突变要么通过父母遗传获得的，要么是由环境因素引起的。这些疾病包括但不限于以下类别。首先，一些遗传病况是由种系突变引起的。一个实例是囊性纤维化，其是由父母遗传的CFTR基因突变引起的。突变CFTR中的第二抑制突变可部分恢复体细胞组织中CFTR蛋白的功能。可以由我们的技术校正的由点遗传突变引起的其他示例性遗传疾病包括戈谢病(Gaucher'sdisease)、α胰蛋白酶缺乏症、镰状细胞性贫血，仅举几例。其次，一些疾病(如慢性病毒感染性疾病)是由外部环境因素引起的并导致遗传改变。一个实例是AIDS，其是由人HIV病毒基因组插入感染的T细胞的基因组中引起的。第三，一些神经退行性疾病涉及遗传改变。一个实例是亨廷顿病(Huntington's diseases)，其是由受影响的患者的亨廷顿基因中CAG三核苷酸的扩增引起的。最后，癌症是由癌细胞中积累的各种体细胞突变引起的。因此，校正致病性遗传突变(或功能性校正序列)为治疗这些疾病提供了有吸引力的治疗机会。

体细胞遗传编辑是许多人疾病的有吸引力的治疗策略。为了实现成功的治疗性遗传编辑，三个关键因素被认为是至关重要的：(i)如何实现序列特异性识别(“序列识别模块”)；(ii)如何校正发生的突变(“校正模块”)；和(iii)如何将“校正模块”连接到“序列识别模块”以一起实现序列特异性校正。实现每个单个任务的方法有很多。然而，目前现有的平台或技术都不能实现最佳和实用的体细胞遗传编辑。更具体而言，目前的基因特异性编辑技术主要基于核酸酶诱导的DNA DSB和随后DSB诱导的同源重组，其在大多数体细胞中的活性低或不存在。因此，这些技术在大多数疾病的体细胞组织中的病理性遗传突变的治疗性校正中使用受限。

相反，本发明公开的系统和方法允许不依赖于核酸酶活性的基因或RNA转录物的DNA序列定向编辑。该系统和方法不产生DSB，或不依赖于DSB介导的同源重组。此外，该系统的这种设计是模块化的，其允许以极其灵活和方便的方式靶向任何期望的DNA或RNA序列。实质上，这种方法使人们能够将DNA或RNA编辑酶指导至体细胞(包括干细胞)中的任何DNA或RNA序列。通过精确编辑靶DNA或RNA序列，该酶能够校正遗传疾病中的突变基因，使感染细胞中的病毒基因组失活，消除神经退行性疾病中致病蛋白的表达，或沉默癌症中的致癌蛋白。因此，本发明公开的系统和方法可用于校正包括上述遗传病况、慢性感染性疾病、神经退行性疾病和癌症在内的疾病的潜在遗传改变。

遗传疾病

据估计，由已知的遗传突变引起的疾病超过六千种。校正病理组织/器官中发生的引起疾病的突变能够减轻或治愈疾病。例如，在美国，每3,000人中就有一人受到囊性纤维化影响。它是由突变的CFTR基因的遗传引起的，并且70％的患者具有相同的突变，导致在位置508处缺失苯丙氨酸的三核苷酸缺失(称为“ΔPhe 508”)。ΔPhe 508导致CFTR的错位和降解。本发明中公开的系统和方法能够用于在受影响的组织(肺)中将Val 509残基(GTT)转换成Phe 509(TTT)，从而功能上校正ΔPhe 508突变。此外，突变体ΔPhe 508CFTR中的第二抑制突变(例如R553Q或R553M或V510D)可部分恢复体细胞组织中CFTR蛋白的功能。

慢性传染病

本发明中公开的系统和方法也能够用于特异性失活并入人细胞/组织的病毒基因组中的任何基因。例如，本发明公开的系统和方法允许人们创建用于早期终止必需的病毒基因的翻译的终止密码子，从而补救或治愈慢性使人衰弱的感染性疾病。例如，目前的AIDS治疗可以减少病毒载量，但不能完全消除阳性T细胞中的休眠HIV。本文公开的系统和方法能够用于通过引入一个或两个终止密码子，永久性地失活人T细胞中整合的HIV基因组中一个或两个关键HIV基因的表达。另一个实例是乙型肝炎病毒(HBV)。本文公开的系统和方法能够用于特异性失活一个或两个关键的被整合到人基因组中的HBV基因并沉默HBV生命周期。

神经退行性疾病

一些神经退行性疾病是由功能获得突变引起的。例如，SOD1G93A导致肌萎缩侧索硬化症(ALS)的发展。本发明公开的系统和方法能够用于通过引入终止密码子或通过改变剪接位点来校正该突变或消除突变蛋白的表达。

癌症

许多基因(包括肿瘤抑制基因、致癌基因和DNA修复基因)有助于癌症的发展。这些基因中的突变常导致各种癌症。通过使用本发明中公开的系统和方法，能够特异性靶向和校正这些突变。因此，通过在催化位点或剪接位点引入点突变能够使致癌性致癌蛋白功能性消除或者能够消除其表达。

干细胞基因修饰

在一些实施方案中，能够使用本发明中公开的系统和方法遗传修饰干细胞或祖细胞。合适的细胞包括例如干细胞(成体干细胞、胚胎干细胞、iPS细胞等)和祖细胞(例如心脏祖细胞、神经祖细胞等)。合适的细胞包括哺乳动物干细胞和祖细胞，包括例如啮齿动物干细胞、啮齿动物祖细胞、人干细胞、人祖细胞等。合适的宿主细胞包括体外宿主细胞，例如分离的宿主细胞。

在一些实施方案中，本发明能够用于离体组织的靶向和精确遗传修饰，校正潜在的遗传缺陷。离体校正后，组织可以返回到患者。此外，该技术能够广泛用于基于细胞的疗法以校正遗传疾病。

动物和植物中的基因编辑

上述系统和方法能够用于产生具有一种或多种感兴趣的遗传修饰的转基因非人动物或植物。在一些实施方案中，转基因非人动物针对遗传修饰是纯合的。在一些实施方案中，转基因非人动物针对遗传修饰是杂合的。在一些实施方案中，转基因非人动物是脊椎动物，例如鱼(例如斑马鱼、金鱼、河豚、洞穴鱼等)，两栖动物(青蛙、蝾螈等)，禽类(例如鸡、火鸡等)，爬行动物(例如蛇、蜥蜴等)，哺乳动物(例如有蹄类动物，例如猪、牛、山羊、绵羊等)；兔类动物(例如兔子)；啮齿动物(例如大鼠、小鼠)；非人灵长类动物。

本发明能够用于治疗动物疾病，其方式类似于治疗人类疾病，如上所述。或者，它能够用于产生具有特定遗传突变的敲入动物疾病模型以用于研究、药物发现和靶验证。上述系统和方法还能够用于向各种生物的ES细胞或胚胎引入点突变，用于培育和改善动物种群和作物品质。

将外源核酸导入植物细胞的方法在本领域中是众所周知的。合适的方法包括病毒感染(例如双链DNA病毒)、转染、接合、原生质体融合、电穿孔、粒子枪技术、磷酸钙沉淀、直接显微注射、碳化硅晶须技术、农杆菌介导的转化等。方法的选择通常取决于被转化的细胞类型和发生转化的环境(即体外、离体或体内)。

试剂盒

本发明进一步提供了含有用于执行上述方法的试剂的试剂盒，包括CRISPR:Cas指导的靶结合或校正反应。为此，用于本文公开的方法的一种或多种反应组分例如RNA、Cas蛋白、融合效应子蛋白和相关核酸可以以试剂盒的形式供应以供使用。在一个实施方案中，试剂盒包含CRISPR蛋白或编码Cas蛋白的核酸、效应子蛋白，上述RNA支架中的一个或多个，上述一组RNA分子。在其他实施方案中，试剂盒可以包含一种或多种其他反应组分。在这样的试剂盒中，将适量的一种或多种反应组分提供在一个或多个容器中或保持在基底上。

试剂盒的附加组分的实例包括但不限于一种或多种宿主细胞，用于将外源核苷酸序列引入宿主细胞的一种或多种试剂，用于检测RNA或蛋白的表达或验证靶核酸状态的一种或多种试剂(例如探针或PCR引物)，以及用于反应的缓冲液或培养基(1X或浓缩形式)。试剂盒还可以包括一种或多种以下组分：支持物，终止、修饰或消化试剂，渗透剂和用于检测的装置。

所使用的反应组分可以以各种形式提供。例如，可以将组分(例如酶、RNA、探针和/或引物)悬浮在水溶液中或者作为冷冻干燥或冻干的粉末、沉淀或珠。在后一种情况下，组分在重构时形成组分的完全混合物，用于测定。本发明的试剂盒可以在任何合适的温度下提供。例如，为了将包含蛋白组分或其复合物的试剂盒储存在液体中，优选将它们提供并维持在0℃以下，优选在-20℃或以下，或者以其他方式处于冷冻状态。

试剂盒或系统可以含有(以足以用于至少一次测定的量)本文所述组分的任何组合。在一些应用中，一种或多种反应组分可以以预先测量的单次使用量提供在单独的、通常为一次性的管或等同的容器中。利用这样的配置，可以通过将靶核酸或含有靶核酸的样品或细胞直接添加到单独的管中，来进行RNA指导的反应。试剂盒中提供的组分的量可以是任何合适的量，并且可以取决于产品针对的目标市场。其中提供组分的容器可以是能够容纳所提供的形式的任何常规容器，例如微量离心管，微量滴定板，安瓿瓶，瓶子或整体测试装置，诸如流体装置、桶、横向流或其他类似的装置。

试剂盒还可以包括用于容纳容器或容器组合的包装材料。用于这样的试剂盒和系统的通常包装材料包括固体基质(例如，玻璃，塑料，纸，箔，微粒等)，其以各种配置中的任一种(例如小瓶，微量滴定板孔，微阵列等)容纳反应组分或检测探针。试剂盒可以进一步包括以有形形式记录的用于使用组分的说明书。

定义

核酸或多核苷酸是指DNA分子(例如但不限于cDNA或基因组DNA)或RNA分子(例如但不限于mRNA)，并且包括DNA或RNA类似物。DNA或RNA类似物可以由核苷酸类似物合成。DNA或RNA分子可以包括非天然存在的部分，例如修饰的碱基，修饰的主链，RNA中的脱氧核糖核苷酸等。核酸分子可以是单链或双链的。

当提及核酸分子或多肽时，术语“分离的”是指核酸分子或多肽基本上不含与其在自然界中与之有关或一起发现的至少一种其他组分。

如本文所用，术语“指导RNA”通常是指能够结合CRISPR蛋白并将CRISPR蛋白靶向靶DNA内的特定位置的RNA分子(或总体地一组RNA分子)。指导RNA可以包含两个区段：DNA靶向指导区段和蛋白结合区段。DNA靶向区段包含与靶序列互补(或至少可以在严谨条件下杂交)的核苷酸序列。蛋白结合区段与CRISPR蛋白如Cas9或Cas9相关多肽相互作用。这两个区段可以位于同一RNA分子中，或者位于两个或更多个独立的RNA分子中。当两个区段处于独立的RNA分子中时，包含DNA靶向指导区段的分子有时被称为CRISPR RNA(crRNA)，而包含蛋白结合区段的分子被称为反式激活RNA(tracrRNA)。

如本文所用，术语“靶核酸”或“靶”是指含有靶核酸序列的核酸。靶核酸可以是单链或双链的，通常是双链DNA。本文使用的“靶核酸序列”、“靶序列”或“靶区域”是指希望使用CRISPR系统结合或修饰的特定序列或其互补序列。靶序列可以在细胞基因组内的体外或体内核酸内，其可以是任何形式的单链或双链核酸。

“靶核酸链”是指与本文所公开的指导RNA进行碱基配对的靶核酸的链。也就是说，与crRNA和指导序列杂交的靶核酸的链被称为“靶核酸链”。不与指导序列互补的靶核酸的另一链被称为“非互补链”。在双链靶核酸(例如DNA)的情况下，每条链可以是设计crRNA和指导RNA的“靶核酸链”并用于实施本发明，只要有合适的PAM位点。

如本文所用，术语“衍生自”是指这样的过程，其中使用第一组分(例如第一分子)或来自该第一组分的信息来分离、衍生或制备不同的第二组分(例如与第一分子不同的第二分子)。例如，哺乳动物密码子优化的Cas9多核苷酸衍生自野生型Cas9蛋白氨基酸序列。而且，包括Cas9单突变切口酶(nCas9，如nCas9D10A)和Cas9双突变体无核酸酶(dCas9，如dCas9 D10A H840A)的哺乳动物密码子优化的Cas9多核苷酸变体衍生自编码野生型哺乳动物密码子优化的Cas9蛋白的多核苷酸。

如本文所用，术语“野生型”是本领域技术人员理解的技术术语，并且是指生物体、菌株、基因或特征的通常形式，其天然存在且不同于突变体或变体形式。

如本文所用，术语“变体”是指与第二组合物(例如第二分子，也称为“亲本”分子)有关的第一组合物(例如第一分子)。变体分子可以衍生自、分离自、基于或同源于亲本分子。例如，哺乳动物密码子优化的Cas9的突变形式(hspCas9)(包括Cas9单突变切口酶和Cas9双突变体无核酸酶)是哺乳动物密码子优化的野生型Cas9的变体(hspCas9)。术语变体可以用于描述多核苷酸或多肽。

应用于多核苷酸时，变体分子可以与原始亲本分子具有完全的核苷酸序列同一性，或者可以与亲本分子具有小于100％的核苷酸序列同一性。例如，基因核苷酸序列的变体可以是与原始的核苷酸序列相比，核苷酸序列至少50％、60％、70％、80％、90％、95％、98％、99％或更多同一的第二核苷酸序列。多核苷酸变体还包括包含完整亲本多核苷酸并且还包含额外的融合核苷酸序列的多核苷酸。多核苷酸变体还包括是亲本多核苷酸的部分或子序列的多核苷酸，例如本文公开的多核苷酸的独特子序列(例如，如通过标准序列比较和比对技术所确定的)也包括在本发明中。

在另一方面，多核苷酸变体包括相对于亲本核苷酸序列含有较小、细微或不重要的改变的核苷酸序列。例如，较小、细微或不重要的改变包括以下对核苷酸序列的改变：(i)不改变相应多肽的氨基酸序列，(ii)出现在多核苷酸的蛋白编码开放阅读框之外，(iii)导致可能影响相应氨基酸序列但对多肽的生物学活性几乎没有或没有影响的缺失或插入，(iv)核苷酸改变导致氨基酸被化学上相似的氨基酸置换。在多核苷酸不编码蛋白(例如，tRNA或crRNA或tracrRNA)的情况下，该多核苷酸的变体可以包括不导致多核苷酸功能丧失的核苷酸改变。在另一方面，本发明涵盖产生功能相同的核苷酸序列的公开核苷酸序列的保守变体。本领域技术人员认识到，所公开的核苷酸序列的许多变体被包括在本发明中。

当应用于蛋白时，变体多肽可以具有与原始亲本多肽的完全氨基酸序列同一性，或者可以具有与亲本蛋白的小于100％的氨基酸同一性。例如，氨基酸序列的变体可以是相比于原始氨基酸序列，氨基酸序列至少50％、60％、70％、80％、90％、95％、98％、99％或更多同一的第二氨基酸序列。

多肽变体包括包含完整亲本多肽并且还包含额外的融合氨基酸序列的多肽。多肽变体还包括是亲本多肽的部分或子序列的多肽，例如本文公开的多肽的独特子序列(例如，如通过标准序列比较和比对技术所确定的)也包括在本发明中。

在另一方面，多肽变体包括相对于亲本氨基酸序列含有较小、细微或不重要的改变的多肽。例如，较小、细微或不重要的改变包括对多肽的生物学活性几乎没有或没有影响并产生功能相同的多肽的氨基酸改变(包括置换、缺失和插入)，包括添加非功能性肽序列。在其他方面，本发明的变体多肽改变亲本分子的生物学活性，例如已经被修饰或失去核酸酶活性的Cas9多肽的突变变体。本领域技术人员理解，本发明涵盖所公开的多肽的许多变体。

在一些方面，本发明的多核苷酸或多肽变体可以包括改变、添加或缺失小百分比的核苷酸或氨基酸位置的变体分子，例如通常小于约10％，小于约5％，小于4％，小于2％或小于1％。

如本文所用，核苷酸或氨基酸序列中的术语“保守置换”是指核苷酸序列中的改变，其(i)由于三联体密码子冗余性而不导致氨基酸序列中的任何相应变化，或(ii)导致原始亲本氨基酸被具有化学相似结构的氨基酸置换。提供功能上相似的氨基酸的保守置换表在本领域是众所周知的，其中一个氨基酸残基被另一个具有相似化学性质的氨基酸残基置换(例如，芳族侧链或带正电的侧链)，并且因此基本上不改变所得多肽分子的功能特性。

以下是含有类似化学性质的天然氨基酸分组，其中组内的置换是“保守”氨基酸置换。以下所示的这种分组不是硬性的，因为当考虑到不同的功能特性时，这些天然氨基酸可以被置于不同的分组中。具有非极性和/或脂肪族侧链的氨基酸包括：甘氨酸，丙氨酸，缬氨酸，亮氨酸，异亮氨酸和脯氨酸。具有极性不带电荷侧链的氨基酸包括：丝氨酸，苏氨酸，半胱氨酸，甲硫氨酸，天冬酰胺和谷氨酰胺。具有芳族侧链的氨基酸包括：苯丙氨酸，酪氨酸和色氨酸。具有带正电荷侧链的氨基酸包括：赖氨酸，精氨酸和组氨酸。具有带负电荷侧链的氨基酸包括：天冬氨酸和谷氨酸。

“Cas9突变体”或“Cas9变体”是指野生型Cas9蛋白如化脓性链球菌Cas9蛋白(即，SEQ ID NO：1)的蛋白或多肽衍生物，例如具有一个或多个点突变、插入、缺失、截短、融合蛋白或其组合的蛋白。它基本上保留了Cas9蛋白的RNA靶向活性。该蛋白或多肽可以包含SEQID NO：1的片段，由其组成或基本上由其组成。通常，突变体/变体与SEQ ID NO：1至少50％(例如50％至100％之间的任何数值，包括端值)相同。突变体/变体可以与RNA分子结合并经由RNA分子靶向特定的DNA序列，并且可以另外具有核酸酶活性。这些结构域的实例包括RuvC样基序(SEQ ID NO：1中的氨基酸7-22、759-766和982-989)和HNH基序(氨基酸837-863)。参见Gasiunas等，Proc Natl Acad Sci U S A.2012年9月25日；109(39):E2579-E2586和WO2013176772。

“互补性”是指核酸通过传统Watson-Crick碱基配对或其他非传统类型与另一核酸序列形成氢键的能力。百分比互补性表示核酸分子中可与第二核酸序列形成氢键(例如Watson-Crick碱基配对)的残基的百分比(例如，10中有5、6、7、8、9、10个则为50％、60％、70％、80％、90％和100％互补)。“完全互补”是指核酸序列的所有连续残基将与第二核酸序列中相同数量的连续残基氢键结合。如本文所用的“基本上互补的”是指在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50或更多个核苷酸的区域上至少60％、65％、70％、75％、80％、85％、90％、95％、97％、98％、99％或100％的互补性程度，或指在严格条件下杂交的两条核酸。

如本文所用，用于杂交的“严格条件”是指与靶序列具有互补性的核酸主要与靶序列杂交且基本上不与非靶序列杂交的条件。严格条件通常是序列相关的，并且取决于许多因素。通常，序列越长，序列与其靶序列特异性杂交的温度越高。严格条件的非限制性实例详细描述于Tijssen(1993),Laboratory Techniques In Biochemistry And MolecularBiology-Hybridization With Nucleic Acid Probes Part I,Second Chapter"Overviewof principles of hybridization and the strategy of nucleic acid probe assay",Elsevier,N.Y.中。

“杂交”是指在特定的杂交条件下完全或部分互补的核酸链一起形成其中两条构成链通过氢键连接的双链结构或区域的过程。虽然氢键通常在腺嘌呤和胸腺嘧啶或尿嘧啶(A和T或U)或胞嘧啶和鸟嘌呤(C和G)之间形成，但也可以形成其它碱基对(例如，Adams等,The Biochemistry of the Nucleic Acids,第11版,1992)。

如本文所用，“表达”是指通过其多核苷酸从DNA模板转录(例如转录成mRNA和其他RNA转录物)的过程和/或通过其转录的mRNA随后被翻译成肽、多肽、或蛋白的过程。转录物和编码的多肽可以统称为“基因产物”。如果多核苷酸衍生自基因组DNA，则表达可包括mRNA在真核细胞中的剪接。

术语“多肽”、“肽”和“蛋白”在本文中可互换使用，是指任何长度的氨基酸的聚合物。该聚合物可以是直链或支链的，它可以包含修饰的氨基酸，并且可以被非氨基酸中断。该术语还包括已被修饰的氨基酸聚合物；例如二硫键形成，糖基化，脂质化，乙酰化，磷酸化，聚乙二醇化或任何其他操作，例如与标记组分缀合。如本文所用，术语“氨基酸”包括天然和/或非天然或合成氨基酸，包括甘氨酸和D或L光学异构体，以及氨基酸类似物和肽模拟物。

术语“融合多肽”或“融合蛋白”是指通过将两个或更多个多肽序列连接在一起而产生的蛋白。包含在本发明中的融合多肽包括嵌合基因构建体的翻译产物，所述嵌合基因构建体将编码第一多肽(例如RNA结合结构域)的核酸序列与编码第二多肽(例如效应子结构域)的核酸序列连接，形成单个开放阅读框架。换句话说，“融合多肽”或“融合蛋白”是由肽键或经由数种肽连接的两种或更多种蛋白的重组蛋白。融合蛋白还可以包含两个结构域之间的肽接头。

术语“接头”是指用于连接两个或更多个实体的任何方式、实体或部分。接头可以是共价接头或非共价接头。共价接头的实例包括共价键或共价附接至一个或多个待连接的蛋白或结构域的接头部分。接头还可以是非共价键，例如通过金属中心例如铂原子的有机金属键。对于共价键，可以使用各种官能团，例如酰胺基团，包括碳酸衍生物，醚，酯，包括有机和无机酯，氨基，尿烷，尿素等。为了提供连接，可以通过氧化、羟基化、置换、还原等修饰所述结构域以提供偶联位点。缀合方法是本领域技术人员众所周知的，并且包括在本发明中。接头部分包括但不限于化学接头部分，或者例如肽接头部分(接头序列)。应该理解的是，不显著降低RNA结合结构域和效应子结构域功能的修饰是优选的。

如本文所用，本文使用的术语“缀合”或“连接”是指两个或更多个实体附接形成一个实体。缀合物包括肽-小分子缀合物以及肽-蛋白/肽缀合物。

术语“受试者”和“患者”在本文中可互换使用，指脊椎动物，优选哺乳动物，更优选人。哺乳动物包括但不限于鼠、猴、人、农场动物、运动动物和宠物。也包括体内获得的或体外培养的生物实体的组织、细胞及其后代。在一些实施方案中，受试者可以是无脊椎动物，例如昆虫或线虫；而在其他情况下，受试者可能是植物或真菌。

如本文所用，“治疗”或“减轻”或“改善”可互换使用。这些术语是指用于获得有益的或期望的结果的方法，包括但不限于治疗益处和/或预防益处。治疗益处是指治疗中的一种或多种疾病、病况或症状的任何治疗相关的改善或作用。对于预防益处，可将组合物施用于具有发展特定疾病、病况或症状的风险的受试者，或施用于报告疾病的一种或多种生理症状但疾病、病况或症状可能还没有表现出来的受试者。

如本文所用，当涉及任何组分集合时使用的术语“接触”包括将要接触的组分混合成同一混合物(例如，加入到同一隔室或溶液中)的任何方法，不一定需要所述组分之间的实际物理接触。所述组分可以以任何顺序或任何组合(或子组合)接触，并且可以包括随后(任选在添加其它所述组分之前)从混合物中除去一种或一些所述组分的情况。例如，“将A与B和C接触”包括以下任何和所有情况：(i)将A与C混合，然后将B加入到混合物中；(ii)将A和B混合成混合物，将B从混合物中除去，然后将C加入到混合物中；和(iii)将A加入到B和C的混合物中。将靶核酸或细胞与一种或多种反应组分(例如Cas蛋白或指导RNA)“接触”包括以下任何或所有情况：(i)使靶或细胞与反应混合物的第一组分接触以产生混合物，然后将反应混合物的其它组分以任何顺序或组合加入到混合物中；和(ii)反应混合物在与靶或细胞混合之前完全形成。

如本文所用的术语“混合物”是指散布且不是以任何特定顺序的元素的组合。混合物是异源的，不能在空间上分离成不同的成分。要素混合物的实例包括溶解在相同水溶液中的许多不同要素，或随机或以非特定顺序附接到固体支持物上的许多不同要素，其中不同要素不是在空间上不同。换句话说，混合物是不可寻址的。

如本文所公开的，提供了许多数值范围。可以理解的是，除非上下文清楚地另外指出，在该范围的上限和下限之间的每个中间值至下限单位的十分之一也被具体地公开。在所述范围内的任何规定值或中间值与该规定范围内的任何其他规定值或中间值之间的每个较小范围都包含在本发明内。这些较小范围的上限和下限可以独立地包括在该范围内或排除在外，并且其中任一个、没有一个或两个限值都包括在较小范围内的每个范围也包含在本发明内，受限于规定的范围中任何具体排除的限制。在所述范围包括一个或两个限值的情况下，排除那些所包括的限值中的任一个或两个的范围也包括在本发明中。术语“约”通常是指所指数字的正或负10％。例如，“约10％”可以表示9％至11％的范围，“约20”可以表示18-22。“约”的其他含义可以从上下文明显看出，例如四舍五入，所以例如“约1”也可以表示0.5到1.4。

实施例

实施例1 CRC系统导致细菌基因组中靶胞苷核苷酸处的位点特异性突变。

在本实施例中，使用大肠杆菌MG1655菌株作为模型。细菌RNA聚合酶亚基β基因(rpoB)中的突变使细胞对抗生素利福平具有抗性(Jin等,Journal of Molecular Biology202,45-58,(1988),和Goldstein等,J Antibiot 67,625-630,doi:10.1038/ja.2014.107(2014))。可以单独分离和分析突变体，并可以计算突变频率。ADD是B细胞特异性蛋白，属于胞苷脱氨酶的APOBEC家族，并且在抗体多样化和亲和力成熟过程中参与体细胞高变和类别转换重组(Odegard等，Nat Rev Immunol 6,573-583(2006),和Noia等人，Annual Reviewof Biochemistry 76,1-22,doi:doi:10.1146/annurev.biochem.76.061705.090740(2007))。因此，对于这些实验组，使用AID作为非核酸酶效应子蛋白靶向来自大肠杆菌MG1655的rpoB基因。

构建体和系统配置

诱导型启动子

所有蛋白编码构建体均设计成在Tet诱导型启动子的控制下。使用浓度为30nM的无水四环素(ATc；Sigma)作为诱导剂。

Cas9构建体

本系统的核心特征是引入精确的核苷酸修饰而不产生DSB。为此，使用核酸酶缺陷型Cas9作为DNA靶向模块，即催化缺陷型Cas9(Cas9_D10A/H840A，dCas9)和Cas9切口酶(nCas9_D10A或nCas9_H840A)(Jinek,M等,Science 337,816-821,doi:10.1126/science.1225829(2012))。已经使用Cas9切口酶通过偏移双DNA切口来减少脱靶DSB(Ran,FA等,Cell 154,1380-1389,doi:10.1016/j.cell.2013.08.021(2013),和Shen,B等人,Nat Meth 11,399-402,doi:10.1038/nmeth.2857(2014))，并且dCas9已被工程化以发挥不依赖于核酸酶活性的各种活性。参见Fujita,T等,Biochemical and biophysical research communications 439,132-136,(2013)，Perez-Pinera,P等,Nat Meth 10,973-976,doi:10.1038/nmeth.2600(2013)，Mali,P等,Nat Biotechnol 31,833-838,doi:10.1038et al./nbt.2675(2013)，Zalatan,J.G.等,Cell 160,339-350,doi:10.1016/j.cell.2014.11.052(2015)，Qi,L.S.等,Cell 152,1173-1183,doi:10.1016/j.cell.2013.02.022(2013)，Larson,M.H.等,Nature protocols 8,2180-2196,doi:10.1038/nprot.2013.132(2013)，Hilton,I.B.等,Nat Biotech 33,510-517,doi:10.1038/nbt.3199(2015)，Thakore,P.I.等,Nat Meth 12,1143-1149,doi:10.1038/nmeth.363(2015)，Chen,B等,Cell 155,1479-1491,doi:10.1016/j.cell.2013.12.001(2013)和Fu,Y等,Nature communications 7,doi:10.1038/ncommsl l707(2016)。因此，这些变体在很大程度上被认为是安全的，并且代表开发本研究中提出的系统的理想候选者。

靶向募集系统

该系统被工程化成RNA支架介导的募集平台。包括本研究中使用的构建体的示意图的示意性代表在图1B中示出。Cas9变体设计为独立构建体，而gRNA被工程化成嵌合RNA物质，其中噬菌体RNA支架被合成融合到CRISPR RNA支架的3'末端。噬菌体RNA支架募集特定的RNA结合蛋白，其又被连接至非核酸酶效应子蛋白(图1C)。RNA支架募集系统衍生自噬菌体MS2及其相互作用伴侣MS2外壳蛋白(MCP)。

靶向gRNA

靶是细菌rpoB基因。一起被称为利福平抗性决定区(RRDR)的三个簇中的突变赋予细胞对抗生素利福平的抗性(Rif^R)(Goldstein等,J Antibiot 67,625-630,doi:10.1038/ja.2014.107(2014))。设计了一组四个gRNA，以沿着RRDR簇I序列靶向关键氨基酸(即S512、D516、H526和S531；图2A)。Jin等,Journal of molecular biology 202,45-58,(1988)和Jin,D.J.等,Methods in Enzymology Vol Volume 273 300-319(Academic Press,1996)。

实验方法

化学感受态大肠杆菌MG1655细胞用10-20ng总DNA转化，所述总DNA包含编码第1部分所述构建体的质粒组合。转化后，选择细胞并在含有合适的抗生素的Luria-Bertani培养液中诱导。选择/诱导后，测量OD，连续稀释细胞，将10⁸-10⁴个细胞涂布在含有利福平(120μM)的LB琼脂平板上。针对铺板效率，将200个细胞铺板在没有利福平的选择性琼脂平板上。过夜孵育后，计数集落并对突变频率进行计数检查。另外，通过PCR扩增来自分离的集落的rpoB基因并进行测序以定位突变。

结果

AID的靶向募集导致C到T的位点特异性转换。

靶向rpoB的RRDR(簇I)区域的一组四个gRNA被用于将AID募集到靶位点(图2A)。用rpoB_TS-4进行的以及至更小程度用rpoB_TS-3进行的CRC靶向提高了利福平培养基中MG1655细胞的存活分数(图2B、2C)。衍生自rpoB_TS-4处理的克隆的序列分析揭示了高特异性，使C1592突变为T，伴随着丝氨酸531到苯丙氨酸的氨基酸改变，这是已知导致Rif^R细胞的突变(Petersen-Mahrt等,Nature 418,99-104(2002),Xu,M.,等,Journal ofBacteriology 187,2783-2792,doi:10.1128/JB.187.8.2783-2792.2005(2005),和Zenkin,N.,等,Antimicrobial Agents and Chemotherapy 49,1587-1590,doi:10.1128/AAC49.4.1587-1590.2005(2005))(图2D)。图2E总结了rpoB_TS-3、rpoB_TS-4和乱序序列的突变分布。观察到的高度增加的突变频率和rpoB_TS-4处理上的修饰核苷酸的位置以及rpoB_TS-3处理的效率降低都表明靶胞苷必须位于CRISPR R-环留下的未配对的链上，优先更接近原间隔区的5'末端(即突变频率TS4>TS3，均靶向和修饰相同的核苷酸，图2A、2C和2E)。这与AID积极地使单链DNA上的胞苷残基脱氨基一致(Odegard等,Nat Rev Immunol 6,573-583(2006),Noia等,Annual Review of Biochemistry 76,1-22,doi:doi:10.1146/annurev.biochem.76.061705.090740(2007),Smith,H.C.等,Seminars in Cell&Developmental Biology 23,258-268,doi:10.1016/j.semcdb.2011.10.004(2012)和Ranganathan,V等,Nature communications 5,doi:10.1038/ncomms5516(2014))。靶向模型的示意图如图2F所示。

CRC模块性

将靶向模块从dCas9转变为nCas9_D10A提高C到T/A转换的效率

将靶向模块从dCas9改变为nCas9_D10A提高了系统效率，就利福平平板上的存活分数而言比对照组提高了18至43倍方面(图3A)。突变分析揭示了与^AIDCRC处理相同的靶核苷酸特异性。在这种情况下，C1592在100％的克隆中被修饰，75％的C被突变为T和25％的C被突变为A(图3B)。

其他非核酸酶效应子APOBEC3G和APOBEC1的靶向募集能够引入C到T/A的位点特异性转换

除了AID作为效应子蛋白之外，我们还测试了来自APOBEC家族的其他胞苷脱氨酶，即APOBEC3G和APOBEC1(图4A)。与原型系统^AIDCRC_D10A相比，APOBEC1提高了靶突变频率。APOBEC3G比原型系统活性程度低。以rpoB_TS-4作为靶向构建体的^Apo1CRC_D10A处理细胞的突变分析显示100％C1592>T转换。另外，25％的分析克隆是双突变体，转换C1590>T，没有氨基酸改变(图4B)。

增加RNA募集支架的数量增强突变频率，而不改变C至T/A转换的特异性。

添加串联多聚体募集支架可能会增加靶区域上的效应子存在，从而增强系统的效率。为此，我们工程化了rpoB_TS-4以包含两个MS2环(2xMS2,SEQ ID NO：54)。我们比较具有一个MS2环的rpoB_TS-4(1xMS2,SEQ ID NO：2)和rpoB_TS-4 2xMS2之间的靶向效率(图5A)。结果表明，依据Rif^R，增加募集环的数量实际上增强了突变频率，表明效应子蛋白的存在增加。以rpoB_TS-4_2xMS2为靶向构建体的^AIDCRC_D10A处理细胞的突变分析显示C1592核苷酸在100％的克隆中被修饰，62.5％的C被突变为T和37.5％的C被突变为A(图5B)。这些结果表明，工程化募集模块不会影响系统的靶向特异性。

总之，这些结果表明，CRC系统的模块化设计方便了工程化过程，并为进一步改进系统开启了可能性。

实施例2 CRC系统导致哺乳动物系统中位点特异性核苷酸转换

实验设计：工程化该系统用于哺乳动物表达

我们接下来试图工程化该系统用于哺乳动物表达。为此，我们使用哺乳动物密码子优化的nCas9_D10A接着由自我切割的P2A肽分离的AID_MCP融合体，将原核AIDCRCD10A系统重构为多顺反子构建体。在泛素C启动子的控制下克隆该构建体。gRNA_2xMS2盒在U6或H1启动子的控制下分别克隆用于具有5'-G或5'-A的靶(Ranganathan,V.,等,Naturecommunications 5,doi:10.1038/ncomms5516(2014))。图6A中示出了这些实验组中使用的构建体的示意图。

靶向染色体外DNA：EGFP回复突变测定

EGFP被工程化为具有破坏其荧光团的功能丧失点突变(197A>G，Y66C)，因此使蛋白不发荧光(_nfEGFP^Y66C)。然后将突变GFP的表达载体转染到哺乳动物细胞中并作为该系统的底物。这个实验的目的是“校正”这种功能丧失的突变。当校正的基因被转录和翻译时，校正将恢复蛋白功能，在荧光显微镜下可以将其可视化为荧光细胞。

实验方法

用10μg包含编码_nfEGFP^Y66C、^AIDCRC_D10A和gRNA构建体的靶质粒的DNA的组合转染大约7×10⁵个293T细胞。为了比较，在这些实验组中使用第三代碱基编辑器系统(BE3,Komor,A.C等,Nature advance online publication,doi:10.1038/nature17946)。BE3是稍微相似的具有不同的募集机制(Cas9与APOBEC1直接融合)的系统并且包括抑制尿嘧啶DNA糖基化酶(参与DNA修复的酶)的肽。过夜孵育后，在荧光显微镜下分析细胞以观察GFP信号。

结果

发现上述CRC系统能够修饰染色体外DNA中的靶核苷酸，恢复蛋白功能。由于靶胞苷位于模板链(TS,-)上，所以设计了两个gRNA以结合靶核苷酸周围的非模板链(NT,+)(图6B)。靶胞苷分别位于_nfEGFP^Y66C_NT-1和_nfEGFP^Y66C_NT-2原间隔区内的位置5和12上。用编码nCas9_D10A、AID_MCP、gRNA(_nfEGFP^Y66C_NT-1或_nfEGFP^Y66C_NT-2或乱序序列)和靶构建体_nfEGFP^Y66C的DNA转染293T细胞。在用_nfEGFP^Y66C_NT-1和_nfEGFP^Y66C_NT-2处理的细胞上检测到EGFP信号，但是没有在用乱序序列处理的细胞上检测到EGFP信号(图6C)。由于靶胞苷的位置，与_nfEGFP^Y66C_NT-2相比，_nfEGFP^Y66C_NT-1处理的细胞中的EGFP信号更强。_nfEGFP^Y66C_NT-1可能使得靶向的C更接近AID(图6C，中和右图)。另外，将CRC平台与不同的基因编辑系统(BE3)进行比较，所述基因编辑系统利用胞苷脱氨酶蛋白与Cas9蛋白的直接融合进行募集并且需要共同表达尿嘧啶DNA糖基化酶(UGI)的抑制剂以提高效率。意外地发现，即使没有局部UNG抑制(没有尿嘧啶DNA糖基化酶抑制剂UGI的表达)，效应子和序列靶向模块通过RNA支架连接的CRC系统也比BE3系统更有效(图6C、6D和7B)。

这些结果证实了来自细菌系统的发现，并且表明该系统以可编程方式有效地使人细胞中染色体外DNA中的特定胞苷残基脱氨基。使用_nfEGFP^Y66C_NT-1作为靶向gRNA，来自用^AIDCRC_D10A和BE3处理的GFP阳性细胞的定量表明CRC系统具有比BE3更好的转换效率(图6D)。

实施例3 CRC系统导致哺乳动物细胞内源基因中的位点特异性核苷酸转换

靶向内源性基因座：中国仓鼠HPRT基因

受到从细菌阴性选择系统观察到的阳性结果的鼓舞，我们决定在哺乳动物中使用类似的方法。次黄嘌呤-鸟嘌呤磷酸核糖转移酶(HPRT)是参与嘌呤代谢的酶，已知沿其编码序列的突变引起对抗代谢物6-硫鸟嘌呤的抗性(6-TG^R)(O'Neill,J.P.等,Nature 269,815-816(1977))。对于这些实验，我们旨在用CRC系统突变HPRT基因以破坏其功能，然后用6-TG选择突变细胞用于进一步分析。

实验方法

用10μg包含^AIDCRC_D10A构建体和gRNA HPRT_TS-1表达载体的DNA的组合转染大约7×10⁵个中国仓鼠V79-4细胞。为了比较，还用BE3和gRNA HPRT_TS-1处理细胞。按照先前描述的哺乳动物诱变操作方案，培养处理和未处理的细胞(Klein,C.B.等，in CurrentProtocols in Toxicology(John Wiley&Sons,Inc.,2001))。简而言之，转染后，细胞保持7天，然后6-TG选择用于先前存在的HPRT mRNA和蛋白的突变固定和转换。用60μM 6-TG选择细胞14天以允许形成6-TG^R集落。对集落进行计数以估计突变频率，并分离个体集落并分别繁殖用于测序分析。

结果

一个gRNA被设计为靶向来自中国仓鼠HPRT基因的外显子3(图7A)。gRNA靶向编码苯丙氨酸的密码子74，并且该残基中的突变与降低的HPRT蛋白稳定性有关(Davidson,BL等,Gene 63,331-336,doi:http://dx.doi.org/10.1016/0378-1119(88)90536-7(1988))。用编码^AIDCRC_D10A或BE3构建体的DNA与靶向gRNA表达载体一起转染V79-4细胞。^AIDCRC_D10A系统导致突变，使得与BE3系统相比，细胞对6-TG处理的抗性具有更高的效率(即分别比未处理的细胞高140倍和40倍；图7B)。结果显示CRC系统能够靶向和修饰内源性哺乳动物基因座中的特定DNA序列。

实施例4顺式双切口导致难以靶向序列的转换效率的提高

在该实施例中，上述顺式双切口用于提高细菌基因转换模型中的转换效率(图9)。

简而言之，设计nCas9(nCas9_D10A或nCas9_H840)以靶向同一DNA链上的两个相邻位置。用两个gRNA双切口相同的链不诱导双链DNA断裂或激活DSB修复途径，因此是一种安全的方法。该过程的示意图在图8中描述。为了测试该方法，使用gRNA TS-2和TS-3靶向编码RNA聚合酶β亚基(rpoB)的细菌基因(图9A)。这是一种负选择系统，其中可以使用抗生素利福平选择特定的rpoB突变体，因为突变体对该药物具有抗性(Rif^R)。结果在图9B中所示。发现在原核细胞中靶向效率提高了约130倍。

实施例5 CRC系统导致靶胞苷核苷酸处的位点特异性突变。

在该实例中，AID变体用于减少AID诱导的脱靶效应(如果有的话)。在自然界中，通过普遍存在的激酶蛋白激酶A(PKA)使Ser38磷酸化激活AID。该磷酸化导致与称为复制蛋白A(RPA)的另一种普遍存在蛋白的相互作用。通过将AID中的Ser38突变为Ala(SEQ ID NO：51)，可以减少AID向脱靶位点的募集。

为了证实AID中的突变不影响CRC的催化活性，以与先前实验(GFP反向突变测定)相同的方式处理具有稳定整合在基因组中的非荧光EGFP基因的HEK293细胞。将磷酸化无CRC(含有AID_S38A变体，称为pnCRC)的表现与常规CRC(含有wtAID)平行(side by side)比较。通过流式细胞术测量GFP转换效率。如图11B所示，结果表明该突变对CRC的转换效率没有影响。

上述优选实施方案的实施例和描述应该被认为是示例性的，而不是限制权利要求所限定的本发明。容易理解的是，可以使用上述特征的多种变化和组合，而不脱离如权利要求中所阐述的本发明。这样的变化不被视为脱离本发明的范围，并且所有这样的变化旨在被包括在所附权利要求书的范围内。本文引用的所有参考文献全文引入作为参考。

序列表

<110> 新泽西鲁特格斯州立大学（Rutgers, The State University of New Jersey）

金晟侃（Jin, Shengkan）

J-C·科兰特斯（Collantes, Juan-Carlos）

<120> 独立于DNA双链断裂的靶向基因编辑平台及其用途

<130> S2015-161/ 096738.00566

<150> 62/442704

<151> 2017-01-05

<160> 54

<170> PatentIn version 3.5

<210> 1

<211> 1368

<212> PRT

<213> 化脓性链球菌（Streptococcus pyogenes）

<400> 1

Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val

1 5 10 15

Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe

20 25 30

Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile

35 40 45

Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu

50 55 60

Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys

65 70 75 80

Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser

85 90 95

Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys

100 105 110

His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr

115 120 125

His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp

130 135 140

Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His

145 150 155 160

Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro

165 170 175

Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr

180 185 190

Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala

195 200 205

Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn

210 215 220

Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn

225 230 235 240

Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe

245 250 255

Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp

260 265 270

Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp

275 280 285

Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp

290 295 300

Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser

305 310 315 320

Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys

325 330 335

Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe

340 345 350

Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser

355 360 365

Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp

370 375 380

Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg

385 390 395 400

Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu

405 410 415

Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe

420 425 430

Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile

435 440 445

Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp

450 455 460

Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu

465 470 475 480

Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr

485 490 495

Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser

500 505 510

Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys

515 520 525

Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln

530 535 540

Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr

545 550 555 560

Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp

565 570 575

Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly

580 585 590

Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp

595 600 605

Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr

610 615 620

Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala

625 630 635 640

His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr

645 650 655

Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp

660 665 670

Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe

675 680 685

Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe

690 695 700

Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu

705 710 715 720

His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly

725 730 735

Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly

740 745 750

Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln

755 760 765

Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile

770 775 780

Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro

785 790 795 800

Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu

805 810 815

Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg

820 825 830

Leu Ser Asp Tyr Asp Val Asp Ala Ile Val Pro Gln Ser Phe Leu Lys

835 840 845

Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg

850 855 860

Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys

865 870 875 880

Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys

885 890 895

Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp

900 905 910

Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr

915 920 925

Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp

930 935 940

Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser

945 950 955 960

Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg

965 970 975

Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val

980 985 990

Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe

995 1000 1005

Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala

1010 1015 1020

Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe

1025 1030 1035

Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala

1040 1045 1050

Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu

1055 1060 1065

Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val

1070 1075 1080

Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr

1085 1090 1095

Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys

1100 1105 1110

Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro

1115 1120 1125

Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val

1130 1135 1140

Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys

1145 1150 1155

Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser

1160 1165 1170

Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys

1175 1180 1185

Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu

1190 1195 1200

Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly

1205 1210 1215

Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val

1220 1225 1230

Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser

1235 1240 1245

Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys

1250 1255 1260

His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys

1265 1270 1275

Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala

1280 1285 1290

Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn

1295 1300 1305

Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala

1310 1315 1320

Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser

1325 1330 1335

Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr

1340 1345 1350

Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp

1355 1360 1365

<210> 2

<211> 129

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> RNA支架表达盒

<220>

<221> misc_feature

<222> (1)..(20)

<223> n是a, c, g或t

<400> 2

nnnnnnnnnn nnnnnnnnnn gttttagagc tagaaatagc aagttaaaat aaggctagtc 60

cgttatcaac ttgaaaaagt ggcaccgagt cggtgcgcgc acatgaggat cacccatgtg 120

ctttttttg 129

<210> 3

<211> 340

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 效应子AID -MCP融合体

<400> 3

Met Asp Ser Leu Leu Met Asn Arg Arg Lys Phe Leu Tyr Gln Phe Lys

1 5 10 15

Asn Val Arg Trp Ala Lys Gly Arg Arg Glu Thr Tyr Leu Cys Tyr Val

20 25 30

Val Lys Arg Arg Asp Ser Ala Thr Ser Phe Ser Leu Asp Phe Gly Tyr

35 40 45

Leu Arg Asn Lys Asn Gly Cys His Val Glu Leu Leu Phe Leu Arg Tyr

50 55 60

Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg Val Thr Trp

65 70 75 80

Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg His Val Ala Asp

85 90 95

Phe Leu Arg Gly Asn Pro Asn Leu Ser Leu Arg Ile Phe Thr Ala Arg

100 105 110

Leu Tyr Phe Cys Glu Asp Arg Lys Ala Glu Pro Glu Gly Leu Arg Arg

115 120 125

Leu His Arg Ala Gly Val Gln Ile Ala Ile Met Thr Phe Lys Asp Tyr

130 135 140

Phe Tyr Cys Trp Asn Thr Phe Val Glu Asn His Glu Arg Thr Phe Lys

145 150 155 160

Ala Trp Glu Gly Leu His Glu Asn Ser Val Arg Leu Ser Arg Gln Leu

165 170 175

Arg Arg Ile Leu Leu Pro Leu Tyr Glu Val Asp Asp Leu Arg Asp Ala

180 185 190

Phe Arg Thr Leu Gly Leu Glu Leu Lys Thr Pro Leu Gly Asp Thr Thr

195 200 205

His Thr Ser Pro Pro Cys Pro Ala Pro Glu Leu Leu Gly Gly Pro Met

210 215 220

Ala Ser Asn Phe Thr Gln Phe Val Leu Val Asp Asn Gly Gly Thr Gly

225 230 235 240

Asp Val Thr Val Ala Pro Ser Asn Phe Ala Asn Gly Ile Ala Glu Trp

245 250 255

Ile Ser Ser Asn Ser Arg Ser Gln Ala Tyr Lys Val Thr Cys Ser Val

260 265 270

Arg Gln Ser Ser Ala Gln Asn Arg Lys Tyr Thr Ile Lys Val Glu Val

275 280 285

Pro Lys Gly Ala Trp Arg Ser Tyr Leu Asn Met Glu Leu Thr Ile Pro

290 295 300

Ile Phe Ala Thr Asn Ser Asp Cys Glu Leu Ile Val Lys Ala Met Gln

305 310 315 320

Gly Leu Leu Lys Asp Gly Asn Pro Ile Pro Ser Ala Ile Ala Ala Asn

325 330 335

Ser Gly Ile Tyr

340

<210> 4

<211> 93

<212> RNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 杂合crRNA:tracRNA

<400> 4

guuuaagagc uaugcuggaa acagcauagc aaguuuaaau aaggcuaguc cguuaucaac 60

uugaaaaagu ggcaccgagu cggugcuuuu uuu 93

<210> 5

<211> 79

<212> RNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> tracRNA

<400> 5

ggaaccauuc aaaacagcau agcaaguuaa aauaaggcua guccguuauc aacuugaaaa 60

aguggcaccg agucggugc 79

<210> 6

<211> 60

<212> RNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> tracRNA

<400> 6

uagcaaguua aaauaaggcu aguccguuau caacuugaaa aaguggcacc gagucggugc 60

<210> 7

<211> 64

<212> RNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> tracRNA

<400> 7

agcauagcaa guuaaaauaa ggcuaguccg uuaucaacuu gaaaaagugg caccgagucg 60

gugc 64

<210> 8

<211> 70

<212> RNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> tracRNA

<400> 8

caaaacagca uagcaaguua aaauaaggcu aguccguuau caacuugaaa aaguggcacc 60

gagucggugc 70

<210> 9

<211> 45

<212> RNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> tracRNA

<400> 9

uagcaaguua aaauaaggcu aguccguuau caacuugaaa aagug 45

<210> 10

<211> 32

<212> RNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> tracRNA

<400> 10

uagcaaguua aaauaaggcu aguccguuau ca 32

<210> 11

<211> 26

<212> RNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> tracRNA

<400> 11

uagcaaguua aaauaaggcu aguccg 26

<210> 12

<211> 66

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> Ku结合发卡

<400> 12

ttcttgtcgt acttatagat cgctacgtta tttcaatttt gaaaatctga gtcctgggag 60

tgcgga 66

<210> 13

<211> 609

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 端粒末端转移酶Ku

<400> 13

Met Ser Gly Trp Glu Ser Tyr Tyr Lys Thr Glu Gly Asp Glu Glu Ala

1 5 10 15

Glu Glu Glu Gln Glu Glu Asn Leu Glu Ala Ser Gly Asp Tyr Lys Tyr

20 25 30

Ser Gly Arg Asp Ser Leu Ile Phe Leu Val Asp Ala Ser Lys Ala Met

35 40 45

Phe Glu Ser Gln Ser Glu Asp Glu Leu Thr Pro Phe Asp Met Ser Ile

50 55 60

Gln Cys Ile Gln Ser Val Tyr Ile Ser Lys Ile Ile Ser Ser Asp Arg

65 70 75 80

Asp Leu Leu Ala Val Val Phe Tyr Gly Thr Glu Lys Asp Lys Asn Ser

85 90 95

Val Asn Phe Lys Asn Ile Tyr Val Leu Gln Glu Leu Asp Asn Pro Gly

100 105 110

Ala Lys Arg Ile Leu Glu Leu Asp Gln Phe Lys Gly Gln Gln Gly Gln

115 120 125

Lys Arg Phe Gln Asp Met Met Gly His Gly Ser Asp Tyr Ser Leu Ser

130 135 140

Glu Val Leu Trp Val Cys Ala Asn Leu Phe Ser Asp Val Gln Phe Lys

145 150 155 160

Met Ser His Lys Arg Ile Met Leu Phe Thr Asn Glu Asp Asn Pro His

165 170 175

Gly Asn Asp Ser Ala Lys Ala Ser Arg Ala Arg Thr Lys Ala Gly Asp

180 185 190

Leu Arg Asp Thr Gly Ile Phe Leu Asp Leu Met His Leu Lys Lys Pro

195 200 205

Gly Gly Phe Asp Ile Ser Leu Phe Tyr Arg Asp Ile Ile Ser Ile Ala

210 215 220

Glu Asp Glu Asp Leu Arg Val His Phe Glu Glu Ser Ser Lys Leu Glu

225 230 235 240

Asp Leu Leu Arg Lys Val Arg Ala Lys Glu Thr Arg Lys Arg Ala Leu

245 250 255

Ser Arg Leu Lys Leu Lys Leu Asn Lys Asp Ile Val Ile Ser Val Gly

260 265 270

Ile Tyr Asn Leu Val Gln Lys Ala Leu Lys Pro Pro Pro Ile Lys Leu

275 280 285

Tyr Arg Glu Thr Asn Glu Pro Val Lys Thr Lys Thr Arg Thr Phe Asn

290 295 300

Thr Ser Thr Gly Gly Leu Leu Leu Pro Ser Asp Thr Lys Arg Ser Gln

305 310 315 320

Ile Tyr Gly Ser Arg Gln Ile Ile Leu Glu Lys Glu Glu Thr Glu Glu

325 330 335

Leu Lys Arg Phe Asp Asp Pro Gly Leu Met Leu Met Gly Phe Lys Pro

340 345 350

Leu Val Leu Leu Lys Lys His His Tyr Leu Arg Pro Ser Leu Phe Val

355 360 365

Tyr Pro Glu Glu Ser Leu Val Ile Gly Ser Ser Thr Leu Phe Ser Ala

370 375 380

Leu Leu Ile Lys Cys Leu Glu Lys Glu Val Ala Ala Leu Cys Arg Tyr

385 390 395 400

Thr Pro Arg Arg Asn Ile Pro Pro Tyr Phe Val Ala Leu Val Pro Gln

405 410 415

Glu Glu Glu Leu Asp Asp Gln Lys Ile Gln Val Thr Pro Pro Gly Phe

420 425 430

Gln Leu Val Phe Leu Pro Phe Ala Asp Asp Lys Arg Lys Met Pro Phe

435 440 445

Thr Glu Lys Ile Met Ala Thr Pro Glu Gln Val Gly Lys Met Lys Ala

450 455 460

Ile Val Glu Lys Leu Arg Phe Thr Tyr Arg Ser Asp Ser Phe Glu Asn

465 470 475 480

Pro Val Leu Gln Gln His Phe Arg Asn Leu Glu Ala Leu Ala Leu Asp

485 490 495

Leu Met Glu Pro Glu Gln Ala Val Asp Leu Thr Leu Pro Lys Val Glu

500 505 510

Ala Met Asn Lys Arg Leu Gly Ser Leu Val Asp Glu Phe Lys Glu Leu

515 520 525

Val Tyr Pro Pro Asp Tyr Asn Pro Glu Gly Lys Val Thr Lys Arg Lys

530 535 540

His Asp Asn Glu Gly Ser Gly Ser Lys Arg Pro Lys Val Glu Tyr Ser

545 550 555 560

Glu Glu Glu Leu Lys Thr His Ile Ser Lys Gly Thr Leu Gly Lys Phe

565 570 575

Thr Val Pro Met Leu Lys Glu Ala Cys Arg Ala Tyr Gly Leu Lys Ser

580 585 590

Gly Leu Lys Lys Gln Glu Leu Leu Glu Ala Leu Thr Lys His Phe Gln

595 600 605

Asp

<210> 14

<211> 485

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 端粒末端转移酶Ku

<400> 14

Met Val Arg Ser Gly Asn Lys Ala Ala Val Val Leu Cys Met Asp Val

1 5 10 15

Gly Phe Thr Met Ser Asn Ser Ile Pro Gly Ile Glu Ser Pro Phe Glu

20 25 30

Gln Ala Lys Lys Val Ile Thr Met Phe Val Gln Arg Gln Val Phe Ala

35 40 45

Glu Asn Lys Asp Glu Ile Ala Leu Val Leu Phe Gly Thr Asp Gly Thr

50 55 60

Asp Asn Pro Leu Ser Gly Gly Asp Gln Tyr Gln Asn Ile Thr Val His

65 70 75 80

Arg His Leu Met Leu Pro Asp Phe Asp Leu Leu Glu Asp Ile Glu Ser

85 90 95

Lys Ile Gln Pro Gly Ser Gln Gln Ala Asp Phe Leu Asp Ala Leu Ile

100 105 110

Val Ser Met Asp Val Ile Gln His Glu Thr Ile Gly Lys Lys Phe Glu

115 120 125

Lys Arg His Ile Glu Ile Phe Thr Asp Leu Ser Ser Arg Phe Ser Lys

130 135 140

Ser Gln Leu Asp Ile Ile Ile His Ser Leu Lys Lys Cys Asp Ile Ser

145 150 155 160

Glu Arg His Ser Ile His Trp Pro Cys Arg Leu Thr Ile Gly Ser Asn

165 170 175

Leu Ser Ile Arg Ile Ala Ala Tyr Lys Ser Ile Leu Gln Glu Arg Val

180 185 190

Lys Lys Thr Trp Thr Val Val Asp Ala Lys Thr Leu Lys Lys Glu Asp

195 200 205

Ile Gln Lys Glu Thr Val Tyr Cys Leu Asn Asp Asp Asp Glu Thr Glu

210 215 220

Val Leu Lys Glu Asp Ile Ile Gln Gly Phe Arg Tyr Gly Ser Asp Ile

225 230 235 240

Val Pro Phe Ser Lys Val Asp Glu Glu Gln Met Lys Tyr Lys Ser Glu

245 250 255

Gly Lys Cys Phe Ser Val Leu Gly Phe Cys Lys Ser Ser Gln Val Gln

260 265 270

Arg Arg Phe Phe Met Gly Asn Gln Val Leu Lys Val Phe Ala Ala Arg

275 280 285

Asp Asp Glu Ala Ala Ala Val Ala Leu Ser Ser Leu Ile His Ala Leu

290 295 300

Asp Asp Leu Asp Met Val Ala Ile Val Arg Tyr Ala Tyr Asp Lys Arg

305 310 315 320

Ala Asn Pro Gln Val Gly Val Ala Phe Pro His Ile Lys His Asn Tyr

325 330 335

Glu Cys Leu Val Tyr Val Gln Leu Pro Phe Met Glu Asp Leu Arg Gln

340 345 350

Tyr Met Phe Ser Ser Leu Lys Asn Ser Lys Lys Tyr Ala Pro Thr Glu

355 360 365

Ala Gln Leu Asn Ala Val Asp Ala Leu Ile Asp Ser Met Ser Leu Ala

370 375 380

Lys Lys Asp Glu Lys Thr Asp Thr Leu Glu Asp Leu Phe Pro Thr Thr

385 390 395 400

Lys Ile Pro Asn Pro Arg Phe Gln Arg Leu Phe Gln Cys Leu Leu His

405 410 415

Arg Ala Leu His Pro Arg Glu Pro Leu Pro Pro Ile Gln Gln His Ile

420 425 430

Trp Asn Met Leu Asn Pro Pro Ala Glu Val Thr Thr Lys Ser Gln Ile

435 440 445

Pro Leu Ser Lys Ile Lys Thr Leu Phe Pro Leu Ile Glu Ala Lys Lys

450 455 460

Lys Asp Gln Val Thr Ala Gln Glu Ile Phe Gln Asp Asn His Glu Asp

465 470 475 480

Gly Pro Thr Ala Lys

485

<210> 15

<211> 10

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> Sm共有序列位点

<400> 15

aatttttgga 10

<210> 16

<211> 83

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 单体Sm样蛋白 (古细菌)

<400> 16

Gly Ser Val Ile Asp Val Ser Ser Gln Arg Val Asn Val Gln Arg Pro

1 5 10 15

Leu Asp Ala Leu Gly Asn Ser Leu Asn Ser Pro Val Ile Ile Lys Leu

20 25 30

Lys Gly Asp Arg Glu Phe Arg Gly Val Leu Lys Ser Phe Asp Leu His

35 40 45

Met Asn Leu Val Leu Asn Asp Ala Glu Glu Leu Glu Asp Gly Glu Val

50 55 60

Thr Arg Arg Leu Gly Thr Val Leu Ile Arg Gly Asp Asn Ile Val Tyr

65 70 75 80

Ile Ser Pro

<210> 17

<211> 25

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> MS2噬菌体操纵子茎环

<400> 17

gcgcacatga ggatcaccca tgtgc 25

<210> 18

<211> 117

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> MS2外壳蛋白

<400> 18

Met Ala Ser Asn Phe Thr Gln Phe Val Leu Val Asp Asn Gly Gly Thr

1 5 10 15

Gly Asp Val Thr Val Ala Pro Ser Asn Phe Ala Asn Gly Ile Ala Glu

20 25 30

Trp Ile Ser Ser Asn Ser Arg Ser Gln Ala Tyr Lys Val Thr Cys Ser

35 40 45

Val Arg Gln Ser Ser Ala Gln Asn Arg Lys Tyr Thr Ile Lys Val Glu

50 55 60

Val Pro Lys Gly Ala Trp Arg Ser Tyr Leu Asn Met Glu Leu Thr Ile

65 70 75 80

Pro Ile Phe Ala Thr Asn Ser Asp Cys Glu Leu Ile Val Lys Ala Met

85 90 95

Gln Gly Leu Leu Lys Asp Gly Asn Pro Ile Pro Ser Ala Ile Ala Ala

100 105 110

Asn Ser Gly Ile Tyr

115

<210> 19

<211> 26

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> PP7噬菌体操纵子茎环

<400> 19

ataaggagtt tatatggaaa ccctta 26

<210> 20

<211> 128

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> PP7外壳蛋白 (PCP)

<400> 20

Met Ser Lys Thr Ile Val Leu Ser Val Gly Glu Ala Thr Arg Thr Leu

1 5 10 15

Thr Glu Ile Gln Ser Thr Ala Asp Arg Gln Ile Phe Glu Glu Lys Val

20 25 30

Gly Pro Leu Val Gly Arg Leu Arg Leu Thr Ala Ser Leu Arg Gln Asn

35 40 45

Gly Ala Lys Thr Ala Tyr Arg Val Asn Leu Lys Leu Asp Gln Ala Asp

50 55 60

Val Val Asp Cys Ser Thr Ser Val Cys Gly Glu Leu Pro Lys Val Arg

65 70 75 80

Tyr Thr Gln Val Trp Ser His Asp Val Thr Ile Val Ala Asn Ser Thr

85 90 95

Glu Ala Ser Arg Lys Ser Leu Tyr Asp Leu Thr Lys Ser Leu Val Ala

100 105 110

Thr Ser Gln Val Glu Asp Leu Val Val Asn Leu Val Pro Leu Gly Arg

115 120 125

<210> 21

<211> 19

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> SfMu Com茎环

<400> 21

ctgaatgcct gcgagcatc 19

<210> 22

<211> 62

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> SfMu Com结合蛋白

<400> 22

Met Lys Ser Ile Arg Cys Lys Asn Cys Asn Lys Leu Leu Phe Lys Ala

1 5 10 15

Asp Ser Phe Asp His Ile Glu Ile Arg Cys Pro Arg Cys Lys Arg His

20 25 30

Ile Ile Met Leu Asn Ala Cys Glu His Pro Thr Glu Lys His Cys Gly

35 40 45

Lys Arg Glu Lys Ile Thr His Ser Asp Glu Thr Val Arg Tyr

50 55 60

<210> 23

<211> 110

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> Rpo B RRDR簇I

<400> 23

gcagcagtga aagagttctt cggttccagc cagctgtctc agtttatgga ccagaacaac 60

ccgctgtctg agattacgca caaacgtcgt atctccgcac tcggcccagg 110

<210> 24

<211> 110

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> Rpo B RRDR簇I

<400> 24

cctgggccga gtgcggagat acgacgtttg tgcgtaatct cagacagcgg gttgttctgg 60

tccataaact gagacagctg gctggaaccg aagaactctt tcactgctgc 110

<210> 25

<211> 36

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> Rpo B RRDR簇I蛋白

<400> 25

Ala Ala Val Lys Glu Phe Phe Gly Ser Ser Gln Leu Ser Gln Phe Met

1 5 10 15

Asp Gln Asn Asn Pro Leu Ser Glu Ile Thr His Lys Arg Arg Ile Ser

20 25 30

Ala Leu Gly Pro

35

<210> 26

<211> 30

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 处理的Rpo B RRDR簇I Ts4

<400> 26

acaaacgtcg tatcttcgca ctcggcccag 30

<210> 27

<211> 30

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 未处理的Rpo B RRDR簇I Ts4

<400> 27

acaaacgtcg tatctccgca ctcggcccag 30

<210> 28

<211> 10

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 处理的Rpo B RRDR簇I Ts4

<400> 28

His Lys Arg Arg Ile Phe Ala Leu Gly Pro

1 5 10

<210> 29

<211> 10

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 未处理的Rpo B RRDR簇I Ts4

<400> 29

His Lys Arg Arg Ile Ser Ala Leu Gly Pro

1 5 10

<210> 30

<211> 12

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 未处理的Rpo B RRDR簇I Ts3

<400> 30

Thr His Lys Arg Arg Ile Ser Ala Leu Gly Pro Gly

1 5 10

<210> 31

<211> 12

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 处理的Rpo B RRDR簇I Ts4

<400> 31

Thr His Lys Arg Arg Ile Phe Ala Leu Gly Pro Gly

1 5 10

<210> 32

<211> 36

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 未处理的Rpo B RRDR簇I Ts4

<400> 32

acgcacaaac gtcgtatctc cgcactcggc ccaggc 36

<210> 33

<211> 9

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 未处理的乱序序列

<400> 33

Gly Ser Ser Gln Leu Ser Gln Phe Met

1 5

<210> 34

<211> 9

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 处理的乱序序列

<400> 34

Gly Ser Ser Gln Leu Ser Arg Phe Met

1 5

<210> 35

<211> 27

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 未处理的乱序序列

<400> 35

ggttccagcc agctgtctca gtttatg 27

<210> 36

<211> 5

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 未处理的乱序序列

<400> 36

Arg Ile Ser Ala Leu

1 5

<210> 37

<211> 5

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 处理的乱序序列

<400> 37

Arg Ile Phe Ala Leu

1 5

<210> 38

<211> 15

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 未处理的乱序序列

<400> 38

cgtatctccg cactc 15

<210> 39

<211> 4

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 未处理的乱序序列

<400> 39

Gly Leu Ile Asn

1

<210> 40

<211> 4

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 处理的乱序序列

<400> 40

Gly Leu Phe Asn

1

<210> 41

<211> 15

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 未处理的乱序序列

<400> 41

ggtctgatca actct 15

<210> 42

<211> 51

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> nfGFP有义

<400> 42

ccctggccca ccctcgtgac caccctgacc tgcggcgtgc agtgcttcag c 51

<210> 43

<211> 51

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> nfGFP反义

<400> 43

gctgaagcac tgcacgccgc aggtcagggt ggtcacgagg gtgggccagg g 51

<210> 44

<211> 17

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> nfGFP蛋白

<400> 44

Pro Trp Pro Thr Leu Val Thr Thr Leu Thr Cys Gly Val Gln Cys Phe

1 5 10 15

Ser

<210> 45

<211> 51

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> HPGRT有义

<400> 45

ctgaaggggg gctataaatt ctttgctgac ctgctggatt acattaaagc a 51

<210> 46

<211> 51

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> HPGRT反义

<400> 46

tgctttaatg taatccagca ggtcagcaaa gaatttatag ccccccttca g 51

<210> 47

<211> 17

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> HPGRT蛋白

<400> 47

Leu Lys Gly Gly Tyr Lys Phe Phe Ala Asp Leu Leu Asp Tyr Ile Lys

1 5 10 15

Ala

<210> 48

<211> 594

<212> DNA

<213> 智人（Homo sapiens）

<400> 48

atggacagcc tcttgatgaa ccggaggaag tttctttacc aattcaaaaa tgtccgctgg 60

gctaagggtc ggcgtgagac ctacctgtgc tacgtagtga agaggcgtga cagtgctaca 120

tccttttcac tggactttgg ttatcttcgc aataagaacg gctgccacgt ggaattgctc 180

ttcctccgct acatctcgga ctgggaccta gaccctggcc gctgctaccg cgtcacctgg 240

ttcacctcct ggagcccctg ctacgactgt gcccgacatg tggccgactt tctgcgaggg 300

aaccccaacc tcagtctgag gatcttcacc gcgcgcctct acttctgtga ggaccgcaag 360

gctgagcccg aggggctgcg gcggctgcac cgcgccgggg tgcaaatagc catcatgacc 420

ttcaaagatt atttttactg ctggaatact tttgtagaaa accatgaaag aactttcaaa 480

gcctgggaag ggctgcatga aaattcagtt cgtctctcca gacagcttcg gcgcatcctt 540

ttgcccctgt atgaggttga tgacttacga gacgcatttc gtactttggg actt 594

<210> 49

<211> 198

<212> PRT

<213> 智人（Homo sapiens）

<400> 49

Met Asp Ser Leu Leu Met Asn Arg Arg Lys Phe Leu Tyr Gln Phe Lys

1 5 10 15

Asn Val Arg Trp Ala Lys Gly Arg Arg Glu Thr Tyr Leu Cys Tyr Val

20 25 30

Val Lys Arg Arg Asp Ser Ala Thr Ser Phe Ser Leu Asp Phe Gly Tyr

35 40 45

Leu Arg Asn Lys Asn Gly Cys His Val Glu Leu Leu Phe Leu Arg Tyr

50 55 60

Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg Val Thr Trp

65 70 75 80

Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg His Val Ala Asp

85 90 95

Phe Leu Arg Gly Asn Pro Asn Leu Ser Leu Arg Ile Phe Thr Ala Arg

100 105 110

Leu Tyr Phe Cys Glu Asp Arg Lys Ala Glu Pro Glu Gly Leu Arg Arg

115 120 125

Leu His Arg Ala Gly Val Gln Ile Ala Ile Met Thr Phe Lys Asp Tyr

130 135 140

Phe Tyr Cys Trp Asn Thr Phe Val Glu Asn His Glu Arg Thr Phe Lys

145 150 155 160

Ala Trp Glu Gly Leu His Glu Asn Ser Val Arg Leu Ser Arg Gln Leu

165 170 175

Arg Arg Ile Leu Leu Pro Leu Tyr Glu Val Asp Asp Leu Arg Asp Ala

180 185 190

Phe Arg Thr Leu Gly Leu

195

<210> 50

<211> 594

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 编码S38A突变体

<400> 50

atggacagcc tcttgatgaa ccggaggaag tttctttacc aattcaaaaa tgtccgctgg 60

gctaagggtc ggcgtgagac ctacctgtgc tacgtagtga agaggcgtga cgccgctaca 120

tccttttcac tggactttgg ttatcttcgc aataagaacg gctgccacgt ggaattgctc 180

ttcctccgct acatctcgga ctgggaccta gaccctggcc gctgctaccg cgtcacctgg 240

ttcacctcct ggagcccctg ctacgactgt gcccgacatg tggccgactt tctgcgaggg 300

aaccccaacc tcagtctgag gatcttcacc gcgcgcctct acttctgtga ggaccgcaag 360

gctgagcccg aggggctgcg gcggctgcac cgcgccgggg tgcaaatagc catcatgacc 420

ttcaaagatt atttttactg ctggaatact tttgtagaaa accatgaaag aactttcaaa 480

gcctgggaag ggctgcatga aaattcagtt cgtctctcca gacagcttcg gcgcatcctt 540

ttgcccctgt atgaggttga tgacttacga gacgcatttc gtactttggg actt 594

<210> 51

<211> 198

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> S38A突变体

<400> 51

Met Asp Ser Leu Leu Met Asn Arg Arg Lys Phe Leu Tyr Gln Phe Lys

1 5 10 15

Asn Val Arg Trp Ala Lys Gly Arg Arg Glu Thr Tyr Leu Cys Tyr Val

20 25 30

Val Lys Arg Arg Asp Ala Ala Thr Ser Phe Ser Leu Asp Phe Gly Tyr

35 40 45

Leu Arg Asn Lys Asn Gly Cys His Val Glu Leu Leu Phe Leu Arg Tyr

50 55 60

Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg Val Thr Trp

65 70 75 80

Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg His Val Ala Asp

85 90 95

Phe Leu Arg Gly Asn Pro Asn Leu Ser Leu Arg Ile Phe Thr Ala Arg

100 105 110

Leu Tyr Phe Cys Glu Asp Arg Lys Ala Glu Pro Glu Gly Leu Arg Arg

115 120 125

Leu His Arg Ala Gly Val Gln Ile Ala Ile Met Thr Phe Lys Asp Tyr

130 135 140

Phe Tyr Cys Trp Asn Thr Phe Val Glu Asn His Glu Arg Thr Phe Lys

145 150 155 160

Ala Trp Glu Gly Leu His Glu Asn Ser Val Arg Leu Ser Arg Gln Leu

165 170 175

Arg Arg Ile Leu Leu Pro Leu Tyr Glu Val Asp Asp Leu Arg Asp Ala

180 185 190

Phe Arg Thr Leu Gly Leu

195

<210> 52

<211> 1367

<212> PRT

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> Cas9 D10A蛋白

<400> 52

Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val Gly

1 5 10 15

Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys

20 25 30

Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly

35 40 45

Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys

50 55 60

Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr

65 70 75 80

Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe

85 90 95

Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His

100 105 110

Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His

115 120 125

Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser

130 135 140

Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met

145 150 155 160

Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp

165 170 175

Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn

180 185 190

Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys

195 200 205

Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu

210 215 220

Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu

225 230 235 240

Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp

245 250 255

Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp

260 265 270

Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu

275 280 285

Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile

290 295 300

Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met

305 310 315 320

Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala

325 330 335

Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp

340 345 350

Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln

355 360 365

Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly

370 375 380

Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys

385 390 395 400

Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly

405 410 415

Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu

420 425 430

Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro

435 440 445

Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met

450 455 460

Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val

465 470 475 480

Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn

485 490 495

Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu

500 505 510

Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr

515 520 525

Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys

530 535 540

Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val

545 550 555 560

Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser

565 570 575

Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr

580 585 590

Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn

595 600 605

Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu

610 615 620

Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His

625 630 635 640

Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr

645 650 655

Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys

660 665 670

Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala

675 680 685

Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys

690 695 700

Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His

705 710 715 720

Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile

725 730 735

Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg

740 745 750

His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr

755 760 765

Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu

770 775 780

Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val

785 790 795 800

Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln

805 810 815

Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu

820 825 830

Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp

835 840 845

Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly

850 855 860

Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn

865 870 875 880

Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe

885 890 895

Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys

900 905 910

Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys

915 920 925

His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu

930 935 940

Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys

945 950 955 960

Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu

965 970 975

Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val

980 985 990

Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val

995 1000 1005

Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys

1010 1015 1020

Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr

1025 1030 1035

Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn

1040 1045 1050

Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr

1055 1060 1065

Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg

1070 1075 1080

Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu

1085 1090 1095

Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg

1100 1105 1110

Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys

1115 1120 1125

Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu

1130 1135 1140

Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser

1145 1150 1155

Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe

1160 1165 1170

Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu

1175 1180 1185

Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe

1190 1195 1200

Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu

1205 1210 1215

Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn

1220 1225 1230

Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro

1235 1240 1245

Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His

1250 1255 1260

Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg

1265 1270 1275

Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr

1280 1285 1290

Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile

1295 1300 1305

Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe

1310 1315 1320

Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr

1325 1330 1335

Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly

1340 1345 1350

Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp

1355 1360 1365

<210> 53

<211> 4101

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 编码Cas9 D10A蛋白的DNA

<400> 53

gataaaaagt attctattgg tttagccatc ggcactaatt ccgttggatg ggctgtcata 60

accgatgaat acaaagtacc ttcaaagaaa tttaaggtgt tggggaacac agaccgtcat 120

tcgattaaaa agaatcttat cggtgccctc ctattcgata gtggcgaaac ggcagaggcg 180

actcgcctga aacgaaccgc tcggagaagg tatacacgtc gcaagaaccg aatatgttac 240

ttacaagaaa tttttagcaa tgagatggcc aaagttgacg attctttctt tcaccgtttg 300

gaagagtcct tccttgtcga agaggacaag aaacatgaac ggcaccccat ctttggaaac 360

atagtagatg aggtggcata tcatgaaaag tacccaacga tttatcacct cagaaaaaag 420

ctagttgact caactgataa agcggacctg aggttaatct acttggctct tgcccatatg 480

ataaagttcc gtgggcactt tctcattgag ggtgatctaa atccggacaa ctcggatgtc 540

gacaaactgt tcatccagtt agtacaaacc tataatcagt tgtttgaaga gaaccctata 600

aatgcaagtg gcgtggatgc gaaggctatt cttagcgccc gcctctctaa atcccgacgg 660

ctagaaaacc tgatcgcaca attacccgga gagaagaaaa atgggttgtt cggtaacctt 720

atagcgctct cactaggcct gacaccaaat tttaagtcga acttcgactt agctgaagat 780

gccaaattgc agcttagtaa ggacacgtac gatgacgatc tcgacaatct actggcacaa 840

attggagatc agtatgcgga cttatttttg gctgccaaaa accttagcga tgcaatcctc 900

ctatctgaca tactgagagt taatactgag attaccaagg cgccgttatc cgcttcaatg 960

atcaaaaggt acgatgaaca tcaccaagac ttgacacttc tcaaggccct agtccgtcag 1020

caactgcctg agaaatataa ggaaatattc tttgatcagt cgaaaaacgg gtacgcaggt 1080

tatattgacg gcggagcgag tcaagaggaa ttctacaagt ttatcaaacc catattagag 1140

aagatggatg ggacggaaga gttgcttgta aaactcaatc gcgaagatct actgcgaaag 1200

cagcggactt tcgacaacgg tagcattcca catcaaatcc acttaggcga attgcatgct 1260

atacttagaa ggcaggagga tttttatccg ttcctcaaag acaatcgtga aaagattgag 1320

aaaatcctaa cctttcgcat accttactat gtgggacccc tggcccgagg gaactctcgg 1380

ttcgcatgga tgacaagaaa gtccgaagaa acgattactc catggaattt tgaggaagtt 1440

gtcgataaag gtgcgtcagc tcaatcgttc atcgagagga tgaccaactt tgacaagaat 1500

ttaccgaacg aaaaagtatt gcctaagcac agtttacttt acgagtattt cacagtgtac 1560

aatgaactca cgaaagttaa gtatgtcact gagggcatgc gtaaacccgc ctttctaagc 1620

ggagaacaga agaaagcaat agtagatctg ttattcaaga ccaaccgcaa agtgacagtt 1680

aagcaattga aagaggacta ctttaagaaa attgaatgct tcgattctgt cgagatctcc 1740

ggggtagaag atcgatttaa tgcgtcactt ggtacgtatc atgacctcct aaagataatt 1800

aaagataagg acttcctgga taacgaagag aatgaagata tcttagaaga tatagtgttg 1860

actcttaccc tctttgaaga tcgggaaatg attgaggaaa gactaaaaac atacgctcac 1920

ctgttcgacg ataaggttat gaaacagtta aagaggcgtc gctatacggg ctggggacga 1980

ttgtcgcgga aacttatcaa cgggataaga gacaagcaaa gtggtaaaac tattctcgat 2040

tttctaaaga gcgacggctt cgccaatagg aactttatgc agctgatcca tgatgactct 2100

ttaaccttca aagaggatat acaaaaggca caggtttccg gacaagggga ctcattgcac 2160

gaacatattg cgaatcttgc tggttcgcca gccatcaaaa agggcatact ccagacagtc 2220

aaagtagtgg atgagctagt taaggtcatg ggacgtcaca aaccggaaaa cattgtaatc 2280

gagatggcac gcgaaaatca aacgactcag aaggggcaaa aaaacagtcg agagcggatg 2340

aagagaatag aagagggtat taaagaactg ggcagccaga tcttaaagga gcatcctgtg 2400

gaaaataccc aattgcagaa cgagaaactt tacctctatt acctacaaaa tggaagggac 2460

atgtatgttg atcaggaact ggacataaac cgtttatctg attacgacgt cgatcacatt 2520

gtaccccaat cctttttgaa ggacgattca atcgacaata aagtgcttac acgctcggat 2580

aagaaccgag ggaaaagtga caatgttcca agcgaggaag tcgtaaagaa aatgaagaac 2640

tattggcggc agctcctaaa tgcgaaactg ataacgcaaa gaaagttcga taacttaact 2700

aaagctgaga ggggtggctt gtctgaactt gacaaggccg gatttattaa acgtcagctc 2760

gtggaaaccc gccaaatcac aaagcatgtt gcacagatac tagattcccg aatgaatacg 2820

aaatacgacg agaacgataa gctgattcgg gaagtcaaag taatcacttt aaagtcaaaa 2880

ttggtgtcgg acttcagaaa ggattttcaa ttctataaag ttagggagat aaataactac 2940

caccatgcgc acgacgctta tcttaatgcc gtcgtaggga ccgcactcat taagaaatac 3000

ccgaagctag aaagtgagtt tgtgtatggt gattacaaag tttatgacgt ccgtaagatg 3060

atcgcgaaaa gcgaacagga gataggcaag gctacagcca aatacttctt ttattctaac 3120

attatgaatt tctttaagac ggaaatcact ctggcaaacg gagagatacg caaacgacct 3180

ttaattgaaa ccaatgggga gacaggtgaa atcgtatggg ataagggccg ggacttcgcg 3240

acggtgagaa aagttttgtc catgccccaa gtcaacatag taaagaaaac tgaggtgcag 3300

accggagggt tttcaaagga atcgattctt ccaaaaagga atagtgataa gctcatcgct 3360

cgtaaaaagg actgggaccc gaaaaagtac ggtggcttcg atagccctac agttgcctat 3420

tctgtcctag tagtggcaaa agttgagaag ggaaaatcca agaaactgaa gtcagtcaaa 3480

gaattattgg ggataacgat tatggagcgc tcgtcttttg aaaagaaccc catcgacttc 3540

cttgaggcga aaggttacaa ggaagtaaaa aaggatctca taattaaact accaaagtat 3600

agtctgtttg agttagaaaa tggccgaaaa cggatgttgg ctagcgccgg agagcttcaa 3660

aaggggaacg aactcgcact accgtctaaa tacgtgaatt tcctgtattt agcgtcccat 3720

tacgagaagt tgaaaggttc acctgaagat aacgaacaga agcaactttt tgttgagcag 3780

cacaaacatt atctcgacga aatcatagag caaatttcgg aattcagtaa gagagtcatc 3840

ctagctgatg ccaatctgga caaagtatta agcgcataca acaagcacag ggataaaccc 3900

atacgtgagc aggcggaaaa tattatccat ttgtttactc ttaccaacct cggcgctcca 3960

gccgcattca agtattttga cacaacgata gatcgcaaac gatacacttc taccaaggag 4020

gtgctagacg cgacactgat tcaccaatcc atcacgggat tatatgaaac tcggatagat 4080

ttgtcacagc ttgggggtga c 4101

<210> 54

<211> 157

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<221>

<222>

<223> 2xMS2 RNA支架表达盒

<400> 54

gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60

ggcaccgagt cggtgcggga gcacatgagg atcacccatg tgccacgagc gacatgagga 120

tcacccatgt cgctcgtgtt cccttttttt ctccgct 157

Claims

1.一种通过基因编辑系统对靶DNA或RNA进行位点特异性修饰的方法，其包含分别在靶DNA或RNA中将第一系统和第二系统与第一靶核酸序列和第二靶核酸序列相互作用；其中

(1)第一系统包含：

(i)第一序列靶向蛋白，

(ii)第一RNA支架，其包含：(a)第一核酸靶向基序，其包含与靶DNA或RNA中第一靶核酸序列互补的第一指导RNA序列，(b)能够结合第一序列靶向蛋白的第一CRISPR基序，和(c)第一募集RNA基序，和

(iii)第一非核酸酶效应子融合蛋白，其包含：(a)能够结合第一募集RNA基序的第一RNA结合结构域，(b)第一接头，和(c)第一效应子结构域，

其中第一非核酸酶效应子融合蛋白具有酶活性；且

(2)第二系统包含：

(i)第二序列靶向蛋白和

(ii)第二RNA支架，其包含：(a)第二核酸靶向基序，其包含与靶DNA或RNA中第二靶核酸序列互补的第二指导RNA序列，和(b)能够结合第二序列靶向蛋白的第二CRISPR基序。

2.根据权利要求1所述的方法，其中第二RNA支架进一步包含(c)第二募集RNA基序。

3.根据权利要求2所述的方法，其中第二系统进一步包含

(iii)第二非核酸酶效应子融合蛋白，其包含：(a)能够结合第二募集RNA基序的第二RNA结合结构域，(b)第二接头，和(c)第二效应子结构域，

其中第二非核酸酶效应子融合蛋白可具有或不具有酶活性。

4.根据权利要求2所述的方法，其中第二系统包含：(iii)局部DNA修复抑制剂融合蛋白，其包含：(a)能够结合第二募集RNA基序的第二RNA结合结构域，(b)第二接头，和(c)局部DNA修复抑制剂结构域。

5.根据权利要求1至4任一项所述的方法，其中第一或第二序列靶向蛋白是不引起双链DNA断裂的CRISPR蛋白变体。

6.根据权利要求1至5任一项所述的系统，其中第一或第二序列靶向蛋白不具有引起双链DNA断裂的核酸酶活性。

7.根据权利要求1至6任一项所述的系统，其中第一或第二序列靶向蛋白包含选自由以下组成的组的物种的dCas9或nCas9的序列：化脓性链球菌(Streptococcus pyogenes)、无乳链球菌(Streptococcus agalactiae)、金黄色葡萄球菌(Staphylococcus aureus)、嗜热链球菌(Streptococcus thermophilus)、嗜热链球菌(Streptococcus thermophilus)、脑膜炎奈瑟球菌(Neisseria meningitidis)和齿垢密螺旋体(Treponema denticola)。

8.根据权利要求7所述的方法，其中第一序列靶向蛋白和第二序列靶向蛋白是Cas9的直系同源物和变体并且结合不同的PAM。

9.根据权利要求1至8中任一项所述的方法，其中第一或第二募集RNA基序和第一或第二RNA结合结构域是选自由以下组成的组的对：

端粒酶Ku结合基序和Ku蛋白或其RNA结合部分，

端粒酶Sm7结合基序和Sm7蛋白或其RNA结合部分，

MS2噬菌体操纵子茎环和MS2外壳蛋白(MCP)或其RNA结合部分，

PP7噬菌体操纵子茎环和PP7外壳蛋白(PCP)或其RNA结合部分，

SfMu噬菌体Com茎环和Com RNA结合蛋白或其RNA结合部分，和

非天然RNA适体和相应的适体配体或其RNA结合部分。

10.根据权利要求1至9任一项所述的方法，其中第一或第二接头的长度为0至100个氨基酸残基。

11.根据权利要求1至10任一项所述的方法，其中酶活性是脱氨基活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光解酶活性或糖基化酶活性。

12.根据权利要求11所述的方法，其中酶活性是脱氨基活性、甲基转移酶活性或脱甲基酶活性。

13.根据权利要求11所述的方法，其中酶活性是胞苷脱氨基活性或腺苷脱氨基活性。

14.根据权利要求1至13任一项所述的方法，其中第一或第二RNA结合结构域不是Cas9或其功能等价物，也不是其RNA结合结构域。

15.根据权利要求1至14任一项所述的方法，其中靶核酸在细胞中。

16.根据权利要求15所述的方法，其中靶核酸是染色体外DNA或染色体上的基因组DNA。

17.根据权利要求15至16任一项所述的方法，其中细胞选自由以下组成的组：古细菌细胞、细菌细胞、真核细胞、真核单细胞生物、体细胞、生殖细胞、干细胞、植物细胞、藻类细胞、动物细胞、无脊椎动物细胞、脊椎动物细胞、鱼细胞、蛙细胞、禽类细胞、哺乳动物细胞、猪细胞、牛细胞、山羊细胞、绵羊细胞、啮齿动物细胞、大鼠细胞、小鼠细胞、非人灵长类动物细胞和人细胞。

18.根据权利要求15-16任一项所述的方法，其中细胞在人或非人受试者中或来源于人或非人受试者。

19.根据权利要求18所述的方法，其中人或非人受试者具有基因的遗传突变。

20.根据权利要求19所述的方法，其中受试者患有由所述遗传突变引起的病况或处于患有该病况的风险中。

21.根据权利要求20所述的方法，其中所述位点特异性修饰校正了遗传突变或使基因的表达失活。

22.根据权利要求18所述的方法，其中受试者具有病原体或处于暴露于该病原体的风险中。

23.根据权利要求22所述的方法，其中所述位点特异性修饰使病原体的基因失活。

24.一种分离的核酸或分离的核酸组，所述核酸或核酸组编码根据权利要求1至23任一项所述的第一系统或第二系统或所述两个系统。

25.一种表达载体或宿主细胞，其包含根据权利要求24所述的核酸或分离的核酸组。

26.一种试剂盒，其包含选自由以下组成的组的一个或更多个：根据权利要求1至23任一项所述的第一系统和第二系统，和根据权利要求24所述的分离的核酸或分离的核酸组，和根据权利要求25所述的表达载体或宿主细胞。

27.根据权利要求26所述的试剂盒，其进一步包含选自由以下组成的组的一个或更多个组分：用于重构和/或稀释的试剂和用于将核酸或多肽引入宿主细胞的试剂。

28.一种组合物，其包含选自由以下组成的组的一个或更多个：根据权利要求1至23任一项所述的第一系统和第二系统，根据权利要求24所述的分离的核酸或分离的核酸组，和根据权利要求25所述的表达载体或宿主细胞。