CN108291218B

CN108291218B - 核酸酶非依赖性靶向基因编辑平台及其用途

Info

Publication number: CN108291218B
Application number: CN201680053489.6A
Authority: CN
Inventors: 金晟侃; J-C·科兰特斯
Original assignee: Rutgers State University of New Jersey
Current assignee: Rutgers State University of New Jersey
Priority date: 2015-07-15
Filing date: 2016-07-15
Publication date: 2022-08-19
Anticipated expiration: 2036-07-15
Also published as: CA3168241A1; EP3957731A1; DK3322804T3; WO2017011721A1; JP7364268B2; EP3322804B1; HK1258288A1; CA2992580C; CN108291218A; JP2018520686A; ES2892625T3; US11479793B2; EP3322804A4; US20220267806A1; CA2992580A1; EP3322804A1; US20180327784A1; JP7044373B2; JP2022095633A

Abstract

本发明公开了用于靶向基因编辑的系统及相关用途。

Description

核酸酶非依赖性靶向基因编辑平台及其用途

相关申请的交叉引用

本申请要求于2015年7月15日提交的美国临时申请号62/192,876的优先权。该申请的内容通过引用整体并入本文。

政府利益

本文所公开的发明至少部分是在美国国务院富布赖特外国学生计划的资助号15130816的政府支持下完成的。因此，美国政府对本发明具有一定的权利。

发明领域

本发明涉及用于靶向基因编辑的系统及相关用途。

发明背景

靶向基因编辑是真核细胞、胚胎和动物基因操作的有力工具。使用它，靶向的基因组位置和/或特定的染色体序列可以被缺失、失活或修饰。目前的几种方法依赖于使用工程改造的核酸酶，例如锌指核酸酶(ZFN)或转录激活剂样效应子核酸酶(TALEN)。这些嵌合核酸酶含有与非特异性DNA切割结构域连接的可编程的、序列特异性DNA结合模块。由于每个新的基因组靶需要设计包含新的序列特异性DNA结合模块的新的ZFN或TALEN，所以这些定制设计的核酸酶制备起来往往是昂贵且耗时的。而且，ZFN和TALEN的特异性使得它们能够介导从靶解离的(off-target)切割。最近开发的基因组修饰在技术上利用细菌簇规律间隔有短回文重复序列(clusters of regularly interspaced short palindromic repeats，CRISPR)相关蛋白9(Cas9)(一种RNA指导的DNA内切核酸酶)诱导DNA靶位点上特定的双链断裂(DSB)。RNA-Cas9复合物识别其同源DNA靶序列并与其碱基配对，导致靶切割形成DSB。

然而，一个尚未解决的主要问题是如何校正体细胞中的基因突变。目前现有技术的共同效应子是核酸酶，所述核酸酶导致DNA DSB，其进而触发细胞通路的激活，如同源重组和非同源末端连接。这个过程有许多主要缺点。首先，由于末端连接的最终产品具有不可预知的性质，DSB以随机和不可预测的方式导致框架内(in-frame)和框架移位(frame-shift)突变，这限制了其用于直接临床应用。其次，DSB可能引起非局部致突变事件，如染色体易位，这是该过程的不良后果。在体内，这些变化可能是潜在有害的。第三，修复或校正通常需要DSB介导的同源重组，其活性在治疗剂尤为重要的大多数体细胞组织/细胞中低或甚至不存在。

因此，目前的基于核酸酶的技术对基因编辑的适用性有限，并且存在对不依赖于导致双链断裂的核酸酶活性的靶向基因修饰技术的需求。

发明概述

本发明通过提供靶向基因编辑系统和相关用途来解决上述需求。本文中涉及的胚胎为非人动物胚胎。

因此，本发明的一个方面提供了一种系统，其包含：(i)靶向序列的蛋白，或编码其的多核苷酸，(ii)RNA支架，或编码其的DNA多核苷酸，和(iii)非核酸酶效应子融合蛋白，或编码其的多核苷酸。RNA支架包含(a)靶向核酸的基序，其包含与靶核酸序列互补的指导RNA序列，(b)CRISPR基序，其能够结合靶向序列的蛋白，和(c)募集RNA基序。非核酸酶效应子融合蛋白包含(a)结合RNA的结构域，其能够结合募集RNA基序，(b)接头序列，和(c)效应子结构域。非核酸酶效应子融合蛋白具有酶促活性。

对于上述系统，靶向序列的蛋白可以是CRISPR蛋白。优选地，靶向序列的蛋白质不具有核酸酶活性。靶向序列的蛋白的实例包括选自由以下组成的组的菌种的dCas9：化脓性链球菌(Streptococcus pyogenes)、无乳链球菌(Streptococcus agalactiae)、金黄色葡萄球菌(Staphylococcus aureus)、嗜热链球菌(Streptococcus thermophilus)、嗜热链球菌(Streptococcus thermophilus)、脑膜炎奈瑟球菌(Neisseria meningitidis)和齿垢密螺旋体(Treponema denticola)。

在上述RNA支架中，募集RNA基序和RNA结合结构域可以是选自以下组成组的对：(1)端粒酶Ku结合基序和Ku蛋白或其RNA结合部分，(2)端粒酶Sm7结合基序和Sm7蛋白或其RNA结合部分，(3)MS2噬菌体操纵子茎环和MS2外壳蛋白(MCP)或其RNA结合部分，(4)PP7噬菌体操纵子茎环和PP7外壳蛋白(PCP)或其RNA结合部分，(5)SfMu噬菌体Com茎环和Com RNA结合蛋白或其RNA结合部分，和(6)非天然RNA适体和相应的适体配体或其RNA结合部分。

在上述非核酸酶效应子融合蛋白中，接头序列的长度可以是0-100(例如1-100、5-80、10-50和20-30)个氨基酸残基。酶促活性是脱氨基活性，甲基转移酶活性，脱甲基酶活性，DNA修复活性，DNA损伤活性，歧化酶活性，烷基化活性，脱嘌呤活性，氧化活性，嘧啶二聚体形成活性，整合酶活性，转座酶活性，重组酶活性，聚合酶活性，连接酶活性，解旋酶活性，光裂合酶活性或糖基化酶活性。在一些实施方案中，酶促活性是脱氨基活性(例如，胞嘧啶脱氨基活性或腺苷脱氨基活性)，甲基转移酶活性或脱甲基酶活性。RNA结合结构域不是Cas9或其功能等价物，也不是其RNA结合结构域。

还提供了编码上述系统的组分(i)-(iii)中的一种或多种的分离的核酸，包含所述核酸的表达载体，或包含所述核酸的宿主细胞。

在第二个方面，本发明提供了位点特异性修饰靶DNA的方法。该方法包括使靶核酸与上述系统的组分(i)-(iii)接触。靶核酸可以在细胞中。靶核酸可以是RNA，染色体外DNA或染色体上的基因组DNA。细胞可以选自由以下组成的组：古细菌细胞，细菌细胞，真核细胞，真核单细胞生物，体细胞，非人动物生殖细胞，干细胞，植物细胞，藻类细胞，动物细胞，无脊椎动物细胞，脊椎动物细胞，鱼细胞，蛙细胞，鸟类细胞，哺乳动物细胞，猪细胞，牛细胞，山羊细胞，绵羊细胞，啮齿动物细胞，大鼠细胞，小鼠细胞，非人灵长类动物细胞和人细胞。

细胞可以在人或非人受试者中或来源于人或非人受试者。人或非人受试者具有基因的基因突变。在一些实施方案中，所述受试者患有由基因突变引起的疾病或有患该疾病的风险。在这种情况下，位点特异性修饰校正了基因突变或使基因表达失活。在其他实施方案中，受试者具有病原体或处于暴露于该病原体的风险中，并且位点特异性修饰使病原体基因失活。

本发明进一步提供了包含上述系统或其一个或多个组分的试剂盒。该系统可以进一步含有一种或多种选自由以下组成组的组分：用于重构和/或稀释的试剂和用于将核酸或多肽引入宿主细胞的试剂。

在下面的描述中阐述了本发明的一个或多个实施方案的细节。从说明书和权利要求中，本发明的其它特征、目的和优点将是显而易见的。

附图简要说明

图1A、1B、1C、1D和1E是用于体内靶向基因编辑的示例性的核酸酶非依赖性的CasRcure或CRC平台的一组示意图。图1A.平台的组分，从左往右：(1)靶向序列的组分dCas9，(2)RNA支架，其含有指导RNA基序(用于靶向序列)、CRISPR基序(用于dCas9结合)和募集RNA基序(用于募集效应子-RNA结合蛋白融合体)，和(3)效应子-RNA结合域融合蛋白。系统可以经安排为靶向DNA或RNA分子上的特定核苷酸(右)。图1B.如果效应子蛋白融合体作为单体起作用，则该系统可以靶向靶位点的上游(左侧)或下游(右侧)的单个位点。图1C.如果效应子蛋白需要二聚化才能发挥正确的催化功能，则可以将该系统多重化以同时靶向靶位点的上游和下游的多个序列，从而使效应子蛋白二聚化(右)。或者，将效应子蛋白募集至单个位点可足以增加其对相邻效应子蛋白的亲和力，促进二聚化(右)。图1D.被募集并定位在靶位点的四聚体效应子酶的实例可通过双(左)或单靶向(右)实现。图1E.可用于编辑RNA靶(例如逆转录病毒失活)的系统。

图2A、2B、2C、2D、2E和2F显示AID的靶向募集能够引入核苷酸转换的位点特异性转换。图2A.沿大肠杆菌的rpoB基因的RRDR簇I的靶区域(SEQ ID No：23和24)的示意图。显示了(顶部)DNA序列(SEQ ID No：23)，其中显示了PAM(加框)和可突变位置(箭头)；(中部)这些实验中使用的gRNA的结合位点，所有的gRNA被编程为靶向模板链(TS，-)；(底部)蛋白质序列(SEQ ID No：25)，其中显示了涉及利福平耐药性的关键氨基酸(箭头)。图2B.用指定的gRNA处理大肠杆菌MG1655细胞并在含有120μM利福平的平板中选择。图2C.从图2B的顶部图计算突变频率。图2D.来自用rpoB_TS-4gRNA处理的^AIDCRC(顶部，SEQ ID NO：26)和未处理的细胞(中部，SEQ ID NO：27)的代表性测序结果。C1592>T突变导致蛋白质序列中的S531F改变(底部，SEQ ID NO：28和29)，该突变是已知诱导Rif的突变(Petersen-Mahrt,et al.,Nature 418,99-104(2002),Xu,M.,et al.,Journal of Bacteriology 187,2783-2792,doi:10.1128/JB.187.8.2783-2792.2005(2005),和Zenkin,N.,et al.,AntimicrobialAgents and Chemotherapy 49,1587-1590,doi:10.1128/AAC.49.4.1587-1590.2005(2005))。以C和S(野生型)以及T和F(突变体)显示修饰的核苷酸和氨基酸残基。图2E.用gRNA rpoB_3、rpoB_TS-4和乱序序列(scramble)(SEQ ID No：30-41)处理^AIDCRC的突变分布。图2F.数据表明CRC积极地将位于未配对的链(原间隔区(protospacer))上的靶胞嘧啶残基脱氨基，优先更接近5'末端。

图3A和3B显示了CRC系统模块化：靶向模块的工程化提高了突变频率。图3A.当用rpoB_TS-4gRNA靶向时，将靶向模块从dCas9改变为nCas9_D10A提高了系统效率，将利福平平板上的存活分数从高于对照18倍(^AIDCRC)增加至43倍(^AIDCRC_D10A)。图3B.用rpoB_TS-4作为靶(SEQ ID No：30-32)的^AIDCRC_D10A处理的突变分布。C1592在100％的克隆中被修饰，其中75％的C被突变为T，25％的C被突变为A。

图4A和4B显示了CRC系统模块化：效应子模块的工程化提高了突变频率。图4A.APOBEC3G(^APO3GCRC_D10A)和APOBEC1(^APO3GCRC_D10A)作为效应子用原系统^AIDCRC一起进行测试。当用rpoB_TS-4gRNA靶向时，用APOBEC1处理提高了相对于^AIDCRC_D10A的突变频率。^APO3GCRC_D10A比^AIDCRC活性低。图4B.用rpoB_TS-4作为靶(SEQ ID NO：30-32)处理^Apo1CRC_D10A的突变分布(以％表示)。在100％的克隆中观察到C1592>T转换。另外，25％的分析克隆是双突变体，转换C1590>T，没有氨基酸改变。

图5A和5B显示了CRC系统模块化：增加RNA募集支架的数量提高了突变频率。图5A.增加募集支架的数量同时靶向相同的位置使突变效率从高于它们各自的编码乱序gRNA对照50倍(rpoB_TS-4 1xMS2)增加到140倍(rpoB_TS-4 2xMS2)。图5B.用rpoB_TS-4_2xMS2作为靶(SEQ ID NO：30-32)处理^AIDCRC_D10A的突变分布(以％表示)。C1592在100％的克隆中被修饰，62.5％的C被突变为T，37.5％的C被突变为A。

图6A、6B、6C和6D显示CRC系统能够修饰哺乳动物细胞中染色体外DNA中的靶核苷酸，恢复蛋白质功能。图6A.这些实验中使用的构建体的示意图。(上图)蛋白质编码基因在人泛素C启动子(UbC)的控制下作为多顺反子构建体被克隆，以确保该系统的两种蛋白质组分的化学计量浓度。(下图)嵌合gRNA_MS2构建体在U6或H1启动子的控制下被克隆，以分别用5'-G或5'-A表达靶。图6B._nfEGFP^Y66C缺陷荧光团周围靶区域的示意图。显示了(顶部)在这些实验中使用的gRNA的结合位点，所有的gRNA被编程为靶向非模板链(NT，+)；(中部)DNA序列(SEQ ID NO：42和43)，其中显示PAM(加框)和可突变位置(箭头)；(底部)蛋白质序列(SEQID No：44)，其中显示了消除EGFP荧光的突变氨基酸(箭头)。图6C.293T细胞中_nfEGFP^Y66C靶向。用_nfEGFP^Y66CNT-1和用效率较低的_nfEGFP^Y66C_NT-2处理诱导EGFP信号，而用乱序gRNA检测不到信号。此外，将CRC平台与不同的基因编辑系统(BE3)进行比较，所述基因编辑系统需要胞苷脱氨酶蛋白质与Cas9蛋白质直接融合用于募集，并且需要共同表达尿嘧啶DNA糖基化酶(UGI)的抑制剂以提高效率。BF，明场。图6D.使用_nfEGFP^Y66CNT-1作为靶向gRNA，用^AIDCRC_D10A和BE3系统处理GFP阳性细胞的定量(以％表示)。

图7A和7B显示处理CRC系统可导致哺乳动物细胞内源基因中的位点特异性核苷酸转换。图7A.中国仓鼠HPRT基因外显子3上靶区域示意图。显示了(顶部)DNA序列(SEQ IDNo：45和46)，其中显示了PAM(加框)和可突变位置(箭头)；(中部)在这些实验中使用的gRNA的结合位点，gRNA被编程以靶向模板链(TS，-)；(底部)蛋白质序列(SEQ ID No：47)，其中显示了涉及HPRT蛋白质不稳定性的关键氨基酸(箭头)。图7B.用^AIDCRC_D10A、BE3靶向HPRT或未处理后抗6-TG的V79-4细胞的定量。与未处理细胞相比，^AIDCRC_D10A处理的存活分数是未处理细胞的140倍，而BE3是40倍。

发明详述

目前的基因特异性编辑技术主要基于核酸酶诱导的DNA DSB和由此产生的DSB诱导的同源重组。由于大多数体细胞中同源重组的活性很低或不存在，所以这些技术在大多数疾病的体细胞组织中的病理性基因突变的治疗校正方面的用途有限。

如本文所公开的，本发明(至少部分)基于允许基因或RNA转录物的DNA序列定向编辑的新型平台或系统。该系统不依赖于核酸酶活性，不产生DSB，也不依赖于DSB介导的同源重组。此外，该平台的RNA支架的这种设计是模块化的，其允许以极其灵活和方便的方式靶向任何期望的DNA或RNA序列。实质上，这种方法使人们能够将DNA或RNA编辑酶引导至体细胞(包括干细胞)中的任何DNA或RNA序列。通过精确编辑靶DNA或RNA序列，该酶能够校正基因疾病中的突变基因，使病毒感染细胞中的病毒基因组失活，消除神经退行性疾病中致病蛋白质的表达，或沉默癌症中的致癌蛋白质。此外，这种方法能够通过离体编辑干细胞或祖细胞的基因组用于基于细胞的治疗。除了治疗应用外，该系统还能够作为强大的研究工具广泛应用于有任何生物的基因组的靶向修饰。

基因编辑平台

本发明的一个方面提供了一种基因编辑平台，其克服了目前核酸酶和DSB依赖的基因组工程和基因编辑技术的上述限制。该平台被命名为CasRcure系统或CRC系统，具有三个功能组分：(1)经工程化用于靶向序列的基于核酸酶缺陷型CRISPR/Cas的模块；(2)基于RNA支架的模块，用于将平台指导至靶序列以及用于募集校正模块；和(3)作为效应子校正模块的非核酸酶DNA/RNA修饰酶，如胞嘧啶脱氨酶(例如激活诱导的胞嘧啶脱氨酶，AID)。CasRcure系统一起允许特定的DNA/RNA测序锚定，将效应DNA/RNA修饰酶灵活地和模块化地募集到特定序列，并引发在体细胞中有活性的细胞通路，用于校正基因信息，特别是点突变。

图1中示出了示例性CasRcure系统的示意图。更具体地，该系统包括图1A中总结的三个结构和功能组分：(1)序列靶向模块(例如，dCas9蛋白)；(2)用于序列识别和用于效应子募集的RNA支架(含有指导RNA基序、CRISPR RNA基序和募集RNA基序的RNA分子)，和(3)效应子(非核酸酶DNA修饰酶，如与结合到募集RNA基序的小蛋白融合的AID)。三个组分可以构建在单个表达载体中或者在两个到三个分开的表达载体中。三个具体组分的整体和组合构成了技术平台的使能(enabling)。

如本文所公开的，募集机制之间有许多明确的区别：RNA支架介导的募集系统(CRC)相对于Cas9与效应子蛋白(BE3)的直接融合。以下实例中显示的结果表明，RNA支架介导的募集比染色体外靶(图6C和6D)和内源基因(图7B)的直接融合更有效。另外，CRC系统不依赖UNG抑制(DNA修复酶)，而BE3使用有效的UNG抑制肽(UGI)。全局或局部DNA修复抑制可能导致不期望的、不可控制的、潜在的有害结果。另外，CRC系统的模块化设计可以实现灵活的系统工程化。模块是可以互换的，可以轻松实现不同模块的许多组合。另一方面，直接融合总是需要新的融合过程来设计新的模块。此外，RNA支架介导的募集可能促进效应子蛋白的寡聚化，而直接融合将由于空间位阻而不会形成寡聚体。

a.序列靶向模块

上述系统的序列靶向组分基于来自细菌物种的CRISPR/Cas系统。原始的功能性细菌CRISPR-Cas系统需要三个组分：提供核酸酶活性的Cas蛋白和称为CRISPR RNA(crRNA)和反式作用RNA(tracrRNA)的两个短的非编码RNA物质，这两个RNA物质形成所谓的指导RNA(gRNA)。II型CRISPR是表征最好的系统之一，并以四个连续的步骤进行靶向的DNA双链断裂。第一，从CRISPR基因座转录两个非编码RNA，pre-crRNA和tracrRNA。第二，tracrRNA与pre-crRNA分子的重复区域杂交，并介导pre-crRNA分子加工成含有单独间隔区序列的成熟crRNA分子。第三，成熟的crRNA：tracrRNA复合物(即所谓的指导RNA)通过在crRNA上的间隔区序列与包含3个核苷酸(nt)原间隔区邻近基序(PAM)的靶DNA上的原间隔区的互补序列之间的Watson-Crick碱基配，指引Cas核酸酶(例如Cas9)至靶DNA。PAM序列对于Cas9靶向是必需的。最后，Cas核酸酶介导靶DNA的切割以在靶位点内产生双链断裂。在其天然情况下，CRISPR/Cas系统作为一种适应性免疫系统，可以保护细菌免受反复病毒感染，并且PAM序列可以作为自我/非自我识别信号，而Cas9蛋白具有核酸酶活性。已显示CRISPR/Cas系统在体外和体内都具有巨大的基因编辑潜力。

在本文公开的发明中，序列识别机制可以以类似的方式实现。也就是说，突变Cas蛋白(例如在其核酸酶催化结构域中含有突变的dCas9蛋白质因此不具有核酸酶活性，或者在催化结构域之一处部分突变的nCas9蛋白质因此不具有用于产生DSB的核酸酶活性)特异性识别含有短的间隔区序列(典型地长20个核苷酸)的非编码RNA支架分子，其将Cas蛋白指导至其靶DNA或RNA序列。后者侧翼是3'PAM。

在本发明中可以使用各种Cas蛋白。Cas蛋白(CRISPR相关蛋白或CRISPR蛋白，可互换使用)是指I型、II型或III型CRISPR-Cas系统(其具有RNA指导的DNA结合)的蛋白或由此衍生的蛋白。合适的CRISPR/Cas蛋白的非限制性实例包括Cas3,Cas4,Cas5,Cas5e(或CasD),Cas6,Cas6e,Cas6f,Cas7,Cas8a1,Cas8a2,Cas8b,Cas8c,Cas9,Cas10,Cas10d,CasF,CasG,CasH,Csy1,Csy2,Csy3,Cse1(或CasA),Cse2(或CasB),Cse3(或CasE),Cse4(或CasC),Csc1,Csc2,Csa5,Csn2,Csm2,Csm3,Csm4,Csm5,Csm6,Cmr1,Cmr3,Cmr4,Cmr5,Cmr6,Csb1,Csb2,Csb3,Csx17,Csx14,Csx10,Csx16,CsaX,Csx3,Csz1,Csx15,Csf1,Csf2,Csf3,Csf4和Cu1966。参见例如WO2014144761、WO2014144592、WO2013176772、US20140273226和US20140273233，其内容通过引用整体并入本文。

在一个实施方案中，Cas蛋白衍生自II型CRISPR-Cas系统。在示例性实施方案中，Cas蛋白是或衍生自Cas9蛋白。Cas9蛋白可以来自化脓性链球菌(Streptococcuspyogenes),嗜热链球菌(Streptococcus thermophilus),链球菌(Streptococcus sp.),达松维尔拟诺卡氏菌(Nocardiopsis dassonvillei),始旋链霉菌(Streptomycespristinaespiralis),绿色产色链霉菌(Streptomyces viridochromogenes),绿色产色链霉菌(Streptomyces viridochromogenes),玫瑰链孢囊菌(Streptosporangium roseum),玫瑰链孢囊菌(Streptosporangium roseum),酸热脂环酸杆菌(Alicyclobacillusacidocaldarius),假蕈状芽孢杆菌(Bacillus pseudomycoides),Bacillusselenitireducens,Exiguobacterium sibiricum,德氏乳杆菌(Lactobacillusdelbrueckii),唾液乳杆菌(Lactobacillus salivarius),海洋微颤蓝细菌(Microscillamarina),Burkholderiales bacterium,Polaromonas naphthalenivorans,Polaromonassp.,Crocosphaera watsonii,蓝杆藻(Cyanothece sp.),铜绿微囊蓝细菌(Microcystisaeruginosa),聚球菌(Synechococcus sp.),伯糖醋盐杆菌(Acetohalobium arabaticum),Ammonifex degensii,Caldicelulosiruptor becscii,Candidatus Desulforudis,肉毒梭菌(Clostridium botulinum),艰难梭菌(Clostridium difficile),大芬戈尔德菌(Finegoldia magna),嗜热盐碱厌氧菌(Natranaerobius thermophilus),丙酸互营细菌(Pelotomaculum thermopropionicum),Acidithiobacillus caldus,嗜酸氧化亚铁硫杆菌(Acidithiobacillus ferrooxidans),紫色硫细菌(Allochromatium vinosum),海杆菌(Marinobacter sp.),嗜盐硝化球菌(Nitrosococcus halophilus),Nitrosococcuswatsoni,Pseudoalteromonas haloplanktis,Ktedonobacter racemifer,Methanohalobium evestigatum,多鱼腥蓝细菌(Anabaena variabilis),产泡沫节球蓝细菌(Nodularia spumigena),Nostoc sp.,最大节螺蓝细菌(Arthrospira maxima),Arthrospira platensis,Arthrospira sp.,Lyngbya sp.,原型微鞘藻(Microcoleuschthonoplastes),Oscillatoria sp.,Petrotoga mobilis,Thermosipho africanus,或Acaryochloris marina。

通常，Cas蛋白包括至少一个RNA结合结构域。RNA结合结构域与指导RNA相互作用。Cas蛋白可以是野生型Cas蛋白或不具有核酸酶活性的修饰形式。可以修饰Cas蛋白以增加核酸结合亲和力和/或特异性，改变酶活性，和/或改变蛋白质的另一种性质。例如，可修饰、缺失或失活所述蛋白的核酸酶(即DNase、RNase)结构域。或者，可以截短所述蛋白以去除对于该蛋白功能不是必需的结构域。所述蛋白也可以被截短或修饰以优化效应子结构域的活性。

在一些实施方案中，Cas蛋白可以是野生型Cas蛋白(例如Cas9)或其片段的突变体。在其他实施方案中，Cas蛋白可以衍生自突变Cas蛋白。例如，可以修饰Cas9蛋白的氨基酸序列以改变蛋白质的一种或多种性质(例如，核酸酶活性，亲和力，稳定性等)。或者，可以从Cas9蛋白质中去除不涉及RNA靶向的所述蛋白的结构域，使得修饰的Cas9蛋白小于野生型Cas9蛋白。在一些实施方案中，本系统利用来自化脓性链球菌(S.pyogenes)的Cas9蛋白，或者如细菌中所编码或者经密码子优化以在哺乳动物细胞中表达。

突变Cas蛋白是指野生型蛋白的多肽衍生物，例如具有一个或多个点突变、插入、缺失、截短、融合蛋白的蛋白或其组合。该突变体具有RNA指导的DNA结合活性或RNA指导的核酸酶活性中的至少一种或两者。通常，修饰形式与野生型蛋白如下面的SEQ ID No.1至少50％(例如50％和100％之间，包括例如50％、60％、70％、75％、80％、85％、90％、95％和99％)相同。

可以作为重组多肽获得Cas蛋白(以及本发明中描述的其他蛋白组分)。为了制备重组多肽，编码它的核酸可以与编码融合伴侣的另一核酸(例如谷胱甘肽-S-转移酶(GST)、6x-His表位标签或M13基因3蛋白)连接。所得到的融合核酸在合适的宿主细胞中表达可以通过本领域已知的方法分离的融合蛋白。可以进一步处理分离的融合蛋白，例如通过酶消化来除去融合伴侣并获得本发明的重组多肽。或者，可以化学合成(参见例如Creighton,"Proteins:Structures and Molecular Principles,"W.H.Freeman&Co.,NY,1983)，或者如本文所述通过重组DNA技术产生这些蛋白。本领域技术人员可以参考Frederick M.Ausubelet al.,Current Protocols in Molecular Biology,John Wiley&Sons,2003；和Sambrooket al.,Molecular Cloning,A Laboratory Manual,"Cold Spring Harbor Press,ColdSpring Harbor,NY,2001得到另外的指导。

本发明中描述的Cas蛋白可以以纯化或分离的形式提供，或者可以是组合物的一部分。优选地，在以组合物形式的情况下，首先将这些蛋白纯化至一定程度，更优选至高水平的纯度(例如，约80％、90％、95％或99％或更高)。根据本发明的组合物可以是任何类型的所需组合物，但是通常是适合用作或包含在用于RNA指导的靶向的组合物中的含水组合物。本领域技术人员很清楚可以包含在这种核酸酶反应组合物中的各种物质。

如本文所公开的，可以使用核酸酶失活的Cas9(dCas9，例如来自化脓性链球菌D10A的H840A突变蛋白，图1A)或者核酸酶缺陷切口酶Cas9(nCas9，例如来自化脓性链球菌D10A突变蛋白，图1A和图2F)。dCas9或nCas9也可以来自各种细菌物种。表1列出了dCas9以及它们相应的PAM要求实例的非穷尽列表。

表1.

b.用于序列识别和效应子募集的RNA支架：

本文公开的平台的第二组分是RNA支架，其具有三个亚组分：可编程的指导RNA基序、CRISPR RNA基序和募集RNA基序。该支架可以是单个RNA分子，或者是多个RNA分子的复合物。如本文所公开的，可编程的指导RNA、CRISPR RNA和Cas蛋白一起形成用于序列靶向和识别的基于CRISPR/Cas的模块，而募集RNA基序通过RNA-蛋白结合对募集携带基因修正的蛋白效应子。因此，该第二组分连接校正模块和序列识别模块。

可编程指导RNA

一个关键的亚组分是可编程的指导RNA。由于其简单和高效，CRISPR-Cas系统已被用于在各种生物的细胞中进行基因组编辑。该系统的特异性由靶DNA与定制设计的指导RNA之间的碱基配对决定。通过设计和调整指导RNA的碱基配对性质，只要靶序列中存在PAM序列，就可以靶向任何感兴趣的序列。

在本文公开的RNA支架的亚组分中，指导序列提供靶向特异性。它包括与预先选定的感兴趣的靶位点互补并能够与之杂交的区域。在各种实施方案中，该指导序列可以包含约10个核苷酸至超过约25个核苷酸。例如，指导序列与相应的靶位点序列之间的碱基配对区域可以长约10,11,12,13,14,15,16,17,18,19,20,22,23,24,25,或超过25个核苷酸。在示例性实施方案中，指导序列长约17-20个核苷酸，例如20个核苷酸。

选择合适的靶核酸的一个要求是它具有3'PAM位点/序列。每个靶序列及其相应的PAM位点/序列在本文中被称为Cas靶向位点。表征最好的系统之一II型CRISPR系统只需要Cas9蛋白和与靶序列互补的指导RNA来影响靶切割。化脓性链球菌的II型CRISPR系统使用具有N12-20NGG的靶位点，其中NGG代表来自化脓性链球菌的PAM位点，N12-20代表直接位于PAM位点5'的12-20个核苷酸。来自其他细菌物种的其他PAM位点序列包括NGGNG，NNNNGATT，NNAGAA，NNAGAAW和NAAAAC。参见例如US 20140273233,WO 2013176772,Cong et al.,(2012),Science 339(6121):819–823,Jinek et al.,(2012),Science 337(6096):816–821,Mali et al,(2013),Science 339(6121):823–826,Gasiunas et al.,(2012),ProcNatl Acad Sci U S A.109(39):E2579–E2586,Cho et al.,(2013)Nature Biotechnology31,230–232,Hou et al.,Proc Natl Acad Sci U S A.2013Sep 24；110(39):15644-9,Mojica et al.,Microbiology.2009Mar；155(Pt 3):733-40,和www.addgene.org/CRISPR/。这些文献的内容通过引用整体并入本文。

靶核酸链可以是宿主细胞中基因组DNA上的两条链中的任一条。这样的基因组双链DNA的实例包括但不一定限于宿主细胞染色体，线粒体DNA和稳定维持的质粒。然而，可以理解的是，本方法可以对存在于宿主细胞中的其它dsDNA实施，例如非稳定的质粒DNA、病毒DNA和噬菌粒DNA，只要存在Cas靶向的位点而不管宿主细胞dsDNA的性质。本方法也可以对RNA实施。

CRISPR基序

除了上述指导序列之外，本发明的RNA支架还包括额外的活性或非活性亚组分。在一个实例中，支架含有具有tracrRNA活性的CRISPR基序。例如，支架可以是杂合RNA分子，其中上述可编程指导RNA与tracrRNA融合以模拟天然crRNA:tracrRNA双链体。示例性的杂合crRNA:tracRNA,sgRNA序列：5'-(20nt指导)-GUUUAAGAGCUAUGCUGGAAACAGCAUAGCAAGUUUAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU-3’(SEQ ID No:4；Chenet al.Cell.2013Dec 19；155(7):1479-91)。本领域已知各种tracrRNA序列，并且实例包括以下tracrRNA及其活性部分。如本文所用，tracrRNA的活性部分保留与Cas蛋白(例如Cas9或dCas9)形成复合物的能力。参见例如WO2014144592。产生crRNA-tracrRNA杂合RNA的方法是本领域已知的。参见例如WO2014099750,US 20140179006,和US 20140273226。这些文献的内容通过引用整体并入本文。

GGAACCAUUCAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQ ID No:5)；

UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQ IDNo:6)；

AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQID No:7)；

CAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQ ID No:8)；

UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUG(SEQ ID No:9)；

UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCA(SEQ ID No:10)；和

UAGCAAGUUAAAAUAAGGCUAGUCCG(SEQ ID No:11)。

在一些实施方案中，tracrRNA活性和指导序列是两个独立的RNA分子，它们一起形成指导RNA和相关支架。在这种情况下，具有tracrRNA活性的分子应该能够与具有指导序列的分子相互作用(通常通过碱基配对)。

募集RNA基序

RNA支架的第三个亚组分是募集RNA模体，其连接校正模块和序列识别模块。这个连接对于本文公开的平台是至关重要的。

将效应子/DNA编辑酶募集到靶序列的一种方法是通过效应子蛋白与dCas9的直接融合。效应子酶(“校正模块”)与序列识别所需的蛋白质(如dCas9)直接融合已经在序列特异性转录活化或抑制方面取得了成功，但蛋白质-蛋白质融合设计可能会产生空间位阻，其对于需要为其活性形成多聚体复合物的酶而言不是理想的。事实上，大多数核苷酸编辑酶(如AID或APOBEC3G)的DNA编辑催化活性都需要形成二聚体、四聚体或更高级寡聚体。与dCas9直接融合(其以确定的构象锚定到DNA上)将阻碍在正确位置形成功能性寡聚酶复合物。

相比之下，本文公开的平台基于RNA支架介导的效应子蛋白募集。更具体地，该平台利用了各种RNA基序/RNA结合蛋白结合对的优势。为此目的，设计RNA支架以使与RNA结合蛋白(例如MS2外壳蛋白，MCP)特异性结合的RNA基序(例如，MS2操纵子基序)连接至gRNA-CRISPR支架(图1A)。

结果，本文公开的平台的这种RNA支架组分是设计的RNA分子，其不仅含有用于特异性DNA/RNA序列识别的gRNA基序、用于dCas9结合的CRISPR RNA基序，而且含有用于效应子募集的募集RNA基序(图1A)。通过这种方式，募集的效应子蛋白融合蛋白可以通过其与募集RNA基序结合的能力而募集到靶位点。由于RNA支架介导的募集的灵活性，功能单体以及二聚体、四聚体或寡聚体可能相对容易在靶DNA或RNA序列附近形成。图1B-E中示出了示例构象。这些RNA募集基序/结合蛋白对可以衍生自天然存在的来源(例如RNA噬菌体或酵母端粒酶)，或可以是人工设计的(例如，RNA适体及其相应的结合蛋白配体)。表2总结了可以在CasRcure系统中使用的募集RNA基序/RNA结合蛋白对的非穷尽列表。

表2.能够用于本发明的募集RNA基序以及它们配对的RNA结合蛋白/蛋白结构域的实例。

*募集的蛋白融合至效应子蛋白，例如参见表3。

以下列出了上述结合对的序列。

1.端粒酶Ku结合基序/Ku异二聚体

a.Ku结合发夹

5’-TTCTTGTCGTACTTATAGATCGCTACGTTATTTCAATTTTGAAAATCTGAGTCCTGGGAGTGCGGA-3’(SEQ ID No:12)

b.Ku异二聚体

MSGWESYYKTEGDEEAEEEQEENLEASGDYKYSGRDSLIFLVDASKAMFESQSEDELTPFDMSIQCIQSVYISKIISSDRDLLAVVFYGTEKDKNSVNFKNIYVLQELDNPGAKRILELDQFKGQQGQKRFQDMMGHGSDYSLSEVLWVCANLFSDVQFKMSHKRIMLFTNEDNPHGNDSAKASRARTKAGDLRDTGIFLDLMHLKKPGGFDISLFYRDIISIAEDEDLRVHFEESSKLEDLLRKVRAKETRKRALSRLKLKLNKDIVISVGIYNLVQKALKPPPIKLYRETNEPVKTKTRTFNTSTGGLLLPSDTKRSQIYGSRQIILEKEETEELKRFDDPGLMLMGFKPLVLLKKHHYLRPSLFVYPEESLVIGSSTLFSALLIKCLEKEVAALCRYTPRRNIPPYFVALVPQEEELDDQKIQVTPPGFQLVFLPFADDKRKMPFTEKIMATPEQVGKMKAIVEKLRFTYRSDSFENPVLQQHFRNLEALALDLMEPEQAVDLTLPKVEAMNKRLGSLVDEFKELVYPPDYNPEGKVTKRKHDNEGSGSKRPKVEYSEEELKTHISKGTLGKFTVPMLKEACRAYGLKSGLKKQELLEALTKHFQD>(SEQ ID No:13)

MVRSGNKAAVVLCMDVGFTMSNSIPGIESPFEQAKKVITMFVQRQVFAENKDEIALVLFGTDGTDNPLSGGDQYQNITVHRHLMLPDFDLLEDIESKIQPGSQQADFLDALIVSMDVIQHETIGKKFEKRHIEIFTDLSSRFSKSQLDIIIHSLKKCDISERHSIHWPCRLTIGSNLSIRIAAYKSILQERVKKTWTVVDAKTLKKEDIQKETVYCLNDDDETEVLKEDIIQGFRYGSDIVPFSKVDEEQMKYKSEGKCFSVLGFCKSSQVQRRFFMGNQVLKVFAARDDEAAAVALSSLIHALDDLDMVAIVRYAYDKRANPQVGVAFPHIKHNYECLVYVQLPFMEDLRQYMFSSLKNSKKYAPTEAQLNAVDALIDSMSLAKKDEKTDTLEDLFPTTKIPNPRFQRLFQCLLHRALHPREPLPPIQQHIWNMLNPPAEVTTKSQIPLSKIKTLFPLIEAKKKDQVTAQEIFQDNHEDGPTAK(SEQ ID No:14)

2.端粒酶Sm7结合基序/Sm7同七聚体

a.Sm共有位点(单链)

5’-AATTTTTGGA-3’(SEQ ID No:15)

b.单体Sm–样蛋白(古细菌)

GSVIDVSSQRVNVQRPLDALGNSLNSPVIIKLKGDREFRGVLKSFDLHMNLVLNDAEELEDGEVTRRLGTVLIRGDNIVYISP(SEQ ID No:16)

3.MS2噬菌体操纵子茎环/MS2外壳蛋白

a.MS2噬菌体操纵子茎环

5’-GCGCACATGAGGATCACCCATGTGC-3’(SEQ ID No:17)

b.MS2外壳蛋白

MASNFTQFVLVDNGGTGDVTVAPSNFANGIAEWISSNSRSQAYKVTCSVRQSSAQNRKYTIKVEVPKGAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSGIY(SEQ ID No:18)

4.PP7噬菌体操纵子茎环/PP7外壳蛋白

a.PP7噬菌体操纵子茎环

5’-aTAAGGAGTTTATATGGAAACCCTTA-3’(SEQ ID No:19)

b.PP7外壳蛋白(PCP)

MSKTIVLSVGEATRTLTEIQSTADRQIFEEKVGPLVGRLRLTASLRQNGAKTAYRVNLKLDQADVVDCSTSVCGELPKVRYTQVWSHDVTIVANSTEASRKSLYDLTKSLVATSQVEDLVVNLVPLGR.(SEQ ID No:20)

5.SfMu Com茎环/SfMu Com结合蛋白

a.SfMu Com茎环

5’-CTGAATGCCTGCGAGCATC-3’(SEQ ID No:21)

b.SfMu Com结合蛋白

MKSIRCKNCNKLLFKADSFDHIEIRCPRCKRHIIMLNACEHPTEKHCGKREKITHSDETVRY(SEQ IDNo:22)

RNA支架可以是单个RNA分子，或者是多个RNA分子的复合物。例如，指导RNA、CRISPR基序和募集RNA基序可以是一个长的单RNA分子的三个区段。或者，它们中的一个、两个或三个可以在独立的分子上。在后一种情况下，三种组分可以通过共价或非共价连接或结合(包括例如Watson-Crick碱基配对)连接在一起形成支架。

在一个实例中，RNA支架可以包含两个独立的RNA分子。第一RNA分子可以包含可编程的指导RNA和能够与互补区形成茎双链体结构的区域。除了CRISPR基序和募集DNA基序之外，第二RNA分子可以包含互补区。通过这种茎双链体结构，第一和第二RNA分子形成本发明的RNA支架。在一个实施方案中，第一和第二RNA分子各自包含与其他序列碱基配对的(约6至约20个核苷酸的)序列。同样，CRISPR基序和募集DNA基序也可以在不同的RNA分子上并且与另一个茎双链体结构在一起。

本发明的RNA和相关支架可以通过本领域已知的各种方法(包括基于细胞的表达、体外转录和化学合成)制备。使用TC-RNA化学(参见例如美国专利8,202,983)化学合成相对较长的RNA(长达200聚体或更多)的能力能够产生具有胜过四个基本核糖核苷酸(A、C、G和U)所能够具有的性质的特殊特征的RNA。

可以使用本领域已知的宿主细胞系统或体外翻译-转录系统，用重组技术制备Cas蛋白-指导RNA支架复合物。这样的系统和技术的细节可以在例如WO2014144761、WO2014144592、WO2013176772、US20140273226、和US20140273233中找到，其内容通过引用整体并入本文。复合物可以从细胞的细胞材料或其中产生它们的体外翻译-转录系统中分离或纯化(至少至某种程度)。

RNA支架可以包括一个或多个修饰。这样的修饰可以包括引入至少一个非天然存在的核苷酸或修饰的核苷酸或其类似物。修饰的核苷酸可以在核糖、磷酸和/或碱基部分被修饰。修饰的核苷酸可以包括2'-O-甲基类似物、2'-脱氧类似物或2'-氟类似物。核酸主链可以被修饰，例如，可以使用硫代磷酸酯主链。锁核酸(LNA)或桥式核酸(BNA)的使用也可以是可以的。修饰的碱基的其他实例包括但不限于2-氨基嘌呤，5-溴-尿苷，假尿苷，肌苷，7-甲基鸟苷。这些修饰可能适用于CRISPR系统的任何组分。在优选的实施方案中，对RNA成分(例如指导RNA序列)进行这些修饰。

c.效应子：非核酸酶DNA修饰酶

本发明公开的平台的第三组分是非核酸酶效应子。所述效应子不是核酸酶，并且不具有核酸酶活性，但可以具有其他类型DNA修饰酶的活性。酶促活性的实例包括但不限于脱氨活性，甲基转移酶活性，脱甲基酶活性，DNA修复活性，DNA损伤活性，歧化酶活性，烷基化活性，脱嘌呤活性，氧化活性，嘧啶二聚体形成活性，整合酶活性，转座酶活性，重组酶活性，聚合酶活性，连接酶活性，解旋酶活性，光裂合酶活性或糖基化酶活性。在一些实施方案中，效应子具有胞嘧啶脱氨酶(例如AID，APOBEC3G)、腺苷脱氨酶(例如ADA)、DNA甲基转移酶和DNA脱甲基酶的活性。

在优选实施方案中，该第三组分是具有RNA结合结构域和效应子结构域的缀合物或融合蛋白。这两个结构域可以通过接头连接。

RNA结合结构域

尽管本发明可以使用各种RNA结合结构域，但不应使用Cas蛋白(如Cas9)或其变体(如dCas9)的RNA结合结构域。如上所述，与dCas9直接融合(其以确定的构象锚定于DNA)将阻碍在正确位置形成功能性寡聚酶复合物。相反，本发明利用了各种其他RNA基序-RNA结合蛋白结合对。实例包括表2中列出的那些实例。

通过这种方式，可以通过RNA结合结构域与募集RNA基序结合的能力将效应子蛋白募集到靶位点。由于RNA支架介导的募集的灵活性，功能单体以及二聚体、四聚体或寡聚体可相对容易地在靶DNA或RNA序列附近形成。

效应子结构域

效应子组分包含活性部分，即效应子结构域。在一些实施方案中，效应子结构域包含非核酸酶蛋白(例如脱氨酶)的天然存在的活性部分。在其他实施方案中，效应子结构域包含非核酸酶蛋白的天然存在的活性部分的修饰的氨基酸序列(例如，置换、缺失、插入)。效应子结构域具有酶活性。该活性的实例包括脱氨活性，甲基转移酶活性，脱甲基酶活性，DNA修复活性，DNA损伤活性，歧化酶活性，烷基化活性，脱嘌呤活性，氧化活性，嘧啶二聚体形成活性，整合酶活性，转座酶活性，重组酶活性，聚合酶活性，连接酶活性，解旋酶活性，光裂合酶活性，糖基化酶活性，DNA甲基化，组蛋白乙酰化活性，或组蛋白甲基化活性。

接头

上述两个结构域以及本文所公开的其他结构域可以通过接头，例如但不限于化学修饰，肽接头，化学接头，共价或非共价键或蛋白质融合，或通过本领域技术人员已知的工具连接。连接可以是永久的或可逆的。参见例如美国专利号4625014、5057301和5514363，美国申请号20150182596和20100063258，以及WO2012142515，其内容通过引用整体并入本文。在一些实施方案中，可以包括几种接头以利用缀合物中每个接头和每个蛋白质结构域的期望性质。例如，柔性接头和增加缀合物溶解度的接头可以考虑单独使用或与其它接头一起使用。肽接头可以通过表达编码接头的DNA和缀合物中的一个或多个蛋白质结构域来连接。接头可以是酸可切割、可光裂合和热敏接头。缀合方法是本领域技术人员众所周知的，并且包括用于本发明。

在一些实施方案中，RNA结合结构域和效应子结构域可以通过肽接头连接。可以通过表达框架内编码两个结构域和接头的核酸来连接肽接头。任选地，可以在结构域的氨基末端和羧基末端之一或两者处连接接头肽。在一些实例中，接头是如美国专利号6,165,476、5,856,456，美国申请号20150182596和2010/0063258以及国际申请WO2012/142515中公开的免疫球蛋白铰链区接头，其每一篇通过引用整体并入本文。

其他结构域

效应子融合蛋白可以包含其他结构域。在某些实施方案中，效应子融合蛋白可以包含至少一个核定位信号(NLS)。通常，NLS包含一段碱性氨基酸。核定位信号在本领域是已知的(参见例如Lange et al.,J.Biol.Chem.,2007,282:5101-5105)。NLS可以位于融合蛋白的N端、C端或内部位置中。

在一些实施方案中，融合蛋白可以包含至少一个细胞穿透结构域以促进蛋白递送到靶细胞中。在一个实施方案中，细胞穿透结构域可以是细胞穿透肽序列。本领域已知各种细胞穿透肽序列，实例包括HIV-1TAT蛋白，人HBV的TLM，Pep-1，VP22和多聚精氨酸肽序列。

在其他实施方案中，融合蛋白可以包含至少一个标志物结构域。标志物结构域的非限制性实例包括荧光蛋白、纯化标签和表位标签。在一些实施方案中，标志物结构域可以是荧光蛋白。在其他实施方案中，标志物结构域可以是纯化标签和/或表位标签。参见例如US 20140273233。

在一个实施方案中，使用AID作为实例来说明系统如何工作。AID是一种胞苷脱氨酶，其能够催化DNA或RNA情况下胞嘧啶脱氨反应。当被带到靶向位点时，AID将C碱基改为U碱基。在分裂细胞中，这可能导致C到T点突变。或者，C到U的变化可以触发细胞DNA修复途径，主要是剪切修复途径，其将去除错配的U-G碱基对，并替换为T-A、A-T、C-G或G-C对。结果，在靶C-G位点产生点突变。由于剪切修复途径在大多数(如果不是全部的话)体细胞中存在，因此募集AID至靶位点可以将C-G碱基对校正为其他碱基对。在这种情况下，如果C-G碱基对是体细胞组织/细胞中引起潜在疾病的基因突变，则上述方法能够用于校正突变并由此治疗疾病。

同样，如果引起潜在疾病的基因突变是特定位点上的A-T碱基对，则能够使用相同方法将腺苷脱氨酶募集至特定位点，其中腺苷脱氨酶在此能够将A-T碱基对校正为其他碱基对。预计其他效应子酶会产生其他类型的碱基配对变化。表3中详细列出了DNA/RNA修饰酶实例的非穷尽列表。

表3.能够用于本发明的效应子蛋白的实例

效应子蛋白全称:

AID:激活诱导胞嘧啶脱氨酶，又称AICDA

APOBEC1:载脂蛋白B mRNA编辑酶，催化多肽样1.

APOBEC3A:载脂蛋白B mRNA编辑酶，催化多肽样3A

APOBEC3B:载脂蛋白B mRNA编辑酶，催化多肽样3B

APOBEC3C:载脂蛋白B mRNA编辑酶，催化多肽样3C

APOBEC3D:载脂蛋白B mRNA编辑酶，催化多肽样3D

APOBEC3F:载脂蛋白B mRNA编辑酶，催化多肽样3F

APOBEC3G:载脂蛋白B mRNA编辑酶，催化多肽样3G

APOBEC3H:载脂蛋白B mRNA编辑酶，催化多肽样3H

ADA:腺苷脱氨酶

ADAR1:作用于RNA的腺苷脱氨酶1

Dnmt1:DNA(胞嘧啶-5-)-甲基转移酶1

Dnmt3a:DNA(胞嘧啶-5-)-甲基转移酶3α

Dnmt3b:DNA(胞嘧啶-5-)-甲基转移酶3β

Tet1:甲基胞嘧啶双加氧酶

上述三个具体组分构成了该技术平台。可以从表1-3中的列表中分别选择每种组分以实现特定的治疗/效用目标。

在一个实例中，使用(i)来自化脓性链球菌的dCas9作为靶向序列的蛋白，(ii)含有指导RNA序列、CRISPR RNA基序和MS2操纵子基序的RNA支架，和(iii)含有与MS2操纵子结合蛋白MCP融合的人AID的效应子融合体，来构建CasRcure系统。下面列出了这些组分的序列

化脓性链球菌dCas9蛋白序列(SEQ ID No.1)

MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

(加下划线的残基：D10A、H840A活性位点突变体)

RNA支架表达盒(化脓性链球菌),含有20-核苷酸可编程序列、CRISPR RNA基序和MS2操纵子基序(SEQ ID No.2):

(N₂₀:可编程序列；加下划线：CRISPR RNA基序；粗体：MS2基序；斜体：终止子)

效应子AID-MCP融合体(SEQ ID No.3):

(NH₂)-AID-

-(COOH)

像上述的Cas蛋白一样，非核酸酶效应子也可以作为重组多肽获得。制备重组多肽的技术是本领域已知的。参见例如Creighton,"Proteins:Structures and MolecularPrinciples,"W.H.Freeman&Co.,NY,1983)；Ausubel et al.,Current Protocols inMolecular Biology,John Wiley&Sons,2003；和Sambrook et al.,Molecular Cloning,ALaboratory Manual,"Cold Spring Harbor Press,Cold Spring Harbor,NY,2001。

可以使用一种到三种表达载体来表达本文公开的平台/系统的上述三种组分。该系统可以被编程为实际上靶向任何DNA或RNA序列。

表达系统

为了使用上述平台，可能需要从编码它们的核酸中表达一种或多种蛋白质和RNA组分。这可以以各种方式进行。例如，编码RNA支架或蛋白质的核酸可被克隆到一个或多个中间载体中，用于引入原核或真核细胞中进行复制和/或转录。中间载体通常是用于储存或操作编码RNA支架或蛋白质的核酸以产生RNA支架或蛋白质的原核载体，例如质粒或穿梭载体或昆虫载体。也可以将核酸克隆到一个或多个表达载体中，用于施用于植物细胞，动物细胞，优选哺乳动物细胞或人细胞，真菌细胞，细菌细胞或原生动物细胞。因此，本发明提供了编码上述任何RNA支架或蛋白质的核酸。优选地，所述核酸经分离和/或纯化。

本发明还提供了具有编码上述RNA支架或蛋白质中的一个或多个的序列的重组构建体或载体。构建体的实例包括已经以正向或反向方向插入了本发明的核酸序列的载体如质粒或病毒载体。在优选的实施方案中，构建体还包括与该序列可操作连接的调控序列，包括启动子。大量合适的载体和启动子是本领域技术人员已知的，并且是可商购获得的。用于原核和真核宿主的合适克隆和表达载体也描述于例如Sambrook et al.(2001，MolecularCloning:ALaboratory Manual,Cold Spring Harbor Press)中。

载体是指能够运输已经与其连接的另一核酸的核酸分子。载体能够自主复制或整合到宿主DNA中。载体的实例包括质粒、粘粒或病毒载体。本发明的载体包括适于在宿主细胞中表达核酸的形式的核酸。优选地，载体包括与待表达的核酸序列可操作地连接的一个或多个调控序列。“调控序列”包括启动子、增强子和其他表达控制元件(例如多腺苷酸化信号)。调控序列包括指导核苷酸序列组成型表达的调控序列，以及诱导型调控序列。表达载体的设计可取决于诸如待转化、转染或感染的宿主细胞的选择，期望的RNA或蛋白质的表达水平等因素。

表达载体的实例包括染色体、非染色体和合成的DNA序列，细菌质粒，噬菌体DNA，杆状病毒，酵母质粒，由质粒和噬菌体DNA组合衍生得到的载体，病毒DNA如牛痘、腺病毒、禽痘病毒和伪狂犬病毒。但是，可以使用任何其他载体，只要其在宿主中是可复制且能存活的。可以通过多种方法将合适的核酸序列插入载体中。通常，可以通过本领域已知的方法将编码上述RNA或蛋白之一的核酸序列插入合适的限制性内切核酸酶位点内。这样的方法和相关的亚克隆方法在本领域技术人员的范围内。

载体可以包括用于扩增表达的合适序列。此外，表达载体优选含有一个或多个选择性标志物基因以提供用于选择转化的宿主细胞的表型性状，例如用于真核细胞培养物的二氢叶酸还原酶或新霉素抗性，或例如在大肠杆菌中的四环素或氨苄青霉素抗性。

用于表达RNA的载体可以包括RNAPol III启动子例如H1、U6或7SK启动子，以驱动RNA的表达。这些人启动子允许质粒转染后在哺乳动物细胞中表达RNA。或者，可以使用T7启动子，例如用于体外转录，并且可以在体外转录和纯化RNA。

含有如上所述的合适核酸序列以及合适的启动子或控制序列的载体可用于转化、转染或感染合适的宿主以使宿主表达上述的RNA或蛋白质。合适的表达宿主的实例包括细菌细胞(例如大肠杆菌(E.coli)，链霉菌(Streptomyces)，鼠伤寒沙门氏菌(Salmonellatyphimurium))，真菌细胞(酵母)，昆虫细胞(例如果蝇(Drosophila)和草地贪夜蛾(Spodoptera frugiperda)(Sf9))，动物细胞(例如CHO、COS和HEK 293)，腺病毒，和植物细胞。选择合适的宿主在本领域技术人员的范围内。在一些实施方案中，本发明提供了通过用具有编码所述RNA或多肽或蛋白质之一的核苷酸序列的表达载体转化、转染或感染宿主细胞来产生上述RNA或蛋白质的方法。然后在合适的条件下培养宿主细胞，这可以表达RNA或蛋白质。

可以使用本领域已知的用于将外源核苷酸序列引入宿主细胞的任何方法。实例包括使用磷酸钙转染，聚凝胺，原生质体融合，电穿孔，核转染，脂质体，显微注射，裸DNA，质粒载体，病毒载体(游离型和整合型)，以及用于将克隆的基因组DNA、cDNA、合成DNA或其他外源基因物质引入宿主细胞的任何其它众所周知的方法。

方法

本发明的另一方面包括用于修饰细胞、非人动物胚胎、人或非人动物中的靶DNA序列(例如染色体序列)或靶RNA序列的方法。该方法包括将上述(i)靶向序列的蛋白或编码其的多核苷酸，(ii)RNA支架或编码其的DNA多核苷酸和(iii)核酸酶效应子融合蛋白或编码其的多核苷酸引入细胞或非人动物胚胎中。RNA支架将靶向序列的蛋白和融合蛋白指导至靶位点处的靶多核苷酸，并且融合蛋白的效应子结构域修饰该序列。如本文所公开的，对靶向序列的蛋白质(例如cas9蛋白质)进行修饰，使得内切核酸酶活性被消除。

在某些实施方案中，效应子蛋白作为单体起作用。在该情况下，如图1B所示，本发明的系统可以靶向靶位点的上游(左)或下游(右)的单个位点。在其他实施方案中，效应子蛋白需要二聚化以获得合适的催化功能。为此目的，可以将该系统多重化以同时靶向至靶位点的上游和下游靶序列，从而使效应子蛋白二聚化(图1C，左)。或者，将效应子蛋白募集到单个位点可足以增加其对相邻效应子蛋白的亲和力，促进二聚化(图1C，右)。在又一些其他实施方案中，如图1D所示，四聚体效应子酶可以被募集并定位在靶位点。这可以通过双靶向(图1D，左)或单靶向(图1D，右)实现。本发明中公开的系统也可用于编辑RNA靶(例如逆转录病毒失活)。参见图1E。在该情况下，如果效应子蛋白需要装配功能性寡聚体，则如图1C和1D的右图所示，单靶向至RNA分子可促进寡聚化。

靶多核苷酸不具有序列限制，除了该序列紧跟在PAM序列(下游或3')之后。PAM的实例包括但不限于NGG、NGGNG和NNAGAAW(其中N定义为任何核苷酸，W定义为A或T)。以上给出了PAM序列的其他实例，本领域技术人员将能够鉴定用于给定CRISPR蛋白的进一步的PAM序列。靶位点可以位于基因的编码区域、基因的内含子、基因间的控制区域等中。基因可以是蛋白质编码基因或RNA编码基因。

靶多核苷酸可以是细胞内源的或外源的任何多核苷酸。例如，靶多核苷酸可以是存在于真核细胞核内的多核苷酸。靶多核苷酸可以是编码基因产物(例如蛋白质)或非编码序列(例如，调控多核苷酸)的序列。

本发明的该系统的蛋白质组分可以作为分离的蛋白质引入细胞或非人动物胚胎中。在一个实施方案中，每种蛋白质可以包含至少一个细胞穿透结构域，其促进蛋白质的细胞摄取。在其他实施方案中，编码一种或多种蛋白质的mRNA分子或DNA分子可被引入细胞或非人动物胚胎中。通常，编码蛋白质的DNA序列可操作地连接到将在目的细胞或非人动物胚胎中起作用的启动子序列。DNA序列可以是线性的，或者DNA序列可以是载体的一部分。在其他实施方案中，可以将蛋白质作为包含上述蛋白质和RNA支架的RNA-蛋白质复合物引入细胞或非人动物胚胎中。

在替代实施方案中，编码所述蛋白质的DNA可以进一步包含编码RNA支架的组分的一个或多个序列。通常，编码所述蛋白质和RNA支架的DNA序列可操作地连接到合适的启动子控制序列，所述启动子控制序列允许蛋白质和RNA支架在细胞或非人动物胚胎中分别表达。编码所述蛋白质和RNA支架的DNA序列可以进一步包含额外的表达控制、调控和/或加工序列。编码所述蛋白质和指导RNA的DNA序列可以是线性的或可以是载体的一部分。

在通过编码RNA的DNA分子将RNA引入细胞的实施方案中，RNA编码序列可以可操作地连接至启动子控制序列以在真核细胞中表达指导RNA。例如，RNA编码序列可以可操作地连接到被RNA聚合酶III(Pol III)识别的启动子序列。合适的Pol III启动子的实例包括但不限于哺乳动物U6或H1启动子。在示例性实施方案中，RNA编码序列与小鼠或人U6启动子连接。在其他示例性实施方案中，RNA编码序列与小鼠或人H1启动子连接。

编码蛋白质和/或RNA的DNA分子可以是线性或环状的。在一些实施方案中，DNA序列可以是载体的一部分。合适的载体包括质粒载体，噬菌粒，粘粒，人工/微型染色体，转座子和病毒载体。在示例性实施方案中，编码所述蛋白质和/或RNA的DNA存在于质粒载体中。合适的质粒载体的非限制性实例包括pUC，pBR322，pET，pBluescript及其变体。载体可以包含额外的表达控制序列(例如增强子序列，Kozak序列，多聚腺苷酸化序列，转录终止序列等)，可选择的标志物序列(例如抗生素抗性基因)，复制起点等。

本发明的这个系统的蛋白质组分(或编码它们的核酸)和RNA组分(或编码它们的DNA)可通过各种方法引入细胞或非人动物胚胎中。通常，非人动物胚胎是感兴趣物种的受精的单细胞阶段胚胎。在一些实施方案中，转染细胞或非人动物胚胎。合适的转染方法包括磷酸钙介导的转染，核转染(或电穿孔)，阳离子聚合物转染(例如DEAE-葡聚糖或聚乙烯亚胺)，病毒转导，病毒微体转染，病毒粒子转染，脂质体转染(liposome transfection)，阳离子脂质体转染，免疫脂质体转染，非脂质体脂质转染，树状聚合物转染，热休克转染，磁转染，lipofection，基因枪递送，impalefection，声致穿孔(sonoporation)，光学转染，以及核酸的专有药剂增强的摄取。转染方法是本领域众所周知的(参见例如"CurrentProtocols in Molecular Biology"Ausubel et al.,John Wiley&Sons,New York,2003或"Molecular Cloning:A Laboratory Manual"Sambrook&Russell,Cold Spring HarborPress,Cold Spring Harbor,N.Y.,3rd edition,2001)。在其他实施方案中，通过显微注射将分子引入细胞或非人动物胚胎中。例如，可以将分子注射入一个细胞的非人动物胚胎的原核中。

本发明的该系统的蛋白质组分(或编码它们的核酸)和RNA组分(或编码它们的DNA)可以同时或顺序地引入细胞或非人动物胚胎中。所述蛋白质(或其编码核酸)与RNA(或编码RNA的DNA)的比例通常将近似化学计量，使得它们可以形成RNA-蛋白质复合物。类似地，两种不同蛋白质(或编码核酸)的比例将近似化学计量。在一个实施方案中，所述蛋白质组分和RNA组分(或编码它们的DNA序列)在同一核酸或载体内一起递送。

该方法还包括维持细胞或非人动物胚胎在合适的条件下，使得指导RNA将效应子蛋白指导至靶序列中的靶向位点，并且效应子结构域修饰靶序列。

通常，可以维持细胞在适合于细胞生长和/或维持的条件下。合适的细胞培养条件在本领域中是众所周知的，并且描述于例如Current Protocols in Molecular Biology"Ausubel et al.,John Wiley&Sons,New York,2003or"Molecular Cloning:ALaboratoryManual"Sambrook&Russell,Cold Spring Harbor Press,Cold Spring Harbor,N.Y.,3rdedition,2001),Santiago et al.(2008)PNAS 105:5809-5814；Moehle et al.(2007)PNAS104:3055-3060；Urnov et al.(2005)Nature 435:646-651；和Lombardo et al.(2007)Nat.Biotechnology 25:1298-1306中。本领域技术人员知道本领域已知的用于培养细胞的方法，并且能够并且会根据细胞类型而变化。在所有情况下，可以使用常规优化来确定针对特定细胞类型的最佳技术。

可以在体外(例如在细胞培养物中)培养非人动物胚胎。通常，将非人动物胚胎在合适的温度和合适的培养基中以必要的O₂/CO₂比例培养以允许蛋白质和RNA支架的表达(如果需要的话)。培养基的合适的非限制性实例包括M2，M16，KSOM，BMOC和HTF培养基。本领域技术人员将意识到，培养条件能够并且将根据非人动物胚胎的种类而变化。在所有情况下，可以使用常规优化来确定特定种类非人动物胚胎的最佳培养条件。在一些情况下，细胞系可以衍生自体外培养的非人动物胚胎，或者胚胎干细胞系。

或者，可以通过将非人动物胚胎转移到雌性宿主的子宫中来在体内培养胚胎。一般来说，雌性寄主来自与非人动物胚胎相同或相似的物种。优选地，雌性宿主是假孕的。制备假孕雌性宿主的方法是本领域已知的。另外，将非人动物胚胎转移到雌性宿主中的方法是已知的。在体内培养非人动物胚胎允许胚胎发育并且能够导致衍生自胚胎的动物的活产。这种动物将在身体的每个细胞中包含修饰的染色体序列。

各种真核细胞适用于该方法。例如，细胞可以是人细胞，非人哺乳动物细胞，非哺乳动物脊椎动物细胞，无脊椎动物细胞，昆虫细胞，植物细胞，酵母细胞或单细胞真核生物。各种非人动物胚胎适用于该方法。例如，胚胎可以是1细胞、2细胞或4细胞的非人的哺乳动物胚胎。示例性的非人哺乳动物胚胎，包括1细胞胚胎，包括但不限于小鼠，大鼠，仓鼠，啮齿动物，兔，猫，犬，羊，猪，牛，马和灵长类动物胚胎。在其他实施方案中，细胞可以是干细胞。合适的干细胞包括但不限于胚胎干细胞，ES样干细胞，成体干细胞，多能(pluripotent)干细胞，诱导多能(pluripotent)干细胞，多能(multipotent)干细胞，寡能(oligopotent)干细胞，单能(unipotent)干细胞和其他干细胞。在示例性实施方案中，细胞是哺乳动物细胞或胚胎是非人哺乳动物胚胎。

用途和应用

本文公开的系统和方法广泛具有各种用途，包括修饰和编辑(例如失活和激活)多种细胞类型中的靶多核苷酸。因此，这些系统和方法具有广泛的应用，例如用在研究和治疗中。

许多毁灭性的人类疾病有一个共同的原因：基因改变或突变。患者的致病性突变要么是通过父母遗传获得的，要么是由环境因素引起的。这些疾病包括但不限于以下类别。第一，一些基因疾病是由种系突变引起的。一个实例是囊性纤维化，其是由父母遗传的突变CFTR基因造成的。第二，一些疾病(如慢性病毒感染性疾病)是由外部环境因素引起的基因改变引起的。一个实例是AIDS，其是由人HIV病毒基因组插入感染的T细胞的基因组引起的。第三，一些神经退行性疾病涉及基因改变。一个实例是亨廷顿舞蹈病，其是由受影响的患者的亨廷顿基因中CAG三核苷酸的扩增引起的。最后，癌症是由癌细胞中积累的各种体细胞突变引起的。因此，校正致病性基因突变(或功能性校正序列)为治疗这些疾病提供了有吸引力的治疗机会。

体细胞基因编辑是许多人疾病的有吸引力的治疗策略。为了实现成功的治疗性基因编辑，三个关键因素被认为是至关重要的：(i)如何实现序列特异性识别(“序列识别模块”)；(ii)如何校正发生的突变(“校正模块”)；和(iii)如何将“校正模块”连接到“序列识别模块”以一起实现序列特异性校正。实现每种个体任务的方法有很多。然而，目前现有的平台或技术都不能实现最佳和实用的体细胞基因编辑。更具体而言，目前的基因特异性编辑技术主要基于核酸酶诱导的DNADSB和随后DSB诱导的同源重组，其在大多数体细胞中的活性低或不存在。因此，这些技术在大多数疾病的体细胞组织中的病理性基因突变的治疗性校正中使用受限。

相反，本发明公开的系统和方法允许不依赖于核酸酶活性的基因或RNA转录物的DNA序列定向编辑。该系统和方法不产生DSB，或不依赖于DSB介导的同源重组。此外，该系统的这种设计是模块化的，其允许以极其灵活和方便的方式靶向任何期望的DNA或RNA序列。实质上，这种方法使人们能够将DNA或RNA编辑酶指导至体细胞(包括干细胞)中的任何DNA或RNA序列。通过精确编辑靶DNA或RNA序列，该酶能够校正基因疾病中的突变基因，使感染细胞中的病毒基因组失活，消除神经退行性疾病中致病蛋白的表达，或沉默癌症中的致癌蛋白。因此，本发明公开的系统和方法可用于校正包括上述基因疾病、慢性感染性疾病、神经退行性疾病和癌症在内的疾病的潜在基因改变。

基因疾病

据估计，由已知的基因突变引起的疾病超过六千种。校正病理组织/器官中发生的引起疾病的突变能够减轻或治愈疾病。例如，在美国，每3,000人中就有一人受到囊性纤维化影响。它是由突变的CFTR基因的遗传引起的，并且70％的患者具有相同的突变，导致在位置508处缺失苯丙氨酸的三核苷酸缺失(称为“ΔPhe 508”)。ΔPhe 508导致CFTR的错位和降解。本发明中公开的系统和方法能够用于在受影响的组织(肺)中将Val 509残基(GTT)转换成Phe 509(TTT)，从而功能上校正ΔPhe 508突变。

慢性传染病

本发明中公开的系统和方法也能够用于特异性失活并入人细胞/组织的病毒基因组中的任何基因。例如，本发明公开的系统和方法允许人们创建用于早期终止必需的病毒基因的翻译的终止密码子，从而补救或治愈慢性衰弱的感染性疾病。例如，目前的AIDS治疗可以减少病毒载量，但不能完全消除阳性T细胞中的休眠HIV。本文公开的系统和方法能够用于通过引入一个或两个终止密码子，永久性地失活人T细胞整合的HIV基因组中一个或两个关键HIV基因的表达。另一个实例是乙型肝炎病毒(HBV)。本文公开的系统和方法能够用于特异性失活一个或两个关键被整合到人基因组中的HBV基因并沉默HBV生命周期。

神经退行性疾病

一些神经退行性疾病是由功能获得突变引起的。例如，SOD1G93A导致肌萎缩侧索硬化症(ALS)的发展。本发明公开的系统和方法能够用于通过引入终止密码子或通过改变剪接位点来校正该突变或消除突变蛋白的表达。

癌症

许多基因(包括肿瘤抑制基因、致癌基因和DNA修复基因)有助于癌症的发展。这些基因突变常导致各种癌症。使用本发明中公开的系统和方法，能够特异性靶向和校正这些突变。因此，通过在催化位点或剪接位点引入点突变能够使致癌性致癌蛋白功能性消除或者能够消除其表达。

干细胞基因修饰

在一些实施方案中，能够使用本发明中公开的系统和方法基因修饰干细胞或祖细胞。合适的细胞包括例如干细胞(成体干细胞、胚胎干细胞、iPS细胞等)和祖细胞(例如心脏祖细胞、神经祖细胞等)。合适的细胞包括哺乳动物干细胞和祖细胞，包括例如啮齿动物干细胞、啮齿动物祖细胞、人干细胞、人祖细胞等。合适的宿主细胞包括体外宿主细胞，例如分离的宿主细胞。

在一些实施方案中，本发明能够用于组织的离体靶向和精确基因修饰，校正潜在的基因缺陷。离体校正后，组织可以返回到患者。此外，该技术能够广泛用于基于细胞的疗法以校正基因疾病。

动物和植物中的基因编辑

上述系统和方法能够用于产生具有一种或多种感兴趣的基因修饰的转基因非人动物或植物。在一些实施方案中，转基因非人动物针对基因修饰是纯合的。在一些实施方案中，转基因非人动物针对基因修饰是杂合的。在一些实施方案中，转基因非人动物是脊椎动物，例如鱼(例如，斑马鱼，金鱼，河豚，洞穴鱼等)，两栖动物(青蛙，蝾螈等)，鸟类(例如鸡，火鸡等)，爬行动物(例如蛇，蜥蜴等)，哺乳动物(例如有蹄类动物，例如猪，牛，山羊，绵羊等)；兔类动物(例如兔子)；啮齿动物(例如大鼠，小鼠)；非人灵长类动物。

如上所述，本发明能够用于治疗动物疾病，其方式类似于治疗人类疾病。或者，它能够用于产生具有特定基因突变的敲入动物疾病模型以用于研究、药物发现和靶验证。上述系统和方法还能够用于向各种生物的ES细胞或非人动物胚胎引入点突变，用于培育和改善动物种群和作物品质。

将外源核酸导入植物细胞的方法在本领域中是众所周知的。合适的方法包括病毒感染(例如双链DNA病毒)，转染，接合，原生质体融合，电穿孔，粒子枪技术，磷酸钙沉淀，直接显微注射，碳化硅晶须技术，农杆菌介导的转化等。方法的选择通常取决于被转化的细胞类型和发生转化的环境(即体外、离体或体内)。

试剂盒

本发明进一步提供了含有用于执行上述方法的试剂的试剂盒，包括CRISPR:Cas指导的靶结合或校正反应。为此，用于本文公开的方法的一种或多种反应组分例如RNA、Cas蛋白、融合效应子蛋白和相关核酸可以以试剂盒的形式供应以供使用。在一个实施方案中，试剂盒包含CRISPR蛋白或编码Cas蛋白的核酸、效应子蛋白，上述RNA支架中的一个或多个，上述一组RNA分子。在其他实施方案中，试剂盒可以包含一种或多种其他反应组分。在这样的试剂盒中，将适量的一种或多种反应组分提供在一个或多个容器中或保持在基底上。

试剂盒的附加组分的实例包括但不限于一种或多种宿主细胞，用于将外源核苷酸序列引入宿主细胞的一种或多种试剂，用于检测RNA或蛋白质的表达或验证靶核酸状态的一种或多种试剂(例如探针或PCR引物)，以及用于反应的缓冲液或培养基(1X或浓缩形式)。试剂盒还可以包括一种或多种以下组分：支持物，终止、修饰或消化试剂，渗压剂和用于检测的设备。

所使用的反应组分可以以各种形式提供。例如，可以将组分(例如酶、RNA、探针和/或引物)悬浮在水溶液中或者作为冷冻干燥或冻干的粉末、丸粒或珠。在后一种情况下，组分在重构时形成组分的完全混合物用于测定。本发明的试剂盒可以在任何合适的温度下提供。例如，为了将包含蛋白质组分或其复合物的试剂盒储存在液体中，优选将它们提供并维持在0℃以下，优选在-20℃或以下，或者以其他方式处于冷冻状态。

试剂盒或系统可以含有(足以用于至少一种测定的量的)本文所述组分的任何组合。在一些应用中，一种或多种反应组分可以以预先测量的单次使用量提供在单独的、通常为一次性的管或等同的容器中。利用这样的配置，可以通过将靶核酸或含有靶核酸的样品或细胞直接添加到单独的管中，来进行RNA指导的反应。试剂盒中提供的组分的量可以是任何合适的量，并且可以取决于产品针对的目标市场。其中提供组分的容器可以是能够容纳所提供的形式的任何常规容器，例如微量离心管，微量滴定板，安瓿瓶，瓶子或整体测试装置，诸如流体装置、盒、横向流或其他类似的装置。

试剂盒还可以包括用于容纳容器或容器组合的包装材料。用于这样的试剂盒和系统的通常包装材料包括固体基质(例如，玻璃，塑料，纸，箔，微粒等)，其以各种配置中的任一种(例如小瓶，微量滴定板孔，微阵列等)容纳反应组分或检测探针。试剂盒可以进一步包括以有形形式记录的用于使用组分的说明书。

定义

核酸或多核苷酸是指DNA分子(例如但不限于cDNA或基因组DNA)或RNA分子(例如但不限于mRNA)，并且包括DNA或RNA类似物。DNA或RNA类似物可以由核苷酸类似物合成。DNA或RNA分子可以包括非天然存在的部分，例如修饰的碱基，修饰的主链，RNA中的脱氧核糖核苷酸等。核酸分子可以是单链或双链的。

当提及核酸分子或多肽时，术语“分离的”是指核酸分子或多肽基本上不含与其在自然界中与之有关或一起发现的至少一种其他组分。

如本文所用，术语“指导RNA”通常是指能够结合CRISPR蛋白并将CRISPR蛋白靶向靶DNA内的特定位置的RNA分子(或总体地RNA分子组)。指导RNA可以包含两个区段：靶向DNA的指导区段和结合蛋白质的区段。靶向DNA的区段包含与靶序列互补(或至少可以在严谨条件下杂交)的核苷酸序列。结合蛋白质的区段与CRISPR蛋白如Cas9或Cas9相关多肽相互作用。这两个区段可以位于同一RNA分子中，或者位于两个或更多个独立的RNA分子中。当两个区段处于独立的RNA分子中时，包含靶向DNA的指导区段的分子有时被称为CRISPRRNA(crRNA)，而包含结合蛋白质的区段的分子被称为反式激活RNA(tracrRNA)。

如本文所用，术语“靶核酸”或“靶”是指含有靶核酸序列的核酸。靶核酸可以是单链或双链的，通常是双链DNA。本文使用的“靶核酸序列”、“靶序列”或“靶区域”是指希望使用CRISPR系统结合或修饰的特定序列或其互补序列。靶序列可以在细胞基因组内的体外或体内核酸内，其可以是任何形式的单链或双链核酸。

“靶核酸链”是指与本文所公开的指导RNA进行碱基配对的靶核酸的链。也就是说，与crRNA和指导序列杂交的靶核酸的链被称为“靶核酸链”。不与指导序列互补的靶核酸的另一链被称为“非互补链”。在双链靶核酸(例如DNA)的情况下，每条链可以是设计crRNA和指导RNA的“靶核酸链”并用于实施本发明，只要有合适的PAM位点。

如本文所用，术语“衍生自”是指这样的过程，其中使用第一组分(例如第一分子)或来自该第一组分的信息来分离、衍生或制备不同的第二组分(例如与第一分子不同的第二分子)。例如，哺乳动物密码子优化的Cas9多核苷酸衍生自野生型Cas9蛋白氨基酸序列。而且，包括Cas9单突变切口酶(nCas9，如nCas9D10A)和Cas9双突变体无核酸酶(dCas9，如dCas9 D10AH840A)的哺乳动物密码子优化的Cas9多核苷酸变体衍生自编码野生型哺乳动物密码子优化的Cas9蛋白的多核苷酸。

如本文所用，术语“野生型”是本领域技术人员理解的技术术语，并且是指与生物、菌株、基因或特征的通常形式，其天然存在且不同于突变体或变体形式。

如本文所用，术语“变体”是指与第二组合物(例如第二分子，也称为“亲本”分子)有关的第一组合物(例如第一分子)。变体分子可以衍生自、分离自、基于或同源于母体分子。例如，哺乳动物密码子优化的Cas9的突变形式(hspCas9)(包括Cas9单突变切口酶和Cas9双突变体无核酸酶)是哺乳动物密码子优化的野生型Cas9的变体(hspCas9)。术语变体可以用于描述多核苷酸或多肽。

应用于多核苷酸时，变体分子可以与原始亲本分子具有完全的核苷酸序列同一性，或者可以与亲本分子具有小于100％的核苷酸序列同一性。例如，基因核苷酸序列的变体可以是与原始的核苷酸序列相比，核苷酸序列至少50％，60％，70％，80％，90％，95％，98％，99％或更多相同的第二核苷酸序列。多核苷酸变体还包括包含完整亲本多核苷酸并且还包含额外的融合核苷酸序列的多核苷酸。多核苷酸变体还包括作为亲本多核苷酸的部分或子序列的多核苷酸，例如本文公开的多核苷酸的独特子序列(例如，如通过标准序列比较和比对技术所确定的)也包括在本发明中。

在另一方面，多核苷酸变体包括相对于亲本核苷酸序列含有较小、细微或不重要的改变的核苷酸序列。例如，较小、细微或不重要的改变包括以下对核苷酸序列的改变：(i)不改变相应多肽的氨基酸序列，(ii)出现在多核苷酸的蛋白质编码开放阅读框之外，(iii)导致可能影响相应氨基酸序列但对多肽的生物学活性几乎没有影响的缺失或插入，(iv)核苷酸改变导致氨基酸被化学上相似的氨基酸置换。在多核苷酸不编码蛋白质(例如，tRNA或crRNA或tracrRNA)的情况下，该多核苷酸的变体可以包括不导致多核苷酸功能丧失的核苷酸改变。在另一方面，本发明涵盖产生功能相同的核苷酸序列的公开核苷酸序列的保守变体。本领域技术人员将认识到，所公开的核苷酸序列的许多变体被包括在本发明中。

当应用于蛋白质时，变体多肽可以具有与原始亲本多肽的完全氨基酸序列同一性，或者可以具有与亲本蛋白质的小于100％的氨基酸同一性。例如，氨基酸序列的变体可以是相比于原始氨基酸序列，氨基酸序列至少50％，60％，70％，80％，90％，95％，98％，99％或更多相同的第二氨基酸序列。

多肽变体包括包含完整亲本多肽并且还包含额外的融合氨基酸序列的多肽。多肽变体还包括作为亲本多肽的部分或子序列的多肽，例如本文公开的多肽的独特子序列(例如，如通过标准序列比较和比对技术所确定的)也包括在本发明中。

在另一方面，多肽变体包括相对于亲本氨基酸序列含有较小、细微或不重要的改变的多肽。例如，较小、细微或不重要的改变包括对多肽的生物学活性具有小的影响或没有影响的氨基酸改变(包括置换、缺失和插入)，并产生功能相同的多肽，包括添加非功能性肽序列的氨基酸改变。在其他方面，本发明的变体多肽改变亲本分子的生物学活性，例如已经被修饰或失去核酸酶活性的Cas9多肽的突变变体。本领域技术人员将理解，本发明涵盖所公开的多肽的许多变体。

在一些方面，本发明的多核苷酸或多肽变体可以包括改变、添加或缺失小百分比的核苷酸或氨基酸位置的变体分子，例如通常小于约10％，小于约5％，小于4％，小于2％或小于1％。

如本文所用，核苷酸或氨基酸序列中的术语“保守置换”是指核苷酸序列中的改变，其(i)由于三联体密码子冗余性而不导致氨基酸序列中的任何相应变化，或(ii)导致原始亲本氨基酸被具有化学相似结构的氨基酸置换。提供功能上相似的氨基酸的保守置换表在本领域是众所周知的，其中一个氨基酸残基被另一个具有相似化学性质的氨基酸残基置换(例如，芳族侧链或带正电的侧链)，并且因此基本上不改变所得多肽分子的功能特性。

以下是含有类似化学性质的天然氨基酸分组，其中组内的置换是“保守”氨基酸置换。以下所示的这种分组不是硬性的，因为当考虑到不同的功能特性时，这些天然氨基酸可以被置于不同的分组中。具有非极性和/或脂肪族侧链的氨基酸包括：甘氨酸，丙氨酸，缬氨酸，亮氨酸，异亮氨酸和脯氨酸。具有极性不带电荷侧链的氨基酸包括：丝氨酸，苏氨酸，半胱氨酸，甲硫氨酸，天冬酰胺和谷氨酰胺。具有芳族侧链的氨基酸包括：苯丙氨酸，酪氨酸和色氨酸。具有带正电侧链的氨基酸包括：赖氨酸，精氨酸和组氨酸。具有带负电侧链的氨基酸包括：天冬氨酸和谷氨酸。

“Cas9突变体”或“Cas9变体”是指野生型Cas9蛋白如化脓性链球菌Cas9蛋白(即，SEQ ID NO：1)的蛋白或多肽衍生物，例如具有一个或多个点突变、插入、缺失、截短、融合蛋白或其组合的蛋白。它基本上保留了Cas9蛋白的RNA靶向活性。该蛋白或多肽可以包含SEQID NO：1的片段，由其组成或基本上由其组成。通常，突变体/变体与SEQ ID NO：1至少50％(例如50％至100％，包括端值之间的任何数值)相同。突变体/变体可以与RNA分子结合并经由RNA分子靶向特定的DNA序列，并且可以另外具有核酸酶活性。这些结构域的实例包括RuvC样基序(SEQ ID NO：1中的氨基酸7-22、759-766和982-989)和HNH基序(氨基酸837-863)。参见Gasiunas et al.,Proc Natl Acad Sci U S A.2012September 25；109(39):E2579–E2586和WO2013176772。

“互补性”是指核酸通过传统Watson-Crick碱基配对或其他非传统类型与另一核酸序列形成氢键的能力。百分比互补性表示核酸分子中可与第二核酸序列形成氢键(例如Watson-Crick碱基配对)的残基的百分比(例如，10中有5，6，7，8，9，10个则为50％，60％，70％，80％，90％和100％互补)。“完全互补”是指核酸序列的所有连续残基将与第二核酸序列中相同数量的连续残基氢键结合。如本文所用的“基本上互补的”是指在8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,30,35,40,45,50,或更多个核苷酸的区域上至少60％,65％,70％,75％,80％,85％,90％,95％,97％,98％,99％,或100％的互补性程度，或指在严格条件下杂交的两条核酸。

如本文所用，用于杂交的“严格条件”是指与靶序列具有互补性的核酸主要与靶序列杂交且基本上不与非靶序列杂交的条件。严格条件通常是序列相关的，并且取决于许多因素。通常，序列越长，序列与其靶序列特异性杂交的温度越高。严格条件的非限制性实例详细描述于Tijssen(1993),Laboratory Techniques In Biochemistry And MolecularBiology-Hybridization With Nucleic Acid Probes Part I,Second Chapter"Overviewof principles of hybridization and the strategy of nucleic acid probe assay",Elsevier,N.Y.中。

“杂交”是指在特定的杂交条件下完全或部分互补的核酸链一起形成其中两条构成链通过氢键连接的双链结构或区域的过程。虽然氢键通常在腺嘌呤和胸腺嘧啶或尿嘧啶(A和T或U)或胞嘧啶和鸟嘌呤(C和G)之间形成，但也可以形成其它碱基对(例如，Adams etal.,The Biochemistry of the Nucleic Acids,11th ed.,1992)。

如本文所用，“表达”是指通过其多核苷酸从DNA模板转录(例如转录成mRNA和其他RNA转录物)的过程和/或通过其转录的mRNA随后被翻译成肽、多肽、或蛋白质的过程。转录物和编码的多肽可以统称为“基因产物”。如果多核苷酸衍生自基因组DNA，则表达可包括mRNA在真核细胞中的剪接。

术语“多肽”、“肽”和“蛋白质”在本文中可互换使用，是指任何长度的氨基酸的聚合物。该聚合物可以是直链或支链的，它可以包含修饰的氨基酸，并且可以被非氨基酸中断。该术语还包括已被修饰的氨基酸聚合物；例如二硫键形成，糖基化，脂质化，乙酰化，磷酸化，聚乙二醇化或任何其他操作，例如与标记组分缀合。如本文所用，术语“氨基酸”包括天然和/或非天然或合成氨基酸，包括甘氨酸和D或L光学异构体，以及氨基酸类似物和肽模拟物。

术语“融合多肽”或“融合蛋白”是指通过将两个或更多个多肽序列连接在一起而产生的蛋白质。包含在本发明中的融合多肽包括嵌合基因构建体的翻译产物，所述嵌合基因构建体将编码第一多肽(例如RNA结合结构域)的核酸序列与编码第二多肽(例如效应子结构域)的核酸序列连接，形成单个开放阅读框架。换句话说，“融合多肽”或“融合蛋白”是由肽键或经由数种肽连接的两种或更多种蛋白质的重组蛋白质。融合蛋白还可以包含两个结构域之间的肽接头。

术语“接头”是指用于连接两个或更多个实体的任何工具、实体或部分。接头可以是共价接头或非共价接头。共价接头的实例包括共价键或共价附接至一个或多个待连接的蛋白质或结构域的接头部分。接头还可以是非共价键，例如通过金属中心例如铂原子的有机金属键。对于共价键，可以使用各种官能团，例如酰胺基团，包括碳酸衍生物，醚，酯，包括有机和无机酯，氨基，尿烷，尿素等。为了提供连接，可以通过氧化、羟基化、置换、还原等修饰所述结构域以提供偶联位点。缀合方法是本领域技术人员众所周知的，并且包括在本发明中。接头部分包括但不限于化学接头部分，或者例如肽接头部分(接头序列)。应该理解的是，不显著降低RNA结合结构域和效应子结构域功能的修饰是优选的。

如本文所用，本文使用的术语“缀合”或“连接”是指两个或更多个实体附接形成一个实体。缀合物包括肽-小分子缀合物以及肽-蛋白质/肽缀合物。

术语“受试者”和“患者”在本文中可互换使用，指脊椎动物，优选哺乳动物，更优选人。哺乳动物包括但不限于鼠类，猿猴，人，农场动物，运动动物和宠物。也包括体内获得的或体外培养的生物实体的组织、细胞及其后代。在一些实施方案中，受试者可以是无脊椎动物，例如昆虫或线虫；而在其他情况下，受试者可能是植物或真菌。

如本文所用，“治疗”或“减轻”或“改善”可互换使用。这些术语是指用于获得有益的或期望的结果的方法，包括但不限于治疗益处和/或预防益处。治疗益处是指治疗中的一种或多种疾病、病况或症状的任何治疗相关的改善或作用。对于预防益处，可将组合物施用于具有发展特定疾病、病况或症状的风险的受试者，或施用于报告疾病的一种或多种生理症状但疾病、病况或症状可能还没有表现出来的受试者。

如本文所用，当涉及任何组分集合时使用的术语“接触”包括将要接触的组分混合成同一混合物(例如，加入到同一隔室或溶液中)的任何方法，不一定需要所述组分之间的实际物理接触。所述组分可以以任何顺序或任何组合(或子组合)接触，并且可以包括随后(任选在添加其它所述组分之前)从混合物中除去一种或一些所述组分的情况。例如，“将A与B和C接触”包括以下任何和所有情况：(i)将A与C混合，然后将B加入到混合物中；(ii)将A和B混合成混合物，将B从混合物中除去，然后将C加入到混合物中；(iii)将A加入到B和C的混合物中。将靶核酸或细胞与一种或多种反应组分(例如Cas蛋白或指导RNA)“接触”包括以下任何或所有情况：(i)使靶或细胞与反应混合物的第一组分接触以产生混合物，然后将反应混合物的其它组分以任何顺序或组合加入到混合物中；和(ii)反应混合物在与靶或细胞混合之前完全形成。

如本文所用的术语“混合物”是指散布且不是以任何特定的顺序的元素的组合。混合物是异源的，不能在空间上分离成不同的成分。元素混合物的实例包括溶解在相同水溶液中的许多不同元素，或随机或以不特定顺序附接到固体载体上的许多不同元素，其中不同元素不是在空间上不同。换句话说，混合物是不可寻址的。

如本文所公开的，提供了许多数值范围。可以理解的是，除非上下文清楚地另外指出，在该范围的上限和下限之间的每个中间值至下限单位的十分之一也被具体地公开。在所述范围内的任何规定值或中间值与该规定范围内的任何其他规定值或中间值之间的每个较小范围都包含在本发明内。这些较小范围的上限和下限可以独立地包括在该范围内或排除在外，并且其中任一个、没有一个或两个限值都包括在较小范围内的每个范围也包含在本发明内，受限于规定的范围中任何具体排除的限制。在所述范围包括一个或两个限值的情况下，排除那些所包括的限值中的任一个或两个的范围也包括在本发明中。术语“约”通常是指所指数字的正或负10％。例如，“约10％”可以表示9％至11％的范围，“约20”可以表示18-22。“约”的其他含义可以从上下文明显看出，例如四舍五入，所以例如“约1”也可以表示0.5到1.4。

实施例

实施例1CRC系统导致细菌基因组中靶胞嘧啶核苷酸的位点特异性突变。

在本实施例中，使用大肠杆菌MG1655菌株作为模型。细菌RNA聚合酶亚单位β基因(rpoB)中的突变使细胞对抗生素利福平具有抗性(Jin,et al.,Journal of MolecularBiology 202,45-58,(1988),和Goldstein,et al.,J Antibiot 67,625-630,doi:10.1038/ja.2014.107(2014))。可以单独分离和分析突变体，并且可以计算突变频率。AID是B细胞特异性蛋白质，属于胞苷脱氨酶的APOBEC家族，并且在抗体多样化和亲和力成熟过程中参与体细胞高变和类别转换重组(Odegard,et al.,Nat Rev Immunol 6,573-583(2006),和Noia,et al.Annual Review of Biochemistry 76,1-22,doi:doi:10.1146/annurev.biochem.76.061705.090740(2007))。因此，对于这些实验组，使用AID作为非核酸酶效应子蛋白来靶向来自大肠杆菌MG1655的rpoB基因。

构建体和系统配置

诱导型启动子

所有蛋白质编码构建体均设计成在Tet诱导型启动子的控制下。使用浓度为30nM的无水四环素(ATc；Sigma)作为诱导剂。

Cas9构建体

本系统的核心特征是引入精确的核苷酸修饰而不产生DSB。为此，使用核酸酶缺陷型Cas9作为DNA靶向模块，即催化缺陷型Cas9(Cas9_D10A/H840A,dCas9)和Cas9切口酶(nCas9_D10A或nCas9_H840A)(Jinek,M.et al.,Science 337,816-821,doi:10.1126/science.1225829(2012))。已经使用Cas9切口酶通过偏移双DNA切刻来减少脱靶DSB(Ran,F.A.et al.,Cell154,1380-1389,doi:10.1016/j.cell.2013.08.021(2013),和Shen,B.et al.,Nat Meth11,399-402,doi:10.1038/nmeth.2857(2014))，并且dCas9已被工程改造以发挥不依赖于核酸酶活性的各种活性。参见Fujita,T.et al.,Biochemical and biophysical researchcommunications 439,132-136,(2013),Perez-Pinera,P.et al.Nat Meth 10,973-976,doi:10.1038/nmeth.2600(2013),Mali,P.et al.Nat Biotechnol 31,833-838,doi:10.1038et al./nbt.2675(2013),Zalatan,J.G.et al.,Cell 160,339-350,doi:10.1016/j.cell.2014.11.052(2015),Qi,L.S.et al.,Cell 152,1173-1183,doi:10.1016/j.cell.2013.02.022(2013),Larson,M.H.et al.,Nature protocols 8,2180-2196,doi:10.1038/nprot.2013.132(2013),Hilton,I.B.et al.,Nat Biotech 33,510-517,doi:10.1038/nbt.3199(2015),Thakore,P.I.et al.,Nat Meth 12,1143-1149,doi:10.1038/nmeth.363(2015),Chen,B.et al.,Cell 155,1479-1491,doi:10.1016/j.cell.2013.12.001(2013),和Fu,Y.et al.,Nature communications 7,doi:10.1038/ncomms11707(2016)。因此，这些变体在很大程度上被认为是安全的，并且代表开发本研究中提出的系统的理想候选者。

靶向募集系统

该系统被工程改造成RNA支架介导的募集平台。包括本研究中使用的构建体的示意图的示意性代表在图1A中示出。Cas9变体被设计为独立构建体，而gRNA被工程改造成嵌合RNA物质，其中噬菌体RNA支架被合成融合到CRISPR RNA支架的3'末端。噬菌体RNA支架募集特定的RNA结合蛋白，其又被连接至非核酸酶效应子蛋白(图1B)。RNA支架募集系统衍生自噬菌体MS2及其相互作用伴侣MS2外壳蛋白(MCP)。

靶向gRNA

靶是细菌rpoB基因。一起被称为利福平抗性决定区(RRDR)的三个簇中的突变赋予细胞对抗生素利福平的抗性(Rif^R)(Goldstein,et al.,J Antibiot 67,625-630,doi:10.1038/ja.2014.107(2014))。设计了一组四个gRNA，以沿着RRDR簇I序列靶向关键氨基酸(即S512、D516、H526和S531；图2A)。Jin,et al.,Journal of molecular biology 202,45-58,(1988)和Jin,D.J.et al.,Methods in Enzymology Vol.Volume 273 300-319(Academic Press,1996)

实验方法

化学感受态大肠杆菌MG1655细胞用10-20ng总DNA转化，所述总DNA包含编码第1部分所述构建体的质粒组合。转化后，选择细胞并在含有合适的抗生素的Luria-Bertani培养液中诱导。选择/诱导后，测量OD，连续稀释细胞，将10⁸-10⁴个细胞涂布在含有利福平(120μM)的LB琼脂平板上。针对铺板效率，将200个细胞铺板在没有利福平的选择性琼脂平板上。过夜孵育后，计数集落并对突变频率进行计数检查。另外，通过PCR扩增来自分离的集落的rpoB基因并进行测序以探寻突变。

结果

AID的靶向募集导致C到T的位点特异性转换。

靶向rpoB的RRDR(簇I)区域的一组四个gRNA被用于将AID募集到靶位点(图2A)。用rpoB_TS-4进行的以及至更小程度用rpoB_TS-3进行的CRC靶向提高了利福平培养基中MG1655细胞的存活分数(图2B、2C)。衍生自rpoB_TS-4处理的克隆的序列分析揭示了高特异性，使C1592突变为T，伴随着丝氨酸531到苯丙氨酸的氨基酸改变，这是已知得到Rif^R细胞的突变(Petersen-Mahrt,et al.,Nature 418,99-104(2002),Xu,M.,et al.,Journal ofBacteriology 187,2783-2792,doi:10.1128/JB.187.8.2783-2792.2005(2005),和Zenkin,N.,et al.,Antimicrobial Agents and Chemotherapy 49,1587-1590,doi:10.1128/AAC.49.4.1587-1590.2005(2005))(图2D)。图2E总结了rpoB_TS-3、rpoB_TS-4和乱序序列的突变分布。观察到高度增加的突变频率和rpoB_TS-4处理上的修饰的核苷酸的位置，并且rpoB_TS-3处理的效率降低，这表明靶胞嘧啶必须位于CRISPRR-环留下的未配对的链上，优先更接近原间隔区的5'末端(即突变频率TS4>TS3，均靶向和修饰相同的核苷酸，图2A、2C和2E)。这与AID积极地使单链DNA上的胞嘧啶残基脱氨基一致(Odegard,et al.,Nat Rev Immunol 6,573-583(2006),Noia,et al.,Annual Review of Biochemistry 76,1-22,doi:doi:10.1146/annurev.biochem.76.061705.090740(2007),Smith,H.C.,etal.,Seminars in Cell&Developmental Biology 23,258-268,doi:10.1016/j.semcdb.2011.10.004(2012),和Ranganathan,V.,et al.,Nature communications 5,doi:10.1038/ncomms5516(2014))。靶向模型的示意图如图2F所示。

CRC模块化

将靶向模块从dCas9改变为nCas9_D10A提高了C到T/A转换的效率

就利福平平板上的存活分数比对照组提高了18至43倍方面，将靶向模块从dCas9改变为nCas9_D10A提高了系统效率(图3A)。突变分析揭示了与^AIDCRC处理相同的靶核苷酸特异性。在这种情况下，C1592在100％的克隆中被修饰，75％的C被突变为T和25％的C被突变为A(图3B)。

其他非核酸酶效应子APOBEC3G和APOBEC1的靶向募集能够引入C到T/A的位点特异性转换

除了AID作为效应子蛋白之外，我们还测试了来自APOBEC家族的其他胞苷脱氨酶，即APOBEC3G和APOBEC1(图4A)。与原系统^AIDCRC_D10A相比，APOBEC1提高了靶突变频率。APOBEC3G比原型系统活跃程度低。以rpoB_TS-4作为靶向构建体的^Apo1CRC_D10A处理细胞的突变分析显示100％C1592>T转换。另外，25％的分析克隆是双突变体，转换C1590>T，没有氨基酸改变(图4B)。

增加RNA募集支架的数量可以增强突变频率，而不会改变C到T/A转换的特异性。

添加串联多聚体募集支架可能会增加靶区域上的效应子存在，从而增强系统的效率。为此，我们工程改造了rpoB_TS-4以包含两个MS2环(2xMS2)。我们比较具有一个MS2环的rpoB_TS-4(1xMS2)和rpoB_TS-4 2xMS2(图5A)之间的靶向效率。结果表明，依据Rif^R，增加募集环的数量实际上增强了突变频率，表明效应子蛋白的存在增加。以rpoB_TS-4_2xMS2为靶向构建体的^AIDCRC_D10A处理的细胞的突变分析显示C1592核苷酸在100％的克隆中被修饰，62.5％的C被突变为T和37.5％的C被突变为A(图5B)。这些结果表明，工程改造募集模块不会影响系统的靶向特异性。

总之，这些结果表明，CRC系统的模块化设计方便了工程改造过程，并为进一步改进系统开启了可能性。

实施例2CRC系统导致哺乳动物系统中位点特异性核苷酸转换

实验设计：工程改造该系统用于哺乳动物表达

我们接下来试图工程改造该系统用于哺乳动物表达。为此，我们使用哺乳动物密码子优化的nCas9_D10A接着由自我切割的P2A肽分离的AID_MCP融合体，将原核AIDCRCD10A系统概括为多顺反子构建体。在泛素C启动子的控制下克隆该构建体。gRNA_2xMS2盒在U6或H1启动子的控制下分别克隆用于具有5'-G或5'-A的靶(Ranganathan,V.,et al.,Naturecommunications 5,doi:10.1038/ncomms5516(2014))。图6A中示出了这些实验组中使用的构建体的示意图。

靶向染色体外DNA：EGFP回复突变测定

EGFP被工程改造为具有破坏其荧光团的功能丧失点突变(197A>G，Y66C)，因此使蛋白质不发荧光(_nfEGFP^Y66C)。然后将突变GFP的表达载体转染到哺乳动物细胞中并作为该系统的底物。这个实验的目的是“校正”这种功能丧失的突变。当校正的基因被转录和翻译时，校正将恢复蛋白质功能，在荧光显微镜下可以将其可视化为荧光细胞。

实验方法

用10μg包含编码_nfEGFP^Y66C、^AIDCRC_D10A和gRNA构建体的靶质粒的DNA的组合转染大约7×10⁵个293T细胞。为了比较，在这些实验组中使用第三代碱基编辑器系统(BE3，Komor,A.C.,et al.,Nature advance online publication,doi:10.1038/nature17946)。BE3是稍微相似的具有不同的募集机制(Cas9与APOBEC1的直接融合)的系统并且包括抑制尿嘧啶DNA糖基化酶(参与DNA修复的酶)的肽。过夜孵育后，在荧光显微镜下分析细胞以观察GFP信号。

结果

发现上述CRC系统能够修饰染色体外DNA中的靶核苷酸，恢复蛋白质功能。由于靶胞嘧啶位于模板链(TS,-)上，所以设计了两个gRNA以结合靶核苷酸周围的非模板链(NT,+)(图6B)。靶胞嘧啶分别位于_nfEGFP^Y66C_NT-1和_nfEGFP^Y66C_NT-2原间隔区内的位置5和12上。用编码nCas9_D10A、AID_MCP、gRNA(_nfEGFP^Y66C_NT-1或_nfEGFP^Y66C_NT-2或乱序序列)和靶构建体_nfEGFP^Y66C的DNA转染293T细胞。在用_nfEGFP^Y66C_NT-1和_nfEGFP^Y66C_NT-2处理的细胞上检测到EGFP信号，但是没有在用乱序序列处理的细胞上检测到EGFP信号(图6C)。由于靶胞嘧啶的位置，与_nfEGFP^Y66C_NT-2相比，_nfEGFP^Y66C_NT-1处理的细胞中的EGFP信号更强。_nfEGFP^Y66C_NT-1可能使得靶向的C更容易接近AID(图6C，中和右图)。另外，将CRC平台与不同的基因编辑系统(BE3)进行比较，所述基因编辑系统利用胞苷脱氨酶蛋白与Cas9蛋白的直接融合进行募集并且需要共同表达尿嘧啶DNA糖基化酶(UGI)的抑制剂以提高效率。意外地发现，即使没有局部UNG抑制(没有尿嘧啶DNA糖基化酶抑制剂UGI的表达)，效应子和序列靶向模块通过RNA支架连接的CRC系统比BE3系统更有效(图6C、6D和7B)。

这些结果证实了来自细菌系统的发现，并且表明该系统以可编程方式有效地使人细胞中染色体外DNA中的特定胞嘧啶残基脱氨基。使用_nfEGFP^Y66C_NT-1作为靶向gRNA，来自用^AIDCRC_D10A和BE3处理的GFP阳性细胞的定量表明CRC系统具有比BE3更好的转换效率(图6D)。

实施例3 CRC系统导致哺乳动物细胞内源基因中的位点特异性核苷酸转换靶向内源性基因座：中国仓鼠HPRT基因

受到从细菌阴性选择系统观察到的阳性结果的鼓舞，我们决定在哺乳动物中使用类似的方法。次黄嘌呤-鸟嘌呤磷酸核糖转移酶(HPRT)是参与嘌呤代谢的酶，已知沿其编码序列的突变引起对抗代谢物6-硫鸟嘌呤的抗性(6-TG^R)(O'Neill,J.P.et al.,Nature269,815-816(1977))。对于这些实验，我们旨在用CRC系统突变HPRT基因以破坏其功能，然后用6-TG选择突变细胞用于进一步分析。

实验方法

用10μg包含^AIDCRC_D10A构建体和gRNA HPRT_TS-1表达载体的DNA的组合转染大约7×10⁵个中国仓鼠V79-4细胞。为了比较，还用BE3和gRNA HPRT_TS-1处理细胞。按照先前描述的哺乳动物诱变操作方案，培养处理和未处理的细胞(Klein,C.B.,et al.,于CurrentProtocols in Toxicology(John Wiley&Sons,Inc.,2001))。简而言之，转染后，细胞保持7天，然后6-TG选择用于先前存在的HPRT mRNA和蛋白质的突变固定和转换。用60μM 6-TG选择细胞14天以允许形成6-TG^R集落。对集落进行计数以估计突变频率，并分离个体集落并分别扩增用于测序分析。

结果

一个gRNA被设计为靶向来自中国仓鼠HPRT基因的外显子3(图7A)。gRNA靶向编码苯丙氨酸的密码子74，并且该残基中的突变与降低的HPRT蛋白稳定性有关(Davidson,B.L.,et al.,Gene 63,331-336,doi:http://dx.doi.org/10.1016/0378-1119(88)90536-7(1988))。用编码^AIDCRC_D10A或BE3构建体的DNA与靶向gRNA表达载体一起转染V79-4细胞。^AIDCRC_D10A系统导致突变，使得与BE3系统相比，细胞对6-TG处理的抗性具有更高的效率(即分别比未处理的细胞高140倍和40倍；图7B)。结果显示CRC系统能够靶向和修饰内源性哺乳动物基因座中的特定DNA序列。

上述优选实施方案的实施例和描述应该被认为是示例性的，而不是限制权利要求所限定的本发明。容易理解的是，可以使用上述特征的多种变化和组合，而不脱离如权利要求中所阐述的本发明。这样的变化不被视为脱离本发明的范围，并且所有这样的变化旨在被包括在所附权利要求书的范围内。本文引用的所有参考文献全文引入作为参考。

序列表

<110> 新泽西鲁特格斯州立大学（Rutgers, The State University of NewJersey）

金晟侃（Jin, Shengkan）

J-C·科兰特斯（Collantes, Juan-Carlos）

<120> 核酸酶非依赖性靶向基因编辑平台及其用途

<130> S2015-134/ 096738.00475

<150> 62/192,876

<151> 2015-07-15

<160> 47

<170> SIPOSequenceListing 1.0

<210> 1

<211> 1368

<212> PRT

<213> 化脓性链球菌(Streptococcus pyogenes)

<400> 1

Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val

1 5 10 15

Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe

20 25 30

Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile

35 40 45

Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu

50 55 60

Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys

65 70 75 80

Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser

85 90 95

Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys

100 105 110

His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr

115 120 125

His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp

130 135 140

Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His

145 150 155 160

Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro

165 170 175

Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr

180 185 190

Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala

195 200 205

Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn

210 215 220

Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn

225 230 235 240

Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe

245 250 255

Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp

260 265 270

Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp

275 280 285

Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp

290 295 300

Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser

305 310 315 320

Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys

325 330 335

Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe

340 345 350

Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser

355 360 365

Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp

370 375 380

Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg

385 390 395 400

Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu

405 410 415

Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe

420 425 430

Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile

435 440 445

Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp

450 455 460

Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu

465 470 475 480

Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr

485 490 495

Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser

500 505 510

Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys

515 520 525

Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln

530 535 540

Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr

545 550 555 560

Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp

565 570 575

Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly

580 585 590

Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp

595 600 605

Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr

610 615 620

Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala

625 630 635 640

His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr

645 650 655

Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp

660 665 670

Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe

675 680 685

Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe

690 695 700

Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu

705 710 715 720

His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly

725 730 735

Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly

740 745 750

Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln

755 760 765

Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile

770 775 780

Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro

785 790 795 800

Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu

805 810 815

Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg

820 825 830

Leu Ser Asp Tyr Asp Val Asp Ala Ile Val Pro Gln Ser Phe Leu Lys

835 840 845

Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg

850 855 860

Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys

865 870 875 880

Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys

885 890 895

Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp

900 905 910

Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr

915 920 925

Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp

930 935 940

Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser

945 950 955 960

Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg

965 970 975

Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val

980 985 990

Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe

995 1000 1005

Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys

1010 1015 1020

Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser

1025 1030 1035 1040

Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu

1045 1050 1055

Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile

1060 1065 1070

Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser

1075 1080 1085

Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly

1090 1095 1100

Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile

1105 1110 1115 1120

Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser

1125 1130 1135

Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly

1140 1145 1150

Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile

1155 1160 1165

Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala

1170 1175 1180

Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys

1185 1190 1195 1200

Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser

1205 1210 1215

Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr

1220 1225 1230

Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser

1235 1240 1245

Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His

1250 1255 1260

Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val

1265 1270 1275 1280

Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys

1285 1290 1295

His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu

1300 1305 1310

Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp

1315 1320 1325

Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp

1330 1335 1340

Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile

1345 1350 1355 1360

Asp Leu Ser Gln Leu Gly Gly Asp

1365

<210> 2

<211> 129

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> RNA支架表达盒

<220>

<221> misc_feature

<222> (1)..(20)

<223> n是a, c, g, 或t

<400> 2

nnnnnnnnnn nnnnnnnnnn gttttagagc tagaaatagc aagttaaaat aaggctagtc 60

cgttatcaac ttgaaaaagt ggcaccgagt cggtgcgcgc acatgaggat cacccatgtg 120

ctttttttg 129

<210> 3

<211> 340

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 效应子AID -MCP融合物

<400> 3

Met Asp Ser Leu Leu Met Asn Arg Arg Lys Phe Leu Tyr Gln Phe Lys

1 5 10 15

Asn Val Arg Trp Ala Lys Gly Arg Arg Glu Thr Tyr Leu Cys Tyr Val

20 25 30

Val Lys Arg Arg Asp Ser Ala Thr Ser Phe Ser Leu Asp Phe Gly Tyr

35 40 45

Leu Arg Asn Lys Asn Gly Cys His Val Glu Leu Leu Phe Leu Arg Tyr

50 55 60

Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg Val Thr Trp

65 70 75 80

Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg His Val Ala Asp

85 90 95

Phe Leu Arg Gly Asn Pro Asn Leu Ser Leu Arg Ile Phe Thr Ala Arg

100 105 110

Leu Tyr Phe Cys Glu Asp Arg Lys Ala Glu Pro Glu Gly Leu Arg Arg

115 120 125

Leu His Arg Ala Gly Val Gln Ile Ala Ile Met Thr Phe Lys Asp Tyr

130 135 140

Phe Tyr Cys Trp Asn Thr Phe Val Glu Asn His Glu Arg Thr Phe Lys

145 150 155 160

Ala Trp Glu Gly Leu His Glu Asn Ser Val Arg Leu Ser Arg Gln Leu

165 170 175

Arg Arg Ile Leu Leu Pro Leu Tyr Glu Val Asp Asp Leu Arg Asp Ala

180 185 190

Phe Arg Thr Leu Gly Leu Glu Leu Lys Thr Pro Leu Gly Asp Thr Thr

195 200 205

His Thr Ser Pro Pro Cys Pro Ala Pro Glu Leu Leu Gly Gly Pro Met

210 215 220

Ala Ser Asn Phe Thr Gln Phe Val Leu Val Asp Asn Gly Gly Thr Gly

225 230 235 240

Asp Val Thr Val Ala Pro Ser Asn Phe Ala Asn Gly Ile Ala Glu Trp

245 250 255

Ile Ser Ser Asn Ser Arg Ser Gln Ala Tyr Lys Val Thr Cys Ser Val

260 265 270

Arg Gln Ser Ser Ala Gln Asn Arg Lys Tyr Thr Ile Lys Val Glu Val

275 280 285

Pro Lys Gly Ala Trp Arg Ser Tyr Leu Asn Met Glu Leu Thr Ile Pro

290 295 300

Ile Phe Ala Thr Asn Ser Asp Cys Glu Leu Ile Val Lys Ala Met Gln

305 310 315 320

Gly Leu Leu Lys Asp Gly Asn Pro Ile Pro Ser Ala Ile Ala Ala Asn

325 330 335

Ser Gly Ile Tyr

340

<210> 4

<211> 93

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 杂合crRNA:tracRNA

<400> 4

guuuaagagc uaugcuggaa acagcauagc aaguuuaaau aaggcuaguc cguuaucaac 60

uugaaaaagu ggcaccgagu cggugcuuuu uuu 93

<210> 5

<211> 79

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> tracRNA

<400> 5

ggaaccauuc aaaacagcau agcaaguuaa aauaaggcua guccguuauc aacuugaaaa 60

aguggcaccg agucggugc 79

<210> 6

<211> 60

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> tracRNA

<400> 6

uagcaaguua aaauaaggcu aguccguuau caacuugaaa aaguggcacc gagucggugc 60

<210> 7

<211> 64

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> tracRNA

<400> 7

agcauagcaa guuaaaauaa ggcuaguccg uuaucaacuu gaaaaagugg caccgagucg 60

gugc 64

<210> 8

<211> 70

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> tracRNA

<400> 8

caaaacagca uagcaaguua aaauaaggcu aguccguuau caacuugaaa aaguggcacc 60

gagucggugc 70

<210> 9

<211> 45

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> tracRNA

<400> 9

uagcaaguua aaauaaggcu aguccguuau caacuugaaa aagug 45

<210> 10

<211> 32

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> tracRNA

<400> 10

uagcaaguua aaauaaggcu aguccguuau ca 32

<210> 11

<211> 26

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> tracRNA

<400> 11

uagcaaguua aaauaaggcu aguccg 26

<210> 12

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> Ku结合发夹

<400> 12

ttcttgtcgt acttatagat cgctacgtta tttcaatttt gaaaatctga gtcctgggag 60

tgcgga 66

<210> 13

<211> 609

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 端粒酶Ku

<400> 13

Met Ser Gly Trp Glu Ser Tyr Tyr Lys Thr Glu Gly Asp Glu Glu Ala

1 5 10 15

Glu Glu Glu Gln Glu Glu Asn Leu Glu Ala Ser Gly Asp Tyr Lys Tyr

20 25 30

Ser Gly Arg Asp Ser Leu Ile Phe Leu Val Asp Ala Ser Lys Ala Met

35 40 45

Phe Glu Ser Gln Ser Glu Asp Glu Leu Thr Pro Phe Asp Met Ser Ile

50 55 60

Gln Cys Ile Gln Ser Val Tyr Ile Ser Lys Ile Ile Ser Ser Asp Arg

65 70 75 80

Asp Leu Leu Ala Val Val Phe Tyr Gly Thr Glu Lys Asp Lys Asn Ser

85 90 95

Val Asn Phe Lys Asn Ile Tyr Val Leu Gln Glu Leu Asp Asn Pro Gly

100 105 110

Ala Lys Arg Ile Leu Glu Leu Asp Gln Phe Lys Gly Gln Gln Gly Gln

115 120 125

Lys Arg Phe Gln Asp Met Met Gly His Gly Ser Asp Tyr Ser Leu Ser

130 135 140

Glu Val Leu Trp Val Cys Ala Asn Leu Phe Ser Asp Val Gln Phe Lys

145 150 155 160

Met Ser His Lys Arg Ile Met Leu Phe Thr Asn Glu Asp Asn Pro His

165 170 175

Gly Asn Asp Ser Ala Lys Ala Ser Arg Ala Arg Thr Lys Ala Gly Asp

180 185 190

Leu Arg Asp Thr Gly Ile Phe Leu Asp Leu Met His Leu Lys Lys Pro

195 200 205

Gly Gly Phe Asp Ile Ser Leu Phe Tyr Arg Asp Ile Ile Ser Ile Ala

210 215 220

Glu Asp Glu Asp Leu Arg Val His Phe Glu Glu Ser Ser Lys Leu Glu

225 230 235 240

Asp Leu Leu Arg Lys Val Arg Ala Lys Glu Thr Arg Lys Arg Ala Leu

245 250 255

Ser Arg Leu Lys Leu Lys Leu Asn Lys Asp Ile Val Ile Ser Val Gly

260 265 270

Ile Tyr Asn Leu Val Gln Lys Ala Leu Lys Pro Pro Pro Ile Lys Leu

275 280 285

Tyr Arg Glu Thr Asn Glu Pro Val Lys Thr Lys Thr Arg Thr Phe Asn

290 295 300

Thr Ser Thr Gly Gly Leu Leu Leu Pro Ser Asp Thr Lys Arg Ser Gln

305 310 315 320

Ile Tyr Gly Ser Arg Gln Ile Ile Leu Glu Lys Glu Glu Thr Glu Glu

325 330 335

Leu Lys Arg Phe Asp Asp Pro Gly Leu Met Leu Met Gly Phe Lys Pro

340 345 350

Leu Val Leu Leu Lys Lys His His Tyr Leu Arg Pro Ser Leu Phe Val

355 360 365

Tyr Pro Glu Glu Ser Leu Val Ile Gly Ser Ser Thr Leu Phe Ser Ala

370 375 380

Leu Leu Ile Lys Cys Leu Glu Lys Glu Val Ala Ala Leu Cys Arg Tyr

385 390 395 400

Thr Pro Arg Arg Asn Ile Pro Pro Tyr Phe Val Ala Leu Val Pro Gln

405 410 415

Glu Glu Glu Leu Asp Asp Gln Lys Ile Gln Val Thr Pro Pro Gly Phe

420 425 430

Gln Leu Val Phe Leu Pro Phe Ala Asp Asp Lys Arg Lys Met Pro Phe

435 440 445

Thr Glu Lys Ile Met Ala Thr Pro Glu Gln Val Gly Lys Met Lys Ala

450 455 460

Ile Val Glu Lys Leu Arg Phe Thr Tyr Arg Ser Asp Ser Phe Glu Asn

465 470 475 480

Pro Val Leu Gln Gln His Phe Arg Asn Leu Glu Ala Leu Ala Leu Asp

485 490 495

Leu Met Glu Pro Glu Gln Ala Val Asp Leu Thr Leu Pro Lys Val Glu

500 505 510

Ala Met Asn Lys Arg Leu Gly Ser Leu Val Asp Glu Phe Lys Glu Leu

515 520 525

Val Tyr Pro Pro Asp Tyr Asn Pro Glu Gly Lys Val Thr Lys Arg Lys

530 535 540

His Asp Asn Glu Gly Ser Gly Ser Lys Arg Pro Lys Val Glu Tyr Ser

545 550 555 560

Glu Glu Glu Leu Lys Thr His Ile Ser Lys Gly Thr Leu Gly Lys Phe

565 570 575

Thr Val Pro Met Leu Lys Glu Ala Cys Arg Ala Tyr Gly Leu Lys Ser

580 585 590

Gly Leu Lys Lys Gln Glu Leu Leu Glu Ala Leu Thr Lys His Phe Gln

595 600 605

Asp

<210> 14

<211> 485

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 端粒酶Ku

<400> 14

Met Val Arg Ser Gly Asn Lys Ala Ala Val Val Leu Cys Met Asp Val

1 5 10 15

Gly Phe Thr Met Ser Asn Ser Ile Pro Gly Ile Glu Ser Pro Phe Glu

20 25 30

Gln Ala Lys Lys Val Ile Thr Met Phe Val Gln Arg Gln Val Phe Ala

35 40 45

Glu Asn Lys Asp Glu Ile Ala Leu Val Leu Phe Gly Thr Asp Gly Thr

50 55 60

Asp Asn Pro Leu Ser Gly Gly Asp Gln Tyr Gln Asn Ile Thr Val His

65 70 75 80

Arg His Leu Met Leu Pro Asp Phe Asp Leu Leu Glu Asp Ile Glu Ser

85 90 95

Lys Ile Gln Pro Gly Ser Gln Gln Ala Asp Phe Leu Asp Ala Leu Ile

100 105 110

Val Ser Met Asp Val Ile Gln His Glu Thr Ile Gly Lys Lys Phe Glu

115 120 125

Lys Arg His Ile Glu Ile Phe Thr Asp Leu Ser Ser Arg Phe Ser Lys

130 135 140

Ser Gln Leu Asp Ile Ile Ile His Ser Leu Lys Lys Cys Asp Ile Ser

145 150 155 160

Glu Arg His Ser Ile His Trp Pro Cys Arg Leu Thr Ile Gly Ser Asn

165 170 175

Leu Ser Ile Arg Ile Ala Ala Tyr Lys Ser Ile Leu Gln Glu Arg Val

180 185 190

Lys Lys Thr Trp Thr Val Val Asp Ala Lys Thr Leu Lys Lys Glu Asp

195 200 205

Ile Gln Lys Glu Thr Val Tyr Cys Leu Asn Asp Asp Asp Glu Thr Glu

210 215 220

Val Leu Lys Glu Asp Ile Ile Gln Gly Phe Arg Tyr Gly Ser Asp Ile

225 230 235 240

Val Pro Phe Ser Lys Val Asp Glu Glu Gln Met Lys Tyr Lys Ser Glu

245 250 255

Gly Lys Cys Phe Ser Val Leu Gly Phe Cys Lys Ser Ser Gln Val Gln

260 265 270

Arg Arg Phe Phe Met Gly Asn Gln Val Leu Lys Val Phe Ala Ala Arg

275 280 285

Asp Asp Glu Ala Ala Ala Val Ala Leu Ser Ser Leu Ile His Ala Leu

290 295 300

Asp Asp Leu Asp Met Val Ala Ile Val Arg Tyr Ala Tyr Asp Lys Arg

305 310 315 320

Ala Asn Pro Gln Val Gly Val Ala Phe Pro His Ile Lys His Asn Tyr

325 330 335

Glu Cys Leu Val Tyr Val Gln Leu Pro Phe Met Glu Asp Leu Arg Gln

340 345 350

Tyr Met Phe Ser Ser Leu Lys Asn Ser Lys Lys Tyr Ala Pro Thr Glu

355 360 365

Ala Gln Leu Asn Ala Val Asp Ala Leu Ile Asp Ser Met Ser Leu Ala

370 375 380

Lys Lys Asp Glu Lys Thr Asp Thr Leu Glu Asp Leu Phe Pro Thr Thr

385 390 395 400

Lys Ile Pro Asn Pro Arg Phe Gln Arg Leu Phe Gln Cys Leu Leu His

405 410 415

Arg Ala Leu His Pro Arg Glu Pro Leu Pro Pro Ile Gln Gln His Ile

420 425 430

Trp Asn Met Leu Asn Pro Pro Ala Glu Val Thr Thr Lys Ser Gln Ile

435 440 445

Pro Leu Ser Lys Ile Lys Thr Leu Phe Pro Leu Ile Glu Ala Lys Lys

450 455 460

Lys Asp Gln Val Thr Ala Gln Glu Ile Phe Gln Asp Asn His Glu Asp

465 470 475 480

Gly Pro Thr Ala Lys

485

<210> 15

<211> 10

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> Sm共有位点

<400> 15

aatttttgga 10

<210> 16

<211> 83

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 单体的Sm -样蛋白(archaea)

<400> 16

Gly Ser Val Ile Asp Val Ser Ser Gln Arg Val Asn Val Gln Arg Pro

1 5 10 15

Leu Asp Ala Leu Gly Asn Ser Leu Asn Ser Pro Val Ile Ile Lys Leu

20 25 30

Lys Gly Asp Arg Glu Phe Arg Gly Val Leu Lys Ser Phe Asp Leu His

35 40 45

Met Asn Leu Val Leu Asn Asp Ala Glu Glu Leu Glu Asp Gly Glu Val

50 55 60

Thr Arg Arg Leu Gly Thr Val Leu Ile Arg Gly Asp Asn Ile Val Tyr

65 70 75 80

Ile Ser Pro

<210> 17

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> MS2噬菌体操纵子茎环

<400> 17

gcgcacatga ggatcaccca tgtgc 25

<210> 18

<211> 117

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> MS2外壳蛋白

<400> 18

Met Ala Ser Asn Phe Thr Gln Phe Val Leu Val Asp Asn Gly Gly Thr

1 5 10 15

Gly Asp Val Thr Val Ala Pro Ser Asn Phe Ala Asn Gly Ile Ala Glu

20 25 30

Trp Ile Ser Ser Asn Ser Arg Ser Gln Ala Tyr Lys Val Thr Cys Ser

35 40 45

Val Arg Gln Ser Ser Ala Gln Asn Arg Lys Tyr Thr Ile Lys Val Glu

50 55 60

Val Pro Lys Gly Ala Trp Arg Ser Tyr Leu Asn Met Glu Leu Thr Ile

65 70 75 80

Pro Ile Phe Ala Thr Asn Ser Asp Cys Glu Leu Ile Val Lys Ala Met

85 90 95

Gln Gly Leu Leu Lys Asp Gly Asn Pro Ile Pro Ser Ala Ile Ala Ala

100 105 110

Asn Ser Gly Ile Tyr

115

<210> 19

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> PP7噬菌体操纵子茎环

<400> 19

ataaggagtt tatatggaaa ccctta 26

<210> 20

<211> 128

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> PP7外壳蛋白(PCP)

<400> 20

Met Ser Lys Thr Ile Val Leu Ser Val Gly Glu Ala Thr Arg Thr Leu

1 5 10 15

Thr Glu Ile Gln Ser Thr Ala Asp Arg Gln Ile Phe Glu Glu Lys Val

20 25 30

Gly Pro Leu Val Gly Arg Leu Arg Leu Thr Ala Ser Leu Arg Gln Asn

35 40 45

Gly Ala Lys Thr Ala Tyr Arg Val Asn Leu Lys Leu Asp Gln Ala Asp

50 55 60

Val Val Asp Cys Ser Thr Ser Val Cys Gly Glu Leu Pro Lys Val Arg

65 70 75 80

Tyr Thr Gln Val Trp Ser His Asp Val Thr Ile Val Ala Asn Ser Thr

85 90 95

Glu Ala Ser Arg Lys Ser Leu Tyr Asp Leu Thr Lys Ser Leu Val Ala

100 105 110

Thr Ser Gln Val Glu Asp Leu Val Val Asn Leu Val Pro Leu Gly Arg

115 120 125

<210> 21

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> SfMu Com茎环

<400> 21

ctgaatgcct gcgagcatc 19

<210> 22

<211> 62

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> SfMu Com结合蛋白

<400> 22

Met Lys Ser Ile Arg Cys Lys Asn Cys Asn Lys Leu Leu Phe Lys Ala

1 5 10 15

Asp Ser Phe Asp His Ile Glu Ile Arg Cys Pro Arg Cys Lys Arg His

20 25 30

Ile Ile Met Leu Asn Ala Cys Glu His Pro Thr Glu Lys His Cys Gly

35 40 45

Lys Arg Glu Lys Ile Thr His Ser Asp Glu Thr Val Arg Tyr

50 55 60

<210> 23

<211> 110

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> Rpo B RRDR簇I

<400> 23

gcagcagtga aagagttctt cggttccagc cagctgtctc agtttatgga ccagaacaac 60

ccgctgtctg agattacgca caaacgtcgt atctccgcac tcggcccagg 110

<210> 24

<211> 110

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> Rpo B RRDR簇I

<400> 24

cctgggccga gtgcggagat acgacgtttg tgcgtaatct cagacagcgg gttgttctgg 60

tccataaact gagacagctg gctggaaccg aagaactctt tcactgctgc 110

<210> 25

<211> 36

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> Rpo B RRDR簇I蛋白

<400> 25

Ala Ala Val Lys Glu Phe Phe Gly Ser Ser Gln Leu Ser Gln Phe Met

1 5 10 15

Asp Gln Asn Asn Pro Leu Ser Glu Ile Thr His Lys Arg Arg Ile Ser

20 25 30

Ala Leu Gly Pro

35

<210> 26

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 处理的Rpo B RRDR簇I Ts4

<400> 26

acaaacgtcg tatcttcgca ctcggcccag 30

<210> 27

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 未处理的 Rpo B RRDR簇I Ts4

<400> 27

acaaacgtcg tatctccgca ctcggcccag 30

<210> 28

<211> 10

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 处理的Rpo B RRDR簇I Ts4

<400> 28

His Lys Arg Arg Ile Phe Ala Leu Gly Pro

1 5 10

<210> 29

<211> 10

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 未处理的Rpo B RRDR簇I Ts4

<400> 29

His Lys Arg Arg Ile Ser Ala Leu Gly Pro

1 5 10

<210> 30

<211> 12

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 未处理的Rpo B RRDR簇I Ts3

<400> 30

Thr His Lys Arg Arg Ile Ser Ala Leu Gly Pro Gly

1 5 10

<210> 31

<211> 12

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 处理的Rpo B RRDR簇I Ts4

<400> 31

Thr His Lys Arg Arg Ile Phe Ala Leu Gly Pro Gly

1 5 10

<210> 32

<211> 36

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 未处理的Rpo B RRDR簇I Ts4

<400> 32

acgcacaaac gtcgtatctc cgcactcggc ccaggc 36

<210> 33

<211> 9

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 未处理的秩乱

<400> 33

Gly Ser Ser Gln Leu Ser Gln Phe Met

1 5

<210> 34

<211> 9

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 处理的秩乱

<400> 34

Gly Ser Ser Gln Leu Ser Arg Phe Met

1 5

<210> 35

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 未处理的秩乱

<400> 35

ggttccagcc agctgtctca gtttatg 27

<210> 36

<211> 5

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 未处理的秩乱

<400> 36

Arg Ile Ser Ala Leu

1 5

<210> 37

<211> 5

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 处理的秩乱

<400> 37

Arg Ile Phe Ala Leu

1 5

<210> 38

<211> 15

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 未处理的秩乱

<400> 38

cgtatctccg cactc 15

<210> 39

<211> 4

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 未处理的秩乱

<400> 39

Gly Leu Ile Asn

1

<210> 40

<211> 4

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 处理的秩乱

<400> 40

Gly Leu Phe Asn

1

<210> 41

<211> 15

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 未处理的秩乱

<400> 41

ggtctgatca actct 15

<210> 42

<211> 51

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> nfGFP正义

<400> 42

ccctggccca ccctcgtgac caccctgacc tgcggcgtgc agtgcttcag c 51

<210> 43

<211> 51

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> nfGFP反义

<400> 43

gctgaagcac tgcacgccgc aggtcagggt ggtcacgagg gtgggccagg g 51

<210> 44

<211> 17

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> nfGFP蛋白

<400> 44

Pro Trp Pro Thr Leu Val Thr Thr Leu Thr Cys Gly Val Gln Cys Phe

1 5 10 15

Ser

<210> 45

<211> 51

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> HPGRT正义

<400> 45

ctgaaggggg gctataaatt ctttgctgac ctgctggatt acattaaagc a 51

<210> 46

<211> 51

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> HPGRT反义

<400> 46

tgctttaatg taatccagca ggtcagcaaa gaatttatag ccccccttca g 51

<210> 47

<211> 17

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> HPGRT蛋白

<400> 47

Leu Lys Gly Gly Tyr Lys Phe Phe Ala Asp Leu Leu Asp Tyr Ile Lys

1 5 10 15

Ala

Claims

1.一种系统，其包含：

(i)靶向序列的蛋白，或编码其的多核苷酸，

(ii)RNA支架，或编码其的DNA多核苷酸，其包含

(a)靶向核酸的基序，其包含与靶核酸序列互补的指导RNA序列，

(b)CRISPR基序，其能够结合所述靶向序列的蛋白，和

(c)募集RNA基序，

和

(iii)非核酸酶效应子融合蛋白，或编码其的多核苷酸，其包含

(a)RNA结合结构域，其能够结合所述募集RNA基序，

(b)接头，和

(c)效应子结构域，其具有DNA/RNA修饰的酶促活性。

2.根据权利要求1所述的系统，其中所述靶向序列的蛋白是CRISPR蛋白。

3.根据权利要求1或2所述的系统，其中所述靶向序列的蛋白不具有核酸酶活性。

4.根据权利要求1或2所述的系统，其中所述靶向序列蛋白包含选自由以下组成的菌种的dCas9或nCas9的序列：化脓性链球菌(Streptococcus pyogenes)、无乳链球菌(Streptococcus agalactiae)、金黄色葡萄球菌(Staphylococcus aureus)、嗜热链球菌(Streptococcus thermophilus)、脑膜炎奈瑟球菌(Neisseria meningitidis)和齿垢密螺旋体(Treponema denticola)。

5.根据权利要求1或2所述的系统，其中所述募集RNA基序和所述RNA结合结构域是成对地选自由以下组成的组：

端粒酶Ku结合基序和Ku蛋白或其RNA结合部分，

端粒酶Sm7结合基序和Sm7蛋白或其RNA结合部分，

MS2噬菌体操纵子茎环和MS2外壳蛋白或其RNA结合部分，

PP7噬菌体操纵子茎环和PP7外壳蛋白或其RNA结合部分，

SfMu噬菌体Com茎环和Com RNA结合蛋白或其RNA结合部分，和

非天然RNA适体和相应的适体配体或其RNA结合部分。

6.根据权利要求1或2所述的系统，其中所述接头长度为0至100个氨基酸残基。

7.根据权利要求1或2所述的系统，其中所述酶促活性是脱氨基活性，甲基转移酶活性，脱甲基酶活性，DNA修复活性，DNA损伤活性，歧化酶活性，烷基化活性，脱嘌呤活性，氧化活性，嘧啶二聚体形成活性，整合酶活性，转座酶活性，重组酶活性，聚合酶活性，连接酶活性，解旋酶活性，光裂合酶活性或糖基化酶活性。

8.根据权利要求7所述的系统，其中所述酶促活性是胞嘧啶脱氨基活性或腺苷脱氨基活性。

9.根据权利要求1或2所述的系统，其中所述RNA结合结构域不是Cas9或其功能等价物，也不是其RNA结合结构域。

10.分离的一种或多种核酸，其编码权利要求1-9中任一项所述的系统的组分(i)-(iii)。

11.表达载体或宿主细胞，其包含权利要求10所述的一种或多种核酸，所述细胞不是胚胎干细胞或生殖细胞。

12.靶DNA的位点特异性修饰方法，包括使所述靶DNA或包含所述靶DNA的细胞体外与权利要求1-9中任一项所述的系统的组分(i)-(iii)接触。

13.根据权利要求1-9中任一项所述的系统、根据权利要求10所述的一种或多种核酸或根据权利要求11所述的表达载体或宿主细胞在制备用于细胞中靶DNA的位点特异性修饰的药物中的用途。

14.根据权利要求12所述的方法或权利要求13所述的用途，其中所述靶DNA是染色体外DNA。

15.根据权利要求12所述的方法或权利要求13所述的用途，其中所述靶DNA是染色体上的基因组DNA。

16.根据权利要求12-15中任一项所述的方法或用途，其中所述细胞选自由以下组成的组：古细菌细胞，细菌细胞，真核单细胞生物，干细胞，植物细胞，鱼细胞，蛙细胞，鸟类细胞，猪细胞，牛细胞，山羊细胞，绵羊细胞，大鼠细胞，小鼠细胞，非人灵长类动物细胞和人细胞。

17.根据权利要求12-15中任一项所述的方法或用途，其中所述细胞是体细胞。

18.根据权利要求12-15中任一项所述的方法或用途，其中所述细胞是真核细胞。

19.根据权利要求12-15中任一项所述的方法或用途，其中所述细胞是动物细胞。

20.根据权利要求12-15中任一项所述的方法或用途，其中所述细胞是哺乳动物细胞。

21.根据权利要求12-15中任一项所述的方法或用途，其中所述细胞是啮齿动物细胞。

22.根据权利要求12-15中任一项所述的方法或用途，其中所述细胞是无脊椎动物细胞或脊椎动物细胞。

23.根据权利要求12-15中任一项所述的方法或用途，其中所述细胞来源于人或非人受试者。

24.根据权利要求12-15中任一项所述的方法或用途，其中所述细胞是非人动物生殖细胞或藻类细胞。

25.根据权利要求23所述的方法或用途，其中所述人或非人受试者具有基因的突变。

26.根据权利要求25所述的方法或用途，其中所述受试者患有由所述基因突变引起的疾病或有患该疾病的风险。

27.根据权利要求26所述的方法或用途，其中所述位点特异性修饰校正所述基因突变或使该基因表达失活。

28.根据权利要求23所述的方法或用途，其中所述受试者具有病原体或处于暴露于该病原体的风险中。

29.根据权利要求28所述的方法或用途，其中所述位点特异性修饰使所述病原体基因失活。

30.根据权利要求12-15中任一项所述的方法或用途，其中所述细胞是诱导多能干细胞。

31.试剂盒，其包含权利要求1-9中任一项所述的系统。

32.根据权利要求31所述的试剂盒，其进一步包含一种或多种选自由以下组成的组的组分：用于重构和/或稀释的试剂和用于将核酸或多肽引入宿主细胞的试剂。

33.根据权利要求32所述的试剂盒，其中所述宿主细胞是诱导多能干细胞。