CN112654702A

CN112654702A - 改进的核酸酶的组合物和方法

Info

Publication number: CN112654702A
Application number: CN201980058359.5A
Authority: CN
Inventors: A-L·卡瓦洛
Original assignee: AstraZeneca AB
Current assignee: AstraZeneca AB
Priority date: 2018-09-07
Filing date: 2019-09-06
Publication date: 2021-04-13
Also published as: WO2020049158A1; US20210198642A1; JP2021536250A; EP3847251A1

Abstract

本披露提供了具有比野生型Cas9更快的降解速率的重组Cas9蛋白。本披露还提供了具有减少的脱靶修饰的重组Cas9蛋白和CRISPR‑Cas系统。本文还提供了利用本披露的重组Cas9蛋白的、具有减少的脱靶修饰的位点特异性修饰的方法。

Description

改进的核酸酶的组合物和方法

技术领域

本披露提供了具有比野生型Cas9更快的降解速率的重组Cas9蛋白。本披露还提供了具有减少的脱靶修饰的重组Cas9蛋白和CRISPR-Cas系统。本文还提供了利用本披露的重组Cas9蛋白的、具有减少的脱靶修饰的位点特异性修饰的方法。

背景技术

成簇的规律间隔的短回文重复序列(CRISPR)和CRISPR相关(Cas)系统是由Ishino在大肠杆菌中首次发现的、原核生物免疫系统(Ishino等人，Journal of Bacteriology[细菌学杂志]169(12)：5429-5433(1987))。该原核生物免疫系统通过以序列特异性方式靶向病毒和质粒的核酸来提供针对病毒和质粒的免疫。还参见Soret等人，Nature ReviewsMicrobiology[自然综述微生物学]6(3)：181-186(2008)。CRISPR免疫应答涉及两个主要阶段：第一个是采集，第二个是干扰。采集阶段涉及切割入侵病毒和质粒的基因组，并将入侵病毒和质粒基因组的区段整合到生物体的CRISPR基因座中。整合到生物体的CRISPR基因座中的区段被称为前间区序列，并且有助于保护生物体免受相同病毒或质粒的后续攻击。第二阶段涉及攻击入侵的病毒或质粒。在第二阶段，将前间区序列转录为RNA，经过一些加工后，该RNA与入侵病毒或质粒的DNA中的互补序列杂交，同时还与有效裂解DNA的蛋白质或蛋白质复合物缔合。

根据细菌物种的不同，CRISPR RNA加工的过程有所不同。例如，最初在细菌酿脓链球菌(Streptococcus pyogenes)中描述的II型系统中，转录的RNA与反式激活RNA(tracrRNA)配对，之后被RNA酶III裂解以形成单个CRISPR-RNA(crRNA)。在被Cas9核酸酶结合后，crRNA被进一步加工以产生成熟的crRNA。该crRNA/Cas9复合物随后结合包含与捕获区域互补的序列(称为前间区序列)的DNA。然后，该Cas9蛋白以位点特异性的方式裂解DNA的两条链，形成双链断裂(DSB)。这提供了基于DNA的“记忆”，导致病毒或质粒DNA在重复暴露和/或感染后迅速降解。关于原生CRISPR系统已经有全面的综述(参见，例如，Barrangou等人，Cell[细胞]54(2)：234-244(2014))。

自最初发现以来，多个研究小组围绕CRISPR系统在基因工程中的潜在应用进行了大量的研究，包括基因编辑(Jinek等人，Science[科学]337(6096)：816-821(2012)；Cong等人，Science[科学]339(6121)：819-823(2013)；和Mali等人，Science[科学]339(6121)：823-826(2013))。CRISPR-Cas9基因编辑系统已经成功地用于广泛的生物体和细胞系。除基因组编辑外，CRISPR系统还具有许多其他应用，包括调节基因表达、基因回路构建和功能基因组学等(在Sander等人，Nature Biotechnology[自然生物技术]32：347-355(2014)中综述)。

CRISPR/Cas9用于治疗应用的适用性是强烈关注的话题。然而，靶基因组的脱靶修饰(即在非预期靶序列的基因座处的双链DNA断裂)可能导致无法预测和不希望的结果，引起对在临床应用中使用CRISPR系统的关注。参见例如Hsu等人，Nature Biotechnology[自然生物技术]31(9)：827-834(2013)；Hsu等人，Cell[细胞]157(6)：1262-1278(2014)；和Schaefer等人，Nature Methods[自然方法]14(6)：547-548(2017)。

CRISPR/Cas9系统的细胞毒性也受到关注。研究表明，当Cas9核酸酶效率提高时，细胞中会触发tp53依赖性毒性应答(Ihry等人，bioRxiv(2017)，doi：10.1101/168443)。

已致力于减少Cas9脱靶修饰。Fu等人描述了使用具有短靶互补区的截短的指导RNA以通过减少指导RNA-靶DNA界面的长度来减少Cas9的脱靶效应的方法(NatureBiotechnology[自然生物技术]32(3)：279-284(2014))。Kleinstiver等人描述了工程化的Cas9变体，其与靶DNA序列的接触减少以最小化脱靶结合(Nature[自然]529(7587)：490-495(2016))。然而，尽管Cas9脱靶活性降低，但两项研究也显示出靶上(on-target)核酸酶效率的相应降低。

因此，在该领域中仍然需要具有降低的脱靶活性的改良CRISPR/Cas9系统，其保持靶上效率。

发明内容

在一些实施例中，本披露提供了具有比野生型Cas9更快的降解速率的重组Cas9蛋白。在一些实施例中，本披露还提供了具有减少的脱靶修饰的重组Cas9蛋白和CRISPR-Cas系统。在一些实施例中，本披露提供了利用本文所述的重组Cas9蛋白的具有减少的脱靶修饰的位点特异性修饰的方法。

在一些实施例中，本披露提供了包括工程化的KFERQ基序或KFERQ样基序的重组Cas9蛋白。

在一些实施例中，工程化的KFERQ基序或KFERQ样基序选自KFERQ(SEQ ID NO：24)、RKVEQ(SEQ ID NO：25)、QDLKF(SEQ ID NO：26)、QRFFE(SEQ ID NO：27)、NRVVD(SEQ ID NO：28)、QRDKV(SEQ ID NO：29)、QKILD(SEQ ID NO：30)、QKKEL(SEQ ID NO：31)、QFREL(SEQ IDNO：32)、IKLDQ(SEQ ID NO：33)、DVVRQ(SEQ ID NO：34)、QRIVE(SEQ ID NO：35)、VKELQ(SEQID NO：36)、QKVFD(SEQ ID NO：37)、QELLR(SEQ ID NO：38)、VDKLN(SEQ ID NO：39)、RIKEN(SEQ ID NO：40)、NKKFE(SEQ ID NO：41)及其组合。在一些实施例中，工程化的KFERQ样基序是VDKLN(SEQ ID NO：39)。

在一些实施例中，工程化的KFERQ基序或KFERQ样基序在重组Cas9蛋白的REC叶中。在一些实施例中，工程化的KFERQ基序或KFERQ样基序在REC叶的Rec2结构域中。在一些实施例中，工程化的KFERQ基序或KFERQ样基序在重组Cas9蛋白的HNH结构域、RuvC结构域或PI结构域中。

在一些实施例中，工程化的KFERQ基序或KFERQ样基序在重组Cas9蛋白的表面暴露区域中。在一些实施例中，工程化的KFERQ基序或KFERQ样基序在重组Cas9蛋白的N末端或C末端处。

在一些实施例中，本披露提供了包括野生型Cas9蛋白的一个或多个氨基酸修饰的重组Cas9蛋白，这些修饰将分子伴侣介导的自噬(CMA)靶基序或内体微自噬(eMI)靶基序引入该Cas9蛋白中，其中该重组Cas9蛋白在体内的降解比野生型Cas9蛋白或不包括CMA或eMI靶基序的Cas9蛋白快至少20％。在一些实施例中，重组Cas9蛋白在体内的降解比野生型Cas9蛋白或不包含CMA或eMI靶基序的Cas9蛋白快至少50％。在一些实施例中，重组Cas9蛋白在体内的降解比野生型Cas9蛋白或不包含CMA或eMI靶基序的Cas9蛋白快至少80％。

在一些实施例中，本披露提供了包括野生型Cas9蛋白的一个或多个氨基酸修饰的重组Cas9蛋白，其中该重组Cas9蛋白包括CMA靶基序或eMI靶基序。

在一些实施例中，CMA靶基序或eMI靶基序选自KFERQ(SEQ ID NO：24)、RKVEQ(SEQID NO：25)、QDLKF(SEQ ID NO：26)、QRFFE(SEQ ID NO：27)、NRVVD(SEQ ID NO：28)、QRDKV(SEQ ID NO：29)、QKILD(SEQ ID NO：30)、QKKEL(SEQ ID NO：31)、QFREL(SEQ ID NO：32)、IKLDQ(SEQ ID NO：33)、DVVRQ(SEQ ID NO：34)、QRIVE(SEQ ID NO：35)、VKELQ(SEQ ID NO：36)、QKVFD(SEQ ID NO：37)、QELLR(SEQ ID NO：38)、VDKLN(SEQ ID NO：39)、RIKEN(SEQ IDNO：40)、NKKFE(SEQ ID NO：41)及其组合。在一些实施例中，CMA靶基序或eMI靶基序是VDKLN(SEQ ID NO：39)。在一些实施例中，一个或多个氨基酸取代在重组Cas9蛋白的表面暴露区域中。

在一些实施例中，本披露提供了分离自酿脓链球菌的重组Cas9蛋白(SpCas9)，该重组Cas9蛋白在SEQ ID NO：1的位置F185、A547、1548、T560、V561、D829、I830、L1087、S1088、P1199、K1200或其组合中的一个或多个处包括氨基酸修饰。

在一些实施例中，氨基酸修饰包括以下突变中的一个或多个：F185N；A547E/I548L；T560E/V561Q；D829L/I830R；L1087E/S1088Q；或P1199D/K1200Q。在一些实施例中，氨基酸修饰是F185处的突变。在一些实施例中，突变是F185N。在一些实施例中，氨基酸修饰导致CMA靶基序或eMI靶基序。

在一些实施例中，本披露的重组Cas9蛋白与SEQ ID NO：1具有至少90％同一性。

在一些实施例中，本披露提供了能够与70kD的热休克同源蛋白(HSC70)结合的重组Cas9蛋白。

在一些实施例中，本披露提供了分离自酿脓链球菌的重组蛋白(SpCas9)，该重组蛋白在SEQ ID NO：1的氨基酸位置185处包含工程化的KFERQ基序或KFERQ样基序。在一些实施例中，KFERQ样基序是VDKLN(SEQ ID NO：39)。

在一些实施例中，本披露的重组Cas9蛋白进一步在SEQ ID NO：1中的位置D10、H840或其组合处包括突变。在一些实施例中，突变选自D10A或D10N；H840A、H840N或H840Y；及其组合。在一些实施例中，本披露的重组Cas9蛋白产生粘性末端。

在一些实施例中，本披露的重组Cas9蛋白进一步包括一个或多个核定位信号。

在一些实施例中，本披露提供了编码本披露的重组Cas9的多核苷酸序列。在一些实施例中，对多核苷酸序列进行密码子优化以在真核细胞中表达。

在一些实施例中，本披露提供了非天然存在的CRISPR-Cas系统，该系统包括：本披露的重组Cas9蛋白；以及与重组Cas9蛋白形成复合物并包含指导序列的指导多核苷酸。

在一些实施例中，本披露提供了非天然存在的CRISPR-Cas系统，该系统包括：编码本披露的重组Cas9蛋白的多核苷酸序列；以及与重组Cas9蛋白形成复合物并包括指导序列的指导多核苷酸。

在一些实施例中，本披露提供了非天然存在的CRISPR-Cas系统，该系统包括：可操作地连接至编码本披露的重组Cas9蛋白的多核苷酸序列的调节元件；以及与重组Cas9蛋白形成复合物并包括指导序列的指导多核苷酸。

在CRISPR-Cas系统的一些实施例中，指导序列与同向重复序列连接。

在CRISPR-Cas系统的一些实施例中，指导多核苷酸包括tracrRNA序列。在一些实施例中，CRISPR-Cas系统包括单独的多核苷酸，该多核苷酸包括tracrRNA序列。

在CRISPR-Cas系统的一些实施例中，编码重组Cas9蛋白的多核苷酸序列和指导多核苷酸在单个载体上。在CRISPR-Cas系统的一些实施例中，编码重组Cas9蛋白的多核苷酸序列、指导多核苷酸和tracrRNA序列在单个载体上。

在一些实施例中，递送颗粒包括本披露的CRISPR-Cas系统。在一些实施例中，囊泡包括本披露的CRISPR-Cas系统。在一些实施例中，该囊泡是外泌体或脂质体。

在一些实施例中，病毒载体包括本披露的CRISPR-Cas系统。在一些实施例中，该病毒载体是腺病毒、慢病毒或腺相关病毒载体。

在一些实施例中，本披露提供了在细胞基因组中的靶序列处提供位点特异性修饰的方法，该方法包括将本披露的CRISPR-Cas系统引入该细胞中。

在该方法的一些实施例中，修饰包括靶序列的至少一部分的缺失。在该方法的一些实施例中，修饰包括靶序列的突变。在该方法的一些实施例中，修饰包括在靶序列处插入目的序列(SoI)。

在该方法的一些实施例中，细胞基因组中的脱靶修饰小于由重组Cas9产生的基因组中修饰的约5％。在该方法的一些实施例中，细胞基因组中的脱靶修饰小于由重组Cas9产生的基因组中修饰的约2％。在该方法的一些实施例中，细胞基因组中的脱靶修饰小于由重组Cas9产生的基因组中修饰的约1％。在该方法的一些实施例中，相对于野生型CRISPR-Cas9或不包括KFERQ基序或KFERQ样基序的Cas9，细胞基因组中的脱靶修饰减少了至少约50％。

在该方法的一些实施例中，细胞是细菌细胞、哺乳动物细胞或植物细胞。在该方法的一些实施例中，细胞是人类细胞。在该方法的一些实施例中，细胞是多能干细胞。在该方法的一些实施例中，细胞是诱导的多能干细胞。

在该方法的一些实施例中，指导多核苷酸的指导序列能够与细胞基因组中的靶序列杂交。在该方法的一些实施例中，将CRISPR-Cas系统经由递送颗粒、囊泡或病毒载体引入细胞中。

附图说明

图1和2涉及实例4中所述的实验。

图1A显示在将Cas9稳定转染到人尿道上皮细胞(SVHUC-1)中后，细胞数量减少。图1B显示表达Cas9的小鼠的体重在诱导Cas9表达后降低。

图2左小图是诱导的多能干细胞(iPSC)的显微镜图像。图2右小图是表达Cas9的iPSC的显微镜图像。

图3显示来自酿脓链球菌的Cas9蛋白(SpCas9)的示意图。

图4显示结合至指导RNA(Sg RNA)和DNA的SpCas9的晶体结构。

图5至12涉及实例1中所述的实验。

图5A显示含有野生型Cas9和包括KFERQ基序的Cas9的质粒的示意图。图5B显示含有分别用FLAG标签标记的野生型Cas9和FaDe-Cas9的质粒的示意图。

图6A和6B显示检测Cas9或FaDe-Cas9存在的蛋白质印迹(免疫印迹)。在图6A中，通过Cas9特异性抗体可检测到野生型Cas9，但未检测到KFERQ-Cas9。在图6B中，通过对FLAG和Cas9特异的抗体可以检测到FLAG标记的野生型Cas9，但是没有一种抗体可以检测到FLAG标记的KFERQ-Cas9。

图7A和7B显示Cas9或FaDe-Cas9随时间的表达。图7A中的蛋白质印迹显示野生型Cas9水平随时间增加，但是通过Cas9特异性抗体未检测到FaDe-Cas9。Low exp：低暴露；high exp：高暴露；ctr：对照(无Cas9)。图7B显示Cas9和FaDe-Cas9的mRNA转录物水平在相同时间点是可比较的。

图8显示双报告载体的示意图，其包括用于表达与GFP融合的Cas9的一个启动子和用于表达mCherry的第二个启动子。

图9A和9B是分别显示表达Cas9-GFP和FaDe-Cas9-GFP的细胞的荧光显微镜图像。

图10A显示通过mCherry荧光测量的Cas9和FaDe-Cas9的转染效率。图10B显示通过GFP荧光测量的Cas9和FaDe-Cas9的表达水平。

图11A和11B分别显示Cas9-GFP和mCherry的荧光显微镜图像。图11C显示图11A和11B的合并，其表明表达GFP的相同细胞也表达mCherry。

图12显示蛋白质印迹，其表明通过Cas9特异性抗体检测的Cas9和FaDe-Cas9在不同细胞类型中随时间的表达水平。

图13至16涉及实例2中所述的实验。

图13A显示通过HSC70特异性抗体检测的Cas9或FaDe-Cas9与HSC70的免疫共沉淀印迹。图13B显示Cas9或FaDe-Cas9和Lamp-2A的免疫荧光图像。

图14显示两个质粒的示意图：第一个质粒表达与dsRed融合的Lamp-2A，并且第二个质粒表达与GFP融合的FaDe-Cas9。

图15显示Lamp-2A-dsRed、FaDe-Cas9-GFP的荧光显微镜图像，以及显示Lamp-2A和FaDe-Cas9的共定位的合并图像。

图16显示蛋白质印迹，其表明Cas9和FaDe-Cas9在胞质溶胶或细胞核中的定位。

图17至19涉及实例3中所述的实验。

图17A显示测试HEK细胞中Cas9和FaDe-Cas9核酸酶活性的Surveyor核酸酶测定(细胞测定)的结果。图17B显示表明Cas9和FaDe-Cas9的核酸酶效率的下一代测序结果。

图18显示测试hiPSc中Cas9和FaDe-Cas9核酸酶活性的测定结果。RNP：核糖核蛋白；pl：质粒。

图19显示在EMX和FANCF基因座处由Cas9和FaDe-Cas9进行的脱靶修饰的分析结果。左小图、中小图和右小图分别比较Cas9和FaDe-Cas9之间的靶上效率、脱靶效率和标准化的靶上效率。

图20A表示显示FaDe-Cas9与Cas9相比具有相当的靶上效率和降低的脱靶活性的数据。图20B显示与FaDe-Cas9和未转染的细胞相比，用Cas9转染的细胞具有降低的增殖速率。

图21显示与Cas9相比，用FaDe-Cas9编辑的细胞导致减少的染色体易位。

图22A显示测试细胞对Cas9和FaDe-Cas9的耐受性的实验的示意图。图22B和22C显示与Cas9相比，细胞可以耐受更多拷贝的FaDe-Cas9。

图23A和23B显示在0至100小时的时间点用Cas9或FaDe-Cas9转染的细胞的Cas9的蛋白质印迹的定量(图23A)，以及0至24小时的时间点特写(图23B)。

具体实施方式

本文描述了CRISPR-Cas系统的组分，该系统可用于基因组编辑、基因组工程和改变基因和/或遗传元件的表达。CRISPR-Cas系统可用于各种治疗应用，包括遗传疾病的治疗。本文还描述了Cas9蛋白的快速降解变体(有时称为“FaDe-Cas9”)，其有助于减少CRISPR-Cas9系统的脱靶活性。本文描述了快速降解的Cas9蛋白的其他优点，这些优点包括但不限于与野生型Cas9相当的靶上效率和/或与野生型Cas9相比降低的毒性。

定义

如本文所用，“一个/一种(a或an)”可以意指一个/种或多个/种。如本文说明书和一项或多项权利要求中所用，当与单词“包含”结合使用时，单词“一个/种”可以意指一个/种或多于一个/种。如本文所用，“另一个/种”可以意指至少第二个/种或更多个/种。

在整个本申请中，术语“约”用于指示值包括被采用以确定值的方法/装置的误差的固有变化，或者研究受试者之间存在的变化。典型地，该术语意指涵盖近似于或小于1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％或20％变化，这取决于具体情况。

权利要求中使用术语“或”用于意指“和/或”，除非明确指示仅指替代方案或替代方案是相互排斥的，尽管本披露支持仅是指替代方案和“和/或”的定义。

如在本说明书和一项和多项权利要求中所使用的，词语“包含”(和任何形式的包含，诸如“包含有”和“包含着”)，“具有”(和任何形式的具有，诸如“具有着”和“有”)，“包括”(以及任何形式的包括，诸如“包括有”和“包括着”)或“含有”(以及任何形式的含有，诸如“含有着”和“含”)是包扩性的或开放性的，并且不排除另外的未列举的元素或方法步骤。考虑到本说明书中讨论的任何实施例可以相对于本披露的任何方法、系统、宿主细胞、表达载体和/或组合物实施。此外，本披露的组合物、系统、宿主细胞和/或载体可用于实现本披露的方法和蛋白质。

术语“例如”及其对应的简称“如”(无论是否斜体)的使用意味着所列举的特定术语是本披露的代表性实例和实施例，并不旨在限于所引用或列举的特定实例，除非另有明确说明。

“核酸”、“核酸分子”、“核苷酸”、“核苷酸序列”、“寡核苷酸”或“多核苷酸”意指包括共价连接的核苷酸的聚合化合物。术语“核酸”包括核糖核酸(RNA)和脱氧核糖核酸(DNA)，两者都可以是单链或双链的。DNA包括但不限于互补DNA(cDNA)、基因组DNA、质粒或载体DNA和合成DNA。在一些实施例中，本披露提供了编码本文披露的任何一种多肽的多核苷酸，例如，本披露涉及编码Cas蛋白或其变体的多核苷酸。

“基因”是指编码多肽的核苷酸的组装，并且包括cDNA和基因组DNA核酸分子。“基因”还指可以充当编码序列之前(5’非编码序列)和之后(3’非编码序列)的调节序列的核酸片段。

当单链形式的核酸分子可在适合的温度和溶液离子强度条件下退火至另一核酸分子上时，核酸分子与该另一核酸分子(诸如cDNA、基因组DNA或RNA)“可杂交”或“杂交”。杂交和洗涤条件是已知的，并在Sambrook等人，Molecular Cloning：A Laboratory Manual[分子克隆：实验室手册]，第二版，Cold Spring Harbor Laboratory Press[冷泉港实验室出版社]，Cold Spring Harbor[冷泉港](1989)，特别是其中第11章和表11.1中作了举例说明。温度和离子强度条件决定了杂交的“严格性”。可以调整严格条件以筛选适度类似的片段(如来自远缘生物体的同源序列)，至高度类似的片段(如复制来自近缘生物体的功能性酶的基因)。为了初步筛选同源核酸，可以使用对应于55℃的T_m的低严格性杂交条件，例如，5XSSC、0.1％SDS、0.25％牛奶和不含甲酰胺；或30％甲酰胺，5XSSC，0.5％SDS。中等严格性杂交条件对应于较高的T_m，例如，40％甲酰胺和5X或6XSCC。高严格性杂交条件对应于最高的Tm，例如，50％甲酰胺，5X或6XSCC。杂交需要两个核酸包含互补序列，尽管取决于杂交的严格性，碱基之间可能存在错配。

术语“互补的”用于描述能够彼此杂交的核苷酸碱基之间的关系。例如，对于DNA，腺苷与胸腺嘧啶互补，而胞嘧啶与鸟嘌呤互补。因此，本披露还包括与本文披露或使用的完整序列互补的分离核酸片段以及那些基本上相似的核酸序列。

DNA“编码序列”是双链DNA序列，当置于适当调节序列的控制下时，该双链DNA序列在体外细胞中或体内被转录并翻译成多肽。“合适的调节序列”是指位于编码序列上游(5’非编码序列)、内部或下游(3’非编码序列)的核苷酸序列，并且该核苷酸序列影响转录、RNA加工或稳定性或相关编码序列的翻译。调节序列可包括启动子、翻译前导序列、内含子、聚腺苷酸化识别序列、RNA加工位点、效应子结合位点和茎环结构。该编码序列的边界由5’(氨基)末端处的起始密码子和3’(羧基)末端处的翻译终止密码子确定。编码序列可以包括但不限于原核序列、来自mRNA的cDNA、基因组DNA序列，甚至是合成DNA序列。如果编码序列旨在在真核细胞中表达，则多腺苷酸化信号和转录终止序列通常存在于该编码序列的3’端。

“开放阅读框”的缩写为ORF，意指包括翻译起始信号或起始密码子(诸如ATG或AUG)以及终止密码子并且可能被翻译成多肽序列的一段核酸序列(DNA、cDNA或RNA)。

术语“同源重组”是指将外来DNA序列插入到另一个DNA分子中，例如，将载体插入染色体中。在一些情况下，该载体靶向特定的染色体位点以进行同源重组。对于特定的同源重组，该载体通常含有与染色体序列具有同源性的足够长的区域，以允许载体与染色体的互补结合和将载体掺入染色体。更长的同源性区域和更大程度的序列相似性可提高同源重组的效率。

根据本文的披露内容，可以使用本领域已知的方法来扩增多核苷酸。一旦建立了合适的宿主系统和生长条件，就可以大量扩增和制备重组表达载体。如本文所述，可以使用的表达载体包括但不限于以下载体或其衍生物：人类或动物病毒，诸如牛痘病毒或腺病毒；昆虫病毒，诸如杆状病毒；酵母载体；噬菌体载体(例如，λ)，以及质粒和粘粒DNA载体。

如文中所用，“可操作地连接”意指目的多核苷酸，例如编码Cas9蛋白的多核苷酸，以允许多核苷酸序列表达的方式与调节元件连接。在一些实施例中，该调节元件是启动子。在一些实施例中，目的多核苷酸可操作地连接至表达载体上的启动子。

如本文所用，“启动子”，“启动子序列”或“启动子区”是指能够结合RNA聚合酶并涉及起始下游编码或非编码序列的转录的DNA调节区/序列。在本披露的一些实例中，启动子序列包括转录起始位点并向上游延伸以包括以高于背景可检测水平起始转录所使用的最少数目的碱基或元件。在一些实施例中，启动子序列包括转录起始位点，以及负责RNA聚合酶结合的蛋白质结合结构域。真核启动子通常但并非总是包含多个“TATA”盒和“CAT”盒。各种启动子，包括诱导型启动子，可用于驱动本披露的各种载体。

“载体”是用于将核酸克隆和/或转移至宿主细胞中的任何工具。载体可以是可能与另一个DNA区段附接的复制子，这样以便产生附接区段的复制。“复制子”是任意一种遗传因子(例如，质粒、噬菌体、粘粒、染色体、病毒)，它充当DNA体内复制的自动单元，即在其自我控制下能复制。在本披露的一些实施例中，载体是附加型载体，该载体在许多个细胞世代后，通过例如不对称分配，从细胞群中去除/丢失。术语“载体”包括用于在体外、离体或体内将该核酸引入细胞中的病毒性和非病毒工具。可以使用本领域已知的大量载体，以便操作核酸，将响应元件和启动子整合至基因中等等。可能的载体包括例如质粒或经修饰的病毒，包括例如噬菌体诸如λ衍生物，或质粒诸如PBR322或pUC质粒衍生物，或Bluescript载体。例如，将对应于响应元件和启动子的DNA片段插入合适的载体中能伴随着将合适的DNA片段连接至具有互补结合端的选定载体。可替代地，DNA分子的末端可以被酶催化修饰或者任意位点通过将核苷酸序列(接头)连接至该DNA末端中而产生。此类载体可进行工程化处理，以包含提供对细胞进行选择的选择性标记基因，这些细胞将标记掺入到细胞基因组中。此类标记允许鉴定和/或选择宿主细胞，这些宿主细胞掺入和表达该标记所编码的蛋白质。

病毒载体，特别是逆转录病毒载体，已经用于细胞以及活体动物的许多种基因递送应用中。可以使用的病毒载体包括但不限于逆转录病毒、腺相关病毒、痘病毒、杆状病毒、牛痘、单纯性疱疹、艾巴氏病毒、腺病毒、双生病毒和花椰菜花叶病毒载体。非病毒载体包括但不限于质粒、脂质体、带电脂质(细胞转染素)、DNA-蛋白质复合物和生物聚合物。除核酸外，载体还可包括一个或多个调节区和/或用于选择、测量和监测核酸转移结果(转移至哪个组织、表达持续时间等)的选择性标记。

可以通过已知的方法将载体引入希望的宿主细胞中，这些方法包括但不限于转染、转导、细胞融合和脂质转染。载体可包括各种调节元件，包括启动子。在一些实施例中，载体设计可以基于由Mali等人“Cas9 as a versatile tool for engineering biology[Cas9作为工程生物学的多用途工具]”，Nature Methods[自然方法]10：957-63(2013)设计的多个构建体。在一些实施例中，本披露提供了包括本文所述的任何多核苷酸的表达载体，例如，包括编码Cas蛋白或其变体的多核苷酸的表达载体。在一些实施例中，本披露提供了包括编码Cas9蛋白或其变体的多核苷酸的表达载体。

术语“质粒”是指额外的染色体元件，该元件通常携带不参与细胞的中央代谢的基因，并且通常呈环状双链DNA分子的形式。此类元件可以是来源于任何来源的单链或双链DNA或RNA的线性、环状或超螺旋自主复制序列、基因组整合序列、噬菌体或核苷酸序列，其中许多核苷酸序列已连接或重组到独特结构中，该独特结构能够将针对选定基因产物的启动子片段和DNA序列连同适当的3’未翻译序列引入到细胞中。

如本文所用，“转染”意指将外源核酸分子(包括载体)引入细胞。“转染的”细胞在细胞内部包括外源核酸分子，而“转化的”细胞是其中细胞内的外源核酸分子诱导细胞表型变化的细胞。转染的核酸分子可以整合到宿主细胞的基因组DNA中和/或可以被细胞暂时或长时间地维持在染色体外。表达外源核酸分子或片段的宿主细胞或生物体被称为“重组”、“转化”或“转基因”生物体。在一些实施例中，本披露提供了包括本文所述的任何表达载体(例如，包括编码Cas蛋白或其变体的多核苷酸的表达载体)的宿主细胞。在一些实施例中，本披露提供了包括表达载体的宿主细胞，该表达载体包括编码Cas9蛋白或其变体的多核苷酸。

术语“宿主细胞”是指已导入重组表达载体的细胞。术语“宿主细胞”不仅指其中导入表达载体的细胞(“亲本”细胞)，还指这种细胞的后代。因为修饰可能例如由于突变或环境影响而在后代中发生，所以后代可能与亲本细胞不同，但仍包括在术语“宿主细胞”的范围内。

术语“肽”、“多肽”和“蛋白质”在本文中可互换使用，是指任何长度的氨基酸的聚合形式，这些聚合形式可以包括编码和非编码的氨基酸、经化学或生物化学修饰或衍生的氨基酸和具有经修饰的肽骨架的多肽。

蛋白质或多肽的起点称为“N末端”(或氨基末端、NH₂末端、N末端或胺末端)，是指蛋白质或多肽的第一个氨基酸残基的游离胺(-NH₂)基团。蛋白质或多肽的末端称为“C末端”(或羧基末端、羧基末端、C末端或COOH末端)，是指蛋白质或肽的最后一个氨基酸残基的游离羧基(-COOH)。

如本文所用，“氨基酸”是指包括羧基(-COOH)和氨基(-NH₂)的化合物。“氨基酸”是指天然和非天然(即合成)氨基酸。天然氨基酸及其三个字母和一个字母的缩写包括：丙氨酸(Ala；A)；精氨酸(Arg，R)；天冬酰胺(Asn；N)；天冬氨酸(Asp；D)；半胱氨酸(Cys；C)；谷氨酰胺(Gln；Q)；谷氨酸(Glu；E)；甘氨酸(Gly；G)；组氨酸(His；H)；异亮氨酸(Ile；I)；亮氨酸(Leu；L)；赖氨酸(Lys；K)；蛋氨酸(Met；M)；苯丙氨酸(Phe；F)；脯氨酸(Pro；P)；丝氨酸(Ser；S)；苏氨酸(Thr；T)；色氨酸(Trp；W)；酪氨酸(Tyr；Y)；以及缬氨酸(Val；V)。

“氨基酸取代”是指包括一个或多个野生型或天然存在的氨基酸被相对于该野生型或天然存在的氨基酸不同的氨基酸在该氨基酸残基处取代的多肽或蛋白质。被取代的氨基酸可以是合成或天然存在的氨基酸。在一些实施例中，被取代的氨基酸是选自下组的天然存在的氨基酸，该组由以下组成：A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y和V。取代突变体可以使用缩写体系进行描述。例如，第五(第5)个氨基酸残基被取代的取代突变可以缩写为“X5Y”，其中“X”是被代替的野生型或天然存在的氨基酸，“5”是该蛋白质或多肽的氨基酸序列内氨基酸残基的位置，“Y”是被取代的或非野生型或非天然存在的氨基酸。

“分离的”多肽、蛋白质、肽或核酸是已经从其天然环境中去除的分子。还应理解，“分离的”多肽、蛋白质、肽或核酸可以与赋形剂(诸如稀释剂)或佐剂一起配制，并且仍被认为是分离的。

当用于指核酸分子、肽、多肽或蛋白质时，术语“重组”意指未知在自然界中存在的遗传物质的新组合或由其产生。重组分子可以通过重组技术领域中现有的任何熟知的技术来产生，包括但不限于聚合酶链式反应(PCR)、基因剪接(例如，使用限制性核酸内切酶)以及核酸分子、肽或蛋白质的固相合成。

当用于指多肽或蛋白质时，术语“结构域”意指蛋白质中独特的功能和/或结构单元。结构域有时负责特定的功能或相互作用，有助于蛋白质的整体作用。在多种生物学背景下可以存在结构域。在具有不同功能的蛋白质中可以找到相似的结构域。可替代地，具有低序列同一性(即，小于约50％、小于约40％、小于约30％、小于约20％、小于约10％、小于约5％或小于约1％的序列同一性)的结构域可能具有相同的功能。在一些实施例中，Cas9结构域是RuvC结构域。在一些实施例中，Cas9结构域是HNH结构域。在一些实施例中，Cas9结构域是Rec结构域。

当用于多肽或蛋白质时，术语“基序”通常是指一组典型地长度短于20个氨基酸的保守的氨基酸残基，其对于蛋白质功能可能是重要的。特定的序列基序可以介导多种蛋白质中的共同功能，例如蛋白质结合或靶向特定亚细胞位置。基序的实例包括但不限于核定位信号、微体靶向基序、阻止或促进分泌的基序和促进蛋白质识别和结合的基序。基序数据库和/或基序搜索工具是本领域技术人员已知的，并且包括例如PROSITE(expasy.ch/sprot/prosite.html)、Pfam(pfam.wustl.edu)、PRINTS(biochem.ucl.ac.uk/bsm/dbbrowser/PRINTS/PRINTS.html)和Minimotif Miner(cse-mnm.engr.uconn.edu：8080/MNM/SMSSearchServlet)。

如本文所用，“工程化的”蛋白质是指在蛋白质中包括一个或多个修饰以获得所希望特性的蛋白质。示例性修饰包括但不限于插入、缺失、取代或与另一结构域或蛋白质融合。本披露的工程化的蛋白包括工程化的Cas9蛋白。

在一些实施例中，工程化的蛋白是由野生型蛋白产生的。如本文所用，“野生型”蛋白质或核酸是天然存在的未修饰的蛋白质或核酸。例如，野生型Cas9蛋白可以从生物体酿脓链球菌中分离，并且可包括SEQ ID NO：1的氨基酸序列。野生型与“突变体”形成对比，“突变体”在蛋白质或核酸的氨基酸和/或核苷酸序列中包括一个或多个修饰。例如，酿脓链球菌Cas9的突变体变体可以包括SEQ ID NO：2的氨基酸序列，该变体相对于野生型酿脓链球菌Cas9(SEQ ID NO：1)具有单个氨基酸取代。

当用于多肽或蛋白质时，术语“降解(degrade或degradation)”通常是指经由通常称为蛋白水解的过程将蛋白质分解成较小的肽片段或单个氨基酸。蛋白质的细胞内降解可以在溶酶体或蛋白酶体中实现。除了诸如本文所述的选择性分子伴侣介导的自噬途径的途径外，溶酶体降解通常是非选择性过程。在溶酶体降解中，胞质蛋白被内吞到溶酶体中进行降解。蛋白酶体降解通常是选择性的，其中要降解的蛋白用泛素标记。关于蛋白酶体蛋白降解途径的综述，参见，例如，Ciechanover，Cell[细胞]79(1)：13-21(1994)；Hasselgren等人，Ann Surg[外科年鉴]225(3)：307-316(1997)；Collins等人，Cell[细胞]169(5)：792-806(2017)。通常，蛋白质的降解速率与其在细胞中的功能和生化特征有关。例如，具有富含脯氨酸、谷氨酸、丝氨酸和苏氨酸的区段的蛋白质(有时称为PEST蛋白质)具有短的半衰期(参见，例如，Voet&Voet，Biochemistry[生物化学]第二版John Wiley&Sons[约翰威利父子公司]，第1010-1014页(1995)，将其通过引用整体并入)。影响蛋白质降解速率的其他因素包括：谷氨酰胺和天冬酰胺的脱氨基速率；半胱氨酸、组氨酸和蛋氨酸的氧化速率；不存在稳定配体；存在连接的碳水化合物或磷酸基团；存在游离α-氨基；蛋白质的电荷；以及蛋白质的柔韧性和稳定性(例如，参见Creighton“Chapter 10-Degradation”in Proteins：Structures and Molecular Properties 2^nd ed.[蛋白质：结构和分子性质第二版中“第10章-降解”]W H Freeman and Company，第463-473页(1993)，其通过引用整体并入)。测量蛋白质降解速率的方法包括，例如氨基酸同位素脉冲追踪(例如，在细胞培养物或SILAC中用氨基酸进行稳定的同位素标记)、合成后的放射性标记或报告子依赖性方法，例如整体蛋白质稳定性分析(GPSP)，其利用例如GFP作为报告蛋白(参见，例如Yewdell等人，Cell BiolInt[国际细胞生物学]35(5)：457-462(2011))。测量蛋白质降解速率的另一种方法是通过使用例如免疫印迹的密度测定分析在不同时间点定量细胞中蛋白质的量，随时间绘制蛋白质水平，以及从蛋白质水平对时间图确定降解速率。本领域技术人员可以选择测定蛋白质降解速率的方法。

如本文所用，术语“序列相似性”或“相似性百分比％”是指核酸序列或氨基酸序列之间的同一性或一致程度。如本文所用，“序列相似性”是指如下的核酸序列，其中一个或多个核苷酸碱基的改变导致一个或多个氨基酸的取代，但不影响该DNA序列编码的蛋白质的功能性质。“序列相似性”还指核酸的修饰，诸如基本上不影响所得转录物的功能性质的一个或多个核苷酸碱基的缺失或插入。因此，应当理解，本披露不仅仅涵盖特定的示例性序列。进行核苷酸碱基取代的方法以及确定所编码产物的生物活性保留的方法是已知的。

此外，技术人员认识到，本披露涵盖的相似序列也由其在严格条件下与本文示例的序列杂交的能力来定义。本披露的相似核酸序列是DNA序列与本文所披露的核酸的DNA序列具有至少70％、至少80％、至少90％、至少95％或至少99％相同的那些核酸。本披露的相似核酸序列是DNA序列与本文所披露的核酸的DNA序列具有约70％、至少约70％、约75％、至少约75％、约80％、至少约80％、约85％、至少约85％、约90％、至少约90％、约95％、至少约95％、约99％、至少约99％或约100％相同的那些核酸。

如本文所用，“序列相似性”是指两个或更多个氨基酸序列，其中大于约40％的氨基酸是相同的，或者大于约60％的氨基酸是功能上相同的。功能相同或功能相似的氨基酸具有化学上相似的侧链。例如，可以根据功能相似性按照以下方式对氨基酸进行分组：

带正电的侧链：Arg、His、Lys；

带负电的侧链：Asn、Glu；

极性、不带电的侧链：Ser、Thr、Asn、Gln；

疏水性侧链：Ala、Val、Ile、Leu、Met、Phe、Tyr、Trp；

其他：Cys、Gly、Pro。

在一些实施例中，本披露的相似氨基酸序列具有至少40％、至少50％、至少60％、至少70％、至少80％、至少90％或至少99％相同的氨基酸。

在一些实施例中，本披露的相似氨基酸序列具有至少60％、至少70％、至少80％、至少90％或至少95％功能相同的氨基酸。在一些实施例中，本披露的相似氨基酸序列具有约40％、至少约40％、约45％、至少约45％、约50％、至少约50％、约55％、至少约55％、约60％、至少约60％、约65％、至少约65％、约70％、至少约70％、约75％、至少约75％、约80％、至少约80％、约85％、至少约85％、约90％、至少约90％、约95％、至少约95％、约97％、至少约97％、约98％、至少约98％、约99％、至少约99％或约100％相同的氨基酸。

在一些实施例中，本披露的相似氨基酸序列具有约60％、至少约60％、约65％、至少约65％、约70％、至少约70％、约75％、至少约75％、约80％、至少约80％、约85％、至少约85％、约90％、至少约90％、约95％、至少约95％、约97％、至少约97％、约98％、至少约98％、约99％、至少约99％或约100％功能相同的氨基酸。

如本文所用，术语“相同蛋白质”是指具有与参考蛋白质基本上相似的结构或氨基酸序列的蛋白质，其执行与参考蛋白质相同的生化功能，并且可包括因在氨基酸序列中的一个或多个位点处取代或缺失一个或多个氨基酸而不同于参考蛋白质的蛋白质，即至少约60％、至少约60％、约65％、至少约65％、约70％、至少约70％、约75％、至少约75％、约80％、至少约80％、约85％、至少约85％、约90％、至少约90％、约95％、至少约95％、约97％、至少约97％、约98％、至少约98％、约99％、至少约99％或约100％相同氨基酸的缺失。一方面，“相同蛋白质”是指具有与参考蛋白质相同的氨基酸序列的蛋白质。

使用本领域常规方法，例如BLAST、MUSCLE、Clustal(包括ClustalW和ClustalX)和T-Coffee(包括变体，诸如像M-Coffee、R-Coffee和Expresso)，通过序列比对可确定序列相似性。

在核酸序列或氨基酸序列的背景下，术语“序列同一性”或“同一性百分比％”是指当该序列在指定的比较窗上比对时，比较的序列中相同的残基的百分比。在一些实施例中，仅将两个或更多个序列的特定部分进行比对以确定序列同一性。在一些实施例中，仅将两个或更多个序列的特定结构域进行比对以确定序列相似性。比较窗可以是至少10至超过1000个残基、至少20至约1000个残基或至少50至500个残基的区段，在其中可以比对和比较这些序列。用于确定序列同一性的比对方法是熟知的，并且可以使用公开可用的数据库(诸如BLAST)来进行。当指氨基酸序列时，“同一性百分比”或“同一性％”可以通过本领域已知的方法确定。例如，在一些实施例中，使用Karlin和Altschul，Proc Nat Acad Sci USA[美国国家科学院院刊]87：2264-2268(1990)的算法，按Karlin和Altschul，Proc Nat AcadSci USA[美国国家科学院院刊]90：5873-5877(1993)所改良的，确定两个氨基酸序列的“同一性百分比”。这种算法被并入BLAST程序中，例如，Altschul等人，Journal of MolecularBiology[分子生物学杂志]，215：403-410(1990)中描述的BLAST+或NBLAST和XBLAST程序。可采用诸如像XBLAST程序等的程序(分数＝50、字长＝3)，执行BLAST蛋白质搜索，以获得与本披露的蛋白质分子同源的氨基酸序列。在两个序列之间存在空位的情况下，可以利用如Altschul等人，Nucleic Acids Research[核酸研究]25(17)：3389-3402(1997)中描述的空位BLAST程序。当利用BLAST程序和空位BLAST程序时，可以使用相应程序(例如，XBLAST和NBLAST)的缺省参数。

在一些实施例中，多肽或核酸分子与参考多肽或核酸分子(或参考多肽或核酸分子的片段)分别具有70％、至少70％、75％、至少75％、80％、至少80％、85％、至少85％、90％、至少90％、95％、至少95％、97％、至少97％、98％、至少98％、99％或至少99％或100％的序列同一性。在一些实施例中，多肽或核酸分子与参考多肽或核酸分子(或参考多肽或核酸分子的片段)分别具有约70％、至少约70％、约75％、至少约75％、约80％、至少约80％、约85％、至少约85％、约90％、至少约90％、约95％、至少约95％、约97％、至少约97％、约98％、至少约98％、约99％、至少约99％或与约100％的序列同一性。

CRISPR-Cas系统的概述

CRISPR相关蛋白9(Cas9)是在细菌中发现的II型CRISPR适应性免疫系统的RNA指导的核酸内切酶，该细菌包括但不限于酿脓链球菌、嗜热链球菌、金黄色葡萄球菌和脑膜炎奈瑟氏球菌等细菌。有关CRISPR-Cas9系统的概述，参见例如Sander等人，NatureBiotechnology[自然生物技术]32：347-355(2014)。通常，CRISPR或CRISPR-Cas系统的特征在于促进CRISPR复合物在靶序列的位点形成的元件，该CRISPR复合物包括指导多核苷酸和Cas9核酸内切酶(在本文中可互换地称为“Cas9蛋白”或“Cas9核酸酶”)。在天然存在的CRISPR-Cas系统中，将外源DNA导入CRISPR阵列中，然后产生带有与外源DNA位点互补的“前间区序列”区域的crRNA(CRISPR-RNA)。crRNA与tracrRNA(也由CRISPR系统编码)杂交，并且这对RNA与Cas9核酸酶缔合。crRNA/tracrRNA/Cas9复合物识别并裂解带有前间区序列的外源DNA。

在一些实施例中，本披露提供了工程化的CRISPR-Cas系统。在一些实施例中，工程化的CRISPR-Cas系统包括工程化的Cas9蛋白，该蛋白包括相对于野生型Cas9的一个或多个修饰。在一些实施例中，工程化的Cas9蛋白包括野生型Cas9中不存在的一个或多个基序。导入野生型Cas9的一个或多个基序可以称为“工程化的”基序。在一些实施例中，Cas9蛋白中的一个或多个工程化的基序是分子伴侣介导的自噬(CMA)基序。

在一些实施例中，工程化的CRISPR-Cas系统包括工程化的指导多核苷酸，该多核苷酸包括相对于野生型crRNA和/或tracrRNA的一个或多个修饰。在一些实施例中，工程化的CRISPR-Cas系统利用crRNA和tracrRNA序列的一部分(即单个指导多核苷酸)之间的融合。因此，在这种情况下，在Cas9和单个指导多核苷酸之间形成复合物。单个指导多核苷酸与Cas9形成复合物以介导靶序列的裂解，该靶序列与指导多核苷酸的前(5’)20个核苷酸(即，指导多核苷酸的指导序列部分)互补，并且紧邻前间区序列邻近基序(PAM)序列。在其他实施例中，工程化的CRISPR-Cas系统包括包含tracrRNA序列的单独多核苷酸，即tracrRNA不是包括指导序列的指导多核苷酸的一部分。在这种情况下，在Cas9、指导多核苷酸和tracrRNA之间形成复合物。在一些实施例中，指导多核苷酸的tracrRNA组分激活Cas9蛋白。在一些实施例中，Cas9蛋白的激活使Cas9的核酸酶活性激活或增加。在一些实施例中，Cas9蛋白直到其与crRNA和tracrRNA形成复合物才有活性。

Cas9核酸内切酶在前间区序列邻近基序(PAM)上游在靶序列处产生双链DNA断裂。双链断裂的修复可能导致在双链断裂位点处的插入或缺失。在一些实施例中，使用细胞的内源DNA修复途径将目的序列插入靶序列。内源性DNA修复途径包括非同源末端连接(NHEJ)途径、微同源介导的末端连接(MMEJ)途径和同源定向修复(HDR)途径。NHEJ、MMEJ和HDR途径可修复双链DNA断裂。在NHEJ中，修复DNA中的断裂不需要同源模板。NHEJ修复可能容易出错，但是当DNA断裂包括相容的突出端时，错误会减少。NHEJ和MMEJ是在机理上截然不同的DNA修复途径，它们各自涉及DNA修复酶的不同子集。与在一些情况下可能精确或在一些情况下容易出错的NHEJ不同，MMEJ总是容易出错，并且会导致在修复位点处的缺失和插入。MMEJ相关的缺失归因于双链断裂两侧的微同源性(2-10个碱基对)。相比之下，HDR需要同源模板来直接进行修复，但是HDR修复典型地具有高保真度，并且不易出错。在一些实施例中，利用NHEJ和MMEJ修复的容易出错的性质在靶序列中引入非特异性核苷酸取代。

如本文所述，一些CRISPR-Cas系统可能具有不期望的脱靶活性或脱靶基因组编辑。在基因组编辑的上下文中使用的“脱靶”是指非特异性和非预期的遗传修饰，这与“靶上”相反，后者是指在预期基因座处的修饰。当例如Cas9核酸酶未结合其预期的靶序列(即与指导多核苷酸上的指导序列互补的基因组序列)时，可能会导致脱靶修饰，这可能是由同源序列和/或错配容许性引起。脱靶修饰可以包括但不限于非预期的点突变、缺失、插入、倒位和易位。在一些实施例中，与野生型Cas9蛋白相比，本披露的工程化的Cas9蛋白具有降低的脱靶活性。在一些实施例中，与野生型Cas9蛋白相比，本披露的工程化的Cas9蛋白的脱靶活性降低至少约50％。在一些实施例中，与野生型Cas9相比，本披露的工程化的Cas9蛋白的脱靶活性降低至少约60％、至少约70％、至少约80％、至少约90％、至少约95％或至少约100％。脱靶修饰可以使用例如靶向测序、外显子组测序、全基因组测序、BLESS(直接原位断裂标记、链霉亲和素富集和下一代测序)、GUIDE-seq(通过测序对DSB进行全基因组、无偏鉴定)、LAM-HTGTS(线性扩增介导的高通量全基因组易位测序)和Digenome-seq(体外Cas9消化的全基因组测序)。脱靶修饰的检测和定量方法描述于例如Zhang等人，Mol TherNucleic Acids[分子治疗核酸]4：e264(2014)；和Zischewski等人，Biotechnol Adv[生物技术进展]35：95-104(2017)中。

Cas9蛋白

在一些实施例中，Cas9蛋白衍生自以下物种：酿脓链球菌、嗜热链球菌、停乳链球菌、变形链球菌、英诺克李斯特菌、金黄色葡萄球菌或肺炎克雷伯氏菌。在一些实施例中，术语Cas9是指包括酿脓链球菌Cas9蛋白的氨基酸序列(SEQ ID NO：1)的多肽。在一些实施例中，术语Cas9是指包括嗜热链球菌Cas9蛋白的氨基酸序列(SEQ ID NO：17)的多肽。在一些实施例中，术语Cas9是指包括停乳链球菌Cas9蛋白的氨基酸序列(SEQ ID NO：18)的多肽。在一些实施例中，术语Cas9是指包括变形链球菌Cas9蛋白的氨基酸序列(SEQ ID NO：19)的多肽。在一些实施例中，术语Cas9是指包括英诺克李斯特菌Cas9蛋白的氨基酸序列(SEQ IDNO：20)的多肽。在一些实施例中，术语Cas9是指包括金黄色葡萄球菌Cas9蛋白的氨基酸序列(SEQ ID NO：21)的多肽。在一些实施例中，术语Cas9是指包括肺炎克雷伯氏菌Cas9蛋白的氨基酸序列(SEQ ID NO：22)的多肽。

在一些实施例中，术语Cas9是指包括SEQ ID NO：1的多肽。在一些实施例中，Cas9蛋白与SEQ ID NO：1的氨基酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性。在一些实施例中，Cas9是由与SEQ ID NO：3具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性的多核苷酸序列编码的多肽。

在一些实施例中，术语Cas9是指能够产生粘性末端的Cas9。如本文所用，术语“粘性末端(cohesive end)”、“交错末端”或“粘性末端(sticky end)”是指具有长度不等的链的核酸片段。与“平端”相反，粘性末端是通过对核酸(典型地为DNA)进行交错切割而产生的。黏性或粘性末端具有突出的单链的链(这些链具有不成对的核苷酸)或突出端，例如，3’或5’突出端。每个突出端可以与另一个互补的突出端进行退火以形成碱基对。两个互补的粘性末端可以经由相互作用诸如氢键结合一起退火。退火的粘性末端的稳定性取决于成对的突出端的解链温度。两个互补的粘性末端可以通过化学或酶促连接(例如，通过DNA连接酶)连接在一起。

在一些实施例中，术语Cas9是指具有改变的功能的Cas9变体，例如Cas9杂合蛋白。例如，Cas9或具有无活性的DNA裂解结构域的Cas9蛋白的结合结构域可以用作经由指导多核苷酸与希望的靶序列特异性地结合的结合结构域。可以将结合结构域(即无活性的Cas9)融合或缀合至裂解结构域(例如核酸内切酶FokI的裂解结构域)，以产生工程化杂交核酸酶。Cas9-FokI杂合蛋白进一步描述于例如美国专利公开号2015/0071899和Guilinger等人，Nature Biotechnology[自然生物技术]32：577-582(2014)中。工程化的杂合核酸酶的其他实例描述于例如Wah等人，Proc Nat Acad Sci[美国国家科学院院刊]95：10564-10569(1996)；Li等人，Nucl Acids Res[核酸研究]39(1)：359-372(2011)；和Kim等人，Proc NatAcad Sci[美国国家科学院院刊]93：1156-1160(1996)中。

Cpf1(着丝粒和启动子因子1)也是II型CRISPR系统的RNA指导的核酸酶。Cpf1产生粘性末端。CRISPR/Cpf1系统类似于CRISPR/Cas9系统。但是，Cas9和Cpf1之间存在一些差异。与Cas9不同，Cpf1不使用tracrRNA。Cpf1蛋白识别与Cas9不同的PAM序列，并且Cpf1在与Cas9不同的位点处裂解。Cas9在与PAM相邻的序列裂解，而Cpf1在远离PAM的序列裂解。Cpf1蛋白进一步描述于例如外国专利公开GB 1506509.7、美国专利号9,580,701、美国专利公开2016/0208243和Zetsche等人，Cell[细胞]163(3)：759-771(2015)中。根据本披露，可以使用在功能上类似于Cpf1的酶。因此，在一些实施例中，本披露提供了包括本文所述的氨基酸修饰的重组Cpf1蛋白。

一些野生型或天然存在的Cas9蛋白(例如来自酿脓链球菌的Cas9蛋白)具有六个结构域：Rec1、Rec2、桥螺旋(Bridge Helix，BH)、PAM相互作用(PI)、HNH、和RuvC。Rec1结构域负责结合指导多核苷酸。当结合靶序列时，BH结构域负责引发裂解活性。PI结构域赋予PAM特异性，并负责引发与靶序列的结合。HNH和RuvC结构域是切割DNA的核酸酶结构域。对Cas9蛋白质的结构研究揭示，蛋白质具有识别叶(“REC叶”)，其包括BH、Rec1和Rec2结构域；和核酸酶叶(“NUC叶”)，其包括RuvC(分为RuvC I、RuvC II和RuvC III子结构域)、HNH和PI结构域。参见图3和4。可以使用基于蛋白质氨基酸序列的结构域结构预测工具来鉴定蛋白质结构域，例如SMART(Letunic等人，Nucleic Acids Research[核酸研究](2017)，doi：10.1093/nar/gkx922)、PANDA(Wang等人，Scientific Reports[科学报告]8：3484(2018))或InterPro(Finn等人，Nucleic Acids Research[核酸研究](2017)，doi：10.1093/nar/gkw1107)。还可以基于蛋白质结构(例如通过视觉检查)或通过使用诸如PUU(Holm等人，Proteins[蛋白质]19(3)：256-268(1994))、RigidFinder(Abyzov等人，Proteins[蛋白质]78(2)：309-324(2010))或PiSQRD(Aleksiev等人，Bioinformatics[生物信息学]25(20)：2743-2744(2009))的算法来鉴定蛋白质结构域。基于结构表征的Cas9结构域的鉴定描述于例如Jinek等人，Science[科学]337：816-821(2012)；Nishimasu等人，Cell[细胞]156(5)：935-949(2014)；Anders等人，Nature[自然]513：569-573(2014)；和Sternberg等人，Nature[自然]507(7490)：62-67(2014)中。

在一些实施例中，本披露的Cas9蛋白包括与SEQ ID NO：5的氨基酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性的REC叶。在一些实施例中，本披露的Cas9蛋白包括与SEQ IDNO：6-7的氨基酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性的NUC叶。

在一些实施例中，本披露的Cas9蛋白包括与SEQ ID NO：8的氨基酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性的BH结构域。在一些实施例中，本披露的Cas9蛋白包括与SEQ IDNO：9-10的氨基酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性的Rec1结构域。在一些实施例中，本披露的Cas9蛋白包括与SEQ ID NO：11的氨基酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性的Rec2结构域。在一些实施例中，本披露的Cas9蛋白包括与SEQ ID NO：12-14的氨基酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性的RuvC结构域。在一些实施例中，本披露的Cas9蛋白包括与SEQ ID NO：15的氨基酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性的HNH结构域。在一些实施例中，本披露的Cas9蛋白包括与SEQ ID NO：16的氨基酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性的PI结构域。

Cas9蛋白的结构研究(例如晶体结构)可揭示表面暴露的蛋白质的区域。如本文所用，“表面暴露的区域”是指可接近周围环境的蛋白质区域，即，蛋白质的外“表面”上的区域。类似地，“表面暴露的残基”包括蛋白质的氨基酸残基，这些残基在表面暴露的区域中。表面暴露的残基与“埋藏”残基相反，该“埋藏”残基向内朝向蛋白质中心，并形成“埋藏区”，其不能被周围环境接近。蛋白质上的表面暴露的残基可能在与其他分子(例如其他蛋白质或细胞结构)的相互作用中起重要作用。因此，在一些实施例中，蛋白质(例如Cas9蛋白)上的某些残基以一种构象状态被表面暴露，而不以不同的构象状态被表面暴露。例如，Cas9蛋白在结合至指导RNA时可发生构象变化，使得Cas9蛋白中先前未暴露的区域在指导RNA结合时变为表面暴露的，或反之亦然(参见例如，Fagerlund等人，Proc Nat Acad Sci[美国国家科学院院刊]114(26)：E5211-E5128(2017))。

表面暴露的残基也可能决定蛋白质的物理性质并限制蛋白质的折叠结构。当在诸如PyMOL(pymol.org)或Swiss PDB Viewer(spdbv.vital-it.ch)的程序中查看蛋白质晶体结构时，可以确定表面暴露的残基。表面暴露的残基也可以使用诸如NACCESS(bioinf.manchester.ac.uk/naccess)的程序来计算。蛋白质的表面暴露的残基也可以通过计算预测来确定，例如，当晶体结构不可用时。蛋白质序列中表面暴露的残基的计算预测工具包括，例如SARpred(Garg等人，Proteins[蛋白质]61：318-24(2005))、JOY程序包中的PSA/TEM(Mizuguchi等人，Bioinformatics[生物信息学]14：617-623(1998))和RSARF(caps.ncbs.res.in/download/pugal/RSARF)。

分子伴侣介导的自噬概述

“分子伴侣介导的自噬”或CMA是指选择性蛋白降解过程，该过程涉及对胞质蛋白质的分子伴侣依赖性选择，然后将蛋白靶向溶酶体并将它们跨过溶酶体膜易位以进行降解。CMA的示例性分子伴侣蛋白是70kD的热休克同源蛋白或HSC70。“内体微自噬”或eMI是指与CMA类似的蛋白质降解过程，不同之处在于eMI选择性地将包括KFERQ基序或KFERQ样基序的蛋白质靶向晚期内体而不是溶酶体进行降解。与CMA一样，HSC70也是eMI的分子伴侣蛋白。参见例如Kaushik等人，Trends Cell Biol[细胞生物学趋势]22(8)：407-417(2012)；Tekirdag等人，J Biol Chem[生物化学杂志]293：5414-5424(2018)；和Pereira等人，Int JCell Biol[国际细胞生物学杂志]2012(4)：931956(2012)。

本文所称的“KFERQ基序”是五肽序列：Lys-Phe-Glu-Arg-Gln(SEQ ID NO：24)。本文所称的“KFERQ样基序”是与KFERQ在生物化学上相似或在生物化学上相关的基序。如本文所述，在生物化学上相似或在生物化学上相关的基序可以包括在功能上等同的氨基酸残基。因此，KFERQ基序可以是具有以下参数的任何五肽：一个或两个带正电荷的残基(例如，Lys或Arg)；一个或两个大体积疏水性残基(例如，Phe、Ile、Leu或Val)；带负电荷的残基(例如，Asp或Glu)；和位于五肽任一例的Gln或Asn。参见例如，Dice等人，Trends Biochem Sci[生物化学科学的趋势]15(8)：305-309(1990)；和Kaushik等人，Trends Cell Biol[细胞生物学趋势]22(8)：407-417(2012)。KFERQ样基序的实例包括但不限于表1中列出的基序。

表1.KFERQ样基序

基序的氨基酸序列	SEQ ID NO.
		KFERQ	24
RKVEQ	25
		QDLKF	26
QRFFE	27
		NRVVD	28
QRDKV	29
		QKILD	30
QKKEL	31
		QFREL	32
IKLDQ	33
		DVVRQ	34
QRIVE	35
		VKELQ	36
QKVFD	37
		QELLR	38
VDKLN	39
		RIKEN	40
NKKFE	41

包括至少一个KFERQ基序或KFERQ样基序的蛋白质可以被CMA或eMI的组分识别。因此，在一些实施例中，KFERQ基序或KFERQ样基序是分子伴侣介导的自噬(CMA)靶基序。在一些实施例中，KFERQ基序或KFERQ样基序是内体微自噬(eMI)靶基序。不受特定理论的束缚，出于说明本披露的目的，在本文中描述了CMA和eMI，应理解，KFERQ基序或KFERQ样基序可以用作其他蛋白质降解途径的靶标，以及其他共有序列或基序(不同于本文所述的KFERQ基序或KFERQ样基序)可为CMA或eMI靶基序。

HSC70识别并结合至蛋白质上的CMA或eMI靶基序，例如KFERQ基序或KFERQ样基序，以形成分子伴侣蛋白复合物。然后，分子伴侣蛋白复合物与2A型溶酶体相关膜蛋白(LAMP-2A)受体结合。蛋白质展开，这触发了LAMP-2A的多聚化。随后，未折叠的蛋白质经由LAMP-2A跨过溶酶体膜易位，最后转运的蛋白被降解。参见例如Kaushik等人，Trends Cell Biol[细胞生物学趋势]22(8)：407-417(2012)。

重组Cas9蛋白

与野生型Cas9相比，本披露的重组Cas9蛋白是功能性Cas9核酸酶，并且具有降低的脱靶修饰。“功能性Cas9核酸酶”意指重组Cas9蛋白具有与野生型Cas9蛋白至少大约相同水平的核酸酶活性，如通过Cas9活性测定所测量的。“功能性Cas9核酸酶”也意指重组Cas9具有与野生型Cas9蛋白大约相同水平的靶上修饰(即，基因组编辑效率)，如通过Cas9效率测定所测量的。

在一些实施例中，本披露的重组Cas9蛋白具有野生型Cas9蛋白的核酸酶活性的至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约95％或至少约100％，如通过Cas9活性测定所测量的。在一些实施例中，本披露的重组Cas9蛋白具有比野生型Cas9蛋白更高的核酸酶活性，如通过Cas9活性测定所测量的。Cas9活性测定的非限制性实例包括T7核酸内切酶I测定和SURVEYOR测定(综述于Vouillot等人，G3(Bethesda)5(3)：407-415(2015)中)。在一些实施例中，本披露的重组Cas9蛋白具有野生型Cas9蛋白的靶上修饰的至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约95％或至少约100％，如通过Cas9效率测定所测量的。在一些实施例中，本披露的重组Cas9蛋白具有比野生型Cas9蛋白更高的靶上修饰，如通过Cas9效率测定所测量的。Cas9效率测定的非限制性实例包括错配检测测定和基于测序的测定(综述于Zischewski等人，Biotechnol Adv[生物技术进展]35：95-104(2017)中)。

如本文所述，KFERQ基序或KFERQ样基序被CMA或eMI的组分识别。因此，在一些实施例中，包括工程化的KFERQ基序或KFERQ样基序的Cas9蛋白被CMA或eMI的组分识别。在一些实施例中，KFERQ基序或KFERQ样基序是SEQ ID NO：24-41中的任一个。因此，在一些实施例中，KFERQ基序或KFERQ样基序是KFERQ(SEQ ID NO：24)、RKVEQ(SEQ ID NO：25)、QDLKF(SEQID NO：26)、QRFFE(SEQ ID NO：27)、NRVVD(SEQ ID NO：28)、QRDKV(SEQ ID NO：29)、QKILD(SEQ ID NO：30)、QKKEL(SEQ ID NO：31)、QFREL(SEQ ID NO：32)、IKLDQ(SEQ ID NO：33)、DVVRQ(SEQ ID NO：34)、QRIVE(SEQ ID NO：35)、VKELQ(SEQ ID NO：36)、QKVFD(SEQ ID NO：37)、QELLR(SEQ ID NO：38)、VDKLN(SEQ ID NO：39)、RIKEN(SEQ ID NO：40)或NKKFE(SEQ IDNO：41)。在一些实施例中，工程化的KFERQ基序或KFERQ样基序是VDKLN(SEQ ID NO：39)。

在一些实施例中，重组Cas9蛋白包括具有氨基酸序列KFERQ(SEQ ID NO：24)的工程化的KFERQ基序或KFERQ样基序。在一些实施例中，重组Cas9蛋白包括具有氨基酸序列RKVEQ(SEQ ID NO：25)的工程化的KFERQ基序或KFERQ样基序。在一些实施例中，重组Cas9蛋白包括具有氨基酸序列QDLKF(SEQ ID NO：26)的工程化的KFERQ基序或KFERQ样基序。在一些实施例中，重组Cas9蛋白包括具有氨基酸序列QRFFE(SEQ ID NO：27)的工程化的KFERQ基序或KFERQ样基序。在一些实施例中，重组Cas9蛋白包括具有氨基酸序列NRVVD(SEQ ID NO：28)的工程化的KFERQ基序或KFERQ样基序。在一些实施例中，重组Cas9蛋白包括具有氨基酸序列QRDKV(SEQ ID NO：29)的工程化的KFERQ基序或KFERQ样基序。

在一些实施例中，重组Cas9蛋白包括具有氨基酸序列QKILD(SEQ ID NO：30)的工程化的KFERQ基序或KFERQ样基序。在一些实施例中，重组Cas9蛋白包括具有氨基酸序列QKKEL(SEQ ID NO：31)的工程化的KFERQ基序或KFERQ样基序。在一些实施例中，重组Cas9蛋白包括具有氨基酸序列QFREL(SEQ ID NO：32)的工程化的KFERQ基序或KFERQ样基序。在一些实施例中，重组Cas9蛋白包括具有氨基酸序列IKLDQ(SEQ ID NO：33)的工程化的KFERQ基序或KFERQ样基序。在一些实施例中，重组Cas9蛋白包括具有氨基酸序列DVVRQ(SEQ ID NO：34)的工程化的KFERQ基序或KFERQ样基序。在一些实施例中，重组Cas9蛋白包括具有氨基酸序列QRIVE(SEQ ID NO：35)的工程化的KFERQ基序或KFERQ样基序。在一些实施例中，重组Cas9蛋白包括具有氨基酸序列VKELQ(SEQ ID NO：36)的工程化的KFERQ基序或KFERQ样基序。

在一些实施例中，重组Cas9蛋白包括具有氨基酸序列QKVFD(SEQ ID NO：37)的工程化的KFERQ基序或KFERQ样基序。在一些实施例中，重组Cas9蛋白包括具有氨基酸序列QELLR(SEQ ID NO：38)的工程化的KFERQ基序或KFERQ样基序。在一些实施例中，重组Cas9蛋白包括具有氨基酸序列VDKLN(SEQ ID NO：39)的工程化的KFERQ基序或KFERQ样基序。在一些实施例中，重组Cas9蛋白包括具有氨基酸序列RIKEN(SEQ ID NO：40)的工程化的KFERQ基序或KFERQ样基序。在一些实施例中，重组Cas9蛋白包括具有氨基酸序列NKKFE(SEQ ID NO：41)的工程化的KFERQ基序或KFERQ样基序。

在一些实施例中，工程化的KFERQ基序或KFERQ样基序在SEQ ID NO：1的第一个氨基酸残基之前。在一些实施例中，工程化的KFERQ基序或KFERQ样基序在SEQ ID NO：1的氨基酸残基1至100之间。在一些实施例中，工程化的KFERQ基序或KFERQ样基序在SEQ ID NO：1的氨基酸残基100至300之间。在一些实施例中，工程化的KFERQ基序或KFERQ样基序在SEQ IDNO：1的氨基酸残基300至700之间。在一些实施例中，工程化的KFERQ基序或KFERQ样基序在SEQ ID NO：1的氨基酸残基700至900之间。在一些实施例中，工程化的KFERQ基序或KFERQ样基序在SEQ ID NO：1的氨基酸残基900至1100之间。在一些实施例中，工程化的KFERQ基序或KFERQ样基序在SEQ ID NO：1的氨基酸残基1100至1300之间。在一些实施例中，工程化的KFERQ基序或KFERQ样基序在SEQ ID NO：1的最后一个氨基酸残基之后。

在一些实施例中，工程化的KFERQ基序或KFERQ样基序在Cas9蛋白的REC叶中。在一些实施例中，Cas9蛋白的REC叶包括BH结构域、Rec1结构域和Rec2结构域。在一些实施例中，REC叶具有SEQID NO：5的氨基酸序列。在一些实施例中，工程化的KFERQ基序或KFERQ样基序在REC叶的Rec1结构域中。在一些实施例中，Rec1结构域具有SEQ ID NO：9-10的氨基酸序列。在一些实施例中，工程化的KFERQ基序或KFERQ样基序在REC叶的Rec2结构域中。在一些实施例中，Rec2结构域具有SEQ ID NO：11的氨基酸序列。在一些实施例中，工程化的KFERQ基序或KFERQ样基序在REC叶的BH结构域中。在一些实施例中，BH结构域具有SEQ ID NO：8的氨基酸序列。

在一些实施例中，工程化的KFERQ基序或KFERQ样基序在Cas9蛋白的NUC叶中。在一些实施例中，Cas9蛋白的NUC叶包括RuvC结构域、HNH结构域和PI结构域。在一些实施例中，NUC叶具有SEQ ID NO：6-7的氨基酸序列。在一些实施例中，工程化的KFERQ基序或KFERQ样基序在Cas9蛋白的RuvC结构域、HNH结构域和PI结构域中。在一些实施例中，工程化的KFERQ基序或KFERQ样基序在RuvC结构域中。在一些实施例中，RuvC结构域具有SEQ ID NO：12-14的氨基酸序列。在一些实施例中，工程化的KFERQ基序或KFERQ样基序在HNH结构域中。在一些实施例中，HNH结构域具有SEQ ID NO：15的氨基酸序列。在一些实施例中，工程化的KFERQ基序或KFERQ样基序在PI结构域中。在一些实施例中，PI结构域具有SEQ ID NO：16的氨基酸序列。

在一些实施例中，包括工程化的KFERQ基序或KFERQ样基序的Cas9蛋白包括与SEQID NO：5的氨基酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性的叶。在一些实施例中，包括工程化的KFERQ基序或KFERQ样基序的Cas9蛋白包括与SEQ ID NO：6-7的氨基酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性的叶。

在一些实施例中，包括工程化的KFERQ基序或KFERQ样基序的Cas9蛋白包括与SEQID NO：8的氨基酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性的BH结构域。在一些实施例中，包括工程化的KFERQ基序或KFERQ样基序的Cas9蛋白包括与SEQ ID NO：9-10的氨基酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性的Rec1结构域。在一些实施例中，包括工程化的KFERQ基序或KFERQ样基序的Cas9蛋白包括与SEQ ID NO：11的氨基酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性的Rec2结构域。

在一些实施例中，包括工程化的KFERQ基序或KFERQ样基序的Cas9蛋白包括与SEQID NO：12-14的氨基酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性的RuvC结构域。在一些实施例中，包括工程化的KFERQ基序或KFERQ样基序的Cas9蛋白包括与SEQ ID NO：15的氨基酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性的HNH结构域。在一些实施例中，包括工程化的KFERQ基序或KFERQ样基序的Cas9蛋白包括与SEQ ID NO：16的氨基酸序列具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％同一性的PI结构域。

在一些实施例中，工程化的KFERQ基序或KFERQ样基序在重组Cas9蛋白的表面暴露区域中。如本文所述，表面暴露的区域是指可接近周围环境的Cas9蛋白区域，例如，可接近蛋白降解途径的组分。在一些实施例中，重组Cas9蛋白的表面暴露区域在Cas9蛋白的REC叶中。在一些实施例中，重组Cas9蛋白的表面暴露区域在Cas9蛋白的NUC叶中。在一些实施例中，重组Cas9蛋白的表面暴露区域在Cas9蛋白的Rec1结构域、Rec2结构域、BH结构域、RuvC结构域、HNH结构域或PI结构域中。在一些实施例中，重组Cas9蛋白的表面暴露区域在Cas9蛋白的氨基酸残基150与250之间。

在一些实施例中，工程化的KFERQ基序或KFERQ样基序位于重组Cas9蛋白的N末端或C末端。如本文所述，N末端是蛋白质或多肽的“起始”，而C末端是蛋白质或多肽的“末端”。因此，在一些实施例中，KFERQ基序或KFERQ样基序位于Cas9蛋白的N末端“起始”。在一些实施例中，KFERQ基序或KFERQ样基序位于Cas9蛋白的C末端“末端”。在一些实施例中，向蛋白质的N末端或C末端添加工程化的基序不会影响蛋白质的折叠、结构或动力学。在一些实施例中，Cas9的N末端是表面暴露的。在一些实施例中，Cas9的C末端是表面暴露的。

在一些实施例中，本披露提供了包括野生型Cas9蛋白的一个或多个氨基酸修饰的重组Cas9蛋白，这些修饰将分子伴侣介导的自噬(CMA)靶基序或内体微自噬(eMI)靶基序引入该Cas9蛋白中，其中该重组Cas9蛋白在体内的降解比野生型Cas9蛋白或不包括CMA或eMI靶基序的Cas9蛋白快至少20％。在一些实施例中，重组Cas9蛋白质在体内的降解比野生型Cas9蛋白质或不包括CMA或eMI靶基序的Cas9蛋白质快至少50％。在一些实施例中，重组Cas9蛋白质在体内的降解比野生型Cas9蛋白质或不包括CMA或eMI靶基序的Cas9蛋白质快至少80％。

如本文所述，含有CMA基序或eMI基序的蛋白质是CMA或eMI蛋白降解途径的靶标。因此，在一些实施例中，包括一个或多个引入CMA或eMI靶基序的氨基酸修饰的本披露的重组Cas9蛋白被靶向用于经由CMA或eMI的蛋白质降解。同样，在一些实施例中，包括CMA靶基序或eMI靶基序的本披露的重组Cas9蛋白被靶向用于经由CMA或eMI的蛋白质降解。

在一些实施例中，包括CMA或eMI靶基序的重组Cas9蛋白在体内的降解比野生型Cas9蛋白质或不包括CMA或eMI靶基序的Cas9蛋白质快至少20％、快至少30％，快至少40％，快至少50％，快至少60％，快至少70％，快至少80％，快至少90％，快至少100％，快至少150％，快至少200％、快至少500％，如通过免疫印迹或GFP报告基因测定所测量的。在一些实施例中，如果同一细胞表达：(a)包括一个或多个引入CMA或eMI靶基序的氨基酸修饰的重组Cas9，和(b)野生型Cas9，则重组Cas9被完全降解，而至少50％的野生型Cas9仍保留在细胞内。类似地，在一些实施例中，如果同一细胞表达：(a)包括一个或多个引入CMA或eMI靶基序的氨基酸修饰的重组Cas9，和(b)不包括CMA或eMI靶基序的Cas9蛋白，则重组Cas9被完全降解，而至少50％的不包括CMA或eMI靶基序的Cas9蛋白仍保留在细胞内。在一些实施例中，重组Cas9被完全降解，而至少60％、至少70％、至少80％、至少90％或至少100％的野生型Cas9或不包括CMA或eMI靶基序的Cas9蛋白仍保留在细胞内。在一些实施例中，重组Cas9在引入细胞的12小时内、24小时内、36小时内、48小时内或72小时内被完全降解。如本文的实施例中所用，“完全降解”是指低于GFP报告基因测定或免疫印迹的检测水平的蛋白质。如本文所述，测量蛋白质降解速率的方法包括，例如氨基酸同位素脉冲追踪(例如，在细胞培养物或SILAC中用氨基酸进行稳定的同位素标记)、合成后的放射性标记或报告子依赖性方法，例如整体蛋白质稳定性分析(GPSP)，其利用例如GFP作为报告蛋白(参见，例如Yewdell等人，Cell Biol Int[国际细胞生物学]35(5)：457-462(2011))。在一些实施例中，Cas9蛋白的降解速率是通过使用例如免疫印迹的密度测定分析在不同时间点定量细胞中Cas9蛋白质的量，随时间绘制蛋白质水平，以及从Cas9蛋白质水平对时间图确定降解速率来测量。

在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括SEQ ID NO：1的位置F185处的突变。在一些实施例中，突变是F185N。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括在SEQ ID NO：1的位置A547和1548处的突变。在一些实施例中，突变是A547E和1548L。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括在SEQ ID NO：1的位置T560和V561处的突变。在一些实施例中，突变是T560E和V561Q。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括SEQ ID NO：1的位置D829和1830处的突变。在一些实施例中，突变是D829L和I830R。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括在SEQ ID NO：1的位置L1087和S1088处的突变。在一些实施例中，突变是L1087E和S1088Q。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括在SEQ ID NO：1的位置P1199和K1200处的突变。在一些实施例中，突变是P1199D和K1200Q。

在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括本文所述的任何突变的组合。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括选自F185N、A547E、I548L及其组合的突变。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括选自F185N、T560E、V561Q及其组合的突变。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括选自F185N、D829L、1830R及其组合的突变。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括选自F185N、L1087E、S1088Q及其组合的突变。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括选自F185N、P1199D、K1200Q及其组合的突变。

在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括选自A547E、I548L、T560E、V561Q及其组合的突变。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括选自A547E、I548L、D829L、1830R及其组合的突变。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括选自A547E、I548L、L1087E、S1088Q及其组合的突变。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括选自A547E、1548L、P1199D、K1200Q及其组合的突变。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括选自T560E、V561Q、D829L、I830R及其组合的突变。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括选自T560E、V561Q、L1087E、S1088Q及其组合的突变。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括选自T560E、V561Q、P1199D、K1200Q及其组合的突变。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括选自D829L、I830R、L1087E、S1088Q及其组合的突变。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括选自D829L、I830R、P1199D、K1200Q及其组合的突变。在一些实施例中，重组Cas9中的一个或多个氨基酸修饰包括选自L1087E、S1088Q、P1199D、K1200Q及其组合的突变。在一些实施例中，如本文所述，重组Cas9蛋白中的一个或多个氨基酸修饰导致一个或多个CMA靶基序或eMI靶基序。

在一些实施例中，重组Cas9蛋白具有与SEQ ID NO：1具有至少50％同一性的氨基酸序列，并且包括本文所述的一个或多个氨基酸修饰。在一些实施例中，重组Cas9蛋白具有与SEQ ID NO：1具有至少60％同一性的氨基酸序列，并且包括本文所述的一个或多个氨基酸修饰。在一些实施例中，重组Cas9蛋白具有与SEQ ID NO：1具有至少70％同一性的氨基酸序列，并且包括本文所述的一个或多个氨基酸修饰。在一些实施例中，重组Cas9蛋白具有与SEQ ID NO：1具有至少80％同一性的氨基酸序列，并且包括本文所述的一个或多个氨基酸修饰。在一些实施例中，重组Cas9蛋白具有与SEQ ID NO：1具有至少90％同一性的氨基酸序列，并且包括本文所述的一个或多个氨基酸修饰。在一些实施例中，重组Cas9蛋白具有与SEQ ID NO：1具有至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、或至少99％同一性的氨基酸序列，并且包括本文所述的一个或多个氨基酸修饰。

在一些实施例中，本披露提供了分离自酿脓链球菌的重组Cas9蛋白(SpCas9)，该重组Cas9蛋白在SEQ ID NO：1的位置F185、A547、I548、T560、V561、D829、I830、L1087、S1088、P1199、K1200或其组合中的一个或多个处包括氨基酸修饰。

在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括在SEQ ID NO：1的位置F185处的突变。在一些实施例中，突变是F185N。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括在SEQ ID NO：1的位置A547和I548处的突变。在一些实施例中，突变是A547E和I548L。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括在SEQ IDNO：1的位置T560和V561处的突变。在一些实施例中，突变是T560E和V561Q。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括在SEQ ID NO：1的位置D829和I830处的突变。在一些实施例中，突变是D829L和I830R。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括在SEQ ID NO：1的位置L1087和S1088处的突变。在一些实施例中，突变是L1087E和S1088Q。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括在SEQ IDNO：1的位置P1199和K1200处的突变。在一些实施例中，突变是P1199D和K1200Q。

在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括本文所述的任何突变的组合。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括选自F185N、A547E、I548L及其组合的突变。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括选自F185N、T560E、V561Q及其组合的突变。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括选自F185N、D829L、I830R及其组合的突变。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括选自F185N、L1087E、S1088Q及其组合的突变。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括选自F185N、P1199D、K1200Q及其组合的突变。

在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括选自A547E、I548L、T560E、V561Q及其组合的突变。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括选自A547E、I548L、D829L、I830R及其组合的突变。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括选自A547E、I548L、L1087E、S1088Q及其组合的突变。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括选自A547E、I548L、P1199D、K1200Q及其组合的突变。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括选自T560E、V561Q、D829L、I830R及其组合的突变。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括选自T560E、V561Q、L1087E、S1088Q及其组合的突变。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括选自T560E、V561Q、P1199D、K1200Q及其组合的突变。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括选自D829L、I830R、L1087E、S1088Q及其组合的突变。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括选自D829L、I830R、P1199D、K1200Q及其组合的突变。在一些实施例中，重组SpCas9中的一个或多个氨基酸修饰包括选自L1087E、S1088Q、P1199D、K1200Q及其组合的突变。在一些实施例中，重组SpCas9蛋白中的一个或多个氨基酸修饰导致一个或多个CMA靶基序或eMI靶基序。CMA靶基序和eMI靶基序如文中所述。

在一些实施例中，重组SpCas9蛋白具有与SEQ ID NO：1具有至少50％同一性的氨基酸序列，并且包括本文所述的一个或多个氨基酸修饰。在一些实施例中，重组SpCas9蛋白具有与SEQ ID NO：1具有至少60％同一性的氨基酸序列，并且包括本文所述的一个或多个氨基酸修饰。在一些实施例中，重组SpCas9蛋白具有与SEQ ID NO：1具有至少70％同一性的氨基酸序列，并且包括本文所述的一个或多个氨基酸修饰。在一些实施例中，重组SpCas9蛋白具有与SEQ ID NO：1具有至少80％同一性的氨基酸序列，并且包括本文所述的一个或多个氨基酸修饰。在一些实施例中，重组SpCas9蛋白具有与SEQ ID NO：1具有至少90％同一性的氨基酸序列，并且包括本文所述的一个或多个氨基酸修饰。在一些实施例中，重组SpCas9蛋白具有与SEQ ID NO：1具有至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、或至少99％同一性的氨基酸序列，并且包括本文所述的一个或多个氨基酸修饰。

如本文所述，HSC70是CMA和eMI蛋白降解途径中的分子伴侣蛋白。HSC70与靶向降解的蛋白结合，并将蛋白质转运至溶酶体(在CMA的情况下)或晚期内体(在eMI的情况下)进行降解。因此，在一些实施例中，与对HSC70具有较低结合亲和力的蛋白相比，对HSC70具有较高结合亲和力的蛋白降解得更快。在一些实施例中，蛋白质对HSC70的结合能力和/或亲和力通过在蛋白质上存在CMA或eMI靶基序例如KFERQ基序或KFERQ样基序来确定。

在一些实施例中，本披露的重组Cas9蛋白能够结合HSC70。如本文所述和例示，野生型Cas9或不包括KFERQ基序或KFERQ样基序的Cas9蛋白不结合HSC70。在一些实施例中，本披露的重组Cas9蛋白能够以比野生型Cas9蛋白或不包括KFERQ基序或KFERQ样基序的Cas9蛋白高至少50％、至少60％、至少70％、至少80％、至少90％或至少100％的亲和力结合HSC70。测定蛋白质之间的结合亲和力的方法是本领域已知的，并且包括例如生化方法，例如：共免疫沉淀、双分子荧光互补、亲和电泳、下拉测定、噬菌体展示、体内交联、串联亲和纯化、交联后进行质谱和邻近连接测定；生物物理方法，例如：生物层干涉法、动态光散射、表面等离子体共振、荧光共振能量转移和等温滴定量热法；和/或遗传方法，例如：酵母双杂交筛选和细菌双杂交筛选。有关测量结合亲和力和检测蛋白质相互作用的方法的概述，参见例如Meyerkord和Fu，Protein-Protein Interactions：Methods and Applications 2^ndEd.[蛋白质-蛋白质相互作用：方法和应用第二版]2015，Humana出版社。在一些实施例中，本披露的重组Cas9能够在与HSC70孵育一段时间后被HSC70抗体检测到，而野生型Cas9或不包括KFERQ基序或KFERQ样基序的Cas9蛋白在孵育同一段时间后不被HSC70抗体检测到。

在一些实施例中，HSC70与重组Cas9之间的结合亲和力比HSC70与野生型Cas9或不包括KFERQ基序或KFERQ样基序的Cas9蛋白之间的结合亲和力高至少2倍、高至少3倍、高至少4倍、高至少5倍、高至少6倍、高至少7倍、高至少8倍、高至少9倍、高至少10倍、高至少20倍、高至少30倍、高至少40倍、高至少50倍、高至少60倍、高至少70倍、高至少80倍、高至少90倍、高至少100倍、高至少500倍、或高至少1000倍。

在一些实施例中，本披露提供了分离自酿脓链球菌的重组Cas9蛋白(SpCas9)，该重组Cas9蛋白在SEQ ID NO：1的氨基酸位置185处包括工程化的KFERQ基序或KFERQ样基序。

如本文所述，SEQ ID NO：1包括来自酿脓链球菌的野生型Cas9蛋白(SpCas9)的氨基酸序列。SEQ ID NO：1的氨基酸位置185在对应于SpCas9的Rec2结构域的区域中。在一些实施例中，修饰SEQ ID NO：1的位置185处的氨基酸残基以产生KFERQ基序或KFERQ样基序。在一些实施例中，SEQ ID NO：1的位置185处的KFERQ样基序是VDKLN。在一些实施例中，重组SpCas9蛋白在SEQ ID NO：1的位置185处包括突变。在一些实施例中，突变是F185N。

在一些实施例中，本披露的重组Cas9进一步在SEQ ID NO：1的位置D10和/或H840处包括突变。在野生型Cas9的位置D10和/或H840处的突变产生具有切口酶活性的Cas9，在本文中也称为“Cas9切口酶”。Cas9切口酶仅能够裂解双链DNA的一条链(即，“切口”该DNA)。Cas9切口酶描述于例如Cho等人，Genome Res[基因组研究]24：132-141(2013)中。在一些实施例中，本披露的重组Cas9蛋白进一步在SEQ ID NO：1的氨基酸位置D10处包括突变。在一些实施例中，本披露的重组Cas9蛋白进一步在SEQ ID NO：1的氨基酸位置H840处包括突变。在一些实施例中，本披露的重组Cas9蛋白进一步包括SEQ ID NO：1的氨基酸位置D10处的突变和氨基酸位置H840处的突变。在一些实施例中，位置D10处的突变是D10A。在一些实施例中，位置D10处的突变是D10N。在一些实施例中，位置H840处的突变是H840A。在一些实施例中，位置H840处的突变是H840N。在一些实施例中，位置H840处的突变是H840Y。在一些实施例中，重组Cas9蛋白具有F185N突变和D10A突变。在一些实施例中，重组Cas9蛋白具有F185N突变和D10N突变。在一些实施例中，重组Cas9蛋白具有F185N突变和H840A突变。在一些实施例中，重组Cas9蛋白具有F185N突变和H840N突变。在一些实施例中，重组Cas9蛋白具有F185N突变和H840Y突变。

在一些实施例中，重组Cas9蛋白具有F185N突变、D10A突变和H840A突变。在一些实施例中，重组Cas9蛋白具有F185N突变、D10A突变和H840N突变。在一些实施例中，重组Cas9蛋白具有F185N突变、D10A突变和H840Y突变。在一些实施例中，重组Cas9蛋白具有F185N突变、D10N突变和H840A突变。在一些实施例中，重组Cas9蛋白具有F185N突变、D10N突变和H840N突变。在一些实施例中，重组Cas9蛋白具有F185N突变、D10N突变和H840Y突变。在一些实施例中，重组Cas9蛋白具有F185N突变、D10A突变和H840A突变。在一些实施例中，重组Cas9蛋白具有F185N突变、D10A突变和H840N突变。在一些实施例中，重组Cas9蛋白具有F185N突变、D10A突变和H840Y突变。在一些实施例中，重组Cas9蛋白具有F185N突变、D10N突变和H840A突变。在一些实施例中，重组Cas9蛋白具有F185N突变、D10N突变和H840N突变。在一些实施例中，重组Cas9蛋白具有F185N突变、D10N突变和H840Y突变。

在一些实施例中，本披露的重组Cas9蛋白产生粘性末端。如本文所述，粘性末端是指具有不等长度的链的核酸片段。在一些实施例中，产生粘性末端的重组Cas9蛋白是重组Cas9-FokI杂合蛋白。在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变。在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变和D10A突变。在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变和D10N突变。在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变和H840A突变。在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变和H840N突变。在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变和H840Y突变。

在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变、D10A突变和H840A突变。在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变、D10A突变和H840N突变。在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变、D10A突变和H840Y突变。在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变、D10N突变和H840A突变。在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变、D10N突变和H840N突变。在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变、D10N突变和H840Y突变。在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变、D10A突变和H840A突变。在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变、D10A突变和H840N突变。在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变、D10A突变和H840Y突变。在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变、D10N突变和H840A突变。在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变、D10N突变和H840N突变。在一些实施例中，重组Cas9-FokI杂合蛋白在Cas9中具有F185N突变、D10N突变和H840Y突变。

在一些实施例中，产生粘性末端的重组Cas9蛋白在能够产生粘性末端的野生型Cas9蛋白上包括工程化的KFERQ基序或KFERQ样基序。在一些实施例中，能够产生粘性末端的野生型Cas9蛋白分离自新凶手弗朗西斯菌(Francisella novicida)(FnCas9)(SEQ IDNO：23)。在一些实施例中，重组Cas9蛋白具有与SEQ ID NO：23具有至少约90％序列同一性的氨基酸序列，并且包括本文所述的工程化的KFERQ基序或KFERQ样基序。在一些实施例中，重组Cas9蛋白具有与SEQ ID NO：23具有至少约90％序列同一性的氨基酸序列，并且包括CMA靶基序或eMI靶基序。在一些实施例中，重组Cas9具有与SEQ ID NO：23具有至少约90％序列同一性的氨基酸序列，并且能够以比野生型Cas9更高的亲和力结合HSC70。在一些实施例中，重组Cas9具有与SEQ ID NO：23具有至少约90％序列同一性的氨基酸序列，并且比野生型Cas9降解得更快。

在一些实施例中，本披露的重组Cas9包括一个或多个核定位信号。“核定位信号”或“核定位序列”(NLS)是对蛋白质“加标签”以通过核转运导入细胞核的氨基酸序列，即具有NLS的蛋白质被转运至细胞核。典型地，NLS包括暴露在蛋白质表面的带正电荷的Lvs或Arg残基。示例性核定位序列包括但不限于来自以下的NLS：SV40大T抗原、核质蛋白、EGL-13、c-Myc和TUS蛋白。在一些实施例中，该NLS包括序列PKKKRKV(SEQ ID NO：42)。在一些实施例中，该NLS包括序列AVKRPAATKKAGQAKKKKLD(SEQ ID NO：43)。在一些实施例中，该NLS包括序列PAAKRVKLD(SEQ ID NO：44)。在一些实施例中，该NLS包括序列MSRRRKANPTKLSENAKKLAKEVEN(SEQ ID NO：45)。在一些实施例中，该NLS包括序列KLKIKRPVK(SEQ ID NO：46)。其他核定位序列包括但不限于hnRNP A1的酸性M9结构域、酵母转录抑制子Matα2中的序列KIPIK(SEQ ID NO：47)和PY-NLS。

核苷酸

在一些实施例中，本披露提供了编码本文所述的重组Cas9蛋白的多核苷酸序列。在一些实施例中，本披露提供了编码包括工程化的KFERQ基序或KFERQ样基序的重组Cas9的多核苷酸序列。在一些实施例中，本披露提供了编码重组Cas9蛋白的多核苷酸序列，该重组Cas9蛋白包括野生型Cas9蛋白的一个或多个氨基酸修饰，该修饰将CMA靶基序或eMI靶基序引入Cas9蛋白中，其中该重组Cas9蛋白在体内的降解比野生型Cas9蛋白快至少20％。在一些实施例中，本披露提供了编码重组Cas9蛋白的多核苷酸序列，该重组Cas9蛋白包括野生型Cas9蛋白的一个或多个氨基酸修饰，其中该重组Cas9蛋白包括CMA靶基序或eMI靶基序。在一些实施例中，本披露提供了编码分离自酿脓链球菌的重组Cas9蛋白(SpCas9)的多核苷酸序列，该重组Cas9蛋白在SEQ ID NO：1的位置F185、A547、I548、T560、V561、D829、I830、L1087、S1088、P1199、K1200或其组合中的一个或多个处包括氨基酸修饰。在一些实施例中，本披露提供了编码能够结合HSC70的重组Cas9蛋白的多核苷酸序列。在一些实施例中，本披露提供了编码分离自酿脓链球菌的重组Cas9蛋白(SpCas9)的多核苷酸序列，该重组Cas9蛋白在SEQ ID NO：1的氨基酸位置185处包括工程化的KFERQ基序或KFERQ样基序。

在一些实施例中，多核苷酸序列与SEQ ID NO：3具有至少50％序列同一性。在一些实施例中，多核苷酸序列与SEQ ID NO：3具有至少60％序列同一性。在一些实施例中，多核苷酸序列与SEQ ID NO：3具有至少70％序列同一性。在一些实施例中，多核苷酸序列与SEQID NO：3具有至少80％序列同一性。在一些实施例中，多核苷酸序列与SEQ ID NO：3具有至少90％序列同一性。在一些实施例中，多核苷酸序列与SEQ ID NO：3具有至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％或至少99％序列同一性。

在一些实施例中，对编码重组Cas9的多核苷酸序列进行密码子优化以在真核细胞中表达。在一些实施例中，对编码stiCas9的多核苷酸序列进行密码子优化以在动物细胞中表达。在一些实施例中，对编码重组Cas9的多核苷酸序列进行密码子优化以在人类细胞中表达。在一些实施例中，对编码重组Cas9的多核苷酸序列进行密码子优化以在植物细胞中表达。密码子优化是对密码子进行调整来匹配表达宿主的tRNA丰度，以提高重组或异源蛋白质表达的产量和效率。密码子优化方法是本领域的常规方法，可以使用软件程序执行，诸如像集成DNA技术公司(Integrated DNA Technologies)的密码子优化工具、Entelechon的密码子使用表分析工具、GENEMAKER的Blue Heron软件、Aptagen的Gene Forge软件、DNABuilder软件、通用密码子使用分析软件、公开可用的OPTIMIZER软件以及金斯瑞的OptimumGene算法。

CRISPR-Cas系统

在一些实施例中，本披露提供了非天然存在的CRISPR-Cas系统，该系统包括：本文提供的重组Cas9蛋白，和与重组Cas9蛋白形成复合物并包括指导序列的指导多核苷酸。

在一些实施例中，非天然存在的CRISPR-Cas系统的重组Cas9蛋白包括工程化的KFERQ基序或KFERQ样基序。在一些实施例中，非天然存在的CRISPR-Cas系统的重组Cas9蛋白包括野生型Cas9蛋白的一个或多个氨基酸修饰，该修饰将CMA靶基序或eMI靶基序引入Cas9蛋白中，其中该重组Cas9蛋白在体内的降解比野生型Cas9蛋白或不包括CMA或eMI靶基序的Cas9蛋白快至少20％。在一些实施例中，非天然存在的CRISPR-Cas系统的重组Cas9蛋白包括野生型Cas9蛋白的一个或多个氨基酸修饰，其中该重组Cas9蛋白包括CMA靶基序或eMI靶基序。在一些实施例中，非天然存在的CRISPR-Cas系统的重组Cas9蛋白分离自酿脓链球菌(SpCas9)，并且在SEQ ID NO：1的位置F185、A547、I548、T560、V561、D829、I830、L1087、S1088、P1199、K1200或其组合中的一个或多个处包括氨基酸修饰。在一些实施例中，非天然存在的CRISPR-Cas系统的重组Cas9蛋白能够结合HSC70。在一些实施例中，非天然存在的CRISPR-Cas系统的重组Cas9蛋白分离自酿脓链球菌(SpCas9)，并且在SEQ ID NO：1的氨基酸位置185处包括工程化的KFERQ基序或KFERQ样基序。

在一些实施例中，本披露提供了非天然存在的CRISPR-Cas系统，该系统包括：编码本文提供的重组Cas9蛋白的多核苷酸序列，以及与该重组Cas9蛋白形成复合物并包括指导序列的指导多核苷酸。

在一些实施例中，本披露提供了非天然存在的CRISPR-Cas系统，该系统包括：可操作地连接至编码本文提供的重组Cas9蛋白的多核苷酸序列的调节元件，以及与该重组Cas9蛋白形成复合物并包括指导序列的指导多核苷酸。

在一些实施例中，非天然存在的CRISPR-Cas系统的多核苷酸编码包括工程化的KFERQ基序或KFERQ样基序的重组Cas9。在一些实施例中，非天然存在的CRISPR-Cas系统的多核苷酸编码包括野生型Cas9蛋白的一个或多个氨基酸修饰的重组Cas9蛋白，该修饰将CMA靶基序或eMI靶基序引入Cas9蛋白中，其中该重组Cas9蛋白在体内的降解比野生型Cas9蛋白或不包括CMA或eMI靶基序的Cas9蛋白快至少20％。在一些实施例中，非天然存在的CRISPR-Cas系统的多核苷酸编码包括野生型Cas9蛋白的一个或多个氨基酸修饰的重组Cas9蛋白，其中该重组Cas9蛋白包括CMA靶基序或eMI靶基序。在一些实施例中，非天然存在的CRISPR-Cas系统的多核苷酸编码分离自酿脓链球菌的重组Cas9蛋白(SpCas9)，该重组Cas9蛋白在SEQ ID NO：1的位置F185、A547、I548、T560、V561、D829、1830、L1087、S1088、P1199、K1200或其组合中的一个或多个处包括氨基酸修饰。在一些实施例中，非天然存在的CRISPR-Cas系统的多核苷酸编码能够结合HSC70的重组Cas9蛋白。在一些实施例中，非天然存在的CRISPR-Cas系统的多核苷酸编码分离自酿脓链球菌的重组Cas9蛋白(SpCas9)，该重组Cas9蛋白在SEQ ID NO：1的氨基酸位置185处包括工程化的KFERQ基序或KFERQ样基序。

在一些实施例中，与编码重组Cas9蛋白的多核苷酸序列连接的调节元件是启动子。在一些实施例中，该调节元件是细菌启动子。在一些实施例中，该调节元件是病毒启动子。在一些实施例中，该调节元件是真核生物调节元件，即，真核生物启动子。在一些实施例中，该真核生物调节元件是哺乳动物启动子。

在一些实施例中，非天然存在的CRISPR-Cas系统的指导多核苷酸是RNA分子。与CRISPR-Cas组分结合并将其靶向靶DNA内特定位置的RNA分子在本文中称为“指导RNA”、“gRNA”或“小指导RNA”，在本文中也可能称为“靶向DNA的RNA”。指导多核苷酸，例如指导RNA，包括至少两个核苷酸区段：至少一个“DNA结合区段”和至少一个“多肽结合区段”。“区段”是指分子的一个部分、节区段或区域，例如，指导多核苷酸分子的核苷酸的连续伸展段。除非另有明确定义，否则“区段”的定义不限于特定数目的总碱基对。

在一些实施例中，指导多核苷酸的DNA结合区段(或“DNA靶向序列”)与细胞中的靶序列杂交。在一些实施例中，指导多核苷酸(例如，指导RNA)的DNA结合区段包括与靶DNA内的特定序列互补的多核苷酸序列。

在一些实施例中，本披露的指导多核苷酸具有与细菌细胞中的靶序列杂交的指导序列。在该方法的一些实施例中，靶序列在细菌细胞中。在一些实施例中，该细菌细胞是实验室菌株。此类细胞的实例包括但不限于大肠杆菌、金黄色葡萄球菌、霍乱弧菌、肺炎链球菌、枯草芽孢杆菌、新月形柄杆菌、生殖支原体、费氏曲霉、集胞藻属、荧光假单胞菌、棕色固氮菌、天蓝色链霉菌。在一些实施例中，细菌细胞是用于制备食物和/或饮料的细菌。此类细胞的非限制性示例性属包括但不限于醋杆菌属、节杆菌属、芽孢杆菌属、双歧杆菌属、短状杆菌属、短杆菌属、肉杆菌属、棒杆菌属、肠球菌属、葡糖醋杆菌属、哈夫尼菌属、盐单胞菌属、考克氏菌属、乳杆菌属(包括耐酸乳杆菌、酸鱼乳杆菌、嗜酸乳酸杆菌、消化乳杆菌、短乳杆菌、布赫纳乳杆菌、干酪乳酸菌、弯曲乳杆菌、发酵乳杆菌、希氏乳杆菌(L.hilgardii)、詹氏乳杆菌(L.jensenii)、金氏乳杆菌(L.kimchii)、乳酸乳杆菌(L.lactis)、副干酪乳杆菌(L.paracasei)、植物乳杆菌和阪乳杆菌(L.sakei))、明串珠菌属、微杆菌属、小球菌属、丙酸杆菌属、魏斯氏菌属和发酵单胞菌属。

在一些实施例中，本披露的指导多核苷酸具有与真核细胞中的靶序列杂交的指导序列。在一些实施例中，该真核细胞是动物或人类细胞。在一些实施例中，该真核细胞是人类或啮齿动物或牛细胞系或者细胞株。此类细胞/细胞系或细胞株的实例包括但不限于小鼠骨髓瘤(NSO)细胞系、中国仓鼠卵巢(CHO)细胞系、HT1080、H9、HepG2、MCF7、MDBK Jurkat、NIH3T3、PCI2、BHK(幼仓鼠肾细胞)、VERO、SP2/0、YB2/0、Y0、C127、L细胞、COS(例如COS1和COS7)、QC1-3、HEK-293、VERO、PER.C6、HeLA、EBl、EB2、EB3、溶瘤或杂交瘤细胞系。在一些实施例中，该真核细胞是CHO细胞系。在一些实施例中，该真核细胞是CHO细胞。在一些实施例中，该细胞是CHO-K1细胞、CHO-K1 SV细胞、DG44 CHO细胞、DUXB11 CHO细胞、CHOS、CHO GS敲除细胞、CHO FUT8 Gs敲除细胞、CHOZN或CHO衍生的细胞。CHO GS敲除细胞(例如，GSKO细胞)是例如CHO-K1 SV GS敲除细胞。CHO FUT8敲除细胞是例如POTELLIGENT CHOK1 SV(龙沙生物公司(Lonza Biologics，Inc.))。真核细胞也可以是禽细胞、细胞系或细胞株，例如EBX细胞、EB14、EB24、EB26、EB66或EBvl3。

在一些实施例中，该真核细胞是人类细胞。在一些实施例中，该人类细胞是干细胞。干细胞可以是例如多能干细胞，包括胚胎干细胞(ESC)、成年干细胞、诱导的多能干细胞(iPSC)、组织特异性干细胞(例如，造血干细胞)和间充质干细胞(MSC)。在一些实施例中，该人类细胞是本文描述的任何细胞的分化形式。在一些实施例中，该真核细胞是源自培养物中任何原代细胞的细胞。

在一些实施例中，该真核细胞是肝细胞，诸如人肝细胞、动物肝细胞，或非实质细胞。例如，该真核细胞可以是可培养代谢合格的人肝细胞、可培养感应诱导合格的人肝细胞、可培养人肝细胞、悬浮合格的人肝细胞(包括10-供体和20-供体合并的肝细胞)、人肝库普弗细胞、人肝星状细胞、狗肝细胞(包括单个和合并的比格犬肝细胞)、小鼠肝细胞(包括CD-1和C57BI/6肝细胞)、大鼠肝细胞(包括Sprague-Dawley、Wistar Han和Wistar肝细胞)、猴肝细胞(包括食蟹猴或恒河猴肝细胞)、猫肝细胞(包括家养短毛猫肝细胞)和兔肝细胞(包括新西兰白兔肝细胞)。

在一些实施例中，该真核细胞是植物细胞。例如，该植物细胞可以是诸如木薯、玉米、高粱、小麦或水稻的农作物的细胞。该植物细胞可以是藻类、树木或蔬菜的细胞。该植物细胞可以是单子叶植物或双子叶植物的细胞，或者可以是农作物或谷物植物、生产植物、水果或蔬菜的细胞。例如，该植物细胞可以是树木的细胞，该树木为例如柑橘属果树，诸如橘子树、葡萄柚树或柠檬树；桃树或油桃树；苹果树或梨树；坚果树，诸如杏仁树或胡桃树或开心果树；茄属植物，例如，马铃薯、芸苔属(Brassica)属植物、莴苣属(Lactuca)植物；菠菜属(Spinacia)植物；辣椒属(Capsicum)植物；棉花、烟草、芦笋、胡萝卜、卷心菜、西兰花、花椰菜、番茄、茄子、胡椒、莴苣、菠菜、草莓、蓝莓、覆盆子、黑莓、葡萄、咖啡、可可等。

在一些实施例中，指导多核苷酸的指导序列为约5至约50个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约6至约45个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约7至约40个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约8至约35个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约9至约30个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约10至约20个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约12至约20个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约14至约20个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约16至约20个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约18至约20个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约5至约10个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约6至约10个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约7至约10个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约8至约10个核苷酸。指导序列的长度可以由本领域技术人员使用指导序列设计工具来测定，例如CRISPR设计工具(Hsu等人，Nat Biotechnol[自然生物技术]31(9)：827-832(2013))、ampliCan(Labun等人，bioRxiv 2018，doi：10.1101/249474)、CasFinder(Alach等人，bioRxiv 2014，doi：10.110I/005074)、CHOPCHOP(Labun等人，Nucleic Acids Res[核酸研究12016，doi：10.1093/nar/gkw398)等。

在一些实施例中，本披露的指导多核苷酸(例如，指导RNA)包括多肽结合序列/区段。指导多核苷酸(例如，指导RNA)的多肽结合区段(或“蛋白结合序列”)与本披露的Cas蛋白的多核苷酸结合结构域相互作用。此类多肽结合区段或序列是本领域技术人员已知的，例如，美国专利公开2014/0068797、2014/0273037、2014/0273226、2014/0295556、2014/0295557、2014/0349405、2015/0045546、2015/0071898、2015/0071899和2015/0071906中披露的那些，这些公开的披露内容以其全文并入本文。在一些实施例中，指导多核苷酸的多肽结合区段与Cas9结合。在一些实施例中，指导多核苷酸的多肽结合区段与本文提供的重组Cas9蛋白结合。

在一些实施例中，指导多核苷酸为至少约10、15、20、25或30个核苷酸并且至多约25、30、35、40、45、50、60、70、80、90、100、110、120、130、140或150个核苷酸。在一些实施例中，指导多核苷酸为约10至约150个核苷酸。在一些实施例中，指导多核苷酸为约20至约120个核苷酸。在一些实施例中，指导多核苷酸为约30至约100个核苷酸。在一些实施例中，指导多核苷酸为约40至约80个核苷酸。在一些实施例中，指导多核苷酸为约50至约60个核苷酸。在一些实施例中，指导多核苷酸为约10至约35个核苷酸。在一些实施例中，指导多核苷酸为约15至约30个核苷酸。在一些实施例中，指导多核苷酸为约20至约25个核苷酸。

可以将指导多核苷酸(例如，指导RNA)作为分离的分子(例如，RNA分子)引入靶细胞中，或使用包含编码指导多核苷酸(例如，指导RNA)的DNA的表达载体将其引入细胞中。

在一些实施例中，将CRISPR-Cas系统的指导多核苷酸与同向重复序列连接。同向重复序列或DR序列是CRISPR基因座中的重复序列阵列，由短伸展段的非重复序列(间区序列)隔开。该间区序列靶向靶序列上的前间区序列邻近基序(PAM)。当转录CRISPR基因座的非编码部分(即，指导多核苷酸和tracrRNA)，转录物在DR序列上被裂解成多个短crRNA，这些crRNA包含单个的间区序列，这些间区序列将Cas9核酸酶引导至PAM。在一些实施例中，该DR序列是RNA。在一些实施例中，该DR序列由核酸编码。在一些实施例中，该DR序列与指导多核苷酸连接。在一些实施例中，该DR序列与指导多核苷酸的指导序列连接。在一些实施例中，该DR序列包括二级结构。在一些实施例中，该DR序列包括茎环结构。在一些实施例中，该DR序列为10至20个核苷酸。在一些实施例中，该DR序列为至少16个核苷酸。在一些实施例中，该DR序列为至少16个核苷酸并且包括单个茎环。在一些实施例中，该DR序列包括RNA适配体。在一些实施例中，该DR中的二级结构或茎环被核酸酶识别以用于裂解。在一些实施例中，该核酸酶是核糖核酸酶。在一些实施例中，该核酸酶是RNA酶III。

在一些实施例中，本披露的CRISPR-Cas系统进一步包括tracrRNA。“tracrRNA”或反式激活CRISPR-RNA与前体crRNA或前体CRISPR-RNA形成RNA双链体，然后被RNA特异性核糖核酸酶RNA酶III裂解，形成crRNA/tracrRNA杂交体。在一些实施例中，该指导RNA包括crRNA/tracrRNA杂交体。在一些实施例中，该指导RNA的tracrRNA组分激活Cas9蛋白。在一些实施例中，该CRISPR-cas系统的指导多核苷酸包括tracrRNA序列。在一些实施例中，CRISPR-Cas系统包括单独的多核苷酸，该多核苷酸包括tracrRNA序列。

在一些实施例中，编码重组Cas9的多核苷酸和指导多核苷酸在单个载体上。在一些实施例中，编码重组Cas9的多核苷酸、指导多核苷酸(或可以转录成指导多核苷酸的核苷酸)和tracrRNA在单个载体上。在一些实施例中，编码重组Cas9的多核苷酸、指导多核苷酸(或可以转录成指导多核苷酸的核苷酸)、tracrRNA和同向重复序列在单个载体上。在一些实施例中，该载体是表达载体。在一些实施例中，该载体是哺乳动物表达载体。在一些实施例中，该载体是人类表达载体。在一些实施例中，该载体是植物表达载体。

在一些实施例中，编码重组Cas9和指导多核苷酸的多核苷酸是单个核酸分子。在一些实施例中，编码重组Cas9、指导多核苷酸和tracrRNA的多核苷酸是单个核酸分子。在一些实施例中，编码重组Cas9、指导多核苷酸、tracrRNA和同向重复序列的多核苷酸是单个核酸分子。在一些实施例中，该单个核酸分子是表达载体。在一些实施例中，该单个核酸分子是哺乳动物表达载体。在一些实施例中，该单个核酸分子是人类表达载体。在一些实施例中，该单个核酸分子是植物表达载体。

在一些实施例中，重组Cas9和指导多核苷酸能够形成复合物。在一些实施例中，重组Cas9和指导多核苷酸的复合物在自然界中不存在。

用于递送CRISPR-Cas系统的各种方法是本领域已知的。在一些实施例中，本披露的CRISPR-Cas系统由递送颗粒递送。递送颗粒是包括颗粒的生物递送系统或配制品。如本文所定义，“颗粒”是最大直径约100微米(μm)的实体。在一些实施例中，该颗粒的最大直径为约10μm。在一些实施例中，该颗粒的最大直径为约2000纳米(nm)。在一些实施例中，该颗粒的最大直径为约1000nm。在一些实施例中，该颗粒的最大直径为约900nm、约800nm、约700nm、约600nm、约500nm、约400nm、约300nm、约200nm或约100nm。在一些实施例中，该颗粒的直径为约25nm至约200nm。在一些实施例中，该颗粒的直径为约50nm至约150nm。在一些实施例中，该颗粒的直径为约75nm至约100nm。

递送颗粒可以以任何形式提供，包括但不限于：固体、半固体、乳液或胶体颗粒。在一些实施例中，该递送颗粒是基于脂质的系统、脂质体、胶束、微囊泡、外泌体或基因枪。在一些实施例中，该递送颗粒包括CRISPR-Cas系统。在一些实施例中，该递送颗粒包括CRISPR-Cas系统，该CRISPR-Cas系统包括重组Cas9和指导多核苷酸。在一些实施例中，该递送颗粒包括CRISPR-Cas系统，该CRISPR-Cas系统包括重组Cas9和指导多核苷酸，其中重组Cas9和指导多核苷酸以复合物存在。在一些实施例中，该递送颗粒包括CRISPR-Cas系统，该CRISPR-Cas系统包括重组Cas9、指导多核苷酸和含有tracrRNA的多核苷酸。在一些实施例中，该递送颗粒包括CRISPR-Cas系统，该CRISPR-Cas系统包括重组Cas9、指导多核苷酸和tracrRNA。

在一些实施例中，该递送颗粒进一步包括脂质、糖、金属或蛋白质。在一些实施例中，该递送颗粒是脂质包膜。例如，Su等人，Molecular Pharmacology[分子药理学]8(3)：774-784(2011)中描述了使用脂质包膜或包括脂质的递送颗粒进行的mRNA递送。在一些实施例中，该递送颗粒是基于糖的颗粒，例如，GalNAc。在WO 2014/118272和Nair等人，J AmChem Soc[美国化学学会杂志]136(49)：16958-16961(2014)中描述了基于糖的颗粒。

在一些实施例中，该递送颗粒是纳米颗粒。本披露涵盖的纳米颗粒可以以不同形式提供，例如，作为固体纳米颗粒(例如，金属，诸如银、金、铁、钛)、非金属、基于脂质的固体、聚合物、纳米颗粒或其组合。可以制备金属、电介质和半导体纳米颗粒以及混合结构(例如，核-壳纳米颗粒)。由半导体材料制成的纳米粒子如果足够小(典型地小于10nm)，可以量化电子能级，则也可以将其标记为量子点。这样的纳米级颗粒在生物医学应用中用作药物运载体或显像剂，并且可以加以调整以适用于本披露中的类似用途。

递送颗粒的制备在美国专利公开2011/0293703、2012/0251560和2013/0302401；以及美国专利号5,543,158、5,855,913、5,895,309、6,007,845和8,709,843中进一步描述。

在一些实施例中，囊泡包括本披露的CRISPR-Cas系统。“囊泡”是细胞内具有被脂质双层包围的流体的小结构。在一些实施例中，本披露的CRISPR-Cas系统由囊泡递送。在一些实施例中，该囊泡包括重组Cas9和指导多核苷酸。在一些实施例中，该囊泡包括重组Cas9和指导多核苷酸，其中重组Cas9和指导多核苷酸以复合物存在。在一些实施例中，该囊泡包括CRISPR-Cas系统，该CRISPR-Cas系统包括重组Cas9、指导多核苷酸和含有tracrRNA的多核苷酸。在一些实施例中，该囊泡包括CRISPR-Cas系统，该CRISPR-Cas系统包括重组Cas9、指导多核苷酸和tracrRNA。

在一些实施例中，包括重组Cas9和指导多核苷酸的囊泡是外泌体或脂质体。在一些实施例中，该囊泡是外泌体。在一些实施例中，该外泌体用于递送本披露的CRISPR-Cas系统。外泌体是内源性纳米囊泡(即，直径为约30nm至约100nm)，可转运RNA和蛋白质，并且可将RNA递送至大脑和其他靶器官。例如，Alvarez-Erviti等人，Nature Biotechnology[自然生物学]29：341(2011)，El-Andaloussi等人，Nature Protocols[自然实验手册]7：2112-2116(2012)，以及Wahlgren等人，Nucleic Acids Research[核酸研究]40(17)：e130(2012)中描述了用于将内源性生物材料递送至靶器官的工程化的外泌体。

在一些实施例中，包括stiCas9和指导多核苷酸的囊泡是脂质体。在一些实施例中，该脂质体用于递送本披露的CRISPR-Cas系统。脂质体是具有至少一个脂质双层的球形囊泡结构，并且可以用作营养物和药物施用的媒介物。脂质体通常由磷脂(特别是磷脂酰胆碱)以及其他脂质(诸如蛋磷脂酰乙醇胺)组成。脂质体的类型包括但不限于多层囊泡、小单层囊泡、大单层囊泡和耳蜗囊泡。参见例如Spuch和Navarro，Journal of Drug Delivery[药物递送杂志]，文章号469679(2011)。例如，Morrissey等人，Nature Biotechnology[自然生物技术]23(8)：1002-1007(2005)，Zimmerman等人，Nature Letters[自然快报]441：111-114(2006)，以及Li等人，Gene Therapy[基因疗法]19：775-780(2012)描述了用于递送诸如CRISPR-Cas组分的生物材料的脂质体。

在一些实施例中，病毒载体包括本披露的CRISPR-Cas系统。在一些实施例中，本披露的CRISPR-Cas系统由病毒载体递送。在一些实施例中，病毒载体包括重组Cas9和指导多核苷酸。在一些实施例中，病毒载体包括重组Cas9和指导多核苷酸，其中该重组Cas9和指导多核苷酸以复合物存在。在一些实施例中，病毒载体包括CRISPR-Cas系统，该CRISPR-Cas系统包括重组Cas9、指导多核苷酸和含有tracrRNA的多核苷酸。在一些实施例中，病毒载体包括CRISPR-Cas系统，该CRISPR-Cas系统包括重组Cas9、指导多核苷酸和tracrRNA。在一些实施例中，该病毒载体是腺病毒、慢病毒或腺相关病毒载体。本文提供了病毒载体的实例。

在一些实施例中，腺相关病毒(AAV)和/或慢病毒载体可以用作包括本文所述的CRISPR-Cas系统的元件的病毒载体。在本披露的一些实施例中，该Cas蛋白由病毒载体转导的细胞在细胞内表达。

在一些实施例中，本披露的Cas蛋白和方法用于离体基因编辑，诸如CAR-T型疗法。这些实施例可能涉及对来自人类供体的细胞的修饰。在这些情况下，也可以使用病毒载体；但是，还有其他选择可以直接将Cas9蛋白(连同体外转录的指导RNA和供体DNA)转染到培养的细胞中。

在一些实施例中，本披露的重组Cas9蛋白是包括一个或多个异源蛋白结构域(例如，除重组Cas9蛋白之外约或至少约1、2、3、4、5、6、7、8、9或10个或更多个结构域)的融合蛋白的一部分。Cas9融合蛋白可包括任何其他蛋白序列，以及任选地在任何两个结构域之间的接头序列。可以与重组Cas9蛋白融合的蛋白质结构域的实例包括但不限于：具有以下一项或多项活性的表位标签、报告基因序列和蛋白质结构域：甲基化酶活性、脱甲基酶活性、转录激活活性、转录抑制活性、转录释放因子活性、组蛋白修饰活性、RNA裂解活性和核酸结合活性。表位标签的非限制性实例包括：组氨酸(His)标签、V5标签、FLAG标签、流感病毒血凝素(HA)标签、Myc标签、VSV-G标签和硫氧还蛋白(Trx)标签。报告基因的实例包括但不限于谷胱甘肽-5-转移酶(GST)、辣根过氧化物酶(HR)、氯霉素乙酰转移酶(CAT)、β-半乳糖苷酶、β-葡萄糖醛酸酶、萤光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)、自发荧光蛋白(包括蓝色荧光蛋白(BFP))和mCherry。在一些实施例中，重组Cas9蛋白与结合DNA分子或结合其他细胞分子的蛋白或蛋白片段融合，包括但不限于：麦芽糖结合蛋白(MBP)、S标签、Lex A DNA结合结构域(DBD)、GAL4 DNA结合结构域和单纯疱疹病毒(HSV)BP16蛋白。可形成包括Cas9蛋白的融合蛋白的一部分的其他结构域在美国专利公开2011/0059502中描述。在一些实施例中，加标签的重组Cas9蛋白用于鉴定靶序列的位置。

在一些实施例中，重组Cas9蛋白可形成诱导型系统的组分。该系统的可诱导性质允许使用某种形式的能量对基因编辑或基因表达进行时空控制。这种能量形式可以包括但不限于：电磁辐射、声能、化学能和热能。诱导型系统的非限制性实例包括：四环素诱导型启动子(Tet-On或Tet-Off)、小分子双杂交转录激活系统(FKBP、ABA等)或光诱导系统(光敏色素、LOV结构域或隐色素)。在一些实施例中，该Cas9蛋白是光诱导型转录效应子(LITE)的一部分，以序列特异性方式指导转录活性的变化。光的成分可以包括Cas9蛋白、光响应性细胞色素异二聚体(例如，来自拟南芥(Arabidopsis thaliana))和转录激活/抑制结构域。诱导型DNA结合蛋白及其使用方法的其他实例在国际申请公开号WO 2014/018423和WO 2014/093635；美国专利号8,889,418和8,895,308；以及美国专利公开号2014/0186919、2014/0242700、2014/0273234和2014/0335620中提供；

位点特异性修饰的方法

在一些实施例中，本披露提供了在细胞基因组中的靶序列处提供位点特异性修饰的方法，该方法包括将本文所述的非天然存在的CRISPR-Cas系统引入细胞中。

在该方法的一些实施例中，非天然存在的CRISPR-Cas系统的重组Cas9蛋白包括工程化的KFERQ基序或KFERQ样基序。在该方法的一些实施例中，非天然存在的CRISPR-Cas系统的重组Cas9蛋白包括野生型Cas9蛋白的一个或多个氨基酸修饰，该修饰将CMA靶基序或eMI靶基序引入Cas9蛋白中，其中该重组Cas9蛋白在体内的降解比野生型Cas9蛋白或不包括CMA或eMI靶基序的Cas9蛋白快至少20％。在该方法的一些实施例中，非天然存在的CRISPR-Cas系统的重组Cas9蛋白包括野生型Cas9蛋白的一个或多个氨基酸修饰，其中该重组Cas9蛋白包括CMA靶基序或eMI靶基序。在该方法的一些实施例中，非天然存在的CRISPR-Cas系统的重组Cas9蛋白分离自酿脓链球菌(SpCas9)，并且在SEQ ID NO：1的位置F185、A547、1548、T560、V561、D829、I830、L1087、S1088、P1199、K1200或其组合中的一个或多个处包括氨基酸修饰。在该方法的一些实施例中，非天然存在的CRISPR-Cas系统的重组Cas9蛋白能够结合HSC70。在该方法的一些实施例中，非天然存在的CRISPR-Cas系统的重组Cas9蛋白分离自酿脓链球菌(SpCas9)，并且在SEQ ID NO：1的氨基酸位置185处包括工程化的KFERQ基序或KFERQ样基序。

靶序列的修饰涵盖单核苷酸取代、多核苷酸取代、核酸的插入(即，敲入)和缺失(即，敲除)、移码突变和其他核酸修饰。

在该方法的一些实施例中，该修饰是靶序列的至少一部分的缺失。可以在两个不同位点裂解靶序列并产生互补的粘性末端，并且这些互补的粘性末端可以重新连接，从而去除两个位点之间的序列部分。

在该方法的一些实施例中，该修饰是靶序列的突变。位点特异性诱变可通过使用位点特异性核酸酶来实现的，该酶可促进含有目的突变的外源多核苷酸模板(也称为“供体多核苷酸”或“供体载体”)的同源重组。在一些实施例中，目的序列(SoI)包括目的突变。

在该方法的一些实施例中，该修饰是将目的序列(SoI)插入靶序列。该SoI可以作为外源多核苷酸模板引入。在一些实施例中，该外源多核苷酸包括平末端。在一些实施例中，该外源多核苷酸模板包括粘性末端。在一些实施例中，该外源多核苷酸模板包括与靶序列中的粘性末端互补的粘性末端。

外源多核苷酸模板可以具有任何合适的长度，诸如约或至少约10、15、20、25、50、75、100、150、200、250、500或1000或更多个核苷酸的长度。在一些实施例中，该外源多核苷酸模板与包括靶序列的多核苷酸的一部分互补。当进行最佳比对时，该外源多核苷酸模板与靶序列的一个或多个核苷酸(例如，约或至少约1、5、10、15、20、25、30、35、40、45、50、60、70、80、90或100或更多个核苷酸)重叠。在一些实施例中，当对外源多核苷酸模板和包括靶序列的多核苷酸进行最佳比对时，外源多核苷酸模板最接近的核苷酸在距离靶序列约1、5、10、15、20、25、50、75、100、200、300、400、500、100、1500、2000、2500、5000、10000个或更多个核苷酸内。

在一些实施例中，该外源多核苷酸是DNA，例如，DNA质粒、细菌人工染色体(BAC)、酵母人工染色体(YAC)、病毒载体、单链或双链DNA的线性片段、寡核苷酸、PCR片段、裸核酸或与诸如脂质体的递送媒介物复合的核酸。

在一些实施例中，使用细胞的内源DNA修复途径将该外源多核苷酸插入靶序列。内源DNA修复途径包括NHEJ、MMEJ和HDR，其各自在本文中描述。在修复过程中，可以将包括SoI的外源多核苷酸模板引入该靶序列。在一些实施例中，将包括侧接上游序列和下游序列的SoI的外源多核苷酸模板引入细胞中，其中该上游和下游序列与靶序列中整合位点的任一例具有序列相似性。在一些实施例中，该包括SoI的外源多核苷酸包括例如突变基因。在一些实施例中，该外源多核苷酸包括对于该细胞而言是内源性或外源性的序列。在一些实施例中，该SoI包括编码蛋白质的多核苷酸，或非编码序列，诸如像微小RNA。在一些实施例中，该SoI可操作地与调节元件连接。在一些实施例中，该SoI是调节元件。在一些实施例中，该SoI包括抗性盒，例如，赋予对抗生素抗性的基因。在一些实施例中，该SoI包括野生型靶序列的突变。在一些实施例中，该SoI通过产生移码突变或核苷酸取代来破坏或校正靶序列。在一些实施例中，该SoI包括标记。将标记引入靶序列可以便于筛选靶向的整合。在一些实施例中，该标记是限制性位点、荧光蛋白或选择性标记。在一些实施例中，将该SoI作为包括SoI的载体引入。

选择该外源多核苷酸模板中的上游和下游序列以促进靶序列和外源多核苷酸之间的同源重组。该上游序列是与用于整合的靶向位点的上游序列(靶序列)具有序列相似性的核酸序列。类似地，该下游序列是与用于整合的靶位点的下游序列具有序列相似性的核酸序列。因此，在一些实施例中，通过在上游和下游序列处的同源重组，将包括SoI的外源多核苷酸模板插入靶序列中。在一些实施例中，该外源多核苷酸模板中的上游和下游序列与靶向的基因组序列的上游和下游序列分别具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、分别至少97％、至少98％、至少99％或100％的序列同一性。在一些实施例中，该上游或下游序列具有至少约20、50、100、150、200、250、300、350、400或500个碱基对和至多约600、750、1000、1250、1500、1750或2000个碱基对。在一些实施例中，该上游或下游序列具有约20至2000个碱基对、或约50至1750个碱基对、或约100至1500个碱基对、或约200至1250个碱基对、或约300至1000个碱基对、或约400至约750个碱基对、或约500至600个碱基对。在一些实施例中，该上游或下游序列具有约50、约100、约250、约500、约100、约1250、约1500、约1750、约2000、约2250或约2500个碱基对。

在该方法的一些实施例中，靶序列中的修饰是细胞中靶序列表达的失活。例如，在CRISPR-Cas复合物与靶序列结合后，靶序列即失活，使得该序列不被转录，不产生编码的蛋白质，和/或该序列不像野生型序列那样起作用。例如，蛋白质或微小RNA编码序列可能会失活，从而不产生蛋白质。

在一些实施例中，调节序列可能会失活，使得它不再作为调节序列起作用。调节序列的实例包括启动子、转录终止子、增强子和本文所述的其他调节元件。失活的靶序列可以包括缺失突变(即，一个或多个核苷酸的缺失)、插入突变(即，一个或多个核苷酸的插入)或无义突变(即，用另一个核苷酸取代一个单核苷酸从而引入终止密码子)。在一些实施例中，靶序列的失活导致靶序列的“敲除”。

在包括本文提供的重组Cas9的方法的一些实施例中，相对于野生型Cas9或不包括KFERQ基序或KFERQ样基序的Cas9，细胞基因组中脱靶修饰减少至少约50％。如本文所述，脱靶修饰是非特异性和非预期的基因修饰，例如非预期的点突变、缺失、插入、倒位和易位。在一些实施例中，本披露的重组Cas9蛋白由于更快的降解速率而在细胞中具有减少的脱靶。在一些实施例中，本披露的重组Cas9蛋白由于细胞对Cas9的较低可用性而在细胞中具有减少的脱靶。在一些实施例中，本披露的重组Cas9蛋白由于细胞与Cas9的较短暴露时间而在细胞中具有减少的脱靶。

在包括本文提供的重组Cas9的方法的一些实施例中，相对于野生型Cas9，脱靶修饰减少，并且靶上修饰至少大致相同水平。在一些实施例中，重组Cas9的靶上修饰在野生型Cas9的靶上修饰的至少约20％、至少约15％、至少约10％、至少约5％、至少约4％、至少约3％、至少约2％、至少约1％、至少约0.5％内。在包括本文提供的重组Cas9的一些实施例中，相对于野生型Cas9，脱靶修饰减少，并且靶上修饰增加。在一些实施例中，重组Cas9的靶上修饰比野生型Cas9高至少约5％、高至少约10％、高至少约11％、高至少约12％、高至少约13％、高至少约14％、高至少约15％、高至少约16％、高至少约17％、高至少约18％、高至少约19％或高至少约20％。

在一些实施例中，相对于野生型Cas9或不包括KFERQ基序或KFERQ样基序的Cas9，细胞基因组中的脱靶修饰减少至少约10％、至少约20％、至少约30％、至少约40％、至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约100％、至少约150％或至少约200％。

在包括本文提供的重组Cas9的方法的一些实施例中，相对于野生型Cas9或不包括KFERQ基序或KFERQ样基序的Cas9，细胞基因组中的脱靶修饰减少至少约2倍、至少约3倍、至少约4倍、至少约5倍、至少约6倍、至少约7倍、至少约8倍、至少约9倍、至少约10倍、至少约20倍、至少约30倍、至少约40倍、至少约50倍、至少约60倍、至少约70倍、至少约80倍、至少约90倍、至少约100倍、至少约500倍或至少约1000倍。

在该方法的一些实施例中，细胞基因组中的脱靶修饰少于由具有KFERQ基序或KFERQ样基序的重组Cas9产生的基因组中的所有修饰的约5％。在该方法的一些实施例中，细胞基因组中的脱靶修饰少于由具有KFERQ基序或KFERQ样基序的重组Cas9产生的基因组中的所有修饰的约2％。在该方法的一些实施例中，细胞基因组中的脱靶修饰少于由具有KFERQ基序或KFERQ样基序的重组Cas9产生的基因组中的所有修饰的约1％。如本文所述，野生型Cas9的脱靶修饰可以是野生型Cas9的基因组中所有修饰的至少约2％、至少约3％、至少约4％、至少约5％、至少约6％、至少约7％、至少约8％、至少约9％或至少约10％。在一些实施例中，具有KFERQ基序或KFERQ样基序的重组Cas9的脱靶修饰少于由具有KFERQ基序或KFERQ样基序的重组Cas9产生的基因组中的所有修饰的约5％、少于约4％、少于约3％、少于约2％、少于约1.5％、少于约1％、少于约0.5％或少于约0.1％。脱靶修饰的量可以取决于指导多核苷酸的序列和靶基因组基因座而变化。通常，当使用相同的指导多核苷酸时，与野生型Cas9相比，具有KFERQ基序或KFERQ样基序的重组Cas9蛋白具有减少的脱靶修饰。

在该方法的一些实施例中，靶序列在细菌细胞中。在一些实施例中，该细菌细胞是实验室菌株。此类细胞的实例包括但不限于大肠杆菌、金黄色葡萄球菌、霍乱弧菌、肺炎链球菌、枯草芽孢杆菌、新月形柄杆菌、生殖支原体、费氏曲霉、集胞藻属、荧光假单胞菌、棕色固氮菌、天蓝色链霉菌。在一些实施例中，细菌细胞是用于制备食物和/或饮料的细菌。此类细胞的非限制性示例性属包括但不限于醋杆菌属、节杆菌属、芽孢杆菌属、双歧杆菌属、短状杆菌属、短杆菌属、肉杆菌属、棒杆菌属、肠球菌属、葡糖醋杆菌属、哈夫尼菌属、盐单胞菌属、考克氏菌属、乳杆菌属(包括耐酸乳杆菌、酸鱼乳杆菌、嗜酸乳酸杆菌、消化乳杆菌、短乳杆菌、布赫纳乳杆菌、干酪乳酸菌、弯曲乳杆菌、发酵乳杆菌、希氏乳杆菌、詹氏乳杆菌、金氏乳杆菌、乳酸乳杆菌、副干酪乳杆菌、植物乳杆菌和阪乳杆菌)、明串珠菌属、微杆菌属、小球菌属、丙酸杆菌属、魏斯氏菌属和发酵单胞菌属。

在该方法的一些实施例中，靶细胞在真核细胞中。在一些实施例中，该真核细胞是动物或人类细胞。在一些实施例中，该真核细胞是人类或啮齿动物或牛细胞系或者细胞株。此类细胞/细胞系或细胞株的实例包括但不限于小鼠骨髓瘤(NSO)细胞系、中国仓鼠卵巢(CHO)细胞系、HT1080、H9、HepG2、MCF7、MDBK Jurkat、NIH3T3、PC12、BHK(幼仓鼠肾细胞)、VERO、SP2/0、YB2/0、Y0、C127、L细胞、COS(例如COS1和COS7)、QC1-3、HEK-293、VERO、PER.C6、HeLA、EB1、EB2、EB3、溶瘤或杂交瘤细胞系。在一些实施例中，该真核细胞是CHO细胞系。在一些实施例中，该真核细胞是CHO细胞。在一些实施例中，该细胞是CHO-K1细胞、CHO-K1 SV细胞、DG44 CHO细胞、DUXB11 CHO细胞、CHOS、CHO GS敲除细胞、CHO FUT8 Gs敲除细胞、CHOZN或CHO衍生的细胞。CHO GS敲除细胞(例如，GSKO细胞)是例如CHO-K1 SV GS敲除细胞。CHOFUT8敲除细胞是例如POTELLIGENT CHOK1 SV(龙沙生物公司)。真核细胞也可以是禽细胞、细胞系或细胞株，例如EBX细胞、EB14、EB24、EB26、EB66或EBvl3。

在一些实施例中，该真核细胞是人类细胞。在一些实施例中，该人类细胞是干细胞。干细胞可以是例如多能干细胞，包括胚胎干细胞(ESC)、成年干细胞、诱导的多能干细胞(iPSC)、组织特异性干细胞(例如，造血干细胞)和间充质干细胞(MSC)。在一些实施例中，该细胞是多能干细胞。在一些实施例中，该细胞是诱导的多能干细胞。在一些实施例中，该人类细胞是本文描述的任何细胞的分化形式。在一些实施例中，该真核细胞是源自培养物中任何原代细胞的细胞。

在该方法的一些实施例中，指导多核苷酸的指导序列能够与细胞中的靶序列杂交。在一些实施例中，指导多核苷酸的DNA结合区段与细胞中的靶序列杂交。在一些实施例中，指导多核苷酸(例如，指导RNA)的DNA结合区段包括与靶DNA内的特定序列互补的多核苷酸序列。在一些实施例中，指导多核苷酸的指导序列能够与细菌细胞中的靶序列杂交。在一些实施例中，指导多核苷酸的指导序列能够与真核细胞中的靶序列杂交。在一些实施例中，指导多核苷酸的指导序列能够与哺乳动物细胞中的靶序列杂交。在一些实施例中，指导多核苷酸的指导序列能够与人细胞中的靶序列杂交。在一些实施例中，指导多核苷酸的指导序列能够与多能干细胞中的靶序列杂交。在一些实施例中，指导多核苷酸的指导序列能够与诱导的多能干细胞中的靶序列杂交。在一些实施例中，指导多核苷酸的指导序列能够与植物细胞中的靶序列杂交。

在一些实施例中，指导多核苷酸的指导序列为至少约5、6、7、8、9、10、12、14、16、18或20个核苷酸并且至多约20、25、30、35、40、45或50个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约5至约50个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约6至约45个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约7至约40个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约8至约35个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约9至约30个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约10至约20个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约12至约20个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约14至约20个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约16至约20个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约18至约20个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约5至约10个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约6至约10个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约7至约10个核苷酸。在一些实施例中，指导多核苷酸的指导序列为约8至约10个核苷酸。指导序列的长度可以由本领域技术人员使用文中所述的指导序列设计工具来测定。

在该方法的一些实施例中，将CRISPR-Cas系统经由递送颗粒、囊泡或病毒载体引入细胞中。在该方法的一些实施例中，经由递送颗粒将包括重组Cas9和指导多核苷酸的CRISPR-Cas系统引入细胞中。在该方法的一些实施例中，经由囊泡将包括重组Cas9和指导多核苷酸的CRISPR-Cas系统引入细胞中。在该方法的一些实施例中，经由载体将包括重组Cas9和指导多核苷酸的CRISPR-Cas系统引入细胞中。在该方法的一些实施例中，经由病毒载体将包括重组Cas9和指导多核苷酸的CRISPR-Cas系统引入细胞中。在该方法的一些实施例中，将编码包括重组Cas9和指导多核苷酸的复合物的组分的多核苷酸引入一个或多个载体上。本文提供了递送颗粒、囊泡、载体、病毒载体和递送到细胞中的方法(例如载体的转染)的实例。

本文引用的所有参考文献，包括专利、专利申请、论文、教科书等以及其中引用的参考文献(如同它们还未曾引用过的程度)通过引用以其全文结合在此。

其他示例性实施例

实施例1是包括工程化的KFERQ基序或KFERQ样基序的重组Cas9蛋白。

实施例2包括实施例1的重组Cas9蛋白，其中该工程化的KFERQ基序或KFERQ样基序选自KFERQ(SEQ ID NO：24)、RKVEQ(SEQ ID NO：25)、QDLKF(SEQ ID NO：26)、QRFFE(SEQ IDNO：27)、NRVVD(SEQ ID NO：28)、QRDKV(SEQ ID NO：29)、QKILD(SEQ ID NO：30)、QKKEL(SEQID NO：31)、QFREL(SEQ ID NO：32)、IKLDQ(SEQ ID NO：33)、DVVRQ(SEQ ID NO：34)、QRIVE(SEQ ID NO：35)、VKELQ(SEQ ID NO：36)、QKVFD(SEQ ID NO：37)、QELLR(SEQ ID NO：38)、VDKLN(SEQ ID NO：39)、RIKEN(SEQ ID NO：40)、NKKFE(SEQ ID NO：41)及其组合。

实施例3包括实施例1或2的重组Cas9蛋白，其中该工程化的KFERQ样基序是VDKLN(SEQ ID NO：39)。

实施例4包括实施例1的重组Cas9蛋白，其中该工程化的KFERQ基序或KFERQ样基序在该Cas9蛋白的REC叶中。

实施例5包括实施例2的重组Cas9蛋白，其中该工程化的KFERQ基序或KFERQ样基序在该REC叶的Rec2结构域中。

实施例6包括实施例1的重组Cas9蛋白，其中该工程化的KFERQ基序或KFERQ样基序在该重组Cas9蛋白的HNH结构域、RuvC结构域或PI结构域中。

实施例7包括实施例1至4中任一项的重组Cas9蛋白，其中该工程化的KFERQ基序或KFERQ样基序在该重组Cas9蛋白的表面暴露的区域中。

实施例8包括实施例1至6中任一项的重组Cas9蛋白，其中该工程化的KFERQ基序或KFERQ样基序在该重组Cas9蛋白的N末端或C末端。

实施例9是包括野生型Cas9蛋白的一个或多个氨基酸修饰的重组Cas9蛋白，这些修饰将分子伴侣介导的自噬(CMA)靶基序或内体微自噬(eMI)靶基序引入该Cas9蛋白中，其中该重组Cas9蛋白在体内的降解比该野生型Cas9蛋白或不包括CMA或eMI靶基序的Cas9蛋白快至少20％。

实施例10包括实施例9的重组Cas9蛋白，其中该重组Cas9蛋白在体内的降解比该野生型Cas9蛋白或不包括CMA或eMI靶基序的Cas9蛋白快至少50％。

实施例11包括实施例9或10的重组Cas9蛋白，其中该重组Cas9蛋白在体内的降解比该野生型Cas9蛋白或不包括CMA或eMI靶基序的Cas9蛋白快至少80％。

实施例12是包括野生型Cas9蛋白的一个或多个氨基酸修饰的重组Cas9蛋白，其中该重组Cas9蛋白包括CMA靶基序或eMI靶基序。

实施例13包括实施例9至12中任一项的重组Cas9蛋白，其中该CMA靶基序或eMI靶基序选自KFERQ(SEQ ID NO：24)、RKVEQ(SEQ ID NO：25)、QDLKF(SEQ ID NO：26)、QRFFE(SEQID NO：27)、NRVVD(SEQ ID NO：28)、QRDKV(SEQ ID NO：29)、QKILD(SEQ ID NO：30)、QKKEL(SEQ ID NO：31)、QFREL(SEQ ID NO：32)、IKLDQ(SEQ ID NO：33)、DVVRQ(SEQ ID NO：34)、QRIVE(SEQ ID NO：35)、VKELQ(SEQ ID NO：36)、QKVFD(SEQ ID NO：37)、QELLR(SEQ ID NO：38)、VDKLN(SEQ ID NO：39)、RIKEN(SEQ ID NO：40)、NKKFE(SEQ ID NO：41)及其组合。

实施例14包括实施例13的重组Cas9蛋白，其中该CMA靶基序或eMI靶基序是VDKLN(SEQ ID NO：39)。

实施例15包括实施例9至14中任一项的重组Cas9蛋白，其中该一个或多个氨基酸取代在该重组Cas9蛋白的表面暴露的区域中。

实施例16包括分离自酿脓链球菌的重组Cas9蛋白(SpCas9)，该重组Cas9蛋白在SEQ ID NO：1的位置F185、A547、I548、T560、V561、D829、I830、L1087、S1088、P1199、K1200或其组合中的一个或多个处包括氨基酸修饰。

实施例17包括实施例9至16中任一项的重组Cas9蛋白，其中该氨基酸修饰包括以下突变中的一个或多个：F185N；A547E/I548L；T560E/V561Q；D829L/I830R；L1087E/S1088Q；或P1199D/K1200Q。

实施例18包括实施例9至17中任一项的重组Cas9蛋白，其中该氨基酸修饰是F185处的突变。

实施例19包括实施例18的重组Cas9蛋白，其中该突变是F185N。

实施例20包括实施例16至19中任一项的重组Cas9蛋白，其中该氨基酸修饰导致CMA靶基序或eMI靶基序。

实施例21包括实施例9至20中任一项的重组Cas9蛋白，其中该重组Cas9蛋白与SEQID NO：1具有至少90％同一性。

实施例22是能够与70kD的热休克同源蛋白(HSC70)结合的重组Cas9蛋白。

实施例23是分离自酿脓链球菌的重组Cas9蛋白(SpCas9)，该重组Cas9蛋白在SEQID NO：1的氨基酸位置185处包括工程化的KFERQ基序或KFERQ样基序。

实施例24包括实施例23的重组Cas9蛋白，其中该KFERQ样基序是VDKLN(SEQ IDNO：39)。

实施例25包括实施例1至24中任一项的重组Cas9蛋白，该重组Cas9蛋白进一步在SEQ ID NO：1中的位置D10、H840或其组合处包括突变。

实施例26包括实施例25的重组Cas9蛋白，其中该突变选自D10A或D10N；H840A、H840N或H840Y；及其组合。

实施例27包括实施例1至26中任一项的重组Cas9蛋白，其中该重组Cas9蛋白产生粘性末端。

实施例28包括实施例1至27中任一项的重组Cas9蛋白，该重组Cas9蛋白进一步包括一个或多个核定位信号。

实施例29是编码实施例1至28中任一项的重组Cas9蛋白的多核苷酸序列。

实施例30包括实施例29的多核苷酸序列，其中该多核苷酸序列进行密码子优化以在真核细胞中表达。

实施例31是非天然存在的CRISPR-Cas系统，其包括：实施例1至28中任一项的重组Cas9蛋白；以及与该重组Cas9蛋白形成复合物并包括指导序列的指导多核苷酸。

实施例32是非天然存在的CRISPR-Cas系统，其包括：实施例29或30的多核苷酸序列；以及编码与该重组Cas9蛋白形成复合物并包括指导序列的指导多核苷酸的核苷酸序列。

实施例33是非天然存在的CRISPR-Cas系统，其包括：可操作地连接至实施例29或30的多核苷酸序列的调节元件；以及与该重组Cas9蛋白形成复合物并包括指导序列的指导多核苷酸。

实施例34包括实施例31至33中任一项的系统，其中该指导序列与同向重复序列连接。

实施例35包括实施例31至34中任一项的系统，其中该指导多核苷酸包括tracrRNA序列。

实施例36包括实施例31至34中任一项的系统，该系统进一步包括单独的多核苷酸，该多核苷酸包括tracrRNA序列。

实施例37包括实施例31至35中任一项的系统，其中编码该重组Cas9蛋白的多核苷酸序列和指导多核苷酸在单个载体上。

实施例38包括实施例36的系统，其中编码该重组Cas9蛋白的多核苷酸序列、指导多核苷酸和tracrRNA序列在单个载体上。

实施例39是包括实施例31至38中任一项的系统的递送颗粒。

实施例40是包括实施例31至38中任一项的系统的囊泡。

实施例41包括实施例40的囊泡，其中该囊泡是外泌体或脂质体。

实施例42是包括根据实施例31至38中任一项的系统的病毒载体。

实施例43包括实施例42的病毒载体，其中该病毒载体是腺病毒、慢病毒或腺相关病毒载体。

实施例44是在细胞基因组中的靶序列处提供位点特异性修饰的方法，该方法包括将实施例31至38中任一项的CRISPR-Cas系统引入该细胞中。

实施例45包括实施例44的方法，其中该修饰包括靶序列的至少一部分的缺失。

实施例46包括实施例44的方法，其中该修饰包括靶序列的突变。

实施例47包括实施例44的方法，其中该修饰包括在靶序列处插入目的序列(SoI)。

实施例48包括实施例44至47中任一项的方法，其中该细胞基因组中的脱靶修饰小于由重组Cas9产生的基因组中修饰的约5％。

实施例49包括实施例44至48中任一项的方法，其中该细胞基因组中的脱靶修饰小于由重组Cas9产生的基因组中修饰的约2％。

实施例50包括实施例44至49中任一项的方法，其中该细胞基因组中的脱靶修饰小于由重组Cas9产生的基因组中修饰的约1％。

实施例51包括实施例44至50中任一项的方法，其中相对于野生型CRISPR-Cas9或不包括KFERQ基序或KFERQ样基序的Cas9，细胞基因组中的脱靶修饰减少至少约50％。

实施例52包括实施例44至51中任一项的方法，其中该细胞是细菌细胞、哺乳动物细胞或植物细胞。

实施例53包括实施例52的方法，其中该细胞是人细胞。

实施例54包括实施例53的方法，其中该细胞是多能干细胞。

实施例55包括实施例54的方法，其中该细胞是诱导的多能干细胞。

实施例56包括实施例44至55中任一项的方法，其中该指导多核苷酸的指导序列能够与该细胞基因组中的靶序列杂交。

实施例57包括实施例44至56中任一项的方法，其中将CRISPR-Cas系统经由递送颗粒、囊泡或病毒载体引入细胞中。

序列

下表4列出了本文提供的序列。

表4.序列列表

SpCas9-来自酿脓链球菌的Cas9(SEQ ID NO：1)

FaDe-SpCas9-具有F185N突变的SpCas9(SEQ ID NO：2)

SpCas9核苷酸序列(SEQ ID NO：3)

FaDe-SpCas9核苷酸序列(SEQ ID NO：4)

SpCas9 REC叶：SpCas9的氨基酸61-718(SEQ ID NO：5)

SpCas9 NUC叶1：SpCas9的氨基酸1-60(SEQ ID NO：6)

SpCas9 NUC叶2：SpCas9的氨基酸719-1368(SEQ ID NO：7)

SpCas9 BH结构域：SpCas9的氨基酸61-94(SEQ ID NO：8)

SpCas9 Rec1结构域1：SpCas9的氨基酸95-180(SEQ ID NO：9)

SpCas9 Rec1结构域2：SpCas9的氨基酸309-718(SEQ ID NO：10)

SpCas9 Rec2结构域：SpCas9的氨基酸181-308(SEQ ID NO：11)

SpCas9 RuvC I结构域：SpCas9的氨基酸1-59(SEQ ID NO：12)

SpCas9 RuvC II结构域：SpCas9的氨基酸718-774(SEQ ID NO：13)

SpCas9 RuvC III结构域：SpCas9的氨基酸909-1098(SEQ ID NO：14)

SpCas9 HNH结构域：SpCas9的氨基酸775-908(SEQ ID NO：15)

SpCas9 PI结构域：SpCas9的氨基酸1099-1368(SEQ ID NO：16)

来自嗜热链球菌的Cas9(SEQ ID NO：17)

来自停乳链球菌的Cas9(SEQ ID NO：18)

来自变形链球菌的Cas9(SEQ ID NO：19)

来自英诺克李斯特菌的Cas9(SEQ ID NO：20)

来自金黄色葡萄球菌的Cas9(SEQ ID NO：21)

来自肺炎克雷白杆菌的Cas9(SEQ ID NO：22)

FnCas9-来自新凶手弗朗西斯菌的Cas9(SEQ ID NO：23)

表5.KFERQ或KFERQ样基序

SEQ ID NO：24	KFERQ
		SEQ ID NO：25	RKVEQ
SEQ ID NO：26	QDLKF
		SEQ ID NO：27	QRFFE
SEQ ID NO：28	NRVVD
		SEQ ID NO：29	QRDKV
SEQ ID NO：30	QKILD
		SEQ ID NO：31	QKKEL
SEQ ID NO：32	QFREL
		SEQ ID NO：33	IKLDQ
SEQ ID NO：34	DVVRQ
		SEQ ID NO：35	QRIVE
SEQ ID NO：36	VKELQ
		SEQ ID NO：37	QKVFD
SEQ ID NO：38	QELLR
		SEQ ID NO：39	VDKLN
SEQ ID NO：40	RIKEN
		SEQ ID NO：41	NKKFE

表6.核定位信号

SEQ ID NO：42	PKKKRKV
		SEQ ID NO：43	AVKRPAATKKAGQAKKKKLD
SEQ ID NO：44	PAAKRVKLD
		SEQ ID NO：45	MSRRRKANPTKLSENAKKLAKEVEN
SEQ ID NO：46	KLKIKRPVK
		SEQ ID NO：47	KIPIK

表7.引物

SEQ ID NO.	基因	序列
			SEQ ID NO：48	EMX1-T正向	TTCCAGAACCGGAGGACAAAG
SEQ ID NO：49	EMX1-T反向	CCACCCTAGTCATTGGAGGT
			SEQ ID NO：50	EMX1-OT1正向	TTTATTATCTGCACATGTATG
SEQ ID NO：51	EMX1-OT1反向	CTACCTGTACATCTGCACAAG
			SEQ ID NO：52	EMX1-OT2正向	ATGTGCTTCAACCCATCACG
SEQ ID NO：53	EMX1-OT2反向	GTTGGCTTTCACAAGGATGC
			SEQ ID NO：54	FANCF-T正向	CACGGATAAAGACGCTGGGA
SEQ ID NO：55	FANCF-T反向	TCCCAGGTGCTGACGTAGG
			SEQ ID NO：56	FANCF-OT1正向	TAGCACTGGGTGCTTAATCCG
SEQ ID NO：57	FANCF-OT2反向	GGGTTTGGTTGGCTGCTCAT
			SEQ ID NO：58	AAvs1 T2正向	ACCGGGGCCACTAGGGACAGGAT
SEQ ID NO：59	AAVS1 T2反向	AAACATCCTGTCCCTAGTGGCCC
			SEQ ID NO：60	Cas9正向	GATAAAGCAGACCTGCGGCTGATCTATC
SEQ ID NO：61	Cas9反向	CTGGCAGCTGAGCGATCAGGTTCTC
			SEQ ID NO：62	A1AT正向	GATGCCCACCTTCCCCTCTC
SEQ ID NO：63	A1AT反向	AGTGGTGGCCTCATTCTGGA
			SEQ ID NO：64	ABCB1正向	GGCTTCACGAGAAAAGTTGATG
SEQ ID NO：65	ABCB1反向	GGATTCACAGGCTTCACCTAC

表8.指导RNA序列

实例

材料和方法

将以下材料和方法用于实例中描述的实验中。寡核苷酸和指导RNA合成由西格玛公司(Sigma)和Synthego公司提供。除非另有说明，否则试剂和试剂盒均购自赛默飞世尔科技公司(ThermoFisher)。

试剂和试剂盒列表

亚细胞分级试剂盒；

不含EDTA的蛋白酶抑制剂混合物(西格玛公司)；

NOVEX NUPAGE蛋白凝胶，Bis-Tris 4％-12％，1.5mm厚，10孔；

4X Laemmli缓冲液(伯乐公司(BioRad))；

NUPAGE MOPS 20X SDS运行缓冲液；

NUPAGE 20X转移缓冲液；

NOVEX Sharp预染蛋白标准分子量标记；

硝酸纤维素预切印迹膜，孔径0.45μm；

一级抗体：Cas9小鼠单克隆(艾博抗公司(Abcam))；

单克隆抗FLAG M2抗体(西格玛公司)；

单克隆抗α微管蛋白(西格玛公司)；

二级抗体：IRDYE 680RD驴抗小鼠IgG(H+L)，0.1mg(Li-COR)；

HSC70小鼠单克隆(圣克鲁斯公司(Santa Cruz))；

蛋白A琼脂糖(艾博抗公司)；

REVERTAID RT试剂盒；

DNA酶I，不含RNA酶；

Phusion Flash高保真PCR主混合物；

Q5热启动高保真2X主混合物；

Gentra Puregene试剂盒(凯杰公司(Qiagen))；

Lipofectamine LTX Plus(英杰公司(Invitrogen))；

FUGENE HD(普洛麦格公司(Promega))

Cas9(CRISPR相关蛋白9)ELISA试剂盒(细胞生物学实验室(Cell Biolabs))

放线菌酮CHX(西格玛公司)

亮抑酶肽(西格玛公司)

抗CRISPR-Cas9抗体[EPR19799](ab203933)

抗Ki67抗体(ab15580)

抗裂解胱天蛋白酶3抗体(ab2302)

抗γH2A.X(磷酸S139)抗体[9F3](ab26350)

抗CD8α抗体[144B](ab17147)

抗CD4抗体[EPR19514]-低内毒素，无叠氮化物(ab221775)

表2中列出了本文所述实验中使用的引物。

表2.引物

表3中列出了本文所述实验中使用的指导RNA。

表3.指导RNA序列

实验程序

细胞培养。将SV-HUC-1细胞在补充有10％(v/v)胎牛血清(Gibco)和1％抗生素(100U/mL青霉素和100mg/L硫酸链霉素)的F-12K培养基(Ham的Kaighn改良)中培养。

将HEK293细胞在补充有10％(v/v)胎牛血清(Gibco)和1％抗生素(100U/mL青霉素和100mg/L硫酸链霉素)的Dulbecco改良的Eagle培养基(英杰公司)中培养。使所有细胞在37℃下、具有5％CO₂的加湿气氛中生长。

将Neuro-2a细胞在补充有10％(v/v)胎牛血清(Gibco)和1％抗生素(100U/mL青霉素和100mg/L硫酸链霉素)的Eagle最低必需培养基(EMEM)中培养。

将HCT细胞在补充有10％(v/v)胎牛血清(Gibco)和1％抗生素(100U/mL青霉素和100mg/L硫酸链霉素)的RPMI-1640培养基(ATCC 30-2001)中培养。

将人iPSC在补充有GF-1添加剂(按1∶333稀释)、GF-2添加剂(按1∶1000稀释)和GF-3添加剂(按1∶1000稀释)的CELLARTIS DEF-CS基础培养基中培养。

质粒突变.通过G-Blocks基因片段进行突变并合成。

实例1.Cas9相对于FaDe-Cas9：蛋白质周转分析

质粒转染。通过反向转染用编码Cas9或FaDe-Cas9(FaDe-Cas9：具有F185N突变的野生型Cas9；在图5A中显示为KFERQ-Cas9)的质粒转染永生化人或小鼠细胞系。将3μg质粒(Cas9或FaDe-Cas9)与转染剂(Lipofectamine LTX)在OPTIMEM培养基中混合，并在6孔板中孵育25分钟。孵育后，将细胞分离，计数(50×10⁴)，并重悬于2mL完全培养基中，并添加到含有转染试剂混合物的孔中。转染后24小时，通过GFP表达分析细胞以评估转染效率，并在不同时间点收获细胞用于蛋白质印迹分析。

用于蛋白质印迹的细胞裂解和蛋白质提取。用胰蛋白酶收获转染的细胞，并以2000rpm离心5分钟。用冷PBS 1X洗涤后，将细胞沉淀悬浮于冷“2步裂解缓冲液”和蛋白酶抑制剂(2步裂解缓冲液：10mM KCl、20mM Tris HCl pH 7.4、10mM MgCl₂、20mM EDTA、10％甘油、0.8％TRITON)中，涡旋，超声处理并在冰上孵育20分钟。超声程序包括两种处理：峰值功率20.0-占空比40.0-脉冲周期50-持续时间15秒。然后将细胞裂解物用420nM NaCl孵育5分钟以从核酸中分离蛋白质，并通过在4℃下以15,000rpm离心30分钟进行澄清。离心后，丢弃含有DNA和膜的沉淀，并通过NANODROP测量上清液的蛋白质浓度。

免疫印迹。将如上所述转染的细胞中的澄清裂解物与上样缓冲液(10％β-巯基乙醇)混合并煮沸8分钟。将样品加载到NUPAGE Bis-Tris SDS蛋白凝胶中，并通过在200V(MOPS 1X)下运行40分钟进行分离。然后在35V下用NUPAGE转移缓冲液加20％甲醇将蛋白质凝胶转移到硝酸纤维素膜上(罐转移(tank transfer))。将膜在1％BSA中封闭1小时，并在4℃下与一级抗体一起孵育。用PBS吐温0.2％洗涤3次后，将膜与二级抗体(在1％BSA中1：10000)在室温下孵育1小时，并用PBS吐温0.2％洗涤3次。用ODYSSEY成像系统进行检测。

结果在图6A、6B和7中示出。Cas9与FaDe-Cas9的分析表明，FaDe-Cas9的表达低于蛋白质印迹的检测水平(图6A)。如图6B所示，Cas9中产生FaDe-Cas9的突变不会损害Cas9抗体特异性。如图7A所示，与Cas9相比，FaDe-Cas9在短时间窗口内显示出非常低的表达。尽管Cas9在转染后8小时至72小时以增加的水平被抗Cas9检测到，但FaDe-Cas9甚至在转染后8小时也没有被抗Cas9检测到。

通过GFP融合蛋白表达分析蛋白质周转。将以7×10³细胞密度接种到96孔板中的HEK293细胞用100ng编码Cas9-GFP-Fused或FaDe-Cas9-GFP-Fused的双启动子驱动的报告载体转染，并在其自身启动子下mCherry表达。用FUGENE HD转染试剂进行转染。然后将板置于INCUCYTE中，以通过测量一段时间内的GFP荧光信号来监测Cas9和FaDe-Cas9蛋白的体内水平。分析mCherry荧光以评估转染效率。图8为转染到细胞中用于转染效率评估的双报告载体的示意图。

结果显示在图9至11中。虽然转染效率相当(如通过mCherry荧光测量，图10A)，但与Cas9-GFP-Fused相比，FaDe-Cas9-GFP-Fused显示较低的表达水平(如通过GFP荧光测量，图10B)。图12显示了在HEK、HCT、hIPSc和Neuro-2a细胞中相似的Cas9和FaDe-Cas9蛋白质周转实验的结果，表明FaDe-Cas9的高周转与细胞类型无关。

通过半定量RT-PCR评估mRNA稳定性。从用编码Cas9或FaDe-Cas9的质粒转染的SVHUC1细胞中分离RNA。将在不同时间点收获的细胞沉淀悬浮在1ml TRIZOL中。在室温下5分钟后，添加200μL氯仿，然后在室温下孵育3分钟。将样品在4℃下以15,000rpm离心15分钟，并将水相(含有RNA)收集在单独的试管中。然后通过向水相中添加500μL异丙醇、室温下孵育10分钟并以15,000rpm离心来沉淀RNA。将RNA以凝胶状沉淀收集在底部，用70％乙醇洗涤并溶于无RNA酶的水中。将RNA样品用含有1μg RNA、1X DNA酶缓冲液和1μL DNA酶加超纯水的10μL反应物中的DNA酶处理。将混合物在37℃孵育30分钟，并用NANODROP测量RNA浓度。

cDNA合成。使反应在具有500ng RNA、1μL随机六聚体引物、4μL 5X反应缓冲液、1μLRIBOLOCK RNA酶抑制剂(20U/μL)、2μL 10mM dNTP Mix、1μL REVERTAID RT(200U/μL)和无核酸酶的水的20μL反应中进行。将反应在42℃孵育60分钟，并通过在70℃加热5分钟来终止。

PCR。使用1μL Q5热启动高保真2X主混合物在20μL反应体积(0.5μL正向和反向引物(10μM)、1μL cDNA和水)中进行PCR。每个反应重复三次。PCR如下进行：在95℃下变性1分钟，随后将在95℃下变性30秒、在58℃下退火30秒、在72℃下延伸30秒，循环24次，最后延伸2分钟。

结果显示在图7B中，表明来自Cas9和FaDe-Cas9的相似的mRNA转录水平。这些数据证实Cas9和FaDe-Cas9的转染效率是相当的。

实例2.评价CMA对FaDe-Cas9的蛋白质周转和亚细胞定位的作用

Cas9-HSC70共免疫沉淀。用编码Cas9或FaDe-Cas9的质粒转染以70％汇合接种的SV-HUC-1细胞。转染后48小时收获细胞并用CO-IP裂解缓冲液(140mM KCl、3mM MgCl₂、0.5％NONIDET P-40、20mM HEPES pH 7.4、1mM EDTA、1.5mM EGTA、蛋白酶抑制剂(无EDTA的蛋白酶抑制剂混合物))进行裂解。将细胞沉淀悬浮于新鲜制备的冷裂解缓冲液中，并使用1mL注射器使通过25号针头5-6次。将裂解物在冰上孵育30分钟，并在4℃下以15,000rpm离心20分钟。将澄清的裂解物收集在新试管中，并用NANODROP分析以测量蛋白质浓度。对800μg澄清的裂解物进行Cas9免疫沉淀，在裂解缓冲液中稀释，并在4℃下与Cas9一级抗体(1∶100)孵育过夜。第二天，在4℃下将免疫复合物固定在转鼓上的50μL蛋白GSEPHAROSE珠上持续4小时。然后将珠用CO-IP裂解缓冲液(3X)洗涤，重悬于30μL SDS样品缓冲液中，煮沸5分钟，并用HSC70一级抗体(1∶1000)进行蛋白质印迹。

结果显示在图13A中。共免疫沉淀显示FaDe-Cas9而不是Cas9与CMA分子伴侣HSC70相互作用。如抗HSC70印迹所示，使用抗HSC70抗体检测到FaDe-Cas9，但未检测到Cas9。

FaDe-Lamp2A的共定位。将以7×10³细胞密度接种在96孔板中的HEK293细胞用50ng Cas9-GFP-Fused或FaDe-Cas9-GFP-Fused和30ng Lamp2A-dsRed-Fused共转染。转染后24小时，通过INCUCYTE zoom分析细胞。参见图14为转染到细胞中的质粒的示意图。

结果显示在图13B和15中。GFP标记的Cas9或FaDe-Cas9显示绿色荧光，而mCherry标记的Lamp2A显示红色荧光。免疫荧光信号的可视化表明FaDe-Cas9与溶酶体蛋白和CMA调节剂Lamp2A共定位在胞质溶胶中。与Lamp2A的共定位表明活性降解。

亚细胞蛋白分级。用胰蛋白酶-EDTA收获细胞，然后以500×g离心5分钟。用冰冷的PBS洗涤细胞沉淀，并且干燥除去并丢弃上清液。将含有蛋白酶抑制剂的冰冷细胞提取缓冲液(CEB)添加到细胞沉淀中以进行细胞质提取，并在4℃下孵育10分钟。将裂解物以500×g离心5分钟。然后将上清液(细胞质提取物)转移到冰上的干净的预冷管中。将含有蛋白酶抑制剂的冰冷膜提取缓冲液(MEB)添加到沉淀中以提取膜，并在4℃下孵育10分钟，然后在3000×g下离心5分钟。对于核提取，将每100μL含蛋白酶抑制剂加5μL 100mM CaCl₂和3μL微球菌核酸酶(300单位)的冰冷核提取缓冲液(NEB)添加到沉淀中，并在4℃孵育10分钟，然后在室温下孵育5分钟。然后通过在4℃下以15,000rpm离心10分钟来使裂解物澄清。测量来自每个细胞区室的蛋白质提取物以定量蛋白质浓度，并在NUPAGE Bis-Tris SDS蛋白质凝胶上分离。

转染后48小时，Cas9和FaDe-Cas9的亚细胞定位结果显示在图16中。在相同的亚细胞位置发现Cas9和FaDe-Cas9，这表明FaDe-Cas9中的F185N突变不影响区室化。

实例3.酶活性、靶上和脱靶插入缺失的分析

基因组DNA提取。使用Gentra Puregene试剂盒进行基因组DNA提取。将细胞沉淀悬浮在300μL裂解缓冲液中，并在添加蛋白质沉淀缓冲液(100μL)后在冰上孵育5分钟。然后将裂解物以14,000rpm离心10分钟；将上清液与300μL异丙醇混合以沉淀DNA，然后以14,000rpm离心10分钟。将DNA沉淀用100μL 70％乙醇洗涤，并悬浮在30μL水中。用NANODROP测量DNA浓度。

Surveyor核酸酶测定。PCR：在20μL总体积(具有100ng gDNA和10μL 2X主混合物(PHUSION Flash高保真PCR)加1μL正向和反向引物(10μM))中进行PCR。PCR如下进行：在95℃下变性3分钟，然后将在95℃下变性5秒、在58℃下退火30秒、在72℃下延伸(1min/1,000bps)，循环35次，最后延伸5分钟。

消化：通过在99℃加热5分钟使PCR产物变性，然后通过冷却至65℃持续30分钟和冷却至23℃持续30分钟再退火以形成异源双链体。

用Surveyor核酸酶(也称为CEL核酸酶)处理杂交的异源双链体或同源双链体，该Surveyor核酸酶识别异源双链体DNA中存在的错配并在错配失真的3’侧裂解两条链。因此，将50μL反应体积中的20μL未纯化的PCR产物(约250ng)用1μLsurveyor酶+1μL增强子在42℃下消化20分钟。然后通过在10％丙烯酰胺凝胶上电泳40分钟分离10μL经处理的DNA。

确定Cas9和FaDe-Cas9在HEK细胞中的核酸酶效率的测定结果示于图17A中。如显示“切割”DNA的凝胶带所示，Cas9和FaDe-Cas9核酸酶活性是相当的。图17B所示的下一代测序分析证实Cas9(12.8％)和FaDe-Cas9(16.5％)的可比核酸酶效率。图18显示在hiPSC中，FaDe-Cas9具有与Cas9相当的核酸酶活性水平。

EMX1/FANCF1脱靶分析。将HEK293细胞以60×10⁴的密度接种到12孔板中，并用800ng编码Cas9或FaDe-Cas9的质粒和200ng编码gRNA(EMX1或FANCF1)的质粒共转染。使用FUGENE HD转染试剂进行转染。转染后72小时收获细胞，并裂解以进行基因组DNA提取。用100ng gDNA、1μl PHUSION FLASH高保真PCR主混合物以及与根据来自依诺米那公司(Illumina)的制造商的建议设计的衔接子融合的正向和反向引物进行靶上和脱靶区域的PCR扩增。PCR如下进行：在95℃下变性1分钟，然后将在95℃下变性30秒、在58℃下退火30秒、并在72℃下延伸30秒，循环30次，最后延伸2分钟。纯化PCR产物并通过下一代测序进行分析。

结果显示在图19中。虽然FaDe-Cas9与Cas9相比具有略低的靶上修饰，但是FaDe-Cas9的脱靶修饰与Cas9相比显著降低。因此，FaDe-Cas9显示比Cas9增加的标准化靶上修饰效率。

核糖核蛋白(RNP)电穿孔。Cas9/RNP的预复合：在1.5mL试管中，将100pmol Cas9或FaDe-Cas9与120pmol合成双gRNA在10μL 1X Cas9缓冲液中混合，并在室温下孵育20分钟。将20×10⁴密度的HEK293细胞悬浮于20μL电穿孔缓冲液SF中，并与RNP复合物孵育2分钟。使用4D核转染仪(龙沙公司(Lonza))对细胞进行电穿孔。核转染后，将细胞接种于具有1mL完全培养基(DMEM)的12孔板中，并在不同时间点(3小时；6小时；10小时；24小时)收获。

RNP转染。将人iPSC以20×10⁴的密度接种，并用浓度递增的Cas9或FaDe-Cas9和3μM双gRNA转染。用Lipofectamine CRISPRMAX转染试剂进行转染。感染后48小时，裂解细胞以提取基因组DNA，并通过PCR证实缺失。

实例4.Cas9表达对细胞的影响

实例4.1

用野生型Cas9转染人尿道上皮细胞(SVHUC-1)。通过ddPCR证实含有Cas9的细胞克隆(图1A，上小图)。Cas9稳定细胞系生成后四周，细胞增殖并在24、48和72小时计数。来自野生型细胞(无Cas9)、克隆1(杂合Cas9整合)和克隆3(纯合Cas9整合)的细胞计数显示下降趋势(图1A，下小图)。

实例4.2

用强力霉素诱导型启动子上的野生型Cas9转染小鼠。诱导后测量小鼠的体重(“iCas dox”)，并与野生型小鼠(“WT水”)、具有强力霉素的野生型小鼠(“WT dox”)以及转染但不表达Cas9的小鼠(“iCas水”)进行比较。图1B中的结果显示，与不表达Cas9的小鼠相比，转染并表达野生型Cas9的小鼠表现出体重减轻。

实例4.3

用野生型Cas9瞬时转染人诱导的多能干细胞(hiPSC)。在Cas9瞬时表达后5周拍摄细胞的显微镜图像。如图2所示，当瞬时表达Cas9时，hiPSC丧失其未分化表型。

实例5.Cas9相对于FaDe-Cas9的蛋白质周转分析

实例5.1通过ELISA测定法测量的Cas9和FaDe-Cas9细胞内蛋白水平

将20x10⁴密度的HEK293细胞悬浮在20ul电穿孔缓冲液SF中，并与RNP复合物一起孵育2分钟。使用4D核转染仪(4D核转染仪核心单位：龙沙公司，AAF-1002B；4D核转染仪X单位：AAF-1002X；龙沙公司)对细胞进行电穿孔。核转染后，将细胞接种于具有1ml完全培养基(DMEM)的12孔板中，并在24小时收获。将细胞裂解并按照说明手册通过商业试剂盒ELISA测定(细胞生物学实验室)分析蛋白质水平：将细胞或组织裂解液在裂解缓冲液如RIPA缓冲液(25mM Tris·HCl pH7.6、150mM NaCl、1％NP-40、1％脱氧胆酸钠、0.1％SDS)中超声处理或进行匀浆并在测定前在4℃以10,000xg离心10分钟。

结果如图24A所示。在RNP电穿孔7.5ug/10^5个细胞时，与＜0.1％FaDe-Cas9相比，在24h时回收了约5％的细胞内Cas9。在电穿孔后24h，FaDe-Cas9在细胞中的丰度降低＞97％。

实例5.2蛋白质周转和降解的测量

用GFP融合的Cas9或FaDe-Cas9以30x10⁴的密度转染HEK293细胞，并通过incucyte随时间分析GFP表达。

在转染后12小时，将细胞用CHX(10ug/ml)处理以抑制蛋白质合成，并且与未处理的细胞相比，在GFP信号之后测量Cas9与FaDe-Cas9的降解蛋白质。

通过GFP表达，FaDe-Cas9不太丰富并且从未达到用Cas9观察到的细胞内蛋白质水平(图24B)。暴露于蛋白质翻译抑制剂环己酰亚胺(CHX)的细胞显示FaDe-Cas9水平随时间的下降，相反，Cas9蛋白质水平随时间保持恒定(图24C)。

实例6.CMA对FaDe-Cas9的高蛋白质周转和蛋白亚细胞定位的作用实例6.1.Lamp2A敲低

使用RNAiMAX转染试剂和OPTIMEM，用GFP融合表达载体Cas9或FaDe-Cas9加Ds-Redlamp2a载体(2∶1)，加gRNA(3∶1)和增加剂量的siRNA(10-20-40-60-90-100ng)共转染7x10³密度的HEK293细胞。作为对照，用加扰的siRNA共转染HEK293细胞。在incucyte zoom下随时间监测转染的细胞以通过GFP信号分析KD lamp2a效率和蛋白质积累。

为了抑制CMA，通过siRNA降低溶酶体受体Lampa2a的表达。siRNA转染导致Lamp2a受体的剂量依赖性降低(图25A/B)，但Cas9的蛋白质水平未改变(图25A)，FaDe-Cas9显示剂量依赖性累积，表明其降解依赖于CMA(图25B)。

实例6.2Cas9-HSC70-共免疫沉淀。

使用MaxCyte，用20ug的FaDe-Cas9的标记标签融合的Cas9对HEK293s细胞(5000万)进行电穿孔。电穿孔后24小时，用100uM亮抑酶肽(组织蛋白酶B抑制剂)处理细胞以暂时抑制溶酶体的降解。电穿孔后48小时收获细胞，并用CO-IP裂解缓冲液(KCl 140mM、3mMMgCl2、0.5％Nonidet P-40、20mM Hepes pH 7.4、1mM EDTA、1.5mM EGTA、蛋白酶抑制剂(无EDTA的蛋白酶抑制剂混合物，西格玛公司))进行裂解。将细胞沉淀悬浮在冷且新鲜制备的裂解缓冲液中，并使用1ml注射器通过25号针头5-6次。将裂解物在冰上孵育30分钟，并在4℃下以15,000离心20分钟。将澄清的裂解物收集在新试管中，并用Nanodrop分析以测量蛋白质浓度。对800ug澄清裂解物进行Cas9免疫沉淀，将其在裂解缓冲液中稀释，并与标记一级抗体(抗-FLAG F7425 SIGMA 1∶500)一起在4℃下孵育过夜。第二天，在4℃下将免疫复合物固定在转鼓上的蛋白质G-琼脂糖珠(50ul)上持续4小时。将珠用CO-IP裂解缓冲液(3X)洗涤，重悬于SDS样品缓冲液(30u1)中，煮沸5分钟，并用Cas9和HSC70一抗(1∶1000)进行蛋白质印迹。将30ug裂解物用作INPUT以确认蛋白质的总量。

免疫沉淀显示，FaDe-Cas9与分子伴侣介导的自噬HSC70的主调节剂具有高亲和力结合。结果显示在图26中。

实例7.Cas9相对于FaDe-Cas9体内小鼠模型

实例7.1腺病毒构建体

表达Cas9或FaDe-Cas9和gRNA(Ad-Cas9-gMH和Ad-Cas9-gP和Ad-FaDe-Cas9-gMH和Ad-FaDe-Cas9-gP)的腺病毒由Vector Biolabs公司(莫尔文(Malvern))产生。Adv Cas9/FaDe和gRNA分别在复制缺陷型腺病毒血清型5(dE1/E3)骨架中由鸡β-肌动蛋白杂合体(CBh)和U6启动子表达。也产生分别由CBh和CMV启动子表达Cas9和GFP，但不表达gRNA的阴性对照腺病毒(Ad-Cas9-GFP和Ad-FaDe-Cas9-GFP)。

实例7.2体内靶上/脱靶分析

对于体内脱靶编辑分析，(gP)(一种靶向小鼠PCSK9基因座混杂指导RNA)因其诱导多个脱靶突变小鼠基因组的高可能性而被选择(图27A)。

使9至11周龄雄性小鼠接受尾静脉注射，剂量为1×10⁹感染单位(IFU)的腺病毒(Ad-Cas9-gp或Ad-FaDe-Cas9-gp、或Ad-Cas9-GFP或Ad-FaDe-Cas9-GFP)，在200μl磷酸盐缓冲盐水稀释液中。在病毒施用前(基线)、病毒施用后一周和终止时(病毒施用后四天或三周)采集外周血。

在处理后第7天从注射腺病毒的小鼠的肝组织提取基因组DNA，以进行插入缺失分析。通过CIRCLE-seq，通过选择读取计数高于靶上50％的位点和各种较低排名的位点(相对于靶上，最多包含6个错配)来进行靶向深度测序，从而鉴定出脱靶。对小鼠模型中gP的靶上+9个脱靶位点的基因编辑频率的评估表明，与Cas9相比，9个中的4个不同的脱靶位点显示显著降低的FaDe-Cas9基因编辑(图27B)。

实例7.3下一代测序(NGS)

使用磁珠纯化PCR产物，使用QuantiFlor dsDNA System试剂盒(普洛麦格公司)进行定量，标准化至每个扩增子10ng/μl，并合并。使用End Prep酶混合物和来自依诺米那公司的NEBNext Ultra II DNA文库制备试剂盒中的反应缓冲液对合并的样品进行末端修复和A加尾，并使用同一试剂盒中的连接主混合物和连接增强子连接到Illumina TruSeq衔接子。然后用磁珠纯化文库样品，使用PEG/NaCl SPRI溶液(KAPA Biosystems)进行大小选择，使用液滴数字PCR(BioRad)进行定量，并加载到Illumina MiSeq上进行深度测序。

实例7.4体内基因组编辑和生存力评估

对于体内Pcsk9基因编辑，使携带小鼠或人PSCK9的单个等位基因的9至11周龄人源化PCSK9小鼠(PCSK9KIKO)接受尾静脉注射，剂量为1×109感染单位(IFU)的腺病毒(Ad-Cas9-gMH或Ad-FaDe-Cas9-gMH和Ad-Cas9-GFP或Ad-FaDe-Cas9-GFP)，在200μl磷酸盐缓冲盐水稀释液中。在处理后第7天从注射腺病毒的小鼠的肝组织提取基因组DNA，以通过NGS分别对人和小鼠PCSK9基因座进行插入缺失分析。将肝叶包括在石蜡块中，并用苏木精和曙红(H&E)、有丝分裂标记Ki6、Cas9、裂解胱天蛋白酶3、p-H2AX和CD4/CD8进行染色。

暴露于FaDe-Cas9的小鼠肝脏由于其在肝组织中的快速降解而显示出更高的基因编辑，继而导致编辑细胞的存活率提高，如图28A所示。与Cas9相比，FaDe-Cas9的体内快速周转导致较低的肝毒性，这通过未改变的肝糖原、几乎不可检测的有丝分裂标记Ki67、较少量的浸润物和最小的细胞坏死来证实。(图28B/C)。

此外，发现病毒介导的FaDe-Cas9的体内表达导致较低的细胞毒性T淋巴细胞免疫应答(图29)。AdV递送后一周，Cas9在肝细胞中仍高度表达，而FaDe-Cas9无法检测到(A，E)。FaDe-Cas9的较短潜伏期导致肝细胞中较低水平的凋亡(裂解的胱天蛋白酶3IHC；B，F)和DNA双链断裂(磷酸H2AX IHC；C，G)。虽然在鼠肝脏中对Cas9递送的免疫反应由中等数量的CD4+(记忆)淋巴细胞和许多CD8+(细胞毒性)淋巴细胞组成，但后者在FaDe-Cas9 AdV感染的肝脏中明显减少(CD4-CD8 IHC；D，H)。

Claims

1.一种包含工程化的KFERQ基序或KFERQ样基序的重组Cas9蛋白。

2.如权利要求1所述的重组Cas9蛋白，其中该工程化的KFERQ基序或KFERQ样基序选自KFERQ(SEQ ID NO：24)、RKVEQ(SEQ ID NO：25)、QDLKF(SEQ ID NO：26)、QRFFE(SEQ ID NO：27)、NRVVD(SEQ ID NO：28)、QRDKV(SEQ ID NO：29)、QKILD(SEQ ID NO：30)、QKKEL(SEQ IDNO：31)、QFREL(SEQ ID NO：32)、IKLDQ(SEQ ID NO：33)、DVVRQ(SEQ ID NO：34)、QRIVE(SEQID NO：35)、VKELQ(SEQ ID NO：36)、QKVFD(SEQ ID NO：37)、QELLR(SEQ ID NO：38)、VDKLN(SEQ ID NO：39)、RIKEN(SEQ ID NO：40)、NKKFE(SEQ ID NO：41)及其组合。

3.如权利要求1或2所述的重组Cas9蛋白，其中该工程化的KFERQ样基序是VDKLN(SEQID NO：39)。

4.如权利要求1所述的重组Cas9蛋白，其中该工程化的KFERQ基序或KFERQ样基序在该Cas9蛋白的REC叶中。

5.如权利要求2所述的重组Cas9蛋白，其中该工程化的KFERQ基序或KFERQ样基序在该REC叶的Rec2结构域中。

6.如权利要求1所述的重组Cas9蛋白，其中该工程化的KFERQ基序或KFERQ样基序在该重组Cas9蛋白的HNH结构域、RuvC结构域或PI结构域中。

7.如权利要求1至4中任一项所述的重组Cas9蛋白，其中该工程化的KFERQ基序或KFERQ样基序在该重组Cas9蛋白的表面暴露的区域中。

8.如权利要求1至6中任一项所述的重组Cas9蛋白，其中该工程化的KFERQ基序或KFERQ样基序在该重组Cas9蛋白的N末端或C末端。

9.一种包含野生型Cas9蛋白的一个或多个氨基酸修饰的重组Cas9蛋白，这些修饰将分子伴侣介导的自噬(CMA)靶基序或内体微自噬(eMI)靶基序引入该Cas9蛋白中，其中该重组Cas9蛋白在体内的降解比该野生型Cas9蛋白或不包含该CMA或eMI靶基序的Cas9蛋白快至少20％。

10.如权利要求9所述的重组Cas9蛋白，其中该重组Cas9蛋白在体内的降解比该野生型Cas9蛋白或不包含该CMA或eMI靶基序的该Cas9蛋白快至少50％。

11.如权利要求9或10所述的重组Cas9蛋白，其中该重组Cas9蛋白在体内的降解比该野生型Cas9蛋白或不包含该CMA或eMI靶基序的该Cas9蛋白快至少80％。

12.一种包含野生型Cas9蛋白的一个或多个氨基酸修饰的重组Cas9蛋白，其中该重组Cas9蛋白包含CMA靶基序或eMI靶基序。

13.如权利要求9至12中任一项所述的重组Cas9蛋白，其中该CMA靶基序或该eMI靶基序选自KFERQ(SEQ ID NO：24)、RKVEQ(SEQ ID NO：25)、QDLKF(SEQ ID NO：26)、QRFFE(SEQ IDNO：27)、NRVVD(SEQ ID NO：28)、QRDKV(SEQ ID NO：29)、QKILD(SEQ ID NO：30)、QKKEL(SEQID NO：31)、QFREL(SEQ ID NO：32)、IKLDQ(SEQ ID NO：33)、DVVRQ(SEQ ID NO：34)、QRIVE(SEQ ID NO：35)、VKELQ(SEQ ID NO：36)、QKVFD(SEQ ID NO：37)、QELLR(SEQ ID NO：38)、VDKLN(SEQ ID NO：39)、RIKEN(SEQ ID NO：40)、NKKFE(SEQ ID NO：41)及其组合。

14.如权利要求13所述的重组Cas9蛋白，其中该CMA靶基序或该eMI靶基序是VDKLN(SEQID NO：39)。

15.如权利要求9至14中任一项所述的重组Cas9蛋白，其中该一个或多个氨基酸取代位于该重组Cas9蛋白的表面暴露的区域中。

16.一种分离自酿脓链球菌的重组Cas9蛋白(SpCas9)，该重组Cas9蛋白在SEQ ID NO：1的位置F185、A547、I548、T560、V561、D829、I830、L1087、S1088、P1199、K1200或其组合中的一个或多个处包含氨基酸修饰。

17.如权利要求9至16中任一项所述的重组Cas9蛋白，其中该氨基酸修饰包含以下突变中的一个或多个：

(a)F185N；

(b)A547E/I548L；

(c)T560E/V561Q；

(d)D829L/I830R；

(e)L1087E/S1088Q；或

(f)P1199D/K1200Q。

18.如权利要求9至17中任一项所述的重组Cas9蛋白，其中该氨基酸修饰是F185处的突变。

19.如权利要求18所述的重组Cas9蛋白，其中该突变是F185N。

20.如权利要求16至19中任一项所述的重组Cas9蛋白，其中该氨基酸修饰导致CMA靶基序或eMI靶基序。

21.如权利要求9至20中任一项所述的重组Cas9蛋白，其中该重组Cas9蛋白与SEQ IDNO：1具有至少90％同一性。

22.一种能够与70kD的热休克同源蛋白(HSC70)结合的重组Cas9蛋白。

23.一种分离自酿脓链球菌的重组Cas9蛋白(SpCas9)，该重组Cas9蛋白在SEQ ID NO：1的氨基酸位置185处包含工程化的KFERQ基序或KFERQ样基序。

24.如权利要求23所述的重组Cas9蛋白，其中该KFERQ样基序是VDKLN(SEQ ID NO：39)。

25.如权利要求1至24中任一项所述的重组Cas9蛋白，该重组Cas9蛋白进一步在SEQ IDNO：1中的位置D10、H840或其组合处包含突变。

26.如权利要求25所述的重组Cas9蛋白，其中该突变选自D10A或D10N；H840A、H840N或H840Y；及其组合。

27.如权利要求1至26中任一项所述的重组Cas9蛋白，其中该重组Cas9蛋白产生粘性末端。

28.如权利要求1至27中任一项所述的重组Cas9蛋白，该重组Cas9蛋白进一步包含一个或多个核定位信号。

29.一种编码如权利要求1至28中任一项所述的重组Cas9蛋白的多核苷酸序列。

30.如权利要求29所述的多核苷酸序列，其中对该多核苷酸序列进行密码子优化以在真核细胞中表达。

31.一种非天然存在的CRISPR-Cas系统，其包含：

(a)如权利要求1至28中任一项所述的重组Cas9蛋白；以及

(b)与该重组Cas9蛋白形成复合物并包含指导序列的指导多核苷酸。

32.一种非天然存在的CRISPR-Cas系统，其包含：

(a)如权利要求29或30所述的多核苷酸序列；以及

(b)编码与该重组Cas9蛋白形成复合物并包含指导序列的指导多核苷酸的核苷酸序列。

33.一种非天然存在的CRISPR-Cas系统，其包含：

(a)可操作地连接至如权利要求29或30所述的多核苷酸序列的调节元件；以及

34.如权利要求31至33中任一项所述的系统，其中该指导序列与同向重复序列连接。

35.如权利要求31至34中任一项所述的系统，其中该指导多核苷酸包含tracrRNA序列。

36.如权利要求31至34中任一项所述的系统，该系统进一步包含(c)包含tracrRNA序列的单独的多核苷酸。

37.如权利要求31至35中任一项所述的系统，其中编码该重组Cas9蛋白的多核苷酸序列和该指导多核苷酸在单个载体上。

38.如权利要求36所述的系统，其中编码该重组Cas9蛋白的多核苷酸序列、该指导多核苷酸和该tracrRNA序列在单个载体上。

39.一种包含如权利要求31至38中任一项所述的系统的递送颗粒。

40.一种包含如权利要求31至38中任一项所述的系统的囊泡。

41.如权利要求40所述的囊泡，其中该囊泡是外泌体或脂质体。

42.一种包含如权利要求31至38中任一项所述的系统的病毒载体。

43.如权利要求42所述的病毒载体，其中该病毒载体是腺病毒、慢病毒或腺相关病毒载体。

44.一种在细胞基因组中的靶序列处提供位点特异性修饰的方法，该方法包括将如权利要求31至38中任一项所述的CRISPR-Cas系统引入该细胞中。

45.如权利要求44所述的方法，其中该修饰包含该靶序列的至少一部分的缺失。

46.如权利要求44所述的方法，其中该修饰包含该靶序列的突变。

47.如权利要求44所述的方法，其中该修饰包括在该靶序列处插入目的序列(SoI)。

48.如权利要求44至47中任一项所述的方法，其中该细胞基因组中的脱靶修饰小于该重组Cas9产生的基因组中修饰的约5％。

49.如权利要求44至48中任一项所述的方法，其中该细胞基因组中的脱靶修饰小于该重组Cas9产生的基因组中修饰的约2％。

50.如权利要求44至49中任一项所述的方法，其中该细胞基因组中的脱靶修饰小于该重组Cas9产生的基因组中修饰的约1％。

51.如权利要求44至50中任一项所述的方法，其中相对于野生型CRISPR-Cas9或不包括KFERQ基序或KFERQ样基序的Cas9，该细胞基因组中的脱靶修饰减少至少约50％。

52.如权利要求44至51中任一项所述的方法，其中该细胞是细菌细胞、哺乳动物细胞或植物细胞。

53.如权利要求52所述的方法，其中该细胞是人细胞。

54.如权利要求53所述的方法，其中该细胞是多能干细胞。

55.如权利要求54所述的方法，其中该细胞是诱导的多能干细胞。

56.如权利要求44至55中任一项所述的方法，其中该指导多核苷酸的该指导序列能够与该细胞基因组中的该靶序列杂交。

57.如权利要求44至56中任一项所述的方法，其中将该CRISPR-Cas系统经由递送颗粒、囊泡或病毒载体引入该细胞中。