CN117940560A

CN117940560A - 具有改进的pam特异性的新型小rna可编程核酸内切酶系统及其用途

Info

Publication number: CN117940560A
Application number: CN202280060415.0A
Authority: CN
Inventors: A·科宁; F·里奇特; A·尼林克斯
Original assignee: Bayer AG
Current assignee: Bayer AG
Priority date: 2021-09-07
Filing date: 2022-08-31
Publication date: 2024-04-26
Also published as: CA3231017A1; AU2022343842A1; JP2024534928A; EP4399288A1; EP4144841A1; WO2023036669A1

Abstract

本文描述的是使用新型M‑SmallCas9核酸酶及其变体用于靶向、编辑或操纵细胞中DNA的新型系统。M‑SmallCas9核酸酶来源于野生型或亲本小II型CRISPR Cas9核酸内切酶，与亲本II型CRISPR Cas9酶结合简单的PAM序列相比表现出提高的保真度，并且是小的核酸内切酶尺寸。

Description

具有改进的PAM特异性的新型小RNA可编程核酸内切酶系统及其用途

技术领域

本公开内容一般涉及分子生物学领域，具体涉及用于基因编辑的新型核酸酶。

背景技术

在过去几年中，使用CRISPR(成簇规律间隔短回文重复序列)-Cas(CRISPR相关蛋白)的RNA引导的DNA靶向原理编辑基因组已被广泛应用。已经描述了三种类型的CRISPR-Cas系统(I型、II型和IIb型、III型和V型)。用于基因组编辑的CRISPR-Cas的大多数用途都是使用II型系统。细菌II型CRISPR-Cas系统提供的主要优势在于对可编程DNA干扰的最低要求：由可定制的双RNA结构引导的核酸内切酶Cas9。如在化脓性链球菌(Streptococcuspyogenes)的原始II型系统中最初证明的那样，反式激活的CRISPR RNA(tracrRNA)与前体CRISPR RNA(pre-crRNA)的不可变重复序列(invariable repeat)结合，以形成双RNA，该双RNA对于在Cas9存在下通过RNase III的RNA共成熟和通过Cas9切割入侵DNA都是必需的。如在化脓性链球菌中所证明的，Cas9在成熟激活tracrRNA和靶向crRNA之间形成的双链体(duplex)引导下，在入侵的同源DNA中引入位点特异性双链DNA(dsDNA)断裂。Cas9是一种多结构域酶，它使用HNH核酸酶结构域来切割靶标链(target strand)(定义为与crRNA的间隔区序列(spacer sequence)互补)和RuvC样结构域(RuvC-Iike domain)来切割非靶标链(non-target strand)。核酸酶可以通过该核酸酶的选择性基序失活而起到切口酶(nickase)的作用。DNA裂解特异性由两个参数决定：(1)靶向原型间隔区序列(protospacersequence)的crRNA的可变的、间隔区衍生的序列(DNA靶标上与crRNA间隔区非互补的序列)，和(2)一个短序列，直接位于非靶标DNA链上原型间隔区3’(下游)处的原型间隔区相邻基序(Protospacer Adjacent Motif，PAM)。

研究表明，RNA引导的Cas9可以在多种细胞(包括原核生物和真核生物(包括人)的细胞)中用作基因组编辑工具。该系统是多功能的，通过对Cas9进行编程，使用多个向导RNA同时编辑基因组中的多个位点，从而实现多重基因组工程(multiplex genomeengineering)。Cas9转化为切口酶被证明有助于哺乳动物基因组中同源定向修复，同时降低诱变活性。此外，例如，Cas9催化失活突变体的DNA结合活性已被用于设计RNA可编程转录沉默和激活装置或表观遗传修饰物(epigenetic modifier)。

哺乳动物细胞中的基因组编辑部分受到Cas9蛋白尺寸的限制。来源于化脓性葡萄球菌的Cas9(SpyCas9)是迄今为止使用最广泛的酶，包含约4.2kb的DNA(WO2013/176722)，与同源单链向导RNA(single guide RNA，sgRNA)的直接组合进一步增加了尺寸。腺相关病毒是在基因治疗应用中用于递送Cas9酶的载体之一。然而，AAV负载尺寸(cargo size)被限制在约4.5kb。由于尺寸限制，递送Cas9及其sgRNA和潜在DNA修复模板可能会成为使用该方法的障碍。更小的Cas9分子已经被表征，但它们中大多数都存在原型间隔区相邻基序(PAM)序列不如SpyCas9所使用的原型间隔区相邻基序定义得那么明确的问题。例如，金黄色葡萄球菌(Staphylococcus aureus)(SauCas9使用“NNGRR(T)”序列，其中R＝A或G，空肠弯曲杆菌(Campylobacter jejuni)(Cja)Cas9分别使用“NNNACAC”/“NNNRYAC”PAM(其中Y＝T或G)(J.Biol.Chem.,Vol.295,Issue 19,2020,pp 6509-6517)。PAM的模糊性增加了该酶在与PAM具有高度或完美序列同一性的脱靶序列(off-target sequence)上产生不希望的活性的可能性。这些系统的特异性仍然令人担忧，因为意外地靶向类似位点(“脱靶”)会增加不良事件的可能性。

现有的CRISPR-Cas 9系统通常具有以下一个或多个缺点：

a)它们的尺寸太大，以至于无法在已建立的适合治疗的病毒递送系统的基因组中携带，如腺相关病毒(AAV)。

b)它们中的许多在非宿主环境中(例如，在真核细胞中，特别是在哺乳动物细胞中)基本上没有活性。

c)当间隔区和原型间隔区序列之间存在错配时，它们的核酸酶可以催化DNA链切割，导致不希望的脱靶效应，例如使它们不适合基因治疗用途或需要高精度的其他应用。

d)它们可能会激发免疫应答，从而限制其在哺乳动物体内的应用。

e)它们需要复杂和/或长的PAM，这限制了DNA靶向区段的靶标选择。

f)它们在质粒或病毒载体中表现出较差的表达。

发明内容

本发明涉及改进的和工程化的CRISPR Cas核酸酶(SmallCas9)，其基于小CRISPRCas9核酸酶，如金黄色葡萄球菌的CRISPR Cas 9核酸酶(M-SauCas9)(NCBI RefSeq IDJ7RUA5.1)和类似的CRISPR Cas核酸酶(一般是M-SmallCas9，其具有显著改进的PAM需求(例如，与SauCas9的“NNGRR(T)”相比的“NNGG”)(J.Biol.Chem.,Vol.295,Issue 19,2020,pp 6509-6517)，从而保持核酸酶的高活性。通过引入一个或一些选择的氨基酸交换，可以容易地优化野生型酶的PAM选择性，由此通常酶的活性一般不受影响。

本发明的一个具体实施方案是选自以下的多肽：

SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5，或与上述任何多肽具有至少95％同一性的任何多肽序列，条件是该多肽具有以下称为SauCas 9的氨基酸残基，而SauCas9中位置前面的氨基酸表征了该多肽中必须存在的氨基酸；

或者选自以下的多肽：

SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5，或与上述任何任何多肽具有至少95％同一性的任何多肽序列，条件是与来自金黄色葡萄球菌的Cas9序列(NCBI RefSeq ID J7RUA5.1)相比，该多肽包括以下氨基酸置换，而SauCas9中位置前面的氨基酸表征了该多肽中必须存在的氨基酸；

(I)SEQ ID NO:1的I1017K、P1013E、R991M

(II)SEQ ID NO:2的I1017K、P1013E、R991M、L989R

(III)SEQ ID NO:3的I1017K、P1013E、R991M、L989R、R1012G、D1010I、L1005C

(IV)SEQ ID NO:4的I1017K、P1013E、R991M、L989R、N986S、L988T

(V)SEQ ID NO:5的I1017K、P1013E、R991M、L989R、R1012G、D1010I、L1005C、N986S、L988T。

优选的是基于SEQ ID NO:2、3、4和5的多肽。

更优选的是基于SEQ ID NO:3、4和5的多肽。

甚至更优选的是基于SEQ ID NO:4和5的多肽。

甚至更特别优选的是基于SEQ ID NO:5的多肽

最优选的是根据SEQ ID NO:5的多肽

本发明的另一个实施方案涉及组合物，其包含：

(I)根据权利要求1至2中任一项所述的M-SmallCas9多肽；以及

(II)一种或多种单异源向导RNA(sgRNA)或允许原位产生这样的一种或多种sgRNA的DNA，每种sgRNA或编码sgRNA的DNA包含：

(a)能够与多核苷酸基因座中的靶序列杂交的工程化的DNA靶向区段，

(b)tracr伴侣序列(tracr mate sequence)，以及

(c)tracr RNA序列，

其中tracr伴侣序列能够与tracr序列杂交，并且其中(a)、(b)和(c)以5’至3’的方向排列。

优选地，这样的组合物工程化的DNA靶向区段在其3’末端与PAM序列直接相邻，或者这样的PAM序列在其3’部分是DNA靶向序列的一部分。

本发明的又另一个实施方案涉及在细胞中或体外的一个或多个位置靶向、编辑、修饰或操纵靶DNA的方法，所述方法包括

(I)将根据权利要求1至2中任一项所述的异源M-SmallCas9多肽或编码权利要求1或权利要求2的M-SmallCas9的核酸引入至细胞或体外环境中；以及

(II)将一种或多种单异源向导RNA(sgRNA)或编码这样的一种或多种sgRNA的DNA引入至细胞或体外环境中，每种sgRNA或编码sgRNA的DNA包含：

(a)包含RNA并能够与多核苷酸基因座中的靶序列杂交的工程化的DNA靶向区段，

(b)由RNA组成的tracr伴侣序列，以及

(c)由RNA组成的tracr RNA序列，

其中tracr伴侣序列与tracr序列杂交，并且其中(a)、(b)和(b)以5’至3’的方向排列；以及

(III)在靶DNA中产生一个或多个切口或缺口或碱基编辑，其中M-SmallCas9多肽通过sgRNA以其加工或未加工的形式被引导至靶DNA。

本发明的另一个实施方案涉及组合物用于在细胞中或体外的一个或多个位置靶向、编辑、修饰或操纵靶DNA的用途，所述组合物包含(I)根据权利要求1或权利要求2所述的M-SmallCas9多肽或编码相同多肽的核酸；和/或

(II)一种或多种单异源向导RNA(sgRNA)或适合于原位产生这样的一种或多种sgRNA的DNA，各自包含：

(a)由RNA组成并能够与多核苷酸基因座中的这样的靶序列杂交的工程化的DNA靶向区段，

(b)由RNA组成的tracr伴侣序列，以及

(c)由RNA组成的tracr RNA序列，

其中tracr伴侣序列与tracr序列杂交，并且其中(a)、(b)和(c)以5’至3’的方向排列。

在另一个实施方案中，本发明涉及细胞，其包含

(I)根据权利要求1或权利要求2所述的M-SmallCas9多肽，或编码根据权利要求1或权利要求2所述的M-SmallCas9多肽的核酸；以及

(b)tracr伴侣序列，以及

(c)tracr RNA序列，

本发明的另一个实施方案涉及试剂盒，其包含

(I)编码根据权利要求1或权利要求2所述的M-SmallCas9多肽的核酸序列，其中编码M-SmallCas9的核酸序列可操作地连接至启动子；以及

(II)一种或多种单异源向导RNA(sgRNA)或适合于原位产生这样的一种或多种sgRNA的DNA，每种sgRNA包含：

(b)tracr伴侣序列，以及

(c)tracr RNA序列，

表1包含本文所用蛋白质和命名法的参考文献

表1

本专利申请中对NCBI Refseq数据库的任何引用是指以下引文：National Centerfor Biotechnology Information(NCBI)[Internet].Bethesda(MD):National Libraryof Medicine(US),National Center for Biotechnology Information；[1988]-[cited2020March 26]。可以从以下网址获得：https://www.ncbi.nlm.nih.gov/protein)。例如，对于NCBI Refseq WP_0488803085，这是https://www.ncbi.nlm.nih.gov/protein/WP_048803085.

在一个方面，本文提供了在细胞中或体外的一个或多个位置靶向、编辑、修饰或操纵靶DNA的方法，该方法包括：(I)将本文公开的异源M-SmallCas9多肽或编码本文公开的M-SmallCas9的核酸引入至细胞或体外环境中；和(II)将一种或多种单异源向导RNA(sgRNA)或编码这样的一种或多种sgRNA的DNA引入至细胞或体外环境中，每种sgRNA或编码sgRNA的DNA包含：(a)包含RNA并能够与多核苷酸基因座中的靶序列杂交的工程化的DNA靶向区段，(b)由RNA组成的tracr伴侣序列，和(c)由RNA组成的tracr RNA序列，其中tracr伴侣序列与tracr序列杂交，并且其中(a)、(b)和(c)以5’至3’的方向排列；和(III)在靶DNA中产生一个或多个切口或缺口或碱基编辑，其中M-SmallCas9多肽通过sgRNA以其加工或未加工的形式被引导至靶DNA。

在一个方面，本文提供了组合物用于在细胞中或体外的一个或多个位置靶向、编辑、修饰或操纵靶DNA的用途，所述组合物包含(I)本文公开的M-SmallCas9多肽或编码相同多肽的核酸；和/或(II)一种或多种单异源向导RNA(sgRNA)或适合于原位产生这样的一种或多种sgRNA的DNA，各自包含：(a)由RNA组成并能够与多核苷酸基因座中的这样的靶序列杂交的工程化的DNA靶向区段，(b)由RNA组成的tracr伴侣序列，和(c)由RNA组成的tracrRNA序列，其中tracr伴侣序列与tracr序列杂交，并且其中(a)、(b)和(c)以5’至3’的方向排列。

在另一个方面，本文提供了一种细胞，其包含(I)本文公开的M-SmallCas9多肽，或编码本文公开的M-SmallCas9多肽的核酸；和(II)一种或多种单异源向导RNA(sgRNA)或适合于原位产生这样的一种或多种sgRNA的DNA，各自包含：(a)能够与多核苷酸基因座中的靶序列杂交的工程化的DNA靶向区段，(b)tracr伴侣序列，和(c)tracr RNA序列，其中tracr伴侣序列能够与tracr序列杂交，并且其中(a)、(b)和(c)以5’至3’的方向排列。

在又另一个方面，本文提供了一种试剂盒，其包含(I)编码本文公开的M-SmallCas9多肽的核酸序列，其中编码M-SmallCas9的核酸序列可操作地连接至启动子；和(II)一种或多种单异源向导RNA(sgRNA)或适合于原位产生这样的一种或多种sgRNA的DNA，每种sgRNA包含：(a)能够与多核苷酸基因座中的靶序列杂交的工程化的DNA靶向区段，(b)tracr伴侣序列，和(c)tracr RNA序列，其中tracr伴侣序列能够与tracr序列杂交，并且其中(a)、(b)和(c)以5’至3’的方向排列。

本文所提及的每个专利文件和科学文章的全部公开内容，以及由此引用的那些专利文件和科技文章，出于所有目的通过引用的方式明确地纳入本文。

下面更具体地描述本发明的额外特征和优点。

具体实施方式

本申请提供了新型CRISPR-Cas核酸酶和基于这样的核酸酶的基因编辑系统，该核酸酶是通过对来自以下物种的现有小CRISPR-Cas9核酸酶进行诱变而衍生的：金黄色葡萄球菌、路邓葡萄球菌(Staphylococcus lugdunensis)、巴氏葡萄球菌(Staphylococcuspasteuri)、猪葡萄球菌(Staphylococcus hyicus)和田鼠葡萄球菌(Staphylococcusmicroti)。与现有的CRISPR-Cas系统相比，这些核酸酶表现出优势，特别是与衍生它们的亲本核酸酶相比具有优势。然而，所鉴定的突变或交换氨基酸不限于上面列出的核酸酶。任何小CRISPR-Cas9核酸酶都可以通过引入本文所鉴定的交换氨基酸来改进其PAM特异性。新型核酸酶在本文中称为M-SmallCas9核酸酶(或M-SmallCas9核酸酶)。M-SmallCas9的改进的活性的实例可以包括在原核、真核和/或体外环境中，或在真核环境(例如，人宿主细胞)中从DNA质粒表达时，具有更高的活性。特别是，与现有的CRISPR Cas9系统相比，它们表现出改进的保真度，并且结合具有有利的酶尺寸。

根据本发明的新型CRISPR-Cas核酸酶统称为M-SmallCas9，并且衍生自小CRISPR-Cas9核酸酶，例如衍生自金黄色葡萄球菌(SauCas9)、路邓葡萄球菌(SluCas9)、巴氏葡萄球菌(SpaCas9)、猪葡萄球菌(ShyCas9)和田鼠葡萄球菌(SmiCas9)。与其相应的野生型核酸酶相比，M-SmallCas9核酸酶含有改进其基因编辑保真度的氨基酸改变。

特别地，M-SmallCas9核酸酶组包括如下成员，其在表2中描述：

M-SauCas_X(SEQ ID NO.1)

M-SluCas_X(SEQ ID NO.2)

M-SpaCas_X(SEQ ID NO.3)

M-ShyCas_X(SEQ ID NO.4)

M-SmiCas_X(SEQ ID NO.5)。M-SluCas_X的任何变体可替换地在SEQ ID NO 2、7或9的位置737处具有丝氨酸。

表2

表2的M-SmallCas9的优选成员的实例列在表3中：

表3

M-SmallCas9的其他实例有：

M-SauCas9-R420A，根据SEQ ID NO.6；

M-SluCas9-R414A，根据SEQ ID NO.7；并且还有以下蛋白质：

MGib11SpaCas9-3-E410A，根据SEQ ID NO.8

MGib11Spa-1-M417L，根据SEQ ID NO.133。

根据本发明的又另一个实施方案是M-SmallCas9的以下变体：

(I)与根据以下序列具有至少95％，例如至少99％，至少99.5％，至少99.9％，至少99.95％氨基酸同一性的变体：

a.SEQ ID NO:1、2、3、4和5中的任何一个在其整个长度上，但保留(sparing out)表1中列出的相应SEQ ID NO的那些氨基酸位置；以及

b.SEQ ID NO：6、7、8和133在其整个长度上，但条件是SEQ ID NO.6在位置420具有丙氨酸，SEQ ID NO.7在位置414具有丙氨酸，SEQ ID NO.8在位置414具有丙氨酸，并且SEQID NO.133在位置417具有亮氨酸。

(II)根据(I)的变体，其包含额外的组分，例如核定位信号，以不仅在无细胞反应(cell-free reaction)或原核细胞中，而且在真核细胞环境中，包括在活生物体(植物或动物等)中，获得M-SmallCas9 CRISPR系统的适当活性；

(III)编码M-SmallCas9的相应多核苷酸序列的密码子优化的变体，以及根据(I)和(II)的变体。

如果没有另外指定，术语M-SmallCas9包括在(I)、(II)、(III)下指定的所有变体。

在一些实施方案中，M-SmallCas9多肽与SEQ ID NO:1、2、3、4、5、6、7、8或133中的任何一个在其整个长度上显示至少95％的氨基酸同一性，例如至少99％、至少99.5％、至少99.9％、至少99.95％，或100％，不包括表1中列出的相应SEQ ID NO的那些氨基酸位置。

根据本发明的又另一个实施方案是M-SmallCas9的以下变体：

(IV)与根据以下序列具有至少95％、至少96％、至少97％、至少98％、至少99％、至少99.5％、至少99.9％，或至少99.95％氨基酸同一性的变体：

a.SEQ ID NO:1、2、3、4和5中的任何一个在其整个长度上，但保留表1中列出的相应SEQ ID NO的那些氨基酸位置；以及

b.SEQ ID NO:6、7、8和133在其整个长度上，但条件是SEQ ID NO.6在位置420具有丙氨酸，SEQ ID NO.7在位置414具有丙氨酸，SEQ ID NO.8在位置414中具有丙氨酸，并且SEQ ID NO.133在位置417具有亮氨酸。

(V)根据(I)的变体，其包含额外的组分，例如核定位信号，以不仅在无细胞反应或原核细胞中，而且在真核细胞环境中，包括在活生物体(植物或动物等)中，获得M-SmallCas9 CRISPR系统的适当活性；

(VI)编码M-SmallCas9的相应多核苷酸序列的密码子优化的变体，以及根据(I)和(II)的变体。

在一些实施方案中，M-SmallCas9多肽与SEQ ID NO:1、2、3、4、5、6、7、8或133中的任何一个在其整个长度上显示至少95％、至少96％、至少97％、至少98％、至少99％、至少99.5％、至少99.9％，或100％，不包括表1中列出的相应SEQ ID NO的那些氨基酸位置。

基于M-SmallCas9的CRISPR-Cas系统

根据本发明的一个实施方案代表的组合物包括：

(a)M-SmallCas9多肽或编码这样的M-SmallCas9的多核苷酸；

(b)单异源向导RNA(sgRNA)或允许原位产生这样的sgRNA的DNA，其包括：

i.由RNA组成并能够与多核苷酸基因座中的靶序列杂交的工程化的DNA靶向区段，

ii.由RNA组成的tracr伴侣序列，以及

iii.由RNA组成的tracrRNA序列，

其中tracr伴侣序列与tracr序列杂交，并且其中(i)、(ii)和(iii)以5’至3’的方向排列。

在sgRNA中，tracr伴侣序列和tracr序列通常通过合适的环序列连接，并形成茎-环结构。

用于CRISPR-Cas9系统(包括M-SmallCas9)的PAM序列

根据本发明通常使用的PAM序列列于表4中。

表4：适合相应的M-SmallCas9核酸内切酶的PAM序列

M-SmallCas9	PAM序列(N为A、T、C、G中的任意一个)
		M-SauCas9	“NNGRR(T)，其中R为A或G”
M-SluCas9	“NNGG”
		M-SpaCas9	“NNGG”
M-ShyCas9	“NNARVM”PAM(其中R＝A或G；V＝A、C或G；M＝A或C)，例如“NNAAAA”
		M-SmiCas9	“NNGG”

在一些实施方案中，编码M-SmallCas9的多核苷酸和sgRNA包含用于在细胞或体外环境中表达的合适的启动子和/或合适的核定位信号。

根据本发明的另一个实施方案代表在细胞中或体外的一个或多个位置靶向、编辑、修饰或操纵靶DNA的方法，其包括以下步骤：

(a)将异源M-SmallCas9多肽或编码相同蛋白质的核酸引入至细胞或体外环境中；以及

(b)引入单异源向导RNA(sgRNA)或适合于原位产生这样的sgRNA的DNA，其包含：

ii.由RNA组成的tracr伴侣序列，以及

iii.由RNA组成的tracr RNA序列，

其中tracr伴侣序列能够与tracr序列杂交，并且其中(i)、(ii)和(iii)以5’至3’的方向排列；

(c)在该靶DNA中产生一个或多个缺口、切口或编辑，其中M-SmallCas9多肽通过sgRNA以其加工或未加工的形式被引导至靶DNA。

根据本发明的另一个实施方案是组合物用于在细胞中或体外的一个或多个位置靶向、编辑、修饰或操纵靶DNA的用途，所述组合物包含

(a)M-SmallCas9多肽或编码这样的M-SmallCas9的多核苷酸；

(b)单异源向导RNA(sgRNA)或适合于原位产生这样的sgRNA的DNA，其包含：

i.由RNA组成并能够与多核苷酸基因座中的这样的靶序列杂交的工程化的DNA靶向区段，

ii.由RNA组成的tracr伴侣序列，以及

iii.由RNA组成的tracr RNA序列，

根据本发明的另一个实施方案是离体或体外的细胞，其包含：

(a)异源M-SmallCas9多肽或编码相同多肽的核酸

ii.由RNA组成的tracr伴侣序列，以及

iii.由RNA组成的tracr RNA序列，

其中tracr伴侣序列与tracr序列杂交，并且其中(i)、(ii)和(iii)以5’至3’的方向排列；

或这样的细胞，已经使用上述(a)和(b)靶向、编辑、修饰或操纵其基因组。

根据本发明的附加实施方案是试剂盒，其包含：

(a)编码M-SmallCas9的核酸序列，其中编码M-SmallCas9的该核酸序列可操作地连接至启动子或核糖体结合位点；

ii.由RNA组成的tracr伴侣序列，以及

iii.由RNA组成的tracr RNA序列，

或

(a)M-SmallCas9蛋白；

(b)一种或多种单异源向导RNA(sgRNA)，其各自包含：

iv.由RNA组成并能够与多核苷酸基因座中的这样的靶序列杂交的工程化的DNA靶向区段，

v.由RNA组成的tracr伴侣序列，以及

vi.由RNA组成的tracr RNA序列，

根据本发明的又另一个实施方案包括用于在细胞中或体外的一个或多个位置靶向、编辑、修饰或操纵一个或多个靶DNA的组合物和方法，其包括：

(a)M-SmallCas9

(b)向导RNA(gRNA)或适合于原位产生这样的gRNA的DNA，其包括：

ii.由RNA组成的tracr RNA序列；

其中(i)和(ii)在一个RNA分子，并且(iii)在单独的RNA分子上。

多重技术(Multiplexing)

在另一个方面，本文提供了一种在细胞中多个位置编辑或修饰DNA的方法，该方法主要由以下步骤组成：i)将M-SmallCas9多肽或编码M-SmallCas9多肽的核酸引入至细胞；和ii)在一个启动子的控制下将包含两个或更多个前体CRISPR RNA(pre-crRNA)的单异源核酸以作为RNA的形式或编码为DNA的形式的引入至细胞，每个pre-crRNA包含重复序列间隔区阵列(repeat-spacer array)或重复间隔区(repeat-spacer)，其中间隔区包含与该DNA中的靶序列互补的核酸序列，并且重复序列(repeat)包含茎-环结构，其中M-SmallCas9多肽在茎-环结构上游切割两个或更多个pre-crRNA以产生两个或更多个中间crRNA(intermediate crRNA)，其中两个或更多个中间crRNA被加工成两个或更多个成熟crRNA，并且其中每两个或更多个成熟的crRNA引导M-SmallCas9多肽在DNA中产生两个或更多个双链断裂(DSB)。例如，M-SmallCas9的优点之一是可以仅引入一个pre-crRNA，该前体crRNA包括多个重复序列间隔区单元，在引入时，该pre-crRNA被M-SmallCas9加工成靶向DNA上多个不同序列的活性重复序列间隔区单元。

在另一个方面，本文提供了一种在细胞中多个位置编辑或修饰DNA的方法，其基本上由以下步骤组成：i)将具有降低的核糖核酸内切酶活性的M-SmallCas9形式作为多肽或编码M-SmallCas9多肽的核酸引入至细胞；和ii)在一个或多个启动子的控制下将包含两个或更多个前体CRISPR RNA(pre-crRNA)、中间crRNA或成熟crRNA的单异源核酸以作为RNA的形式或以编码为DNA的形式引入，每个crRNA包含重复序列间隔区阵列，其中间隔区包含与DNA中的靶序列互补的核酸序列，并且该重复序列包含茎-环结构，其中M-SmallCas9多肽结合至单异源RNA的一个或多个区域，该单异源RNA具有降低或缺失的核糖核酸内切酶活性且由单异源核酸中的一个或多个间隔区序列引导时具有完整的核酸内切酶活性。

在一些实施方案中，单异源核酸中的pre-crRNA序列在具体位置、方向、序列或用特定化学键连接在一起，以以定向或差异调节M-SmallCas9在由不同crRNA序列指定的每个位点上的核酸内切酶活性。

在另一个方面，本文提供了用于在细胞中的多个位置编辑或修饰DNA的结构或功能的通用方法的实例，其基本上由以下步骤组成：i)向细胞中引入RNA引导的核酸内切酶，例如M-SmallCas9，以作为多肽的形式或以编码该RNA引导的内切核酸酶的核酸的形式；和ii)在一个或多个启动子的控制下将包含或编码两个或更多个向导RNA或编码两个或更多个向导RNA的单异源核酸，以作为RNA的形式或以编码为DNA的形式引入，其中该RNA引导的核酸内切酶的活性或功能由该单异源核酸中的向导RNA序列引导。

定义

本文可互换使用的术语“多核苷酸”和“核酸”是指任何长度的核苷酸(核糖核苷酸或脱氧核糖核苷酸)的聚合形式。因此，该术语包括但不限于单链、双链或多链DNA或RNA、基因组DNA、cDNA、DNA-RNA杂交体/三螺旋，或包括嘌呤和嘧啶碱基或其它天然的、化学或生物化学修饰的、非天然的或衍生的核苷酸碱基的聚合物。

“寡核苷酸”通常指单链或双链DNA的约5至约100个核苷酸之间的多核苷酸。然而，出于本公开内容的目的，寡核苷酸的长度没有上限。寡核苷酸也称为“低聚物”或“寡聚物”，并且可以从基因中分离，或通过本领域中已知的方法化学合成。术语“多核苷酸”和“核酸”应理解为包括如可适用于所描述的实施方案的单链(如有义或反义)和双链多核苷酸。

“基因组DNA”是指生物基因组的DNA，包括但不限于细菌、真菌、古细菌、原生生物、病毒、植物或动物的基因组DNA。

术语“操纵”DNA包括结合、切开(nicking)一条链，或切割，例如剪切(cutting)两条DNA链；或包括修饰或编辑DNA或与DNA相关的多肽。操纵DNA可以沉默、激活或调节(增加或减少)由RNA或由DNA编码的多肽的表达，或防止或增强多肽与DNA的结合。

“茎-环结构”是指具有二级结构的核酸，该茎-环结构包括已知或预测形成通过主要地单链核苷酸(环部分)的区域连接在一侧上的双链(茎部分)的核苷酸的区域。在本文中还使用术语“发夹”和“回折(fold-back)”结构来指茎-环结构。这样的结构在本领域中是熟知的，并且与其在本领域中的已知含义一致地使用这些术语。如本领域所知，茎-环结构不需要精确的碱基配对。因此，茎结构可以包括一个或多个碱基错配。或者，碱基配对可以是精确的，例如不包括任何错配。

所谓“可杂交的”、“互补的”或“基本上互补的”，意指核酸(例如，RNA或DNA)包括使其能够非共价结合的核苷酸序列，如形成沃森-克里克碱基对(Watson-Crick base pair)和/或G/U碱基对，在适当的体外和/或体内温度和溶液离子强度条件下以序列特异性、反向平行的方式(如，核酸特异性地与互补核酸结合)与另一个核酸的“退火(anneal)”或“杂交(hybridize)”。如本领域所知，标准的沃森-克里克碱基配对包括：腺嘌呤(A)与胸腺嘧啶(T)配对，腺嘌呤(A)与尿嘧啶(U)配对，以及鸟嘌呤(G)与胞嘧啶(C)配对[DNA，RNA]。此外，本领域中还已知，对于两个RNA分子(例如，dsRNA)之间的杂交，鸟嘌呤(G)碱基与尿嘧啶(U)配对。例如，G/U碱基配对是tRNA反密码子与mRNA中的密码子碱基配对的背景下部分负责遗传密码简并性(例如，冗余性)。在本公开内容的上下文中，向导RNA分子的蛋白质结合区段(dsRNA双链体)的鸟嘌呤(G)被认为与尿嘧啶(U)互补，并且反之亦然。因此，当可以在向导RNA分子的蛋白质结合区段(dsRNA双链体)的给定核苷酸位置形成G/U碱基对时，该位置不被认为是非互补的，而是被认为是互补的。

杂交和洗涤条件是熟知的，并且在以下举例说明：Sambrook,J.,Fritsch,E.F.和Maniatis,T.Molecular Cloning:A Laboratory Manual,第二版,Cold Spring HarborLaboratory Press,Cold Spring Harbor(1989)，具体为第11章和其中的表11.1；以及Sambrook,J.和Russell,W.,Molecular Cloning:A Laboratory Manual,第三版,ColdSpring Harbor Laboratory Press,Cold Spring Harbor(2001)。温度和离子强度的条件决定杂交的“严格性”。

杂交需要两个核酸包含互补序列，尽管碱基之间可能存在错配。适用于两个核酸之间杂交的条件取决于核酸的长度和互补的程度，这是本领域中熟知的变量。两个核苷酸序列之间的互补的程度越大，对于具有那些序列的核酸杂交体的解链温度(Tm)值越大。对于具有短段互补性(例如，互补性超过35或更少、30或更少、25或更少、22或更少，20或更少或18或更少个核苷酸)的核酸之间的杂交，错配的位置变得重要(参见Sambrook et al.,同上,11.7-11.8)。通常，可杂交核酸的长度为至少10个核苷酸。可杂交核酸的说明性最小长度为：至少15个核苷酸；至少20个核苷酸；至少22个核苷酸；至少25个核苷酸；以及至少30个核苷酸)。此外，本领域技术人员将认识到，根据例如互补区域的长度和互补的程度等因素，如必要可调整温度和洗涤溶液的盐浓度。

本领域中应当理解，多核苷酸的序列不需要与其靶核酸的序列100％互补才能特异性杂交。此外，多核苷酸可以在一个或多个区段上杂交，以使得介入区段或相邻区段不涉及杂交事件(例如，环结构或发夹结构)。多核苷酸可以包括与其靶向的靶核酸序列内的靶区域至少70％、至少80％、至少90％、至少95％、至少99％或100％的序列互补性。例如，一种反义核酸，其中反义化合物的20个核苷酸中的18个与靶区域互补并且因此特异性杂交，这表示90％互补性。在这个实例中，剩下的非互补核苷酸与互补核苷酸可为成簇的或散布的，且非互补核苷酸不需要彼此连续或与互补核苷酸连续。核酸内核酸序列的具体段之间的互补性百分比常规可以使用本领域中已知的BLAST程序(基本局部比对搜索工具)和PowerBLAST程序(Altschul et al.,J.Mol.Biol.1990,215,403-410；Zhang和Madden,Genome Res.,1997,7,649-656)或通过使用Gap程序(Wisconsin序列分析包,Unix第8版本,Genetics Computer Group,University Research Park,Madison Wis.)、使用默认设置(其使用Smith和Waterman的算法)(Adv.Appl.Math.1981(2)482-489)来确定。

术语“肽”、“多肽”和“蛋白质”在本文中可互换使用，并且是指任何长度的氨基酸的聚合形式，其可包括编码和非编码氨基酸、化学或生物化学修饰的或衍生的氨基酸以及具有修饰的肽骨架的多肽。

本文所用的“结合”(例如，关于多肽的RNA结合结构域)是指大分子之间(例如，蛋白质和核酸之间)的非共价相互作用。当处于非共价相互作用状态时，大分子被称为“缔合”或“相互作用”或“结合”(例如，当分子X被称为与分子Y相互作用时，意指分子X以非共价方式结合分子Y)。不是所有结合相互作用的组分都需要是序列特异性的(例如，与DNA骨架中的磷酸残基接触)，但结合相互作用中的一些部分可以是序列特异的。结合相互作用一般特征在于解离常数(Kd)小于10^-6M、小于10^-7M、小于10^-8M、小于10^-9M、小于10^-10M、小于10^-11M、小于10-¹²M、小于10^-13M、小于10^-14M或小于10^-15M。“亲和力”是指结合强度，增加的结合亲和力与较低的Kd相关。

“结合结构域”意指能够与另一分子非共价结合的蛋白质结构域。结合结构域可以结合例如DNA分子(DNA结合蛋白)、RNA分子(RNA结合蛋白)和/或蛋白质分子(蛋白质结合蛋白)。就蛋白质结构域结合蛋白来说，它可以结合其自身(以形成同源二聚体、同源三聚体等)和/或它可以结合一个或多个不同蛋白质的分子。

术语“保守氨基酸置换”是指具有类似侧链的氨基酸残基的蛋白质中的互换性。例如，具有脂族侧链的一组氨基酸由甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸组成；具有脂族-羟基侧链的一组氨基酸由丝氨酸和苏氨酸组成；具有含酰胺侧链的一组氨基酸由天冬酰胺和谷氨酰胺组成；具有芳香侧链的一组氨基酸由苯丙氨酸、酪氨酸和色氨酸组成；具有碱性侧链的一组氨基酸由赖氨酸、精氨酸和组氨酸组成；具有酸性侧链的一组氨基酸由谷氨酸和天冬氨酸组成；并且具有含硫侧链的一组氨基酸由半胱氨酸和甲硫氨酸组成。示例性的保守氨基酸置换基团是：缬氨酸-亮氨酸-异亮氨酸、苯丙氨酸-酪氨酸、赖氨酸-精氨酸、丙氨酸-缬氨酸和天冬酰胺-谷氨酰胺。

多核苷酸或多肽与另一个多核酸或多肽具有一定“序列同一性”百分比，这意味着，当比对时，碱基或氨基酸的百分比是相同的，并且当比较两个序列时，在相同的相对位置上。序列同一性可以通过多种不同的方式来确定。为了确定序列同一性，可以使用在万维网网址(包括ncbi.nlm.nili.gov/BLAST、ebi.ac.uk/Tools/msa/tcoffee、ebi.Ac.Uk/Tools/msa/muscle、mafft.cbrc/alignment/software)上可获得的各种方法和计算机程序(例如BLAST、T-COFFEE、MUCLE、MAFFT等)来比对序列。参见，例如Altschul et al.(1990),J.Mol.Biol.215:403-10。在本公开内容的一些实施方案中，根据本公开内容使用本领域的序列比对标准来确定M-SmallCas9多肽或其变体中“对应于”另一个Cas9核酸内切酶中氨基酸残基的氨基酸残基。与其他Cas9核酸内切酶的氨基酸残基相对应的M-SmallCas9多肽或其变体的氨基酸残基出现在序列比对中的相同位置。

“编码”具体RNA的DNA序列是转录成RNA的DNA核酸序列。多聚脱氧核苷酸可以编码被翻译成蛋白质的RNA(mRNA)，或者多聚脱氧核苷酸可以编码不被翻译成蛋白质的RNA(例如，tRNA、rRNA或向导RNA；也称为“非编码”RNA或“ncRNA”)。“蛋白质编码序列”或编码具体蛋白质或多肽的序列是核酸序列，转录成mRNA(在DNA的情况下)，并当将其置于适当的调控序列的控制下时在体外或体内被翻译成多肽(在mRNA的情况下)。编码序列的边界由5'末端(N-末端)的起始密码子和3'末端(C-末端)的翻译终止无义密码子来确定。编码序列可以包括但不限于，来自原核生物或真核生物mRNA的cDNA、来自原核生物和真核生物DNA的基因组DNA序列，以及合成核酸。转录终止序列将通常位于编码序列的3'端。

如本文所用，“启动子序列”或“启动子”是能够结合RNA聚合酶并启动下游(3'方向)编码或非编码序列转录的DNA调控区域。如本文所用，启动子序列的界限在其3'末端的转录起始位点，并向上游(5'方向)延伸，以包括在高于背景的可检测水平上启动转录所需的最小数目的碱基或元件。在启动子序列内将发现转录起始位点，以及负责RNA聚合酶结合的蛋白质结合结构域。真核生物启动子将经常但不总是包含“TATA”盒和“CAAT”盒。包括诱导型启动子在内的各种启动子可以用于驱动本公开内容的各种载体。启动子可以是组成型激活启动子(例如，在激活“打开(ON)”状态的组成型的启动子)，它可以是诱导型启动子(例如，通过外部刺激例如存在具体温度、化合物或蛋白质控制其状态为活性/“开”或非激活/“关闭(OFF)”的启动子)，它可以是空间限制的启动子(例如，转录调控元件、增强子等)(例如，组织特异性启动子、细胞类型特异性启动子等)，并且它可以是时间限制的启动子(例如，启动子在胚胎发育的特定阶段或生物过程的特定阶段(例如，小鼠的毛囊周期)处于“打开”状态或“关闭”状态)。合适的启动子可以衍生自病毒，并且可以因此称为病毒启动子，或者它们可以衍生自任何生物体，包括原核生物或真核生物。合适的启动子可以用于通过任何RNA聚合酶(例如，pol I、pol II、pol III)驱动表达。示例性启动子包括但不限于SV40早期启动子、小鼠乳腺肿瘤病毒长末端重复序列(LTR)启动子；腺病毒主要晚期启动子(AdMLP)；单纯疱疹病毒(HSV)启动子、巨细胞病毒(CMV)启动子如CMV立即早期启动子区(CMVIE)、劳斯肉瘤病毒(RSV)启动子、人U6小核启动子(U6)(Miyagishi等人，NatureBiotechnology20,497-500(2002))、增强的U6启动子(例如，Xia等人，Nucleic AcidsRes.2003Sep 1；31(17))、人H1启动子(H1)等。诱导型启动子的实例包括但不限于T7 RNA聚合酶启动子、T3 RNA聚合酶启动子、异丙基-β-D-硫代半乳糖苷(IPTG)调控的启动子、乳糖诱控的启动子、热休克启动子、四环素调控的启动子、类固醇调控的启动子、金属调控的启动子、雌激素受体调控的启动子等。诱导型启动子可因此通过包括但不局限于强力霉素(doxycycline)；RNA聚合酶，例如T7 RNA聚合酶；雌激素受体；雌激素受体融合等分子来调控。

在一些实施方案中，启动子是空间限制的启动子(例如，细胞类型特异性启动子、组织特异性启动子等)，以使得在多细胞生物体中，启动子在特定细胞的亚群(subset)中是活性的(例如，“打开”)。空间限制的启动子也可以称为增强子、转录控制元件、控制序列等。可以使用任何合适的空间限制的启动子，并且选择适合的启动子(例如，脑特异性启动子、驱动神经元亚群中的表达的启动子、驱动种系中的表达的启动子、驱动肺中的表达的启动子、驱动肌肉中的表达的启动子、驱动胰腺胰岛细胞中的表达的启动子等)将取决于生物体。例如，对于植物、苍蝇、蠕虫、哺乳动物、小鼠等已知各种空间限制的启动子。因此，空间限制的启动子可用于调节编码位点特异性修饰酶的核酸在多种不同组织和细胞类型中的表达，这取决于生物体。一些空间限制的启动子也是时间限制的，使得启动子在胚胎发育的特定阶段或生物过程的特定阶段(例如，小鼠的毛囊周期)处于“打开”状态或“关闭”状态。出于说明的目的，空间限制的启动子的实例包括但不限于神经元特异性启动子、脂肪细胞特异性启动子、心肌细胞特异性启动子、平滑肌特异性启动子、光感受器特异性启动子等。神经元特异性空间限制的启动子包括但不限于神经元特异性烯醇化酶(NSE)启动子(参见，例如EMBL HSEN02,X51956)；芳香族氨基酸脱羧酶(AADC)启动子；神经丝启动子(参见，例如GenBank HUMNFL,L04147)；突触蛋白启动子(参见，例如GenBank HUMSYNIB,M55301)；thy-1启动子(参见，例如，Chen et al.(1987)Cell 51:7-19；和Llewellyn,et al.(2010)Nat.Med.16(10):1161-1166)；血清素受体启动子(参见，例如，GenBank S62283)；酪氨酸羟化酶启动子(TH)(参见，例如，Oh et al.(2009)Gene Ther.16:437；Sasaoka et al.(1992)Mol.Brain Res.16:274；Boundy et al.(1998)J.Neurosci.18:9989；和Kaneda et al.(1991)Neuron 6:583-594)；GnRH启动子(参见，例如Radovick et al.(1991)Proc.Natl.Acad.Sci.USA 88:3402-3406)；L7启动子(参见，例如，Oberdick et al.(1990)Science 248:223-226)；DNMT启动子(参见，例如Bartge et al.(1988)Proc.Natl.Acad.Sci.USA 85:3648-3652)；脑啡肽启动子(参见，例如，Comb et al.(1988)EMBO J.17:3793-3805)；髓鞘碱性蛋白(MBP)启动子；Ca2+-钙调蛋白依赖型蛋白激酶11-α(CamKIM)启动子(参见，例如Mayford et al.(1996)Proc.Natl.Acad.Sci.USA 93:13250；和Casanova et al.(2001)Genesis31:37)；CMV增强子/血小板来源的生长因子-p启动子(参见，例如Liu et al.(2004)Gene Therapy 11:52-60)等。

本文可互换使用的术语“DNA调控序列”、“控制元件”和“调控元件”是指转录和翻译控制序列，如启动子、增强子、聚腺苷酸化信号、终止子、蛋白质降解信号等，其提供和/或调控非编码序列(例如，向导RNA)或编码序列(例如，M-SmallCas9多肽或其变体)的转录和/或调控编码多肽的翻译。

如本文所用，适用于核酸、多肽、细胞或生物体的术语“天然存在的”或“未修饰的”是指存在于自然中的核酸、多肽、细胞或生物体。例如，可以从自然中的来源分离并且没有被人在实验室中有意修饰的存在于生物体(包括病毒)中的多肽或多核苷酸序列是天然存在的。

如本文所用，适用于核酸或多肽的术语“嵌合”是指通过来自不同来源的结构组成的一个实体。例如，在“嵌合”用于嵌合多肽(例如，嵌合M-SmallCas9蛋白)的情况下，嵌合多肽包括衍生自不同多肽的氨基酸序列。嵌合多肽可以包括修饰的或天然存在的多肽序列(例如，来自修饰的或未修饰的M-SmallCas9蛋白的第一氨基酸序列；和除了M-SmallCas9蛋白之外的第二氨基酸序列)。类似地，在编码嵌合多肽的多核苷酸的背景下，“嵌合”包括衍生自不同编码区的核苷酸序列(例如，编码修饰的或未修饰的M-SmallCas9蛋白的第一核苷酸序列；和编码除了M-SmallCas9蛋白以外的多肽的第二核苷酸序列)。

术语“嵌合多肽”是指非天然存在的，例如通过人为干预将两个或更多个以其他方式分离的氨基酸序列区段通过人工组合(例如“融合”)制成的多肽。包括嵌合氨基酸序列的多肽是嵌合多肽。一些嵌合多肽可以称为“融合变体”

如本文所用的“异源的”意指分别不存在于天然核酸或蛋白质中的核苷酸或肽。本文所述的M-SmallCas9融合蛋白可以包括与异源多肽序列(例如，来自除了M-SmallCas9以外的蛋白质的多肽序列)融合的M-SmallCas9多肽(或其变体)的RNA结合结构域。异源多肽可以表现出M-SmallCas9融合蛋白也会表现出的活性(例如，酶活性)(例如，甲基转移酶活性、乙酰基转移酶活性，激酶活性、泛素化活性等)。异源核酸可以与天然存在的核酸(或其变体)连接(例如，通过基因工程)，以产生编码融合多肽的融合多核苷酸。作为另一个实例，在融合变体M-SmallCas9多肽中，变体M-SmallCas9多肽可以与异源多肽(例如，除了M-SmallCas9以外的多肽)融合，该异源多肽表现出融合变体M-SmallCas9多肽也将表现出的活性。异源核酸可以与变体M-SmallCas9多肽连接(例如，通过基因工程)，以产生编码融合变体M-SmallCas9多肽的多核苷酸。如本文所用的“异源的”还意指不是其天然细胞的细胞中的核苷酸或多肽。

术语“同源物”是指在自然中正常相互作用或共存的两种生物分子。

如本文所用的“重组的”意是指具体核酸(DNA或RNA)或载体是克隆、限制性、聚合酶链式反应(PCR)和/或连接步骤的各种组合的产物，从而产生具有可与天然系统中发现的内源性核酸区别开的结构编码或非编码序列的构建体。编码多肽的DNA序列可以由cDNA区段或由一系列合成寡核苷酸组装而成，以提供能够由包含在细胞或无细胞转录和翻译系统中的重组转录单元表达的合成核酸。包含相关序列的基因组DNA也可以用于形成重组基因或转录单元。非翻译DNA的序列可以存在于开放阅读框的5'或3'端，其中这样的序列不干扰编码区的操纵或表达，并且确实可以通过各种机制调节所需的产物的产生(参见以下“DNA调控序列”)。此外或可替换地，未翻译的编码RNA(例如，向导RNA)的DNA序列也可以被认为是重组的。因此，例如，术语“重组”核酸是指非天然存在的，例如通过人为干预将两个以其他方式分离的序列区段通过人工组合而制得的核酸。该人工组合通常通过化学合成手段或通过人工操作核酸的分离的区段(例如，通过基因工程技术)来实现。这样做通常是为了用编码相同氨基酸、保守氨基酸或非保守氨基酸的一个密码子来替代一个密码子。此外或可替换地，将具有所需的功能的核酸区段连接在一起以产生所需的功能组合。该人工组合通常通过化学合成手段或通过人工操作核酸的分离的区段(例如，通过基因工程技术)来实现。当重组多核苷酸编码多肽时，编码多肽的序列可以是天然存在的(“野生型”)，或是天然存在的序列的变体(例如，突变体)。因此，术语“重组”多肽不一定指其序列不是天然存在的多肽。相反，“重组”多肽是由重组DNA序列编码的，但该多肽的序列可以是天然存在的(“野生型”)或非天然存在的(如变体、突变体等)。因此，“重组”多肽是人为人干预的结果，但也可以是天然存在的氨基酸序列。术语“非天然存在的”包括与天然存在的分子明显不同的分子，包括化学修饰的或突变的分子。

“载体”或“表达载体”是复制子，如质粒、噬菌体、病毒或粘粒，其上可以连接另一个DNA区段(例如，“插入物”)，从而在细胞中复制连接的区段。

“表达盒”包括可操作地连接至启动子的DNA编码序列。“可操作连接”是指并置，其中该组分处于允许其以其预期方式发挥作用的关系中。例如，如果启动子影响其转录或表达，则启动子可操作地连接至编码序列。术语“重组表达载体”或“DNA构建体”在本文中可互换使用，是指包含载体和至少一个插入物的DNA分子。重组表达载体通常是出于表达和/或繁殖插入物的目的或出于构建其他重组核苷酸序列而产生的。核酸可以或可以不可操作地连接至启动子序列，并且可以或可以不可操作地连接至DNA调控序列。

如本文所用，术语“可操作地连接的”表示两种或多种元件(例如，多肽序列或多核苷酸序列)之间的物理或功能连接，其允许它们以其预期的方式操作。例如，感兴趣的多核苷酸和调控序列(例如，启动子)之间的可操作地连接是允许感兴趣的多核苷酸表达的功能连接。在这个意义上，术语“可操作地连接的”是指调节区和待转录的编码序列的定位，使得调控区有效地调控感兴趣的编码序列的转录或翻译。在本文公开的一些实施方案中，术语“可操作地连接的”是指其中调控序列相对于编码多肽或功能性RNA的序列位于适当的位置的构型，从而使控制序列指导或调控编码多肽的mRNA、多肽和/或功能性RNA的表达或细胞定位。因此，如果启动子能够介导核酸序列的转录，则启动子与核苷酸序列处于可操作地连接。可操作地连接的元件可以是连续的或非连续的。

当这样的DNA被引入细胞内部时，细胞已被外源DNA(例如，重组表达载体)“遗传修饰的”、“转化”或“转染”。外源DNA的存在导致永久或瞬时的遗传变化。转化DNA可以或可以不整合(共价连接)到细胞的基因组中。

在例如原核生物、酵母和哺乳动物细胞中，转化DNA可以维持在游离的元件(如质粒)上。相对于真核细胞，稳定转化的细胞是在其中转化DNA已整合到染色体中，从而通过染色体复制遗传给子细胞一种细胞。该稳定性通过真核细胞建立包括含有转化DNA的子细胞群的细胞系或克隆的能力来证明。“克隆”是通过有丝分裂从单个细胞或共同祖先衍生出的细胞群。“细胞系”是能够在体外稳定生长许多代的原代细胞的克隆。

遗传修饰的(也称为“转化”)的合适方法包括但不限于例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)-介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、基因枪技术、磷酸钙沉积、直接显微注射、纳米颗粒介导的核酸递送(参见，例如，Panyam et al.,Adv Drug Deliv Rev.2012Sep13.pp:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。

如本文所用的“宿主细胞”指代体内或体外真核细胞、原核细胞(例如，细菌或古细菌细胞)或作为单细胞实体培养的来自多细胞生物的细胞(例如，细胞系)，该真核细胞或原核细胞可以用作或已经用作核酸的受体，并且包括已经被核酸转化的原始细胞的子代。应该理解的是，由于天然、偶然或有意的突变，单细胞的子代可以不必在形态或基因组或总DNA互补性上与原始亲本完全相同。“重组宿主细胞”(又称为“遗传修饰的宿主细胞”)是已将异源核酸(例如，表达载体)引入至其中的宿主细胞。例如，细菌宿主细胞是通过将外源核酸(例如，质粒或重组表达载体)引入至合适的细菌宿主细胞而遗传修饰的细菌宿主细胞，而真核宿主细胞是通过将外源核酸引入至合适的真核宿主细胞而遗传修饰的真核宿主细胞(例如，哺乳动物生殖细胞)。

如本文所用的“靶DNA”是包括“靶位点”或“靶序列”的多聚脱氧核苷酸。术语“靶位点”“靶序列”“靶原型间隔区DNA”，”或“原型间隔区样序列”在本文中可互换使用，是指靶DNA中存在的核酸序列，向导RNA的DNA靶向区段(也称为“间隔区”)将与其结合，其条件是存在足够用于结合的条件。例如，靶DNA内的靶位点(或靶序列)5'-GAGCATATC-3'被RNA序列5'-GAUAUGCUC-3'靶向(或与之结合、或杂交或互补)。合适的DNA/RNA结合条件包括正常存在于细胞中的生理条件。其他合适的DNA/RNA结合条件(例如，无细胞系统中的条件)是本领域中已知的；参见，例如Sambrook,同上。与向导RNA互补并杂交的靶DNA链被称为“互补链”，并且与“互补链”互补(因此不与向导RNA互补)的靶DNA的链被称“非互补链(non-complementary strand)”。

所谓“位点特异性修饰酶”或“RNA结合位点特异性修饰酶”是指结合RNA并靶向特异性DNA序列的多肽，如M-SmallCas9多肽。如本文所述的位点特异性修饰酶通过其结合的RNA分子靶向特异性DNA序列。RNA分子包括与靶DNA内的靶序列结合、杂交或互补的序列，从而将结合的多肽靶向靶DNA(靶序列)内的具体位置。所谓“切割”意指DNA分子共价骨架的断裂。可以通过多种方法开始切割，该方法包括但不限于磷酸二酯键的酶水解或化学水解。单链切割和双链切割都是可能的，并且双链切割可以由两个不同的单链切割事件而发生。DNA切割可以导致平端或交错端产生。在某些实施方案中，包含向导RNA和位点特异性修饰酶的复合物用于靶向双链DNA切割。

“核酸酶”和“核酸内切酶”在本文中可互换使用，意指具有用于多核苷酸切割的核酸内切催化活性的酶。

核酸酶的“切割结构域”或“活性结构域”或“核酸酶结构域”意指具有用于DNA切割的催化活性的核酸酶内的多肽序列或结构域。裂解结构域可以包含在单个多肽链中，或切割活性可以由两个(或更多个)多肽的缔合引起。单个核酸酶结构域可以由给定多肽内的多于一个分离的段的氨基酸组成。

“引导序列”或“DNA靶向区段”或“DNA靶向序列”或“间隔区”包括与靶DNA内的特异性序列(靶DNA的互补链)(本文中称为“原型间隔区样”序列)互补的核苷酸序列。蛋白质结合区段(或“蛋白质结合序列”)与位点特异性修饰酶相互作用。当位点特异性修饰酶是M-SmallCas9或M-SmallCas9相关多肽(在下文中更详细地描述)时，靶DNA的位点特异性切割发生在通过以下所确定的位置上：(i)向导RNA和靶DNA之间的碱基配对互补性；和(ii)靶DNA中的短基序(称为原型间隔区相邻基序(PAM))。向导RNA的蛋白质结合区段部分包括相互杂交以形成双链RNA双链体(dsRNA双链体)的两段互补的核苷酸。在一些实施方案中，核酸(例如，向导RNA，包括编码向导RNA的核苷酸序列的核酸；编码位点特异性修饰酶的核酸等)包括提供额外所需的特征的修饰或序列(例如，修饰或调控的稳定性；亚细胞靶向；追踪，例如荧光标记；蛋白质或蛋白质复合物的结合位点等)。非限制性实例包括：5'帽(例如7-甲基鸟苷酸帽(m7G))；3’聚腺苷酸化尾(例如3’聚腺苷酸尾)；核糖开关序列(例如，通过蛋白质和/或蛋白质复合物允许调控稳定性和/或调控可及性)；稳定性控制序列；形成dsRNA双链体(例如，发夹)的序列；将RNA靶向亚细胞位置(例如，细胞核、线粒体、叶绿体等)的修饰或序列；提供追踪的修饰或序列(例如，与荧光分子的直接缀合、与促进荧光检测的部分的缀合、允许荧光检测的序列等)；为蛋白质(例如，作用于DNA的蛋白质，包括转录激活物、转录阻遏物、DNA甲基转移酶、DNA脱甲基酶、组蛋白乙酰基转移酶、组蛋白脱乙酰基酶等)提供结合位点的修饰或序列；以及其组合。

在一些实施方案中，向导RNA包括提供上述任何特征的在5'或3'端上的额外区段。例如，合适的第三区段可以包括5’帽(例如，7-甲基鸟苷酸帽(m7G))；3’聚腺苷酸化尾(例如，3’聚腺苷酸尾)；核糖开关序列(例如，通过蛋白质和蛋白质复合物允许调控稳定性和/或调控可及性)；稳定性控制序列；形成dsRNA双链体(例如，发夹)的序列；将RNA靶向亚细胞位置(例如细胞核、线粒体、叶绿体等)的序列；提供追踪的修饰或序列(例如，与荧光分子的直接缀合、与促进荧光检测的部分的缀合、允许荧光检测的序列等)；为蛋白质(例如，作用于DNA的蛋白质，包括转录激活物、转录阻遏物、DNA甲基转移酶、DNA脱甲基酶、组蛋白乙酰基转移酶、组蛋白脱乙酰基酶等)提供结合位点的修饰或序列；以及其组合。

向导RNA和位点特异性修饰酶如M-SmallCas9多肽或其变体可以形成核糖核蛋白复合物(例如，经过非共价相互作用结合)。该向导RNA通过包含与靶DNA的序列互补的核苷酸序列而为复合物提供靶特异性。该复合物的位点特异性修饰酶提供核酸内切酶活性。换言之，位点特异性修饰酶通过其与向导RNA的蛋白质结合区段的缔合而被引导至靶DNA序列(例如，染色体核酸中的靶序列；染色体外核酸(例如游离型核酸、微环(minicircle)等)中的靶序列；线粒体核酸中的靶序列；叶绿体核酸中的靶序列；质粒中的靶序列等)。RNA适配体是本领域中已知的，并且通常是核糖开关的合成形式。术语“RNA适配体”和“核糖开关”在本文中可互换使用，以涵盖提供它们所属的RNA分子的结构的可诱导调节(并且因此提供特异性序列的可用性)的合成核酸序列和天然核酸序列。RNA适配体通常包括折叠成具体结构(例如，发夹)的序列，该序列特异性结合具体药物(例如，小分子)。药物的结合引起RNA折叠中的结构变化，这改变适配体所属的核酸的特征。作为非限制性实例：(i)具有适配体的激活物-RNA可以不能与同源靶向物-RNA结合，除非适配体被适当的药物结合；(ii)具有适配体的靶向物-RNA可以不能与同源激活物-RNA结合，除非适配体被适当的药物结合；和(iii)靶向物-RNA和激活物-RNA，各自包含结合不同药物的不同适配体，可以不能彼此结合，除非两种药物都存在。如通过这些实例所示，双分子向导RNA可以被设计为可诱导的。

适配体和核糖开关的实例可以例如见于：Nakamura et al.,GenesCells.2012May；17(5):344-64；Vavalle et al.,Future Cardiol.2012May；8(3):371-82；Citartan et al.,Biosens Bioelectron.2012Apr15；34(1):1-11；和Liberman et al.,Wiley lnterdiscip Rev RNA.2012May-Jun；3(3):369-84；所有这些参考文献的全部内容以引用的方式纳入本说明书。

遗传修饰的方法的选择通常取决于待转化的细胞类型和在其下发生转化的环境(例如，体外、离体或体内)。这些方法的一般讨论可以见于：Ausubel,et al.,ShortProtocols in Molecular Biology,3rd ed.,Wiley&Sons,1995。

如本文所用，术语“干细胞”是指具有自我更新和产生分化的细胞类型的能力的细胞(例如，植物干细胞、脊椎动物干细胞)(参见Morrison et al.(1997)Cell 88:287-298)。在细胞个体发生(ontogeny)的背景下，形容词“分化”或“分化的”是一个相对术语。“分化的细胞”是指在发育途径上比所比较的细胞进一步向下发展的细胞。因此，多能干细胞(如下所述)可以分化为谱系限制的祖细胞(例如，中胚层干细胞)，该祖细胞继而可以分化为进一步限制的细胞(例如，神经元祖细胞)，进一步限制的细胞可以分化为终末期细胞(例如，终末分化细胞，例如神经元、心肌细胞等)，终末期细胞在特定组织类型中发挥特征性作用，并且可以或可以不保持进一步增殖的能力。干细胞的特征可以是存在特异性标志物(例如，蛋白质、RNA等)和不存在特异性标志物。干细胞还可以通过体外和体内的功能测定来鉴定，具体地与干细胞产生多个分化子代的能力有关的测定。

感兴趣的干细胞包括多能干细胞(PSC)。如本文所用，术语“多能干细胞”或“PSC”意指能够产生生物体的所有细胞类型的干细胞。因此，PSC可以产生生物体的所有胚层(例如，脊椎动物的内胚层、中胚层和外胚层)的细胞。多能干细胞能够形成畸胎瘤，并且对活生物体中的外胚层、中胚层或内胚层组织有影响。植物的多能干细胞能够产生植物的所有细胞类型(例如，根、茎、叶等的细胞)。

动物的PSC可以通过许多不同的方式获得。例如，胚胎干细胞(ESC)来源于胚胎的内细胞群(Thomson et.al,Science.1998Nov6；282(5391):1145-7)，而诱导多能干细胞(iPSC)来源于体细胞(Takahashi et.al,Cell.2007年11月30日；131(5):861-72；Takahashi et.al,Nat Protoc.2007；2(12):3081-9；Yu et.al,Science.2007Dec21；318(5858):1917-20.Epub 2007年11月20日)。

因为术语PSC是指无论其来源的多能干细胞，所以术语PSC涵盖术语ESC和iPSC以及术语胚胎生殖干细胞(EGSC)，所述胚胎生殖干细胞是PSC的另一个实例。PSC可以是已建立的细胞系的形式，它们可以直接从原代胚胎组织获得，也可以从体细胞衍生而来。PSC可以是本文所述方法的靶细胞。

“胚胎干细胞”(ESC)意指从胚胎，通常是从囊胚的内细胞群中分离的PSC。ESC系列于NIH人胚胎干细胞记录中，例如hESBGN-01、hESBGN-02、hESBGN-03、hESBGN-04(BresaGen,Inc.)；HES-1、HES-2、HES-3、HES-4、HES-5和HES-6(ES Cell International)；Miz-hES1(MizMedi Hospital-Seoul National University)；HSF-1、HSF-6(University ofCalifornia at San Francisco)；以及H1、H7、H9、H13、H14(Wisconsin Alumni ResearchFoundation(WiCell Research Institute))。感兴趣的干细胞还包括来自其他灵长类动物的胚胎干细胞，如恒河猴干细胞和狨猴干细胞。干细胞可以从任何哺乳动物物种获得，例如人、马、牛、猪、犬、猫、啮齿动物(例如，小鼠、大鼠、仓鼠)、灵长类动物等。(Thomson et al.(1998)Science 282:1145；Thomson et al.(1995)Proc.Natl.Acad.Sci.USA 92:7844；Thomson etal.(1996)Biol.Reprod.55:254；Shamblott et al.,Proc.Natl.Acad.Sci.USA95:13726,1998)。在培养中，ESC通常通常生长为扁平的菌落，具有高核-细胞质比、清晰边界和突出核仁。此外，ESC表达SSEA-3、SSEA-4、TRA-1-60、TRA-1-81和碱性磷酸酶，但不表达SSEA-1。产生和表征ESC的方法的实例可以见于例如，美国专利号7,029,913、美国专利号5,843,780和美国专利号6,200,806，该专利的公开内容以引用的方式纳入本说明书。用于以未分化的形式增殖hESC的方法描述于WO 99/20741、WO 01/51616和WO 03/020920中。“胚胎生殖干细胞”(EGSC)或“胚胎生殖细胞”或“EG细胞”意指衍生自生殖细胞和/或生殖细胞祖细胞(例如，原生殖细胞，例如将成为精子和卵子的原生殖细胞)的PSC。胚胎生殖细胞(EG细胞)被认为具有类似于上述胚胎干细胞的特性。产生和表征EG细胞的方法的实例可以见于，例如美国专利号7,153,684；Matsui,Y.,et al.,(1992)Cell 70:841；Shamblott,M.,etal.(2001)Proc.Natl.Acad.Sci.USA 98:113；Shamblott,M.,et al.(1998)Proc.Natl.Acad.Sci.USA,95:13726；和Koshimizu,U.,et al.(1996)Development,122:1235，该参考文献的公开内容以引用的方式纳入本说明书。

“诱导多能干细胞”或“iPSC”，意指衍生自不是PSC细胞的PSC(例如，衍生自相对于PSC分化的细胞)。iPSC可以衍生自多种不同的细胞类型，包括终末分化细胞。iPSC具有ES细胞样形态，生长为扁平的菌落，具有呈高核-细胞质比、清晰边界和突出细胞核。此外，iPSC表达本领域普通技术人员已知的一种或多种主要多能标志物，包括但不限于碱性磷酸酶、SSEA3、SSEA4、Sox2、Oct3/4、Nanog、TRA160、TRA181、TDGF 1、Dnmt3b、Fox03、GDF3、Cyp26al、TERT和zfp42。

产生和表征iPSC的方法的实例可以见于，例如美国专利公开号US20090047263、US20090068742、US20090191159、US20090227032、US20090246875和US20090304646，该专利的公开内容以引用的方式纳入本说明书。通常，为了产生iPSC，向体细胞提供本领域中已知的重编程因子(例如Oct4、SOX2、KLF4、MYC、Nanog、Lin28等)，以将体细胞重编程为多能干细胞。

“体细胞”意指生物体中的任何细胞，在没有实验操作的情况下，通常不会产生生物体中所有类型的细胞。换言之，体细胞是已经充分分化的细胞，使得它们不会天然产生身体的所有三个胚层(例如，外胚层、中胚层和内胚层)的细胞。例如，体细胞将包括神经元和神经祖细胞，神经祖细胞可以能够天然产生中枢神经系统的所有或某些细胞类型，但不能产生中胚层或内胚层谱系的细胞。

“有丝分裂细胞”意指正在进行有丝分裂的细胞。

“有丝分裂后细胞”，意指退出有丝分裂的细胞，例如，其为“静止的”，例如，不再经历分裂。这种静止状态可以是暂时的(例如，可逆的)，或其可以是永久的。

“减数分裂细胞”意指正在经历减数分裂的细胞。

“重组”意指两个多核苷酸之间遗传信息交换的过程。如本文所用，“同源定向修复(HDR)”是指例如发生在细胞中的双链断裂的修复过程中的特殊形式的DNA修复。这个过程需要核苷酸序列同源性，使用“供体”分子以成为“靶”分子(例如，经历双链断裂的分子)的修复模版，并且导致遗传信息从供体转移到靶标。如果供体多核苷酸与靶分子不同，并且供体多核苷酸的部分或全部序列并入到靶DNA中，则同源定向修复可以引起靶分子序列的改变(例如，插入、缺失、突变)。在一些实施方案中，将供体多核苷酸、供体多核苷酸的一部分、供体多核酸的拷贝或供体多核苷酸拷贝的一部分整合到靶DNA中。

“非同源末端连接(NHEJ)”，意指通过将断裂末端与另一个断裂末端直接连接而不需要同源模板(与同源定向修复相反，同源定向修复需要同源序列来引导修复)在DNA中进行的双链断裂的修复。NHEJ通常会导致双链断裂位点附近核苷酸序列的丢失(缺失)。

本文使用术语“治疗(treatment)”、“治疗(treating)”等一般意指获得所需的药理学和/或生理学效果。对于完全或部分预防疾病或其症状，该效果可以是预防性的，和/或对于部分或完全治愈疾病和/或可归因于该疾病的副作用，该效果可以是治疗性的。如本文所用的“治疗”涵盖对哺乳动物疾病或症状的任何治疗，并且包括：(a)防止疾病或症状发生在可能易患疾病或症状但尚未被诊断为患有该疾病或症状的受试者身上；(b)抑制疾病或症状，例如阻止其发展；或(c)减轻疾病，例如引起疾病消退。可以在疾病或损伤发作之前、期间或之后施用治疗剂。对其中治疗使患者的不需要的临床症状稳定或减少的正在进行的疾病的治疗是特别感兴趣的。这种治疗最好在受影响组织完全丧失功能之前进行。该疗法将希望在疾病的症状阶段过程中施用，并且在某些情况下在该疾病的症状阶段之后施用。

术语“个体”、“受试者”、“宿主”和“患者”在本文中可互换使用，并且是指需要对其进行诊断、治疗或疗法的任何哺乳动物受试者，特别是人类。

分子和细胞生物化学的一般方法可以见于这样的标准教科书，例如，MolecularCloning:A Laboratory Manual，第3版(Sambrook et al.,Harbor Laboratory Press2001)；Short Protocols in Molecular Biology，第4版(Ausubel et al.eds.,JohnWiley&Sons 1999)；Protein Methods(Bollag et al.,John Wiley&Sons 1996)；NonviralVectors for Gene Therapy(Wagner et al.eds.,Academic Press 1999)；Viral Vectors(Kaplift&Loewy eds.,Academic Press 1995)；Immunology Methods Manual(1.Lefkovits ed.,Academic Press 1997)；和Cell and Tissue Culture:LaboratoryProcedures in Biotechnology(Doyle&Griffiths,John Wiley&Sons 1998)，该参考文献的公开内容以引用的方式纳入本说明书。

在提供数值范围时，应该理解，除非上下文另外清楚地指出，在所述范围的上下限之间的每个中间值，直至下限单位的十分之一，和任何其它规定的或在该规定的范围中的中间值涵盖在本公开内容中。这些较小范围的上限和下限可以独立地包括在较小范围中，并且也涵盖在本公开内容中，受制于规定的范围内任何特定的不包括的界限。在所述范围包括所述限值中的一个或两个时，不包括所述界限中的一个或两个的范围也包括在本公开内容中。

短语“基本上由…组成”在本文中意指不包括任何不是系统的特定活性的一个或多个组分，或者不是分子的特定活性的一个或多个部分。

本文中出现的某些范围，具有前面加上术语“约”的数值。本文使用术语“大约”为它之后的精确数字以及接近或近似术语之后数字的数字提供书面支持。在确定数字是否接近或近似具体列举的数字中，接近或近似未列举的数字可为在其出现的上下文中提供实质相等的具体列举数字的数字。

应当理解，本公开内容的某些特征，为了清楚起见，在分开的实施方案的上下文中描述，也可组合在单个实施方案中提供。相反，为了简明起见，而在单个实施方案的上下文中描述的本公开内容的各种特征，还可以分开提供或以任何适合的子组合形式提供。属于本公开内容的实施方案的所有组合明确地涵盖在本公开内容中并且在本文中公开，如同每个和每一种组合均单独地和明确地公开一样。另外，各种实施方案及其元件的所有子组合也明确地涵盖在本公开内容中并且在本文中公开，如同每个和每一种这样的子组合均单独地和明确地在本文中公开一样。

M-SmallCas9融合多肽

M-SmallCas9可以用于形成与M-SmallCas9核酸酶相比具有额外的结构域和活性的融合蛋白。作为非限制性说明，Fokl结构域可以与可以包括催化活性核酸内切酶结构域的M-SmallCas9多肽或其变体融合，或者Fokl结构域可以与经修饰以使M-SmallCas9核酸内切酶结构域失活的M-SmallCas9多肽或其变体融合。可以与M-SmallCas9融合以制备融合蛋白的其他结构域包括转录调节剂、表观遗传修饰物、标签和其他标记或成像剂、组蛋白和/或本领域中已知的调节或修饰基因序列的结构或活性的其他模式。

在一些实施方案中，本文所述的M-SmallCas9多肽或其变体与转录激活物或阻遏物或表观遗传修饰物(如甲基化酶、脱甲基酶，乙酰化酶或脱乙酰基酶)融合。

在一些实施方案中，将本文所述的M-SmallCas9多肽或其变体与功能性蛋白质组分融合，以用于检测、分子间相互作用、翻译激活、修饰或本领域中已知的任何其他操作。

示例性M-SmallCas9变体多肽

在一些实施方案中，本文所述的M-SmallCas9多肽或其变体保留a)与靶位点结合的能力，并且任选地，b)保留其活性。在一些实施方案中，被保留的活性是核酸内切酶活性。在某些实施方案中，核酸内切酶活性不需要tracrRNA。

在一些实施方案中，M-SmallCas9多肽或其变体的活性部分被修饰。在一些实施方案中，该修饰包括降低或增加M-SmallCas9多肽或其变体的核酸酶活性的氨基酸改变(例如缺失、插入或置换)。例如，在一些实施方案中，修饰的M-SmallCas9多肽或其变体具有相应的未修饰的M-SmallCas9多肽或其变体小于50％、小于40％、小于30％、小于20％、小于10％、小于5％或小于1％的核酸酶活性。在一些实施方案中，修饰的M-SmallCas9多肽或其变体不具有实质性核酸酶活性。在一些实施方案中，它可以具有50％、2倍、4倍或高达10倍以上的核酸酶活性。

在一些实施方案中，M-SmallCas9多肽或其变体的活性部分包括具有DNA修饰活性和/或转录因子活性和/或DNA相关多肽修饰活性的异源多肽。在一些实施方案中，异源多肽取代提供核酸酶活性的M-SmallCas9多肽或其变体的部分。在一些实施方案中，M-SmallCas9多肽或其变体包括通常提供核酸酶活性的M-SmallCas9多肽或其变体的部分(并且该部分可以是完全活性的或者可以代替地经修饰为具有小于100％的相应未修饰的活性)和异源多肽。换言之，在一些实施方案中，M-SmallCas9多肽或其变体可以是融合蛋白，该融合蛋白包括通常提供核酸酶活性的M-SmallCas9多肽或其变体的部分和异源多肽。

例如，在M-SmallCas9融合蛋白中，M-SmallCas9多肽或其变体可以与异源多肽序列(例如，来自除了M-SmallCas9以外的蛋白质的多肽序列)融合。异源多肽序列可能表现出M-SmallCas9融合蛋白也会表现出的活性(例如，酶活性)(例如，甲基转移酶活性、乙酰基转移酶活性、激酶活性、泛素化活性等)。异源核酸序列可以与另一个核酸序列连接(例如，通过基因工程)以产生编码融合多肽的融合核苷酸序列。在一些实施方案中，M-SmallCas9融合多肽通过将M-SmallCas9多肽或其变体与提供亚细胞定位的异源序列(例如，用于靶向细胞核的核定位信号(NLS)；用于靶向线粒体的线粒体定位信号；用于靶向叶绿体的叶绿体定位信号；ER滞留信号等)融合来产生。在一些实施方案中，异源序列可以提供便于追踪或纯化的标签(例如，荧光蛋白，例如绿色荧光蛋白(GFP)、YFP、RFP、CFP、mCherry、tdTomato等；HIS标签，例如6XHis标签；血凝素(HA)标签；FLAG标签；Myc标签等)。在一些实施方案中，异源序列可以提供增加或降低的稳定性。在一些实施方案中，异源序列可以提供结合结构域(例如，以提供M-SmallCas9融合多肽与另一种感兴趣的蛋白质(例如DNA或组蛋白修饰蛋白、转录因子或转录阻遏物、募集蛋白等)结合的能力，或与感兴趣的核苷酸(例如，核苷酸结合蛋白的适配体或靶位点)结合的能力)。

在一些实施方案中，根据本文描述的任何M-SmallCas9多肽变体，该M-SmallCas9多肽变体具有降低的脱氧核糖核酸内切酶活性。例如，适用于本公开内容的转录调节方法的M-SmallCas9多肽变体表现出未修饰的M-SmallCas9多肽的小于约20％、小于约15％、小于约10％、小于约5％、小于约1％或小于约0.1％的脱氧核糖核酸内切酶活性。

在一些实施方案中，变体M-SmallCas9多肽基本上不具有可检测的脱氧核糖核酸内切酶活性(dM-SmallCas9)。在一些实施方案中，当M-SmallCas9多肽变体具有降低的催化活性时，该多肽仍然可以以位点特异性方式与靶DNA结合(因为它仍通过向导RNA被引导至靶DNA序列)，只要它保留与向导RNA相互作用的能力。在一些实施方案中，变体M-SmallCas9多肽是能够切割靶DNA的互补链，但切割靶DNA非互补链的能力降低的切口酶。

在一些实施方案中，切口酶中的变体M-SmallCas9多肽可以切割靶DNA的非互补链，但切割靶DNA互补链的能力降低。

在一些实施方案中，变体M-SmallCas9多肽切割靶DNA的互补链和非互补链的能力降低。例如，可以考虑丙氨酸置换。

在一些实施方案中，变体M-SmallCas9多肽是融合多肽(“变体M-SmallCas9融合多肽”)，例如，融合多肽包含：i)变体M-SmallCas9多肽；和ii)共价连接的异源多肽(也称为“融合伙伴”)。

异源多肽可以表现出变体M-SmallCas9融合多肽也将表现出的活性(例如，酶活性)(例如，甲基转移酶活性、乙酰基转移酶活性、激酶活性、泛素化活性等)。异源核酸序列可以与另一核酸序列连接(例如，通过基因工程)以产生编码融合多肽的融合核苷酸序列。在一些实施方案中，M-SmallCas9融合多肽通过将变体M-SmallCas9多肽与提供亚细胞定位的异源序列(例如，异源序列是亚细胞定位序列，例如用于靶向细胞核的核定位信号(NLS)；用于靶向线粒体的线粒体定位信号；用于靶向叶绿体的叶绿体定位信号；ER滞留信号等)融合来产生。在一些实施方案中，异源序列可以提供便于追踪和/或纯化的标签(例如荧光蛋白，例如绿色荧光蛋白(GFP)、YFP、RFP、CFP、mCherry、tdTomato等；组氨酸标签，例如6XHis标签；血凝素(HA)标签；FLAG标签；Myc标签等)。在一些实施方案中，异源序列可以提供增加或降低的稳定性(例如，异源序列是稳定性控制肽，例如降解决定子(degron)，该降解决定子在一些情况下是可控制的(例如，温度敏感的或药物可控制的降解决定子序列，参见下文))。在一些实施方案中，异源序列可以提供来自靶DNA的增加或减少的转录(例如，异源序列是转录调节序列，例如转录因子/激活物或其区段，募集转录因子/激活物的蛋白质或其片段、转录阻遏物或其片段，募集转录阻遏物的蛋白质或者其片段、小分子/药物反应性转录调节因子等)。在一些实施方案中，异源序列可以提供结合结构域(例如，异源序列是蛋白质结合序列，例如，以提供融合dM-SmallCas9多肽与另一种感兴趣的蛋白质结合(例如DNA或组蛋白修饰蛋白、转录因子或转录阻遏物、募集蛋白等)的能力)。

提供增加或降低稳定性的合适的融合伙伴包括但不限于降解决定子序列。本领域普通技术人员容易将降解决定子理解为控制其所属的蛋白质的稳定性的氨基酸序列。例如，包含降解决定子序列的蛋白质的稳定性至少部分地通过降解决定子序列来控制。在一些实施方案中，合适的降解决定子是组成型的，使得该降解决定子独立于实验控制而对蛋白质稳定性施加影响(例如，降解决定子不是药物可诱导的、温度可诱导的等)。在一些实施方案中，降解决定子为变体M-SmallCas9多肽提供可控制的稳定性，以使得变体M-SmallCas9多肽可以根据所需的条件“打开(turn on)”(例如，稳定)或“关闭(turn off)”(例如，不稳定、降解)。例如，如果降解决定子是温度敏感的降解决定子，则变体M-SmallCas9多肽可以在阈值温度以下(例如，42℃、41℃、40℃、39℃、38℃、37℃、36℃、35℃、34℃、33℃、32℃、31℃、30℃等)是功能性的(如“打开”、稳定)，但在阈值温度以上是非功能性的(例如“关闭”、降解)。作为另一个实例，如果降解决定子是药物可诱导的降解决定子，药物的存在或不存在可以将蛋白质从“关闭”(例如，不稳定)状态转换至“打开”(例如，稳定)状态，或反之亦然。示例性的药物可诱导的降解决定子来源于FKBP12蛋白。降解决定子的稳定性由与降解决定子结合的小分子的存在与否来控制。

合适的降解决定子的实例包括但不限于通过Shield-1、DHFR、植物生长素和/或温度来控制的那些降解决定子。合适的降解决定子的非限制性实例在本领域中是已知的(例如，Dohmen et al.,Science,1994.263(5151):p.1273-1276:Heat-inducibledegron:amethod for constructing temperature-sensitive mutants；Schoeber et al.,AmJPhysiol Renal Physiol.2009年1月；296(1):F204-11:Conditional fast expressionand function of multimeric TRPV5 channels using Shield-1；Chu et al.,BioorgMed Chem Lett.2008年11月15日；18(22):5941-4:Recent progress with FKBP-deriveddestabilizing domains；Kanemaki,Pflugers Arch.2012年12月28日:Frontiers ofprotein expression control with conditional degrons；Yang et al.,MolCell.2012Nov30；48(4):487-8:Titivated for destruction:the methyl degron；Barbour et al.,Biosci Rep.2013年1月18日；33(1).:Characterization of thebipartite degron that regulates ubiquitin-independent degradation ofthymidylate synthase；以及Greussing et al.,J Vis Exp.2012年11月10日；(69):Monitoring of ubiquitin-proteasome activity in living cells using a Degron(dgn)-destabilized green fluorescent protein(GFP)-based reporter protein；所有所述参考文献的全部内容均以引用的方式纳入本说明书)。

示例性降解决定子序列已经在细胞和动物中得到了良好地表征和测试。因此，将M-SmallCas9与降解决定子序列融合产生“可调的(tunable)”和“可诱导的”的M-SmallCas9多肽。本文描述的任何融合伙伴都可以以任何所需的组合使用。作为说明这点的一个非限制性实例，M-SmallCas9融合蛋白可以包含用于检测的YFP序列、用于稳定性的降解决定子序列和用于增加来自靶DNA的转录的转录激活物序列。此外，可以用于M-SmallCas9融合蛋白的融合伙伴的数目不受限制。在一些实施方案中，M-SmallCas9融合蛋白包含一个或多个(例如，两个或更多个、三个或更多个、四个或更多个，或者五个或更多个)异源序列。

合适的融合伙伴包括但不限于提供甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、巴豆酰化活性(crotonylation activity)、脱巴豆酰化活性(decrotonylation activity)、丙酰化活性、脱丙酰化活性、肉豆蔻酰化活性或脱肉豆蔻酰化活性的多肽，其中任何一种都可以被引导来直接修饰DNA(例如，DNA甲基化)或修饰与DNA相关的多肽(例如，组蛋白或DNA结合蛋白)。其他合适的融合伙伴包括但不限于边界元件(例如，CTCF)、提供外周募集的蛋白质及其片段(例如，核纤层蛋白A、核纤层蛋白B等)和蛋白质对接元件(例如，FKBP/FRB、Pil1/Aby1等)。

M-SmallCas9多肽或其变体还可以根据重组合成的常规方法分离和纯化。裂解物可以由表达宿主制备，并且使用HPLC、排阻色谱法、凝胶电泳、亲和色谱法或其他纯化技术来纯化裂解物。大多数情况下，所使用的组合物将包含至少20重量％的所需的产物，至少约75重量％，至少约95重量％，并且出于治疗目的通常至少99.5重量％的所需的产物，相对于与产物制备及其纯化的方法相关的污染物。通常，百分比将基于总蛋白。为了诱导DNA切割和重组，或对靶DNA的任何所需的修饰，或对与靶DNA相关的多肽的任何所需的修饰，向细胞提供向导RNA和/或M-SmallCas9多肽或其变体和/或供体多核苷酸(无论它们是作为核酸还是多肽引入)约30分钟至约24小时，例如1小时，1.5小时、2小时、2.5小时、3小时、3.5小时、4小时、5小时、6小时、7小时、8小时、12小时、16小时、18小时、20小时，或约30分钟至约24小时的任何其他时间段，所述时间段可以以约每天至约每4天的频率，例如每1.5天、每2天、每3天，或从约每天至约每4天的任何其他频率来重复。可以将试剂提供给细胞一次或多次，例如一次、两次、三次或三次以上，并且在每次接触事件之后允许细胞与试剂孵育一定量的时间，例如16至24小时，在该时间之后，使用新鲜培养基替换培养基，并且进一步培养细胞。在向细胞提供两种或多种不同靶向复合物(例如，与相同或不同靶DNA内的不同序列互补的两种不同向导RNA)的情况下，可以同时提供复合物(例如，作为两种多肽和/或核酸)或同时递送复合物。或者，它们可以连续提供，例如首先提供靶向复合物，然后提供第二靶向复合物等，或反之亦然。

核酸

向导RNA/sgRNA

在一些实施方案中，本文描述的系统、组合物和方法采用基因组靶向核酸(genome-targeting nucleic acid)，其可以将相关多肽(例如，M-SmallCas9多肽或其变体)的活性引导至靶核酸内的特定靶序列。在一些实施方案中，基因组靶向核酸是RNA。基因组靶向RNA在本文中被称为“向导RNA”或“gRNA”。向导RNA具有至少一个可以与感兴趣的靶核酸序列杂交的间隔区序列和CRISPR重复序列(这样的CRISPR重复序列也称为“tracr伴侣序列”)。在II型系统中，gRNA还有第二RNA，称为tracrRNA序列。在II型向导RNA(gRNA)中，CRISPR重复序列和tracrRNA序列相互杂交形成双链体。在V型向导RNA(gRNA)中，crRNA形成双链体。在这两个系统中，双链体结合位点特异性多肽，使得向导RNA和位点定向(site-direct)多肽形成复合物。基因组靶向核酸凭借其与位点特异性多肽的结合为该复合物提供靶向特异性。基因组靶向核酸因此引导位点特异性多肽的活性。

在一些实施方案中，基因组靶向核酸是双分子向导RNA。在一些实施方案中，基因组靶向核酸是单分子向导RNA或单向导RNA(sgRNA)。双分子向导RNA有两条RNA链。第一链在5'至3'方向上具有可选的间隔区延伸序列、间隔区序列和最小CRISPR重复序列。第二条链具有最小tracrRNA序列(与最小CRISPR重复序列互补)、3'tracrRNA序列和可选的tracrRNA延伸序列。II型系统中的单分子向导RNA(sgRNA)在5’至3’方向上具有可选的间隔区延伸序列、间隔区序列、最小CRISPR重复序列、单分子向导接头、最小tracrRNA序列、3’tracrRNA序列和可选的tracrRNA延伸序列。可选的tracrRNA延伸可以具有为向导RNA提供额外功能(例如，稳定性)的元件。单分子向导接头将最小CRISPR重复序列和最小tracrRNA序列连接起来，形成发夹结构。可选的tracrRNA延伸具有一个或多个发夹。V型系统中的单分子向导RNA(sgRNA)在5'到3'方向上具有最小CRISPR重复序列和间隔区序列。

例如，在WO2018002719中描述了示例性基因组靶向核酸。

一般而言，CRISPR重复序列包括与tracr序列具有足够互补性的任何序列，以促进以下中的一项或多项：(1)在含有相应tracr序列的细胞中切除侧翼为CRISPR重复序列的DNA靶向区段；和(2)在靶序列处形成CRISPR复合物，其中该CRISPR复合物包括与tracr序列杂交的CRISPR重复序列。一般而言，互补程度是指CRISPR重复序列和tracr序列沿着两个序列中较短序列的长度的最佳比对。最佳比对可以通过任何合适的比对算法来确定，并且可以进一步考虑二级结构，例如tracr序列或CRISPR重复序列内的自互补性(self-complementarity)。在一些实施方案中，当最佳比对时，tracr序列和CRISPR重复序列沿着两者中较短者的30个核苷酸长度的互补程度是约或大于25％、30％、40％、50％、60％、70％、80％、90％、95％、97.5％、99％或更高。在一些实施方案中，tracr序列的长度是约或大于5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40、50或更多个核苷酸。在一些实施方案中，tracr序列和CRISPR重复序列包含在单个转录物内，使得两者之间的杂交产生具有二级结构(例如，发夹)的转录物。在一些实施方案中，转录物或转录的多核苷酸序列具有至少两个或更多个发夹。

向导RNA的间隔区包括与靶DNA中的序列互补的核苷酸序列。换言之，向导RNA的间隔区通过杂交(例如，碱基配对)以序列特异性的方式与靶DNA相互作用。因此，间隔区的核苷酸序列可以变化，并且确定向导RNA和靶DNA将相互作用的靶DNA内的位置。向导RNA的DNA靶向区段可以被修饰(例如，通过基因工程)以与靶DNA内的任何所需的序列杂交。

在一些实施方案中，间隔区具有从10个核苷酸到30个核苷酸的长度。在一些实施方案中，间隔区具有从13个核苷酸到25个核苷酸的长度。在一些实施方案中，间隔区具有从15个核苷酸到23个核苷酸的长度。在一些实施方案中，间隔区具有从18个核苷酸到22个核苷酸的长度，例如从20个至22个核苷酸的长度。

在一些实施方案中，间隔区的DNA靶向序列和靶DNA的原型间隔区之间的互补性百分比在20-22个核苷酸上为至少60％(例如，至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少97％、至少98％、至少99％或100％)。

在一些实施方案中，原间隔区在其3'末端与合适的PAM序列直接相邻，或者这样的PAM序列在其3’部分是DNA靶向序列的一部分。

向导RNA的修饰可以用于增强包括向导RNA和Cas核酸内切酶(例如，M-SmallCas9)的CRISPR-Cas基因组编辑复合物的形成或稳定性。向导RNA的修饰也可以或可替代地用于增强基因组编辑复合物与基因组中的靶序列之间的相互作用的启动、稳定性或动力学，其可以用于例如增强在靶活性(on-target activity)。向导RNA的修饰也可以或可替代地用于增强特异性，例如与在其他(脱靶)位点的效果相比，在靶位点的基因组编辑的相对速率。

修饰还可以或替代地用于增加向导RNA的稳定性，例如通过增加其对细胞中存在的核糖核酸酶(RNases)降解的抗性，从而增加其在细胞中的半衰期。增强向导RNA半衰期的修饰，为了产生M-SmallCas9核酸内切酶，在将Cas核酸内切酶(如M-SmallCas9)通过需要翻译的RNA引入至待编辑的细胞的实施方案中特别有用，因为增加与编码核酸内切酶的RNA同时引入的向导RNA的半衰期可以用于增加向导RNA和编码的Cas核酸内切酶在细胞中共存的时间。

供体DNA或供体模板

位点特异性多肽，例如DNA核酸内切酶，可以在核酸(例如，基因组DNA)中引入双链断裂或单链断裂。双链断裂可以刺激细胞的内源性DNA修复途径(例如，同源依赖性修复(HDR)或非同源末端连接或替代性非同源末端连接(A-NHEJ)或微同源介导的末端连接(MMEJ)。NHEJ可以修复切割的靶核酸，而不需要同源模板。这有时会导致靶核酸在切割位点出现小的缺失或插入(插入缺失(indel))，并可能导致基因表达的破坏或改变。当同源修复模板或供体可用时，可能会发生HDR，也称为同源重组(HR)。

同源供体模板具有与靶核酸切割位点侧翼的序列同源的序列。姐妹染色单体通常被细胞用作修复模板。然而，出于基因组编辑的目的，修复模板通常作为外源核酸提供，例如质粒、双链体寡核苷酸(duplex oligonucleotide)、单链寡核苷酸、双链寡聚核苷酸或病毒核酸。对于外源供体模板，通常在同源的侧翼区域之间引入额外的核酸序列(如转基因)或修饰(如单个或多个碱基的改变或缺失)，使得额外的或改变的核酸序列也被整合到靶基因座中。MMEJ导致的遗传结果与NHEJ相似，因为在切割位点可以发生小的缺失和插入。MMEJ利用切割位点侧翼的几个碱基对的同源序列来驱动有利的末端连接DNA修复结果。在一些实施方案中，可以基于核酸酶靶区域中潜在微同源性的分析来预测可能的修复结果。

因此，在某些情况下，同源重组用于将外源多核苷酸序列插入到靶核酸切割位点。外源多核苷酸序列在本文中被称为供体多核苷酸(或供体或供体序列或多核苷酸供体模板)。在一些实施方案中，将供体多核苷酸、供体多核苷酸的一部分、供体多核酸的拷贝或供体多核苷酸拷贝的一部分插入到靶核酸切割位点。在一些实施方案中，供体多核苷酸是外源多核苷酸序列，即并非天然存在于靶核酸切割位点处的序列。

当在发生双链断裂的细胞核内提供足够浓度的外源DNA分子时，外源DNA可以在NHEJ修复过程中插入到双链断裂处，从而成为基因组的永久添加物。这些外源DNA分子在一些实施方案中被称为供体模板。如果供体模板含有本文所述的一种或多种系统组分的编码序列，任选地连同相关的调控序列(如启动子、增强子、polyA序列和/或剪接受体序列)，则一种或多种系统组分可以由基因组中的整合的核酸表达，从而导致在细胞的生命周期内永久表达。此外，当细胞分裂时，供体DNA模板的整合的核酸可以传递至子细胞。

在存在足够浓度的供体DNA模板(其包含与双链断裂两侧的DNA序列同源的侧翼DNA序列(称为同源臂))的情况下，供体DNA模板可以通过HDR途径进行整合。同源臂充当供体模板和双链断裂两侧序列之间同源重组的底物。这可以导致供体模板的无错误插入，其中双链断裂两侧的序列与未修饰的基因组中的序列相比没有改变。

用于HDR编辑的供体差异显著，但通常含有具有小的或大的侧翼同源臂的预期序列，以允许对基因组DNA进行退火。引入的遗传变化侧翼的同源区可以是30bp或更小，或者与可以包含启动子、cDNA等的数千碱基盒(multi-kilobase cassette)一样大。单链和双链寡核苷酸供体都可以使用。这些寡核苷酸的大小范围从小于100nt到超过许多kb，但也可以产生和使用更长的ssDNA。通常使用双链供体，包括PCR扩增子、质粒和微环。一般来说，已经发现AAV载体是一种非常有效的供体模板递送方式，尽管单个供体的包装限制(packaginglimit)是<小于5kb。供体的主动转录使HDR增加了三倍，表明启动子的加入可以增加转化率。相反，供体的CpG甲基化可以降低基因表达和HDR。

在一些实施方案中，供体DNA可以与核酸酶一起供应或独立地通过多种不同的方法供应，例如通过转染、纳米颗粒、显微注射(micro-injection)或病毒转导。在一些实施方案中，可以使用一系列系留选项(tethering option)来增加供体对于HDR的可用性。实例包括将供体连接到核酸酶上，连接到附近结合的DNA结合蛋白上，或连接到参与DNA末端结合或修复的蛋白质上。

除了通过NHEJ或HDR进行基因组编辑外，还可以使用NHEJ途径和HR进行位点特异性基因插入。组合方法可适用于某些环境，可能包括内含子/外显子边界。NHEJ证明对内含子中的连接有效，而无差错HDR更适用于编码区。

载体

在另一个方面，本文提供了一种核酸，其包含编码M-SmallCas9多肽或其变体的密码子优化的多核苷酸序列、gRNA和/或实施本公开内容的实施方案所必需的任何核酸或蛋白质分子。在一些实施方案中，这样的核酸是载体(例如，重组表达载体)。

考虑的表达载体包括但不限于基于以下病毒的病毒载体：痘苗病毒、脊髓灰质炎病毒、腺病毒、腺相关病毒、SV40、单纯疱疹病毒、人类免疫缺陷病毒、逆转录病毒(例如，鼠白血病病毒、脾坏死病毒和衍生自逆转录病毒的载体，例如劳斯肉瘤病毒、哈维肉瘤病毒、禽白血病病毒、慢病毒、人类免疫缺陷病毒、骨髓增生肉瘤病毒和乳腺肿瘤病毒)和其他重组载体。考虑用于真核靶细胞的其他载体包括但不限于载体pXT1、pSG5、pSVK3、pBPV、pMSG和pSVLSV40(Pharmacia)。考虑用于真核靶细胞的其他载体包括但不限于载体pCTx-1、pCTx-2和pCTx-3。其他载体只要与宿主细胞相容就可以使用。

在一些实施方案中，载体具有一个或多个转录和/或翻译控制元件。根据所使用的宿主/载体系统，可以在表达载体中使用许多合适的转录和翻译控制元件中的任何一种，包括组成型和诱导型启动子、转录增强子元件、转录终止子等。在一些实施方案中，载体是使病毒序列或CRISPR机制的组分或其他元件失活的自失活载体(self-inactivatingvector)。

合适的真核启动子(即在真核细胞中具有功能的启动子)的非限制性实例包括来自巨细胞病毒(CMV)立即早期、单纯疱疹病毒(HSV)胸苷激酶、早期和晚期SV40、来自逆转录病毒的长末端重复序列(LTR)、人延伸因子-1启动子(EF1)，具有与鸡β-肌动蛋白启动子(CAG)融合的巨细胞病毒(CMV)增强子的杂交构建体、鼠干细胞病毒启动子(MSCV)、磷酸甘油酸激酶-1基因座启动子(PGK)和小鼠金属硫蛋白-I的那些启动子。

对于表达小RNA，包括向导RNA，连同使用Cas核酸内切酶，各种启动子(如RNA聚合酶III启动子，包括例如U6和H1)可能是有利的。用于增强这样的启动子的使用的描述和参数是本领域中已知的，并且额外的信息和方法被频繁地描述；参见，例如，Ma,H.et al.,Molecular Therapy-Nucleic Acids 3,e161(2014)doi:10.1038/mtna.2014.12。

表达载体还可以包含用于翻译起始的核糖体结合位点和转录终止子。表达载体还可以包括用于扩增表达的适当序列。表达载体还可以包括编码非天然标签(例如组氨酸标签、血凝素标签、绿色荧光蛋白等)的核苷酸序列，该标签与位点特异性多肽融合，从而产生融合蛋白。

在一些实施方案中，启动子是诱导型启动子(例如，热休克启动子、四环素调控的启动子、类固醇调控的启动子，金属调控的启动子和雌激素受体调控的启动子等)。在一些实施方案中，启动子是组成型启动子(例如，CMV启动子、UBC启动子)。在一些实施方案中，启动子是空间限制的和/或时间限制的启动子(例如，组织特异性启动子、细胞类型特异性启动子等)。在一些实施方案中，如果基因在插入基因组后将在基因组中存在的内源性启动子下表达，则载体不具有用于至少一个基因在宿主细胞中表达的启动子。

核酸和多肽的修饰

在一些实施方案中，本文所述的多核苷酸包含一种或多种修饰，其可用于例如增强活性、稳定性或特异性、改变递送、减少宿主细胞中的先天免疫应答、进一步减少蛋白质尺寸或用于其他增强，如文本进一步描述和本领域中已知的。在一些实施方案中，这样的修饰将导致M-SmallCas9多肽包含与SEQ ID NO:2的序列具有至少75％、至少80％、至少85％、至少90％、至少95％、至少99％或100％的氨基酸序列同一性的氨基酸序列。

密码子优化

在某些实施方案中，修饰的多核苷酸用于本文所述的CRISPR-M-SmallCas9系统中，其中向导RNA和/或包含编码M-SmallCas9多肽或其变体的多核苷酸序列的DNA或RNA可以被修饰，如下描述和说明。这样的修饰的多核苷酸可以在CRISPR-M-SmallCas9系统中用于编辑任何一个或多个基因组基因座。在一些实施方案中，本公开内容的多核苷酸中的这样的修饰是通过密码子优化来实现的，例如基于其中表达编码多肽的特定宿主细胞进行密码子优化。本领域技术人员将理解，本公开内容的任何核苷酸序列和/或重组核酸可以经过密码子优化，以在任何感兴趣的物种中表达。密码子优化在本领域中是熟知的，并且涉及使用物种特异性密码子使用表(species specific codon usage table)针对密码子使用偏好(codon usage bias)对核苷酸序列进行修饰。密码子使用表是基于感兴趣的物种最高表达基因的序列分析而生成的。在非限制性实例中，当核苷酸序列要在细胞核中表达时，基于感兴趣的物种高表达核基因的序列分析来生成密码子使用表。核苷酸序列的修饰是通过将物种特异性密码子使用表与天然多核苷酸序列中存在的密码子进行比较来确定的。

在一些实施方案中，本文所述的M-SmallCas9多肽或其变体由密码子优化的多核苷酸序列表达。例如，如果预期的靶细胞是人细胞，则编码M-SmallCas9(或M-SmallCas9变体，例如酶促失活变体(enzymatically inactive variant))的人密码子优化的多核苷酸序列将是合适的。作为另一个非限制性实例，如果预期的宿主细胞是小鼠细胞，则编码M-SmallCas9(或M-SmallCas9变体，例如酶促失活变体)的小鼠密码子优化的多核苷酸序列将是合适的。

密码子优化的策略和方法是本领域中已知的，并且已经针对各种系统进行了描述，包括但不限于酵母(Outchkourov et al.,Protein Expr Purif,24(1):18-24(2002))和大肠杆菌(Feng et al.,Biochemistry,39(50):15399-15409(2000))。在一些实施方案中，密码子优化是通过使用表达优化技术(ATUM)和使用制造商推荐的表达优化算法来进行的。在一些实施方案中，本公开内容的多核苷酸是密码子优化的，用于在人细胞中增加表达。在一些实施方案中，本公开内容的多核苷酸是密码子优化的，用于在大肠杆菌细胞中增加表达。在一些实施方案中，本公开内容的多核苷酸是密码子优化的，用于在昆虫细胞中增加表达。在一些实施方案中，本公开内容的多核苷酸是密码子优化的，用于在Sf9昆虫细胞中增加表达。在一些实施方案中，密码子优化过程中使用的表达优化算法被定义为避免假定的聚腺苷酸化信号(poly-A signal)(例如，AATAAA和ATTAAA)以及可能导致聚合酶滑动的长(大于4)A段。

如本领域中所熟知的，核苷酸序列的密码子优化导致核苷酸序列与天然核苷酸序列相比具有小于100％的同一性(例如，小于70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％)，但其仍然编码与原始的天然核苷酸序列编码的多肽具有相同功能的多肽。因此，在本公开内容的代表性实施方案中，本公开内容的核苷酸序列和/或重组核酸可以是密码子优化的，用于在感兴趣的特定物种中表达。

在一些实施方案中，密码子优化的多核苷酸序列与SEQ ID NO:1具有至少90％、92％、93％、94％、95％、96％、97％、98％、99％、99.2％、99.5％、99.8％、99.9％或100％的序列同一性。在一些实施方案中，本公开内容的多核苷酸是密码子优化的，用于所编码的M-SmallCas9多肽在靶细胞中增加表达。在一些实施方案中，本公开内容的多核苷酸是密码子优化的，用于在人细胞中增加表达。通常，本公开内容的多核苷酸是密码子优化的，用于在任何人细胞中增加表达。在一些实施方案中，本公开内容的多核苷酸是密码子优化的，用于在大肠杆菌细胞中增加表达。在一些实施方案中，本公开内容的多核苷酸是密码子优化的，用于在昆虫细胞中增加表达。通常，本公开内容的多核苷酸是密码子优化的，用于在任何昆虫细胞中增加表达。在一些实施方案中，本公开内容的多核苷酸是密码子优化的，用于在Sf9昆虫细胞表达系统中增加表达。

还可以选择聚腺苷酸化信号以优化在预期宿主中的表达。

其他修饰

修饰还可以或可替代地用于降低引入至细胞的RNA引发先天免疫应答的可能性或程度。如下文和本领域中所述，这样的应答已经在RNA干扰(RNAi)(包括小干扰RNA(siRNA))的背景下很好地表征的，往往与RNA半衰期缩短和/或细胞因子或与免疫应答相关的其他因子的激发有关。

还可以对被引入至细胞中的编码核酸内切酶(如M-SmallCas9)的RNA进行一种或多种类型的修饰，包括但不限于增强RNA稳定性的修饰(例如，通过减少其被细胞中存在的RNA酶降解)、增强所得产物(例如，核酸内切酶)翻译的修饰，和/或降低被引入至细胞的RNA引发先天免疫应答的可能性或程度的修饰。也可以使用诸如上述和其他修饰的组合。在CRISPR-M-SmallCas9的情况下，例如，可以对向导RNA(包括上面例举的那些)进行一种或多种类型的修饰，和/或可以对编码M-SmallCas9核酸内切酶的RNA(包括上面例举的那些)进行一种或者多种类型的修饰。

举例来说，CRISPR-M-SmallCas9系统中使用的向导RNA或其他较小的RNA可以通过化学手段容易地合成，从而使得许多修饰能够容易地掺入，如下文所示和本领域中所述。当化学合成程序不断扩展时，随着多核苷酸长度显著增加超过100个左右核苷酸，通过诸如高效液相色谱法(HPLC，其避免使用诸如PAGE的凝胶)的程序纯化这样的RNA往往变得更具挑战性。用于产生更大长度的化学修饰RNA的一种方法是产生连接在一起的两个或更多个分子。更长的RNA，如编码M-SmallCas9核酸内切酶的RNA，更容易通过酶促产生。虽然通常可用于酶促产生的RNA的修饰类型较少，但仍存在可用于例如增强稳定性、降低先天免疫应答的可能性或程度、和/或增强其他属性的修饰，如下文和本领域中进一步描述的；并且正在定期开发新型的修饰。通过说明各种类型的修饰，特别是那些经常与较小的化学合成RNA一起使用的修饰，修饰可以包括在糖的2’位置处修饰的一个或多个核苷酸，在一些实施方案中是2’-O-烷基、2’-O烷基-O-烷基或2’-氟修饰的核苷酸。在一些实施方案中，RNA修饰包括RNA的3'末端的嘧啶的核糖、碱性残基或反向碱基(inverted base)上的2’-氟、2’-氨基和2’O-甲基修饰。这样的修饰通常被掺入寡核苷酸中，并且这些寡核苷酸已被证明具有比针对给定靶标的2’-脱氧寡核苷酸更高的Tm(例如，更高的靶标结合亲和力)。

许多核苷酸和核苷修饰已被证明使得掺入它们的寡核苷酸比天然寡核苷酸更耐核酸酶消化；这些修饰的寡核苷酸比未修饰的寡核苷酸完整存活的时间更长。修饰的寡核苷酸的具体实例包括包含修饰的骨架的寡核苷酸，例如，硫代磷酸酯、磷酸三酯、甲基膦酸酯、短链烷基或环烷基糖间键或短链杂原子或杂环糖间键。一些寡核苷酸是具有硫代磷酸酯骨架的和具有杂原子骨架的寡核苷酸，特别是CH2-NH-O-CH2,CH,-N(CH3)-O-CH2(称为亚甲基(甲基亚氨基)或MMI骨架)、CH2-O-N(CH3)-CH2、CH2-N(CH3)-N(CH3)-CH2和O-N(CH3)-CH2-CH2骨架；酰胺骨架[参见De Mesmaeker et al.,Ace.Chem.Res.,28:366-374(1995)]；吗啉代骨架结构(参见Summerton和Weller，美国专利号5,034,506)；肽核酸(PNA)骨架(其中寡核苷酸的磷酸二酯骨架被聚酰胺骨架取代，核苷酸直接或间接结合到聚酰胺骨架的氮杂氮原子，参见Nielsen et al.,Science 1991,254,1497)。含磷键包括但不限于硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯，甲基和其他烷基膦酸酯包括3’-亚烷基膦酸酯和手性膦酸酯、次膦酸酯，氨基磷酸酯包括3’-氨基磷酸酯和氨基烷基氨基磷酸酯，硫代磷酰胺酯(thionophosphoramidate)、硫代烷基膦酸酯(thionoalkylphosphonate)、硫羰烷基磷酸三酯(thionoalkylphosphotriester)和具有正常3'-5'键的硼垸化磷酸盐(boranophosphate)，这些的2'-5'连接类似物，以及具有相反极性的那些，其中相邻的核苷单元对连接3'-5'至5'-3'或2'-5'至5'-2'；参见美国专利号3,687,808；4,469,863；4,476,301；5,023,243；5,177,196；5,188,897；5,264,423；5,276,019；5,278,302；5,286,717；5,321,131；5,399,676；5,405,939；5,453,496；5,455,233；5,466,677；5,476,925；5,519,126；5,536,821；5,541,306；5,550,111；5,563,253；5,571,799；5,587,361；和5,625,050。

基于吗啉代的低聚化合物描述于Braasch和Corey,Biochemistry,41(14):4503-4510(2002)；Genesis,Volume 30,Issue 3,(2001)；Heasman,Dev.Biol.,243:209-214(2002)；Nasevicius et al.,Nat.Genet.,26:216-220(2000)；Lacenra etc.,Proc.Nat/.Acad.Sci.,97:9591-9596(2000)；和1991年7月23日发布的美国专利号5,034,506。环己烯基核酸寡核苷酸模拟物描述于Wang et al.,J.Am.Chem.Soc.,122:8595-8602(2000)。

其中不包括磷原子的修饰的寡核苷酸骨架具有由短链烷基或环烷基核苷间键、混合杂原子和烷基或环烷基核苷间键或一个或多个短链杂原子或杂环核苷间键形成的骨架。这些包括具有以下的那些：吗啉代键(部分地由核苷的糖部分形成)；硅氧烷骨架；硫化物、亚砜和砜骨架；甲乙酰基和硫代甲乙酰基骨架；亚甲基甲乙酰基和硫代甲乙酰基骨架；含烯烃骨架；氨基磺酸骨架；亚甲基亚胺基和亚甲基肼基骨架；磺酸酯和磺酰胺骨架；酰胺骨架；以及具有混合N、O、S和CH₂组成部分的其它骨架；参见美国专利号5,034,506；5,166,315；5,185,444；5,214,134；5,216,141；5,235,033；5,264,562；5,264,564；5,405,938；5,434,257；5,466,677；5,470,967；5,489,677；5,541,307；5,561,225；5,596,086；5,602,240；5,610,289；5,602,240；5,608,046；5,610,289；5,618,704；5,623,070；5,663,312；5,633,360；5,677,437；和5,677,439，其中每个专利以引用的方式纳入本说明书。

还可以包括一个或多个取代的糖部分，例如在2'位置的以下其中之一：OH、SH、SCH₃、F、OCN、OCH₃、OCH₃O(CH₂)_nCH₃、O(CH₂)_nNH₂或O(CH₂)_nCH₃，其中n为1-10；C₁至C₁₀低级烷基、烷氧基烷氧基、取代的低级烷基、烷芳基或芳烷基；Cl；Br；CN；CF₃；OCF₃；O-、S-或N-烷基；O-、S-或N-烯基：SOCH₃；SO₂CH₃；ONO₂；NO₂；N₃；NH₂；杂环烷基；杂环烷芳基；氨基烷基氨基；聚烷基氨基；取代的甲硅烷基；RNA切割基团；报告基团；嵌入剂；用于改进寡核苷酸的药代动力学性质的基团；或用于改进寡核苷酸的药效学性质的基团以及具有类似性质的其它取代基。在一些实施方案中，修饰包括2'-甲氧基乙氧基(2'-O-CH₂CH₂OCH₃，也称为2'-O-(2-甲氧基乙基))(Martin et al.,Helv.Chim.Acta,1995,78,486)。其他修饰包括2'-甲氧基(2'-O-CH₃)、2'-丙氧基(3'-OCH₂CH₂CH₃)和2'-氟(2'-F)。类似的修饰也可以在寡核苷酸的其他位置进行，特别是糖在3'末端核苷酸上的3'位置和5'末端核苷酸的5'位置。寡核苷酸也可以具有糖模拟物，例如取代呋喃戊糖基的环丁基。在一些实施方案中，核苷酸单元的糖和核苷间键(例如，骨架)，都被新的基团取代。保留碱基单元用于与合适的核酸靶化合物杂交。一种这样的低聚化合物，即已被证明具有优异杂交性质的寡核苷酸模拟物，被称为肽核酸(PNA)。在PNA化合物中，寡核苷酸的糖骨架被含酰胺的骨架取代，例如氨基乙基甘氨酸骨架。核碱基被保留并直接或间接地结合到骨架酰胺部分的氮杂氮原子上。教导PNA化合物的制备的代表性美国专利包括但不限于美国专利号5539082；5,714,331；和5719262。PNA化合物的进一步教导可见于Nielsen et al.,Science,254:1497-1500(1991)。

向导RNA还可以额外地或替代地包括核碱基(在本领域中通常简称为“碱基”)修饰或置换。如本文所用，“未修饰的”或“天然的”核碱基包括腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、胞嘧啶(C)和尿嘧啶(U)。修饰的核碱基包括仅在天然核酸中很少或短暂存在的核碱基，例如次黄嘌呤、6-甲基腺嘌呤、5-Me嘧啶，特别是5-甲基胞嘧啶(也称为5-甲基-2’脱氧胞嘧啶，并且在本领域中通常称为5-Me-C)、5-羟甲基胞嘧啶(HMC)、糖基HMC和龙胆二糖基HMC(gentobiosyl HMC)，以及合成的核碱基，例如2-氨基腺嘌呤、2-(甲基氨基)腺嘌呤、2-(咪唑基烷基)腺嘌呤、2-(氨基烯基氨基)腺嘌呤或其他杂取代的烷基腺嘌呤、2-硫代尿嘧啶、2-硫代胸腺嘧啶、5-溴尿嘧啶、5-羟甲基尿嘧啶、8-氮杂鸟嘌呤、7-脱氮鸟嘌呤、N6(6-氨基己基)腺嘌呤和2,6-二氨基嘌呤。Kornberg,A,DNA Replication,W.H.Freeman&Co.,SanFrancisco,pp75-77(1980)；Gebeyehu et al.,Nucl.Acids Res.15:4513(1997)。还可以包括本领域中已知的“通用”碱基，例如肌苷。5-Me-C取代已显示将核酸双链体稳定性提高0.6-1.2℃(Sanghvi,Y.S.,in Crooke,S.T.和Lebleu,B.,eds.,Antisense Research andApplications,CRC Press,Boca Raton,1993,第276-278页)，并且是碱基取代的实施方案。

修饰的核碱基包括其他合成和天然的核碱基，如5-甲基胞嘧啶(5-me-C)、5-羟甲基胞嘧啶、黄嘌呤、次黄嘌呤、2-氨基腺嘌呤、腺嘌呤和鸟嘌呤的6-甲基衍生物和其他烷基衍生物、腺嘌呤和鸟嘌呤的2-丙基衍生物和其他烷基衍生物，2-硫代尿嘧啶、2-硫代胸腺嘧啶和2-硫代胞嘧啶、5-卤代尿嘧啶和胞嘧啶、5-丙炔基尿嘧啶和胞嘧啶，6-偶氮基尿嘧啶，胞嘧啶和胸腺嘧啶，5-尿嘧啶(假尿嘧啶)、4-硫代尿嘧啶、8-卤代、8-氨基、8-硫醇、8-硫代烷基、8-羟基和其他a-取代的腺嘌呤和鸟嘌呤、5-卤代、特别是5-溴、5-三氟甲基和其他5-取代的尿嘧啶和胞嘧啶、7-甲基喹(7-methylquanine)和7-甲基腺嘌呤、8-氮杂鸟嘌呤和8-氮杂腺嘌呤、7-去氮杂鸟嘌呤和7-去氮杂腺嘌呤以及3-去氮杂鸟嘌呤和3-去氮杂腺嘌呤。

其他有用的核碱基包括在美国专利号3,687,808中公开的那些，在“The ConciseEncyclopedia of Polymer Science And Engineering”,第858-859页,Kroschwitz,J.l.,ed.John Wiley&Sons,1990公开的那些，由Englisch et al.,Angewandte Chemie,International Edition,1991,30,第613页公开的那些，以及在Sanghvi,Y.S.,Chapter15,Antisense Research and Applications,第289-302页,Crooke,S.T.和Lebleu,B.ea.,CRC Press,1993公开的那些。这些核碱基中的某些对于增加本公开内容的低聚化合物的结合亲和力特别有用。这些包括5-取代的嘧啶、6-氮杂嘧啶和N-2、N-6和-O-6取代的嘌呤，包括2-氨基丙基腺嘌呤、5-丙炔基尿嘧啶和5-丙炔基胞嘧啶。5-甲基胞嘧啶取代已显示将核酸双链体稳定性增加0.6-1.2℃(Sanghvi,Y.S.,Crooke,S.T.和Lebleu,B.,eds,“Antisense Research and Applications”,CRC Press,Boca Raton,1993,第276-278页)，并且是碱基取代的实施方案，甚至更具体地是当与2'-O-甲氧基乙基糖修饰结合时。修饰的核碱基描述于美国专利号3,687,808,以及4,845,205；5,130,302；5,134,066；5,175,273；5,367,066；5,432,272；5,457,187；5,459,255；5,484,908；5,502,177；5,525,711；5,552,540；5,587,469；5,596,091；5,614,617；5,681,941；5,750,692；5,763,588；5,830,653；6,005,096；和美国专利申请公开号20030158403。

不需要对给定寡核苷酸中的所有位置进行统一修饰，并且事实上，上述修饰的不止一种可以被掺入到单个寡核苷酸中，或者甚至寡核苷酸内的单个核苷中。

在一些实施方案中，向导RNA和/或编码本公开内容的核酸内切酶(如M-SmallCas9)的mRNA使用任何一种当前的加帽方法(如mCAP、ARCA或酶加帽方法)进行加帽，以产生保持生物活性并避免自身/非自身细胞内反应的可行的mRNA构建体。在一些实施方案中，向导RNA和/或编码本公开内容的核酸内切酶(如M-SmallCas9)的mRNA通过使用CleanCap^TM(TriLink)共转录加帽方法来加帽。

在一些实施方案中，向导RNA和/或编码本公开内容的核酸内切酶的mRNA包括选自由假尿苷、N¹-甲基假尿苷和5-甲氧基尿苷组成的组一种或多种修饰。在一些实施方案中，将一种或多种N¹-甲基假尿苷掺入到向导RNA和/或编码本公开内容的核酸内切酶的mRNA中，以在动物细胞如哺乳动物细胞(例如，人和小鼠)中提供增强的RNA稳定性和/或蛋白质表达和降低的免疫原性。在一些实施方案中，N¹-甲基假尿苷修饰与一种或多种5-甲基胞苷组合掺入。

在一些实施方案中，向导RNA和/或编码核酸内切酶(如M-SmallCas9)的mRNA(或DNA)化学连接至增强寡核苷酸的活性、细胞分布或细胞摄取的一个或多个部分或缀合物。这样的部分包括但不限于脂质部分，例如胆固醇部分[Letsinger et al.,Proc.Nat/.Acad.Sci.USA,86:6553-6556(1989)]；胆酸[Manoharan et al.,Bioorg.Med.Chem.Let.,4:1053-1060(1994)]；硫醚，例如，己基-S-三苯甲基硫醇[Manoharan et al.,Ann.N.YAcad.Sci.,660:306-309(1992)和Manoharan et al.,Bioorg.Med.Chem.Let.,3.·2765-2770(1993))；巯基胆固醇[Oberhauser et al.,Nucl.Acids Res.,20:533-538(1992)]；脂肪族链，例如十二烷二醇或十一烷基残基[Kabanov et al.,FEBS Lett.,259:327-330(1990)和Svinarchuk et al.,Biochimie,75:49-54(1993)]；磷脂，例如二-十六烷基-rac-甘油或1,2-二-O-十六烷基-rac-甘油-3-H-磷酸三乙基铵盐[Manoharan et al.,Tetrahedron Lett.,36:3651-3654(1995)和Shea et al.,Nucl.Acids Res.,18:3777-3783(1990)]；多胺或或聚乙二醇链[Mancharan etc.,Nucleosides&Nucleotides,14:969-973(1995)]；金刚烷乙酸[Manoharan et al.,Tetrahedron Lett.,36:3651-3654(1995)]；棕榈基部分[(Mishra etc.,Biochim.Biophys.Acta,1264:229-237(1995)]；或十八烷基胺或己基氨基-羰基-t氧基胆固醇部分[Crooke et al.,J.Pharmacol.Exp.Ther.,277:923-937(1996)]。另外参见美国专利号4,828,979；4,948,882；5,218,105；5,525,465；5,541,313；5,545,730；5,552,538；5,578,717,5,580,731；5,580,731；5,591,584；5,109,124；5,118,802；5,138,045；5,414,077；5,486,603；5,512,439；5,578,718；5,608,046；4,587,044；4,605,735；4,667,025；4,762,779；4,789,737；4,824,941；4,835,263；4,876,335；4,904,582；4,958,013；5,082,830；5,112,963；5,214,136；5,082,830；5,112,963；5,214,136；5,245,022；5,254,469；5,258,506；5,262,536；5,272,250；5,292,873；5,317,098；5,371,241,5,391,723；5,416,203,5,451,463；5,510,475；5,512,667；5,514,785；5,565,552；5,567,810；5,574,142；5,585,481；5,587,371；5,595,726；5,597,696；5,599,923；5,599,928和5,688,941。

糖和其他部分可用于将蛋白质和包括核苷酸的复合物(例如，阳离子多聚体和脂质体)靶向特定位点。例如，肝细胞定向转移可以通过脱唾液酸糖蛋白受体(ASGPR)介导；参见，例如，Hu,et al.,Protein Pept Lett.21(1 0):1025-30(2014)。本领域中已知和不断开发的其他系统可用于将本情况下使用的生物分子和/或其复合物靶向特定的感兴趣的靶细胞。

这些靶向部分或缀合物可以包括共价结合到官能团(例如，伯羟基或仲羟基)的缀合基团。合适的缀合基团包括嵌入剂、报告分子、多胺、聚酰胺、聚乙二醇、聚醚、增强低聚物的药效学性质的基团和增强低聚物的药代动力学性质的基团。典型的缀合基团包括胆固醇、脂质、磷脂、生物素、吩嗪、叶酸、菲啶、蒽醌、吖啶、荧光素、罗丹明、香豆素和染料。能够增强药效学性质的基团包括改进摄取、增强降解的抗性和/或加强与靶核酸的序列特异性杂交的基团。能够增强药代动力学性质的基团包括改进本公开内容的化合物的摄取、分布、代谢或排出的基团。在1992年10月23日提交的国际专利申请PCT/US92/09196和美国专利号6,287,860中公开了代表性的缀合基团，这两项专利通过引用的方式纳入本说明书。缀合部分包括但不限于脂质部分，例如胆固醇部分、胆酸、硫醚，例如己基-5-三苯甲基硫醇、硫代胆固醇、脂族链，例如十二烷二醇或十一烷基残基、磷脂，例如二-十六烷基-rac-甘油或1,2-二-O-十六烷基-rac-甘油-3-H-磷酸三乙基铵盐、多胺或聚乙二醇链或金刚烷乙酸、棕榈部分或十八胺或己胺-羰基-含氧胆固醇部分，参见例如美国专利号4,828,979；4,948,882；5,218,105；5,525,465；5,541,313；5,545,730；5,552,538；5,578,717,5,580,731；5,580,731；5,591,584；5,109,124；5,118,802；5,138,045；5,414,077；5,486,603；5,512,439；5,578,718；5,608,046；4,587,044；4,605,735；4,667,025；4,762,779；4,789,737；4,824,941；4,835,263；4,876,335；4,904,582；4,958,013；5,082,830；5,112,963；5,214,136；5,082,830；5,112,963；5,214,136；5,245,022；5,254,469；5,258,506；5,262,536；5,272,250；5,292,873；5,317,098；5,371,241,5,391,723；5,416,203,5,451,463；5,510,475；5,512,667；5,514,785；5,565,552；5,567,810；5,574,142；5,585,481；5,587,371；5,595,726；5,597,696；5,599,923；5599928和5688941。

不太适合化学合成并且通常通过酶促合成产生的较长多核苷酸也可以通过各种方式进行修饰。这样的修饰可以包括，例如，引入某些核苷酸类似物，在分子的5’或3’末端引入特定序列或其他部分，以及其他修饰。举例来说，编码M-SmallCas9的mRNA长度约为4kb，可以通过体外转录合成。对mRNA的修饰可以用于例如增加其翻译或稳定性(例如，通过增加其对细胞降解的抵抗力)，或减少mRNA引发先天免疫应答的倾向，该倾向在引入外源mRNA，特别是编码M-SmallCas9的较长的mRNA后经常在细胞中观察到。

在本领域中已经描述了许多这样的修饰，例如polyA尾、5’帽类似物(例如，抗反向帽类似物(ARCA)或m7G(5’)ppp(5’)G(mCAP))、修饰的5’或3’非翻译区(UTR)、使用修饰的碱基(例如，伪-UTP、2-硫代-UTP、5-甲基胞苷-5’-三磷酸(5-甲基-CTP)或N6-甲基-ATP)，或使用磷酸酶处理以去除5’末端磷酸盐。这些和其他修饰是本领域中已知的，并且正在不断开发RNA的新修饰。

有许多修饰RNA的商业供应商，包括例如TriLink Biotech、Axolabs、BioSynthesis Inc.、Dharmacon和许多其他公司。如TriLink所描述，例如，5-甲基-CTP可用于赋予所需的性质，例如增加核酸酶稳定性、增加翻译或减少先天免疫受体与体外转录RNA的相互作用。5’-甲基胞苷-5’-三磷酸(5-甲基-CTP)、N6-甲基-ATP以及伪-UTP和2-硫代-UTP也已被证明可以减少培养物和体内的先天免疫刺激，同时增强翻译，如下文提到的Konmann等和Warren等的出版物所示。

已经表明，在体内递送的化学修饰的mRNA可以用于实现改善的治疗效果；参见，例如Kormann et al.,Nature Biotechnology 29,154-157(2011)。这样的修饰可以用于例如增加RNA分子的稳定性和/或降低其免疫原性。使用伪-U、N6-甲基-A、2-硫代-U和5-甲基-C等化学修饰，发现仅使用2-硫代-U或5-甲基-C分别取代尿苷和胞苷残基的四分之一，导致小鼠toll样受体(TLR)介导的对mRNA的识别显著降低。通过减少先天免疫系统的激活，这些修饰可以因此用于有效地增加mRNA在体内的稳定性和寿命；参见，例如Konmann et al.,同上。

还表明，重复施用引入经设计绕过先天抗病毒应答的修饰的合成信使RNA，能将分化的人细胞重新编程为多能性。参见，例如Warren,et al.,Cell Stem Cell,7(5):618-30(2010)。这样的修饰mRNA作为初级重编程蛋白可以是重编程多种人细胞类型的有效方法。这样的细胞被称为诱导多能干细胞(iPSC)。人们发现，酶促合成RNA掺入5-甲基-CTP、伪-UTP和抗反向帽类似物(ARCA)，可以有效地逃逸细胞的抗病毒应答；参见，例如Warren etal.,同上。本领域中描述的多核苷酸的其他修饰包括，例如，使用polyA尾、添加5’帽类似物(例如，m7G(5’)ppp(5’)G(mCAP))、修饰5’或3’非翻译区(UTR)，或使用磷酸酶处理以去除5’末端磷酸盐，并且正在不断开发新的方法。

已经开发了许多适用于生成用于本文的修饰RNA的组合物和技术，其与RNA干扰(RNAi)的修饰(包括小干扰RNA(siRNA))有关。siRNA在体内存在特别的挑战，因为它们通过mRNA干扰对基因沉默的影响通常是瞬时的，这可能需要重复施用。此外，siRNA是双链RNA(dsRNA)，哺乳动物细胞的免疫应答已经进化到检测和中和dsRNA，其通常是病毒感染的副产物。因此，哺乳动物酶，如PKR(dsRNA响应激酶(dsRNA-responsive kinase))和潜在的视黄酸诱导基因I(RIG-I)，可以介导细胞对dsRNA的应答，以及toll样受体(如TLR3、TLR7和TLR8)可以触发细胞因子的诱导以响应这样的分子；参见例如以下综述：Angart et al.,Pharmaceuticals(Basel)6(4):440-468(2013)；Kanasty et al.,Molecular Therapy 20(3):513-524(2012)；Burnett et al.,Biotechnol J.6(9):1130-46(2011)；Judge和Maclachlan,Hum Gene Ther 19(2):111-24(2008)；以及其中引用的参考文献。

已经开发并应用了多种修饰来增强RNA稳定性，减少先天免疫应答，和/或实现可用于将多核苷酸引入至人类细胞的其他益处，如本文所述的；例如，参见以下综述：Whitehead KA et al.,Annual Review of Chemical and Biomolecular Engineering,2:77-96(2011)；Gaglione和Messere,Mini Rev Med Chem,10(7):578-95(2010)；Chernolovskaya et al,Curr Opin Mol Ther.,12(2):158-67(2010)；Deleavey et al.,Curr Protoc Nucleic Acid Chem Chapter 16:Unit 16.3(2009)；Behlke,Oligonucleotides 18(4):305-19(2008):Fucini et al.,Nucleic Acid Ther22(3):205-210(2012)；Bremsen et al.,Front Genet 3:154(2012)。

如上所述，有许多修饰的RNA的商业供应商，其中许多专门从事旨在改进siRNA有效性的修饰。根据文献中报道的各种发现，提供了多种方法。例如，Dharmacon指出，使用硫(硫代磷酸酯，PS)取代非桥接氧(non-bridging oxygen)已被广泛用于提高siRNA的核酸酶抗性，如Kale,Nature Reviews Drug Discovery 11:125-140(2012)所报道。据报道，对核糖2’-位置的修饰可以提高核苷酸间磷酸键的核酸酶抗性，同时增加双链体稳定性(Tm)，这也被证明可以提供免受免疫激活的保护。适度的PS骨架修饰与小的、耐受性良好的2'-取代(2'-O-，2'-氟，2'-氢)的组合已经与用于体内应用的高度稳定的siRNA相关，如Soutscheket al.Nature 432:173-178(2004)所报道；并且2'-O-甲基修饰已被报道在提高稳定性方面是有效的，如Volkov,Oligonucleotides19:191-202(2009)所报道。关于减少先天免疫应答的诱导，据报道，使用2'-O-甲基，2'-氟，2'-氢修饰特定序列可以减少TLR7/TLR8的相互作用，同时通常保持沉默活性；参见，例如Judge et al.,Mol.Ther.13:494-505(2006)；和Cekaite et al.,J.Mol.Biol.365:90-108(2007)。其他修饰，例如2-硫代尿嘧啶、假尿嘧啶、5-甲基胞嘧啶、5-甲基尿嘧啶和N6-甲基腺苷也已被证明可使TLR3、TLR7和TLR8介导的免疫效应最小化；参见，例如Kariko et al.,Immunity 23:165-175(2005)。

如本领域中已知的，并且可商购的，许多缀合物可以应用于本文使用的多核苷酸，例如RNA，其可以增强其被细胞递送和/或摄取，包括例如胆固醇、生育酚和叶酸、脂质、肽、聚合物、接头和适配体；参见，例如Winkler,Ther.Deliv.4:791-809(2013)的综述，以及其中引用的参考文献。

另外的序列

在一些实施方案中，向导RNA在5'或3'端包含至少一个另外的区段。例如，合适的另外的区段可以包括5’帽(例如7-甲基鸟苷酸帽(m7G))；3’聚腺苷酸化尾(例如，3’聚腺苷酸尾)；核糖开关序列(例如，通过蛋白质和蛋白质复合物允许调控的稳定性和/或调控的可及性)；形成dsRNA双链体(例如，发夹)的序列；将RNA靶向亚细胞位置(例如，细胞核、线粒体、叶绿体等)的序列；提供追踪(例如，与荧光分子的直接缀合、与促进荧光检测的部分的缀合、允许荧光检测的序列等)的修饰或序列；提供用于蛋白质(例如，作用在DNA上的蛋白质，包括转录激活物、转录阻遏物、DNA甲基转移酶、DNA脱甲基酶、组蛋白乙酰基转移酶、组蛋白脱乙酰基酶等)的结合位点的修饰或序列，提供增加、降低和/或可控制的稳定性的修饰或序列；以及其组合。

稳定性控制序列

稳定性控制序列影响RNA(例如，向导RNA)的稳定性。合适的稳定性控制序列的一个非限制性实例是转录终止子区段(例如，转录终止序列)。向导RNA的转录终止子区段的总长度可为10个核苷酸至100个核苷酸，例如10个核苷酸(nt)至20nt、20nt至30nt、30nt至40nt、40nt至50nt、50nt至60nt、60nt至70nt、70nt至80nt、80nt至90nt或90nt至100nt。例如，转录终止子片段的长度可为15个核苷酸(nt)至80nt、15nt至50nt、15nt至40nt、15nt至30nt或15至25nt。

在一些实施方案中，转录终止序列是在真核细胞中具有功能的转录终止序列。在一些实施方案中，转录终止序列是在原核细胞中具有功能的转录终止序列。

可以包括在稳定性控制序列(例如，转录终止区段，或在提供增加的稳定性的向导RNA的任何区段中)中的核苷酸序列包括例如Rho独立型trp终止位点。

模拟物

在一些实施方案中，核酸可以是核酸模拟物。当对多核苷酸应用术语“模拟物”时旨在包括其中仅呋喃糖环或呋喃糖环和核苷酸间键被非呋喃糖基团替代的多核苷酸，仅呋喃糖环的替代在本领域中也称为糖替代物。杂环碱基部分或修饰的杂环碱基部分维持用于与合适的靶核酸杂交。一种这样的核酸，已显示出具有优良杂交性质的多核苷酸模拟物，称为肽核酸(PNA)。在PNA中，多核苷酸的糖骨架被含酰胺的骨架替代，具体是氨基乙基甘氨酸骨架。核苷酸被保留并直接或间接地结合到骨架的酰胺部分的氮杂氮原子。

据报道，一种具有优良杂交性质的多核苷酸模拟物是肽核酸(PNA)。PNA化合物中的骨架是给予PNA含酰胺骨架的两个或更多个连接的氨基乙基甘氨酸单元。杂环碱基部分直接或间接地与骨架的酰胺部分的氮杂氮原子结合。描述PNA化合物制备的代表性美国专利包括但不限于：美国专利号5,539,082；5,714,331和5,719,262。

已被研究的另一类多核苷酸模拟物是基于具有连接至吗啉代环的杂环碱基的连接吗啉代单元(吗啉代核酸)。已经报道许多连接基团连接吗啉代核酸中的吗啉代单体单元。已选择一类连接基团以得到非离子型低聚化合物。非离子型吗啉代的低聚化合物不太可能与细胞蛋白质发生不希望的相互作用。基于吗啉代的多核苷酸是寡核苷酸的非离子型模拟物，其不太可能与细胞蛋白质形成不希望的相互作用(Dwaine A.Braasch和DavidR.Corey,Biochemistry,2002,41(14),45034510)。在美国专利号5,034,506中公开了基于吗啉代的多核苷酸。已经制备了吗啉代类多核苷酸中的各种化合物，该化合物具有连接单体亚基的各种不同连接基团。

另一类多核苷酸模拟物被称为环己烯基核酸(GeNA)。通常存在于DNA/RNA分子中的呋喃糖环被环己烯基替代。根据经典亚磷酰胺化学，已经制备了GeNA DMT保护的亚磷酰胺单体并且用于低聚化合物合成。已经制备和研究了完全修饰的GeNA低聚化合物和具有用GeNA修饰的特异性位置的寡核苷酸(参见Wang et al.,J.Am.Chem.Soc.,2000,122,85958602)。通常，GeNA单体引入DNA链增加了DNA/RNA杂交体的稳定性。GeNA寡腺苷酸与RNA和DNA互补序列形成具有与天然复合物相似的稳定性的复合物。通过NMR和圆二色谱显示，将GeNA结构引入天然核酸结构中的研究以继续进行简单的构象调整。

进一步的修饰包括锁定核酸(LNA)，其中2’-羟基连接至糖环的4’碳原子，从而形成2’-C、4’-C-氧基亚甲基键，从而形成双环糖部分。该键可以是亚甲基(-CH2-)，桥接2’氧原子和4’碳原子的基团，其中n为1或2(Singh et al.,Chem.Commun.,1998,4,455-456)。LNA和LNA类似物显现出与互补DNA和RNA具有非常高的双链体热稳定性(Tm＝+3至+10℃)，对3'-核酸外切降解的稳定性和良好的溶解性质。已描述了含有LNA的有效和非毒性反义寡核苷酸(Wahlestedt etal.,Proc.Natl.Acad.Sci.U.S.A,2000,97,5633-5638)。

已经描述了LNA单体腺嘌呤、胞嘧啶、鸟嘌呤、5-甲基-胞嘧啶、胸腺嘧啶和尿嘧啶的合成和制备，连同其低聚化和核酸识别性质(Koshkin et al.,Tetrahedron,1998,54,3607-3630)。LNA及其制备也描述于WO 98/39352和WO 99/14226中。

修饰的糖部分

核酸还可以包括一个或多个取代的糖部分。合适的多核苷酸包括选自以下的糖取代基：OH；F；O-、S-或N-烷基；O-、S-或N-烯基；O-、S-或N-炔基；或O-烷基-O-烷基，其中烷基、烯基和炔基可以是取代的或未取代的C₁至C₁₀烷基或C₂至C₁₀烯基和炔基。特别合适的是O((CH₂)_nO)_mCH₃、O(CH₂)_nOCH₃、O(CH₂)_nNH₂、O(CH₂)CH₃、O(CH₂)_nONH₂和O(CH₂)_nON((CH₂)_nCH₃)₂，其中n和m为1至约10。其它合适的多核苷酸包括选自以下的糖取代基：C₁至C₁₀低级烷基、取代的低级烷基、烯基、炔基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH₃、OCN、Cl、Br、CN、CF₃、OCF₃、SOCH₃、SO₂CH₃、ONO₂、NO₂、N₃、NH₂、杂环烷基、杂环烷芳基、氨基烷基氨基、聚烷基氨基、取代的甲硅烷基、RNA切割基团、报告基因、嵌入剂，用于改进寡核苷酸的药代动力学性质的基团，或用于改进寡核苷酸的药效学性质的基团和具有类似性质的其他取代基。合适的修饰包括2'-甲氧基乙氧基(2'-O-CH2-CH2OCH3，也称为-2'-O-(2-甲氧基乙基)或2'-MOE)(Martin et al.,Hely.Chim.Acta,1995,78,486-504)，例如烷氧基烷氧基。另一种合适的修饰包括2'-二甲基氨基氧基乙氧基，例如O(CH2)2ON(CH3)2基团(2'-DMAOE)，如下文实施例中所述，和2'-二甲氨基乙氧基乙氧基(在本领域中也称为2'-O-二甲基-氨基-乙氧基-乙基或2'-DMAEOE)，例如2'-O-CH2-O-CH2-N(CH3)2。

其他合适的糖取代基包括甲氧基(-O-CH3)、氨基丙氧基(O-CH2CH2CH2NH2)、烯丙基(-CH2-CH＝CH2)、-O-烯丙基(-O-CH2-CH＝CH2)和氟(F)。2'-糖取代基可处于阿拉伯糖(上)位或核糖(下)位。合适的2'-阿拉伯糖修饰是2'-F。还可以在低聚化合物的其他位置做出类似的修饰，具体地在3'末端核苷上或在2'-5'连接的寡核苷酸中的糖的3'位置和5'末端核苷酸的5'位置。低聚化合物还可以具有替代呋喃戊糖的糖模拟物，例如环丁基部分。

碱基修饰和取代

核酸还可以包括核碱基(在本领域中通常简称为“碱基”)修饰或取代。如本文所用，“未修饰的”或“天然的”核碱基包括嘌呤碱基腺嘌呤(A)和鸟嘌呤(G)，以及嘧啶碱基胸腺嘧啶(T)、胞嘧啶(C)和尿嘧啶(U)。修饰的核碱基包括其他合成和天然的核碱基，如5-甲基胞嘧啶(5-me-C)、5-羟甲基胞嘧啶、黄嘌呤、次黄嘌呤、2-氨基腺嘌呤、腺嘌呤和鸟嘌呤的6-甲基衍生物和其他烷基衍生物、腺嘌呤和鸟嘌呤的2-丙基衍生物和其他烷基衍生物、2-硫代尿嘧啶、2-硫代胸腺嘧啶和2-硫代胞嘧啶、5-卤代尿嘧啶和胞嘧啶，5-丙炔基(-C＝C-CH3)尿嘧啶和胞嘧啶，以及嘧啶碱基的其他炔基衍生物、6-偶氮基尿嘧啶、胞嘧啶和胸腺嘧啶、5-尿嘧啶(假尿嘧啶)、4-硫代尿嘧啶、8-卤代、8-氨基、8-硫醇、8-硫代烷基、8-羟基和其他8-取代的腺嘌呤和鸟嘌呤、5-卤代，具体地5-溴、5-三氟甲基和其他5-取代的尿嘧啶和胞嘧啶、7-甲基鸟嘌呤和7-甲基腺嘌呤、2-F-腺嘌呤、2-氨基-腺嘌呤、8-氮杂鸟嘌呤和8-氮杂腺嘌呤、7-去氮杂鸟嘌呤和7-去氮杂腺嘌呤，和3-去氮杂鸟嘌呤和3-去氮杂腺嘌呤。进一步修饰的核碱基包括三环嘧啶，例如，吩噁嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噁嗪-2(3H)-酮)、吩噻嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噻嗪-2(3H)-酮)、G-夹(G-clamp)例如取代的吩噁嗪胞苷(例如9-(2-氨基乙氧基)-H-嘧啶并(5,4-(b)(1,4)苯并恶嗪-2(3H)-酮)、咔唑胞苷(2H-嘧啶并(4,5-b)吲哚-2-酮)、吡啶并吲哚胞苷(H-吡啶并(3',2':4,5)吡咯并(2,3-d)嘧啶-2-酮)。

杂环碱基部分还可以包括其中嘌呤或嘧啶碱基被其他杂环取代的那些，例如7-去氮杂腺嘌呤、7-去氮杂鸟苷、2-氨基吡啶和2-吡啶酮。另外的核碱基包括在美国专利号3,687,808中公开的那些，在The Concise Encyclopedia Of Polymer Science AndEngineering,第858-859页,Kroschwitz,J.1.,ed.John Wiley&Sons,1990中公开的那些，由Englisch et al.,Angewandte Chemie,International Edition,1991,30,613公开的那些，以及由Sanghvi,Y.S.,第15章,Antisense Research and Applications,第289-302页,Crooke,S.T.和Lebleu,B.,ed.,CRC Press,1993公开的那些。这些核碱基中的某些有用于增加低聚化合物的结合亲和力。这些包括5-取代的嘧啶、6-氮杂嘧啶和N-2、N-6和O-6取代的嘌呤，包括2-氨基丙基腺嘌呤、5-丙炔基尿嘧啶和5-丙炔基胞嘧啶。5-甲基胞嘧啶取代已显示将核酸双链体稳定性增加0.6-1.2℃。(Sanghvi et al.,eds.,Antisense Researchand Applications,CRC Press,Boca Raton,1993,第276-278页)，并且例如当与2'-O-甲氧基乙基糖修饰组合时是合适的碱基取代。

“互补”是指在包含天然或非天然存在的(例如如上所述修饰的)碱基(核苷)或其类似物的两个序列之间通过碱基堆叠和特异性氢键配对的能力。例如，如果核酸的一个位置处的碱基能够与靶标相应位置的碱基形成氢键，则这些碱基在该位置处被认为是彼此互补的。核酸可以包括通用碱基或对氢键不提供正向或负向贡献的惰性无碱基间隔区(inertabasic spacer)。碱基配对可以包括典型的Watson-Crick碱基配对和非Watson-Crack碱基配对(例如，Wobble碱基配对和Hoogsteen碱基配对)。

应当理解的是，对于互补碱基对，腺苷型碱基(A)与胸苷型碱基(T)或尿嘧啶型碱基(U)互补，胞嘧啶型碱基(C)与鸟苷型碱基(G)互补，并且通用碱基例如3-硝基吡咯或5-硝基吲哚可以与任何A、C、U或T杂交并被认为是互补的。Nichols et al.,Nature,1994；369:492-493和Loakes et al.,Nucleic Acids Res.,1994；22:4039-4043。肌苷(I)在本领域中也被认为是通用碱基，并且被认为与任何A、C、U或T互补。参见Watkins和Santalucia,Nucl.Acids Research,2005；33(19):6258-6267.

缀合物

核酸的另一种可能的修饰涉及将增强寡核苷酸的活性、细胞分布或细胞摄取的一个或多个部分或缀合物化学连接至多核苷酸。这些部分或缀合物可以包括共价结合至官能团(如伯羟基或仲羟基)的缀合基团。缀合基团包括但不限于嵌入剂、报告分子、多胺、聚酰胺、聚乙二醇、聚醚、增强低聚物药效学性质的基团和增强低聚物药代动力学性质的基团。合适的缀合基团包括但不限于胆固醇、脂质、磷脂、生物素、吩嗪、叶酸、菲啶、蒽醌、吖啶、荧光素、罗丹明、香豆素和染料。增强药效学性质的基团包括改进摄取、增强对降解的抗性和/或加强与靶核酸的序列特异性杂交的基团。增强药代动力学性质的基团包括改进核酸的摄取、分布、代谢或排出的基团。

缀合部分包括但不限于：脂质部分，例如胆固醇部分(Letsinger etal.,Proc.Natl.Acad.Sci.USA,1989,86,6553-6556)、胆酸(Manoharan et al.,Bioorg.Med.Chem.Let.,1994,4,1053-1060)、硫醚，例如己基-S-三苯甲基硫醇(Manoharanet al.,Ann.N.Y.Acad.Sci.,1992,660,306-309；Manoharan et al.,Bioorg.Med.Chem.Let.,1993,3,2765-2770)，硫代胆固醇(Oberhauser et al.,Nucl.Acids Res.,1992,20,533-538)，脂族链，例如十二烷二醇或十一烷基残基(Saison-Behmoaras et al.,EMBO J.,1991,10,1111-1118；Kabanov etal.,FEBS Lett.,1990,259,327-330；Svinarchuk et al.,Biochimie,1993,75,49-54)，磷脂，例如二-十六烷基-rac-甘油或1,2-二-O-十六烷基-rac-甘油-3-H-磷酸三乙基铵盐(Manoharan et al.,Tetrahedron Lett.,1995,36,3651-3654；Shea et al.,Nucl.Acids Res.,1990,18,3777-3783)、多胺或聚乙二醇链(Manoharan et al.,Nucleosides&Nucleotides,1995,14,969-973)，或金刚烷乙酸(Manoharan et al.,Tetrahedron Lett.,1995,36,36513654)，棕榈基部分(Mishra et al.,Biochim.Biophys.Acta,1995,1264,229-237)或十八烷基胺或己基氨基-羰基-氧基胆固醇部分(Crooke et al.,J.Pharmacal.Exp.Ther.,1996,277,923-937)。

缀合物可包括“蛋白质转导结构域”或PTD(也称为CPP-细胞穿透肽)，其可指促进穿过脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。连接至另一个分子(其范围可以从小的极性分子到大的大分子和/或纳米颗粒)上的PTD促进分子穿过膜，例如从细胞外空隙到细胞内空隙，或从胞质溶胶到细胞器内。在一些实施方案中，PTD共价连接至外源多肽(例如，M-SmallCas9多肽或其变体)的氨基末端。在一些实施方案中，PTD共价连接至外源多肽(例如，M-SmallCas9多肽或其变体)的C末端或N末端。在一些实施方案中，PTD与核酸(例如，向导RNA、编码向导RNA的多核苷酸、编码M-SmallCas9多肽或其变体的多核苷酸等)共价连接。示例性PTD包括但不限于最小的十一氨基酸多肽蛋白转导结构域(对应于HIV-1TAT的残基47-57(J Dispers SciTechnol.2003；24(3):465-473)，其包括：多精氨酸序列，其包含足以直接进入细胞的大量的精氨酸(例如3、4、5、6、7、8、9、10或10-50个精氨酸)；VP22结构域(Zender et al.(2002)Cancer Gene Ther.9(6):489-96)；果蝇触角足蛋白转导结构域(Noguchi et al.(2003)Diabetes 52(7):1732-1737)；截短的人降钙素肽(Trehin et al.(2004)Pharm.Research21:1248-1256)；聚赖氨酸(Wender et al.(2000)Proc.Natl.Acad.Sci.USA 97:13003-13008)；在一些实施方案中，PTD是可激活的CPP(ACPP)(Aguilera et al.(2009)lntegrBiol(Camb)June；1(5-6):371-381)。ACPP包括通过可切割的接头连接至匹配的聚阴离子(例如，Glu9或“E9”)的聚阳离子CPP(例如，Arg9或“R9”)，这将净电荷减少到几乎为零，并且从而抑制粘附和吸收到细胞中。在接头被切割后，聚阴离子被释放，局部暴露聚精氨酸及其固有的粘附性，从而“激活”ACPP以穿过膜。在一些实施方案中，对PTD进行化学修饰以增加PTD的生物利用度。示例性修饰公开于：Expert Opin Drug Deliv.2009年11月；6(11):1195-205。

多肽修饰

由密码子优化的多核苷酸序列表达的M-SmallCas9多肽或其变体可以在体外或通过真核细胞、原核细胞或通过体外转录和翻译(IVTT)产生，并且它可以通过去折叠(例如，热变性、OTT还原等)进一步加工，并且可以使用本领域中已知的方法进一步再折叠。

不改变一级序列的感兴趣的修饰包括多肽的化学衍生，例如酰化、乙酰化、羧化、酰胺化等。还包括糖基化的修饰，例如通过在多肽的合成和加工过程中或在进一步的加工步骤中修饰多肽的糖基化模式；例如通过将多肽暴露于影响糖基化的酶，例如哺乳动物糖基化酶或去糖基化酶而进行的那些修饰。还包括具有磷酸化氨基酸残基(例如，磷酸酪氨酸、磷酸丝氨酸或磷酸苏氨酸)的序列。

在一些实施方案中，M-SmallCas9多肽或其变体已使用普通分子生物学技术和合成化学进行修饰，以改进其对蛋白水解降解的抗性、改变靶序列特异性、优化溶解性质、改变蛋白质活性(例如，转录调节活性、酶活性等)或使其更适合作为治疗剂。这样的多肽的类似物包括那些含有除了天然存在的L-氨基酸以外(例如O-氨基酸或非天然的合成氨基酸)的残基的那些。D-氨基酸可以替代一些或全部氨基酸残基。M-SmallCas9多肽或其变体可以使用本领域中已知的常规方法通过体外合成而制备。各种商业合成装置是可获得的，例如Applied Biosystems，Inc.、Beckman等的自动合成仪。通过使用合成仪，天然的氨基酸可以用非天然氨基酸替代。制备的具体顺序和方式可以通过所需要的方便性、经济性、纯度等来确定。

如果需要，可以在合成过程中或表达过程中将各种基团引入肽中，这允许连接至其他分子或表面。因此，半胱氨酸可用于制备用于连接金属离子络合物的硫醚、组氨酸，用于形成酰胺或酯的羧基，用于形成氨基的氨基等。

重组细胞

在一些实施方案中，本文所述的密码子优化的M-SmallCas9系统可用于真核生物，例如哺乳动物细胞，例如人细胞。任何人细胞都适合与本文公开的密码子优化的M-SmallCas9系统一起使用。

在一些实施方案中，离体或体外的细胞包括：(a)包含编码本文所述的M-SmallCas9多肽或其变体的密码子优化的多核苷酸序列的核酸，或由该核酸表达的M-SmallCas9多肽或其变体；和(b)gRNA或编码该gRNA的核酸，其中该gRNA能够将M-SmallCas9多肽或其变体引导至靶多核苷酸序列。在一些实施方案中，细胞包括包含密码子优化的多核苷酸序列的核酸。在一些实施方案中，细胞包含gRNA。在一些实施方案中，细胞包含编码gRNA的核酸。在一些实施方案中，gRNA是单向导RNA(sgRNA)。在一些实施方案中，细胞包含一种或多种另外的gRNA或编码一种或多种另外的gRNA的核酸。在一些实施方案中，细胞进一步包括供体模板。

在一个方面，本文公开的一些实施方案涉及转化细胞的方法，该方法包括将本文提供的核酸引入至宿主细胞，例如动物细胞，并且选择或筛选转化的细胞。术语“宿主细胞”和“重组宿主细胞”在本文中可互换使用。应当理解，这样的术语不仅指特定的受试细胞，而且指这样的细胞的子代或潜在的子代。因为某些修饰可能由于突变或环境影响而在随后的几代中发生，因此这样的子代实际上可能与亲本细胞不相同，但仍包括在本文所用术语的范围内。用于转化多种上述宿主细胞和物种的技术是本领域中已知的，并在技术和科学文献中进行了描述。因此，包含至少一种本文公开的重组细胞的细胞培养物也在本申请的范围内。适用于产生和维持细胞培养物的方法和系统是本领域中已知的。

在相关方面，一些实施方案涉及重组宿主细胞，例如，包括本文所述的核酸的重组动物细胞。核酸可以稳定地整合到宿主基因组中，或者可以游离地复制，或者作为用于稳定或瞬时表达的微环表达载体存在于重组宿主细胞中。因此，在本文公开的一些实施方案中，核酸作为游离型单元在重组宿主细胞中维持和复制。在一些实施方案中，核酸稳定地整合到重组细胞的基因组中。在一些实施方案中，核酸作为用于稳定或瞬时表达的微环表达载体存在于重组宿主细胞中。

在一些实施方案中，宿主细胞可以用例如本申请的载体构建体进行基因工程(例如，转导或转化或转染)，该载体构建体可以是例如用于同源重组的载体，其包括与宿主细胞的基因组的一部分同源的核酸序列，或者可以是用于表达任何感兴趣的基因或其组合的表达载体。载体可以是例如质粒、病毒颗粒、噬菌体等形式。在一些实施方案中，用于表达感兴趣的多肽的载体也可以被设计用于整合到宿主中，例如通过同源重组。

在一些实施方案中，本公开内容提供了遗传修饰的宿主细胞，例如分离的遗传修饰的宿主细胞，其中遗传修饰的宿主细胞包括：1)外源向导RNA；2)包含编码向导RNA的核苷酸序列的外源核酸；3)包含编码M-SmallCas9多肽或其变体的密码子优化的多核苷酸序列的外源核酸；4)由包含密码子优化的多核苷酸序列的核酸表达的外源M-SmallCas9多肽或其变体；或5)以上的任意组合。在一些实施方案中，遗传修饰的细胞是通过用以下对宿主细胞进行遗传修饰而产生的，例如：1)外源向导RNA；2)包含编码向导RNA的核苷酸序列的外源核酸；3)包含编码M-SmallCas9多肽或其变体的密码子优化的多核苷酸序列的外源核酸；4)由包含密码子优化的多核苷酸序列的核酸表达的外源M-SmallCas9多肽或其变体；或5)以上的任意组合。

适合作为如上所述的靶细胞的所有细胞也适合作为遗传修饰的宿主细胞。例如，感兴趣的遗传修饰的宿主细胞可以是来自任何生物体的细胞，例如细菌细胞、古细菌细胞、单细胞真核生物的细胞、植物细胞、藻类细胞(例如，布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonas reinhardtii)、海洋富油微拟球藻(Nannochloropsisgaditana)、蛋白核小球藻(Chlorela pyrenoidosa)、展枝马尾藻(Sargassum patens(C.Agardh))等)、真菌细胞(例如，酵母细胞)、动物细胞、来自无脊椎动物(例如，果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如，鱼、两栖动物、爬行动物、鸟、哺乳动物)的细胞、来自哺乳动物(例如，猪、母牛、山羊、绵羊、啮齿动物、大鼠、小鼠、非人灵长类动物、人类等)的细胞。在一些实施方案中，遗传修饰的宿主细胞可以是来自人类的任何细胞。

在一些实施方案中，本公开内容的遗传修饰的宿主细胞已经用包含编码M-SmallCas9多肽或其变体的核苷酸序列的外源核酸进行遗传修饰。在一些实施方案中，遗传修饰的宿主细胞已经用包含编码本文所述的M-SmallCas9多肽或其变体的核苷酸序列的外源核酸进行遗传修饰。遗传修饰的宿主细胞的DNA可以通过将向导RNA(或编码向导RNA的DNA，其决定待修饰的基因组位置/序列)和任选地供体核酸引入至细胞中来靶向修饰。在一些实施方案中，编码M-SmallCas9多肽或其变体的核苷酸序列可操作地连接至诱导型启动子(例如，热休克启动子、四环素调控的启动子、类固醇调控的启动子，金属调控的启动子和雌激素受体调控的启动子等)。在一些实施方案中，编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列可操作地连接至空间限制的和/或时间限制的启动子(例如，组织特异性启动子、细胞类型特异性启动子、细胞周期特异性启动子)。在一些实施方案中，编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列可操作地连接至组成型启动子。

在一些实施方案中，遗传修饰的宿主细胞是体外的。在一些实施方案中，遗传修饰的宿主细胞是体内的。在一些实施方案中，遗传修饰的宿主细胞是原核细胞或衍生自原核细胞。在一些实施方案中，遗传修饰的宿主细胞是细菌细胞或衍生自细菌细胞。在一些实施方案中，遗传修饰的宿主细胞是古细菌细胞或衍生自古细菌细胞。在一些实施方案中，遗传修饰的宿主细胞是真核细胞或衍生自真核细胞。在一些实施方案中，遗传修饰的宿主细胞是植物细胞或衍生自植物细胞。在一些实施方案中，遗传修饰的宿主细胞是动物细胞或衍生自动物细胞。在一些实施方案中，遗传修饰的宿主细胞是无脊椎动物细胞或衍生自无脊椎动物细胞。在一些实施方案中，遗传修饰的宿主细胞是脊椎动物细胞或衍生自脊椎动物细胞。在一些实施方案中，遗传修饰的宿主细胞是哺乳动物细胞或衍生自哺乳动物细胞。在一些实施方案中，遗传修饰的宿主细胞是啮齿动物细胞或衍生自啮齿动物细胞。在一些实施方案中，遗传修饰的宿主细胞是人类细胞或衍生自人类细胞。在一些实施方案中，该遗传修饰的宿主细胞是人类细胞或衍生自人类细胞。

本公开内容进一步提供了遗传修饰的细胞的子代，其中子代可以包括与其来源的遗传修饰的细胞相同的外源核酸或多肽。在一些实施方案中，本公开内容进一步提供包含遗传修饰的宿主细胞的组合物。

在一些实施方案中，遗传修饰的宿主细胞是遗传修饰的干细胞或祖细胞。合适的宿主细胞包括例如干细胞(成人干细胞、胚胎干细胞、iPS细胞等)和祖细胞(例如，心脏祖细胞、神经祖细胞等)。其他合适的宿主细胞包括哺乳动物干细胞和祖细胞，诸如，例如啮齿动物干细胞、啮齿动物祖细胞、人类干细胞、人类祖细胞等。其他合适的宿主细胞包括体外宿主细胞，例如分离的宿主细胞。在一些实施方案中，遗传修饰的宿主细胞包括外源向导RNA核酸。在一些实施方案中，遗传修饰的宿主细胞包括包含编码向导RNA的核苷酸序列的外源核酸。在一些实施方案中，遗传修饰的宿主细胞包括由密码子优化的核苷酸序列表达的外源M-SmallCas9多肽或其变体。在一些实施方案中，遗传修饰的宿主细胞包括包含编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列的外源核酸。在一些实施方案中，遗传修饰的宿主细胞包含外源核酸，该外源核酸包含1)编码向导RNA的核苷酸序列和2)编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列。

非人类遗传修饰的生物体

在一些实施方案中，遗传修饰的宿主细胞已使用外源核酸进行遗传修饰，该外源核酸包含编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列。如果这样的细胞是真核单细胞生物体，那么修饰的细胞可以被认为是遗传修饰的生物体。在一些实施方案中，非人遗传修饰的生物体是M-SmallCas9转基因多细胞生物体。

在一些实施方案中，遗传修饰的非人宿主细胞(例如，已用包含编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列的外源核酸进行遗传修饰的细胞)可以产生遗传修饰的非人生物体(例如，小鼠、鱼、青蛙、苍蝇、蠕虫等)。例如，如果遗传修饰的宿主细胞是多能干细胞(例如，PSC)或生殖细胞(例如，精子、卵母细胞等)，则整个遗传修饰的生物体可衍生自遗传修饰的宿主细胞。在一些实施方案中，遗传修饰的宿主细胞是体内或体外的多能干细胞(例如，ESC、iPSC、多能干植物干细胞等)或生殖细胞(例如，精子细胞、卵母细胞等)，其可以产生遗传修饰的生物体。在一些实施方案中，遗传修饰的宿主细胞是脊椎动物PSC(例如，ESC、iPSC等)，并且用于产生遗传修饰的生物体(例如，通过将PSC注射到囊胚中以产生嵌合的/整合的动物，然后可以将其交配以产生非嵌合/非整合的遗传修饰的生物体；在植物的情况下是嫁接等)。用于生产遗传修饰的生物体的任何合适的方法/方案，包括本文描述的方法，都适用于产生包含外源核酸的遗传修饰的宿主细胞，该外源核酸包含编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列。生产遗传修饰的生物体的方法是本领域中已知的。例如，参见Cho et al.,Curr Protoc Cell Biol.2009年3月r；第19章:Unit 19.11:Generation of transgenic mice；Gama et al.,Brain Struct Funct.2010年3月；214(2-3):91-109.Epub 2009年11月25日:Animal transgenesis:an overview；Husaini et al.,GM Crops.2011年6月-12月；2(3):150-62.Epub 2011年6月1日:Approaches for gene targeting and targeted gene expression in plants.。

在一些实施方案中，遗传修饰的生物体包括用于本公开内容的方法的靶细胞，并且因此可以被认为是靶细胞的来源。例如，如果包含外源核酸的遗传修饰的细胞用于产生遗传修饰的生物体，该外源核酸包含编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列，则遗传修饰的生物体的细胞包含外源核酸，该外源核酸包含编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列。在一些这样的实施方案中，可以通过将向导RNA(或编码向导RNA的DNA)和任选地供体核酸引入至一个或多个细胞中来靶向遗传修饰的生物体的一个或多个细胞的DNA进行修饰。例如，将向导RNA(或编码向导RNA的DNA)引入至遗传修饰的生物体的细胞亚群(例如脑细胞、肠细胞、肾细胞、肺细胞、血液细胞等)中可以靶向这样的细胞的DNA进行修饰，该基因组位置将取决于所引入的向导RNA的DNA靶向序列。

在一些实施方案中，遗传修饰的生物体是本公开内容方法的靶细胞的来源。例如，包含用包含编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列的外源核酸进行遗传修饰的细胞的遗传修饰的生物体可以提供遗传修饰的细胞的来源，例如PSC(例如ESC、iPSC、精子、卵母细胞等)、神经元、祖细胞、心肌细胞等。

在一些实施方案中，遗传修饰的细胞是包含外源核酸的PSC，该外源核酸包含编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列。因此，PSC可以是靶细胞，使得可以通过向PSC中引入向导RNA(或编码向导RNA的DNA)和任选地供体核酸而靶向修饰PSC的DNA，并且修饰的基因组位置将取决于所引入的向导RNA的DNA靶向序列。因此，在一些实施方案中，本文描述的方法可用于修饰衍生自遗传修饰的生物体的PSC的DNA(例如，缺失和/或替代任何所需的基因组位置)。这样的修饰的PSC然后可以用于产生具有以下的生物体：(i)包含编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列的外源核酸和(ii)引入PSC中的DNA修饰。

在一些实施方案中，外源核酸可以在未知启动子的控制下(例如，可操作地连接至未知启动子)(例如，当核酸随机整合到宿主细胞基因组中时)，或者可以在已知启动子的控制下(例如，可操作地连接至已知启动子)。合适的已知启动子可以是任何已知的启动子，并且包括组成型活性启动子(例如，CMV启动子)、诱导型启动子(例如，热休克启动子、四环素调控的启动子、类固醇调控的启动子、金属调控的启动子和雌激素受体调控的启动子等)，空间限制的和/或时间限制的启动子(例如，组织特异性启动子、细胞类型特异性启动子等)等。

遗传修饰的生物体(例如，其细胞包含编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列的生物体)可以是任何生物体，包括例如植物；藻类；无脊椎动物(例如，刺胞动物、棘皮动物、蠕虫、苍蝇等)；脊椎动物(例如，鱼(例如，斑马鱼、河豚、金鱼等)、两栖动物(例如，蝾螈、青蛙等)、爬行动物、鸟、哺乳动物等)；有蹄动物(例如，山羊、猪、绵羊、母牛等)；啮齿动物(例如，小鼠、大鼠、仓鼠、豚鼠)；兔形目动物(例如，兔)等。

在一些实施方案中，活性部分是RNase结构域。在一些实施方案中，活性部分是DNase结构域。

转基因非人类动物

如上所述，在一些实施方案中，核酸(例如，编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列)或重组表达载体被用作转基因，以生成产生M-SmallCas9多肽或其变体的转基因动物。因此，本公开内容进一步提供了转基因非人类动物，该动物包括包含核酸的转基因，该核酸包含编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列，如上所述。在一些实施方案中，转基因非人类动物的基因组包括编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列。在一些实施方案中，转基因非人类动物对于遗传修饰是纯合的。在一些实施方案中，转基因非人类动物对于遗传修饰是杂合的。在一些实施方案中，转基因非人类动物是脊椎动物，例如鱼(例如，斑马鱼、金鱼、河豚、洞穴鱼等)、两栖动物(青蛙、蝾螈等)、鸟(例如，鸡、火鸡等)、爬行动物(例如，蛇、蜥蜴等)、哺乳动物(例如，有蹄动物，例如猪、母牛、山羊、绵羊等；兔形目动物(例如，兔)；啮齿动物(例如，大鼠、老鼠)；非人灵长类动物等)等。

在一些实施方案中，核酸是包含编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列的外源核酸。在一些实施方案中，外源核酸可以在未知启动子的控制下(例如，可操作地连接至未知启动子)(例如，当核酸随机整合到宿主细胞基因组中时)，或者可以在已知启动子的控制下(例如，可操作地连接至已知启动子)。合适的已知启动子可以是任何已知的启动子，并且包括组成型活性启动子(例如，CMV启动子)、诱导型启动子(例如，热休克启动子、四环素调控的启动子、类固醇调控的启动子、金属调控的启动子和雌激素受体调控的启动子等)，空间限制的和/或时间限制的启动子(例如，组织特异性启动子、细胞类型特异性启动子等)等。

将核酸引入至宿主细胞

在一些实施方案中，本公开内容的方法包括涉及将一种或多种核酸引入至宿主细胞(或宿主细胞群)中，该核酸包含编码向导RNA的核苷酸序列和/或编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列。在一些实施方案中，包含靶DNA的细胞是体外的。在一些实施方案中，包含靶DNA的细胞是体内的。在一些实施方案中，编码向导RNA和/或M-SmallCas9多肽或其变体的核苷酸序列可操作地连接至诱导型启动子。在一些实施方案中，编码向导RNA和/或M-SmallCas9多肽或其变体的核苷酸序列可操作地连接至组成型启动子。

向导RNA或包含编码该向导RNA的核苷酸序列的核酸可以通过多种众所周知的方法中的任何一种引入至宿主细胞。类似地，当方法涉及将包含编码M-SmallCas9多肽或其变体的密码子优化的核苷酸序列的核酸引入至宿主细胞中时，可以通过多种众所周知的方法中的任何一种将这样的核酸引入至宿主细胞中。向导多核苷酸(RNA或DNA)和/或M-SmallCas9多核苷酸(RNA或DNA)可以通过本领域中已知的病毒或非病毒递送载体来递送。

将核酸引入至宿主细胞的方法是本领域中已知的，并且任何已知的方法都可以用于将核酸(例如，表达构建体)引入至干细胞或祖细胞。合适的方法包括，例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、基因枪技术、磷酸钙沉析、直接显微注射、纳米颗粒介导的核酸递送(参见，例如Panyam et.,al Adv Drug Deliv Rev.2012Sep13.pii:50169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等，包括但不限于外泌体递送。

多核苷酸可以通过非病毒递送载体递送，包括但不限于纳米颗粒、脂质体、核糖核蛋白、带正电荷的肽、小分子RNA缀合物、适配体-RNA嵌合体和RNA融合蛋白复合物。一些示例性的非病毒递送载体描述于Peer和Lieberman,Gene Therapy,18:1127-1133(2011)(其专注于siRNA的非病毒递载体，其也可用于递送其他多核苷酸)。

用于递送本公开内容的核酸(例如，mRNA和sgRNA)以进行基因编辑的合适的系统和技术包括脂质纳米颗粒(LNP)。如本文所用，术语“脂质纳米颗粒”包括脂质体，而无论其片层性(lamellarity)、形状或结构如何，以及如用于将核酸和/或多肽引入至细胞中所描述的脂质复合物。这些脂质纳米颗粒可以与生物活性化合物(例如，核酸和/或多肽)复合，并且可以用作体内递送载体。一般而言，本领域中已知的任何方法都可以用于制备包含本公开内容的一种或多种核酸的脂质纳米颗粒，以及用于制备生物活性化合物和所述脂质纳米颗粒的复合物。这样的方法的实例被广泛公开，例如在：Biochim Biophys Acta1979,557:9；Biochim et Biophys Acta 1980,601:559；Liposomes:Apractical approach(Oxford University Press,1990)；Pharmaceutica Acta Helvetiae 1995,70:95；Current Science 1995,68:715；Pakistan Journal of Pharmaceutical Sciences 1996,19:65；Methods in Enzymology 2009,464:343)。用于制备包含本公开内容的一种或多种核酸和/或多肽的LNP制剂的特别合适的系统和技术包括但不限于由以下开发的那些：Intellia(参见，例如WO2017173054A1)、Alnylam(参见，例如WO 2014008334A1)、Modernax(参见，例如WO2017070622A1和WO2017099823A1)、TranslateBio、Acuitas(参见，例如WO2018081480A1)、Genevant Sciences、Arbutus Biopharma、Tekmira、Arcturus、Merck(参见，例如WO2015130584A2)、Novartis(参见例如WO 2015095340A1)和Dicerna；所有这些参考文献的全部内容均以引用的方式纳入本说明书。

包含编码向导RNA和/或M-SmallCas9多肽或其变体的核苷酸序列的合适核酸包括表达载体，其中表达载体包含编码向导的核苷酸序列。在一些实施方案中，表达载体是病毒构建体，例如重组腺相关病毒构建体(参见，例如美国专利号7,078,387)、重组腺病毒构建体、重组慢病毒构建体和重组逆转录病毒构建体等。合适的表达载体包括但不限于：病毒载体(例如，基于痘苗病毒的病毒载体；脊髓灰质炎病毒；腺病毒(参见，例如Li et al.,Invest Opthalmol Vis Sci 35:25432549,1994；Borras et al.,Gene Ther 6:515 524,1999；Li和Davidson,PNAS 92:7700 7704,1995；Sakamoto et al.,H Gene Ther 5:10881097,1999；WO 94/12649,WO 93/03769；WO 93/19191；WO 94/28938；WO 95/11984和WO95/00655)；腺相关病毒(参见，例如Ali et al.,Hum Gene Ther 9:81 86,1998,Flanneryet al.,PNAS 94:6916 6921,1997；Bennett et al.,Invest Opthalmol Vis Sci 38:28572863,1997；Jomary etal.,Gene Ther 4:683-690,1997,Rolling et al.,Hum Gene Ther10:641648,1999；Ali et al.,Hum Mol Genet 5:591 594,1996；Srivastava in WO 93/09239,Samulski et al.,J.Vir.(1989)63:3822-3828；Mendelson et al.,Viral.(1988)166:154-165；和Flotte et al.,PNAS(1993)90:10613-10617)；SV40；单纯疱疹病毒；人类免疫缺陷病毒(参见，例如Miyoshi et al.,PNAS 94:10319 23,1997；Takahashi et al.,JVirol73:7812 7816,1999)；逆转录病毒载体(例如，鼠白血病病毒、脾坏死病毒和衍生自逆转录病毒的载体，例如劳斯肉瘤病毒、哈维肉瘤病毒、禽白血病病毒、慢病毒、人类免疫缺陷病毒、骨髓增生肉瘤病毒和乳腺肿瘤病毒)等。

腺相关病毒(AAV)

重组腺相关病毒(AAV)载体可以用于递送。本领域中已知的产生rAAV颗粒的技术是向细胞提供要在两个AAV末端反向重复序列(ITR)之间待递送的多核苷酸、AAV rep和cap基因以及辅助病毒功能。rAAV的产生需要以下成分存在于单个细胞(本文称为包装细胞(packaging cell))内：两个ITR之间的感兴趣的多核苷酸、与AAV基因组分离(即不在AAV基因组中)的AAV rep和cap基因，以及辅助病毒功能。AAV rep和cap基因可以来自可衍生重组病毒的任何AAV血清型，并且可以来自与包装的多核苷酸上的ITR血清型不同的AAV血清型，包括但不限于AAV血清型AAV-1、AAV-2、AAV-3、AAV-4、AAV-5、AAV-6、AAV-7、AAV-8、AAV-9、AAV-10、AAV-11、AAV-12、AAV-13和AAV rh.74。在例如WO 01/83692中公开了假型rAAV的产生。

AAV血清型	Genbank登录号
		AAV-1	NC_002077.1
AAV-2	NC_001401.2
		AAV-3	NC_001729.1
AAV-38	AF028705.1
		AAV-4	NC_001829.1
AAV-5	NC_006152.1
		AAV-6	AF028704.1
AAV-7	NC_006260.1
		AAV-8	NC_006261.1
AAV-9	AX753250.1
		AAV-10	AY631965.1
AAV-11	AY631966.1
		AAV-12	00813647.1
AAV-13	EU285562.1

生成包装细胞的一种方法是创建稳定表达AAV颗粒产生所需的所有组分的细胞系。例如，将一个质粒(或多个质粒)，其包含AAV ITR之间的感兴趣的多核苷酸、与AAV基因组分离的AAV rep和cap基因和可选择标志物(例如，新霉素抗性基因)，整合到细胞的基因组中。AAV基因组已经通过以下程序引入至细菌质粒中：例如GC尾(Samulski et al.,1982,Proc.Natl.Acad.Sci.USA,79:2077-2081)、添加含有限制性内切核酸酶裂解位点的合成接头(Laughlin et al.,1983,Gene,23:65-73)或通过直接的平端连接(Senapathy&Carter,1984,J.Bioi.Chem.,259:4661-4666)。然后使用辅助病毒(例如，腺病毒)感染包装细胞系。该方法的优点是细胞是可选择的，并且适合于rAAV的大规模生产。合适方法的其他实例采用腺病毒或杆状病毒而不是质粒将rAAV基因组和/或rep和cap基因引入至包装细胞。

rAAV生产的一般原理综述于：例如Carter,1992,Current Opinions inBiotechnology,1533-539；和Muzyczka,1992,Curr.Topics in Microbial.and lmmunol.,158:97-129；多种方法描述于：Ratschin et al.,Mol.Cell.Biol.4:2072(1984)；Hermonatet al.,Proc.Natl.Acad.Sci.USA,81:6466(1984)；Tratschin et al.,Mol.Cell.Biol.5:3251(1985)；Mclaughlin et al.,J.Virol.,62:1963(1988)；和Lebkowski et al.,1988Mol.Cell.Biol.,7:349(1988)。Samulski et al.(1989,J.Virol.,63:3822-3828)；美国专利号5,173,414；WO 95/13365和相应的美国专利号5,658.776；WO 95/13392；WO 96/17947；PCT/US98/18600；WO97/09441(PCT/US96/14423)；WO 97/08298(PCT/US96/13872)；WO 97/21825(PCT/US96/20777)；WO 97/06243(PCT/FR96/01064)；WO 99/11764；Perrin etal.(1995)Vaccine 13:1244-1250；Paul et al.(1993)Human Gene Therapy 4:609-615；Clark et al.(1996)Gene Therapy 3:1124-1132；美国专利号5,786,211；美国专利号5,871,982；和美国专利号6,258,595。

用于转导的AAV载体血清型取决于靶细胞类型。例如，已知以下示例性细胞类型可被指定的AAV血清型等转导。

许多合适的表达载体是本领域技术人员已知的，并且许多是商业上可获得的。以下载体是通过实例的方式提供的；用于真核宿主细胞：pXT1、pSG5(Stratagene)、pSVK3、pBPV、pMSG和pSVLSV40(Pharmacia)。然而，可以使用任何其他载体，只要该载体与宿主细胞相容。

根据所使用的宿主/载体系统，可以在表达载体中使用许多合适的转录和翻译控制元件中的任何一种，包括组成型和诱导型启动子、转录增强子元件、转录终止子等(参见，例如，Bitter et al.(1987)Methods in Enzymology,153:516-544)。

在一些实施方案中，向导RNA和/或M-SmallCas9多肽或其变体可以作为RNA提供。在这样的情况下，向导RNA和/或编码M-SmallCas9多肽或其变体的RNA可以通过直接化学合成产生，或者可以在体外由编码向导RNA的DNA转录。从DNA模板合成RNA的方法在本领域中是众所周知的。在一些实施方案中，将使用RNA聚合酶(例如，T7聚合酶、T3聚合酶、SP6聚合酶等)在体外合成向导RNA和/或编码M-SmallCas9多肽或其变体的RNA。一旦合成，RNA可以直接接触靶DNA，或者可以通过用于将核酸引入至细胞的任何众所周知的技术(例如，显微注射、电穿孔、转染等)引入至细胞中。

编码向导RNA(作为DNA或RNA引入)和/或M-SmallCas9多肽或其变体(作为DNA和RNA引入)的核苷酸和/或供体多核苷酸可以使用成熟的转染技术提供给细胞；参见，例如，Angel和Yanik(2010)PLoS ONE 5(7):e 11756，以及来自Qiagen的市售的试剂、来自Stemgent的Stemfect^TMRNA转染试剂盒和来自Mims Bio的-mRNA转染试剂盒。另外参见，Beumer et al.(2008)Efficient genetargeting in Drosophila by direct embryo injection with zinc-fingernucleases.PNAS105(50):19821-19826。另外或替代地，可以在DNA载体上提供编码向导RNA和/或M-SmallCas9多肽或其变体和/或M-SmallCas9融合多肽或其变体的核酸和/或供体多核苷酸。有用于将核酸转移到靶细胞中的许多载体例如质粒、粘粒、微环、噬菌体、病毒等是可获得的。包含核酸的载体可以游离形式维持，例如质粒、微环DNA、病毒如巨细胞病毒、腺病毒等，或者它们可以通过同源重组或随机整合整合到靶细胞基因组中，例如逆转录病毒衍生的载体如MMLV、HIV-1、ALV等。

载体可以直接提供给细胞。换言之，使细胞与包含编码向导RNA和/或M-SmallCas9多肽或其变体和/或M-SmallCas9融合多肽或其变体和/或供体多核苷酸的核酸的载体接触，从而使得载体被细胞摄取。使细胞与作为质粒的核酸载体接触的方法(包括电穿孔、氯化钙转染、显微注射和脂转染)是本领域中熟知的。对于病毒载体递送，使细胞与包含编码向导RNA和/或M-SmallCas9多肽或其变体和/或M-SmallCas9融合多肽或其变体的核酸和/或供体多核苷酸的病毒颗粒接触。逆转录病毒，例如慢病毒，特别适用于本公开内容的方法。常用的逆转录病毒载体是“缺陷的”，例如不能产生生产性感染所需的病毒蛋白。相反，载体的复制需要在包装细胞系中生长。为了产生包含感兴趣的核酸的病毒颗粒，通过包装细胞系将包含核酸的逆转录病毒核酸包装到病毒衣壳中。不同包装细胞系提供待并入到衣壳中的不同包膜蛋白(生态型、两性型或异向型)，该包膜蛋白决定病毒颗粒对细胞的特异性(对小鼠和大鼠的生态型；对包括人、狗和小鼠在内的大多数哺乳动物细胞类型的两性型；以及对除了小鼠细胞以外的大多数哺乳动物细胞类型的异向型)。适当的包装细胞系可用于确保细胞被包装的病毒颗粒靶向。将包含编码重编程因子的核酸的逆转录病毒载体引入至包装细胞系中并收集通过包装系产生的病毒颗粒的方法是本领域中熟知的。还可以通过直接显微注射引入核酸(例如，将RNA注射到斑马鱼胚胎中)。

用于向细胞提供编码向导RNA和/或M-SmallCas9多肽或其变体和/或M-SmallCas9融合多肽或其变体的核酸和/或供体多核苷酸的载体将通常包括用于驱动感兴趣的核酸的表达(即转录激活)的合适的启动子。换言之，感兴趣的核酸将可操作地连接至启动子。这可以包括具有普遍活性的启动子，例如CMV-13-肌动蛋白启动子，或诱导型启动子，例如在特定细胞群中具有活性或对药物(例如，四环素)的存在有反应的启动子。通过转录激活，旨在使靶细胞中的转录增加至高于基础水平至少10倍，至少100倍，更典型地至少1000倍。此外，用于向细胞提供向导RNA和/或M-SmallCas9多肽或其变体和/或M-SmallCas9融合多肽或其变体和/或供体多核苷酸的载体可以包括在靶细胞中编码可选择标志物的核酸序列，以鉴定已经摄取向导RNA和/或M-SmallCas9多肽或其变体和/或M-SmallCas9融合多肽或其变体和/或供体多核苷酸的细胞。

向导RNA和/或M-SmallCas9多肽或其变体和/或M-SmallCas9融合多肽或其变体可以替代地接触DNA或作为RNA引入至细胞中。将RNA引入至细胞的方法是本领域中已知的，并且可以包括例如直接注射、转染或用于引入DNA的任何其他方法。M-SmallCas9多肽或其变体可以替代地作为多肽提供给细胞。这样的多肽可以任选地与增加产物溶解度的多肽结构域融合。该结构域可以通过限定的蛋白酶切割位点(例如，通过TEV蛋白酶切割的TEV序列)连接至多肽。接头还可以包括一个或多个柔性序列，例如1至10个甘氨酸残基。在一些实施方案中，融合蛋白的切割在维持产物溶解度的缓冲液中，例如在0.5至2M尿素的存在下，在增加溶解度的多肽和/或多核苷酸的存在下等进行。感兴趣的结构域包括内涵体溶解结构域(endosomolytic domain)，例如流感HA结构域；以及有助于产生的其它多肽，例如IF2结构域、GST结构域、GRPE结构域等。多肽可配制用于改进的稳定性。例如，肽可以是PEG化的，其中聚乙烯氧基在血流中提供增强的寿命。

附加地或替代地，M-SmallCas9多肽或其变体可以与多肽穿透结构域融合以促进细胞的摄取。许多穿透结构域是本领域中已知的，并且可以用于本公开内容的非整合多肽，包括肽、肽模拟物和非肽载体。例如，穿透肽可以衍生自果蝇转录因子触角足(Antennapaedia)(称为穿透蛋白(penetratin))的第三个α螺旋，其包括氨基酸序列RQIKIWFQNRRMKWKK(该序列不是本专利申请的公开内容)。作为另一个实例，穿透肽包括HIV-1tat碱性区氨基酸序列，该氨基酸序列可以包括例如天然存在的tat蛋白的氨基酸49-57。

其他穿透结构域包括多精氨酸基序，例如HIV-1rev蛋白的氨基酸34-56的区域、九聚精氨酸(nona-arginine)、acta-精氨酸等。(参见，例如Futaki et al.(2003)CurrProtein Pept Sci.2003Apr；4(2):87-9和446；和Wender et al.(2000)Proc.Natl.Acad.Sci.U.S.A.2000Nov.21；97(24):13003-8；公开的美国专利申请公开号20030220334；20030083256；20030032593和20030022831，对于易位肽和类肽的教导，以引用的方式明确地纳入本说明书)。九聚精氨酸(R9)序列是已经表征的更有效的PTD之一(Wender etal.2000；Uemura et al.2002)。可以选择进行融合的位点以便优化多肽的生物活性、分泌或结合特征。最佳位点将通过常规实验来确定。在一些实施方案中，对多肽穿透结构域进行化学修饰以增加PTD的生物利用度。示例性修饰公开于Expert Opin Drug Deliv.2009年1月；6(11):1195-205中。

通常，将有效量的向导RNA和/或M-SmallCas9多肽或其变体和/或供体多核苷酸提供给靶DNA或细胞以诱导靶向修饰。向导RNA和/或M-SmallCas9多肽或其变体和/或供体多核苷酸的有效量是相对于阴性对照(例如，与空载体或不相关多肽接触的细胞)诱导使用gRNA观察到的靶向修饰量增加2倍或更多的量。也就是说，有效量或剂量的向导RNA和/或M-SmallCas9多肽或其变体和/或供体多核苷酸将诱导在靶DNA区域所观察到的靶标修饰的量增加2倍、3倍、4倍或更多，在一些实施方案中，所观察到的重组的量增加5倍、6倍或更多，有时增加7倍或8倍或更多，例如增加10倍、50倍或100倍或更多，在一些实施方案中，所观察到的重组的量增加200倍、500倍、700倍或1000倍或更多，例如增加5000倍或10,000倍。可以通过任何合适的方法测量靶标修饰的量。例如，包含向导RNA的间隔区的互补序列(其侧翼是同源序列)的分裂报告分子构建体(split reporter construct)，当重组时，将重构编码活性报告分子的核酸被共转染到细胞中，并且在与向导RNA和/或M-SmallCas9多肽或其变体和/或供体多核苷酸接触后之后评估的报告蛋白的量，例如在与向导RNA和/或M-SmallCas9多肽或其变体和/或供体多核苷酸接触之后2小时、4小时、8小时、12小时、24小时、36小时、48小时、72小时或更长时间。作为另一种灵敏度更高的测定，在与向导RNA和/或M-SmallCas9多肽或其变体和/或供体多核苷酸接触之后，例如与向导RNA和/或M-SmallCas9多肽或其变体和/或供体多核苷酸接触之后2小时、4小时、8小时、12小时、24小时、36小时、48小时、72小时或更长时间，可通过PCR或区域的Southern杂交来评估包含靶DNA序列的感兴趣的基因组DNA区域的重组程度。

使用向导RNA和/或M-SmallCas9多肽或其变体和/或供体多核苷酸接触细胞可以发生在促进细胞存活的任何培养基和任何培养条件下。例如，细胞可以悬浮在任何合适的营养培养基中，如lscove改良的DMEM或RPMI 1640，补充有胎牛血清或热灭活的胎牛血清(约5-10％)、L-谷氨酰胺、硫醇(具体是2-巯基乙醇)和抗生素(例如，青霉素和链霉素)。培养物可以含有细胞对其有反应的生长因子。如本文所定义的，生长因子是能够通过对跨膜受体的特定作用，在培养物或完整组织中促进细胞的存活、生长和/或分化的分子。生长因子包括多肽因子和非多肽因子。促进细胞存活的条件通常是允许非同源末端连接和同源定向修复。在其中需要将多核苷酸序列插入靶DNA序列的应用中，还向细胞提供包含待插入的供体序列的多核苷酸。所谓“供体序列”或“供体多核苷酸”意指插入在通过M-SmallCas9多肽或其变体诱导的切割位点处待插入的核酸序列。供体多核苷酸将与切割位点处的侧翼基因组区域具有足够的序列同源性，如与切割位点侧翼的核苷酸序列，如在切割位点的大约50个碱基或更少的碱基内，如在大约30个碱基内，在大约15个碱基内，在大约10个碱基内，在大约5个碱基内，或紧邻切割位点的侧翼具有70％、80％、85％、90％、95％或100％的序列同一性，以支持其和与其具有同源性的基因组序列之间的同源定向修复。供体和基因组序列之间的同源序列的大约25、50、100或200个核苷酸或超过200个核苷酸(或10和200个核苷酸之间任何整数值或更多)将支持同源定向修复。供体序列可以是任何长度，例如10个核苷酸或更多、50个核苷酸或更多、100个核苷酸或更多、250个核苷酸或更多、500个核苷酸或更多、1000个核苷酸或更多、5000个核苷酸或更多等。

供体序列通常与它所替代的基因组序列不相同。而且，供体序列可以包含相对于基因组序列的至少一个或多个单碱基置换、插入、缺失、反转或重排，只要存在足够的序列同一性以支持同源定向修复。在一些实施方案中，供体序列包含侧翼为与靶DNA区域同源的两个区域(也称为同源臂)的非同源序列，使得靶DNA区域和两侧同源臂之间的同源定向修复导致在靶区域插入非同源序列。供体序列还可以包括载体骨架，该载体骨架包含与感兴趣的DNA区域不同源并且不意图插入感兴趣的DNA区域的序列。通常，供体序列的同源区将与需要与其重组的基因组序列具有至少50％的序列同一性。在某些实施方案中，存在60％、70％、80％、90％、95％、98％、99％或99.9％的序列同一性。取决于供体多核苷酸的长度，可以存在1％和100％之间任何值的序列同一性。供体序列可以包括与基因组序列相比的某些序列差异，例如限制性位点、核苷酸多态性、可选择标志物(例如，抗药基因、荧光蛋白、酶等)等，该序列差异可以用于评估供体序列在裂解位点的成功插入，或者在某些情况下可以用于其他目的(例如，表示靶向的基因组基因座处的表达)。在一些实施方案中，如果位于编码区中，则这样的核苷酸序列差异将不会改变氨基酸序列，或者将产生基本上不影响蛋白质的结构或功能的氨基酸变化。或者，这些序列差异可以包括侧翼重组序列，例如FLP、loxP序列等，该侧翼重组序列可以在以后的时间被激活以去除标志物序列。

供体序列可以作为单链DNA、单链RNA、双链DNA或双链RNA提供给细胞。它可以以线性或环状形式引入至细胞中。如果以线性形式引入，则供体序列的末端可以通过本领域技术人员已知的方法来保护(例如，免受核酸外切降解)。例如，将一个或多个双脱氧核苷酸残基添加到线性分子的3’末端，和/或将自互补寡核苷酸连接到一端或两端。参见，例如Changet al.(1987)Proc.Natl.Acad.Sci.USA 84:4959-4963；Nehls et al.(1996)Science272:886-889。用于保护外源多核苷酸免受降解的其他方法包括但不限于，添加末端氨基和使用修饰的核苷酸间键，诸如，例如硫代磷酸酯、氨基磷酸酯和O-甲基核糖或脱氧核糖残基。作为保护线性供体序列末端的替代方案，可在同源臂之外包含额外长度的序列，其可以在不影响重组的情况下被降解。供体序列可以作为载体分子的一部分被引入至细胞中，该载体分子具有额外的序列，例如复制起点、启动子和编码抗生素耐药性的基因。此外，供体序列可以作为裸的(例如，未修饰的)核酸引入，作为与试剂(例如，脂质体或泊洛沙姆(poloxamer))复合的核酸引入，或者可以通过病毒(例如，腺病毒、AAV)递送，如上所述用于编码向导RNA和/或M-SmallCas9多肽或其变体的核酸和/或供体多核苷酸。

根据上述方法，可以离体切割和修饰感兴趣的DNA区域，例如“遗传修饰的”。在一些实施方案中，如当可选择标志物已插入到感兴趣的DNA区中时，通过将基因修饰的细胞从剩余群体中分离出来，可以对那些包含基因修饰的细胞群体进行富集。在富集之前，“遗传修饰的”细胞可以仅占细胞群的约1％或更多(例如，2％或更多、3％或更多、4％或更多、5％或更多、6％或更多、7％或更多、8％或更多、9％或更多、10％或更多、15％或更多、或20％或更多)。“遗传修饰的”细胞的分离可以通过适用于所使用的可选择标志物的任何合适的分离技术来实现。例如，如果插入了荧光标志物，可以通过荧光激活细胞分选法来分离细胞，而如果已经插入细胞表面标志物，则可以通过亲和分离技术从异质群中分离出细胞，该亲和分离技术例如磁分离、亲和色谱法、用附接至固体基质的亲和试剂“淘选(panning)”，或其他合适的技术。提供精确分离的技术包括荧光激活细胞分选法，其可以具有不同程度的复杂度。例如多个颜色通道、低角度和钝角光散射检测通道、阻抗通道等。可以通过采用与死细胞相关的染料(例如，碘化丙啶)来针对死细胞来选择细胞。可以采用对遗传修饰的细胞的生存能力没有过度损害的任何技术。以这种方式实现高度富集包含修饰的DNA的细胞的细胞组合物。所谓“高度富集”，意指遗传修饰的细胞将是细胞组合物的70％或更多、75％或更多、80％或更多、85％或更多、90％或更多，例如，细胞组合物的约95％或更多、或98％或更多。换言之，该组合物可以是遗传修饰的细胞的基本上纯的组合物。

可以立即使用通过文本所描述的方法产生的遗传修饰的细胞。此外或可替换地，细胞可以在液氮温度下冷冻并储存较长的一段时间，解冻并能够重新使用。在这样的情况下，细胞将通常冷冻在10％二甲亚砜(DMSO)、50％血清、40％缓冲介质或本领域中常用的一些其他这样的溶液中，以在这样的冷冻温度下保存细胞，以如本领域中通常已知用于解冻被冷冻的培养的细胞的方式解冻。

遗传修饰的细胞可以在各种培养条件下体外培养。细胞可以在培养物中扩增，例如在促进其增殖的条件下生长。培养基可以是液体或半固体，例如含琼脂、甲基纤维素等。细胞群可以悬浮在适当的营养物培养基中，例如lscove改良DMEM或RPMI 1640，通常补充有胎牛血清(约5-10％)、L-谷氨酰胺、硫醇(具体是2-巯基乙醇)和抗生素(例如，青霉素和链霉素)。培养物可以含有相应的细胞对其有反应的生长因子。如本文所定义的，生长因子是能够通过对跨膜受体的特定作用在培养物或完整组织中促进细胞存活、生长和/或分化的分子。生长因子包括多肽和非多肽因子。以这种方式进行遗传修饰的细胞可以被移植至受试者，用于诸如基因治疗的目的，例如治疗疾病或作为抗病毒、抗病原体或抗癌治疗剂，用于在农业中产生遗传修饰的生物体或用于生物研究。受试者可能是新生儿、青少年或成年人。特别感兴趣的是哺乳动物受试者。可以用本方法治疗的哺乳动物物种包括犬和猫；马；牛；羊等，以及灵长类动物，具体是人。动物模型，具体是小型哺乳动物(例如，小鼠、大鼠、豚鼠、仓鼠、兔形目动物(例如，兔)等)可用于实验研究。

细胞可以单独地或与合适的底物或基质一起提供给受试者，例如，以支持该细胞在它们移植其中的组织中的生长和/或组织化。通常，将施用至少1×10³个细胞，例如，5×10³个细胞、1×10⁴个细胞、5×10⁴个细胞，1×10⁵个细胞、1×10⁶个细胞或更多。细胞可以通过以下任何途径引入受试者：胃肠外、皮下、静脉内、颅内、脊柱内(intraspinal)、眼内或注入脊髓液。细胞可以通过注射、导管等引入。用于局部递送(即，递送至损伤部位)的方法的实例包括，例如通过例如用于囊内递送的Ommaya囊(Ommaya reservoir)(参见，例如美国专利5,222,982和5,385,582，所述专利以引用的方式纳入本说明书)；通过弹丸式注射(bolusinjection)，例如通过注射器，例如注射至关节；通过连续输注，例如通过套管插入术(cannulation)，例如通过对流(参见，例如美国申请号20070254842，所述专利以引用的方式纳入本说明书)；或通过植入在其上已可逆地固定细胞的装置(参见，例如美国申请号20080081064和20090196903，所述专利以引用的方式纳入本说明书)。还可以出于产生转基因动物(例如，转基因小鼠)的目的将细胞引入至胚胎(例如，囊胚)中。

在一些实施方案中，编码向导RNA和/或M-SmallCas9多肽或其变体的核苷酸序列可操作地连接至控制元件，例如转录控制元件，如启动子。转录控制元件通常在真核细胞如哺乳动物细胞(例如，人细胞)或原核细胞(例如，细菌或古细菌细胞)中具有功能。在一些实施方案中，编码向导RNA和/或M-SmallCas9多肽或其变体的核苷酸序列可操作地连接至多个控制元件，该控制元件允许在原核细胞和真核细胞中表达编码向导RNA和/或M-SmallCas9多肽或其变体的核苷酸序列。

启动子可以是组成型活性启动子(例如，在激活“打开”状态的组成型的启动子)，它可以是诱导型启动子(例如，通过外界刺激例如存在具体温度、化合物或蛋白质控制的其状态为激活/“打开”或非激活/“关闭”的启动子。)，它可以是空间限制的启动子(例如，转录控制元件、增强子等)(例如，组织特异性启动子、细胞类型特异性启动子等)，并且它可以是时间限制的启动子(例如，在胚胎发育的特定阶段或生物过程的特定阶段(例如，小鼠的毛囊周期)，启动子处于“打开”状态或“关闭”状态)。

合适的启动子可以衍生自病毒，并且可以因此称为病毒启动子，或者它们可以衍生自任何生物体，包括原核或真核生物。合适的启动子可用于通过任何RNA聚合酶(例如，pol I、pol II、pol III)来驱动表达。示例性启动子包括但不限于SV40早期启动子、小鼠乳腺肿瘤病毒长末端重复序列(LTR)启动子；腺病毒主要晚期启动子(Ad MLP)；单纯疱疹病毒(HSV)启动子、巨细胞病毒(CMV)启动子如CMV立即早期启动子区(CMVIE)、劳斯肉瘤病毒(RSV)启动子、人U6小核启动子(U6)(Miyagishi et al.,Nature Biotechnology 20,497-500(2002))、增强的U6启动子(例如，Xia et al.,Nucleic Acids Res.2003Sep 1；31(17))、人H1启动子(H1)等。

诱导型启动子的实例包括但不限于T7 RNA聚合酶启动子、T3RNA聚合酶启动子、异丙基-β-D-硫代吡喃半乳糖苷(IPTG)调控的启动子、乳糖诱导的启动子，热休克启动子、四环素调控的启动子(例如，Tet-ON、Tet-OFF等)、类固醇调控的启动子、金属调控的启动子、雌激素受体调控的启动子等。因此，诱导型启动子可以因此通过包括但不限于多西环素；RNA聚合酶，例如T7 RNA聚合酶；雌激素受体；雌激素受体融合等分子来调控。

在一些实施方案中，启动子是空间限制的启动子(例如，细胞类型特异性启动子、组织特异性启动子等)，使得在多细胞生物体中，该启动子在特定细胞的亚群中是激活的(例如，“打开”)。空间限制的启动子还可以称为增强子、转录控制元件、控制序列等。可以使用任何合适的空间限制的启动子，并且合适的启动子(例如，脑特异性启动子、驱动神经元亚群中的表达的启动子、驱动种系中的表达的启动子、驱动肺中表达的启动子、驱动肌肉中的表达的启动子、驱动胰腺的胰岛细胞中的表达的启动子等)的选择将取决于生物体。例如，对于植物、苍蝇、蠕虫、哺乳动物、小鼠等已知的各种空间限制的启动子。因此，空间限制的启动子可以用于调控编码M-SmallCas9多肽或其变体的核酸在多种不同组织和细胞类型中的表达，这取决于生物体。一些空间限制的启动子也是时间限制的，使得启动子在胚胎发育的特定阶段或生物过程的特定阶段(例如，小鼠的毛囊周期)处于“打开”状态或“关闭”状态。

出于说明的目的，空间限制的启动子的实例包括但不限于神经元特异性启动子、脂肪细胞特异性启动子、心肌细胞特异性启动子、平滑肌特异性启动子、光感受器特异性启动子等。神经元特异性空间限制的启动子包括但不限于神经元特异性烯醇化酶(NSE)启动子(参见，例如EMBL HSEN02，X51956)；芳香族氨基酸脱羧酶(AADC)启动子；神经丝启动子(参见，例如GenBank HUMNL，L04147)；突触蛋白启动子(参见，例如GenBank HUMSYNIB，M55301)；thy-1启动子(参见，例如Chen et al.(1987)Ce/151:7-19；和lewellyn,et al.(2010)Nat.Med.16(10):1161-1166)；血清素受体启动子(参见，例如GenBank S62283)；酪氨酸羟化酶启动子(TH)(参见，例如Oh et al.(2009)Gene Ther 16:437；Sasaoka et al.(1992)Mol.Brain Res.16:274；Boundy et al.(1998)J.Neurosci.18:9989；和Kaneda etal.(1991)Neuron 6:583-594)；GnRH启动子(参见，例如Radovick et al.(1991)Proc.Natl.Acad.Sci.USA 88:3402-3406)；和L7启动子(参见，例如Oberdick et al.(1990)Science 248:223-226)；DNMT启动子(参见，例如Bartge et al.(1988)Proc.Nat/.Acad.Sci.USA 85:3648-3652)；脑啡肽启动子(参见，例如Comb et al.(1988)EMBO J.17:3793-3805)；髓鞘碱性蛋白(MBP)启动子；Ca2+-钙调蛋白依赖型蛋白激酶11-α(CamKIIa)启动子(参见，例如Mayford et al.(1996)Proc.Nat/.Acad.Sci.USA 93:13250；和Casanovaet al.(2001)Genesis 31:37)；CMV增强子/血小板衍生的生长因子-p启动子(参见，例如Liu et al.(2004)Gene Therapy 11:52-60)等。

脂肪细胞特异性空间限制的启动子包括但不限于aP2基因启动子/增强子，例如人aP2基因的从-5.4kb至+21bp的区域(参见，例如Tozzo et al.(1997)Endocrinol.138:1604；Ross et al.(1990)Proc.Natl.Acad.Sci.USA 87:9590；和Pavjani et al.(2005)Nat.Med.11:797)；葡萄糖转运蛋白-4(GLUT4)启动子(参见，例如Knight et al.(2003)Proc.Nat/.Acad.Sci.USA 100:14725)；脂肪酸转移酶(FAT/CD36)启动子(参见，例如Kuriki et al.(2002)Biol.Pharm.Bull.25:1476；和Sato etal.(2002)J.Biol.Chem.277:15703)；硬脂酰-辅酶A去饱和酶-1(SCD1)启动子(Taboret al.(1999)J.Biol.Chem.274:20603)；瘦素启动子(参见，例如Mason et al.(1998)Endocrinol.139:1013；和Chen etal.(1999)Biochem.Biophys.Res.Comm.262:187)；脂联素启动子(参见，例如Kita et al.(2005)Biochem.Biophys.Res.Comm.331:484；和Chakrabarti(2010)Endocrinol.151:2408)；降脂素启动子(参见，例如Platt et al.(1989)Proc.Nat/.Acad.Sci.USA 86:7490)；抵抗素启动子(参见，例如Seo et al.(2003)Malec.Endocrinol.17:1522)等。

心肌细胞特异性空间限制的启动子包括但不限于衍生自以下基因的控制序列：肌球蛋白轻链-2、a-肌球蛋白重链、AE3、心肌肌钙蛋白C、心肌肌动蛋白等。Franz et al.(1997)Cardiovasc.Res.35:560-566；Robbins et al.(1995)Ann.N.Y.Acad.Sci.752:492-505；Linn et al.(1995)Circ.Res.76:584591；Parmacek et al.(1994)Mol.Cell.Biol.14:1870-1885；Hunter et al.(1993)Hypertension 22:608-617；和Sartorelli et al.(1992)Proc.Natl.Acad.Sci.USA89:4047-4051。

平滑肌特异性空间限制的启动子包括但不限于SM22a启动子(参见，例如Akyilreket al.(2000)Mol.Med.6:983；和美国专利号7,169,874)；平滑肌蛋白(smoothelin)启动子(参见，例如WO 2001/018048)；α-平滑肌肌动蛋白启动子等。例如，SM22a启动子的0.4kb区域，其中存在两个CArG元件，已显示出介导血管平滑肌细胞特异性表达(参见，例如Kim,etal.(1997)Mol.Cell.Biol.17,2266-2278；Li,et al.,(1996)J.Cell Biol.132,849-859；和Moessler,etal.(1996)Development 122,2415-2425)。

光感受器特异性空间限制的启动子包括但不限于视紫红质启动子；视紫红质激酶启动子(Young et al.(2003)Ophthalmol.Vis.Sci.44:4076)；β磷酸二酯酶基因启动子(Nicoud et al.(2007)J.Gene Med.9:1015)；色素性视网膜炎基因启动子(Nicoud et al.(2007)同上)；光感受器间视黄醇类结合蛋白(interphotoreceptor retinoid-bindingprotein，IRBP)基因增强子(Nicoud et al.(2007)同上)；IRBP基因启动子(Yokoyama etal.(1992)Exp Eye Res.55:225)等。

包含向导RNA的组合物

在一些实施方案中，本文提供包含向导RNA的组合物。该组合物可以包括除了向导RNA之外的以下一种或多种：盐，例如NaCl、MgCl₂、KCl、MgSO₄等；缓冲剂，例如Tris缓冲液、N-(2-羟乙基)哌嗪-N’-(2-乙磺酸)(HEPES)、2-(N-吗啉代)乙磺酸(MES)、MES钠盐、3-(N-吗啉代)丙磺酸(MOPS)、N-三[羟甲基]甲基-3-氨基丙磺酸(TAPS)等；增溶剂；去污剂，例如非离子型去污剂如吐温-20等；核酸酶抑制剂等。例如，在一些实施方案中，组合物包含向导RNA和用于使核酸稳定的缓冲液。

在一些实施方案中，存在于组合物中的向导RNA是纯的，例如至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或多于99％纯的，其中“％纯度”意指向导RNA为列举的百分比，其不含其它大分子或不含可在向导RNA产生过程中可能存在的污染物。

包含M-SmallCas9多肽的组合物

在一些实施方案中，本文提供包含从密码子优化的多核苷酸序列表达的M-SmallCas9多肽或其变体的组合物。组合物可以包括除了M-SmallCas9多肽或其变体之外的以下一种或多种：盐，例如NaCl、MgCl₂、KCl、MgSO₄等；缓冲剂，例如Tris缓冲剂、HEPES、MES、MES钠盐、MOPS、TAPS等；增溶剂；去污剂，例如非离子型去污剂，例如吐温-20等；蛋白酶抑制剂；还原剂(例如，二硫苏糖醇)等。

在一些实施方案中，组合物中存在的M-SmallCas9多肽或其变体是纯的，例如至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或多于99％纯的，其中“％纯度”意指M-SmallCas9多肽或其变体为列举的百分比，其不含其它蛋白质、其它大分子或不含可在M-SmallCas9多肽或其变体产生过程中可能存在的污染物。包含向导RNA和位点定向修饰多肽的组合物

在一些实施方案中，本文提供一种组合物，其包含：(i)向导RNA或编码该向导RNA的多核苷酸；和ii)包含编码M-SmallCas9多肽或其变体的密码子优化的多核苷酸序列的核酸，或由该核酸表达的M-SmallCas9多肽或其变体。在一些实施方案中，M-SmallCas9多肽或其变体表现出修饰靶DNA的酶活性。在一些实施方案中，M-SmallCas9多肽或其变体表现出修饰由靶DNA编码的多肽的酶活性。在一些实施方案中，M-SmallCas9多肽或其变体调节靶DNA的转录。

在一些实施方案中，组合物的组分是单独纯的，例如每种组分是至少75％、至少80％、至少90％、至少95％、至少98％、至少99％或至少99％纯的。在一些实施方案中，组合物的各个组分在被添加到组合物中之前是纯的。

试剂盒

在一些实施方案中，提供用于实施本文所述的方法的试剂盒。试剂盒可以包括以下一种或多种：由例如密码子优化的多核苷酸序列表达的M-SmallCas9多肽或其变体；向导RNA；包含编码向导RNA的核苷酸序列的核酸。试剂盒可以包括复合物，该复合物包括以下两种或多种：M-SmallCas9多肽或其变体；包含编码M-SmallCas9多肽或其变体的核苷酸的核酸；向导RNA；包含编码向导RNA的核苷酸序列的核酸。在一些实施方案中，试剂盒包括M-SmallCas9多肽或其变体，或编码相同多肽的多核苷酸。在一些实施方案中，M-SmallCas9多肽或其变体的活性部分表现出降低或失活的核酸酶活性。在一些实施方案中，M-SmallCas9多肽或其变体是M-SmallCas9融合蛋白。

在一些实施方案中，试剂盒包括：(a)包含编码M-SmallCas9多肽或其变体的密码子优化的多核苷酸序列的核酸，或由该核酸表达的M-SmallCas9多肽或其变体；和(b)gRNA或编码该gRNA的核酸，其中该gRNA能够将M-SmallCas9多肽或其变体引导至靶多核苷酸序列。在一些实施方案中，试剂盒包括包含密码子优化的多核苷酸序列的核酸。包含由密码子优化的多核苷酸序列表达的M-SmallCas9多肽或其变体，或包含密码子优化多核苷酸序列的核酸的试剂盒，可以进一步包含一种或多种额外试剂，其中这样的额外试剂可以选自：用于将M-SmallCas9多肽或其变体引入至细胞的缓冲液；洗涤缓冲液；对照试剂；对照表达载体或多核糖核苷酸；用于从DNA体外产生M-SmallCas9多肽或其变体的试剂等。

在本文所述的任何试剂盒的一些实施方案中，试剂盒包括一种sgRNA。在一些实施方案中，试剂盒包括两种或多种sgRNA。

在本文所述的任何试剂盒的一些实施方案中，gRNA(包括，例如，两个或更多个向导RNA)可以作为阵列(例如，RNA分子阵列、编码向导RNA的DNA分子阵列等)提供。这样的试剂盒可以有用于，例如，与包括M-SmallCas9多肽或其变体的上述遗传修饰的宿主细胞结合使用。

在本文所述的任何试剂盒的一些实施方案中，试剂盒进一步包括供体多核苷酸以实现所需的遗传修饰的。

试剂盒的组分可以处于单独的容器中；或者可以合并在单个容器中。

本文所述的任何试剂盒可以进一步包括一种或多种额外试剂，其中这样的额外试剂可选自：稀释缓冲液；重构溶液(reconstitution solution)；洗涤缓冲液；对照试剂；对照表达载体或多核糖核苷酸；用于从DNA体外生产M-SmallCas9多肽或其变体的试剂等。

除了以上提到的组分，试剂盒还可以包括使用试剂盒组分以进行所述方法的说明书。用于进行该方法的说明书通常记录在合适的记录介质上。例如，可在基质如纸或塑料等上印刷说明书。因此，说明书可以作为包装插页出现在试剂盒中、试剂盒容器或其组件的标签中(如，与包装或子包装相关)等。在一些实施方案中，说明书作为电子存储数据文件的形式存在于合适的计算机可读存储介质(例如，CD-ROM、软磁盘、闪存驱动器等)上。在又其它实施方案中，实际的说明书不存在于试剂盒中，但提供了用于从远程源(例如，通过互联网)获得说明书的装置。该实施方案的一个实例是包括网址的试剂盒，在该网址中可以查看说明书和/或从该网址可以下载说明书。与说明书一样，用于获得说明书的这种方式被记录在合适的基质上。

本公开内容的方法

修饰靶DNA和/或由靶DNA编码的多肽的方法

在一些实施方案中，本文提供了用于修饰靶DNA和/或由靶DNA编码的多肽的方法。在一些实施方案中，该方法涉及提供(i)编码SEQ ID NO:1或其变体的核酸，该变体与SEQID NO:1具有至少90％的序列同一性，SEQ ID NO:1编码B-GEn.1或B-GEn.2多肽或其变体，或者编码由该核酸表达的M-SmallCas9多肽或其变体；和(ii)gRNA或编码gRNA的核酸，其中该gRNA能够将M-SmallCas9多肽或其变体引导至靶多核苷酸序列，从而形成包含M-SmallCas9多肽或其变体和gRNA的复合物(“靶向复合物”)，并且与包含靶多核苷酸序列的靶DNA接触。

在一些实施方案中，该方法涉及提供(i)编码SEQ ID NO:2或其变体的核酸，该变体与SEQ ID NO:2具有至少90％的序列同一性，SEQ ID NO:2编码B-GEn.1或B-GEn.2多肽或其变体，或者编码由该核酸表达的M-SmallCas9多肽或其变体；和(ii)gRNA或编码gRNA的核酸，其中该gRNA能够将M-SmallCas9多肽或其变体引导至靶多核苷酸序列，从而形成包含M-SmallCas9多肽或其变体和gRNA的复合物(“靶向复合物”)，并且与包含靶多核苷酸序列的靶DNA接触。

在一些实施方案中，该方法涉及提供(i)编码SEQ ID NO:3或其变体的核酸，该变体与SEQ ID NO:3具有至少90％的序列同一性，SEQ ID NO:3编码B-GEn.1或B-GEn.2多肽或其变体，或者编码由该核酸表达的M-SmallCas9多肽或其变体；和(ii)gRNA或编码gRNA的核酸，其中该gRNA能够将M-SmallCas9多肽或其变体引导至靶多核苷酸序列，从而形成包含M-SmallCas9多肽或其变体和gRNA的复合物(“靶向复合物”)，并且与包含靶多核苷酸序列的靶DNA接触。

在一些实施方案中，该方法涉及提供(i)编码SEQ ID NO:4或其变体的核酸，该变体与SEQ ID NO:4具有至少90％的序列同一性，SEQ ID NO:4编码B-GEn.1或B-GEn.2多肽或其变体，或者编码由该核酸表达的M-SmallCas9多肽或其变体；和(ii)gRNA或编码gRNA的核酸，其中该gRNA能够将M-SmallCas9多肽或其变体引导至靶多核苷酸序列，从而形成包含M-SmallCas9多肽或其变体和gRNA的复合物(“靶向复合物”)，并且与包含靶多核苷酸序列的靶DNA接触。

在一些实施方案中，该方法涉及提供(i)编码SEQ ID NO:5或其变体的核酸，该变体与SEQ ID NO:5具有至少90％的序列同一性，SEQ ID NO:5编码B-GEn.1或B-GEn.2多肽或其变体，或者编码由该核酸表达的M-SmallCas9多肽或其变体；和(ii)gRNA或编码gRNA的核酸，其中该gRNA能够将M-SmallCas9多肽或其变体引导至靶多核苷酸序列，从而形成包含M-SmallCas9多肽或其变体和gRNA的复合物(“靶向复合物”)，并且与包含靶多核苷酸序列的靶DNA接触。

在一些实施方案中，该方法涉及提供(i)编码SEQ ID NO:6或其变体的核酸，该变体与SEQ ID NO:6具有至少90％的序列同一性，SEQ ID NO:6编码B-GEn.1或B-GEn.2多肽或其变体，或者编码由该核酸表达的M-SmallCas9多肽或其变体；和(ii)gRNA或编码gRNA的核酸，其中该gRNA能够将M-SmallCas9多肽或其变体引导至靶多核苷酸序列，从而形成包含M-SmallCas9多肽或其变体和gRNA的复合物(“靶向复合物”)，并且与包含靶多核苷酸序列的靶DNA接触。

在一些实施方案中，所述方法涉及提供(i)编码SEQ ID NO:7或其变体的核酸，该变体与SEQ ID NO:7具有至少90％的序列同一性，SEQ ID NO:7编码B-GEn.1或B-GEn.2多肽或其变体，或者编码由该核酸表达的M-SmallCas9多肽或其变体；和(ii)gRNA或编码gRNA的核酸，其中该gRNA能够将M-SmallCas9多肽或其变体引导至靶多核苷酸序列，从而形成包含M-SmallCas9多肽或其变体和gRNA的复合物(“靶向复合物”)，并且与包含靶多核苷酸序列的靶DNA接触。

在一些实施方案中，该方法涉及提供(i)编码SEQ ID NO:8或其变体的核酸，该变体与SEQ ID NO:8具有至少90％的序列同一性，SEQ ID NO:8编码B-GEn.1或B-GEn.2多肽或其变体，或者编码由该核酸表达的M-SmallCas9多肽或其变体；和(ii)gRNA或编码gRNA的核酸，其中该gRNA能够将M-SmallCas9多肽或其变体引导至靶多核苷酸序列，从而形成包含M-SmallCas9多肽或其变体和gRNA的复合物(“靶向复合物”)，并且与包含靶多核苷酸序列的靶DNA接触。

在一些实施方案中，该方法涉及提供(i)编码SEQ ID NO:9或其变体的的核酸，该变体与SEQ ID NO:9具有至少90％的序列同一性，SEQ ID NO:9编码B-GEn.1或B-GEn.2多肽或其变体，或者编码由该核酸表达的M-SmallCas9多肽或其变体；和(ii)gRNA或编码gRNA的核酸，其中该gRNA能够将M-SmallCas9多肽或其变体引导至靶多核苷酸序列，从而形成包含M-SmallCas9多肽或其变体和gRNA的复合物(“靶向复合物”)，并且与包含靶多核苷酸序列的靶DNA接触。

在一些实施方案中，该方法涉及提供(i)编码SEQ ID NO:133或其变体的核酸，该变体与SEQ ID NO:133具有至少90％的序列同一性，SEQ ID NO:133编码B-GEn.1或B-GEn.2多肽或其变体，或者编码由该核酸表达的M-SmallCas9多肽或其变体；和(ii)gRNA或编码gRNA的核酸，其中该gRNA能够将M-SmallCas9多肽或其变体引导至靶多核苷酸序列，从而形成包含M-SmallCas9多肽或其变体和gRNA的复合物(“靶向复合物”)，并且与包含靶多核苷酸序列的靶DNA接触。

在一些实施方案中，本文提供了一种在细胞或体外环境中的一个或多个位置靶向、编辑、修饰或操纵靶DNA的方法，包括向细胞或体外环境引入(a)核酸，该核酸包括例如编码M-SmallCas9多肽或其变体的密码子优化的多核苷酸序列，或由该核酸表达的M-SmallCas9多肽或其变体；和(b)gRNA或编码该gRNA的核酸，其中该gRNA能够将M-SmallCas9多肽或其变体引导至靶DNA中的靶多核苷酸序列。在一些实施方案中，该方法包括将包含密码子优化的多核苷酸序列的核酸引入细胞或体外环境中。在一些实施方案中，该方法包括将由核酸表达的M-SmallCas9多肽或其变体引入至细胞或体外环境中。在一些实施方案中，M-SmallCas9多肽包括SEQ ID NO:1至9或133的氨基酸序列(或由其组成)。在一些实施方案中，该方法包括将gRNA引入至细胞或体外环境中。在一些实施方案中，该方法包括将编码gRNA的核酸引入至细胞或体外环境中。在一些实施方案中，gRNA是单向导RNA(sgRNA)。在一些实施方案中，该方法包括将一个或多个额外的gRNA或编码靶向靶DNA的一个或多个额外的gRNA的核酸引入至细胞或体外环境中。在一些实施方案中，该方法进一步包括将供体模板引入至细胞或体外环境中。

在一些实施方案中，本文提供了一种在细胞或体外环境中的一个或多个位置靶向、编辑、修饰或操纵靶DNA的方法，包括向细胞或体外环境中引入(a)编码M-SmallCas9多肽或其变体的核酸，或由这样的核酸表达的M-SmallCas9多肽或其变体；和(b)gRNA或编码该gRNA的核酸，其中该gRNA能够将M-SmallCas9多肽或其变体引导至靶DNA中的靶多核苷酸序列。在一些实施方案中，该方法包括将由核酸表达的M-SmallCas9多肽或其变体引入至细胞或体外环境中。在一些实施方案中，M-SmallCas9多肽或其变体包括SEQ ID NO:1至9或133的氨基酸序列，或其变体，该变体与那些氨基酸序列具有至少95％序列同一性。在一些实施方案中，该方法包括将gRNA引入至细胞或体外环境中。在一些实施方案中，该方法包括将编码gRNA的核酸引入至细胞或体外环境中。在一些实施方案中，gRNA是单向导RNA(sgRNA)。在一些实施方案中，该方法包括将一个或多个额外的gRNA或编码靶向靶DNA的一个或多个额外的gRNA的核酸引入至细胞或体外环境中。在一些实施方案中，该方法进一步包括将供体模板引入至细胞或体外环境中。

如上所述，gRNA或sgRNA和M-SmallCas9多肽或其变体可以形成核糖核蛋白复合物。向导RNA通过包括与靶DNA序列互补的核苷酸序列来为复合物提供靶特异性。复合物的M-SmallCas9多肽或其变体提供核酸内切酶活性。在一些实施方案中，复合物修饰靶DNA，导致例如DNA切割、DNA甲基化、DNA损伤、DNA修复等。在一些实施方案中，复合物修饰与靶DNA相关的靶多肽(例如，组蛋白、DNA结合蛋白等)，导致例如组蛋白甲基化、组蛋白乙酰化、组蛋白泛素化等。靶DNA可以是，例如，体外裸的(例如，与DNA相关蛋白未结合)DNA、体外细胞中的染色体DNA、体内细胞中的染色质DNA等。

本文所述的M-SmallCas9多肽或其变体的核酸酶活性可以切割靶DNA以产生双链断裂。然后，这些断裂以两种方式之一通过细胞来修复：非同源末端连接和同源定向修复。在非同源末端连接(NHEJ)中，双链断裂通过断裂末端彼此直接连接来修复。在该过程中，可以在切割位点插入或缺失一些碱基对。在同源定向修复中，与裂解的靶DNA序列具有同源性的供体多核苷酸被用作修复切割的靶DNA序列的模板，从而导致遗传信息从供体多核苷酸转移到靶DNA。因此，新的核酸物质可以被插入/复制到该位点中。在一些实施方案中，使靶DNA与供体多核苷酸接触。在一些实施方案中，将供体多核苷酸引入至细胞中。由于NHEJ和/或同源定向修复对靶DNA的修饰导致例如基因校正、基因替代、基因标签、转基因插入、核苷酸缺失、核苷酸插入、基因破坏、基因突变、序列替代等。因此，M-SmallCas9多肽或其变体对DNA的切割可用于从靶DNA序列中缺失核酸材料(例如，通过切割所述靶DNA序列并允许细胞在没有外源提供的供体多核苷酸的情况下修复序列以干扰使细胞易受感染的基因(如CCRS或CXCR4基因，其使T细胞易受HIV感染，易于去除神经元中致病的三核苷酸重复序列，易于在研究中创建基因敲除和突变作为疾病模型等))。因此，该方法可用于敲除基因(导致完全缺乏转录/翻译或改变的转录/翻译)或将遗传物质敲入到靶DNA中的所选择的基因座中。

此外或可替换地，如果将向导RNA和M-SmallCas9多肽或其变体与至少包括与靶DNA序列具有同源性的一个区段的供体多核苷酸序列共同施用至细胞，则本主题方法可用于将核酸物质添加(例如，插入或替代)至靶DNA序列(例如，以“敲入”编码蛋白质的核酸、siRNA、miRNA等)，添加标签(例如，6xHis、荧光蛋白(例如，绿色荧光蛋白；黄色荧光蛋白等)、血凝素(HA)、FLAG等)，将调控序列添加至基因(例如，启动子、聚腺苷酸化信号、内部核糖体进入序列(IRES)、2A肽、起始密码子、终止密码子、剪接信号、定位信号等)、修饰核酸序列(例如，引入突变)等。因此，包含向导RNA和M-SmallCas9多肽或其变体的复合物在任何体外或体内应用中都是有用的，在这些应用中，需要以位点特异性(例如“靶向”)方式修饰DNA，例如基因敲除、基因敲入、基因编辑、基因标签、序列替代等，例如用于基因治疗，例如用于治疗疾病或作为抗病毒、抗病原体或抗癌治疗剂，用于农业中产生遗传修饰的生物体，出于治疗、诊断或研究目的通过细胞大规模生产蛋白质，诱导iPS细胞，生物学研究，病原体基因的靶向缺失或替代等。

在一些实施方案中，本文所述的方法采用包括异源序列的M-SmallCas9多肽或其变体(例如M-SmallCas9融合多肽)。在一些实施方案中，异源序列可以提供M-SmallCas9多肽或其变体的亚细胞定位(例如，用于靶向细胞核的核定位信号(NLS)；用于靶向线粒体的线粒体定位信号；用于靶向叶绿体的叶绿体定位信号；ER滞留信号等)。在一些实施方案中，异源序列可以提供便于追踪或纯化的标签(例如，荧光蛋白，例如绿色荧光蛋白(GFP)、YFP、RFP、CFP、mCherry、tdTomato等；组氨酸标签，例如6XHis标签；血凝素(HA)标签；FLAG标签；Myc标签等)。在一些实施方案中，异源序列可以提供增加或降低的稳定性。

在一些实施方案中，本文所述的方法采用向导RNA和M-SmallCas9多肽或其变体用作可诱导系统，用于关闭靶细胞中基因表达。在一些实施方案中，将编码合适的向导RNA和/或合适的M-SmallCas9多肽或其变体的核酸并入靶细胞的染色体中，并且受诱导型启动子的控制。当向导RNA和/或M-SmallCas9多肽或其变体被诱导时，当向导RNA和M-SmallCas9多肽或其变体都存在并形成复合物时，靶DNA在感兴趣的位置(例如，单独质粒上的靶基因)被切割(或以其他方式修饰)。因此，在一些实施方案中，靶细胞被工程化以包括核酸序列，该核酸序列编码基因组中合适的M-SmallCas9多肽或其变体和/或在质粒上合适的向导RNA(例如，在诱导型启动子的控制下)，从而允许通过诱导向导RNA和M-SmallCas9多肽或其变体的表达来控制任何靶向基因(从引入菌株的单独质粒表达)的表达的实验。在一些实施方案中，M-SmallCas9多肽或其变体具有以除了引入双链断裂以外的方式修饰靶DNA的酶活性。可以用于修饰靶DNA的感兴趣的酶活性(例如，通过将具有酶活性的异源多肽与M-SmallCas9多肽或其变体融合，从而产生M-SmallCas9融合多肽或其变体)包括但不限于甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性)。甲基化和脱甲基化在本领域中公认为表观遗传基因调节的重要模式，而DNA损伤的修复对于细胞存活和维持适当基因组对环境应激的反应是必不可少的。因此，本文的方法可用于靶DNA的表观遗传修饰，并可用于通过将所需的序列引入至向导RNA的间隔区来控制靶DNA中任何位置的靶DNA的表观遗传修饰。本文的方法也可用于靶DNA内任何所需的位置处有意和受控的损伤DNA。本文的方法还可用于靶DNA内任何所需的位置处的DNA的序列特异性和受控的修复。将DNA修饰酶活性靶向靶DNA中的特异性位置的方法可用于研究应用和临床应用中。

在一些实施方案中，多个向导RNA被用于同时修饰相同靶DNA或不同靶DNA上的不同位置。在一些实施方案中，两个或更多个向导RNA靶向相同的基因或转录物或基因座。在一些实施方案中，两个或更多个向导RNA靶向不同的不相关的基因座。在一些实施方案中，两个或更多个向导RNA靶向不同但相关的基因座。

在一些实施方案中，M-SmallCas9多肽或其变体直接作为蛋白质提供。作为一个非限制性实例，可以使用原生质体转化法用外源蛋白质和/或核酸转化真菌(例如，酵母)(参见Kawai et al.,Bioeng Bugs.2010年11月-12月；1(6):395-403:'Transformation ofSaccharomyces cerevisiae and other fungi:methods and possible underlyingmechanism"；和Tanka et al.,Nature.2004Mar 18；428(6980):323-8:"Conformationalvariations in an infectious protein determine prion strain differences"；所述两篇参考文献的全部内容均以引用的方式纳入本说明书)。因此，M-SmallCas9多肽或其变体可以引入至原生质体(具有或不具有编码向导RNA的核酸，并且具有或不具有供体多核苷酸)中，并且原生质体可用于将内容物引入至酵母细胞中。可以通过任何合适的方法将M-SmallCas9多肽或其变体引入至细胞(提供给细胞)；这些方法是本领域普通技术人员已知的。作为另一个非限制性实例，可以将M-SmallCas9多肽或其变体直接注射到细胞(例如，具有或不具编码向导RNA的核酸，并且具有或不具有供体多核苷酸)中，例如斑马鱼胚胎的细胞、受精小鼠卵母细胞的原核等。

调节转录的方法

在一些实施方案中，本文提供调节宿主细胞中靶核酸转录的方法。该方法通常涉及使靶核酸与酶促失活的M-SmallCas9多肽和向导RNA接触。该方法在多种应用中是有用的，也提供了这些应用。

本公开内容的转录调节方法克服了涉及RNAi的方法的一些缺点。本公开内容的转录调节方法可用于多种应用，包括研究应用、药物发现(例如，高通量筛选)、靶点验证、工业应用(例如，作物工程、微生物工程等)、诊断应用、治疗应用和成像技术。

在一些实施方案中，本文提供选择性调节宿主细胞(例如，人细胞)中靶DNA转录的方法。该方法通常涉及：a)向宿主细胞中引入：i)向导RNA或包含编码该向导RNA的核苷酸序列的核酸；和ii)M-SmallCas9多肽或其变体，或包含编码M-SmallCas9多肽或其变体的核苷酸序列的核酸，其中该M-SmallCas9多肽或变体表现出降低的脱氧核糖核酸内切酶活性。向导RNA和M-SmallCas9多肽或其变体在宿主细胞中形成复合物；该复合物选择性地调节宿主细胞中靶DNA的转录。

在一些实施方案中，本文所述的方法采用M-SmallCas9蛋白的修饰形式。在一些实施方案中，M-SmallCas9蛋白的修饰形式包括降低M-SmallCas9蛋白的核酸酶活性的氨基酸改变(例如，缺失、插入或置换)。例如，在一些实施方案中，M-SmallCas9蛋白的修饰形式具有对应的未修饰的M-SmallCas9多肽的小于50％、小于40％、小于30％、小于20％、小于10％、小于5％或小于1％的核酸酶活性。在一些实施方案中，M-SmallCas9多肽的修饰形式不具有实质性的核酸酶活性。当M-SmallCas9多肽或其变体是不具有实质性的核酸酶活性的M-SmallCas9多肽的修饰形式时，它可以被称为“dM-SmallCas9”

在一些实施方案中，本文所述的转录调节方法允许选择性调节(例如，减少或增加)宿主细胞中的靶核酸。例如，与在不存在向导RNA/M-SmallCas9多肽或其变体复合物的情况下靶核酸的转录水平相比，靶核酸的转录“选择性”减少使靶核酸的转录减少至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％或大于90％。靶核酸转录的选择性减少减少了靶核酸的转录，但基本上不减少非靶核酸的转录，例如，如果有的话，与不存在向导RNA/M-SmallCas9多肽或其变体复合物的情况下的非靶核酸的转录水平相比，非靶核酸的转录减少小于10％。

在一些实施方案中，M-SmallCas9多肽或其变体具有调节靶DNA转录的活性(例如，在M-SmallCas9融合多肽或其变体等的情况下)。在一些实施方案中，使用包含表现出增加或减少转录能力的异源多肽(例如，转录激活物或转录阻遏物多肽)的M-SmallCas9融合多肽或其变体用来增加或减少靶DNA中具体位置处的靶DNA的转录，这由向导RNA的间隔区引导。用于为M-SmallCas9融合多肽或其变体提供具有转录调节活性的源多肽(sourcepolypeptide)的实例包括但不限于光诱导型转录调节物、小分子/药物反应性转录调节物、转录因子、转录阻遏物等。在一些实施方案中，该方法用于控制靶向的基因编码RNA(蛋白质编码mRNA)和/或靶向的非编码RNA(例如，tRNA、rRNA、snoRNA、siRNA、miRNA、长ncRNA等)的转录。在一些实施方案中，M-SmallCas9多肽或其变体具有修饰与DNA相关的多肽(例如，组蛋白)的酶活性。在一些实施方案中，酶活性是甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛素连接酶活性(例如，泛素化活性)、去泛素活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、肉豆蔻酰化活性、脱肉豆蔻酰化活性、糖基化活性(例如，来自GlcNAc转移酶)或去糖基化活性。本文列出的酶活性催化蛋白质的共价修饰。这样的修饰在本领域中已知改变靶蛋白的稳定性或活性(例如，由于激酶活性引起的磷酸化可以根据靶蛋白刺激或沉默蛋白活性)。作为蛋白质靶标，组蛋白是特别令人感兴趣的。组蛋白在本领域中已知与DNA结合并形成称为核小体的复合物。组蛋白可以被修饰(例如，通过甲基化、乙酰化、泛素化、磷酸化)以引发周围DNA的结构变化，从而控制潜在的大部分DNA对相互作用因子(例如，转录因子、聚合酶等)的可及性。单个组蛋白可以以许多不同的方式和许多不同的组合进行修饰(例如，组蛋白3的赖氨酸27(H3K27)的三甲基化与受阻抑转录的DNA区域相关，而组蛋白3的赖氨酸4(H3K4)的三甲基化与活性转录的DNA区域相关)。因此，具有组蛋白修饰活性的M-SmallCas9融合多肽或其变体可用于染色体结构的位点特异性控制，并且可用于改变靶DNA的所选择的区域中的组蛋白修饰模式。这样的方法可用于研究和临床应用。

增加的转录

与不存在向导RNA/M-SmallCas9多肽或其变体复合物的情况下的靶DNA的转录水平相比，靶DNA的“选择性”增加的转录可以使靶DNA的转录增加至少1.1倍(例如，至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2倍、至少2.5倍、至少3倍、至少3.5倍、至少4倍、至少4.5倍、至少5倍、至少6倍、至少7倍、至少8倍、至少9倍、至少10倍、至少12倍、至少15倍或至少20倍)。靶DNA转录的选择性增加增加了靶DNA的转录，但基本上不增加非靶DNA的转录，例如，如果有的话，与不存在向导RNA/M-SmallCas9多肽或其变体复合物的非靶向DNA的转录水平相比，非靶DNA转录增加小于约5倍(例如，小于约4倍、小于约3倍、小于2倍、小于1.8倍、小于1.6倍、小于1.4倍、小于1.2倍或小于1.1倍)。

作为一个非限制性实例，增加的转录可以通过将dM-SmallCas9融合至异源序列中来实现。合适的融合伙伴包括但不限于提供通过直接作用于靶DNA或与靶DNA相关的多肽(例如，组蛋白或其他DNA结合蛋白)而间接增加转录的活性的多肽。合适的融合伙伴包括但不限于：提供甲基转移酶活性、去甲基化酶活性、乙酰基转移酶活性、去乙酰基酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、去腺苷酸化活性、SUMO化活性、去SUMO化活性、核糖基化活性、去核糖基化活性、巴豆酰化、去巴豆酰化、丙酰化、去丙酰化、肉豆蔻酰化活性或去肉豆蔻酰化活性的多肽。

其他合适的融合伙伴包括但不限于直接提供靶核酸的增加的转录的多肽(例如，转录激活物或其片段、募集转录激活物的蛋白质或其片段，小分子/药物反应性转录调节物等)。

使用dM-SmallCas9融合蛋白增加原核生物中转录的方法的一个非限制性实例包括细菌单杂交(B1H)或双杂交(B2H)系统的修饰。在B1H系统中，DNA结合结构域(BD)与细菌转录激活结构域(AD，例如大肠杆菌RNA聚合酶的α亚基(RNAPa))融合。因此，dM-SmallCas9可以融合至包含AD的异源序列。当dM-SmallCas9融合蛋白到达启动子的上游区域(被向导RNA靶向到那里)时，dM-SmallCas9融合蛋白的AD(例如，RNAPa)募集RNAP全酶，导致转录激活。在B2H系统中，BD不直接与AD融合；替代地，它们的相互作用是由蛋白质-蛋白质相互作用(例如，GAL11P-GAL4相互作用)介导的。为了修饰这样的系统以在该方法中使用，dM-SmallCas9可以与提供蛋白质-蛋白质相互作用的第一蛋白质序列(例如，酵母GAL11P和/或GAL4蛋白质)融合，并且RNAa可以与完成蛋白质-蛋白质相互作用的第二蛋白质序列(例如，如果GAL11P融合至dM-SmallCas9则是GAL4，如果GAL4融合至dM-SmallCas9则是GAL11P等)融合。GAL11P和GAL4之间的结合亲和力增加了结合的效率和转录激发率(transcriptionfiring rate)。

使用dM-SmallCas9融合蛋白增加真核生物中转录的方法的一个非限制性实例包括将dM-SmallCas9融合至激活结构域(AD)(例如，GAL4、疱疹病毒激活蛋白VP16或VP64、人核因子NF-KB p65亚基等)。为了使系统具有可诱导性，dM-SmallCas9融合蛋白的表达可以通过诱导型启动子(例如，Tet-ON、Tet-OFF等)来控制。向导RNA可以被设计为靶向已知的转录反应元件(例如，启动子、增强子等)、已知的上游激活序列(UAS)、具有怀疑能够控制靶DNA表达的未知或已知功能的序列等。

其他融合伙伴

实现增加的或减少的转录的融合伙伴的非限制性实例包括但不限于转录激活物和转录阻遏物结构域(例如，Krüppel相关盒(KRAB或SKD)；Mad mSIN3相互作用结构域(SID)；ERF阻遏物结构域(ERD)等)。在一些这样的情况下，dM-SmallCas9融合蛋白通过向导RNA靶向至靶DNA中的具体位置(例如，序列)，并发挥基因座特异性调节，例如阻断RNA聚合酶与启动子(该启动子选择性抑制转录激活物功能)的结合，和/或修饰局部染色质状态(例如，当使用修饰靶DNA或修饰与靶DNA相关的多肽的融合序列时)。在一些实施方案中，变化是瞬时的(例如，转录抑制或激活)。在一些实施方案中，这些变化是可遗传的(例如，当对靶DNA或与靶DNA相关的蛋白质(例如，核小体组蛋白)进行表观遗传修饰时)。在一些实施方案中，异源序列可以与dM-SmallCas9多肽的C-末端融合。在一些实施方案中，异源序列可以与dM-SmallCas9多肽的N-末端融合。在一些实施方案中，异源序列可以与dM-SmallCas9多肽的内部部分(例如，除N-末端或C-末端以外的部分)融合。使用dM-SmallCas9融合蛋白的方法的生物学效应可以通过任何合适的方法(例如，基因表达测定；基于染色质的测定，例如染色质免疫沉淀(ChIP)、染色质体内测定(CiA)等)来检测。

在一些实施方案中，一种方法涉及使用两个或更多个不同的向导RNA。例如，可以在单个宿主细胞中使用两个不同的向导RNA，其中两个不同的向导RNA靶向相同靶核酸中的两个不同靶序列。在一些实施方案中，使用两个不同向导RNA来靶向相同靶核酸中的两个不同靶序列，可在靶核酸的转录中提供增加的调节(例如，减少或增加)。

作为另一个实例，两个不同的向导RNA可以在单个宿主细胞中使用，其中两个不同的向导RNA靶向两个不同的靶核酸。因此，例如，转录调节方法可以进一步包括将第二向导RNA或包含编码第二向导RNA的核苷酸序列的核酸引入至宿主细胞中。

在一些实施方案中，核酸(例如，向导RNA，例如单分子向导RNA；供体多核苷酸；编码M-SmallCas9多肽或其变体的核酸等)包括提供额外所需的特征(例如，修饰的或调控的稳定性；亚细胞靶向；追踪，例如荧光标记；用于蛋白质或蛋白质复合物的结合位点等)的修饰或序列。非限制性实例包括：5’帽(例如，7-甲基鸟苷酸帽(m7G))；3’聚腺苷酸化尾(例如，3’聚腺苷酸尾)；核糖开关序列或适配体序列(例如，通过蛋白质和/或蛋白质复合物允许调控的稳定性和/或调控的可及性)；终止子序列；形成dsRNA双链体(例如，发夹)的序列；将RNA靶向亚细胞位置(例如，细胞核、线粒体、叶绿体等)的修饰或序列；提供追踪(例如，与荧光分子的直接缀合、与促进荧光检测的部分的缀合、允许荧光检测的序列等)的修饰或序列；提供用于蛋白质(例如，作用于DNA的蛋白质，包括转录激活物、转录阻遏物、DNA甲基转移酶、DNA脱甲基酶、组蛋白乙酰基转移酶、组蛋白脱乙酰基酶等)的结合位点的修饰或序列；改变这种RNA结构的RNA修饰，从而为M-SmallCas9核糖核蛋白；以及其组合。

多个同时向导RNA

在一些实施方案中，在相同细胞中同时使用多个向导RNA来同时调节相同靶DNA或不同靶DNA上不同位置的转录。在一些实施方案中，两个或更多个向导RNA靶向相同的基因或转录物或基因座。在一些实施方案中，两个或更多个向导RNA靶向不同的不相关的基因座。在一些实施方案中，两个或更多个向导RNA靶向不同但相关的基因座。

因为向导RNA小而强健，所以它们可以同时存在于相同的表达载体上，如果这样希望的话，甚至可以处于相同的转录控制下。在一些实施方案中，两个或更多个(例如，3个或更多个、4个或更多个、5个或更多个、10个或更多个、15个或更多个、20个或更多个、25个或更多个、30个或更多个、35个或更多个、40个或更多个、45个或更多个或50个或更多个)向导RNA在靶细胞中同时表达(来自相同或不同载体/来自相同或不相同启动子)。在一些实施方案中，多个向导RNA可以被编码在模拟靶RNA的天然存在的CRISPR阵列的阵列中。靶向区段被编码为大约30个核苷酸长的序列(可以是大约16至大约100nt)，并且被CRISPR重复序列分开。该阵列可以通过编码该RNA的DNA或作为RNA引入至细胞。

为了表达多个向导RNA，可以使用通过Csy4核糖核酸内切酶介导的人工RNA加工系统。例如，多个向导RNA可以连接到前体转录物(例如，从U6启动子表达)上的串联阵列中，并通过Csy4特异性RNA序列来分离。共表达的Csy4蛋白将前体转录物切割成多个向导RNA。使用RNA加工系统的优点包括：首先，不需要使用多个启动子；其次，由于所有向导RNA都是从前体转录物中加工而来的，因此它们的浓度被归一化用于类似的dM-SmallCas9结合。

Csy4是来源于细菌绿脓假单胞菌(Pseudomonas aeruginosa)的小核糖核酸内切酶(RNA酶)蛋白。Csy4特异性识别最小的17bp RNA发夹，并表现出快速(<1分钟)和高效(>99.9％)的RNA切割。不同于大多数RNA酶，切割的RNA片段保持稳定和功能活性。基于Csy4的RNA切割可以被重新用于人工RNA加工系统。在该系统中，17bp的RNA发夹插入在转录为来自单个启动子的前体转录物的多个RNA片段之间。Csy4的共表达有效地产生单独RNA片段。

宿主细胞

在一些实施方案中，本公开内容的方法可用于在体内和/或离体和/或体外诱导有丝分裂或有丝分裂后细胞中的转录调节。在一些实施方案中，本公开内容的方法可用于在体内和/或离体和/或体外诱导有丝分裂或有丝分裂后细胞中的DNA切割、DNA修饰和/或转录调节(例如，产生可重新引入至个体的遗传修饰的细胞)。

因为向导RNA通过与靶DNA杂交提供特异性，所以有丝分裂和/或有丝分裂后细胞可以是多种宿主细胞中的任何一种，其中合适的宿主细胞包括但不限于细菌细胞；古细菌细胞；单细胞真核生物；植物细胞；藻类细胞，例如布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻等；真菌细胞；动物细胞；来自无脊椎动物(例如，昆虫、刺胞动物、棘皮动物、线虫等)的细胞；真核寄生虫(例如，疟原虫，例如恶性疟原虫(plasmodiumfalciparum)、蠕虫等)；来自脊椎动物(例如，鱼、两栖动物、爬行动物、鸟、哺乳动物)的细胞；哺乳动物细胞，例如啮齿动物细胞、人细胞、非人灵长类动物细胞等。在一些实施方案中，宿主细胞可以是任何人类细胞。合适的宿主细胞包括天然存在的细胞；遗传修饰的细胞(例如，在实验室中例如通过“人手”遗传修饰的细胞)；以及以任何方式在体外操纵的细胞。在一些实施方案中，宿主细胞是分离的。

任何类型的细胞都可以是感兴趣的(例如，干细胞，例如胚胎干(ES)细胞、诱导多能干(iPS)细胞、生殖细胞；体细胞，例如成纤维细胞、造血细胞、神经元、肌肉细胞、骨细胞、肝细胞、胰腺细胞；在任何阶段下的胚胎的体外或体内胚胎细胞，例如1细胞、2细胞、4细胞、8细胞等阶段的斑马鱼胚胎等)。细胞可以来自已建立的细胞系，也可以是原代细胞，其中“原代细胞”、“原代细胞系”和“原代培养物”在本文中可互换使用，指的是衍生自受试者并允许在体外生长有限次数的传代(例如，培养物的分裂(splitting))的细胞和细胞培养物。例如，原代培养物包括可以已经传代0次、1次、2次、4次、5次、10次或15次但没有足够次数经历危机阶段(crisis stage)的培养物。原代细胞系可以在体外维持少于10代。在一些实施方案中，靶细胞是单细胞生物体或在培养物中生长。

如果细胞是原代细胞，则这样的细胞可以通过任何合适的方法从个体收获。例如，白细胞可以通过单采术、白细胞单采术、密度梯度分离等适当地收获，而来自组织如皮肤、肌肉、骨髓、脾脏、肝脏、胰腺、肺、肠、胃等的细胞通过活组织检查最适当地收获。适当的溶液可以用于分散或悬浮所收获的细胞。这样的溶液将通常是平衡盐溶液(例如，生理盐水、磷酸盐缓冲盐水(PBS)、汉克平衡盐溶液等)，适当地补充胎牛血清或其他天然存在的因子，结合使用可接受的低浓度(例如，5-25mM)缓冲液。合适的缓冲液包括HEPES、磷酸盐缓冲液、乳酸缓冲液等。该细胞可以立即使用，也可以储存、冷冻较长的一段时间，解冻并能够重复使用。在这样的情况下，通常将细胞冷冻在10％二甲亚砜(DMSO)、50％血清、40％缓冲介质或如通常用于本领域中在这样的冷冻温度下保存细胞的一些其他这样的溶液中冷冻，并且以如本领域中通常已知用于解冻被冷冻的培养的细胞的方式解冻。

用途

根据本公开内容的用于调节转录的方法可用于各种应用，也提供了这些应用。应用包括研究应用；诊断应用；工业应用；以及治疗应用。

研究应用包括例如确定靶核酸的减少的或增加的转录对例如下游基因的发展、代谢、表达等的影响。可以使用转录调节方法进行高通量基因组分析，其中仅需要改变向导RNA的间隔区，而蛋白质结合区段和转录终止区段可以(在某些情况下)保持不变。基因组分析中使用的包含多种核酸的文库将包括：可操作地连接至编码向导RNA的核苷酸序列的启动子，其中每个核酸将包括共同的蛋白质结合区段、不同的间隔区和共同的转录终止区段。芯片可以包含超过5×10⁴个独特的向导RNA。应用将包括大规模表型分析、基因对功能映射以及宏基因组分析。

本文公开的方法可用于代谢工程领域。因为转录水平可以通过如本文所公开的设计合适的向导RNA来有效地和可预测地控制，所以代谢途径(例如，生物合成途径)的活性可以通过控制感兴趣的代谢途径内的特定酶的水平(例如，通过增加的或减少的转录)来精确地控制和调节。感兴趣的代谢途径包括用于化学品(精细化学品、燃料、抗生素、毒素、激动剂、拮抗剂等)和/或药物生产的代谢途径。

感兴趣的生物合成途径包括但不限于(1)甲羟戊酸途径(例如，HMG-辅酶A还原酶途径)(将乙酰基-辅酶A转化为二甲烯丙基焦磷酸(DMAPP)和异戊烯基焦磷酸(IPP)，该物质用于包括萜类/类异戊二烯在内的多种生物分子的生物合成)，(2)非甲羟戊酸途径(例如，“2-C-甲基-D-赤藓糖醇4-磷酸酯/1-脱氧-D-木酮糖5-磷酸酯途径”或“MEP/DOXP途径”或“DXP途径”)(还替代地通过经过甲羟戊酸途径的替代途径将丙酮酸酯和甘油醛3-磷酸酯转化成DMAPP和IPP来产生DMAPP和IPP)，(3)聚酮化合物合成途径(通过各种聚酮化合物合成酶产生各种聚酮化合物)。聚酮化合物包括用于化疗的天然存在的小分子(例如，四环素和大环内酯)，和工业上重要的聚酮化合物包括雷帕霉素(rapamycin)(免疫抑制剂)、红霉素(erythromycin)(抗生素)、洛伐他汀(lovastatin)(抗胆固醇药物)，和埃博霉素B(epothilone B)(抗癌药物))，(4)脂肪酸合成途径，(5)DAHP(3-脱氧-D-阿拉伯-庚酮糖酸7-磷酸)合成途径，和(6)产生潜在生物燃料(例如，短链醇和烷烃、脂肪酸甲酯和脂肪醇、类异戊二烯等)的途径等。

网络和级联

本文公开的方法可用于设计控制的整合网络(例如，一个或多个级联)。例如，向导RNA和M-SmallCas9多肽或其变体可以用于控制(例如，调节，例如增加、减少)另一种靶向DNA的RNA或另一种M-SmallCas9多肽或其变体的表达。例如，第一向导RNA可以被设计成靶向具有不同于第一M-SmallCas9多肽或其变体的功能(例如，甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和去乙酰基酶活性等)的第二融合dM-SmallCas9多肽的转录调节。在一些实施方案中，可以选择第二融合dM-SmallCas9多肽，使得其不与第一向导RNA相互作用。在一些实施方案中，可以选择第二融合dM-SmallCas9多肽，使得其与第一向导RNA相互作用。在一些这样的情况下，两个(或更多个)dM-SmallCas9蛋白的活性可以竞争(例如，如果多肽具有相反的活性)或可以协同(例如，多肽具有相似或协同的活性)。同样，如上所述，网络中的任何复合物(例如，向导RNA/dM-SmallCas9多肽)都可以被设计为控制其他向导RNA或dM-SmallCas9多肽。因为向导RNA和M-SmallCas9多肽或其变体可以靶向任何所需的DNA序列，所以本文描述的方法可以用于控制和调节任何所需的靶标的表达。可以设计的整合网络(例如，相互作用级联)在非常简单至到非常复杂的范围内，并且没有限制。

在一个网络中，在其中两个或更多个组分(例如，向导RNA和dM-SmallCas9多肽)各自均处于另一个向导RNA/dM-SmallCas9多肽复合物的调节控制之下，网络的一个组分的表达水平可以影响网络的另一个组份的表达水平(例如，可增加或减少表达)。通过这种机制，一个组分的表达可以影响相同网络中不同组分的表达，并且网络可包括增加其他组分表达的组分以及减少其他组分表达的组分的混合物。如本领域技术人员所容易地理解，一个组分的表达水平可以影响一个或多个不同组分表达水平的上述实例是为了说明的目的，而不是限制性的。当一个或多个组分被修饰(如上所述)为可操纵时(例如，在实验控制下，例如温度控制；药物控制，例如药物可诱导的控制；光控制等)，可任选地将另一个复杂的层引入至网络中。

作为一个非限制性实例，第一向导RNA可以与第二向导RNA的启动子结合，该启动子控制靶治疗/代谢基因的表达。在这样的情况下，第一向导RNA的条件表达间接激活了治疗/代谢基因。这样的类型的RNA级联例如可用于简单地将阻遏物转化成激活物，并可用于控制靶基因表达的逻辑或动力学。

转录调节方法也可用于药物发现和靶标确认。

治疗疾病或病症的方法

在本公开内容的一些方面中，向导RNA和/或M-SmallCas9多肽或其变体和/或供体多核苷酸用于在体内修饰细胞DNA，用于如基因治疗的目的，例如用于治疗疾病或作为抗病毒、抗病原体或抗癌治疗剂，用于在农业中产生遗传修饰的生物，或用于生物研究。在这些体内实施方案中，CRISPR/M-SmallCas9系统的组分包括(i)向导RNA或编码gRNA的核酸；(ii)包含编码M-SmallCas9多肽或其变体的密码子优化的多核苷酸序列的核酸，或由该核酸表达的M-SmallCas9多肽或其变体；和/或(iii)向个体施用的供体多核苷酸。施用可以通过本领域中任何已知的方法，用于向受试者施用肽、小分子和核酸。CRISPR/M-SmallCas9系统组分可被纳入多种制剂中。更具体地，本公开内容的CRISPR/M-SmallCas9系统组分可以通过与适当的药学上可接受的载体或稀释剂组合而配制成药物组合物。

在一些实施方案中，本文提供了包含CRISPR/M-SmallCas9系统的组分的药物制剂或组合物，其包括(i)向导RNA或编码gRNA的核酸；(ii)包含编码M-SmallCas9多肽或其变体的密码子优化的多核苷酸序列的核酸，或由该核酸表达的M-SmallCas9多肽或其变体；和/或(iii)存在于药学上可接受的载体中的供体多核苷酸。“药学上可接受的载体”可以是由联邦或州政府监管机构批准的，或在美国药典(US Pharmacopeia)或其他公认药典中列出的用于哺乳动物(例如，人)的载体。术语“媒介物”是指稀释剂、佐剂、赋形剂或载体，本公开内容的化合物与其配制以施用于哺乳动物。这样的药物载体可以是脂质，例如脂质体，例如脂质体树枝状聚合物(liposome dendrimers)；液体，如水和油，包括石油、动物、植物或合成来源的那些，如花生油、大豆油、矿物油、芝麻油等，盐水；阿拉伯树胶、明胶、淀粉糊、滑石、角蛋白、胶体二氧化硅、尿素等。此外，还可以使用辅助剂、稳定剂、增稠剂、润滑剂和着色剂。药物组合物可以配制成固体、半固体、液体或气体形式的制剂，如片剂、胶囊、粉末、颗粒剂、软膏剂、溶液、栓剂、注射剂、吸入剂、凝胶、微球和气雾剂。因此，CRISPR/M-SmallCas9系统组分的施用可以通过多种方式实现，包括经口、口腔、直肠、肠胃外、腹膜内、皮内、透皮、气管内、眼内等施用。活性剂在施用后可以是全身性的，或者可以通过使用区域施用、体内施用或使用植入物将活性剂量保留在植入部位而是局部的。活性剂可以配制用于立即起效的制剂，也可以配制用于持续释放的制剂。

对于某些病症，具体是中枢神经系统病症，可能有必要配制药物以穿过血脑屏障(BBB)。通过血脑屏障(BBB)进行药物递送的一个策略是通过渗透手段(例如，甘露醇或白三烯)，或通过使用血管活性物质(例如，缓激肽)生物化学破坏BBB。使用BBB开放靶向脑肿瘤特效药的潜力也是一种选择。当组合物通过血管内注射施用时，BBB破坏剂可以与本公开内容的治疗组合物共同施用。穿过BBB的其他策略可能需要使用内源性转运系统，包括小窝蛋白-1介导的转胞吞作用、载体介导的转运蛋白(例如，葡萄糖和氨基酸载体)、用于胰岛素或转铁蛋白的受体介导的转胞吞作用，以及主动流出转运蛋白(active effluxtransporter)(例如，p-糖蛋白)。还可将主动转运部分缀合至用于本发明中的治疗化合物，以促进转运穿过血管内皮壁。附加地或替代地，治疗剂在血脑屏障后的药物递送可以通过局部递送，例如通过鞘内递送，例如通过Ommaya囊(参见，例如美国专利号5,222,982和5385582，所述专利以引用的方式纳入本说明书)；通过推注，例如通过弹丸式注射，例如玻璃体内或颅内；通过连续输注，例如通过套管插入术，例如通过对流(参见，例如美国申请号20070254842，所述专利以引用的方式纳入本说明书)；或者通过植入在其上已经可逆地固定药剂的装置(参见，例如美国申请号20080081064和20090196903，所述专利以引用的方式纳入本说明书)。

通常，CRISPR/M-SmallCas9系统的有效量的组分包括(i)向导RNA或编码gRNA的核酸；(ii)包含编码M-SmallCas9多肽或其变体的密码子优化的多核苷酸序列的核酸，或由该核酸表达的M-SmallCas9多肽或其变体；和/或(iii)提供供体多核苷酸。如以上关于离体方法所讨论的，CRISPR/M-SmallCas9系统组分的体内有效量或有效剂量是相对于阴性对照(例如，与空载体或无关多肽接触的细胞)，诱导在两个同源序列之间观察到的重组量增加2倍或更多倍的量。重组的量可以通过任何合适的方法来测量，例如如上所述和本领域已知的方法。待施用的CRISPR/M-SmallCas9系统组分的有效量或有效剂量的计算在本领域普通技术人员的技术范围内，并且对于本领域技术人员将是常规的。待施用的最终量将取决于施用途径和待治疗的疾病或病症的性质。

给予具体受试者的有效量将取决于多种因素，其中一些因素因受试者而异。有能力的临床医生将能够确定向受试者施用的治疗剂的有效量，以根据需要中止或逆转疾病病症的进展。利用LD50动物数据和制剂可用的其他信息，临床医生可以根据施用途径确定个体的最大安全剂量。例如，考虑到治疗组合物被施用到更大量的体液中，静脉内施用的剂量可以大于鞘内施用的剂量。类似地，快速从体内清除的组合物可以以更高剂量或以重复剂量施用，以维持治疗浓度。利用普通技术，有能力的临床医生将能够在常规临床试验过程中优化具体治疗剂的剂量。

为了包含在药物中，CRISPR/M-SmallCas9系统组分可以从合适的商业来源获得。作为一般建议，每次剂量的肠胃外施用的CRISPR/M-SmallCas9系统组分的总药学有效量将在可通过剂量反应曲线测量的范围内。

基于CRISPR/M-SmallCas9系统组分的疗法，例如包含以下的制剂：(i)向导RNA或编码gRNA的核酸；(ii)包含编码M-SmallCas9多肽或其变体的密码子优化的多核苷酸序列的核酸，或由该核酸表达的M-SmallCas9多肽或其变体；和/或(iii)供体多核苷酸，用于治疗施用，必须是无菌的。通过过滤穿过无菌过滤膜(例如，0.2微米的滤膜)很容易地实现无菌性。治疗组合物通常放置在具有无菌进入端口的容器中，例如，具有通过皮下注射针可刺穿的塞子的静脉内溶液袋或小瓶。基于CRISPR/M-SmallCas9系统组分的治疗剂可呈水溶液形式或呈用于重构的冻干制剂形式储藏在单位剂量或多剂量容器中，例如密封的安瓿或小瓶。作为冻干制剂的一个实例，用5ml无菌过滤的1％(w/v)化合物水溶液填充10ml小瓶，并且将所得混合物冻干。通过使用抑菌注射用水重构冻干化合物来制备输液剂。

根据所需的制剂，药物组合物可以包括药学上可接受的非毒性稀释剂载体，该稀释剂载体被定义为通常用于配制用于动物或人施用的药物组合物的载体。选择稀释剂以便不影响组合的生物活性。这样的稀释剂的实例是蒸馏水、缓冲水、生理盐水、PBS、林格氏溶液、葡萄糖溶液和汉克溶液。此外，药物组合物或制剂可以包括其他载体、佐剂或非毒性、非治疗性、非免疫原性稳定剂、赋形剂等。组合物还可以包括接近生理条件的额外物质，例如pH调节剂和缓冲剂、毒性调节剂、润湿剂和去污剂。

该组合物还可以包括各种稳定剂中的任何一种，例如抗氧化剂。当药物组合物包括多肽时，多肽可以与增强多肽的体内稳定性或以其他方式增强其药理学性质(例如，增加多肽的半衰期，降低其毒性，增强溶解度或摄取)的多种熟知的化合物复合。这样的修饰物或复合剂的实例包括硫酸盐、葡糖酸盐、柠檬酸盐和磷酸盐。组合物的核酸或多肽还可以与增强其体内属性的分子复合。这样的分子包括例如碳水化合物、多胺、氨基酸、其他肽、离子(例如，钠、钾、钙、镁、锰)和脂质。

关于适用于各种类型施用的制剂的进一步指导可见于：Remington'sPharmaceutical Sciences,Mace Publishing Company,Philadelphia,Pa.,20th ed.(2003)和1999年出版的The United States Pharmacopeia:The National Formulary(USP24NF19)。关于用于药物递送方法的简要综述参见Langer,Science 249:1527-1533(1990)。

可施用的药物组合物可用于预防性和/或治疗性治疗。活性成分的毒性和治疗功效可以根据细胞培养物和/或实验动物中的标准药物工序来确定，包括例如确定LD50(50％群体致死剂量)和ED50(50％群体有效治疗剂量)。毒性和治疗效果之间的剂量比是治疗指数，并且可以表示为LD50/ED50比。表现出高治疗指数的治疗剂通常是优选的。

从细胞培养和/或动物研究中获得的数据可用于配制一系列用于人的剂量范围。活性成分的剂量通常在包括具有低毒性的ED50的循环浓度范围内。剂量可取决于所采用的剂型和所使用的施用途径在这个范围内变化。用于配制药物组合物的组分通常具有高纯度并且基本上不含潜在有害污染物(例如，至少为国家食品(NF)级，通常至少是分析级，更通常至少是药物级)。此外，意图用于体内使用的组合物通常是无菌的。为了达到在使用之前必须合成给定的化合物的程度，所得产物通常基本上不含任何潜在的毒性试剂，具体是在合成或纯化过程期间可能存在的任何内毒素。用于肠胃外施用的组合物也是无菌的、基本上等渗的并且在GMP条件下制备。

给予具体受试者的治疗组合物的有效量将取决于多种因素，其中一些因素因受试者而异。有能力的临床医生将能够确定向受试者施用的治疗剂的有效量，以根据需要中止或逆转疾病病症的进展。利用LD50动物数据和制剂可用的其他信息，临床医生可以根据施用途径确定个体的最大安全剂量。例如，考虑到治疗组合物被施用到更大量的体液中，静脉内施用的剂量可以大于鞘内施用的剂量。类似地，快速从体内清除的组合物可以以更高剂量或以重复剂量施用，以维持治疗浓度。利用普通技术，有能力的临床医生将能够在常规临床试验过程中优化具体治疗药物的剂量。

受试者接受治疗的次数可以变化。将遗传修饰的细胞引入至受试者内可能是一次性事件；但在某些情况下，这样的治疗可能会在有限的时间段内带来改善，并需要一系列持续的重复治疗。在某些情况下，在观察到效果之前，可能需要多次施用遗传修饰的细胞。确切的方案取决于疾病或病症、疾病的阶段和接受治疗的个体受试者的参数。

等同物

所有技术特征可以在这样的特征的所有可能组合中单独组合。

在不偏离本发明的精神或基本特征的情况下，本发明可以以其他具体形式来体现。因此，上述实施方案在所有方面都被认为是说明性的，而不是对本文所述的本发明的限制。

实施例

以下非限制性实例进一步说明本文所述的本发明的实施方案。

实施例1：

M-SmallCas9多肽的活性

细胞培养

HEK 293T细胞(CRL-3216^TM)在含有10％ FBS和1％Pen/Strep的DMEM中培养。细胞在T75烧瓶中培养，并且每两到三天分裂(splitted)一次。

转染

转染前一天，将细胞以12,000个细胞/孔的密度接种在聚-D-赖氨酸包被的96孔板(聚-D-赖氨酸Greiner)中。第二天更换培养基，并根据制造商的说明，使用LipoD293^TM体外DNA转染试剂(SignaGen)，用140ng Cas9质粒和60ng gRNA质粒转染细胞。次日更换转染混合物并更换为标准培养基。转染三天后，收获细胞用于下游DNA提取。

粗DNA提取和扩增

将收获的细胞重悬于100ul PBS中，并将60ul转移到新的96孔板中并沉淀。随后，去除上清液，并向每个孔添加60μl 10mM Tris(pH7.0，含有0.05％ SDS，补充有25μg/ml蛋白酶K(Thermo Scientific))，并充分混合。将粗DNA样品在37℃下孵育1小时，并在80℃下加热30分钟。将2.5μl粗DNA与1.25μl 10uM带条形码的正向和反向引物以及12.5ul Q5高保真2x主混合物(NEB)和7.5ul水混合。对于扩增，所有扩增子均使用以下设置：初始变性(98℃下，30秒)、扩增30个循环(98℃下，10秒；66℃下，30秒和72℃下，30秒)和最终延伸(72℃下，2分钟)。引物通过在5’末端添加五个额外的核苷酸进行条形码编码。随后，根据制造商的说明，使用1:1比例的SPRI珠将所有PCR反应合并并纯化。

文库制备和下一代测序

使用2ug带条形码的和纯化的扩增子作为文库制备的输入。对扩增子池进行末端修复和加dA尾(NEBNext Ultra II修复/加dA尾模块，NEB)，然后进行Illumina条形码连接(Blunt/TA连接酶主混合物，NEB)。通过凝胶电泳(E-gel EX 2％，ThermoFisher)检查正确的扩增子尺寸。使用dsDNA HS试剂盒(ThermoFisher)在Qubit(ThermoFisher)上测量文库的浓度。使用MiSeq 300PE v2化学(Illumina)将添加5％ PhiX的8pM文库用作下一代测序的输入。

NGS分析

使用cutadapt版本1.18(http://dx.doi.org/10.14806/ej.17.1.200)对原始fastq读长(read)进行了质量修整，最低质量分数为Q30。使用fastq-join版本1.3.1(doi:10.2174/187500362031307010001)连接过滤后的读长，并使用Nat Commun.2021年7月9日；12(1):4219.doi:10.1038/s41467-021-24454-5,补充材料，节标题：“Ampliconsequencing(AmpSeq)for on-and off-target analysis and NGS analysis”中描述的定制测序文库拆分(demultiplexing)脚本进行测序文库拆分。随后用CRISPResso v 1.0.13(doi:10.1038/nbt.3583)分析已被测序文库拆分的fastq文件。

表5中列出了8个PAM序列与基于“NNGG”PAM的引导序列的组合所确定的根据本发明的各种Cas效应物与现有技术的效应物(扩增子测序中的活性)的比较结果。

表5

表6中列出了8个PAM序列与基于“NNGRRT”PAM的引导序列的组合所确定的根据本发明的各种Cas效应物与现有技术的效应物(扩增子测序中的活性)的比较结果。

表6

Claims

1.一种多肽，其选自：

SEQ ID NO:1，SEQ ID NO:2，SEQ ID NO:3，SEQ ID NO:4，SEQ ID NO:5，

或与上述任何多肽具有至少95％同一性的任何多肽序列，条件是与来自金黄色葡萄球菌(Staphylococcus aureus)的Cas9序列(NCBI RefSeq ID J7RUA5.1)相比，所述多肽包括以下氨基酸置换，而所述金黄色葡萄球菌Cas9中位置前面的氨基酸表征了所述多肽中必须存在的氨基酸；

SEQ ID NO:1的I1017K、P1013E、R991M

SEQ ID NO:2的I1017K、P1013E、R991M、L989R

SEQ ID NO:3的I1017K、P1013E、R991M、L989R、R1012G、D1010I、L1005C

SEQ ID NO:4的I1017K、P1013E、R991M、L989R、N986S、L988T

SEQ ID NO:5的I1017K、P1013E、R991M、L989R、R1012G、D1010I、L1005C、N986S、L988T。

2.一种多肽，其选自：SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4和SEQ IDNO:5。

3.一种多肽，其选自：SEQ ID NO:3、SEQ ID NO:4和SEQ ID NO:5。

4.根据SEQ ID NO:5所述的多肽。

5.一种组合物，其包含

(I)根据权利要求1至4中任一项所述的多肽；以及

(II)一种或多种单异源向导RNA(sgRNA)或允许原位产生这样的一种或多种sgRNA的DNA，每种sgRNA或编码所述sgRNA的DNA包含：

(d)能够与多核苷酸基因座中的靶序列杂交的工程化的DNA靶向区段，

(e)tracr伴侣序列，以及

(f)tracr RNA序列，

其中所述tracr伴侣序列能够与所述tracr序列杂交，并且其中(a)、(b)和(c)以5’至3’的方向排列。

6.根据权利要求5所述的组合物，其中所述工程化的DNA靶向区段在其3'末端与PAM序列直接相邻，或者这样的PAM序列在其3’部分是DNA靶向序列的一部分。

7.在细胞中或体外的一个或多个位置靶向、编辑、修饰或操纵靶DNA的方法，所述方法包括

(I)将根据权利要求1至4中任一项所述的异源多肽或编码这样的多肽的核酸引入至细胞或体外环境中；以及

(II)将一种或多种单异源向导RNA(sgRNA)或编码这样的一种或多种sgRNA的DNA引入至细胞或体外环境中，每种sgRNA或编码所述sgRNA的DNA包含：

(d)包含RNA并能够与多核苷酸基因座中的靶序列杂交的工程化的DNA靶向区段，

(e)由RNA组成的tracr伴侣序列，以及

(f)由RNA组成的tracr RNA序列，

其中所述tracr伴侣序列能够与所述tracr序列杂交，并且其中(a)、(b)和(b)以5’至3’的方向排列；以及

(III)在靶DNA中产生一个或多个切口或缺口或碱基编辑，其中所述多肽通过所述sgRNA以其加工或未加工的形式被引导至靶DNA。

8.组合物用于在细胞中或体外的一个或多个位置靶向、编辑、修饰或操纵靶DNA的用途，所述组合物包含

(I)根据权利要求1至4中任一项所述的多肽或编码所述多肽的核酸；和/或

(d)由RNA组成并能够与多核苷酸基因座中的这样的靶序列杂交的工程化的DNA靶向区段，

(e)由RNA组成的tracr伴侣序列，以及

(f)由RNA组成的tracr RNA序列，

其中所述tracr伴侣序列与所述tracr序列杂交，并且其中(a)、(b)和(c)以5’至3’的方向排列。

9.一种细胞，其包含

(I)根据权利要求1至4中任一项所述的多肽，或编码这样的多肽的核酸；以及

(e)tracr伴侣序列，以及

(f)tracr RNA序列，

10.一种试剂盒，其包含

(I)编码根据权利要求1至4中任一项所述的多肽的核酸序列，其中编码所述多肽的核酸序列可操作地连接至启动子；以及

(e)tracr伴侣序列，以及

(f)tracr RNA序列，