CN107922942A

CN107922942A - 三组分crispr/cas复合系统及其用途

Info

Publication number: CN107922942A
Application number: CN201680027107.2A
Authority: CN
Inventors: 王皓毅; A·程; N·吉勒特
Original assignee: Jackson Laboratory
Current assignee: Jackson Laboratory
Priority date: 2015-03-13
Filing date: 2016-03-09
Publication date: 2018-04-17
Anticipated expiration: 2036-03-09
Also published as: JP6588995B2; CN107922942B; IL276894A; KR102004076B1; CA2979567A1; KR20170124601A; IL276894B; US11434484B2; WO2016148994A1; EP3268472A1; US20180094257A1; IL276894B2; EP3268472B1; AU2016233648B2; CA2979567C; AU2020200256B2; HK1249545A1; HK1254126A1; AU2016233648A1; JP2019176877A

Abstract

本文描述的本发明提供了用于在靶DNA的特定位置处组装三元复合物的组合物和试剂。本发明还提供了使用所述复合物以例如标记特定基因组座、调节靶基因的表达或创建基因调控网络的方法。

Description

三组分CRISPR/CAS复合系统及其用途

相关申请的引用

本申请是一项国际专利申请，其要求于2015年3月13日提交的美国临时申请号62/132,644和于2015年9月21日提交的美国临时申请号62/221,249的优先权，这两个申请的全部内容通过引用整体并入本文。

背景技术

在CRISPR/Cas系统中，Cas9蛋白和sgRNA(单一指导RNA)构成了充分的双组分DNA核酸内切酶，其特异性由sgRNA上的靶匹配序列提供，而核酸内切酶活性位于Cas9蛋白。

在其核酸酶结构域上具有突变的核酸酶缺陷型或核酸酶缺乏型Cas9蛋白(例如dCas9)当与sgRNA复合时保留DNA结合活性。dCas9蛋白可以通过蛋白融合而将效应子结构域或蛋白质标签连接并定位到由sgRNA匹配的位点，从而构成RNA指导的DNA结合酶。dCas9可以融合到转录激活结构域(例如VP64)或抑制子结构域(例如KRAB)，并由sgRNA指导以分别激活或抑制靶基因。dCas9也可与荧光蛋白融合并实现染色体区域的活细胞荧光标记。然而，在这样的系统中，只有一种Cas9-效应子融合是可能的，因为sgRNA:Cas9配对是排他性的。此外，在必须有多个拷贝的蛋白质标签或效应子融合物以实现一些生物阈值或信号检测阈值的情况下，效应子或蛋白质标签通过与dCas9蛋白直接融合而多聚化在技术上受到例如以下约束的限制：难以递送编码这样的融合物的大DNA，或由于蛋白质大小而难以翻译这样的大蛋白或将这样的大蛋白转位到核中。

发明内容

通过提供包含Cas9蛋白(例如野生型(wt)Cas9，Cas9切口酶或dCas9蛋白)，作为本发明的多核苷酸的修饰sgRNA(例如，“sgRNA-PBS”)，和PUF结构域与效应子结构域或蛋白质标签的一个或多个融合蛋白(“PUF结构域融合物”)的三组分CRISPR/Cas复合物/系统，本文所述的本发明能够实现效应子或蛋白质标签的多重性(multiplexity)和聚合。可以通过在sgRNA茎环的下游或靶匹配区的上游插入多个拷贝的短PUF(例如，8聚体)识别序列而获得sgRNA-PBS。每个PUF结构域-效应子融合物的PUF结构域可以被编程以识别本发明的多核苷酸上的8聚体识别序列，从而将融合到PUF结构域的一个或多个效应子结构域带到由靶匹配sgRNA识别的靶DNA的特定区域。

本发明的三组分CRISPR/Cas复合物/系统在多重性方面是有利的，因为可以将不同的三组分CRISPR/Cas复合物/系统同时递送到细胞或动物中，并且每一种可以在限定的靶位点处具有正交性地操作(即，不干扰其它三组分CRISPR/Cas复合物/系统及其靶位点)。因为PUF结构域可以被容易地编程以识别任何8聚体RNA识别序列，所以当RNA识别序列仅为8聚体时，该系统将多重性扩展到4⁸(65536)的理论最大值(并且当RNA识别序列更长时可能更多)。

本发明的三组分CRISPR/Cas复合物/系统在聚合性方面也是有利的：线性8-聚体序列的简单性允许广泛的聚合而不阻碍Cas9:sgRNA DNA结合活性。此特征允许多个分子的PUF融合物组装在修饰的sgRNA上，从而允许效应子或蛋白质标签的局部集中。此特征在诸如荧光成像或转录调节的应用中是特别有益的，其中邻近协同作用允许最大的有效调节或信噪比。

本发明的另一个优点涉及化学计量的复合物形成。可以将不同的8聚体序列有序地插入到sgRNA-PBS构建体上，以允许以限定的化学计量和PUF融合物在sgRNA-PBS上的顺序形成复合物。

因此，本发明的一个方面提供了多核苷酸，其包含：(1)与靶多核苷酸序列互补的DNA靶向序列；(2)Cas9结合序列；和(3)一个或多个拷贝的PUF结构域结合序列(PBS)，其中所述一个或多个拷贝的PBS中的每一个结合相同或不同的PUF结构域；其中Cas9蛋白(例如，野生型(wt)Cas9、Cas9切口酶或dCas9蛋白)能够通过结合所述Cas9结合序列而与所述多核苷酸形成复合物。

如本文所用的“Cas9蛋白”包括野生型Cas9蛋白、Cas9切口酶(其中用于核酸内切酶活性的两个催化位点(RuvC和HNH)中的一个有缺陷或缺乏活性)和dCas9蛋白(其中用于核酸内切酶活性的催化位点二者均有缺陷或缺乏活性)。在某些实施方式中，Cas9蛋白是野生型Cas9。在某些实施方式中，Cas9蛋白缺乏核酸酶活性或是核酸酶不足的。在某些实施方式中，Cas9蛋白是切口酶(例如，切口酶可以是在对应于化脓性链球菌Cas9的D10A的位置处具有突变的Cas9切口酶；或切口酶可以是在对应于化脓性链球菌Cas9的H840A的位置处具有突变的Cas9切口酶)。在某些实施方式中，Cas9蛋白是dCas9(例如，在对应于化脓性链球菌Cas9的D10A和H840A的位置处具有突变的dCas9)。在某些实施方式中，Cas9蛋白不是野生型Cas9。在某些实施方式中，Cas9蛋白不是切口酶。在某些实施方式中，Cas9蛋白不是dCas9。

在某些实施方式中，“修饰的Cas9蛋白”是指不是野生型Cas9蛋白的Cas9，例如dCas9或Cas9切口酶。

在某些实施方式中，dCas9蛋白是核酸酶不足的，但在与多核苷酸复合时保留DNA结合能力。

在某些实施方式中，当Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)与多核苷酸复合时，DNA靶向序列与靶多核苷酸序列碱基配对。

在某些实施方式中，靶多核苷酸序列包含或邻近转录调控元件。例如，转录调控元件可以包含以下中的一种或多种：核心启动子、近端启动子元件、增强子、沉默子、隔离子和基因座控制区。

在某些实施方式中，靶多核苷酸序列包含或邻近端粒序列、着丝粒或重复基因组序列。

在某些实施方式中，靶多核苷酸序列包含或邻近基因组标志物序列(或感兴趣的基因组座)。

在某些实施方式中，靶多核苷酸序列对于可以是5'-CCN-3'的互补链的PAM(原型间隔子邻近基序)序列靠近地是3’，其中N是任何DNA核苷酸。

在某些实施方式中，DNA靶向序列在约12-22个核苷酸(nt)、约14-20nt、约16-20nt、约18-20nt或约12、14、16、18或20nt上与靶多核苷酸序列互补(优选地，互补区包含12-22nt的连续段，优选在DNA结合序列的3'末端处)。例如，DNA结合序列可以与靶多核苷酸序列50、60、70、80、90或95-100％互补。

在某些实施方式中，DNA结合序列具有5'末端核苷酸G。

在某些实施方式中，多核苷酸还包含连接DNA靶向序列与Cas9结合序列的接头序列。

在某些实施方式中，Cas9结合序列形成发夹结构。

在某些实施方式中，Cas9结合序列为约37-47nt，或约42nt。

在某些实施方式中，Cas9切口酶蛋白由于在野生型Cas9的一个核酸内切酶催化位点(RuvC和HNH)处的点突变而缺乏核酸内切酶活性。点突变可以是D10A或H840A。

在某些实施方式中，dCas9蛋白由于在野生型Cas9的核酸内切酶催化位点(RuvC和HNH)二者处的点突变而缺乏核酸内切酶活性。点突变可以是D10A和H840A。

在某些实施方式中，一个或多个拷贝的PBS中的每一个具有约8个核苷酸。

在某些实施方式中，多核苷酸包含1、2、3、4、5、10、15、20、25、30、35、40、45、46、47、48、49或50个拷贝，或1-50、2-45、3-40、5-35、5-10、10-20个拷贝的相同或不同的PBS。

在某些实施方式中，多核苷酸包含可由PUF结构域PUF(3-2)结合的5'-UGUAUGUA-3'序列的PBS。

在某些实施方式中，多核苷酸包含可由PUF结构域PUF(6-2/7-2)结合的5'-UUGAUAUA-3'序列的PBS。

本发明的另一方面提供了编码本发明的多核苷酸中的任一种的载体。

在某些实施方式中，多核苷酸的转录受到组成型启动子或诱导型启动子的控制。

在某些实施方式中，载体在来自哺乳动物(人；非人灵长类动物；非人哺乳动物；啮齿动物如小鼠、大鼠、仓鼠、豚鼠；牲畜哺乳动物如猪、绵羊、山羊、马、骆驼、牛；或宠物哺乳动物如猫或狗)；鸟、鱼、昆虫、蠕虫、酵母或细菌的细胞中是有活性的。

在一个相关方面中，本发明提供了多个本发明的载体中的任一种，其中载体中的两个在所编码的多核苷酸的以下方面存在不同：其各自的DNA靶向序列、Cas9结合序列、和/或PBS的拷贝数、同一性或相对顺序。

本发明的另一个方面提供了包含本发明的多核苷酸中的任一种和Cas9蛋白(例如野生型、切口酶或dCas9蛋白)的复合物。

在某些实施方式中，复合物还包含与所述一个或多个PBS结合的一个或多个PUF结构域。

在某些实施方式中，PUF结构域中的每一个被融合到效应子结构域。

在某些实施方式中，效应子结构域独立地是转录抑制子、转录激活子、荧光蛋白、酶或染色质重塑蛋白(HDAC/HAT)。

在某些实施方式中，PUF结构域中的至少两个被融合到不同的效应子结构域。

在某些实施方式中，Cas9蛋白(例如野生型、切口酶或dCas9蛋白)、PUF结构域和/或效应子结构域还包含核定位序列(NLS)。

在某些实施方式中，复合物通过DNA靶向序列与靶多核苷酸序列结合。

本发明的另一个方面提供了宿主细胞，其包含本发明的载体中的任一种，或多个本发明的载体。

在某些实施方式中，宿主细胞还包含编码Cas9蛋白(例如野生型、切口酶或dCas9蛋白)的第二载体。

在某些实施方式中，第二载体还编码融合到Cas9蛋白(例如野生型、切口酶或dCas9蛋白)的效应子结构域。

在某些实施方式中，Cas9蛋白(例如野生型、切口酶或dCas9蛋白)的表达受到组成型启动子或诱导型启动子的控制。

在某些实施方式中，宿主细胞还包含编码所述一个或多个PUF结构域的第三载体，每个所述PUF结构域融合到效应子结构域。

在某些实施方式中，一个或多个PUF结构域的表达独立地受到组成型启动子或诱导型启动子的控制。

在某些实施方式中，效应子结构域是转录抑制子、转录激活子、荧光蛋白、酶或染色质重塑蛋白(HDAC/HAT)。

在某些实施方式中，第二载体还编码融合到Cas9蛋白(例如野生型、切口酶或dCas9蛋白)或效应子结构域的核定位信号，和/或第三载体还编码融合到PUF结构域或效应子结构域的核定位信号。

在某些实施方式中，所述第二载体与所述载体相同，和/或其中所述第三载体与所述载体或所述第二载体相同。

在某些实施方式中，宿主细胞是在活的动物中。

在某些实施方式中，宿主细胞是培养的细胞。

本发明的另一方面提供了在靶多核苷酸序列处组装本发明的复合物的方法，所述方法包括使以下接触或接近靶多核苷酸序列：(1)本发明的多核苷酸中的任一种，或本发明的载体中的任一种，或本发明的多个载体；(2)Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)，或本发明的第二载体中的任一种；和(3)PUF结构域中的一个或多个，每个PUF结构域融合到效应子结构域，或本发明的第三载体中的任一种。

在某些实施方式中，复合体在细胞内组装，靶多核苷酸序列是细胞的基因组DNA的一部分，并且其中本发明的载体、本发明的第二载体和本发明的第三载体被引入细胞。

在某些实施方式中，靶多核苷酸序列位于或接近异染色质中富含的基因组座，并且其中效应子结构域是可检测标志物(例如荧光蛋白)。

在某些实施方式中，靶多核苷酸序列位于或接近靶基因的转录调控元件，并且其中效应子结构域是转录调节子(例如激活子、抑制子)。

在某些实施方式中，靶基因的转录影响细胞命运决定、细胞分化、代谢通量或者生物学或生化学上可决定的结果。

本发明的另一个方面提供了调节细胞中的多个靶基因的转录的方法，所述方法包括：将本发明的多个载体、Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)的编码序列和一个或多个PUF结构域融合物的编码序列引入细胞，其中每个所述靶基因包含靶多核苷酸序列，其允许(1)在靶多核苷酸序列处，从由所述多个载体中的一个编码的多核苷酸、Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)和PUF结构域组装三元复合物；和(2)调节包含靶多核苷酸序列的靶基因的转录。在某些实施方式中，Cas9蛋白是dCas9蛋白。

在某些实施方式中，增强/刺激至少一种靶基因的转录，同时抑制至少另外的靶基因的转录。

在一个相关方面中，本发明还提供了在细胞中的多个靶基因处调节表观遗传(例如，调节与转录活性不直接相关的染色质的表观遗传状态)的方法，所述方法包括：将本发明的多个载体、野生型Cas9蛋白或Cas9切口酶的编码序列，和一个或多个PUF结构域融合物的编码序列引入细胞，其中靶基因中的每一个包含靶多核苷酸序列，其允许(1)在靶多核苷酸序列处，从由多个载体中的一个编码的多核苷酸、野生型/切口酶Cas9蛋白，和PUF结构域融合物组装三元复合物；和(2)调节包含靶多核苷酸序列的靶基因的表观遗传。该方法可用于例如改变表观遗传状态(例如，打开染色质)，同时获得Cas9结合到关闭的染色质位点的可及性/稳定性(例如，以增加在这些位点处的剪切和基因组编辑)。

本发明的另一方面提供一种试剂盒，其包含：(1)本发明的多核苷酸或本发明的载体；(2)编码Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)的本发明的第二载体；和(3)编码一个或多个PUF结构域的本发明的第三载体，每个PUF结构域融合到效应子结构域。

在某些实施方式中，试剂盒还包括转化、转染或感染试剂，以促进将所述载体引入细胞。

应当理解，本文描述的任何实施方式，包括仅在实施例部分中描述的或仅在本发明的一个方面下描述的那些，可以与任何一个或多个其它实施方式组合，除非被特别地放弃或在其它方面不适当。

附图说明

图1A-1D显示将PUF结构域结合序列(PBS)插入到sgRNA的3'末端基本上不影响dCas9/sgRNA功能，并且可以使用本发明的3组分CRISPR/Cas复合体/系统实现激活子的独立募集和多聚化。图1A是显示本发明的3组分CRISPR/Cas复合物/系统的示意图，其通过将常规双杂交dCas9融合设计拆分成三杂交系统而对其进行改进，其中sgRNA-PBS使dCas9/sgRNA的DNA结合活性与由PUF融合物提供的效应子功能桥接。中间图呈现了代表性的PUF结构域的结构，显示了C至N方向中的8个重复以及与5'至3'方向中的8聚体靶RNA的相应相互作用。PUF RNA识别码表显示了示例性的双残基和相应的识别的RNA碱基。在下图中，出于简化，采用符号表描述4个PUF同种型和相应的pumilio结合位点(PBS)及其序列。图1B的上图是用于在sgRNA的3'末端插入不同数量的PBS后，测试dCas9-VP64结合和激活tdTomato转基因的能力的实验示意图，例如用于测试sgRNA-PBS(具有0、5、15、25或47个PBS)对dCas9::VP64构建体激活TetO::tdTomato转基因的能力的影响的实验装置。下图是显示通过荧光激活细胞分选(FACS)测量的用图下方的图例中指出的不同构建体转染的细胞的tdTomato荧光(相对于dCas9-VP64/sgCtl-0×PBSa对照)的平均倍数变化(±S.E.M.)的柱形图。图例描述了在三个参数中使用的sgRNA：sgRNA匹配是指由sgRNA识别的DNA靶标；#PBS和PBS类型分别指示附加到sgRNA末端的PBS的数量和类型。在图1C中，上图是描述测试通过具有不同数量的附加PBS的本发明的激活子激活TetO::tdTomato转基因的实验示意图。下图是显示用图下方的图例中指出的不同构建体转染的细胞的tdTomato荧光(相对于对照dCas9/PUFb-VP64/sgCtl-0×PBSb)的倍数变化(±S.E.M.)的柱形图。图例描述了所使用的PUF同种型(PUF-VP64)和依据PBS的数量和类型所使用的sgRNA-PBS，以及由阴影箱表示的sgRNA所识别的DNA靶标。在图1D中，上图是说明测试本发明的激活子同种型在激活TetO::tdTomato转基因方面的独立性的实验的示意图。下图是显示用图下方的图例中指出的不同构建体转染的细胞的tdTomato荧光(相对于PUF/PBS同种型x的相应对照dCas9/PUFx-VP64/sgCtl-5×PBSx)的平均倍数变化(±S.E.M.)的柱形图。图例指出了所使用的PUF同种型(PUF-VP64)、PBS同种型(5×PBS；“-”表示无PBS的sgRNA)和由阴影盒表示的DNA靶标(sgRNA匹配)。所有曲线显示三次重复测量的结果。

图2A和2B涉及包含VP64和P65-HSF1的本发明的3组分CRISPR/Cas复合物/系统的组装。图2A是测试通过含有PBS32和PBS6272二者的sgRNA的募集而组装PUF(3-2)::VP64和PUF(6-2/7-2)::P65-HSF1的实验示意图。通过tdTomato荧光报道物活性测量活性。图2B是显示用具有4×[PBS32-PBS6272]异二聚体位点的非靶向(sg对照)和Tet靶向(sgTetO)sgRNA转染激活子蛋白而得的相对平均tdTomato荧光的柱形图。

图2C显示了使用VP64(PUFa::VP64；红色柱)对比p65HSF1(PUFa::p65HSF1；蓝色柱)作为激活结构域连同具有5×PBSa的对照sgRNA或具有0、1、5、15或25个拷贝的PBSa的TetO-靶向sgRNA的本发明的3组分系统激活子的比较。柱显示出tdTomato荧光相对于使用对照sgRNA(sgCt1)的实验的平均倍数变化(具有S.E.M.；n＝3)。图例表示sgRNA-PBS上的PBSa数量(#PBSa)以及由阴影盒表示的DNA匹配。

图3A-3D显示本发明的系统允许激活子的多聚化以实现稳健的内源性基因激活。图3A，上图：显示用于激活OCT4基因的sgRNA-PBS的相对匹配位置(笔画标记的1～4)的基因模型。下图：使用dCas9/PUFa-p65HSF1 3组分系统激活子模块或具有OCT4靶向sgRNA-5×PBSa或对照sgRNA-5×PBSa的指定混合物的dCas9-p65HSF1激活子激活OCT4表达的通过qRT-PCR测量(与对照样品相比)的平均倍数变化(具有95％C.I.)。图例中的阴影盒表示使用具有对照(Ctl)序列的单一sgRNA-5×PBSa、对应于基因模型中的编号笔画的单独的OCT4-靶向sgRNA-5×PBSa，或4种OCT4靶向sgRNA-5×PBSa的混合物。图3B，上图：显示用于激活SOX2基因的sgRNA-PBS的相对匹配位置(笔画标记的1～4)的基因模型。使用dCas9/PUFa-p65HSF1激活子或具有SOX2靶向sgRNA-5×PBSa或对照sgRNA-5×PBSa的指定混合物的dCas9-p65HSF1激活子激活SOX2表达的通过qRT-PCR测量(与Ctl样品相比)的平均倍数变化(具有95％C.I.)。图例中的阴影盒表示使用具有对照(Ctl)序列的单一sgRNA-5×PBSa、对应于基因模型中的编号笔画的单独的SOX2靶向sgRNA-5×PBSa，或4种SOX2靶向sgRNA-5×PBSa的混合物。图3C显示了采用指定的单一的具有1、5、15或25个拷贝的PBSa的OCT4靶向sgRNA-PBSa或其混合物的OCT4表达的平均倍数变化(具有95％C.I.)。图3D显示了采用指定的单一的具有1、5、15或25个拷贝的PBSa的SOX2靶向sgRNA-PBSa或其混合物的SOX2表达的平均倍数变化(具有95％C.I.)。

图4A和4B显示本发明的3组分CRISPR/Cas复合物/系统允许同时激活和抑制两种不同的靶报道基因。图4A是显示同时地用dCas9/sgTetO-PBS32/PUF(3-2)::VP64激活TetO::tdTomato转基因和用dCas9/sgSV40-PBS6272/KRAB::PUF(6-2/7-2)抑制SV40::EGFP转基因的实验的示意图。图4B是显示用表中所示构建体转染的样品的相对平均EGFP和tdTomato荧光的柱形图。

图4C和4D进一步证明了本发明的3组分CRISPR/Cas复合物/系统可以同时激活和抑制不同的基因。图4C，左图：说明分别通过PUFc-p65HSF1和KRAB-PUFa实现TetO::tdTomato和SV40::EGFP的同时激活和抑制的实验的示意图。右图：顶部柱形图显示了用中央图例中指示的构建体转染的细胞的tdTomato荧光的平均倍数变化(具有S.E.M.)；底部柱形图显示了用中央图例中指示的构建体转染的细胞的EGFP荧光的平均倍数变化(具有S.E.M.)。中央图例指示通过给PUFc-p65HSF1和KRAB-PUFa的转染加上阴影而包含，以及通过黑色阴影盒指示与sgRNA-PBSc和sgRNA-PBSa的Ct1、TetO或SV40P1的DNA匹配。图4D，左图：说明通过PUFb-p65HSF1和BFPKRAB-PUFa分别同时激活和抑制OCT4和SOX2的实验的示意图。右图：顶部柱形图显示了用中央图例中指示的构建体转染的细胞的OCT4的基因表达的平均倍数变化(具有95％C.I.)；底部柱形图显示了用中央图例中指示的构建体转染的细胞的SOX2的基因表达的平均倍数变化(具有95％C.I.)。中央图例通过黑色阴影盒指示sgRNA-5×PBSb和sgRNA-5×PBSa与对照(Ct1)、OCT4启动子(OCT4pp)或SOX2启动子(SOX2pp)的DNA匹配。PUFb-p65HSF1+BFPKRAB-PUFa行表示包含具有黄色高亮盒的样品中的激活子-抑制子模型。这些实验使用用于OCT4和SOX2基因二者的4种sgRNA-5×PBS的混合物。

图5A-5C显示，本发明的3组分CRISPR/Cas复合物/系统可用于在增强子处募集CREB结合蛋白(CBP)的组蛋白乙酰转移酶(HAT)结构域以激活靶基因表达。图5A是使用dCas9-CBPHAT直接融合物或3组分模块dCas9/CBPHAT-PUFa或dCas9/PUFa-CBPHAT以靶向OCT4的近端启动子(PP)、近端增强子(PE)或远端增强子(DE)的增强子激活实验的示意图。显示靶向这些区域中的每一个的4个指导，用红色笔画上方的数字表示匹配的位置。图5B显示了用表达靶向PP、PE或远端增强子DE中的每一个的dCas9-CBPHAT、dCas9/CBPHAT-PUFa或dCas9/PUFa-CBPHAT和4种sgRNA-5×PBSa的混合物的质粒转染的细胞的OCT4表达(相对于相应的sgCt1靶向实验)的平均倍数变化(具有95％C.I.)。图5C显示了在转染靶向OCT4的PP、PE、DE的dCas9/CBPHAT-PUFa和单一sgRNA或其混合物后的OCT4表达(相对于sgCt1实验)的平均倍数变化(具有95％C.I.)。图例用阴影盒表示包含靶向区域中的每一个的个体指导或指导的混合物。

图6A-6G显示本发明的3组分CRISPR/Cas复合物/系统允许荧光蛋白的多聚化以及端粒和着丝粒的同时标记(比例尺：5μm)。图6A是显示使用dCas9/sgTelomere-PBS32/Clover::PUF(3-2)(或PUFa)以用绿色荧光标记端粒重复序列的示意图。图6B显示了共焦荧光显微镜图像，其显示通过Clover-PUFa和从左到右配有渐增数量的(0、5、15、25个)PBSa的sgTelomere标记端粒。图6C显示抗TRF2免疫染色确认通过dCas9/Clover-PUFa/sgTelomere-25×PBSa标记端粒。图6D显示了用dCas9/PUFa::Clover和具有0、5、15或25个PBSa位点的端粒靶向sgRNA转染的HEK293T细胞中荧光基因座的数量的定量。(n＝20；Mann-Whitney统计：***＝p<0.0005，****＝p<0.0001)。图6E显示了通过在sgRNA靶向端粒上具有5、15或25×PBSa的本发明的3组分系统的信噪比的定量，所述信噪比为基因座处的总信号除以总核信号的比例(n＝20；Mann-Whitney统计：****＝p<0.0001)。图6F显示了抗CREST确认通过Clover-PUFc/sgCentromere-20×PBSc标记着丝粒。图6G是代表性的共焦荧光显微镜图像，其分别显示通过Clover-PUFc/sgCentromere-20×PBSc和mRuby2-PUFa/sgTelomere-25×PBSa共标记着丝粒和端粒。

图7是MUC4标记的代表性共焦显微镜图像，显示本发明的3组分CRISPR/Cas复合物/系统允许标记具有靶向MUC4基因座的7个sgRNA-15×PBS32的非重复区。

图8A-8C是卡通插图，突出说明了本发明的3组分CRISPR/Cas复合体/系统的一些特征。图8A说明了多重性：具有不同PBS同种型的sgRNA可以招募由同源PUF同种型所束缚的效应子，提供用于定位在分开的染色体基因座处的不同效应子功能或蛋白质标签的多重dCas9的机制。图8B说明了多聚化：PBS的短和线性特征允许sgRNA配备许多拷贝的PBS，从而允许在靶基因座处招募许多分子的PUF融合物。图8C说明了复合物形成：配有不同组合、顺序和数量的PBS的sgRNA可潜在地用作支架以直接组装具有期望化学计量和构造的蛋白质复合物。

具体实施方式

1.概述

本文描述的本发明提供了包含三个功能序列的多核苷酸，其用于结合靶多核苷酸序列(例如，DNA靶向序列)；用于结合野生型(wt)Cas9蛋白或具有降低的或不足的核酸酶活性(例如Cas9结合序列)的修饰的Cas9蛋白(例如Cas9切口酶或dCas9)结合；和用于结合一个或多个PUF结构域，每个PUF结构域融合到功能或效应子结构域。本发明的多核苷酸与野生型或修饰的Cas9蛋白以及一个或多个PUF结构域融合蛋白一起，可以在特定靶DNA序列处形成3组分复合物(本发明的3组分CRISPR/Cas复合物/系统)以在特定靶DNA序列处产生一种或多种生物学效应。

本发明还提供了编码此种多核苷酸的载体，以及由多核苷酸、Cas9蛋白(例如野生型、切口酶或dCas9蛋白)和至少一个PUF结构域融合蛋白形成的复合物。本发明还提供了包含该载体或多核苷酸的宿主细胞。

本发明的3组分CRISPR/Cas复合物/系统可以在靶DNA序列处产生各种生物学功能，包括但不限于：增强的同源重组以增加敲入效率、在多个基因组座处同时的转录激活和/或抑制；通过荧光成像或其他可检测信号检测基因组座处的特定序列；和影响细胞命运决定、细胞分化、代谢通量、或者生物学或生化学上可决定的结果等。

本发明还提供用于实施本发明方法的试剂盒和试剂。

因此在一个方面中，本发明提供了多核苷酸，其包含：(1)与靶多核苷酸序列互补的DNA靶向序列；(2)Cas9结合序列；和(3)一个或多个拷贝的PUF结构域结合序列(PBS)，其中一个或多个拷贝的PBS中的每一个结合相同或不同的PUF结构域；其中Cas9蛋白(例如野生型、切口酶或dCas9蛋白)能够通过结合Cas9结合序列与多核苷酸形成复合物。在某些实施方式中，dCas9蛋白具有降低的核酸酶活性或缺乏核酸酶活性(例如，是核酸酶不足的)，但当与本发明的多核苷酸复合时保留DNA结合能力。在某些实施方式中，(1)-(3)按照5'到3'的顺序排列。在其它实施方式中，一个或多个PBS可以对于DNA靶向序列是5'，和/或对于Cas9结合序列是5'。

靶多核苷酸序列可以是任何DNA序列。在某些实施方式中，靶多核苷酸序列包含或邻近一个或多个转录调控元件。在某些实施方式中，转录调控元件包含以下中的一种或多种：核心启动子、近端启动子元件、增强子、沉默子、隔离子和基因座控制区。在另一个实施方式中，靶多核苷酸序列包含或邻近着丝粒序列、端粒序列或重复基因组序列。端粒序列的特征可在于具有5-15kb的一连串TTAGGG重复序列。在又一个实施方式中，靶多核苷酸序列包含或邻近基因组标志物序列或感兴趣的任何基因组座。

在某些实施方式中，靶多核苷酸序列对于互补链的PAM(原型间隔子邻近基序)序列靠近地是3'。例如，在某些实施方式中，互补链的PAM序列式是5'-CCN-3'，其中N是任何DNA核苷酸。

在其它实施方式中，互补链的PAM序列匹配要使用的特定Cas9蛋白或同源物或种间同源物(ortholog)。

如本领域已知的，为了使Cas9成功地结合DNA，基因组DNA中的靶序列必须与指导RNA序列互补，并且必须紧跟着正确的原型间隔子邻近基序或PAM序列。PAM序列存在于DNA靶序列中，但不存在于指导RNA序列中。具有后面跟着PAM序列的正确靶序列的任何DNA序列将被Cas9结合。

PAM序列因Cas9来源的细菌的种类而异。最广泛使用的II型CRISPR系统来自化脓性链球菌，且PAM序列是位于指导RNA识别序列的紧邻的3'末端的5'-NGG-3'(或互补链上的5'-CCN-3')。来自不同细菌种类的其他II型CRISPR系统的PAM序列列于下表中。

化脓性链球菌(SP)	NGG
		脑膜炎奈瑟氏菌(NM)	NNNNGATT
嗜热链球菌(ST)	NNAGAA
		齿垢密螺旋体(TD)	NAAAAC

应当注意的是，DNA靶向序列可以与或可以不与靶多核苷酸序列100％互补。在某些实施方式中，DNA靶向序列在约8-25个核苷酸(nt)、约12-22个核苷酸、约14-20nt、约16-20nt、约18-20nt或约8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25nt上与靶多核苷酸序列互补。在某些实施方式中，互补区包含12-22nt的连续段，优选在DNA靶向序列的3'末端处。在某些实施方式中，DNA靶向序列的5'末端与靶多核苷酸序列具有至多8个核苷酸错配。在某些实施方式中，DNA结合序列与靶多核苷酸序列约50、55、60、65、70、75、80、85、90、95或100％互补。

在一个相关实施方式中，与互补靶多核苷酸序列相比，在DNA靶向序列的3'末端存在不超过15个核苷酸的匹配，并且复合物中的Cas9蛋白是野生型Cas9蛋白，其在该情况下结合但不切割靶DNA。

在某些实施方式中，DNA结合序列具有5'末端核苷酸G。

在某些实施方式中，Cas9结合序列形成发夹结构。在某些实施方式中，Cas9结合序列的长度为约30-100nt、约35-50nt、约37-47nt或约42nt。

一个示例性Cas9结合序列为GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTA。另一个示例性Cas9结合序列为GTTTAAGAGCTATGCTGGAAACAGCATAGCAAGTTTAAATAAGGCTA。

修饰的Cas9蛋白(切口酶或dCas9)可以在一个核酸内切酶催化位点或在核酸内切酶催化位点二者处具有降低的核酸酶活性或缺乏核酸酶活性。在某些实施方式中，由于在野生型Cas9的核酸内切酶催化位点(RuvC和HNH)二者处的点突变，dCas9蛋白缺乏核酸内切酶活性。例如，点突变可以分别是化脓性链球菌Cas9中的D10A和H840A，或在化脓性链球菌以外的物种中的相应残基中。在某些实施方式中，修饰的Cas9蛋白在野生型Cas9的一个位点但不是位点二者处缺乏核酸内切酶催化活性，并且能够在dsDNA靶上产生切口(Cas9切口酶)。

在某些实施方式中，一个或多个拷贝的PBS中的每一个具有约8个核苷酸。一个示例性的PBS可以具有可以由PUF结构域PUF(3-2)结合的5'-UGUAUGUA-3'序列。另一个示例性的PBS可以具有可以由PUF结构域PUF(6-2/7-2)结合的5'-UUGAUAUA-3'的序列。另外的PBS和相应的PUF结构域如下所述。

本发明的多核苷酸可以具有多于一个拷贝的PBS。在某些实施方式中，多核苷酸包含1、2、3、4、5、10、15、20、25、30、35、40、45、46、47、48、49或50个拷贝的PBS，例如5、6、7、8、9、10、11、12、13、14或15个拷贝的PBS。在某些实施方式中，PBS拷贝数的范围为L-H，其中L为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35或40中的任一个，并且其中H为2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、55、60、65、70、80、90或100中的任一个，只要H大于L。每个PBS可以相同或不同。

在某些实施方式中，多核苷酸包含约5-15个拷贝的PBS、或约5-14个拷贝、约5-13个拷贝、约5-12个拷贝、约5-11个拷贝、约5-10个拷贝或约5-9个拷贝的PBS。

在某些实施方式中，调节转染或表达的sgRNA-PBS的量和/或PUF融合物的量以使PBS/PUF结合最大化。例如，这可以通过增加PUF-激活子的表达实现，所述增加表达是通过更强的启动子或使用诱导型启动子，例如Dox诱导型启动子。

在某些实施方式中，优化PBS位点和/或间隔子序列之间的间距以提高系统效率。例如，间隔优化可以对特定的PUF融合物进行，并且可以在作为个体蛋白质工作的PUF融合物和可能需要被足够接近地定位以起作用的那些PUF融合物(例如，蛋白复合物)之间不同。

本发明的另一个方面提供了编码本发明的多核苷酸中的任一种的载体。在某些实施方式中，多核苷酸的转录受到组成型启动子或诱导型启动子的控制。在某些实施方式中，载体在来自哺乳动物(人；非人灵长类动物；非人哺乳动物；啮齿动物如小鼠、大鼠、仓鼠、豚鼠；牲畜哺乳动物如猪、绵羊、山羊、马、骆驼、牛；或宠物哺乳动物如猫或狗)；鸟、鱼、昆虫、蠕虫、酵母或细菌的细胞中是有活性的。

在某些实施方式中，载体是质粒、病毒载体(例如腺病毒、逆转录病毒或慢病毒载体、或AAV载体)或转座子(例如piggyBac转座子)。载体可以瞬时转染宿主细胞，或通过感染或转座整合到宿主基因组中。

本发明的一个相关方面提供了多个本发明的载体中的任一种或本发明的载体中的任一种的文库，其中载体中的两个在所编码的多核苷酸的以下方面存在不同：其各自的DNA靶向序列、Cas9结合序列、和/或PBS的拷贝数、同一性(序列、结合特异性等)或相对顺序。

本发明的另一个方面提供了包含本发明的多核苷酸中的任一种，和Cas9蛋白(例如野生型、切口酶或dCas9蛋白)的复合物。在某些实施方式中，复合物包含本发明的多核苷酸中的任一种，和Cas9蛋白(例如野生型、切口酶或dCas9蛋白)。在某些实施方式中，复合物不包含野生型Cas9蛋白。在某些实施方式中，复合物包含野生型Cas9。

在某些实施方式中，复合物可以还包含与一个或多个PBS结合的一个或多个PUF结构域或其融合物。在某些实施方式中，每个PUF结构域融合到效应子结构域。效应子结构域中的每一个可以独立地是(但不限于)：转录抑制子、转录激活子、荧光蛋白、酶或染色质重塑蛋白(HDAC/HAT)。在某些实施方式中，PUF结构域中的至少两个融合到不同的效应子结构域。

在某些实施方式中，Cas9蛋白(例如野生型、切口酶或dCas9蛋白)、PUF结构域和/或效应子结构域还包含核定位信号(NLS)。

在某些实施方式中，复合物通过多核苷酸的DNA靶向序列与靶多核苷酸序列结合。

本发明的另一个方面提供了宿主细胞，其包含本发明的载体中的任一种，或多个载体。

在某些实施方式中，宿主细胞还包含编码Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)的第二载体。在某些实施方式中，第二载体还编码融合到Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)的效应子结构域。Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)的表达可以受到组成型启动子或诱导性启动子的控制。

在某些实施方式中，宿主细胞可还包含编码一个或多个PUF结构域的第三载体，每个PUF结构域融合到效应子结构域。一个或多个PUF结构域的表达可以独立地受到组成型启动子或诱导型启动子的控制。

效应子结构域可以具有众多功能或生物学效应中的任一种。仅仅为了说明，效应子结构域可以是涉及同源重组的蛋白质、转录抑制子、转录激活子、荧光蛋白、酶或染色质重塑蛋白(HDAC/HAT)等。

在某些实施方式中，第二载体可还编码融合到Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)或效应子结构域的核定位信号(NLS)，和/或第三载体可还编码融合到PUF结构域或效应子结构域的核定位信号(NLS)。

在某些实施方式中，可以由不同载体编码的序列可以在相同的载体上。例如，在某些实施方式中，第二载体可以与载体相同，和/或第三载体可以与载体或第二载体相同。

宿主细胞可以是在活的动物中，或者可以是培养的细胞。

在某些实施方式中，宿主细胞可以组成性或诱导性地表达本发明的3组分系统的一个或多个组分(例如dCas9、PUF融合物)。

本发明的又一个方面提供了在靶多核苷酸序列处组装本发明的复合物的方法，所述方法包括使以下接触或接近靶多核苷酸序列：(1)本发明的多核苷酸中的任一种、或本发明的载体中的任一种、或多个载体；(2)Cas9蛋白(例如野生型、切口酶或dCas9蛋白)、或编码Cas9蛋白(例如野生型、切口酶或dCas9蛋白)的本发明的第二载体中的任一种；和(3)一个或多个PUF结构域，每个PUF结构域融合到效应子结构域，或编码PUF结构域融合物的第三载体中的任一种。

在某些实施方式中，复合体在细胞内组装，靶多核苷酸序列是细胞的基因组DNA的一部分，并且其中本发明的载体、第二载体和第三载体被引入细胞。

在某些实施方式中，靶多核苷酸序列位于或接近异染色质中富含的基因组座，并且其中效应子结构域是可检测标志物(例如荧光蛋白)。在另一个实施方式中，靶多核苷酸序列位于或接近靶基因的转录调控元件，并且其中效应子结构域是转录调节子(例如激活子、抑制子)。靶基因的转录例如可以影响细胞命运决定、细胞分化、代谢通量、或者生物学或生化学上可决定的结果。

本发明的一个相关方面提供了调节细胞中的多个靶基因的转录的方法，所述方法包括：将本发明的多个载体、dCas9蛋白的编码序列和一个或多个PUF结构域融合物的编码序列引入细胞，其中每个靶基因包含靶多核苷酸序列，其允许(1)在靶多核苷酸序列处，从由多个载体中的一个编码的多核苷酸、dCas9蛋白和PUF结构域融合物组装三元复合物；和(2)调节包含靶多核苷酸序列的靶基因的转录。

在一个相关方面中，本发明还提供了在细胞中的多个靶基因处调节表观遗传(例如，调节与转录活性不直接相关的染色质的表观遗传状态)的方法，所述方法包括：将本发明的多个载体、野生型Cas9蛋白或Cas9切口酶的编码序列，和一个或多个PUF结构域融合物的编码序列引入细胞，其中靶基因中的每一个包含靶多核苷酸序列，其允许(1)在靶多核苷酸序列处，从由多个载体中的一个编码的多核苷酸、野生型Cas9蛋白或Cas9切口酶，和PUF结构域融合物组装三元复合物；和(2)调节包含靶多核苷酸序列的靶基因的表观遗传。该方法可用于例如改变表观遗传状态(例如，打开染色质)，同时获得Cas9结合到关闭的染色质位点的可及性/稳定性(例如，以增加在这些位点处的剪切和基因组编辑)。

本发明还提供了一种试剂盒，其包含：(1)本发明的多核苷酸或编码所述多核苷酸的载体；(2)编码Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)的第二载体；和(3)编码一个或多个PUF结构域的第三载体，每个PUF结构域融合到效应子结构域。试剂盒可还包含转化、转染或感染试剂，以促进将载体引入细胞。

上文概述了本发明，下面将进一步阐述本发明的各种特征。应当理解，即使当在单独的实施方式，或者甚至在本发明的不同方面下的单独实施方式的上下文中描述时，可以在单一实施方式中组合提供本发明的特征。相反，在单一实施方式的上下文中描述的本发明的各种特征也可以单独提供或以任何合适的子组合提供。与本发明有关的实施方式的所有组合具体地被包括在本发明中，并且在本文中公开，就像每个组合被单独和明确地公开一样。此外，各种实施方式及其要素的所有子组合也被本发明具体地包括，并且在本文中公开，就像每个这样的子组合在本文中被单独和明确地公开一样。

2.本发明的多核苷酸

本发明的多核苷酸包含三个序列片段：i)包含与靶序列互补的核苷酸序列的第一片段；ii)与Cas9蛋白(例如，野生型、切口酶或具有降低的核酸酶活性或缺乏核酸酶活性的dCas9蛋白)相互作用的第二片段(例如，Cas9结合序列)；和iii)一个或多个拷贝的PUF结构域结合序列(PBS)。

在某些实施方式中，靶序列是RNA。在某些实施方式中，靶序列是DNA。在本文的描述中，当靶序列是DNA(例如基因组DNA)时，第一片段通常被称为“DNA靶向序列”。在其中靶序列是RNA的相关实施方式中，除了将对“DNA靶向序列”的提及替代为“RNA靶向序列”之外，本文中的以下描述通常也适用，以避免冗余。即，第一片段包含与靶多核苷酸序列(DNA或RNA)互补的核苷酸序列。

在某些实施方式中，i)-iii)这三个片段按照从5'到3'的顺序排列。

在某些实施方式中，本发明的多核苷酸可以是单一RNA分子(单一RNA多核苷酸)，其可以包括“单一指导RNA”或“sgRNA”。在另一个实施方式中，本发明的多核苷酸可以包含两个RNA分子(例如，通过在Cas9结合序列处的杂交连接在一起，见下文)。因此，本发明的多核苷酸是包括性的，指的是双分子多核苷酸和单分子多核苷酸(例如sgRNA)二者。

a.DNA靶向序列

DNA靶向序列在功能上与CRISPR/Cas复合物/系统的crRNA或指导RNA或gRNA相似或相当。然而，在本发明的上下文中，DNA靶向序列可以不是源自任何特定的crRNA或gRNA，而是可以基于靶多核苷酸序列的序列而任意设计。

DNA靶向序列包含与靶DNA(或靶DNA的互补链)内的特定序列互补的核苷酸序列。换言之，DNA靶向序列通过杂交(即碱基配对)以序列特异性方式与靶DNA的靶多核苷酸序列相互作用。就此而言，DNA靶向序列的核苷酸序列可以变化，并且其决定本发明的多核苷酸和靶DNA将相互作用的在靶DNA内的位置。可以修饰或设计(例如通过基因工程)DNA靶向序列以与靶DNA内的任何期望序列杂交。在某些实施方式中，靶多核苷酸序列对于可以是5'-CCN-3'的互补链的PAM(原型间隔子邻近基序)序列靠近地是3'，其中N是任何DNA核苷酸。即，在该实施方式中，靶多核苷酸序列的互补链对于作为5'-NGG-3'的PAM序列靠近地是5'，其中N是任何DNA核苷酸。在相关的实施方式中，互补链的PAM序列与野生型或dCas9匹配。参见上文来自除化脓性链球菌以外的物种的PAM序列。

DNA靶向序列可以具有约12个核苷酸至约100个核苷酸的长度。例如，DNA靶向序列可以具有约12个核苷酸(nt)至约80nt、约12nt至约50nt、约12nt至约40nt、约12nt至约30nt、约12nt至约25nt、约12nt至约20nt、或约12nt至约19nt的长度。例如，DNA靶向序列可以具有约19nt至约20nt、约19nt至约25nt、约19nt至约30nt、约19nt至约35nt、约19nt至约40nt、约19nt至约45nt、约19nt至约50nt、约19nt至约60nt、约19nt至约70nt、约19nt至约80nt、约19nt至约90nt、约19nt至约100nt、约20nt至约25nt、约20nt至约30nt、约20nt至约35nt、约20nt至约40nt、约20nt至约45nt、约20nt至约50nt、约20nt至约60nt、约20nt至约70nt、约20nt至约80nt、约20nt至约90nt、或约20nt至约100nt的长度。

与靶DNA的靶多核苷酸序列互补的DNA靶向序列的核苷酸序列可以具有至少约12nt的长度。例如，与靶DNA的靶多核苷酸序列互补的DNA靶向序列可以具有至少约12nt、至少约15nt、至少约18nt、至少约19nt、至少约20nt、至少约25nt、至少约30nt、至少约35nt或至少约40nt的长度。例如，与靶DNA的靶多核苷酸序列互补的DNA靶向序列可以具有约12个核苷酸(nt)至约80nt、约12nt至约50nt、约12nt至约45nt、约12nt至约40nt、约12nt至约35nt、约12nt至约30nt、约12nt至约25nt、约12nt至约20nt、约12nt至约19nt、约19nt至约20nt、约19nt至约25nt、约19nt至约30nt、约19nt至约35nt、约19nt至约40nt、约19nt至约45nt、约19nt至约50nt、约19nt至约60nt、约20nt至约25nt、约20nt至约30nt、约20nt至约35nt、约20nt至约40nt、约20nt至约45nt、约20nt至约50nt、或约20nt至约60nt的长度。与靶DNA的靶多核苷酸序列互补的DNA靶向序列的核苷酸序列可以具有至少约12nt的长度。

在一些情况下，与靶DNA的靶多核苷酸序列互补的DNA靶向序列的长度为20个核苷酸。在一些情况下，与靶DNA的靶多核苷酸序列互补的DNA靶向序列的长度为19个核苷酸。

DNA靶向序列和靶DNA的靶多核苷酸序列之间的互补性百分比可以为至少50％(例如，至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少97％、至少98％、至少99％或100％)。在一些情况下，DNA靶向序列和靶多核苷酸序列之间的互补性百分比在靶多核苷酸序列的七个或八个连续5'-最多(5’-most)核苷酸上为100％。在一些情况下，DNA靶向序列和靶多核苷酸序列之间的互补性百分比在约20个连续核苷酸上为至少60％。在一些情况下，DNA靶向序列和靶多核苷酸序列之间的互补性百分比在靶多核苷酸序列的7、8、9、10、11、12、13或14个连续5'-最多核苷酸(即DNA靶向序列的7、8、9、10、11、12、13或14个连续3'-最多核苷酸)上为100％，并且在其余部分上低至0％。在此种情况下，可以分别认为DNA靶向序列的长度为7、8、9、10、11、12、13或14个核苷酸。

b.Cas9结合序列

本发明的多核苷酸的蛋白质结合区段或蛋白质结合序列与野生型Cas9或具有降低的核酸内切酶活性或缺乏核酸内切酶活性的修饰的dCas9蛋白(例如切口酶或dCas9)结合。为了简单起见，可以结合野生型和/或修饰的Cas9蛋白的本发明的多核苷酸的蛋白质结合序列可以在本文中简称为“Cas9结合序列”。然而，应当理解，当本发明的Cas9结合序列与dCas9结合时，不妨碍与野生型Cas9或Cas9切口酶结合。在某些实施方式中，本发明的Cas9结合序列与dCas9以及野生型Cas9和/或Cas9切口酶结合。

Cas9结合序列与Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)相互作用或结合，并且它们一起与DNA靶向序列所识别的靶多核苷酸序列结合。Cas9结合序列包含彼此杂交以形成双链RNA双链体(dsRNA双链体)的两个互补的核苷酸段。这两个互补的核苷酸段可以通过称为接头或接头核苷酸的介于中间的核苷酸共价连接(例如，在单分子多核苷酸的情况下)，并杂交以形成Cas9结合序列的双链RNA双链体(dsRNA双链体或“Cas9结合发夹”)，从而产生茎环结构。或者，在一些实施方式中，两个互补的核苷酸段可以不共价连接，而是通过互补序列之间的杂交保持在一起(例如，在本发明的双分子多核苷酸的情况下)。

Cas9结合序列可以具有约10个核苷酸至约100个核苷酸的长度，例如约10个核苷酸(nt)至约20nt、约20nt至约30nt、约30nt至约40nt、约40nt至约50nt、约50nt至约60nt、约60nt至约70nt、约70nt至约80nt、约80nt至约90nt、或约90nt至约100nt。例如，Cas9结合序列可以具有约15个核苷酸(nt)至约80nt、约15nt至约50nt、约15nt至约40nt、约15nt至约30nt、约37nt至约47nt(例如，42nt)、或约15nt至约25nt的长度。

Cas9结合序列的dsRNA双链体可以具有约6个碱基对(bp)至约50bp的长度。例如，Cas9结合序列的dsRNA双链体可以具有约6bp至约40bp、约6bp至约30bp、约6bp至约25bp、约6bp至约20bp、约6bp至约15bp、约8bp至约40bp、约8bp至约30bp、约8bp至约25bp、约8bp至约20bp或约8bp至约15bp的长度。例如，Cas9结合序列的dsRNA双链体可以具有约8bp至约10bp、约10bp至约15bp、约15bp至约18bp、约18bp至约20bp的长度、约20bp至约25bp、约25bp至约30bp、约30bp至约35bp、约35bp至约40bp、或约40bp至约50bp的长度。在一些实施方式中，Cas9结合序列的dsRNA双链体长度为36个碱基对。杂交以形成Cas9结合序列的dsRNA双链体的核苷酸序列之间的互补性百分比可以为至少约60％。例如，杂交以形成Cas9结合序列的dsRNA双链体的核苷酸序列之间的互补性百分比可以为至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约95％、至少约98％、或至少约99％。在一些情况下，杂交以形成Cas9结合序列的dsRNA双链体的核苷酸序列之间的互补性百分比为100％。

接头可以具有约3个核苷酸至约100个核苷酸的长度。例如，接头可以具有约3个核苷酸(nt)至约90nt、约3个核苷酸(nt)至约80nt、约3个核苷酸(nt)至约70nt、约3个核苷酸(nt)至约60nt、约3个核苷酸(nt)至约50nt、约3个核苷酸(nt)至约40nt、约3个核苷酸(nt)至约30nt、约3个核苷酸(nt)至约20nt或约3个核苷酸(nt)至约10nt的长度。例如，接头可以具有约3nt至5nt、约5nt至约10nt、约10nt至约15nt、约15nt至约20nt、约20nt至约25nt、约25nt至约30nt、约30nt至约35nt、约35nt至约40nt、约40nt至约50nt、约50nt至约60nt、约60nt至约70nt、约70至约80nt、约80nt至约90nt或约90nt至约100nt的长度。在一些实施方式中，接头为4nt。

可以被包含在合适的Cas9结合序列(即Cas9手柄)中的核苷酸序列的非限制性实例在WO 2013/176772的SEQ ID NO：563-682中陈述(参见例如WO 2013/176772的图8和9)，其通过引用并入本文。

在一些情况下，合适的Cas9结合序列包含与上文列出的序列中的任一种相差1、2、3、4或5个核苷酸的核苷酸序列。

c.PUF结构域结合序列(PBS)

本发明的多核苷酸包含一个或多个串联序列，其每一个可以被特定的PUF结构域(下文)特异性识别和结合。由于可以将PUF结构域工程化为基于PUF结构域的个体PUF基序与它们识别的单一RNA核苷酸之间的核苷酸特异性相互作用而结合几乎任何PBS，所以PBS序列可以是结合其对应的PUF结构域的任何设计序列。

在某些实施方式中，本发明的PBS具有8聚体。在其它实施方式中，本发明的PBS具有5、6、7、8、9、10、11、12、13、14、15、16个或更多个RNA核苷酸。

在某些实施方式中，本发明的PBS具有5'-UGUAUAUA-3'序列，并结合野生型人Pumilio 1PUF结构域。

在某些实施方式中，本发明的PBS具有5'-UGUAUGUA-3'序列，并结合PUF结构域PUF(3-2)。

在某些实施方式中，本发明的PBS具有5'-UUGAUAUA-3'序列，并结合PUF结构域PUF(6-2/7-2)。

在某些实施方式中，本发明的PBS具有5'-UGGAUAUA-3'序列，并结合PUF结构域PUF(6-2)。

在某些实施方式中，本发明的PBS具有5'-UUUAUAUA-3'序列，并结合PUF结构域PUF(7-2)。

在某些实施方式中，本发明的PBS具有5'-UGUGUGUG-3'序列，并结合PUF结构域PUF⁵³¹。

在某些实施方式中，本发明的PBS具有5'-UGUAUAUG-3'序列，并结合PUF结构域PUF(1-1)。

在某些实施方式中，本发明的PBS具有5'-UUUAUAUA-3'或5'-UAUAUAUA-3'序列，并结合PUF结构域PUF(7-1)。

在某些实施方式中，本发明的PBS具有5'-UGUAUUUA-3'序列，并结合PUF结构域PUF(3-1)。

在某些实施方式中，本发明的PBS具有5'-UUUAUUUA-3'序列，并且结合PUF结构域PUF(7-2/3-1)。

申请人已经创建了65,536个8聚体PBS及其相应的可结合特定PBS的PUF结构域序列(见下文)。申请人还已经创建了python脚本以检索65,536个个体PUF结构域序列中结合给定8聚体PBS的任一个。例如，对于8聚体UUGAUGUA，一个可能的PUF结构域序列可以是：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGCRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG

在某些实施方式中，一个或多个间隔子区分开两个相邻的PBS序列。间隔子区可以具有约3个核苷酸至约100个核苷酸的长度。例如，间隔子可以具有约3个核苷酸(nt)至约90nt、约3个核苷酸(nt)至约80nt、约3个核苷酸(nt)至约70nt、约3个核苷酸(nt)至约60nt、约3个核苷酸(nt)至约50nt、约3个核苷酸(nt)至约40nt、约3个核苷酸(nt)至约30nt、约3个核苷酸(nt)至约20nt或约3个核苷酸(nt)至约10nt的长度。例如，间隔子可以具有约3nt至约5nt、约5nt至约10nt、约10nt至约15nt、约15nt至约20nt、约20nt至约25nt、约25nt至约30nt、约30nt至约35nt、约35nt至约40nt、约40nt至约50nt、约50nt至约60nt、约60nt至约70nt、约70至约80nt、约80nt至约90nt、或约90nt至约100nt的长度。在一些实施方式中，间隔子是4nt。

d.任选的其它序列

稳定性控制序列(例如，转录终止子片段)影响RNA(例如，本发明的多核苷酸)的稳定性。合适的稳定性控制序列的一个实例是转录终止子片段(即转录终止序列)。本发明的多核苷酸的转录终止子片段可以具有约10个核苷酸至约100个核苷酸的总长度，例如约10个核苷酸(nt)至约20nt、约20nt至约30nt、约30nt至约40nt、约40nt至约50nt、约50nt至约60nt、约60nt至约70nt、约70nt至约80nt、约80nt至约90nt、或约90nt至约100nt。例如，转录终止子片段可以具有约15个核苷酸(nt)至约80nt、约15nt至约50nt、约15nt至约40nt、约15nt至约30nt或约15nt至约25nt的长度。

在一些情况下，转录终止序列是在真核细胞中有功能的序列。在一些情况下，转录终止序列是在原核细胞中有功能的序列。

可以被包含在稳定性控制序列(例如，转录终止片段，或在DNA靶向RNA的任何片段中以提供增加的稳定性)中的核苷酸序列的非限制性实例包括WO 2013/176772(通过引用并入本文)的SEQ ID NO：683-696中陈述的序列，参见例如WO 2013/176772的SEQ ID NO：795：Rho非依赖性转录终止位点。

稳定性控制序列可以位于Cas9结合序列之后，例如在Cas9结合序列和第一PBS之间、两个相邻PBS之间、或在最后一个PBS之后。

在一些实施方式中，本发明的多核苷酸或其部分(例如，DNA靶向序列、Cas9结合序列和/或PBS中的一个或多个)、或编码Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)的多核苷酸、或编码PUF结构域融合物(下文)之一的多核苷酸可以包含提供另外的期望特征的修饰或序列，例如修饰或调节的稳定性；亚细胞靶向追踪，例如荧光标记；蛋白质或蛋白质复合物的结合位点；等等)。

非限制性实例包括：5'帽(例如，7-甲基鸟苷酸帽(m⁷G))；3'聚腺苷酸化尾(即3'聚(A)尾)；核糖开关序列或适体序列(例如，以允许通过蛋白质和蛋白质复合物的调节的稳定性和/或调节的可及性)；终止子序列；形成dsRNA双链体(即发夹)的序列；将RNA靶向亚细胞位置(例如核、线粒体、叶绿体等)的修饰或序列；提供追踪(例如，与荧光分子的直接缀合、与促进荧光检测的部分的缀合、允许荧光检测的序列等)的修饰或序列；提供用于蛋白质(例如，作用于DNA的蛋白质，包括转录激活子、转录抑制子、DNA甲基转移酶、DNA脱甲基酶，组蛋白乙酰转移酶、组蛋白脱乙酰酶等)的结合位点的修饰或序列；提供增加的、减少的和/或可控的稳定性的修饰或序列；及其组合。

3.Cas9蛋白(野生型、切口酶或dCas9)

本发明的Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)包含：i)与本发明的多核苷酸的Cas9结合序列相互作用的RNA结合部分，和ii)取决于Cas9蛋白的特性而表现出野生型、减少的核酸内切酶(例如，脱氧核糖核酸内切酶)活性、或缺少核酸内切酶(例如，脱氧核糖核酸内切酶)活性的活性部分。

基于DNA靶向序列和靶多核苷酸序列之间的序列互补性，多核苷酸的Cas9结合序列和Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)可以形成结合特定靶多核苷酸序列的复合物。本发明的多核苷酸的DNA靶向序列通过其与靶DNA的靶多核苷酸序列的序列互补性而向复合物提供靶特异性。如果靶多核苷酸序列位于或邻近靶基因的转录调控元件或表观遗传修饰位点，则该复合物与融合到PBS结合PUF结构域的调节表观遗传修饰的转录调节子或效应子一起，可以选择性地调节靶基因的转录或表观遗传调控。

在某些实施方式中，修饰的Cas9蛋白具有减少的或缺乏核酸内切酶(例如，脱氧核糖核酸内切酶)活性。例如，适用于本发明方法的修饰的Cas9可以是Cas9切口酶，或者表现出小于约20％、小于约15％、小于约10％、小于约5％、小于约1％或小于约0.1％的野生型Cas9多肽的核酸内切酶(例如，脱氧核糖核酸内切酶)活性，所述野生型Cas9多肽例如是包含如WO 2013/176772(通过引用并入本文)的图3和SEQ ID NO：8中所示的氨基酸序列的野生型Cas9多肽。在一些实施方式中，该dCas9基本上没有可检测的核酸内切酶(例如脱氧核糖核酸内切酶)活性。在一些实施方式中，当dCas9具有减小的催化活性时(例如，当Cas9蛋白具有D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987突变，例如D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A和/或D986A时)，该多肽仍然可以以位点特异性方式结合靶DNA，因为它仍被本发明的多核苷酸的DNA靶向序列指导至靶多核苷酸序列，只要它保留与本发明的多核苷酸的Cas9结合序列相互作用的能力。

在一些情况下，合适的Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)包含与以下具有至少约75％、至少约80％、至少约85％、至少约90％、至少约95％、至少约99％或100％氨基酸序列同一性的氨基酸序列：如WO 2013/176772(通过引用并入)的图3和SEQ ID NO：8中所示的(化脓性链球菌的)Cas9/Csnl氨基酸序列的氨基酸7-166或731-1003，或WO 2013/176772(通过引用并入)的氨基酸序列SEQ ID NO：1-256和795-1346中的任一个中的相应部分，优选来自化脓性链球菌、脑膜炎奈瑟菌、嗜热链球菌和齿垢密螺旋体的正交Cas9序列的氨基酸序列中的任一个中的相应部分(参见，Esvelt等，Nature Methods，10(11):1116-1121，2013，通过引用并入)。

在一些情况下，Cas9切口酶可以切割靶DNA的互补链，但是具有降低的切割靶DNA的非互补链的能力。例如，Cas9切口酶可以具有减少RuvC结构域的功能的突变(氨基酸取代)。作为非限制性实例，在一些情况下，Cas9切口酶是WO 2013/176772的图3中所示的氨基酸序列的D10A(天冬氨酸到丙氨酸)突变，或WO 2013/176772的SEQ ID NO：1-256和795-1346中所述的氨基酸序列中的任一个的相应突变(所有这样的序列通过引用并入)。

在一些情况下，Cas9切口酶可以切割靶DNA的非互补链，但是具有降低的切割靶DNA的互补链的能力。例如，Cas9切口酶可以具有减少HNH结构域(RuvC/HNH/RuvC结构域基序)的功能的突变(氨基酸取代)。作为非限制性实例，在一些情况下，Cas9切口酶是H840A(在WO 2013/176772的SEQ ID NO:8的氨基酸位置840处组氨酸到丙氨酸，通过引用并入)或WO 2013/176772的SEQ ID NO：1-256和795-1346中所述的氨基酸序列中的任一个的相应突变(所有这样的序列通过引用并入)。

在一些情况下，dCas9具有降低的切割靶DNA的互补链和非互补链二者的能力。作为非限制性实例，在一些情况下，dCas9包含WO 2013/176772的图3中所示的氨基酸序列的D10A和H840A突变二者或WO 2013/176772的SEQ ID NO：1-256和795-1346中所述的氨基酸序列中的任一个的相应突变(所有这样的序列通过引用并入)。

可以突变其它残基以实现相同的效果(即，使一个或其它核酸酶部分失活)。作为非限制性实例，可以改变(即取代)残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987(或如SEQ ID NO：1-256和795-1346中所述的蛋白质中的任一个的相应突变)(参见WO 2013/176772的图3、5、11A和表1(全部通过引用并入)关于Cas9氨基酸残基的保守性的更多信息)。此外，除丙氨酸取代以外的突变是合适的。

在一些情况下，Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)任选地是包含以下的融合多肽：i)Cas9蛋白(例如野生型、切口酶或dCas9蛋白)；和b)共价连接的异源多肽(也称为“融合配偶体”)，其可以与融合到PUF结构域(下文)的融合配偶体相同或不同。

4.PUF结构域(和任选的Cas9)融合蛋白

已知PUF蛋白(以果蝇Pumilio和秀丽隐杆线虫fern-3结合因子命名)涉及介导mRNA稳定性和翻译。这些蛋白质含有称为PUF结构域的独特RNA结合结构域。RNA结合PUF结构域，例如人Pumilio1蛋白(在此也称为PUM)的RNA结合PUF结构域，含有以反平行方式结合连续碱基的8个重复(每个重复称为PUF基序或PUF重复)，每个重复识别单一碱基，即PUF重复R1至R8分别识别核苷酸N8至N1。例如，PUM由8个串联重复组成，每个重复由折叠成由α螺旋组成的紧密堆积结构域的34个氨基酸组成。

每个PUF重复使用来自每个重复的中心的两个保守氨基酸以特异性识别RNA识别序列内的一个个体碱基的边缘，以及第三氨基酸(Tyr、His或Arg)以在相邻碱基之间堆叠，导致PUF结构域和8聚体RNA之间非常特异性的结合。例如，识别碱基U的代码是氨基酸序列“NYxxQ”，而“(C/S)RxxQ”识别A、“SNxxE”识别G。这些氨基酸对应于人Pumilio 1PUF基序中的位置12、13和16。在每个PUFα-α-α重复中的位置12和16处的两个识别氨基酸侧链识别相应碱基的Watson-Crick边缘，并且在很大程度上决定该重复的特异性。

因此，通过改变涉及RNA识别序列内的碱基识别的保守氨基酸(例如，通过定点诱变)可以精确地改变PUF结构域的序列特异性。通过在每个重复中改变两个氨基酸，可以修饰PUF结构域以结合几乎任何8-nt RNA序列。这种独特的结合模式使PUF及其衍生物成为可用于本发明的可编程RNA结合结构域，作为将任何效应子结构域带至本发明的多核苷酸上的特定PBS的PUF结构域融合物的一部分。

如本文所用的“PUF结构域”是指野生型或天然存在的PUF结构域，以及基于/衍生自天然或现有PUF结构域的PUF同源结构域，例如原型人Pumilio 1PUF结构域。本发明的PUF结构域特异性结合RNA序列(例如，8聚体RNA序列)，其中PUF结构域和RNA序列之间的整体结合特异性由PUF结构域内的每个PUF基序/PUF重复和相应的单一RNA核苷酸之间的序列特异性结合限定。

在某些实施方式中，PUF结构域包含或基本上由8个PUF基序组成，每个PUF基序特异性识别并结合一个RNA核苷酸(例如A、U、G或C)。

申请人已经创建了65,536个8聚体PBS及其相应的PUF结构域序列(每个约350个氨基酸长)，其可以结合特定的PBS。申请人还已经创建了python脚本以检索65,536个个体PUF结构域序列中结合给定8聚体PBS的任一个。

在某些实施方式中，PUF结构域具有多于或少于8个PUF基序/重复，例如，PUF结构域包含或基本上由5、6、7、8、9、10、11、12、13、14、15、16个或更多个PUF重复/基序组成，每个特异性识别并结合一个RNA核苷酸(例如A、U、G或C)，只要该PUF结构域结合5、6、7、8、9、10、11、12、13、14、15、16个或更多个核苷酸的RNA即可。通过增加或减少PUF基序的数量，所识别的RNA的长度将相应地增加或减少。由于每个PUF基序识别一个RNA碱基，因此使结构域减少一个基序使所识别的RNA的长度减少一个碱基；而使结构域增加一个基序使所识别的RNA的长度增加一个碱基。可以存在任何数量的基序。因此，在此类实施方式中，由于PUF结构域长度的变化，可以改变本发明的PUF结构域融合物的特异性。在某些实施方式中，另外的PUF基序被插入原始PUF基序中的两个之间，例如，在第一基序之前、第一和第二基序之间、第二和第三基序之间、第三和第四基序之间、第四和第五基序之间、第五和第六基序之间、第六和第七基序之间、第七和第八基序之间或第八基序之后。在某些实施方式中，在上述插入点的任一个之间有1、2、3、4、5、6、7、8个或更多个插入的PUF基序。例如，在某些实施方式中，在第五和第六原始PUF基序之间存在1、2、3、4、5、6、7、8个或更多个插入的PUF基序。Filipovska等(Nature Chemical Biology doi:10.1038/NChemBio.577，在线发表日：2011年5月15日)已经报道了具有16个PUF基序的工程化PUF结构域，其包含在第五和第六原始PUF基序之间插入的8个另外的PUF基序。

在某些实施方式中，PUF结构域包含来自不同蛋白质的不同PUF结构域的PUF基序。例如，本发明的PUF结构域可以用来自人Pumilio1蛋白的PUF基序和来自一种或多种其它PUF蛋白如PuDp或FBF的一种或多种其它PUF基序构建。PUF结构域的RNA结合袋(bindingpocket)具有自然的凹曲率(concave curvature)。由于不同的PUF蛋白质可以具有不同的曲率，PUF结构域中的不同PUF基序可用于改变PUF结构域的曲率。改变曲率是改变PUF结构域的特异性和/或结合亲和力的另一种方法，因为更平的曲率可允许识别更多的RNA碱基。

本发明的范围还包括本发明的PUF结构域或其融合物的功能性变体。如本文所用的术语“功能性变体”是指与母体PUF结构域具有实质或显著的序列同一性或相似性的PUF结构域，该功能变体保留作为其变体的PUF结构域的生物学活性–例如，在结合亲和力方面保留相似程度、相同程度或至更高程度的识别靶RNA的能力的变体，和/或与母体PUF结构域具有基本上相同或一致的结合特异性的变体。功能性变体PUF结构域的氨基酸序列可以例如与母体PUF结构域至少约30％、50％、75％、80％、90％、98％或更加相同。功能性变体可以例如包含具有至少一个保守氨基酸取代的母体PUF结构域的氨基酸序列，例如在PUF结构域的支架中的保守氨基酸取代(即，不与RNA相互作用的氨基酸)。替代性地或另外地，功能性变体可以包含具有至少一个非保守氨基酸取代的母体PUF结构域的氨基酸序列。在这种情况下，非保守氨基酸取代优选不干扰或抑制功能性变体的生物活性。非保守氨基酸取代可增强功能性变体的生物活性，使得功能性变体的生物活性与母体PUF结构域相比增加，或者可将PUF结构域的稳定性改变到期望水平(例如，由于支架中的氨基酸的取代)。PUF结构域可以基本上由本文所述的一个或多个指定氨基酸序列组成，使得其它组分，例如其它氨基酸，不实质上改变功能性变体的生物活性。

在某些实施方式中，PUF结构域是Pumilio同源结构域(PU-HUD)。在一个特别实施方式中，PU-HUD是人Pumilio 1结构域。人PUM的序列在本领域中是已知的，并在下文中再现：

野生型人PUM特异性结合具有核心8-nt 5'-UGUAUAUA-3'序列的Nanos响应元件(NRE)RNA。

在某些实施方式中，本发明的PUF结构域是具有Pum-HD结构域的任何PUF蛋白家族成员。PUF家族成员的非限制性实例包括秀丽隐杆线虫中的FBF、果蝇中的Ds pum，以及诸如拟南芥和水稻的植物中的PUF蛋白质。Tam等(“The Puf family of RNA-binding proteinsin plants:phylogeny,structural modeling,activity and subcellularlocalization.”BMC Plant Biol.10:44，2010，其全部内容通过引用并入本文)中提供了拟南芥、水稻和其他植物和非植物物种的PUM-HD的系统发生树。

PUF家族成员从酵母至人高度保守，并且家族的所有成员以序列特异性方式用可预测的密码结合RNA。该结构域的登录号在Prosite数据库(瑞士生物信息学研究所)中为PS50302，并且该家族的一些成员的序列比对在WO 2011-160052A2的图5和6中示出(分别为人、小鼠、大鼠Pumilio 1(hpum1、Mpum1、Ratpum1)以及人和小鼠Pumilio2(hpum2、Mpum2)的ClustalW多重序列比对)。

果蝇Pumilio(PumDr)的长度与其它哺乳动物Pumilio 1同源物的长度非常不同，因此在WO 2011/160052A2的图6中采用人PUM1和PUM2的序列比对中仅显示了C末端PUF HUD结构域。人和蝇Pum蛋白的N末端部分显示弱同源性(40％相似性)，并且在大小和蛋白质序列上显著不同。C末端部分显示出非常高度的同源性和进化保守程度(对于PUM1为78％同一性、86％相似性，且对于PUM2为79％同一性、88％相似性)，具有高度保守的蛋白质序列和Pum RNA结合结构域的结构。在所有三种蛋白质中，PUM-HD由20个氨基酸的N-末端保守部分、各自36个氨基酸的8个Pum重复和C末端保守区组成。在人Pumilio蛋白中，C保守部分长44个氨基酸，而果蝇蛋白在C保守区具有另外85个氨基酸的插入物。可以在DDBJ/EMBL/数据库中在登录号AF315592(PUM1)和AF315591(PUM2)下找到核苷酸和氨基酸序列(Spassov&Jurecic，“Cloning and comparative sequence analysis ofPUM1and PUM2genes，human members of the Pumilio family of RNA-bindingproteins”Gene，299:195-204，2002年10月，其(出版物和序列)中的每一个的全部内容通过引用并入本文)。

此外，所有比对序列，即WO 2011/160052A2的SEQ ID NO：55-60，通过引用并入本文。

在一些实施方式中，本发明的PUF结构域可由8个36聚体组成，其中33个氨基酸是保守的，并且第34、35和36个氨基酸可变化，赋予对RNA序列中的特定碱基的特异性。在具体实施方式中，RNA结合结构域长度为约300个(例如，310、309、308、307、306、305、304、303、302、301、300、299、298、297、296、295、294、293、292、291、290个等)氨基酸。在一些实施方式中，本发明的PUF结构域被设计成结合约8个核苷酸(例如8-16个连续RNA碱基)的特定RNA序列。在具体实施方式中，8-nt序列的第五个核苷酸是U或C，而其他7个核苷酸可以变化。

在一些实施方式中，将PUF结构域从野生型PUF结构域修饰成结合不同于由未修饰(即野生型)RNA结合PUF结构域结合的RNA序列的RNA序列。RNA序列可以是约8聚体(例如8聚体、9聚体、10聚体、11聚体、12聚体、13聚体、14聚体、15聚体、16聚体等)。将修饰引入RNA结合结构域的氨基酸序列以改变其对靶RNA序列的特异性的能力是基于碱基与RNA结合结构域(例如，PUF蛋白)的不同氨基酸侧链的已知相互作用。PUF结构域的RNA识别密码在以下示出，其通常可以写成：

对于G(鸟嘌呤)为SerXXXGlu，例如SNxxE；

对于A(腺嘌呤)为CysXXXGln，例如CysArgXXGln或SerArgXXGln(即，(C/S)RxxQ)

对于U(尿嘧啶)为AsnXXXGln，例如NYxxQ，和

对于C(胞嘧啶)为SnXXXArg，例如SerTyrXXArg。

其中X是任何氨基酸，Sn表示小或亲核残基如Gly、Ala、Ser、Thr或Cys。

基于上述指导，可以基于任何给定的8聚体序列构建至少一个PUF结构域。具体而言，与5'-N₁N₂N₃N₄N₅N₆N₇N₈-3'的8聚体RNA序列结合的PUF结构域可以具有以下序列式，其中R1-R8各自表示下表中列出的PUF基序肽序列，取决于在N₁-N₈位置中的任一个处的核糖核苷酸(即A、U、C或G)的特定身份。注意R1结合N₈、R2结合N₇，等等。

GlyArgSerArgLeuLeuGluAspPheArgAsnAsnArgTyrProAsnLeuGlnLeuArgGluIleAlaGlyHisIleMetGluPheSerGlnAsp[R1]ThrProAlaGluArgGlnLeuValPheAsnGluIleLeuGlnAlaAlaTyrGlnLeuMetValAsp[R2]SerLeuGluGlnLysLeuAlaLeuAlaGluArgIleArgGlyHisValLeuSerLeuAlaLeuGln[R3]ProSerAspGlnGlnAsnGluMetValArgGluLeuAspGlyHisValLeuLysCysValLysAsp[R4]GlnProGlnSerLeuGlnPheIleIleAspAlaPheLysGlyGlnValPheAlaLeuSerThrHis[R5]LeuProAspGlnThrLeuProIleLeuGluGluLeuHisGlnHisThrGluGlnLeuValGlnAsp[R6]ArgProGluAspLysSerLysIleValAlaGluIleArgGlyAsnValLeuValLeuSerGlnHis[R7]SerArgThrGluArgAlaValLeuIleAspGluValCysThrMetAsnAspGlyProHisSerAlaLeuTyrThrMetMetLysAsp[R8]GluProGlyGlnArgLysIleValMetHisLysIleArgProHisIleAlaThrLeuArgLysTyrThrTyrGlyLysHisIleLeuAlaLysLeuGluLysTyrTyrMetLysAsnGlyValAspLeuGly

下面提供了基于上述RNA识别密码构建的具有修饰的RNA结合特异性的若干示例性PUF结构域，每个可用于构建本发明的PUF结构域融合物。

PUF(3-2)

PUF(3-2)在PUF重复3中具有两个点突变(C935S/Q939E)，并识别在NRE的位置6具有突变的同源RNA(A6G；5'-UGUAUGUA-3')。

PUF(6-2/7-2)

PUF(6-2/7-2)分别在重复6和7中具有双点突变(N1043S/Q1047E和S1079N/E1083Q)，并识别在NRE的位置2和3处有两个突变的同源RNA序列(GU/UG；5'-UUGAUAUA-3')。

相关的PUF(6-2)在重复6中具有点突变(N1043S/Q1047E)，并识别在NRE的位置3处具有突变的同源RNA序列(5'-UGGAUAUA-3')。

另一个相关的PUF(7-2)在重复7中具有点突变(S1079N/E1083Q)，并识别在NRE的位置2处具有突变的同源RNA序列(5'-UUUAUAUA-3')。

PUF⁵³¹

PUF结构域PUF⁵³¹在野生型PUF重复1、3和5中具有突变(Q867E/Q939E/C935S/Q1011E/C1007S)，并识别5'-UGUGUGUG-3'序列。与野生型PUF RNA相比，PUF⁵³¹可以以非常高的亲和力识别其新靶序列。

另一个修饰的PUF结构域PUF(1-1)在PUF重复1中具有一个点突变(Q867E)，并识别在NRE的位置8处具有突变的同源RNA(A8G；5'-UGUAUAUG-3')。

又一个修饰的PUF结构域PUF(7-1)在PUF重复7中具有一个点突变(E1083Q)，并识别在NRE的位置2处具有突变的同源RNA(G2U；5'-UUUAUAUA-3'；或G2A；5'-UAUAUAUA-3')。

再一个修饰的PUF结构域PUF(3-1)在PUF重复3中具有一个点突变(C935N)，并识别在NRE的位置6处具有突变的同源RNA(A6U；5'-UGUAUUUA-3')。

另一个修饰的PUF(7-2/3-1)在重复7和3中具有点突变(C935N/S1079N/E1083Q)，并识别在NRE的位置2和6处具有突变的同源RNA序列(5'-UUUAUUUA 3')。

某些修饰的PUF结构域的序列在以下示出。

根据本发明，异源多肽(也称为“融合配偶体”)可以与结合本发明的多核苷酸上的PBS中的至少一个的本发明的PUF结构域融合。此外，如果需要，相同或不同的融合配偶体也可任选地与Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)融合。因此如本文所述，除非特别地放弃，否则任何融合配偶体都旨在与PUF结构域融合，并任选地还与Cas9蛋白(例如野生型、切口酶或dCas9蛋白)融合。与PUF结构域融合的融合配偶体可以与融合到Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)(下文)的任选融合配偶体相同或不同。

融合配偶体可以表现出活性(例如酶活性)。合适的融合配偶体包括但不限于提供甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、去腺苷酸化活性、SUMO化活性、去SUMO化活性、核糖基化活性、去核糖基化活性、豆蔻酰化活性或去豆蔻酰化活性的多肽，其任一种可以针对直接修饰DNA(例如，DNA的甲基化)或针对修饰DNA相关多肽(例如，组蛋白或DNA结合蛋白)。

另外的融合配偶体可以包括各种荧光蛋白、多肽、变体、或其功能性结构域，例如GFP、超折叠GFP、EGFP、BFP、EBFP、EBFP2、Azurite、mKalama1、CFP、ECFP、Cerulean、CyPet、mTurquoise2、YFP、Citrine、Venus、Ypet、BFPms1、roGFP和胆红素诱导型荧光蛋白例如UnaG、dsRed、eqFP611、Dronpa、TagRFPs、KFP、EosFP、Dendra、IrisFP等。

还合适的融合配偶体包括但不限于边界元件(例如，CTCF)、提供外围招募的蛋白质及其片段(例如核纤层蛋白A、核纤层蛋白B等)、以及蛋白质对接元件(例如，FKBP/FRB、Pill/Abyl等)。

实现增加的或减少的转录的融合配偶体的其它非限制性实例在以下列出，并包括转录激活子和转录抑制子结构域(例如Kruppel相关盒(KRAB或SKD)；Mad mSIN3相互作用结构域(SID)；ERF抑制子结构域(ERD)等)。

在一些实施方式中，异源序列可以融合到PUF结构域或Cas9蛋白(例如野生型、切口酶或dCas9蛋白)的C末端。在一些实施方式中，异源序列可以融合到PUF结构域或Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)的N末端。在一些实施方式中，异源序列可以融合到PUF结构域或Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)的内部部分(即，除了N-末端或C-末端以外的部分)。

在一些实施方式中，通过将PUF结构域与提供亚细胞定位的异源序列(即，异源序列是亚细胞定位序列，例如用于靶向核的核定位信号(NLS，例如PPKKKRKV)；用于靶向线粒体的线粒体定位信号；用于靶向叶绿体的叶绿体定位信号；ER保留信号等)融合而产生PUF结构域融合物。在一些实施方式中，异源序列可以提供标签(即，异源序列是可检测标记)，以便于跟踪和/或纯化(例如荧光蛋白，例如绿色荧光蛋白(GFP)、YFP、RFP、CFP、mCherry、tdTomato等；组氨酸标签，例如6×His标签；凝集素(HA)标签；FLAG标签；Myc标签等)。在一些实施方式中，异源序列可以提供增加或降低的稳定性(即，异源序列是稳定性控制肽，例如降解决定子，其在一些情况下是可控的(例如，温度敏感性或药物可控性降解决定子序列，见下)。在一些实施方式中，异源序列可以提供增加或减少的来自靶DNA的转录(即，异源序列是转录调节序列，例如转录因子/激活子或其片段、募集转录因子/激活子的蛋白质或其片段、转录抑制子或其片段、募集转录抑制子的蛋白质或其片段、小分子/药物响应性转录调节因子等)。在一些实施方式中，异源序列可以提供结合结构域(即，异源序列是蛋白质结合序列，例如，以提供嵌合PUF结构域或Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)与感兴趣的另外的蛋白质(例如DNA或组蛋白修饰蛋白、转录因子或转录抑制子、招募蛋白质等)结合的能力)。

提供增加或降低的稳定性的合适的融合配偶体包括但不限于降解决定子序列。降解决定子被本领域普通技术人员容易地理解为是控制它们是其部分的蛋白质的稳定性的氨基酸序列。例如，包含降解决定子序列的蛋白质的稳定性至少部分地由降解决定子序列控制。在一些情况下，合适的降解决定子是组成型的，使得降解决定子不依赖于实验控制而对蛋白质稳定性发挥其影响(即，降解决定子不是药物诱导型、温度诱导型等)。在一些情况下，降解决定子提供具有可控稳定性的PUF结构域或Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)，使得PUF结构域或Cas9蛋白(例如野生型、切口酶或dCas9蛋白)可以根据期望条件而“开”(即稳定)或“关”(即，不稳定、降解)。例如，如果降解决定子是温度敏感性降解决定子，则PUF结构域或Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)可以在阈值温度(例如，42℃、41℃、40℃、39℃、38℃、37℃、36℃、35℃、34℃、33℃、32℃、31℃、30℃等)以下是功能性的(例如，“开”，稳定)，但是在阈值温度以上是非功能性的(即，“关”，降解)。作为另一个实例，如果降解决定子是药物诱导型降解决定子，则药物的存在或不存在可以将蛋白质从“关”(即不稳定)状态转变为“开”(即稳定)状态，反之亦然。示例性的药物诱导型降解决定子源自于FKBP12蛋白。该降解决定子的稳定性通过与该降解决定子结合的小分子的存在或不存在控制。

合适的降解决定子的实例包括但不限于由Shield-1、DHFR、生长素和/或温度控制的那些降解决定子。合适的降解决定子的非限制性实例是本领域已知的(例如，Dohmen等，Science，263(5151):1273-1276，1994:“Heat-inducible degron:a method forconstructing temperature-sensitive mutants”；Schoeber等，Am.J.Physiol.Renal.Physiol.，296(1):F204-211，2009:“Conditional fast expressionand function of multimeric TRPV5channels using Shield-1”；Chu等，Bioorg.Med.Chem.Lett.，18(22):5941-4，2008:“Recent progress with FKBP-deriveddestabilizing domains”；Kanemaki，Pflugers Arch.，2012:“Frontiers of proteinexpression control with conditional degrons”；Yang等，Mol.Cell.，48(4):487-8，2012:“Titivated for destruction:the methyl degron”；Barbour等，Biosci.Rep.，33(1)，2013:“Characterization of the bipartite degron that regulates ubiquitin-independent degradation of thymidylate synthase”；和Greussing等，J.Vis.Exp.，(69)，2012:“Monitoring of ubiquitin-proteasome activity in living cells usinga Degron(dgn)-destabilized green fluorescent protein(GFP)-based reporterprotein”；所有这些都通过引用整体并入)。

已经在细胞和动物二者中良好地表征和测试了示例性的降解决定子序列。因此，将Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)融合到降解决定子序列产生了“可调型”和“诱导型”PUF结构域或Cas9(例如，野生型、切口酶或dCas9蛋白)。

本文描述的融合配偶体中的任一种可以以任何期望组合使用。作为一个非限制性实例以进行说明，每个PUF结构域可以独立地融合到相同或不同的融合配偶体，并且它们可以以任何顺序结合到本发明的多核苷酸的一系列PBS上。例如，一个PUF结构域可以融合到用于检测的YFP序列、第二个PUF结构域融合到用于稳定性的降解决定子序列，并且第三个PUF结构域融合到转录激活子序列以增加靶DNA的转录。这些类型的PUF结构域融合物中的任一种可以以任何期望顺序在本发明的多核苷酸上具有多于1个结合位点或PBS。可用于PUF结构域融合物的融合配偶体的数量在很大程度上是无限制的(例如，至少2、5、10、20、30、40、50或更多)。

在一些实施方式中，任何PUF结构域或Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)融合蛋白可以包含一个或多个(例如两个或更多个、三个或更多个、四个或更多个、或五个或更多个)异源序列或融合配偶体。

在一些实施方式中，本发明的Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)或PUF结构域融合物中的任一种可以进行密码子优化。这种类型的优化是本领域已知的，并且需要外源衍生DNA的突变以模拟预期的宿主生物或细胞的密码子偏好，同时编码相同蛋白质。因此，改变密码子，但所编码的蛋白质保持不变。例如，如果预期的靶细胞是人细胞，则人密码子优化的PUF结构域或Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)融合物将是更适合的PUF结构域或Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)融合物。作为另一个非限制性实例，如果预期的宿主细胞是小鼠细胞，则小鼠密码子优化的PUF结构域融合物或Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)将是合适的PUF结构域融合物或Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)。虽然密码子优化不是必要的，但在某些情况下其是可接受的并且可能是优选的。

本发明的PUF结构域中的任一种可以使用例如Golden Gate Assembly试剂盒(参见Abil等，Journal of Biological Engineering 8:7，2014)制得，所述试剂盒可在Addgene(试剂盒#1000000051)获得。

5.转录的调节

本发明的PUF结构域和/或Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)融合蛋白被本发明的多核苷酸的DNA靶向序列靶向至靶DNA中的特定位置(即靶多核苷酸序列)，并发挥基因座特异性调节，例如阻断RNA聚合酶结合启动子(其选择性抑制转录激活子功能)和/或修饰局部染色质状态(例如，当使用融合序列时修饰靶DNA或修饰与靶DNA相关的多肽)。在一些情况下，该变化是瞬时的(例如转录抑制或激活)。在一些情况下，该变化是可遗传的(例如当对靶DNA或对与靶DNA相关的蛋白质例如核小体组蛋白作出表观遗传修饰时)。

使用本发明的PUF结构域或Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)融合蛋白的方法的生物学效应可以通过任何方便的方法(例如，基因表达测定；基于染色质的测定，例如，染色质免疫沉淀(ChiP)、染色质体内测定(CiA)等)检测。

在一些情况下，本发明的方法涉及使用两个或更多个不同的DNA靶向序列。例如，两个不同的DNA靶向序列可以用于单一宿主细胞，其中两个不同的DNA靶向序列靶向相同靶核酸中的两个不同的靶多核苷酸序列。因此，例如，本发明的转录调节方法可以还包括向宿主细胞中引入第二DNA靶向序列，或包含编码第二DNA靶向序列的核苷酸序列的核酸。在一些情况下，使用靶向相同靶核酸中的两个不同靶向序列的两个不同的DNA靶向序列提供了靶核酸的转录的增加的调节(例如减少或增加)。

作为另一个实例，两个不同的DNA靶向序列可以用于单一宿主细胞，其中两个不同的DNA靶向序列靶向两个不同的靶核酸。

因此，在某些实施方式中，本发明的转录调节方法提供了宿主细胞中的靶核酸的选择性调节(例如，减少或增加)。例如，与DNA靶向序列/修饰的Cas9多肽/PUF结构域融合复合物不存在的情况下的靶核酸的转录水平相比，靶核酸的转录的“选择性”减少使靶核酸的转录减少至少约10％、至少约20％、至少约30％、至少约40％、至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、或大于90％。靶核酸的转录的选择性减少减少了靶核酸的转录，但并不实质上减少非靶核酸的转录，例如，与DNA靶向序列/修饰的Cas9多肽/PUF结构域-融合复合物不存在的情况下的非靶核酸的转录水平相比，使非靶核酸的转录减少(如果真的会发生的话)小于10％。

另一方面，与DNA靶向序列/修饰的Cas9多肽/PUF结构域-融合复合物不存在的情况下的靶DNA的转录水平相比，靶DNA的“选择性”增加的转录可以使靶DNA的转录增加至少约1.1倍(例如，至少约1.2倍、至少约1.3倍、至少约1.4倍、至少约1.5倍、至少约1.6倍、至少约1.7倍、至少约1.8倍、至少约1.9倍、至少约2倍、至少约2.5倍、至少约3倍、至少约3.5倍、至少约4倍、至少约4.5倍、至少约5倍、至少约6倍、至少约7倍、至少约8倍、至少约9倍、至少约10倍、至少约12倍、至少约15倍、或至少约20倍)。靶DNA的转录的选择性增加增加靶DNA的转录，但并不实质上增加非靶DNA的转录，例如，与DNA靶向序列/修饰的Cas9多肽/PUF结构域-融合复合物不存在的情况下的非靶DNA的转录水平相比，使非靶DNA的转录增加(如果真的会发生的话)小于约5倍(例如，小于约4倍、小于约3倍、小于约2倍、小于约1.8倍、小于约1.6倍、小于约1.4倍、小于约1.2倍、或小于约1.1倍)。

作为非限制性实例，可以通过将dCas9融合到异源序列和/或通过将异源序列融合到结合本发明的多核苷酸的PBS的PUF结构域之一而实现增加的转录。合适的融合配偶体包括但不限于提供通过直接作用于靶DNA或与靶DNA相关的多肽(例如组蛋白或其它DNA结合蛋白)间接增加转录的活性的多肽。合适的融合配偶体包括但不限于提供甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、去腺苷酸化活性、SUMO化活性、去SUMO化活性、核糖基化活性、去核糖基化活性、豆蔻酰化活性或去豆蔻酰化活性的多肽。

另外的合适的融合配偶体包括但不限于直接提供靶核酸的增加的转录的多肽(例如，转录激活子或其片段、募集转录激活子的蛋白质或其片段、小分子/药物响应性转录调节因子等)。参见标题为“PUF结构域(和任选的dCas9)融合蛋白”的部分。

使用dCas9融合蛋白和/或PUF结构域融合蛋白以增加原核生物中的转录的本发明的方法的非限制性实例包括细菌单杂交(B1H)或双杂交(B2H)系统的修饰。在B1H系统中，将DNA结合结构域(BD)与细菌转录激活结构域(AD，例如大肠杆菌RNA聚合酶的α亚基(RNAPα)))融合。因此，本发明的dCas9或PUF结构域可以融合到包含AD的异源序列。当本发明的dCas9或PUF结构域融合蛋白到达启动子的上游区域(被DNA靶向序列靶向到那里)，dCas9或PUF结构域融合蛋白的AD(例如RNAPα)募集RNAP全酶，导致转录激活。在B2H系统中，BD不直接融合到AD；相反，它们的相互作用由蛋白质-蛋白质相互作用介导(例如，GAL11P-GAL4相互作用)。为修饰用于本发明的方法的这样的系统，dCas9或PUF结构域可以融合到提供蛋白质-蛋白质相互作用的第一蛋白质序列(例如，酵母GAL11P和/或GAL4蛋白)，并且RNAPα可以融合到使蛋白质-蛋白质相互作用完整的第二蛋白质序列(例如，如果GAL11P与dCas9或PUF结构域融合，则是GAL4，如果GAL4与dCas9或PUF结构域融合，则是GAL11P，等等)。GAL11P和GAL4之间的结合亲和力增加了结合效率和转录速率。

使用dCas9和/或PUF结构域融合蛋白以增加真核生物中的转录的本发明的方法的非限制性实例包括将dCas9和/或PUF结构域融合到激活结构域(AD)(例如，GAL4、疱疹病毒激活蛋白VP16或VP64、人核因子NF-κB p65亚基等)。为使系统可诱导，dCas9/PUF结构域融合蛋白的表达可以通过诱导型启动子(例如，Tet-ON、Tet-OFF等)控制。DNA靶向序列可以设计成靶向已知的转录响应元件(例如启动子、增强子等)、已知的上游激活序列(UAS)、具有怀疑能够控制靶DNA的表达的未知或已知功能的序列，等等。

在一些实施方式中，在相同细胞中同时使用多个本发明的多核苷酸以在相同靶DNA上或不同靶DNA上的不同位置处同时调节转录。在一些实施方式中，两个或更多个本发明的多核苷酸靶向相同的基因或转录物或基因座。在一些实施方式中，两个或更多个本发明的多核苷酸靶向不同的不相关基因座。在一些实施方式中，两个或更多个本发明的多核苷酸靶向不同但相关的基因座。

因为本发明的多核苷酸小而稳健，它们可以同时存在于相同的表达载体上，并且如果期望，甚至可以在相同的转录控制下。在一些实施方式中，两个或更多个(例如3个或更多个、4个或更多个、5个或更多个、10个或更多个、15个或更多个、20个或更多个、25个或更多个、30个或更多个、35个或更多个、40个或更多个、45个或更多个、或50个或更多个)本发明的多核苷酸在靶细胞中从相同或不同的载体同时表达。所表达的本发明的多核苷酸可以由来自不同细菌如化脓性链球菌、嗜热链球菌、英诺克李斯特菌(L.innocua)和脑膜炎奈瑟氏球菌的正交dCas9蛋白不同地识别。

为表达多个本发明的多核苷酸，可以使用由Csy4核糖核酸内切酶介导的人造RNA处理系统。多个本发明的多核苷酸可以连结到前体转录物(例如，从U6启动子表达的)上的串联阵列中，并由Csy4特异性RNA序列分开。共表达的Csy4蛋白将前体转录物切割成多个本发明的多核苷酸。使用RNA处理系统的优点包括：首先，不需要使用多个启动子或载体；第二，由于所有本发明的多核苷酸都是从前体转录物处理的，所以它们的浓度针对类似的野生型Cas9/Cas9切口酶/dCas9结合进行标准化。

Csy4是源自于细菌铜绿假单胞菌的小型核糖核酸内切酶(RNase)蛋白。Csy4特异性识别最小的17-bp RNA发夹，并显示快速(<1分钟)和高效(>99.9)的RNA切割。与大多数RNase不同，所切割的RNA片段保持稳定和功能活性。基于Csy4的RNA切割可以改换用途到人造RNA处理系统中。在该系统中，将17-bp RNA发夹插入从单一启动子转录为前体转录物的多个RNA片段之间。Csy4的共表达在产生个体RNA片段方面是有效的。

6.宿主细胞

调节转录的本发明的方法可用于在体内和/或离体和/或体外诱导有丝分裂或有丝分裂后细胞中的转录调节。由于本发明的多核苷酸通过与靶DNA的靶多核苷酸序列杂交而提供特异性，因此有丝分裂和/或有丝分裂后细胞可以是各种宿主细胞中的任一种，其中合适的宿主细胞包括但不是限于细菌细胞；古细菌细胞；单细胞真核生物；植物细胞；藻类细胞，例如布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonasreinhardtii)、微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorellapyrenoidosa)、展枝马尾藻(Sargassum patens)、蜈蚣藻(C.agardh)等；真菌细胞；动物细胞；来自无脊椎动物(例如昆虫、刺胞动物、棘皮动物、线虫等)的细胞；真核寄生虫(例如，疟原虫，例如恶性疟原虫；蠕虫等)；来自脊椎动物(例如鱼、两栖动物、爬行动物、鸟、哺乳动物)的细胞；哺乳动物细胞，例如啮齿动物细胞、人细胞、非人灵长类动物细胞等。合适的宿主细胞包括天然存在的细胞；遗传修饰的细胞(例如，在实验室中遗传修饰的细胞，例如通过“人手”)；和以任何方式在体外操作的细胞。在一些情况下，宿主细胞是分离或培养的。

任何类型的细胞可以是感兴趣的(例如干细胞，例如胚胎干(ES)细胞、诱导多能干(iPS)细胞、生殖细胞；体细胞，例如成纤维细胞、造血细胞、神经元、肌肉细胞、骨细胞、肝细胞、胰细胞；任何阶段的胚胎的体外或体内胚胎细胞，例如1细胞，2细胞，4细胞，8细胞等阶段的斑马鱼胚胎；等等)。细胞可以来自已建立的细胞系，或者它们可以是原代细胞，其中“原代细胞”、“原代细胞系”和“原代培养物”在本文中可互换使用以指已经获自受试者，并且允许培养物体外生长有限数量的传代(即分裂)的细胞和细胞培养物。例如，原代培养物包括可以已传代0次、1次、2次、4次、5次、10次或15次，但时间不足以经历危机阶段的培养物。原代细胞系可在体外保持少于10代。靶细胞在许多实施方式中是单细胞生物体，或在培养物中生长。

如果细胞是原代细胞，则此类细胞可以通过任何方便的方法从个体收获。例如，白细胞可以通过单采、白细胞单采、密度梯度分离等方便地收获，而来自诸如皮肤、肌肉、骨髓、脾脏、肝脏、胰腺、肺、肠、胃等组织的细胞通过活检最为方便地收获。适当的溶液可用于收获的细胞的分散或悬浮。这样的溶液通常将是平衡盐溶液，例如生理盐水、磷酸盐缓冲盐水(PBS)、汉克平衡盐溶液等，其方便地补充有胎牛血清或其他天然存在的因子，连同低浓度例如5-25mM的可接受的缓冲液。方便的缓冲液包括HEPES、磷酸盐缓冲液、乳酸盐缓冲液等。细胞可以立即使用，或者它们可以长时间储存、冷冻、解冻并能够被再次使用。在这样的情况下，通常将在10％二甲基亚砜(DMSO)、50％血清、40％缓冲介质或本领域常用的其它溶液中冷冻细胞以在这样的冷冻温度下保存细胞，并以本领域通常已知用于解冻冷冻培养细胞的方式解冻。

7.将核酸引入宿主细胞

可以通过各种众所周知的方法中的任一种将本发明的多核苷酸、包含编码其的核苷酸序列的核酸、或包含编码本发明的Cas9蛋白(例如野生型、切口酶或dCas9蛋白)或PUF结构域融合物的核苷酸序列的核酸引入宿主细胞。

将核酸引入宿主细胞的方法是本领域已知的，并且可以使用任何已知的方法将核酸(例如载体或表达构建体)引入干细胞或祖细胞。合适的方法包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂质转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见例如Panyam等，Adv.Drug Deliv.Rev.，pii:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。

因此，本发明还提供了包含编码本发明的多核苷酸的核苷酸序列的分离的核酸。在一些情况下，本发明的核酸还包含编码本发明的Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)和/或本发明的PUF结构域融合物的核苷酸序列。

在一些实施方式中，本发明的方法涉及将一种或多种核酸(例如载体)引入宿主细胞(或宿主细胞群体)，该核酸包含编码本发明的多核苷酸和/或本发明的Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)和/或本发明的PUF结构域融合物的核苷酸序列。在一些实施方式中，包含靶DNA的宿主细胞是在体外。在一些实施方式中，包含靶DNA的宿主细胞是在体内。包含编码本发明的多核苷酸和/或本发明的Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)和/或本发明的PUF结构域融合物的核苷酸序列的合适核酸包括表达载体，其中表达载体可以是重组表达载体。

在一些实施方式中，重组表达载体是病毒构建体，例如重组腺相关病毒构建体(参见例如美国专利号7,078,387)、重组腺病毒构建体、重组慢病毒构建体、重组逆转录病毒构建体等。

合适的表达载体包括但不限于病毒载体(例如基于以下的病毒载体：牛痘病毒；脊髓灰质炎病毒；腺病毒(参见例如Li等，Invest Opthalmol.Vis.Sci.，35:2543-2549，1994；Borras等，Gene Ther.，6:515-524，1999；Li和Davidson，Proc.Natl.Acad.Sci.USA，92:7700-7704，1995；Sakamoto等，Hum.Gene Ther.，5:1088-1097，1999；WO 94/12649，WO 93/03769；WO 93/19191；WO 94/28938；WO 95/11984和WO 95/00655)；腺相关病毒(参见例如Ali等，Hum.Gene Ther.，9:81-86，1998；Flannery等，Proc.Natl.Acad.Sci.USA，94:6916-6921，1997；Bennett等，Invest Opthalmol Vis Sci 38:2857-2863，1997；Jomary等，GeneTher.，4:683-690，1997；Rolling等，Hum.Gene Ther.，10:641-648，1999；Ali等，Hum.Mol.Genet.，5:591-594，1996；Srivastava，WO 93/09239；Samulski等，J.Vir.，63:3822-3828，1989；Mendelson等，Virol.，166:154-165，1988；和Flotte等，Proc.Natl.Acad.Sci.USA，90:10613-10617，1993)；SV40；单纯疱疹病毒；人免疫缺陷病毒(参见例如Miyoshi等，Proc.Natl.Acad.Sci.USA，94:10319-23，1997；Takahashi等，J.Virol.，73:7812-7816，1999)；逆转录病毒载体(例如，鼠白血病病毒、脾坏死病毒、和衍生自诸如劳斯氏肉瘤病毒、Harvey肉瘤病毒、鸟白血病病毒、慢病毒、HIV病毒、骨髓增生性肉瘤病毒和乳腺肿瘤病毒的逆转录病毒的载体)；等等。

许多合适的表达载体是本领域技术人员已知的，并且许多可商购。下列载体作为实例提供；对于真核宿主细胞：pXT1、pSG5(Stratagene)、pSVK3、pBPV、pMSG和pSVLSV40(Pharmacia)。然而，可以使用任何其它载体，只要其与宿主细胞相容即可。

取决于所使用的宿主/载体系统，大量合适的转录和翻译控制元件(包括组成型和诱导型启动子、转录增强子元件、转录终止子等)中的任一种可以用于表达载体(参见例如Bitter等，Methods in Enzymology，153:516-544，1987)。

在一些实施方式中，编码本发明的多核苷酸和/或本发明的Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)和/或本发明的PUF结构域融合物的核苷酸序列可操作地连接到控制元件，例如转录控制元件，例如启动子。转录控制元件可以在真核细胞(例如哺乳动物细胞)；或原核细胞(例如细菌或古细菌细胞)中起作用。在一些实施方式中，编码本发明的多核苷酸和/或本发明的Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)和/或本发明的PUF结构域融合物的核苷酸序列可操作地连接到允许在原核细胞和真核细胞二者中表达编码本发明的多核苷酸和/或本发明的Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)和/或本发明的PUF结构域融合物的核苷酸序列的多个控制元件。

启动子可以是组成型活性启动子(即组成地处于活性/“ON”状态的启动子)，其可以是诱导型启动子(即，其活性/“ON”或非活性/“OFF”状态由外部刺激例如特定温度、化合物或蛋白质的存在控制的启动子”)，其可以是空间受限型启动子(即转录控制元件、增强子等)(例如，组织特异性启动子、细胞类型特异性启动子等)，并且其可以是时间受限型启动子(即，启动子在胚胎发育的特定阶段期间或在生物过程的特定阶段(例如小鼠中的毛囊循环)期间处于“ON”状态或“OFF”状态)。

合适的启动子可以源自病毒，并且因此可以称为病毒启动子，或者它们可以源自任何生物，包括原核或真核生物。合适的启动子可用于驱动任何RNA聚合酶(例如pol I、polII、pol III)的表达。示例性的启动子包括但不限于SV40早期启动子、小鼠乳腺肿瘤病毒长末端重复(LTR)启动子；腺病毒主要晚期启动子(Ad MLP)；单纯疱疹病毒(HSV)启动子、巨细胞病毒(CMV)启动子如CMV即刻早期启动子区(CMVIE)、劳斯肉瘤病毒(RSV)启动子、人U6小核启动子(U6)(Miyagishi等，Nature Biotech.，20:497-500，2002)、增强型U6启动子(例如，Xia等，Nucleic Acids Res.，31(17):e100，2003)、人HI启动子(HI)等。

诱导型启动子的实例包括但不限于T7RNA聚合酶启动子、T3RNA聚合酶启动子、异丙基-β-D-硫代半乳糖吡喃糖苷(IPTG)调节启动子、乳糖诱导启动子、热休克启动子、四环素调节启动子(例如，Tet-ON、Tet-OFF等)、类固醇调节启动子、金属调节启动子、雌激素受体调节启动子等。因此，诱导型启动子可以由包括但不限于以下的分子调节：多西环素；RNA聚合酶，例如T7RNA聚合酶；雌激素受体；雌激素受体融合物；等等。

在一些实施方式中，启动子是空间受限型启动子(即细胞类型特异性启动子、组织特异性启动子等)，使得在多细胞生物体中，启动子在特定细胞的亚组中是活性的(即，“ON”)。空间受限型启动子也可以称为增强子、转录控制元件、控制序列等。可以使用任何方便的空间受限型启动子，并且对合适的启动子(例如，脑特异性启动子、驱动神经元的亚组中的表达的启动子、驱动生殖细胞系中的表达的启动子、驱动肺中的表达的启动子、驱动肌肉中的表达的启动子、驱动胰腺的胰岛细胞中的表达的启动子等)的选择将取决于生物体。例如，各种空间受限型启动子对于植物、苍蝇、蠕虫、哺乳动物、小鼠等是已知的。因此，取决于生物体，空间受限型启动子可用于在种类繁多的不同组织和细胞类型中调节编码本发明的Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)或PUF结构域融合物的核酸的表达。一些空间受限型启动子也在时间上受到限制，使得启动子在胚胎发育的特定阶段期间或在生物过程的特定阶段(例如，小鼠中的毛囊循环)期间处于“ON”状态或“OFF”状态。

为了说明的目的，空间受限型启动子的实例包括但不限于神经元特异性启动子、脂肪细胞特异性启动子、心肌细胞特异性启动子、平滑肌特异性启动子、光感受器特异性启动子等。神经元特异性空间受限型启动子包括但不限于神经元特异性烯醇化酶(NSE)启动子(参见例如EMBL HSEN02，X51956)；芳香族氨基酸脱羧酶(AADC)启动子；神经丝启动子(参见例如GenBank HUMNFL，L04147)；突触素启动子(参见例如GenBank HUMSYNIB，M55301)；thy-1启动子(参见例如Chen等，Cell，51:7-19，1987；和Llewellyn等，Nat.Med.，16(10):1161-1166，2010)；血清素受体启动子(参见例如GenBank S62283)；酪氨酸羟化酶启动子(TH)(参见例如Oh等，Gene Ther.，16:437，2009；Sasaoka等，Mol.Brain Res.，16:274，1992；Boundy等，Neurosci.，18:9989，1998；和Kaneda等，Neuron，6:583-594，1991)；GnRH启动子(参见例如Radovick等，Proc.Natl.Acad.Sci.USA，88:3402-3406，1991)；L7启动子(参见例如Oberdick等，Science，248:223-226，1990)；DNMT启动子(参见例如Bartge等，Proc.Natl.Acad.Sci.USA，85:3648-3652，1988)；脑啡肽启动子(参见例如Comb等，EMBOJ.，17:3793-3805，1988)；髓磷脂碱性蛋白(MBP)启动子；Ca²⁺钙调素依赖性蛋白激酶II-α(CamKIIa)启动子(参见例如Mayford等，Proc.Natl.Acad.Sci.USA，93:13250，1996；和Casanova等，Genesis，31:37，2001)；CMV增强子/血小板衍生生长因子-β启动子(参见例如Liu等，Gene Therapy，11:52-60，2004)；等等。

脂肪细胞特异性空间受限型启动子包括但不限于aP2基因启动子/增强子，例如人aP2基因的-5.4kb至+21bp区域(参见例如Tozzo等，Endocrinol.138:1604，1997；Ross等，Proc.Natl.Acad.Sci.USA，87:9590，1990；和Pavjani等，Nat.Med.，11:797，2005)；葡萄糖转运蛋白-4(GLUT4)启动子(参见例如Knight等，Proc.Natl.Acad.Sci.USA，100:14725，2003)；脂肪酸转位酶(FAT/CD36)启动子(参见例如Kuriki等，Biol.Pharm.Bull.，25:1476，2002；和Sato等，Biol.Chem.277:15703，2002)；硬脂酰-CoA去饱和酶-1(SCD1)启动子(Tabor等，Biol.Chem.274:20603，1999)；瘦素启动子(参见例如Mason等，Endocrinol.139:1013，1998；和Chen等，Biochem.Biophys.Res.Comm.，262:187，1999)；脂联素启动子(参见例如Kita等，Biochem.Biophys.Res.Comm.，331:484，2005；和Chakrabarti，Endocrinol.151:2408，2010)；降脂蛋白(adipsin)启动子(参见例如Piatt等，Proc.Natl.Acad.Sci.USA，86:7490，1989)；抵抗素启动子(参见例如Seo等，Molec.Endocrinol.，17:1522，2003)；等等。

心肌细胞特异性空间受限型启动子包括但不限于源自以下基因的控制序列：肌球蛋白轻链-2、α-肌球蛋白重链、AE3、心肌肌钙蛋白C、心肌肌动蛋白等。Franz等，Cardiovasc.Res.，35:560-566，1997；Robbins等，Ann.N.Y.Acad.Sci.，752:492-505，1995；Linn等，Circ.Res.，76:584-591，1995；Parmacek等，Mol.Cell.Biol.，14:1870-1885，1994；Hunter等，Hypertension，22:608-617，1993；和Sartorelli等，Proc.Natl.Acad.Sci.，89:4047-4051，1992。

平滑肌特异性空间受限型启动子包括但不限于SM22a启动子(参见例如Akyurek等，Mol.Med.，6:983，2000；和美国专利号7,169,874)；平滑肌素(smoothelin)启动子(参见例如WO 2001/018048)；α-平滑肌肌动蛋白启动子；等等。例如，已经显示SM22a启动子的0.4kb区域(其中存在两个CArG元件)介导血管平滑肌细胞特异性表达(参见例如Kim等，Mol.Cell.Biol.，17:2266-2278，1997；Li等，J.Cell Biol.，132:849-859，1996；和Moessler等，Development，122:2415-2425，1996)。

光感受器特异性空间受限型启动子包括但不限于视紫红质启动子；视紫红质激酶启动子(Young等，Ophthalmol.Vis.Sci.，44:4076，2003；β磷酸二酯酶基因启动子(Nicoud等，Gene Med.，9:1015，2007)；色素性视网膜炎基因启动子(Nicoud等，2007，同上)；光间受体类视黄醇结合蛋白(IRBP)基因增强子(Nicoud等(2007)，同上)；IRBP基因启动子(Yokoyama等，Exp.Eye Res.，55:225，1992)；等等。

8.文库

本发明还提供了多个本发明的多核苷酸序列或所述多核苷酸序列的文库，或多个编码所述多核苷酸序列的载体或所述载体的文库。后者可以包含含有编码本发明的多核苷酸的核苷酸的重组表达载体的文库。

本发明的文库可以包含约10个个体成员至约10¹²个个体成员；例如，本发明的文库可以包含约10个个体成员至约10²个个体成员，约10²个个体成员至约10³个个体成员、约10³个个体成员至约10⁵个个体成员、约10⁵个个体成员至约10⁷个个体成员、约10⁷个个体成员至约10⁹个个体成员、或约10⁹个个体成员至约10¹²个个体成员。

在某些实施方式中，载体中的两个在所编码的多核苷酸的以下方面存在不同：其各自的DNA靶向序列、Cas9结合序列、和/或PBS的拷贝数、同一性(例如序列或结合特异性)或相对顺序。

例如，在某些实施方式中，本发明的文库的“个体成员”与该文库的其它成员在本发明的多核苷酸的DNA靶向序列的核苷酸序列方面不同。因此，例如，本发明的文库的每个个体成员可以包含与该文库的所有其它成员相同或基本上相同的Cas9结合序列的核苷酸序列；并且可以包含与该文库的所有其它成员相同或基本上相同的PBS的核苷酸序列；但与该文库的其它成员在本发明的多核苷酸的DNA靶向序列的核苷酸序列方面不同。以这种方式，文库可以包含结合相同靶基因上或不同靶基因上的不同靶多核苷酸序列的成员。

在一个相关实施方式中，文库的成员可以不同，使得不同的DNA靶向序列与不同的PBS相关联，使得可以独立地调节不同的靶DNA-例如，一些靶基因被转录地激活(并且任选地被第一荧光颜色标记)，而其它的被转录地抑制(并且任选地被第二荧光颜色标记)。

在某些其它实施方式中，本发明的文库的个体成员与该文库的其它成员在本发明的多核苷酸的Cas9结合序列的核苷酸序列方面不同。因此，例如，本发明的文库的每个个体成员可以包含与该文库的所有其它成员相同或基本上相同的DNA靶向序列的核苷酸序列；并且可以包含与该文库的所有其它成员相同或基本上相同的PBS的核苷酸序列；但与该文库的其它成员在本发明的多核苷酸的Cas9结合序列的核苷酸序列方面不同。以这种方式，文库可以包含结合来自不同物种的不同正交Cas9蛋白(例如，野生型、切口酶或dCas9蛋白)的成员，允许在相同宿主细胞中分别地且平行地可调节的系统。

在某些其它实施方式中，本发明的文库的个体成员与该文库的其它成员在本发明的多核苷酸的PBS的核苷酸序列方面不同。因此，例如，本发明的文库的每个个体成员可以包含与该文库的所有其它成员相同或基本上相同的DNA靶向序列的核苷酸序列；并且可以包含与该文库的所有其它成员相同或基本上相同的Cas9结合序列的核苷酸序列；但与该文库的其它成员在本发明的多核苷酸的PBS的核苷酸序列方面不同。

9.示例性功用

根据本发明用于调节转录的方法可用于各种应用，包括研究应用；诊断应用；工业应用；和治疗应用。

研究应用可以包括，例如，确定减少或增加靶核酸转录对例如发育、代谢、下游基因表达等的影响。

可以使用本发明的转录调节方法进行高通量基因组分析，其中只有本发明的多核苷酸的DNA靶向序列需要改变，而Cas9结合序列和PBS可以(在一些情况下)保持不变。包含在基因组分析中使用的多个核酸的文库(例如，本发明的文库)将包括：可操作地连接到编码核苷酸序列的本发明的多核苷酸的启动子，其中每个核酸将包含不同的DNA靶向序列、常见的Cas9结合序列、以及常见的PBS。芯片可以含有超过5×10⁴个本发明的独特多核苷酸。

应用将包括大规模表型分析、基因-功能映射和宏基因组分析。

本文公开的本发明的方法也可用于代谢工程领域。因为可以通过设计如本文所公开的合适的DNA靶向RNA而有效和可预测地控制转录水平，所以可以通过控制感兴趣的代谢途径内的特定酶的水平(例如，通过增加或减少的转录)而精确控制和调整代谢途径(例如，生物合成途径)的活性。感兴趣的代谢途径包括用于化学(精细化学品、燃料、抗生素、毒素、激动剂、拮抗剂等)和/或药物生产的那些。

实施例

实施例1在插入47个拷贝的工程化Pumilio结合位点的情况下，sgRNA支架仍然具有功能

本实施例证明，本发明的3组分CRISPR/Cas复合物/系统可以在sgRNA的3'末端具有至少47个拷贝的工程化8聚体Pumilio同源结构域结合序列(PBS)，而不显著影响dCas9/sgRNA复合物的功能。

具体地，为测试在sgRNA的3'末端附加PBS是否影响sgRNA功能，生成了一系列修饰的Tet靶向(sgTetO)或非靶向对照(sg对照)sgRNA，其具有用于PUF(3-2)(也简称为PUFa)[PBS32或PBSa：5'-UGUAUgUA-3']、PUF(6-2/7-2)(也简称为PUFb)[PBS6272或PBSb：5'-UugAUAUA-3']的0个拷贝、5个拷贝、15个拷贝、25个拷贝和47个拷贝的8聚体Pumilio同源结构域结合序列(PBS)。参见图1A。测试这些构建体引导dCas9-VP64转录激活子激活HEK293T/TetO::tdTomato细胞系中的tdTomato表达的能力。

用具有不同sgRNA支架的dCas9-VP64转染细胞，并在转染后两天通过荧光激活细胞分选(FACS)分析细胞(图1B)。所有对照非靶向sgRNA都没有激活tdTomato表达。同时，具有不同数量的PBS的所有Tet靶向sgRNA可以引导dCas9-VP64激活tdTomato表达，显示插入至少47个拷贝的8聚体位点基本上不影响sgRNA将dCas9-VP64引导至其靶标的活性(图1C)。

在测试条件下，并且对于PUFa-VP64/PBSa和PUFb-VP64/PBSb两者，附加到sgRNA的5-10个拷贝的PBS最好地能够激活靶转基因。同时，15、20和47个拷贝的PBS导致尽管仍然大量但略微更低的转基因激活(图1C)。

实施例2由于具有同源8聚体结合位点的工程化Pumilio的特异性，本发明的3组分CRISPR/Cas复合物/系统彼此正交

本实施例证明，不同编程的PUF结构域及其相应的具有其同源8聚体基序的sgRNA之间的特异性提供了本发明的3组分CRISPR/Cas复合物/系统中的每一个之间的独立性或正交性。

分别创建与具有5'-UGUAUgUA-3'结合位点的sgRNA(sgRNA-PBS32)和具有5'-UugAUAUA-3'结合位点的sgRNA-PBS6272相互作用的PUF(3-2)::VP64和PUF(6-2/7-2)::VP64的融合物，并测试其连同dCas9启动tdTomato表达的活性。此外，还构建了两个另外的对：识别PBSw(5'-UGUAUAUA-3')的PUFw-VP64和识别PBSc(5'-UugAUgUA-3')的PUFc-VP64，以测试其连同dCas9激活相同TetO::tdTomato表达的能力(图1D)。

如图1D中所示，只有当提供具有同源结合位点的sgRNA时，PUF::VP64才可以激活tdTomato表达。这证明本发明的3组分CRISPR/Cas复合物/系统基于PUF结构域及其在sgRNA-PBS上的8聚体结合位点的配对提供了效应子功能的独立性或正交性。令人印象深刻的是，尽管PBSa和PBSw结合位点只有一个核苷酸的差异，但它们的基因激活仍然是靶特异性的，证明了本发明的3组分CRISPR/Cas复合物/系统的高度特异性。

实施例3本发明的3组分CRISPR/Cas复合物/系统允许在靶基因座处组装蛋白质复合物

本实施例证明，具有两个或更多个不同蛋白质组分的蛋白质复合物可以组装在sgRNA上，并使用本发明的系统在限定的基因座处操作。

具体地，最近已证明p65-HSF1是有效的激活子结构域。生成具有彼此相邻设置的PBS32和PBS6272，和将占据两个不同位点的PUF(3-2)::VP64和PUF(6-2/7-2)::p65-HSF1融合物的sgRNA(图2A)。PUF(3-2)::VP64和PUF(6-2/7-2)::p65-HSF1二者的共转染诱导tdTomato荧光，其强度约为单独转染单一激活子产生的荧光强度之和。这表明具有用于PUF(3-2)和PUF(6-2/7-2)二者的结合位点的sgRNA允许这两种类型的融合蛋白二者在靶基因组座上组装。

最近的一篇文章已经测试了VP64和p65HSF1二者作为转录激活结构域，并发现p65HSF1是更有效的激活子。为了直接比较这两个转录激活结构域，使用具有不同数量的PBSa的sgRNA，使用p65HSF1PUF融合物(PUFa-p65HSF1)和VP64PUF融合物(PUFa-VP64)激活TetO::tdTomato转基因(图2C)。PUFa-p65HSF1提供了与PUFa-VP64相比至多3倍的更多激活。即使只有一个PBSa(以前用PUFa-VP64模块未观察到)，也观察到激活。因此，p65HSF1被证实是比VP64更有效的转录激活结构域。

实施例4本发明的3组分CRISPR/Cas复合物/系统可以比dCas9与激活子的直接融合物更有效地激活内源性基因

我们以前使用每个基因3-4个sgRNA的混合物，以使用dCas9-VP160直接融合物实现OCT4和SOX2的稳健的内源性基因激活，而单一sgRNA不能诱导大量激活(数据未显示)。

本实施例证明，通过本发明的系统中的sgRNA-PBS上的多个PBS募集多个分子的激活子结构域，增加了反式激活活性，从而允许使用更少的sgRNA以实现内源性基因激活。

具体地，使用每个基因4种sgRNA-PBS的混合物或个体sgRNA-PBS(图3A和3B)，使用具有直接dCas9-p65HSF1激活子的本发明的系统比较HEK293T中内源基因OCT4和SOX2的激活。与混合的sgRNA-PBS混合物中的以及OCT4和SOX2二者的激活实验中的单一指导实验中的直接融合物相比，使用本发明的3组分CRISPR/Cas复合物/系统观察到更高的激活(图3A和3B)。通过将直接融合物dCas9-p65HSF1单一指导靶向至OCT4和SOX2，观察到很少的激活或没有激活，而在相应的3组分系统实验中观察到稳健的激活，显示了本发明的3组分CRISPR/Cas复合物/系统激活子超出直接融合物的优异活性。

为确定用于OCT4和SOX2激活的sgRNA上的PBSa位点的最佳数量，构建了具有1、5、15或25个拷贝的PBSa的靶向OCT4或SOX2近端启动子的sgRNA-PBS。在OCT4和SOX2二者实验中，我们使用5×PBSa，在sgRNA-5×PBSa混合物实验和单一sgRNA-5×PBSa实验中观察到最高的激活，重述了在TetO::tdTomato报道子实验中的发现(图3D和3E)。

实施例5本发明的3-组分CRISPR/Cas复合物/系统允许同时激活和抑制靶基因

本实施例证明，可以将不同的效应子功能分配给本发明的3组分CRISPR/Cas复合物/系统中的每一个。

首先生成KRAB::PUF(6-2/7-2)抑制融合物和靶向SVG启动子的sgRNA。然后使用具有TetO启动子控制下的tdTomato报道子和SV40启动子控制下的EGFP报道子的HEK293T报道子细胞系(HEK293T/TetO::tdTomato/SV40::EGFP)以测试同时(1)通过dCas9/sgTetO-PBS32/PUF(3-2)::VP64结合TetO启动子激活tdTomato，和(2)通过dCas9/sgSV40-PBS6272/KRAB::PUF(6-2/7-2)在SV40启动子处结合抑制EGFP表达(图4A)。由dCas9、sgTetO-5×PBS32和PUF(3-2)::VP64组成的3组分CRISPR/Cas激活子复合物的表达激活tdTomato荧光(图4B；样品2)，而由dCas9、sgSV40-5×PBS6272组成的3组分CRISPR/Cas抑制子复合物的表达减少EGFP荧光(图4B；样品4)。激活子和抑制子复合物二者的共表达分别诱导同时的tdTomato激活和EGFP转基因抑制(图4B，样品6)，证明具有不同效应子功能的本发明的3组分CRISPR/Cas复合物可以在相同的细胞内操作并在其靶标处产生不同的输出。

为进一步确认本发明的系统在招募各种效应子方面的多功能性，构建了KRAB-PUFa抑制子融合物以及PUFc-p65HSF1激活子融合物。在报道子细胞系HEK293T/TetO::tdTomato/SV40::EGFP中，TetO::tdTomato报道基因可以通过dCas9/PUFc-p65HSF1/sgTetO-PBSc有效地激活，而SV40::EGFP表达通过dCas9/KRAB-PUFa/sgSV40-PBSa显著地抑制(图4C)。当应用系统二者时，实现了同时的TetO::tdTomato激活和SV40::EGFP表达抑制(图4C)。当使用非靶向(sgCt1)sgRNA时，或者当省略PUF融合物时，各个报道子的荧光水平不受影响，表明对报道子的影响是特定的，并且是由于同源dCas9/sgRNA-PBS在靶标处募集的效应子的作用。

然后，测试是否可以使用该策略独立调节多个内源基因的表达。通过改变sgRNA-PBSb和sgRNA-PBSa的靶序列将本发明的3组分模块引导至内源性靶基因，使得将PUFb-p65HSF1募集到OCT4启动子和将BFPKRAB-PUFa募集到SOX2启动子。类似于来自报道基因实验的结果，实现了效应子介导的同时以及独立的OCT4激活和SOX2抑制(图4D)。

实施例6通过本发明的3-组分CRISPR/Cas复合物/系统募集组蛋白乙酰转移酶(HAT)结构域实现了增强子激活

人工转录因子系统可用于招募表观遗传改性子以激活或抑制基因。最近的实验已经使用组蛋白乙酰转移酶(HAT)以激活增强子。为证明本发明的3组分系统可以招募多个分子的HAT结构域以增加表观遗传编辑的效率，将OCT4用作模型基因，因为它的增强子和启动子被明确定义，并且对增强子使用的选择具有对应于胚胎干细胞状态的生物学意义。

在该实验中，靶向近端启动子(PP)、近端增强子(PE)和远端增强子(DE)，每个采用四种不同的sgRNA-PBS(图5A)。构建了来自CREB结合蛋白(CBP)的HAT和dCas9的C末端之间的直接融合物(dCas9::CBPHAT)，以及N末端融合模块CBPHAT::PUFa和C末端融合模块PUFa::CBPHAT。然后测试它们通过结合PP、PE和DE激活OCT4表达的活性。

如图5B中所示，dCas9::CBPHAT和CBPHAT::PUFa在近端启动子(PP)处具有相似的活性。有趣的是，当与具有5×PBSa的sgRNA结合时，本发明的3组分模块具有通过增强子PE和DE二者激活OCT4基因的更高效率，N末端融合物CBPHAT::PUFa给出最高的激活。然后，分析了通过sgRNA-5×PBSa通过单一sgRNA-5×PBSa引导至PP、PE和DE的CBPHAT::PUFa的活性(图5C)。尽管具有与使用4种sgRNA-5×PBSa的混合物相比更小的倍数变化，但单一sgRNA-5×PBSa能够通过靶向这些元件激活OCT4基因的表达(图5C)。

实施例7本发明的3组分CRISPR/Cas复合物/系统允许端粒的荧光标记

除了转录调控之外，dCas9效应子的另一个重要应用是标记基因组座以用于活细胞成像。本实施例证明，本发明的3组分CRISPR/Cas复合物/系统可用于染色体基因座的荧光标记，例如端粒的标记。

我们用0、5、15或25个拷贝的PBSa附接到设计成靶向端粒的sgRNA(sgTelomere)以招募融合到PUFa结构域的荧光蛋白(图6A)。在具有dCas9和Clover::PUFa的sgTelomere-5×PBSa、15×PBSa和25×PBSa的表达产生了与端粒标记一致的绿色荧光焦点的同时，不具有PBSa位点的sgRNA的表达不产生任何焦点(图6B)。为证实本发明的3组分系统引导的荧光信号确实定位于端粒，进行了采用针对端粒重复结合因子TRF2的抗体的共标记实验。3组分系统端粒信号与TRF标记大部分重叠(图6C)，表示通过用招募Clover-PUFa的PBSa位点附接的sgRNA对端粒的高度特异性标记。

有趣的是，端粒标记的强度随着更多拷贝的PBS被附接到端粒sgRNA而增加(图6B)。焦点数量和信噪比(焦点中的GFP/核中的总GFP％)的量化显示来自使用具有5、15至25×PBSa的sgRNA的实验的递增(图6D和6E)，表明本发明的3组分系统的多聚化特征允许在靶基因座处的标记强度的滴定。

实施例8本发明的3组分CRISPR/Cas复合物/系统允许端粒和着丝粒的同时荧光标记

本实施例证明，本发明的3组分CRISPR/Cas复合物/系统可以通过使用多重特征在相同细胞中同时标记多于一个(例如两个)基因组座。

为进一步证实本发明的3组分系统同时标记两个基因组座的能力，设计sgRNA以靶向着丝粒，其具有用于PUFc的附加结合位点(sgCentromere-20×PBSc)。观察并证实了通过本发明的3组分系统标记着丝粒和使用抗CREST抗体的免疫染色(图6F)。当将Clover-PUFb/sgCentromere-20×PBSc、Ruby-PUFa/sgTelomere-25×PBSa和dCas9共同引入HEK293T细胞时，观察到相同细胞中着丝粒和端粒二者的独立标记(图6G)，证明本发明的3组分系统可用于独立标记多个基因组座。

实施例9本发明的3组分CRISPR/Cas复合物/系统允许非重复染色体基因座的荧光标记

以前使用dCas9::GFP标记非重复性DNA的研究报道了需要>32个靶向事件以集中足够的信号以标记这样的非重复区域。本实施例证明，通过引入用于PUF-荧光蛋白融合物的多个结合位点，荧光信号可以集中在靶位点处，从而减少用于检测非重复DNA所需的靶向位点的量。

在本实施例中测试了在MUC4基因座处的非重复区域。对于各自含有15×PBS32、Clover::PUF(3-2)和dCas9的七(7)种sgRNA，成功检测到提示其的MUC4标记的标记图案(图7)。这证明本发明的3组分CRISPR/Cas复合物/系统可用于在限定的基因组座处“聚合”蛋白质，其使得能够并且大大扩展本发明的3组分CRISPR/Cas复合物/系统在成像领域中的应用。

上述实施例证明了本发明的3组分CRISPR/Cas复合物/系统实现多重性(图8A)、复合物形成(图8C)和蛋白质(包括转录调节子，表观遗传改性子和荧光蛋白)聚合(图8B)的能力，并且该系统可以独立地将它们引导到限定的基因组座。这使得能够在多个基因座处构建复杂的分子行为，并允许研究和重建具有限定的化学计量的蛋白质复合物。本发明的3组分CRISPR/Cas复合物/体系的聚合特征允许将酶活性或其它蛋白质集中至限定的基因组座，以增加酶活性的作用或集中信号富集用于染色体成像等应用。

更具体地，本发明的3组分系统的一些主要优点包括：(A)多重性。本发明的3组分系统的不同模块可以同时递送到细胞中，并且每个模块可在其确定的靶位点独立运行(即不干扰其它模块及其靶位点)。由于PUF结构域可以被容易地编程以识别任何8聚体RNA基序，因此这将独立模块的潜在数量扩展到4⁸(65536)的理论最大值。通过在另一个内插入PUF阵列，识别位点可以被编程为16聚体RNA基序，序列空间为4¹⁶(42.9亿)。(B)多聚化：线性8聚体PBS基序的简单性允许PUF融合物在sgRNA-PBS上的广泛多聚化，而不阻碍sgRNA转录或Cas9/sgRNA的DNA结合活性。该特征允许多个分子的PUF融合物在sgRNA上组装，从而允许效应子或蛋白质标签的局部集中。这对于荧光成像或转录调控特别有益。如标记重复序列如端粒的上述实验所示，具有更多PBS的sgRNA-PBS在端粒焦点处增加信号。该特征可以促进通常需要多于30种sgRNA的瓷砖式覆盖(tiling)的非重复序列的标记。观察到使用本发明的系统与直接dCas9-HAT融合物对比的HAT介导的增强子激活的更高效率。预期多聚化可以促进由可用于重新编程大表观遗传结构域如超增强子或印迹基因座的人造表观遗传因子引导的表观遗传修饰的传播。(C)化学计量学上确定的复合物形成：虽然没有在此直接测试，但预期sgRNA-PBS可以充当用于PUF引导的化学计量学上确定的蛋白质复合物的组装的RNA支架。具体地，具有不同特异性的不同数量的PBS拷贝可以被附加到sgRNA以允许具有确定化学计量以及具有沿着sgRNA-PBS的确定顺序的多蛋白复合物形成。

上述实施例中使用的材料和方法汇集如下。

克隆

下表S1中提供了载体、到其Addgene条目的链接的列表。克隆策略和序列的详细描述在下文给出。

用含有SgrAI和PacI位点的引物从含有这些编码序列的构建体扩增具有N末端NLS的PUFa[PUF(3-2)]和PUFb[PUF(6-2/7-2)]，并将其用于替代来自pAC164:pmax-dCas9Master_VP64的SgrAI-dCas9-FseI以创建pAC1355:pmax-NLSPUFa_VP64和pAC1356:pmax-NLSPUFb_VP64。使用具有至多NLSPUFb的重复4的5'片段和从NLSPUFa的重复5至末端的3'片段的融合PCR以创建pAC1357:pmax-NLSPUFw_VP64。使用NLSPUFa的5'片段与NLSPUb的3'片段的融合PCR以创建pAC1358:pmax-NLSPUFc_VP64。

从具有FseI PacI位点的MS2-P65-HSF1_GFP(Addgene：61423)扩增p65HSF1激活子ORF以替代pAC164中的VP64片段以创建pAC1410:pmax-dCas9_p65HSF1，并替代pAC1355和pAC1358中的VP64以分别创建pAC1393:pmax-NLSPUFa_p65HSF1和pAC1411:pmax-NLSPUFc_p65HSF1。

用含有SgrAI和FseI克隆位点的引物分别从pcDNA3-Clover(Addgene#40259)和pcDNA3-mRuby2(Addgene#40260)扩增Clover和mRuby2，与从上述pAC1356～1358扩增的各种FseI-PUF-PacI和从pAC149:pCR8-dCas9VP160(Addgene#48221)消化的载体连接以分别创建含有Clover_PUFa和Clover_PUFc、mRuby2_PUFa的ORF的通道供体载体pAC1402、pAC1403和pAC1404。这些ORF然后通过LR克隆酶(Invitrogen)与pAC1119:PB3-neo(-)-pmaxDEST(+)重组而转移到PB3-neo载体，以创建表达载体pAC1360(Clover_PUFa)、pAC1381(Clover_PUFc)和pAC1362(mRuby2_PUFa)。

用含有AgeI-ClaI位点的引物从SOX2TALE抑制子(KRAB 1-75)(Addgene#42945)扩增NLSKRAB抑制子结构域，并将其与用含AclI PacI引物扩增的NLSPUFa和用SgrAI-PacI消化的作为载体的pAC1360连接以创建pAC1412:PB3-neo(-)-pmax-NLSKRAB_NLSPUFa。

从pAC1393释放FseI-p65HSF1-PacI片段，并将其与从pAC1356释放的SgrAI-NLSPUMb片段和用SgrAI-PacI消化的作为载体的pAC1360连接以创建pAC1413:PB3-neo(-)-pmax-NLSPUFb_p65HSF1。从pHR-SFFV-dCas9-BFP-KRAB(Addgene#46911)扩增BFPKRAB片段，并将其用于替代来自pAC1360的Clover片段以创建pAC1414:PB3-neo(-)-pmax-BFPKRAB_NLSPUFa。然后，从pAC1413扩增NheI-CAGGS-NLSPUFb_p65HSF1-NheI片段，并将其插入到用NheI消化的pAC1414中以创建用于BFPKRAB-NLSPUFa和NLSPUFb-p65HSF1的双重表达载体(pAC1414:PB3-NLSPUFb_p65HSF1(-)neo(-)-BFPKRAB2_NLSPUFa)。

创建具有改进的接头序列，和PUF的N末端上的三个额外的NLS和C末端上的一个另外的NLS，以及用于N末端(SgrAI，ClaI)和C-末端(FseI-PacI)插入的克隆位点的四个通道供体载体(pAC1404～1408)。用含有FseI-PacI位点的引物使用小鼠cDNA从小鼠Crebbp基因扩增HAT序列，并将其插入到pAC164中以创建pAC1364:pmax-dCas9Master_CBPHAT和插入到pAC1405以创建pAC1415:pCR8-4×NLSPUFa_2×NLS_CBPHAT。用含有SgrAI-AclI位点的另一对引物扩增HAT序列，并将其克隆到pAC1405的SgrAI-ClaI位点中以创建pAC1416:pCR8-CBPHAT_4×NLSPUFa_2×NLS。将pAC1415和pAC1416重组到pAC90:pmax-DEST(Addgene#48222)中以分别创建表达载体pAC1417:pmax-4×NLSPUFa_2×NLS_CBPHAT和pAC1418:pmax-CBPHAT_4×NLSPUFa_2×NLS。从含有mCherry序列的质粒扩增FseI-mCherry-PacI片段，并将其与SgrAI-dCas9-FseI至PB3-neo(-)-pmax连接以生成pAC1419:PB3-neo(-)-pmax-dCas9Master_mCherry。

用于sgRNA-PBS的表达载体如下构建：首先，基于具有用于指导序列的低聚克隆的BbsI和具有用于插入PBS的3'BsaI(终止子的右上游)的sgF+E的sgRNA支架订购为gBlock(IDT)，并克隆到pX330(Addgene#42230)中替换AflIII-NotI区域以创建载体pAC1394:pX-sgFE-BsaI(AGAT)。然后，用T4PNK处理编码各自通过在一侧上侧接5'-AGAT-3'悬垂和在另一侧上侧接5'-ATCT-3'的ggc-间隔子分开的5×PBSa位点的寡聚物，将其退火并连接到用BsaI消化的pAC1394(以创建相容的悬垂)。然后对于不同数量的PBS筛选1个拷贝(5×PBS)、2个拷贝(10×PBS)等低聚插入的克隆体。对于1×PBS和2×PBS载体，使用含有一个PBS位点的寡聚物构建它们。然后如前所述，通过BbsI位点将每个靶的指导序列克隆到sgRNA-PBS表达载体上。对于具有GFP表达标志物的sgRNA表达载体，通过经由AscI位点将sgRNA-PBS表达盒从pX载体转移到PB-GFP载体上而构建它们。不同的sgRNA表达构建体列于表S1中。

用于实验的细胞培养

在具有10％胎牛血清(FBS)(Lonza)、4％Glutamax(Gibco)、1％丙酮酸钠(Gibco)和青霉素-链霉素(Gibco)的Dulbecco改良的Eagle培养基(DMEM)(Sigma)中培养HEK293T细胞。培养条件为37℃和5％CO₂。对于激活实验，在用200ng dCas9构建体、100ng修饰的sgRNA和100ng PUF-融合物用Attractene转染试剂(Qiagen)转染的前一天，将细胞以每孔100,000个细胞接种到12孔板中。转染后，使细胞生长48小时并收获用于RNA提取或荧光激活细胞分选(FACS)。对于双重激活-抑制实验，转染保持不变，然而将细胞以每孔150,000个细胞接种到12孔板中，并生长72小时，然后收获用于FACS。对于OCT4和SOX2双重激活-抑制实验，通过BFP(对于激活子-抑制子模块PUFb-p65HSF1/BFPKRAB-PUFa)、mCherry(对于dCas9mCherry)和GFP(对于共表达EGFP的载体上的sgRNA-PBS)对细胞进行三重分选，之后进行RNA提取。对于成像实验，在用50ng dCas9构建体、500ng修饰的sgRNA和50ng PUF荧光-融合物用Attractene转染试剂转染的前一天，将细胞接种到具有22×22×1显微镜盖玻片的6孔板中，每孔30万个细胞。转染后，使细胞生长48小时，然后进行免疫染色。

定量RT-PCR分析

用胰蛋白酶收获细胞，用Dulbecco磷酸盐缓冲盐水(dPBS)洗涤，以125g离心5分钟，然后使用RNeasy Plus Mini Kit(Qiagen)提取RNA。使用Applied Biosystems HighCapacity RNA-to-cDNA试剂盒与1μg RNA制备cDNA文库。使用GAPDH(Hs03929097，VIC)作为内源对照和OCT4(Hs00999632，FAM)和SOX2(Hs01053049，FAM)作为靶标设计TaqMan基因表达试验(Applied Biosystems)。使用具有UNG(Applied Biosystems)的TaqMan UniversalMaster Mix II进行定量PCR(qPCR)，每次反应使用2μl 1:10稀释的cDNA。用AppliedBiosystems ViiA7仪器分析激活。通过“ΔΔCt”算法计算基因表达水平并针对对照样品使其标准化。

荧光激活细胞分选

将细胞进行胰蛋白酶化并用2％多聚甲醛固定10分钟。然后将细胞以125g离心5分钟并重悬于dPBS中。使用CellQuest Pro软件(BD Bioscience)在FACScalibur流式细胞仪上分析样品。每次运行中收集了数千个事件。

免疫染色和显微镜检查

在粘附至盖玻片的同时，将细胞固定在2％多聚甲醛中，用dPBS中的0.1％TritonX-100洗涤，用dPBS中的0.4％Triton X-100在4℃下透化5分钟，在5％印迹级封闭缓冲液(BIO-RAD)中封闭30分钟，在封闭缓冲液中与一抗在4℃孵育过夜，用dPBS洗涤三次，然后在室温下用各自的Alexa Fluor缀合的二抗在暗处孵育3小时，再次洗涤，并用DAPI染色。在成像之前将盖玻片安装在具有甘油的载玻片上。使用1:100稀释的抗TRF2一抗(NovusBiologicals：NB110-57130)和1:500稀释的Alexa fluor 594-缀合的抗兔IgG二抗(Invitrogen，A11037)进行端粒的免疫染色。将1:100稀释的CREST抗体(AntibodiesIncorporated：15-235-0001)与1:500稀释的Alexa fluor594-缀合的抗人IgG二抗(Invitrogen，A11014)一起使用以检测着丝粒。

下文列出了上述实施例中使用的构建体中的一些的序列和相关序列。

>NLSPUFa_VP64关键：NLS PUFa VP64

MGILPPKKKRKVSRGRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLGGPAGSGRADALDDFDLDMLGSDALDDFDLDMLGSDALDDFDLDMLGSDALDDFDLDMLYID

在上述序列中，NLS序列为残基6-12，PUFa为残基15-363，VP64为残基371-421。

>NLSPUFb_VP64关键：NLS PUFb VP64

MGILPPKKKRKVSRGRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLGGPAGSGRADALDDFDLDMLGSDALDDFDLDMLGSDALDDFDLDMLGSDALDDFDLDMLYID

在上述序列中，NLS序列为残基6-12，PUFb为残基15-363，VP64为残基371-421。

>NLSPUFw_VP64关键：NLS PUFw VP64

MGILPPKKKRKVSRGRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLGGPAGSGRADALDDFDLDMLGSDALDDFDLDMLGSDALDDFDLDMLGSDALDDFDLDMLYID

在上述序列中，NLS序列为残基6-12，PUFw为残基15-363，VP64为残基371-421。

>NLSPUFc_VP64关键：NLS PUFc VP64

MGILPPKKKRKVSRGRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLGGPAGSGRADALDDFDLDMLGSDALDDFDLDMLGSDALDDFDLDMLGSDALDDFDLDMLYID

在上述序列中，NLS序列为残基6-12，PUFc为残基15-363，VP64为残基371-421。

>Clover_NLSPUFa关键：Clover NLS PUFa

MVSKGEELFTGVVPILVELDGDVNGHKFSVRGEGEGDATNGKLTLKFICTTGKLPVPWPTLVTTFGYGVACFSRYPDHMKQHDFFKSAMPEGYVQERTISFKDDGTYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNFNSHNVYITADKQKNGIKANFKIRHNVEDGSVQLADHYQQNTPIGDGPVLLPDNHYLSHQSALSKDPNEKRDHMVLLEFVTAAGITHGMDELYKSRGPYSIVSPKCGGGGSGPAGILPPKKKRKVSRGRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG

在上述序列中，NLS序列为残基264-270，PUFa为残基273-621，Clover为残基1-251。

>Clover_NLSPUFc关键：Clover NLS PUFc

MVSKGEELFTGVVPILVELDGDVNGHKFSVRGEGEGDATNGKLTLKFICTTGKLPVPWPTLVTTFGYGVACFSRYPDHMKQHDFFKSAMPEGYVQERTISFKDDGTYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNFNSHNVYITADKQKNGIKANFKIRHNVEDGSVQLADHYQQNTPIGDGPVLLPDNHYLSHQSALSKDPNEKRDHMVLLEFVTAAGITHGMDELYKSRGPYSIVSPKCGGGGSGPAGILPPKKKRKVSRGRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG

在上述序列中，NLS序列为残基264-270，PUFc为残基273-621，Clover为残基1-251。

>mRuby2_NLSPUFa关键：6×His-mRuby2NLS PUFa

MVRGSHHHHHHGMASMTGGQQMGRDLYDDDDKDPMVSKGEELIKENMRMKVVMEGSVNGHQFKCTGEGEGNPYMGTQTMRIKVIEGGPLPFAFDILATSFMYGSRTFIKYPKGIPDFFKQSFPEGFTWERVTRYEDGGVVTVMQDTSLEDGCLVYHVQVRGVNFPSNGPVMQKKTKGWEPNTEMMYPADGGLRGYTHMALKVDGGGHLSCSFVTTYRSKKTVGNIKMPGIHAVDHRLERLEESDNEMFVVQREHAVAKFAGLGGGMDELYKGGGGSGPAGILPPKKKRKVSRGRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG

在上述序列中，NLS序列为残基284-290，PUFa为残基293-641，6×His-mRuby2为残基1-271，包括残基6-11处的6×His标签。

>NLSPUFa_p65HSF1关键：PUFa NLS p65HSF1

MGILPPKKKRKVSRGRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLGGPAGGGGSGGGGSGGGGSGPKKKRKVAAAGSPSGQISNQALALAPSSAPVLAQTMVPSSAMVPLAQPPAPAPVLTPGPPQSLSAPVPKSTQAGEGTLSEALLHLQFDADEDLGALLGNSTDPGVFTDLASVDNSEFQQLLNQGVSMSHSTAEPMLMEYPEAITRLVTGSQRPPDPAPTPLGTSGLPNGLSGDEDFSSIADMDFSALLSQISSSGQGGGGSGFSVDTSALLDLFSPSVTVPDMSLPDLDSSLASIQELLSPQEPPRPPEAENSSPDSGKQLVHYTAQPLFLLDPGSVDTGSNDLPVLFELGEGSYFSEGDGFAEDPTISLLTGSEPPKAKDPTVSID

在上述序列中，NLS序列为残基6-12，PUFa为残基15-363，p65为残基427-575，HSF1为残基584-707。

>NLSKRAB_NLSPUFa关键：NLSKRAB PUFa

MGSPKKKRKVEASMDAKSLTAWSRTLVTFKDVFVDFTREEWKLLDTAQQIVYRNVMLENYKNLVSLGYQLTKPDVILRLEKGEEPWLVSRGSIVGILPPKKKRKVSRGRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG

在上述序列中，两个NLS序列为残基4-10和残基99-105，PUFa为残基108-456，KRAB为残基11-92。

>BFPKRAB_NLSPUFa关键：HA-2×NLS-BFPKRAB NLS PUFa

MAYPYDVPDYASLGSGSPKKKRKVEDPKKKRKVDGIGSGSNGSSGSSELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFINHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGCLIYNVKIRGVNFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANIKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANNETYVEQHEVAVARYCDLPSKLGHKLNGGGGGMDAKSLTAWSRTLVTFKDVFVDFTREEWKLLDTAQQIVYRNVMLENYKNLVSLGYQLTKPDVILRLEKGEEPGGSGGGSGPAGILPPKKKRKVSRGRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG

在上述序列中，NLS序列为残基370-376，PUFa为残基379-727，HA-2×NLS-BFPKRAB为残基1-355，包括残基3-11处的HA标签。>dCas9Master_mCherry HATag NLSdCas9mCherry

MIDGGGGSGGGGSGGGGSMYPYDVPDYASPKKKRKVEASDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSPKKKRKVEASGGGGSGGGGSGGGGSGPAMVSKGEEDNMAIIKEFMRFKVHMEGSVNGHEFEIEGEGEGRPYEGTQTAKLKVTKGGPLPFAWDILSPQFMYGSKAYVKHPADIPDYLKLSFPEGFKWERVMNFEDGGVVTVTQDSSLQDGEFIYKVKLRGTNFPSDGPVMQKKTMGWEASSERMYPEDGALKGEIKQRLKLKDGGHYDAEVKTTYKAKKPVQLPGAYNVNIKLDITSHNEDYTIVEQYERAEGRHSTGGMDELYKID

在上述序列中，两个NLS序列为残基30-36和1408-1414，dCas9为残基40-1406，mCherry为残基1436-1671，HA标签在残基20-28处。

>CBPHAT_4×NLS_PUFa_2×NLS关键：CBPHAT NLS PUFa

MIFKPEELRQALMPTLEALYRQDPESLPFRQPVDPQLLGIPDYFDIVKNPMDLSTIKRKLDTGQYQEPWQYVDDVWLMFNNAWLYNRKTSRVYKFCSKLAEVFEQEIDPVMQSLGYCCGRKYEFSPQTLCCYGKQLCTIPRDAAYYSYQNRYHFCEKCFTEIQGENVTLGDDPSQPQTTISKDQFEKKKNDTLDPEPFVDCKECGRKMHQICVLHYDIIWPSGFVCDNCLKKTGRPRKENKFSAKRLQTTRLGNHLEDRVNKFLRRQNHPEAGEVFVRVVASSDKTVEVKPGMKSRFVDSGEMSESFPYRTKALFAFEEIDGVDVCFFGMHVQEYGSDCPPPNTRRVYISYLDSIHFFRPRCLRTAVYHEILIGYLEYVKKLGYVTGHIWACPPSEGDDYIFHCHPPDQKIPKPKRLQEWYKKMLDKAFAERIINDYKDIFKQANEDRLTSAKELPYFEGDFWPNVLEESIKELEQEEEERKKEESTAASETPEGSQGDSKNAKKKNNKKTNKNKSSISRANKKKPSMPNVSNDLSQKLYATMEKHKEVFFVIHLHAGPVISTQPPIVDPDPLLSCDLMDGRDAFLTLARDKHWEFSSLRRSKWSTLCMLVELHTQGQDRFVYTCNECKHHVETRWHCTVCEDYDLCINCYNTKSHTHKMVKWGLGLDDEGSSQGEPQSKSPQESRRLSIQRCIQSLVHACQCRNANCSLPSCQKMKRVVQHTKGCKRKTNGGCPVCKQLIALCCYHAKHCQENKCPVPFCLNINDGGGGSDPKKKRKVDPKKKRKVDPKKKRKVGSTGSRNDGGGGSGGGGSGGGGSGRAGILPPKKKRKVSRGRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLGDPKKKRKVDPKKKRKVGGRGGGGSGGGGSGGGGSGPA

在上述序列中，六个7残基NLS序列从残基773、781、789、826、1185和1193开始，PUFa为残基835-1183，CBPHAT为残基2-764。>4×NLS_PUFa_2×NLS_CBPHAT关键：NLS PUFaCBPHAT

MIDGGGGSDPKKKRKVDPKKKRKVDPKKKRKVGSTGSRNDGGGGSGGGGSGGGGSGRAGILPPKKKRKVSRGRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLGDPKKKRKVDPKKKRKVGGRGGGGSGGGGSGGGGSGPAIFKPEELRQALMPTLEALYRQDPESLPFRQPVDPQLLGIPDYFDIVKNPMDLSTIKRKLDTGQYQEPWQYVDDVWLMFNNAWLYNRKTSRVYKFCSKLAEVFEQEIDPVMQSLGYCCGRKYEFSPQTLCCYGKQLCTIPRDAAYYSYQNRYHFCEKCFTEIQGENVTLGDDPSQPQTTISKDQFEKKKNDTLDPEPFVDCKECGRKMHQICVLHYDIIWPSGFVCDNCLKKTGRPRKENKFSAKRLQTTRLGNHLEDRVNKFLRRQNHPEAGEVFVRVVASSDKTVEVKPGMKSRFVDSGEMSESFPYRTKALFAFEEIDGVDVCFFGMHVQEYGSDCPPPNTRRVYISYLDSIHFFRPRCLRTAVYHEILIGYLEYVKKLGYVTGHIWACPPSEGDDYIFHCHPPDQKIPKPKRLQEWYKKMLDKAFAERIINDYKDIFKQANEDRLTSAKELPYFEGDFWPNVLEESIKELEQEEEERKKEESTAASETPEGSQGDSKNAKKKNNKKTNKNKSSISRANKKKPSMPNVSNDLSQKLYATMEKHKEVFFVIHLHAGPVISTQPPIVDPDPLLSCDLMDGRDAFLTLARDKHWEFSSLRRSKWSTLCMLVELHTQGQDRFVYTCNECKHHVETRWHCTVCEDYDLCINCYNTKSHTHKMVKWGLGLDDEGSSQGEPQSKSPQESRRLSIQRCIQSLVHACQCRNANCSLPSCQKMKRVVQHTKGCKRKTNGGCPVCKQLIALCCYHAKHCQENKCPVPFCLNI

在上述序列中，六个7残基NLS序列从残基10、18、26、63、422和430开始，PUFa为残基72-420，CBPHAT为残基458-1220。

载体及其Addgene登记号的列表

sgRNA-PBS表达载体依据PBS的数量和类型的列表

Claims

1.一种多核苷酸，其包含

(1)与靶多核苷酸序列互补的DNA靶向序列；

(2)Cas9结合序列；和

(3)一个或多个拷贝的PUF结构域结合序列(PBS)，其中所述一个或多个拷贝的所述PBS中的每一个结合相同或不同的PUF结构域；

其中Cas9蛋白(例如野生型、切口酶或dCas9蛋白)能够通过结合所述Cas9结合序列而与所述多核苷酸形成复合物。

2.权利要求1所述的多核苷酸，其中所述Cas9蛋白是当与所述多核苷酸复合时保留DNA结合能力的核酸酶缺乏型dCas9蛋白。

3.权利要求1所述的多核苷酸，其中当所述Cas9蛋白(例如野生型、切口酶或dCas9蛋白)与所述多核苷酸复合时，所述DNA靶向序列与所述靶多核苷酸序列碱基配对。

4.权利要求1所述的多核苷酸，其中所述靶多核苷酸序列包含或邻近转录调控元件。

5.权利要求4所述的多核苷酸，其中所述转录调控元件包含以下中的一种或多种：核心启动子、近端启动子元件、增强子、沉默子、隔离子和基因座控制区。

6.权利要求1所述的多核苷酸，其中所述靶多核苷酸序列包含或邻近端粒序列、着丝粒或重复基因组序列。

7.权利要求1所述的多核苷酸，其中所述靶多核苷酸序列包含或邻近基因组标志物序列(或感兴趣的基因组座)。

8.权利要求1所述的多核苷酸，其中所述靶多核苷酸序列的3'紧接互补链的PAM(原型间隔子邻近基序)序列5'-CCN-3'，其中N是任何DNA核苷酸。

9.权利要求1所述的多核苷酸，其中所述DNA靶向序列在约12-22个核苷酸(nt)、约14-20nt、约16-20nt、约18-20nt或约12、14、16、18或20nt上与所述靶多核苷酸序列互补(优选地，所述互补区包含12-22nt的连续段，优选在所述DNA结合序列的3'末端处)。

10.权利要求9所述的多核苷酸，其中所述DNA结合序列与所述靶多核苷酸序列50、60、70、80、90或95-100％互补。

11.权利要求1所述的多核苷酸，其中所述DNA结合序列具有5'末端核苷酸G。

12.权利要求1所述的多核苷酸，其还包含连接所述DNA靶向序列与所述Cas9结合序列的接头序列。

13.权利要求1所述的多核苷酸，其中所述Cas9结合序列形成发夹结构。

14.权利要求1所述的多核苷酸，其中所述Cas9结合序列为约37-47nt，或约42nt。

15.权利要求1所述的多核苷酸，其中所述Cas9蛋白是由于在野生型Cas9的一个或两个核酸内切酶催化位点(RuvC和HNH)处的点突变而缺乏核酸内切酶活性的Cas9切口酶或dCas9蛋白。

16.权利要求15所述的多核苷酸，其中所述点突变是D10A和H840A。

17.权利要求1所述的多核苷酸，其中所述一个或多个拷贝的所述PBS中的每一个具有约8个核苷酸。

18.权利要求1所述的多核苷酸，其包含1、2、3、4、5、10、15、20、25、30、35、40、45、46、47、48、49或50个拷贝，或1-50、2-45、3-40、5-35、5-10、10-20个拷贝的相同或不同的PBS。

19.权利要求1所述的多核苷酸，其包含可由PUF结构域PUF(3-2)结合的5'-UGUAUGUA-3'序列的PBS。

20.权利要求1所述的多核苷酸，其包含可由PUF结构域PUF(6-2/7-2)结合的5'-UUGAUAUA-3'序列的PBS。

21.一种编码权利要求1-20中任一项所述的多核苷酸的载体。

22.权利要求21所述的载体，其中所述多核苷酸的转录受到组成型启动子或诱导型启动子的控制。

23.权利要求20所述的载体，其中所述载体在来自哺乳动物(人；非人灵长类动物；非人哺乳动物；啮齿动物如小鼠、大鼠、仓鼠、豚鼠；牲畜哺乳动物如猪、绵羊、山羊、马、骆驼、牛；或宠物哺乳动物如猫或狗)；鸟、鱼、昆虫、蠕虫、酵母或细菌的细胞中是有活性的。

24.多个权利要求21-23中任一项所述的载体，其中所述载体中的两个在所编码的多核苷酸的以下方面存在不同：其各自的DNA靶向序列，Cas9结合序列，和/或所述PBS的拷贝数、同一性或相对顺序。

25.一种复合物，其包含权利要求1-20中任一项所述的多核苷酸，和所述Cas9蛋白(例如野生型、切口酶或dCas9蛋白)。

26.权利要求25所述的复合物，其还包含与所述一个或多个PBS结合的一个或多个PUF结构域。

27.权利要求26所述的复合物，其中所述PUF结构域中的每一个融合到效应子结构域。

28.权利要求27所述的复合物，其中所述效应子结构域独立地是转录抑制子、转录激活子、荧光蛋白、酶或染色质重塑蛋白(HDAC/HAT)。

29.权利要求27所述的复合物，其中所述PUF结构域中的至少两个融合到不同的效应子结构域。

30.权利要求25-29中任一项所述的复合物，其中所述Cas9蛋白(例如野生型、切口酶或dCas9蛋白)、所述PUF结构域和/或所述效应子结构域还包含核定位序列(NLS)。

31.权利要求25-30中任一项所述的复合物，其通过所述DNA靶向序列与所述靶多核苷酸序列结合。

32.一种宿主细胞，其包含权利要求21-23中任一项所述的载体，或权利要求24所述的多个载体。

33.权利要求32所述的宿主细胞，其还包含编码所述Cas9蛋白(例如野生型、切口酶或dCas9蛋白)的第二载体。

34.权利要求33所述的宿主细胞，其中所述第二载体还编码融合到所述Cas9蛋白(例如野生型、切口酶或dCas9蛋白)的效应子结构域。

35.权利要求33所述的宿主细胞，其中所述Cas9蛋白(例如野生型、切口酶或dCas9蛋白)的表达受到组成型启动子或诱导型启动子的控制。

36.权利要求32-35中任一项所述的宿主细胞，其还包含编码所述一个或多个PUF结构域的第三载体，每个所述PUF结构域融合到效应子结构域。

37.权利要求36所述的宿主细胞，其中所述一个或多个PUF结构域的表达独立地受到组成型启动子或诱导型启动子的控制。

38.权利要求34-37中任一项所述的宿主细胞，其中所述效应子结构域是转录抑制子、转录激活子、荧光蛋白、酶或染色质重塑蛋白(HDAC/HAT)。

39.权利要求33-38中任一项所述的宿主细胞，其中所述第二载体还编码融合到所述Cas9蛋白(例如野生型、切口酶或dCas9蛋白)或所述效应子结构域的核定位信号，和/或所述第三载体还编码融合到所述PUF结构域或所述效应子结构域的核定位信号。

40.权利要求33-39中任一项所述的宿主细胞，其中所述第二载体与所述载体相同，和/或其中所述第三载体与所述载体或所述第二载体相同。

41.权利要求32-40中任一项所述的宿主细胞，其是在活的动物中。

42.权利要求32-40中任一项所述的宿主细胞，其是培养的细胞。

43.一种在靶多核苷酸序列处组装权利要求26-31中任一项所述的复合物的方法，所述方法包括使以下接触或接近所述靶多核苷酸序列：

(1)权利要求1-20所述的多核苷酸中的任一种，或权利要求21-23所述的载体中的任一种，或权利要求24所述的多个载体；

(2)所述Cas9蛋白(例如野生型、切口酶或dCas9蛋白)或权利要求33-35和38-39所述的第二载体中的任一种；和

(3)所述PUF结构域中的一个或多个，每个所述PUF结构域融合到效应子结构域，或权利要求36-38和40中所述的第三载体中的任一种。

44.权利要求43所述的方法，其中所述复合物在细胞内组装，所述靶多核苷酸序列是所述细胞的基因组DNA的一部分，并且其中权利要求21-23所述的载体、权利要求33-35和38-39所述的第二载体、和权利要求36-38和40所述的第三载体被引入所述细胞。

45.权利要求43所述的方法，其中所述靶多核苷酸序列位于或接近异染色质中富含的基因组座，并且其中所述效应子结构域是可检测标志物(例如荧光蛋白)。

46.权利要求43所述的方法，其中所述靶多核苷酸序列位于或接近靶基因的转录调控元件，并且其中所述效应子结构域是转录调节子(例如激活子、抑制子)。

47.权利要求46所述的方法，其中所述靶基因的转录影响细胞命运决定、细胞分化、代谢通量或者生物学或生化学上可决定的结果。

48.一种分别调节细胞中的多个靶基因的转录或表观遗传状态的方法，所述方法包括：将权利要求24所述的多个载体，分别将dCas9蛋白或野生型Cas9的编码序列，以及将一个或多个PUF结构域的编码序列引入所述细胞，其中所述靶基因中的每一个包含靶多核苷酸序列，其允许(1)在所述靶多核苷酸序列处，从由所述多个载体中的一个编码的多核苷酸、所述dCas9蛋白或所述野生型Cas9，和PUF结构域组装三元复合物；和(2)调节包含所述靶多核苷酸序列的靶基因的转录或表观遗传状态。

49.权利要求48所述的方法，其中增强/刺激至少一种靶基因的转录，同时抑制至少另外的靶基因的转录。

50.一种试剂盒，其包含：

(1)权利要求1-20中任一项所述的多核苷酸，或权利要求21-23中任一项所述的载体；

(2)编码所述Cas9蛋白(例如野生型、切口酶或dCas9蛋白)的第二载体；和

(3)编码一个或多个PUF结构域的第三载体，每个所述PUF结构域融合到效应子结构域。

51.权利要求50所述的试剂盒，其还包含转化、转染或感染试剂，以促进将所述载体引入细胞。