CN112272704A

CN112272704A - 改造的cascade组分和cascade复合体

Info

Publication number: CN112272704A
Application number: CN201980038867.7A
Authority: CN
Inventors: 皮特·肖恩·卡梅伦; 斯科特·大卫·格雷迪; 桑内·伊芙琳·克朗普; 塞缪尔·亨利·斯滕伯格; 马修·斯科特·汤普森
Original assignee: Caribou Biosciences Inc
Current assignee: Caribou Biosciences Inc
Priority date: 2018-06-13
Filing date: 2019-06-12
Publication date: 2021-01-26
Also published as: AU2019284926A1; JP6965466B2; KR102516697B1; AU2019284926B2; AU2022200903B2; WO2019241452A1; KR20230035689A; EP4219720A3; CA3163768A1; AU2022200903A1; ZA202006880B; AU2019284926C1; EP3601574A4; EP4219720A2; EP3601574A1; KR20210006966A; CA3102148A1; SG11202010182SA; JP2021520844A; MX2020013579A

Abstract

本公开提供了改造的第一类I型CRISPR‑Cas(Cascade)系统，其包括多蛋白效应子复合体、包含I型CRISPR‑Cas亚基蛋白和核酸向导的核蛋白复合体、编码I型CRISPR‑Cas亚基蛋白的多核苷酸，以及向导多核苷酸。还公开了制备和使用本发明的改造的第一类I型CRISPR‑Cas系统的方法。

Description

改造的CASCADE组分和CASCADE复合体

相关申请的交叉引用

本申请是2019年5月22日递交的现在待决的第16/420,061号美国专利申请系列的部分延续，其中第16/420,061号美国专利申请系列是2019年1月30日递交的现在授权的第16/262,773号美国专利申请系列的延续，第16/262,773号美国专利申请系列是2018年8月17日递交的现在是2019年3月12日发布的第10,227,576号美国专利的第16/104,875号美国专利申请系列的延续，并且本申请要求2018年6月13日递交的现在待决的第62/684,735号美国临时专利申请系列以及2019年2月19日递交的现在待决的第62/807,717号美国临时专利申请系列的权益：以上申请系列的内容通过引用整体并入本文。

关于联邦赞助的研究或开发的申明

不适用。

序列表

本申请含有以ASCII形式电子提交的序列表，并在此通过引用整体并入本文中。于2019年6月12日生成的ASCII拷贝命名为CBI032-30_ST25.txt，且大小为3.1MB。

技术领域

本公开总体上涉及改造的第一类I型CRISPR-Cas(Cascade)系统，其包括多蛋白效应子复合体、包含I型CRISPR-Cas亚基蛋白和核酸向导的核蛋白复合体、编码I型CRISPR-Cas亚基蛋白的多核苷酸以及向导多核苷酸。本公开还涉及用于制备和使用本发明的改造的I型CRISPR-Cas系统的组合物和方法。

背景技术

规律间隔成簇短回文重复序列(CRISPR)和CRISPR相关蛋白(Cas)构成了CRISPR-Cas系统。CRISPR-Cas系统提供了针对细菌和古菌中的外来多核苷酸的适应性免疫(参见，例如Barrangou,R.,et al.,Science 315:1709-1712(2007)；Makarova,K.S.,et al.,Nature Reviews Microbiology 9:467-477(2011)；Garneau,J.E.,et al.,Nature 468:67-71(2010)；Sapranauskas,R.,et al.,Nucleic Acids Res.39:9275-9282(2011)；Koonin,E.V.,et al.,Curr.Opin.Microbiol.37:67-78(2017))。各种CRISPR-Cas系统在其天然宿主中能够靶向DNA(第一类I型；第二类II型和V型)、靶向RNA(第二类VI型)，以及联合靶向DNA和RNA(第一类III型)(参见，例如Makarova,K.S.,et al.,Nat.Rev.Microbiol.13:722-736(2015)；Shmakov,S.,et al.,Nat.Rev.Microbiol.15:169-182(2017)；Abudayyeh,O.O.,et al.,Science 353:1-17(2016))。

CRISPR-Cas系统的分类已拥有许多细分级数。Koonin,E.V.,et al.,(Curr.Opin.Microbiol.37:67-78(2017))提出了一种分类系统，该系统考虑了对CRISPR-Cas系统的各个类型和亚型具有特异性的标签cas基因。该分类还考虑了多个共有Cas蛋白之间的序列相似性、最佳保守Cas蛋白的系统发生、基因组织以及CRISPR阵列的结构。该方法提供了一种分类方案，其将CRISPR-Cas系统分成两种不同的类型：第一类包括多蛋白效应子复合体(I型(用于抗病毒防御的CRISPR相关复合体(“Cascade”)效应子复合体)、III型(Cmr/Csm效应子复合体)和IV型)；并且第二类包括单个效应子蛋白(II型(Cas9)、V型(Cas12a，先前称为Cpf1)和VI型(Cas13a，先前称为C2c2))。在第一类系统中，I型是最常见和多样化的，III型在古菌中比细菌中更常见，并且IV型是最少见的。

I型系统包括标签Cas3蛋白。Cas3蛋白具有负责DNA靶序列切割的解旋酶和DNA酶域。迄今为止，已鉴定了I型系统的7种亚型(即I-A、I-B、I-C、I-D、I-E、I-F型(以及I-F(例如，I-Fv1、I-Fv2))和I-U的变体)，其具有可变数量的cas基因。I型cas基因包括但不限于如下基因：cas7、cas5、cas8、cse2、csa5、cas3、cas2、cas4、cas1和cas6。具有I型系统的生物体的实例如下：I-A，闪烁古生球菌(Archaeoglobus fulgidus)；I-B，克氏梭菌(Clostridiumkluyveri)；I-C，嗜碱耐盐芽孢杆菌(Bacillus halodurans)；I-U，硫还原地杆菌(Geobacter sulfurreducens)；I-D，蓝丝菌(Cyanothece sp.)8802；I-E，大肠杆菌K12(E.coli K12)；I-F，假结核耶尔森氏菌(Yersinia pseudo-tuberculosis)；I-F变体，腐败希瓦氏菌(Shewanella putrefaciens)CN-32(Koonin,E.V.,et al.,Curr.Opin.Microbiol.37:67-78(2017))。已描述了Cas3蛋白介导的DNA切割和渐进性降解的特征(参见，例如Plagens,A.,et al.,Nucleic Acids Res.42:5125-5138(2014)；Maier,L.,et al.,RNABiol.10:865–874(2013)；Hochstrasser,M.,et al.,Proc.Natl.Acad.Sci.USA 111:6618–6623(2014)；Sinkunas,T.,et al.,EMBO J.30:1335–1342(2011)；Westra,E.,et al.,Mol.Cell 46:595–605(2012)；Mulepati,S.,et al.,J.Biol.Chem.288:22184–22192(2013)；Sinkunas,T.,et al.,EMBO J.32:385–394(2013)；Mulepati,S.,et al.,J.Biol.Chem.288:22184–22192(2013)；Redding,S.,et al.,Cell163:854–865(2015)；Sinkunas,T.,et al.,EMBO J.32:385–394(2013)；Westra,E.,etal.,Mol.Cell 46:595–605(2012))。

I型系统通常编码与CRISPR RNA(crRNA或“向导RNA”)组合形成Cascade复合体的蛋白。这些复合体包含多种蛋白和crRNA，这些蛋白和crRNA均从该CRISPR位点转录。在I型系统中，crRNA前体的初步加工由Cas6催化。这通常导致产生crRNA，其具有8个核苷酸的5′柄、间隔区和3′柄；5’柄和3’柄均来源于重复的序列。在一些系统中，3′柄形成茎-环结构；在其他系统中，crRNA的3′端的二次加工由核糖核酸酶催化(参见，例如van der Oost,J.,et al.,Nature Reviews Microbiology 12:479-492(2014))。

I型CRISPR-Cas系统的Cascade效应子复合体包含具有旁系同源的重复序列相关未知蛋白(RAMPs；例如Cas7和Cas5蛋白)的骨架，所述蛋白含有RNA识别基序(RRM)折叠以及另外的“大”和“小”亚基蛋白(参见，例如Koonin,E.V.,et al.,Curr.Opin.Microbiol.37:67-78,(2017)，图2)。这些Cascade效应子复合体通常具有Cas5亚基蛋白和数种Cas7亚基蛋白。此类Cascade效应子复合体还包含向导RNA。Cascade效应子复合体包含以非对称形式沿向导RNA的长度布置的不同的亚基蛋白。Cas5亚基蛋白和大亚基蛋白(Cas8蛋白)位于复合体的一端处，包裹住向导RNA的5’端。小亚基蛋白的数个拷贝与结合至Cas7亚基蛋白的多个拷贝的向导RNA骨架接触。Cas6亚基蛋白(另一种RAMP蛋白)主要通过与crRNA的3′柄(重复区)的结合而与Cascade效应子复合体结合。Cas6亚基蛋白通常用作参加crRNA前体加工的重复序列特异性的RNA酶；然而，在I-C型系统中，Cas5用作重复序列特异性的RNA酶，并且不存在Cas6。

CRISPR-Cas I型Cascade亚基蛋白的主要序列具有很小的序列同一性；然而，同源RAMP模块的存在和多蛋白效应子复合体的整体结构相似性支持了这些效应子复合体的共同起源(参见，例如Koonin,E.V.,et al.,Curr.Opin.Microbiol.37:67-78(2017))。

I型CRISPR-Cas系统中的适应性免疫作用机制主要涉及三个阶段：适应、表达和干预。在适应阶段，外来DNA或RNA感染宿主，并且由各种cas基因编码的蛋白结合感染DNA或RNA的区域。这样的区域称为前间隔区。前间区序列邻近基序(PAM)是与前间隔区相邻的短核苷酸序列(例如2-6个碱基对的DNA序列)。PAM序列通常由Cas1亚基蛋白/Cas2亚基蛋白复合体识别，其中活性PAM感应位点与Cas1亚基蛋白相关(参见，例如Jackson,S.A.,et al.,Science 356:356(6333)(2017))。

在表达阶段，将包含多个间隔区重复元件的CRISPR阵列转录为单个转录物。单个间隔区重复元件被核酸内切酶(例如I型，Cas6蛋白；和I-C型，Cas5蛋白)加工成单个crRNAs。Cas亚基蛋白被表达并与crRNA结合形成Cascade效应子复合体。

Cascad效应子复合体扫描感染宿主的外来多核苷酸，以识别与间隔区互补的DNA。在I型系统中，当效应子复合体识别出与临近PAM的间隔区互补的序列时，就会发生干扰；并且将Cas3蛋白募集到与DNA结合的Cascade效应子复合体，以切割并渐进性地消化外来多核苷酸。

Makarova,K.S.,et al.,(Cell 168:946(2017))提供了I型CRISPR-Cas系统的基因、同系物、Cascade复合体以及作用机制的概要信息。

因此，I型CRISPR-Cas系统目前在真核基因组改造应用中的用途有限，部分是由于Cascade复合体难于异源表达，以及I型CRISPR-Cas系统切割DNA靶标的方式。

发明概述

本发明总体上涉及组合物，其包含改造的I型CRISPR-Cas效应子复合体及其组分包括蛋白质组分、修饰的或差异化改变的向导多核苷酸，以及以上的组合。

本发明的一个实施方案是组合物，其包含：

第一改造的I型CRISPR-Cas效应子复合体，其包含：

第一Cse2亚基蛋白、第一Cas5亚基蛋白、第一Cas6亚基蛋白和第一Cas7亚基蛋白，

包含第一Cas8亚基蛋白和第一FokI的第一融合蛋白，其中第一Cas8亚基蛋白的N端或第一Cas8亚基蛋白的C端通过第一连接子多肽分别与第一FokI的C端或N端共价连接，并且其中第一连接子多肽具有10个氨基酸至40个氨基酸的长度，和

包含能够结合第一核酸靶序列的第一间隔区的第一向导多核苷酸；以及

第二改造的I型CRISPR-Cas效应子复合体，其包含：

第二Cse2亚基蛋白、第二Cas5亚基蛋白、第二Cas6亚基蛋白和第二Cas7亚基蛋白，

包含第二Cas8亚基蛋白和第二FokI的第二融合蛋白，其中第二Cas8亚基蛋白的N端或第二Cas8蛋白的C端通过第二连接子多肽分别与第二FokI的C端或N端共价连接，并且其中第二连接子多肽具有10个氨基酸至40个氨基酸的长度，和

包含能够结合第二核酸靶序列的第二间隔区的第二向导多核苷酸，其中第二核酸靶序列的前间区序列邻近基序(PAM)和第一核酸靶序列的PAM具有20个碱基对至42个碱基对的间隔区间距。

在一些实施方案中，第一连接子多肽和/或第二连接子多肽的长度是15个氨基酸至30个氨基酸或者17个氨基酸至20个氨基酸的长度。在一个实施方案中，第一连接子多肽和第二连接子多肽的长度是相同的。

第二核酸靶序列和第一核酸靶序列之间的间隔区间距包括但不限于22个碱基对至40个碱基对、26个碱基对至36个碱基对、29个碱基对至35个碱基对，或者30个碱基对至34个碱基对。

第一FokI和第二FokI可以是能够结合形成同型二聚体的单体亚基，或者是能够结合形成异型二聚体的不同的亚基。

在一些实施方案中，第一Cas8亚基蛋白的N端通过第一连接子多肽与第一FokI的C端共价连接，第一Cas8亚基蛋白的C端通过第一连接子多肽与第一FokI的N端共价连接，第二Cas8亚基蛋白的N端通过第二连接子多肽与第二FokI的C端共价连接，第二Cas8亚基蛋白的C端通过第二连接子多肽与第二FokI的N端共价连接，以及以上的组合。第一Cas8亚基蛋白和第二Cas8亚基蛋白中的每个可以包含具有不同序列的Cas8亚基蛋白，或者第一和第二Cas8亚基蛋白均可以包含相同的氨基酸序列。

类似地，第一Cse2亚基蛋白和第二Cse2亚基蛋白中的每个可以包含不同的或相同的Cse2亚基蛋白氨基酸序列，第一Cas5亚基蛋白和第二Cas5亚基蛋白中的每个可以包含不同的或相同的Cas5亚基蛋白氨基酸序列，第一Cas6亚基蛋白和第二Cas6亚基蛋白中的每个可以包含不同的或相同的Cas6亚基蛋白氨基酸序列，第一Cas7亚基蛋白和第二Cas7亚基蛋白中的每个可以包含不同的或相同的Cas7亚基蛋白氨基酸序列，以及以上的组合。

在优选的实施方案中，向导多核苷酸包含RNA。

在另外的实施方案中，本发明包括能够相对于野生型I型CRISPR Cas3蛋白(“wtCas3蛋白”)减少沿DNA的移动的改造的I型CRISPR Cas3突变体蛋白(“mCas3蛋白”)。

本发明还包括使用上述组合物进行细胞内的基因组编辑，以及制备上述组合物的方法。

鉴于本文中的公开内容，本发明的其他实施方案对于本领域普通技术人员将易于变得显而易见。

附图的简要说明

图并非是成比例描绘的，它们也未描绘成一定比例。指示符的位置是近似的。

图1A呈现了I型CRISPR-Cas效应子复合体的一般化视图。图1B呈现了I型CRISPR-Cas crRNA的一般化视图。

图2A、图2B和图2C呈现了具有结合至临近的间隔区序列的融合域的两种改造的I型CRISPR-Cas效应子复合体的说明性实例。

图3A和图3B呈现了环状排列的蛋白的实例。

图4A、图4B、图5A、图5B、图6A、图6B、图6C、图7A、图7B、图8、图9、图10A和图10B示出了本发明的改造的I型CRISPR-Cas效应子复合体的各种实例。

图11A和图11B示出了底物通道的实例。

图12A、图12B和图12C呈现了融合至Cascade亚基蛋白的功能蛋白域被dCas9:NATNA复合体的位点定向募集的一般化视图。

图13A、图13B、图14A、图14B和图14C示出了本发明的改造的I型CRISPR-Cas效应子复合体的实例。

图15A、图15B、图15C、图16A、图16B、图16C、图17A、图17B、图17C、图18A、图18B、图18C、图18D、图19A、图19B、图20A和图20B呈现了本发明的改造的I型CRISPR-Cas效应子复合体的实例及其使用方法。

图21A、图21B、图21C、图21D、图22A、图22B、图22C和图22D示出了本发明的使用包含活性核酸内切酶活性的Cas3蛋白的实施方案。

图23A、图23B、图23C、图23D、图23E、图24、图25、图26和图27呈现了各种Cascade组分表达系统的示意图。

图28、图29、图30、图31A、图31B、图32、图33A、图33B和图34呈现了与本发明的改造的Cascade系统的基因组编辑相关的数据。

图35示出了含有成对的向导RNAs(gRNAs)的最小CRISPR阵列的实例。

图36A、图36B、图36C和图36D呈现了与人类细胞中经由改造的I型CRISPR-Cas复合体的基于RNP和质粒的递送的基因组编辑相关的数据。

图37A、图37B、图37C、图37D、图37E、图37F和图37G呈现了与修复结果相关的数据。

图38A、图38B和图38C呈现了与gRNAs和靶标DNA之间的错配如何抑制改造的I型CRISPR-Cas复合体的基因组编辑相关的数据。

图39A、图39B、图39C和图39D呈现了与3种Cascade同系物变体的PAM选择性的扩大筛选相关的数据。

图40A、图40B、图40C、图40D、图40E和图40F呈现了与改造的I型CRISPR-Cas复合体的编辑效率的示例性变化相关的数据。

图41A、图41B和图41C呈现了与3种Cascade同系物变体的FokI-Cas8连接子长度和间隔区间距的扩大筛选相关的数据。

图42A和图42B示出了以寡聚物为模板的PCR扩增的实例。

图43呈现了基因组编辑百分比的数据，其显示为FokI-Cascade同系物变体和间隔区间距的函数。

图44显示了EcoCas3蛋白的功能域的线性示图和序列内制作的突变体的相对位置。

图45A、图45B、图45C和图45D显示了与使用包含野生型或突变体EcoCas3蛋白的EcoCascade RNP复合体的基因组编辑相关的数据。

图46A、图46B、图46C、图47A和图47B呈现了与dCas9-VP64/sgRNA RNP复合体路障及其对EcoCascade RNP复合体切割靶标的影响相关的数据。

图48显示了Cas3[D452A]/-EcoCascade或mCas3[D452A]-EcoCascade的示例性编辑数据。

图49呈现了利用PseCascade RNP复合体在8个TRAC靶标位点处进行基因组编辑的数据。

通过引用并入本文

在本说明书中引用的所有专利、出版物和专利申请都通过引用并入本文中，就好像每个单独的专利、出版物或专利申请都被明确地并且单独地指示为通过引用整体并入本文，用于所有目的。

发明详述

应当理解，本文所使用的术语仅出于描述特定实施方案的目的，而并非旨在进行限制。如本说明书和权利要求书中所使用的，单数形式“一个(a)”、“一种(an)”和“所述(the)”包括复数指示物，除非上下文另外明确指出。因此，例如，提及“一种多核苷酸”包括一种或多种多核苷酸，且提及“一种载体”包括一种或多种载体。

除非另有定义，否则本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同含义。尽管与本文描述的那些类似或等同的其他方法和材料可用于本发明，但是本文描述了优选的材料和方法。

鉴于本说明书和实施例的教导，本领域的普通技术人员可以应用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组多核苷酸的常规技术，如例如以下标准文本所教导的：Cellular and Molecular Immunology,第九版,A.K.Abbas.,etal.,Elsevier(2017),ISBN 978-0323479783；Cancer Immunotherapy Principles andPractice,第一版,L.H.Butterfield,et al.,Demos Medical(2017),ISBN 978-1620700976；Janeway’s Immunobiology,第九版,Kenneth Murphy,Garland Science(2016),ISBN 978-0815345053；Clinical Immunology and Serology:A LaboratoryPerspective,第四版,C.Dorresteyn Stevens,et al.,F.A.Davis Company(2016),ISBN978-0803644663；Antibodies:A Laboratory Manual,第二版,E.A.Greenfield,ColdSpring Harbor Laboratory Press(2014),ISBN 978-1-936113-81-1；Culture of AnimalCells:A Manual of Basic Technique and Specialized Applications,第七版,R.I.Freshney,Wiley-Blackwell(2016),ISBN 978-1118873656；Transgenic AnimalTechnology,第三版:A Laboratory Handbook,C.A.Pinkert,Elsevier(2014),ISBN 978-0124104907；The Laboratory Mouse,第二版,H.Hedrich,Academic Press(2012),ISBN978-0123820082；Manipulating the Mouse Embryo:A Laboratory Manual,第四版,R.Behringer,et al.,Cold Spring Harbor Laboratory Press(2013),ISBN 978-1936113019；PCR 2:A Practical Approach,M.J.McPherson,et al.,IRL Press(1995),ISBN 978-0199634248；Methods in Molecular Biology(Series),J.M.Walker,ISSN1064-3745,Humana Press；RNA:A Laboratory Manual,D.C.Rio,et al.,Cold SpringHarbor Laboratory Press(2010),ISBN978-0879698911；Methods in Enzymology(Series),Academic Press；Molecular Cloning:A Laboratory Manual(第四版),M.R.Green,et al.,Cold Spring Harbor Laboratory Press(2012),ISBN 978-1605500560；Bioconjugate Techniques,第三版,G.T.Hermanson,Academic Press(2013),ISBN 978-0123822390；Methods in Plant Biochemistry and Molecular Biology,W.V.Dashek,CRC Press(1997),ISBN 978-0849394805；Plant Cell Culture Protocols(Methods in Molecular Biology),V.M.Loyola-Vargas,et al.,Humana Press(2012),ISBN 978-1617798177；Plant Transformation Technologies,C.N.Stewart,et al.,Wiley-Blackwell(2011),ISBN 978-0813821955；Recombinant Proteins from Plants(Methods in Biotechnology),C.Cunningham,et al.,Humana Press(2010),ISBN 978-1617370212；Plant Genomics:Methods and Protocols(Methods in MolecularBiology),W.Busch,Humana Press(2017),ISBN 978-1493970018；Plant Biotechnology:Methods in Tissue Culture and Gene Transfer,R.Keshavachandran,et al.,OrientBlackswan(2008),ISBN 978-8173716164。

规律间隔成簇短回文重复序列(CRISPR)和相关的CRISPR相关蛋白(Cas蛋白)构成了CRISPR-Cas系统(参见，例如Barrangou,R.,et al.,Science 315:1709-1712(2007))。

如本文所用，“Cas蛋白”、“CRISPR-Cas蛋白”和“CRISPR-Cas亚基蛋白”及“Cas亚基蛋白”，除非另外指出，否则均指第一类I型CRISPR-Cas蛋白。通常，对于在本发明的方面中的用途，Cas亚基蛋白能够与一种或多种同源的多核苷酸(最通常地，crRNA)发生相互作用而形成I型效应子复合体(最通常地，RNP复合体)。

随着时间的变化，以各种惯例对I-E型CRISPR–Cas系统中的编码Cascade的基因进行了命名，这在比较最新和较旧的文献时可能会成为一个混淆点。通常，本说明书使用的是如Koonin,E.,et al.(Curr.Opin.Microbiol.37:67-78(2017))中所示的的命名法，其中参考大肠杆菌K12操纵子中的基因顺序为：cas3、cas8、cas11、cas7、cas5、cas6、cas1和cas2。为简单起见，cas8e中的“e”限定词有时用于区分I型系统中不同亚型之间的cas8基因。野生型大肠杆菌I-E型CRISPR-Cas的化学计量为Cas5₁-Cas6₁-Cas7₆-Cas8₁-Cas11₂-gRNA₁。

然而，出于交叉引用的目的：cas8以前被称为cse1和casA，且也被称为“大亚基”；cas11以前被称为cse2和casB，且也被称为“小亚基”；cas7以前被称为cse4和casC；cas5以前被称为casD，且有时也被赋予了限定词cas5e；并且cas6以前被称为cse3和casE，且通常被赋予限定词cas6e。

表1列出了编码Cas亚基蛋白的基因。

*如Makarova,K.S.,et al.,Nat.Rev.Microbiol.13:722-736(2015)；Koonin,E.V.,et al.,Curr Opin Microbiol.37:67-78(2017)所定义的。

PAM序列通常被Cas1亚基蛋白/Cas2亚基蛋白复合体识别，其中活性PAM感应位点与Cas1亚基蛋白相关(参见，例如Jackson,S.A.,et al.,Science 356:356(6333)(2017))。Cas1蛋白和Cas2蛋白存在于绝大多数已知的CRISPR-Cas系统中，且足够将间隔区插入CRISPR盒中(参见，例如Yosef,I,et al.,Nucleic Acids Res.40:5569–5576(2012))。这两种蛋白质形成了用于适应过程的复合体。Cas1蛋白的核酸内切酶活性为间隔区整合所需要，而Cas2蛋白似乎进行非酶促功能(参见，例如Nunez,J.,et al.,Nat Struct MolBiol.21:528–534(2014)；Richter,C.,et al.,PLoS One.2012；7:e49549)。Cas1-Cas2蛋白复合体代表了CRISPR-Cas系统的高度保守的信息处理模块，其相对于系统的其余部分似乎是准自主的(参见，例如Makarova,K.,et al.,Methods Mol.Biol.1311:47-75(2015))。核酸内切酶Cas1蛋白是确保CRISPR系统保持对先前感染剂遭遇记忆的独特能力所必需的Cas蛋白。

术语“I型CRISPR-Cas效应子复合体”、“I型CRISPR-Cas核蛋白(NP)复合体”、“Cascade核蛋白(NP)复合体”和“I型核蛋白(NP)复合体”在本文中可互换使用，并且通常是指形成具有向导多核苷酸的复合体的Cascade蛋白。当提及Cascade NP复合体的蛋白组分时，通常使用“Cascade复合体”和“I型复合体”。术语“Cascade RNP复合体”、“I型CRISPR-Cas RNP复合体”和“I型RNP复合体”是指包含crRNA相对于更一般的向导多核苷酸(即，如在Cascade NP复合体中)的Cascade复合体。野生型I型CRISPR-Cas效应子复合体的实例示出在图1A中。图1A自Makarova,K.S.,et al.,(Cell 168:946(2017)；Makarova,K.,et al.,Nature Reviews Microbiology 13:722-736(2015))调整而来。图1A示出了结合为Cascade复合体的6种Cas7蛋白、Cas5蛋白、Cas8蛋白、两种Cse2蛋白、Cas6蛋白和crRNA(图1A：Cas7、Cas5、Cas8、Cse2和Cas6；Cas6周围的虚线框是指其与crRNA发卡的相互作用；cRNA示出为包括发卡的黑线)。复合体能够结合核酸靶序列。在wtCas3蛋白(图1A，虚线框所环绕的Cas3)与复合体结合后，Cascade复合体能够切割核酸靶序列。如表1所示，一些Cas亚基蛋白的总数量在Cascade复合体中可能存在差异。

“Cas3”和“Cas3蛋白”在本文可互换使用，是指I型CRISPR-Cas3蛋白、其修饰和变体。I型CRISPR-Cas效应子复合体结合与crRNA向导互补的外来DNA并募集Cas3，Cas3是靶标降解所需的反式作用核酸酶-解旋酶。Cas3蛋白具有来自超家族2的解旋酶特征的基序，并包含DEAD/DEAH框区域和保守的C端域。Cas3蛋白及其变体是本领域已知的(参见，例如Westra,E.R.,et al.,Mol.Cell.46:595–605(2012)；Sinkunas,T.,et al.,EMBO J.30:1335-1342(2011)；Beloglazova,N.,et al.,EMBO J.30:4616-4627(2011)；Mulepati,S.,et al.,J.Biol.Chem.286:31896-31903(2011))。如本文所用的，术语“mCas3蛋白”是指相对于其相应的wtCas3蛋白包含一个或多个突变的Cas3蛋白。mCas3蛋白包括但不限于：mCas3蛋白(例如，实施例23A、实施例23B和实施例23C)、dblmCas3蛋白(例如，实施例26A、实施例26B和实施例26C)，以及dCas3*(不具有任何核酸酶活性和/或解旋酶活性的突变的Cas3蛋白)。

如本文所用的术语“核酸酶”是指酶，其能够切割如在双链(ds)核酸(例如，dsDNA、基因组DNA(gDNA)、dsRNA)、单链(ss)核酸(例如ssDNA、RNA)或杂交dsRNA/DNA中发现的诸如连接两个核苷酸的那些的磷酸二酯键。“核酸内切酶”通常可以影响其靶标分子中的ss-(裂口)或ds-缺口。DNA核酸内切酶的一个实例是FokI酶。“FokI核酸内切酶”和“FokI”在本文可互换使用，并且是指FokI酶、FokI同系物、FokI酶的酶促活性域，以及FokI酶的变体。FokI二聚化通常是DNA切割所需要的。FokI的二聚物可以包含结合形成同型二聚体的两个单体亚基或者结合形成异型二聚体的两种不同的单体亚基(参见，例如Bitinaite,J.,et al.,Proc.Natl.Acad.Sci.USA 95:10570-10575(1998)；Ramalingam,S.,et al.,J.Mol.Biol.405:630-641(2011))。FokI变体的一个实例是Guo,et al.(Guo,J.,et al.,J.Mol.Biol.400:96-107(2010))所述的Sharkey变体。另外的DNA和RNA核酸酶是本领域已知的。

如本文所用的“CRISPR RNA”、“crRNA”和“向导RNA”是指Cas亚基蛋白能够与之相互作用而形成导引复合体优先结合多核苷酸中的核酸靶序列(相对于不包含核酸靶序列的多核苷酸)的I型效应子复合体的一种或多种RNAs。如本文所用的“向导”和“向导多核苷酸”是指包含核糖核苷酸碱基(例如，RNA)和核糖的I型效应子复合体的多核苷酸组分，以及不同的组分及其组合，包括但不限于：脱氧核糖核苷酸碱基、核苷酸类似物、修饰的核苷酸、不同的含氮碱基、根本不同的核苷酸碱基、化学上不同的分子、碱基的混合物(例如，RNA碱基、DNA碱基和/或修饰的碱基)等，以及以上的组合，还有合成的骨架、天然存在的骨架、非天然存在的骨架、根本不同的骨架残基、化学上不同的残基或键、修饰的骨架、混合物(例如，骨架的核糖和脱氧核糖组分)等，以及以上的组合。本文描述了向导多核苷酸的一些实例。通过crRNA间隔区与核酸靶序列结合的I型CRISPR-Cas crRNA的实例示出在图1B中。图1B自Hochstrasser,M.L.,et al.,Mol.Cell 63:840-851(2016)调整而来。在图1B中，PAM(图1B，104)与核酸靶序列结合，并示出了双链核酸的5’和3’链(图1B，垂直线代表氢键)。向导多核苷酸(图1B，106)通常包括5’柄区域(图1B，101)、包含种子区的间隔区(图1B，103)，以及包含两个氢键重复区域的3’发卡(图1B，102)；水平线代表氢键。本文讨论了与众多I型Cascade同系物相关的PAM序列。PAM序列是相邻的前间隔区序列(图1B，105)。图1B示出了与核酸靶序列结合的Cascade复合体间隔区(图1B，竖直线代表氢键)。图1B还示出了前间隔区(图1B，前间隔区)。间隔区可以包含约6至约56个核苷酸的crRNA区域，其中间隔区与多核苷酸中的核酸靶序列互补。在I-E型CRISPR-Cas系统中可以将间隔区长度改变为精细调节的Cascade活性。Cascade复合体可以掺入额外的Cas7亚基，其中每6个核苷酸添加到crRNA间隔区，并掺入额外的Cse2亚基，其中每12个核苷酸添加到间隔区(参见，例如Luo,M.L.,etal.,Nucleic Acids Res.44(15):7385-7394(2016))。间隔区通常包含约32个至约36个核苷酸的区域。

术语“间隔区”、“间隔区序列”和“核酸靶标结合序列”在本文可互换使用。

“靶标”、“靶序列”、“核酸靶序列”和“中靶序列”在本文可互换使用，指与Cascade核蛋白复合体(例如，Cascade RNP复合体)的向导的核酸靶标结合序列(例如，crRNA的间隔区)完全或部分互补的核酸序列。通常，核酸靶标结合序列选择为与Cascade核蛋白复合体的结合所指向的核酸靶序列100％互补；然而，为了减弱与核酸靶序列的结合，可以使用较低百分比的互补性。当靶标结合序列与靶序列100％互补时，“脱靶”序列结合是指Cascade核蛋白复合体与和核酸靶标结合序列(间隔区)具有低于100％的互补性的核酸序列的结合。双链DNA序列通常在一条链上包含核酸靶序列(图1B，与向导RNA结合的部分氢)。“靶区”包含核酸靶序列。

如本文中所使用的，“茎元件”或“茎结构”是指已知或预测形成双链区域(“茎元件”)的两条核酸链。“茎-环元件”或“茎-环结构”是指这样的茎结构，其中一条链的3’端序列通过通常为单链核苷酸的核苷酸序列(“茎-环元件核苷酸序列”)与第二链的5’端序列共价结合。在一些实施方案中，环元件包括长度为约3个至约20个核苷酸，优选长度为约4个至约10个核苷酸的环元件核苷酸序列。在优选的实施方案中，环元件核苷酸序列是不通过氢键形成相互作用而在环元件核苷酸序列内产生茎元件的未成对的核酸碱基的单链核苷酸序列。术语“发卡元件”在本文中也用于指茎环结构。这样的结构在本领域中是熟知的。碱基配对可能是准确的；然而，如本领域中已知的，茎元件不需要精确的碱基配对。因此，茎元件可包括一个或多个碱基错配或非成对的碱基。向导多核苷酸中的茎环结构的实例如图1B所示。

“连接子元件核苷酸序列”、“连接子核苷酸序列”和“连接子多核苷酸”在本文可互换使用，并且指共价附接至第一核酸序列(例如，5’-连接子核苷酸序列-第一核酸序列-3’)的一种或多种核苷酸的单链核酸序列或双链核酸序列。在一些实施方案中，连接子核苷酸序列连接两种不同的核酸序列而形成单一多核苷酸(例如，5’-第一核酸序列-连接子核苷酸序列-第二核酸序列-3’)。连接子核苷酸序列的其他实例包括但不限于：5’-第一核酸序列-连接子核苷酸序列-3’和5’-连接子核苷酸序列-第一核酸序列-连接子核苷酸序列-3’。在一些实施方案中，连接子元件核苷酸序列可以是不通过氢键形成彼此相互作用而在连接子元件核苷酸序列内产生二级结构(例如，茎-环结构)的未成对的核酸碱基的单链核苷酸序列。在一些实施方案中，两种连接子元件核苷酸序列可以通过两种连接子元件核苷酸序列之间的氢键彼此发生相互作用。在一些实施方案中，连接子多核苷酸编码“连接子多肽”。这样的连接子多核苷酸通常连接编码第一多肽的第一多核苷酸的3’端与编码第二多肽的第二多核苷酸的5’端，而形成编码包含N-第一多肽-连接子多肽-第二多肽-C的融合蛋白的单一多核苷酸。在本发明的一些实施方案中，可以通过连接子多肽串联连接超过两条多肽序列(例如，N-第一多肽-第一连接子多肽-第二多肽-第二连接子多肽-第三多肽-C)。“连接子多肽”、“连接子多肽序列”、“氨基酸连接子序列”和“连接子序列”在本文也可以互换使用。

如本文所用，“连接核苷酸序列”是指共价连接第一核酸序列与第二核酸序列的单链核酸序列连接子序列。

如本文所用，术语“间隔区间隔(interspacer)”、“间隔区间区(interspacerregion)”和“间隔区间距”可互换使用，并且指第一核酸靶序列(例如，第一DNA靶序列)的PAM和第二核酸靶序列(例如，第二DNA靶序列)的PAM之间的通常在含PAM(PAM-in)方向上的距离，其中第一I型CRISPR-Cas效应子复合体包含能够结合第一核酸靶序列的第一间隔区，并且第二I型CRISPR-Cas效应子复合体包含能够结合第二核酸靶序列的第二间隔区。图2A、图2B和图2C呈现了包含融合蛋白的两种I型CRISPR-Cas效应子复合体的说明性实例(图2A：“Cascade1”，实线轮廓的框，包括“crRNA1”；以及“Cascade2”，虚线框，包括“crRNA2”)(图2A，“FP1”和“FP2”表示为圆形部分；例如，FP1和FP可以是FokI)，其通过连接子多核苷酸与每个Cascade复合体连接(图2A，“连接子1”和“连接子2”)，其中CRISPR-Cas效应子复合体与双链DNA上的临近的核酸靶序列结合(图2A，“dsDNA”，表示为成对的水平虚线)。指出了与每种核酸靶序列相关的PAM序列(图2A，“PAM1”，空心框，且“PAM2”，空心框))。图2A示出了含PAM(含PAM/含PAM)配置中的两个靶标位点之间的间隔区间隔(显示为图2A顶部的水平的双箭头线)。图2B示出了含PAM/不含PAM配置中的两个靶标位点之间的间隔区间隔(显示为图2B顶部的水平的双箭头线)。图2C示出了不含PAM(不含PAM/不含PAM)配置中的两个靶标位点之间的间隔区间隔(显示为图2C顶部的水平的双箭头线)。图2A、图2B和图2C还示出了dsDNA的两条链的分离。Cascade复合体识别临近PAM的dsDNA靶序列。PAM序列被Cse1识别。crRNA和互补靶标DNA链之间的碱基配对导致产生具有取代的非互补的靶标DNA链的R环(参见，例如Beloglazova,N.,et al.,Nucleic Acids Res.43:530–543(2015))。

如本文所用，术语“同源的”是指相互作用的生物分子，如细胞表面受体(例如，趋化因子受体)及其配体(例如，在肿瘤细胞上或在肿瘤微环境中表达的趋化因子)；位点定向多肽及其向导；能够位点定向结合与向导结合序列互补的核酸靶序列的位点定向多肽/向导复合体(即核蛋白复合体)等。另外，术语“同源的”是指一组Cas亚基蛋白(例如，Cse2、Cas5、Cas6、Cas7和Cas8)，以及能够形成能够位点定向结合与在一种或多种向导多核苷酸中的一种中存在的间隔区互补的核酸靶序列的核蛋白复合体的一种或多种向导多核苷酸(例如，I型CRISPR-Cas RNA)。

术语“野生型”、“天然存在的”和“未修饰的”在本文中用于指天然存在的典型的(或最常见的)形式、外貌、表型或菌株；例如，其所出现的细胞、生物体、多核苷酸、蛋白、大分子复合体、基因、RNA、DNA或基因组的典型的形式，并且可以自天然来源分离。野生型形式、外貌、表型或菌株用作预期修饰、改变、突变和/或显著不同的结构改变之前的原始亲本。因此，突变体、变体、改造的、重组的和修饰的形式非野生型形式。

术语“改造的”、“遗传改造的”、“遗传修饰的”、“重组的”、“修饰的”、“非天然存在的”和“非天然的”表示对生物体或细胞基因组的有意人为或机器操纵。术语涵盖基因组修饰的方法，其包括如本文定义的基因组编辑，以及改变基因表达或失活的技术、酶工程、定向进化、基于知识的设计、随机诱变方法、基因改组、密码子优化等。用于遗传改造的方法是本领域已知的。

“共价键(Covalent bond)”、“共价附接(covalently attached)”、“共价结合(covalently bound)”、“共价联接(covalently linked)”、“共价连接(covalentlyconnected)”和“分子键(molecular bond)”在本文中可互换使用，并且指涉及原子间的电子对的共用的化学键。共价键的实例包括但不限于：磷酸二酯键、硫代磷酸键、二硫键和肽键(-CO-NH-)。

“非共价键”、“非共价附接”、“非共价结合”、“非共价联接”、“非共价相互作用”和“非共价连接”在本文中可互换使用，并且指不涉及电子对共用的任何相对较弱的化学键。多个非共价键通常可稳定大分子的构造并介导分子之间的特定相互作用。非共价键的实例包括但不限于氢键、离子相互作用(例如，Na⁺Cl^-)、范德瓦尔斯相互作用和疏水键。

如本文所用，“氢键结合”、“氢-碱基对”和“氢键结合的”可互换使用，并且指典型的氢键结合和非典型的氢键结合，包括但不限于：“沃森-克里克-氢键结合的碱基对”(W-C-氢键结合的碱基对或W-C氢键结合)；“Hoogsteen氢键结合的碱基对”(Hoogsteen氢键结合)；以及“摆动氢键结合的碱基对”(摆动氢键结合)。W-C氢键结合，包括反向的W-C氢键结合，指嘌呤-嘧啶碱基配对，例如，腺嘌呤:胸腺嘧啶、鸟嘌呤:胞嘧啶和尿嘧啶:腺嘌呤。Hoogsteen氢键结合，包括反向的Hoogsteen氢键结合，指核酸中碱基配对的变化，其中每条链上一种的两种核酸碱基通过大沟中的氢键保持在一起。该非W-C氢键结合能够允许第三条链缠绕在双链周围并形成三链的螺旋体。摆动氢键结合，包括反向的摆动氢键结合，指RNA分子中两种核苷酸间的不遵循Watson-Crick配对规则的配对。有4种主要的摆动碱基对：鸟嘌呤:胞嘧啶、肌苷(次黄嘌呤):胞嘧啶、肌苷-腺嘌呤和肌苷-胞嘧啶。典型的氢键结合和非典型的氢键结合的规则是本领域普通技术人员已知的(参见，例如The RNA World,第三版(Cold Spring Harbor Monograph Series),R.F.Gesteland,Cold Spring HarborLaboratory Press(2005),ISBN 978-0879697396；The RNA World,第二版(Cold SpringHarbor Monograph Series),R.F.Gesteland,et al.,Cold Spring Harbor LaboratoryPress(1999),ISBN 978-0879695613；The RNA World(Cold Spring Harbor MonographSeries),R.F.Gesteland,et al.,Cold Spring Harbor Laboratory Press(1993),ISBN978-0879694562(参见，例如Appendix 1:Structures of Base Pairs Involving atLeast Two Hydrogen Bonds,I.Tinoco)；Principles of Nucleic Acid Structure,W.Saenger,Springer International Publishing AG(1988),ISBN 978-0-387-90761-1；Principles of Nucleic Acid Structure,第一版,S.Neidle,Academic Press(2007),ISBN 978-01236950791)。

“连接(Connect)”、“连接的(connected)”和“连接(connecting)”在本文可互换使用，并且指两个大分子(例如，多核苷酸、蛋白等)间的共价键或非共价键。

如本文所用，术语“核酸序列”、“核苷酸序列”和“寡核苷酸”可互换使用，并且指核苷酸的聚合物形式。如本文所用，术语“多核苷酸”指具有一个5’端和一个3’端的核苷酸聚合物形式，并且可以包含一条或多条核酸序列。“环形多核苷酸”指在其5’端和其3’端间具有共价键，从而形成环形多核苷酸的多核苷酸。核苷酸可以是脱氧核糖核苷酸(DNA)、核糖核苷酸(RNA)、以上的类似物或以上的组合(例如，如以上向导多核苷酸的上下文中所述的)，并且可以具有任何长度。多核苷酸可以进行任何功能，并可以具有各种二级和三级结构。该术语包括天然核苷酸和在碱基、糖和/或磷酸酯部分中修饰的核苷酸的已知类似物。特定核苷酸的类似物具有相同的碱基配对特异性(例如，A碱基对的类似物与T)。多核苷酸可以包含一个修饰的核苷酸或多个修饰的核苷酸。修饰的核苷酸的实例包括但不限于氟化核苷酸、甲基化核苷酸和核苷酸类似物。核苷酸结构可以在聚合物组装之前或之后进行修饰。在聚合后，多核苷酸可以另外经由例如与标记组分或靶标结合组分缀合而被修饰。核苷酸序列可以包含非核苷酸组分。还包括包含修饰的骨架残基或连接，即合成的、天然存在的和/或非天然存在，并且与参考多核苷酸(例如，DNA或RNA)具有相似的结合特性的核酸。此类类似物的实例包括但不限于硫代磷酸酯、氨基磷酸酯、甲基膦酸酯、手性甲基膦酸酯、2-O-甲基核糖核苷酸、肽-核酸(PNAs)、锁核酸(LNA^TM)(Exiqon,Inc.,Woburn,MA)核苷、乙二醇核酸、桥连核酸和吗啉代结构。

肽-核酸(PNAs)是核酸的合成同系物，其中多核苷酸磷酸糖骨架被柔性的伪肽聚合物取代，并且核碱基与聚合物连接。PNAs具有以高亲和力和特异性与RNA和DNA的互补序列杂交的能力。

在硫代磷酸酯核酸中，硫代磷酸酯(PS)键用多核苷酸磷酸酯骨架中的非桥接氧取代硫原子。这种修饰使核苷酸间连接抗核酸酶降解。在一些实施方案中，在多核苷酸序列的5’端或3’端的最后3-5个核苷酸之间引入硫代磷酸酯键，以抑制外切核酸酶降解。在整个寡核苷酸中放置硫代磷酸酯键也有助于减少核酸内切酶的降解。

苏糖核酸(TNA)是一种人工遗传聚合物。TNA的骨架结构包括通过磷酸二酯键连接的重复的苏糖。TNA聚合物抗核酸酶降解。TNA可以通过碱基对氢键结合自组装成双链结构。

可以通过使用“反向亚磷酰胺”将连接反向引入多核苷酸中(参见，例如www.ucalgary.ca/dnalab/synthesis/-modifications/linkages)。多核苷酸末端的3’-3’连接通过产生具有两个5’-OH端但缺少3’-OH端的寡核苷酸来稳定多核苷酸抗外切核酸酶的降解。通常，这样的多核苷酸在5’-OH位置具有亚磷酰胺基团，且在3’-OH位置具有二甲氧基三苯甲基(DMT)保护基团。通常，DMT保护基团在5’-OH上，且亚磷酰胺在3’-OH上。

多核苷酸序列在本文中以常规的5’-3’方向显示，除非另外指出。

如本文所用，“序列同一性”通常指使用具有不同权重参数的算法比较第一多核苷酸或多肽与第二多核苷酸或多肽，而得出的核苷酸碱基或氨基酸的同一性百分比。可以通过利用万维网可获取的包括但不限于GENBANK(www.ncbi.nlm.nih.gov/genbank/)和EMBL-EBI(www.ebi.ac.uk)网站处的各种方法和计算机参数(例如，BLAST、CS-BLAST、PSI-BLAST、FASTA、HMMER、L-ALIGN等)，使用序列比对确定两条多核苷酸或两种多肽之间的序列同一性。通常使用各种方法或计算机程序的标准默认参数计算两条多核苷酸或两种多肽序列之间的序列同一性。如本文所用两条多核苷酸或两种多肽之间的高度的序列同一性通常为约90％的同一性至100％的同一性，例如，约90％的同一性或更高，优选约95％的同一性或更高，更优选约98％的同一性或更高。如本文所用的两条多核苷酸或两种多肽之间的中度的序列同一性通常为约80％的同一性至约85％的同一性，例如，约80％的同一性或更高，优选约85％的同一性。如本文所用两条多核苷酸或两种多肽之间的低度的序列同一性通常为约50％的同一性至75％的同一性，例如，约50％的同一性，优选约60％的同一性，更优选约75％的同一性。例如，包含氨基酸取代的Cas蛋白(例如，I-E型Cse2、Cas5、Cas6、Cas7和/或Cas8)可以在其长度上与参考Cas蛋白(例如，分别为野生型I-E型Cse2、Cas5、Cas6、Cas7和/或Cas8)具有低度的序列同一性、中度的序列同一性或高度的序列同一性。作为另一个实例，向导多核苷酸在其长度上相比与参考Cas蛋白复合的参考野生型向导多核苷酸(例如，与I-E型Cse2、Cas5、Cas6、Cas7和/或Cas8形成复合体的向导多核苷酸)可以具有低度的序列同一性、中度的序列同一性或高度的序列同一性。

如本文所用，“杂交(hybridization)”、“杂交(hybridize)”或“杂交(hybridizing)”是通过氢碱基配对组合两条互补的单链DNA或RNA分子以便形成单双链分子(DNA/DNA、DNA/RNA、RNA/RNA)的过程。杂交严格性通常由杂交温度和杂交缓冲液的盐浓度来确定；例如，高温和低盐提供了高严格性的杂交条件。不同杂交条件下的盐浓度范围和温度范围的实例如下：高严格性，约0.01M至约0.05M盐，杂交温度比Tm低5℃-10℃；中等严格性，约0.16M至约0.33M盐，杂交温度比Tm低20℃-29℃；以及低严格性，约0.33M至约0.82M盐，杂交温度比Tm低40℃-48℃。通过本领域熟知的标准方法计算双链核酸序列的Tm(参见，例如Maniatis,T.,et al.,Molecular Cloning:A Laboratory Manual,Cold SpringHarbor Laboratory Press:New York(1982)；Casey,J.,et al.,Nucleic Acids Res.4:1539-1552(1977)；Bodkin,D.K.,et al.,J.Virological Methods 10:45-52(1985)；Wallace,R.B.,et al.,Nucleic Acids Res.9:879-894(1981))。预估Tm的算法预测工具也是广泛可用的。杂交的高严格条件通常是指与靶序列互补的多核苷酸主要与靶序列杂交而基本上不与非靶序列杂交的条件。通常，杂交条件是中等严格性，优选高严格性。

如本文所用，“互补性”是指核酸序列与另一核酸序列(例如，通过典范的Watson-Crick碱基配对)形成氢键的能力。百分比互补性表示可以与第二核酸序列形成氢键的核酸序列中残基的百分比。如果两条核酸序列具有100％的互补性，则这两条序列是完全互补的，即，第一多核苷酸的所有连续残基与第二多核苷酸中的相同数量的连续残基氢键结合。

如本文所用，“结合”是指大分子之间的非共价相互作用(例如，蛋白质与多核苷酸之间、多核苷酸与多核苷酸之间、蛋白质与蛋白质之间等)。这种非共价相互作用也称为“结合”或“相互作用”(例如，如果第一大分子与第二大分子相互作用，则第一大分子以非共价方式结合第二大分子)。结合相互作用的一些部分可以是序列特异性的(术语“序列特异性的结合”、“序列特异性结合”、“位点特异性的结合”和“位点特异性结合”在本文中可互换使用)。如本文所用的序列特异性的结合通常指能够与I型CRISPR-Cas亚基蛋白(例如，Cse2、Cas5、Cas6、Cas7和Cas8)形成复合体，而优选相对于无核酸靶标结合序列(例如，DNA靶标结合序列)的第二核酸序列(例如，第二DNA序列)，造成蛋白质结合包含核酸靶序列(例如，DNA靶序列)的核酸序列(例如，DNA序列)的一种或多种向导多核苷酸。结合相互作用的所有组分都不需要是序列特异性的，如蛋白质与DNA骨架中的磷酸残基接触。结合相互作用的特征可以在于解离常数(Kd)。“结合亲和力”是指结合相互作用的强度。结合亲和力增加与较低的Kd相关。

如本文所用，如果这样的复合体结合或切割多核苷酸内的核酸靶序列中的多核苷酸，则效应子复合体被说成是“靶向”多核苷酸。

如本文所用，“双链断裂”(DSB)是指双链DNA片段的两条链均被切断。在一些情况下，如果发生这种断裂，可以说一条链具有“粘性末端”，其中核苷酸暴露在外，且不与另一链上的核苷酸氢键结合。在其他情况下，可能会出现“钝末端”，其中两条链都保持与彼此完全碱基配对。

“供体多核苷酸”、“供体寡核苷酸”和“供体模板”在本文中可互换使用，并且可以是双链多核苷酸(例如，DNA)、单链多核苷酸(例如，DNA或RNA)或以上的组合。供体多核苷酸可以包含在插入序列(例如，DNA中的DSBs)两侧的同源臂。每侧上的同源臂的长度可以不同(例如，1-50个碱基、50-100个碱基、100-200个碱基、200-300个碱基、300-500个碱基、500-1000个碱基)。同源臂在长度上可以是对称的或非对称的。用于设计或构建供体多核苷酸的参数是本领域熟知的(参见，例如Ran,F.,et al.,Nature Protocols 8:2281-2308(2013)；Smithies,O.,et al.,Nature 317:230-234(1985)；Thomas,K.,et al.,Cell 44:419-428(1986)；Wu,S.,et al.,Nature Protocols 3:1056-1076(2008)；Singer,B.,et al.,Cell31:25-33(1982)；Shen,P.,et al.,Genetics 112:441-457(1986)；Watt,V.,et al.,Proc.Natl.Acad.Sci.USA 82:4768-4772(1985)；Sugawara,N.,et al.,J.Mol.Bio.12:563-575(1992)；Rubnitz,J.,et al.,J.Mol.Bio.4:2253-2258(1984)；Ayares,D.,et al.,Proc.Natl.Acad.Sci.USA 83:5199-5203(1986)；Liskay,R.,et al.,Genetics 115:161-167(1987))。在一些实施方案中，供体多核苷酸包含嵌合的抗原受体(例如，CAR)。

术语“嵌合的抗原受体”和“CAR”在本文中可互换使用，并且是指在实验室中创建的通常至少包含两种组分的多肽分子：胞外抗原识别域(也称为靶标结合域或胞外配体结合域)和胞内激活域(例如，包含一个或多个胞内信号传导域，并且通常包含一个或多个协同刺激信号传导域)。CAR还可以包含铰链域和跨膜域。典型的CAR多肽的结构如下：N端-胞外-[抗原识别域-铰链域]-跨膜-[跨膜域]-胞内-[胞内激活域]-C端；或N端-胞内–[胞内激活域]-跨膜–[跨膜域]–胞外–[抗原识别域-铰链域]-C端。

胞外抗原识别域的实例包括用于与抗原结合的部分，并且包括但不限于单链免疫球蛋白可变片段(scFv)、抗原结合片段(Fab；通常是结合抗原的抗体区域，且由每条重链和轻链的一个恒定域和一个可变域构成)、纳米抗体、骆驼科家族或鲨鱼来源的单链抗体、改造的蛋白结合支架(例如DARPins和Centyrins)或与其同源受体结合的天然配体。

铰链域的实例包括但不限于可变长度(例如一个或多个氨基酸)的多肽铰链、CD8α的铰链区、CD28的铰链区、IgG4的铰链区和以上的组合。

跨膜域的实例包括但不限于来源于跨膜蛋白如CD8α、CD28、DAP10、DAP12、NKG2D和以上的组合的跨膜区。

胞内激活域的实例包括但不限于CD28、4-1BB、CD3ζ、OX40、2B4、DAP10、DAP12、截短和突变的信号传导域(例如，CD3ζ的三个ITAM域中的突变和截短)的胞内信号传导域，或其他胞内信号传导域，以及以上的组合。

当胞外配体结合域与同源配体结合时，CAR的胞外信号传导域激活淋巴细胞(有关CAR-T细胞的描述，参见，例如Brudno,J.,et al.,Nature Rev.Clin.Oncol.15:31-46(2018)；Maude,S.,et al.,N.Engl.J.Med.371:1507-1517(2014)；Sadelain,M.,et al.,Cancer Disc.3:388-398(2013)；第7,446,190号美国专利；第8,399,645号美国专利)(有关CAR-NK细胞的描述，参见，例如Rezvani,K.,et al.,Mol.Ther.,25:1769-1781(2017)；Siegler,E.,et al.,Cell Stem Cell.23:160-161(2018)；Li,Y.,et al.,Cell StemCell.23:181-192(2018)；Lin,C.,et al.,Biochim.Biophys.Acta.Rev.Cancer.1869:200-215(2018)；Hu,Y.,et al.,Acta.Pharmacol.Sin.39:167-176(2018)；Fang,F.,et al.,Semin.Immunol.31:37-54(2017)；Glienke,W.,et al.,Front Pharmacol.6:21(2015))。

表2呈现了示例性细胞靶标和结合细胞靶标的scFvs/结合蛋白。这样的scFvs/结合蛋白或其部分可以掺入到CAR构建体中。

如本文所用，“同源定向修复”(HDR)是指在细胞内发生的DNA修复，例如，在gDNA中的DSB修复期间。HDR需要核苷酸序列同源性且使用供体或模板多核苷酸来修复序列，其中发生DSB(例如，在DNA靶序列中)。供体多核苷酸通常具有需要的与DSB两侧的序列的序列同源性，使得供体多核苷酸可以用作用于修复的合适的模板。HDR导致遗传信息从例如供体多核苷酸传递至DNA靶序列。如果供体多核苷酸序列与DNA靶序列不同，并且供体多核苷酸的部分或所有被并入到DNA靶序列中，则HDR可以造成DNA靶序列的改变(例如，插入、缺失或突变)。在一些实施方案中，全部供体多核苷酸、一部分的供体多核苷酸或供体多核苷酸的拷贝被整合在DNA靶序列的位点处。例如，供体多核苷酸可以用于DNA靶序列中断裂的修复，其中修复造成来自供体多核苷酸的DNA中断裂位点处或紧靠断裂的遗传信息的传递。因此，可以在DNA靶序列处插入或拷贝新的遗传信息。

“基因组区域”是宿主细胞的基因组中的存在于核酸靶序列位点的任一侧上，或者可选地还包括一部分的核酸靶序列位点的染色体片段。供体多核苷酸的同源臂具有足够的同源性，可以与相应的基因组区域进行同源重组。在一些实施方案中，供体多核苷酸的同源臂与紧邻核酸靶序列位点两侧的基因组区域具有大量的序列同源性；公认的是，可以将同源臂设计成与远离核酸靶序列位点的基因组区域具有足够的同源性。

如本文所用，“非同源末端连接”(NHEJ)指通过将断裂的一端直接连接到断裂的另一端来修复DNA中的DSB，而无需供体多核苷酸。NHEJ是一种DNA修复途径，可用于细胞修复DNA而无需使用修复模板。在缺少供体多核苷酸的情况下，NHEJ通常会导致在DSB位点处随机插入或缺失核苷酸。

“微同源介导的末端连接”(MMEJ)是修复gDNA中DSB的一种途径。MMEJ涉及DSB两侧的缺失，以及连接之前在断裂位点内部的微同源序列的对齐。MMEJ由基因限定，并且需要例如CtIP、聚(ADP-核糖)聚合酶1(PARP1)、DNA聚合酶θ(Polθ)、DNA连接酶1(Lig 1)或DNA连接酶3(Lig 3)的活性。另外的遗传组分在本领域中是已知的(参见，例如Sfeir,A.,et al.,Trends in Biochemical Sciences 40:701-714(2015))。

如本文所用，“DNA修复”包括细胞机制借以修复对细胞中包含的DNA分子的损伤的任何过程。修复的损伤可以包括单链断裂或DSBs。至少存在三种修复DSBs的机制：HDR、NHEJ和MMEJ。“DNA修复”在本文中也用于指由人为或机器操纵而产生的DNA修复，其中靶标位点被修饰，例如，通过插入、缺失或取代核苷酸，所有这些均代表了基因组编辑的形式。

如本文所用，“重组”是指在两条多核苷酸之间进行遗传信息交换的过程。

如本文所用，术语“调控序列”、“调控元件”和“控制元件”是可互换的，并且指多核苷酸靶标上游(5’非编码序列)、内部或下游(3’非翻译的序列)的待表达的多核苷酸序列。调控序列影响例如转录的时序；转录的量或水平；RNA加工或稳定性；和/或相关结构核苷酸序列的翻译。调控序列可包括活化剂结合序列、增强子、内含子、聚腺苷酸化识别序列、启动子、转录起始位点、阻抑剂结合序列、茎-环结构、翻译起始序列、内部核糖体进入位点(IRES)、翻译前导序列、转录终止序列(例如，聚腺苷酸化信号和聚U序列)、翻译终止序列、引物结合位点等。

调控元件包括指导许多类型的宿主细胞中的核苷酸序列的组成性的、可诱导的和可抑制的表达的那些，以及指导仅在某些宿主细胞(例如，组织特异性调控序列)中的核苷酸序列的表达的那些。在一些实施方案中，载体包含一个或多个pol III启动子、一个或多个pol II启动子、一个或多个pol I启动子，或以上的组合。pol III启动子的实例包括但不限于U6和H1启动子。pol II启动子的实例包括但不限于逆转录病毒鲁斯氏肉瘤病毒(RSV)LTR启动子(任选地与RSV增强子一起)、巨细胞病毒(CMV)启动子(任选地与CMV增强子一起；参见，例如Boshart,M.,et al.,Cell 41:521-530(1985))、SV40启动子、二氢叶酸还原酶启动子、β-肌动蛋白启动子、磷酸甘油激酶(PGK)启动子和EF1α启动子，以及改造的人工启动子(例如，MND启动子和CAG启动子)。本领域技术人员将理解，表达载体的设计可取决于诸如待转化的宿主细胞的选择、所需表达水平等因素。可以将载体引入到宿主细胞中从而产生如本文所述的由核酸序列编码的RNA转录物、蛋白质或肽，包括融合蛋白或肽。

如本文所用的“基因”是指包含外显子和相关的调控序列的多核苷酸序列。基因还可以包含内含子和/或非翻译区(UTR)。

如本文所用，术语“可操作地连接”是指与彼此处于功能关联的多核苷酸序列或氨基酸序列。例如，如果调控序列调控或有助于多核苷酸的转录调节，则调控序列(例如，启动子或增强子)与编码基因产物的多核苷酸“可操作地连接”。可操作地连接的调控元件通常与编码序列相邻。然而，如果与启动子相距不超过数千个碱基或更多，则增强子可以发挥功能。另外，多顺反子构建体可包括多个编码序列，其通过包括2A自切割肽、IRES元件等而仅使用一个启动子。因此，一些调控元件可与多核苷酸序列可操作地连接，但与多核苷酸序列不相邻。类似地，翻译调控元件有助于从多核苷酸调节蛋白质表达。

如本文所用，“表达”是指从DNA模板转录多核苷酸，产生例如信使RNA(mRNA)或其他RNA转录物(例如，非编码的，如结构性或支架RNAs)。该术语还指转录的mRNA被翻译成肽、多肽或蛋白质的过程。转录物和编码的多肽可以统称为“基因产物”。如果多核苷酸来源于gDNA，则在真核细胞中表达可能包括剪接mRNA。

“编码序列”或“编码”选定多肽的序列，是当置于适当的调控序列控制下时，体外或体内转录(在DNA的情况下)和翻译(在mRNA的情况下)成多肽的核酸分子。编码序列的边界由5'端处的起始密码子和3'端的翻译终止密码子决定。

如本文所用，通过“人工转录活化剂(ATA)”或“人工转录因子(ATF)”，意指能够将RNA聚合酶II全酶募集至与其相关的基因，从而引起目标基因的异位表达的复合体。这样的活化剂至少包括两种组分：(1)直接识别同源核苷酸序列并能够结合这些序列的催化失活的多核苷酸结合域，或者导向这样的序列以用于结合的多核苷酸结合域(例如，包含如本文所述的核酸结合域和向导的核蛋白复合体)；以及(2)与构成了上调转录的转录机制的各种蛋白相互作用的激活域(也称为“效应子域”)。

通过“催化失活的多核苷酸结合域”，意指结合但不切割被结合域结合的核酸靶标位点的分子。在本文中详细描述了此类域的代表性实例。

如本文所用，术语“调节”是指功能的数量、程度或量的变化。例如，本文公开的I型CRISPR核蛋白复合体可以通过在启动子或转录起始位点或调控位点处或附近与核酸靶序列结合来调节启动子序列的活性。根据结合后发生的作用，I型CRISPR核蛋白复合体可以诱导、增强、压抑或抑制与启动子序列可操作地连接的基因的转录。因此，基因表达的“调节”包括基因激活和基因抑制。

可以通过确定直接或间接受靶标基因表达影响的任何特征来分析调节。这些特征包括例如，RNA或蛋白质水平、蛋白质活性、产物水平、基因的表达或报告基因的活性水平的变化。因此，术语“调节基因的表达”、“抑制基因的表达”和“激活基因的表达”可以指I型CRISPR核蛋白复合体改变、激活或抑制基因转录的能力。

功能(例如，酶促功能)可以被上调(例如，增加、增强、扩增或加强功能)或下调(例如，降低、减弱，减小或减少功能)。在一个实施方案中，可以相对于相应的wtCas3蛋白上调或下调mCas3蛋白与单链DNA(ssDNA)结合或者通过mCas3蛋白ATP结合/水解。

如本文所用的“载体”和“质粒”，是指将遗传物质引入细胞内的多核苷酸媒介物。向量可以是线性的或环形的。载体可以包含复制序列，该复制序列能够实现载体在合适的宿主细胞中的复制(例如，复制起点)。在转化合适的宿主后，载体可以独立于宿主基因组复制和发挥功能，也可以整合到宿主基因组中。除其他外，载体设计取决于载体的预期用途和宿主细胞，并且用于特定用途和宿主细胞的本发明载体的设计在本领域技术水平内。载体的四种主要类型是质粒、病毒载体、粘粒和人工染色体。通常，载体包含复制起点、多克隆位点和/或可选择标记。表达载体通常包含表达盒。通过“重组病毒”，意指已经例如将异源核酸构建体添加或插入病毒基因组或其一部分而进行遗传改变的病毒。

如本文所用，“表达盒”是指使用重组方法或通过合成手段产生，并包含可操作地连接至所选多核苷酸以促进所选多核苷酸在宿主细胞中表达的调控序列的多核苷酸构建体。例如，调控序列可以促进选定的多核苷酸在宿主细胞中的转录，或选定的多核苷酸在宿主细胞中的转录和翻译。例如，可以将表达盒整合到宿主细胞的基因组中，也可以存在于载体中以形成表达载体。

如本文所用，“靶向载体”是重组DNA构建体，其通常包含与gDNA同源的特制DNA臂，位于靶标基因或核酸靶序列(例如，DSB)的两侧。靶向载体包含供体多核苷酸。靶标基因的元件可以多种方式进行修饰，包括缺失和/或插入。有缺陷的靶标基因可以用功能靶标基因代替，或者可选地可以将功能基因敲出。靶向载体的供体多核苷酸包含选择盒，该选择盒包含引入靶标基因中的可选择标记。邻近或位于靶标基因内的靶向区域(包含核酸靶序列)可用于实现基因表达的调控。

如本文所用，术语“在…之间”包括给定范围内的终点值(例如，在1-50个核苷酸之间的长度包括1个核苷酸和50个核苷酸；在5个氨基酸至50个氨基酸之间的长度包括5个氨基酸和50个氨基酸)。

如本文所用，术语“氨基酸”(aa)是指天然的和合成的(非天然的)氨基酸，包括氨基酸类似物、修饰的氨基酸、模拟肽、甘氨酸，以及D或L光学异构体。

如本文所用，术语“肽”、“多肽”、“蛋白”和“亚基蛋白”是可互换的，并且指氨基酸的聚合物。多肽可以具有任何长度。其可以是分枝的或线性的，其可以插入有非氨基酸，并且其可以包含修饰的氨基酸。该术语也指已经通过例如乙酰化、二硫键形成、糖基化、脂质化、磷酸化、聚乙二醇化、生物素化、交联和/或缀合(例如，利用标记组分或配体)修饰的氨基酸聚合物。除非另有说明，否则本文中的多肽序列以常规的N端至C端方向显示。

可以使用分子生物学领域中的常规技术制备多肽和多核苷酸(参见，例如上面列出的标准文本)。此外，基本上任何的多肽或多核苷酸都可从商业来源获得。

如本文所用的术语“融合蛋白”和“嵌合蛋白”是指通过连接非天然一起存在于单一蛋白中的两个或更多个蛋白、蛋白域、蛋白片段或环形排列的多肽而产生的单一蛋白。在一些实施方案中，连接子多核苷酸可用于将第一蛋白、蛋白域或蛋白片段或循环排列的多肽连接至第二蛋白、蛋白域、蛋白片段或循环排列的多肽。例如，融合蛋白可以包含I型CRISPR-Cas蛋白(例如，Cas8、Cas3)和来自另一蛋白的功能域(例如，FokI；参见，例如第9,885,026号美国专利)。进行修饰以在融合蛋白中包括这样的域可以对改造的I型CRISPR-Cas蛋白赋予另外的活性。这样的活性可以包括修饰与核酸靶序列(例如，组蛋白)相关的多肽的核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨活性、歧化酶活性、烷化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性、糖基化酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酰化活性、脱腺苷化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性，和/或豆蔻酰化活性或脱豆蔻酰化活性。

在一些实施方案中，融合蛋白可以包含表位标签(例如，组氨酸标签、HA标签、

(Sigma Aldrich,St.Louis,MO)标签、Myc标签、核定位信号(NLS)标签，SunTag)、报告子蛋白序列(例如，谷胱甘肽-S-转移酶、β-半乳糖苷酶、荧光素酶、绿色荧光蛋白、青色荧光蛋白、黄色荧光蛋白)，和/或核酸序列结合域(例如，DNA结合域或RNA结合域)。

融合蛋白还可以包含活化剂域(例如，热休克转录因子NFKB活化剂)或阻抑剂域(例如，KRAB域)。如Lupo,A.,et al.,Current Genomics 14:268-278(2013)所述的，KRAB域是有效的转录抑制模块，且位于大多数C2H2锌指蛋白的氨基端序列中(参见，例如Margolin,J.,et al.,Proc.Natl.Acad.Sci.USA 91:4509-4513(1994)；Witzgall,R.,etal.,Proc.Natl.Acad.Sci.USA 91:4514-4518(1994))。KRAB域通常经由蛋白-蛋白相互作用与协阻抑物蛋白和/或转录因子结合，造成与KRAB锌指蛋白(KRAB-ZFPs)结合的基因的转录抑制(参见，例如Friedman,J.R.,et al.,Genes&Development 10:2067-2678(1996))。在一些实施方案中，连接子核酸序列被用于连接两个或更多个蛋白、蛋白域或蛋白片段。

如本文所用，“CASCADEa”(Cascade激活)是一种CRISPR方法或系统，其中所述方法或系统激活与Cascade RNP复合体的靶标核酸序列的位点相关的基因的表达。在一些实施方案中，Cascade复合体的一种或多种蛋白被融合至效应子域(例如，VP16或VP64)，并且包含融合和向导多核苷酸的Cascade RNP复合体被用于募集内源转录因子。在一些实施方案中，向导多核苷酸可以经5’或3’融合至核苷酸效应子域，如也募集转录因子的MS2结合RNA。

如本文所用，“CASCADEi”(Cascade抑制)是一种CRISPR方法或系统，其中所述CRISPR方法或系统下调与Cascade RNP复合体的靶标核酸序列的位点相关的基因的表达(即，Cascade RNP复合体被用于下调基因的表达)。对于内源抑制因子的募集，Cascade复合体中的一种或多种蛋白质通常被融合至效应子域(例如，KRAB)。在一些实施方案中，向导多核苷酸可以经5’或3’融合至也募集内源转录抑制效应子蛋白的核苷酸效应子域。

如本文所用的“部分”是指一部分的分子。部分可以是功能基团，也可以描述具有多个功能基团(例如，共用共同的结构方面)的一部分分子。术语“部分”和“功能基团”在本文中通常可互换使用；然而，“功能基团”可以更具体地指包括一些常见化学行为的一部分分子。“部分”通常用作结构描述。在一些实施方案中，5'端、3'端或5'端和3'端(例如，第一茎元件中的非天然的5'端和/或非天然的3'端)可包含一个或多个部分。

如本文所用，“过继细胞”是指可以进行遗传修饰以用于细胞疗法的细胞，如用于治疗癌症和/或预防移植物抗宿主病(GvHD)以及细胞疗法的其他不良副作用，诸如但不限于细胞因子风暴、所给予的遗传改良物质的致癌性转化、神经性病症等。过继细胞包括但不限于干细胞、诱导性多能干细胞(iPSCs)、脐带血干细胞、淋巴细胞、巨噬细胞、红细胞、成纤维细胞、内皮细胞、上皮细胞和胰腺前体细胞。

如本文所用，“细胞疗法”是指利用遗传改良的细胞治疗疾病或病症。可以使用本文描述的方法来引入遗传修饰，如包括病毒载体、核转染、基因枪递送、超声处理、细胞挤压、脂转染或使用其他化学物质、细胞穿透肽等的方法。

如本文所用，“过继细胞疗法(ACT)”是指使用来源于返回至该患者的特定患者(自体细胞疗法)或第三方供体(异体细胞疗法)的遗传改良的过继细胞来治疗患者的疗法。ACTs包括但不限于骨髓移植、干细胞移植、T细胞疗法、CAR-T细胞疗法和自然杀伤(NK)细胞疗法。

如本文所用，“淋巴细胞”是指作为脊椎动物免疫系统的一部分的白细胞(白血细胞)。术语“淋巴细胞”还包括造血干细胞或产生淋巴样细胞的诱导多能干细胞(iPSC)。淋巴细胞包括用于细胞介导的细胞毒性适应性免疫的T细胞，如CD4+和/或CD8+细胞毒性T细胞；α/βT细胞和γ/δT细胞；调节性T细胞，如Treg细胞；在细胞介导的细胞毒性先天免疫中起作用的NK细胞；用于体液、抗体驱动的适应性免疫的B细胞；NK/T细胞；细胞因子诱导的杀伤细胞(CIK细胞)；以及抗原呈递细胞(APCs)，如树突细胞。淋巴细胞可以是哺乳动物细胞，如人(智人；H.sapiens)细胞。术语“淋巴细胞”还包括经遗传改良的T细胞和NK细胞，其被修饰以在T或NK细胞表面(CAR-T细胞和CAR-NK细胞)上产生嵌合抗原受体(CARs)。这些CAR-T细胞识别特定的可溶性抗原或靶标细胞表面，如肿瘤细胞表面，或肿瘤微环境中的细胞上的抗原。

如本文所用，术语“淋巴细胞”还包括T细胞受体改造的T细胞(TCRs)，，其经遗传改良以表达一种或多种特定的天然存在的或改造的T细胞受体，后者可以识别主要组织相容性复合体(MHC)所呈递的靶标细胞的蛋白或(糖)脂质抗原。这些抗原的小片段，如肽或脂肪酸，被穿梭到靶标细胞表面，并呈递给作为MHC一部分的T细胞受体。T细胞受体与载有抗原的MHCs的结合激活淋巴细胞。

当淋巴细胞通过其细胞表面上的抗原特异性受体触发时，就会发生淋巴细胞活化。这导致细胞增殖并分化为特异的效应子淋巴细胞。这种“激活的”淋巴细胞通常以淋巴细胞表面上的一组受体为特征。活化的T细胞的表面标记包括CD3、CD4、CD8、PD1、IL2R等。活化的细胞毒性淋巴细胞可以在结合靶标细胞表面上的同源受体后杀伤靶标细胞。

如本文所用，术语“淋巴细胞”也包括肿瘤浸润淋巴细胞(TILs)。TILs是已经穿透了肿瘤中及其周围环境(“肿瘤微环境”)的免疫细胞。TILs通常是从肿瘤细胞和肿瘤微环境中分离出来的，并在体外挑选了针对肿瘤抗原的高反应性。TILs在克服体内存在的耐受性影响的条件下体外生长，然后引入对象内进行治疗。

T细胞通常呈现许多亚型，如“幼稚T细胞”(Tn)、“干细胞记忆T细胞”(Tscm)、“中央记忆T细胞”(Tcm)“效应子记忆T细胞”(Tem)、“效应子T细胞”(Teff)和“调节性T细胞”(Treg)。每个T细胞亚组的特征是一组细胞表面标记。

如本文所用的术语“亲和标签”通常是指增加一个大分子对另一个大分子的结合亲和力的一个或多个部分，例如，以促进形成改造的I型CRISPR-Cas核蛋白复合体。在一些实施方案中，亲和标签可用于增加一种Cas亚基蛋白对另一种Cas亚基蛋白(例如，第一Cas7蛋白对第二Cas7蛋白)的结合亲和力。在一些实施方案中，亲和标签可用于增加一种或多种Cas亚基蛋白对同源的向导多核苷酸的结合亲和力。本发明的一些实施方案将一种或多种亲和标签引入Cas亚基蛋白质序列的N端、Cas亚基蛋白序列的C端、位于Cas亚基蛋白质序列的N端和C端之间的位置，或以上的组合。在本发明的一些实施方案中，一种或多种向导多核苷酸包含亲和标签，该亲和标签增加了向导多核苷酸与一种或多种Cas亚基蛋白质的结合亲和力。在2014年10月23日公开的第2014-0315985号美国公开专利申请中公开了各种各样的亲和标签。配体和配体结合部分是成对的亲和标签。

如本文所用，“交联”是将一个聚合物链(例如，多核苷酸或多肽)与另一个连接的键。这样的键可以是共价键或离子键。在一些实施方案中，一个多核苷酸可以通过交连多核苷酸而与另一个多核苷酸结合。在其他实施方案中，可以将多核苷酸与多肽交联。在另外的实施方案中，可以将多肽与多肽交联。

如本文所用，术语“交联部分”通常是指适合在两个大分子之间提供交联的部分。交联部分是亲和标签的另一个实例。

如本文所用，“宿主细胞”通常是指生物细胞。细胞是生物的基本结构、功能和/或生物学单元。细胞可以源自具有一个或多个细胞的任何生物。宿主细胞的实例包括但不限于原核细胞、真核细胞、细菌细胞、古菌细胞、单细胞真核生物的细胞、真核生物的细胞、原生动物细胞、来自植物的细胞、藻类细胞(例如，布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonas reinhardtii)、迦得拟微绿球藻(Nanonochloropsis gaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻圆干变种(Sargassum patensC.agardh)等)、海藻(例如，巨藻)、真菌细胞(例如，酵母细胞或来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如，果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自包括哺乳动物在内的脊椎动物(例如，猪、牛、山羊、绵羊、啮齿动物、大鼠、小鼠、非人的灵长类动物、人类等)的细胞。此外，宿主细胞可以是干细胞或祖细胞，以及免疫细胞，如本文所述的任何免疫细胞。宿主细胞可以是人类细胞.。在一些实施方案中，人类细胞在人体外部。在一些实施方案中，对活的生物体(例如人体)的体细胞进行离体操作(即在活体外)。离体通常是指从活体(例如，人体)采集器官、细胞或组织以进行治疗或手术，然后再返回活体的医疗程序。

如本文所用，“干细胞”是指具有自我更新能力，即经历许多次循环的细胞分裂同时又保持未分化状态的能力的细胞。干细胞可以是全能的、多能的、专能的、寡能的或单能的。干细胞可以是胚胎、胎儿、羊膜、成年或诱导的多能干细胞。

如本文所用，“诱导的多能干细胞”是指从非多能细胞，通常是体细胞人工衍生而来的一类多能干细胞。在一些实施方案中，体细胞是人类体细胞。体细胞的实例包括但不限于真皮成纤维细胞、骨髓来源的间充质细胞、心肌细胞、角质形成细胞、肝细胞、胃细胞、神经干细胞、肺细胞、肾细胞、脾细胞和胰腺细胞。体细胞的其他实例包括免疫系统的细胞，包括但不限于B细胞、树突状细胞、粒细胞、先天淋巴样细胞、巨核细胞、单核细胞/巨噬细胞、髓样来源的抑制细胞、自然杀伤(NK)细胞、T细胞、胸腺细胞和造血干细胞。

如本文所用，“造血干细胞”是指具有分化为造血细胞如淋巴细胞的能力的未分化细胞。

如本文所用，“植物”是指整株植物、植物器官、植物组织、种质、种子、植物细胞及其后代。植物细胞包括但不限于来自种子、悬浮培养物、胚、分生组织区域、愈伤组织、叶、根、枝、配子体、孢子体、花粉和小孢子的细胞。植物部位包括分化和未分化的组织，包括但不限于根、茎、枝、叶、花粉、种子、肿瘤组织以及各种形式的细胞和培养物(例如，单细胞、原生质体、胚和愈伤组织)。植物组织可以在植物中或在植物器官、组织或细胞培养物中。“植物器官”是指构成植物的形态和功能上不同的部分的植物组织或一组组织。

术语“对象”、“个体”或“患者”在本文中可互换使用，并且指脊索动物门的任何成员，包括但不限于人类和其他灵长类，包括非人的灵长类，如恒河猴、黑猩猩和其他猴子和猿类物种；农场动物，如牛、绵羊、猪、山羊和马；家养哺乳动物，如狗和猫；实验室动物，包括兔子、小鼠、大鼠和豚鼠；鸟类，包括家养的、野生的和游戏性鸟类，如鸡、火鸡和其他鸡形鸟类、鸭子和鹅；等等。该术语不表示特定的年龄或性别。因此，该术语包括成年、年轻和新生个体以及雄性和雌性。在一些实施方案中，宿主细胞来源于对象(例如，淋巴细胞、干细胞、祖细胞或组织特异性细胞)。在一些实施方案中，对象是非人对象。在一些实施方案中，对象是人类(智人)对象。

术语“有效量”或“治疗有效量”的组合物或试剂，如本文提供的遗传改造的过继细胞，是指足以提供所需反应，如预防或消除与同种异体过继细胞疗法有关的一种或多种有害副作用的组合物或试剂的量。此类反应将取决于特定目标疾病。例如，在使用过继细胞疗法治疗癌症的患者中，所需的反应包括但不限于治疗或预防GvHD、宿主抗移植物排斥、细胞因子释放综合征(CRS)、细胞因子风暴，以及减少给予的遗传改良细胞的致癌转化的影响。所需的确切量将因对象而异，这取决于对象的种类、年龄和一般状况、所治疗病况的严重程度、所用的特定改良淋巴细胞、给药方式等。在任何个别情况下，本领域普通技术人员可以使用常规实验确定适当的“有效”量。

“治疗(Treatment)”或“治疗(treating)”特定疾病，如癌性病况或GvHD，包括：(1)预防疾病，例如，预防疾病的发展或在可能易患该疾病，但尚未经历或未显示该疾病的症状的对象中使疾病以较低的强度发生；(2)抑制疾病，例如，降低发展速度，阻止发展或逆转疾病状态；和/或(3)减轻疾病的症状，例如，减少对象经历的症状的数量。

如本文所用，通过“基因编辑”或“基因组编辑”意指导致基因修饰的一类基因工程，如位于细胞基因组中的特定位点处的核苷酸序列，或甚至单个碱基的插入、缺失或替换。该术语包括但不限于如本文所定义的异源基因表达、基因或启动子插入或缺失、核酸突变和破坏性遗传修饰。

通过“表位”意指分子上特定B细胞和T细胞对其响应的位点。在表位独特性的空间配置中，表位可以包含3个或更多个氨基酸。通常，表位由至少五个这样的氨基酸组成，且更通常地，由至少8-10个这样的氨基酸组成。确定氨基酸的空间配置的方法是本领域已知的，并且包括例如x射线晶体学、电子显微镜和二维核磁共振。此外，使用本领域熟知的技术，如通过使用疏水性研究和通过位点定向血清学，可以容易地完成给定蛋白质中表位的鉴定。

“模拟表位”是模拟表位结构的大分子，如肽。由于这种特性，它会导致类似于表位引发的抗体反应。给定表位抗原的抗体将识别模拟该表位的模拟表位。模拟表位通常是通过生物淘选从噬菌体展示库获得的。

“抗体”意指一种“识别”，即特异性结合在诸如配体结合域之类的多肽中呈现的目标表位的分子。通过“特异性结合”，意指抗体以“锁和钥匙”型相互作用与表位相互作用，以在抗原和抗体之间形成复合体。如本文所用，术语“抗体”包括从单克隆制剂获得的抗体，以及以下各项：杂交(嵌合)抗体分子；F(ab’)2和F(ab)片段；Fv分子(非共价异型二聚体；单链Fv分子(scFv)；二聚和三聚抗体片段构建体；小抗体；人源化抗体分子；单链抗体；纳米抗体(Ablynx N.V.,Zwijnaarde,Belgium)抗体；以及从这些分子获得的任何功能片段，其中这样的片段保留了亲本抗体分子的免疫学结合特性。抗体可以来源于不同的物种，如人类、小鼠、大鼠、兔、骆驼、鸡等。然后可以通过体外技术，如通过噬菌体展示和酵母展示进一步获得抗体和抗体部分。可以从人血浆、人B细胞克隆、小鼠、大鼠、兔、鸡等获得完全人源化的抗体，这些抗体具有改造的人源化B细胞库。然后可以通过亲和力成熟和其他方法，如岩藻糖基化或IgG Fc工程进一步修饰抗体。

如本文所用，术语“单克隆抗体”是指具有同质抗体群的抗体组合物。该术语不限于关于抗体的种类或来源，也不旨在受其制备方式的限制。该术语包括完整的免疫球蛋白以及诸如Fab、F(ab’)2、Fv和其他片段等片段，以及嵌合和人源化均质抗体群，它们均显示本发明亲本单克隆抗体分子的免疫结合特性。

“抗体依赖性细胞介导的细胞毒性(ADCC)”也称为“抗体依赖性细胞细胞毒性”，是指当膜表面配体结合域已被特定抗体结合时，免疫系统的效应子细胞借以主动裂解靶标细胞，如过继细胞的机制。效应子细胞通常是自然杀伤(NK)细胞。然而，巨噬细胞、嗜中性粒细胞和嗜酸性粒细胞也可以介导ADCC。ADCC独立于补体依赖性细胞毒性(CDC)，后者也可通过破坏膜来裂解靶标，而无需抗体或免疫系统细胞的参与。

如本文所用，“转化”是指将外源多核苷酸插入宿主细胞，而与用于插入的方法无关。例如，可以通过直接摄取、转染、感染等来进行转化。外源多核苷酸可以维持为非整合载体，例如附加体，或者可选地，可以整合到宿主基因组中。如本文所用，“转基因生物体”是指含有遗传物质的生物体，其中已人工引入了来自不相关生物体的DNA。该术语包括转基因生物体的后代(任何世代)，只要该后代具有遗传修饰。在一些实施方案中，转基因生物体是非人的转基因生物体。

如本文所用，“分离的”可以指通过人为干预而存在于其天然环境之外并因此不是天然产物的分子(例如，多核苷酸或多肽)。当提及多肽时，分离的意指所示分子与在天然下与该分子一起发现的完整生物体分离且不连续，或在基本上没有其他相同类型的生物大分子的情况下出现。关于多核苷酸的术语“分离的”是全部或部分缺乏天然下通常与其相关的序列的核酸分子；或者序列，当其在天然下存在时，但是具有与其相关的异源序列；或者与染色体分离的分子。

如本文所用，术语“纯化的”优选意指存在根据重量至少75％，更优选根据重量至少85％，仍然更优选根据重量至少95％，且最优选根据重量至少98％的相同分子。

如本文所用，“底物通道”是指反应物从一种酶促反应直接转移到另一种酶促反应中，而没有首先扩散到整体环境中(参见，例如，Wheeldon,I.,et al.,Nat.Chem.8:299-309(2016))。这些酶促步骤的中间体与整体溶液不平衡，这使得酶促过程的效率和产率得以提高。通常，在天然发生的代谢过程中，酶已发展出共定位和组装成受控聚集体的方式。

如本文所用，“底物通道元件”是指代谢途径的组成部分。在一些实施方案中，底物通道元件是一种催化化学反应的酶。

如本文所用，“底物通道复合体”是指经一些方式一起共定位的多个底物通道元件。

如本文所用，“RNA支架”是指肽可以用作结合底物的RNA分子。

本文提供的数据证明了Cascade组分和核酸酶域(例如，二聚化依赖性的非特异性FokI核酸酶域；参见，例如Urnov,F.D.,et al.,Nature Reviews Genetics 11:636–646(2010)；Joung,J.K.,et al.,Nat.Rev.Mol.Cell Biol.14:49–55(2013)；Guilinger,J.P.,et al.,Nat.Biotechnol.32:577–582(2014)；Tsai,S.Q.,et al.,Nat.Biotechnol.32:569–576(2014))之间的融合介导人类细胞中利用I型系统的有效的可编程RNA引导的基因编辑。数据证明改造的I型CRISPR-Cas系统(例如，包括FokI-Cascade组分融合)可被直接转染为完整的核糖核蛋白(RNP)复合体或者经由单个质粒编码的组分的递送在细胞中组装。如本文中所陈述，所有CRISPR相关的(Cas)基因都被组装在单个多顺反子载体上，产生简化的双组分Cas蛋白引导的RNA表达系统。另外，核酸酶(例如，FokI)/Cascade组分连接子序列的长度/组合物设计和适当的DNA几何学设置，以及选择性Cascade同系物选择，提供了具有多达约50％的编辑效率的改造的I型CRISPR-Cas复合体。确定了涉及DNA靶向期间的PAM需求和错配敏感性的改造的I型CRISPR-Cas系统(例如，包括FokI–Cascade组分融合蛋白)的关键特征。

在第一个方面，本发明涉及编码包括但不限于Cascade亚基蛋白和Cascade向导多核苷酸的Cascade组分的改造的多核苷酸。

在一个实施方案中，本发明涉及编码来源于Cascade I-E型系统的Cascade组分的改造的多核苷酸。在实施例1中呈现了包含Cascade蛋白和Cascade crRNAs的示例性多核苷酸构建体。实施例1、表15和SEQ ID NO:1至SEQ ID NO:20呈现了编码具体地来自大肠杆菌菌株K-12 MG1655的I-E型Cascade的5种亚基蛋白的基因的多核苷酸DNA序列，以及所得蛋白质组分的氨基酸序列。多核苷酸序列来源于大肠杆菌gDNA，并且具体地针对在大肠杆菌中表达进行了密码子优化，和/或具体地针对在真核细胞(例如，人类细胞)中表达进行了密码子优化。当该多核苷酸被转录到前体crRNA中并通过Cascade RNA核酸内切酶处理时，产生了用作向导RNA的成熟的crRNA，以靶向基因组中的互补DNA序列。最小CRISPR阵列包含在示例性间隔区序列两侧的两条重复序列(在实施例1中呈现的CRISPR阵列序列中画有下划线的)，其代表crRNA的向导部分。通过Cascade核酸内切酶加工RNA产生了在5’和3’端于向导序列两侧的具有重复序列的crRNA。本领域普通技术人员参考本说明书和实施例的教导，可以选择适当的间隔区序列来靶标结合Cascade复合体至选择的靶序列(例如，在gDNA中)。

可以根据本说明书的指导，并使用生物信息学工具如BLAST和PSI-BLAST鉴定和设计编码来自另外的细菌和古菌物种的Cascade组分的多核苷酸序列，以定位例如来自大肠杆菌菌株K-12MG1655的Cascade亚基基因的同系物，然后检查Cascade基因的两侧的基因组邻近性，从而定位和鉴定剩余Cascade亚基蛋白的基因(参见，例如实施例14A、实施例14B、实施例15A和实施例15B)。由于Cascade基因作为保守的操纵子同时出现，因此它们通常以一致的顺序排列在相同的I型亚型中，从而促进了它们的鉴定和选择，以进行后续分析和实验。例如，可以通过定位Cas8同系物，鉴定有希望的细菌物种进行同源Cascade测试，然后从那些同源的CRISPR-Cas系统获得或设计编码Cas8和Cascade的其他蛋白组分的多核苷酸序列，来鉴定另外的I-E型系统。

编码来自许多物种(一些具有与来源于大肠杆菌菌株K-12MG1655的那些同源的Cascade复合体)(列出在表3和表4中)的Cascade的亚基蛋白的基因的多核苷酸DNA序列，以及所得蛋白质组分的氨基酸序列，以及示例性最小CRISPR阵列，呈现为SEQ ID NO:22至SEQID NO:213(表3)。

表3

编码来自12种物种的Cascade蛋白的基因的多核苷酸序列

蛋白质的多核苷酸序列来源于宿主细菌的gDNA，并且针对在大肠杆菌中表达特异性地进行了密码子优化，和/或针对在真核细胞(例如，人类细胞)中表达特异性地进行了密码子优化。编码相应的最小CRISPR阵列的多核苷酸DNA序列是基于来源于12种物种的重复序列，并且可以用于产生用作向导RNAs的成熟的crRNA。在表4中，最小CRISPR阵列包含在示例性的“间隔区”序列两侧的两条重复序列(小写的，有下换线的)，其代表crRNA的引导部分。通过核酸内切酶Cascade亚基加工RNA产生了于向导序列两侧的在5’和3’端上均具有重复序列的crRNA。

在另一个实施方案中，本发明涉及编码来自具有其他I型表型的另外的细菌或古菌物种的Cascade组分的改造的多核苷酸序列；包括但不限于I-B、I-C、I-F和I-F的变体类型，其可以根据本说明书的指导并通过使用生物信息学工具如BLAST和PSI-BLAST来定位来自代表每种亚型的标志系统的Cascade基因的同系物来进行鉴定和设计(参见，例如Makarova,K.S.,et al.,Nat.Rev.Microbiol.13:722-736(2015)；Koonin,E.V.,et al.,Curr.Opin.Microbiol.37:67-78(2017))。在鉴定出所需的同系物之后，可以检查Cascade基因的两侧基因组邻域，以定位和鉴定本文公开的剩余Cascade亚基蛋白的基因。例如，可以通过定位Cas8同系物(并且可以通过定位Cas5同系物来鉴定另外的I-F型变体2系统)和鉴定用于同源Cascade测试的有希望的细菌物种，然后获得或设计编码来自那些同源的CRISPR-Cas系统的Cascade的Cas8、Cas5和其他蛋白组分的多核苷酸序列，来鉴定另外的I-F型系统。

SEQ ID NO:214至SEQ ID NO:351示出了编码来自12种另外的同源Cascade复合体的I-B、I-C、I-F和I-F变体第二类型的Cascade的3种、4种或5种亚基蛋白的基因的多核苷酸DNA序列，和所得蛋白组分的氨基酸序列，以及示例性的最小CRISPR阵列(表3)。亚基蛋白的多核苷酸序列来源于宿主细菌的gDNA，并且针对在大肠杆菌中表达特异性地进行了密码子优化，和/或针对在真核细胞(例如，人类细胞)中表达特异性地进行了密码子优化。编码相应的最小CRISPR阵列的多核苷酸DNA序列是基于来源于12种物种的重复序列，并且可以用于产生用作向导RNAs的成熟的crRNA。在表5中，最小CRISPR阵列包含在示例性的“间隔区”序列两侧的两条重复序列(小写的，有下划线的)，其代表crRNA的向导部分。通过核酸内切酶Cascade亚基加工RNA产生了于向导序列两侧的在5’和3’端上均具有重复序列的crRNA。

实施例19A至实施例19I和实施例22A至实施例22C描述了多种Cascade复合体同系物的设计和测试，其每种包含Cas亚基蛋白-FokI融合蛋白，以评估每种Cascade复合体的基因组编辑的效率。利用来自假单胞菌S-6-2的变体观察到最高的编辑，而其他同系物(即肠道沙门氏菌、地热杆菌EPR-M、稻田甲烷胞菌MRE50和嗜热链球菌(菌株ND07))则显示大约与大肠杆菌相等的编辑。利用改造的霍乱弧菌(Vibrio cholera)菌株L15(I-F型)FokI-Cascade复合体和霍乱弧菌菌株HE48(I-Fv2型)FokI-Cascade复合体也观察到编辑。在一个实施方案中，这些不同同系物不同的PAM要求能够增加靶标多核苷酸(例如，细胞中的gDNA)中的靶标密度。因此，Cascade复合体同系物的集合提供了靶标多核苷酸(例如，细胞中的gDNA)中的核酸靶序列选择的更大的灵活性。

在第二个方面，本发明涉及修饰的Cascade亚基蛋白。适合修饰的Cascade亚基蛋白包括但不限于本文所述物种的Cascade亚基蛋白。

在一个实施方案中，本发明涉及改造的循环排列的Cascade亚基蛋白。此类循环排列的Cascade亚基蛋白导致产生蛋白结构，其具有亚基蛋白的氨基酸的不同连通性的原始线性序列，但具有总体相似的三维形状(参见，例如Bliven,S.,et al.,PLoSComput.Biol.8:e1002445(2012))。循环排列的Cascade亚基蛋白可以具有许多优点。例如，循环排列的Cas7亚基蛋白可以产生新的N端和新的C端，其设计为被放置以用于与另外的多肽序列连接，以形成融合蛋白或连接子区域，而不破坏Cas7蛋白折叠或Cascade复合体组装。图3A和图3B中示出了循环排列的Cas7(环状排列的Cas7，cpCas7)的3个实例。在图3A和图3B中，显示了蛋白质的三个部分：天然蛋白质的N端部分(图3A，竖直条纹，例如，Cas7蛋白)、天然蛋白质的中心部分(图3A，灰色阴影)和天然蛋白质的C端部分(图3A，无阴影)。图3A示出了将天然蛋白的N端部分重新定位到天然蛋白的C端位置，以产生环状排列的蛋白质(图3A，cpCas7)，其中天然蛋白质的N端部分现在处于cpCas7的N末端，并通过连接子多肽连接到天然蛋白质的中央部分(图3A，连接子)。图3B示出了将天然蛋白质的C端部分(图3B，Cas7)重新定位到天然蛋白质的N端位置(图3B，cpCas7)，其中天然蛋白质的C端部分现在处于cpCas7的N末端，并且通过连接子多肽连接到天然蛋白质的中央部分(图3B，连接子)。

实施例10A、实施例10B和实施例10中呈现的数据显示，包含循环排列的Cas7亚基蛋白变体的Cascade复合体的纯化证明了循环排列的I-E型CRISPR-Cas亚基蛋白可以成功地用于形成具有与包含野生型蛋白的Cascade复合体基本上相同的组合物(基于分子量)的Cascade复合体。

在另一个实施方案中，本发明涉及融合至另外的多肽序列以产生融合蛋白的Cascade亚基蛋白，以及编码此类融合蛋白的多核苷酸。另外的多肽序列可以包括但不限于蛋白、蛋白域、蛋白片段和功能域。这样的另外的多肽序列的实例包括但不限于来源于转录活化剂或阻抑剂域和核苷酸脱氨酶(例如，胞苷脱氨酶或腺嘌呤脱氨酶，如Komor,et.al.,Nature553:420-424(2016)；Koblan,et.al.,Nat.Biotechnol.doi:10.1038/nbt.4172(May29,2018)中所述的)的序列。本文中示出了融合蛋白另外的功能域。

另外的多肽序列可以融合至任何Cascade亚基蛋白中，其中所述另外的多肽序列由通常附接至包含Cascade亚基蛋白的编码序列的多核苷酸的5’或3’端的另外的多核苷酸序列编码。在一些实施方案中，编码氨基酸连接子的另外的多核苷酸序列将Cascade亚基蛋白连接至另外的目标多肽序列。在一些实施方案中，融合蛋白伴侣和连接子序列的多核苷酸序列可以来源于天然存在的gDNA序列，或者可以针对在大肠杆菌中的细菌表达或在哺乳动物细胞(例如，人类细胞)中的真核表达进行密码子优化。在实施例1中示出了包含亲和标签(例如，His6,

II(IBA GMBH LLC,

Germany))、序列的核定位信号(NLS)、麦芽糖结合蛋白和FokI的融合蛋白的实例。实施例1中还公开了示例性的氨基酸连接子序列。

实施例11A描述了Cascade亚基蛋白-FokI融合，以及Cascade亚基蛋白与胞苷脱氨酶、核酸内切酶、限制酶、核酸酶/解旋酶或以上的域的融合。实施例11B描述了Cascade亚基蛋白与其他Cascade亚基蛋白的融合，以及Cascade亚基蛋白与其他Cascade亚基融合蛋白和酶促蛋白域的融合(实施例11D)。在一些实施方案中，可以在计算机中评估I型CRISPR亚基蛋白用于在N端、C端或N端和C端之间的位置处产生蛋白融合的能力。在一些实施方案中，可以使用一个或多个多肽连接子，在N端、C端或N端和C端之间的位置处将I型CRISPR亚基蛋白连接至一个或多个融合域。在一些实施方案中，Cascade亚基蛋白可以融合至单链FokI(例如，单链FokI与EcoCascade RNP复合体融合；核苷酸序列，SEQ ID NO:1926；蛋白序列，SEQ ID NO:1927)。示例性的多肽连接子示出在实施例1、11、18和19中。

图4A和图4B示出了包含融合至另外的蛋白序列(例如，FokI)的Cas8亚基蛋白(图4A，图4B，Cas7、Cas5、Cas8、Cse2、Cas6，Cas6周围的虚线框指示其与crRNA发卡的相互作用；cRNA示出为包括发卡的黑线；以及Cas8，指示了“C”C端，“N”N端)的Cascade复合体。图4A显示了利用连接子多肽与Cas8亚基蛋白的C端连接的(图4A，黑色的曲线)另外的蛋白序列(图4A，FP)的实例。图4B显示了利用连接子多肽与Cas8亚基蛋白的N端连接的(图4B，黑色的曲线)另外的蛋白序列(图4B，FP)的实例。实施例11A描述了与FokI核酸酶域N端融合的I-E型Cas8的计算机设计、克隆、表达和纯化。

图5A和图5B示出了包含融合至另外的蛋白序列的Cascade亚基蛋白的Cascade复合体的另外的实例。在图5A和图5B中，cRNA示出为包括发卡的黑线，并显示了Cascade复合体的Cas蛋白的相对位置(图5A，图5B：Cas7、Cas5、Cas8、Cse2、Cas6；Cas6周围的虚线框指示其与crRNA发卡的相互作用)。图5A显示了每种经连接子多肽(图5A，黑色曲线)融合至6种Cas7亚基蛋白中的每种的可检测部分(例如，绿色荧光蛋白；图5A，GFP)的实例。这样的Cascade复合体可以用于通过由于与Cascade复合体相关的多个可检测部分的存在而提供显著的信号扩增，来检测复合体与核酸靶序列的结合。图5B显示了利用连接子多肽与Cas6亚基蛋白连接的(图5B，黑色曲线)另外的蛋白序列(图5B，FP)的实例。

含有大肠杆菌I-E型Cascade亚基蛋白的融合蛋白的实例包括但不限于以下：相同的亚基(例如，Cse2_连接子_Cse2)、环状排列的亚基(例如，cpCas7_连接子_cpCas7_连接子_cpCas7_连接子_cpCas7_连接子_cpCas7_连接子_cpCas7)、融合至核酸酶的I-E型Cascade蛋白(例如，FokI_连接子_Cas8、Cas3_连接子_Cas8、Cas6_连接子_FokI、S1核酸酶_连接子_Cse2_连接子_Cse2)、融合至胞苷脱氨酶的I-E型Cascade蛋白(例如，Cas8_连接子_AID、Cse2_连接子_Cse2_连接子_APOBEC3G)，以及I-E型Cascade蛋白融合的一种或多种其他的I-E型Cascade蛋白(例如，Cas6_连接子_cpCas7_连接子_cpCas7_连接子_cpCas7_连接子_cpCas7_连接子_cpCas7_连接子_cpCas7、cpCas7_连接子_cpCas7_连接子_cpCas7_连接子_cpCas7_连接子_cpCas7_连接子_cpCas7_连接子_Cas5、Cas6_连接子_cpCas7_连接子_cpCas7_连接子_cpCas7_连接子_cpCas7_连接子_cpCas7_连接子_cpCas7_连接子_Cas5)。

图6A、图6B和图6C提供了包含cpCas7的改造的I型CRISPR-Cas效应子复合体的图示。在图6A、图6B和图6C中，“cpCas7”是环状排列的Cas7蛋白(图6A，图6B，图6C：cpCas7、Cas5、Cas8、Cse2和Cas6；Cas6周围的虚线框指示其与crRNA发卡的相互作用；cRNA示出为包括发卡的黑线；对于cpCas7，阴影对应于图3A中示出的环状排列的蛋白)，并且显示了Cascade复合体的Cas蛋白的相对位置。图6A示出了包含6种单独的cpCas7亚基蛋白的Cascade复合体(图6A，cpCas7)。图6B示出了包含6种融合的cpCas7亚基蛋白的Cascade复合体，其中cpCas7亚基蛋白的C端(图6B，cpCas7)利用连接子多肽与邻近的cpCas7亚基蛋白的N端连接(图6B，连接子多肽示出为连接cpCas7亚基蛋白的深黑色线)。图6C示出了实施方案，其中Cascade复合体包含6种融合的cpCas7亚基蛋白(“骨架”)，其中第一cpCas7亚基蛋白的C端利用连接子多肽与第二cpCas7亚基蛋白的N端连接(图6C，连接子多肽示出为连接cpCas7亚基蛋白的深黑色线)，第二cpCas7亚基蛋白的C端利用连接子多肽(图6C，连接cpCas7和FP的黑色的直线)与不同蛋白序列(图6C,FP)(例如，胞苷脱氨酶)的N端连接，并且该蛋白编码序列的C端利用连接子多肽与第三cpCas7的N端连接。cpCas7亚基蛋白这样的融合骨架的一个优点在于可以在沿骨架的特定位置处引入另外的蛋白序列，以提供另外的蛋白序列接近沿向导引导与Cascade复合体的结合核酸靶序列的长度的不同位置。

图7A和图7B示出了包含融合蛋白的改造的I型CRISPR-Cas效应子复合体的其他实施方案。在图7A和图7B中，显示了Cascade复合体的Cas蛋白的相对位置(图7A，图7B：Cas7、Cas5、Cas8、Cse2和Cas6；Cas6周围的虚线框指示其与crRNA发卡的相互作用；cRNA示出为包括发卡的黑线)。图7A显示了包括Cse2-Cse2融合蛋白的Cascade复合体(图7A，两个Cse2蛋白通过黑线的曲线连接)。在实施例11B和实施例11C中描述了包含Cse2-Cse2融合蛋白的Cascade复合体的计算机设计、克隆、表达、纯化和电泳迁移率变化测定。图7B显示了包含经由连接子多肽(图7B，连接Cse2蛋白与FP的黑色的曲线)与另外的蛋白序列(图7B,FP)的Cse2-Cse2融合蛋白的Cascade复合体。实施例11D描述了融合至胞苷脱氨酶的Cse2-Cse2蛋白的计算机设计、克隆、表达和纯化。

在一些实施方案中，可以在Cascade蛋白亚基(例如，Cas8-FokI融合蛋白、cpCas7蛋白或Cse2-Cse2融合蛋白)的改造的N端或C端处添加一种或多种核定位信号。

在融合多肽的一些实施方案中，连接子多肽连接两种或更多种蛋白编码序列。在实施例中描述了示例性的连接子多肽的长度。通常，连接子长度包括但不限于约10个氨基酸至约40个氨基酸、约15个氨基酸至约30个氨基酸，以及约17个氨基酸至约20个氨基酸。连接子多肽的氨基酸组合物通常包含极性的、小的和/或带电荷的氨基酸(例如，Gly、Ala、Leu、Val、Gln、Ser、Thr、Pro、Glu、Asp、Lys、Arg、His、Asn、Cys、Tyr)。在另外的实施方案中，设计了连接子多肽，使得它们不含有蛋氨酸，并且设计了融合以避免隐藏的翻译起始位点。遵循本说明书的指导，设计了连接子多肽，以在融合蛋白内提供功能域和Cascade蛋白的适当间距和位置(参见，例如Chichili,C.,et al.,Protein Science 22:153-167(2013)；Chen,X.,et al.,65:1357-1369(2013)；George,R.,et al.,Protein Engineering,Designand Selection 15:871–879(2002))。在本发明的实践中有用的连接子多肽的另外的实例是在包括Cascade系统的生物体中鉴定的将Cascade蛋白的编码序列连接至彼此的连接子多肽(例如，灰色链霉菌(Streptomyces griseus)中将Cas8连接到Cas3的连接子多肽，如Westra,E.R.,et al.,Mol,Cell.46:595–605(2012)所述的)。

可以对融合蛋白编码DNA序列进行密码子优化，以用于在选定的生物体如细菌、古菌、植物、真菌或哺乳动物细胞中表达。密码子优化程序广泛可用，如在整合DNA技术网站(www.idtdna.com/CodonOpt)上，或通过

(Genscript,Piscataway,NJ)服务。为了促进克隆到受体表达载体中，可以在DNA序列的5’和3’端处附接与兼容SLIC克隆的载体重叠的另外的序列(参见，例如Li,M.,et al.,Methods Mol.Biol.852:51-59(2012))。

在其他实施方案中，可以将Cascade亚基蛋白融合至转录活化和/或抑制域。在一些实施方案中，融合蛋白可以包含活化剂域(例如，热休克转录因子、NFKB活化剂、VP16和VP64(参见，例如Eguchi,A.et.al.,Proc.Natl.Acad.Sci.USA 113:E8257-E8266(2016)；Perez-Pinera,P.et.al.,Nature Methods 10:973-6(2013)；Gilbert,L.A.,et.al.Cell159:647-61(2014))或阻抑剂域(例如，KRAB域)。在一些实施方案中，连接子核酸序列被用于连接蛋白、蛋白域或蛋白片段的两条或更多条编码序列。

包含融合至转录活化剂的I型CRISPR-Cas亚基蛋白的Cascade复合体可用于激活基因的表达。靶标位点可包含转录起始位点(TSS)，该位点通常具有细胞的转录激活机制(因子)的一个或多个结合位点。图8示出了包含六种融合蛋白的Cascade复合体，所述融合蛋白包含经连接子多肽(图8，将cpCas7与VP64连接的黑色曲线)连接到转录活化剂VP64的cpCas7(与图3A相比)。在图8中，crRNA示出为包括发卡的深黑色线，并且显示了Cascade复合体的Cas蛋白的相对位置(图8：cpCas7、Cas5、Cas8、Cse2和Cas6；Cas6周围的虚线框指示其与crRNA发卡的相互作用)。这种Cascade复合体的工程设计将复合体转换为用于基因的转录激活的灵活工具(CASCADEa)，其中通过选择指导Cascade复合体与选定基因的一个或多个调控元件(例如，TSS)的结合的向导序列，实现了靶向选定的基因。实施例12描述了融合至VP64激活域以赋予Cascade复合体转录激活活性的大肠杆菌I-E型cp-Cas7蛋白的设计。转录活化剂包括但不限于：同源域蛋白、锌指蛋白、翼型螺旋(叉头)蛋白、亮氨酸拉链蛋白、螺旋环螺旋蛋白、异型二聚体转录因子、激活域，以及结合增强剂的转录因子(参见，例如Molecular Cell Biology,Harvey Lodish,et al.,W H Freeman&Co；(2002)ISBN 978-0849394805)。

另外，包含融合至转录阻抑剂的I型CRISPR-Cas亚基蛋白的Cascade复合体可以用于抑制基因的表达。靶标位点可以包含转录调控元件。在一个实施方案中，Cascade亚基蛋白可以经连接子多肽连接至KRAB域。包含Cascade亚基蛋白/KRAB域融合的Cascade复合体可以将复合体转化为用于基因转录抑制的灵活的工具(CASCADEi)，其中通过选择指导Cascade复合体与选定基因的一个或多个调控元件的结合的向导序列实现了靶向选定的基因。转录阻抑剂包括但不限于：被动转录阻抑剂、bzip转录因子家族、sp1样转录阻抑剂、活性转录阻抑剂(例如，经组蛋白脱乙酰基酶、组蛋白脱乙酰作用和双特异性阻抑剂的募集的转录抑制(参见，例如Thiel,G.,et al.,Eur.J.Biochem.271:2855–2862(2004)；NicolaReynolds,N.,et al.,Development 140:505-512(2013)；Gaston,K.,et al.,CellMol.Life Sci.,60:721-741(2003))。

在另外的实施方案中，可以将Cascade亚基蛋白融合至亲和标签。

在本发明的其他实施方案中，可以通过插入选定的多核苷酸元件或向导多核苷酸内选定位置胡的核苷酸变化(例如，DNA部分变化为RNA部分的根本不同的变化，以及上述的向导多核苷酸的其他变化)，来修饰I型CRISPR-Cas向导多核苷酸。此类实施方案包括但不限于I型CRISPR-Cas向导多核苷酸5'、3'，或内部融合至一个或多个核苷酸效应子域(例如，MS2或MS2-P65-HSF1结合RNA或募集转录因子的适体)。图9示出了I型CRISPR向导多核苷酸，并显示了Cascade复合体的Cas蛋白的相对位置(图9：Cas7、Cas5、Cas8、Cse2和Cas6；Cas6周围的虚线框指示其与crRNA发卡的交互作用；cRNA示出为包括虚线框内的发卡的黑线)。在图9中，crRNA还包含引入到向导多核苷酸的3'发卡中的RNA适体发卡(图9，通过箭头指示的位置)。

也可以修改I型CRISPR-Cas向导的长度，通常通过延长或缩短Cas7亚基蛋白和Cse2亚基蛋白结合区域。图10A示出了具有3个Cas7亚基、1个Cse2亚基和缩短的crRNA的Cascade复合体(图10A：Cas7、Cas5、Cas8、Cse2和Cas6；Cas6周围的虚线框指示其与crRNA发卡的相互作用；cRNA示出为包括发卡的黑线)。图10B示出了具有9个Cas7亚基、3个Cse2亚基和延长的crRNA的Cascade复合体(图10B：Cas7、Cas5、Cas8、Cse2和Cas6；Cas6周围的虚线框指示其与crRNA发卡的相互作用；cRNA示出为包括发卡的黑线)。

实施例16描述了I型CRISPR-Cas向导crRNAs修饰的产生和测试，以及修饰的向导用于构建改造的I型CRISPR-Cas效应子复合体的适合性。

在第三个方面，本发明涉及编码一种或多种改造的Cascade组分的核酸序列，以及包含编码一种或多种改造的Cascade组分的核酸序列的表达盒、载体和重组细胞。本发明的第三个方面的一些实施方案包括的一种或多种多肽(例如，Cse2、Cas5、Cas6、Cas7和Cas8蛋白，以及一种或多种同源向导)，其中组分能够形成效应子复合体。通常，当表达一种以上的同源向导时，这些向导具有不同的间隔区序列以指导与不同的核酸靶序列的结合。这样的实施方案包括但不限于表达盒、载体和重组细胞。

在一个实施方案中，本发明涉及一种或多种表达盒，其包含编码一种或多种改造的Cascade组分的一种或多种核酸序列。表达盒通常包含涉及以下一项或多项的调控序列：转录调控、转录后调控或翻译调控。可以将表达盒引入多种生物体中，包括但不限于细菌细胞、酵母细胞、植物细胞和哺乳动物细胞(包括人类细胞)。表达盒通常包含对应于其所引入的生物体的功能调控序列。

本发明的其他实施方案涉及包含编码一种或多种改造的Cascade组分的一种或多种核酸序列的载体，包括表达载体。载体还可以包括编码可选择的或可筛选的标记的序列。此外，还可以将核靶向序列添加到例如Cascade亚基蛋白中。载体还可以包括编码蛋白标签(例如，多聚His标签、血凝素标签、荧光蛋白标签和生物发光标签)的多核苷酸。可以将此类蛋白质标签的编码序列与例如编码Cascade亚基蛋白的一种或多种核酸序列融合。

用于构建表达载体的一般方法是本领域已知的。用于宿主细胞的表达载体是可商购获得的。有数种商业软件产品旨在促进适当载体的选择和其构建，如用于昆虫细胞转化和昆虫细胞中基因表达的昆虫细胞载体、用于细菌转化和细菌细胞中基因表达的细菌质粒、用于酵母和其他真菌中细胞转化和基因表达的酵母质粒、用于哺乳动物细胞转化和哺乳动物细胞或哺乳动物中基因表达的哺乳动物载体，以及用于细胞转化和基因表达的病毒载体(包括但不限于慢病毒、逆转录病毒、腺病毒、I型或II型单纯疱疹病毒、细小病毒、网状内皮增生病毒和腺相关病毒(AAV)载体)，以用于细胞转化和基因表达以及易于允许克隆此类多核苷酸的方法。

基于AAV的载体(rAAV)是可用于本发明的方法实施的病毒载体的一个实例。AAV是细小病毒科的单链DNA成员，并且是一种天然的复制缺陷型病毒。AAV载体是最常用于基因治疗的病毒载体。已知十二种人类AAV血清型(AAV血清型1[AAV-1]至AAV-12)和来自非人类的超过100种血清型。

慢病毒载体是可用于本发明方法实施的病毒载体的另一个实例。慢病毒是逆转录病毒科的成员，并且是一种单链RNA病毒，其既可以感染分裂细胞也可以感染非分裂细胞，并且可以通过整合到基因组中来提供稳定的表达。为了增加慢病毒载体的安全性，将产生病毒载体必需的组分分到多个质粒中。转移载体通常没有复制能力，并且可能在3’LTR中另外包含缺失，这使得整合后病毒会自行失活。包装和包膜质粒通常与转移载体结合使用。例如，包装质粒可以编码Gag、Pol、Rev和Tat基因的组合。转移质粒可包含病毒LTRs和psi包装信号。包膜质粒通常包含包膜蛋白(通常是水泡性口炎病毒糖蛋白，VSV-GP，因为其感染范围广)。

示例性的植物转化载体包括来源于根癌农杆菌(Agrobacterium tumefaciens)的Ti质粒的那些(参见，Lee,L.Y.,et al.,Plant Physiology146:325-332(2008))。同样，在本领域中有用和已知的是发根农杆菌(Agrobacterium rhizogenes)质粒。例如，SNAPGENETM(GSL Biotech LLC,Chicago,IL；snapgene.com/resources/plasmid_files/your_time_is_valuable/)提供了载体、单个载体序列和载体图以及许多此类载体的商业来源的广泛的清单。

为了在细菌表达系统中表达和纯化重组Cascade，可以设计编码Cascade亚基蛋白的载体，以及包含目标向导序列的最小CRISPR阵列。因此，本发明的一个方面包括这样的表达系统。在一个实施方案中，Cascade复合体由三种不同的质粒载体表达，它们共同编码以下组分：Cas8蛋白；Cse2、Cas7、Cas5和Cas6蛋白；以及CRISPRRNA。在一些实施方案中，编码Cas8的表达质粒包含天然的gDNA基因序列，并且在其他实施方案中，表达质粒可以编码密码子优化的Cas8以用于在选择的细胞类型中表达。类似地，编码Cse2、Cas7、Cas5和Cas6的表达质粒可以含有天然的gDNA基因序列，或者可以含有已经进行密码子优化以用于在选择的细胞类型中表达的基因序列。在一些实施方案中，整个Cascade亚基蛋白编码操纵子可以位于单个转录启动子下游，使得不同的蛋白质均从单个多顺反子转录物翻译而来。在另外的实施方案中，编码Cascade亚基蛋白的基因可以彼此分隔开，具有介于中间的转录终止子和启动子。

编码crRNA的表达质粒可以在单个间隔区序列两侧、适当的转录启动子下游含有尽可能少的两个重复，或者可以在多个间隔区序列两侧含有同一个向导序列或多个不同的向导序列的许多重复。CRISPR和Cascade亚基，特别是Cas6亚基的协同表达导致将较长的前体crRNA加工成成熟长度的crRNA，其每个都包含在crRNA的5'和3'端上的单个重复的片段，以及中间的单个间隔区序列。

在大肠杆菌中表达完整Cascade复合体的替代策略使用了两种质粒：一种质粒在单个表达质粒上编码整个Cas8–Cse2–Cas7–Cas5–Cas6操纵子，并且一种质粒编码CRISPRRNA。在这种情况下，通常与Cas8基因的3'端重叠的Cse2基因的5'端与Cas8基因的3'端在空间上分开，以便附接编码亲和标签和/或蛋白酶识别序列的多核苷酸序列。

实施例2描述了Cascade蛋白的两种类型的细菌表达质粒系统：第一种类型包含两种质粒，第一种质粒编码Cas8蛋白且第二种编码CasBCDE复合体的4种亚基蛋白(cse2–cas7–cas5–cas6操纵子)；并且第二种类型包含编码Cascade复合体的所有5种亚基蛋白(cas8–cse2–cas7–cas5–cas6操纵子)的表达质粒。还描述了同源CRISPR阵列。

为了促进Cascade复合体的纯化，可以将亲和标签附接到Cse2亚基上，如N端Strep-II标签或六组氨酸(His6)标签。此外，可以将诸如TEV蛋白酶或HRV3C蛋白酶之类的蛋白酶识别的氨基酸序列插入亲和标签和Cse2亚基的天然N端之间，从而在最初纯化后，用蛋白酶对序列进行生物化学切割而从最终的重组Cascade复合体释放出亲和标签。亲和标签也可以放置在其他亚基上，或留在Cse2亚基上，并与其他亚基上的另外的亲和标签组合。包含亲和标签的示例性的Cascade亚基蛋白示出在实施例1、实施例2、实施例3A、实施例3B和实施例3C中。

对于I-E型Cascade系统，可以利用编码CRISPRRNA的质粒以及cse2–cas7–cas5–cas6基因转化大肠杆菌菌株，诱导蛋白表达，并可以产生缺少Cas8亚基的Cascade复合体。该Cascade复合体通常被称为Cas8-负Cascade复合体，或者可选地称为CasBCDE复合体(参见，例如Jore,M.,et al.,Nat.Struct.Mol.Biol.18:529-536(2011))。该纯化的复合体可以与单独纯化的Cas8生物化学组合，以重构完整的Cascade(参见，例如Sashital,D.G.,etal.,Mol.Cell 46:606-615(2012))。

表6示出了编码最小CRISPR阵列的细菌表达质粒的示例性的序列，cas8、cse2–cas7–cas5–cas6构建体，以及cas8–cse2–cas7–cas5–cas6构建体，其含有不同的标签和设计。可以遵循本说明书的指导，与在大肠杆菌K-12MG1655中发现的I-E型的示例性的表达质粒序列类似地设计编码Cascade复合体的质粒和来自同源的I型系统的Cascade复合体。表6另外含有表达Cas8–Cse2–Cas7–Cas5–Cas6蛋白的表达质粒的序列，以及与cas8基因或cas6基因的FokI融合，以用于产生用于基因编辑实验的核酸酶–Cascade融合。

表7含有编码所有5种亚基蛋白的单一多聚启动子细菌表达质粒以及来自单个细菌表达质粒的crRNA的序列。在该设计中，每个基因与其两侧的上游和下游具有转录启动子和终止子的其他基因分隔开。可以引入编码亲和标签和/或蛋白酶识别标签的另外的序列，以及与核酸酶蛋白的融合，以便产生Cascade–核酸酶融合以用于基因编辑。

可以基于本文的设计标准，可以设计编码来自其他I型亚型和其他细菌或古菌生物体的同源的Cascade复合体的另外的细菌表达质粒。可以利用Cascade基因的gDNA序列设计此类表达质粒，也可以利用已经进行密码子优化以用于在大肠杆菌或其他细菌菌株中表达的基因序列来设计它们。

为了在诸如人类细胞的哺乳动物细胞中表达Cascade或融合至Cascade效应子，设计了真核表达质粒载体以使得能够通过真核转录和翻译机制表达相关的蛋白质和RNA组分。在一个实施方案中，可以通过在真核启动子(例如，巨细胞病毒(CMV)启动子)驱动的单独的表达载体上编码每种蛋白质组分，并在RNA聚合酶III启动子(例如，人U6启动子)驱动的单独的表达载体上编码crRNA，从而在哺乳动物细胞中产生Cascade。CRISPRRNA可以用最小CRISPR阵列编码，该阵列含有在一个或多个间隔区序列两侧的至少两个重复序列，这些序列用作成熟crRNA的向导部分。可以设计产生CRISPRRNA的构建体，其在最小阵列中的最外面重复序列两侧具有另外的序列。通过Cascade复合体(Cas6亚基蛋白)的RNA处理亚基实现对CRISPRRNA前体的处理，该RNA可从单独的质粒表达。通过可以从单独的质粒表达的Cascade复合体的RNA加工亚基(Cas6亚基蛋白)使得能够加工前体CRISPRRNA。

表8含有大肠杆菌I-E型Cascade复合体的每种蛋白的单个真核表达质粒的序列。Cas8亚基可以融合至另外的效应子核酸酶域，如FokI核酸酶(实施例1，实施例3A，实施例3B和实施例3C)。表8还含有Cascade的crRNA组分的表达质粒的序列，其编码两种单独的crRNAs，从而3个重复序列位于两个间隔间隔区两侧。可以将每个蛋白编码基因附接至附接核定位信号(NLS)、亲和标签和连接那些标签的连接子序列的多核苷酸序列。可以通过通常附接至5’或3’编码序列的另外的多核苷酸序列，包括编码连接Cascade亚基蛋白与另外的目标多肽序列的氨基酸连接子的另外的多核苷酸序列，来编码其他与任何Cascade亚基蛋白的融合。本文中描述了候选融合蛋白的实例。

为了在更少的表达载体上表达Cascade复合体的组分，可以构建多顺反子表达载体，从而单个启动子(例如，CMV启动子)同时驱动多个编码序列的表达，这些编码序列被明脉扁刺蛾(Thata asigna)病毒2A序列隔开。序列。2A病毒肽序列诱导核糖体跳跃，从而使多个蛋白质编码基因可在单个多顺反子构建体中串联起来，以在真核细胞中表达。因此，可以设计多顺反子载体，其在由单个启动子驱动的单个转录物上编码Cascade复合体的4个或5个蛋白亚基。表9含有真核多顺反子表达质粒的序列，该序列可与CRISPRRNA表达质粒组合以在哺乳动物细胞中产生功能性的Cascade。

在一些实施方案中，CRISPRRNA被编码在蛋白编码基因的3'非翻译区(UTR)中，其表达由RNA聚合酶II启动子(例如，CMV启动子)驱动以产生转录物。在这样的实施方案中，最小CRISPR阵列被设计为存在于诸如Cas6、Cas7或报告基因(例如，增强型绿色荧光蛋白，eGFP)之类的蛋白编码基因的下游，并通过先前已证明可赋予上游转录物以稳定性的MALAT1三链体序列与蛋白编码序列隔开。最小CRISPR阵列由Cascade的RNA加工亚基(通常使用不同的质粒表达)——一种切割最小CRISPR阵列的核酸内切酶加工，在转录物中引入断裂，并且三链体序列保护上游蛋白编码基因的3’端过早地被核酸外切降解。表10含有3个多核苷酸序列的序列，从而CRISPR序列被克隆到Cas6、Cas7或eGFP的下游，并且整个融合序列的表达由CMV启动子驱动。

在一些实施方案中，CRISPRRNA阵列被编码在与五个5Cascade亚基蛋白表达的多顺反子构建体相同的载体上；这两种元件的组合产生了一个多合一的载体，该载体可产生Cascade复合体的所有功能性亚基(蛋白质和RNA)，以及融合至一个Cascade亚基的任何核酸酶或效应子域。表11含有这些多合一多核苷酸序列的两个代表性序列，其编码所有各自的组分以在哺乳动物细胞中产生功能性FokI-Cascade RNPs。

实施例3A、实施例3B和实施例3C描述了使用表达每种Cascade亚基蛋白的单独的质粒和最小CRISPR阵列的表达系统、其中从单个启动子表达多个Cascade亚基蛋白编码序列的表达系统，以及其中构建了单个质粒Cascade表达系统以表达用于哺乳动物细胞中的整个cas8–cse2–cas7–cas5–cas6操纵子和最小CRISPR阵列的表达系统。

遵循本说明书的指导，本领域的普通技术人员可以设计编码类似于大肠杆菌I-E型Cascade复合体中提供的实例的其他的Cascade复合体的另外的哺乳动物表达载体。

在第四个方面，本发明涉及通过将编码改造的I型CRISPR-Cas效应子复合体的一种或多种组分的质粒引入宿主细胞中来产生改造的I型CRISPR-Cas效应子复合体。转化的宿主细胞(或重组细胞)或已使用重组DNA技术转染或转染的细胞后代可包含编码改造的I型CRISPR-Cas效应子复合体的一种或多种组分的一种或多种核酸序列。将多核苷酸(例如，表达载体)引入宿主细胞中的方法是本领域已知的，并且通常根据宿主细胞的种类进行选择。这样的方法包括例如病毒或噬菌体感染、转染、结合、电穿孔、磷酸钙沉淀、聚乙烯亚胺介导的转染、DEAE-葡聚糖介导的转染、原生质体融合、脂质转染、脂质体介导的转染、粒子枪技术、微粒轰击、直接显微注射和纳米粒子介导的递送。在本发明的一个实施方案中，将编码改造的I型CRISPR-Cas效应子复合体的组分的多核苷酸引入细菌细胞(例如，大肠杆菌)中。

实施例4A和实施例4B描述了引入和表达Cas8蛋白编码序列，以及改造的I型CRISPR-Cas效应子复合体组分的编码序列的方法，以用于利用大肠杆菌表达系统经细菌产生此类复合体。

本文公开的各种示例性的宿主细胞可用于使用改造的Cascade效应子复合体产生重组细胞。这样的宿主细胞包括但不限于植物细胞、酵母细胞、细菌细胞、昆虫细胞、藻类细胞和哺乳动物细胞。

为了便于讨论，下面使用“转染”指将多核苷酸引入宿主细胞中的任何方法。

在一些实施方案中，利用编码I型CRISPR-Cas效应子复合体的一种或多种组分的核酸序列瞬时或非瞬时转染宿主细胞。在一些实施方案中，像在对象中天然发生的那样转染细胞。在一些实施方案中，首先将被转染的细胞从对象，例如原代细胞或祖细胞中移除。在一些实施方案中，在离体转染后将原代细胞或祖细胞培养和/或返回到同一对象或不同的对象。

改造的I型CRISPR-Cas效应子复合体的表达和纯化是劳动密集型的，因此为了便于在大量的向导多核苷酸或效应子复合体变体上进行筛选，设计了更高通量的基于质粒的递送系统。五个Cas基因中的每一个都进行了人类密码子优化，并克隆到CMV驱动的表达质粒中，作为N端NLS融合，并将含有靶向T细胞受体α位点(UCSC基因组浏览器，hg38)的TRAJ27外显子的成对的gRNAs的最小CRISPR阵列克隆到人U6启动子下游的第六个质粒(实施例3A；图35)。在图35中，元件从左到右的顺序如下：hu6启动子、具菱形末端的灰色矩形；重复区1，空心菱形，(白色)；间隔区1，灰色华夫格矩形；重复区2，灰色菱形；间隔区2，灰色点画矩形；以及重复区3，黑色菱形。在图35中，括号示出了编码两种gRNAs的区域。在一些实施方案中，两种向导RNAs可以是相同的(例如，靶向相同的核酸靶序列)，并且在其他实施方案中，两种向导RNAs可以是不同的(例如，靶向两种不同的核酸靶序列)。

大多数I型系统中的gRNA天然下是由Cascade中出现的Cas6核糖核酸酶催化的(参见，例如Brouns,S.J.,et al.,Science 321:960-964(2008)；Hochstrasser,M.,et al.,Trends Biochem.Sci.40:58–66(2015)，避免了对如本文所示的具有成对的gRNA的多个启动子方法的需要。因此，本发明的一个实施方案包括包含可操作地连接至调控元件以提供向导多核苷酸(例如，gRNAs)的表达的成对的向导多核苷酸的载体。在TRAJ27位点处，六质粒共转染的产率高达～3％编辑，并且任一组分的去除废除了基因组编辑，唯一Cas11除外，大肠杆菌Cascade效应子复合体并非绝对需要Cas11来进行DNA结合(参见，例如Westra,E.,et al.,RNA Biol.9:1134-1138(2012))。

在本发明的另一实施方案中，最小CRISPR阵列，通常包含两种向导序列，并引入细胞或生化反应中作为DNA模板。DNA模板通过PCR扩增产生(例如，图42A；实施例20A)。这样的最小CRISPR阵列可以引入具有编码Cascade复合体蛋白组分的一个或多个质粒的细胞中。在一些实施方案中，包含成对的向导多核苷酸的最小CRISPR阵列和载体均可以引入细胞或生化反应中。在使用两种Cascade RNP复合体(例如，结合核酸靶序列的方法或切割核酸靶序列的方法；参见，例如图15A、图15B、图15C)的方法中，最小CRISPR阵列可以编码两种不同的向导。因此，在一些实施方案中，两种向导RNAs可以是不同的(例如，靶向两种不同的核酸靶序列)。在使用单一Cascade RNP复合体方法中(例如，当使用与mCas3蛋白相关的一种I型CRISPR-Cas效应子复合体或其中Cas3融合蛋白与复合体相关的I型CRISPR-Cas效应子复合体时；例如，参见，例如图16A、图17B、图17C、图21A、图21B、图21C、图21D)，最小CRISPR阵列可以编码相同向导序列的两个拷贝。因此，在一些实施方案中，两种向导RNAs可以是相同的(例如，靶向相同的核酸靶序列)。

在又一个实施方案中，可以将编码还包含被Cas6蛋白识别以用于将crRNA前体内切核苷酸加工为成熟的向导RNAs的序列和结构的向导序列的多核苷酸引入细胞或生化反应中。在其他实施方案中，不需要加工的成熟的向导多核苷酸可用于级联复合体的组装。这种成熟的向导可以包含序列修饰(例如，在5'和/或3'端处的硫代磷酸酯键，以帮助保护向导免受核酸酶消化，如被RNA酶消化)。另外的向导修饰包括本文针对核苷酸序列(例如，核苷酸类似物等)所述的那些修饰。

实施例9A、实施例9B、实施例9C和实施例9D示出了包含FokI融合蛋白的大肠杆菌I-E型Cascade复合体的设计和递送，以促进人类细胞中的基因组编辑。实施例9B描述了递送表达Cascade复合体组分的质粒载体至真核细胞中。在第五个方面，本发明涉及来自细胞的改造的I型CRISPR-Cas效应子复合体的纯化，以及此类复合体的应用。改造的I型CRISPR-Cas效应子复合体产生于宿主细胞中。从细胞裂解物纯化改造的I型CRISPR-Cas效应子复合体(在该情况下为Cascade RNP复合体)。

实施例5A和实施例5B描述了通过在细菌中过表达产生的大肠杆菌I-E型CascadeRNP复合体的纯化，如实施例4B中所述的。该方法使用固定化金属亲和色谱，然后进行体积排阻色谱(SEC)。实施例5A和实施例5B描述了可用于评估纯化的Cascade RNP产品的质量的方法。提供的实例示出了Cas8、Cas7、Cas6、Cas5和Cse2 Cascade RNP复合体、包含Cas7、Cas6、Cas5和Cse2蛋白的Cascade复合体以及FokI-Cas8融合蛋白的纯化。

纯化的改造的I型CRISPR-Cas效应子复合还可以直接用于生化测定(例如，结合和/或切割测定)。实施例6A、实施例6B和实施例6C描述了用于体外DNA结合或切割测定的dsDNA靶序列的产生。实施例6描述了产生靶序列的3种方法，包括合成的ssDNA寡核苷酸的退火、选择的来自gDNA的核酸靶序列的PCR扩增，以及克隆核酸靶序列到细菌质粒中。dsDNA靶序列被用于Cascade结合或切割测定中。

在必要时，可以使用电泳迁移率变动测定(参见，例如Garner,M.,et al.,NucleicAcids Res.9:3047-3060(1981)；Fried,M.,et al.,Nucleic Acids Res.9:6505-6525(1981)；Fried,M.,Electrophoresis 10:366-376(1989)；Fillebeen,C.,et al.,J.Vis.Exp.(94),e52230,doi:10.3791/52230(2014))，或实施例7中描述的生化切割测定，验证通过一种或多种改造的I型CRISPR-Cas效应子复合体进行的位点特异性结合和/或切割。

实施例7中所示的数据证明改造的I型CRISPR-Cas效应子复合体可以显示近似定量的DNA切割，如通过转化超螺旋、环形质粒底物为切割的线性形式所证实的。在利用改造的I型CRISPR-Cas效应子复合体(例如，包含FokI-Cascade组分融合蛋白)证明强劲的生化活性后，在细胞中进行了基因组编辑。

实施例8A、实施例8B、实施例8C和实施例8D示出了设计和递送包含Cas亚基蛋白-FokI融合蛋白的大肠杆菌I-E型Cascade复合体至人类细胞。实施例8D中的数据证明了递送预组装的Cascade RNPs至靶标细胞中以及人类细胞中的有效基因组编辑。

纯化的、改造后的I型CRISPR-Cas效应子复合体可以直接引入细胞中。将组分引入细胞中的方法包括电穿孔、脂质转染、粒子枪技术和微粒轰击。

图36A、图36B、图36C和图36D提供了使用改造的Cascade-RNP复合体和改造的I型CRISPR-Cas复合体的基于质粒的递送的人类细胞中的基因组编辑的比较性数据。在图36A-图36D，图36A中，用纯化的RNPs转染HEK293细胞，然后对编辑位点进行下一代测序(NGS)分析。如图36A(RNP转染)所示，将靶向两个相邻的位点FokI-Cascade RNP复合体(图36A，在图的左侧直线上方示出)核转染入HEK293细胞中(图36A，图的左侧星形的、灰色的)，以诱导DNA切割和基因组编辑。计算了16个独特的基因组靶标位点处的编辑效率(见实施例6C、表31，人双Hsa1-16)(n＝1)。TRAC是T细胞受体的恒定区。当产生T细胞受体时，它们包括剪接连接(即“可变”区域和“连接”区域)。本文描述的一些TRAC向导靶向连接区域(例如，TRAJ27)。每个靶标的间隔区间距显示在图下方(图36A，从左到右，25、30、35、40、45个碱基对(bp))。在图36A中，垂直轴为百分比编辑效率(图36A，编辑效率(％))，水平轴代表靶标1-16，且水平轴下方是以碱基对(bp)指示间隔区间长度的括号。

图36B提供了图36A中靶标7的代表性DNA修复结果。在图36B中，在图的顶部示出了成对的gRNAs靶向的半位点的相对位置及其相关的PAM位点。间隔区间距通过顶行示出。在图中，在顶部显示了预期的切割位点(图36B，位置“0”显示为垂直黑色中线)和bp距离(-50至50)。每条水平灰线代表在靶标位点观察到的不同类别的测序读长。这些线的指示符如下：灰色区域＝序列匹配；水平黑线＝缺失；且空心框＝插入。位于图的每条线的右边都有一个圆圈：黑色圆圈是野生型读长；且白色空心圆圈是突变体读长。预期的野生型读长示出在第一灰色框(“Ref”；即参考序列)中。野生型读长示出在第二灰色条(第二灰色条；图36B，黑色圆圈)中。接下来的11条线示出了突变体读长(图36B，空心圆)。以碱基对数量给出的插入长度显示在圆圈右侧的列中。读长的总百分比显示在右侧的下一栏中，且总读长示出在右侧的最后一栏中。

如图36C中所示(6质粒转染系统)，用6种质粒转染HEK293细胞(图36C，星形的、灰色的，图的左侧)，编码Cas蛋白的5种质粒(图36C，指示为FokI-Cas8、Cas11、Cas7、Cas5和Cas6的质粒)和编码成对的gRNAs的一种质粒位于CMV和人U6(hU6)启动子控制之下(图36C,gRNA)，然后进行编辑位点的NGS分析。FokI-Cascade RNP复合体的图示在虚线下方。计算了来自图36A的靶标7处的编辑效率(n＝2)(图36A，图中黑条)，并且包括缺乏单一组分的质粒混合物(图36C，水平轴以下，包含-/+的灰色框)作为对照(图36C，图中的空心条)。

如图36D(2-质粒转染系统)中所示，用成对的gRNA表达质粒(图36D，gRNA质粒)和编码通过T2A“核糖体跳跃”序列肽分开的所有5种蛋白的多顺反子的表达质粒(图36D，CMV-Cas7-2A-Cas11-2A-Cas5-2A-Cas6-2A-FokI-Cas8)转染HEK293细胞(图36D，星形的，灰色，图的左侧)，然后进行编辑位点的NGS分析。FokI-Cascade RNP复合体的图示在虚线下方。针对来自图37C的2质粒系统转染(图36D，空心框)和的6质粒系统转染(n＝3)(图36D，黑色条)，计算了图36A中显示的16种靶标处的编辑效率。在图36D中，垂直轴是百分比编辑效率(“编辑效率(％))，水平轴代表靶标1-16，并且水平轴下方是以碱基(bp)对指示间隔区间长度的括号(图36D，从左至右，25、30、35、40、45bp)。

实验是通过用在FokI和Cas6上含有核定位信号序列的纯化Cascade-RNPs对HEK293细胞进行核转染来进行的。所通过对从gDNA获得的PCR扩增子的下一代测序证明的，观察到高达～4％的编辑效率，并且在测试的16个靶标位点中，编辑通常位于包含30bp间隔区间长度的位点处(图36A)。对修复结果光谱的仔细检查揭示出，插入缺失聚集在间隔区的中间(图36B)，与I型CRISPR-Cas复合体的设计一致。因此，在本发明的一个实施方案中，将改造的I型CRISPR-Cas复合体直接引入细胞中。对于6质粒递送实验(图36C)，组装的质粒混合物包含420ng的除一种质粒外的每种质粒，然后在核转染后加水作为阴性对照或加入700ng缺失的质粒。对于最初的FokI-EcoCascade多顺反子的2质粒递送实验(图36D)，将细胞分别用500ng的每种质粒或500ng成对的gRNA表达质粒和2.5μg多顺反子质粒进行电穿孔(每种条件总计3μg)。在一个实施方案中，所有五个cas基因被构建在通过T2A“核糖体跳跃”序列(参见，例如Kim,J.,et al.,PLoS ONE 6,e18556(2011)；Liu,Z.,et al.,Sci.Rep.7:2193(2017))串联连接的单个多顺反子的表达载体中(图36D)。令人惊讶的是，与多顺反子质粒和成对的gRNA表达质粒共转染产生的编辑效率和DNA修复结果与利用6质粒方法(实施例9A)和直接RNP递送方法(实施例8A、实施例8B、实施例8C、实施例8D)观察到的那些类似，支持了以下结论，即生物化学地进行活性改造的I型CRISPR-Cas效应子复合体被组装并运送到人类细胞的核中。总而言之，这些实验验证了大大简化的表达系统，其可以在真核细胞中利用大小与广泛使用的Cas9和sgRNA质粒相似的仅仅两种分子组分来重构精细的11亚基RNA引导的核酸酶。

改造的I型CRISPR-Cas复合体(大肠杆菌(EcoCascade，假单胞菌S-6-2(PseCascade)和铜绿假单胞菌(SthCascade))的数据表明，大多数靶标位点将是唯一的，因为它们必须包括两个半位点、必要的间隔区间距和允许的PAM。选择了来自EcoCascade、PseCascade和SthCascade的改造的Cascade同系物以进行更详细的定征。

图37A、图37B、图37C和图37D示出了与FokI连接子、间隔区间长度和Cascade同系物相关的编辑效率。图37A，将FokI-EcoCascade编辑效率显示为FokI-Cas8连接子长度(图37A，空心圆圈，下面的线10aa；空心圆上图线，20aa；黑色的圆圈，17aa；和灰色的圆圈，30aa连接子长度)和间隔区间距的函数。在图37A中，垂直轴是编辑效率(％)，且水平轴是以bp的间隔区间距。每个数据点代表平均3–4个独特的靶标位点。

图37B提供了具有30-aa连接子的FokI-Cascade核酸酶。产生了12种I-E型Cascade变体的FokI-Cas8连接子，并测试了4-7个靶标位点处的基因组编辑。每个数据点代表单个基因组位点，且条显示了位点间的均值和标准偏差(s.d.)。靶标含有AAG(图37B，灰色条)或GAA(图37B，白色条)PAM序列和30bp间隔区间距，其中水平轴上的物种如下：Eco，大肠杆菌；Pse，假单胞菌S-6-2；Sen，肠道沙门氏菌；Geo，地热杆菌EPR-M；Mar，稻田甲烷胞菌；Ahe，阿兰蒂巴杆菌；Oce，栖海洋菌HL-35；Pae，铜绿假单胞菌；Sth，嗜热链球菌；Str，链霉菌S4；Kpn，克雷伯氏肺炎菌；Lba，毛螺菌科细菌。

在图37C中，示出了FokI-PseCascade数据，其中垂直轴是百分比编辑效率(图37C，编辑效率(％))，且水平轴代表以碱基对(bp)的间隔区间长度。FokI-Cas8连接子长度为17个氨基酸。每个数据点代表单个基因组位点，并且条显示了7–8个位点间的均值和s.d.。

图37D提供了FokI-PseCascade编辑效率作为PAM序列的函数的数据，垂直轴是百分比编辑效率(图37D，编辑效率(％))，且水平轴对应于PAM序列(图37D，从左至右，CCG、CGC、AAG、AAA、ATG、AAC、AGG、ATA、GAG和AAT)。基因组位点含有一个AAG PAM，和在第二半位点处的可变的PAM，如水平轴上所示的。每个数据点代表单个基因组位点，并且条显示了6–15个位点间的均值和s.d.。

图37E提供了FokI-EcoCascade编辑效率(图37E，垂直轴，编辑效率(％))作为PAM序列的函数的数据。靶标位点含有固定的AAG PAM，和在第二半位点处的可变的PAM，如水平轴上所示的(图37E，从左至右，CCG、CGC、AAG、AGG、ATG、GAG、AAA、AAC、ATA和AAT)。每个点代表HEK293细胞中的单个靶标位点，且每个PAM测试了6-15个位点(n＝1/位点)。条形图显示了均值和s.d.。

图37F提供了FokI-SthCascade效率(图37F，垂直轴，编辑效率(％))作为PAM序列的函数的数据。靶标位点含有固定的GAA PAM，和在第二半位点处的可变的PAM，如水平轴上所示的(图37F，从左至右，CC、AA、GA、TA和CA)。每个点代表HEK293细胞中的单个靶标位点，且每个PAM测试了18-33个位点(n＝1/位点)。条形图显示了均值和s.d.。

图37G提供的热图示出了来自图37C和图37D的显示较高的编辑效率(10–53％)的40个基因组位点的插入缺失类别频率。顶图的条形图中示出了0-60的百分比编辑效率。中间图中示出的热图显示了1–8bp的插入长度，且底图的热图中示出了1–50bp的缺失长度。在水平轴(1-40)上指示了40个基因组靶标位点(图37G，靶标)。单bp插入通过核苷酸同一性分离，且图底部的灰度强度标尺对应于插入频率百分比(图37G，Ins Freq(％)，标尺为0至大于或等于20)和缺失频率百分比(图37G，Del Freq(％)，标尺为0至大于或等于20)。右边的条形图显示了每个插入缺失类别的平均频率(图37G，标尺为0到20)。右侧的饼图显示了从推定模板化修复产生的2–4bp插入的分数(图37G，饼图的黑色区域)，此处定义为包含与切割位点相邻的重复序列。“其他”以饼图的灰色区域表示。

研究了人类基因组中5个最高度编辑的FokI-PseCascade靶标位点(～20-48％编辑)的最密切相关的位点，仅受30-33bp的间隔区间要求的约束。在所有五个靶标中，在两个半位点中均未鉴定出<22错配的位点。对于FokI-EcoCascade FokI-Cas8连接子类型和间隔区间距实验(图37A)，将细胞用2.4μg FokI-EcoCascade多顺反子质粒和～0.5-3.5μg成对的gRNA表达质粒进行核转染。

对于FokI-Cascade同系物筛选(图37B)，将细胞用1.5μg FokI-Cascade多顺反子质粒和～0.4-2.2μg成对的gRNA表达质粒进行核转染。在整个同系物中，靶向了4-7个位点，并选择了FokI-EcoCascade高编辑效率的位点。对于同系物变体FokI-Cas8连接子类型和间隔区间距编辑实验(图37C和图41A至图41C)，将细胞用5μg多顺反子质粒和～100-400ng寡聚物模板化的成对的gRNA表达扩增子进行核转染。对于该实验，未对各孔或同系物变体中的gRNA浓度进行标准化。另外，对于图41A至图41C，将细胞用相比FokI-EcoCascade或FokI-SthCascade gRNA平均～1.5x或更多的FokI-PseCascade gRNA进行核转染。

本文描述了寡聚物模板化的PCR扩增(例如，实施例20A)。图42A和图42B中示出了在哺乳动物细胞中从人U6(hU6)启动子(图42A，420)产生用于成对的gRNA表达的扩增子的寡聚物模板化的PCR策略。简言之，反向内部寡核苷酸(图42A，424)编码两种gRNA序列，并针对新的靶标位点进行了修饰(也称为编码“重复区-间隔区-重复区-间隔区-重复区”序列的独特的引物(图42A，421：重复区，空心矩形；间隔区1，灰色矩形；重复区，空心矩形；间隔区2，灰色矩形；重复区，空心矩形)，而剩余的引物是不变的(图42A：正向外部引物，422；正向内部引物，423；反向外部引物，425)。图42B中示出了在用编码FokI EcoCascade RNP复合体的多顺反子质粒和成对的gRNA表达质粒或成对的gRNA表达扩增子共转染HEK293细胞后靶标7处的编辑效率(参见图36B)。在图42B中，垂直轴是编辑效率(％)且水平轴是成对的gRNA盒(ng)。数据点如下：分别为FokI-EcoCascade RNP复合体(ng)、成对的gRNA质粒、成对的gRNA扩增子；375，空心三角形，空心圆形；750，黑色三角形，黑色圆形；1,500，灰色三角形，灰色圆形；3,000，有白线的黑色三角形，有白线的黑色圆形。图42B中的数据证明了成对的gRNA表达扩增子相对于成对的gRNA表达质粒的相当的如果不是更高的编辑效率。

对于PAM筛选(图37D、图37E、图37F、图39A-图39D、图40C和图40F)，通常，将细胞用3μg的FokI-Cascade多顺反子质粒和150ng(FokI-PseCascade和FokI-EcoCascade)或～80-120ng(FokI-SthCascade)的寡聚物模板化的成对的gRNA表达扩增子进行核转染(除非另有说明)。

为了进行特异性分析(图38A至图38C)，将细胞用3μg多顺反子的Cascade和150ng寡聚物模板化的成对gRNA表达扩增子进行核转染，并在核转染5天后收获。在图38A的顶部，水平线表示间隔区间距，剪刀表示预期的切割位点，且基因组靶标的半位点与其相应的PAM区域一同显示(图38A，带有对比末端的矩形框)。通过虚线示出了所示半位点与靶标的关系。对于每个靶标，示出了32个碱基对，并且PAM区域被示出为邻近种子序列。图38A提供了成对的gRNAs，其旨在包含与基因组靶标中一个或两个半位点错配的错配，如通过网格中的填充框(不包括PAM位点)所示的。注意，为简单起见，两个半位点都以相同的方向示出。图38B提供了针对错配的成对的gRNAs的每个组合的基因组靶标70处的相对编辑效率，其绘制为完美匹配的gRNAs的编辑效率百分比。在图38B中，顶行表示靶标(图38B，靶标70)，下一行代表向导(图38B，gRNA1和gRNA2)，下一行标识不匹配的集(图38B，mm集1和mm集2)，下一行示出了FokI-Cascade RNP复合体。左栏示出了相对编辑向导1-mm集1/向导2-mm集2的数据，左栏示出了向导1-mm集2/向导2-mm集1的数据，两栏均示出了相对编辑效率百分比的数据(图38B相对编辑eff(％)；标尺0-100)，即左栏显示了gRNA1和gRNA2的数据，带有错配(mm)集1和2，且右栏显示了相同靶标的数据，但带有gRNA1和gRNA2之间的交换的错配(mm)集(n＝1)。图38C提供了靶标73处的编辑效率(n＝1)，如图38B中所示的。

在开发了通过寡聚物模板化的PCR扩增(如本文所述)产生成对的gRNA表达盒的、消除了对劳动密集型克隆步骤的需要的可扩展方法后，重新筛选了针对每种同系物变体的一组96个基因组靶标减的FokI连接子和DNA间隔区间长度。利用17-aa连接子，FokI-PseCascade在约30–33bp间隔区间窗内一致性地产生了平均～15-25％的编辑效率，并且一些靶标显示高达～40-50％的插入缺失(图37C)。利用其他同系物也观察到类似趋势。通过靶向包含一个同源PAM和第二突变PAM的基因组站点研究了PAM要求。在体外已经表明，PAM识别比刚性5’-GG-3’酿脓链球菌(S.pyogene)PAM要求要混杂得多(参见，例如Szczelkun,M.,et al.,Proc.Natl.Acad.Sci.USA 111:9798–9803(2014)；Hayes,R.,et al.,Nature530:499–503(2016)；Westra,E.,et al.,Mol.Cell.46:595–605(2012)；Fineran,P.,etal.,Proc.Natl.Acad.Sci.USA 111:E1629–E1638(2014)；Leenay,R.,et al.,Mol.Cell.62:137–147(2016))。令人惊讶的是，体外数据显示，确实有大量PAMs允许活性，出现了明显的等级次序偏向性(图37D；图39A至图39D)。相反，当突变的PAM代表来自CRISPR阵列的“自我”靶标时，编辑被完全废除。

在图39A-图39D的每个中，垂直轴对应于编辑效率(编辑效率(％))，且水平轴对应于与靶标相关的PAM序列。图39A提供了作为PAM序列函数的FokI-PseCascade编辑效率。基因组位点含有一个固定的ATG PAM，和在第二半位点处的可变的PAM，如在水平轴上所示的。条显示了均值和s.d.(每个可变PAM 6-14个位点，n＝1/靶标位点)。注意，图37D描述了FokI-PseCascade的数据，其中一个PAM固定在AAG处，且另一个PAM在包括ATG在内的一组PAMs中是可变的。因此，那些PAMs的一个子集是AAG-ATG。图39A描述了FokI-PseCascade的数据，其中一个PAM固定在ATG处，且另一个PAM在包括AAG在内的PAMs集合中是可变的(图39A，水平轴，从左至右，AAG、AAC、AAA、ATG、GAG、ATA、AAT和AGG)。因此，那些PAMs的一个子集还是AAG-ATG，并且是图37D中的相同AAG-ATG位点。

图39B提供了作为PAM序列的函数的FokI-EcoCascade编辑(图39B，水平轴，从左至右，CCG、CGC、AAG、AGG、ATG、GAG、AAA、AAC、ATA和AAT)。固定的PAM是AAG，且条(bar)显示了均值和s.d.(每个可变PAM6-15个位点，n＝1/靶标位点)。图39C(图39C，水平轴，从左至右，AAG、ATG、AAC、AAA、AGG、GAG、AAT和ATA)提供了与图39B所示相似的分析，但第一PAM固定至ATG(每个可变PAM6-14个位点，n＝1/靶标位点。图39B中的对应于AAG-ATG对(均值为～3)的ATG栏与图39C中的对应于AAG-ATG对(均值也为～3)的AA栏相同。注意，垂直轴具有不同的标尺。图39D提供了作为PAM序列的函数的FokI-SthCascade编辑(图39D，水平轴，从左至右，CC、AA、GA、TA和CA)。固定的PAM是GAA，且条显示了均值和s.d.(每个可变PAM 18-33个位点；n＝1/靶标位点)。

图40A、图40B、图40C、图40D、图40E和图40F示出了与改造的I型CRISPR-Cas复合体的编辑效率的示例性的变化相关的数据。获得了图40A(FokI-PseCascade)和图40D(FokI-SthCascade)中示出的百分比编辑效率(垂直轴)相对于以bps的间隔区间距(水平轴)的数据，基本上如实施例20C中针对图41A和图41C中所示的数据所述的。在图40A和图40D中，水平轴代表23-34bp间隔区间距，且图的条从左至右是17个aa(浅灰色条)、20个氨基酸(深灰色条)和30个aa(白色条)的FokI-Cas8多肽连接子长度。基本上按图39B所述的获得图40C和图40F中所示的数据。图40C和图40F提供了FokI-PseCascade和FokI-SthCascade编辑(图40C，图40F，垂直轴，编辑效率(％))作为PAM序列(图40C，从左至右，CCG、CGC、AAG、AAA、ATG、AAC、AGG、ATA、GAG和AAT；图40F，从左至右，CC、AA、GA、TA和CA)的函数。图40B示出了FokI-PseCascade RNP复合体。FokI-PseCascade的固定的PAM是AAG(图40B，AAG PAM)，且另一个PAM在一组PAMs(图40B，可变的PAM)中是可变的。图40E示出了FokI-SthCascade RNP复合体。FokI-SthCascade的固定的PAM是GAA(图40B，GAA PAM)，且另一个PAM在一组PAMs(图40E，可变的PAM)中是可变的。重新筛选了FokI-PseCascade的连接子和间隔区间偏好性，且数据显示了近50％的编辑。还检查了PAM偏好性。从该数据，确定了PAMs的体外等级次序偏好性。基本上，对嗜热链球菌的变体进行了相同的分析。在嗜热链球菌系统中，编辑较低。然而，本文所示的数据表明，在体内，在人类细胞中，嗜热链球菌系统对PAM的偏好性非常混杂。前间隔区(即靶序列)上游的单个A允许进行编辑的事实，通常在基因中提供了增加数量的潜在靶序列(例如，相对于同一基因内的潜在的第二类II型CRISPR-Cas9 PAM相关的靶标位点的数量)。此外，本文提出的体内数据与Sinkunas,T.,et al.,EMBO J.32:385-394(2013)所证明的体外PAM偏好性相关。

在数百个经过编辑的基因组位点中累积的NGS数据提供了定征通过FokI-PseCascade引入的DSBs的DNA修复结果的能力。集中于40个插入缺失频率>10％的独特位点，分析了缺失和插入的频率，作为围绕预测切割位点的50bp窗内总突变体读长的函数。2–4bp的插入高度富集，并且存在于检查的绝大多数位点中(图37E)。详细检查显示，这些插入中的～90％包含与切割部位相邻的序列的完美重复。尽管不希望受到任何特定理论的限制，但是这种重复可能是通过二聚体FokI引入的交错切割的模板化修复的结果。

通过利用大量错配的成对的gRNAs编辑两个高效率靶标位点，评估了FokI-PseCascade的特异性(图38A)。Cascade的先前研究强调了～8-nt PAM近端种子序列，以及32-nt向导gRNA中每第6个位置处的错配混杂，因为这些碱基被从在靶标结合后形成的RNA-DNA异源双链结构中翻转出来(参见，例如Jung,C.,et al.,Cell 170:35–47(2017)；Mulepati,S.,et al.,Science 345:1479–1484(2014)；Fineran,P.,et al.,Proc.Natl.Acad.Sci.USA 111:E1629–E1638(2014)；Semenova,E.,et al.,Proc.Natl.Acad.Sci.USA 108:10098–10103(2011))。PAM近端种子区域内的错配对基因组编辑高度有害，而PAM远端的错配具有良好的耐受性，从而导致接近野生的编辑效率(图38B；图38C)。然而，当在两个半位点都出现了错配的区块时，在测试的整组成对的gRNAs中编辑急剧下降(图38B，图38C)。根据PAM的数据和FokI-PseCascade介导的基因组编辑的和间隔区间数据(图38C；图37D)，本发明的改造的I型CRISPR-Cas复合体的一个优点是可靶向的位点能够在人类基因组中每～20至～30bp出现一次，而在潜在的脱靶位点处进行编辑是不可能的。

因此，在本发明的一个实施方案中，给定的改造的FokI-Cascade系统的潜在的可靶向位点或“靶标密度”是其有效间隔距离和PAM偏好的函数，并且在同系物中将具有一些可变性。在一些实施方案中，可以使用以下标准来计算人类基因组中FokI-PseCascade、FokI-EcoCascade和FokI-SthCascade的靶标密度(将数据外推以计算预测的靶标密度)。

可以使用以下基序来计算FokI-PseCascade靶标密度：

5’–[半位点₁–PAM₁]–[间隔区间]–[PAM₂–半位点₂]–3’。

这里，[半位点₁–PAM₁]表示半位点₁gRNA₁靶标链靶序列和PAM的反向互补物，并且[半位点₂–PAM₂]表示半位点₂gRNA₂非靶标链PAM和靶标序列。基于支持以FokI-PseCascade进行编辑的间隔区间长度的分布(参见，例如图37D)，有效的间隔区间长度为约30-33bp。PAMs被定义为属于给出最高编辑的集合1(AAG、AAA、ATG、AAC)，或者如果它们含有显示活性的任何测试PAMs，则属于集合2(AAG、AGG、ATG、GAG、AAA、AAC、AAT、ATA)(参见，例如图39A；图40B)。据此，满足属于集合1或集合2的两种PAMs的优选的间隔区间长度的潜在靶标位点将分别平均每33.4bp或9.2bp出现一次。

类似地测定FokI-EcoCascade的靶标密度，除了间隔区间长度定义为31-33个，并且PAMs定义为属于最高编辑的集合1(AAG、AGG、ATG、GAG、AAA)，或者如果它们包含任何显示出活性的PAMs则属于集合2(AAG、AGG、ATG、GAG、AAA、AAC、AAT、ATA)(参见，例如图39C；图39D)。据此，利用集合1PAMs或集合2PAMs计算了潜在的靶标位点，其分别平均每30.4bp或12.2bp出现一次。

类似地测定FokI-SthCascade的人基因组靶标密度，除了间隔区间长度定义为29-31bp，且PAMs定义为NNA(参见，例如图39D)。据此，计算了潜在的靶标位点平均每4bp出现一次。

因此，如本文所述，通过提供可用于基因组编辑的许多PAM相邻靶序列，改造的I型CRISPR-Cas复合体提供了一种提供各种潜在靶标位点的方法。因此，本发明的一个实施方案涉及使用与改造的I型CRISPR-Cas复合体相关的PAM序列在基因内提供增加数量的可用靶序列的方法(例如，相对于与第二类CRISPR-Cas II型或V型系统的PAM序列相关的可用靶序列的数量)。该方法的应用涉及使用改造的I型CRISPR-Cas复合体，其可以包括但不限于结合和/或切割靶序列、靶序列的突变、与靶序列或其调控元件相关的转录调控，以及通过使用本文所述的改造的I型CRISPR-Cas复合体介导的靶序列，以及通过使用本文描述的改造的I型CRISPR-Cas复合体介导的有意的修饰、变化和/或显著不同的结构变化(例如，在基因产物中)。

在一些实施方案中，可以通过在基因组中的DNA靶标位点处位点特异性地引入选择的多核苷酸序列(例如，一部分的供体多核苷酸)来产生gDNA的修饰、改变和/或突变，将本文所述的改造的I型CRISPR-Cas效应子复合体用于产生非人类的转基因生物体。转基因生物体可以是动物或植物。

转基因动物通常是通过将改造的I型CRISPR-Cas效应子复合体引入受精卵细胞中而产生的。参照转基因小鼠的制备描述的基本技术(参见，例如Cho,A.,et al.,“Generation of Transgenic Mice,”Current Protocols in Cell Biology,CHAPTER.Unit-19.11(2009))涉及五个基本步骤：首先，准备如本文所述的系统，其包括合适的供体多核苷酸；第二，收获供体受精卵；第三，将系统显微注射到小鼠受精卵中；第四，将显微注射的受精卵植入假孕受体小鼠中；以及第五，进行基因分型并分析在首建小鼠中建立的gDNA的修饰。首建小鼠会将遗传修饰传递给任何后代。首建小鼠通常是转基因的杂合子。这些小鼠之间的交配将产生在转基因25％的时间内为纯合子的小鼠。

用于产生转基因植物的方法也是众所周知的，并且可以使用改造的1I型CRISPR-Cas效应子复合体来应用。例如使用农杆菌介导的转化产生的转基因植物，通常含有一个插入一条染色体中的转基因。通过使含有单个转基因的独立的分离的转基因植物与其自己性交配(即自交)，可能产生相对于转基因纯合的转基因植物。典型的接合性测定包括但不限于区分纯合子和杂合子的单核苷酸多态性测定和热扩增测定。

在第六个方面，本发明涉及使用改造的I型CRISPR-Cas效应子复合体来产生底物通道。在一些实施方案中，构建了包含底物通道元件和Cas7亚基蛋白的融合蛋白。然后将这些Cas7融合蛋白组装成改造的I型CRISPR-Cas效应子复合体(例如，包含Cse2、Cas5、Cas6、Cas7底物通道元件融合和Cas8)。在一些实施方案中，可以延伸改造的I型CRISPR-Cas效应子复合体的crRNA，以容纳另外的Cas7亚基(参见，例如Luo,M.,et al.,Nucleic AcidsRes.44:7385-7394(2016))。可以将不同的底物元件融合至Cas7，然后以所需的化学计量混合。当这些各种Cas7亚基组装成完整的I型CRISPR-Cas效应子复合体时，底物元件的共定位可增强底物通道作用的功效。

在一些实施方案中，构建了RNA支架，使得在不存在其他I型CRISPR-Cas效应子复合体组分的情况下，多个Cas7底物通道元件融合体可以与其结合。

底物通道元件可以融合至Cas7的N端和/或Cas7的C端。另外，可以将循环排列的Cas7融合至底物通道元件。

图11A和图11B示出了底物通道的图示，该通道由途径中的三种连续酶组成。底物通道有助于中间代谢产物直接传递至代谢途径链中连续酶的活性位点，而不会释放到额外的通道空间中。图11A示出了改造的底物通道的典型布置。酶E1、E2和E3与支架蛋白(S1、S2、S3)基质共价或非共价相互作用。双头箭头代表酶和支架蛋白之间的相互作用(例如亲和力相互作用)。然后将底物(X)加工成产品(Y)，而不会释放到额外的通道空间中。图11B示出了本发明的一个实施方案，其包括改造的I型CRISPR-Cas效应子复合体，后者携带作为与Cas7亚基蛋白的融合蛋白(即共价相互作用)的酶E1、E2和E3，从而产生底物通道。cpCas7蛋白和由cpCas7蛋白形成的骨架在本发明的该方面的实践中也可能是有用的。

在其他实施方案中，底物通道元件可以融合至Cas6。Cascade复合体的Cas6亚基可识别特定的RNA发卡结构。可以构建由多个串联在一起的Cas6 RNA发卡结构组成的RNA支架。来自不同Cascade复合体的Cas6肽具有不同的识别序列。因此，可以从多个正交的Cas6RNA发卡构建RNA支架。通过将不同的底物通道元件融合到正交Cas6肽上，底物通道复合体可以以特定的化学计量组装。

底物通道元件可以融合至Cas6的N端和/或Cas6的C端。另外，循环排列的Cas6可以融合至底物通道元件。

在一些实施方案中，目标异源代谢途径可以在模式生物，如大肠杆菌中表达。当基因被异源表达时，可以密码子优化基因以更有效地表达基因。

在一个实施方案中，目标代谢途径是来自酿酒酵母的甲羟戊酸途径。该途径的底物通道元件包括但不限于乙酰乙酰基-辅酶A-硫酶(AtoB)、羟基-甲基戊二酰-辅酶A合酶(HMGS)和羟基-甲基戊二酰-辅酶A还原酶(HMGR)。

在另一个实施方案中，目标代谢途径是来自酿酒酵母的甘油合成途径。该途径的底物通道元件包括但不限于甘油3-磷酸脱氢酶(GPD1)和甘油-3-磷酸磷酸酶(GPP2)。

在又一个实施方案中，目标代谢途径是来自梭状芽胞杆菌(Clostridiumstercorarium)的淀粉水解途径。该途径的底物通道元件包括但不限于CelY和CelZ。

在另外的实施方案中，目标代谢途径是来自大肠杆菌的葡萄糖磷酸转移酶途径。该途径的底物通道元件包括但不限于海藻糖-6-磷酸合成酶(TPS)和海藻糖-6-磷酸磷酸酶(TPP)。

在第七个方面，本发明涉及融合至Cascade亚基蛋白的功能域被包含第二类II型Cas9蛋白和核酸靶向核酸(NATNA)的复合体的位点定向募集。本文公开了功能域，并且包括但不限于具有能够转录活化或能够转录抑制的酶促功能的蛋白域。实施例13A和实施例13B描述了以第一类I型CRISPR重复茎序列改造第二类II型CRISPRsgRNA、crRNA、tracrRNA或crRNA和tracrRNA序列，从而允许募集一种或多种Cascade亚基蛋白至II型CRISPRCas蛋白/向导RNA复合体结合位点的方法。

图12A、图12B和图12C示出了融合至Cascade亚基蛋白的功能蛋白域被dCas9:NATNA复合体位点定向募集至靶标位点的一般化视图。包含间隔区序列(图12A，101)的第二类II型CRISPRNATNA(图12A，102)通过连接子核酸序列(图12A，103)共价连接至第一类I型CRISPR重复茎序列(图12A，104)。共价连接至I型CRISPR重复茎序列(图12A，105)的II型CRISRP NATNA能够结合至II型dCas9(图12A，106)和I型Cascade亚基蛋白(例如，Cas6；图12A，107)，其通过连接子序列(图12A，108)融合至功能蛋白域(例如，酶促域、转录活化或抑制域；图12A，109)，从而形成RNP复合体。该RNP复合体(图12B，110)能够靶向包含与II型CRISPRNATNA间隔区序列(图12A，101)互补的靶序列(图12B，112)的双链DNA(图12B，111)。RNP复合体的靶标识别导致间隔区序列(图12A，101)和靶序列(图12B，112)之间的杂交(图12B，113)。将Cascade亚基功能域融合蛋白定位至DNA允许通过临近基因的功能蛋白域或转录调控来修饰DNA(图12C，114)。

在第八个方面，本发明涉及包含改造的I型CRISPR-Cas效应子复合体、改造的向导多核苷酸及以上的组合的组合物。在一些实施方案中，改造的I型CRISPR-Cas效应子复合体包含相关的Cas3融合蛋白。野生型I型CRISPR-Cas系统需要用于DNA靶向的Cascade效应子复合体与用于进行性DNA降解的Cas3解旋酶-核酸酶的协同作用。在本发明的一个实施方案中，对I型CRISPR-Cas效应子复合体进行改造以通过融合复合体至核酸酶域(例如，非特异性的FokI核酸内切酶域)制备精确的DSBs。该方法使用靶向通过介于中间的序列(即间隔区间)分开的两个半位点DNA序列的成对的向导多核苷酸。

本发明的该方面的实施方案涉及包含两种改造的I型CRISPR-Cas效应子复合体的组合物，所述复合体中的每种包含间隔区和包含Cas亚基和核酸内切酶(例如，FokI；参见，例如图2A、图2B和图2C的Cascade复合体)的融合蛋白，其中至少两个参数是变化的以调节基因组编辑效率。这样的参数包括：

用于产生包含Cas亚基蛋白和核酸内切酶(例如，FokI)的融合蛋白的连接子多肽的长度；以及

间隔区能够结合的核酸靶序列之间的间隔区间距长度。

本文提供了有关氨基酸组合物和序列连接子多肽的指导。

本发明的该方面的一个实施方案是组合物，其包含：

第一改造的I型CRISPR-Cas效应子复合体，其包含：

包含第一Cas8亚基蛋白和第一FokI的第一融合蛋白，其中第一Cas8亚基蛋白的N端或第一Cas8亚基蛋白的C端通过第一连接子多肽分别与第一FokI的C端或N端共价连接，并且其中第一连接子多肽具有约10个氨基酸至约40个氨基酸的长度，和

第二改造的I型CRISPR-Cas效应子复合体，其包含：

包含第二Cas8亚基蛋白和第二FokI的第二融合蛋白，其中第二Cas8亚基蛋白的N端或第二Cas8蛋白的C端通过第二连接子多肽分别与第二FokI的C端或N端共价连接，并且其中第二连接子多肽具有约10个氨基酸至约40个氨基酸的长度，和

包含能够结合第二核酸靶序列的第二间隔区的第二向导多核苷酸，其中第二核酸靶序列的前间区序列邻近基序(PAM)和第一核酸靶序列的PAM具有约20个碱基对至约42个碱基对的间隔区间距。

这样的与第一核酸靶序列结合的第一改造的I型CRISPR-Cas效应子复合体和与第二核酸靶序列结合的第二改造的I型CRISPR-Cas效应子复合体的实例示出在图2A、图2B和图2C中。

在一些实施方案中，第一连接子多肽和/或第二连接子多肽的长度为约15个氨基酸至约30个氨基酸，或者约17个氨基酸至约20个氨基酸的长度。在一个实施方案中，第一连接子多肽和第二连接子多肽的长度相同。

第一Cas8亚基蛋白和第二Cas8亚基蛋白可以每个包含Cas8亚基蛋白的相同的氨基酸序列。

类似地，第一Cse2亚基蛋白和第二Cse2亚基蛋白可以每个包含Cse2亚基蛋白的相同的氨基酸序列，第一Cas5亚基蛋白和第二Cas5亚基蛋白可以每个包含Cas5亚基蛋白的相同的氨基酸序列，第一Cas6亚基蛋白和第二Cas6亚基蛋白可以每个包含Cas6亚基蛋白的相同的氨基酸序列，第一Cas7亚基蛋白和第二Cas7亚基蛋白可以每个包含Cas7亚基蛋白的相同的氨基酸序列，以及以上的组合。

通常，第一Cas8亚基蛋白的N端通过第一连接子多肽与第一FokI的C端共价连接，第一Cas8亚基蛋白的C端通过第一连接子多肽与第一FokI的N端共价连接，第二Cas8亚基蛋白的N端通过第二连接子多肽与第二FokI的C端共价连接，第二Cas8亚基蛋白的C端通过第二连接子多肽与第二FokI的N端共价连接，以及以上的组合。

本发明的该方面的实施方案包括实施方案，其中第二核酸靶序列和第一核酸靶序列之间的长度为约22个碱基对至约40个碱基对、约26个碱基对至约36个碱基对、约29个碱基对至约35个碱基对或约30个碱基对至约34个碱基对的间隔区间距。

第一FokI和第二FokI可以是能够结合形成同型二聚体的单体亚基，或能够结合形成异型二聚体的不同的亚基。

在优选的实施方案中，向导多核苷酸包含RNA。

在一些实施方案中，gDNA包含第二核酸靶序列的PAM和第一核酸靶序列的PAM。

在一些实施方案中，改造的I型CRISPR-Cas效应子复合体基于选自以下的一种或多种生物体的I型CRISPR-Cas效应子复合体：肠道沙门氏菌、地热杆菌(菌株EPR-M)、稻田甲烷胞菌MRE50、铜绿假单胞菌(例如，铜绿假单胞菌(菌株ND07)、假单胞菌S-6-2和大肠杆菌。在优选的实施方案中，改造的I型CRISPR-Cas效应子复合体基于铜绿假单胞菌(例如，铜绿假单胞菌(菌株ND07)、假单胞菌S-6-2和/或大肠杆菌的I型CRISPR-Cas效应子复合体。假单胞菌S-6-2相比大肠杆菌同系物诱导～10倍高的编辑效率，并且测试的其他同系物的大约一般显示与大肠杆菌同等水平的活性，证明了来自不同的I型系统的改造的I型CRISPR-Cas效应子复合体可以在功能上用于人类细胞中的基因组编辑。

实施例18A、实施例18B、实施例18C、实施例18D、实施例20A、实施例20B和实施例20C中所示的数据证明了改变用于产生包含Cas亚基蛋白和FokI的融合蛋白的连接子多肽的长度和/或改变间隔区能够结合的核酸靶序列之间的间隔区间距长度促进了细胞中基因组编辑效率的调节。

在又一个实施方案中，本发明涉及改造的I型CRISPR-Cas效应子复合体，其包含含有Cascade亚基蛋白(例如，Cas8亚基蛋白)和第一功能域(例如，FokI)的第一融合蛋白，以及包含dCas3*蛋白和第二功能域(例如，FokI)的第二融合蛋白(图13A：Cas7、Cas5、Cas8、Cse2和Cas6，Cas6周围的虚线框指示了其与crRNA发卡的相互作用；cRNA示出为包括发卡的黑线)。包含第一功能域(例如，FokI)(图13A，Cas8-连接子1-FP1融合)的改造的I型CRISPR-Cas效应子复合体可以结合DNA，并且然后可以募集dCas3*-第二功能域(例如，FokI)融合蛋白(图13A，dCas3*-连接子2-FP2)。在其中第一功能域(图13A，Cas8-连接子1-FP1融合)和第二功能域(图13A，dCas3*-连接子2-FP2)包含二聚体蛋白的亚基的情况下，dCas3*-第二功能域(例如，FokI)融合蛋白结合包含第一功能域(例如，FokI)的改造的I型CRISPR-Cas效应子复合体，促进第一功能域和第二功能域的二聚化(图13A)。图14A示出了与包含经连接子多肽(图14A，连接子1)连接至Cas亚基蛋白(图14A，有条纹的框)的第一功能域(图14A，FD1)和经与Cascade复合体相关的连接子多肽(图14A，连接子2)连接至第二功能域(图14A，FD2)的dCas3*的改造的I型CRISPR-Cas效应子复合体(图14A，Cascade)的dsDNA的结合；从而使得FD1和FD2接近并促进FD1和FD2的相互作用。Cascade复合体的结合涉及单个PAM序列(图14A，PAM，空心框)。在图14A中，dsDNA示出为成对的水平虚线。在功能域为二聚体核酸内切酶(例如，FokI)的情况下，FD1和FD2的接近有利于形成功能二聚体。

本发明实施方案的一个优点是，相对于使用两种FokI-Cascade复合体(将图14A与图2A、图2B和图2C进行比较)，可以使用单一Cascade复合体(识别单一PAM序列)来切割双链核酸靶序列。使用两种FokI-Cascade复合体需要适当定向的两个PAM序列(图2A、图2B和图2C)，这可能会限制对近端核酸靶序列的选择。

用于产生包含Cas亚基蛋白和核酸内切酶(例如，FokI)的融合蛋白的连接子多肽的长度和/或组合物，以及用于产生包含dCas3*蛋白和核酸内切酶的融合蛋白的连接子多肽的长度和/或组合物可以改变，以调节基因组编辑效率。实施例21A、实施例21B、实施例21C和实施例21D描述了多种Cas3-FokI连接子组合物和长度的设计和测试，以及用于调节基因组编辑效率的FokI-Cas8连接子组合物和长度。

本发明的该方面的另一个实施方案包括改造的I型CRISPR-Cas效应子复合体(图13B：Cas7、Cas5、Cas8、Cse2和Cas6；Cas6周围的虚线框指示其与crRNA发卡的相互作用；cRNA示出为包括发卡的黑线)，以及包含通过连接子多肽(图13B，连接子)连接的dCas3*蛋白(图13B，dCas3*)和功能域(图13B，FP)(例如，胞苷脱氨酶)的融合蛋白。改造后的I型CRISPR-Cas效应子复合体可以结合DNA并募集dCas3*-功能域(例如，胞苷脱氨酶)融合蛋白。该实施方案可以促进核酸靶序列的位点特异性靶向，以用于通过功能域进行修饰或与功能域相互作用。在胞苷脱氨酶的情况下，可将改造的I型CRISPR-Cas效应子复合体和包含dCas3*蛋白和胞苷脱氨酶的融合蛋白用于核酸靶序列中的位点特异性碱基编辑。图14B示出了改造的I型CRISPR-Cas效应子复合体(图14B，Cascade)的实例，其包含融合蛋白，该融合蛋白包含经连接子多肽(图14B，连接子)与功能域(图14B，FD)连接的dCas3*蛋白(图14B，dCas3*)，其中复合体结合到dsDNA(图14B，成对的水平虚线)。在图14B中，功能域与dsDNA的接触得到促进。Cascade复合体的结合涉及单个PAM序列(图14B，PAM，空心框)。图14C示出了改造的I型CRISPR-Cas效应子复合体(图14C，Cascade)的另一实例，其包含融合蛋白，所述融合蛋白包含经连接子多肽(图14C，连接子)与功能域(图14C，FD)连接的dCas3*蛋白(图14C，dCas3*)，其中复合体结合至dsDNA(图14C，成对的水平虚线)。Cascade复合体的结合涉及单个PAM序列(图14C，PAM，空心框)。在图14C中，功能域与ssDNA的接触得到促进。

可用于构建与I型CRISPR-Cas亚基蛋白的融合蛋白的另外的功能域和蛋白在本说明书和实施例中有描述。可以遵循实施例21A至实施例21D及本说明书的指导评估连接子多肽组合物和Cas3-连接子多肽-功能域融合蛋白的长度，以评估对功能域性能的影响。

本发明的一些实施方案可以使用改造的I型CRISPR-Cas效应子复合体和mCas3蛋白，其中mCas3蛋白包含下调的解旋酶活性(例如，mCas3蛋白—一种Cas3进行性突变体蛋白，相对于野生型I型CRISPRCas3蛋白具有沿DNA的减少的移动)，或者mCas3蛋白缺乏解旋酶活性(例如，mCas3蛋白不再是进行性的核酸酶如wtCas3蛋白，但mCas3蛋白保留了切口活性)。改造的I型CRISPR-Cas效应子复合体可以结合DNA然后募集mCas3蛋白。该实施方案可以促进基因组DNA的位点特异性的切割。

表48描述了大量的mCas3蛋白，其中对Cas3蛋白进行的突变影响解旋酶域的ATP结合/水解区域或者解旋酶域的ssDNA通路保守区。图44显示了EcoCas3蛋白的功能域的线性示图和在Cas3编码序列中制作的突变的相对位置。在图44中，指示了HD核酸酶域(氨基酸1-272)、解旋酶域(RecA1区域，氨基酸273-521；RecA2区域，氨基酸522-737)、连接子(氨基酸738-794)和C端域(CTD，氨基酸795-888)。Huo,Y.,et.al.,Nat.Struct.Mol.Biol.9:771-777(2014)提供了利用来自褐色嗜热裂孢菌(Thermobifida fusca)(登录码：Q47PJ0；SEQID NO:1869)、绿色糖单孢菌(Saccharomonospora viridis)(C7MTA6；SEQ ID NO:1870)、弯曲高温单孢菌(Thermomonospora curvata)(D1A6Q2；SEQ ID NO:1922)、阿佛曼链霉菌(Streptomyces avermitilis)(Q825B5；SEQ ID NO:1925)、波卓链霉菌(Streptomycesbottropensis)(M3DI13；SEQ ID NO:1923)、嗜热栖热菌(Thermus thermophiles)菌株HD8(Q53VY2；SEQ ID NO:1924)和大肠杆菌(P38036；SEQ ID NO:1844)的蛋白的Cas3家族的序列比对进行的序列保守性分析。筛选了在解旋酶域或ssDNA环结合域的ATP结合部分中具有突变的24种不同的EcoCas3蛋白变体(实施例23A至实施例23C)。7种突变体在扩增子窗中显示明显更多和/或位置变动的缺失类别；该发现支持了那些mCas3蛋白相对于wtCas3具有减少的进行性。

实施例23A至实施例23C描述了这样的mCas3蛋白，其中相对于利用相应的wtCas3蛋白产生的平均的缺失，平均的mCas3蛋白诱导的缺失更短。这样的mCas3蛋白可用于基因组编辑(例如，在人类细胞中)。图45A、图45B、图45C和图45D示出了指示mCas3蛋白的数据，当引入和在人类细胞中表达时，当与Cascade RNP复合体相关时其相对于与Cascade RNP复合体相关的wtCas3蛋白产生更短的平均缺失长度。参考本说明书的教导，本领域普通技术人员可以在从除大肠杆菌以外的其他细菌物种获得的Cas3蛋白的相应区域中进行相似的突变。

实施例26A至实施例26C提供了可用于产生基因组缺失的mCas3蛋白的另外的实例，其中平均mCas3蛋白诱导的缺失相对于利用相应的wtCas3蛋白产生的平均缺失更短。实施例中示出的数据支持来自假单胞菌S-6-2的Cas3的ATP酶/解旋酶缺陷型变体(mPseCas3蛋白)可以与PseCascade RNP复合体一起使用，来在预期的切割位点处产生缺失(即切割位点定位的缺失)。

进一步定征了wtPseCas3蛋白/PseCascade活性。使用使得能够检测大基因组缺失的靶标富集探针进行了另外的实验。具体地，基本上按照实施例26A至实施例26C中所述，用编码PseCascade RNP复合体、wtPseCas3蛋白和针对TRAC位点的最小CRISPR阵列的DNA模板转染HEK293细胞。靶标富集探针用于分离和测序基因组片段；而在实施例26C中，使用扩增子窗口来识别缺失的存在。靶标富集/测序方法提供了较大缺失的无偏见观察，其通过使用扩增子窗来识别缺失无法提供。总体而言，发现使用靶标富集和基因组片段测序评估的缺失在很大程度上是单向的，从wtPseCas3蛋白起始位点的上游开始。缺失范围从1bp到近250kb。除了提供切割基因组DNA的方法并提供给定长度的缺失外，该方法还可用于在确定的位置生成缺失的较大的随机子集，以探测基因的调控/启动子区域。

mCas3蛋白可以包含一个或多个突变(例如，如表48中所述的突变的组合)。

证明了几种mCas3蛋白的缺失长度的控制。在一些实施方案中，本发明的与包含向导多核苷酸的Cascade复合体相关的mCas3蛋白可以提供约1个至约600个碱基对、约1个至约500个碱基对、约1个至约400个碱基对、约1个至约300个碱基对，优选约1个至约250个碱基对、约1个至约200个碱基对或约1个至约100个碱基对的平均缺失长度。

在一些实施方案中，wtCas3蛋白或mCas3蛋白可以融合至Cascade复合体的各种亚基以进一步控制Cas3平均缺失长度。约束Cascade复合体可以限制或防止Cas3蛋白或mCas3蛋白沿DNA移动，因为其将被固定至Cascade复合体结合的位点。通常可以利用连接子多肽将wtCas3蛋白或mCas3蛋白融合至Cascade复合体的蛋白组分的N端或C端域(例如，对于EcoCascade复合体，融合可以为与EcoCas8、EcoCas6或EcoCas5)。NLS序列也可以附接至融合蛋白的N端。表12中示出了大肠杆菌Cascade蛋白组分的此类构建体的实例。这些EcoCas3融合蛋白还具有附接至其N端的NLS序列。

*蛋白序列是编码的多顺反子的蛋白序列

本发明的实施方案包括能够相对于野生型I型CRISPRCas3蛋白(wtCas3蛋白)减少沿DNA的移动的改造的I型CRISPRmCas3蛋白。在一些实施方案中，mCas3蛋白包含与相应的wtCas3蛋白的约90％或更高的，优选约95％或更高的，更优选约98％或更高的序列同一性。mCas3蛋白的编码序列可以在氨基端、羧基端或氨基端和羧基端包含共价连接的核定位信号。mCas3蛋白可以包含下调解旋酶活性的一个或多个突变，其中改造的mCas3蛋白相对于相应的wtCas3蛋白保留了核酸酶活性(或其至少一部分)。通常，DNA是包含含有核酸靶序列的靶区的dsDNA。当wtCas3蛋白与相应的Cascade核蛋白复合体(“Cascade NP复合体/wtCas3蛋白”；例如，Cascade RNP复合体)相关，并且Cascade NP复合体包含含有与核酸靶序列互补的间隔区的向导时，Cascade NP复合体/wtCas3蛋白与核酸靶序列的结合有利于DNA靶区中的切割，通常导致靶区中的缺失；并且mCas3蛋白当其与Cascade NP复合体(“Cascade NP复合体/mCas3蛋白”；例如，Cascade RNP复合体/mCas3蛋白)相关并且结合核酸靶序列时，有利于DNA靶区中的切割，并导致相对于wtCas3平均缺失长度更短的平均缺失长度。

在一些实施方案中，mCas3蛋白中的一个或多个突变是相对于wtCas3蛋白的氨基酸取代。在其他实施方案中，一个或多个缺失包括mCas3蛋白编码序列中相对于wtCas3蛋白的氨基酸缺失或插入。一个或多个突变可以位于解旋酶域的RecA1区域或RecA2区域中。在一个实施方案中，相对于wtCas3蛋白(例如，影响ssDNA环结合的突变和/或解旋酶域的ssDNA通路保守区域中的突变)，一个或多个突变下调mCas3蛋白与ssDNA的结合。在另外的实施方案中，相对于wtCas3蛋白，一个或多个突变下调通过mCas3蛋白的ATP水解，或者相对于wtCas3蛋白，下调ATP与mCas3蛋白的结合。在其他实施方案中，mCas3蛋白包含一个或多个突变的组合，其相对于wtCas3蛋白下调mCas3蛋白与ssDNA的结合、相对于wtCas3蛋白下调通过mCas3蛋白的ATP水解，或下调ATP与mCas3蛋白的结合。

其他实施方案包括共价连接至Cascade核蛋白复合体(例如，Cascade RNP复合体)的Cas蛋白的编码序列的氨基端或羧基端的mCas3蛋白的编码序列。这样的Cas蛋白可以选自Cse2、Cas8蛋白、Cas7蛋白、Cas6和Cas5蛋白。

在一些实施方案中，wtCas3蛋白是大肠杆菌1型CRISPRCas3蛋白。在其他实施方案中，wtCas3蛋白是选自假单胞菌S-6-2、褐色嗜热裂孢菌、绿色糖单孢菌、弯曲高温单孢、阿佛曼链霉菌、波卓链霉菌、嗜热栖热菌、霍乱弧菌、肠道沙门氏菌、地热杆菌EPR-M、稻田甲烷胞菌MRE50和铜绿假单胞菌(菌株ND07)的wtCas3蛋白。

对于大肠杆菌1型CRISPRwtCas3蛋白，一个或多个突变可以包括但不限于D452H、A602V或D452H和A602V。

在其他实施方案中，细胞包含DNA，其中细胞可以是真核细胞(例如，人类细胞)。

在另外的实施方案中，本发明包括包含mCas3蛋白的编码序列的多核苷酸、包含mCas3蛋白编码序列的表达盒、包含mCas3蛋白编码序列的质粒，以及包含mCas3蛋白的Cascade核蛋白复合体。

在第九个方面，本发明涉及使用改造的I型CRISPR-Cas效应子复合体的方法。

在一些实施方案中，本发明包括结合多核苷酸(例如，dsDNA)中的核酸靶序列的方法，包括提供一种或多种改造的I型CRISPR-Cas效应子复合体，以用于诱导至细胞或生化反应中，以及将改造的I型CRISPR-Cas效应子复合体引入细胞或生化反应中，从而促进改造的I型CRISPR-Cas效应子复合体与多核苷酸的接触。复合体与多核苷酸的接触导致改造的I型CRISPR-Cas效应子复合体与多核苷酸中的核酸靶序列的结合。

在一个实施方案中，改造的I型CRISPR-Cas效应子复合体包含与多核苷酸中的核酸靶序列互补的向导。改造的I型CRISPR-Cas效应子复合体结合多核苷酸中的核酸靶序列。

在其他实施方案中，第一改造的I型CRISPR-Cas效应子复合体包含与多核苷酸中的第一核酸靶序列互补的向导，并且第二改造的I型CRISPR-Cas效应子复合体包含与多核苷酸中的第二核酸靶序列互补的向导。第一改造的1I型CRISPR-Cas效应子复合体结合第一核酸靶序列，并且第二改造的I型CRISPR-Cas效应子复合体结合多核苷酸中的第二核酸靶序列。

在又一个实施方案中，改造的I型CRISPR-Cas效应子复合体包含与多核苷酸中的核酸靶序列互补的向导，并且还包含能够与复合体结合的dCas3*融合蛋白。改造的I型CRISPR-Cas效应子复合体结合多核苷酸中的核酸靶序列，并且效应子复合体包含与复合体结合的dCas3*融合蛋白。

此类结合核酸靶序列的方法可以在体外进行(例如，在生化反应中或在培养的细胞中；在一些实施方案中，培养的细胞是仍保留在培养物中且不会引入人体内的人类培养细胞)；体内进行(例如，在活生物体的细胞中，附带条件是，在一些实施方案中，该生物体是非人的生物体)；或离体下进行(例如，从对象去除的细胞，附带条件是，在一些实施方案中，该对象包括人类对象，且在其他实施方案中，该对象是非人类对象)。

本领域已知评估和/或定量核酸序列与核苷酸之间的相互作用的各种方法，包括但不限于以下各项：免疫沉淀(ChIP)测定、DNA电泳迁移率变动测定(EMSA)、DNA下拉测定，以及微孔板捕获和检测测定。商业试剂盒、材料和试剂可用于实施许多这样的方法，并且例如，可以从以下供应商处获得：Thermo Scientific(Wilmington,DE)、Signosis(SantaClara,CA)、Bio-Rad(Hercules,CA)和Promega(Madison,WI)。检测多肽和核酸序列之间的相互作用的一种常用方法是EMSA (参见，例如Hellman L.M.,et al.,Nature Protocols2:1849-1861(2007))。

在另一实施方案中，本发明包括切割多核苷酸中的核酸靶序列(例如，dsDNA中的单链切割或dsDNA中的双链切割)的方法，包括提供用于用到至细胞或生化反应中的一种或多种改造的I型CRISPR-Cas效应子复合体，以及将改造的I型CRISPR-Cas效应子复合体引入细胞或生化反应中，从而促进改造的I型CRISPR-Cas效应子复合体与多核苷酸的接触。

在一个实施方案中，将包含与多核苷酸中的第一核酸靶序列互补的向导和第一核酸酶域(例如，FokI)的第一改造的I型CRISPR-Cas效应子复合体(图15A，Cascade1，实线轮廓的框，经连接子多肽连接，黑色曲线，至第一核酸酶域，表示为圆扇形)，以及包含与多核苷酸中的第二核酸靶序列互补的向导和第二核酸酶域(例如，FokI)的第二改造的I型CRISPR-Cas效应子复合体(图15A，Cascade 2，虚线轮廓的框，经连接子多肽连接，黑色曲线，至第二核酸酶域，表示为圆扇形)引入细胞或生化反应中。第一改造的I型CRISPR-Cas效应子复合体(图15B，Cascade1)结合dsDNA(图15B，通过成对的水平黑线表示的dsDNA)中的第一核酸靶序列，并且第一核酸酶域切割dsDNA的第一链(图15C，Cascade1)，并且第二改造的I型CRISPR-Cas效应子复合体(图15B，Cascade2)结合dsDNA中的第二核酸靶序列，并且第二核酸酶域切割dsDNA的第二链。改造的I型CRISPR-Cas效应子复合体的结合导致多核苷酸(例如，dsDNA)中的核酸靶序列被改造的I型CRISPR-Cas效应子复合体切割。

在另外的实施方案中，将第一改造的I型CRISPR-Cas效应子复合体包含与多核苷酸中的第一核酸靶序列互补的向导，包含与多核苷酸中的第二核酸靶序列互补的向导的第二改造的I型CRISPR-Cas效应子复合体，以及Cas3切口酶(例如，仅具有切口酶活性的ATP酶缺陷型Cas3变体)引入细胞或生化反应中。第一改造的I型CRISPR-Cas效应子复合体结合dsDNA中的第一核酸靶序列，Cas3切口酶蛋白与第一复合体相关，并切割dsDNA的第一链，并且第二改造的I型CRISPR-Cas效应子复合体结合dsDNA中的第二核酸靶序列，Cas3切口酶蛋白与第二复合体相关，并切割dsDNA的第二链。改造的I型CRISPR-Cas效应子复合体与相关的Cas3切口酶蛋白的结合导致多核苷酸(例如，dsDNA)中的核酸靶序列被改造的I型CRISPR-Cas效应子复合体切割。实施例25A、实施例25B和实施例25C示出的数据证明了包含Cas3 ATP酶缺陷型突变体蛋白的Cascade RNP复合体能够通过成对的切口诱导靶向的基因组缺失。该成对的切口可以促进宿主细胞(例如，人类细胞)基因组中的靶向缺失。

在另一实施方案中，将包含与多核苷酸中的核酸靶序列互补的向导和第一核酸酶域(例如，FokI)的改造的I型CRISPR-Cas效应子复合体(图16A，Cascade；虚线轮廓的框，经连接子多肽连接，黑色曲线，至第一核酸酶域，表示为圆扇形)，以及能够与复合体结合的dCas3*-第二核酸酶域(例如，FokI)融合蛋白(图16A，dCas3；实线轮廓的框，经连接子多肽连接，黑色曲线，至第二核酸酶域，表示为圆扇形)引入细胞或生化反应中。改造的I型CRISPR-Cas效应子复合体(图16B，Cascade)结合dsDNA中的核酸靶序列(图16B，成对的水平黑线)并切割dsDNA的第一链(图16C，Cascade)，并且dCas3*融合蛋白与Cascade RNP复合体相关(图16B,dCas3*)，并切割dsDNA第二链(图16C,dCas3*)。

在其他实施方案中，将包含与包含多核苷酸中的核酸靶序列的靶区互补的向导和能够与复合体结合的Cas3蛋白(例如，Cas3蛋白或mCas3蛋白)的改造的I型CRISPR-Cas效应子复合体引入细胞或生化反应中。改造的I型CRISPR-Cas效应子复合体结合dsDNA中的核酸靶序列，Cas3蛋白(例如，Cas3蛋白或mCas3蛋白)与复合体相关，并切割靶区中dsDNA的至少一条链。在一些实施方案中，dsDNA被mCas3蛋白切割导致dsDNA靶区中的缺失。该方法可用于制作特定长度的长范围缺失，并且可以用于产生基因敲出或敲入。在一些实施方案中，Cas3蛋白(例如，Cas3蛋白或mCas3蛋白)可以融合至Cascade复合体亚基蛋白(例如，Cas7蛋白、Cas8蛋白、Cas5蛋白、Cse2蛋白)。实施例23A至实施例23C描述了mCas3蛋白的实施方案。

在另一实施方案中，本发明涉及使用I型CRISPR-Cas效应子复合体，其中核酸酶域被融合至Cascade复合体蛋白(参见，例如实施例11A，表38)或dCas3*蛋白(例如，融合至DNA酶的dCas3*蛋白)，以缺失核酸靶序列。该方法可用于在dsDNA靶区中制作切割以及缺失，并且可以用于产生基因敲出。在一些实施方案中，可以将核酸酶域融合至Cascade复合体亚基蛋白如Cas7蛋白、Cas8蛋白、Cas5蛋白、Cse2蛋白。

切割多核苷酸中的核酸靶序列的方法还可以包括将供体多核苷酸引入细胞中，以促进将至少一部分的供体多核苷酸掺入细胞的gDNA中。

图17A示出了可被包含与多核苷酸中的第一核酸靶序列互补的向导(图17A，Cascade1)和第一核酸酶域(例如，FokI)的第一改造的I型CRISPR-Cas效应子复合体(图17A，连接子多肽，示出为连接Cascade1的弯曲线，和灰色的圆扇形)，以及包含与多核苷酸中的第二核酸靶序列互补的向导(图17A，Cascade 2)和第二核酸酶域(例如，FokI)的第二改造的I型CRISPR-Cas效应子复合体(图17A，连接子多肽，示出为连接Cascade2的弯曲线，和灰色的圆扇形)切割的dsDNA的两条链(图17A，成对的黑色水平线)的实例。图17B示出了包含与临近双链切割位点的DNA序列互补的同源臂(图18B，供体，虚线)的供体多核苷酸(图17B，成对的虚线，显示在Cascade2上方)。图17C示出了在双链切割位点区域中掺入的一部分的供体多核苷酸(图17C，连接代表dsDNA的成对的黑色水平线的成对的虚线)。通过细胞DNA修复机制(例如，HDR)介导供体多核苷酸的掺入(图17B至图17C，指向下，垂直箭头代表细胞DNA修复机制)。

在其他实施方案中，包含与多核苷酸中的第一核酸靶序列互补的向导和第一核酸酶域的改造的I型CRISPR-Cas效应子复合体可以与包含第二核酸酶域的第二组分配对，其中第二组分能够结合多核苷酸的第二核酸靶序列。此类第二组分的实例包括包含第二核酸酶域的转录活化剂样效应子核酸酶(TALEN)、包含第二核酸酶域的锌指核酸酶(ZFN)，或者包含第二核酸酶域的dCas9/NATNA复合体。

在一个实施方案中，可以使用包含与靶标多核苷酸中的第一核酸靶序列互补的向导的Cascade复合体和dCas9/NATNA复合体的组合来缺失靶标多核苷酸(例如，gDNA)的区域，其中NATNA包含与靶标多核苷酸中的第二核酸靶序列互补的间隔区序列。选择了第一和第二核酸靶序列以位于靶向用于缺失的核酸靶序列两侧。包含活性核酸内切酶活性的Cas3蛋白与Cascade复合体结合，然后渐进性地缺失包含靶向用于缺失的核酸靶序列的dsDNA的单链。当Cas3蛋白与dCas9/NATNA复合体(即“路障”)碰撞时，可以通过dCas9/NATNA复合体在第二核酸靶序列处终止Cas3核酸酶活性。图21A-图21D示出了核酸靶序列的Cas3缺失的实例。图21A显示了包含位于靶向用于缺失的核酸靶序列两侧的核酸靶序列1(图21A，NATS1)和核酸靶序列2(图21A，NATS2)的dsDNA(图21A，成对的水平黑线)。图21A显示了Cascade复合体，其包含与NATS1互补的向导(图21A，Cascade；黑线框架的矩形)、Cas3蛋白(图21A，Cas3；灰色圆扇形)和包含与NATS2互补的间隔区的dCas9/NATNA复合体(图21A，dCas9；虚线框架的矩形)。图21B显示了Cascade复合体与NATS1的结合、Cas3蛋白与Cascade复合体的关联，以及dCas9/NATNA复合体与NATS2的结合。图21C示出了通过靶向用于缺失的单链核酸靶序列的Cas3的渐进性缺失。图21D显示了在结合至NATS2的dCas9/NATNA复合体的位置处Cas3蛋白与dsDNA的解离。实施例24A-实施例24D示出的数据支持了使用蛋白路障控制通过与Cascade核蛋白复合体相关的Cas3蛋白介导的缺失的长度；从而提供了使用与Cascade核蛋白复合体相关的Cas3蛋白来促进在细胞(例如，人类细胞)的gDNA中形成具有限定长度的缺失的方法。

在另一实施方案中，可以使用包含与靶标多核苷酸中的第一核酸靶序列互补的向导的第一Cascade复合体和包含与靶标多核苷酸中的第二核酸靶序列互补的向导的第二Cascade复合体的组合来缺失靶标多核苷酸(例如，gDNA)的区域。选择了第一和第二核酸靶序列以位于靶向用于缺失的核酸靶序列的两侧。包含活性核酸内切酶活性的Cas3蛋白具每种Cascade复合体结合，然后渐进性地缺失靶向用于缺失的核酸靶序列的两条链。当每种Cas3蛋白与一种Cascade复合体碰撞时，可以在通过Cascade复合体第一和第二核酸靶序列处终止Cas3核酸酶活性。图22A-图22D示出了核酸靶序列的两条链的Cas3缺失的实例。图22A显示了包含位于靶向用于缺失的核酸靶序列两侧的核酸靶序列1(图22A，NATS1)和核酸靶序列2(图22A，NATS2)的dsDNA(图22A；成对的水平黑线)。图22A显示了第一Cascade复合体，其包含与NATS1互补的向导(图22A，Cascade1；黑线框架的矩形)、Cas3蛋白(图22A，Cas3；灰色圆扇形)，以及包含与NATS2互补的向导的第二Cascade复合体(图22A，Cascade2；虚线框架的矩形)。图22B显示了Cascade复合体与NATS1和NATS2的结合，以及Cas3蛋白与Cascade复合体的关联。图22C示出了由沿DNA的移动和通过靶向用于缺失的核酸靶序列的两条链的Cas3的核酸酶降解引起的渐进性的缺失。图22D显示了在与NATS1和NATS2结合的Cascade复合体的位置处Cas3蛋白与dsDNA的解离。

在其他实施方案中，可以修饰Cascade复合体，使其不能与Cas3蛋白结合，并且这种修饰的Cascade复合体可以基本上以与图21A-图21D所示相同的方式用作路障，以通过催化活化与Cascade RNP复合体相关的Cas3来阻止DNA的渐进性降解。另外的位点特异性结合蛋白(例如，转录活化剂样效应子(TAL)或锌指(ZnF)DNA结合蛋白)可以类似的方式用作路障。

在一些实施方案中，核酸靶序列是dsDNA(例如，基因组)DNA。在一些实施方案中，核酸靶序列是双链的，并且一条或两条链被切割。此类切割核酸靶序列的方法可以在体外、体内或离体下进行。

如上所述，在一些实施方案中，本发明涉及引入一种或多种改造的I型CRISPR-Cas效应子复合体至宿主细胞中，以促进在供体多核苷酸存在下dsDNA中核酸靶序列的切割，其中一种或多种改造的I型CRISPR-Cas效应子复合体在包含宿主细胞DNA的核酸靶序列的靶区中产生切割位点(或切割位点和相关的缺失)，从而促进将至少一部分的供体多核苷酸插入靶区中。在一些实施方案中，切割位点是靶区中的双链断裂(例如，当使用每种包含间隔区的两种改造的I型CRISPR-Cas效应子复合体以及包含Cas蛋白和核酸内切酶(例如，FokI)的融合蛋白或者每种包含与Cas3蛋白或mCas3蛋白相关的间隔区的两种改造的I型CRISPR-Cas效应子复合体时)。在一些实施方案中，切割位点是靶区中的单链断裂(例如，当使用与mCas3蛋白相关的I型CRISPR-Cas效应子复合体时)。在其他实施方案中，切割位点是靶区中的缺失(例如，当使用与Cas3或mCas3蛋白相关的I型CRISPR-Cas效应子复合体时)。

为了证明同源性定向修复(HDR)，设计了最小CRISPR阵列，以将FokI-PseCascadeRNP复合体靶向人类基因组中的四个位点(WDR92、B2M、CCR5和TRAC)。使用三种寡核苷酸(SEQ ID NO:1513至SEQ ID NO:1515；实施例20A)和编码“重复区-间隔区-重复区-间隔区-重复区”序的独特引物，利用基于PCR的组装产生了最小CRISPR阵列，其中第一和第二间隔区将FokI-PseCascade RNP复合体引导至相邻的核酸靶序列，以使得能够进行FokI二聚化和基因组切割(即产生切割位点)。

对于包含切割位点的靶区中的每个HDR插入位点—在这种情况下与切割位点重叠，将细胞进行以下转染：编码包含其中NLS与FokI的N端连接的融合至Cas8的N端的FokI的FokI-PseCascade复合体蛋白组分的3μg的载体、150ng的最小CRISPR阵列，以及0-60pmol的HDR的单链寡脱氧核苷酸(ssODN)模板供体多核苷酸。ssODN包含同源臂，每个同源臂为75个核苷酸，并且两个臂对称地位于切割位点周围。供体多核苷酸在同源臂的3'端核苷酸处还包含硫代磷酸酯键，以减少或防止供体多核苷酸的细胞降解。在磷酸硫酯键的5'端，供体多核苷酸还包含“TAATAAT”的插入序列，以插入两个终止密码子，并增加修复的染色体中的间隔区间距，从而阻碍FokI-PseCascade RNP复合体重新切割。

基本上按实施例20B中所述在HEK293细胞中进行转染，除了在混合物中包括ssODN以使得能够进行HDR。转染几天后，从细胞中纯化出gDNA，用核酸外切酶进行处理以去除可能污染后续PCRs的任何残留ssODN，然后用作扩增的模板以测量供体插入。基本上按实施例20C中所述进行深度测序分析。表13中示出了来自该实验的总读长中突变体读长的百分比(第一栏是pmol的ssODN)：

突变体读长的百分比指示了包含产生于非同源的末端连接以及“TAATAAT”HDR序列的插入的插入缺失的突变体读长。

在表14中示出了来自该实验的总突变体读长中仅含有“TAATAAT”插入序列的HDR读长的百分比(第一栏是pmol的ssODN)：

如从数据可以看出的，通过Cascade RNP复合体的dsDNA切割使得能够在人类基因组中的多个基因座处进行HDR以及掺入供体多核苷酸。

在又一个实施方案中，本发明包括在细胞或生化反应中修饰多核苷酸(例如，DNA)中的一种或多种核酸靶序列的方法，包括提供一种或多种用于引入细胞或生化反应中的改造的I型CRISPR-Cas效应子复合体(例如，包含Cas亚基蛋白-胞苷脱氨酶融合蛋白)，以及将改造的I型CRISPR-Cas效应子复合体引入细胞或生化反应中，从而促进改造的I型CRISPR-Cas效应子复合体与多核苷酸的接触，导致有利于核酸靶序列的突变(例如，C至T、G至A、A至G和T至C)的改造的I型CRISPR-Cas效应子复合体与多核苷酸中的核酸靶序列的结合。图18A-图18D示出了使用包含Cas亚基蛋白-连接子多肽-胞苷脱氨酶融合蛋白(Cascade/CD复合体)的Cascade复合体来突变细胞gDNA中的靶标核苷酸(图18A，成对的黑色水平线，“C”为胞嘧啶且“G”为鸟嘌呤)的实例。将Cascade/CD复合体(图18A；具有连接子多肽的“Cascade”示出为连接Cascade和胞苷脱氨酶的弯曲线，“CD”表示为灰色的圆扇形)引入细胞中。Cascade/CD复合体包含与临近靶标胞嘧啶的DNA靶序列互补的向导(图18B，“C”)。在图18B中，Cascade/CD复合体结合DNA靶序列，且胞苷脱氨酶将胞嘧啶(图18B，“C”)转化为胞嘧啶(图18C，“U”)。然后细胞修复机制可以将胞嘧啶修复成胸腺嘧啶，并将错配的胍改变为腺嘌呤(图18C-图18D，指向下，垂直箭头代表细胞DNA修复机制)。

在又一个实施方案中，本发明包括调节体外或体内转录，例如，包含调控元件序列的基因的转录的方法。这样的方法包括提供提供用于引入细胞或生化反应中的一种或多种改造的I型CRISPR-Cas效应子复合体(例如，包含Cas亚基蛋白-转录因子融合蛋白)，以及将改造的I型CRISPR-Cas效应子复合体引入细胞或生化反应中，从而促进改造的I型CRISPR-Cas效应子复合体与调控元件序列的接触，导致改造的I型CRISPR-Cas效应子复合体与调控元件序列结合，从而促进调节包含调控元件序列的基因的体外或体内转录。

图19A和图19B示出了通用基因(“基因1”)的转录激活的实例的一般性图示。图19A提供了真核细胞中内源基因的转录调控的概述。在图19A中，两条黑色的平行线代表双链DNA，指示了基因1(图19A，基因1)的位置，以及与基因1相关的转录起始位点(图19A，TSS)。在图19A的第一幅图中，基因1的转录激活所需的转录因子(图19A，TF)和聚合酶II(图19A，Pol II)被示出为尚未与基因1-TSS关联。第二幅图示出了TF与其同源TSS的关联。然后TF募集转录激活蛋白(图19A，TP)，其随后募集RNA聚合酶II(图19A，Pol II)。通常，在真核生物中，TF因子和TP形成包含多种蛋白质和可能的其他分子的复合体。第三幅图示出了通过PolII产生的对基因1的转录(图19A，基因1末端的弯曲箭头指示转录的方向)。这种类型的转录激活通常取决于特定于基因表达的TF。图19B示出了本发明的一个实施方案的图示，其中Cascade复合体被改造以包括蛋白质或因子(图19B，CASCADEa)，其吸引细胞中负责转录激活的一种或多种组分(转录激活因子；图19B，TA)。这样的蛋白质或因子的一个实例是蛋白质VP64。CASCADEa包含能够在TSS处或附近结合的向导(图19B，TSS)。在图19B中，两条黑色平行线代表双链DNA，指示了基因1(图19B，基因1)的位置，以及与基因1相关的转录起始位点(TSS)。在图19B的第一幅图中，CASCADEa和聚合酶II(图19B，Pol II)被示出为尚未与基因1-TSS关联。在第二幅图中，示出了CASCADEa与其靶标TSS的关联。然后CASCADEa募集转录激活蛋白(图19B，TA)，其然后募集RNA聚合酶II(图19B，Pol II)。第三幅图示出了通过PolII产生的对基因1的转录(图19B，基因1末端的弯曲箭头指示转录的方向)。本发明的该实施方案的一个优点是，基因的转录激活不依赖于与基因的TSS结合的内源转录因子，而是可以通过选择适当的Cascade向导来靶向基因的TSS。

图20A和图20B示出了使用包含Cas亚基蛋白-KRAB域融合和与基因1相关的调控序列(图20A，启动子)互补的向导(图20A，具有示出为连接Cascade和代表KRAB域的圆形元件的弯曲线的连接子多肽的CASCADEi)的Cascade复合体，对通用基因(图20A，基因1)的转录抑制的实例的一般性图示。CASCADEi与调控序列的结合(图20B)导致基因1的转录抑制(图20B，以X结尾的黑线代表转录抑制)。

可将如本文所述的改造的I型CRISPR-Cas效应子复合体整合到试剂盒中。在一些实施方案中，试剂盒包括具有一个或多个容纳试剂盒元件的容器的包装，所述试剂盒元件作为一种或多种单独的组合物，或者，任选地，如果组分的相容性允许，则作为混合物。在一些实施方案中，试剂盒还包含一种或多种以下赋形剂：缓冲液、缓冲试剂、盐、无菌水溶液、防腐剂及以上的组合。示例性的试剂盒可包含一种或多种改造的I型CRISPR-Cas效应子复合体和一种或多种赋形剂，或编码改造的I型CRISPR-Cas效应子复合体的一种或多种组分的一种或多种核酸序列。

此外，试剂盒还可以包括使用改造的I型CRISPR-Cas效应子复合体组合物的说明书。

本发明的另一个方面涉及制备或生产一种或多种改造的I型CRISPR-Cas效应子复合体或其组分的方法。在一个实施方案中，制备或生产方法包括在细胞中产生改造的I型CRISPR-Cas效应子复合体，以及从细胞溶解产物中纯化改造的I型CRISPR-Cas效应子复合体。

改造的I型CRISPR-Cas效应子复合体组合物还可以包含可检测的标记，如可以提供可检测的信号的部分。可检测的标记的实例包括但不限于酶、放射性同位素、多种特异性结合对、荧光团(FAM)、荧光蛋白(绿色荧光蛋白(GFP)、红色荧光蛋白、mCherry、tdTomato)、连同合适的荧光团(增强的GFP(eGFP),“Spinach”)一起的DNA或RNA适配体、量子点、抗体等。大量且各种合适的可检测的标记是本领域普通技术人员熟知的。

在一些实施方案中，可以通过以下方法将改造的I型CRISPR-Cas效应子复合体(即核蛋白颗粒)引入细胞中，这些方法包括但不限于：核转染、基因枪递送、声纳穿孔、细胞挤压、脂质转染，或使用其他化学物质、穿透细胞的肽等。在其他实施方案中，可使用载体系统、包含编码一种或多种组分的DNA序列的表达盒，以及包含含有编码一种或多种组分的RNA序列的表达盒的一种或多种RNA分子(例如，mRNA)，将改造的I型CRISPR-Cas效应子复合体和相关的蛋白质的一种或多种组分的编码序列引入细胞中。

本发明的一个实施方案涉及使用改造的I型CRISPR-Cas效应子复合体产生重组细胞(例如，修饰的淋巴细胞)。方法通常包括促进使包含宿主细胞中的含有核酸靶序列的靶区的dsDNA与本发明的一种或多种改造的第一类I型CRISPR-Cas效应子复合体接触。改造的第一类I型CRISPR-Cas效应子复合体与核酸靶序列的接触导致改造的第一类I型CRISPR-Cas效应子复合体与包含核酸靶序列的靶区结合，切割包含核酸靶序列的靶区，以及修饰靶区中的dsDNA，从而产生重组细胞。在一些实施方案中，dsDNA包含一种以上的核酸靶序列，并且包含与每种核酸靶序列互补的间隔区序列的改造的第一类I型CRISPR-Cas效应子复合体被用于结合、切割和修饰每种核酸靶序列。在一些实施方案中，靶区的修饰是插入、缺失或者插入和缺失。以上描述了切割多核苷酸中的核酸靶序列(例如dsDNA中的单链切口或dsDNA中的双链切口)的方法，包括提供用于引入细胞中的一种或多种改造的I型CRISPR-Cas效应子复合体。

本发明的实施方案包括使用一种或多种改造的第一类I型CRISPR-Cas效应子复合体产生重组细胞，其中重组细胞的gDNA包含敲出突变(例如，B2M基因和/或PDCD1基因的)、敲入(例如，TRAC位点处的编辑和来自供体多核苷酸的CAR的整合)，或以上的组合。在一些实施方案中，在gDNA的TRAC基因中核酸靶序列处的切割之后在核酸靶序列处掺入至少一部分的供体多核苷酸。供体多核苷酸可以包含CAR构建体，其中CAR被插入核酸靶序列中。

通过本发明的方法制备的重组细胞可用于过继细胞转移(ACT)。ACT是一种迅速兴起的免疫疗法，其使用移植的免疫细胞来治疗癌症。ACT是将细胞转移到患者内。最常见的是，免疫细胞来源于免疫系统，旨在提高免疫功能。在自体癌症免疫疗法中，从患者内收获免疫细胞或干细胞，并通过离体培养至大数量进行扩增，然后返回患者内。免疫细胞或干细胞可以通过各种方式在培养中进行修饰(例如，使用基因组编辑将CAR整合到T细胞的基因组中)。在一些实施方案中，将用于修饰的淋巴细胞从对象中分离出来，进行修饰，然后重新引入同一对象中。这种技术被称为自体淋巴细胞疗法。在同种异体癌症免疫治疗中，源自单个供体的培养扩增的免疫细胞或干细胞可为大量患者提供治疗。这样的免疫细胞或干细胞也可以以各种方式在培养中进行修饰。在一些实施方案中，可以将淋巴细胞分离、修饰并引入不同的对象中。该技术被称为同种异体淋巴细胞疗法。

在某些实施方案中，这种免疫治疗方法可以利用淋巴细胞，包括但不限于T细胞、自然杀伤细胞(NK细胞)、B细胞、肿瘤浸润淋巴细胞(TIL)、嵌合抗原受体T细胞(CAR-T细胞)、T细胞受体改造的T细胞(TCR)、TCR CAR-T细胞、CAR TIL细胞、CAR-NK细胞、改造的NK细胞或产生淋巴细胞的造血干细胞。在其他实施方案中，细胞是干细胞、树突状细胞等。此类细胞的基因组可以通过使用一种或多种本发明的改造的I类I型Cascade效应子复合体来进行修饰(例如，淋巴细胞基因组中插入和/或缺失的产生)。

可以从对象如人类对象，例如从血液或从实体瘤，如在TILs的情况下，或从淋巴器官如胸腺、骨髓、淋巴结和粘膜相关的淋巴组织，分离淋巴细胞用于修饰。分离淋巴细胞的技术是本领域众所周知的。例如，可以从外周血单核细胞(PBMCs)中分离淋巴细胞，外周血单核细胞可以使用例如ficoll，一种分离血液层的亲水性多糖和密度梯度离心从全血中分离出来。通常，将抗凝或去纤维化的血液样本铺在ficoll溶液的顶部，并离心以形成不同的细胞层。底层包括红血球(红细胞)，它们通过ficoll介质进行收集或聚集，并完全沉入底层。下一层主要包含粒细胞，它们也向下迁移通过ficoll-paque溶液。下一层包括淋巴细胞以及单核细胞和血小板，淋巴细胞通常位于血浆和ficoll溶液之间的界面处。为了分离淋巴细胞，回收该层，用盐溶液洗涤以除去血小板、ficoll和血浆，然后再次离心。可选地，可以通过离心技术(例如，使用

(Haemonetrics,Braintree,MA)机器或Lovo自动化细胞处理系统(Fresenius Kabi USA,LLC,Lake Zurich,IL))从供体血液中分离细胞。

用于分离淋巴细胞的其他技术包括生物淘选，其通过将目标细胞与抗体包被的塑料表面结合而从溶液中分离细胞群。然后通过用特异性抗体和补体处理去除不需要的细胞。另外，荧光活化细胞分选(FACS)分析可用于检测和计数淋巴细胞。FACS分析使用流式细胞仪，其可基于光散射和荧光的差异分离标记的细胞。

对于TILs，从肿瘤中分离淋巴细胞，并例如使其在大剂量IL-2中生长，并使用针对自体肿瘤或HLA匹配的肿瘤细胞系的细胞因子释放共培养测定进行选择。选择与同种异体的非MHC匹配的对照相比具有增加的特异性反应性的证据的培养物进行快速扩增，然后将其引入对象中以治疗癌症(参见，例如Rosenberg,S.,et al.,Clin.Cancer Res.17:4550-4557(2011)；Dudly,M.,et al.,Science 298:850-854(2002)；Dudly,M.,et al.,J.Clin.Oncol.26:5233-5239(2008)；Dudley,M.,et al.,J.Immnother.26:332-342(2003))。

分离后，淋巴细胞可以根据特异性、频率和功能来进行定征。经常使用的测定包括ELISPOT测定，其可测量T细胞反应的频率。

在一些实施方案中，CD4+和CD8+T细胞是从供体外周血单核细胞(PBMCs)中分离出来的。本领域普通技术人员可以通过如上所述的各种方法分离T细胞或其他淋巴样细胞。还可通过自iPSC细胞的分化来分离此类细胞。

分离后，可以使用本领域已知的技术活化淋巴细胞，以促进增殖和分化为特化的效应子淋巴细胞。活化的T细胞的表面标记包括例如CD3、CD4、CD8、PD1、IL2R和其他。活化的细胞毒性淋巴细胞可在结合靶标细胞表面上的同源受体后杀伤靶标细胞。NK细胞的表面标记包括例如CD16、CD56和其他。

在分离和任选地活化后，可以修饰淋巴细胞以提供所需的特性。本发明的一种或多种改造的I型Cascade效应子复合体可以用于引入基因组修饰，包括但不限于引入待表达的编码序列和/或使内源基因表达失活。在一些实施方案中，本发明的一种或多种改造的I型Cascade效应子复合体可用于编辑TRAC基因(编码T细胞受体α常数)、B2M基因(编码β2微球蛋白)，和/或PDCD1基因(编码程序化细胞死亡蛋白1；也称为PD-1)。

T细胞和NK细胞是可以通过本发明的方法修饰的淋巴细胞的实例。在一些实施方案中，本发明的一种或多种改造的I型Cascade效应子复合体可以在存在包含CAR的供体多核苷酸的情况下，在基因的靶区中引入切割位点，其中CAR被整合到淋巴细胞基因组的靶区中。在另外的实施方案中，本发明的一种或多种改造的I型Cascade效应子复合体可以用于在基因的靶区中引入切割位点，以促进敲出突变的产生，以防止基因的表达。

在另一个实施方案中，可以使用本发明的改造的I型Cascade效应子复合体将基因组修饰引入人iPSCs中。在一些实施方案中，本发明的一种或多种改造的I型Cascade效应子复合体可用于编辑TRAC基因、B2M基因和/或PDCD1基因。在其他实施方案中，改造的I型Cascade效应子复合体与供体多核苷酸一起可用于引入基因组修饰和编码序列，如CAR或细胞因子(例如，IL2，IL15等)。然后可以将修饰的iPSC细胞进一步分化为包含T细胞和NK细胞或树突状细胞的成熟细胞类型。在一些实施方案中，修饰的iPSCs可以分化为CAR-T细胞和CAR-NK细胞。

在本发明的方法的一些实施方案中，供体多核苷酸包含编码CAR的多核苷酸。可以对CAR进行靶向，以经由同源重组(“敲入”)插入包含切割位点的基因(例如，TRAC基因)的靶区中。这种方法的一个优点是它还可以提供靶向的TRAC基因的敲出；也就是说，使得TRAC基因失效。上文描述了可以掺入CAR构建体中的细胞外抗原识别域的实例(参见表2)。在一个实施方案中，细胞外抗原识别域包含CD19结合部分(例如，抗CD19 scFv)。在另一个实施方案中，细胞外抗原识别域包含B细胞成熟抗原(BCMA)结合部分(例如，抗BCMA scFv)。

在本发明的包括在DNA的靶区中产生切割位点的方法的实施方案中，方法还可以包括将供体多核苷酸引入修饰的细胞中，从而促进至少一部分供体多核苷酸的插入包含修饰细胞的切割位点的靶区中。可以将供体多核苷酸直接引入修饰的细胞中。在一些实施方案中，使用载体引入供体多核苷酸。用于构建载体的一般方法是本领域已知的。病毒载体的实例包括但不限于慢病毒、逆转录病毒、腺病毒、单纯疱疹病毒I或II、细小病毒、网状内皮增生病毒和AAV载体。

本发明方法的其他实施方案包括在B2M基因中引入突变。在优选的实施方案中，突变是B2M基因中的敲出突变。

本发明方法的其他实施方案包括在PDCD1基因中引入突变。在优选的实施方案中，突变是PDCD1基因中的敲出突变。

可以通过同时或连续引入改造的Cascade复合体、多核苷酸(例如，质粒或表达盒)或以上的混合物至宿主细胞(例如，淋巴细胞)中来进行被本发明的一种或多种改造的I型Cascade效应子复合体促进的基因组修饰。

在产生修饰的淋巴细胞后，可以筛选淋巴细胞，以使用诸如高通量筛选技术的方法，包括但不限于FACS、基于微流体的筛选平台等选择表达(例如，表达所需的细胞表面受体)或不表达(例如，细胞表面蛋白，其表达已经通过使用一种或多种改造的I型Cascade效应子复合体的基因组编辑进行了失活)的细胞。这些技术在本领域中是已知的(参见，例如Wojcik,M.,et al.,Int.J.Mol..Sci.16:24918-24945(2015))。

修饰的淋巴细胞一旦产生，就可以配制成药物组合物，以递送至待治疗的对象。本发明的组合物包括修饰的淋巴细胞和一种或多种药学上可接受的赋形剂。示例性的赋形剂包括但不限于碳水化合物、无机盐、抗微生物剂、抗氧化剂、表面活性剂、缓冲剂、酸、碱及以上的组合。适合用于可注射组合物的赋形剂包括水、醇、多元醇、甘油、植物油、磷脂和表面活性剂。碳水化合物如糖、衍生化的糖如糖醇、醛糖酸、酯化的糖和/或糖聚合物可以作为赋形剂提供。特定的碳水化合物赋形剂包括，例如：单糖，如果糖、麦芽糖、半乳糖、葡萄糖、D-甘露糖、山梨糖等；二糖，如乳糖、蔗糖、海藻糖、纤维二糖等；多糖，如棉子糖、松三糖、麦芽糖糊精、右旋糖酐、淀粉等；以醛糖醇，如甘露醇、木糖醇、麦芽糖醇、乳糖醇、木糖醇、山梨糖醇(葡萄糖醇)、吡喃糖基山梨糖醇、肌醇等。赋形剂还可包括无机盐或缓冲剂，如柠檬酸、氯化钠、氯化钾、硫酸钠、硝酸钾、磷酸二氢钠、磷酸氢二钠及以上的组合。冷冻剂(例如，

(BioLife Solutions Inc,Bothell,WA)CS2、CS5或CS10冷冻培养基)可用于冷冻细胞以进行存储和运输。

本发明的药物组合物还可以包括用于防止或阻止微生物生长的抗微生物剂。适用于本发明的抗微生物剂的非限制性实例包括苯扎氯铵、苄索氯铵、苄醇、十六烷基氯化吡啶鎓、氯丁醇、苯酚、苯乙醇、硝酸苯汞、硫柳汞及以上的组合。

药物组合物中也可以存在抗氧化剂。抗氧化剂用于防止氧化，从而防止制剂中淋巴细胞或其他组分的变质。适合用于本发明的抗氧化剂包括例如抗坏血酸棕榈酸酯、丁基化羟基茴香醚、丁基化羟基甲苯、次磷酸、单硫代甘油、没食子酸丙酯、亚硫酸氢钠、甲醛合次硫酸氢钠、偏亚硫酸氢钠及以上的组合。

表面活性剂可以作为赋形剂存在。示例性的表面活性剂包括：聚山梨酸酯，如TWEEN 20和TWEEN 80，以及普朗尼克类化合物，如F68和F88(BASF,Mount Olive,NewJersey)；山梨糖醇酯；脂质，如磷脂，如卵磷脂和其他磷脂酰胆碱、磷脂酰乙醇胺(尽管优选不为脂质体形式)、脂肪酸和脂肪酯；类固醇，如胆固醇；螯合剂，如EDTA；以及锌和其他此类合适的阳离子。

酸或碱可以作为药物组合物中的赋形剂存在。可以使用的酸的非限制性实例包括选自以下的那些酸：盐酸、乙酸、磷酸、柠檬酸、苹果酸、乳酸、甲酸、三氯乙酸、硝酸、高氯酸、磷酸、硫酸、富马酸及以上的组合。合适的碱的实例包括但不限于选自以下的碱：氢氧化钠、乙酸钠、氢氧化铵、氢氧化钾、乙酸铵、乙酸钾、磷酸钠、磷酸钾、柠檬酸钠、甲酸钠、硫酸钠、硫酸钾、富马酸钾及以上的组合。

组合物中淋巴细胞(或其他重组细胞)的数量将根据多种因子而变化，但是当组合物处于单位剂量形式或容器(例如，袋)中时，其将最佳地为治疗有效剂量。治疗有效剂量可以通过重复给予增加量的组合物来实验确定，以确定哪种量产生临床所需的终点。

组合物中任何单一赋形剂的量将根据赋形剂的性质和功能以及组合物的特定需要而变化。通常，任何单一赋形剂的最佳量是通过常规实验确定的，即通过制备包含不同量的赋形剂(范围从低到高)的组合物，检查稳定性和其他参数，然后确定取得最佳性能且无明显副作用的范围。然而，通常，赋形剂在组合物中存在的量为按重量计约1％至约99％，优选按重量计约5％至约98％，更优选按赋形剂重量计约15％至约95％，按重量计浓度小于30％是最优选的。这些上述的药物赋形剂连同其他的赋形剂描述于“Remington:TheScience&Practice of Pharmacy,”现行版,Williams&Williams；the“Physician’s DeskReference,”现行版,Medical Economics,Montvale,NJ；和Kibbe,A.H.,Handbook ofPharmaceutical Excipients,现行版,American Pharmaceutical Association,Washington,D.C.中。

可以根据递送和使用的预期方式将药物组合物容纳在注射器、植入装置等中。优选地，存在的组合物的量适合于单一剂量，采用预先测量或预先包装的形式。

本文中的药物组合物可以任选地包括一种或多种另外的试剂，如用于治疗对象的目标癌症或治疗该治疗的已知副作用的其他药物。例如，T细胞将细胞因子释放到血液中，这可能导致危险的高烧和血压急剧下降。这种病况称为细胞因子释放综合征(CRS)。在许多患者中，CRS可以通过标准的支持疗法进行管理，包括类固醇和免疫疗法，如能阻断IL-6活性的托珠单抗(ActemraTM,Genentech,South San Francisco,CA)。

至少一个治疗有效周期的修饰的淋巴细胞组合物治疗将被给予对象。通过“治疗有效周期的治疗”意指这样一种治疗周期，当给予该治疗周期时，其引起关于个体目标疾病治疗的积极的治疗反应。通过“积极的治疗反应”意指根据本发明进行治疗的个体表现出疾病的一种或多种症状的改善，包括诸如肿瘤减少和/或对淋巴细胞治疗的需求减少的改善。

在某些实施方案中，将给予多种治疗有效剂量的包含淋巴细胞或其他药物的组合物。本发明的组合物，尽管不一定，但通常是经注射，如皮下、皮内、静脉内、动脉内、肌内、腹膜内、髓内、肿瘤内、结节内)，通过输注或局部给药的。在即将给药前，药物制剂可以为液体溶液或悬浮液的形式。上述内容旨在是示例性的，因为还考虑了另外的给药方式。可以根据本领域已知的任何医学上可接受的方法，使用相同或不同的给药途径来给予药物组合物。

实际给予的剂量将根据对象的年龄、体重和一般状况以及所治疗病况的严重性、医疗保健专业人员的判断以及所给予的特定淋巴细胞而变化。治疗有效量可以由本领域技术人员确定，并将根据每种特定情况的特定要求调整。

通常，每位患者淋巴细胞的治疗有效量范围将为总计约1x10⁵个至约1x10¹⁰个淋巴细胞或更多，如1x10⁶个至约1x10¹⁰个，例如，1x10⁷个至1x10⁹个，如5x10⁷个到5x10⁸个，或这些范围内的任何数量。其他剂量范围可以是每kg/体重1x10⁴个至1x10¹⁰个细胞。淋巴细胞的总数可以单次大剂量给药，也可以分两次或更多次剂量给药，如相隔一天或多天。淋巴细胞的总数可以单次大剂量给药，或者可以分两次或更多次剂量给药，如间隔一天或更多天。给予的化合物的量将取决于特定淋巴细胞组合物的效力、所治疗的疾病和给药途径。

另外，剂量可以包括淋巴细胞的混合物，如CD8+和CD4+细胞的混合物。如果提供了CD8+和CD4+细胞的混合物，则CD8+与CD4+细胞的比例可以为例如1:1、1:2或2:1、1:3或3:1、1:4或4:1、1:5或5:1等。

修饰的淋巴细胞可以在其他试剂之前、同时或之后给药。如果与其他试剂同时提供，则修饰的淋巴细胞可以在相同或不同的组合物中提供。因此，可以通过同时治疗的方式将淋巴细胞和其他试剂提供给个体。通过“同时治疗”，意指给予对象，使得在接受治疗的对象中引起物质组合的治疗效果。例如，根据特定的给药方案，可以通过给予组合包含治疗有效剂量的一剂包含修饰的淋巴细胞的药物组合物和一剂包含至少一种其他的试剂，如另一化疗剂的药物组合物来实现同时治疗。类似地，可以在至少一次治疗剂量中给予修饰的淋巴细胞和治疗剂。可以同时或在不同时间(例如，连续地、以任一顺序，在同一天或在不同天)进行单独药物组合物的给药，只要在接受治疗的对象中引起了这些物质组合的治疗效果。

如本文所述，本发明的改造的I型Cascade效应子复合体提供了基因组编辑工具。证明第一类CRISPR-Cas系统在用于基因组编辑的哺乳动物细胞中进行了功能重构的实验表明，此类改进的质粒设计能够允许使用其他的第一类CRISPR-Cas系统，包括显示更少的蛋白组分和独特的PAM要求的那些，以及可能地甚至来自III型CRISPR–Cas系统的RNA和DNA靶向性效应子复合体(参见，例如Hille,F.,et al.,Cell 172:1239-1259(2018)；Tamulaitis,G.,et al.,Trends Microbiol.25:49-61(2017))。Cascade复合体的多亚基性质提供了多价和/或空间上精确募集效应子融合物的可能性，如合成的转录因子、表观基因组修饰剂和碱基编辑器。另外，可以利用异源表达来自I型系统的完整DNA干扰途径–即Cascade介导的募集Cas3解旋酶-核酸酶至基因组靶标位点–以产生较大的DNA缺失，来暴露较长的ssDNA束用于同源指导的修复，和/或机械破坏确定的基因组位点处的蛋白-DNA路障。因此，在本发明的一个实施方案中，改造的第一类CRISPR-Cas系统可用于产生较大的缺失区域，并且可将供体多核苷酸(例如，比较合适的同源臂)引入细胞中，从而促进将至少一部分的供体多核苷酸插入该区域中。

本发明的实施方案包括但不限于以下各项。

实施方案1.组合物，其包含：

第一改造的第一类I型CRISPR-Cas效应子复合体，其包含：

第二改造的第一类I型CRISPR-Cas效应子复合体，其包含：

包含第二Cas8亚基蛋白和第二FokI的第二融合蛋白，其中第二Cas8亚基蛋白的N端或第二Cas8亚基蛋白的C端通过第二连接子多肽分别与第二FokI的C端或N端共价连接，并且其中第二连接子多肽具有约10个氨基酸至约40个氨基酸的长度，和

包含能够结合第二核酸靶序列的第二间隔区的第二向导多核苷酸，其中第二核酸靶序列的前间区序列邻近基序(PAM)和第一核酸靶序列的PAM具有约20bp至约42bp的间隔区间距。

实施方案2.如实施方案1所述的组合物，其中第一连接子多肽具有约15个氨基酸至约30个氨基酸的长度。

实施方案3.如实施方案2所述的组合物，其中所述第一连接子多肽具有约17个氨基酸至约20个氨基酸的长度。

实施方案4.如实施方案1-3中任一项所述的组合物，其中第二连接子多肽具有约15个氨基酸至约30个氨基酸的长度。

实施方案5.如实施方案4所述的组合物，其中第二连接子多肽具有约17个氨基酸至约20个氨基酸的长度。

实施方案6.如任何前述实施方案所述的组合物，其中第一连接子多肽和第二连接子多肽的长度是相同的。

实施方案7.如任何前述实施方案所述的组合物，其中第二核酸靶序列和第一核酸靶序列中的每个具有约22bp至约40bp的间隔区间距。

实施方案8.如实施方案7所述的组合物，其中第二核酸靶序列和第一核酸靶序列中的每个具有约26bp至约36bp的间隔区间距。

实施方案9.如实施方案8所述的组合物，其中第二核酸靶序列和第一核酸靶序列中的每个具有约29bp至约35bp的间隔区间距。

实施方案10.如实施方案9所述的组合物，其中第二核酸靶序列和第一核酸靶序列中的每个具有约30bp至约34个碱基bp的间隔区间距。

实施方案11.如任何前述实施方案所述的组合物，其中第一FokI和第二FokI是能够结合形成同型二聚体的单体亚基。

实施方案12.如实施方案1-10中任一项所述的组合物，其中第一FokI和第二FokI是能够结合形成异型二聚体的不同的单体亚基。

实施方案13.如任何前述实施方案所述的组合物，其中第一Cas8亚基蛋白的N端通过第一连接子多肽与第一FokI的C端共价连接。

实施方案14.如实施方案1-12中任一项所述的组合物，其中第一Cas8亚基蛋白的C端通过第一连接子多肽与第一FokI的N端共价连接。

实施方案15.如任何前述实施方案所述的组合物，其中第二Cas8亚基蛋白的N端通过第二连接子多肽与第二FokI的C端共价连接。

实施方案16.如实施方案1-14中任一项所述的组合物，其中第二Cas8亚基蛋白的C端通过第二连接子多肽与第二FokI的N端共价连接。

实施方案17.如任何前述实施方案所述的组合物，其中第一Cas8亚基蛋白和第二Cas8亚基蛋白中的每个包含相同的氨基酸序列。

实施方案18.如任何前述实施方案所述的组合物，其中第一Cse2亚基蛋白和第二Cse2亚基蛋白中的每个包含相同的氨基酸序列，第一Cas5亚基蛋白和第二Cas5亚基蛋白中的每个包含相同的氨基酸序列，第一Cas6亚基蛋白和第二Cas6亚基蛋白中的每个包含相同的氨基酸序列，并且第一Cas7亚基蛋白和第二Cas7亚基蛋白中的每个包含相同的氨基酸序列。

实施方案19.如任何前述实施方案所述的组合物，其中第一向导多核苷酸包含RNA。

实施方案20.如任何前述实施方案所述的组合物，其中第二向导多核苷酸包含RNA。

实施方案21.如任何前述实施方案所述的组合物，其中基因组DNA包含第二核酸靶序列的PAM和第一核酸靶序列的PAM。

实施方案22.细胞，其包含：任何前述实施方案所述的组合物。

实施方案23.如实施方案22所述的细胞，其中细胞的基因组DNA包含第二核酸靶序列的PAM和第一核酸靶序列的PAM。

实施方案24.如实施方案22或23所述的细胞，其中细胞是原核细胞。

实施方案25.如实施方案22或23所述的细胞，其中细胞是真核细胞。

实施方案26.一种或多种核酸序列，其编码实施方案1-21中任一项所述的第一Cse2亚基蛋白、第一Cas5亚基蛋白、第一Cas6亚基蛋白、第一Cas7亚基蛋白、第一融合蛋白和第一向导多核苷酸。

实施方案27.一种或多种核酸序列，其编码实施方案1-21中任一项所述的第二Cse2亚基蛋白、第二Cas5亚基蛋白、第二Cas6亚基蛋白、第二Cas7亚基蛋白、第二融合蛋白和第二向导多核苷酸。

实施方案28.一种或多种表达盒，其包含实施方案26、实施方案27或实施方案26和实施方案27所述的一种或多种核酸序列。

实施方案29.一种或多种载体，其包含实施方案28所述的一种或多种表达盒。

实施方案30.结合包含第一核酸靶序列和第二核酸靶序列的多核苷酸的方法，所述方法包括：

提供实施方案1-21中任一项所述的组合物，以用于引入细胞或生化反应中；以及

将组合物引入细胞或生化反应中，从而促进第一改造的第一类I型CRISPR-Cas效应子复合体与第一核酸靶序列的接触，以及第二改造的第一类I型CRISPR-Cas效应子复合体与第二核酸靶序列的接触，导致第一改造的第一类I型CRISPR-Cas效应子复合体与第一核酸靶序列结合，以及第二改造的第一类I型CRISPR-Cas效应子复合体与多核苷酸中的第二核酸靶序列结合。

实施方案31.如实施方案30所述的方法，其中基因组DNA包含多核苷酸。

实施方案32.切割包含第一核酸靶序列和第二核酸靶序列的多核苷酸的方法，所述方法包括：

将组合物引入细胞或生化反应中，从而促进第一改造的第一类I型CRISPR-Cas效应子复合体与第一核酸靶序列接触，以及改造的第二第一类I型CRISPR-Cas效应子复合体与第二核酸靶序列接触，导致第一核酸靶序列被第一改造的第一类I型CRISPR-Cas效应子复合体切割，以及第二核酸靶序列被第二改造的第一类I型CRISPR-Cas效应子复合体切割。

实施方案33.如实施方案32所述的方法，其中基因组DNA包含多核苷酸。

实施方案34.试剂盒，其包含：实施方案1-21中任一项所述的组合物；和缓冲剂。

实施方案35.试剂盒，其包含：实施方案26、实施方案27或实施方案26和实施方案27所述的一种或多种核酸序列；和缓冲剂。

实施方案36.组合物，其包含：

改造的第一类I型CRISPR-Cas效应子复合体，其包含：

Cse2亚基蛋白、Cas5亚基蛋白、Cas6亚基蛋白和Cas7亚基蛋白，

包含Cas8亚基蛋白和第一FokI的第一融合蛋白，其中第一Cas8亚基蛋白的N端或第一Cas8亚基蛋白的C端通过第一连接子多肽分别与第一FokI的C端或N端共价连接，和

包含能够结合核酸靶序列的间隔区的向导多核苷酸；以及

第二融合蛋白，其包含含有dCas3*蛋白和第二FokI的改造的第一类I型CRISPR-Cas3融合蛋白，其中dCas3*蛋白的N端或dCas3*蛋白的C端通过第二连接子多肽分别与第二FokI的C端或N端共价连接，并且其中第一连接子多肽具有约10个氨基酸至约40个氨基酸的长度，效应子复合体包含，

实施方案37.如实施方案36所述的组合物，其中第一连接子多肽具有约5个氨基酸至约40个氨基酸的长度。

实施方案38.如实施方案36所述的组合物，其中第二连接子多肽具有约5个氨基酸至约40个氨基酸的长度。

实施方案39.细胞，其包含：实施方案36-38中任一项所述的组合物。

实施方案40.如实施方案39所述的细胞，其中细胞是原核细胞。

实施方案41.如实施方案39所述的细胞，其中细胞是真核细胞.

实施方案42.一种或多种核酸序列，其编码实施方案36-38中任一项所述的Cse2亚基蛋白、Cas5亚基蛋白、Cas6亚基蛋白、Cas7亚基蛋白、第一融合蛋白和向导多核苷酸。

实施方案43.一种或多种核酸序列，其编码实施方案36-38中任一项所述的第二融合蛋白。

实施方案44.一种或多种表达盒，其包含实施方案42、实施方案43或实施方案42和实施方案43的一种或多种核酸序列。

实施方案45.一种或多种载体，其包含实施方案44所述的一种或多种表达盒。

实施方案46.结合包含核酸靶序列的多核苷酸的方法，所述方法包括：

提供实施方案36-38中任一项所述的组合物，以用于引入细胞或生化反应中；以及

将组合物引入细胞或生化反应中，从而促进改造的第一类I型CRISPR-Cas效应子复合体与核酸靶序列的接触，以及第二融合蛋白与改造的第一类I型CRISPR-Cas效应子复合体的接触，导致改造的第一类I型CRISPR-Cas效应子复合体和第二融合蛋白与多核苷酸中的核酸靶序列结合。

实施方案47.如实施方案46所述的方法，其中基因组DNA包含多核苷酸。

实施方案48.切割包含核酸靶序列的多核苷酸的方法，所述方法包括：

将组合物引入细胞或生化反应中，从而促进第一改造的第一类I型CRISPR-Cas效应子复合体与第一核酸靶序列接触，以及改造的第二第一类I型CRISPR-Cas效应子复合体与第二核酸靶序列接触，

将组合物引入细胞或生化反应中，从而促进改造的第一类I型CRISPR-Cas效应子复合体与核酸靶序列接触，以及第二融合蛋白与改造的第一类I型CRISPR-Cas效应子复合体接触，导致核酸靶序列被改造的第一类I型CRISPR-Cas效应子复合体和第二融合蛋白切割。

实施方案49.如实施方案48所述的方法，其中基因组DNA包含多核苷酸。

实施方案50.试剂盒，其包含：实施方案36-38中任一项所述的组合物；和缓冲剂。

实施方案51.试剂盒，其包含实施方案42、实施方案43或实施方案42和实施方案43所述的一种或多种核酸序列；和缓冲剂。

实施方案52.相对于野生型I型CRISPRCas3蛋白(“wtCas3蛋白”)，能够减少沿DNA的移动的改造的I型CRISPRCas3突变体蛋白(“mCas3蛋白”)，所述mCas3蛋白包含：

与相应的wtCas3蛋白的约95％或更高的序列同一性，

核定位信号在氨基端、羧基端或氨基端和羧基端处共价连接，以及

能够下调解旋酶活性的一个或多个突变，其中改造的I型CRISPRCas3突变体蛋白保留了核酸酶活性；

其中DNA是包含含有核酸靶序列的靶区的双链DNA(dsDNA)；

其中当wtCas3蛋白与相应的Cascade核蛋白复合体(“Cascade NP复合体/wtCas3蛋白”)关联，并且Cascade NP复合体包含含有与核酸靶序列互补的间隔区的向导时，Cascade NP复合体/wtCas3蛋白与核酸靶序列的结合有利于DNA靶区中的切割，从而导致缺失(“wtCas3-缺失”)；并且

其中mCas3蛋白当其与Cascade NP复合体(“Cascade NP复合体/mCas3蛋白)关联并结合核酸靶序列时，有利于DNA靶区中的切割，从而导致相对于wtCas3-缺失的更短的缺失。

实施方案53.如实施方案53所述的mCas3蛋白，其中一个或多个突变是氨基酸的取代。

实施方案54.如任何前述实施方案所述的mCas3蛋白，其中一个或多个突变在解旋酶域的RecA1区域或RecA2区域中。

实施方案55.如任何前述实施方案所述的mCas3蛋白，其中一个或多个突变相对于wtCas3蛋白下调mCas3蛋白与单链DNA(ssDNA)的结合。

实施方案56.如任何前述实施方案所述的mCas3蛋白，其中，一个或多个突变下调三磷酸腺苷(ATP)被mCas3蛋白的水解，或下调ATP与mCas3的结合蛋白。

实施方案57.如任何前述实施方案所述的mCas3蛋白，其中mCas3蛋白的编码序列共价连接至Cascade NP复合体的Cas蛋白的编码序列的氨基端或羧基端。

实施方案58.如任何前述实施方案所述的mCas3蛋白，其中一个或多个突变相对于wtCas3蛋白下调mCas3蛋白与单链DNA(ssDNA)的结合。

实施方案59.如任何前述实施方案所述的mCas3蛋白，其中mCas3蛋白的编码序列共价连接至Cascade RNP复合体的Cas蛋白的编码序列的氨基端或羧基端。

实施方案60.如任何前述实施方案所述的mCas3蛋白，其中Cas蛋白选自：Cse2、Cas8蛋白、Cas7蛋白、Cas6蛋白和Cas5蛋白。

实施方案61.如任何前述实施方案所述的mCas3蛋白，其中wtCas3蛋白是大肠杆菌1类CRISPRCas3蛋白。

实施方案62.如实施方案61方案所述的mCas3蛋白，其中一个或多个突变选自D452H、A602V以及D452H和A602V。

实施方案63.如任何前述实施方案所述的mCas3蛋白，其中DNA在细胞中。

实施方案64.如实施方案63所述的mCas3蛋白，其中细胞是真核细胞。

实施方案65.如实施方案64所述的mCas3蛋白，其中真核细胞是哺乳动物细胞(例如，人类细胞)。

实施方案66.一种或多种多核苷酸，其编码实施方案52-65中任一项所述的mCas3蛋白。

实施方案67.质粒，其包含编码实施方案52-65中任一项所述的mCas3蛋白的可操作地连接至调控序列以用于在哺乳动物细胞中表达的多核苷酸序列。

实施方案68.一种或多种质粒，其包含编码实施方案52-65中任一项所述的mCas3蛋白的多核苷酸序列，以及编码相应的I型CRISPRCascade的蛋白组分的可操作地连接至调控序列以用于在哺乳动物细胞中表达的一种或多种多核苷酸。

实施方案69.如实施方案68所述的一种或多种质粒，还包括编码可操作地连接至调控序列以用于在哺乳动物细胞中表达的一种或多种向导多核苷酸的质粒。

实施方案70.I型CRISPRCascade核蛋白复合体，其包含实施方案52-65中任一项所述的mCas3蛋白。

实施方案71.如实施方案70所述的I型CRISPRCascade核蛋白复合体，其中核蛋白复合体是RNP。

尽管已经在本文中显示和描述了本发明的优选的实施方案，但是对于本领域技术人员而言显而易见的是，仅通过实例的方式来提供此类实施方案。从本说明书和实施例，本领域技术人员可以确定本发明的基本特征，并且在不脱离本发明的精神和范围的情况下，可以对本发明进行改变、替代、变更和修改，以使其适应各种用途和条件。这样的改变、替代、变更和修改也旨在落入本公开的范围内。

实例

在以下实施例中示出了本发明的方面。已经进行了努力以确保关于所使用的数字(例如，数量、浓度、变化百分比等)的准确性，但应考虑一些实验误差和偏差。除非另有指示，否则温度为摄氏度，且压力为大气压或接近大气压。应当理解，这些实施例仅通过举例说明的方式给出，且并不旨在限制本发明的范围。

实施例1

编码Cascade组分的多核苷酸的计算机设计

本实施例提供了使用来源于I-E型CRISPR-Cas系统的基因、蛋白和CRISPR序列设计编码Cascade的多核苷酸组分的描述。

表15示出了编码Cascade I-E型的5种蛋白，具体地来自大肠杆菌菌株K-12MG1655的基因的多核苷酸DNA序列，以及所得蛋白组分的氨基酸序列。基因组序列获自NCBI参考序列NZ_CP014225.1。在表15中，多核苷酸序列是从大肠杆菌gDNA扩增而来，或者是制造商生产的编码Cascade蛋白组分的具体地针对在大肠杆菌中表达以及针对在人类细胞中表达进行了密码子优化的多核苷酸。

另外，设计了包含Cascade蛋白的几种融合蛋白。表16示出了编码Cascade蛋白融合蛋白的基因的多核苷酸DNA序列，以及所得蛋白组分的氨基酸序列。在大多数情况下，表16中描述的融合蛋白包括连接融合构建体中的两个多肽序列的较短的三氨基酸连接子；该连接子通常包含甘氨酸-甘氨酸-丝氨酸(GGS)或甘氨酸-丝氨酸-甘氨酸(GSG)。用于每种特定融合蛋白中的准确三氨基酸连接子序列可以在表16中的全长氨基酸序列中找到。

当与其他Cascade蛋白共表达时，Cse2蛋白上的His6(六聚组氨酸；SEQ ID NO:418)和Strep-tag^TMII(GE Healthcare Bio-Sciences,Pittsburgh,PA)(SEQ ID NO:419)肽标签使得能够分别经由镍-氮川乙酸(Ni-NTA)树脂或Strep-Tactin^TM(IBA GMBH LLC,

Germany)树脂来纯化复合体。HRV3C(人类鼻病毒3C)蛋白酶识别序列(SEQ IDNO:420)被HRV3C蛋白酶切割，并且可用于从目标蛋白中去除N端融合物。Cas6、Cas7和/或Cas8蛋白上的NLS(核定位信号；SEQ ID NO:421肽标签使得能够在真核系统中进行核运输。Cas6或Cas7蛋白上的HA(血凝素；SEQ ID NO:422)肽标签使得能够通过利用抗HA抗体的Western印迹检测异源蛋白表达。MBP(麦芽糖结合蛋白；SEQ ID NO:423)肽融合是一种有利于纯化Cas8蛋白的增溶标签。TEV(烟草蚀纹病毒)蛋白酶识别序列(SEQ ID NO:424)被TEV蛋白酶切割，并且可用于从目标蛋白中去除N端融合物。FokI核酸酶域包含Guo,et al.(Guo,J.,et al.,J.Mol.Biol.400:96-107(2010))描述的Sharkey变体，两个单体FokI亚基联合形成同型二聚体，并在均二聚化后催化双链DNA切割。连接子序列(SEQ ID NO:425)被用于融合FokI核酸酶域至Cas8蛋白。

已经设计了不同长度和氨基酸组合物的另外的连接子序列，其将FokI核酸酶域连接至Cas8蛋白。这些氨基酸序列可以在表17中找到。

表18包含四个最小CRISPR阵列的多核苷酸DNA序列，当转录成前体crRNA并由Cascade的RNA核酸内切酶蛋白加工时，它们会生成在生化测定和细胞培养物基因编辑实验中用作靶向互补DNA序列的向导RNA的成熟的crRNAs。

最小的CRISPR阵列包含两个重复序列(带下划线的，小写字母)，位于间隔区序列的两侧，其代表crRNA的向导部分。由Cascade核酸内切酶蛋白进行RNA加工会在5'和3'端产生具有重复序列的crRNA，位于向导序列的两侧。CRISPR阵列也可以通过由核酸内切酶Cascade蛋白进行的RNA加工扩展为包括位于两个间隔区序列两侧的三个重复序列(带下划线)，其代表两个不同crRNAs的向导部分。如果需要，可以进一步扩展阵列以包括另外的间隔区序列。

实施例2

用于产生Cascade效应子复合体的细菌表达载体的设计

本实施例描述了编码Cascade相关蛋白，以及包含如实施例1所述的向导序列的最小CRISPR阵列的细菌表达载体的设计。描述了与编码最小CRISPR阵列的质粒一起使用的Cascade亚基蛋白表达系统的构建。

构建了单质粒Cascade蛋白表达系统，以在大肠杆菌中表达称为CasBCDE复合体(其包含Cse2、Cas7、Cas5和Cas6蛋白，但不包含Cas8蛋白)的Cascade复合体的蛋白质，或在大肠杆菌中表达整个Cascade Cascade复合体的蛋白质。单个质粒系统在单个表达质粒上包含cse2–cas7–cas5–cas6操纵子，或整个cas8–cse2–cas7–cas5–cas6操纵子。Cas8蛋白可以从其自身的表达质粒表达，用于生化实验，其中将其与CasBCDE复合体混合在一起以重构Cascade。

使用了用于表达载体构建的起始质粒(参见Brouns,S.,et al.,Science 321:960–964(2008))。包含Cas操纵子的单质粒Cascade蛋白表达系统按如下组装。将cas基因的编码序列按顺序cse2–cas7–cas5–cas6(CasBCDE复合体或cas8–cse2–cas7–cas5–cas6(完整Cascade复合体)排列，并通过野生型细菌基因布置对应的序列(参见NCBI参考序列NZ_CP014225.1)分离。

为了附接编码亲和标签(His6或

II,IBA GMBH LLC,

Germany)的多核苷酸序列，将相应的编码序列插入cas8基因的3'端和cse2基因的5'端的连接处；这两个开放阅读框在野生型gDNA序列中重叠。

为了将编码N端NLS和/或NLS-HA标签的多核苷酸序列附接到cas6基因的5'端，在cas6和上游cas5基因之间引入了另外的间隔，因为这些开放阅读框在野生型gDNA序列中重叠，使得cas6基因的Shine-Dalgarno序列位于cas5基因的3'部分中。在新的NLS-Cas6或NLS-HA-Cas6开放阅读框的上游插入了一个新的Shine-Dalgarno序列，以提高翻译效率。

为了将编码C端NLS和/或HA-NLS标签的多核苷酸序列附接到cas7基因的3'端，在cas7和下游cas5基因之间引入了另外的间隔，因为这些开放阅读框在野生型gDNA序列中非常接近，使得cas5基因的Shine-Dalgarno序列位于cas7基因的3'部分中。在新的Cas7-NLS或Cas7-HA-NLS开放阅读框的下游插入了一个新的Shine-Dalgarno序列，以提高cas5基因的翻译效率。

为了将编码N端NLS-FokI-连接子融合物的多核苷酸序列附接到Cas8蛋白上，在cas8基因的5’端插入了相应的编码序列。

将cse2–cas7–cas5–cas6和cas8–cse2–cas7–cas5–cas6操纵子克隆到pCDF(MilliporeSigma,Hayward,CA)载体骨架中，由于aadA基因的存在其赋予了壮观霉素抗性。操纵子的转录由T7启动子驱动，并受Lac操纵子控制；该载体还编码LacI阻抑剂。T7终止子被克隆到cse2–cas7–cas5–cas6或cas8–cse2–cas7–cas5–cas6操纵子的下游。载体包含CDF复制起点。

为了表达Cas8或FokI-Cas8融合蛋白，将cas8基因克隆到pET(MilliporeSigma,Hayward,CA)家族载体骨架中，由于kanR基因的存在其赋予了卡那霉素抗性。操纵子的转录由T7启动子(PT7)驱动，并受Lac操纵子(lacO)的控制；该载体还编码LacI阻抑剂(lacI基因)。T7终止子被克隆到cas8基因的下游。该载体包含ColE1复制起点。

图23A、图23B、图23C、图23D和图23E示出了cas8、fokI–cas8、cse2–cas7–cas5–cas6操纵子、cas8–cse2–cas7–cas5–cas6操纵子和fokI-cas8–cse2–cas7–cas5–cas6操纵子的过表达载体的示意图。图23A、图23B、图23C、图23D和图23E中的名称在本实施例(以及实施例1)中进行了描述，且如下所示：PT7(T7启动子)、lacO(Lac操纵子)、His6(六组氨酸)、MBP(麦芽糖结合蛋白)、

II(IBA GMBH LLC,

Germany)HRV3C(人类鼻病毒3C)蛋白酶识别序列、TEV(烟草蚀纹病毒)蛋白酶识别序列、NLS(核定位信号)、kanR(卡那霉素抗性基因)、lacI(LacI阻抑剂基因)、colE1 ori(复制起点)、CDF ori(CloDF13复制起点)、FokI核酸酶域(Sharkey变体)和aadA(编码氨基糖苷抗性蛋白的基因)。

表19提供了编码Cas8蛋白、CasBCDE复合体的4种蛋白(cse2–cas7–cas5–cas6操纵子)和Cascade复合体的所有5种蛋白(cas8–cse2–cas7–cas5–cas6操纵子)的细菌表达质粒的序列。多核苷酸序列在Cas8蛋白上提供有或没有N端FokI融合。

为了纯化包含crRNA的CasBCDE复合体和Cascade复合体，将编码cse2–cas7–cas5–cas6操纵子或cas8–cse2–cas7–cas5–cas6操纵子的蛋白质表达载体与包含最小CRISPR阵列的载体组合。

CRISPR克隆被克隆到pACYC-Duet1载体骨架中，该载体由于camR基因而赋予了氯霉素抗性。阵列的转录由T7启动子驱动，并受Lac操纵子(lacO)的控制；该载体还编码LacI阻抑剂。T7终止子被克隆到CRISPR阵列的下游。该载体包含p15A复制起点。

图24包含表达载体的示意图，该表达载体包含具有2个重复(图24，“重复区”)和1个间隔区(图24，“间隔区”)的CRISPR阵列。如本文所述，可以扩展该阵列。图24中的名称在本实施例(以及实施例1)中有描述，且如下所示：PT7(T7启动子)、lacO(Lac操纵子)、lacI(LacI阻抑剂基因)、p15A ori(复制起点)和camR(氯霉素抗性基因)。

表20提供了编码最小CRISPR阵列的实例的细菌表达质粒的序列。

实施例3

用于在哺乳动物细胞中产生Cascade效应子复合体的真核表达载体的设计

本实施例描述了编码Cascade相关蛋白，以及包含如实施例1所述的组分序列的最小CRISPR阵列的真核表达质粒载体的设计。

A.表达每种Cascade蛋白和最小CRISPR阵列的单独的质粒

可以通过在由人类巨细胞病毒(CMV)即刻早期启动子/增强子驱动且编码由人U6启动子驱动的单独的表达载体上的crRNA的单独的表达载体上，编码每种蛋白组分来在哺乳动物细胞中表达Cascade蛋白。

每种表达质粒的起始质粒是pcDNA3.1(Thermo Scientific,Wilmington,DE)的衍生物。针对在人类细胞中表达进行了密码子优化的(参见实施例1)Cascade蛋白的编码序列，被插入到CMV启动子下游和牛生长激素(bGH)多腺苷酸化信号上游的载体中。将编码N端NLS和3x-FLAG表位标签的cse2基因在5’端融合至多核苷酸序列。将编码N端NLS的cas5基因在5’端融合至多核苷酸序列。将编码N端NLS和HA表位标签的cas6基因在5’端融合至多核苷酸序列。将编码N端NLS和Myc表位标签的cas7基因在5’端融合至多核苷酸序列。将编码N端NLS的cas8基因在5’端融合至多核苷酸序列；在另一个实施方案中，将编码N端NLS、HA表位标签和FokI核酸酶域的cas8基因在5’端融合至多核苷酸序列。

将每个基因或基因融合物克隆到pcDNA3.1衍生载体骨架中，其由于ampR基因的存在而赋予了氨苄青霉素抗性。由于neoR基因的存在，该载体还编码新霉素抗性，它位于SV40早期启动子(PSV40)和起点(SV40 ori)的下游，以及SV40早期聚腺苷酸化信号(SV40 pA)的上游。除了人CMV即刻早期启动子/增强子(PCMV)和bGH(牛生长激素)多聚腺苷酸化信号外，载体还包含目标基因上游的T7启动子，允许进行mRNA的体外转录。载体包含f1复制起点以及ColE1复制起点。

图25包含编码FokI-Cas8融合蛋白的哺乳动物表达载体的示意图。图25中的名称在本实施例(以及实施例1)中进行了描述，且如下所示：人CMV即刻早期启动子/增强子(PCMV)、NLS(核定位信号)、FokI(FokI核酸酶域(Sharkey变体))、Cas8蛋白编码序列、bGHpA(牛生长激素一个聚腺苷酸信号)、f1 ori(f1噬菌体复制起点)、PSV40(SV40早期启动子)、SV40 ori(SV40起点)、neoR(新霉素抗性基因)、SV40 pA(SV40早期聚腺苷酸化信号)、colE1 ori(复制起点)和ampR(氨苄青霉素抗性基因)。类似地设计了编码其他Cascade蛋白的载体。

表21提供了编码Cse2、Cas5、Cas6、Cas7、Cas8和FokI-Cas8中的每种的单个哺乳动物的表达载体的序列。

CRISPRRNA用最小CRISPR序列编码，该序列包含位于两个间隔区序列两侧的三个重复区。可以利用最小阵列中的最外侧重复区两侧的另外的序列设计产生CRISPRRNA的构建体。通过Cascade复合体的RNA加工蛋白(Cas6蛋白)使得能够对前体CRISPRRNA进行处理，该蛋白可以在单独的质粒上表达。

CRISPR阵列被克隆到上述相同的pcDNA3.1衍生载体骨架中，除了人CMV启动子被人U6启动子(PU6)取代，并且bGH聚腺苷酸化信号被多聚T终止信号取代之外。图35中示出了此类CRISPR阵列的实例。在图中，hU6启动子(图35，显示为点状区域)与第一重复序列(空白方块)相邻，第一重复序列与第一间隔区序列(图35，间隔区1，斜线)相邻，第一间隔区序列与第二重复序列(图35，灰色方形)相邻，第二重复序列与第二间隔区序列(图35，间隔区2)相邻，第二间隔区序列与第三重复序列(图35，黑色方形)相邻。在图35中，示出了包含成对的gRNA向导的区域(图35，成对的gRNAs)。

图26包含编码靶向TRAC基因的代表性CRISPR阵列的真核表达载体的示意图。在本实施例(以及实施例1)中描述了图26中的名称，且如下所示：PU6(人U6启动子)、重复区(CRISPRRNA重复区)、TRAC间隔区-1(靶向TRAC基因的第一间隔区)、TRAC间隔区-2(靶向TRAC基因的第二间隔区)、多聚T(多聚T终止信号)、f1 ori(f1噬菌体复制起点)、PSV40(SV40早期启动子)、SV40 ori(SV40起点)、neoR(新霉素抗性基因)、SV40 pA(SV40早期聚腺苷酸信号)、colE1 ori(复制起点)和ampR(氨苄青霉素抗性基因)。

表22提供了代表性哺乳动物的编码靶向TRAC基因的CRISPR阵列的表达载体的序列；靶向TRAC基因中的匹配性DNA序列的间隔区序列可以在表18中找到。

B.其中从单个启动子表达多种Cascade蛋白编码序列的Cascade蛋白表达系统

为了从更少的表达载体表达Cascade复合体的组分，构建了多顺反子的表达载体。在每一个上，单个CMV启动子同时驱动多个编码序列的表达，这些编码序列被2A病毒肽序列隔开。一点褐翅蛾(Thosea asigna)病毒2A肽序列诱导核糖体跳跃(参见，例如Liu,Z.,etal.,Sci.Rep.7:2193(2017))，从而使多个蛋白质编码基因能够串联在单个多顺反子的构建体中。

多顺反子的表达质粒的起始质粒是上述pcDNA3.1相同的衍生物，包含CMV启动子和bGH聚腺苷酸化信号。将针对在人类细胞中表达进行了密码子优化的(参见实施例1)的Cascade蛋白的编码序列以cas7-cse2-cas5-cas6-cas8的顺序连接，其中编码一点褐翅蛾病毒2A(T2A)肽的多核苷酸序列插入在每对基因之间。另外，在每个Cascade蛋白基因的5'端附接了编码NLS标签的多核苷酸序列，并且编码FokI核酸酶域的多核苷酸序列被附接至cas8基因的5’端，通过30个氨基酸连接子序列连接。最终的构建体具有以下顺序的元件：NLS-cas7-T2A-NLS-cse2-T2A-NLS-cas5-T2A-NLS-cas6-T2A-NLS-fokI-连接子-cas8。

图27包含编码所有Cascade蛋白的示例性的多顺反子的哺乳动物表达载体的示意图。在本实施例(以及实施例1)中描述了图27中的名称，且如下所示：人CMV即刻早期启动子/增强子(PCMV)、NLS(核定位信号)、T2A(编码一点褐翅蛾病毒2A肽的多核苷酸序列)、Cas7、Cse2、Cas5和Cas6蛋白的编码序列、fokI(FokI核酸酶域(Sharkey变体)连接子序列、Cas8蛋白的编码序列、bGH pA(牛生长激素聚腺苷酸化信号)、f1 ori(f1噬菌体复制起点)、PSV40(SV40早期启动子)、SV40 ori(SV40起点)、neoR(新霉素抗性基因)、SV40 pA(SV40早期聚腺苷酸化信号)、colE1 ori(复制起点)、ampR(氨苄青霉素抗性基因)和MluI限制位点。

表23提供了编码所有Cascade蛋白的示例性的多顺反子的哺乳动物表达载体的序列。该载体可以与编码上述CRISPRRNA的哺乳动物的表达载体联合，以在哺乳动物细胞中产生功能性的Cascade复合体。

C.单质粒表达系统

构建了单质粒Cascade表达系统，以在人类细胞中表达完整的Cascade复合体。质粒在单个质粒上编码整个cas8–cse2–cas7–cas5-cas6操纵子和最小CRISPR阵列。通过将最小CRISPR阵列连同上游人U6启动子和下游多聚T终止信号一起插入MluI限制性位点，从多顺反子的蛋白表达载体(如表23和图27中所述)构建该质粒。

表24提供了用于表达所有5种Cascade蛋白以及crRNA以促进在人类细胞中形成Cascade复合体的单质粒的序列。

还设计了用于在大肠杆菌和哺乳动物细胞中表达Cas3蛋白(SEQ ID NO:21；单体Cas3核酸酶/解旋酶大肠杆菌K-12亚菌株MG1655)的质粒。

表25提供了这些质粒的构建体和序列。

实施例4

将编码Cascade组分的多核苷酸引入细菌生产菌株中

本实施例描述了使用大肠杆菌表达系统在细菌细胞中引入和表达Cas8亚基蛋白编码序列，以及改造的I型CRISPR-Cas效应子复合体的组分的编码序列。

A.Cas8蛋白的表达

从包含用于来自T7启动子的His6-MBP-TEV-Cas8的IPTG可诱导的表达的操纵子的质粒(实施例2，SEQ ID NO:438，表19，图23A)表达大肠杆菌I-E型Cas8蛋白。表达质粒赋予了对卡那霉素的抗性。

为了表达Cas8蛋白，用表达质粒转化了大肠杆菌细胞。简言之，将微量离心管中的100μL等分的化学感受态的大肠杆菌细胞(大肠杆菌BL21 StarTM(Thermo FisherScientific,Waltham,MA)细胞)在冰上融化10分钟。将35ng的质粒DNA添加至解冻的细胞中，并将细胞与DNA一起在冰上孵育8分钟。通过将微量离心管置于42℃水浴中30秒，然后立即将管置于冰中2分钟来进行热激。将900μL的2xYT培养基添加至微量离心管中，并将微量离心管置于37℃的管旋转器中1小时。最后，将100μL的回收细胞接种在LB固体卡那霉素(50μg/mL)上，并在37℃下孵育过夜。

从在抗生素选择板上生长的集落中选出单个菌落，并接种到10mL补充有卡那霉素(50μg/mL)的2xYT培养基中。将培养物在37℃下培养过夜，同时在定轨振荡器中以200RPMs的速度振荡。将6mL过夜培养物转移至装有1L补充有卡那霉素(50μg/mL)的2xYT培养基的2L带挡板的烧瓶中。将1L培养物在37℃下培养，同时在定轨振荡器上以200RPM的速度振荡，直到600nm下的光密度为0.56。

然后通过添加IPTG至终浓度为1mM来诱导表达。将诱导的培养物在16℃下培养过夜，同时在定轨振荡器中以200RPM的速度振荡。通过在4℃下以4,000RCF离心15分钟来收获细胞。将细胞沉淀重悬于15mL裂解缓冲液中，该裂解缓冲液由50mM Tris pH 7.5、100mMNaCl、5％甘油和1mM TCEP组成，其中每50mL裂解缓冲液中补充有1片CompleteTM(Roche,Basel,Switzerland)蛋白酶抑制剂片。将重悬的细胞转移至50mL锥形管中，以立即进行下游处理。纯化Cas8蛋白，并基本上按以下针对FokI-FokI-Cas8融合蛋白所述(实施例5C)对纯化的蛋白进行定征。

B.Cascade RNP复合体组分的表达

使用双质粒系统，在大肠杆菌细胞中共表达5种大肠杆菌Cascade蛋白和RNA向导的完整集合，以产生Cascade RNP复合体。一个质粒(实施例2，SEQ ID NO:441，表19，图23D)包含来自T7启动子的用于Cse2、Cas5、Cas6、Cas7和Cas8蛋白的IPTG可诱导的表达的操纵子。包括His6亲和标签作为与Cse2的N端的翻译融合(实施例1，SEQ ID NO:392，表16)。第二质粒编码IPTG可诱导表达的J3向导(实施例2，SEQ ID NO:444，表20，图24)。Cascade蛋白表达质粒赋予了壮观霉素抗性，并且Cascade RNA向导表达质粒赋予了氯霉素抗性。

为了在同一细胞中共表达Cascade蛋白和RNA组分，同时用两种质粒转化了大肠杆菌细胞。将于微型离心管中的100μL等分的化学感受态大肠杆菌细胞(大肠杆菌，BL21StarTM(DE3)(Thermo Fisher Scientific,Waltham,MA))在冰上解冻10分钟。将35ng的每种质粒加入解冻的细胞中，并将细胞与DNA一起在冰上孵育8分钟。通过将微量离心管置于42℃的水浴中30秒，然后立即将微量离心管置于冰中2分钟来进行热激。将900μL的2xYT培养基添加到微量离心管中，并将微量离心管置于37℃的管旋转器中1小时。最后，将100μL回收的细胞接种到含有氯霉素(34μg/mL)和壮观霉素(50μg/mL)的LB固体培养基上，并在37℃下孵育过夜。

从生长在抗生素选择板上的集落中选出单个集落，并接种到10mL补充了氯霉素(34μg/mL)和壮观霉素(100μg/mL)的2xYT培养基中。将培养物在37℃下培养过夜，同时在定轨振荡器中以200RPMs的速度振荡。将6mL过夜培养物转移至装有补充了氯霉素(34μg/mL)和壮观霉素(100μg/mL)的1L 2xYT培养基的2L带挡板的烧瓶中。将1L培养物在37℃下培养，同时在轨道振荡器中以200RPM的速度振荡，直到在600nm处的光密度为0.56。

通过添加IPTG至终浓度1mM来诱导两种质粒的表达。将诱导的培养物在16℃下培养过夜，同时在定轨振荡器中以200RPM的速度振荡。通过在4℃下以4,000RCF离心15分钟来收获细胞。将细胞沉淀重悬于15mL裂解缓冲液中，该裂解缓冲液由50mM Tris pH 7.5、100mM NaCl、5％甘油和1mM TCEP组成，其中每50mL的裂解缓冲液中补充了1片CompleteTM(Roche,Basel,Switzerland)蛋白酶抑制剂片。将重悬的细胞转移至50mL锥形管中，以立即进行下游处理。按如下所述纯化和定征Cascade RNP复合体。

实施例5

Cascade组分和Cascade RNP复合体的纯化

本实施例描述了纯化通过按实施例4B中所述在细菌中过表达产生的大肠杆菌I-E型Cascade RNP复合体的方法。该方法使用固定的金属亲和色谱，然后进行尺寸排阻色谱(SEC)。本实施例还描述了用于评估纯化的Cascade RNP产品质量的方法。另外，本实施例描述了Cascade组分的纯化和定征。

A.Cas8、Cas7、Cas6、Cas5和Cse2 Cascade RNP复合体的纯化

按实施例4B中所述产生大肠杆菌I-E型Cascade RNP复合体。使用固定的金属亲和色谱法捕获Cascade复合体。简言之，将按实施例4B所述产生的重悬细胞沉淀在冰上解冻，并通过另外15mL的裂解缓冲液来使体积达到35mL，该裂解缓冲液由50mM Tris pH 7.5、100mM NaCl、5％甘油和1mM TCEP组成，其中每50mL裂解缓冲液中补充有1片CompleteTM(Roche,Basel,Switzerland)蛋白酶抑制剂片。

将50mL锥形管置于冰水浴中，并使用带有1/2英寸尖端的Q500超声仪(Qsonica,Newtown,CT)通过两轮超声处理裂解细胞。每一轮超声处理由2.5分钟的处理周期组成，重复周期为50％振幅下超声处理10秒，然后休息20秒。在几轮超声处理之间，允许试管在冰水浴中冷却1分钟。通过在4℃下以48,384RCF离心30分钟来澄清裂解物。然后将澄清的上清液添加到HispurTM Ni-NTA(Thermo Fisher Scientific,Waltham,MA)树脂中，该树脂已用由50mM Tris pH 7.5、100mM NaCl、10mM咪唑、5％甘油和1mM TCEP组成的Ni洗涤缓冲液预平衡。每1L大肠杆菌表达培养物使用1.5mL床体积的镍亲和树脂。在轻微混合下于4℃孵育1小时后，通过在4℃下以500RCF离心2分钟来沉淀树脂。吸出上清液，并用5倍床体积的Ni洗涤缓冲液洗涤树脂5次。每次洗涤后，将树脂在4℃下于500RCF下沉淀2分钟，并通过抽吸除去上清液。最后，通过添加五倍床体积的Ni洗脱缓冲液洗脱结合的蛋白质(包括Cascade RNP复合体)，Ni缓冲液由50mM Tris pH 7.5、100mM NaCl、300mM咪唑、5％甘油和1mM三(2-羧乙基)膦(TCEP)组成。在4℃下以500RCF离心2分钟后，将镍亲和洗脱液吸入干净的50mL锥形管中。

将镍亲和洗脱液通过尺寸排阻色谱法(SEC)进一步纯化。使用具有-50

(MilliporeSigma,Hayward,CA)膜的

(MilliporeSigma,Billerica,MA)超滤旋转浓缩器，在12℃下通过超滤将镍亲和洗脱液浓缩至0.5mL的最终体积。使用0.22μM Ultrafree-MC GV(MilliporeSigma,Hayward,CA)离心过滤器过滤浓缩的样品，然后通过在用由50mM Tris pH 7.5、500mM NaCl、5％甘油、0.1mM EDTA和1mM TCEP的SEC缓冲液平衡的HiPrepTM 16/60

S-300(GE Healthcare,Uppsala,Sweden)柱上以0.5mL/分钟的流速于4℃下分离来进一步纯化。用SEC缓冲液洗脱蛋白质，并收集1ml馏分。如通过UV 280判断的，最早的洗脱峰被认为是高分子量的聚集物质，并且相应的馏分被丢弃。通过考马斯染色的SDS-PAGE分析随后的洗脱馏分。每种适当形成的复合体均包含一个分子的Cas8、六个分子的Cas7、一个分子的Cas6和Cas5中每种，以及两个分子的Cse2。合并在SDS-PAGE凝胶上观察时具有近似Cascade蛋白的预期化学计量的洗脱馏分。通过分光光度法对合并的馏分进行分析，以确认它们包含大量的核酸组分，如通过在260nm处的吸光度大于在280nm处的吸光度所证明的。

通过用具有

(MilliporeSigma,Hayward,CA)膜的

(MilliporeSigma,Hayward,CA)旋转浓缩器将合并的样品浓缩至100uL然后用储存缓冲液稀释50倍，将合并的样品交换至由50mM Tris pH 7.5、100mM NaCl、5％甘油、0.1mM EDTA和1mM TCEP组成的存储缓冲液中。最后，使用相同的超滤装置将样品浓缩至10mg/mL，并保存在-80℃下。

用分光光度法分析最终纯化的产物，以确定Cascade RNP复合体的最终浓度，并确认存在核酸组分，如通过260nm处的吸光度大于280nM处的吸光度所证明的。通过将280nm处的吸光度除以路径长度为1cm的完整复合体的0.1％溶液的计算吸光度来确定Cascade RNP复合体的浓度。纯化的复合体的0.1％溶液的预测吸光度为2.03cm^-1，并通过将复合体中每种分子在280nm下的计算消光系数(916940M^-1cm^-1)的总和除以复合体中每种分子的分子量的总和(450832g/mole)来计算。

另外，通过SDS-PAGE用考马斯亮蓝染色分析最终产物以确认每种蛋白质组分均以大约正确的化学计量存在，并评估了污染蛋白的存在。将SDS-PAGE凝胶用考马斯InstantBlueTM(Expedeon,San Diego,CA)染色剂染色。使用Gel docTM EZ(Bio-Rad,Hercules,CA)成像仪对凝胶成像，并使用ImageLab(Bio-Rad,Hercules,CA)软件注释。

B.包含Cas7、Cas6、Cas5和Cse2蛋白的Cascade复合体的纯化

纯化了由蛋白组分Cas7、Cas6、Cas5和Cse2构成的Cascade复合体。基本上按实施例4B中所述从第一质粒(实施例2，图24)表达L3向导RNA(实施例2，SEQ ID NO:445，表20)。基本上按实施例4B中所述从第二质粒(实施例2，SEQ ID NO:440，表19、图23C)表达Cascade蛋白。

使用亲和色谱法捕获复合体。将重悬的细胞沉淀在冰上解冻。在50mL锥形管中，用另外的15mL裂解缓冲液调节体积升至35mL，该裂解缓冲液由50mM Tris pH 7.5、100mMNaCl、5％甘油、1mM TCEP组成，其中每50mL裂解缓冲液中补充有1片CompleteTM(Roche,Basel,Switzerland)蛋白酶抑制剂片。将50mL锥形管置于冰水浴中，并使用具有1/2英寸尖端的Q500超声仪(Qsonica,Newtown,CT)通过六轮超声处理裂解细胞。每一轮超声处理由一个1分钟的处理周期和重复循环的90％振幅下3轮超声处理然后休息9秒组成。在数轮超声处理之间，允许试管在冰水浴中冷却一分钟。通过在4℃下以48,384RCF离心30分钟来澄清裂解液。将澄清的上清液通过加入

(IBA GMBH LLC,

Germany)树脂来进行亲和纯化，该树脂已经用由50mM Tris pH 7.5、100mMNaCl、1mM EDTA、5％甘油和1mM TCEP组成的Strep-wash缓冲液预平衡。每1L大肠杆菌表达培养物使用0.55mL床体积的亲和树脂。在4℃轻微混合下孵育一小时后，将样品倒入30mL一次性重力流柱(Bio-Rad,Hercules,CA)上，允许未结合的物质流过柱子。用五倍床体积的Strep洗涤缓冲液洗涤树脂五次。最后，将结合的蛋白用两次连续添加的五倍床体积的Strep洗脱缓冲液洗脱，该缓冲液由50mM Tris pH 7.5、100mM NaCl、2.5mM脱硫生物素、5％甘油、1mM EDTA和1mM TCEP组成。

将亲和洗脱液通过SEC进一步纯化。通过使用具有

(MilliporeSigma,Hayward,CA)膜的

(MilliporeSigma,Hayward,CA)旋转浓缩器在12℃下超滤，将亲和洗脱液浓缩至550uL的最终体积。使用0.22μm 13mm

(Santa Cruz Biotechnology,Dallas,TX)PVDF注射器过滤器过滤浓缩的样品，然后通过在4℃下以0.4mL/分钟的流速在用由50mM Tris pH 7.5、500mM NaCl、5％甘油、0.1mM EDTA和1mM TCEP组成的SEC缓冲液平衡的HiPrepTM 16/60

S-300(GE Healthcare,Uppsala,Sweden)柱上分离来进一步纯化。用SEC缓冲液洗脱蛋白，并收集0.75ml馏分。如通过UV 280判断的，最早的洗脱峰被认为是高分子量的聚集物质，并且相应的馏分被丢弃。将与第二峰对应的馏分(第一个UV 280峰背面上的一个肩峰)合并。

通过用具有

(MilliporeSigma,Hayward,CA)膜的

(MilliporeSigma,Hayward,CA)旋转浓缩器浓缩低至200uL然后用存储缓冲液稀释75倍，来将合并的样品交换至由50mM Tris pH 7.5、100mM NaCl、5％甘油、0.1mM EDTA和1mM TCEP组成的存储缓冲液中。将样品第二次浓缩至700uL，然后再次用存储缓冲液稀释20倍。最后，在相同的超滤装置中将样品浓缩至4.7mg/mL，并保存在-80℃下。

用分光光度法分析最终纯化的产物，以确定Cascade RNP复合体的最终浓度，并确认存在核酸组分，如通过260nm处的吸光度大于280nM处的吸光度所证明的。通过将280nm处的吸光度除以路径长度为1cm的完整复合体的0.1％溶液的计算吸光度来确定Cascade RNP复合体的浓度。纯化后的复合体的0.1％溶液的预测吸光度为2.18cm^-1，并且通过将复合体中每种分子在280nm处的计算消光系数的总和(762240M^-1cm^-1)除以复合体中每种分子的分子量的总和(348952.07g/摩尔)来进行计算。

另外，通过SDS-PAGE用考马斯亮兰染色分析最终产物，以确认每种Cascade蛋白均以大约正确的化学计量存在，并评估污染蛋白的存在。将SDS-PAGE凝胶用考马斯InstantBlueTM(Expedeon,San Diego,CA)染色剂染色。使用Gel docTM EZ(Bio-Rad,Hercules,CA)成像仪对凝胶成像，并使用ImageLab(Bio-Rad,Hercules,CA)软件注释。每种适当形成的复合体均包含六个分子的Cas7、一个分子的Cas6和Cas5中的每种，以及两个分子的Cse2。

C.FokI-Cas8融合蛋白的纯化

本文中描述了使用固定的金属亲和色谱、阳离子交换层析(CIEX)和最终的尺寸排阻色谱(SEC)，从细菌过表达的沉淀物中纯化包含融合至大肠杆菌I-E型Cas8蛋白的FokI核酸酶的融合蛋白的方法。

在实施例1中描述了包括连接子序列的大肠杆菌I-E型FokI-Cas8融合蛋白(SEQID NO:413，表16)。在实施例2中描述了表达质粒(SEQ ID NO:439，表19，图23B)。基本上按实施例4A中所述产生包含融合蛋白的细胞。Cas8融合蛋白包含N端His6标签、麦芽糖结合蛋白域、TEV切割位点、FokI核酸酶域和30个氨基酸的连接子。使用固定的金属亲和色谱法捕获蛋白质。将含有重悬细胞团的50mL圆锥管在冰上解冻。然后将试管置于冰水浴中，并使用具有1/4英寸尖端的Q500超声仪(Qsonica,Newtown,CT)，通过以重复循环的以40％振幅下超声处理10秒然后休息20秒，超声处理三分钟的处理周期来裂解细胞。通过在4℃以30,970RCF离心30分钟使裂解液澄清。然后将澄清的上清液添加到HispurTM Ni-NTA(ThermoFisher Scientific,Waltham,MA)树脂中，该树脂已用由50mM Tris pH 7.5、100mM NaCl、10mM咪唑、5％甘油和1mM TCEP组成的Ni洗涤缓冲液预平衡。将2mL床体积的镍亲和树脂用于1L大肠杆菌表达培养物。在4℃下于轻微混合下孵育一小时后，将样品倒入30mL一次性重力流柱(Bio-Rad,Hercules,CA)上，允许未结合的物质流过色柱子。用五倍床体积的Ni洗涤缓冲液洗涤树脂五次。最后，用五倍床体积的Ni洗脱缓冲液洗脱结合的蛋白质，该缓冲液由50mM Tris pH 7.5、100mM NaCl、300mM咪唑、5％甘油和1mM TCEP组成。

用TEV蛋白酶处理镍亲和洗脱液以除去亲和标签。将TEV蛋白酶以1:25(w/w)的比例加入洗脱液中。使用12mL Slid-A-LyzerTM、10K MWCO(Thermo Fisher Scientific,Waltham,MA)透析盒，将包括TEV在内的样品对Ni洗涤缓冲液透析过夜。

通过Ni亲和色谱从透析样品中除去TEV蛋白酶和裂解的His6-MBP片段。将透析的样品倒至用镍洗涤缓冲液平衡过的干净的HispurTM Ni-NTA(Thermo Fisher Scientific,Waltham,MA)树脂柱上。然后用1倍柱体积的Ni-NTA洗涤缓冲液洗涤树脂。使用具有

(MilliporeSigma,Hayward,CA)膜的

(MilliporeSigma,Hayward,CA)旋转浓缩器，将流过液和洗涤液合并、浓缩，并交换到存储缓冲液(50mM TrispH 7.5、500mM NaCl、5％甘油和1mM TCEP)中。然后将该样品在-80C下冷冻保存。

将样品解冻，并通过阳离子交换色谱法(CIEX)进一步纯化。将样品在冰上解冻，并用由50mM Tris pH 7.5、5％甘油和1mM TCEP组成的冷的CIEX_A缓冲液将其稀释10倍，从0.475mL稀释至4.75mL，导致50mM NaCl的最终浓度。使用10mL毛细环将样品加载到用包含CIEX_A缓冲液和5％CIEX_B缓冲液(50mM Tris pH 7.5、1M NaCl、5％甘油和1mM TCEP)的缓冲液平衡的1mL HitrapTM SP HP(GE Healthcare,Uppsala,Sweden)柱上。整个分离过程中的流速为0.75mL/min。用15mL的5％CIEX_B缓冲液将环倒空到柱上。用另外的2mL 5％CIEX_B缓冲液洗去未结合的样品。在将结合的蛋白用8mL线性梯度从5％至65％的CIEX_B缓冲液洗脱时，收集500μL馏分。有两个主要的UV280洗脱峰。合并了对应于这两个峰中的第一个的四种馏分。总合并体积为2mL。

将合并的CIEX馏分通过SEC进一步纯化。通过使用具有

(MilliporeSigma,Hayward,CA)膜的

(MilliporeSigma,Hayward,CA)旋转浓缩器，在12℃通过超滤将合并的CIEX馏分浓缩至0.3mL的最终体积。使用0.22μm Ultrafree-MC GV离心(MilliporeSigma,Hayward,CA)旋转过滤器过滤浓缩的样品(，并通过在4℃下以0.6mL/分钟的流速在用Cas8 SEC缓冲液(50mM Tris pH 7.5、200mM NaCl、5％甘油和1mMTCEP平衡过的10/300SuperdexTM 200GL Increase(GE Healthcare,Uppsala,Sweden)柱上分离进一步纯化)。用Cas8 SEC缓冲液洗脱蛋白，并收集0.5ml馏分。如通过UV 280判断的，最早的洗脱峰被认为是高分子量的聚集物质，并且相应的馏分被丢弃。约14mL后洗脱出第二主要的UV 280峰。合并了与此第二峰相对应的馏分。将合并的样品用具有

(MilliporeSigma,Hayward,CA)膜的

(MilliporeSigma,Hayward,CA)旋转浓缩器浓缩至40μL。将浓缩的样品储存在-80℃下。

用分光光度法分析最终纯化的产物，以确定融合蛋白的最终浓度，并确认不存在大量的核酸组分，如通过在280nm处的吸光度大于在260nm处的吸光度所证明的。通过将280nm处的吸光度除以完整复合体的0.1％溶液的计算吸光度来确定FokI-Cas8融合物的浓度。纯化的复合体的0.1％溶液的预测吸光度为1.05cm^-1，并通过将FokI-Cas8融合物在280nm处的消光系数(86290M^-1cm^-1)除以其分子量(82171.32g/摩尔)来计算。另外，通过用InstantBlueTM(Expedeon,San Diego,CA)染色剂染色的SDS-PAGE凝胶分析最终产物。使用Gel docTM EZ(Bio-Rad,Hercules,CA)成像仪对凝胶成像，并使用ImageLab(Bio-Rad,Hercules,CA)软件注释。该分析表明，纯化的融合蛋白具有预期的大小，并且仅存在低水平的污染蛋白。

实施例6

用于生化切割测定的dsDNA靶序列的产生

用于Cascade或Cascade-融合效应子复合体的体外DNA结合或切割测定的dsDNA靶序列可以使用几种不同的方法产生。本实施例描述了三种产生靶序列的方法，包括合成ssDNA寡核苷酸的退火、从gDNA中经PCR扩增选择的核酸靶序列，和/或将核酸靶序列克隆到细菌质粒中。将dsDNA靶序列用于Cascade结合或切割测定。

A.通过退火合成的ssDNA寡核苷酸来产生dsDNA靶序列

从商业制造商(Integrated DNA Technologies,Coralville,IA)购买了编码包含通过CRISPRRNA的向导部分识别的靶序列、临近的前间区序列邻近基序(PAM)和另外的5’和3’两侧序列的目标靶区的DNA寡核苷酸。每个构建体订购了两种寡核苷酸，一种包含有义链，且一种包含无义链。

表26列出了被订购为包含来源于噬菌体λgDNA的表示为J3的靶序列的寡核苷酸序列。在5'和3'端，靶标和PAM序列两旁有20bp另外的序列。

通过将等摩尔浓度(10μM)的两种寡核苷酸在1X退火缓冲液(6mM HEPES，pH 7.0和60mM KCl)中混合，在95℃下加热2分钟，然后缓慢冷却来将寡核苷酸退火。然后将退火的寡核苷酸与Cascade和/或Cascade-效应子域融合RNPs一起直接用于DNA结合和/或DNA切割测定中。

编码包含CRISPRRNA的向导部分识别的靶序列以及两侧的临近的前间区序列邻近基序(PAM)，以及另外的5’和3’两侧序列的目标靶区的5’Cy5荧光标记的DNA寡核苷酸购自商业制造商(Integrated DNA Technologies,Coralville,IA)。每种构建体订购了四种寡核苷酸，一种包含5'荧光标记的有义链，一种包含5'未标记的有义链，一种包含5'荧光标记的无义链，且一种包含5'未标记的无义链。在5'和3'端，靶标和PAM序列两侧有20bp另外的序列。

表27列出了订购为包含来源于噬菌体λgDNA的表示为J3的靶序列和来源于人CCR5位点的表示为CCR5的对照靶序列的寡核苷酸序列。

通过在1X退火缓冲液(6mM HEPES，pH 7.0，60mM KCl)中以等摩尔浓度(1μM)混合标记和未标记的或两种标记的或两种未标记的寡核苷酸，在95℃下加热2分钟，然后缓慢冷却，来将寡核苷酸退火。然后将退火的寡核苷酸与Cascade和/或Cascade-效应子域融合RNPs一起直接用于DNA结合测定中。将Cy5荧光标记的DNA寡核苷酸用AZURE c600(AzureBioSystems,Dublin,CA)生物成像仪成像。

本方法可用于产生另外的标记或未标记的靶标或双靶标序列，从而双靶标定义为包含被通过间隔区间序列隔开的单独的Cascade分子靶向的两个前间隔区序列的靶标。

B.通过从gDNA PCR扩增来产生dsDNA靶序列

使用PCR扩增直接从gDNA模板物质产生来源于人gDNA的双靶标的dsDNA靶序列。具体来说，PCR反应包含从K562细胞纯化的人gDNA和Q5热启动高保真2X Master Mix(NewEngland Biolabs,Ipswich,MA)，以及表28中列出的引物，其中带下划线的部分对应于gDNA中的引物结合位点。

根据制造商的说明书(New England Biolabs,Ipswich,MA)进行PCR，并使用Nucleospin凝胶和PCR清洁试剂盒(Macherey-Nagel,Bethlehem,PA)纯化长度为288bp的所需产物DNA。然后将该dsDNA与Cascade和/或Cascade-效应子域融合RNPs一起直接用于的DNA结合和/或DNA切割测定中。

C.通过将靶序列克隆至细菌质粒中来产生dsDNA靶序列

编码包含被CRISPRRNA的向导部分识别的靶序列、临近的前间区序列邻近基序(PAM)和另外的5’和3’两侧序列的也称为前间隔区的目标靶区的DNA寡核苷酸购自商业制造商(Integrated DNA Technologies,Coralville,IA)。设计了寡核苷酸，使得当退火时，在通过限制酶EcoRI和BlpI或通过BamHI和EcoRI切割其各自的识别位点后，末端再生粘性末端。寡核苷酸被设计为包含来源于噬菌体λ基因组的表示为J3的单个靶序列。另外，寡核苷酸被设计成包含来源于噬菌体λ基因组的通过15bp间隔区间序列彼此分开的表示为J3和L3的两个串联靶序列。这些寡核苷酸的序列在表29中列出。

寡核苷酸含有5'磷酸化末端，其由商业制造商引入或在内部使用T4多核苷酸激酶(New England Biolabs,Ipswich,MA)进行磷酸化。然后，通过将等摩尔量的退火缓冲液(6mM HEPES,pH 7.0,60mM KCl)混合在一起，加热至95℃ 2分钟，然后在台上缓慢冷却，以1μM的最终浓度将寡核苷酸退火。

单独地，将pACYC-Duet1(MilliporeSigma,Hayward,CA)质粒用相应的一对限制性酶BamHI和EcoRI或EcoRI和BlpI进行双消化，其粘性末端与由杂交的寡核苷酸的末端形成的粘性末端匹配。使用琼脂糖凝胶电泳将双消化的载体与去除的插入物分离。

为了将杂交的寡核苷酸克隆到双消化的载体中，将杂交的寡核苷酸稀释至50nM的储备浓度，然后使用杂交的寡核苷酸、双消化的载体和和快速连接酶(New EnglandBiolabs,Ipswich,MA)形成10μL的连接反应物。然后将连接反应物用于转化化学感受态的大肠杆菌菌株，并在琼脂糖平板上培养过夜后，将单个克隆分离并在液体培养物中培养以产生足够的细菌培养物，以从中分离质粒。然后使用Sanger测序来验证所需的质粒序列。表30提供了包含J3靶序列的质粒(SEQ ID NO:481)和包含通过15bp间隔区间序列隔开的J3和L3靶标序列的质粒(SEQ ID NO:482)的完整载体序列。

其他的克隆操作被用于产生另外的双靶标质粒构建体。SEQ ID NO：482的15bp的间隔区间序列包含独特的AvrII和XhoI限制位点。因此，将另外的杂交的寡核苷酸引入这些限制位点，可以将间隔区间扩展到更长的长度，以便用纯化的Cascade和Cascade-核酸酶融合RNPs进行生化测试。因为crRNA引导的FokI-Cascade融合复合体靶向两个相邻的DNA位点，所以来自相邻的DNA结合的复合体的FokI域的二聚化导致在将两个靶标位点隔开的间隔区间内进行DNA切割。设计并测试了可变的间隔区间长度，以评估在FokI核酸酶域和其融合的Cascade亚基蛋白之间具有给定束缚几何学的给定间隔区间长度。在表30中作为SEQID NO:483给出了包含30bp的扩展的间隔区间序列的靶标DNA底物的完整载体序列。

此外，以下克隆策略提供了包含沿一个大插入物串连连接的数个靶序列的质粒底物。从商业制造商(Integrated DNA Technologies,Coralville,IA)订购了基因块，其包含17个连续的双靶标。该基因块包含将每个双靶标与临近的双靶标隔开的4bp片段，并且包含来源于智人gDNA的16个双靶标，以及包含来源于噬菌体γ基因组的J3/L3靶标的一个对照双靶标。表31中显示了16个连续的人双靶标的基因组坐标。该基因块被订购为在末端具有两侧的SacI和SbfI限制位点，使得可以将其克隆到pACYC-Duet1载体中的SacI和SbfI位点中。通过将基因块克隆到pACYC-Duet1中而产生的多靶标质粒底物的完整载体序列在表30中示出为SEQ ID NO:484。这种多靶标序列质粒允许对具有靶向质粒内的连续连接的靶标位点中的一个的crRNAs的多种不同的FokI-Cascade制剂进行生化测试。

实施例7

纯化的Cascade复合体在生化切割测定中的应用

本实施例示出了FokI-Cascade融合蛋白复合体在生化dsDNA切割测定中的应用。根据其在dsDNA切割中的活性来比较蛋白试剂。

设计了来源于大肠杆菌I-E型Cascade系统的FokI–Cascade RNPs，在大肠杆菌中重组表达，并纯化后使用，如实施例1、2和5中所述。这些RNPs被设计为包含靶向来源于噬菌体γgDNA的J3和L3靶序列，或靶向人gDNA中的TRAC基因中的内含子的CRISPR RNAs。每种RNP制剂都是包含两种FokI-Cascade复合体的异质混合物，这些复合体在其他方面是相同的，除了crRNA的向导部分外。

分别从缺少Cas8的(Cas8-less)Cascade复合体纯化FokI-Cas8，用靶向J3和L3γ靶序列的向导多核苷酸程序化，并以PAM在内的配置用于利用具有靶标位点的J3/L3质粒底物的生化切割测定中。

通过将CasBCDE复合体(使用SEQ ID NO:440和SEQ ID NO:446产生的，如实施例2中所述)与包含16-aa连接子的纯化的FokI-Cas8(在实施例2中描述了一般的FokI-Cas8表达载体序列，表19中的SEQ ID NO:439；特定的16-aa连接子在实施例1中，表17中的SEQ IDNO:431)混合在一起，重构了FokI-Cascade复合体。在1X Cascade切割缓冲液(20mM Tris-Cl,pH 7.5,200mM NaCl,5mM MgCl₂,1mM TCEP,5％甘油)中，利用1μM最终浓度的CasBCDE和FokI-Cas8进行重构。

为了进行DNA切割测定，反应混合物如下所示。将包含具有30bp间隔区间的J3/L3双靶标序列(表30中的SEQ ID NO:483)的质粒底物与不同浓度的FokI-Cascade复合体(3-100nM)在质粒DNA最终浓度为13.3ng/μL的1X Cascade切割缓冲液中的15μL反应物中一起孵育。将反应物在37℃下孵育30分钟，然后加入3μL 6X SDS载样染料。添加载样染料以使结合的FokI-Cascade复合体变性。通过0.8％琼脂糖凝胶电泳分离反应混合物组分。电泳后，用SYBRTM安全DNA凝胶染色剂(Thermo Scientific,Wilmington,DE)对凝胶染色。

作为阳性对照，用靶向Cascade J3靶序列的20bp部分(sgRNA-J3；间隔区序列示出为SEQ ID NO:501)的单向导RNA(sgRNA)将酿脓链球菌Cas9蛋白程序化。通过在1X CCE缓冲液(20mM HEPES pH 7.4,10mM MgCl₂,150mM KCl,5％甘油)中混合Cas9与2倍摩尔过量的sgRNA来重构Cas9/sgRNA-J3复合体。通过在37℃下孵育反应物30分钟，在相同浓度范围(3–100nM)内评估了此Cas9/sgRNA-J3复合体的切割。实验中还包括含有未切割质粒DNA的对照泳道，以及用NheI限制酶(New England Biolabs,Ipswich,MA)线性化的质粒DNA。靶标DNA切割可以通过质粒中的迁移率变化来证明，因为未切割的质粒DNA是超螺旋的，并且具有比切割的线性化质粒DNA更快的迁移率。带切口的开环质粒DNA具有比超螺旋和线性化质粒DNA都慢的迁移率。

从这些实验获得的数据表明，在浓度范围内，FokI-Cascade复合体表现出与Cas9-sgRNA类似的靶标DNA切割活性。在最高测试浓度(100nM)下，通过FokI-Cascade复合体和Cas9-sgRNA对质粒靶标进行定量线性化。

还测试了FokI-Cascade复合体试剂的靶标DNA切割的动力学。将含有具有30bp间隔区间的J3/L3双靶序列(SEQ ID NO:483)的质粒底物与200nM FokI–Cascade复合体或200nM Cas9–sgRNA一起在质粒DNA终浓度为13.3ng/μL的15μL反应物中孵育。在0、7、10、15、20、25或30分钟时将反应淬灭，并且按如上所述通过琼脂糖凝胶电泳分离反应物组分。FokI–Cascade复合体表现出与Cas9/sgRNA-J3复合体相似但稍微更慢速率的靶标DNA切割活性，其中对于FokI-Cascade复合体，到25分钟时间点时靶标质粒被定量线性化，且对于Cas9/sgRNA-J3复合体，为20分钟时间点。

还测试了FokI-Cascade复合体试剂对pACYC-Duet1非靶标质粒底物的非特异性DNA切割和/或切口活性，相对于J3/L3双靶标质粒底物的特异性DNA切割。表32包含用于该对照的pACYC-Duet1非靶标质粒底物的序列(SEQ ID NO:502)。具体地，研究了非特异性和特异性DNA靶标切割的依赖性作为反应缓冲液中一价盐浓度的函数。制备了1X Cascade切割缓冲液(20mM Tris-Cl,pH 7.5,200mM NaCl,5mM MgCl2,1mM TCEP和5％甘油)的变型，其中NaCl浓度从200mM降至150mM、100mM或50mM，并通过将200nM FokI-Cascade复合体与13.3ng/μL的J3/L3靶标质粒或13.3ng/μL的pACYC-Duet1非靶标质粒一起孵育进行了如上所述的相同的切割反应。进行了另外的对照反应，其中NaCl的浓度保持在100mM，但是用10mM EDTA取代5mM MgCl₂，由于FokI需要二价金属离子用于DNA切割，因此其预期会取消切割。因此，对非靶标质粒和J3/L3靶标质粒进行以下反应条件：–FokI-Cascade复合体；+FokI-Cascade复合体，100mM NaCl缓冲液+10mM EDTA；+FokI-Cascade复合体，50mM NaCl缓冲液；+FokI-Cascade复合体，100mM NaCl缓冲液；+FokI-Cascade复合体，150mM NaCl缓冲液；+FokI-Cascade复合体，200mM NaCl缓冲液。数据证明FokI-Cascade复合体显示在低盐浓度<200mM NaCl下非特异性切口于非靶标和J3/L3靶标质粒，但在200mM NaCl的一价盐浓度下，非靶标质粒保持完整，但J3/L3靶标质粒被定量线性化。此外，缓冲液包含EDTA引起靶标切割的完全取消，如同预期的一样。

为了确认FokI–Cascade复合体在预期位置，即在分隔J3和L3靶标的间隔区间序列的中间内切割靶标质粒，进行了一项实验，其中首先将靶标质粒与FokI-Cascade复合体一起孵育，然后与AfeI限制酶(New England Biolabs,Ipswich,MA)一起孵育，该酶在质粒底物中的其他地方切割。因此，通过FokI-Cascade 1复合体和AfeI进行的切割将超螺旋的环形质粒转换成两个线性片段，在琼脂糖凝胶上作为不同种类迁移。具体而言，预期切割会产生长度为2427bp和1357bp的片段。

将13.3ng/μL J3/L3靶标质粒与200nM FokI-Cascade 1复合体一起孵育30分钟，然后将1μL AfeI(10单位/μL；New England Biolabs,Ipswich,MA)加入反应物中，然后在37℃下再另外孵育30分钟。如上所述，将反应产物通过琼脂糖凝胶电泳分离。另外，为了进行对照实验，将靶标质粒仅与FokI-Cascade 1复合体或仅AfeI一起孵育，并且用可被AfeI切割但不能由FokI-Cascade 1复合体切割(因为质粒缺少J3/L3双靶标)的非靶标质粒进行相同的反应。表32包含用于该对照的pACYC-Duet1非靶标质粒底物的序列(SEQ ID NO:502)。因此，将非靶标质粒和J3/L3靶标质粒进行以下反应条件：–AfeI/–FokI-Cascade复合体；–AfeI/+FokI-Cascade复合体；+AfeI/+FokI-Cascade复合体；和+AfeI/–FokI-Cascade复合体。数据表明FokI-Cascade复合体在预期的位置切割了靶标质粒，因为与FokI-Cascade 1复合体和AfeI一起孵育会产生两种预期长度的线性产物。

为了进一步确定由FokI-Cascade复合体进行的DNA切割的序列特异性，生成了包含以下突变的另外的对照质粒底物：位于J3靶标两侧的PAM中的突变、位于L3靶标两侧的PAM中的突变、位于J3/L3靶标两侧的两个PAMs中的突变；J3靶标内的间隔区序列中的突变、L3靶标中的间隔区序列中的突变、J3/L3靶标；和J3靶标但不是L3靶标、L3靶标但不是J3靶标，以及既非J3也非L3靶标内的两个间隔区序列中的突变。因此，质粒底物如下：J3 PAM突变体、L3 PAM突变体、J3/L3 PAM突变体、J3间隔区突变体、L3间隔区突变体、J3/L3间隔区突变体、非靶标质粒、仅J3靶标、仅L3靶标和J3/L3靶标质粒。对每种靶标进行以下反应条件：–NdeI/–FokI-Cascade复合体；+NdeI/–FokI-Cascade复合体；和–NdeI/+FokI-Cascade 1复合体。表32包含上述所有突变的质粒底物(SEQ ID NO:502至SEQ ID NO:510)的序列。

按如上所述使用200nM FokI-Cascade复合体和13.3ng/μL质粒底物进行DNA切割反应；用NdeI(New England Biolabs,Ipswich,MA)进行线性化每种质粒底物的对照反应。按如上所述进行琼脂糖凝胶电泳。数据表明，仅对于J3/L3靶标质粒，但非对于具有PAM或种子突变的对照质粒，或仅具有两个靶标位点中的一个，才观察到有效的双链断裂引入和靶标质粒的线性化。

将各种FokI-Cascade复合体的组分克隆和过表达。纯化由这些组分产生的RNPs并测试其生化DNA切割，以比较不同FokI-Cascade复合体的活性。具体地，比较了包含以下成分的重构的FokI-Cascade复合体的DNA切割活性：单独纯化的CasBCDE复合体(使用SEQ IDNO:440和SEQ ID NO:446产生的)和FokI-Cas8(使用SEQ ID NO:439产生的)；具有J3/L3向导crRNAs的FokI-Cascade(使用SEQ ID NO:442和SEQ ID NO:446产生的)；具有在Cas7亚基(使用SEQ ID NO:443和SEQ ID NO:446产生的)或Cas6亚基上产生的另外的核定位信号的FokI-Cascade；FokI-在Cas7亚基或Cas6亚基上具有另外的核定位信号和HA标签的Cascade；进行了涉及尺寸排阻色谱(SEC)和离子交换色谱(IEX)的更严格的纯化的FokI-Cascade；和仅通过没有进一步的净化的非固定的金属亲和色谱(IMAC)纯化的FokI-Cascade。

因此，对非靶标质粒和J3/L3靶标质粒进行以下反应条件：阴性对照；AfeI；CasBCDE+FokI-Cas8复合体；FokI-Cascade复合体；FokI-Cascade(NLS-Cas6)复合体；FokI-Cascade(Cas7-NLS)复合体；FokI-Cascade(NLS-HA-Cas6)复合体；FokI-Cascade(Cas7-HA-NLS)复合体；FokI-Cascade复合体(IEX,SEC净化)；和FokI-Cascade复合体(无净化)。按如上所述，使用非靶标质粒或共有J3/L3靶标质粒，用这些RNP试剂进行DNA切割反应，并通过琼脂糖凝胶电泳分离反应产物。数据表明，所有RNP试剂，除一个例外，均显示几乎相同的和定量的质粒DNA切割，没有非靶标质粒的背景切割。唯一的例外是未经进一步净化即纯化的FokI-Cascade，其表现出更多的非特异性切口活性，如将其与非靶标质粒一起孵育的泳道所见的。

最后，使用FokI-Cascade复合体的带有NLS标签的Cas7变体作为起始点，测试了16种不同的成对向导crRNA对沿一个大的插入连续连接的智人基因组位点Hsa01至Hsa16(SEQID NO:484)的质粒底物的生化DNA切割。每对crRNAs包含两个独特的间隔区序列，其对应于人类gDNA中通过间隔区间隔开的两个相邻的靶标位点；靶序列在SEQ ID NO:485至SEQ IDNO:500中描述。表33包含靶向Hsa01至Hsa16 gDNA序列的每对中两种crRNAs的序列；crRNA的间隔区带有下划线且小写，并且向导区域的5'和3'序列与来自CRISPR阵列的重复序列相对应。

纯化16种FokI–Cascade复合体后，按上述方法进行切割反应，其中将FokI-Cascade复合体与含有智人基因组位点Hsa01至Hsa16的质粒底物一起孵育，并通过琼脂糖凝胶电泳分离出反应产物。数据表明，在16种RNP试剂中，14/16种(Hsa03–Hsa16)表现出几乎定量的DNA切割，如通过将超螺旋的圆形质粒底物转化为切割的线性形式所证明的。仅构建体Hsa01和Hsa02显示出部分切口活性。此外，数据表明，使用设计的16种成对的gRNAs可以有效地将FokI-Cascade复合体程序化以靶向与治疗相关的智人基因。

实施例8

将FokI-Cascade RNP复合体引入靶标细胞中

本实施例示出了包含FokI融合蛋白以促进在人类细胞中的基因组编辑的大肠杆菌I-E型Cascade复合体的设计和和递送，并描述了其作为预组装的Cascade RNP复合体递送至靶标细胞中。

A.包含FokI以用于转化至细胞中的Cascade RNP复合体的产生

最小CRISPR阵列被设计为靶向人类基因组中的8种不同的位点。每个最小CRISPR阵列包含两个间隔区序列，其两侧均为CRISPR重复序列。两个间隔区序列靶向基因中间隔30bp的位点(即，30bp间隔区间区域)，并且每个间隔区被设计为结合临近靶标细胞基因组中的AAG或ATG前间区序列邻近基序(PAM)序列的靶序列。通过将退火的寡核苷酸(Integrated DNA Technologies,Coralville,IA)连接至用于细菌表达的pACYC-Duet1(MilliporeSigma,Hayward,CA)在载体骨架中而产生了包含每种最小CRISPR阵列的质粒载体。

用于产生最小CRISPR阵列中选择的间隔区的重叠的引物示出在表34中，并且引物序列描述于表35中。

实施例2中详细描述了用于产生Cascade RNP复合体的细菌表达载体的设计。简而言之，每个cas基因都由单个操纵子表达，并且cas基因的编码序列按cas8–cse2–cas7–cas5–cas6的顺序排列。FokI部分通过30-aa连接子附接到Cas8，并且核定位信号(NLS)被附接到FokI-Cas8(FokI-Cascade复合体)的N端和Cas6(以下称为FokI-Cascade-NLS-Cas6复合体，SEQ ID NO:577)的N端。

基本上按实施例5A中所述从大肠杆菌将FokI-Cascade-NLS-Cas6复合体纯化为组装的复合体。

B.将包含FokI的Cascade RNP复合体转染至真核细胞中

在37℃、5％CO₂和100％湿度下，将HEK293细胞(ATCC,Manassas,VA)培养在补充有10％FBS和1x抗生素-抗真菌溶液(Mediatech,Inc.,Manassas,VA)的DMEM培养基中的悬浮液中。使用

96孔Shuttle系统(Lonza,Allendale,NJ)转染HEK293细胞。在进行核转染之前，将5μl FokI-Cascade RNPs转移到96孔板的单个孔中。每个孔中包含～225-500pmol FokI-Cascade-NLS-Cas6复合体，具体取决于RNP。将HEK293细胞转移至50ml锥形离心管中，并以200xG离心3分钟。吸出培养基，并在不含钙和镁的PBS中洗涤细胞沉淀。将细胞再次离心一次并以1x10⁷个细胞/ml的浓度重悬于Nucleofector SF(Lonza,Allendale,NJ)缓冲液中。将20μl该细胞悬液添加到于96孔板中的FokI-Cascade-NLS-Cas6复合体中，混合，然后将全部体积转移到96孔Nucleocuvette^TM(Lonza,Allendale,NJ)板中。然后将板装载到Nucleofector^TM96孔Shuttle^TM系统(Lonza,Allendale,NJ)中，并使用96-CM-130Nucleofector^TM程序(Lonza,Allendale,NJ)对细胞进行核转染。核转染后，立即将80μl完全DMEM培养基添加到96孔Nucleocuvette^TM(Lonza,Allendale,NJ)板的每个孔中。然后将孔的全部内容物转移至包含100μl完全DMEM培养基的96孔组织培养板中。将细胞在37℃、5％CO₂和100％湿度下培养～72小时。

～72小时后，将HEK293细胞以500xG离心5分钟，然后除去培养基。在无钙和无镁的PBS中洗涤细胞。然后将细胞沉淀重悬于50μl QuickExtract DNA提取溶液(Epicentre,Madison,WI)中。然后将获得的gDNA样品在37℃下孵育10分钟，在65℃下孵育6分钟，并在95℃下孵育3分钟以终止反应。然后将gDNA样品用50μl水稀释，并保存在-20℃下用于后续的深度测序分析。

C.来自转染细胞的gDNA的深度测序

使用分离的gDNA，利用1x浓度的Q5热启动高保真2X预混液(New EnglandBiolabs,Ipswich,MA)、于10μL最终体积中的0.5μM的每种引物、3.75μL的gDNA进行第一次PCR，并在98℃下扩增1分钟，35个循环的98℃下扩增10秒、60℃下扩增20秒、72℃下扩增30秒，以及在72℃下最终延伸2分钟。将PCR反应物在水中以1:100稀释。表36显示了靶标特异性的引物。靶标特异性引物包含与Illumina相容的序列，使得可以使用MiSeq测序仪(Illumina,San Diego,CA)分析扩增的产物。

*DNA引物序列示出在表35中

设置第二个“条码(barcoding)”PCR，以便利用每种包含独特的8-bp索引(通过引物序列中的“NNNNNNNN”所示的(参见SEQ ID NO:575和SEQ ID NO:576)的引物(表35中的G2和H2)扩增每种靶标，从而允许在序列分析过程中对每个扩增子进行解复用。

利用1x浓度的Q5热启动高保真2X预混液(New England Biolabs,Ipswich,MA)、于10μL的最终体积中的0.5μM每种引物、1μL的1:100稀释的第一PCR进行第二次PCR，并在98℃下扩增1分钟，12个循环的98℃下扩增10秒、60℃下扩增20秒、72℃下扩增30秒，并且在72℃下最终延伸2分钟。将PCR反应物合并到单个微离心管中，用于基于SPRIselect珠(BeckmanCoulter,Pasadena,CA)的扩增子净化，以用于测序。

向合并的扩增子中，加入0.9x体积的SPRIselect珠，混合，并在室温下孵育10分钟。将微量离心管放置在电磁管支架(Beckman Coulter,Pasadena,CA)上，直到溶液澄清为止。除去上清液并弃去，并将残留的珠子用1倍体积的85％乙醇洗涤，并在室温(RT)下孵育30秒。孵育后，吸去乙醇，并将珠子在室温下风干10分钟。然后将微量离心管从磁力架上移开，并将0.25x体积的水添加到珠子中，剧烈混合，并在RT下孵育2分钟。将微量离心管在微量离心机中旋转以收集管的内含物，然后放回至磁力架，孵育直至溶液澄清，然后将含有纯化的扩增子的上清液分配到干净的微量离心管中。使用NanodropTM 2000(ThermoScientific,Wilmington,DE)系统对纯化的扩增子文库进行定量。

如从260nm处的吸光度(NanodropTM 2000(Thermo Scientific,Wilmington,DE)系统)和扩增子的大小所计算的，将扩增子文库标准化至4nM浓度。利用MiSeq试剂盒v2，在MiSeq测序仪(Illumina,San Diego,CA)上对文库分析300个循环(Illumina,San Diego,CA)，包括两次151个循环的配对末端运行加上两次8个循环的索引读段。

D.深度测序数据分析

基于适应于第二轮PCR中扩增子的索引条形码序列，分析了测序数据中产物的同一性。使用执行以下任务的计算脚本来处理MiSeq(Illumina,San Diego,CA)数据：

使用Bowtie(bowtie-bio.sourceforge.net/index.shtml)软件将读段与人类基因组(build GRCh38/38)对齐。

将对齐的读段与野生型位点进行比较；将不与位点的任何部分对齐的读段舍弃。

记录匹配野生型序列的读段。通过插入缺失类型将具有插入缺失(FokI-CascadeRNP预期切割位点周围10bp)的读段归类，并记录。

将总插入缺失读段除以野生型读段和插入缺失读段之和，以给出突变读段的百分比。

图28显示了基因组编辑(图28，垂直轴，“％编辑”)作为FokI-Cascade-NLS-Cas6复合体核转染(n＝1)的函数(图27，水平轴，Hsa3、Hsa4、Hsa5、Hsa6、Hsa7、Hsa8、Hsa9和Hsa10)。在图28中，空心条是阴性对照，并且黑色条是添加的FokI-Cascade-NLS-Cas6复合体)。FokI-Cascade-NLS-Cas6复合体在所有8个位点处诱导了编辑。编辑范围为～0.2-5％插入缺失，并且插入缺失集中在预测的切割位点周围，在间隔区间区域的中间。

实施例9

将FokI-Cascade RNP复合体的质粒编码组分引入靶标细胞中

本实施例示出了包含FokI融合蛋白以促进在人类细胞中的基因组编辑的大肠杆菌I-E型Cascade复合体的设计和递送。本实施例还描述将表达Cascade复合体组分的质粒载体递送至真核细胞中。

A.待转染至靶标细胞中的编码FokI-Cascade RNP组分的载体的产生

设计了最小CRISPR阵列以靶向人类基因组中的TRAC位点。最小CRISPR阵列包含两个间隔区序列，其两侧均是CRISPR重复序列，如实施例1和3中所述的。两个间隔区序列靶向基因组中间隔30bp的位点，并且每个间隔区与临近AAG PAM序列的基因组序列互补。通过将退火的编码两个间隔区序列两侧的CRISPR重复的寡核苷酸(Integrated DNATechnologies,Coralville,IA)连接至具有两个CRISPR重复序列的哺乳动物表达载体中，而产生了包含最小CRISPR阵列的质粒载体。所得的质粒包含表达来自人U6(hU6)启动子(SEQ ID No:454)的两种向导的“重复区-间隔区-重复区-间隔区-重复区”。

将FokI-Cascade RNP蛋白组分编码基因克隆至包含CMV启动子的质粒载体中，以使得能够在哺乳动物细胞中递送和表达。将Cas基因克隆至单独的质粒(SEQ ID NO:448至SEQ ID NO:451和SEQ ID NO:453)中或单个的质粒中作为多顺反子构建体，其中每个基因经由2A病毒肽“核糖体跳跃”序列连接(在SEQ ID NO:455中)。经由两种不同的方法将FokI-Cascade RNP复合体递送至真核细胞中：cas基因和最小CRISPR阵列提供在单独的质粒(六质粒递送系统，SEQ ID NO:448至SEQ ID NO:451、SEQ ID NO:453和SEQ ID NO:454)上，或编码所有cas基因的一个质粒上作为多顺反子构建体，以及编码最小CRISPR阵列的第二质粒(双质粒递送系统，SEQ ID NO:454和SEQ ID NO:455)上。

B.编码FokI-Cascade RNP复合体的质粒的转染

按实施例8B中详细描述的对六质粒递送系统和双质粒递送系统进行转染条件，进行了以下修改。进行核转染前，将5μl质粒载体溶液转移至96孔板的单个孔中。最初通过检查用于基因组编辑的每个组件的必要性对六质粒递送系统进行了测试。更具体地，将质粒“混合物(cocktails)”添加到每个孔中，使得存在恒定数量(420ng)的五种质粒和可变数量的第六种质粒(0ng、70ng、700ng或1400ng)。接下来，通过以固定量(3.5μg)的总质粒DNA进行核转染，同时改变最小CRISPR阵列质粒与cas编码质粒的比例，比较了六质粒递送系统和双质粒递送系统。最后，在核转染后～72小时收获裂解物，以用于随后的深度测序分析。

C.来自转染细胞的gDNA的深度测序和数据分析

按实施例8C中详细描述的进行深度测序，但仅使用来自表36的靶标特异性引物Y和Z。

D.深度测序数据分析

按实施例8D中详细描述的进行深度测序数据分析。图29显示了TRAC位点处的基因组编辑(图29，垂直轴，“％编辑”)作为六质粒递送策略(n＝1)中每种FokI-Cascade组分的函数(图29，水平轴，向导、FokI-Cas8、Cse2、Cas7、Cas5、Cas6和参照样本)。在图29中，空心条代表0ng的FokI-Cascade组分，斑点条代表70ng的FokI-Cascade组分，方形图案条代表700ng的FokI-Cascade组分，并且条纹条代表1,400ng的FokI-Cascade组分(对于每种FokI-Cascade组分，在水平轴上的条顺序分别为从左至右)。如图所示的，如果缺少给定的组件，将取消或大幅减少编辑(在Cse2的情况下)。这确认了每种Cascade组件对于经由质粒递送进行编辑都是必需的。

图30显示了将利用六质粒递送系统或双质粒递送系统的基因组编辑进行比较的数据。图30显示了靶标基因位点处的基因组编辑(图30，垂直轴，“％编辑”)作为不同浓度的六质粒(图30，空心条)和双质粒(图30，黑条)系统的每种组分的函数(图30，水平轴上的条顺序从左至右分别是六质粒系统和双质粒系统)。沿水平轴的数字分组指的是组分的量：顶线＝ng的总质粒，第二条线＝ng的最小CRISPR阵列质粒，并且第三条线＝ng的Cas编码质粒(例如，第一数字分组：顶线＝总质粒，3500ng；第二条线＝最小CRISPR阵列质粒，0ng；并且第三条线＝Cas编码质粒，3500ng)。

在这两种方法中，利用最高比例的cas:最小CRISPR阵列质粒实现了最高水平的编辑。另外，多顺反子质粒使得能够进行更高水平的编辑，这可能是由于每μg质粒的转录增加所致。

实施例10

循环排列的Cascade亚基蛋白

本实施例示出了使用结构引导的建模方法的循环排列的(cp)大肠杆菌I-E型Cas7蛋白的计算机设计、克隆、表达和纯化。

A.计算机设计

基于大肠杆菌Cascade晶体结构5H9E.pdb(www.rcsb.org/pdb/；Hayes,R.P,etal.,Nature 530(7591):499-503(2016))，使用结构引导的方法将大肠杆菌I-E型Cas7蛋白(SEQ ID NO:18)环状排列。利用具有序列甘氨酸-丝氨酸(G-S)的双氨基酸肽连接子连接天然的Cas7 N端和C端。在与野生型Cas7多肽序列中的残基301和302之间的肽键相对应的位置处开放该循环的Cas7的多肽序列，以形成新的N端(残基302)和新的C端(残基301)，导致循环排列形式的Cas7蛋白(cp-Cas7 V1蛋白)。新的N端和新的C端的设计位置使其与融合蛋白或连接子区域连接，而不会干扰Cas7蛋白折叠或Cascade复合体组装。将甲硫氨酸残基添加到cp-Cas7 V1蛋白(SEQ ID NO:578)的新的N端(即，与野生型Cas7蛋白的残基302相对应的氨基酸残基)。

使用G-S连接子对第二种cp-Cas7蛋白——cp-Cas7 V2蛋白进行了类似的改造。cp-Cas7 V2蛋白的N端和C端分别对应于野生型Cas7序列中的残基338和339。新的N端和新的C端的设计位置使其与融合蛋白或连接子区域连接，而不会干扰Cas7蛋白折叠或Cascade复合体组装。将甲硫氨酸残基添加到cp-Cas7 V2蛋白(SEQ ID NO:579)的N端(即，对应于野生型Cas7蛋白的残基339的氨基酸残基)。

B.包含cp-Cas7的Cascade复合体的克隆、表达和纯化

对cp-Cas7 V1蛋白和cp-Cas7 V2蛋白的计算机设计的多肽序列的DNA编码序列进行了密码子优化，以用于在大肠杆菌中表达。

提供这些DNA编码序列给商业制造商(GenScript,Piscataway,NJ)进行合成。将DNA序列单独引入Cascade-操纵子表达载体(表19；SEQ ID NO:441)中，以取代表达载体中的野生型Cas7蛋白，如实施例2中所述的。

利用编码表20中所示的J3靶标(SEQ ID NO:444)的向导RNA的第二载体，将每种表达载体转染至大肠杆菌BL21 StarTM(Thermo Fisher Scientific,Waltham,MA)细胞中，如实施例2中所述的。按实施例4B中所述的培养细胞。按实施例5A中所述的纯化包含Cas5、Cas6、cp-Cas7 V1、Cse2和Cas8蛋白，以及向导RNA/靶标J3；和Cas5、Cas6、cp-Cas7 V2、Cse2和Cas8蛋白以及向导RNA/靶标J3的大肠杆菌I-E型Cascade复合体。

包含cp-Cas7变体的Cascade复合体的纯化表明，循环排列的I-E型CRISPR-Cas亚基蛋白质可以成功用于形成形成与包含野生型蛋白的Cascade复合体具有基本上相同的组合物(基于分子量)的Cascade复合体。

C.Cascade/cp-Cas7和J3靶标的EMSA(电泳迁移率变动测定)

按本实施例所述纯化纯化的Cascade/cp-Cas7复合体，并对其进行EMSA，以证明与其各自靶序列的特异性结合。简而言之，将Cascade/cp-Cas7和Cascade/wt-Cas7纯化并浓缩至10mg/mL。Cy5双链靶标DNA基本按照实施例6A所述制备，并在TE缓冲液中稀释至1μM(J3靶标SEQ ID NO:469和SEQ ID NO:472以及CCR5靶标SEQ ID NO:474和SEQ ID NO:470)。将Cascade复合体和标记的双链靶标DNA以不同的蛋白质/靶标比例于37℃下孵育30min。孵育后，立即将2μl 50％甘油添加到样品中，并将其加载到5％天然PAA凝胶上。凝胶在0.5xTBE缓冲液中于4℃在70V下运行90min，并在AZURE c600 Bioimager(Azure BioSystems,Dublin,CA)上成像，并对条带进行定量。数据在表37中提供。

*LOD＝低于检测限

实施例11

Cascade亚基融合蛋白

A.Cascade亚基与FokI融合

本实施例示出了融合至FokI核酸酶域以向Cascade复合体赋予核酸酶活性的大肠杆菌I-E型Cas8蛋白的计算机设计、克隆、表达和纯化。

大肠杆菌I-E型Cas8在末端与海床黄杆菌(Flavobacterium okeanokoites)FokI核酸酶域(GenBank no.AAA24927.1)融合。FokI核酸酶域包含由Guo,et al.(Guo,J.,etal.,J.Mol.Biol.400:96-107(2010))描述的Sharkey变体中包含的残基，且在均二聚化作用后催化双链DNA切割。FokI核酸酶的氨基酸序列(SEQ ID NO:580)包含残基Q384至F579(GenBank编号AAA24927.1)，并具有以下电突变：E486Q、L499I和D469N。简言之，使用连接子序列(SEQ ID NO:582)将FokI Sharkey核酸酶域(SEQ ID NO:581)N端融合至Cas8。为了纯化目的，先用六组氨酸标签(His6,SEQ ID NO:583)，再用MBP标签(SEQ ID NO:584)，再用TEV蛋白酶切割序列(SEQ ID NO:585)、核定位信号(NLS,SEQ ID NO:586)和GGS连接子N端附接到FokI的残基384上。最终的构建体在蛋白质序列中包含NH3-His6-MBP-TEV-NLS-GGS-FokISharkey-30aa-连接子-Cas8-COOH(SEQ ID NO:413)。

将计算机设计的DNA序列提供给商业制造商(GenScript,Piscataway,NJ)进行合成。将DNA序列克隆到pET表达(MilliporeSigma,Hayward,CA)家族载体骨架中，由于如实施例2中所述的kanR基因的存在，该载体骨架赋予了卡那霉素抗性，导致携带NH3-His6-MBP-TEV-NLS-GGS-FokISharkey-30aa-连接子-Cas8-COOH(SEQ ID NO:439)的载体。

按实施例4B和实施例5C中所述的对大肠杆菌I-E型Cascade H3-His6-MBP-TEV-NLS-GGS-FokISharkey-30aa-连接子-Cas8-COOH(SEQ ID NO:439)进行表达和纯化。TEV切割后的蛋白序列包含NH3-NLS-GGS-FokISharkey-30aa-连接子-Cas8-COOH(SEQ ID NO:587)。

类似地，按实施例1和2(SEQ ID NO:442)所述的，在携带NLS-FokI-连接子-Cas8_His6–HRV3C–Cse2_Cas7_Cas5_Cas6的载体中构建了Fok1-Cas8融合蛋白。利用编码J3靶标(SEQ ID NO:444)的向导RNA的第二载体，将每种表达载体转染至大肠杆菌BL21 StarTM(Thermo Fisher Scientific,Waltham,MA)细胞中，如实施例2中所述的。按实施例4B和实施例5A中所述表达和纯化该构建体。包含融合的FokI-Cas8变体的Cascade复合体的纯化表明，核酸酶融合的I-E型CRISPR-Cas亚基蛋白质可成功用于形成与包含野生型蛋白的Cascade复合体具有基本相同的组合物(基于分子量)的Cascade复合体。FokI-Cas8融合物已成功用于靶标核酸的生化切割(实施例7)和真核细胞中基因组序列的细胞内切割(实施例8D和实施例9D)。

表38列出了Cas亚基蛋白-酶融合的其他实例。在表38中，APOBEC对应于胞苷脱氨酶途径成员的基因(人类APOBEC I Genbank编号AB009426、人类APOBEC 3F Genbank编号CH471095、人类APOBEC 3G Genbank编号CR456472、大鼠APOBEC UCSC基因组阅读器ID RGD:2133大鼠)；AID对应于活化诱导的胞苷脱氨酶(Genbank编号AY536516)；AID直系同源中的PmCDA1(参见，例如Nishida,et al.,Science 16:353(2016)；Iwamatsu,et al.,J.Biochem.110:151-158(1991))；PvuIIHIFIT46G是PvuII高保真度变体T46G(参见，例如Fonfara,et al.,Nucleic Acids Res.40:847-860(2012))；PvuII单链T46G描述于pdbID3KSK中)；I-TevI是来自噬菌体T4的位点特异性的、序列耐受性的归巢核酸内切酶，并且包含N端催化域以及C端DNA结合域(该域通过长的、柔性的连接子连接)(参见，例如Van Roey,et al.,EMBO J.20:3631-3637(2001))；BcnI(参见，例如Sokolowska,et al.,J.Mol.Biol.369:722-734(2007))；和MvaI(参见，例如Kaus-Drobek,et al.,NucleicAcids Res.35:2035-2046(2007))是限制酶。

B.与另一Cascade亚基蛋白的Cascade亚基蛋白融合

基于大肠杆菌Cascade晶体结构5H9E.pdb(www.rcsb.org/pdb/；参见，例如Hayes,R.P,et al.,Nature 530(7591):499-503(2016))，使用结构引导的方法将Cascade复合体的两种Cse2蛋白融合在一起。简言之，使用10-aa柔性连接子(SEQ ID NO:589)，将一个Cse2的C端和第二Cse2的N端融合在一起。Cse2-Cse2(CasB_CasB)融合蛋白的完整序列示出在SEQ ID NO:588中。

将计算机设计的DNA序列提供给商业制造商(GenScript,Piscataway,NJ)进行合成。将DNA序列克隆到实施例2中设计的表达载体(SEQ ID NO:441)中。将Cse2序列用SEQ IDNO:588交换。

利用编码J3靶标(SEQ ID NO:444)的向导RNA的第二载体将每种表达载体转染至大肠杆菌BL21 StarTM(Thermo Fisher Scientific,Waltham,MA)细胞中，如实施例2中所述的。按实施例4B和5B中所述表达和纯化包含Cas5、Cas6、Cas7、Cse2-Cse2和Cas8的大肠杆菌I-E型Cascade复合体。包含融合的Cse2-Cse2变体的Cascade复合体的纯化证明融合的I-E型CRISPR-Cas亚基蛋白成功地形成了Cascade复合体与Cascade复合体包含野生型蛋白具有基本上相同的组合物(基于分子量)。

C.Cascade/Cse2-Cse2和J3靶标的电子迁移率变动测定(EMSA)

按本实施例中所述纯化纯化的Cascade/Cse2-Cse2复合体，并对其进行EMSA，以证明与其各自靶序列的特异性结合。简而言之，将Cascade/se2-Cse2和Cascade/WT-Cse2纯化并浓缩至10mg/mL。按实施例6A中所述制备Cy5双链靶标DNA，并在TE缓冲液中稀释至1M(J3靶向SEQ ID NO:469，并且SEQ ID NO:472和CCR5靶向SEQ ID NO:474和SEQ ID NO:470)。将Cascade复合体和标记的双链靶标DNA在37℃下以不同的蛋白质/靶标比例孵育30min。孵育后，立即将2μl 50％甘油添加到样品中，并将其加载到5％天然PAA凝胶上。将凝胶在0.5xTBE缓冲液中于4℃在70V下运行90min，并在AZURE c600 Bioimager(AzureBioSystems,Dublin,CA)上成像，并对条带进行定量。数据提供在表39中。

*LOD＝低于检测限

D.与另一Cascade亚基蛋白和酶促蛋白域融合的Cascade亚基蛋白

选择胞苷脱氨酶rAPOBEC1(载脂蛋白B mRNA编辑酶催化亚基1，褐家鼠(Rattusnorvegicus)；NCBI基因ID：25383,uEnsembl:ENSRNOG00000015411)用于融合。使用结构引导的方法，基于大肠杆菌Cascade晶体结构5H9E.pdb(www.rcsb.org/pdb/；参见，例如Hayes,R.P,et al.,Nature 530(7591):499-503(2016))将Cse2-Cse2蛋白与rAPOBEC1融合。简而言之，使用9-aa柔性连接子(SEQ ID NO:591)将rAPOBEC1(SEQ ID NO:590)的C端融合至Cse2-Cse2二聚物(上述的)的N端。rAPOBECI_Cse2-Cse2融合蛋白的完整序列示出在SEQ ID NO:592中。

将计算机设计的DNA序列提供给商业制造商(GenScript,Piscataway,NJ)进行合成。将DNA序列克隆至表达载体(SEQ ID NO:441)中，取代Cse2序列。利用编码J3靶标(SEQID NO:444)的向导RNA的第二载体将每种表达载体转染至大肠杆菌BL21 StarTM(ThermoFisher Scientific,Waltham,MA)细胞中，如实施例2中所述的。按实施例4B和5B中所述表达和纯化包含Cas5、Cas6、Cas7、rAPOBEC1_Cse2-Cse2和Cas8的大肠杆菌I-E型Cascade复合体。包含融合的rAPOBEC1_Cse2-Cse2变体的Cascade复合体的纯化证明，与I-E型CRISPR-Cas亚基蛋白的胞苷脱氨酶融合被成功地用于形成Cascade复合体与包含野生型蛋白的Cascade复合体具有基本上相同的组合物(基于分子量)。表40提供了与Cse2-Cse2的酶融合的实例。

实施例12

与转录激活/抑制域的Cascade亚基蛋白融合

本实施例示出了融合至VP64活化域以向Cascade复合体赋予转录激活活性的大肠杆菌I-E型cp-Cas7蛋白的设计。

VP64是一种包含利用甘氨酸-丝氨酸(GS)连接子连接的4个串联拷贝的VP16(单纯疱疹病毒蛋白16，DALDDFDLDML(SEQ ID NO:614)；氨基酸437-447，UNIPROT:UL48)的转录活化剂。当融合至可以结合基因启动子附近的蛋白域时，VP64(SEQ ID No:615)用作强转录活化剂。大肠杆菌I-E型cp-Cas7 V2(SEQ ID NO:616)可以选择用于改造。

活化域VP64可以融合至cpCas7 V2的N端(实施例10A所述的)。可以选择连接子(例如，5-50个氨基酸的长度)以操作性地连接cpCas7 V2和VP64域。

可以将计算机设计的DNA序列提供给商业制造商进行合成。可以将编码VP64-cpCas7 V2融合蛋白的DNA序列克隆至表达载体(例如，SEQ ID NO:455，其中VP64-cpCas7V2可用于取代Cas7)中。可以利用编码J3靶标(SEQ ID NO:444)的向导RNA的第二载体将每种表达载体转染至大肠杆菌BL21 StarTM(Thermo Fisher Scientific,Waltham,MA)细胞中，如实施例2中所述的。可以按实施例4和5中所述表达和纯化包含Cas5、Cas6、VP64_cpCas7 V2、Cse2和Cas8的大肠杆菌I-E型Cascade复合体。包含融合的VP64_cpCas7 V2变体的Cascade复合体的纯化可以用于形成与包含野生型蛋白的Cascade复合体具有基本上相同的组合物(基于分子量)的Cascade复合体。

靶向特定基因的启动子区域的向导的选择可以用于验证包含融合的VP64_cpCas7V2的Cascade复合体促进基因转录激活的能力。

实施例13

融合至Cascade亚基的功能域被dCas9/向导复合体的位点定向募集

本实施例描述了利用用于将融合至功能域的一种或多种Cascade亚基蛋白(即Cas6、Cas5等)募集至II型CRISPRCas蛋白/向导RNA复合体结合位点的第一类I型CRISPR重复茎序列(例如，I-F型CRISPR重复茎序列)改造2类II型CRISPRsgRNA、crRNA、tracrRNA或crRNA和tracrRNA序列的方法。这里的该方法自Gilbert,L.,et.al.,Cell 154(2):442-451(2013)和Ferry,Q,et.al.,Nature Communication 8:14633doi:10.1038/ncomms14633(2017)调整而来。

A.改造II型向导RNA

可以选择II型CRISPRsgRNA、crRNA、tracrRNA或crRNA和tracrRNA(统称为“II型向导RNA”)用于改造。

可以利用计算机评估II型向导RNA序列的掺入的I型CRISPR重复茎序列的区域。can be attached在II型向导RNA的5’或3’端处，II型向导RNA的内部附接I型CRISPR重复茎序列，或者可以取代II型向导RNA中的二级结构(例如，3’发卡元件)。I型CRISPR重复茎序列的掺入可以伴随有连接子元件核苷酸序列。3’改造以包含I型CRISPR重复茎序列的II型tracrRNA的实例提供在表41中。

*I型CRISPR重复茎序列带下划线且为小写字母。相应的DNA编码序列提供为SEQID NO:618。

可以选择哺乳动物的基因，如C-X-C趋化因子受体4型(CXCR4)进行靶向。可以在计算机上扫描5'UTR和外显子1之间的连接处II型CRISPRCas蛋白PAM序列附近存在的II型CRISPRCas蛋白靶序列(例如，5’-NGG)。可以将5’方向上游存在的20个核苷酸靶序列掺入到II型crRNA中。表42中显示了靶向CXCR4的II型crRNA的实例。

*相应的DNA编码序列提供为SEQ ID NO:620。

可选地，靶向间隔区(RNA)(SEQ ID NO:619)的CXCR4的3'端可以利用连接子与3’I型CRISPR重复茎序列(RNA)(SEQ ID NO:617)一起共价连接至II型tracrRNA的5'端。合适的连接子元件是5’-GAAA-3’。

可以将具有掺入的I型CRISPR重复茎序列的II型向导RNAs提供给商业制造商进行合成。

可以将I型Cascade亚基蛋白(例如，Cas6)操作性地连接至转录激活或抑制域(例如，KRAB)，并利用如实施例12中所述的核定位信号(NLS)进行C端标记。

可以将II型Cas蛋白(例如，Cas9)突变，使得其被催化失活(例如dCas9)并用NLS序列标记。

可以从大肠杆菌重组表达和纯化Cas6-KRAB-NLS蛋白和dCas9-NLS蛋白。

可以以60pmol dCas9蛋白:60pmol Cas6-KRAB-NLS:120pmol:靶向crRNA的CXCR4:120pmol tracrRNA 3’改造以包含I型CRISPR重复茎序列的浓度形成RNP复合体。在利用dCas9和Cas6-KRAB-NLS组装之前，可以在2μL的最终体积中将120pmol靶向crRNA的CXCR4和120pmol tracrRNA 3’改造以包含I型CRISPR重复茎序列(本文中称为“改造的II型向导RNA”)中的每种稀释至所需的总浓度(120pmol)，在95℃下孵育2分钟，从热循环仪移除，并允许平衡至室温。可以将dCas9和Cas6-KRAB-NLS蛋白在结合缓冲液(20mM HEPES，100mMKCl，5mM MgCl₂和5％甘油，pH 7.4)中稀释至合适的浓度，至最终体积为3μL，并与2μL II型RNA混合，然后在37℃下孵育30分钟。可以将未转染的对照(例如，仅缓冲液)、未改造的II型向导RNA或未连接至抑制域的Cas6用于组装阴性对照RNPs。

B.使用dCas9:Cas6-KRAB-NLS:改造的II型向导RNA进行细胞转染

可以使用

96孔Shuttle系统(Lonza,Allendale,NJ)和以下方案将dCas9:Cas6-KRAB-NLS:改造的II型向导RNA核蛋白复合体转染到HEK293细胞(ATCC,Manassas VA)：复合体可以以5μL的最终体积分配到96孔板的单个孔中。可以从HEK293细胞培养板上除去细胞培养基，并用TrypLE^TM(Thermo Scientific,Wilmington,DE)分离细胞。可通过以200x g离心3分钟沉淀出悬浮的HEK293细胞，吸出TrypLE试剂，并用无钙和无镁磷酸盐缓冲盐水(PBS)洗涤细胞。可以通过以200x g离心3分钟来沉淀细胞，吸出PBS，然后将细胞沉淀重悬于10mL不含钙和镁的PBS中。

可以使用

II自动化细胞计数器(Life Technologies；Grand Island,NY)对细胞进行计数。可将2.2x 10⁷个细胞转移到1.5ml微量离心管中并沉淀。可以吸出PBS，并将细胞重悬在Nucleofector^TMSF(Lonza,Allendale,NJ)溶液中，至密度为1x 10⁷个细胞/m。然后可以将20μL的细胞悬浮液添加到每个含有5μL RNP复合体的单个孔中，然后将来自每个孔的全部体积转移到96孔Nucleocuvette^TM(Lonza,Allendale,NJ)板的孔中。可以使用96-CM-130Nucleofector^TM(Lonza,Allendale,NJ)程序将板装载到Nucleofector^TM96孔Shuttle^TM(Lonza,Allendale,NJ)上并对细胞进行核转染。核转染后，可以向每个孔添加补充10％胎牛血清(FBS；Thermo Scientific,Wilmington,DE)、青霉素和链霉素(LifeTechnologies,Grand Island,NY)的70μL Dulbecco改良的Eagle培养基(DMEM；ThermoScientific,Wilmington,DE)，并可以将50μL的细胞悬浮物转移至含有150μL预热的DMEM完全培养基的96孔细胞培养板中。可以将板转移到组织培养孵育器中，并在37℃下于5％CO₂中保持48小时。

在dCas9:Cas6-KRAB-NLS:改造的II型向导RNA核蛋白复合体进行核转染后72小时，可以评估细胞对CXCR4表达的抑制作用。可以从HEK293吸出培养基，并用无钙和无镁的PBS洗涤细胞一次，然后通过加入TrypLE(Life Technologies,Grand Island,NY)进行胰蛋白酶消化，然后在37oC下孵育3-5分钟。可以将胰蛋白酶消化的细胞轻轻上下吸取以形成单细胞悬液，然后可以通过以200x g离心3分钟来沉淀细胞。离心后，可将培养基吸出，并将细胞重悬于10mM EDTA/PBS缓冲液中，并轻轻混合成单细胞悬液。可以在室温下，在含有10％FBS的PBS中，使用与抗人CXCR4抗体(Medical&Biological Laboratories Co.,Nagoya,Japan)缀合的0.05％FITC将单细胞悬液染色1小时。同种型对照和天然RNP对照也可以进行类似染色以供参考。然后可以对染色的细胞进行分选LSR II流式细胞仪(BDlaboratories,San Jose,CA)，并记录FITC阳性荧光细胞群。

通过检测的dCas9:Cas6-KRAB-NLS:改造的II型向导RNA核转染样品的荧光相比非转染对照的荧光检测值的降低来测量CxCR4表达的降低。来自流式细胞仪的荧光的降低可用于证明具有I型CRISPR重复茎序列的改造的II型向导RNA可与核酸酶缺陷型II型Cas9蛋白组合使用以将融合至抑制域的I型CRISPRCascade亚基蛋白募集和定位至基因靶标并抑制所述基因靶标的转录。

实施例14

I型cas基因的鉴定和筛选

本实施例描述了从不同的物种鉴定和筛选I型cas基因的方法。这里提供的方法自Shmakov,S.,et al.,Mol.Cell 60:385-397(2015)调整而来。

A.I型CRISPR-Cas基因的鉴定

使用基本局部比对搜索工具(BLAST,blast.ncbi.nlm.nih.gov/Blast.cgi)，可以对各种物种的基因组进行搜索，以鉴定编码I型CRISPR-Cas复合体的各种基因组分的一个或多个基因。cas1整合酶基因是第1类和第2类CRISPR-Cas家族的组分，并且在鉴定出包含cas1基因的物种后，可以进行这些基因组中的子序列搜索，以分离出包含I型特异性基因的基因组。可以将基因组搜索锚定在CRISPR-Cas整合酶基因cas1上，来自可以使用的来自大肠杆菌K-12MG1655的I-E型系统的示例性的cas1序列是SEQ ID.NO:621。特定基因(例如，cas7和cas5)是I型系统的干扰复合体的核心组分，并且可用于进一步区分包含I型系统的物种。可以使用的大肠杆菌K-12MG1655 cas7和cas5基因的示例性的序列分别是SEQID.NO:622和SEQ ID.NO:623。通过鉴定I型特异性核酸酶-解旋酶cas3基因或其同系物，可以进一步解析鉴定出的具有cas7和cas5基因的基因组。可以使用的大肠杆菌K-12MG1655cas3序列的样本性的示例性的序列是SEQ ID.NO:624。

包含CRISPR-Cas整合酶基因cas1、I型干扰复合体基因cas7和cas5，以及核酸酶-解旋酶cas3基因，或以上的一些组合的基因组，可能是I型CRISPR-Cas系统的候选物。I型CRISPR-Cas基因通常被发现接近单个基因组位点中的一个，通常在20千碱基(kb)内。可以搜索cas1、cas7、cas5或cas3基因周围的区域，以寻找构成I型干扰复合体的其余cas基因的其他开放阅读框(ORFs)。可以将推定的ORFs的氨基酸序列与已知的I型基因进行同源性比较，或者可以使用通过Max Planck研究所生物信息学工具包(www.toolkit.tuebingen.mpg.de/#/)或等同物可获取的同源性检测和结构预测搜索工具分析I型蛋白组分的特征性蛋白域的存在。

B.鉴定的I型组分的筛选

一旦鉴定出I型成分(例如，cas基因和相应的crRNA)的推定的集合，就可以测试I型成分进行可程序化DNA靶向的能力。

可以遵循实施例1、2和3的指导，将推定的cas基因和crRNA编码至表达载体中。可以将编码各种cas基因和crRNA的载体引入细菌菌株中，并按实施例4和5中所述的表达和纯化I型干扰复合体。可以经由SDS-PAGE凝胶分析来自尺寸排阻色谱(SEC)柱的洗脱级分，以基于重量确定包含完整I型干扰复合体的蛋白质的性质。也可以运行溴化乙锭凝胶，以检测作为干扰复合体一部分的crRNA的存在。

如实施例6和7中所述，可以测试纯化的Cascade复合体支持DNA靶标的体外生化切割的能力。

其中未表达单个推定的cas基因的对照表达和纯化样品可用于确定所需的cas基因，这些cas基因构成能可编程的DNA靶标的完整的I型干扰复合体。

对于某些应用，从基因组序列中鉴定出单个cas基因同系物(例如，cas7)就足够了，并且不需要鉴定另外的cas基因或进行筛选。

实施例15

I型crRNAs的鉴定

本实施例描述了鉴定不同物种中的I型crRNAs的方法。这里提供给的方法自Chylinski,K.,et al.,RNA Biology 10:726-737(2013)调整而来。

如实施例17A中所述，可以进行各种物种的基因组搜索以鉴定I型CRISPR-Cas基因。包含一个或多个I型特异性cas基因的基因组是可能包含在CRISPR重复-间隔区阵列中编码的CRISPRRNAs(crRNAs)的候选基因组。可以探测与鉴定的I型cas基因(例如，cas7、cas5或cas3基因)相邻的序列，以寻找相关的CRISPR重复-间隔区阵列。可以遵循Grissa,I.V.,et.al.Nucleic Acids Res.35(网络服务器出版):W52-W57(2007)，将用于计算机预测筛选的方法用于从重复阵列提取crRNA序列。crRNA序列包含在CRISPR重复阵列中，并且可以通过外来间隔区序列所间隔的其标志重复序列进行鉴定。

A.RNA-seq文库的制备

可以使用RNA测序(RNA-seq)进一步验证包含在计算机中鉴定的单个crRNA的推定CRISPR阵列。

可以从商业资源库(例如，ATCC,Manassas,VA；German Collection ofMicroorganisms and Cell Cultures GmbH(DSMZ),Braunschweig,Germany)获得来自鉴定为包含推定的I型cas基因和crRNA组分的物种的细胞。

可以将细胞培养至对数中期，并使用Trizol试剂(SigmaAldrich,St.Louis,MO)准备总RNA，并用DNA酶I(Fermentas,Vilnius,Lithuania)处理。

可用Ribo-Zero rRNA去除试剂盒(Illumina,San Diego,CA)处理10μg的总RNA，并使用RNA净化和浓缩器(Zymo Research,Irvine,CA)纯化剩余的RNA。

可以按照制造商的指导，使用TRUSEQTM小RNA文库制备试剂盒(Illumina,SanDiego,CA)来制备文库。这将导致具有适配体序列的cDNAs。

可以使用MiSeq测序仪(Illumina,San Diego,CA)对所得的cDNA文库进行测序。

B.测序数据的处理

例如，可以使用以下方法来处理cDNA文库的测序读段。

可以使用cutadapt 1.1(pypi.python.org/pypi/cutadapt/1.1)去除适配体序列，并从读段的3'端修剪约15个核苷酸来提高读段质量。

可以使用Bowtie 2(www.bowtie-bio.sourceforge.net/bowtie2/index.shtml)将读段与各自物种(即待鉴定推定crRNA的物种)的基因组对齐。可以使用SAMTools(www.samtools.sourceforge.net/)将通过Bowtie 2生成的序列比对/图谱(SAM)文件转换为二进制比对/图谱(BAM)文件，以进行后续的测序分析步骤。

可以使用BedTools(bedtools.readthedocs.org/en/latest/)从BAM文件计算映射到CRISPR位点或基因座的读段覆盖。

可以将上一步中生成的BED文件加载到综合基因组学查看器(IGV；www.broadinstitute.org/igv/)中，以可视化测序读段堆积。读段堆可用于识别转录的推定crRNA序列的5'和3'端。RNA-seq数据可用于验证推定的crRNA元件在体内积极转录。

可以遵循实施例17A的指导，用其同源I型cas基因测试推定的crRNA进行可编程DNA靶向的能力。

实施例16

耐受Cascade向导RNA骨架中的变化的位点的探测

本实施例描述了I型向导crRNAs的各种变化的产生和测试及其用于构建Cascade多核苷酸复合体的适合性。以下描述的方法自Briner,A.,et al.,Mol.Cell 56:333–339(2014)调整而来。

可以将变化引入crRNA骨架中，并利用同源的Cascade复合体测试所得的改造的crRNA，以促进适合改造的I型向导crRNA骨架中的区域或位置的鉴定。

可以选择来自I型CRISPR系统(例如，大肠杆菌Cascade)的crRNA进行改造。可以在计算机上改造crRNA序列，以引入一个或多个碱基变化(例如，选自一个或多个以下区域的区域中的核酸序列中的取代、变化、突变、缺失和/或插入：间隔区的核酸序列5’(5’柄)、间隔区元件、I型CRISPR重复茎序列或I型CRISPR重复茎序列的3’(3’柄)。

碱基变化也可用于在任何crRNA区域的氢碱基对相互作用中引入错配，或通过取代两个碱基引入替代的氢碱基对相互作用的碱基对突变，其中替代的氢碱基对相互作用不同于原来的氢碱基对相互作用(例如，原来的氢碱基对相互作用是Watson-Crick碱基配对，且两个碱基的取代形成反向Hoogsteen碱基配对)。碱基的取代也可以用于在crRNA骨架内引入氢碱基对相互作用。

crRNA的区域可以独立地进行改造，以将二级结构元件引入crRNA骨架中。这样的二级结构元件包括但不限于以下元件：茎-环元件、茎元件、假结和核糖酶。此外，可以对crRNA骨架进行改造，以通过crRNA的5'端、3'端或内部的缺失来删除crRNA骨架的一部分。也可以引入替代的骨架结构。

可以将计算机设计的crRNA序列提供给商业制造商进行合成。

可以评估改造的crRNAs支持单个Cascade亚基蛋白(即Cas6、Cas5等)结合的能力，或支持Cascade蛋白复合体的完整形成的能力，或支持Cascade复合体形成和通过募集核酸酶(例如，Cas3)修饰双链DNA靶序列的能力。可以通过纳米-ESI质谱法以类似于Jore,M.,etal.,Nature Structural&Molecular Biology 18:529–536(2011)的方式评估与单个Cascade亚基蛋白和Cascade蛋白复合体组装体结合的crRNA。可以以与实施例6和7中所述的那些类似的方式，进行通过募集核酸酶的双链DNA靶序列的crRNA和Cascade蛋白复合体修饰的生化定征。可以使用实施例8A、实施例8B、实施例8C和实施例8D中所述的方法，验证能够通过募集核酸酶支持Cascade复合体的形成和双链DNA靶序列的修饰的改造的crRNA在细胞中的活性。

实施例17

包含DNA靶标结合序列的Cascade复合体向导的筛选

本实施例示出了使用本发明的I型CRISPR蛋白和I型向导crRNAs修饰人类gDNA(gDNA)中出现的DNA靶序列，以及测量那些位点处的切割活性水平。

可以首先从gDNA选择靶标位点(DNA靶序列)。I型向导crRNAs可以设计为靶向选择的序列。可以进行测定(例如，如实施例7中所述的)以确DNA靶序列切割的水平。

A.从gDNA选择DNA靶序列

可以鉴定选择的基因组区域中的Cascade蛋白复合体(例如，大肠杆菌I-E型Cascade)的PAM序列(例如，ATG)。

可以鉴定3’临近ATG PAM序列的一个或多个Cascade DNA靶序列(例如，32个核苷酸长度的)。

选择核酸靶序列的标准可以包括但不限于以下标准：与基因组中的其他区域同源；百分比G-C含量；溶化温度；在间隔区内存在均聚物；两条序列之间的距离；以及本领域技术人员已知的其他标准。

可以将与Cascade DNA靶序列杂交的DNA靶标结合序列掺入向导crRNAs中。向导crRNA构建体的核酸序列通常提供给商业制造商，并由其合成。

可以将如本文所述的向导crRNA与同源的I型Cascade蛋白复合体一起使用，以形成crRNA/Cascade蛋白复合体。

B.切割百分比和特异性的确定

例如，可以使用实施例7中所述的切割测定确定与向导crRNA相关的体外切割百分比和特异性(即脱靶结合的量)，并按如下进行比较：

(1)如果对于向导crRNA只鉴定或选择了单个DNA靶序列，则可以确定每个DNA靶序列的切割百分比和特异性。如果需要的话，可以在进一步的实验中使用以下方法更改切割百分比和/或特异性，包括但不限于改造向导crRNA，或引入效应子蛋白/效应子蛋白结合序列以改造向导crRNA或Cascade亚基蛋白，或配体/配体结合部分以改造向导crRNA或Cascade亚基蛋白。

(2)如果对于向导crRNAs鉴定了多种DNA靶序列或选择，则可以比较从切割测定获得的包含靶标结合序列的不同DNAs之间的切割百分比数据和位点特异性数据，以鉴定具有所需切割百分比和特异性的DNA靶序列。切割比例数据和特异性数据提供了用于各种应用的基础选择的标准。例如，在一些情况下，向导crRNA的活性可能是最重要的因素。在其他情况下，切割位点的特异性可能比切割比例相对更重要。如果需要的话，可以在进一步的实验中使用以下方法改变切割百分比和/或特异性，方法包括但不限于，改造向导crRNA、引入效应子蛋白/效应子蛋白结合序列以改造向导crRNA或Cascade亚基蛋白，或配体/配体结合部分以改造向导crRNA或Cascade亚基蛋白。

可选地，或除体外分析外，可以使用例如实施例8C和实施例8D中所述的方法获得向导crRNAs的细胞内切割百分比和特异性，并按如下进行比较：

(1)如果对于向导crRNA只鉴定或选择了单个DNA靶序列，则可以确定每个DNA靶序列的切割百分比和特异性。如果需要的话，可以在进一步的实验中使用以下方法更改切割百分比和/或特异性，方法包括但不限于改造向导crRNA，或引入效应子蛋白/效应子蛋白结合序列以改造向导crRNA或Cascade亚基蛋白，或配体/配体结合部分以改造向导crRNA或Cascade亚基蛋白。

(2)如果对于向导crRNAs鉴定或选择了多种DNA靶序列，则可以进行从切割测定中获得的包含靶标结合序列的不同DNAs的切割百分比数据和位点特异性数据的比较，以鉴定具有所需切割百分比和特异性的DNA靶序列。切割百分比数据和特异性数据提供了用于各种应用的基础选择。例如，在一些情况下，向导crRNA的活性可能是最重要的因素。在其他情况下，切割位点的特异性可能比切割百分比相对更重要。如果需要的话，可以在进一步的实验中使用以下方法改变切割百分比和/或特异性，方法包括但不限于改造向导crRNA、引入效应子蛋白/效应子蛋白结合序列以改造向导crRNA或Cascade亚基蛋白，或配体/配体结合部分以改造向导crRNA或Cascade亚基蛋白。

实施例18

用于有效的FokI-Cascade复合体基因组编辑的不同FokI-Cas8连接子组合物和间隔区间距

本实施例示出了包含FokI-Cas8和不同长度的连接子多肽的多种融合蛋白的设计和测试，以及不同间隔区间距对有效基因组编辑的影响。

A.待转染至靶细胞中的编码包含FokI融合蛋白的大肠杆菌I-E型Cascade复合体组分的载体的产生

设计了最小CRISPR阵列，以在人类基因组中的两个不同基因ADAMTSL1和PCSK9处或附近靶向一组位点。间隔区间距范围为14-60bp，以2bp为增量。每个间隔区间距设计了四个靶标。靶标的两侧是AAG或ATG PAM序列。按实施例9A中关于SEQ ID NO:454所述，克隆含有“重复区-间隔区-重复区-间隔区-重复区”序列的向导的编码序列。SEQ ID NO:625至SEQID NO:816提供了用于产生最小CRISPR阵列的全套寡核苷酸序列的序列。

将FokI-Cascade RNP亚基蛋白质组分编码基因克隆到载体中，该载体包含：使得能够在哺乳动物细胞中递送和表达的CMV启动子；经由2A病毒肽“核糖体跳跃”序列连接的cas基因；包含FokI的融合蛋白以及与30-aa连接子(SEQ ID NO:455)连接的Cas8。设计了另外的不同长度的连接子多肽序列和氨基酸组合物，并用于将FokI连接至这些载体中的Cas8蛋白。另外的连接子多肽序列列出在表43中。

B.编码FokI-Cascade RNP复合体组分的载体的转染

转染条件基本上如实施例8B中所述，具有以下修改。进行核转染前，将5μl质粒载体溶液转移至96孔板的单个孔中。每个孔中包含2.4μg编码FokI-Cascade RNP复合体亚基蛋白质组分的质粒和～1-2μg编码最小CRISPR阵列的质粒。

C.来自转染细胞的gDNA的深度测序

基本上按实施例8C所述进行了深度测序，具有以下修改。靶标特异性引物是SEQID NO:825至SEQ ID NO:1016，而不是来自实施例8C的表36的引物Y和Z。

D.深度测序数据分析

基本上按照实施例8D中所述进行深度测序数据分析。图31A和图31B示出了数据分析的结果。在图31A和图31B中，基因组编辑百分比显示为FokI-Cas8连接子类型(图31A，图31B，垂直轴14-60AA)和间隔区间距(n＝1)(图31A，图32B，水平轴，间隔区间距5-50bp的函数。在图31A中，右侧的灰度等级垂直条为插入缺失的百分比。在图32B中，单元格中的值为插入缺失的百分比。数据的初步分析显示17和20个氨基酸的(分别为SEQ ID NO:821和SEQID NO:822)且间隔区间距为～26bp和～30-32bp的FokI-Cas8连接子的基因组编辑最高。数据经过了重新处理，并去除了少于1000个序列读段的样品，因为由于覆盖率低它们可能包含虚高的编辑值(只有在所有相关的样品都包含>1000读段时才保留位点)。在图31A和图31B中提供的此数据表明17和20个氨基酸的(分别为SEQ ID NO:821和SEQ ID NO:822)且间隔区间距为～30-32bp的FokI-Cas8连接子的基因组编辑最高。因此，通过改变FokI-Cas8融合蛋白的间隔区间距和连接子多肽长度，实现了使用包含Fok1-Cas8融合蛋白的I型CRISPR-Cas复合体的高效基因组编辑。本文讨论了连接子多肽的氨基酸组合物。

实施例19

鉴定用于基因组编辑的Cascade同系物

本实施例示出了多种同源Cascade复合体的设计和测试以评估基因组编辑的效率。

A.用于测试同源Cascade复合体的位点的识别

鉴定了一组位点来测试另外的同源Cascade复合体。具体来说，最小CRISPR序列被设计为靶向人类基因组中具有30-bp间隔区间距且两侧为AAG或ATG PAM序列的一组位点。按照实施例9A中关于SEQ ID NO:454所述的方法，克隆了含有“重复区-间隔区-重复区-间隔区-重复区”序列的向导多核苷酸。用于生成最小CRISPR阵列的全套寡核苷酸序列表示为SEQ ID NO:1017至SEQ ID NO:1130(Hsa33F，SEQ ID NO:1017、和Hsa33R，SEQ ID NO:1074，例如一对)。包括了包含靶向TRAC位点的向导的阳性对照(SEQ ID NO:454)。

将FokI-Cascade RNP亚基蛋白质组分编码基因克隆到载体中，该载体包含：使得能够在哺乳动物细胞中进行递送和表达的CMV启动子；经由2A病毒肽“核糖体跳跃”序列连接的cas基因；包含与30-aa连接子(SEQID NO:455)连接的FokI和Cas8的融合蛋白。

B.编码FokI-Cascade RNP复合体组分的载体的转染

基本上按照实施例8B中所述进行转染条件，具有以下修改。进行核转染前，将5μl质粒载体溶液转移至96孔板的单个孔中。每个孔包含3μg的编码FokI-Cascade RNP亚基蛋白组分的质粒和0.3μg的编码最小CRISPR阵列的质粒。

C.来自转染细胞的gDNA的深度测序

基本上按实施例8C所述进行了深度测序，具有以下修改。代替来自实施例8C的表36的引物Y和Z，用于本实施例的靶标特异性引物为SEQ ID NO:1131至SEQ ID NO:1244。

D.深度测序数据分析

基本上按照实施例8D中所述进行深度测序数据分析。图32示出了数据分析的结果。在图32中，除了来自实施例8A的靶标Hsa07(n＝3)外，还针对58个测试位点(图32，水平轴，“靶标”；用于产生这些最小CRISPR阵列的寡核苷酸序列在上文有论述)绘制了基因组编辑百分比(图32，垂直轴，％编辑)。如图32所示，编辑的范围从～6％至低于检测限。从这些数据中，选择了一组8个位点(Hsa07以及与具有AAG PAMs的以下靶标Hsa37、Hsa43、Hsa46、Hsa60、Hsa77、Hsa88和Hsa126相对应的靶标1、3-5、10、13和16)以测试同源Cascade复合体的基因组编辑。

E.用于测试FokI核酸酶的基因组编辑的同源Cascade复合体的识别

来自不同I型系统的Cas8蛋白序列被用作psi-BLASTp的查询，以产生同系物选择的系统发育树。具体地，来自具核梭杆菌(WP_008798978.1)的Cas8被用于I-B型，来自嗜碱耐盐芽孢杆菌(WP_010896519.1)的Cas8被用于I-C型，来自大肠杆菌(WP_001050401.1)的Cas8被用于I-E型，来自铜绿假单胞菌(WP_003139224.1)的Cas8被用于I-F型，并且来自腐败希瓦氏菌(WP_011919226.1)的Cas5被用于I-Fv2型。

接下来，对psi-BLASTp进行多次迭代，直到为每种I型系统识别出数千个同系物。从该信息，使用生命交互树(the interactive Tree of Life)在线软件(iTOL,accessibleat itol.embl.de/login.cgi)构建了系统发育树。在使用可变分支长度自动折叠分支后，目视检查树。

然后将落入主要进化枝中的生物体列表输出并手动检查以进行选择。在此步骤中，对于I-E型中的12种同系物以及I-B、I-C、I-F和I-Fv2型的2-3种代表性的同系物，优先考虑选择从系统发育树的不同区域采样的同系物。基于上述系统发育分析，将cas8和cas5候选序列输入到NCBI中，并在NCBI的基因组图形浏览器中目视检查内源宿主细菌内的基因组内容物。只有在以下条件下才选择Cascade同系物：(1)它们在37℃下生长的生物体中被发现；(2)它们的cas基因操纵子是完整的，并具有所有预期的Cascade亚基蛋白编码基因、cas3基因和完整的获得基因(即cas1和cas2)；(3)它们的cas基因操纵子两侧是一个或多个CRISPR序列；以及(4)它们的CRISPR阵列包含>10个间隔区。对于一些同系物，使用CRISPRfinder程序(crispr.i2bc.paris-saclay.fr/Server/)来识别推定的PAM序列。根据上述标准，选择表44所示的22种同源Cascade复合体。

*如Sinkunas,T.,et al.,EMBO J.32:385-394(2013)所鉴定的；然而，本文示出的数据证明铜绿假单胞菌菌株ND07可以在体内利用单个A作为PAM序列。

F.用于转染至靶细胞中的编码来自22种不同的物种的FokI-Cascade RNP组分的载体的产生

来自每种同系物的每个cas基因的序列被合成为多顺反子构建体的一部分，该构建体包括包含FokI核酸酶和Cas8的融合蛋白。对于每种I-E型Cascade复合体同系物，生成了一组～7-8个靶向带有适当PAM序列的位点的向导。对于每种I-B、I-C、I-F和I-Fv2型Cascade同系物，生成了一组～2-7个靶向带有适当PAM序列的位点的向导。每种Cascade复合体同系物系统都需要独特的重复序列来处理其同源向导(SEQ ID NO:1267至SEQ ID NO:1288)。使用实施例9A中关于SEQ ID NO:454所述的方法，克隆包含“重复区-间隔区-重复区-间隔区-重复区”序列的向导的编码序列。寡核苷酸在5'端被磷酸化，并附接有突出序列，从而能够克隆到具有适当重复序列的质粒载体中。用于产生22种Cascade复合体同系物的最小CRISPR阵列的全套寡核苷酸序列表示为(SEQ ID NO:1289至SEQ ID NO:1400)。

将FokI-Cascade RNP亚基蛋白组分编码基因克隆到载体中，该载体包含：使得能够在哺乳动物细胞中进行递送和表达的CMV启动子；经由2A病毒肽“核糖体跳跃”序列连接的cas基因；包含利用30-aa连接子连接的FokI和Cas8的融合蛋白。

G.编码FokI-Cascade RNP复合体的质粒的转染

基本上按实施例8B中所述进行转染条件，具有以下修改。进行核转染前，将5μl质粒载体溶液转移至96孔板的单个孔中。每个孔中包含1.5μg的编码FokI-Cascade RNP亚基蛋白组分的质粒和～0.5-1.5μg的编码最小CRISPR阵列的质粒。实验以一式三份进行，并且包括来自大肠杆菌的靶向8个位点(来自实施例8A的Hsa07以及来自实施例19F和实施例19G的Hsa37、Hsa43、Hsa46、Hsa60、Hsa77、Hsa88、Hsa126)的FokI-Cascade RNP复合体(SEQ IDNO:455)作为阳性对照。如先前所述，以下寡核苷酸被用于产生与大肠杆菌阳性对照一起使用的最小CRISPR阵列：Hsa37(SEQ ID NO:1019；SEQ ID NO:1076)、Hsa43(SEQ ID NO:1024；SEQ ID NO:1081)、Hsa46(SEQ ID NO:1027；SEQ ID NO:1084)、Hsa60(SEQ ID NO:1037；SEQID NO:1094)、Hsa77(SEQ ID NO:1045；SEQ ID NO:1102)、Hsa88(SEQ ID NO:1050；SEQ IDNO:1107)、Hsa126(SEQ ID NO:1072；SEQ ID NO:1129)。

H.来自转染细胞的gDNA的深度测序

基本上按实施例8C所述进行了深度测序，具有以下修改。代替来自实施例8C的表36的引物Y和Z，用于本实施例的靶标特异性引物为SEQ ID NO:1401至SEQ ID NO:1512。对于两种I-E型RNP复合体和I-B、I-C、I-F和I-Fv2型RNP复合体，包括了包含大肠杆菌I-E型Cascade的对照样品，以便进行比较，并利用与来自实施例8A的靶标Hsa07以及来自本实施例的Hsa37、Hsa43、Hsa46、Hsa60、Hsa77、Hsa88、Hsa126相对应的靶标特异性引物进行测序。更具体地，对于这些靶标使用了以下靶标特异性的扩增引物：Hsa37(SEQ ID NO:1133；SEQID NO:1190)、Hsa43(SEQ ID NO:1138；SEQ ID NO:1195)、Hsa46(SEQ ID NO:1141；SEQ IDNO:1198)、Hsa60(SEQ ID NO:1151；SEQ ID NO:1208)、Hsa77(SEQ ID NO:1159；SEQ ID NO:1216)、Hsa88(SEQ ID NO:1164；SEQ ID NO:1221)、Hsa126(SEQ ID NO:1186；SEQ ID NO:1243)。

I.深度测序数据分析

基本上按实施例8D所述进行深度测序数据分析。图33A和图33B显示了来自这些实验的结果。在图33A中，垂直轴是编辑百分比(图33A，％编辑)，并且水平轴上的数字是与I-E型同系物系统相对应的SEQ ID编号。利用许多I-E型FokI-Cascade同系物观察到编辑(图33A)。利用来自假单胞菌S-6-2的变体观察到最高编辑，而其他同系物(即肠道沙门氏菌、地热杆菌EPR-M、稻田甲烷胞菌MRE50和嗜热链球菌(菌株ND07))显示大约等于大肠杆菌的编辑。在图33B中，垂直轴是编辑百分比(图33B，％编辑)，并且水平轴上的数字是与I-B、I-C、I-F和I-Fv2型同系物系统相对应的SEQ ID编号。利用来源于I-B、I-C、I-F和I-Fv2型的FokI-Cascade RNPs的编辑低于检测限(图33B)。

本实施例提供了筛选I型同系物以鉴定提供基因组编辑能力的I型系统的方法。另外的I型同系物筛选描述于实施例22。

实施例20

假单胞菌S-6-2中用于高效基因组编辑的不同FokI-Cas8连接子长度和间隔区间距

本实施例示出了包含不同长度的FokI-Cas8和连接子多肽的多种融合蛋白的设计和测试，以及不同间隔区间距对利用假单胞菌S-6-2I-E型CRISPR-Cas系统的高效基因组编辑的影响。

A.编码待转染至靶细胞中的FokI-Cascade RNP组分的载体的产生

最小CRISPR阵列被设计为靶向人类基因组中的一组位点。间隔区间距范围为23-34bp，增量为1bp。每个间隔区间距设计了八种靶标，并且靶标的两侧是AAG PAM序列。使用3种寡核苷酸(SEQ ID NO:1513至SEQ ID NO:1515)和编码使得能够进行FokI-Cascade靶向的“重复区-间隔区-重复区-间隔区-重复区”序列的独特的引物，利用基于PCR的组装(寡聚物模板化的PCR扩增)产生了最小CRISPR阵列。用于产生最小CRISPR阵列的整套独特的寡核苷酸序列是SEQ ID NO:1516至SEQ ID NO:1704。基本上按照制造商的说明，使用

(Beckman Coulter,Pasadena,CA)珠子纯化和浓缩PCR组装的向导。

将FokI-Cascade RNP亚基蛋白组分编码基因克隆至载体中，该载体包含：使得能够在哺乳动物细胞进行递送和表达的CMV启动子、经由2A“核糖体跳跃”序列连接的cas基因和利用30-aa连接子(SEQ ID NO:1748)附接至Cas8的FokI。设计了不同长度的另外的连接子多肽序列，并用于将FokI与Cas8蛋白连接以形成融合蛋白。连接子多肽序列列出在表45中。

B.编码FokI-Cascade RNP复合体组分的载体的转染

除了具有以下修改外，基本上按照实施例8B中所述进行转染条件。进行核转染前，将5μl质粒载体溶液转移至96孔板的单个孔中。每个孔包含5μg编码FokI-Cascade RNP蛋白组分的质粒和～0.1-0.5μg编码最小CRISPR阵列的线性PCR产物。

C.来自转染细胞的gDNA的深度测序

基本上按实施例8C中所述进行深度测序。靶标特异性引物是SEQ ID NO:1705至SEQ ID NO:1803，而不是来自实施例8C的表36的引物Y和Z。

基本上按实施例8D中所述进行深度测序数据分析。图34显示了95个位点(n＝1)处的基因组编辑(图34，垂直轴“％编辑)。在图34中，水平轴对应于碱基对的间隔区间长度(图34，bp间隔区间)。从左至右的3幅条形图17AA(图34，空心条)、20AA(图34，交叉线条)和30AA(图34，条形条)代表的连接子长度。编辑范围为～50％(图34，误差条，显示了均值+/-1s.d.)至低于检测限，并且与间隔区间距和连接子多肽长度相关。本文中讨论了连接子多肽的氨基酸组合物。～30-33bp的间隔区间距和17和20个氨基酸的连接子多肽长度提供了非常高效的编辑。

支持本发明的来自基本上根据本实施例中所示的相同的方案进行的另外的实验的数据提供在图41A、图41B和图41C中。在这些图中，垂直轴是编辑效率(％)，并且水平轴是bp的间隔区间距(23-34bp)。数据扩充了3种Cascade同系物变体FokI-PseCascade(图41A)、FokI-EcoCascade(图41B)和FokI-SthCascade(图41C)的FokI-Cas8连接子长度和间隔区间距的筛选。编辑效率百分比表示为17aa、20aa和30aa(图41A、图41B和图41C：从左至右，17aa、20aa和30aa)和间隔区间距的FokI-Cas8连接子长度的函数。每个点代表单个基因组位点，并且每个间隔区间距测试7–8个位点。均值显示在条形图中。如从这些数据可以看出的，～30-33bp的间隔区间距和17、20和30个氨基酸的连接子多肽长度为FokI-PseCascade提供了高效的编辑，～31-33bp的间隔区间距和17、20和30个氨基酸的连接子多肽长度为FokI-EcoCascade提供了高效的编辑，并且～29-31bp的间隔区间距和17、20和30个氨基酸的连接子多肽长度为FokI-SthCascade提供了高效的编辑。

实施例21

利用Cas3-FokI和FokI-Cas8使得能够进行FokI-Cascade基因组编辑

本实施例示出了使用Cas3-FokI和FokI-Cascade来诱导FokI的二聚化，以在人类基因组中的位点处产生双链断裂(参见，例如图16A、图16B和图16C)。更具体地，本实施例详细描述了用于产生基因组编辑效率的多种Cas3-FokI连接子组合物和长度以及FokI-Cas8连接子组合物和长度的设计和测试。

A.编码待转染至靶细胞中的FokI-Cas3和FokI-Cascade RNP组分的载体的产生

最小CRISPR阵列被设计靶向人类基因组中的两侧为AAG PAMs的三个不同的位点。选择的位点以前显示支持通过向导指导的大肠杆菌FokI-Cascade二聚物的间隔区间编辑，并因此已知可以允许FokI-Cascade结合(例如，Hsa37、Hsa43和Hsa46)。

上面实施例中描述的FokI-Cascade系统使用了两种FokI Cascade复合体(参见，例如图15A、图15B和图15C)；因此，可以使用指定第一核酸靶标位点的第一向导序列和指定第二核酸靶标位点的第二向导序列。由于Cas3-FokI-FokI-Cascade系统仅需要单个PAM，因此包含“重复区-间隔区-重复区”的向导应足以促进功能Cascade复合体与核酸靶标位点的结合。也可以使用含有“重复区-间隔区-重复区-间隔区-重复区”的多核苷酸，但是通常在本实施方案中，两个间隔区序列指导Cascade复合体结合到相同的核酸靶序列上；也就是说，两个间隔区可以具有相同的序列。基本上按实施例9A中关于SEQ ID No:454所述克隆向导。以下退火的寡核苷酸被用于产生最小CRISPR阵列：Hsa37(SEQ ID NO:1019；SEQ ID NO:1076)、Hsa43(SEQ ID NO:1024；SEQ ID NO:1081)和Hsa46(SEQ ID NO:1027；SEQ ID NO:1084)。

如实施例9A中所述，将FokI-Cascade RNP蛋白组分编码基因克隆至含有MV启动子的质粒载体中，以能够使得在哺乳动物细胞中进行递送和表达。cas基因经由2A“核糖体跳跃”序列连接。此外，利用30-aa连接子(SEQ ID NO:455)将FokI融合至Cas8。设计了不同长度的另外的连接子序列和组合物，并用于连接FokI至Cas8蛋白。这样的序列的实例列出在表46中。

使用30-aa连接子在C端将来自大肠杆菌的Cas3蛋白与FokI融合。利用NLS序列在N端(SEQ ID NO:1806)进一步改造该融合物。设计了不同长度的另外的连接子序列和组合物，并用于将FokI连接至Cas3蛋白(表46和SEQ ID NO:1804至SEQ ID NO:1807)。

产生了另外的Cas3-FokI融合构建体，其中Cas3蛋白的解旋酶或核酸酶活性被失活(SEQ ID NO:1808至SEQ ID NO:1815)。解旋酶和核酸酶活性通过分别制造Cas3蛋白的D452A和D75A突变而受损(参见，例如Mulepati,S.,et al.,J.Biol.Chem.288:22184-22192(2013))。

B.编码FokI-Cascade RNP复合体的质粒的转染

按实施例8B所述进行转染条件，具有以下修改。进行核转染前，将5μl质粒载体溶液转移至96孔板的单个孔中。每个孔包含以下三种组分：3μg的编码一组FokI-Cascade RNP蛋白组分的质粒、3μg的编码Cas3-FokI的质粒和0.5μg的编码最小CRISPR阵列的质粒。将96孔板设置为基质，以提供三种组分的所有组合。

C.来自转染细胞的gDNA的深度测序

按实施例8C中所述进行深度测序，具有以下修改。代替来自实施例8C的表36的引物Y和Z，本实施例中使用的靶标特异性引物如下：SEQ ID NO:1133和SEQ ID NO:1190(Hsa37靶标位点)、SEQ ID NO:1138和SEQ ID NO:1195(Hsa43靶标位点)，以及SEQ ID NO:1141和SEQ ID NO:1198(Hsa46靶标位点)。

D.深度测序数据分析

按实施例8D中所述进行深度测序数据分析，除了记录FokI-Cascade结合位点PAM序列上游的～1bp至～25bp的插入缺失外。以这种方式，可以确定支持最有效编辑的FokI-Cas8连接子序列、Cas3-FokI连接子序列和Cas3变体的组合。

实施例22

筛选改造的同源FokI-Cascade复合体

本实施例示出了具有不同数量的亚基的多个同源的Cascade复合体的设计和测试，以评估基因组编辑的效率。本实施例扩展了实施例19中描述的分析。

A.待转染至FokI-Cascade RNP复合体的靶细胞中的DNA模板组分的产生

设计了最小CRISPR阵列，以将两种FokI-Cascade RNP复合体靶向人类基因组中gDNA的相对链上的相邻位点。FokI-Cascade构建体来源于含有以下3种或4种基因的11种同源的物种中的每种：具核梭杆菌(Fnu，I-B型)、胎儿弯杆菌(Cfe，I-B型)、内脏臭气杆菌(Osp，I-B型)、嗜碱耐盐芽孢杆菌(Bhe，I-C型)、普通脱硫弧菌(Dvu，I-C型)、霍乱弧菌菌株L15(Vch，I-F型)、产酸克雷伯氏菌(Koh，I-F型)、铜绿假单胞菌(Pae，I-F型)、腐败希瓦氏菌(Spu，I-Fv2)、不动杆菌(Aci，I-Fv2型)、霍乱弧菌菌株HE48(Vch_v2，I-Fv2型)。

设计了第一和第二改造的第一类I型CRISPR-Cas效应子复合体，其中第一向导多核苷酸包含能够结合第一核酸靶序列的第一间隔区，第二向导多核苷酸包含能够结合第二核酸靶序列的第二间隔区，并且第一核酸靶序列的PAM和第二核酸靶序列的PAM具有14个碱基对至60个碱基对的间隔区间距。两种改造的第一类I型CRISPR-Cas效应子复合体的定向使得相对于向导RNA靶序列，PAMs朝向内(即，PAM在内的方向)。PAM序列对于I-B型是TCA，对于I-C型是TTC，并且对于I-F、I-Fv2型(在CRISPR阵列中，I-F型和I-Fv2型具有不同的重复序列；参见表47和表44)是CC。

基本上按本文所述(例如，实施例20A；以及图42A和图42B)，使用3种寡核苷酸和编码使得能够进行FokI-Cascade RNP复合体靶向的“重复区-间隔区-重复区-间隔区-重复区”序列的独特的引物，利用基于PCR的寡聚物模板化的组装体产生了最小CRISPR阵列。对于I-B型和1-C型，使用了非通用的反向寡核苷酸引物。基本上按实施例20A中所述，使用

珠子(Beckman Coulter,Pasadena,CA)纯化和浓缩PCR组装的最小CRISPR阵列。

在改造的第一类I型CRISPR-Cas效应子复合体中，对于I-B型、I-C、I-F复合体，将FokI编码序列融合至Cas8的N端，且对于I-Fv2型复合体，融合至Cas5的N端。将FokI-Cascade RNP蛋白组分编码基因克隆至包含以下成分的载体(参见表44和表47)中：使得能够在哺乳动物细胞中递送和表达的CMV启动子、经由2A“核糖体跳跃”序列连接的cas基因，以及利用30-aa连接子附接至Cas8(或在I-Fv2型同系物的情况下利用30-aa连接子附接至Cas5)的FokI单体。

B.编码改造的FokI-Cascade RNP复合体组分的载体的转染

基本上按照实施例8B中所述进行转染条件，具有以下修改。进行核转染之前，将5μL的含有DNA模板的溶液转移至96孔板的单个孔中，其中孔中含有约1.5μg的编码同源的FokI-Cascade复合体的组分的每种质粒，以及0.4μg的编码最小CRISPR阵列的线性PCR产物。

C.来自转染的细胞的gDNA的深度测序

基本上按实施例8C中所述进行深度测序。然而，代替来自实施例8C的表36的引物Y和Z，使用了不同的靶标特异性引物。图43示出了数据分析的结果。在图43中，基因组编辑百分比显示为FokI-Cascade同系物变体的函数(图43，水平轴，11种同系物变体由以上所示的缩写标识，并且在水平轴上以相同的顺序出现)和间隔区间距(图43，垂直轴，14-60bp)；右侧的灰度等级垂直条为插入缺失的百分比。以给定间隔区间距的每次测量均代表4个靶标位点间的平均编辑(每个靶标位点n＝1)。在测试的靶标位点中，大部分改造的FokI-Cascade直系同源复合物的编辑均低于检出限，而使用改造的霍乱弧菌菌株L15(I-F型)FokI-Cascade复合体编辑的范围从低于检出限至高达～2％插入缺失，其中间隔区间距为26bp至28bp时观察到最高编辑。FokI-Cascade复合体在改造后的霍乱弧菌菌落HE48(I-Fv2型)中也观察到，其范围从检测限以下到

1.5％，间隔区之间在42bp和46bp之间。利用改造的霍乱弧菌菌株HE48(I-Fv2型)FokI-Cascade复合体也观察到编辑，范围为低于检测限至～1.5％，间隔区间距为42bp至46bp。

本实施例中的数据说明了本文详细描述的方法可以有效地用于鉴定能有效进行基因组编辑的同源的Cascade复合体。

实施例23

使用mCas3蛋白限制细胞中的缺失长度

本实施例示出了如何突变Cas3蛋白，使得所得的Cas3诱导的缺失相对于利用wtCas3蛋白产生的那些更短，以用于基因组编辑(例如，在人类细胞中)。

A.Cascade和Cas3 DNA模板组分的产生

设计了最小CRISPR阵列以将大肠杆菌Cascade(EcoCascade)RNP复合体靶向在人类基因组中的chr2(HZGJ基因)上具有AAG PAM的基因组位点。接下来，利用基于PCR的组装，使用3种寡核苷酸(SEQ ID NO:1513至SEQ ID NO:1515；实施例20A)和编码使得能够进行EcoCascade RNP靶向(SEQ ID NO:1818)的“重复区-间隔区-重复区-间隔区-重复区”序列的独特的引物产生了最小CRISPR阵列。所得的扩增子包含驱动最小CRISPR阵列的表达的hu6启动子。对于该最小CRISPR阵列，将相同的序列用于两种间隔区序列。使用

珠子(Beckman Coulter,Pasadena,CA)纯化和浓缩PCR组装的最小CRIPSR阵列。

为了降低突变体蛋白质在DNA上的DNA易位性(即沿着DNA的长度移动)，设计了一系列的CasCas3(EcoCas3)突变体变体。设计了一组大肠杆菌Cas3(EcoCas3)突变体变体，以降低突变体蛋白在DNA上的DNA易位进行性(即沿DNA的长度移动)，并使保持DNA核酸酶活性。

参考结合至单链DNA底物(Huo,Y.,et.al.,Nat.Struct.Mol.Biol.(9):771-777(2014))的褐色嗜热裂孢菌Cas3的晶体结构、功能蛋白域的位置和与其他Cas3直系同源物的同源，在EcoCas3(大肠杆菌(P38036)Cas3氨基酸序列：UniProtKB-P38036(CAS3_ECOLI))中制作了一组24种不同的突变，以调节解旋酶域中的ATP结合/水解区域(即G317A、S318A、G319A、K320N、T321N、Q297E、D452E、E453N、R662A、R665Q)或解旋酶域的ssDNA环结合/ssDNA路径保守区域(即T346A、Q347N、G375A、K412G、T423A、D425H、Q426T、H601A、A602V、R603Q、R609S、T635A、Q636A、Q640H)。表48列出了EcoCas3野生型蛋白和突变体蛋白、编码序列(核苷酸序列)的质粒和相应的氨基酸序列。

*相对于野生型EcoCas3蛋白序列

将EcoCascade RNP蛋白组分编码基因以及野生型(wt)和突变体EcoCas3基因克隆至包含CMV启动子的载体中，以使得能够在哺乳动物细胞中进行递送和表达。经由2A“核糖体跳跃”序列连接EcoCascade RNP cas基因，并且所有基因都包含N端NLS序列以将编码的蛋白导向核(EcoCascade多顺反子质粒，核苷酸序列SEQ ID NO:1871，多顺反子的氨基酸序列1872)。

B.编码改造的EcoCascade RNP的载体、野生型EcoCas3蛋白和突变体EcoCas3蛋白的转染

基本上按实施例8B中所述进行转染条件，具有以下修改：进行核转染之前，将6μL的包含DNA模板的溶液转移至96孔板的单个孔中–含有3μg的编码EcoCascade复合体蛋白的质粒、1μg的编码野生型或突变体EcoCas3蛋白的质粒以及0.2μg的编码最小CRISPR阵列的线性PCR产物的孔。在转染后约4天收获gDNA。

C.来自转染的细胞的gDNA的深度测序

基本上按实施例8C中所述进行深度测序。然而，靶标特异性引物是SEQ ID NO:1873至SEQ ID NO:1874，而不是来自实施例8C的表36的引物Y和Z；而且，使用了MiSeq试剂盒v3，600个循环(Illumina,San Diego,CA)。基本上按照实施例8D中所述进行深度测序数据分析，具有以下修改：(1)记录了在扩增子(扩增子位置：chr2:68156987-68157510；长度＝524个核苷酸)窗中的任何位置具有至少一个读段且具有大于3个核苷酸的缺失的独特读段类别(在本文中称为“独特的缺失类别”；类别不会按读段计数加权，因为扩展偏差可能会影响具有较长缺失的产品的读段计数)，(2)具有插入或多个缺失的读段类别被丢弃，和(3)缺失起始位点和终止位点被映射在样本之间比较。

图45A、图45B、图45C和图45D显示了利用包含野生型EcoCas3蛋白(n＝21)、缺少EcoCas3蛋白(n＝3)或突变体EcoCas3蛋白(n＝3)的EcoCascade RNP复合体在HZGJ位点处的基因组编辑。图45A在垂直轴上显示了独特缺失类别的数量(图45A，0-600)，并且在水平轴上显示了EcoCas3蛋白变体(图45A，从左至右，野生型对照(WT)、无Cas3蛋白对照和m1Cas3蛋白至m24Cas3蛋白，以表48中给出的顺序)。这里，引起524bp扩增子窗中的独特缺失类别数量增加的Cas3突变体变体是用于减少易位进行性(即沿DNA长度移动)的候选物。图45B在垂直轴上显示了碱基对的平均缺失长度，并且在水平轴上显示了EcoCas3蛋白变体(关于图45A的相同的顺序)。与独特的缺失类别测量一样，在524bp扩增子窗口内产生较小缺失长度的Cas3突变体变体是用于减少易位进行性的候选物。图45C在垂直轴上显示了相对于EcoCascade PAM上游6bp位点(即Cas3切口位点附近)的平均缺失起始位置(bp)，并且在水平轴上显示了EcoCas3蛋白变体(关于图45A的相同顺序)。图45D在垂直轴上显示了相对于EcoCascade PAM上游6bp位点(即预期的Cas3切口位点附近)的平均缺失终止位置(bp)，并且在水平轴上显示了EcoCas3蛋白变体(关于图45A的相同顺序)。这里，显示缺失起始和终止位置更接近EcoCas3预期的切口位点的Cas3突变体，被认为是用于减少易位进行性(即沿着DNA长度移动)的强候选物。总之，显示出扩增子窗中增加的独特缺失类别、扩增子窗中的较短的缺失类别以及扩增子窗中的位置移位的缺失类别的一些组合的Cas3突变体，是用于减少易位进行性的强候选物。

数种突变体给出了指示减少了缺失长度的改变的修复模式。相对于野生型EcoCas3蛋白，突变体EcoCas3蛋白D452H和A602V均显示：(1)扩增子窗内独特缺失类别的数量大量增加，其可以指示更短的缺失，和(2)在扩增子窗中，缺失移到了相对于野生型EcoCas3蛋白更接近EcoCas3起始位点，其也可以指示更短的缺失。突变体EcoCas3蛋白A602V在扩增子窗中相对于野生型EcoCas3蛋白也显示出更小的缺失。突变D452H和A602V均已预测会影响ssDNA环结合。本实施例中的数据表明，与Cascade RNP复合体结合时，当引入和在人类细胞中表达时，可以在Cas3蛋白中引入突变以减少相对于wtCas3蛋白的缺失长度，并提供有关如何制备和使用包含突变的Cas3蛋白来调节细胞中gDNA的缺失长度的指导。

实施例24

使用路障限制Cas3诱导的缺失长度

在本申请中描述了数种限制和/或限定通过与Cas3蛋白相关的Cascade RNP复合体所促进的缺失长度的方法。这就是如何使用蛋白质包版限制Cas3缺失的原因。本实施例示出了如何能够将蛋白路障用于限制Cas3缺失。

A.Cas3蛋白和EcoCascade RNP DNA模板组分的产生

设计了最小CRISPR阵列，以将大肠杆菌Cascade(EcoCascade)RNP靶向人类基因组中chr2(HZGJ基因)上具有AAG PAM的基因组位点。接下来，基本上按实施例20A中所述，使用寡核苷酸(SEQ ID NO:1513至SEQ ID NO:1515)和编码使得能够进行EcoCascade RNP靶向的“重复区-间隔区-重复区-间隔区-重复区”序列的引物，利用基于PCR的组装产生了最小CRISPR阵列。对于该最小CRISPR阵列，两个间隔区序列是相同的。主要根据制造商的说明，使用

(Beckman Coulter,Pasadena,CA)珠子纯化和浓缩PCR组装的向导。将改造的EcoCascade蛋白组分编码基因以及大肠杆菌Cas3(EcoCas3)基因克隆至含有CMV启动子的载体中，以使得能够在哺乳动物细胞中进行递送和表达。经由2A“核糖体跳跃”序列(质粒核苷酸序列，SEQ ID NO:1871；多顺反子的蛋白序列，SEQ ID NO:1872)连接EcoCascadeRNP cas基因，并且所有基因均包含N端NLS序列以将编码的蛋白导向核。

B.dCas9-VP64/sgRNA RNP复合体的产生

其中复合体被用作路障以终止与Cascade RNP复合体相关的Cas3蛋白的易位进行性(即沿DNA移动)的dCas9-VP64/sgRNA RNP复合体的sgRNA组分，通过体外转录(T7快速高产率RNA合成试剂盒,New England Biolabs,Ipswich,MA)而产生。使用5'重叠引物的PCR被用于组装dsDNA模板，以用于sgRNA组分的转录。dsDNA模板在DNA序列的5'端处掺入了T7启动子。表49中示出了用于产生sgRNA模板的组分、模板和引物。

组装sgRNA DNA模板的PCR反应按如下进行，其中反应混合物包含：一种浓度为40nM的“内部”DNA引物(SEQ ID NO:1889至SEQ ID NO:1899)，两种浓度为500nM的“外部”DNA引物引物(SEQ ID NO:1887和SEQ ID NO:1888；包含T7启动子和RNA序列的3'端)。基本上按照制造商的说明，使用Q5热启动高保真2X预混液(New England Biolabs,Ipswich,MA)进行PCR反应。使用以下热循环条件进行PCR组装反应：98℃ 2分钟、11个循环的98℃ 10秒、58℃ 20秒、72℃ 20秒，以及最终的72℃下延伸1分钟。

在37℃下，使用T7高产率RNA合成试剂盒(New England Biolabs,Ipswich,MA)，将约0.25-0.5μg的每种sgRNA DNA模板转录约16小时。转录反应物经DNA酶I处理(NewEngland Biolabs,Ipswich,MA)。具有融合至C端的VP64效应子域并且NLS标签附接在VP64的C端上的dCas9蛋白(D10A&H840A；参见，例如Sander,J.D.,et al.,Nat.Biotechnol.32:347–355(2014))，(N-NLS-VP64编码序列-dCas9编码序列-C)，从大肠杆菌中的细菌表达载体(BL21(DE3))表达而来，并使用亲和色谱、离子交换色谱(IEC)和尺寸排阻色谱(SEC)，基本上按Jinek,M.,et al.,Science 337:816-821(2012)所述进行纯化。

C.编码EcoCas3的载体和EcoCascade RNP复合体组分的组分以及dCas9-VP64/ sgRNA RNP复合体的转染

基本上按照实施例8B所述进行HEK293细胞的转染，具有以下修改：

对于Cas3/EcoCascade RNP复合体形成，将4μL的包含编码EcoCas3蛋白和EcoCascade蛋白的DNA模板的溶液转移至96孔板的单个孔中，其中所述孔包含3μg的编码EcoCascade蛋白的质粒、0.2μg的编码最小CRISPR阵列的线性PCR产物，以及0、1或3μg的编码EcoCas3的质粒；以及

对于Cas3-EcoCascade RNP复合体形成，3μg的编码Cas3-EcoCascade蛋白组分的质粒，其中Cas3利用17-aa连接子连接至Cas8蛋白，并且0.2μg的编码最小CRISPR阵列的线性PCR产物。

接下来，组装了dCas9-VP64/sgRNA RNP复合体。具体地，将sgRNAs在95℃下孵育2分钟，然后允许其平衡至室温约5分钟。将dCas9-VP64蛋白与sgRNA一起在反应缓冲液(20mMHEPES,pH 7.5,100mM KCL,5mM MgCl₂,5％甘油)中以1:3的比例于37℃下混合10分钟。将组装的dCas9-VP64/sgRNA RNP复合体以不同的剂量转移到96孔板的孔中，以转染到细胞中，建立基质，其中每种Cas3/EcoCascade或Cas3-EcoCascade混合物接受0、5、20或50pmol的dCas9-VP64路障。核转染后4天从细胞中收获gDNA。

D.来自转染的细胞的gDNA的深度测序

基本上按照实施例23C中的描述进行深度测序和数据分析。图46A、图46B和图46C示出了一系列的热图，这些热图表明了在dCas9-VP64/sgRNA RNP复合体路障缺失或存在的情况下，Cas3/EcoCascade(利用1μg或3μg的Cas3表达质粒，分别为图46A和图46B)或Cas3-EcoCascade(图46C)的与所示的dCas9-VP64/sgRNA RNP复合体所靶向结合的位置(即，路障的位置，图46A、图46B、图46C，黑色箭头)相关的HZGJ位点(图46A、图46B和图46C，空心箭头表示预期的Cas3切口位点)处的缺失起始位点的频率。在HZGJ位点处总共评估了11个路障(F1-F6和R1-R5)。在图46A、图46B和图46C中，“F”是指dCas9-VP64/sgRNA RNP复合体的正向取向，其中正向取向意指与朝向EcoCascade RNP复合体的核酸靶标结合位点的PAM的dCas9-VP64/sgRNA RNP复合体的核酸靶标结合位点相关的PAM；“R”是指dCas9-VP64/sgRNARNP复合体的反向取向，其中反向取向意指与dCas9-VP64/sgRNA RNP复合体的核酸靶标结合位点相关的PAM不朝向EcoCascade RNP复合体的核酸靶标结合位点的PAM。在靶标位点指示器(F1-F6和R1-R5)的右侧，数字1、2、3和4分别对应于0、5、20或50pmol的dCas9-VP64/sgRNA RNP复合体。每张热图上方的数字(-440至+100)对应于扩增子窗中的bp，其中0位点被指定为EcoCascade RNP PAM上游6bp。每张热图左侧的灰度等级条代表突变体类别的分数(0.0-0.5)。对于路障F4、F5和F6，缺失起始位点似乎高度富集在dCas9-VP64/sgRNA RNP复合体路障放置位点附近。

图47A和图47B显示了用3μg Cas3-EcoCascade和0pmol(图47A)或50pmol(图47B)dCas9-VP64/sgRNA RNP复合体路障进行核转染的样品的扩增子窗中所有缺失的数据。在图47A和图47B中，空心箭头指示EcoCas3蛋白切口位点的相对位置。在图47B中，黑色箭头显示了路障设置；即dCas9-VP64/sgRNA RNP复合体的靶标结合位点)。在图47A和图47B中，垂直轴代表缺失的3'端，单位为在扩增子窗内的bp，并且“0”位点是EcoCascade RNP PAM上游指定为6bp的位点；并且水平轴代表缺失的5'端，单位为在扩增子窗内的bp，并且“0”位点被指定为EcoCascade RNP PAM上游6bp。在图47A和图47B中，水平虚线代表缺失的3’端的平均位置，并且垂直虚线代表缺失的5’端的平均位置。图47A和47B中的每个的顶部上的条形图对应于缺失的5'端的分布，并且曲线代表缺失的5'端的核密度估计。类似地，图47A和47B中的每个右边的条形图对应于缺失的3'端的分布，并且曲线代表缺失的3'端的核密度估计。缺失起始位点在图47B中的黑色箭头附近高度富集，强烈表明路障阻止了Cas3删除路障上游的gDNA。

本实施例中的数据支持使用蛋白质路障来控制由与Cascade RNP复合体相关的Cas3蛋白介导的缺失长度；因此，提供了使用与Cascade RNP复合体相关的Cas3蛋白来促进细胞的gDNA中的具有限定长度的缺失的形成的方法。

实施例25

使用连接至Cascade复合体的ATP酶缺陷型突变体来通过成对的切口诱导靶向基因组缺失

本实施例示出了Cas3 ATP酶缺陷型突变体蛋白(mCas3蛋白)如何能够用于在基因组DNA的相对链上促进成对的切口以诱导靶向缺失。

A.mCas3蛋白/EcoCascade和mCas3蛋白-EcoCascade RNP复合体DNA模板组分的产生

使得最小CRISPR阵列将两种大肠杆菌Cascade(EcoCascade)(SEQ ID NO:1871)RNP复合体靶向人类基因组中的gDNA的相对链上的临近的位点。设计了大肠杆菌D452AmCas3蛋白(mCas3[D452A])，一种无解旋酶活性并因此仅具有切口活性的ATP酶缺陷型变体(参见，例如Mulepati,S.,et al.,J.Biol.Chem.288:22184–22192(2013))，以在EcoCascade RNP复合体募集后经由成对的切口诱导靶向缺失。mCas3[D452A]蛋白被表达为与EcoCascade(SEQ ID NO:1900)分离的单一组分，或表达为通过17个氨基酸的多肽连接子连接至EcoCascade RNP复合体(SEQ ID NO:1901)内的Cas8蛋白的融合蛋白。当将mCas3[D452A]蛋白表达为单一组分时，编码序列提供在表达载体上，其中其表达处于CMV启动子的控制下。Cas3[D452A]蛋白/EcoCascade是指表达为与EcoCascade分离的组分的mCas3[D452A]蛋白。mCas3[D452A]蛋白–Cascade RNP是指作为连接至EcoCascade RNP复合体内的Cas8蛋白的融合蛋白的mCas3[D452A]。将mCas3[D452A]蛋白–Cascade RNP蛋白组分编码基因克隆至包含以下成分的载体中：使得能够在哺乳动物细胞中进行递送和表达的CMV启动子、经由2A“核糖体跳跃”序列连接的cas基因，以及利用17-aa连接子(SEQ ID NO:1901)附接至Cas8以制备mCas3[D452A]-Cas8融合蛋白的Cas3的ATP酶缺陷型突变体变体(D452A)。当将mCas3[D452A]蛋白表达为与Cas8蛋白的融合蛋白时，融合蛋白组装为EcoCascade RNP复合体(mCas3[D452A]蛋白–EcoCascade RNP复合体)的一部分。

两个向导靶序列(向导偏移量)之间的距离在1bp和120bp之间。确定了EcoCascadeRNP复合体的方向，使得PAMs相对于向导RNA靶序列朝向内(PAM在内)或朝向外(PAM在外)。与核酸靶序列相关的PAM序列选自以下：AAT、ATA、AAC、AAA、GAG、ATG、AGG或AAG。

使用3种寡核苷酸(SEQ ID NO:1513to SEQ ID NO:1515)和编码使得Cascade RNP能够靶向临近的位点的“重复区-间隔区-重复区-间隔区-重复区”序列的独特的引物，利用基于PCR的组装产生了最小CRISPR阵列。所得的扩增子将包含驱动包含向导的编码序列的最小CRISPR阵列的表达的hu6启动子(参见，例如实施例20A；图42A)。基本上按照制造商的说明，使用

(Beckman Coulter,Pasadena,CA)珠子纯化和浓缩PCR组装的最小CRISPR阵列。

B.编码FokI-Cascade RNP复合体组分的载体的转染

基本上按照实施例8B中所述进行转染条件，具有以下修改。进行核转染之前，将5μL含有DNA模板的溶液转移至96孔板的单个孔中。对于mCas3[D452A]蛋白/EcoCascade RNP复合体表达，孔包含1.5μg的编码mCas3[D452A]蛋白的质粒和1.5μg的编码EcoCascade的质粒，以及0.3μg的编码最小CRISPR阵列的线性PCR产物。对于mCas3[D452A]蛋白–EcoCascadeRNP复合体表达，孔包含3μg的编码mCas3[D452A]–EcoCascade蛋白(包括mCas3[D452A]-Cas8融合蛋白)的质粒，以及0.3μg的编码最小CRISPR阵列的线性PCR产物。

C. 来自转染的细胞gDNA的深度测序

测试了包含多个靶标位点的六个基因座在gDNA的相对链上的成对的缺口(HZGJ基因座，30个靶标位点；NPHP3-ACAD11基因座，60个靶标位点；JAK1基因座1，49个靶标位点；JAK1基因座2，33个靶标位点；NMNAT2基因座，38个靶标位点；和ERBB2基因座，26个靶标位点)。针对包含指导Cascade复合体结合至靶标位点的向导的mCas3[D452A]蛋白/EcoCascade RNP复合体和mCas3[D452A]蛋白–EcoCascade RNP复合体，测试了gDNA的相对链上的成对的切口。

基本上按实施例8C所述进行深度测序，并按实施例8D所述进行分析，所不同的是对上述靶标使用了对应于上述靶标的不同的靶标特异性引物。

表50显示了靶向所示的靶标位点的mCas3[D452A]蛋白–EcoCascade RNP复合体的30个HZGJ靶标位点上的示例性的编辑数据。图48显示了利用mCas3[D452A]/EcoCascade或mCas3[D452A]–EcoCascade的在30个HZGJ靶标位点处的示例性的基因组编辑数据。在图48中，垂直轴是％插入缺失，且水平轴是bp的间隔区间距。这里，对于每对Cascade复合体，一种RNP固定在特定的靶标位点处，且第二种RNP在一系列距离内于不同的靶标位点处导向上游或下游。在图48中，连接它们的黑色圆圈和黑色线对应于利用mCas3-EcoCascade的编辑，并且连接它们的灰色圆圈和灰色线对应于利用mCas3/EcoCascade的编辑。对于绝大多数位点，利用mCas3/EcoCascade的编辑低于检测限，而利用mCas3-EcoCascade的编辑的范围从低于检测限至高达～4％插入缺失。mCas3-EcoCascade使得能够在一系列向导RNA偏移范围内进行靶向缺失，但利用PAM在外配置最高。

表50成对切口编辑数据

基本上按照与本实施例中所示相同的方案，来自另外的位点的数据表明，当Cascade RNP复合体以PAM在外配置定向时，利用mCas3[D452A]–EcoCascade样品可获得最佳的基因组编辑。利用mCas3[D452A]/EcoCascade，高于检测限的编辑在26/238个靶标位点处可见，并且超过0.1％的编辑在1/238个靶标位点中可见(即对于大多数位点，低于检测限)，而利用mCas3[D452A]–EcoCascade，高于检测限的编辑在128/242个靶标位点处可见，并且高于0.1％的编辑在1/238个靶标位点处可见。mCas3[D452A]–EcoCascade使得能够在一系列向导偏移量内进行靶向缺失，其中当Cascade RNP复合体为PAM在外配置时最高。

本实施例中的数据显示包含mCas3蛋白的Cascade RNP复合体可以用于在gDNA的相对链上提供成对的切口，并因此促进宿主细胞(例如，人类细胞)的基因组中的靶向缺失。

实施例26

用于产生基因组缺失的Cas3 ATP酶缺陷型突变体

本申请中描述了几种限制和/或限定由与Cas3蛋白相关的Cascade RNP复合体所促进的缺失长度的方法。本实施例示出了不成对的ATP酶缺陷型突变体Cas3蛋白如何能够用于产生靶向基因组缺失；因此，使用单一Cascade RNP复合体在单个位点处提供切口。

A.用于转染至靶细胞中的假单胞菌S-6-2Cas3变体和PseCascadeRNP复合体组分的产生

最小CRISPR阵列被设计为将假单胞菌S-6-2Cascade(PseCascade)RNP复合体靶向人类基因组中TRAC位点中的8个靶标(SEQ ID NO:1902至SEQ ID NO:1909)。这些序列示出在表51中。

基本上按实施例25A中所述，使用3种寡核苷酸(SEQ ID NO:1513至SEQ ID NO:1515)和编码使得能够进行PseCascade RNP复合体靶向的“重复区-间隔区-重复区-间隔区-重复区”序列的独特的引物，利用基于PCR的组装产生了最小CRISPR阵列。对于该最小CRISPR阵列，两种间隔区序列是相同的。用于产生最小CRISPR阵列的全套的寡核苷酸序列示出在表52中。

主要根据制造商的说明，使用

(Beckman Coulter,Pasadena,CA)珠子纯化和浓缩PCR组装的向导。

设计了无ATP酶/解旋酶活性并因此仅具有切口活性(称为mPseCas3；SEQ ID NO:1919)的假单胞菌S-6-2Cas3(PseCas3；SEQ ID NO:1918)的D448AATP酶突变体变体，以诱导靶向缺失。作为参考点，还产生了PseCas3(SEQ ID NO:1920)的D75A核酸酶失活变体(称为dPseCas3*)，以及PseCas3(SEQ ID NO:1921)的ATP酶核酸酶双突变体变体(称为dblmPseCas3)。每种靶标的PAM序列是AAG。

将PseCascade RNP复合体蛋白组分编码基因以及突变体PseCas3基因克隆至包含CMV启动子的载体中，以使得能够在哺乳动物细胞中进行递送和表达。经由2A“核糖体跳跃”序列连接PseCascade RNP复合体cas基因，并且所述由基因均包含N端NLS序列以将编码的蛋白导向核。序列示出在表53中。

B.编码FokI-Cascade RNP复合体组分的载体的转染

基本上按实施例8B所述进行转染条件，具有以下修改。在进行核转染之前，将6μL的含有DNA模板的溶液转移至96孔板的单个孔中，其中孔包含3μg的编码PseCascade蛋白组分的质粒、0.2μg的编码最小CRISPR阵列的线性PCR产物，以及1μg的编码mPseCas3、dPseCas3*或dblmCas3的质粒。

C.来自转染的细胞的gDNA的深度测序

基本上按实施例8C中所述进行深度测序。然而，代替来自实施例8C的表36的引物Y和Z，使用了TRAC1至TRAC8靶标位点中的每个的正向和反向靶标特异性引物，以及MiSeq试剂盒v3，600个循环(Illumina,San Diego,CA)。

图49显示了利用与mPseCas3、dPseCas3*或dblmCas3(n＝2)中的每个相关的PseCascade RNP复合体在8个TRAC靶标位点处的基因组编辑。在图49中，垂直轴为％编辑，且水平轴表示TRAC位点中的靶标位点。条沿水平轴的顺序是mPseCas3(黑色条)、dPseCas3*(灰色条)和dblmCas3(条纹条)。利用dPseCas3*或dblmPseCas3 PseCascade RNP复合体很少在靶标位点处观察到编辑，但利用mPseCas3 PseCascade RNP复合体在靶标位点处达到高达～7％基因组编辑，如通过缺失所检测到的。这些数据表明，没有ATP酶/解旋酶活性因此仅具有切口活性的mPseCas3蛋白可以与PseCascade RNP复合体一起使用在单个靶标处(即，不以成对的切口配置)，从而在预期的切割位点处产生缺失。

如对本领域技术人员显而易见的是，在不脱离本发明的精神和范围的情况下，可以对上述实施方案进行各种修改和改变。这样的修改和改变在本发明的范围内。

Claims

1.组合物，其包含：

第一改造的第一类I型CRISPR-Cas效应子复合体，其包含：

包含第一Cas8亚基蛋白和第一FokI的第一融合蛋白，其中所述第一Cas8亚基蛋白的N端或所述第一Cas8亚基蛋白的C端通过第一连接子多肽分别与所述第一FokI的C端或N端共价连接，并且其中所述第一连接子多肽具有10个氨基酸至40个氨基酸的长度，和

第一向导多核苷酸，其包含能够结合第一核酸靶序列的第一间隔区；以及

第二改造的第一类I型CRISPR-Cas效应子复合体，其包含：

包含第二Cas8亚基蛋白和第二FokI的第二融合蛋白，其中所述第二Cas8亚基蛋白的N端或所述第二Cas8亚基蛋白的C端通过第二连接子多肽分别与所述第二FokI的C端或N端共价连接，并且其中所述第二连接子多肽具有10个氨基酸至40个氨基酸的长度，和

第二向导多核苷酸，其包含能够结合第二核酸靶序列的第二间隔区；

其中所述第二核酸靶序列的前间区序列邻近基序(PAM)和所述第一核酸靶序列的PAM具有20个碱基对至42个碱基对的间隔区间距。

2.如权利要求1所述的组合物，其中所述第一连接子多肽具有15个氨基酸至30个氨基酸或者17个氨基酸至20个氨基酸的长度。

3.如权利要求1或2所述的组合物，其中所述第二连接子多肽具有15个氨基酸至30个氨基酸或者17个氨基酸至20个氨基酸的长度。

4.如任一前述权利要求所述的组合物，其中所述第一连接子多肽的长度和所述第二连接子多肽的长度为相同的长度。

5.如任一前述权利要求所述的组合物，其中所述第二核酸靶序列和所述第一核酸靶序列中的每个具有22个碱基对至40个碱基对的间隔区间距、每个具有26个碱基对至36个碱基对的间隔区间距、每个具有29个碱基对至34个碱基对的间隔区间距、或者每个具有30个碱基对至32个碱基对的间隔区间距。

6.如任一前述权利要求所述的组合物，其中所述第一FokI和所述第二FokI是能够结合形成同型二聚体的单体亚基。

7.如权利要求1-5中任一项所述的组合物，其中所述第一FokI和所述第二FokI是能够结合形成异型二聚体的不同的单体亚基。

8.如任一前述权利要求所述的组合物，其中所述第一Cas8亚基蛋白的N端通过所述第一连接子多肽与所述第一FokI的C端共价连接，和/或所述第一Cas8亚基蛋白的C端通过第一连接子多肽与所述第一FokI的N端共价连接。

9.如任一前述权利要求所述的组合物，其中所述第二Cas8亚基蛋白的N端通过所述第二连接子多肽与所述第二FokI的C端共价连接，和/或所述第二Cas8亚基蛋白的C端通过第二连接子多肽与所述第二FokI的N端共价连接。

10.如任一前述权利要求所述的组合物，其中所述第一Cas8亚基蛋白和所述第二Cas8亚基蛋白中的每个包含相同的氨基酸序列。

11.如任一前述权利要求所述的组合物，其中所述第一Cse2亚基蛋白和所述第二Cse2亚基蛋白中的每个包含相同的氨基酸序列、所述第一Cas5亚基蛋白和所述第二Cas5亚基蛋白中的每个包含相同的氨基酸序列、所述第一Cas6亚基蛋白和所述第二Cas6亚基蛋白中的每个包含相同的氨基酸序列、并且所述第一Cas7亚基蛋白和所述第二Cas7亚基蛋白中的每个包含相同的氨基酸序列。

12.如任一前述权利要求所述的组合物，其中所述第一向导多核苷酸包含RNA，和/或所述第二向导多核苷酸包含RNA。

13.如任一前述权利要求所述的组合物，其中基因组DNA包含所述第二核酸靶序列的PAM和所述第一核酸靶序列的PAM。

14.如任一前述权利要求所述的组合物，其中所述第一改造的第一类I型CRISPR-Cas效应子复合体基于选自以下的一种或多种生物体的I型CRISPR-Cas效应子复合体：肠道沙门氏菌(Salmonella enterica)、地热杆菌(Geothermobacter sp.)(菌株EPR-M)、稻田甲烷胞菌(Methanocella arvoryzae)MRE50、嗜热链球菌(Streptococcus thermophilus)、假单胞菌(Pseudomonas sp.)S-6-2和大肠杆菌(Escherichia coli)。

15.如任一前述权利要求所述的组合物，其中所述第二改造的第一类I型CRISPR-Cas效应子复合体基于选自以下的一种或多种生物体的I型CRISPR-Cas效应子复合体：肠道沙门氏菌、地热杆菌(菌株EPR-M)、稻田甲烷胞菌MRE50、嗜热链球菌、假单胞菌S-6-2和大肠杆菌。

16.宿主细胞，其包含：

任一前述权利要求所述的组合物。

17.如权利要求16所述的宿主细胞，其中所述细胞是真核细胞。

18.一种或多种核酸序列，其编码权利要求1-15中任一项所述的第一Cse2亚基蛋白、第一Cas5亚基蛋白、第一Cas6亚基蛋白、第一Cas7亚基蛋白、第一融合蛋白和第一向导多核苷酸；和/或一种或多种核酸序列，其编码权利要求1-15中任一项所述的第二Cse2亚基蛋白、第二Cas5亚基蛋白、第二Cas6亚基蛋白、第二Cas7亚基蛋白、第二融合蛋白和第二向导多核苷酸。

19.在宿主细胞或生化反应中切割包含第一核酸靶序列和第二核酸靶序列的多核苷酸的方法，所述方法包括：

将权利要求1-15中任一项所述的组合物引入宿主细胞或生化反应中，从而促进所述第一改造的第一类I型CRISPR-Cas效应子复合体与所述第一核酸靶序列的接触以及所述第二改造的第一类I型CRISPR-Cas效应子复合体与所述第二核酸靶序列的接触，导致所述第一核酸靶序列被所述第一改造的第一类I型CRISPR-Cas效应子复合体切割以及所述第二核酸靶序列被所述第二改造的第一类I型CRISPR-Cas效应子复合体切割；

任选地，其中所述方法在所述宿主细胞中，并且所述宿主细胞是人体外的人类细胞。

20.如权利要求19所述的方法，其中所述宿主细胞还包含供体多核苷酸，并且至少一部分的所述供体多核苷酸被整合在所述dsDNA中。

21.改造的I型CRISPR Cas3突变体蛋白(“mCas3蛋白”)，其能够相对于野生型I型CRISPR Cas3蛋白(“wtCas3蛋白”)减少沿DNA的移动，所述mCas3蛋白包含：

与相应的wtCas3蛋白的95％或更高的序列同一性，

核定位信号被共价连接在氨基端、羧基端或者氨基端和羧基端处，以及

下调解旋酶活性的一个或多个突变，其中所述改造的I型CRISPR Cas3突变体蛋白保留了核酸酶活性；

其中所述DNA是包含含有核酸靶序列的靶区的双链DNA(dsDNA)；

其中当所述wtCas3蛋白与相应的Cascade核蛋白复合体(“Cascade NP复合体/wtCas3蛋白”)结合，并且所述Cascade NP复合体包含含有与所述核酸靶序列互补的间隔区的向导时，所述Cascade NP复合体/wtCas3蛋白与所述核酸靶序列的结合有利于所述DNA的靶区中的切割，从而导致缺失(“wtCas3-缺失”)；并且

其中当所述mCas3蛋白与所述Cascade NP复合体(“Cascade NP复合体/mCas3蛋白)结合并结合所述核酸靶序列时，所述mCas3蛋白有利于所述DNA的靶区中的切割，从而导致相对于所述wtCas3-缺失更短的缺失。

22.如权利要求21所述的mCas3蛋白，其中所述一个或多个突变相对于所述wtCas3蛋白下调所述mCas3蛋白与单链DNA(ssDNA)的结合。

23.如权利要求21或22所述的mCas3蛋白，其中所述一个或多个突变相对于所述wtCas3蛋白下调所述mCas3蛋白对三磷酸腺苷(ATP)的水解，或者下调ATP与所述mCas3蛋白的结合。

24.如权利要求21-23中任一项所述的mCas3蛋白，其中所述mCas3蛋白的编码序列共价连接至所述Cascade NP复合体的Cas蛋白的编码序列的氨基端或羧基端。

25.如权利要求21-24中任一项所述的mCas3蛋白，其中所述DNA在细胞内。

26.如权利要求21-25中任一项所述的mCas3蛋白，其中所述细胞是真核细胞。

27.I型CRISPR Cascade核蛋白复合体，其包含权利要求21-26中任一项所述的mCas3蛋白。