CN108473981B

CN108473981B - 工程化靶向核酸的核酸

Info

Publication number: CN108473981B
Application number: CN201680071016.9A
Authority: CN
Inventors: P.D.多诺霍埃; A.P.梅
Original assignee: Caribou Biosciences Inc
Current assignee: Caribou Biosciences Inc
Priority date: 2015-12-04
Filing date: 2016-12-02
Publication date: 2022-04-12
Anticipated expiration: 2036-12-02
Also published as: CA3004757C; US20170159073A1; RU2018117360A; EP3371310A1; KR102093570B1; NZ742040A; WO2017096328A1; MX2018005392A; EP3564371A1; AU2019240724A1; US20180251788A1; US9771600B2; EP3564371B1; BR112018010429A2; ZA201802968B; JP2019500867A; KR20180085795A; JP6707133B2; EP3371310B1; AU2019240724B2

Abstract

本公开内容提供了形成支架的工程化多核苷酸序列和包含所述形成支架的工程化多核苷酸序列和核酸结合蛋白的核蛋白复合物。描述了编码形成支架的工程化多核苷酸序列的核酸序列，以及包含所述多核苷酸序列的表达盒、载体和细胞。还公开了制备和使用形成支架的工程化多核苷酸序列的各种方法。

Description

工程化靶向核酸的核酸

相关申请的交叉引用

本申请要求2015年12月4日提交的现在未决的美国临时专利申请序列号62/263,232的权益，该申请通过引用整体并入本文。

关于联邦赞助研究或开发的声明

不适用。

序列表

本申请包含已经以ASCII格式电子提交的序列表，并且通过引用整体并入本文。2016年12 月2日创建的ASCII副本名为CBI020-30_ST25.txt，大小为156KB。

技术领域

本公开内容一般涉及形成支架的工程化多核苷酸序列和包含所述支架和核酸结合蛋白的核蛋白复合物。描述了编码支架多核苷酸组分的核酸序列，以及包含所述多核苷酸组分的表达盒、载体和细胞。本公开内容还涉及制备和使用本发明的形成支架的工程化核酸序列和核蛋白复合物的方法。

背景

成簇的规则间隔短回文重复序列(CRISPR)和CRISPR相关蛋白(Cas)构成CRISPR-Cas系统。 CRISPR-Cas系统提供针对细菌中外源DNA的适应性免疫(参见例如Barrangou,R.,et al., Science 315:1709-1712(2007)；Makarova,K.S.,et al.,Nature ReviewsMicrobiology 9:467-477 (2011)；Garneau,J.E.,et al.,Nature 468:67-71(2010)；Sapranauskas,R.,et al.,Nucleic Acids Research 39:9275-9282(2011))。

CRISPR-Cas系统近来已被重新分类为两类，包括五种类型和十六种亚型(参见Makarova,K.,et al.,Nature Reviews Microbiology 13:1-15(2015))。该分类基于鉴定CRISPR- Cas基因座中的所有Cas基因并确定每个CRISPR-Cas基因座中的标签基因，最终基于编码效应模块的基因将CRISPR-Cas系统置于1类或2类中，即涉及干扰阶段的蛋白。最近已鉴定出第六种CRISPR-Cas系统(VI型)(参见Abudayyeh O.,et al.,Science 353(6299):aaf5573 (2016))。某些细菌拥有超过一种类型的CRISPR-Cas系统。

1类系统具有多亚基crRNA-效应复合物，而2类系统具有单一蛋白，例如Cas9、Cpf1、C2c1、C2c2、C2c3或crRNA-效应复合物。1类系统包括I型、III型和IV型系统。2 类系统包括II型、V型和VI型系统。

II型系统具有cas1、cas2和cas9基因。cas9基因编码多结构域蛋白，其将crRNA效应复合物的功能与DNA靶序列切割组合。II型系统进一步分为三个亚型，亚型II-A、II-B 和II-C。亚型II-A含有额外的基因csn2。具有亚型II-A系统的生物体的实例包括但不限于酿脓链球菌、嗜热链球菌和金黄色葡萄球菌。亚型II-B缺乏csn2蛋白，但具有cas4蛋白。具有亚型II-B系统的生物体的一个实例是嗜肺军团菌(Legionella pneumophila)。亚型II-C是在细菌中发现的最常见的II型系统，并且仅具有三种蛋白Cas1、Cas2和Cas9。具有亚型 II-C系统的生物体的一个实例是乳酸奈瑟球菌(Neisseria lactamica)。

V型系统具有cpf1基因和cas1和cas2基因(参见Zetsche,B.,et al.,Cell 163:1–13 (2015))。cpf1基因编码蛋白Cpf1，其具有与Cas9的相应结构域同源的RuvC-样核酸酶结构域，但缺少存在于Cas9蛋白中的HNH核酸酶结构域。在几种细菌中已经鉴定了V型系统，包括但不限于：Parcubacteria细菌、毛螺菌科(Lachnospiraceae)、瘤胃溶纤维丁酸弧菌(Butyrivibrio proteoclasticus)、Peregrinibacteria细菌、氨基酸球菌属(Acidaminococcus spp.)、猕猴卟啉单胞菌(Porphyromonas macacae)、狗口腔红棕色单胞菌(Porphyromonas crevioricanis)、解糖胨普雷沃菌(Prevotella disiens)、牛眼摩拉克氏菌(Moraxella bovoculi)、密斯氏菌属(Smithella spp.)、良吉氏钩端螺旋体(Leptospira inadai)、土伦病弗朗西斯氏菌 (Franciscella tularensis)、新杀手弗朗西氏菌(Franciscella novicida)、Candidatus methanoplasma termitum、挑剔真杆菌(Eubacterium eligens)。最近已经证明Cpf1也具有RNA 酶活性并且负责前-crRNA处理(参见Fonfara,I.,et al.,Nature 532(7600):517-521(2016))。

在2类系统中，crRNA与单一蛋白缔合，并通过将核酸酶活性与RNA结合结构域和crRNA与核酸靶序列之间的碱基对形成组合来实现干扰。

在II型系统中，核酸靶序列结合涉及Cas9和crRNA，如同核酸靶序列切割。在II型系统中，Cas9的RuvC-样核酸酶(RNA酶H折叠)结构域和HNH(McrA-样)核酸酶结构域各自切割双链核酸靶序列的一条链。II型系统的Cas9切割活性还需要crRNA与tracrRNA杂交以形成双链体，其有助于通过Cas9蛋白结合crRNA和核酸靶序列。

在V型系统中，核酸靶序列结合涉及Cpf1和crRNA，如同核酸靶序列切割。在V 型系统中，Cpf1的RuvC-样核酸酶结构域切割双链核酸靶序列的一条链，并且推定的核酸酶结构域以交错配置切割双链核酸靶序列的另一条链，产生5'突出端，这与由Cas9切割产生的平端相反。

V型系统的Cpf1切割活性不需要crRNA与tracrRNA杂交形成双链体，而是，V型系统的crRNA使用具有形成内部双链体的茎环结构的单个crRNA。Cpf1以识别茎环和邻近茎环的序列的序列和结构特异性方式结合crRNA，最显著的是与核酸靶序列杂交的间隔序列的5'核苷酸。该茎环结构的长度通常在15至19个核苷酸的范围内。破坏这种茎环双链体的取代消除了切割活性，而其它不破坏茎环双链体的取代不会消除切割活性。茎环的5'核苷酸采用假结结构，其利用非经典沃森-克里克碱基配对、三链体相互作用和反向Hoogsteen碱基配对进一步稳定茎环结构(参见Yamano,T.,et al.,Cell 165(4):949–962(2016))。在V型系统中，crRNA在5'端形成茎环结构，并且3'端的序列与核酸靶序列中的序列互补。

与V型crRNA和核酸靶序列结合和切割相关的其它蛋白包括2类候选物1(C2c1)和2类候选物3(C2c3)。C2c1和C2c3蛋白在长度上与Cas9和Cpf1蛋白相似，范围从约1,100 个氨基酸至约1,500个氨基酸。C2c1和C2c3蛋白还含有RuvC-样核酸酶结构域并具有与 Cpf1相似的构造。在需要crRNA和tracrRNA用于核酸靶序列结合和切割方面，C2c1蛋白与Cas9蛋白类似，但C2c1蛋白具有50℃的最佳切割温度。C2c1蛋白靶向富含AT的原型间隔区相邻基序(PAM)，类似于Cpf1的PAM，其是核酸靶序列的5'(参见例如Shmakov,S., et al.,MolecularCell 60(3):385-397(2015))。

2类候选物2(C2c2)与其它CRISPR效应蛋白不共享序列相似性，并且最近被鉴定为VI型系统(参见Abudayyeh,O.,et al.,Science 353(6299):aaf5573(2016))。C2c2蛋白具有两个 HEPN结构域并显示出单链RNA切割活性。尽管不需要tracrRNA，但C2c2蛋白类似于Cpf1蛋白，需要crRNA用于核酸靶序列结合和切割。此外，与Cpf1类似，C2c2蛋白的 crRNA形成稳定的发夹或茎环结构，其有助于与C2c2蛋白缔合。VI型系统具有单一多肽 RNA内切核酸酶，其利用单个crRNA来引导位点特异性切割。另外，在与与间隔区互补的靶RNA杂交后，C2c2变成一种混杂的RNA内切核酸酶，其以非序列依赖性方式对任何单链RNA展现出非特异性内切核酸酶活性(参见East-Seletsky,A.,et al.,Nature 538(7624):270- 273(2016))。

关于2类II型CRISPR-Cas系统，大量Cas9直向同源物以及它们相关的多核苷酸组分(tracrRNA和crRNA)在本领域中是已知的(参见例如Fonfara,I.,et al.,Nucleic AcidsResearch 42(4):2577-2590(2014),including all Supplemental Data；Chylinski K.,et al.,Nucleic Acids Research 42(10):6091-6105(2014),包括所有补充数据)。另外，本领域已知Cas9-样合成蛋白 (参见2014年10月23日公布的美国公开专利申请号2014-0315985)。

Cas9是示例性的II型CRISPR Cas蛋白。Cas9是可以通过tracrRNA/crRNA编程以使用两个不同内切核酸酶结构域(HNH和RuvC/RNA酶H-样结构域)以位点特异性方式切割 DNA靶序列的内切核酸酶(参见美国公开专利申请No2014-0068797，2014年3月6日公布；还参见Jinek,M.,et al.,Science 337:816-821(2012))。

通常，每种野生型CRISPR-Cas9系统包含crRNA和tracrRNA。crRNA具有与潜在 DNA靶序列的互补区域和与tracrRNA形成碱基对氢键以形成二级结构，通常形成至少一个茎结构的第二区域。与DNA靶序列的互补区域是间隔区。tracrRNA和crRNA通过多个碱基对氢键相互作用形成二级RNA结构。tracrRNA/crRNA与Cas9蛋白之间的复合物形成导致Cas9蛋白的构象改变，其促进与DNA结合、Cas9蛋白的内切核酸酶活性以及通过内切核酸酶Cas9的crRNA引导的位点特异性DNA切割。对于Cas9蛋白/tracrRNA/crRNA复合物切割双链DNA靶序列，DNA靶序列与同源PAM相邻。通过改造crRNA以具有适当的间隔序列，可以将复合物靶向切割目的基因座，例如需要进行序列修饰的基因座。

各种II型CRISPR-Cas系统crRNA和tracrRNA序列以及预测的二级结构在本领域中是已知的(参见例如Ran,F.A.,et al.,Nature 520(7546):186-191(2015),包括所有补充数据，特别是扩展数据图1；Fonfara,I.,et al.,Nucleic Acids Research 42(4):2577-2590(2014),包括所有补充数据，特别是补充图S11)。预测的tracrRNA二级结构基于约束产生RNA折叠模型 (Zuker,M.,Nucleic Acids Research 31:3406-3415(2003)。使用ViennaRNA包的RNAcofold (Bernhart,S.H.,et al.,Algorithms for Molecular Biology 1(1):3(2006)；Hofacker,I.L.,et al., Journal of Molecular Biology 319:1059-1066(2002))和RNAhybrid(bibiserv.techfak.uni- bielefeld.de/rnahybrid/)预测RNA双链体二级结构。使用VARNA显现了结构预测(Darty,K., et al.,Bioinformatics 25:1974-1975(2009))。Fonfara,I.,等人表明空肠弯曲杆菌的 crRNA/tracrRNA复合物不具有凸起区域；然而，该复合物保留位于间隔区的3'处的茎结构，其在3'方向与另一个茎结构相邻。

2类CRISPR-Cas系统的间隔区可杂交到位于PAM的5'或3'的核酸靶序列，取决于要使用的Cas蛋白。PAM可以根据要使用的Cas多肽而变化。例如，如果使用来自酿脓链球菌的Cas9，则PAM可以是包含序列5'-NRR-3'的核酸靶序列中的序列，其中R可以是A或 G，N是任何核苷酸，并且N是由核酸靶结合序列靶向的核酸靶序列的紧接3'。可以修饰 Cas蛋白使得与未修饰的Cas蛋白的PAM相比PAM可以是不同的。如果例如使用来自酿脓链球菌的Cas9，则可修饰Cas9蛋白使得PAM不再包含序列5'-NRR-3'，而是包含序列5'- NNR-3'，其中R可以是A或G，N是任何核苷酸，并且N是由核酸靶序列靶向的核酸靶序列的紧接3'。

其它Cas蛋白识别其它PAM，并且本领域技术人员能够确定任何特定Cas蛋白的PAM。例如，Cpf1具有富含胸腺嘧啶的PAM位点，其靶向例如TTTN序列(参见Fagerlund, R.,et al.,Genome Biology 16:251(2015))。

RNA引导的Cas9内切核酸酶已被广泛用于多种生物体和模型系统中的可编程基因组编辑(参见例如Jinek M.,et al.,Science 337:816-821(2012)；Jinek M.,et al.,eLife 2:e00471.doi: 10.7554/eLife.00471(2013)；2014年3月6日公布的美国公开专利申请号2014-0068797)。

基因组工程包括通过缺失、插入、突变或取代特定的核酸序列来改变基因组。改变可以是基因或位置特异性的。基因组工程可以使用定点的核酸酶，例如Cas蛋白及其同源多核苷酸来切割DNA，从而产生改变的位点。在某些情况下，切割可以在DNA靶序列中引入双链断裂(DSB)。可以通过例如非同源末端连接(NHEJ)、微同源性介导的末端连接(MMEJ) 或同源定向修复(HDR)来修复DSB。HDR依赖于模板的存在进行修复。在基因组工程的一些实例中，可将供体多核苷酸或其部分插入断裂中。

发明内容

本发明一般涉及包含形成能够结合核酸结合蛋白的支架的多核苷酸复合物的核酸多核苷酸组合物。通常，NASC多核苷酸组合物是形成支架的两种或更多种工程化核酸序列的复合物，包含：重复元件1、重复元件2、核酸结合蛋白结合元件1、核酸结合蛋白结合元件2、间隔元件1(例如，包含核酸靶结合序列)和间隔元件2(例如，包含核酸靶结合序列 2)。NASC多核苷酸组合物能够与核酸结合蛋白结合。

一方面，本发明涉及形成支架的两种或更多种工程化核酸序列的组合物(“NASC”)，包含第一工程化核酸“NASC-PC1”和第二工程化核酸组分(“NASC- PC2”)。NASC-P1在5'至3'方向包含包含核酸靶结合序列1的间隔元件1、包含重复核酸序列1的重复元件1和核酸结合蛋白结合元件1，其中间隔元件1与重复元件1共价连接，并且重复元件1与包含核酸结合蛋白结合序列1的核酸结合蛋白结合元件1共价连接。第二工程化核酸组分(“NASC-PC2“)在5'至3'方向包含：包含核酸靶结合序列2的间隔元件2、包含重复核酸序列2的重复元件2和包含核酸结合蛋白结合序列2的核酸结合蛋白结合元件 2，其中间隔元件2与重复元件2共价连接，并且重复元件2与核酸结合蛋白结合元件2共价连接。在本发明的一些实施方案中，核酸结合蛋白结合序列1包含双链核酸结合蛋白结合序列1，并且核酸结合蛋白结合序列2包含双链核酸结合蛋白结合序列2。重复核酸序列1 和重复核酸序列2通过氢键键合的碱基对连接，并且所述连接形成NASC组合物。NASC组合物能够结合第一核酸结合蛋白(例如第一双链核酸结合蛋白)和第二核酸结合蛋白(例如第二双链核酸结合蛋白)。

NASC组合物的实施方案包括但不限于第一双链核酸结合蛋白是2类CRISPR蛋白，并且第二双链核酸结合蛋白是2类CRISPR蛋白。在优选的实施方案中，第一双链核酸结合蛋白是2类II型CRISPR-Cas9蛋白，并且第二双链核酸结合蛋白是2类II型CRISPR-Cas9 蛋白。其它实施方案包括其中第一双链核酸结合蛋白是2类V型CRISPR-Cpf1蛋白，并且其中第二双链核酸结合蛋白是2类V型CRISPR-Cpf1蛋白。在进一步的实施方案中，第一双链核酸结合蛋白是2类II型CRISPR-Cas9蛋白，并且第二双链核酸结合蛋白是2类V型 CRISPR-Cpf1蛋白。

在一些实施方案中，间隔元件1和间隔元件2包含另外的核酸序列。例如，间隔元件1可以还包含核酸靶结合序列1的3'和重复元件1的5'的接头元件核酸序列。间隔元件2 可以还包含核酸靶结合序列2的3'和重复元件2的5'的接头元件核酸序列。

在进一步的实施方案中，重复元件1和重复元件2包含如下的另外序列。重复元件1在5'至3'方向还包含重复核酸序列1b、接头元件核酸序列1-2和重复核酸序列1a。重复元件2在5'至3'方向还包含重复核酸序列1aC、接头元件核酸序列2-2和重复核酸序列1bC。重复核酸序列1b和重复核酸序列1bC通过氢键键合的碱基对连接，和重复核酸序列1a和重复核酸序列1aC通过氢键键合的碱基对连接。

在其它实施方案中，重复核酸序列1b和重复序列1a包含如下的另外序列。重复核酸序列1b在5'至3'方向可还包含重复核酸序列1b2、凸起核酸序列1b1和重复核酸序列1b1。重复核酸序列1a在5'至3'方向可还包含重复核酸序列1a2、凸起核酸序列1a1和重复核酸序列1a1。重复核酸序列1aC在5'至3'方向可还包含重复核酸序列1a1C、凸起核酸序列2a2和重复核酸序列1a2C。重复核酸序列1bC在5'至3'方向可还包含重复核酸序列1b1C、凸起核酸序列2b2和重复核酸序列1b2C。重复核酸序列1a1和重复核酸序列1a1C通过氢键键合的碱基对连接，重复核酸序列1a2和重复核酸序列1a2C通过氢键键合的碱基对连接，重复核酸序列1b1和重复核酸序列1b1C通过氢键键合的碱基对连接，和重复核酸序列1b2和重复核酸序列1b2C通过氢键键合的碱基对连接。

在其它实施方案中，接头元件核酸序列1-2和接头元件核苷酸序列2-2包含添加的核酸序列。接头元件核酸序列1-2在5'至3'方向可还包含接头元件核酸序列1-2-2、重复核酸序列1-2a和接头元件核酸序列1-2-1。接头元件核酸序列2-2在5'至3'方向可还包含接头元件核酸序列2-2-1、重复核酸序列1-2aC和接头元件核酸序列2-2-2。重复核酸序列1-2a和重复核酸序列1-2aC通过氢键键合的碱基对连接和形成双链核酸区1-2。在一些实施方案中，双链核酸区1-2还包含效应蛋白结合位点1。重复核酸序列1-2a还包含效应蛋白结合位点核酸序列1-2a。重复核酸序列2还包含效应蛋白结合位点核酸序列1-2aC。效应结合位点通过效应蛋白结合位点核酸序列1-2a和效应蛋白结合位点核酸序列1-2aC之间的碱基对氢键键合形成。Csy4蛋白结合位点是效应蛋白结合位点一个实例。Csy4蛋白或无酶活性的Csy4蛋白能够结合效应结合位点。

在进一步的实施方案中，重复核酸序列1还包含亲和标签1并且重复核酸序列2还包含亲和标签2，并且亲和标签1与亲和标签2连接。

NASC组合物可包含例如RNA、DNA或RNA和DNA。在一些实施方案中，NASC- PC1、NASC-PC2或NASC-PC1和NASC-PC2包含RNA、DNA或RNA和DNA。

另一方面，本发明包括核酸/蛋白组合物包含NASC组合物和一种或多种核酸结合蛋白。在一个实施方案中，核酸蛋白可以是第一Cas9蛋白和第二Cas9蛋白。例如，第一 Cas9蛋白与第二Cas9蛋白相同，和第一Cas9蛋白和第二Cas9蛋白选自酿脓链球菌Cas9 蛋白、嗜热链球菌Cas9蛋白、金黄色葡萄球菌Cas9蛋白和空肠弯曲杆菌Cas9蛋白。在其它实施方案中，第一Cas9蛋白不同于第二Cas9蛋白，和第一Cas9蛋白和第二Cas9蛋白选自酿脓链球菌Cas9蛋白、嗜热链球菌Cas9蛋白、金黄色葡萄球菌Cas9蛋白和空肠弯曲杆菌Cas9蛋白。另外地、第一Cas9蛋白和第二Cas9蛋白可分别选自Cas9蛋白/Cas9蛋白、 Cas9蛋白/dCas9蛋白、dCas9蛋白/Cas9蛋白和dCas9蛋白/dCas9蛋白。

另一方面，本发明涉及包含NASC组合物的一种或多种组分的试剂盒。在一些实施方案中，NASC组合物包含NASC-PC1和NASC-PC2，或编码NASC-PC1和NASC-PC2的一种或多种核酸序列和缓冲液。试剂盒可以还包含一种或多种Cas9蛋白或编码一种或多种 Cas9蛋白的一种或多种核酸序列。在进一步的实施方案中，试剂盒可以包含含有NASC组合物和一种或多种Cas9蛋白的核蛋白复合物。

另一方面，本发明涉及包含编码NASC组合物的一种或多种组分的一种或多种核酸序列的表达载体。

另一方面，本发明涉及包含编码NASC组合物的一种或多种组分的一种或多种核酸序列的重组细胞。

如本文所述，本发明的其它方面包括使用NASC组合物的方法。一种方法是结合DNA的方法。该方法包括使DNA多核苷酸中的第一DNA靶序列和DNA多核苷酸中的第二DNA靶序列与包含NASC组合物和核酸结合蛋白(例如Cas9蛋白，和/或Cpf1蛋白)的核酸/蛋白组合物接触，从而促进核酸/蛋白组合物与DNA中的第一DNA靶序列和DNA中的第二DNA靶序列结合。NASC组合物的NASC-PC1间隔元件可以与第一DNA靶序列互补，并且NASC组合物的NASC-PC2间隔区可以与第二DNA靶序列互补。

本发明的另一种方法是切割DNA的方法。该方法包括使DNA多核苷酸中的第一 DNA靶序列和DNA多核苷酸中的第二DNA靶序列与包含NASC组合物和核酸结合蛋白 (例如Cas9蛋白，和/或Cpf1蛋白)的核酸/蛋白组合物接触，从而促进核酸/蛋白组合物与第一DNA靶序列和第二DNA靶序列结合。结合导致切割第一DNA靶序列和第二DNA靶序列。NASC组合物的NASC-PC1间隔元件可以与第一DNA靶序列互补，并且NASC组合物的NASC-PC2间隔区可以与第二DNA靶序列互补。

鉴于本文的公开内容，使用本发明的NASC组合物和包含NASC组合物的核蛋白颗粒的本发明的这些方面和其它实施方案对于本领域普通技术人员来说将是显而易见的。

附图说明

附图不是成比例绘制的，并且附图也不是按比例的。标识的位置是近似的。

图1A、图1B、图1C和图1D提供双引导2类II型CRISPR相关引导RNA的实例。

图2A、图2B和图2C提供单引导2类II型CRISPR相关引导RNA的实例。

图3A和图3B提供2类V型crRNA引导RNA的实例。

图4A、图4B、图4C、图4D、图4E、图4F、图4G、图4H、图4I、图4J、图 4K、图4L、图4M、图4N和图4O(最后一个图是图4“O”而不是图4“零”)图示了本发明的工程化核酸支架多核苷酸组合物的一般排列的实例。所示的序列不以5'至3'或3'至5'方向呈现，并且不具有极性。

图5A、图5B、图5C、图5D、图5E、图5F、图5G、图5H和图5I图示了本发明的工程化核酸支架多核苷酸组合物的实例和元件。

图6A、图6B、图6C、图6D、图6E、图6F、图6G、图6H、图6I、图6J、图 6K、图6L和图6M图示了本发明的工程化核酸支架多核苷酸组合物的实例和元件。

图7A、FIG.7B、图7C、图7D、图7E、图7F、图7G、图7H和图7I图示了本发明的工程化级联核酸支架多核苷酸组合物的实例和元件。

图8A、图8B、图8C、图8D、图8E、图8F、图8G、图8H、图8I、图8J、图 8K、图8L、图8M和图8N图示了本发明的工程化级联断裂-连结核酸支架多核苷酸组合物的实例和元件。

图9A和图9B图示了本发明的工程化核酸支架多核苷酸组合物的实例和元件。

图10图示了本发明的工程化核酸支架多核苷酸组合物的实例和元件。

图11图示了包含本发明的工程化核酸支架多核苷酸组合物的核蛋白复合物、核蛋白复合物形成和结合两个核酸靶序列的核蛋白复合物。

图12图示了包含本发明的工程化核酸支架多核苷酸组合物的核蛋白复合物，其结合第一核酸靶序列并结合被复合物的核酸酶切割的第二核酸靶序列。

图13图示了包含本发明的工程化核酸支架多核苷酸组合物的核蛋白复合物，其结合多核苷酸中的三个核酸靶序列。

图14图示了包含本发明的工程化核酸支架多核苷酸组合物的核蛋白复合物，其结合第一多核苷酸中的第一核酸靶序列并结合第二多核苷酸中的第二核酸靶序列和第三核酸靶序列，其中第二和第三核酸靶序列被复合物的核酸酶切割。

图15图示了包含本发明的工程化核酸支架多核苷酸组合物的核蛋白复合物，其结合第一多核苷酸中的第一核酸靶序列，结合第二多核苷酸中的第二核酸靶序列并结合多核苷酸中的第三核酸靶序列，其中第二和第三核酸靶序列被复合物的核酸酶切割。

图16A、16B、16C图示了本发明的工程化核酸支架多核苷酸组合物，其与两种不同蛋白形成核蛋白复合物并结合第一多核苷酸中的第一核酸靶序列和第二多核苷酸中的第二核酸序列。图示了结合和切割结果的三种组合。

通过引用并入

本说明书中引用的所有专利、出版物和专利申请通过引用并入本文，如同每个单独的专利、出版物或专利申请被具体地和单独地指出以为了所有目的通过引用整体并入本文。

发明详述

应该理解，本文使用的术语仅仅是为了描述特定实施方案的目的，而不是旨在限制性的。如在本说明书和所附权利要求中所使用的，除非上下文另外明确指出，否则单数形式“一个”，“一种”和“所述”包括复数指示物。因此，例如，提及“一种多核苷酸”包括一种或多种多核苷酸，并且提及“一种载体”包括一种或多种载体。

除非另外定义，否则本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常理解的相同的含义。尽管与本文描述的那些类似或等同的其它方法和材料可用于本发明，但优选的材料和方法在本文中描述。

鉴于本说明书的教导，本领域普通技术人员可以采用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组多核苷酸的常规技术，如例如以下标准教材所教导的：Antibodies:A Laboratory Manual,Second edition,E.A.Greenfield,Cold Spring Harbor Laboratory Press,ISBN 978-1-936113-81-1(2014)；Culture ofAnimal Cells:A Manual of Basic Technique and Specialized Applications,6thEdition,R.I.Freshney,Wiley-Blackwell,ISBN 978-0-470-52812-9(2010)；TransgenicAnimal Technology,Third Edition:A Laboratory Handbook, C.A.Pinkert,Elsevier,ISBN 978-0124104907(2014)；The Laboratory Mouse,Second Edition,H. Hedrich,Academic Press,ISBN 978-0123820082(2012)；Manipulating the Mouse Embryo:ALaboratory Manual,R.Behringer,et al.,Cold Spring Harbor Laboratory Press,ISBN978- 1936113019(2013)；PCR 2:A Practical Approach,M.J.McPherson,et al.,IRLPress,ISBN 978- 0199634248(1995)；Methods in Molecular Biology(Series),J.M.Walker,ISSN 1064-3745, Humana Press；RNA:A Laboratory Manual,D.C.Rio,etal.,Cold Spring Harbor Laboratory Press, ISBN 978-0879698911(2010)；Methods inEnzymology(Series),Academic Press；Molecular Cloning:A Laboratory Manual(Fourth Edition),M.R.Green,et al.,Cold Spring Harbor Laboratory Press,ISBN978-1605500560(2012)；Bioconjugate Techniques,Third Edition,G.T. Hermanson,Academic Press,ISBN 978-0123822390(2013)；Methods in Plant Biochemistry andMolecular Biology,W.V.Dashek,CRC Press,ISBN 978-0849394805(1997)；Plant CellCulture Protocols(Methods in Molecular Biology),V.M.Loyola-Vargas,et al.,Humana Press,ISBN 978- 1617798177(2012)；Plant Transformation Technologies,C.N.Stewart,et al.,Wiley-Blackwell, ISBN 978-0813821955(2011)；RecombinantProteins from Plants(Methods in Biotechnology),C. Cunningham,et al.,HumanaPress,ISBN 978-1617370212(2010)；Plant Genomics:Methods and Protocols(Methodsin Molecular Biology),D.J.Somers,et al.,Humana Press,ISBN 978- 1588299970(2009)；Plant Biotechnology:Methods in Tissue Culture and Gene Transfer,R.Keshavachandran,et al.,Orient Blackswan,ISBN 978-8173716164(2008)。

成簇的规则间隔短回文重复序列(CRISPR)和关联的CRISPR相关蛋白(Cas蛋白)构成 CRISPR-Cas系统(参见例如Barrangou,R.,et al.,Science 315:1709-1712(2007))。

如本文所用，“Cas蛋白”和“CRISPR-Cas蛋白”是指Cas蛋白，包括但不限于1类 I型Cas蛋白、1类III型Cas蛋白、1类IV型Cas蛋白、2类II型Cas蛋白、2类V型Cas 蛋白和2类VI型Cas蛋白。2类Cas蛋白包括Cas9蛋白、由Cas9直向同源物编码的Cas9 样蛋白、Cas9样合成蛋白、Cpf1蛋白、由Cpf1直向同源物编码的蛋白、Cpf1样合成蛋白、C2c1蛋白、C2c2蛋白、C2c3蛋白及其变体和修饰物。在一些实施方案中，Cas蛋白是 2类Cas蛋白，例如一种或多种2类II型Cas蛋白例如Cas9，一种或多种2类V型Cas蛋白例如Cpf1或一种或多种2类VI型Cas蛋白例如C2c2。在优选的实施方案中，Cas蛋白是一种或多种2类II型Cas蛋白例如Cas9，和一种或多种2类V型Cas蛋白例如Cpf1。典型地，为了用于本发明的各方面，Cas蛋白能够与一种或多种同源多核苷酸(最典型的是 RNA)相互作用以形成核蛋白复合物(最典型的是核糖核蛋白复合物)。

如本文所用，“Cas9蛋白”是指衍生自2类II型CRISPR-Cas9系统的Cas9野生型蛋白、Cas9蛋白的修饰物、Cas9蛋白的变体、Cas9直向同源物及其组合。Cas9蛋白包括但不限于来自酿脓链球菌(UniProtKB-Q99ZW2(CAS9_STRP1))，嗜热链球菌(UniProtKB- G3ECR1(CAS9_STRTR))和金黄色葡萄球菌(UniProtKB-J7RUA5(CAS9_STAAU))的Cas9。可以使用本领域技术人员已知的序列相似性检索方法来鉴定Cas9同系物。如本文所用的“dCas9”是指Cas9蛋白的变体，其是核酸酶失活的Cas9蛋白，也称为“无催化活性的 Cas9蛋白”，“无酶活性的Cas9”，“催化死亡的Cas9”或“死Cas9”。这类分子缺乏全部或部分内切核酸酶活性，因此可用于以RNA引导的方式调控基因(参见Jinek M.,et al.,Science 337:816-821(2012))。这通过将突变引入催化残基例如RuvC-1结构域中的D10A和HNH结构域中的H840A(相对于酿脓链球菌Cas9蛋白编号)来实现，所述突变使Cas9核酸酶功能失活。可以理解的是，本领域技术人员也可以进行其它催化残基的突变以降低核酸酶结构域中任一个或两个的活性。得到的dCas9不能切割双链DNA，但保留与引导核酸复合并结合 DNA靶序列的能力。在氨基酸位置D10A和H840A处具有变化的Cas9双突变体使核酸酶和切口酶活性均失活。靶向特异性通过Cas9蛋白与PAM序列的结合以及通过引导RNA(通常为单引导RNA)与基因组基因座的互补碱基配对确定。Cas9是2类II型CRISPR系统特征性的标签蛋白。

如本文所用，“Cpf1蛋白”是指衍生自2类V型CRISPR-Cpf1系统的Cpf1野生型蛋白、Cpf1蛋白的修饰物、Cpf1蛋白的变体、Cpf1直向同源物及其组合。如本文所用，“dCpf1”是指Cpf1蛋白的变体，其是核酸酶失活的Cpf1蛋白，也称为“无催化活性的 Cpf1蛋白”，或“无酶活性的Cpf1”。Cpf1蛋白包括但不限于新杀手弗朗西氏菌(Francisella novicida)(UniProtKB-A0Q7Q2(CPF1_FRATN))、毛螺菌科细菌(UniProtKB-A0A182DWE3 (A0A182DWE3_9FIRM))和氨基酸球菌属(UniProtKB-U2UMQ6(CPF1_ACISB))。Cpf1是2 类V型CRISPR系统特征性的标签蛋白。可以使用本领域技术人员已知的序列相似性检索方法来鉴定Cpf1同系物。

如本文所用，“靶向核酸的核酸”(NATNA)是指引导蛋白(例如Cas蛋白(例如Cas9蛋白或Cpf1蛋白))优先结合多核苷酸(相对于不包含核酸靶序列的多核苷酸)中的核酸靶序列的一种或多种多核苷酸。NATNA可包含核糖核苷酸碱基(例如RNA)、脱氧核糖核苷酸碱基(例如DNA)、核糖核苷酸碱基和脱氧核糖核苷酸碱基的组合(例如RNA/DNA)、核苷酸、核苷酸类似物、修饰的核苷酸等，以及合成的、天然存在的和非天然存在的修饰的骨架残基或键，例如如本文所述。靶向核酸的核酸的实例包括但不限于Cas9-crRNA/tracrRNA分子(参见例如图1A、图1B、图1C和图1D)、Cas9-sgRNA(参见例如图2A和图2B)和Cpf1- crRNA(参见例如图3A和图3B)。

如本文所用，“双引导RNA”和“Cas9-双引导RNA”通常是指能够与同源Cas9蛋白缔合的多核苷酸组分的双组分RNA系统。图1A和图1B提供了2类II型CRISPR-Cas9 相关双引导RNA的说明性实例。图1A说明包含Cas9-crRNA(图1A，101)和Cas9- tracrRNA(图1A，102)的II型CRISPR-Cas9系统双组分RNA。图1B说明Cas9-crRNA和 Cas9-tracrRNA之间形成碱基对氢键以形成二级结构(参见例如2014年3月6日公布的美国公开专利申请号2014-0068797；也参见Jinek M.,et al.,Science 337:816–21(2012))。图1B 提供酿脓链球菌Cas9的Cas9-crRNA和Cas9-tracrRNA的二级结构元件的概述和命名，包括以下：包含间隔序列(在本文中也称为核酸靶结合序列)的间隔元件(图1B，103)；包含下部茎元件(图1B，104)，含有未配对的核苷酸的凸起元件(图1B，105)和上部茎元件(图1B， 106)的第一茎元件(图1B，104，105，106)；包含第二茎元件的连结(nexus)元件(图1B， 107)；包含第三茎元件的第一3'发夹元件(图1B，108)和包含第四茎元件的第二3'发夹元件 (图1B，109)。在一些2类II型CRISPR-Cas9系统中，第一茎元件没有凸起元件(例如空肠弯曲杆菌)。图1C说明了包含Cas9-crRNA(图1C，101)和Cas9-tracrRNA(图1C，102)的II 型CRISPR-Cas9双RNA组分系统。图1D说明了Cas9-crRNA和Cas9-tracrRNA之间的碱基对氢键形成以形成二级结构。图1D提供以下的概述和命名：间隔元件(图1D，103)；第一茎元件(图1D，110)；包含第二茎元件的连结元件(图1D，107)；包含第三茎元件的第一3' 发夹元件(图1D，108)和包含第四茎元件的第二3'发夹元件(图1D，109)。Cas9双重引导 RNA能够与同源Cas9蛋白形成核蛋白复合物，其中复合物能够靶向与间隔序列互补的核酸靶序列。本领域已知修饰的Cas9双重引导，包括删除一个或多个3'发夹元件(图1B， 108,109；图1D，108,109)，第一茎元件的修饰(图1B图1B，图104，图105，图106，图 1D110)以及上茎，凸出部和下茎的修改(分别参见图1B，图106，图105，图104)(例如参见美国专利公开号2014-0315985，2014年10月23日公开；2015年12月31日公布的美国专利公布2015-0376586)。如本文所用，“双引导Cas9多核苷酸”是指具有与crRNA具有相同结构元件的多核苷酸(图1A，101)和与tracrRNA具有相同结构元件的多核苷酸的双组分系统 (图1A1 102)。双重引导Cas9多核苷酸系统能够与同源Cas9蛋白缔合。

如本文所用，“单引导RNA”(sgRNA)和“Cas9-sgRNA”通常指如本文进一步描述的单组分RNA系统，其中该系统能够与同源Cas9蛋白结合。

图2A、2B和图2C显示2类II型CRISPR-Cas9相关RNA的实例。这些图说明了 Cas9单引导RNA(Cas9-sgRNA)，其中Cas9-crRNA常常通过四环共价连接至Cas9- tracrRNA，并且通过碱基对氢键键合形成RNA多核苷酸二级结构(参见例如，2014年3月6 日公布的美国公开专利申请号2014-0068797)。图2A提供酿脓链球菌的Cas9-sgRNA的二级结构元件的概述和命名，包括以下：包含间隔序列(在本文中也称为靶向核酸的核酸序列)的间隔元件(图2A，201)；包含下部茎元件(图2A，202)、含有未配对的核苷酸的凸起元件(图 2A，205)和上部茎元件(图2A，203)和含有未配对的核苷酸的环元件(图2A，204)的第一茎环元件(图2A，202,205,203,204)；包含第二茎环元件的连结元件(图2A，206)；包含第三茎环元件的第一3'发夹元件(图2A，207)；和包含含有第四茎环元件的第三茎元件(图2A，208) 的第二3'发夹元件(参见例如Briner,A.E.,et al.,Molecular Cell 56(2):333–339(2014)的图1 和3)。

图2B提供了用于空肠弯曲杆菌的Cas9-sgRNA的二级结构元件的概述和命名，包括以下：间隔元件(图2B，201)；包含未配对核苷酸的第一茎元件(图2B，209)和环元件(图 2B，204)(即第一茎环元件包含第一茎元件和环元件)；包含第二茎环元件的连结元件(图 2B，206)；包含第三茎环元件的第一3'发夹元件(图2B，207)；和包含含有第四茎环元件的第三茎元件的第二3'发夹元件(图2B，208)。Cas9-sgRNA能够与同源Cas9蛋白形成核蛋白复合物，其中复合物能够靶向与间隔序列互补的核酸序列。

Cas9单引导物的修饰在本领域中是已知的，包括但不限于一个或多个3'发夹元件的缺失(图2，207，208)，第一茎元件的修饰(图1B，104，105，106；图1D 110)，以及上部茎、凸起和下部茎的修饰(分别为图1B，106，105，104)(参见例如2014年10月23日公布的美国专利公开号2014-0315985；2015年12月31日公布的美国专利公开号2015- 0376586)。

如本文所用，“Cas9单引导多核苷酸”是指具有与sgRNA相同的结构元件的单组分系统(图2)。单引导Cas9多核苷酸系统能够与同源Cas9蛋白缔合。

图2C提供图2的更详细的图示。表1提供用于说明与2类II型CRISPR-Cas9 sgRNA相关的核酸序列区域的一系列数值指示。在表1中，“:”等同于术语“包含”。

表1

用于说明sgRNA中的核酸序列区域的数字标识

如本文所用，“2类V型引导crRNA”和“Cpf1-crRNA”通常指用于能够与同源Cpf1蛋白缔合的多核苷酸组分的单组分RNA系统(参见例如Zetsche,B.,et al.,Cell 163:1–13(2015))。图3A呈现了V型CRISPR-Cpf1相关RNA(Cpf1-crRNA)的实例，以及Cpf1-crRNA 的二级结构元件的概述和命名如下：茎环元件(图3A，301)和包含核酸靶结合序列的间隔元件(图3A，302)。茎环元件在5'至3'方向包含Cpf1茎RNA序列1C(图3A，303)、环元件(图 3A，304)和互补的Cpf1茎RNA序列1C(图3A，305)，其中Cpf1-茎RNA序列1和互补 Cpf1-茎RNA序列1C形成双链体。图3B呈现了Cpf1-crRNA的修饰，其中环元件从图3A 的茎环元件移除。图3B示出在5'至3'方向包含Cpf1-茎核酸序列1(图3B，303)的茎元件(图 3B，301)；互补的Cpf1-茎核酸序列1C(图3B，305)，其中Cpf1-茎核酸序列1和互补的 Cpf1-茎核酸序列1C形成双链体；和包含核酸靶结合序列的间隔元件(图3A，302)。引导 crRNA能够与同源Cpf1蛋白形成核蛋白复合物，其中复合物能够靶向与核酸靶结合序列互补的核酸靶序列。

如本文所用，“核酸靶结合序列”和“间隔核酸序列”是指能够与多核苷酸中的核酸靶序列杂交的核酸序列。“间隔元件”包含核酸靶结合序列。

如本文所用，“核酸支架”，“NASC”，“NASC多核苷酸组合物”，“NASC组合物”和“NASC多核苷酸组合物”均指形成支架的多核苷酸复合物。在优选的实施方案中，支架能够结合核酸结合蛋白。通常，NASC多核苷酸组合物是形成支架的两种或更多种工程化核酸序列的复合物，包含：(i)重复元件1(例如，包含重复核酸序列1)和重复元件2(例如包含重复核酸序列2)；(ii)核酸结合蛋白结合元件1(例如包含核酸结合蛋白结合序列1)和核酸结合蛋白结合元件2(例如，包含核酸结合蛋白结合序列2)；和(iii)间隔元件1(例如包含核酸靶结合序列1)和间隔元件2(例如包含核酸靶结合序列2)。在NASC多核苷酸组合物中，重复元件1与重复元件2连接。

NASC多核苷酸组合物能够与核酸结合蛋白缔合。在一些实施方案中，NASC多核苷酸组合物能够与两种或更多种核酸结合蛋白(例如，具有相似结构基序和功能基序的核酸结合蛋白)缔合以形成核蛋白复合物。下文讨论核酸结合蛋白的实例。

在NASC多核苷酸组合物的一些实施方案中，第一NASC多核苷酸组分(例如包含重复元件1，核酸结合蛋白结合元件1和间隔元件1的NASC-PC1)和第二NASC多核苷酸组分(例如，包含重复元件2，核酸结合蛋白结合元件2和间隔元件2的NASC-PC2)的每一种能够与相同种类的核酸结合蛋白(例如，具有相似结构基序和功能基序的核酸结合蛋白)缔合以形成核蛋白复合物。

在NASC多肽组合物的其它实施方案中，核蛋白复合物能够通过核酸结合蛋白结合包含核酸靶结合序列1、重复核酸序列1、重复核酸序列2和核酸靶结合序列1的大分子而被形成。

NASC多核苷酸组合物/核酸结合蛋白1/核酸结合蛋白2复合物能够优先结合多核苷酸中的核酸靶序列(相对于不包含核酸靶序列的多核苷酸)。

包含多个间隔元件的NASC多核苷酸(NASC-PC)在本文中统称为“NASC-PC- MTS”，并且具体参考间隔元件的数量“NASC-PC-(间隔元件的数目)TS”(例如，对于两个间隔元件，所使用的名称是NASC-PC-2TS)而提及。

包含多个多核苷酸的NASC-PC的组分在本文中参考多核苷酸的数量“NASC-PC-(多核苷酸的数量)”(例如，对于两个多核苷酸，所使用的名称是NASC-PC1-1和NASC-PC1-2) 而提及。

包含级联元件的NASC-PC多核苷酸组分在本文中被称为“NASC-PC-CE”。在包含断裂-连结多核苷酸的特定实施方案中，包含级联的断裂-连结元件的NASC多核苷酸组分在本文中被称为“NASC-PC-SCE“。

如本文所用，“核酸支撑(brace)序列”是包含至少两个不同的核酸靶序列的核酸序列：与第一NASC多核苷酸组合物的核酸靶结合序列1互补的核酸靶序列1，以及与第二NASC多核苷酸组合物的核酸靶结合序列2互补的核酸靶序列2。核酸支撑序列的一个实例是DNA支撑序列。

如本文所用，“NASC笼组合物(NASC-CC)”包含至少第一NASC多核苷酸组合物，其通过核酸支撑序列与第二NASC多核苷酸组合物连接以形成通常具有用于包装分子的内部空间的笼状结构。

如本文所用，术语“同源物(cognate)”通常指Cas蛋白(例如Cas9蛋白或Cpf1蛋白)和一种或多种Cas多核苷酸(例如分别为2类II型CRISPR-Cas9相关的NATNA或2类V型CRISPR-Cpf1相关的NATNA)，其能够形成核蛋白复合物，所述核蛋白复合物能够位点定向结合与存在于一种或多种Cas多核苷酸之一中的核酸靶结合序列互补的核酸靶序列。

术语“野生型”，“天然存在的”和“未修饰的”在本文中用于指自然界中存在的典型(或最常见)形式、外观、表型或品系；例如当它们出现在自然界中并且可以从其来源分离时的细胞、生物体、特征、多核苷酸、蛋白、大分子复合物、基因、RNA、DNA或基因组的典型形式。在进行有意修饰之前，野生型、外观、表型或品系用作原始亲本。因此，突变体、变体、工程化、重组和修饰形式不是野生型形式。

如本文所用，术语“工程化”、“基因工程的”、“重组的”、“修饰的”、“非天然存在的”、“非天然”和“非天然的”是可互换的并且表示有意的人类操纵。

如本文所用，“中断的”、“断裂的”和“不连续的”可互换使用以指例如在多核苷酸骨架的共价键中的连续性中断。例如，不连续的第一多核苷酸和第二多核苷酸各自具有5'端和3'端(5'端-第一多核苷酸-3'端和5'端-第二多核苷酸-3'端)。例如，DNA或RNA分子的5'端通常是糖环中的第五个碳，并且3'端通常是糖环中第三个碳上的羟基。当单个多核苷酸的骨架在一个位点断裂时，形成两个各自具有5'端和3'端的多核苷酸。例如，可通过添加部分 (例如，提供对外切核酸酶的降解作用的抗性的部分)来共价修饰5'和/或3'端。

“共价键”、“共价连接的”、“共价结合”、“共价链接”、“共价连接”和“分子键”在本文中可互换使用，并且指涉及原子之间电子对共享的化学键。共价键的实例包括但不限于磷酸二酯键和硫代磷酸酯键。

“非共价键”，“非共价连接的”，“非共价结合”，“非共价链接”，“非共价键相互作用”和“非共价连接”在本文中可互换使用，并且指任何不涉及电子对共享的相对较弱的化学键。多个非共价键常常稳定大分子的构象并介导分子间的特异性相互作用。非共价键的实例包括但不限于氢键、离子相互作用(例如Na⁺Cl^-)、范德华相互作用和疏水键。

如本文所用，“氢键键合”、“氢碱基配对”、“氢键碱基配对”、“氢键键合的”和“氢键键合的碱基对”可互换使用，并指规范氢键键合和非规范氢键键合，包括但不限于“沃森 -克里克-氢键键合的碱基对”(W-C-氢键键合的碱基对或W-C氢键)；“Hoogsteen-氢键键合的碱基对”(Hoogsteen氢键键合)；和“摆动-氢键键合的碱基对”(摆动氢键键合)。包括反向W-C氢键键合在内的W-C氢键键合是指嘌呤-嘧啶碱基配对，即腺嘌呤：胸腺嘧啶，鸟嘌呤：胞嘧啶和尿嘧啶：腺嘌呤。包括反向Hoogsteen氢键键合的Hoogsteen氢键键合指核酸中碱基配对的变化，其中两个核碱基(每个链上一个)通过大沟中的氢键保持在一起。这种非 W-C氢键键合可以允许第三条链缠绕双链体并形成三链螺旋。摆动氢键键合，包括反向摆动氢键键合，是指不遵循沃森-克里克碱基对规则的RNA分子中两个核苷酸之间的配对。有四种主要的摆动碱基对：鸟嘌呤：尿嘧啶，肌苷(次黄嘌呤)：尿嘧啶，肌苷-腺嘌呤和肌苷-胞嘧啶。规范氢键键合和非规范氢键键合的规则是本领域普通技术人员已知的(参见例如TheRNA World,Third Edition(Cold Spring Harbor Monograph Series),R.F.Gesteland,Cold Spring Harbor Laboratory Press,ISBN 978-0879697396(2005)；The RNA World,Second Edition(Cold Spring Harbor Monograph Series),R.F.Gesteland,et al.,ColdSpring Harbor Laboratory Press, ISBN 978-0879695613(1999)；The RNA World(ColdSpring Harbor Monograph Series),R.F. Gesteland,et al.,Cold Spring HarborLaboratory Press,ISBN 978-0879694562(1993)(参见例如 Appendix 1:Structures ofBase Pairs Involving at Least Two Hydrogen Bonds,I.Tinoco)； Principles ofNucleic Acid Structure,W.Saenger,Springer International Publishing AG,ISBN978- 0-387-90761-1(1988)；Principles of Nucleic Acid Structure,First Edition,S.Neidle,Academic Press,ISBN 978-01236950791(2007))。

“连接”、“连接的”和“连接性”在本文中可互换使用，并且指两个大分子(例如多核苷酸、蛋白等)之间的共价键或非共价键。

如本文所用，“互补性”是指核酸序列与另一核酸序列(例如，通过经典沃森-克里克碱基配对)形成氢键的能力。互补性百分比表示可以与第二核酸序列形成氢键的核酸分子中残基的百分比。如果两个多核苷酸序列具有100％互补性，则这两个序列是完全互补的，即第一多核苷酸的所有连续残基与第二多核苷酸中相同数量的连续残基氢键键合。

如本文所用，“结合”是指大分子之间(例如，蛋白和多核苷酸之间、多核苷酸和多核苷酸之间或蛋白和蛋白之间等等)的非共价相互作用。这种非共价相互作用也被称为“缔合”或“相互作用”(例如，如果第一大分子与第二大分子相互作用，则第一大分子以非共价方式与第二大分子结合)。结合相互作用的一些部分可以是序列特异性的。如本文所用，“序列特异性结合”通常是指一种或多种NASC多肽组合物能够与一种或多种蛋白(例如， Cas9蛋白和/或Cpf1蛋白)形成复合物以引起相对于没有核酸靶结合)序列(例如，DNA靶结合序列的第二核酸序列(例如，第二DNA序列)，蛋白优先结合包含核酸靶序列(例如，DNA 靶序列)的核酸序列(例如，DNA序列)。结合相互作用的所有组分不需要是序列特异性的，例如蛋白与DNA骨架中的磷酸残基结合。结合相互作用可以用解离常数(Kd)来表征。“结合亲和力”是指结合相互作用的强度。增加的结合亲和力与较低的Kd相关。

如本文所用，如果包含Cas蛋白的定点核蛋白复合物在多核苷酸内的核酸靶序列处结合或切割多核苷酸，则称Cas蛋白(例如Cas9蛋白)“靶向”多核苷酸。

如本文所用，“双链断裂”(DSB)指被切断的双链DNA区段的两条链。在一些情况下，如果发生这样的断裂，则可以认为一条链具有“粘性末端”，其中核苷酸暴露而不与另一条链上的核苷酸氢键键合。在其它情况下，可以出现“平端”，其中两条链保持彼此完全碱基配对。

“供体多核苷酸”、“供体寡核苷酸”和“供体模板”在本文中可互换使用，并且可以是双链多核苷酸(例如双链DNA)、单链多核苷酸(例如单链DNA)或其组合。供体多核苷酸包含侧接插入序列的同源臂(例如，DNA中的DSB)。每侧的同源臂可以长度不同。设计和构建供体多核苷酸的参数在本领域中是公知的(参见例如Ran,F.,et al.,Nature Protocols 8(11):2281-2308(2013)；Smithies,O.,et al.,Nature 317:230-234(1985)；Thomas,K.,etal.,Cell 44:419-428(1986)；Wu,S.,et al.,Nature Protocols 3:1056-1076(2008)；Singer,B.,et al.,Cell 31:25-33(1982)；Shen,P.,et al.,Genetics 112:441-457(1986)；Watt,V.,et al.,Proceedings of the National Academy of Sciences of theUnited States of America 82:4768-4772(1985)；Sugawara,N., et al.,Journal ofMolecular Cell Biology 12(2):563-575(1992)；Rubnitz,J.,et al.,Journal ofMolecular Cell Biology 4(11):2253-2258(1984)；Ayares,D.,et al.,Proceedings ofthe National Academy of Sciences of the United States of America 83(14):5199-5203(1986)；Liskay,R,et al., Genetics 115(1):161-167(1987))。

如本文所用，“同源性定向修复”(HDR)是指发生在细胞中的DNA修复，例如在修复DNA中的DSB期间。HDR需要核苷酸序列同源性并使用供体多核苷酸来修复其中发生 DSB(例如在DNA靶序列内)的序列。供体多核苷酸通常与DSB侧翼序列具有必需的序列同源性，以便供体多核苷酸可用作适当的修复模板。HDR导致将例如供体多核苷酸的遗传信息转移至DNA靶序列。如果供体多核苷酸序列不同于DNA靶序列并且供体多核苷酸的部分或全部掺入DNA靶序列中，则HDR可导致DNA靶序列的改变(例如插入、缺失或突变)。在一些实施方案中，整个供体多核苷酸、供体多核苷酸的一部分或供体多核苷酸的拷贝整合在DNA靶序列的位点处。例如，供体多核苷酸可用于修复DNA靶序列中的断裂，其中所述修复导致来自供体多核苷酸的遗传信息(即，多核苷酸序列)转移至所述位点或紧邻所述DNA断裂处。因此，新的遗传信息(即多核苷酸序列)可以插入或复制在DNA靶序列上。

“基因组区”是宿主细胞基因组中染色体的区段，其存在于核酸靶序列位点任一侧上或者也包括核酸靶序列位点的一部分。供体多核苷酸的同源臂具有足够的同源性以与相应的基因组区进行同源重组。在一些实施方案中，供体多核苷酸的同源臂与紧邻核酸靶序列位点侧翼的基因组区具有显著的序列同源性；应该认识到同源臂可以设计为与更远离核酸靶序列位点的基因组区具有足够的同源性。

如本文所用，“非同源末端连接”(NHEJ)是指通过将断裂的一端直接连接至断裂的另一端而不需要供体多核苷酸来修复DNA中的DSB。NHEJ是可用于细胞以修复DNA而不使用修复模板的DNA修复途径。在没有供体多核苷酸的情况下NHEJ通常导致核苷酸在 DSB位点随机插入或缺失。

“微同源性介导的末端连接”(MMEJ)是修复DNA中DSB的途径。MMEJ涉及在 DSB侧翼的缺失以及在连接之前对断裂端内部的微同源序列进行比对。MMEJ是遗传学定义的并且需要例如CtIP、聚(ADP-核糖)聚合酶1(PARP1)、DNA聚合酶θ(Polθ)、DNA连接酶1(Lig1)或DNA连接酶3(Lig3)的活性。其它遗传组分在本领域中是已知的(参见例如 Sfeir,A.,et al.,Trends in Biochemical Sciences 40:701-714(2015))。

如本文所用，“DNA修复”涵盖细胞机器修复细胞中所含DNA分子损伤的任何过程。修复的损伤可以包括单链断裂或双链断裂。至少有三种机制可以修复DSB：HDR、 NHEJ和MMEJ。本文中还使用“DNA修复”来指由人操纵产生的DNA修复，其中靶基因座被修饰，例如通过插入、缺失或取代核苷酸，所有这些表示基因组编辑的形式。

如本文所用，“重组”是指两个多核苷酸之间遗传信息交换的过程。

如本文所用，术语“调控序列”、“调控元件”和“控制元件”是可互换的，并且指待表达的多核苷酸靶的上游(5'非编码序列)，之内或下游(3'非翻译序列)。调控序列影响例如转录的时间、转录的量或水平、RNA加工或稳定性和/或相关结构核苷酸序列的翻译。调控序列可以包括激活子结合序列、增强子、内含子、聚腺苷酸化识别序列、启动子、转录起始位点、阻遏物结合序列、茎环结构、翻译起始序列、内部核糖体进入位点(IRES)、翻译前导序列、转录终止序列(例如聚腺苷酸化信号和聚-U序列)、翻译终止序列、引物结合位点等。

调控元件包括在许多类型的宿主细胞中引导核苷酸序列的组成型、诱导型和阻抑型表达的那些调控元件和引导仅在某些宿主细胞中表达核苷酸序列的那些调控元件(例如组织特异性调控序列)。在一些实施方案中，载体包含一个或多个pol III启动子、一个或多个pol II启动子、一个或多个pol I启动子或其组合。pol III启动子的实例包括但不限于U6和H1 启动子。pol II启动子的实例包括但不限于逆转录病毒劳斯肉瘤病毒(RSV)LTR启动子(任选地与RSV增强子)、巨细胞病毒(CMV)启动子(任选地与CMV增强子；参见例如Boshart,M., et al.,Cell 41:521-530(1985))、SV40启动子、二氢叶酸还原酶启动子、β-肌动蛋白启动子、磷酸甘油激酶(PGK)启动子和EF1α启动子。本领域技术人员将会理解，表达载体的设计可取决于诸如待转化的宿主细胞的选择、期望的表达水平等因素。可以将载体导入宿主细胞中，从而产生由本文所述核酸编码的转录物、蛋白或肽，包括融合蛋白或肽。

如本文所用，“基因”是指包含一个或多个外显子和相关调控序列的多核苷酸序列。基因可以还包含一个或多个内含子和/或一个或多个非翻译区(一个或多个UTR)。

如本文所用，术语“可操作连接”是指彼此处于功能关系中的多核苷酸序列或氨基酸序列。例如，如果调控序列调节或有助于调节多核苷酸的转录，调控序列(例如启动子或增强子)与编码基因产物的多核苷酸“可操作地连接”。可操作地连接的调控元件通常与编码序列邻接。但是，如果增强子与启动子分开达几千个碱基或更多，增强子可以起作用。因此，一些调控元件可以可操作地连接至多核苷酸序列但不与多核苷酸序列邻接。类似地，翻译调节元件有助于调节自多核苷酸的蛋白表达。

如本文所用，术语“表达”是指多核苷酸从DNA模板转录，产生例如信使 RNA(mRNA)或其它RNA转录物(例如非编码，例如结构或骨架RNA)。该术语进一步指转录的mRNA翻译成肽、多肽或蛋白的过程。转录物和编码的多肽可通称为“基因产物”。如果多核苷酸源自基因组DNA，则表达可包括在真核细胞中剪接mRNA。

如本文所用，术语“调节”是指功能的数量、程度或量的变化。例如，如本文所公开的NASC多核苷酸组合物/第一核酸结合蛋白/第二核酸结合蛋白(例如2类CRISPR-Cas蛋白)复合物可通过在启动子处或在启动子附近结合两个或更多个核酸靶序列，调节启动子序列的活性。取决于结合后发生的作用，NASC多核苷酸组合物/第一核酸结合蛋白/第二核酸结合蛋白复合物可以诱导、增强、阻遏或抑制可操作地连接至启动子序列的基因的转录。因此，基因表达的“调节”包括基因活化和基因阻抑二者。

调节可通过测定受靶基因的表达直接或间接影响的任何特征测定。这样的特征包括例如，RNA或蛋白水平、蛋白活性、产物水平、基因表达或报告基因的活性水平的变化。因此，术语“调节基因表达”、“抑制基因表达”和“激活基因表达”可以指NASC多肽组合物/核酸结合蛋白复合物改变、激活或抑制基因转录的能力。

如本文所用的“载体”和“质粒”是指将遗传物质引入细胞的多核苷酸媒介。载体可以是线性的或环状的。载体可以含有能够实现载体在合适的宿主细胞中复制的复制序列(即复制起点)。转化合适的宿主后，载体可以独立于宿主基因组复制并发挥功能或整合到宿主基因组中。载体设计尤其取决于载体的预期用途和宿主细胞，并且用于特定用途和宿主细胞的本发明载体的设计在本领域技术水平内。四种主要类型的载体是质粒、病毒载体、粘粒和人工染色体。通常，载体包含复制起点、多克隆位点和/或选择标记。表达载体通常包含表达盒。

如本文所用，“表达盒”是指使用重组方法或通过合成手段产生的多核苷酸构建体，其包含与选定多核苷酸可操作连接的调控序列，以促进所选多核苷酸在宿主细胞中表达。例如，调控序列可以促进所选多核苷酸在宿主细胞中的转录，或所选多核苷酸在宿主细胞中的转录和翻译。表达盒可以例如整合到宿主细胞的基因组中或存在于载体中以形成表达载体。

如本文所用，“靶向载体”是重组DNA构建体，其通常包含与gDNA同源的定制 DNA臂，所述DNA臂侧接靶基因或核酸靶序列(例如DSB)的元件。靶向载体可以包含供体多核苷酸。靶基因的元件可以用许多方式修饰，包括缺失和/或插入。有缺陷的靶基因可被功能性靶基因取代，或者备选地功能性基因可被敲除。任选地，靶向载体的供体多核苷酸包含选择盒，所述选择盒包含引入靶基因的选择标记。靶基因邻近或靶基因内的靶向区(即，核酸靶序列)可用于影响基因表达的调节。

如本文所用，术语“核酸”、“核酸序列”、“核苷酸序列”、“寡核苷酸”和“多核苷酸”是可互换的并且指核苷酸的聚合形式。核苷酸可以是脱氧核糖核苷酸(DNA)、核糖核苷酸(RNA)、其类似物或其组合，并且可以具有任何长度。多核苷酸可以执行任何功能并且可以具有任何二级和三级结构。这些术语涵盖天然核苷酸的已知类似物和在碱基、糖和/或磷酸部分中被修饰的核苷酸。特定核苷酸的类似物具有相同的碱基配对特异性(例如，A与T 碱基配对的类似物)。多核苷酸可以包含一个修饰的核苷酸或多个修饰的核苷酸。修饰的核苷酸的实例包括氟化核苷酸、甲基化核苷酸和核苷酸类似物。核苷酸结构可以在聚合物组装之前或之后进行修饰。聚合后，多核苷酸可以通过例如与标记组分或靶结合组分缀合而另外修饰。核苷酸序列可以掺入非核苷酸组分。该术语还涵盖包含修饰的骨架残基或连键的核酸，其是合成的、天然存在的和非天然存在的，并且具有与参考多核苷酸(例如DNA或RNA)相似的结合特性。此类类似物的实例包括但不限于硫代磷酸酯、氨基磷酸酯、膦酸甲酯、手性膦酸甲酯、2-O-甲基核糖核苷酸、肽-核酸(PNA)、锁核酸(LNA^TM)(Exiqon,Inc.,Woburn,MA)核苷、二醇核酸、桥连核酸和吗啉代结构。

肽-核酸(PNA)是核酸的合成同系物，其中多核苷酸磷酸-糖骨架被柔性假肽聚合物替代。核碱基与聚合物连接。PNA具有以高亲和力和特异性与RNA和DNA的互补序列杂交的能力。

在硫代磷酸酯核酸中，硫代磷酸酯(PS)键用硫原子取代多核苷酸磷酸骨架中的非桥连氧。这种修饰使得核苷酸间连键抵抗核酸酶降解。在一些实施方案中，在多核苷酸序列的5' 或3'端的最后3至5个核苷酸之间引入硫代磷酸酯键以抑制外切核酸酶降解。在整个寡核苷酸中放置硫代磷酸酯键也有助于减少内切核酸酶的降解。

苏糖核酸(TNA)是人造遗传聚合物。TNA的骨架结构包含通过磷酸二酯键连接的重复苏糖。TNA聚合物对核酸酶降解具有抗性。TNA可通过碱基对氢键键合自组装成双链体结构。

可以通过使用“反向亚磷酰胺”将连键倒位引入多核苷酸中(参见例如www.ucalgary.ca/dnalab/synthesis/-modifications/linkages)。通过产生具有两个5'-OH末端和不具有3'-OH末端的寡核苷酸，多核苷酸末端的3'-3'连键使多核苷酸对外切核酸酶降解稳定。通常，此类多核苷酸在5'-OH位置上具有亚磷酰胺基团，和在3'-OH位置上具有二甲氧基三苯甲基(DMT)保护基。通常，DMT保护基在5'-OH上，和亚磷酰胺在3'-OH上。

除非另有说明，多核苷酸序列以常规的5'至3'方向在本文展示。

如本文所用，术语“序列同一性”通常是指使用具有各种权重参数的算法将第一多核苷酸或多肽与第二多核苷酸或多肽比较时，核苷酸碱基或氨基酸的同一性百分比。在两种多核苷酸或两种多肽之间的序列同一性可通过各种方法和计算机程序(例如，BLAST、CS-BLAST、FASTA、HMMER、L-ALIGN等)，使用序列比对测定，所述计算机程序可通过网站，包括但不限于GENBANK(www.ncbi.nlm.nih.gov/genbank/)和EMBL-EBI(www.ebi.ac.uk.) 获得。在两种多核苷酸或两种多肽序列之间的序列同一性通常使用各种方法或计算机程序的标准默认参数计算。如本文所用，在两种多核苷酸或两种多肽之间高度的序列同一性通常为约90％同一性至100％同一性，例如，约90％同一性或更高、优选地约95％同一性或更高、更优选地约98％同一性或更高。如本文所用，在两种多核苷酸或两种多肽之间中度的序列同一性通常是约80％同一性至约85％同一性，例如，约80％同一性或更高、优选地约85％同一性。如本文所用，在两种多核苷酸或两种多肽之间低度的序列同一性通常是约50％同一性至75％同一性，例如，约50％同一性、优选地约60％同一性、更优选地约75％同一性。例如，Cas蛋白(例如，包含氨基酸取代的Cas9)可在其长度上与参比Cas蛋白(例如，野生型 Cas9)具有低度的序列同一性、中度的序列同一性或高度的序列同一性。作为另一个实例， NATNA可在其长度上与和参比Cas蛋白复合的参比野生型多核苷酸(例如，与Cas9形成复合物的sgRNA)相比，具有低度的序列同一性、中度的序列同一性或高度的序列同一性。

如本文所用“杂交(hybridization)”或“杂交(hybridize)”或“杂交(hybridizing)”是组合两个互补单链DNA或RNA分子从而通过氢碱基配对形成单一双链分子(DNA/DNA、 DNA/RNA、RNA/RNA)的过程。杂交严格性通常由杂交温度和杂交缓冲液的盐浓度确定，例如，高温度和低盐提供了高严格性杂交条件。对于不同的杂交条件的盐浓度范围和温度范围的实例如下：高严格性，大约0.01M至大约0.05M的盐，低于Tm 5℃至10℃的杂交温度；中等严格性，大约0.16M至大约0.33M的盐，低于Tm 20℃至29℃的杂交温度；和低严格性，大约0.33M至大约0.82M的盐，低于Tm 40℃至48℃的杂交温度。双链体核酸的 Tm通过本领域众所周知的标准方法计算Maniatis,T.,et al.,Molecular Cloning:A LaboratoryManual,Cold Spring Harbor Laboratory Press:New York(1982)；Casey,J.,et al.,Nucleic Acids Research 4:1539-1552(1977)；Bodkin,D.K.,et al.,Journal ofVirological Methods 10(1):45-52 (1985)；Wallace,R.B.,et al.,Nucleic AcidsResearch 9(4):879-894(1981))。评估Tm的算法预测工具也是可广泛获得的。高严格性杂交条件通常是指与靶序列互补的核酸多核苷酸与靶序列优势地杂交，和与非靶序列基本上不杂交的条件。通常，杂交条件具有中等严格性，优选地高严格性。

如本文所用，“茎元件”或“茎结构”是指包含已知或预测形成双链区(“茎元件”)的两条链的多核苷酸。“茎环元件”或“茎环结构”是指其中一条链的3'端通过典型单链核苷酸(“茎环元件核苷酸序列”)的核苷酸序列与第二链的5'端共价键合的茎结构。在一些实施方案中，环元件包含长度约3至约20个核苷酸，优选长度约4至约10个核苷酸的环元件核苷酸序列。在优选的实施方案中，环元件核苷酸序列是未配对的核酸碱基的单链核苷酸序列，其不通过氢键形成相互作用以在环元件核苷酸序列内产生茎元件。术语“发夹元件”在本文中也用于指代茎环结构。这样的结构在本领域中是众所周知的。碱基配对可能确切；然而，如本领域已知的，茎元件不需要精确的碱基配对。因此，茎元件可以包括一个或多个碱基错配或非配对碱基。

“接头元件核苷酸序列”和“接头核苷酸序列”在本文中可互换使用，并且是指共价连接至第一多核苷酸序列的5'端、3'端或者5'端和3'端两者的一个或多个核苷酸的单链序列，并且通常指连接第一多核苷酸序列和第二多核苷酸序列的单链核酸序列。在优选的实施方案中，接头元件核苷酸序列是未配对的核酸碱基的单链核苷酸序列，其不通过氢键形成相互作用以在接头元件核苷酸序列内产生茎元件。在一些实施方案中，接头元件核苷酸序列的长度在约1个至约20个核苷酸之间，优选长度在约2个至约10个核苷酸之间。

如本文所用，术语“氨基酸”是指天然和合成(非天然)氨基酸，包括氨基酸类似物、修饰的氨基酸、肽模拟物、甘氨酸和D或L光学异构体。

如本文所用，术语“肽”、“多肽”和“蛋白”是可互换的并且指氨基酸的聚合物。多肽可以具有任何长度。它可以是分支的或线性的，它可以被非氨基酸中断，并且它可以包含修饰的氨基酸。该术语还指通过例如乙酰化、二硫键形成、糖基化、脂化、磷酸化、聚乙二醇化、生物素化、交联和/或缀合(例如用标记组分或配体)修饰的氨基酸聚合物。除非另有说明，多肽序列在本文中以常规的N末端至C末端方向展示。

多肽和多核苷酸可以使用分子生物学领域的常规技术制备(参见例如上面讨论的标准教科书)。此外，基本上任何多肽或多核苷酸均可从商业来源获得。

如本文所用，术语“融合蛋白”和“嵌合蛋白”是指通过连接两种或更多种蛋白、蛋白结构域或不一起天然存在于单一蛋白中的蛋白片段而产生的单一蛋白。例如，融合蛋白可含有来自Cas9蛋白的第一结构域和来自Csy4蛋白的第二结构域。将所述结构域包含在融合蛋白中的修饰可赋予修饰的定点多肽另外的活性。这些活性可包括核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨活性、歧化酶活性、烷基化活性、去嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光解酶活性、糖基化酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、去腺苷酸化活性、SUMO化活性、去SUMO化活性、核糖基化活性、去核糖基化活性、肉豆蔻酰化活性或去肉豆蔻酰化活性，其修饰与核酸靶序列缔合的多肽(例如组蛋白)。融合蛋白还可以包含表位标签(例如组氨酸标签、

(Sigma Aldrich,St.Louis,MO)标签、Myc标签)、报告蛋白序列(例如谷胱甘肽-S-转移酶、β-半乳糖苷酶、荧光素酶、绿色荧光蛋白、青色荧光蛋白、黄色荧光蛋白)和/或核酸结合结构域(例如DNA结合结构域、 RNA结合结构域)。融合蛋白还可以包含激活子结构域(例如热激转录因子，NFκB激活子) 或阻遏子结构域(例如KRAB结构域)。如Lupo,A.,et al.,Current Genomics 14(4):268-278 (2013)所述，KRAB结构域是有效的转录阻遏模块，其位于大多数C2H2锌指蛋白的氨基末端序列中(参见例如Margolin,J.,et al.,Proceedings of the National Academy of Sciences of the UnitedStates of America 91:4509-4513(1994)；Witzgall,R.,et al.,Proceedings of theNational Academy of Sciences of the United States of America 91:4514-4518(1994))。KRAB结构域通常通过蛋白-蛋白相互作用与辅阻遏蛋白和/或转录因子结合，引起KRAB锌指蛋白(KRAB-ZFP) 结合的基因的转录阻遏(参见例如Friedman J.R.,et al.,Genes&Development 10:2067-2678 (1996))。在一些实施方案中，使用接头核酸序列来连接两种或更多种蛋白、蛋白结构域或蛋白片段。

如本文所用，“部分”是指分子的一部分。部分可以是官能团或描述具有多个官能团的分子的一部分(例如，具有共同的结构方面)。术语“部分”和“官能团”通常可互换使用；然而，“官能团”可以更具体地指代包含一些常见化学行为的分子的一部分。“部分”通常用作结构描述。在一些实施方案中，5'端、3'端或5'端和3'端(例如第一茎元件中的非天然 5'端和/或非天然3'端)。

如本文所用，术语“亲和标签”通常指增加NASC多核苷酸组合物的多核苷酸组分的结合亲和力的一个或多个部分，例如以促进NASC复合物的形成。本发明的一些实施方案使用“亲和序列”，其是包含一个或多个亲和标签的多核苷酸序列。在本发明的一些实施方案中，多核苷酸组分还包含位于5'端、3'端或位于5'端和3'端之间的亲和序列。本发明的一些实施方案将一个或多个亲和标签引入Cas蛋白序列(例如Cas9蛋白序列)的N末端、Cas 蛋白序列的C端、Cas蛋白序列的N末端和C末端，或其组合。在本发明的一些实施方案中，用亲和标签或亲和序列修饰Cas-多肽。在2014年10月23日公布的美国公开专利申请号2014-0315985中公开了各种各样的亲和标签。

如本文所用，“交联”是将一条聚合物链(例如多核苷酸或多肽)连接至另一条的键。这样的键可以是共价键或离子键。在一些实施方案中，一个多核苷酸可以通过交联多核苷酸而与另一个多核苷酸结合。在其它实施方案中，多核苷酸可以与多肽交联。在另外的实施方案中，多肽可以与多肽交联。

如本文所用，术语“交联部分”通常指适合于在NASC多核苷酸组合物的多核苷酸组分之间提供交联的部分。交联部分是亲和标签的另一个实例。

如本文所用，术语“配体”和“配体结合部分”是指促进多核苷酸组分结合形成NASC多核苷酸组合物的部分。配体和配体结合部分是成对的亲和标签。

如本文所用，“宿主细胞”通常是指生物学细胞。细胞可以是生物体的基本结构、功能和/或生物学单元。细胞可源自具有一个或多个细胞的任何生物体。宿主细胞的实例包括但不限于：原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如，来自植物作物(例如大豆、西红柿、甜菜、南瓜、干草、大麻、烟草、车前草、山药、甘薯、木薯、马铃薯、小麦、高粱、黄豆、水稻、玉米、玉米、产油芸苔属植物(例如，产油的油菜籽和低芥酸油菜籽(canola))、棉花、甘蔗、向日葵、小米和苜蓿)、水果、蔬菜、谷物、种子、开花植物、针叶树、裸子植物、蕨类、石松、金鱼藻、地钱、苔藓)、藻细胞(例如，黄被藻(Botryococcus braunii)、莱哈衣藻(Chlamydomonas reinhardtii)、海洋富油微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻(Sargassum patens C.Agardh)等)、海草(例如kelp)、真菌细胞(例如，酵母细胞、来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如，鱼、两栖动物、爬行动物、鸟、哺乳动物)的细胞、来自哺乳动物(例如，猪、牛、山羊、绵羊、啮齿动物、大鼠、小鼠、非人灵长类动物、人等)的细胞。此外，细胞可以是干细胞或祖细胞。

如本文所用，“干细胞”是指具有自我更新能力的细胞，即具有经历多个细胞分裂周期同时保持未分化状态的能力。干细胞可以是全能的、多能性的、多能的、寡能的或单能的。干细胞可以是胚胎、胎儿、羊膜、成人或诱导的多能干细胞。

如本文所用，“诱导性多能干细胞”是指通过诱导特定基因的表达人工衍生自非多能细胞(通常为成体细胞)的一类多能干细胞。

如本文所用，“植物”是指完整植物、植物器官、植物组织、种质、种子、植物细胞及其后代。植物细胞包括但不限于来自种子、悬浮培养物、胚胎、分生组织区域、愈伤组织、叶、根、芽、配子体、孢子体、花粉和小孢子的细胞。植物部分包括分化的和未分化的组织，包括但不限于根、茎、芽、叶、花粉、种子、肿瘤组织和各种形式的细胞和培养物 (例如单细胞、原生质体、胚胎和愈伤组织)。植物组织可以在植物中或在植物器官、组织或细胞培养物中。“植物器官”是指构成植物的形态上和功能上不同部分的植物组织或一组组织。

如本文所用，“受试者”是指脊索动物门的任何成员、包括但不限于人类和其它灵长类动物，包括非人灵长类动物例如恒河猴、黑猩猩和其它猴和猿物种；农场动物，例如牛、绵羊、猪、山羊和马；家养哺乳动物，例如狗和猫；实验室动物，包括兔子、小鼠、大鼠和豚鼠；鸟类，包括家养鸟、野生鸟和猎鸟，例如鸡、火鸡和其它鸡类、鸭、鹅；等等。该术语不表示特定的年龄或性别。因此，该术语包括成年、年幼和新生个体以及雄性和雌性。在一些实施方案中，宿主细胞来源于受试者(例如干细胞、祖细胞或组织特异性细胞)。在一些实施方案中，受试者是非人类受试者。

如本文所用，“转基因生物体”是指其基因组经遗传修饰的生物体。该术语包括转基因生物体的后代(任何一代)，前提是该后代具有遗传修饰。

如本文所用，“分离的”可以指通过人为干预，与其天然环境分开存在并因此不是天然产物的核酸或多肽。分离的核酸或多肽可以以纯化形式存在和/或可以存在于非天然环境中，例如存在于重组细胞中。

在本发明的一般方面，NASC多核苷酸组合物包含与重复元件2连接的重复元件1，核酸结合蛋白结合元件1和核酸结合蛋白结合元件2，以及间隔元件1和间隔元件2。

重复元件1和重复元件2通常通过共价键、非共价键或共价和非共价键的组合连接。在一些实施方案中，重复元件1和重复元件2通过氢键键合的碱基对连接。

NASC多核苷酸组合物能够与核酸结合蛋白缔合形成核蛋白复合物。在一些实施方案中，具有相似结构基序和功能基序的两种或更多种核酸结合蛋白用于与NASC多核苷酸组合物形成核蛋白复合物。在优选的实施方案中，核酸结合蛋白是2类CRISPR-Cas蛋白。在一些实施方案中，核酸结合蛋白结合双链核酸结合蛋白结合序列(“双链核酸结合蛋白”)。

图4A、图4B、图4C、图4D、图4E、图4F、图4G、图4H、图4I、图4J、图 4K、图4L、图4M、图4N和图4O说明了本发明的不同类型的核酸支架的一般实例。这些图显示了用于形成支架的工程化核酸序列中不同元件的相对位置。

在一些实施方案中，形成支架的两种或更多种工程化核酸序列的复合物包含：

第一工程化核酸，其包含(i)核酸结合蛋白结合元件1，其包含具有第一末端和第二末端的核酸结合蛋白结合序列1(例如，双链核酸结合蛋白结合序列1)，(ii)包含具有第一末端和第二末端的重复核酸序列1的重复元件1，以及(iii)包含核酸靶结合序列1的间隔元件1；和第二工程化核酸，其包含(i)核酸结合蛋白结合元件1C，其包含具有第一末端和第二末端的核酸结合蛋白结合序列2(例如，双链核酸结合蛋白结合序列2)，(ii)包含具有第一末端和第二末端的重复核酸序列2的重复元件2，以及(iii)包含核酸靶结合序列2的间隔元件2。

重复核酸序列1和重复核酸序列1C是互补的。重复核酸序列1C也被称为重复核酸序列2。重复核酸序列1通过氢键键合的碱基对与重复核酸序列1C连接。

表2给出了在图4A至4O中一致使用的一系列标识。

表2

用于说明形成支架的两种或更多种工程化核酸序列的复合物区域的数字标识

#＝对于另外的工程化核酸，数字3之后的序列编号。

图4A、图4C、图4E、图4G、图4I和图4K各自呈现来自第一工程化核酸内的区域 1-1、区域1-2和区域1-3以及第二工程化核酸内的区域2-1、区域2-2和区域2-3的六种不同布置的集合的一个实例，其中重复核酸序列1-1通过重复核酸序列1-1和重复核酸序列2- 1之间的氢键键合与重复核酸序列2-1缔合。在这些图中，第一工程化核酸是单个多核苷酸，并且第二工程化核酸是单个多核苷酸。每个多核苷酸具有第一末端和第二末端。在一些实施方案中，第一末端是5'端，和第二末端是3'端。在其它实施方案中，第一末端是3'端，和第二末端是5'端。

图4B、图4D、图4F、图4H、图4J和图4L均呈现与图4A、图4C、图4E、图 4G、图4I和图4K相同的布置，其中第一工程化核酸包含通过氢键键合缔合的多个多核苷酸(在这些图中表示为核酸序列之间的多条直线)，并且第二工程化核酸包含通过氢键键合缔合的多个多核苷酸。每个多核苷酸具有第一末端和第二末端。在一些实施方案中，第一末端是5'端并且第二末端是3'端，其中多核苷酸中的标准5'到3'方向被维持。在其它实施方案中，第一末端是3'端并且第二末端是5'端，其中多核苷酸中的标准5'到3'方向被维持。

图4M说明形成支架的三种工程化核酸序列的复合物的实例。在该图中，第一、第二和第三工程化核酸各自是单个多核苷酸。第一和第二工程化核酸对应于图4A中呈现的第一和第二工程化核酸，并且第三工程化核酸对应于图4G的第二工程化核酸。

图4N说明形成支架的三种工程化核酸序列的复合物的实例。在该图中，第一和第三工程化核酸各自是单个多核苷酸。第二工程化核酸包含通过氢键键合缔合的多个多核苷酸。第一工程化核酸对应于图4C中呈现的第一工程化核酸。第二工程化核酸对应于图4D中呈现的第二工程化核酸。第三工程化核酸对应于图4E的第二工程化核酸。

图4O说明形成支架的三种工程化核酸序列的复合物的实例。在该图中，第一和第三工程化核酸各自是单个多核苷酸。第二工程化核酸包含通过氢键键合缔合的多个多核苷酸。

第一工程化核酸对应于图4I中呈现的第一工程化核酸。第二工程化核酸对应于图4F中呈现的第二工程化核酸。第三工程化核酸对应于图4K的第二工程化核酸。

本发明包括多种由两种或更多种工程化核酸序列的复合物组成的基于核酸的支架。在优选的实施方案中，工程化核酸序列包含2类CRISPR靶向核酸的核酸的元件，例如编码基于2类crRNA、2类CRISPR-tracrRNA和2类CRISPR单一引导RNA的序列的核酸序列的元件。2类CRISPR相关元件的实例包括但不限于图1A、图1B、图1C、图1D、图2A、图2B、图3A和图3B中呈现的元件。

在一些实施方案中，核酸支架包含核酸蛋白结合序列，包括但不限于与基因组编辑系统相关的那些(例如锌指核酸酶(ZFN)，基于转录激活物样效应子的核酸酶(TALEN))、大范围核酸酶和CRISPR-Cas)。核酸蛋白结合序列的实例包括但不限于与以下核酸结合蛋白相关的那些：2类CRISPR核酸结合蛋白(例如Cpf1蛋白、dCpf1蛋白(无催化活性)、Cas9蛋白和/或dCas9蛋白(无催化活性))；Argonaute蛋白；双链核酸结合蛋白(例如Csy4蛋白和/或 Csy4*蛋白(无催化活性)；参见例如Haurwitz,R.,et al.,Science 329(5997):1355-1358(2010)； Sternberg,S.,et al.,RNA 18(4):661-672(2012)；美国专利号9,115,348)；单链RNA结合蛋白 (例如，p19 siRNA结合蛋白)；单链DNA结合蛋白(例如腺病毒DBP，极端热稳定SSB(单链 DNA结合蛋白)；双链RNA结合蛋白(例如DICER)；双链DNA结合蛋白(例如ZFN)；以及双链DNA/RNA杂合物(例如核糖核酸酶H)；以及其无催化活性形式。在另外的实施方案中，核酸支架和相关的核酸结合蛋白在核酸支架/核酸结合蛋白复合物中，例如在核蛋白复合物和核糖核蛋白复合物中。

在一些实施方案中，1-2,2-2和/或3-2的每种核酸结合蛋白结合序列是例如双链DNA 结合蛋白结合序列、单链DNA结合蛋白结合序列、双链RNA结合蛋白结合序列、单链 RNA结合蛋白结合序列或双链DNA/RNA杂合结合蛋白结合序列。在优选的实施方案中，结合核酸结合蛋白结合序列的核酸结合蛋白是Cas9蛋白或Cpf1蛋白。

在具体的实施方案中，核酸序列1-1、核酸序列1-2和/或核酸序列1-3中的每一个包含结合靶核酸序列的核酸序列(例如间隔元件)。

在本发明的第一方面，NASC多核苷酸组合物包含NASC-PC1和NASC-PC2。 NASC-PC1/NASC-PC2复合物包含与重复元件2连接的重复元件1、双链核酸结合蛋白结合元件1和双链核酸结合蛋白结合元件2以及间隔元件1和间隔元件2。能够结合NASC的双链核酸结合蛋白是一种或多种2类V型CRISPR-Cpf1蛋白。

NASC多核苷酸组合物能够与两种2类V型CRISPR-Cpf1蛋白缔合形成核蛋白复合物。在一些实施方案中，NASC多核苷酸组合物的NASC-PC1和NASC-PC2中的每一个都能够与两种2类V型CRISPR-Cpf1蛋白缔合以形成核蛋白复合物(例如，图5A、图5B、图 5C、图5D、图5E、图5F和图5G)。

在本发明的第一方面中，重复元件1包含重复核酸序列1，重复元件2包含重复核酸序列1C，核酸结合蛋白结合元件1包含双链核酸结合蛋白结合序列1，核酸结合蛋白结合元件2包含双链核酸结合蛋白结合序列2，间隔元件1包含核酸靶结合序列1和间隔元件2 包含核酸靶结合序列2。

元件的布置通常如下：(i)重复元件1在核酸结合蛋白结合元件1的5’，核酸结合蛋白结合元件1在间隔元件1的5’和重复元件2在核酸结合蛋白结合元件2的5’和核酸结合蛋白结合元件2在间隔元件2的5’；或(ii)核酸结合蛋白结合元件1在重复元件1的 5’，重复元件1在间隔元件1的5’，核酸结合蛋白结合元件2在重复元件2的5’和重复元件2在间隔元件2的5’；或(iii)核酸结合蛋白结合元件1在间隔元件1的5’，间隔元件1 在重复元件1的5’，核酸结合蛋白结合元件2在间隔元件2的5’和间隔元件2在重复元件 2的5’。

在第一方面的一些实施方案中，(i)核酸结合蛋白结合元件1包含第一茎元件核酸序列1-1和第一茎元件核酸序列1-2，和第一茎元件核酸序列1-1和第一茎元件核酸序列1-2通过氢键键合的碱基对形成第一茎元件1，和/或(ii)核酸结合蛋白结合元件2包含第一茎元件核酸序列2-1和第一茎元件核酸序列2-2，和第一茎元件核酸序列2-1和第一茎元件核酸序列2-2通过氢键键合的碱基对形成第一茎元件1(例如图5B、图5F、图5G)。在进一步的实施方案中，第一茎元件核酸序列1-1和第一茎元件核酸序列1-2通过环元件核酸序列1连接形成第一茎-环元件1，和/或第一茎元件核酸序列2-1和第一茎元件核酸序列2-2通过环元件核酸序列2连接形成第一茎-环元件2(例如图5A、图5C、图5D、图5E)。

在另外的实施方案中，重复核酸序列1与重复核酸序列1C通过重复核酸序列1和重复核酸序列1C之间氢键键合的碱基对连接。

在其它实施方案中，重复核酸序列1还包含亲和标签1和重复核酸序列2还包含亲和标签2，和亲和标签1与亲和标签2连接。例如，重复核酸序列1还包含效应蛋白结合位点核酸序列1和重复核酸序列2还包含效应蛋白结合位点核酸序列2，和效应结合位点1通过效应蛋白结合位点核酸序列和效应蛋白结合位点核酸序列2之间氢键键合的碱基对形成。效应结合位点的一个实例是Csy4蛋白结合位点。

表3给出了在图5A、图5B、图5C、图5D、图5E、图5F、图5G、图5H和图5I中一致使用的一系列标识。

表3

用于说明用于形成支架的两种或更多种工程化核酸序列的复合物的区域的数字标识

1＝重复元件可包括效应蛋白结合位点

²＝“C”指示互补序列

图5A呈现形成本发明支架的两种工程化核酸(NASC-PC1和NASC-PC2)的实例。在一些实施方案中，工程化核酸是靶向2类V型CRISPR核酸的核酸，例如靶向Cpf1核酸的核酸，其包含共价连接至靶向Cpf1核酸的核酸的5'端的重复核酸序列。图5A，500-507示出第一工程化核酸，其包含第一核酸结合2类V型CRISPR蛋白结合序列(图5A，504-501)，位于第一核酸结合2类V型CRISPR蛋白结合序列的3'的核酸靶结合序列1(图5A，500-501)，和位于第一核酸结合2类V型CRISPR蛋白结合序列的5'的第一重复序列1(图5A，504- 507)。图5A，508-515，示出第二工程化核酸，其包含第二核酸结合2类V型CRISPR蛋白结合序列(图5A，514-511)，位于第二核酸结合2类V型CRISPR蛋白结合序列的3'的核酸靶结合序列2(图5A，515-514)，和位于第二核酸结合2类V型CRISPR蛋白结合序列的5' 的第一重复序列2(图5A，511-508)。

第一工程化核酸和第二工程化核酸可以包含另外的元件，例如效应蛋白结合序列，例如通过氢键相互作用通过重复核酸序列1(图5A，505-506)和重复核酸序列1C(图5A，509-510)的缔合而产生的双链核酸结合蛋白结合位点(例如Csy4蛋白结合位点)。

图5B示出图5A中所示实例的修改，其中第一工程化核酸的环元件核酸序列1(图5A，502-503)和第二工程化核酸的环元件核酸序列2(图5A，513-512)不存在。

图5C呈现形成本发明支架的两种工程化核酸(NASC-PC1和NASC-PC2)的实例。在一些实施方案中，工程化核酸是靶向2类V型CRISPR核酸的核酸，例如靶向Cpf1核酸的核酸，其包含共价连接至靶向Cpf1核酸的核酸的3'端的重复核酸序列。图5C示出工程化核酸的修饰，其中将重复序列添加至第一工程化核酸(图5C，500-507)的3'端(图5C，500)并将互补重复序列添加至第二工程化核酸(图5C，508-515)的3'端(图5C，515)。第一工程化核酸的重复序列和第二核酸的互补重复序列通过氢键键合的碱基对相互作用。

图5D呈现图5A中描绘的NASC-PC1和NASC-PC2的修改。在图5D中，共价连接至每个靶向Cpf1核酸的核酸的5'端的重复核酸序列包含通过接头元件核酸序列分开的两个重复元件，其中图5D、I的两个重复元件中仅有一个重复元件与图5D、II的重复元件之一互补并能够与其形成氢键。图5D示出形成支架的两种工程化核酸的形式，其中第一工程化核酸(图5D，500-507)的重复序列1b(图5D，506-517)能够与第二工程化核酸(图5D，515- 508)的互补重复序列1bC(图5D，519-510)进行碱基对氢键键合，其中第一工程化核酸的重复序列1b和第二工程化核酸的互补重复序列1bC通过碱基对氢键键合相互作用。

图5E呈现基于图5D的两组两种工程化核酸，形成支架的四种工程化核酸的实例。在该图中，5E、I和图5E、II提供参考点以利于与图5D(即图5D、I和II)所示的两种工程化核酸的比较。图5E示出图5D中所示实例的修改形式，其中第一工程化核酸(图5E，I； NASC-PC-1)的重复元件通过碱基对氢键键合与第二工程化核酸(图5E，II；NASC-PC-2)的重复元件相互作用，和第二工程化核酸(图5E，II)的重复元件通过碱基对氢键键合与第三工程化核酸(图5E，III；NASC-PC-3)的重复元件相互作用，和第三工程化核酸(图5E，III)的重复元件通过碱基对氢键键合与第四工程化核酸(图5E，IV；NASC-PC-4)的重复元件相互作用，和第四工程化核酸(图5E，IV)的重复元件通过碱基对氢键键合与第一工程化核酸(图5E，I) 的重复元件相互作用。

图5F示出图5D中所示实例的修改形式，其中环元件核酸序列(图5D，502-503和图5D，513-512)不存在于第一工程化核酸序列(图5F，VIII和图5F，V)、第二工程化核酸序列(图5G，VI)、第三工程化核酸序列(图5G，VI)和第四工程化核酸序列(图5G，VII)。

图5G呈现基于两组图5F的两种工程化核酸，形成支架的四种工程化核酸的实例。在该图中，5G，V和5G，VIII提供参考点以利于与图5F(即，图5F，V和VIII)所示的两种工程化核酸的比较。图5G示出图5F所示实例的修改形式，其中第一工程化核酸(图5G， V；NASC-PC-1)的重复元件通过碱基对氢键键合与第二工程化核酸(图5G，VI；NASC-PC-2) 的重复元件相互作用，和第二工程化核酸(图5G，VI；NASC-PC-2)的重复元件通过碱基对氢键键合与第三工程化核酸(图5G，VII；NASC-PC-3)的重复元件相互作用，和第三工程化核酸(图5G，VII)的重复元件通过碱基对氢键键合与第四工程化核酸(图5G，VIII；NASC- PC-4)的重复元件相互作用，和第四工程化核酸(图5G，VIII)的重复元件通过碱基对氢键键合与第一工程化核酸(图5G，V)的重复元件相互作用。

在本发明第一方面的其它实施方案中，核蛋白复合物可以通过核酸结合蛋白结合至大分子而形成，所述大分子包含核酸靶结合序列1、重复核酸序列1、重复核酸序列2和核酸靶结合序列1(例如，图5H，图5I)。

图5H示出形成支架的两种工程化核酸的形式，其中第一工程化核酸IX(图5H，500-502；NASC-PC1)的2类V型CRISPR蛋白结合位点半茎序列1-1b(图5H，520-502)能够与第二工程化核酸X(图5H，515-513；NASC-PC2)的互补2类V型CRISPR蛋白结合位点半茎序列2-1b(图5H，514-521)进行碱基对氢键键合，并且其中第一工程化核酸的2类V型 CRISPR蛋白结合位点半茎序列1-1b和第二工程化核酸的互补2类V型CRISPR蛋白结合位点半茎序列2-1b通过碱基对氢键键合相互作用。半茎序列之间足以在特定的半茎序列对之间提供序列特异性杂交的序列变异是可能的，因为2类V型CRISPR蛋白结合位点识别耐受这种序列变异，只要保持二级结构。

图5I示出图5H中所示实例的修改形式，其中第一工程化核酸(图5I，IX)的2类V 型CRISPR蛋白结合位点半茎序列与第二工程化核酸(图5I，X)的2类V型CRISPR蛋白结合位点半茎序列相互作用；第二工程化核酸(图5I，X)的2类V型CRISPR蛋白结合位点半茎序列与第三工程化核酸(图5I，XI)的2类V型CRISPR蛋白结合位点半茎序列相互作用；第三工程化核酸(图5I，XI)的2类V型CRISPR蛋白结合位点半茎序列与第四工程化核酸 (图5I，XII)的2类V型CRISPR蛋白结合位点半茎序列相互作用；和第四工程化核酸(图 5I，XII)的2类V型CRISPR蛋白结合位点半茎序列与第一工程化核酸(图5I，IX)的2类V 型CRISPR蛋白结合位点半茎序列相互作用。

在本发明的第二方面，NASC多核苷酸组合物至少包含NASC-PC1和NASC-PC2。NASC-PC1/NASC-PC2复合物包含连接至重复元件2的重复元件1、双链核酸结合蛋白结合元件1和双链核酸结合蛋白结合元件2以及间隔元件1和间隔元件2。本发明的实施方案包括NASC多核苷酸组合物，其包含对应于一种或多种2类CRISPR-Cas蛋白的双链核酸结合蛋白结合元件。

在一些实施方案中，NASC多核苷酸组合物能够与两种2类II型CRISPR-Cas9蛋白缔合以形成核蛋白复合物。图6A、图6B、图6C、图6D、图6E、图6F、图6G、图6H、图6I、图6K、图6L和图6M示出本发明的工程化核酸支架的元件和实例，其通常包含核酸结合2类CRISPR蛋白结合序列。

表4呈现在图6A、图6B、图6C、图6D、图6E、图6F和图6G中一致使用的一系列标识。

表4

¹＝重复元件可包括效应蛋白结合位点

²＝“C”指示互补序列

第一、第二和第三元件的每一个可包含另外的核酸序列，例如，元件的5’、元件的3’、或元件的5’和元件的3’两者。

图6A，图601-611示出第一工程化核酸的实例，其包含含有2类II型CRISPR结合蛋白序列(图6A，601-607)的第一元件、包含重复核酸序列1(图6A，608-609)的第二元件和包含核酸序列1(图6A，610-611)的第三元件。重复核酸序列1内没有核酸序列与重复核酸序列1内的任何核酸序列缔合以通过能够结合2类II型CRISPR-Cas蛋白的氢键键合形成茎元件。

图6B示出对图6A的修改，其中第一工程化核酸(图6B，601-611)通过重复核酸序列1(图6A，608-609)与重复核酸序列1C(图6A，619-620)之间的碱基对氢键键合与第二工程化核酸(图6B，612-622)缔合。

可以构建类似于图6B中所示组合物的NASC多核苷酸组合物用于2类V型 CRISPR-Cas蛋白以形成核蛋白复合物。这种类型的NASC多核苷酸组合物的一个实例在图 10,V中示出。

图6C示出第一工程化核酸的实例，其中第二元件在3’至5’方向还包含接头元件核酸序列1-1(图6C,608-623)、重复核酸序列1a(图6C,623-624)、接头元件核酸序列1-2 (图6C,624-625)、重复核酸序列1b(图6D,625-626)和接头元件核酸序列1-3(图6C,626- 609)。重复核酸序列1内没有核酸序列与重复核酸序列1内的任何核酸序列缔合以通过能够结合2类II型CRISPR-Cas蛋白的氢键键合形成茎元件。

图6D示出对图6C的修改，其中两种工程化核酸形成支架，其中第一工程化核酸通过重复核酸序列1a(图6D,623-624)和重复核酸序列1aC(图6D,629-630)之间的氢键键合的碱基对和通过重复核酸序列1b(图6D,625-626)和重复核酸序列1bC(图6D,627-628)之间的氢键键合的碱基对与第二工程化核酸缔合。

图6E示出第一工程化核酸的实例，其中第二元件在3’至5’方向还包含接头元件核酸序列1-1(图6C,608-623)、重复核酸序列1a1(图6C,623-631)、凸起核酸序列(图6E, 631-632)、重复核酸序列1a2(图6E,632-624)、接头元件核酸序列1-2(图6C,624-625)、重复核酸序列1b1(图6D,625-633)、凸起核酸序列1b1(图6E,633-634)和重复核酸序列1b2 (图6E,634-626)。重复核酸序列1内没有核酸序列与重复核酸序列1内的任何核酸序列缔合以通过能够结合2类II型CRISPR-Cas蛋白的氢键键合形成茎元件。

图6F示出对图6E的修改，其中两种工程化核酸形成支架，其中第一工程化核酸通过重复核酸序列1a1(图6F,623-631)和重复核酸序列1a1C(图6F,638-630)之间的氢键键合的碱基对，通过重复核酸序列1a2(图6F,632-624)和重复核酸序列1a2C(图6F,629-637)之间的氢键键合的碱基对，通过重复核酸序列1b1(图6F,625-633)和重复核酸序列1b1C(图6F, 636-628)之间的氢键键合的碱基对和通过重复核酸序列1b2(图6E,634-626)和重复核酸序列 1b2C(图6E,627-635)之间的氢键键合的碱基对与第二工程化核酸缔合。

图6G是图6F中所示的NASC多核苷酸组合物的变型。通过插入效应蛋白结合位点核酸序列1(图6G，647-648)修饰接头元件核酸序列1-2，并通过插入效应蛋白结合位点核酸序列2(图6G，649-650)修饰接头元件核酸序列2-2。效应蛋白结合位点核酸序列1和效应蛋白结合位点核酸序列2通过氢键键合的碱基对连接形成效应蛋白结合位点。在一个实施方案中，效应蛋白结合位点是Csy4结合位点。酶失活形式的Csy4蛋白可以结合该位点以进一步稳定NASC多核苷酸组合物结构。酶活性形式的Csy4蛋白可结合该位点以使NASC多核苷酸组合物结构不稳定(例如，通过内切核糖核酸酶活性)(例如，以诱导NASC多核苷酸组合物/基于核酸结合蛋白的闭笼结构的破坏)。图6K示出能够与第一2类II型CRISPR-Cas9直向同源蛋白和第二2类II型CRISPR-Cas9直向同源蛋白缔合以形成核蛋白复合物的NASC 多核苷酸组合物。图6K示出包含NASC-PC1和NASC-PC2的NASC多核苷酸组合物。 NASC-PC1(图6K,IX)在5'至3'方向包含：核酸靶结合序列1；接头核酸序列1，包含重复核酸序列1a、重复核酸序列1b、重复核酸1c和重复核酸1d；和嗜热链球菌2类II型CRISPR-Cas9核酸结合蛋白结合序列1。NASC-PC2(图6K,X)在5'至3'方向包含：核酸靶结合序列2；接头核酸序列1，包含重复核酸序列1dC、重复核酸序列1cC、重复核酸1bC和重复核酸序列1aC；和酿脓链球菌2类II型CRISPR-Cas9核酸结合蛋白结合序列1。NASC- PC1和NASC-PC2通过重复核酸序列1a/重复核酸序列1aC、重复核酸序列1b/重复核酸序列1bC、重复核酸序列1c/重复核酸1cC和重复核酸序列1d/重复核酸1dC之间的氢键键合的碱基对连接形成大分子。大分子能够结合嗜热链球菌2类II型CRISPR-Cas9蛋白 (围绕重复核酸序列1d/重复核酸序列1dC区和重复核酸序列1c/重复核酸序列1cC区)和酿脓链球菌2类II型CRISPR-Cas9蛋白(围绕重复核酸序列1b/重复核酸序列1bC区、重复核酸序列1a/重复核酸序列1aC区)。考虑到Cas9直向同源蛋白之间的PAM变异性(相对于使用包含任一单独的Cas9直向同源物的一种引导核酸/Cas9蛋白复合物)，使用此类 NASC多核苷酸组合物/Cas9直向同源蛋白复合物提供了例如增加数量的可用靶序列。此外，考虑到Cas9直向同源蛋白之间的PAM变异性(相对于使用包含任一单独的Cas9直向同源物的一种引导核酸/Cas9蛋白复合物)，NASC多核苷酸组合物/Cas9直向同源蛋白复合物可通过提供选择附近靶序列的更大灵活性来提高多核苷酸区域靶向的特异性。鉴于本说明书的教导，本领域普通技术人员可以通过组合本文所述的NASC多核苷酸组合物的不同组分来应用两种或更多种不同Cas9直向同源蛋白的这种用途。

在另一个实施方案中，NASC-PC1(图6K,IX)和NASC-PC2(图6K,X)能够与相同的 2类II型CRISPR-Cas9直向同源蛋白缔合(参见例如Fonfara,I.,et al.,Nucleic AcidsResearch 42(4):2577-2590(2014))。在该实施方案中，重复核酸序列1d/重复核酸序列1dC区和重复核酸序列1c/重复核酸序列1cC区能够与变形链球菌2类II型CRISPR-Cas9蛋白缔合，并且还能够与酿脓链球菌2类II型CRISPR-Cas9蛋白缔合。重复核酸序列1b/重复核酸序列 1bC区和重复核酸序列1a/重复核酸序列1aC区能够与酿脓链球菌2类II型CRISPR-Cas9蛋白缔合，并且还能够与变形链球菌2类II型CRISPR-Cas9蛋白缔合。例如，虽然NASC- PC1(图6K，IX)和NASC-PC2(图6K，X)的重复区域来自含有2类II型CRISPR基因座的不同物种(例如酿脓链球菌或变形链球菌)，仅使用一种2类II型CRISPR-Cas9蛋白(例如酿脓链球菌2类II型CRISPR-Cas9蛋白或变形链球菌2类II型CRISPR-Cas9蛋白)形成NASC 多核苷酸组成/Cas9复合物。这种类型的NASC多核苷酸组合物的一个优点是使用具有相同 NASC多核苷酸组成的两种Cas9蛋白中的任一种的灵活性，并且每种Cas9蛋白识别不同的 PAM序列。因此，可以被NASC多核苷酸组合物靶向的可能结合位点的数目增加。

在本发明第二方面的一些实施方案中，NASC多核苷酸组合物包含至少三种多核苷酸，其中复合物包含连接至重复元件1C的重复元件1、连接至重复元件2C的重复元件2、连接至重复元件3C的重复元件3、双链核酸结合蛋白结合元件1、间隔元件1、间隔元件2 和间隔元件3，其中所述NASC多核苷酸组合物能够结合三种核酸结合蛋白。在一些实施方案中，核酸结合蛋白是双链核酸结合蛋白。在优选的实施方案中，核酸结合蛋白是2类 CRISPR-Cas蛋白。

表5呈现在图6H和图6I中使用的一系列另外的标识。

表5

¹＝重复元件可包括效应蛋白结合位点

²＝“C”指示互补序列

图6H示出对图6C的修改，其中三种工程化核酸形成支架，其中第一工程化核酸(图6H,I) 与第二工程化核酸(图6H,II)通过重复核酸序列1b(图6H,625-626)和重复核酸序列1bC(图 6H,627-628)之间的氢键键合的碱基对缔合，和第二工程化核酸(图6H,II)与第三工程化核酸 (图6H,III)通过重复核酸序列2a(图6H,638-639)和重复核酸序列2aC(图6H,642-643)之间的氢键键合的碱基对缔合，和第三工程化核酸(图6H,III)与第一工程化核酸(图6H,I)通过重复核酸序列1aC(图6H,644-645)和重复核酸序列1a(图6H,623-624)之间的氢键键合的碱基对缔合。

图6I示出对图6E的修改，其中采用图6E中所述的工程化核酸，三种工程化核酸形成支架，其中第一工程化核酸(图6I,IV)与第二工程化核酸(图6I,V)通过重复序列之间的氢键键合的碱基对缔合，和第二工程化核酸(图6I,V)与第三工程化核酸(图6I,VI)通过重复序列之间的氢键键合的碱基对缔合，和第三工程化核酸(图6I,VI)与第一工程化核酸(图6I,IV) 通过重复序列之间的氢键键合的碱基对缔合。

图6J示出能够与2类II型CRISPR-Cas蛋白和2类V型CRISPR-Cpf1蛋白缔合形成核蛋白复合物的NASC多核苷酸组合物。

图6J示出能够与2类II型CRISPR-Cas9蛋白和2类V型CRISPR-Cpf1蛋白缔合形成核蛋白复合物的NASC多核苷酸组合物。图6J示出包含含有间隔元件1和间隔元件2的 NASC-PC1的NASC多核苷酸组合物(NASC-PC-2TS；图6J,VII)。NASC-PC-2TS在5'至3' 方向包含：2类II型CRISPR-Cas9核酸靶结合序列1；接头核酸序列1，包含重复核酸序列 1a、重复核酸序列1b和重复核酸序列1c；和2类V型CRISPR-Cpf1核酸靶结合序列1。 NASC多核苷酸组合物还包含含有级联的NASC-PC2，所述级联包含2类II型CRISPR-Cas9 核酸结合蛋白结合序列1和2类V型CRISPR-Cpf1核酸结合蛋白结合序列2(NASC-PC-CE；图6J,VIII)。NASC-PC-CE还包含重复核酸序列1aC、重复核酸序列1bC和重复核酸序列 1cC，NASC-PC-CE通过其通过氢键键合的碱基对连接至NASC-PC-2TS，形成大分子，所述大分子能够结合2类II型CRISPR-Cas9蛋白和2类V型CRISPR-Cpf1蛋白。考虑到 PAM变异性和Cas9蛋白与Cpf1蛋白之间的靶序列长度差异(相对于使用包含单独的Cas9 蛋白或Cpf1蛋白的一种引导核酸/Cas蛋白复合物)，使用这种NASC多核苷酸组合物/Cas9 蛋白/Cpf1蛋白复合物提供例如增加数量的可用靶序列。此外，考虑到PAM9变异性和Cas9 蛋白与Cpf1蛋白之间的靶序列长度(相对于使用包含单独的Cas9蛋白或Cpf1蛋白的一种引导核酸/Cas蛋白复合物)，NASC多核苷酸组合物/Cas9蛋白/Cpf1蛋白复合物可通过在选择邻近靶序列方面提供更大的灵活性而改善多核苷酸区域靶向的特异性。鉴于本说明书的教导，本领域普通技术人员可以通过组合本文所述的NASC多核苷酸组合物的不同组分来应用两种或更多种不同Cas蛋白的这种用途。

在其它实施方案中，一对的第一重复核酸序列还包含第一亲和标签和该对的第二重复核酸序列还包含第二亲和标签和第一亲和标签与第二亲和标签连接。例如，重复核酸序列 1还包含效应蛋白结合位点核酸序列1和重复核酸序列2还包含效应蛋白结合位点核酸序列 2，和效应结合位点1通过效应蛋白结合位点核酸序列1和效应蛋白结合位点核酸序列2之间的氢键键合的碱基对形成。效应结合位点的一个实例是Csy4蛋白结合位点。

在本发明的第三方面，NASC多核苷酸组合物包含工程化级联核酸组分(“NASC-PC-CT”)和至少NASC-PC1和NASC-PC2。

在本发明第三方面的一个实施方案中，工程化NASC多核苷酸级联元件(NASC-PC-CE)在3’至5’方向包含：包含核酸结合蛋白结合元件1的第一级联元件1和包含重复元件 A1的第二级联元件1，其中重复元件A1包含重复核酸序列A1；包含核酸结合蛋白结合元件2的第一级联元件2；和包含重复元件2的第二级联元件2，其中重复元件2包含重复核酸序列A2。第一级联元件1连接至第二级联元件1，第二级联元件1连接至第一级联元件 2，和第一级联元件2连接至第二级联元件2形成NASC-PC-CE。

第三级联元件1(NASC-PC-CE3-1)在3’至5’方向包含含有重复核酸序列A1C的重复元件A1C，和含有核酸靶结合序列1的间隔元件1。第三级联元件2(NASC-PC-CE3-2)在 3’至5’方向包含含有重复核酸序列A2C的重复元件A2C，和含有核酸靶结合序列2的间隔元件2。重复核酸序列A1与重复核酸序列A1-C连接，重复核酸序列A2与重复核酸序列 A2-C连接形成NASC-PC-CE。

第一核酸结合蛋白能够结合核酸结合蛋白结合元件1和第二核酸结合蛋白能够结合核酸结合蛋白结合元件2。在一些实施方案中，核酸结合蛋白结合元件是结合双链核酸结合蛋白的双链核酸结合蛋白结合元件。

在其它实施方案中，一对的第一重复核酸序列与该对的第二重复核酸序列通过氢键键合的碱基对连接。

图7A、图7B、图7C、图7D、图7E、图7F、图7G、图7H和图7I示出本发明工程化级联核酸支架的元件和实例。

表6呈现图7A、图7B、图7C、图7D、图7E、图7F、图7G、图7H和图7I中一致使用的一系列标识。

表6

¹＝重复元件可包括效应蛋白结合位点

²＝“C”指示互补序列

³＝“n”指示相反链序列(例如A2-1/A2-1n) 第一、第二和第三元件的每一个可包含另外核酸序列，例如，在元件的5’、元件的3’，或元件的5’和元件的3’两者。

图7A,700-717示出包含以下的NASC-PC-CE的实例：包含2类II型CRISPR结合蛋白序列的第一级联元件1(图7A,700-706)、包含重复核酸序列A1的第二级联元件1(图7A,707-708)、包含2类II型CRISPR结合蛋白序列(图7A,710-714)的第一级联元件2(图 7A,709-714)、包含重复核酸序列A2(图7A,715-716)的第二级联元件2(图7A,715-717)、和包含重复核酸序列A1C(图7A,718-719)和核酸靶结合序列1(图7A,720-721)的第三级联元件1(NASC-PC-CE3-1；图7A,718-721)、和包含重复核酸序列A2C(图7A,722-723)和核酸靶结合序列2(图7A,724-725)的第三级联元件2(NASC-PC-CE3-2；图7A,722-725)。一种或多种重复核酸序列是II类II型CRISPR蛋白结合序列(例如Cas9蛋白结合序列)。重复核酸序列A1连接至重复核酸序列A1C。在一个实施方案中，重复核酸序列A1通过氢键键合的碱基对连接至重复核酸序列。

图7B示出通过NASC-PC-CE(图7A,700-717)与第三级联元件1(图7A,718-721)的缔合通过重复核酸序列A1(图7A,707-708)和重复核酸序列A1C(图7A,718-719)之间的碱基对氢键键合，和NASC-PC-CE(图7A,700-717)与第三级联元件2(图7A,722-725)的缔合通过重复核酸序列A2(图7A,715-716)和重复核酸序列A2C(图7A,722-723)之间的碱基对氢键键合，支架形成的实例。

图7C示出NASC-PC-CE的修改，其中NASC-PC-CE(图7A,700-717)还包含重复核酸序列A1-1(图7C,726-727)、凸起核酸序列A1-1(图7C,727-728)、重复核酸序列A1-2(图 7C,728-729)和重复核酸序列A2-1(图7C,731-732)、凸起核酸序列A2-1(图7C,732-733)和重复核酸序列A2-2(图7C,733-734)。第三级联元件1(图7C,718-721)还包含重复核酸序列 A1-1C(图7C,719-736)、凸起核酸序列A1-1(图7C,736-737)和重复核酸序列A1-2C(图7C, 737-748)。第三级联元件2(图7C,722-725)还包含重复核酸序列A2-1C(图7C,723-739)、凸起核酸序列A2-1(图7C,739-740)和重复核酸序列A2-2C(图7C,740-741)。

图7D示出通过NASC-PC-CE(图7D,700-717)与第三级联元件1(图7D,721-718)的缔合通过重复核酸序列A1-1(图7C,726-727)和重复核酸序列A1-1C(图7C,719-736)之间的碱基对氢键键合和重复核酸序列A1-2(图7C,728-729)和重复核酸序列A1-2C(图7C,737-748)之间的碱基对氢键键合；工程化级联元件1(图7D,700-717)与第三级联元件2(图7C,722-725)的缔合通过重复核酸序列A2-1(图7C,731-732)和重复核酸序列A2-1C(图7C,723-739)之间的碱基对氢键键合和通过重复核酸序列A2-2(图7C,733-734)和重复核酸序列A2-2C(图7C,740-741)之间的碱基对氢键键合，支架形成的实例。

图7E呈现由四种工程化核酸序列制造包含环状NASC-PC-CE的支架而形成的复合物的实例。在该图中，NASC-PC-CE包含两个拷贝的图7D所示的NASC-PC-CE,700-717，连接其5’端与3’端形成环状NASC-PC-CE。在该图中，示出相对于图7D的参考号以帮助示出环状级联核酸元件的组分。

图7F是对图7D所示实例的修改的图示，其中NASC-PC-CE(图7F,700-717)还包含共价连接至5’端(图7F,700-744)的第一级联元件3(图7F,717-744)。第二级联元件3与第一级联元件3(图7F,743-744)缔合。

图7G示出对图7F所描绘的NASC-PC-CE(图7F,700-744)的修改的实例，其中 NASC-PC-CE包含共价连接至5’端(图7F,700-747)的第四级联元件(图7G,744-747)。在该图中，图7G,744-745的区域图示为白色框，以使图7H和图7I中的交叉线更明显。该区域可还包含接头元件核酸序列。

图7H,700-747示出NASC-PC-CE的实例，其中第二级联元件1(图7H,707-708)与第三级联元件1(图7H,744-747)通过碱基对氢键键合缔合。

图7I示出对图7H所示实例的修改，其中第三级联元件I与NASC-PC-CE通过碱基对氢键键合缔合形成元件III(图7I,III)和第四级联元件与NASC-PC-CE通过碱基对氢键键合缔合形成元件IV(图7I,IV)。

在本发明第三方面的其它实施方案中，NASC-PC-CE包含断裂-连结多核苷酸。

图8A、图8B、图8C、图8D、图8E、图8F、图8G、图8H、图8I、图8J、图 8K、图8L、图8M和图8N示出本发明工程化级联断裂-连结核酸支架的元件和实例。

表7呈现图8A至8N一致使用的一系列标识。

表7

¹＝重复元件可包括效应蛋白结合位点

²＝“C”指示互补序列

图8A示出断裂-连结Cas9-相关多核苷酸的实例。图2B呈现Cas9-相关单一引导多核苷酸的实例。图8A的断裂-连结Cas9-相关多核苷酸通过断裂Cas9-相关单一引导多核苷酸的连结元件(图2B,206)内的多核苷酸骨架而生成。图8A显示当不通过氢键相互作用缔合时的两种所得断裂-连结多核苷酸。图8B呈现当通过氢键相互作用缔合时的断裂-连结多核苷酸视图。氢键相互作用的区通过图8B的虚线框示出。

图8C示出断裂-连结Cas9-相关多核苷酸的另一实例。图2A呈现Cas9-相关单一引导多核苷酸的实例。图8C的断裂-连结Cas9-相关多核苷酸通过断裂Cas9-相关单一引导多核苷酸的连结元件(图2A,206)内的多核苷酸骨架而生成。图8C显示当不通过氢键相互作用缔合时的两种所得断裂-连结多核苷酸。图8D呈现当通过氢键相互作用缔合时的断裂-连结多核苷酸视图。氢键相互作用的区通过图8D的虚线框示出。

图8E示出添加辅助多核苷酸至图8A示出的断裂-连结Cas9-相关多核苷酸。在该图中，第一辅助多核苷酸(图8E,803-817)的5’端共价连接至断裂-连结元件的一半(图8E,803) 的3’端，和第二辅助多核苷酸(图8E,802-816)的3’端共价连接至断裂-连结元件的另一半 (图8E,802)的5’端。在一些实施方案中，仅包括一种辅助多核苷酸。在其它实施方案中，包括相同或不同长度的两种辅助多核苷酸。图8E显示当不通过氢键相互作用缔合时的两种断裂-连结多核苷酸。

图8F呈现当通过氢键相互作用缔合时的断裂-连结多核苷酸的视图。氢键相互作用的区通过图8D,803-804/801-802的虚线框示出。辅助多核苷酸可包含另外元件例如效应蛋白结合序列，例如，双链核酸结合蛋白结合位点可以通过两种辅助多核苷酸经由氢键相互作用的缔合而产生(例如所述氢键相互作用的区通过图8D,818-819-804/814-815的虚线框示出)。

图8G示出添加辅助多核苷酸至图8C示出的断裂-连结Cas9-相关多核苷酸的另一实例。在该图中，第一辅助多核苷酸(图8G,803-817)的5’端共价连接至断裂-连结元件的一半 (图8E,803)的3’端和第二辅助多核苷酸(图8G,802-816)的3’端共价连接至断裂-连结元件的另一半(图8G,802)的5’端。在一些实施方案中，仅包括一种辅助多核苷酸。在其它实施方案中，包括相同或不同长度的两种辅助多核苷酸。图8G显示当不通过氢键相互作用缔合时的两种断裂-连结多核苷酸。图8H呈现当通过氢键相互作用缔合时的断裂-连结多核苷酸视图。氢键相互作用的区通过图8H,803-804/801-802的虚线框示出。辅助多核苷酸可包含另外元件例如效应蛋白结合序列，例如，双链核酸结合蛋白结合位点可以通过两种辅助多核苷酸经由氢键相互作用的缔合而产生(例如所述氢键相互作用的区通过图8H,818-819- 804/814-815的虚线框示出)。

在一个实施方案中，本发明的第三方面涉及工程化NASC断裂-连结多核苷酸级联元件(NASC-PC-SCE)多核苷酸组合物，其在3’至5’方向包含：包含核酸结合蛋白结合元件1、断裂-连结茎元件核酸序列1-1和重复元件包含重复核酸序列1-1的第一级联元件1(NASC-PC-SCE1-1)，和包含核酸结合蛋白结合元件2、断裂-连结茎元件核酸序列2-1和重复元件包含重复核酸序列2-1的第二级联元件1(NASC-PC-SCE1-2)。NASC-PC-SCE1-1和 NASC-PC-SCE1-2连接形成NASC-PC-SCE。第二级联元件1(NASC-PC-SCE2-1)包含重复元件1，其在3’至5’方向包含重复核酸序列1-2、断裂-连结茎元件核酸序列1-2和第一茎元件，和包含核酸靶结合序列1的间隔元件1。第二级联元件2(NASC-PC-SCE2-2)包含重复元件2，其在3’至5’方向包含重复核酸序列2-2、断裂-连结茎元件核酸序列2-2和第一茎元件，和包含核酸靶结合序列2的间隔元件2。

重复元件1-1连接至重复元件1-2和重复元件2-1连接至重复元件2-2形成NASC-PC-SCE，和NASC-PC-SCE能够结合两种核酸结合蛋白。在一些实施方案中，核酸结合蛋白结合元件是结合双链核酸结合蛋白的双链核酸结合蛋白结合元件。在其它实施方案中，一对的第一重复核酸序列与该对的第二重复核酸序列通过氢键键合的碱基对连接。

图8I呈现形成支架的包含两个拷贝的图8B,800-802所示断裂-连结多核苷酸的NASC-PC-SCE的实例。在该图中，NASC-PC-SCE是通过辅助多核苷酸(图8I,802-816)共价连接至第二断裂-连结多核苷酸(图8I,816-821)的第一断裂-连结多核苷酸(图8I,800-802)。断裂-连结元件的各自第一半(图8I,801-802和820-821)与其断裂-连结元件的互补第二半(图8I, 分别803-804和822-823)连接，例如，通过氢键键合的碱基对。

图8J呈现形成支架的包含两个拷贝的图8D,800-802所示断裂-连结多核苷酸的NASC-PC-SCE的实例。在该图中，NASC-PC-SCE是通过辅助多核苷酸(图8J,802-816)共价连接至第二断裂-连结多核苷酸(图8J,816-821)的第一断裂-连结多核苷酸(图8J,800-802)。断裂-连结元件的各自第一半(图8J,801-802和820-821)与其断裂-连结元件的互补第二半(图8J, 分别803-804和822-823)连接，例如，通过氢键键合的碱基对。

图8K呈现形成支架的包含两个拷贝(各自包含辅助序列)的图8F,800-816所示断裂- 连结多核苷酸的NASC-PC-SCE的实例。在该图中，NASC-PC-SCE是通过辅助多核苷酸(图8J,802-816)共价连接至第二断裂-连结多核苷酸(图8J,816-835)的第一断裂-连结多核苷酸(图8K,800-816)。断裂-连结元件的各自第一半(图8K,801-802和820-821)与其断裂-连结元件的互补第二半(图8K,分别803-804和822-823)连接并且还通过辅助序列(图8K,802-815和 803-818；图8K,821-834和822-836)连接。例如，通过氢键键合的碱基对进行连接。

图8L呈现形成支架的包含两个拷贝(各自包含辅助序列)的图8H,800-816所示断裂- 连结多核苷酸的NASC-PC-SCE的实例。在该图中，NASC-PC-SCE是通过辅助多核苷酸(图8H,802-816)共价连接至第二断裂-连结多核苷酸(图8H,816-835)的第一断裂-连结多核苷酸 (图8H,800-816)。断裂-连结元件的各自第一半(图8H,801-802和820-821)与其断裂-连结元件的互补第二半(图8H,分别803-804和822-823)连接并且还通过辅助序列(图8H,802-815 和803-818；图8K,821-834和822-836)连接。例如，通过氢键键合的碱基对进行连接。NASC-PC-SCE的两种组分在该图中标示为I和II。

图8M呈现包含图8L所示元件I和II的NASC-PC-SCE的实例。NASC-PC-SCE包含环状NASC-PC-SCE。在该图中，图8L,800-835所示的两组元件I和II以5’端连接至 3’端形成环状NASC-PC-SCE。在该图中，显示相对于图8L的参考号以帮助示出环状 NASC-PC-SCE的组分。

图8N呈现包含图8L所示元件I和II的NASC-PC-SCE的实例，不同之处在于第一茎元件核酸序列通过环元件核酸序列连接(参见例如图8L,806-807,825-826)。NASC-PC-SCE 包含环状NASC-PC-SCE。

在其它实施方案中，一对的第一重复核酸序列还包含第一亲和标签和该对的第二重复核酸序列还包含第二亲和标签，和第一亲和标签与第二亲和标签连接。例如，第一重复核酸序列还包含效应蛋白结合位点核酸序列1和第二重复核酸序列还包含效应蛋白结合位点核酸序列2。效应蛋白结合位点核酸序列1通过氢键键合的碱基对与效应蛋白结合位点核酸序列2连接形成效应蛋白结合位点1。效应结合位点的一个实例是Csy4蛋白结合位点。

在本发明的第四方面，NASC多核苷酸组合物包含两种或更多种不同核酸结合蛋白的核酸结合蛋白结合元件的组合。在一些实施方案中，一种或多种核酸结合蛋白结合元件是结合双链核酸结合蛋白(例如2类CRISPR-Cas蛋白)的双链核酸结合蛋白结合元件。本发明第四方面的实施方案包括共价连接至第二NATNA的第一NATNA以形成NASC多核苷酸组合物。在一些实施方案中，第一NATNA共价连接至第二NATNA以形成NASC-PC组分和两种或更多种NASC-PC组分共价或非共价连接形成NASC多核苷酸组合物。NASC多核苷酸组合物能够结合至少两种核酸结合蛋白。非共价连接包括通过氢键键合的碱基对连接 NASC-PC组分。

图9A呈现两种NATNA连接形成NASC多核苷酸组合物(形成支架)的实例，其包含(i)一个拷贝的图5D,I,500-507(图9A,I)所示工程化核酸序列和(ii)一个拷贝的对应于图2A 所示单一引导多核苷酸的工程化核酸序列，还包含共价连接至单一引导多核苷酸(图9A,II) 的3’端的接头元件核酸序列，其中接头元件核酸序列共价连接至图5D,I,500-507所示工程化核酸序列的5’端。

图9B呈现两组图9A所示组分的复合物的实例。在该图中，显示相对于图9A,I和II的参考号以帮助示出组分。此外，提供图9A,III,以便于比较图9A的复合物与图5D呈现的复合物的核心结构。

图10呈现形成支架的多种不同工程化核酸序列的复合物。在该图中，提供参考号以帮助示出支架的组分：图10,I，与图7F比较；图10,II，与图6H比较；图10,III，与图8L 比较；和图10,IV，与图9A比较，其中I和II通过氢键键合的碱基对连接而不是共价连接；和图10,V与图5H比较。

NASC多核苷酸组合物的一种或多种多核苷酸组分之间的连接类型包括，例如，共价连接和非共价连接。

非共价连接的一个实例是氢键键合。氢键的类型如上文所论述。本发明的实施方案包括但不限于氢键键合的核苷酸对中的以下类型的氢键：W-C氢键键合、反向W-C氢键键合、Hoogsteen氢键键合、反向Hoogsteen氢键键合、摆动氢键键合、反向摆动氢键键合或其组合。

NASC多核苷酸组分通常被设计成使得成对的重复元件旨在彼此连接，特别是如果连接是通过氢键键合的碱基对，并且仅在成对的重复元件之间形成连接(例如氢键)。通常避免在每个重复元件内形成干扰两个重复元件连接的内部结构。此外，也避免组分NASC多核苷酸的重复元件和其它区域之间的连接(例如，形成氢键键合的碱基对)。

除了共价连接和非共价连接之外，可以使用NASC多核苷酸组合物的一种或多种多核苷酸组分之间的其它类型的连接，包括但不限于配体/配体结合部分配对和/或交联。配体/ 配体结合部分配对包括但不限于选择的核酸序列和相应的适体；和与核酸二级结构结合的核酸二级结构/小分子、离子或蛋白。通常，NASC多核苷酸组合物的第一多核苷酸组分适于包含配体(例如，NASC多核苷酸组合物的第一多核苷酸组分在其3'端包含选定核酸序列)和 NASC多核苷酸组合物的第二多核苷酸组分适于包含配体结合部分(例如，NASC多核苷酸组合物的第二多核苷酸组分在其5'端包含结合选定核酸序列的适体)。

用于在NASC多核苷酸组合物的一种或多种多核苷酸组分之间形成连接的交联剂包括但不限于烷化剂(例如1,3-双(2-氯乙基)-1-亚硝基脲)和氮芥)；顺铂(顺式二氯二氨合铂(II)) 及其衍生物)；电离辐射；亚硝酸；反应性化学品(例如丙二醛)；补骨脂素(在UV存在下活化)；和醛(例如丙烯醛和巴豆醛)。

在本发明的一些实施方案中，将亲和标签引入NASC多核苷酸组合物的两种或更多种多核苷酸组分中。例如，可以修饰NASC多核苷酸组合物的一个多核苷酸组分内的核酸序列以包含亲和序列。核酸结合效应蛋白及其相应的效应蛋白结合序列是亲和标签的实例。可以将亲和标签引入NASC多核苷酸组合物的第一多核苷酸组分中。亲和标签可以是亲和序列，例如MS2结合序列、U1A结合序列、茎环序列(例如Csy4蛋白结合序列或Cas6蛋白结合序列)、eIF4A结合序列、转录激活物样效应物(TALE)结合序列(参见例如Valton,J.,et al.,Journal of Biological Chemistry 287(46):38427–38432(2012))或锌指结构域结合序列(参见例如 Font,J.,et al.,Methods Molecular Biology 649:479-491(2010)；Isalan,M.,et al.,Nature Biotechnology 19(7):656–660(2001))。可修饰NASC多核苷酸组合物的第二多核苷酸组分以分别包含相应的亲和标签：MS2编码序列、U1A编码序列、茎环结合蛋白编码序列(例如结合Csy4蛋白序列的无酶活性(内切核糖核酸酶)的Csy4蛋白)、eIF4A编码序列、TALE编码序列或锌指结构域编码序列。通常，使用保留序列特异性核酸结合的无酶活性的核酸结合蛋白(例如内切核糖核酸酶失活的Csy4蛋白(dCsy4))；然而，在一些实施方案中，使用具有改变的酶活性的酶活性核酸结合蛋白或核酸蛋白。当NASC多核苷酸组合物的多于两种多核苷酸组分用亲和序列修饰时，在优选实施方案中，两个亲和序列通常不相同；因此，存在与 Cas蛋白缔合的两种不同亲和序列。

实施例1描述了工程化NASC多核苷酸组合物的示例性组分的产生。实施例1描述了对应于本文所述NASC多核苷酸组合物的多个实施方案的NASC多核苷酸组分的计算机设计。表9列出了图中所示NASC多核苷酸组分和结构之间的相关性。

实施例2描述了本发明的NASC多核苷酸组分的产生。将本实施例中描述的NASC 多核苷酸组分用于体外Cas切割测定以评估NASC多核苷酸组合物对核酸靶序列的切割百分比。实施例5描述了体外Cas蛋白介导的切割测定的性能。实施例3和实施例4描述了可用于产生用于体外Cas切割测定的双链DNA靶序列的方法。

实施例6呈现了使用本发明的NASC多核苷酸组合物/第一核酸结合蛋白/第二核酸结合蛋白组合物(包含例如2类CRISPR-Cas蛋白)检测真核细胞中的靶修饰的深度测序分析。

实施例9呈现了使用NASC多核苷酸组合物/第一核酸结合蛋白/第二核酸结合蛋白组合物(包含例如2类CRISPR-Cas蛋白)检测真核细胞中的靶修饰的备选分析T7E1测定法。

实施例7描述了可以工程化以制备本发明的NASC多核苷酸组分的2类crRNA的鉴定和筛选。

实施例8描述了可用于使NASC多核苷酸组分工程化的2类tracrRNA的鉴定和筛选。

实施例10描述了2类V型引导crRNA的各种修饰的产生和测试及其用于构建 NASC多核苷酸组分的适用性。

实施例11描述了2类II型引导RNA的各种修饰的产生和测试及其用于构建NASC 多核苷酸组分的适用性。

实施例12描述了NASC多核苷酸组合物用于修饰存在于人gDNA中的核酸靶序列并测量在那些位点处切割活性和切割特异性的水平的用途。测量特定位点处的切割百分比和/ 或切割特异性水平可以提供用于鉴定具有期望的切割百分比和/或特异性的核酸靶序列的选项。

第五方面，本发明涉及包含与第一核酸结合蛋白和第二核酸结合蛋白复合的NASC多核苷酸组合物的核酸/蛋白组合物。第一核酸结合蛋白可以包含一种或多种核酸酶活性，并且第二核酸结合蛋白可以包含一种或多种核酸酶活性。在一些实施方案中，第一核酸结合蛋白对于一种或多种核酸酶活性是无催化活性的，第二核酸结合蛋白对于一种或多种核酸酶活性是无催化活性的，或者第一核酸结合蛋白对于一种或多种核酸酶活性是无催化活性的并且第二核酸结合蛋白对于一种或多种核酸酶活性是无催化活性的。在NASC多核苷酸组合物/第一核酸结合蛋白/第二核酸结合蛋白复合物的其它实施方案中，第一核酸结合蛋白或第二核酸结合蛋白是无催化活性的，并且复合物可以进一步与供体多核苷酸通过无催化活性的蛋白连接。在优选的实施方案中，第一核酸结合蛋白和第二核酸结合蛋白是2类CRISPR- Cas蛋白(例如Cas9蛋白、Cpf1蛋白或Cas9蛋白和Cpf1蛋白)。

在NASC多核苷酸组合物/第一核酸结合蛋白/第二核酸结合蛋白组合物的一些实施方案中，Cas9蛋白或Cpf1蛋白是无催化活性的(dCas9或dCpf1)，并且NASC多核苷酸组合物 /第一核酸结合蛋白/第二核酸结合蛋白组合物还包含供体多核苷酸，其中供体多核苷酸包含与Cpf1间隔元件互补的核苷酸序列，或与Cpf1间隔元件相邻的区域或与间隔元件互补的核苷酸序列，或与Cas9间隔元件相邻的区域。通过与间隔元件互补的供体多核苷酸核苷酸序列或与间隔元件相邻的序列之间的氢键键合，供体多核苷酸能够与间隔元件或与间隔元件相邻的区域缔合。

对于RuvC-1-相关核酸酶活性、HNH相关核酸酶活性以及RuvC-1相关核酸酶活性和HNH相关核酸酶活性两者是无酶活性的Cas9蛋白的突变在本领域中是已知的。无酶活性的Cpf1蛋白的突变是本领域已知的(参见例如Yamano,T.,et al.,Cell 165(4):949–962(2016))； Zetsche,B.,et al.,Cell 163:1–13(2015))。

在CRISPR系统中，“引导生物发生”(也称为“引导加工”)涉及CRISPR阵列转录后的引导RNA序列的内切核酸酶或外切核酸酶截短。可以通过Cas操纵子编码的RNA酶 (例如1类I-E型系统的Cas6)或通过内源性RNA酶(例如2类II-A型系统的RNA酶III)进行引导RNA的酶促加工。

在2类V型系统中，引导生物发生由Cpf1蛋白核酸酶进行。Cpf1蛋白也负责序列特异性双链DNA靶切割。

在V型系统中，前-crRNA的切割发生在假结二级结构的上游区域(例如，在5'方向)(参见例如图3A，303)，并且导致产生引导Cpf1 crRNA。在本发明的一些实施方案中，防止Cpf1蛋白切割引导crRNA干元件的5'可用于例如防止Cpf1介导的切割分离NASC多核苷酸组合物/Cas9蛋白/Cpf1蛋白复合物。已经证明，可以修饰V型前-crRNA的序列以防止V型CRISPR Cpf1蛋白对引导RNA加工(参见Fonfara,I.,et al.,Nature 532(7600):517-521(2016))。

防止引导crRNA干元件的序列5'的Cpf1切割的一种方法是通过修饰(例如，碱基突变、插入、缺失或化学修饰)位于假结上游区域中的碱基或前-crRNA的假结内的碱基，以防止Cpf1蛋白对前-crRNA的加工。为了评估这种修饰对引导加工的影响，可以在存在同源Cpf1蛋白的情况下将修饰的前-crRNA在合适的缓冲液中孵育一段时间。可以用蛋白酶K(Denville Scientific,South Plainfield,NJ)处理混合物以除去蛋白，并且可以通过聚丙烯酰胺凝胶电泳分析混合物以评估修饰的前-crRNA是否发生切割。未在同源Cpf1蛋白存在下孵育的前-crRNA可用作阳性对照(即，不存在引导加工的对照)。如果前-crRNA中没有单一修饰足以消除引导加工，则表现出前crRNA加工减少的修饰组合可以组合成前-crRNA设计，并重新测试其不存在引导加工活性。可以对导致修饰的前-crRNA不能被加工的前-crRNA的修饰进行进一步评估，评估Cpf1-前-crRNA/Cpf1蛋白复合物维持包含前-crRNA间隔元件的 DNA靶核酸的序列特异性结合和/或切割的能力。

防止Cpf1切割引导crRNA干元件的序列5'的第二种方法是通过修饰Cpf1蛋白。在这种方法中，Cpf1蛋白的氨基酸残基被修饰以干扰引导加工。引导crRNA/Cpf1蛋白复合物的X射线晶体学显示，假结被指定为楔结构域(WED)和RuvC结构域的两个蛋白结构域的界面结合(参见Yamano,T.,et al.,Cell 165(4):949-962(2016))。在与结合引导crRNA的5'端和/ 或假结结构的区域邻近的Cpf1的氨基酸残基可能涉及前-crRNA的内切核酸酶催化。诱变策略，例如丙氨酸筛选(参见例如Lefèvre,F.,et al.,Nucleic Acids Research 25(2):447–448(1997)； Lee,et al.,Molecular Pharmacology 50(1):140-148(1996))可以用于修饰WED和RuvC结构域内的区域或Cpf1蛋白内的其它结构域，以鉴定负责引导crRNA加工的蛋白中的残基。在该方法中，包含丙氨酸突变的Cpf1蛋白可表达并与同源前-crRNA在适当的缓冲液中一起孵育。孵育后，蛋白酶K可以加入到反应混合物中以除去Cpf1蛋白，并且可以通过聚丙烯酰胺凝胶电泳分析反应混合物以评估修饰的前-crRNA是否发生切割。未在同源Cpf1蛋白存在下孵育的前-crRNA可用作阳性对照(即，不存在引导加工的对照)。如果Cpf1蛋白中没有单个突变足以消除引导加工，则表现出前crRNA加工减少的突变组合可以组合成单个Cpf1蛋白构建体，并重新测试其缺乏引导加工活性。可以进一步评估Cpf1蛋白中的候选突变或突变组合，评估Cpf1-前-crRNA复合物维持包含前-crRNA间隔元件的DNA靶核酸的序列特异性结合和/或切割的能力。

在第六方面，本发明涉及编码NASC多核苷酸组合物的一种或多种多核苷酸组分的核酸序列，以及包含编码NASC多核苷酸组合物的一种或多种多核苷酸组分的核酸序列的表达盒、载体和重组细胞。在一些实施方案中，此类表达盒、载体和重组细胞还包含编码 NASC多核苷酸组合物能够与之形成复合物的一种或多种核酸结合蛋白(例如，2类CRISPR- Cas蛋白)的序列。

本发明的另一个实施方案涉及载体，包括表达载体，其包含编码NASC多核苷酸组合物的一种或多种多核苷酸组分的一种或多种核酸序列，以及任选地编码核酸结合蛋白(例如2类CRISPR-Cas蛋白)的一种或多种核酸序列，所述蛋白能够与NASC多核苷酸组合物形成复合物。载体也可以包括编码可选择或可筛选标记的序列。此外，还可以将核靶向序列添加到例如Cas9蛋白和Cpf1蛋白编码序列中。载体还可以包括编码蛋白标签(例如，聚-His标签、血凝素标签、荧光蛋白标签、生物发光标签)的多核苷酸。这种蛋白标签的编码序列可以与例如编码Cas9蛋白和/或Cpf1蛋白的一种或多种核酸序列融合。

用于构建表达载体的一般方法是本领域已知的；此外，用于宿主细胞的表达载体是可商购的。有几种商业软件产品经设计用于促进适当载体及其构建的选择，例如用于昆虫细胞转化和昆虫细胞中基因表达的昆虫细胞载体，用于细菌转化和细菌细胞中基因表达的细菌质粒，用于细胞转化以及酵母和其它真菌中基因表达的酵母质粒，用于哺乳动物细胞转化和哺乳动物细胞或哺乳动物中基因表达的哺乳动物载体，和用于细胞转化以及基因表达和方法的病毒载体(包括慢病毒、逆转录病毒、腺病毒、单纯疱疹病毒I或II、细小病毒、网状内皮组织增生病毒和腺伴随病毒(AAV)载体)，以允许容易克隆这种多核苷酸。说明性的植物转化载体包括从根癌农杆菌(Agrobacterium tumefaciens)的Ti质粒衍生的那些(Lee,L.Y.,et al., Plant Physiology 146(2):325-332(2008))。本领域还有用的和已知的是发根农杆菌 (Agrobacterium rhizogenes)质粒。例如，SNAPGENE^TM(GSL Biotech LLC,Chicago,IL； snapgene.com/resources/plasmid_files/your_time_is_valuable/)提供了载体、单个载体序列和载体图谱的广泛列表，以及许多载体的商业来源。

慢病毒载体是可用于将编码NASC多核苷酸组合物的一种或多种多核苷酸组分的一种或多种核酸序列，以及任选地编码NASC多核苷酸组合物能够与其形成复合物的一种或多种核酸结合蛋白(例如2类CRISPR-Cas蛋白)的一种或多种核酸序列，导入哺乳动物细胞中的载体的实例。慢病毒是逆转录病毒科的成员，是一种单链RNA病毒，既可以感染分裂细胞，也可以感染非分裂细胞，并通过整合到基因组中提供稳定的表达。为了提高慢病毒的安全性，产生病毒载体所必需的组分被分在多个质粒中。转移载体通常是无法复制的，并且可在3'LTR中另外含有缺失，这使得整合后病毒自身灭活。包装和包膜质粒通常与转移载体联合使用。例如，包装质粒可以编码Gag、Pol、Rev和Tat基因的组合。转移质粒可以包含病毒LTR和psi包装信号。包膜质粒包含包膜蛋白(由于其广泛的感染性范围，通常为水泡性口炎病毒糖蛋白，VSV-GP)。

基于人类免疫缺陷病毒1型(HIV-1)的慢病毒载体具有额外的辅助蛋白，其在没有细胞分裂的情况下促进整合。HIV-1载体经设计以解决许多安全问题。这些包括反式分开表达病毒基因以防止重组事件，导致产生可复制病毒。此外，自身灭活载体的开发降低了相邻基因反式激活的可能性并允许调控元件掺入以将基因表达靶向特定细胞类型(参见例如Cooray, S.,et al.,Methods in Enzymology 507:29-57(2012))。

转化的宿主细胞(或重组细胞)是已经使用重组DNA技术转化或转染了编码NASC多核苷酸组合物的一种或多种多核苷酸组分的一种或多种核酸序列，以及任选地编码NASC多核苷酸组合物能够与其形成复合物的一种或多种核酸结合蛋白(例如2类CRISPR-Cas蛋白) 的一种或多种核酸序列的细胞或细胞后代。将多核苷酸(例如表达载体)导入宿主细胞的方法是本领域已知的，并且通常基于宿主细胞的种类来选择。这些方法包括例如病毒或噬菌体感染、转染、缀合、电穿孔、磷酸钙沉淀、聚乙烯亚胺介导的转染、DEAE-葡聚糖介导的转染、原生质体融合、脂质转染、脂质体介导的转染、弹道基因转移技术(例如使用基因枪或生物弹道颗粒递送系统)、直接显微注射和纳米颗粒介导的递送。

作为表达编码NASC多核苷酸组合物的一种或多种多核苷酸组分的一种或多种核酸序列，以及任选地编码NASC多核苷酸组合物能够与其形成复合物的一种或多种核酸结合蛋白(例如2类CRISPR-Cas蛋白)的一种或多种核酸序列的备选，例如，可以将NASC多核苷酸组合物和/或一种或多种核酸结合蛋白(例如2类CRISPR-Cas蛋白)直接导入细胞。或者，一种或多种组分可以由细胞表达并直接导入其它组分。将组分导入细胞的方法包括电穿孔、脂质转染和弹道基因转移技术。

本文公开了多种宿主细胞，其可以用于通过导入编码NASC多核苷酸组合物的一种或多种多核苷酸组分的一种或多种核酸序列，以及任选地编码NASC多核苷酸组合物能够与其形成复合物的一种或多种核酸结合蛋白(例如2类CRISPR-Cas蛋白)的一种或多种核酸序列来产生重组细胞。此类宿主细胞包括但不限于植物细胞、酵母细胞、细菌细胞、昆虫细胞、藻类细胞或哺乳动物细胞。

将多核苷酸(例如表达载体)导入宿主细胞以产生重组细胞的方法是本领域已知的，并且通常基于宿主细胞的种类来选择。这些方法包括例如病毒或噬菌体感染、转染、缀合、电穿孔、磷酸钙沉淀、聚乙烯亚胺介导的转染、DEAE-葡聚糖介导的转染、原生质体融合、脂质转染、脂质体介导的转染、弹道基因转移技术、直接显微注射和纳米颗粒介导的递送。为了便于讨论，以下使用“转染”来指代将多核苷酸导入宿主细胞的任何方法。

用于将多核苷酸导入植物细胞的优选方法包括微粒轰击和农杆菌介导的转化。或者，可以使用能够感染植物细胞并将异源多核苷酸导入感染的植物细胞基因组中的其它非农杆菌属物种(例如根瘤菌属)和其它原核细胞。其它方法包括电穿孔、脂质体介导的转染、使用花粉或病毒的转化、以及增加游离DNA摄取的化学物质或使用微粒轰击的游离DNA递送。参见例如Narusaka,Y.,et al.,Chapter 9,in Transgenic Plants–Advances andLimitations, edited by Yelda,O.,ISBN 978-953-51-0181-9(2012)。

在一些实施方案中，宿主细胞被瞬时或非瞬时转染。在一些实施方案中，细胞随其在受试者中自然发生时被转染。在一些实施方案中，转染的细胞取自受试者，例如原代细胞或祖细胞。在一些实施方案中，在离体转染至相同受试者(自体处理)或不同受试者后，将原代细胞或祖细胞培养和/或返回。

本文所述的NASC多核苷酸组合物/第一核酸结合蛋白/第二核酸结合蛋白(包含例如2 类CRISPR-Cas蛋白)复合物可用于通过将选定的多核苷酸序列在基因组中的DNA靶基因座上位点特异性引入以产生gDNA修饰，产生非人转基因生物。转基因生物可以是动物或植物。

通常通过将该系统引入合子细胞来产生转基因动物。参考制备转基因小鼠(Cho,A.,et al.,“Generation of Transgenic Mice,”Current Protocols in Cell Biology,CHAPTER.Unit-19.11 (2009))描述的基本技术涉及五个基本步骤：第一，如本文所述制备系统，包括合适的供体多核苷酸；第二，收获供体合子；第三，将该系统显微注射到小鼠合子中；第四，将微注射合子植入假孕受体小鼠；第五，对首建小鼠中建立的gDNA修饰进行基因分型和分析。首建小鼠将遗传修饰传递给任何后代。首建小鼠对于转基因通常是杂合的。在这些小鼠之间交配将在25％的时间内产生对于转基因纯合的小鼠。

产生转基因植物的方法也是众所周知的。例如使用农杆菌转化方法产生的转基因植物通常含有插入一个染色体的一个转基因。通过将含有单一转基因的独立分离转基因植物与其自身(例如F0植物)进行性交配(即自交)以产生F1种子，可产生对转基因而言纯合的转基因植物。可以测试通过F1种子发芽形成的植物的纯合性。典型接合性测定包括但不限于区分纯合子和杂合子的单核苷酸多态性测定和热扩增测定。

作为使用本文描述的用于植物直接转化的系统的备选，可以通过将已经用系统转化的第一植物与未曾暴露于该系统的第二植物杂交来形成转基因植物。例如，含有转基因的第一植物系可以与第二植物系杂交以将转基因渗入第二植物系，从而形成第二转基因植物系。

本发明的其它方面涉及使用包含NASC多核苷酸组合物和核酸结合蛋白(例如2类CRISPR-Cas蛋白)复合物的核蛋白组合物的方法。本文描述了这种核蛋白组合物的实施方案。本文所述工程化核酸序列的许多用途包括但不限于形成两种或更多种工程化核酸序列的复合体的支架，所述工程化核酸序列包含核酸结合2类CRISPR蛋白结合序列和与靶核酸序列互补的间隔核酸序列；精确编辑gDNA区域(例如切除、插入、修饰)；将供体多核苷酸非常邻近地系链到切割位点(例如，使用Cas9蛋白或Cpf1蛋白切割)；切除gDNA区域和在切除部位同时系链的供体多核苷酸；例如使用dCas9形成人造组蛋白或引入异染色质结构；和基因表达的紧密转录控制(例如，阻断基因的转录)。本文所述工程化核酸序列支架的其它用途包括但不限于使用以下的方法和制造以下的方法：核蛋白颗粒片；例如用于组织工程的柔性生物材料；笼闭的药物递送载体；疫苗递送载体，例如DNA或RNA疫苗；尺寸门控的多孔膜，例如，制造和使用具有固定尺寸的孔的膜；选定大小的纳米粒子；和蛋白核酸聚合物。

在一个实施方案中，本发明包括结合核酸序列(例如DNA)的方法，所述方法包括使核酸(例如DNA)中的第一核酸靶序列和核酸序列中的第二核酸靶序列(例如DNA)与NASC 多核苷酸组合物/第一核酸结合蛋白/第二核酸结合蛋白组合物(包含例如2类CRISPR-Cas蛋白)接触，从而促进核蛋白与核酸序列中的第一核酸靶序列和核酸序列中的第二核酸靶序列结合。NASC多核苷酸组合物/第一核酸结合蛋白/第二核酸结合蛋白组合物(包含例如2类CRISPR-Cas蛋白)包含与第一核酸靶序列(例如DNA)互补的第一间隔元件，和与第二核酸靶序列(例如DNA)互补的第二间隔元件。在一些实施方案中，核酸靶序列是gDNA。这种结合核酸靶序列的方法可以在体外(生物化学测定)、细胞(在培养细胞中)、离体(从受试者中取出的细胞)或体内(在生物体中的细胞)进行。

本领域已知多种方法用于评估和/或定量蛋白-核酸相互作用，包括但不限于以下：免疫沉淀(ChIP)测定、DNA电泳迁移率变动测定(EMSA)，DNA pull-down测定和微孔板捕获和检测分析。可以使用商业试剂盒、材料和试剂来实施许多这些方法，例如ThermoScientific(Wilmington,DE),Signosis(Santa Clara,CA),Bio-Rad(Hercules,CA)和Promega (Madison,WI)。检测蛋白-核酸相互作用的常用方法是EMSA(参见例如HellmanL.M.,et al., Nature Protocols 2(8):1849–1861(2007))。

在另一个实施方案中，本发明包括切割核酸序列(例如DNA)的方法，所述方法包括使核酸(例如DNA)中的第一核酸靶序列与核酸序列中的第二核酸靶序列接触(例如DNA)与含有NASC多核苷酸组合物/第一核酸结合蛋白/第二核酸结合蛋白组合物(包含例如2类CRISPR-Cas蛋白)的核蛋白组合物结合，从而促进核蛋白组合物与核酸序列中的第一核酸靶序列和核酸中的第二核酸靶序列。核蛋白组合物包含与第一核酸靶序列(例如DNA)互补的第一间隔元件和与第二核酸靶序列(例如DNA)互补的第二间隔元件。结合的核蛋白组合物的第一核酸结合蛋白(例如2类CRISPR-Cas蛋白)切割第一核酸靶序列，并且结合的核酸/蛋白组合物的第二核酸结合蛋白(例如2类CRISPR-Cas蛋白)切割第二核酸靶序列。在一些实施方案中，核酸靶序列是gDNA。这种结合核酸靶序列的方法可以在体外、细胞、离体或体内进行。

使用NASC-PC1/NASC-PC2/嗜热链球菌Cas9蛋白/酿脓链球菌蛋白组合物结合以及结合和切割核酸靶序列的方法在图16A、16B、16C中示例。图16A示出酿脓链球菌Cas9 蛋白(图16A,1604)和嗜热链球菌Cas9蛋白(图16A,1603)、NASC-PC1/NASC-PC2组合物 (图16A,1600)(一般具有图6K所示结构)、包含与NASC-PC1/NASC-PC2酿脓链球菌Cas9 间隔元件(图16A,1602)互补的第一DNA靶结合序列的双链核酸(图16A,1605)，和包含与 NASC-PC1/NASC-PC2嗜热链球菌Cas9间隔元件(图16A,1601)互补的第二DNA靶结合序列的双链核酸(图16A,1607)。图16A,1606指示酿脓链球菌Cas9 PAM的位置。图16A, 1608指示嗜热链球菌Cas9 PAM的位置。

图16A示出与NASC-PC1/NASC-PC2组合物(图16A ,1600；复合物1610)复合的酿脓链球菌Cas9蛋白(图16A,1604；复合物1609)和嗜热链球菌Cas9蛋白(图16A,1603；复合物1616)的形成。

图16A示出核蛋白复合物与双链DNA靶序列(图16A,1611)的氢键键合。图16A,1611示出NASC-PC1/NASC-PC2/嗜热链球菌Cas9蛋白/酿脓链球菌Cas9蛋白组合物与以下的结合：包含与NASC-PC1/NASC-PC2酿脓链球菌Cas9间隔元件(图16A,1602)互补的第一 DNA靶结合序列的双链核酸(图16A,1605)和包含与NASC-PC1/NASC-PC2嗜热链球菌Cas9 间隔元件(图16A,1601)互补的第二DNA靶结合序列的双链核酸(图16A,1607)。如果酿脓链球菌Cas9蛋白和嗜热链球菌Cas9蛋白无酶活性，则可使用核蛋白复合物(图16A,1610)，例如以使两个DNA序列(图16A,1605,1607)邻近(例如图16A,1607)。

图16B示出用具有酶活性的酿脓链球菌Cas9蛋白切割图16B,1605,DNA以及使用无酶活性的嗜热链球菌Cas9蛋白系链图16B,1607,DNA以保持DNA(图16B,1607)邻近切割位点(图16B,1612,1613)。使用供体多核苷酸，这样的核蛋白复合物可有助于提高HDR 的频率(图16B,1607)。

图16C示出用具有酶活性的酿脓链球菌Cas9蛋白切割图16C,1605,DNA，以断裂图16C,1605,DNA(图16C,1612,1613)的双链和用具有酶活性的嗜热链球菌Cas9蛋白切割图16C,1607,DNA以断裂图16C,1607,DNA(图16C,1614,1615)中的双链。这样的核蛋白复合物可用于促进染色体重排(例如易位)。

在又一个实施方案中，本发明包括修饰细胞中的DNA的方法，所述方法包括使 DNA中的第一DNA靶序列和DNA中的第二DNA靶序列与NASC多核苷酸组合物/第一核酸结合蛋白/第二核酸酸结合蛋白组合物(包含例如2类CRISPR-Cas蛋白例如Cas9蛋白和/ 或Cpf1蛋白)接触，从而促进核蛋白复合物与核酸序列中的第一核酸靶序列和核酸序列中的第二核酸靶序列结合。NASC多核苷酸组合物/第一核酸结合蛋白/第二核酸结合蛋白组合物 (包含例如2类CRISPR-Cas蛋白)包含与第一核酸靶序列互补的第一间隔元件和与第二核酸靶序列(例如DNA)互补的第二间隔元件。结合的核蛋白复合物的第一蛋白切割第一DNA靶序列，并且结合的核蛋白复合物的第二蛋白切割第二DNA靶序列。细胞修复第一切割位点和第二切割位点。示例性的细胞DNA修复途径包括HDR、NHEJ和MMEJ。在一些实施方案中，核酸靶序列是gDNA。这种结合核酸靶序列的方法可以在体外、细胞内、离体或体内进行。接触步骤可还包含存在的供体多核苷酸，其中供体多核苷酸的至少一部分掺入第一切割位点与第二切割位点之间。

在另一个实施方案中，本发明涉及使供体多核苷酸接近细胞中的核酸靶(通常为DNA) 中的DSB的方法。该方法包括使DNA中的第一DNA靶序列和供体多核苷酸中的第二 DNA靶序列与具有与第一DNA靶互补的第一DNA靶结合序列和与第二DNA靶互补的第二DNA靶结合序列的NASC多核苷酸组合物/第一DNA结合蛋白/第二DNA结合蛋白组合物(包含例如2类CRISPR-Cas蛋白例如Cas9蛋白和/或Cpf1蛋白)接触。第一DNA结合蛋白具有催化活性，并与第一DNA靶结合序列缔合。第二DNA结合蛋白无酶活性并与第二 DNA靶结合序列缔合。将核蛋白复合物与第一和第二DNA靶序列接触促进了核蛋白复合物与DNA中的第一DNA靶序列和供体多核苷酸中的第二DNA靶序列的结合。核蛋白复合物的催化活性DNA结合蛋白切割第一DNA靶序列以形成切割位点。供体多核苷酸邻近切割位点(例如DSB)，因为催化活性DNA结合蛋白和无催化活性的DNA结合蛋白与NASC多核苷酸组合物复合，即它们是同一核蛋白复合物的一部分。在一些实施方案中，将供体多核苷酸的至少一部分引入DNA中的切割位点(例如通过HDR修复过程)，导致修饰DNA。

图12图示使用NASC-PC1/NASC-PC2/活性Cas9蛋白/dCas9 Cas9蛋白组合物，其中活性Cas9的内切核酸酶结构域具有活性并且dCas9的内切核酸酶结构域无活性，以使供体多核苷酸接近核酸靶序列中的DSB。图12图示活性Cas9蛋白(图12,1211)和dCas9蛋白(图12,1203)，NASC-PC1/NASC-PC2组合物(图12,1205；也参见图6F)。包含与活性Cas9- NASC-PC1/NASC-PC2组合物间隔元件(图12,1210)互补的第一DNA靶结合序列的双链核酸 (图12,1206/1207)；和包含与dCas9-NASC-PC1/NASC-PC2组合物间隔元件(图12,1204)互补的第二DNA靶结合序列的供体多核苷酸(图12,1200/1201)。图12图示复合物中的NASC- PC1/NASC-PC2/活性Cas9蛋白/dCas9蛋白，和第一DNA靶结合序列与供体多核苷酸中的第一Cas9 PAM(图12,1209)上游的第一DNA靶序列的氢键键合，以及第二DNA靶结合序列与供体多核苷酸中的第二Cas9 PAM(图12，1202)上游的第二靶序列的氢键键合。图 12,1208图示在第一DNA靶结合序列处由Cas9产生的双链平末端切割，产生第二双链核酸 (图12,1213/1212)，并显示了供体多核苷酸(图12,1200/1201)接近双链平末端切割。使供体多核苷酸接近双链切割增加供体多核苷酸序列或其部分整合到包含第一核酸靶的DNA中的可能性。

在另一个实施方案中，本发明涉及使第一核酸靶位点(通常为DNA)接近细胞中第二核酸靶位点(通常为DNA)的方法。该方法包括使第一核酸靶序列和第二核酸靶序列与包含与核酸结合蛋白和第二核酸结合蛋白复合的NASC多核苷酸组合物的核蛋白复合物接触，从而促进核蛋白复合物与第一核酸靶序列和第二核酸靶序列结合。第一DNA靶序列与NASC多核苷酸组合物的第一核酸结合序列互补，其中缔合的第一蛋白是无催化活性的核酸结合蛋白(例如，dCpf1蛋白或dCas9蛋白)。第二DNA靶序列与NASC多核苷酸组合物的第二核酸结合序列互补，其中缔合的第二蛋白是无催化活性的核酸结合蛋白(例如，dCpf1蛋白或dCas9蛋白)。使第一核酸靶位点邻近第二核酸靶位点，因为第一和第二无催化活性的核酸结合蛋白与NASC多核苷酸组合物复合，即它们是同一核酸/蛋白组合物的一部分。在一些实施方案中，第一核酸靶序列和第二核酸靶序列在单独的多核苷酸(例如不同的染色体)上，或者单个多核苷酸包含第一核酸靶序列和第二核酸靶序列(例如，相同染色体的不同部分)。

图13示出结合单个DNA多核苷酸内的三个位点的NASC多核苷酸组合物/第一dCas9蛋白/第二dCas9结合蛋白/第三dCas9蛋白组合物的实例。NASC多核苷酸组合物也在图6I中示出。该核蛋白复合物可用于在细胞中使第一核酸靶位点(通常为DNA)接近第二核酸靶位点(通常为DNA)，接近第三核酸靶位点(通常为DNA)的方法。例如，该方法也可应用于检测邻近的核酸靶位点，并调节与三个靶位点相邻的基因的体外或体内转录调节。图 13中所示的组分的标识呈现在表8中。

图14示出与多个DNA多核苷酸的三个位点结合的NASC多核苷酸组合物/第一dCas9蛋白/第二活性Cas9结合蛋白/第三活性Cas9蛋白组合物的实例。NASC多核苷酸组合物也在图6I中示出。例如，该核蛋白复合物可用于使供体多核苷酸接近细胞中的核酸靶(通常为DNA)中的两个DSB以促进供体多核苷酸或供体多核苷酸的部分HDR整合至两个 DNA靶切割位点之间的区域。图14中所示的组分的标识呈现在表8中。NASC多核苷酸组合物也在图6I中示出。

图15示出结合三种不同DNA多核苷酸中三个位点的NASC多核苷酸组合物/第一dCas9蛋白/第二活性Cas9结合蛋白/第三活性Cas9蛋白组合物的实例。NASC多核苷酸组合物也在图6I中示出。例如，该核蛋白复合物可以用于改善两种DNA多核苷酸与第三 DNA多核苷酸的5'和3'端的连接频率的方法中。图15中所示的组分的标识呈现在表8中。 NASC多核苷酸组合物也在图6I中示出。

表8

图13、图14和图15的标识和相应区

在又一个实施方案中，本发明还包括体外或体内调节转录的方法，例如包含调控元件序列的基因的转录。该方法包括使至少第一核酸靶序列和第二核酸靶序列与NASC多核苷酸组合物/第一核酸结合蛋白/第二核酸结合蛋白组合物(包含例如无催化活性的2类CRISPR-Cas蛋白例如dCas9和/或dCpf1)接触，由此促进核蛋白组合物与第一核酸靶序列和第二核酸靶序列结合。第一DNA靶序列和第二DNA靶序列中的至少一个包含调控元件序列。NASC多核苷酸组合物/第一核酸结合蛋白/第二核酸结合蛋白组合物的第一DNA靶结合序列与第一核酸靶序列互补。NASC多核苷酸组合物/第一核酸结合蛋白/第二核酸结合蛋白组合物的第二DNA靶结合序列与第二DNA靶序列互补。另外，第一和/或第二蛋白可以是融合蛋白，例如与阻遏物或激活物结构域融合的dCas9，和/或与阻遏物或激活物结构域融合的dCpf1。核酸/蛋白组合物与第一DNA靶序列和第二DNA靶序列的结合调节基因的转录。在一些实施方案中，第一DNA靶序列和第二DNA靶序列包含调控元件序列，并且第一DNA靶序列包含启动子并且第二DNA靶序列包含转录起始位点。

图11图示使用本发明的NASC多核苷酸组合物体外或体内调节转录的方法。在该图中，通过NASC多核苷酸组合物(图11,1103)与第一dCas9蛋白(图11,1100)和第二dCsa9蛋白(图11,1101)缔合形成NASC多核苷酸组合物/第一dCas9蛋白/第二dCsa9蛋白复合物。该复合物包含与临近DNA多核苷酸(图11,1105)中的第一Cas9 PAM(图11,1108)的第一核酸靶序列互补的第一DNA靶结合序列(图11,1102)，和与临近DNA多核苷酸(图11,1105)中的第二Cas9 PAM(图11,1109)的第二核酸靶序列互补的第二DNA靶结合序列(图11,1104))。使NASC多核苷酸组合物/第一dCas9蛋白/第二dCsa9蛋白复合物与包含DNA靶序列的DNA 多核苷酸接触，从而促进核蛋白组合物通过氢键键合的碱基对(图11,1112,1113)结合至第一核酸靶序列和第二核酸靶序列。第一DNA靶序列和第二DNA靶序列的至少一个包含调控元件序列。NASC多核苷酸组合物/第一dCas9蛋白/第二dCsa9蛋白组合物的第一DNA靶结合序列与第一核酸靶序列互补。NASC多核苷酸组合物/第一dCas9蛋白/第二dCsa9蛋白组合物的第二DNA靶结合序列与第二DNA靶序列互补。

本发明的NASC多核苷酸组合物可用于设计自组装成复杂结构的核酸/蛋白大分子。这种大分子在纳米生物技术中有许多用途，包括但不限于药物递送、核酸/蛋白纳米材料的设计以及纳米结构例如纳米管和闭笼结构的形成。实施例13图示本发明的NASC多核苷酸组合物用于形成NASC闭笼组合物(NASC-CC)的用途。NASC-CC可用于包装小分子。实施例14描述了可用于表征NASC-CC/dCas蛋白复合物以验证正确装配并评估组装的NASC- CC/dCas蛋白复合物的大小和体积的方法。实施例13和实施例14中描述的NASC-CC在图 6L中示出。对应于图6A所示的NASC多核苷酸组合物(在该实施例中称为NASC-PC1-三链体)的两种NASC多核苷酸组合物可以使用双链DNA支撑核酸序列连接。双链DNA支撑核酸序列可以包含第一DNA靶序列和第二DNA靶序列。如实施例13中所述，NASC-CC是自组装的，因为第一NASC-PC1-三链体/dCas9蛋白核蛋白复合物包含将与支撑核酸序列的第一DNA靶序列特异性结合的DNA靶结合序列。包含DNA靶结合序列的第二NASC- PC1-三链体/dCas9蛋白将特异性结合支撑核酸序列的第二DNA靶序列以形成封闭的笼结构。图6M图示具有六种形成核蛋白笼的相关Cas9蛋白的NASC-CC。

多种分子是纳入NASC-CC多核苷酸组合物以促进分子递送的候选物，包括但不限于疫苗(例如灭活疫苗、减毒疫苗、蛋白亚基疫苗和核酸疫苗)；单克隆抗体；抗生素；小分子药物；癌症治疗剂；重组蛋白，生物制剂等。此类分子在本文中也称为“有效负载”。

靶向蛋白和核酸结合蛋白(例如，Cas9、Cpf1)的融合可用于实现NASC-CC多核苷酸组合物的组织、器官或细胞类型靶向递送。例如，可以通过亲和选择获得对特定肿瘤特异的landscape噬菌体肽，并且可以将对特定肿瘤特异性的纯化的肽与Cas9蛋白融合。然后可以使用Cas9融合蛋白来组装NASC-CC多核苷酸组合物以获得肿瘤靶向纳米载体。Jayanna,P.,et al.,Nanomedicine.5(1):83(2009)已经描述了特异性针对特定肿瘤的噬菌体肽的产生。

通过NASC-CC RNA、DNA或蛋白(“NASC-CC/Cas”)组分与各种配体或化学试剂的连接、包装或缔合，可以实现NASC-CC向细胞递送的替代模式。包装技术包括NASC- CC/Cas包装成自组装脂质体、胶束、树状聚合物、纳米球或纳米胶囊。

聚乙二醇(PEG；PEG化)与分子和宏观结构的共价和非共价连接已用于包装用于靶向递送至细胞的有效负载，并且鉴于本说明书的教导可适于本领域普通技术人员包封NASC- CC/Cas。此外，蛋白PEG化是用于将大分子递送至组织、细胞和细胞器的缀合化学的广泛实施的形式。PEG化结构可以用促进细胞摄取的部分(例如叶酸部分)的分子连接进一步修饰。这些部分的选择依赖于靶向用于定向递送NASC-CC/Cas和包封的有效负载(即细胞外基质、受体或抗体组合物)的细胞的独特性质。这些部分可以连接至NASC-CC/Cas、NASC-CC 包装剂或NASC-CC/Cas和NASC-CC包装剂。可以使用的部分包括但不限于抗体、配体、转铁蛋白、糖蛋白、适体、细胞穿透肽、基质金属蛋白酶可切割肽、整联蛋白、蛋白转导结构域、表位、细胞粘附分子和本领域已知的其它化合物(参见例如Steichen,S.et.al.,EuropeanJournal of Pharmaceutical Sciences.48(3):416-27(2013)；Dashpande,P.,et al.,Nanomedicine. 8(9):1509-28(2013))。

NASC-CC/Cas包封剂的触发释放可通过将不同的化学部分或序列基序并入NASC-CC/Cas组合物中或NASC-CC包装剂内来促进。可生物降解的聚合物组合物(例如，修饰的PEG组合物)与NASC-CC/Cas或NASC-CC包装剂的连接可允许在细胞摄取后分解NASC- CC/Cas或NASC-CC包装剂。可以使用工程化敏感位点(即，蛋白水解敏感性肽序列、pH敏感性共聚物、氧化还原敏感性连接等)或工程化敏感位点的组合来促进NASC-CC包封剂的释放。可利用NASC-CC和NASC-CC包装剂之间的不稳定连接，例如pH敏感性连接，以促进在高pH环境下(例如内吞液泡)与NASC-CC和NASC-CC包装剂解离。可以用细胞器特异性表位(即核定位信号)进一步修饰NASC-CC/Cas复合物以将有效负载递送至特定细胞器。

鉴于说明书的教导，本领域普通技术人员可以使用多种不同的NASC多核苷酸组合物来形成各种纳米结构。

如上所述，包含本发明的NASC多核苷酸组合物的核蛋白组合物的任何组分或编码这些组分的核酸序列可以被掺入试剂盒中，任选地包括一种或多种试剂。在一些实施方案中，试剂盒包括具有一个或多个容纳试剂盒元件的容器的包装，作为一种或多种分开的组合物或任选地作为其中允许组分的相容性的混合物。在一些实施方案中，试剂盒还包含缓冲液、缓冲剂、盐、无菌水溶液和/或防腐剂。说明性试剂盒包含NASC多核苷酸组合物的一种或多种组分和任选的一种或多种同源核酸结合蛋白，例如Cpf1和/或Cas9蛋白；和编码NASC多核苷酸组合物的一种或多种组分的一种或多种核酸序列，以及任选地一种或多种编码Cpf1和/或Cas9蛋白的核酸序列。

此外，试剂盒可还包含使用核蛋白复合物的组分的说明书，所述核蛋白复合物包含本发明的NASC多核苷酸组合物或编码此类组分的核酸序列。包含在本发明的试剂盒中的说明书可以贴在包装材料上，或者可以作为包装插页包含在内。虽然说明书通常是书面或印刷材料，但并不限于此。任何能够存储这样的说明书并将它们传送给最终用户的介质都是本发明预期的。这种介质包括但不限于电子存储介质(例如磁盘、磁带、盒、芯片)、光学介质 (例如CDROM)、RF标签等。说明书还可以包括提供说明书的互联网网站的地址。

本发明的另一方面涉及制备或制造NASC多核苷酸组合物或包含本发明的NASC多核苷酸组合物的核酸/蛋白组合物的方法。在一个实施方案中，制备或制造方法包括化学合成NASC多核苷酸组合物的多核苷酸组分。在一些实施方案中，NASC多核苷酸组合物包含RNA碱基并且可以使用体外转录从DNA模板生成。

在一些实施方案中，NASC多核苷酸组合物组分可以通过部分(例如配体部分、配体结合部分、亲和标签、外切核酸酶抗性部分)修饰。多核苷酸组分可连接至例如多核苷酸组分的5'端序列和/或3'端序列。

包含NASC多核苷酸组合物的核酸/蛋白组合物可以还包含可检测标记，包括可以提供可检测信号的部分。可检测标记的实例包括但不限于酶、放射性同位素、特异性结合对的成员、荧光团(FAM)、荧光蛋白(绿色荧光蛋白、红色荧光蛋白、mCherry、tdTomato)、DNA或RNA适体以及合适的荧光团(增强的GFP(EGFP)、“Spinach”)、量子点、抗体等。大量和各种合适的可检测标签对于本领域普通技术人员来说是公知的。

如本文所述的包含NASC多核苷酸组合物的核酸/蛋白组合物或通过使用包含NASC多核苷酸组合物的核酸/蛋白组合物修饰的细胞可以用作例如与药学上可接受的赋形剂一起配制的药物组合物。说明性的赋形剂包括载体、稳定剂、稀释剂、分散剂、悬浮剂、增稠剂等。药物组合物可以促进将包含工程化NASC多核苷酸组合物的核酸/蛋白组合物给予生物体。药物组合物可以通过各种形式和途径以治疗有效量给予，包括例如静脉内、皮下、肌内、口服、气雾剂、肠胃外、经眼和经肺给予。

使用本发明的NASC多核苷酸组合物和核蛋白复合物可以获得许多优点，包括但不限于以下：

·相对于使用类似靶向的个体NATNA/核酸结合蛋白复合物(例如，sgRNA/Cas9蛋白复合物)，使用包含核酸结合蛋白(例如2类CRISPR-Cas蛋白)和靶向与多个靶核酸序列结合的 NASC多核苷酸组合物的核酸/蛋白组合物，使用单个核蛋白复合物，减少非靶向结合；

·通过使用包含核酸结合蛋白(例如，2类CRISPR-Cas蛋白)和NASC多核苷酸组合物的核酸/蛋白组合物来系链供体多核苷酸以使供体多核苷酸接近双链中的切割；

·使用包含核酸结合蛋白(例如，2类CRISPR-Cas蛋白)和NASC多核苷酸组合物的核酸/蛋白组合物使两个分开的多核苷酸(例如，两个不同的染色体)或单个多核苷酸的两个区域(例如单个染色体的两个区域)彼此邻近；

·通过将包含核酸结合蛋白(例如，2类CRISPR-Cas蛋白)和NASC多核苷酸组合物的核酸/ 蛋白组合物与可操作地连接于靶基因的多个调控序列结合而转录调节靶基因；

·通过将包含核酸结合蛋白(例如，2类CRISPR-Cas蛋白)和NASC多核苷酸组合物的核酸/ 蛋白组合物的结合而转录调节靶基因，以使两个分开的多核苷酸(例如反式作用调控元件)或单个多核苷酸的两个区域(例如，顺式作用调控元件)彼此邻近；

·使用包含核酸结合蛋白(例如，2类CRISPR-Cas蛋白)和NASC多核苷酸组合物的核酸/蛋白组合物，同时靶向多个靶核酸序列，包括其中供体多核苷酸也与所述核酸/蛋白组合物连接的实施方案；

·形成包含含有核酸结合蛋白(例如，2类CRISPR-Cas蛋白)和NASC多核苷酸组合物的核酸/蛋白组合物的生物纳米结构，例如用于小分子药物制剂；

·构建具有预定尺寸和形状的纳米级结构，其具有包含核酸结合蛋白(例如，2类CRISPR- Cas蛋白)和NASC多核苷酸组合物的核酸/蛋白组合物；和

·设计包含含有核酸结合蛋白(例如，2类CRISPR-Cas蛋白)和NASC多核苷酸组合物的核酸/蛋白组合物的核酸/蛋白组分，其自组装成预定复合结构。

本文考虑的各种实施方案包括但不限于以下中的一个或多个。为便于参考，这些实施方案被编号。

本发明的实施方案包括但不限于以下内容。

1.形成支架的两种或更多种工程化核酸序列的复合物，包含：第一工程化核酸和第二工程化核酸，第一工程化核酸包含第一元件1，其包含具有第一末端和第二末端的第一双链核酸结合蛋白结合序列–第二元件1，其包含重复核酸序列1，其中重复核酸序列1邻近第一双链核酸结合蛋白结合序列的第一末端–第三元件1，其包含核酸序列1；和第二工程化核酸包含第一元件2，其包含具有第一末端和第二末端的第二双链核酸结合蛋白结合序列–第二元件2，其包含重复核酸序列1C，其中重复核酸序列1C邻近第一双链核酸结合蛋白结合序列的第一末端–和第三元件2，其包含核酸序列2；其中重复核酸序列1与重复核酸序列1C通过重复核酸序列1和重复核酸序列1C之间的氢键键合缔合。

2.实施方案1的复合物，其中第一工程化核酸包含–第一元件1，其还包含–第一双链核酸结合蛋白结合序列，其中第一末端是5’端和第二末端是3’端–第二元件1，其还包含具有5’端和3’端的重复核酸序列1，其中重复核酸序列1的3’端位于第一双链核酸结合蛋白结合序列的5’端的5’–和第三元件1，其还包含具有5’端和3’端的核酸序列1，其中核酸序列1的5’端位于第一双链核酸结合蛋白结合序列的3’端的3’；和–第二工程化核酸包含第一元件2，其还包含第二双链核酸结合蛋白结合序列，其中第一末端是5’端和第二末端是3’端–第二元件2，其还包含具有5’端和3’端的重复核酸序列 1C，其中重复核酸序列1C的3’端位于第二双链核酸结合蛋白结合序列的5’端的5’–和第三元件2，其还包含具有5’端和3’端的核酸序列2，其中核酸序列2的5’端位于第二双链核酸结合蛋白结合序列的3’端的3’。

3.实施方案1的复合物，其中第一工程化核酸包含–第一元件1，其还包含第一双链核酸结合蛋白结合序列，其中第一末端是5’端和第二末端是3’端–第二元件1，其还包含具有5’端和3’端的重复核酸序列1,，其中重复核酸序列1的3’端位于第一双链核酸结合蛋白结合序列的5’端的5’–和第三元件1，其还包含具有5’端和3’端的核酸序列1，其中核酸序列1的3’端位于重复核酸序列1的5’端的5’；和第二工程化核酸包含–第一元件2，其还包含第二双链核酸结合蛋白结合序列，其中第一末端是5’端和第二末端是3’端–第二元件2还包含具有5’端和3’端的重复核酸序列1C，其中重复核酸序列1C的3’端位于第二双链核酸结合蛋白结合序列的5’端的5’–和第三元件2，其还包含具有5’端和3’端的核酸序列2，其中核酸序列2的3’端位于重复核酸序列1C的5’端的5’。

4.形成支架的两种或更多种工程化核酸序列的复合物，包含：第一工程化核酸序列和第二工程化核酸序列，第一工程化核酸序列包含第一元件1，其包含具有第一末端和第二末端的第一核酸结合2类CRISPR蛋白结合序列–第二元件1，其包含重复核酸序列1，其中重复核酸序列1邻近第一核酸结合2类CRISPR蛋白结合序列的第一末端–和第三元件 1，其包含核酸序列1；–和第二工程化核酸序列包含第一元件2，其包含具有第一末端和第二末端的第二核酸结合2类CRISPR蛋白结合序列–第二元件2，其包含重复核酸序列 1C，其中重复核酸序列2邻近第二核酸结合2类CRISPR蛋白结合序列的第一末端–和第三元件2，其包含核酸序列2；其中重复核酸序列1与重复核酸序列1C通过重复核酸序列1 和重复核酸序列1C之间的氢键键合缔合。

5.实施方案4的复合物，其中第一核酸结合2类CRISPR蛋白结合序列是2类V型CRISPR蛋白结合序列，其中第一末端是5’端和第二末端是3’端–重复核酸序列1具有 5’端和3’端，其中重复核酸序列1的3’端位于第一核酸结合2类V型CRISPR蛋白结合序列的5’端的5’–和核酸序列1具有5’端和3’端，其中核酸序列1的5’端位于第一核酸结合2类V型CRISPR蛋白结合序列的3’端的3’；–和第二核酸结合2类CRISPR 蛋白结合序列是2类V型CRISPR蛋白结合序列，其中第一末端是5’端和第二末端是3’端–重复核酸序列2具有5’端和3’端，其中重复核酸序列2的3’端位于第二核酸结合2类V型CRISPR蛋白结合序列的5’端的5’–和核酸序列2具有5’端和3’端，其中核酸序列2的5’端位于第二核酸结合2类V型CRISPR蛋白结合序列的3’端的3’。

6.实施方案5的复合物，其中重复核酸序列1还包含具有5’端和3’端的接头元件核酸序列1-1–具有5’端和3’端的重复核酸序列1a–具有5’端和3’端的接头元件核酸序列1-2–具有5’端和3’端的重复核酸序列1b–和具有5’端和3’端的接头元件核酸序列1-3，按以下3’至5’顺序排列：接头元件核酸序列1-1、重复核酸序列1a、接头元件核酸序列1-2、重复核酸序列1b和接头元件核酸序列1-3；–和重复核酸序列2还包含具有5’端和3’端的接头元件核酸序列2-1–具有5’端和3’端的重复核酸序列1bC –具有5’端和3’端的接头元件核酸序列2-2–具有5’端和3’端的重复核酸序列2a –和具有5’端和3’端的接头元件核酸序列2-3，按以下3’至5’顺序排列：接头元件核酸序列2-1、重复核酸序列1bC、接头元件核酸序列2-2、重复核酸序列2a和接头元件核酸序列2-3；其中重复核酸序列1与重复核酸序列2通过重复核酸序列1b和重复核酸序列1bC 之间的氢键键合缔合。

7.实施方案6的复合物，还包含第三工程化核酸和第四工程化核酸，第三工程化核酸包含第一元件3，其包含第三核酸结合2类V型CRISPR蛋白结合序列，其中第一末端是 5’端和第二末端是3’端–和第二元件3，其包含具有5’端和3’端的重复核酸序列3，其中重复核酸序列3的3’端位于第三核酸结合2类V型CRISPR蛋白结合序列的5’端的 5’，其中重复核酸结合序列3还包含具有5’端和3’端的接头元件核酸序列3-1–具有 5’端和3’端的重复核酸序列2aC–具有5’端和3’端的接头元件核酸序列3-2–具有5’端和3’端的重复核酸序列3a–和具有5’端和3’端的接头元件核酸序列3-3，按以下3’至5’顺序排列：接头元件核酸序列3-1、重复核酸序列2aC、接头元件核酸序列3- 2、重复核酸序列3a和接头元件核酸序列3-3；–和第三元件3，其包含具有5’端和3’端的核酸序列3，其中核酸序列3的5’端位于第一核酸结合2类V型CRISPR蛋白结合序列的3’端的3’；–和第四工程化核酸包含第一元件4，其包含第四核酸结合2类V型 CRISPR蛋白结合序列，其中第一末端是5’端和第二末端是3’端–第二元件4，其包含具有5’端和3’端的重复核酸序列4，其中重复核酸序列3的3’端位于第四核酸结合2类 V型CRISPR蛋白结合序列的5’端的5’，其中重复核酸结合序列4还包含具有5’端和 3’端的接头元件核酸序列4-1–具有5’端和3’端的重复核酸序列3aC–具有5’端和3’端的接头元件核酸序列4-2–具有5’端和3’端的重复核酸序列1aC–和具有5’端和3’端的接头元件核酸序列4-3，按以下3’至5’顺序排列：接头元件核酸序列4-1、重复核酸序列3aC、接头元件核酸序列4-2、重复核酸序列1aC和接头元件核酸序列4-3；–和第三元件4，其还包含具有5’端和3’端的核酸序列4，其中核酸序列4的5’端位于第一核酸结合2类V型CRISPR蛋白结合序列的3’端的3’；其中重复核酸序列1与重复核酸序列2通过重复核酸序列1b和重复核酸序列1bC之间的氢键键合缔合；重复核酸序列 1与重复核酸序列4通过重复核酸序列1a和重复核酸序列1aC之间的氢键键合缔合，重复核酸序列2与重复核酸序列3通过重复核酸序列2a和重复核酸序列2aC之间的氢键键合缔合，和重复核酸序列3与重复核酸序列4通过重复核酸序列3a和重复核酸序列3aC之间的氢键键合缔合。

8.实施方案4至7中任一个的复合物，其中重复核酸序列1和重复核酸序列2还包含双链核酸结合蛋白结合位点1和双链核酸结合蛋白结合位点1通过重复核酸序列1和重复核酸序列2之间的碱基对氢键键合形成。

9.实施方案8的复合物，其中双链核酸结合蛋白结合位点1是Csy4蛋白结合位点。

10.实施方案4至9中任一个的复合物，其中第一工程化核酸和第二工程化核酸各自包含RNA、DNA或其组合。

11.实施方案7的复合物，其中第一工程化核酸、第二工程化核酸、第三工程化核酸和第四工程化核酸各自包含RNA、DNA或其组合。

12.实施方案5至11中任一个的复合物，其中第一核酸结合2类V型CRISPR蛋白结合序列和第二核酸结合2类V型CRISPR蛋白结合序列各自是Cpf1蛋白结合序列。

13.实施方案7或11的复合物，其中第一核酸结合2类V型CRISPR蛋白结合序列、第二核酸结合2类V型CRISPR蛋白结合序列、第三核酸结合2类5型CRISPR蛋白结合序列和第四核酸结合2类V型CRISPR蛋白结合序列各自是Cpf1蛋白结合序列。

14.实施方案5、6、7、8、9或10中任一个的复合物，其中(i)核酸序列1还包含间隔核酸序列1和核酸序列2还包含间隔核酸序列2和(ii)间隔核酸序列1与靶核酸序列1互补和间隔核酸序列2与靶核酸序列2互补。

15.实施方案14的复合物，其中靶核酸序列1和靶核酸序列2各自是选自以下的核酸序列：单链RNA、单链DNA、双链RNA、双链DNA、单链RNA/DNA杂合物和双链 RNA/DNA杂合物。

16.实施方案7、11或13中任一个的复合物，其中(i)核酸序列1还包含间隔核酸序列1，核酸序列2还包含间隔核酸序列2，核酸序列3还包含间隔核酸序列3和核酸序列4 还包含间隔核酸序列4和(ii)间隔核酸序列1与靶核酸序列1互补，间隔核酸序列2与靶核酸序列2互补，间隔核酸序列3与靶核酸序列3互补和间隔核酸序列4与靶核酸序列4互补。

17.实施方案16的复合物，其中靶核酸序列1、靶核酸序列2、靶核酸3和靶核酸4 各自是选自以下的核酸序列：单链RNA、单链DNA、双链RNA、双链DNA、单链 RNA/DNA杂合物和双链RNA/DNA杂合物。

18.实施方案1至17中任一个的形成支架的两种或更多种工程化核酸序列的复合物，所述复合物还包含结合至第一核酸结合2类V型CRISPR蛋白结合序列的第一2类V 型CRISPR蛋白和结合至第二核酸结合2类V型CRISPR蛋白结合序列的第二2类V型 CRISPR蛋白，其中第一2类V型CRISPR蛋白和第二2类V型CRISPR蛋白各自选自 Cpf1蛋白和无催化活性Cpf1蛋白。

19.实施方案7、11、13或16中任一个的形成支架的两种或更多种工程化核酸序列的复合物，所述复合物还包含结合至第一核酸结合2类V型CRISPR蛋白结合序列第一2类V型CRISPR蛋白、结合2类V型CRISPR蛋白结合序列的第二2类V型CRISPR蛋白结合至第二核酸、结合至第三核酸结合2类V型CRISPR蛋白结合序列的第三2类V型CRISPR 蛋白和第四2类V型CRISPR蛋白结合至第四核酸结合2类V型CRISPR蛋白结合序列，其中第一2类V型CRISPR蛋白、第二2类V型CRISPR蛋白、第三2类V型CRISPR蛋白和第四2类V型CRISPR蛋白各自选自Cpf1蛋白和无催化活性的Cpf1蛋白。

20.实施方案4的复合物，其中第一核酸结合2类CRISPR蛋白结合序列是2类II型CRISPR蛋白结合序列，其中第一末端是5’端和第二末端是3’端–重复核酸序列1具有 5’端和3’端，其中重复核酸序列1的3’端位于第一核酸结合2类II型CRISPR蛋白结合序列的5’端的5’–和核酸序列1具有5’端和3’端，其中核酸序列1的3’端位于重复核酸序列1的5’端的5’；–和第二核酸结合2类CRISPR蛋白结合序列是2类II型 CRISPR蛋白结合序列，其中第一末端是5’端和第二末端是3’端–重复核酸序列1C具有5’端和3’端，其中重复核酸序列1C的3’端位于第二核酸结合2类II型CRISPR蛋白结合序列的5’端的5’–和核酸序列2具有5’端和3’端，其中核酸序列2的3’端位于重复核酸序列1C的5’端的5’。

21.实施方案20的复合物，其中重复核酸序列1还包含具有5’端和3’端的接头元件核酸序列1-1–具有5’端和3’端的重复核酸序列1a–具有5’端和3’端的接头元件核酸序列1-2–具有5’端和3’端的重复核酸序列1b–和具有5’端和3’端的接头元件核酸序列1-3，按以下3’至5’顺序排列：接头元件核酸序列1-1、重复核酸序列1a、接头元件核酸序列1-2、重复核酸序列1b和接头元件核酸序列1-3；–和重复核酸序列2还包含具有5’端和3’端的接头元件核酸序列2-1–具有5’端和3’端的重复核酸序列 1aC–具有5’端和3’端的接头元件核酸序列2-2–具有5’端和3’端的重复核酸序列1bC–和具有5’端和3’端的接头元件核酸序列2-3，按以下3’至5’顺序排列：接头元件核酸序列2-3、重复核酸序列1bC、接头元件核酸序列2-2、重复核酸序列1aC和接头元件核酸序列2-1；其中重复核酸序列1与重复核酸序列2通过重复核酸序列1a和重复核酸序列1aC之间的氢键键合和通过重复核酸序列1b和重复核酸序列1bC之间的氢键键合缔合。

22.实施方案21的复合物，其中重复核酸序列1a还包含具有5’端和3’端的重复核酸序列1a1–具有5’端和3’端的凸起核酸序列1a1–和具有5’端和3’端的重复核酸序列1a2，按以下3’至5’顺序排列：重复核酸序列1a1、凸起核酸序列1a1和重复核酸序列1a2；–和重复核酸序列1b还包含具有5’端和3’端的重复核酸序列1b1–具有5’端和3’端的凸起核酸序列1b1–和具有5’端和3’端的重复核酸序列1b2，按以下3’至 5’顺序排列：重复核酸序列1b1、凸起核酸序列1b1和重复核酸序列1b2；和重复核酸序列 1bC还包含具有5’端和3’端的重复核酸序列1b2C–具有5’端和3’端的凸起核酸序列2b2–和具有5’端和3’端的重复核酸序列1b1C，按以下3’至5’顺序排列：重复核酸序列1b2C、凸起核酸序列2b2和重复核酸序列1b1C–和重复核酸序列1aC还包含具有 5’端和3’端的重复核酸序列1a2C–具有5’端和3’端的凸起核酸序列2a2–和具有 5’端和3’端的重复核酸序列1a1C，按以下3’至5’顺序排列：重复核酸序列1a2C、凸起核酸序列2a2和重复核酸序列1a1C；其中重复核酸序列1与重复核酸序列2通过重复核酸序列1a1和重复核酸序列1a1C、重复核酸序列1a2和重复核酸序列1a2C、重复核酸序列 1b1和重复核酸序列1b1C、重复核酸序列1b2和重复核酸序列1b2C之间的氢键键合缔合。

23.实施方案20、21或22中任一个的复合物，其中重复核酸序列1和重复核酸序列2包含双链核酸结合蛋白结合位点1，和双链核酸结合蛋白结合位点1通过重复核酸序列1和重复核酸序列2之间的碱基对氢键键合形成。

24.实施方案23的复合物，其中双链核酸结合蛋白结合位点1是Csy4蛋白结合位点。

25.实施方案20至24中任一个的复合物，其中第一工程化核酸和第二工程化核酸各自包含RNA、DNA或其组合。

26.实施方案20至25中任一个的复合物，其中第一核酸结合2类II型CRISPR蛋白结合序列和第二核酸结合2类II型CRISPR蛋白结合序列各自是Cas9蛋白结合序列。

27.实施方案20至26中任一个的复合物，其中(i)核酸序列1还包含间隔核酸序列1和核酸序列2还包含间隔核酸序列2和(ii)间隔核酸序列1与靶核酸序列1互补和间隔核酸序列2与靶核酸序列2互补。

28.实施方案27的复合物，其中靶核酸序列1和靶核酸序列2各自是选自以下的核酸序列：单链RNA、单链DNA、双链RNA、双链DNA、单链RNA/DNA杂合物和双链 RNA/DNA杂合物。

29.实施方案20至28中任一个的形成支架的两种或更多种工程化核酸序列的复合物，所述复合物还包含结合至第一核酸结合2类II型CRISPR蛋白结合序列的第一2类II 型CRISPR蛋白和结合至第二核酸结合2类II型CRISPR蛋白结合序列的第二2类II型 CRISPR蛋白，其中第一2类II型CRISPR蛋白和第二2类II型CRISPR蛋白各自选自 Cas9蛋白和无催化活性Cas9蛋白。

30.形成支架的三种或更多种工程化核酸序列的复合物，包含：第一工程化核酸、第二工程化核酸和第三工程化核酸，第一工程化核酸包含第一CRISPR元件1，其包含–具有5’端和3’端的第一核酸结合2类II型CRISPR蛋白结合序列–和具有5’端和3’端的重复核酸序列1，其中重复核酸序列1的3’端位于第一核酸结合2类II型CRISPR蛋白结合序列的5’端的5’，重复核酸序列1还包含具有5’端和3’端的接头元件核酸序列1-1 –具有5’端和3’端的重复核酸序列1a–具有5’端和3’端的接头元件核酸序列1-2 –具有5’端和3’端的重复核酸序列1b–和具有5’端和3’端的接头元件核酸序列1- 3，按以下3’至5’顺序排列：接头元件核酸序列1-1、重复核酸序列1a、接头元件核酸序列1-2、重复核酸序列1b和接头元件核酸序列1-3；–和第二CRISPR元件1，其还包含具有5’端和3’端的核酸序列1，其中(i)核酸序列1的3’端位于重复核酸序列1的5’端的5’和(ii)核酸序列1包含间隔核酸序列1；–第二工程化核酸包含–第一CRISPR元件2，其包含–具有5’端和3’端的第二核酸结合2类II型CRISPR蛋白结合序列–和具有5’端和3’端的重复核酸序列2，其中重复核酸序列2的3’端位于第二核酸结合2类 II型CRISPR蛋白结合序列的5’端的5’，重复核酸序列2还包含–具有5’端和3’端的接头元件核酸序列2-3–具有5’端和3’端的重复核酸序列1bC–具有5’端和3’端的接头元件核酸序列2-4–具有5’端和3’端的重复核酸序列2a–和具有5’端和3’端的接头元件核酸序列2-5，按以下3’至5’顺序排列：接头元件核酸序列2-3、重复核酸序列1bC、接头元件核酸序列2-4、重复核酸序列2a和接头元件核酸序列2-5；–第二 CRISPR元件2，其包含具有5’端和3’端的核酸序列2，其中(i)核酸序列1的3’端位于重复核酸序列2的5’端的5’和(ii)核酸序列2包含间隔核酸序列2；–和第三工程化核酸包含第一CRISPR元件3，其包含具有5’端和3’端的第三核酸结合2类II型CRISPR蛋白结合序列–和具有5’端和3’端的重复核酸序列3，其中重复核酸序列3的3’端位于第三核酸结合2类II型CRISPR蛋白结合序列的5’端的5’，重复核酸序列3还包含具有 5’端和3’端的接头元件核酸序列3-1–具有5’端和3’端的重复核酸序列2aC–具有 5’端和3’端的接头元件核酸序列3-2–具有5’端和3’端的重复核酸序列1aC-1–和具有5’端和3’端的接头元件核酸序列3-3，按以下3’至5’顺序排列：接头元件核酸序列3-1、重复核酸序列2aC、接头元件核酸序列3-2、重复核酸序列1aC-1和接头元件核酸序列3-3；第二CRISPR元件3，其包含具有5’端和3’端的核酸序列3，其中(i)核酸序列3 的3’端位于重复核酸序列3的5’端的5’和(ii)核酸序列3包含间隔核酸序列3；其中重复核酸序列1a与重复核酸序列1aC-1通过重复核酸序列1a和重复核酸序列1aC-1之间的氢键键合缔合，重复核酸序列1b与重复核酸序列1bC通过重复核酸序列1b和重复核酸序列 1bC之间的氢键键合缔合，和重复核酸序列2a与重复核酸序列2aC通过重复核酸序列2a和重复核酸序列2aC之间的氢键键合缔合。

31.实施方案30的复合物，其中重复核酸序列1和重复核酸序列2包含双链核酸结合蛋白结合位点1，和双链核酸结合蛋白结合位点1通过重复核酸序列1和重复核酸序列2之间的碱基对氢键键合形成。

32.实施方案31的复合物，其中双链核酸结合蛋白结合位点1是Csy4蛋白结合位点。

33.实施方案30、31或32中任一个的复合物，其中第一工程化核酸、第二工程化核酸和第三工程化核酸各自包含RNA、DNA或其组合。

34.实施方案30至33中任一个的复合物，其中第一核酸结合2类II型CRISPR蛋白结合序列、第二核酸结合2类II型CRISPR蛋白结合序列和第三核酸结合2类II型CRISPR 蛋白结合序列各自是Cas9蛋白结合序列。

35.实施方案30至34中任一个的复合物，其中(i)核酸序列1还包含间隔核酸序列1，核酸序列2还包含间隔核酸序列2和核酸序列3还包含间隔核酸序列3和(ii)间隔核酸序列1与靶核酸序列1互补，间隔核酸序列2与靶核酸序列2互补和间隔核酸序列3与靶核酸序列3互补。

36.实施方案35的复合物，其中靶核酸序列1、靶核酸序列2和靶核酸序列3各自是选自以下的核酸序列：单链RNA、单链DNA、双链RNA、双链DNA、单链RNA/DNA杂合物和双链RNA/DNA杂合物。

37.实施方案30至36中任一个的形成支架的三种或更多种工程化核酸序列的复合物，所述复合物还包含结合至第一核酸结合2类II型CRISPR蛋白结合序列的第一2类II 型CRISPR蛋白，结合至第二核酸结合2类II型CRISPR蛋白结合序列的第二2类II型 CRISPR蛋白和结合至第三核酸结合2类II型CRISPR蛋白结合序列的第三2类II型 CRISPR蛋白，其中第一2类II型CRISPR蛋白、第二2类II型CRISPR蛋白和第三2类II 型CRISPR蛋白各自选自Cas9蛋白和无催化活性Cas9蛋白。

38.形成支架的两种或更多种工程化核酸序列的复合物，包含：具有5’端和3’端的工程化级联核酸1，其包含第一级联元件1，其包含具有5’端和3’端的第一核酸结合2 类II型CRISPR蛋白结合序列–第二级联元件1，其包含具有5’端和3’端的重复核酸序列A1，其中第一核酸结合2类II型CRISPR蛋白结合序列位于重复核酸序列A1的3’端的3’–第一级联元件2，其包含具有5’端和3’端的第二核酸结合2类II型CRISPR蛋白结合序列–第二级联元件2，其包含具有5’端和3’端的重复核酸序列A2，其中第二核酸结合2类II型CRISPR蛋白结合序列位于重复核酸序列A2的3’端的3’，其中第一级联元件1的5’端共价结合至第一级联元件2的3’端以形成工程化级联核酸1；–具有 5’端和3’端的第三级联元件1，其包含具有5’端和3’端的重复核酸序列A1C和具有 5’端和3’端的核酸序列1，其中核酸序列1位于重复核酸序列A1C的5’端的5’，其中(i) 重复核酸序列A1C与重复核酸序列A1互补，(ii)重复核酸序列A1C与重复核酸序列A1通过重复核酸序列A1C和重复核酸序列A1之间的氢键键合缔合；–和具有5’端和3’端的第三级联元件2，其包含具有5’端和3’端的重复核酸序列A2C和具有5’端和3’端的核酸序列2，其中核酸序列2位于重复核酸序列A2C的5’端的5’，其中(i)重复核酸序列 A2C与重复核酸序列A2互补，(ii)重复核酸序列A2C缔合至重复核酸序列A2和(iii)重复核酸序列A2C与重复核酸序列A2通过重复核酸序列A2C和重复核酸序列A2之间的氢键键合缔合。

39.实施方案38的复合物，其中重复核酸序列A1还包含具有5’端和3’端的接头元件核酸序列A1-1，接头元件核酸序列A1-1的3’端位于第一核酸结合2类II型CRISPR 蛋白结合序列的5’端的5’，接头元件核酸序列A1-1包含具有5’端和3’端的重复核酸序列A1-1和具有5’端和3’端的凸起核酸序列A1-1，凸起核酸序列A1-1的3’端邻近重复核酸序列A1-1的5’端–和具有5’端和3’端的接头元件核酸序列A1-2，其包含具有 5’端和3’端的重复核酸序列A1-2，接头元件核酸序列A1-2的3’端位于接头元件核酸 A1-1的5’端的5’；–重复核酸序列A2还包含具有5’端和3’端的接头元件核酸序列 A2-1，接头元件核酸序列A2-1的3’端位于第二核酸结合2类II型CRISPR蛋白结合序列的5’端的5’，接头元件核酸序列A2-1包含具有5’端和3’端的重复核酸序列A2-1和具有5’端和3’端的凸起核酸序列A2-1，凸起核酸序列A2-1的3’端邻近重复核酸序列 A2-1的5’端–和具有5’端和3’端的接头元件核酸序列A2-2，其包含具有5’端和3’端的重复核酸序列A2-2，接头元件核酸序列A2-2的3’端位于接头元件核酸A2-1的5’端的5’，–第三级联元件1，其中重复核酸序列A1C还包含接头元件核酸序列A1-1C，其包含具有5’端和3’端的重复核酸序列A1-1C，重复核酸序列A1-1C的5’端位于核酸序列 1的3’端的3’，和具有5’端和3’端的凸起核酸序列A1-1C，凸起核酸序列A1-1C的 5’端位于重复核酸序列A1-1C的3’端的3’，其中(i)重复核酸序列A1-1C与重复核酸序列A1-1互补和(ii)重复核酸序列A1-1C与重复核酸序列A1-1通过重复核酸序列A1-1C和重复核酸序列A1-1之间的氢键键合缔合–和具有5’端和3’端的接头元件核酸序列A1- 2C，其包含具有5’端和3’端的重复核酸序列A1-2C，接头元件核酸序列A1-2C的5’端位于接头元件核酸序列A1-1C的3’端的3’，其中(i)重复核酸序列A1-2C与重复核酸序列 A1-2互补和(ii)重复核酸序列A1-2C与重复核酸序列A1-2通过重复核酸序列A1-2C和重复核酸序列A1-2之间的氢键键合缔合；–和重复核酸序列A2C还包含接头元件核酸序列A2- 1C，其包含具有5’端和3’端的重复核酸序列A2-1C，重复核酸序列A2-1C的5’端位于核酸序列2的3’端的3’，和具有5’端和3’端的凸起核酸序列A2-1C，凸起核酸序列 A2-1C的5’端位于重复核酸序列A2-1C的3’端的3’，其中(i)重复核酸序列A2-1C与重复核酸序列A2-1互补和(ii)重复核酸序列A2-1C与重复核酸序列A2-1通过重复核酸序列 A2-1C和重复核酸序列A2-1之间的氢键键合缔合–和具有5’端和3’端的接头元件核酸序列A2-2C，其包含具有5’端和3’端的重复核酸序列A2-2C，接头元件核酸序列A2-2C的 5’端位于接头元件核酸序列A2-1C的3’端的3’，其中(i)重复核酸序列A2-2C与重复核酸序列A2-2互补和(ii)重复核酸序列A2-2C与重复核酸序列A2-2通过重复核酸序列A2-2C 和重复核酸序列A2-2之间的氢键键合缔合。

40.实施方案38或39的复合物，其中重复核酸序列A1和重复核酸序列A1C还包含双链核酸结合蛋白结合位点1，和双链核酸结合蛋白结合位点1通过重复核酸序列A1和重复核酸序列A1C之间的碱基对氢键键合形成。

41.实施方案38至40中任一个的复合物，其中重复核酸序列A2和重复核酸序列A2C还包含双链核酸结合蛋白结合位点2，和双链核酸结合蛋白结合位点2通过重复核酸序列A2和重复核酸序列A2C之间的碱基对氢键键合形成。

42.实施方案40或41的复合物，其中双链核酸结合蛋白结合位点1是Csy4蛋白结合位点。

43. 38至42中任一个的复合物，其中工程化级联核酸1、第三级联元件1和第三级联元件2各自包含RNA、DNA或其组合。

44. 38至43中任一个的复合物，其中第一核酸结合2类II型CRISPR蛋白结合序列和第二核酸结合2类II型CRISPR蛋白结合序列各自是Cas9蛋白结合序列。

45. 38至44中任一个的复合物，其中(i)核酸序列1还包含间隔核酸序列1和核酸序列2还包含间隔核酸序列2和(ii)间隔核酸序列1与靶核酸序列1互补和间隔核酸序列2与靶核酸序列2互补。

46.实施方案45的复合物，其中靶核酸序列1和靶核酸序列2各自是选自以下的核酸序列：单链RNA、单链DNA、双链RNA、双链DNA、单链RNA/DNA杂合物和双链 RNA/DNA杂合物。

47.实施方案38至46中任一个的形成支架的两种或更多种工程化核酸序列的复合物，所述复合物还包含结合至第一核酸结合2类II型CRISPR蛋白结合序列的第一2类II 型CRISPR蛋白和结合至第二核酸结合2类II型CRISPR蛋白结合序列的第二2类II型 CRISPR蛋白，其中第一2类II型CRISPR蛋白和第二2类II型CRISPR蛋白各自选自 Cas9蛋白和无催化活性Cas9蛋白。

48.形成支架的两种或更多种工程化核酸序列的复合物，包含：具有5’端和3’端的工程化级联断裂-连结核酸1，所述工程化级联断裂-连结核酸1包含具有5’端和3’端的第一断裂-连结元件1，其包含第一核酸结合2类II型CRISPR蛋白结合序列和具有5’端和 3’端的断裂-连结茎元件核酸序列1-1，其中第一核酸结合2类II型CRISPR蛋白结合序列位于断裂-连结茎元件核酸序列1-1的3’端的3’–和具有5’端和3’端的第一断裂-连结元件2，其包含第二核酸结合2类II型CRISPR蛋白结合序列和具有5’端和3’端的断裂- 连结茎元件核酸序列2-1，其中第二核酸结合2类II型CRISPR蛋白结合序列位于断裂-连结茎元件核酸序列2-1的3’端的3’，–和具有5’端和3’端的辅助多核苷酸1-1，其中第一断裂-连结元件1的5’端共价结合至辅助多核苷酸1-1的3’端和辅助多核苷酸1-1的5’端共价结合至第一断裂-连结元件2的3’端以形成级联断裂-连结元件；–具有5’端和 3’端的第二断裂-连结元件1，其包含具有5’端和3’端的核酸序列1和具有5’端和3’端的第一茎元件核酸序列1-1，其中核酸序列1的3’端共价结合至第一茎元件核酸序列1- 1的5’端–具有5’端和3’端的环元件核酸序列1，其中第一茎元件核酸序列1-1的 3’端共价结合至环元件核酸序列1的5’端–具有5’端和3’端的第一茎元件核酸序列 1-2，其中环元件核酸序列1的3’端共价结合至第一茎元件核酸序列1-2的5’端–具有 5’端和3’端的连接核酸序列1，其中第一茎元件核酸序列1-2的3’端共价结合至连接核酸序列1的5’端–和断裂-连结茎元件核酸序列1-2，其中连接核酸序列1的3’端共价结合至断裂-连结茎元件核酸序列1-2的5’端，其中(i)第一茎元件核酸序列1-1和第一茎元件核酸序列1-2通过第一茎元件核酸序列1-1和第一茎元件核酸序列1-2之间的碱基对氢键键合形成第一茎元件1和(ii)断裂-连结茎元件核酸序列1-1和断裂-连结茎元件核酸序列1-2 通过断裂-连结茎元件核酸序列1-1和断裂-连结茎元件核酸序列1-2之间的碱基对氢键键合形成断裂-连结茎元件1；–和具有5’端和3’端的第二断裂-连结元件2，其包含具有5’端和3’端的核酸序列2和具有5’端和3’端的第一茎元件核酸序列2-1，其中核酸序列2 的3’端共价结合至第一茎元件核酸序列2-1的5’端–具有5’端和3’端的环元件核酸序列2，其中第一茎元件核酸序列2-1的3’端共价结合至环元件核酸序列2的5’端–具有5’端和3’端的第一茎元件核酸序列2-2，其中环元件核酸序列2的3’端共价结合至第一茎元件核酸序列2-2的5’端–具有5’端和3’端的连接核酸序列2，其中第一茎元件核酸序列2-2的3’端共价结合至连接核酸序列2的5’端–和断裂-连结茎元件核酸序列2- 2，其中连接核酸序列1的3’端共价结合至断裂-连结茎元件核酸序列2-2的5’端，其中(i) 第一茎元件核酸序列2-1和第一茎元件核酸序列2-2通过第一茎元件核酸序列2-1和第一茎元件核酸序列2-2之间的碱基对氢键键合形成第一茎元件2和(ii)断裂-连结茎元件核酸序列 2-1和断裂-连结茎元件核酸序列2-2通过断裂-连结茎元件核酸序列2-1和断裂-连结茎元件核酸序列2-2之间的碱基对氢键键合形成断裂-连结茎元件2。

49.实施方案48的复合物，其中第一茎元件1在5'至3'方向还包含下部茎元件核酸序列1-1、凸起元件核酸序列1-1、上部茎元件核酸序列1-1、环元件核酸序列1、上部茎元件核酸序列1-2、凸起元件核酸序列1-2和下部茎元件核酸序列1-2，其中上部茎元件核酸序列1-1和上部茎元件核酸序列1-2通过上部茎元件核苷酸序列1-1和上部茎元件核苷酸序列1-2 之间的碱基对氢键键合形成上部茎元件1，和下部茎元件核酸序列1-1和下部茎元件核酸序列1-2通过下部茎元件核酸序列1-1和下部茎元件核苷酸序列1-2之间的碱基对氢键键合形成下部茎元件1。

50.实施方案48或49的复合物，其中第一茎元件2在5'至3'方向还包含下部茎元件核酸序列2-1、凸起元件核酸序列2-1、上部茎元件核酸序列2-1、环元件核酸序列2、上部茎元件核酸序列2-2、凸起元件核酸序列2-2和下部茎元件核酸序列2-2，其中上部茎元件核酸序列2-1和上部茎元件核酸序列2-2通过上部茎元件核苷酸序列2-1和上部茎元件核苷酸序列2-2之间的碱基对氢键键合形成上部茎元件2，和下部茎元件核酸序列2-1和下部茎元件核酸序列2-2通过下部茎元件核酸序列2-1和下部茎元件核苷酸序列2-2之间的碱基对氢键键合形成下部茎元件2。

51.实施方案48至50中任一个的复合物，其中第二断裂-连结元件1还包含具有5’和3’端的辅助多核苷酸1-2，其中辅助多核苷酸1-2的5’端是断裂-连结茎元件核酸序列 1-2的3’端的3’，其中辅助多核苷酸1-2与辅助多核苷酸1-1通过碱基对氢键键合缔合。

52.实施方案51的复合物，其中辅助多核苷酸1-1和辅助多核苷酸1-2还包含双链核酸结合蛋白结合位点1，和双链核酸结合蛋白结合位点1通过辅助多核苷酸1-1和辅助多核苷酸1-2之间的碱基对氢键键合形成。

53.实施方案52的复合物，其中双链核酸结合蛋白结合位点1是Csy4蛋白结合位点1。

54.实施方案48至53中任一个的复合物，其中第二断裂-连结元件2还包含具有5’和3’端的辅助多核苷酸2-2，其中辅助多核苷酸2-2的5’端是断裂-连结茎元件核酸序列 2-2的3’端的3’–和第一断裂-连结元件2还包含具有5’端和3’端的辅助多核苷酸2- 1，其中(i)第一断裂-连结元件2的5’端共价结合至辅助多核苷酸2-1的3’端和(ii)辅助多核苷酸2-2与辅助多核苷酸2-1通过碱基对氢键键合缔合。

55.实施方案54的复合物，其中辅助多核苷酸2-1和辅助多核苷酸2-2还包含双链核酸结合蛋白结合位点2，和双链核酸结合蛋白结合位点2通过辅助多核苷酸2-1和辅助多核苷酸2-2之间的碱基对氢键键合形成。

56.实施方案55的复合物，其中双链核酸结合蛋白结合位点2是Csy4蛋白结合位点2。

57. 48至56中任一个的复合物，其中工程化级联断裂-连结核酸1、第三级联元件1和第三级联元件2各自包含RNA、DNA或其组合。

58. 48至57中任一个的复合物，其中第一核酸结合2类II型CRISPR蛋白结合序列和第二核酸结合2类II型CRISPR蛋白结合序列各自是Cas9蛋白结合序列。

59. 48至58中任一个的复合物，其中(i)核酸序列1还包含间隔核酸序列1和核酸序列2还包含间隔核酸序列2和(ii)间隔核酸序列1与靶核酸序列1互补和间隔核酸序列2与靶核酸序列2互补。

60.实施方案59的复合物，其中靶核酸序列1和靶核酸序列2各自是选自以下的核酸序列：单链RNA、单链DNA、双链RNA、双链DNA、单链RNA/DNA杂合物和双链 RNA/DNA杂合物。

61.实施方案48至60中任一个的形成支架的两种或更多种工程化核酸序列的复合物，所述复合物还包含结合至第一核酸结合2类II型CRISPR蛋白结合序列的第一2类II 型CRISPR蛋白和结合至第二核酸结合2类II型CRISPR蛋白结合序列的第二2类II型 CRISPR蛋白，其中第一2类II型CRISPR蛋白和第二2类II型CRISPR蛋白各自选自 Cas9蛋白和无催化活性Cas9蛋白。

62.工程化核酸支架，包含第一工程化核酸，所述第一工程化核酸包含–第一元件1，其包含具有5’端和3’端的第一核酸结合2类II型CRISPR蛋白结合序列–和第二元件 1，其包含具有5’端和3’端的重复核酸序列1，其中重复核酸序列1的3’端位于第一核酸结合2类II型CRISPR蛋白结合序列的5’端的5’，重复核酸序列1还包含具有5’端和 3’端的接头元件核酸序列1-1–具有5’端和3’端的重复核酸序列1a–具有5’端和 3’端的接头元件核酸序列1-2–具有5’端和3’端的重复核酸序列1b–和具有5’端和 3’端的接头元件核酸序列1-3，按以下3’至5’顺序排列：接头元件核酸序列1-1、重复核酸序列1a、接头元件核酸序列1-2、重复核酸序列1b和接头元件核酸序列1-3；其中重复核酸序列1内没有核酸序列与重复核酸序列1内的任何核酸序列缔合以形成通过氢键键合能够结合2类II型CRISPR-Cas蛋白的茎元件。

63.实施方案62的工程化核酸支架，还包含第三元件1，其包含具有5’端和3’端的核酸序列1，其中(i)核酸序列1的3’端共价连接至重复核酸序列1的5’端和(ii)核酸序列1包含间隔核酸序列1。

64.实施方案62或63的工程化核酸支架，还包含第二工程化核酸，所述第二工程化核酸包含–第一元件2，其包含具有5’端和3’端的第二核酸结合2类II型CRISPR蛋白结合序列–和第二元件2，其包含具有5’端和3’端的重复核酸序列1C，其中重复核酸序列1C的3’端位于第二核酸结合2类II型CRISPR蛋白结合序列的5’端的5’，重复核酸序列2还包含具有5’端和3’端的接头元件核酸序列2-1–具有5’端和3’端的重复核酸序列1bC–具有5’端和3’端的接头元件核酸序列2-2–具有5’端和3’端的重复核酸序列1aC–和具有5’端和3’端的接头元件核酸序列2-3，按以下3’至5’顺序排列：接头元件核酸序列2-3、重复核酸序列1bC、接头元件核酸序列2-2、重复核酸序列1aC 和接头元件核酸序列2-1；其中重复核酸序列1与重复核酸序列2通过重复核酸序列1a和重复核酸序列1aC之间的氢键键合和通过重复核酸序列1b和重复核酸序列1bC之间的氢键键合缔合。

65.实施方案64的工程化核酸支架，还包含第三元件2，其包含具有5’端和3’端的核酸序列2，其中(i)核酸序列2的3’端共价连接至重复核酸序列1C的5’端和(ii)核酸序列2包含间隔核酸序列2。

尽管本文已显示和描述了本发明的优选实施方案，但对于本领域技术人员显而易见的是，这些实施方案仅作为示例提供。根据以上描述和以下实施例，本领域技术人员可以确定本发明的必要特征，并且在不脱离其精神和范围的情况下，可以对本发明进行改变、替换、变化和修改以使其适应各种用法和条件。这样的改变、替代、变化和修改也意图落入本公开内容的范围内。

实验

本发明的各方面在以下实施例中说明。已经努力确保所用数字的准确性(例如，量、浓度、百分比变化等)，但是应该考虑到一些实验误差和偏差。除非另有说明，否则温度为摄氏度，压力为大气压或接近大气压。应该理解的是，这些实施例仅作为举例说明呈现，并不意图将发明人认为是本发明的各个方面的范围限制于此。

实施例1

NASC多核苷酸组分的计算机设计

本实施例提供了用于本文描述的NASC的多个实施方案的NASC多核苷酸组分的设计的描述。

表9列出了附图中所示NASC多核苷酸组分和结构之间的相关性。列“相关Cas蛋白“列出可以使用NASC多核苷酸组分的Cas蛋白。除非另有说明，否则Cas9蛋白是酿脓链球菌Cas9蛋白(酿脓链球菌Cas9蛋白，SEQ ID NO.100或酿脓链球菌dCas9蛋白(SEQ IDNO.101))。除非另有说明，Cpf1蛋白是酸性氨基酸球菌属Cpf1蛋白(dCpf SEQ ID NO.105)。

在多核苷酸组分之间杂交的序列用下划线表示。核酸靶结合序列由一系列二十个N 表示，其中N是任何核苷酸。本领域普通技术人员可以工程改造核酸靶结合序列。

表9

NASC多核苷酸组分序列的实例。

*嗜热链球菌CRISPR-I Cas9蛋白,SEQ ID NO.108或嗜热链球菌CRISPR-I dCas9蛋白,SEQ ID NO.109

根据本说明书的指导，本领域普通技术人员可以针对不同同源Cas蛋白(例如空肠弯曲杆菌 Cas9蛋白(SEQ ID NO.103),空肠弯曲杆菌dCas9蛋白(SEQ ID NO.56),金黄色葡萄球菌 Cas9(SEQ ID NO.99),金黄色葡萄球菌dCas9(SEQ ID NO.102),毛螺菌科细菌Cpf1蛋白 (SEQ ID NO.106),毛螺菌科细菌dCpf1蛋白(SEQ ID NO.107)或氨基酸球菌属Cpf1(SEQ ID NO.104)设计NASC多核苷酸组分(例如，基于本文所述的其它NASC多核苷酸组分)。

实施例2

sgRNA和NASC多核苷酸组分的生产

本实施例描述了sgRNA和NASC多核苷酸组分NASC-PC1(表9，通用靶序列SEQ IDNO. 83)和NASC-PC2(表9，通用靶序列SEQ ID NO.84)的产生，如图6G示出的。本实施例描述的sgRNA和NASC多核苷酸组分用于Cas切割测定法(实施例5)。

NASC-PC1和NASC-PC2包含不同的第一茎元件核酸序列(图6E、608-609和619-620中所示)以限制每个NASC-PC内可能干扰NASC-PC1第一茎元件核酸序列和与第一茎元件核酸序列互补的NASC-PC2第一茎元件核酸序列之间形成稳定二级结构的二级结构形成。

使用两个sgRNA骨架(sgRNA-1和sgRNA-2)，每个包含不同的上部茎和下部茎核酸序列(分别在图2C,221-222/227-228和223-224/225-226中示出)；凸起序列是相同的。

选择四个核酸靶结合序列，每个长度为20个核苷酸。在sgRNA-1和sgRNA-2骨架的5'端以及NASC-PC1和NASC-PC2的5'端掺入四个核酸靶结合序列中的一个。四个双链 DNA靶序列如下：靶1(AAVST1)对应于人AAVS-1靶序列。靶2(VT2)、靶3(VT3)和靶 4(VT4)是存在于载体序列(SEQ ID NO.20)中的DNA靶序列。

使用T7 Quick High Yield RNA合成试剂盒(New England Biolabs,Ipswich,MA)从在 DNA序列的5'端掺入T7启动子的双链DNA模板通过体外转录产生RNA组分。

使用含有对应于每种sgRNA、NASC-PC1和NASC-PC2的DNA序列的3'重叠寡核苷酸引物，通过PCR组装每种sgRNA、NASC-PC1和NASC-PC2的双链DNA模板。寡核苷酸引物呈现于表10中。

表10

用于产生sgRNA、NASC-PC1和NASC-PC2编码模板的重叠引物

构建体名称	靶	寡核苷酸
			sgRNA-1-AAVST1	靶-1	SEQ ID NO.1,3,11,12,2
sgRNA-1-VT2	靶-2	SEQ ID NO.1,4,11,12,2
			sgRNA-1-VT3	靶-3	SEQ ID NO.1,5,11,12,2
sgRNA-1-VT4	靶-4	SEQ ID NO.1,6,11,12,2
			sgRNA-2-AAVST1	靶-1	SEQ ID NO.1,7,13,14,2
sgRNA-2-VT2	靶-2	SEQ ID NO.1,8,13,14,2
			sgRNA-2-VT3	靶-3	SEQ ID NO.1,9,13,14,2
sgRNA-2-VT4	靶-4	SEQ ID NO.1,10,13,14,2
			NASC-PC1-AAVST1	靶-1	SEQ ID NO.1,3,15,16,2
NASC-PC1-VT2	靶-2	SEQ ID NO.1,4,15,16,2
			NASC-PC1-VT3	靶-3	SEQ ID NO.1,5,15,16,2
NASC-PC1-VT4	靶-4	SEQ ID NO.1,6,15,16,2
			NASC-PC2-AAVST1	靶-1	SEQ ID NO.1,7,17,18,2
NASC-PC2-VT2	靶-2	SEQ ID NO.1,8,17,18,2
			NASC-PC2-VT3	靶-3	SEQ ID NO.1,9,17,18,2
NASC-PC2-VT4	靶-4	SEQ ID NO.1,10,17,18,2

DNA引物各以2nM的浓度存在。一个DNA引物对应于T7启动子(SEQ ID NO.1)，另一个对应于RNA序列的3'端(SEQ ID NO.2)并且以640nM的浓度使用以驱动扩增反应。使用Q5Hot Start High-Fidelity 2X Master Mix(New England Biolabs,Ipswich,MA)按照制造商的说明书进行PCR反应。使用以下热循环条件进行PCR组装反应：98℃2分钟；98℃20秒、52.5℃20秒、72℃20秒，2个循环；接着98℃20秒、57℃20秒、72℃20秒， 32个循环；和72℃最后延伸2分钟。在PCR反应之后，通过琼脂糖凝胶电泳(1.5％,

Safe,LifeTechnologies,Grand Island,NY)评估DNA产物质量。

使用T7 High Yield RNA Synthesis试剂盒(New England Biolabs,Ipswich,MA)将0.25- 0.5μg的每种sgRNA、NASC-PC1和NASC-PC2的DNA模板用作转录的模板，在37℃持续约16小时。用DNA酶I(New England Biolabs,Ipswich,MA)处理转录反应物并使用 GeneJetRNA Cleanup和Concentration试剂盒(Life Technologies,Grand Island,NY)纯化。 RNA产量使用Nanodrop^TM 2000系统(Thermo Scientific,Wilmington,DE)定量。通过琼脂糖凝胶电泳(2％,

Safe；Life Technologies,Grand Island,NY)检查转录的RNA的质量。sgRNA和NASC多核苷酸组分序列如表11所示。

表11

sgRNA、NASC-PC1和NASC-PC2序列

*NASC-PC杂交区域加下划线

本领域普通技术人员鉴于本说明书的教导可以将sgRNA和NASC多核苷酸组分的该生产方法应用于产生其它sgRNA和NASC多核苷酸组分。

实施例3

通过将双链DNA靶序列克隆到质粒中用于切割测定法的双链DNA靶序列的生产通过将双链核酸靶序列(例如AAVS-1靶序列)连接至克隆载体骨架中生产用于体外Cas蛋白切割测定法的双链DNA靶序列。将每种载体转化到合适的大肠杆菌菌株中以产生双链DNA 靶序列。

将与人腺伴随病毒整合位点1(AAVS-1)对应的25个核苷酸的单链DNA靶序列以计算机方式在5'端附加47个核苷酸的随机化核酸序列和在3'端附加53个核苷酸的随机化核酸序列。将与Electra^TM Vector系统(DNA2.0,Newark,CA)相容的正向和反向寡核苷酸引物掺入 DNA靶序列的5'端和3'端，产生237bp单链DNA序列。将237bp单链DNA(“DNA克隆片段”)的核酸序列以及正向和反向扩增寡核苷酸引物的核酸序列提供给商业制造商用于合成。这些单链DNA序列显示在表12中。

表12

单链DNA序列

*包含PAM的AAVS-1DNA靶序列加下划线

通过PCR扩增单链DNA克隆片段以产生与Electra^TM Vector系统(DNA2.0,Newark,CA)一起使用的双链DNA。PCR反应混合物如下：0.5个单位的KAPA HiFi热启动DNA聚合酶(Kapa Biosystems,Wilmington,MA),1x反应缓冲液,0.3mM dNTPs,200nM正向引物(SEQ IDNO.21),200nM反向引物(SEQ ID NO.22)和80nM DNA克隆片段(SEQ ID NO.19)，总体积为25μL。DNA克隆片段使用以下条件扩增：95℃4分钟，98℃20秒、60℃20秒和 72℃30秒，30个循环，接着在72℃最后延伸5分钟。PCR产物使用Spin Smart^TM PCR 纯化试管(DenvilleScientific,South Plainfield,NJ)纯化和使用Nanodrop^TM 2000UV-Vis分光光度计(Thermo Scientific,Wilmington,DE)定量。

使用制造商的克隆方案将双链DNA克隆片段克隆到市售的“pD441-SR:T5-sRBS-ORF,Ecoli-Elec D”载体(Electra^TM细菌DNA载体(DNA2.0,Newark,CA))。制备以下克隆反应混合物：20ng PCR扩增克隆片段,20ng细菌DNA载体,2μl Electra^TM缓冲混合物(DNA2.0,Newark,CA)和1μl Electra^TM酶混合物(DNA2.0,Newark,CA)，最终体积为20μL。然后将克隆反应混合物短暂涡旋，使用台式离心机进行离心，并在室温下孵育20分钟。

孵育后，将1μL One

Mach1^TMT1R(Thermo Scientific,Wilmington,DE)化学感受态大肠杆菌细胞与2μL克隆反应混合物混合以形成转化混合物，将其在冰中孵育30分钟。将转化混合物在42℃下热激30秒，并在冰中孵育2分钟。将250μL室温S.O.C培养基(Thermo Scientific，Wilmington，DE)加入到转化混合物中，将混合物在37℃振荡孵育1小时。孵育后，将50μL细胞混合物涂布到含有50μg/mL卡那霉素的LB琼脂平板上，并将该平板在37℃孵育过夜以用于细菌集落形成。

挑取5个细菌集落并转移至含有5mL补充有50μg/mL卡那霉素培养基的LB的分开的15mL培养管中，并将管在振荡下孵育8小时。通过以4000RPM离心15分钟使细胞沉淀，抽吸培养基，并将细胞重悬于200μL不含抗生素的LB培养基中。使用QIAprep Spin Miniprep试剂盒(Qiagen，Venlo，Netherlands)按照制造商的说明书从五种细菌集落中的每一种的细菌中提取DNA载体。使用Nanodrop^TM 2000UV-Vis分光光度计(Thermo Scientific,Wilmington,DE)对DNA载体产量进行定量。对250ng的每种DNA载体进行Sanger测序以验证对应于SEQ ID NO.19的DNA克隆片段的掺入。包含AAVS-1靶序列的完整DNA载体序列以SEQID NO.20提供。

鉴定为含有包含DNA克隆片段的DNA载体的细菌克隆在100mL补充有50μg/mL 卡那霉素培养基的LB中培养，并在37℃振荡培养过夜。细胞通过在4000RPM下离心15 分钟沉淀，吸出培养基，并使用QIAprep Spin Maxiprep试剂盒(Qiagen，Venlo，Netherlands) 按照制造商的说明书纯化DNA载体。使用Nanodrop^TM 2000UV-Vis分光光度计(Thermo Scientific,Wilmington,DE)对DNA载体产量进行定量。

通过用AscI II型限制性内切核酸酶使环状载体线性化，制备DNA载体以用于Cas切割测定法。为了线性化环状DNA载体，组装下列反应混合物：每1μg环状DNA载体1个单位的AscI限制性内切核酸酶(New England Biolabs,Ipswich,MA)和1x

缓冲液 (NewEngland Biolabs,Ipswich,MA)，最终体积为50uL。将反应混合物在37℃孵育1小时，通过在80℃孵育20分钟停止反应。使用QIAquick PCR纯化试剂盒(Qiagen,Venlo, Netherland)按照生产商的说明书纯化线性DNA载体。使用Nanodrop^TM 2000UV-Vis分光光度计(ThermoScientific,Wilmington,DE)对线性DNA载体产量进行定量。

基本上按照本实施例中所述的方法，其它合适的克隆方法和DNA载体可以用于掺入双链DNA靶序列。如果DNA载体的线性化是不希望的或不必要的，则可以在Cas切割测定法中使用环状DNA载体。

实施例4

用于使用PCR的切割测定法中的双链DNA靶序列的生产

用于体外Cas蛋白切割测定法的双链DNA靶序列可以使用PCR扩增来自基因组人类DNA 的选择的核酸靶序列来产生。

包含腺伴随病毒整合位点1(AAVS-1)的基因组人类DNA可以通过从人细胞系 K562(美国典型培养物保藏中心(ATCC)，Manassas，VA)用苯酚-氯仿提取来制备。PCR反应可以按照制造商的说明书用Q5 Hot Start High-Fidelity 2X Master Mix(New EnglandBiolabs, Ipswich,MA)进行。最终体积25μl种的20ng/μL gDNA可用于在以下条件下扩增选定的核酸靶序列：98℃2分钟；98℃20秒，60℃20秒，72℃20秒，35个循环；最后72℃延伸2分钟。可使用Spin Smart^TM PCR纯化管(Denville Scientific,South Plainfield,NJ)纯化PCR产物，并可使用Nanodrop^TM 2000UV-Vis分光光度计(Thermo Scientific,Wilmington,DE)对其进行定量。

可用于扩增来自gDNA的AAVS-1DNA靶序列的正向和反向引物的实例呈现在表13中。

表13

AAVS-1 DNA靶序列寡核苷酸引物

SEQ ID NO.	序列
		SEQ ID NO.23	CCCCGTTCTCCTGTGGATTC
SEQ ID NO.24	ATCCTCTCTGGCTCCATCGT

AAVS-1 DNA靶序列可以使用SEQ ID NO.23和SEQ ID NO.24扩增产生495bp的双链AAVS-1 DNA靶序列。

通过选择合适的寡核苷酸引物，可以使用基本上相同的方法获得其它合适的双链DNA靶序列。可以使用来自任何生物体(例如植物、细菌、酵母、藻类等)的gDNA来代替来源于人细胞的DNA。此外，DNA靶序列可以通过PCR从gDNA以外的多核苷酸(例如，载体和凝胶分离的DNA片段)扩增。

实施例5

Cas切割测定法

本实施例说明NASC多核苷酸组合物和Cas9蛋白在体外测定法中的用途，以评估NASC多核苷酸组合物对核酸靶序列的切割百分比。

NASC-PC1和NASC-PC2包含不同的第一茎元件核酸序列以限制每个NASC-PC内可能干扰NASC-PC1第一茎元件核酸序列和与NASC-PC1第一茎元件核酸序列互补的NASC- PC2第一茎元件核酸序列之间通过氢键形成而形成稳定二级结构的二级结构形成。

本实施例中使用的NASC多核苷酸组合物的通用组分是NASC-PC1(表9，通用靶序列SEQ ID NO.83)和NASC-PC2(表9，通用靶序列SEQ ID NO.84)。这个NASC-P1/NASC- P2对的一般结构在图6G中示出。

在体外Cas9切割测定法中使用sgRNA/Cas9蛋白和NASC-PC1/NASC-PC2/Cas9蛋白的核糖核蛋白复合物来评估每种复合物相对于DNA载体上的相应双链DNA靶序列的切割百分比。

sgRNA/Cas9蛋白和NASC-PC1/NASC-PC2/Cas9的核糖核蛋白复合物使用实施例2表11中列出的sgRNA和NASC-PC1/NASC-P2构建体。靶1(AAVST1)对应于人AAVS-1靶序列。靶2(VT2)、靶3(VT3)和靶4(VT4)是存在于载体序列(SEQ ID NO：20)中的DNA靶序列。在仅有单个sgRNA或单个NASC多核苷酸组分的切割反应中，使用线性化载体。在与两种sgRNA或NASC-PC1/NASC-PC2组分的切割反应中，使用环状载体。用sgRNA切割线性质粒产生两个DNA片段，用两种sgRNA或NASC-PC1/NASC-PC2组分切割环形质粒产生两个DNA靶片段。双链DNA靶序列的大小和预测的切割片段的大小列于表14中。

表14

靶和切割片段大小

靶	DNA靶载体	片段1(bp)	片段2(bp)
				AAVST1	线性	1706	2469
VT2	线性	1769	2406
				VT3	线性	3214	961
VT4	线性	350	3825
				AAVST1/VT3	环状	1509	2666
AAVST1/VT4	环状	1357	2818
				VT2/VT3	环状	1446	2729
VT2/VT4	环状	1420	2755

将sgRNA和NASC-PC1/NASC-PC2组分稀释至合适的工作浓度。将sgRNA和NASC-PC组分分装到单独的试管中至终浓度为50nM。成对的sgRNA和NASC-PC1/NASC-PC2组分分装到单独的试管中，每种组分的终浓度为50nM。将所有RNA在95℃孵育2分钟，从热循环仪中取出，并使其平衡至室温。用于切割反应的sgRNA和NASC-PC1/NASC-PC2组分的组合呈现在表15中。

表15

sgRNA和NASC-PC1/NASC-PC2反应混合物组分

将各sgRNA反应混合物组分和NASC-PC1/NASC-PC2反应混合物组分加入到Cas9反应混合物中。酿脓链球菌Cas9蛋白在大肠杆菌中重组表达并纯化用于体外生化切割测定法。 Cas9反应混合物包含在反应缓冲液(20mM HEPES、100mM KCl、5mM MgCl2和5％甘油，pH7.4)中稀释至200nM终浓度的Cas9蛋白。将每种Cas9反应混合物在37℃孵育10分钟。通过加入DNA靶载体至5nM的终浓度来启动每种Cas9反应混合物中的切割。将每种Cas9 反应混合物混合，短暂离心，并在37℃孵育15分钟。通过加入最终浓度为0.2μg/μL的蛋白酶K(Denville Scientific，South Plainfield，NJ)和0.44mg/μL RNA酶A溶液(SigmaAldrich，St.Louis，MO)到每个Cas9反应混合物终止切割反应。

然后将每种Cas9反应混合物在37℃下孵育25分钟并在55℃下孵育25分钟。使用Fragment Analyzer^TM(Advanced Analytical Technologies,Ames,IA)系统和DNF-474-05000High Sensitivity NGS试剂盒(Advanced Analytical Technologies,Ames,IA)评估每种Cas9反应混合物的切割活性。来自Fragment Analyzer^TM系统的数据提供了每种Cas9反应混合物切割后剩余的每个切割片段和DNA靶载体的浓度。对于每种Cas9反应混合物，通过将切割片段的总和除以切割后保留的切割片段和DNA靶载体的总和来计算切割百分比。

表16呈现sgRNA/Cas9蛋白和NASC-PC1/NASC-PC2/Cas9的每种核糖核蛋白复合物的切割数据。

表16

用sgRNA/Cas9蛋白复合物和NASC-PC1/NASC-PC2/Cas9蛋白复合物进行的DNA靶序列的生物化学切割

*LOD指示低于检测限的切割值

表16中呈现的数据证明反应18、20、22和24(表16)的每种NASC-PC1/NASC-PC2/Cas9蛋白复合物促进Cas蛋白介导的对应于NASC-PC1/NASC-PC2/Cas9蛋白复合物的两个核酸靶结合序列的两个DNA靶序列的位点特异性切割。此外，每种NASC-PC1/NASC-PC2/Cas9蛋白复合物的位点特异性切割百分比基本上等同于两种sgRNA/Cas9蛋白复合物对相同两个 DNA靶序列的位点特异性切割，其中一种sgRNA/Cas9蛋白复合物在第一DNA靶序列处靶向切割，和第二种sgRNA/Cas9蛋白复合物在第二DNA靶序列处靶向切割(比较反应17与 18；19与20；21与22；以及23与24的百分比切割)。表16中呈现的数据还表明每种 NASC-PC1需要与互补的NASC-PC2配对，以便靶向相关Cas9蛋白的位点特异性切割(参见表16，反应9-16)；也就是说，NASC多核苷酸组合物的单个多核苷酸组分不能支持Cas蛋白介导的位点特异性切割。

根据本说明书和实施例的指导，本实施例中描述的生化切割测定法可以由本领域普通技术人员用其它NASC多核苷酸组合物和同源Cas蛋白(例如Cas9蛋白和Cpf1蛋白)实施。

实施例6

用于检测真核细胞中的靶序列修饰的深度测序分析

该实施例说明使用深度测序分析来评估和比较相对于选择的双链DNA靶序列，使用NASC 多核苷酸组合物/Cas蛋白复合物的细胞切割百分比。

A.基因组靶序列选择

两种靶核酸序列可以选自人类基因组中的外显子区域(例如X射线修复交叉互补5(XRCC5) 基因序列)。可以选择与PAM序列5'相邻的长度为20个核苷酸的核酸序列(例如酿脓链球菌 Cas9PAM5'-NGG)，例如，表17中呈现的XRCC5靶DNA序列。

表17

XRCC5靶DNA序列

B.NASC多核苷酸组合物的构建

可以使用包含NASC-PC1和NASC-PC2的NASC多核苷酸组合物。可以在NASC-PC1的5'端掺入对应于XRCC5T1的核酸靶结合序列，并且可以在NASC-PC2的5'端掺入对应于XRCC5T3的核酸靶结合序列。作为阳性对照，可以在sgRNA的5'端掺入对应于XRCC5T1 的核酸靶结合序列，并且可以在sgRNA的5'端掺入对应于XRCC5T3的核酸靶结合序列。 NASC-PC1、NASC-PC2和sgRNA可如实施例2中所述产生。表18中给出NASC-PC1、 NASC-PC2和sgRNA的序列的实例。

表18

sgRNA和NASC多核苷酸组分序列

*NASC-PC杂交区域加下划线

C.NASC/Cas9蛋白核蛋白复合物的形成

酿脓链球菌Cas9可以用两个核定位序列(NLS)在C末端加标签，并且可以在大肠杆菌中重组表达，使用色谱法纯化。可以以80pmol Cas9蛋白：120pmol NASC-PC1：120pmolsNASC-PC2的浓度形成核糖核蛋白复合物。对照sgRNA组分可以以类似的方式与Cas9蛋白单独组装成核糖核蛋白复合物。在与Cas9蛋白组装之前，NASC-PC1、NASC-PC2和 sgRNA可以以2μL的终体积稀释至所需浓度(120pmol)，在95℃孵育2分钟，从热循环仪中取出，并使其平衡至室温。Cas9蛋白可以在结合缓冲液(20mM HEPES，100mM KCl， 5mM MgCl₂和5％甘油，pH7.4)中稀释至适当浓度至3μL的终体积，并且可以与2μL的每种NASC-PC1、NASC-PC2和sgRNA混合，随后在37℃孵育30分钟。

D.使用NASC/Cas9核糖核蛋白复合物的细胞转染

使用

96-孔Shuttle System(Lonza,Allendale,NJ)遵循制造商的方案，可以将核糖核蛋白复合物转染到HEK293细胞(ATCC，Manassas VA)中。核糖核蛋白复合物可以5μL 终体积分配到96孔板的各个孔中，其中各孔含有在培养基中的HEK293细胞。细胞培养基可以从平板的孔中移出并且细胞可以用TrypLE^TM酶(Thermo Scientific，Wilmington，DE)脱离。悬浮的HEK293细胞可以通过以200×g离心3分钟沉淀，可以吸出TrypLE试剂，并且细胞可以用无钙和无镁的磷酸盐缓冲盐水(PBS)洗涤。可通过以200×g离心3分钟使细胞沉淀，吸出PBS，并将细胞沉淀重新悬浮于10mL不含钙和镁的PBS中。

可以使用

II自动细胞计数器(Life Technologies，Grand Island，NY)对细胞进行计数。可以将2.2×10⁷个细胞转移到1.5ml微量离心管中并沉淀。可以吸出PBS并将细胞重新悬浮于Nucleofector^TM SF溶液(Lonza,Allendale,NJ)中至1x 10⁷个细胞/mL的密度。可将20μL细胞悬浮液加入含有5μL核糖核蛋白复合物的每个单独孔中，并将来自每个孔的全部体积转移到96孔Nucleocuvette^TM Plate(Lonza,Allendale,NJ)的孔中。可以将板加载到 Nucleofector^TM 96-well Shuttle^TM (Lonza,Allendale,NJ)上，并且可以使用96-CM-130 Nucleofector^TM程序(Lonza,Allendale,NJ)对细胞进行核转染。核转染后，补充有10％胎牛血清 (FBS；Thermo Scientific,Wilmington,DE)、青霉素和链霉素(LifeTechnologies,Grand Island, NY)的70μL Dulbecco’s Modified Eagle Medium(DMEM；Thermo Scientific,Wilmington,DE) 可以加入到每个孔中，然后将50μL细胞悬浮液转移到含有150μL预热的DMEM完全培养基的96孔细胞培养板中。然后可以将平板转移到组织培养箱中并在37℃/5％CO₂下维持48小时。

E.用于深度测序的双链DNA靶序列的产生

每孔使用50μL QuickExtract DNA提取溶液(Epicentre，Madison，WI)转染核糖核蛋白复合物后48小时，可以从HEK293细胞中分离gDNA，然后在37℃孵育10分钟，65℃孵育6分钟和95℃孵育3分钟以终止反应。分离的gDNA可以用50μL无菌水稀释，样品可以储存在-80℃。

使用分离的gDNA，可以使用1x浓度的Q5 Hot Start High-Fidelity 2X MasterMix (New England Biolabs,Ipswich,MA)，各0.5μM的引物，3.75μL的gDNA，最终体积为10μL进行第一PCR，并如下扩增：98℃1分钟，35个循环的98℃10秒、60℃20秒、 72℃30秒，最后72℃延伸2分钟。可以设计引物以扩增XRCC5_T1区(例如SEQ ID NO. 47和SEQ ID NO.48)或XRCC5_T3(SEQ ID NO.49和SEQ ID NO.50)。从NASC- PC1/NASC-PC2/Cas9核转染样品和sgRNA/Ca9核转染样品中制备的gDNA可以分别用两种引物对扩增以评估核糖核蛋白对每个靶位点的编辑。每个PCR反应可以在水中1:100稀释。

可以使用每种样品的独特索引引物来设置“条形码编码”PCR以促进多重测序。这种引物对的实例显示在表19中。

表19

条形码编码引物

条形码编码PCR可使用1x浓度的Q5 Hot Start High-Fidelity 2X Master Mix(New England Biolabs,Ipswich,MA)，各0.5μM的引物(表19)，1μL的1:100稀释的第一PCR，以10μL 的终体积进行并且可以如下扩增：98℃1分钟；98℃10秒，60℃20秒，72℃30秒，12个循环；以及最终在72℃延伸2分钟。

F.SPRIselect清洗

可将所有条形码编码PCR反应合并并转移到单个微量离心(“扩增子文库”)管中，用于测序扩增子的基于SPRIselect珠的清洗(Beckman Coulter,Pasadena,CA)。

可以向每个管加入0.9x体积的SPRIselect珠，混合并在室温下孵育10分钟。可以将微量离心管置于磁力管架(Beckman Coulter,Pasadena,CA)直到溶液澄清。上清液可以去除并丢弃，残留的珠可以用1体积的85％乙醇洗涤，并在室温下孵育30秒。孵育后，可以抽吸乙醇，并且珠可以在室温下风干10分钟。每个微量离心管可以从磁力架上取下，并且可以将0.25x体积的Qiagen EB缓冲液(Qiagen,Venlo,Netherlands)加入珠中，剧烈混合，并在室温下孵育2分钟。每个微量离心管可以返回到磁体，孵育直至溶液澄清，然后将含有纯化的扩增子的上清液分配到干净的微量离心管中。可使用Nanodrop^TM 2000系统(ThermoScientific,Wilmington,DE)对纯化的扩增子文库进行定量并且可使用FragmentAnalyzer^TM系统 (Advanced Analytical Technologies,Ames,IA)和DNF-910双链DNA试剂盒(Advanced Analytical Technologies,Ames,IA)分析文库质量。

G.深度测序设置

从定量值和扩增子的平均大小计算，合并的扩增子文库可归一化至4nM浓度。可使用 MiSeq试剂盒v2(Illumina,San Diego,CA)在MiSeq测序仪(Illumina,San Diego,CA)上对扩增子文库进行300个循环的分析，其具有两个151循环配对末端运行加上两个八-循环索引读取。

H.深度测序数据分析

测序数据中产物的身份可基于适应于条形码编码PCR中扩增子的索引条形码序列来确定。可以使用计算脚本来处理执行例如以下任务的MiSeq数据：

·可以使用Bowtie(bowtie-bio.sourceforge.net/index.shtml)软件将读取与人类基因组对齐(构建 GRCh38/38))。

·对齐的读取可以与预期的野生型基因座区域(例如，XRCC5_T1或XRCC5_T3)进行比较。

·可以丢弃未与靶基因座的任何部分比对的基因座序列和读取。

·可以对匹配野生型靶基因座序列的读取计数。

·带有indel(碱基插入或缺失)的读取可以通过indel类型分类并计数。

·总的indel读取可以除以野生型读取和indel读取的总和以得到百分比突变读取。

通过鉴定NASC-PC1/NASC-PC2/Cas9蛋白核糖核蛋白复合物和sgRNA/Cas9蛋白核糖核蛋白复合物靶向区域的indel序列，可以确定人类细胞系中的序列特异性靶向。可以将NASC-PC1/NASC-PC2样品中的编辑与sgRNA对照的编辑效率进行比较。

根据本说明书和实施例的指导，基因组序列的细胞内编辑可以由本领域普通技术人员用其它Cas蛋白和它们的同源NASC多核苷酸组合物实施。

实施例7

crRNA的鉴定和筛选

在该实施例中，描述了可以鉴定具有2类CRISPR系统的物种的crRNA的方法。此处提供的方法改编自Chylinski,K.,et al.,RNA Biology 10(5):726-737(2013)。并非所有以下步骤都是筛选所必需的，并且步骤的顺序也不一定如所呈现的。

A.鉴定含有2类CRISPR基因座的物种

使用基本局部比对检索工具(BLAST,blast.ncbi.nlm.nih.gov/Blast.cgi)，可以进行各种物种的基因组检索以鉴定2类CRISPRCas核酸酶(例如Cas9蛋白、Cpf1蛋白、Cas9样蛋白、Cpf1样蛋白等)。2类CRISPR系统在各物种间表现出高度多样性，然而2类CRISPR核酸酶直向同源物具有保守结构域，例如HNH内切核酸酶结构域和/或RuvC/RNA酶H结构域。初步BLAST结果可以针对鉴定的结构域进行过滤，不完整或截短的序列可以被丢弃，并且可以鉴定具有2类CRISPR核酸酶直向同源物的物种。

如果可以在物种中鉴定2类CRISPR核酸酶直向同源物，则可以对与Cas蛋白直向同源物编码序列(例如，Cas9蛋白或Cpf1蛋白)相邻的序列探查其它Cas蛋白和相关重复间隔区阵列来鉴定属于CRISPR-Cas基因座的所有序列。这可以通过与其它已知的2类CRISPR 基因座进行比对来进行。

一旦可以鉴定物种的核酸酶直向同源物的2类CRISPR基因座的序列，就可以使用计算机预测筛选来提取crRNA序列。crRNA序列包含在CRISPR重复阵列内，并且可以通过其间隔有外源间隔区序列的标志性重复序列来鉴定。

B.RNA-Seq文库的制备

可以使用RNA测序(RNA-seq)进一步验证含有经计算机鉴定的单个crRNA的推定的CRISPR 阵列。

鉴定为包含推定crRNA的物种的细胞可以从商业保藏机构(例如ATCC,Manassas,VA； German Collection of Microorganisms and Cell Cultures GmbH(DSMZ),Braunschweig,Germany) 获得。

细胞可以生长至对数中期，使用Trizol试剂(SigmaAldrich,St.Louis,MO)制备总RNA 并用DNaseI(Fermentas,Vilnius,Lithuania)处理。

可以用Ribo-Zero rRNA去除试剂盒(Illumina,San Diego,CA)处理10μg的总RNA，并使用RNA Clean and Concentrators(Zymo Research,Irvine,CA)纯化剩余的RNA。

然后可使用TruSeq小RNA文库制备试剂盒(Illumina,San Diego,CA)按照制造商的说明书制备文库。这导致具有衔接子序列的cDNA。

可以使用MiSeq测序仪(Illumina,San Diego,CA)对得到的cDNA文库进行测序。

C.测序数据的处理

可以例如使用以下方法处理cDNA文库的测序读数。

可以使用cutadapt 1.1(pypi.python.org/pypi/cutadapt/1.1)去除衔接子序列，并且可以从读取的3'端修剪约15nt以提高读取质量。

可以使用Bowtie 2(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)将读取与各个物种的基因组(即，从中鉴定出推定的crRNA)进行比对。

由Bowtie2生成的序列比对/图谱(SAM)文件可以使用 SAMTools(samtools.sourceforge.net/)转换成二进制比对/图谱(BAM)文件以用于随后的测序分析步骤。

至一个或多个CRISPR基因座的读取覆盖作图可以使用 BedTools(bedtools.readthedocs.org/en/latest/)从BAM文件中计算。

可以将在前一步骤中生成的BED文件加载到Integrative Genomics Viewer(IGV；www.broadinstitute.org/igv/)以可视化测序读取堆积(pileup)。读取堆积可用于鉴定转录的推定 crRNA序列的5'和3'端。

RNA-seq数据可用于验证假定的crRNA元件序列在体内被活性转录。使用本文概述的方法(例如实施例2、3和5)，可以验证经计算机和RNA-seq筛选的比较确认的命中支持2类CRISPR核酸酶切割双链DNA靶核酸序列的功能能力。本领域已知，2类V型CRISPR 系统仅需要crRNA以促进双链DNA靶序列的Cpf1核酸酶切割，而2类II型CRISPR系统需要crRNA和同源tracrRNA以促进双链DNA靶序列的Cas9核酸酶切割。

根据本说明书和实施例的指导，本领域普通技术人员可以实施与Cas9蛋白相关的crRNA序列的鉴定。

实施例8

tracrRNA的鉴定和筛选

该实施例说明可以鉴定具有例如2类II型CRISPR-Cas9系统的物种的tracrRNA的方法。这改编自Chylinski,K.,et al.,RNA Biology 10(5):726-737(2013)。并非所有以下步骤都是筛选所必需的，并且步骤的顺序也不一定如所呈现的。

A.鉴定含有CRISPR-Cas9 II型系统的物种

使用基本局部比对检索工具(BLAST,blast.ncbi.nlm.nih.gov/Blast.cgi)，可以进行各种物种的基因组检索以鉴定Cas9蛋白。2类II型CRISPR-Cas9系统在各物种间表现出高度多样性，然而Cas9直向同源物显示中央HNH内切核酸酶结构域和分裂RuvC/RNA酶结构域的保守结构域结构。初步BLAST结果可以针对鉴定的结构域进行过滤，不完整或截短的序列可以被丢弃，并且可以鉴定Cas9直向同源物。

如果可以在物种中鉴定Cas9直向同源物，则可以探测与Cas9直向同源物编码序列相邻的序列中的其它Cas蛋白和Cas相关重复-间隔区阵列以鉴定属于CRISPR-Cas9基因座的所有序列。这可以通过与其它已知的2类II型CRISPR-Cas9基因座进行比对来进行，并且知道密切相关的物种表现出类似的CRISPR-Cas9基因座结构(例如Cas蛋白组成、大小、取向、阵列位置、tracrRNA位置等)。tracrRNA元件通常包含在2类II型CRISPR-Cas9基因座内，并且可以通过其与重复间隔区阵列中的重复元件的序列互补性容易地鉴定。与重复元件互补的tracr序列称为tracr抗重复序列。

一旦鉴定出物种的对应于Cas9直向同源物的CRISPR-Cas9基因座的序列，则可以使用计算机预测筛选提取tracr抗重复序列以鉴定Cas相关的tracrRNA。例如，可以如下筛选推定的抗重复序列。

如果重复序列来自已知物种，则重复序列可以在CRISPRdb数据库(crispr.u-psud.fr/crispr/)中鉴定和检索。如果重复序列不是来自已知物种，则可以使用CRISPRfinder 软件(crispr.u-psud.fr/Server/)使用上述物种的2类II型CRISPR-Cas9基因座预测重复序列。

物种的鉴定的重复序列可用于探测抗重复序列的CRISPR-Cas9基因座(例如，使用BLASTp算法等)。该检索通常限于CRISPR-Cas9基因座的基因间区域。

可以验证所鉴定的tracr抗重复区域与所鉴定的重复序列的互补性。

可以在推定的抗重复区域的5'和3'区中探测推定的抗重复区域的Rho非依赖性转录终止子(TransTerm HP,transterm.cbcb.umd.edu/)的存在情况。

通过将鉴定的包含抗重复元件的序列与Rho非依赖性转录终止子组合，可以确定该序列是给定物种的推定tracrRNA。

B.制备RNA-Seq文库

可以使用RNA测序(RNA-seq)进一步验证经计算机鉴定的推定tracrRNA。

来自包含推定的tracrRNA的物种的细胞可以从商业保藏机构(例如ATCC,Manassas VA；DSMZ,Braunschweig,Germany)获得。

C.测序数据的处理

可以例如使用以下方法处理cDNA文库的测序读数。

可以将在前一步骤中生成的BED文件加载到Integrative Genomics Viewer(IGV；www.broadinstitute.org/igv/)以可视化测序读取堆积(pileup)。读取堆积可用于鉴定转录的推定 tracrRNA序列的5'和3'端。

RNA-seq数据可用于验证假定的tracrRNA元件序列在体内被活性转录。使用本文概述的方法(例如实施例2、3和5)，可以验证经计算机和RNA-seq筛选的比较确认的命中的鉴定tracrRNA序列及其同源crRNA支持双链DNA靶序列的Cas9介导的切割的功能能力。

根据本说明书和实施例的指导，本领域普通技术人员可以实现与Cas9蛋白相关的tracrRNA序列的鉴定。

实施例9

用于检测真核细胞中的靶序列修饰的T7E1测定法

该实施例说明使用T7E1测定法来评估和比较相对于所选择的双链DNA靶序列，NASC/Cas9蛋白复合物(例如NASC-PC1/NASC-PC2/Cas9蛋白复合物)的体内切割百分比。

A.使用Cas多核苷酸组分的细胞转染

使用

96-孔Shuttle System(Lonza,Allendale,NJ)和以下方案，将NASC-PC1和 NASC-PC2转染到组成性表达酿脓链球菌Cas9(HEK293-Cas9)的HEK293细胞中。可以将 NASC-PC1和NASC-PC2分别稀释至适当浓度(例如120pmol)，混合在一起，在95℃孵育2 分钟，从热循环仪移出，使其平衡至室温，并分配到96孔板中的5μL终体积。可以从HEK293-Cas9细胞中吸出培养基，细胞可以用无钙和无镁的PBS洗涤一次，并且可以通过加入TrypLE(Life Technologies,Grand Island,NY)进行胰蛋白酶消化，随后在37℃孵育3-5分钟。可以轻轻上下来回吸取胰蛋白酶消化的细胞以形成单细胞悬浮液并加入到由含有10％胎牛血清(FBS；Thermo Scientific,Wilmington,DE)的DMEM培养基(LifeTechnologies, Grand Island,NY)构成的DMEM完全培养基中，并补充青霉素和链霉素(Life Technologies, Grand Island,NY)。

可以通过在200×g离心3分钟使细胞沉淀，可以吸出培养基，并且可以将细胞重新悬浮在PBS中。可以使用

II自动细胞计数器(Life Technologies,Grand Island,NY) 对细胞进行计数。可以将2.2×10⁷个细胞转移到1.5ml微量离心管中并沉淀。可以吸出PBS 并将细胞重新悬浮于Nucleofector^TM SF(Lonza,Allendale,NJ)溶液中至1x10⁷个细胞/mL的密度。可将20μL细胞悬浮液加入含有5μL NASC-PC1/NASC-PC2的单独孔中，并将整个体积转移至96-孔Nucleocuvette^TM Plate(Lonza,Allendale,NJ)的孔中。可将板加载到Nucleofector^TM 96-孔Shuttle^TM(Lonza,Allendale,NJ)上，并使用96-CM-130Nucleofector^TM程序 (Lonza,Allendale,NJ)对细胞进行核转染。核转染后，向每孔加入70μL DMEM完全培养基，并将50μL细胞悬浮液转移至含150μL预温DMEM完全培养基的胶原包被的96孔细胞培养板中。可以将平板转移到组织培养箱中，并在37℃/5％CO₂下保持48小时。

B.用于T7E1测定法的双链DNA靶序列的产生

用NASC-PC1/NASC-PC2转染后48小时，每孔使用50μL QuickExtract DNA提取溶液(Epicentre,Madison,WI)可以从HEK293-Cas9细胞中分离gDNA，随后在37℃孵育10分钟，65℃孵育6分钟和95℃孵育3分钟以终止反应。gDNA可以用150μL水稀释，样品可以储存在-80℃。

用于T7E1的DNA可通过PCR扩增来自分离的gDNA的双链DNA靶序列(例如 XRCC5_T1和XRCC5_T3)来产生。可以使用8μL gDNA作为模板用KAPA HiFi热启动聚合酶建立PCR反应，并且包含0.5U聚合酶、1x反应缓冲液、0.4mM dNTP和针对双链DNA 靶序列之一的300nM正向和反向引物(例如，SEQ ID NO.47/SEQ ID NO.48和SEQ ID NO. 49/SEQ ID NO.50)，总体积为25μL。DNA靶序列可使用以下条件扩增：95℃5分钟；4 个循环的98℃20秒、70℃20秒、-2℃/循环、72℃30秒；接着是30个循环的98℃ 15秒、62℃20秒、72℃20秒和在72℃最后延伸1分钟。

C.T7E1测定法

用于T7E1测定法的PCR-扩增的双链DNA靶序列可以在95℃变性10分钟，然后在热循环仪中通过以-0.5℃/秒冷却至25℃重新退火。可以将重新退火的DNA与0.5μL T7内切核酸酶I在1x NEBuffer2缓冲液(New England Biolabs,Ipswich,MA)中以15μL的总体积在37℃孵育25分钟。可以使用Fragment Analyzer^TM系统(Advanced Analytical Technologies,Ames,IA) 和DNF-910双链DNA试剂盒(Advanced Analytical Technologies,Ames,IA)分析T7E1反应。 Fragment Analyzer^TM系统提供切割后残留的每个切割片段和双链DNA靶序列的浓度。

双链DNA靶序列的切割百分比可以使用以下公式从每个切割片段和发生切割后剩余的双链DNA靶序列的浓度计算：

在公式1中，frag1和frag2浓度对应于双链DNA靶序列的Cas9切割片段的浓度，并且母体对应于发生切割后剩余的双链DNA靶序列。

用于检测真核细胞中的靶序列修饰的T7E1测定法提供数据，以证明本文所述的NASC多核苷酸组合物有助于多个双链DNA靶序列的Cas9介导的位点特异性体内切割。具有与NASC多核苷酸组合物相同的DNA靶结合序列的sgRNA、crRNA和/或 crRNA/tracrRNA多核苷酸也可包括在测定法中以比较构建体之间的Cas-介导的位点特异性切割百分比。

根据本说明书和实施例的指导，该实施例中描述的T7E1测定法可由本领域普通技术人员用其它Cas蛋白及其同源NASC多核苷酸组合物实施。

实施例10

探测耐受2类V型Cpf1引导RNA骨架中的修饰的位点

该实施例描述2类V型引导crRNA的各种修饰的产生和测试以及它们用于构建NASC多核苷酸组分的适宜性。下述方法改编自Briner,A.,et al.,Molecular Cell 56(2):333–339(2014)。并非所有以下步骤都是筛选所必需的，并且步骤的顺序也不一定如所呈现的。

在该实施例中，可以将修饰引入crRNA骨架中，并且用同源Cpf1核酸酶测试修饰的crRNA以便于鉴定Cpf1-crRNA骨架中的区域或位置，其中可以改造用于NASC多核苷酸组分的连接。

可以选择来自2类V型CRISPR系统(例如Acidaminococcus sp.Cpf1)的crRNA进行工程化。可以经计算机修饰crRNA序列以在选自以下一个或多个区域的区域中的核酸序列中引入一个或多个碱基取代、缺失或插入：假结的核酸序列5’、Cpf1-茎RNA序列1、假结环(环元件核酸序列)、Cpf1-茎RNA序列1C或间隔元件。

可以经计算机修饰crRNA序列以在选自以下的一个或多个区域中的磷酸二酯骨架中引入一个或多个断裂：假结的核酸序列5'、Cpf1-茎RNA序列1、假结环(环元件核酸序列)、Cpf1-茎RNA序列1C或间隔元件。

碱基修饰也可以用于在任何crRNA区域的氢碱基对相互作用中引入错配，或碱基对突变可用于通过两个碱基的取代引入替代的氢碱基对相互作用，其中所述替代的氢碱基对相互作用不同于原始氢碱基对相互作用(例如，原始的氢碱基对相互作用是沃森-克里克碱基配对，并且两个碱基的取代形成反向Hoogsteen碱基配对)。碱基的取代也可用于在crRNA骨架内引入氢碱基对相互作用(例如，在假结环序列内)。

crRNA的区域可以被独立地工程化以将二级结构元件引入crRNA骨架。这样的二级结构元件包括但不限于以下：茎环元件、茎元件、假结和核酶。此外，可通过在5'端、3'端或在crRNA内部缺失来修饰crRNA引导RNA骨架以缺失部分crRNA骨架。也可以引入替代的骨架结构。

计算机设计的crRNA序列可以提供给商业制造商用于合成。

可以评估修饰的crRNA支持切割由同源Cpf1蛋白介导的双链DNA靶序列至产生修饰的crRNA的crRNA的能力。双链DNA靶序列的扩增和生物化学切割测定法可以分别以类似于实施例4和实施例5中所述的方式进行。可以使用实施例6中描述的方法验证能够与其同源Cpf1蛋白介导DNA靶序列切割的修饰crRNA的细胞活性。

根据本说明书和实施例的指导，可以使用Cpf1 crRNA的修饰(例如引入或缺失各种序列，和/或引入或缺失二级结构修饰)来探测插入或连接的位置以促进制备NASC多核苷酸组合物。鉴于本说明书的教导，该实施例可以由本领域普通技术人员用其它V型CRISPRCpf1蛋白和其它V型CRISPR crRNA实施。

实施例11

探测2类II型Cas9引导RNA骨架中耐受修饰的位点

该实施例描述2类II型引导RNA的各种修饰的产生和测试及其用于构建NASC多核苷酸组合物的适用性。

在该实施例中，可以将修饰引入2类II型CRISPR引导RNA(例如双引导RNA或单引导RNA)的RNA骨架以鉴定用于改造或连接各种核酸序列的位置。下述方法改编自Briner, A.,et al.,Molecular Cell 56(2):333–339(2014)。并非所有以下步骤都是筛选所必需的，并且步骤的顺序也不一定如所呈现的。

可以选择2类II型CRISPR sgRNA、crRNA、tracrRNA或crRNA和tracrRNA(统称为“Cas9引导RNA”)进行工程化。

可以经计算机修饰Cas9引导RNA序列，以将一个或多个碱基取代、缺失或插入引入选自以下一个或多个的区域：核酸靶结合序列、下部茎核酸序列、凸起核酸序列、上部茎核酸序列、第一茎-环元件核酸序列、连结核酸序列、连接核酸序列和/或3’发夹。可以经计算机修饰Cas9引导RNA序列以在选自以下的一个或多个区域中的磷酸二酯骨架上引入一个或多个断裂：核酸靶结合序列、下部茎核酸序列、凸起核酸序列、上部茎核酸序列、第一茎-环元件核酸序列、连结核酸序列、连接核酸序列和3’发夹。

碱基修饰也可以用于在任何Cas9引导RNA区域的氢碱基对相互作用中引入错配。碱基对突变可用于通过两个碱基的取代引入替代的氢碱基对相互作用，其中所述替代的氢碱基对相互作用不同于原始氢碱基对相互作用(例如，原始的氢碱基对相互作用是沃森-克里克碱基配对，并且两个碱基的取代形成反向Hoogsteen碱基配对)。碱基的取代也可用于在 Cas9引导RNA骨架内引入氢碱基对相互作用(例如，在凸起序列内)。

Cas9引导RNA的区域可以被独立地工程化以将二级结构元件引入Cas9引导RNA骨架。这样的二级结构元件包括但不限于以下：茎环元件、茎元件、假结和核酶。此外，可通过在5'端、3'端或在Cas9引导RNA内部缺失来修饰Cas9引导RNA骨架以缺失部分Cas9 引导RNA骨架。也可以引入替代的骨架结构。

计算机设计的2类II型CRISPR Cas9引导RNA序列可以提供给商业制造商用于合成。

可以评估修饰的2类II型CRISPR Cas9引导RNA支持切割由同源Cas9蛋白介导的双链DNA靶序列至产生修饰的Cas9引导RNA的Cas9引导RNA的能力。双链DNA靶序列的扩增和生物化学切割测定法可以分别以类似于实施例4和实施例5中所述的方式进行。可以使用实施例6中描述的方法验证能够与其同源Cas9蛋白介导DNA靶序列切割的修饰Cas9引导RNA的细胞活性。

根据本说明书和实施例的指导，可以使用Cas9引导RNA的修饰(例如引入或缺失各种序列，和/或引入或缺失二级结构修饰)来探测插入或连接的位置以促进制备NASC多核苷酸组合物。鉴于本说明书的教导，该实施例可以由本领域普通技术人员用其它II型CRISPRCas9蛋白和其它II型CRISPR Cas9引导RNA实施。

实施例12

包含DNA靶结合序列的NASC多核苷酸组合物的筛选

该实施例说明使用本发明的NASC多核苷酸组合物修饰存在于人gDNA中的DNA靶序列并测量这些位点处的切割活性水平。

靶位点(DNA靶序列)可以首先从gDNA中选择。可以设计NASC多核苷酸组合物的各个组分以靶向选定的序列。可以进行测定法(例如，如实施例5中所述)以确定DNA靶序列切割的水平。

并非所有以下步骤都是每一筛选所必需的，步骤的顺序也不一定如所呈现的，并且筛选可以与其它实验结合，或构成更大实验的一部分。

A.从gDNA中选择DNA靶区域(DNA靶序列)

可以在选定的基因组区域内鉴定Cas蛋白(例如酿脓链球菌Cas9或酸性氨基酸球菌Cpf1)的 PAM序列(即，NGG、TTN等)。

与PAM序列5'相邻的一个或多个Cas9 DNA靶序列(长度为20个核苷酸)可以被鉴定和选择，或者与PAM序列3'相邻的一个或多个Cpf1 DNA靶序列(长度为20-24个核苷酸)可以被鉴定和选择。

用于选择核酸靶序列的标准可以包括但不限于以下：与基因组中其它区域的同源性、GC含量百分比、解链温度、间隔区内均聚物的存在、两个序列之间的距离以及本领域技术人员已知的其它标准。

如果需要使用II型CRISPR NASC多核苷酸组合物，则可以在5'端掺入DNA靶结合序列。如果需要使用V型CRISPR NASC多核苷酸组合物，则可以在3'端掺入DNA靶结合序列。商业制造商通常基于提供的序列合成NASC多核苷酸组合物。或者，NASC多核苷酸组合物可以如实施例2所述通过体外转录来生产。

如本文所述的NASC多核苷酸组合物可与同源2类II型CRISPR核酸酶(例如Cas9 核酸酶)、2类V型CRISPR核酸酶(例如Cpf1核酸酶)或同源2类II型CRISPR核酸酶和2 类V型CRISPR核酸酶两者一起使用以形成NASC/Cas蛋白复合物。

B.切割百分比和特异性的确定

与NASC多核苷酸组合物有关的体外切割百分比和特异性(例如，脱靶结合的量)可以例如使用实施例5中描述的切割测定法来确定，并且可以比较如下：

(1)如果对于NASC只可以鉴定或选择单个DNA靶序列对，则可以确定每个DNA靶序列的切割百分比和特异性。如果需要这样的话，可以在进一步的实验中使用包括但不限于以下的方法改变切割百分比和/或特异性：修饰NASC；或引入效应蛋白/效应蛋白结合序列以修饰 NASC、NASC多核苷酸组分或Cas蛋白；或引入配体/配体结合部分以修饰NASC多核苷酸或Cas蛋白。

(2)如果对于NASC可以鉴定或选择多对DNA靶序列，则可以在包含靶结合序列的不同DNA之间比较从切割测定法获得的百分比切割数据和位点特异性数据以鉴定具有期望的切割百分比和特异性的DNA靶序列。切割百分比数据和特异性数据为各种应用所基于的选择提供标准。例如，在一些情况下，NASC多核苷酸组合物的活性可能是最重要的因素。在其它情况下，切割位点的特异性可能比切割百分比相对更重要。如果需要这样的话，可以在进一步的实验中使用包括但不限于以下的方法改变切割百分比和/或特异性：修饰NASC；或引入效应蛋白/效应蛋白结合序列以修饰NASC、NASC多核苷酸组分或Cas蛋白；或引入配体/配体结合部分以修饰NASC多核苷酸组分或Cas蛋白。

或者或除体外分析外，可使用例如实施例6中所述的方法获得与NASC多核苷酸组合物相关的细胞内切割百分比和特异性，并且可如下比较：

(1)如果对于NASC只可以鉴定或选择单个DNA靶序列对，可以确定每个DNA靶序列的切割百分比和特异性。如果需要的话，可以在进一步的实验中使用包括但不限于以下的方法改变切割百分比和/或特异性：修饰NASC；或引入效应蛋白/效应蛋白结合序列以修饰NASC、NASC多核苷酸组分或Cas蛋白；或引入配体/配体结合部分以修饰NASC多核苷酸组分或Cas蛋白。

根据本说明书和实施例的指导，该实施例中描述的筛选可由本领域普通技术人员用其它NASC多核苷酸组合物实施，用于同源2类II型CRISPR Cas9蛋白、同源2类V型 CRISPRCpf1蛋白或同源2类II型CRISPR Cas9蛋白和同源2类V型CRISPR Cpf1蛋白两者。

实施例13

包含NASC多核苷酸组合物的核糖核蛋白闭笼复合物的工程化

该实施例说明本发明的NASC多核苷酸组合物用于形成包装小分子的NASC-CC闭笼复合物的用途。

例如，可使用第一NASC多核苷酸组合物和第二NASC多核苷酸组合物工程化 NASC-CC，各组合物具有图6H(图6H,I,NASC-PC1；图6H,II,NASC-PC2和图6H,III, NASC-PC-3)所示的一般结构。第一NASC多核苷酸组合物和第二NASC多核苷酸组合物可以与三种双链DNA序列联合使用。各双链DNA序列(“双链DNA支撑序列”)可包含两个独特的DNA靶序列，其中第一DNA靶序列与第一NASC多核苷酸组合物的第一核酸结合序列互补和第二DNA靶序列与第二NASC多核苷酸组合物的第二核酸结合序列互补。

NASC-CC和相关的Cas蛋白可用于创建适用于分子包装的闭笼复合物。通过改变NASC-CC组分的设计或通过结合不同长度的DNA靶序列可以改变笼的尺寸。

A.NASC-CC组分的设计

第一NASC多核苷酸组合物(在本实施例中称为“NASC-三链体1”)可工程化为包含NASC- PC1、NASC-PC2和NASC-PC3，其在结构上类似于图6A中描述的那些(在本实施例中称为“NASC-PC1-三链体1,”“NASC-PC2-三链体1,”和“NASC-PC3-三链体1”)。第一20- 核苷酸DNA靶序列可以添加至NASC-PC1-三链体1、NASC-PC2-三链体1和NASC-PC3-三链体1各自的5’端(参见例如图6A,610-611)。通常将选择DNA靶序列以使其与待导入 NASC-CC的生物体中的天然DNA序列(例如人gDNA或植物gDNA)不具有同源性或具有有限的同源性。

第二NASC多核苷酸组合物(在本实施例中称为“NASC-三链体2”)可工程化为包含NASC-PC1-三链体2、NASC-PC2-三链体2和NASC-PC3-三链体2，其在结构上类似于图 6A中描述的那些。第二20-核苷酸DNA靶序列可以添加至NASC-PC1-三链体2、NASC- PC2-三链体2和NASC-PC3-三链体2各自的5’端(参见例如图6A,610-611)。通常将选择 DNA靶序列以使其与待导入NASC-CC的生物体中的天然DNA序列(例如人gDNA或植物 gDNA)不具有同源性或具有有限的同源性。此外，20-核苷酸DNA靶序列应与NASC-三链体1中工程化的DNA靶序列不同(即不互补)。

NASC-三链体1和NASC-三链体2的示例性组分在表20中呈现。在该表中，“靶序列”栏指示与相应NASC多核苷酸组分中的核酸靶结合序列互补的20bp DNA靶序列。

表20

NASC-三链体1和NASC-三链体2组分

*NASC-三链体杂交区域加下划线

可以工程化双链DNA支撑序列以在5'至3'方向在5'端掺入20个核苷酸的随机序列、靶序列 1、空肠弯曲杆菌PAM序列5'-NNNACA-3'(其中“N”是任何核苷酸)、50个核苷酸的随机序列、空肠弯曲杆菌PAM序列的反向互补序列、靶序列2的反向互补序列以及在3'端的20 个核苷酸的随机化序列。当与NASC-PC1-三链体1和NASC-PC1-TRP2结合时，双链DNA 支撑序列可被空肠弯曲杆菌dCas9蛋白靶向，并将使两种NASC彼此接近。双链DNA支撑序列的序列可以提供给商业制造商用于合成双链DNA。或者，可以使用单链DNA寡核苷酸构建双链DNA支撑序列的序列，与实施例2中呈现的双链DNA模板的构建相似。

表21中显示了双链DNA支撑序列的说明性序列。

表21双链DNA支撑序列

*靶和PAM序列用粗体表示

B.空肠弯曲杆菌dCas9蛋白的工程化和生产

空肠弯曲杆菌(例如空肠弯曲杆菌NCTC 1168；SEQ ID NO.103)Cas9氨基酸序列可从氨基酸 8位的天冬氨酸突变为丙氨酸(D8A)，559位的组氨酸突变为丙氨酸(D8A/H559A)以产生核酸酶失活形式的空肠弯曲杆菌Cas9蛋白(空肠弯曲杆菌dCas9蛋白；SEQ IDNO.56)。空肠弯曲杆菌dCas9蛋白仍然能够结合NASC-三链体1。三种空肠弯曲杆菌dCas9蛋白能够与 NASC-三链体1结合并引导NASC-三链体1结合与其中的核酸靶结合序列互补的靶序列。空肠弯曲杆菌dCas9蛋白可以在C-末端用两个核定位序列(NLS)加标签，并且可以在大肠杆菌中重组表达并使用色谱方法纯化。

C.NCSC-CC的形成

NASC-三链体1可如下形成：以等摩尔浓度混合NASC-PC1-三链体1、NASC-PC2-三链体1 和NASC-PC3-三链体1(表20)，在95℃孵育2分钟，在热循环仪中以-0.5℃/秒冷却至25℃而退火，然后使混合物平衡至室温。NASC-三链体2可如下形成：以等摩尔浓度混合 NASC-PC1-三链体2、NASC-PC2-三链体2和NASC-PC3-三链体2(表20)，在95℃孵育2 分钟，在热循环仪中以-0.5℃/秒冷却至25℃而退火，然后使混合物平衡至室温。

核糖核蛋白闭笼复合物可以通过在结合缓冲液(20mM HEPES,100mM KCl,5mMMgCl₂和5％甘油，pH7.4)中过量浓度的空肠弯曲杆菌dCas9蛋白存在下混合NASC-三链体 1和在37℃孵育20分钟而形成。双链DNA支撑序列可以以限制浓度添加到包含NASC-三链体1/dCas9蛋白复合物的混合物中，并在37℃孵育20分钟。可以将NASC-三链体2以 NASC-三链体1的等同浓度添加到NASC-三链体1/dCas9蛋白/双链DNA支撑序列的混合物中。该混合物可以在37℃孵育1小时。NASC-三链体1/dCas9蛋白/双链DNA支撑序列 /NASC-三链体2/dCas9蛋白闭笼复合物可以在-80℃冷冻以用于长期储存。

图6L示出潜在的核酸支架结构(NASC-CC)的实例，为了清楚起见省略了Cas蛋白。NASC-三链体1和NASC-三链体2是该图中对应于图6G所示结构的结构。该图中的虚线表示由NASC-三链体1和NASC-三链体2之间的双链DNA支撑序列产生的连接类型。图6M 示出与dCas9蛋白复合的NASC-CC。在该图中，dCas9蛋白由灰色圆圈表示。

根据本说明书和实施例的指导，其它NASC-CC核糖核蛋白闭笼复合物(例如，包含本文所述的NASC组合物的各种组合)的制剂可以由本领域普通技术人员用其它NASC组合物和同源Cas蛋白实施。

实施例14

NASC核糖核蛋白闭笼复合物的结构分析

以下实施例描述NASC-CC/dCas蛋白闭笼复合物的表征，以验证适当的组装并评估组装的 NASC-CC/dCas蛋白复合物的大小和体积。下述方法改编自Andersen,F.,et al.,Nucleic Acids Research 36(4):1113-1119(2008)和Lapinaite,A.,et al.,Nature 502(7472):519–523(2013)。并非所有以下步骤都是筛选所必需的，并且步骤的顺序也不一定如所呈现的。

A.NASC-CC/dCas蛋白复合物的电泳迁移率变动测定法

NASC-CC/dCas蛋白复合物可如实施例13中所述进行配制，经修饰使得可使用放射性标记的双链DNA支撑序列。可通过制备下列反应混合物来放射性标记双链DNA支撑序列：在 T4多核苷酸激酶(New England Biolabs,Ipswich,MA),γ -(³²P)ATP(Promega,Madison,WI)存在下的双链DNA支撑序列和1XT4多核苷酸激酶反应缓冲液。可以孵育反应混合物，然后在65℃加热灭活20分钟。使用Illustra MicroSpin G-25柱(GE Healthcare,Pittsburgh,PA)可以纯化放射性标记的DNA。

或者，可以以类似的方式对一种或多种NASC-CC组分进行放射性标记。

放射性标记的NASC-CC/dCas9蛋白复合物可以等分成10μL体积，并通过在含有 1XTris/硼酸盐/EDTA缓冲液(90mM Tris,90mM硼酸,2mM EDTA，pH 8.3)和5mM MgCl₂的 8％天然聚丙烯酰胺凝胶中电泳在4℃解析。随后可以使用PMI^TM系统(Bio-Rad Laboratories,Hercules,CA)将凝胶干燥并成像。NASC-CC(例如NASC-PC1-三链体1、NASC-PC2-三链体 1、NASC-PC3-三链体1、NASC-PC1-三链体2、NASC-PC2-三链体2、NASC-PC3-三链体 2、双链DNA支撑序列和/或与dCas9蛋白复合的各个组分)的各个多核苷酸组分可用作比较对照以鉴定完全形成的NASC-CC/dCas9蛋白复合物的电泳迁移率变动。

B.NASC-CC/dCas9蛋白复合物的小角度X射线散射

实施例13中描述的NASC-CC/dCas9蛋白复合物可以在4℃在20mM HEPES,100mMKCl, 5mM MgCl₂和5％甘油，pH 7.4的缓冲液中透析。可以在终体积40μL中使用1mg/mL-5mg/mL的浓度系列将NASC-CC/dCas9蛋白复合物的透析制备物分配至96孔板的孔中。

小角度X射线散射(SAXS)测量可以在例如Advanced Light Source(Berkeley,CA)的服务提供商处，使用用于生命科学的结构整合生物学(Structurally IntegratedBiologY for Life Sciences,SIBYLS)束线，用Mar165CCD检测器收集。数据可以以多帧的形式收集，曝光时间范围为0.5秒至10秒，检测器距离为1.5米-5米。可针对对样品的最小辐射损伤以及最佳的信噪比，评估最佳收集条件。类似地，束线千电子伏特(keV)能量可以在7keV至15keV 范围内调整。仅缓冲器对照可以用作背景并从测量中减去。

数据处理和分析可以使用标准束线软件和PRIMUS(Konarev,P.,et al.,Journalof Applied Crystallography 36:1277-1282(2003))进行。可以使用SAXS分析程序，例如开源软件套件(例如ATSAS 2.7.2,Petoukhov,M.,et al.,Journal of AppliedCrystallography 45:342–350 (2012))来执行数据建模。不同核苷酸结合状态下的Cas9蛋白和单引导RNA的原子坐标(例如，仅sgRNA、sgRNA加靶链、sgRNA加靶和非靶链)以及结构(例如核酸酶、蛋白、双链 DNA和RNA)可从Protein Database(PDB,www.rcsb.org/pdb/home/home.do)或Electron Microscopy Data Bank(EMDB,www.ebi.ac.uk/pdbe/emdb/)获得。这些原子坐标可用于通过建模与SAXS数据组合来计算NASC-CC/dCas9蛋白复合物的内部体积、孔径和闭笼尺寸。

NASC-CC/dCas9蛋白复合物可以根据生物分子、蛋白或其它有效负载的包装和递送的需要而被修饰以增加或减少内部体积、孔径或闭笼尺寸。这样的修饰可以包括但不限于延长或缩短第一茎元件核酸序列(图6A,608-609；图6H,623-624/658-657,626-625/627-628,652- 651/655-646)和/或双链DNA支撑序列(表21)。

根据本说明书和实施例的指导，NASC-CC/Cas蛋白复合物的结构特征(包括内部体积、孔径和闭笼尺寸)的分析可由本领域普通技术人员实施。

对于本领域技术人员显而易见的是，在不脱离本发明的精神和范围的情况下，可以对上述实施方案进行各种修改和变化。这样的修改和变化在本发明的范围内。

Claims

1.形成支架的两种或更多种工程化核酸序列的组合物(“NASC”)，所述NASC组合物包含：

第一工程化核酸组分(“NASC-PC1”)，其在5'至3'方向包含，

包含核酸靶结合序列1的间隔元件1，

包含重复核酸序列1的重复元件1，和

包含双链核酸结合蛋白结合序列1的核酸结合蛋白结合元件1，

其中间隔元件1与重复元件1共价连接，并且重复元件1与核酸结合蛋白结合元件1共价连接；和

第二工程化核酸组分(“NASC-PC2”)，其在5'至3'方向包含

包含核酸靶结合序列2的间隔元件2，

包含重复核酸序列1C的重复元件2，和

包含双链核酸结合蛋白结合序列2的核酸结合蛋白结合元件2，

其中间隔元件2与重复元件2共价连接，并且重复元件2与核酸结合蛋白结合元件2共价连接；

其中在重复核酸序列1和重复核酸序列1C之间通过氢键键合的碱基对存在连接，所述连接形成NASC组合物，并且NASC组合物能够结合第一2类II型CRISPR-Cas9蛋白和第二2类II型CRISPR-Cas9蛋白。

2.权利要求1的NASC组合物，其中所述第一2类II型CRISPR-Cas9蛋白和所述第二2类II型CRISPR-Cas9蛋白是相同的2类II型CRISPR-Cas9蛋白；或者其中所述第一2类II型CRISPR-Cas9蛋白和所述第二2类II型CRISPR-Cas9蛋白是直向同源的2类II型CRISPR-Cas9蛋白。

3.权利要求1或2任一项的NASC组合物，其中

所述间隔元件1还包含核酸靶结合序列1的3'和重复元件1的5'的接头元件核酸序列；和

所述间隔元件2还包含核酸靶结合序列2的3'和重复元件2的5'的接头元件核酸序列。

4.权利要求3的NASC组合物，其中

所述重复元件1在5'至3'方向还包含重复核酸序列1b、接头元件核酸序列1-2和重复核酸序列1a；和

所述重复元件2在5'至3'方向还包含重复核酸序列1aC、接头元件核酸序列2-2、和重复核酸序列1bC；

其中所述重复核酸序列1b和所述重复核酸序列1bC通过氢键键合的碱基对连接，并且所述重复核酸序列1a和所述重复核酸序列1aC通过氢键键合的碱基对连接。

5.权利要求4的NASC组合物，其中

重复核酸序列1b在5'至3'方向还包含，

重复核酸序列1b2，

凸起核酸序列1b1，和

重复核酸序列1b1；

重复核酸序列1a在5'至3'方向还包含，

重复核酸序列1a2，

凸起核酸序列1a1，和

重复核酸序列1a1；

重复核酸序列1aC在5'至3'方向还包含，

重复核酸序列1a1C，

凸起核酸序列2a2，和

重复核酸序列1a2C；和

重复核酸序列1bC在5'至3'方向还包含，

重复核酸序列1b1C，

凸起核酸序列2b2，和

重复核酸序列1b2C；

其中所述重复核酸序列1a1和所述重复核酸序列1a1C通过氢键键合的碱基对连接，所述重复核酸序列1a2和所述重复核酸序列1a2C通过氢键键合的碱基对连接，所述重复核酸序列1b1和所述重复核酸序列1b1C通过氢键键合的碱基对连接，和所述重复核酸序列1b2和所述重复核酸序列1b2C通过氢键键合的碱基对连接。

6.权利要求5的NASC组合物，其中

接头元件核酸序列1-2在5'至3'方向还包含，

接头元件核酸序列1-2-2，

重复核酸序列1-2a，和

接头元件核酸序列1-2-1；

接头元件核酸序列2-2在5'至3'方向还包含，

接头元件核酸序列2-2-1

重复核酸序列1-2aC，和

接头元件核酸序列2-2-2；

其中所述重复核酸序列1-2a和所述重复核酸序列1-2aC通过氢键键合的碱基对连接并形成双链核酸区1-2。

7.权利要求6的NASC组合物，其中

双链核酸区1-2还包含效应蛋白结合位点；

重复核酸序列1-2a还包含效应蛋白结合位点核酸序列1-2a；和

重复核酸序列1-2ac还包含效应蛋白结合位点核酸序列1-2aC；

其中效应结合位点通过效应蛋白结合位点核酸序列1-2a和效应蛋白结合位点核酸序列1-2aC之间的碱基对氢键键合形成。

8.权利要求7的NASC组合物，其中所述效应蛋白结合位点是Csy4蛋白结合位点。

9.权利要求1-8中任一项的NASC组合物，其中

重复核酸序列1还包含亲和标签1；和

重复核酸序列1C还包含亲和标签2；

其中亲和标签1与亲和标签2连接。

10.权利要求9的NASC组合物，其中所述NASC-PC1包含RNA、DNA、或RNA和DNA；和/或其中所述NASC-PC2包含RNA、DNA、或RNA和DNA。

11.权利要求10的NASC组合物，其中所述NASC-PC2包含RNA和DNA。

12.前述权利要求中任一项的NASC组合物，进一步包含供体多核苷酸。

13.核酸/蛋白组合物，包含：

前述权利要求中任一项的NASC组合物；和

第一2类II型CRISPR-Cas9蛋白和第二2类II型CRISPR-Cas9蛋白。

14.权利要求13的核酸/蛋白组合物，其中第一2类II型CRISPR-Cas9蛋白与第二2类II型CRISPR-Cas9蛋白相同，和第一2类II型CRISPR-Cas9蛋白和第二2类II型CRISPR-Cas9蛋白选自酿脓链球菌(Streptococcus pyogenes)Cas9蛋白、嗜热链球菌(Streptococcusthermophilus)Cas9蛋白、金黄色葡萄球菌(Staphylococcus aureus)Cas9蛋白和空肠弯曲杆菌(Campylobacter jejuni)Cas9蛋白。

15.权利要求13的核酸/蛋白组合物，其中第一2类II型CRISPR-Cas9蛋白不同于第二2类II型CRISPR-Cas9蛋白，和第一2类II型CRISPR-Cas9蛋白和第二2类II型CRISPR-Cas9蛋白选自酿脓链球菌Cas9蛋白、嗜热链球菌Cas9蛋白、金黄色葡萄球菌Cas9蛋白和空肠弯曲杆菌Cas9蛋白。

16.权利要求14或15的核酸/蛋白组合物，其中第一2类II型CRISPR-Cas9蛋白和第二2类II型CRISPR-Cas9蛋白分别选自Cas9蛋白/Cas9蛋白、Cas9蛋白/dCas9蛋白、dCas9蛋白/Cas9蛋白和dCas9蛋白/dCas9蛋白。

17.试剂盒，包含：

权利要求1-12中任一项的NASC组合物，或编码权利要求1-12中任一项的NASC组合物的一种或多种核酸序列；和

缓冲液。

18.权利要求17的试剂盒，还包含一种或多种2类II型CRISPR-Cas9蛋白或编码所述一种或多种2类II型CRISPR-Cas9蛋白的一种或多种核酸序列。

19.权利要求17的试剂盒，还包含核蛋白复合物，所述核蛋白复合物包含NASC组合物和一种或多种2类II型CRISPR-Cas9蛋白。