CN105980575A

CN105980575A - 以核酸为靶的核酸的组合物和方法

Info

Publication number: CN105980575A
Application number: CN201480028062.1A
Authority: CN
Inventors: A.P.梅; R.E.豪尔维茨; J.A.多纳; J.M.伯格; M.M.卡特; P.多诺赫
Original assignee: Caribou Biosciences Inc
Current assignee: Caribou Biosciences Inc
Priority date: 2013-03-14
Filing date: 2014-03-12
Publication date: 2016-09-28
Also published as: US20160046949A1; US20160319349A1; MX374090B; BR112015022061B1; JP7008850B2; EP3620534B1; EP2971167A4; US20160046978A1; US20180237770A1; MX2015013057A; AU2017200138A1; US20240167023A1; CA2905432A1; US9725714B2; US20140315985A1; KR20170108172A; DK3620534T3; EP3620534A1; RU2018122288A3; US20160046962A1

Abstract

本公开提供以核酸为靶的核酸及其复合体的组合物和使用方法。基因组工程学可提到通过缺失、插入、突变或置换特定的核酸序列来改变基因组。该改变可以是基因或位置特异性的。基因组工程学可利用核酸酶切割核酸，由此生成供改变的位点。也设想了非基因组核酸的工程学。

Description

以核酸为靶的核酸的组合物和方法

交叉引用

本申请要求2013年5月1日提交的美国临时申请No.61/818,386[代理人案号No.44287-710.101]、2013年11月11日提交的美国临时申请No.61/902,723[代理人案号No.44287-710.103]、2013年5月1日提交的美国临时申请No.61/818,382[代理人案号No.44287-712.101]、2013年7月29日提交的美国临时申请No.61/859,661[代理人案号No.44287-712.102]、2013年7月26日提交的美国临时申请No.61/858,767[代理人案号No.44287-713.102]、2013年5月10日提交的美国临时申请No.61/822,002[代理人案号No.44287-717.101]、2013年6月7日提交的美国临时申请No.61/832,690[代理人案号No.44287-719.101]、2013年11月19日提交的美国临时申请No.61/906,211[代理人案号No.44287-719.102]、2013年11月5日提交的美国临时申请No.61/900,311[代理人案号No.44287-719.103]、2013年7月12日提交的美国临时申请No.61/845,714[代理人案号No.44287-721.101]、2013年9月27日提交的美国临时申请No.61/883,804[代理人案号No.44287-721.102]、2013年3月14日提交的美国临时申请No.61/781,598[代理人案号No.44287-722.101]、2013年11月4日提交的美国临时申请No.61/899,712[代理人案号No.44287-727.101]、2013年8月14日提交的美国临时申请No.61/865,743[代理人案号No.44287-733.101]、2013年11月22日提交的美国临时申请No.61/907,777[代理人案号No.44287-734.101]、2013年11月12日提交的美国临时申请No.61/903,232[代理人案号No.44287-751.101]、2013年11月19日提交的美国临时申请No.61/906,335[代理人案号No.44287-752.101]、2013年11月21日提交的美国临时申请No.61/907,216[代理人案号No.44287-753.101]的权益，它们的整个内容经此引用并入本文。

序列表

本申请包含已经以ASCII格式电子提交并全文经此引用并入本文的序列表。在2014年3月10日创建的所述ASCII副本名为44287-722-601_SeqList且大小为7,828,964字节。

发明背景

基因组工程学可提到通过缺失、插入、突变或置换特定的核酸序列来改变基因组。该改变可以是基因或位置特异性的。基因组工程学可利用核酸酶切断核酸，由此生成供改变的位点。也设想了非基因组核酸的工程学。含核酸酶结构域的蛋白可通过与以核酸为靶的核酸(nucleic acid-targeting nucleic acids)形成复合体来结合和裂解靶核酸。在一个实例中，该裂解可以在靶核酸中引入双链断裂。可以例如通过内源性非同源末端连接(NHEJ)机制修复核酸。在另一实例中，可以插入一段核酸。以核酸为靶的核酸和定点多肽的N修饰(NModifications)可以引入用于基因组工程改造的新功能。

发明概述

一方面，本公开提供一种工程改造的以核酸为靶的核酸，其包含：在所述以核酸为靶的核酸的P-结构域中的突变。在一些实施方案中，所述P-结构域在所述以核酸为靶的核酸的CRISPR重复片段(repeat)与tracrRNA序列之间的双链体的最后一对核苷酸的下游开始。在一些实施方案中，所述工程改造的以核酸为靶的核酸进一步包含接头序列。在一些实施方案中，所述接头序列连接CRISPR重复片段和tracrRNA序列。在一些实施方案中，所述工程改造的以核酸为靶的核酸是分离的工程改造的以核酸为靶的核酸。在一些实施方案中，所述工程改造的以核酸为靶的核酸是重组的工程改造的以核酸为靶的核酸。在一些实施方案中，所述工程改造的以核酸为靶的核酸适合与靶核酸杂交。在一些实施方案中，所述P-结构域包含2个相邻核苷酸。在一些实施方案中，所述P-结构域包含3个相邻核苷酸。在一些实施方案中，所述P-结构域包含4个相邻核苷酸。在一些实施方案中，所述P-结构域包含5个相邻核苷酸。在一些实施方案中，所述P-结构域包含6个或更多个相邻核苷酸。在一些实施方案中，所述P-结构域在所述双链体的最后一对核苷酸下游1个核苷酸处开始。在一些实施方案中，所述P-结构域在所述双链体的最后一对核苷酸下游2个核苷酸处开始。在一些实施方案中，所述P-结构域在所述双链体的最后一对核苷酸下游3个核苷酸处开始。在一些实施方案中，所述P-结构域在所述双链体的最后一对核苷酸下游4个核苷酸处开始。在一些实施方案中，所述P-结构域在所述双链体的最后一对核苷酸下游5个核苷酸处开始。在一些实施方案中，所述P-结构域在所述双链体的最后一对核苷酸下游6个或更多个核苷酸处开始。在一些实施方案中，所述突变包含一个或多个突变。在一些实施方案中，所述一个或多个突变彼此相邻。在一些实施方案中，所述一个或多个突变彼此隔开。在一些实施方案中，所述突变适于使所述工程改造的以核酸为靶的核酸与不同的前间区序列邻近基序(protospaceradjacent motif)杂交。在一些实施方案中，所述不同的前间区序列邻近基序包含至少4个核苷酸。在一些实施方案中，所述不同的前间区序列邻近基序包含至少5个核苷酸。在一些实施方案中，所述不同的前间区序列邻近基序包含至少6个核苷酸。在一些实施方案中，所述不同的前间区序列邻近基序包含至少7个或更多个核苷酸。在一些实施方案中，所述不同的前间区序列邻近基序包含两个不相邻区。在一些实施方案中，所述不同的前间区序列邻近基序包含三个不相邻区。在一些实施方案中，所述突变适于使所述工程改造的以核酸为靶的核酸以比未工程改造的以核酸为靶的核酸低的解离常数与靶核酸结合。在一些实施方案中，所述突变适于使所述工程改造的以核酸为靶的核酸以比未工程改造的以核酸为靶的核酸高的特异性与靶核酸结合。在一些实施方案中，与未工程改造的以核酸为靶的核酸相比所述突变适于减少所述工程改造的以核酸为靶的核酸与靶核酸中的非特异性序列的结合。在一些实施方案中，所述工程改造的以核酸为靶的核酸进一步包含两个发夹结构，其中这两个发夹结构之一包含在6个邻接核苷酸中包含与CRISPR RNA的至少50％同一性的多核苷酸和在6个邻接核苷酸中包含与tracrRNA的至少50％同一性的多核苷酸之间的双链体；并且，其中这两个发夹结构之一是第一个发夹结构的3’，其中第二个发夹结构包含工程改造的P-结构域。在一些实施方案中，第二个发夹结构适于在所述核酸与靶核酸接触时解双链。在一些实施方案中，所述P-结构域适于：与第一多核苷酸杂交，其中第一多核苷酸包含所述工程改造的以核酸为靶的核酸的区域，与第二多核苷酸杂交，其中第二多核苷酸包含靶核酸，和与第一或第二多核苷酸特异性地杂交。在一些实施方案中，第一多核苷酸在6个邻接核苷酸中包含与tracrRNA的至少50％同一性。在一些实施方案中，第一多核苷酸位于在6个邻接核苷酸中包含与CRISPR重复片段的至少50％同一性的多核苷酸和在6个邻接核苷酸中包含与tracrRNA序列的至少50％同一性的多核苷酸之间的双链体下游。在一些实施方案中，所述第二多核苷酸包含前间区序列邻近基序。在一些实施方案中，所述工程改造的以核酸为靶的核酸适于与定点多肽结合。在一些实施方案中，所述突变包含将一个或多个核苷酸插入P-结构域。在一些实施方案中，所述突变包含从P-结构域中缺失一个或多个核苷酸。在一些实施方案中，所述突变包含一个或多个核苷酸的突变。在一些实施方案中，所述突变经构造以允许所述以核酸为靶的核酸与不同的前间区序列邻近基序杂交。在一些实施方案中，所述不同的前间区序列邻近基序包含选自如下的前间区序列邻近基序：5’-NGGNG-3'、5’-NNAAAAW-3’、5’-NNNNGATT-3’、5’-GNNNCNNA-3’和5’-NNNACA-3’或它们的任何组合。在一些实施方案中，所述突变经构造以使所述工程改造的以核酸为靶的核酸以比未工程改造的以核酸为靶的核酸低的解离常数结合。在一些实施方案中，所述突变经构造以使所述工程改造的以核酸为靶的核酸以比未工程改造的以核酸为靶的核酸高的特异性结合。在一些实施方案中，所述突变经构造以与未工程改造的以核酸为靶的核酸相比降低所述工程改造的以核酸为靶的核酸与靶核酸中的非特异性序列的结合。

一方面，本公开提供一种修饰靶核酸的方法，其包括使靶核酸与工程改造的以核酸为靶的核酸接触，所述工程改造的以核酸为靶的核酸包含：在所述以核酸为靶的核酸的P-结构域中的突变，和修饰所述靶核酸。在一些实施方案中，所述方法进一步包括将供体多核苷酸插入靶核酸中。在一些实施方案中，所述修饰包括裂解靶核酸。在一些实施方案中，所述修饰包括修饰靶核酸的转录。

一方面，本公开提供包含编码工程改造的以核酸为靶的核酸的多核苷酸序列的载体，所述工程改造的以核酸为靶的核酸包含：在所述以核酸为靶的核酸的P-结构域中的突变。

一方面，本公开提供一种试剂盒，其包含：工程改造的以核酸为靶的核酸，其包含：在所述以核酸为靶的核酸的P-结构域中的突变；和缓冲液。在一些实施方案中，所述试剂盒进一步包含定点多肽。在一些实施方案中，所述试剂盒进一步包含供体多核苷酸。在一些实施方案中，所述试剂盒进一步包含使用说明书。

一方面，本公开提供一种工程改造的以核酸为靶的核酸，其包含：在以核酸为靶的核酸的突起区中的突变。在一些实施方案中，所述突起位于所述以核酸为靶的核酸的CRISPR重复片段和tracrRNA序列之间的双链体内。在一些实施方案中，所述工程改造的以核酸为靶的核酸进一步包含接头序列。在一些实施方案中，所述接头序列连接CRISPR重复片段和tracrRNA序列。在一些实施方案中，所述工程改造的以核酸为靶的核酸是分离的工程改造的以核酸为靶的核酸。在一些实施方案中，所述工程改造的以核酸为靶的核酸是重组的工程改造的以核酸为靶的核酸。在一些实施方案中，所述突起包含在CRISPR重复片段上的至少1个不成对核苷酸和在tracrRNA序列上的1个不成对核苷酸。在一些实施方案中，所述突起包含在CRISPR重复片段上的至少1个不成对核苷酸和在tracrRNA序列上的至少2个不成对核苷酸。在一些实施方案中，所述突起包含在CRISPR重复片段上的至少1个不成对核苷酸和在tracrRNA序列上的至少3个不成对核苷酸。在一些实施方案中，所述突起包含在CRISPR重复片段上的至少1个不成对核苷酸和在tracrRNA序列上的至少4个不成对核苷酸。在一些实施方案中，所述突起包含在CRISPR重复片段上的至少1个不成对核苷酸和在tracrRNA序列上的至少5个不成对核苷酸。在一些实施方案中，所述突起包含在CRISPR重复片段上的至少2个不成对核苷酸和在tracrRNA序列上的1个不成对核苷酸。在一些实施方案中，所述突起包含在CRISPR重复片段上的至少3个不成对核苷酸和在tracrRNA序列上的至少2个不成对核苷酸。在一些实施方案中，所述突起包含在CRISPR重复片段上的至少4个不成对核苷酸和在tracrRNA序列上的至少3个不成对核苷酸。在一些实施方案中，所述突起包含在CRISPR重复片段上的至少5个不成对核苷酸和在tracrRNA序列上的至少4个不成对核苷酸。在一些实施方案中，所述突起包含适合与tracrRNA序列上的至少一个核苷酸形成摆动配对的在CRISPR重复片段上的至少一个核苷酸。在一些实施方案中，所述突变包含一个或多个突变。在一些实施方案中，所述一个或多个突变彼此相邻。在一些实施方案中，所述一个或多个突变彼此隔开。在一些实施方案中，所述突变适于允许所述工程改造的以核酸为靶的核酸与不同的定点多肽结合。在一些实施方案中，所述不同的定点多肽是Cas9的同源物。在一些实施方案中，所述不同的定点多肽是Cas9的突变形式。在一些实施方案中，所述不同的定点多肽在选自：RuvC核酸酶结构域和HNH核酸酶结构域或它们的任何组合的核酸酶结构域中包含与Cas9的10％氨基酸序列同一性。在一些实施方案中，所述突变适于允许所述工程改造的以核酸为靶的核酸与不同的前间区序列邻近基序杂交。在一些实施方案中，所述突变适于允许所述工程改造的以核酸为靶的核酸以比未工程改造的以核酸为靶的核酸低的解离常数与定点多肽结合。在一些实施方案中，所述突变适于允许所述工程改造的以核酸为靶的核酸以比未工程改造的以核酸为靶的核酸高的特异性与定点多肽结合。在一些实施方案中，所述突变适于允许所述工程改造的以核酸为靶的核酸以比未工程改造的以核酸为靶的核酸高的特异性引导定点多肽裂解靶核酸。在一些实施方案中，与未工程改造的以核酸为靶的核酸相比所述突变适于降低所述工程改造的以核酸为靶的核酸与靶核酸中的非特异性序列的结合。在一些实施方案中，所述工程改造的以核酸为靶的核酸适合与靶核酸杂交。在一些实施方案中，所述突变包含将一个或多个核苷酸插入所述突起。在一些实施方案中，所述突变包含从所述突起中缺失一个或多个核苷酸。在一些实施方案中，所述突变包含一个或多个核苷酸的突变。在一些实施方案中，所述突变经构造以允许所述工程改造的以核酸为靶的核酸与未工程改造的以核酸为靶的核酸相比与不同的前间区序列邻近基序杂交。在一些实施方案中，所述突变经构造以允许所述工程改造的以核酸为靶的核酸以比未工程改造的以核酸为靶的核酸低的解离常数与定点多肽结合。在一些实施方案中，所述突变经构造以允许所述工程改造的以核酸为靶的核酸以比未工程改造的以核酸为靶的核酸高的特异性与定点多肽结合。在一些实施方案中，所述突变经构造以与未工程改造的以核酸为靶的核酸相比降低所述工程改造的以核酸为靶的核酸与靶核酸中的非特异性序列的结合。

一方面，本公开提供一种修饰靶核酸的方法，其包括：使靶核酸与工程改造的以核酸为靶的核酸接触，所述工程改造的以核酸为靶的核酸包含：在以核酸为靶的核酸的突起区中的突变；和修饰所述靶核酸。在一些实施方案中，所述方法进一步包括将供体多核苷酸插入靶核酸中。在一些实施方案中，所述修饰包括裂解靶核酸。在一些实施方案中，所述修饰包括修饰靶核酸的转录。

一方面，本公开提供包含编码工程改造的以核酸为靶的核酸的多核苷酸序列的载体，所述工程改造的以核酸为靶的核酸包含：在以核酸为靶的核酸的突起区中的突变；和修饰所述靶核酸。

一方面，本公开提供一种试剂盒，其包含：工程改造的以核酸为靶的核酸，其包含：在以核酸为靶的核酸的突起区中的突变；和修饰所述靶核酸；和缓冲液。在一些实施方案中，所述试剂盒进一步包含定点多肽。在一些实施方案中，所述试剂盒进一步包含供体多核苷酸。在一些实施方案中，所述试剂盒进一步包含使用说明书。

一方面，本公开提供一种制造供体多核苷酸标记细胞的方法，其包括：使用包含定点多肽和以核酸为靶的核酸的复合体裂解细胞中的靶核酸，将供体多核苷酸插入裂解的靶核酸中，繁殖携带所述供体多核苷酸的细胞，和确定所述供体多核苷酸标记细胞的来源。在一些实施方案中，所述方法在体内进行。在一些实施方案中，所述方法在体外进行。在一些实施方案中，所述方法原位进行。在一些实施方案中，所述繁殖产生细胞群体。在一些实施方案中，所述繁殖产生细胞系。在一些实施方案中，所述方法进一步包括确定所述细胞中的核酸的核酸序列。在一些实施方案中，所述核酸序列确定所述细胞的来源。在一些实施方案中，所述确定包含确定所述细胞的基因型。在一些实施方案中，所述繁殖包含分化所述细胞。在一些实施方案中，所述繁殖包含去分化所述细胞。在一些实施方案中，所述繁殖包含分化所述细胞和然后去分化所述细胞。在一些实施方案中，所述繁殖包含使所述细胞传代。在一些实施方案中，所述繁殖包含诱导所述细胞分裂。在一些实施方案中，所述繁殖包含诱导所述细胞进入细胞周期。在一些实施方案中，所述繁殖包含所述细胞形成转移。在一些实施方案中，所述繁殖包含使多能细胞分化成分化的细胞。在一些实施方案中，所述细胞是分化的细胞。在一些实施方案中，所述细胞是去分化的细胞。在一些实施方案中，所述细胞是干细胞。在一些实施方案中，所述细胞是多能干细胞。在一些实施方案中，所述细胞是真核细胞系。在一些实施方案中，所述细胞是原代细胞系。在一些实施方案中，所述细胞是患者来源的细胞系。在一些实施方案中，所述方法进一步包括将所述细胞移植到有机体中。在一些实施方案中，所述有机体是人。在一些实施方案中，所述有机体是哺乳动物。在一些实施方案中，所述有机体选自：人、狗、大鼠、小鼠、鸡、鱼、猫、植物和灵长动物。在一些实施方案中，所述方法进一步包括选择所述细胞。在一些实施方案中，将所述供体多核苷酸插入在一种细胞状态中表达的靶核酸中。在一些实施方案中，将所述供体多核苷酸插入在多种细胞类型中表达的靶核酸中。在一些实施方案中，将所述供体多核苷酸插入在多能状态中表达的靶核酸中。在一些实施方案中，将所述供体多核苷酸插入在分化状态中表达的靶核酸中。

一方面，本公开提供一种制造克隆扩增的细胞系的方法，其包括：将包含定点多肽和以核酸为靶的核酸的复合体引入细胞中，使所述复合体与靶核酸接触，裂解靶核酸，其中由所述复合体实施裂解，由此产生裂解的靶核酸，将供体多核苷酸插入裂解的靶核酸中，繁殖所述细胞，其中所述繁殖产生克隆扩增的细胞系。在一些实施方案中，所述细胞选自：HeLa细胞、中国仓鼠卵巢细胞、293-T细胞、嗜铬细胞瘤、神经母细胞瘤成纤维细胞、横纹肌肉瘤、背根神经节细胞、NSO细胞、CV-I(ATCC CCL 70)、COS-I(ATCC CRL 1650)、COS-7(ATCCCRL 1651)、CHO-Kl(ATCC CCL 61)、3T3(ATCC CCL 92)、NIH/3T3(ATCC CRL 1658)、HeLa(ATCC CCL 2)、C 1271(ATCC CRL 1616)、BS-C-I(ATCC CCL 26)、MRC-5(ATCC CCL 171)、L-细胞、HEK-293(ATCC CRLl 573)和PC 12(ATCC CRL-1721)、HEK293T(ATCC CRL-11268)、RBL(ATCC CRL-1378)、SH-SY5Y(ATCC CRL-2266)、MDCK(ATCC CCL-34)、SJ-RH30(ATCC CRL-2061)、HepG2(ATCC HB-8065)、ND7/23(ECACC 92090903)、CHO(ECACC 85050302)、Vera(ATCC CCL 81)、Caco-2(ATCC HTB 37)、K562(ATCC CCL 243)、Jurkat(ATCC TIB-152)、Per.Có、Huvec(ATCC人原代PCS 100-010、小鼠CRL 2514、CRL 2515、CRL 2516)、HuH-7D12(ECACC 01042712)、293(ATCC CRL 10852)、A549(ATCC CCL 185)、IMR-90(ATCC CCL 186)、MCF-7(ATC HTB-22)、U-2OS(ATCC HTB-96)和T84(ATCC CCL 248)，或它们的任何组合。在一些实施方案中，所述细胞是干细胞。在一些实施方案中，所述细胞是分化的细胞。在一些实施方案中，所述细胞是多能细胞。

一方面，本公开提供一种多重细胞类型分析方法，其包括：使用包含定点多肽和以核酸为靶的核酸的复合体裂解两种或更种细胞中的至少一个靶核酸，以产生两个裂解的靶核酸，将不同的供体多核苷酸插入各裂解的靶核酸中，和分析这两种或更多种细胞。在一些实施方案中，所述分析包含同时分析这两种或更多种细胞。在一些实施方案中，所述分析包含测定靶核酸的序列。在一些实施方案中，所述分析包含比较这两种或更多种细胞。在一些实施方案中，所述分析包含确定这两种或更多种细胞的基因型。在一些实施方案中，所述细胞是分化的细胞。在一些实施方案中，所述细胞是去分化的细胞。在一些实施方案中，所述细胞是干细胞。在一些实施方案中，所述细胞是多能干细胞。在一些实施方案中，所述细胞是真核细胞系。在一些实施方案中，所述细胞是原代细胞系。在一些实施方案中，所述细胞是患者来源的细胞系。在一些实施方案中，将多个供体多核苷酸插入所述细胞中的多个裂解的靶核酸中。

一方面，本公开提供一种组合物，其包含：包含3’杂交突出端(hybridizingextension)的工程改造的以核酸为靶的核酸，和供体多核苷酸，其中所述供体多核苷酸杂交到所述3’杂交突出端上。在一些实施方案中，所述3’杂交突出端适合与来自所述供体多核苷酸的3’的至少5个核苷酸杂交。在一些实施方案中，所述3’杂交突出端适合与来自所述供体多核苷酸的5’的至少5个核苷酸杂交。在一些实施方案中，所述3’杂交突出端适合与所述供体多核苷酸中的至少5个相邻核苷酸杂交。在一些实施方案中，所述3’杂交突出端适合与整个供体多核苷酸杂交。在一些实施方案中，所述3’杂交突出端包含逆转录模板。在一些实施方案中，所述逆转录模板适合被逆转录酶逆转录。在一些实施方案中，所述组合物进一步包含逆转录的DNA多核苷酸。在一些实施方案中，所述逆转录的DNA多核苷酸适合与逆转录模板杂交。在一些实施方案中，所述供体多核苷酸是DNA。在一些实施方案中，所述3’杂交突出端是RNA。在一些实施方案中，所述工程改造的以核酸为靶的核酸是分离的工程改造的以核酸为靶的核酸。在一些实施方案中，所述工程改造的以核酸为靶的核酸是重组的工程改造的以核酸为靶的核酸。

一方面，本公开提供一种将供体多核苷酸引入靶核酸的方法，其包括：使靶核酸与一种组合物接触，所述组合物包含：包含3’杂交突出端的工程改造的以核酸为靶的核酸，和供体多核苷酸，其中所述供体多核苷酸与所述3’杂交突出端杂交。在一些实施方案中，所述方法进一步包括裂解靶核酸以产生裂解的靶核酸。在一些实施方案中，通过定点多肽实施所述裂解。在一些实施方案中，所述方法进一步包括将所述供体多核苷酸插入所述裂解的靶核酸中。

一方面，本公开提供一种组合物，其包含：效应蛋白和核酸，其中所述核酸包含在6个邻接核苷酸中与crRNA的至少50％序列同一性、在6个邻接核苷酸中与tracrRNA的至少50％序列同一性；和非天然序列，其中所述核酸适于结合到所述效应蛋白上。在一些实施方案中，所述组合物进一步包含与Cas9的核酸酶结构域包含至少10％氨基酸序列同一性的多肽，其中所述核酸结合到所述多肽上。在一些实施方案中，所述多肽包含与Cas9的核酸酶结构域在核酸酶结构域中至少60％氨基酸序列同一性。在一些实施方案中，所述多肽是Cas9。在一些实施方案中，所述核酸进一步包含接头序列，其中所述接头序列连接在6个邻接核苷酸中包含与crRNA的至少50％序列同一性的序列和在6个邻接核苷酸中包含与tracrRNA的至少50％序列同一性的序列。在一些实施方案中，所述非天然序列位于选自如下的核酸位置：5’末端和3’末端或它们的任何组合。在一些实施方案中，所述核酸包含两个核酸分子。在一些实施方案中，所述核酸包含单一连续核酸分子。在一些实施方案中，所述非天然序列包含CRISPR RNA-结合蛋白结合序列。在一些实施方案中，所述非天然序列包含选自如下的结合序列：Cas5RNA-结合序列、Cas6RNA-结合序列和Csy4RNA-结合序列或它们的任何组合。在一些实施方案中，所述效应蛋白包含CRISPR RNA-结合蛋白。在一些实施方案中，所述效应蛋白包含与选自：Cas5、Cas6和Csy4或它们的任何组合的蛋白的至少15％氨基酸序列同一性。在一些实施方案中，所述效应蛋白的RNA-结合域包含与选自：Cas5、Cas6和Csy4或它们的任何组合的蛋白的RNA-结合域的至少15％氨基酸序列同一性。在一些实施方案中，所述效应蛋白选自：Cas5、Cas6和Csy4或它们的任何组合。在一些实施方案中，所述效应蛋白进一步包含一个或多个非天然序列。在一些实施方案中，所述非天然序列为所述效应蛋白提供酶活性。在一些实施方案中，所述酶活性选自：甲基转移酶活性、脱甲基酶活性、乙酰化活性、脱乙酰活性、泛素化活性、去泛素化活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、去SUMO化活性、核糖基化活性、去核糖基化活性、豆蔻酰化活性、重塑活性、蛋白酶活性、氧化还原酶活性、转移酶活性、水解酶活性、裂合酶活性、异构酶活性、合酶活性、合成酶活性和去豆蔻酰化活性或它们的任何组合。在一些实施方案中，所述核酸是RNA。在一些实施方案中，所述效应蛋白包含含RNA-结合蛋白和DNA-结合蛋白的融合蛋白。在一些实施方案中，所述组合物进一步包含供体多核苷酸。在一些实施方案中，所述供体多核苷酸直接结合到所述DNA结合蛋白上，且其中所述RNA结合蛋白结合到所述以核酸为靶的核酸上。在一些实施方案中，所述供体多核苷酸的5’末端结合到所述DNA-结合蛋白上。在一些实施方案中，所述供体多核苷酸的3’末端结合到所述DNA-结合蛋白上。在一些实施方案中，所述供体多核苷酸的至少5个核苷酸结合到所述DNA-结合蛋白上。在一些实施方案中，所述核酸是分离核酸。在一些实施方案中，所述核酸是重组核酸。

一方面，本公开提供一种将供体多核苷酸引入靶核酸的方法，其包括：使靶核酸与包含定点多肽和一种组合物的复合体接触，所述组合物包含：效应蛋白和核酸，其中所述核酸包含在6个邻接核苷酸中与crRNA的至少50％序列同一性、在6个邻接核苷酸中与tracrRNA的至少50％序列同一性和非天然序列，其中所述核酸适于与所述效应蛋白结合。在一些实施方案中，所述方法进一步包括裂解靶核酸。在一些实施方案中，通过所述定点多肽实施所述裂解。在一些实施方案中，所述方法进一步包括将所述供体多核苷酸插入靶核酸中。

一方面，本公开提供一种调节靶核酸的方法，其包括：使靶核酸与一种或多种复合体接触，各复合体包含定点多肽和一种组合物，所述组合物包含：效应蛋白和核酸，其中所述核酸包含在6个邻接核苷酸中与crRNA的至少50％序列同一性、在6个邻接核苷酸中与tracrRNA的至少50％序列同一性和非天然序列，其中所述核酸适于与所述效应蛋白结合，和调节所述靶核酸。在一些实施方案中，所述定点多肽包含与Cas9的核酸酶结构域的至少10％氨基酸序列同一性。在一些实施方案中，通过所述效应蛋白实施所述调节。在一些实施方案中，所述调节包含选自如下的活性：甲基转移酶活性、脱甲基酶活性、乙酰化活性、脱乙酰活性、泛素化活性、去泛素化活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、去SUMO化活性、核糖基化活性、去核糖基化活性、豆蔻酰化活性、重塑活性、蛋白酶活性、氧化还原酶活性、转移酶活性、水解酶活性、裂合酶活性、异构酶活性、合酶活性、合成酶活性和去豆蔻酰化活性，或它们的任何组合。在一些实施方案中，所述效应蛋白包含一种或多种效应蛋白。

一方面，本公开提供一种检测两种复合体是否彼此邻近的方法，其包括：使第一靶核酸与第一复合体接触，其中第一复合体包含第一定点多肽、第一修饰的以核酸为靶的核酸和第一效应蛋白，其中所述效应蛋白适于结合到所述修饰的以核酸为靶的核酸上，且其中第一效应蛋白包含含有分离体系的第一部分的非天然序列，以及使第二靶核酸与第二复合体接触，其中第二复合体包含第二定点多肽、第二修饰的以核酸为靶的核酸和第二效应蛋白，其中所述效应蛋白适于结合到所述修饰的以核酸为靶的核酸上，且其中第二效应蛋白包含含有分离体系的第二部分的非天然序列。在一些实施方案中，第一靶核酸和第二靶核酸在相同的多核苷酸聚合物上。在一些实施方案中，所述分离体系包含独立时无活性但在形成复合体时产生活性蛋白复合体的两个或更多个蛋白片段。在一些实施方案中，所述方法进一步包括检测第一部分和第二部分之间的相互作用。在一些实施方案中，所述检测指示第一和第二复合体彼此邻近。在一些实施方案中，所述定点多肽适于无法裂解靶核酸。在一些实施方案中，所述检测包含确定遗传移动事件的发生。在一些实施方案中，所述遗传移动事件包含易位。在一些实施方案中，在所述遗传移动事件之前，所述分离体系的两个部分不相互作用。在一些实施方案中，在所述遗传移动事件后，所述分离体系的两个部分相互作用。在一些实施方案中，所述遗传移动事件是BCR和Abl基因之间的易位。在一些实施方案中，所述相互作用激活所述分离体系。在一些实施方案中，所述相互作用指示所述复合体结合的靶核酸紧靠在一起。在一些实施方案中，所述分离体系选自：分离GFP体系、分离泛素体系、分离转录因子体系和分离亲和标记体系，或它们的任何组合。在一些实施方案中，所述分离体系包含分离GFP体系。在一些实施方案中，所述检测指示基因型。在一些实施方案中，所述方法进一步包括：基于所述基因型确定疾病的疗程。在一些实施方案中，所述方法进一步包括治疗所述疾病。在一些实施方案中，所述治疗包含给药。在一些实施方案中，所述治疗包括给予包含以核酸为靶的核酸和定点多肽的复合体，其中所述复合体可修饰所述疾病中涉及的遗传因子。在一些实施方案中，所述修饰选自：将核酸序列添加到所述遗传因子中、置换所述遗传因子中的核酸序列，和从所述遗传因子中缺失核酸序列，或它们的任何组合。在一些实施方案中，所述方法进一步包括：从看护者向患者传达所述基因型。在一些实施方案中，所述传达包含从存储记忆系统向远程计算机传达。在一些实施方案中，所述检测诊断疾病。在一些实施方案中，所述方法进一步包括：从看护者向患者传达所述诊断。在一些实施方案中，所述检测指示单核苷酸多态性(SNP)的存在。在一些实施方案中，所述方法进一步包括：从看护者向患者传达遗传移动事件的发生。在一些实施方案中，所述传达包含从存储记忆系统向远程计算机传达。在一些实施方案中，所述定点多肽包含与Cas9至少20％氨基酸序列同一性。在一些实施方案中，所述定点多肽包含与Cas9至少60％氨基酸序列同一性。在一些实施方案中，所述定点多肽在核酸酶结构域中包含与Cas9的核酸酶结构域的至少60％氨基酸序列同一性。在一些实施方案中，所述定点多肽是Cas9。在一些实施方案中，所述修饰的以核酸为靶的核酸包含非天然序列。在一些实施方案中，所述非天然序列位于选自以下的所述修饰的以核酸为靶的核酸的位置：5’末端和3’末端或它们的任何组合。在一些实施方案中，所述修饰的以核酸为靶的核酸包含两个核酸分子。在一些实施方案中，所述核酸包含单一连续核酸分子，其包含：在6个邻接核苷酸中包含与CRISPR重复片段的至少50％同一性的第一部分和在6个邻接核苷酸中包含与tracrRNA序列的至少50％同一性的第二部分。在一些实施方案中，第一部分和第二部分通过接头连接。在一些实施方案中，所述非天然序列包含CRISPR RNA-结合蛋白结合序列。在一些实施方案中，所述非天然序列包含选自如下的结合序列：Cas5RNA-结合序列、Cas6RNA-结合序列和Csy4RNA-结合序列，或它们的任何组合。在一些实施方案中，所述修饰的以核酸为靶的核酸适于结合到效应蛋白上。在一些实施方案中，所述效应蛋白是CRISPR RNA-结合蛋白。在一些实施方案中，所述效应蛋白包含与选自：Cas5、Cas6和Csy4或它们的任何组合的蛋白的至少15％氨基酸序列同一性。在一些实施方案中，所述效应蛋白的RNA-结合域包含与选自：Cas5、Cas6和Csy4或它们的任何组合的蛋白的RNA-结合域的至少15％氨基酸序列同一性。在一些实施方案中，所述效应蛋白选自：Cas5、Cas6和Csy4或它们的任何组合。在一些实施方案中，所述以核酸为靶的核酸是RNA。在一些实施方案中，所述靶核酸是DNA。在一些实施方案中，所述相互作用包含形成亲和标记。在一些实施方案中，所述检测包含捕获所述亲和标记。在一些实施方案中，所述方法进一步包括将结合到第一和第二复合体上的核酸测序。在一些实施方案中，所述方法进一步包括在所述捕获前裂解所述核酸。在一些实施方案中，所述相互作用形成活化体系。在一些实施方案中，所述方法进一步包括改变第一靶核酸或第二靶核酸的转录，其中通过所述活化体系实施所述改变。在一些实施方案中，第二靶核酸未与第一靶核酸连接。在一些实施方案中，反式实施第二靶核酸的改变的转录。在一些实施方案中，顺式实施第一靶核酸的改变的转录。在一些实施方案中，第一或第二靶核酸选自：内源性核酸和外源性核酸，或它们的任何组合。在一些实施方案中，所述改变包含提高第一或第二靶核酸的转录，在一些实施方案中，第一或第二靶核酸包含编码造成细胞死亡的一个或多个基因的多核苷酸。在一些实施方案中，第一或第二靶核酸包含编码细胞溶解诱导肽的多核苷酸。在一些实施方案中，第一或第二靶核酸包含编码免疫细胞募集抗原的多核苷酸。在一些实施方案中，第一或第二靶核酸包含编码参与细胞凋亡的一个或多个基因的多核苷酸。在一些实施方案中，所述参与细胞凋亡的一个或多个基因包含半胱天冬酶(caspase)。在一些实施方案中，所述参与细胞凋亡的一个或多个基因包含细胞因子。在一些实施方案中，所述参与细胞凋亡的一个或多个基因选自：肿瘤坏死因子(TNF)、TNF受体1(TNFR1)、TNF受体2(TNFR2)、Fas受体、FasL、半胱天冬酶-8、半胱天冬酶-10、半胱天冬酶-3、半胱天冬酶-9、半胱天冬酶-3、半胱天冬酶-6、半胱天冬酶-7、Bcl-2和细胞凋亡诱导因子(AIF)，或它们的任何组合。在一些实施方案中，第一或第二靶核酸包含编码一种或多种以核酸为靶的核酸的多核苷酸。在一些实施方案中，所述一种或多种以核酸为靶的核酸靶向多种靶核酸。在一些实施方案中，所述检测包含生成遗传数据。在一些实施方案中，所述方法进一步包括从存储记忆系统向远程计算机传达所述遗传数据。在一些实施方案中，所述遗传数据指示基因型。在一些实施方案中，所述遗传数据指示遗传移动事件的发生。在一些实施方案中，所述遗传数据指示基因的空间位置。

一方面，本公开提供一种试剂盒，其包含：定点多肽、修饰的以核酸为靶的核酸，其中所述修饰的以核酸为靶的核酸包含非天然序列；适于结合到所述非天然序列上的效应蛋白和缓冲液。在一些实施方案中，所述试剂盒进一步包含使用说明书。

一方面，本公开提供包含编码修饰的以核酸为靶的核酸的多核苷酸序列的载体，其中所述修饰的以核酸为靶的核酸包含非天然序列。在一些实施方案中，所述多核苷酸序列可与启动子操作性连接。在一些实施方案中，所述启动子是诱导型启动子。

一方面，本公开提供一种载体，其包含：编码修饰的以核酸为靶的核酸的多核苷酸序列，其中所述修饰的以核酸为靶的核酸包含经构造以结合到效应蛋白上的序列和定点多肽。在一些实施方案中，所述多核苷酸序列可与启动子操作性连接。在一些实施方案中，所述启动子是诱导型启动子。

一方面，本公开提供一种载体，其包含：编码修饰的以核酸为靶的核酸的多核苷酸序列，其中所述修饰的以核酸为靶的核酸包含非天然序列、定点多肽和效应蛋白。在一些实施方案中，所述多核苷酸序列可与启动子操作性连接。在一些实施方案中，所述启动子是诱导型启动子。

一方面，本公开提供一种基因修饰细胞，其包含一种组合物，所述组合物包含：效应蛋白，和核酸，其中所述核酸包含在6个邻接核苷酸中与crRNA的至少50％序列同一性、在6个邻接核苷酸中与tracrRNA的至少50％序列同一性；和非天然序列，其中所述核酸适于与所述效应蛋白结合。

一方面，本公开提供一种基因修饰细胞，其包含一种载体，所述载体包含编码修饰的以核酸为靶的核酸的多核苷酸序列，其中所述修饰的以核酸为靶的核酸包含非天然序列。

一方面，本公开提供一种基因修饰细胞，其包含一种载体，所述载体包含：编码修饰的以核酸为靶的核酸的多核苷酸序列，其中所述修饰的以核酸为靶的核酸包含经构造以与效应蛋白结合的序列和定点多肽。

一方面，本公开提供一种基因修饰细胞，其包含一种载体，所述载体包含：编码修饰的以核酸为靶的核酸的多核苷酸序列，其中所述修饰的以核酸为靶的核酸包含非天然序列、定点多肽和效应蛋白。

一方面，本公开提供一种试剂盒，其包含：包含编码修饰的以核酸为靶的核酸的多核苷酸序列的载体，其中所述修饰的以核酸为靶的核酸包含非天然序列，和缓冲液。在一些实施方案中，所述试剂盒进一步包含使用说明书。

一方面，本公开提供一种试剂盒，其包含：包含编码修饰的以核酸为靶的核酸的多核苷酸序列的载体，其中所述修饰的以核酸为靶的核酸包含经构造以与效应蛋白结合的序列和定点多肽，以及缓冲液。在一些实施方案中，所述试剂盒进一步包含使用说明书。

一方面，本公开提供一种试剂盒，其包含：包含编码修饰的以核酸为靶的核酸的多核苷酸序列的载体，其中所述修饰的以核酸为靶的核酸包含非天然序列、定点多肽和效应蛋白，和缓冲液。在一些实施方案中，所述试剂盒进一步包含使用说明书。

一方面，本公开提供一种组合物，其包含：多重遗传靶向剂，其中所述多重遗传靶向剂包含一个或多个核酸模块，其中所述核酸模块包含非天然序列，且其中所述核酸模块经构造以与包含与Cas9的核酸酶结构域至少10％氨基酸序列同一性的多肽结合，且其中所述核酸模块经构造以与靶核酸杂交。在一些实施方案中，所述核酸模块包含在6个邻接核苷酸中包含与crRNA的至少50％序列同一性的第一序列和在6个邻接核苷酸中包含与tracrRNA的至少50％序列同一性的第二序列。在一些实施方案中，所述组合物进一步包含连接第一和第二序列的接头序列。在一些实施方案中，所述一个或多个核酸模块与一个或多个靶核酸杂交。在一些实施方案中，所述一个或多个核酸模块的区别在于所述一个或多个核酸模块的间隔区中的至少一个核苷酸。在一些实施方案中，所述一个或多个核酸模块是RNA。在一些实施方案中，所述多重遗传靶向剂是RNA。在一些实施方案中，所述非天然序列包含核酶。在一些实施方案中，所述非天然序列包含核糖核酸内切酶结合序列。在一些实施方案中，所述核糖核酸内切酶结合序列位于所述核酸模块的5’末端。在一些实施方案中，所述核糖核酸内切酶结合序列位于所述核酸模块的3’末端。在一些实施方案中，所述核糖核酸内切酶结合序列适合被CRISPR核糖核酸内切酶结合。在一些实施方案中，所述核糖核酸内切酶结合序列适合被包含RAMP结构域的核糖核酸内切酶结合。在一些实施方案中，所述核糖核酸内切酶结合序列适合被选自如下的核糖核酸内切酶结合：Cas5超家族成员核糖核酸内切酶和Cas6超家族成员核糖核酸内切酶或它们的任何组合。在一些实施方案中，所述核糖核酸内切酶结合序列适合被包含与选自：Csy4、Cas5和Cas6的蛋白的至少15％氨基酸序列同一性的核糖核酸内切酶结合。在一些实施方案中，所述核糖核酸内切酶结合序列适合被包含与选自：Csy4、Cas5和Cas6的蛋白的核酸酶结构域的至少15％氨基酸序列同一性的核糖核酸内切酶结合。在一些实施方案中，所述核糖核酸内切酶结合序列包含发夹结构。在一些实施方案中，所述发夹结构包含呈茎环结构的至少4个连续核苷酸。在一些实施方案中，所述核糖核酸内切酶结合序列包含与选自如下的序列的至少60％同一性：

5′-GUUCACUGCCGUAUAGGCAGCUAAGAAA-3'；

5'-GUUGCAAGGGAUUGAGCCCCGUAAGGGGAUUGCGAC-3'；

5'-GUUGCAAAGGUCGUUAGCCUCGUAGAGGAUUGAAAC-3'；

5'-GGAUCGAUACCCACCCCGAAGAAAAGGGGACGAGAAC-3'；

5'-GUCGUCAGACCCAAAACCCCGAGAGGGGACGGAAAC-3'；

5'-GAUAUAAACCUAAUUACCUCGAGAGGGGACGGAAAC-3'；

5'-CCCCAGUCACCUCGGGAGGGGACGGAAAC-3'；

5'-GUUCCAAUUAAUCUUAAACCCUAUUAGGGAUUGAAAC-3'.

5'-GUUGCAAGGGAUUGAGCCCCGUAAGGGGAUUGCGAC-3'；

5'-GUUGCAAACCUCGUUAGCCUCGUAGAGGAUUGAAAC-3'；

5'-GGAUCGAUACCCACCCCGAAGAAAAGGGGACGAGAAC-3'；

5'-GUCGUCAGACCCAAAACCCCGAGAGGGGACGGAAAC-3'；

5'-GAUAUAAACCUAAUUACCUCGAGAGGGGACGGAAAC-3'；

5'-CCCCAGUCACCUCGGGAGGGGACGGAAAC-3'；

5'-GUUCCAAUUAAUCUUAAACCCUAUUAGGGAUUGAAAC-3'，

5'-GUCGCCCCCCACGCGGGGGCGUGGAUUGAAAC-3'；

5'-CCAGCCGCCUUCGGGCGGCUGUGUGUUGAAAC-3'；

5'-GUCGCACUCUACAUGAGUGCGUGGAUUGAAAU-3'；

5'-UGUCGCACCUUAUAUAGGUGCGUGGAUUGAAAU-3'；

和5'-GUCGCGCCCCGCAUGGGGCGCGUGGAUUGAAA-3'，或它们的任何组合。在一些实施方案中，所述一个或多个核酸模块适合被不同的核糖核酸内切酶结合。在一些实施方案中，所述多重遗传靶向剂是分离的多重遗传靶向剂。在一些实施方案中，所述多重遗传靶向剂是重组多重遗传靶向剂。

一方面，本公开提供包含编码多重遗传靶向剂的多核苷酸序列的载体，其中所述多重遗传靶向剂包含一个或多个核酸模块，其中所述核酸模块包含非天然序列，且其中所述核酸模块经构造以与包含与Cas9的核酸酶结构域的至少10％氨基酸序列同一性的多肽结合，且其中所述核酸模块经构造以与靶核酸杂交。在一些实施方案中，所述多核苷酸序列可与启动子操作性连接。在一些实施方案中，所述启动子是诱导型启动子。

一方面，本公开提供一种基因修饰细胞，其包含多重遗传靶向剂，其中所述多重遗传靶向剂包含一个或多个核酸模块，其中所述核酸模块包含非天然序列，且其中所述核酸模块经构造以与包含与Cas9的核酸酶结构域的至少10％氨基酸序列同一性的多肽结合，且其中所述核酸模块经构造以与靶核酸杂交。

一方面，本公开提供一种基因修饰细胞，其包含一种载体，所述载体包含编码多重遗传靶向剂的多核苷酸序列，其中所述多重遗传靶向剂包含一个或多个核酸模块，其中所述核酸模块包含非天然序列，且其中所述核酸模块经构造以与包含与Cas9的核酸酶结构域的至少10％氨基酸序列同一性的多肽结合，且其中所述核酸模块经构造以与靶核酸杂交。

一方面，本公开提供一种试剂盒，其包含多重遗传靶向剂，其中所述多重遗传靶向剂包含一个或多个核酸模块，其中所述核酸模块包含非天然序列，且其中所述核酸模块经构造以与包含与Cas9的核酸酶结构域的至少10％氨基酸序列同一性的多肽结合，且其中所述核酸模块经构造以与靶核酸杂交，和缓冲液。在一些实施方案中，所述试剂盒进一步包含使用说明书。

一方面，本公开提供一种试剂盒，其包含：包含编码多重遗传靶向剂的多核苷酸序列的载体，其中所述多重遗传靶向剂包含一个或多个核酸模块，其中所述核酸模块包含非天然序列，且其中所述核酸模块经构造以与包含与Cas9的核酸酶结构域的至少10％氨基酸序列同一性的多肽结合，且其中所述核酸模块经构造以与靶核酸杂交，和缓冲液。在一些实施方案中，所述试剂盒进一步包含使用说明书。

一方面，本公开提供一种生成核酸的方法，其中所述核酸与包含与Cas9的核酸酶结构域的至少10％氨基酸序列同一性的多肽结合并与靶核酸杂交，所述方法包括：引入多重遗传靶向剂，其中所述多重遗传靶向剂包含一个或多个核酸模块，其中所述核酸模块包含非天然序列，且其中所述核酸模块经构造以与包含与Cas9的核酸酶结构域的至少10％氨基酸序列同一性的多肽结合，且其中所述核酸模块经构造以与靶核酸杂交到宿主细胞中，将所述多重遗传靶向剂加工成所述一个或多个核酸模块，和使所述加工过的一个或多个核酸模块与所述细胞中的一个或多个靶核酸接触。在一些实施方案中，所述方法进一步包括裂解靶核酸。在一些实施方案中，所述方法进一步包括修饰靶核酸。在一些实施方案中，所述修饰包含改变靶核酸的转录。在一些实施方案中，所述修饰包含将供体多核苷酸插入靶核酸中。

一方面，本公开提供一种修饰的定点多肽，其包含：第一核酸酶结构域、第二核酸酶结构域和插入的核酸酶结构域。在一些实施方案中，所述定点多肽包含与Cas9的核酸酶结构域的至少15％同一性。在一些实施方案中，第一核酸酶结构域包含选自：HNH结构域和RuvC结构域或它们的任何组合的核酸酶结构域。在一些实施方案中，第二核酸酶结构域包含选自：HNH结构域和RuvC结构域或它们的任何组合的核酸酶结构域。在一些实施方案中，所述插入的核酸酶结构域包含HNH结构域。在一些实施方案中，所述插入的核酸酶结构域包含RuvC结构域。在一些实施方案中，所述插入的核酸酶结构域是第一核酸酶结构域的N-末端。在一些实施方案中，所述插入的核酸酶结构域是第二核酸酶结构域的N-末端。在一些实施方案中，所述插入的核酸酶结构域是第一核酸酶结构域的C-末端。在一些实施方案中，所述插入的核酸酶结构域是第二核酸酶结构域的C-末端。在一些实施方案中，所述插入的核酸酶结构域与第一核酸酶结构域串联。在一些实施方案中，所述插入的核酸酶结构域与第二核酸酶结构域串联。在一些实施方案中，所述插入的核酸酶结构域适于在不同于第一或第二核酸酶结构域的位点裂解靶核酸。在一些实施方案中，所述插入的核酸酶结构域适于裂解DNA-RNA杂交体中的RNA。在一些实施方案中，所述插入的核酸酶结构域适于裂解DNA-RNA杂交体中的DNA。在一些实施方案中，所述插入的核酸酶结构域适于提高所述修饰的定点多肽与靶核酸的结合特异性。在一些实施方案中，所述插入的核酸酶结构域适于提高所述修饰的定点多肽与靶核酸的结合强度。

一方面，本公开提供包含编码修饰的定点多肽的多核苷酸序列的载体，所述修饰的定点多肽包含：第一核酸酶结构域、第二核酸酶结构域和插入的核酸酶结构域。

一方面，本公开提供一种试剂盒，其包含：包含第一核酸酶结构域、第二核酸酶结构域和插入的核酸酶结构域的修饰的定点多肽，和缓冲液。在一些实施方案中，所述试剂盒进一步包含使用说明书。

一方面，本公开提供一种组合物，其包含：修饰的定点多肽，其中修饰所述多肽以使其与野生型定点多肽相比适于靶向第二前间区序列邻近基序。在一些实施方案中，通过选自：氨基酸添加、氨基酸置换、氨基酸替代和氨基酸缺失或它们的任何组合的修饰法修饰所述定点多肽。在一些实施方案中，所述修饰的定点多肽包含非天然序列。在一些实施方案中，所述修饰的定点多肽适合以比野生型定点多肽高的特异性靶向第二前间区序列邻近基序。在一些实施方案中，所述修饰的定点多肽适合以比野生型定点多肽低的解离常数靶向第二前间区序列邻近基序。在一些实施方案中，所述修饰的定点多肽适合以比野生型定点多肽高的解离常数靶向第二前间区序列邻近基序。在一些实施方案中，第二前间区序列邻近基序包含选自：5’-NGGNG-3'、5’-NNAAAAW-3’、5’-NNNNGATT-3’、5’-GNNNCNNA-3’和5’-NNNACA-3’或它们的任何组合的前间区序列邻近基序。

一方面，本公开提供包含编码修饰的定点多肽的多核苷酸序列的载体，其中修饰所述多肽以使其与野生型定点多肽相比适于靶向第二前间区序列邻近基序。

一方面，本公开提供一种试剂盒，其包含：修饰的定点多肽，其中修饰所述多肽以使其与野生型定点多肽相比适于靶向第二前间区序列邻近基序，和缓冲液。在一些实施方案中，所述试剂盒进一步包含使用说明书。

一方面，本公开提供一种组合物，其包含：修饰的定点多肽，其中修饰所述多肽以使其与野生型定点多肽相比适于靶向第二以核酸为靶的核酸。在一些实施方案中，通过选自：氨基酸添加、氨基酸置换、氨基酸替代和氨基酸缺失或它们的任何组合的修饰法修饰所述定点多肽。在一些实施方案中，所述修饰的定点多肽包含非天然序列。在一些实施方案中，所述修饰的定点多肽适合以比野生型定点多肽高的特异性靶向第二以核酸为靶的核酸。在一些实施方案中，所述修饰的定点多肽适合以比野生型定点多肽低的解离常数靶向第二以核酸为靶的核酸。在一些实施方案中，所述修饰的定点多肽适合以比野生型定点多肽高的解离常数靶向第二以核酸为靶的核酸。在一些实施方案中，所述定点多肽靶向第二以核酸为靶的核酸的tracrRNA部分。

一方面，本公开提供包含编码修饰的定点多肽的多核苷酸序列的载体，其中修饰所述多肽以使其与野生型定点多肽相比适于靶向第二以核酸为靶的核酸。

一方面，本公开提供一种试剂盒，其包含：修饰的定点多肽，其中修饰所述多肽以使其与野生型定点多肽相比适于靶向第二以核酸为靶的核酸，和缓冲液。在一些实施方案中，所述试剂盒进一步包含使用说明书。

一方面，本公开提供一种组合物，其包含：与SEQ ID:8相比在桥螺旋中包含修饰的修饰的定点多肽。在一些实施方案中，所述组合物经构造以裂解靶核酸。

一方面，本公开提供一种组合物，其包含：与SEQ ID:8相比在高碱性补丁(highlybasic patch)中包含修饰的修饰的定点多肽。在一些实施方案中，所述组合物经构造以裂解靶核酸。

一方面，本公开提供一种组合物，其包含：与SEQ ID:8相比在聚合酶类结构域中包含修饰的修饰的定点多肽。在一些实施方案中，所述组合物经构造以裂解靶核酸。

一方面，本公开提供一种组合物，其包含：修饰的定点多肽，与SEQ ID:8相比所述修饰的定点多肽包含在桥螺旋、高碱性补丁、核酸酶结构域和聚合酶结构域中的修饰，或它们的任何组合。

一方面，本公开提供包含编码修饰的定点多肽的多核苷酸序列的载体，所述修饰的定点多肽与SEQ ID:8相比包含在桥螺旋、高碱性补丁、核酸酶结构域和聚合酶结构域中的修饰，或它们的任何组合。

一方面，本公开提供一种试剂盒，其包含：修饰的定点多肽，所述修饰的定点多肽与SEQ ID:8相比包含在桥螺旋、高碱性补丁、核酸酶结构域和聚合酶结构域中的修饰，或它们的任何组合，和缓冲液。在一些实施方案中，所述试剂盒进一步包含使用说明书。在一些实施方案中，所述试剂盒进一步包含以核酸为靶的核酸。

一方面，本公开提供一种基因修饰细胞，其包含修饰的定点多肽，所述修饰的定点多肽与SEQ ID:8相比包含在桥螺旋、高碱性补丁、核酸酶结构域和聚合酶结构域中的修饰，或它们的任何组合。

一方面，本公开提供一种基因组工程法，其包括：使靶核酸与一种复合体接触，其中所述复合体包含修饰的定点多肽，所述修饰的定点多肽与SEQ ID:8相比包含在桥螺旋、高碱性补丁、核酸酶结构域和聚合酶结构域中的修饰，或它们的任何组合，和以核酸为靶的核酸，并修饰所述靶核酸。在一些实施方案中，所述接触包含使所述复合体与靶核酸中的前间区序列邻近基序接触。在一些实施方案中，所述接触包含使所述复合体与比未修饰的定点多肽长的靶核酸序列接触。在一些实施方案中，所述修饰包含裂解靶核酸。在一些实施方案中，所述靶核酸包含RNA。在一些实施方案中，所述靶核酸包含DNA。在一些实施方案中，所述修饰包含裂解杂交RNA和DNA的RNA链。在一些实施方案中，所述修饰包含裂解杂交RNA和DNA的DNA链。在一些实施方案中，所述修饰包含在靶核酸中插入供体多核苷酸、供体多核苷酸的一部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的一部分，或它们的任何组合。在一些实施方案中，所述修饰包含修饰靶核酸的转录活性。在一些实施方案中，所述修饰包含缺失靶核酸的一个或多个核苷酸。

一方面，本公开提供一种组合物，其包含：与SEQ ID:8相比包含修饰的核酸酶结构域的修饰的定点多肽。在一些实施方案中，所述组合物经构造以裂解靶核酸。在一些实施方案中，所述修饰的核酸酶结构域包含RuvC结构域核酸酶结构域。在一些实施方案中，所述修饰的核酸酶结构域包含HNH核酸酶结构域。在一些实施方案中，所述修饰的核酸酶结构域包含HNH核酸酶结构域的复制。在一些实施方案中，与未修饰的定点多肽相比，所述修饰的核酸酶结构域适合提高所述氨基酸序列对靶核酸的特异性。在一些实施方案中，与未修饰的定点多肽相比，所述修饰的核酸酶结构域适合提高所述氨基酸序列对以核酸为靶的核酸的特异性。在一些实施方案中，所述修饰的核酸酶结构域包含选自以下的修饰：氨基酸添加、氨基酸置换、氨基酸替代和氨基酸缺失，或它们的任何组合。在一些实施方案中，所述修饰的核酸酶结构域包含插入的非天然序列。在一些实施方案中，所述非天然序列为所述修饰的定点多肽提供酶活性。在一些实施方案中，所述酶活性选自：核酸酶活性、甲基化酶活性、乙酰化酶活性、脱甲基酶活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、去SUMO化活性、核糖基化活性、去核糖基化活性、豆蔻酰化活性、重塑活性、蛋白酶活性、氧化还原酶活性、转移酶活性、水解酶活性、裂合酶活性、异构酶活性、合酶活性、合成酶活性和去豆蔻酰化活性，或它们的任何组合。在一些实施方案中，所述酶活性适于调节靶核酸的转录。在一些实施方案中，所述修饰的核酸酶结构域适于允许所述氨基酸序列与前间区序列邻近基序序列结合，所述前间区序列邻近基序序列与未修饰的定点多肽适于结合的前间区序列邻近基序序列不同。在一些实施方案中，所述修饰的核酸酶结构域适于允许所述氨基酸序列与以核酸为靶的核酸结合，所述以核酸为靶的核酸与未修饰的定点多肽适于结合的以核酸为靶的核酸不同。在一些实施方案中，所述修饰的定点多肽适于与比未修饰的定点多肽长的靶核酸序列结合。在一些实施方案中，所述修饰的定点多肽适于裂解双链DNA。在一些实施方案中，所述修饰的定点多肽适于裂解杂交RNA和DNA的RNA链。在一些实施方案中，所述修饰的定点多肽适于裂解杂交RNA和DNA的DNA链。在一些实施方案中，所述组合物进一步包含修饰的以核酸为靶的核酸，其中所述定点多肽的修饰适合使所述定点多肽与所述修饰的以核酸为靶的核酸结合。在一些实施方案中，所述修饰的以核酸为靶的核酸和所述修饰的定点多肽包含补偿突变。

一方面，本公开提供一种富集靶核酸以供测序的方法，其包括：使靶核酸与包含以核酸为靶的核酸和定点多肽的复合体接触，使用所述复合体富集所述靶核酸，和测定所述靶核酸的序列。在一些实施方案中，所述方法不包含扩增步骤。在一些实施方案中，所述方法进一步包括分析所述靶核酸的序列。在一些实施方案中，所述方法进一步包括在富集前裂解所述靶核酸。在一些实施方案中，所述以核酸为靶的核酸包含RNA。在一些实施方案中，所述方法中所述以核酸为靶的核酸包含两个RNA分子。在一些实施方案中，所述方法中这两个RNA分子各自的一部分杂交在一起。在一些实施方案中，所述方法中这两个RNA分子之一包含CRISPR重复序列。在一些实施方案中，所述CRISPR重复序列在6个邻接核苷酸中与crRNA同源。在一些实施方案中，所述CRISPR重复序列包含在6个邻接核苷酸中与crRNA的至少60％同一性。在一些实施方案中，这两个RNA分子之一包含tracrRNA序列。在一些实施方案中，所述tracRNA序列在6个邻接核苷酸上与tracrRNA同源。在一些实施方案中，所述tracRNA序列包含在6个邻接核苷酸中与tracrRNA的至少60％同一性。在一些实施方案中，所述以核酸为靶的核酸是双导向核酸。在一些实施方案中，所述以核酸为靶的核酸包含一个连续RNA分子，其中所述连续RNA分子进一步包含两个结构域和接头。在一些实施方案中，所述连续RNA分子的两个结构域各自的一部分杂交在一起。在一些实施方案中，所述连续RNA分子包含CRISPR重复序列。在一些实施方案中，所述CRISPR重复序列在6个邻接核苷酸中与crRNA同源。在一些实施方案中，所述CRISPR重复序列包含在6个邻接核苷酸中与crRNA的至少60％同一性。在一些实施方案中，所述连续RNA分子包含tracrRNA序列。在一些实施方案中，所述tracRNA序列在6个邻接核苷酸中与tracrRNA同源。在一些实施方案中，所述tracRNA序列包含在6个邻接核苷酸中与tracrRNA的至少60％同一性。在一些实施方案中，所述以核酸为靶的核酸是单导向核酸。在一些实施方案中，所述接触包含使所述以核酸为靶的核酸的一部分与所述靶核酸的一部分杂交。在一些实施方案中，所述以核酸为靶的核酸在包含6-20个核苷酸的区域上与靶核酸杂交。在一些实施方案中，所述定点多肽包含Cas9。在一些实施方案中，所述定点多肽包含与Cas9的核酸酶结构域的至少20％同源性。在一些实施方案中，所述定点多肽包含与Cas9的至少60％同源性。在一些实施方案中，所述定点多肽包含工程核酸酶结构域，其中与包含未工程改造的核酸酶结构域的定点多肽相比，所述核酸酶结构域包含降低的核酸酶活性。在一些实施方案中，所述定点多肽在靶核酸中引入单链断裂。在一些实施方案中，所述工程核酸酶结构域包含保守天冬氨酸的突变。在一些实施方案中，所述工程核酸酶结构域包含D10A突变。在一些实施方案中，所述工程核酸酶结构域包含保守组氨酸的突变。在一些实施方案中，所述工程核酸酶结构域包含H840A突变。在一些实施方案中，所述定点多肽包含亲和标记。在一些实施方案中，所述亲和标记位于定点多肽的N-末端、定点多肽的C-末端、表面可及区，或它们的任何组合。在一些实施方案中，所述亲和标记选自：生物素、FLAG、His6x、His9x和荧光蛋白，或它们的任何组合。在一些实施方案中，所述以核酸为靶的核酸包含核酸亲和标记。在一些实施方案中，所述核酸亲和标记位于所述以核酸为靶的核酸的5’末端、所述以核酸为靶的核酸的3’末端、表面可及区，或它们的任何组合。在一些实施方案中，所述核酸亲和标记选自小分子、荧光标记、放射性标记，或它们的任何组合。在一些实施方案中，所述核酸亲和标记包含经构造以与Csy4、Cas5、Cas6或它们的任何组合结合的序列。在一些实施方案中，所述核酸亲和标记包含与5’-GUUCACUGCCGUAUAGGCAGCUAAGAAA-3’的50％同一性。在一些实施方案中，所述方法进一步包括诊断疾病和作出患者特异性的治疗决定，或它们的任何组合。在一些实施方案中，所述确定包含确定基因型。在一些实施方案中，所述方法进一步包括从存储记忆系统向远程计算机传达所述序列。在一些实施方案中，所述富集包含使所述复合体的亲和标记与捕获剂接触。在一些实施方案中，所述捕获剂包含抗体。在一些实施方案中，所述捕获剂包含固体支持物。在一些实施方案中，所述捕获剂选自：Csy4、Cas5和Cas6。在一些实施方案中，所述捕获剂在不存在咪唑的情况下包含降低的酶活性。在一些实施方案中，所述捕获剂包含可激活酶域，其中所述可激活酶域在与咪唑接触时被激活。在一些实施方案中，所述捕获剂是Cas6家族成员。在一些实施方案中，所述捕获剂包含亲和标记。在一些实施方案中，所述捕获剂包含有条件地无酶活性的核糖核酸内切酶，其在核酸酶结构域中包含突变。在一些实施方案中，保守组氨酸的突变。在一些实施方案中，所述突变包含H29A突变。在一些实施方案中，所述靶核酸与所述复合体结合。在一些实施方案中，所述靶核酸是未与所述复合体结合的切除核酸。在一些实施方案中，使多种复合体与多种靶核酸接触。在一些实施方案中，所述多种靶核酸相差至少一个核苷酸。在一些实施方案中，所述多种复合体包含相差至少一个核苷酸的多种以核酸为靶的核酸。

一方面，本公开提供一种切除核酸的方法，其包括：使靶核酸与两种或更多种复合体接触，其中各复合体包含定点多肽和以核酸为靶的核酸，和裂解靶核酸，其中所述裂解产生切除的靶核酸。在一些实施方案中，通过所述定点多肽的核酸酶结构域实施所述裂解。在一些实施方案中，所述方法不包含扩增。在一些实施方案中，所述方法进一步包括富集所述切除的靶核酸。在一些实施方案中，所述方法进一步包括将所述切除的靶核酸测序。在一些实施方案中，所述以核酸为靶的核酸是RNA。在一些实施方案中，所述以核酸为靶的核酸包含两个RNA分子。在一些实施方案中，这两个RNA分子各自的一部分杂交在一起。在一些实施方案中，这两个RNA分子之一包含CRISPR重复序列。在一些实施方案中，所述CRISPR重复序列包含在6个邻接核苷酸中与crRNA同源的序列。在一些实施方案中，所述CRISPR重复序列包含具有在6个邻接核苷酸中与crRNA的至少60％同一性的序列。在一些实施方案中，这两个RNA分子之一包含tracrRNA序列。在一些实施方案中，所述tracRNA序列在6个邻接核苷中与crRNA同源。在一些实施方案中，所述tracRNA序列包含在6个邻接核苷酸中与crRNA的至少60％同一性。在一些实施方案中，所述以核酸为靶的核酸是双导向核酸。在一些实施方案中，所述以核酸为靶的核酸包含一个连续RNA分子，其中所述连续RNA分子进一步包含两个结构域和接头。在一些实施方案中，所述连续RNA分子的两个结构域各自的一部分杂交在一起。在一些实施方案中，所述连续RNA分子包含CRISPR重复序列。在一些实施方案中，所述CRISPR重复序列在6个邻接核苷酸中与crRNA同源。在一些实施方案中，所述CRISPR重复序列包含在6个邻接核苷酸中与crRNA的至少60％同一性。在一些实施方案中，所述连续RNA分子包含tracrRNA序列。在一些实施方案中，所述tracRNA序列在6个邻接核苷酸中与crRNA同源。在一些实施方案中，所述tracRNA序列包含在6个邻接核苷酸中与crRNA的至少60％同一性。在一些实施方案中，所述以核酸为靶的核酸是单导向核酸。在一些实施方案中，所述以核酸为靶的核酸与靶核酸杂交。在一些实施方案中，所述以核酸为靶的核酸在一个区域上与靶核酸杂交，其中所述区域包含至少6个核苷酸和最多20个核苷酸。在一些实施方案中，所述定点多肽是Cas9。在一些实施方案中，所述定点多肽包含含有与Cas9的核酸酶结构域的至少20％同源性的多肽。在一些实施方案中，所述定点多肽包含含有与Cas9的至少60％同源性的多肽。在一些实施方案中，所述定点多肽包含亲和标记。在一些实施方案中，所述亲和标记位于定点多肽的N-末端、定点多肽的C-末端、表面可及区，或它们的任何组合。在一些实施方案中，所述亲和标记选自：生物素、FLAG、His6x、His9x和荧光蛋白，或它们的任何组合。在一些实施方案中，所述以核酸为靶的核酸包含核酸亲和标记。在一些实施方案中，所述核酸亲和标记位于所述以核酸为靶的核酸的5’末端、所述以核酸为靶的核酸的3’末端、表面可及区，或它们的任何组合。在一些实施方案中，所述核酸亲和标记选自小分子、荧光标记、放射性标记，或它们的任何组合。在一些实施方案中，所述核酸亲和标记是可与Csy4、Cas5、Cas6或它们的任何组合结合的序列。在一些实施方案中，所述核酸亲和标记包含与GUUCACUGCCGUAUAGGCAGCUAAGAAA的50％同一性。在一些实施方案中，所述靶核酸是未与所述两种或更多种复合体结合的切除核酸。在一些实施方案中，使所述两种或更多种复合体与多种靶核酸接触。在一些实施方案中，所述多种靶核酸相差至少一个核苷酸。在一些实施方案中，所述两种或更多种复合体包含相差至少一个核苷酸的以核酸为靶的核酸。

一方面，本公开提供一种生成靶核酸库的方法，其包括：使多种靶核酸与包含定点多肽和以核酸为靶的核酸的复合体接触，裂解所述多种靶核酸，和纯化所述多种靶核酸以产生靶核酸库。在一些实施方案中，所述方法进一步包括筛选所述靶核酸库。

一方面，本公开提供一种组合物，其包含：包含第一定点多肽和第一以核酸为靶的核酸的第一复合体、包含第二定点多肽和第二以核酸为靶的核酸的第二复合体，其中第一和第二以核酸为靶的核酸不同。在一些实施方案中，所述组合物进一步包含被第一或第二复合体结合的靶核酸。在一些实施方案中，第一定点多肽和第二定点多肽相同。在一些实施方案中，第一定点多肽和第二定点多肽不同。

一方面，本公开提供一种载体，其包含编码两种或更多种相差至少一个核苷酸的以核酸为靶的核酸的多核苷酸序列，和定点多肽。

一方面，本公开提供一种基因修饰的宿主细胞，其包含：包含编码两种或更多种相差至少一个核苷酸的以核酸为靶的核酸的多核苷酸序列的载体，和定点多肽。

一方面，本公开提供一种试剂盒，其包含：包含编码两种或更多种相差至少一个核苷酸的以核酸为靶的核酸的多核苷酸序列的载体、定点多肽，和合适的缓冲液。在一些实施方案中，所述试剂盒进一步包含：捕获剂、固体支持物、测序连接物(sequencing adaptors)和阳性对照，或它们的任何组合。在一些实施方案中，所述试剂盒进一步包含使用说明书。

一方面，本公开提供一种试剂盒，其包含：与野生型定点多肽相比包含降低的酶活性的定点多肽、以核酸为靶的核酸和捕获剂。在一些实施方案中，所述试剂盒进一步包含：使用说明书。在一些实施方案中，所述试剂盒进一步包含选自洗涤缓冲液、稳定缓冲液、重构缓冲液或稀释缓冲液的缓冲液。

一方面，本公开提供一种使用两种或更多种切口酶裂解靶核酸的方法，其包括：使靶核酸与第一复合体和第二复合体接触，其中第一复合体包含第一切口酶和第一以核酸为靶的核酸，且其中第二复合体包含第二切口酶和第二以核酸为靶的核酸，其中所述靶核酸包含在第一链上的第一前间区序列邻近基序和在第二链上的第二前间区序列邻近基序，其中第一以核酸为靶的核酸适合与第一前间区序列邻近基序杂交，且其中第二以核酸为靶的核酸适合与第二前间区序列邻近基序杂交，和切断所述靶核酸的第一和第二链，其中所述切断生成裂解的靶核酸。在一些实施方案中，第一和第二切口酶相同。在一些实施方案中，第一和第二切口酶不同。在一些实施方案中，第一和第二以核酸为靶的核酸不同。在一些实施方案中，在第一前间区序列邻近基序和第二前间区序列邻近基序之间具有少于125个核苷酸。在一些实施方案中，第一和第二前间区序列邻近基序包含序列NGG，其中N是任何核苷酸。在一些实施方案中，第一或第二切口酶包含至少一个基本无活性的核酸酶结构域。在一些实施方案中，第一或第二切口酶包含保守天冬氨酸的突变。在一些实施方案中，所述突变是D10A突变。在一些实施方案中，第一或第二切口酶包含保守组氨酸的突变。在一些实施方案中，所述突变是H840A突变。在一些实施方案中，在第一和第二前间区序列邻近基序之间具有少于15个核苷酸。在一些实施方案中，在第一和第二前间区序列邻近基序之间具有少于10个核苷酸。在一些实施方案中，在第一和第二前间区序列邻近基序之间具有少于5个核苷酸。在一些实施方案中，第一和第二前间区序列邻近基序彼此相邻。在一些实施方案中，所述切断包含第一切口酶切断第一链和第二切口酶切断第二链。在一些实施方案中，所述切断生成粘性末端切口。在一些实施方案中，所述切断生成平端切口。在一些实施方案中，所述方法进一步包括将供体多核苷酸插入裂解的靶核酸中。

一方面，本公开提供一种组合物，其包含：多个核酸分子，其中各核酸分子包含核酸-结合蛋白结合位点，其中所述多个核酸分子的至少一个编码以核酸为靶的核酸且所述多个核酸分子之一编码定点多肽，和融合多肽，其中所述融合多肽包含多个核酸-结合蛋白，其中所述多个核酸-结合蛋白适于结合到它们的关连核酸-结合蛋白结合位点上。在一些实施方案中，所述多个核酸-结合蛋白的一个或多个包含非天然序列。在一些实施方案中，所述非天然序列位于选自以下的位置：N-末端、C-末端、表面可及区，或它们的任何组合。在一些实施方案中，所述非天然序列编码核定位信号。在一些实施方案中，所述多个核酸-结合蛋白被接头隔开。在一些实施方案中，所述多个核酸-结合蛋白的一些是相同的核酸-结合蛋白。在一些实施方案中，所有所述多个核酸-结合蛋白都是相同的核酸-结合蛋白。在一些实施方案中，所述多个核酸-结合蛋白是不同的核酸-结合蛋白。在一些实施方案中，所述多个核酸-结合蛋白包含RNA-结合蛋白。在一些实施方案中，所述RNA-结合蛋白选自：I型成簇的规律间隔的短回文重复系统核糖核酸内切酶、II型成簇的规律间隔的短回文重复系统核糖核酸内切酶或III型成簇的规律间隔的短回文重复系统核糖核酸内切酶，或它们的任何组合。在一些实施方案中，所述RNA-结合蛋白选自：Cas5、Cas6和Csy4，或它们的任何组合。在一些实施方案中，所述多个核酸-结合蛋白包含DNA-结合蛋白。在一些实施方案中，所述核酸-结合蛋白结合位点经构造以结合选自：I型、II型和III型成簇的规律间隔的短回文重复系统核酸-结合蛋白或它们的任何组合的核酸-结合蛋白。在一些实施方案中，所述核酸-结合蛋白结合位点经构造以结合选自：Cas6、Cas5和Csy4或它们的任何组合的核酸-结合蛋白。在一些实施方案中，所述多个核酸分子的一些包含相同的核酸-结合蛋白结合位点。在一些实施方案中，所述多个核酸分子包含相同的核酸-结合蛋白结合位点。在一些实施方案中，所述多个核酸分子无一包含相同的核酸-结合蛋白结合位点。在一些实施方案中，所述定点多肽包含与Cas9的核酸酶结构域的至少20％序列同一性。在一些实施方案中，所述定点多肽是Cas9。在一些实施方案中，所述核酸分子的至少一个编码成簇的规律间隔的短回文重复核糖核酸内切酶。在一些实施方案中，所述成簇的规律间隔的短回文重复核糖核酸内切酶包含与Csy4的至少20％序列相似性。在一些实施方案中，所述成簇的规律间隔的短回文重复核糖核酸内切酶包含与Csy4的至少60％序列相似性。在一些实施方案中，所述成簇的规律间隔的短回文重复核糖核酸内切酶是Csy4。在一些实施方案中，所述多个核酸-结合蛋白包含降低的酶活性。在一些实施方案中，所述多个核酸-结合蛋白适于结合到所述核酸-结合蛋白结合位点上，但无法裂解所述核酸-结合蛋白结合位点。在一些实施方案中，所述以核酸为靶的核酸包含两个RNA分子。在一些实施方案中，这两个RNA分子各自的一部分杂交在一起。在一些实施方案中，这两个RNA分子的第一分子包含在8个邻接核苷酸包含与成簇的规律间隔的短回文重复RNA序列的至少60％同一性的序列，且其中这两个RNA分子的第二分子包含在6个邻接核苷酸中包含与反式激活-成簇的规律间隔的短回文重复RNA序列的至少60％同一性的序列。在一些实施方案中，所述以核酸为靶的核酸包含一个连续RNA分子，其中所述连续RNA分子进一步包含两个结构域和接头。在一些实施方案中，所述连续RNA分子的两个结构域的一部分杂交在一起。在一些实施方案中，所述连续RNA分子的第一部分包含在8个邻接核苷酸中包含与成簇的规律间隔的短回文重复RNA序列的至少60％同一性的序列，且其中所述连续RNA分子的第二部分包含在6个邻接核苷酸中包含与反式激活-成簇的规律间隔的短回文重复RNA序列的至少60％同一性的序列。在一些实施方案中，所述以核酸为靶的核酸适合在6-20个核苷酸中与靶核酸杂交。在一些实施方案中，所述组合物经构造以递送至细胞。在一些实施方案中，所述组合物经构造以向细胞递送等量的所述多个核酸分子。在一些实施方案中，所述组合物进一步包含供体多核苷酸分子，其中所述供体多核苷酸分子包含核酸-结合蛋白结合位点，其中所述结合位点被所述融合多肽的核酸-结合蛋白结合。

一方面，本公开提供一种向细胞中的亚细胞位置递送核酸的方法，其包括：将一种组合物引入细胞中，所述组合物包含：多个核酸分子，其中各核酸分子包含核酸-结合蛋白结合位点，其中所述多个核酸分子的至少一个编码以核酸为靶的核酸且所述多个核酸分子之一编码定点多肽，和融合多肽，其中所述融合多肽包含多个核酸-结合蛋白，其中所述多个核酸-结合蛋白适于结合到它们的关连核酸-结合蛋白结合位点上以向所述亚细胞位置化学计量地递送所述组合物，形成包含由编码定点多肽的核酸分子翻译的定点多肽和所述以核酸为靶的核酸的单元(unit)，和裂解靶核酸，其中所述单元的定点多肽裂解所述靶核酸。在一些实施方案中，所述多个核酸-结合蛋白结合到它们的关连核酸-结合蛋白结合位点上。在一些实施方案中，核糖核酸内切酶裂解所述一个或多个核酸-结合蛋白结合位点之一。在一些实施方案中，核糖核酸内切酶裂解所述编码以核酸为靶的核酸的核酸的核酸-结合蛋白结合位点，由此释放所述以核酸为靶的核酸。在一些实施方案中，所述亚细胞位置选自：核酸酶、ER、高尔基体、线粒体、细胞壁、溶酶体和细胞核。在一些实施方案中，所述亚细胞位置细胞核。

一方面，本公开提供一种载体，其包含：编码一种组合物的多核苷酸序列，所述组合物包含：多个核酸分子，其中各核酸分子包含核酸-结合蛋白结合位点，其中所述多个核酸分子的至少一个编码以核酸为靶的核酸且所述多个核酸分子之一编码定点多肽；和融合多肽，其中所述融合多肽包含多个核酸-结合蛋白，其中所述多个核酸-结合蛋白适于结合到它们的关连核酸-结合蛋白结合位点上以向所述亚细胞位置化学计量地递送所述组合物。在一些实施方案中，所述载体进一步包含编码启动子的多核苷酸。在一些实施方案中，所述启动子可与所述多核苷酸操作性连接。在一些实施方案中，所述启动子是诱导型启动子。

一方面，本公开提供一种基因修饰有机体，其包含一种载体，所述载体包含：编码多个核酸分子的多核苷酸序列，其中各核酸分子包含核酸-结合蛋白结合位点，其中所述多个核酸分子的至少一个编码以核酸为靶的核酸且所述多个核酸分子之一编码定点多肽，和融合多肽，其中所述融合多肽包含多个核酸-结合蛋白，其中所述多个核酸-结合蛋白适于结合到它们的关连核酸-结合蛋白结合位点上以向所述亚细胞位置化学计量地递送所述组合物。

一方面，本公开提供一种基因修饰有机体，其包含一种组合物，所述组合物包含：多个核酸分子，其中各核酸分子包含核酸-结合蛋白结合位点，其中所述多个核酸分子的至少一个编码以核酸为靶的核酸且所述多个核酸分子之一编码定点多肽；和融合多肽，其中所述融合多肽包含多个核酸-结合蛋白，其中所述多个核酸-结合蛋白适于结合到它们的关连核酸-结合蛋白结合位点上。

一方面，本公开提供一种试剂盒，其包含：一种组合物，所述组合物包含：多个核酸分子，其中各核酸分子包含核酸-结合蛋白结合位点，其中所述多个核酸分子的至少一个编码以核酸为靶的核酸且所述多个核酸分子之一编码定点多肽，和融合多肽，其中所述融合多肽包含多个核酸-结合蛋白，其中所述多个核酸-结合蛋白适于结合到它们的关连核酸-结合蛋白结合位点上，和缓冲液。

一方面，本公开提供一种试剂盒，其包含：一种载体，所述载体包含：编码多个核酸分子的多核苷酸序列，其中各核酸分子包含核酸-结合蛋白结合位点，其中所述多个核酸分子的至少一个编码以核酸为靶的核酸且所述多个核酸分子之一编码定点多肽；和融合多肽，其中所述融合多肽包含多个核酸-结合蛋白，其中所述多个核酸-结合蛋白适于结合到它们的关连核酸-结合蛋白结合位点上以向所述亚细胞位置化学计量地递送所述组合物，和缓冲液。在一些实施方案中，所述试剂盒进一步包含使用说明书。在一些实施方案中，所述缓冲液选自：稀释缓冲液、重构缓冲液和稳定缓冲液，或它们的任何组合。

一方面，本公开提供一种供体多核苷酸，其包含：感兴趣的遗传因子和报告元件(reporter element)，其中所述报告元件包含编码定点多肽的多核苷酸序列和一种或多种核酸，其中所述一种或多种核酸包含在6个邻接核苷酸中包含与crRNA的至少50％序列同一性的序列和在6个邻接核苷酸中包含与tracrRNA的至少50％序列同一性的序列。在一些实施方案中，所述感兴趣的遗传因子包含基因。在一些实施方案中，所述感兴趣的遗传因子包含选自：microRNA、siRNA和长非编码RNA或它们的任何组合的非编码核酸。在一些实施方案中，所述感兴趣的遗传因子包含非编码基因。在一些实施方案中，所述感兴趣的遗传因子包含选自：microRNA、siRNA和长非编码RNA或它们的任何组合的非编码核酸。在一些实施方案中，所述报告元件包含选自如下的基因：编码荧光蛋白的基因、编码化学发光蛋白的基因和抗生素抗性基因或它们的任何组合。在一些实施方案中，所述报告元件包含编码荧光蛋白的基因。在一些实施方案中，所述荧光蛋白包含绿色荧光蛋白。在一些实施方案中，所述报告元件可与启动子操作性连接。在一些实施方案中，所述启动子包含诱导型启动子。在一些实施方案中，所述启动子包含组织特异性启动子。在一些实施方案中，所述定点多肽包含与Cas9的核酸酶结构域的至少15％氨基酸序列同一性。在一些实施方案中，所述定点多肽包含在10个氨基酸中与Cas9的至少95％氨基酸序列同一性。在一些实施方案中，所述核酸酶结构域选自：HNH结构域、HNH样结构域、RuvC结构域和RuvC样结构域，或它们的任何组合。

一方面，本公开提供一种表达载体，其包含编码感兴趣的遗传因子的多核苷酸序列；和报告元件，其中所述报告元件包含编码定点多肽的多核苷酸序列和一种或多种核酸，其中所述一种或多种核酸包含在6个邻接核苷酸中包含与crRNA的至少50％序列同一性的序列和在6个邻接核苷酸中包含与tracrRNA的至少50％序列同一性的序列。

一方面，本公开提供一种基因修饰细胞，其包含一种供体多核苷酸，所述供体多核苷酸包含：感兴趣的遗传因子；和报告元件，其中所述报告元件包含编码定点多肽的多核苷酸序列和一种或多种核酸，其中所述一种或多种核酸包含在6个邻接核苷酸中包含与crRNA的至少50％序列同一性的序列和在6个邻接核苷酸中包含与tracrRNA的至少50％序列同一性的序列。

一方面，本公开提供一种试剂盒，其包含：一种供体多核苷酸，所述供体多核苷酸包含：感兴趣的遗传因子；和报告元件，其中所述报告元件包含编码定点多肽的多核苷酸序列和一种或多种核酸，其中所述一种或多种核酸包含在6个邻接核苷酸中包含与crRNA的至少50％序列同一性的序列和在6个邻接核苷酸中包含与tracrRNA的至少50％序列同一性的序列；和缓冲液。在一些实施方案中，所述试剂盒进一步包含：包含与Cas9的至少10％氨基酸序列同一性的多肽；和核酸，其中所述核酸结合到所述多肽上并与靶核酸杂交。在一些实施方案中，所述试剂盒进一步包含使用说明书。在一些实施方案中，所述试剂盒进一步包含编码多肽的多核苷酸，其中所述多肽包含与Cas9的至少15％氨基酸序列同一性。在一些实施方案中，所述试剂盒进一步包含编码核酸的多核苷酸，其中所述核酸包含在6个邻接核苷酸中包含与crRNA的至少50％序列同一性的序列和在6个邻接核苷酸中包含与tracrRNA的至少50％序列同一性的序列。

一方面，本公开提供一种使用报告元件选择细胞和从所述细胞上切除所述报告元件的方法，其包括：使靶核酸与包含定点多肽和以核酸为靶的核酸的复合体接触；用所述定点多肽裂解靶核酸，以生成裂解的靶核酸；将包含感兴趣的遗传因子；和报告元件的供体多核苷酸插入所述裂解的靶核酸中，其中所述报告元件包含编码定点多肽的多核苷酸序列和一种或多种核酸，其中所述一种或多种核酸包含在6个邻接核苷酸中包含与crRNA的至少50％序列同一性的序列和在6个邻接核苷酸中包含与tracrRNA的至少50％序列同一性的序列；和基于所述供体多核苷酸选择细胞以生成选定细胞。在一些实施方案中，选择包括从正进行疾病治疗的对象中选择细胞。在一些实施方案中，选择包含从正进行疾病诊断的对象中选择细胞。在一些实施方案中，在所述选择后，所述细胞包含所述供体多核苷酸。在一些实施方案中，所述方法进一步包括切除所有、一些报告元件或不切除报告元件，由此生成第二选定细胞。在一些实施方案中，切除包括使所述报告元件的5’末端与包含定点多肽和以核酸为靶的核酸的复合体接触，其中所述复合体裂解5’末端。在一些实施方案中，切除包括使所述报告元件的3’末端与包含定点多肽和以核酸为靶的核酸的复合体接触，其中所述复合体裂解3’末端。在一些实施方案中，切除包括使所述报告元件的5’和3’末端与一种或多种包含定点多肽和以核酸为靶的核酸的复合体接触，其中所述复合体裂解5’和3’末端。在一些实施方案中，所述方法进一步包括筛选第二选定细胞。在一些实施方案中，筛选包括观察所有或一些报告元件的缺失。

一方面，本公开提供一种组合物，其包含：一种核酸，所述核酸包含：间隔区，其中所述间隔区为12-30个核苷酸(包括12和30)且其中所述间隔区适合与在PAM的5’的序列杂交；第一双链体，其中第一双链体在所述间隔区的3’；突起，其中所述突起包含在第一双链体的第一链上的至少3个不成对核苷酸和在第一双链体的第二链上的至少1个不成对核苷酸；接头，其中所述接头连接所述双链体的第一链和第二链并且长度为至少3个核苷酸；P-结构域；和第二双链体，其中第二双链体是所述P-结构域的3’并适于结合到定点多肽上。在一些实施方案中，所述在PAM的5’的序列为至少18个核苷酸长。在一些实施方案中，所述在PAM的5’的序列与PAM相邻。在一些实施方案中，所述PAM包含5’-NGG-3’。在一些实施方案中，第一双链体与所述间隔区相邻。在一些实施方案中，所述P-结构域从所述双链体下游1-5个核苷酸处开始，包含至少4个核苷酸并适合与选自如下的序列杂交：5’-NGG-3’前间区序列邻近基序序列、包含与来自化脓性链球菌的Cas9的氨基酸1096-1225的至少50％同一性的序列或它们的任何组合。在一些实施方案中，所述定点多肽包含与来自化脓性链球菌的Cas9的核酸酶结构域的至少15％同一性。在一些实施方案中，所述核酸是RNA。在一些实施方案中，所述核酸是A型RNA。在一些实施方案中，第一双链体长度为至少6个核苷酸。在一些实施方案中，所述突起的所述3个不成对核苷酸包含5’-AAG-3’。在一些实施方案中，与第一双链体的第二链上的核苷酸形成摆动配对的核苷酸与所述3个不成对核苷酸相邻。在一些实施方案中，所述多肽与选自如下的核酸区域结合：第一双链体、第二双链体和P-结构域，或它们的任何组合。

一方面，本公开提供一种修饰靶核酸的方法，其包括：使靶核酸与一种组合物接触，所述组合物包含：一种核酸，所述核酸包含：间隔区，其中所述间隔区为12-30个核苷酸(包括12和30)且其中所述间隔区适合与在PAM的5’的序列杂交；第一双链体，其中第一双链体在所述间隔区的3’；突起，其中所述突起包含在第一双链体的第一链上的至少3个不成对核苷酸和在第一双链体的第二链上的至少1个不成对核苷酸；接头，其中所述接头连接所述双链体的第一链和第二链并且长度为至少3个核苷酸；P-结构域；和第二双链体，其中第二双链体是所述P-结构域的3’并适于结合到定点多肽上；和修饰所述靶核酸。在一些实施方案中，所述方法进一步包括与定点多肽接触。在一些实施方案中，所述接触包括使所述间隔区与所述靶核酸接触。在一些实施方案中，所述修饰包括裂解靶核酸以产生裂解的靶核酸。在一些实施方案中，通过所述定点多肽实施所述裂解。在一些实施方案中，所述方法进一步包括将供体多核苷酸插入到裂解的靶核酸中。在一些实施方案中，所述修饰包括修饰靶核酸的转录。

一方面，本公开提供一种载体，其包含编码一种核酸的多核苷酸序列，所述核酸包含：间隔区，其中所述间隔区为12-30个核苷酸(包括12和30)且其中所述间隔区适合与在PAM的5’的序列杂交；第一双链体，其中第一双链体在所述间隔区的3’；突起，其中所述突起包含在第一双链体的第一链上的至少3个不成对核苷酸和在第一双链体的第二链上的至少1个不成对核苷酸；接头，其中所述接头连接所述双链体的第一链和第二链并且长度为至少3个核苷酸；P-结构域；和第二双链体，其中第二双链体是所述P-结构域的3’并适于结合到定点多肽上。

一方面，本公开提供一种试剂盒，其包含：一种组合物，所述组合物包含：一种核酸，所述核酸包含：间隔区，其中所述间隔区为12-30个核苷酸(包括12和30)且其中所述间隔区适合与在PAM的5’的序列杂交；第一双链体，其中第一双链体在所述间隔区的3’；突起，其中所述突起包含在第一双链体的第一链上的至少3个不成对核苷酸和在第一双链体的第二链上的至少1个不成对核苷酸；接头，其中所述接头连接所述双链体的第一链和第二链并且长度为至少3个核苷酸；P-结构域；和第二双链体，其中第二双链体是所述P-结构域的3’并适于结合到定点多肽上；和缓冲液。在一些实施方案中，所述试剂盒进一步包含定点多肽。在一些实施方案中，所述试剂盒进一步包含供体多核苷酸。在一些实施方案中，所述试剂盒进一步包含使用说明书。

一方面，本公开提供一种制造合成设计的以核酸为靶的核酸的方法，其包括：设计一种组合物，所述组合物包含：一种核酸，所述核酸包含：间隔区，其中所述间隔区为12-30个核苷酸(包括12和30)且其中所述间隔区适合与在PAM的5’的序列杂交；第一双链体，其中第一双链体在所述间隔区的3’；突起，其中所述突起包含在第一双链体的第一链上的至少3个不成对核苷酸和在第一双链体的第二链上的至少1个不成对核苷酸；接头，其中所述接头连接所述双链体的第一链和第二链并且长度为至少3个核苷酸；P-结构域；和第二双链体，其中第二双链体是所述P-结构域的3’并适于结合到定点多肽上。

一方面，本公开提供一种药物组合物，其包含工程改造的以核酸为靶的核酸，所述工程改造的以核酸为靶的核酸选自：包含在所述以核酸为靶的核酸的P-结构域中的突变的工程改造的以核酸为靶的核酸；包含在以核酸为靶的核酸的突起区中的突变的工程改造的以核酸为靶的核酸。

一方面，本公开提供一种药物组合物，其包含选自下列的组合物：一种组合物，其包含：包含3’杂交突出端的工程改造的以核酸为靶的核酸，和供体多核苷酸，其中所述供体多核苷酸杂交到所述3’杂交突出端上；一种组合物，其包含：效应蛋白和核酸，其中所述核酸包含：在6个邻接核苷酸中与crRNA的至少50％序列同一性、在6个邻接核苷酸中与tracrRNA的至少50％序列同一性和非天然序列，其中所述核酸适于结合到所述效应蛋白上；一种组合物，其包含：多重遗传靶向剂，其中所述多重遗传靶向剂包含一个或多个核酸模块，其中所述核酸模块包含非天然序列，且其中所述核酸模块经构造以结合到包含与Cas9的核酸酶结构域的至少10％氨基酸序列同一性的多肽上，且其中所述核酸模块经构造以与靶核酸杂交；一种组合物，其包含：修饰的定点多肽，其中修饰所述多肽以使其与野生型定点多肽相比适于靶向第二前间区序列邻近基序；一种组合物，其包含：修饰的定点多肽，其中修饰所述多肽以使其与野生型定点多肽相比适于靶向第二以核酸为靶的核酸；一种组合物，其包含：与SEQ ID:8相比在桥螺旋中包含修饰的修饰的定点多肽；一种组合物，其包含：与SEQ ID:8相比在高碱性补丁中包含修饰的修饰的定点多肽；一种组合物，其包含：与SEQ ID:8相比在聚合酶类结构域中包含修饰的修饰的定点多肽；一种组合物，其包含：与SEQ ID:8相比在桥螺旋、高碱性补丁、核酸酶结构域和聚合酶结构域中包含修饰的修饰的定点多肽，或它们的任何组合；一种组合物，其包含：与SEQ ID:8相比包含修饰核酸酶结构域的修饰的定点多肽；一种组合物，其包含：包含第一定点多肽和第一以核酸为靶的核酸的第一复合体、包含第二定点多肽和第二以核酸为靶的核酸的第二复合体，其中所述第一和第二以核酸为靶的核酸不同；一种组合物，其包含：多个核酸分子，其中各核酸分子包含核酸-结合蛋白结合位点，其中所述多个核酸分子的至少一个编码以核酸为靶的核酸且所述多个核酸分子之一编码定点多肽，和融合多肽，其中所述融合多肽包含多个所述核酸-结合蛋白，其中所述多个核酸-结合蛋白适于结合到它们的关连核酸-结合蛋白结合位点上；和一种组合物，其包含：一种核酸，所述核酸包含：间隔区，其中所述间隔区为12-30个核苷酸(包括12和30)且其中所述间隔区适合与在PAM的5’的序列杂交，第一双链体，其中所述第一双链体在所述间隔区的3’，突起，其中所述突起包含在所述第一双链体的第一链上的至少3个不成对核苷酸和在所述第一双链体的第二链上的至少1个不成对核苷酸，接头，其中所述接头连接所述双链体的所述第一链和所述第二链并且长度为至少3个核苷酸，P-结构域和第二双链体，其中所述第二双链体是所述P-结构域的3’并适于结合到定点多肽上；或它们的任何组合。

一方面，本公开提供一种药物组合物，其包含一种修饰的定点多肽，所述修饰的定点多肽包含：第一核酸酶结构域、第二核酸酶结构域和插入的核酸酶结构域。

一方面，本公开提供一种药物组合物，其包含一种供体多核苷酸，所述供体多核苷酸包含：感兴趣的遗传因子和报告元件，其中所述报告元件包含编码定点多肽的多核苷酸序列和一种或多种核酸，其中所述一种或多种核酸包含在6个邻接核苷酸中包含与crRNA的至少50％序列同一性的序列和在6个邻接核苷酸中包含与tracrRNA的至少50％序列同一性的序列。

一方面，本公开提供一种药物组合物，其包含选自下列的载体：包含编码工程改造的以核酸为靶的核酸的多核苷酸序列的载体，所述工程改造的以核酸为靶的核酸包含：在所述以核酸为靶的核酸的P-结构域中的突变；包含编码工程改造的以核酸为靶的核酸的多核苷酸序列的载体，所述工程改造的以核酸为靶的核酸包含：在以核酸为靶的核酸的突起区中的突变；和修饰所述靶核酸；包含编码修饰的以核酸为靶的核酸的多核苷酸序列的载体，其中所述修饰的以核酸为靶的核酸包含非天然序列；包含编码修饰的以核酸为靶的核酸的多核苷酸序列的载体，其中所述修饰的以核酸为靶的核酸包含经构造以结合到效应蛋白上的序列和定点多肽；包含编码修饰的以核酸为靶的核酸的多核苷酸序列的载体，其中所述修饰的以核酸为靶的核酸包含非天然序列、定点多肽和效应蛋白；包含编码多重遗传靶向剂的多核苷酸序列的载体，其中所述多重遗传靶向剂包含一个或多个核酸模块，其中所述核酸模块包含非天然序列，且其中所述核酸模块经构造以结合到包含与Cas9的核酸酶结构域的至少10％氨基酸序列同一性的多肽上，且其中所述核酸模块经构造以与靶核酸杂交；包含编码修饰的定点多肽的多核苷酸序列的载体，所述修饰的定点多肽与SEQ ID:8相比在桥螺旋、高碱性补丁、核酸酶结构域和聚合酶结构域中包含修饰，或它们的任何组合；包含编码两种或更多种相差至少一个核苷酸的以核酸为靶的核酸的多核苷酸序列和定点多肽的载体；一种载体，其包含：编码一种组合物的多核苷酸序列，所述组合物包含：多个核酸分子，其中各核酸分子包含核酸-结合蛋白结合位点，其中所述多个核酸分子的至少一个编码以核酸为靶的核酸且所述多个核酸分子之一编码定点多肽；和融合多肽，其中所述融合多肽包含多个核酸-结合蛋白，其中所述多个核酸-结合蛋白适于结合到它们的关连核酸-结合蛋白结合位点上以向所述亚细胞位置化学计量地递送所述组合物；包含编码感兴趣的遗传因子的多核苷酸序列和报告元件的表达载体，其中所述报告元件包含编码定点多肽的多核苷酸序列和一种或多种核酸，其中所述一种或多种核酸包含在6个邻接核苷酸中包含与crRNA的至少50％序列同一性的序列和在6个邻接核苷酸中包含与tracrRNA的至少50％序列同一性的序列；和包含编码一种核酸的多核苷酸序列的载体，所述核酸包含：间隔区，其中所述间隔区为12-30个核苷酸(包括12和30)且其中所述间隔区适合与在PAM的5’的序列杂交；第一双链体，其中第一双链体在所述间隔区的3’；突起，其中所述突起包含在第一双链体的第一链上的至少3个不成对核苷酸和在第一双链体的第二链上的至少1个不成对核苷酸；接头，其中所述接头连接所述双链体的第一链和第二链并且长度为至少3个核苷酸；P-结构域；和第二双链体，其中第二双链体是所述P-结构域的3’并适于结合到定点多肽上；或它们的任何组合。

一方面，本公开提供一种治疗疾病的方法，其包括给予对象：一种工程改造的以核酸为靶的核酸，其包含：在所述以核酸为靶的核酸的P-结构域中的突变；一种工程改造的以核酸为靶的核酸，其包含：在以核酸为靶的核酸的突起区中的突变；一种组合物，其包含：包含3’杂交突出端的工程改造的以核酸为靶的核酸和供体多核苷酸，其中所述供体多核苷酸与所述3’杂交突出端杂交；一种组合物，其包含：效应蛋白和核酸，其中所述核酸包含：在6个邻接核苷酸中与crRNA的至少50％序列同一性、在6个邻接核苷酸中与tracrRNA的至少50％序列同一性和非天然序列，其中所述核酸适于结合到所述效应蛋白上；一种组合物，其包含：多重遗传靶向剂，其中所述多重遗传靶向剂包含一个或多个核酸模块，其中所述核酸模块包含非天然序列，且其中所述核酸模块经构造以结合到包含与Cas9的核酸酶结构域的至少10％氨基酸序列同一性的多肽上且其中所述核酸模块经构造以与靶核酸杂交；一种组合物，其包含：修饰的定点多肽，其中修饰所述多肽以使其与野生型定点多肽相比适于靶向第二前间区序列邻近基序；一种组合物，其包含：修饰的定点多肽，其中修饰所述多肽以使其与野生型定点多肽相比适于靶向第二以核酸为靶的核酸；一种组合物，其包含：与SEQID:8相比在桥螺旋中包含修饰的修饰的定点多肽；一种组合物，其包含：与SEQ ID:8相比在高碱性补丁中包含修饰的修饰的定点多肽；一种组合物，其包含：与SEQ ID:8相比在聚合酶类结构域中包含修饰的修饰的定点多肽；一种组合物，其包含：与SEQ ID:8相比在桥螺旋、高碱性补丁、核酸酶结构域和聚合酶结构域中包含修饰的修饰的定点多肽，或它们的任何组合；一种组合物，其包含：与SEQ ID:8相比包含修饰核酸酶结构域的修饰的定点多肽；一种组合物，其包含：包含第一定点多肽和第一以核酸为靶的核酸的第一复合体、包含第二定点多肽和第二以核酸为靶的核酸的第二复合体，其中所述第一和第二以核酸为靶的核酸不同；一种组合物，其包含：多个核酸分子，其中各核酸分子包含核酸-结合蛋白结合位点，其中所述多个核酸分子的至少一个编码以核酸为靶的核酸且所述多个核酸分子之一编码定点多肽，和融合多肽，其中所述融合多肽包含多个所述核酸-结合蛋白，其中所述多个核酸-结合蛋白适于结合到它们的关连核酸-结合蛋白结合位点上；一种组合物，其包含：一种核酸，所述核酸包含：间隔区，其中所述间隔区为12-30个核苷酸(包括12和30)且其中所述间隔区适合与在PAM的5’的序列杂交，第一双链体，其中所述第一双链体在所述间隔区的3’，突起，其中所述突起包含在所述第一双链体的第一链上的至少3个不成对核苷酸和在所述第一双链体的第二链上的至少1个不成对核苷酸，接头，其中所述接头连接所述双链体的所述第一链和所述第二链并且长度为至少3个核苷酸，P-结构域和第二双链体，其中所述第二双链体是所述P-结构域的3’并适于结合到定点多肽上；一种修饰的定点多肽，其包含：第一核酸酶结构域、第二核酸酶结构域和插入的核酸酶结构域；一种供体多核苷酸，其包含：感兴趣的遗传因子和报告元件，其中所述报告元件包含编码定点多肽的多核苷酸序列和一种或多种核酸，其中所述一种或多种核酸包含在6个邻接核苷酸中包含与crRNA的至少50％序列同一性的序列和在6个邻接核苷酸中包含与tracrRNA的至少50％序列同一性的序列；包含编码工程改造的以核酸为靶的核酸的多核苷酸序列的载体，所述工程改造的以核酸为靶的核酸包含：在所述以核酸为靶的核酸的P-结构域中的突变；包含编码工程改造的以核酸为靶的核酸的多核苷酸序列的载体，所述工程改造的以核酸为靶的核酸包含：在以核酸为靶的核酸的突起区中的突变；和修饰所述靶核酸；包含编码修饰的以核酸为靶的核酸的多核苷酸序列的载体，其中所述修饰的以核酸为靶的核酸包含非天然序列；包含编码修饰的以核酸为靶的核酸的多核苷酸序列的载体，其中所述修饰的以核酸为靶的核酸包含经构造以结合到效应蛋白上的序列，和定点多肽；包含编码修饰的以核酸为靶的核酸的多核苷酸序列的载体，其中所述修饰的以核酸为靶的核酸包含非天然序列、定点多肽和效应蛋白；包含编码多重遗传靶向剂的多核苷酸序列的载体，其中所述多重遗传靶向剂包含一个或多个核酸模块，其中所述核酸模块包含非天然序列，且其中所述核酸模块经构造以结合到包含与Cas9的核酸酶结构域的至少10％氨基酸序列同一性的多肽上，且其中所述核酸模块经构造以与靶核酸杂交；包含编码修饰的定点多肽的多核苷酸序列的载体，所述修饰的定点多肽与SEQ ID:8相比在桥螺旋、高碱性补丁、核酸酶结构域和聚合酶结构域中包含修饰，或它们的任何组合；包含编码两种或更多种相差至少一个核苷酸的以核酸为靶的核酸的多核苷酸序列和定点多肽的载体；一种载体，其包含：编码一种组合物的多核苷酸序列，所述组合物包含：多个核酸分子，其中各核酸分子包含核酸-结合蛋白结合位点，其中所述多个核酸分子的至少一个编码以核酸为靶的核酸且所述多个核酸分子之一编码定点多肽；和融合多肽，其中所述融合多肽包含多个核酸-结合蛋白，其中所述多个核酸-结合蛋白适于结合到它们的关连核酸-结合蛋白结合位点上以向所述亚细胞位置化学计量地递送所述组合物；包含编码感兴趣的遗传因子的多核苷酸序列和报告元件的表达载体，其中所述报告元件包含编码定点多肽的多核苷酸序列和一种或多种核酸，其中所述一种或多种核酸包含在6个邻接核苷酸中包含与crRNA的至少50％序列同一性的序列和在6个邻接核苷酸中包含与tracrRNA的至少50％序列同一性的序列；和包含编码一种核酸的多核苷酸序列的载体，所述核酸包含：间隔区，其中所述间隔区为12-30个核苷酸(包括12和30)且其中所述间隔区适合与在PAM的5’的序列杂交；第一双链体，其中第一双链体在所述间隔区的3’；突起，其中所述突起包含在第一双链体的第一链上的至少3个不成对核苷酸和在第一双链体的第二链上的至少1个不成对核苷酸；接头，其中所述接头连接所述双链体的第一链和第二链并且长度为至少3个核苷酸；P-结构域；和第二双链体，其中第二双链体是所述P-结构域的3’并适于结合到定点多肽上；或它们的任何组合。在一些实施方案中，所述给药包括通过病毒递送给药。在一些实施方案中，所述给药包括通过电穿孔给药。在一些实施方案中，所述给药包括通过纳米粒子递送给药。在一些实施方案中，所述给药包括通过脂质体递送给药。在一些实施方案中，所述给药包括通过选自如下的方法给药：静脉给药、皮下给药、肌内给药、经口给药、直肠给药、气雾剂给药、肠道外给药、经眼给药、肺部给药、经皮给药、阴道给药、经耳给药、鼻内给药和局部给药或它们的任何组合。在一些实施方案中，在选自：植物细胞、微生物细胞和真菌细胞或它们的任何组合的细胞中进行本公开的方法。

经此引用并入

本说明书中提到的所有出版物、专利和专利申请经此引用并入本文，就像各个出版物、专利或专利申请明确地逐一被指出经此引用并入本文。

附图简述

特别在所附权利要求中阐述本发明的新颖特征。参照下列详述(其阐述了利用本发明的原理的示例性实施方案)和附图获得本发明的特征和优点的更好理解，其中：

图1A描绘本公开的以核酸为靶的单导向核酸的一个示例性实施方案。

图1B描绘本公开的以核酸为靶的单导向核酸的一个示例性实施方案。

图2描绘本公开的以核酸为靶的双导向核酸的一个示例性实施方案。

图3描绘利用靶核酸裂解的本公开的序列富集方法的一个示例性实施方案。

图4描绘利用靶核酸富集的本公开的序列富集方法的一个示例性实施方案。

图5描绘利用定点多肽的纯化测定定点多肽的脱靶结合位点的本公开的方法的一个示例性实施方案。

图6描绘利用以核酸为靶的核酸的纯化测定定点多肽的脱靶结合位点的本公开的方法的一个示例性实施方案。

图7图解使用本公开的定点多肽的阵列基测序方法的一个示例性实施方案。

图8图解使用本公开的定点多肽的阵列基测序方法的一个示例性实施方案，其中将裂解产物测序。

图9图解使用本公开的定点多肽的基于下一代测序方法的一个示例性实施方案。

图10描绘一种示例性的以核酸为靶的标记单导向核酸。

图11描绘一种示例性的以核酸为靶的标记双导向核酸。

图12图解使用具有分离体系(例如分离荧光体系)的标记的以核酸为靶的核酸的方法的一个示例性实施方案。

图13描绘关于5’标记的以核酸为靶的核酸对靶核酸裂解的影响的一些示例性数据。

图14图解在以核酸为靶的核酸和标记之间包含标记接头序列的一种示例性的5’标记的以核酸为靶的核酸。

图15描绘多重靶核酸裂解方法的一个示例性实施方案。

图16描绘RNA核酸的化学计量递送方法的一个示例性实施方案。

图17描绘核酸的化学计量递送方法的一个示例性实施方案。

图18描绘使用本公开的定点多肽将报告元件无缝插入靶核酸中的一个示例性实施方案。

图19描绘从靶核酸中除去报告元件的一个示例性实施方案。

图20描绘前-CRISPR核酸的核酸序列和来自化脓性链球菌SF370的tracr核酸序列的互补部分。

图21描绘以核酸为靶的合成单导向核酸的示例性二级结构。

图22A和B显示示例性的以核酸为靶的单导向核酸骨架变体。框中的核苷酸相当于相对于标作FL-tracr-crRNA序列的CRISPR序列已改变的核苷酸。

图23A-C显示来自体外裂解分析的示例性数据。结果证实多于一个合成的以核酸为靶的核酸骨架序列可通过定点多肽(例如Cas9)支持裂解。

图24显示在互补区/双链体中含有变体的示例性的以核酸为靶的合成单导向核酸序列。框中的核苷酸相当于相对于标作FL-tracr-crRNA序列的CRISPR序列已改变的核苷酸。

图25显示在互补区/双链体的3’区域内对所述以核酸为靶的单导向核酸结构的示例性变体。框中的核苷酸相当于相对于天然存在的化脓性链球菌SF370CRISPR核酸和tracr核酸序列配对已改变的核苷酸。

图26A-B显示在互补区/双链体的3’区域内对所述以核酸为靶的单导向核酸结构的示例性变体。框中的核苷酸相当于相对于天然存在的化脓性链球菌SF370CRISPR核酸和tracr核酸序列配对已改变的核苷酸。

图27A-B显示包含衍生自铜绿假单胞菌(PA14)中的CRISPR重复片段的附加发夹结构序列的示例性的变异的以核酸为靶的核酸结构。框中的序列可与来自PA14的核糖核酸酶Csy4结合。

图28显示来自体外裂解测定的示例性数据，其证实多个合成的以核酸为靶的核酸骨架序列支持Cas9裂解。上方和下方凝胶图像代表该测定的2次独立的重复。

图29显示来自体外裂解测定的示例性数据，其证实多个合成的以核酸为靶的核酸骨架序列支持Cas9裂解。上方和下方凝胶图像代表该测定的2次独立的重复。

图30描绘将供体多核苷酸带到靶核酸中修饰位点的本公开的示例性方法。

图31描绘用于储存和分享电子信息的系统。

图32描绘在靶核酸中生成平端切口的两种切口酶的一个示例性实施方案。没有显示与以核酸为靶的核酸复合的定点修饰多肽。

图33描绘使用两种切口酶并生成粘性末端的靶核酸的交错切割(staggardcutting)的一个示例性实施方案。没有显示与以核酸为靶的核酸复合的定点修饰多肽。

图34描绘使用两种切口酶并生成中等尺寸的粘性末端的靶核酸的交错切割(staggard cutting)的一个示例性实施方案。没有显示与以核酸为靶的核酸复合的定点修饰多肽。

图35图解Cas9直系同源物的序列比对。在其下方带有“X”的氨基酸被认为类似。在其下方带有“Y”的氨基酸被认为在所有序列中高度保守或相同。没有“X”或“Y”的氨基酸残基可能不保守。

图36显示以核酸为靶的核酸变体对靶核酸裂解的功能。图36中测试的变体相当于图22、图24和图25中描绘的变体。

图37A-D显示使用以核酸为靶的变异核酸的体外裂解测定。

图38描绘来自野生型铜绿假单胞菌的Csy4的示例性的氨基酸序列。

图39描绘无酶活性的核糖核酸内切酶(例如Csy4)的示例性的氨基酸序列。

图40描绘来自铜绿假单胞菌的Csy4的示例性的氨基酸序列。

图41A-J描绘示例性的Cas6氨基酸序列。

图42A-C描绘示例性的Cas6氨基酸序列。

发明详述

定义

本文所用的“亲和标记”可以是指肽亲和标记或核酸亲和标记。亲和标记通常是指可结合到分子上(例如通过小分子、蛋白、共价键结合)的蛋白或核酸序列。亲和标记可以是非天然序列。肽亲和标记可包含肽。肽亲和标记可以是能够为分离体系的一部分的亲和标记(例如两个无活性肽片段可以反式结合在一起以形成活性亲和标记)。核酸亲和标记可包含核酸。核酸亲和标记可以是可选择性结合到已知核酸序列(例如通过杂交)上的序列。核酸亲和标记可以是可选择性结合到蛋白上的序列。亲和标记可融合到天然蛋白上。亲和标记可融合到核苷酸序列上。有时，一个、两个或多个亲和标记可融合到天然蛋白或核苷酸序列上。可以使用体外或体内转录法将亲和标记引入以核酸为靶的核酸中。核酸亲和标记可包括例如化学标记、RNA-结合蛋白结合序列、DNA-结合蛋白结合序列、可杂交到亲和标记的多核苷酸上的序列、合成RNA适体或合成DNA适体。化学核酸亲和标记的实例可包括，但不限于，含有生物素、荧光染料和地高辛的核糖核苷三磷酸(ribo-nucleotriphosphates)。结合蛋白的核酸亲和标记的实例可包括，但不限于，MS2结合序列、U1A结合序列、茎-环结合蛋白序列、boxB序列、eIF4A序列或通过RNA结合蛋白识别的任何序列。核酸亲和标记的寡核苷酸的实例可包括，但不限于，生物素化寡核苷酸、2,4-二硝基苯基寡核苷酸、荧光素寡核苷酸和伯胺缀合的寡核苷酸。

核酸亲和标记可以是RNA适体。适体可包括，结合到茶碱、链霉亲和素、葡聚糖B512、腺苷、鸟苷、鸟嘌呤/黃嘌呤、7-甲基-GTP上的适体，氨基酸适体，如结合到精氨酸、瓜氨酸、缬氨酸、色氨酸、氰钴胺、N-甲基中卟啉IX、黃素、NAD上的适体，和抗生素适体，如结合到妥布霉素、新霉素、青紫霉素、卡那霉素、链霉素、紫霉素和氯霉素上的适体。

核酸亲和标记可包含可被定点多肽结合的RNA序列。该定点多肽可以有条件地无酶活性。该RNA序列可包含可被I型、II型和/或III型CRISPR系统的成员结合的序列。该RNA序列可被RAMP家族成员蛋白结合。该RNA序列可被Cas6家族成员蛋白(例如Csy4、Cas6)结合。该RNA序列可被Cas5家族成员蛋白(例如Cas5)结合。例如，Csy4可以以高亲和力(Kd～50pM)结合到特异性RNA发夹序列上并可在该发夹结构的位点3’裂解RNA。Cas5或Cas6家族成员蛋白可以结合RNA序列，所述RNA序列包含与下列核苷酸序列的至少大约或最多大约30％、40％、50％、60％、70％、75％、80％、85％、90％、95％或100％序列同一性和/或序列相似性：

5'-GUUCACUGCCGUAUAGGCAGCUAAGAAA-3'；

5′-GUUCACUGCCGUAUAGGCAGCUAAGAAA-3'

5'-GUUGCAAGGGAUUGAGCCCCGUAAGGGGAUUGCGAC-3'；

5'-GUUGCAAACCUCGUUAGCCUCGUAGAGGAUUGAAAC-3'；

5'-GGAUCGAUACCCACCCCGAAGAAAAGGGGACGAGAAC-3'；

5'-GUCGUCAGACCCAAAACCCCGAGAGGGGACGGAAAC-3'；

5'-GAUAUAAACCUAAUUACCUCGAGAGGGGACGGAAAC-3'；

5'-CCCCAGUCACCUCGGGAGGGGACGGAAAC-3'；

5'-GUUCCAAUUAAUCUUAAACCCUAUUAGGGAUUGAAAC-3'.

5'-GUUGCAAGGGAUUGAGCCCCGUAAGGGGAUUGCGAC-3'；

5'-GUUGCAAACCUCGUUAGCCUCGUAGAGGAUUGAAAC-3'；

5'-GGAUCGAUACCCACCCCGAAGAAAAGGGGACGAGAAC-3'；

5'-GUCGUCAGACCCAAAACCCCGAGAGGGGACGGAAAC-3'；

5'-GUAUAAAACCUAAUUACCUCGAGAGGGGACGGAAAC-3'；

5'-CCCCAGUCACCUCGGGAGGGGACGGAAAC-3'；

5'-GUUCCAAUUAAUCUUAAACCCUAUUAGGGAUUGAAAC-3'，

5'-GUCGCCCCCCACGCGGGGGCGUGGAUUGAAAC-3'；

5'-CCAGCCGCCUUCGGGCGGCUGUGUGUUGAAAC-3'；

5'-GUCGCACUCUACAUGAGUGCGUGGAUUGAAAU-3';

5'-UGUCGCACCUUAUAUAGGUGCGUGGAUUGAAAU-3'；

和5’-GUCGCGCCCCGCAUGGGGCGCGUGGAUUGAAA-3’，

核酸亲和标记可包含可被定点多肽结合的DNA序列。该定点多肽可以有条件地无酶活性。该DNA序列可包含可被I型、II型和/或III型CRISPR系统的成员结合的序列。该DNA序列可被Argonaut蛋白结合。该DNA序列可被含有锌指结构域、TALE结构域或任何其它DNA-结合域的蛋白结合。

核酸亲和标记可包含核酶序列。合适的核酶可包括肽基转移酶23S rRNA、RNA酶P、I型内含子、II型内含子、GIR1分支核酶、Leadzyme、发夹状核酶、锤头状核酶、HDV核酶、CPEB3核酶、VS核酶、glmS核酶、CoTC核酶和合成核酶。

肽亲和标记可包含可用于示踪或纯化的标记(例如荧光蛋白、绿色荧光蛋白(GFP)、YFP、RFP、CFP、mCherry、tdTomato、his标记(例如6XHis标记)、血凝素(HA)标记、FLAG标记、Myc标记、GST标记、MBP标记和几丁质结合蛋白标记、钙调素标记、V5标记、链霉亲和素结合标记等)。

核酸和肽亲和标记都可包含小分子标记，如生物素或洋地黄毒苷，荧光标签标记，例如荧光素、罗丹明、Alexa萤石染料、花青3染料、花青5染料。

核酸亲和标记可位于核酸(例如以核酸为靶的核酸)的5’。核酸亲和标记可位于核酸的3’。核酸亲和标记可位于核酸的5’和3’。核酸亲和标记可位于核酸内。肽亲和标记可位于多肽序列的N-末端。肽亲和标记可位于多肽序列的C-末端。肽亲和标记可位于多肽序列的N-末端和C-末端。多个亲和标记可融合到核酸和/或多肽序列上。

本文所用的“捕获剂”通常可指可纯化多肽和/或核酸的试剂。捕获剂可以是生物活性分子或材料(例如在自然界中发现或合成的任何生物物质，并包括但不限于细胞、病毒、亚细胞粒子、蛋白，更具体包括抗体、免疫球蛋白、抗原、脂蛋白、糖蛋白、肽、多肽、蛋白复合体、(链霉)亲和素-生物素复合物、配体、受体或小分子、适体、核酸、DNA、RNA、肽核酸、寡糖、多糖、脂多糖、细胞代谢物、半抗原、药理活性物质、生物碱、甾类、维生素、氨基酸和sugures)。在一些实施方案中，该捕获剂可包含亲和标记。在一些实施方案中，捕获剂可优先结合到感兴趣的靶多肽或核酸上。捕获剂可自由漂浮在混合物中。捕获剂可结合到粒子(例如珠子、微珠、纳米粒子)上。捕获剂可结合到固体或半固体表面上。在一些情况中，捕获剂不可逆地结合到靶上。在另一些情况中，捕获剂可逆地结合到靶上(例如如果靶可洗脱，或通过使用化学品，如咪唑)。

本文所用的“Cas5”通常可指具有野生型示例性Cas5多肽(例如来自D.vulgaris的Cas5，和/或图42中描绘的任何序列)的至少大约5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％序列同一性和/或序列相似性的多肽。Cas5通常可指具有野生型示例性Cas5多肽(例如来自D.vulgaris的Cas5)的最多大约5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％序列同一性和/或序列相似性的多肽。Cas5可以是指Cas5蛋白的野生型或修饰形式，其可包括氨基酸变化，如缺失、插入、置换、变异、突变、融合、嵌合体或它们的任何组合。

本文所用的“Cas6”通常可指具有野生型示例性Cas6多肽(例如来自的嗜热栖热菌(T.thermophilus)的Cas6，和/或图41中描绘的序列)的至少大约5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％序列同一性和/或序列相似性的多肽。Cas6通常可指具有野生型示例性Cas6多肽(例如来自嗜热栖热菌)的最多大约5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％序列同一性和/或序列相似性的多肽。Cas6可以是指Cas6蛋白的野生型或修饰形式，其可包含氨基酸变化，如缺失、插入、置换、变异、突变、融合、嵌合体或它们的任何组合。

本文所用的“Cas9”通常可指具有野生型示例性Cas9多肽(例如来自化脓性链球菌的Cas9(SEQ ID NO:8、SEQ ID NO:1-256、SEQ ID NO:795-1346))的至少大约5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％序列同一性和/或序列相似性的多肽。Cas9可以是指具有野生型示例性Cas9多肽(例如来自化脓性链球菌)的最多大约5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％序列同一性和/或序列相似性的多肽。Cas9可以是指Cas9蛋白的野生型或修饰形式，其可包含氨基酸变化，如缺失、插入、置换、变异、突变、融合、嵌合体或它们的任何组合。

本文所用的“细胞”通常可指生物细胞。细胞可以是活有机体的基本结构、功能和/或生物单位。细胞可源自具有一个或多个细胞的任何有机体。一些非限制性实例包括：原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物的细胞、原生动物细胞、来自植物的细胞(例如来自作物、水果、蔬菜、谷物、大豆、玉米、玉蜀黍、小麦、种子、番茄、大米、木薯、甘蔗、南瓜、干草、马铃薯、棉、大麻、烟草、开花植物、针叶树、裸子植物、蕨类、石松、金鱼藻、地钱、苔藓的细胞)、藻细胞(例如布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonas reinhardtii)、海洋富油微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻(Sargassum patens C.Agardh)等)、海草(例如海带)、真菌细胞(例如酵母细胞、来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如鱼、两栖动物、爬行动物、鸟、哺乳动物)的细胞、来自哺乳动物(例如猪、奶牛、山羊、绵羊、啮齿动物、大鼠、小鼠、非人灵长类、人等)的细胞等。细胞有时不源自天然有机体(例如细胞可以是合成的，有时被称作人造细胞)。

细胞可以在体外。细胞可以在体内。细胞可以是分离细胞。细胞可以是有机体内的细胞。细胞可以是有机体。细胞可以是细胞培养物中的细胞。细胞可以是一群细胞之一。细胞可以是原核细胞或源自原核细胞。细胞可以是细菌细胞或可源自细菌细胞。细胞可以是古细菌细胞或源自古细菌细胞。细胞可以是真核细胞或源自真核细胞。细胞可以是植物细胞或源自植物细胞。细胞可以是动物细胞或源自动物细胞。细胞可以是无脊椎动物细胞或源自无脊椎动物细胞。细胞可以是脊椎动物细胞或源自脊椎动物细胞。细胞可以是哺乳动物细胞或源自哺乳动物细胞。细胞可以是啮齿动物细胞或源自啮齿动物细胞。细胞可以是人类细胞或源自人类细胞。细胞可以是微生物细胞或源自微生物细胞。细胞可以是真菌细胞或源自真菌细胞。

细胞可以是干细胞或祖细胞。细胞可包括干细胞(例如成体干细胞、胚胎干细胞、iPS细胞)和祖细胞(例如心肌祖细胞、神经祖细胞等)。细胞可包括哺乳动物干细胞和祖细胞，包括啮齿动物干细胞、啮齿动物祖细胞、人类干细胞、人类祖细胞等。克隆细胞可包含细胞后代。细胞可包含靶核酸。细胞可以在活有机体中。细胞可以是基因修饰细胞。细胞可以是宿主细胞。

细胞可以是全能干细胞，但是在本公开的一些实施方案中，可能使用术语“细胞”但可不指全能干细胞。细胞可以是植物细胞，但在本公开的一些实施方案中，可能使用术语“细胞”但可不指植物细胞。细胞可以是多能细胞。例如，细胞可以是可分化成造血细胞谱系中的其它细胞但可能不能分化成任何其它非造血细胞的多能造血细胞。细胞可能能够发育成整个有机体。细胞可能能够或不能发育成整个有机体。细胞可能是整个有机体。

细胞可以是原代细胞。例如，原代细胞的培养物可传代0次、1次、2次、4次、5次、10次、15次或更多次。细胞可以是单细胞生物。细胞可以在培养中生长。

细胞可以是病变细胞。病变细胞可具有改变的代谢、基因表达和/或形态特征。病变细胞可以是癌细胞、糖尿病细胞和凋亡细胞。病变细胞可以是来自生病对象的细胞。示例性疾病包括血液病、癌症、代谢紊乱、眼病、器官障碍、肌肉骨骼疾病、心脏病等。

如果细胞是原代细胞，它们可通过任何方法收获自个体。例如，可通过血浆分离置换法、白细胞去除法、密度梯度分离等收获白细胞。可通过活检收获来自组织，如皮肤、肌肉、骨髓、脾、肝、胰腺、肺、肠、胃等的细胞。适当的溶液可用于分散或悬浮收获的细胞。这样的溶液通常是平衡盐溶液(例如生理盐水、磷酸盐缓冲盐水(PBS)、Hank’s平衡盐溶液等)，方便地补充胎牛血清或其它天然存在因子，与低浓度的可接受的缓冲液联用。缓冲液可包括HEPES、磷酸盐缓冲液、乳酸盐缓冲液等。细胞可以立即使用，或它们可以储存(例如通过冷冻)。可以将冷冻细胞解冻并能再使用。细胞可以在DMSO、血清、培养基缓冲液(例如10％DMSO、50％血清、40％缓冲的培养基)和/或用于在冷冻温度下保存细胞的一些其它这样的常见溶液中解冻。

本文所用的“有条件地无酶活性的定点多肽”通常可指可以以序列特异性方式结合到多核苷酸中的核酸序列上的多肽，但其只有在一个或多个使酶域有活性的条件下才裂解靶多核苷酸。有条件地无酶活性的定点多肽可包含可以有条件地活化的无酶活性的结构域。有条件地无酶活性的定点多肽可以在咪唑存在下有条件地活化。有条件地无酶活性的定点多肽可包含无法结合其关连配体以产生无酶活性的定点多肽的突变活性位点。该突变活性位点可以被设计成结合到配体类似物上，以使配体类似物可结合到该突变活性位点上并再活化该定点多肽。例如，ATP结合蛋白可包含突变活性位点，其可抑制蛋白的活性但被设计成特异性结合到ATP类似物上。ATP类似物而非ATP的结合可以再活化该蛋白。有条件地无酶活性的定点多肽可包含一个或多个非天然序列(例如融合体、亲和标记)。

本文所用的“crRNA”通常可指具有野生型示例性crRNA(例如来自化脓性链球菌的crRNA(例如SEQ ID NO:569、SEQ ID NO:563-679))的至少大约5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％序列同一性和/或序列相似性的核酸。crRNA通常可指具有野生型示例性crRNA(例如来自化脓性链球菌的crRNA)的最多大约5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％序列同一性和/或序列相似性的核酸。crRNA可以是指crRNA的修饰形式，其可包含核苷酸变化，如缺失、插入或置换、变异、突变或嵌合体。crRNA可以是在至少6个邻接核苷酸的一段序列中具有野生型示例性crRNA(例如来自化脓性链球菌的crRNA)序列的至少大约60％同一性的核酸。例如，crRNA序列可以在至少6个邻接核苷酸的一段序列中与野生型示例性crRNA序列(例如来自化脓性链球菌的crRNA)至少大约60％相同、至少大约65％相同、至少大约70％相同、至少大约75％相同、至少大约80％相同、至少大约85％相同、至少大约90％相同、至少大约95％相同、至少大约98％相同、至少大约99％相同或100％相同。

本文所用的“CRISPR重复片段”或“CRISPR重复序列”可以是指最小CRISPR重复序列。

本文所用的“Csy4”通常可指具有野生型示例性Csy4多肽(例如来自铜绿假单胞菌的Csy4，参见图40)的最多大约5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％序列同一性和/或序列相似性的多肽。Csy4通常可指具有野生型示例性Csy4多肽(例如来自铜绿假单胞菌的Csy4)的至少大约5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％序列同一性和/或序列相似性的多肽。Csy4可以是指Csy蛋白的野生型或修饰形式，其可包含氨基酸变化，如缺失、插入、置换、变异、突变、融合、嵌合体或它们的任何组合。

本文所用的“核糖核酸内切酶”通常可指可裂解RNA的多肽。在一些实施方案中，核糖核酸内切酶可以是定点多肽。核糖核酸内切酶可以是CRISPR系统的成员(例如I型、II型、III型)。核糖核酸内切酶可以是指重复相关可疑蛋白(RAMP)超家族的蛋白(例如Cas6、Cas6、Cas5家族)。核糖核酸内切酶还可包括RNA酶A、RNA酶H、RNA酶I、RNA酶III家族成员(例如Drosha、Dicer、RNA酶N)、RNA酶L、RNA酶P、RNA酶PhyM、RNA酶T1、RNA酶T2、RNA酶U2、RNA酶V1、RNA酶V。核糖核酸内切酶可以是指有条件地无酶活性的核糖核酸内切酶。核糖核酸内切酶可以是指无催化活性的核糖核酸内切酶。

本文所用的“供体多核苷酸”可以是指在基因组工程或靶核酸工程的过程中可被整合到位点中的核酸。

本文所用的“固定剂”或“交联剂”通常是指可固定或交联细胞的试剂。固定或交联的细胞可以稳定该细胞中的蛋白-核酸复合体。合适的固定剂和交联剂可包括甲醛、戊二醛、乙醇基固定剂、甲醇基固定剂、丙酮、乙酸、四氧化锇、重铬酸钾、铬酸、高锰酸钾、汞制剂、苦味酸盐、福尔马林、低聚甲醛、胺反应性NHS-酯交联剂，如双[磺基琥珀酰亚胺基]辛二酸酯(BS3)、3,3′-二硫代双[磺基琥珀酰亚胺基丙酸酯](DTSSP)、乙二醇双[磺基琥珀酰亚胺基琥珀酸酯](磺基-EGS)、二琥珀酰亚胺基戊二酸酯(DSG)、二硫代双[琥珀酰亚胺基丙酸酯](DSP)、二琥珀酰亚胺基辛二酸酯(DSS)、乙二醇双[琥珀酰亚胺基琥珀酸酯](EGS)、NHS-酯/双吖丙啶交联剂，如NHS-双吖丙啶、NHS-LC-双吖丙啶、NHS-SS-双吖丙啶、磺基-NHS-双吖丙啶、磺基-NHS-LC-双吖丙啶和磺基-NHS-SS-双吖丙啶。

本文所用的“融合体”可以是指包含一个或多个非天然序列(例如部分)的蛋白和/或核酸。融合体可包含一个或多个相同的非天然序列。融合体可包含一个或多个不同的非天然序列。融合体可以是嵌合体。融合体可包含核酸亲和标记。融合体可包含条形码。融合体可包含肽亲和标记。融合体可提供定点多肽的亚细胞定位(例如用于靶向核的核定位信号(NLS)、用于靶向线粒体的线粒体定位信号、用于靶向叶绿体的叶绿体定位信号、内质网(ER)滞留信号等)。融合体可提供可用于追踪或纯化的非天然序列(例如亲和标记)。融合体可以是小分子，如生物素或染料，如alexa fluor染料、花青3染料、花青5染料。融合体可提供提高或降低的稳定性。

在一些实施方案中，融合体可包含可检测标签，包括可提供可检测信号的部分。可提供可检测信号的合适的可检测标签和/或部分可包括，但不限于，酶、放射性同位素、特异性结合对的成员；荧光团；荧光蛋白；量子点；等。

融合体可包含FRET对的成员。适用的FRET对(供体/受体)可包括，但不限于，EDANS/荧光素、IAEDANS/荧光素、荧光素/四甲基罗丹明、荧光素/Cy 5、IEDANS/DABCYL、荧光素/QSY-7、荧光素/LC红640、荧光素/Cy 5.5和荧光素/LC红705。

可以使用荧光团/量子点供体/受体对作为融合体。合适的荧光团(“荧光标签”)可包括通过其固有的荧光性质(这可包括在激发时可检测到的荧光)可检测的任何分子。合适的荧光标签可包括，但不限于，荧光素、罗丹明、四甲基罗丹明、曙红、藻红、香豆素、甲基-香豆素、芘、孔雀绿、均二苯乙烯、荧光黄、级联蓝^TM、得克萨斯红、IAEDANS、EDANS、BODIPY FL、LC红640、Cy 5、Cy 5.5、LC红705和俄勒冈绿。

融合体可包含酶。合适的酶可包括，但不限于，辣根过氧化物酶、荧光素酶、β-半乳糖苷酶等。

融合体可包含荧光蛋白。合适的荧光蛋白可包括，但不限于，绿色荧光蛋白(GFP)(例如来自维多利亚多管发光水母(Aequoria victoria)的GFP、来自日本鳗鲡(Anguillajaponica)的荧光蛋白，或它们的突变体或衍生物)、红色荧光蛋白、黄色荧光蛋白、各种荧光和有色蛋白的任意一种。

融合体可包含纳米粒子。合适的纳米粒子可包括荧光或发光纳米粒子和磁性纳米粒子。可以检测该纳米粒子的任何光学或磁性性质或特征。

融合体可包含量子点(QDs)。通过施加包含各种不同材料的涂层来使QDs可溶于水。例如，可以使用两亲聚合物使QDs增溶。所用的示例性聚合物可包括辛胺改性的低分子量聚丙烯酸、聚乙二醇(PEG)衍生的磷脂类、聚酐、嵌段共聚物等。QDs可经由许多可直接或间接连接到涂层上的不同官能团或连接剂的任意一种缀合到多肽上。具有多种多样的吸收和发射光谱的QDs可购自例如Quantum Dot Corp.(Hayward Calif.；现为Invitrogen所有)或购自Evident Technologies(Troy,N.Y.)。例如，可得到具有大约525、535、545、565、585、605、655、705和800nm的峰值发射波长的QDs。因此QDs可具有在光谱可见部分中的一系列不同颜色并在一些情况中甚至超出该部分的范围。

合适的放射性同位素可包括，但不限于¹⁴C、³H、³²P、³³P、³⁵S和¹²⁵I。

本文所用的“基因修饰细胞”通常可指已基因修饰的细胞。基因修饰的一些非限制性实例可包括：插入、缺失、倒位、易位、基因融合或改变一个或多个核苷酸。基因修饰细胞可包含具有引入的双链断裂(例如DNA断裂)的靶核酸。基因修饰细胞可包含外源引入的核酸(例如载体)。基因修饰细胞可包含外源引入的本公开的多肽和/或本公开的核酸。基因修饰细胞可包含供体多核苷酸。基因修饰细胞可包含整合到基因修饰细胞的基因组中的外源性核酸。基因修饰细胞可包含DNA的缺失。基因修饰细胞也可以是指具有修饰的线粒体或叶绿体DNA的细胞。

本文所用的“基因组工程”可以指修饰靶核酸的方法。基因组工程可以指非天然核酸整合到天然核酸中。基因组工程可以指定点多肽和以核酸为靶的核酸靶向靶核酸，而没有靶核酸的整合或缺失。基因组工程可以指靶核酸的裂解和靶核酸的再连接，而没有在靶核酸中整合外源序列或在靶核酸中的缺失。该天然核酸可包含基因。该非天然核酸可包含供体多核苷酸。在本公开的方法中，定点多肽(例如Cas9)可以在核酸(例如基因组DNA)中引入双链断裂。该双链断裂可模拟细胞的内源性DNA-修复途径(例如同源重组(HR)和/或非同源末端连接(NHEJ)或A-NHEJ(可替代的非同源末端连接))。可以将外来、外源性和/或替代性核酸的突变、缺失、改变和整合引入双链DNA断裂的位点。

本文所用的术语“分离”可以是指借助人手从其天然环境中分开存在并因此不是天然产品的核酸或多肽。分离可意味着基本纯。分离核酸或多肽可以以纯化形式存在和/或可存在于非天然环境，例如转基因细胞中。

本文所用的“非天然”可以是指在天然核酸或蛋白中未发现的核酸或多肽序列。非天然可以是指亲和标记。非天然可以是指融合体。非天然可以是指包含突变、插入和/或缺失的天然存在的核酸或多肽序列。非天然序列可能表现出和/或编码与该非天然序列融合的核酸和/或多肽序列也可表现出的活性(例如酶活性、甲基转移酶活性、乙酰转移酶活性、激酶活性、泛素化活性等)。非天然核酸或多肽序列可通过基因工程连接到天然存在的核酸或多肽序列(或其变体)上以生成编码嵌合核酸和/或多肽的嵌合核酸和/或多肽序列。非天然序列可以是指3’杂交突出端序列。

本文所用的“核酸”通常可指多核苷酸序列或其片段。核酸可包含核苷酸。核酸可以是细胞外源的或内源的。核酸可存在于无细胞环境中。核酸可以是基因或其片段。核酸可以是DNA。核酸可以是RNA。核酸可包含一种或多种类似物(例如改变的骨架、糖或核碱基)。类似物的一些非限制性实例包括:5-溴尿嘧啶、肽核酸、异种核酸、吗啉代、锁核酸、二醇核酸(glycol nucleic acids)、苏糖核酸、双脱氧核苷酸、虫草素、7-去氮杂-GTP、荧光团(例如连接到糖上的罗丹明或荧光素)、含核苷酸的硫醇、生物素连接的核苷酸、荧光碱类似物(fluorescent base analogs)、CpG岛、甲基-7-鸟苷、甲基化核苷酸、肌苷、硫代尿苷、假尿苷、二氢尿苷、Q核苷和丫核苷。

本文所用的“核酸样品”通常可指来自生物实体的样品。核酸样品可包含核酸。来自核酸样品的核酸可以是纯化的和/或富集的。该核酸样品可能表现出整体的性质。核酸样品可来自各种来源。核酸样品可来自一个或多个个体。一个或多个核酸样品可来自同一个体。一个非限制性实例是如果一个样品来自个体血液，第二个样品来自个体肿瘤活检。核酸样品的实例可包括但不限于血液、血清、血浆、鼻拭子或鼻咽洗液、唾液、尿、胃液、脊髓液、眼泪、粪便、粘液、汗液、耵聍、油、腺体分泌物、脑脊髓液、组织、精液、阴道分泌物、间质液，包括衍生自肿瘤组织的间质液，眼内液、脊髓液、咽喉拭子、脸颊拭子、呼气、毛发、指甲、皮肤、活检、胎水、羊水、脐带血、emphatic fluids、腔液、痰、脓、micropiota、胎粪、母乳、口腔样品、鼻咽洗液、其它分泌物或它们的任何组合。核酸样品可来自组织。组织样品的实例可包括但不限于，结缔组织、肌肉组织、神经组织、上皮组织、软骨、癌或肿瘤样品、骨髓或骨骼。核酸样品可以由人或动物提供。核酸样品可以由哺乳动物、脊椎动物，如鼠科动物、类人猿、人类、农场动物、竞技动物或宠物提供。核酸样品可收集自活体或死亡的对象。核酸样品可新鲜收集自对象或可能已经过一定形式的预处理、储存或运输。

核酸样品可包含靶核酸。核酸样品可源自细胞裂解液。细胞裂解液可源自细胞。

本文所用的“以核酸为靶的核酸”可以是指可与另一核酸杂交的核酸。以核酸为靶的核酸可以是RNA。以核酸为靶的核酸可以是DNA。以核酸为靶的核酸可以编程以位点特异性地结合到核酸的序列上。要靶向的核酸或靶核酸可包含核苷酸。以核酸为靶的核酸可包含核苷酸。所述靶核酸的一部分可以与所述以核酸为靶的核酸的一部分互补。以核酸为靶的核酸可包含多核苷酸链并可以被称作“单导向核酸”(即“以核酸为靶的单导向核酸”)。以核酸为靶的核酸可包含两个多核苷酸链并可以被称作“双导向核酸”(即“以核酸为靶的双导向核酸”)。如果没有另行规定，术语“以核酸为靶的核酸”可以是兼容并包的，既指单导向核酸又指双导向核酸。

以核酸为靶的核酸可包含可被称作“以核酸为靶的片段”或“以核酸为靶的序列”的片段。以核酸为靶的核酸可包含可被称作“蛋白结合片段”或“蛋白结合序列”的片段。

以核酸为靶的核酸可包含一个或多个修饰(例如碱基修饰、骨架修饰)以为该核酸提供新的或增强的特征(例如改进的稳定性)。以核酸为靶的核酸可包含核酸亲和标记。核苷可以是碱基-糖组合。核苷的碱基部分可以是杂环碱基。这样的杂环碱基的两种最常见的种类是嘌呤和嘧啶。核苷酸可以是进一步包括共价连接到核苷的糖部分上的磷酸根基团的核苷。对于包括呋喃戊糖(pentofuranosyl sugar)的那些核苷，该磷酸根基团可以连接到该糖的2'、3'或5'羟基部分上。在形成以核酸为靶的核酸时，磷酸根基团可以将相邻核苷互相共价连接以形成线性聚合化合物。这种线性聚合化合物的各自末端又可进一步连接以形成环状化合物；但是，线性化合物通常合适。此外，线性化合物可具有内部核苷酸碱基互补性并因此以产生完全或部分双链化合物的方式折叠。在以核酸为靶的核酸内，磷酸根基团常被提到形成所述以核酸为靶的核酸的核苷间骨架。所述以核酸为靶的核酸的键或骨架可以是3'至5'磷酸二酯键。

以核酸为靶的核酸可包含修饰骨架和/或修饰的核苷间键。修饰骨架可包括在骨架中留有磷原子的那些和在骨架中没有磷原子的那些。

其内含有磷原子的合适的以核酸为靶的修饰核酸骨架可包括例如硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、甲基和其它烷基膦酸酯，如3'-亚烷基膦酸酯、5'-亚烷基膦酸酯、手性膦酸酯、亚膦酸酯、氨基磷酸酯，包括3'-氨基氨基磷酸酯和氨基烷基氨基磷酸酯、二氨基磷酸酯、硫羰基氨基磷酸酯(thionophosphoramidates)、硫羰基烷基膦酸酯(thionoalkylphosphonates)、硫羰基烷基磷酸三酯(thionoalkylphosphotriesters)、硒代磷酸酯和具有正常3'-5'键的硼烷磷酸酯(boranophosphates)、2'-5'连接的类似物和具有反极性的那些，其中一个或多个核苷酸间键是3'至3'、5'至5'或2'至2'键。合适的具有反极性的以核酸为靶的核酸可包含在3'最末端核苷酸间键的单个3'至3'键(即单个反核苷残基，其中核碱基缺失或具有羟基取而代之)。也可以包括各种盐(例如氯化钾或氯化钠)、混合盐和游离酸形式。

以核酸为靶的核酸可包含一个或多个硫代磷酸酯和/或杂原子核苷间键，特别是-CH₂-NH-O-CH₂-、-CH₂-N(CH₃)-O-CH₂-(即亚甲基(甲基亚氨基)或MMI骨架)、-CH₂-O-N(CH₃)-CH₂-、-CH₂-N(CH₃)-N(CH₃)-CH₂-和-O-N(CH₃)-CH₂-CH₂-(其中天然磷酸二酯核苷酸间键表示为-O-P(＝O)(OH)-O-CH₂-)。

以核酸为靶的核酸可包含吗啉代骨架结构。例如，核酸可包含6-元吗啉代环取代核糖环。在这些实施方案的一些中，二氨基磷酸酯或其它非磷酸二酯核苷间键可以替代磷酸二酯键。

以核酸为靶的核酸可包含由短链烷基或环烷基核苷间键、混合杂原子和烷基或环烷基核苷间键、或一个或多个短链杂原子或杂环核苷间键形成的多核苷酸骨架。这些可包括具有吗啉代键(部分由核苷的糖部分形成)的那些；硅氧烷骨架；硫化物、亚砜和砜骨架；甲酰基和硫代甲酰基骨架；亚甲基甲酰基和硫代甲酰基骨架；核糖甲酰基(riboacetyl)骨架；含烯烃的骨架；氨基磺酸酯骨架；亚甲基亚氨基和亚甲基肼基骨架；磺酸酯和磺酰胺骨架；酰胺骨架；和具有混合N、O、S和CH₂组成部分的其它骨架。

以核酸为靶的核酸可包含核酸模拟物(nucleic acid mimetic)。术语“模拟物”意在包括其中仅呋喃糖环或呋喃糖环和核苷酸间键都被非呋喃糖基团替代的多核苷酸，仅呋喃糖环的替代也可以被称作糖替代物(sugar surrogate)。可以保持杂环碱基部分或修饰杂环碱基部分以与适当的靶核酸杂交。一种这样的核酸可以是肽核酸(PNA)。在PNA中，多核苷酸的糖-骨架可以被含酰胺的骨架，特别是氨基乙基甘氨酸骨架替代。可以保留核苷酸并直接或间接键合到该骨架的酰胺部分的氮杂氮原子上。PNA化合物中的骨架可包含两个或更多个连接的氨基乙基甘氨酸单元，这给予PNA含酰胺的骨架。该杂环碱基部分可以直接或间接键合到该骨架的酰胺部分的氮杂氮原子上。

以核酸为靶的核酸可包含具有连接到吗啉代环上的杂环碱基的连接的吗啉代单元(即吗啉代核酸)。连接基可连接吗啉代核酸中的吗啉代单体单元。非离子吗啉代基低聚化合物具有较少不合意的与细胞蛋白的相互作用。吗啉代基多核苷酸可以是以核酸为靶的核酸的非离子模拟物。吗啉代类内的各种化合物可使用不同连接基连接。另一类多核苷酸模拟物(mimetic)可被称作环己烯基核酸(CeNA)。核酸分子中通常存在的呋喃糖环可以被环己烯基环替代。可以制备CeNA DMT保护的亚磷酰胺单体并用于使用亚磷酰胺化学的低聚化合物合成。CeNA单体并入核酸链中可提高DNA/RNA杂交体的稳定性。CeNA寡腺苷酸可以与核酸补体形成具有与天然复合体类似的稳定性的复合体。另一修饰可包括锁核酸(LNA)，其中2'-羟基连接到糖环的4'碳原子上，由此形成2'-C,4'-C-氧亚甲基键，由此形成双环糖部分。该键可以是亚甲基(-CH2-)、桥连2'氧原子和4'碳原子的基团，其中n是1或2。LNA和LNA类似物可以表现出与互补核酸的极高双链体热稳定性(Tm＝+3至+10℃)、对3'-核酸外切降解的稳定性和良好的溶解度性质。

以核酸为靶的核酸可包含一个或多个取代的糖部分。合适的多核苷酸可包含选自如下的糖取代基：OH；F；O-、S-或N-烷基；O-、S-或N-链烯基；O-、S-或N-炔基；或O-烷基-O-烷基，其中该烷基、链烯基和炔基可以是取代或未取代的C₁至C₁₀烷基或C₂至C₁₀链烯基和炔基。特别合适的是O((CH2)nO)mCH₃、O(CH₂)_nOCH₃、O(CH₂)_nNH2、O(CH₂)_nCH₃、O(CH₂)_nONH₂和O(CH₂)_nON((CH₂)_nCH₃)₂，其中n和m是1至大约10。糖取代基可选自：C₁至C₁₀低碳烷基、取代低碳烷基、链烯基、炔基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH₃、OCN、Cl、Br、CN、CF₃、OCF₃、SOCH₃、SO₂CH₃、ONO2、NO₂、N₃、NH₂、杂环烷基、杂环烷芳基、氨基烷基氨基、多烷基氨基、取代甲硅烷基、RNA切割基、报告基团、嵌入剂、用于改进以核酸为靶的核酸的药代动力学性质的基团或用于改进以核酸为靶的核酸的药效学性质的基团，和具有类似性质的其它取代基。合适的修饰可包括2'-甲氧基乙氧基(2'-O-CH₂CH₂OCH₃，也称作2'-O-(2-甲氧基乙基)或2'-MOE，即烷氧基烷氧基)。另一合适的修饰可包括2'-二甲基氨基氧基乙氧基(即O(CH₂)₂ON(CH₃)₂基团，也称作2'-DMAOE)和2'-二甲基氨基乙氧基乙氧基(也称作2'-O-二甲基-氨基-乙氧基-乙基或2'-DMAEOE)，即2'-O-CH₂-O-CH₂-N(CH₃)₂。

其它合适的糖取代基可包括甲氧基(-O-CH₃)、氨基丙氧基(--OCH₂CH₂CH₂NH₂)、烯丙基(-CH₂-CH＝CH₂)、-O-烯丙基(--O--CH₂—CH＝CH₂)和氟(F)。2'-糖取代基可以在阿拉伯糖(上)位置或核糖(下)位置。合适的2'-阿拉伯糖修饰是2'-F。也可以在低聚化合物上的其它位置，特别是在3'末端核苷上或2'-5'连接的核苷酸中的糖的3'位置和5'末端核苷酸的5'位置进行类似的修饰，低聚化合物还可具有糖模拟物，如环丁基部分以代替呋喃戊糖。

以核酸为靶的核酸也可包括核碱基(常简称为“碱基”)修饰或取代。本文所用的“未修饰”或“天然”核碱基可包括嘌呤碱基(例如腺嘌呤(A)和鸟嘌呤(G))和嘧啶碱基(例如胸腺嘧啶(T)、胞嘧啶(C)和尿嘧啶(U))。修饰的核碱基可包括其它合成和天然核碱基，如5-甲基胞嘧啶(5-me-C)、5-羟甲基胞嘧啶、黃嘌呤、次黄嘌呤、2-氨基腺嘌呤、腺嘌呤和鸟嘌呤的6-甲基和其它烷基衍生物、腺嘌呤和鸟嘌呤的2-丙基和其它烷基衍生物、2-硫尿嘧啶、2-硫代胸腺嘧啶和2-硫胞嘧啶、5-卤代尿嘧啶和胞嘧啶、5-丙炔基(-C＝C-CH3)尿嘧啶和胞嘧啶，和嘧啶碱基的其它炔基衍生物、6-偶氮尿嘧啶、胞嘧啶和胸腺嘧啶、5-尿嘧啶(假尿嘧啶)、4-硫尿嘧啶、8-卤代、8-氨基、8-硫醇、8-硫烷基、8-羟基和其它8-取代的腺嘌呤和鸟嘌呤、5-卤代，特别是5-溴、5-三氟甲基和其它5-取代的尿嘧啶和胞嘧啶、7-甲基鸟嘌呤和7-甲基腺嘌呤、2-F-腺嘌呤、2-氨基腺嘌呤、8-氮杂鸟嘌呤和8-氮杂腺嘌呤、7-去氮鸟嘌呤和7-去氮腺嘌呤和3-去氮鸟嘌呤和3-去氮腺嘌呤。修饰的核碱基可包括三环嘧啶，如吩噁嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噁嗪-2(3H)-酮)、吩噻嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噻嗪-2(3H)-酮)、G-clamps，如取代吩噁嗪胞苷(例如9-(2-氨基乙氧基)-H-嘧啶并(5,4-(b)(1,4)苯并噁嗪-2(3H)-酮)、咔唑胞苷(2H-嘧啶并(4,5-b)吲哚-2-酮)、吡啶并吲哚胞苷(H吡啶并(3',2':4,5)吡咯并(2,3-d)嘧啶-2-酮)。

杂环碱基部分可包括其中的嘌呤或嘧啶碱基被其它杂环替代的那些，例如7-去氮-腺嘌呤、7-去氮鸟苷、2-氨基吡啶和2-吡啶酮。核碱基可用于提高多核苷酸化合物的结合亲和力。这些可包括5-取代嘧啶、6-氮杂嘧啶和N-2、N-6和O-6取代嘌呤，包括2-氨基丙基腺嘌呤、5-丙炔基尿嘧啶和5-丙炔基胞嘧啶。5-甲基胞嘧啶取代可以将核酸双链体稳定性提高0.6-1.2℃并可以是合适的碱基取代(例如在与2'-O-甲氧基乙基糖修饰结合时)。

以核酸为靶的核酸的修饰可包括将可增强以核酸为靶的核酸的活性、细胞分布或细胞摄取的一个或多个部分或缀合物化学连接到以核酸为靶的核酸上。这些部分或缀合物可包括共价键合到官能团，如伯或仲羟基上的缀合基团。缀合基团可包括，但不限于，嵌入剂、报告分子、聚胺、聚酰胺、聚乙二醇、聚醚、增强低聚物的药效学性质的基团和可增强低聚物的药代动力学性质的基团。缀合基团可包括，但不限于，胆固醇、脂质、磷脂类、生物素、吩嗪、叶酸、菲啶、蒽醌、吖啶、荧光素、罗丹明、香豆素和染料。增强药效学性质的基团包括改进摄取、增强抗降解性和/或增强与靶核酸的序列特异性杂交的基团。可增强药代动力学性质的基团包括改进核酸的摄取、分布、代谢或分泌的基团。缀合部分可包括但不限于脂质部分，如胆固醇部分、胆酸、硫醚(例如己基-S-三苯基甲硫醇(tritylthiol))巯基胆固醇、脂族链(例如十二烷二醇或十一烷基残基)、磷脂(例如二-十六烷基-rac-甘油或1,2-二-O-十六烷基-rac-甘油-3-H-膦酸三乙铵)、聚胺或聚乙二醇链，或金刚烷乙酸、棕榈基部分，或十八烷基胺或己基氨基-羰氧基胆固醇部分。

一种修饰可包括“蛋白转导结构域”或PTD(即细胞穿透肽(CPP))。PTD可以是指多肽、多核苷酸、碳水化合物或促进穿过脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的有机或无机化合物。PTD可连接到另一分子(其范围可以是从小极性分子到大高分子和/或纳米粒子)上并可促进该分子穿过膜，例如从细胞外间隙到细胞内间隙，或从胞液到细胞器内。PTD可以共价连接到多肽的氨基末端上。PTD可以共价连接到多肽的羧基末端上。PTD可以共价连接到核酸上。示例性的PTD可包括，但不限于，最小肽蛋白转导结构域；包含足以直接导入细胞中的许多精氨酸的聚精氨酸序列(例如3、4、5、6、7、8、9、10或10-50个精氨酸)、VP22结构域、果蝇触足蛋白转导结构域、截短人降钙素肽、聚赖氨酸和运送蛋白(transportan)、3个精氨酸残基至50个精氨酸残基的精氨酸均聚物。PTD可以是可活化的CPP(ACPP)。ACPP可包含经可裂解接头连接到匹配的聚阴离子(例如Glu9或“E9”)上的聚阳离子CPP(例如Arg9或“R9”)，这可将净电荷降至接近0并由此抑制粘附和摄取到细胞中。在接头裂解后，可以释放该聚阴离子，局部暴露出聚精氨酸及其固有的粘附性，由此“活化”该ACPP以穿过膜。

“核苷酸”通常可指碱基-糖-磷酸组合。核苷酸可包含合成核苷酸。核苷酸可包含合成核苷酸类似物。核苷酸可以是核酸序列(例如脫氧核糖核酸(DNA)和核糖核酸(RNA))的单体单元。术语核苷酸可包括三磷酸核糖核苷，三磷酸腺苷(ATP)、三磷酸尿苷(UTP)、三磷酸胞嘧啶(CTP)、三磷酸鸟苷(GTP)和三磷酸脱氧核糖核苷，如dATP、dCTP、dITP、dUTP、dGTP、dTTP或其衍生物。这样的衍生物可包括例如[αS]dATP、7-去氮-dGTP和7-去氮-dATP和赋予含有它们的核酸分子核酸酶抗性的核苷酸衍生物。本文所用的术语核苷酸可以是指双脱氧核苷三磷酸(ddNTP)和它们的衍生物。双脱氧核苷三磷酸的示例性实例可包括，但不限于，ddATP、ddCTP、ddGTP、ddITP和ddTTP。核苷酸可以是未标记的或通过公知技术可检测地标记。也可以用量子点进行标记。可检测标记可包括、例如，放射性同位素、荧光标记、化学发光标记、生物发光标记和酶标记。核苷酸的荧光标记可包括但不限于荧光素、5-羧基荧光素(FAM)、2’7’-二甲氧基-4’5-二氯-6-羧基荧光素(JOE)、罗丹明、6-羧基罗丹明(R6G)、N,N,N’,N’-四甲基-6-羧基罗丹明(TAMRA)、6-羧基-X-罗丹明(ROX)、4-(4’二甲基氨基苯基偶氮)苯甲酸(DABCYL)、级联蓝、俄勒冈绿、得克萨斯红、花青和5-(2’-氨基乙基)氨基萘-1-磺酸(EDANS)。荧光标记的核苷酸的具体实例可包括可获自Perkin Elmer,Foster City,Calif.的[R6G]dUTP、[TAMRA]dUTP、[R110]dCTP、[R6G]dCTP、[TAMRA]dCTP、[JOE]ddATP、[R6G]ddATP、[FAM]ddCTP、[R110]ddCTP、[TAMRA]ddGTP、[ROX]ddTTP、[dR6G]ddATP、[dR110]ddCTP、[dTAMRA]ddGTP和[dROX]ddTTP；可获自Amersham,Arlington Heights,Ill.的FluoroLink脱氧核苷酸、FluoroLink Cy3-dCTP、FluoroLink Cy5-dCTP、FluoroLink FluorX-dCTP、FluoroLink Cy3-dUTP和FluoroLink Cy5-dUTP；可获自Boehringer Mannheim,Indianapolis,Ind.的荧光素-15-dATP、荧光素-12-dUTP、四甲基-罗丹明-6-dUTP、IR770-9-dATP、荧光素-12-ddUTP、荧光素-12-UTP和荧光素-15-2’-dATP；和可获自MolecularProbes,Eugene,Oreg的染色体标记核苷酸、BODIPY-FL-14-UTP、BODIPY-FL-4-UTP、BODIPY-TMR-14-UTP、BODIPY-TMR-14-dUTP、BODIPY-TR-14-UTP、BODIPY-TR-14-dUTP、级联蓝-7-UTP、级联蓝-7-dUTP、荧光素-12-UTP、荧光素-12-dUTP、俄勒冈绿488-5-dUTP、罗丹明绿-5-UTP、罗丹明绿-5-dUTP、四甲基罗丹明-6-UTP、四甲基罗丹明-6-dUTP、得克萨斯红-5-UTP、得克萨斯红-5-dUTP，和得克萨斯红-12-dUTP。核苷酸也可以通过化学修饰标记或加标。化学修饰的单核苷酸可以是生物素-dNTP。生物素化dNTP的一些非限制性实例可包括生物素-dATP(例如bio-N6-ddATP、生物素-14-dATP)、生物素-dCTP(例如生物素-11-dCTP、生物素-14-dCTP)和生物素-dUTP(例如生物素-11-dUTP、生物素-16-dUTP、生物素-20-dUTP)。

本文所用的“P-结构域”可以是指以核酸为靶的核酸中的一个区域。该P-结构域可以与前间区序列邻近基序(PAM)、定点多肽和/或以核酸为靶的核酸相互作用。P-结构域可以直接或间接与前间区序列邻近基序(PAM)、定点多肽和/或以核酸为靶的核酸相互作用。本文所用的术语“PAM相互作用区域”、“抗重复片段相邻区域”和“P-结构域”可互换使用。

本文所用的“纯化”可以指构成该组合物的至少50％、60％、70％、80％、90％、95％、96％、97％、98％、99％或100％的分子(例如定点多肽、以核酸为靶的核酸)。例如，包含10％的定点多肽的样品但在纯化步骤后包含60％的定点多肽，则该样品可以被说成是纯化的。纯化样品可以是指富集样品，或已经过除去感兴趣的粒子以外的粒子的方法的样品。

本文所用的“复能剂”通常可指可以将无酶活性的多肽转化成酶活性的多肽的任何试剂。咪唑可以是复能剂。配体类似物可以是复能剂。

本文所用的“重组体”可以是指源自特定宿主(例如细胞)外的来源，或如果来自同一来源则由其原始形式修饰而得的序列。细胞中的重组核酸可包括为特定细胞内源但已通过例如使用定点诱变修饰的核酸。该术语可包括天然存在的DNA序列的非天然生成的多拷贝。因此，该术语可以是指来自该细胞外或与该细胞不同源的，或与该细胞同源但在细胞内的位置或形式不是该核酸的原始存在位置或形式的核酸。类似地，当用于多肽或氨基酸序列的情况时，外源多肽或氨基酸序列可以是源自特定细胞外的来源或如果来自同一来源则由其原始形式修饰而得的多肽或氨基酸序列。

本文所用的“定点多肽”通常可指核酸酶、定点核酸酶、核糖核酸内切酶、有条件地无酶活性的核糖核酸内切酶、Argonauts和核酸-结合蛋白。定点多肽或蛋白可包括核酸酶，如归巢核酸内切酶，如PI-TliII、H-DreI、I-DmoI和I-CreI、I-SceI、LAGLIDADG家族核酸酶、大范围核酸酶、GIY-YIG家族核酸酶、His-Cys box家族核酸酶、Vsr样核酸酶、核糖核酸内切酶、核糖核酸外切酶、内切核酸酶和外切核酸酶。定点多肽可以是指I型、II型、III型和/或U型CRISPR/Cas系统的Cas基因成员。定点多肽可以是指重复相关可疑蛋白(RAMP)超家族(例如Cas5、Cas6亚家族)的成员。定点多肽可以是指Argonaute蛋白。

定点多肽可以是一种类型的蛋白。定点多肽可以是指核酸酶。定点多肽可以是指核糖核酸内切酶。定点多肽可以是指定点多肽的任何修饰(例如缩短、突变、延长)的多肽序列或同源物。定点多肽可以是密码子优化的。定点多肽可以是定点多肽的密码子优化同源物。定点多肽可以是无酶活性的、部分活性的、组成性活性的、全活性的、诱导活性的和/或更大活性的(例如比该蛋白或多肽的野生型同源物活性更大)。定点多肽可以是Cas9。定点多肽可以是Csy4。定点多肽可以是Cas5或Cas5家族成员。定点多肽可以是Cas6或Cas6家族成员。

在一些情况中，该定点多肽(例如变体、突变、无酶活性和/或有条件地无酶活性的定点多肽)可以是靶核酸。该定点多肽(例如变体、突变、无酶活性和/或有条件地无酶活性的核糖核酸内切酶)可以靶向RNA。靶向RNA的核糖核酸内切酶可包括其它CRISPR亚家族的成员，如Cas6和Cas5。

本文所用的术语“特异性”可以是指两个分子的相互作用，其中分子之一通过例如化学或物理手段特异性结合到第二分子上。示例性的特异性结合相互作用可以是指抗原-抗体结合、亲和素-生物素结合、碳水化合物和凝集素、互补核酸序列(例如杂交)、互补肽序列，包括通过重组法形成的那些，效应子和受体分子、酶辅因子和酶、酶抑制剂和酶等。“非特异性”可以是指两个分子之间的相互作用不是特异性的。

本文所用的“固体支持物”通常是指任何不可溶或部分可溶的材料。固体支持物可以是指试纸条、多孔盘等。该固体支持物可包含各种物质(例如玻璃、聚苯乙烯、聚氯乙烯、聚丙烯、聚乙烯、聚碳酸酯、葡聚糖、尼龙、直链淀粉、天然和改性纤维素、聚丙烯酰胺、琼脂糖和磁铁矿)并可以以各种形式提供，包括琼脂糖珠、聚苯乙烯珠、胶乳珠、磁珠、胶体金属粒子、玻璃和/或硅片和表面、硝化纤维素条、尼龙膜、片、反应托盘(例如多孔板)的孔、塑料管等。固体支持物可以是固体、半固体、珠子或表面。该支持物可以在溶液中可流动或可以是固定的。固体支持物可用于捕获多肽。固体支持物可包含捕获剂。

本文所用的“靶核酸”通常可指本公开的方法中所用的核酸。靶核酸可以是指染色体序列或染色体外序列(例如附加体序列、微环序列、线粒体序列、叶绿体序列等)。靶核酸可以是DNA。靶核酸可以是RNA。靶核酸在本文中可以与“多核苷酸”、“核苷酸序列”，和/或“靶多核苷酸”互换使用。靶核酸可以是通过单核苷酸取代与核酸样品中的任何其它序列无关的核酸序列。靶核酸可以是通过2、3、4、5、6、7、8、9或10个核苷酸取代与核酸样品中的任何其它序列无关的核酸序列。在一些实施方案中，该取代不能在靶核酸的5’末端的5、10、15、20、25、30或35个核苷酸内发生。在一些实施方案中，该取代不能在靶核酸的3’末端的5、10、15、20、25、30、35个核苷酸内发生。

本文所用的“tracrRNA”通常是指具有野生型示例性tracrRNA序列(例如来自化脓性链球菌的tracrRNA(SEQ ID 433)、SEQ IDs 431-562)的至少大约5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％序列同一性和/或序列相似性的核酸。tracrRNA可以是指具有野生型示例性tracrRNA序列(例如来自化脓性链球菌的tracrRNA)的最多大约5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％序列同一性和/或序列相似性的核酸。tracrRNA可以是指可包含核苷酸变化，如缺失、插入或置换、变异、突变或嵌合体的tracrRNA的修饰形式。tracrRNA可以是指在至少6个邻接核苷酸的一段序列中与野生型示例性tracrRNA(例如来自化脓性链球菌的tracrRNA)序列有至少大约60％相同的核酸。例如，tracrRNA序列可以在至少6个邻接核苷酸的一段序列中与野生型示例性tracrRNA(例如来自化脓性链球菌的tracrRNA)序列有至少大约60％相同、至少大约65％相同、至少大约70％相同、至少大约75％相同、至少大约80％相同、至少大约85％相同、至少大约90％相同、至少大约95％相同、至少大约98％相同、至少大约99％相同或100％相同。tracrRNA可以是指中间tracrRNA。tracrRNA可以是指最小tracrRNA序列。

CRISPR系统

CRISPR(成簇的规律间隔的短回文重复)可以是在许多原核生物(例如细菌和古菌)的基因组中发现的基因组基因座。CRISPR基因座可以在原核生物中提供对外来侵入物(例如病毒、噬菌体)的抗性。由此，CRISPR系统可以被认为充当一种类型的免疫系统以帮助原核生物抵御外来侵入物。CRISPR基因座功能有三个阶段：将新序列整合到基因座中、CRISPRRNA(crRNA)的生物发生和外来侵入物核酸的沉默。有四种类型的CRISPR系统(例如I型、II型、III型、U型)。

CRISPR基因座可包括许多被称作“重复片段”的短重复序列。重复片段可形成发夹结构和/或重复片段可以是非结构化的单链序列。重复片段可以成簇存在。重复片段序列常随物种而变。重复片段可以被独特的插入序列(被称作“间隔区”)规则间隔，以产生重复片段-间隔区-重复片段基因座构造。间隔区可以与已知的外来侵入物序列相同或具有高同源性。间隔区-重复片段单元可以编码crisprRNA(crRNA)。crRNA可以是指该间隔区-重复片段单元的成熟形式。crRNA可包含可参与靶向靶核酸(例如可能作为对抗外来核酸的监视机制)的“种子”序列。种子序列可位于crRNA的5’或3’端。

CRISPR基因座可包含编码Crispr相关基因(Cas)基因的多核苷酸序列。Cas基因可参与crRNA功能的生物发生和/或干扰阶段。Cas基因可表现出在物种和同源物之间的极端序列(例如一级序列)趋异。例如，Cas1同源物可在同源物之间包含小于10％一级序列同一性。一些Cas基因可包含同源的二级和/或三级结构。例如，尽管极端序列趋异，但CRISPR蛋白的Cas6家族的许多成员包含N-末端铁氧还蛋白样折叠。Cas基因可以根据它们的来源有机体命名。例如，表皮葡萄球菌(Staphylococcus epidermidis)中的Cas基因可被称作Csm型，嗜热链球菌(Streptococcus thermophilus)中的Cas基因可被称作Csn型，且激烈火球菌(Pyrococcus furiosus)中的Cas基因可被称作Cmr型。

整合

CRISPR系统的整合阶段可以是指CRISPR基因座在被外来侵入物感染时将新间隔区整合到crRNA阵列中的能力。外来侵入物间隔区的获取有助于提供对随后被同一外来侵入物的侵袭的免疫力。整合可以在CRISPR基因座的前导端发生。Cas蛋白(例如Cas1和Cas2)可参与新间隔区序列的整合。可以对一些类型的CRISPR系统(例如I-III型)类似地进行整合。

生物发生

成熟crRNA可以由较长的多顺反子CRISPR基因座转录物(即前-crRNA阵列)加工。前-crRNA阵列可包含多个crRNA。前-crRNA阵列中的重复片段可被Cas基因识别。Cas基因可结合到重复片段上并裂解该重复片段。这一动作可释放多个crRNA。crRNA可发生更多事件以产生成熟crRNA形式，如修剪(例如借助核酸外切酶)。crRNA可包含所有、一些或不含CRISPR重复序列。

干扰

干扰可以是指CRISPR系统中的在功能上负责对抗外来侵入物感染的阶段。CRISPR干扰可遵循与RNA干扰(RNAi(例如其中通过短干扰RNA(siRNA)靶向(例如杂交)靶RNA)类似的机制，所述RNA干扰可造成靶RNA降解和/或不稳定。CRISPR系统可通过偶联crRNA和Cas基因进行靶核酸的干扰，由此形成CRISPR核糖核蛋白(crRNP)。crRNP的crRNA可将crRNP引向外来侵入物核酸(例如通过经杂交识别外来侵入物核酸)。杂交的靶外来侵入物核酸-crRNA单元可以经受Cas蛋白裂解。靶核酸干扰可能需要靶核酸中的间隔区邻近基序(spaceradjacent motif)(PAM)。

CRISPR系统的类型

有四种类型的CRISPR系统：I型、II型、III型和U型。在有机体中可以找到多于一种类型的CRISPR系统。CRISPR系统可以彼此互补，和/或可提供反式功能单元以促进CRISPR基因座加工。

I型CRISPR系统

I型CRISPR系统中的crRNA生物发生可包含前-crRNA阵列中的重复片段的核糖核酸内切酶裂解，这可产生多个crRNA。I型系统的crRNA可能不发生crRNA修剪。crRNA可以由前-crRNA阵列通过被称作级联的多蛋白复合体(源自用于抗病毒防御的CRISPR相关复合体)加工。级联可包含蛋白亚基(例如CasA-CasE)。一些亚基可以是重复相关可疑蛋白(RAMP)超家族(例如Cas5和Cas6家族)的成员。级联-crRNA复合体(即干扰复合体)可通过crRNA与靶核酸的杂交识别靶核酸。级联干扰复合体可募集可反式作用以促进靶核酸裂解的Cas3解旋酶/核酸酶。Cas3核酸酶可裂解靶核酸(例如借助其HD核酸酶结构域)。I型CRISPR系统中的靶核酸可包含PAM。I型CRISPR系统中的靶核酸可以是DNA。

I型系统可通过它们的来源物种进一步细分。I型系统可包含：IA型(嗜热古菌(Aeropyrum pernix)或CASS5)；IB型(栖热袍菌(Thermotoga neapolitana)-Haloarculamarismortui或CASS7)；IC型(脱硫弧菌(Desulfovibrio vulgaris)或CASS1)；ID；IE(大肠杆菌(Escherichia coli)或CASS2)；和IF型(鼠疫杆菌(Yersinia pestis)或CASS3)亚家族。

II型CRISPR系统

II型CRISPR系统中的crRNA生物发生可包含反式激活CRISPR RNA(tracrRNA)。tracrRNA可以被内源RNA酶III修饰。该复合体的tracrRNA可以与前-crRNA阵列中的crRNA重复片段杂交。可以募集内源RNA酶III以裂解前-crRNA。裂解的crRNA可发生核糖核酸外切酶修剪以产生成熟crRNA形式(例如5’修剪)。tracrRNA可保持与crRNA杂交。tracrRNA和crRNA可以与定点多肽(例如Cas9)结合。crRNA-tracrRNA-Cas9复合体的crRNA可以将该复合体导向该crRNA可与之杂交的靶核酸。crRNA与靶核酸的杂交可活化Cas9以使靶核酸裂解。II型CRISPR系统中的靶核酸可包含PAM。在一些实施方案中，PAM是促进定点多肽(例如Cas9)与靶核酸结合所必需的。II型系统可进一步细分成II-A(Nmeni或CASS4)和II-B(Nmeni或CASS4)。

III型CRISPR系统

III型CRISPR系统中的crRNA生物发生可包含前-crRNA阵列中的重复片段的核糖核酸内切酶裂解步骤，这可产生多个crRNA。III型CRISPR系统中的重复片段可以是非结构化的单链区。重复片段可被RAMP超家族的核糖核酸内切酶的成员(例如Cas6)识别和裂解。III型(例如III-B型)系统的crRNA可发生crRNA修剪(例如3’修剪)。III型系统可包含聚合酶样蛋白(例如Cas10)。Cas10可包含与palm结构域同源的结构域。

III型系统可用包含多种RAMP超家族成员蛋白和一种或多种CRISPR聚合酶样蛋白的复合体加工前-crRNA。可以将III型系统分成III-A和III-B。III-A型系统的干扰复合体(即Csm复合体)可靶向质粒核酸。可用该复合体中的聚合酶样蛋白的HD核酸酶结构域发生质粒核酸的裂解。III-B型系统的干扰复合体(即Cmr复合体)可靶向RNA。

U型CRISPR系统

U型CRISPR系统可能不含I-III型CRISPR系统的任一系统的特征基因(例如Cas3、Cas9、Cas6、Cas1、Cas2)。U型CRISPR Cas基因的实例可包括，但不限于，Csf1、Csf2、Csf3、Csf4。U型Cas基因可以是I-III型Cas基因的非常不同的同源物。例如，Csf3可能与Cas5家族成员高度偏离但在功能上类似。U型系统可以与I-III型系统反式互补地作用。在一些情况中，U型系统可能与加工CRISPR阵列无关。U型系统可代表另一外来侵入物防御系统。

RAMP超家族

重复相关可疑蛋白(RAMP蛋白)以包含β-链(β)和α-螺旋(α)的βαββαβ[beta-alpha-beta-beta-alpha-beta]基序的蛋白折叠为特征。RAMP蛋白可包含RNA识别基序(RRM)(其可包含铁氧还蛋白或铁氧还蛋白样折叠)。RAMP蛋白可包含N-末端RRM。RAMP蛋白的C-末端结构域可变，但也可包含RRM。RAMP家族成员可识别结构化和/或非结构化核酸。RAMP家族成员可识别单链和/或双链核酸。RAMP蛋白参与I型和III型CRISPR系统的生物发生和/或干扰阶段。RAMP超家族成员可包含Cas7、Cas6和Cas5家族的成员。RAMP超家族成员可以是核糖核酸内切酶。

RAMP超家族中的RRM结构域可以是极端趋异的。RRM结构域可包含与野生型示例性RRM结构域(例如来自Cas7的RRM结构域)的至少大约5％、至少大约10％、至少大约15％、至少大约20％、至少大约25％、至少大约30％、至少大约35％、至少大约40％、至少大约45％、至少大约50％、至少大约55％、至少大约60％、至少大约65％、至少大约70％、至少大约75％、至少大约80％、至少大约85％、至少大约90％、至少大约95％或100％序列或结构同源性。RRM结构域可包含与野生型示例性RRM结构域(例如来自Cas7的RRM结构域)的最多大约5％、最多大约10％、最多大约15％、最多大约20％、最多大约25％、最多大约30％、最多大约35％、最多大约40％、最多大约45％、最多大约50％、最多大约55％、最多大约60％、最多大约65％、最多大约70％、最多大约75％、最多大约80％、最多大约85％、最多大约90％、最多大约95％或100％序列或结构同源性。

Cas7家族

Cas7家族成员可以是RAMP家族蛋白的一个亚类。Cas7家族蛋白可以归类在I型CRISPR系统中。Cas7家族成员可不含一些RAMP家族成员熟悉的富甘氨酸环。Cas7家族成员可包含一个RRM结构域。Cas7家族成员可包括，但不限于，Cas7(COG1857)、Cas7(COG3649)、Cas7(CT1975)、Csy3、Csm3、Cmr6、Csm5、Cmr4、Cmr1、Csf2和Csc2。

Cas6家族

Cas6家族可以是RAMP亚家族。Cas6家族成员可包含两个RNA识别基序(RRM)-样结构域。Cas6家族成员(例如Cas6f)可包含N-末端RRM结构域和可表现出与RRM结构域的弱序列类似性或结构同源性的不同C-末端结构域。Cas6家族成员可包含参与核糖核酸内切酶活性的催化组氨酸。可以在Cas5和Cas7RAMP家族中找到相当的基序。Cas6家族成员可包括，但不限于，Cas6、Cas6e、Cas6f(例如Csy4)。

Cas5家族

Cas5家族可以是RAMP亚家族。Cas5家族可分成两个亚组：一个亚组可包含两个RRM结构域，和一个亚组可包含一个RRM结构域。Cas5家族成可包括，但不限于，Csm4、Csx10、Cmr3、Cas5、Cas5(BH0337)、Csy2、Csc1、Csf3。

Cas基因

示例性CRISPR Cas基因可包括Cas1、Cas2、Cas3’(Cas3-prime)、Cas3”(Cas3-双prime)、Cas4、Cas5、Cas6、Cas6e(之前称为CasE、Cse3)、Cas6f(即Csy4)、Cas7、Cas8a1、Cas8a2、Cas8b、Cas8c、Cas9、Cas10、Cas10d、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4。表1提供通过CRISPR系统类型对CRISPR Cas基因的示例性分类。

自从发现Cas基因以来，CRISPR-Cas基因命名系统已在很大程度上重写。为了本申请的目的，本文所用的Cas基因名基于Makarova等人Evolution and classification ofthe CRISPR-Cas systems.Nature Reviews Microbiology.2011年6月；9(6):467-477.Doi:10.1038/nrmicro2577中略述的命名系统。

表1:通过CRISPR类型对CRISPR Cas基因的示例性分类

定点多肽

定点多肽可以是可与靶核酸结合的多肽。定点多肽可以是核酸酶。

定点多肽可包含核酸结合域。该核酸结合域可包含接触核酸的区域。核酸结合域可包含核酸。核酸结合域可包含蛋白类材料。核酸结合域可包含核酸和蛋白类材料。核酸结合域可包含RNA。可存在单个核酸结合域。核酸结合域的实例可包括，但不限于，螺旋-转角-螺旋结构域、锌指结构域、亮氨酸拉链(bZIP)结构域、翼状螺旋结构域、翼状螺旋-转角-螺旋结构域、螺旋-环-螺旋结构域、HMG-盒结构域、Wor3结构域、免疫球蛋白结构域、B3结构域、TALE结构域、RNA-识别基序结构域、双链RNA结合基序结构域、双链核酸结合域、单链核酸结合域、KH结构域、PUF结构域、RGG盒结构域、DEAD/DEAH盒结构域、PAZ结构域、Piwi结构域和冷休克结构域。

核酸结合域可以是argonaute蛋白的结构域。argonaute蛋白可以是真核argonaute或原核argonaute。argonaute蛋白可以结合RNA、DNA，或RNA和DNA两者。argonaute蛋白可裂解RNA或DNA，或RNA和DNA两者。在一些情况中，argonaute蛋白结合DNA并裂解靶DNA。

在一些情况中，可以将两个或更多个核酸结合域连接在一起。将多个核酸结合域连接在一起可提供提高的多核苷酸靶向特异性。可经由一个或多个接头连接两个或更多个核酸结合域。该接头可以是柔性接头。接头在长度上可包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40或更多个氨基酸。接头可包含至少5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或100％甘氨酸含量。接头可包含最多5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或100％甘氨酸含量。接头可包含至少5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或100％丝氨酸含量。接头可包含最多5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或100％丝氨酸含量。

核酸结合域可与核酸序列结合。核酸结合域可通过杂交与核酸结合。可以将核酸结合域工程改造(例如工程改造以与基因组中的序列杂交)。可通过分子克隆技术(例如定向进化、位点特异性突变和合理诱变)将核酸结合域工程改造。

定点多肽可包含核酸裂解域。核酸裂解域可以是来自任何核酸裂解蛋白的核酸裂解域。核酸裂解域可源自核酸酶。合适的核酸裂解域包括内切核酸酶(例如AP内切核酸酶、RecBCD内切核酸酶、T7内切核酸酶、T4内切核酸酶IV、Bal 31内切核酸酶、内切核酸酶I(endo I)、微球菌核酸酶、内切核酸酶II(endo VI、exo III))、外切核酸酶、限制性核酸酶、核糖核酸内切酶、核糖核酸外切酶、RNA酶(例如RNA酶I、II或III)的核酸裂解域。在一些情况中，该核酸裂解域可源自FokI内切核酸酶。定点多肽可包含多个核酸裂解域。可以将核酸裂解域连接在一起。可经由接头连接两个或更多个核酸裂解域。在一些实施方案中，接头可以是柔性接头。接头在长度上可包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40或更多个氨基酸。在一些实施方案中，定点多肽可包含多个核酸裂解域。

定点多肽(例如Cas9、argonaute)可包含两个或更多个核酸酶结构域。Cas9可包含HNH或HNH样核酸酶结构域和/或RuvC或RuvC样核酸酶结构域。HNH或HNH样结构域可包含McrA样折叠。HNH或HNH样结构域可包含两个反平行β-链和α-螺旋。HNH或HNH样结构域可包含金属结合位点(例如二价阳离子结合位点)。HNH或HNH样结构域可裂解靶核酸的一条链(例如crRNA靶向的链的互补链)。包含HNH或HNH样结构域的蛋白可包括内切核酸酶、clicins、限制性内切核酸酶、转座酶和DNA包装因子(packaging factors)。

RuvC或RuvC样结构域可包含RNA酶H或RNA酶H样折叠。RuvC/RNA酶H结构域可参与多种多样的一组基于核酸的功能，包括对RNA和DNA的作用。RNA酶H结构域可包含被许多α-螺旋包围的5个β-链。RuvC/RNA酶H或RuvC/RNA酶H样结构域可包含金属结合位点(例如二价阳离子结合位点)。RuvC/RNA酶H或RuvC/RNA酶H样结构域可裂解靶核酸的一条链(例如crRNA靶向的链的非互补链)。包含RuvC、RuvC样或RNA酶H样结构域的蛋白可包括RNA酶H、RuvC、DNA转座酶、逆转录病毒整合酶和Argonaut蛋白)。

该定点多肽可以是核糖核酸内切酶。该定点多肽可以是无酶活性的定点多肽。该定点多肽可以是有条件地无酶活性的定点多肽。

定点多肽可以在核酸(例如基因组DNA)中引入双链断裂或单链断裂。双链断裂可刺激细胞的内源性DNA修复途径(例如同源重组和非同源末端连接(NHEJ)或可替代的非同源末端连接(A-NHEJ))。NHEJ可修复裂解的靶核酸而不需要同源模板。这可导致靶核酸缺失。可用同源模板发生同源重组(HR)。该同源模板可包含与靶核酸裂解位点旁侧的序列同源的序列。在靶核酸被定点多肽裂解后，裂解位点可被破坏(例如该位点可能无法用于被原始的以核酸为靶的核酸和定点多肽的另一轮裂解)。

在一些情况中，同源重组可以将外源多核苷酸序列插入靶核酸裂解位点。外源多核苷酸序列可以被称作供体多核苷酸。在本公开的方法的一些情况中，可以将供体多核苷酸、供体多核苷酸的一部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的一部分插入靶核酸裂解位点。供体多核苷酸可以是外源多核苷酸序列。供体多核苷酸可以是并非天然存在于靶核酸裂解位点处的序列。载体可包含供体多核苷酸。归因于NHEJ和/或HR，靶DNA的修饰会导致例如突变、缺失、改变、整合、基因修正、基因替代、基因标记、转基因插入、核苷酸缺失、基因破坏和/或基因突变。将非天然核酸整合到基因组DNA中的方法可被称作基因组工程。

在一些情况中，该定点多肽可包含具有野生型示例性定点多肽(例如来自化脓性链球菌的Cas9，SEQ ID NO:8)的最多10％、最多15％、最多20％、最多30％、最多40％、最多50％、最多60％、最多70％、最多75％、最多80％、最多85％、最多90％、最多95％、最多99％或100％氨基酸序列同一性的氨基酸序列。

在一些情况中，定点多肽可包含具有野生型示例性定点多肽(例如来自化脓性链球菌的Cas9，SEQ ID NO:8)的至少10％、至少15％、20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少99％或100％氨基酸序列同一性的氨基酸序列。

在一些情况中，定点多肽可包含具有野生型示例性定点多肽(例如来自化脓性链球菌的Cas9，SEQ ID NO:8)的核酸酶结构域的最多10％、最多15％、最多20％、最多30％、最多40％、最多50％、最多60％、最多70％、最多75％、最多80％、最多85％、最多90％、最多95％、最多99％或100％氨基酸序列同一性的氨基酸序列。

定点多肽可包含在10个邻接氨基酸中与野生型定点多肽(例如来自化脓性链球菌的Cas9，SEQ ID NO:8)至少70、75、80、85、90、95、97、99或100％同一性。定点多肽可包含在10个邻接氨基酸中与野生型定点多肽(例如来自化脓性链球菌的Cas9，SEQ ID NO:8)最多70、75、80、85、90、95、97、99或100％同一性。定点多肽可包含在定点多肽的HNH核酸酶结构域中的10个邻接氨基酸中与野生型定点多肽(例如来自化脓性链球菌的Cas9，SEQ ID NO:8)至少70、75、80、85、90、95、97、99或100％同一性。定点多肽可包含在定点多肽的HNH核酸酶结构域的10个邻接氨基酸中与野生型定点多肽(例如来自化脓性链球菌的Cas9，SEQ IDNO:8)最多70、75、80、85、90、95、97、99或100％同一性。定点多肽可包含在定点多肽的RuvC核酸酶结构域的10个邻接氨基酸中与野生型定点多肽(例如来自化脓性链球菌的Cas9，SEQID NO:8)至少70、75、80、85、90、95、97、99或100％同一性。定点多肽可包含在定点多肽的RuvC核酸酶结构域的10个邻接氨基酸中与野生型定点多肽(例如来自化脓性链球菌的Cas9，SEQ ID NO:8)最多70、75、80、85、90、95、97、99或100％同一性。

在一些情况中，该定点多肽可包含具有与野生型示例性定点多肽(例如来自化脓性链球菌的Cas9)的核酸酶结构域至少10％、至少15％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少99％或100％氨基酸序列同一性的氨基酸序列。

该定点多肽可包含野生型示例性定点多肽的修饰形式。野生型示例性定点多肽的修饰形式可包含降低该定点多肽的核酸裂解活性的氨基酸变化(例如缺失、插入或置换)。例如，野生型示例性定点多肽的修饰形式可具有野生型示例性定点多肽(例如来自化脓性链球菌的Cas9)的小于90％、小于80％、小于70％、小于60％、小于50％、小于40％、小于30％、小于20％、小于10％、小于5％或小于1％的核酸裂解活性。定点多肽的修饰形式可以基本没有核酸裂解活性。当定点多肽是基本没有核酸裂解活性的修饰形式时，其可被称作“无酶活性的”。

野生型示例性定点多肽的修饰形式可具有野生型示例性定点多肽(例如来自化脓性链球菌的Cas9)的大于90％、大于80％、大于70％、大于60％、大于50％、大于40％、大于30％、大于20％、大于10％、大于5％或大于1％的核酸裂解活性。

定点多肽的修饰形式可包含突变。定点多肽的修饰形式可包含突变以使其可引起靶核酸上的单链断裂(SSB)(例如通过切断靶核酸的仅一个糖-磷酸骨架)。该突变可造成野生型定点多肽(例如来自化脓性链球菌的Cas9)的所述多个核酸裂解域的一个或多个中的小于90％、小于80％、小于70％、小于60％、小于50％、小于40％、小于30％、小于20％、小于10％、小于5％或小于1％的核酸裂解活性。该突变可导致所述多个核酸裂解域的一个或多个保持裂解靶核酸的互补链的能力但降低其裂解靶核酸的非互补链的能力。该突变可导致所述多个核酸裂解域的一个或多个保持裂解靶核酸的非互补链的能力但降低其裂解靶核酸的互补链的能力。例如，野生型示例性化脓性链球菌Cas9多肽中的残基，如Asp10、His840、Asn854和Asn856可以突变以使所述多个核酸裂解域的一个或多个(例如核酸酶结构域)失活。要突变的残基可相当于野生型示例性化脓性链球菌Cas9多肽中的残基Asp10、His840、Asn854和Asn856(例如如通过序列和/或结构比对确定)。突变的非限制性实例可包括D10A、H840A、N854A或N856A。本领域技术人员会认识到，丙氨酸取代以外的突变是合适的。

D10A突变可以与H840A、N854A或N856A突变中的一种或多种结合以产生基本缺乏DNA裂解活性的定点多肽。H840A突变可以与D10A、N854A或N856A突变中的一种或多种结合以产生基本缺乏DNA裂解活性的定点多肽。N854A突变可以与H840A、D10A或N856A突变中的一种或多种结合以产生基本缺乏DNA裂解活性的定点多肽。N856A突变可以与H840A、N854A或D10A突变中的一种或多种结合以产生基本缺乏DNA裂解活性的定点多肽。包含一个基本无活性的核酸酶结构域的定点多肽可被称作切口酶。

本公开的突变可通过定点突变产生。突变可包括替换、添加和缺失，或它们的任何组合。在一些情况中，该突变将突变氨基酸转化成丙氨酸。在一些情况中，该突变将突变氨基酸转化成另一氨基酸(例如甘氨酸、丝氨酸、苏氨酸、半胱氨酸、缬氨酸、亮氨酸、异亮氨酸、蛋氨酸、脯氨酸、苯基丙氨酸、酪氨酸、色氨酸、天冬氨酸、谷氨酸、天冬酰胺、谷氨酰胺、组氨酸、赖氨酸或精氨酸)。该突变可以将突变氨基酸转化成非天然氨基酸(例如硒代蛋氨酸)。该突变可以将突变氨基酸转化成氨基酸模拟物(例如磷酸模拟物(phosphomimics))。该突变可以是保守突变。例如，该突变可以将突变氨基酸转化成尺寸、形状、电荷、极性、构象类似的氨基酸，和/或该突变氨基酸的旋转异构体(例如半胱氨酸/丝氨酸突变、赖氨酸/天冬氨酸突变、组氨酸/苯基丙氨酸突变)。

在一些情况中，定点多肽(例如变体、突变、无酶活性和/或有条件地无酶活性的定点多肽)可靶向核酸。该定点多肽(例如变体、突变、无酶活性和/或有条件地无酶活性的核糖核酸内切酶)可靶向RNA。靶向RNA的定点多肽可包括其它CRISPR亚家族的成员，如Cas6和Cas5。

该定点多肽可包含一个或多个非天然序列(例如融合体)。

定点多肽可包含含有来自细菌(例如化脓性链球菌)的Cas9的至少15％氨基酸同一性的氨基酸序列、核酸结合域和两个核酸裂解域(即HNH结构域和RuvC结构域)。

定点多肽可包含含有来自细菌(例如化脓性链球菌)的Cas9的至少15％氨基酸同一性的氨基酸序列和两个核酸裂解域(即HNH结构域和RuvC结构域)。

定点多肽可包含含有来自细菌(例如化脓性链球菌)的Cas9的至少15％氨基酸同一性的氨基酸序列和两个核酸裂解域，其中核酸裂解域的一个或两个包含来自细菌(例如化脓性链球菌)的Cas9的核酸酶结构域的至少50％氨基酸同一性。

定点多肽可包含含有来自细菌(例如化脓性链球菌)的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)和连接该定点多肽与非天然序列的接头。

定点多肽可包含含有来自细菌(例如化脓性链球菌)的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)，其中该定点多肽在核酸裂解域的一个或两个中包含将核酸酶结构域的裂解活性降低至少50％的突变。

定点多肽可包含含有来自细菌(例如化脓性链球菌)的Cas9的至少15％氨基酸同一性的氨基酸序列和两个核酸裂解域(即HNH结构域和RuvC结构域)，其中核酸酶结构域之一包含天冬氨酸10的突变，和/或其中核酸酶结构域之一包含组氨酸840的突变，且其中这些突变将核酸酶结构域的裂解活性降低至少50％。

核糖核酸内切酶

在一些实施方案中，定点多肽可以是核糖核酸内切酶。

在一些情况中，该核糖核酸内切酶可包含具有野生型参考核糖核酸内切酶的最多大约20％、最多大约30％、最多大约40％、最多大约50％、最多大约60％、最多大约70％、最多大约75％、最多大约80％、最多大约85％、最多大约90％、最多大约95％、最多大约99％或100％氨基酸序列同一性和/或同源性的氨基酸序列。该核糖核酸内切酶可包含具有野生型参考核糖核酸内切酶(例如来自铜绿假单胞菌(P.aeruginosa)的Csy4)的至少大约20％、至少大约30％、至少大约40％、至少大约50％、至少大约60％、至少大约70％、至少大约75％、至少大约80％、至少大约85％、至少大约90％、至少大约95％、至少大约99％或100％氨基酸序列同一性和/或同源性的氨基酸序列。该参考核糖核酸内切酶可以是Cas6家族成员(例如Csy4、Cas6)。该参考核糖核酸内切酶可以是Cas5家族成员(例如来自D.vulgaris的Cas5)。该参考核糖核酸内切酶可以是I型CRISPR家族成员(例如Cas3)。该参考核糖核酸内切酶可以是II型家族成员。该参考核糖核酸内切酶可以是III型家族成员(例如Cas6)。参考核糖核酸内切酶可以是重复相关可疑蛋白(RAMP)超家族的成员(例如Cas7)。

该核糖核酸内切酶可包含氨基酸修饰(例如替换、缺失、添加等)。该核糖核酸内切酶可包含一个或多个非天然序列(例如融合体、亲和标记)。该氨基酸修饰可基本不会改变核糖核酸内切酶的活性。包含氨基酸修饰和/或融合体的核糖核酸内切酶可保持野生型核糖核酸内切酶的至少大约75％、至少大约80％、至少大约85％、至少大约90％、至少大约95％、至少大约97％或100％活性。

该修饰可造成核糖核酸内切酶的酶活性改变。该修饰可造成核糖核酸内切酶的小于90％、小于80％、小于70％、小于60％、小于50％、小于40％、小于30％、小于20％、小于10％、小于5％或小于1％的活性。在一些情况中，该修饰在核糖核酸内切酶的核酸酶结构域中发生。这样的修饰可造成野生型核糖核酸内切酶的所述多个核酸裂解域的一个或多个中的小于90％、小于80％、小于70％、小于60％、小于50％、小于40％、小于30％、小于20％、小于10％、小于5％或小于1％的核酸裂解活性。

有条件地无酶活性的核糖核酸内切酶

在一些实施方案中，核糖核酸内切酶可以是有条件地无酶活性的。有条件地无酶活性的核糖核酸内切酶可以以序列特异性方式结合到多核苷酸上。有条件地无酶活性的核糖核酸内切酶可以以序列特异性方式结合多核苷酸，但无法裂解靶聚核糖核苷酸。

在一些情况中，该有条件地无酶活性的核糖核酸内切酶可包含具有参考的有条件地无酶活性的核糖核酸内切酶(例如来自铜绿假单胞菌的Csy4)的最多大约20％、最多大约30％、最多大约40％、最多大约50％、最多大约60％、最多大约70％、最多大约75％、最多大约80％、最多大约85％、最多大约90％、最多大约95％、最多大约99％或100％氨基酸序列同一性和/或同源性的氨基酸序列。在一些情况中，该有条件地无酶活性的核糖核酸内切酶可包含具有参考的有条件地无酶活性的核糖核酸内切酶(例如来自铜绿假单胞菌的Csy4)的至少大约20％、至少大约30％、至少大约40％、至少大约50％、至少大约60％、至少大约70％、至少大约75％、至少大约80％、至少大约85％、至少大约90％、至少大约95％、至少大约99％或100％氨基酸序列同一性和/或同源性的氨基酸序列。

该有条件地无酶活性的核糖核酸内切酶可包含核糖核酸内切酶的修饰形式。核糖核酸内切酶的修饰形式可包含降低该核糖核酸内切酶的核酸裂解活性的氨基酸变化(例如缺失、插入或替换)。例如，该有条件地无酶活性的核糖核酸内切酶的修饰形式可具有参考的例如野生型)有条件地无酶活性的核糖核酸内切酶(例如来自铜绿假单胞菌的Csy4)的小于90％、小于80％、小于70％、小于60％、小于50％、小于40％、小于30％、小于20％、小于10％、小于5％或小于1％的核酸裂解活性。该有条件地无酶活性的核糖核酸内切酶的修饰形式可以基本没有核酸裂解活性。当有条件地无酶活性的核糖核酸内切酶是基本没有核酸裂解活性的修饰形式时，其可被称作“无酶活性”。

该有条件地无酶活性的核糖核酸内切酶的修饰形式可包含造成降低的核酸-裂解活性(即，使得该有条件地无酶活性的核糖核酸内切酶在核酸裂解域的一个或多个中无酶活性)的突变。该突变可造成野生型核糖核酸内切酶(例如来自铜绿假单胞菌的Csy4)的所述多个核酸裂解域的一个或多个中的小于90％、小于80％、小于70％、小于60％、小于50％、小于40％、小于30％、小于20％、小于10％、小于5％或小于1％的核酸裂解活性。该突变可以在核糖核酸内切酶的核酸酶结构域中发生。该突变可以在铁氧还蛋白样折叠中发生。该突变可包含保守芳族氨基酸的突变。该突变可包含催化氨基酸的突变。该突变可包含组氨酸的突变。例如，该突变可包含Csy4(例如来自铜绿假单胞菌的Csy4)的H29A突变，或通过序列和/或结构比对确定的任何与H29A对应的残基。可以使其它残基突变以实现相同效果(即所述多个核酸酶结构域的一个或多个失活)。

本发明的突变可通过定点突变产生。突变可包括替换、添加和缺失，或它们的任何组合。在一些情况中，该突变将突变氨基酸转化成丙氨酸。在一些情况中，该突变将突变氨基酸转化成另一氨基酸(例如甘氨酸、丝氨酸、苏氨酸、半胱氨酸、缬氨酸、亮氨酸、异亮氨酸、蛋氨酸、脯氨酸、苯基丙氨酸、酪氨酸、色氨酸、天冬氨酸、谷氨酸、天冬酰胺、谷氨酰胺、组氨酸、赖氨酸或精氨酸)。该突变可以将突变氨基酸转化成非天然氨基酸(例如硒代蛋氨酸)。该突变可以将突变氨基酸转化成氨基酸模拟物(例如磷酸模拟物)。该突变可以是保守突变。例如，该突变可以将突变氨基酸转化成尺寸、形状、电荷、极性、构象类似的氨基酸和/或该突变氨基酸的旋转异构体(例如半胱氨酸/丝氨酸突变、赖氨酸/天冬氨酸突变、组氨酸/苯基丙氨酸突变)。

有条件地无酶活性的核糖核酸内切酶可以在不存在复能剂(例如咪唑)的情况下无酶活性。复能剂可以是模拟组氨酸残基的试剂(例如可具有咪唑环)。有条件地无酶活性的核糖核酸内切酶可通过与复能剂接触活化。该复能剂可包含咪唑。例如，可通过使该有条件地无酶活性的核糖核酸内切酶与在大约100mM至大约500mM浓度下的咪唑接触而酶活化该有条件地无酶活性的核糖核酸内切酶。咪唑可以在大约100mM、大约150mM、大约200mM、大约250mM、大约300mM、大约350mM、大约400mM、大约450mM、大约500mM、大约550mM或大约600mM的浓度下。咪唑(例如在大约100mM至大约500mM浓度范围内)的存在可以再活化该有条件地无酶活性的核糖核酸内切酶以使该有条件地无酶活性的核糖核酸内切酶变得有酶活性，例如，该有条件地无酶活性的核糖核酸内切酶表现出参考的有条件地无酶活性的核糖核酸内切酶(例如包含H29A突变的来自铜绿假单胞菌的Csy4)的至少大约50％、至少大约60％、至少大约70％、至少大约80％、至少大约90％、至少大约95％或大于95％的核酸裂解能力。

有条件地无酶活性的核糖核酸内切酶可包含来自铜绿假单胞菌的Csy4的至少20％氨基酸同一性、组氨酸29的突变，其中该突变导致核糖核酸内切酶的核酸酶活性降低至少50％，且其中可通过用至少100mM咪唑培育该核糖核酸内切酶恢复损失的核酸酶活性的至少50％。

密码子优化

编码定点多肽和/或核糖核酸内切酶的多核苷酸可以密码子优化。这种类型的优化可需要外源性(例如重组)DNA的突变以模拟预期宿主有机体或细胞的密码子偏好，同时编码相同蛋白。因此，可以改变密码子，但编码蛋白保持不变。例如，如果预期靶细胞是人类细胞，人类密码子优化的多核苷酸Cas9可用于产生合适的定点多肽。作为另一非限制性实例，如果预期宿主细胞是小鼠细胞，则小鼠密码子优化的编码Cas9的多核苷酸可以是合适的定点多肽。编码定点多肽的多核苷酸可针对许多感兴趣的宿主细胞进行密码子优化。宿主细胞可以是来自任何有机体的细胞(例如细菌细胞、古细菌细胞、单细胞真核生物的细胞、植物细胞、藻细胞，例如布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonasreinhardtii)、海洋富油微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻(Sargassum patens C.Agardh)等，真菌细胞(例如酵母细胞)、动物细胞、来自无脊椎动物(例如果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如鱼、两栖动物、爬行动物、鸟、哺乳动物)的细胞、来自哺乳动物(例如猪、牛、山羊、绵羊、啮齿动物、大鼠、小鼠、非人灵长类、人类等)的细胞等。可能不需要密码子优化。在一些情况中，密码子优化是优选的。

以核酸为靶的核酸

本公开提供了以核酸为靶的核酸，其可将相关多肽(例如定点多肽)的活性导向靶核酸内的特定靶序列。以核酸为靶的核酸可包含核苷酸。以核酸为靶的核酸可以是RNA。以核酸为靶的核酸可包含以核酸为靶的单导向核酸。在图1A中描绘了示例性的单导向核酸。间隔区突出端105和tracrRNA突出端135可包含有助于所述以核酸为靶的核酸的附加功能(例如稳定性)的元素。在一些实施方案中，间隔区突出端105和tracrRNA突出端135是任选的。间隔区序列110可包含可与靶核酸序列杂交的序列。间隔区序列110可以是所述以核酸为靶的核酸的可变部分。可以将间隔区序列110的序列工程改造以与靶核酸序列杂交。CRISPR重复片段115(即在这一示例性实施方案中被称作最小CRISPR重复片段)可包含可与tracrRNA序列125(即在这一示例性实施方案中被称作最小tracrRNA序列)杂交的核苷酸。最小CRISPR重复片段115和最小tracrRNA序列125可以相互作用，该相互作用分子包含碱基配对的双链结构。最小CRISPR重复片段115和最小tracrRNA序列125可以一起促进与定点多肽结合。最小CRISPR重复片段115和最小tracrRNA序列125可通过单导向接头120连接在一起以形成发夹结构。3’tracrRNA序列130可包含前间区序列邻近基序识别序列。3’tracrRNA序列130可以与tracrRNA序列的一部分相同或类似。在一些实施方案中，3’tracrRNA序列130可包含一个或多个发夹结构。

在一些实施方案中，以核酸为靶的核酸可包含如图1B中描绘的以核酸为靶的单导向核酸。以核酸为靶的核酸可包含间隔区序列140。间隔区序列140可包含可与靶核酸序列杂交的序列。间隔区序列140可以是所述以核酸为靶的核酸的可变部分。间隔区序列140可以是第一双链体145的5’。第一双链体145包含最小CRISPR重复片段146和最小tracrRNA序列147之间的杂交区。第一双链体145可以被突起150中断。突起150可包含不成对核苷酸。突起150可促进将定点多肽募集到所述以核酸为靶的核酸上。突起150后接着第一茎155。第一茎155包含连接最小CRISPR重复片段146和最小tracrRNA序列147的接头序列。第一双链体145的3’端的最后一对核苷酸可连接到第二接头序列160上。第二接头160可包含P-结构域。第二接头160可以将第一双链体145连接到中间-tracrRNA 165上。该中间-tracrRNA 165在一些实施方案中可包含一个或多个发夹结构区。例如，中间-tracrRNA 165可包含第二茎170和第三茎175。

在一些实施方案中，所述以核酸为靶的核酸可包含双导向核酸结构。图2描绘示例性的以核酸为靶的双导向核酸结构。类似于图1的单导向核酸结构，该双导向核酸结构可包含间隔区突出端205、间隔区210、最小CRISPR重复片段215、最小tracrRNA序列230、3’tracrRNA序列235和tracrRNA突出端240。但是，以核酸为靶的双导向核酸可能不含单导向接头120。取而代之地，最小CRISPR重复序列215可包含3’CRISPR重复序列220，其可以与CRISPR重复片段的一部分类似或相同。类似地，最小tracrRNA序列230可包含5’tracrRNA序列225，其可以与tracrRNA的一部分类似或相同。双导向RNA可经由最小CRISPR重复片段215和最小tracrRNA序列230杂交在一起。

在一些实施方案中，第一片段(即以核酸为靶的片段)可包含间隔区突出端(例如105/205)和间隔区(例如110/210)。所述以核酸为靶的核酸可经由上述以核酸为靶的片段将结合的多肽导向靶核酸内的特定核苷酸序列。

在一些实施方案中，第二片段(即蛋白结合片段)可包含最小CRISPR重复片段(例如115/215)、最小tracrRNA序列(例如125/230)、3’tracrRNA序列(例如130/235)，和/或tracrRNA突出端序列(例如135/240)。以核酸为靶的核酸的蛋白结合片段可以与定点多肽相互作用。以核酸为靶的核酸的蛋白结合片段可包含两段核苷酸，它们可互相杂交。蛋白结合片段的核苷酸可以杂交形成双链核酸双链体。该双链核酸双链体可以是RNA。该双链核酸双链体可以是DNA。

在一些情况中，以核酸为靶的核酸可以以5’至3’的顺序包含间隔区突出端、间隔区、最小CRISPR重复片段、单导向接头、最小tracrRNA、3’tracrRNA序列和tracrRNA突出端。在一些情况中，以核酸为靶的核酸可以以任何顺序包含tracrRNA突出端、3’tracrRNA序列、最小tracrRNA、单导向接头、最小CRISPR重复片段、间隔区和间隔区突出端。

以核酸为靶的核酸和定点多肽可形成复合体。以核酸为靶的核酸可通过包含可与靶核酸的序列杂交的核苷酸序列而为该复合体提供靶特异性。换言之，可借助其与所述以核酸为靶的核酸的至少蛋白结合片段的结合将定点多肽导向核酸序列。所述以核酸为靶的核酸可指导Cas9蛋白的活性。所述以核酸为靶的核酸可指导无酶活性的Cas9蛋白的活性。

本公开的方法可提供基因修饰细胞。基因修饰细胞可包含外源性的以核酸为靶的核酸和/或外源性核酸，所述外源性核酸包含编码以核酸为靶的核酸的核苷酸序列。

间隔区突出端序列

间隔区突出端序列可为以核酸为靶的核酸提供稳定性和/或提供修饰位置。间隔区突出端序列可具有大约1个核苷酸至大约400个核苷酸的长度。间隔区突出端序列可具有大于1、5、10、15、20、25、30、35、40、45、50、60、70、80、90、100、120、140、160、180、200、220、240、260、280、300、320、340、360、380、400、1000、2000、3000、4000、5000、6000或7000或更多个核苷酸的长度。间隔区突出端序列可具有小于1、5、10、15、20、25、30、35、40、45、50、60、70、80、90、100、120、140、160、180、200、220、240、260、280、300、320、340、360、380、400、1000、2000、3000、4000、5000、6000、7000或更多个核苷酸的长度。间隔区突出端序列可以是小于10个核苷酸的长度。间隔区突出端序列可以是10至30个核苷酸的长度。间隔区突出端序列可以是30-70个核苷酸的长度。

该间隔区突出端序列可包含一个部分(例如稳定性控制序列、核糖核酸内切酶结合序列、核酶)。部分可影响靶向RNA的核酸的稳定性。部分可以是转录终止子片段(即转录终止序列)。以核酸为靶的核酸的部分可具有大约10个核苷酸至大约100个核苷酸、大约10个核苷酸(nt)至大约20nt、大约20nt至大约30nt、大约30nt至大约40nt、大约40nt至大约50nt、大约50nt至大约60nt、大约60nt至大约70nt、大约70nt至大约80nt、大约80nt至大约90nt、或大约90nt至大约100nt、大约15个核苷酸(nt)至大约80nt、大约15nt至大约50nt、大约15nt至大约40nt、大约15nt至大约30nt或大约15nt至大约25nt的总长度。该部分可以是在真核细胞中可发挥作用的部分。在一些情况中，该部分可以是在原核细胞中可发挥作用的部分。该部分可以是在真核细胞和原核细胞中都可发挥作用的部分。

合适的部分的非限制性实例可包括：5’帽(例如7-甲基鸟苷酸酯帽(m7G))、核糖开关序列(例如以允许调节的稳定性和/或被蛋白和蛋白复合体调节的可接触性)、形成dsRNA双链体(即发夹结构)的序列、将RNA靶向亚细胞位置(例如核、线粒体、叶绿体等)的序列、提供跟踪的修饰或序列(例如与荧光分子的直接缀合、与促进荧光检测的部分的缀合、能允许荧光检测的序列等)、为蛋白(例如作用于DNA的蛋白，包括转录激活物、转录阻遏物、DNA甲基转移酶、DNA脱甲基酶、组蛋白乙酰转移酶、组蛋白脱乙酰酶等)提供结合位点的修饰或序列、提供提高、降低和/或可控的稳定性的修饰或序列，或它们的任何组合。间隔区突出端序列可包含引物结合位点、分子指标(例如条形码序列)。该间隔区突出端序列可包含核酸亲和标记。

间隔区

以核酸为靶的核酸的以核酸为靶的片段可包含可与靶核酸中的序列杂交的核苷酸序列(例如间隔区)。以核酸为靶的核酸的间隔区可以通过杂交(即碱基配对)以序列特异性方式与靶核酸相互作用。因此，间隔区的核苷酸序列可变并可决定以核酸为靶的核酸和靶核酸可相互作用的靶核酸内的位置。

该间隔区序列可与位于间隔区邻近基序(PAM)的5’的靶核酸杂交。不同有机体可包含不同的PAM序列。例如，在化脓性链球菌中，PAM可以是包含序列5’-XRR-3’的靶核酸中的序列，其中R可以是A或G，其中X是任何核苷酸且X紧邻被该间隔区序列靶向的靶核酸序列的3’。

靶核酸序列可以是20个核苷酸。靶核酸可以是小于20个核苷酸。靶核酸可以是至少5、10、15、16、17、18、19、20、21、22、23、24、25、30或更多个核苷酸。靶核酸可以是最多5、10、15、16、17、18、19、20、21、22、23、24、25、30或更多个核苷酸。靶核酸序列可以是紧邻PAM的第一个核苷酸的5’的20个碱基。例如，在包含5’-NNNNNNNNNNNNNNNNNNNNXRR-3’的序列中，靶核酸可以是相当于N’s的序列，其中N是任何核苷酸。

可与靶核酸杂交的间隔区的以核酸为靶的序列可具有至少大约6nt的长度。例如，可杂交靶核酸的间隔区序列可具有至少大约6nt、至少大约10nt、至少大约15nt、至少大约18nt、至少大约19nt、至少大约20nt、至少大约25nt、至少大约30nt、至少大约35nt或至少大约40nt、大约6nt至大约80nt、大约6nt至大约50nt、大约6nt至大约45nt、大约6nt至大约40nt、大约6nt至大约35nt、大约6nt至大约30nt、大约6nt至大约25nt、大约6nt至大约20nt、大约6nt至大约19nt、大约10nt至大约50nt、大约10nt至大约45nt、大约10nt至大约40nt、大约10nt至大约35nt、大约10nt至大约30nt、大约10nt至大约25nt、大约10nt至大约20nt、大约10nt至大约19nt、大约19nt至大约25nt、大约19nt至大约30nt、大约19nt至大约35nt、大约19nt至大约40nt、大约19nt至大约45nt、大约19nt至大约50nt、大约19nt至大约60nt、大约20nt至大约25nt、大约20nt至大约30nt、大约20nt至大约35nt、大约20nt至大约40nt、大约20nt至大约45nt、大约20nt至大约50nt、或大约20nt至大约60nt的长度。在一些情况中，可杂交靶核酸的间隔区序列可以是20个核苷酸的长度。可杂交靶核酸的间隔区可以是19个核苷酸的长度。

间隔区序列与靶核酸之间的互补性百分比可以为至少大约30％、至少大约40％、至少大约50％、至少大约60％、至少大约65％、至少大约70％、至少大约75％、至少大约80％、至少大约85％、至少大约90％、至少大约95％、至少大约97％、至少大约98％、至少大约99％或100％。间隔区序列与靶核酸之间的互补性百分比可以为最多大约30％、最多大约40％、最多大约50％、最多大约60％、最多大约65％、最多大约70％、最多大约75％、最多大约80％、最多大约85％、最多大约90％、最多大约95％、最多大约97％、最多大约98％、最多大约99％或100％。在一些情况中，间隔区序列与靶核酸之间的互补性百分比可以为在靶核酸的互补链的靶序列的6个邻接的5’最末端核苷酸中的100％。在一些情况中，间隔区序列与靶核酸之间的互补性百分比可以为在大约20个邻接核苷酸中至少60％。在一些情况中，间隔区序列与靶核酸之间的互补性百分比可以为在靶核酸的互补链的靶序列的14个邻接的5’最末端核苷酸中100％和在其余部分中低至0％。在这种情况下，该间隔区序列可以被视为14个核苷酸长度。在一些情况中，间隔区序列与靶核酸之间的互补百分比可以为在靶核酸的互补链的靶序列的6个邻接的5’最末端核苷酸中100％和在其余部分中低至0％。在这种情况下，该间隔区序列可以被视为6个核苷酸长度。该靶核酸可以与crRNA的种子区大于大约50％、60％、70％、80％、90％或100％互补。该靶核酸可以与crRNA的种子区小于大约50％、60％、70％、80％、90％或100％互补。

可以修饰(例如通过基因工程)以核酸为靶的核酸的间隔区片段以与靶核酸内的任何所需序列杂交。例如，可以将间隔区工程改造(例如设计、编程)以与靶核酸中的序列杂交，所述靶核酸涉及癌症、细胞生长、DNA复制、DNA修复、HLA基因、细胞表面蛋白、T-细胞受体、免疫球蛋白超家族基因、肿瘤抑制基因、microRNA基因、长非编码RNA基因、转录因子、珠蛋白、病毒蛋白、线粒体基因等。

可以使用计算机程序(例如机读代码)识别间隔区序列。该计算机程序可以使用变量，如预测的解链温度、二级结构生成和预测的退火温度、序列同一性、基因组背景、染色质可接触性、％GC、基因组发生频率、甲基化状态、SNP的存在等。

最小CRISPR重复序列

最小CRISPR重复序列可以是具有与参考CRISPR重复序列(例如来自化脓性链球菌的crRNA)的至少大约30％、40％、50％、60％、65％、70％、75％、80％、85％、90％、95％或100％序列同一性和/或序列同源性的序列。最小CRISPR重复序列可以是具有与参考CRISPR重复序列(例如来自化脓性链球菌的crRNA)的最多大约30％、40％、50％、60％、65％、70％、75％、80％、85％、90％、95％或100％序列同一性和/或序列同源性的序列。最小CRISPR重复片段可包含可与最小tracrRNA序列杂交的核苷酸。最小CRISPR重复片段和最小tracrRNA序列可形成碱基配对的双链结构。最小CRISPR重复片段和最小tracrRNA序列可一起促进与定点多肽结合。最小CRISPR重复序列的一部分可以与最小tracrRNA序列杂交。最小CRISPR重复序列的一部分可以与最小tracrRNA序列为至少大约30％、40％、50％、60％、65％、70％、75％、80％、85％、90％、95％或100％互补。最小CRISPR重复序列的一部分可以与最小tracrRNA序列为最多大约30％、40％、50％、60％、65％、70％、75％、80％、85％、90％、95％或100％互补。

最小CRISPR重复序列可具有大约6个核苷酸至大约100个核苷酸的长度。例如，最小CRISPR重复序列可具有大约6个核苷酸(nt)至大约50nt、大约6nt至大约40nt、大约6nt至大约30nt、大约6nt至大约25nt、大约6nt至大约20nt、大约6nt至大约15nt、大约8nt至大约40nt、大约8nt至大约30nt、大约8nt至大约25nt、大约8nt至大约20nt或大约8nt至大约15nt、大约15nt至大约100nt、大约15nt至大约80nt、大约15nt至大约50nt、大约15nt至大约40nt、大约15nt至大约30nt、或大约15nt至大约25nt的长度。在一些实施方案中，最小CRISPR重复序列具有大约12个核苷酸的长度。

最小CRISPR重复序列可以在至少6、7或8个邻接核苷酸的一段序列中与参考的最小CRISPR重复序列(例如来自化脓性链球菌的野生型crRNA)为至少大约60％相同。最小CRISPR重复序列可以在至少6、7或8个邻接核苷酸的一段序列中与参考的最小CRISPR重复序列(例如来自化脓性链球菌的野生型crRNA)为至少大约60％相同。例如，最小CRISPR重复序列可以在至少6、7或8个邻接核苷酸的一段序列中与参考的最小CRISPR重复序列为至少大约65％相同、至少大约70％相同、至少大约75％相同、至少大约80％相同、至少大约85％相同、至少大约90％相同、至少大约95％相同、至少大约98％相同、至少大约99％相同或100％相同。

最小tracrRNA序列

最小tracrRNA序列可以是具有与参考tracrRNA序列(例如来自化脓性链球菌的野生型tracrRNA)的至少大约30％、40％、50％、60％、65％、70％、75％、80％、85％、90％、95％或100％序列同一性和/或序列同源性的序列。最小tracrRNA序列可以是具有与参考tracrRNA序列(例如来自化脓性链球菌的野生型tracrRNA)的最多大约30％、40％、50％、60％、65％、70％、75％、80％、85％、90％、95％或100％序列同一性和/或序列同源性的序列。最小tracrRNA序列可包含可与最小CRISPR重复序列杂交的核苷酸。最小tracrRNA序列和最小CRISPR重复序列可形成碱基配对的双链结构。最小tracrRNA序列和最小CRISPR重复片段可一起促进与定点多肽结合。最小tracrRNA序列的一部分可以与最小CRISPR重复序列杂交。最小tracrRNA序列的一部分可以与最小CRISPR重复序列为30％、40％、50％、60％、65％、70％、75％、80％、85％、90％、95％或100％互补。

最小tracrRNA序列可具有大约6个核苷酸至大约100个核苷酸的长度。例如，最小tracrRNA序列可具有大约6个核苷酸(nt)至大约50nt、大约6nt至大约40nt、大约6nt至大约30nt、大约6nt至大约25nt、大约6nt至大约20nt、大约6nt至大约15nt、大约8nt至大约40nt、大约8nt至大约30nt、大约8nt至大约25nt、大约8nt至大约20nt或大约8nt至大约15nt、大约15nt至大约100nt、大约15nt至大约80nt、大约15nt至大约50nt、大约15nt至大约40nt、大约15nt至大约30nt、或大约15nt至大约25nt的长度。在一些实施方案中，最小tracrRNA序列具有大约14个核苷酸的长度。

最小tracrRNA序列可以在至少6、7或8个邻接核苷酸的一段序列中与参考的最小tracrRNA(例如野生型，来自化脓性链球菌的tracrRNA)序列为至少大约60％相同。最小tracrRNA序列可以在至少6、7或8个邻接核苷酸的一段序列中与参考的最小tracrRNA(例如野生型，来自化脓性链球菌的tracrRNA)序列为至少大约60％相同。例如，最小tracrRNA序列可以在至少6、7或8个邻接核苷酸的一段序列中与参考的最小tracrRNA序列为至少大约65％相同、至少大约70％相同、至少大约75％相同、至少大约80％相同、至少大约85％相同、至少大约90％相同、至少大约95％相同、至少大约98％相同、至少大约99％相同或100％相同。

最小CRISPR RNA和最小tracrRNA之间的双链体(即图1B中的第一双链体)可包含双螺旋。该双链体的第一链的第一碱基(例如图1B中的最小CRISPR重复片段)可以是鸟嘌呤。该双链体的第一链的第一碱基(例如图1B中的最小CRISPR重复片段)可以是腺嘌呤。最小CRISPR RNA和最小tracrRNA之间的双链体(即图1B中的第一双链体)可包含至少大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸。最小CRISPR RNA和最小tracrRNA之间的双链体(即图1B中的第一双链体)可包含最多大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸。

该双链体可包含错配。该双链体可包含至少大约1、2、3、4或5个错配。该双链体可包含最多大约1、2、3、4或5个错配。在一些情况中，该双链体包含不多于2个错配。

突起

突起可以是指由最小CRISPR重复片段和最小tracrRNA序列构成的双链体内的核苷酸的不成对区。该突起对与定点多肽结合是重要的。突起可以在双链体的一侧上包含不成对5’-XXXY-3’，其中X是任何嘌呤且Y可以是可与相对链上的核苷酸形成摆动配对的核苷酸，和在双链体的另一侧上的不成对核苷酸区。

例如，该突起可包含在该突起的最小CRISPR重复链上的不成对嘌呤(例如腺嘌呤)。在一些实施方案中，突起可包含该突起的最小tracrRNA序列链的不成对5’-AAGY-3’，其中Y可以是可与最小CRISPR重复链上的核苷酸形成摆动配对的核苷酸。

双链体第一侧(例如最小CRISPR重复侧)上的突起可包含至少1、2、3、4或5或更多个不成对核苷酸。双链体第一侧(例如最小CRISPR重复侧)上的突起可包含最多1、2、3、4或5或更多个不成对核苷酸。双链体第一侧(例如最小CRISPR重复侧)上的突起可包含1个不成对核苷酸。

双链体第二侧(例如双链体的最小tracrRNA序列侧)上的突起可包含至少1、2、3、4、5、6、7、8、9或10或更多个不成对核苷酸。双链体第二侧(例如双链体的最小tracrRNA序列侧)上的突起可包含最多1、2、3、4、5、6、7、8、9或10或更多个不成对核苷酸。双链体第二侧(例如双链体的最小tracrRNA序列侧)上的突起可包含4个不成对核苷酸。

双链体各链上的具有不同数量的不成对核苷酸的区域可以配对在一起。例如，突起可包含来自第一链的5个不成对核苷酸和来自第二链的1个不成对核苷酸。突起可包含来自第一链的4个不成对核苷酸和来自第二链的1个不成对核苷酸。突起可包含来自第一链的3个不成对核苷酸和来自第二链的1个不成对核苷酸。突起可包含来自第一链的2个不成对核苷酸和来自第二链的1个不成对核苷酸。突起可包含来自第一链的1个不成对核苷酸和来自第二链的1个不成对核苷酸。突起可包含来自第一链的1个不成对核苷酸和来自第二链的2个不成对核苷酸。突起可包含来自第一链的1个不成对核苷酸和来自第二链的3个不成对核苷酸。突起可包含来自第一链的1个不成对核苷酸和来自第二链的4个不成对核苷酸。突起可包含来自第一链的1个不成对核苷酸和来自第二链的5个不成对核苷酸。

在一些情况中，突起可包含至少一个摆动配对。在一些情况中，突起可包含最多一个摆动配对。突起序列可包含至少一个嘌呤核苷酸。突起序列可包含至少3个嘌呤核苷酸。突起序列可包含至少5个嘌呤核苷酸。突起序列可包含至少一个鸟嘌呤核苷酸。突起序列可包含至少一个腺嘌呤核苷酸。

P-结构域(P-DOMAIN)

P-结构域可以是指可识别靶核酸中的前间区序列邻近基序(PAM)的以核酸为靶的核酸的区域。P-结构域可与靶核酸中的PAM杂交。因此，P-结构域可包含与PAM互补的序列。P-结构域可位于最小tracrRNA序列的3’。A P-结构域可位于3’tracrRNA序列内(即中间-tracrRNA序列)。

p在最小CRISPR重复片段和最小tracrRNA序列双链体中的最后一对核苷酸的3’的至少大约1、2、3、4、5、6、7、8、9、10、15或20或更多个核苷酸处开始。P-结构域可以在最小CRISPR重复片段和最小tracrRNA序列双链体中的最后一对核苷酸的3’的最多大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸处开始。

P-结构域可包含至少大约1、2、3、4、5、6、7、8、9、10、15或20或更多个连续核苷酸。P-结构域可包含最多大约1、2、3、4、5、6、7、8、9、10、15或20或更多个连续核苷酸。

在一些情况中，P-结构域可包含CC二核苷酸(即两个连续胞嘧啶核苷酸)。该CC二核苷酸可以与PAM的GG二核苷酸相互作用，其中该PAM包含5’-XGG-3’序列。

P-结构域可以是位于3’tracrRNA序列(即中间-tracrRNA序列)中的核苷酸序列。P-结构域可包含成双链的核苷酸(例如发夹结构中的核苷酸，杂交在一起)。例如，P-结构域可包含与3’tracrRNA序列(即中间-tracrRNA序列)的发夹双链体中的GG二核苷酸杂交的CC二核苷酸。可通过P-DOMAIN的杂交状态调节P-结构域的活性(例如以核酸为靶的核酸的靶向靶核酸的能力)。例如，如果P-结构域杂交，所述以核酸为靶的核酸可能不识别其靶。如果P-结构域未杂交，所述以核酸为靶的核酸可以识别其靶。

P-结构域可以与定点多肽内的P-结构域相互作用区相互作用。P-结构域可以与定点多肽中的富含精氨酸的基础补丁(basic patch)相互作用。P-结构域相互作用区可以与PAM序列相互作用。P-结构域可包含茎环。P-结构域可包含突起。

3’tracrRNA序列

3’tracr RNA序列可以是具有参考tracrRNA序列(例如来自化脓性链球菌的tracrRNA)的至少大约30％、40％、50％、60％、65％、70％、75％、80％、85％、90％、95％或100％序列同一性和/或序列同源性的序列。3’tracr RNA序列可以是具有参考tracrRNA序列(例如来自化脓性链球菌的tracrRNA)的最多大约30％、40％、50％、60％、65％、70％、75％、80％、85％、90％、95％或100％序列同一性和/或序列同源性的序列。

3’tracrRNA序列可具有大约6个核苷酸至大约100个核苷酸的长度。例如，3’tracrRNA序列可具有大约6个核苷酸(nt)至大约50nt、大约6nt至大约40nt、大约6nt至大约30nt、大约6nt至大约25nt、大约6nt至大约20nt、大约6nt至大约15nt、大约8nt至大约40nt、大约8nt至大约30nt、大约8nt至大约25nt、大约8nt至大约20nt或大约8nt至大约15nt、大约15nt至大约100nt、大约15nt至大约80nt、大约15nt至大约50nt、大约15nt至大约40nt、大约15nt至大约30nt、或大约15nt至大约25nt的长度。在一些实施方案中，3’tracrRNA序列具有大约14个核苷酸的长度。

3’tracrRNA序列可以在至少6、7或8个邻接核苷酸的一段序列中与参考3’tracrRNA序列(例如来自化脓性链球菌的野生型3’tracrRNA序列)为至少大约60％相同。例如，3’tracrRNA序列可以在至少6、7或8个邻接核苷酸的一段序列中与参考3’tracrRNA序列(例如来自化脓性链球菌的野生型3’tracrRNA序列)为至少大约60％相同、至少大约65％相同、至少大约70％相同、至少大约75％相同、至少大约80％相同、至少大约85％相同、至少大约90％相同、至少大约95％相同、至少大约98％相同、至少大约99％相同或100％相同。

3’tracrRNA序列可包含多于一个成双链的区域(例如发夹结构、杂交区)。3’tracrRNA序列可包含两个成双链的区域。

3’tracrRNA序列也可以被称作中间-tracrRNA(参见图1B)。该中间-tracrRNA序列可包含茎环结构。换言之，该中间-tracrRNA序列可包含如图1B中描绘的不同于第二或第三茎的发夹结构。该中间-tracrRNA(即3’tracrRNA)中的茎环结构可包含至少1、2、3、4、5、6、7、8、9、10、15或20或更多个核苷酸。该中间-tracrRNA(即3’tracrRNA)中的茎环结构可包含最多1、2、3、4、5、6、7、8、9或10或更多个核苷酸。该茎环结构可包含功能部分。例如，该茎环结构可包含适体、核酶、蛋白相互作用的发夹结构、CRISPR阵列、内含子和外显子。该茎环结构可包含至少大约1、2、3、4或5或更多个功能部分。该茎环结构可包含最多大约1、2、3、4或5或更多个功能部分。

该中间-tracrRNA序列中的发夹结构可包含P-结构域。该P-结构域可包含在发夹结构中的双链区。

tracrRNA突出端序列

tracrRNA突出端序列可提供以核酸为靶的核酸的稳定性和/或提供修饰位置。tracrRNA突出端序列可具有大约1个核苷酸至大约400个核苷酸的长度。tracrRNA突出端序列可具有大于1、5、10、15、20、25、30、35、40、45、50、60、70、80、90、100、120、140、160、180、200、220、240、260、280、300、320、340、360、380、400或更多个核苷酸的长度。tracrRNA突出端序列可具有大约20至大约5000或更多个核苷酸的长度。tracrRNA突出端序列可具有大于1000个核苷酸的长度。tracrRNA突出端序列可具有小于1、5、10、15、20、25、30、35、40、45、50、60、70、80、90、100、120、140、160、180、200、220、240、260、280、300、320、340、360、380、400个核苷酸的长度。tracrRNA突出端序列可具有小于1000个核苷酸的长度。tracrRNA突出端序列可以是小于10个核苷酸的长度。tracrRNA突出端序列可以是10至30个核苷酸的长度。tracrRNA突出端序列可以是30-70个核苷酸的长度。

该tracrRNA突出端序列可包含一个部分(例如稳定性控制序列、核酶、核糖核酸内切酶结合序列)。部分可影响靶向RNA的核酸的稳定性。部分可以是转录终止子片段(即转录终止序列)。以核酸为靶的核酸的部分可具有大约10个核苷酸至大约100个核苷酸、大约10个核苷酸(nt)至大约20nt、大约20nt至大约30nt、大约30nt至大约40nt、大约40nt至大约50nt、大约50nt至大约60nt、大约60nt至大约70nt、大约70nt至大约80nt、大约80nt至大约90nt、或大约90nt至大约100nt、大约15个核苷酸(nt)至大约80nt、大约15nt至大约50nt、大约15nt至大约40nt、大约15nt至大约30nt、或大约15nt至大约25nt的总长度。该部分可以是在真核细胞中可发挥作用的部分。在一些情况中，该部分可以是在原核细胞中可发挥作用的部分。该部分可以是在真核细胞和原核细胞中都可发挥作用的部分。

合适的tracrRNA突出端部分的非限制性实例包括：3’聚-腺苷酰化尾、核糖开关序列(例如以允许调节的稳定性和/或被蛋白和蛋白复合体调节的可接触性)、形成dsRNA双链体(即发夹结构)的序列、将RNA靶向亚细胞位置(例如核、线粒体、叶绿体等)的序列、提供跟踪的修饰或序列(例如与荧光分子的直接缀合、与促进荧光检测的部分的缀合、允许荧光检测的序列等)、为蛋白(例如作用于DNA的蛋白，包括转录激活物、转录阻遏物、DNA甲基转移酶、DNA脱甲基酶、组蛋白乙酰转移酶、组蛋白脱乙酰酶等)提供结合位点的修饰或序列、提供提高、降低和/或可控的稳定性的修饰或序列，或它们的任何组合。tracrRNA突出端序列可包含引物结合位点、分子指标(例如条形码序列)。在本公开的一些实施方案中，该tracrRNA突出端序列可包含一个或多个亲和标记。

单导向核酸

所述以核酸为靶的核酸可以是单导向核酸。该单导向核酸可以是RNA。单导向核酸可以在最小CRISPR重复序列和最小tracrRNA序列之间包含接头(即来自图1A的条目120)，其可以被称作单导向接头序列。

单导向核酸的单导向接头可具有大约3个核苷酸至大约100个核苷酸的长度。例如，该接头可具有大约3个核苷酸(nt)至大约90nt、大约3nt至大约80nt、大约3nt至大约70nt、大约3nt至大约60nt、大约3nt至大约50nt、大约3nt至大约40nt、大约3nt至大约30nt、大约3nt至大约20nt、或大约3nt至大约10nt的长度。例如，该接头可具有大约3nt至大约5nt、大约5nt至大约10nt、大约10nt至大约15nt、大约15nt至大约20nt、大约20nt至大约25nt、大约25nt至大约30nt、大约30nt至大约35nt、大约35nt至大约40nt、大约40nt至大约50nt、大约50nt至大约60nt、大约60nt至大约70nt、大约70nt至大约80nt、大约80nt至大约90nt、或大约90nt至大约100nt的长度。在一些实施方案中，单导向核酸的接头可以为4至40个核苷酸。接头可具有至少大约100、500、1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500或7000或更多个核苷酸的长度。接头可具有最多大约100、500、1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500或7000或更多个核苷酸的长度。

该接头序列可包含功能部分。例如，该接头序列可包含适体、核酶、蛋白相互作用的发夹结构、CRISPR阵列、内含子和外显子。该接头序列可包含至少大约1、2、3、4或5或更多个功能部分。该接头序列可包含最多大约1、2、3、4或5或更多个功能部分。

在一些实施方案中，该单导向接头可以将最小CRISPR重复片段的3’末端和最小tracrRNA序列的5’末端连接在一起。或者，该单导向接头可以将tracrRNA序列的3’末端和最小CRISPR重复片段的5’末端连接在一起。也就是说，单导向核酸可包含与3’蛋白结合片段连接的5’DNA-结合片段。单导向核酸可包含与3’DNA-结合片段连接的5’蛋白结合片段。

以核酸为靶的核酸可包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段，且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；包含在6、7或8个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列，且其中该最小tracrRNA序列具有5-30个核苷酸的长度；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度，并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。这种以核酸为靶的核酸可被称作以核酸为靶的单导向核酸。

以核酸为靶的核酸可包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；双链体，其包含：1)最小CRISPR重复片段，其包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，2)最小tracrRNA序列，包含在6个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性且其中该最小tracrRNA序列具有5-30个核苷酸的长度，和3)突起，其中该突起包含在双链体的最小CRISPR重复链上的至少3个不成对核苷酸和在双链体的最小tracrRNA序列链上的至少1个不成对核苷酸；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA，其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

双导向核酸

以核酸为靶的核酸可以是双导向核酸。该双导向核酸可以是RNA。该双导向核酸可包含两个分开的核酸分子(即多核苷酸)。以核酸为靶的双导向核酸的两个核酸分子各自可包含可互相杂交的一段核苷酸，以使这两个核酸分子的互补核苷酸杂交形成蛋白结合片段的双链双链体。如果没有另行规定，术语“以核酸为靶的核酸”可以是兼容并包的，既指以核酸为靶的单分子核酸又指以核酸为靶的双分子核酸。

以核酸为靶的双导向核酸可包含：1)第一核酸分子，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；和包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；和2)该以核酸为靶的双导向核酸的第二核酸分子可包含具有在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度；包含在6个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，以核酸为靶的双导向核酸可包含1)第一核酸分子，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，和突起的至少3个不成对核苷酸；和2)该以核酸为靶的双导向核酸的第二核酸分子可包含具有在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度和突起的至少1个不成对核苷酸，其中该突起的所述1个不成对核苷酸位于与最小CRISPR重复片段的所述3个不成对核苷酸相同的突起中；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

以核酸为靶的核酸和定点多肽的复合体

以核酸为靶的核酸可以与定点多肽(例如核酸引导的核酸酶，Cas9)相互作用，由此形成复合体。所述以核酸为靶的核酸可以将定点多肽导向靶核酸。

在一些实施方案中，以核酸为靶的核酸可以被工程改造以使该复合体(例如包含定点多肽和以核酸为靶的核酸)可以在定点多肽的裂解位点外结合。在这种情况下，靶核酸可能不与该复合体相互作用，并且靶核酸可以是切离的(例如脱离该复合体)。

在一些实施方案中，以核酸为靶的核酸可以被工程改造以使该复合体可以在定点多肽的裂解位点内结合。在这种情况下，靶核酸可以与该复合体相互作用，并且靶核酸可以是结合的(例如结合到该复合体上)。

在一些情况中，复合体可包含定点多肽，其中该定点多肽可包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列，和两个核酸裂解域(即HNH结构域和RuvC结构域)；和以核酸为靶的双导向核酸，其包含1)第一核酸分子，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；和包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；和2)该以核酸为靶的双导向核酸的第二核酸分子可包含含有在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度；包含在6个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，复合体可包含定点多肽，其中该定点多肽可包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列和两个核酸裂解域(即HNH结构域和RuvC结构域)；和以核酸为靶的双导向核酸，其包含1)第一核酸分子，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，和突起的至少3个不成对核苷酸；和2)该以核酸为靶的双导向核酸的第二核酸分子可包含含有在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度和突起的至少1个不成对核苷酸，其中该突起的所述1个不成对核苷酸位于与最小CRISPR重复片段的所述3个不成对核苷酸相同的突起中；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，复合体可包含定点多肽，其中该定点多肽可包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列和两个核酸裂解域(即HNH结构域和RuvC结构域)；和以核酸为靶的核酸，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；包含在6、7或8个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。这种以核酸为靶的核酸可被称作以核酸为靶的单导向核酸。

在一些情况中，复合体可包含定点多肽，其中该定点多肽可包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列和两个核酸裂解域(即HNH结构域和RuvC结构域)；和以核酸为靶的核酸，其可包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；双链体，其包含1)包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，2)包含在6个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度，和3)突起，其中该突起包含在双链体的最小CRISPR重复链上的至少3个不成对核苷酸和在双链体的最小tracrRNA序列链上的至少1个不成对核苷酸；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA，其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。在一些情况中，复合体可包含定点多肽，其中该定点多肽包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)，和将该定点多肽连接到非天然序列上的接头；和以核酸为靶的双导向核酸，其包含1)第一核酸分子，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；和包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；和2)该以核酸为靶的双导向核酸的第二核酸分子可包含具有在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度；包含在6个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，复合体可包含定点多肽，其中该定点多肽包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)，和将该定点多肽连接到非天然序列上的接头；和以核酸为靶的双导向核酸，其包含1)第一核酸分子，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，和突起的至少3个不成对核苷酸；和2)该以核酸为靶的双导向核酸的第二核酸分子可包含具有在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度和突起的至少1个不成对核苷酸，其中该突起的所述1个不成对核苷酸位于与最小CRISPR重复片段的所述3个不成对核苷酸相同的突起中；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，复合体可包含定点多肽，其中该定点多肽包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)和将该定点多肽连接到非天然序列上的接头；和以核酸为靶的核酸，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；包含在6、7或8个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。这种以核酸为靶的核酸可被称作以核酸为靶的单导向核酸。

在一些情况中，复合体可包含定点多肽，其中该定点多肽包含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)和将该定点多肽连接到非天然序列上的接头；和以核酸为靶的核酸，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；双链体，其包含1)包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，2)包含在6个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度，和3)突起，其中该突起包含在双链体的最小CRISPR重复链上的至少3个不成对核苷酸和在双链体的最小tracrRNA序列链上的至少1个不成对核苷酸；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA，其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，复合体可包含定点多肽，其中该定点多肽包含与来自化脓性链球菌的Cas9的至少15％氨基酸同一性、两个核酸裂解域(即HNH结构域和RuvC结构域)，其中该定点多肽在核酸裂解域的一个或两个中包含将该核酸酶结构域的裂解活性降低至少50％的突变；和以核酸为靶的双导向核酸，其包含1)第一核酸分子，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；和包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；和2)该以核酸为靶的双导向核酸的第二核酸分子可包含含有在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度；包含在6个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，复合体可包含定点多肽，其中该定点多肽包含与来自化脓性链球菌的Cas9的至少15％氨基酸同一性、两个核酸裂解域(即HNH结构域和RuvC结构域)，其中该定点多肽在核酸裂解域的一个或两个中包含将该核酸酶结构域的裂解活性降低至少50％的突变；和以核酸为靶的双导向核酸，其包含1)第一核酸分子，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，和突起的至少3个不成对核苷酸；和2)该以核酸为靶的双导向核酸的第二核酸分子可包含含有在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度和突起的至少1个不成对核苷酸，其中该突起的所述1个不成对核苷酸位于与最小CRISPR重复片段的所述3个不成对核苷酸相同的突起中；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，复合体可包含定点多肽，其中该定点多肽包含与来自化脓性链球菌的Cas9的至少15％氨基酸同一性、两个核酸裂解域(即HNH结构域和RuvC结构域)，其中该定点多肽在核酸裂解域的一个或两个中包含将该核酸酶结构域的裂解活性降低至少50％的突变；和以核酸为靶的核酸，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；包含在6、7或8个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。这种以核酸为靶的核酸可被称作以核酸为靶的单导向核酸。

在一些情况中，复合体可包含定点多肽，其中该定点多肽包含与来自化脓性链球菌的Cas9的至少15％氨基酸同一性、两个核酸裂解域(即HNH结构域和RuvC结构域)，其中该定点多肽在核酸裂解域的一个或两个中包含将该核酸酶结构域的裂解活性降低至少50％的突变；和以核酸为靶的核酸，其可包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；双链体，其包含1)包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，2)包含在6个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度，和3)突起，其中该突起包含在双链体的最小CRISPR重复链上的至少3个不成对核苷酸和在双链体的最小tracrRNA序列链上的至少1个不成对核苷酸；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA，其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，复合体可包含定点多肽，其中该定点多肽包含与来自化脓性链球菌的Cas9的至少15％氨基酸同一性和两个核酸裂解域，其中核酸裂解域的一个或两个包含与来自化脓性链球菌的Cas9的核酸酶结构域的至少50％氨基酸同一性；和以核酸为靶的双导向核酸，其包含1)第一核酸分子，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，和突起的至少3个不成对核苷酸；和2)该以核酸为靶的双导向核酸的第二核酸分子可包含含有在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度和突起的至少1个不成对核苷酸，其中该突起的所述1个不成对核苷酸位于与最小CRISPR重复片段的所述3个不成对核苷酸相同的突起中；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，复合体可包含定点多肽，其中该定点多肽包含与来自化脓性链球菌的Cas9的至少15％氨基酸同一性和两个核酸裂解域，其中核酸裂解域的一个或两个包含与来自化脓性链球菌的Cas9的核酸酶结构域的至少50％氨基酸同一性；和以核酸为靶的核酸，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；包含在6、7或8个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。这种以核酸为靶的核酸可被称作以核酸为靶的单导向核酸。

在一些情况中，复合体可包含定点多肽，其中该定点多肽包含与来自化脓性链球菌的Cas9的至少15％氨基酸同一性和两个核酸裂解域，其中核酸裂解域的一个或两个包含与来自化脓性链球菌的Cas9的核酸酶结构域的至少50％氨基酸同一性；和以核酸为靶的核酸，其可包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；双链体，其包含1)包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，2)包含在6个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度，和3)突起，其中该突起包含在双链体的最小CRISPR重复链上的至少3个不成对核苷酸和在双链体的最小tracrRNA序列链上的至少1个不成对核苷酸；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA，其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

本公开的任何以核酸为靶的核酸、本公开的定点多肽、效应蛋白、多重遗传靶向剂、供体多核苷酸、串联融合蛋白、报告元件、感兴趣的遗传因子、分离体系的组分和/或实施本公开的方法的实施方案所必需的任何核酸或蛋白类分子可以是重组的、纯化的和/或分离的。

编码以核酸为靶的核酸和/或定点多肽的核酸

本公开提供了包含核苷酸序列的核酸，所述核苷酸序列编码本公开的以核酸为靶的核酸、本公开的定点多肽、效应蛋白、多重遗传靶向剂、供体多核苷酸、串联融合蛋白、报告元件、感兴趣的遗传因子、分离体系的组分和/或实施本公开的方法的实施方案所必需的任何核酸或蛋白类分子。在一些实施方案中，编码本公开的以核酸为靶的核酸、本公开的定点多肽、效应蛋白、多重遗传靶向剂、供体多核苷酸、串联融合蛋白、报告元件、感兴趣的遗传因子、分离体系的组分和/或实施本公开的方法的实施方案所必需的任何核酸或蛋白类分子的核酸可以是载体(例如重组表达载体)。

在一些实施方案中，该重组表达载体可以是病毒构建体(例如重组腺相关病毒构建体)、重组腺病毒构建体、重组慢病毒构建体、重组逆转录病毒构建体等。

合适的表达载体可包括，但不限于，病毒载体，例如基于牛痘病毒、脊髓灰质炎病毒、腺病毒、腺相关病毒、SV40、单纯疱疹病毒、人免疫缺陷病毒的病毒载体、逆转录病毒载体(例如鼠白血病病毒、脾坏死病毒、和衍生自逆转录病毒，如劳氏肉瘤病毒、Harvey肉瘤病毒、禽白血病病毒、慢病毒、人免疫缺陷病毒、骨髓增殖性肉瘤病毒和乳腺瘤病毒的载体)、植物载体(例如T-DNA载体)等。对于真核宿主细胞，可以通过举例的方式提供下列载体：pXT1、pSG5、pSVK3、pBPV、pMSG和pSVLSV40(Pharmacia)。可以使用其它载体，只要它们与宿主细胞相容。

在一些情况中，载体可以是线性化载体。线性化载体可包含定点多肽和/或以核酸为靶的核酸。线性化载体可能不是环形质粒。线性化载体可包含双链断裂。线性化载体可包含编码荧光蛋白(例如橙色荧光蛋白(OFP))的序列。线性化载体可包含编码抗原(例如CD4)的序列。线性化载体可以在所述以核酸为靶的核酸的载体编码部分的区域中线性化(例如切割)。例如，线性化载体可以在所述以核酸为靶的核酸的5’至所述以核酸为靶的核酸的crRNA部分的区域中线性化(例如切割)。线性化载体可以在所述以核酸为靶的核酸的3’至所述以核酸为靶的核酸的间隔区突出端序列的区域中线性化(例如切割)。线性化载体可以在编码所述以核酸为靶的核酸的crRNA序列的所述以核酸为靶的核酸的区域中线性化(例如切割)。在一些情况中，线性化载体或封闭超螺旋载体包含编码定点多肽(例如Cas9)的序列、编码定点多肽的序列的启动子驱动表达(promoter driving expression)(例如CMV启动子)、编码接头(例如2A)的序列、编码标记物(例如CD4或OFP)的序列、编码以核酸为靶的核酸的一部分的序列、编码以核酸为靶的核酸的一部分的序列的启动子驱动表达和编码可选标记物(例如氨苄青霉素)的序列，或它们的任何组合。

载体可包含转录和/或翻译控制元件。根据所用的宿主/载体系统，在表达载体中可以使用许多合适的转录和翻译控制元件，包括组成型和诱导型启动子、转录增强元件、转录终止子等。

在一些实施方案中，编码本公开的以核酸为靶的核酸、本公开的定点多肽、效应蛋白、多重遗传靶向剂、供体多核苷酸、串联融合蛋白、报告元件、感兴趣的遗传因子、分离体系的组分和/或实施本公开的方法的实施方案所必需的任何核酸或蛋白类分子的核苷酸序列可以可操作地连接到控制元件(例如转录控制元件)，如启动子上。该转录控制元件可以在真核细胞(例如哺乳动物细胞)、原核细胞(例如细菌或古细菌细胞)中发挥作用。在一些实施方案中，编码本公开的以核酸为靶的核酸、本公开的定点多肽、效应蛋白、多重遗传靶向剂、供体多核苷酸、串联融合蛋白、报告元件、感兴趣的遗传因子、分离体系的组分和/或实施本公开的方法的实施方案所必需的任何核酸或蛋白类分子的核苷酸序列可以可操作地连接到多个控制元件上。与多个控制元件的可操作地连接能允许在原核或真核细胞中表达编码本公开的以核酸为靶的核酸、本公开的定点多肽、效应蛋白、多重遗传靶向剂、供体多核苷酸、串联融合蛋白、报告元件、感兴趣的遗传因子、分离体系的组分和/或实施本公开的方法的实施方案所必需的任何核酸或蛋白类分子的核苷酸序列。

合适的真核启动子(即在真核细胞中发挥作用的启动子)的非限制性实例可包括来自即刻早期巨细胞病毒(CMV)、单纯疱疹病毒(HSV)胸苷激酶、早期和晚期SV40、来自逆转录病毒的长末端重复序列(LTRs)、人延伸因子-1启动子(EF1)、包含融合到鸡β-活性启动子(CAG)上的巨细胞病毒(CMV)增强子的杂化构建体、鼠干细胞病毒启动子(MSCV)、磷酸甘油酸激酶-1基因座启动子(PGK)和小鼠金属硫蛋白-I的那些。该启动子可以是真菌启动子。该启动子可以是植物启动子。可找到植物启动子的数据库(例如PlantProm)。该表达载体还可含有用于翻译起始的核糖体结合位点和转录终止子。该表达载体还可包括用于扩增表达的适当序列。该表达载体还可包括编码融合到定点多肽上由此产生融合蛋白的非天然标记(例如6xHis标记、血凝素标记、绿色荧光蛋白等)的核苷酸序列。

在一些实施方案中，编码本公开的以核酸为靶的核酸、本公开的定点多肽、效应蛋白、多重遗传靶向剂、供体多核苷酸、串联融合蛋白、报告元件、感兴趣的遗传因子、分离体系的组分和/或实施本公开的方法的实施方案所必需的任何核酸或蛋白类分子的核苷酸序列或多个序列可以可操作地连接到诱导型启动子(例如热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等)上。在一些实施方案中，编码本公开的以核酸为靶的核酸、本公开的定点多肽、效应蛋白、多重遗传靶向剂、供体多核苷酸、串联融合蛋白、报告元件、感兴趣的遗传因子、分离体系的组分和/或实施本公开的方法的实施方案所必需的任何核酸或蛋白类分子的核苷酸序列可以可操作地连接到组成型启动子(例如CMV启动子、UBC启动子)上。在一些实施方案中，该核苷酸序列可以可操作地连接到空间限制和/或暂时限制的启动子(例如组织特异性启动子、细胞类型特异性启动子等)上。

编码本公开的以核酸为靶的核酸、本公开的定点多肽、效应蛋白、多重遗传靶向剂、供体多核苷酸、串联融合蛋白、报告元件、感兴趣的遗传因子、分离体系的组分和/或实施本公开的方法的实施方案所必需的任何核酸或蛋白类分子的核苷酸序列可被包装到用于递送至细胞的生物隔室(biological compartment)中或其表面上。生物隔室可包括，但不限于，病毒(慢病毒、腺病毒)、纳米球、脂质体、量子点、纳米粒子、聚乙二醇粒子、水凝胶和胶束。

可通过病毒或噬菌体感染、转染、缀合、原生质体融合、脂质转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)-介导的转染、DEAE-葡聚糖介导的转染、脂质体-介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米粒子-介导的核酸递送等将本公开的复合体、多肽和核酸引入细胞。

转基因细胞和有机体

本公开提供转基因细胞和有机体。基因修饰的宿主细胞和/或转基因有机体的核酸可以作为基因组工程的目标。

可用于根据本公开的方法生成转基因细胞的示例性细胞可包括，但不限于，HeLa细胞、中国仓鼠卵巢细胞、293-T细胞、嗜铬细胞瘤、神经母细胞瘤成纤维细胞、横纹肌肉瘤、背根神经节细胞、NSO细胞、烟草BY-2、CV-I(ATCC CCL 70)、COS-I(ATCC CRL 1650)、COS-7(ATCC CRL 1651)、CHO-Kl(ATCC CCL 61)、3T3(ATCC CCL 92)、NIH/3T3(ATCC CRL 1658)、HeLa(ATCC CCL 2)、C 1271(ATCC CRL 1616)、BS-C-I(ATCC CCL 26)、MRC-5(ATCC CCL171)、L-细胞、HEK-293(ATCC CRLl 573)和PC 12(ATCC CRL-1721)、HEK293T(ATCC CRL-11268)、RBL(ATCC CRL-1378)、SH-SY5Y(ATCC CRL-2266)、MDCK(ATCC CCL-34)、SJ-RH30(ATCC CRL-2061)、HepG2(ATCC HB-8065)、ND7/23(ECACC 92090903)、CHO(ECACC85050302)、Vera(ATCC CCL 81)、Caco-2(ATCC HTB 37)、K562(ATCC CCL 243)、Jurkat(ATCC TIB-152)、Per.Có,Huvec(ATCC人原代PCS 100-010、小鼠CRL 2514、CRL 2515、CRL2516)、HuH-7D12(ECACC 01042712)、293(ATCC CRL 10852)、A549(ATCC CCL 185)、IMR-90(ATCC CCL 186)、MCF-7(ATC HTB-22)、U-2OS(ATCC HTB-96)和T84(ATCC CCL 248)或在美国典型培养物保藏中心(American Type Culture Collection)(ATCC)可获得的任何细胞，或它们的任何组合。

可以转基因的有机体可包括细菌、古菌、单细胞真核生物、植物、藻类、真菌(例如酵母)、无脊椎动物(例如果蝇、刺胞动物、棘皮动物、线虫等)、脊椎动物(例如鱼、两栖动物、爬行动物、鸟、哺乳动物)、哺乳动物(例如猪、牛、山羊、绵羊、啮齿动物、大鼠、小鼠、非人灵长类、人类等)等。

转基因有机体可包含基因修饰细胞。转基因有机体和/或基因修饰细胞可包含已用外源性核酸进行基因修饰的有机体和/或细胞，所述外源性核酸包含编码本公开的以核酸为靶的核酸、效应蛋白和/或定点多肽，或它们的任何组合的核苷酸序列。

基因修饰细胞可包含外源性定点多肽和/或包含编码定点多肽的核苷酸序列的外源性核酸。定点多肽在细胞中的表达可需要0.1、0.2、0.5、1、2、3、4、5、6或更多天。在从细胞培养物和/或宿主有机体中去除该细胞之前，引入了定点多肽的细胞可培养0.1、0.2、0.5、1、2、3、4、5、6、7、8、9、10或更多天。

对象

本公开提供在对象中进行本公开的方法。对象可以是人类。对象可以是哺乳动物(例如大鼠、小鼠、牛、狗、猪、绵羊、马)。对象可以是脊椎动物或无脊椎动物。对象可以是实验室动物。对象可以是病人。对象可患有疾病。对象可表现出疾病的症状。对象可能未表现出疾病的症状，但仍然患有疾病。对象可在看护者的医疗护理下(例如对象住院并被医生治疗)。对象可以是植物或作物。

试剂盒

本公开提供用于进行本公开的方法的试剂盒。试剂盒可包括下列一项或多项：本公开的以核酸为靶的核酸、编码以核酸为靶的核酸的多核苷酸、本公开的定点多肽、编码定点多肽的多核苷酸、效应蛋白、编码效应蛋白的多核苷酸、多重遗传靶向剂、编码多重遗传靶向剂的多核苷酸、供体多核苷酸、串联融合蛋白、编码串联融合蛋白的多核苷酸、报告元件、感兴趣的遗传因子、分离体系的组分和/或实施本公开的方法的实施方案所必需的任何核酸或蛋白类分子，或它们的任何组合。

上文详细描述了本公开的以核酸为靶的核酸、编码以核酸为靶的核酸的多核苷酸、本公开的定点多肽、编码定点多肽的多核苷酸、效应蛋白、编码效应蛋白的多核苷酸、多重遗传靶向剂、编码多重遗传靶向剂的多核苷酸、供体多核苷酸、串联融合蛋白、编码串联融合蛋白的多核苷酸、报告元件、感兴趣的遗传因子、分离体系的组分和/或实施本公开的方法的实施方案所必需的任何核酸或蛋白类分子。

试剂盒可包含：(1)载体，其包含编码以核酸为靶的核酸的核苷酸序列，和(2)载体，其包含编码定点多肽的核苷酸序列和(2)用于载体重构和/或稀释的试剂。

试剂盒可包含：(1)载体，其包含(i)编码以核酸为靶的核酸的核苷酸序列和(ii)编码定点多肽的核苷酸序列和(2)用于载体重构和/或稀释的试剂。

试剂盒可包含：(1)载体，其包含编码以核酸为靶的核酸的核苷酸序列、(2)载体，其包含编码定点多肽的核苷酸序列、(3)载体，其包含编码效应蛋白、多重遗传靶向剂、供体多核苷酸、串联融合蛋白、报告元件、感兴趣的遗传因子、分离体系的组分和/或实施本公开的方法的实施方案所必需的任何核酸或蛋白类分子的核苷酸序列，和(4)用于载体重构和/或稀释的试剂。

试剂盒可包含：(1)载体，其包含(i)编码以核酸为靶的核酸的核苷酸序列、(ii)编码定点多肽的核苷酸序列，(2)载体，其包含编码效应蛋白、多重遗传靶向剂、供体多核苷酸、串联融合蛋白、报告元件、感兴趣的遗传因子、分离体系的组分和/或实施本公开的方法的实施方案所必需的任何核酸或蛋白类分子的核苷酸序列，和(3)用于重组表达载体重构和/或稀释的试剂。

在一些情况中，试剂盒可包含定点多肽(和/或编码其的核酸)，其中该定点多肽可包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列和两个核酸裂解域(即HNH结构域和RuvC结构域)；和以核酸为靶的双导向核酸(和/或编码其的核酸)，其包含1)第一核酸分子，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；和包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；和2)该以核酸为靶的双导向核酸的第二核酸分子可包含含有在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度；包含在6个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度，并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，试剂盒可包含定点多肽(和/或编码其的核酸)，其中该定点多肽可包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列和两个核酸裂解域(即HNH结构域和RuvC结构域)；和以核酸为靶的双导向核酸(和/或编码其的核酸)，其包含1)第一核酸分子，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，和突起的至少3个不成对核苷酸；和2)该以核酸为靶的双导向核酸的第二核酸分子可包含含有在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度，和突起的至少1个不成对核苷酸，其中该突起的所述1个不成对核苷酸位于与最小CRISPR重复片段的所述3个不成对核苷酸相同的突起中；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度，并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，试剂盒可包含定点多肽(和/或编码其的核酸)，其中该定点多肽可包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列和两个核酸裂解域(即HNH结构域和RuvC结构域)；和以核酸为靶的核酸(和/或编码其的核酸)，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；包含在6、7或8个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度，并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。这种以核酸为靶的核酸可被称作以核酸为靶的单导向核酸。

在一些情况中，试剂盒可包含定点多肽(和/或编码其的核酸)，其中该定点多肽可包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列和两个核酸裂解域(即HNH结构域和RuvC结构域)；和以核酸为靶的核酸(和/或编码其的核酸)，其可包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；双链体，其包含1)包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，2)包含在6个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度，和3)突起，其中该突起包含在双链体的最小CRISPR重复链上的至少3个不成对核苷酸和在双链体的最小tracrRNA序列链上的至少1个不成对核苷酸；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA，其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，试剂盒可包含定点多肽(和/或编码其的核酸)，其中该定点多肽包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)和将该定点多肽连接到非天然序列上的接头；和以核酸为靶的双导向核酸(和/或编码其的核酸)，其包含1)第一核酸分子，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；和包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；和2)该以核酸为靶的双导向核酸的第二核酸分子可包含含有在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度；包含在6个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度，并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，试剂盒可包含定点多肽(和/或编码其的核酸)，其中该定点多肽包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)和将该定点多肽连接到非天然序列上的接头；和以核酸为靶的双导向核酸(和/或编码其的核酸)，其包含1)第一核酸分子，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，和突起的至少3个不成对核苷酸；和2)该以核酸为靶的双导向核酸的第二核酸分子可包含含有在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度和突起的至少1个不成对核苷酸，其中该突起的所述1个不成对核苷酸位于与最小CRISPR重复片段的所述3个不成对核苷酸相同的突起中；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度，并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，试剂盒可包含定点多肽(和/或编码其的核酸)，其中该定点多肽包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)和将该定点多肽连接到非天然序列上的接头；和以核酸为靶的核酸(和/或编码其的核酸)，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；包含在6、7或8个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度，并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。这种以核酸为靶的核酸可被称作以核酸为靶的单导向核酸。

在一些情况中，试剂盒可包含定点多肽(和/或编码其的核酸)，其中该定点多肽包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)和将该定点多肽连接到非天然序列上的接头；和以核酸为靶的核酸(和/或编码其的核酸)，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；双链体，其包含1)包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，2)包含在6个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度，和3)突起，其中该突起包含在双链体的最小CRISPR重复链上的至少3个不成对核苷酸和在双链体的最小tracrRNA序列链上的至少1个不成对核苷酸；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA，其中该3’tracrRNA包含10-20个核苷酸长度，并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，试剂盒可包含定点多肽(和/或编码其的核酸)，其中该定点多肽包含与来自化脓性链球菌的Cas9的至少15％氨基酸同一性、两个核酸裂解域(即HNH结构域和RuvC结构域)，其中该定点多肽在核酸裂解域的一个或两个中包含将该核酸酶结构域的裂解活性降低至少50％的突变；和以核酸为靶的双导向核酸(和/或编码其的核酸)，其包含1)第一核酸分子，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；和包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；和2)该以核酸为靶的双导向核酸的第二核酸分子可包含含有在6个邻接核苷酸上与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度；包含在6个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度，并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，试剂盒可包含定点多肽(和/或编码其的核酸)，其中该定点多肽包含与来自化脓性链球菌的Cas9的至少15％氨基酸同一性、两个核酸裂解域(即HNH结构域和RuvC结构域)，其中该定点多肽在核酸裂解域的一个或两个中包含将该核酸酶结构域的裂解活性降低至少50％的突变；和以核酸为靶的双导向核酸(和/或编码其的核酸)，其包含1)第一核酸分子，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，和突起的至少3个不成对核苷酸；和2)该以核酸为靶的双导向核酸的第二核酸分子可包含含有在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度和突起的至少1个不成对核苷酸，其中该突起的所述1个不成对核苷酸位于与最小CRISPR重复片段的所述3个不成对核苷酸相同的突起中；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度，并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，试剂盒可包含定点多肽(和/或编码其的核酸)，其中该定点多肽包含与来自化脓性链球菌的Cas9的至少15％氨基酸同一性、两个核酸裂解域(即HNH结构域和RuvC结构域)，其中该定点多肽在核酸裂解域的一个或两个中包含将该核酸酶结构域的裂解活性降低至少50％的突变；和以核酸为靶的核酸(和/或编码其的核酸)，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；包含在6、7或8个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度，并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。这种以核酸为靶的核酸可被称作以核酸为靶的单导向核酸。

在一些情况中，试剂盒可包含定点多肽(和/或编码其的核酸)，其中该定点多肽包含与来自化脓性链球菌的Cas9的至少15％氨基酸同一性、两个核酸裂解域(即HNH结构域和RuvC结构域)，其中该定点多肽在核酸裂解域的一个或两个中包含将该核酸酶结构域的裂解活性降低至少50％的突变；和以核酸为靶的核酸(和/或编码其的核酸)，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；双链体，其包含1)包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，2)包含在6个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度，和3)突起，其中该突起包含在双链体的最小CRISPR重复链上的至少3个不成对核苷酸和在双链体的最小tracrRNA序列链上的至少1个不成对核苷酸；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA，其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，试剂盒可包含定点多肽(和/或编码其的核酸)，其中该定点多肽包含与来自化脓性链球菌的Cas9的至少15％氨基酸同一性、两个核酸裂解域(即HNH结构域和RuvC结构域)，其中该定点多肽在核酸裂解域的一个或两个中包含将该核酸酶结构域的裂解活性降低至少50％的突变；和以核酸为靶的核酸(和/或编码其的核酸)，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；包含在6、7或8个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度，并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端或它们的任何组合。这种以核酸为靶的核酸可被称作以核酸为靶的单导向核酸。

在一些情况中，试剂盒可包含定点多肽(和/或编码其的核酸)，其中该定点多肽包含与来自化脓性链球菌的Cas9的至少15％氨基酸同一性、两个核酸裂解域(即HNH结构域和RuvC结构域)，其中该定点多肽在核酸裂解域的一个或两个中包含将该核酸酶结构域的裂解活性降低至少50％的突变；和以核酸为靶的双导向核酸(和/或编码其的核酸)，其包含1)第一核酸分子，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；和包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；和2)该以核酸为靶的双导向核酸的第二核酸分子可包含含有在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度；包含在6个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度，并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，试剂盒可包含定点多肽(和/或编码其的核酸)，其中该定点多肽包含与来自化脓性链球菌的Cas9的至少15％氨基酸同一性，和两个核酸裂解域，其中核酸裂解域的一个或两个包含与来自化脓性链球菌的Cas9的核酸酶结构域的至少50％氨基酸同一性；和以核酸为靶的双导向核酸(和/或编码其的核酸)，其包含：1)第一核酸分子，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，和突起的至少3个不成对核苷酸；和2)该以核酸为靶的双导向核酸的第二核酸分子可包含含有在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度和突起的至少1个不成对核苷酸，其中该突起的所述1个不成对核苷酸位于与最小CRISPR重复片段的所述3个不成对核苷酸相同的突起中；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度，并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在一些情况中，试剂盒可包含定点多肽(和/或编码其的核酸)，其中该定点多肽包含与来自化脓性链球菌的Cas9的至少15％氨基酸同一性，和两个核酸裂解域，其中核酸裂解域的一个或两个包含与来自化脓性链球菌的Cas9的核酸酶结构域的至少50％氨基酸同一性；和以核酸为靶的核酸(和/或编码其的核酸)，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度；包含在6、7或8个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6、7或8个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA且其中该3’tracrRNA包含10-20个核苷酸长度，并包含成双链的区域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。这种以核酸为靶的核酸可被称作以核酸为靶的单导向核酸。

在一些情况中，试剂盒可包含定点多肽(和/或编码其的核酸)，其中该定点多肽包含与来自化脓性链球菌的Cas9的至少15％氨基酸同一性，和两个核酸裂解域，其中核酸裂解域的一个或两个包含与来自化脓性链球菌的Cas9的核酸酶结构域的至少50％氨基酸同一性；和以核酸为靶的核酸(和/或编码其的核酸)，其包含10-5000个核苷酸长的间隔区突出端序列；12-30个核苷酸长的间隔区序列，其中该间隔区与靶核酸至少50％互补；双链体，其包含：1)包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的crRNA的至少60％同一性的最小CRISPR重复片段且其中该最小CRISPR重复片段具有5-30个核苷酸的长度，2)包含在6个邻接核苷酸中与来自细菌(例如化脓性链球菌)的tracrRNA的至少60％同一性的最小tracrRNA序列且其中该最小tracrRNA序列具有5-30个核苷酸的长度，和3)突起，其中该突起包含在双链体的最小CRISPR重复链上的至少3个不成对核苷酸和在双链体的最小tracrRNA序列链上的至少1个不成对核苷酸；连接最小CRISPR重复片段和最小tracrRNA并包含3-5000个核苷酸长度的接头序列；包含在6个邻接核苷酸中与来自原核生物(例如化脓性链球菌)或噬菌体的tracrRNA的至少60％同一性的3’tracrRNA，其中该3’tracrRNA包含10-20个核苷酸长度并包含成双链的区域；从包含最小CRISPR重复片段和最小tracrRNA的双链体下游1-5个核苷酸处开始、包含1-10个核苷酸、包含可与靶核酸中的前间区序列邻近基序杂交的序列、可形成发夹结构并位于3’tracrRNA区的P-结构域；和/或包含10-5000个核苷酸长度的tracrRNA突出端，或它们的任何组合。

在任何上述试剂盒的一些实施方案中，该试剂盒可包含以核酸为靶的单导向核酸。在任何上述试剂盒的一些实施方案中，该试剂盒可包含以核酸为靶的双导向核酸。在任何上述试剂盒的一些实施方案中，该试剂盒可包含两种或更多种以核酸为靶的双导向或单导向核酸。在一些实施方案中，载体可编码以核酸为靶的核酸。

在任何上述试剂盒的一些实施方案中，该试剂盒可进一步包含供体多核苷酸或编码供体多核苷酸的多核苷酸序列，以实现所需遗传修饰。试剂盒的组分可以在分开的容器中；或可以合并在单容器中。

上述试剂盒进一步包含一种或多种附加试剂，其中这样的附加试剂可选自：缓冲液、用于将试剂盒的多肽或多核苷酸物品引入细胞的缓冲液、洗涤缓冲液、对照试剂、对照载体、对照RNA多核苷酸、用于由DNA体外生成多肽的试剂、测序连接物等。缓冲液可以是稳定缓冲液、重构缓冲液或稀释缓冲液。

在一些情况中，试剂盒可包含一种或多种专用于植物和/或真菌的附加试剂。一种或多种用于植物和/或真菌的附加试剂可包括，例如，土壤、营养素、植物、种子、孢子、土壤杆菌、T-DNA载体和pBINAR载体。

除上述组分外，试剂盒可进一步包括使用该试剂盒的组分实施该方法的说明书。实施该方法的说明书通常记录在合适的记录介质上。例如，说明书可以打印在基底，如纸或塑料等上。说明书可作为包装插页存在于试剂盒内、存在于试剂盒容器或其组成部分(即与包装或分包装相关)的标签中，等等。说明书可作为电子存储数据文件存在于合适的计算机可读存储介质，例如CD-ROM、软盘、闪存等上。在一些情况中，试剂盒中不存在实际说明书，而是可提供用于从远程来源(例如通过互联网)获得说明书的方法。这一实施方案的一个实例是包括可查看到说明书和/或可下载说明书的网址的试剂盒。关于说明书，这种获得说明书的方法可记录在合适的基底上。

在一些实施方案中，试剂盒可包含线性化载体。线性化载体可包含线性化的(例如其不是环形的)质粒，所述质粒包含定点多肽和/或以核酸为靶的核酸。线性化载体可储存在包含10mM Tris-HCl,pH 8.0和1mM EDTA,pH 8.0的缓冲液中。试剂盒可包含大约20微升的线性化CRISPR核酸酶载体。在一些实施方案中，试剂盒可包含一种或多种环形载体。

在一些实施方案中，试剂盒可包含寡核苷酸退火缓冲液。寡核苷酸退火缓冲液可以是用于一起退火DNA寡核苷酸以生成编码以核酸为靶的核酸的双链DNA的缓冲液。寡核苷酸退火缓冲液可以比使用浓度浓至少大约、1、2、3、4、5、6、7、8、9或10倍或更多。寡核苷酸退火缓冲液可以比使用浓度高10倍。寡核苷酸退火缓冲液可包含100mM Tris-HCl,pH 8.0、10mM EDTA,pH 8.0和1M NaCl。试剂盒可包含250微升的寡核苷酸退火缓冲液。

试剂盒可包含不含DNA酶的水。试剂盒可包含不含RNA酶的水。试剂盒可包含至少1.5毫升的不含RNA酶和/或不含DNA酶的水。

试剂盒可包含连接缓冲液。连接缓冲液可用于连接寡核苷酸与线性化CRISPR核酸酶载体。连接缓冲液可以为比使用浓度浓至少大约、1、2、3、4、5、6、7、8、9或10倍或更高的浓度。连接缓冲液可以比使用浓度高5倍。5x连接缓冲液可包含250mM Tris-HCl,pH 7.6、50mMMgCl2、5mM ATP、5mM DTT和25％(w/v)聚乙二醇-8000。试剂盒可包含大约80微升的连接缓冲液。

试剂盒可包含DNA连接酶。DNA连接酶可用于连接寡核苷与线性化CRISPR核酸酶载体上。DNA连接酶可包含10mM Tris-HCl,pH 7.5、50mM KCl、1mM DTT和50％(v/v)甘油。试剂盒可包含20微升的DNA连接酶。

试剂盒可包含测序引物。测序引物可用于在寡核苷酸已连接到线性化载体中后将载体测序。测序引物可以在Tris-EDTA缓冲液pH 8.0中稀释。试剂盒可包含20微升测序引物。

试剂盒可包含对照寡核苷酸。对照寡核苷酸可以是要连接到线性化载体中的寡核苷酸，但不编码以核酸为靶的核酸。对照寡核苷酸可以在1x浓度的寡核苷酸退火缓冲液中稀释。试剂盒可包含10微升的对照寡核苷酸。

在一些情况中，试剂盒可包含含有定点多肽和以核酸为靶的核酸的线性化载体、寡核苷酸退火缓冲液、不含DNA酶/RNA酶的水、连接缓冲液、连接酶、测序引物和对照寡核苷酸，或它们的任何组合。

药物组合物

分子，如本文所述的本公开的以核酸为靶的核酸、编码以核酸为靶的核酸的多核苷酸、本公开的定点多肽、编码定点多肽的多核苷酸、效应蛋白、编码效应蛋白的多核苷酸、多重遗传靶向剂、编码多重遗传靶向剂的多核苷酸、供体多核苷酸、串联融合蛋白、编码串联融合蛋白的多核苷酸、报告元件、感兴趣的遗传因子、分离体系的组分和/或实施本公开的方法的实施方案所必需的任何核酸或蛋白类分子可配制在药物组合物中。

药物组合物可包本文所述的任何分子与其它化学组分，如载体、稳定剂、稀释剂、分散剂、悬浮剂、增稠剂和/或赋形剂的组合。该药物组合物可促进向有机体给予该分子。药物组合物可以按药物组合物计以治疗有效量通过各种形式和途径给药，包括例如静脉、皮下、肌肉内、口腔、直肠、气雾剂、肠胃外、经眼、肺部、透皮、阴道、经耳、经鼻和局部给药。

药物组合物可以以局部或全身方式给药，例如通过将分子直接注射到器官中，任选在药性持久的制剂中或缓释制剂中。药物组合物可以以速释制剂、以延时释放制剂的形式或以即时释放制剂的形式提供。速释形式可提供即时释放。延时释放制剂可提供控释或长期延迟释放(sustained delayed release)。

对于口服给药，可以容易地通过将该分子与可药用载体或赋形剂合并配制药物组合物。这样的载体可用于配制片剂、粉剂、丸剂、糖衣丸、胶囊、液体剂、凝胶剂、糖浆、酏剂、浆剂、混悬剂等，以供对象口服。

口服使用的药物制剂可通过混合一种或多种固体赋形剂与一种或多种本文所述的分子、任选研磨所得混合物并酌情在添加合适的辅助剂后加工该颗粒混合物以获得片剂或糖衣丸芯而得。可以为药芯提供合适的包衣。为此，可以使用浓缩糖溶液，其可含有赋形剂，如阿拉伯树胶、滑石、聚乙烯基吡咯烷酮、卡波姆凝胶、聚乙二醇和/或二氧化钛、漆溶液和合适的有机溶剂或溶剂混合物。可以将染料或颜料添加到片剂或糖衣丸包衣中以例如用于识别或用于表征活性化合物剂量的不同组合。

可口服使用的药物制剂可包括由明胶制成的推入配合胶囊以及由明胶和增塑剂，如甘油或山梨糖醇制成的软密封胶囊。在一些实施方案中，该胶囊包含含有药用明胶、牛明胶和植物明胶中的一种或多种的硬明胶胶囊。明胶可以是碱性处理的。该推入配合胶囊可包含与填料如乳糖、粘合剂如淀粉和/或润滑剂如滑石或硬脂酸镁和稳定剂混合的活性成分。在软胶囊中，可以将该分子溶解或悬浮在合适的液体，如脂肪油、液体石蜡或液体聚乙二醇中。可以添加稳定剂。所有口服给药制剂在适合如此给药的剂型中提供。

对于颊含或舌下给药，该组合物可以是片剂、锭剂或凝胶剂。

肠胃外注射可以配制为团注或连续输注。该药物组合物可以是在油性或水性赋形剂中的无菌混悬剂、溶液剂或乳剂形式的适用于肠胃外注射的形式，并可含有配制剂，如悬浮剂、稳定剂和/或分散剂。用于肠胃外给药的药物制剂可包括可水溶形式的活性化合物的水溶液。

分子的混悬剂可制备为油性注射混悬剂。合适的亲脂溶剂或赋形剂包括脂肪油，如芝麻油或合成脂肪酸酯，如油酸乙酯或甘油三酯，或脂质体。水性注射混悬剂可含有提高该混悬剂的粘度的物质，如羧甲基纤维素钠、山梨糖醇或葡聚糖。该混悬剂还可含有合适的稳定剂或提高该分子的溶解度以允许制备高浓溶液的试剂。或者，活性成分可以是要在使用前用合适的赋形剂，例如无菌无热原水重构的粉末形式。

该活性化合物可以局部给药并可以配制成各种可局部给药的组合物，如溶液剂、混悬剂、洗剂、凝胶剂、糊剂、含药棒、药膏、乳膏和软膏。这样的药物组合物可包含增溶剂、稳定剂、张力增强剂、缓冲剂和防腐剂。

适合该分子的透皮给药的制剂可使用透皮给药装置和透皮给药贴剂，并可以是溶解和/或分散在聚合物或粘合剂中的亲脂乳剂或缓冲水溶液。这样的贴剂可以构造成连续、脉冲或按需递送分子。透皮给药可借助离子导入贴剂等实现。另外，透皮贴剂可提供受控递送。可以通过使用控速膜或通过将化合物截留在聚合物基质或凝胶来减慢吸收速率。相反，可以使用吸收增强剂提高吸收。吸收增强剂或载体可包括可吸收的可药用溶剂以助于透过皮肤。例如，透皮装置可以是包含背衬元件、含化合物和载体的储器、控速屏障(用于长时间以受控和预定速率向对象的皮肤递送化合物)和粘合剂(用于将该装置固定到皮肤上)的绷带形式。

对于吸入给药，该分子可以是如气溶胶、雾剂或粉剂的形式。可以使用合适的推进剂，例如二氯二氟甲烷、三氯氟甲烷、二氯四氟乙烷、二氧化碳或其它合适的气体以气溶胶喷雾呈递形式从加压包装或喷雾器中递送药物组合物。在加压气雾剂的情况下，可通过提供阀门以递送计量的量来确定剂量单位。可以配制含有该化合物和合适的粉末基料，如乳糖或淀粉的粉末混合物的用在吸入器或吹入器中的例如由明胶制成的胶囊和药筒。

该分子也可以配制在含有传统栓剂基料，如可可脂或其它甘油酯以及合成聚合物，如聚乙烯基吡咯烷酮和PEG的直肠组合物，如灌肠剂、直肠凝胶剂、直肠泡沫剂、直肠气雾剂、栓剂、果冻状栓剂或保留灌肠剂中。在该组合物的栓剂形式中，可以使用低熔点蜡，如脂肪酸甘油酯或可可脂的混合物。

在实施本公开的方法时，可以在药物组合物中给予具有要治疗的疾病或病症的对象治疗有效量的本文所述的化合物。治疗有效量可随疾病严重程度、对象的年龄和相对健康状况、所用化合物的效力和其它因素而广为不同。该化合物可以单独使用或作为混合物的组分与一种或多种治疗剂结合使用。

可以使用有助于将该分子加工成可药用制剂的一种或多种生理上可接受的载体(包含赋形剂和辅助剂)配制药物组合物。可以根据所选给药途径修改制剂。可以例如通过混合、溶解、造粒、制造糖衣丸、磨细、乳化、包囊、包埋或压缩法制造包含本文所述的分子的药物组合物。

该药物组合物可包括至少一种可药用载体、稀释剂或赋形剂和作为游离碱或可药用盐形式的本文所述的分子。本文所述的方法和药物组合物包括使用结晶形式(也称作多晶型物)和具有相同类型的活性的这些化合物的活性代谢物。

包含本文所述的化合物的组合物的制备方法可包括与一种或多种惰性可药用赋形剂或载体一起配制该分子以形成固体、半固体或液体组合物。固体组合物可包括例如粉剂、片剂、可分散颗粒剂、胶囊、扁囊剂和栓剂。液体组合物可包括例如溶解化合物的溶液、包含化合物的乳剂或含有包含如本文中公开的化合物的脂质体、胶束或纳米粒子的溶液。半固体组合物可包括例如凝胶剂、混悬剂和乳膏剂。该组合物可以是液体溶液或混悬剂、适合在使用前溶解或悬浮在液体中的固体形式或乳剂。这些组合物还可含有少量的无毒辅助物质，如润湿或乳化剂、pH缓冲剂和其它可药用添加剂。

剂型的非限制性实例可包括饲料、食品、小丸剂、锭剂、液体、酏剂、气溶胶、吸入剂、喷雾剂、粉剂、片剂、丸剂、胶囊、凝胶剂、凝胶片(geltab)、纳米混悬剂、纳米粒子、微凝胶、栓剂片、水性或油性混悬剂、软膏、贴剂、洗剂、牙粉、乳剂、乳膏、滴剂、可分散粉剂或颗粒剂、在硬或软凝胶胶囊中的乳剂、糖浆、植物药物(phytoceuticals)和营养品，或它们的任何组合。

可药用赋形剂的非限制性实例可包括成粒剂、粘合剂、润滑剂、崩解剂、甜味剂、助流剂、防粘剂、抗静电剂、表面活性剂、抗氧化剂、胶质、包衣剂(coating agents)、着色剂、调味剂、包衣剂、增塑剂、防腐剂、悬浮剂、乳化剂、植物纤维素材料和滚圆剂，或它们的任何组合。

组合物可以是例如即时释放形式或控释制剂。可以配制即时释放制剂以使该分子快速起效。即时释放制剂的非限制性实例可包括易溶制剂。控释制剂可以是已经修改以使药物释放速率和药物释放曲线可匹配生理和时间治疗要求或已配制成以程序化速率实现药物释放的药物制剂。控释制剂的非限制性实例可包括颗粒剂、延迟释放颗粒剂、水凝胶(例如合成或天然来源)、其它胶凝剂(例如成凝胶的膳食纤维)、基于基质的制剂(例如包含具有分散其中的至少一种活性成分的聚合材料的制剂)、在基质内的颗粒剂、聚合混合物、颗粒物料等。

控释制剂可以是延迟释放形式。可以配制延迟释放形式以长时间延迟分子的作用。可以配制延迟释放形式以将有效剂量的一种或多种分子的释放延迟例如大约4、大约8、大约12、大约16或大约24个小时。

控释制剂可以是缓释形式。可以配制缓释形式以使该分子的作用例如持续更长时间。可以配制缓释形式以在大约4、大约8、大约12、大约16或大约24小时内提供有效剂量的任何本文所述的分子(例如提供生理上有效的血液分布)。

给药方法和治疗方法

可以为预防性和/或治疗性治疗给予包含本文所述的分子的药物组合物。在治疗应用中，可以将该组合物以足以治疗或至少部分遏止该疾病或病症的症状，或治疗、治愈、改善或减轻该病症的量向已患有疾病或病症的对象给药。对此用途有效的量可随该疾病或病症的严重程度和病程、先前的治疗、对象的健康状况、体重和对药物的反应和治疗医师的判断而变化。

可以以任何顺序或同时给予多种治疗剂。如果同时给予，多种治疗剂可以以单一的统一形式或以多个形式，例如作为多个独立丸剂提供。这些分子可以在单个包装或多个包装中一起或分开包装。治疗剂之一或所有治疗剂可以以多剂量提供。如果不同时给予，多剂量之间的时间安排可变，多达大约1个月。

本文所述的分子可以在疾病或病症发生之前、之中或之后给药，且含有化合物的组合物的给药时间安排可变。例如，该药物组合物可作为预防剂使用并可以对具有病症或疾病倾向的对象连续给药，以防止该疾病或病症发生。该分子和药物组合物可以在症状发作过程中或在症状发作后尽可能快地对对象给药。可以在症状发作的最初48小时内、在症状发作的最初24小时内、在症状发作的最初6小时内或在症状发作的3小时内开始给予该分子。最初给药可通过任何实用途径，例如通过使用本文所述的任何制剂的本文所述的任何途径。可以在检测到或怀疑疾病或病症发作后尽可能快地给予分子，并持续治疗疾病所需的时长，例如，诸如，大约1个月至大约3个月。治疗时长可随各对象而变。

可以将分子包装到生物隔室中。可以将包含该分子的生物隔室向对象给药。生物隔室可包括，但不限于，病毒(慢病毒、腺病毒)、纳米球、脂质体、量子点、纳米粒子、微粒、纳米胶囊、囊泡、聚乙二醇粒子、水凝胶和胶束。

例如，生物隔室可包含脂质体。脂质体可以是包含一个或多个脂质双层的自组装结构，其各自可包含含有取向相反的两亲脂质分子的两个单层。两亲脂质可包含共价连接到一个或两个或更多个非极性(疏水)酰基或烷基链上的极性(亲水)头基。疏水酰基链和周围水性介质之间的能量上不利的接触引发两亲脂质分子自排列以使极性头基朝向该双层的表面，酰基链朝向该双层的内部，从而有效防止酰基链接触水性环境。

脂质体中所用的优选两亲化合物的实例可包括甘油磷脂和鞘脂，它们的代表性实例包括磷脂酰胆碱(PC)、磷脂酰乙醇胺、磷脂酰丝氨酸、磷脂酰肌醇、磷脂酸、磷脂酰甘油、棕榈酰油酰磷脂酰胆碱、溶血磷脂酰胆碱、溶血磷脂酰乙醇胺、二肉豆蔻酰磷脂酰胆碱(DMPC)、二棕榈酰磷脂酰胆碱(DPPC)、二油酰磷脂酰胆碱、二硬脂酰磷脂酰胆碱(DSPC)、二亚油酰磷脂酰胆碱和卵鞘磷脂，或它们的任何组合。

生物隔室可包含纳米粒子。纳米粒子可包含大约40纳米至大约1.5微米、大约50纳米至大约1.2微米、大约60纳米至大约1微米、大约70纳米至大约800纳米、大约80纳米至大约600纳米、大约90纳米至大约400纳米、大约100纳米至大约200纳米的直径。

在一些情况中，随着该纳米粒子的尺寸提高，可以减慢或延长释放速率，随着该纳米粒子的尺寸降低，可以提高释放速率。

纳米粒子中的白蛋白的量可以为大约5％至大约85％白蛋白(v/v)、大约10％至大约80％、大约15％至大约80％、大约20％至大约70％白蛋白(v/v)、大约25％至大约60％、大约30％至大约50％、或大约35％至大约40％。该药物组合物可包含最多30、40、50、60、70或80％或更多的纳米粒子。在一些情况中，本公开的核酸分子可以结合到纳米粒子的表面上。

生物隔室可包含病毒。该病毒可以是本公开的药物组合物的运送系统。示例性的病毒可包括慢病毒、逆转录病毒、腺病毒、单纯疱疹病毒I或II、细小病毒、网状内皮增生病病毒和腺相关病毒(AAV)。本公开的药物组合物可以使用病毒运送至细胞。该病毒可以体内、离体或体外感染和转导细胞。在离体和体外运送中，可以将转导的细胞向需要治疗的对象给药。

可以将药物组合物包装到病毒运送系统中。例如，可以通过HSV-1无辅助病毒包装系统将该组合物包装到病毒粒子中。

病毒运送系统(例如包含本公开的药物组合物的病毒)可通过直接注射、立体定向注射、经侧脑室、通过微泵输注系统、通过对流、导管、静脉、肠胃外、腹膜內和/或皮下注射向需要的对象的细胞、组织或器官给药。在一些情况中，可以用病毒运送系统体外或离体转导细胞。可以将转导细胞向具有疾病的对象给药。例如，可以用包含药物组合物的病毒运送系统转导干细胞并可以将该干细胞植入患者以治疗疾病。在一些情况中，给予对象的转导细胞的剂量可以为在单剂中大约1×10⁵个细胞/千克、大约5×10⁵个细胞/千克、大约1×10⁶个细胞/千克、大约2×10⁶个细胞/千克、大约3×10⁶个细胞/千克、大约4×10⁶个细胞/千克、大约5×10⁶个细胞/千克、大约6×10⁶个细胞/千克、大约7×10⁶个细胞/千克、大约8×10⁶个细胞/千克、大约9×10⁶个细胞/千克、大约1×10⁷个细胞/千克、大约5×10⁷个细胞/千克、大约1×10⁸个细胞/千克或更多。

生物隔室中的药物组合物可用于治疗炎性疾病，如关节炎、癌症，例如骨癌、乳腺癌、皮肤癌、前列腺癌、肝癌、肺癌、喉癌和肾癌、细菌感染，用于治疗神经损伤、肺、肝和肾病、治疗眼睛、脊髓损伤、心脏病、动脉病。

可通过病毒或噬菌体感染、转染、缀合、原生质体融合、脂质转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)-介导的转染、DEAE-葡聚糖介导的转染、脂质体-介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米粒子-介导的核酸递送等将该生物隔室引入细胞。

剂量

本文所述的药物组合物可以是适合确切剂量的单次给药的单位剂型。在单位剂型中，可以将该制剂分成含有适当量的一种或多种化合物的单位剂量。该单位剂型可以是含有离散量的该制剂的包装形式。非限制性实例可包括包装的片剂或胶囊，和在小瓶或安瓿中的粉剂。水性混悬剂组合物可以包装在单剂不可重新盖紧的容器中。可以使用例如与防腐剂结合多剂可重新盖紧的容器。用于肠胃外注射的制剂可呈现单位剂型，例如在安瓿中或在含防腐剂的多剂容器中。

本文所述的分子可以在大约1毫克至大约2000毫克；大约5毫克至大约1000毫克、大约10毫克至大约25毫克至500毫克、大约50毫克至大约250毫克、大约100毫克至大约200毫克、大约1毫克至大约50毫克、大约50毫克至大约100毫克、大约100毫克至大约150毫克、大约150毫克至大约200毫克、大约200毫克至大约250毫克、大约250毫克至大约300毫克、大约300毫克至大约350毫克、大约350毫克至大约400毫克、大约400毫克至大约450毫克、大约450毫克至大约500毫克、大约500毫克至大约550毫克、大约550毫克至大约600毫克、大约600毫克至大约650毫克、大约650毫克至大约700毫克、大约700毫克至大约750毫克、大约750毫克至大约800毫克、大约800毫克至大约850毫克、大约850毫克至大约900毫克、大约900毫克至大约950毫克、或大约950毫克至大约1000毫克的范围内存在于组合物中。

本文所述的分子可以以大约1毫克、大约2毫克、大约3毫克、大约4毫克、大约5毫克、大约10毫克、大约15毫克、大约20毫克、大约25毫克、大约30毫克、大约35毫克、大约40毫克、大约45毫克、大约50毫克、大约55毫克、大约60毫克、大约65毫克、大约70毫克、大约75毫克、大约80毫克、大约85毫克、大约90毫克、大约95毫克、大约100毫克、大约125毫克、大约150毫克、大约175毫克、大约200毫克、大约250毫克、大约300毫克、大约350毫克、大约400毫克、大约450毫克、大约500毫克、大约550毫克、大约600毫克、大约650毫克、大约700毫克、大约750毫克、大约800毫克、大约850毫克、大约900毫克、大约950毫克、大约1000毫克、大约1050毫克、大约1100毫克、大约1150毫克、大约1200毫克、大约1250毫克、大约1300毫克、大约1350毫克、大约1400毫克、大约1450毫克、大约1500毫克、大约1550毫克、大约1600毫克、大约1650毫克、大约1700毫克、大约1750毫克、大约1800毫克、大约1850毫克、大约1900毫克、大约1950毫克、或大约2000毫克的量存在于组合物中。

本文所述的分子(例如定点多肽、以核酸为靶的核酸和/或定点多肽与以核酸为靶的核酸的复合体)可存在于提供每毫克分子至少0.1、0.5、1、1.5、2、2.53、3.5、4、4.5、5、5.5、6、6.5、10或更大活性单位的组合物中。在一些实施方案中，递送至对象的分子的活性单位总数为至少25,000、30,000、35,000、40,000、45,000、50,000、60,000、70,000、80,000、90,000、110,000、120,000、130,000、140,000、150,000、160,000、170,000、180,000、190,000、200,000、210,000、220,000、230,000或250,000或更多个单位。在一些实施方案中，递送至对象的分子的活性单位总数为最多25,000、30,000、35,000、40,000、45,000、50,000、60,000、70,000、80,000、90,000、110,000、120,000、130,000、140,000、150,000、160,000、170,000、180,000、190,000、200,000、210,000、220,000、230,000或250,000或更多个单位。

在一些实施方案中，向对象递送至少大约10,000个活性单位，按50公斤体重标准化。在一些实施方案中，向对象送达至少大约10,000、15,000、25,000、30,000、35,000、40,000、45,000、50,000、60,000、70,000、80,000、90,000、110,000、120,000、130,000、140,000、150,000、160,000、170,000、180,000、190,000、200,000、210,000、220,000、230,000或250,000个单位或更大的分子活性，按50公斤体重标准化。在一些实施方案中，治疗有效剂量包含至少5x 10⁵、1x 10⁶、2x 10⁶、3x 10⁶、4、10⁶、5x 10⁶、6x 10⁶、7x10⁶、8x 10⁶、9x 10⁶、1x10⁷、1.1x 10⁷、1.2x 10⁷、1.5x 10⁷、1.6x 10⁷、1.7x 10⁷、1.8x10⁷、1.9x 10⁷、2x 10⁷、2.1x10⁷或3x 10⁷或更大的分子活性单位。在一些实施方案中，治疗有效剂量包含最多5x 10⁵、1x10⁶、2x 10⁶、3x 10⁶、4、10⁶、5x 10⁶、6x 10⁶、7x 10⁶、8x 10⁶、9x 10⁶、1x 10⁷、1.1x 10⁷、1.2x10⁷、1.5x 10⁷、1.6x 10⁷、1.7x 10⁷、1.8x 10⁷、1.9x 10⁷、2x 10⁷、2.1x 10⁷或3x 10⁷或更大的分子活性单位。

在一些实施方案中，治疗有效剂量是至少大约10,000、15,000、20,000、22,000、24,000、25,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、125,000、150,000、200,000或500,000单位/公斤体重。在一些实施方案中，治疗有效剂量是最多大约10,000、15,000、20,000、22,000、24,000、25,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、125,000、150,000、200,000或500,000单位/公斤体重。

在一些实施方案中，递送至对象的分子的活性为至少10,000、11,000、12,000、13,000、14,000、20,000、21,000、22,000、23,000、24,000、25,000、26,000、27,000、28,000、30,000、32,000、34,000、35,000、36,000、37,000、40,000、45,000或50,000或更大的U/毫克分子。在一些实施方案中，递送至对象的分子的活性为最多10,000、11,000、12,000、13,000、14,000、20,000、21,000、22,000、23,000、24,000、25,000、26,000、27,000、28,000、30,000、32,000、34,000、35,000、36,000、37,000、40,000、45,000或50,000或更大的U/毫克分子。

药代动力学和药效学测量

可通过各种实验技术获得药代动力学和药效学数据。描述特定组合物的适当的药代动力学和药效学分布组成可随人类对象体内的药物代谢变化而改变。药代动力学和药效学分布可基于一组对象的平均参数的确定定。该对象组包括任何合理数量的适用于确定代表性平均值的对象，例如5名对象、10名对象、15名对象、20名对象、25名对象、30名对象、35名对象或更多。可通过计算各测量参数的所有对象的测量值来确定定该平均值。可以调节剂量以实现如本文所述的所需药代动力学或药效学分布，如所需或有效的血液分布。

药代动力学参数可以是适用于描述分子的任何参数。例如，C_max可以例如不小于大约25ng/mL；不小于大约50ng/mL；不小于大约75ng/mL；不小于大约100ng/mL；不小于大约200ng/mL；不小于大约300ng/mL；不小于大约400ng/mL；不小于大约500ng/mL；不小于大约600ng/mL；不小于大约700ng/mL；不小于大约800ng/mL；不小于大约900ng/mL；不小于大约1000ng/mL；不小于大约1250ng/mL；不小于大约1500ng/mL；不小于大约1750ng/mL；不小于大约2000ng/mL；或适用于描述本文所述的分子的药代动力学分布的任何其它C_max。

本文所述的分子的T_max可以例如不大于大约0.5小时、不大于大约1小时、不大于大约1.5小时、不大于大约2小时、不大于大约2.5小时、不大于大约3小时、不大于大约3.5小时、不大于大约4小时、不大于大约4.5小时、不大于大约5小时或适用于描述本文所述的分子的药代动力学分布的任何其它T_max。

本文所述的分子的AUC_(0-inf)可以例如不小于大约50ng·hr/mL、不小于大约100ng/hr/mL、不小于大约150ng/hr/mL、不小于大约200ng·hr/mL、不小于大约250ng/hr/mL、不小于大约300ng/hr/mL、不小于大约350ng/hr/mL、不小于大约400ng/hr/mL、不小于大约450ng/hr/mL、不小于大约500ng/hr/mL、不小于大约600ng/hr/mL、不小于大约700ng/hr/mL、不小于大约800ng/hr/mL、不小于大约900ng/hr/mL、不小于大约1000ng·hr/mL、不小于大约1250ng/hr/mL、不小于大约1500ng/hr/mL、不小于大约1750ng/hr/mL、不小于大约2000ng/hr/mL、不小于大约2500ng/hr/mL、不小于大约3000ng/hr/mL、不小于大约3500ng/hr/mL、不小于大约4000ng/hr/mL、不小于大约5000ng/hr/mL、不小于大约6000ng/hr/mL、不小于大约7000ng/hr/mL、不小于大约8000ng/hr/mL、不小于大约9000ng/hr/mL、不小于大约10,000ng/hr/mL或适用于描述本文所述的分子的药代动力学分布的任何其它AUC_(0-inf)。

本文所述的分子在给药后大约1小时的血浆浓度可以例如不小于大约25ng/mL、不小于大约50ng/mL、不小于大约75ng/mL、不小于大约100ng/mL、不小于大约150ng/mL、不小于大约200ng/mL、不小于大约300ng/mL、不小于大约400ng/mL、不小于大约500ng/mL、不小于大约600ng/mL、不小于大约700ng/mL、不小于大约800ng/mL、不小于大约900ng/mL、不小于大约1000ng/mL、不小于大约1200ng/mL或本文所述的分子的任何其它血浆浓度。

药效学参数可以是适用于描述本公开的药物组合物的任何参数。例如，药效学分布可以在例如大约2小时、大约4小时、大约8小时、大约12小时或大约24小时后表现出炎症相关因子的降低。

可药用盐

本公开提供本文所述的任何分子的可药用盐的用途。可药用盐可包括例如酸加成盐和碱加成盐。为形成酸加成盐而添加到该化合物中的酸可以是有机酸或无机酸。为形成碱加成盐而添加到该化合物中的碱可以是有机碱或无机碱。在一些实施方案中，可药用盐是金属盐。在一些实施方案中，可药用盐是铵盐。

可以由将无机碱添加到本发明的化合物中生成金属盐。该无机碱由与碱性抗衡离子，例如，诸如，氢氧根、碳酸根、碳酸氢根或磷酸根成对的金属阳离子构成。该金属可以是碱金属、碱土金属、过渡金属或主族金属。在一些实施方案中，该金属是锂、钠、钾、铯、铈、镁、锰、铁、钙、锶、钴、钛、铝、铜、镉或锌。

在一些实施方案中，金属盐是锂盐、钠盐、钾盐、铯盐、铈盐、镁盐、锰盐、铁盐、钙盐、锶盐、钴盐、钛盐、铝盐、铜盐、镉盐或锌盐或它们的任何组合。

可以由将氨或有机胺添加到本发明的化合物中生成铵盐。在一些实施方案中，该有机胺是三乙胺、二异丙胺、乙醇胺、二乙醇胺、三乙醇胺、吗啉、N-甲基吗啉、哌啶、N-甲基哌啶、N-乙基哌啶、二苄胺、哌嗪、吡啶、吡唑、pipyrrazole、咪唑、吡嗪或pipyrazine或它们的任何组合。

在一些实施方案中，铵盐是三乙胺盐、二异丙胺盐、乙醇胺盐、二乙醇胺盐、三乙醇胺盐、吗啉盐、N-甲基吗啉盐、哌啶盐、N-甲基哌啶盐、N-乙基哌啶盐、二苄胺盐、哌嗪盐、吡啶盐、吡唑盐、pipyrrazole盐、咪唑盐、吡嗪盐或pipyrazine盐或它们的任何组合。

可以由将酸添加到本公开的分子中生成酸加成盐。在一些实施方案中，该酸是有机的。在一些实施方案中，该酸是无机的。在一些实施方案中，该酸是盐酸、氢溴酸、氢碘酸、硝酸、亚硝酸、硫酸、亚硫酸、磷酸、异烟酸、乳酸、水杨酸、酒石酸、抗坏血酸、龙胆酸、葡糖酸、葡糖醛酸(glucaronic acid)、葡萄糖二酸(saccaric acid)、甲酸、苯甲酸、谷氨酸、泛酸、乙酸、丙酸、丁酸、富马酸、琥珀酸、甲磺酸、乙磺酸、苯磺酸、对甲苯磺酸、柠檬酸、草酸或马来酸或它们的任何组合。

在一些实施方案中，该盐是盐酸盐、氢溴酸盐、氢碘酸盐、硝酸盐、亚硝酸盐、硫酸盐、亚硫酸盐、磷酸盐、异烟酸盐、乳酸盐、水杨酸盐、酒石酸盐、抗坏血酸盐、龙胆酸盐、葡糖酸盐、葡糖醛酸盐(glucaronate)、葡萄糖二酸盐(saccarate)、甲酸盐、苯甲酸盐、谷氨酸盐、泛酸盐、乙酸盐、丙酸盐、丁酸盐、富马酸盐、琥珀酸盐、甲磺酸盐、乙磺酸盐、苯磺酸盐、对甲苯磺酸盐、柠檬酸盐、草酸盐或马来酸盐或它们的任何组合。

工程定点多肽

一般概述

本公开描述了用于修饰定点多肽(例如Cas9、Csy4、Cas5、Cas6、Argonaut等)和/或相关酶的方法、组合物、系统和/或试剂盒。修饰可包括对定点多肽的任何共价或非共价修饰。在一些情况中，这可包括对定点多肽的一个或多个区域的化学修饰。在一些情况中，修饰可包括定点多肽的保守或非保守氨基酸置换。在一些情况中，修饰可包括添加、缺失或用天然定点多肽中不存在的氨基酸、肽或结构域替换该定点多肽的任何部分。在一些情况中，可以在定点多肽中添加、缺失或替换一个或多个非天然结构域。在一些情况中，该定点多肽可作为融合蛋白存在。

在一些情况中，本公开提供定点多肽的工程改造以识别具有所需酶特异性和/或活性的所需靶核酸序列。可以通过蛋白质工程进行对定点多肽的修饰。蛋白质工程可包括将功能结构域融合到这样的工程定点多肽上，这可用于修饰整个定点多肽的功能状态或内源性细胞基因座的实际靶核酸序列。本公开的定点多肽可用于通过内源基因转录的活化和阻遏调节内源基因表达。

该定点多肽融合体还可连接到其它调节或功能结构域，例如核酸酶、转座酶或甲基化酶上，以修饰内源性染色体序列。在一些情况中，该定点多肽可连接到至少一个或多个本文所述的调节结构域上。调节或功能结构域的非限制性实例包括转录因子阻遏或活化结构域，如KRAB和VP16、共阻遏和共活化结构域、DNA甲基转移酶、组蛋白乙酰转移酶、组蛋白脱乙酰酶和DNA裂解结构域，如来自核酸内切酶FokI的裂解结构域。

在一些情况中，可以一起修饰定点多肽的一个或多个特定结构域、区域或结构元件(structural elements)。对定点多肽的修饰可发生于，但不限于定点多肽元件，如识别或结合到间隔区邻近基序(PAM)上的区域，和/或结合或识别以核酸为靶的核酸的区域。这样的结合或识别元件可包括保守桥接螺旋、高碱性区、N-末端区、C-末端区、RuvC基序(例如RuvC和/或RuvC样核酸酶结构域)和一个或多个核酸酶结构域，如HNH和/或HNH样结构域。可以对定点多肽内的另外的结构域、结构元件、序列或氨基酸进行修饰。

可以对定点多肽的一个或多个区域进行修饰以改变该定点多肽的各种性质。在一些情况中，修饰可能改变对某些核酸靶序列的结合识别。这可能包括但不限于提高对某些序列的结合亲和力和/或特异性或优先靶向某些靶核酸序列/识别元件。在一些情况中，可以利用修饰改变天然核酸酶功能。在一些情况中，对定点多肽的修饰可能改变PAM特异性、tracrRNA特异性、crRNA特异性或对另外的核酸元件，如以核酸为靶的核酸的特异性。

本文还描述了包括融合蛋白的组合物和方法，所述融合蛋白包含定点多肽(例如Cas9)和为基因组编辑(例如基因裂解；基因改变，例如通过裂解、接着插入(物理插入或通过同源介导修复插入)外源序列和/或裂解、接着NHEJ；一个或多个基因的部分或完全失活；生成具有内源基因的改变的功能状态的等位基因、插入调节元件；等)和被带入种系中的基因组改变工程改造的一个或多个结构域或区域。还公开了制造和使用这些组合物(即试剂)以例如编辑(即改变)靶细胞中的一个或多个基因的方法。因此，本文所述的方法和组合物提供了用于一个或多个基因的靶向基因改变(例如敲入)和/或敲除(部分或完全)和/或用于任何靶等位基因的序列的随机突变的高度有效的方法，且因此能够生成人类疾病的动物模型。本领域技术人员会认识到，尽管术语“基因组工程”或“基因组编辑”常用于描述本文中的方法，但本文所述的方法和组合物也可用于改变严格来说可能不在细胞的基因组中的任何靶核酸(例如可用于合成核酸、质粒、载体、病毒核酸、重组核酸等)。

本文所述的方法和组合物能用于新型治疗用途(例如预防和/或治疗：遗传疾病、癌症、真菌、原生动物、细菌和病毒感染、缺血、血管病、关节炎、免疫系统障碍等)、新型诊断(例如预测和/或诊断病症)以及提供用于开发具有改变的表型，包括但不限于提高的抗病性的植物，和改变水果成熟特性、糖和油组成、产量和颜色的研究工具(例如试剂盒、功能基因组学分析和生成用于研究和药物筛选的工程细胞系和动物模型)和手段。本文所述的方法和组合物能用于新型表观遗传研究。

蛋白质修饰和工程

氨基酸改变

可以修饰如本文中公开的定点多肽。该修饰可包含对定点多肽的氨基酸的修饰。该修饰可改变一级氨基酸序列和/或二级、三级和四级氨基酸结构。在一些情况中，可以改变本发明的定点多肽的一些氨基酸序列而对该蛋白质的结构或功能没有明显影响。如果在蛋白质的一些区域(例如非关键区域)中发生改变，突变类型可能完全不重要。在一些情况中，根据替换位置，该突变可能对所得变体的生物性质没有重大影响。例如Cas9变体的性质和功能可以与野生型Cas9为相同类型。在一些情况中，该突变可以关键性地影响该定点多肽的结构和/或功能。

可以使用序列和/或结构比对确定修饰定点多肽的位置(例如Cas9变体)。序列比对可以识别类似和/或不相似的多肽区域(例如保守、非保守、疏水、亲水等)。在一些情况中，与其它序列类似的感兴趣的序列中的区域适用于修饰。在一些情况中，与其它序列不相似的感兴趣的序列中的区域适用于修饰。例如，可通过数据库检索、成对比对、多序列比对、基因组分析、基序发现、基准测试和/或如BLAST、CS-BLAST、HHPRED、psi-BLAST、LALIGN、PyMOL和SEQALN之类的程序进行序列比对。可通过如Dali、PHYRE、Chimera、COOT、O和PyMOL之类的程序进行结构比对。可通过数据库检索、成对比对、多序列比对、基因组分析、基序发现或基准测试或它们的任何组合进行比对。

可以修饰定点多肽以提高与以核酸为靶的核酸和/或靶核酸的结合特异性。可以修饰定点多肽以提高与以核酸为靶的核酸和/或靶核酸的特定区域(例如间隔区突出端、间隔区、最小CRISPR重复片段、最小tracrRNA序列、3’tracrRNA序列、tracrRNA突出端)的结合。

在一些情况中，该修饰可包含保守修饰。保守氨基酸改变可涉及它们的侧链相关的氨基酸家族的一员(例如半胱氨酸/丝氨酸)的置换。

在一些情况中，本文公开的Cas9蛋白中的氨基酸改变是非保守氨基酸改变(即不相似的带电或不带电氨基酸的置换)。非保守氨基酸改变可涉及与它们的侧链无关的氨基酸家族的一员的置换或改变定点多肽的生物活性的置换。

氨基酸的突变还可改变与靶核酸的结合选择性。该突变可能造成的改变可包括突变定点多肽和靶核酸之间的结合的解离常数(Kd)的改变。突变定点多肽和靶核酸之间的结合Kd的改变可以比非突变定点多肽和靶核酸之间的结合Kd高或低大于1000倍、大于500倍、大于100倍、大于50倍、大于25倍、大于10倍、大于5倍、大于4倍、大于3倍、大于2倍。突变定点多肽和靶核酸之间的结合Kd的改变可以比非突变定点多肽和靶核酸之间的结合Kd高或低小于1000倍、小于500倍、小于100倍、小于50倍、小于25倍、小于10倍、小于5倍、小于4倍、小于3倍、小于2倍。

该突变可能造成的改变可包括突变定点多肽和PAM基序之间的结合K_d的改变。突变定点多肽和PAM基序之间的结合K_d的改变可以比非突变定点多肽和PAM基序之间的结合K_d高或低大于1000倍、大于500倍、大于100倍、大于50倍、大于25倍、大于10倍、大于5倍、大于4倍、大于3倍、大于2倍。突变定点多肽和PAM基序之间的结合K_d的改变可以比非突变定点多肽和PAM基序之间的结合K_d高或低小于1000倍、小于500倍、小于100倍、小于50倍、小于25倍、小于10倍、小于5倍、小于4倍、小于3倍、小于2倍。

该突变可能造成的改变可包括突变定点多肽和以核酸为靶的核酸之间的结合K_d的改变。突变定点多肽和以核酸为靶的核酸之间的结合K_d的改变可以比非突变定点多肽和以核酸为靶的核酸之间的结合K_d高或低大于1000倍、大于500倍、大于100倍、大于50倍、大于25倍、大于10倍、大于5倍、大于4倍、大于3倍、大于2倍。突变定点多肽和以核酸为靶的核酸之间的结合K_d的改变可以比非突变定点多肽和以核酸为靶的核酸之间的结合K_d高或低小于1000倍、小于500倍、小于100倍、小于50倍、小于25倍、小于10倍、小于5倍、小于4倍、小于3倍、小于2倍。

定点多肽的突变还可改变定点多肽的酶促作用的动力学。该突变可能造成的改变可包括突变定点多肽的K_m的改变。突变定点多肽的K_m的改变可以比非突变定点多肽的K_m高或低大于1000倍、大于500倍、大于100倍、大于50倍、大于25倍、大于10倍、大于5倍、大于4倍、大于3倍、大于2倍。突变定点多肽的K_m的改变可以比非突变定点多肽的K_m高或低小于1000倍、小于500倍、小于100倍、小于50倍、小于25倍、小于10倍、小于5倍、小于4倍、小于3倍、小于2倍。

定点多肽的突变可能造成的改变可包括定点多肽的周转率的改变。突变定点多肽的周转率改变可以比非突变定点多肽的周转率高或低大于1000倍、大于500倍、大于100倍、大于50倍、大于25倍、大于10倍、大于5倍、大于4倍、大于3倍、大于2倍。突变定点多肽的周转率改变可以比非突变定点多肽的周转率高或低小于1000倍、小于500倍、小于100倍、小于50倍、小于25倍、小于10倍、小于5倍、小于4倍、小于3倍、小于2倍。

该突变可能造成的改变包括定点多肽的酶促作用的ΔG的改变。突变定点多肽的ΔG改变可以比非突变定点多肽的ΔG高或低大于1000倍、大于500倍、大于100倍、大于50倍、大于25倍、大于10倍、大于5倍、大于4倍、大于3倍、大于2倍。突变定点多肽的周转率改变可以比非突变定点多肽的ΔG高或低小于1000倍、小于500倍、小于100倍、小于50倍、小于25倍、小于10倍、小于5倍、小于4倍、小于3倍、小于2倍。

该突变可能造成的改变可包括定点多肽的酶促作用的V_max的改变。突变定点多肽的V_max改变可以比非突变定点多肽的V_max高或低大于1000倍、大于500倍、大于100倍、大于50倍、大于25倍、大于10倍、大于5倍、大于4倍、大于3倍、大于2倍。突变定点多肽的周转率改变可以比非突变定点多肽的V_max高或低小于1000倍、小于500倍、小于100倍、小于50倍、小于25倍、小于10倍、小于5倍、小于4倍、小于3倍、小于2倍。

该突变可能造成的改变可包括定点多肽的任何动力学参数的改变。该突变可能造成的改变可包括定点多肽的任何热力学参数的改变。该突变可能造成的改变可包括定点多肽的表面电荷、埋入表面积和/或折叠动力学和/或定点多肽的酶促作用的改变。

可以通过例如定点诱变、丙氨酸扫描诱变、蛋白质结构分析、核磁共振、光亲和标记和电子断层成像、高通量筛选、ELISA、生化检测、结合测定、裂解测定(例如Surveyor测定)、报告基因检测等方法识别本发明的定点多肽中对功能而言必不可少的氨基酸。

其它氨基酸改变还可包括具有糖基化形式的氨基酸、与其它分子的聚集缀合物，和与不相关化学部分(例如聚乙二醇化分子)的共价缀合物。可通过将官能团连接到氨基酸链中或N-或C-末端残基处存在的基团上制备共价变体。在一些情况中，突变定点多肽还可包括等位基因变体和物种变体。

可以工程设计不影响Cas9蛋白的功能活性的区域的截短。可以工程设计影响Cas9蛋白的功能活性的区域的截短。截短可包括截除小于5、小于10、小于15、小于20、小于25、小于30、小于35、小于40、小于45、小于50、小于60、小于70、小于80、小于90、小于100或更多个氨基酸。截短可包括截除大于5、大于10、大于15、大于20、大于25、大于30、大于35、大于40、大于45、大于50、大于60、大于70、大于80、大于90、大于100或更多个氨基酸。截短可包括截除大约5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或100％的定点多肽。

可以工程设计不影响Cas9蛋白的功能活性的区域的缺失。可以工程设计影响Cas9蛋白的功能活性的区域的缺失。缺失可包括缺失小于5、小于10、小于15、小于20、小于25、小于30、小于35、小于40、小于45、小于50、小于60、小于70、小于80、小于90、小于100或更多个氨基酸。缺失可包括缺失大于5、大于10、大于15、大于20、大于25、大于30、大于35、大于40、大于45、大于50、大于60、大于70、大于80、大于90、大于100或更多个氨基酸。缺失可包括缺失大约5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或100％的定点多肽。可以在N-末端、C-末端或在多肽链中的任何区域进行缺失。

筛选

本公开提供工程改造定点多肽的方法。筛选可用于工程改造定点多肽。例如，可以设定筛选以筛选定点多肽的区域中的突变的作用。例如可以设定筛选以测试高碱性补丁的修饰对RNA结构(例如以核酸为靶的核酸结构)的亲和力或加工能力(例如靶核酸裂解)的修饰。示例性的筛选方法可包括但不限于，细胞分选法、mRNA展示、噬菌体展示和定向进化。

融合体

在一些情况中，修饰定点多肽以使其包含非天然序列(即该多肽具有将其从其起源的等位基因或序列改变的修饰)(例如该多肽可被称作融合体)。该非天然序列还可包括一个或多个附加蛋白质、蛋白结构域、亚结构域或多肽。例如，Cas9可以与任何合适的附加非天然核酸结合蛋白和/或结构域，包括但不限于转录因子结构域、核酸酶结构域、核酸聚合结构域融合。该非天然序列可包含Cas9和/或Cas9同源物的序列。

该非天然序列可赋予该融合蛋白新功能。这些功能可包括例如，DNA裂解、DNA甲基化、DNA损伤、DNA修复、与靶DNA相关的靶多肽(例如组蛋白、DNA-结合蛋白等)的修饰，以造成例如组蛋白甲基化、组蛋白乙酰化、组蛋白泛素化等。融合蛋白提供的其它功能可包括甲基转移酶活性、脱甲基酶活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷化活性、SUMO化活性、去SUMO化活性、核糖基化活性、去核糖基化活性、豆蔻酰化活性、重塑活性、蛋白酶活性、氧化还原酶活性、转移酶活性、水解酶活性、裂合酶活性、异构酶活性、合酶活性、合成酶活性和去豆蔻酰化活性，或它们的任何组合。

对桥螺旋的修饰

在一些情况中，可以修饰Cas9的桥螺旋区(例如以改变PAM特异性)。在一些情况中，该桥螺旋可以与在化脓性链球菌的Cas9蛋白中识别的桥螺旋(残基551-566)共享同源性。在一些情况中，该桥螺旋可以与化脓性链球菌Cas9桥螺旋的残基551-556共享至少5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％同源性。在一些情况中，该桥螺旋可以与化脓性链球菌Cas9桥螺旋的残基551-556共享最多5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％同源性。

在一些情况中，对桥螺旋的修饰可包括但不限于如本文所述的个别氨基酸修饰。在一些情况中，对桥螺旋的修饰可包括但不限于插入、缺失或置换个别氨基酸或多肽，如其它蛋白质元件(例如结构域、结构基序、蛋白质)。

修饰可包括对桥螺旋的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个氨基酸的修饰。修饰可包括对桥螺旋的最多1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个氨基酸的修饰。修饰还可包括至少5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的桥螺旋。修饰还可包括最多5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的桥螺旋。

在一些情况中，对定点多肽桥螺旋序列的修饰可包括特定的多肽结构基序，包括但不限于α螺旋、β链、β折叠、310-螺旋、π-螺旋、聚脯氨酸I基序、聚脯氨酸II基序、聚脯氨酸III基序、β转角、α-转角-α，或螺旋纽结或铰链。例如，对定点多肽桥螺旋的置换可包括置换或添加一个或多个脯氨酸氨基酸残基。脯氨酸残基的插入可以在桥螺旋中引入纽结，这可能改变该桥螺旋对PAM的结合特异性。在另一实例中，置换或添加可包括一个或多个甘氨酸氨基酸残基。甘氨酸残基的插入或置换可以在桥螺旋或“铰链”中引入提高的灵活性，这也可改变桥螺旋对PAM的结合特异性。改变结合特异性可影响或不影响Cas9蛋白的酶活性。

在一些情况中，对定点多肽桥螺旋序列的修饰可包括缺失至少1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的桥螺旋。在一些情况中，对定点多肽桥螺旋序列的修饰可包括缺失最多1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的桥螺旋。

在一些情况中，对定点多肽桥螺旋序列的修饰可包括添加或置换至少1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的同源定点多肽桥螺旋。在一些情况中，对定点多肽桥螺旋序列的修饰可包括添加或置换最多1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的同源定点多肽桥螺旋。

例如，非天然Cas9桥螺旋可来源于任何合适的有机体。在一些情况中，Cas9蛋白和桥螺旋可来源于原核有机体，包括但不限于古细菌(archea)、细菌、原生生物(例如大肠杆菌、化脓性链球菌、嗜热链球菌、激烈火球菌(P.furiosus)等)。

例如，化脓性链球菌Cas9酶的桥螺旋可以用来源自不同物种的另一Cas9酶的桥螺旋或其片段置换或插入。

在一些情况中，定点多肽包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)和修饰的桥螺旋。

对高碱性补丁的修饰

也可以通过Cas9蛋白内的附加区域影响PAM结合和特异性。在一些情况中，也可以修饰与PAM结合位点相邻的包含碱性氨基酸残基的高碱性补丁或区域以改变PAM特异性。在一些情况中，该高碱性补丁或区域可以与在N-末端区内包含的化脓性链球菌的Cas9中识别的高碱性补丁或化脓性链球菌Cas9的氨基酸残基1-270共享同源性。在一些情况中，该高碱性补丁可以与化脓性链球菌Cas9高碱性补丁共享至少5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％同源性。在一些情况中，该高碱性补丁可以与化脓性链球菌Cas9高碱性补丁共享最多5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％同源性。

在一些情况中，对高碱性补丁的修饰可包括但不限于如本文所述的个别氨基酸修饰。在一些情况中，对高碱性补丁的修饰可包括但不限于插入、缺失或置换个别氨基酸或多肽，如其它蛋白质元件(例如结构域、结构基序、蛋白)。

修饰可包括对高碱性补丁的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、21、42、43、44、45、46、47、48、49、50或更多个氨基酸的修饰。修饰可包括对高碱性补丁的最多1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、21、42、43、44、45、46、47、48、49、50或更多个氨基酸的修饰。修饰还可包括至少5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的高碱性补丁。修饰还可包括最多5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的高碱性补丁。

在一些情况中，对定点多肽的高碱性补丁序列的修饰可包括特定的多肽结构基序，包括但不限于α螺旋、β链、β折叠、310-螺旋、π-螺旋、聚脯氨酸I基序、聚脯氨酸II基序、聚脯氨酸III基序、β转角、α-转角-α，或螺旋纽结或铰链。

对定点多肽的高碱性补丁的置换可包括置换或添加一个或多个酸性氨基酸残基。酸性残基的插入可能降低该定点多肽的这一区域的总碱性电荷并可能改变该高碱性补丁对PAM的结合特异性。在另一实例中，置换或添加可包括一个或多个碱性氨基酸残基。碱性残基的插入或置换可提高多肽和核酸之间的相互作用的电荷面积或离子强度并且也可能改变该高碱性补丁对PAM的结合特异性。改变结合特异性可能影响或不影响定点多肽的酶活性。

在一些情况中，对定点多肽高碱性补丁序列的修饰可包括缺失至少1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的高碱性补丁。在一些情况中，对定点多肽高碱性补丁序列的修饰可包括缺失最多1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的高碱性补丁。

在一些情况中，对定点多肽高碱性补丁序列的修饰可包括添加或置换至少1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的同源Cas9高碱性补丁。在一些情况中，对定点多肽高碱性补丁序列的修饰可包括添加或置换最多1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的同源Cas9高碱性补丁。

同源Cas9高碱性补丁序列可来源于任何合适的有机体。在一些情况中，Cas9蛋白可来源于原核有机体，如古细菌、细菌、原生生物(例如大肠杆菌、化脓性链球菌、嗜热链球菌、激烈火球菌等)。例如，化脓性链球菌Cas9酶的高碱性补丁可以用来源于另一物种的Cas9的高碱性补丁或其片段置换或插入。

在一些情况中，定点多肽包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)和修饰的高碱性补丁。

对HNH结构域的修饰

在一些情况中，可以修饰定点多肽中的HNH结构域以改变PAM特异性。在一些情况中，该HNH结构域可以与在化脓性链球菌的Cas9蛋白的C末端结构域中识别的HNH结构域(残基860-1100)共享同源性。在一些情况中，该HNH结构域可以与化脓性链球菌Cas9HNH结构域的残基551-556共享至少5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％同源性。在一些情况中，该HNH结构域可以与化脓性链球菌Cas9HNH结构域的残基860-1100共享最多5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％同源性。

在一些情况中，对HNH结构域的修饰可包括但不限于如本文所述的个别氨基酸修饰。在一些情况中，对HNH结构域的修饰可包括但不限于插入、缺失或置换个别氨基酸或多肽，如其它蛋白质元件(例如结构域、结构基序、蛋白)。

修饰可包括对HNH结构域的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个氨基酸的修饰。修饰可包括对HNH结构域的最多1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个氨基酸的修饰。修饰还可包括至少5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的HNH结构域。修饰还可包括最多5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的HNH结构域。

在一些情况中，对定点多肽HNH结构域序列的修饰可包括特定的多肽结构基序，包括但不限于α螺旋、β链、β折叠、310-螺旋、π-螺旋、聚脯氨酸I基序、聚脯氨酸II基序、聚脯氨酸III基序、β转角、α-转角-α，或螺旋纽结或铰链。

对定点多肽的HNH结构域的置换可包括置换或添加一个或多个氨基酸残基。在一些情况中，该HNH结构域可以被其它合适的核酸结合域替换或与其它合适的核酸结合域融合。核酸结合域可包含RNA。可存在单个核酸结合域。核酸结合域的实例可包括，但不限于，螺旋-转角-螺旋结构域、锌指结构域、亮氨酸拉链(bZIP)结构域、翼状螺旋结构域、翼状螺旋-转角-螺旋结构域、螺旋-环-螺旋结构域、HMG-盒结构域、Wor3结构域、免疫球蛋白结构域、B3结构域、TALE结构域、锌指结构域、RNA-识别基序结构域、双链RNA-结合基序结构域、双链核酸结合域、单链核酸结合域、KH结构域、PUF结构域、RGG盒结构域、DEAD/DEAH盒结构域、PAZ结构域、Piwi结构域和冷休克结构域、RNAseH结构域、HNH结构域、RuvC样结构域、RAMP结构域、Cas5结构域、Cas6结构域。

在一些情况中，对定点多肽HNH结构域序列的修饰可包括缺失至少1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的HNH结构域。在一些情况中，对定点多肽HNH结构域序列的修饰可包括缺失最多1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的HNH结构域。

在一些情况中，对定点多肽HNH结构域序列的修饰可包括添加或置换至少1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的同源Cas9HNH结构域。在一些情况中，对定点多肽HNH结构域序列的修饰可包括添加或置换最多1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的同源Cas9HNH结构域。

同源Cas9HNH结构域可来源于任何合适的有机体。在一些情况中，该Cas9蛋白可来源于原核有机体，如古细菌、细菌、原生生物(例如大肠杆菌、化脓性链球菌、嗜热链球菌、激烈火球菌(P.furiosus)等)。例如，化脓性链球菌Cas9酶的HNH结构域可以用来源于另一物种的Cas9酶的HNH结构域或其片段置换或插入。在一些情况中，可以将至少一个同源Cas9HNH结构域插入HNH结构域中。在一些情况中，所述至少一个同源Cas9HNH结构域可形成包含至少两个HNH结构域的HNH结构域阵列。在一些情况中，HNH结构域阵列可包含至少一个Cas9HNH结构域和至少一个第二HNH结构域。

在一些情况中，对HNH或HNH样结构域的修饰可包括与Cas9的HNH结构域串联(例如邻接)插入相同或类似的HNH或HNH样结构域。可以在Cas9中的HNH结构域的N-末端和/或C-末端插入该HNH或HNH样结构域。在Cas9中插入一个或多个HNH或HNH样结构域有助于扩展靶核酸中的特异性。在Cas9中插入一个或多个HNH或HNH样结构域有助于复制靶核酸中的特异性。例如，一个或多个HNH或HNH样结构域的插入可以将Cas9构造成识别更长的靶核酸段、识别不同的RNA-DNA杂交体和/或以更高的结合亲和力识别靶核酸。

在一些情况中，定点多肽包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)和修饰的HNH结构域。

对RuvC或RuvC样结构域的修饰

在一些情况中，可以修饰定点多肽中的RuvC或RuvC样结构域以改变PAM特异性。在一些情况中，该RuvC或RuvC样结构域可以与在化脓性链球菌的Cas9蛋白中识别的RuvC或RuvC样结构域(残基1-270)共享同源性。在一些情况中，该RuvC或RuvC样结构域可以与化脓性链球菌Cas9RuvC或RuvC样结构域的残基551-556共享至少5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％同源性。在一些情况中，该RuvC或RuvC样结构域可以与化脓性链球菌Cas9RuvC或RuvC样结构域的残基1-270共享最多5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％同源性。

在一些情况中，对RuvC或RuvC样结构域的修饰可包括但不限于如本文所述的个别氨基酸修饰。在一些情况中，对RuvC或RuvC样结构域的修饰可包括但不限于插入、缺失或置换个别氨基酸或多肽，如其它蛋白质元件(例如结构域、结构基序、蛋白)。

修饰可包括对RuvC或RuvC样结构域的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个氨基酸的修饰。修饰可包括对RuvC或RuvC样结构域的最多1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个氨基酸的修饰。修饰还可包括至少5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的RuvC或RuvC样结构域。修饰还可包括最多5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的RuvC或RuvC样结构域。

在一些情况中，对定点多肽RuvC或RuvC样结构域序列的修饰可包括特定的多肽结构基序，包括但不限于α螺旋、β链、β折叠、310-螺旋、π-螺旋、聚脯氨酸I基序、聚脯氨酸II基序、聚脯氨酸III基序、β转角、α-转角-α，或螺旋纽结或铰链。

对定点多肽RuvC或RuvC样结构域的置换可包括置换或添加一个或多个氨基酸残基。在一些情况中，该RuvC或RuvC样结构域可以被其它合适的核酸结合域替换或与其它合适的核酸结合域融合。核酸结合域可包含RNA。可存在单个核酸结合域。核酸结合域的实例可包括，但不限于，螺旋-转角-螺旋结构域、锌指结构域、亮氨酸拉链(bZIP)结构域、翼状螺旋结构域、翼状螺旋-转角-螺旋结构域、螺旋-环-螺旋结构域、HMG-盒结构域、Wor3结构域、免疫球蛋白结构域、B3结构域、TALE结构域、锌指结构域、RNA-识别基序结构域、双链RNA-结合基序结构域、双链核酸结合域、单链核酸结合域、KH结构域、PUF结构域、RGG盒结构域、DEAD/DEAH盒结构域、PAZ结构域、Piwi结构域、冷休克结构域、RNAseH结构域、HNH结构域、RuvC样结构域、RAMP结构域、Cas5结构域和Cas6结构域。

在一些情况中，对定点多肽RuvC或RuvC样结构域序列的修饰可包括缺失至少1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的RuvC或RuvC样结构域。在一些情况中，对定点多肽RuvC或RuvC样结构域序列的修饰可包括缺失最多1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的RuvC或RuvC样结构域。

在一些情况中，对定点多肽RuvC或RuvC样结构域序列的修饰可包括添加或置换至少1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的同源Cas9RuvC或RuvC样结构域。在一些情况中，对定点多肽RuvC或RuvC样结构域序列的修饰可包括添加或置换最多1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的同源Cas9RuvC或RuvC样结构域。

同源Cas9RuvC或RuvC样结构域可来源于任何合适的有机体。在一些情况中，该Cas9蛋白可衍生自原核有机体，如古细菌、细菌、原生生物(例如大肠杆菌、化脓性链球菌、嗜热链球菌、激烈火球菌等)。例如，化脓性链球菌Cas9酶的RuvC或RuvC样结构域可以用来源于另一Cas9酶(如来自另一物种的Cas9酶)的RuvC或RuvC样结构域或其片段置换或插入。

在一些情况中，对RuvC或RuvC样结构域的修饰可包括与Cas9的RuvC或RuvC样结构域串联(例如邻接)插入相同或类似的RuvC或RuvC样结构域。可以在Cas9中的RuvC或RuvC样结构域的N-末端和/或C-末端插入该RuvC或RuvC样结构域。在Cas9中插入一个或多个RuvC或RuvC样结构域有助于扩展靶核酸中的特异性。在Cas9中插入一个或多个RuvC或RuvC样结构域有助于复制靶核酸中的特异性。例如，一个或多个RuvC或RuvC样结构域的插入可以将Cas9构造成识别更长的靶核酸段、识别不同的RNA-DNA杂交体和/或以更高的结合亲和力识别靶核酸。

在一些情况中，定点多肽包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)和修饰的RuvC结构域。

对含有RNA聚合酶同源区的Cas9结构域的修饰

在一些情况中，定点多肽可以与RNA聚合酶共享同源性。这两种蛋白可共享参与催化核酸的结合和操纵的类似的功能同源结构域。例如，RNA聚合酶可包含参与结合RNA-DNA双链体的多肽序列区域。在一些情况中，这些区域有助于使该双链体解链。

在一些情况中，定点多肽还可包含某些影响该酶对核酸的结合特异性的区域。在一些情况中，这些区域可以与如RNA聚合酶中存在的结构域或区域共享序列或功能同源性。在一些情况中，定点多肽的N-末端的碱性区可以结合到tracrRNA和crRNA或单RNA(sgRNA)上。在化脓性链球菌中，这可能相当于残基50-100的区域。

通常，本公开提供了对这一区域或相邻区域的任何合适的修饰。在一些情况中，可以修饰定点多肽中的tracrRNA/crRNA结合区(例如以核酸为靶的核酸结合区)以改变对该核酸的特异性。在一些情况中，该tracrRNA/crRNA结合区可以与在化脓性链球菌的Cas9蛋白中识别的tracrRNA/crRNA结合区(残基50-100)共享同源性。在一些情况中，该tracrRNA/crRNA结合区可以与化脓性链球菌Cas9tracrRNA/crRNA结合区的残基5-100共享至少5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％同源性。在一些情况中，该tracrRNA/crRNA结合区可以与化脓性链球菌Cas9tracrRNA/crRNA结合区的残基50-100共享最多5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％同源性。

在一些情况中，对tracrRNA/crRNA结合区的修饰可包括但不限于如本文所述的个别氨基酸修饰。在一些情况中，对tracrRNA/crRNA结合区的修饰可包括但不限于插入、缺失或置换个别氨基酸或多肽，如其它蛋白元件(例如结构域、结构基序、蛋白)。

修饰可包括对tracrRNA/crRNA结合区的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个氨基酸的修饰。修饰可包括对tracrRNA/crRNA结合区的最多1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个氨基酸的修饰。修饰还可包括至少5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的tracrRNA/crRNA结合区。修饰还可包括最多5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的tracrRNA/crRNA结合区。

在一些情况中，对定点多肽tracrRNA/crRNA结合区序列的修饰可包括特定的多肽结构基序，包括但不限于α螺旋、β链、β折叠、310-螺旋、π-螺旋、聚脯氨酸I基序、聚脯氨酸II基序、聚脯氨酸III基序、β转角、α-转角-α,或螺旋纽结或铰链。

例如，对定点多肽tracrRNA/crRNA结合区的置换可包括置换或添加一个或多个蛋白或其片段。例如，该tracrRNA/crRNA结合区可以被来自任何已知的结合RNA的I型、II型或III型CRISPR系统成员的RNA-结合域置换。该tracrRNA/crRNA结合区可以被来自RAMP超家族的任何已知的RNA结合成员的RNA-结合域置换。该tracrRNA/crRNA结合区可以被来自Cas7、Cas6、Cas5家族的任何已知的RNA结合成员的RNA-结合域置换。在一个实例中，该tracr RNA要求可以被换成对5’发夹序列的要求，间隔区序列位于该发夹结构下游以用于DNA识别。

在一些情况中，对定点多肽tracrRNA/crRNA结合区序列的修饰可包括缺失至少1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的tracrRNA/crRNA结合区。在一些情况中，对定点多肽tracrRNA/crRNA结合区序列的修饰可包括缺失最多1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的tracrRNA/crRNA结合区。

在一些情况中，对定点多肽tracrRNA/crRNA结合区序列的修饰可包括添加或置换至少1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的同源Cas9tracrRNA/crRNA结合区。在一些情况中，对定点多肽tracrRNA/crRNA结合区序列的修饰可包括添加或置换最多1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％或100％的同源Cas9tracrRNA/crRNA结合区。

同源定点多肽tracrRNA/crRNA结合区可源自任何合适的有机体。在一些情况中，该tracrRNA/crRNA结合区可源自原核有机体，包括但不限于古细菌、细菌、原生生物(例如大肠杆菌、化脓性链球菌、嗜热链球菌、激烈火球菌等)。例如，化脓性链球菌Cas9的tracrRNA/crRNA结合区可以用源自另一Cas9(如源自另一物种的Cas9)的tracrRNA/crRNA结合区或其片段置换或插入。

在一些情况中，定点多肽包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)和修饰的聚合酶类结构域。

改变PAM特异性的修饰

在一些情况中，定点多肽可以识别前间区序列邻近基序(PAM)。PAM可以是被定点多肽识别并紧邻以核酸为靶的核酸的间隔区靶向的靶核酸序列的3’的靶核酸中的任何序列。例如，PAM可包含5'-NGG-3'或5'-NGGNG-3'、5’-NNAAAAW-3’、5’-NNNNGATT-3’、5’-GNNNCNNA-3’、5’-NNNACA-3’，其中N是任何核苷酸且N紧邻间隔区序列靶向的靶核酸序列的3’。

可以修饰定点多肽以改变PAM特异性。例如，可以修饰定点多肽以在该修饰之前，该多肽靶向第一前间区序列邻近基序，在该修饰之后，该定点多肽靶向第二前间区序列邻近基序。在一些情况中，改变的PAM特异性可包括结合特异性的改变(例如提高的结合、降低的结合)和/或结合常数的改变(例如提高Kd、降低Kd)。

可以修饰定点多肽以使该定点多肽可识别与野生型定点多肽识别的类型不同的新型PAM。例如，可以修饰识别5'-NGG-3'PAM的定点多肽以使其可识别5'-NGGNG-3'PAM、5’-NNAAAAW-3’、5’-NNNNGATT-3’、5’-GNNNCNNA-3’或5’-NNNACA-3’。

可以根据本公开的方法将定点多肽的任何区域工程改造(例如桥螺旋、HNH和/或HNH样结构域、RuvC和/或RuvC样结构域、碱性补丁)以改变PAM特异性。

可以将与野生型定点多肽(例如来自化脓性链球菌的Cas9，SEQ ID NO:8)的残基445-507、446-497、1096-1225、1105-1138对应的区域工程改造以修饰PAM识别。这些区域的工程改造可包括引入突变、用来自其它Cas9直系同源物的相应区域替换、缺失、插入等。可以将与残基718-757、22-49、65-95、445-507、446-497、1096-1225、1105-1138对应的区域工程改造以修饰靶向核酸的核酸的识别。可以将与残基445-507和1105-1138对应的区域工程改造以修饰P-结构域识别。

在一些情况中，定点多肽包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)和修饰，其中在引入该修饰之前，该定点多肽适于结合第一PAM，在引入该修饰之后，该定点多肽适于与不同的PAM结合。

改变以核酸为靶的核酸特异性的修饰

在一些情况中，定点多肽可以识别以核酸为靶的核酸。可以修饰定点多肽以改变以核酸为靶的核酸特异性。例如，可以修饰定点多肽以在该修饰之前，该多肽靶向第一以核酸为靶的核酸，在该修饰之后，该定点多肽靶向第二以核酸为靶的核酸。在一些情况中，改变的以核酸为靶的核酸特异性可包括结合特异性的改变(例如提高的结合、降低的结合)和/或结合常数的改变(例如提高Kd、降低Kd)。

可以修饰定点多肽以使该定点多肽可识别与野生型定点多肽识别的类型不同的新型以核酸为靶的核酸。可以根据本公开的方法将定点多肽的任何区域工程改造(例如桥螺旋、HNH和/或HNH样结构域、RuvC和/或RuvC样结构域、碱性补丁)以改变PAM特异性。

在一些情况中，定点多肽包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)和修饰，其中在引入该修饰之前，该定点多肽适于结合第一以核酸为靶的核酸，在引入该修饰之后，该定点多肽适于与不同的以核酸为靶的核酸结合。

改变杂交要求的修饰

插入

可以修饰定点多肽以提高与靶核酸的结合特异性。可以将序列插入定点多肽中。在一些情况中，可以在定点多肽中插入HNH和/或HNH样结构域。该非天然序列(例如HNH和/或HNH样结构域)可源自任何物种。该插入可以在该定点多肽中的任何位置发生。该插入可以与该定点多肽的天然HNH和/或HNH样结构域串联(例如邻接)发生。插入的HNH和/或HNH样结构域可包含突变。插入的HNH和/或HNH样结构域可包含降低该结构域的核酸酶活性的突变。在一些情况中，可以在定点多肽中插入RuvC和/或RuvC样结构域。该插入可以在该定点多肽中的任何位置发生。该插入可以与该定点多肽的天然RuvC和/或RuvC样结构域串联(例如邻接)发生。插入的RuvC和/或RuvC样结构域可包含突变。插入的RuvC和/或RuvC样结构域可包含降低该结构域的核酸酶活性的突变。

可以修饰定点多肽以提高与以核酸为靶的核酸的结合特异性。可以将序列插入定点多肽中。可以在定点多肽中插入HNH和/或HNH样结构域。该非天然序列(例如HNH和/或HNH样结构域)可源自任何物种。该插入可以在该定点多肽中的任何位置发生。该插入可以与该定点多肽的天然HNH和/或HNH样结构域串联(例如邻接)发生。插入的HNH和/或HNH样结构域可包含突变。插入的HNH和/或HNH样结构域可包含降低该结构域的核酸酶活性的突变。可以在定点多肽中插入RuvC和/或RuvC样结构域。该插入可以在该定点多肽中的任何位置发生。该插入可以与该定点多肽的天然RuvC和/或RuvC样结构域串联(例如邻接)发生。插入的RuvC和/或RuvC样结构域可包含突变。插入的RuvC和/或RuvC样结构域可包含降低该结构域的核酸酶活性的突变。

可以将定点多肽工程改造以包含可结合到RNA-DNA杂交体上的多肽结构域(例如RNA酶结构域、锌指结构域)。例如，可以将定点多肽工程改造以包含RNA酶H结构域。插入的RNA酶H结构域可包含突变。插入的RNA酶H结构域可包含降低该结构域的核酸酶活性的突变。

可以将定点多肽工程改造以包含可结合到双链DNA上的多肽结构域(例如包含螺旋-转角-螺旋基序的结构域、包含亮氨酸拉链基序的结构域、包含螺旋-环-螺旋基序的结构域、包含锌指基序的结构域)。例如，可以将定点多肽工程改造以包含螺旋-转角-螺旋基序。非限制性的示例性螺旋-转角-螺旋基序包括来自dnaB、TetR、MuB、P2R、CysB、BirA、噬菌体λ阻遏物、Engrailed、Myb、LuxR、MarR、ETS、ZNF10a、Kox-1的那些。该螺旋-环-螺旋基序可以是二螺旋、三螺旋、四螺旋、翼状螺旋-转角-螺旋或其它修饰的螺旋-环-螺旋。该插入的结构域可包含突变。该插入的结构域可包含降低该结构域的核酸酶活性的突变。

补偿突变

定点多肽可包含突变和/或被工程改造以使其可优先结合到突变和/或工程改造的以核酸为靶的核酸上。定点多肽和以核酸为靶的核酸对的这种突变可被称作补偿突变。例如，可以将定点多肽工程改造以使其核酸酶结构域(例如HNH和/或HNH样、RuvC和/或RuvC样)被核酸结合域(例如Csy4、Cas5、Cas6核酸结合域)替代。可以将定点多肽工程改造以将核酸结合域(例如Csy4、Cas5、Cas6核酸结合域)插入该定点多肽中。所得定点多肽可结合到突变和/或经工程改造以包含核酸结合域结合位点(例如对Csy4、Cas5、Cas6核酸结合域的结合位点)的以核酸为靶的核酸上。该以核酸为靶的核酸可以突变和/或经工程改造以在最小tracrRNA序列中包含核酸结合域结合位点。该以核酸为靶的核酸可以突变和/或经工程改造以在3’tracrRNA序列中包含核酸结合域结合位点。该以核酸为靶的核酸可以突变和/或经工程改造以在tracrRNA突出端中包含核酸结合域结合位点。

在一些情况中，定点多肽包含含有与来自化脓性链球菌的Cas9的至少15％氨基酸同一性的氨基酸序列、两个核酸裂解域(即HNH结构域和RuvC结构域)和补偿突变，其中该定点多肽可结合到工程改造的以核酸为靶的核酸上但不结合到未修饰的以核酸为靶的核酸上。

生成粘性末端和平端切口的方法

在一些情况中，可以使用一种或多种切口酶(即包含一个基本无活性的核酸酶结构域的定点多肽)以在靶核酸中生成靶向的双链切口。所述一种或多种切口酶的各切口酶可靶向双链靶核酸的一条链。在一些情况中，可以使用两种切口酶生成靶向的双链切口。

这两种切口酶可以切割靶核酸以生成平端切口(其中该靶核酸的切割位点是各链上的相同位置)。这两种切口酶可以在各链内的不同位置切割靶核酸以留下一些单链核苷酸，由此生成粘性末端。

通过两种具有切口酶活性的修饰定点多肽裂解靶核酸可用于引发通过裂解靶核酸和使细胞在不存在外部提供的供体多核苷酸的情况下修复该序列而从靶核酸中缺失或插入核酸材料。在一些情况中，本公开的方法可用于敲除基因。如果将以核酸为靶的核酸和两种具有切口酶活性的修饰的定点多肽共同给予具有供体多核苷酸序列(其至少包括具有与靶核酸的同源性的片段)的细胞，可以将新核酸材料插入/拷贝到该位点中。这样的方法可用于向靶核酸中添加，即插入或替换，核酸材料(例如以“敲入”编码蛋白质、siRNA、miRNA等的核酸)、添加标记(例如6xHis、荧光蛋白(例如绿色荧光蛋白；黄色荧光蛋白等)、血凝素(HA)、FLAG等)、向基因中添加调节序列(例如启动子、聚腺苷酰化信号、内部核糖体进入序列(IRES)、2A肽、起始密码子、终止密码子、剪接信号、定位信号等)、修饰核酸序列(例如引入突变)等。

图32描绘了通过切口酶生成平端的方法。靶核酸双链体3210可包含多个PAM序列3215(加框)，其中一个PAM在靶核酸3210的一条链上，一个PAM在靶核酸3210的另一条链上。以核酸为靶的核酸3205作为与切口酶(未显示切口酶)的复合体的一部分，可杂交到在靶核酸3210的各链上与PAM 3215相邻的间隔区序列上。该切口酶可裂解靶核酸3210的一条链。由三角形标示裂解。如果PAM适当间隔，该切口酶可以在各链上的基本相同位置切割靶核酸，由此产生平端。PAM序列可以相隔至少大约1、2、3、4、5、6、7、8、9、10、20、30、40或50或更多个核苷酸。PAM序列可以相隔最多大约1、2、3、4、5、6、7、8、9、10、20、30、40或50或更多个核苷酸。在一些情况中，PAM相隔6个核苷酸(即在各PAM之间存在6个核苷酸)。在一些情况中，该以核酸为靶的核酸裂解在PAM的5’的大约3个核苷酸。

在一些实施方案中，可以使用两种或更多种切口酶生成粘性末端。图33图解靶向靶核酸上的重叠区的两种切口酶如何可造成交错双链断裂，以产生粘性末端。靶核酸双链体3310可包含多个PAM序列3315(加框)。以核酸为靶的核酸3305作为与切口酶(未显示切口酶)的复合体的一部分，可杂交到在靶核酸3310的各链上与PAM 3315相邻的间隔区序列上。该切口酶可裂解靶核酸3310的一条链。由三角形标示裂解。如果PAM适当间隔，该切口酶可以在交错位置切割靶核酸，由此产生粘性末端。PAM序列可以相隔至少大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸。PAM序列可以相隔最多大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸。PAM序列的距离可与生成的粘性末端的长度相关。例如，PAM彼此相距越远，粘性末端越长。

使用两种或更多种切口酶生成粘性末端的方法可涉及基本彼此相邻(尽管在相反的链上)的PAM序列。在一些情况中，PAM序列相隔至少大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸。在一些情况中，PAM序列相隔最多大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸。在一些情况中，PAM序列相隔一个核苷酸。在一些情况中，PAM序列未被核苷酸隔开。

靶核酸的富集和测序方法

一般概述

测序可用于通过识别突变和/或其它序列变体(例如多态性)来诊断疾病。本公开的方法提供不使用扩增法而富集靶核酸序列的方法、试剂盒和组合物。可以使用定点多肽和以核酸为靶的核酸富集靶核酸。

图3描绘本公开的方法的一个示例性实施方案。定点多肽305可以结合以核酸为靶的核酸310，由此形成复合体306。以核酸为靶的核酸310可包含核酸亲和标记311。定点多肽305可包含核酸酶结构域。定点多肽305可以有酶活性。定点多肽305可包含亲和标记315。以核酸为靶的核酸310可以与靶核酸320杂交。在一些实施方案中，多个复合体306可以杂交到靶核酸320内的多个位置上。在裂解步骤325中，定点多肽305的核酸酶结构域可以裂解或切割330靶核酸320。切除的靶核酸340可以在纯化步骤335中纯化。可以将连接物345连接到该切除的靶核酸上。该连接物有助于切除的靶核酸的测序。

图4描绘本公开的方法的一个示例性实施方案。定点多肽405可以与以核酸为靶的核酸410相互作用，由此形成复合体406。定点多肽405可包含核酸酶结构域。在一些实施方案中，定点多肽405的核酸酶结构域可以无酶活性。定点多肽405可包含亲和标记415。以核酸为靶的核酸410可以与靶核酸420杂交。以核酸为靶的核酸410可包含核酸亲和标记411。以核酸为靶的核酸的亲和标记411可包含发夹结构。多个复合体406可杂交到靶核酸420内的多个位置上。在片段化步骤225中，可以将靶核酸420片段化成靶核酸片段445(在本文中也称作“靶核酸”)。定点多肽405可借助可结合到定点多肽405的亲和标记415上的捕获剂440纯化。可以在纯化步骤450中从复合体406中洗脱片段化的靶核酸445。在相同步骤中或任选在不同步骤中，可以将连接物455连接到靶核酸上。该连接物有助于该靶核酸的测序。

以核酸为靶的核酸和定点多肽的复合体

以核酸为靶的核酸可以与定点多肽(例如核酸引导的核酸酶，例如Cas9)相互作用，由此形成复合体。该以核酸为靶的核酸可以将该定点多肽导向靶核酸。

在一些实施方案中，以核酸为靶的核酸可以经工程改造以使该复合体(例如包含定点多肽和以核酸为靶的核酸)可以在定点多肽的裂解位点外结合。在这种情况下，靶核酸可能不与该复合体相互作用，并且靶核酸可以是被切除的(例如脱离该复合体)。

在一些实施方案中，以核酸为靶的核酸可以经工程改造以使该复合体可以在定点多肽的裂解位点内结合。在这种情况下，靶核酸可以与该复合体相互作用，并且靶核酸可以是结合的(例如结合到该复合体上)。

以核酸为靶的核酸可以这样的方式进行工程改造，以使该复合体(例如包含定点多肽和/或以核酸为靶的核酸)可以杂交到核酸样品内的多个位置上。

可以使多个复合体与核酸样品接触。所述多个复合体可包含经工程改造以与相同序列杂交的以核酸为靶的核酸。所述多个复合体可包含经工程改造以与不同序列杂交的以核酸为靶的核酸。

这些序列可以在靶核酸内的不同位置。这些位置可包含相同或类似的靶核酸序列。这些位置可包含不同的靶核酸序列。这些位置可彼此相距指定距离。这些位置可以相距小于10千碱基(Kb)、相距小于8Kb、相距小于6Kb、相距小于4Kb、相距小于2Kb、相距小于1Kb、相距小于900个核苷酸、相距小于800个核苷酸、相距小于700个核苷酸、相距小于600个核苷酸、相距小于500个核苷酸、相距小于400个核苷酸、相距小于300个核苷酸、相距小于200个核苷酸、相距小于100个核苷酸。

该复合体可以裂解靶核酸，这可产生可小于10千碱基(Kb)长、小于8Kb长、小于6Kb长、小于4Kb长、小于2Kb长、小于1Kb长、小于900个核苷酸长、小于800个核苷酸长、小于700个核苷酸长、小于600个核苷酸长、小于500个核苷酸长、小于400个核苷酸长、小于300个核苷酸长、小于200个核苷酸长、小于100个核苷酸长的切除的靶核酸。

该复合体可以结合到可小于10千碱基(Kb)长、小于8Kb长、小于6Kb长、小于4Kb长、小于2Kb长、小于1Kb长、小于900个核苷酸长、小于800个核苷酸长、小于700个核苷酸长、小于600个核苷酸长、小于500个核苷酸长、小于400个核苷酸长、小于300个核苷酸长、小于200个核苷酸长、小于100个核苷酸长的片段化靶核酸上。

检测定点多肽的脱靶结合位点的方法

一般概述

本公开描述了用于确定定点多肽的脱靶结合位点的方法、组合物、系统和/或试剂盒。在本公开的一些实施方案中，定点多肽可包含以核酸为靶的核酸，由此形成复合体。可以使该复合体与靶核酸接触。可以用可结合到该复合体的亲和标记上的捕获剂捕获靶核酸。可以通过测序确定靶核酸的特性(identity)。测序(例如高通量测序，例如Illumina、IonTorrent)也可以通过计数特定结合位点的读出次数识别定点多肽和/或复合体的脱靶结合位点的频率。本公开的方法、组合物、系统和/或试剂盒可有助于开发更准确和特异性靶向的定点多肽。

图5描绘本公开的方法的一个示例性实施方案。定点多肽505可包含亲和标记510。该定点多肽可包含核酸结合域515。核酸结合域515可以是核酸。在一些实施方案中，核酸结合域515和定点多肽505形成复合体531。可以使复合体131与靶核酸530接触525。在一个优选实施方案中，靶核酸530是DNA(例如基因组DNA或gDNA)。该复合体可以用捕获剂540亲和纯化535。捕获剂540可结合到来自定点多肽505的亲和标记510上。捕获剂540可包含第二亲和标记545。捕获剂540可通过结合到固体支持物555上而亲和纯化550。在一些实施方案中，固体支持物555是涂有可结合到捕获剂的亲和标记545上的亲和试剂的珠子。任选地，固体支持物555可结合到定点多肽505的亲和标记510上以促进纯化。在一些实施方案中，可进行一轮或多轮纯化。各轮可包括使固体支持物555与定点多肽510和/或捕获剂545的亲和标记接触。可以从靶核酸530中洗脱该亲和纯化复合体。该靶核酸随后准备用于进一步加工。加工可包括下游分析法，例如测序。

图6描绘本公开的方法的一个示例性实施方案。定点多肽605可包含亲和标记610。定点多肽605可包含核酸结合域615。核酸结合域615可以是核酸。在一些实施方案中，核酸结合域615可包含亲和标记620。在一些实施方案中，核酸结合域615和位点特异性多肽605可形成复合体631。可以使复合体631与靶核酸630接触625。在一个优选实施方案中，靶核酸630是DNA。复合体631可以用捕获剂640亲和纯化635。捕获剂640可以是有条件地无酶活性的定点多肽。捕获剂640可以是Csy4的有条件地无酶活性的变体。捕获剂640可结合到亲和标记620上。捕获剂640可包含亲和标记645。捕获剂640可通过结合到固体支持物655上而经亲和纯化650。在一些实施方案中，该固体支持物是涂有可结合到捕获剂640的亲和标记645上的亲和试剂的珠子。任选地，固体支持物655可结合到定点多肽605的亲和标记610上以促进纯化。在一些实施方案中，可进行两轮纯化，各轮包括使固体支持物655与定点多肽610和/或捕获剂640的亲和标记接触。亲和标记620的裂解可促进从固体支持物655中洗脱660靶核酸630。靶核酸630随后准备用于进一步下游分析法，如测序。

方法

本公开提供了核酸酶免疫沉淀和测序(NIP-Seq)方法。在一些实施方案中，该方法可包括a)使核酸样品与包含无酶活性的定点多肽、定点多肽和以核酸为靶的核酸的复合体接触。该复合体可以与靶核酸杂交。可以用捕获剂捕获该复合体，并可以将结合到该复合体上的靶核酸测序。在一些实施方案中，该方法可进一步包括确定脱靶结合位点的特性(identity)。可以使用如本文所述的定点多肽、以核酸为靶的核酸以及定点多肽与以核酸为靶的核酸的复合体的任一种进行该方法。

该方法可以在细胞外进行。例如，样品可包含纯化基因组DNA、细胞裂解液、匀浆组织、血浆等。该方法可以在细胞内进行。

该定点多肽-靶核酸复合体可以固定或交联以形成复合体。该细胞可以在溶解前交联。固定或交联的细胞可以稳定该细胞中的蛋白质-DNA复合体。合适的固定剂和交联剂可包括甲醛、戊二醛、乙醇基固定剂、甲醇基固定剂、丙酮、乙酸、四氧化锇、重铬酸钾、铬酸、高锰酸钾、汞制剂、苦味酸盐、福尔马林、低聚甲醛、胺反应性NHS-酯交联剂，如双[磺基琥珀酰亚胺基]辛二酸酯(BS3)、3,3′-二硫代双[磺基琥珀酰亚胺基丙酸酯](DTSSP)、乙二醇双[磺基琥珀酰亚胺基琥珀酸酯(磺基-EGS)、二琥珀酰亚胺基戊二酸酯(DSG)、二硫代双[琥珀酰亚胺基丙酸酯](DSP)、双琥珀酰亚胺辛二酸酯(DSS)、乙二醇双[琥珀酰亚胺基琥珀酸酯](EGS)、NHS-酯/双吖丙啶交联剂，如NHS-双吖丙啶、NHS-LC-双吖丙啶、NHS-SS-双吖丙啶、磺基-NHS-双吖丙啶、磺基-NHS-LC-双吖丙啶和磺基-NHS-SS-双吖丙啶。

在亲和纯化之前可以处理该核酸(例如基因组DNA)以将DNA片段化。可通过物理、机械或酶法进行片段化。物理片段化可包括使靶多核苷酸暴露在热或紫外线(UV)下。机械破碎可用于将靶多核苷酸机械剪切成所需范围的片段。可通过本领域中已知的许多方法，包括靶多核苷酸的反复移液、超声处理和雾化实现机械剪切。靶多核苷酸也可以使用酶法片段化。在一些情况中，可以使用酶，如使用限制酶进行酶消化。可以使用限制酶进行靶多核苷酸的特异性或非特异性片段化。该方法可以使用一种或多种类型的限制酶，通常被描述为I型酶、II型酶和/或III型酶。II型和III型酶通常可购得并且是本领域中公知的。II型和III型酶识别双链多核苷酸序列内的核苷酸的特定序列(“识别序列”或“识别位点”)。在结合和识别这些序列后，II型和III型酶裂解该多核苷酸序列。在一些情况中，裂解会产生具有一部分悬挂的单链DNA的多核苷酸片段，被称作“粘性末端”。在另一些情况中，裂解不产生具有悬垂的片段，而产生“平端”。该方法可包括使用生成粘性末端或平端的限制酶。也可以通过扩增技术(例如聚合酶链式反应、远程聚合酶链式反应、线性聚合酶链式反应等)生成核酸片段。

一经片段化，可以通过用固体支持物孵育纯化包含定点多肽的复合体。例如，如果该定点多肽包含生物素标记，该固体支持物可以用亲和素或链霉亲和素涂布以结合到该生物素标记上。

在一些实施方案中，一经片段化，通过用捕获剂孵育，纯化包含定点多肽、靶核酸和/或以核酸为靶的核酸的复合体。捕获剂可以是指可结合到与定点多肽融合的亲和标记上的任何试剂。示例性捕获剂可包括生物素、链霉亲和素和抗体。例如，如果融合到定点多肽上的亲和标记是FLAG标记，则该捕获剂是抗-FLAG-标记抗体。在一些实施方案中，该捕获剂可包含亲和标记(例如生物素、链霉亲和素)。

在一些情况中，该捕获剂是无酶活性的核糖核酸内切酶。例如，捕获剂可以是无酶活性的定点多肽、无酶活性的Csy4、Cas5或Cas6。

该捕获剂可以用固体支持物纯化。例如，如果该捕获剂包含生物素标记，该珠子可以用亲和素或链霉亲和素涂布以结合该生物素化捕获剂。

在该方法的一些实施方案中，可以进行两轮或更多轮纯化。可以进行至少1、2、3、4、5、6、7或更多轮纯化。可以进行最多1、2、3、4、5、6、7或更多轮纯化。第一轮纯化可包括用可与捕获剂的亲和标记结合的固体支持物纯化，第二轮纯化可包括用可与定点多肽的亲和标记结合的固体支持物纯化。第一轮纯化可包括用可与定点多肽的亲和标记结合的固体支持物纯化，第二轮纯化可包括用会与与捕获剂的亲和标记结合的固体支持物纯化。该方法可用于通过进行该方法多于一次来优化定点多肽的结合特异性。

捕获的复合体可包含定点多肽和靶核酸。可通过如高盐洗涤、乙醇沉淀、沸腾和凝胶纯化之类的方法从定点多肽复合体中洗脱该靶核酸。

洗脱的DNA可以经准备以供测序分析(例如剪切、连接连接物)。测序分析的准备可包括生成洗脱的靶核酸的测序库。测序分析可以确定定点多肽的脱靶结合位点的特性(identity)和频率。也使用以固有并行的方式测定许多(通常数千至数十亿)核酸序列的方法进行序列确定，其中优选使用高通量串行法并行读出许多序列。这样的方法包括但不限于焦磷酸测序(例如，如454Life Sciences,Inc.,Branford,Conn.商业化)；通过连接测序(例如，如在SOLiD^TM技术中商业化,Life Technology,Inc.,Carlsbad,Calif.)；通过用修饰核苷酸合成测序(如在Illumina,Inc.,San Diego,Calif.的TruSeq^TM和HiSeq^TM技术、Helicos Biosciences Corporation,Cambridge,Mass.的HeliScope^TM和PacificBiosciences of California,Inc.,Menlo Park,Calif.的PacBio RS中商业化)、通过离子检测技术测序(Ion Torrent,Inc.,South San Francisco,Calif.)；DNA纳米球的测序(Complete Genomics,Inc.,Mountain View,Calif.)；纳米孔基测序技术(例如，如OxfordNanopore Technologies,LTD,Oxford,UK开发)和其它已知的高度并行化测序法。

在一些实施方案中，所述方法进一步包括收集数据和存储数据。该数据是可机读的并可以存储和/或收集在计算机服务器中(例如图31和实施例27)。

检测核酸中的序列变体的方法

一般概述

在一些实施方案中，本公开的方法提供检测核酸中的序列变体。可以使用如本文所述的定点多肽、以核酸为靶的核酸以及定点多肽和以核酸为靶的核酸的复合体的任一种实施该方法。如图7中所示，核酸样品705可以与核酸标记710连接720。该核酸标记可以是单导向RNA。该核酸标记可包含crRNA。该核酸标记可包含可检测标签715。连接到核酸标记710上的核酸样品705可以一起被称作标记的试样721。可以使标记的试样721与包含固定化寡核苷酸735的阵列740接触725。固定化寡核苷酸735可被称作核酸库。寡核苷酸735可以是双链DNA。寡核苷酸735可包含可检测标签730。标记的试样721的各成员可以杂交745到与它们共享足够的互补性以利于杂交的寡核苷酸735上。可通过比较这两种可检测标签715和730的强度定量杂交量。例如，杂交的寡核苷酸可展示两种可检测标签。未杂交的寡核苷酸可展示一种可检测标签730。可以使杂交样品与定点多肽750接触。定点多肽可以裂解755阵列740中的已与标记的试样721的成员杂交的寡核苷酸735。被定点多肽裂解能够除去标记的试样721的杂交成员。在被定点多肽750裂解后，只有未杂交的寡核苷酸可检测标签760留在该阵列上。可以定量残留可检测标签760。残留可检测标签760的定量可以与在核酸样品705中呈现哪些序列和没有呈现哪些序列相关联。没有展示出残留可检测标签760的寡核苷酸相当于核酸样品705中呈现的序列。展示出残留可检测标签760的寡核苷酸相当于核酸样品705中没有呈现的序列。

在一些实施方案中，核酸样品805可以与核酸标记810连接820。该核酸标记可以是单导向RNA。该核酸标记可包含crRNA。该核酸标记可包含可检测标签815。连接到核酸标记上的核酸样品可以一起被称作标记的试样821。可以使标记的试样821与包含固定化寡核苷酸835的阵列840接触825。该固定化寡核苷酸可被称作核酸库。寡核苷酸835可以是双链DNA。标记的试样821的各成员可以杂交845到与它们共享足够的互补性以利于杂交的寡核苷酸835上。可以使杂交样品与定点多肽850接触。定点多肽可以裂解855阵列840中的已与标记的试样821的成员杂交的寡核苷酸835。被定点多肽850裂解能够除去标记的试样821的杂交成员。被定点多肽850裂解能够裂解和从阵列860中分离一部分固定化寡核苷酸。分离的裂解的寡核苷酸860可以连接865到适用于测序的连接物870上。裂解的寡核苷酸860的测序可以确定核酸样品805中呈现的序列。

在一些实施方案中，可以使用市售高通量测序平台生成用于测序分析的核酸库。该库可包含可含有一个或多个测序标记930和靶序列945的核酸。靶序列945可以是核酸样品905中可呈现的序列。靶序列945可包含前间区序列邻近基序(PAM)序列。任选地，核酸库中的核酸可包含一个或多个识别多核苷酸序列935和一个或多个延伸序列940。在这一实施方案中，核酸样品905可以与核酸标记910连接920。该核酸标记可以是单导向RNA。该核酸标记可包含crRNA。任选地，该核酸标记可包含亲和标记915。连接到核酸标记上的核酸样品可以一起被称作标记的试样921。可以使标记的试样921与核酸库接触925。标记的试样921可杂交到该核酸库中的核酸上，以形成复合体946。可以使杂交的标记试样和核酸库与定点多肽950接触。定点多肽950可以裂解杂交的核酸库成员。可以将裂解的核酸库成员965与未裂解的成员分离。可以对未裂解的成员施以测序分析。测序分析可以确定在核酸样品905中呈现哪些序列。例如，未裂解的成员的序列可相当于在核酸样品905中未呈现的序列。可以从核酸库中的已知序列中移除这些序列。所得序列可以是核酸库的裂解成员965的序列，其相当于在核酸样品905中呈现的序列。

定点多肽950可包含亲和标记955。任选地，定点多肽950可以是定点多肽的无酶活性的变体。在一些实施方案中，可以使无酶活性的定点多肽与杂交核酸库(例如复合体946)接触。定点多肽可以结合但无法裂解杂交的核酸库成员。该定点多肽可以用可结合到亲和标记955上的捕获剂975进行亲和纯化970。任选地，复合体946可以用可结合到亲和标记915上的捕获剂进行亲和纯化。可以对亲和纯化的核酸库成员施以测序分析。在这一实施方案中，测序的核酸库成员可相当于在核酸样品905中呈现的序列。

测序

检测序列变体的方法可包括变体测序。可以使用以固有并行的方式确定许多(通常数千至数十亿)核酸序列的方法进行序列确定，其中优选使用高通量串行法并行读出许多序列。这样的方法包括但不限于焦磷酸测序(例如，如454Life Sciences,Inc.,Branford,Conn.商业化)；通过连接测序(例如，如在SOLiD^TM技术中商业化,Life Technology,Inc.,Carlsbad,Calif.)；通过用修饰核苷酸合成测序(如在Illumina,Inc.,San Diego,Calif.的TruSeq^TM和HiSeq^TM技术、Helicos Biosciences Corporation,Cambridge,Mass.的HeliScope^TM和Pacific Biosciences of California,Inc.,Menlo Park,Calif.的PacBioRS中商业化)、通过离子检测技术测序(Ion Torrent,Inc.,South San Francisco,Calif.)；DNA纳米球的测序(Complete Genomics,Inc.,Mountain View,Calif.)；纳米孔基测序技术(例如，如Oxford Nanopore Technologies,LTD,Oxford,UK开发)、毛细管测序(例如，如Molecular Dynamics在MegaBACE中商业化)、电子测序、单分子测序(例如，如PacificBiosciences,Menlo Park,Calif.在SMRT^TM技术中商业化)、微滴微流控测序、通过杂交测序(如Affymetrix,Santa Clara,Calif商业化)、硫酸氢盐测序和其它已知的高度并行测序法。

实时PCR

检测序列变体的方法可包括使用实时PCR检测变体。可通过实时聚合酶链式反应(RT-PCR，也称作定量-PCR(QPCR))进行序列确定，其可检测样品中存在的可扩增核酸的量。QPCR是基于聚合酶链式反应的技术并可用于扩增和同时定量靶核酸。QPCR能够检测和定量靶核酸样品中的特定序列。该程序可遵循聚合酶链式反应的一般原理，额外的特征在于，扩增的靶核酸可以在各扩增循环后实时积聚在该反应中时定量。两种定量方法可以是：(1)使用与双链靶核酸嵌合的荧光染料，和(2)在与互补靶核酸杂交时发荧光的修饰DNA寡核苷酸探针。在第一种方法中，结合靶核酸的染料可以在PCR中结合到所有双链(ds)核酸上，以使染料产生荧光。PCR过程中的核酸产物增加因此可以使荧光强度增加并可以在各循环中测量，由此定量核酸浓度。可以与标准PCR反应类似地准备该反应，同时添加荧光(ds)核酸染料。该反应可以在热循环仪中运行，并在各循环后，可以用检测器测量荧光水平；该染料只有在结合到(ds)核酸(即PCR产物)上时才发荧光。参照标准稀释液，可以确定PCR中的(ds)核酸浓度。所得值不能有与其相关的绝对单位。测量的DNA/RNA样品与标准稀释液的比较可产生该样品相对于标样的分数或比率，以实现不同组织或实验条件之间的相对比较。为确保定量的准确度，可以将靶基因的表达标准化成稳定表达的基因。这可以在样品间校正核酸量或品质的可能的差异。第二种方法可以使用序列特异性的RNA或DNA基探针仅定量含探针序列的核酸；因此，报告探针的使用可提高特异性并甚至可以在一些非特异性核酸扩增的存在下定量。这允许多重测定(即在相同反应中使用具有不同颜色标签的特异性探针测定若干基因)，只要所有基因以类似的效率扩增。这种方法可以用在探针的一端具有荧光报告分子(例如6-羧基荧光素)和在探针的相对端具有荧光猝灭剂(例如6-羧基-四甲基罗丹明)的核酸基探针进行。报告分子与猝灭剂的邻近可防止检测到其荧光。通过聚合酶(例如Taq聚合酶)的5'至3'外切核酸酶活性切断该探针可破坏报告分子-猝灭剂的邻近性并由此可未猝灭地发射出荧光，这可以被检出。报告探针在各PCR循环靶向的产物的增加导致归因于探针断裂和报告分子释放的荧光成比例地增加。

可以与标准PCR反应类似地准备该反应，并可以添加报告探针。随着反应开始，在PCR的退火阶段的过程中，探针和引物都退火到靶核酸上。可以由引物引发新DNA链的聚合，一旦聚合酶到达探针，其5’-3’-外切核酸酶可以使探针降解，将荧光报告分子与猝灭剂物理分离，以使荧光增加。可以在实时PCR热循环仪中检测和测量荧光，并且荧光的几何增长可对应于在各反应中用于测定阈值循环的产物的指数增长。可通过在对数标度上对循环数与荧光绘图来确定在该反应的指数期间存在的DNA的相对浓度(因此指数递增量可产生直线)。可以确定检测背景之上的荧光的阈值。来自样品的荧光与阈值交叉的循环被称作循环阈值Ct。由于DNA量在指数期间在每次循环时翻倍，可以计算DNA的相对量(例如具有比另一个早3个循环的Ct的样品比多23＝8倍的模板)。可通过将该结果与由已知量的核酸的连续稀释液(例如未稀释、1:4、1:16、1:64)的实时PCR生成的标准曲线相比较来确定核酸(例如RNA或DNA)量。该QPCR反应可涉及利用荧光共振能量转移(FRET)的双荧光团法(例如LIGHTCYCLER杂交探针，其中两个寡核苷酸探针可退火到扩增子上)。可以将该寡核苷酸设计成以头尾相连的取向与荧光团(其相距与有效能量转移相容的距离)杂交。结构化以在结合到核酸上或并入延伸产物中时发射信号的标记寡核苷酸的其它实例包括：SCORPIONS探针、Sunrise(或AMPLIFLOUR)引物，和LUX引物和MOLECULAR BEACONS探针。该QPCR反应可以使用荧光Taqman法和能够实时测量荧光的仪器(例如ABI Prism 7700序列检测器)。该Taqman反应可以使用以两种不同的荧光染料标记的杂交探针。一种染料可以是报告染料(6-羧基荧光素)，另一种可以是猝灭染料(6-羧基-四甲基罗丹明)。当该探针完整时，可发生荧光能量转移且报告染料的荧光发射可以被猝灭染料吸收。在PCR循环的延伸期间，可通过DNA聚合酶的5’-3’溶核活性裂解荧光杂交探针。在探针裂解后，报告染料发射不再有效转移至猝灭染料，以致报告染料荧光发射谱增加。任何核酸定量方法，包括实时法或单点检测法，可用于定量样品中的核酸量。可以用几种不同方法进行检测(例如染色、与标记探针杂交；并入生物素化引物、接着检测亲和素-酶缀合物；将32P标记的三磷酸脱氧核苷酸，如dCTP或dATP并入扩增片段中。该定量可以包括或不包括扩增步骤。该定量可以不是实验性的。

微阵列

检测序列变体的方法可包括使用微阵列测序和/或检测变体。微阵列可用于确定核酸样品中的多种基因的表达水平。微阵列可用于确定核酸样品中的多种序列的序列同一性。

微阵列可包含基底。基底可包括，但不限于，玻璃和改性或功能化玻璃、塑料(包括丙烯酸树脂、聚苯乙烯和苯乙烯与其它材料的共聚物、聚丙烯、聚乙烯、聚丁烯、聚氨酯、Teflon^TM等)、多糖、尼龙或硝化纤维素、树脂、二氧化硅或基于二氧化硅的材料，包括硅和改性硅、碳、金属、无机玻璃和塑料。

微阵列可包含多个多核苷酸探针。微阵列可包含大约1、10、100、1000、5000、10000、20000、30000、40000、50000、60000、70000、80000、90000、100000、110000、120000个或更多探针。

探针可以是至少10、20、30、40、50、60、70、80、90、100、110、120、130、140个核苷酸或更多的长度。

在一些实施方案中，探针可包含特定的一组基因和/或物种的序列信息。探针可以与编码宿主蛋白的核酸序列互补。探针可以与非编码核酸序列互补。探针可以与DNA序列互补。探针可以与RNA序列互补。

可以将探针固定在微阵列上。可以通过在固体基底上直接合成(例如光刻法合成)多核苷酸或通过将预先合成的多核苷酸固定(点样(spotting))在固体基底的预定区域上来实现多核苷酸在固体基底上的固定化。可通过用亲核官能团(例如氨基)活化固体基底的表面、将用良好离去基活化的生物分子(例如多核苷酸)偶联到该表面活化的固体基底上并除去未反应的反应物来将多核苷酸固定在微阵列基底上。可以将探针固定到珠子上，再通过共价或离子连接进一步缀合到固体支持物上。可以使用具有低电导率和低熔融温度的特定薄膜，即金膜将探针固定到基底上。施加的电磁辐射可以在入射位点熔融和烧蚀该薄膜。该薄膜可以与胶态分散体接触并在熔融后在反应位点生成对流，由此导致该分散体中的不可溶粒子附着到特异性熔融的位点上。

微阵列可通过将特性不明的核酸样品与参考样品比较来分析包含特性不明的核酸的核酸样品(例如试样)。可以由DNA(例如分离的DNA、基因组DNA、染色体外DNA)制备核酸样品。可以由RNA制备核酸样品。RNA可以用基因特异性引物或通用引物逆转录为DNA。逆转录的DNA(例如cDNA)可以用RNA酶或碱(例如NaOH)处理以水解RNA。可以借助N-羟基琥珀酰亚胺化学或类似的标记化学用染料(例如Cy3、Cy5)标记该cDNA。合适的荧光染料可包括各种商业染料和染料衍生物，如标作Alexa、荧光素、罗丹明、FAM、TAMRA、Joe、ROX、得克萨斯红、BODIPY、FITC、俄勒冈绿、Lissamine和其它的那些。参考样品可以用与试样不同的染料标记。

可以将试样和参考样品施加到微阵列上以同时接触多个点。可以在允许核酸样品中的核酸结合到微阵列上的补体探针上的杂交条件下将该试样和参考样品施加到微阵列上。可以用该微阵列中的结合分子进行各种反应步骤，包括使结合的反应物分子暴露在洗涤步骤下。可以在微阵列内的各点(例如探针)监测该反应的进程或结果以表征固定在芯片上的核酸样品。微阵列分析通常可需要数分钟至数小时的孵育期。该孵育期的持续时间依赖于分析法并取决于各种因素，如反应物的类型、混合程度、样品体积、靶拷贝数和该阵列的密度。在该孵育期间，核酸样品中的核酸可以与微阵列探针密切接触。

可以使用具有激光激发和光电倍增管检测的共焦扫描仪器，如GSI Lumonics(Bellerica,MA)提供的ScanArray 3000进行检测。共焦和非共焦荧光检测系统可用于实施该方法，如Axon Instruments(Foster City,CA)、Genetic MicroSystems(Santa Clara,CA)、Molecular Dynamics(Sunnyvale,CA)和Virtek(Woburn,MA)提供的那些。另一些检测系统可包括使用气体的扫描系统、二极管和固态激光器以及使用各种其它类型的光源，如氙气灯泡和卤素灯泡的那些。除光电倍增管外，检测器可包括使用电荷耦合器件(CCD)和互补金属氧化物硅(CMOS)芯片的照相机。

可以对各探针比较来自试样和参考样品的两种染料的强度比。从给定的微阵列点检测到的信号的强度与样品中的核酸在给定点(例如，点包含探针)与探针的杂交程度可成正比。杂交的微阵列的荧光强度的分析包括点分割(spot segmentation)、背景测定(和可能的减除)、坏点的消除、接着标准化以校正任何残余噪声的方法。标准化技术可包括对所有点或某一子集的点(如管家基因)的全面标准化、prelog位移以获得更好的基线匹配，或在两个(或更多个)通道杂交的情况下找出有助于给出以M＝0为中心的M vs.A曲线和/或有助于给出以具有最小跨度(spread)的对角线为中心的log(红色)vs.log(绿色)曲线的最佳拟合。M vs.A曲线也可被称作R vs.I曲线，其中R是比率，如R＝log₂(红色/绿色)，且I是强度，如I＝log V红色*绿色。定标(Scaling)、位移(shifting)、通过散布图最佳拟合等可以是用于将微阵列数据集标准化和为后续分析提供更好的基础的技术。这些标准化方法大多在其后可具有一些基本假设(如“研究内的大多数基因变化不大”)。

标记核酸和使用方法

一般概述

本公开提供如本文所述的标记的以核酸为靶的核酸的试剂盒、方法和组合物。图10描绘本公开的以核酸为靶的核酸1005的一个示例性实施方案。以核酸为靶的核酸可包含一个或多个非天然序列(例如标记)1010/1015。以核酸为靶的核酸可以在所述以核酸为靶的核酸的3’端、5’端，或在3’端和5’端包含非天然序列1010/1015。

在一些情况中，以核酸为靶的核酸可以是如本文所述的以核酸为靶的核酸，并包含一个或多个非天然序列，如在所述以核酸为靶的核酸的3’端、5’端，或在3’端和5’端。

在一些情况中，所述以核酸为靶的核酸是如本文所述并如图11中所绘的以核酸为靶的双导向核酸。以核酸为靶的双导向核酸可包含两个核酸分子1101/1110。以核酸为靶的双导向核酸可包含多个非天然序列1115/1120/1125/1130。该非天然序列可位于所述以核酸为靶的核酸的各分子的3’末端、5’末端，或3’末端和5’末端。例如，该非天然序列可位于第一核酸分子1105的3’末端、5’末端，或在3’末端和5’末端。该非天然序列可位于第二分子1110的3’末端、5’末端，或在3’末端和5’末端。以核酸为靶的核酸可包含一个或多个呈图11中的任何列举构造的非天然序列。

本公开提供标记的以核酸为靶的核酸的使用方法。可以使用如本文所述的定点多肽、以核酸为靶的核酸以及定点多肽和以核酸为靶的核酸的复合体的任一种实施该方法。在一些情况中，可以使多个标记的以核酸为靶的核酸与多个靶核酸接触。图12描绘标记的以核酸为靶的核酸的一种示例性使用方法。标记的以核酸为靶的核酸可包含可与靶核酸1205杂交的间隔区1210。以核酸为靶的核酸可包含非天然序列(例如标记)1220。非天然序列1220可以是RNA-结合蛋白结合序列。在一些情况中，非天然序列1220可以是CRISPR RNA-结合蛋白结合序列。非天然序列1220可以被RNA-结合蛋白1215结合。RNA-结合蛋白1215可包含非天然序列1225(例如融合体，即RNA-结合蛋白1215可以是融合多肽)。非天然序列(例如融合体)1225可改变靶核酸和/或外源性核酸的转录。非天然序列(例如融合体)1225可包含分离体系的第一部分。

在一些实施方案中，包含可与第二靶核酸1245杂交的第二间隔区1240的第二以核酸为靶的核酸可包含第二非天然序列(例如标记)1250。第二非天然序列(例如标记)1250可以是RNA-结合蛋白结合序列。第二非天然序列(例如标记)1250可以是CRISPR RNA-结合蛋白结合序列。第二非天然序列1250可以被RNA-结合蛋白1235结合。RNA-结合蛋白可包含非天然序列1230(例如融合体，即RNA-结合蛋白1235可以是融合体)。非天然序列1230(例如融合体)可以是分离体系的第二部分。

在一些情况中，分离体系的第一部分1225和分离体系的第二部分1230可以在空间上并在一起，以使分离体系的第一部分1225和分离体系的第二部分1230相互作用1255以形成活性分离体系1260。活性分离体系1260可以是指未分离体系，其中第一部分和第二部分形成分离体系的整体。该分离体系的活化可表明两个靶核酸1205/1245在空间上并在一起。

方法

本公开提供使靶核酸与包含定点多肽和以核酸为靶的核酸的复合体接触和引入一个或多个效应蛋白的方法，其中所述一个或多个效应蛋白包含非天然序列并可结合到修饰的以核酸为靶的核酸上。效应蛋白可以是指任何具有功能作用的蛋白质。例如，效应蛋白可包含酶活性、重塑生物分子(例如折叠伴侣)、作为支架蛋白和/或结合小分子或代谢物。该效应蛋白可以修饰靶核酸(例如裂解、酶法修饰、转录修饰)。本公开的方法提供使用本公开的组合物作为生物传感器。例如，该复合体(例如包含修饰的以核酸为靶的核酸、定点多肽和/或效应蛋白)可用于监测遗传移动事件、感测序列何时在三维空间中并在一起和有条件地改变转录。

遗传移动事件

本公开提供确定遗传移动事件的发生的方法。可以使用如本文所述的定点多肽、以核酸为靶的核酸以及定点多肽和以核酸为靶的核酸的复合体的任一种实施该方法。遗传移动事件可包括例如易位、重组、整合、转座、水平基因转移事件、转化、转导、缀合、基因转换事件、复制、易位、倒位、缺失、置换或它们的任何组合。

遗传移动事件可包含基因之间的重组。该重组可产生有害基因产物(例如造成乳腺癌的BCR-ABL重组)。重组可包括例如同源重组、非同源重组(例如非同源末端连接)和V(D)J重组。重组可以是指染色体交换。重组可以在减数分裂的前期I(例如联会)过程中发生。重组可包含DNA的核酸链的双链断裂，接着通过可催化DNA链交换的重组酶形成holliday交叉。

遗传移动事件可造成疾病。例如，慢性粒细胞性白血病可由遗传移动事件造成。染色体9和22之间的易位可产生融合BCR-Abl1基因，这会使一个染色体(例如9)变长和另一染色体(例如22，即费城染色体)变短。BCR-Abl1易位会导致生成BCR-Abl融合蛋白，其可以与受体(例如白细胞介素-3受体)相互作用以促进细胞分裂，引起慢性粒细胞性白血病(CML)。其它非限制性的示例性遗传移动事件包括BRD3-NUT、BRD4-NUT、KIAA1549-BRAF、FIG/GOPC-ROS1、ETV6-NTRK3、BCAS4-BCAS3、TBL1XR1-RGS17、ODZ4-NRG1、MALAT1-TFEB、APSCR1-TFE3、PRCC-TFE3、CLTC-TFE3、NONO-TFE3、SFPQ-TFE3、ETV6-NRTK3、EML4-ALK、EWSR1-ATF1、MN1-ETV6、CTNNB1-PLAG1、LIFR-PLAG1、TCEA1-PLAG1、FGFr1-PLAG1、CHCHD7-PLAG1、HMGA2-FHIT、HMGA-NFIB、CRTC1-MAMl2、CRCT3-MAML2、EWSR1-POUF5F1、TMPRSS1-ERG、TMPRSS2-ETV4、TMPRSS2-ETV5、HNRNPA2B1-ETV1、HERV-K-ETV1、C15ORF21-ETV1、SLC45A3-ETV1、SLC45A3-ETV5、SLC45A3-ELK4、KLK2-ETV4、CANT1-ETV4、RET-PTC1/CCDC6、RET-PTC2/PRKAR1A、RET-PTC3,4/NCOA4、RET-PTC5/GOLGA5、RET-PTC6/TRIM24、RET-PTC7/TRIM33、RET-PTC8/KTN1、RET-PTC9/RFG9、RET-PTCM1、TFG-NTRK1、TPM3-NRTK1、TPR-NRTK1、RET-D10S170、ELKS-RET、HOOKS3-RET、RFP-RET、AKAP9-BRAF和PAX8-PPARG。

可由遗传移动事件造成的疾病可包括1A型腓骨肌萎缩症(CMT1A)、青少年慢性肾小球间质肾炎(juvenile nephronophtisis)(NPH)、X-连锁鱼鳞病、1A型家族性生长激素缺乏症、面肩肱型肌营养不良(FSHD)、α-地中海贫血、血友病A、亨特综合征(即粘多糖贮积症II)、埃-德二氏肌营养不良、Lepore血红蛋白、类固醇21-羟化酶缺乏症、糖皮质激素可抑制性醛固酮增多症(GSH)、色盲(例如二色性色盲)、常染色体隐性脊髓性肌萎缩(SMA)、癌症、T-细胞急性淋巴细胞白血病(T-ALL)、侵袭性中线癌、星形细胞瘤、分泌型乳腺癌、乳腺癌、肾癌、中胚叶肾瘤、肺腺癌、黑素瘤、脑膜瘤、多形性腺瘤、粘液表皮样癌、前列腺癌、甲状腺癌和急性早幼粒细胞白血病。

本公开的方法用于确定遗传移动事件的发生，其中可以使靶核酸与两种复合体接触，各复合体包含定点多肽和修饰的以核酸为靶的核酸，并可以引入两个或更多个效应蛋白，其中这两个或更多个效应蛋白可结合到所述修饰的以核酸为靶的核酸上，其中这两个或更多个效应蛋白之一包含作为分离体系的第一部分的非天然序列，且这两个或更多个效应蛋白之一包含作为分离体系的第二部分的非天然序列。分离体系可以是指由两个或更多个独立时无荧光但在形成复合体时产生功能(即发荧光的)荧光蛋白质复合体的蛋白质片段构成的蛋白质复合体。分离体系(例如分离荧光蛋白)的各蛋白质片段可以被称作“补充片段”或“互补片段”。可自发组装成功能荧光蛋白质复合体的补充片段被称作自补、自组装或自发结合的补充片段。例如，分离体系可包含GFP。在GFP分离体系中，互补片段源自GFP的三维结构，其包括十一个反平行外β链和一个内α链。第一片段可包含GFP分子的这十一个β链之一(例如GFP S11)，且第二片段可包含其余链(例如GFP S1-10)。

在遗传移动事件之前，一种复合体可靶向的靶核酸序列可以远离另一序列可靶向的靶核酸序列。这两个靶核酸序列之间的距离可包含至少大约0.1、0.5、1、2、3、4、5、6、7、8、9、10或更大的Kb。这两个靶核酸序列之间的距离可包含最多大约0.1、0.5、1、2、3、4、5、6、7、8、9、10或更大的Kb。这两个靶核酸序列可位于不同的染色体上。这两个靶核酸序列可位于相同的染色体上。

在遗传移动事件之前，包含分离体系的片段的效应蛋白可能不能彼此相互作用(例如该分离体系可以无活性)。在遗传移动事件后，一种复合体可靶向的靶核酸序列可以靠近另一复合体可靶向的靶核酸序列。在遗传移动事件后，包含分离体系的片段的效应蛋白可能能够彼此相互作用，由此活化该分离体系。

活化的分离体系可指示遗传移动事件的发生。例如，如果活化的分离体系是荧光蛋白分离体系，则在遗传移动事件之前，在样品中可能无法检测到荧光。在一些情况中，无活性分离体系的荧光水平(例如背景水平)可能比不含该分离体系的对照样品(例如细胞)低0.01、0.05、0.1、0.5、1、1.5、2、2.5、3、3.5或更多倍。在一些情况中，无活性分离体系的荧光水平(例如背景水平)可能比不含该分离体系的对照样品(例如细胞)高0.01、0.05、0.1、0.5、1、1.5、2、2.5、3、3.5或更多倍。

在遗传移动事件后，这两个分离片段可合并形成活性荧光蛋白并可以在样品中检测到荧光。活性分离体系可以使得荧光提高至少大约0.1、0.5、1、2、3、4、5、6、7、8、9、10或更多倍。活性分离体系可以使得荧光提高最多大约0.1、0.5、1、2、3、4、5、6、7、8、9、10或更多倍。

遗传移动性的检测可用于确定对象(例如患者)的基因型。基因型可以指示疾病。遗传移动事件的检测可用于诊断患者。可以向对象传达由本文所述的方法获得的遗传和诊断信息。由本文所述的方法获得的遗传和诊断信息可用于开发对象特异性的治疗方案。例如，如果由本公开的方法获得的数据表明患者具有使他们对特定治疗方案耐药的基因型，可以为该对象作出新的治疗方案。

改变转录

本公开的方法可用于改变核酸的转录。可以使用如本文所述的定点多肽、以核酸为靶的核酸以及定点多肽和以核酸为靶的核酸的复合体的任一种实施该方法。该方法提供使靶核酸与两种复合体接触，各复合体包含定点多肽和修饰的以核酸为靶的核酸，并引入两个或更多个效应蛋白，其中这两个或更多个效应蛋白可结合到所述修饰的以核酸为靶的核酸上，其中这两个或更多个效应蛋白之一包含作为分离转录因子体系的第一部分的非天然序列，且这两个或更多个效应蛋白之一包含作为分离转录因子体系的第二部分的非天然序列，且其中该分离体系的第一部分和第二部分之间的相互作用形成改变核酸的转录的转录因子。

该转录因子可改变核酸和/或靶核酸的转录水平。改变的转录可包括提高的转录水平和/或降低的转录水平。转录因子可改变转录水平以比未改变的转录水平高或低大于2倍、3倍、5倍、10倍、50倍、100倍、1000倍或更多。转录因子可改变转录水平以比未改变的转录水平高或低小于2倍、3倍、5倍、10倍、50倍、100倍、1000倍或更多。

该转录因子可以改变靶核酸和/或外源性核酸的转录。靶核酸可以是与包含定点多肽和以核酸为靶的核酸的复合体接触的核酸。外源性核酸可包含供体多核苷酸、质粒和/或靶核酸。

外源性核酸可包含编码细胞凋亡中涉及的基因的多核苷酸。细胞凋亡中涉及的合适的基因可包括肿瘤坏死因子(TNF)、TNF-R1、TNF-R2、TNF受体相关死亡结构域(TRADD)、Fas受体和Fas配体、半胱天冬酶(例如半胱天冬酶-3、半胱天冬酶-8、半胱天冬酶-10)、APAF-1、FADD和细胞凋亡诱导因子(AIF)。外源性核酸可包含编码造成细胞溶解的基因的多核苷酸。合适的基因可包括腺病毒死亡蛋白(ADP)、防御素、衍生自c-FLIP的透膜裂解肽、凋亡蛋白酶前体(procaspase)、细胞穿透肽，例如HIV TAT。外源性核酸可包含编码可导致将免疫细胞募集到细胞位置的抗原(例如MHC类肽)的多核苷酸。外源性核酸可包含编码以核酸为靶的核酸的多核苷酸，所述以核酸为靶的核酸靶向基因组内多次出现的序列(例如微卫星、串联重复序列)以造成大规模基因组片段化和细胞死亡。

靶核酸的修饰

本公开提供使用本公开的以核酸为靶的核酸修饰靶核酸的方法。可以使用如本文所述的定点多肽、以核酸为靶的核酸以及定点多肽和以核酸为靶的核酸的复合体的任一种实施该方法。例如，可以使靶核酸与包含定点多肽、以核酸为靶的核酸和一个或多个效应蛋白的复合体接触，其中所述一个或多个效应蛋包含非天然序列并可结合到所述修饰的以核酸为靶的核酸上。该非天然序列可赋予可修饰靶核酸的该效应蛋白的酶活性和/或转录活性。例如，如果该效应蛋白包含相当于甲基转移酶的非天然序列，该甲基转移酶可能能够将靶核酸甲基化。靶核酸的修饰可以距靶核酸的5’或3’端至少1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100或更多个核苷酸发生。靶核酸的修饰可以距靶核酸的5’或3’端最多1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100或更多个核苷酸发生。该修饰可以在不含靶核酸的独立核酸(例如另一染色体)上发生。

示例性的修饰可包括甲基化、去甲基化、乙酰化、脱乙酰、泛素化、去泛素化、脱氨基、烷基化、脱嘌呤、氧化、嘧啶二聚体形成、转座、重组、链延长、连接、糖基化、磷酸化、去磷酸化、腺苷酸化、脱腺苷化、SUMO化、去SUMO化、核糖基化、去核糖基化、豆蔻酰化、重塑、裂解、氧化还原、水解(hydrolation)和异构化。

测定基因型和治疗

本公开提供使用本公开的以核酸为靶的核酸治疗疾病的方法。可以使用如本文所述的定点多肽、以核酸为靶的核酸以及定点多肽和以核酸为靶的核酸的复合体的任一种实施该方法。例如，使用本文所述的分离体系，在空间上并在一起的两个或更多个靶核酸的存在(例如在遗传移动事件中、在染色质结构中或在线性核酸上)可以指示(例如对象)的基因型。基因型可以是指存在或不存在核酸的特定序列、核苷酸多态性(即单核苷酸多态性或多核苷酸多态性)、等位基因变体或核酸序列的任何其它指示。基因型可以指示患者是否患有疾病和/或易患疾病。

确定基因型可包括例如确定对象是否包含突变序列(例如含突变的核酸序列)。在一些情况中，可以设计包含如本文所述的适当组分(以包含分离体系的第一部分)的第一以核酸为靶的核酸以靶向预测突变序列附近的区域。在一些情况中，可以设计包含如本文所述的适当组分(以包含分离体系的第二部分)的第二以核酸为靶的核酸以靶向包含预测突变序列的区域。如果存在突变序列，第二以核酸为靶的核酸可与其结合，且该分离体系的这两个部分可以相互作用。该相互作用可生成指示突变序列的存在的信号。

可通过生物标志物识别基因型。生物标志物可以指示任何生理过程。生物标志物可充当治疗(例如药物治疗)效力的指示。生物标志物可以是核酸、多肽、被分析物、溶质、小分子、离子、原子、对核酸和/或多肽的修饰，和/或降解产物。生物标志物可以是指核酸和/或多肽的相对表达水平。

可以由使用本公开的方法确定对象的基因型来确定对象特异性的治疗方案。例如，如果对象包含已知不响应特定疗法的某一基因型，则可以用不同的疗法治疗该对象。基因型的确定能使对象入选或不入选临床试验。

可以从看护者向对象(例如从医生向患者，或从进行基因型分析的人员向客户)传达基因型的确定。该传达可以当面(例如在医生诊疗室中)、经电话、书面或以电子进行。该传达可以进一步告知该对象由该对象的基因型确定的对象特异性的治疗方案。

可以在对象中实施该方法多于一次(例如迭代)。例如，可以确定对象的基因型，可以为该对象指定疗程，可以再确定该对象的基因型。可以比较这两个基因型以确定该疗程的效力。可以基于基因型的比较改变治疗方案。

三维空间中的序列位置

在一些情况中，本公开提供确定细胞三维空间中的序列位置的方法。可以使用如本文所述的定点多肽、以核酸为靶的核酸以及定点多肽和以核酸为靶的核酸的复合体的任一种实施该方法。确定染色质和核酸的三维组织对理解基因调控，如基因的转录活化和/或阻遏可以是重要的。在一些情况中，该方法包括使靶核酸与两种复合体接触，其中各复合体结合到其关连靶核酸上。该复合体可包含本公开的定点多肽和以核酸为靶的核酸。可以引入两个或更多个效应蛋白，其中这两个或更多个效应蛋白各自结合到复合体上。该效应蛋白可以类似于上述分离体系，其中各效应蛋白可包含完整多肽的无活性片段。当效应蛋白在空间上相距甚远时，效应蛋白无活性(例如没有检测到信号)。当效应蛋白在空间上足够靠近以相互作用时，它们可形成可检出的活性多肽。

该效应蛋白可以是分离亲和标记体系的一部分。在分离亲和标记体系中，该体系的两个无活性的多肽片段可相当于亲和标记的两个无活性的片段。当这两个片段结合在一起时，恢复完整的亲和标记，以使该亲和标记可被结合剂检出。结合剂可以是指可结合并纯化亲和标记的分子。结合剂的实例可包括抗体、抗体缀合珠子和小分子偶联珠子。

可通过病毒或噬菌体感染、转染、缀合、原生质体融合、脂质转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)-介导的转染、DEAE-葡聚糖介导的转染、脂质体-介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米粒子介导的核酸递送等引入本公开的复合体和多肽。

细胞可以用该复合体培养至少1、2、3、4、5、6、7、8、9、10或更多天。细胞可以用该复合体培养最多1、2、3、4、5、6、7、8、9、10或更多天。在一段适当时间(例如允许该复合体结合到它们的靶核酸上的一段时间)后，可以溶解该细胞。

该细胞可以在溶解前交联。固定或交联的细胞可以稳定该细胞中的蛋白-DNA复合体。合适的固定剂和交联剂可包括甲醛、戊二醛、乙醇基固定剂、甲醇基固定剂、丙酮、乙酸、四氧化锇、重铬酸钾、铬酸、高锰酸钾、汞制剂、苦味酸盐、福尔马林、低聚甲醛、胺反应性NHS-酯交联剂，如双[磺基琥珀酰亚胺基]辛二酸酯(BS3)、3,3′-二硫代双[磺基琥珀酰亚胺基丙酸酯](DTSSP)、乙二醇双[磺基琥珀酰亚胺基琥珀酸酯(磺基-EGS)、二琥珀酰亚胺基戊二酸酯(DSG)、二硫代双[琥珀酰亚胺基丙酸酯](DSP)、双琥珀酰亚胺辛二酸酯(DSS)、乙二醇双[琥珀酰亚胺基琥珀酸酯](EGS)、NHS-酯/双吖丙啶交联剂，如NHS-双吖丙啶、NHS-LC-双吖丙啶、NHS-SS-双吖丙啶、磺基-NHS-双吖丙啶、磺基-NHS-LC-双吖丙啶和磺基-NHS-SS-双吖丙啶。

可以使溶解的细胞与旨在与亲和标记结合的结合剂(例如抗体)接触。该接触可以在试管中进行。该接触可以在色谱装置(例如亲和色谱柱)中进行。与结合剂的接触可以进行至少1分钟、5分钟、10分钟、15分钟、20分钟、25分钟、30分钟、1小时、2小时、3小时、4小时、5小时、6小时、7小时、8小时、9小时、10小时、15小时、20小时、25小时、30小时、35小时、40小时、45或更多个小时。与结合剂的接触可以进行最多1分钟、5分钟、10分钟、15分钟、20分钟、25分钟、30分钟、1小时、2小时、3小时、4小时、5小时、6小时、7小时、8小时、9小时、10小时、15小时、20小时、25小时、30小时、35小时、40小时、45或更多个小时。在一些情况中，在细胞溶解之前与结合剂接触。

该复合体可以用结合剂纯化。可以对纯化的复合体施以核酸纯化技术以从该复合体中分离靶核酸。核酸纯化技术可包括旋转柱分离、沉淀和电泳。

可以对该核酸(例如含靶核酸的核酸)施以测序法。可以通过连接一个或多个连接物准备核酸以供测序分析。可以分析定序的核酸以识别多态性、诊断疾病、确定疾病的疗程和/或确定基因组的三维结构。

具有接头的标记的以核酸为靶的核酸

本公开提供生成和使用标记的以核酸为靶的核酸的组合物和方法。图13A描绘了示例性的未标记的以核酸为靶的核酸。未标记的以核酸为靶的核酸可包含前间隔序列(protospacer)(PS)、最小CRISPR重复片段(MCR)、单导向接头(SGC)、最小tracrRNA序列(MtS)、3’tracrRNA序列(3TS)和tracrRNA突出端(TE)。包含接头的标记的以核酸为靶的核酸可以是指本文所述的任何以核酸为靶的核酸并在所述以核酸为靶的核酸的5’端、3’端包含接头。

以核酸为靶的核酸可包含如图13B中所绘的非天然序列。该非天然序列可被称作标记。该标记可以融合到所述以核酸为靶的核酸的5’端、3’端，或5’端和3’端上。该非天然序列可包含RNA-结合蛋白的结合序列。该RNA-结合蛋白可以是Csy4。该非天然序列可以融合到所述以核酸为靶的核酸的前间隔序列上。

该非天然融合体可通过接头与所述以核酸为靶的核酸隔开。图14描绘将非天然序列(例如Csy4发夹结构)与所述以核酸为靶的核酸的前间隔序列隔开的示例性接头(例如Tag接头)。该接头序列可以与靶核酸互补。该接头序列可包含至少1、2、3、4、5、6、7、8、9、10或更多个与靶核酸的错配。该接头序列可包含最多1、2、3、4、5、6、7、8、9、10或更多个与靶核酸的错配。在一些情况中，接头与靶核酸之间的错配越少，Cas9:以核酸为靶的核酸复合体的裂解效率越好。

该接头序列可以是至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60或更多个核苷酸的长度。该接头序列可以是最多1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60或更多个核苷酸的长度。

多重遗传靶向剂

一般概述

本公开描述了用于多重基因组工程的方法、组合物、系统和/或试剂盒。在本公开的一些实施方案中，定点多肽可包含以核酸为靶的核酸，由此形成复合体。可以使该复合体与靶核酸接触。靶核酸可以被该复合体裂解和/或修饰。本公开的方法、组合物、系统和/或试剂盒可用于快速、有效和/或同时修饰多个靶核酸。可以使用如本文所述的定点多肽、以核酸为靶的核酸以及定点多肽和以核酸为靶的核酸的复合体的任一种实施该方法。

图15描绘本公开的方法的一个示例性实施方案。核酸(例如以核酸为靶的核酸)1505可以融合到非天然序列(例如一个部分、核糖核酸内切酶结合序列、核酶)1510上，由此形成核酸模块1512。核酸模块1512(例如包含融合到非天然序列上的核酸)可以串联缀合，由此形成多重遗传靶向剂(例如多模块，例如阵列)1511。多重遗传靶向剂1511可包含RNA。可以使该多重遗传靶向剂与一种或多种核糖核酸内切酶1520接触1515。该核糖核酸内切酶可结合到非天然序列1510上。结合的核糖核酸内切酶可以在由非天然序列1510限定的规定位置裂解多重遗传靶向剂1511的核酸模块1512。裂解1525可加工(例如释放)独立的核酸模块1512。在一些实施方案中，加工后的核酸模块1512可包含所有、一些或不包含非天然序列1510。加工后的核酸模块1512可以被定点多肽1530结合，由此形成复合体1531。可以将复合体1531靶向1535靶核酸1540。靶核酸1540可以被复合体1531裂解和/或修饰。

多重遗传靶向剂

多重遗传靶向剂可用于同时和/或以化学计算量修饰多个靶核酸。多重遗传靶向剂可以是串联的任何如本文所述的以核酸为靶的核酸。多重遗传靶向剂可以是指包含一个或多个核酸模块的连续核酸分子。核酸模块可包含核酸和非天然序列(例如一个部分、核糖核酸内切酶结合序列、核酶)。该核酸可以是非编码RNA，如微RNA(miRNA)、短干扰RNA(siRNA)、长链非编码RNA(lncRNA或lincRNA)、内源性siRNA(endo-siRNA)、piwi相互作用RNA(piRNA)、反式作用短干扰RNA(tasiRNA)、重复关联的小干扰RNA(rasiRNA)、小核仁RNA(snoRNA)、小核RNA(snRNA)、转移RNA(tRNA)和核糖体RNA(rRNA)或它们的任何组合。该核酸可以是编码RNA(例如mRNA)。该核酸可以是任何类型的RNA。在一些实施方案中，该核酸可以是以核酸为靶的核酸。

该非天然序列可位于核酸模块的3’端。该非天然序列可位于核酸模块的5’端。该非天然序列可位于核酸模块的3’端和5’端。该非天然序列可包含可结合到核糖核酸内切酶上的序列(例如核糖核酸内切酶结合序列)。该非天然序列可以是被核糖核酸内切酶序列特异性识别的序列(例如RNA酶T1裂解不成对G碱基，RNA酶T2裂解As的3’端，RNA酶U2裂解不成对A碱基的3’端)。该非天然序列可以是被核糖核酸内切酶结构识别的序列(例如发夹结构、单链-双链接点，例如Drosha识别发夹结构内的单链-双链接点)。该非天然序列可包含可结合到CRISPR系统核糖核酸内切酶上的序列(例如Csy4、Cas5和/或Cas6蛋白)。该非天然序列可包含具有与下列序列之一的至少或最多大约40％、50％、60％、70％、80％、85％、90％、95％、98％、99％或100％核苷酸序列同一性和/或序列相似性的核苷酸序列：

5′-GUUCACUGCCGUAUAGGCAGCUAAGAAA-3'；

5'-GUUGCAAGGGAUUGAGCCCCGUAAGGGGAUUGCGAC-3'；

5'-GUUGCAAACCUCGUUAGCCUCGUAGAGGAUUGAAAC-3'；

5'-GGAUCGAUACCCACCCCGAAGAAAAGGGGACGAGAAC-3'；

5'-GUCGUCAGACCCAAAACCCCGAGAGGGGACGGAAAC-3'；

5'-GAUAUAAACCUAAUUACCUCGAGAGGGGACGGAAAC-3'；

5'-CCCCAGUCACCUCGGGAGGGGACGGAAAC-3'；

5'-GUUCCAAUUAAUCUUAAACCCUAUUAGGGAUUGAAAC-3'.

5'-GUUGCAAGGGAUUGAGCCCCGUAAGGGGAUUGCGAC-3'；

5'-GUUGCAAACCUCGUUAGCCUCGUAGAGGAUUGAAAC-3'；

5'-GGAUCGAUACCCACCCCGAAGAAAAGGGGACGAGAAC-3'；

5'-GUCGUCAGACCCAAAACCCCGAGAGGGGACGGAAAC-3'；

5'-GAUAUAAACCUAAUUACCUCGAGAGGGGACGGAAAC-3'；

5'-CCCCAGUCACCUCGGGAGGGGACGGAAAC-3'；

5'-GUUCCAAUUAAUCUUAAACCCUAUUAGGGAUUGAAAC-3'，

5'-GUCGCCCCCCACGCGGGGGCGUGGAUUGAAAC-3'；

5'-CCAGCCGCCUUCGGGCGGCUGUGUGUUGAAAC-3'；

5'-GUCGCACUCUACAUGAGUGCGUGGAUUGAAAU-3'；

5'-UGUCGCACCUUAUAUAGGUGCGUGGAUUGAAAU-3'；

和5’-GUCGCGCCCCGCAUGGGGCGCGUGGAUUGAAA-3’。

在一些实施方案中，其中该非天然序列包含核糖核酸内切酶结合序列，该核酸模块可以被相同的核糖核酸内切酶结合。该核酸模块可以不含相同的核糖核酸内切酶结合序列。该核酸模块可包含不同的核糖核酸内切酶结合序列。该不同的核糖核酸内切酶结合序列可以被相同的核糖核酸内切酶结合。在一些实施方案中，该核酸模块可以被不同的核糖核酸内切酶结合。

该部分(moiety)可包含核酶。该核酶可以自裂解，由此释放多重遗传靶向剂的各模块。合适的核酶可包括肽基转移酶23S rRNA、RNA酶P、I组内含子、II组内含子、GIR1分支核酶、Leadzyme、发夹状核酶、锤头状核酶、HDV核酶、CPEB3核酶、VS核酶、glmS核酶、CoTC核酶、合成核酶。

该多重遗传靶向剂的核酸模块的核酸可以相同。这些核酸模块可以相差1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50或更多个核苷酸。例如，不同核酸模块的区别在于核酸模块的间隔区，由此使这些核酸模块靶向不同的靶核酸。在一些情况中，不同核酸模块的区别在于核酸模块的间隔区，但仍靶向相同的靶核酸。这些核酸模块可以靶向相同的靶核酸。这些核酸模块可以靶向一个或多个靶核酸。

核酸模块可包含能够适当翻译或扩增核酸模块的调控序列。例如，核酸模块可包含启动子、TATA盒、增强子元件、转录终止子元件、核糖体-结合位点、3’非翻译区、5’非翻译区、5’帽序列、3’聚腺苷酰化序列、RNA稳定元件等。

方法

本公开提供通过使用多重遗传靶向剂同时修饰多个靶核酸的方法。可以将定点多肽、核糖核酸内切酶和多重遗传靶向剂引入宿主细胞。可以将本公开的载体(例如包含多重遗传靶向剂、核糖核酸内切酶和/或定点多肽)引入宿主细胞.在一些情况中，可以将多于一种核糖核酸内切酶和/或多重遗传靶向剂引入细胞。如果多重遗传靶向剂包含不同类型的部分——其中这些部分是不同的核糖核酸内切酶结合序列，则可以将与多重遗传靶向剂中的结合序列的类型对应的一种或多种核糖核酸内切酶引入细胞。

可通过将核酸引入细胞的任何手段，如病毒或噬菌体感染、转染、缀合、原生质体融合、脂质转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)-介导的转染、DEAE-葡聚糖介导的转染、脂质体-介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米粒子-介导的核酸递送等实现引入。该载体可以在宿主细胞中瞬时表达。该载体可以在宿主细胞中稳定表达(例如通过稳定整合到宿主细胞的基因组中)。

在一个部分包含核糖核酸内切酶结合序列的情况下，可以表达核糖核酸内切酶并可结合到多重遗传靶向剂上的核糖核酸内切酶结合位点上。该核糖核酸内切酶可以将多重遗传靶向剂裂解成独立的核酸模块。

在一个部分包含核酶的情况下，可能不要求在宿主细胞中表达核糖核酸内切酶。该核酶可以自裂解，由此导致多重遗传靶向剂裂解成独立的核酸模块。

独立的(例如裂解的)核酸模块可包含所有、一些或不包含该部分(例如核糖核酸内切酶结合序列)。例如，可以对释放的(例如加工后的)核酸模块施以外切核酸酶修剪和/或降解，这可能导致除去核酸模块的5’和/或3’端。在这样的情况下，外切核酸酶修剪和/或降解可能导致除去所有、一部分或不除去该部分(例如核糖核酸内切酶结合序列)。

释放的(例如加工后的)核酸模块可结合到定点多肽上，由此形成复合体。该复合体可以被以序列特异性方式与靶核酸杂交的以核酸为靶的核酸导向靶核酸。一经杂交，该复合体的定点多肽可以修饰靶核酸(例如裂解靶核酸)。在一些情况中，该修饰包括在靶核酸中引入双链断裂。在一些情况中，该修饰包括在靶核酸中引入单链断裂。

在一些实施方案中，可以将一个或多个供体多核苷酸和/或编码其的载体引入该细胞。可以将一个或多个供体多核苷酸并入修饰(例如裂解)的靶核酸中，由此导致插入。可以将相同的供体多核苷酸并入靶核酸的多个裂解位点中。可以将一个或多个供体多核苷酸并入靶核酸的一个或多个裂解位点中。这可被称作多重基因组工程。在一些情况中，不向细胞中引入供体多核苷酸和/或编码其的载体。在这些情况中，修饰的靶核酸可包含缺失。

核酸的化学计量递送

一般概述

本公开提供用于向细胞和/或亚细胞位置化学计量递送核酸的组合物、方法和试剂盒。可以通过复合体介导该化学计量递送。图16描绘用于向细胞和/或亚细胞位置化学计量递送多个核酸的示例性复合体。该复合体可包含多个核酸1605。各核酸可包含核酸-结合蛋白结合位点1610。核酸-结合蛋白结合位点1610可以都是相同序列、不同序列，或一些可以是相同序列，一些可以是不同序列。在一些实施方案中，该核酸-结合蛋白结合位点可结合Cas6、Cas5或Csy4家族成员。该复合体可包含串联融合多肽1630。该串联融合多肽可包含串联融合在一起的核酸-结合蛋白1625。这些核酸-结合蛋白可以被接头1620隔开。核酸-结合蛋白1625可以是相同蛋白、可以是不同蛋白，或一些可以是相同蛋白，一些可以是不同蛋白。核酸-结合蛋白1625可以是Csy4蛋白。核酸-结合蛋白1625可结合核酸1605上的核酸-结合蛋白结合位点1610。串联融合多肽1630可包含非天然序列1615。在一些情况中，该非天然序列是亚细胞(例如细胞核)定位序列。在一些实施方案中，核酸1605可编码非天然序列(例如亚细胞(例如细胞核)定位序列)。可以将该复合体引入1635细胞中，其中可以将一个或多个核酸105翻译成多肽1640。翻译的多肽1640可以结合并裂解核酸1605上的核酸-结合蛋白结合位点1610。裂解1645可释放核酸1650，其可以是以核酸为靶的核酸。释放的核酸1650可结合到翻译的多肽1645(例如定点多肽)上，由此形成一个单元。翻译的多肽1645可包含细胞核定位信号。该单元可易位到细胞核中，其中可以将该单元导向可与释放的核酸1650的间隔区杂交的靶核酸。该单元可以与靶核酸杂交。该单元的定点多肽可以裂解靶核酸。靶核酸的裂解可被称作基因组工程。可以使用如本文所述的定点多肽、以核酸为靶的核酸以及定点多肽和以核酸为靶的核酸的复合体的任一种实施该方法。

在一些实施方案中，可以向细胞和/或亚细胞位置化学计量地递送多个以核酸为靶的核酸。图17描绘用于化学计量递送多个核酸的示例性复合体。该复合体可包含多个核酸1705。各核酸可包含多个核酸-结合蛋白结合位点1710/1711。核酸-结合蛋白结合位点1710/1711可以都是相同序列、不同序列，或一些可以是相同序列，一些可以是不同序列。在一些实施方案中，核酸-结合蛋白结合位点1710/1711可结合Cas6、Cas5或Csy4家族成员。该复合体可包含串联融合多肽1730。该串联融合多肽可包含串联融合在一起的核酸-结合蛋白1725。这些核酸-结合蛋白可以被接头1720隔开。核酸-结合蛋白1725可以是相同蛋白、可以是不同蛋白，或一些可以是相同蛋白，一些可以是不同蛋白。RNA-结合蛋白1725可以是Csy4、Cas5和Cas6多肽的组合。核酸-结合蛋白1725可结合核酸1705上的核酸-结合蛋白结合位点1710。串联融合多肽1730可包含非天然序列1715。在一些情况中，该非天然序列是亚细胞(例如细胞核)定位序列。在一些实施方案中，核酸1705可编码非天然序列(例如亚细胞(例如细胞核)定位序列)。可以将该复合体引入细胞1735中，其中可以将一个或多个核酸翻译成多肽1740/1750。翻译的多肽1740可以结合并裂解核酸1705上的核酸-结合蛋白结合位点1711。裂解1745可释放核酸1755，其可以是以核酸为靶的核酸和/或供体多核苷酸。释放的核酸1755可结合到翻译的多肽1750(例如定点多肽)上，由此形成一个单元。在一些情况中，翻译的多肽1750包含细胞核定位信号。该单元可易位到细胞核中，其中可以将该单元导向可与释放的RNA 1755的间隔区杂交的靶核酸。该单元可以与靶核酸杂交。该单元的定点多肽可以裂解靶核酸。

方法

本公开提供向细胞化学计量递送核酸(例如可化学计量递送的核酸)的方法。该方法可包括将串联融合多肽结合到多个可化学计量递送的核酸上，由此形成复合体。该复合体可包含化学计算量的核酸(例如该复合体可包含规定比率和/或量的多个核酸)。可以化学计量递送1、2、3、4、5、6、7、8、9、10或更多个核酸。在一些情况中，可以化学计量地递送3个可化学计量递送的核酸。在一些情况中，可以化学计量地递送4个可化学计量递送的核酸。

可化学计量递送的核酸可编码多肽或非编码RNA。该多肽可以是CRISPR系统多肽(例如定点多肽、核糖核酸内切酶)。可化学计量递送的核酸可编码多于一个多肽。可化学计量递送的核酸可包含多个可化学计量递送的核酸(例如在阵列中)。可化学计量递送的核酸可编码非编码RNA。非编码RNA的实例可包括微RNA(miRNA)、短干扰RNA(siRNA)、长链非编码RNA(lncRNA或lincRNA)、内源性siRNA(endo-siRNA)、piwi相互作用RNA(piRNA)、反式作用短干扰RNA(tasiRNA)、重复关联的小干扰RNA(rasiRNA)、小核仁RNA(snoRNA)、小核RNA(snRNA)、转移RNA(tRNA)和核糖体RNA(rRNA)。可化学计量递送的核酸可以是RNA。

可化学计量递送的核酸可编码非天然序列。在一些情况中，可化学计量递送的核酸编码非天然序列以在从编码多肽的可化学计量递送的核酸翻译多肽时，该多肽融合到非天然序列上(例如由此生成融合蛋白)。该非天然序列可以是肽亲和标记。该非天然序列(例如肽亲和标记)可位于多肽的N-末端、多肽的C-末端或多肽内的任何位置(例如表面可及的环)。在一些实施方案中，该非天然序列是细胞核定位信号(NLS)。NLS可以是单分体或二分序列。可通过核输入机制(nuclear import machinery)(例如输入蛋白)识别NLC。NLS可以是小肽(例如SV40大t-抗原的PKKKRKV)。NLS可以是多肽结构域(例如hnRNP A1的酸性M9结构域)。

该非天然序列可以是核酸亲和标记(例如核酸定位信号)。例如，编码DNA(例如供体多核苷酸)的可化学计量递送的核酸可包含可将DNA定位到细胞核中的核酸定位信号。这样的核酸定位信号可包括例如肽-核酸(PNA)序列。

可化学计量递送的核酸可包含能够适当翻译或扩增核酸的调控序列。例如，核酸可包含启动子、TATA盒、增强子元件、转录终止子元件、DNA稳定元件、核糖体-结合位点、3’非翻译区、5’非翻译区、5’帽序列、3’聚腺苷酰化序列、RNA稳定元件等。

核酸可包含核酸-结合蛋白结合位点。该核酸-结合蛋白结合位点可被核酸-结合蛋白结合。该核酸-结合蛋白结合位点可被CRISPR多肽(例如定点多肽、核糖核酸内切酶)结合。该核酸-结合蛋白结合位点可被Cas5或Cas6家族多肽结合。该核酸-结合蛋白结合位点可被Csy4、Cas5或Cas6多肽结合。核酸-结合蛋白结合位点的一些实例可包括例如，可被RNA-结合蛋白结合的序列，如MS2结合序列、U1A结合序列、boxB序列、eIF4A序列、发夹结构、可被RNA识别基序(RRM)结构域(例如U1A)结合的序列、可被双链RNA结合域(dsRBD)(例如Staufen)结合的序列、可被PAZ结构域(例如PAZ、Argonaute)结合的序列、可被Piwi结构域(例如PIWI、MILI、MIWI、Argonaute)结合的序列等。核酸-结合蛋白结合位点的一些实例可包括例如，可被DNA-结合蛋白结合的序列，如锌指、螺旋-转角-螺旋结构域、锌指结构域、亮氨酸拉链(bZIP)结构域、翼状螺旋结构域、翼状螺旋-转角-螺旋结构域、螺旋-环-螺旋结构域、HMG-盒结构域、Wor3结构域、免疫球蛋白结构域、B3结构域、TALE结构域等。

该核酸可包含一个或多个核酸-结合蛋白结合位点。该核酸可包含1、2、3、4、5、6、7、8、9、10或更多个核酸-结合蛋白结合位点。所述一个或多个核酸-结合蛋白结合位点可以相同。所述一个或多个核酸-结合蛋白结合位点可以不同。例如，该核酸可包含Csy4结合位点和MS2结合位点。所述一个或多个核酸-结合蛋白结合位点可以被1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、250、300、350、400、450、500或更多个核苷酸隔开。在一些实施方案中，3’最末端的核酸-结合蛋白结合位点可以被本公开的串联融合多肽结合。

串联融合多肽

在一些实施方案中，本公开的方法用于将多个核酸结合到串联融合多肽上。串联融合多肽可包含在一个多肽链中融合在一起的多个核酸结合蛋白。串联融合多肽可包含1、2、3、4、5、6、7、8、9、10或更多个核酸-结合蛋白。串联融合多肽的核酸-结合蛋白可结合到本公开的核酸的核酸-结合蛋白结合位点上。核酸-结合蛋白的实例可包括MS2、U1A、boxB序列结合蛋白(例如锌指)、eIF4A、Staufen、PAZ、Argonaute、PIWI、MILI、MIWI、锌指、螺旋-转角-螺旋结构域、锌指结构域、亮氨酸拉链(bZIP)结构域、翼状螺旋结构域、翼状螺旋-转角-螺旋结构域、螺旋-环-螺旋结构域、HMG-盒结构域、Wor3结构域、免疫球蛋白结构域、B3结构域、TALE结构域等。在一些实施方案中，该核酸-结合蛋白是RNA-结合蛋白。该RNA-结合蛋白可以是CRISPR系统的成员。在一些实施方案中，该RNA-结合蛋白可以是Cas5或Cas6蛋白质家族的成员。在一些实施方案中，该RNA-结合蛋白可以是Csy4、Cas5、Cas6或它们的任何组合。在一些实施方案中，该核酸-结合蛋白是DNA-结合蛋白(例如锌指)。

在一些情况中，该核酸-结合蛋白被接头隔开。接头可包含大约1、2、3,4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100或更多个氨基酸。

串联融合多肽可包含非天然序列(例如肽亲和标记)。该非天然序列可包含将串联融合多肽导向亚细胞位置(例如细胞核)的细胞核定位信号(NLS)。

该串联融合多肽的各核酸-结合蛋白可包含其自己的非天然序列。各核酸-结合蛋白的非天然序列可以相同。各核酸-结合蛋白的非天然序列可以不同。该串联融合多肽的一些核酸-结合蛋白的非天然序列可以相同，且该串联融合多肽的一些核酸-结合蛋白的非天然序列可以不同。

在一些情况中，本公开的方法可用于形成包含串联融合多肽和多个本公开的核酸的复合体。复合体的形成可包括该串联融合多肽的核酸-结合蛋白结合到本公开的核酸中它们的关连核酸-结合蛋白结合序列上。例如，包含Csy4结合位点的可化学计量递送的核酸可结合到串联融合蛋白中的Csy4蛋白质亚基上。该复合体可以在细胞外形成(例如体外)。该复合体可以在细胞内形成(例如体内)。当体外形成复合体时，其可通过例如转染、转化、病毒转导、电穿孔、注射等引入细胞中。

本公开的方法用于体内、体外和离体治疗递送多个核酸。递送的核酸可用于治疗疾病。例如，递送的核酸可用于基因疗法和/或可整合到细胞的基因组中，由此提供治疗结果。治疗结果可以是指蛋白、核酸或与疾病有关的任何生物分子，如降解产物、小分子和/或离子的水平升高或降低。例如，治疗结果可包括提高抗炎基因的水平或降低与疾病有关的通路中的蛋白水平。治疗结果可以是指生理效应。生理效应可包括细胞中的形态变化、代谢变化和/或结构变化。治疗结果可以是指蛋白和/或核酸的修饰，如糖基化、乙酰化、甲基化、去甲基化、脱嘌呤、泛素化等的变化。

可通过细胞中的遗传组成的变化、细胞中的感兴趣的生物分子的水平和/或细胞中的生理变化测量治疗结果。可以使用分子生物学技术，如光谱学、光谱测定法、测序、ELISA、显微术和/或x-射线结晶学进行测量。可以使用动物模型，如小鼠、大鼠、狗和灵长类动物进行测量。例如，可以将本公开的基因修饰细胞引入小鼠并评估生物和生理变化，例如转移和/或分化的能力。

用于血液病的间隔区

本公开提供用于造血干细胞(HSC)的遗传工程的组合物、方法和试剂盒。

组合物

HSC可包含定点多肽(例如Cas9)。

HSC可包含以核酸为靶的核酸。本公开的以核酸为靶的核酸可以靶向遗传病中涉及的基因。表1列举疾病中涉及的示例性基因。表1中所列的基因可以是以核酸为靶的核酸可靶向的基因。本公开的以核酸为靶的核酸可包含可靶向表1中所列的基因的间隔区。

表2描绘本公开的以核酸为靶的核酸的示例性间隔区。表2的各间隔区可以是可插入以核酸为靶的核酸中的间隔区。示例性间隔区与疾病名和该间隔区靶向的该疾病中涉及的基因列在一起。

表2.血液病的间隔区

方法

本公开提供将以核酸为靶的核酸和定点多肽引入HSC的方法。在一些实施方案中，在引入前从患者中提取HSC。可以将提取的HSC纯化(例如通过血浆分离置换法)。可以将定点多肽和/或以核酸为靶的核酸引入已经纯化的HSC中。可以将定点多肽和/或以核酸为靶的核酸引入未纯化的HSC中。可以在体外HSC(例如在患者体外，提取的细胞)中进行该引入。在一些情况中，在体内HSC(例如在患者体内，未提取的细胞)中进行该引入。

可以通过例如病毒转导、转染、电穿孔、光学转染和/或化学转染进行定点多肽和/或本公开的以核酸为靶的核酸的引入。

一旦引入HSC中，本公开的以核酸为靶的核酸和定点多肽可形成复合体。可以通过所述以核酸为靶的核酸将该复合体导向靶核酸(例如表3中列举的基因)。以核酸为靶的核酸可以与靶核酸杂交。定点多肽可以修饰靶核酸(例如通过裂解靶核酸)。

在一些情况中，修饰的靶核酸包含缺失。在一些情况中，修饰的靶核酸包含插入的供体多核苷酸。可以将供体多核苷酸、供体多核苷酸的一部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的一部分插入靶核酸。可以使用如本文所述的定点多肽、以核酸为靶的核酸以及定点多肽和以核酸为靶的核酸的复合体的任一种实施该方法。

表3.疾病中涉及的基因的名单

计算方法

本公开提供识别以核酸为靶的核酸的间隔区的计算方法。该计算方法可包括扫描基因组的核酸序列以寻找前间区序列邻近基序。在找到前间区序列邻近基序后，该程序自动计数该前间区序列邻近基序上游的10-30个核苷酸。前间区序列邻近基序上游的这10-30个核苷酸可构成推定间隔区序列。换言之，基因组中的前间区序列邻近基序上游的10-30个核苷酸可相当于靶核酸，与该靶核酸互补的序列可被称作间隔区。

该程序可以测试推定间隔区序列的每次序列迭代以查明该序列如何有效地充当以核酸为靶的核酸中的间隔区。例如，该程序可获取推定间隔区序列的每次迭代并对该序列进行计算机二级结构预测。该二级结构预测可包括将推定间隔区序列附加到以核酸为靶的核酸骨架(例如无间隔区的以核酸为靶的核酸)上。该二级结构预测可进行插入以核酸为靶的核酸骨架中的推定间隔区序列的二级结构预测分析。二级结构预测分析可包括例如预测哪些核苷酸可形成双链体、发夹结构、哪些核苷酸未结构化，和/或哪些核苷酸可能不成对。

该计算方法可包括对已经过二级结构预测分析的各推定间隔区序列进行折叠试验。该折叠试验可包括包含推定间隔区序列的以核酸为靶的核酸的计算机模拟折叠。该以核酸为靶的核酸和推定间隔区序列可通过或未通过折叠试验。

为了通过折叠试验，以核酸为靶的核酸骨架的二级结构可能需要是保守的，间隔区中少于5、4、3、2或1个核苷酸与间隔区外的核苷酸杂交，且间隔区中的其它二级结构包含在该间隔区内。

无缝报告基因选择

一般概述

本公开描述了通过无缝并入、缺失和切除报告元件来进行细胞的基因修饰和选择这样的基因修饰细胞的方法、组合物、系统和试剂盒。在本公开的一些实施方案中，供体多核苷酸可包含要引入细胞基因组中的核酸(在此称作感兴趣的遗传因子)以及编码报告元件(例如GFP)、定点多肽和两种以核酸为靶的核酸的核酸序列。可通过诱导型启动子可控制定点多肽、以核酸为靶的核酸和/或所有三者。定点多肽和以核酸为靶的核酸可形成复合体，其可通过以核酸为靶的核酸杂交到基因组中的靶核酸上而靶向细胞基因组中的位点。该复合体的定点多肽可裂解靶核酸。可以将供体多核苷酸插入裂解的靶核酸中。在供体多核苷酸存在下在靶位点引入双链断裂(或单链断裂)后，可以就报告分子的存在(代表感兴趣的遗传因子的存在)筛选受体细胞群。在分离含报告分子的细胞后，可通过诱导定点多肽和/或以核酸为靶的核酸表达来切除报告元件。以核酸为靶的核酸可靶向报告元件的5'和3'端并可导致报告元件的切除。可以使用如本文所述的定点多肽、以核酸为靶的核酸以及定点多肽和以核酸为靶的核酸的复合体的任一种实施该方法。

图18描绘本公开的方法的一个示例性实施方案。核酸可包含多个遗传因子1805/1810。遗传因子1805和1810可以是例如基因、非编码核酸、内含子、外显子、DNA和/或RNA。遗传因子1805和1810可以是相同基因的一部分。在遗传因子之间可存在适合遗传工程的靶核酸106。本公开的定点多肽和以核酸为靶的核酸可形成可靶向1815靶核酸1806的复合体。该复合体的定点多肽可裂解1820靶核酸1806。可以将供体多核苷酸插入1825裂解的靶核酸1806中。该供体多核苷酸可包含感兴趣的遗传因子1830。感兴趣的遗传因子1830可以是基因。该供体多核苷酸还可包含报告元件1835。该供体多核苷酸还可包含编码定点多肽和一种或多种以核酸为靶的核酸的多核苷酸序列。在一些情况中，编码定点多肽和所述一种或多种以核酸为靶的核酸的多核苷酸编码两种以核酸为靶的核酸。编码定点多肽和以核酸为靶的核酸的多核苷酸序列可以可操作地与诱导型启动子连接。供体多核苷酸插入靶核酸1806中可导致报告元件1835的表达。可以利用报告元件1835作为选择包含供体多核苷酸的细胞的一种方式。

图19描绘从靶核酸中除去报告元件1915的一个示例性实施方案。靶核酸可包含多个遗传因子1905/1920。报告元件1915可融合到感兴趣的遗传因子1910上。可以诱导报告基因1915的表达，这导致生成定点多肽和一种或多种以核酸为靶的核酸。定点多肽可以与以核酸为靶的核酸形成复合体。可以通过该复合体的以核酸为靶的核酸将该复合体导向报告元件1915。这两种以核酸为靶的核酸之一可靶向1925报告元件1915的5’端。这两种以核酸为靶的核酸之一可靶向1930报告元件1915的3’端。可通过该复合体的定点多肽裂解报告元件1915的靶向端，由此切除1935报告元件1915。该靶核酸可包含供体多核苷酸的感兴趣的遗传因子1910部分。可以设计所述以核酸为靶的核酸以切除供体多核苷酸(包括感兴趣的遗传因子)。

方法

本公开提供了使用报告元件选择细胞并切除报告元件的方法。可以将定点多肽、核糖核酸内切酶、以核酸为靶的核酸、供体多核苷酸和/或以核酸为靶的核酸引入细胞。该供体多核苷酸可包括一个或多个感兴趣的遗传因子。该供体多核苷酸可包括一个或多个报告元件。该供体多核苷酸包括一个或多个感兴趣的遗传因子和一个或多个报告元件。可以将多于一种定点多肽、核糖核酸内切酶、供体多核苷酸和/或以核酸为靶的核酸引入细胞。在一些情况中，该细胞已表达定点多肽和/或以核酸为靶的核酸。在一些情况中，在质粒上编码该定点多肽和/或以核酸为靶的核酸。在一些情况中，在多于一个质粒上编码该定点多肽和/或以核酸为靶的核酸。在一些情况中，将多于一种定点多肽或编码定点多肽的核酸引入细胞。在一些情况中，该细胞是细胞裂解液。

以核酸为靶的核酸可结合到以特定靶序列和/或与特定序列同源的任何序列为特征的核酸上。该靶序列可以是基因、基因的5’端、基因的3’端、调控元件(例如启动子、增强子)、假基因、非编码DNA、微卫星、内含子、外显子、染色体DNA、线粒体DNA、有义DNA、反义DNA、类核DNA、叶绿体DNA或RNA等核酸实体的一部分或全部。

该定点多肽可裂解以核酸为靶的核酸结合的靶核酸。该定点多肽可能不裂解靶核酸。在一些情况中，核糖核酸内切酶裂解靶核酸。可通过载体编码该核糖核酸内切酶。可通过供体多核苷酸编码该核糖核酸内切酶。该核糖核酸内切酶可存在于细胞中。可通过有条件的启动子(conditional promoter)诱导核糖核酸内切酶和/或定点多肽的表达。可以在其裂解位点将供体多核苷酸并入靶核酸中。

切除

本文公开的方法可进一步包括切除所有、一些或不切除报告元件。报告元件的第一以核酸为靶的核酸可靶向该报告元件的5’端。报告元件的第二以核酸为靶的核酸可靶向该报告元件的3’端。以核酸为靶的核酸可靶向该报告元件的5’和3’端。以核酸为靶的核酸可靶向报告元件和/或供体多核苷酸中的两个序列。这两个靶序列可以至少大约70、75、80、85、90、91、92、93、94、95、96、97、98、99或100％相同。这两个靶序列可以最多大约70、75、80、85、90、91、92、93、94、95、96、97、98、99或100％相同。当表达该报告元件的以核酸为靶的核酸时，它们可以与定点多肽形成复合体并通过与报告元件的5’和3’端上的互补区杂交而靶向报告元件的5’和3’端。该复合体与报告元件的杂交可导致所有、一些或没有报告元件裂解。裂解的核酸可通过例如非同源末端连接重接。重接的核酸可能不引入缺失或插入。重接的核酸可能引入缺失或插入。裂解的核酸可通过例如同源重组重接。当靶核酸位点基本相同时，同源重组可用于重接裂解的核酸。

筛选

本文公开的方法可进一步包括从选取的细胞中切除报告元件，由此形成第二细胞；和筛选第二细胞。筛选可包括筛选是否不存在所有或一些报告元件。筛选可包括荧光激活细胞分选(FACS)，其中将表达由该报告元件编码的荧光蛋白的细胞与不表达荧光蛋白的细胞分离。可以使细胞与荧光蛋白、荧光探针或荧光染料缀合的抗体(其结合由该报告元件或遗传因子编码的蛋白质)接触，并随后通过FACS选择。荧光染料可包括但不限于Cascade蓝、Pacific蓝、Pacific橙、荧光黄、NBD、R-藻红蛋白(PE)、PE-Cy5缀合物、PE-Cy7缀合物、红613、PerCP、TruRed、FluorX、荧光素、BODIPY-FL、TRITC、得克萨斯红、别藻蓝蛋白、APC-Cy7缀合物(PharRed)、各种Alexa Fluor染料、Cy2、Cy3、Cy3B、Cy3.5、Cy5、Cy5.5、Cy7、各种DyLights、Y66H、Y66F、EBFP、EBFP2、Azurite、GFPuv、T-Sapphire、TagBFP、Cerulean、mCFP、ECFP、CyPet、Y66W、dKeima-红、mKeima-红、TagCFP、Am青1、mTFP1、S65A、Midoriishi-青、GFP、Turbo GFP、TagGFP、TagGFP2、AcGFP1、S65L、Emerald、S65T、S65C、EGFP、Azami-绿、Za绿1、Dronpa-绿、TagYFP、EYFP、Topaz、Venus、mCitirine、YPet、Turbo YFP、PhiYFP、PhiYFPm、Za黄1、mBanana、Kusabira-橙、m橙、mOrane2、mKO、TurboRFP、tdTomato、Ds红-Express2、TagRFP、Ds红单体、Ds红2、mStrawberry、Turbo FP602、As红2、mRFP1、J-红、mCherry、Hc红1、mKate2、Katushka、mKate、TurboFP635、mPlum、mRaspberry、mNeptune、E2-深红。

可以使细胞与结合由该报告元件或遗传因子编码的肽亲和标记的抗体接触，随后可借助识别该抗体的免疫磁珠选取。在该报告元件或遗传因子编码b-半乳糖苷酶时，筛选可包括通过添加X-gal来将细胞染色。筛选可包括人工分选(例如稀释细胞悬浮液)和显微术(例如荧光显微术)。筛选可包括高内涵筛选。

报告元件可编码耐药基因，由此能通过添加药物来选择含有该报告元件的细胞，该药物杀灭不表达该报告元件的细胞。这样的药物可包括但不限于红霉素、克林霉素、氯霉素、庆大霉素、卡那霉素、链霉素、四环素、联合奎奴普丁-达福普汀、恩诺沙星、万古霉素、苯唑西林、青霉素、磺酰胺磺胺异噁唑、甲氧苄氨嘧啶、蛋氨酸亚砜亚胺(methoininesulphoximine)、甲氨蝶呤、嘌呤霉素、杀稻瘟菌素、组氨醇、潮霉素、zeocin、博来霉素和新霉素。

库

本公开提供包含供体多核苷酸的表达载体库。在一些实施方案中，该库可包含包括编码不同的感兴趣的遗传因子但相同报告元件的多核苷酸序列的表达载体。在一些实施方案中，该库可包含包括编码不同的感兴趣的遗传因子和不同的报告元件的多核苷酸序列的表达载体。报告元件的区别可在于它们的核酸靶向序列(crRNA和tracrRNA)。报告元件的区别可在于它们的报告基因(例如编码荧光蛋白的基因)。本公开提供了使用该库生成多个基因修饰细胞的方法。本公开提供了使用该库进行高通量遗传筛选的方法。这些库能够分析大量独立基因以推断基因功能。库可包含大约10个独立成员至大约10¹²个独立成员；例如，库可包含大约10个独立成员至大约10²个独立成员、大约10²个独立成员至大约10³个独立成员、大约10³个独立成员至大约10⁵个独立成员、大约10⁵个独立成员至大约10⁷个独立成员、大约10⁷个独立成员至大约10⁹个独立成员、或大约10⁹个独立成员至大约10¹²个独立成员。

修饰细胞(转染/感染)

本公开的方法提供选择包含供体多核苷酸的细胞。在一些实施方案中，一种方法可包括使靶核酸接触或向细胞(或细胞群体)中引入一个或多个包含编码本公开的以核酸为靶的核酸、定点多肽和/或供体多核苷酸的核苷酸序列的核酸。将核酸引入细胞的方法可包括病毒或噬菌体感染、转染、缀合、原生质体融合、脂质转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)-介导的转染、DEAE-葡聚糖介导的转染、脂质体-介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米粒子-介导的核酸递送等。在一些实施方案中，使靶核酸接触或向细胞(或细胞群体)中引入一个或多个核酸可能不包括病毒感染。在一些实施方案中，使靶核酸接触或向细胞(或细胞群体)中引入一个或多个核酸可能不包括噬菌体感染。在一些实施方案中，使靶核酸接触或向细胞(或细胞群体)中引入一个或多个核酸可能不包括转染。

以核酸为靶的工程核酸

工程改造的P-结构域

以核酸为靶的核酸可以是工程改造的(例如包含修饰)。工程改造的以核酸为靶的核酸可以是指任何如本文所述的工程改造的以核酸为靶的核酸。例如，工程改造的以核酸为靶的核酸可包含最小CRISPR重复片段、最小tracrRNA和3’tracrRNA。以核酸为靶的核酸的P-结构域可以与定点多肽的区域相互作用。P-结构域可以与定点多肽的多个区域相互作用。P-结构域可以与定点多肽的多个区域相互作用，其中至少一个区域与前间区序列邻近基序中的PAM相互作用。这些区域的实例可包括化脓性链球菌中的Cas9的氨基酸1096-1225和1105-1138。

可以将修饰引入P-结构域。P-结构域可包含至少大约1、2、3、4、5、6、7、8、9、10、15、20、25或30或更多个相邻核苷酸。P-结构域可包含最多大约1、2、3、4、5、6、7、8、9、10、15、20、25或30或更多个相邻核苷酸。P-结构域可以在包含最小CRISPR重复片段和最小tracrRNA序列的双链体中的最后一对核苷酸的3’的一个核苷酸处开始。P-结构域可以在包含最小CRISPR重复片段和最小tracrRNA序列的双链体中的最后一对核苷酸的3’的至少大约1、2、3、4、5、6、7、8、9、10、15、20、25或30或更多个核苷酸处开始。P-结构域可以在包含最小CRISPR重复片段和最小tracrRNA序列的双链体中的最后一对核苷酸的3’的最多大约1、2、3、4、5、6、7、8、9、10、15、20、25或30或更多个核苷酸处开始。

工程改造的P-结构域可包含至少大约1、2、3、4、5、6、7、8、9或10或更多个突变。工程改造的P-结构域可包含最多大约1、2、3、4、5、6、7、8、9或10或更多个突变。这些突变可以彼此相邻(例如连续)。这些突变可以彼此隔开。这些突变可以被至少大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸隔开。这些突变可以被至少大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸隔开。对以核酸为靶的核酸的突变可包含在所述以核酸为靶的核酸中插入、缺失和置换核苷酸。

在一些情况中，工程改造的以核酸为靶的核酸包含与野生型以核酸为靶的核酸的最多大约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30％或更多的核苷酸同一性和/或类似性。在一些情况中，工程改造的以核酸为靶的核酸包含与野生型以核酸为靶的核酸的至少大约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30％或更多的核苷酸同一性和/或类似性。

在一些情况中，工程改造的以核酸为靶的核酸的CRISPR核酸部分包含与野生型CRISPR核酸的最多大约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30％或更多的核苷酸同一性和/或类似性。在一些情况中，工程改造的以核酸为靶的核酸的CRISPR核酸部分包含与野生型CRISPR核酸的至少大约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30％或更多的核苷酸同一性和/或类似性。

工程改造的以核酸为靶的核酸的tracrRNA核酸部分可包含与野生型tracrRNA核酸的最多大约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30％或更多的核苷酸同一性和/或类似性。工程改造的以核酸为靶的核酸的tracrRNA核酸部分可包含与野生型tracrRNA核酸的至少大约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30％或更多的核苷酸同一性和/或类似性。

P-结构域中的修饰可以使得所述工程改造的以核酸为靶的核酸重新构造以与靶核酸中的新PAM序列杂交。对P-结构域的修饰可以与靶核酸中的PAM互补。对P-结构域的修饰可包含靶核酸中的PAM的反向互补。新PAM可包含至少大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸。新PAM可包含最多大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸。

P结构域中的修饰可以与对P-结构域结合和定点多肽的PAM-结合区的修饰配合进行。这些修饰可以是互补的，其中修饰的P-结构域是特异性修饰以结合到修饰的定点多肽上，其中该修饰能使定点多肽以更高的特异性与工程改造的P-结构域结合。

工程改造的P-结构域可经工程改造以结合到新PAM上(例如该工程改造的P-结构域可以与新PAM杂交)。该新PAM(例如不同的PAM)可以是双峰的(即双峰PAM可包含两个分离的PAM区域)。双峰PAM的这两个分离的区域可以被至少大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸隔开。双峰PAM的这两个分离的区域可以被最多大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸隔开。

工程改造的P-结构域可经工程改造以结合到新PAM(例如不同的PAM)上，其中该新PAM是三峰的。三峰PAM可包含PAM序列的三个分离的区域(例如可用于将以核酸为靶的核酸靶向靶核酸的三个分离的区域)。三峰PAM的这三个分离的区域可以被至少大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸隔开。三峰PAM的这三个分离的区域可以被最多大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸隔开。

工程改造的以核酸为靶的核酸可包含至少两个发夹结构。第一个发夹结构可包含在最小CRISPR重复片段和最小tracrRNA序列之间的双链体。第二个发夹结构可以在第一个发夹结构下游。第二个发夹结构可以在第一双链体的最后一对核苷酸下游至少1、2、3、4、5、6、7、8、9或10或更多个核苷酸处开始。第二个发夹结构可以在第一双链体的最后一对核苷酸下游最多1、2、3、4、5、6、7、8、9或10或更多个核苷酸处开始。第二个发夹结构可包含工程改造的P-结构域。

第二个发夹结构的工程改造的P-结构域可位于该双链体发夹结构的一侧。第二个发夹结构的工程改造的P-结构域可位于该双链体发夹结构的两侧。第二个发夹结构的工程改造的P-结构域可包含第二个发夹结构中的至少大约1％、2％、3％、4％、5％、10％或20％的核苷酸。第二个发夹结构的工程改造的P-结构域可包含第二个发夹结构中的最多大约1％、2％、3％、4％、5％、10％或20％的核苷酸。

第二个发夹结构可包含tracrRNA(例如以核酸为靶的核酸的中间-tracrRNA或3’tracrRNA)。第二个发夹结构可包含与tracrRNA的至少大约1％、5％、10％、15％、20％、25％、30％、35％、40％、45％或50％或更大的同一性。第二个发夹结构可包含与tracrRNA的最多大约1％、5％、10％、15％、20％、25％、30％、35％、40％、45％或50％或更大的同一性。

包含工程改造的P-结构域的第二个发夹结构可以构造成解双链(例如解链、松开)。第二个发夹结构可以在与靶核酸接触时解双链。第二个发夹结构可以在与靶核酸的前间区序列邻近基序接触时解双链。

在一些情况中，工程改造的P-结构域可以构造成与以核酸为靶的核酸(例如相同的包含该工程改造的P-结构域的以核酸为靶的核酸)中的区域杂交，且该工程改造的P-结构域可以构造成与靶核酸杂交。换言之，该工程改造的P-结构域可包含可切换序列，其中在一些情况中，所述P-结构域杂交到以核酸为靶的核酸上，由此形成发夹结构，且在一些情况中，该P-结构域杂交到靶核酸中的PAM上。

包含修饰P-结构域的工程改造的以核酸为靶的核酸可工程改造为以比不含修饰P-结构域的以核酸为靶的核酸(例如野生型以核酸为靶的核酸)低的解离常数结合到PAM上。包含修饰P-结构域的工程改造的以核酸为靶的核酸可工程改造为以比不含修饰P-结构域的以核酸为靶的核酸低或高至少大约10％、50％、100％、150％、200％、250％、300％、350％、400％、450％、500％、550％或600％或更多的解离常数结合到PAM上。

包含修饰P-结构域的工程改造的以核酸为靶的核酸可工程改造为以比不含修饰P-结构域的以核酸为靶的核酸低或高最多大约10％、50％、100％、150％、200％、250％、300％、350％、400％、450％、500％、550％或600％或更多的解离常数结合到PAM上。包含修饰P-结构域的工程改造的以核酸为靶的核酸可工程改造为以比不含修饰P-结构域的以核酸为靶的核酸低或高至少大约1倍、2倍、3倍、4倍、5倍、10倍、20倍、30倍、40倍或50倍或更多的解离常数结合到PAM上。包含修饰P-结构域的工程改造的以核酸为靶的核酸可工程改造为以比不含修饰P-结构域的以核酸为靶的核酸低或高最多大约1倍、2倍、3倍、4倍、5倍、10倍、20倍、30倍、40倍或50倍或更多的解离常数结合到PAM上。

包含修饰P-结构域的工程改造的以核酸为靶的核酸可工程改造为以比不含修饰P-结构域的以核酸为靶的核酸(例如野生型以核酸为靶的核酸)高的特异性结合到PAM上。更高的特异性可以是指脱靶结合(例如以核酸为靶的核酸与不正确的PAM或PAM样序列的结合)的降低。例如，包含修饰P-结构域的工程改造的以核酸为靶的核酸可工程改造为与不含修饰P-结构域的以核酸为靶的核酸相比将非特异性结合降低至少大约10％、50％、100％、150％、200％、250％、300％、350％、400％、450％、500％、550％或600％或更多。包含修饰P-结构域的工程改造的以核酸为靶的核酸可工程改造为与不含修饰P-结构域的以核酸为靶的核酸相比将非特异性结合降低最多大约10％、50％、100％、150％、200％、250％、300％、350％、400％、450％、500％、550％或600％或更多。包含修饰P-结构域的工程改造的以核酸为靶的核酸可工程改造为与不含修饰P-结构域的以核酸为靶的核酸相比将非特异性结合降低至少大约1倍、2倍、3倍、4倍、5倍、10倍、20倍、30倍、40倍或50倍或更多。包含修饰P-结构域的工程改造的以核酸为靶的核酸可工程改造为与不含修饰P-结构域的以核酸为靶的核酸相比将非特异性结合降低最多大约1倍、2倍、3倍、4倍、5倍、10倍、20倍、30倍、40倍或50倍或更多。

工程改造的突起

工程改造的以核酸为靶的核酸可以工程改造以便可以在所述以核酸为靶的核酸的突起区中引入修饰。突起是包含不成对核苷酸的典型核酸特征。突起可以在包含该突起的双链体的各链上包含不成对核苷酸。换言之，突起可包含在双链体的最小CRISPR重复链上的不成对核苷酸和在双链体的最小tracrRNA序列链上的不成对核苷酸。

突起可包含在以核酸为靶的核酸中的双链体的第一链(即包含最小CRISPR重复片段和最小tracrRNA序列的双链体的最小CRISPR重复链)上的至少大约1、2、3、4、5、6、7、8、9或10或更多个不成对核苷酸。突起可包含在以核酸为靶的核酸中的双链体的第一链(即包含最小CRISPR重复片段和最小tracrRNA序列的双链体的最小CRISPR重复链)上的最多大约1、2、3、4、5、6、7、8、9或10或更多个不成对核苷酸。突起可包含在以核酸为靶的核酸中的双链体的第二链(即包含最小CRISPR重复片段和最小tracrRNA序列的双链体的最小tracrRNA序列链)上的至少大约1、2、3、4、5、6、7、8、9或10或更多个不成对核苷酸。突起可包含在以核酸为靶的核酸中的双链体的第二链(即包含最小CRISPR重复片段和最小tracrRNA序列的双链体的最小tracrRNA序列链)上的最多大约1、2、3、4、5、6、7、8、9或10或更多个不成对核苷酸。突起可包含在最小CRISPR RNA序列上的1个不成对核苷酸和在最小tracrRNA序列链上的3个不成对核苷酸。

与不成对核苷酸相邻的核苷酸可以是形成摆动碱基配对相互作用的核苷酸。摆动碱基配对相互作用可包括鸟嘌呤-尿嘧啶、次黄嘌呤(hypoanthine)-尿嘧啶、次黄嘌呤-腺嘌呤和次黄嘌呤-胞嘧啶。与不成对核苷酸相邻的至少1、2、3、4或5或更多个核苷酸可形成摆动配对。与不成对核苷酸相邻的最多1、2、3、4或5或更多个核苷酸可形成摆动配对。

工程改造的突起可包含至少大约1、2、3、4、5、6、7、8、9或10或更多个突变。工程改造的突起可包含最多大约1、2、3、4、5、6、7、8、9或10或更多个突变。这些突变可以彼此相邻(例如连续)。这些突变可以彼此隔开。这些突变可以被至少大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸隔开。这些突变可以被至少大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸隔开。对以核酸为靶的核酸的突变可包含在所述以核酸为靶的核酸中插入、缺失和置换核苷酸。

工程改造的以核酸为靶的核酸的突起可包含与野生型以核酸为靶的核酸的最多大约1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、21％、22％、23％、24％、25％、26％、27％、28％、29％、30％或更大的核苷酸同一性和/或类似性。以核酸为靶的工程核酸的突起可包含与野生型以核酸为靶的核酸的至少大约1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、21％、22％、23％、24％、25％、26％、27％、28％、29％、30％或更大的核苷酸同一性和/或类似性。

该突起的一个链可以突变，另一个链未突变。换言之，在一些情况中，最小CRISPRRNA链上的突起的序列与野生型以核酸为靶的核酸相同，而最小tracrRNA序列上的突起的序列突变。换言之，最小CRISPR RNA链上的突起的序列突变，而最小tracrRNA序列上的突起的序列与野生型以核酸为靶的核酸相同。

突起中的修饰可以使得所述工程改造得以核酸为靶的核酸重新构造以与新定点多肽结合。新定点多肽可包含与野生型定点多肽的至少大约5％、10％、15％、20％、25％、30％、35％、40％、45％或50％或更大的氨基酸序列同一性。新定点多肽可包含与野生型定点多肽的最多大约5％、10％、15％、20％、25％、30％、35％、40％、45％或50％或更大的氨基酸序列同一性。新定点多肽可以是Cas9的同源物。新定点多肽可以是Cas9的直系同源物。新定点多肽可以是两种不同的定点多肽的嵌合体。新定点多肽可包含如本文中公开的突变。

包含修饰突起的工程改造的以核酸为靶的核酸可工程改造为以比不含修饰突起的以核酸为靶的核酸(例如野生型以核酸为靶的核酸)低或高的解离常数结合到定点多肽上。包含修饰突起的工程改造的以核酸为靶的核酸可工程改造为以比不含修饰突起的以核酸为靶的核酸低或高至少大约10％、50％、100％、150％、200％、250％、300％、350％、400％、450%、500%、550%或600%或更多的解离常数结合到定点多肽上。包含修饰突起的以核酸为靶的工程核酸可工程改造为以比不含修饰突起的以核酸为靶的核酸低或高最多大约10%、50%、100%、150%、200%、250%、300%、350%、400%、450%、500%、550%或600%或更多的解离常数结合到定点多肽上。包含修饰突起的工程改造的以核酸为靶的核酸可工程改造为以比不含修饰突起的以核酸为靶的核酸低或高至少大约1倍、2倍、3倍、4倍、5倍、10倍、20倍、30倍、40倍或50倍或更多的解离常数结合到定点多肽上。包含修饰突起的工程改造的以核酸为靶的核酸可工程改造为以比不含修饰突起的以核酸为靶的核酸低或高最多大约1倍、2倍、3倍、4倍、5倍、10倍、20倍、30倍、40倍或50倍或更大的解离常数结合到定点多肽上。

方法本公开提供以核酸为靶的核酸的工程改造方法。该方法可包括修饰以核酸为靶的核酸。该修饰可包括在所述以核酸为靶的核酸中插入、缺失、置换和突变核苷酸。该修饰可包括修饰以核酸为靶的核酸以使所述以核酸为靶的核酸可以与野生型以核酸为靶的核酸相比可结合到新的前间区序列邻近基序和/或新的定点多肽上。可以使用如本文所述的定点多肽、以核酸为靶的核酸以及定点多肽和以核酸为靶的核酸的复合体的任一种实施该方法。

工程改造的以核酸为靶的核酸可用于裂解靶核酸。可以将工程改造的以核酸为靶的核酸引入含定点多肽的细胞，由此形成复合体。该复合体可以与靶核酸杂交，其中该靶核酸包含前间区序列邻近基序。该复合体的定点多肽可以裂解靶核酸。

来自化脓性链球菌SF370的前-CRISPR核酸的核酸序列和tracr核酸序列的核酸序列互补部分显示在图20中。

图21描绘包含最小CRISPR重复片段和最小tracrRNA序列和一部分3’tracrRNA序列的双链体（例如发夹结构）的示例性结构。该双链体包含突起区。

表4含有用于合成本公开的以核酸为靶的单导向核酸的DNA模板的序列。

表4.本公开的指导核酸的DNA模板

双链体变体组1AGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTATGCTGTTTTGGAAACAAAACAGCATAGCAAGTTAAAATAAG

TEMP3- GCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTT

FLT

SGR-v2AGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGAAAAAGAGCTAGAAATAGCAAGTTTTTTTAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGATATAGAGCTAGAAATAGCAAGTTATATTAAGGCTAGTCCGTTATCAACTTG

SGR-v3 AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGGATGAAAATCCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTG

SGR-v4AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGAAAATGAGGATGAAAATCCAAGTATTTTTAAGGCTAGTCCGTTATCAACTTGA

SGR-v5AAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGATTATGAGGATGAAAATCCAAGTATAATTAAGGCTAGTCCGTTATCAACTTG

SGR-v6 AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTAATTGAGGATGAAAATCCAAGTAATTATAAGGCTAGTCCGTTATCAACTTG

SGR-v7 AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGAAAATCAAGTGATGAAAATCGAGATTTTTAAGGCTAGTCCGTTATCAACTTGA

SGR-v8 AAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGAAAATGAAGGATGAAAATCCAGTATTTTTAAGGCTAGTCCGTTATCAACTTGA

SGR-v9 AAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGATTTAGAG CTAGAAATAGCAAGTTAAATTAAGG CTAGTCCGTTATCAACTTG

SGR-v10AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTCTCAGAGCTAGAAATAGCAAGTTGAGATAAGGCTAGTCCGTTATCAACTTG

SGR-v11AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTCCCAGAGCTAGAAATAGCAAGTTGGGATAAGGCTAGTCCGTTATCAACTTG

SGR-v12 AAAAAGTGGCACCGAGTCGGTGCTTTTTTT

SGR-v13 AGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGACTCAGAAATCAGAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTT

双链体变体组2AGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTAGAAATAGCTCTAAAATAAGGCTAGTCCGTTATCAACTTGAA

SGR-v14 AAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGGAAACTCTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTG

SGR-v15GCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAAATAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCG

SGR-v16AGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATATTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTG

SGR-v17AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATATTTTAGAGCTAGAAATAGCAAGTTAAAACAAGGCTAGTCCGTTATCAACTTG

SGR-v18AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGACGATAGAACGGAAACGTTGGACATCGTTAAGGCTAGTCCGTTATCAACTTG

SGR-v19AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGACGATGAGACGGAAACGTCAAGTATCGTTAAGGCTAGTCCGTTATCAACTTG

SGR-v20AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAAGACTAGAAATAGTGGACTAAAATAAGGCTAGTCCGTTATCAACTTG

SGR-v21AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATCGTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTG

SGR-v22AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTGGT

SGR-v23AGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTGCGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTG

SGR-v24AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGTGAGAAATAGCAAGTTCACATAAGGCTAGTCCGTTATCAACTTG

SGR-v25AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTAGAAATAGCAAGTTACACTAAGGCTAGTCCGTTATCAACTTG

SGR-v26AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTAGAAATAGCAAGTTAACAGAAGGCTAGTCCGTTATCAACTTG

SGR-v27AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTAGAAATAGCAAGTTAAAATAACTGGCTAGTCCGTTATCAACT

SGR-v28TGAAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTAGAAATAGCAAGTTAAAATGCTAGTCCGTTATCAACTTGAAA

SGR-v29 AAGTGGCACCGAGTCGGTGCTTTTTTT

Tracr变体组AGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTAGAAATAGCAAGTTAAAATGGAACTAGTCCGTTATCAACTTG

SGR-v30 AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTAGAAATAGCAAGTTAAAATTTCGCTAGTCCGTTATCAACTTG

SGR-v31AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGCGAAGTCCGTTATCAACTTG

SGR-v32AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTTCACCGTTATCAACTTG

SGR-v33AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTGGCTTATCAACTTG

SGR-v34AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGAATTCAACTTG

SGR-v35AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTAAGTACTTG

SGR-v36AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCATGATG

SGR-v37AAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGAATGATACATCACAAAAAA

SGR-v38-AAGGCTTTATGCCGTAACTACTACTTATTTTCAAAATAAGTAGTTTTTTT

MMOTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTT

SGR-v39-AGAGCTAGAAATAGCAAGTTAAAATAAGGCTTCATGCCGAAATCAACA

ST2CCCTGTCATTTTATGGCAGGGTGTTTTCGTTATTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTT

SGR-v40-AGAGCTAGAAATAGCAAGTTAAAATAAAGAGTTTGCGGGACTCTGCGG

CJGGTTACAATCCCCTAAAACCGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTT

SGR-v41-AGAGCTAGAAATAGCAAGTTAAAATAAGGCCGTCTGAAAAGATGTGCC

NMGCAACGCTCTGCCCCTTAAAGCTTCTGCTTTAAGGGGCATTTTTT

Cys4-标记组AGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTA

SGR-v42 TACTGCCGTATAGGCAGAGATTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTA

SGR-v43 TACTGCCGTATAGGCAGAGAAATGGACTCGGAATACTGCCGTATAGGCAGAGATTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTATCACTGCCGTATAGGCAGTGATAGCAAGTTAAAATAAGGCT

SGR-v44AGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTTAGTAATAATACGACTCACTATAGGGGGCCACTAGGGACAGGATGTTTTAGAGCTATCACTGCCGTATAGGCAGTGATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTAATGGAC

SGR-v45 TCGATACTGCCGTATAGGCAGAGATTTTTT

表2显示表1中的DNA模板的RNA序列。

表2.本公开的以核酸为靶的单导向核酸的RNA序列

Caribou

P/N 以核酸为靶的单导向核酸序列

双链体变

体组1

TEMP3- GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAUGCUGUUUUGGAAACA

FLAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v2 GGGGCCACUAGGGACAGGAUGAAAAAGAGCUAGAAAUAGCAAGUUUUUUUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v3 GGGGCCACUAGGGACAGGAUGAUAUAGAGCUAGAAAUAGCAAGUUAUAUUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v4 GGGGCCACUAGGGACAGGAUGUUUUAGAGGAUGAAAAUCCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v5 GGGGCCACUAGGGACAGGAUGAAAAUGAGGAUGAAAAUCCAAGUAUUUUUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v6 GGGGCCACUAGGGACAGGAUGAUUAUGAGGAUGAAAAUCCAAGUAUAAUUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v7 GGGGCCACUAGGGACAGGAUGUAAUUGAGGAUGAAAAUCCAAGUAAUUAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v8 GGGGCCACUAGGGACAGGAUGAAAAUCAAGUGAUGAAAAUCGAGAUUUUUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v9 GGGGCCACUAGGGACAGGAUGAAAAUGAAGGAUGAAAAUCCAGUAUUUUUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v10 GGGGCCACUAGGGACAGGAUGAUUUAGAGCUAGAAAUAGCAAGUUAAAUUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v11 GGGGCCACUAGGGACAGGAUGUCUCAGAGCUAGAAAUAGCAAGUUGAGAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v12 GGGGCCACUAGGGACAGGAUGUCCCAGAGCUAGAAAUAGCAAGUUGGGAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v13 GGGGCCACUAGGGACAGGAUGUUUUAGACUCAGAAAUCAGAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

双链体变体组2

SGR-v14 GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCUCUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v15 GGGGCCACUAGGGACAGGAUGUUUUAGAGGAAACUCUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v16 GGGGCCACUAGGGACAGGAUGUUUUAGAAAUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v17 GGGGCCACUAGGGACAGGAUAUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v18 GGGGCCACUAGGGACAGGAUAUUUUAGAGCUAGAAAUAGCAAGUUAAAACAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v19 GGGGCCACUAGGGACAGGAUGACGAUAGAACGGAAACGUUGGACAUCGUUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v20 GGGGCCACUAGGGACAGGAUGACGAUGAGACGGAAACGUCAAGUAUCGUUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v21 GGGGCCACUAGGGACAGGAUGUUUUAAGACUAGAAAUAGUGGACUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v22 GGGGCCACUAGGGACAGGAUCGUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v23 GGGGCCACUAGGGACAGGAUGUGGUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v24 GGGGCCACUAGGGACAGGAUGUUUGCGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v25 GGGGCCACUAGGGACAGGAUGUUUUAGAGUGAGAAAUAGCAAGUUCACAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v26 GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUACACUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v27 GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUAACAGAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v28 GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAACUGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v29 GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

Tracr变体组

SGR-v30 GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUGGAACUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v31 GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUUUCGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v32 GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGCGAAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v33 GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUUCACCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v34 GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUGGCUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v35 GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGAAUUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v36 GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAAGUACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v37 GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAUGAUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v38-GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUAAA

MMO AUAAGAAUGAUACAUCACAAAAAAAAGGCUUUAUGCCGUAACUACUACUUAUUUUCAAAAUAAGUAGUUUUUUUU

SGR-v39-GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUAAA

ST2 AUAAGGCUUCAUGCCGAAAUCAACACCCUGUCAUUUUAUGGCAGGGUGUUUUCGUUAUUUUUUU

SGR-v40-GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUAAA

CJ AUAAAGAGUUUGCGGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUUUUU

SGR-v41-GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUAAA

NM AUAAGGCCGUCUGAAAAGAUGUGCCGCAACGCUCUGCCCCUUAAAGCUUCUGCUUUAAGGGGCAUUUUUU

Cys4-标记组

SGR-v42 GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUAUACUGCCGUAUAGGCAGAGAUUUUUU

SGR-v43 GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUAUACUGCCGUAUAGGCAGAGAAAUGGACUCGGAAUACUGCCGUAUAGGCAGAGAUUUUUU

SGR-v44 GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAUCACUGCCGUAUAGGCAGUGAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU

SGR-v45 GGGGCCACUAGGGACAGGAUGUUUUAGAGCUAUCACUGCCGUAUAGGCAGUGAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUAAUGGACUCGAUACUGCCGUAUAGGCAGAGAUUUUUU

表5显示另一些以核酸为靶的核酸变体的活性和用途。+是指活性，-是指无活性。这些变体的实验数据显示在图37中。

表5.以核酸为靶的核酸变体和它们的活性

使用以核酸为靶的核酸生成标记细胞系的方法

本公开的方法提供用供体多核苷酸标记细胞，其中该供体多核苷酸可以分裂和/或分化，并且可以在细胞分裂过程中将供体多核苷酸传给各子细胞。可以使用如本文所述的定点多肽、以核酸为靶的核酸以及定点多肽和以核酸为靶的核酸的复合体的任一种实施该方法。

可通过使细胞与供体多核苷酸和包含定点多肽和以核酸为靶的核酸的复合体接触生成标记细胞。可以将供体多核苷酸插入裂解的靶核酸中，由此生成标记细胞。可以使该标记细胞繁殖，如在细胞系中，或产生繁殖的细胞群体。

可以使用用于同源重组的供体盒(donor cassette)将供体多核苷酸引入切割位点，所述供体盒包含与双链断裂任一侧上的序列同源的末端。该供体多核苷酸可以在两个末端之间包含附加序列。该附加序列可以是核酸序列。该附加序列可编码基因。该附加序列可编码非编码核酸元件。

该供体多核苷酸(例如在两个同源末端之间的供体多核苷酸的附加序列)可包含标记物。标记物可包含可视化标记物(例如荧光标记物，如GFP)。标记物可包含随机多核苷酸序列(例如随机六聚体序列)。标记物可以是条形码。

NHEJ可以在各切割位点引入单一序列特征。该修复机制可导致向切割位点引入插入(例如供体多核苷酸的插入)、缺失或突变。发生NHEJ以修复双链断裂的细胞在已修复后可包含单一序列(例如可以将单一序列插入双链断裂中)。如果在细胞内切割多于一个位点，修复可以在各位点引入供体多核苷酸，由此增加该细胞的序列多样性。修复的位点可以为该细胞提供单一条形码序列，其可以在细胞分裂过程中保存并传给修饰细胞的所有子代。可以将供体多核苷酸插入至少大约1、2、3、4、5、6、7、8、9或10或更多个位点(例如裂解的靶核酸)。可以将供体多核苷酸插入最多大约1、2、3、4、5、6、7、8、9或10或更多个位点(例如裂解的靶核酸)。

同源重组(HR)可用于将条形码序列引入细胞和/或细胞群体(例如人类细胞、哺乳动物细胞、酵母、真菌、原生动物、古菌)中。可以用供体盒中的随机化序列制备供体质粒(例如包含供体多核苷酸)库。该库可以由寡核苷酸、一段双链DNA、质粒和/或微环制成。

可以将供体多核苷酸序列引入各个细胞的基因组中以追踪细胞谱系。可以在基因组的沉默或“安全港(safe-harbor)”区中、远离基因和调控元件选择用于修饰的位点，以将对细胞功能的潜在有害的影响最小化。功能遗传因子内的位点也可用于追踪细胞命运。

例如，可以将供体多核苷酸引入干细胞和/或干细胞群中。本公开的方法可用于追踪动物模型中的细胞谱系发育。例如，可以使用本公开的方法追踪血细胞生成中的细胞命运发育和/或分化。本公开的方法可用于基于治疗细胞工程的疗法。例如，可以用编码治疗蛋白的供体多核苷酸标记细胞。可以使该细胞繁殖。可以将繁殖的细胞引入对象。作为另一实例，可以从对象中除去分化细胞。分化细胞可以用两种标记物标记：一种在细胞分化时表达，一种在细胞去分化时表达。标记物的识别可用于确定分化事件。在另一实例中，分化细胞可获自对象。分化细胞可以去分化成多能细胞。可以用编码治疗蛋白的供体多核苷酸标记该多能细胞。该细胞可以在表达治疗蛋白的同时再分化成新的细胞类型，由此产生患者特异性的治疗细胞。标记细胞可以分裂和分化，并且可以在细胞分裂过程中将对它们的基因组的修饰传给各子细胞。

在一些情况中，可以用两种不同的供体多核苷酸标记物标记两种细胞。可以合并这两种细胞。可以同时检测该合并的混合物。该供体多核苷酸可实现这两种细胞的多重分析，因为该供体多核苷酸可用于区分这两种细胞。

可以选择用于引入双链断裂或生成细胞特征(cellular signatures)的细胞群体。可以纯化或选择细胞。例如，可以通过FACS或磁珠纯化选择造血干细胞群体(CD45阳性)。可以用核酸酶离体处理骨髓。可以使用具有特定趋向性的病毒体内靶向细胞。可以使用工程改造为靶向带有特定受体的细胞的病毒选择细胞。

可以通过高通量测序在群体水平或在单细胞水平分析标记细胞。在群体水平，可以溶解一批细胞。可以提取基因组DNA。可以设计PCR引物以扩增已被核酸酶修饰的基因组区域。可通过杂交富集序列。可以由基因组DNA制备并富集序列库。可以富集感兴趣的区域，并可以制备序列库。可以使用包含要与核酸测序技术一起使用的适当序列标记的引物在富集过程中同时制备序列库。如果在可转录的区域内制造双链断裂，可以使用RNA制备序列库。

一旦获得核酸序列数据，可以分析这些序列以确定克隆结构。这可以通过将公共序列收集在一起并计数这些序列来进行。

可以通过基于细胞表面标记物的分选方案使用流式细胞术或亲和纯化法再选择细胞。细胞表面标记物可用于限定细胞状态，并通过将细胞状态与克隆结构进行比较，可以确定修饰细胞群体的命运。

在单细胞水平，可以分离细胞。可以由各独立细胞生成PCR产物。这可以在微孔阵列、微流控装置和/或乳状液中实现。当每个细胞进行多于一个基因组修饰时，可以将PCR产物物理或化学偶联在一起以确保它们与母细胞的关系。

定量基因组编辑事件的方法

对于RNA依赖性核酸酶，如Cas9，核酸识别功能和核酸酶活性可以相关联。在一些情况中，核酸识别功能和核酸酶活性可能无关。核酸酶位点可位于由核酸酶识别的特定序列内。

非同源末端连接可以是导致在双链断裂位点插入多个碱基的不完美修复法。NHEJ可导致向切割位点引入插入、缺失和/或突变。NHEJ可明显破坏原始序列。由于修复机制导致的原生序列破坏可用于评估基因组编辑法的效率。

同源重组能通过在类似或相同的核酸分子之间交换核苷酸序列而更完全修复靶核酸断裂。可以使用包含与双链断裂任一侧上的序列同源的末端和在两个末端之间的附加序列的供体盒(例如供体多核苷酸)在切割位点将附加序列引入靶核酸。

本公开描述了评估双链断裂活性和由核酸依赖性核酸酶，如Cas9引入的NHEJ介导的插入/缺失的方法。该方法利用了在NHEJ过程中可通过插入或缺失的引入破坏在初始核酸酶识别过程中由Cas9识别的靶核酸中的位点和核酸裂解活性的事实。

在一些情况中，该方法提供了以核酸为靶的核酸的设计以靶向靶核酸(例如基因组)中的感兴趣的位点。可以用附接在以核酸为靶的核酸的5’端的启动子序列设计编码所述以核酸为靶的核酸的核酸模板以便能体外合成所述以核酸为靶的核酸。

可以在位于裂解位点侧面的位置设计引物。可以扩增(例如由基因组核酸)裂解位点(和/或裂解位点周围的核酸区)，由此生成产物(例如扩增PCR产物)。该产物(例如扩增PCR产物)可以为至少大约100、200、300、400、500、600、700、800、900、1000、1100、1200或更多个碱基的长度。该产物(例如扩增PCR产物)可以为最多大约100、200、300、400、500、600、700、800、900、1000、1100、1200或更多个碱基的长度。该产物(例如扩增PCR产物)可以为大约200-600个碱基对的长度。

可以将该产物纯化。可以用RNA依赖性核酸酶(例如Cas9)和以核酸为靶的核酸孵育该产物。由尚未通过NHEJ修饰的基因组核酸扩增的那些分子可包含可被Cas9识别和裂解的正确序列。由已通过NHEJ修饰的基因组核酸扩增的分子可能不含可被Cas9识别和/或切割的位点。

然后可通过如凝胶电泳、毛细管电泳、高通量测序和/或定量PCR(例如qPCR)之类的方法分析消化产物。在凝胶电泳的情况下，可以将凝胶成像。一旦凝胶已成像，可以通过测量与消化产物对应的谱带强度并和与未消化产物对应的谱带强度进行比较来评估通过NHEJ修饰的细胞的百分比。

向双链断裂递送供体多核苷酸以插入双链断裂中的方法

本公开描述了使供体多核苷酸靠近定点靶核酸断裂以增强供体多核苷酸插入(例如同源重组)双链断裂位点中的方法。可以使用如本文所述的定点多肽、以核酸为靶的核酸以及定点多肽和以核酸为靶的核酸的复合体的任一种实施该方法。

在一些情况中，本公开的方法提供通过将供体多核苷酸结合到生成双链断裂的核酸酶(例如Cas9)上而使供体多核苷酸靠近靶核酸中的双链断裂位点。

可以向靶核酸递送包含定点多肽、以核酸为靶的核酸和供体多核苷酸的复合体。图30图解使供体多核苷酸靠近靶核酸中的双链断裂位点的示例性方法。例如，以核酸为靶的核酸可包含3’杂交突出端序列，其可以是tracrRNA延伸序列(以连接到以核酸为靶的核酸上的浅虚线显示)的一部分。3’杂交突出端序列可以是非天然序列。图30A显示，在以核酸为靶的核酸的3’末端的tracrRNA延伸序列可包括可与供体多核苷酸的一端(例如3’末端)(该供体多核苷酸以粗体虚线显示)杂交的序列。3’杂交突出端序列可以是至少大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸的长度。3’杂交突出端序列可以是最多大约1、2、3、4、5、6、7、8、9或10或更多个核苷酸的长度。该3’杂交序列可以与供体多核苷酸的至少大约1、2、3、4、5、5、6、7、8、9或10或更多个核苷酸杂交。该3’杂交序列可以与供体多核苷酸的最多大约1、2、3、4、5、5、6、7、8、9或10或更多个核苷酸杂交。该3’杂交序列可以以至少1、2、3、4、5、6、7、8、9或10或更多个错配与供体多核苷酸杂交。该3’杂交序列可以以最多1、2、3、4、5、6、7、8、9或10或更多个错配与供体多核苷酸杂交。

该3’杂交突出端可以与供体多核苷酸的3’末端杂交。该3’杂交突出端可以与供体多核苷酸的至少1、2、3、4、5、6、7、8、9或10或更多个3’最末端核苷酸杂交。该3’杂交突出端可以与供体多核苷酸的最多1、2、3、4、5、6、7、8、9或10或更多个3’最末端核苷酸杂交。

如图30B中所示，在以核酸为靶的核酸的3’末端的tracr核酸突出端可包括可与供体DNA的5’末端杂交的序列。该3’杂交突出端可以与供体多核苷酸的至少1、2、3、4、5、6、7、8、9或10或更多个5’最末端核苷酸杂交。该3’杂交端可以与供体多核苷酸的最多1、2、3、4、5、6、7、8、9或10或更多个5’最末端核苷酸杂交。

如图30C中所示，在以核酸为靶的核酸的3’末端的tracr核酸突出端可包括可与供体多核苷酸的3’末端和5’末端之间的区域杂交的序列。该3’杂交突出端可以与供体多核苷酸的3’和5’末端之间的至少1、2、3、4、5、6、7、8、9或10或更多个核苷酸杂交。该3’杂交突出端可以与供体多核苷酸的3’和5’末端之间的最多1、2、3、4、5、6、7、8、9或10或更多个核苷酸杂交。

如图30D中所示，在以核酸为靶的核酸的3’端的tracr核酸突出端可包括可沿供体多核苷酸的全长杂交的序列。所述以核酸为靶的核酸可沿至少大约20％、30％、40％、50％、60％、70％、80％、90％或100％的供体多核苷酸杂交。所述以核酸为靶的核酸可沿最多大约20％、30％、40％、50％、60％、70％、80％、90％或100％的供体多核苷酸杂交。该3’杂交突出端序列可以以至少大约1、2、3、4、5、6、7、8、9或10或更多个错配沿供体多核苷酸的全长杂交。该3’杂交突出端序列可以以最多大约1、2、3、4、5、6、7、8、9或10或更多个错配沿供体多核苷酸的全长杂交。

如图30E中所示，以核酸为靶的核酸的3’末端的tracr核酸突出端(例如3’杂交突出端)可包含可用作模板并被例如逆转录酶转化以生成杂交核酸(例如所得核酸是RNA-DNA杂交体，其中新转录的核酸可以是DNA)的序列。示例性的逆转录酶包括SuperScript、ThermoScript、HIV逆转录酶和MMLV逆转录酶。该逆转录酶可以从3’杂交突出端模板使供体多核苷酸序列延伸。

以核酸为靶的核酸的3’末端的tracr核酸突出端可包含可结合RNA结合蛋白(RBP)的核酸序列。该RNA-结合蛋白可以如图30F中所示融合到DNA结合蛋白(DBP)上。该DNA-结合蛋白可结合到该供体多核苷酸上。

用于使供体多核苷酸靠近双链断裂的序列可附接到以核酸为靶的核酸的5’末端(例如间隔区突出端)上。可以在以核酸为靶的核酸的5’末端和3’末端都附接用于使供体多核苷酸靠近双链断裂的序列。

本公开的方法中所用的核酸酶(例如Cas9)可包含切口酶活性，其中该核酸酶可以在靶核酸中引入单链断裂。可以使具有切口酶活性的核酸酶对靶向彼此接近的区域。第一核酸酶可结合到可与第一供体多核苷酸相互作用的第一以核酸为靶的核酸上。第二核酸酶可结合到可与第二供体多核苷酸相互作用的第二以核酸为靶的核酸上。可以将第一和第二供体多核苷酸设计成互相杂交以产生双链供体多核苷酸。可以将两个分离的供体多核苷酸带至核酸酶位点。

在一些实施方案中，该供体多核苷酸可以是单链的。在一些实施方案中，该供体多核苷酸可以是双链的。在一些实施方案中，该供体DNA可以是微环。在一些实施方案中，该供体多核苷酸可以是质粒。在一些实施方案中，该质粒可以是超螺旋的。在一些实施方案中，该供体多核苷酸可以是甲基化的。在一些实施方案中，该供体多核苷酸可以是未甲基化的。该供体多核苷酸可包含修饰。修饰可包括本文描述的那些，包括但不限于生物素化、化学缀合物和合成核苷酸。

克隆和表达包含定点多肽和以核酸为靶的核酸的载体的方法

本公开提供将工程改造的以核酸为靶的核酸克隆到载体(例如线性化载体)中的方法。可以使用如本文所述的定点多肽、以核酸为靶的核酸以及定点多肽和以核酸为靶的核酸的复合体的任一种实施该方法。

用户(例如科学家)可以设计单链DNA寡核苷酸。单链DNA寡核苷酸在杂交在一起时可以编码间隔区序列以靶向靶核酸。该单链DNA寡核苷酸可以为至少大约5、10、15、20、25、30或更多个核苷酸的长度。该单链DNA寡核苷酸可以为最多大约5、10、15、20、25、30或更多个核苷酸的长度。该单链DNA寡核苷酸可以为19-20个核苷酸的长度。

可以设计单链DNA寡核苷酸以使其可与靶核酸(例如与前间区序列邻近基序相邻的序列，如前间区序列邻近基序的3’或5’末端)杂交。该DNA寡核苷酸可以编码与靶核酸序列的有义或反义链对应的序列。

该单链寡核苷酸可包含可与靶核酸杂交和/或互补的第一部分。该单链寡核苷酸可包含可与另一单链寡核苷酸杂交和/或互补的第一部分。该单链寡核苷酸可包含可与线性化载体中的序列杂交的第二部分。换言之，一对单链寡核苷酸可包含互相杂交的第一部分和包含单链悬垂(overhangs)的第二部分，其中该悬垂可以与线性化载体中的粘性末端杂交。在一些情况中，悬垂包含5’-GTTTT-3’。在一些情况中，悬垂包含5’-CGGTG-3’。

该单链DNA核苷酸可以一起退火以生成双链寡核苷酸。单链DNA核苷酸可以在寡核苷酸退火缓冲液(例如包含Tris-HCl、EDTA和NaCl)中一起退火。可以将该双链寡核苷酸稀释至工作浓度(例如适合连接到线性化质粒中的浓度)。可以将稀释的双链寡核苷酸连接到线性化载体中。可以在连接缓冲液(例如包含Tris-HCl、MgCl₂、ATP)中用连接酶(例如T4DNA连接酶)进行连接。可以将该双链寡核苷酸在编码以核酸为靶的核酸的序列内的区域连接到线性化载体中。换言之，该线性化载体可以在编码以核酸为靶的核酸的区域内的点进行线性化，其中该线性化生成与双链寡核苷酸的粘性末端互补的粘性末端。在将双链寡核苷酸连接到载体中时，其可生成编码包含与双链寡核苷酸序列对应的间隔区序列的工程改造的以核酸为靶的核酸的序列。

可以将连接的载体转化到化学感受态细胞(例如DH5-α、Top10)中并选择正确连接的载体的表达(例如通过抗生素筛选)。可以通过测序分析所选转化体的插入物存在。可以使用与载体的一部分杂交的测序引物进行测序。

可以制备正确连接的载体(例如通过大规模DNA制备，maxiprep)并纯化。可以将包含定点多肽、以核酸为靶的核酸的载体(其中以核酸为靶的核酸包含双链DNA寡核苷酸)引入(例如转染到)所选细胞系(例如哺乳动物细胞系)中。

尽管在本文中已经显示和描述了本发明的优选实施方案，但本领域技术人员显而易见的是，仅作为实例提供这些实施方案。本领域技术人员可以在不背离本发明的情况下进行许多变动、修改和取代。应该理解的是，在实施本发明时可以使用对本文所述的本发明的实施方案的各种替代。下列权利要求旨在规定本发明的范围并由此涵盖在这些权利要求及其等同物的范围内的方法和结构。

实施例

实施例1:改变PAM特异性的定点多肽的修饰

在一些实施方案中，本公开提供修饰的定点多肽，其经修饰以改变PAM特异性。通过转染将编码修饰的定点多肽的核酸引入细胞。该修饰的定点多肽包含插入的HNH或RuvC核酸酶结构域。该修饰的定点多肽包含修饰的高度碱性补丁。也通过转染将包含可与靶核酸杂交的间隔区的以核酸为靶的核酸引入细胞。该修饰的定点多肽和该以核酸为靶的核酸形成复合体。通过该以核酸为靶的核酸将该复合体导向靶核酸。一旦与所述以核酸为靶的核酸杂交，靶核酸被该定点多肽的核酸酶结构域裂解。在一些实施方案中，该修饰的定点多肽以较低Kd结合到靶核酸上。

在一些实施方案中，也将供体多核苷酸引入细胞。在一些情况中，将供体多核苷酸、供体多核苷酸的一部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的一部分插入裂解的靶核酸中。

实施例2:改变靶核酸特异性的定点多肽的修饰

在一些实施方案中，本公开提供修饰的定点多肽，其经修饰以改变靶核酸特异性。将修饰的定点多肽引入细胞。该修饰的定点多肽在高度碱性补丁和/或HNH样结构域中包含修饰。也将包含可与靶核酸杂交的间隔区的以核酸为靶的核酸引入细胞。该修饰的定点多肽和该以核酸为靶的核酸形成复合体。通过该以核酸为靶的核酸将该复合体导向靶核酸。一旦与所述以核酸为靶的核酸杂交，靶核酸被该定点多肽裂解。在一些实施方案中，该修饰的定点多肽以较低Kd结合到靶核酸上。

实施例3:定点多肽的重组表达

可以组装重组DNA序列，其编码修饰的定点多肽，并能在宿主有机体中表达该修饰的定点多肽。该重组DNA序列包含启动子序列并可另外包含用于纯化的亲和标记或表位标记(epitope tag)。在一个非限制性实例中，质粒包含用于表达该修饰的定点多肽的重组DNA序列。

重组蛋白的生产

将编码定点修饰多肽的质粒引入细菌细胞(例如大肠杆菌)。在细菌细胞中表达该多肽，然后使用色谱法从细胞裂解液中纯化。使用为确定该修饰多肽的特异性、PAM序列、该定点多肽的特异性状况和该多肽的核酸偏好(例如DNA或RNA或修饰核酸)设计的检测方法测量该修饰的定点多肽的活性。

设计软件以选择可使用该修饰的定点多肽切割的位点。设计指导RNA序列以引导定点多肽的活性。一旦设计好，使用该定点多肽裂解核酸。

将修饰的定点多肽引入细胞

将该修饰肽引入细胞以靶向靶核酸位点。使用保持核酸酶活性的多肽将单链或双链DNA断裂引入靶DNA。使用具有DNA结合活性但没有DNA切割活性的多肽将双链DNA与细胞结合。这可用于实现转录活化或阻遏。

实施例4:CAS9序列内的修饰位点的选择

如上所述，可以基于它们的CRISPR-Cas基因座的分析将含有Cas9直系同源物的II型CRISPR系统分类成三组(II-A型、II-B型和II-C型)。这些组内的Cas9直系同源物可以粗略地由包含较短(Cas9/Csn1型)和较长(Cas9/Csx12型)序列的两个进化枝定义。除这些较大的组别外，还可以有另外两个同源物家族，其包含以与Cas9类似的拓扑布置的HNH和RuvC结构域，但在保守序列元件之间的插入物的长度和序列明显不同。二级结构预测和序列比对用于限定供修饰的多肽区域。选择落在二级结构元件之间或具有高序列保守性的区域之间的区域作为供插入或缺失的候选区域。分析与已知结构的结构域具有类似性的区域以指定用于插入或缺失序列的特定区域。

图35显示少数多样化的Cas9直系同源物的CDD序列比对TIGR0185。在其下方带有“X”的氨基酸被认为类似。在其下方带有“Y”的氨基酸被认为在所有序列中高度保守或相同。没有“X”或“Y”的氨基酸残基不保守。这种比对不包括较长的Cas9直系同源物的C-末端区(大致相当于氨基酸残基1100-1350)。表6中列出图35中列举的序列。

表6.图35中列举的序列

新功能结构域的插入位置、替代序列的插入区域、或区域大小缺失或降低的区域(这改变Cas9活性)可包括，但不限于，表7中指出的区域。数字代表基于来自化脓性链球菌M1GAS的Cas9序列的氨基酸序列数。

表7.用于修饰Cas9的示例性位置

一旦某一区域被鉴定为用于将新多肽序列插入该蛋白，或缺失该蛋白的区域的潜在位置，修饰编码该蛋白质的DNA序列以加入该修饰。

实施例5:定点多肽结合的靶核酸的序列富集

本公开提供使用定点多肽的无扩增的序列富集方法。

在一些实施方案中，该方法将包括a)使靶核酸与包含以核酸为靶的核酸和定点多肽的复合体接触，b)裂解所述靶核酸，c)纯化所述靶核酸，和d)将所述靶核酸测序，其中所述靶核酸被富集。

在一些实施方案中，该定点多肽将是无酶活性的。无酶活性的定点多肽的使用将促进靶核酸结合到该定点多肽复合体上。在一些实施方案中，该定点多肽将是有酶活性的。

在一些实施方案中，将在细胞外进行序列富集(例如无细胞样品)。例如，样品包含纯化基因组DNA。在一些实施方案中，将在细胞样品(例如细胞、细胞裂解液)上进行序列富集。

在一些情况中，将该定点多肽-靶核酸复合体固定或交联以形成复合体。如果在细胞上进行该方法，将细胞溶解。选择溶解条件以保持完整的蛋白质-DNA复合体。

在亲和纯化之前处理该核酸样品以将靶核酸片段化。可通过物理、机械或酶法进行片段化。物理片段化包括使靶多核苷酸暴露在热或紫外线(UV)下。机械破碎用于将靶多核苷酸机械剪切成所需范围的片段。可通过许多方法，包括靶多核苷酸的反复移液、超声处理和雾化实现机械剪切。也使用酶法将靶核酸片段化。在一些情况中，将使用酶，如使用限制酶进行酶消化。将使用限制酶进行靶多核苷酸的特异性或非特异性片段化。该方法将使用一种或多种类型的限制酶，通常被描述为I型酶、II型酶和/或III型酶。II型和III型酶识别双链多核苷酸序列内的核苷酸的特定序列(“识别序列”或“识别位点”)。在结合和识别这些序列后，II型和III型酶裂解该多核苷酸序列。在一些情况中，裂解会产生具有一部分悬垂的单链核酸的多核苷酸片段，被称作“粘性末端”。在另一些情况中，裂解将不产生具有悬垂的片段，以产生“平端”。该方法可包括使用生成粘性末端或平端的限制酶。

一经片段化，通过用固体支持物孵育来纯化包含定点多肽的复合体。例如，如果该定点多肽包含生物素标记，将用亲和素或链霉亲和素涂布该固体支持物以与该生物素标记结合。

在另一实施方案中，一经片段化，通过用捕获剂孵育，纯化包含定点多肽、靶核酸和/或以核酸为靶的核酸的复合体。捕获剂会结合到与定点多肽融合的亲和标记上。捕获剂将包含抗体。例如，如果与定点多肽融合的亲和标记是FLAG标记，则该捕获剂是抗-FLAG-标记抗体。

在一些实施方案中，用固体支持物纯化该捕获剂。例如，如果该捕获剂包含生物素标记，用亲和素或链霉亲和素涂布该固体支持物以结合该生物素化捕获剂。

在一些实施方案中，以核酸为靶的核酸包含亲和标记。该亲和标记包含可结合到核糖核酸内切酶上的序列。在一些情况中，该亲和标记包含可结合到有条件地无酶活性的核糖核酸内切酶上的序列。该有条件地无酶活性的核糖核酸内切酶会结合但不裂解该亲和标记。

在一些实施方案中，核糖核酸内切酶和/或有条件地无酶活性的核糖核酸内切酶包含亲和标记。

用固体支持物纯化该有条件地无酶活性的核糖核酸内切酶。该固体支持物会与该有条件地无酶活性的核糖核酸内切酶的亲和标记结合。例如，如果该有条件地无酶活性的核糖核酸内切酶包含生物素标记，将用亲和素或链霉亲和素涂布该固体支持物以结合该生物素化捕获剂。

在一些实施方案中，将该有条件地无酶活性的核糖核酸内切酶固定在各种不可溶支持物上。

在该方法的一些实施方案中，进行两轮纯化。在一些情况中，第一轮将包括用会与捕获剂的亲和标记结合的固体支持物纯化，第二轮将包括用会与定点多肽的亲和标记结合的固体支持物纯化。在一些情况中，第一轮将包括用会与定点多肽的亲和标记结合的固体支持物纯化，第二轮将包括用会与捕获剂的亲和标记结合的固体支持物纯化。

在一些实施方案中，本公开的方法用于多重序列富集。在这一实施方案中，可以使多个以核酸为靶的核酸与核酸样品接触，其中各个以核酸为靶的核酸被工程改造以靶向核酸样品内的不同靶核酸(例如基因组中的序列)。

捕获的复合体包含靶核酸。通过标准方法，包括高盐洗涤、乙醇沉淀、沸腾、凝胶纯化等从定点多肽复合体中洗脱靶核酸。

通过连接一个或多个连接物，制备洗脱的DNA以供测序分析。

如本文所述对该测序库进行测序。分析序列库以鉴定多态性、诊断疾病、确定疾病的疗程和/或生成抗体库。

实施例6:未结合到包含定点多肽的复合体上的靶核酸的序列富集

在一些实施方案中，用有酶活性的定点多肽进行序列富集。在一些情况中，该定点多肽是有酶活性的。在这种情况中，靶核酸不会结合到该定点多肽上，而是会被切除。

鉴定靶核酸，并设计以核酸为靶的核酸以将定点多肽导向靶核酸侧面的序列。用包含设计好的以核酸为靶的核酸和定点多肽的复合体孵育该样品以使该定点多肽裂解靶核酸两端的DNA。在靶核酸裂解后，该靶核酸从母体核酸上裂解。将裂解的靶核酸纯化(例如通过凝胶电泳、从珠子或其它羧酸盐衍生珠子中尺寸选择性洗脱，或通过用适当浓度的盐和PEG沉淀以优先沉淀较大或较小的DNA)。

在一些实施方案中，在细胞外进行序列富集(例如无细胞样品)。例如，样品包含纯化基因组DNA。在一些实施方案中，在细胞样品(例如细胞、细胞裂解液)上进行序列富集。

如果在细胞上进行该方法，将细胞溶解。选择溶解条件以保持完整的蛋白-DNA复合体。

在一些实施方案中，待测序的靶核酸将不与以核酸为靶的核酸和/或定点多肽结合。在这一实施方案中，会纯化并移除结合到定点多肽和/或以核酸为靶的核酸上的核酸。定点多肽的纯化如上文所述进行。简言之，通过用固体支持物孵育，纯化包含定点多肽的复合体。例如，如果该定点多肽包含生物素标记，用亲和素或链霉亲和素涂布该固体支持物以与该生物素标记结合。

在另一实施方案中，一经片段化，通过用捕获剂孵育，纯化包含定点多肽、以核酸为靶的核酸和非靶核酸的复合体。捕获剂会结合到与定点多肽融合的亲和标记上。捕获剂包含抗体。例如，如果与定点多肽融合的亲和标记是FLAG标记，则该捕获剂是抗-FLAG-标记抗体。

用固体支持物纯化该捕获剂。例如，如果该捕获剂包含生物素标记，则用亲和素或链霉亲和素涂布该固体支持物以结合该生物素化捕获剂。

在一些实施方案中，本公开的方法用于多重序列富集。在这一实施方案中，可以将多个以核酸为靶的核酸引入细胞，其中各个以核酸为靶的核酸被工程改造以靶向不同靶核酸(例如基因组中的序列)。

捕获的复合体将不含靶核酸。

该靶核酸包含未结合到包含定点多肽的复合体上的核酸。可通过标准核酸纯化法(例如市售PCR纯化试剂盒、琼脂糖凝胶)收集靶核酸。

通过连接一个或多个如本文所述的连接物，制备收集的靶核酸以供测序分析(例如深度测序)。

分析测序后的靶核酸以鉴定多态性、诊断疾病、确定疾病的疗程和/或生成抗体库。

实施例7:测序

制备洗脱的靶核酸以供测序分析。供测序分析的制备包括生成洗脱的靶核酸的测序库。测序分析将确定定点多肽的脱靶结合位点的性质(identity)和频率。

使用以固有并行的方式确定许多(通常数千至数十亿)核酸序列的方法进行序列确定，其中优选使用高通量串行法并行读出许多序列。这样的方法包括但不限于焦磷酸测序(例如，如454Life Sciences,Inc.,Branford,Conn.商业化)；通过连接测序(例如，如在SOLiD^TM技术中商业化,Life Technology,Inc.,Carlsbad,Calif.)；通过用修饰核苷酸合成测序(如在Illumina,Inc.,San Diego,Calif.的TruSeq^TM和HiSeq^TM技术、HelicosBiosciences Corporation,Cambridge,Mass.的HeliScope^TM和Pacific Biosciences ofCalifornia,Inc.,Menlo Park,Calif.的PacBio RS中商业化)、通过离子检测技术测序(Ion Torrent,Inc.,South San Francisco,Calif.)；DNA纳米球的测序(CompleteGenomics,Inc.,Mountain View,Calif.)；纳米孔基测序技术(例如，如Oxford NanoporeTechnologies,LTD,Oxford,UK开发)、毛细管测序(例如，如Molecular Dynamics在MegaBACE中商业化)、电子测序、单分子测序(例如，如Pacific Biosciences,Menlo Park,Calif.在SMRT^TM技术中商业化)、微滴微流控测序、通过杂交测序(如Affymetrix,SantaClara,Calif商业化)、硫酸氢盐测序和其它已知的高度并行化测序法。

在一些实施方案中，通过微阵列分析进行测序。

实施例8:抗体库的生成

本文中公开的方法用于生成蛋白库(例如抗体库)。蛋白库可用于制备表达库，其用于筛选在治疗学、试剂和/或诊断学中使用的蛋白(例如抗体)。蛋白库还可用于合成和/或克隆另外的抗体。

通过将以核酸为靶的核酸工程改造以与编码免疫球蛋白的靶核酸序列杂交，生成蛋白库。使用本文所述的方法纯化包含定点多肽和以核酸为靶的核酸的复合体。在一些实施方案中，与所述以核酸为靶的核酸杂交的核酸是靶核酸并使用本文所述的方法洗脱和测序。在一些实施方案中，与所述以核酸为靶的核酸杂交的核酸不是靶核酸。该靶核酸是在多个复合体(例如包含定点多肽和以核酸为靶的核酸的复合体)的裂解位点之间切除的核酸。该切除的靶核酸使用本文所述的方法纯化和测序。

实施例9:基因分型

本文中公开的方法用于进行人白细胞抗原(HLA)分型。HLA基因属于人类最多态的基因中的一些。理解这些区域的基因型对获得组织和器官移植物的良好匹配是重要的。

为了进行HLA分型，将以核酸为靶的核酸工程改造以与HLA基因中的靶核酸序列杂交。使用本文所述的方法纯化包含定点多肽和以核酸为靶的核酸的复合体。在一些实施方案中，与所述以核酸为靶的核酸杂交的核酸是靶核酸并使用本文所述的方法洗脱和测序。在一些实施方案中，与所述以核酸为靶的核酸杂交的核酸不是靶核酸。该靶核酸是在多个复合体(例如包含定点多肽和以核酸为靶的核酸的复合体)的裂解位点之间切除的核酸。该切除的靶核酸使用本文所述的方法纯化和测序。

实施例10:定点多肽免疫沉淀

本公开提供用于核酸酶免疫沉淀和测序(NIP-Seq)的方法。在一些实施方案中，该方法包括a)使核酸样品与无酶活性的定点多肽接触，其中所述无酶活性的定点多肽结合靶核酸，由此形成复合体，b)用捕获剂捕获所述复合体，和c)将所述靶核酸测序。在一些实施方案中，该方法进一步包括d)确定脱靶结合位点的性质(identity)。

在一些实施方案中，在细胞外进行本公开的方法。例如，样品包含纯化的基因组DNA。

将该定点多肽-靶核酸复合体固定或交联以形成复合体。

在亲和纯化之前处理该核酸(例如基因组DNA)以将DNA片段化。可通过物理、机械或酶法进行片段化。物理片段化可包括使靶多核苷酸暴露在热或紫外线(UV)下。机械破碎可用于将靶多核苷酸机械剪切成所需范围的片段。可通过本领域中已知的许多方法，包括靶多核苷酸的反复移液、超声处理和雾化实现机械剪切。也可以使用酶法将靶多核苷酸片段化。在一些情况中，可以使用酶，如使用限制酶进行酶消化。可以使用限制酶进行靶多核苷酸的特异性或非特异性片段化。该方法可以使用一种或多种类型的限制酶，通常被描述为I型酶、II型酶和/或III型酶。II型和III型酶通常可购得并且是本领域中公知的。II型和III型酶识别双链多核苷酸序列内的核苷酸的特定序列(“识别序列”或“识别位点”)。在结合和识别这些序列后，II型和III型酶裂解多核苷酸序列。在一些情况中，裂解会产生具有一部分悬垂的单链DNA的多核苷酸片段，被称作“粘性末端”。在另一些情况中，裂解不产生具有悬垂的片段，以产生“平端”。该方法可包括使用生成粘性末端或平端的限制酶。

一经片段化，通过用固体支持物孵育纯化包含定点多肽的复合体。例如，如果该定点多肽包含生物素标记，则用亲和素或链霉亲和素涂布该固体支持物以与该生物素标记结合。

在另一实施方案中，一经片段化，通过用捕获剂孵育，纯化包含定点多肽、靶核酸和/或以核酸为靶的核酸的复合体。捕获剂会结合到与定点多肽融合的亲和标记上。捕获剂包含抗体。例如，如果与定点多肽融合的亲和标记是FLAG标记，则该捕获剂是抗-FLAG-标记抗体。

用固体支持物纯化该捕获剂。例如，如果该捕获剂包含生物素标记，用亲和素或链霉亲和素涂布该珠粒以结合该生物素化捕获剂。

在该方法的一些实施方案中，进行两轮或更多轮纯化。第一轮包括用可与捕获剂的亲和标记结合的固体支持物纯化，第二轮包括用可与定点多肽的亲和标记结合的固体支持物纯化。第一轮包括用会与定点多肽的亲和标记结合的固体支持物纯化，第二轮包括用会与捕获剂的亲和标记结合的固体支持物纯化。

在一些实施方案中，该方法用于通过进行该方法多于一次来优化定点多肽的结合特异性。

捕获的复合体包含定点多肽和靶核酸。通过标准方法，包括高盐洗涤、乙醇沉淀、沸腾、凝胶纯化等从定点多肽复合体中洗脱靶核酸。

使用标准方法制备洗脱的DNA以供测序分析做准备。使该测序库测序并分析以鉴定序列和核酸酶-结合位点的频率。

在一些实施方案中，该方法进行多次。在一些实施方案中，所述方法进一步包括收集数据和存储数据。该数据可以收集并存储在计算机服务器中。

实施例11:体内定点多肽免疫沉淀

在一些实施方案中，该方法包括：a)将无酶活性的定点多肽引入细胞，其中所述无酶活性的定点多肽结合靶核酸，由此形成复合体，b)用捕获剂捕获所述复合体，和c)将所述靶核酸测序。在一些实施方案中，该方法进一步包括d)测定脱靶结合位点的性质(identity)。

在一些情况中，该定点多肽包含亲和标记。在本文中已经描述了包含亲和标记的多肽。

将细胞固定或交联。将固定和/或交联的细胞溶解。选择溶解条件以保持完整的蛋白-DNA复合体。在亲和纯化之前处理该细胞裂解液以将DNA片段化。在本文中描述了合适的片段化技术。

一经片段化，通过用固体支持物孵育，从该细胞裂解液中纯化包含定点多肽、靶核酸和/或以核酸为靶的核酸的复合体。例如，如果该定点多肽包含生物素标记，用亲和素或链霉亲和素涂布该固体支持物以与该生物素标记结合。

在另一实施方案中，一经片段化，通过用捕获剂孵育，从该细胞裂解液中纯化包含定点多肽的复合体。捕获剂会结合到与定点多肽融合的亲和标记上。捕获剂包含抗体。例如，如果与定点多肽融合的亲和标记是FLAG标记，则该捕获剂是抗-FLAG-标记抗体。

在一些实施方案中，该捕获剂包含亲和标记。用固体支持物纯化该捕获剂。该固体支持物会与捕获剂的亲和标记结合。例如，如果该捕获剂包含生物素标记，用亲和素或链霉亲和素涂布该珠子以结合该生物素化捕获剂。

在该方法的一些实施方案中，进行两轮纯化。在一些情况中，第一轮包括用会与捕获剂的亲和标记结合的固体支持物纯化，第二轮包括用会与定点多肽的亲和标记结合的固体支持物纯化。在一些情况中，第一轮包括用会与定点多肽的亲和标记结合的固体支持物纯化，第二轮包括用会与捕获剂的亲和标记结合的固体支持物纯化。

制备洗脱的DNA以供测序分析。由洗脱的靶核酸制定测序库。对该测序库测序并分析以鉴定序列和核酸酶-结合位点的频率。

实施例12:使用无酶活性的核糖核酸内切酶捕获剂的免疫沉淀

确定核酸酶的脱靶结合位点的性质的方法包括：a)使核酸样品与无酶活性的定点多肽和以核酸为靶的核酸接触，其中所述无酶活性的定点多肽和以核酸为靶的核酸结合靶核酸，由此形成复合体，b)用捕获剂捕获所述复合体，其中所述捕获剂包含有条件地无酶活性的定点多肽，c)将所述靶核酸测序，和d)确定脱靶结合位点的性质。这种方法设计成在无细胞的核酸样品和/或源自细胞的核酸样品上进行。

将该定点多肽-靶核酸复合体固定或交联以形成复合体。

如果该核酸样品源自细胞，将固定和/或交联的复合体溶解。选择溶解条件以保持完整的蛋白质-DNA复合体。在亲和纯化之前处理该细胞裂解液以将DNA片段化。如果该核酸样品源自无细胞的样品，处理无细胞的核酸以将DNA片段化。在本文中描述了合适的片段化技术。

在一些实施方案中，以核酸为靶的核酸包含亲和标记。该亲和标记包含可结合到有条件地无酶活性的定点多肽上的序列。在一些情况中，该亲和标记包含可结合到有条件地无酶活性的核糖核酸内切酶上的序列。在一些情况中，该亲和标记包含可结合到有条件地无酶活性的Csy4蛋白上的序列。该有条件地无酶活性的定点多肽会结合但不裂解该亲和标记。该亲和标记包含核苷酸序列5'-GUUCACUGCCGUAUAGGCAGCUAAGAAA-3’。使用标准重组方法将该亲和标记引入核酸。

一经片段化，通过用有条件地无酶活性的定点多肽(例如变体Csy4)孵育，纯化包含定点多肽、靶核酸和/或以核酸为靶的核酸的复合体。

在一些实施方案中，该有条件地无酶活性的定点多肽包含亲和标记。

用固体支持物纯化该有条件地无酶活性的定点多肽。该固体支持物会与该有条件地无酶活性的定点多肽的亲和标记结合。例如，如果该有条件地无酶活性的定点多肽包含生物素标记，用亲和素或链霉亲和素涂布该珠子以结合该生物素化捕获剂。

在一些实施方案中，将该无酶活性的定点多肽固定在任何各种不可溶载体上。

在该方法的一些实施方案中，进行两轮纯化。在一些情况中，第一轮包括用会与有条件地无酶活性的定点多肽(例如变体Csy4)的亲和标记结合的固体支持物纯化，第二轮包括用会与定点多肽的亲和标记结合的固体支持物纯化。在一些情况中，第一轮包括用会与定点多肽的亲和标记结合的固体支持物纯化，第二轮包括用会与有条件地无酶活性的定点多肽(例如变体Csy4)的亲和标记结合的固体支持物纯化。

制备洗脱的DNA以供测序分析。对该测序库测序并分析以鉴定序列和核酸酶-结合位点的频率。

实施例13:测序

制备洗脱的靶核酸以供测序分析。供测序分析的制备包括生成洗脱的靶核酸的测序库。测序分析将确定定点多肽的脱靶结合位点的性质和频率。

也使用以固有并行的方式确定许多(通常数千至数十亿)核酸序列的方法进行序列确定，其中优选使用高通量串行法并行读出许多序列。这样的方法包括但不限于焦磷酸测序(例如，如454Life Sciences,Inc.,Branford,Conn.商业化)；通过连接测序(例如，如在SOLiD^TM技术中商业化,Life Technology,Inc.,Carlsbad,Calif.)；通过用修饰核苷酸合成测序(如在Illumina,Inc.,San Diego,Calif.的TruSeq^TM和HiSeq^TM技术、HelicosBiosciences Corporation,Cambridge,Mass.的HeliScope^TM和Pacific Biosciences ofCalifornia,Inc.,Menlo Park,Calif.的PacBio RS中商业化)、通过离子检测技术测序(Ion Torrent,Inc.,South San Francisco,Calif.)；DNA纳米球的测序(CompleteGenomics,Inc.,Mountain View,Calif.)；纳米孔基测序技术(例如，如Oxford NanoporeTechnologies,LTD,Oxford,UK开发)和其它已知的高度并行化测序法。

实施例14:用效应蛋白修饰靶核酸

将包含定点多肽、以核酸为靶的核酸和/或效应蛋白的载体引入细胞。一旦在细胞内，形成包含该载体中编码的元件的复合体。用Csy4蛋白结合序列修饰所述以核酸为靶的核酸。效应蛋白Csy4结合到所述以核酸为靶的修饰核酸上。Csy4包含修饰靶核酸的非天然序列(例如融合体)。该非天然序列是修饰靶核酸的转录的序列。该非天然序列是转录因子。该转录因子提高靶核酸的转录水平。在一些情况中，该非天然序列是甲基化酶。甲基化酶导致靶核酸的甲基化提高。在一些情况中，该非天然序列是脱甲基酶。脱甲基酶导致靶核酸的甲基化降低。在一些情况中，该非天然序列是Rad51募集肽。该Rad51募集肽提高靶位点的同源重组水平。在一些情况中，该非天然序列是BCRA-2募集肽。该BRCA-2募集肽提高靶位点的同源重组水平。

实施例15:使用定点多肽作为遗传移动事件的生物传感器

将包含定点多肽、以核酸为靶的核酸和/或效应蛋白的载体引入细胞。该定点多肽和效应蛋白融合到细胞定位序列(例如细胞核定位信号)上。一旦在细胞内，形成包含该载体中编码的元件的复合体。在一些情况中，将两种载体引入细胞。该载体编码第一效应蛋白(Csy4)，其包含分离的绿色荧光蛋白(GFP)的第一无活性部分并结合到第一以核酸为靶的核酸上，和第二效应蛋白(Csy4、Cas5或Cas6)，其包含分离的GFP的第二无活性部分并结合到第二以核酸为靶的核酸上。用可与第一Csy4、Cas5或Cas6蛋白结合的第一Csy4、Cas5或Cas6蛋白结合序列修饰第一以核酸为靶的核酸。用可与第二Csy4、Cas5或Cas6蛋白结合的第二Csy4、Cas5或Cas6蛋白结合序列修饰第二以核酸为靶的核酸。在一些实施方案中，第一Csy4、Cas5或Cas6蛋白与第一Csy4、Cas5或Cas6蛋白结合序列相互作用，且第二Csy4、Cas5或Cas6蛋白与第二Csy4、Cas5或Cas6蛋白结合序列相互作用。当第一和第二以核酸为靶的核酸引导该定点多肽结合到两个靠近的序列上时，第一效应蛋白和第二效应蛋白会使该分离的GFP的第一无活性部分与该分离的GFP的第二无活性部分接触，以生成活性GFP。设计该复合体的以核酸为靶的核酸以使一种以核酸为靶的核酸将该复合体导向例如Bcr基因处或其附近的区域，另一以核酸为靶的核酸将该复合体导向例如Abl基因处或其附近的区域。如果尚未发生易位事件，Bcr基因在染色体22上且Abl基因在染色体9上，且这些靶核酸序列相距足够远以使该分离GFP体系的两个无活性部分不能相互作用，由此不生成信号。如果已发生易位事件，Bcr基因和Abl基因易位以使这些基因靠近在一起。在这种情况下，这些靶核酸序列足够靠近以使该分离GFP体系的两个无活性部分结合形成活性GFP。可通过荧光计检测到GFP信号。该信号指示由该遗传移动事件造成的特定基因型。

实施例16:使用定点多肽作为遗传突变的生物传感器

实施例2中描述的系统也可用于检测细胞内特定突变的存在。在此实施例中，选择第一以核酸为靶的核酸以将定点多核苷酸导向位于突变位点附近的天然序列。选择第二以核酸为靶的核酸以识别突变序列(例如已通过DNA测序鉴定的突变序列)。选择以核酸为靶的核酸以使该突变序列存在于该位点中的PAM序列的紧接5’的首12个核酸内。在这种情况下，这些靶核酸序列足够靠近以使该分离GFP体系的两个无活性部分结合形成活性GFP。可通过荧光计检测到GFP信号。该信号指示特定基因型。

实施例17:使用定点多肽作为包含遗传移动事件的疾病的治疗剂

也将包含定点多肽、以核酸为靶的核酸和/或效应蛋白、含有可操作地与第一启动子连接的细胞溶解诱导肽(例如腺病毒死亡蛋白)的核酸的载体引入细胞。一旦在细胞内，形成包含该载体中编码的元件的复合体。在一些情况中，将两种载体引入细胞。该载体编码与第一以核酸为靶的核酸结合并包含与第一启动子结合的第一转录因子的活化结构域的第一效应蛋白(包含第一Csy4、Cas5或Cas6蛋白序列)，和与第二以核酸为靶的核酸结合并包含第一转录因子的DNA结构域的第二效应蛋白(包含第二Csy4、Cas5或Cas6蛋白序列)。用可被第一Csy4、Cas5或Cas6蛋白序列结合的第一Csy4、Cas5或Cas6蛋白结合序列修饰第一以核酸为靶的核酸。用可被第二Csy4、Cas5或Cas6蛋白结合的第二Csy4、Cas5或Cas6蛋白结合序列修饰第二以核酸为靶的核酸。在一些实施方案中，第一Csy4、Cas5或Cas6蛋白优先与第一Csy4、Cas5或Cas6蛋白结合序列相互作用，第二Csy4、Cas5或Cas6蛋白优先与第二Csy4、Cas5或Cas6蛋白结合序列相互作用。如果病变细胞包含含有遗传移动事件的基因组，当第一和第二以核酸为靶的核酸引导该定点多肽与两个靠近的序列结合时，第一效应蛋白和第二效应蛋白会使第一转录因子的活化结构域和DNA-结合域靠近。第一转录因子的DNA-结合域可结合到与细胞溶解诱导肽可操作地连接的第一启动子上，且邻近的活化结构域会诱导编码该细胞溶解诱导肽的RNA的转录。在不含遗传移动事件的非病变细胞中，不会使第一转录因子的DNA-结合域和活化结构域靠近，并且不会有细胞溶解诱导肽转录。

设计该复合体的以核酸为靶的核酸以使一种以核酸为靶的核酸将该复合体导向例如Bcr基因处或其附近的区域，另一以核酸为靶的核酸将该复合体导向例如Abl基因处或其附近的区域。在非病变细胞中，尚未发生易位事件，Bcr基因在染色体22上且Abl基因在染色体9上，且这些靶核酸序列相距足够远以使该转录因子体系的两个无活性部分不能相互作用，并且无法诱导细胞溶解诱导肽的转录。在已发生易位事件的病变细胞中，Bcr基因和Abl基因易位从而这些基因靠近在一起。在这种情况下，这些靶核酸序列足够靠近以使该转录因子体系的两个无活性部分结合以诱导细胞死亡诱导肽的转录。细胞溶解依赖于由该遗传移动事件造成的特定基因型。

实施例18:使用定点多肽作为包含遗传突变的疾病的治疗剂

实施例4中描述的系统也可用于检测细胞内特定突变的存在。在此实施例中，选择第一以核酸为靶的核酸以将定点多核苷酸导向位于突变位点附近的天然序列。选择第二以核酸为靶的核酸以识别突变序列(例如已通过DNA测序鉴定的突变序列)。选择以核酸为靶的核酸以使该突变序列存在于该位点中的PAM序列的紧接5’的首12个核酸内。在这种情况下，这些靶核酸序列足够靠近以使该转录因子体系的两个无活性部分结合以实现细胞溶解诱导肽的转录。

实施例19:募集免疫系统攻击含有遗传移动事件或遗传突变的病变组织

实施例4和/或5中描述的系统也可用于指导借助分离的转录因子体系转录，这导致在细胞表面上展示出抗原。在一些情况中，该抗原是由MHC II型分子展示的肽。在一些情况中，该抗原是将免疫效应细胞募集到该位点的细胞表面蛋白。

实施例20:检测核酸的三维位置

将包含定点多肽、以核酸为靶的核酸和/或效应蛋白的载体引入细胞。一旦在细胞内，形成包含该载体中编码的元件的复合体。将两种载体引入细胞。一种载体编码效应蛋白(Csy4)，其包含分离的亲和标记体系的第一无活性部分。第二种载体编码效应蛋白(Csy4、Cas5或Cas6)，其包含分离的亲和标记的第二无活性部分。用Csy4、Cas5或Cas6蛋白结合序列修饰该复合体的以核酸为靶的核酸。效应蛋白结合到修饰的以核酸为靶的核酸上。设计以核酸为靶的核酸以将该复合体导向三维核酸结构(例如染色质)中的感兴趣的区域。如果这些靶序列在空间上不靠近，则该分离的亲和标记的两个无活性部分不能相互作用。如果这些靶序列在空间上靠近，则该分离的亲和标记的两个无活性部分可以结合形成完整的亲和标记。

溶解该细胞并用与该亲和标记结的抗体孵育细胞裂解液。将该抗体纯化，由此纯化该亲和标记和与该复合体结合的核酸。使用高盐洗涤从该复合体中解离纯化的核酸。制备解离的纯化核酸以供测序分析，并测序。测序结果对应于在三维空间中靠近的染色质区域。该测序结果可用于进一步理解基因表达和治疗疾病。

实施例21:多重基因组工程

将包含多重遗传靶向剂的载体引入细胞，所述多重遗传靶向剂包括包含以核酸为靶的核酸和核糖核酸内切酶结合序列的核酸模块。在一些实施方案中，该细胞已包含定点多肽和核糖核酸内切酶。在一些情况中，使该细胞与包含编码定点多肽的多核苷酸序列的载体和包含编码核糖核酸内切酶的多核苷酸序列的载体接触。在一些情况中，使该细胞与包含编码定点多肽和核糖核酸内切酶的多核苷酸序列的载体接触。在一些实施方案中，该载体包含编码一个或多个核糖核酸内切酶的多核苷酸序列。在一些实施方案中，该载体包含编码多重遗传靶向剂、定点多肽和一个或多个核糖核酸内切酶的多核苷酸序列。将该阵列转录为RNA。所述一个或多个核糖核酸内切酶与多重遗传靶向剂中的所述一个或多个内切核糖核酸酶结合序列结合。所述一个或多个核糖核酸内切酶裂解多重遗传靶向剂中的所述一个或多个核糖核酸内切酶结合序列，由此释放独立的核酸模块。在一些实施方案中，该核酸模块包含所有、一些或不包含核糖核酸内切酶结合序列。

释放的核酸模块与定点多肽结合，由此形成复合体。该复合体靶向一个或多个靶核酸。所述一个或多个核酸模块与所述一个或多个靶核酸杂交。所述一个或多个定点多肽在由核酸模块限定的裂解位点裂解所述一个或多个靶核酸，由此产生一个或多个修饰的靶核酸。

在一些实施方案中，将一个或多个供体多核苷酸和/或编码其的载体引入该细胞。将一个或多个供体多核苷酸并入所述一个或多个裂解的靶核酸中，由此产生一个或多个修饰的靶核酸(例如添加)。在一些情况中，将相同的供体多核苷酸并入多个裂解位点中。在一些情况中，将一个或多个供体多核苷酸并入多个裂解位点中。在一些情况中，不向细胞中引入供体多核苷酸和/或编码其的载体。在这些情况中，修饰的靶核酸可包含缺失。

实施例22:向细胞化学计量递送RNA的方法

在一些实施方案中，本公开提供向细胞核化学计量递送核酸的方法。在一些实施方案中，使用三个可化学计量递送的核酸：一个编码Cas9，一个编码以核酸为靶的核酸，一个编码Csy4。这三个核酸各自包含Csy4-结合位点。

在一些实施方案中，该方法提供串联融合多肽。该融合多肽包含三个Csy4多肽。这三个Csy4多肽被接头隔开。这三个Csy4多肽与这三个核酸分子各自上的Csy4-结合位点结合，由此形成复合体。

在一些实施方案中，在细胞外形成复合体并引入细胞内。通过将这三个可化学计量递送的核酸和融合蛋白混合并让反应发生以使该串联融合多肽和三个Csy4-结合位点之间结合，形成该复合体。通过注射、电穿孔、转染、转化、病毒转导等引入该复合体。在细胞内，翻译该复合体的一些核酸。在一些实施方案中，所得翻译产物是Csy4和NLS-Cas9(例如包含NLS的Cas9，该NLS可能不必在N-末端)。Csy4裂解编码以核酸为靶的核酸的核酸上的Csy4-结合位点，由此从串联融合多肽中释放以核酸为靶的核酸。NLS-Cas9结合释放的以核酸为靶的核酸，由此形成一个单元。这个单元易位到细胞核中。在细胞核内，将该单元导向与所述以核酸为靶的核酸的间隔区杂交的靶核酸。该单元的Cas9裂解靶核酸。通过Cas9裂解靶核酸被称作基因组工程。

在一些实施方案中，在细胞内形成该复合体。将编码这三个可化学计量递送的核酸的载体引入细胞。将编码这三个可化学计量递送的核酸之一的三个不同的载体引入细胞。将两个载体引入细胞，其中这两个载体之一编码两个可化学计量递送的核酸，且这两个载体之一编码一个可化学计量递送的核酸。任一载体可编码该串联融合多肽。

在细胞内，将编码RNA或多肽的载体核酸转录为RNA。形成包含这三个核酸和该串联融合多肽的复合体，由此各Csy4-结合蛋白与这三个核酸各自上的Csy4-结合位点结合。翻译该复合体的核酸。在一些实施方案中，所得翻译产物是Csy4和NLS-Cas9(例如包含NLS的Cas9，该NLS可能不必在N-末端)。Csy4裂解编码以核酸为靶的核酸的核酸上的Csy4-结合位点，由此从串联融合多肽中释放以核酸为靶的核酸。NLS-Cas9结合释放的以核酸为靶的核酸，由此形成一个单元。这个单元易位到细胞核中。在细胞核内，将该单元导向与所述以核酸为靶的核酸的间隔区杂交的靶核酸。该单元的Cas9裂解靶核酸。

实施例23:向细胞化学计量递送多个以核酸为靶的核酸的方法

在一些实施方案中，本公开提供向细胞化学计量递送多个核酸的方法，其中多个核酸的一些是以核酸为靶的核酸。在一些实施方案中，所述多个核酸包含四个核酸：一个编码Cas9，两个编码以核酸为靶的核酸，一个编码Csy4。

该核酸包含两个或更多个核酸-结合蛋白结合位点。在一些情况中，第一核酸-结合蛋白结合位点(例如更5’的位点)包含Csy4结合位点。在一些情况中，第二核酸-结合蛋白结合位点(例如更3’的位点)包含不同的核酸-结合蛋白结合位点(例如MS2结合位点)。在一些情况中，来自各可化学计量递送的核酸的第二核酸-结合蛋白结合位点不同。例如，第二核酸-结合蛋结合位点可以是结合CRISPR多肽之一(例如Cas5、Cas6)的位点。在一些情况中，编码Cas9的核酸还包含细胞核定位信号(NLS)。

在一些实施方案中，该串联融合多肽包含三个核酸-结合蛋白。这三个核酸-结合蛋白是Csy4、Cas5、Cas6。该串联融合多肽包含细胞核定位信号。该串联融合多肽包含核酸-结合蛋白的多于一个拷贝(例如2个Csy4拷贝、1个Cas5拷贝、1个Cas6拷贝)。

在一些实施方案中，在细胞外形成包含该串联融合蛋白和这四个核酸的复合体。通过将这四个核酸和该串联融合蛋白混合并让反应发生以使该串联融合多肽和四个核酸-结合蛋白结合位点之间结合，形成该复合体。将该复合体引入细胞。通过转化、转染、病毒转导、微注射或电穿孔或能跨过细胞膜引入生物分子的任何技术实现引入。在细胞内形成该复合体(例如在引入包含编码核酸和串联融合蛋白的核酸序列的载体后)。

在细胞内，翻译编码Csy4和Cas9的核酸，以产生Csy4和NLS-Cas9(例如包含NLS的Cas9，该NLS可能不必在N-末端)。Csy4裂解编码以核酸为靶的核酸的核酸上的Csy4-结合位点，由此从串联融合多肽中释放它们。

NLS-Cas9结合释放的以核酸为靶的核酸，由此形成多个单元。这些单元易位到细胞核中。在细胞核内，将该单元导向与该单元的以核酸为靶的核酸的间隔区杂交的靶核酸。该单元的Cas9裂解靶核酸。

实施例24:化学计量递送RNA和供体多核苷酸的方法

本公开提供化学计量递送可用于基因组工程的RNA组分的方法。该方法还可包括可插入基因组工程的位点中的供体多核苷酸的递送。

本公开提供向细胞化学计量递送多个RNA和供体多核苷酸的方法。在一些实施方案中，所述多个RNA包含三个RNA和一个DNA。在一些情况中，这三个RNA是：一个编码Cas9，一个编码Csy4，一个编码以核酸为靶的核酸。该DNA是编码供体多核苷酸的DNA。

在一些情况中，该RNA包含多个核酸-结合蛋白结合位点(例如两个核酸-结合蛋白结合位点)。第一核酸-结合蛋白结合位点(例如更5’的位点)包含Csy4结合位点。第二核酸-结合蛋白结合位点(例如更3’的位点)包含不同的核酸-结合蛋白结合位点。本公开的各核酸中的第二核酸-结合蛋白结合位点不同。例如，第二核酸-结合蛋结合位点结合CRISPR多肽(例如Cas5、Cas6)和/或DNA结合蛋白(例如锌指蛋白)。该方法的核酸还包含编码细胞核定位信号的序列(例如编码Cas9的RNA和编码供体多核苷酸的DNA)。

在一些实施方案中，该串联融合多肽包含四个核酸-结合蛋白(例如RNA-结合蛋白和DNA-结合蛋白)。在一些情况中，三个核酸-结合蛋白是Csy4、Cas5、Cas6且第四个核酸-结合蛋白是DNA-结合蛋白(例如锌指蛋白质)。在一些情况中，该串联融合多肽包含细胞核定位信号。

在一些实施方案中，在细胞内形成包含串联融合蛋白和核酸(例如三个RNA和一个DNA)的复合体。通过将核酸(例如三个RNA和一个DNA)和该串联融合蛋白混合并让反应发生以使该串联融合多肽和四个RNA-结合蛋白结合位点之间结合，形成该复合体。可以将该复合体引入细胞。在细胞内形成该复合体(例如在引入包含编码核酸和串联融合蛋白的核酸序列的载体后)。

在细胞内，翻译编码Csy4和Cas9的RNA，以产生Csy4和NLS-Cas9(例如包含NLS的Cas9，该NLS可能不必在此处所记载的N-末端)。Csy4可以裂解编码以核酸为靶的核酸和DNA的RNA上的Csy4-结合位点，由此从串联融合多肽中释放它们。在一些情况中，释放的供体多核苷酸通过其细胞核定位信号易位到细胞核中。

NLS-Cas9结合释放的以核酸为靶的核酸，由此形成一个单元。该单元易位到细胞核中。在细胞核内，将该单元导向与该单元的以核酸为靶的核酸的间隔区杂交的靶核酸。该单元的Cas9裂解靶核酸。可以将供体多核苷酸、供体多核苷酸的一部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的一部分插入裂解的靶核酸中。

实施例25:基因修饰细胞的无缝选择

使多个细胞与包含编码与Cas9同源的多肽、以核酸为靶的核酸和供体多核苷酸的序列的载体接触。在一些情况中，编码与Cas9同源的多肽、以核酸为靶的核酸和供体多核苷酸的一个或多个序列位于不同载体上。用该载体转染细胞。在一些情况中，用携带该载体的病毒感染细胞。在一些情况中，该细胞已包含与Cas9同源的蛋白，且该载体不编码这种多肽。在一些情况中，该细胞已包含CRISPR系统(例如Cas蛋白、crRNA和tracrRNA)且该载体仅编码供体多核苷酸。该供体多核苷酸包含编码感兴趣的遗传因子和报告元件的序列。该报告元件包含以核酸为靶的核酸序列、与Cas 9同源的蛋白和荧光蛋白。以核酸为靶的核酸将Cas9导向靶核酸(例如宿主细胞基因组中的位点)，以造成靶核酸的双链DNA断裂和供体多核苷酸插入。通过筛选报告元件，筛选供体多核苷酸的插入。在一些情况中，筛选包括荧光激活细胞分选。筛选包括多重选择法。通过诱导型启动子控制Cas9和/或以核酸为靶的核酸。在选择包含报告基因信号的细胞群体后，通过激活诱导型启动子来除去报告元件，这转录以核酸为靶的核酸和供体多核苷酸的定点多肽。转录的以核酸为靶的核酸和转录的定点多肽可形成复合体。一种复合体可以靶向供体多核苷酸的报告元件的3’末端。一种复合体可以靶向供体多核苷酸的报告元件的5’末端。可以裂解该报告元件的3’和5’末端。裂解的靶核酸可以通过细胞机制重接，由此产生编码与插入供体多核苷酸前相同的核酸序列的框内核酸序列。以此方式，无缝插入和从细胞中除去报告元件。

实施例26:使用工程改造的以核酸为靶的核酸的Cas9裂解方法

试剂

用1U AscI/1ug DNA消化含有temp3靶DNA序列的pCB002质粒以将该载体线性化。通过将反应混合物在80℃下孵育20分钟，停止该反应。然后使用Qiagen PCR clean up试剂盒纯化反应。

使用T7高产率RNA合成试剂盒(目录号E2040S)使用制造商对>300核苷酸的RNA推荐的试剂体积的一半生成单导向核酸。在20微升反应中通常使用200-350纳克的模板，将其孵育16小时。用DNA酶处理样品，并使用Thermo GeneJet RNA纯化试剂盒(目录号K0732)纯化，和在20微升中洗脱。典型收率范围为1.4-2ug/uL。

在裂解测定开始时，将所有sgRNA稀释至3500nM浓度并在80℃下热休克15分钟。从加热元件中去除样品并使其平衡至室温。可以使4微升以核酸为靶的单导向核酸的等分试样在琼脂糖凝胶上运行以证实RNA完整性。

从冷冻室中取出2-2.5mg/mL的Cas9等分试样并尽可能快地解冻，然后在1x裂解缓冲液中稀释至适当的原料浓度。

裂解测定

将水、5x裂解缓冲液(100mM HEPES、500mM KCl、25mM MgCl2、5mM DTT和25％甘油，pH7.4)和Cas9至250nM的主要混合物(master mix)等分到薄壁PCR管中。将sgRNA以250nM的最终浓度添加到适当的管中。

将该反应在37℃下孵育30分钟，加入10nM线性化质粒并将反应(最终反应体积20微升)在37℃下孵育1小时。通过将反应加热至60℃20分钟，终止反应。将10微升等分试样与2微升6x DNA加载染料混合并在用SYBR safe染色的1.5％琼脂糖凝胶上通过电泳分析。～2800bp和～1300bp片段的外观指示Cas9介导的裂解。

实验结果显示在图6、10和11中。除整个互补区颠倒的SGRv8外，图5中设计和显示的所有合成的指导RNA序列都支持sgRNA裂解。这些结果表明sgRNA的不同区域可供工程改造并仍保持功能。

在上述测定中测试工程改造的以核酸为靶的核酸。图22A和22B显示用于测试靶向和裂解活性的以核酸为靶的单导向核酸骨架变体中的起始组双链体变体的设计。

图23A和23B图解在双链体中具有较小修饰的第二组双链体变体。V28包含在互补区的3’的2碱基插入；V29包含在互补区的3’的3碱基缺失。

图24A和24B图解在以核酸为靶的核酸的tracrRNA部分(即最小tracrRNA序列和3’tracrRNA序列)中包含突变的tracr变异体。V38-V41包含互补区/双链体和来自M.mobile163K(v38)、嗜热链球菌LMD-9(V39)、空肠弯曲菌(C.jejuni)(V40)和脑膜炎发奈瑟氏菌(N.meningitides)的tracr核酸序列的3’末端之间的融合体。

图25A和25B描绘包含修饰以使Csy4能够与以核酸为靶的核酸结合的变体。另加的发夹序列衍生自铜绿假单胞菌PA14中的CRISPR重复片段。

图26A-C显示来自体外裂解测定的数据，其证实以核酸为靶的核酸变体对Cas9裂解的活性。变体SGRv8不支持靶核酸裂解(图26B第9道)。

图27和图28显示测试图23-25中所示的变体的Cas9裂解测定的两次独立的重复。

如表2中所列制造另一些工程改造的以核酸为靶的核酸并在相同测定中测试。测定结果显示在图37中并列在表2的活性栏中。

这些实验的结果表明突起和P-结构域区域在实现靶核酸裂解中的重要性。变体42-45的功能性表明将Csy4结合序列添加到以核酸为靶的核酸中不会干扰靶核酸裂解。

实施例27:测序分析系统

图30描绘构造成执行本公开的方法的系统。该系统可包括编程以执行本文所述的方法的计算机服务器(“服务器”)。图30描绘使得能让用户检测、分析和交流例如核酸酶靶向的富集核酸的测序结果、测序而得的靶核酸、关于本公开的方法的数据、诊断疾病、将患者基因分型、作出患者特异性的治疗决定或它们的任何组合的系统3000。系统3000包括编程以执行本文所述的示例性方法的中央计算机服务器3001。服务器3001包括中央处理单元(CPU，也称作“处理器”)3005，其可以是单核处理器、多核处理器或用于并行处理的多处理器。服务器3001还包括记忆体3010(例如随机存取内存、只读存储器、闪存)；电子存储单元3015(例如硬盘)；与一个或多个其它系统通信的通信界面3020(例如网络适配器)；和外围设备3025，其可包括缓存、其它记忆体、数据存储和/或电子显示适配器。记忆体3010、存储单元3015、界面3020和外围设备3025通过通信总线(实心线)，如主板与处理器3005通信。存储单元3015可以是用于存储数据的数据存储单元。服务器3001借助通信界面3020可操作地连向计算机网络(“网络”)3030。网络3030可以是国际互联网、内联网和/或外联网、与国际互联网通信的内联网和/或外联网、电信或数据网络。网络3030在一些情况中借助服务器3001可执行对等网络，这能使连接到服务器3001上的设备充当客户端或服务器。显微镜和显微操作器可以是外围设备3025或远程计算机系统3040。

存储单元3015可存储文件，如测序结果、靶结合位点、个人化遗传数据、基因型、图像、图像和/或测序结果的数据分析，或与本公开有关的数据的任何方面。

该服务器可以经网络3030与一个或多个远程计算机系统通信。所述一个或多个远程计算机系统可以是例如个人计算机、笔记本电脑、平板电脑、电话机、智能电话机或个人数字助理。

在一些情况中，系统3000包括单服务器3001。在另一些情况中，该系统包括经内联网、外联网和/或国际互联网互相通信的多个服务器。

服务器3001可适合存储测序结果、靶结合位点、个人化遗传数据和/或潜在相关的其它信息。这些信息可以存储在存储单元3015或服务器3001上，且这些数据可以经网络传送。

可以借助存储在服务器3001的电子存储位置，诸如，例如记忆体3010或电子存储单元3015上的机器(或计算机处理器)可执行代码(或软件)执行如本文所述的方法。在使用过程中，可以由处理器3005执行该代码。在一些情况中，可以从存储单元3015读取该代码并存储在记忆体3010上以供处理器3005迅速获取。在一些情况中，可以排除电子存储单元3015并将机器可执行指令存储在记忆体3010上。或者，可以在第二计算机系统3040上执行该代码。

本文中提供的系统和方法的方面，如服务器3001，可以编程执行。该技术的各种方面可以被认为是通常为机器(或处理器)可执行代码和/或负载在某一类型的机器可读介质上或具体体现在某一类型的机器可读介质中的相关数据形式的“产品”或“制品”。机器可执行代码可以存储在电子存储单元、这样的记忆体(例如只读存储器、随机存取内存、闪存)或硬盘上。“存储”型介质可包括计算机、处理器等的任何或所有有形记忆体或其相关模块，如各种半导体记忆体、磁带驱动器、磁盘驱动器等，其可以在任何时候为软件编程提供非临时存储。有时可通过国际互联网或各种其它电信网络通信所有或一部分软件。这样的通信例如能从一个计算机或处理器向另一计算机或处理器，例如从管理服务器或主机向应用服务器的计算机平台装载软件。因此，可携带软件元件的另一类型的介质包括光波、电波和电磁波，如横跨本地设备之间的物理界面使用、通过有线和光学固话网络和通过各种空中链接。运载这些波的物理元件，如有线或无线线路、光链路等也可以被视为携带该软件的介质。如本文所用，只要不限于非临时有形“存储”介质，如计算机或机器“可读”介质之类的术语是指参与向处理器提供执行指令的任何介质。

因此，机器可读介质，如计算机可执行代码可呈许多形式，包括但不限于，有形存储介质、载波介质或物理传输介质。非易失性存储介质可包括例如光盘或磁盘，如可用于执行该系统的任何计算机等中的任何存储设备。有形传输介质可包括：同轴电缆、铜线和光纤(包括包含计算机系统内的母线的线路)。载波传输介质可呈现电或电磁信号或声波或光波的形式，如在射频(RF)和红外(IR)数据通信过程中生成的那些。计算机可读介质的常见形式因此包括例如：软盘、软磁盘(flexible disk)、硬盘、磁带、任何其它磁性介质、CD-ROM、DVD、DVD-ROM、任何其它光学介质、穿孔卡片、纸带、具有孔图案的任何其它物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其它存储芯片或盒、传输数据或指令的载波、传输这样的载波的电缆或链接(links)或计算机可从中读取编程代码和/或数据的任何其它介质。在将一个或多个指令的一个或多个序列送往处理器以供执行中，可能涉及许多这些形式的计算机可读介质。

实施例28:使用定点多肽的阵列基测序

将核酸样品与包含单导向RNA和可检测标签的核酸标记连接。连接到核酸标记上的核酸样品一起被称作标记的试样。使标记的试样与包含固定化寡核苷酸的微阵列接触。该固定化寡核苷酸是双链核酸库。该寡核苷酸包含可检测标签(例如荧光标签)。标记的试样的各成员杂交到与它们共享足够的互补性以利于杂交的寡核苷酸上。可通过比较来自样品库和固定化寡核苷酸的这两种可检测标签的强度定量杂交量。例如，杂交的寡核苷酸可展示两种可检测标签(来自样品库和寡核苷酸)。未杂交的寡核苷酸可展示一种可检测标签(来自该寡核苷酸)。使杂交探针与Cas9接触。Cas9裂解该微阵列中的已与标记的试样的成员杂交的寡核苷酸。被定点多肽裂解允许除去标记的试样的杂交成员。在被定点多肽裂解后，只有未杂交的寡核苷酸可检测标签留在该微阵列上。定量残留可检测标签。残留可检测标签的定量与在核酸样品中呈现哪些序列和没有呈现哪些序列相关联(例如通过位置作图)。没有展示出残留可检测标签的寡核苷酸相当于核酸样品中呈现的序列。展示出残留可检测标签的寡核苷酸相当于核酸样品中没有呈现的序列。

实施例29:用标记的以核酸为靶的核酸裂解靶核酸

这一实施例描述使用在以核酸为靶的核酸的5’末端上包含Csy4结合序列的以核酸为靶的核酸裂解靶核酸的结果。用或不用靶向线性双链DNA序列中的单一位点的指导RNA孵育Cas9。在1小时后，分离裂解产物并在琼脂糖凝胶上视觉化。图13D显示标记的以核酸为靶的核酸介导的Cas9裂解(第3道)不如未标记的以核酸为靶的核酸介导的Cas9裂解(第1道)有效。在1小时后，在未标记的以核酸为靶的核酸指导下的Cas9裂解～100％的靶，而同时，在标记的以核酸为靶的核酸指导下的Cas9仅裂解一小部分的靶。这些实验表明非天然序列的位置可用于调节Cas9:以核酸为靶的核酸复合体的裂解效率。例如，图27和图29显示将Csy4结合序列添加到以核酸为靶的核酸中的各种位置(它们保持活性)的功能。

实施例30:血液病中的基因组工程基因

将包含图XX中所述的间隔区序列的以核酸为靶的核酸引入含定点多肽的细胞，由此形成复合体。该复合体靶向血液病中涉及的与所述以核酸为靶的核酸的间隔区序列基本互补的基因。一旦所述以核酸为靶的核酸杂交到靶核酸上，该定点多肽裂解靶核酸。该裂解的靶核酸可以用供体多核苷酸工程改造。

实施例31:确定靶核酸裂解和修饰的方法

这一方法可用于确定靶核酸是否已裂解或靶核酸是否已修饰，如具有插入或缺失。靶位点周围的引物用于在25μL反应中PCR扩增来自gDNA的500-600nt产物。该引物在切割位点的任一侧上包含至少100nt。由该裂解测定获得的产物大约大于100nt。

大约5微升的PCR产物在琼脂糖凝胶上运行以确定扩增是否纯净(clean)。对于剩余的PCR产物，解链和退火程序如下：

制备水、NEB2缓冲液和T7E1酶的T7E1主要混合物。对每个反应相乘，加上额外的量。表8显示该T7E1主要混合物的组分。

表8.T7E1主要混合物的反应组分

	1X反应
		水	7.5μL
NEB 2缓冲液	2μL
		T7E1酶	0.5μL
PCR产物	10μL
		总计	20μL

在200微升条带帽试管中向各反应中加入下列试剂：T7E1主要混合物(10微升)和PCR样品(10微升)。将该反应在37℃下孵育25分钟。

将加载缓冲液添加到样品中并使整个样品在3％凝胶上在120V下运行20分钟。如果需要更高分辨率，该凝胶可以运行更久。成像并保存凝胶图像。

将该图像定量以确定靶核酸的裂解量。

实施例31:以核酸为靶的核酸变体的细胞测试

这一实施例显示在细胞基测定中测试图22、24和25和实施例26中描绘的以核酸为靶的核酸变体，以确定实施例26中测得的体外功能是否与体内功能匹配。使HEK293细胞在10cm实验皿中生长至60-70％汇合度。通过胰酶消化除去细胞，使用血细胞计数器计数，然后分离成待转染的每孔7x 10⁴个细胞的等分试样。对于各个孔，将250ng表达哺乳动物密码子优化的Cas9的pCB045质粒与30ng指导RNA和40ng copGFP DNA和0.5ul Lipofectamine2000在50ul最终体积的DMEM中混合。在转染前将DNA和脂质孵育15分钟。在铺板时通过将该脂质：DNA混合物添加到含有7x 10⁴个细胞的450ul DMEM+10％胎牛血清中进行转染。将该转染/细胞混合物添加到用鼠尾胶原I涂布的96孔组织培养板中。细胞在含5％CO2的孵化器中在37℃下孵育40小时。

从各孔中取出培养基，使用Quickextract溶液(Epicentre)根据制造商的说明溶解细胞。将从QuickExtract细胞裂解液中收获的DNA稀释1:10并用作供实施例30中所述的T7E1测定的PCR反应中的模板。

图36表明除v8和v9外的所有变体能够裂解靶核酸。以核酸为靶的核酸变体v8也如图23B中所示在体外测定中基本无活性。以核酸为靶的核酸变体v9在图23B中所示的体外测定中活性极弱。

实施例32:用标记细胞确定细胞命运

这一实施例描述如何追踪来自细胞谱系的细胞发育。使造血干细胞(例如血胚细胞)与定点多肽、以核酸为靶的核酸和供体多核苷酸接触。定点多肽和以核酸为靶的核酸形成复合体并靶向造血基因组区域供裂解。一旦裂解，将所述供体多核苷酸插入造血细胞的基因组中的裂解位点。诱导造血干细胞经正常分化过程分化。在不同分化阶段，可以就供体多核苷酸的存在情况测定包含分化的造血细胞的样品。以此方式，可以追踪细胞的分化过程。

实施例33:将编码以核酸为靶的核酸的双链寡核苷酸克隆到线性化载体中

这一实施例描述如何生成编码以核酸为靶的核酸的一部分(例如间隔区)的双链寡核苷酸并将其插入线性化载体中。线性化载体或封闭超螺旋载体包含编码定点多肽(例如Cas9)的序列、驱动编码定点多肽的序列的表达的启动子(例如CMV启动子)、编码接头(例如2A)的序列、编码标记物(例如CD4或OFP)的序列、编码以核酸为靶的核酸的一部分的序列、驱动编码以核酸为靶的核酸的一部分的序列的表达的启动子，和编码可选标记物(例如氨苄青霉素)的序列，或它们的任何组合。

等量的两种单链寡核苷酸一起退火(例如50微摩尔)。这两种单链寡核苷酸可以杂交在一起。这两种单链寡核苷酸的至少一种与靶核酸(例如与靶中的前间区序列邻近基序相邻的10-30核苷酸区)互补。这两种单链寡核苷酸的至少一种包含含有序列5’-GTTT-3’的3’悬垂序列。这两种单链寡核苷酸的至少一种包含含有序列5’-CGGTG-3’的3’悬垂。在一些情况中，这两种单链寡核苷酸之一包含5’-GTTT-3’悬垂，这两种单链寡核苷酸的另一种包含5’-CGGTG-3’。在包含至少10mM tris HCl pH 8.0、1mM EDTA、pH 8.0和100mM NaCl的退火缓冲液中进行退火。通过将该寡核苷酸混合物在95℃下加热3-5分钟、从热源上移除寡核苷酸混合物并使该混合物冷却至室温5-10分钟来进行退火。将该双链寡核苷酸混合物温和离心。在退火后，可以将该混合物储存在4℃或-20℃。将现为双链寡核苷酸的该混合物稀释以制备500纳摩尔和5纳摩尔的两种储液。通过在水中稀释该寡核苷酸混合物，制备储液。

将该双链寡核苷酸(ds寡核苷酸)连接到线性化载体中。该线性化载体包含编码定点多肽(例如Cas9)的序列、标记蛋白(例如橙色荧光蛋白)和/或编码以核酸为靶的核酸的序列，其中该线性化载体在编码以核酸为靶的核酸的序列的区域线性化，以使生成的粘性末端匹配ds寡核苷酸的悬垂端。该连接反应可包含1x连接缓冲液(例如50mM Tris-HClpH7.6、5mM MgCl₂、1mM ATP、1mM DTT和/或5％PEG 8000)、30纳克线性化载体、5nM ds寡核苷酸和DNA连接酶(例如4微升5x连接缓冲液、2微升在15纳克/微升的线性化载体、2微升5纳摩尔ds寡核苷酸、11微升水、1微升T4DNA连接酶)。混合该反应。将该反应在室温下孵育10分钟-2小时。将该反应置于冰上并转化到感受态细胞中。

转化到感受态细胞中包括转化到化学感受态TOP10大肠杆菌细胞中。将感受态细胞在冰上解冻。将3微升反应混合物添加到感受态细胞中并轻轻混合。将该细胞在冰上孵育10-30分钟。将该细胞在42℃下热休克30秒。将细胞转移到冰上2分钟。将250微升培养基(SOC或LB)添加到该细胞中。将该细胞在37℃下以200rpm摇振1小时。然后将该细胞铺在包含100微克/毫升氨苄青霉素的琼脂平板上并在37℃下储存整夜。

分析该转化体。例如，分析该转化体以确定连接到载体中的ds寡核苷酸的性质(identity)和/或确定该连接不是假阳性的。为了分析该转化体，挑选菌落并在包含100微克/毫升氨苄青霉素的LB培养基中在37℃下培养整夜。分离(例如通过miniprep试剂盒)包含定点多肽和ds寡核苷酸的质粒。对分离的质粒进行测序反应。测序反应使用设计成将ds寡核苷酸测序的测序引物(例如该测序引物是结合到正好位于编码ds寡核苷酸的序列上游的U6启动子上的U6测序引物)。

一旦鉴定所需的ds寡核苷酸插入，可以将该质粒储存在-20℃或在甘油储液中储存在-80℃。为了制造甘油储液，将包含所需质粒的原始菌落在包含100微克/毫升氨苄青霉素的琼脂平板上快速移动并在37℃下培养整夜。单菌落在包含100微克/毫升氨苄青霉素的LB中分离培养直至培养物达到静止期。将该培养物与甘油混合并在液氮中速冻(例如将0.85毫升培养物与0.15毫升甘油混合)。

将包含所需ds寡核苷酸的纯化质粒通过转染插入细胞系(例如哺乳动物细胞系、HeLa)。为了转染质粒，使用例如maxi prep试剂盒在高浓度下纯化该质粒。用脂质基缓冲液(例如Lipofectamine 2000)将该质粒转染到以70％汇合度铺板的细胞中。将3微克载体转染到细胞中。

实施例34:工程改造的以核酸为靶的核酸的纳米粒子运送

制备包封编码工程改造的以核酸为靶的核酸和定点多肽的核酸的纳米粒子。通过在10毫升90％乙醇(总脂质30微摩尔)中以18:60:20:1:1的摩尔比混合DOPE、Chol、DSPE-PEG和C₁₆mPEG-神经酰胺，制备纳米粒子。将核酸溶解在10毫升20mM Tris缓冲液(pH 7.4-7.6)中。在加热到37℃后，通过双注射泵将这两种溶液混合在一起，混合的溶液随后用20毫升20mMTris缓冲液(300mM NaCl、pH 7.4-7.6)稀释。该混合物在37℃下孵育30分钟并在10mM PBS缓冲液(138mM NaCl、2.7mM KCl、pH 7.4)中透析。在通过透析从该混合物中除去乙醇后获得稳定粒子。通过在3,000rpm和4℃的温度下离心，将该纳米粒子溶液浓缩。在给定时间后收集该浓缩悬浮液并经0.22微米注射器过滤器(Millex-GV,Millipore,USA)过滤灭菌。获得包含编码工程改造的以核酸为靶的核酸和定点多肽的核酸的纳米粒子的均匀悬浮液。

使该纳米粒子与细胞接触。该纳米粒子将进入细胞。在细胞内，该纳米粒子会释放编码工程改造的以核酸为靶的核酸和定点多肽的核酸。转录和/或翻译核酸以产生结合到定点多肽蛋白质的工程改造的以核酸为靶的核酸，由此形成复合体。该复合体靶向与所述工程改造的以核酸为靶的核酸杂交的靶核酸。该复合体会裂解靶核酸。

在一些情况中，该纳米粒子进一步包含编码供体多核苷酸的核酸。当靶核酸被定点多肽裂解时，供体多核苷酸会插入裂解的靶核酸位点。

Claims

1.一种检测两种复合体是否彼此邻近的方法，其包括：

(a)使第一靶核酸与第一复合体接触，其中所述第一复合体包含第一定点多肽、第一修饰的以核酸为靶的核酸和第一效应蛋白，其中所述效应蛋白适于与所述修饰的以核酸为靶的核酸结合，且其中所述第一效应蛋白包含含有分离体系的第一部分的非天然序列；和

(b)使第二靶核酸与第二复合体接触，其中所述第二复合体包含第二定点多肽、第二修饰的以核酸为靶的核酸和第二效应蛋白，其中所述效应蛋白适于结合到所述修饰的以核酸为靶的核酸上，且其中所述第二效应蛋白包含含有分离体系的第二部分的非天然序列。

2.权利要求1的方法，其中所述分离体系包含独立时无活性但在形成复合体时产生活性蛋白复合体的两个或更多个蛋白片段。

3.权利要求1的方法，其进一步包括检测所述第一部分和所述第二部分之间的相互作用。

4.权利要求3的方法，其中所述检测指示所述第一和第二复合体彼此邻近。

5.权利要求3的方法，其中所述检测包含确定遗传移动事件的发生。

6.权利要求5的方法，其中所述遗传移动事件包含易位。

7.权利要求5的方法，其中在所述遗传移动事件之前，所述分离体系的所述两个部分不相互作用。

8.权利要求5的方法，其中在所述遗传移动事件后，所述分离体系的所述两个部分相互作用。

9.权利要求5的方法，其中所述遗传移动事件是BCR和Abl基因之间的易位。

10.权利要求1的方法，其中所述分离体系选自：分离GFP体系、分离泛素体系、分离转录因子体系和分离亲和标记体系，或它们的任何组合。

11.权利要求3的方法，其中所述检测指示基因型。

12.权利要求11的方法，其进一步包括：基于所述基因型确定疾病的疗程。

13.权利要求12的方法，其进一步包括治疗所述疾病。

14.权利要求13的方法，其中所述治疗包含给药。

15.权利要求13的方法，其中所述治疗包括给予包含以核酸为靶的核酸和定点多肽的复合体，其中所述复合体可修饰所述疾病中涉及的遗传因子。

16.一种工程改造的以核酸为靶的核酸，其包含：在所述以核酸为靶的核酸的P-结构域中的突变。

17.一种工程改造的以核酸为靶的核酸，其包含：在以核酸为靶的核酸的突起区中的突变。

18.一种组合物，其包含：多重遗传靶向剂，其中所述多重遗传靶向剂包含一个或多个核酸模块，其中所述核酸模块包含非天然序列，且其中所述核酸模块经构造以结合到包含Cas9的核酸酶结构域的至少10％氨基酸序列同一性的多肽上，且其中所述核酸模块经构造以与靶核酸杂交。

19.一种组合物，其包含：修饰的定点多肽，其中修饰所述多肽以使其与野生型定点多肽相比适于靶向第二前间区序列邻近基序。

20.一种制造供体多核苷酸标记细胞的方法，其包括：

(a)使用包含定点多肽和以核酸为靶的核酸的复合体裂解细胞中的靶核酸；

(b)将供体多核苷酸插入裂解的靶核酸中；

(c)繁殖携带所述供体多核苷酸的所述细胞；和

(d)确定所述供体多核苷酸标记细胞的来源。

21.一种组合物，其包含：

(a)效应蛋白；和

(b)核酸，其中所述核酸包含：

(i)在6个邻接核苷酸中与crRNA的至少50％序列同一性；

(ii)在6个邻接核苷酸中与tracrRNA的至少50％序列同一性；和

(iii)非天然序列，

其中所述核酸适于与所述效应蛋白结合。

22.权利要求21的组合物，其进一步包含多肽，所述多肽包含Cas9的核酸酶结构域的至少10％氨基酸序列同一性，其中所述核酸与所述多肽结合。

23.权利要求21的组合物，其中所述多肽在核酸酶结构域中包含Cas9的核酸酶结构域的至少60％氨基酸序列同一性。

24.权利要求21的组合物，其中所述多肽是Cas9。

25.权利要求21的组合物，其中所述核酸进一步包含接头序列，其中所述接头序列连接所述在6个邻接核苷酸中包含crRNA的至少50％序列同一性的序列和所述在6个邻接核苷酸中包含tracrRNA的至少50％序列同一性的序列。

26.权利要求21的组合物，其中所述非天然序列位于选自如下的所述核酸的位置：5’末端和3’末端或它们的任何组合。