CN111511906A

CN111511906A - 核酸引导性核酸酶

Info

Publication number: CN111511906A
Application number: CN201880054732.5A
Authority: CN
Inventors: 金主汉; R·T·吉尔; 安德鲁·加斯特; 塔尼娅·伊丽莎白·瓦内克·利普斯科姆
Original assignee: Inscripta Inc
Current assignee: Inscripta Inc
Priority date: 2017-06-23
Filing date: 2018-05-25
Publication date: 2020-08-07
Also published as: EP3642334A4; EP3642334C0; KR102558931B1; AU2022202248A1; JP2022169775A; EP3642334B1; RU2020102451A; JP7136816B2; JP2020530264A; RU2022103603A; AU2018289077A1; KR20200020903A; EP3642334A1; IL271342A; AU2018289077B2; NZ760730A; RU2769475C2; RU2020102451A3; WO2018236548A1; MX2019015047A

Abstract

本文公开了核酸引导性核酸酶、引导核酸和可靶向核酸酶系统以及使用方法。本文公开了工程化的非天然存在的核酸引导性核酸酶、引导核酸和可靶向核酸酶系统以及使用方法。可靶向核酸酶系统可以用于编辑遗传靶，包括递归遗传工程和可跟踪遗传工程方法。

Description

核酸引导性核酸酶

交叉引用

本申请要求2017年6月23日提交的美国专利申请第15/631,989号和2017年6月23日提交的美国专利申请第15/632,001号的优先权，每个专利申请的内容特此通过引用以其整体并入。

序列表

本申请包括已经以ASCII格式电子提交的序列表，并且特此通过引用以其整体并入。创建于2018年5月25日的所述ASCII副本名称为49022-717_601_SL.txt，并且大小为1,996,118字节。

公开内容背景

核酸引导性核酸酶已经成为用于研究和基因组工程的重要工具。这些工具的适用性可能受到序列特异性要求、表达或递送的问题的限制。

公开内容概述

本文公开了修饰细胞基因组中的靶区域的方法，该方法包括：使细胞与以下接触：(a)核酸引导性核酸酶，所述核酸引导性核酸酶包含SEQ ID NO:7、SEQ ID NO:2或SEQ IDNO:4的氨基酸序列；(b)工程化引导核酸，所述工程化引导核酸能够与核酸引导性核酸酶复合；和(c)编辑序列，所述编辑序列编码与所述靶区域互补的、相对于靶区域具有序列改变的核酸；以及允许核酸酶、引导核酸和编辑序列在细胞基因组的靶区域中创建基因组编辑。在一些方面，工程化引导核酸和编辑序列作为单一核酸提供。在一些方面，单一核酸还在前间区序列邻近基序(protospacer adjacent motif)(PAM)位点中包含突变。在一些方面，核酸引导性核酸酶由与SEQ ID NO:47或SEQ ID NO:203-222具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:133或SEQ ID NO:183-202具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:153或SEQ ID NO:243-262具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:223-242具有至少85％同一性的核酸编码。在一些方面，工程化引导核酸包括SEQ ID NO:172-182中的任一个。在一些方面，核酸引导性核酸酶由与SEQ ID NO:42或SEQ ID NO:283-302具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:128或SEQ ID NO:263-282具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:148或SEQ ID NO:323-342具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:303-322具有至少85％同一性的核酸编码。在一些方面，工程化引导核酸包括SEQ ID NO:172-182中的任一个。在一些方面，核酸引导性核酸酶由与SEQ ID NO:44或SEQ ID NO:722-741具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:130或SEQ ID NO:742-761具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:150或SEQ ID NO:762-781具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:782-801具有至少85％同一性的核酸编码。在一些方面，工程化引导核酸包括SEQ ID NO:172-182中的任一个。在一些方面，工程化引导核酸包含环序列，所述环序列包含以下序列：UAUU、UUUU、UGUU、UCUU、UCUUU或UAGU。

本文公开了核酸引导性核酸酶系统，所述核酸引导性核酸酶系统包括：(a)核酸引导性核酸酶，所述核酸引导性核酸酶包含SEQ ID NO:7、SEQ ID NO:2或SEQ ID NO:4的氨基酸序列；(b)工程化引导核酸，所述工程化引导核酸能够与核酸引导性核酸酶复合；和(c)编辑序列，所述编辑序列相对于细胞基因组中的靶区域的序列具有序列改变；其中该系统通过核酸酶、工程化引导核酸和编辑序列促成在细胞基因组的靶区域中在产生基因组编辑。在一些方面，核酸引导性核酸酶由与SEQ ID NO:47或SEQ ID NO:203-222具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:133或SEQ ID NO:183-202具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:153或SEQ ID NO:243-262具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:223-242具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:42或SEQ ID NO:283-302具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:128或SEQ ID NO:263-282具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:148或SEQ ID NO:323-342具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:303-322具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:44或SEQ ID NO:722-741具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:130或SEQ ID NO:742-761具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:150或SEQ ID NO:762-781具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶由与SEQ ID NO:782-801具有至少85％同一性的核酸编码。在一些方面，核酸引导性核酸酶是针对待编辑的细胞被密码子优化的。在一些方面，工程化引导核酸包括SEQID NO:172-182中的任一个。在一些方面，工程化引导核酸包含环序列，所述环序列包含以下序列：UAUU、UUUU、UGUU、UCUU、UCUUU或UAGU。在一些方面，工程化引导核酸和编辑序列作为单一核酸提供。在一些方面，单一核酸还在前间区序列邻近基序(PAM)位点中包含突变。

本文公开了组合物，所述组合物包含(a)核酸引导性核酸酶，所述核酸引导性核酸酶包含SEQ ID NO:7、SEQ ID NO:2或SEQ ID NO:4的氨基酸序列；和(b)工程化引导核酸，所述工程化引导核酸能够与核酸引导性核酸酶复合，其中工程化引导核酸包含环序列，所述环序列包含以下序列：UAUU、UUUU、UGUU、UCUU、UCUUU或UAGU。在一些方面，工程化引导核酸是异源工程化引导核酸。在一些方面，工程化引导核酸包括SEQ ID NO:172-182中的任一个。在一些方面，核酸酶由为了在来自特定生物体的细胞中使用而被密码子优化的核酸序列编码。在一些方面，核酸序列是针对大肠杆菌(E.coli)被密码子优化的。在一些方面，核酸序列是针对酿酒酵母(S.cerevisiae)被密码子优化的。在一些方面，核酸序列是针对哺乳动物细胞被密码子优化的。在一些方面，核酸序列是针对人类细胞被密码子优化的。在一些方面，核酸序列是针对植物细胞被密码子优化的。

本文公开了核酸引导性核酸酶系统，所述核酸引导性核酸酶系统包括：(a)核酸引导性核酸酶，所述核酸引导性核酸酶包含SEQ ID NO:7、SEQ ID NO:2或SEQ ID NO:4的氨基酸序列；和(b)异源工程化引导核酸，所述异源工程化引导核酸能够与核酸引导性核酸酶复合。在一些方面，本所讨论的系统还包括(c)编辑序列，所述编辑序列相对于靶区域的序列具有序列改变。在一些方面，靶向系统通过核酸酶、异源工程化引导核酸和编辑序列促成在靶区域中产生编辑。在一些方面，工程化引导核酸包含环序列，所述环序列包含以下序列：UAUU、UUUU、UGUU、UCUU、UCUUU或UAGU。在一些方面，工程化引导核酸包括SEQ ID NO:172-182中的任一个。在一些方面，核酸酶由为了在来自特定生物体的细胞中使用而被密码子优化的核酸序列编码。在一些方面，核酸序列是针对大肠杆菌被密码子优化的。在一些方面，核酸序列是针对酿酒酵母被密码子优化的。在一些方面，核酸序列是针对哺乳动物细胞被密码子优化的。在一些方面，核酸序列是针对人类细胞被密码子优化的。在一些方面，核酸序列是针对植物细胞被密码子优化的。

通过引用并入

本说明书中提及的所有出版物和专利申请均通过引用并入本文，其程度如同每个单独的出版物或专利申请被具体地和单独地指出通过引用并入一样。

附图简述

本专利或申请文件包括以彩色展示的至少一幅附图。具有彩色附图的本专利或专利申请公布的副本将在请求和支付必要费用后由主管局提供。

图1A描述了对MAD1-8(SEQ ID NO:1-8)和MAD10-12(SEQ ID NO:10-12)的部分序列比对。图1A按出现顺序分别公开了全部的SEQ ID NO:721、SEQ ID NO:1的残基703-707、SEQ ID NO:2的残基625-629、SEQ ID NO:3的残基587-591、SEQ ID NO:4的残基654-658、SEQ ID NO:5的残基581-585、SEQ ID NO:6的残基637-641、SEQ ID NO:7的残基590-594、SEQ ID NO:8的残基645-649、SEQ ID NO:395、SEQ ID NO:10的残基619-623和SEQ ID NO:12的残基603-607。

图1B描绘了包括MAD1-8的核酸酶的演化树。

图2描绘了示例性蛋白表达构建体。图2公开了为SEQ ID NO:376的“6×His”。

图3描绘了按出现顺序分别表示编辑序列SEQ ID NO:396-398的编辑盒和靶密码子的实例。

图4描绘了示例性筛选实验或选择实验的工作流程。

图5A描绘了示例性蛋白表达构建体。

图5B描绘了示例性编辑盒。

图5C描绘了示例性筛选实验或选择实验的工作流程。

图6A描绘了示例性蛋白表达构建体。

图6B描绘了示例性编辑盒。

图6C描绘了示例性筛选实验或选择实验的工作流程。

图7描绘了来自有功能的核酸酶复合物筛选或选择实验的示例性数据。

图8描绘了来自基于可靶向核酸酶复合物的编辑实验的示例性数据。

图9描绘了来自基于可靶向核酸酶复合物的编辑实验的示例性数据。

图10A和图10B描绘了来自基于可靶向核酸酶复合物的编辑实验的示例性数据。

图11描绘了来自编辑实验的选择序列的示例性序列比对。图11按出现顺序分别公开了SEQ ID NO:399-401、SEQ ID NO:400、SEQ ID NO:400、SEQ ID NO:400、SEQ ID NO:400、SEQ ID NO:400、SEQ ID NO:402、SEQ ID NO:399-400和SEQ ID NO:400。

图12描绘了来自基于可靶向核酸酶复合物的编辑实验的示例性数据。

图13描绘了支架序列的示例性比对。图13按出现顺序分别公开了SEQ ID NO:403-415。

图14A-图14B描绘了来自引物验证实验的示例性数据。

图15描绘了来自基于可靶向核酸酶复合物的编辑实验的示例性数据。

图16描绘了比较来自两种不同测定的结果的示例性验证数据。

图17A-图17C描绘了示例性可跟踪遗传工程工作流程，包括这样的质粒，所述质粒包含编辑盒和记录盒以及下游测序条形码以鉴定所掺入的编辑或突变。图17B按出现顺序分别公开了SEQ ID NO:416-417。

图18描绘了示例性可跟踪遗传工程工作流程，包括每轮用不同的编辑盒和具有独特条形码(BC)的记录器盒的迭代轮的工程化，随后可以进行选择和跟踪，以确认每轮的成功工程化步骤。

图19描绘了示例性递归工程化工作流程。

图20描绘了示例性所讨论的表达盒，并且图20B描绘了靶基因中的示例性靶序列。

图21A和21B描绘了测量的细胞和菌落生长数据的实例。

图22A和22B描绘了比较输入和15小时时间点文库定量的示例性数据。

图23A和23B描绘了来自示例性实验的消耗评分数据。

图23C描绘了来自示例性实验的靶序列和编辑效率。图23C按出现顺序分别公开了SEQ ID NO:419-423。

图24A、图24B和图24C描绘了来自示例性实验的消耗评分数据。

图25描绘了用于确定所讨论的核酸酶系统的PAM特异性和脱靶效应的所讨论的测定的图形表示。

图26A、图26B和图26C描绘了来自示例性实验的消耗评分数据。

图27A和图27B描绘了来自示例性实验的消耗评分数据。

图28A和图28B描绘了来自示例性实验的消耗评分数据。

图29A和图29B描绘了来自示例性实验的消耗评分数据。

图30A和图30B描绘了来自示例性实验的消耗评分数据。

图31A、图31B和图31C描绘了来自示例性实验的消耗评分数据。

图32A、图32B、图32C、图32D、图32E、图32F、图32G和图32H描绘了来自示例性实验的消耗评分数据(负富集评分)。

图32I、图32J、图32K、图32L、图32M、图32N、图32O和图32P描绘了来自示例性实验的消耗评分数据。

图33描绘了用于确定PAM特异性和引导支架序列特征以及优化所讨论的核酸酶系统的示例性构建体和实验设计。

图34A和图34B描绘了对于示例性MAD crRNA序列的引导核酸支架序列比对。图34A按出现顺序分别公开了SEQ ID NO:639-666。图34B按出现顺序分别公开了SEQ ID NO:667-675。

图35A、图35B和图35C描绘了表征优选的crRNA环序列的示例性数据。

图36A、图36B、图36C、图36D、图36E和图36F分别描绘了表征MAD7、MAD2和MAD4的优选的crRNA环序列的示例性消耗评分数据。

图37描绘了来自表征crRNA茎环序列偏好的示例性实验的消耗评分数据。

图38A描绘了用于哺乳动物细胞的示例性表达构建体。

图38B描绘了示例性引导核酸序列。图38B按出现顺序分别公开了SEQ ID NO:677-678。

图39A和图39B描绘了由指示的gRNA序列所靶向的在指示的靶基因中的示例性靶位点。

图39C和图39D总结了指示的引导核酸的PAM和靶序列。图38C按出现顺序分别公开了SEQ ID NO:679-688。图39D按出现顺序分别公开了SEQ ID NO:689-698。

图40描绘了来自体外切割测定的裂解(切割)效率。

图41描绘了哺乳动物HEK293T细胞中的两个基因的MAD7依赖性(两个构建体)插入/缺失形成，这两个基因被具有两种不同长度的支架(42-mer或56-mer)的三种不同的引导核酸靶向。

公开内容详述

本公开内容提供了核酸引导性核酸酶以及使用方法。通常，所讨论的核酸引导性核酸酶是包含核酸引导性核酸酶和引导核酸的可靶向核酸酶系统的一部分。所讨论的可靶向核酸酶系统可以用于对通常被称为靶序列的靶多核苷酸序列进行裂解、修饰和/或编辑。所讨论的可靶向核酸酶系统总体上是指参与基因表达或指导基因活性的转录物和其他元件，所讨论的可靶向核酸酶系统可以包括如本文公开的编码所讨论的核酸引导性核酸酶蛋白的序列和引导核酸。

本文描述的方法、系统、载体、多核苷酸和组合物可以用于多种应用，包括改变或修饰基因产物诸如蛋白的合成、多核苷酸裂解、多核苷酸编辑、多核苷酸剪接；靶多核苷酸的运输、靶多核苷酸的跟踪、靶多核苷酸的分离、靶多核苷酸的可视化等。本发明的方面还包括基因组工程化的方法以及本文描述的组合物和系统在基因组工程化中的用途，例如用于在体外、体内或离体对原核细胞、古细菌细胞或真核细胞中的一个或更多个基因或一种或更多种基因产物的表达进行改变或操作。

核酸引导性核酸酶

细菌和古细菌的可靶向核酸酶系统已经成为用于精确基因组编辑的有力工具。然而，天然存在的核酸酶具有由核酸序列和蛋白尺寸而导致一些缺陷，包括表达和递送的挑战。需要PAM识别的可靶向核酸酶在其可在整个遗传序列中靶向的序列方面也受到限制。其他挑战包括持续性(processivity)、靶识别特异性和效率以及核酸酶酸性效率，这些通常会影响遗传编辑效率。

非天然存在的可靶向核酸酶和非天然存在的可靶向核酸酶系统可以解决这些挑战和限制中的许多。

本文公开了非天然地可靶向核酸酶系统。这样的可靶向核酸酶系统被工程化以解决上文描述的挑战中的一种或更多种，并且可以被称为工程化核酸酶系统。工程化核酸酶系统可以包含以下中的一种或更多种：工程化核酸酶诸如工程化核酸引导性核酸酶、工程化引导核酸、编码所述核酸酶的工程化多核苷酸或编码所述引导核酸的工程化多核苷酸。工程化核酸酶、工程化引导核酸和编码工程化核酸酶或工程化引导核酸的工程化多核苷酸不是天然存在的并且在自然界中不存在。因此，包括这些元件中的一种或更多种的工程化核酸酶系统是非天然存在的。

可被进行以获得非天然存在的核酸酶系统的工程化类型的非限制性实例如下。工程化可以包括密码子优化以促进在宿主细胞诸如异源宿主细胞中的表达或提高在宿主细胞诸如异源宿主细胞中的表达。工程化可以降低核酸酶的尺寸或分子量，以促进表达或递送。工程化可以改变PAM的选择以改变PAM的特异性或扩大已鉴定的PAM的范围。工程化可以改变、增加或降低可靶向核酸酶系统的稳定性、持续性、特异性或效率。工程化可以改变、增加或降低蛋白的稳定性。工程化可以改变、增加或降低核酸扫描(nucleic acid scanning)的持续性。工程化可以改变、增加或降低靶序列特异性。工程化可以改变、增加或降低核酸酶活性。工程化可以改变、增加或降低编辑效率。工程化可以改变、增加或降低转化效率。工程化可以改变、增加或降低核酸酶或引导核酸表达。

本文公开的非天然存在的核酸序列的实例包括针对在细菌诸如大肠杆菌中的表达被密码子优化的序列(例如，SEQ ID NO:41-60)、针对在单细胞真核生物诸如酵母中的表达被密码子优化的序列(例如，SEQ ID NO:127-146)、针对在多细胞真核生物诸如人类细胞中的表达被密码子优化的序列(例如，SEQ ID NO:147-166)、用于克隆或表达本文公开的任何序列的多核苷酸(例如，SEQ ID NO:61-80)、包含与异源启动子或细胞核定位信号或其他异源元件可操作地连接的核酸序列(例如，SEQ ID NO:21-40)的质粒、由工程化或密码子优化的核酸序列产生的蛋白(例如，SEQ ID NO:1-20)或包括SEQ ID NO:84-107中的任一个的工程化引导核酸。这样的非天然存在的核酸序列可以被扩增、克隆、组装、合成、由合成的寡核苷酸或dNTP产生，或者使用本领域技术人员已知的方法以其他方式获得。

本文公开了核酸引导性核酸酶。所讨论的核酸酶在体外或对于原核细胞、古细菌细胞或真核细胞的体外、体内或离体应用是有功能的。合适的核酸引导性核酸酶可以来自包括但不限于以下属的生物体：硫微螺菌属(Thiomicrospira)、琥珀酸弧菌属(Succinivibrio)、假丝酵母属(Candidatus)、卟啉单胞菌属(Porphyromonas)、氨基酸球菌属(Acidaminococcus)、Acidomonococcus、普氏菌属(Prevotella)、史密斯氏菌属(Smithella)、莫拉氏菌属(Moraxella)、互养菌属(Synergistes)、弗朗西斯氏菌属(Francisella)、钩端螺旋体属(Leptospira)、链型杆菌属(Catenibacterium)、Kandleria、梭菌属(Clostridium)、Dorea、粪球菌属(Coprococcus)、肠球菌属(Enterococcus)、嗜果糖乳酸菌属(Fructobacillus)、魏斯氏菌属(Weissella)、片球菌属(Pediococcus)、棒杆菌属(Corynebacter)、萨特氏菌属(Sutterella)、军团菌属(Legionella)、密螺旋体属(Treponema)、罗斯氏菌属(Roseburia)、产线菌属(Filifactor)、真杆菌属(Eubacterium)、链球菌属(Streptococcus)、乳酸杆菌属(Lactobacillus)、支原体属(Mycoplasma)、拟杆菌属(Bacteroides)、Flaviivola、黄杆菌属(Flavobacterium)、Sphaerochaeta、固氮螺菌属(Azospirillum)、葡糖醋杆菌属(Gluconacetobacter)、奈瑟氏菌属(Neisseria)、罗斯氏菌属、Parvibaculum、葡萄球菌属(Staphylococcus)、Nitratifractor、支原体属、脂环酸芽孢杆菌属(Alicyclobacillus)、Brevibacilus、芽孢杆菌属(Bacillus)、拟杆菌门(Bacteroidetes)、Brevibacilus、肉杆菌属(Carnobacterium)、Clostridiaridium、梭菌属、脱硫盐碱杆菌属(Desulfonatronum)、脱硫弧菌属(Desulfovibrio)、创伤球菌属(Helcococcus)、纤毛菌属(Leptotrichia)、李斯特菌属(Listeria)、甲烷嗜甲基菌(Methanomethyophilus)、甲基杆菌属(Methylobacterium)、丰祐菌科(Opitutaceae)、Paludibacter、红杆菌属(Rhodobacter)、Sphaerochaeta、肿块芽孢杆菌属(Tuberibacillus)、嗜油菌属(Oleiphilus)、Omnitrophica、俭菌总门(Parcubacteria)和弯曲菌属(Campylobacter)。这样的属的生物体物种可以是如本文中其他方面所讨论的。合适的核酸引导性核酸酶可以来自界内的属或未分类的属的生物体，其包括但不限于厚壁菌门(Firmicute)、放线菌门(Actinobacteria)、拟杆菌门(Bacteroidetes)、变形菌门(Proteobacteria)、螺旋体门(Spirochates)和柔膜菌门(Tenericutes)。合适的核酸引导性核酸酶可以来自门内的属或未分类的属的生物体，其包括但不限于丹毒丝菌纲(Erysipelotrichia)、梭菌纲(Clostridia)、芽孢杆菌纲(Bacilli)、放线菌纲(Actinobacteria)、拟杆菌纲(Bacteroidetes)、黄杆菌纲(Flavobacteria)、α变形杆菌纲(αproteobacteria)、β变形杆菌纲(βproteobacteria)、γ变形杆菌纲(γproteobacteria)、δ变形杆菌纲(δproteobacteria)、ε变形杆菌纲(εproteobacteria)、螺旋体纲(Spirochaetes)和柔膜菌纲(Mollicutes)。合适的核酸引导性核酸酶可以来自目内的属或未分类的属的生物体，这样的目包括但不限于梭菌目(Clostridiales)、乳杆菌目(Lactobacillales)、放线菌目(Actinomycetales)、拟杆菌目(Bacteroidales)、黄杆菌目(Flavobacteriales)、根瘤菌目(Rhizobiales)、红螺菌目(Rhodospirillales)、伯克氏菌目(Burkholderiales)、奈瑟菌目(Neisseriales)、军团菌目(Legionellales)、Nautiliales、弯曲菌目(Campylobacterales)、螺旋体目(Spirochaetales)、支原体目(Mycoplasmatales)和硫发菌目(Thiotrichales)。合适的核酸引导性核酸酶可以来自科内的属或未分类的属的生物体，这样的科包括但不限于毛螺菌科(Lachnospiraceae)、肠球菌科(Enterococcaceae)、明串珠菌科(Leuconostocaceae)、乳杆菌科(Lactobacillaceae)、链球菌科(Streptococcaceae)、消化链球菌科(Peptostreptococcaceae)、葡萄球菌科(Staphylococcaceae)、真杆菌科(Eubacteriaceae)、棒杆菌科(Corynebacterineae)、拟杆菌科(Bacteroidaceae)、黄杆菌属(Flavobacterium)、Cryomoorphaceae、红菌科(Rhodobiaceae)、红螺菌科(Rhodospirillaceae)、醋杆菌科(Acetobacteraceae)、Sutterellaceae、奈瑟氏菌科(Neisseriaceae)、军团菌科(Legionellaceae)、Nautiliaceae、弯曲菌科(Campylobacteraceae)、螺旋体科(Spirochaetaceae)、支原体科(Mycoplasmataceae)、Pisciririckettsiaceae和弗朗西斯氏菌科(Francisellaceae)。在2015年12月18日提交的美国专利申请公布第US20160208243号、2013年3月15日提交的美国申请公布第US20140068797号、2013年10月15日提交的美国专利第US8697359号，和Zetsche等人,Cell 2015Oct 22；163(3):759-71中已经描述了其他核酸引导性核酸酶，这些中的每一份均通过引用以其整体并入本文。

适用于本公开内容的方法、系统和组合物的一些核酸引导性核酸酶包括源自以下生物体的核酸引导性核酸酶，所述生物体诸如但不限于：硫微螺菌的种(Thiomicrospirasp.)XS5、直肠真杆菌(Eubacterium rectale)、溶糊精琥珀酸弧菌(Succinivibriodextrinosolvens)、Candidatus Methanoplasma termitum、CandidatusMethanomethylophilus alvus、狗口腔卟啉单胞菌(Porphyromonas crevioricanis)、嗜鳃黄杆菌(Flavobacterium branchiophilum)、氨基酸球菌属的种(Acidaminococcus Sp.)、Acidomonococcus sp.、毛螺菌科细菌COE1、短普雷沃氏菌(Prevotella brevis)ATCC19188、史密斯氏菌属的种(Smithella sp.)SCADC、牛眼莫拉氏菌(Moraxella bovoculi)、Synergistes jonesii、拟杆菌口腔分类群(Bacteroidetes oral taxon)274、土拉热弗朗西斯氏菌(Francisella tularensis)、稻田氏钩端螺旋体莱姆血清变型(Leptospirainadai serovar Lyme str.)10、Acidomonococcus sp.晶体结构(5B43)、变异链球菌(S.mutans)、无乳链球菌(S.agalactiae)、似马链球菌(equisimilis,S.)、血链球菌(S.sanguinis)、肺炎链球菌(S.pneumonia)；空肠弯曲杆菌(C.jejuni)、大肠弯曲杆菌(C.coli)、N.salsuginis、N.tergarcus；耳葡萄球菌(S.auricularis)、肉葡萄球菌(S.carnosus)；脑膜炎奈瑟氏菌(N.meningitides)、淋病奈瑟氏菌(N.gonorrhoeae)；单核细胞增多性李斯特菌(L.monocytogenes)、伊氏李斯特菌(L.ivanovii)；肉毒梭菌(C.botulinum)、艰难梭菌(C.difficile)、破伤风梭菌(C.tetani)、索氏梭菌(C.sordellii)；土拉热弗朗西斯氏菌1、易北普雷沃氏菌(Prevotella albensis)、毛螺旋菌科细菌MC20171、Butyrivibrio proteoclasticus、Butyrivibrio proteoclasticusB316、佩莱格里尼菌科(Peregrinibacteria)细菌GW2011_GWA2_33_10、俭菌总门细菌GW2011_GWC2_44_17、史密斯氏菌属的种(Smithella sp.)SCADC、氨基酸球菌属的种BV3L6、毛螺旋菌科细菌MA2020、候选白蚁甲烷枝原体(Candidatus Methanoplasma termitum)、挑剔真杆菌(Eubacterium eligens)、牛眼莫拉氏菌237、稻田钩端螺旋体(Leptospirainadai)、毛螺旋菌科细菌ND2006、狗口腔卟啉单胞菌3、解糖胨普雷沃氏菌(Prevotelladisiens)、猕猴卟啉单胞菌(Porphyromonas macacae)、Catenibacterium sp.CAG:290、Kandleria vitulina、梭菌目细菌KA00274、毛螺菌科细菌3-2、Dorea longicatena、灵巧粪球菌(Coprococcus catus)GD/7、哥伦比亚肠球菌(Enterococcus columbae)DSM 7374、果聚糖芽孢杆菌属的种(Fructobacillus sp.)EFB-N1、耐盐魏斯氏菌(Weissellahalotolerans)、乳酸片球菌(Pediococcus acidilactici)、弯曲乳杆菌(Lactobacilluscurvatus)、化脓性链球菌(Streptococcus pyogenes)、费斯莫尔德乳杆菌(Lactobacillusversmoldensis)、龈沟产线菌(Filifactor alocis)ATCC 35896、酸土脂环酸芽孢杆菌(Alicyclobacillus acidoterrestris)、酸土脂环酸芽孢杆菌ATCC 49025、意外脱硫弧菌(Desulfovibrio inopinatus)、意外脱硫弧菌DSM 10711、嗜油菌属的种(Oleiphilussp.)、嗜油菌属的种HI0009、Candidtus kefeldibacteria、俭菌总门CasY.4、OmnitrophicaWOR 2细菌GWF2、芽孢杆菌属的种(Bacillus sp.)NSP2.1和热噬淀粉芽孢杆菌(Bacillusthermoamylovorans)。

在一些情况下，本文公开的核酸引导性核酸酶包含包括与SEQ ID NO:1-20的任一个至少50％氨基酸同一性的氨基酸序列。在一些情况下，核酸酶包含包括与SEQ ID NO:1-20的任一个至少约10％、20％、30％、40％、50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％、或100％氨基酸同一性的氨基酸序列。在一些情况下，核酸引导性核酸酶包括与SEQ ID NO:1-20的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％的氨基酸同一性。在一些情况下，核酸引导性核酸酶包括与SEQ ID NO:1-8或10-12的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％的氨基酸同一性。在一些情况下，核酸引导性核酸酶包括与SEQ ID NO:1-8或10-11的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％的氨基酸同一性。在一些情况下，核酸引导性核酸酶包括与SEQ ID NO:2至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％的氨基酸同一性。在一些情况下，核酸引导性核酸酶包括与SEQID NO:7至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％的氨基酸同一性。在一些情况下，核酸引导性核酸酶包括与SEQ ID NO:4至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％的氨基酸同一性。

在一些情况下，核酸引导性核酸酶包括SEQ ID NO:1-20的任一个。在一些情况下，核酸引导性核酸酶包括SEQ ID NO:1-8或10-12的任一个。在一些情况下，核酸引导性核酸酶包括SEQ ID NO:1-8或10-11的任一个。在一些情况下，核酸引导性核酸酶包括SEQ IDNO:2。在一些情况下，核酸引导性核酸酶包括SEQ ID NO:7。在一些情况下，核酸引导性核酸酶包括SEQ ID NO:4。

在一些情况下，核酸引导性核酸酶包含包括与SEQ ID NO:12或SEQ ID NO:108-110的任一个至多10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％或95％氨基酸同一性的氨基酸序列。在一些情况下，核酸引导性核酸酶包含包括与SEQ ID NO:12或SEQ ID NO:108-110的任一个至多50％氨基酸同一性的氨基酸序列。在一些情况下，核酸引导性核酸酶包含包括与SEQ ID NO:12或SEQ ID NO:108-110的任一个至多45％氨基酸同一性的氨基酸序列。在一些情况下，核酸引导性核酸酶包含包括与SEQ ID NO:12或SEQ ID NO:108-110的任一个至多40％氨基酸同一性的氨基酸序列。在一些情况下，核酸引导性核酸酶包含包括与SEQ ID NO:12或SEQ ID NO:108-110的任一个至多35％氨基酸同一性的氨基酸序列。在一些情况下，核酸引导性核酸酶包含包括与SEQ ID NO:12或SEQ ID NO:108-110的任一个至多30％氨基酸同一性的氨基酸序列。

在一些情况下，本文公开的核酸引导性核酸酶由包括与SEQ ID NO:21-40的任一个至少50％序列同一性的核酸序列编码。在一些情况下，核酸酶由包括与SEQ ID NO:21-40的任一个至少约10％、20％、30％、40％、50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％、或100％序列同一性的核酸序列编码。在一些情况下，核酸酶由包括与SEQID NO:21-40的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:21-40的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:21-28或30-32的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:21-28或30-31的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:22至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:27至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:24至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。

在一些情况下，核酸引导性核酸酶由SEQ ID NO:21-40的任一个的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:21-28或30-32的任一个的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:21-28或30-31的任一个的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:22的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:27的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ IDNO:24的核酸序列编码。

在一些情况下，本文公开的核酸引导性核酸酶被编码于核酸序列上。这种核酸可以被进行密码子优化以在期望的宿主细胞中表达。作为非限制性实例，合适的宿主细胞可以包括原核细胞诸如大肠杆菌、铜绿假单胞菌(P.aeruginosa)、枯草芽孢杆菌(B.subtilus)和需钠弧菌(Vibrio natriegens)，以及真核细胞诸如酿酒酵母、植物细胞诸如拟南芥(Arabidopsis thaliana)或烟草植物细胞、昆虫细胞、线虫细胞、两栖动物细胞、鱼类细胞或哺乳动物细胞，包括人类细胞。

编码核酸引导性核酸酶的核酸序列可以针对在革兰氏阳性细菌例如枯草芽孢杆菌(Bacillus subtilis)或革兰氏阴性细菌例如大肠杆菌中的表达被密码子优化。在一些情况下，本文公开的核酸引导性核酸酶由包括与SEQ ID NO:41-60、SEQ ID NO:203-222、SEQ ID NO:283-302或SEQ ID NO:722-741的任一个至少50％序列同一性的核酸序列编码。在一些情况下，核酸酶由包括与SEQ ID NO:41-60、SEQ ID NO:203-222、SEQ ID NO:283-302或SEQ ID NO:722-741的任一个至少约10％、20％、30％、40％、50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％、或100％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:41-48、SEQ ID NO:50-51、SEQ ID NO:53-60、SEQ ID NO:203-222、SEQ ID NO:283-302或SEQ ID NO:722-741的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:41-48、SEQ ID NO:50-52、SEQ ID NO:203-222、SEQ ID NO:283-302或SEQ ID NO:722-741的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:41-48、SEQ ID NO:50-51、SEQ ID NO:203-222、SEQID NO:283-302或SEQ ID NO:722-741的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:42或SEQ ID NO:283-302至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:47或SEQ ID NO:203-222至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:44或SEQ ID NO:722-741至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。

在一些情况下，核酸引导性核酸酶由SEQ ID NO:41-60、SEQ ID NO:203-222、SEQID NO:283-302或SEQ ID NO:722-741的任一个的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:41-48、SEQ ID NO:50-52、SEQ ID NO:203-222、SEQ ID NO:283-302或SEQ ID NO:722-741的任一个的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQID NO:41-48、SEQ ID NO:50-51、SEQ ID NO:203-222、SEQ ID NO:283-302或SEQ ID NO:722-741的任一个的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:42或SEQ ID NO:283-302的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:47或SEQ ID NO:203-222的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:44或SEQ ID NO:722-741的核酸序列编码。

编码核酸引导性核酸酶的核酸序列可以针对在酵母物种例如酿酒酵母中的表达被密码子优化。在一些情况下，本文公开的核酸引导性核酸酶由包括与SEQ ID NO:127-146、SEQ ID NO:183-202、SEQ ID NO:263-282或SEQ ID NO:742-761的任一个至少50％序列同一性的核酸序列编码。在一些情况下，核酸酶由包括与SEQ ID NO:127-146、SEQ IDNO:183-202、SEQ ID NO:263-282或SEQ ID NO:742-761的任一个至少约10％、20％、30％、40％、50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％、或100％序列同一性的核酸序列编码。在一些情况下，核酸酶由包括与SEQ ID NO:127-146、SEQ ID NO:183-202、SEQ ID NO:263-282或SEQ ID NO:742-761的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:127-146、SEQ ID NO:183-202、SEQ ID NO:263-282或SEQID NO:742-761的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:127-134、SEQ ID NO:136-138、SEQ ID NO:183-202、SEQ ID NO:263-282或SEQ ID NO:742-761的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:127-134、SEQID NO:136-137、SEQ ID NO:183-202、SEQ ID NO:263-282或SEQ ID NO:742-761的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:128或SEQ ID NO:263-282至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:133或SEQ ID NO:183-202至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:130或SEQ ID NO:742-761至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。

在一些情况下，核酸引导性核酸酶由SEQ ID NO:127-146、SEQ ID NO:183-202、SEQ ID NO:263-282或SEQ ID NO:742-761的任一个的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:127-134、SEQ ID NO:136-138、SEQ ID NO:183-202、SEQ IDNO:263-282或SEQ ID NO:742-761的任一个的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:127-134、SEQ ID NO:136-137、SEQ ID NO:183-202、SEQ ID NO:263-282或SEQ ID NO:742-761的任一个的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQID NO:128或SEQ ID NO:263-282的任一个核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:133或SEQ ID NO:183-202的任一个的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:130或SEQ ID NO:742-761的任一个的核酸序列编码。

编码核酸引导性核酸酶的核酸序列可以针对在哺乳动物细胞中的表达被密码子优化。在一些情况下，本文公开的核酸引导性核酸酶由包括与SEQ ID NO:147-166、SEQ IDNO:243-262、SEQ ID NO:323-342或SEQ ID NO:762-781的任一个至少50％序列同一性的核酸序列编码。在一些情况下，核酸酶由包括与SEQ ID NO:147-166、SEQ ID NO:243-262、SEQID NO:323-342或SEQ ID NO:762-781的任一个至少约10％、20％、30％、40％、50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％、或100％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:147-166、SEQ ID NO:243-262、SEQID NO:323-342或SEQ ID NO:762-781的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:147-154、SEQ ID NO:156-158、SEQ ID NO:243-262、SEQ ID NO:323-342或SEQ ID NO:762-781的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:147-154、SEQ ID NO:156-157、SEQ ID NO:243-262、SEQ ID NO:323-342或SEQID NO:762-781的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:148或SEQ ID NO:323-342至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:153或243-262至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:150或762-781至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于SEQ ID NO:95％序列同一性的核酸序列编码。

在一些情况下，核酸引导性核酸酶由SEQ ID NO:147-166、SEQ ID NO:243-262、SEQ ID NO:323-342或SEQ ID NO:762-781的任一个的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:147-154、SEQ ID NO:156-158、SEQ ID NO:243-262、SEQ IDNO:323-342或SEQ ID NO:762-781的任一个的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:147-154、SEQ ID NO:156-157、SEQ ID NO:243-262、SEQ ID NO:323-342或SEQ ID NO:762-781的任一个的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQID NO:148或323-342的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:153或SEQ ID NO:243-262的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:150或SEQ ID NO:762-781的核酸序列编码。

编码核酸引导性核酸酶的核酸序列可以针对在植物细胞中的表达进行密码子优化。在一些情况下，本文公开的核酸引导性核酸酶由包括与SEQ ID NO:343-359、SEQ IDNO:223-242、SEQ ID NO:303-322或SEQ ID NO:782-801的任一个至少50％序列同一性的核酸序列编码。在一些情况下，核酸酶由包括与SEQ ID NO:343-359、SEQ ID NO:223-242、SEQID NO:303-322或SEQ ID NO:782-801的任一个至少约10％、20％、30％、40％、50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％、或100％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:343-359、SEQ ID NO:223-242、SEQID NO:303-322或SEQ ID NO:782-801的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:343-347、SEQ ID NO:349-351、SEQ ID NO:223-242、SEQ ID NO:303-322或SEQ ID NO:782-801的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:343-347、SEQ ID NO:349-350、SEQ ID NO:223-242、SEQ ID NO:303-322或SEQID NO:782-801的任一个至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:303-322至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:223-242至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。在一些情况下，核酸引导性核酸酶由包括与SEQ ID NO:782-801至少约50％、60％、65％、70％、75％、80％、85％、90％、95％、大于95％序列同一性的核酸序列编码。

在一些情况下，核酸引导性核酸酶由SEQ ID NO:343-359、SEQ ID NO:223-242、SEQ ID NO:303-322或SEQ ID NO:782-801的任一个的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:343-347、SEQ ID NO:349-351、SEQ ID NO:223-242、SEQ IDNO:303-322或SEQ ID NO:782-801的任一个的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:343-347、SEQ ID NO:349-350、SEQ ID NO:223-242、SEQ ID NO:303-322或SEQ ID NO:782-801的任一个的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQID NO:303-322的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:223-242的核酸序列编码。在一些情况下，核酸引导性核酸酶由SEQ ID NO:782-801的核酸序列编码。

编码核酸引导性核酸酶的核酸序列可以与启动子可操作地连接。这样的核酸序列可以是线性或环状的。核酸序列可以被包含在较大的线性或环状核酸序列上，所述较大的线性或环状核酸序列包含另外的元件，诸如复制起点、可选择标志物或可筛选标志物、终止子、可靶向核酸酶系统的其他组分诸如引导核酸或如本文公开的编辑盒或记录器盒。这些较大的核酸序列可以是重组表达载体，如后面更详细描述的。

引导核酸

通常，引导核酸可以与相容的核酸引导性核酸酶复合，并且可以与靶序列杂交，从而将核酸酶导向靶序列。能够与引导核酸复合的所讨论的核酸引导性核酸酶可以指与引导核酸相容的核酸引导性核酸酶。同样，能够与核酸引导性核酸酶复合的引导核酸可以被称为与核酸引导性核酸酶相容的引导核酸。

引导核酸可以是DNA。引导核酸可以是RNA。引导核酸可以包含DNA和RNA两者。引导核酸可以包含经修饰的非天然存在的核苷酸。在引导核酸包含RNA的情况下，RNA引导核酸可以由诸如本文公开的质粒、线性构建体或编辑盒的多核苷酸分子上的DNA序列编码。

引导核酸可以包含引导序列。引导序列是与靶多核苷酸序列具有足够互补性以与靶序列杂交并且指导复合的核酸引导性核酸酶与靶序列的序列特异性结合的多核苷酸序列。引导序列与其对应的靶序列之间的互补性程度当使用合适的比对算法进行最佳比对时为约或多于约50％、60％、75％、80％、85％、90％、95％、97.5％、99％或更多。最佳比对可以通过使用任何合适的用于序列比对的算法来确定。在一些实施方案中，引导序列的长度为约或多于约5个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、35个、40个、45个、50个、75个或更多个核苷酸。在一些实施方案中，引导序列的长度为少于约75个、50个、45个、40个、35个、30个、25个、20个核苷酸。优选地，引导序列的长度为10个-30个核苷酸。引导序列的长度可以为15个-20个核苷酸。引导序列的长度可以为15个核苷酸。引导序列的长度可以为16个核苷酸。引导序列的长度可以为17个核苷酸。引导序列的长度可以为18个核苷酸。引导序列的长度可以为19个核苷酸。引导序列的长度可以为20个核苷酸。

引导核酸可以包含支架序列。通常，“支架序列”包括具有足以促使可靶向核酸酶复合物形成的序列的任何序列，其中可靶向核酸酶复合物包含核酸引导性核酸酶及包含支架序列和引导序列的引导核酸。支架序列中足以促使可靶向核酸酶复合物形成的序列可以包括沿支架序列中的两个序列区域(诸如参与形成二级结构的一个或两个序列区域)的长度的互补性程度。在一些情况下，所述一个或两个序列区域被包含或编码在同一多核苷酸上。在一些情况下，所述一个或两个序列区域被包含或编码在不同的多核苷酸上。最佳比对可以通过任何合适的比对算法来确定，并且还可以考虑二级结构，诸如所述一个或两个序列区域中的自身互补性。在一些实施方案中，所述一个或两个序列区域之间沿这两个序列区域中较短序列区域的长度的互补性程度当进行最佳比对时为约或多于约25％、30％、40％、50％、60％、70％、80％、90％、95％、97.5％、99％或更高。在一些实施方案中，两个序列区域中的至少一个的长度为约或多于约5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、25个、30个、40个、50个或更多个核苷酸。

所讨论的引导核酸的支架序列可以包含二级结构。二级结构可以包括假结区域(pseudoknot region)。在一些情况下，引导核酸与核酸引导性核酸酶的结合动力学部分地由支架序列中的二级结构决定。在一些情况下，引导核酸与核酸引导性核酸酶的结合动力学部分地由具有支架序列的核酸序列决定。支架序列中的假结区域的实例在图49C中描绘。

支架序列可以包含环序列。环序列可以包含1个或更多个核苷酸。在一些实例中，环序列包含4个核苷酸。在一些实例中，环序列包含5个核苷酸。环序列可以是支架序列中不与另一序列杂交或不与支架序列中的另一序列杂交的区域。支架序列中的环序列的实例在图49C中描绘。

支架序列可以包括SEQ ID NO:84-107或SEQ ID NO:172-182的任一个的序列。支架序列可以包括SEQ ID NO:84-103的任一个的序列。支架序列可以包括SEQ ID NO:84-91或SEQ ID NO:93-95的任一个的序列。支架序列可以包括SEQ ID NO:88、SEQ ID NO:93、SEQID NO:94或SEQ ID NO:95的任一个的序列。支架序列可以包括SEQ ID NO:88的序列。支架序列可以包括SEQ ID NO:93的序列。支架序列可以包括SEQ ID NO:94的序列。支架序列可以包括SEQ ID NO:95的序列。支架序列可以包括图49A、图49B或图49C中描绘的序列或共有序列。

在一些方面，本公开内容提供了与包含保守支架序列的引导核酸结合的核酸酶。例如，用于本公开内容的核酸引导性核酸酶可以与如图13中示出的保守的假结区域结合。特别地，用于本公开内容的核酸引导性核酸酶可以与包含如图13中示出的保守的假结区域的引导核酸结合。用于本公开内容的某些核酸引导性核酸酶可以与与支架-1(SEQ ID NO:172)的假结区域具有至少75％、80％、85％、90％、95％或100％序列同一性的假结区域结合。用于本公开内容的其他核酸引导性核酸酶可以与与支架-3(SEQ ID NO:173)的假结区域具有至少75％、80％、85％、90％、95％或100％序列同一性的假结区域结合。仍用于本公开内容的其他核酸引导性核酸酶可以与与支架-4(SEQ ID NO:174)的假结区域具有至少75％、80％、85％、90％、95％或100％序列同一性的假结区域结合。用于本公开内容的其他核酸引导性核酸酶可以与与支架-5(SEQ ID NO:175)的假结区域具有至少75％、80％、85％、90％、95％或100％序列同一性的假结区域结合。用于本公开内容的其他核酸引导性核酸酶可以与与支架-6(SEQ ID NO:176)的假结区域具有至少75％、80％、85％、90％、95％或100％序列同一性的假结区域结合。仍用于本公开内容的其他核酸引导性核酸酶可以与与支架-7(SEQ ID NO:177)的假结区域具有至少75％、80％、85％、90％、95％或100％序列同一性的假结区域结合。用于本公开内容的其他核酸引导性核酸酶可以与与支架-8(SEQID NO:178)的假结区域具有至少75％、80％、85％、90％、95％或100％序列同一性的假结区域结合。用于本公开内容的其他核酸引导性核酸酶可以与与支架-10(SEQ ID NO:179)的假结区域具有至少75％、80％、85％、90％、95％或100％序列同一性的假结区域结合。仍用于本公开内容的其他核酸引导性核酸酶可以与与支架-11(SEQ ID NO:180)的假结区域具有至少75％、80％、85％、90％、95％或100％序列同一性的假结区域结合。用于本公开内容的某些核酸引导性核酸酶可以与与支架-12(SEQ ID NO:181)的假结区域具有至少75％、80％、85％、90％、95％或100％序列同一性的假结区域结合。用于本公开内容的某些核酸引导性核酸酶可以与与支架-25(SEQ ID NO:182)的假结区域具有至少75％、80％、85％、90％、95％或100％序列同一性的假结区域结合。

用于本公开内容的某些核酸引导性核酸酶可以与与SEQ ID NO:84-107或SEQ IDNO:172-182的任一个具有至少75％、80％、85％、90％、95％或100％序列同一性的支架序列结合。用于本公开内容的某些核酸引导性核酸酶可以与与图49A、图49B或图49C中描绘的序列的任一个具有至少75％、80％、85％、90％、95％或100％序列同一性的支架序列结合。

用于本公开内容的某些核酸引导性核酸酶可以与具有图49A、图49B或图49C中描绘的环序列的支架序列结合。用于本公开内容的某些核酸引导性核酸酶可以与具有环序列UAUU、UUU、UGUU、UCUU、UCUUU或UAGU的支架序列结合。

用于本公开内容的某些核酸引导性核酸酶可以与包含SEQ ID NO:181的RNA形式(version)的支架序列结合，其中T被U替换。在一些情况下，支架序列与SEQ ID NO:181的RNA形式相比包含至少一个突变。例如，支架序列可以在该支架序列的环序列中包含改变的序列。例如，环序列可以包含UAUU、UUU、UGUU、UCUU、UCUUU或UAGU。

引导核酸可以包括SEQ ID NO:84-107的任一个的序列。引导核酸可以包括SEQ IDNO:84-103的任一个的序列。引导核酸可以包括SEQ ID NO:84-91或SEQ ID NO:93-95的任一个的序列。引导核酸可以包括SEQ ID NO:88、SEQ ID NO:93、SEQ ID NO:94或SEQ ID NO:95的任一个的序列。引导核酸可以包括SEQ ID NO:88的序列。引导核酸可以包括SEQ IDNO:93的序列。引导核酸可以包括SEQ ID NO:94的序列。引导核酸可以包括SEQ ID NO:95的序列。

在本发明的方面，术语“引导核酸”是指一种或更多种包含以下的多核苷酸：1)能够与靶序列杂交的引导序列和2)能够与如本文描述的核酸引导性核酸酶相互作用或复合的支架序列。引导核酸可以作为一种或更多种核酸提供。在特定实施方案中，引导序列和支架序列作为单一多核苷酸提供。

当引导核酸可以与核酸引导性核酸酶形成能够使靶序列裂解的有功能的可靶向核酸酶复合物时，这两个元件可以相容。通常，通过扫描与天然的核酸引导性核酸酶的基因座邻近的序列，可以找到对相容的引导核酸相容的支架序列。换言之，天然的核酸引导性核酸酶可以被编码在基因组上对应的相容的引导核酸或支架序列的附近处。

核酸引导性核酸酶可以与该核酸酶的内源宿主中不存在的引导核酸相容。这样的正交(orthogonal)引导核酸可以通过经验测试来确定。正交引导核酸可以来自不同的细菌物种，或是被合成的或以其他方式工程化成非天然存在的。

与常见的核酸引导性核酸酶相容的正交引导核酸可以包含一种或更多种共同特征。共同特征可以包括假结区域外的序列。共同特征可以包括假结区域。共同特征可以包括一级序列或二级结构。

通过改变引导序列可将引导核酸工程化为靶向期望的靶序列，使得引导序列与该靶序列互补，从而允许引导序列与该靶序列之间的杂交。具有工程化引导序列的引导核酸可以被称为工程化引导核酸。工程化引导核酸通常是非天然存在的，并且在自然界中找不到。

用于所讨论的核酸酶的相容的引导核酸或支架序列可以使用如本文公开的筛选测定来鉴定或测试。通常，可以如本文所公开的产生载体的文库，所述载体包含与PAM序列邻近的靶序列。所述载体可以包含可选择标志物或可筛选标志物。所述载体可以包含待测试的引导核酸序列。所述载体可以包含允许鉴定待测试的引导核酸的条形码或其他独特标识符。所述引导核酸可以包含能够靶向载体的靶序列的靶向序列。所述引导核酸可以包含支架序列。通常，在这种载体的文库中，不同载体之间的支架序列将会不同，使得许多不同的支架序列可以在单一实验中或以高通量方式被筛选或测试。在一些情况下，支架序列中的茎环序列在不同载体之间是不同的，使得许多不同的支架序列可以在单一实验中或以高通量方式被筛选或测试。在一些情况下，载体文库包含与靶序列邻近的多种不同的PAM序列。然后，载体文库可以被引入宿主细胞中，所述宿主细胞包含所讨论的核酸酶。所述所讨论的核酸酶可以由相同或不同的载体表达，所述载体与引导核酸载体同时、在其之前或之后被引入细胞中。在其他情况下，所讨论的核酸酶可以以mRNA转录物的形式被引入细胞。在其他情况下，所讨论的核酸酶可以以蛋白的形式被引入细胞。不希望受理论束缚，在每个细胞中，引导核酸将被表达。如果表达的引导核酸与所讨论的核酸酶相容，则引导核酸将与所讨论的核酸酶复合，并且使核酸酶靶向靶序列，并且然后核酸酶将裂解靶序列。该裂解事件将导致宿主细胞失去包含靶序列的载体或失去可选择标志物或可筛选标志物的功能，并且因此宿主细胞将在选择下死亡或在筛选期间被丢失。另一方面，如果引导核酸与所讨论的核酸酶不相容，则靶序列将不会被裂解，并且因此宿主细胞将维持可选择标志物或可筛选标志物。通过将输入载体与来自存活或选择的输出宿主细胞的所选择或筛选的载体进行比较，人们可以鉴定已经消耗的载体。通过对输入载体和输出载体的条形码或独特标识符进行测序或分析，人们可以鉴定已经消耗的条形码或独特标识符，这将允许鉴定被消耗的引导核酸。消耗的引导核酸将包括与所讨论的核酸酶相容的引导核酸。

在一些情况下，当进行本文描述的引导核酸筛选或测试测定时，测定也可以用于鉴定或筛选与所讨论的核酸酶相容的PAM序列。在这种情况下，载体文库中的载体可以包含与PAM邻近的条形码或独特标识符。通过将输入载体与输出载体进行比较，人们可以鉴定已经消耗的PAM序列。消耗的PAM序列将包括与所讨论的核酸酶相容的PAM序列。在一些情况下，通过使用本文描述的测定，所讨论的核酸酶的相容的引导核酸和PAM序列可以在单一实验或筛选中或以高通量方式鉴定或测试。

消耗可以指所讨论的序列相对于起始频率或参考序列频率的降低。消耗与富集相反，并且因此也可以表示为负富集值。可以使用领域中任何已知的方法来计算消耗。在一些情况下，可以通过计算实验数据中每种序列或构建体的频率并将所讨论的频率与对照进行比较来计算消耗评分，其中消耗是所讨论的频率相对于对照或参考频率的变化水平。在一些情况下，使用阈值频率来降低噪声，例如，在将数据用于消耗评分计算之前，可以存在至少50个计数的截止。计算相对于对照或参考频率未显示出变化的序列的平均值和标准偏差。该平均值和标准偏差可以用于推导z评分，z评分可产生<0.05的p值来推断显著性阈值。在一些情况下，为了校正对消耗评分的潜在过高估计，使用截止值(cut-off)，并且超过该阈值的消耗评分被视为消耗。在一些情况下，阈值可以是log₂-1、log₂-2、log₂-3、log₂-4或log₂-5。

在一些实例中，可以使用以下等式将消耗评分计算为log2消耗评分：W＝log2(Fx,f/Fx,i)；其中，Fx,f是盒X在最终时间点的频率，并且Fx,i是盒X的初始频率，并且W是每个变体的绝对适合度。频率通过将每个变体的读取计数除以总实验计数来确定，所述总实验计数包括因过滤而丢失的计数。多个重复的计数加权平均值可以如下用于推断每个突变的平均适应度评分：W_平均＝(Σ^N _i＝1计数_i*W_i)/(Σ^N _i＝1计数_i)。当计算的值为负时，计算的评分可以被称为消耗评分，并且如果计算的值为正，也可以被称为富集评分。

可靶向核酸酶系统

本文公开了可靶向核酸酶系统。可靶向核酸酶系统可以包括核酸引导性核酸酶和相容的引导核酸。可靶向核酸酶系统可以包括核酸引导性核酸酶或编码核酸引导性核酸酶的多核苷酸序列。可靶向核酸酶系统可以包括引导核酸或编码引导核酸的多核苷酸序列。

通常，本文公开的可靶向核酸酶系统通过促使在靶序列位点处形成可靶向核酸酶复合物的元件来表征，其中可靶向核酸酶复合物包含核酸引导性核酸酶和引导核酸。

引导核酸与核酸引导性核酸酶一起形成可靶向核酸酶复合物，所述可靶向核酸酶复合物能够与靶多核苷酸中的靶序列结合，靶序列由引导核酸的引导序列确定。

通常，为了产生双链断裂，在大多数情况下，可靶向核酸酶复合物与由引导核酸确定的靶序列结合，并且核酸酶必须识别与靶序列邻近的前间区序列邻近基序(PAM)序列。

可靶向核酸酶复合物可以包括SEQ ID NO:1-20的任一个的核酸引导性核酸酶和相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:1-8或SEQ ID NO:1-12的任一个的核酸引导性核酸酶和相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:1-8或SEQ ID NO:10-11的任一个的核酸引导性核酸酶和相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:2的核酸引导性核酸酶和相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:7的核酸引导性核酸酶和相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:4的核酸引导性核酸酶和相容的引导核酸。在这些情况的任一种下，引导核酸可以包含与核酸引导性核酸酶相容的支架序列。在这些情况的任一种下，支架序列可以是天然支架序列或异源支架序列。在这些情况的任一种下，引导核酸还可以包含引导序列。引导序列可以被工程化为靶向任何期望的靶序列。引导序列可以被工程化为与任何期望的靶序列互补。引导序列可以被工程化为与任何期望的靶序列杂交。

可靶向核酸酶复合物可以包括SEQ ID NO:1-20的任一个的核酸引导性核酸酶和包括SEQ ID NO:84-107的任一个的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ IDNO:1-20的任一个的核酸引导性核酸酶和包括SEQ ID NO:172-182的任一个的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:1-8或SEQ ID NO:10-12的任一个的核酸引导性核酸酶和包括SEQ ID NO:84-95的任一个的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:1-8或SEQ ID NO:10-12的任一个的核酸引导性核酸酶和包括SEQ IDNO:172-182的任一个的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:1-8或SEQ ID NO:10-11的任一个的核酸引导性核酸酶和包括SEQ ID NO:84-91或SEQ ID NO:93-95的任一个的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:1-8或SEQ IDNO:10-11的任一个的核酸引导性核酸酶和包括SEQ ID NO:172-182的任一个的相容的引导核酸。在这些情况的任一种下，引导核酸还可以包含引导序列。引导序列可以被工程化为靶向任何期望的靶序列。引导序列可以被工程化为与任何期望的靶序列互补。引导序列可以被工程化为与任何期望的靶序列杂交。

可靶向核酸酶复合物可以包括SEQ ID NO:2的核酸引导性核酸酶和相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:2的核酸引导性核酸酶和包括SEQ ID NO:84-107或SEQ ID NO:172-182的任一个的相容的引导核酸。可靶向核酸酶复合物可以包括SEQID NO:2的核酸引导性核酸酶和包括SEQ ID NO:88、SEQ ID NO:93、SEQ ID NO:94或SEQ IDNO:95的任一个的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:2的核酸引导性核酸酶和包括SEQ ID NO:88的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ IDNO:2的核酸引导性核酸酶和包括SEQ ID NO:93的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:2的核酸引导性核酸酶和包括SEQ ID NO:94的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:2的核酸引导性核酸酶和包括SEQ ID NO:95的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:2的核酸引导性核酸酶和包括SEQ IDNO:172的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:2的核酸引导性核酸酶和包括SEQ ID NO:173的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:2的核酸引导性核酸酶和包括SEQ ID NO:174的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:2的核酸引导性核酸酶和包括SEQ ID NO:175的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:2的核酸引导性核酸酶和包括SEQ ID NO:176的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:2的核酸引导性核酸酶和包括SEQ ID NO:177的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:2的核酸引导性核酸酶和包括SEQ ID NO:178的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:2的核酸引导性核酸酶和包括SEQ ID NO:179的相容的引导核酸。可靶向核酸酶复合物可以包括SEQID NO:2的核酸引导性核酸酶和包括SEQ ID NO:180的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:2的核酸引导性核酸酶和包括SEQ ID NO:181的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:2的核酸引导性核酸酶和包括SEQ ID NO:182的相容的引导核酸。在这些情况的任一种下，引导核酸还可以包含引导序列。引导序列可以被工程化为靶向任何期望的靶序列。引导序列可以被工程化为与任何期望的靶序列互补。引导序列可以被工程化为与任何期望的靶序列杂交。

可靶向核酸酶复合物可以包括SEQ ID NO:7的核酸引导性核酸酶和相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:7的核酸引导性核酸酶和包括SEQ ID NO:84-107或SEQ ID NO:172-182的任一个的相容的引导核酸。可靶向核酸酶复合物可以包括SEQID NO:7的核酸引导性核酸酶和包括SEQ ID NO:88、SEQ ID NO:93、SEQ ID NO:94或SEQ IDNO:95的任一个的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:7的核酸引导性核酸酶和包括SEQ ID NO:88的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ IDNO:7的核酸引导性核酸酶和包括SEQ ID NO:93的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:7的核酸引导性核酸酶和包括SEQ ID NO:94的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:7的核酸引导性核酸酶和包括SEQ ID NO:95的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:7的核酸引导性核酸酶和包括SEQ IDNO:172的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:7的核酸引导性核酸酶和包括SEQ ID NO:173的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:7的核酸引导性核酸酶和包括SEQ ID NO:174的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:7的核酸引导性核酸酶和包括SEQ ID NO:175的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:7的核酸引导性核酸酶和包括SEQ ID NO:176的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:7的核酸引导性核酸酶和包括SEQ ID NO:177的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:7的核酸引导性核酸酶和包括SEQ ID NO:178的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:7的核酸引导性核酸酶和包括SEQ ID NO:179的相容的引导核酸。可靶向核酸酶复合物可以包括SEQID NO:7的核酸引导性核酸酶和包括SEQ ID NO:180的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:7的核酸引导性核酸酶和包括SEQ ID NO:181的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:7的核酸引导性核酸酶和包括SEQ ID NO:182的相容的引导核酸。在这些情况的任一种下，引导核酸还可以包含引导序列。引导序列可以被工程化为靶向任何期望的靶序列。引导序列可以被工程化为与任何期望的靶序列互补。引导序列可以被工程化为与任何期望的靶序列杂交。

可靶向核酸酶复合物可以包括SEQ ID NO:4的核酸引导性核酸酶和相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:4的核酸引导性核酸酶和包括SEQ ID NO:84-107或SEQ ID NO:172-182的任一个的相容的引导核酸。可靶向核酸酶复合物可以包括SEQID NO:4的核酸引导性核酸酶和包括SEQ ID NO:88、SEQ ID NO:93、SEQ ID NO:94或SEQ IDNO:95的任一个的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:4的核酸引导性核酸酶和包括SEQ ID NO:88的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ IDNO:4的核酸引导性核酸酶和包括SEQ ID NO:93的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:4的核酸引导性核酸酶和包括SEQ ID NO:94的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:4的核酸引导性核酸酶和包括SEQ ID NO:95的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:4的核酸引导性核酸酶和包括SEQ IDNO:172的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:4的核酸引导性核酸酶和包括SEQ ID NO:173的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:4的核酸引导性核酸酶和包括SEQ ID NO:174的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:4的核酸引导性核酸酶和包括SEQ ID NO:175的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:4的核酸引导性核酸酶和包括SEQ ID NO:176的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:4的核酸引导性核酸酶和包括SEQ ID NO:177的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:4的核酸引导性核酸酶和包括SEQ ID NO:178的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:4的核酸引导性核酸酶和包括SEQ ID NO:179的相容的引导核酸。可靶向核酸酶复合物可以包括SEQID NO:4的核酸引导性核酸酶和包括SEQ ID NO:180的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:4的核酸引导性核酸酶和包括SEQ ID NO:181的相容的引导核酸。可靶向核酸酶复合物可以包括SEQ ID NO:4的核酸引导性核酸酶和包括SEQ ID NO:182的相容的引导核酸。在这些情况的任一种下，引导核酸还可以包含引导序列。引导序列可以被工程化为靶向任何期望的靶序列。引导序列可以被工程化为与任何期望的靶序列互补。引导序列可以被工程化为与任何期望的靶序列杂交。

可靶向核酸酶复合物可以包含所讨论的可靶向核酸酶和引导核酸。在一些情况下，引导核酸基于其与所讨论的核酸酶的相容性来选择。本文公开并在别处更详细地描述了确定和选择相容的引导核酸的方法。在一些情况下，引导核酸基于其赋予可靶向核酸酶复合物的裂解效率来选择。裂解效率可以是切割靶核酸的频率。在一些情况下，引导核酸基于其赋予可靶向核酸酶复合物的靶向效率来选择。靶向效率可以是靶向预期的靶核酸的频率。在一些情况下，引导核酸基于其赋予可靶向核酸酶复合物的裂解特异性来选择。裂解特异性可以是裂解预期的靶序列与裂解非预期的靶序列相比的频率。在一些情况下，引导核酸基于其赋予可靶向核酸酶复合物的靶向特异性来选择。靶向特异性可以是靶向预期的靶序列与靶向非预期的靶序列相比的频率。

诸如裂解特异性、裂解效率、靶向特异性或靶向效率的特征可以基于引导核酸的特征来确定。例如，支架序列、假结区域或环序列可以各自或组合地影响所讨论的核酸酶复合物的靶向或裂解特征。在一些实例中，支架序列中与核酸酶相互作用的部分影响复合物的裂解或靶向特异性或效率。在一些情况下，引导核酸的引导序列(有时称为靶向序列)影响复合物的裂解或靶向特异性或效率。在一些实例中，靶序列的选择影响复合物的裂解或靶向特异性或效率。例如，引导序列和靶序列之间的错配可以影响复合物的裂解或靶向特异性或效率。在一些情况下，错配相对于PAM的位置可以影响复合物的裂解或靶向特异性或效率。在一些情况下，错配的数目或错配相对于彼此的间距可以影响复合物的裂解或靶向特异性或效率。在这些情况中的任一种下，述及的参数可以增加或降低所讨论的可靶向核酸酶复合物的靶向特异性、靶向效率、裂解特异性或裂解效率。

可靶向核酸酶复合物的靶序列可以是对原核细胞或真核细胞为内源或外源的任何多核苷酸或体外的任何多核苷酸。例如，靶序列可以是位于真核细胞的细胞核中的多核苷酸。靶序列可以是编码基因产物(例如，蛋白)的序列或非编码序列(例如，调控性多核苷酸或垃圾DNA(junk DNA))。不希望受理论束缚，认为靶序列应当与PAM缔合；PAM即被可靶向核酸酶复合物识别的短序列。PAM的精确序列和长度要求取决于所使用的核酸引导性核酸酶而不同，但PAM通常是与靶序列邻近的2个-5个碱基对序列。PAM序列的实例在下文的实施例章节给出，并且技术人员将能够鉴定对于特定的核酸引导性核酸酶使用的其他PAM序列。此外，对PAM相互作用(PI)结构域的工程化可以允许对PAM特异性进行编程，提高靶位点识别保真度，并增加核酸引导性核酸酶基因组工程化平台的多功能性。核酸引导性核酸酶可以被工程化以改变它们的PAM特异性，例如，如Kleinstiver B P等人Engineered CRISPR-Cas9 nucleases with altered PAM specificities.Nature.2015Jul.23；523(7561):481-5.doi:10.1038/nature14592中描述的。

PAM位点是靶序列附近的核苷酸序列。在大多数情况下，核酸引导性核酸酶仅在适当的PAM存在时才能使靶序列裂解。PAM是核酸引导性核酸酶特异性的，并且在两种不同的核酸引导性核酸酶之间可以不同。PAM可以位于靶序列的5'或3'端。PAM可以位于靶序列的上游或下游。PAM的长度可以是1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个核苷酸。通常，PAM的长度在2个-6个核苷酸之间。

与所讨论的核酸酶或可靶向核酸酶复合物相容的PAM位点可以使用本文公开的方法来鉴定。通常，可以如本文所公开的产生载体的文库，所述载体包含与PAM序列邻近的靶序列。在这种载体的文库中，PAM序列可以在不同载体之间不同，使得许多不同的PAM序列可以在单一实验中或以高通量方式被筛选或测试。所述载体可以包含允许鉴定待测试的PAM的条形码或其他独特标识符。所述载体可以包含可选择标志物或可筛选标志物。所述载体可以包含引导核酸序列。所述引导核酸可以包含能够靶向载体的靶序列的靶向序列。所述引导核酸可以包含支架序列。在一些情况下，载体文库包含多种不同的引导核酸序列或支架序列。然后，载体文库可以被引入宿主细胞中，所述宿主细胞包含所讨论的核酸酶。所述所讨论的核酸酶可以由相同或不同的载体表达，所述载体与引导核酸载体同时、在其之前或之后被引入细胞中。在其他情况下，所讨论的核酸酶可以以mRNA转录物的形式被引入细胞。在其他情况下，所讨论的核酸酶可以以蛋白的形式被引入细胞。不希望受理论束缚，在每个细胞中，引导核酸将被表达并将与所讨论的核酸酶复合。然后引导核酸可以使核酸酶靶向靶序列。在一些情况下，如果与靶序列邻近的PAM与所讨论的核酸酶相容，则所讨论的核酸酶可以裂解靶序列。该裂解事件将导致宿主细胞失去包含靶序列的载体或失去可选择标志物或可筛选标志物的功能，并且因此宿主细胞将在选择下死亡或在筛选期间被丢失。另一方面，如果PAM与所讨论的核酸酶不相容，则靶序列将不会被裂解，并且因此宿主细胞将维持可选择标志物或可筛选标志物。通过将输入载体与来自存活或选择的输出宿主细胞的被选择或筛选的载体进行比较，人们可以鉴定已经消耗的载体。通过对输入载体和输出载体的条形码或独特标识符进行测序或分析，人们可以鉴定已经消耗的条形码或独特标识符，这将允许鉴定被消耗的PAM序列。被消耗的PAM序列将包括与所讨论的核酸酶相容的PAM序列。

在一些情况下，当进行本文所述的PAM筛选或测试测定时，测定也可以用于鉴定或筛选与所讨论的核酸酶相容的引导核酸序列。在这种情况下，载体文库中的载体可以包含与引导核酸邻近的条形码或独特标识符。通过将输入载体与输出载体进行比较，人们可以鉴定已经消耗的引导核酸序列。消耗的引导核酸序列将包括与所讨论的核酸酶相容的引导核酸序列。在一些情况下，通过使用本文描述的测定，对于所讨论的核酸酶相容的引导核酸和PAM序列可以在单一实验或筛选中或以高通量方式鉴定或测试。如先前描述的用于计算和评估消耗的方法也适用于在这些情况下计算和评估消耗。

在一些实例中，PAM可以在单独的寡核苷酸上提供。在这种情况下，在寡核苷酸上提供PAM允许裂解原本不能够被裂解的靶序列，因为在与靶序列相同的多核苷酸上不存在邻近的PAM。

编码可靶向核酸酶系统的组分的多核苷酸序列可以包括一种或更多种载体。通常，术语“载体”是指能够运送已经与其连接的另一种核酸的核酸分子。载体包括但不限于单链、双链或部分双链的核酸分子；包含一个或更多个游离端、没有游离端(例如环状)的核酸分子；包含DNA、RNA或两者的核酸分子；以及本领域已知的其他多种多核苷酸。一种类型的载体是“质粒”，质粒是指可以诸如通过标准分子克隆技术将另外的DNA区段插入其中的环状双链DNA环。另一种类型的载体是病毒载体，其中源自病毒的用于包装病毒(例如，逆转录病毒、复制缺陷型逆转录病毒、腺病毒、复制缺陷型腺病毒、和腺相关病毒)DNA或RNA序列存在于载体中。病毒载体还包含用于转染到宿主细胞中的由病毒携带的多核苷酸。某些载体能够在它们被引入的宿主细胞中自主复制(例如，具有细菌复制起点的细菌载体和附加型哺乳动物载体)。其他载体(例如，非附加型哺乳动物载体)在引入到宿主细胞中后被整合到宿主细胞的基因组中，并且从而与宿主基因组一起复制。此外，某些载体能够指导与它们可操作地连接的基因的表达。这样的载体在本文中被称为“表达载体”。在重组DNA技术中具有实用性的常见表达栽体通常呈质粒的形式。本文提供了对载体的进一步讨论。

重组表达载体可以包含呈适于在宿主细胞中表达核酸的形式的本发明的核酸，这意味着重组表达载体包含一种或更多种调控元件，所述调控元件可以基于待被用于表达的宿主细胞来选择，所述调控元件与待被表达的核酸序列可操作地连接。在重组表达载体中，“可操作地连接”意图表示感兴趣的核苷酸序列以允许核苷酸序列表达的方式(例如，在体外转录/翻译系统中表达，或者当载体被引入宿主细胞中时在宿主细胞中表达)与调控元件连接。关于重组和克隆方法，提到了美国专利申请序列号10/815,730，于2004年9月2日公布为US 2004-0171156 A1，其内容通过引用以其整体并入本文。

在一些实施方案中，调控元件与可靶向核酸酶系统的一个或更多个元件可操作地连接，以驱动可靶向核酸酶系统的一种或更多种组分的表达。

在一些实施方案中，载体包含与编码核酸引导性核酸酶的多核苷酸序列可操作地连接的调控元件。编码核酸引导性核酸酶的多核苷酸序列可以针对在特定细胞诸如原核细胞或真核细胞中表达被密码子优化。真核细胞可以是酵母、真菌、藻类、植物、动物或人类的细胞。真核细胞可以是特定生物体的细胞或衍生自特定生物体的细胞，所述特定生物体诸如哺乳动物，包括但不限于人类、小鼠、大鼠、兔、犬或非人类哺乳动物，包括非人类灵长类动物。

通常，密码子优化是指通过用在宿主细胞的基因中更频繁或最频繁地使用的密码子替换天然序列的至少一个密码子(例如，约或多于约1个、2个、3个、4个、5个、10个、15个、20个、25个、50个、或更多个密码子)同时维持天然氨基酸序列来修饰核酸序列以增强在感兴趣的宿主细胞中表达的方法。不同物种对特定氨基酸的某些密码子表现出特定的偏好性。密码子偏好性(生物体之间密码子使用的差异)通常与信使RNA(mRNA)的翻译效率相关，继而认为所述翻译效率尤其取决于，被翻译的密码子的特性和特定转移RNA(tRNA)分子的可用性。所选择的tRNA在细胞中的主导性通常反映肽合成中使用最频繁的密码子。因此，可以基于密码子优化为特定生物体中的最佳基因表达来修整基因。密码子使用表很容易获得，例如，在www.kazusa.orjp/codon/(2002年7月9日访问)处可获得的“密码子使用数据库(Codon Usage Database)”中，并且这些表格可以以许多方式调整。参见Nakamura等人“Codon usage tabulated from the international DNA sequence databases:statusfor the year 2000”Nucl.Acids Res.28:292(2000)。用于对特定序列进行密码子优化以在特定宿主细胞中表达的计算机算法也是可获得的，诸如Gene Forge(Aptagen；Jacobus,Pa.)也是可获得的。在一些实施方案中，编码工程化核酸酶的序列中的一个或更多个密码子(例如，1个、2个、3个、4个、5个、10个、15个、20个、25个、50个、或更多个或所有密码子)对应于特定氨基酸最频繁使用的密码子。

在一些实施方案中，载体编码包含一个或更多个细胞核定位序列(NLS)诸如约或多于约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个NLS的核酸引导性核酸酶。在一些实施方案中，工程化核酸酶包含：在氨基末端处或氨基末端附近的约或多于约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个NLS，在羧基末端处或羧基末端附近的约或多于约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个NLS，或这些的组合(例如，在氨基末端处的一个或更多个NLS和在羧基末端处的一个或更多个NLS)。当存在多于一个NLS时，每个NLS可以独立于其他NLS被选择，使得单一NLS可能存在于多于一个拷贝中和/或联合一个或更多个其他NLS存在于一个或更多个拷贝。在本发明的优选实施方案中，工程化核酸酶包含至多6个NLS。在一些实施方案中，当距NLS最近的氨基酸处于沿着多肽链的N-末端或C-末端约1个、2个、3个、4个、5个、10个、15个、20个、25个、30个、40个、50个、或更多个氨基酸以内时，NLS被认为接近N-末端或C-末端。NLS的非限制性实例包括源自以下的NLS序列：SV40病毒大T抗原的具有氨基酸序列PKKKRKV(SEQ ID NO:111)的NLS；来自核质蛋白的NLS(例如，具有序列KRPAATKKAGQAKKKK(SEQ ID NO:112)的核质蛋白二分体(bipartite)NLS)；具有氨基酸序列PAAKRVKLD(SEQ ID NO:113)或RQRRNELKRSP(SEQ ID NO:114)的c-myc NLS；具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:115)的hRNPA1M9 NLS；来自输入蛋白α的IBB结构域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:116)；肌瘤T蛋白的序列VSRKRPRP(SEQ ID NO:117)和PPKKARED(SEQ IDNO:118)；人类p53的序列PQPKKKPL(SEQ ID NO:119)；小鼠c-abl IV的序列SALIKKKKKMAP(SEQ ID NO:120)；流感病毒NS1的序列DRLRR(SEQ ID NO:121)和PKQKKRK(SEQ ID NO:122)；肝炎病毒δ抗原的序列RKLKKKIKKL(SEQ ID NO:123)；小鼠Mx1蛋白的序列REKKKFLKRR(SEQ ID NO:124)；人类聚(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK(SEQ ID NO:125)；以及类固醇激素受体(人类)糖皮质激素的序列RKCLQAGMNLEARKTKK(SEQ ID NO:126)。

通常，一个或更多个NLS具有足以驱动核酸引导性核酸酶在真核细胞的细胞核中以可检测的量积累的强度。通常，核定位活性的强度可以从NLS的数目、所使用的特定NLS、或这些因素的组合中得到。细胞核中的积累的检测可以通过任何合适的技术来进行。例如，可以将可检测的标志物与核酸引导性核酸酶融合，诸如与用于检测细胞核位置的手段(例如，对细胞核特异的染料，诸如DAPI)组合，使得在细胞中的位置可以被观察到。还可以将细胞核与细胞分离，然后可以通过用于检测蛋白的任何适合的方法诸如免疫组织化学、蛋白印迹或酶活性测定来分析细胞核的内容物。也可以间接确定细胞核中的积累，诸如通过与未暴露于核酸引导性核酸酶或可靶向核酸酶复合物的对照，或暴露于缺少一个或更多个NLS的核酸引导性核酸酶的对照相比，测定核酸引导性核酸酶复合物形成的效果(例如，测定靶序列处的DNA裂解或突变，或测定受可靶向核酸酶复合物形成影响而被改变的基因表达活性和/或核酸引导性核酸酶活性)。

核酸引导性核酸酶和一种或更多种引导核酸可以以DNA或RNA的形式递送。核酸引导性核酸酶和引导核酸两者均以RNA(未被修饰或含有碱基或骨架修饰)分子的形式递送，可以用于降低核酸引导性核酸酶在细胞中持续存在的时间的量。这可以降低靶细胞中脱靶裂解活性的水平。由于核酸引导性核酸酶以mRNA形式的递送需要时间来翻译成蛋白，在递送核酸引导性核酸酶mRNA后若干小时递送引导核酸可能是有利的，以使可用于与核酸引导性核酸酶蛋白相互作用的引导核酸的水平最大化。在其他情况下，核酸引导性核酸酶mRNA和引导核酸被同时递送。在其他实例中，引导核酸在核酸引导性核酸酶mRNA之后诸如0.5小时、1小时、2小时、3小时、4小时或更多小时被依序递送。

在引导核酸量有限的情况下，可能期望将核酸引导性核酸酶以mRNA形式且引导核酸以具有驱动引导核酸表达的启动子的DNA表达盒的形式引入。以此方式，可用的引导核酸的量将经由转录而被扩大。

可以将RNA形式的引导核酸或被编码在DNA表达盒上的引导核酸引入到包含被编码在载体或染色体上的核酸引导性核酸酶的宿主细胞中。引导核酸可以作为一个或更多个多核苷酸提供在盒中，所述一个或更多个多核苷酸在盒中可以是连续的或非连续的。在特定实施方案中，引导核酸在盒中被提供为单一连续的多核苷酸形式。

多种递送系统可以用于将核酸引导性核酸酶(DNA或RNA)和引导核酸(DNA或RNA)引入宿主细胞中。这些包括酵母系统、脂质体转染系统、显微注射系统、生物弹射系统、病毒微体(virosomes)、脂质体、免疫脂质体、聚阳离子、脂质:核酸缀合物、病毒粒子(virion)、人工病毒粒子、病毒载体、电穿孔、细胞可渗透肽、纳米粒子、纳米线(Shalek等人，NanoLetters,2012)、外泌体(exosome)的使用。分子特洛伊木马脂质体(molecular trojanhorses liposome)(Pardridge等人，Cold Spring Harb Protoc；2010；doi:10.1101/pdb.prot5407)可以用于递送工程化核酸酶并引导核酸酶穿过血脑屏障。

在一些实施方案中，还提供了编辑模板。编辑模板可以是如本文描述的载体的组分，被包含在单独的载体中，或者以单独的多核苷酸提供，诸如寡核苷酸、线性多核苷酸或合成多核苷酸。在一些情况下，编辑模板与引导核酸位于同一多核苷酸上。在一些实施方案中，编辑模板被设计成充当同源重组的模板，诸如在靶序列之内或附近，靶序列被作为如本文公开的复合物的一部分的核酸引导性核酸酶切开或裂解。编辑模板多核苷酸可以具有任何合适的长度，诸如长度为约或多于约10个、15个、20个、25个、50个、75个、100个、150个、200个、500个、1000个或更多个核苷酸。在一些实施方案中，编辑模板多核苷酸与多核苷酸的包含靶序列的部分互补。当被最佳比对时，编辑模板多核苷酸可以与靶序列的一个或更多个核苷酸(例如，约或多于约1个、5个、10个、15个、20个、25个、30个、35个、40个或更多个核苷酸)重叠。在一些实施方案中，当将编辑模板序列与包含靶序列的多核苷酸进行最佳比对时，模板多核苷酸距靶序列最近的核苷酸在距靶序列约1个、5个、10个、15个、20个、25个、50个、75个、100个、200个、300个、400个、500个、1000个、5000个、10000个或更多个核苷酸之内。

在许多实例中，编辑模板包含与靶序列相比的至少一个突变。编辑模板可以包含与靶序列相比的插入、缺失、修饰或其任何组合。一些编辑模板的实例将在后面的章节中被更详细地描述。

在一些方面，本公开内容提供了以下方法，所述方法包括向宿主细胞递送一种或更多种多核苷酸(诸如一种或更多种如本文描述的载体或线性多核苷酸)、其一种或更多种转录物和/或由其转录的一种或更多种蛋白。在一些方面，本发明还提供了通过这种方法产生的细胞，以及包含这种细胞的生物体或由这种细胞产生的生物体。在一些实施方案中，将工程化核酸酶与引导核酸组合(并且任选地工程化核酸酶与引导核酸复合)递送至细胞。

可以使用常规的基于病毒和非病毒的基因转移方法将核酸引入细胞，诸如原核细胞、真核细胞、哺乳动物细胞或靶组织。可以使用这样的方法将编码工程化核酸引导性核酸酶系统的组分的核酸施用至培养物中的细胞或宿主生物体中的细胞。非病毒载体递送系统包括DNA质粒、RNA(例如，本文描述的载体的转录物)、裸核酸以及与递送媒介物诸如脂质体复合的核酸。病毒载体递送系统包括DNA病毒和RNA病毒，它们在被递送至细胞后具有附加型基因组或被整合的基因组。对于基因疗法程序的综述，参见Anderson,Science 256:808-813(1992)；Nabel&Feigner,TIBTECH11:211-217(1993)；Mitani&Caskey,TIBTECH 11:162-166(1993)；Dillon.TIBTECH 11:167-175(1993)；Miller,Nature 357:455-460(1992)；VanBrunt,Biotechnology 6(10):1149-1154(1988)；Vigne,Restorative Neurology andNeuroscience 8:35-36(1995)；Kremer&Perricaudet,British Medical Bulletin51(1):31-44(1995)；Haddada等人，于Current Topics in Microbiology and ImmunologyDoerfler和Bohm(编辑)(1995)中；和Yu等人，Gene Therapy1:13-26(1994)。

核酸的非病毒递送方法包括脂质体转染、显微注射、生物弹射、病毒微体、脂质体、免疫脂质体、聚阳离子或脂质:核酸缀合物、裸DNA、人工病毒粒子和剂增强的DNA摄取。脂质体转染描述于例如美国专利第5,049,386号、第4,946,787号和第4,897,355号中并且脂质体转染试剂是商业上销售的(例如，Transfectam^TM和Lipofectin^TM)。适于多核苷酸的有效的受体识别脂质体转染的阳离子和中性脂质包括Felgner，WO 91/17424；WO91/16024的那些。递送可以针对细胞(例如体外或离体施用)或靶组织(例如体内施用)。

脂质:核酸复合物包括靶向脂质体诸如免疫脂质复合物的制备是本领域技术人员熟知的(参见例如，Crystal,Science 270:404-410(1995)；Blaese等人，Cancer GeneTher.2:291-297(1995)；Behr等人，Bioconjugate Chem.5:382-389(1994)；Remy等人，Bioconjugate Chem.5:647-654(1994)；Gao等人，Gene Therapy 2:710-722(1995)；Ahmad等人，Cancer Res.52:4817-4820(1992)；美国专利第4,186,183号、第4,217,344号、第4,235,871号、第4,261,975号、第4,485,054号、第4,501,728号、第4,774,085号、第4,837,028号和第4,946,787号)。

用于递送核酸的基于RNA病毒或DNA病毒的系统的使用利用了使病毒靶向培养物中或宿主中的特定细胞并将病毒的有效负载物(payload)运输至细胞核或宿主细胞基因组的高度演化的方法。病毒载体可以被直接施用至培养物中的细胞、患者(体内)，或者它们可以被用于体外处理细胞，并且经修饰的细胞可以被任选地施用至患者(离体)。常规的基于病毒的系统可以包括用于基因转移的逆转录病毒载体、慢病毒载体、腺病毒载体、腺相关病毒载体和单纯疱疹病毒载体。用逆转录病毒、慢病毒和腺相关病毒基因转移方法整合到宿主基因组中是可能的，这通常导致插入的转基因的长期表达。另外地，已经在许多不同的细胞类型和靶组织中观察到高转导效率。

逆转录病毒的趋向性可以通过掺入外源包膜蛋白，从而扩展靶细胞的潜在靶群体来改变。慢病毒载体是能够转导或感染非分裂细胞并通常产生高病毒滴度的逆转录病毒载体。因此，逆转录病毒基因转移系统的选择将取决于靶组织。逆转录病毒载体包含顺式作用长末端重复，具有多达6kb-10kb的外源序列的包装容量。最小顺式作用LTR足以用于载体的复制和包装，然后使用载体将治疗性基因整合到靶细胞中，以提供永久的转基因表达。广泛使用的逆转录病毒载体包括基于鼠(murine)白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猴免疫缺陷病毒(SIV)、人类免疫缺陷病毒(HIV)及其组合的那些(参见例如，Buchscher等人，J.Virol.66:2731-2739(1992)；Johann等人，J.Virol.66:1635-1640(1992)；Sommnerfelt等人，Virol.176:58-59(1990)；Wilson等人，J.Virol.63:2374-2378(1989)；Miller等人，J.Virol.65:2220-2224(1991)；PCT/US94/05700)。

在瞬时表达是优选的应用中，可以使用基于腺病毒的系统。基于腺病毒的载体能够在许多细胞类型中具有非常高的转导效率，并且不需要细胞分裂。用这种载体，已经获得了高滴度和高表达水平。该载体可以在相对简单的系统中大量产生。

例如，在体外产生核酸和肽时，以及对于体内和离体基因疗法程序，也可以使用具有靶核酸的腺相关病毒(“AAV”)载体转导细胞(参见例如，West等人，Virology 160:38-47(1987)；美国专利第4,797,368号；WO93/24641；Kotin,Human Gene Therapy 5:793-801(1994)；Muzyczka,J.Clin.Invest.94:1351(1994)。重组AAV载体的构建描述于许多出版物中，包括美国专利第5,173,414号；Tratschin等人，Mol.Cell.Biol.5:3251-3260(1985)；Tratschin等人，Mol.Cell.Biol.4:2072-2081(1984)；Hermonat&Muzyczka,PNAS 81:6466-6470(1984)；和Samulski等人，J.Virol.63:03822-3828(1989)。

在一些实施方案中，将宿主细胞用如本文描述的一种或更多种载体、线性多核苷酸、多肽、核酸-蛋白复合物或其任何组合瞬时或非瞬时转染。在一些实施方案中，细胞被在体外、在培养物中或离体转染。在一些实施方案中，细胞在其天然存在于受试者中时被转染。在一些实施方案中，被转染的细胞取自受试者。在一些实施方案中，细胞来源于取自受试者的细胞，诸如细胞系。

在一些实施方案中，使用用如本文描述的一种或更多种载体、线性多核苷酸、多肽、核酸-蛋白复合物或其任何组合转染的细胞来建立包含一种或更多种源自转染的序列的新细胞系。在一些实施方案中，使用用如本文描述的工程化核酸引导性核酸酶系统的组分瞬时转染(例如通过一种或更多种载体的瞬时转染，或用RNA的转染)并通过工程化核酸酶复合物的活性修饰的细胞来建立包含含有修饰但缺少任何其它外源序列的细胞的新细胞系。

在一些实施方案中，本文描述的一种或更多种载体被用于产生非人类转基因细胞、生物体、动物或植物。在一些实施方案中，转基因动物是哺乳动物，诸如小鼠、大鼠或兔。用于产生转基因细胞、生物体、植物和动物的方法是本领域已知的，并且通常以诸如本文描述的细胞转化或转染的方法开始。

脱靶裂解事件可以使用本文公开的方法来分析。脱靶裂解事件可以是发生在并非预期靶序列的核酸序列位置处的裂解事件，从而使这些事件成为不想要的。通常，可以如本文所公开的产生载体的文库，所述载体包含与PAM序列邻近的靶序列或非预期靶序列。在这种载体的文库中，靶序列或非预期靶序列可以在不同载体之间不同，使得许多不同的靶序列或非预期靶序列可以在单一实验中或以高通量方式被筛选或测试。所述载体可以包含允许鉴定待测试的靶序列或非预期靶序列的条形码或其他独特标识符。所述载体可以包含可选择标志物或可筛选标志物。所述载体可以包含引导核酸序列。所述引导核酸可以包含能够靶向载体中的相容的靶序列的靶向序列。所述引导核酸可以包含支架序列。然后，载体文库可以被引入宿主细胞中，所述宿主细胞包含所讨论的核酸酶。所述所讨论的核酸酶可以由相同或不同的载体表达，所述载体在引导核酸载体同时、在其之前或之后引入细胞中。在其他情况下，所讨论的核酸酶可以以mRNA转录物的形式被引入细胞。在其他情况下，所讨论的核酸酶可以以蛋白的形式被引入细胞。不希望受理论束缚，在每个细胞中，引导核酸将被表达并将与所讨论的核酸酶复合。然后引导核酸可以使核酸酶靶向相容的靶序列。在一些情况下，如果引导核酸能够与靶序列或非预期靶序列杂交，则所讨论的核酸酶能够裂解该靶序列或非预期靶序列。该裂解事件将导致宿主细胞失去包含靶序列的载体或失去可选择标志物或可筛选标志物的功能，并且因此宿主细胞将在选择下死亡或在筛选期间被丢失。另一方面，如果引导核酸与非预期靶序列不能杂交，则非预期靶序列将不会被裂解，并且因此宿主细胞将维持可选择标志或可筛选标志物。通过将输入载体与来自存活或选择的输出宿主细胞的所选择或筛选的载体进行比较，人们可以鉴定已经消耗的载体。通过对输入载体和输出载体的条形码或独特标识符进行测序或分析，人们可以鉴定已经消耗的条形码或独特标识符，这将允许鉴定被消耗的靶序列或非预期靶序列。消耗的靶序列或非预期靶序列将包括那些能够与引导核酸杂交并因此能够被所讨论的核酸酶裂解的序列。消耗的非预期靶序列将包括脱靶裂解事件或能够被所讨论的核酸酶系统裂解的脱靶序列。

待在本文公开的脱靶测定中测试或筛选的非预期靶序列可以是能够被所讨论的引导核酸靶向的已知靶序列的变体。例如，使用感兴趣的已知靶序列，非预期靶序列可以被设计成包括与已知的靶序列相比的插入、缺失、重排或其他序列改变。这样的序列改变可以包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个核苷酸。改变的核苷酸可以是连续的或不连续的。

如先前描述的用于计算和评估消耗的方法也适用于在这些情况下计算和评估消耗。

其他脱靶评估测定包括对宿主生物体的基因组测序以鉴定脱靶裂解事件，由于序列中存在突变诸如一个或更多个核苷酸的插入、缺失和突变，脱靶裂解事件通常是可鉴定的。因此，这些其他方法在评估所讨论的核酸酶系统的脱靶效应时受宿主细胞基因组序列的限制。本文公开的所讨论的测定允许更加稳健且高通量的鉴定几乎任何序列的脱靶效应的方法，并且不受宿主细胞的基因组序列的限制。

使用方法

在工程化核酸酶复合物形成的背景下，“靶序列”是指引导序列被设计成对其具有互补性的序列，其中靶序列与引导序列之间的杂交促进工程化核酸酶复合物的形成。靶序列可以包括任何多核苷酸，诸如DNA、RNA或DNA-RNA杂交体。靶序列可以位于细胞的细胞核或细胞质中。靶序列可以位于体外或无细胞环境中。

通常，包含与靶序列杂交且与如本文公开的一种或更多种工程化核酸酶复合的引导核酸的工程化核酸酶复合物的形成导致靶序列中或附近(例如，在距靶序列1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、50个或更多个碱基对以内)的一条或两条链的裂解。裂解可以发生在靶序列内、靶序列的5'端、靶序列的上游、靶序列的3'或靶序列的下游。

在一些实施方案中，将驱动可靶向核酸酶系统的一种或更多种组分表达的一种或更多种载体引入宿主细胞中或体外环境(in vitro)，使得在一个或更多个靶位点处形成可靶向核酸酶复合物。例如，核酸引导性核酸酶和引导核酸可以各自与单独载体上的单独调控元件可操作地连接。可选择地，由相同或不同的调控元件表达的两个或更多个元件可以被组合在单一载体中，并且一种或更多种另外的载体提供第一载体中不包括的可靶向核酸酶系统的任何组分。被组合在单一载体中的可靶向核酸酶系统的元件可以以任何合适的方向布置，诸如一个元件相对于第二个元件位于5'(“上游”)或相对于第二个元件位于3'(“下游”)。一个元件的编码序列可以位于与第二个元件的编码序列相同或相反的链上，并且取向为相同或相反的方向。在一些实施方案中，单一启动子驱动编码核酸引导性核酸酶和一种或更多种引导核酸的转录物的表达。在一些实施方案中，核酸引导性核酸酶和一种或更多种引导核酸与同一启动子可操作地连接并由同一启动子表达。在其他实施方案中，将一种或更多种引导核酸或编码该一种或更多种引导核酸的多核苷酸引入已经含有核酸引导性核酸酶或编码核酸引导性核酸酶的多核苷酸序列的细胞或体外环境中。

当使用多种不同的引导序列时，可以使用单一表达构建体以使核酸酶活性靶向细胞内或体外的多种不同的对应靶序列。例如，单一载体可以包含约或多于约1种、2种、3种、4种、5种、6种、7种、8种、9种、10种、15种、20种或更多种引导序列。在一些实施方案中，可以提供约或多于约1种、2种、3种、4种、5种、6种、7种、8种、9种、10种或更多种这样的含有引导序列的载体，并将其任选地递送至细胞或体外。

本文公开的方法和组合物可以包括多于一种引导核酸，其中每种引导核酸具有不同的引导序列，从而靶向不同的靶序列。在这样的情况下，多种引导核酸可以多重使用，其中多种靶被同时靶向。另外地或可选择地，将多种引导核酸引入细胞群体中，使得群体中的每个细胞接收不同或随机的引导核酸，从而靶向整个细胞群体中的多种不同的靶序列。在这样的情况下，随后被改变的细胞的集合可以被称为文库。

本文公开的方法和组合物可以包含多种不同的核酸引导性核酸酶，每种核酸引导性核酸酶具有一种或更多种不同的对应引导核酸，从而允许不同的靶序列被不同的核酸引导性核酸酶靶向。在一些这样的情况下，每种核酸引导性核酸酶可以对应于多于一种不同的引导核酸，允许两种或更多种不重叠、部分重叠或完全重叠的多重事件。

在一些实施方案中，核酸引导性核酸酶具有DNA裂解活性或RNA裂解活性。在一些实施方案中，核酸引导性核酸酶指导靶序列位置处一条或两条链的裂解，所述靶序列位置诸如处于靶序列内和/或靶序列的互补序列内。在一些实施方案中，核酸引导性核酸酶指导距靶序列的第一个或最后一个核苷酸约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、15个、20个、25个、50个、100个、200个、500个或更多个碱基对以内的一条链或两条链的裂解。

在一些实施方案中，核酸引导性核酸酶可以形成诱导型系统的组分。该系统的可诱导性质将允许使用一种形式的能量对基因编辑或基因表达进行时空控制。该能量形式可以包括但不限于电磁辐射、声能、化学能、光能、温度和热能。诱导型系统的实例包括四环素诱导型启动子(Tet-开或Tet-关)、小分子双杂交体转录活化系统(FKBP、ABA等)或光诱导型系统(光敏素、LOV结构域或隐花色素)。在一个实施方案中，核酸引导性核酸酶可以是以序列特异性方式指导转录活性的变化的光诱导型转录效应物(LITE)的一部分。光诱导型系统的组分可以包括核酸引导性核酸酶、光响应细胞色素异二聚体(例如来自拟南芥)和转录活化/阻遏结构域。诱导型DNA结合蛋白和关于其使用方法的其他实例在U.S.61/736,465和U.S.61/721,283中提供，特此通过引用以其整体并入。诱导型系统可以是温度诱导型的，使得通过升高或降低温度来开启或关闭系统。在一些温度诱导型系统中，升高温度使系统开启。在一些温度诱导型系统中，升高温度使系统关闭。

在一些方面，本公开内容提供了在体外或在原核细胞或真核细胞中修饰靶序列的方法，所述细胞可以是体内、离体或体外的。在一些实施方案中，该方法包括对细胞或细胞群体诸如原核细胞或来自人类或非人类动物或植物(包括微藻)的细胞进行取样，并修饰该细胞或这些细胞。培养可以在任何阶段在体外或离体进行。该细胞或这些细胞甚至可以被重新引入宿主诸如非人类动物或植物(包括微藻)中。对于重新引入的细胞，特别优选的是这些细胞是干细胞。

在一些实施方案中，该方法包括允许可靶向核酸酶复合物与靶序列结合以实现所述靶序列的裂解，从而修饰靶序列，其中可靶向核酸酶复合物包含与引导核酸复合的核酸引导性核酸酶，其中引导核酸的引导序列与靶多核苷酸中的靶序列杂交。

在一些方面，本公开内容提供了在体外或在原核细或真核细胞中修饰靶多核苷酸的表达的方法。在一些实施方案中，该方法包括允许可靶向核酸酶复合物与靶多核苷酸中的靶序列结合，使得所述结合导致所述靶多核苷酸的表达增加或减少；其中可靶向核酸酶复合物包含与引导核酸复合的核酸引导性核酸酶，并且其中引导核酸的引导序列与所述靶多核苷酸中的靶序列杂交。类似的考虑适用于如上文修饰靶多核苷酸的方法。实际上，这些取样、培养和重新引入的选择适用于本发明的各方面。

在一些方面，本公开内容提供了包括以上方法和组合物中公开的任何一个或更多个元件的试剂盒。元件可以单独提供或组合提供，并且可以在任何合适的容器诸如小瓶、瓶或管中提供。在一些实施方案中，试剂盒包括一种或更多种语言例如多于一种语言的说明书。

在一些实施方案中，试剂盒包括用于在利用本文描述的一个或更多个元件的方法中使用的一种或更多种试剂。试剂可以在任何合适的容器中提供。例如，试剂盒可以提供一种或更多种反应缓冲液或储存缓冲液。试剂可以以可用于特定测定的形式、或以使用前需要添加一种或更多种其他组分的形式(例如以浓缩或冻干的形式)提供。缓冲液可以是任何缓冲液，包括但不限于碳酸钠缓冲液、碳酸氢钠缓冲液、硼酸盐缓冲液、Tris缓冲液、MOPS缓冲液、HEPES缓冲液及其组合。在一些实施方案中，缓冲液是碱性的。在一些实施方案中，缓冲液具有从约7至约10的pH。在一些实施方案中，试剂盒包括对应于引导序列的一种或更多种寡核苷酸，其有待插入载体中以使引导序列和调控元件可操作地连接。在一些实施方案中，试剂盒包括编辑模板。

在一些方面，本公开内容提供了用于使用工程化可靶向核酸酶系统的一个或更多个元件的方法。本公开内容的可靶向核酸酶复合物提供了用于修饰靶多核苷酸中的靶序列的有效手段。本公开内容的可靶向核酸酶复合物具有多种多样的用途，包括修饰(例如，缺失、插入、转移、失活、活化)多种细胞类型中的靶序列。因此，本发明的可靶向核酸酶复合物在例如生化途径优化、全基因组研究、基因组工程、基因疗法、药物筛选、疾病诊断和预后中具有广泛的应用。示例性可靶向核酸酶复合物包含如本文公开的与引导核酸复合的核酸引导性核酸酶，其中引导核酸的引导序列可以与靶多核苷酸中的靶序列杂交。引导核酸可以包含与支架序列连接的引导序列。支架序列可以包含一个或更多个具有一定程度的互补性的序列区域，使得它们一起形成二级结构。在一些情况下，一个或更多个序列区域被包含或编码在同一多核苷酸上。在一些情况下，一个或更多个序列区域被包含或编码在不同的多核苷酸上。

本文提供了使靶多核苷酸裂解的方法。该方法包括使用可靶向核酸酶复合物使靶多核苷酸裂解，该可靶向核酸酶复合物与靶多核苷酸中的靶序列结合，并实现所述靶多核苷酸的裂解。通常，当本发明的可靶向核酸酶复合物在被引入细胞时，在靶序列中产生断裂(例如，单链断裂或双链断裂)。例如，该方法可以用于裂解细胞中的靶基因，或者用修饰的序列替代野生型序列。

由可靶向核酸酶复合物产生的断裂可以通过修复过程进行修复，诸如易错非同源性末端连接(NHEJ)途径、高保真性同源指导修复(HDR)或重组途径。在这些修复过程期间，编辑模板可以被引入基因组序列中。在一些方法中，使用HDR或重组过程来修饰靶序列。例如，包含待被整合为侧翼是上游序列和下游序列的序列的编辑模板被引入细胞中。上游序列和下游序列与染色体、靶载体或靶多核苷酸中的整合位点的任一侧共有序列相似性。

编辑模板可以是DNA或RNA，例如DNA质粒、细菌人工染色体(BAC)、酵母人工染色体(YAC)、病毒载体、线性DNA片段、PCR片段、寡核苷酸、合成多核苷酸、裸核酸或与递送媒介物诸如脂质体或泊洛沙姆复合的核酸。

编辑模板多核苷酸可以包含待被整合的序列(例如，突变的基因)。用于整合的序列可以是对细胞为内源或外源的序列。待被整合的序列的实例包括编码蛋白的多核苷酸或非编码RNA(例如，微小RNA)。因此，用于整合的序列可以与一个适当的控制序列或更多个适当的控制序列可操作地连接。可选择地，待被整合的序列可以提供调控功能。待被整合的序列可以是突变的内源野生型序列或内源野生型序列的变体。可选择地，待被整合的序列可以是内源突变序列的野生型形式。另外地或可选择地，待被整合的序列可以是内源突变序列或变体序列的变体或突变形式。

可以选择编辑模板多核苷酸中的上游序列和下游序列以促进感兴趣的靶多核苷酸和编辑模板多核苷酸之间的重组。上游序列可以是与用于整合的靶向位点的上游序列具有序列相似性的核酸序列。类似地，下游序列可以是与整合的靶向位点下游序列具有相似性的核酸序列。编辑模板中的上游序列和下游序列可以与靶向多核苷酸具有75％、80％、85％、90％、95％或100％序列同一性。优选地，编辑模板多核苷酸中的上游序列和下游序列与靶向多核苷酸具有约95％、96％、97％、98％、99％或100％序列同一性。在一些方法中，编辑模板多核苷酸中的上游序列和下游序列与靶向多核苷酸具有约99％或100％序列同一性。

上游序列或下游序列可以包括从约20bp至约2500bp，例如，约50bp、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1000bp、1100bp、1200bp、1300bp、1400bp、1500bp、1600bp、1700bp、1800bp、1900bp、2000bp、2100bp、2200bp、2300bp、2400bp或2500bp。在一些方法中，示例性上游序列或下游序列具有约15bp至约50bp、约30bp至约100bp、约200bp至约2000bp、约600bp至约1000bp、或更具体地约700bp至约1000bp。

在一些方法中，编辑模板多核苷酸还可以包含标志物。这种标志物可以使筛选靶向整合变得容易。合适的标志物的实例包括限制性位点、荧光蛋白或可选择标志物。本发明的外源多核苷酸模板可以使用重组技术来构建(参见例如，Green和Sambrook等人，2014；以及Ausubel等人，2017)。

在用于通过整合编辑模板多核苷酸来修饰靶多核苷酸的示例性方法中，通过工程化核酸酶复合物将双链断裂引入基因组序列中，断裂可以经由使用编辑模板的同源重组来修复，使得模板被整合到靶多核苷酸中。双链断裂的存在可以增加编辑模板的整合效率。

本文公开了用于修饰多核苷酸在细胞中表达的方法。一些方法包括通过使用与靶多核苷酸结合的可靶向核酸酶复合物来增加或减少靶多核苷酸的表达。

在一些方法中，可以使靶多核苷酸失活以实现对在细胞中改变表达。例如，当可靶向核酸酶复合物与细胞中的靶序列结合时，靶多核苷酸失活，使得序列不被转录，编码蛋白不被产生，或者序列不会像野生型序列一样起作用。例如，可以使蛋白或微小RNA编码序列失活，使得该蛋白不被产生。

在一些方法中，可以使控制序列失活，使得它不再作为调控序列起作用。如本文使用的，“调控序列”可以指影响核酸序列转录、翻译或可接近性的任何核酸序列。调控序列的实例包括启动子、转录终止子和增强子。

失活的靶序列可以包括缺失突变(即，缺失一个或更多个核苷酸)、插入突变(即，插入一个或更多个核苷酸)或无义突变(即，一个单核苷酸被另一个核苷酸取代，使得终止密码子被引入)。在一些方法中，靶序列的失活导致该靶序列的“敲除”。

与信号传导生化途径相关的一个或更多个靶多核苷酸的改变的表达可以通过测定在测试模型细胞和对照细胞与候选剂接触时它们之间的对应基因的mRNA水平差异来确定。可选择地，与信号传导生化途径相关的序列的差异表达通过检测被编码的多肽或基因产物的水平差异来确定。

为了测定剂诱导的mRNA转录物或对应多核苷酸的水平改变，首先根据本领域的标准方法提取样品中包含的核酸。例如，mRNA可以根据Green和Sambrook(2014)中阐述的程序使用多种裂解酶或化学溶液来分离，或遵循由制造商提供的随附说明书通过核酸结合树脂来提取。然后，根据本领域广泛已知的方法或基于本文示例的方法，通过扩增程序或常规杂交测定(例如，RNA印迹分析)来检测提取的核酸样品中包含的mRNA。

为了本发明的目的，扩增意指利用引物和聚合酶能够以合理的保真度复制靶序列的任何方法。可以通过天然或重组的DNA聚合酶诸如TaqGold^TM、T7 DNA聚合酶、大肠杆菌DNA聚合酶的克列诺片段和逆转录酶来进行扩增。优选的扩增方法是PCR。特别地，可以使分离的RNA经历与定量聚合酶链式反应(RT-PCR)偶合的逆转录测定，以便对与信号传导生化途径相关的序列的表达水平定量。

基因表达水平的检测可以在扩增测定中实时进行。在一方面，可以用荧光DNA结合剂使扩增产物直接可视化，所述荧光DNA结合剂包括但不限于DNA嵌入剂和DNA沟结合剂。因为掺入双链DNA分子中的嵌入剂的量通常与扩增的DNA产物的量成比例，所以人们可以使用本领域的常规光学系统通过对嵌入染料的荧光定量来方便地确定扩增产物的量。适用于该应用的DNA结合染料包括SYBR绿、SYBR蓝、DAPI、碘化丙啶、Hoeste、SYBR金、溴化乙锭、吖啶、原黄素、吖啶橙、吖啶黄、荧光香豆素(fluorcoumanin)、玫瑰树碱、道诺霉素、氯喹、偏端霉素D(distamycin D)、色霉素、乙菲啶(homidium)、光神霉素、多吡啶钌、安曲霉素等。

在另一方面，在扩增反应中可以利用其他荧光标记物诸如序列特异性探针，以促进扩增产物的检测和定量。基于探针的定量扩增依赖于期望的扩增产物的序列特异性检测。它利用荧光靶特异性探针(例如，TaqMan^TM探针)，从而导致增加的特异性和灵敏度。用于进行基于探针的定量扩增的方法是本领域中已建立的，并且在美国专利第5,210,015号中有教导。

在又另一方面，可以进行使用杂交探针的常规杂交测定，所述杂交探针与信号传导生化途径相关序列共有序列同源性。通常，在杂交反应中，允许探针与来自测试受试者的生物样品中包含的与信号传导生化途径相关的序列形成稳定的复合物。本领域技术人员应当理解，在将反义核酸用作探针核酸的情况下，样品中提供的靶多核苷酸被选择为与反义核酸的序列互补。相反，在核苷酸探针是有义核酸的情况下，靶多核苷酸被选择为与有义核酸的序列互补。

杂交可以在例如如本文描述的多种严格性条件下进行。用于实践本发明的合适的杂交条件是使得探针和与信号传导生化途径相关的序列之间的识别相互作用是既充分特异的又充分稳定的。增加杂交反应的严格性的条件在本领域是广泛已知且公开的。参见例如，(Green和Sambrook等人，(2014年)；Nonradioactive in Situ HybridizationApplication Manual,Boehringer Mannheim，第二版)。可以使用固定在任何固体支持物上的探针进行杂交测定，所述固体支持物包括但不限于硝化纤维、玻璃、硅以及多种基因阵列。优选的杂交测定如美国专利第5,445,934号中描述的在高密度基因芯片上进行。

为了方便地检测杂交测定期间形成的探针-靶复合物，使核苷酸探针与可检测标记物缀合。适用于本发明的可检测标记物包括通过光化学、生物化学、光谱学、免疫化学、电学、光学或化学手段可检测的任何组合物。多种多样的合适的可检测标记物是本领域已知的，包括荧光标记物或化学发光标记物、放射性同位素标记物、酶的配体或其他配体。在优选的实施方案中，人们可能期望利用荧光标记物或酶标签，诸如地高辛、β-半乳糖苷酶、脲酶、碱性磷酸酶或过氧化物酶、亲和素/生物素复合物。

用于检测或定量杂交强度的检测方法通常将取决于以上选择的标记物。例如，放射性标记物可以使用感光底片或磷光成像仪来检测。荧光标志物可以使用检测发射光的光检测器来检测并定量。酶标记物通常通过向酶提供底物并测量由酶对底物的作用而产生的反应产物来检测；并且最后通过简单地使着色标记物可视化来检测比色标记物。

剂诱导的与信号传导生化途径相关的序列的表达变化也可以通过检查对应的基因产物来确定。确定蛋白水平通常涉及a)使生物样品中包含的蛋白接触与信号传导生化途径相关的蛋白特异性结合的剂；并且(b)鉴定这样形成的任何剂:蛋白复合物。在该实施方案的一个方面，特异性结合与信号传导生化途径相关的蛋白的剂是抗体，优选地是单克隆抗体。

反应可以通过以下步骤来进行：使剂与来自测试样品的与信号传导生化途径相关的蛋白样品在将允许剂和与信号传导生化途径相关的蛋白之间复合的条件下接触。复合物的形成可以根据本领域的标准程序来直接或间接检测。在直接检测方法中，对剂提供可检测标记物，并且未反应的剂可以被从复合物中去除；由此剩余的标记物的量指示形成的复合物的量。对于这种方法，优选的是选择甚至在严格洗涤条件期间仍保持附接至剂的标记物。优选的是，标记物不干扰结合反应。在替代方案中，间接检测程序可以使用包含通过化学上或酶引入的标记物的剂。期望的标记物通常不干扰所得的剂:多肽复合物的结合或稳定性。然而，标记物通常被设计成抗体可接近的，以进行有效结合，并且因此产生可检测信号。

适于检测蛋白水平的多种多样的标记物是本领域已知的。非限制性实例包括放射性同位素、酶、胶体金属、荧光化合物、生物发光化合物和化学发光化合物。

在结合反应期间形成的剂:多肽复合物的量可以通过标准定量测定来定量。如以上说明的，剂:多肽复合物的形成可以直接通过结合位点处保留的标记物的量来测量。在替代方案中，测试与信号传导生化途径相关的蛋白以确定其与标记的类似物竞争特定剂上的结合位点的能力。在该竞争性测定中，捕获的标记物的量与测试样品中存在的与信号传导生化途径相关的蛋白序列的量成反比。

基于以上概括的一般原理的用于蛋白分析的许多技术在本领域是可获得的。它们包括但不限于放射免疫测定、ELISA(酶联免疫放射测定)、“夹心”免疫测定、免疫放射测定、原位免疫测定(使用例如胶体金、酶或放射性同位素标记物)、蛋白印迹分析、免疫沉淀测定、免疫荧光测定和SDS-PAGE。

特异性识别或结合与信号传导生化途径相关的蛋白的抗体对于进行前述蛋白分析是优选的。在期望的情况下，可以使用识别特定类型的翻译后修饰(例如，信号传导生化途径诱导型修饰)的抗体。翻译后修饰包括但不限于糖基化、脂质化、乙酰化和磷酸化。这些抗体可以购自商业供应商。例如，特异性识别酪氨酸磷酸化蛋白的抗磷酸酪氨酸抗体可从许多供应商获得，包括Invitrogen和Perkin Elmer。抗磷酸酪氨酸抗体在检测响应于ER应激而在其酪氨酸残基上差异磷酸化的蛋白方面特别有用。这样的蛋白包括但不限于真核翻译起始因子2α(eIF-2α)。可选择地，这些抗体可以使用常规的多克隆或单克隆抗体技术通过用显示出期望的翻译后修饰的靶蛋白免疫宿主动物或抗体产生细胞来产生。

在实践所讨论的方法中，可能需要辨别不同身体组织中、不同细胞类型中和/或不同亚细胞结构中的与信号传导生化途径相关的蛋白的表达模式。这些研究可以使用能够与在某些组织、细胞类型或亚细胞结构中优先表达的蛋白标志物结合的组织特异性、细胞特异性或亚细胞结构特异性的抗体来进行。

与信号传导生化途径相关的基因表达的改变也可以通过检查基因产物相对于对照细胞的活性变化来确定。剂诱导的与信号传导生化途径相关的蛋白活性变化的测定将取决于正在研究的生物活性和/或信号转导途径。例如，在蛋白是激酶的情况下，其使下游底物磷酸化的能力的变化可以通过本领域已知的多种测定来确定。代表性测定包括但不限于用抗体诸如识别磷酸化蛋白的抗磷酸酪氨酸抗体进行免疫印迹和免疫沉淀。另外，激酶活性可以通过高通量化学发光测定来检测，诸如AlphaScreen^TM测定(可从Perkin Elmer获得)和eTag^TM测定(Chan-Hui等人(2003)Clinical Immunology111:162-174)。

在与信号传导生化途径相关的蛋白是导致细胞内pH条件波动的信号传导级联反应的一部分的情况下，pH敏感的分子诸如荧光pH染料可以用作报道物分子。在与信号传导生化途径相关的蛋白是离子通道的另一个实例中，可以监测膜电位和/或细胞内离子浓度的波动。许多商业试剂盒和高通量装置特别适用于快速且稳健地筛选离子通道调节剂。代表性仪器包括FLIPR^TM(Molecular Devices,Inc.)和VIPR(Aurora Biosciences)。这些仪器能够同时检测微孔板的多于1000个样品孔中的反应物，并且提供一秒或甚至一秒的一部分以内的实时测量和功能数据。

在实践本文公开的任何方法中，可以经由本领域已知的一种或更多种方法将合适的载体引入细胞、组织、生物体或胚胎中，这些方法包括但不限于显微注射、电穿孔、声致穿孔(sonoporation)、生物弹射、磷酸钙介导的转染、阳离子转染、脂质体转染、树枝状大分子转染、热休克转染、核转染、磁转染、脂质体转染、穿刺转染(impalefection)、光学转染、专有剂增强的核酸摄取以及经由脂质体、免疫脂质体、病毒微体或人工病毒粒子的递送。在一些方法中，载体通过显微注射引入胚胎中。该载体或这些载体可以被显微注射到胚胎的细胞核或细胞质中。在一些方法中，该载体或这些载体通过细胞核转染引入细胞中。

靶序列

可靶向核酸酶复合物的靶多核苷酸可以是对宿主细胞为内源或外源的任何多核苷酸。例如，靶多核苷酸可以是位于真核细胞的细胞核、原核细胞的基因组或宿主细胞的染色体外载体中的多核苷酸。靶多核苷酸可以是编码基因产物(例如，蛋白)的序列或非编码序列(例如，调控性多核苷酸或垃圾DNA)。

靶多核苷酸的实例包括与信号传导生化途径相关的序列，例如信号传导生化途径相关的基因或多核苷酸。靶多核苷酸的实例包括疾病相关基因或多核苷酸。“疾病相关”基因或多核苷酸是指在来自受疾病影响的组织的细胞与未患病对照的组织或细胞相比以异常水平或以异常形式产生转录或翻译产物的任何基因或多核苷酸。在改变的表达与疾病的出现和/或进展相关的情况下，“疾病相关”基因可以是变成以异常高的水平表达的基因；疾病相关基因可以是变成以异常低的水平表达的基因。疾病相关基因还指具有突变或遗传变异的基因，所述突变或遗传变异是疾病病因学的直接原因或与是疾病病因学原因的基因连锁不平衡。转录的或翻译的产物可以是已知的或未知的，并且可以处于正常或异常水平。

本发明的实施方案还涉及与敲除基因、编辑基因、改变基因、扩增基因和修复特定突变相关的方法和组合物。改变基因还可以意指对靶序列的表观遗传操作。这可以是靶序列的染色质状态，诸如通过修饰靶序列的甲基化状态(即，甲基化或甲基化模式或CpG岛的添加或去除)、组蛋白修饰、增加或减少对靶序列的可接近性或通过促进3D折叠。应当理解，当提及通过对感兴趣的基因组基因座中的靶序列的操作来修饰细胞、生物体或哺乳动物(包括人类或非人类哺乳动物或生物体)的方法时，这可以适用于完整的生物体(或哺乳动物)或者仅来自该生物体的单个细胞或细胞群体(如果该生物体是多细胞的)。例如，在人类的情况下，申请人特别地设想了单个细胞或细胞群体，并且这些细胞可以优选地被离体修饰，并且然后被重新引入。在这种情况下，活组织检查或其他组织或生物流体样品可能是必要的。在这方面，干细胞也是特别优选的。但是，当然还设想了体内实施方案。并且本发明对于HSC特别有利。

可靶向核酸酶复合物的功能可以通过任何合适的测定来评估。例如，足以形成可靶向核酸酶复合物的可靶向核酸酶系统的组分包括引导核酸和核酸引导性核酸酶，可以被提供至具有对应靶序列的宿主细胞，诸如通过用编码工程化核酸酶系统组分的载体转染，随后评估靶序列中的优先裂解。类似地，可以通过提供靶序列和可靶向核酸酶复合物的组分在试管中评估靶序列的裂解。其他测定也是可能的，并且本领域技术人员将会想到。可以选择靶向任何靶序列的引导序列。在一些实施方案中，靶序列是细胞基因组中的序列。示例性靶序列包括那些在靶基因组中为独特的序列。

编辑盒

本文公开了用于编辑靶多核苷酸序列的组合物和方法。这样的组合物包括含有可靶向核酸酶系统的一种或更多种组分的多核苷酸。用于这些方法的多核苷酸序列可以被称为编辑盒。

编辑盒可以包括一个或更多个引物位点。引物位点可以用于通过使用包含可以与一个或更多个引物位点杂交的反向互补序列的寡核苷酸引物来扩增编辑盒。编辑盒可以包含两个或更多个引物位点。有时，编辑盒在编辑盒的每一端上包含引物位点，所述引物位点侧接编辑盒的一个或更多个其他组分。引物位点的长度可以为约10个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个或更多个核苷酸。

编辑盒可以包含如本文公开的编辑模板。编辑盒可以包含编辑序列。编辑序列可以与靶序列同源。编辑序列可以包含相对于靶序列的至少一个突变。编辑序列通常包含相对于靶序列侧接至少一个突变的同源区(或同源臂)，使得侧翼同源区促进编辑序列同源重组到靶序列中。编辑序列可以包含如本文公开的编辑模板。例如，编辑序列相对于靶序列可以包含至少一个突变，包括PAM位点突变或缺失的一个或更多个PAM突变。编辑序列可以相对于非编辑靶位点在密码子或非编码序列中包含一个或更多个突变。

PAM突变可以是沉默突变。沉默突变可以是不改变由原始密码子编码的氨基酸的相对于原始密码子对密码子的至少一个核苷酸的改变。沉默突变可以是对非编码区诸如内含子、5'非翻译区、3'非翻译区或其他非编码区中核苷酸的改变。

PAM突变可以是非沉默突变。非沉默突变可以包括错义突变。错义突变可以是改变由原始密码子编码的氨基酸的相对于原始密码子对密码子的至少一个核苷酸的改变。错义突变可以发生在外显子、开放阅读框或其他编码区中。

编辑序列可以包含相对于靶序列至少一个突变。突变可以是沉默突变或非沉默突变，诸如错义突变。突变可以包括一个或更多个核苷酸或碱基对的插入。突变可以包括一个或更多个核苷酸或碱基对的缺失。突变可以包括一个或更多个核苷酸或碱基对被不同的一个或更多个核苷酸或碱基对的取代。插入或取代的序列可以包括外源或异源序列。

编辑盒可以包含编码引导核酸序列的多核苷酸。在一些情况下，引导核酸序列任选地与启动子可操作地连接。引导核酸序列可以包含如本文描述的支架序列和指导序列。

编辑盒可以包含条形码。条形码可以是对应于编辑序列的独特的DNA序列，使得条形码可以鉴定对应编辑序列的一个或更多个突变。在一些实例中，条形码为15个核苷酸。条形码可以包含少于10个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、88个、90个、100个、110个、120个、130个、140个、150个、160个、170个、180个、190个、200个或多于200个核苷酸。条形码可以是非天然存在的序列。包含条形码的编辑盒可以是非天然存在的序列。

编辑盒可以包含编辑序列和编码任选地与启动子可操作地连接的引导核酸的多核苷酸的一种或更多种，其中编辑盒和引导核酸序列侧翼为引物位点。编辑盒还可以包含条形码。

图3中描绘了编辑盒的一个实例。每个编辑盒可以被设计成编辑靶序列中的位点。待被靶向的位点可以是编码区、非编码区、功能上中立的位点，或者它们可以是可筛选标志物基因或可选择标志物基因。编辑序列中的同源区侧接编辑盒的一个或更多个突变，并且可以通过重组插入靶序列中。重组可以包括DNA裂解诸如通过核酸引导性核酸酶，并经由同源重组进行修复。

编辑盒可以通过化学合成、Gibson组装、SLIC、CPEC、PCA、无连接克隆、重叠寡核苷酸延伸、体外组装、体外寡核苷酸组装、PCR、基于常规连接的克隆、本领域其他已知方法或其任何组合来产生。

可跟踪序列，诸如条形码或记录器序列，可以通过计算机经由标准代码被设计为在靶密码子处具有简并突变。简并突变可以包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个或多于30个核酸残基。在一些实例中，简并突变可以包含15个核酸残基(N15)。

可以将同源臂添加至编辑序列，以允许经由同源重组或同源驱动修复将编辑序列掺入到期望的位置。同源臂可以通过合成、体外组装、PCR或本领域其他已知方法来添加。例如，化学合成、Gibson组装、SLIC、CPEC、PCA、无连接克隆、重叠寡核苷酸延伸、体外组装、体外寡核苷酸组装、PCR、基于常规连接的克隆、本领域其他已知方法或其任何组合。可以将同源臂添加至条形码、记录器序列和/或编辑序列的两端，从而使序列侧接两个不同的同源臂，例如，5'同源臂和3'同源臂。

同源臂可以包含与靶序列同源的序列。同源臂可以包含与邻近靶序列的序列同源的序列。同源臂可以包含与靶序列上游或下游序列同源的序列。同源臂可以包含与靶序列的同一基因或开放阅读框中的序列同源的序列。同源臂可以包含与靶序列所在的基因或开放阅读框的上游或下游序列同源的序列。同源臂可以包含与靶序列所在的基因或开放阅读框的5'UTR或3'UTR同源的序列。同源臂可以包含与靶序列所在的基因、开放阅读框、启动子、终止子或核酸序列不同的基因、开放阅读框、启动子、终止子或核酸序列同源的序列。

可以将相同的5'同源臂和3'同源臂添加至多于一个不同的编辑序列，从而产生各自具有相同靶向插入位点的独特编辑序列的文库。可以将相同的5'同源臂和3'同源臂添加至多于一个不同的编辑模板，从而产生各自具有相同靶向插入位点的独特编辑模板的文库。在替代实例中，可以将不同的或多种5'同源臂或3'同源臂添加至多于一个编辑序列或编辑模板。

可以将包含侧翼同源臂的条形码文库或记录器序列文库克隆到载体骨架中。在一些实例中，将包含侧翼同源臂的条形码克隆到编辑盒中。克隆可以通过化学合成、Gibson组装、SLIC、CPEC、PCA、无连接克隆、重叠寡核苷酸延伸、体外组装、体外寡核苷酸组装、PCR、基于常规连接的克隆、本领域其他已知方法或其任何组合发生。

可以将包含侧翼同源臂的编辑序列文库克隆到载体骨架中。在一些实例中，将编辑序列和同源臂克隆到编辑盒中。在一些情况下，编辑盒还可以包含编码引导核酸或gRNA的核酸序列，所述引导核酸或gRNA被工程化为靶向期望的编辑序列插入位点，例如靶序列。在一些情况下，编辑盒还可以包含条形码或记录器序列。克隆可以通过化学合成、Gibson组装、SLIC、CPEC、PCA、无连接克隆、重叠寡核苷酸延伸、体外组装、体外寡核苷酸组装、PCR、基于常规连接的克隆、本领域其他已知方法或其任何组合发生。

可以将全基因编辑文库或全基因组编辑文库克隆到载体骨架中。可以将条形码文库或记录器序列文库插入或组装到第二位点中，以产生有能力的可跟踪质粒，其可以将记录条形码嵌入固定位点处，同时将编辑文库整合到多种多样的用户定义的位点处。克隆可以通过化学合成、Gibson组装、SLIC、CPEC、PCA、无连接克隆、重叠寡核苷酸延伸、体外组装、体外寡核苷酸组装、PCR、基于常规连接的克隆、本领域其他已知方法或其任何组合发生。

可以首先将引导核酸或编码该引导核酸的序列组装或插入到载体骨架中，随后插入编辑序列和/或盒。在其他情况下，可以首先将编辑序列和/或盒插入或组装到载体骨架中，随后插入引导核酸或编码该引导核酸的序列。在其他情况下，将引导核酸或编码该引导核酸的序列以及编辑序列和/或盒同时插入或组装到载体中。可以将记录器序列或条形码在这些步骤中的任一步之前或之后插入。换言之，应当理解，对于本公开内容的元件的组装顺序，存在许多可能的排列。载体可以是线性的或环状的，并且可以通过化学合成、Gibson组装、SLIC、CPEC、PCA、无连接克隆、重叠寡核苷酸延伸、体外组装、体外寡核苷酸组装、PCR、基于常规连接的克隆、本领域其他已知方法或其任何组合发生。

可以合成包含本文公开的一个或更多个元件的核酸分子。可以合成包含编辑盒的核酸分子。可以合成包含引导核酸的核酸分子。可以合成包含记录器盒的核酸分子。可以合成包含条形码的核酸分子。可以合成包含同源臂的核酸分子。可以合成包含编辑盒和引导核酸的核酸分子。可以合成包含编辑盒和条形码的核酸分子。可以合成包含编辑盒、引导核酸和记录器盒的核酸分子。可以合成包含编辑盒、记录器盒和两种引导核酸的核酸分子。可以合成包含记录器盒和引导核酸的核酸分子。在这些情况的任一种下，引导核酸可以任选地与启动子可操作地连接。在这些情况的任一种下，核酸分子还可以包含一个或更多个条形码。

合成可以通过本领域已知的任何核酸合成方法发生。合成可以通过酶促核酸合成发生。合成可以通过化学合成发生。合成可以通过基于阵列的合成发生。合成可以通过固相合成或亚磷酰胺方法发生。合成可以通过柱或多孔方法发生。合成的核酸分子可以是非天然存在的核酸分子。

软件和自动化方法可以用于多重合成和产生。例如，软件和自动化可以用于产生10种、10²种、10³种、10⁴种、10⁵种、10⁶种或更多种合成的多核苷酸、盒或质粒。自动化方法可以以快速方式产生期望的序列和文库，所述快速方式可以通过具有最少步骤的工作流进行处理，以产生精确定义的文库，诸如全基因编辑文库或全基因组编辑文库。

可以产生包含两种或更多种核酸分子或质粒的多核苷酸或文库，所述核酸分子或质粒包含本文公开的记录器序列、编辑序列、引导核酸和任选地条形码的任何组合，包括任何先前提及的元件的一个或更多个的组合。例如，这样的文库可以包含至少2种、3种、4种、5种、10种、20种、30种、40种、50种、60种、70种、80种、90种、100种、200种、300种、400种、500种、600种、700种、800种、1000种、1500种、2000种、2500种、3000种、3500种、4000种、4500种、5000种、5500种、6000种、6500种、7000种、7500种、8000种、8500种、9000种、9500种、10⁴种、10⁵种、10⁶种、10⁷种、10⁸种、10⁹种、10¹⁰种或更多种本公开内容的核酸分子或质粒。应当理解，这样的文库可以包含任何数目的核酸分子或质粒，即使具体数目在上文没有明确列出。

可以对可跟踪质粒文库或核酸分子文库进行测序，以确定每种可跟踪质粒上包含的记录器序列和编辑序列的对。在其他情况下，在文库产生过程期间，将已知的记录器序列与已知的编辑序列配对。设想了确定共有核酸分子或质粒上包含的记录器序列与编辑序列之间的缔合的其他方法，使得可以通过对记录器序列的鉴定或测序来鉴定编辑序列。

本文提供了用于跟踪在大肠杆菌和其他生物体/细胞系之间穿梭的编辑的附加型文库的方法和组合物。文库可以被包含在质粒、细菌人工染色体(BAC)、酵母人工染色体(YAC)、合成染色体、或病毒基因组或噬菌体基因组上。这些方法和组合物可以用于在宿主生物体诸如大肠杆菌中产生便携式加条形码的文库。在这样的生物体中的文库产生可以提供用于进行同源重组的已建立技术的优点。可以对加条形码的质粒文库在一个位点处进行深度测序，以跟踪靶向质粒剩余部分内的突变多样性，以允许显著提高文库覆盖深度。

本文公开的任何核酸分子可以是分离的核酸。分离的核酸可以通过本领域已知的任何方法制备，例如使用标准的重组方法、组装方法、合成技术或其组合。在一些实施方案中，核酸可以被克隆、扩增、组装或以其他方式构建。

分离的核酸可以使用本领域已知的任何数目的克隆方法从细胞、细菌或其他来源获得。在一些实施方案中，与生物体或细胞的其它寡核苷酸或核酸在严格条件下选择性杂交的寡核苷酸探针可以用于分离或鉴定分离的核酸。

可以使用基于一种或更多种序列的探针来筛选细胞基因组DNA、RNA或cDNA，以确定感兴趣的已鉴定的遗传元件的存在。在测定中可以利用不同程度的杂交严格性。

用于核酸杂交的高严格性条件是本领域熟知的。例如，条件可以包括低盐和/或高温条件，诸如通过约0.02M至约0.15M NaCl在约50℃至约70℃的温度提供的。应当理解，期望的严格性的温度和离子强度由特定核酸的长度、靶序列的长度和核苷酸含量、核酸的电荷组成以及由杂交混合物中甲酰胺、氯化四甲基铵或其他溶剂的存在或浓度部分地决定。核酸可以与靶序列完全互补，或可以表现出一个或更多个错配。

感兴趣的核酸还可以使用多种已知的扩增技术来扩增。例如，聚合酶链反应(PCR)技术可以用于直接从DNA、RNA或cDNA扩增靶序列。PCR和其他体外扩增方法也可能是有用的，例如，克隆核酸序列，制备核酸用作探针，以用于检测样品中靶核酸的存在的，用于核酸测序，或用于其他目的。

分离的核酸可以通过直接化学合成，通过诸如磷酸三酯法的方法，或使用自动化合成仪来制备。化学合成通常产生单链寡核苷酸。这可以通过与互补序列杂交或通过使用单链作为模板用DNA聚合酶聚合而被转化为双链DNA。

记录器

在一些实例中，两种编辑盒可以一起用于跟踪遗传工程化步骤。例如，一种编辑盒可以包含编辑模板和编码的引导核酸，而被称为记录器盒的第二编辑盒可以包含含有记录器序列的编辑模板和具有与第一编辑盒的引导序列相比不同的引导序列的编码的核酸。在这种情况下，可以将编辑序列和记录器序列插入分开的靶序列中，并由它们对应的引导核酸确定。记录器序列可以包含条形码、可跟踪(trackable)或可追踪(traceable)序列和/或与可筛选标志物或可选择标志物一起可操作的调控元件。

通过多重克隆方法，记录器盒可以与质粒中的至少一个编辑盒共价偶联(例如，图17A)，以产生具有独特记录器和编辑盒组合的质粒文库。可以对该文库进行测序以产生记录器/编辑映射，并用于跨靶DNA的大区段跟踪编辑文库(例如，图17C)。记录器和编辑序列可以被包含在同一个盒上，在这种情况下，它们两者均通过同一重组事件掺入靶核酸序列诸如基因组或质粒中。在其他实例中，记录器和编辑序列可以被包含在同一质粒中的分开的盒上，在这种情况下，记录器和编辑序列通过单独的重组事件同时或顺序地掺入靶核酸序列中。

本文提供了用于将多重寡核苷酸合成与重组工程组合以创建特定设计和可跟踪突变的文库的方法。筛选和/或选择之后的高通量测序和/或条形码微阵列方法可以允许将导致感兴趣的表型的突变快速映射。

本文公开的方法和组合物可以用于同时工程化和跟踪靶核酸序列中的工程化事件。

这样的质粒可以使用体外组装或克隆技术来产生。例如，质粒可以使用化学合成、Gibson组装、SLIC、CPEC、PCA、无连接克隆、其他体外寡核苷酸组装技术、基于常规连接的克隆或其任何组合来产生。

这样的质粒可以包含至少一个记录序列诸如条形码，和至少一个编辑序列。在大多数情况下，记录序列被用于记录和跟踪工程化事件。每个编辑序列可以被用于将期望的编辑掺入靶核酸序列中。期望的编辑可以包括靶核酸序列的插入、缺失、取代或改变。在一些实例中，一个或更多个记录序列和编辑序列被包含在质粒中包含的单个盒上，使得它们通过同一工程化事件掺入靶核酸序列中。在其他实例中，记录序列和编辑序列被包含在质粒中的分开的盒上，使得它们各自通过不同的工程化事件掺入靶核酸中。在一些实例中，质粒包含两个或更多个编辑序列。例如，一个编辑序列可以用于使PAM序列改变或沉默，而第二个编辑序列可以用于将突变掺入不同的序列中。

可以将记录器序列插入与编辑序列插入位点分开的位点中。插入的记录器序列可以与编辑序列分开1bp至1Mbp。例如，分开距离可以为约1bp、10bp、50bp、100bp、500bp、1kp、2kb、5kb、10kb或更大。分开距离可以为1bp和10Mbp之间的任何独立的整数。在一些实例中，最大分开距离取决于靶核酸或基因组的尺寸。

可以将记录器序列插入与编辑序列邻近或在编辑序列附近。例如，可以将记录器序列插入在编辑序列所插入的开放阅读框之外。可以将记录器序列插入与已插入编辑序列的开放阅读框近邻的非翻译区中。可以将记录器序列插入功能上中立的位点或非功能性位点中。可以将记录器序列插入可筛选标志物基因或可选择标志物基因中。

在一些实例中，靶核酸序列包含在基因组、人工染色体、合成染色体或附加型质粒中。在多种实例中，靶核酸序列可以处于体外或体内。当靶核酸序列处于体内时，可以通过转化、转染、接合、生物弹射、纳米粒子、细胞可渗透技术、或用于DNA递送的其他已知方法或其任何组合将质粒引入宿主生物体中。在这样的实例中，宿主生物体可以是真核生物、原核生物、细菌、古细菌、酵母或其他真菌。

工程化事件可以包括重组工程、非同源末端连接、同源重组或同源驱动修复。在一些实例中，工程化事件在体外或体内进行。

本文描述的方法可以在任何类型的细胞包括原核细胞和真核细胞中进行，在细胞中可靶向核酸酶系统可以发挥功能(例如，靶向DNA和使DNA裂解)。在一些实施方案中，细胞为细菌细胞，诸如埃希氏菌属的种(Escherichia spp.)(例如，大肠杆菌)。在其他实施方案中，细胞是真菌细胞，诸如酵母细胞，例如，酵母属的种(Saccharomyces spp.)。在其他实施方案中，细胞是藻类细胞、植物细胞、昆虫细胞或哺乳动物细胞，包括人类细胞。

在一些实例中，细胞是重组生物体。例如，细胞可以包含非天然的可靶向核酸酶系统。另外地或可选择地，细胞可以包括重组系统机构(machinery)。这样的重组系统可以包括λred重组系统、Cre/Lox、attB/attP或其他整合酶系统。在适当的情况下，质粒可以具有所选重组系统正确且有效工作所需的互补组分或机构。

用于基因组编辑的方法可以包括：(a)将编码至少一个编辑盒和至少一个引导核酸的载体引入第一细胞群体中，从而产生包含该载体的第二细胞群体；(b)在表达或维持核酸引导性核酸酶的条件下维持第二细胞群体，其中核酸引导性核酸酶被编码在载体、第二载体、第二细胞群体的细胞基因组上，或以其他方式引入细胞中，导致DNA裂解和编辑盒的掺入；(c)获得可存活细胞；以及(d)对第二细胞群体的至少一个细胞中的靶DNA分子测序，以鉴定至少一个密码子的突变。

用于基因组编辑的方法可以包括：(a)将编码至少一个包含如本文公开的PAM突变的编辑盒和至少一个引导核酸的载体引入第一细胞群体中，从而产生包含该载体的第二细胞群体；(b)在表达或维持核酸引导性核酸酶的条件下维持第二细胞群体，其中核酸引导性核酸酶被编码在载体、第二载体、第二细胞群体的细胞基因组上，或以其他方式引入细胞中，导致DNA裂解，编辑盒的掺入和第二细胞群体的不包含PAM突变的细胞的死亡，而第二细胞群体的包含PAM突变的细胞可存活；(c)获得可存活细胞；以及(d)对第二细胞群体的至少一个细胞中的靶DNA测序，以鉴定至少一个密码子的突变。

用于可跟踪基因组编辑的方法可以包括：(a)将编码至少一个编辑盒、至少一个记录器盒和至少两种引导核酸的载体引入第一细胞群体中，从而产生包含该载体的第二细胞群体；(b)在表达或维持核酸引导性核酸酶的条件下维持第二细胞群体，其中核酸引导性核酸酶被编码在载体、第二载体、第二细胞群体的细胞基因组上，或以其他方式引入细胞中，导致DNA裂解以及编辑盒和记录器盒的掺入；(c)获得可存活细胞；以及(d)对第二细胞群体的至少一个细胞中的靶DNA分子的记录器序列测序，以鉴定至少一个密码子的突变。

在质粒包含被设计成使PAM沉默的第二编辑序列的一些实例中，用于可跟踪基因组编辑的方法可以包括：(a)将编码至少一个编辑盒、记录器盒和至少两个引导核酸的载体引入第一细胞群体中，从而产生包含该载体的第二细胞群体；(b)在表达或维持核酸引导性核酸酶的条件下维持第二细胞群体，其中核酸引导性核酸酶被编码在载体、第二载体、第二细胞群体的细胞基因组上，或以其他方式引入细胞中，导致DNA裂解、编辑盒和记录器盒的掺入和第二细胞群体的不包含PAM突变的细胞的死亡，而第二细胞群体的包含PAM突变的细胞可存活；(c)获得可存活细胞；以及(d)对第二细胞群体的至少一个细胞中的靶DNA的记录器序列测序，以鉴定至少一个密码子的突变。

在一些实例中，转化效率通过使用非靶向对照引导核酸来确定，这允许重组工程程序和CFU/ng计算的验证。在一些情况下，绝对效率通过对每个转化平板上的菌落总数进行计数，例如通过对来自galK对照的红色和白色菌落两者进行计数来获得。在一些实例中，相对效率通过来自对照(例如，galK对照)的所有菌落中的成功转化体(例如，白色菌落)的总数来计算。

本公开内容的方法可以例如在产生组合文库的效率、规模、成本和/或这种文库产生的准确度方面提供大于1000x的改进。

本公开内容的方法可以在产生基因组文库或组合文库的效率方面提供例如大于：10x、50x、100x、200x、300x、400x、500x、600x、700x、800x、900x、1000x、1100x、1200x、1300x、1400x、1500x、1600x、1700x、1800x、1900x、2000x或更大的改进。

本公开内容的方法可以在产生基因组文库或组合文库的规模方面提供例如大于：10x、50x、100x、200x、300x、400x、500x、600x、700x、800x、900x、1000x、1100x、1200x、1300x、1400x、1500x、1600x、1700x、1800x、1900x、2000x或更大的改进。

本公开内容的方法可以在产生基因组文库或组合文库的成本方面提供例如大于：10x、50x、100x、200x、300x、400x、500x、600x、700x、800x、900x、1000x、1100x、1200x、1300x、1400x、1500x、1600x、1700x、1800x、1900x、2000x或更大的降低。

本公开内容的方法可以在基因组文库或组合文库产生的准确度方面提供例如大于：10x、50x、100x、200x、300x、400x、500x、600x、700x、800x、900x、1000x、1100x、1200x、1300x、1400x、1500x、1600x、1700x、1800x、1900x、2000x或更大的改进。

对组合工程化的递归跟踪

本文公开了用于迭代多轮工程化的方法和组合物。本文公开了允许通过若干串行工程化循环(例如，图18和图19)在单个细胞水平实现CREATE记录的递归工程化策略。这些公开的方法和组合物可以实现能够有效构建和探索复杂基因型空间的基于检索的技术。术语递归和迭代可以可互换地使用。

组合工程化方法可以包括多轮工程化。本文公开的方法可以包括2轮或更多轮工程化。例如，方法可以包括2轮、3轮、4轮、5轮、6轮、7轮、8轮、9轮、10轮、11轮、12轮、13轮、14轮、15轮、20轮、25轮、30轮或多于30轮的工程化。

在一些实例中，在每轮工程化期间，将新的记录器序列诸如条形码在多个邻近位点掺入同一基因座(例如，图18，灰色条或图19，黑色条)，使得在整个基因组中构建组合多样性的多个工程化循环(例如，图18，灰色条或图19，灰色条)之后，记录基因座的简单PCR可以被用于重建每个组合基因型或确认来自每轮的工程化编辑已经被掺入靶位点中。

本文公开了用于选择连续多轮工程化的方法。选择可以通过由编辑盒掺入的PAM突变发生。选择可以通过由记录器盒掺入的PAM突变发生。选择可以使用可筛选标志物、可选择标志物或可反向选择标志物发生。选择可以通过靶向由前一轮工程化掺入的编辑或记录的位点标志物，从而针对来自这两轮或所有前轮工程化的成功掺入编辑序列和记录器序列的变体进行选择。

这些基因型的定量可以用于理解组合突变对大群体的效应，以及用于对重要的生物学现象，诸如上位性的研究。

串行编辑和组合跟踪可以使用如本文公开的递归载体系统来实现。可以使用这些递归载体系统快速移动通过转化过程。在一些实例中，这些系统由两种或更多种含有正交复制起点、抗生素标志物和编码的引导核酸的质粒组成。每个载体中编码的引导核酸可以被设计成靶向其他抗性标志物之一以通过核酸引导性核酸酶介导的裂解被破坏。在一些实例中，这些系统可以用于进行转化，在转化中切换抗生素选择压力以去除先前的质粒并驱动对下一轮工程化基因组的富集。可以进行两代或更多代地通过转化循环，或者换言之，可以进行多轮工程化。将必需的记录盒和编辑盒引入如本文公开的递归载体中可用来在每个转化步骤中以高效率同时进行基因组编辑和质粒固化。

在一些实例中，本文公开的递归载体系统包含2种、3种、4种、5种、6种、7种、8种、9种、10种或多于10种独特质粒。在一些实例中，递归载体系统可以多于一次地使用一个特定质粒，条件是在前一轮和后一轮中使用一个不同的质粒。

本文公开的递归方法和组合物可以用于恢复靶向基因组或质粒中的可选择元件或可筛选元件的功能。可选择元件或可筛选元件可以包括抗生素抗性基因、荧光基因、独特的DNA序列或水印(watermark)，或其他已知的报道物基因、可筛选基因或可选择基因。在一些实例中，每个连续轮的工程化都可以掺入可选择元件或可筛选元件的片段，使得在工程化轮结束时，整个可选择元件或可筛选元件已经被掺入靶基因组或质粒中。在这样的实例中，只有那些已经成功掺入所有片段并因此已经成功掺入所有期望的对应突变的基因组或质粒才能被选择或筛选到。通过这种方式，所选择或筛选的细胞将是针对那些已经由每次和每一轮迭代工程化掺入了编辑的细胞而富集的。

对于每轮连续工程化，递归方法可用以在开启与关闭位置之间或在关闭与开启位置之间切换可选择标志物或可筛选标志物。使用这样的方法允许按要求例如仅使用一种可筛选标志物或可选择标志物来保存可用的可选择标志物或可筛选标志物。此外，短调控序列或起始密码子或非起始密码子可以用于开启和关闭可筛选标志物或可选择标志物。这样的短序列可以容易地安置到合成的盒或多核苷酸中。

可以使用本文公开的方法和组合物进行一轮或更多轮工程化。在一些实例中，每轮工程化都被用于掺入相对于前几轮的编辑独特的编辑。每轮工程化都可以掺入个独特的记录序列。每轮工程化都可以导致前一轮工程化中使用的质粒的去除或固化。在一些实例中，每轮工程化的记录序列的成功掺入产生完整且有功能的可筛选标志物或可选择标志物或独特的序列组合。

可以在每轮工程化中插入包括记录序列诸如条形码或可筛选标志物或可选择标志物的独特的记录器盒，从而产生指示所进行的编辑或工程化步骤的组合的记录器序列。可以彼此邻近地插入连续的记录序列。可以彼此接近地插入连续的记录序列。可以彼此相距一定距离地插入连续序列。

可以彼此相距一定距离地插入连续序列。例如，连续的记录器序列可以被插入并分开0bp、1bp、2bp、3bp、4bp、5bp、6bp、7bp、8bp、9bp、10bp、11bp、12bp、13bp、14bp、15bp、16bp、17bp、18bp、19bp、20bp、21bp、22bp、23bp、24bp、25bp、26bp、27bp、28bp、29bp、30bp、31bp、32bp、33bp、34bp、35bp、36bp、37bp、38bp、39bp、40bp、41bp、42bp、43bp、44bp、45bp、46bp、47bp、48bp、49bp、50bp、51bp、52bp、53bp、54bp、55bp、56bp、57bp、58bp、59bp、60bp、61bp、62bp、63bp、64bp、65bp、66bp、67bp、68bp、69bp、70bp、71bp、72bp、73bp、74bp、75bp、76bp、78bp、79bp、80bp、81bp、82bp、83bp、84bp、85bp、86bp、87bp、88bp、89bp、90bp、91bp、92bp、93bp、94bp、95bp、96bp、97bp、98bp、99bp、100bp或大于100bp。在一些实例中，连续的记录器序列分开约10bp、50bp、100bp、150bp、200bp、250bp、300bp、350bp、400bp、450bp、500bp、550bp、600bp、650bp、700bp、750bp、800bp、850bp、900bp、950bp、1000bp、1100bp、1200bp、1300bp、1400bp、1500bp或大于1500bp。

连续的记录器序列可以被任何期望数目的碱基对分开，并且可以取决并受限于待被插入的连续记录器序列的数目、靶核酸或靶基因组的尺寸和/或期望的最终记录器序列的设计。例如，如果编译的记录器序列是功能性可筛选标志物或可选择标志物，则可以将连续的记录序列彼此接近地插入并且插入同一阅读框中。如果编译的记录器序列是待通过测序鉴定的且不具有编码序列元件的独特条形码集合，则可以插入连续的记录器序列，用任何期望数目的碱基对将它们分开。在这些情况下，分开距离可以取决于待使用的测序技术和读取长度限制。

虽然本文已经示出和描述了本发明的优选实施方案，但对本领域技术人员将明显的是，此类实施方案仅通过实例的方式提供。本领域技术人员现在将想到不偏离本发明的许多变化、改变和替换。应当理解，本文描述的本发明实施方案的多种替代方案均可以用于实践本发明。以下权利要求意图界定本发明的范围，并且从而涵盖在这些权利要求范围内的方法和结构及其等同物。

一些定义

如本文使用的术语“野生型”是本领域技术人员所理解的术语，并且意指生物体、菌株、基因或特征按照其在自然界中存在的典型形式，区别于突变体或变体形式。

如本文使用的术语“变体”应当被理解为意指具有衍生自在自然界中存在的模式的性质的展示。

术语“直系同源物(orthologue)”(本文中也被称为“直向同源物(ortholog)”)和“同源物(homologue)”(本文中也被称为“同系物(homolog)”)是本领域熟知的。通过进一步的指导的方式，如本文使用的蛋白的“同源物”是与其同源物蛋白执行相同或相似功能的相同物种的蛋白。同源蛋白可以但不必须是结构相关的，或者仅是部分结构相关的。如本文使用的蛋白的“直系同源物”是与其直系同源物蛋白执行相同或相似功能的不同物种的蛋白。直系同源蛋白可以但不必须是结构相关的，或者仅是部分结构相关的。同系物和直向同源物可以通过同源建模来鉴定(参见例如，Greer,Science第228卷(1985)1055和Blundell等人Eur J Biochem第172卷(1988),513)或"structural BLAST"(Dey F,Cliff Zhang Q,Petrey D,Honig B.Toward a"structural BLAST":using structural relationships toinfer function.Protein Sci.2013April；22(4):359-66.doi:10.1002/pro.2225.)。

术语“多核苷酸”、“核苷酸”、“核苷酸序列”、“核酸”和“寡核苷酸”可互换地使用。它们是指任何长度的核苷酸(脱氧核糖核苷酸或核糖核苷酸或其类似物)的聚合形式。多核苷酸可以具有任何三维结构，并且可以执行任何已知或未知的功能。以下是多核苷酸的非限制性实例：基因或基因片段的编码区或非编码区、由连锁分析定义的多个基因座(一个基因座)、外显子、内含子、信使RNA(mRNA)、转移RNA、核糖体RNA、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微小RNA(miRNA)、核酶、cDNA、重组多核苷酸、支链多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的分离的RNA、核酸探针和引物。该术语还包括具有合成骨架的核酸样结构，参见例如，Eckstein,1991；Baserga等人，1992；Milligan,1993；WO97/03211；WO96/39154；Mata,1997；Strauss-Soukup,1997；和Samstag,1996。多核苷酸可以包含一个或更多个修饰的核苷酸，诸如甲基化核苷酸和核苷酸类似物。如果存在，可以在聚合物组装之前或之后对核苷酸结构修饰。核苷酸的序列可以被非核苷酸组分中断。多核苷酸可以在聚合之后诸如通过与标记组分缀合被进一步修饰。

“互补性”是指核酸与另一核酸序列通过传统的沃森-克里克碱基配对或其他非传统类型形成氢键的能力。互补性百分比指示核酸分子中可以与第二核酸序列形成氢键(沃森-克里克碱基配对)的残基的百分比(例如，10个中的5个、6个、7个、8个、9个、10个互补为50％、60％、70％、80％、90％和100％互补)。“完全互补”意指核酸序列的所有连续残基将与第二核酸序列中相同数目的连续残基氢键键合。如本文使用的“基本上互补”是指在8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、30个、35个、40个、45个、50个或更多个核苷酸的区域上为至少60％、65％、70％、75％、80％、85％、90％、95％、97％、98％、99％或100％的互补性程度，或是指在严格条件下杂交的两个核酸。

如本文使用的，用于杂交的“严格条件”是指在其下与靶序列具有互补性的核酸主要与靶序列杂交并且基本不与非靶序列杂交的条件。严格条件通常是序列依赖性的，并且取决于许多因素而变化。通常，序列越长，则序列与其靶序列特异性杂交的温度就越高。严格条件的非限制性实例被详细描述于Tijssen(1993).Laboratory Techniques InBiochemistry And Molecular Biology-Hybridization With Nucleic Acid Probes第I部分，第2章"Overview of principles of hybridization and the strategy ofnucleic acid probe assay",Elsevier,N.Y.中。在提及多核苷酸序列的情况下，则还设想了互补或部分互补的序列。这些能够在高严格条件下与参考序列杂交的序列是优选的。通常，为了使杂交率最大化，选择相对低严格性的杂交条件：比热解链点(Tm)低约20摄氏度至25摄氏度。Tm是在其50％的特定靶序列与完全互补的探针在具有限定的离子强度和pH的溶液中杂交的温度。通常，为了要求杂交序列的至少约85％核苷酸互补性，高严格洗涤条件被选择为比Tm低约5摄氏度至15摄氏度。为了要求杂交序列的至少约70％核苷酸互补性，中等严格洗涤条件被选择为比Tm低约15摄氏度至30摄氏度。高容许(极低严格性)洗涤条件可以低至低于Tm50摄氏度，从而允许杂交序列之间的高水平错配。本领域技术人员将认识到，杂交和洗涤阶段中的其他物理和化学参数也可以改变，以影响来自在靶序列与探针序列之间的特定同源性水平的可检测杂交信号的结果。

“杂交”是指这样的反应，其中一个或更多个多核苷酸反应形成经由核苷酸残基的碱基之间的氢键合被稳定化的复合物。氢键合可以通过沃森-克里克碱基配对、Hoogstein结合、或以任何其他序列特异性方式发生。复合物可以包含形成双链体结构的两条链、形成多链复合物的三条或更多条链、单个自我杂交链、或这些的任何组合。杂交反应可构成更广泛的过程诸如PCR的起始或酶对多核苷酸裂解中的步骤。能够与特定序列杂交的序列被称为该特定序列的“互补序列”。

如本文使用的，术语“基因组基因座”或“基因座”(多于一个基因座)是基因或DNA序列在染色体上的特定位置。“基因”是指编码多肽或RNA链的DNA或RNA的段(stretch)，其在生物体中发挥功能作用并且因此是活生物体中的遗传的分子单元。为了本发明的目的，可以认为基因包括调控基因产物的产生的区域，而不论这样的调控序列是否与编码序列和/或转录序列邻近。因此，基因包括但不一定限于启动子序列、终止子、翻译调控序列诸如核糖体结合位点和内部核糖体进入位点、增强子、沉默子、绝缘子(insulator)、边界元件、复制起点、基质附接位点和基因座控制区。

如本文使用的，“基因组基因座的表达”或“基因表达”是藉以将来自基因的信息用于合成功能性基因产物的过程。基因表达的产物通常是蛋白，但在非蛋白编码基因诸如rRNA基因或tRNA基因中，产物是功能性RNA。所有已知的生命体——真核生物(包括多细胞生物体)、原核生物(细菌和古细菌)和病毒，都使用基因表达的过程来产生有功能的产物以便存活。如本文使用的，基因或核酸的“表达”不仅包括细胞基因表达，还包括克隆系统中和任何其它背景中的核酸的转录和翻译。如本文使用的，“表达”还指藉以由DNA模板转录多核苷酸的过程(诸如转录为mRNA或其他RNA转录物)和/或藉以转录的mRNA随后被翻译为肽、多肽或蛋白的过程。转录物和编码的多肽可以被统称为“基因产物”。如果多核苷酸源自基因组DNA，则表达可以包括真核细胞中的mRNA的剪接。

术语“多肽”、“肽”和“蛋白”在本文中可互换地使用，以指任何长度的氨基酸聚合物。该聚合物可以是直链或支链的，它可以包含修饰的氨基酸，并且它可以被非氨基酸中断。该术语还包括已经被修饰，例如，二硫键形成、糖基化、脂质化、乙酰化、磷酸化或任何其他操作，诸如与标记组分的缀合的氨基酸聚合物。如本文使用的术语“氨基酸”包括天然和/或非天然或合成的氨基酸，包括甘氨酸和D旋光异构体或L旋光异构体两者以及氨基酸类似物和肽模拟物。

如本文使用的，术语“结构域”或“蛋白结构域”是指可以独立于蛋白链的其余部分存在并且有功能的蛋白序列的一部分。

如本发明的方面描述的，序列同一性与序列同源性相关。同源性比较可以通过肉眼来进行，或更通常地借助于可容易获得的序列比较程序来进行。这些商业上可获得的计算机程序可以计算两个或更多个序列之间的同源性百分比(％)，并且还可以计算两个或更多个氨基酸序列或核酸序列共有的序列同一性。序列同源性可以通过本领域已知的许多计算机程序的任何一个来产生，例如BLAST或FASTA等。用于进行这样的比对的合适的计算机程序是GCG Wisconsin Bestfit软件包(University of Wisconsin.U.S.A；Devereux等人，1984,Nucleic Acids Research 12:387)。可以进行序列比较的其他软件的实例包括但不限于BLAST软件包(参见Ausubel等人，1999，同上-第18章)、FASTA(Atschul等人，1990,J.Mol.Biol.,403-410)和GENEWORKS比较工具程序组。BLAST和FASTA均可用于离线和在线检索(参见Ausubel等人，1999同上，第7-58页至第7-60页)。然而，优选的是使用GCGBestfit程序。

可以计算多个连续序列的同源性百分比，即，将一个序列与另一个序列比对，并且将一个序列中的每个氨基酸或核苷酸与另一个序列中的对应氨基酸或核苷酸直接进行比较，一次比较一个残基。这被称为“无空位”比对。通常，这样的无空位比对仅在相对短的数目的残基上进行。

尽管这是非常简单且一致的方法，但它未考虑到例如在其他方面相同的序列对中，一个插入或缺失可能引起随后的氨基酸残基无法对齐，因此当进行整体比对时可能导致同源性％大幅降低。因此，大多数序列比较方法被设计成产生最佳比对，最佳比对考虑可能的插入和缺失，而不会对总体同源性或同一性评分过度罚分。这是通过在序列比对中插入“空位”以试图使局部同源性或同一性最大化来实现。

然而，这些更复杂的方法对序列比对中出现的每个空位指定“空位罚分”，这样，对于相同数目的相同氨基酸，具有尽可能少的空位的序列比对(反映了两个被比较序列之间的更高相关性)可以比具有许多空位的序列比对获得更高的评分。通常使用“仿射空位成本(affinity gap costs)”为空位的存在扣(charge)相对高的成本，并为空位中每个随后的残基扣较少罚分。这是最常用的空位评分系统。当然，高的空位罚分可以产生具有较少空位的最佳比对。大多数比对程序允许修改空位罚分。然而，当使用此类软件用于序列比较时，优选的是使用默认值。例如，当使用GCG Wisconsin Bestfit软件包时，氨基酸序列的默认空位罚分是空位为-12，并且每个延伸为-4。

因此，最大同源性％的计算首先需要产生考虑空位罚分的最佳比对。用于进行这样的比对的适合的计算机程序为GCG Wisconsin Bestfit软件包(Devereux等人，1984Nuc.Acids Research 12p387)。可以进行序列比较的其他软件的实例包括但不限于BLAST软件包(参见Ausubel等人，1999Short Protocols in Molecular Biology，第4版-第18章)、FASTA(Atschul等人，1990J.Mol.Biol.403-410)和GENEWORKS比较工具程序组。BLAST和FASTA两者均可用于离线和在线检索(参见Ausubel等人，1999,Short Protocolsin Molecular Biology，第7-58页至第7-60页)。然而，对于一些应用，优选的是使用GCGBestfit程序。一种被称为BLAST 2Sequences的新工具也可用于比较蛋白和核苷酸序列(参见FEMS Microbiol Lett.1999174(2):247-50；FEMS Microbiol Lett.1999 177(1):187-8和国立卫生研究院(the National Institutes for Health)的网站上的国家生物技术信息中心(the National Center for Biotechnology Information)的网站)。

尽管最终的同源性％可以根据同一性来测量，但比对处理本身通常不基于全或无的(all-or-nothing)配对比较。而是通常使用标度化相似性评分矩阵，该矩阵基于化学相似性或演化距离为每一成对比较指定评分。通常使用的此类矩阵的实例为BLOSUM62矩阵——BLAST程序组的默认矩阵。GCG Wisconsin程序通常使用公用默认值或自定义的符号比较表(如果提供的话)(对于进一步的细节参见用户手册)。对于一些应用，优选的是使用GCG软件包的公用默认值，或在其他软件的情况下，使用默认矩阵，诸如BLOSUM62。

可选择地，同源性百分比可以基于类似于CLUSTAL(Higgins D G&Sharp P M(1988),Gene 73(1),237-244)的算法使用DNASIS^TM(Hitachi Software)中的多重比对特征来计算。在软件产生了最佳比对后，可以计算同源性％、优选序列同一性％。这通常被软件作为序列比较的一部分进行并产生数值结果。

序列也可以具有氨基酸残基的缺失、插入或取代，其产生沉默改变并产生功能上等同的物质。可以基于氨基酸特性(诸如残基的极性、电荷、可溶性、疏水性、亲水性和/或两亲性性质)的相似性进行有意的氨基酸取代，并且因此按官能团将氨基酸分组是有用的。可以单独地基于氨基酸的侧链特性将它们分组在一起。然而，同时包含突变数据是更有用的。由于结构原因，如此获得的氨基酸的集合可能是保守的。这些集合可以用维恩图(Venndiagram)的形式来描述(Livingstone C.D.和Barton G.J.(1993)"Protein sequencealignments:a strategy for the hierarchical analysis of residue conservation"Comput.Appl.Biosci.9:745-756)(Taylor W.R.(1986)"The classification of aminoacid conservation"J.Theor.Biol.119；205-218)。可以例如根据该表进行保守取代，该表下方描述了公认的氨基酸的维恩图分组。

本发明的实施方案包括可以包含同源取代(取代和替代两者在本文中均用于意指现有氨基酸残基或核苷酸与替代残基或核苷酸的互换)的序列(多核苷酸或多肽两者)，同源取代可能发生在氨基酸的情况下即为同类取代(like-for-like substitution)，诸如碱性对碱性、酸性对酸性、极性对极性等。也可以存在非同源取代，即，从一类残基变为另一类残基，或者可选择地涉及纳入非天然氨基酸，诸如鸟氨酸(下文中被称为Z)、二氨基丁酸鸟氨酸(下文中被称为B)、正亮氨酸鸟氨酸(下文中被称为O)、吡啶基丙氨酸、噻吩基丙氨酸、萘基丙氨酸和苯基甘氨酸。

变体氨基酸序列可以包括可以被插入在序列的任何两个氨基酸残基之间的合适的间隔基团，除了氨基酸间隔基团诸如甘氨酸残基或β-丙氨酸残基之外，包括烷基基团，诸如甲基、乙基或丙基基团。本领域技术人员可以很好地理解包括存在呈类肽形式的一个或更多个氨基酸残基的另一种形式的变化。为避免疑义，“类肽形式”用于指变体氨基酸残基，其中α-碳取代基基团位于残基的氮原子上，而不是α-碳上。用于制备类肽形式的肽的方法是本领域已知的，例如Simon R J等人，PNAS(1992)89(20),9367-9371和Horwell D C,Trends Biotechnol.(1995)13(4),132-134。

除非另外指示，否则本发明的实践利用以下的常规技术：免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA，所述常规技术在本领域技术的范围内。参见Green和Sambrook,(Molecular Cloning:A Laboratory Manual.第4版，ColdSpring Harbor Laboratory Press,Cold Spring Harbor,N.Y.,2014)；CURRENTPROTOCOLS IN MOLECULAR BIOLOGY(F.M.Ausubel等人编辑，(2017年))；Short Protocolsin Molecular Biology,(Ausubel等人，1999))；METHODS IN ENZYMOLOGY系列(AcademicPress,Inc.):PCR 2:A PRACTICAL APPROACH(M.J.MacPherson,B.D.Hames和G.R.Taylor编辑(1995)),ANTIBODIES,A LABORATORY MANUAL，第二版(Harlow和Lane编辑(2014)和CULTURE OF ANIMAL CELLS:A MANUAL OF BASIC TECHNIQUE，第7版(R.I.Freshney编辑(2016))。

实施例

以下实施例是为了说明本发明的多种实施方案的目的而提供的，而不表示以任何方式限制本发明。本发明的实施例以及本文描述的方法目前代表优选的实施方案，是示例性的，而不意图作为对本发明范围的限制。本领域技术人员将会想到如权利要求书的范围所限定的本发明的精神内包含的对这些实施例和方法的改变和其他用途。

实施例1.核酸引导性核酸酶

将20种核酸引导性核酸酶的序列(被称为MAD1-MAD20(SEQ ID NO:1-20))进行比对，并与其他核酸引导性核酸酶进行比较。图1A和图1B中分别描绘了对这些核酸酶的特定氨基酸的部分比对和演化树。图1A中示出了可能参与PAM位点识别的关键残基。这些关键残基包括位置167、539、548、599、603、604、605、606和607处的氨基酸。

使用PSI-BLAST在NCBI非冗余数据库中检索MAD核酸酶同系物来建立序列比对。用如Geneious 10中实施的默认设置使用MUSCLE比对算法进一步完善了多序列比对。基于来自这些整体比对的成对比对匹配，计算每个同系物与SpCas9和AsCpf1参考序列的同一性百分比。

基因组源序列使用Uniprot链接信息或NCBI的TBLASTN检索、使用默认参数并检索所有可能的翻译匹配的框来鉴定。

表1中总结了MAD1-8和10-12与其他多种核酸酶的同一性百分比。这些同一性百分比代表所指示的蛋白之间共有的氨基酸序列同一性。

表1

实施例2：MAD核酸酶的表达

MAD1-MAD20的野生型核酸序列分别包含SEQ ID NO:21-40。这些MAD核酸酶是针对在大肠杆菌中表达进行了密码子优化的，并且密码子优化的序列以SEQ ID NO:41-60列出(总结在表2中)。

将这些密码子优化的MAD1-MAD20克隆到包含组成型或诱导型启动子(例如，proB启动子SEQ ID NO:83、或pBAD启动子SEQ ID NO:81或SEQ ID NO:82)和任选的6X-His标签(SEQ ID NO:376)的表达构建体中(例如，图2)。所产生的MAD1-MAD20表达构建体分别以SEQID NO:61-80提供。如图2中描绘的表达构建体是通过基于限制(restriction)/连接的克隆或基于同源性的克隆产生的。

实施例3.测试与MAD核酸酶相容的引导核酸序列

需要核酸引导性核酸酶和相容的引导核酸来获得有功能的可靶向核酸酶复合物。采用了多种方法来确定相容的引导核酸序列且特别是引导核酸的支架序列部分。首先，扫描了每种MAD核酸酶的内源基因座来寻找潜在的支架序列。在一些情况下，诸如对于MAD2，没有发现内源支架序列。因此，测试了MAD2与在其它MAD核酸酶的内源基因座附近发现的支架序列的相容性。所测试的MAD核酸酶和对应的内源支架序列列于表2中。

表2

产生如图3中描绘的编辑盒来评估MAD核酸酶和对应的引导核酸的功能。每个编辑盒包含编辑序列和与编码的引导核酸可操作地连接的启动子。编辑盒还包括位于侧端上的引物位点(P1和P2)。引导核酸包含待被测试的多种支架序列，以及将MAD核酸酶导向靶序列以进行编辑的引导序列。编辑序列包含PAM突变和/或相对于靶序列的密码子突变。突变的侧翼是将允许重组到裂解的靶序列中的同源区(同源臂或HA)。

图4描绘了为测试不同的MAD核酸酶和引导核酸组合而设计的实验。将编码MAD核酸酶的表达盒与如上文描述的不同的编辑盒一起添加至宿主细胞。在该实施例中，引导核酸被工程化为靶向宿主细胞中的galK基因，并且编辑序列被设计成使被靶向的galK基因突变以关闭该基因，从而允许筛选经成功编辑的细胞。该设计被用于鉴定有功能或相容的MAD核酸酶和引导核酸组合。编辑效率通过qPCR以高通量的方式测量回收细胞中的编辑质粒来确定。图14A和图14B中示出了对MAD11和Cas9引物特异性的验证。这些结果表明所选择的引物对是正交的，并且允许对输入质粒DNA的定量测量。

图5A-图5B描绘了具有类似实验设计的实验。在该情况下，编辑盒(图5B)还包含可选择标志物，在该情况下是卡那霉素抗性(kan)；并且MAD核酸酶表达载体(图5A)还包含可选择标志物(在该情况下是氯霉素抗性(Cm))以及帮助编辑序列同源重组(HR)到靶序列中的λRED重组系统。如果存在PAM序列，则相容的MAD核酸酶和引导核酸组合将导致靶序列中的双链断裂。由于编辑序列(例如图3)包含MAD核酸酶不识别的PAM突变，因此包含PAM突变的经编辑的细胞经得住MAD核酸酶裂解，而野生型未经编辑的细胞死亡(图5C)。编辑序列还在galK基因中包含突变，允许筛选经编辑的细胞，而MAD核酸酶表达载体和编辑盒包含药物选择标志物，允许选择经编辑的细胞。

使用这些方法，测试了对于MAD1-MAD20相容的引导核酸。测试了20种支架序列。实验中使用的引导核酸包含20种支架序列之一(被称为支架-1、支架-2等)以及靶向galK基因的引导序列。支架-1至支架-20的序列分别以SEQ ID NO:84-103列出。应当理解，引导核酸的引导序列是可变的，并且可以被工程化或设计成靶向任何期望的靶序列，这对于阅读本公开内容的本领域技术人员将是明显的。由于MAD2不具有待测试的内源支架序列，因此测试了来自具有密切同源性的核酸酶的支架序列(支架-2，SEQ ID NO:85)，并且发现其没有功能，意味着MAD2与支架-2不相容。因此，将MAD2与其他19种支架序列进行了测试，尽管MAD2与这些其他MAD核酸酶之间的序列同源性低。

该工作流程还被用于鉴定或测试与特定MAD核酸酶相容的PAM序列。在下一实例中描述了另一种用于鉴定PAM位点的方法。

通常，对于所述的测定，如下进行转化。使表达密码子优化的MAD核酸酶的大肠杆菌菌株生长过夜。将饱和培养物以1/100稀释并使其生长至OD600为0.6，并且通过添加最终浓度为0.4％的阿拉伯糖以及(如果使用了温度敏感型质粒)将培养物转移至42摄氏度的振荡水浴中来诱导。诱导后，使细胞在冰上冷冻15min，然后用10％甘油以1/4初始培养物体积洗涤三次(例如，对于200mL培养物用50mL洗涤)。将细胞重悬在1/100初始体积中(例如，对于200mL培养物为2mL)，并在-90摄氏度储存直到准备使用。为了进行本文描述的相容性和编辑效率筛选，通过电穿孔将50ng的编辑盒转化到细胞等分试样中。电穿孔后，使细胞在LB中恢复3小时，并将100μL细胞铺板在含有1％半乳糖的MacConkey平板上。

编辑效率通过将白色菌落(经编辑的细胞)的数目除以白色和红色菌落(经编辑的和未经编辑的细胞)的总数来确定。

实施例4.PAM选择测定

为了在靶序列中产生双链断裂，引导核酸必须与靶序列杂交，并且MAD核酸酶必须识别与靶序列邻近的PAM序列。如果引导核酸与靶序列杂交，但是MAD核酸酶不识别PAM位点，则裂解不发生。

PAM是MAD核酸酶特异性的，并非所有MAD核酸酶都必须识别相同的PAM。为了评估MAD核酸酶对PAM位点的要求，进行了如图6A-图6C中描绘的测定。

图6A描绘了如别处描述的还包含氯霉素抗性基因和λRED重组系统的MAD核酸酶表达载体。

图6B描绘了自身靶向型编辑盒。引导核酸被设计成靶向被包含在同一核酸分子上的靶序列。靶序列侧翼为通过N4描绘的随机核苷酸，表示靶序列任一末端上的四个随机核苷酸。应当理解，也可以使用任何数目的随机核苷酸(例如，3个、5个、6个、7个、8个等)。随机核苷酸充当潜在PAM的文库。

图6C描绘了实验设计。基本上，将MAD核酸酶表达载体和包含随机PAM位点的编辑盒转化到宿主细胞中。如果形成了有功能的可靶向核酸酶复合物，并且MAD核酸酶识别PAM位点，则编辑盒载体被裂解并且这导致细胞死亡。如果未形成有功能的可靶向复合物，或者如果MAD核酸酶未识别PAM，则靶序列不被裂解并且细胞存活。使用多种检测机制(例如下一代测序(NGS))对起始和最终细胞群体进行测序以确定特定MAD核酸酶识别什么样的PAM位点。然后使用这些被识别的PAM位点来确定特定MAD核酸酶的共有PAM或非共有PAM。

MAD1-MAD8和MAD10-MAD12的共有PAM被确定为TTTN。MAD9的共有PAM被确定为NNG。MAD13-MAD15的共有PAM被确定为TTN。MAD16-MAD18的共有PAM被确定为TA。MAD19-MAD20的共有PAM被确定为TTCN。

实施例5：测试异源引导核酸

测试了MAD1、MAD2和MAD7的编辑效率，并描绘于图7中。表3中总结了实验细节和编辑效率。编辑效率通过将经编辑的细胞数目除以回收的细胞总数来确定。使用靶向galK基因的多种编辑盒以允许编辑细胞的筛选。编辑盒上编码的引导核酸包含靶向galK基因的引导序列以及多种支架序列之一以测试指示的MAD核酸酶与指示的支架序列的相容性，如表3中总结的。

观察到相容的MAD核酸酶和引导核酸(包含指示的支架序列)的编辑效率具有75％-100％之间的编辑效率。MAD2具有75％-100％之间的编辑效率，而MAD7具有97％-100％之间的编辑效率。

在这些实验中，MAD2与支架-1、支架-2、支架-4或支架-13组合产生0％的编辑效率。这些数据暗示MAD2与这些测试的引导核酸无法形成有功能的复合物，并且MAD2与这些支架序列不相容。在这些实验中，MAD7与支架-1、支架-2、支架-4或支架-13组合产生0％的编辑效率。这些数据暗示MAD7与这些测试的引导核酸无法形成有功能的复合物，并且MAD7与这些支架序列不相容。因此，在本公开内容的系统和方法中有用的引导核酸可以使用经验数据来鉴定，并且当使用本公开内容中教导的方法时，将需要本领域技术人员进行合理的实验。

对于MAD1，所有测试的引导核酸组合产生0％的编辑效率，暗示MAD1与任何测试的引导核酸都无法形成有功能的复合物。这些数据还暗示MAD1与所测试的支架序列都不相容。

综合起来，这些数据突出了找到相容的MAD核酸酶和支架序列对以形成有功能的可靶向核酸酶复合物的不可预测性。一些测试的MAD核酸酶与任何测试的支架序列一起都不起作用。一些测试的MAD核酸酶仅与一些测试的支架序列一起才起作用，而与其他测试的支架序列一起不起作用。

表3

实施例6.MAD2和MAD7的评估

使用与上文描述类似的实验设计测试了MAD2和MAD7与异源引导核酸一起发挥作用的能力。测试了MAD2与其他支架序列的相容性，并且在图8中描绘了实验结果。表4中总结了本实验中使用的MAD核酸酶、引导核酸支架序列和编辑序列。

测试了MAD7与其他支架序列的相容性，并且图9中描绘了实验结果。表5中总结了本实验中使用的MAD核酸酶、引导核酸支架序列和编辑序列。

表4

表5

在另一个实验中，编辑效率(图10A)通过计算编辑的菌落(白色菌落、经编辑的galK基因)与总菌落的比率来确定。转化效率(图10B)通过计算回收细胞总数与细胞起始数目的对比来确定。

在该实施例中(图10A-图10B)，用表达MAD2或MAD7和包含靶向galK基因的引导核酸的对应编辑盒的表达构建体转化表达galK的细胞。引导核酸包含靶向galK基因的引导序列和支架-12序列(SEQ ID NO:95)。

在所描绘的实例中，MAD2和MAD7具有与化脓性链球菌Cas9相比较低的转化效率，但MAD2和MAD7的编辑效率略高于化脓性链球菌Cas9。

从编辑实验回收菌落，并对代表性数目进行NGS以确定编辑的存在。图11描绘了来自从以上描述的测定回收的这些选定菌落的测序结果。靶序列处于galK编码序列(CDS)中。TTTN PAM显示为反向补序列(野生型为NAAA，突变的为NGAA)。编辑序列靶向的突变被标记为靶密码子。与野生型序列相比的改变被突出显示。在这些实验中，使用了支架-12序列(SEQ ID NO:95)。引导核酸的引导序列靶向galK基因。

来自MAD2实验的七个描述的序列的六个包含设计的PAM突变和设计的galK靶密码子中的突变，而一个菌落保持野生型PAM和野生型靶密码子，同时还在靶位点上游包含非计划的突变。

来自MAD7实验的四个描述序列的两个包含设计的PAM突变和突变的靶密码子。一个菌落包含野生型序列，而另一个菌落在靶序列上游包含八个核苷酸的缺失。

图12描绘了来自测试选择实验协助回收经编辑的细胞的能力的两个实验的结果。在该实验中，将MAD2核酸酶与包含支架-11序列和靶向galK的引导序列的引导核酸一起使用。编辑盒包含被设计成将L80**突变掺入galK中的编辑序列，从而允许筛选经编辑的细胞。在实验1中，将MAD2核酸酶与包含支架-12序列和靶向galK的引导序列的引导核酸一起使用。编辑盒包含被设计成将L10KpnI突变掺入galK中的编辑序列。在这两个实验中，转化中包括了使用与MAD2不相容的引导核酸的阴性对照质粒。转化后，测量了相容编辑盒(包含支架-11或支架-12引导核酸的编辑盒)与不相容编辑盒(阴性对照)的比率。实验在选择存在或不存在下进行。结果表明，与不相容编辑盒相比，回收到更多的包含相容编辑盒的细胞，并且当使用选择时该结果被放大。

实施例7.引导核酸表征

将支架1-8和支架10-12的序列(SEQ ID NO:84-91和93-95)进行比对并描绘在图13中。与共有序列匹配的核苷酸是浅色的(faded)，而偏离共有序列的核苷酸是可见的。指出了预测的假结区域。不受理论束缚，假结的5'区域可能影响核酸引导性核酸酶的结合和/或动力学。通常，如图13中示出的，假结区域中的支架序列(例如，SEQ ID NO:172-181)的可变性与假结区域以外的序列相比似乎较小。

实施例8.MAD核酸酶的编辑效率

使用基于平板的编辑效率测定和分子编辑效率测定来测试多种MAD核酸酶与引导核酸的组合的编辑效率。

图15描绘了对使用分子编辑效率测定获得的数据的定量，该测定使用MAD2核酸酶与包含支架-12和靶向galK的引导序列的引导核酸。使用包含指示的突变的对应编辑盒将这些突变掺入galK中。图16示出了通过使用如先前描述的白色和红色菌落的基于平板的测定和分子编辑效率测定所确定的编辑效率的比较。如图16中示出的，通过这两种不同的测定确定的编辑效率是一致的。

实施例9.可跟踪编辑

遗传编辑可以通过使用条形码来跟踪。如本说明书中描述的，可以将条形码掺入编辑位点中或编辑位点附近。当进行多轮工程化并在每轮中进行不同的编辑时，在每轮工程化期间在共同区域插入条形码可能是有益的，以此方式技术人员可以对单个位点进行测序并得到来自每一轮的所有条形码的序列，而不需要对每个经编辑位点进行单独测序。图17A和图17C、图18以及图19描绘了这种可跟踪工程化工作流程的实例。

如图17A中描绘的，将表达MAD核酸酶的细胞用包含编辑盒和记录盒的质粒转化。编辑盒包含PAM突变和基因编辑。记录器盒包含条形码，在该情况下为测试序列特有的15nt条形码。编辑盒和记录盒两者各自包含针对不同靶序列的引导核酸。在这种质粒的文库中，用于每一轮的记录器盒可以包含相同的引导核酸，使得不管使用什么样的编辑盒和对应的基因编辑，第一轮条形码被插入所有变体中的相同位置。但是条形码和编辑盒之间的关联是预先确定的，使得可以通过对条形码测序来鉴定编辑。图17B示出了记录盒的实例，该记录盒被设计成缺失PAM位点同时掺入15nt条形码。缺失的PAM被用于富集经编辑的细胞，因为突变的PAM细胞逃避了细胞死亡，而包含野生型PAM序列的细胞被杀死。

图18中描绘了类似的方法。在该情况下，来自各轮的记录器盒被设计成靶向与前一轮邻近的序列，并且每一次，记录器盒缺失一个新的PAM位点。结果得到具有来自各轮的条形码的条形码阵列，可以对其进行测序，以确认每轮工程化是否发生，并确定细胞中包含哪些突变组合，以及突变以什么顺序发生。各个连续的记录器盒可以被设计成在一端上与包含来自前一轮的突变PAM的区域同源，这可以提高实验结束时获得完全编辑的细胞的效率。在其他实例中，记录器盒被设计成靶向前一记录器盒掺入的独特着陆位点(landingsite)。这提高了回收包含所有期望突变的细胞的效率，因为后续的记录器盒和条形码只能靶向已经成功完成前一轮工程化的细胞。

图19描绘了另一种方法，该方法允许可选择标志物的再循环或以其他方式保存具有来自前一轮工程化的质粒的细胞。在该情况下，包含引导核酸的转化质粒被设计成靶向来自前一轮工程化的质粒中的可选择标志物或其他独特序列。

实施例10.基于质粒的PAM(pPAM)文库设计

pPAM靶文库是通过使独立的间隔区序列侧接靶序列的5'末端和3'末端上的简并核苷酸来设计的。使用N4-间隔区N＝20-N4和N5-间隔区N＝20-N3的布置形式。这些序列被定制为在指定位置处具有简并性(例如，N3、N4和N5)的单寡核苷酸。扩增这些寡核苷酸并克隆到包含与靶文库相匹配的间隔区的gRNA载体中，以创建在竞争性生长情况下将被消耗的自身靶向型gRNA载体(图20)。在一个实验中，将总计八种不同的间隔区序列克隆到包含被设计成与各自的靶相匹配的gRNA的载体中。

实施例11.方法

靶文库的克隆

通过扩增单链重叠寡核苷酸池，将所有用于分析PAM和间隔区基序的特异性的靶文库克隆到期望的克隆位点中。用于克隆的线性化骨架通过PCR扩增产生，重叠部分与插入片段扩增子相容，并且以dpnI消化来消除亲本载体污染。将线性化骨架和插入片段池经由Gibson组装来克隆(根据制造商的方案，使用Gibson组装主混合物或NEBuilder HiFi DNA组装试剂盒)。使用漂浮在培养皿中的去离子水上的0.025μm透析膜将每个Gibson组装物的一半脱盐30min。将此用于转化大肠杆菌10G超级(supreme)感受态细胞，并在LB中恢复1小时。将1％的恢复的转化物(10μL)用于基于稀释的铺板，以估计每个克隆反应的CFU和文库覆盖率。如果CFU计数<10X文库尺寸，则重复克隆以确保完全覆盖期望的序列空间。将剩余的恢复体积转移至含有100μg/mL羧苄青霉素的25mL过夜培养，对克隆文库的复制维持选择压力。

过夜回收后，从每个文库克隆反应中取出2×1mL等分试样，并以甘油储备液储存。使剩余的23mL培养物沉淀，并且用于使用Qiagen Plasmid Plus Midi试剂盒来提取质粒DNA。在后续转化中使用该DNA产生了所呈现的数据。

用于gRNA消耗研究的感受态细胞制备

为了制备用于gRNA消耗的感受态细胞，将编辑质粒引入大肠杆菌MG1655中。该编辑质粒包含感兴趣的温度诱导型RNA引导性核酸酶(RGEN)、阿拉伯糖诱导型λRED操纵子和氯霉素抗性标志物。过夜生长后，然后将包含饱和RGEN的细胞系以1/100稀释度引入500mL振荡培养瓶(baffled shake flask)中的250mL LB+25μg/mL氯霉素中。使接种的培养物生长至0.5-0.8OD，并将其转移至42℃的振荡水浴中以诱导RGEN表达。在42℃诱导后，将细胞放置于冰上10min。然后将细胞用100mL ddH₂O或10％甘油洗涤3X。在最终洗涤步骤后，将细胞重悬在2.5mL(或总培养物体积的1/100)的10％甘油中，并等分为200μL的份储存于-80℃。

gRNA消耗方法

每个gRNA消耗实验均使用单个200μL等分试样的包含RGEN的感受态细胞来进行。将该等分试样的细胞分配到冷的2cm间隙电击杯中，并使用Nepagene系统进行电穿孔。使用2400V转移脉冲和20V-150V脉冲混合进行电穿孔。如实验文件夹中描述的，每次转化用50ng-500ng期望的文库来进行。恢复2小时后，将1％的转化物进行点式铺板(spot plate)以确定转化效率(即总CFU)，并使用剩余的转化体积来接种100mL快速生长培养基(outgrowth culture)。在不同时间点对培养物进行取样，取出1mL等分试样并使用来自Qiagen的QiaPrep Miniprep试剂盒进行DNA提取，以便于下游测序。

一般NGS制备及分析

将质粒小量制备物用实验索引引物扩增。将扩增子汇集以使预期的读段计数归一化，并凝胶纯化，然后加载到MiSeq/NextSeq仪器。然后，将加索引的fastq读段文件针对来自实验设计的预期变体进行100％同一性的映射，并记录计数以执行数据中可见的比较分析。将所有计数通过以下等式针对频率归一化：Vf＝(V计数)/(总计数)，其中Vf是特定索引的变体的频率，V计数是针对该变体所观察到的计数，并且总计数是遍布全部实验索引观察到的总计数。

数据分析和消耗计算。

使用以下等式将消耗评分(或绝对适应度评分)计算为log2消耗评分：W＝log2(Fx,f/Fx,i)；其中，Fx,f是盒X在最终时间点的频率，并且Fx,i是盒X的初始频率，并且W是每个变体的绝对适应度。频率通过将每个变体的读取计数除以总实验计数来确定，所述总实验计数包括因过滤而丢失的计数。每次选择均以一式两份来进行，并使用两次测量的计数加权平均值如下推断每个突变的平均适应度评分：W_平均＝(Σ^N _i＝1计数_i*W_i)/(Σ^N _i＝1计数_i)。注意，当计算的值为负时，计算出的评分被称为消耗评分，但是如果计算的值为正，它也可以被称为富集评分。

使用这些评分对各突变在所研究的不同选择压力下的适应度贡献进行排序和评估。对于所有选择，提供了对于同义突变体的平均绝对适应度评分作为对平均生长率的综合度量。如果突变体富集为至少野生型值的μ±2*ζ(即，假设为正态分布，P＝0.05)，则认为绝对富集评分是显著的。报道每个选择的平均值和显著性阈值。对每个选择进行至少两次重复，并在重复实验中对于每个分析的纳入应用截止阈值10。

在一些情况下，将数据针对NRRN PAM对照文库数据或其他非靶对照文库数据进行归一化。

图21A示出了阻抗反映了用SOP感受态细胞和固定量的DNA的情况下每个孔的转化体的数目。图21B描绘了Ec110(4次重复)、Ec83*(5次重复)和Ec78*(2次重复)的计数加权平均消耗评分的比较。对这些扩增子进行测序并将3'-PAM用作样品条形码。图22A示出了输入EC110对照质粒和EC110对照质粒在快速生长15小时后的计数几乎相同。图22B示出了EC110对照质粒在15小时和20小时的液体快速生长后的计数几乎相同，这证明了输入质粒被稳定维持。

实施例12.用于鉴定MAD7 PAM和MAD2 PAM的pPAM测定

使用上文描述的pPAM质粒消耗测定和数据分析方法确定了MAD2和MAD7的PAM偏好。如上文描述的，计算MAD7(图23A)和MAD2(图23B)两者在20小时对多种PAM的消耗评分。消耗或减少的PAM是那些能够被核酸酶与gRNA的复合物识别并因此裂解的PAM。从左至右分别示出了两种酶的偏好PAM位点。MAD2和MAD7两者均具有对NYYN PAM的偏好，但一些NYYNPAM比其他的作用更佳(图23A和图23B)。进一步表征了所选MAD7 PAM质粒的编辑效率与切割效率(图23C)。

实施例13.基于合成质粒的脱靶(SPOT)测定设计

基于合成质粒的脱靶(SPOT)靶文库是通过取长度为20个核苷酸的个体间隔区序列并将PAM序列的子集附接至任一侧来设计的。在一些实验中，在每个靶的5'侧附接YTTNPAM并在3'侧附接NGG PAM，从而产生YTTN-间隔区N＝20-NGG(SEQ ID NO:377)形式。根据官方IUPAC命名法，Y＝C或T；并且N＝A、C、T或G。对于每个靶在初始实验中测试了8种5'PAM-3'PAM对的组合，针对每个5'PAM与每个3'PAM的一个取样检验两次。具体地，产生并测试了以下5'PAM-3'PAM组合：TTTA-AGG(SEQ ID NO:378)；TTTC-CGG(SEQ ID NO:379)；TTTG-GGG(SEQ ID NO:380)；TTTT-TGG(SEQ ID NO:381)；CTTA-AGG(SEQ ID NO:382)；CTTC-CGG(SEQID NO:383)；CTTG-GGG(SEQ ID NO:384)；和CTTT-TGG(SEQ ID NO:385)，其中每个PAM组合之间为20个核苷酸的间隔区。尽管在本实验中仅测试了代表性数目的组合，但是应当理解，也可以测试每一种可能的5'-YTTN-N＝20-NGG-3'(SEQ ID NO:377)PAM组合。然后将具有不同PAM组合的靶间隔区的集合用作模板来设计遍布整个间隔区序列的点突变。靶间隔区中的突变文库的设计由每个PAM-间隔区序列和内部对照的四个不同突变集合组成。

第一突变文库是由1bp、2bp、3bp或4bp的连续错配组成的扫描错配文库，其中每个错配是野生型序列的互补核苷酸。制备了沿间隔区序列的全长的各种可能的1bp、2bp、3bp和4bp连续突变。

第二突变文库是由1bp、2bp、3bp或4bp的连续缺失组成的扫描缺失文库。制备了沿间隔区序列的全长的各种可能的1bp、2bp、3bp和4bp连续缺失。

第三突变文库是单个插入文库，其中在间隔区中的每个位置进行单个碱基插入。在一些实验中，每个1bp的插入通过直接复制插入位点的5'核苷酸来进行。其他插入文库设计包括直接复制插入位点的3'核苷酸，或者通过产生各种可能的核苷酸插入变体，例如，个体变体在间隔区中的每个位置插入了A、T、C和G中之一。

第四突变文库是随机诱变文库，其中2bp-5bp位置被随机突变以产生接近生物学上最相关种类的多样性的多种多样的突变序列。这些2bp-5bp的突变不需要是连续的，并且因此在这些突变的核苷酸之间通常具有间插的非突变核苷酸或野生型核苷酸。已经发现这种非连续的随机突变在生物系统中是常见的。

与pPAM文库一样，将SPOT序列克隆到包含与靶文库相匹配的间隔区的gRNA载体中，以产生自身靶向型gRNA载体。扩增寡核苷酸池并克隆到包含与靶文库相匹配的间隔区的gRNA载体中，以产生由于质粒在选择性压力下的切割和丢失而在竞争性生长条件下将会被消耗的自身靶向型gRNA载体。将侧接8种不同间隔区序列的每一个的8种选择的5'-3'PAM组合克隆到包含被设计成与靶匹配的gRNA的载体中。

使用SPOT测定，体内消耗测定是可能的，与核糖核蛋白复合物的产生无关。通过多种突变文库设计可选方案，该测定还允许用系统性脱靶设计进行独特的脱靶分析。SPOT测定的另外的优点包括更受控的脱靶候选物的变化，该测定可以用于比较不同的PAM结构，并且该测定可以与上文描述的pPAM文库测定组合或混合。

其他脱靶测定，诸如位点测序(Site-Seq)、BLISS、Digenome测序(Digenome-Seq)或循环测序(Circle-Seq)从哺乳动物实验中发掘切割位点并根据深度测序报告具有NHEJ修复效率的脱靶序列。使用这些其他测定，大多数研究显示出大于3bp的随机错配的脱靶效应。

实施例14.脱靶表征

使用上文描述的基于合成质粒的脱靶(SPOT)测定分析了MAD7和MAD2的脱靶效应。首先，使用参考核酸酶MAD7或MAD2测试了具有不同侧翼PAM位点的八种靶的裂解活性。然后将来自上文的选择的靶用作产生靶内多种随机突变的文库的起点。在该示例测定中，在扩增靶和侧翼PAM区时产生了171bp的扩增子，考虑了具有内联索引(inline index)的87bp读段或具有12bp索引读段的46bp读段。

图24A-C中示出了来自示例性实验的数据。靶包含指示数目的随机突变(r3＝3bp；r4＝4bp；r5＝5bp)。使用Cas9来产生图24A中的消耗图，使用MAD7来产生图24B中的消耗图，并且使用MAD2来产生图24C中的消耗图。

如将参考蛋白消耗图与MAD7和MAD2消耗图进行比较时可见的，参考蛋白遍布r3、r4和r5文库的每一种具有高得多的脱靶切割事件。MAD7和MAD2两者均示出了对于随机突变较少的脱靶切割事件，并且对于5bp随机错配几乎没有脱靶切割事件。这些脱靶切割事件或无这些脱靶切割事件与PAM或靶序列无关。

实施例15.组合的PAM确定和脱靶分析

通过将上文描述的pPAM测定和SPOT测定组合(这两种测定组合在本文中被称为Inscripta测定)，测试了在组合实验中表征PAM特异性和脱靶效应的能力(例如，图25)。在示例Inscripta测定中，在扩增靶和侧翼PAM区时产生了171bp的扩增子，考虑了具有12bp索引读段的46bp读段。选择靶向序列以对间隔区序列统一地检验宽范围的解链温度值。

使用Inscripta测定来快速表征10种酶的PAM特异性和脱靶率。MAD7消耗在20小时消耗(MAD7)与24小时消耗(MAD7.24)之间大体上相同。质粒输入与Ec110类似，Ec110是包含与上文描述的工程化载体骨架类似的对照质粒但缺乏核酸酶编码基因的大肠杆菌菌株。对于组成型启动子Ec78*(MAD2)与Ec113，MAD2消耗保持相同，Ec113是包含如上文描述的工程化载体骨架的大肠杆菌菌株，该工程化载体骨架包含由组成型proA启动子而不是pL诱导型启动子系统控制的编码MAD7核酸酶的基因。使用MAD7或MAD2和多靶文库观察到强消耗，并且用MAD4也观察到多靶文库中的强消耗。用MAD5观察到与MAD2、MAD7和MAD4相比较少的消耗。

基于这些数据，选择MAD7、MAD2、MAD4和MAD5进行进一步表征。使用pPAM测定数据分析了每一种的PAM特异性。图26A和图26B中描绘了测试的PAM TTN和CTTN的消耗图，并且图26C中描绘了PAM RTTN和YCCN的消耗图。

图27A-图27B中还描绘了多种PAM的MAD7消耗评分，并且这些数据表明靶序列的GC含量可以影响消耗活动的规模，表明裂解和靶向可以基于PAM和靶序列的选择来调节。

图28A-图29B中还描绘了多种PAM的MAD2消耗评分，并且这些数据表明靶序列的GC含量可以影响消耗活动的规模，表明裂解和靶向可以基于PAM和靶序列的选择来调节。例如，用相当于靶8的GC含量，PAM TTTA显示出非常强的消耗。

图29A-图29B中还描绘了多种PAM的MAD4消耗评分，并且这些数据表明靶序列的GC含量可以影响消耗活动的规模，表明裂解和靶向可以基于PAM和靶序列的选择来调节。MAD4也显示出对靶8的高消耗评分，在所有测试的靶中，靶8具有最高的GC含量。

图30A-图30B中还描绘了多种PAM的MAD5消耗评分。这些数据表明MAD5对测试的靶序列和PAM序列的组合都不产生强消耗。

还表征了MAD7、MAD2和MAD4的脱靶切割效应。图31A-图31C中描绘了来自使用多种测试靶的突变体文库的示例性SPOT测定的数据。在许多测试的靶类别中，MAD4显示出比MAD2和MAD7甚至更小的脱靶活性，如图32A-图32H中描绘的示例性数据指示的。指示了每个图中描绘的突变体文库，并且这些突变体文库包括随机突变(图32A和图32E)、缺失突变(图32B和图32F)、错配突变(图32C和图32G)或插入突变(图32D和图32H)。图32I-图32P描绘了来自使用MAD7和所指示的突变文库的实验的消耗评分，所述突变文库在每个被测试的靶序列中指示位置处包含突变。这些数据组合了在使用MAD7的实验中使用的所有YTTN PAM。对于图32I-图32P，计算来自5'-NGGN PAM的非T，并且wt(野生型)是靶中没有突变的对照，以及“posn”是突变在靶序列中的位置。图32I-图32J描绘了来自1bp扫描突变文库(m1)的数据。图32K-图32L描绘了来自2bp扫描突变文库(m2)的数据，该突变文库(m2)具有始于指示位置的两个连续突变。图32M-图32N描绘了来自3bp扫描突变文库(m3)的数据，该突变文库(m3)具有始于指示位置的三个连续突变。综合起来，这些数据表明位置1-7的种子序列是重要的，因为该区域中的突变往往破坏MAD7裂解活性，如由这些位置中的突变的降低的消耗评分所表明的。图32O-图32P描绘了2bp扫描突变文库(m2)的数据，并描绘了来自通过PAM序列组织的一个靶的数据。综合起来，这些数据表明，一些PAM序列不如其他的特异，这表明了PAM强度和靶特异性之间的关系。例如，TTTA PAM似乎支持以比所测试的其余组合高的比率切割具有2bp串联错配的模板，例如当与CTTT PAM相比时。这些观察结果表明，应当在靶选择中考虑PAM强度的因素。

实施例16.相容的引导RNA序列的表征

测试了包含不同支架序列的多种引导RNA，以表征哪些支架序列与测试的MAD核酸酶相容。测试了来自所讨论的MAD核酸酶内源CRISPR阵列的支架，以及源自异源或正交MAD核酸酶系统的异源支架序列。图33描绘了被测试的多种MAD核酸酶与引导RNA支架的组合的示例性示意图，以及用于测试被测试的MAD核酸酶(例如，MAD#)与引导RNA支架序列(例如，crMAD#)的相容性的构建体。该构建体包含驱动引导RNA表达的启动子，该引导RNA包含支架序列(cr重复)和靶向序列(例如，galT45间隔区)。该构建体还包含被引导RNA的靶向序列靶向的靶序列(例如，galT45，24bp)。靶序列的侧翼是3bp-4bp的PAM区。每个构建体还包含用于鉴定支架序列的独特序列ID或条形码。例如，鉴定可以在使用侧接条形码/独特ID和靶序列的区域的引物扩增该区域后进行，如图33中指示的。在一些实施例中，扩增产生176bp的扩增子，这考虑了使用V3HIGH Throughput 1x75 bp试剂盒时具有12bp索引读段的50bp读段。

在示例性实验中，将12种不同的MAD酶与10种不同的支架序列进行测试，随后对由此产生的扩增子进行单次下一代测序运行(NextSeq Run)。

使用该测定来测试特定MAD酶与多种支架序列的相容性。图34A和图34B中描绘了一些测试的支架序列(crMAD#)的一级结构和二级结构。图34A描绘了来自所指示的MAD系统的crRNA支架序列的比对。图34B描绘了来自所指示的MAD crRNA的假结区域的一部分。图34A-图34B中的这些比对表明了这些比对的MAD crRNA的假结区域的强的序列保守性和结构保守性。这些比对还表明，重复区5'端(如图34A中标出的)(尽管不一定是该序列)的存在可能与裂解活性不太相关。指示了来自所选MAD crRNA的共有序列的序列变异；例如，MAD3crRNA中最常绘出的5'核苷酸是C，而相对地共有序列中是U。作为另外的实例，在共有序列中，环结构中的第二个核苷酸是A，而替代地：1)在MAD10 crRNA中是U，2)在MAD4 crRNA、MAD7 crRNA和MAD11 crRNA中是G，3)在MAD25crRNA中是C，以及4)在MAD3 crRNA中是CU。作为另外的实施例，共有序列的环结构中的第三个核苷酸是U，而替代地在MAD5 crRNA中是G。如示出的，对于一些MAD crRNA，环序列的长度为4个核苷酸，同时在其他MAD crRNA(例如，MAD3 crRNA)中，环序列的长度为4个核苷酸。

图35A-图35C中分别描绘了来自该测定的对于MAD7、MAD2和MAD4的示例性结果。以下列出了来自各数据集的一些观察结果。

如图35A中描绘的，MAD7似乎与大多数具有4bp环的测试的支架序列相容。UAGU环序列当与较弱的PAM序列偶联时的裂解活性似乎也稍低。如通过对应的消耗评分指示的，MAD7活性广泛遍布于一系列PAM序列。综合起来，这些结果表明MAD7活性可以通过对支架序列工程化来调节。图36A-图36B中描绘了来自这些MAD7实验的另外的数据，其示出了MAD7与其天然支架序列和包含不同茎环序列的异源支架序列的相容性的比较。图37中描绘了显示MAD7与具有不同茎环序列的多种支架序列的相容性的另外的数据。如该数据示出的，PAM上游的-1位置序列似乎是重要的，并且-1位置处的第一个“C”核苷酸对消耗产生不利影响。在-1位置处似乎存在以下偏好：G>T>A>C，对于CTTT PAM的情况除外，在该情况下，偏好似乎是：A>G>T>C。MAD7和MAD2似乎略微不喜欢富含嘧啶(T/C)的间隔区序列，特别是在种子区中，而对富含嘌呤(A/G)的间隔区序列则偏好略高。在PAM的上游具有C似乎也是不利的。

如图35B中描绘的，MAD2似乎与大多数测试的具有4bp环的支架相容。还观察到了双峰PAM识别。图36C-图37D中描绘了来自这些实验的另外的数据，其示出了MAD2与其天然支架序列和包含不同茎环序列的异源支架序列的相容性的比较。

如图35C中描绘的，MAD4似乎与大多数测试的具有4bp环的支架相容。UAGU环序列当与较弱的PAM序列偶联时的裂解活性似乎也稍低。PAM识别呈现为略微双峰。图36E-图36F中描绘了来自这些实验的另外的数据，其示出了MAD4与其天然支架序列和包含不同茎环序列的异源支架序列的相容性的比较。

实施例17.在酵母中表征MAD7活性

使用CAN1选择测定来测试多种酵母MAD7盒结构。在一些示例性实验中，测试了具有不同同源臂取向的11个不同的盒对靶序列的编辑效率。通常，将酵母细胞用所讨论的盒之一和表达MAD7酶的载体转化，该载体是针对在酿酒酵母中的表达而被密码子优化的。将转化的细胞针对刀豆氨酸铺板以进行选择。只有成功被编辑的细胞才能在刀豆氨酸选择下存活，表明MAD7与盒的组合成功实现了期望的编辑。然后从选择的细胞提取DNA，并通过消化或测序来确认期望的编辑。表6中提供了关于测试的盒的细节。在表6中，加下划线的核苷酸表示潜在的问题序列，由于五-T基序在真核生物中充当转录终止信号的潜能，并且因此可以引起表达问题。因此，通过去除一个或更多个核苷酸或将所述一个或更多个核苷酸替换成加粗斜体表示的核苷酸来改变多种测试的接头序列中的这些潜在的问题序列。表7中总结了来自示例性实验的数据。这些数据表明，36bp的T至C-F型盒是优选的取向和组织。

表6.

表7.

还测试了另外的盒布置，诸如表8中描绘的那些。在该轮实验中，对盒参数进行过滤，使得间隔区(靶向序列)中不存在TTTTT，并且使得同源臂或间隔区(靶向序列)中不存在多于6bp的同聚区域。

表9总结了另外的实验中的选择的盒的编辑效率，其显示出25％-100％的范围的基于预期突变的编辑效率，并且表10总结了指示的盒上包含的序列和其他实验细节，包括被靶向的WT基因序列和用所讨论的MAD酶与crRNA的复合物进行DNS裂解后插入的突变序列。

表8.

表9.

	盒L	盒M	盒N	盒O
					菌株	1	1	1	2
编辑％(线路(pipeline))	8％	8％	ND	9％
					预期突变/读段	7	8	6	5
经编辑的读段数/读段总数	7/85	22/55	20/119	6/64

表10.

实施例18.哺乳动物靶序列的体外和体内裂解。

使用MAD7靶向并裂解哺乳动物细胞的靶。产生了大肠杆菌或人类密码子优化的MAD7表达构建体(例如，图38A)。简言之，构建体I69包含与大肠杆菌密码子优化的MAD7序列可操作地连接的hCMV启动子，该MAD7序列还包含5'(N-末端)V5表位标签和核定位信号(NLS)，并且该构建体还包含驱动GFP报道物和杀稻瘟素抗性基因表达的EF1α启动子。构建体I19与I69类似，不同之处在于NLS序列和V5序列位于MAD7序列的3'端(C-末端)上。I9构建体与I69序列类似，不同之处在于MAD7序列是针对在人类细胞而不是大肠杆菌中的表达被密码子优化的。构建体I18与I19构建体类似，不同之处在于MAD7序列是针对在人类细胞而不是大肠杆菌中的表达被密码子优化的。如图38B中示出的，使用了两种引导RNA序列。

图39A-图39B描绘了两个靶基因中的靶位点，PPIB(图39A)和DNMT3B(图39B)。图39C-图39D总结了PAM序列和被指示的引导RNA序列靶向的靶序列，以及靶序列的CG含量百分比和被靶向的DNA链。

将各MAD7表达载体单独地转染到哺乳动物细胞中，并且然后收集细胞裂解物。将细胞裂解物通过蛋白印迹分析来评估以确认MAD7表达。还将细胞裂解物用于体外切割测定，以评估MAD7蛋白功能，这将指示在哺乳动物细胞中表达的蛋白的正确表达和折叠。该测定允许评估MAD7的表达和裂解能力，而没有细胞机器矫正裂解事件或由于靶序列被染色质致密化而阻断裂解事件的可能性。运行裂解测定后，通过凝胶电泳使裂解物分开，并使用ImageJ软件和光密度测定法进行分析，以确定裂解％(切割％)，裂解％通过将裂解产物强度除以总条带强度来计算。

图40示出了来自示例性实验的使用I18构建体对指示的PPIB和DNMT3B靶序列的裂解百分比(切割效率)的定量。在体外观察到42-mer和56-mer引导RNA序列之间裂解差异很小，因此在图40中绘制了两者的平均值。使用该测定，对于PPIB，10个被测试的引导RNA中有8个导致了靶向裂解，而gRNA-14和gRNA-25未导致可检测到的裂解。靶向PPIB的gRNA-15导致了有效的裂解，但是由于所产生的裂解产物的尺寸小(与未切割的之间相差约70bp)而难以测量，因此估计裂解百分比为>90％。使用该测定，对于DNMT3B，10个被测试的引导RNA中有9个导致了靶向裂解，而gRNA-4未导致可检测到的裂解。靶向DNMT3B的gRNA-1导致了有效的裂解，但是由于所产生的裂解产物的尺寸小(与未切割的之间相差约70bp)而难以测量，因此估计裂解百分比为>90％。

图41示出了对哺乳动物细胞中插入/缺失(插入或缺失)形成的定量。简言之，将MAD7核酸酶表达载体(I9或I18；参见图38A)和合成的引导RNA共转染到HEK293T细胞中。约72小时的孵育时间后，通过检测插入/缺失形成来评估体内裂解。不希望受理论束缚，在一些情况下，在裂解发生后，裂解的DNA通过非同源末端连接(NHEJ)机制被修复，这通常导致一个或更多个核苷酸被插入裂解位点或从裂解位点缺失。这些插入和/或缺失事件被称为插入/缺失。使用T7EI测定使用DNA错配检测测定来检测插入/缺失。该错配测定检测预期的未改变序列及在裂解和NHEJ修复后包含插入/缺失的改变的序列之间的错配。在一些情况下，56-mer引导RNA导致了与42-mer引导RNA相比更高的插入/缺失形成。通过该方法，对于PPIB，3个引导RNA中的2个导致了可检测到的裂解，而对于DNMT3B基因靶，3个引导RNA中的3个导致了可检测到的裂解。使用大肠杆菌密码子优化的MAD7核酸酶的其他两个构建体也显示出与人密码子优化的构建体相对相同效率的插入/缺失形成(数据未示出)。总体上，这些数据示出了MAD7在哺乳动物细胞中的成功体内裂解活性。

综合起来，这些数据表明MAD7在哺乳动物细胞中被有效地表达和折叠，并且在体外和体内对哺乳动物靶序列有效地发挥作用。体外数据还表明，虽然较短的42-mer gRNA与较长的56-mer gRNA的切割一样有效，但是在测量哺乳动物细胞中的内源性插入/缺失形成时不一定观察到该结果。

实施例19.进一步表征MAD核酸酶

执行编辑筛选以进一步表征PAM对选择的MAD核酸酶的偏好。将galK基因用作该筛选的靶。来自这些数据中的一些值得注意的观察结果包括，使用GTTG PAM和TTTC PAM观察到了MAD7的编辑，并且当使用TTTC PAM时观察到了MAD2的编辑。在这些实验中观察到了一些细胞毒性。表11总结了来自这些实验的结果。

表11.

MAD核酸酶	经切割的位点	经编辑的位点	经编辑的细胞CFU计数
				MAD2	4/7	2/7	＞1e5
MAD4	5/7	0/7	0
				MAD7	5/7	2/7	1e4

使用MAD2、MAD4和MAD7重复PAM筛选测定。根据该测定的实验设计，白色菌落反映由于包含突变的编辑盒的同源重组而导致的终止密码子插入，而红色菌落将指示未插入终止密码子。MAD2显示出与先前描述的PAM特异性数据一致的编辑。MAD4显示出高细胞毒性并且具有与MAD2转化细胞和MAD7转化细胞相比较少的可观察到的菌落。MAD7显示出与先前的PAM特异性数据一致的编辑结果，并且显示出比MAD2更宽的编辑效率。

尽管细胞存活率低，但这些数据显示出超过90％的编辑效率。表12总结了来自这些实验的结果。这些数据表明，与MAD2(25倍)或MAD7(101倍)相比，MAD4的PAM位点之间存在较低的变异性(～2.3倍)。该倍数变化计算如下：倍数差异＝最大值(经编辑的CFU)/最小值(经编辑的CFU)。

表12.

虽然本发明通过许多不同形式的实施方案的公开内容来满足，但是如结合本发明的优选实施方案详细描述的，应理解本公开内容应被认为是对本发明的原理的示例而不意图将本发明局限于本文说明和描述的具体实施方案。本领域技术人员可以作出不脱离本发明的精神的许多变化。本发明的范围将由所附权利要求书和它们的等同物判断。摘要和标题不应被解释为限制本发明的范围，因为它们的目的是使适当的机构以及一般公众能够迅速确定本发明的一般性质。

Claims

1.一种修饰细胞基因组中的靶区域的方法，所述方法包括：

(a)使细胞与以下接触：

核酸引导性核酸酶，所述核酸引导性核酸酶包含SEQ ID NO:7的氨基酸序列；

工程化引导核酸，所述工程化引导核酸能够与所述核酸引导性核酸酶复合；和

编辑序列，所述编辑序列编码与所述靶区域互补的、相对于所述靶区域具有序列改变的核酸；以及

(b)允许所述核酸酶、引导核酸和编辑序列在所述细胞基因组的靶区域中创建基因组编辑。

2.如权利要求1所述的方法，其中所述工程化引导核酸和所述编辑序列作为单一核酸提供。

3.如权利要求2所述的方法，其中所述单一核酸还在前间区序列邻近基序(PAM)位点中包含突变。

4.如权利要求1所述的方法，其中所述核酸引导性核酸酶由与SEQ ID NO:47或SEQ IDNO:203-222具有至少85％同一性的核酸编码。

5.如权利要求1所述的方法，其中所述核酸引导性核酸酶由与SEQ ID NO:133或SEQ IDNO:183-202具有至少85％同一性的核酸编码。

6.如权利要求1所述的方法，其中所述核酸引导性核酸酶由与SEQ ID NO:153或SEQ IDNO:243-262具有至少85％同一性的核酸编码。

7.如权利要求1所述的方法，其中所述核酸引导性核酸酶由与SEQ ID NO:223-242具有至少85％同一性的核酸编码。

8.如权利要求1所述的方法，其中所述工程化引导核酸包括SEQ ID NO:172-182中的任一个。

9.如权利要求1所述的方法，其中所述工程化引导核酸包含环序列，所述环序列包含以下序列：UAUU、UUUU、UGUU、UCUU、UCUUU或UAGU。

10.一种核酸引导性核酸酶系统，所述核酸引导性核酸酶系统包括：

(a)核酸引导性核酸酶，所述核酸引导性核酸酶包含SEQ ID NO:7的氨基酸序列；

(b)工程化引导核酸，所述工程化引导核酸能够与所述核酸引导性核酸酶复合；和

(c)编辑序列，所述编辑序列相对于细胞基因组中的靶区域的序列具有序列改变；

其中所述系统通过所述核酸酶、所述工程化引导核酸和所述编辑序列促成在所述细胞基因组的靶区域中产生基因组编辑。

11.如权利要求10所述的系统，其中所述核酸引导性核酸酶由与SEQ ID NO:47或SEQID NO:203-222具有至少85％同一性的核酸编码。

12.如权利要求10所述的系统，其中所述核酸引导性核酸酶由与SEQ ID NO:133或SEQID NO:183-202具有至少85％同一性的核酸编码。

13.如权利要求10所述的系统，其中所述核酸引导性核酸酶由与SEQ ID NO:153或SEQID NO:243-262具有至少85％同一性的核酸编码。

14.如权利要求10所述的系统，其中所述核酸引导性核酸酶由与SEQ ID NO:223-242具有至少85％同一性的核酸编码。

15.如权利要求10所述的系统，其中所述核酸引导性核酸酶是针对待编辑的细胞被密码子优化的。

16.如权利要求10所述的系统，其中所述工程化引导核酸包括SEQ ID NO:172-182中的任一个。

17.如权利要求10所述的系统，其中所述工程化引导核酸包含环序列，所述环序列包含以下序列：UAUU、UUUU、UGUU、UCUU、UCUUU或UAGU。

18.如权利要求10所述的系统，其中所述工程化引导核酸和所述编辑序列作为单一核酸提供。

19.如权利要求18所述的系统，其中所述单一核酸还在前间区序列邻近基序(PAM)位点中包含突变。

20.一种组合物，所述组合物包含：

(a)核酸引导性核酸酶，所述核酸引导性核酸酶包含SEQ ID NO:7的氨基酸序列；和

(b)工程化引导核酸，所述工程化引导核酸能够与所述核酸引导性核酸酶复合，其中所述工程化引导核酸包含环序列，所述环序列包含以下序列：UAUU、UUUU、UGUU、UCUU、UCUUU或UAGU。

21.如权利要求20所述的组合物，其中所述工程化引导核酸是异源工程化引导核酸。

22.如权利要求20所述的组合物，其中所述工程化引导核酸包括SEQ ID NO:172-182中的任一个。

23.如权利要求20所述的组合物，其中所述核酸酶由为了在来自特定生物体的细胞中使用而被密码子优化的核酸序列编码。

24.如权利要求22所述的组合物，其中所述核酸序列是针对大肠杆菌(E.coli)被密码子优化的。

25.如权利要求22所述的组合物，其中所述核酸序列是针对酿酒酵母(S.cerevisiae)被密码子优化的。

26.如权利要求22所述的组合物，其中所述核酸序列是针对哺乳动物细胞被密码子优化的。

27.如权利要求22所述的组合物，其中所述核酸序列是针对人类细胞被密码子优化的。

28.如权利要求22所述的组合物，其中所述核酸序列是针对植物细胞被密码子优化的。

29.一种核酸引导性核酸酶系统，所述核酸引导性核酸酶系统包括：

(b)异源工程化引导核酸，所述异源性的工程化引导核酸能够与所述核酸引导性核酸酶复合。

30.如权利要求29所述的系统，所述系统还包括(c)编辑序列，所述编辑序列相对于靶区域的序列具有序列改变。

31.如权利要求30所述的系统，其中，所述靶向系统通过所述核酸酶、所述异源工程化引导核酸和所述编辑序列促成在靶区域中产生编辑。

32.如权利要求29所述的系统，其中所述工程化引导核酸包含环序列，所述环序列包含以下序列：UAUU、UUUU、UGUU、UCUU、UCUUU或UAGU。

33.如权利要求29所述的系统，其中所述工程化引导核酸包括SEQ ID NO:172-182中的任一个。

34.如权利要求29所述的系统，其中所述核酸酶由为了在来自特定生物体的细胞中使用而被密码子优化的核酸序列编码。

35.如权利要求30所述的系统，其中所述核酸序列是针对大肠杆菌被密码子优化的。

36.如权利要求30所述的系统，其中所述核酸序列是针对酿酒酵母被密码子优化的。

37.如权利要求30所述的系统，其中所述核酸序列是针对哺乳动物细胞被密码子优化的。

38.如权利要求30所述的系统，其中所述核酸序列是针对人类细胞被密码子优化的。

39.如权利要求30所述的系统，其中所述核酸序列是针对植物细胞被密码子优化的。

40.一种修饰细胞基因组中的靶区域的方法，所述方法包括：

(a)使细胞与以下接触：

核酸引导性核酸酶，所述核酸引导性核酸酶包括SEQ ID NO:2的氨基酸序列；

编辑序列，所述编辑序列编码与所述靶区域互补的、相对于所述靶区具有序列改变的核酸；以及

41.如权利要求40所述的方法，其中所述工程化引导核酸和所述编辑序列作为单一核酸提供。

42.如权利要求41所述的方法，其中所述单一核酸还在前间区序列邻近基序(PAM)位点中包含突变。

43.如权利要求40所述的方法，其中所述核酸引导性核酸酶由与SEQ ID NO:42或SEQID NO:283-302具有至少85％同一性的核酸编码。

44.如权利要求40所述的方法，其中所述核酸引导性核酸酶由与SEQ ID NO:128或SEQID NO:263-282具有至少85％同一性的核酸编码。

45.如权利要求40所述的方法，其中所述核酸引导性核酸酶由与SEQ ID NO:148或SEQID NO:323-342具有至少85％同一性的核酸编码。

46.如权利要求40所述的方法，其中所述核酸引导性核酸酶由与SEQ ID NO:303-322具有至少85％同一性的核酸编码。

47.如权利要求40所述的方法，其中所述工程化引导核酸包括SEQ ID NO:172-182中的任一个。

48.如权利要求40所述的方法，其中所述工程化引导核酸包含环序列，所述环序列包含以下序列：UAUU、UUUU、UGUU、UCUU、UCUUU或UAGU。

49.一种核酸引导性核酸酶系统，所述核酸引导性核酸酶系统包括：

(a)核酸引导性核酸酶，所述核酸引导性核酸酶包含SEQ ID NO:2的氨基酸序列；

其中所述系统通过所述核酸酶、所述工程化引导核酸和所述编辑序列促成在所述细胞基因组中的靶区域中产生基因组编辑。

50.如权利要求49所述的系统，其中所述核酸引导性核酸酶由与SEQ ID NO:42或SEQID NO:283-302具有至少85％同一性的核酸编码。

51.如权利要求49所述的系统，其中所述核酸引导性核酸酶由与SEQ ID NO:128或SEQID NO:263-282具有至少85％同一性的核酸编码。

52.如权利要求49所述的系统，其中所述核酸引导性核酸酶由与SEQ ID NO:148或SEQID NO:323-342具有至少85％同一性的核酸编码。

53.如权利要求49所述的系统，其中所述核酸引导性核酸酶由与SEQ ID NO:303-322具有至少85％同一性的核酸编码。

54.如权利要求49所述的系统，其中所述核酸引导性核酸酶是针对待编辑的细胞被密码子优化的。

55.如权利要求49所述的系统，其中所述工程化引导核酸包括SEQ ID NO:172-182中的任一个。

56.如权利要求49所述的系统，其中所述工程化引导核酸包含环序列，所述环序列包含以下序列：UAUU、UUUU、UGUU、UCUU、UCUUU或UAGU。

57.如权利要求49所述的系统，其中所述工程化引导核酸和所述编辑序列作为单一核酸提供。

58.如权利要求57所述的系统，其中所述单一核酸还在前间区序列邻近基序(PAM)位点中包含突变。

59.一种组合物，所述组合物包含：

(a)核酸引导性核酸酶，所述核酸引导性核酸酶包含SEQ ID NO:2的氨基酸序列；和

60.如权利要求59所述的组合物，其中所述工程化引导核酸是异源工程化引导核酸。

61.如权利要求59所述的组合物，其中所述工程化引导核酸包括SEQ ID NO:172-182中的任一个。

62.如权利要求59所述的组合物，其中所述核酸酶由为了在来自特定生物体的细胞中使用而被密码子优化的核酸序列编码。

63.如权利要求62所述的组合物，其中所述核酸序列是针对大肠杆菌被密码子优化的。

64.如权利要求62所述的组合物，其中所述核酸序列是针对酿酒酵母被密码子优化的。

65.如权利要求62所述的组合物，其中所述核酸序列是针对哺乳动物细胞被密码子优化的。

66.如权利要求62所述的组合物，其中所述核酸序列是针对人类细胞被密码子优化的。

67.如权利要求62所述的组合物，其中所述核酸序列是针对植物细胞被密码子优化的。

68.一种核酸引导性核酸酶系统，所述核酸引导性核酸酶系统包括：

69.如权利要求68所述的系统，所述系统还包括(c)编辑序列，所述编辑序列相对于靶区域的序列具有序列改变。

70.如权利要求69所述的系统，其中，所述靶向系统通过所述核酸酶、所述异源工程化引导核酸和所述编辑序列促成在靶区域中产生编辑。

71.如权利要求68所述的系统，其中所述工程化引导核酸包含环序列，所述环序列包含以下序列：UAUU、UUUU、UGUU、UCUU、UCUUU或UAGU。

72.如权利要求68所述的系统，其中所述工程化引导核酸包括SEQ ID NO:172-182中的任一个。

73.如权利要求68所述的系统，其中所述核酸酶由为了在来自特定生物体的细胞中使用而被密码子优化的核酸序列编码。

74.如权利要求73所述的系统，其中所述核酸序列是针对大肠杆菌被密码子优化的。

75.如权利要求73所述的系统，其中所述核酸序列是针对酿酒酵母被密码子优化的。

76.如权利要求73所述的系统，其中所述核酸序列是针对哺乳动物细胞被密码子优化的。

77.如权利要求73所述的系统，其中所述核酸序列是针对人类细胞被密码子优化的。

78.如权利要求73所述的系统，其中所述核酸序列是针对植物细胞被密码子优化的。

79.一种修饰细胞基因组中的靶区域的方法，所述方法包括：

(a)使细胞与以下接触：

核酸引导性核酸酶，所述核酸引导性核酸酶包含SEQ ID NO:4的氨基酸序列；

(b)允许所述核酸酶、引导核酸和编辑序列在所述细胞基因组的靶区域中产生基因组编辑。

80.如权利要求79所述的方法，其中所述工程化引导核酸和所述编辑序列作为单一核酸提供。

81.如权利要求80所述的方法，其中所述单一核酸还在前间区序列邻近基序(PAM)位点中包含突变。

82.如权利要求79所述的方法，其中所述核酸引导性核酸酶由与SEQ ID NO:44或SEQID NO:722-741具有至少85％同一性的核酸编码。

83.如权利要求79所述的方法，其中所述核酸引导性核酸酶由与SEQ ID NO:130或SEQID NO:742-761具有至少85％同一性的核酸编码。

84.如权利要求79所述的方法，其中所述核酸引导性核酸酶由与SEQ ID NO:150或SEQID NO:762-781具有至少85％同一性的核酸编码。

85.如权利要求79所述的方法，其中所述核酸引导性核酸酶由与SEQ ID NO:782-801具有至少85％同一性的核酸编码。

86.如权利要求79所述的方法，其中所述工程化引导核酸包括SEQ ID NO:172-182中的任一个。

87.如权利要求79所述的方法，其中所述工程化引导核酸包含环序列，所述环序列包含以下序列：UAUU、UUUU、UGUU、UCUU、UCUUU或UAGU。

88.一种核酸引导性核酸酶系统，所述核酸引导性核酸酶系统包括：

(a)核酸引导性核酸酶，所述核酸引导性核酸酶包含SEQ ID NO:4的氨基酸序列；

89.如权利要求88所述的系统，其中所述核酸引导性核酸酶由与SEQ ID NO:44或SEQID NO:722-741具有至少85％同一性的核酸编码。

90.如权利要求88所述的系统，其中所述核酸引导性核酸酶由与SEQ ID NO:130或SEQID NO:742-761具有至少85％同一性的核酸编码。

91.如权利要求88所述的系统，其中所述核酸引导性核酸酶由与SEQ ID NO:150或SEQID NO:762-781具有至少85％同一性的核酸编码。

92.如权利要求88所述的系统，其中所述核酸引导性核酸酶由与SEQ ID NO:782-801具有至少85％同一性的核酸编码。

93.如权利要求88所述的系统，其中所述核酸引导性核酸酶是针对待编辑的细胞被密码子优化的。

94.如权利要求88所述的系统，其中所述工程化引导核酸包括SEQ ID NO:172-182中的任一个。

95.如权利要求88所述的系统，其中所述工程化引导核酸包含环序列，所述环序列包含以下序列：UAUU、UUUU、UGUU、UCUU、UCUUU或UAGU。

96.如权利要求88所述的系统，其中所述工程化引导核酸和所述编辑序列作为单一核酸提供。

97.如权利要求96所述的系统，其中所述单一核酸还在前间区序列邻近基序(PAM)位点中包含突变。

98.一种组合物，所述组合物包含：

(a)核酸引导性核酸酶，所述核酸引导性核酸酶包含SEQ ID NO:4的氨基酸序列；和

99.如权利要求98所述的组合物，其中所述工程化引导核酸是异源工程化引导核酸。

100.如权利要求98所述的组合物，其中所述工程化引导核酸包括SEQ ID NO:172-182中的任一个。

101.如权利要求98所述的组合物，其中所述核酸酶由为了在来自特定生物体的细胞中使用而被密码子优化的核酸序列编码。

102.如权利要求101所述的组合物，其中所述核酸序列是针对大肠杆菌被密码子优化的。

103.如权利要求101所述的组合物，其中所述核酸序列是针对酿酒酵母被密码子优化的。

104.如权利要求101所述的组合物，其中所述核酸序列是针对哺乳动物细胞被密码子优化的。

105.如权利要求101所述的组合物，其中所述核酸序列是针对人类细胞被密码子优化的。

106.如权利要求101所述的组合物，其中所述核酸序列是针对植物细胞被密码子优化的。

107.一种核酸引导性核酸酶系统，所述核酸引导性核酸酶系统包括：

108.如权利要求107所述的系统，所述系统还包括(c)编辑序列，所述编辑序列相对于靶区域的序列具有序列改变。

109.如权利要求108所述的系统，其中，所述靶向系统通过所述核酸酶、所述异源工程化引导核酸和所述编辑序列促成在靶区域中产生编辑。

110.如权利要求107所述的系统，其中所述工程化引导核酸包含环序列，所述环序列包含以下序列：UAUU、UUUU、UGUU、UCUU、UCUUU或UAGU。

111.如权利要求107所述的系统，其中所述工程化引导核酸包括SEQ ID NO:172-182中的任一个。

112.如权利要求107所述的系统，其中所述核酸酶由为了在来自特定生物体的细胞中使用而被密码子优化的核酸序列编码。

113.如权利要求112所述的系统，其中所述核酸序列是针对大肠杆菌被密码子优化的。

114.如权利要求112所述的系统，其中所述核酸序列是针对酿酒酵母被密码子优化的。

115.如权利要求112所述的系统，其中所述核酸序列是针对哺乳动物被细胞密码子优化的。

116.如权利要求112所述的系统，其中所述核酸序列是针对人类细胞被密码子优化的。

117.如权利要求112所述的系统，其中所述核酸序列是针对植物细胞被密码子优化的。