CN109688820A

CN109688820A - 用于生成条形码化组合文库的方法

Info

Publication number: CN109688820A
Application number: CN201780052145.8A
Authority: CN
Inventors: R·T·吉尔; 安德鲁·加斯特; 塔尼娅·伊丽莎白·瓦内克·利普斯科姆; 马塞洛·可利卡·巴萨洛; 拉姆齐·易卜拉欣·泽图恩
Original assignee: Inscript Co; Board Of Directors Of Colorado State University (body Corporate)
Current assignee: Inscript Co; Board Of Directors Of Colorado State University (body Corporate)
Priority date: 2016-06-24
Filing date: 2017-06-23
Publication date: 2019-04-26
Anticipated expiration: 2037-06-23
Also published as: AU2017280353A1; ES2915562T3; CN109688820B; US10017760B2; EP3474669B1; US10294473B2; JP2019518478A; CA3029254A1; EP3474669A4; LT3474669T; AU2017280353B2; US20180230460A1; DK3474669T3; WO2017223538A1; US20190194650A1; US11584928B2; US20230227810A1; EP3474669A1; US10287575B2; WO2017223538A9

Abstract

本文提供了用于可追踪遗传变体文库的方法和组合物。本文进一步提供了用于递归工程化的方法和组合物。本文进一步提供了用于多路工程化的方法和组合物。本文进一步提供了使用核酸指导的核酸酶来富集编辑序列和可追踪工程化序列以及细胞的方法和组合物。

Description

用于生成条形码化组合文库的方法

交叉引用

本申请要求于2016年6月24日提交的美国临时申请序列号62/354,516、于2016年7月27日提交的美国临时申请序列号62/367,386以及于2017年4月10日提交的美国临时申请序列号62/483,930的优先权，每个美国临时申请的内容均通过引用以其全文并入于此。

关于联邦资助研究的声明

本公开内容是基于能源部的第DE-SC0008812号合同在美国政府的支持下完成的。

序列表

本申请在表5中包含序列表。

背景技术

了解蛋白质的氨基酸结构与其整体功能之间的关系对于生物学家和工程师而言仍然具有重要的实践、临床和科学意义。定向进化可以是强大的工程化和发现工具，但突变的随机且往往为组合性的性质使得它们的个体影响难以量化，从而挑战进一步的工程化。对单个残基或饱和诱变的贡献进行更系统的分析对于整个蛋白质而言仍然是劳动力和时间密集的，并且使用标准方法在合理的时间尺度上平行编辑多个蛋白质(如代谢途径或多蛋白质复合物)是根本不可能的。

发明内容

本文公开了组合物，其包含：i)第一供体核酸，其包含：a)经修饰的第一靶核酸序列；b)第一前间隔区邻近基序(PAM)突变；和c)第一指导核酸核酸序列，其包含与所述第一靶核酸的一部分互补的第一间隔区；以及ii)第二供体核酸，其包含：a)对应于所述经修饰的第一靶核酸序列的条形码；和b)第二指导核酸序列，其包含与第二靶核酸的一部分互补的第二间隔区。进一步公开了这样的组合物，其中与对应的未经修饰的第一靶核酸相比，所述经修饰的第一靶核酸序列包含至少一个插入、缺失或置换的核酸。进一步公开了这样的组合物，其中所述第一指导核酸和第二指导核酸与核酸指导的核酸酶相容。进一步公开了这样的组合物，其中所述核酸指导的核酸酶是II型或V型Cas蛋白。进一步公开了这样的组合物，其中所述核酸指导的核酸酶是Cas9同源物或Cpf1同源物。进一步公开了这样的组合物，其中所述第二供体核酸包含第二PAM突变。进一步公开了这样的组合物，其中所述第二供体核酸序列包含调节序列或突变以开启或关闭可筛选或可选择标记。进一步公开了这样的组合物，其中所述第二供体核酸序列靶向独特的着陆位点。

本文公开了基因组工程化方法，所述方法包括：a)使细胞群体与多核苷酸接触，其中每个细胞包含第一靶核酸、第二靶核酸和核酸指导的核酸酶，其中所述多核苷酸包含1)编辑盒，其包含：i)经修饰的第一靶核酸序列；ii)第一前间隔区邻近基序(PAM)突变；iii)第一指导核酸序列，其包含与所述第一靶核酸的一部分互补并且与所述核酸指导的核酸酶相容的间隔区；以及2)记录器盒，其包含：i)对应于所述经修饰的第一靶核酸序列的条形码；和ii)第二指导核酸序列，其包含与所述第二靶核酸的一部分互补并且与所述核酸指导的核酸酶相容的第二间隔区；b)使所述第一指导核酸序列、所述第二指导核酸序列和所述核酸指导的核酸酶在所述第一靶核酸和所述第二靶核酸内产生基因组编辑。进一步公开了这样的方法，其进一步包括c)对所述条形码的一部分进行测序，从而鉴定在步骤a)中插入所述第一靶核酸内的所述经修饰的第一靶核酸。进一步公开了这样的方法，其中所述核酸指导的核酸酶是CRISPR核酸酶。进一步公开了这样的方法，其中所述PAM突变不被所述核酸指导的核酸酶识别。进一步公开了这样的方法，其中所述核酸指导的核酸酶是II型或V型Cas蛋白。进一步公开了这样的方法，其中所述核酸指导的核酸酶是Cas9同源物或Cpf1同源物。进一步公开了这样的方法，其中所述记录器盒进一步包含不被所述核酸指导的核酸酶识别的第二PAM突变。

本文公开了选择性递归遗传工程化方法，其包括a)使包含核酸指导的核酸酶的细胞与包含记录器盒的多核苷酸接触，所述记录器盒包含i)核酸序列，其重组到在前一轮工程化期间并入的独特的着陆位点内，其中所述核酸序列包含独特的条形码；以及ii)与靶向所述独特着陆位点的所述核酸指导的核酸酶相容的指导RNA；并且b)使所述核酸指导的核酸酶编辑所述独特的着陆位点，从而将所述独特的条形码并入到所述独特的着陆位点内。进一步公开了这样的方法，其中所述核酸序列进一步包含开启或关闭可筛选或可选择标记的转录的调节序列。进一步公开了这样的方法，其中所述核酸序列进一步包含与所述核酸指导的核酸酶不相容的PAM突变。进一步公开了这样的方法，其中所述核酸序列进一步包含用于后续工程化轮次的第二独特的着陆位点。进一步公开了这样的方法，其中所述多核苷酸进一步包含编辑盒，所述编辑盒包含a)经修饰的第一靶核酸序列；b)第一前间隔区邻近基序(PAM)突变；以及c)第一指导核酸序列，其包含与所述第一靶核酸的一部分互补的第一间隔区，其中所述独特的条形码对应于所述经修饰的第一靶核酸，使得可以通过所述独特的条形码来鉴定所述经修饰的靶核酸。

本文提供了组合物，其包含i)第一供体核酸，其包含：a)经修饰的第一靶核酸序列；b)突变前间隔区邻近基序(PAM)序列；和c)第一指导核酸序列，其包含与所述第一靶核酸的一部分互补的第一间隔区；以及ii)第二供体核酸，其包含：a)记录器序列；和b)第二指导核酸序列，其包含与所述第二靶核酸的一部分互补的第二间隔区。在一些方面，将所述第一供体核酸和所述第二供体核酸共价连接或包含在单个核酸分子上。进一步提供了这样的组合物，其中所述经修饰的第一靶核酸包含5’同源臂和3’同源臂。进一步提供了这样的组合物，其中所述5’同源臂和3’同源臂与位于与所述第一间隔区互补的前间隔区侧翼的核酸序列同源。进一步提供了这样的组合物，其中与对应的未经修饰的第一靶核酸相比，所述经修饰的第一靶核酸序列包含至少一个插入、缺失或置换的核酸。进一步提供了这样的组合物，其中所述第一gRNA与核酸指导的核酸酶相容，从而促进核酸酶介导的第一靶核酸的切割。进一步提供了这样的组合物，其中所述核酸指导的核酸酶是Cas蛋白，如II型或V型Cas蛋白。进一步提供了这样的组合物，其中所述核酸指导的核酸酶是Cas9或Cpf1。进一步提供了这样的组合物，其中所述核酸指导的核酸酶是MAD2或MAD7。进一步提供了这样的组合物，其中所述核酸指导的核酸酶是工程化或非天然的酶。进一步提供了这样的组合物，其中所述核酸指导的核酸酶是来源于Cas9或Cpf1的工程化或非天然的酶。进一步提供了这样的组合物，其中所述核酸指导的核酸酶是与Cas9或Cpf1具有小于80％的同源性的工程化或非天然的酶。进一步提供了这样的组合物，其中所述突变PAM序列不被所述核酸指导的核酸酶识别的组合物。进一步提供了这样的组合物，其中所述记录器序列包含条形码。进一步提供了这样的组合物，其中所述记录器序列包含可筛选或可选择标记的片段。进一步提供了这样的组合物，其中所述记录器序列包含独特序列，通过该独特序列来特异性地鉴定所述经修饰的第一靶核酸序列。进一步提供了这样的组合物，其中所述记录器序列包含独特序列，通过该独特序列可以选择或富集经编辑的细胞。第一供体核酸可以是盒，如本文公开的编辑盒。第二供体核酸可以是盒，如本文公开的记录盒。可将第一供体核酸和第二供体核酸包含在单个盒上。可将第一供体核酸和第二供体核酸共价连接。在这些实例的任何实例中，所述盒的元件或供体核酸可以是连续的或非连续的。

本文提供了包含工程化染色体或多核酸的细胞，所述工程化染色体或多核酸包含：第一经修饰的序列；第一突变前间隔区邻近基序(PAM)；第一记录器序列，其序列独特地标识所述第一经修饰的序列，其中所述第一经修饰的序列与所述第一记录器序列间隔至少1bp。进一步提供了这样的细胞，其中所述第一经修饰的序列与所述第一记录器序列间隔至少100bp。进一步提供了这样的细胞，其中所述第一经修饰的序列与所述第一记录器序列间隔至少500bp。进一步提供了这样的细胞，其中所述第一经修饰的序列与所述第一记录器序列间隔至少1kbp。进一步提供了这样的细胞，其中所述第一记录器序列是条形码。进一步提供了这样的细胞，其中所述第一经修饰的序列处于编码序列内。进一步提供了这样的细胞，其中与未经修饰的序列相比，所述第一经修饰的序列包含至少一个插入、缺失或置换的核苷酸。进一步提供了这样的细胞，其进一步包含：第二经修饰的序列；第二突变PAM；以及第二记录器序列，其序列独特地标识所述第二经修饰的序列，其中所述第二经修饰的序列与所述第二记录器序列间隔至少1kb。进一步提供了这样的细胞，其中所述第一记录器序列与所述第二记录器序列间隔小于100bp。进一步提供了这样的细胞，其中所述第二记录器序列是条形码。进一步提供了这样的细胞，其中所述第二经修饰的序列处于编码序列内。进一步提供了这样的细胞，其中与未经修饰的序列相比，所述第二经修饰的序列包含至少一个插入、缺失或置换的核苷酸。进一步提供了这样的细胞，其中所述第一记录器序列与第二记录器序列彼此紧邻或重叠，从而生成组合的记录器序列。进一步提供了这样的细胞，其中所述组合的记录器序列包含可选择或可筛选标记。进一步提供了这样的细胞，其中所述组合的记录器序列包含可选择或可筛选标记，通过该标记可以富集或选择细胞。

本文提供了基因组工程化方法，所述方法包括：a)向细胞群体中引入多个多核苷酸，其中每个细胞包含第一靶核酸、第二靶核酸和可靶向的核酸酶，其中每个多核苷酸包含：i)经修饰的第一靶核酸序列；ii)突变前间隔区邻近基序(PAM)序列；iii)第一指导核酸序列，其包含与所述第一靶核酸的一部分互补的指导序列；以及(iv)记录器序列；b)将所述经修饰的第一靶核酸序列插入所述第一靶核酸内；c)将所述记录器序列插入所述第二靶核酸内；d)在不包含所述突变PAM序列的细胞中用所述可靶向的核酸酶来切割所述第一靶核酸，从而富集包含所插入的经修饰的第一靶核酸序列的细胞。进一步提供了这样的方法，其中所述记录器序列与所述经修饰的第一靶核酸连接。进一步提供了这样的方法，其中每个多核苷酸进一步包含第二突变PAM序列。进一步提供了这样的方法，其中每个多核苷酸进一步包含第二指导核酸序列，该第二指导核酸序列包含与所述第二靶核酸的一部分互补的指导序列。进一步提供了这样的方法，其中所述记录器序列包含独特序列，通过该独特序列，在对所述记录器序列进行测序后特异性地鉴定所述经修饰的第一靶核酸。进一步提供了这样的方法，其进一步包括e)对所述记录器序列进行测序，从而鉴定在步骤b)中插入所述第一靶核酸内的所述经修饰的第一靶核酸。进一步提供了这样的方法，其中插入所述经修饰的第一靶核酸序列包括用与所述第一指导核酸序列的转录产物复合的核酸酶来切割所述第一靶核酸。进一步提供了这样的方法，其中插入所述经修饰的第一靶核酸序列进一步包括同源性指导的修复。进一步提供了这样的方法，其中插入所述经修饰的第一靶核酸序列进一步包括同源重组。进一步提供了这样的方法，其中所述多核苷酸进一步包含第二指导核酸序列，该第二指导核酸序列包含与所述第二靶核酸的一部分互补的间隔区。进一步提供了这样的方法，其中插入所述记录器序列包括用与所述第二指导核酸序列的转录产物复合的核酸酶来切割所述第二靶核酸。进一步提供了这样的方法，其中插入所述经修饰的第一靶核酸序列进一步包括同源性指导的修复。进一步提供了这样的方法，其中插入所述经修饰的第一靶核酸序列进一步包括同源重组。进一步提供了这样的方法，其中所述可靶向的核酸酶是Cas蛋白。进一步提供了这样的方法，其中所述Cas蛋白是II型或V型Cas蛋白。进一步提供了这样的方法，其中所述Cas蛋白是Cas9或Cpf1。进一步提供了这样的方法，其中所述可靶向的核酸酶是核酸指导的核酸酶。进一步提供了这样的方法，其中所述可靶向的核酸酶是MAD2或MAD7。进一步提供了这样的方法，其中所述突变PAM序列不被所述可靶向的核酸酶识别。进一步提供了这样的方法，其中所述可靶向的核酸酶是工程化的可靶向的核酸酶。进一步提供了这样的方法，其中所述突变PAM序列不被所述工程化的可靶向的核酸酶识别。进一步提供这样的方法，其进一步包括将第二多个多核苷酸引入包含来自步骤d)的富集细胞的第二细胞群体中，其中所述第二细胞群体内的每个细胞包含第三核酸、第四靶核酸和可靶向的核酸酶。进一步提供了这样的方法，其中所述第二多核苷酸中的每一个包含：i)经修饰的第三靶核酸序列；ii)第三突变前间隔区邻近基序(PAM)序列；iii)第三指导核酸序列，其包含与所述第三靶核酸的一部分互补的间隔区；以及(iv)第二记录器序列。进一步提供了这样的方法，其中每个第二多核苷酸进一步包含第四突变PAM序列。进一步提供了这样的方法，其中每个第二多核苷酸进一步包含第四指导核酸序列，该第四指导核酸序列包含与所述第四靶核酸的一部分互补的指导序列。进一步提供了这样的方法，其进一步包括：a)将所述经修饰的第三靶核酸序列插入所述第三靶核酸内；b)将所述第二记录器序列插入所述第四靶核酸内；c)在不包含所述第二突变PAM序列的细胞中用所述核酸酶来切割所述第三靶核酸，从而富集包含所插入的经修饰的第三靶核酸序列的细胞。进一步提供了这样的方法，其中所述第四靶核酸与所述第二靶核酸相邻。进一步提供了这样的方法，其中所插入的第一记录器序列与第二记录器序列相邻，使得可以从单个测序读取中获得所述第一和第二记录器序列的测序信息。进一步提供了这样的方法，其进一步包括从单个序列读取内的所述第一和第二记录器序列获得序列信息，从而鉴定分别插入所述第一和第三靶核酸中的所述经修饰的第一和第三靶核酸序列。

本文提供了鉴定工程化细胞的方法，所述方法包括：a)提供细胞，其中每个细胞包含第一靶核酸、第二靶核酸和可靶向的核酸酶，b)向所述细胞中引入多核苷酸，该多核苷酸包含：1)第一供体核酸，其包含i)经修饰的靶核酸序列；ii)突变前间隔区邻近基序(PAM)序列；和iii)第一指导核酸序列，其包含与所述第一靶核酸的一部分互补的第一指导序列；以及2)第二供体核酸，其包含i)对应于所述经修饰的靶核酸序列的记录器序列；和ii)第二指导核酸序列，其包含与所述第二靶核酸的一部分互补的第二指导序列，c)在不包含所述突变PAM序列的细胞中用所述核酸酶来切割所述第一靶核酸，从而富集包含所述经修饰的靶核酸序列的细胞，d)使用步骤c)中富集的细胞作为下一轮步骤a)的细胞，将步骤a)-c)重复至少一次，其中来自每一轮的所述记录器序列与来自前一轮的所述记录器序列相邻并入，从而生成包含多个可追踪条形码的记录器序列阵列，以及e)对所述记录序列进行测序，从而鉴定包含所需的经修饰的靶核酸组合的工程化细胞。进一步提供了这样的方法，其中所述第二供体核酸进一步包含第二突变PAM序列。进一步提供了这样的方法，其中对所述记录器序列阵列的测序包括在单个测序读取内获得多个记录器序列中的每一个的序列信息。进一步提供了这样的方法，其中将步骤a)-c)重复至少一次。进一步提供了这样的方法，其中将步骤a)-c)重复至少两次。进一步提供了这样的方法，其中所述记录器序列是条形码。进一步提供了这样的方法，其中所述第一供体核酸与所述第二供体核酸共价连接。第一供体核酸可以是盒，如本文公开的编辑盒。第二供体核酸可以是盒，如本文公开的记录盒。可将第一供体核酸和第二供体核酸包含在单个盒上。可将第一供体核酸和第二供体核酸共价连接。在这些实例的任何实例中，所述盒的元件或供体核酸可以是连续的或非连续的。

本文提供了鉴定工程化细胞的方法，所述方法包括：a)提供细胞，其中每个细胞包含第一靶核酸、第二靶核酸和可靶向的核酸酶，b)向所述细胞中引入多核苷酸，该多核苷酸包含：1)第一供体核酸，其包含i)经修饰的靶核酸序列；ii)突变前间隔区邻近基序(PAM)序列；和iii)第一指导核酸序列，其包含与所述第一靶核酸的一部分互补的第一指导序列；以及2)第二供体核酸，其包含i)对应于所述经修饰的靶核酸序列的标记片段；和ii)第二指导核酸序列，其包含与所述第二靶核酸的一部分互补的第二指导序列，c)在不包含所述突变PAM序列的细胞中用所述核酸酶来切割所述第一靶核酸，从而富集包含所述经修饰的靶核酸序列的细胞，d)使用步骤c)中富集的细胞作为下一轮步骤a)的细胞，将步骤a)-c)重复至少一次，其中来自每一轮的所述标记片段与来自前一轮的所述标记片段相邻并入，从而生成完整标记，以及e)鉴定包含所述完整标记的细胞，从而鉴定包含所需的经修饰的靶核酸组合的工程化细胞。进一步提供了这样的方法，其中所述第二供体核酸进一步包含第二突变PAM序列。进一步提供了这样的方法，其中所述完整标记包含可选择标记。进一步提供了这样的方法，其中所述可选择标记包含抗生素抗性标记或营养缺陷型标记。进一步提供了这样的方法，其中所述完整标记包含可筛选报道分子。进一步提供了这样的方法，其中所述可筛选报道分子包含荧光报道分子。进一步提供了这样的方法，其中所述可筛选报道分子包含基因。进一步提供了这样的方法，其中所述可筛选报道分子包含启动子或调节元件。进一步提供了这样的方法，其中所述启动子或调节元件开启或关闭可筛选或可选择元件的转录。进一步提供了这样的方法，其中所述可筛选报道分子包含可筛选或可选择元件，与不包含该元件的菌落相比，其改变包含该元件的菌落的特征。第一供体核酸可以是盒，如本文公开的编辑盒。第二供体核酸可以是盒，如本文公开的记录盒。可将第一供体核酸和第二供体核酸包含在单个盒上。可将第一供体核酸和第二供体核酸共价连接。在这些实例的任何实例中，所述盒的元件或供体核酸可以是连续的或非连续的。

本文提供了基因组工程化方法，所述方法包括：a)向细胞群体中引入多核苷酸，其中每个细胞包含第一靶核酸、第二靶核酸和可靶向的核酸酶，其中所述多核苷酸包含：i)经修饰的第一靶核酸序列；ii)突变核酸酶识别序列；iii)记录器序列；b)将所述经修饰的第一靶核酸序列插入所述第一靶核酸内；c)将所述记录器序列插入所述第二靶核酸内；以及d)选择感兴趣的表型。进一步提供了这样的方法，所述多核苷酸进一步包含第二突变核酸酶识别位点。进一步提供了这样的方法，其中选择感兴趣的表型包括在不包含所述突变核酸酶识别序列的细胞中用所述核酸酶来切割所述第一靶核酸，从而富集包含所插入的经修饰的第一靶核酸序列的细胞。进一步提供了这样的方法，其中选择感兴趣的表型包括在不包含所述第二突变核酸酶识别序列的细胞中用所述核酸酶来切割所述第二靶核酸，从而富集包含所插入的经修饰的第一靶核酸序列的细胞。进一步提供了这样的方法，其中所述记录器序列与所述经修饰的第一靶核酸连接。进一步提供了这样的方法，其中所述记录器序列包含独特序列，通过该独特序列，在对所述记录器序列进行测序后特异性鉴定所述经修饰的第一靶核酸。进一步提供了这样的方法，其进一步包括e)对所述记录器序列进行测序，从而鉴定在步骤b)中插入所述第一靶核酸内的所述经修饰的第一靶核酸。进一步提供了这样的方法，其中插入所述经修饰的第一靶核酸序列包括同源性指导的修复。进一步提供了这样的方法，其中插入所述经修饰的第一靶核酸序列包括同源重组。进一步提供了这样的方法，其中所述核酸酶是Cas蛋白。进一步提供了这样的方法，其中所述多核苷酸进一步包含第一指导核酸序列，该第一指导核酸序列包含与所述第一靶核酸的一部分互补的指导序列。进一步提供了这样的方法，其中插入所述经修饰的第一靶核酸序列包括用与所述第一指导核酸序列的转录产物复合的核酸酶来切割所述第一靶核酸。进一步提供了这样的方法，其中所述多核苷酸进一步包含第二指导核酸序列，该第二指导核酸序列包含与所述第二靶核酸的一部分互补的指导序列。进一步提供了这样的方法，其中插入所述记录器序列包括用与所述第二指导核酸序列的转录产物复合的核酸酶来切割所述第二靶核酸。进一步提供了这样的方法，其中插入所述经修饰的第一靶核酸序列或所述记录器序列包括同源性指导的修复。进一步提供了这样的方法，其中插入所述经修饰的第一靶核酸序列或所述记录器序列包括同源重组。进一步提供了这样的方法，其中所述突变核酸酶识别序列包含不被所述可靶向的核酸酶识别的突变PAM序列。进一步提供了这样的方法，其中所述Cas蛋白是II型或V型Cas蛋白。进一步提供了这样的方法，其中所述可靶向的核酸酶是MAD2。进一步提供了这样的方法，其中所述突变PAM序列不被MAD2识别。进一步提供了这样的方法，其中所述可靶向的核酸酶是MAD7。进一步提供了这样的方法，其中所述突变PAM序列不被MAD7识别。进一步提供了这样的方法，其中所述Cas蛋白是Cas9。进一步提供了这样的方法，其中所述突变PAM序列不被Cas9识别。进一步提供了这样的方法，其中所述Cas蛋白是Cpf1。进一步提供了这样的方法，其中所述突变PAM序列不被Cpf1识别。进一步提供了这样的方法，其中所述核酸酶是Argonaute核酸酶。进一步提供了这样的方法，其进一步包括在针对表型进行选择之前，引入包含与所述第一靶核酸的一部分互补的指导序列的指导DNA寡核苷酸。进一步提供了这样的方法，其中所述突变核酸酶识别序列包含不被所述Argonaute核酸酶识别的突变靶标侧翼序列。进一步提供了这样的方法，其中所述核酸酶是锌指核酸酶。进一步提供了这样的方法，其中所述突变核酸酶识别序列不被所述锌指核酸酶识别。进一步提供了这样的方法，其中所述核酸酶是转录激活因子样效应物核酸酶(TALEN)。进一步提供了这样的方法，其中所述突变核酸酶识别序列不被TALEN识别。

援引并入

本说明书中所提到的所有出版物和专利申请均通过引用并入本文，其程度如同特别地且单独地指出每个单独的出版物或专利申请通过引用而并入。

附图说明

图1A-1C描绘了示例性遗传工程化工作流程，其包括靶标设计、质粒设计和质粒文库生成。

图2A-2D描绘了针对使用所公开的工程化方法的示例性实验的验证数据。

图3A-3C描绘了示例性可追踪遗传工程化工作流程，其包括包含编辑盒和记录盒的质粒，以及用于鉴定并入的编辑或突变的条形码的下游测序。

图3D-3E描绘了示例性可追踪遗传工程化工作流程，其包括在每轮中使用具有独特条形码(BC)的不同编辑盒和记录器盒的迭代轮次工程化，随后选择并追踪以确认每轮成功的工程化步骤。

图4A-4B描绘了使用包含编辑盒的质粒并入靶突变和PAM突变的实例。

图5A-5B描绘了包含编辑盒和记录盒的质粒的实例，该编辑盒被设计为将靶突变和PAM突变并入第一靶序列中，该记录盒被设计为将条形码序列并入第二靶序列中。图5B描绘了验证编辑盒和记录器盒的并入以及工程化细菌细胞的选择的示例性数据。

图6描绘了示例性递归工程化工作流程。

图7A-7B描绘了用于组合工程化的示例性质粒固化工作流程以及使用所述工作流程的示例性实验的验证。

图8A-8B描绘了示例性遗传工程化工作流程，其包括靶标设计、质粒设计和质粒文库生成。

图9A-9D描绘了针对示例性遗传工程化实验的验证数据。

图10A-10F描绘了来自遗传工程化实验的示例性数据集。

图11A-11C描绘了来自遗传工程化实验的示例性设计和数据集。

图12A-12F描绘了针对遗传工程化实验的示例性设计。

图13A-13D描绘了将要通过遗传工程化进行的示例性设计编辑。

图14A-14B描绘了用于遗传工程化实验的示例性设计。

图15A-15D描绘了Cas9编辑效率对照的实例。

图16A-16E描绘了在大肠杆菌中dsDNA切割的毒性的实例。

图16F-16H描绘了采用表达Cas9的低拷贝质粒和高拷贝质粒，转化和存活测定以及编辑和记录效率的实例。

图17A-17D描绘了用于基因缺失的遗传工程化策略的实例。

图18A-18B描绘了通过指导核酸和线性dsDNA盒的共转化，编辑效率控制的实例。

图19A-19D描绘了文库克隆分析和统计的实例。

图20A-20B描绘了重组群体的编辑盒追踪的精确度的实例。

图21描绘了M9基本培养基中folA突变的生长特征的实例。

图22A-22C描绘了针对基本培养基中folA编辑盒的富集概况的实例。

图23A-23F描绘了针对改善的溶剂和抗生素耐受性验证所鉴定的acrB突变的实例。

图24A-24D描绘了示例性突变变体评估分析。

图25描绘了重建通过红霉素选择所鉴定的突变的实例。

图26A-26B描绘了针对糠醛或热耐受性验证Crp S28P突变的实例。

图27A-27C描绘了编辑与条形码相关性研究的实例。

图28描绘了选择性记录策略(selectable recording strategy)的实例。

图29描绘了选择性记录策略的实例。

图30A-30B描绘了来自选择性记录实验的数据。

图31A-31B描绘了来自示例性实验的多种核酸指导的核酸酶的编辑和转化效率。

图32描绘了采用多种指导核酸的MAD2核酸酶的编辑效率。

图33描绘了采用多种指导核酸的MAD7核酸酶的编辑效率。

具体实施方式

虽然本文中已经示出并描述了本发明的优选实施方案，但是对于本领域技术人员显而易见的是，这些实施方案仅以示例的方式提供。本领域技术人员在不脱离本发明的情况下现将会想到多种变化、改变和替换。应当理解，本文中描述的本发明实施方案的各种替代方案可用于实施本发明。

本文提供了使复杂的组合工程化策略能够优化并探索复杂表型的方法和组合物。对基础研究和生物技术感兴趣的许多表型是在远端基因座处发生的突变的组合的结果。例如，癌症通常与影响多个标志基因功能而非单个染色体编辑的突变相关。同样地，作为持续工程工作的靶标的许多代谢和调节过程需要许多蛋白质共同作用的活性来产生感兴趣的表型输出。本文公开的方法和组合物可以提供这类功能的快速工程化和原型化的方法，因为它们可以在许多位点处平行地提供关于突变效应的快速构建和准确报道。

本文所述的方法和组合物可以在核酸指导的核酸酶系统如CRISPR或Argonaute或其他可靶向的核酸酶系统如TALEN、ZFN或大范围核酸酶可起作用(例如，靶向和切割DNA)的任何类型的细胞(包括原核细胞、真核细胞或古菌细胞)中进行或使用。该细胞可以是细菌细胞，如埃希氏菌属的种(Escherichia spp.)(例如，大肠杆菌)。该细胞可以是真菌细胞，如酵母细胞，例如，酵母属的种(Saccharomyces spp.)。该细胞可以是人细胞。该细胞可以是藻类细胞、植物细胞、昆虫细胞或哺乳动物细胞，包括人细胞。另外地或备选地，本文所述的方法可在体外或无细胞系统中进行，其中核酸指导的核酸酶系统，如CRISPR或Argonaute或其他核酸酶系统，如TALEN，ZFN或大范围核酸酶可起作用(例如，靶向和切割DNA)。

本文公开了用于遗传工程化的组合物和方法。公开了适用于可追踪或递归遗传工程化的方法和组合物。所公开的方法和组合物可以使用寡核苷酸大规模多路合成和克隆，以在全基因组规模上以单核苷酸分辨率实现高保真、可追踪、多路基因组编辑。

可追踪质粒

方法和组合物可用于例如以单核苷酸分辨率进行高保真可追踪编辑，并且可用于在全基因组规模或游离核酸分子上进行编辑。大规模多路寡核苷酸合成和/或克隆可以与可靶向的核酸酶系统如CRISPR系统、MAD2系统、MAD7系统或其他核酸指导的核酸酶系统组合使用，以供编辑。

如本文所用，“盒”通常是指单分子多核苷酸。盒可包含DNA。盒可包含RNA。盒可包含DNA和RNA的组合。盒可包含非天然存在的核苷酸或经修饰的核苷酸。盒可以是单链的。盒可以是双链的。盒可以合成为单个分子。盒可以由其他盒、寡核苷酸或其他核酸分子装配而成。盒可包含一种或多种元件。作为非限制性实例，这样的元件可包括任何编辑序列、记录器序列、指导核酸、启动子、调节元件、突变PAM序列、同源臂、引物位点、连接体区域、独特的着陆位点、盒和本文公开的任何其他元件中的一种或多种。这样的元件可以是任何顺序或组合。任何两个或更多个元件可以是连续的或非连续的。盒可以包含在较大的多核酸中。这样的较大的多核酸可以是线性的或环状的，如质粒或病毒载体。盒可以是合成盒。盒可以是可追踪盒。

盒可被设计用于本文公开的任何方法或组合物，包括多路工程化方法和可追踪工程化方法。示例性的盒可以耦合两个或更多个元件，如1)被设计用于靶向基因组中的用户指定靶序列的指导核酸(例如，gRNA或gDNA)和2)如本文所公开的编辑序列和/或记录器序列(例如，图1B和图5A)。包含编辑序列和指导核酸的盒可被称为编辑盒。包含编辑序列的盒可被称为编辑盒。包含记录器序列和指导核酸的盒可被称为记录器盒。包含记录器序列的盒可以称为记录器盒。在优选的实施方案中，编辑盒和记录器盒同时递送至细胞中。进一步地，编辑盒与记录器盒可以共价连接。进一步地，通过多路寡核苷酸合成可一起合成这些元件。

盒可包含一种或多种指导核酸和编辑盒作为连续多核苷酸。在其他实例中，一种或多种指导核酸和编辑盒是连续的。在其他实例中，一种或多种指导核酸和编辑盒是非连续的。在其他实例中，两种或更多种指导核酸和编辑盒是非连续的。

盒可包含一种或多种指导核酸、编辑盒和记录器盒作为连续多核苷酸。在其他实例中，一种或多种指导核酸、编辑盒和记录器盒是连续的。在其他实例中，两种或更多种指导核酸、编辑盒和记录器盒是非连续的。在其他实例中，一种或多种指导核酸、编辑盒和记录器盒是非连续的。在其他实例中，两种或更多种指导核酸、编辑盒和记录器盒是非连续的。

盒可包含一种或多种指导核酸、一种或多种编辑盒和一种或多种记录器盒作为连续多核苷酸。在其他实例中，一种或多种指导核酸、一种或多种编辑盒和一种或多种记录器盒是连续的。在其他实例中，两种或更多种指导核酸、两种或更多种编辑盒和两种或更多种记录器盒是连续的。在其他实例中，一种或多种指导核酸、一种或多种编辑盒和一种或多种记录器盒是非连续的。在其他实例中，两种或更多种指导核酸、两种或更多种编辑盒和两种或更多种记录器盒是非连续的。

盒可包含一种或多种指导核酸和编辑序列作为连续多核苷酸。在其他实例中，一种或多种指导核酸和编辑序列是连续的。在其他实例中，一种或多种指导核酸和编辑序列是非连续的。在其他实例中，两种或更多种指导核酸和编辑序列是非连续的。

盒可包含一种或多种指导核酸、编辑序列和记录器序列作为连续多核苷酸。在其他实例中，一种或多种指导核酸、编辑序列和记录器序列是连续的。在其他实例中，两种或更多种指导核酸、编辑序列和记录器序列是连续的。在其他实例中，一种或多种指导核酸、编辑序列和记录器序列是非连续的。在其他实例中，两种或更多种指导核酸、编辑序列和记录器序列是非连续的。

盒可包含一种或多种指导核酸、一种或多种编辑序列和一种或多种记录器序列作为连续多核苷酸。在其他实例中，一种或多种指导核酸、一种或多种编辑序列和一种或多种记录器序列是连续的。在其他实例中，两种或更多种指导核酸、两种或更多种编辑序列和两种或更多种记录器序列是连续的。在其他实例中，一种或多种指导核酸、一种或多种编辑序列和一种或多种记录器序列是非连续的。在其他实例中，两种或更多种指导核酸、两种或更多种编辑序列和两种或更多种记录器序列是非连续的。

编辑盒可包含编辑序列。编辑序列可包含突变，如同义或非同义突变，以及同源臂(HA)。编辑序列可包含突变，如同义或非同义突变，以及被设计为在核酸指导的核酸酶介导的双链断裂位点处与靶序列经历同源重组的同源臂(HA)(例如图1B)。

记录器盒可包含记录器序列。记录器序列可包含可追踪序列，如条形码或标记，以及同源臂(HA)。记录器序列可包含可追踪序列，如条形码或标记，以及被设计用于在核酸指导的核酸酶介导的双链断裂位点处与染色体经历同源重组的同源臂(HA)(例如图1B)。

盒可以编码诱导链断裂所必需的机制(例如，如本文所公开的可靶向的核酸酶、指导核酸、编辑盒和/或记录器盒)以及可以在细胞中选择性富集和/或追踪的设计修复。细胞可以是任何细胞，如真核细胞、古菌细胞、原核细胞或微生物如大肠杆菌(例如图2A-2D)。

盒可包含编辑盒。盒可包含记录器盒。盒可包含指导核酸和编辑盒。盒可包含指导核酸和记录器盒。盒可包含指导核酸、编辑盒和记录器盒。盒可包含两种指导核酸、一种编辑盒和一种记录器盒。盒可包含多于两种指导核酸、一种或多种编辑盒和一种或多种记录器盒。盒的这些元件可以共价连接。盒的这些元件可以是连续的。盒的这些元件可以是连续的。

盒可包含编辑序列。盒可包含记录器序列。盒可包含指导核酸和编辑序列。盒可包含指导核酸和记录器序列。盒可包含指导核酸、编辑序列和记录器序列。盒可包含两种指导核酸、编辑序列和记录器序列。盒可包含多于两种指导核酸、一种或多种编辑序列和一种或多种记录器序列。盒的这些元件可以共价连接。盒的这些元件可以是连续的。盒的这些元件可以是连续的。

可以使用测序技术，例如，短读取测序技术(例如图1C)、长读取测序技术或本领域已知的任何其他测序技术来追踪单基因组编辑。

在一些实施方案中，在转化后，每个编辑盒在转化的细胞内生成经设计的遗传修饰。在一些实例中，所述编辑盒可以反式充当由编辑盒引入的遗传突变的条形码，并且可以能够随着时间的推移和跨越多个不同的生长条件来追踪复杂群体中的这种突变频率(例如图2A-2D和图1C)。

在一些实例中，记录盒在转化细胞内插入经设计的可追踪序列如标记或条形码序列中。在一些实例中，记录器盒可以顺式充当染色体突变的条形码，并且可以能够随着时间的推移和跨越多个不同的生长条件来追踪复杂群体中的这种突变频率。

通过提供经设计的基因组突变的顺式和/或反式追踪，本文提供的方法简化了用于映射多样性基因组范围的样品制备和覆盖深度，并且为基因组规模上的工程化提供了强大的工具(例如图1C)。

可以将多个盒合并为盒文库。盒文库可包含至少2个盒。盒文库可包含5至一百万个盒。盒文库可包含至少一百万个盒。应当理解，盒文库可包含任何数目的盒。

与库(pool)内其他盒相比，盒文库可包含具有共同元件和非共同或独特元件的任何组合的盒。例如，盒文库可包含共同的引发位点或共同的同源臂，同时还包含非共同或独特条形码。共同元件可由盒文库内的多个、大多数或全部的盒共享。非共同元件可由盒文库内的多个、少数或亚群的盒共享。独特的元件可由盒文库内的一个、几个或亚群的盒共享，使得它能够识别或区分所述一个、几个或亚群的盒与盒文库内的其他盒。这样的共同和非共同的组合对于如本文所公开的多路技术是有利的。

本文公开的盒可以生成经设计的遗传修饰或在转化细胞内高效插入经设计的标记或条形码序列。在许多实例中，该效率大于50％。在一些实例中，该效率为10％、20％、30％、40％、50％、60％、70％、80％、90％、95％、99％或100％(例如，图32A、图32B和图33)。

在一些实例中，可通过调节本文公开的一种或多种组分如核酸指导的核酸酶的表达来增加转化、编辑和/或记录效率。本文公开了用于调节组分的方法，并且这些方法是本领域已知的。这样的方法可包括根据实验设计在低拷贝质粒或高拷贝质粒上表达组分，如本发明系统的核酸指导的核酸酶或CRISPR酶。

本文公开了用于生成盒的方法和组合物。盒可包含如本文公开的盒。例如，盒可包含本文公开的编辑盒和/或记录器盒的任何组合。这样的盒可包含在较大的多核酸分子上。这样的较大的多核酸分子可以是线性的或环状的，如质粒或病毒载体。

编辑盒可包含相对于靶核酸序列的突变。该编辑盒可包含与位于所需突变或编辑序列侧翼的靶序列同源的序列。该编辑盒可包含识别细胞或细胞群体中核酸的靶序列或与之杂交的区域，该区域与该细胞的核酸的靶序列同源并且包含相对于该靶序列的至少一个核苷酸的突变或所需突变。

编辑盒可包含第一编辑序列，该第一编辑序列包含相对于靶序列的第一突变。与非编辑靶序列相比，第一突变可包含至少一个核苷酸的突变，如插入、缺失或置换。该突变可以并入编码区或非编码区中。

编辑盒可包含第二编辑序列，该第二编辑序列包含相对于靶序列的第二突变。该第二突变可被设计为使PAM序列突变或以其他方式沉默，使得相应的核酸指导的核酸酶或CRISPR核酸酶不再能够切割靶序列。在这样的情况下，PAM的这种突变或沉默可用作选择其中已并入第一编辑序列的转化体的方法。

在一些实例中，编辑盒包含至少两个突变，其中一个突变是PAM突变。在一些实例中，该PAM突变可处于第二编辑盒中。这样的第二编辑盒可以与盒中的其他元件共价连接，并且可以与盒中的其他元件是连续的或不连续的。

编辑盒可包含任选地与启动子可操作地连接的指导核酸，如gRNA编码基因。该指导核酸可被设计用于与其中将并入编辑序列的靶向核酸序列杂交。

记录盒可包含记录序列。记录器序列可包含条形码序列，或其他可筛选或可选择标记或其片段。该记录序列可包含在记录盒中。记录器盒可包含与靶核酸序列内的插入位点同源的区域，使得该记录序列通过同源重组或同源驱动的修复系统得以并入。该记录盒的并入位点可包含在与由编辑盒编辑的靶核酸相同的DNA分子上。该记录器序列可包含条形码、独特的DNA序列和/或可选择或可筛选元件或标记的完整拷贝或片段。

记录器盒可包含相对于靶序列的突变。该突变可被设计为使PAM序列突变或以其他方式沉默，使得相应的核酸指导的核酸酶或CRISPR核酸酶不再能够切割靶序列。在这样的情况下，PAM位点的这种突变或沉默可用作选择其中已并入第一记录序列的转化体的方法。记录器盒可包含PAM突变。该PAM突变可被设计为使PAM位点突变或以其他方式沉默，使得相应的CRISPR核酸酶不再能够切割靶序列。在这样的情况下，PAM位点的这种突变或沉默可用作选择其中已并入记录器序列的转化体的方法。

记录器盒可包含指导核酸，如编码gRNA的基因。启动子可以与编码指导核酸的核酸序列可操作地连接，该指导核酸能够将核酸指导的核酸酶靶向所需靶序列。指导核酸可靶向靶位点内的独特位点。在一些情况下，该指导核酸靶向在前一轮工程化中并入的独特着陆位点。在一些情况下，该指导核酸靶向在前一轮工程化中通过记录器盒并入的独特着陆位点。

记录器盒可包含条形码。条形码可以是独特条形码或相对独特的条形码，使得可以基于该条形码来鉴定相应的突变。在一些实例中，该条形码是在自然界中未发现的非天然存在的序列。在大多数实例中，编辑盒内所需突变和条形码的组合是非天然存在的并且在自然界中未发现。条形码的长度可为任何数目的核苷酸。条形码的长度可为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30个或超过30个核苷酸。在一些情况下，条形码的长度超过30个核苷酸。条形码可以通过简并寡核苷酸合成而生成。条形码可以是合理设计或用户指定的。

记录器盒可包含着陆位点。着陆位点可用作用于连续工程化轮次的记录器盒的靶位点。着陆位点可包含PAM。着陆位点可以是独特序列。着陆位点的长度可为至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50个核苷酸。在一些情况下，着陆位点的长度大于50个核苷酸。

记录器盒可包含可选择或可筛选标记，或者开启或关闭可选择或可筛选标记的调节序列或突变。在这样的情况下，可选择标记的开启或关闭可分别用于迭代轮次工程化的选择或反选择。示例性调节序列包括核糖体结合位点(RBS)，但也想到其他这样的调节序列。使可选择或可筛选标记开启的突变可包括由宿主转录机制识别的任何可能的起始密码子。关闭可选择或可筛选标记的突变包括缺失起始密码子的突变或插入过早终止密码子或阅读框移位突变的突变。

记录器盒可包含靶向将向其中并入记录器序列的靶位点的指导核酸、使指导RNA使用的PAM沉默的PAM突变、对应于编辑盒的条形码、用作后续轮次工程化的记录器盒的着陆位点的独特位点、可开启或关闭可筛选或可选择标记的调节序列或突变中的一种或多种，这些侧翼为同源臂的一种或多种元件被设计用于促进这些一种或多种元件重组到由指导RNA靶向的切割靶位点中。

记录器盒可包含第一同源臂、PAM突变、条形码、独特的着陆位点、用于可筛选或可选择标记的调节序列或突变、第二同源臂和指导RNA。该第一同源臂可以是上游同源臂。该第二同源臂可以是下游同源臂。同源臂可以与位于由指导RNA靶向的切割位点侧翼的序列同源。

盒可包含两种被设计为靶向两种不同的靶核酸序列的指导核酸。在任何情况下，该指导核酸可包含由crRNA和trRNA序列组成的单个gRNA或嵌合gRNA，或者，gRNA可包含分离的crRNA和trRNA，或指导核酸可包含crRNA。在其他实例中，指导核酸可与包含编辑盒和/或记录器盒的可追踪多核酸或质粒同时引入。在这些情况下，该指导核酸可以在单独的质粒上编码或经由本领域公知的递送方法以RNA形式递送。

盒可包含编码核酸指导的核酸酶如CRISPR核酸酶的基因，其与选定的指导核酸一起起作用。可以在单独的质粒上提供核酸指导的核酸酶或CRISPR核酸酶基因。可以在将要引入可追踪多核酸或质粒的宿主生物体的基因组或游离质粒上提供核酸指导的核酸酶或CRISPR核酸酶。在这些实例的任何实例中，该核酸指导的核酸酶或CRISPR核酸酶基因可以与组成型或诱导型启动子可操作地连接。合适的组成型和诱导型启动子的实例是本领域公知的。可以使用本领域公知的递送系统将核酸指导的核酸酶或CRISPR核酸酶作为mRNA或多肽提供。这样的mRNA或多肽递送系统可包括但不限于纳米颗粒、病毒载体或其他细胞渗透性技术。

盒可包含可选择或可筛选标记，例如包含在记录器盒内的标记。例如，该记录器盒可包含条形码，如可追踪核酸序列，其可以与相应的编辑盒的遗传突变独特地相关联，或者以其他方式与这样的遗传突变可鉴定地相关联，使得对该条形码进行测序将允许鉴定由编辑盒引入的相应的遗传突变。在其他实例中，记录器盒可包含编码抗生素抗性基因、营养缺陷型标记、荧光蛋白或其他已知的可选择或可筛选标记的基因的完整拷贝或片段。

可追踪质粒文库

可追踪文库可包含如本文所公开的多个盒。可追踪文库可包含含有如本文公开的盒的多个可追踪多核酸或质粒。包含如本文公开的记录器序列或记录器盒的盒、多核苷酸或质粒可被称为可追踪的盒、多核苷酸或质粒。包含如本文公开的编辑序列或编辑盒的盒、多核苷酸或质粒可被称为可追踪的盒、多核苷酸或质粒。

在一些情况下，在可追踪文库内是不同的编辑盒和记录器盒组合，对该编辑盒和记录器盒组合进行测序以确定哪个编辑序列对应于包含在该记录器盒内的给定标记或条形码序列。因此，当将编辑序列和记录器序列并入靶序列中时，您可以通过对记录器序列进行测序来确定得以并入的编辑。对记录器序列或条形码进行排序可以显著减少测序时间和成本。

文库大小可取决于实验设计。例如，如果目的是编辑感兴趣的蛋白质内的每个氨基酸，那么文库大小可取决于感兴趣的蛋白质中氨基酸的数目(N)，其中完整饱和文库(每个位置处的所有20个氨基酸或非天然存在的氨基酸)缩放为19(或更多)×N并且丙氨酸映射文库缩放为1×N。因此，鉴于目前的多路寡核苷酸合成能力(例如120,000个寡核苷酸)，筛选甚至超过1,000个氨基酸的非常大的蛋白质也是易处理的。除了活动筛选之外或作为活性筛选的替代，可以使用本文公开的文库有效地测试具有改善的高通量筛选和选择的更一般的性质。应当容易理解，文库可被设计用于使靶蛋白内的任何数目的氨基酸(包括1、至少1、2、3、4、5、6、7、8、9、10个等、最多靶蛋白内的氨基酸总数)发生突变。另外，可以靶向选择的氨基酸，如催化活性氨基酸或参与蛋白质-蛋白质相互作用的氨基酸。可以将靶向突变的每个氨基酸突变为任何数目的替代氨基酸，如任何其他天然或非天然存在的氨基酸或氨基酸类似物。在一些实例中，将所有靶向氨基酸突变为相同的氨基酸，如丙氨酸。在其他情况下，将靶向氨基酸以任何组合或排列独立突变为任何其他氨基酸。

可追踪文库可包含单个残基或感兴趣的序列中的可追踪突变。可使用定制合成的寡核苷酸阵列来生成可追踪文库。可使用本领域已知的任何克隆或装配方法来生成可追踪质粒。例如，可通过化学合成、Gibson装配、SLIC、CPEC、PCA、无连接克隆、其他体外寡核苷酸装配技术、常规的基于连接的克隆或其任何组合来生成CREATE-Recorder质粒。

记录器序列，如条形码，可以在计算机上经由标准代码被设计为在靶密码子处具有简并突变。该简并突变可包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30个或超过30个核酸残基。在一些实例中，该简并突变可包含15个核酸残基(N15)。

可以将同源臂添加到记录器序列和/或编辑序列中，以允许经由同源重组或同源驱动修复将记录器和/或编辑序列并入所需位置。可以通过合成、体外装配、PCR或本领域的其他已知方法来添加同源臂。例如，可以通过重叠的寡核苷酸延伸、Gibson装配或本文公开的任何其他方法来装配同源臂。可以将同源臂添加到记录器和/或编辑序列的两端中，从而用两个不同的同源臂，例如5’同源臂和3’同源臂来侧接序列。

可以将相同的5’和3’同源臂添加到多个不同的记录器序列中，从而生成每个记录器序列具有相同的间隔靶标或靶向插入位点的独特的记录器序列文库。可以将相同的5’和3’同源臂添加到多个不同的编辑序列中，从而生成每个编辑序列具有相同的间隔靶标或靶向插入位点的独特的编辑序列文库。在备选的实例中，可以将不同或多种5’或3’同源臂添加到多个记录器序列或编辑序列中。

可以将包含侧翼同源臂的记录器序列文库克隆到载体骨架中。在一些实例中，将记录器序列和同源臂克隆到记录器盒中。在一些情况下，记录器盒可进一步包含编码指导核酸或gRNA的核酸序列，该指导核酸或gRNA被工程化为靶向记录器序列插入的所需位点。在许多情况下，位于CRISPR/Cas介导的切割位点侧翼的核酸序列与包含在记录器盒内的同源臂同源或基本同源。

可以将包含侧翼同源臂的编辑序列文库克隆到载体骨架中。在一些实例中，将编辑序列和同源臂克隆到编辑盒中。在一些情况下，编辑盒可进一步包含编码指导核酸或gRNA的核酸序列，该指导核酸或gRNA被工程化为靶向编辑序列插入的所需位点。在许多情况下，位于CRISPR/Cas介导的切割位点侧翼的核酸序列与包含在编辑盒内的同源臂同源或基本同源。

可以将全基因或全基因组编辑文库亚克隆到载体骨架中。在一些情况下，该载体骨架包含如本文所公开的记录器盒。可以将编辑序列文库插入或装配到第二位点中，以生成有能力的可追踪质粒，该可追踪质粒可将记录条形码嵌入固定的基因座，同时将编辑文库集成到各种用户定义的位点。

首先可将记录器序列和/或盒装配到或插入载体骨架中，然后插入编辑序列和/或盒。在其他情况下，首先可将编辑序列和/或盒插入或装配到载体骨架中，然后插入记录器序列和/或盒。在其他情况下，将记录器序列和/或盒以及编辑序列和/或盒同时插入或装配到载体中。在其他情况下，记录器序列和/或盒以及编辑序列和/或盒在同时插入或装配到载体中之前包含在相同的盒上。在其他情况下，记录器序列和/或盒以及编辑序列和/或盒在同时插入或装配到载体中之前连接。在其他情况下，记录器序列和/或盒以及编辑序列和/或盒在同时插入或装配到载体中之前共价连接。在这些情况的任何情况下，可以生成可追踪质粒或质粒文库。

可以合成包含本文公开的一种或多种元件的盒或核酸分子。例如，可以合成包含编辑盒和指导核酸的核酸分子。可以合成包含编辑盒和记录器盒的核酸分子。可以合成包含编辑盒、指导核酸和记录器盒的核酸分子。可以合成包含编辑盒、记录器盒和两种指导核酸的核酸分子。可以合成包含记录器盒和指导核酸的核酸分子。可以合成包含记录器盒的核酸分子。可以合成包含编辑盒的核酸分子。在这些情况的任何情况下，所述指导核酸可任选地与启动子可操作地连接。在这些情况的任何情况下，所述核酸分子可进一步包含一种或多种条形码。

可以使用本领域已知的任何寡核苷酸合成方法来合成合成盒或合成核酸分子。例如，可以通过基于阵列的寡核苷酸合成来合成盒。在这样的实例中，在合成寡核苷酸后，可以从阵列切割寡核苷酸。从阵列切割寡核苷酸可以产生寡核苷酸库。

软件和自动化方法可用于多路合成和生成。例如，软件和自动化可用于产生10、10²、10³、10⁴、10⁵、10⁶个或更多个盒，如可追踪盒。自动化方法可以以快速方式生成可追踪质粒。可通过步骤最少的工作流程来处理可追踪盒，以产生精确定义的全基因组文库。

可以生成包含两个或更多个核酸分子或质粒的盒文库，如可追踪盒文库，所述两个或更多个核酸分子或质粒包含记录器序列、编辑序列、指导核酸和任选的条形码的本文公开的任何组合，包括任何前述元件中的一种或多种的组合。例如，这样的文库可包含至少2、3、4、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹、10¹⁰个或更多个本公开内容的核酸分子或质粒。应当理解，这样的文库可包含任何数目的核酸分子或质粒，即使上文没有明确列出具体数目。

可以对盒或盒文库进行测序，以便确定包含在每个盒上的记录器序列和编辑序列对。在其他情况下，已知的记录器序列在文库生成过程期间与已知的编辑序列配对。设想确定包含在共同核酸分子或质粒上的记录器序列与编辑序列之间的关联的其他方法，使得可以通过记录器序列的鉴定或测序来鉴定编辑序列。

本文提供了用于追踪在大肠杆菌与其他生物体/细胞系之间穿梭的经编辑的游离文库的方法和组合物。该文库可包含在质粒、细菌人工染色体(BAC)、酵母人工染色体(YAC)、合成染色体或病毒或噬菌体基因组上。这些方法和组合物可用于在宿主生物体如大肠杆菌中生成便携式条形码化文库。这样的生物体中的文库生成可以为进行同源重组提供已建立技术的优势。可以在一个位点处对条形码化质粒文库进行深度测序，以追踪靶向质粒其余部分的突变多样性，从而允许显著改善文库覆盖的深度(例如图3A)。

可追踪工程化方法

图3A中描绘了可追踪工程化工作流程的实例。每个质粒可以编码被设计用于编辑靶DNA中位点的记录器盒(例如图3A，黑色盒)。待靶向的位点可以是功能中性位点，或者它们可以是可筛选或可选择标记基因。记录器盒的同源臂(HA)可含有在重组工程化期间插入记录位点的记录器序列(例如，图3B)。重组工程化可包括DNA切割，如核酸指导的核酸酶介导的DNA切割，以及经由同源重组的修复。该记录器序列可包含条形码、独特的DNA序列或可筛选或可选择标记的完整拷贝或片段。在一些实例中，该记录器序列是15个核苷酸。该记录器序列可包含少于10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、88、90、100、110、120、130、140、150、160、170、180、190、200个或超过200个核苷酸。

通过多路克隆方法，所述记录器盒可以与质粒中的至少一个编辑盒(例如，图3A，绿色盒)共价耦合，以生成具有独特的记录器盒和编辑盒组合的可追踪质粒文库。可以对该可追踪文库进行测序以生成记录器/编辑映射，并用于追踪跨靶DNA的大区段的编辑文库(例如，图3C)。记录器序列和编辑序列可包含在相同的多核苷酸上，在这种情况下，它们都通过相同的重组事件并入靶核酸序列，如基因组或质粒。在其他实例中，该记录器序列和编辑序列可包含在相同可追踪质粒内的单独的盒中，在这种情况下，该记录器序列和编辑序列通过单独的重组事件同时或顺序地并入靶核酸序列中。

本文提供了用于将多路寡核苷酸合成与重组工程化组合，以产生特异性设计和可追踪突变的文库的方法。筛选和/或选择之后进行高通量测序和/或条形码微阵列方法可以允许快速映射导致感兴趣的表型的突变。

本文公开的方法和组合物可用于同时工程化并追踪靶核酸序列中的工程事件。

可以使用体外装配或克隆技术来生成可追踪质粒。例如，可以使用化学合成、Gibson装配、SLIC、CPEC、PCA、无连接克隆、其他体外寡核苷酸装配技术、常规的基于连接的克隆或其任何组合来生成CREATE-记录器质粒。

可追踪质粒可包含至少一种记录序列如条形码，以及至少一种编辑序列。在大多数情况下，记录序列用于记录和追踪工程事件。每个编辑序列可用于将所需编辑并入靶核酸序列中。该所需编辑可包括该靶核酸序列的插入、缺失、置换或改变。在一些实例中，所述一种或多种记录序列和编辑序列包含在可追踪质粒内所包含的单个盒上，使得它们通过相同的工程事件并入靶核酸序列中。在其他实例中，所述记录序列和编辑序列包含在可追踪质粒内的单独的盒中，使得它们各自通过不同的工程事件并入靶核酸中。在一些实例中，所述可追踪质粒包含两种或更多种编辑序列。例如，一种编辑序列可用于使PAM序列改变或沉默，而第二种编辑序列可用于将突变并入不同的序列中。

可以将记录器序列插入与编辑序列插入位点分离的位点。所插入的记录器序列可以通过1bp或任意数目的碱基对与编辑序列分离。例如，分离距离可以是约1bp、10bp、50bp、100bp、500bp、1kp、2kb、5kb、10kb或更大。分离距离可以是碱基对的任何离散整数。应当容易理解，分离两个插入位点的碱基对的数目的限制可以受到进行插入的基因组、染色体或多核苷酸的大小的限制。在一些实例中，最大分离距离取决于靶核酸或基因组的大小。

可将记录器序列插入编辑序列的相邻位置，或插入编辑序列附近。例如，可将记录器序列插入其中插入有编辑序列的开放阅读框的外部。可将记录器序列插入与其中已插入有编码序列的开放阅读框相邻的非翻译区域。可将记录器序列插入功能中性或非功能性位点。可将记录器序列插入可筛选或可选择标记基因中。

在一些实例中，所述靶核酸序列包含在基因组、人工染色体、合成染色体或游离质粒中。在多个实例中，该靶核酸序列可以在体外或体内。当该靶核酸序列在体内时，可通过转化、转染、缀合、生物弹道、纳米颗粒、细胞渗透技术或其他已知的DNA递送方法或其任何组合将CREATE-记录器质粒引入宿主生物体中。在这样的实例中，该宿主生物可以是真核生物、原核生物、细菌、古菌、酵母或其他真菌。

所述工程事件可包括重组工程化、非同源末端连接、同源重组或同源驱动修复。在一些实例中，该工程事件在体外或体内进行。

本文所述的方法可以在其中核酸指导的核酸酶系统可起作用(例如，靶向和切割DNA)的任何类型的细胞(包括原核细胞和真核细胞)中或体外进行。在一些实施方案中，该细胞是细菌细胞，如埃希氏菌属的种(Escherichia spp.)(例如，大肠杆菌)。在其他实施方案中，该细胞是真菌细胞，如酵母细胞，例如，酵母属的种(Saccharomyces spp.)。在其他实施方案中，该细胞是藻类细胞、植物细胞、昆虫细胞或哺乳动物细胞，包括人细胞。

在一些实例中，细胞是重组生物体。例如，该细胞可包含非天然核酸指导的核酸酶系统。另外地或备选地，该细胞可包含重组系统机制。这样的重组系统可包括λred重组系统，Cre/Lox、attB/attP或其他整合酶系统。适当时，可追踪质粒可具有所选重组系统正确且有效工作所需的互补组分或机制。

用于基因组编辑的方法可包括：(a)将编码至少一个编辑盒和至少一个指导核酸的载体引入第一细胞群体中，从而产生包含该载体的第二细胞群体；(b)在表达或维持核酸指导的核酸酶的条件下维持该第二细胞群体，其中将该核酸指导的核酸酶编码在该第二细胞群体的细胞基因组上的载体(第二载体)上，或以其他方式将其引入细胞，从而导致DNA切割和编辑盒的并入；(c)获得活细胞。这样的方法可任选地进一步包括(d)对第二细胞群体的至少一个细胞中的靶DNA分子进行测序，以鉴定至少一个密码子的突变。

用于基因组编辑的方法可包括：(a)将编码至少一个编辑盒的载体引入第一细胞群体中，所述载体包含本文公开的PAM突变和至少一个指导核酸，从而产生包含该载体的第二细胞群体；(b)在表达或维持核酸指导的核酸酶的条件下维持该第二细胞群体，其中将该核酸指导的核酸酶编码在第二细胞群体的细胞基因组上的载体(第二载体)上，或以其他方式将其引入细胞，从而导致DNA切割、编辑盒的并入以及不包含PAM突变的第二细胞群体的细胞的死亡，而包含PAM突变的第二细胞群体的细胞是活的；(c)获得活细胞。这样的方法可任选地进一步包括(d)对第二细胞群体的至少一个细胞中的靶DNA进行测序，以鉴定至少一个密码子的突变。

用于可追踪基因组编辑的方法可包括：(a)将编码至少一个编辑盒、至少一个记录器盒和至少两个gRNA的载体引入第一细胞群体中，从而产生包含该载体的第二细胞群体；(b)在表达或维持核酸指导的核酸酶的条件下维持该第二细胞群体，其中将该核酸指导的核酸酶编码在第二细胞群体的细胞基因组上的载体(第二载体)上，或以其他方式将其引入细胞，从而导致DNA切割以及编辑盒和记录器盒的并入；(c)获得活细胞。这样的方法可任选地进一步包括(d)对第二细胞群体的至少一个细胞中的靶DNA分子的记录器序列进行测序，以鉴定至少一个密码子的突变。

在可追踪质粒包含被设计为使PAM位点沉默的编辑盒的一些实例中，用于可追踪基因组编辑的方法可包括：(a)将编码至少一个编辑盒、记录器盒和至少两个gRNA的载体引入第一细胞群体中，从而产生包含该载体的第二细胞群体；(b)在表达或维持核酸指导的核酸酶的条件下维持该第二细胞群体，其中将该核酸指导的核酸酶编码在第二细胞群体的细胞基因组上的载体(第二载体)上，或以其他方式将其引入细胞，从而导致DNA切割、编辑盒和记录器盒的并入以及不包含PAM突变的第二细胞群体的细胞的死亡，而包含PAM突变的第二细胞群体的细胞是活的；(c)获得活细胞。这样的方法可任选地进一步包括(d)对第二细胞群体的至少一个细胞中的靶DNA的记录器序列进行测序，以鉴定至少一个密码子的突变。这样的方法还可以进一步包括包含第二PAM突变的记录器盒，使得必须通过编辑盒PAM突变和记录器盒PAM突变来使两个PAM沉默，以便避免细胞死亡。

在一些实例中，转化效率通过使用非靶向指导核酸对照来确定，该对照允许对重组工程化程序和CFU/ng计算进行验证。在一些情况下，绝对有效通过计数每个转化平板上的菌落总数来获得，例如，通过计数来自galK对照的红色和白色菌落。在一些实例中，相对效率通过来自对照(例如，galK对照)的所有菌落中的成功转化体(例如，白色菌落)的总数来计算。

本公开内容的方法可在生成组合文库的效率、规模、成本和/或这样的文件生成的精确度上提供，例如，大于1000x的改善。

本公开内容的方法可在生成基因组或组合文库的效率上提供，例如，大于10x、50x、100x、200x、300x、400x、500x、600x、700x、800x、900x、1000x、1100x、1200x、1300x、1400x、1500x、1600x、1700x、1800x、1900x、2000x或更大的改善。

本公开内容的方法可在生成基因组或组合文库的规模上提供，例如，大于10x、50x、100x、200x、300x、400x、500x、600x、700x、800x、900x、1000x、1100x、1200x、1300x、1400x、1500x、1600x、1700x、1800x、1900x、2000x或更大的改善。

本公开内容的方法可在生成基因组或组合文库的成本上提供，例如，大于10x、50x、100x、200x、300x、400x、500x、600x、700x、800x、900x、1000x、1100x、1200x、1300x、1400x、1500x、1600x、1700x、1800x、1900x、2000x或更多的降低。

本公开内容的方法可在基因组或组合文库生成的精确度上提供，例如，大于10x、50x、100x、200x、300x、400x、500x、600x、700x、800x、900x、1000x、1100x、1200x、1300x、1400x、1500x、1600x、1700x、1800x、1900x、2000x或更大的改善。

用于组合工程化的递归追踪

本文公开了用于迭代轮次工程化的方法和组合物。本文公开了允许通过几个串行工程化循环(例如，图3D或图6)在单个细胞级上实施可追踪工程化的递归工程化策略。这些公开的方法和组合物可以实现能够有效构建和探索复杂基因型空间的基于搜索的技术。术语递归和迭代可以互换使用。

组合工程化方法可包括多轮工程化。本文公开的方法可包括2轮或更多轮工程化。例如，方法可包括2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30轮或多于30轮的工程化。

在一些实例中，在每轮工程化期间，将新的记录器序列如条形码并入靶位点中相同或附近的基因座(例如，图3D，绿色条或图6，黑色条)，使得在整个基因组中构建组合多样性的多个工程化循环(例如，图3E，绿色条或图6，灰色条)之后，记录基因座的PCR或类似反应可用于重建每个组合基因型或确认来自每轮的工程化编辑已被并入靶位点中。

本文公开了用于选择连续轮次工程化的方法。可以通过由编辑盒并入的PAM突变进行选择。可以通过由记录器盒并入的PAM突变进行选择。可以使用可筛选的、可选择的或可反选择的标记进行选择。可以通过靶向由前一轮工程化并入的编辑或记录的位点进行选择，从而针对成功地并入来自两轮或所有之前轮次工程化的编辑和记录器序列的变体进行选择。

这些基因型的定量可用于理解组合突变对大群体的影响以及对诸如上位性等重要生物现象的研究。

可以使用如本文所公开的递归载体系统来实现串行编辑和组合追踪。这些递归载体系统可用于通过转化过程快速移动(例如，图7A)。在一些实例中，这些系统由两种或更多种含有正交复制起点、抗生素标记和gRNA的质粒组成。每个载体中的gRNA可被设计为靶向用于通过核酸指导的核酸酶介导的切割进行破坏的其他抗性标记之一。在一些实例中，这些系统可用于进行转化，在该转化中切换抗生素选择压力以去除先前的质粒并驱动下一轮工程化基因组的富集。可以进行通过转化循环的两个或更多个通道，或者换句话说，可以进行多轮工程化。将必需的记录盒和编辑盒引入本文公开的递归载体中可用于在每个转化步骤中以高效率同时进行基因组编辑和质粒固化。

在一些实例中，本文公开的递归载体系统包含2、3、4、5、6、7、8、9、10种或超过10种独特质粒。在一些实例中，该递归载体系统可以不止一次使用特定质粒，只要在前一轮和后一轮中使用不同的质粒即可。

本文公开的递归方法和组合物可用于将功能恢复至靶向基因组或质粒中的可选择或可筛选元件。该可选择或可筛选元件可包括抗生素抗性基因、荧光基因、独特的DNA序列或水印或其他已知的报告基因、可筛选或可选择基因。在一些实例中，每个连续轮次的工程化均可并入可选择或可筛选元件的片段，使得在工程化轮次结束时，整个可选择或可筛选元件已被并入靶基因组或质粒中。在这样的实例中，只有那些已成功并入所有片段，并因此所有所需的相应突变的基因组或质粒才能被选择或筛选。通过这种方式，所选择或筛选的细胞将被富集用于那些已并入来自每次迭代轮次工程化的编辑的细胞。

递归方法可用于在每个连续轮次工程化中在开启与关闭位置之间或在关闭与开启位置之间切换可选择或可筛选标记。使用这样的方法允许通过要求例如仅使用一个可筛选或可选择标记来保留可用的可选择或可筛选标记。此外，短调节序列或起始密码子或非起始密码子可用于开启和关闭可筛选或可选择标记。这样的短序列可以容易地适合盒或多核苷酸，如合成的盒。

可以使用本文公开的方法和组合物进行一轮或多轮工程化。在一些实例中，每轮工程化用于并入相对于前几轮的编辑独特的编辑。每轮工程化可并入独特的记录器序列。每轮工程化可导致去除或固化前一轮工程中使用的CREATE质粒。在一些实例中，成功并入每轮工程化的记录序列导致完整且功能性的可筛选或可选择标记或独特序列组合。

可以在每轮工程化中插入包含记录序列如条形码或可筛选或可选择标记的独特记录器盒，从而生成指示所进行的编辑或工程化步骤的组合的记录器序列。可以彼此相邻地插入连续的记录序列。可以彼此接近地插入连续的记录序列。可以彼此相距一定距离插入连续序列。

可以彼此相距一定距离插入连续序列。例如，可以插入连续的记录器序列并将其分开0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100bp或大于100bp。在一些实例中，连续的记录器序列分开约10、50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1100、1200、1300、1400、1500bp或大于1500bp。

连续的记录器序列可以被任何所需数目的碱基对分开，并且可以依赖于并且受限于要插入的连续记录器序列的数目、靶核酸或靶基因组的大小和/或所需的最终记录器序列的设计。例如，如果编译的记录器序列是功能性可筛选或可选择标记，则连续的记录序列可插入彼此邻近并且彼此相同的阅读框内。如果编译的记录器序列是待通过测序鉴定的且不具有编码序列元素的独特条形码集，则可以插入连续的记录器序列，其中任何所需数目的碱基对将它们分开。在这些情况下，间隔距离可取决于待使用的测序技术和读取长度限制。

在一些实例中，记录器盒包含将用作针对下一轮工程化的记录器盒的靶位点的着陆位点。通过使用这样的方法，如果成功地并入来自前一轮的记录器盒，则仅可以将连续轮次的记录器盒引入靶位点，从而提供用于本工程化轮次的靶位点(例如，图28)。

指导核酸

指导核酸可以与相容的核酸指导的核酸酶复合，并且可以与靶序列杂交，从而将核酸酶导向靶序列。能够与指导核酸复合的主题核酸指导的核酸酶可被称为与该指导核酸相容的核酸指导的核酸酶。同样地，能够与核酸指导的核酸酶复合的指导核酸可被称为与该核酸指导的核酸酶相容的指导核酸。

指导核酸可以是DNA。指导核酸可以是RNA。指导核酸可包含DNA和RNA两者。指导核酸可包含经修饰的非天然存在的核苷酸。在指导核酸包含RNA的情况下，RNA指导核酸可以由诸如本文公开的质粒、线性构建体或编辑盒的多核苷酸分子上的DNA序列编码。

指导核酸可包含指导序列。指导序列是与靶多核苷酸序列具有足够互补性以与靶序列杂交并将复合核酸指导的核酸酶与靶序列直接序列特异性结合的多核苷酸序列。当使用合适的比对算法进行最佳比对时，指导序列与其相应的靶序列之间的互补程度为约或大于约50％、60％、75％、80％、85％、90％、95％、97.5％、99％或更高。可以在使用用于比对序列的任何合适的算法的情况下确定最佳比对。在一些实施方案中，指导序列的长度为约或大于约5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、75个或更多个核苷酸。在一些实施方案中，指导序列的长度小于约75、50、45、40、35、30、25、20个核苷酸。优选地，该指导序列长10-30个核苷酸。该指导序列的长度可为15-20个核苷酸。该指导序列的长度可为15个核苷酸。该指导序列的长度可为16个核苷酸。该指导序列的长度可为17个核苷酸。该指导序列的长度可为18个核苷酸。该指导序列的长度可为19个核苷酸。该指导序列的长度可为20个核苷酸。

指导核酸可包含支架序列。通常，“支架序列”包含具有足以促进可靶向核酸酶复合物形成的序列的任何序列，其中该可靶向核酸酶复合物包括核酸指导的核酸酶和包含支架序列和指导序列的指导核酸。该支架序列内足以促进可靶向核酸酶复合物形成的序列可包含沿该支架序列内的两个序列区域如参与形成二级结构的一个或两个序列区域的长度的互补程度。在一些情况下，所述一个或两个序列区域包含或编码在同一多核苷酸上。在一些情况下，所述一个或两个序列区域包含或编码在分开的多核苷酸上。可以通过任何合适的比对算法确定最佳比对，并且可进一步考虑二级结构，如一个或两个序列区域内的自身互补性。在一些实施方案中，当最佳比对时，沿两者中较短者的长度的一个或两个序列区域之间的互补程度为约或大于约25％、30％、40％、50％、60％、70％、80％、90％、95％、97.5％、99％或更高。在一些实施方案中，两个序列区域中的至少一个的长度为约或大于约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40、50个或更多个核苷酸。

主题指导核酸的支架序列可包含二级结构。二级结构可包含假结区域。在一些实例中，指导核酸和核酸指导的核酸酶的相容性至少部分地由指导RNA的假结区域内或与之相邻的序列确定。在一些情况下，指导核酸与核酸指导的核酸酶的结合动力学部分地由支架序列内的二级结构确定。在一些情况下，指导核酸与核酸指导的核酸酶的结合动力学部分地由具有支架序列的核酸序列确定。

在本发明的方面，术语“指导核酸”是指包含1)能够与靶序列杂交的指导序列和2)能够与如本文所述的核酸指导的核酸酶相互作用或与之复合的支架序列的多核苷酸。

当两种元件可以形成能够切割靶序列的功能性可靶向核酸酶复合物时，指导核酸可以与核酸指导的核酸酶相容。通常，可以通过扫描与天然核酸指导的核酸酶基因座相邻的序列发现相容指导核酸的相容支架序列。换句话说，可以在接近相应的相容指导核酸或支架序列内的基因组上编码天然核酸指导的核酸酶。

核酸指导的核酸酶可以与核酸酶内源宿主中未发现的指导核酸相容。可以通过经验测试来确定这样的正交指导核酸。正交指导核酸可以来自不同的细菌物种，或者可以是合成的或以其他方式被工程化为非天然存在的。

与普通核酸指导的核酸酶相容的正交指导核酸可包含一种或多种共同特征。共同特征可包括假结区域外的序列。共同特征可包括假结区域。共同特征可包括主序列或二级结构。

可以通过改变指导序列来使指导核酸工程化以靶向所需的靶序列，使得指导序列与靶序列互补，从而允许指导序列与靶序列之间发生杂交。具有工程化指导序列的指导核酸可被称为工程化指导核酸。工程化指导核酸通常是非天然存在的并且在自然界中未发现。

更多方法

本文公开了用于基因组工程化的方法，其采用核酸酶如核酸指导的核酸酶)在靶序列(如DNA或RNA，例如基因组DNA或游离DNA)中进行定向基因组进化/产生变化(缺失、置换，添加)。合适的核酸酶可包括，例如，RNA指导的核酸酶如Cas9、Cpf1、MAD2或MAD7、DNA指导的核酸酶如Argonaute，或其他核酸酶如锌指核酸酶、TALEN或大范围核酸酶。核酸酶基因可以从任何来源获得，如来自细菌、古菌、原核生物、真核生物或病毒。例如，Cas9基因可以从携带相应的II型CRISPR系统的细菌如化脓性链球菌(S.pyogenes)(SEQ ID NO:110)中获得。相对于天然存在的核酸酶的序列，核酸酶的核酸序列和/或氨基酸序列可以是突变的。突变可以是，例如，一个或多个插入、缺失、置换或前述两种或三种的任何组合。在一些情况下，所得突变核酸酶相对于天然存在的核酸酶可具有增强的或降低的核酸酶活性。在一些情况下，所得突变核酸酶相对于天然存在的核酸酶可不具有核酸酶活性。

本文提供了用于核酸指导的核酸酶介导的基因组编辑的方法。一些公开的方法可包括两阶段构建过程，该构建过程依赖于盒文库的生成，该盒文库将来自编辑盒的定向突变直接并入基因组、游离核酸分子或分离的核酸分子中。在一些实例中，在盒文库构建的第一阶段期间，合理设计的编辑盒可以与同靶DNA序列杂交或靶向靶DNA序列的指导核酸(例如，指导RNA)共转化为细胞。在一些实例中，该指导核酸作为RNA分子引入，或将其在DNA分子上编码。

编辑盒可被设计为使得它们将PAM位点的缺失或突变与相邻核酸序列中的一个或多个所需密码子或核酸残基的突变耦合。在一些情况下，缺失或突变的PAM位点不再能被选定的核酸指导的核酸酶识别。在一些实例中，可以使至少一个PAM或多于一个PAM如两个、三个、四个或更多个PAM缺失或突变。

本文公开的方法可以在单次转化中生成整个盒文库。在一些情况下，可以使用来自所述编辑盒的合成特征或引发位点，通过扩增重组染色体，例如通过PCR反应来检索盒文库。在一些实例中，同时并入第二PAM缺失或突变。该方法可以将密码子靶向突变与PAM缺失直接共价耦合。

在一些实例中，存在构建盒文库的第二阶段。在第二阶段期间，携带目的PAM缺失/突变和靶向突变(例如一个或多个核苷酸如一个或多个密码子中的一个或多个核苷酸的所需突变)的PCR扩增的盒文库，，可以共转化为天然细胞。该细胞可以是真核细胞、古菌细胞或原核细胞。可以用指导核酸或编码其的质粒来共转化该盒文库，以生成表达经合理设计的蛋白质文库的细胞群体。可以用指导核酸如gRNA、嵌合gRNA、裂解gRNA或crRNA和trRNA组来共转化文库。该盒文库可包含多个盒，其中每个盒包含编辑盒和指导核酸。该盒文库可包含多个盒，其中每个盒包含编辑盒、记录器盒和两个指导核酸。

在一些可靶向的核酸酶系统中，所述指导核酸可以指导靶序列的选择。如本文所用的，靶序列是指体外或体内的任何基因座，或在其中需要至少一个核苷酸的突变(如至少一个密码子中至少一个核苷酸的突变)的细胞或细胞群体核酸中的任何基因座。该靶序列可以是，例如，基因组基因座、靶基因组序列或染色体外基因座。可将指导核酸表达为被称为指导DNA的DNA分子或被称为指导RNA的RNA分子。指导核酸可包含与靶区域的区域互补的指导序列。指导核酸可包含可与相容的核酸指导的核酸酶相互作用并且可任选地形成二级结构的支架序列。指导核酸可以起到将核酸指导的核酸酶募集至靶位点的作用。指导序列可以与在靶位点上游的区域互补。指导序列可以与靶位点的至少一部分互补。指导序列可以与靶位点完全互补(100％互补)或包含一个或多个错配，条件是它与靶位点充分互补以特异性杂交/指导和募集核酸酶。作为非限制性实例，合适的核酸指导的核酸酶包括CRISPR核酸酶、Cas核酸酶如Cas9或Cpf1、MAD2和MAD7。

在一些CRISPR系统中，CRISPR RNA(crRNA或含间隔区的RNA)和反式激活CRISPRRNA(tracrRNA或trRNA)可以指导靶序列的选择。如本文所用，靶序列是指体外或体内的任何基因座，或在其中需要至少一个核苷酸的突变(如至少一个密码子中至少一个核苷酸的突变)的细胞或细胞群体核酸中的任何基因座。该靶序列可以是，例如，基因组基因座、靶基因组序列或染色体外基因座。可将tracrRNA和crRNA表达为被称为单指导RNA、指导RNA或gRNA的单个嵌合RNA分子。gRNA的核酸序列包含第一核酸序列(也被称为第一区域，它与靶区域的区域互补)和第二核酸序列(也被称为第二区域，它形成茎环结构并用来将CRISPR核酸酶募集至靶区域)。gRNA的第一区域可与在靶基因组序列上游的区域互补。gRNA的第一区域可与靶区域的至少一部分互补。gRNA的第一区域可以与靶基因组序列完全互补(100％互补)或包含一个或多个错配，条件是它与靶基因组序列充分互补以特异性地杂交/指导和募集CRISPR核酸酶，如Cas9或Cpf1。

gRNA的指导序列或第一区域的长度可为至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29个或至少30个核苷酸的长度。gRNA的指导序列或第一区域的长度可为至少20个核苷酸。

可由支架序列或gRNA的第二核酸序列形成的茎环结构的长度可为至少50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、7、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100个核苷酸。茎环结构的长度可为80至90或82至85个核苷酸。形成茎环结构的支架序列或gRNA的第二区域的长度可为83个核苷酸。

使用本文公开的方法引入第一细胞中的盒的指导核酸可以与引入第二细胞的第二盒的指导核酸相同。可以将超过一种指导核酸引入第一细胞群体和/或第二细胞群体。所述超过一种指导核酸可包含与超过一种靶区域互补的指导序列。

本文公开的方法可包括使用寡核苷酸。这样的寡核苷酸可以获自或来源于多个来源。例如，寡核苷酸可以来源于通过非同源随机重组(NRR)进行多样化的核酸文库；这样的文库被称为NRR库。可以合成寡核苷酸，例如通过基于阵列的合成或其他已知的化学合成方法。寡核苷酸的长度可取决于用于获得寡核苷酸的方法。寡核苷酸的长度可为大约50-200个核苷酸、75-150个核苷酸或80-120个核苷酸。寡核苷酸的长度可为约10、20、30、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200个或更多个核苷酸，包括任何整数，例如，51、52、53、54、201、202等。寡核苷酸的长度可为约100、200、300、400、500、600、700、800、900、1000、1250、1500、1750、2000个或更多个的核苷酸，包括任何整数，例如，101、203、1001、2001、2010等。

可以组合或装配寡核苷酸和/或其他核酸分子以生成盒。这样的盒可包含(a)与所述细胞的核酸的靶区域同源并包含相对于该靶区域的至少一个核苷酸或一个密码子的所需突变的区域，以及(b)前间隔区邻近基序(PAM)突变。该PAM突变可以是一个或多个核苷酸的任何插入、缺失或置换，其使PAM的序列发生突变，使得其不再被核酸指导的核酸酶系统或CRISPR核酸酶系统识别。包含这样的PAM突变的细胞可被称为对核酸酶介导的杀伤“有免疫力”。相对于靶区域的序列的所需突变可以是一个或多个核苷酸的插入、缺失和/或置换。在一些实例中，所述一个或多个核苷酸的插入、缺失和/或置换处于靶区域的至少一个密码子中。或者，可以在单一合成中合成盒，该盒包含(a)与该细胞的核酸的靶区域同源并包含相对于该靶区域的至少一个核苷酸或一个密码子的所需突变的区域、(b)前间隔区邻近基序(PAM)突变以及可选的(c)与该细胞的核酸的第二靶区域同源并包含记录器序列的区域。

本文公开的方法可应用于来自包括细菌和古菌在内的任何原核生物，或包括酵母、哺乳动物和人基因的任何真核生物，或任何病毒颗粒的任何感兴趣的靶核酸分子。核酸模块可以是非编码核酸序列、基因、基因组、染色体、质粒、游离核酸分子、人工染色体、合成染色体或病毒核酸。

本文公开了评估供体菌株文库的回收(recovery)效率的方法。回收效率可以基于PCR产物的存在或扩增子或PCR产物大小的变化或用针对选定靶基因座的引物获得的序列来验证。引物可被设计为与供体核酸分子上包含的内源序列或异源序列杂交。例如，PCR引物可被设计为与异源序列杂交，使得只有并入供体核酸时才能进行PCR。对来自所回收的文库的PCR产物的测序表明，来自dsDNA盒或供体序列的异源序列或合成引发位点可以以约90-100％的效率并入。在其他实例中，效率可以为约5％、10％、20％、30％、40％、50％、60％、70％、75％、80％、85％、90％、95％、99％或100％。

在一些情况下，可以通过在转移到野生型供体菌株之前在基因缺乏的菌株中进行盒构建以试图防止在供体构建阶段中突变的损失，来评估改善本文公开的方法的最终编辑效率的能力。另外地或备选地，可以通过靶向必需基因来评估所公开方法的效率。必需基因可包含病毒颗粒、细胞或生物体的存活或复制所必需的任何基因。在一些实例中，必需基因包括dx、metA和folA。使用所述的指导核酸设计策略有效地靶向必需基因。其他合适的必需基因是本领域公知的。

本文提供了通过调节核酸指导的核酸酶的水平来提高编辑效率的方法。这可以通过使用拷贝控制质粒来完成，如高拷贝数质粒或低拷贝数质粒。与每个细胞可具有约1000个拷贝的高拷贝数质粒相反，低拷贝数质粒可以是每个细胞可具有约20个或更少拷贝的质粒。高拷贝数质粒和低拷贝数质粒是本领域公知的，并且应当理解，为了将质粒表征为高拷贝数或低拷贝数，不需要知道每个细胞的精确质粒拷贝。

在一些情况下，核酸指导的核酸酶(如Cas9、Cpf1、MAD2或MAD7)的表达水平降低可以增加转化、编辑和/或记录效率。在一些情况下，通过在低拷贝数质粒上表达核酸指导的核酸酶来降低核酸指导的核酸酶的表达水平。

在一些情况下，核酸指导的核酸酶(如Cas9、Cpf1、MAD2或MAD7)的表达水平增加可以增加转化、编辑和/或记录效率。在一些情况下，通过在高拷贝数质粒上表达核酸指导的核酸酶来增加核酸指导的核酸酶的表达水平。

还设想了调节蛋白质表达水平的其他方法，并且这些方法是本领域已知的。这样的方法包括使用诱导型或组成型启动子、将增强子或其他表达调控元件并入表达质粒、使用RNAi、amiRNAi或其他RNA沉默技术来调节转录水平、将感兴趣的蛋白质融合至降解结构域或本领域已知的任何其他方法。

本文提供了用于生成突变体文库的方法。在一些实例中，可以在重组工程化后1-3小时内有效地构建并检索该突变体文库。在一些实例中，在重组工程化后0.5、1、2、3、4、5、6、7、8、9、10、12或24小时内构建该突变体文库。在一些实例中，可以在重组工程化后和/或在通过重组工程化进行构建后0.5、1、2、3、4、5、6、7、8、9、10、12、24、36或48小时内检索该突变体文库。

本文公开的一些方法可用于可追踪的精确基因组编辑。在一些实例中，本文公开的方法可以使用编码编辑盒和指导核酸，以及可选的记录器盒和第二指导核酸的单个盒来实现高效编辑/突变。或者，单个载体可编码编辑盒，同时顺序或同时提供指导核酸。当与平行DNA合成(如基于阵列的DNA合成)一起使用时，本文公开的方法可以提供数百个或数千个精确编辑/突变的单步生成。可以通过对载体上的编辑盒进行测序而不是通过对细胞或生物体的基因组或基因组的一部分进行测序来映射突变。

本文公开的方法可以在蛋白质和基因组工程化应用方面以及对于突变如实验室进化实验中鉴定的突变的重建具有广泛应用。在一些实例中，本文公开的方法和组合物可以将可包括所需突变和PAM突变的编码盒与在单个载体上编码指导核酸的基因组合在一起。

在一些实例中，可追踪的突变体文库可以在单一转化或单一反应中生成。

本文公开的方法可包括将包含含有所需突变和PAM突变的编辑盒的盒引入细胞或细胞群体中。在一些实施方案中，引入盒或载体的细胞还包含核酸指导的核酸酶，如Cas9、Cpf1、MAD2或MAD7。在一些实施方案中，将编码核酸指导的核酸酶的基因或mRNA同时地、顺序地、依次地引入细胞或细胞群体中。可激活包括核酸指导的核酸酶和指导核酸的可靶向的核酸酶系统在细胞或细胞群体中的表达，使得指导核酸将核酸指导的核酸酶募集至发生dsDNA切割的靶区域。

在一些实例中，不希望受到任何特定理论的束缚，与靶区域互补的编辑盒的同源区域使得PAM和靶区域的一个或多个密码子发生突变。该细胞群体中没有整合PAM突变的细胞可以经历由核酸指导的核酸酶介导的dsDNA切割引起的未编辑的细胞死亡。在一些实例中，该细胞群体中整合PAM突变的细胞不经历细胞死亡；它们保持存活并且选择性地富集为高丰度。可以获得活细胞并且可以提供可追踪或靶向突变的文库。

在一些实例中，不希望受任何特定理论的束缚，与靶序列互补的记录器盒的同源区域使得PAM发生突变并将条形码引入靶序列。该细胞群体中没有整合PAM突变的细胞可以经历由核酸指导的核酸酶介导的dsDNA切割引起的未编辑的细胞死亡。在一些实例中，该细胞群体中整合PAM突变的细胞不经历细胞死亡；它们保持存活并且选择性地富集到高丰度。可以获得活细胞并且可以提供可追踪突变的文库。

可以将编码核酸指导的核酸酶的单独载体或mRNA引入细胞或细胞群体中。可使用本领域已知的任何方法或技术将载体或mRNA引入细胞或细胞群体中。例如，可以通过标准方案如转化(包括化学转化和电穿孔)、转导和粒子轰击引入载体。另外地或备选地，可以通过标准方案，如本文公开的转化，和/或通过涉及细胞可渗透肽或纳米颗粒的技术，来引入mRNA。

编辑盒可包含(a)区域，该区域识别(杂交)细胞或细胞群体中核酸的靶区域，与该细胞的核酸的靶区域同源并且包含可相对于该靶区域的、在至少一个密码子中的至少一个核苷酸的突变(被称为所需突变)，和(b)前间隔区邻近基序(PAM)突变。在一些实例中，该编辑盒还包含条形码。该条形码可以是独特的条形码或相对独特的条形码，使得可以基于条形码来鉴定相应的突变。该PAM突变可以是一个或多个核苷酸的任何插入、缺失或置换，其使PAM的序列发生突变，使得突变的PAM(PAM突变)不被选定的核酸指导的核酸酶系统识别。包含如PAM突变的细胞可被称为对核酸指导的核酸酶介导的杀伤“有免疫力”。相对于该靶区域的序列的所需突变可以是一个或多个核苷酸的插入、缺失和/或置换并且可以是该靶区域的至少一个密码子。在一些实施方案中，所述编辑盒上PAM突变与所需突变之间的距离为至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、40、50、60、70、80、90或100个核苷酸。在一些实施方案中，PAM突变位于距离编辑盒的末端至少9个核苷酸的位置处。在一些实施方案中，所需突变位于距离编辑盒的末端至少9个核苷酸的位置处。

所需突变可以是核酸序列相对于靶序列的序列的插入。插入靶序列的核酸序列可以是任何长度。在一些实施方案中，所插入的核酸序列的长度为至少1、2、3、4、5、10、20、30、40、50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900个或至少2000个核苷酸。在核酸序列插入靶序列中的实施方案中，所述编辑盒包含长度为至少10、15、20、25、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59个或至少60个核苷酸并且与靶序列同源的区域。所述同源臂或同源区域的长度可为约10、20、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200个或更多个核苷酸，包括其任何整数。所述同源臂或同源区域的长度可超过200个核苷酸。

条形码可以是独特的条形码或相对独特的条形码，使得可以基于该条形码来鉴定相应的突变。在一些实例中，该条形码是在自然界中未发现的非天然存在的序列。在大多数实例中，所述编辑盒内的所需突变和条形码的组合是非天然存在的并且在自然界中未发现。条形码的长度可为任何数目的核苷酸。条形码的长度可为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30个或超过30个核苷酸。在一些情况下，该条形码的长度超过30个核苷酸。

编辑盒或记录器盒可包含编码指导核酸的基因的至少一部分，以及可选的与编码的指导核酸可操作地连接的启动子。在一些实施方案中，编码指导核酸的基因部分编码与靶序列互补的指导核酸部分。与靶序列或指导序列互补的指导核酸部分的长度可为至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29个或至少30个核苷酸。在一些实施方案中，该指导序列的长度为24个核苷酸。在一些实施方案中，该指导序列的长度为18个核苷酸。

在一些实施方案中，所述编辑盒或记录器盒进一步包含至少两个引发位点。所述引发位点可用于例如通过PCR来扩增盒。在一些实施方案中，所述指导序列的一部分用作引发位点。

用于在所述方法中使用的编辑盒或记录器盒可以获自或来源于多个来源。例如，可以例如通过基于阵列的合成、多路合成、多平行合成、PCR装配、体外装配、Gibson装配或本领域已知的任何其他合成方法来合成所述盒。在一些实施方案中，例如通过基于阵列的合成、多路合成、多平行合成、PCR装配、体外装配、Gibson装配或本领域已知的任何其他合成方法来合成所述编辑盒或记录器盒。所述编辑盒或记录器盒的长度可取决于获得所述盒所使用的方法。

编辑盒可以为大约50-300个核苷酸、75-200个核苷酸或80-120个核苷酸的长度。在一些实施方案中，该编辑盒可以是50个核苷酸与1Mb之间的任何离散长度。

记录器盒的长度可为大约50-300个核苷酸、75-200个核苷酸或80-120个核苷酸。在一些实施方案中，该记录器盒可以是50个核苷酸与1Mb之间的任何离散长度。

本文公开的方法还可涉及获得编辑盒和记录器盒以及构建可追踪质粒或载体。构建载体的方法是本领域普通技术人员已知的，并且可涉及将盒连接至载体骨架中。在一些实例中，通过体外DNA装配方法、寡核苷酸装配、基于PCR的装配、SLIC、CPEC或本领域公知的其他装配方法进行质粒构建。在一些实施方案中，可以在构建载体之前例如通过PCR来扩增盒或盒的亚组(库)。

可以在表达核酸酶的条件下维持或培养包含编码核酸指导的核酸酶的多核苷酸的细胞或细胞群体。可以控制核酸指导的核酸酶表达或者可以组成性地进行核酸指导的核酸酶表达。本文所述的方法可涉及在核酸酶表达被激活的条件下维持细胞，从而导致核酸酶例如Cas9、Cpf1、MAD2或MAD7的产生。表达核酸指导的核酸酶的具体条件可取决于诸如用于调节核酸酶表达的启动子的性质等因素。可以在诱导物分子如阿拉伯糖的存在下诱导核酸指导的核酸酶表达。当包含核酸指导的核酸酶编码DNA的细胞或细胞群体在诱导物分子的存在下时，可发生核酸酶的表达。可以在阻抑物分子的存在下抑制CRISPR-核酸酶表达。当包含编码DNA的核酸指导的核酸酶的细胞或细胞群体在不存在阻抑核酸酶表达的分子时，可发生核酸酶的表达。

可以从经历由核酸指导的核酸酶介导的杀伤引起的未编辑的细胞死亡的细胞中获得或分离出保持存活的细胞或细胞群体；这可以通过例如将所述细胞群体涂布在培养表面上以允许活细胞生长(该活细胞随后可用于评估)来完成。

本文公开了用于在不需要对细胞的基因组或大部分基因组进行测序的情况下鉴定突变的方法。该方法可涉及对编辑盒、记录器盒或条形码进行测序以鉴定一个或多个密码子的突变。可以对作为载体的组件的编辑盒进行测序，或在从所述载体中分离出编辑盒并任选地扩增之后进行测序。可以使用本领域已知的任何测序方法，如通过Sanger测序或下一代测序方法来进行测序。

本文所述的一些方法可以在其中可靶向的核酸酶系统可起作用或靶向和切割DNA的任何类型的细胞(包括原核细胞和真核细胞)中进行。在一些实施方案中，该细胞是细菌细胞，如埃希氏菌属的种(Escherichia spp.)，例如，大肠杆菌。在其他实施方案中，该细胞是真菌细胞，如酵母细胞，例如，酵母属的种(Saccharomyces spp.)。在其他实施方案中，该细胞是藻类细胞、植物细胞、昆虫细胞或哺乳动物细胞，包括人细胞。

“载体”是包含所需序列或有待递送至细胞或在细胞中表达的序列的多种核酸中的任意一种。例如，可以通过限制和连接或通过本领域已知的重组或装配方法将所需序列包含在载体中。载体通常由DNA组成，尽管RNA载体也是可用的。载体包括但不限于：质粒、粘粒(fosmid)、噬菌粒、病毒基因组、人工染色体和合成核酸分子。

在本文公开的方法中有用的载体可包含至少一种如本文所述的编辑盒、至少一种编码gRNA的基因和可选的启动子和/或条形码。在载体上可包含多于一个编辑盒，例如2、3、4、5、6、7、8、9、10个或更多个编辑盒。所述多于一个编辑盒可被设计为靶向不同的靶区域，例如，可以存在不同的编辑盒，每个编辑盒包含至少一个与不同靶区域同源的区域。在其他实例中，每个编辑盒靶向相同的靶区域，而每个编辑盒包含相对于靶区域的不同的所需突变。在其他实例中，多个编辑盒可包含靶向相同靶区域的编辑盒和靶向不同靶区域的编辑盒的组合。每个编辑盒可包括对条形码进行鉴定。备选地或另外地，所述载体可包含编码多于一个gRNA，例如2、3、4、5、6、7、8、9、10个或更多个gRNA的一种或多种基因，。所述多于一个gRNA可包含与不同靶区域的一部分互补的区域，例如，如果存在不同的gRNA，则每个gRNA可以与不同靶区域的一部分互补。在其他实例中，所述多于一个gRNA可各自靶向相同的靶区域。在其他实例中，所述多于一个gRNA可以是靶向相同和不同靶区域的gRNA的组合。

可将包含编码指导核酸的一部分的基因的盒连接或装配至编码指导核酸的另一部分的载体中。在连接或装配后，来自所述盒的指导核酸的部分与指导核酸的另一部分可以形成功能性指导核酸。启动子与编码指导核酸的基因可以可操作地连接。

在一些实施方案中，所述方法包括引入编码核酸指导的核酸酶的第二载体，如Cas9、Cpf1、MAD2或MAD7。该载体可进一步包含与编码核酸指导的核酸酶的基因可操作地连接的一个或多个启动子。

如本文所用，“可操作地”连接可以意指启动子影响或调节诸如编码gRNA的基因或编码CRISPR核酸酶的基因等基因的编码DNA的转录。

启动子可以是天然启动子，如在引入载体的细胞中存在的启动子。启动子可以是诱导型或阻抑型启动子，例如可以调节该启动子以允许诸如编码指导核酸的基因或编码核酸指导的核酸酶等基因的诱导型或阻抑型转录。由分子的存在或不存在调节的这类启动子可分别被称为诱导物或阻抑物。表达指导核酸或核酸指导的核酸酶所需的启动子的性质可以根据物种或细胞类型而变化，并且可以被本领域普通技术人员所认识到。

可以在引入如本文所公开的可追踪质粒之前或同时，将编码核酸指导的核酸酶的单独载体引入细胞或细胞群体中。可将编码核酸指导的核酸酶的基因整合到细胞或细胞群体的基因组中，或者可以游离地维持该基因。可以在引入可追踪质粒之前或在引入可追踪质粒之后，将编码核酸指导的核酸酶的DNA整合到细胞基因组中。在一些实例中，核酸分子，如编码核酸指导的核酸酶的DNA，可以由整合到基因组中的DNA表达。在一些实施方案中，将编码Cas9、Cpf1、MAD2或MAD7的基因整合到细胞的基因组中。

在本文所述的方法中有用的载体或盒可进一步包含两个或更多个引发位点。在一些实施方案中，侧翼引发位点的存在允许载体或盒的扩增。

在一些实施方案中，盒或载体编码核酸指导的核酸酶，该核酸指导的核酸酶包含一个或多个核定位序列(NLS)，如约或多于约1、2、3、4、5、6、7、8、9、10个或更多个NLS。在一些实施方案中，所述工程化核酸酶在氨基末端或其附近包含约或多于约1、2、3、4、5、6、7、8、9、10个或更多个NLS，在羧基末端或其附近包含约或多于约1、2、3、4、5、6、7、8、9、10个或更多个NLS，或这些NLS的组合(例如在氨基末端处的一个或多个NLS和在羧基末端处的一个或多个NLS)。当存在多于一个NLS时，每个NLS均可独立于其他NLS选择，使得单个NLS可存在于多于一个拷贝中和/或与一个或多个拷贝中存在的一个或多个其他NLS组合。在本发明的优选实施方案中，所述工程化核酸酶包含至多6个NLS。在一些实施方案中，当NLS的最近氨基酸处于沿着来自N-末端或C-末端的多肽链的约1、2、3、4、5、10、15、20、25、30、40、50个或更多个氨基酸内时，认为NLS在N-末端或C-末端附近。NLS的非限制性实例包括来源于以下的NLS序列：具有氨基酸序列PKKKRKV(SEQ ID NO:111)的SV40病毒大T抗原的NLS；来自核质蛋白的NLS(例如具有序列KRPAATKKAGQAKKKK(SEQ ID NO:112)的核质蛋白二分体NLS)；具有氨基酸序列PAAKRVKLD(SEQ ID NO:113)或RQRRNELKRSP(SEQ ID NO:114)的c-myc NLS；具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:115)的hRNPA1M9NLS；来自输入蛋白-α的IBB结构域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ IDNO:1116)；肌瘤T蛋白的序列VSRKRPRP(SEQ ID NO:117)和PPKKARED(SEQ ID NO:115)；人p53的序列PQPKKKPL(SEQ ID NO:119)；小鼠c-abl IV的序列SALIKKKKKMAP(SEQ ID NO:120)；流感病毒NS1的序列DRLRR(SEQ ID NO:121)和PKQKKRK(SEQ ID NO:122)；肝炎病毒δ抗原的序列RKLKKKIKKL(SEQ ID NO:123)；小鼠Mx1蛋白的序列REKKKFLKRR(SEQ ID NO:124)；人聚(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK(SEQ ID NO:125)；以及类固醇激素受体(人)糖皮质激素的序列RKCLQAGMNLEARKTKK(SEQ ID NO:126)。

通常，所述一个或多个NLS具有足够的强度以驱动核酸指导的核酸酶在真核细胞的细胞核中以可检测的量积累。通常，核定位活动的强度可以来源于NLS的数目、所使用的特定NLS或这些因素的组合。可以通过任何合适的技术来进行细胞核中积累的检测。例如，可检测的标记可以与核酸指导的核酸酶融合，使得可以使细胞内的位置可视化，如与用于检测细胞核位置的手段(例如，对细胞核特异的染色剂，如DAPI)组合。细胞核也可从细胞中分离出，然后可以通过任何合适的检测蛋白质的方法如免疫组织化学、Western印迹法或酶活性测定来分析其内容。与未暴露于核酸指导的核酸酶或可靶向核酸酶复合物的对照，或暴露于缺少一个或多个NLS的核酸指导的核酸酶的对照相比，也可以间接确定核中的积累，如通过测定核酸指导的核酸酶复合物形成的效果(例如，测定靶序列上的DNA切割或突变，或测定受可靶向核酸酶复合物形成和/或核酸指导的核酸酶活性影响的改变的基因表达活性)。

ProSAR

本文公开的方法能够同时使几个至几百个基因序列或蛋白质工程化。这些方法可以允许人们在单个实验中将所需蛋白质集合上的许多或所有可能的残基变化映射到感兴趣的性状上，作为感兴趣的个体蛋白质的一部分或作为途径的一部分。该方法至少可以如下使用：通过i)映射针对特定生物化学途径中或催化类似反应的任何数目的感兴趣蛋白质的任何数目的残基变化，或ii)映射在具有特定调节子的任何数目的感兴趣蛋白质的调节位点中的任何数目的残基，或iii)映射用于治疗健康状况的生物制剂的任何数目的残基。

在一些实施方案中，本文所述的方法包括鉴定影响任何数目的残基(如一种或多种靶蛋白的一种或多种或所有残基)的一种或多种靶基因的遗传变异。根据这些实施方案，本文公开的组合物和方法允许平行分析有助于性状的两种或更多种靶蛋白或蛋白质。通过所描述的单个实验对多种蛋白质进行平行分析可以促进鉴定、修饰和设计优良系统，例如用于产生真核或原核副产物、产生真核副产物(例如原核生物体中的生物制剂，如生长因子或抗体)等。用于分析和治疗疾病的相关生物制剂可以在这些基因工程化环境中产生，该基因工程化环境可以减少生产时间，提高质量，同时降低制造商和消费者的成本。

本文公开的一些实施方案包括用于研究基因或基因区段的遗传变异的构建体，其中该基因或基因区段能够生成蛋白质。可以生成任何数目残基，如与可追踪试剂例如条形码连接的靶蛋白的一个、两个、多于两个或所有残基修饰的构建体。指示靶蛋白的基因的遗传变异的条形码可位于基因的开放阅读框之外。在一些实施方案中，这样的条形码可位于远离基因数百或数千个碱基的位置。本文预期这些方法可以在体内进行。在一些实例中，这样的构建体包含如本文所公开的可追踪多核酸或质粒。

本文所述的构建体可用于编译遗传变异的综合文库，该综合文库包括一种靶蛋白、多于一种靶蛋白或有助于性状的靶蛋白的所有残基变化。在某些实施方案中，本文公开的文库可用于选择具有改善质量的蛋白质以产生改善的单个或多个蛋白质系统，例如用于产生副产物，如化学品、生物燃料、生物制剂、药物制剂，或用于生物质或与非选择性系统相比的生物制剂。

蛋白质序列-活性关系(ProSAR)映射

了解蛋白质的氨基酸结构与其整体功能之间的关系对于生物学家和工程师而言仍然具有重要的实践、临床和科学意义。定向进化可以是强大的工程化和发现工具，但突变的随机且往往为组合性的性质使得它们的个体影响难以量化，从而挑战进一步的工程化。对单个残基或饱和诱变的贡献进行更系统的分析对于整个蛋白质而言仍然是劳动力密集和时间密集的，并且使用标准方法在合理的时间尺度上平行处理多个蛋白质(如代谢途径或多蛋白质复合物)是根本不可能的。

本文提供了可用于使用条形码化寡核苷酸的混合物来快速且有效地检查病毒、微生物或真核基因组中的一些或所有基因的作用的方法。在一些实施方案中，这些组合物和方法可用于开发用于全面映射蛋白质结构-活性关系(ProSAR)的强大新技术。

使用本文公开的方法和组合物，多路盒合成可以与重组工程化组合，以平行地沿着一个或多个感兴趣的基因产生特异性设计和条形码化突变的突变文库。筛选和/或选择之后进行高通量测序和/或条形码微阵列方法可以允许快速映射蛋白质序列-活性关系(ProSAR)。在一些实施方案中，系统的ProSAR映射可以阐明单个氨基酸突变以改善功能和/或活性和/或稳定性等。

方法可以是迭代的，以组合地改善功能、活动或稳定性。盒可以通过寡核苷酸合成而生成。鉴于与重组工程化组合的多路寡核苷酸合成的现有能力可以达到每个阵列超过120,000个寡核苷酸，本文公开的方法可以缩放至在单个实验中构建数十至数百种蛋白质的突变体文库。在一些实例中，可以通过本文公开的方法生成的突变体文库部分地或完全地覆盖至少1、2、3、4、5、6、7、8、9、10、15、25、50、75、100、150、200、250、300、400、500、600、700、800、900、1000种或更多种蛋白质。

本文公开了同时构建几种不同蛋白质的条形码化置换文库的策略。使用现有的多路DNA合成技术，如所公开的，对于一种或多种蛋白质构建体的部分或完全置换文库可以同时对一种或几百种蛋白质进行条形码化或非条形码化(如果需要)。在一些实例中，这样的文库包含如本文所公开的可追踪质粒。

本文中的一些实施方案适用于具有相应筛选或活性选择的任何蛋白质的分析和结构/功能/稳定性文库构建。盒文库大小可取决于感兴趣的蛋白质中氨基酸的数目(N)，其中包含每个位置处的所有20个氨基酸和可选的非天然存在的氨基酸的完整饱和文库缩放为19(或更多)×N，并且丙氨酸映射文库缩放为1×N。因此，在一些实例中，鉴于目前每个阵列至少120,000个寡核苷酸的多路寡核苷酸合成能力，筛选甚至超过1,000个氨基酸的非常大的蛋白质是易处理的。

除了活性筛选之外或作为活性筛选的替代，可以使用本文公开的方法和盒有效地测试具有开发的高通量筛选和选择的更一般的性质。例如，通用蛋白质折叠和溶解度报道分子可被工程化用于在细胞质、周质和内膜中表达。在一些实例中，可以在不同条件如不同温度、不同底物或辅因子下筛选蛋白质文库，以便鉴定表达各种性状所需的残基变化。在其他实施方案中，因为可以一次分析一个残基，所以对于特定性状(如热稳定性、对环境压力的抗性、或增加或减少的功能或生产)重要的残基的突变，可以经由多路重组工程化与对各种其他性状(如催化活性)重要的突变组合，以产生用于多性状优化的组合文库。

本文公开的方法可以提供产生和/或全面评价一种或多种靶蛋白的体内突变文库。这些方法可以经由记录器盒或条形码化技术扩展，以生成蛋白质中任意数目残基或每个残基的可追踪突变文库。该方法可以基于蛋白质序列-活性关系映射方法扩展至体内工作，从而能够根据选定的技术同时处理一种或几种至数百种蛋白质。例如，这些方法允许人们在单个实验中将所需蛋白质集合上的任何数目的、大部分的或所有可能的残基变化映射到感兴趣的性状上，作为感兴趣的个体蛋白质的一部分或作为途径的一部分。

在一些实例中，这些方法至少可以如下使用：通过i)映射针对特定生物化学途径(如番茄红素产生)中或催化类似反应的任何数目或所有蛋白质(如脱氢酶或用于产生所需效果或产生产物的途径的其他酶)的任何数目或所有残基变化或ii)映射在具有特定调节机制(如热休克反应)的任何数目或所有蛋白质的调节位点中的任何数目或所有残基，或iii)映射用于治疗健康状况的生物制剂的任何数目或所有残基，如胰岛素、生长因子(HCG)、抗癌生物制剂或用于缺乏群体的替代蛋白质。

可以分配与多种输入参数相关的得分，以便生成用于设计基因组工程化生物体或系统的一个或多个综合得分。这些得分可以反映基因或遗传基因座中遗传变异的质量，因为它们与用于预定的生产、一个性状或多个性状的生物体的选择或生物体的设计相关。某些生物体或系统可根据改善的生物体对生物精炼、生物质如作物、树木、草、作物残留物或森林残留物、生物燃料生产的需求进行设计，并且使用生物转化、发酵、化学转化和催化来生成和使用化合物、生物制药生产和生物生产。在某些实施方案中，这可以通过本文公开的遗传操作方法调节微生物的生长或产生来实现。

通过本文公开的编码蛋白质的基因的方法进行的遗传操作可用于产生可导致所需表型的所需遗传变化，并且可以通过多种技术实现，该技术包括但不限于：i)新的遗传物质的引入，ii)现有遗传物质的遗传插入、破坏或去除，以及iii)遗传物质的突变如点突变，或导致具有所需表型变化的所需遗传变化的i、ii和ii的任何组合。突变可以是定向的或随机的，除了包括但不限于通过PCR的易错或定向诱变、增变菌株和随机诱变的突变。可以使用如本文所公开的可追踪质粒和方法并入突变。

所公开的方法可用于将高阶修饰插入和累积到微生物的基因组或靶蛋白中；例如，描述了同一基因组中的多个不同位点指定的突变以高效率生成超过1、5、10、15、20、25、30、40、50、60、70、80、90、100、150、200、250、300个或更多个靶向修饰的基因组文库。在一些实例中，这些突变在调节模块、调节元件、蛋白质编码区域或非编码区域内。蛋白质编码修饰可包括但不限于氨基酸变化、密码子优化和翻译调整。

在一些情况下，提供了用于将试剂共递送至单个生物细胞的方法。该方法通常涉及两个或更多个盒的附接或连接，然后将连接的盒递送至单个细胞。通常，本文提供的方法涉及将两个或更多个盒递送至单个细胞。在许多情况下，期望每个单独的细胞接收两个或更多个盒。常规的试剂递送方法通常可能是低效和/或不一致的，从而导致一些细胞仅接收一个盒的情况。本文提供的方法可以改善试剂递送的效率和/或一致性，使得细胞群体中的大部分细胞各自接收两个或更多个盒。例如，细胞群体中超过50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％的细胞可以接收两个或更多个盒。

可以通过本领域的任何已知方法连接所述两个或更多个盒，并且通常所选择的方法与盒的化学性质相当。通常，通过共价键来连接(即，共价连接)所述两个或更多个盒，然而，设想其他类型的非共价化学键，如氢键、离子键和金属键。通过这种方式，编辑盒和记录器盒可连接并递送至单个细胞中。然后将已知的编辑与该细胞的已知记录器序列或条形码序列相关联。

在一个实例中，所述两个或更多个盒是核酸，如两个或更多个核酸。所述核酸可以是RNA、DNA或两者的组合，并且可以含有任何数目的经化学修饰的核苷酸或核苷酸类似物。在一些情况下，将两个或更多个RNA盒连接以供递送至单个细胞。在其他情况下，将两个或更多个DNA盒连接以供递送至单个细胞。在另外其他的情况下，将DNA盒和RNA盒连接以供递送至单个细胞。所述核酸可来源于基因组RNA、互补DNA(cDNA)或化学或酶促合成的DNA。

盒的长度可为3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、约110、约120、约130、约140、约150、约160、约170、约180、约190、约200、约210、约220、约230、约240、约250、约275、约300、约325、约350、约375、约400、约425、约450、约475、约500、约525、约550、约575、约600、约625、约650、约675、约700、约725、约750、约775、约800、约825、约850、约875、约900、约925、约950、约975、约1000、约1100、约1200、约1300、约1400、约1500、约1750、约2000、约2500、约3000、约4000、约5000、约6000、约7000、约8000、约9000、约10,000个或更多个核苷酸残基，直至全长蛋白质编码或调节遗传元件。

两个或更多个盒可以连接在线性核酸分子上，或者可以连接在质粒或环状核酸分子上。所述两个或更多个盒可以彼此直接连接，或者可以通过一个或多个核苷酸间隔物或连接体分开。

两个或更多个盒可以共价连接在线性盒上，或者可以共价连接在质粒或环状核酸分子上。所述两个或更多个盒可以彼此直接共价连接，或者可以通过一个或多个核苷酸间隔物或连接体分开。

可以连接任何数目和种类的盒以用于共同递送。例如，所述两个或更多个盒可包括核酸、脂质、蛋白质、肽、小分子或其任何组合。所述两个或更多个盒可以基本上是任何适于连接的盒。

在优选的实例中，所述两个或更多个盒是共价连接的(例如，通过化学键)。共价连接可有助于确保所述两个或更多个盒共同递送至单个细胞。通常，所述两个或更多个盒在递送至细胞之前共价连接。可以利用共价连接两个或多个分子的任何方法，并且应当理解，所用的方法将至少部分地由待连接的盒的类型决定。

在一些情况下，提供了用于将试剂共同递送至单个生物细胞的方法。该方法通常涉及两个或更多个盒的共价附接或连接，然后将共价连接的盒递送至单个细胞中。所提供的方法可有助于确保单独的细胞接收两个或更多个盒。可以利用任何已知的试剂递送方法将连接的盒递送至细胞中，并且将至少部分地取决于待递送的盒的化学性质。试剂递送方法的非限制性实例可包括：转化、脂质转染、电穿孔、转染、纳米颗粒等。

在各个实施方案中，可将盒或分离核酸、供体核酸或编辑核酸引入细胞或微生物中以改变或调节细胞或微生物的一个方面，例如本文公开的微生物的存活或生长。分离的核酸可来源于基因组RNA、互补DNA(cDNA)、化学或酶促合成的DNA。另外地或备选地，分离的核酸可用于捕获探针、引物、标记的检测寡核苷酸或用于DNA装配的片段。

“核酸”可包含单链和/或双链分子，以及DNA、RNA、经化学修饰的核酸和核酸类似物。预期核酸的长度可以是3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、约110、约120、约130、约140、约150、约160、约170、约180、约190、约200、约210、约220、约230、约240、约250、约275、约300、约325、约350、约375、约400、约425、约450、约475、约500、约525、约550、约575、约600、约625、约650、约675、约700、约725、约750、约775、约800、约825、约850、约875、约900、约925、约950、约975、约1000、约1100、约1200、约1300、约1400、约1500、约1750、约2000、约2500、约3000、约4000、约5000、约6000、约7000、约8000、约9000、约10,000个或更多个核苷酸残基，直至全长蛋白质编码或调节遗传元件。

分离的核酸可以通过本领域已知的任何方法制备，例如使用标准重组方法、装配方法、合成技术或其组合。在一些实施方案中，可以对所述核酸进行克隆、扩增、装配或以其他方式构建。

所述核酸可方便地包含除赖氨酸核糖开关的一部分之外的序列。例如，可以添加包含一个或多个内切核酸酶限制性位点的多克隆位点。可将核酸附接到载体、衔接子或连接体上以用于克隆核酸。可以将额外的序列添加至这样的克隆和序列中以优化它们的功能、帮助分离核酸，或改善核酸向细胞中的引入。克隆载体、表达载体、衔接子和连接体的使用是本领域公知的。

分离的核酸可以使用本领域已知的任何数目的克隆方法从细胞、细菌或其他来源获得。在一些实施方案中，寡核苷酸探针在严格条件下选择性地与其他寡核苷酸或生物体或细胞的核酸杂交。构建核酸文库的方法是已知的，并且可以使用任何这样的已知方法。

可以使用基于一种或多种序列的探针来筛选细胞基因组DNA、RNA或cDNA中是否存在鉴定的感兴趣的遗传元件。在测定中可以采用不同程度的杂交严格性。

用于核酸杂交的高严格条件是本领域公知的。例如，条件可包括低盐和/或高温条件，如在约50℃至约70℃的温度下由约0.02M至约0.15M NaCl提供。应当理解，所需严格性的温度和离子强度部分地由特定核酸的长度、靶序列的长度和核苷酸含量、核酸的电荷组成决定，以及由在杂交混合物中甲酰胺、四甲基氯化铵或其他溶剂的存在或浓酸决定。核酸可以与靶序列完全互补或可以表现出一个或多个错配。

还可以使用多种已知的扩增技术来扩增感兴趣的核酸。例如，聚合酶链反应(PCR)技术可用于直接从DNA、RNA或cDNA扩增靶序列。PCR和其他体外扩增方法也可用于例如克隆核酸序列，以使核酸用作探针以用于检测样品中是否存在靶核酸、用于对核酸进行测序或用于其他目的。

分离的核酸可以由通过诸如磷酸三酯法等方法或使用自动合成仪的直接化学合成来制备。化学合成通常产生单链寡核苷酸。这可以使用单链作为模板通过与互补序列杂交或通过与DNA聚合酶聚合而转化为双链DNA。

考虑了本领域已知的用于鉴定、分离、纯化、使用和测定本文考虑的靶蛋白活性的任何方法。本文考虑的靶蛋白包括用于治疗人类病况或调节与人或非人哺乳动物疾病有关的过程(例如，诸如酶的途径的一部分)的蛋白质试剂。还考虑了用于选择和产生抗体或抗体片段的任何已知方法。另外地或备选地，靶蛋白可以是与病毒、细胞或生物体中的途径或过程相关的蛋白质或酶。

可靶向的核酸切割系统

本文公开的一些方法包括使用位点特异性、可靶向和/或工程化的核酸酶或核酸酶系统来靶向特异性核酸序列的切割。这样的核酸酶可在基因组或核酸分子中的所需位置处产生双链断裂(DSB)。在其他实例中，核酸酶可以产生单链断裂。在一些情况下，使用两种核酸酶，每种核酸酶产生单链断裂。

可以使用细胞的内源性机制通过同源重组(HR)和非同源末端连接(NHEJ)的自然过程来修复一个或多个双链或单链断裂。另外地或备选地，内源或异源重组机制可用于修复诱导的断裂。

工程化核酸酶，例如锌指核酸酶(ZFN)、转录激活因子样效应核酸酶(TALEN)、工程化归巢内切核酸酶，以及RNA或DNA指导内切核酸酶，例如CRISPR/Cas如Cas9或CPF1，和/或Argonaute系统特别适合于实施本发明的一些方法。另外地或备选地，可以使用RNA靶向系统，如包括c2c2核酸酶的CRISPR/Cas系统。

本文公开的方法可包括使用CRISPR系统如I型、II型、III型、IV型、V型或VI型CRISPR系统切割靶核酸。CRISPR/Cas系统可以是多蛋白系统或单效应蛋白系统。多蛋白系统或1类CRISPR系统包括I型、III型和IV型系统。或者，2类系统包括单一效应分子并且包括II型、VI型和VI型。

本文公开的方法中使用的CRISPR系统可包含单个或多个效应蛋白。效应蛋白可包含一个或多个核酸酶结构域。效应蛋白可以靶向DNA或RNA，并且该DNA或RNA可以是单链或双链的。效应蛋白可以生成双链或单链断裂。效应蛋白可包含核酸酶结构域中的突变，从而生成切口酶蛋白。效应蛋白可包含一个或多个核酸酶结构域中的突变，从而生成能够结合但不能切割靶序列的催化死亡核酸酶。CRISPR系统可包含单个或多个指导RNA。该gRNA可包含crRNA。该gRNA可包含具有crRNA和tracrRNA序列的嵌合RNA。该gRNA可包含单独的crRNA和tracrRNA。靶核酸序列可包含前间隔区邻近基序(PAM)或前间隔区侧翼位点(PFS)。PAM或PFS可以是靶标或前间隔区位点的3’或5’。靶序列的切割可以生成平端、3’突出端或5’突出端。

gRNA可包含间隔区序列。间隔区序列可以与靶序列或前间隔区序列互补。间隔区序列的长度可为10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35或36个核苷酸。在一些实例中，该间隔区序列的长度可小于10个或大于36个核苷酸。

gRNA可包含重复序列。在一些情况下，该重复序列是gRNA的双链部分的一部分。重复序列的长度可为10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸。在一些实例中，间隔区序列的长度可小于10个或大于50个核苷酸。

gRNA可包含一种或多种合成核苷酸、非天然存在的核苷酸、具有修饰的核苷酸、脱氧核糖核苷酸或其任何组合。另外地或备选地，gRNA可包含发夹、连接体区、单链区、双链区或其任何组合。另外地或备选地，gRNA可包含信号传导或报道分子。

可在细胞内内源性或重组表达CRISPR核酸酶。可在染色体上、染色体外或质粒、合成染色体或人工染色体上编码CRISPR核酸酶。可将CRISPR核酸酶作为多肽或编码该多肽的mRNA提供或递送至细胞。在这样的实例中，多肽或mRNA可通过本领域已知的标准机制递送，如通过使用细胞穿透肽、纳米颗粒或病毒颗粒。

gRNA可由细胞内的遗传或游离DNA来编码。在一些实例中，可将gRNA提供或递送至表达CRISPR核酸酶的细胞。gRNA可以与CRISPR核酸酶同时提供或递送或者顺序地提供或递送。可以使用本领域已知的标准RNA生成技术来化学合成、体外转录或以其他方式生成指导RNA。

CRISPR系统可以是II型CRISPR系统，例如Cas9系统。II型核酸酶可包含单一效应蛋白，其在一些情况下包含RuvC和HNH核酸酶结构域。在一些情况下，功能性II型核酸酶可包含两种或更多种多肽，每种多肽包含核酸酶结构域或其片段。靶核酸序列可包含3’前间隔区邻近基序(PAM)。在一些实例中，PAM可以是靶核酸的5’。指导RNA(gRNA)可包含含有crRNA和tracrRNA序列的单个嵌合gRNA。或者，该gRNA可包含一组两种RNA，例如crRNA和tracrRNA。II型核酸酶可以生成双链断裂，其在一些情况下产生两个平端。在一些情况下，II型CRISPR核酸酶被工程化为切口酶，使得核酸酶仅生成单链断裂。在这样的情况下，gRNA可以靶向两个不同的核酸序列，使得由切口酶生成两个单链断裂。在一些实例中，两个单链断裂有效地产生双链断裂。在使用II型切口酶来生成两个单链断裂的一些情况下，所得无核酸端可以是具有3’突出端或5’突出端的平端。在一些实例中，II型核酸酶可以催化死亡，使得其结合靶序列，但不切割靶序列。例如，II型核酸酶可以在RuvC和HNH结构域中具有突变，从而使两种核酸酶结构域无功能。II型CRISPR系统可以是三种亚型之一，即II-A型、II-B型或II-C型。

CRISPR系统可以是V型CRISPR系统，例如Cpf1、C2c1或C2c3系统。V型核酸酶可包含单一效应蛋白，其在一些情况下包含单个RuvC核酸酶结构域。在其他情况下，功能V型核酸酶包含在两个或更多个多肽之间分开的RuvC结构域。在这样的情况下，靶核酸序列可包含5’PAM或3’PAM。指导RNA(gRNA)可包含单个gRNA或单个crRNA，如可以是具有Cpf1的情况。在一些情况下，不需要tracrRNA。在其他实例中，如当使用C2c1时，gRNA可包含含有crRNA和tracrRNA序列的单个嵌合gRNA，或者该gRNA可包含一组两种RNA，例如crRNA和tracrRNA。V型CRISPR核酸酶可以生成双链断裂，其在一些情况下生成5’突出端。在一些情况下，V型CRISPR核酸酶被工程化为切口酶，使得核酸酶仅生成单链断裂。在这样的情况下，gRNA可以靶向两个不同的核酸序列，使得由切口酶生成两个单链断裂。在一些实例中，两个单链断裂有效地产生双链断裂。在使用V型切口酶来生成两个单链断裂的一些情况下，所得无核酸端可以是具有3’突出端或5’突出端的平端。在一些实例中，V型核酸酶可以催化死亡，使得其结合靶序列，但不切割靶序列。例如，V型核酸酶可具有RuvC结构域的突变，从而使核酸酶结构域无功能。

CRISPR系统可以是VI型CRISPR系统，例如C2c2系统。VI型核酸酶可包含HEPN结构域。在一些实例中，该VI型核酸酶包含两种或更多种多肽，每种多肽包含HEPN核酸酶结构域或其片段。在这样的情况下，靶核酸序列可以是RNA，如单链RNA。当使用VI型CRISPR系统时，靶核酸可包含前间隔区侧翼位点(PFS)。PFS可以位于靶标或前间隔区序列的3’和5’。指导RNA(gRNA)可包含单个gRNA或单个crRNA。在一些情况下，不需要tracrRNA。在其他实例中，gRNA可包含含有crRNA和tracrRNA序列的单个嵌合gRNA，或者该gRNA可包含一组两种RNA，例如crRNA和tracrRNA。在一些实例中，VI型核酸酶可以催化死亡，使得其结合靶序列，但不切割靶序列。例如，VI型核酸酶可在HEPN结构域中具有突变，从而使核酸酶结构域无功能。

用于在本公开内容中使用的合适核酸酶(包括核酸指导的核酸酶)的非限制性实例包括C2c1、C2c2、C2c3、Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(也称为Csn1和Csx12)、Cas10、Cpf1、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx100、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4、其同源物、其直系同源物或其经修饰的形式。合适的核酸指导的核酸酶可以来自以下属的生物体：包括但不限于硫微螺菌属、琥珀酸弧菌属、假丝酵母属、卟啉单胞菌属、氨基酸球菌属、普氏菌属、密斯氏菌属、莫拉氏菌属、互养菌属、弗朗西斯氏菌属、钩端螺旋体属、链条杆菌属、Kandleria、梭菌属、Dorea、粪球菌属、肠球菌属、嗜果糖乳酸菌属(Fructobacillus)、魏斯氏菌属、片球菌属、棒杆菌属、萨特氏菌属、军团菌属、密螺旋体属、罗斯氏菌属、产线菌属、真杆菌属、链球菌属、乳酸杆菌属、支原体属、拟杆菌属、Flaviivola、黄杆菌属、Sphaerochaeta、固氮螺菌属、葡糖醋杆菌属、奈瑟氏菌属、罗斯氏菌属、细小棒菌属(Parvibaculum)、葡萄球菌属、Nitratifractor、支原体属、脂环酸芽孢杆菌属、Brevibacilus、芽孢杆菌属、拟杆菌门(Bacteroidetes)、Brevibacilus、肉杆菌属、Clostridiaridium、梭菌属、脱硫盐碱杆菌属(Desulfonatronum)、脱硫弧菌属、创伤球菌属、纤毛菌属、李斯特菌属、甲烷嗜甲基菌(Methanomethyophilus)、甲基杆菌属、丰祐菌科、Paludibacter、红杆菌属、Sphaerochaeta、肿块芽孢杆菌属和弯曲菌属。这样的属的生物的种类可以如本文中另外讨论的那样。合适的核酸指导的核酸酶可以来自界内的属或未分类的属的生物体，其包括但不限于厚壁菌门、放线菌门、拟杆菌门、变形菌门、螺旋体门(Spirochates)和柔膜菌门。合适的核酸指导的核酸酶可以来自门内的属或未分类的属的生物体，其包括但不限于丹毒丝菌纲、梭菌纲、芽孢杆菌纲、放线菌纲、拟杆菌纲、黄杆菌纲、α变形杆菌纲、β-变形杆菌纲、γ变形杆菌纲、δ变形杆菌纲、ε变形杆菌纲、螺旋体纲和柔膜菌纲。合适的核酸指导的核酸酶可以来自目内的属或未分类的属的生物体，其包括但不限于梭菌目、乳杆菌目、放线菌目、拟杆菌目、黄杆菌目、根瘤菌目、红螺菌目、伯克氏菌目、奈瑟菌目、军团菌目、Nautiliales、弯曲菌目、螺旋体目、支原体目和硫发菌目。合适的核酸指导的核酸酶可以来自科内的属或未分类的属的生物体，其包括但不限于毛螺菌科、肠球菌科、明串珠菌科、乳杆菌科、链球菌科、消化链球菌科、葡萄球菌科、真杆菌科、棒杆菌科(Corynebacterineae)、拟杆菌科、黄杆菌属、Cryomoorphaceae、红菌科、红螺菌科、醋杆菌科、Sutterellaceae、奈瑟氏菌科、军团菌科、Nautiliaceae、弯曲菌科、螺旋体科、支原体科、Pisciririckettsiaceae和弗朗西斯氏菌科。

适用于在本公开内容的方法、系统和组合物中使用的其他核酸指导的核酸酶包括来源于生物体的核酸指导的核酸酶，该生物体例如但不限于硫微螺菌的种XS5、直肠真杆菌、溶糊精琥珀酸弧菌、Candidatus Methanoplasma termitum、CandidatusMethanomethylophilus alvus、狗口腔卟啉单胞菌、嗜鳍黄杆菌、氨基酸球菌属的种、毛螺菌科细菌COE1、短普雷沃氏菌ATCC 19188、密斯氏菌属的种SCADC、牛眼莫拉氏菌、穷氏互养菌、拟杆菌oral taxon 274、土拉热弗朗西斯氏菌、稻田氏钩端螺旋体莱姆血清变型10、氨基酸球菌属的种晶体结构(5B43)、变异链球菌、无乳链球菌、似马链球菌、血链球菌、肺炎链球菌；空肠弯曲杆菌、大肠弯曲杆菌、N.salsuginis、N.tergarcus；耳葡萄球菌、肉葡萄球菌；脑膜炎奈瑟氏菌(N.meningitides)、淋病奈瑟氏菌(N.gonorrhoeae)；单核增多性李斯特菌(L.monocytogenes)、伊氏李斯特菌(L.ivanovii)；肉毒梭菌(C.botulinum)、艰难梭菌(C.difficile)、破伤风梭菌(C.tetani)、索氏梭菌(C.sordellii)；土拉热弗朗西斯氏菌1、易北普雷沃氏菌(Prevotella albensis)、毛螺旋菌科细菌MC20171、解朊丁酸弧菌(Butyrivibrio proteoclasticus)、佩莱格里尼菌科细菌(Peregrinibacteriabacterium)GW2011_GWA2_33_10、Parcubacteria细菌GW2011_GWC2_44_17、密斯氏菌属(Smithella)的种SCADC、氨基酸球菌属的种BV3L6、毛螺旋菌科细菌MA2020、候选白蚁甲烷枝原体(Candidatus Methanoplasma termitum)、挑剔真细菌(Eubacterium eligens)、牛莫拉氏菌(Moraxella bovoculi)237、稻田钩端螺旋体(Leptospira inadai)、毛螺旋菌科细菌ND2006、狗口腔卟啉单胞菌(Porphyromonas crevioricanis)3、解糖胨普雷沃氏菌、猕猴卟啉单胞菌(Porphyromonas macacae)、Catenibacterium的种CAG:290、Kandleriavitulina、梭菌属细菌KA00274、毛螺菌科细菌3-2、Dorea longicatena、灵巧粪球菌GD/7、哥伦比亚肠球菌DSM 7374、嗜果糖乳酸菌属的种EFB-N1、耐盐魏斯氏菌、乳酸片球菌、弯曲乳杆菌、化脓性链球菌、费斯莫尔德乳杆菌和龈沟产线菌ATCC 35896。

用于在本文公开的任何方法中使用的合适的核酸酶包括但不限于具有表1中列出的序列的核酸酶，或与表1中列出的任何核酸酶具有至少10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或99％序列同一性的同源物。

表1.

在本文公开的一些方法中，Argonaute(Ago)系统可用于切割靶核酸序列。Ago蛋白可来源于原核生物、真核生物或古菌。靶核酸可以是RNA或DNA。DNA靶标可以是单链或双链的。在一些实例中，靶核酸不需要特定的靶侧翼序列，如等同于前间隔区邻近基序或前间隔区侧翼序列的序列。该Ago蛋白可以产生双链断裂或单链断裂。在一些实例中，当Ago蛋白形成单链断裂时，可以组合使用两种Ago蛋白以生成双链断裂。在一些实例中，Ago蛋白包含一个、两个或更多个核酸酶结构域。在一些实例中，Ago蛋白包含一个、两个或更多个催化结构域。可以在Ago蛋白中使一个或多个核酸酶结构域或催化结构域突变，从而生成能够生成单链断裂的切口酶蛋白。在其他实例中，在Ago蛋白的一个或多个核酸酶结构域或催化结构域中的突变生成可以结合但不可切割靶核酸的催化死亡Ago蛋白。

可以通过指导核酸将Ago蛋白靶向靶核酸序列。在许多实例中，该指导核酸是指导DNA(gDNA)。该gDNA可具有5’磷酸化端。该gDNA可以是单链或双链的。单链gDNA的长度可为10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸。在一些实例中，该gDNA的长度可小于10个核苷酸。在一些实例中，该gDNA的长度可多于50个核苷酸。

Argonaute介导的切割可生成平端、5’突出端或3’突出端。在一些实例中，在切割期间或之后从靶位点移除一个或多个核苷酸。

可在细胞内内源性或重组表达Argonaute蛋白。可在染色体上、染色体外或质粒、合成染色体或人工染色体上编码Argonaute。另外地或备选地，可将Argonaute蛋白作为多肽或编码该多肽的mRNA提供或递送至细胞。在这样的实例中，多肽或mRNA可通过本领域已知的标准机制递送，如通过使用细胞穿透肽、纳米颗粒或病毒颗粒。

可以通过细胞内的遗传或游离DNA提供指导DNA。在一些实例中，gDNA是从细胞内的RNA或mRNA逆转录而来的。在一些实例中，可将gDNA提供或递送至表达Ago蛋白的细胞。指导DNA可以与Ago蛋白同时提供或递送或者顺序地提供或递送。可以使用本领域已知的标准DNA生成技术来化学合成、装配或以其他方式生成指导RNA。指导DNA可以从基因组DNA、游离DNA分子、分离的核酸分子或任何其他核酸分子来源切割、释放或以其他方式衍生。

在一些情况下，提供了包含与染色质重塑酶连接的核酸酶如核酸指导的核酸酶(例如，Cas9、Cpf1、MAD2或MAD7)或DNA指导的核酸酶(例如，Ago)的组合物。不希望受理论束缚，如本文所述的核酸酶融合蛋白可以提供对高度结构化DNA区域的改善的可及性。可与核酸指导的核酸酶连接的染色质重塑酶的非限制性实例可包括：组蛋白乙酰转移酶(HAT)、组蛋白脱乙酰酶(HDAC)、组蛋白甲基转移酶(HMT)、染色质重塑复合物和转录激活物样(Tal)效应蛋白。组蛋白脱乙酰酶可包括HDAC1、HDAC2、HDAC3、HDAC4、HDAC5、HDAC6、HDAC7、HDAC8、HDAC9、HDAC10、HDAC11、sirtuin 1、sirtuin 2、sirtuin 3、sirtuin 4、sirtuin 5、sirtuin6和sirtuin 7。组蛋白乙酰转移酶可包括GCN5、PCAF、Hat1、Elp3、Hpa2、Hpa3、ATF-2、Nut1、Esa1、Sas2、Sas3、Tip60、MOF、MOZ、MORF、HBO1、p300、CBP、SRC-1、ACTR、TIF-2、SRC-3、TAFII250、TFIIIC、Rtt109和CLOCK。组蛋白甲基转移酶可包括ASH1L、DOT1L、EHMT1、EHMT2、EZH1、EZH2、MLL、MLL2、MLL3、MLL4、MLL5、NSD1、PRDM2、SET、SETBP1、SETD1A、SETD1B、SETD2、SETD3、SETD4、SETD5、SETD6、SETD7、SETD8、SETD9、SETDB1、SETDB2、SETMAR、SMYD1、SMYD2、SMYD3、SMYD4、SMYD5、SUV39H1、SUV39H2、SUV420H1和SUV420H2。染色质重塑复合物可包括SWI/SNF、ISWI、NuRD/Mi-2/CHD、INO80和SWR1。

在一些情况下，所述核酸酶是野生型核酸酶。在其他情况下，该核酸酶是嵌合工程化核酸酶。如本文所公开的嵌合工程化核酸酶可包含一个或多个片段或结构域，并且该片段或结构域可以是核酸酶，如核酸指导的核酸酶、本文公开的属、物种或其他系统发育群组的生物体的直系同源物；有利地，该片段来自不同物种的核酸酶直系同源物。嵌合工程化核酸酶可以由来自至少两种不同核酸酶的片段或结构域组成。嵌合工程化核酸酶可以由来自至少两种不同物种的片段或结构域组成。嵌合工程化核酸酶可以由来自至少2、3、4、5、6、7、8、9、10个或更多个不同核酸酶或不同物种的片段或结构域组成。在一些情况下，多于一个片段或结构域来自一个核酸酶或物种，其中所述多于一个片段或结构域被来自第二核酸酶或物种的片段或结构域分开。在一些实例中，嵌合工程化核酸酶包含2个片段，每个片段来自不同的蛋白质或核酸酶。在一些实例中，嵌合工程化核酸酶包含3个片段，每个片段来自不同的蛋白质或核酸酶。在一些实例中，嵌合工程化核酸酶包含4个片段，每个片段来自不同的蛋白质或核酸酶。在一些实例中，嵌合工程化核酸酶包含5个片段，每个片段来自不同的蛋白质或核酸酶。

可在细胞内重组表达核酸酶融合蛋白。可在染色体上、染色体外或质粒、合成染色体或人工染色体上编码核酸酶融合蛋白。可以使核酸酶和染色质重塑酶单独工程化，然后在递送至细胞之前共价连接。可将核酸酶融合蛋白作为多肽或编码多肽的mRNA提供或递送至细胞。在这样的实例中，多肽或mRNA可通过本领域已知的标准机制递送，如通过使用细胞穿透肽、纳米颗粒或病毒颗粒。

靶向细胞核酸酶的细胞周期依赖性表达。

在一些情况下，提供了包含细胞周期依赖性核酸酶的组合物。细胞周期依赖性核酸酶通常包含与酶连接的本文所述的靶向核酸酶，该酶导致在细胞周期的G1期期间靶向核酸酶的降解和在细胞周期的G2/M期期间靶向核酸酶的表达。这样的细胞周期依赖性表达可以，例如，偏向核酸酶在同源性指导的修复(HDR)最活跃(例如，在G2/M期的过程中)的细胞中的表达。在一些情况下，核酸酶与细胞周期调节蛋白(如在细胞周期的G1期过程中活跃降解和在细胞周期的G2//M期过程中活跃表达的细胞周期调节蛋白)共价连接。在一个非限制性实例中，该细胞周期调节蛋白是联会蛋白。细胞周期调节蛋白的其他非限制性实例可包括：细胞周期蛋白A、细胞周期蛋白B、Hsll、Cdc6、Finl、p21和Skp2。

在一些情况下，所述核酸酶是野生型核酸酶。

在其他情况下，所述核酸酶是工程化核酸酶。工程化核酸酶可以是非天然存在的。

非天然存在的可靶向核酸酶和非天然存在的可靶向核酸酶系统可以解决许多这些挑战和限制。

本文公开了非天然的可靶向核酸酶系统。这样的可靶向核酸酶系统被工程化为解决上述一种或多种挑战，并且可被称为工程化核酸酶系统。工程化核酸酶系统可包含一种或多种工程化核酸酶，如工程化核酸指导的核酸酶、工程化指导核酸、编码所述核酸酶的工程化多核苷酸或编码所述指导核酸的工程化多核苷酸。工程化核酸酶、工程化指导核酸和编码所述工程化核酸酶或工程化指导核酸的工程化多核苷酸不是天然存在的并且在自然界中未发现。因此，包含这些元件中的一种或多种的工程化核酸酶系统是非天然存在的。

可以为了获得非天然存在的核酸酶系统而进行的工程化类型的非限制性实例如下。工程化可包括密码子优化以促进表达或改善宿主细胞(如异源宿主细胞)中的表达。工程化可减小核酸酶的大小或分子量，以便促进表达或递送。工程化可改变PAM选择，以便改变PAM特异性或拓宽公认的PAM的范围。工程化可改变、增加或降低可靶向核酸酶系统的稳定性、持续性、特异性或效率。工程化可改变、增加或降低蛋白质稳定性。工程可以改变、增加或降低核酸扫描的持续性。工程化可改变、增加或降低靶序列特异性。工程化可改变、增加或减少核酸酶活性。工程化可改变、增加或降低编辑效率。工程化可改变、增加或降低转化效率。工程化可改变、增加或减少核酸酶或指导核酸表达。

本文公开的非天然存在的核酸序列的实例包括针对在细菌如大肠杆菌中表达而优化的序列密码子(例如，SEQ ID NO:41-60)、针对在单细胞真核生物如酵母中表达而优化的序列密码子(例如，SEQ ID NO:127-146)、针对在多细胞真核生物如人细胞中表达而优化的序列密码子(例如，SEQ ID NO:147-166)、用于克隆或表达本文公开的任何序列的多核苷酸(例如，SEQ ID NO:61-80)、包含与异源启动子或核定位信号或其他异源元件可操作地连接的核酸序列(例如，SEQ ID NO:21-40)的质粒、由工程化或密码子优化的核酸序列(例如，SEQ ID NO:1-20)生成的蛋白质或包含SEQ ID NO:84-107中任一个的工程化指导核酸。这样的非天然存在的核酸序列可以由合成的寡核苷酸或dNTP扩增、克隆、装配、合成、生成或以其他方式使用本领域技术人员已知的方法获得。

本文公开的非天然存在的核酸序列的另外的实例包括针对在细菌如大肠杆菌中表达而优化的序列密码子(例如，SEQ ID NO:168)、针对在单细胞真核生物如酵母中表达而优化的序列密码子(例如，SEQ ID NO:169)、针对在多细胞真核生物如人细胞中表达而优化的序列密码子(例如，SEQ ID NO:170)、用于克隆或表达本文公开的任何序列的多核苷酸(例如，SEQ ID NO:171)、包含与异源启动子或核定位信号或其他异源元件可操作地连接的核酸序列(例如，SEQ ID NO:167)的质粒、由工程化或密码子优化的核酸序列(例如，SEQ IDNO:108-110)生成的蛋白质或与本文公开的任何可靶向核酸酶相容的工程化指导核酸。这样的非天然存在的核酸序列可以由合成的寡核苷酸或dNTP扩增、克隆、装配、合成、生成或以其他方式使用本领域技术人员已知的方法获得。

指导核酸可以是DNA。指导核酸可以是RNA。指导核酸可以是DNA和RNA。指导核酸可包含经修饰的非天然存在的核苷酸。在指导核酸包含RNA的情况下，RNA指导核酸可以由诸如本文公开的质粒、线性构建体或编辑盒等多核苷酸分子上的DNA序列编码。

与普通核酸指导的核酸酶相容的正交指导核酸可包含一种或多种共同特征。共同特征可包括假结区域外的序列。共同特征可包包括假结区域(例如，172-181)。共同特征可包括主序列或二级结构。

在其他情况下，所述核酸酶是嵌合核酸酶。嵌合核酸酶可以是工程化核酸酶。如本文所公开的嵌合核酸酶可包含一个或多个片段或结构域，并且该片段或结构域可以是核酸酶如核酸指导的核酸酶的片段或结构域，属、种或其他系统发育群组的生物体的直系同源物；有利地，该片段来自不同物种的核酸酶直系同源物。嵌合核酸酶可以由来自至少两种不同核酸酶的片段或结构域组成。嵌合核酸酶可以由来自至少两种不同物种的片段或结构域组成。嵌合核酸酶可以由来自至少2、3、4、5、6、7、8、9、10个或更多个不同核酸酶或不同物种的片段或结构域组成。在一些情况下，多于一个片段或结构域来自一个核酸酶或物种，其中所述多于一个片段或结构域由来自第二核酸酶或物种的片段或结构域分开。在一些实例中，嵌合核酸酶包含2个片段，每个片段来自不同的蛋白质或核酸酶。在一些实例中，嵌合核酸酶包含3个片段，每个片段来自不同的蛋白质或核酸酶。在一些实例中，嵌合核酸酶包含4个片段，每个片段来自不同的蛋白质或核酸酶。在一些实例中，嵌合核酸酶包含5个片段，每个片段来自不同的蛋白质或核酸酶。

实施例

实施例1-CREATE-质粒和文库

图1A-C描绘了CRISPR支持的可追踪基因组工程化(CREATE)设计和工作流程的概述的实施例。图1A示出了CREATE方法的实施例，该CREATE方法允许程序性基因组修饰集中于跨基因组的关键氨基酸残基或启动子靶标。因此，这样的文库能够平行地对多种基因组靶标的序列/活性关系进行系统评估。图1B描绘了CREATE盒的实施例，该CREATE盒被设计为编码同源臂(HA)和指导RNA(gRNA)序列以靶向大肠杆菌基因组中的特定基因座。100bp同源臂被设计为引入特定的密码子突变(靶密码子)，该突变可以通过同义PAM突变选择性地富集以从Cas9切割中拯救序列并允许高效诱变。P1和P2位点(黑色)用作允许多个文库进行平行多路扩增、克隆和测序的一般引发位点。启动子(J23119，绿色)是驱动gRNA表达的组成型启动子。用于在galK基因座中的残基145处引入终止密码子的HA设计的详细实施例也描绘于图1B的底部。顶部序列示出具有PAM的野生型基因组序列(CCG；其反向互补体是被化脓性链球菌Cas9识别的CGG)和突出显示的靶密码子(TAT，编码Y)。HA设计在PAM位点引入“沉默疤痕”("silent scar”)(CgG，其反向互补体是不被化脓性链球菌Cas9识别的CCG)和在密码子145处引入单核苷酸TAT>TAA突变(导致STOP)。该设计策略以编程方式实施，用于编码整个基因组的区域。图1C描绘了示例性CREATE工作流程的概述。CREATE盒在作为大型寡核苷酸库(10⁴至10⁶个独立文库成员)递送的微阵列上合成。平行克隆和重组工程化允许将这些库加工成基因组文库，在一些情况下可在23天内完成。在对突变体文库进行选择或筛选之后，对CREATE质粒的深度测序可用于追踪全基因组数千种精确突变的适应度。

实施例2-CREATE质粒验证

图2A-2D描绘了Cas9活性对转化效率和编辑效率的影响的实施例。将靶向galK基因中的密码子145的galK 120/17CREATE盒(120bp HA和17bp PAM/密码子间距)或对照非靶向gRNA载体在携带pSIM5的细胞中与dCas9(例如图2A中的左侧条形图)或Cas9(例如图2A中右侧条形图)质粒一起转化。pSIM5质粒携带λred重组机制。在pBAD启动子控制下将cas9基因克隆到pBTBX-2骨架中，以允许通过添加阿拉伯糖来控制切割活性。用深灰色条示出每个载体的转化效率。基于MacConkey琼脂上的红色/白色菌落筛选来计算重组细胞(浅灰色条)的总数。在通过基于平板的筛选无法检测到白色菌落的情况，我们假设编辑效率为10⁴。对于转化到Cas9背景的CREATE盒，还观察到与非靶向gRNA对照相比转化效率降低10²倍。

图2B描绘了CREATE盒HA长度和PAM/密码子间隔对编辑效率的表征的实施例。所有盒被设计为使用距离靶密码子指定距离(PAM/密码子底部)和可变同源臂长度(HA，底部)的PAM在基因中的密码子145处引入TAA终止。深灰色条和浅灰色条对应于使用0.2％阿拉伯糖在pBAD启动子下未诱导或诱导的Cas9表达。在大多数情况下，编辑效率似乎不受诱导影响，从而表明由于渗漏表达导致的低量Cas9足以进行高效编辑。

图2C示出了来自对CREATE重组工程化反应的基因组基因座进行测序的示例性数据。根据HA长度和PAM密码子间距来标记来自图2B的galK盒。示出的其他基因座是从多路文库克隆反应中分离的盒。条形图(图2C)指示在与每个CREATE盒重组工程化后通过基因组菌落测序观察每种基因型的次数。底部的+和标记指示在每个克隆中的两个相关位点处是否存在设计的突变。圆形插图指示每个基因在大肠杆菌基因组上的相对位置。

图2D描绘了来自CREATE质粒的多路克隆的文库覆盖的实施例。每个变体的深度测序计数示出了它们在基因组上的位置。插图示出了针对整个文库的这些质粒计数的直方图。该分布遵循预期的泊松分布，以便获得较低的平均计数。

实施例3-用于对可追踪游离DNA文库进行工程化的CREATE-记录

图3A描绘了用于生成可追踪游离DNA文库的方法的概述的实施例。CREATE记录器质粒的转化在两个位点处生成靶DNA的修饰。对所需的靶基因(灰色)进行一次编辑，引入被设计为测试特定工程化目标的密码子或启动子突变。第二次编辑靶向功能中性位点并引入15个核苷酸条形码(BC，黑色)。借助于在单个CREATE质粒上耦合这些文库，在两个位点处编辑靶DNA，并且可以使用每个独特的条形码来追踪整个质粒其余部分的编辑。

图2B描绘了CREATE条形码设计的实施例。从重叠寡核苷酸构建来简并文库，并将其克隆到CREATE载体的单独位点中，以制备可与设计师编辑文库耦合的CREATE记录器盒文库。

图2C描绘了示例性CREATE记录映射策略。对靶DNA(左)和CREATE质粒的深度测序允许通过允许每个编辑盒由条形码序列独特分配的简单序列映射策略。这允许在选择或筛选过程期间有待追踪的每个条形码(并因此编辑)的相对适应度，并且可以使用标准载体在不同生物体之间穿梭。

实施例4-CREATE介导的游离DNA的编辑

使用本文公开的方法和组合物来使用于CREATE过程的cas9基因的关键残基突变(例如图4A-4B)。盒被设计为在Cas9蛋白中产生R1335K突变。将该盒克隆到CREATE质粒中，并转化到携带pSIM5和X2-Cas9载体的MG1655大肠杆菌中。pSIM5载体包含λred重组机制。X2-Cas9载体包含阿拉伯糖可诱导的Cas9表达盒。在补充有0.4％阿拉伯糖的LB中回收3小时以诱导Cas9表达后，将细胞接种在含有抗生素的琼脂上，该抗生素保持选择性压力以复制X2-Cas9和CREATE质粒。随机克隆的菌落PCR揭示了来自CREATE质粒的设计编辑被有效转移到X2-Cas9质粒中(例如图4B)。在进行测序的克隆中，100％含有X2Cas9中的沉默PAM突变，并且6/14(43％)也含有所需的编码编辑。这是第一次证明使用CREATE的基于质粒的编辑是稳健的，尽管与先前的基因组工程化工作相比，与质粒靶标相关的拷贝数更高。

实施例5-CREATE介导的大肠杆菌基因组的编辑和追踪-双盒

为了测试记录策略在基因组环境中的性能，我们测试了编辑大肠杆菌基因组中的两个远端基因组基因座的能力(例如图5A)。为此，我们克隆了CREATE记录盒文库，该CREATE记录盒文库被设计用于将15个核苷酸的条形码嵌入galK基因座中。克隆后，我们分离了一些独特的条形码并克隆了第二编辑盒，该第二编辑盒被设计用于将F153R突变并入二氢叶酸还原酶(DHFR)/folA基因中，该基因通过我们之前的CREATE研究鉴定为赋予对抗生素甲氧苄啶的耐受性。在根据先前所述的方案转化双CREATE记录载体后的大肠杆菌菌株的基因分型产生图5A中的数据。条形码化的效率(100％)高于目标基因组编辑(80-90％)，从而确保可以追踪经编辑的基因组。在转化的群体中，我们观察到>80％的菌落含有galK基因座中的条形码编辑，如通过红色白色菌落筛选所确定的(例如图5B)。从经条形码化的菌落中，我们发现85％的菌落也编码DHFR F153R突变，从而这表明我们在条形码与密码子编辑之间有很强的追踪。图5B描绘了编辑和/或条形码化的重复实验中的菌落总数(CFU)。通过将图5A中的数据外推至板上的CFU总数来计算经编辑的CFU数。通过对galK筛选(整合条形码的位点)中的白色菌落数进行计数来计算条形码化CFU数。这些数据表明，大多数经条形码化的菌落含有经设计的基因组编辑。

实施例6-用于组合工程化的质粒固化

图6描绘了组合基因组工程化和追踪的实施例。使用三种递归CREATE质粒，每种质粒具有靶向该系列中的其他标记之一的gRNA(由T线表示)。在每次转化期间，将编辑和条形码并入基因组中，并且将先前的CREATE质粒固化。以这种方式，可以进行快速迭代转化以构建确定的突变组合或组合文库以搜索改善的表型。该记录位点与允许在群体中追踪组合的适应度的短读序列技术相容。这样的方法允许快速研究遗传上位性和优化与基础研究相关或用于商业生物学应用的表型。

图3D和图3E描绘了组合基因组工程化的另一实施例。通过每轮工程化，将编辑盒(图3D中的蓝色矩形)并入基因组中的靶序列(蓝色星)中，并将记录器盒(图3D中的绿色矩形)并入基因组的不同靶序列(图3D的中间图中的绿色虚线)中。在该实施例中，每个记录器序列包含15个核苷酸条形码。如图3D的右图所示，尽管插入了编辑盒，但每个记录器序列均插入到最后一个记录器序列附近。每个记录器盒可以同时缺失PAM位点。在完成每轮工程化之后，可以选择工程化细胞，然后通过对包含所有插入的记录器盒的记录器区域进行测序来追踪插入的突变。通过对起始质粒文库进行测序，每个编辑盒可以与记录器盒中的一个或多个独特条形码连接或相关联。由于每个记录器盒对应于关联编辑盒，因此可以通过记录器盒的序列或记录器盒内的条形码序列来追踪或鉴定由编辑盒并入的突变。如图3E所示，通过对记录器盒中的所有记录器盒或条形码进行测序，可以鉴定并追踪每个插入的突变。插入的记录器序列可被称为记录器位点、记录器阵列或条形码阵列。结果，在递归轮次工程化之后，对条形码阵列或记录器位点进行测序允许追踪菌株中基因组编辑事件的历史。例如，当按照如图3D所示的顺序插入记录器盒时，条形码阵列或记录器位点随后可以鉴定插入突变的顺序以及突变的内容。

实施例7-使用迭代CREATE-记录工程事件的递归工程化

图7A中描绘的递归工程化的实施例用于质粒固化，以证明该设计在消除先前的载体方面非常有效(图7B)。每个CREATE质粒可以基于所示抗生素(Trimeth：甲氧苄啶、Carb：羧苄青霉素、Tet：四环素)进行正向选择并且含有靶向其他抗生素标志物之一的gRNA。例如，reCREATE1质粒可以基于羧苄青霉素进行选择并且编码将选择性靶向甲氧苄啶抗性基因以进行破坏的gRNA。一次通过碳水化合物/四环素/甲氧苄啶抗生素标志物系列允许选择性并入最多三种靶向编辑。记录功能将如图5所示实现，但为简单起见在此省略。

图7B描绘了来自迭代轮次的CREATE工程化的数据的实施例。一系列转化系列开始于用X2cas9(卡那霉素)和reCREATE1载体转化的细胞。点镀结果表明，在每个转化步骤中固化的效率为99.99％，从而确保每轮转化中的高效工程化。通过将必需的记录和编辑CREATE盒引入如本文所公开的递归载体(例如图7B)，实现了在每个转化步骤中以高效率同时进行基因组编辑和质粒固化。

实施例8-CREATE设计和工作流程

图8A-8B中描述了CRISPR支持的可追踪基因组工程化(CREATE)设计工作流程的示例性概述。图8A示出了被设计用于蛋白质工程化的CREATE盒的示例性解剖结构。盒编码间隔区(红色)以及部分指导RNA(gRNA)序列和可以模拟基因组切割位点处的同源重组的设计师同源臂(HA)。针对蛋白质工程化目的，HA被设计为系统地将突变与指定的密码子或靶位点(TS，蓝色)耦合至邻近的同义PAM突变(SPM，红色)以从Cas9切割中拯救序列并允许高效诱变。引发位点(P1和P2，黑色)被设计为允许多路扩增和克隆来自基于大规模并行阵列的合成的特定子库。组成型启动子(绿色)驱动gRNA的表达。图8A进一步示出了用于在galK基因座中的残基145处引入终止密码子的HA设计的详细实施例。顶部序列示出了突出显示PAM和TS密码子的wt基因组。示出了翻译序列以说明所得突变体在靶位点处含有单个非同义突变。图8B示出了CREATE工作流程的示例性概述。在微阵列上合成CREATE寡核苷酸并将其作为大型库(10⁴-10⁶个独立文库成员)递送。以具有子库设计的能力的多路方式扩增并克隆这些盒。在将CREATE质粒引入表达Cas9的细胞后，将突变以高效率转移到基因组中。通过深度测序选择之前(fi，t1)和之后(fi，t2)测量每个质粒的频率提供每个CREATE盒的富集得分(Ei)。这些得分允许针对数千个基因座以高达单核苷酸或氨基酸分辨率的方式平行地快速鉴定适应性变体。

实施例9-CREATE设计验证

图9A描绘了Cas9活性对转化和编辑效率的影响和不使用具有间隔区的盒和靶向galK的120bp HA(galK_Y145*_120/17)来测定编码效率的实施例。以白色示出由该CREATE载体产生的总转化体(TT white)，并且以深蓝色示出重组体(TR)的总数。TR被计算为编辑效率和Tt的乘积。星号指示通过基于平板的筛选不能观察到重组体的实验。图9B示出了CREATE盒HA长度和PAM/密码子间隔对编辑效率的表征的实施例。所有盒被设计用于使用距离靶密码子指定距离(PAM/密码子底部)和可变同源臂长度(HA，底部)的PAM在基因中的密码子145处引入TAA终止。白色和蓝色条对应于使用0.2％阿拉伯糖在pBAD启动子下未诱导或诱导的Cas9表达。在大多数情况下，编辑效率似乎不受诱导影响，从而表明由于渗漏表达导致的低量Cas9足以进行高效编辑。图9C描绘了通过对基因组基因座的测序来确定寡核苷酸衍生的盒的编辑效率的实施例。来自图9A和图9B的galK_Y145*_120/17盒以白色显示以供参考。条形图指示在与每个CREATE盒重组工程化后通过基因组菌落测序观察到每种基因型的次数。圆形插图指示每个基因在大肠杆菌基因组上的相对位置。图9D描绘了SPM与TS之间的距离(如图8A中所例示的)与编辑效率(正确的编辑/采样的总序列)密切相关。在该分析中省略了图9B中具有44bp和59bp的galK盒。所示出的误差条来源于所示实验的N＝3个独立重复。

实施例10-扫描必需染色体基因的饱和诱变

图10A-10C描绘了这样的实施例，其中CREATE用于生成folA基因的全扫描饱和诱变文库以供鉴定可赋予对TMP抗性的突变。将来自两次选择试验的计数加权平均富集得分绘制为残基位置的函数(右)。以灰色示出编码非同义突变的盒，而以黑色示出编码同义突变的盒。以红色突出显示富集得分大于1.8的盒子，并且对影响先前报告的位点的突变进行标记以供参考。虚线指示与通过置信区间的引导确定的同义数据集显著不同(p<0.05)的富集值。这些值显示为直方图以供参考(中间)。将似乎显著影响DHFR抗性的突变突出显示为最右侧的红色球体。图10D-10F描绘了在指定的TMP浓度范围(右侧所示)内，wt(左)、F153W(中)和F153R(右)变体的示例性生长分析。

实施例11-ALE突变组的重建和耐热基因型的正向工程化

图11A描绘了针对在基本培养基条件在42.2℃下生长的CREATE文库的富集得分的示例性基因组绘图。最内部的绘图图示了在选择前20位代表的标签之前质粒文库的计数。外环示出了在升高的温度(42.2℃)下在基本培养基中生长后合并的文库变体的适应度。根据log2富集对条进行着色。蓝色条代表有害突变，红色条代表显著富集的突变，并且灰色条指示在该测定中呈中性的突变。对20种最富集的变体进行标记以供参考，并且对与ALE衍生的变体对应的标记进行红色着色。图11B示出了在42.2℃生长条件下所有文库变体(灰色)、ALE衍生的突变体(红色)和同义突变体(黑色)的富集得分的直方图。灰色虚线指示与同义群体相比的显著富集得分。将直方图归一化为通过计数阈值的变体总数的一部分(括号中指示的数字)。注意，通过该实验取样的251个独特的非同义ALE盒中的231个似乎提供了显著的生长益处。图11C描绘了基于距离wt的突变距离的突变富集。需要2个和3个核苷酸(nt)转换的突变在ALE方法中极为罕见或不存在，但是我们注意到来自合并的文库选择的两个最富集的克隆(靶向Crp调节物)需要两个核苷酸置换并且在最右侧突出显示。

实施例12-用于研究抗生素抗性和耐受性的氨基酸置换的基因组规模映射

图12A描绘了在红霉素(外部)和利福平(中间)的存在下文库变体的富集(log2)的示例性基因组绘图。最内部的绘图图示了输入质粒的计数分布以供参考。着色和标记如图11A-11C所示。图12B描绘了单个氨基酸水平的CREATE突变映射。在利福平的存在下，从全基因组靶向文库高度富集将大体积侧链引入RNA聚合酶β亚基(rpoB)的氨基酸I572、S531和L533(红色)的CREATE盒。图11C描绘了与其同源DNA靶标结合的MarA转录因子的放大区域以供参考(PDB ID 1BL0)。由于该侧链与DNA之间不利的空间和静电相互作用，wt Q89残基突出于DNA结合界面。通过选择鉴定的Q89N置换引入H-供体并缩短侧链，使得在该残基与DNA骨架之间可发生生产性H-键合。这样的相互作用可能有利于更强的DNA结合和下游抗性基因的诱导。图12D分别描绘了具有10g/L乙酸盐或2g/L糠醛的全基因组靶向文库的富集绘图。着色与图11A中的相同。图12E描绘了在基因水平上的CREATE映射揭示了在基因水平上的趋势。如图12F所示，在乙酸盐中强烈富集fis metA和fadR靶向突变表明这些基因在乙酸盐耐受中的重要作用，与图12E所示的糠醛选择相同。

实施例13-CREATE支持的灵活设计策略

图13A-13D中描绘了与CREATE策略相容的示例性设计的图示。图13A示出了采用沉默密码子方法的蛋白质工程化应用(顶部，也参见图8A-8B)。该突变策略允许关键蛋白区域的靶向诱变以改变诸如DNA结合、蛋白质-蛋白质相互作用、催化或变构调节等特征。以上图示了被设计用于针对本研究设计的全局转录因子Fis的DNA结合饱和诱变文库的说明。图13B示出了可以通过核苷酸替换或整合盒来破坏特定转录起始位点(TSS)附近的启动子突变位PAM位点。为了简化本研究中使用的设计程序，共有CAP或UP元件被设计用于在相对于TSS的固定位置进行整合，而不考虑这些突变可能对近端基因的可能影响。图13C示出了用于诱变核糖体结合位点(RBS)的示例性盒设计。图13D描绘了简单缺失设计的实施例。包括点a和点b以说明基因缺失基因座处的两个位点之间的距离。在所有情况下，盒设计破坏靶向PAM以允许所设计的突变体的选择性富集。

实施例14-对番茄红素途径进行工程化

图14A-14B描绘了在大肠杆菌中进行DMAPP途径的编辑，该DMAPP途径是番茄红素的前体。对ORF的11个基因进行编辑。八个编辑被设计用于改善活性，而3个编辑被设计用于降低竞争性酶的活性。构建并筛选番茄红素途径中的大约10,000个变体。

实施例15-Cas9编辑效率对照

图15描绘了Cas9编辑控制实验。将CREATE galK_120/17关闭盒(相关编辑在底部以红色示出)转化到不同背景中以评估CREATE质粒与靶基因组之间同源重组的效率。红色菌落代表未编辑的(wt)基因组变体，而白色菌落代表经编辑的变体。转化到仅含有pSIM5或pSIM5/X2和dCas9质粒的细胞中没有表现出可检测的重组，如缺少白色菌落所示。在活性Cas9(X2-Cas9最右侧)的存在下，我们观察到高效率编辑(>80％)，从而表明对dsDNA切割实现高效率编辑和文库覆盖的要求。

实施例16-在大肠杆菌中gRNA dsDNA切割的毒性

图16A-16C描绘了测试在大肠杆菌中生成双链断裂的毒性的实验。在用靶向galK(间隔区序列TTAACTTTGCGTAACAACGC)或folA(间隔区序列GTAATTTTGTATAGAATTTA)的gRNA的对照实验中观察到在大肠杆菌中单个gRNA切割的毒性。在不存在修复模板的情况下，我们观察到gRNA的强烈杀伤。在单链供体寡核苷酸的共转化后观察到10³-10⁴的拯救效率，从而表明需要同源修复模板以减轻该毒性。b)多个CREATE编辑的毒性。靶向位点以图形方式在条形图的左侧和底部示出。基于无编辑(最左侧，无靶位点)，使用非靶向gRNA对照来估计转化效率。CREATE盒靶向folA(绿色)或galK(红色)或两者的组合。注意在大肠杆菌中具有从相同质粒表达的额外gRNA的倍增毒性。在这种情况下，每个位点都有同源修复，从而表明脱靶gRNA切割是高度致命的。这些数据表明，CREATE盒的脱靶切割将在文库构建阶段早期从群体中选择性地去除。

图16D-16E描绘了来自另一种这样的细胞存活测定的数据。编辑盒含有F153R突变，该F153R突变导致folA基因的温度敏感性。记录器盒含有15个被设计用于破坏galK基因的核苷酸条形码，其允许在MacConkey琼脂平板上筛选菌落。在该实施例中，与生成零次切割或一次切割相比，生成两次切割降低了细胞存活。

图16F描绘了来自转化和存活测定的数据，其比较了表达Cas9的低拷贝数质粒(Ec23)和表达Cas9的高拷贝数质粒(MG)。使用具有不同编辑盒的不同载体来靶向不同的基因靶位点(folA、lacZ、xylA和rhaA)。记录器盒被设计用于靶向galK基因内的不同序列，即位点S1、S2或S3。所使用的递归载体与其他载体相比具有不同的载体骨架，并且是被设计用于固化前一轮载体的细胞的迭代工程化的3载体系统的一部分。数据指示较低的Cas9表达(Ec23载体)增加存活和/或转化效率。降低的Cas9表达使经历两次基因组切割(编辑盒和记录盒)的细胞中的转化效率提高了几个数量级。

图16G示出了用表达Cas9的低拷贝数质粒(Ec23)和表达Cas9的高拷贝数质粒(MG)转化的细胞中编辑效率与记录效率之间的相关性。编辑和记录效率类似于cas9的高(MG)表达和低(Ec23)表达。Ec23产生更多的菌落并具有更好的存活率(如图16E所示)，同时维持双重编辑的高效率(编辑盒和记录器盒并入)。

实施例17-用于基因缺失的CREATE策略

图17A-17D描绘了用于基因缺失的示例性CREATE策略。图17A描绘了用于从galKORF缺失100bp的示例性盒设计。HA被设计用于与具有指定间距的同源区域重组，其中CREATE HA的每个50bp侧被设计为在指定位点(蓝色)重组。PAM/间隔区位置(红色)靠近同源臂之一并且在重组期间缺失，从而允许缺失区段的选择性富集。图17B描绘了来自与该盒重组的克隆的染色体PCR扩增子的电泳。图17C描绘了针对如a)中的700bp缺失的设计。图17D描绘了如图17B)中的700bp缺失盒的菌落PCR。图17B和图17D中的星号指示似乎具有所设计的缺失的菌落。注意，一些克隆似乎具有与wt和缺失大小相关的条带，从而表明在重组工程化后3小时进行接种时，一些菌落中的染色体分离是不完全的。

实施例18-通过共转化gRNA和线性dsDNA盒的编辑效率对照

图18描绘了PAM距离对使用线性dsDNA PCR扩增子以及与gRNA的共转化的编辑效率的影响。左侧是使用PCR扩增子的实验的说明，该PCR扩增子在一侧含有双(TAATAA)终止密码子(星号)，并且在另一端恰好位于galK基因(灰色框)下游的PAM突变与靶向下游galKPAM位点的gRNA共转化。引物被设计为使得突变位于离扩增子末端40nt处以确保足够的重组同源性。通过红色/白色菌落筛选从这些实验中获得数据。底部示出了数据的线性拟合。其中包括仅存在PAM突变的盒，作为测定对照，被观察到具有极低的GalK失活率。这些实验在敲除了mutS基因以允许用双链DNA模板进行高效率编辑的大肠杆菌的BW25113菌株中进行。由于活跃的mutS等位基因，该方法在MG1655中没有实现高效率编辑。

实施例19-文库克隆分析和统计

图19A描绘了来自根据读取与靶设计序列之间的总错配数示出的克隆后的示例性质粒文库的读取。大多数质粒与正确的设计相匹配。然而，在该克隆群体中观察到大量4个碱基对插入和缺失/错配突变体。图19B描绘了质粒库作为盒位置的函数的突变曲线的绘图。在同源臂(HA)的中心附近观察到突变频率的增加，从而表明在该区域的测序或合成中存在较小的误差偏差。我们怀疑这是由于存在与gRNA中间隔区元件互补的序列。图19C描绘了在该研究中设计的CREATE盒的PAM与密码子之间的距离的直方图。绝大多数(>95％)在图9A-9D中测试的设计约束内。在近距离内没有同义PAM突变的情况下，制备超过60bp的较小部分。图19D描绘了来自CREATE质粒的多路克隆的文库覆盖。每个变体的深度测序计数显示了它们在基因组上的位置。插图示出了克隆文库中具有指定质粒计数的变体数目的直方图。

实施例20-重组工程化群体的CREATE盒追踪的精确度

图20A描绘了在Cas9暴露之前(x轴)和在转化到Cas9背景后3小时之后质粒群体中CREATE盒读取频率的相关图。图20B描绘了过夜回收后重复重组工程化反应之间的相关图。灰色线指示完全相关的线以供参考。使用Python SciPy统计包，从线性拟合数据计算R2和p值。将每个重复实验的计数阈值5应用于数据以滤除来自每个数据集的噪声。

实施例21-M9基本培养基中folA突变的生长特征。

图21描绘了M9基本培养基中folA突变的生长特征。虽然F153R似乎维持正常的生长特征，但在这些条件下F153W突变的生长速度显著较慢，从而表明同一位点处的这两个氨基酸置换对生物体的适应度有非常不同的影响，可能是由于在该蛋白质的稳定性/动力学中引起的不同变化。

实施例22-用于基本培养基中的folA CREATE盒的富集曲线

图22描绘了用于基本培养基中的folA CREATE盒的富集曲线。以灰色示出编码同义HA的盒，并且以灰色示出非同义盒，虚线指示与从引导分析估计的同义群体平均值相比具有p<0.05显著性的富集得分。在蛋白质序列中的每个位置处观察到的每个突变盒的富集得分显示于左侧，并且这些富集得分的直方图作为总变体的一部分显示于右侧。这两个群体似乎大致类似。以蓝色示出高度有害的保守残基以供参考。

实施例23-用于改善的溶剂和抗生素耐受性的新鉴定的acrB突变的验证

图23A在左侧描绘了AcrB外排泵的全局概述。底物通过周质空间中的开口进入泵，并经由AcrB/AcrA/TolC复合物穿过外膜挤出并进入细胞外空间。文库靶向残基由蓝色球体突出显示以供参考，并且红点指示许多富集变体聚集的区域。在右侧是邻接中央漏斗的环形螺旋基序的放大，其中鉴定了异丁醇中的富集突变(红色和蓝绿色球体)，从而可能影响来自周质空间的溶质运输。靶向T60位置的突变体(蓝绿色球体)也在红霉素的存在下富集。图23B描绘了N70D和D73L突变对异丁醇耐受性的确认。特别是N70D突变似乎在很大程度上改善了最终OD。在温育48小时后，在加帽的1.5mL eppendorf管中测定重建的菌株的最终OD。误差条来源于N＝3次试验和源自单尾T检验的p值。图23C描绘了在摇动96孔板中在红霉素(200μg/mL)和异丁醇(1.2％)的抑制浓度中观察到AcrB T60N突变体的改善的生长，从而表明该突变可以增强该泵对许多化合物的流出活性。对于这些实验，在重组工程化为大肠杆菌MG1655之前对CREATE盒设计进行单独的合成、克隆和序列验证以重建突变，并且通过菌落PCR来序列验证基因组修饰以确认基因型-表型关联。

实施例24-用于对新型适应性基因型进行采样的合理诱变的益处

图24A-24D描绘了在CREATE实验中检测到的变体的数目，该CREATE实验涉及500μg/mL利福平(图24A)、500μg/mL红霉素(图24B)、10g/L乙酸盐(图24C)和2g/L糠醛(图24D)。虽然自然进化的系统或易错PCR高度偏向于对单核苷酸多态性(例如1nt突变，红色)进行采样，但这些直方图图示了可以鉴定罕见或难以见到的突变(2nt和3nt，分别是绿色和蓝色)的合理设计方法的潜在优势。例如，最高适应度解决方案似乎偏向于程度不同的利福平、红霉素和糠醛选择中的这些罕见突变。这些结果表明，诸如CREATE等程序应该允许更快速和更彻底地分析适应度改善突变，这与计算方法被用于改进蛋白质工程的定向进化的方式大致相同。

实施例25-通过红霉素选择鉴定的突变的重建

图25描绘了在200μg/mL红霉素的存在下温育48小时后，在加帽的1.5mLeppendorf管中在0.5mL中生长的重建菌株，并评估最终OD测量值。误差条来源于N＝3次试验。对每组测量进行单尾T检验以确定指示生长益处显著性的p值。

实施例26-糠醛或热耐受性的Crp S28P突变的验证

图26A描绘了以红色突出显示的具有通过糠醛选择鉴定的变体(PDB ID 3N4M)的Crp调节蛋白的晶体结构。靶向该调节物的环AMP结合位点(aa.28-30,65)附近的残基的许多CREATE设计在糠醛的基本培养基选择或热耐受性中高度富集，从而表明这些突变可以在多种应激条件下增强基本培养基中的大肠杆菌生长。图26B描绘了在M9培养基中以2g/L糠醛选择鉴定的Crp S28P突变体的验证。如实施例23中针对AcrB T60S所描述的，对该突变体进行重建。

实施例27-在单核苷酸分辨率下的基因组规模序列与活性关系的映射

DNA合成和测序的进展推动了在实验室时间尺度上合理地编程基因组修饰的日益复杂的工作。实现这样的工作需要跨越设计-构建-测试正向工程周期的策略，不仅要精确且有效地生成大量突变设计，而且要通过在相似的通量下映射这些突变的影响。CRISPR支持的可追踪基因组工程化(CREATE)将高效的CRISPR编辑与大规模平行寡聚体合成耦合，以实现全基因组规模上的可追踪精确编辑。这可以使用合成盒来实现，该合成盒将靶向指导RNA与可系统地被设计用于编辑基因组中的基因座并追踪其表型效应的合理可编程的同源修复盒连接。我们通过对序列-活性关系的平行映射展示了CREATE用于基因组工程化的灵活性和易用性，其适用于位点饱和诱变、合理的蛋白质工程化、完整的残基替代库和先前自适应实验室进化实验的重建等应用。

CREATE盒设计的验证

为了实现我们的工程化目标，我们考虑了许多关键设计考虑因素，以使编辑效率最大化以及将复杂的设计过程提炼成易于执行的工作流程。例如，每个CREATE盒被设计为包括靶向指导RNA(gRNA)和在染色体切割位点处引入合理突变的同源臂(HA)(例如图8A)。HA编码与同义PAM突变耦合的感兴趣的基因组编辑，该同义PAM突变被设计用于在修复后消除Cas9切割(例如图8B)。这种安排不仅确保了Cas9可以选择性地将所需的编辑富集至高水平，而且还确保了指导切割和HR所需的序列在合成过程中共价耦合，并因此在转化过程中同时递送至同一细胞。在大肠杆菌中基于CRISPR的选择的高效率编辑还应确保CREATE质粒与基因组序列之间的强相关性，并且允许质粒序列用作基因组编辑的反式作用条形码或替代物(例如图8C)。假设在不同选择压力下质粒频率的变化与其相关的基因组编辑相关，从而允许使用简单的下游测序方法平行监测许多基因座上的精确基因组修饰的影响，以在群体规模上映射富集的基因型，类似于先前的基因组追踪方法。

为了测试该概念，我们首先使用CREATE盒进行对照实验，该CREATE盒被设计为通过使用120bp HA引入单点突变以将密码子145从TAT转换成TAA终止密码子(例如图8B)来使galK基因失活。使用红色/白色菌落筛选测定评价使用Cas9和核酸酶缺陷的dCas9对照的该盒的编辑效率(例如图8A-8B，图15A-15C)。这些实验还表明，环状双链质粒与染色体之间的HR强烈依赖于Cas9切割，因为在不存在活性酶的情况下未观察到重组(例如图15A-15D)。这与其中寡核苷酸在复制叉的后随链上以高效率退火的单链重组工程化方法形成对比。由于大肠杆菌中dsDNA切割的毒性，Cas9还对整体转化效率产生不利影响(例如图9A-9D)。当在同一细胞中同时在两个位点处进行CREATE时，该毒性进一步恶化(例如图16A-16E)；当与缺乏有效的非同源末端连接途径组合时，强烈支持脱靶编辑事件在重组工程化文库中应该是罕见的这一事实。另外，毒性限制了文库构建和覆盖的大小，但是我们注意到所观察到的10⁴-10⁵个变体/μg DNA(例如图9A)处于与目前寡核苷酸合成能力相容的规模上(每个级别10^4-5个寡核苷酸)。因此，我们预计使用CREATE合成寡核苷酸设计，我们将能够在基因组中的任何位置处同时生成约10⁵个或更多个设计者突变，并将这样的突变精确地映射到靶表型上。

为了进一步表征CREATE盒设计的变化如何影响编辑效率，我们改变HA长度(80-120bp)和PAM-密码子/TS之间的距离(17-59bp)(例如图9B)。Cas9的诱导揭示了所有这些盒变体可以支持高效HR。在不存在Cas9诱导的情况下也观察到高效转化，从而表明由于渗漏的诱导型启动子，Cas9的低水平表达足以驱动切割和HR(例如图9B)。为了验证符合我们的预期设计的编辑，我们对随机选择的克隆的染色体进行测序，并发现71％(27/38)包含与CREATE设计的完全匹配，而26％(10/38)仅包含PAM编辑，并且其余3％(1/38)似乎是wt逃逸物(escaper)。作为设计灵活性的附加测试，使用引入不同大小缺失的缺失盒进行类似实验(例如图17A-17D)，并观察到类似的效率(>70％)，从而表明相同的设计自动化和追踪能力应该容易地扩展到多个设计目标(例如图13A-13D)。

高通量设计和多路文库构建

为了扩展用于全基因组应用的CREATE过程，我们开发了一种自动化盒设计的定制软件，该软件考虑了上述标准以系统地鉴定最接近靶位点(TS)的PAM序列，并对其进行修改以产生同义PAM突变。该设计软件是一套基于网络的设计工具的一部分以及扩展的一套CRISPR-Cas系统，该基于网络的设计工具可以针对大肠杆菌进行实施并且正在针对其他生物进行进一步开发。该软件平台能够以与基于平行阵列的寡核苷酸合成和简单的基于同源性的克隆方法相容的格式进行基因组文库的高通量合理设计，该克隆方法可以批量进行以用于文库构建(例如图8B)。

使用这种设计软件，我们为一系列应用生成了总共52,356个CREATE盒，其中通过常规方法进行的序列与活性的映射将是耗时且极其昂贵的。简言之，文库设计包括：1)folA基因的完全饱和，以在其染色体环境中映射必需基因的整个突变景观；2)与大肠杆菌中广泛的耐受性和生产表型有关的35种全局调节物、外排泵和代谢酶的功能性残基的饱和诱变；3)通过最近的耐热性自适应实验室进化(ALE)研究鉴定的一整套非同义突变的重建，以及4)被设计用于在RegulonDB中注释的转录起始位点处并入UP元件或CAP结合元件的启动子工程化文库(例如图13A-13D)。

平行扩增并克隆合并的寡核苷酸文库，并且分离单个变体的亚组以进一步表征不同基因座处的编辑效率(例如图9C)。用CREATE质粒转化后基因组基因座的扩增和测序揭示了平均编辑效率为70％(在七个不同基因座处采样的144个克隆中的106个)，该平均编辑效率在rpoH_V179H盒的30％至metA_V20L盒的100％的范围内。有趣的是，每个盒的编辑效率的差异与PAM与靶密码子之间的距离高度相关(例如图9D)，这一特征似乎也影响线性DNA模板有效引入靶向突变的能力(例如图18A-18B)。这种关系表明，后续的CREATE设计应该通过优化PAM选择标准来提高编辑效率。我们还注意到，编辑效率的差异可能反映了一些突变对生物体适应度的不利影响(metA在大多数培养基条件下被认为是必需基因)，并且对于特定蛋白质，可以观察到的突变数量可能存在上限。最后，在富集感兴趣的染色体突变体的任何特定的选择性或筛选步骤之外获得这些数据，并且因此证明了该方法构建突变文库的能力。

为了进一步表征多路合成和克隆程序的保真度，我们对合并的文库进行了深度测序(例如图19A-19D)。从克隆的CREATE盒文库的594,998个总读取中，550,152个(92％)通过了质量过滤并产生针对设计数据库的命中。其中我们观察到34,291个(65％)可能的独特变体的完全匹配，并且注意到在该初始库中缺失的许多盒在后来的选择中被观察到，从而表明在克隆阶段，我们可以容易地覆盖大部分的预期的设计空间。对这些读取的深入分析揭示，通过质量过滤的46％的读取与其预期设计完全匹配，其中包含1-4bp插入缺失或错配的其余读取主要位于设计突变位点附近的HA区域(例如图19A)。该区域中的突变偏差表明HA中的重复间隔区元件和盒的gRNA部分可形成对测序或合成产生不利影响的二级结构(例如图19B)。我们注意到这些变体设计很容易经由CREATE质粒-条形码化策略鉴定，并且在一些情况下可能希望在生成的文库中具有这种添加的多样性。我们还观察到克隆库的变体频率之间与重组工程化后的过夜回收之后，以及重复重组工程化实验之间的显著(p<0.05)相关性(例如图20A-20B)。这些结果表明，通过我们的方法应该能容易地追踪表现良好的变体，其精确度类似于先前在单个基因座上进行的基于CRISPR的饱和诱变程序。

基于CREATE的蛋白质工程

为了在单一基因水平上测试CREATE方法对蛋白质工程的稳健性，我们对必需的folA基因进行了深度扫描诱变。该基因编码负责四氢叶酸的产生和嘧啶、嘌呤和核酸的生物合成的二氢叶酸还原酶(DHFR)。DHFR也是抗生素甲氧苄啶(TMP)和其他用作抗生素或化学治疗剂的抗叶酸剂的主要靶标。丰富的结构和生化数据DHFR功能和抗生素抗性使其成为验证所述方法的理想模型。

将被设计用于使来自DHFR酶的2-158个密码子的每个密码子饱和的CREATE文库重组工程化到大肠杆菌MG1655中并使其回收过夜。回收后，将约10⁹个细胞(1mL饱和培养物)转移到含有抑制性TMP浓度的培养基中并允许其生长48小时。然后对得到的质粒群体进行测序，以评估我们在可赋予TMP抗性的单氨基酸置换水平上捕获信息的能力(例如图10A-10B)。使用本实验中包括的158个同义突变的富集数据推导出突变效应的引导置信区间(例如图10A-10B)。使用该标准，我们观察到覆盖蛋白质中49个氨基酸位置的74个置换(2.3％的设计空间)的显著(P<0.05)富集水平。尽管必需酶的突变灵活性的这种程度可能违反直觉，但它支持先前的结论，即该酶尚未达到其进化最佳状态，并且许多突变可以通过增强内源酶活性或改变这种酶的动态折叠景观来改善TMP耐受性。

这些结果也支持了这样的事实，即我们使用合理的诱变策略来更深入地探究改善的适应度变体的突变空间。例如，我们在位置F153处观察到7个显著富集的置换(例如图10A-10B)，这些置换之前均未通过易错PCR和自适应实验室进化(ALE)进行鉴定。为了验证这些特异性突变，我们重建了F153R和F153W变体，这些变体先前未在文献中报道，并且在该位置跨越了大范围的测量富集量表(例如图10D-10F)。我们证实了高度富集的F153R突变体在大范围的TMP浓度下快速生长，而F153W突变体显示了仅在选择中使用的中等TMP浓度下生长，这与它们各自的富集评分一致(例如图10A-10F)。此外，我们使用CREATE鉴定的7个突变中的6个突变需要两个核苷酸变化以将wt TTT密码子转换为所观察到的氨基酸之一(I：1nt，W：2nt，D：2nt，R：2nt，P：2nt，M：2nt，H：2nt)。F153R和F153W突变也似乎以不同方式影响天然酶活性(例如图21)，从而意味着这些置换可通过以不同方式改变该酶的酶促循环来赋予耐受性。

除了映射赋予TMP抗性的置换之外，我们还尝试鉴定影响DHFR天然活性的置换。为此，我们比较了在M9中过夜生长后每种质粒变体的频率(例如图22A-22C)。在这种情况下，我们观察到同义和非同义突变集的类似总体富集曲线，其中观察到极少数突变对生长具有显著影响。该意想不到的结果表明需要更大的测序深度和/或替代选择策略以为低适应性变体分配高置信度。

作为蛋白质工程应用的单独验证，我们生成了针对大肠杆菌中AcrB多药外排泵的4,240个变体文库(例如图23A-23F)。这种蛋白质可作为质子交换泵，该质子交换泵输出正在被作为下一代生物燃料进行开发并激发了众多的工程化工作的多种化学物质(包括抗生素、化学诱变剂和短链醇)。该文库被设计用于靶向内部室、将底物引导至AcrB/AcrA/TolC复合物的外膜组件的出口漏斗，以及已鉴定了赋予对异丁醇和较长链醇的耐受性的突变的跨膜结构域的关键区域(例如图23A-23C)。然后，我们构建了与FolA文库相同的AcrBCREATE文库，并在1.2％异丁醇的存在下使该文库生长。测序鉴定了与得以显着富集的中央流出漏斗相邻的环-螺旋基序的多个突变，从而表明该亚结构可以为工程化增强的流出活动提供新的靶标。AcrB N70D和D73L突变的重建也证实了这些突变在该溶剂应激的存在下增强总体生长的能力(例如图23D)。

来自大规模适应性研究的基因型适应度的平行评价

我们接下来寻求从单一蛋白规模扩展我们的工作并在基因组规模上验证CREATE的使用。为此，我们选择重建并映射先前对大肠杆菌耐热性的自适应实验室进化研究所产生的突变。ALE已被广泛用作响应于广泛的环境应激因素研究细菌适应性的工具。然而，在大多数情况下，基因组经历多个突变，使得难以评估每个突变对相关表型的贡献。在这里，我们设计并构建了CREATE文库以包括来自Tenaillon等人ALE实验的所有645个非同义突变体，然后使该文库经受在42.2℃的基本培养基中进行生长选择。为了评估能由同义PAM突变引起的任何可能的影响，我们在该文库的设计中包含了冗余，使得每个靶密码子与两个不同的PAM突变耦合，以便为每个非同义突变提供4倍设计冗余。针对校准目的，将ALE文库与蛋白质靶向文库合并以允许来自非ALE衍生文库的相对富集比较作为基准(例如图11A-11C)。在本实验超过50,000个盒中，我们观察来自ALE衍生文库的405盒高于最小计数阈值，属于252个独特变体(例如图11B)。与同义对照相比，在这些346个盒(编码231个非同义改变)中显著富集(例如图11B)，从而表明92％(231/252)的突变采样作为单个染色体突变赋予显著的选择性生长优势，与其在自适应生长期间的固定一致。此外，我们发现来自另外的CREATE文库的141个突变也显著富集，其中这些突变的86个突变靶向在碳代谢的中心调节物Crp的cAMP结合位点中或周围的残基。如此大量的Crp突变体的鉴定高度提示Crp在耐热性中的作用与先前的发现一致。

对于每个突变体，我们还计算了将wt密码子转换成其他19个氨基酸中的每一个所需的突变数目(例如图11C)。与folA一样，我们发现了具有高度影响的突变，如crp S28P和L30Y突变，其需要超过一个单核苷酸置换，并因此在实验室时间尺度下在自然进化的系统中难以达到或极为罕见。事实上，这似乎是我们所进行的许多选择中反复出现的主题(例如图24A-24D)，从而再次突出显示了合成DNA驱动的基因组工程化应用搜索策略的价值。

在全基因组规模上的选择性精确编辑的高通量映射

为了进一步验证用于基因组规模映射和探索的方法，我们用抗生素或与生物生产相关的溶剂来挑战全基因组靶向文库(例如图12A-12F)。在使用利福平(一种抑制RNA聚合酶转录的抗生素)(例如图12A，内圈)进行选择的情况下，我们观察到许多突出显示CREATE方法对原子分辨率映射的稳健性的富集变体。例如，前50个命中中的10个鉴定了RNA聚合酶β亚基(由rpoB编码)的残基I572、L533和S531的突变，其包含形成利福平结合位点的一部分的变体(例如图12B)。在7个富集变体中的6个变体中，数据表明庞大的置换对于空间阻碍7个利福平结合是必需的。除了β-亚基突变外，利福平选择富集了MarA转录激活因子的一些突变，其由于marR敲除导致的过表达是大肠杆菌中多种抗生素抗性(MAR)表型的充分研究方面。在MarA的DNA结合晶体结构中，Q89位于DNA骨架附近，但由于其他可能的旋转异构体与DNA骨架上最近的磷酸基团之间的空间碰撞而指向溶液(例如图12C)。通过该选择鉴定的MarA Q89N和Q89D突变的建模表明通过单个碳单元来缩短侧链可以实现新的蛋白质-DNAH-键合相互作用，从而改善整体MAR诱导反应。

为了将这些结果与干扰翻译的抗生素进行比较，我们在红霉素的存在下进行了另一轮选择(例如图12A的外圈)。来自该选择的富集曲线再次突出显示了先前涉及对该抗生素有抗性的基因座。例如，我们观察到作为该药物从周质空间的主要输出物的AcrB外排泵的4种不同突变的强烈富集(例如图12A)。有趣的是，其中一种变体(AcrB T60N)出现在从异丁醇选择中鉴定的相同的残基上(例如图23A-23F)。与其他突变一样，重建验证了这些突变中的至少两个突变(例如图23E-23F中的T60N和图25中的D73L)可以显著提高对红霉素以及异丁醇的耐受性，从而进一步支持这一基序可以为广泛的耐受表型提供有用的工程化靶标的想法。除了AcrB外，我们还观察到多个soxR和rpoS突变体的富集，这两个突变体之前涉及应激耐受性和一般抗生素抗性表型。总之，我们观察到341个显著富集的突变中有136个(40％)突变在RpoB、MarA、MarR、SoxR、AcrB或dxs蛋白中被鉴定出来，每个蛋白都作为抗生素抗性基因进行了广泛的事先验证。

最后，我们使用糠醛或乙酸盐进行选择，该糠醛或乙酸盐是在工业发酵条件下抑制细菌生长的纤维素水解产物的常见组分，并因此是许多菌株工程化工作的靶标(例如图12D-12F)。在高的乙酸盐浓度(10g/L，例如图12D的内部图)的存在下，排名前100位的突变分别由靶向fis、fadR、rho和fnr基因的盒主导(例如图12E)。Fis、Fnr和FadR调节物都涉及乙酸盐利用基因acs的转录调控，并涉及允许细胞有效地清除乙酸盐的所谓的“乙酸盐转换”。敲除这些调节物导致乙酸盐利用途径的组成型表达和改善的乙酸盐生长表型，从而表明在该研究中鉴定的突变(例如图12E-12F)可能通过使其各自蛋白质靶标不稳定来抑制这些调节功能。

与乙酸盐的弱酸耐受性相反，获得的富集曲线表明存在生长抑制浓度的糠醛(2g/L)与靶向氧化应激反应调节物rpoS的最常见的突变显著不同(例如图12F)。糠醛生长抑制被认为是通过细胞NADPH库(一种预防氧化应激和细胞生长的合成代谢途径的重要辅助因子)的消耗而发生的。根据我们的研究结果，之前对RpoS的研究表明，无活性等位基因在这样的营养素耗尽的情景中是有利的。有趣的是，我们还观察到在42.2℃选择中观察到的crp中的一些相同突变(例如图11A和11C)，并且在重建后证实了Crp S28P突变体可以在糠醛的存在下显著改善生长(例如图26A-26B)。我们还发现这种选择独特地富集了PntA转氢酶(一种将氢化物离子从NADH转移到NADP+以维持足够的合成代谢库的膜结合的转氢酶)的变体。因此，靠近底物结合裂缝的I258A突变可赋予增强的NADPH产生。

总的来说，这些选择通过展示映射已知关联的能力以及突出显示该方法用于快速将新突变映射到感兴趣的性状的能力来验证CREATE策略。同样重要的是要注意，与主要鉴定功能缺失突变的大多数其他功能基因组学技术相反，进行这样的大规模扫描诱变的能力为更一般的基因组搜索打开了大门，这些搜索还可以鉴定功能突变的新增益。

在这项工作中，我们已经证明CREATE允许在单个实验中平行映射数万个氨基酸和启动子突变。在一些实施例中，可以由单个研究人员可在1-2周内完成>50,000个全基因组突变的构建、选择和映射(例如图11A-11C和图12A-12F)，从而在经济、通量和靶标规模方面提供超过合成生物学现有技术方法的数量级的改进。重要的是，追踪文库变体富集的能力允许通过简单的基于PCR的工作流程使用仅一组引物，而不是限于几十个基因座的更复杂的下游测序方法进行多路序列与活性的映射。此外，能够映射编码区或启动子中单核苷酸或氨基酸水平变异的影响的能力使CREATE能够相比于先前限于基因分辨率分析的高通量基因组技术(如可追踪多路重组工程化(TRMR)或Tn-seq方法)解决一系列更加多样化的设计目标。这样的能力使得能够为破译基因功能和工程细胞特征提供新的范例，其包括可以实施迭代轮次的CREATE以进行设计驱动的基因组工程并解决广泛的抱负的工作流程。

值得注意的是，作为与现有方法的进一步区别，在该工作中报道的高效诱变(例如图9A-9D)不仅有数量级的改进，而且还在其中所有的原始DNA修复途径完整无损的野生型MG1655菌株中实现。大部分先前报道的在大肠杆菌中的重组工程化工作已经使用单链寡核苷酸工程化，该单链寡核苷酸工程化需要使错配修复基因或经化学修饰的寡核苷酸缺失以实现1％-30％效率的突变。基于质粒的同源重组底物和Cas9 dsDNA切割的组合似乎绕过了这些要求(例如图13A-13D和图9A-9D)，从而消除了对Cas9和λ-RED基因之外的专门遗传修饰的需要，以便在群体规模上进行有效的编辑和追踪(例如图9A-9D)。这个事实与CRISPR编辑的广泛效用一起表明，CREATE方法将很容易移植到各种微生物如酿酒酵母和其他高效转化方案可用的重组细菌。CREATE策略还应与使用类似自动化方法设计并追踪的各种CRISPR/Cas系统相容。然而，将该方法扩展到高等真核生物将需要开发克服非同源末端连接的策略以及可以稳定复制的替代追踪系统。

CREATE策略通过整合多路寡核苷酸合成、CRISPR-CAS编辑和高通量测序为序列与活性映射和定向进化提供了简化方法。

实施例28-在单核苷酸分辨率下的基因组规模序列与活性关系的映射，附加实施例

质粒条形码与基因组编辑的不一致映射的可能的影响

我们注意到初始CREATE文库包括我们期望在质粒条形码与基因组编辑之间具有低置信度映射的设计(主要通过CREATE盒中PAM与靶突变之间的距离来解释，参见图2d)。我们在下面描述了在质粒追踪可能导致关于基因组变体的错误结论的部分情况下可能出现的各种情况。在评价这些情况时要注意的一些事项包括：i)质粒盒相对于基因组编辑应该具有最小的功能影响或没有功能影响，ii)基因组基因座将仅为WT序列或来自我们经由测序获得的编辑盒中的序列，以及iii)鉴于多个位点的CRISPR-Cas编辑的毒性(例如图16A-16E)或在不存在添加的编辑修复模板的情况下进行时，非现场编辑是极不可能的。最后，我们注意到使用重复实验和更深层次的测序也可以解决这些问题。

追踪高适应度变体(阳性富集追踪)

在针对基因组修饰(以及相关的质粒)具有强选择性优势的情况下，我们将只观察在选择后染色体中具有编辑的细胞。因此，这几乎总是真阳性的，特别是当选择时间很短时，从而限制了由于复制错误席卷群体而导致的随机突变的可能性。虽然这种现象可能导致对突变的真实适应度的定量低估，由于富集曲线代表了经修饰和wt适应度的卷积，因此它不会产生假阳性。此外，使用重复实验和/或更长时间的选择也可以解决这一潜在问题并消除关于突变影响适应度的错误结论。

低适应度变体的追踪(阴性富集追踪)

在编码的突变具有负适应度贡献，但与仅PAM或未经修饰的染色体相关联的情况下，我们将错误地高估突变体的适应度并假设它更接近wt，尤其是对于更长的选择时间(例如，参见图22A-22C)。然而，任何深度测序方法必须处理类似的限制，由于在选择后缺乏关于这样的突变的信息以及与这些情景中与计数统计相关的问题。此外，我们会注意到，这种情况仅与未编辑部分(～30％)中真正负适应度突变体(其应当基于历史定向进化和ALE数据为10-20％)的亚组相关，并且在多次重复转化中仍保留在未编辑部分中。换句话说，它是一个小百分比(4-5％)的情况，该情况可以通过重复转化检测和/或解决，其中人们可观察到偶然出现WT适应度的特定突变体的不一致性。

不完全覆盖

在初始种群中不存在变体(由于低转化效率低和低编辑效率低)的情况下可能出现两种情况。如上述观点所暗示的，如果突变是有益的，人们可以错误地断定它不会赋予适应度优势，并且如果它是真正有害的，则它也可能被错误地指定中性的适应度得分。这似乎有时在这项工作中遇到，并且影响与重复测量相关的误差和我们区分低适应性变体与同义对照的能力。然而，我们鉴定有益突变体的能力是强大的，尽管这些问题通过我们易于鉴定新的和先前验证的突变的能力得到证明。通过克服Cas9毒性和提高重组工程化效率来解决这个问题的策略有望在很大程度上消除这些问题。此外，通过进行更大规模的转化来增加重复次数、增加测序深度和/或改善文库覆盖也可以帮助解决这些问题。

脱靶gRNA切割

由于其基因组的相对小的尺寸(4Mb)，脱靶gRNA切割在大肠杆菌中应该是罕见的，因此缺少与CREATE盒同源的(非靶向)区域。此外，在Cas9的存在下gRNA的毒性(例如图9A)确保了由于dsDNA断裂导致大肠杆菌中细胞存活受损。即使为每个切割位点提供了同源修复模板，引入大肠杆菌中的每个额外切口似乎会产生倍增毒性效应(例如图16A-16E)。由于缺乏用于指导HR的修复模板将进一步加剧这种毒性作用(例如图16A-16E)，如针对两个位点但仅包含单个HA的单个gRNA的脱靶切割事件的情况。

随机脱靶诱变(进化)

由于以下2个因素，CREATE变体由于脱靶突变而强烈富集的概率甚至是极不可能的：1)针对上述原因的毒性效应和2)与CREATE的诱变率相比，MG1655或其他突变修复熟练菌株的低突变率，特别是在选择的多个重复中。我们还验证了我们可以将质粒库转移回原始的亲本背景中，并快速验证从初始群体中富集改善CREATE质粒的适应度。与重复数据一样，这使我们能够将每个CREATE质粒与可能干扰我们分析的背景突变的潜力解耦。这些因素简化了我们分析过程中做出的假设，该假设的有效性得到了本工作期间确定的外部和内部验证的基因型的支持。

同义突变的可能影响

同义突变(例如在PAM区域中)可对表型赋予意想不到的影响。我们已经以多种方式控制了这一点。在每个实验中，我们包括由同义突变文库组成(每个密码子的1/20或总输出的5％)的内部对照，每个对照均对不同的PAM和密码子组合进行采样，从而通过测量许多同义改变的富集曲线，让我们了解我们对基因可能产生的影响范围。使用该群体作为对照，我们可以准确地鉴定在单个氨基酸的分辨率下的显著适应性改变，正如研究所表明的那样。我们还可以通过利用冗余采样方法来控制这种效应，其中位点与多个PAM突变耦合，类似于本文所述的ALE研究所做的。

CREATE文库设计考虑因素

在本文公开的一些工作中描述的基因靶向文库中实践了多种设计原理。例如，folA文库(3140盒)被设计为用于完整的单位点饱和诱变和序列活性的无偏差的探索性文库。然而，对于大多数基因，我们通过选择关注最有可能对靶蛋白产生功能影响的位点的多样性(例如DNA结合位点、活性位点、通过先前的选择确定为突变热点的区域)来寻求使有趣基因型的概率最大化。这些文库设计中包含的位点是根据存储在数据库中的信息选择的，该数据库包括Ecocyc(biocyc.org/)、Uniprot(uniprot.org/)和PDB(rcsb.org/pdb)以及使用定向进化方法鉴定感兴趣的残基或区域的相关文献引文。Uniprot和Ecocyc数据库提供表明每种蛋白质的突变效应和重要结构域的手动策划的序列特征。在有足够的结构信息来模拟配体或DNA结合位点的情况下，将相关的晶体结构加载到Pymol中并进行手工残基选择并作为数字列表输出。对于启动子文库，我们考虑了这些位点相对于转录起始位点的间距和CRP结合位点的典型识别序列(位于相对于转录起始位点-72与-40之间的AAATGTGAtctagaTCACATTT)或直接募集RNA聚合酶的α亚基的UP元件(来自转录起始位点的AAAATTTTTTTTCAAAAGTA-60)。这些序列被设计为使用针对蛋白质靶向设计的自动化CREATE设计软件的变化，在RegulonDB中相对于公开可用的转录起始位点注释在这些位置进行整合(例如图13A-13D)。制备这些盒是为了评估基因剂量和调节对适应性的影响。最后，我们设计了一个文库来重建所有645个靶向197个基因的非同义突变，该突变通过全面ALE实验鉴定，其中经过一年的适应高温(例如42.2℃)生长后对115个分离株的完整基因组进行测序。总之，我们设计了52,356个寡聚体，其中48,080个旨在使35个基因中的2404个密码子位置饱和，2,550个寡核苷酸被制备用于以允许同时进行序列与活性关系映射的方式使ALE突变、379个UP启动子突变体和772个CAP启动子突变再生。

盒设计和自动化原理

基于galK的对照实验(例如图9A-9D)和当前最大商业合成长度限制(来自Agilent的200bp)，我们为每个CREATE盒开发了一般设计(例如图8A-8B)。

使用自定义Python脚本自动化完成CREATE盒的设计。基本算法采用基因序列、靶残基列表和密码子列表作为输入。针对具有相应的间隔区序列的所有可用PAM位点搜索基因序列。然后根据与靶向密码子位置的相对接近度对该列表进行分类。对于初始列表中的每个PAM位点，该算法检查可以在直接破坏PAM位点的帧内进行的同义突变，如果满足该条件，则算法继续进行指定的密码子改变并用随附的间隔区设计完整的CREATE盒，并分别针对每个输入密码子和位置进行迭代。对于每个PAM突变，在进入下一个PAM位点之前检查所有可能的同义密码子置换。对于本研究中的密码子饱和文库，我们根据大肠杆菌使用统计数据为每个设计的氨基酸置换选择最常见的密码子(genscript.com/cgi-bin/tools/codon_freq_table)。该脚本可以在膝上型计算机上快速运行，并用于在<10分钟内生成这些文库的完整设计。本研究中使用的算法旨在通过有时仅使用PAM作为可选择的突变标记来使最保守的突变成为可能。

质粒

通过将来自基因组化脓性链球菌DNA的cas9基因扩增到pBTBX2骨架(Lucigen)中来构建X2-cas9广泛宿主范围载体。该载体的载体图谱和序列以及galK_Y145*_120/17CREATE盒在以下位置提供：benchling.com/s/3c941j/edit；benchling.com/s/xRBDwcMy/edit.

在一些工作中进行的编辑实验采用X2-cas9载体与pSIM5载体(redrecombineering.ncifcrf.gov/strains--plasmids.html)组合以实现报道的效率。

CREATE文库的重组工程化

通过将CREATE质粒文库转化到携带温度敏感性pSIM5质粒(λRED)的野生型大肠杆菌MG1655菌株和含有从化脓性链球菌基因组DNA克隆到pBTBX-2骨架中的诱导型cas9基因的广泛宿主范围质粒来制备基因组文库(X2cas9，例如图15A-15D)。将pSIM5在42℃诱导15min，然后在冰上冷却15min。用¹/₅初始培养体积的ddH2O(例如50mL培养物含10mL洗涤液)洗涤细胞3次。电穿孔后，在LB+0.4％阿拉伯糖中回收细胞以诱导Cas9。在斑点接种前1-2小时回收细胞以确定文库覆盖并转移至10X体积，以供在LB+0.4％阿拉伯糖+50μg/mL卡那霉素+100μg/mL羧苄青霉素中过夜回收。将饱和过夜培养物沉淀并重新悬浮于5mL的LB中。在进行选择之前，使用1mL制备甘油储液，并用适当的选择培养基洗涤另外1mL。

对于galK的对照实验，我们使用了被设计用于将Y145(TAT)转化为具有该位置处的单点突变和第二点突变的终止密码子(TAA)的CREATE盒，以产生消除所靶向的PAM位点的同义突变(例如图8B和图13A-13D)。如前所述，在1％半乳糖补充的MacConkey琼脂上使用基于红/白板的筛选来估计编辑效率(例如图13A-13D和图9A-9B)。

选择程序

过夜回收后，通过沉淀收获所述细胞，并重新悬浮于新鲜的选择培养基中。所有选择均在摇瓶中进行，并在初始OD600为0.1时接种。通过在培养物达到稳定期后转移培养基体积的1/100，对每个选择进行三次连续稀释(48-96小时，取决于目标条件下的生长速率)。在M9培养基+0.2％葡萄糖中进行42℃选择以模拟初始适应的低碳可用性。在LB+500μg/mL利福平或红霉素中进行抗生素选择以确保严格选择。在M9+0.4％葡萄糖和10g/L乙酸盐(未缓冲的)或2g/L糠醛中进行溶剂选择。通过沉淀1mL最终培养物收获选择，并将细胞沉淀物在100μL TE缓冲液中煮沸，以保留质粒和基因组DNA以供进一步的所需分析。

文库制备和测序

定制Illumina兼容引物被设计为允许来自CREATE质粒的单个扩增步骤和使用条形码分配实验读取。使用具有Phusion(NEB)聚合酶的PCR的20个循环，采用60℃退火和1:30分钟延伸时间，直接从煮沸的细胞裂解物的质粒序列扩增CREATE盒。如在克隆过程中一样，保持最少数目的PCR循环以防止在实施过量数目的PCR循环(例如>25-30)时观察到的突变和重组CREATE盒的积累。通过1％琼脂糖凝胶电泳验证并量化扩增的片段，并根据每个样品的所需读取深度进行合并。使用Qiaquick PCR清理试剂盒对合并的文库进行清理，并使用标准Illumina制备试剂盒处理NGS。用引物进行Illumina测序和样品制备。

高通量测序和计数生成的预处理

根据golay条形码索引对配对末端Illumina测序读取进行分类，允许最多3个错配，然后使用usearch-fastq_merge算法合并。然后使用usearch_global算法以90％的同一性阈值将分类读取与设计的CREATE盒的数据库进行匹配，从而允许每次读取最多60次可能的命中。根据百分比同一性对得到的命中进行进一步分类，并使用最佳匹配的CREATE盒设计以最终截止值为初始设计的98％同一性进行读取分配。应当注意的是，这种读取分配策略试图鉴定所设计的基因型之间的相关性，并因此可能遗漏由于在实验过程中可能发生的突变而产生的其他重要特征。这种方法既用于简化数据分析，也用于评价“正向”设计和注释程序，以及准确鉴定有意义的遗传现象的能力。

数据分析和适应度计算

使用以下等式将富集得分(或绝对适应度得分)计算为log2富集得分：其中F_x,f是最终时间点处的盒X的频率，并且F_x,i是盒X的初始频率，并且W是每个变体的绝对适应度。通过将每个变体的读取计数除以总实验计数(包括因过滤而丢失的计数)来确定频率。每个选择一式两份进行，并且两次测量的计数加权平均值用于推断每个突变的平均适应度得分如下：

这些得分用于在所研究的各种选择压力下对每种突变的适合度贡献进行排序和评估。对于所有选择，我们将取所有同义突变体的平均绝对适合度得分作为平均增长率的综合测量值。如果突变体富集至少是野生型值的+/-2*σ(例如假设正态分布的p＝0.05)，则认为绝对富集得分是显著的。我们对本研究中报告的每个选择进行了两次重复以获得这些数据，并在重复实验中应用截止阈值10以便包括在每个分析中。

对于靶向的每个密码子，我们的设计还包括同义变体以提供内部实验对照。因此，5％的蛋白质靶向盒编码的同义突变，允许我们使用自定义Python引导脚本来估计突变效应的置信区间。用替换20000对每个实验的富集数据进行重新采样以获得用于推断原稿中呈现的每个分析的富集得分的统计显著性的95％置信区间估计。

突变体重建和生长测定

将AcrB T60N和Crp S28P以及FolA F153R/W CREATE盒作为来自IDT的单独gblock进行排序，克隆并进行序列验证。将每个盒转化到MG1655中并筛选菌落以鉴定具有所设计的基因组编辑的克隆。然后使这些菌株(例如图21和图22A-22C)从所示的合并文库选择中经受生长条件。在96孔板读取器中，针对100μL中的每种条件，一式三份地获得生长曲线，以测量600nm处的吸光度。盖上板并将水添加至空孔中以减少生长期间的蒸发。

软件和图形生成

使用Circos v0.67生成圆形图。使用matplotlib绘图文库在Python 2.7中生成绘图并使用Adobe Illustrator CS5绘制图形。使用ProDy Python包和Pfam登录号PF00186代表蛋白质组比对RP35来确定FolA的熵得分(图10A)。

使用The PyMol Molecular Graphics System,Schrodinger,LLC来绘制蛋白质文库和高适应度突变的图形。以下是图形生成中使用的蛋白质和PDB：AcrB(3W9H、4K7Q、3AOC)、Fis(3JR9)、Ihf(1IHF)、RNA聚合酶(4KMU、4IGC)、Crp(3N4M)、MarA(1BLO)和SoxR(2ZHG)。

实施例29：测试编辑-条形码相关性

使用不同的基因编辑盒(lacZ、xylA和rhaA)和具有不同条形码和插入位点(galK位点1、galK位点2和galK位点3)的记录器盒来测试表达低拷贝数质粒(Ec23)的菌株，该菌株为Cas9-pSIM5双载体(在图27A中概述)。可能的结果如图27B所示。选择前，编辑/条形码/WT的所有组合都是可能的。选择后，在该实验设计中，编辑细胞无论是否被条形码化，它们都可以被富集。

将转化体涂布在选择性培养基上，该培养基允许富集含有基因编辑的细胞。对来自每个组合转化的30个菌落进行测序以确定它们是否含有所需的条形码。

图27C示出了测序数据的结果。在100％的测试菌落(30/30菌落)中发现了两种编辑/条形码组合，并且在大约97％的测试菌落(29/30菌落)中发现了其他编辑/条形码组合转化。没有经正确设计的单个菌落包含基因编辑，但不包含条形码。

总之，90个测试菌落中的89个菌落具有经设计的基因编辑和条形码。

实施例30-选择性记录

当未选择条形码时，即使并入并选择了相应的基因编辑，它也允许富集非条形码化的细胞。图28描绘了除了选择编辑盒并入之外，用于选择记录事件的示例性策略(例如，通过记录器盒并入条形码)，从而提高了已编辑和条形码化的细胞的回收效率。

如图28所示，序列S0、S1、S2等被设计为通过与下一轮记录器盒相关的指导RNA进行靶向。在所描述的实施例中，在第一轮工程化中，将PAM突变、条形码、S1位点和开启可选择标记所必需的调节元素并入靶区域的S0位点。这开启了TetR可选择标记并允许用第一轮PAM位点被删除的S1位点来富集条形码化突变变体。在第二轮工程化中，将包含第二PAM突变、第二条形码、S2位点和关闭可选择标记的突变的新记录器盒并入上一轮的S1位点。这允许反选择已包含第二条形码和S2位点的变体。随后的轮次继续在开启与关闭状态之间翻转可选择标记，并分别使用选择或反选择来丰富所需的变体。来自每一轮的记录器盒被设计为并入前一轮中包含的独特序列(例如，S0、S1等)中。这确保最后一轮条形码化成功，以便最终产品中包含所有所需的工程化步骤。在每个步骤中并入PAM突变也有助于确保选择所需的条形码化变体，因为具有未经修饰的PAM序列的细胞将被杀死，因为它们不能逃脱CRISPR酶切割。

该策略使用多种方法来提高从每轮工程化中分离包含所有工程化编辑的所需变体的效率。每一轮中包含的PAM突变、可选择标记开关和独特着陆位点分别提高了效率并且同时提高了效率。这些工具允许选择每个记录轮次并且允许设计高活性的记录指导RNA。生成等间距(或不等距，取决于设计)条形码的阵列，并促进下游分析，如对条形码阵列进行测序以确定在整个基因组中并入哪些相应的编辑。

图29描绘了测试上述选择性记录器策略的实验设计。将含有编辑盒和记录器盒的质粒(pREC1)转化到细胞中。编辑盒含有非靶向编辑盒或将突变(非TS)或温度敏感突变(TS)并入靶基因的突变。记录器盒被设计为并入最初关闭tetR可选择标记的靶基因中的S0位点。记录器盒还含有PAM突变，该PAM突变缺失S0PAM位点、第一条形码(BC1)、用于随后工程化轮次记录器盒并入的独特的S1位点以及将开启TetR可选择标记的纠正突变。在S0位点中记录盒上的靶向PAM位点的指导RNA(S0-gRNA)允许CRISPR酶(在这种情况下为Cas9)切割S0位点。记录器盒重组到所切割的S0位点。并入PAM突变，这意味着S0-gRNA不再能够靶向S0位点，从而杀死WT细胞并富集接收条形码的细胞。TetR可选择标记也被开启，从而允许进一步选择条形码化变体。

图30A和图30B中的数据示出了来自上述实验和图29中示出的实验的结果。在从转化和工程化轮次中回收的Tet抗性菌落中，16个是序列并确定都含有经设计的条形码(图30A)。图30B示出了不含有记录器靶位点(非靶标)的对照细胞在Tet的存在下不能存活，而含有靶位点的细胞被成功地条形码化，作为TetR开启的证据，从而允许在包含Tet的培养基上选择细胞。在基因组位点确认Tet抗性菌落以开启TetR基因。这些数据显示了选择性记录是成功的。

实施例31-MAD核酸酶的表达

MAD1-MAD20的野生型核酸序列分别包括SEQ ID NO 21-40。对这些MAD核酸酶进行密码子优化以在大肠杆菌中表达，并且密码子优化的序列分别列为SEQ ID NO:41-60(总结于表2中)。

将密码子优化的MAD1-MAD20克隆到包含组成型或诱导型启动子(例如，T7启动子SEQID NO:83，或pBAD启动子SEQ ID NO:81或SEQ ID NO:82)和可选的6X-His标签的表达构建体中。将生成的MAD1-MAD20表达构建体分别作为SEQ ID NO:61-80提供。

表2.

实施例32-MAD2和MAD7核酸酶

MAD2和MAD7核酸酶是可以用于本文公开的方法的核酸指导的核酸酶。将核酸酶Mad2(SEQ ID NO:2)和Mad 7(SEQ ID NO:7)克隆并转化到细胞中。被设计用于使galK基因中的靶位点突变的编辑盒被设计为具有突变，其允许成功编辑菌落的白/红筛选。编辑盒还编码被设计用于靶向galK的指导核酸。将编辑盒转化到表达MAD2、MAD7或Cas9的大肠杆菌细胞中。图31A示出了与Cas9(SEQ ID NO:110)相比，Mad2和Mad7的编辑效率。图31B示出了如细胞存活率所证明的转化效率。在该实施例中，与MAD2和MAD7一起使用的指导核酸包含支架-12序列和靶向galK的指导序列。与Cas9一起使用的指导核酸包含与化脓性链球菌Cas9兼容的序列。

图32和表3示出了使用MAD2核酸酶进行基因编辑的更多实施例。在该实验中，测试了不同的指导核酸序列。如上所述，指导核酸的指导序列靶向galK基因。指导核酸的支架序列是如所示测试的各种序列之一。具有支架-5、支架-10、支架-11和支架-12的指导核酸能够与MAD2形成功能性复合物。

图33和表4示出了使用MAD7核酸酶进行基因编辑的更多实施例。在该实验中，测试了不同的指导核酸序列。如上所述，指导核酸的指导序列靶向galK基因。指导核酸的支架序列是如所示测试的各种序列之一。具有支架-10，支架-11和支架-12(例如，图31A)的指导核酸能够与MAD7形成功能性复合物。表2中提供了氨基酸序列，并且表3和表4中提供了支架序列。表3和表4还提供了用于使galK靶基因突变的编辑盒中的设计突变。

MAD2，MAD7和其他MAD核酸酶的进一步细节和表征描述于2017年6月23日提交的美国申请号15/631,989和2017年6月23日提交的美国申请号15/632,001，每个申请均通过引用以其全文并入本文。

表3.

表4

虽然本文中已经示出并描述了本发明的优选实施方案，但是对于本领域技术人员显而易见的是，这些实施方案仅以示例的方式提供。本领域技术人员在不脱离本发明的情况下现将会想到多种变化、改变和替换。应当理解，本文所述的本发明实施方案的各种替代方案可用于实施本发明。旨在以下述权利要求限定本发明的范围，并由此涵盖这些权利要求范围内的方法和结构及其等同物。

序列表

表5.

Claims

1.一种组合物，其包含：

i)第一供体核酸，其包含：

a)经修饰的第一靶核酸序列；

b)第一前间隔区邻近基序(PAM)突变；和

c)第一指导核酸序列，其包含与所述第一靶核酸的一部分互补的第一间隔区；以及

ii)第二供体核酸，其包含：

a)对应于所述经修饰的第一靶核酸序列的条形码；和

b)第二指导核酸序列，其包含与第二靶核酸的一部分互补的第二间隔区。

2.根据权利要求1所述的组合物，其中与对应的未经修饰的第一靶核酸相比，所述经修饰的第一靶核酸序列包含至少一个插入、缺失或置换的核酸。

3.根据权利要求1所述的组合物，其中所述第一指导核酸和第二指导核酸与核酸指导的核酸酶相容。

4.根据权利要求3所述的组合物，其中所述核酸指导的核酸酶是II型或V型Cas蛋白。

5.根据权利要求3所述的组合物，其中所述核酸指导的核酸酶是Cas9同源物或Cpf1同源物。

6.根据权利要求1所述的组合物，其中所述第二供体核酸包含第二PAM突变。

7.根据权利要求1所述的组合物，其中所述第二供体核酸序列包含调节序列或突变以开启或关闭可筛选或可选择标记。

8.根据权利要求1所述的组合物，其中所述第二供体核酸序列靶向独特的着陆位点。

9.一种基因组工程化方法，所述方法包括：

a)使细胞群体与多核苷酸接触，其中每个细胞包含第一靶核酸、第二靶核酸和核酸指导的核酸酶，

其中所述多核苷酸包含

1)编辑盒，其包含：

i)经修饰的第一靶核酸序列；

ii)第一前间隔区邻近基序(PAM)突变；

iii)第一指导核酸序列，其包含与所述第一靶核酸的一部分互补并且与所述核酸指导的核酸酶相容的间隔区；以及

2)记录器盒，其包含：

i)对应于所述经修饰的第一靶核酸序列的条形码；和

ii)第二指导核酸序列，其包含与所述第二靶核酸的一部分互补并且与所述核酸指导的核酸酶相容的第二间隔区；

b)使所述第一指导核酸序列、所述第二指导核酸序列和所述核酸指导的核酸酶在所述第一靶核酸和所述第二靶核酸内产生基因组编辑。

10.根据权利要求9所述的方法，其进一步包括c)对所述条形码的一部分进行测序，从而鉴定在步骤a)中插入所述第一靶核酸内的所述经修饰的第一靶核酸。

11.根据权利要求9所述的方法，其中所述核酸指导的核酸酶是CRISPR核酸酶。

12.根据权利要求9所述的方法，其中所述PAM突变不被所述核酸指导的核酸酶识别。

13.根据权利要求9所述的方法，其中所述核酸指导的核酸酶是II型或V型Cas蛋白。

14.根据权利要求9所述的方法，其中所述核酸指导的核酸酶是Cas9同源物或Cpf1同源物。

15.根据权利要求9所述的方法，其中所述记录器盒进一步包含不被所述核酸指导的核酸酶识别的第二PAM突变。

16.一种选择性递归遗传工程化方法，其包括

a)使包含核酸指导的核酸酶的细胞与包含记录器盒的多核苷酸接触，所述记录器盒包含

i)核酸序列，其重组到在前一轮工程化期间并入的独特的着陆位点内，其中所述核酸序列包含独特的条形码；和

ii)与靶向所述独特着陆位点的所述核酸指导的核酸酶相容的指导RNA；以及

b)使所述核酸指导的核酸酶编辑所述独特的着陆位点，从而将所述独特的条形码并入到所述独特的着陆位点内。

17.根据权利要求16所述的方法，其中所述核酸序列进一步包含开启或关闭可筛选或可选择标记的转录的调节序列。

18.根据权利要求16所述的方法，其中所述核酸序列进一步包含与所述核酸指导的核酸酶不相容的PAM突变。

19.根据权利要求16所述的方法，其中所述核酸序列进一步包含用于后续工程化轮次的第二独特的着陆位点。

20.根据权利要求16所述的方法，其中所述多核苷酸进一步包含编辑盒，所述编辑盒包含

a)经修饰的第一靶核酸序列；

b)第一前间隔区邻近基序(PAM)突变；以及

c)第一指导核酸序列，其包含与所述第一靶核酸的一部分互补的第一间隔区，

其中所述独特的条形码对应于所述经修饰的第一靶核酸，使得可以通过所述独特的条形码来鉴定所述经修饰的靶核酸。