CN111344403A

CN111344403A - 遗传工程细胞的多元性产生和条形码编制

Info

Publication number: CN111344403A
Application number: CN201880073960.7A
Authority: CN
Inventors: K·罗伊; J·D·史密斯; R·P·圣昂格; L·M·施泰因梅茨; J·E·哈伯
Original assignee: Brandeis University; Leland Stanford Junior University
Current assignee: Brandeis University; Leland Stanford Junior University
Priority date: 2017-09-15
Filing date: 2018-09-14
Publication date: 2020-06-26
Also published as: EP3682004A2; CA3075532A1; EP3682004A4; WO2019055878A3; US20200270632A1; WO2019055878A2; AU2018334273A1

Abstract

本公开涉及使用RNA引导的核酸酶和基因组条形码多元性产生遗传工程细胞和并进行表型分型。具体地，采用通过同源介导修复促进所需靶染色体基因座处精确基因组编辑的系统实现高通量多元性基因组编辑。向导RNA和供体DNA序列作为基因组条形码在不同的染色体基因座整合，可允许从转化子池中鉴定、分离和大规模平行验证单独变体。菌株能根据其精确遗传修饰进行排列，如供体DNA掺入异源或天然基因所指定。本公开还涉及一种典型向导RNA识别区外的密码子编辑方法，其使蛋白编码基因的完全饱和突变可行，一种基于标记的内部克隆方法，其移除由寡核苷酸合成错误和不完全载体骨架切割导致的背景，以及一种通过活跃的供体募集来提高同源介导修复的方法。

Description

遗传工程细胞的多元性产生和条形码编制

相关申请的交叉引用

本申请要求2017年9月15日提交的美国临时申请号62/559,493的优先权，所述申请通过引用全文纳入本文。

关于联邦资助的研究或开发的声明

本发明根据国立卫生研究院授予的合同HG000205和国家标准技术局授予的合同70NANB15H268，在政府支持下进行。政府对发明享有某些权利。

技术领域

本公开一般涉及使用RNA-引导的核酸酶的基因组工程领域。特别地，本公开涉及使用RNA-引导的核酸酶和条形码(barcode)多元性高通量产生并验证遗传工程细胞的组合物及方法。

发明背景

经CRISPR/Cas9系统的可编程基因组编辑的出现，能快速推进合成生物学和遗传工程。酿脓链球菌(Streptococcus pyogenes)II型成簇规律间隔的短回文重复序列(CRISPR)-相关蛋白9(Cas9)是第一个RNA-引导的核酸酶(RGN)，显示使用与靶区域有同源性的向导RNA(gRNA)切割任何基因组位置²。采用宿主细胞中存在的基于保守同源重组的DNA修复途径，在切割位点侧翼有同源性的供体DNA能用于修复断裂并引入感兴趣的遗传变化。gRNA的短特异性决定区(一般长度为20个核苷酸)和供体DNA长度(～100-150nt)与高度平行的基于阵列寡核苷酸文库合成相容，能容易产生针对数以千计的靶的gRNA-供体文库^1,3-8。然而，迄今为止，变体文库的生成仍限于池(pool)，这极大限制了表征单独变体表型的选择。例如，显微镜检查、代谢组学和许多酶试验报告分子不适合合并的(pooled)模式。

CRISPR编辑在酵母中尤其有效，因为其在供体DNA存在时强烈优先使用同源重组(HR)来修复双链断裂，消除了在编辑基因组时对选择性标记的需求^9-11。与酵母中报道的近100％Cas9编辑效率相反^12-14，后生动物细胞中的基因编辑被与HR相比优先非同源末端连接(NHEJ)而干扰，人细胞中的HR编辑仅达到约10-60％的最大效率^15,16。因此，除了延伸酵母的确立已久的应用作为真核生物生物学的模型系统，Cas9系统放大了酵母作为改造异源蛋白和途径的宿主的价值。

因此，仍需要更有效和灵活的基因组编辑方法，所述方法提高经HR机制修复RGN-介导双链断裂以允许以想要的精确基因变化修饰基因组，以及高通量产生变体文库的改进方法。

发明内容

本公开涉及多元性产生和验证遗传工程细胞，使用RNA-引导的核酸酶和条形码。具体地，高通量多元性基因组编辑用通过同源介导修复促进所需靶染色体位点处精确基因组编辑的系统实现。向导RNA和供体DNA序列作为基因组条形码在不同于靶基因座的染色体基因座整合，可允许从转化子池中容易鉴定、分离和大规模平行验证单独变体。菌株能根据其精确遗传修饰进行排列，如供体DNA掺入异源或天然基因所指定。本公开还涉及一种典型向导RNA识别区外的密码子编辑方法，其使蛋白编码基因的完全饱和突变可行，一种基于标记的内部克隆方法，其移除由寡核苷酸合成错误和不完全载体骨架切割导致的背景，以及一种通过活跃的供体募集来提高同源介导修复的方法。

本文提供多元性产生遗传工程细胞的方法，所述方法包括：(a)用多种不同的重组多核苷酸转染多个细胞，各重组多核苷酸包含基因组编辑盒，所述基因组编辑盒包含编码能在待修饰基因组靶基因座杂交的第一向导RNA(gRNA)的第一核酸序列和供体多核苷酸，从而形成gRNA-供体多核苷酸组合，其中各重组多核苷酸包含不同的基因组编辑盒，所述不同的基因组编辑盒包含不同的gRNA-供体多核苷酸组合，并允许各细胞表达第一核酸序列，从而形成gRNA；和(b)向所述多个细胞中的每一个引入RNA-引导的核酸酶，其中各细胞内的RNA-引导的核酸酶与gRNA形成复合物，从而形成gRNA-RNA-引导的核酸酶复合物，并允许gRNA-RNA-引导的核酸酶复合物通过将供体多核苷酸整合入基因组靶基因座而修饰基因组靶基因座，从而生成多个遗传工程细胞。

另一方面，提供多元性产生遗传工程细胞的方法，所述方法包括：(a)用多种不同的重组多核苷酸转染多个细胞，各重组多核苷酸包括独特的多核苷酸条形码和包括第一核酸序列及供体多核苷酸的基因组编辑盒，所述第一核酸序列序列编码能在待修饰基因组靶基因座杂交的第一向导RNA(gRNA)，从而形成gRNA-供体多核苷酸组合，其中各重组多核苷酸包括不同的基因组编辑盒，所述不同的基因组编辑盒包括不同的gRNA-供体多核苷酸组合，并允许各细胞表达第一核酸序列，从而形成gRNA；和(b)向所述多个细胞中的每一个引入RNA-引导的核酸酶，其中各细胞内的RNA-引导的核酸酶与gRNA形成复合物，从而形成gRNA-RNA-引导的核酸酶复合物，并允许gRNA-RNA-引导的核酸酶复合物通过将供体多核苷酸整合入基因组靶基因座而修饰基因组靶基因座，从而生成多个遗传工程细胞。

在实施方案中，所述方法还包括序列验证和多个遗传工程细胞排成阵列(arraying)，所述方法包括：(c)将多个遗传工程细胞以有序阵列接种于适合遗传工程细胞生长的培养基；(d)在一定条件下培养多个遗传工程细胞，其中各遗传工程细胞在有序阵列中生成克隆集落；(e)向条形码细胞引入来自有序阵列集落的基因组编辑盒，其中条形码细胞包含核酸，所述核酸包含位点特异性重组酶的重组靶位点，和条形码序列，所述条形码序列鉴定基因组编辑盒对应的有序阵列中集落的位置；(f)用位点特异性重组酶系统将基因组编辑盒转位到毗邻条形码细胞的条形码序列的位置，其中与条形码细胞的重组靶位点的位点特异性重组产生包含与基因组编辑盒连接的条形码序列的核酸；(g)对包含与基因组编辑盒连接的条形码细胞的条形码序列的核酸进行测序，以鉴定来自集落中基因组编辑盒的向导RNA序列和供体多核苷酸序列，其中条形码细胞的条形码序列用于鉴定有序阵列中的集落位置，所述基因组编辑盒来源于所述位置；和(h)挑出由条形码细胞的条形码鉴定的包含序阵列中的集落的基因组编辑盒的克隆。

另一方面，提供将供体多核苷酸定位到细胞中基因组靶基因座的方法，所述方法包括：(a)用重组多核苷酸转染细胞，重组多核苷酸包括包括供体多核苷酸以及已知结合DNA结合域的DNA结合序列的基因组编辑盒；(b)将核酸酶引入细胞，其中核酸酶在基因组靶基因座识别并导致双链DNA断裂；(c)向细胞引入供体募集蛋白，供体募集蛋白包括DNA结合域和DNA断裂位点定位结构域并允许供体募集蛋白选择性募集双链DNA断裂，从而将供体多核苷酸定位到基因组靶基因座。

另一方面，提供基因编辑载体文库，各基因编辑载体包括基因组编辑盒，包括(i)条形码，(ii)第一核酸序列，编码能在待修饰基因组靶基因座杂交的第一向导RNA(gRNA)，和(iii)供体多核苷酸，从而形成条形码-gRNA-供体多核苷酸组合；其中各重组多核苷酸包括包括不同的条形码-gRNA-供体多核苷酸组合的不同基因组编辑盒。

另一方面，提供包括供体多核苷酸和第一核酸序列的基因编辑载体，所述核酸序列编码能在靶位点与载体杂交的第一向导RNA(向导X)，从而当细胞表达向导X时，向导X与载体杂交并在靶位点处产生双链DNA断裂。

另一方面，提供试剂盒，包括：(a)本文所述基因编辑载体，包括其实施方案；和(b)核酸酶或编码核酸酶的多核苷酸。

另一方面，提供试剂盒，包括：(a)本文所述基因编辑载体，包括其实施方案；和(b)遗传修饰细胞的试剂。

另一方面，提供基因编辑载体文库，各基因编辑载体包含包含以下的基因组编辑盒：(i)第一核酸序列，编码能在待修饰基因组靶基因座杂交的第一向导RNA(gRNA)，和(ii)供体多核苷酸，从而形成gRNA-供体多核苷酸组合；其中各重组多核苷酸包含包含不同gRNA-供体多核苷酸组合的不同基因组编辑盒。

在实施方案中，各重组多核苷酸还包含编码RNA-引导的核酸酶的第二核酸序列。

一方面，本公开包括细胞的多元性遗传修饰和条形码编制(barcoding)方法，所述方法包括：a)提供多种重组多核苷酸，其中各重组多核苷酸包含基因组编辑盒，所述基因组编辑盒包含编码能在待修饰基因组靶基因座杂交的向导RNA(gRNA)多核苷酸和供体多核苷酸的，所述供体多核苷酸包含与5'基因组靶序列杂交的5'同源臂和与3'基因组靶序列杂交的3'同源臂，所述5'同源臂和3'同源臂在包含待整合入基因组靶基因座的想要的编辑的核苷酸序列侧翼，其中各重组多核苷酸包含包含不同的向导RNA-供体多核苷酸组合的不同的基因组编辑盒，从而多种重组多核苷酸能在一个或多个基因组靶基因座产生多种不同的想要的编辑；和(b)用多种重组多核苷酸转染细胞；c)在适合转录的条件下培养转染细胞，其中向导RNA生成自各基因组编辑盒；d)向细胞引入RNA-引导的核酸酶，其中RNA引导的核酸酶与细胞中生成的向导RNA形成复合物，所述向导RNA将复合物导向一个或多个基因组靶基因座，其中RNA引导的核酸酶在一个或多个基因组靶基因座处的细胞基因组DNA中产生双链断裂，各细胞中存在的供体多核苷酸通过同源介导修复(HDR)在由其5'同源臂和与3'同源臂识别的基因组靶基因座处整合，从而生成多个遗传修饰细胞；和e)通过在染色体条形码基因座整合各遗传修饰细胞中存在的基因组编辑盒，对多个遗传修饰细胞进行条形码编制。在某些实施方案中，所述方法还包括通过使用不同基因组编辑盒重复步骤(a)-(e)对遗传修饰细胞实施额外几轮遗传修饰和基因组条形码编制。

在某些实施方案中，各重组多核苷酸由载体提供。例如，载体可以是质粒或病毒载体。在某些实施方案中，所述载体是高拷贝数载体。

在某些实施方案中，各重组多核苷酸作为线性DNA提供。例如，所述方法还包括扩增包含基因组编辑盒的重组多核苷酸，其作为PCR产物提供。

在某些实施方案中，所述RNA引导的核酸酶也由载体提供。在某些实施方案中，所述基因组编辑盒和RNA引导的核酸酶由单一载体或分开的载体提供。在另一实施方案中，编码RNA引导的核酸酶的重组多核苷酸整合入宿主细胞的基因组。

向导RNA的转录一般依赖于启动子的存在，其可纳入基因组编辑盒，或纳入载体或染色体基因座(如染色体条形码基因座)，其中插入了基因组编辑盒。启动子可以是组成型或诱导型启动子。在某些实施方案中，各基因组编辑盒包括与向导RNA编码多核苷酸可操作连接的启动子。在其他实施方案中，所述染色体条形码基因座包括启动子，其与编码任何基因组编辑盒向导RNA的多核苷酸可操作连接，基因组编辑盒在染色体条形码基因座处整合。在另一实施方案中，各重组多核苷酸由载体提供，其中所述载体包括与向导RNA编码多核苷酸可操作连接的启动子。

在某些实施方案中，所述多个重组多核苷酸能在单一基因内的多个位点生成突变。在其他实施方案中，所述多个重组多核苷酸能在不同基因或基因组任何地方的多个位点生成突变。例如，各供体多核苷酸可向基因引入不同突变，如插入、缺失或取代。在另一实施方案中，至少一种供体多核苷酸引入使基因失活的突变。在另一实施方案中，至少一种供体多核苷酸从基因中移除突变。在另一实施方案中，至少一种供体多核苷酸在基因组DNA内插入精确的遗传变化。

在某些实施方案中，遗传修饰细胞内存在的基因组编辑盒在染色体条形码基因座处的整合用HDR实施。各重组多核苷酸还可包括在基因组编辑盒侧翼的一对通用同源臂，其能杂交染色体条形码基因座处的互补序列以允许所述基因组编辑盒通过HDR在染色体条形码基因座处整合。另外，各重组多核苷酸还可包括能在染色体条形码基因座杂交的第二向导RNA，其中RNA-引导的核酸酶进一步与第二向导RNA形成复合物，所述第二向导RNA将所述复合物导向染色体条形码基因座，其中RNA-引导的核酸酶在染色体条形码基因座处形成双链断裂，基因组编辑盒通过HDR整合入染色体条形码基因座。

在其他实施方案中，遗传修饰细胞内存在的基因组编辑盒在染色体条形码基因座处整合，用位点特异性重组酶系统实施。示范性位点特异性重组酶系统包括Cre-loxP位点特异性重组酶系统、Flp-FRT位点特异性重组酶系统、PhiC31-att位点特异性重组酶系统和Dre-rox位点特异性重组酶系统。在某些实施方案中，所述染色体条形码基因座还包括位点特异性重组酶的第一重组靶位点且重组多核苷酸还包括位点特异性重组酶的第二重组靶位点，第一重组靶位点与第二位点特异性重组位点之间的位点特异性重组引起基因组编辑盒在染色体条形码基因座处整合。

在某些实施方案中，所述方法还包括使用选择性标记，其选择经历了供体多核苷酸在基因组靶基因座成功整合或基因组编辑盒在染色体条形码基因座成功整合的克隆。

在某些实施方案中，所述待遗传修饰的细胞是真核或原核。在一些实施方案中，所述细胞是酵母细胞，其可以是单倍体或二倍体酵母细胞。

在某些实施方案中，各重组多核苷酸还包括在基因组编辑盒侧翼的一对限制性位点。在一些实施方案中，所述限制性位点由产生DNA双链断裂的大范围核酸酶(如SceI)识别。大范围核酸酶的表达可通过诱导型启动子控制。

在另一实施方案中，所述基因组编辑盒还包括编码向导RNA的核苷酸序列5'末端的tRNA序列。

在另一实施方案中，所述基因组编辑盒还包括在编码向导RNA的核苷酸序列5'末端的编码丁型肝炎病毒(HDV)核酶的核苷酸序列。

在另一实施方案中，所述RNA-引导的核酸酶是Cas核酸酶(如Cas9或Cpf1)或工程化的RNA-引导的FokI-核酸酶。

在另一实施方案中，所述基因组编辑盒侧翼是由大范围核酸酶识别的限制性位点。

在某些实施方案中，各基因组编辑盒还包括独特的条形码序列，用于鉴别由各基因组编辑盒编码的向导RNA和供体多核苷酸。独特的条形码能替代向导RNA和供体多核苷酸进行测序，以鉴别细胞的遗传修饰。在另一实施方案中，所述方法还包括删除编码向导RNA的多核苷酸和在染色体条形码基因座整合的供体多核苷酸，而同时保留代表删除的序列的所述染色体条形码基因座处的独特条形码。在另一实施方案中，所述方法还包括对至少一个遗传修饰细胞的染色体条形码基因座的条形码进行测序，以鉴定用于遗传修饰所述细胞的基因组编辑盒。

在某些实施方案中，所述方法还包括测序各基因组编辑盒。可测序基因组编辑盒以连接条形码与特定gRNA-供体多核苷酸组合，例如在中间克隆步骤，然后连接基因组编辑盒到载体内或然后转染细胞。或者或另外，测序在染色体条形码基因座整合的基因组编辑盒可用于确定对遗传修饰细胞实施的基因组编辑。

在某些实施方案中，所述方法还包括序列验证和排列多个遗传修饰细胞，所述方法包括：a)将多个遗传修饰细胞以有序阵列置于适合遗传修饰细胞生长的培养基；b)在一定条件下培养多个遗传修饰细胞，从而各遗传修饰细胞在有序阵列中产生克隆集落；c)向条形码细胞引入来自有序阵列中的集落的基因组编辑盒，其中所述条形码细胞包含核酸，所述核酸包含位点特异性重组酶的重组靶位点，和条形码序列，所述条形码序列鉴定基因组编辑盒对应的有序阵列中集落的位置；d)用位点特异性重组酶系统将基因组编辑盒转位到毗邻条形码细胞的条形码序列的位置，其中与条形码细胞重组靶位点的位点特异性重组可产生包含与基因组编辑盒连接的条形码序列的核酸；e)对包含与基因组编辑盒连接的条形码细胞的条形码序列的核酸进行测序，以鉴定来自集落中基因组编辑盒的向导RNA序列和供体多核苷酸序列，其中条形码细胞的条形码序列用于鉴定有序阵列中的集落位置，所述基因组编辑盒来源于所述集落；和f)挑出由条形码细胞的条形码鉴定的包含来自有序阵列中的集落的基因组编辑盒的克隆。

例如，遗传修饰细胞可以是单倍体酵母细胞，条形码细胞可以是能与遗传修饰细胞接合的二倍体酵母细胞，其中向条形码单倍体酵母细胞引入来自有序阵列经遗传修饰单倍体酵母集落的基因组编辑盒，包括使来自集落的单倍体酵母克隆与条形码单倍体酵母细胞接合以生成二倍体酵母细胞。如本文所述，后续的位点特异性重组产生含条形码序列的核酸，所述序列连接二倍体酵母细胞中的基因组编辑盒。遗传修饰细胞可以是菌株MATα且条形码酵母细胞可以是菌株MATa。或者，遗传修饰细胞可以是菌株MATa且条形码酵母细胞可以是菌株MATα。

在某些实施方案中，所述条形码细胞的重组酶系统是Cre-loxP位点特异性重组酶系统、Flp-FRT位点特异性重组酶系统、PhiC31-att位点特异性重组酶系统或Dre-rox位点特异性重组酶系统。在一个实施方案中，所述条形码细胞的重组靶位点包括loxP重组位点。

在另一实施方案中，所述条形码细胞的重组酶系统使用大范围核酸酶以产生DNA双链断裂。在另一实施方案中，所述条形码细胞的大范围核酸酶是半乳糖诱导型SceI大范围核酸酶。在另一实施方案中，所述基因组表达盒侧翼是由大范围核酸酶识别的限制性位点。

在另一实施方案中，所述方法还包括使用选择克隆的选择性标记，所述克隆经历了成功的位点特异性重组。

在某些实施方案中，所述方法还包括抑制非同源末端连接(NHEJ)。例如，NHEJ可如下抑制：使细胞接触选自渥曼青霉素和Scr7的小分子抑制剂。或者，RNA干扰或CRISPR干扰能用于抑制NHEJ途径的蛋白组分的表达。

在其他实施方案中，所述方法还包括使用HDR增强物或活跃的供体募集以增加细胞的HDR频率。

在另一实施方案中，所述方法还包括使用选择克隆的选择性标记，所述克隆经历了供体多核苷酸通过HDR在一个或多个基因组靶基因座成功整合。

在另一实施方案中，所述方法还包括对有序阵列中至少一个克隆进行表型分型。

在另一实施方案中，所述方法还包括对有序阵列中至少一个克隆进行全基因组测序。

在另一实施方案中，所述方法还包括重复步骤(a)-(e)，所有集落在有序阵列中，以鉴定基因组编辑盒的向导RNA和供体多核苷酸的序列，用于有序阵列中的每个集落。

另一方面，本公开包括集落的有序阵列，包含由本文所述方法生成的遗传修饰细胞的克隆，其中所述集落根据其向导RNA和供体多核苷酸的验证序列来做索引。

另一方面，本公开包括用于细胞多元性遗传修饰和条形码编制的试剂盒，所述试剂盒包括：a)多种重组多核苷酸，其中各重组多核苷酸包含包含编码向导RNA(gRNA)的多核苷酸和供体多核苷酸的基因组编辑盒，gRNA能在待修饰基因组靶基因座杂交，供体多核苷酸包括与5'基因组靶序列杂交的5'同源臂和与3'基因组靶序列杂交的3'同源臂，所述5'同源臂和3'同源臂在包含待整合入基因组靶基因座的想要的编辑的核苷酸序列的侧翼，其中各重组多核苷酸包含包含不同向导RNA-供体多核苷酸组合的不同基因组编辑盒，从而多种重组多核苷酸能在一个或多个基因组靶基因座产生多种不同的想要的编辑；和b)RNA-引导的核酸酶；和c)包含染色体条形码基因座的细胞，其中条形码基因座包括至少一种重组多核苷酸基因组编辑盒的整合位点。试剂盒还包括用于实施本文所述基因组编辑和条形码编制的其他试剂及说明。

在某些实施方案中，所述试剂盒中的各重组多核苷酸还包括在基因组编辑盒侧翼的一对通用同源臂，其能在染色体条形码基因座的整合位点杂交互补序列，以允许所述基因组编辑盒在染色体条形码基因座通过同源介导修复(HDR)整合。

在另一实施方案中，各重组多核苷酸还包括能在染色体条形码基因座杂交的第二向导RNA。

在某些实施方案中，所述试剂盒还包括位点特异性重组酶系统(如Cre-loxP位点特异性重组酶系统、Flp-FRT位点特异性重组酶系统、PhiC31-att位点特异性重组酶系统或Dre-rox位点特异性重组酶系统)。在另一实施方案中，所述染色体条形码基因座还包括位点特异性重组酶的第一重组靶位点且重组多核苷酸还包括位点特异性重组酶的第二重组靶位点，从而位点特异性重组能在第一重组靶位点与第二重组靶位点之间发生以允许染色体条形码基因座处的所述基因组编辑盒整合。

在另一实施方案中，所述试剂盒中的RNA-引导的核酸酶是Cas核酸酶(如Cas9或Cpf1)或工程化的RNA-引导的FokI-核酸酶。

在某些实施方案中，所述试剂盒还包括经设计以完成本文所述供体募集的融合蛋白。这种融合蛋白包含包含核酸结合域的多肽，所述结合域连接选择性结合RNA-引导的核酸酶所产生的DNA断裂的蛋白。在另一实施方案中，所述供体多核苷酸还包括有足够互补性以杂交毗邻DNA断裂的序列的核苷酸序列，以及含融合蛋白核酸结合域所识别的结合位点的核苷酸序列。在某些实施方案中，所述核酸结合域是LexADNA结合域且结合位点是LexA结合位点，或核酸结合域是forkhead同源物1(FKH1)而DNA结合域且结合位点是FKH1结合位点。在一些实施方案中，所述含核酸结合域的多肽还包括forkhead相关的(FHA)磷酸苏氨酸结合域。在另一实施方案中，所述含核酸结合域的多肽包括连接FHA磷酸苏氨酸结合域的LexA DNA结合域。

另一方面，本公开包括通过向DNA断裂活跃的募集供体来促进同源介导修复(HDR)的方法，所述方法包括：a)向细胞引入包含与包含核酸结合域的多肽连接的选择性结合DNA断裂的多肽的供体募集蛋白；和b)向细胞引入供体多核苷酸，所述多核苷酸包括i)核苷酸序列，有足够互补性以杂交毗邻DNA断裂的序列和ii)核苷酸序列，包括由融合蛋白的核酸结合域所识别的结合位点，其中核酸结合域选择性结合供体多核苷酸上的结合位点以产生供体多核苷酸与融合蛋白之间的复合物，从而向DNA断裂募集供体并促进HDR。在一个实施方案中，所述供体募集蛋白是融合蛋白。

在某些实施方案中，所述蛋白募集到DNA断裂处的蛋白是RNA-引导的核酸酶如Cas核酸酶(例如Cas9或Cpf1核酸酶)或工程化的RNA-引导的FokI-核酸酶。

在某些实施方案中，所述DNA断裂是单链或双链DNA断裂。如果DNA断裂是单链DNA断裂，融合蛋白包括选择性结合单链DNA断裂的蛋白。如果DNA断裂是双链DNA断裂，融合蛋白包括选择性结合双链DNA断裂的蛋白。

在某些实施方案中，所述供体多核苷酸是单链或双链的。

在另一实施方案中，所述核酸结合域是RNA结合域且结合位点包括由RNA结合域识别的RNA序列。

在另一实施方案中，所述供体募集蛋白的核酸结合域是DNA结合域且结合位点包括由DNA结合域识别的DNA序列。在一个实施方案中，所述DNA结合域是LexA DNA结合域，结合位点是LexA结合位点。在另一实施方案中，所述DNA结合域是forkhead同源物1(FKH1)DNA结合域，结合位点是FKH1结合位点。

在另一实施方案中，所述包含核酸结合域的多肽(供体募集蛋白)还包括forkhead相关的(FHA)磷酸苏氨酸结合域，其中供体多核苷酸选择性募集到具有蛋白的DNA断裂处，该蛋白所含磷酸化苏氨酸残基位置足够接近DNA断裂，用于FHA磷酸苏氨酸结合域以结合磷酸化苏氨酸残基。在另一实施方案中，所述含核酸结合域的多肽包括连接FHA磷酸苏氨酸结合域的LexA DNA结合域。

在另一实施方案中，所述供体多核苷酸由重组多核苷酸提供，该重组多核苷酸包括可操作连接供体多核苷酸的启动子。在另一实施方案中，所述融合蛋白由重组多核苷酸提供，该重组多核苷酸包括可操作连接融合蛋白编码多核苷酸的启动子。在某些实施方案中，所述供体多核苷酸和融合蛋白由单一载体或分开的载体提供。在另一实施方案中，至少一种载体是病毒载体或质粒。

在某些实施方案中，所述供体多核苷酸是RNA或DNA。在另一实施方案中，所述方法还包括用逆转录酶使含RNA的供体多核苷酸逆转录，以生成含DNA的供体多核苷酸。

在某些实施方案中，所述DNA断裂由位点特异性核酸酶产生，例如但不限于Cas核酸酶(如Cas9或Cpf1)、工程化的RNA-引导的FokI-核酸酶、大范围核酸酶、锌指核酸酶(ZFN)和转录激活因子样效应物核酸酶(TALEN)。

按照本文的公开内容，本领域技术人员容易掌握本公开的这些和其他实施方案。

附图简要说明

图1A-1C显示双重的CRISPR/Cas9编辑和条形码编制系统。图1A显示克隆入高拷贝载体的向导RNA(gRNA)-供体DNA序列，tRNA-HDV核酶启动子驱动gRNA表达。向导-供体质粒随后与预表达自强组成型启动子的Cas9转化入细胞内。图1B显示靶基因座编辑。Cas9-gRNA-诱导的dsDNA断裂通过供体DNA介导的HR、NHEJ或细胞死亡来解决(resolved)。图1C显示REDI基因座条形码编制。用半乳糖诱导SceI使得向导RNA-供体DNA区段取代反向可选择性FCY1可行，允许(1)基于PCR的竞争性生长池表型分析和(2)基于REDI的个体变体鉴定。

图2A-2C显示高效率Cas9编辑和SceI介导条形码编制的概念验证。图2A显示克隆入图1所示高拷贝载体骨架的靶向ADE2的gRNA，没有(左列)或有(右列)供体DNA。gRNA载体与预表达的Cas9(顶行)或gRNA载体上编码的PTEF1-Cas9(未预表达；底行)转化入细胞内。图2B显示选定克隆中的ADE2基因座。测序验证了想要的功能缺失编辑。图2C显示来自平板的合并的细胞的结果，其换成半乳糖或葡萄糖培养基。分离个体克隆并筛选REDI基因座处的向导-供体盒整合，这通过桑格测序验证。

图3显示用于编辑异源ORF(mCherry)的选定的向导-供体盒质粒。向导-供体寡核苷酸的文库购自安捷伦科技(Agilent Technologies)，克隆入高拷贝引导表达载体(图1)。就是否正确纳入向导-供体插入物而测序一些细菌克隆，随后转化入携带预表达Cas9和mCherry ORF的酵母细胞。显示生长2天后的转化板。

图4A-4F显示活跃的供体募集使得高频率供体介导的修复可行。图4A显示基于质粒的系统，用于没有供体募集情况下的高通量编辑。图4B显示供体DNA随机扩散导致无效率的同源重组修复，带有有效gRNA的大部分转化子经受了细胞死亡。图4C显示基于双质粒的改良系统，带有向导-供体质粒上的LexA结合位点和融合Fkh1蛋白的LexA DNA结合域(DBD)，以用于超高效率高通量编辑。图4D显示dsDNA断裂激发断裂附近内源细胞蛋白上苏氨酸残基的磷酸化。这导致Fkh1经其forkhead相关的(FHA)磷酸苏氨酸结合域来募集，产生高局部浓度的供体DNA以促进在DNA修复期间搜索同源DNA。这使得与细胞死亡相比，精确编辑成为主要结果。图4E显示LexA DNA结合域融合Cas9，代替Fkh1。图4F显示Cas9-LexA DBD使得向导-供体质粒向gRNA靶位点预募集可行，在通过Cas9切割DNA后促进HDR。

图5A和5B显示活跃的供体募集使得高频率供体介导的修复可行。图5A显示预表达Cas9(左上部，如图4A)或Cas9和LexA DBD-Fkh1(右上部，如图4C)的细胞用质粒池转化，所述质粒池携带85％的经序列验证的靶向ADE2中无效突变的向导-供体和15％的带有突变的ADE2向导RNA的同一质粒。图5B显示预表达Cas9的细胞，用序列完美的向导-供体转化(左下部)。预表达高拷贝向导-供体质粒的细胞用Cas9质粒转化(右下部)。

图6A和6B显示双重编辑和条形码编制系统，与重组酶介导索引(REDI)组合。图6A显示过程的步骤1-4。步骤1：携带向导RNA(gRNA)和供体DNA序列的质粒复合文库转化入受体菌株，所述菌株经修饰，包含带反向可选择性标记(FCY1)的条形码基因座，所述标记侧翼是大范围核酸酶SceI的位点。转化的细胞接种到-HIS上以选择含正确内部克隆事件的质粒，合并集落并在含G418以维持对向导-供体质粒的选择的丰富培养基中生长到对数中期。细胞随后用Cas9/SceI质粒转化并接种到-LEU-HIS上。步骤2：染色体靶用Cas9-gRNA切割并通过与质粒上编码的供体DNA同源重组(HR)来修复。回收集落并在带有半乳糖以诱导SceI的丰富培养基中生长数代。染色体条形码基因座处的dsDNA断裂促进向导-HIS3-供体盒整合，使质粒线性化。步骤3：通过接种于含5-氟-胞嘧啶(5-FC)的合成培养基，来选择成功整合向导-供体条形码和失去质粒。转化子以1536的密度在琼脂板上排列，以允许后续与条形码菌株接合。在此阶段，转化子可能包含成功的想要的编辑、寡核苷酸合成衍生的错误引起的不想要的突变或无编辑。步骤4：成阵列的菌株变体与条形码菌株接合，所述条形码菌株包含LoxP位点，然后是指定平板上集落坐标的独特的位置条形码，以及剩余的URA3基因。Cre诱导导致LoxP-介导的分开的URA3重构，其物理连接带位置条形码的向导-供体序列，以用于高通量配对末端测序(HTS)向导-供体-条形码组合(步骤5)。2种不同P5引物允许通过共有位置条形码来连接引导和供体序列与特异性集落配合物。图6B显示Mat a变体染色体和Matα条形码染色体的图表以及步骤4和步骤5的结果。

图7A-7C显示REDI介导的大规模平行菌株验证。图7A显示分离自多元性精确编辑实验的克隆能包含成功编辑的靶基因座(深灰色)，合成衍生的错误或同源重组(HR)期间的错误引起的靶基因座不想要的突变(浅灰色)，或无效率的向导RNA引起的不成功编辑(浅灰色)。图7B显示用于各设计变体的独立克隆(如浅灰色、深灰色和中灰色所示)。步骤1：这些复制子在不同的平板上重新排成阵列，从而各板包含指定的染色体窗或基因内所靶向的突变，且每个设计变体每块板中仅存在一个集落。合并集落并就各板提取基因组DNA。步骤2：进行靶染色体基因座的PCR和深度扩增子测序。预期成功编辑的变体以1/1536频率存在。图7C描述所需克隆的重排列，用于合并(顶部)或空间分开的表型测定。

图8显示用于编辑、条形码编制、验证和表型分析菌株的一个潜在工作流程。

图9显示最小化非功能载体背景的文库克隆策略。步骤1：寡核苷酸文库用含5′-扩展物的引物扩增以促进Gibson-或粘性末端介导克隆到载体骨架内。步骤2：扩增的寡核苷酸包含内部IIS型限制性位点。克隆载体用IIS型酶和磷酸酶处理。这能使结构向导RNA组件、Pol III终止子和选择性标记(如HIS3)的无痕内部克隆可行。步骤3：恒定插入物仅用BspQI处理以保持5′-磷酸。步骤4：将插入物连入载体骨架，可以随后转化入受体酵母在-HIS培养基上选择。

图10A和10B显示同义密码子扩散策略，使引导识别区外的氨基酸突变成为可能。开放阅读框的饱和突变通过在非同义变体(浅灰色)与前间隔序列相邻基序(此描述中的PAM,box,NGG)之间工程化同义密码子突变(深灰色)而成为可能。假-WT对照通过仅纳入同义变体(深灰色)来建立。还显示供体DNA和向导RNA序列以改造向导识别序列内(图10A)或外(图10B)的非同义变体。

图11显示直接用基因组的整合编辑盒修复。

图12显示连接向导-供体与独特DNA条形码的文库克隆。(1)编码向导-供体的寡核苷酸以高密度阵列模式合成并从阵列表面切离以生成复合池。(2)各寡核苷酸包含在向导-供体盒侧翼的共同扩增序列以使特定子池扩增可行。正向引物在其3′-末端携带限制性位点(AscI)且反向引物在其5′-末端编码独特限制性位点(NotI)，然后是编码假随机序列(NNNVHTGNNNVHTGNNNVHTGNNNVHTGNNN或NNNTGVHNNNTGVHNNNT GVHNNNTGVHNNN)的简并条形码(bc)，其排除非法(illegal)的限制性位点(NotI、AscI和BspQI)。简并条形码侧翼是50bp下游同源序列(DH)。NotI和AscI位点使粘性末端克隆入多拷贝受体载体可行，AscI位点在向导RNA启动子的3′-末端。向导和供体序列被IIS型限制性位点(BspQI)分开，这使得具有任意突出部分(overhang)的克隆可行，在GTTT直接位于向导序列3′的情况中，能在向导RNA恒定结构组件中克隆。

(3)第一步克隆产物的高通量测序(HTS)使得连接向导-BspQI-供体序列与独特条形码(bc)可行。配对末端测序能用于在基于质量合并读取1和读取2后增加碱基响应置信度。(4)(a)结构向导RNA组件以及酵母特异性(如URA3)和细菌特异性(如kanR)选择标记用在其5′-末端携带BspQI序列的引物扩增。反向引物包括位于Illumina读取2引发序列的3′的额外条形码(bc*；NNNNNN或NNNNNNHVVNHBBHBHD)，经修饰在BspQI位点第一位置包含G到A的SNP。(b)第一步克隆产物用BspQI切割，然后磷酸酶处理，使得可以无痕克隆结构gRNA插入物。这些第二步骤文库用卡那霉素选择以使得可以富集携带插入物的载体。bc*-供体和bc的配对末端HTS使得可以绘制条形码图谱到独特向导-供体组合。

图13显示通过自毁性质粒的同步的编辑和条形码整合。(1)第二步克隆后的向导-供体载体转化入酵母并用插入物特异性标记(URA3)选择。受体菌株经修饰携带条形码整合基因座，具有反向可选择性标记(FCY1)。除了来自文库的向导序列，向导-供体质粒也携带向导X表达单元以促进条形码整合，如向导X切割位点在FCY1侧翼。转化后，向导-供体质粒通过过度生长(outgrowth)积聚到高拷贝数。在向导-供体质粒的下游同源(DH)序列5′-末端处存在向导X切割位点，这能使质粒稍后线性化以加速编辑后的质粒损失。(2)诱导Cas9导致向导X切割质粒和基因组条形码基因座，以及基因组其他地方的文库衍生的向导切割。(a)向导X切割导致完整向导RNA-bc*-供体DNA-bc盒经上游同源(UH)序列整合入基因组，所述序列存在于向导-供体质粒和染色体条形码位点。(b)编辑-指导的向导切割之后是供体DNA介导的同源重组以产生想要的基因组编辑。

图14A和14B显示Cpf1向导-供体系统产生高效率(>99％)编辑，且用Cpf1的编辑提高～10倍，其供体募集程度类似Cas9。图14A：靶向ADE2基因的Cpf1向导-供体质粒(向导具有Cpf1支架)转化入预表达Cpf1的细胞。供体DNA编码导致移码的缺失。图14B：Cpf1向导-供体以17:3比例混合非编辑质粒，转化入表达Cpf1的细胞，没有(左)或有(右)LexA-FHA。红:白集落之比示于y轴。

图15显示多元性基因组编辑系统的修改版本，其中Cpf1和/或Cas9或其他RNA引导的核酸酶(RGN)或位点特异性核酸酶(如SceI、其他大范围核酸酶、ZFNs或TALENs)表达自REDI基因座，任选地，与其他多元性编辑组分一起，如TetR和LexA-FHA以及用于正选择和负选择的标记(URA3和hphMX)。在此布置(arragement)中，自毁性向导-供体载体整合入REDI条形码基因座，同时移除Cas9、Cpf1和之间的所有基因。在DNA水平遗传学移除Cas9，然后充分地自然发展以稀释Cas9mRNA和蛋白，可确保后续适应性分析不受Cas9::向导编辑结合染色质影响的混淆。编辑向导能与Cas9或Cpf1配对，同样，条形码向导X能与Cas9或Cpf1配对。具有RGN专用的核酸酶的优势是，在用于联合RGN的编辑与条形码编制向导之间没有竞争。此布置还增加多元性系统的灵活性，涉及通过利用有不同PAM要求的RNA引导的核酸酶来允许靶向更多基因组区域。

图16显示质粒添加(spike-in)实验证明LexA-FHA和线性化载体提高HDR效率及编辑存活。应注意环状质粒LexA-FHA产生总体最高转化存活率。

图17显示在供体募集蛋白dn53BP1-LexA的存在下，有或没有LexA位点的HDR效率。靶向2个独立基因(CACNA1D(CAC)和PPP1R12C(PPP))。第一幅显示切割位点的NHEJ比率。第二幅显示切割位点的总HDR百分比，第三幅显示细胞中HDR与NHEJ之比。

发明详述

除非另有说明，本公开的实施会采用本领域技术范围内基因组编辑、生物化学、化学、免疫学、分子生物学和重组DNA技术的常规方法。这类技术在文献中得到充分解释。参见例如Targeted Genome Editing Using Site-Specific Nucleases:ZFNs,TALENs,and theCRISPR/Cas9System(T.Yamamoto ed.,Springer,2015)；Genome Editing:The Next Stepin Gene Therapy(Advances in Experimental Medicine and Biology,T.Cathomen,M.Hirsch,and M.Porteus eds.,Springer,2016)；Aachen Press Genome Editing(CreateSpace Independent Publishing Platform,2015)；Handbook of ExperimentalImmunology,Vols.I-IV(D.M.Weir and C.C.Blackwell eds.,Blackwell ScientificPublications)；A.L.Lehninger,Biochemistry(Worth Publishers,Inc.,currentaddition)；Sambrook,et al.,Molecular Cloning:A Laboratory Manual(3rd Edition,2001)；Methods In Enzymology(S.Colowick and N.Kaplan eds.,Academic Press,Inc.)。

本文引用的所有出版物、专利和专利申请，无论在前或在后，都在此通过引用全文纳入。

I.定义

描述本公开时，采用以下术语，且其意在以如下所示定义。

必须指出，除非内容另有明确规定，如本说明书和所附权利要求所用，单数形式“一(a)”、“一(an)”和“所述”包括复数指示物。因此，例如，提“一个细胞(a cell)”包括2个或更多细胞的混合物，等等。

术语“约”尤其是涉及给定量时，意在涵盖加或减百分之五的偏差。

“条形码”指一种或多种核苷酸序列，用于鉴定与条形码相关联的核酸或细胞。条形码长度可以是3-1000个或更多核苷酸，优选10-250个核苷酸长度，更优选长度10-30个核苷酸，包括这些范围内的任何长度，如长度3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1000个核苷酸。例如，条形码可用于鉴定核酸从中起源的单一细胞、细胞亚群、集落或样品。条形码还可用于鉴定核酸从中起源的细胞、集落或样品的位置(即位置条形码)，如细胞阵列中的集落位置，多孔板中的孔位置，或架子中的试管、烧瓶或其他容器位置。特别地，条形码可用于鉴定核酸从中起源的遗传修饰细胞。在一些实施方案中，条形码用于鉴定特定类型的基因组编辑。例如，向导RNA-供体多核苷酸盒本身能用作条形码以鉴定核酸从中起源的遗传修饰细胞。或者，独特的条形码可用于鉴定多元性基因组编辑所用的各向导RNA-供体多核苷酸盒。此外，多个条形码可联用以鉴定不同核酸特征。例如，位置条形码编制(如用于鉴定阵列、多孔板或架子中的细胞、集落、培养物或样品位置)能与鉴定基因组编辑所用的向导RNA-供体多核苷酸的条形码联合。在一些实施方案中，条形码在每轮基因组编辑中插入核酸(如在“条形码基因座”)以鉴定细胞遗传修饰所用的向导RNA和/或供体多核苷酸。

术语“条形码细胞”指包含核酸的细胞，所述核酸包含条形码序列。在一个实施方案中，所述条形码鉴定包含条形码细胞的集落位置。

术语“多肽”和“蛋白质”指氨基酸残基的聚合物且不限于最小长度。因此，所述定义包括肽、寡肽、二聚体、多聚体等。所述定义涵盖全长蛋白质和其片段。该术语也包括多肽的表达后修饰，例如糖基化、乙酰化、磷酸化、羟基化等。此外，出于本公开目的，“多肽”指包括天然序列的修饰如缺失、添加和取代的蛋白质，只要该蛋白质能维持所需活性。这些修饰可以是有意的，如通过定点突变，或可以是偶然的，如通过生成蛋白的宿主突变或PCR扩增引起的错误。

本文所用的术语“Cas9”涵盖来自任何物种的II型成簇规律间隔的短回文重复序列(CRISPR)系统的Cas9核酸内切酶，还包括其保留Cas9核酸内切酶活性(即催化DNA定点切割以产生双链断裂)的生物活性片段、变体、类似物和衍生物。Cas9核酸内切酶在包括与其结合向导RNA(gRNA)互补的序列的位点结合并切割DNA。

Cas9多核苷酸、核酸、寡核苷酸、蛋白、多肽或肽指衍生自任何来源的分子。分子不需物理衍生自生物体，而可合成或重组生成。来自一些细菌种群的Cas9序列为本领域熟知并列于国家生物技术信息中心(NCBI)数据库。参见例如NCBI的Cas9条目，来自：酿脓链球菌(Streptococcus pyogenes)(WP_002989955,WP_038434062,WP_011528583)；空肠弯曲杆菌(Campylobacter jejuni)(WP_022552435,YP_002344900)、大肠弯曲杆菌(Campylobactercoli)(WP_060786116)；胎儿弯曲杆菌(Campylobacter fetus)(WP_059434633)；溃疡棒杆菌(Corynebacterium ulcerans)(NC_015683,NC_017317)；白喉棒状杆菌(Corynebacterium diphtheria)(NC_016782,NC_016786)；粪肠球菌(Enterococcusfaecalis)(WP_033919308)；Spiroplasma syrphidicola(NC_021284)；中间普雷沃菌(Prevotella intermedia)(NC_017861)；台湾螺原体(Spiroplasma taiwanense)(NC_021846)；海豚链球菌(Streptococcus iniae)(NC_021314)；Belliella baltica(NC_018010)；扭曲冷弯曲菌I(Psychroflexus torquisI)(NC_018721)；嗜热链球菌(Streptococcus thermophilus)(YP_820832)、变异链球菌(Streptococcus mutans)(WP_061046374,WP_024786433)；无害李斯特菌(Listeria innocua)(NP_472073)；单核细胞增生李斯特菌(Listeria monocytogenes)(WP_061665472)；嗜肺军团菌(Legionellapneumophila)(WP_062726656)；金黄色葡萄球菌(Staphylococcus aureus)(WP_001573634)；土拉弗朗西斯菌(Francisella tularensis)(WP_032729892,WP_014548420)、粪肠球菌(WP_033919308)；鼠李糖乳杆菌(Lactobacillus rhamnosus)(WP_048482595,WP_032965177)；和脑膜炎奈瑟氏菌(Neisseria meningitidis)(WP_061704949,YP_002342100)；其所有序列(如通过本申请提交日期进入)通过引用纳入本文。任意这些序列或其变体包括具有至少约70-100％序列一致性的序列，包含此范围内的任何一致性百分比，如70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99％序列一致性，所述序列或其变体能用于本文所述基因组编辑，其中变体保留生物活性，如Cas9定点核酸内切酶活性。还参见Fonfara等.(2014)Nucleic AcidsRes.42(4):2577-90；Kapitonov等.(2015)J.Bacteriol.198(5):797-807,Shmakov等.(2015)Mol.Cell.60(3):385-397和Chylinski等.(2014)Nucleic Acids Res.42(10):6091-6105)；用于Cas9的序列比较和讨论遗传多样性及系统进化分析。

“衍生物”指对感兴趣天然多肽、天然多肽片段或其各类似物的任何适当修饰，如糖基化、磷酸化、聚合物缀合(如用聚乙二醇)，或其他添加外来部分，只要能保留天然多肽的所需生物活性。制备多肽片段、类似物或衍生物的方法一般是本领域可获得的。

“片段”指仅由部分完整全长序列和结构组成的分子。片段能包括多肽的C末端缺失、N末端缺失和/或内部缺失。特定蛋白或多肽的活性片段一般包括全长分子的至少约5-10个连续氨基酸残基，优选全长分子的至少约15-25个连续氨基酸残基，最优选全长分子的至少约20-50个或更多连续氨基酸残基，或5个氨基酸与全长序列之间的任何整数，只要讨论的片段保留生物活性，如Cas9定点核酸内切酶活性。

“基本纯”一般指分离物质(化合物、多核苷酸、核酸、蛋白、多肽、多肽组合物)，从而物质包括其存在于其间的大部分样品。通常，在样品中，基本纯的组分包括50％，优选80％-85％，更优选90-95％的样品。用于纯化感兴趣多核苷酸和多肽的技术为本领域熟知，包括例如离子交换层析、亲和层析和按密度沉积。

涉及多肽时，“分离”是指所指明的分子与整个生物体(所述分子在自然界中发现自所述生物体)分开或离散，或在几乎没有同类型的其他生物大分子情况下存在。涉及多核苷酸时，术语“分离”是指核酸分子全部或部分缺少在自然界中正常与之相关的序列；或如其在自然界中所存在的但具有与之相关的异源序列的序列；或从染色体分离的分子。

本文所用的短语“异源细胞群”指至少2种细胞类型的混合物，一种类型是感兴趣的细胞(如具有感兴趣的基因组修饰)。异源细胞群可源自任何生物体。

本文所用的术语“分离(isolating，isolation)”在选择具有感兴趣基因组修饰的细胞或细胞群的上下文中，指将具有感兴趣基因组修饰的细胞或细胞群与异源细胞群分开，如通过正或负选择分开

术语“选择标记”指能用于从异源细胞群鉴定或富集细胞群的标记，这是通过正选择(选择表达标记的细胞)或负选择(排除表达标记的细胞)。

本文所用的术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”包括任何长度的核苷酸聚合形式，核糖核苷酸或脱氧核糖核苷酸二者之一。此术语仅指分子的一级结构。因此，术语包括三链、双链和单链DNA，以及三链、双链和单链RNA。其还包括修饰如甲基化和/或加帽，以及未修饰形式的多核苷酸。更特定地，术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”包括聚脱氧核糖核苷酸(含有2-脱氧-D-核糖)，聚核糖核苷酸(含有D-核糖)，任何其他类型的多核苷酸，其是嘌呤或嘧啶碱基的N-或C-糖苷，含非核苷酸骨架的其他聚合物，例如聚酰胺(如肽核酸(PNA))和聚吗啉代(可购买自Anti-Virals,Inc.,Corvallis,Oreg.，如同Neugene)聚合物，和其他合成序列特异性核酸聚合物，只要聚合物包含核酸碱基的构型允许碱基配对和碱基堆集，如DNA和RNA中所见。在“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”与之间没有刻意区分且这些术语可互换使用。因此，这些术语包括例如3'-脱氧-2',5'-DNA、寡脱氧核苷酸N3'P5'磷酰胺酯、2'-O-烷基-取代RNA、双链和单链DNA、以及双链和单链RNA、微RNA、DNA:RNA杂交体以及PNA和NA或RNA之间的杂交体，也包括已知类型的修饰，例如本领域已知的标签、甲基化、“加帽”、用类似物(如2-氨基腺苷酸、2-硫代胸苷、肌苷、吡咯并-嘧啶、3-甲基腺苷、C5-丙炔基胞苷、C5-丙炔基尿苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-甲基胞苷、7-去氮杂腺苷、7-去氮杂鸟苷、8-氧腺苷、8-氧鸟苷、O(6)-甲基鸟嘌呤和2-巯基胞苷)取代一个或多个天然产生的核苷酸，核苷酸间修饰，例如有不带电键(如甲基膦酸酯、磷酸三酯、磷酰胺酯、氨基甲酸酯等)、带负电键(如硫代磷酸酯、二硫代磷酸酯等)和带正电键(如氨基烷基氨基磷酸酯、氨基烷基磷酸三酯)的那些，含悬挂(pendant)部分的那些，例如蛋白质(包括核酸酶、毒素、抗体、信号肽、聚-L-赖氨酸等)，有嵌入剂(如吖啶、补骨脂素等)的那些，含螯合剂(如金属、放射性金属、硼、氧化金属等)的那些，含烷化剂的那些，有修饰键(如α异头核酸等)的那些，以及未修饰形式的多核苷酸或寡核苷酸。术语也包括锁核酸(例如包含核糖核苷酸，其具有在2'-氧原子与4'-碳原子之间的亚甲桥)。参见例如Kurreck等.(2002)Nucleic Acids Res.30:1911-1918；Elayadi等.(2001)Curr.Opinion Invest.Drugs 2:558-561；Orum等.(2001)Curr.OpinionMol.Ther.3:239-243；Koshkin等.(1998)Tetrahedron 54:3607-3630；Obika等.(1998)Tetrahedron Lett.39:5401-5404。

术语“使杂交”和“杂交”指在核苷酸序列之间形成复合物，所述序列足够互补以经沃森克里克碱基配对形成复合物。

术语“同源区”指与另一核酸区有同源性的核酸区。因此，“同源区”是否存在于核酸分子是根据相同或不同分子中的另一核酸区确定。此外，由于核酸通常是双链，本文所用的术语“同源区”指核酸分子彼此杂交的能力。例如，单链核酸分子能具有2个能彼此杂交的同源区。因而，术语“同源区”包括具有互补序列的核酸区段。同源区长度可变，但通常是4-500个核苷酸(如约4-约40个、约40-约80个、约80-约120个、约120-约160个、约160-约200个、约200-约240个、约240-约280个、约280-约320个、约320-约360个、约360-约400个、约400-约440个等)。

本文所用的术语“互补”或“互补性”指能与另一个形成碱基对的多核苷酸。碱基对通常由核苷酸单元之间的氢键形成，所述单元处于多核苷酸链之间的反平行方向。互补多核苷酸链能以沃森克里克方式(如A-T、A-U、C-G)或以允许形成双链体的任何其他方式，来配对碱基。本领域技术人员知晓，当使用与DNA相反的RNA时，尿嘧啶(U)而不是胸腺嘧啶成为视作与腺苷互补的碱基。然而，除非另有说明，当尿嘧啶在本公开上下文中提及时，隐含取代胸腺嘧啶的能力。“互补性”可存在于2条RNA链之间，2条DNA链之间，或RNA链与DNA链之间。通常理解2个或更多多核苷酸可“互补”并能形成双链体，尽管不够完美或小于100％互补性。2种序列是“完美互补”或“100％互补”，如果至少一个连续部分的各多核苷酸序列包含互补性区域，与其他多核苷酸完美碱基配对，这类区域内没有任何错配或中断。2种或更多序列被视作“完美互补”或“100％互补”，即使多核苷酸之一或两者都包含额外非互补序列，但只要各多核苷酸内的连续互补性区域能够彼此完美杂交。“不够完美”的互补性指某一情况，其中这种互补区域内不是所有连续核苷酸能彼此碱基配对。确定2种多核苷酸序列之间的互补百分比属于本领域普通技术。出于Cas9靶向目的，gRNA可包括与靶序列(如主要或次要等位基因)“互补”的序列，能够进行充足的碱基配对以形成双链体(即gRNA与靶序列杂交)。另外，gRNA可包括与PAM序列互补的序列，其中gRNA也与靶DNA中的PAM序列杂交。

“靶位点”或“靶序列”是由向导RNA(gRNA)或供体多核苷酸同源臂识别(即有足够的互补性用于杂交)的核酸序列。靶位点可以是等位基因特异性(如主要或次要等位基因)。

术语“供体多核苷酸”指提供想要编辑的序列的多核苷酸，所述编辑待通过HDR在靶基因座整合入基因组。

“同源臂”指一部分供体多核苷酸，其负责使供体多核苷酸靶向要在细胞内编辑的基因组序列。供体多核苷酸通常包括与5'基因组靶序列杂交的5'同源臂和与3'基因组靶序列杂交的3'同源臂，所述靶序列在含基因组DNA想要编辑的核苷酸序列侧翼。同源臂在本文中指5'和3'(即上游和下游)同源臂，其涉及同源臂与核苷酸序列的相对位置，所述序列包括供体多核苷酸内的想要的编辑。5'和3'同源臂与待修饰基因组DNA的靶基因座内区域杂交，所述区域在本文中分别称为“5'靶序列”和“3'靶序列”。含想要编辑的核苷酸序列通过HDR在基因组靶基因座整合入基因组DNA，所述基因座通过5'和3'同源臂识别(即有足够的互补性用于杂交)。

向细胞“施用”核酸如供体多核苷酸、向导RNA或Cas9表达系统包括转导、转染、电穿孔、转位、融合、吞噬、射击(shooting)或轰击法等，即通过其核酸能跨细胞膜运输的任何方式。

涉及向导RNA的“选择性结合”指向导RNA优先结合感兴趣的靶序列或与靶序列结合亲和性高于其他基因组序列。例如，gRNA会结合充分互补序列，而不结合无关序列。“选择性结合”特定等位基因如特定突变等位基因(如含取代、插入或缺失的等位基因)的gRNA指优先结合特定靶等位基因的gRNA，而与野生型等位基因或其他序列的结合程度较小。选择性结合特定靶DNA序列的gRNA会选择性指导RNA-引导的核酸酶(如Cas9)与充分互补序列在靶位点结合，而不结合无关序列。

本文所用的术语“重组靶位点”指含位点特异性重组酶所识别结合位点或序列特异性基序的核酸分子区域，所述重组酶在靶位点结合并催化特异DNA序列在靶位点的重组。位点特异性重组酶催化2种这类靶位点之间的重组。靶位点的相对方向确定重组结果。例如，若重组靶位点在分开的DNA分子上，则转位发生。

本文所用的术语“标签”和“可检测标签”指能检测的分子，包括但不限于放射性同位素、荧光剂、化学发光剂、发色团、酶、酶底物、酶辅因子、酶抑制剂、半导体纳米颗粒、染料、金属离子、金属溶胶、配体(如生物素、链霉亲和素或半抗原)等。术语“荧光剂”指在可检测范围中能显示荧光的物质或其部分。可用于实施本公开的具体标签示例包括但不限于SYBR绿、SYBR金、CAL Fluor染料(如CAL Fluor金540、CAL Fluor橙560、CAL Fluor红590、CAL Fluor红610和CAL Fluor红635)、Quasar染料(如Quasar570、Quasar 670和Quasar705)、Alexa Fluor(如Alexa Fluor 350、Alexa Fluor 488、Alexa Fluor 546、AlexaFluor 555、Alexa Fluor 594、Alexa Fluor 647和Alexa Fluor 784)、花青染料(如Cy 3、Cy3.5、Cy5、Cy5.5和Cy7)、荧光素、2'、4'、5'、7'-四氯-4-7-二氯荧光素(TET)、羧基荧光素(FAM)、6-羧基-4',5'-二氯-2',7'-二甲氧基荧光素(JOE)、六氯荧光素(HEX)、若丹明、羧基-X-若丹明(ROX)、四甲基若丹明(TAMRA)、FITC、丹酰、伞形酮、二甲基吖啶酯(DMAE)、德克萨斯红、鲁米诺、NADPH、辣根过氧化物酶(HRP)和α-β-半乳糖苷酶。

“同源性”指2个多核苷酸或2个多肽部分之间的一致性百分比。在限定的分子长度，当序列的显示至少约50％的序列一致性时，优选至少约75％的序列一致性，更优选至少约80％85％的序列一致性，更优选至少约90％的序列一致性，最优选至少约95％98％的序列一致性，则2各核酸或2个多肽序列彼此“基本同源”。如本文所用，基本同源也指序列显示与指定序列的完全一致性。

一般，“一致性”分别指2个多核苷酸或多肽序列的准确核苷酸与核苷酸或氨基酸与氨基酸对应性。一致性百分比能通过直接比较2个分子之间的序列信息比对所述序列，计数2个所比对的序列之间的精确匹配数，除以较短序列长度，将结果乘以100来确定的。现成的计算机程序能用于协助分析，如ALIGN,Dayhoff,M.O.收录于Atlas of ProteinSequence and Structure M.O.Dayhoff ed.,5Suppl.3:353 358,National biomedicalResearch Foundation,Washington,DC,，其调整了Smith和Waterman Advances inAppl.Math.2:482489,1981的局部同源性算法以用于肽分析。用于确定核苷酸序列一致性的程序可获自Wisconsin序列分析包,第8版(可获自Genetics Computer Group,Madison,WI)，例如，BESTFIT,FASTA和GAP程序，其也依赖于Smith和Waterman算法。这些程序易使用，采用厂商推荐和上述Wisconsin序列分析包描述的默认参数。例如，特定核苷酸序列与参照序列的一致性百分比能用Smith和Waterman的同源性算法测定，采用默认打分表和6个核苷酸位置的空位罚分。

在本公开的上下文中，建立序列一致性的另一方法是使用版权属于爱丁堡大学，由John F.Collins和Shane S.Sturrok开发，由IntelliGenetics,Inc.(Mountain View,CA)分销的程序的MPSRCH包。根据此套软件包，能采用Smith Waterman算法，其中默认参数用于打分表(例如空位罚分是12，空位延伸罚分是1，空位是6)。根据数据产生的“匹配”值反映“序列一致性”。其他用于计算序列间一致性百分比或相似性的合适程序为本领域已知，例如另一对齐程序是BLAST，采用默认参数。例如，BLASTN和BLASTP能用以下默认参数：遗传密码＝标准；过滤＝无；链＝两者都；截断＝60；预期＝10；矩阵＝BLOSUM62；描述＝50序列；排序方式＝高分；数据库＝非冗余,GenBank+EMBL+DDBJ+PDB+GenBank CDS翻译+Swiss蛋白+Spupdate+PIR。这些程序的细节容易获得。

或者，同源性能如下确定：在同源区域间形成稳定双链体的条件下使多核苷酸杂交，然后用单链特异核酸酶消化，进行消化片段的尺寸测定。基本同源的DNA序列能在Southern杂交实验中鉴定，在例如就特定系统定义的严格条件下。定义合适杂交条件在本领域技术范围内。参见例如Sambrook et al.,supra；DNA Cloning,supra；Nucleic AcidHybridization,supra。

本文所用描述核酸分子的“重组”指具有基因组、cDNA、病毒、半合成或合成来源的多核苷酸，所述多核苷酸通过其来源或操作，与其天然相关的所有或部分多核苷酸不相关。涉及蛋白或多肽使用的术语“重组”指通过重组多核苷酸表达生成的多肽。一般，克隆感兴趣的基因且随后在转化生物体中表达，如下进一步所述。宿主生物体表达外来基因以在表达条件下生成蛋白。

术语“转化”指向宿主细胞插入外源多核苷酸，无论用于插入的方法如何。例如，包括直接摄入、转导或f-接合。外源多核苷酸可作为非整合载体维持，例如质粒，或者可整合入宿主基因组。

“重组宿主细胞”、“宿主细胞”、“细胞系”、“细胞培养物”以及其他这类术语表示作为单细胞实体培养的微生物或高等真核细胞系，指可以或已经用作重组载体或其他转移DNA受体的细胞，且包括已转染的原始细胞的初始后代。

“编码序列”或“编码”选定多肽的序列是核酸分子，当置于合适调节序列(或“控制元件”)控制下时，其在体内转录(在DNA的情况中)和翻译(在mRNA的情况中)成多肽。编码序列的边界能通过5'(氨基)末端的起始密码子和3'(羧基)末端的翻译终止密码子确定。编码序列能包括但不限于来自病毒、原核或真核mRNA的cDNA，来自病毒或原核DNA的基因组DNA序列，以及甚至是合成DNA序列。转录终止序列可位于编码序列的3’。

典型的“控制元件”包括但不限于转录启动子、转录增强子元件、转录终止信号、多聚腺苷酸化序列(位于翻译终止密码子的3')、用于优化翻译起始的序列(位于编码序列5’)和翻译终止序列。

“可操作连接”涉及元件排列，其中所描述的组件配置成行使其常用功能。因此，可操作连接编码序列的给定启动子能在适当酶存在时，影响编码序列表达。启动子不需与编码序列连续，只要其用于指导其表达。因此，例如，插入的不翻译但转录的序列能在启动子序列与编码序列之间存在，启动子序列仍能被视作“可操作连接”编码序列。

“表达盒”或“表达构建体”指能指导感兴趣序列或基因表达的集合。表达盒一般包括上述控制元件，如可操作连接(用于指导转录)感兴趣的序列或基因的启动子，且通常还包括多聚腺苷酸化序列。在本公开的某些实施方案中，本文所述的表达盒可包含于质粒或病毒载体构建体(如用于基因组修饰的含基因组编辑盒的载体，所述编辑盒含有的启动子可操作连接编码向导RNA和供体多核苷酸的多核苷酸)。除了表达盒的组分，构建体还可包括一个或多个选择性标记、允许构建体作为单链DNA(如M13复制起点)存在的信号、至少一个多克隆位点和“哺乳动物”复制起点(如SV40或腺病毒复制起点)。

“纯化的多核苷酸”指感兴趣的多核苷酸或其片段，其基本上不含与所述多核苷酸天然相关的蛋白质，例如包含小于约50％，优选小于约70％，更优选小于约90％的所述蛋白质。用于纯化感兴趣多核苷酸的技术为本领域熟知，包括例如用离液剂破坏含多核苷酸的细胞以及通过离子交换层析、亲和层析和按密度沉积来分离多核苷酸与蛋白。

术语“转染”用于指细胞摄入外来DNA。当外源DNA引入细胞膜内时，细胞被转染。本领域一般已知若干转染技术。参见例如Graham et al.(1973)Virology,52:456,Sambrooket al.(2001)Molecular Cloning,a laboratory manual,3rd edition,Cold SpringHarbor Laboratories,New York,Davis et al.(1995)Basic Methods in MolecularBiology,2nd edition,McGraw-Hill,and Chu et al.(1981)Gene 13:197。这些技术能用于将一种或多种外源DNA部分引入合适的宿主细胞。该术语指稳定和瞬时摄入遗传物质，包括摄入肽-或抗体-连接的DNA。

“载体”能向靶细胞转移核酸序列(如病毒载体、非病毒载体、微粒载体和脂质体)。通常，“载体构建体”、“表达载体”和“基因转移载体”指能指导感兴趣核酸表达且能向靶细胞转移核酸序列的任何核酸构建体。因此，术语包括克隆和表达运载体以及质粒和病毒载体。

术语“变体”、“类似物”和“突变蛋白质”指参照分子的具有生物学活性的衍生物，所述分子保留所需活性，如定向Cas9核酸内切酶活性。一般，术语“变体”和“类似物”指具有天然多肽序列和结构的化合物，相对于天然分子有一个或多个氨基酸添加、取代(一般性质保守)和/或缺失，只要修饰不破坏生物活性，且如下所定义与参照分子“基本同源”。一般，这种类似物的氨基酸序列会具有与参照序列的高度序列同源性，如排列2种序列时，氨基酸序列同源性大于50％，一般大于60％-70％，甚至更特定80％-85％或更高，如至少90％-95％或更高。通常，类似物会包括相同数目的氨基酸，但也会包括取代，如本文所解释。术语“突变蛋白质”还包括具有一个或多个氨基酸样分子(包括但不限于仅含氨基和/或亚氨基分子的化合物)的多肽，含一个或多个氨基酸类似物(包括例如非天然氨基酸等)的多肽，有取代连接以及本领域已知其他修饰(天然出现和非天然出现(如合成)、环化、支链分子等)的多肽。该术语也包括含一个或多个N-取代甘氨酸残基(“类肽”)和其他合成氨基酸或肽的分子。(类肽的描述参见例如美国专利号5,831,005；5,877,278；和5,977,301；Nguyen等,Chem.Biol.(2000)7:463-473；和Simon等,Proc.Natl.Acad.Sci.USA(1992)89:9367–9371)。制备多肽类似物和突变蛋白质的方法为本领域已知且如下进一步描述。

如上所解释，类似物一般包括性质保守的取代，即这些取代在其侧链相关的氨基酸家族内发生。特别地，氨基酸一般分成4个家族：(1)酸性--天冬氨酸和谷氨酸；(2)碱性--赖氨酸、精氨酸、组氨酸；(3)非极性--丙氨酸、缬氨酸、亮氨酸、异亮氨酸、脯氨酸、苯丙氨酸、甲硫氨酸、色氨酸；和(4)不带电极性--甘氨酸、天冬酰胺、谷氨酰胺、半胱氨酸、丝氨酸、苏氨酸和酪氨酸。苯丙氨酸、色氨酸和酪氨酸有时分类为芳族氨基酸。例如，可合理预测，单独用异亮氨酸或缬氨酸取代亮氨酸，用谷氨酸取代天冬氨酸，用丝氨酸取代苏氨酸，或用结构相关氨基酸类似保守取代氨基酸，不会对生物活性产生重要影响。例如，感兴趣的多肽可包括多至约5-10个保守或非保守氨基酸取代，或甚至多至约15-25个保守或非保守氨基酸取代，或5-25之间的任何整数，只要所需分子功能保持完整。本领域技术人员通过参考本领域熟知的Hopp/Woods和Kyte-Doolittle图，可容易确定能耐受改变的感兴趣分子区域。

“基因转移”或“基因递送”指向宿主细胞可靠插入感兴趣DNA或RNA的方法或系统。这类方法能引起非整合转移DNA瞬时表达、染色体外复制和表达转移的复制子(如附加体)，或将转移的遗传物质整合入宿主细胞基因组DNA。基因递送表达载体包括但不限于衍生自以下的载体：细菌质粒载体、病毒载体、非病毒载体、腺病毒、逆转录病毒、甲病毒、痘病毒和牛痘病毒。

术语“衍生自”在本文中用于鉴定分子的初始来源，但不意在限制制备分子的方法，其可以是例如化学合成或重组方式制备的。

“衍生自”指定序列的多核苷酸指某一多核苷酸序列，包括大致至少约6个核苷酸的连续序列，优选至少约8个核苷酸，更优选至少约10-12个核苷酸，甚至更优选至少约15-20个核苷酸，与指定核苷酸序列区域对应，即相同或互补。衍生的多核苷酸不必定物理衍生自感兴趣核苷酸序列，但可以任何方式产生，包括但不限于化学合成、复制、逆转录或转录，这是基于从中获得多核苷酸的区域中碱基序列提供的信息。如此，其可代表初始多核苷酸的有义或反义方向。

术语“对象”包括脊椎动物和无脊椎动物，包括但不限于哺乳动物，包括人和非人哺乳动物如非人灵长类，包括黑猩猩和其他猿及猴子物种；实验室动物如小鼠、大鼠、兔、仓鼠、豚鼠和毛丝鼠；家畜如狗和猫；农场动物如绵羊、山羊、猪、马和牛；和禽类如家禽、野禽和猎禽，包括鸡、火鸡及其他鹌鹑、鸭、鹅等。在一些情况中，本公开的方法发现可用于实验动物、兽医学应用以及开发疾病用动物模型，包括但不限于啮齿动物，包括小鼠、大鼠和仓鼠；灵长类和转基因动物。

II.实施本发明的模式

详细描述本公开前，应理解本公开不限于特定配制或工艺参数，因为这些当然可能变化。还应理解本文所用术语仅出于描述本公开特定实施方案的目的，而不意在限制。

尽管类似或等同本文所述的一些方法和材料能用于实施本公开，但本文描述了优选的材料和方法。

本公开基于用RNA引导的核酸酶和基因组条形码来大规模平行生产遗传工程克隆的方法的开发。具体地，高通量多元性基因组编辑用通过同源介导修复在所需靶染色体基因座促进精确基因组编辑的系统实现。向导RNA和供体DNA序列作为基因组条形码在单独染色体基因座整合可允许鉴定、分离和大规模平行验证来自转化子文库的个体变体。菌株能根据其精确遗传修饰来排成阵列，如由供体DNA掺入异源或天然基因所指定的。发明人证明其系统在酵母细胞中提供高编辑效率且使得能够在大于一个基因组位置同步编辑(实施例1)。发明人还开发了典型向导RNA识别区外的密码子编辑方法(使蛋白编码基因的完全饱和突变可行)和基于标记物的内部克隆方法(移除由寡核苷酸合成错误和不完整载体骨架切割导致的背景)。另外，后生动物细胞中的同源介导修复(HDR)可通过使用CRISPR-干扰(CRISPRi)，RNA干扰(RNAi)，或基于化学抑制非同源末端连接(NHEJ)和活跃的供体募集组合提高。通过本文所述方法产生的基因组修饰菌株收集可根据其精确遗传修饰排列，如由条形码编制的供体DNA掺入异源或天然基因所指定。

为了进一步理解本公开，下面关于多元性基因组编辑提供更详细讨论，有通过这些方法的条形码和菌株验证。

A.多元性基因组编辑

如上所解释，本公开的方法提供多元性基因组编辑，用于细胞基因组修饰的向导RNA-供体DNA表达盒条形码编制以促进验证来自转化子文库的个体变体。多元性编辑如下实现：用多种重组多核苷酸转染细胞，各自包含包含向导RNA编码多核苷酸和供体多核苷酸的基因组编辑盒，所述向导RNA能在待修饰基因组靶基因座杂交，所述供体多核苷酸包括待通过同源介导修复(HDR)整合入基因组靶基因座的想要编辑的序列。各基因组编辑盒包括不同的向导RNA-供体多核苷酸组合，从而多种含有其的重组多核苷酸能在一个或多个基因组靶基因座生成多种不同的想要的编辑。用重组多核苷酸转染细胞后，细胞在适合向导RNA从各基因组编辑盒中转录的条件下培养。向细胞引入RNA引导的核酸酶，能与转录的向导RNA形成复合物，其中向导RNA将复合物导向细胞中的一个或多个基因组靶基因座，在该处RNA引导的核酸酶在基因组DNA产生双链断裂，引起供体多核苷酸通过HDR在基因组靶基因座整合以生成多种遗传修饰细胞。在某些实施方案中，所述方法还包括通过用不同基因组编辑盒重复步骤的额外轮的遗传修饰细胞基因组编辑。遗传修饰细胞能以有序阵列接种于适合其生长的培养基，以生成克隆的排列集落。

一套基因组编辑盒能设计成在单一基因内多个位点或不同基因中多个位点或基因组内任何地方产生突变，包括非编码区。这类突变可包括插入、缺失或取代。各供体多核苷酸包含包含不同想要的对基因组的编辑的序列，其能用于修饰细胞中的特定靶基因座，其中供体多核苷酸通过定点同源重组在靶基因座整合入基因组。例如，供体多核苷酸能用于向基因组引入想要的编辑，以用于修复、修饰、取代、删除、削弱或失活靶基因的目的。

在供体多核苷酸中，包含想要的编辑的序列侧翼是一对同源臂，负责将供体多核苷酸靶向细胞中待编辑的靶基因座。供体多核苷酸通常包括与5'基因组靶序列杂交的5'同源臂和与3'基因组靶序列杂交的3'同源臂。同源臂在本文中称为5'和3'(即上游和下游)同源臂，其涉及同源臂与含供体多核苷酸内想要编辑的核苷酸序列的相对位置。5'和3'同源臂与待修饰DNA的靶基因座内区域杂交，其在本文中分别称为“5'靶序列”和“3'靶序列”。

同源臂必须有足够互补性以杂交靶序列，从而调节供体多核苷酸与基因组DNA在靶基因座的同源重组。例如，同源臂可包括与对应基因组靶序列具有至少约80-100％序列一致性的核苷酸序列，包括此范围内的任何一致性百分比，如至少80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％序列一致性，其中含想要的编辑的核苷酸序列通过HDR在由5'和3'同源臂所识别(即有足够互补性用于杂交)基因组靶基因座整合入基因组DNA。

在某些实施方案中，所述基因组靶序列(即“5'靶序列”和“3'靶序列”)中的对应同源核苷酸序列侧翼是用于切割的特异位点和/或用于引入想要的编辑的特异位点。特异切割位点与同源核苷酸序列(如各同源臂)之间的距离可以是数百个核苷酸。在一些实施方案中，所述同源臂与切割位点之间的距离是200个核苷酸或更少(如0、10、20、30、50、75、100、125、150、175和200个核苷酸)。大部分情况中，更小的距离可产生更高的基因靶向率。在一个优选实施方案中，所述供体多核苷酸与靶基因组序列在其完整长度上基本相同，除了待引入部分基因组的序列变化，其涵盖特异切割位点和待改变的基因组靶序列。

同源臂可以是任何长度，如10个核苷酸或更多，50个核苷酸或更多，100个核苷酸或更多，250个核苷酸或更多，300个核苷酸或更多，350个核苷酸或更多，400个核苷酸或更多，450个核苷酸或更多，500个核苷酸或更多，1000个核苷酸(1kb)或更多，5000个核苷酸(5kb)或更多，10000个核苷酸(10kb)或更多等。一些情况下，5'和3'同源臂在长度上彼此基本相同，如一个同源臂可以比另一同源臂短或少30％，比另一同源臂短或少20％，比另一同源臂短或少10％，比另一同源臂短或少5％，比另一同源臂短或少2％，或比另一同源臂仅少几个核苷酸。其他情况下，5'和3'同源臂彼此长度大大不同，如一个同源臂可以比另一同源臂短40％或更多，短50％或更多，有时短60％或更多，短70％或更多，短80％或更多，短90％或更多，或短95％或更多。

在某些实施方案中，通过在载体内纳入选择标记表达盒，体外或体内鉴定含修饰基因组的细胞。选择标记赋予细胞可鉴定的变化，允许正选择将供体多核苷酸整合入基因组的遗传修饰细胞。例如，营养标记(即赋予在营养缺陷型培养基中生长能力的基因)如胞嘧啶脱氨酶(Fcy1)在酿酒酵母(Saccharomyces cerevisiae)中赋予在胞嘧啶作为唯一氮源(5-氟胞嘧啶对生成胞嘧啶脱氨酶的细胞有毒且能用于反向选择)的培养基上生长的能力，咪唑甘油磷酸脱水酶(HIS3)在酿酒酵母中赋予在缺乏组氨酸的培养基上生长的能力，磷酸核糖基邻氨基苯甲酸异构酶(TRP1)在酿酒酵母中赋予在缺乏色氨酸(5-氟邻氨基苯甲酸对生成磷酸核糖基邻氨基苯甲酸异构酶的细胞有毒且能用于反向选择)的培养基上生长的能力，鸟苷5'-磷酸脱羧酶(URA3)在酿酒酵母中赋予在缺乏尿嘧啶或尿苷(5-氟乳清酸对生成鸟苷5'-磷酸脱羧酶的细胞有毒且能用于反向选择)的培养基上生长的能力；荧光或生物发光标记(如mCherry、Dronpa、mOrange、mPlum、Venus、YPet、绿色荧光蛋白(GFP)、增强型绿色荧光蛋白(EGFP)、藻红蛋白或荧光素酶)；细胞表面标记；表达报告基因(如GFP、dsRed、GUS、lacZ、CAT)；或药物选择标记如赋予对新霉素、嘌呤霉素、潮霉素、DHFR、GPT、博莱霉素或组氨醇抗性的基因，可用于鉴定细胞。或者，可采用酶如单纯疱疹病毒胸苷激酶(tk)或氯霉素乙酰转移酶(CAT)。可使用任何选择性标记，只要其能在通过HDR整合供体多核苷酸后表达以允许鉴定遗传修饰细胞。选择性标记的更多示例为本领域技术人员熟知。

在某些实施方案中，所述选择标记表达盒编码2个或更多选择标记。选择标记可与例如营养标记联用，或细胞表面标记可与荧光标记一起使用，或药物抗性基因可与自杀基因一起使用。在某些实施方案中，所述供体多核苷酸由多顺反子载体提供以允许组合表达多选择标记。多顺反子载体可包括IRES或病毒2A肽以允许从单一载体表达一种以上选择标记，如下进一步所述。

在二倍体细胞中，本文所述基因组编辑可在基因组DNA中引起1个等位基因或2个等位遗传修饰。在某些实施方案中，至少一种用于正选择的选择标记是荧光标记，其中能测量荧光强度以确定遗传修饰细胞是否包括单等位基因编辑或双等位基因编辑。

在其他实施方案中，阴性选择标记用于鉴定没有选择标记表达盒的细胞(即编码阳性选择标记的序列被破坏或删除)。例如，基因组编辑盒整合入载体可通过破坏选择标记基因来检测。自杀标记可作为阴性选择标记纳入以促进负选择细胞。自杀基因能用于选择杀伤细胞，这是通过在遗传修饰细胞中诱导细胞凋亡或使无毒药物转变成有毒化合物。示例包括编码胸苷激酶、胞嘧啶脱氨酶、胞内抗体、端粒酶、半胱天冬酶和DNase的自杀基因。在某些实施方案中，自杀基因与一种或多种其他选择标记联用，如上面描述用于正选择细胞的那些。另外，自杀基因可用于遗传修饰细胞，例如通过允许其任意破坏来提高其安全性。参见例如Jones等.(2014)Front.Pharmacol.5:254,Mitsui等.(2017)Mol.Ther.Methods Clin.Dev.5:51-58,Greco等.(2015)Front.Pharmacol.6:95；通过引用纳入本文。

基因组编辑可在感兴趣的单一细胞或细胞群上进行，并能对任何细胞类型实施，包括来自原核、真核或古菌生物体的任何细胞，包含细菌、古菌、真菌、原生生物、植物和动物。来自组织、器官和活检的细胞以及重组细胞、遗传修饰细胞、来自体外培养细胞系的细胞和人工细胞(如纳米颗粒、脂质体、聚合物囊泡或包封核酸的微囊)可用于实施本公开。本公开方法也能应用于在细胞片段、细胞组分或含核酸的细胞器(如动物和植物细胞中的线粒体，植物细胞和藻类中的质体(如叶绿体))中编辑核酸。在实施本文所述基因组编辑之前或之后，可培养或扩增细胞。在一个实施方案中，所述细胞是酵母细胞。

RNA引导的核酸酶能通过改变其向导RNA序列来靶向特定基因组序列(即待修饰的基因组靶序列)。靶特异性向导RNA包括与基因组靶序列互补的核苷酸序列，从而通过在靶位点杂交来调节核酸酶-gRNA复合物结合。例如，gRNA能用与次要等位基因序列互补的序列设计，以使核酸酶-gRNA复合物靶向突变位点。突变可包括插入、缺失或取代。例如，突变可包括单一核苷酸变化、基因融合、转位、倒位、复制、移码、错义、无义或与感兴趣疾病表型相关的其他突变。靶向次要等位基因可以是共同的遗传变体或罕见遗传变体。在某些实施方案中，所述gRNA设计成选择性结合有单碱基对区别的次要等位基因，例如用于允许核酸酶-gRNA复合物结合单核苷酸多态性(SNP)。特别地，gRNA可设计成靶向感兴趣的疾病相关突变，用于基因组编辑以从基因中移除突变。或者，gRNA能用与主要或野生型等位基因序列互补的序列设计，以使核酸酶-gRNA复合物靶向等位基因用于基因组编辑目的，从而向细胞基因组DNA内基因引入突变，如插入、缺失或取代。例如，这种遗传修饰细胞能用于改变表型、赋予新性质或生成疾病模型以筛选药物。

在某些实施方案中，所述用于基因组编辑的RNA引导的核酸酶是成簇规律间隔的短回文重复序列(CRISPR)系统Cas核酸酶。能催化DNA定点切割以允许供体多核苷酸通过HDR机制整合的任何RNA引导的Cas核酸酶，可用于基因组编辑，包括CRISPR系统I型、II型或III型Cas核酸酶。Cas蛋白示例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5e(CasD)、Cas6、Cas6e、Cas6f、Cas7、Cas8a1、Cas8a2、Cas8b、Cas8c、Cas9(Csn1or Csx12)、Cas10、Cas10d、CasF、CasG、CasH、Csy1、Csy2、Csy3、Cse1(CasA)、Cse2(CasB)、Cse3(CasE)、Cse4(CasC)、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4和Cu1966，以及其同源物或修饰版本。

在某些实施方案中，使用II型CRISPR系统Cas9核酸内切酶。来自任何物种的Cas9核酸酶或其生物活性片段、变体、类似物或衍生物保留Cas9核酸内切酶活性(即催化DNA定点切割以产生双链断裂)，可用于行使本文所述基因组修饰。Cas9不需物理衍生自生物体，而可合成或重组生成。来自一些细菌种群的Cas9序列为本领域熟知并列于美国国家生物技术信息中心(NCBI)数据库。参见例如NCBI的Cas9条目，来自：酿脓链球菌(WP_002989955、WP_038434062,WP_011528583)；空肠弯曲杆菌(WP_022552435、YP_002344900)、大肠弯曲杆菌(WP_060786116)；胎儿弯曲杆菌(WP_059434633)；溃疡棒杆菌(NC_015683、NC_017317)；白喉棒状杆菌(NC_016782,NC_016786)；粪肠球菌(WP_033919308)；Spiroplasmasyrphidicola(NC_021284)；中间普雷沃菌(NC_017861)；台湾螺原体(NC_021846)；海豚链球菌(NC_021314)；Belliella baltica(NC_018010)；扭曲冷弯曲菌I(NC_018721)；嗜热链球菌(YP_820832),变异链球菌(WP_061046374、WP_024786433)；无害李斯特菌(NP_472073)；单核细胞增生李斯特菌(WP_061665472)；嗜肺军团菌(WP_062726656)；金黄色葡萄球菌(WP_001573634)；土拉弗朗西斯菌(WP_032729892、WP_014548420),粪肠球菌(WP_033919308)；鼠李糖乳杆菌(WP_048482595,WP_032965177)；和脑膜炎奈瑟氏菌(WP_061704949、YP_002342100)；其所有序列(如通过本申请提交日期进入)通过引用纳入本文。任意这些序列或其变体包括具有至少约70-100％序列一致性的序列，包含此范围内的任何一致性百分比，如70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99％序列一致性，所述序列或其变体能用于本文所述基因组编辑。还参见Fonfara等.(2014)Nucleic Acids Res.42(4):2577-90；Kapitonov等.(2015)J.Bacteriol.198(5):797-807,Shmakov等.(2015)Mol.Cell.60(3):385-397和Chylinski等.(2014)Nucleic Acids Res.42(10):6091-6105)；用于Cas9的序列比较和讨论遗传多样性及系统进化分析。

CRISPR-Cas系统在细菌和古菌中天然出现，在该处其在RNA介导的适应性免疫抵御外来DNA中发挥作用。细菌II型CRISPR系统使用核酸内切酶Cas9，其与特异性杂交互补基因组靶序列的向导RNA(RNA)形成复合物，其中Cas9核酸内切酶催化切割以生成双链断裂。靶向Cas9通常还依赖于gRNA结合位点或附近的DNA中存在5′前间区序列邻近基序(PAM)。

基因组靶位点通常包括与gRNA互补的核苷酸序列，还可包括前间区序列邻近基序(PAM)。在某些实施方案中，所述靶位点除了3碱基对PAM外，还包括20-30个碱基对。通常，PAM的第一核苷酸可以是任何核苷酸，而另2个核苷酸取决于所选特定Cas9蛋白。示范性PAM序列为本领域技术人员已知，包括但不限于NNG、NGN、NAG和NGG，其中N代表任意核苷酸。在某些实施方案中，所述gRNA靶向的等位基因包括在等位基因内产生PAM的突变，其中PAM促进Cas9-gRNA复合物与等位基因的结合。

在某些实施方案中，所述gRNA是5-50个核苷酸，10-30个核苷酸，15-25个核苷酸，18-22个核苷酸或19-21个核苷酸长度，或所示范围之间的任何长度，包括例如10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个核苷酸长度。向导RNA可以是在单一RNA分子中含crRNA和tracrRNA序列的单一向导RNA，或向导RNA可包括2个RNA分子，带有位于不同RNA分子中的crRNA和tracrRNA序列。

在另一实施方案中，可使用来自普氏菌(Prevotella)和弗郎西丝菌(Francisella)1的CRISPR核酸酶(Cpf1)。Cpf1是另一II型CRISPR/Cas系统RNA引导的核酸酶，与Cas9有相似性，可类似使用。不同于Cas9，Cpf1不需要tracrRNA且仅取决于其RNA中的crRNA，这提供的优势是相比Cas9的较短向导RNA能与Cpf1一起用于靶向。Cpf1能切割DNA或RNA。由Cpf1识别的PAM位点具有序列5'-YTN-3'(其中“Y”是嘧啶且“N”是任何核碱基)或5'-TTN-3'，与由Cas9识别的G-丰富PAM位点相反。Cpf1切割DNA可生成带粘性末端的双链断裂，具有4或5个核苷酸突出部分。Cpf1讨论参见例如Ledford等.(2015)Nature.526(7571):17-17,Zetsche等.(2015)Cell.163(3):759-771,Murovec等.(2017)Plant Biotechnol.J.15(8):917-926,Zhang等.(2017)Front.Plant Sci.8:177,Fernandes等.(2016)PostepyBiochem.62(3):315-326；通过引用纳入本文。

C2c1是另一类可使用的II型CRISPR/Cas系统RNA引导的核酸酶。C2c1与Cas9类似，取决于crRNA和tracrRNA以引导至靶位点。C2c1描述参见例如Shmakov等.(2015)MolCell.60(3):385-397,Zhang等.(2017)Front Plant Sci.8:177；通过引用纳入本文。

在另一实施方案中，可使用工程化的RNA引导的FokI核酸酶。RNA引导的FokI核酸酶包括失活Cas9(dCas9)与FokI核酸内切酶(FokI-dCas9)的融合物，其中dCas9部分向FokI赋予向导RNA依赖性靶向。工程化的RNA的引导的FokI核酸酶的描述参见例如Havlicek等.(2017)Mol.Ther.25(2):342-355,Pan等.(2016)Sci Rep.6:35794,Tsai等.(2014)NatBiotechnol.32(6):569-576；通过引用纳入本文。

RNA引导的核酸酶能以蛋白形式提供，如与gRNA复合的核酸酶，或由编码RNA引导的核酸酶的核酸提供，如RNA(例如信使RNA)或DNA(表达载体)。密码子使用可优化以改善RNA引导的核酸酶在特定细胞或生物体中的生成。例如，编码RNA引导的核酸酶的核酸能修饰成在酵母细胞、细菌细胞、人细胞、非人细胞、哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞或任何其他感兴趣宿主细胞中取代使用频率高于天然产生多核苷酸序列的密码子。当编码RNA引导的核酸酶的核酸引入细胞时，蛋白可在细胞中瞬时、有条件或组成型表达。

供体多核苷酸和gRNA容易通过标准技术合成，如经亚磷酰胺化学的固相合成，如美国专利号所4,458,066和4,415,732公开，通过引用纳入本文；Beaucage等,Tetrahedron(1992)48:2223-2311；和Applied Biosystems用户公告号13(1987年4月1日)。其他化学合成方法包括例如Narang等,Meth.Enzymol.(1979)68:90所述磷酸三酯法和Brown等,Meth.Enzymol.(1979)68:109所公开磷酸二酯法。鉴于gRNA(通常约20个核苷酸长度)和供体多核苷酸(通常约100-150个核苷酸)长度短，gRNA-供体多核苷酸盒能通过标准寡核苷酸合成技术和随后连入载体来生成。此外，针对数以千计基因组靶的gRNA-供体多核苷酸盒文库能用高平行阵列基寡核苷酸文库合成方法容易形成(参见例如Cleary等.(2004)NatureMethods 1:241-248,Svensen等.(2011)PLoS One 6(9):e24906)。

另外，接头序列能加入寡核苷酸以促进高通量扩增或测序。例如，一对接头序列能在寡核苷酸5’和3’末端加入以允许通过同一套引物同时扩增或测序多个寡核苷酸。另外，限制性位点能掺入寡核苷酸以促进寡核苷酸克隆入载体。例如，含gRNA-供体多核苷酸盒的寡核苷酸能用共同5’限制性位点和共同3’限制性位点设计以促进连入基因组修饰载体。在共同5’限制性位点和共同3’限制性位点选择性实施切割各寡核苷酸的限制性消化，以生成能克隆入载体(如质粒或病毒载体)的限制性片段，然后用含gRNA-供体多核苷酸盒的载体转化细胞。

可扩增编码gRNA-供体多核苷酸盒的多核苷酸，例如在连入基因组修饰载体之前或条形码编制后测序之前。可使用扩增寡核苷酸的任何方法，包括但不限于聚合酶链式反应(PCR)、恒温扩增、依赖核酸序列的扩增(NASBA)、转录介导的扩增(TMA)、链置换扩增(SDA)和连接酶链式反应(LCR)。在一个实施方案中，所述基因组编辑盒包括共同5’和3’引发位点以允许gRNA-供体多核苷酸序列与一套通用引物平行扩增。在另一实施方案中，一套选择性引物用于从收集的混合物中选择性扩增gRNA-供体多核苷酸子集。

用含基因组编辑盒的重组多核苷酸转化的细胞可以是原核细胞或真核细胞，且优选设计用于gRNA-供体多核苷酸文库通过转化高效掺入。向宿主细胞引入核酸的方法为本领域熟知。转化的常用方法包括化学诱导转化，通常用二价阳离子(如CaCl₂)，以及电穿孔。参见例如Sambrook et al.(2001)Molecular Cloning,a laboratory manual,3^rdedition,Cold Spring Harbor Laboratories,New York,Davis et al.(1995)BasicMethods in Molecular Biology,2^nd edition,McGraw-Hill,and Chu et al.(1981)Gene13:197；通过引用全文纳入本文。

供体DNA与DNA断裂的正常随机扩散对同源修复而言是限速的。活跃的供体募集可用于增加细胞通过HDR的遗传修饰频率。活跃的供体募集方法包括：a)向细胞引入融合蛋白，该蛋白包括连接含核酸结合域的多肽的选择性结合DNA断裂的蛋白；和b)向细胞引入供体多核苷酸，包括i)核苷酸序列，互补性足以与毗邻DNA断裂的序列杂交，和ii)核苷酸序列，包括由融合蛋白核酸结合域识别的结合位点，其中核酸结合域选择性结合供体多核苷酸上的结合位点以生成供体多核苷酸与融合蛋白之间的复合物，从而向DNA断裂募集供体多核苷酸并促进HDR。

DNA断裂可通过位点特异性核酸酶产生，例如但不限于Cas核酸酶(如Cas9、Cpf1或C2c1)、工程化的RNA引导的FokI核酸酶、锌指核酸酶(ZFN)、转录激活因子样效应因子核酸酶(TALEN)、限制性核酸内切酶、大范围核酸酶、归位内切酶。可使用在供体多核苷酸靶整合位点选择性切割序列的任何位点特异性核酸酶。

DNA断裂可以是单链(缺口)或双链DNA断裂。如果DNA断裂是单链DNA断裂，所用融合蛋白包括选择性结合单链DNA断裂的蛋白，而如果DNA断裂是双链DNA断裂，所用融合蛋白包括选择性结合双链DNA断裂的蛋白。

在融合物中，选择性结合DNA断裂的蛋白可以是例如RNA引导的核酸酶，如Cas核酸酶(例如Cas9或Cpf1)或者工程化的RNA引导的FokI核酸酶。

供体多核苷酸可以是单链或双链的，且可由RNA或DNA组成。含DNA的供体多核苷酸能产生自含RNA的供体多核苷酸，如果需要，用逆转录酶进行逆转录。根据融合蛋白中的核酸结合域类型，供体多核苷酸可包括例如对应结合位点，包括由RNA结合域识别的RNA序列或由DNA结合域识别的DNA序列。例如，融合蛋白能用LexA DNA结合域构建，所述结合域待与供体多核苷酸的对应的LexA结合位点匹配。另一示例中，融合蛋白能用FKH1DNA结合域构建，所述结合域待与供体多核苷酸的对应FKH1结合位点匹配。

DNA结合域可以是任何蛋白或结构域，来自结合已知DNA序列的蛋白。非限制性示例包括LexA、Gal4、锌指蛋白、TALE和转录因子。各个这些蛋白的示例为本领域熟知。

在另一实施方案中，所述融合蛋白还可包括FHA磷酸苏氨酸结合域，其中供体多核苷酸选择性募集到具有蛋白的DNA断裂，所述蛋白含位置足够接近DNA断裂的磷酸化苏氨酸残基以用于FHA磷酸苏氨酸结合域，从而结合磷酸化苏氨酸残基。FHA磷酸苏氨酸结合域可联合任何DNA结合域(如融合FHK1-LexA)以用于供体募集。

不受理论约束，考虑供体募集蛋白可包括来自募集到DNA断裂处的任何蛋白的多肽结构域，如双链DNA断裂。非限制性示例包括结合DNA损伤区域的蛋白和/或DNA修复蛋白。磷酸-Ser/Thr-结合域以细胞周期进程和DNA损伤信号传导的关键调节因子形式出现。这种结构域包括14-3-3蛋白、WW结构域，Polo盒结构域(PLK1中)、WD40重复(包括E3连接酶SCF^βTrCP中的那些)、BRCT结构域(包括BRCA1中的那些)和FHA结构域(如CHK2和MDC1中)。这些结构域都具有用于供体募集系统的潜力。FHA结构域远在细菌时保守，并因而还在细菌以及真核生物中有供体募集效用。表1-5中提供蛋白或编码这些蛋白的基因，而没有限制。本领域已知且能发现额外基因/蛋白，例如通过搜索公开基因或蛋白数据库，其已知在DNA修复或DNA损伤结合中发挥作用(如基因本体论术语分析)。预计能使用来自物种的蛋白(如真核蛋白，来自酵母、哺乳动物细胞的蛋白，包括人蛋白，和/或来自真菌的蛋白)。在实施方案中，所述供体募集蛋白包括来自DNA断裂募集蛋白的多肽序列，来自与待遗传修饰细胞相同的界、门、纲、目、科、属和/或种。

表1.用于募集到DNA断裂处的人蛋白

表2.哺乳动物FOX基因

Foxa1	Foxd2	Foxg2	Foxj3	Foxn3	Foxp3
						Foxa2	Foxd3	Foxg1	Foxk1	Foxn4	Foxp4
Foxa3	Foxd4	Foxh1	Foxk2	Foxo1	Foxq1
						Foxb1	Foxe1	Foxi1	Foxl1	Foxo3	Foxr1
Foxb2	Foxe3	Foxi2	Foxl2	Foxo4	Foxr2
						Foxc1	Foxf1	Foxi3	Foxm1	Foxo6	Foxs1
Foxc2	Foxf2	Foxj1	Foxn1	Foxp1
						Foxd1	Foxg1	Foxj2	Foxn2	Foxp2

表3.人DNA损伤结合基因

MUTYH

MSH3

ERCC4

PCNA

XRCC6

REV1

HMGB2

RAD1

APEX1

saga_人

ERCC2

DDB1

BRCA1

NBN

DCLRE1B

ERCC3

RPA1

ddb1-ddb2_人

XRCC5

BLM

TDG

POLK

POLB

FANCG

POT1

tftc_人

WRN

NEIL1

XRCC1

GTF2H3

RBBP8

RPA4

CREBBP

msh2-msh6_人

EP300

POLQ

DCLRE1A

XPA

H2AFX

AUNIP

OGG1

RPS3

RAD18

MSH6

RPA3

APTX

CUL4B

ERCC1

Q6ZNB5

UNG

MSH5

RPA2

DDB2

TP53BP1

RAD23A

RAD23B

FEN1

POLD1

M0R2N6

MPG

CRY2

HMGB1

POLI

PNKP

NEIL3

MSH2

POLH

E9PQ18

RECQL4

NEIL2

MSH4

DCLRE1C

XPC

表4:人DNA修复

表5:酵母DNA修复

在实施方案中，所述供体募集蛋白包括衍生自蛋白的多肽序列，所述蛋白募集到DNA断裂处，如双链DNA断裂。在实施方案中，所述多肽序列是募集到DNA断裂处的蛋白部分，尤其是负责募集到DNA断裂处的蛋白部分。在实施方案中，所述供体募集蛋白包括磷酸-Ser/Thr-结合域。在实施方案中，所述磷酸-Ser/Thr-结合域是14-3-3结构域、WW结构域、Polo-盒结构域(PLK1中)、WD40重复(包括E3连接酶SCF^βTrCP中的那些)、BRCT结构域(包括BRCA1中的那些)或FHA结构域(如CHK2和MDC1中)在实施方案中，所述供体募集蛋白包括衍生自表1-5中任意所列蛋白的多肽序列。

在某些实施方案中，非同源末端连接(NHEJ)途径的抑制剂用于进一步增加细胞通过HDR遗传修饰的频率。NHEJ途径抑制剂的示例包括抑制或阻断NHEJ途径中任何蛋白组分表达或活性的任何化合物(试剂)。NHEJ途径的蛋白组分包括但不限于Ku70、Ku86、DNA蛋白激酶(DNA-PK)、Rad50、MRE11、NBS1、DNA连接酶IV和XRCC4。示范性抑制剂是抑制NHEJ途径中至少一种蛋白组分(如DNA-PK)的渥曼青霉素。另一示范性抑制剂是Scr7(5,6-双((E)-苯亚甲基氨基)-2-巯基嘧啶-4-醇)，其抑制DSB连接(Maruyama等.(2015)Nat.Biotechnol.33(5):538-542,Lin等.(2016)Sci.Rep.6:34531)。RNA干扰或CRISPR干扰也可用于阻断NHEJ途径的蛋白组分表达(如DNA-PK或DNA连接酶IV)。例如，小干扰RNA(siRNA)、发夹RNA和其他RNA或RNA:DNA种类能体内切割或分离以形成siRNA，可用于通过RNA干扰来抑制NHEJ途径。或者，失活的Cas9(dCas9)以及单向导RNA(sgRNA)与NHEJ途径基因的启动子或外显子序列互补，能用于通过CRISPR干扰进行转录抑制。或者，HDR增强子如RS-1可用于增加细胞中的HDR频率(Song等.(2016)Nat.Commun.7:10548)。

条形码编制是通过在各转染细胞中将基因组编辑盒整合在不同于所编辑的靶基因座的单独染色体基因座(即染色体条形码基因座)完成。基因组编辑盒本身可用作条形码以鉴定对细胞的基因组编辑。在染色体条形码基因座处整合可避免与条形码保留中质粒不稳定性相关的问题。

在某些实施方案中，在染色体条形码基因座处整合基因组编辑盒用HDR进行。重组多核苷酸能用在基因组编辑盒侧翼的一对通用同源臂设计，其能在染色体条形码基因座与互补序列杂交。另外，各重组多核苷酸还包括能在染色体条形码基因座杂交的第二向导RNA。在此第二向导RNA与RNA引导的核酸酶之间形成复合物可将RNA引导的核酸酶导向染色体条形码基因座，其中RNA引导的核酸酶在染色体条形码基因座处产生双链断裂，基因组编辑盒通过HDR整合入染色体条形码。

在其他实施方案中，基因组编辑盒在染色体条形码处整合用位点特异性重组酶系统进行。能用于此目的的示范性位点特异性重组酶系统包括Cre-loxP位点特异性重组酶系统、Flp-FRT位点特异性重组酶系统、PhiC31-att位点特异性重组酶系统和Dre-rox位点特异性重组酶系统。这些和其他能用于实施本公开的位点特异性重组酶系统描述，参见例如Wirth等.(2007)Curr.Opin.Biotechnol.18(5):411-419；Branda等.(2004)Dev.Cell6(1):7-28；Birling等.(2009)Methods Mol.Biol.561:245-263；Bucholtz等.(2008)J.Vis.Exp.May 29(15)pii:718；Nern等.(2011)Proc.Natl.Acad.Sci.U.S.A.108(34):14198-14203；Smith等.(2010)Biochem.Soc.Trans.38(2):388-394；Turan等.(2011)FASEBJ.25(12):4088-4107；Garcia-Otin等.(2006)Front.Biosci.11:1108-1136；Gaj等.(2014)Biotechnol Bioeng.111(1):1-15；Krappmann(2014)Appl.Microbiol.Biotechnol.98(5):1971-1982；Kolb等.(2002)Cloning Stem Cells 4(1):65-80；和Lopatniuk等.(2015)J.Appl.Genet.56(4):547-550；通过引用全文纳入本文。

向染色体条形码基因座加入位点特异性重组酶的重组靶位点，以允许通过位点特异性重组来整合。另外，重组多核苷酸用位点特异性重组酶的匹配重组靶位点设计，从而在重组多核苷酸上重组靶位点与染色体条形码基因座上重组靶位点之间的位点特异性重组引起基因组编辑盒在染色体条形码基因座处整合。

或者或另外，独特条形码可用于鉴定多元性基因组编辑所用的各靶RNA-供体多核苷酸对。这类条形码可在各轮基因组编辑中插入染色体条形码基因座以鉴定基因组编辑轮数和用于细胞遗传修饰的靶RNA和/或供体多核苷酸。

条形码可包括一个或多个核苷酸序列，用于鉴定条形码相关的核酸或细胞。条形码可以是3-1000或更多个核苷酸长度，优选10-250个核苷酸长度，更优选10-30个核苷酸长度，包括这些范围内的任何长度，如3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1000个核苷酸长度。

在一些实施方案中，条形码还用于鉴定核酸从中起源的细胞、集落或样品的位置(即位置条形码)，如细胞阵列中的集落位置或多孔板中的孔位置。特别地，条形码可用于鉴定细胞阵列中的遗传修饰细胞位置。

在某些实施方案中，条形码细胞用于遗传修饰细胞的高通量位置条形码编制，其中条形码序列用于鉴定从中各gRNA和供体多核苷酸起源的集落。使用这类条形码允许来自不同细胞的gRNA和供体多核苷酸收集到单一反应混合物中以用于测序，而仍能追溯特定gRNA-供体多核苷酸组合到其从中起源的集落。示范性酵母条形码细胞描述于Smith等.(2017)Mol.Syst.Biol.13(2):913，其通过引用全文纳入本文。

在某些实施方案中，含gRNA-供体多核苷酸盒文库的遗传修饰细胞初始接种于有序阵列中的分开位置。条形码细胞接种于匹配阵列，将来自各遗传修饰细胞的gRNA-供体多核苷酸盒引入各对应条形码细胞。例如，这能通过遗传修饰细胞与条形码细胞接合来完成。

实施例1描述为此目的使用酵母，酿酒酵母。酿酒酵母以二倍体和单倍体形式存在。接合仅在不同接合类型的酵母单倍体形式之间发生，其可以是a或α接合类型。MAT基因座的等位基因(MATa或MATα)确定交配类型。二倍体细胞产生自MATa和MATα酵母菌株杂交。因此，含gRNA-供体多核苷酸盒的单倍体遗传修饰酵母细胞能与单倍体条形码酵母细胞杂交以生成二倍体酵母细胞，包括不同核酸上的gRNA-供体多核苷酸盒和条形码序列。例如，菌株MATα的遗传修饰酵母细胞能与菌株MATa的条形码酵母细胞接合。或者，菌株MATa的遗传修饰酵母细胞能与菌株MATα的条形码酵母细胞接合。

gRNA-供体多核苷酸盒转位到条形码序列毗邻位置以用条形码给盒加标签，这可用任何合适的位点特异性重组酶系统完成。位点特异性重组酶催化2个重组靶位点之间的DNA交换反应。“重组靶位点”是核酸分子区域，通常30-50个核苷酸长度，包括由位点特异性重组酶识别的结合位点或序列特异性基序。结合靶位点后，位点特异性重组酶催化特定DNA序列在靶位点的重组。靶位点的相对方向确定重组结果，其能引起切除、插入、倒置、转位或盒交换。如果重组靶位点在不同DNA分子上，则转位发生。位点特异性重组酶系统通常包括酪氨酸重组酶或丝氨酸重组酶，但其他类型的位点特异性重组酶也可与其特异重组靶位点联用。示范性位点特异性重组酶系统包括Cre-loxP、Flp-FRT、PhiC31-att和Dre-rox位点特异性重组酶系统。

位点特异性重组酶的重组靶位点能以若干方式加入gRNA-供体多核苷酸盒。例如，含gRNA-供体盒的多核苷酸能用含重组靶位点的引物扩增，所述靶位点能经历与条形码细胞重组靶位点的重组。或者，gRNA-供体多核苷酸盒能在重组靶位点毗邻基因座整合入宿主细胞的基因组或质粒，所述靶位点能经历与条形码细胞重组靶位点的重组以产生条形码-gRNA-供体多核苷酸融合序列。另外，选择性标记可用于选择成功进行位点特异性重组的克隆。

在一些情况中，细胞群可就含遗传修饰的那些进行富集，这是通过从剩余群体中分离遗传修饰细胞。分离遗传修饰细胞通常依赖于在靶基因座与想要的编辑共整合的选择性标记的表达。供体多核苷酸通过HDR整合后，进行正选择以从群体中分离细胞，如产生含遗传修饰的富集细胞群。

细胞分离可通过适合所用选择标记的任何方便分离技术完成，包括但不限于流式细胞术、荧光激活细胞分选(FACS)、磁活化细胞分选(MACS)、淘析、免疫纯化和亲和层析。例如，若使用荧光标记，细胞可通过荧光激活细胞分选(FACS)分离，而若使用细胞表面标记，细胞可通过亲和分离技术从异源群体中分开，例如MACS、亲和层析、用附于固体基质的亲和试剂“淘洗”、用细胞表面标记特异性抗体免疫纯化或其他便利技术。

在某些实施方案中，正选择或负选择遗传修饰细胞用特异性结合细胞上选择标记的结合剂进行(如产生自纳入供体多核苷酸的选择标记表达盒)。结合剂示例包括但不限于抗体、抗体模拟物和适体。在一些实施方案中，所述结合剂以高亲和性结合选择标记。结合剂可固定于固体支撑物上以促进遗传修饰细胞从液体培养物中分离。示范性固体支撑物包括磁珠、非磁性珠、载片、凝胶、膜和微量滴定板孔。

在某些实施方案中，所述结合剂包括特异性结合细胞上选择标记的抗体。可使用任何类型的抗体，包括多克隆和单克隆抗体、杂交抗体、改变的抗体、嵌合抗体和人源化抗体以及：杂交(嵌合)抗体分子(参见例如Winter等.(1991)Nature 349:293-299；和美国专利号4,816,567)；F(ab′)₂和F(ab)片段；F_v分子(非共价异二聚体，参见例如Inbar等.(1972)Proc Natl Acad Sci USA 69:2659-2662；和Ehrlich等.(1980)Biochem19:4091-4096)；单链Fv分子(sFv)(参见例如Huston等.(1988)Proc Natl Acad Sci USA85:5879-5883)；纳米抗体或单域抗体(sdAb)(参见例如Wang等.(2016)Int J Nanomedicine11:3287-3303,Vincke等.(2012)Methods Mol Biol 911:15-26；二聚和三聚抗体片段构建体；微抗体(参见例如Pack等.(1992)Biochem 31:1579-1584；Cumber等.(1992)J Immunology 149B:120-126)；人源化抗体分子(参见例如Riechmann等.(1988)Nature332:323-327；Verhoeyan等.(1988)Science 239:1534-1536；和英国专利公开号GB2,276,169,1994年9月21日发表)；和获自这类分子的任何功能片段，其中这些片段保留母抗体分子的特异性结合性质(即特异性结合细胞上的选择标记)。

在其他实施方案中，所述结合剂包括特异性结合细胞上选择标记的适体。可使用任何类型的适体，包括特异性结合靶抗体同种型的DNA、RNA、异核酸(XNA)或肽适体。例如，这类适体能通过筛选组合文库来鉴定。选择性结合靶抗体同种型的核酸适体(如DNA或RNA适体)能如下生成：通过指数富集(SELEX)完成重复轮的体外配体选择或系统进化。结合细胞上选择标记的肽适体可分离自组合文库并通过定向突变或重复轮的突变和选择来改善。生成适体的方法描述参见例如Aptamers:Tools for Nanotherapy and MolecularImaging(R.N.Veedu ed.,Pan Stanford,2016),Nucleic Acid and Peptide Aptamers:Methods and Protocols(Methods in Molecular Biology,G.Mayer ed.,Humana Press,2009),Nucleic Acid Aptamers:Selection,Characterization,and Application(Methods in Molecular Biology,G.Mayer ed.,Humana Press,2016),AptamersSelected by Cell-SELEX for Theranostics(W.Tan,X.Fang eds.,Springer,2015),Coxet al.(2001)Bioorg.Med.Chem.9(10):2525-2531；Cox et al.(2002)Nucleic AcidsRes.30(20):e108,Kenan et al.(1999)Methods Mol Biol.118:217-231；Platella etal.(2016)Biochim.Biophys.Acta Nov 16pii:S0304-4165(16)30447-0,and Lyu et al.(2016)Theranostics 6(9):1440-1452；通过引用全文纳入本文。

在其他实施方案中，所述结合剂包括抗体模拟物。可使用任何类型的抗体模拟物，包括但不限于亲和体(affibody)分子(Nygren(2008)FEBS J.275(11):2668-2676)、affilin(Ebersbach等.(2007)J.Mol.Biol.372(1):172-185)、affimer(Johnson等.(2012)Anal.Chem.84(15):6553-6560)、affitin(Krehenbrink等.(2008)J.Mol.Biol.383(5):1058-1068),alphabody(Desmet等.(2014)Nature Communications 5:5237)、anticalin(Skerra(2008)FEBS J.275(11):2677-2683)、avimer(Silverman等.(2005)Nat.Biotechnol.23(12):1556-1561)、darpin(Stumpp等.(2008)Drug Discov.Today 13(15-16):695-701)、fynomer(Grabulovski等.(2007)J.Biol.Chem.282(5):3196-3204)和monobody(Koide等.(2007)Methods Mol.Biol.352:95-109)。

在正选择中，收集携带选择标记的细胞，而在负选择中，从细胞群内去除携带选择标记的细胞。例如，在正选择中，表面标记特异性结合剂能固定于固体支撑物(如柱或磁珠)并用于收集固体支撑物上的感兴趣细胞。不感兴趣的细胞不结合固体支撑物(如经柱流动或不附于磁珠)。在负选择中，结合剂用于耗尽不感兴趣的细胞群。感兴趣细胞是不与结合剂结合的那些(如流过柱或在移出磁珠后保留)。

通过采用优选染色死亡细胞的染料(如碘化丙啶)来选择死亡细胞。可采用对遗传修饰细胞活力没有过度损害的任何技术。

高度富集具有所需遗传修饰细胞的组合物能以此方式生成。“高度富集”意味着遗传修饰细胞占70％或更多、75％或更多、80％或更多、85％或更多、90％或更多、或95％或更多、或98％或更多的细胞组成。换言之，组合物可以是遗传修饰细胞的基本纯组合物。

可立即使用通过本文所述方法生成的遗传修饰细胞。或者，细胞可在液氮温度冷冻并在解冻和使用前长期保存。这种情况下，细胞可在10％DMSO、50％血清、40％缓冲培养基或一些其他这类溶液中冷冻，如本领域常用于在这些冷冻温度保存细胞，并以本领域通常就冰冻培养细胞解冻已知的方式进行解冻。

用RNA引导的核酸酶、含向导RNA编码表达盒和供体多核苷酸的基因组修饰载体以及用条形码细胞条形码编制的方法步骤如本文所述，能重复以提供用条形码编制的任何所需数目DNA修饰。

本文提供多元性产生遗传工程细胞的方法，所述方法包括:(a)用多种不同重组多核苷酸转染多个细胞，各重组多核苷酸包括基因组编辑盒，其包含编码能在待修饰基因组靶基因座杂交的第一向导RNA(gRNA)的第一核酸序列和供体多核苷酸，从而形成gRNA-供体多核苷酸组合，其中各重组多核苷酸包括含不同gRNA-供体多核苷酸组合的不同基因组编辑盒，并允许各细胞表达第一核酸序列，从而形成gRNA；和(b)向多个细胞中的每一个引入RNA引导的核酸酶，其中各细胞内的RNA引导的核酸酶与gRNA形成复合物，因而形成gRNA-RNA引导的核酸酶复合物，并允许gRNA-RNA引导的核酸酶复合物修饰基因组靶基因座，这是通过将供体多核苷酸整合入基因组靶基因座，从而生成多个遗传工程细胞。

另一方面，提供多元性产生遗传工程细胞的方法，所述方法包括:(a)用多种不同重组多核苷酸转染多个细胞，各重组多核苷酸包括独特的多核苷酸条形码和基因组编辑盒，所述编辑盒包含编码能在待修饰基因组靶基因座杂交的第一向导RNA(gRNA)的第一核酸序列和供体多核苷酸，从而形成gRNA-供体多核苷酸组合，其中各重组多核苷酸包括含不同gRNA-供体多核苷酸组合的不同基因组编辑盒，并允许各细胞表达第一核酸序列，从而形成gRNA；和(b)向多个细胞中的每一个引入RNA引导的核酸酶，其中各细胞内的RNA引导的核酸酶与gRNA形成复合物，因而形成gRNA-RNA引导的核酸酶复合物，并允许gRNA-RNA引导的核酸酶复合物通过将供体多核苷酸整合入基因组靶基因座修饰基因组靶基因座，从而生成多个遗传工程细胞。

在实施方案中，所述方法还包括序列验证和排列多个遗传修饰细胞，所述方法包括：(c)多个遗传修饰细胞以有序阵列置于适合遗传修饰细胞生长的培养基；(d)在一定条件下培养多个遗传修饰细胞，其中各遗传修饰细胞在有序阵列中生成克隆集落；(e)将来自有序阵列集落的基因组编辑盒引入条形码细胞，其中条形码细胞包括含位点特异性重组酶重组靶位点的核酸以及鉴定有序阵列中基因组编辑盒所对应的集落位置的条形码序列；(f)转运基因组编辑盒到条形码细胞条形码序列毗邻位置，使用位点特异性重组酶系统，其中与条形码细胞重组靶位点的位点特异性重组产生核酸，所述核酸包括连接基因组编辑盒的条形码序列；(g)对含连接基因组编辑盒的条形码细胞的条形码序列的核酸进行测序，以鉴定来自集落基因组编辑盒的向导RNA和供体多核苷酸序列，其中条形码细胞的条形码序列用于鉴定有序阵列中集落的位置，基因组编辑盒从中起源；和(h)挑出含有来自有序阵列中集落的基因组编辑盒的克隆，由条形码细胞的条形码鉴定。在实施方案中，所述方法还包括对有序阵列中的所有集落重复(e)到(h)，以就有序阵列中的每一个集落鉴定基因组编辑盒的向导RNA和供体多核苷酸序列。

在实施方案中，各重组多核苷酸还包括编码RNA引导的核酸酶的第二核酸序列。在实施方案中，所述RNA引导的核酸酶由载体或整合入细胞基因组的第二核酸序列提供。在实施方案中，所述基因组编辑盒和RNA引导的核酸酶由单一载体或分开的载体提供。

在实施方案中，所述方法还包括在多个遗传工程细胞的至少一种中鉴定供体多核苷酸的存在。在实施方案中，鉴定供体多核苷酸的存在包括鉴定条形码。

在实施方案中，所述条形码在染色体条形码基因座插入多个遗传工程细胞的基因组。

在实施方案中，所述RNA引导的核酸酶由整合入染色体条形码基因座的第二核酸序列提供，并且其中条形码在染色体条形码基因座插入可从染色体条形码基因座中移出第二核酸序列。

在实施方案中，所述染色体条形码基因座还包括可操作连接任何基因组编辑盒第一核酸序列的启动子，其在染色体条形码基因座整合。

在实施方案中，各重组多核苷酸由载体提供。在实施方案中，所述载体包括可操作连接gRNA编码多核苷酸的启动子。在实施方案中，所述启动子是组成型或诱导型启动子。在实施方案中，所述载体是质粒或病毒载体。在实施方案中，所述载体是高拷贝数载体。

在实施方案中，所述RNA引导的核酸酶是Cas核酸酶或工程化的RNA引导的FokI核酸酶。在实施方案中，所述Cas核酸酶是Cas9或Cpf1。

在实施方案中，各重组多核苷酸还包括第二核酸序列，该序列编码能与重组多核苷酸杂交的第二向导RNA(向导X)，其中向导X与各细胞中的核酸酶形成复合物，从而向导X-核酸酶复合物切割重组多核苷酸。在实施方案中，所述重组多核苷酸是质粒载体且向导X-核酸酶复合物使质粒载体线性化。在实施方案中，所述向导X-核酸酶复合物使至少一部分重组多核苷酸整合入染色体条形码基因座。在实施方案中，所述核酸酶是RNA引导的核酸酶。在实施方案中，所述核酸酶是引入细胞的第二RNA引导的核酸酶。在实施方案中，所述第二RNA引导的核酸酶是Cas核酸酶或工程化的RNA引导的FokI核酸酶。在实施方案中，所述核酸酶选自大范围核酸酶、FokI-核酸酶、CRISPR-相关核酸酶、锌指核酸酶(ZFN)和转录激活因子样效应物核酸酶(TALEN)。

在实施方案中，所述供体多核苷酸是供体DNA。

在实施方案中，各重组多核苷酸还包括已知结合DNA结合域的DNA结合序列。

在实施方案中，所述方法还包括向细胞引入含DNA结合域和DNA断裂位点定位结构域的供体募集蛋白，所述定位结构域将供体募集蛋白选择性募集到DNA断裂处。

在实施方案中，所述染色体条形码基因座包括编码RNA引导的核酸酶、核酸酶和/或供体募集蛋白的多核苷酸；并且其中条形码在染色体条形码基因座插入可从染色体条形码基因座中移出编码RNA引导的核酸酶、核酸酶和/或供体募集蛋白的多核苷酸。

在实施方案中，各供体多核苷酸向基因组DNA引入不同突变。在实施方案中，所述突变选自插入、缺失和取代。

在实施方案中，至少一种供体多核苷酸在基因组DNA中引入使基因失活的突变。

在实施方案中，至少一种供体多核苷酸从基因组DNA的基因中去除突变。

在实施方案中，所述多种重组多核苷酸能在单一基因或非编码区的多个位点生成突变。在实施方案中，所述多种重组多核苷酸能在不同基因或非编码区的多个位点生成突变。

在实施方案中，所述方法还包括使用选择性标记，所述标记选择经历供体多核苷酸在基因组靶基因座成功整合或基因组编辑盒在染色体条形码基因座成功整合的克隆。

在实施方案中，所述细胞是酵母细胞。在实施方案中，所述酵母细胞是单倍体酵母细胞。在实施方案中，所述酵母细胞是二倍体酵母细胞。

在实施方案中，所述方法还包括抑制非同源末端连接(NHEJ)。

在实施方案中，所述遗传修饰细胞是单倍体酵母细胞且条形码细胞是能与遗传修饰细胞接合的单倍体酵母细胞。

在实施方案中，向条形码细胞引入来自有序阵列集落的基因组编辑盒，包括使来自集落的克隆与条形码细胞杂交以生成二倍体酵母细胞。在实施方案中，所述遗传修饰细胞属于菌株MATα且条形码酵母细胞属于菌株MATa。在实施方案中，所述遗传修饰细胞属于菌株MATa且条形码酵母细胞属于菌株MATα。

在实施方案中，所述基因组编辑盒侧翼是由大范围核酸酶识别的限制性位点。在实施方案中，所述条形码细胞中的重组酶系统使用大范围核酸酶以产生DNA双链断裂。

在实施方案中，所述条形码细胞中的重组酶系统是Cre-loxP位点特异性重组酶系统、Flp-FRT位点特异性重组酶系统、PhiC31-att位点特异性重组酶系统或Dre-rox位点特异性重组酶系统。

另一方面提供有序阵列的集落，包含由本文所述方法生成的遗传修饰细胞的克隆，其中所述集落根据其向导RNA和供体多核苷酸的经验证的序列来做索引。

另一方面，提供定位供体多核苷酸到细胞中基因组靶基因座的方法，所述方法包括：(a)用重组多核苷酸转染细胞，重组多核苷酸包括含供体多核苷酸的基因组编辑盒以及已知结合DNA结合域的DNA结合序列；(b)将核酸酶引入细胞，其中核酸酶在基因组靶基因座识别并导致双链DNA断裂；(c)向细胞引入供体募集蛋白，供体募集蛋白包括DNA结合域和DNA断裂位点定位结构域并允许供体募集蛋白选择性募集DNA断裂，从而将供体多核苷酸定位到基因组靶基因座。在实施方案中，所述DNA断裂是双链断裂。

在实施方案中，所述供体多核苷酸通过加载DNA修复酶到供体DNA上来定位到基因组靶。在实施方案中，所述供体多核苷酸定位到基因组靶基因座，这是通过供体募集蛋白与一种或多种试剂(如DNA修复酶、DNA断裂结合蛋白和/或在DNA断裂处生成或募集到该处的试剂)在基因组靶基因座相互作用。

在实施方案中，所述供体募集蛋白是融合蛋白。

在实施方案中，所述DNA结合域包括来自DNA结合蛋白的多肽序列。在实施方案中，所述DNA结合蛋白选自LexA、Gal4DBD、锌指蛋白、TALE和转录因子。在实施方案中，所述DNA结合蛋白是链霉亲和素，并且其中生物素缀合供体多核苷酸。DNA结合蛋白可包括已知在已知DNA序列结合DNA的任何蛋白。

在实施方案中，所述DNA断裂位点定位结构域包括来自蛋白的多肽序列，该蛋白结合DNA断裂位点，如双链DNA断裂位点，或由DNA断裂引起的DNA断裂位点附近区域。在实施方案中，所述结合DNA断裂位点或由DNA断裂所引起DNA断裂位点附近区域的蛋白是参与DNA修复的蛋白。在实施方案中，所述参与DNA修复的蛋白选自DNA断裂结合蛋白、FOX转录因子以及来自表1、表2、表3、表4或表5的蛋白。

在实施方案中，所述核酸酶选自大范围核酸酶、FokI-核酸酶、CRISPR-相关核酸酶、锌指核酸酶(ZFN)和转录激活因子样效应物核酸酶(TALEN)。

在实施方案中，所述核酸酶是RNA引导的核酸酶。

在实施方案中，所述核酸酶通过将供体多核苷酸整合入基因组靶基因座修饰基因组靶基因座，从而产生遗传工程细胞。

在实施方案中，所述遗传修饰细胞是遗传工程治疗细胞。所述遗传工程治疗细胞是遗传工程免疫细胞。在实施方案中，所述遗传工程免疫细胞是靶向癌症的T细胞或自然杀伤细胞。

另一方面提供基因编辑载体，包括基因组编辑盒，含有(i)条形码，(ii)第一核酸序列，编码能在待修饰基因组靶基因座杂交的第一向导RNA(gRNA)，和(iii)供体多核苷酸，从而形成条形码-gRNA-供体多核苷酸组合。

另一方面提供基因编辑载体，包括基因组编辑盒，含有(i)第一核酸序列，编码能在待修饰基因组靶基因座杂交的第一向导RNA(gRNA)，和(ii)供体多核苷酸，从而形成gRNA-供体多核苷酸组合。

另一方面提供基因编辑载体文库，各基因编辑载体包括基因组编辑盒，含有(i)条形码，(ii)第一核酸序列，编码能在待修饰基因组靶基因座杂交的第一向导RNA(gRNA)，和(iii)供体多核苷酸，从而形成条形码-gRNA-供体多核苷酸组合；其中各重组多核苷酸包括含不同条形码-gRNA-供体多核苷酸组合的不同基因组编辑盒。

另一方面提供基因编辑载体文库，各基因编辑载体包括基因组编辑盒，含有(i)第一核酸序列，编码能在待修饰基因组靶基因座杂交的第一向导RNA(gRNA)，和(ii)供体多核苷酸，从而形成gRNA-供体多核苷酸组合；其中各重组多核苷酸包括含不同gRNA-供体多核苷酸组合的不同基因组编辑盒。

在实施方案中，各载体还包括能与载体杂交的第二向导RNA(向导X)编码多核苷酸。在实施方案中，所述向导X能与染色体条形码基因座杂交。

在实施方案中，各载体还包括已知结合DNA结合部分的DNA结合序列。

在实施方案中，各载体还包括编码RNA引导的核酸酶的多核苷酸。

另一方面提供基因编辑载体，包括供体多核苷酸和第一核酸序列，第一核酸序列编码能在靶位点与载体杂交的第一向导RNA(向导X)，从而当细胞表达向导X时，向导X与载体杂交并在靶位点形成DNA断裂。在实施方案中，所述载体包括第二核酸序列，其编码能在待修饰基因组靶基因座杂交的第二向导RNA(gRNA)。在实施方案中，所述载体包括已知结合DNA结合域的DNA结合序列。在实施方案中，所述载体包括编码核酸酶的多核苷酸。在实施方案中，所述核酸酶选自大范围核酸酶、FokI-核酸酶、CRISPR-相关核酸酶、锌指核酸酶(ZFN)和转录激活因子样效应物核酸酶(TALEN)。

另一方面提供试剂盒，包括:(a)本文所述基因编辑载体，包括其实施方案；和(b)核酸酶或编码核酸酶的多核苷酸。

另一方面提供试剂盒，包括:(a)本文所述基因编辑载体，包括其实施方案；和(b)用于遗传修饰细胞的试剂。

在实施方案中，各重组多核苷酸还包括编码RNA引导的核酸酶的第二核酸序列。

另一方面提供含靶细胞、核酸酶和本文所述基因编辑载体的组合物。在实施方案中，所述组合物包括供体募集蛋白，供体募集蛋白包含DNA结合部分和使供体募集蛋白选择性募集到DNA断裂位点的DNA断裂位点定位部分。在实施方案中，所述靶细胞是来自对象的细胞。在实施方案中，所述对象患有癌症。

在实施方案中，所述靶细胞是免疫细胞。在实施方案中，所述免疫细胞是T细胞。

在实施方案中，所述供体多核苷酸编码治疗剂。在实施方案中，所述治疗剂是嵌合抗原受体或T细胞受体。

在实施方案中，所述对象患有的疾病能通过供体DNA掺入细胞基因组来治疗。

在实施方案中，所述细胞是人细胞。在实施方案中，所述对象是人。

B.编码供体多核苷酸、向导RNA和RNA引导的核酸酶的核酸

在某些实施方案中，所述gRNA-供体多核苷酸盒和/或RNA引导的核酸酶体内表达自载体。“载体”是能用于递送感兴趣核酸到细胞内部的元件(matter)的组合。gRNA-供体多核苷酸盒和RNA引导核酸能用单一载体或分开的载体引入细胞。构建体生成供体多核苷酸、向导RNA和RNA引导的核酸酶(如Cas9)以及遗传修饰细胞的能力可凭经验确定(例如参见实施例1，描述营养标记如FCY1和HIS3在检测遗传修饰酵母细胞中的应用)。

本领域已知许多载体，包括但不限于线性多核苷酸、与离子或两性化合物相关的多核苷酸、质粒和病毒。因此，术语“载体”包括自主复制质粒或病毒。病毒载体的示例包括但不限于腺病毒载体、腺相关病毒载体、逆转录病毒载体、慢病毒载体等。表达构建体能在活细胞中复制，或能合成制得。出于本申请目的，术语“表达构建体”、“表达载体”和“载体”可互换使用，以在一般和说明意义上证明本公开应用，且不意在限制本公开。

在某些实施方案中，所述编码感兴趣的多核苷酸的核酸处于启动子转录控制下。“启动子”指由细胞合成机器或所引入的合成机器识别的DNA序列，其是起始特定基因转录所需的。术语启动子在此用于指一组转录控制分子，其在RNA聚合酶I、II或III的起始位点附近成簇。哺乳动物细胞表达的典型启动子包括SV40早期启动子、CMV启动子如CMV立早启动子(参见例如美国专利号5,168,062和5,385,839，通过引用全文纳入本文)、小鼠乳腺瘤病毒LTR启动子、腺病毒主要晚期启动子(Ad MLP)和单纯疱疹病毒启动子等。其他非病毒启动子如衍生自鼠金属硫蛋白基因的启动子，也发现可用于哺乳动物表达。这些和其他启动子能获自市售可得质粒，采用本领域熟知的技术。参见例如Sambrook等，同上。增强子元件可与启动子联用以增加构建体表达水平。示例包括SV40早期基因增强子，如描述于Dijkema等,EMBO J.(1985)4:761，衍生自劳斯肉瘤病毒长末端重复(LTR)的增强子/启动子，如描述于Gorman等,Proc.Natl.Acad.Sci.USA(1982b)79:6777以及衍生自人CMV的元件，如描述于Boshart等,Cell(1985)41:521，例如纳入CMV内含子A序列的元件。

在一个实施方案中，用于表达供体多核苷酸、gRNA或RNA引导的核酸酶(如Cas9)的表达载体包括“可操作”连接供体多核苷酸、gRNA或RNA引导的核酸酶编码多核苷酸的启动子。本文所用短语“可操作连接”或“在转录控制下”指启动子相对多核苷酸处于正确位置和方向，以控制通过RNA聚合酶的转录起始和供体多核苷酸、gRNA或RNA引导的核酸酶的表达。

通常，转录终止子/多聚腺苷酸化信号也存在于表达构建体。这种序列的示例包括但不限于衍生自SV40的那些，如描述于Sambrook等，同上，以及牛生长激素终止序列(参见例如美国专利号5,122,458)。另外，5'-UTR序列能置于编码序列附近以提高其表达。这类序列包括含内部核糖体进入位点(IRES)的UTR。

纳入IRES可允许从载体翻译一个或多个开放阅读框。IRES元件吸引真核核糖体翻译起始复合物并促进翻译开始。参见例如Kaufman等,Nuc.Acids Res.(1991)19:4485-4490；Gurtu等,Biochem.Biophys.Res.Comm.(1996)229:295-298；Rees等,BioTechniques(1996)20:102-110；Kobayashi等,BioTechniques(1996)21:399-402；和Mosser等,BioTechniques(1997 22 150-161。已知大量IRES序列且包括衍生自广泛多种病毒的序列，如来自小核糖核酸病毒前导序列，如脑心肌炎病毒(EMCV)UTR(Jang等.J.Virol.(1989)63:1651-1660)、脊髓灰质炎前导序列、甲肝病毒前导序列、丙肝病毒IRES、人鼻病毒2型IRES(Dobrikova等,Proc.Natl.Acad.Sci.(2003)100(25):15125-15130)、来自口蹄疫病毒的IRES元件(Ramesh等,Nucl.Acid Res.(1996)24:2697-2700)、贾第虫病毒IRES(Garlapati等,J.Biol.Chem.(2004)279(5):3389-3397)等。多种非病毒IRES序列也在本文发现用途，包括但不限于来自酵母的IRES序列，以及人血管紧张肽II 1型受体(Martin等,Mol.CellEndocrinol.(2003)212:51-61)、成纤维细胞生长因子IRES(FGF-1IRES和FGF-2IRES,Martineau等.(2004)Mol.Cell.Biol.24(17):7622-7635)、血管内皮生长因子IRES(Baranick等.(2008)Proc.Natl.Acad.Sci.U.S.A.105(12):4733-4738,Stein等.(1998)Mol.Cell.Biol.18(6):3112-3119,Bert等.(2006)RNA 12(6):1074-1083)和胰岛素样生长因子2IRES(Pedersen等.(2002)Biochem.J.363(Pt 1):37-44)。这些元件容易市售获得，例如以由Clontech(Mountain View,CA),Invivogen(San Diego,CA),Addgene(Cambridge,MA)and GeneCopoeia(Rockville,MD)销售的质粒获得。还参见IRESite:The database ofexperimentally verified IRES structures(iresite.org)。IRES序列可纳入载体，例如用于表达多个选择标记或RNA引导的核酸酶(如Cas9)以及一个或多个来自表达盒的选择标记。

或者，编码病毒T2A肽的多核苷酸能用于允许从单一载体生成多种蛋白产物(如Cas9、一个或多个选择标记)。2A接头肽插入多顺反子构建体中的编码序列之间。2A肽自切割，允许来自多顺反子构建体的共表达蛋白以等摩尔水平生成。可使用来自多种病毒的2A肽，包括但不限于衍生自口蹄疫病毒、马甲型鼻炎病毒、Thosea asigna病毒和猪捷申病毒1型的2A肽。参见例如Kim等.(2011)PLoS One 6(4):e18556；Trichas等.(2008)BMC Biol.6:40,Provost等.(2007)Genesis 45(10):625-629；Furler等.(2001)Gene Ther.8(11):864-873；通过引用全文纳入本文。

在某些实施方案中，所述表达构建体包括适合转化酵母细胞的质粒。酵母表达质粒通常包含酵母特异性复制起点(ORI)和营养选择标记(如HIS3、URA3、LYS2、LEU2、TRP1、MET15、ura4+、leu1+、ade6+)、抗生素选择标记(如卡那霉素抗性)、荧光标记(如mCherry)或用于选择经转化酵母细胞的其他标记。酵母质粒还可包含组分以允许在细菌宿主(如大肠杆菌(E.coli))与酵母细胞之间穿梭。一些不同类型的酵母质粒可用，包括酵母整合质粒(YIp)，其缺乏ORI且通过同源重组整合入宿主染色体；酵母复制质粒(YRp)，其包含自主复制序列(ARS)且能独立复制；酵母着丝粒质粒(YCp)，其是含有部分ARS和部分着丝粒序列(CEN)的低拷贝载体；和酵母游离型质粒(YEp)，其是高拷贝数质粒，包括来自2μ环(天然酵母质粒)的片段，允许每细胞有50或更多个拷贝稳定增殖。

或者，细菌质粒载体可用于转化细菌宿主。本领域技术人员已知许多细菌表达载体，挑选合适载体是一种选择问题。细菌表达载体包括但不限于pACYC177、pASK75、pBAD、pBADM、pBAT、pCal、pET、pETM、pGAT、pGEX、pHAT、pKK223、pMal、pProEx、pQE和pZA31载体。参见例如Sambrook等，同上。

在其他实施方案中，所述表达构建体包括病毒或衍生自病毒基因组的工程构建体。开发了一些病毒基系统以向哺乳动物细胞转移基因。这些包括腺病毒、逆转录病毒(γ-逆转录病毒和慢病毒)、痘病毒、腺相关病毒、杆状病毒和单纯疱疹病毒(参见例如Warnock等.(2011)Methods Mol.Biol.737:1-25；Walther等.(2000)Drugs 60(2):249-271；和Lundstrom(2003)Trends Biotechnol.21(3):117-122；通过引用全文纳入本文)。某些病毒经受体介导的胞吞进入细胞、整合入宿主细胞基因组和稳定高效表达病毒基因的能力，使其成为向哺乳动物细胞转移外来基因的有吸引力候选方案。

例如，逆转录病毒提供用于基因递送系统的方便平台。选定序列能用本领域已知技术插入载体并包装在逆转录病毒颗粒中。重组病毒随后能分离并体内或离体递送到对象细胞。已描述了一些逆转录病毒系统(美国专利号5,219,740；Miller和Rosman(1989)BioTechniques 7:980-990；Miller,A.D.(1990)Human Gene Therapy 1:5-14；Scarpa等.(1991)Virology 180:849-852；Burns等.(1993)Proc.Natl.Acad.Sci.USA 90:8033-8037；Boris-Lawrie和Temin(1993)Cur.Opin.Genet.Develop.3:102-109；和Ferry等.(2011)Curr.Pharm.Des.17(24):2516-2527)。慢病毒是特定用于向哺乳动物细胞递送多核苷酸的一类逆转录病毒，因为其能感染分裂和非分裂细胞(参见例如Lois等(2002)Science295:868-872；Durand等.(2011)Viruses 3(2):132-159；通过引用纳入本文)。

还描述了一些腺病毒载体。不同于整合入宿主基因组的逆转录病毒，腺病毒保持在染色体外，因而尽可能减少与插入诱变相关的风险(Haj-Ahmad和Graham,J.Virol.(1986)57:267-274；Bett等,J.Virol.(1993)67:5911-5921；Mittereder等,Human GeneTherapy(1994)5:717-729；Seth等,J.Virol.(1994)68:933-940；Barr等,Gene Therapy(1994)1:51-58；Berkner,K.L.BioTechniques(1988)6:616-629；和Rich等,Human GeneTherapy(1993)4:461-476)。另外，开发了多种腺相关病毒(AAV)载体系统用于基因递送。AAV载体能用本领域熟知技术容易构建。参见例如美国专利号5,173,414和5,139,941；国际公开号WO 92/01070(1992年1月23日发表)和WO 93/03769(1993年3月4日发表)；Lebkowski等,Molec.Cell.Biol.(1988)8:3988-3996；Vincent等,Vaccines 90(1990)(Cold SpringHarbor Laboratory Press)；Carter,B.J.Current Opinion in Biotechnology(1992)3:533-539；Muzyczka,N.Current Topics in Microbiol.and Immunol.(1992)158:97-129；Kotin,R.M.Human Gene Therapy(1994)5:793-801；Shelling和Smith,Gene Therapy(1994)1:165-169；和Zhou等,J.Exp.Med.(1994)179:1867-1875。

另一种可用于递送本公开多核苷酸的载体系统是经肠施用的重组痘病毒疫苗，由Small,Jr.,P.A.,等(美国专利号5,676,950,1997年10月14日发布，通过引用纳入本文)描述。

发现可用于递送感兴趣核酸分子的额外病毒载体包括衍生自痘病毒家族的那些，包括牛痘病毒和禽痘病毒。例如，表达感兴趣核酸分子(如供体多核苷酸、gRNA或RNA引导的核酸酶)的牛痘病毒重组体能如下构建。编码特定核酸序列的DNA首先插入合适载体，从而其毗邻牛痘启动子且侧翼是牛痘DNA序列，如编码胸苷激酶(TK)的序列。此载体随后用于转染细胞，所述细胞同时感染有牛痘。同源重组用于向病毒基因组插入牛痘启动子加感兴趣序列编码基因。所得TK-重组体能如下选择：在5-溴脱氧尿苷存在下培养细胞，从中挑出耐受的病毒空斑。

或者，禽痘病毒如鸡痘病毒和金丝雀痘病毒也能用于递送感兴趣的核酸分子。使用禽痘载体在人和其他哺乳动物物种中特别需要，因为禽痘属成员仅易感鸟类物种中有效复制(productively replicate)，因此在哺乳动物细胞中没有感染性。产生重组禽痘病毒的方法为本领域已知且采用遗传重组，如上面涉及牛痘病毒产生所述。参见例如WO91/12882；WO 89/03429；和WO 92/03545。

分子缀合载体如Michael等,J.Biol.Chem.(1993)268:6866-6869和Wagner等,Proc.Natl.Acad.Sci.USA(1992)89:6099-6103所述腺病毒嵌合载体，也能用于基因递送。

甲病毒属成员例如但不限于衍生自辛德毕斯病毒(SIN)、塞姆利基森林病毒(SFV)和委内瑞拉马脑炎病毒(VEE)的载体，也发现可用作病毒载体以递送本公开的多核苷酸。就用于实施本方法的辛德毕斯病毒衍生载体描述而言，参见Dubensky等.(1996)J.Virol.70:508-519；和国际公开号WO 95/07995,WO 96/17072；以及Dubensky,Jr.,T.W.,等,美国专利号5,843,723,1998年12月1日发布，和Dubensky,Jr.,T.W.,美国专利号5,789,245,1998年8月4日发布，两者都通过引用纳入本文。尤其优选嵌合甲病毒载体，其由衍生自辛德毕斯病毒和委内瑞拉马脑炎病毒的序列构成。参见例如Perri等.(2003)J.Virol.77:10394-10403和国际公开号WO 02/099035、WO 02/080982、WO 01/81609和WO00/61772；通过引用全文纳入本文。

基于牛痘的感染/转染系统能方便地用于在宿主细胞中提供诱导型瞬时表达感兴趣多核苷酸(如gRNA-供体多核苷酸盒，编码RNA引导的核酸酶的多核苷酸)。此系统中，细胞首先用编码噬菌体T7RNA聚合酶的牛痘病毒重组体体外感染。此聚合酶展示强烈的特异性，在于其仅转录携带T7启动子的模板。感染后，细胞用T7启动子驱动的感兴趣多核苷酸转染。来自牛痘病毒重组体的细胞质所表达的聚合酶将已转染DNA转录成RNA。所述方法提供高水平、瞬时、胞质生成大量RNA。参见例如Elroy-Stein和Moss,Proc.Natl.Acad.Sci.USA(1990)87:6743-6747；Fuerst等,Proc.Natl.Acad.Sci.USA(1986)83:8122-8126。

作为用牛痘或禽痘病毒重组体感染或用其他病毒病毒递送核酸的替代方式，可使用在引入宿主细胞后引起高水平表达的扩增系统。特别地，能改造在T7RNA聚合酶编码区前面的T7RNA聚合酶启动子。从此模板中翻译RNA会产生T7RNA聚合酶，其进而转录更多模板。伴随地，有在T7启动子控制下表达的cDNA。因此，一些产生自扩增模板RNA的T7RNA聚合酶会引起所需基因转录。由于起始扩增需要一些T7RNA聚合酶，T7RNA聚合酶能与模板一起引入细胞以引发转录反应。聚合酶能作为蛋白引入或在编码RNA聚合酶的质粒上。关于T7系统和其用于转化细胞的进一步讨论，参见例如国际公开号WO 94/26911；Studier和Moffatt,J.Mol.Biol.(1986)189:113-130；Deng和Wolff,Gene(1994)143:245-249；Gao等,Biochem.Biophys.Res.Commun.(1994)200:1201-1206；Gao和Huang,Nuc.Acids Res.(1993)21:2867-2872；Chen等,Nuc.Acids Res.(1994)22:2114-2120；和美国专利号5,135,855。

昆虫细胞表达系统如杆状病毒系统也能使用且为本领域技术人员已知并描述于例如Baculovirus and Insect Cell Expression Protocols(Methods in MolecularBiology,D.W.Murhammer ed.,Humana Press,2^nd edition,2007)和L.King TheBaculovirus Expression System:A laboratory guide(Springer,1992)。用于杆状病毒/昆虫细胞表达系统的材料和方法以试剂盒形式市售可得，尤其是来自Thermo FisherScientific(Waltham,MA)和Clontech(Mountain View,CA)。

植物表达系统也能用于转化植物细胞。一般，这类系统使用病毒基载体以用异源基因转染植物细胞。这些系统的描述参见例如Porta等,Mol.Biotech.(1996)5:209-221；和Hackland等,Arch.Virol.(1994)139:1-22。

为实现有义或反义基因构建体表达，表达构建体必需递送到细胞内。此递送可体外完成，如用于转化细胞系的实验室过程，或体内或离体，如治疗某些疾病状态。一种递送机制是经病毒感染，其中表达构建体包封于传染性病毒颗粒。

本公开也考虑用于转移表达构建体到已培养哺乳细胞的数种非病毒方法。这些包括使用磷酸钙沉淀、DEAE-葡萄聚糖、电穿孔、直接显微注射、DNA加载的脂质体、脂质体-DNA复合物、细胞超声波降解、用高速微弹发射的基因轰击和受体介导的转染(参见例如Graham和Van Der Eb(1973)Virology 52:456-467；Chen和Okayama(1987)Mol.Cell Biol.7:2745-2752；Rippe等.(1990)Mol.Cell Biol.10:689-695；Gopal(1985)Mol.Cell Biol.5:1188-1190；Tur-Kaspa等.(1986)Mol.Cell.Biol.6:716-718；Potter等.(1984)Proc.Natl.Acad.Sci.USA 81:7161-7165)；Harland和Weintraub(1985)J.Cell Biol.101:1094-1099)；Nicolau和Sene(1982)Biochim.Biophys.Acta 721:185-190；Fraley等.(1979)Proc.Natl.Acad.Sci.USA 76:3348-3352；Fechheimer等.(1987)ProcNatl.Acad.Sci.USA 84:8463-8467；Yang等.(1990)Proc.Natl.Acad.Sci.USA 87:9568-9572；Wu和Wu(1987)J.Biol.Chem.262:4429-4432；Wu和Wu(1988)Biochemistry 27:887-892；通过引用纳入本文)。一些这类技术可成功适合体内或离体应用。

一旦表达构建体递送到细胞内，编码感兴趣基因的核酸可位于不同位点并在所述位点表达。在某些实施方案中，所述编码基因的核酸可稳定整合入细胞基因组。此整合可经同源重组处于同源位置和方向(基因置换)，或可在随机非特异位置整合整合(基因增强)。在某些实施方案中，所述核酸可作为DNA的单独游离区段稳定维持于细胞中。这种核酸区段或“附加体”编码足以允许维持和复制的序列，独立或与宿主细胞周期同步。表达构建体如何递送到细胞以及核酸保持在细胞中何处，取决于所用表达构建体类型。

在本公开的另一实施方案中，所述表达构建体可简单由裸重组DNA或质粒构成。构建体转移可通过任何上述方法进行，所述方法物理或化学渗透细胞膜。这尤其适用于体外转移，但其也可体内应用。Dubensky等.(Proc.Natl.Acad.Sci.USA(1984)81:7529-7533)成功以磷酸钙沉淀物形式注射多瘤病毒DNA到成年及新生小鼠的肝和脾内，显示活性病毒复制和急性感染。Benvenisty和Neshif(Proc.Natl.Acad.Sci.USA(1986)83:9551-9555)也证明直接腹膜内注射磷酸钙沉淀质粒引起转染的基因表达。设想编码感兴趣基因的DNA也可以类似方式体内转移并表达基因产物。

在另一实施方案中，裸DNA表达构建体可通过颗粒轰击转入细胞。此方法取决于加速DNA包被微弹到高速的能力，允许其刺穿细胞膜和进入细胞而不杀死它们(Klein等.(1987)Nature 327:70-73)。开发了用于加速小颗粒的数种装置。一种这类装置取决于高压放电以产生电流，进而提供动力(Yang等.(1990)Proc.Natl.Acad.Sci.USA87:9568-9572)。微弹可由生物惰性物质如钨或金珠组成。

在另一实施方案中，所述表达构建体可用脂质体递送。脂质体是多孔结构，特征为磷脂双层膜和内部水介质。多层脂质体具有由水介质分开的多个脂质层。当磷脂悬于过量水溶液时，其自发形成。脂质组分在闭合结构形成前经历自重排，诱陷脂质双层之间的水和溶解的溶质(Ghosh和Bachhawat(1991)，Liver Diseases,Targeted Diagnosis andTherapy Using Specific Receptors and Ligands,Wu等.(编),Marcel Dekker,NY,87-104)。还考虑使用脂质体-DNA复合物。

在本公开的某些实施方案中，所述脂质体可与血凝病毒(HVJ)复合。这显示有利于细胞膜融合并促进脂质体包封DNA的细胞进入(Kaneda等.(1989)Science243:375-378)。在其他实施方案中，所述脂质体可与核非组蛋白染色体蛋白(HMG-I)复合或联用(Kato等.(1991)J.Biol.Chem.266(6):3361-3364)。在其他实施方案中，所述脂质体可与HVJ和HMG-I复合或联用。由于这类表达构建体成功用于体内外转移和表达核酸，其适用于本公开。细菌启动子用于DNA构建体时，也需要将合适细菌聚合酶纳入脂质体内。

能用于向细胞递送核酸的其他表达构建体是受体介导的递送运载体。这些在几乎大部分真核细胞中利用通过受体介导的胞吞来选择性摄入大分子。由于多种受体的细胞类型特异性分布，递送可以是高特异性(Wu和Wu(1993)Adv.Drug Delivery Rev.12:159-167)。

受体介导的基因靶向运载体一般由2种组分组成：细胞受体特异性配体和DNA结合剂。数种配体用于受体介导的基因转移。最广泛鉴定的配体是脱唾液酸糖蛋白(ASOR)和转铁蛋白(参见例如Wu and Wu(1987),同上；Wagner等.(1990)Proc.Natl.Acad.Sci.USA 87(9):3410-3414)。最近，与ASOR识别相同受体的合成拟糖蛋白，被用作基因递送运载体(Ferkol等.(1993)FASEB J.7:1081-1091；Perales等.(1994)Proc.Natl.Acad.Sci.USA 91(9):4086-4090)，表皮生长因子(EGF)用于递送基因到鳞癌细胞(Myers,EPO0273085)。

在其他实施方案中，所述递送运载体可包括配体和脂质体。例如，Nicolau等.(Methods Enzymol.(1987)149:157-176)采用乳糖神经酰胺，这是半乳糖末端脱唾液酸神经节苷脂(asialganglioside)，纳入脂质体且观察到肝细胞的胰岛素基因摄入增加。因此，编码特定基因的核酸也可通过任何数量的受体-配体系统特异递送到细胞内，有或没有脂质体。同样，表面抗原的抗体能类似地用作靶向部分。

在一个特定实例中，编码gRNA-供体多核苷酸盒或RNA引导的核酸酶的重组多核苷酸可与阳离子脂质联合施用。阳离子脂质的示例包括但不限于lipofectin、DOTMA、DOPE和DOTAP。WO/0071096公开通过引用特定纳入，描述了能有效用于基因治疗的不同制剂，如DOTAP:胆固醇或胆固醇衍生制剂。其他公开物还讨论了不同脂质或脂质体制剂，包括纳米颗粒和施用方法；这些包括但不限于美国专利公开20030203865、20020150626、20030032615和20040048787，其通过引用特定纳入的程度为公开施用及递送核酸的制剂和其他相关方面。用于形成颗粒的方法也公开于美国专利号5,844,107、5,877,302、6,008,336、6,077,835、5,972,901、6,200,801和5,972,900，就这些方面通过引用纳入。

在某些实施方案中，基因转移在离体条件下可更容易进行。离体基因转移指从对象中分离细胞，体外向细胞递送核酸，随后经修饰细胞返回对象内。这可涉及收集生物样品，包括来自对象的细胞。例如，血液能通过静脉穿刺获得，固体组织样品能通过根据本领域熟知方法的外科技术获得。

通常，但并非总是，接受细胞的对象(即接受者)也是从中收获或获得细胞的对象，其优势是捐赠细胞是自体的。然而，细胞能获自另一对象(即供体)，来自供体的细胞培养物或来自已建立细胞培养系。细胞可获自与所治疗对象相同或不同的物种，但优选相同物种，更优选与对象具有相同免疫概况。例如，这类细胞能获自生物样品，包括来自近亲属或匹配供体的细胞，然后用核酸(如编码供体多核苷酸、gRNA或RNA引导的核酸酶)转染，给予需要基因组修饰的对象，例如用于治疗疾病或病症。

C.有条形码的gRNA-供体多核苷酸盒的测序

任何用于测序的高通量技术能用于实施本公开。DNA测序技术包括双脱氧测序反应(桑格法)，使用带标记的终止剂或引物以及平板或毛细管中的凝胶分离，用可逆终止标记核苷酸通过合成测序，焦磷酸测序，454测序，用等位基因特异杂交带标记克隆文库通过合成然后连接来测序，实时监控标记核苷酸在聚合步骤期间的掺入，聚合酶克隆测序，SOLID测序等。

某些测序的高通量方法包括某一步骤，其中个体分子在固体表面上空间分离，在该处其平行测序。这类固体表面可包括无孔表面(如Solexa测序，例如Bentley等,Nature,456:53-59(2008)，或完整基因组测序，例如Drmanac等,Science,327:78-81(2010))，孔阵列，其可包括珠-或颗粒-结合模板(如用454，例如Margulies等,Nature,437:376-380(2005)，或Ion Torrent测序，美国专利公开2010/0137143或2010/0304982)，微机械薄膜(如用SMRT测序，例如Eid等,Science,323:133-138(2009))或珠阵列(如用SOLiD测序或聚合酶克隆测序，例如Kim等,Science,316:1481-1414(2007))。这种方法可包括扩增分离分子，在其于固体表面上空间隔离之前或之后。现有扩增可包括基于乳液的扩增如乳液PCR，或滚环扩增。

尤其感兴趣地是在Illumina MiSeq,NextSeq和HiSeq平台上测序，其使用通过合成技术的可逆终止子测序(参见例如Shen等.(2012)BMC Bioinformatics 13:160；Junemann等.(2013)Nat.Biotechnol.31(4):294-296；Glenn(2011)Mol.Ecol.Resour.11(5):759-769；Thudi等.(2012)Brief Funct.Genomics 11(1):3-11；通过引用纳入本文)。

这些测序方法因而能用于测序有条形码的gRNA-供体多核苷酸盒，以使其序列与相邻(较短)条形码相关联，鉴定其在有序阵列中的对应集落。短DNA条形码也能用于多元性测序有序阵列样品。因此，含任何所需gRNA-供体多核苷酸盒的克隆随后能挑出细胞有序阵列(如用自动机器装置或手动)。

D.试剂盒

上述试剂能以试剂盒提供，包括编码gRNA-供体多核苷酸盒、RNA引导核酸的重组多核苷酸、条形码细胞、适合细胞生长的培养基以及位点特异性重组酶系统，带有合适说明书和用于本文所述基因组修饰及条形码编制的其他必要试剂。试剂盒还可包含用于基因组修饰的细胞，用于正选择和负选择细胞的试剂，以及转染剂。试剂盒通常在单独容器中包含gRNA-供体多核苷酸盒、RNA引导核酸、条形码细胞、适合细胞生长的培养基以及位点特异性重组酶系统，和所需的其他试剂。用于完成本文所述基因组修饰和条形码编制的说明书(如书面、CD-ROM、DVD、蓝光、闪存盘、数字下载等)通常纳入试剂盒。根据所用特定试验，试剂盒也能包含其他包装试剂和材料(即洗涤缓冲液等)。本文所述基因组编辑和条形码编制能用这些试剂盒实施。

E.应用

本公开的基因组编辑和条形码编制方法在基础研究和开发及再生医学中有多种应用。所述方法能用于向细胞基因组DNA的任何基因中引入突变(如插入、缺失或取代)。例如，本文所述方法能用于使细胞基因失活以确定基因敲除的影响或研究已知致病突变的影响。这类遗传修饰细胞可用作疾病模型用于药物筛选。或者，本文所述方法能用于从细胞基因组DNA的基因中移除突变，如致病突变。特别地，本文所述基因组编辑能用于开发具有所需特征的细胞系，如在所需位点加入报告基因，或提高功效、可控安全性和/或存活。

特别地，本公开方法用于产生有已知遗传修饰的排列菌株集合，用于多种目的，包括但不限于蛋白工程、DNA变体生成、菌株工程、代谢工程或药物筛选。有突变的菌株能根据其已知gRNA和供体多核苷酸序列在阵列中有序安排，位置取决于例如靶向染色体基因座或修饰的基因。另外，菌株可进行表型分型以确定具体突变的影响。排列的菌株能在培养基板或液体培养基中生长。例如，菌株能解析到含培养基板的阵列或含培养基的单独管内。随后，从排列的菌株中能选择有感兴趣遗传修饰的任何集落或集落组合，以接种液体培养基并成批生长。可进行后面数轮的基因组修饰以优化所需特性，如增加生物质，提高不同条件下的生长，或优化不同化合物的代谢生产。

在某些实施方案中，本文所述方法用于产生遗传修饰酵母菌株的排列集合。例如，这种酵母菌株排列集合能用于优化生成面包、啤酒、葡萄酒、生物燃料，无动物生产抗体、酶和其他蛋白，以及其他基于酵母的技术。遗传修饰酵母菌株也发现可用于药物筛选、代谢生产化合物、疫苗生产、病原检测和生成DNA及蛋白变体。

III.实验

以下是完成本公开的特定实施方案示例。提供实施例仅用于说明目的，而不意在以任何方式限制本公开范围。

努力确保涉及所用数字(如量、温度等)的精确性，但当然应允许一些实验误差和偏离。

实施例1、通过两步式同源介导修复的无痕基因组编辑

引言

我们先前描述了有成本效益的方法，称为重组酶介导索引(REDI)，其涉及复合文库整合入酵母，位点特异性重组以对文库DNA做索引，下一代测序以鉴定所需克隆。REDI最初开发用于生成高品质DNA文库，规避高合成误差率和无法获得与阵列合成寡核苷酸相关的个体寡核苷酸。其也用于迅速产生CRISPRi集合，以转录抑制必要酵母开放阅读框(ORF)。

我们在此延伸此技术用于大规模平行生产遗传工程克隆。我们的方法涉及用质粒系统的大规模高效基因组编辑，所述系统促进gRNA和供体虚列作为基因组条形码整合，允许从转化子文库中鉴定、分离和大规模平行验证单独变体。重要的是，我们还概括关键策略来提高后生动物细胞中的HR，包括CRISPR-干扰(CRISPRi)、RNA干扰(RNAi)或基于化学抑制NHEJ，与活跃的供体募集组合。

结果

我们先前描述了一种便宜的、高通量、基于酵母的方法，用于剖析来自复合混合物的验证序列，称之为重组酶介导索引或REDI¹⁷。基于REDI系统，现在描述双重编辑-条形码编制系统，涉及CRISPR/Cas9-介导编辑靶基因组基因座，用高拷贝质粒携带供体DNA，然后SceI介导捕获靶工体盒到REDI基因座。整合gRNA和供体DNA序列用作条形码，使得(1)菌株经REDI分离和(2)竞争生长后稳健表型分型可行。向导-供体质粒的高拷贝(2-micron)性质使有效修复可行。向导RNA-供体DNA盒整合入REDI基因座，精确地产生每细胞一个条形码分子，从而规避可能产生自拷贝数变化和质粒损失的噪音，这是基于载体的条形码特征且混淆表型分型准确性。

为允许平行生成许多遗传工程变体，我们使用在相同寡核苷酸分子上合成的gRNA/供体DNA对。因此，内部克隆步骤用于维持低于阵列基合成界限的寡核苷酸长度，和避免DNA合成错误纳入向导RNA序列恒定部分(图S1)。内部克隆步骤将此DNA作为序列完美插入物插入(见图9，方法)。

在用编码数以千计到百万计的基因组修饰的文库转化后有效分离已编辑的克隆，需要有最佳编辑效率的系统。因此，系统评估酵母中CRISPR/Cas9编辑系统的多个参数，包括Cas9和向导RNA表达的启动子。发现用于向导RNA表达的tRNA-HDV启动子产生最佳编辑效率。我们还检查Cas9表达水平的重要性，因为发现此参数在用线性供体DNA的先前酵母研究中重要¹³。我们形成靶向酵母ADE2基因座的构建体，其生成的酵母在突变时具有特征性红色。供体DNA设计成在ADE2基因座掺入移码突变且耐受通过其伴侣向导RNA识别(见方法)。此构建体与Cas9表达构建体共转化入酵母，或转化入预表达Cas9的酵母。当转化入预表达Cas9的酵母时，几乎所有克隆掺入由供体DNA编码的所需变化，如红色集落占主导所示(图2A，右上方)。在ADE2基因座测序还验证所需变化已掺入6个独立克隆(图2B)。重要的是，这些实验显示，细胞死亡在没有供体DNA情况下发生，而不是通过在大部分其他系统中占主导的易错NHEJ途径存活(图2A，左上方)。因此，Cas9在强组成型启动子下表达导致细胞生存严格依赖于质粒携带的供体DNA，且仅在转化中存活的克隆准确掺入了供体DNA介导的变化。

我们证明将携带Cas9的质粒转化到预表达向导RNA的细胞内可引起类似高水平的编辑效率和存活率。存活提高可能归因于为向导-供体质粒提供足够时间以积聚高拷贝数，使得DNA断裂修复增强。另外，我们对于Cas9测试诱导型启动子(Gal1启动子)并发现其提供同样有效的编辑。

我们接着寻求证明REDI基因座处的基因组条形码整合能在靶编辑后容易实现。这以2种不同方式完成。ADE2编辑细胞移到半乳糖培养基以诱导SceI表达和切割在REDI基因座FCY1反选择性标记侧翼的SceI位点。此高通量基因组整合方法是我们先前就转化寡核苷酸整合所述方法的延伸¹⁷。来自质粒的向导RNA-供体DNA盒有效掺入测试的所有克隆(图2C)。或者，我们使用靶向SceI位点或反选择性FCY1基因的gRNA，随着CRISPR用于编辑基因组以整合编辑盒到REDI基因座内，同时使用CRISPR切割。因此，这些克隆与REDI条形码菌株杂交，然后双末端Illumina测序能用于从变体的高复合文库中鉴定和分离这些克隆。

为建立我们方法的可扩展性，设计和购买(安捷伦科技)gRNA-供体DNA以使异源ORF(mCherry)单氨基酸饱和突变。为使ORF完全饱和可行和确保细胞纳入想要的变化，我们设计了新型同义密码子扩散策略以能在引导识别区外的位点编辑(图10)。我们选择了一些分离自文库的向导-供体以验证其功能性。意外地，一种向导-供体质粒引起高毒性和低存活(图3，右幅)。此向导RNA靶向初始甲硫氨酸密码子(ATG)和相邻TPI1启动子序列。在天然酵母TPI1基因中也存在相同向导RNA靶序列。因此，预期构建体会在酵母基因组的2个位置诱导双链断裂。尽管包含与TPI1启动子的同源性，供体DNA缺乏与TPI1ORF起点的任何同源性，表明靶切割位点修复需要在dsDNA断裂两侧的充足同源性。与我们的数据证明预表达Cas9和gRNA在没有供体DNA情况下的毒性(图2A)的同时，此结果提示如果没有供体DNA来修复这些断裂，有强脱靶效应的gRNA可能在转化后导致细胞死亡。重要的是，我们预期这些向导-供体序列不被REDI分离操作捕获，因此不会导致假阳性或阴性。这表明我们描述的编辑系统有极高保真度，强调其对探索天然和人工变体的全基因组影响的效用。

我们注意到相对于含非功能性向导RNA的质粒，用具有功能gRNA的质粒转化细胞和预表达Cas9导致集落显著更少(～10倍)，表明用向导-供体转化的～90％细胞不能完成同源修复，尽管在核中，质粒上存在供体。我们推断，Rad51介导的同源搜索供体DNA可能对我们系统的细胞存活而言是限速的。

为测试此假设，我们开发了系统以活跃的募集供体到dsDNA断裂位点(图4)。注意到小于～0.01％转化子在没有供体DNA情况下从Cas9-gRNA表达存活，小于～10％在供体DNA存在情况下存活。所有生存者纳入由供体DNA指定的序列变化，表明绝大多数生存者采用同源重组以修复dsDNA断裂。此外，合并的编辑实验中存在非功能gRNA序列对编辑细胞造成明显瓶颈，并富集不产生任何基因组修饰的gRNA文库。这是一个需要解决的重要问题，因为预期1/200的典型阵列合成误差使得～10％的20聚体引导序列含有至少一个错误[(1-1/200)^20～0.1]。

为增加在编辑过程中存活的细胞部分和减少瓶颈作用，实施用于活跃的供体募集的系统，推断供体DNA随机扩散到切割位点对同源修复而言是限速的。我们共表达融合Fkh1的LexA DNA结合域(DBD)(Fkh1结合HML重组增强子，在交配型转换期间调节供体偏好，这是通过用结合供体DNA的Fkh1募集DNA(Saccharomyces Genome Database,Li等.(2012)PLoSGenet.8(4):e1002630)与Cas9，转化含LexA结合位点的向导-供体质粒(图4)。我们还设计直接融合LexA与Cas9的系统以确保供体存在与dsDNA切割并行。这引起存活率和同源重组介导精确编辑的效率大幅提高(图5A)。我们目前测试Cas9-LexA DBD融合，预期产生类似的编辑效率增加，且应该一般适用于所有模型模型，其中能引入RGN。

2-micron质粒需要多个细胞世代以在核内积聚到其最高水平。因此，我们测试了当转化相反的质粒时，预表达的向导-供体是否会与预表达Cas9具有相同效果。在相同转化条件下，意外发现转化Cas9质粒到携带向导-供体的细胞内可产生显著更高数目的编辑集落，编辑效率类似或较高(图5B)。使用诱导型Cas9产生了类似的改善结果。另外，我们认识到，如果除了基因组之外，我们还在向导-供体质粒上纳入切割位点，那么我们大幅提升编辑效率到有极高存活，在Ade2基因座和REDI基因座同步编辑。

最后，我们目前测试基因组整合盒的直接修复，使用SceI大范围核酸酶以切割DNA着陆垫，带有在SceI位点侧翼的反选择性标记，其在含启动子和终止子的区域内以用于向导RNA表达，其随后侧翼是LexA-Fkh1结合位点(图11)。我们猜测这可能引起类似水平的编辑效率和允许从扩增寡核苷酸文库直接基因组整合，然后诱导Cas9表达。其进一步拥有保证每个细胞仅一个编辑的优势。

我们的系统的一个主要优势是利用REDI菌株剖析技术和用于高通量精确编辑的平台，有向导-供体整合和活跃的供体募集到RGN dsDNA断裂位点。此技术先前应用于纯化寡核苷酸(美国专利申请公开号20160122748，通过引用全文纳入本文)，但我们改造技术以允许形成功能菌株集合。特别地，这使我们能剖析个体编辑菌株，验证gRNA和供体序列，允许分离完美序列向导-供体和等摩尔收集变体菌株(图6)。我们技术的另一关键方面在于REDI介导菌株剖析和重新排成阵列允许毫无疑义地确认编辑的基因座(图7)。这用任何采用多元性编辑的现有策略都是不可能的，且使验证菌株在分开孔中测试可行以用于基于非生长的表型分型，这在许多功能基因组应用中尤其重要(如改善菌株用于生成化合物、蛋白或酶活性，分析蛋白位置，和通过多元性全基因组测序来验证编辑菌株)。我们的平台允诺改革高通量基因组编辑，能比任何目前可用技术或模型系统更有效、精确和验证编辑。我们平台的完整工作流程详述于图8。

为在分批培养中改善表型分型，还开发了系统以对编辑盒进行条形码编制。此系统中，各编辑盒与随机条形码相关联(图12)。这些关联随后通过双末端测序带条形码的引导和供体来确定。然后，小条形码能测序以作为编辑盒的代理用于表型分型实验，减少表型分型成本和使内部编辑复制物可行(图13)。

讨论

高通量遗传工程联用RGN与编码向导RNA和供体DNA的阵列合成寡核苷酸，其对多种应用有巨大潜力¹。此领域的当前进展迅速，但限于在文库中产生大突变文库，其不适合许多表型分型方法。通过组合REDI与新型高通量基于Cas9的基因组编辑系统，使用阵列衍射寡核苷酸，我们解决了此关键限制。我们的方法提供简单机制来迅速产生酵母变体的阵列文库。其能适用于在酵母基因组任何地方或在酵母宿主表达的异源基因和途径中产生突变，对改造菌株用于高价值化学合成特别具有价值。

方法

寡核苷酸文库购买自安捷伦(Agilent)或Twist生物科技(Twist Biosciences)。基础寡核苷酸设计是含～20nt特异性序列的序列以用于CRISPR核酸酶如Cas9或Cpf1，以及含所需突变的供体序列(图1)。另外，我们可加入额外的同义突变以能够获得切割位点外的氨基酸变化，而不需要PAM突变(图10)。在这些修饰序列的任一侧，是匹配基因组靶的～30-90nt同源序列。

寡核苷酸是用能加入额外序列的引物扩增的PCR，随后连接或经Gibson Assembly组装到质粒内，所述质粒包含启动子以表达gRNA，侧翼是用于REDI整合基因座的同源序列(图9)。另外，我们开发的方法允许内部克隆gRNA恒定部分以及选择性标记如His3或KanR2，这能仅选择成功纳入gRNA恒定部分并减少背景的盒，所述背景由合成错误或克隆错误导致(图10和12)。

所述盒编码2个编辑，一个修饰基因组，一个将盒整合入REDI基因座(图1和13)。Cas9和gRNA表达自不同质粒(图1)。在方法的不同迭代中，gRNA质粒或Cas9质粒转化入宿主(酵母)，接着首先是另一质粒的第二转化(图1和5)。两者都在组成型启动子下表达。或者，我们能在诱导型启动子下表达，如半乳糖诱导型启动子或四环素诱导型启动子。2种质粒之一还包含SceI或其他位点特异性核酸酶基因，在诱导型或组成型启动子控制下。通过选择2种质粒，我们确保对基因组进行Cas9编辑。随后能诱导SceI基因以在REDI基因座整合gRNA-供体盒(图6)，在该过程中缺失反选择性标记如Fcy1。或者，我们能用第二恒定向导RNA实现此，募集Cas9以切割缺失Fcy1且整合gRNA-供体-条形码盒的REDI条形码基因座(图13)，方式类似于SceI大范围核酸酶切割。然后，可就成功整合此盒进行选择，该盒用作其编码编辑的条形码。这些条形码允许剖析带REDI的编辑菌株并用于合并竞争生长实验。当我们进行REDI时，仅选择完美编码所需编辑且没有其他不需要编辑的盒，使得我们的方法高度特异。

除了Cas9，我们的质粒还可包含酶如Fkh1-LexA或Cas9-LexA以使供体DNA到DNA双链断裂位点(图4)。这能大幅增加编辑存活率以及同源重组效率。编辑后，所得经编辑的细胞能以与我们先前所报道REDI方法类似的方法剖析(图6)。这另外允许我们将编辑细胞解析到子文库中，并验证我们确实制备了想要的编辑，这是通过测序特定区域，在该处预期就单一板而言的所有编辑发生(图7)。如果该位置没有编辑，我们推断该菌株代表编辑未生成形成并从集合中移出。

在REDI和编辑确认之前或之后，我们整合的gRNA-供体盒和/或其相关条形码能用于追踪编辑细胞。这允许高通量分批培养表型分型。另外，我们能通过诸如显微镜检查等方法对阵列板上的菌株表型分型。

实施例2、用Cpf1-供体系统的基因编辑产生高效编辑

当Cpf1向导-供体系统以与实施例1所述类似方法使用时，Cpf1向导-供体系统引起高效(>99％)编辑且用Cpf1编辑提高～10倍，供体募集的程度类似Cas9。

图14A和14B提供数据。图14A显示预表达Cpf1的细胞集落，用靶向ADE2基因的Cpf1向导-供体质粒(所述引导具有Cpf1支架)转化。供体DNA编码导致移码的突变。图14B显示当Cpf1向导-供体与非编辑质粒以17:3比例混合并转化入表达Cpf1的细胞，没有(左)或有(右)LexA-FHA时，％红色集落(红色:白色集落之比)。

实施例3、质粒Spike-In实验证明LexA-FHA和线性化载体提高HDR效率及编辑存活。

编辑ADE2ORF的质粒以85％(17:3)混合非编辑质粒并转化入携带Cas9(图16，顶幅)或Cas9和LexA-FHA(图16，底幅)的菌株。就各转化使用相同菌株使得直接比较每行总集落可行。

图16提供数据。y轴指示各转化中观察到的集落总数，而x轴指示红色的集落百分比，这代表编辑ADE2过程的存活情况。各点的形状对应用于使得质粒在转化前体外线性化的限制性酶。5个不同柱对应不同形式的spike-in混合物。第一个数字对应于通过ADE2编辑质粒的基因组基因座切割数(2指示在ADE2和染色体条形码基因座切割，而1指示仅在ADE2切割)，第二个数字对应于通过非编辑质粒的基因组基因座切割数(1指示在染色体条形码基因座的向导X识别位点(在此情况中是SceI位点)切割，而0指示在非编辑质粒上没有向导RNA)。例如，2v1对应混合物，其中ADE2编辑质粒在ADE2ORF和染色体条形码基因座切割基因组，非编辑质粒仅切割染色体条形码基因座。另外，质粒包含SceI位点，在该情况中所述质粒由也靶向染色体条形码基因座的SceI向导RNA切割，或不包含SceI位点，在该情况中质粒即使表达SceI向导也保持完整。用SceI gRNA切割的质粒体内线性化。由于这些混合物分开制备(尽管以85％质量定量)，％红色集落的最有效比较能在各柱中分开制备。在没有LexA-FHA或质粒线性化情况下的编辑毒性导致存活很少(样品采用虚线圆圈，没有酶-无reps 1和2)。最大的转化存活以LexA-FHA出现，而没有质粒线性化(样品采用点线圆圈，没有酶-无reps1和2)。

这些数据显示转化前的质粒线性化或使用靶向融合蛋白(如exA-FHA)能相对于非编辑质粒大幅提高编辑效率。另外，此方法不需要质粒转化，其也与线性供体分子相容，因为条形码捕获于条形码基因座。此外，质粒体内线性化增加了适当编辑细胞与带非编辑引导的那些之比。非编辑引导载体的扩增减少，用线性供体、自切割供体质粒或LexA-FHA。能获得的集落总数对制备复合文库重要，在供体募集蛋白如LexA-FHA存在时最高。

实施例4、人细胞中的供体DNA募集。

本文所述供体募集技术还能用于哺乳动物细胞。应用与酵母所用相同的概念，选择募集到DNA双链断裂的蛋白TP53BP1。TP53BP1在细胞中的正常作用是结合双链断裂和启动子非同源末端连接(NHEJ)。此蛋白的子域氨基酸1221-1718显示以对NHEJ(dn53BP1)显性阴性的方式作用(Xie等,2007)。我们假设此蛋白会募集到断裂处，当融合LexA DNA结合域时，能用于使供体DNA到断裂位点，此时供体DNA包含LexA位点。另外，由于其能抑制NHEJ，可能增加同源介导修复(HDR)比率，无论是否提供LexA位点。

为对此进行测试，产生2种形式的质粒，质粒表达NLS、dn53BP1，融合有C末端LexADNA结合域。一种形式表达CACNA1D的gRNA，另一种形式表达基因PPP1R12C的gRNA。先前鉴定了这些位点的gRNA(Wang等,2018)。使用表达Cas9的第二质粒和含CACNA1D或PPP1R12C供体序列的第三质粒(会引入的XbaI位点任一侧侧翼的～300nt同源序列，缺失包括gRNA PAM序列的小DNA区段)。有2种形式的各供体质粒，一种有4个LexA位点，而一种没有LexA位点。质粒用Gibson Assembly建立。Cas9和dn53BP1-LexA都从EF1α启动子中表达。

3个质粒中的每一个(25ng)瞬时转染入Hek293细胞，在达到96孔板中每孔10,000个细胞的密度前一天接种，使用X-tremeGENE 9转染试剂(西格玛奥德里奇(SigmaAldrich))。各组条件一式三份测试。细胞在转染后生长72小时，随后通过移出培养基和用水洗涤细胞来收获。一半的细胞移到96孔PCR板，沉淀，然后用每样品100μl LucigenQuickExtract DNA提取溶液提取DNA。

QuickExtract溶液随后如下稀释：向20μl水加入5μl QuickExtract。从中使用2μl以加入PCR。在25μl Q5PCR混合物中进行14轮PCR，有结合感兴趣基因靶的内部引物，还加入Read1和Read2TruSeq引物(依诺米那(Illumina))。一种引物结合得离编辑位点很远，以至于不能在所提供的供体DNA同源区中发现，从而仅扩增基因组DNA(而不是供体DNA)。另一种引物在离开待通过同源介导修复(HDR)引入的DNA序列32或33nt处结合。此引物与Read1一起使用。前14轮后，额外的25μl Q5PCR混合加入P5和P7接头(依诺米那)的引物以及测序索引。

样品在Illumina MiSeq上测序以观察切割位点处的编辑分布。由于Read1引物更接近切割位点，分析Read1以确定HDR和NHEJ的比率。NHEJ定义为在gRNA识别序列或靶基因PAM序列内包含插入或缺失的序列。HDR定义为映射到供体序列的序列。

结果

图17显示HDR在供体募集蛋白dn53BP1-LexA存在下的效率，有或没有LexA位点。靶向2个独立基因(CACNA1D(CAC)和PPP1R12C(PPP))。第一幅显示切割位点的NHEJ比率。第二幅显示切割位点的总HDR比率，第三幅显示细胞中HDR与NHEJ之比。

发现dn53BP1-LexA融合能在供体质粒上存在LexA DNA位点时促进gRNA切割位点处的HDR比率。当供体质粒上没有LexA位点时，没有观察到HDR增加，但NHEJ比率类似。这表明DNA修复一般能通过用融合蛋白来改善，所述蛋白募集到断裂处且包含结合供体DNA并使其到断裂位点的结构域。

参考文献

1.Garst AD,Bassalo MC,Pines G,Lynch SA,Halweg-Edwards AL,Liu R,等.Genome-wide mapping of mutations at single-nucleotide resolution forprotein,metabolic and genome engineering.Nat Biotechnol[Internet].2016年12月12日；获自:http://www.ncbi.nlm.nih.gov/pubmed/27941803

2.Jinek M,Chylinski K,Fonfara I,Hauer M,Doudna JA,Charpentier E.Aprogrammable dual-RNA-guided DNA endonuclease in adaptive bacterialimmunity.Science.2012年8月；337(6096):816–21.

3.Koike-Yusa H,Li Y,Tan E-P,Velasco-Herrera MDC,Yusa K.Genome-widerecessive genetic screening in mammalian cells with a lentiviral CRISPR-guideRNA library.Nat Biotechnol.2014年3月；32(3):267–73.

4.Shalem O,Sanjana NE,Hartenian E,Shi X,Scott DA,Mikkelsen TS等.Genome-scale CRISPR-Cas9knockout screening in human cells.Science.2014年1月；343(6166):84–7.

5.Wang T,Wei JJ,Sabatini DM,Lander ES.Genetic screens in human cellsusing the CRISPR-Cas9system.Science.2014年1月；343(6166):80–4.

6.Zhou Y,Zhu S,Cai C,Yuan P,Li C,Huang Y等.High-throughput screeningof a CRISPR/Cas9library for functional genomics in human cells.Nature.2014年5月；509(7501):487–91.

7.Gilbert LA,Horlbeck MA,Adamson B,Villalta JE,Chen Y,Whitehead EH等.Genome-Scale CRISPR-Mediated Control of Gene Repression andActivation.Cell.2014年10月；159(3):647–61.

8.Konermann S,Brigham MD,Trevino AE,Joung J,Abudayyeh OO,Barcena C等.Genome-scale transcriptional activation by an engineered CRISPR-Cas9complex.Nature.2015年1月；517(7536):583–8.

9.Ronda C,Maury J,

T,Jacobsen SAB,Germann SM,Harrison SJ等.CrEdit:CRISPR mediated multi-loci gene integration in Saccharomycescerevisiae.Microb Cell Fact.2015；14:97.

10.Ryan OW,Skerker JM,Maurer MJ,Li X,Tsai JC,Poddar S等.Selection ofchromosomal DNA libraries using a multiplex CRISPR system.Elife.2014；3.

11.

T,Bonde I,

M,Harrison SJ,Kristensen M,Pedersen LE等.Multiplex metabolic pathway engineering using CRISPR/Cas9in Saccharomycescerevisiae.Metab Eng.2015年3月；28:213–22.

12.Bao Z,Xiao H,Liang J,Zhang L,Xiong X,Sun N等.Homology-integratedCRISPR-Cas(HI-CRISPR)system for one-step multigene disruption inSaccharomyces cerevisiae.ACS Synth Biol.2015年3月；4(5):585–94.

13.DiCarlo JE,Norville JE,Mali P,Rios X,Aach J,Church GM.Genomeengineering in Saccharomyces cerevisiae using CRISPR-Cas systems.NucleicAcids Res.2013年4月；41(7):4336–43.

14.Ryan OW,Cate JHD.Multiplex engineering of industrial yeast genomesusing CRISPRm.Methods Enzymol.2014；546:473–89.

15.Richardson CD,Ray GJ,DeWitt MA,Curie GL,Corn JE.Enhancinghomology-directed genome editing by catalytically active and inactive CRISPR-Cas9using asymmetric donor DNA.Nat Biotechnol.2016年1月；

16.Chu VT,Weber T,Wefers B,Wurst W,Sander S,Rajewsky K等.Increasingthe efficiency of homology-directed repair for CRISPR-Cas9-induced precisegene editing in mammalian cells.Nat Biotechnol.2015年5月；33(5):543–8.

17.Justin D.Smith,Ulrich Schlecht,Weihong Xu,Sundari Suresh,JoeHorecka,Michael J.Proctor,Raeka S.Aiyar,Richard A.O.Bennett,Angela Chu,YongFuga Li,Kevin Roy,Ronald W.Davis,Lars M.Steinmetz,Richard W.Hyman,SashaF.Levy RPSO.High-throughput Parsing of Complex DNA Libraries for Isolationand Functional Characterization of Clonal,Sequence-verified DNA.Revis MolSyst Biol.

18.Wang,Y.,Liu,K.I.,Sutrisnoh,N.-A.B.,Srinivasan,H.,Zhang,J.,Li,J.,…Tan,M.H.(2018).Systematic evaluation of CRISPR-Cas systems reveals designprinciples for genome editing in human cells.Genome Biology,19(1),62.https://doi.org/10.1186/s13059-018-1445-x

19.Xie,A.,Hartlerode,A.,Stucki,M.,Odate,S.,Puget,N.,Kwok,A.,…Scully,R.(2007).Distinct roles of chromatin-associated proteins MDC1 and 53BP1 inmammalian double-strand break repair.Molecular Cell,28(6),1045–1057.https://doi.org/10.1016/j.molcel.2007.12.005

实施方案

实施方案1.一种用于细胞多元性遗传修饰和条形码编制的方法，所述方法包括：a)提供多种重组多核苷酸，其中各重组多核苷酸包括含向导RNA(gRNA)编码多核苷酸和供体多核苷酸的基因组编辑盒，所述gRNA能在待修饰基因组靶基因座杂交，供体多核苷酸包括与5'基因组靶序列杂交的5'同源臂和与3'基因组靶序列杂交的3'同源臂，所述同源臂在含有待整合入基因组靶基因座的想要的编辑的核苷酸序列侧翼，其中各重组多核苷酸包括含不同向导RNA-供体多核苷酸组合的不同基因组编辑盒，从而多种重组多核苷酸能在一个或多个基因组靶基因座产生多种不同的想要的编辑；和(b)用所述多种重组多核苷酸转染细胞；c)在适合转录的条件下培养经转染的细胞，其中向导RNA生成自各基因组编辑盒；d)向细胞引入RNA引导的核酸酶，其中所述RNA引导的核酸酶与细胞中产生的向导RNA形成复合物，所述向导RNA将复合物导向一个或多个基因组靶基因座，其中RNA引导的核酸酶在一个或多个基因组靶基因座处的细胞基因组DNA中产生双链断裂，各细胞中存在的供体多核苷酸通过同源介导修复(HDR)在由其5'同源臂和与3'同源臂识别的基因组靶基因座处整合，从而生成多个遗传修饰细胞；和e)通过在染色体条形码基因座整合各遗传修饰细胞存在的基因组编辑盒，来对多个遗传修饰细胞进行条形码编制。

实施方案2.如实施方案1所述的方法，其中所述各基因组编辑盒还包括与向导RNA编码多核苷酸可操作连接的启动子。

实施方案3.如实施方案1所述的方法，其中所述染色体条形码基因座还包括启动子，其可操作连接编码任何基因组编辑盒的向导RNA的多核苷酸，所述基因组编辑盒在染色体条形码基因座处整合。

实施方案4.如实施方案1所述的方法，其中所述各重组多核苷酸由载体提供。

实施方案5.如实施方案4所述的方法，其中所述载体包括与向导RNA编码多核苷酸可操作连接的启动子。

实施方案6.如实施方案5所述的方法，其中所述启动子是组成型或诱导型启动子。

实施方案7.如实施方案4所述的方法，还包括经转染的细胞内的载体复制。

实施方案8.如实施方案4所述的方法，其中所述载体是质粒或病毒载体。

实施方案9.如实施方案4所述的方法，其中所述载体是高拷贝数载体。

实施方案10.如实施方案1所述的方法，其中所述RNA引导的核酸酶由载体或整合入细胞基因组的重组多核苷酸提供。

实施方案11.如实施方案10所述的方法，其中所述基因组编辑盒和RNA引导的核酸酶由单一载体或分开的载体提供。

实施方案12.如实施方案1所述的方法，其中所述基因组编辑盒还包括在向导RNA编码核苷酸序列5'末端的tRNA序列。

实施方案13.如实施方案1所述的方法，其中所述基因组编辑盒还包括在编码向导RNA的核苷酸序列5'末端的编码丁型肝炎病毒(HDV)核酶的核苷酸序列。

实施方案14.如实施方案1所述的方法，其中所述RNA引导的核酸酶是Cas核酸酶或工程化的RNA引导的FokI核酸酶。

实施方案15.如实施方案14所述的方法，其中所述Cas核酸酶是Cas9或Cpf1。

实施方案16.如实施方案1所述的方法，其中所述各供体多核苷酸向基因组DNA引入不同突变。

实施方案17.如实施方案16所述的方法，其中所述突变选自插入、缺失和取代。

实施方案18.如实施方案16所述的方法，其中所述至少一种供体多核苷酸在基因组DNA中引入使基因失活的突变。

实施方案19.如实施方案1所述的方法，其中所述至少一种供体多核苷酸从基因组DNA的基因中去除突变。

实施方案20.如实施方案1所述的方法，其中所述多种重组多核苷酸能在单一基因或非编码区内的多个位点生成突变。

实施方案21.如实施方案1所述的方法，其中所述多种重组多核苷酸能在不同基因或非编码区的多个位点生成突变。

实施方案22.如实施方案1所述的方法，其中所述在染色体条形码基因座整合各遗传修饰细胞中存在的基因组编辑盒用HDR进行。

实施方案23.如实施方案22所述的方法，其中所述各重组多核苷酸还包括在基因组编辑盒侧翼的一对通用同源臂，其能杂交染色体条形码基因座处的互补序列以允许所述基因组编辑盒通过HDR在染色体条形码基因座处整合。

实施方案24.如实施方案23所述的方法，其中所述各重组多核苷酸还包括能在染色体条形码基因座杂交的第二向导RNA。

实施方案25.如实施方案24所述的方法，其中所述RNA引导的核酸酶进一步与第二向导RNA形成复合物，所述第二向导RNA将所述复合物导向染色体条形码基因座，其中所述RNA引导的核酸酶在染色体条形码基因座处形成双链断裂，且所述基因组编辑盒通过HDR整合入染色体条形码基因座。

实施方案26.如实施方案1所述的方法，其中所述各遗传修饰细胞内存在的基因组编辑盒在染色体条形码基因座处整合是用位点特异性重组酶系统实施的。

实施方案27.如实施方案26所述的方法，其中所述位点特异性重组酶系统包括Cre-loxP位点特异性重组酶系统、Flp-FRT位点特异性重组酶系统、PhiC31-att位点特异性重组酶系统或Dre-rox位点特异性重组酶系统。

实施方案28.如实施方案27所述的方法，其中所述染色体条形码基因座还包括位点特异性重组酶的第一重组靶位点且重组多核苷酸还包括位点特异性重组酶的第二重组靶位点，第一重组靶位点与第二位点特异性重组位点之间的位点特异性重组引起基因组编辑盒在染色体条形码基因座处的所述整合。

实施方案29.如实施方案1所述的方法，还包括使用选择经历了供体多核苷酸在基因组靶基因座成功整合或基因组编辑盒在染色体条形码基因座成功整合的克隆的选择性标记。

实施方案30.如实施方案1所述的方法，其中所述细胞是酵母细胞。

实施方案31.如实施方案1所述的方法，其中所述酵母细胞是单倍体酵母细胞。

实施方案32.如实施方案1所述的方法，其中所述各重组多核苷酸还包括在基因组编辑盒侧翼的一对限制性位点。

实施方案33.如实施方案32所述的方法，其中所述限制性位点由产生DNA双链断裂的大范围核酸酶识别。

实施方案34.如实施方案33所述的方法，其中所述大范围核酸酶的表达由诱导型启动子控制。

实施方案35.如实施方案34所述的方法，其中所述大范围核酸酶是SceI。

实施方案36.如实施方案1所述的方法，还包括使用不同基因组编辑盒通过重复步骤(a)-(e)对遗传修饰细胞实施额外多轮遗传修饰和基因组条形码编制，。

实施方案37.如实施方案1所述的方法，其中各基因组编辑盒还包括独特的条形码序列，用于鉴别由各基因组编辑盒编码的向导RNA和供体多核苷酸。

实施方案38.如实施方案37所述的方法，还包测序各基因组编辑盒。

实施方案39.如实施方案38所述的方法，其中所述测序在转染细胞前进行。

实施方案40.如实施方案37所述的方法，还包括在染色体条形码基因座处删除编码向导RNA的多核苷酸和供体多核苷酸，在该处各基因组编辑盒整合，而保留所述染色体条形码基因座处的独特条形码。

实施方案41.如实施方案40所述的方法，还包括对至少一个遗传修饰细胞的染色体条形码基因座的条形码进行测序，以鉴定用于遗传修饰所述细胞的基因组编辑盒。

实施方案42.如实施方案1所述的方法，还包括抑制非同源末端连接(NHEJ)。

实施方案43.如实施方案42所述的方法，其中所述抑制包括使细胞接触选自渥曼青霉素和Scr7的小分子抑制剂。

实施方案44.如实施方案42所述的方法，其中所述抑制包括使用RNA干扰或CRISPR干扰以抑制NHEJ途径蛋白组分的表达。

实施方案45.如实施方案1所述的方法，还包括使用HDR增强物或活跃的供体募集以增加细胞的HDR频率。

实施方案46.如实施方案1所述的方法，还包括使用选择经历了供体多核苷酸通过HDR在一个或多个基因组靶基因座成功整合的克隆的选择性标记。

实施方案47.如实施方案1所述的方法，还包括对至少一个遗传修饰细胞进行表型分型。

实施方案48.如实施方案1所述的方法，还包括对至少一个遗传修饰细胞进行全基因组测序。

实施方案49.如实施方案1所述的方法，还包括序列验证所述多个遗传修饰细胞和并排成阵列，所述方法包括:a)将多种遗传修饰细胞以有序阵列置于适合遗传修饰细胞生长的培养基；b)在一定条件下培养多种遗传修饰细胞，从而各遗传修饰细胞在有序阵列中生成克隆集落；c)向条形码细胞引入来自有序阵列集落的基因组编辑盒，其中条形码细胞包括核酸，所述核酸包含位点特异性重组酶的重组靶位点，和鉴定对应基因组编辑盒的有序阵列中的集落位置的条形码序列；d)用位点特异性重组酶系统将基因组编辑盒转位到条形码细胞的毗邻条形码序列的位置，其中与条形码细胞重组靶位点的位点特异性重组可产生包括连接基因组编辑盒的条形码序列的核酸；e)对含连接基因组编辑盒的条形码细胞的条形码序列的核酸进行测序，以鉴定来自集落中基因组编辑盒的向导RNA序列和供体多核苷酸序列，其中条形码细胞的条形码序列用于鉴定的有序阵列中集落的位置，所述基因组编辑盒来源于所述集落；和f)挑出由条形码细胞的条形码鉴定含有序阵列集落中基因组编辑盒的克隆。

实施方案50.如实施方案49所述的方法，其中所述遗传修饰细胞是单倍体酵母细胞且条形码细胞是能与遗传修饰细胞接合的单倍体酵母细胞。

实施方案51.如实施方案50所述的方法，其中所述向条形码细胞引入来自有序阵列集落的基因组编辑盒包括使来自集落的克隆与条形码细胞接合以生成二倍体酵母细胞。

实施方案52.如实施方案51所述的方法，其中所述遗传修饰细胞属于菌株MATα且条形码酵母细胞属于菌株MATa。

实施方案53.如实施方案51所述的方法，其中所述遗传修饰细胞属于菌株MATa且条形码酵母细胞属于菌株MATα。

实施方案54.如实施方案49所述的方法，其中所述基因组编辑盒侧翼是由大范围核酸酶识别的限制性位点。

实施方案55.如实施方案54所述的方法，其中所述条形码细胞中的重组酶系统使用大范围核酸酶以产生DNA双链断裂。

实施方案56.如实施方案49所述的方法，其中所述条形码细胞中的重组酶系统是Cre-loxP位点特异性重组酶系统、Flp-FRT位点特异性重组酶系统、PhiC31-att位点特异性重组酶系统或Dre-rox位点特异性重组酶系统。

实施方案57.如实施方案49所述的方法，其中所述方法还包括用有序阵列中的所有集落重复c)-f)，以鉴定有序阵列中的每一个集落的基因组编辑盒向导RNA和供体多核苷酸的序列。

实施方案58.一种含由实施方案49所述方法产生的遗传修饰细胞克隆的集落有序阵列，其中所述集落根据其向导RNA和供体多核苷酸的验证序列来做索引。

实施方案59.一种通过向DNA断裂活跃的募集供体来促进同源介导修复(HDR)的方法，所述方法包括：a)向细胞引入包含与包含核酸结合域的多肽连接的选择性结合DNA断裂蛋白的融合蛋白，；和b)向细胞引入供体多核苷酸，其包括i)核苷酸序列，有足够互补性以杂交毗邻DNA断裂的序列和ii)核苷酸序列，包括由融合蛋白的核酸结合域所识别的结合位点，其中核酸结合域选择性结合供体多核苷酸上的结合位点以产生供体多核苷酸与融合蛋白的复合物，从而向DNA断裂募集供体多核苷酸并促进HDR。

实施方案60.如实施方案59所述的方法，其中所述募集到DNA断裂处的蛋白是RNA引导的核酸酶。

实施方案61.如实施方案59所述的方法，其中所述RNA引导的核酸酶是Cas核酸酶或工程化的RNA引导的FokI核酸酶。

实施方案62.如实施方案61所述的方法，其中所述Cas核酸酶是Cas9或Cpf1。

实施方案63.如实施方案59所述的方法，其中所述DNA断裂是单链或双链DNA断裂。

实施方案64.如实施方案63所述的方法，其中所述融合蛋白包括选择性结合单链DNA断裂或双链DNA断裂的蛋白。

实施方案65.如实施方案59所述的方法，其中所述供体多核苷酸是单链的或双链的。

实施方案66.如实施方案59所述的方法，其中所述核酸结合域是RNA结合域且所述结合位点包括由RNA结合域识别的RNA序列。

实施方案67.如实施方案59所述的方法，其中所述核酸结合域是DNA结合域且所述结合位点包括由DNA结合域识别的DNA序列。

实施方案68.如实施方案67所述的方法，其中所述DNA结合域是LexA DNA结合域，所述结合位点是LexA结合位点。

实施方案69.如实施方案67所述的方法，其中所述DNA结合域是forkhead同源物1(FKH1)DNA结合域，所述结合位点是FKH1结合位点。

实施方案70.如实施方案59所述的方法，其中所述含核酸结合域的多肽还包括forkhead相关的(FHA)磷酸苏氨酸结合域，其中供体多核苷酸选择性募集到具有蛋白的DNA断裂处，该蛋白所含磷酸化苏氨酸残基位置足够接近DNA断裂，用于FHA磷酸苏氨酸结合域以结合磷酸化苏氨酸残基。

实施方案71.如实施方案59所述的方法，其中所述含核酸结合域的多肽包括连接FHA磷酸苏氨酸结合域的LexA DNA结合域。

实施方案72.如实施方案59所述的方法，其中所述供体多核苷酸由重组多核苷酸提供，该重组多核苷酸包括可操作连接供体多核苷酸的启动子。

实施方案73.如实施方案59所述的方法，其中所述融合蛋白由重组多核苷酸提供，该重组多核苷酸包括可操作连接融合蛋白编码多核苷酸的启动子。

实施方案74.如实施方案59所述的方法，其中所述供体多核苷酸和融合蛋白由单一载体或分开的载体提供。

实施方案75.如实施方案74所述的方法，其中至少一种载体是病毒载体或质粒。

实施方案76.如实施方案50所述的方法，其中所述供体多核苷酸是RNA或DNA。

实施方案77.如实施方案76所述的方法，其中所述方法还包括用逆转录酶使含RNA的供体多核苷酸逆转录，以产生含DNA的供体多核苷酸。

实施方案78.如实施方案59所述的方法，其中所述DNA断裂由位点特异性核酸酶产生。

实施方案79.如实施方案78所述的方法，其中所述位点特异性核酸酶选自Cas核酸酶、工程化的RNA引导的FokI核酸酶、大范围核酸酶、锌指核酸酶(ZFN)和转录激活因子样效应物核酸酶(TALEN)。

实施方案80.一种用于细胞多元性遗传修饰和条形码编制的试剂盒，所述试剂盒包括：a)多种重组多核苷酸，其中各重组多核苷酸包括含向导RNA(gRNA)编码多核苷酸和供体多核苷酸的基因组编辑盒，所述gRNA能在待修饰基因组靶基因座杂交，所述供体多核苷酸包括与5'基因组靶序列杂交的5'同源臂和与3'基因组靶序列杂交的3'同源臂，所述同源臂在含有待整合入基因组靶基因座的想要的编辑的核苷酸序列侧翼，其中各重组多核苷酸包括含不同向导RNA-供体多核苷酸组合的不同基因组编辑盒，从而多种重组多核苷酸能在一个或多个基因组靶基因座生成多种不同的想要的编辑；和b)RNA引导的核酸酶；和c)含染色体条形码基因座的细胞，其中条形码基因座包括至少一种重组多核苷酸基因组编辑盒的整合位点。

实施方案81.如实施方案80所述的试剂盒，其中各重组多核苷酸还包括在基因组编辑盒侧翼的一对通用同源臂，其能在染色体条形码基因座的整合位点杂交互补序列，以允许通过同源介导修复(HDR)在染色体条形码基因座整合所述基因组编辑盒。

实施方案82.如实施方案81所述的试剂盒，其中所述各重组多核苷酸还包括能在染色体条形码基因座杂交的第二向导RNA。

实施方案83.如实施方案80所述的试剂盒，还包括位点特异性重组酶系统。

实施方案84.如实施方案83所述的试剂盒，其中所述位点特异性重组酶系统是Cre-loxP位点特异性重组酶系统、Flp-FRT位点特异性重组酶系统、PhiC31-att位点特异性重组酶系统或Dre-rox位点特异性重组酶系统。

实施方案85.如实施方案83所述的试剂盒，其中所述染色体条形码基因座还包括位点特异性重组酶的第一重组靶位点且重组多核苷酸还包括位点特异性重组酶的第二重组靶位点，从而位点特异性重组能在第一重组靶位点与第二位点特异性重组位点之间发生以允许所述基因组编辑盒在染色体条形码基因座处整合。

实施方案86.如实施方案80所述的试剂盒，其中所述RNA引导的核酸酶是Cas核酸酶或工程化的RNA引导的FokI核酸酶。

实施方案87.如实施方案86所述的试剂盒，其中所述Cas核酸酶是Cas9或Cpf1。

实施方案88.如实施方案80所述的试剂盒，其中所述试剂盒还包括融合蛋白，该融合蛋白包括连接选择性结合RNA引导的核酸酶所产生DNA断裂的蛋白的含核酸结合域的多肽。

实施方案89.如实施方案88所述的试剂盒，其中所述供体多核苷酸还包括有足够互补性以毗邻杂交DNA断裂的序列的核苷酸序列，以及含融合蛋白核酸结合域所识别的结合位点的核苷酸序列。

实施方案90.如实施方案89所述的试剂盒，其中所述核酸结合域是LexA DNA结合域且所述结合位点是LexA结合位点，或所述核酸结合域是forkhead同源物1(FKH1)DNA结合域且所述结合位点是FKH1结合位点。

实施方案91.如实施方案90所述的试剂盒，其中所述含核酸结合域的多肽还包括forkhead相关的(FHA)磷酸苏氨酸结合域。

实施方案92.如实施方案91所述的试剂盒，其中所述含核酸结合域的多肽包括连接FHA磷酸苏氨酸结合域的LexA DNA结合域。

尽管阐明和描述本公开的优选实施方案，应理解能对其中进行多种变化，而不偏离本公开精神和范围。

Claims

1.一种用于多元性产生遗传工程细胞的方法，所述方法包括：

(a)用多种不同重组多核苷酸转染多个细胞，各重组多核苷酸包含基因组编辑盒，所述基因组编辑盒包含编码第一向导RNA(gRNA)的第一核酸序列和供体多核苷酸，从而形成gRNA-供体多核苷酸组合，所述第一gRNA能在待修饰的基因组靶基因座杂交，其中各重组多核苷酸包含不同的基因组编辑盒，所述不同的基因组编辑盒包含不同的gRNA-供体多核苷酸组合，并允许各细胞表达第一核酸序列，从而形成gRNA；和

(b)向所述多个细胞中的每一个引入RNA引导的核酸酶，其中各细胞内的RNA引导的核酸酶与gRNA形成复合物，从而形成gRNA-RNA引导的核酸酶复合物，并允许gRNA-RNA引导的核酸酶复合物通过将供体多核苷酸整合入基因组靶基因座而修饰基因组靶基因座，从而产生多个遗传工程细胞。

2.如权利要求1所述的方法，其中各重组多核苷酸还包含独特多核苷酸条形码。

3.如权利要求1或2所述的方法，其中各重组多核苷酸还包含编码RNA引导的核酸酶的第二核酸序列。

4.如权利要求1-3中任一项所述的方法，其中所述方法还包括在所述多个遗传工程细胞的至少一个中鉴定供体多核苷酸的存在。

5.如权利要求4所述的方法，其中鉴定供体多核苷酸的存在包括鉴定所述条形码。

6.如权利要求1-5中任一项所述的方法，其中所述条形码在染色体条形码基因座插入所述多个遗传工程细胞的基因组。

7.如权利要求1-6中任一项所述的方法，其中所述RNA引导的核酸酶由载体或整合入细胞基因组的第二核酸序列提供。

8.如权利要求7所述的方法，其中所述基因组编辑盒和RNA引导的核酸酶由单一载体或分开的载体提供。

9.如权利要求7所述的方法，其中所述RNA引导的核酸酶由整合入染色体条形码基因座的第二核酸序列提供，并且其中条形码在染色体条形码基因座插入使所述第二核酸序列从染色体条形码基因座移出。

10.如权利要求6-9中任一项所述的方法，其中所述染色体条形码基因座还包含与任何基因组编辑盒的第一核酸序列可操作连接的启动子，所述基因组编辑盒整合于染色体条形码基因座。

11.如权利要求1-10中任一项所述的方法，其中各重组多核苷酸由载体提供。

12.如权利要求11所述的方法，其中所述载体包含与编码gRNA的多核苷酸可操作连接的启动子。

13.如权利要求12所述的方法，其中所述启动子是组成型或诱导型启动子。

14.如权利要求11-13中任一项所述的方法，其中所述载体是质粒或病毒载体。

15.如权利要求11-14中任一项所述的方法，其中所述载体是高拷贝数载体。

16.如权利要求1-15中任一项所述的方法，其中所述RNA引导的核酸酶是Cas核酸酶或工程化的RNA引导的FokI核酸酶。

17.如权利要求16所述的方法，其中所述Cas核酸酶是Cas9或Cpf1。

18.如权利要求1-17中任一项所述的方法，其中各重组多核苷酸还包含编码第二向导RNA(向导X)的第二核酸序列，所述向导X能与所述重组多核苷酸杂交，其中所述向导X与各细胞中的核酸酶形成复合物，从而向导X-核酸酶复合物切割所述重组多核苷酸。

19.如权利要求10所述的方法，其中所述重组多核苷酸是质粒载体且向导X-核酸酶复合物使所述质粒载体线性化。

20.如权利要求10或19所述的方法，其中所述向导X-核酸酶复合物使所述重组多核苷酸的至少部分整合入所述染色体条形码基因座。

21.如权利要求10-20中任一项所述的方法，其中所述核酸酶是所述RNA引导的核酸酶。

22.如权利要求10-20中任一项所述的方法，其中所述核酸酶是引入细胞的第二RNA引导的核酸酶。

23.如权利要求22所述的方法，其中所述第二RNA引导的核酸酶是Cas核酸酶或工程化的RNA引导的FokI核酸酶。

24.如权利要求10-20中任一项所述的方法，其中所述核酸酶选自大范围核酸酶、FokI-核酸酶、CRISPR-相关核酸酶、锌指核酸酶(ZFN)和转录激活因子样效应物核酸酶(TALEN)。

25.如权利要求1-24中任一项所述的方法，其中所述供体多核苷酸是供体DNA。

26.如权利要求1-25中任一项所述的方法，其中各重组多核苷酸还包含已知结合DNA结合域的DNA结合序列。

27.如权利要求26所述的方法，还包括向细胞引入包含DNA结合域和DNA断裂位点定位结构域的供体募集蛋白，所述DNA断裂位点定位结构域使供体募集蛋白选择性募集到DNA断裂处。

28.如权利要求1-27中任一项所述的方法，其中所述染色体条形码基因座包含编码所述RNA引导的核酸酶、所述核酸酶和/或所述供体募集蛋白的多核苷酸；并且其中条形码在所述染色体条形码基因座插入使编码所述RNA引导的核酸酶、所述核酸酶和/或所述供体募集蛋白的多核苷酸从所述染色体条形码基因座移出。

29.如权利要求1-28中任一项所述的方法，其中各供体多核苷酸向基因组DNA引入不同突变。

30.如权利要求29所述的方法，其中所述突变选自插入、缺失和取代。

31.如权利要求1-30中任一项所述的方法，其中至少一种供体多核苷酸引入使基因组DNA中的基因失活的突变。

32.如权利要求1-31中任一项所述的方法，其中所述至少一种供体多核苷酸从基因组DNA中的基因移除突变。

33.如权利要求1-32中任一项所述的方法，其中所述多种重组多核苷酸能在单一基因或非编码区内的多个位点生成突变。

34.如权利要求1-32中任一项所述的方法，其中所述多种重组多核苷酸能在不同基因或非编码区的多个位点生成突变。

35.如权利要求1-34中任一项所述的方法，其中所述方法还包括使用选择性标记，所述标记选择经历所述供体多核苷酸在所述基因组靶基因座成功整合或所述基因组编辑盒在所述染色体条形码基因座成功整合的克隆。

36.如权利要求1-35中任一项所述的方法，其中所述细胞是酵母细胞。

37.如权利要求36所述的方法，其中所述酵母细胞是单倍体酵母细胞。

38.如权利要求1-37中任一项所述的方法，还包括抑制非同源末端连接(NHEJ)。

39.如权利要求1-38中任一项所述的方法，还包括序列验证和多个遗传修饰细胞排成阵列，所述方法包括：

(c)将所述多个遗传修饰细胞以有序阵列置于适合所述遗传修饰细胞生长的培养基；

(d)在一定条件下培养所述多个遗传修饰细胞，其中各遗传修饰细胞在有序阵列中产生克隆集落；

(e)向条形码细胞引入来自有序阵列中的集落的基因组编辑盒，其中所述条形码细胞包含核酸，所述核酸包含位点特异性重组酶的重组靶位点，和条形码序列，所述条形码序列鉴定基因组编辑盒对应的有序阵列中的集落位置；

(f)用位点特异性重组酶系统将所述基因组编辑盒转位到毗邻条形码细胞的条形码序列的位置，其中与条形码细胞的重组靶位点的位点特异性重组产生包含与基因组编辑盒连接的条形码序列的核酸；

(g)对包含与基因组编辑盒连接的条形码细胞的条形码序列的核酸进行测序，以鉴定来自集落中基因组编辑盒的向导RNA序列和供体多核苷酸序列，其中条形码细胞的条形码序列用于鉴定有序阵列中集落的位置，所述基因组编辑盒来源于所述集落；和

(h)挑出由条形码细胞的条形码鉴定的包含来自有序阵列中的集落的基因组编辑盒的克隆。

40.如权利要求39所述的方法，其中所述遗传修饰细胞是单倍体酵母细胞，且所述条形码细胞是能与遗传修饰细胞接合的单倍体酵母细胞。

41.如权利要求40所述的方法，其中所述向条形码细胞引入来自有序阵列集落的基因组编辑盒，包括使来自集落的克隆与条形码细胞接合以产生二倍体酵母细胞。

42.如权利要求41所述的方法，其中所述遗传修饰细胞属于菌株MATα且条形码酵母细胞属于菌株MATa。

43.如权利要求41所述的方法，其中所述遗传修饰细胞属于菌株MATa且条形码酵母细胞属于菌株MATα。

44.如权利要求39所述的方法，其中所述基因组编辑盒侧翼是大范围核酸酶识别的限制性位点。

45.如权利要求44所述的方法，其中所述条形码细胞中的重组酶系统使用大范围核酸酶以产生DNA双链断裂。

46.如权利要求39所述的方法，其中所述条形码细胞中的重组酶系统是Cre-loxP位点特异性重组酶系统、Flp-FRT位点特异性重组酶系统、PhiC31-att位点特异性重组酶系统或Dre-rox位点特异性重组酶系统。

47.如权利要求39所述的方法，还包括用有序阵列中的所有集落重复(e)直到(h)，以鉴定有序阵列中的每一个集落的基因组编辑盒的向导RNA和供体多核苷酸的序列。

48.一种集落的有序阵列，包含由权利要求39-47中任一项所述的方法产生的遗传修饰细胞克隆，其中所述集落根据其向导RNA和供体多核苷酸的经验证的序列来做索引。

49.一种将供体多核苷酸定位到细胞中基因组靶基因座的方法，所述方法包括：

(a)用重组多核苷酸转染细胞，所述重组多核苷酸包含基因组编辑盒，所述基因组编辑盒包含供体多核苷酸以及已知结合DNA结合域的DNA结合序列；

(b)将核酸酶引入所述细胞，其中所述核酸酶在基因组靶基因座识别并导致DNA断裂；

(c)向所述细胞引入供体募集蛋白，所述供体募集蛋白包含DNA结合域和DNA断裂位点定位结构域，并允许供体募集蛋白选择性募集DNA断裂，从而将供体多核苷酸定位到基因组靶基因座。

50.如权利要求49所述的方法，其中所述DNA断裂是双链DNA断裂。

51.如权利要求49或50所述的方法，其中所述供体募集蛋白是融合蛋白。

52.如权利要求49-51中任一项所述的方法，其中所述DNA结合域包含来自DNA结合蛋白的多肽序列。

53.如权利要求52所述的方法，其中所述DNA结合蛋白选自LexA、Gal4 DBD、锌指蛋白、TALE或转录因子。

54.如权利要求52所述的方法，其中所述DNA结合蛋白是链霉亲和素，并且其中生物素缀合所述供体多核苷酸。

55.如权利要求49-54中任一项所述的方法，其中所述DNA断裂位点定位结构域包含来自与DNA断裂位点结合，或与由DNA断裂引起的DNA断裂位点附近的区域结合的蛋白质的多肽序列。

56.如权利要求55所述的方法，其中所述与DNA断裂位点结合或与由DNA断裂所引起的DNA断裂位点附近的区域结合的所述蛋白质是参与DNA修复的蛋白质。

57.如权利要求56所述的方法，其中所述参与DNA修复的蛋白质选自DNA断裂结合蛋白、FOX转录因子以及来自表1、表2、表3、表4或表5的蛋白质。

58.如权利要求49-57中任一项所述的方法，其中所述核酸酶选自大范围核酸酶、FokI-核酸酶、CRISPR-相关核酸酶、锌指核酸酶(ZFN)和转录激活因子样效应物核酸酶(TALEN)。

59.如权利要求47-54中任一项所述的方法，其中所述核酸酶是RNA引导的核酸酶。

60.如权利要求49-57中任一项所述的方法，其中所述核酸酶通过将供体多核苷酸整合入基因组靶基因座修饰基因组靶基因座，从而生成遗传工程细胞。

61.如权利要求60所述的方法，其中所述遗传工程细胞是遗传工程治疗细胞。

62.如权利要求61所述的方法，其中所述遗传工程治疗细胞是遗传工程免疫细胞。

63.如权利要求62所述的方法，其中所述遗传工程免疫细胞是靶向癌症的T细胞或自然杀伤细胞。

64.一种遗传修饰细胞文库，所述遗传修饰细胞由权利要求1-27中任一项所述方法修饰。

65.一种基因编辑载体文库，各基因编辑载体包含基因组编辑盒，所述基因组编辑盒包含(i)条形码，(ii)第一核酸序列，其编码能在待修饰的基因组靶基因座杂交的第一向导RNA(gRNA)，和(iii)供体多核苷酸，从而形成条形码-gRNA-供体多核苷酸组合；其中各重组多核苷酸包含不同的基因组编辑盒，所述不同的基因组编辑盒包含不同的条形码-gRNA-供体多核苷酸组合。

66.如权利要求65所述的文库，其中各载体还包含编码能与所述载体杂交的第二向导RNA(向导X)的多核苷酸。

67.如权利要求66所述的文库，其中所述向导X能与染色体条形码基因座杂交。

68.如权利要求65或66所述的文库，其中各载体还包含已知结合DNA结合部分的DNA结合序列。

69.如权利要求65-68中任一项所述的文库，其中各载体还包含编码RNA引导的核酸酶的多核苷酸。

70.一种基因编辑载体，包含供体多核苷酸和编码第一向导RNA(向导X)第一核酸序列，所述向导X能在靶位点与所述载体杂交，从而当细胞表达所述向导X时，所述向导X与所述载体杂交并在靶位点处产生双链DNA断裂。

71.如权利要求70所述的基因编辑载体，其中所述载体还包含编码第二向导RNA(gRNA)的第二核酸序列，所述第二gRNA能在待修饰的基因组靶基因座杂交。

72.如权利要求70或71所述的基因编辑载体，还包含已知结合DNA结合域的DNA结合序列。

73.如权利要求70-72中任一项所述的基因编辑载体，还包含编码核酸酶的多核苷酸。

74.如权利要求73所述的基因编辑载体，其中所述核酸酶选自大范围核酸酶、FokI-核酸酶、CRISPR-相关核酸酶、锌指核酸酶(ZFN)和转录激活因子样效应物核酸酶(TALEN)。

75.一种组合物，包含靶细胞、核酸酶和权利要求70-74中任一项所述的基因编辑载体。

76.如权利要求75所述的组合物，还包含供体募集蛋白，所述供体募集蛋白包含DNA结合部分和使供体募集蛋白选择性募集到DNA断裂位点的DNA断裂位点定位部分。

77.如权利要求75或76所述的组合物，其中所述靶细胞是来自对象的细胞。

78.如权利要求77所述的组合物，其中所述对象患有癌症。

79.如权利要求75-78中任一项所述的组合物，其中所述靶细胞是免疫细胞。

80.如权利要求79所述的组合物，其中所述免疫细胞是T细胞。

81.如权利要求75-80中任一项所述的组合物，其中所述供体多核苷酸编码治疗剂。

82.如权利要求81所述的组合物，其中所述治疗剂是嵌合抗原受体或T细胞受体。

83.如权利要求77所述的组合物，其中所述对象患有能通过将供体DNA整合入细胞基因组来治疗的疾病。

84.如权利要求75-83中任一项所述的组合物，其中所述细胞是人细胞。

85.一种试剂盒，包含：

(a)如权利要求70-74中任一项所述的基因编辑载体；和

(b)核酸酶或编码核酸酶的多核苷酸。

86.如权利要求85所述的试剂盒，还包含供体募集蛋白或编码供体募集蛋白的多核苷酸，所述供体募集蛋白包含DNA结合部分和使所述供体募集蛋白选择性募集到DNA断裂位点的DNA断裂位点定位部分。

87.一种试剂盒，包含：

(a)如权利要求70-74中任一项所述的基因编辑载体；和

(b)用于遗传修饰细胞的试剂。

88.如权利要求87所述的试剂盒，其中所述试剂是核酸梅或编码核酸酶的第一多核苷酸，供体募集蛋白或编码供体募集蛋白的第二多核苷酸，或向导RNA。

89.如权利要求87所述的试剂盒，还包含(c)经工程化以表达核酸酶的细胞。

90.如权利要求89所述的试剂盒，其中所述细胞经工程化以从染色体条形码基因座表达所述核酸酶。

91.如权利要求89或90所述的试剂盒，其中所述细胞表达供体募集蛋白，所述供体募集蛋白包含DNA结合部分和使所述供体募集蛋白选择性募集到DNA断裂位点的DNA断裂位点定位部分。