CN106893739A

CN106893739A - 用于靶向基因操作的新方法和系统

Info

Publication number: CN106893739A
Application number: CN201611020370.7A
Authority: CN
Inventors: 冯波; 何向军
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong CUHK
Priority date: 2015-11-17
Filing date: 2016-11-17
Publication date: 2017-06-27
Also published as: US20170198302A1; US11905521B2

Abstract

本发明提供用于靶向的然而通用的基因组操作的新方法和系统，其包括细胞系、重组多核苷酸构建体、组合物和试剂盒。

Description

用于靶向基因操作的新方法和系统

对相关申请的交叉参考

本申请要求于2015年11月17日提交的美国临时申请号62/256,514的权益，并且要求于2016年1月29日提交的美国临时申请号62/288,974的权益，二者通过引用完全结合在本文中。

发明背景

研发对活细胞的基因组进行精确的靶向改变的有效且可靠的工具是生物医学研究者的长远目标。最近，一种基于来自酿脓链球菌(Streptococcus pyogenes)的细菌CRISPR-相关蛋白-9核酸酶(Cas9)的新技术已经产生了值得注意的兴奋和兴趣，例如，参见，Cong等人(2013)Science，339，819-823。在过去两年间已经进行了多方尝试，以试图利用该CRISPR/Cas9系统以高靶标特异性的方式操作基因组序列和基因功能。

另一方面，研究尝试提高CRISPR/Cas9诱导的DNA切割的同源性定向修复(HDR)的效率，用以实现在基因组中的精确的靶向DNA插入：Yu等人在2015年成功地鉴定了几种提高HDR效率的小化学分子[24]；Maruyama等人在2015年抑制了非同源末端连接(NHEJ)途径，从而提高基因组编辑的HDR效率[25]；Zhu等人在2015年开发了iCRISPR系统，从而最优化费力的策略并且避免用于人多能干细胞(hPSC)中的基因敲入的药物选择步骤[26]；Merkle等人在2015年设计了一种策略：利用生物信息学鉴定在靶向的等位基因上物理分离CRISPR靶位点，从而提高基因敲入的精确性[15]。然而，在这些研究中，在介导大DNA片段的敲入方面，特别是在人多能干细胞(hPSCs)中的敲入方面仍然是效率低的。最近，Li等人在2015年和Hisano等人在2015年开发了Cas9-介导的供体载体(donor vector)，其在斑马鱼中表现出高效的DNA插入，并且该系统被证实是可遗传的[27,28]。然而，该系统不是在人细胞中设计并检验的，由此，仍然亟需用于人细胞(包括hPSC)的优化的系统。

RNA-指导的基因组改造已经广泛用于细胞生物学研究。原始的CRISPR/Cas9系统表现出市场潜力，并且在最近两年被授予一些美国专利[29-34]。它们中的一些已经处在商业开发阶段。我们之前的发明，美国临时专利号62/256,514，提供优化的CRISPR/Cas9系统，其包括灵活的供体载体和有用的步骤，具有成为生物学研究者的用户友好的工具试剂盒产品的重大潜力。另外，本发明的潜在的应用包括在临床情形中的多种应用，包括疾病诊断和基因修正。

具体而言，本发明的Cas9-介导的基因组编辑系统适合用于人细胞并且具有一些优点。例如，这些改进的系统成功地满足了在人细胞(包括人胚胎干细胞(ESCs)和诱导的多能干细胞(iPSCs))中的高HR效率的需要。与之前已知的方法相比，在人ESCs中的HR效率已经提高多至5倍。并且，本发明提供通用的基因组编辑系统，其具有也用于低等脊椎动物的潜力。另外，所述系统是用户友好的，包括一些供体构建体的设计，使得这些系统对于研究和临床情境中的多种不同的应用是非常有价值的。

在本发明中，为Cas9-介导的基因组编辑系统在不同基因组基因座和条件中的应用提供进一步的证据。进一步证明了不依赖同源性的报道子整合的分子基础和效率；并且提供了用于在沉默的基因的基因座处的NHEJ-介导的有效敲入的另外的方法和系统。另外，研究了NHEJ-介导的敲入系统的脱靶效应。

并且，公开了向GAPDH基因座的3’-UTR处的CPF1-诱导的DSBs中不依赖同源性敲入报道基因的另外的方法和系统，其证明了对定向整合的偏好性。由此，本申请公开了用于使用CRISPR/CPF1通过NHEJ介导的单向优选的(unidirection-preferred)敲入的方法和系统。

本申请还公开了报道基因不依赖同源性的双色插入敲入的另外的方法和系统。因此，本申请公开了用于使用CRISPR/Cas9通过NHEJ介导的双向敲入的方法和系统。

另外，公开了在多个基因组等位基因上的一个靶基因中不依赖同源性敲入多种报道基因的方法和系统，这证明产生了单种或两种阳性细胞群体。因此，本申请公开了向多个等位基因中NHEJ-介导敲入多种颜色荧光报道基因的构建体、方法和系统。

发明概述

本发明提供用于基于CRISPR/Cas9和CRISPR/Cpf1的基因编辑的新的细胞系、多核苷酸构建体、组合物、试剂盒和系统，其允许人们进行关于基因组序列的机制和调节的研究以及鉴定能够调节所述基因组编辑事件的化合物。

本文公开的基因编辑系统包括两种一般类型：第一种是涉及两次插入事件的类型，而第二种仅涉及一次插入事件。对于第一种类型，本发明提供整合构建体、供体构建体、转化的宿主细胞、组合物、试剂盒以及使用该基因编辑系统的多种方法。更具体而言，在整合构建体中，典型地包括启动子，其从5′到3′可操作地连接用于报道基因的第一非功能性编码片段、中断片段(interrupter segment)和用于报道基因的第二非功能性编码片段，从而使得所述启动子不表达功能性报道蛋白。在一些实施方案中，所述整合构建体还包含两个基因组同源序列，一个位于启动子的5′端，另一个位于用于报道基因的第二非功能性编码片段的3′端。这两个基因组同源序列与细胞预先确定的遗传基因座的基因组序列的两个片段同源，从而使得这两个基因组同源序列的存在允许整合构建体与所述细胞在该预先确定的遗传基因座处的基因组序列之间的同源重组。在一些实施方案中，所述整合构建体是环形构建体，例如，质粒。在一些实施方案中，报道基因编码绿色荧光蛋白(GFP)。在一些实施方案中，两个基因组同源序列中的每一个长度为约100-5000个、200-2500个或500-1500个核苷酸，优选长度为1000个核苷酸。在一些实施方案中，整合构建体中的启动子与报道基因异源(即，取自两个不同的物种或已经被重组修饰过)。在一些实施方案中，用于报道基因的第一和第二非功能性编码片段，当没有中断片段而连接在一起时，编码功能性报道基因蛋白。所述中断片段可以是任意长度的，只要其中断报道基因的表达即可。在一些实施方案中，中断序列长度为约10-2000个、15-1000个、20-500个或25-100个核苷酸，优选长度为30个核苷酸。在一些实施方案中，中断片段包含三个终止密码子，其分别在不同的阅读框中，从而完全消除报道基因的表达。在一些实施方案中，预先确定的遗传基因座包含看家基因。

还为第一种类型的基因编辑系统提供供体构建体，其从5′至3′包含第一报道基因同源片段、间隔片段和第二报道基因同源片段。第一和第二报道基因同源片段与整合构建体中用于报道基因的第一和第二非功能性编码片段同源，从而使得这两个报道基因同源片段的存在允许在整合构建体与供体构建体之间的同源重组，从而形成用于功能性报道基因的编码序列。在一些实施方案中，第一和第二报道基因同源片段中的每一个长度为约100-1000个、200-800个或250-500个核苷酸，优选长度为250个、500个或800个核苷酸。在一些实施方案中，间隔片段长度为约10-2000个、15-1000个、20-500个或25-100个核苷酸，例如，长度为30个核苷酸或726个核苷酸。在一些实施方案中，间隔片段编码功能性报道基因蛋白。

本公开内容的另一个方面是包含上文以及也在本申请的多个部分中所述的整合构建体的宿主细胞。所述细胞可以是干细胞或体细胞，并且所述细胞可以是人细胞或动物细胞。在一些实施方案中，所述细胞是人干细胞。在一些实施方案中，所述整合构建体已经结合到细胞的基因组中。在一些实施方案中，所述细胞还包含供体构建体。在一个实施方案中，宿主细胞包括在所有LIG4基因的基因座中具有大的缺失的LO2细胞系，所述大的缺失通过缺乏DNA连接酶IV蛋白的表达而确定。在一个实施方案中，缺乏DNA连接酶IV蛋白的表达可以通过本领域中常规使用的多种方法中的一种确定，例如，通过蛋白质印迹确定。在一个实施方案中，所述宿主细胞可以包括人的体细胞。

进一步公开的是包含所述细胞的组合物，所述细胞包含整合构建体、供体构建体、编码sgRNA的DNA分子和编码Cas9蛋白的DNA分子，所述sgRNA能够与用于报道基因的第一非功能性编码片段或中断片段内的靶位点序列(典型地长度约20个核苷酸的片段，但是可以在约10-50个、15-45个或20-40个核苷酸间变化，例如，约20个、25个或30个核苷酸)杂交。

另外公开了用于检测CRISPR-介导的同源性定向修复途径的试剂盒。其典型地包括这些成分：(1)整合构建体；(2)供体构建体；(3)编码能够与用于报道基因的第一非功能性编码片段或中断片段内的靶位点序列杂交的sgRNA的DNA分子；和(4)编码Cas9蛋白的DNA分子。

还公开了使用第一类型的基因编辑系统的方法。公开了用于检测CRISPR-介导的同源性定向修复途径的方法，所述方法包括下述步骤：(i)使包含整合构建体的细胞与下述接触：供体构建体、编码能够与用于报道基因的第一非功能性编码片段或中断片段内的靶序列位点(例如，约20个核苷酸的片段)杂交的sgRNA的DNA分子、和编码Cas9蛋白的DNA分子；并且(ii)检测由所述报道基因蛋白产生的信号。

公开的另一种方法是鉴定用于CRISPR-介导的同源性定向修复途径的增强剂，其包括下述步骤：(i)在存在和不存在候选化合物的条件下，使权利要求7的细胞与下述接触：权利要求5的供体构建体、编码能够与用于报道基因的第一非功能性编码片段或中断片段内的约20个核苷酸的片段杂交的sgRNA的DNA分子、和编码Cas9蛋白的DNA分子；和(ii)检测由所述报道基因蛋白产生的信号；并且(iii)当与不存在所述化合物相比，在存在所述化合物的条件下检测到更高的报道基因蛋白信号时，确定所述化合物为CRISPR-介导的同源性定向修复途径的增强剂。

对于其中仅发生一次整合事件的第二类型的基因编辑系统，本发明提供包含下述的供体构建体：(1)用于报道基因的编码序列；(2)位于报道基因编码序列的5′端的第一基因组同源片段；和(3)位于报道基因编码序列的3′端的第二基因组同源片段，其中所述第一和第二基因组同源片段与预先确定的基因组序列同源。在一些实施方案中，第一和第二基因组同源片段与在细胞预先确定的遗传基因座的两个基因组序列片段同源，使得这两个基因组同源片段的存在允许在所述供体构建体与所述细胞在预先确定的遗传基因座的基因组序列之间的同源重组。在一些实施方案中，所述供体构建体是环形构建体，例如，质粒。在一些实施方案中，所述报道基因编码绿色荧光蛋白(GFP)或抗药基因。在一些实施方案中，两个基因组同源片段中的每一个长度约为100-5000个、200-2500个或500-1500个核苷酸，优选长度为1000个核苷酸。在一些实施方案中，所述预先确定的遗传基因座包含看家基因。

本公开内容的另一方面是包含上文并且还在本申请的各个部分中所述的供体构建体的宿主细胞。所述细胞可以是干细胞或体细胞，并且所述细胞可以是人细胞或动物细胞。在一些实施方案中，所述细胞是人干细胞。在优选的实施方案中，所述供体构建体已经结合在细胞的基因组中。在一个实施方案中，所述宿主细胞包括在所有LIG4基因的基因座中具有大的缺失的LO2细胞系，所述基因座中大的缺失是通过缺少DNA连接酶IV蛋白的表达而确定。在一个实施方案中，缺乏DNA连接酶IV蛋白的表达可以通过本领域中常规使用的多种方法中的一种确定，例如，通过蛋白质印迹确定。在一个实施方案中，所述宿主细胞可以包括人的体细胞。

进一步公开的是包含下述的组合物：细胞，供体构建体，编码能够与预先确定的基因组序列的上游或下游非编码序列内的片段(典型地，长度约为20个核苷酸的靶位点序列，但是可以在约10-50个、15-45个或20-40个核苷酸间变化，例如，约20个、25个或30个核苷酸)杂交的sgRNA的DNA分子；和编码Cas9蛋白的DNA分子。

另外，公开用于检测CRISPR-介导的同源定向修复途径的试剂盒。其典型地包括这些成分：(1)供体构建体；(2)编码能够与预先确定的基因组序列的上游或下游非编码序列内的片段杂交的sgRNA的DNA分子；和(3)编码Cas9蛋白的DNA分子。

还提供使用所述供体构建体来检测CRISPR-介导的同源性定向修复途径的方法。所述方法包括下述步骤：(i)使细胞与下述接触：供体构建体，编码能够与预先确定的基因组序列的上游或下游非编码序列内的片段(例如，靶序列位点)杂交的sgRNA的DNA分子，和编码Cas9蛋白的DNA分子；和(ii)检测由报道基因蛋白产生的信号。

另外，公开的是用于鉴定CRISPR-介导的同源性定向修复途径的增强剂的方法，所述方法包括下述步骤：(i)在存在和不存在候选化合物的条件下，使细胞与下述接触：供体构建体、编码能够与预先确定的基因组序列的上游或下游非编码序列内的片段杂交的sgRNA的DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由所述报道基因蛋白产生的信号；并且(iii)当与不存在所述化合物相比，在存在所述化合物的条件下检测到更高的报道基因蛋白信号时，确定所述化合物为CRISPR-介导的同源性定向修复途径的增强剂，并且当与不存在所述化合物相比，在存在所述化合物的条件下检测到更低的报道基因蛋白信号时，确定所述化合物为CRISPR-介导的同源性定向修复途径(homology-directed repairpathway)的抑制剂。

作为第二种类型的基因编辑系统的变型(variation)，公开了包含下述的供体构建体：(1)报道基因的编码序列；和(2)在所述报道基因编码序列的3′端的多聚腺苷酸(polyA)片段，任选地具有一个位于所述报道基因编码序列的5′端或多聚腺苷酸片段的3′端的靶序列位点，或具有两个靶序列位点，其中一个位于所述报道基因编码序列的5′端，另一个位于多聚腺苷酸片段的3′端。优选的构建体形式是环形形式，诸如质粒。在一些实施方案中，所述报道基因编码绿色荧光蛋白(GFP)或抗药基因。

本公开内容的另一个方面是包含上文并且还在本申请的各个部分中所述的供体构建体的宿主细胞。所述细胞可以是干细胞或体细胞，并且所述细胞可以是人细胞或动物细胞。在一些实施方案中，所述细胞是人干细胞。在优选的实施方案中，所述供体构建体已经结合在细胞的基因组中。在一个实施方案中，所述宿主细胞包括在所有LIG4基因的基因座中具有大的缺失(deletion)的LO2细胞系，所述基因座中大的缺失通过缺少DNA连接酶IV蛋白的表达而确定。在一个实施方案中，缺乏DNA连接酶IV蛋白的表达可以通过本领域中常规使用的多种方法中的一种确定，例如，通过蛋白质印迹确定。在一个实施方案中，所述宿主细胞可以包括人的体细胞。

还公开了包含下述的组合物：细胞、供体构建体、编码能够与靶序列位点杂交的sgRNA的DNA分子；和编码Cas9蛋白的DNA分子。

另外，公开用于检测CRISPR-介导的同源定向修复途径的试剂盒。其典型地包括这些成分：(1)供体构建体；(2)编码能够与靶序列位点杂交的sgRNA的DNA分子；和(3)编码Cas9蛋白的DNA分子。

公开了利用这种类型的构建体检测CRISPR-介导的非同源末端连接途径的方法。所述方法包括下述步骤：(i)使细胞与下述接触：这种变型的供体构建体、编码分别能够与所述靶序列位点之一杂交的一种或两种sgRNAs的一种或两种DNA分子、和编码Cas9蛋白的DNA分子；并且(ii)检测由所述报道基因蛋白产生的信号。

另外公开的是使用该种供体构建变型来鉴定CRISPR-介导的非同源末端连接修复途径的增强剂的方法。所述方法包括下述步骤：(i)在存在和不存在候选化合物的条件下，使细胞与下述接触：所述供体构建体、一种或两种编码一种或两种分别能够与所述靶序列位点之一杂交的sgRNAs的DNA分子、和编码Cas9蛋白的DNA分子；并且(ii)检测由所述报道基因蛋白产生的信号；并且(iii)与不存在所述化合物相比，当在存在所述化合物的条件下检测到更高的报道基因蛋白信号时，确定所述化合物为CRISPR-介导的同源性定向修复途径的增强剂，并且与不存在所述化合物相比，当在存在所述化合物的条件下检测到更低的报道基因蛋白信号时，确定所述化合物为CRISPR-介导的非同源末端连接修复途径的抑制剂。在一些实施方案中，步骤(i)中的细胞与编码两种sgRNAs的两种DNA分子接触，所述两种sgRNAs中的一种能够与所述供体构建体内的靶序列位点杂交，并且另一种能够与预先确定的基因组区域中的非编码序列杂交。

作为第二类型的基因编辑系统的另一种变型，公开了这样的供体构建体，其包含：(1)报道基因的编码序列；(2)在所述报道基因编码序列的5′端的双顺反子；(3)在所述报道基因编码序列的3′端的多聚腺苷酸(polyA)片段；(4)位于所述双顺反子元件的5′端的第一基因组同源性片段；和(5)位于所述报道基因编码序列的3′端的第二基因组同源性片段，其中所述第一和第二基因组同源性片段与预先确定的基因组序列同源。在一个实施方案中，位于报道子编码序列的3’端的第二基因组同源性片段是在多聚腺苷酸(polyA)片段的3’端。在一个实施方案中，所述供体构建体还包含在第一基因组同源性片段的5′端或在第二基因组同源性片段的3′端的靶序列位点。构建体的优选形式是环形，诸如质粒。在一些实施方案中，所述报道基因编码绿色荧光蛋白(GFP)或抗药基因。在一些实施方案中，所述双顺反子元件与所述报道基因是异源的。在一些实施方案中，所述预先确定的基因组序列包含看家基因。在一些实施方案中，所述预先确定的基因组序列包含沉默的基因。在一些实施方案中，第一和第二基因组同源性片段中的每一个长度约为100-5000个、200-2500个、500-1500个或优选约1000个核苷酸。在一个实施方案中，所述供体构建体可以包含一个或多个报道基因。在一个实施方案中，所述供体构建体可以包含两个编码两种不同的报道基因的编码序列。在另一个实施方案中，所述供体构建体可以包含两种报道基因。在另一个实施方案中，所述供体构建体可以包含两个拷贝的报道基因，优选在所述供体构建体内的不同方向上包含两个拷贝的报道基因(即，两个定向供体构建体)。在另一个实施方案中，所述供体构建体可以包括单一切割线性化的供体质粒。在另一个实施方案中，所述供体构建体可以包含双切割线性化的构体质粒。在一个实施方案中，所述供体构建体可以进一步包含在所述双顺反子元件的5’端的第一LoxP基因和在所述多聚腺苷酸(polyA)片段的3’端的第二LoxP序列。

本公开内容的另一个方面是包含上文并且还在本申请的各个部分中所述的供体构建体的宿主细胞。所述细胞可以是干细胞或体细胞，并且所述细胞可以是人细胞或动物细胞。在一些实施方案中，所述细胞是人干细胞。在优选的实施方案中，所述供体构建体已经结合在细胞的基因组中。在一个实施方案中，所述供体构建体可以进一步包含在第一基因组同源性片段的5′端或在第二基因组同源性片段的3′端的靶序列位点。在一个实施方案中，所述宿主细胞包括在所有LIG4基因的基因座中具有大的缺失的LO2细胞系，所述基因座中大的缺失通过缺少DNA连接酶IV蛋白的表达而确定。在一个实施方案中，缺乏DNA连接酶IV蛋白的表达可以通过本领域中常规使用的多种方法中的一种确定，例如，通过蛋白质印迹确定。在一个实施方案中，所述宿主细胞可以包括人的体细胞。

另外公开的是包含下述的组合物：细胞，供体构建体，编码能够与预先确定的基因组序列的上游或下游非编码序列内的片段杂交的sgRNA的DNA分子；和编码Cas9蛋白的DNA分子。

还公开使用这种类型的构建体来检测CRISPR-介导的非同源末端连接途径的方法。所述方法包括下述步骤：(i)使细胞与下述接触：这种变型的供体构建体，编码一种或两种分别能够与靶序列位点中的一个杂交的sgRNA的一种或两种DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由报道基因蛋白产生的信号。

公开了使用这种类型的构建体平行检测CRISPR-介导的同源性定向修复和非同源末端连接途径的方法，所述方法包括下述步骤：(i)使细胞与下述接触：上述供体构建体，编码能够与预先确定的基因组序列的上游或下游非编码序列内和供体构建体内的片段杂交的sgRNA的DNA分子，和编码Cas9蛋白的DNA分子；其中不存在编码能够与所述供体构建体杂交的sgRNA的DNA分子涉及(pertain to)同源性定向修复途径，并且包括编码能够与所述供体构建体杂交的sgRNA的DNA分子涉及非同源末端连接修复途径；并且(ii)检测由报道基因蛋白产生的信号。

公开了使用这种类型的构建体鉴定CRISPR-介导的同源性定向修复途径的增强剂的方法，所述方法包括下述步骤：(i)在存在和不存在候选化合物的条件下，使细胞与下述接触：上述供体构建体，编码能够与预先确定的基因组序列的上游或下游非编码序列内的片段杂交的sgRNA的DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由所述报道基因蛋白产生的信号；并且(iii)当与不存在所述化合物相比，在存在所述化合物的条件下检测到更高的报道基因蛋白信号时，确定所述化合物为CRISPR-介导的同源性定向修复途径的增强剂，并且当与不存在所述化合物相比，在存在所述化合物的条件下检测到更低的报道基因蛋白信号时，确定所述化合物为CRISPR-介导的同源性定向修复途径的抑制剂。

作为第二种类型的基因编辑系统的另一种变型，公开了这样的供体构建体，其包含：(1)报道基因的编码序列；(2)在所述报道基因编码序列的5′端的通用且组成型的启动子；(3)在所述报道基因编码序列的3′端的多聚腺苷酸(polyA)片段；(4)位于所述通用且组成型的启动子的5′端的第一基因组同源性片段；和(5)位于所述报道基因编码序列的3′端的第二基因组同源性片段，其中所述第一和第二基因组同源性片段与预先确定的基因组序列同源。在一个实施方案中，位于报道子编码序列的3’端的第二基因组同源性片段在所述多聚腺苷酸(poly A)片段的3’端。在一个实施方案中，所述供体构建体还包含在第一基因组同源性片段的5′端或在第二基因组同源性片段的3′端的靶序列位点。构建体的优选形式是环形，诸如质粒。在一些实施方案中，所述报道基因编码绿色荧光蛋白(GFP)或抗药基因。在一些实施方案中，所述通用且组成型的启动子与所述报道基因是异源的。在一些实施方案中，所述预先确定的基因组序列包含看家基因。在一些实施方案中，所述预先确定的基因组序列包含沉默的基因。在一些实施方案中，第一和第二基因组同源性片段中的每一个长度约为100-5000个、200-2500个、500-1500个、或优选约1000个核苷酸。

公开了使用这种类型的构建体检测CRISPR-介导的非同源末端连接途径的方法。所述方法包括下述步骤：(i)使细胞与下述接触：这种变型的供体构建体，编码能够杂交到在预先确定的基因组序列的上游或下游非编码序列内的片段的sgRNA的DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由报道基因蛋白产生的信号。

还公开使用这种类型的构建体检测在沉默的基因组基因座中CRISPR-介导的同源性定向报道子敲入的方法，所述方法包括下述步骤：(i)使细胞与下述接触：上文所述的供体构建体，编码能够与预先确定的基因组序列的上游或下游非编码序列内的片段杂交的sgRNA的DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)在多次传代后，检测由报道基因蛋白产生的信号。在一个实施方案中，多次传代是指不少于5代。

公开了使用这种类型的构建体用于CRISPR-介导的同源性定向修复途径的方法，所述方法包括下述步骤：(i)在存在和不存在候选化合物的条件下，使细胞与下述接触：上述供体构建体，编码能够与预先确定的基因组序列的上游或下游非编码序列内的片段杂交的sgRNA的DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由所述报道基因蛋白产生的信号；并且(iii)当与不存在所述化合物相比，在存在所述化合物的条件下检测到更高的报道基因蛋白信号时，确定所述化合物为CRISPR-介导的同源性定向修复途径的增强剂，并且当与不存在所述化合物相比，在存在所述化合物的条件下检测到更低的报道基因蛋白信号时，确定所述化合物为CRISPR-介导的同源性定向修复途径的抑制剂。

作为第二种类型的基因编辑系统的另一种变型，公开了这样的供体构建体，其包含：(1)报道基因的编码序列；(2)在所述报道基因编码序列的5′端的双顺反子元件；(3)在所述报道基因编码序列的3′端的多聚腺苷酸(polyA)片段，任选地具有位于所述报道基因编码序列的5′端的一个靶序列位点，或具有两个靶序列位点，一个位于所述报道基因编码序列的5′端并且另一个位于所述多聚腺苷酸(polyA)片段的3′端。构建体的优选形式是环形，诸如质粒。在一些实施方案中，所述报道基因编码绿色荧光蛋白(GFP)或抗药基因。在一些实施方案中，所述双顺反子元件与所述报道基因是异源的。在一个实施方案中，所述供体构建体还包含位于所述双顺反子元件的5’端的第一基因组同源性片段；和位于所述报道基因的3’端的第二基因组同源性片段，其中所述第一和第二基因组同源性片段与预先确定的基因组序列同源。在一些实施方案中，所述预先确定的基因组序列包含看家基因。在一些实施方案中，所述预先确定的基因组序列包含沉默的基因。在一些实施方案中，第一和第二基因组同源性片段中的每一个长度约为100-5000个、200-2500个、500-1500个或优选约1000个核苷酸。在一个实施方案中，所述供体构建体可以包含一种或多种报道基因。在一个实施方案中，所述供体构建体可以包含编码两种不同的报道基因的两个编码序列。在另一个实施方案中，所述供体构建体可以包含两种报道基因。在另一个实施方案中，所述供体构建体可以包含两个拷贝的报道基因，优选在所述供体构建体内的不同方向上包含两个拷贝的报道基因(即，两个定向的供体构建体)。在另一个实施方案中，所述供体构建体可以包括单一切割线性化的供体质粒。在另一个实施方案中，所述供体构建体可以包含双切割线性化的构体质粒。在一个实施方案中，所述供体构建体可以进一步包含在所述双顺反子元件的5’端的第一LoxP序列和在所述多聚腺苷酸(polyA)片段的3’端的第二LoxP序列。

本公开内容的另一个方面是包含上文并且还在本申请的各个部分中所述的供体构建体的宿主细胞。所述细胞可以是干细胞或体细胞，并且所述细胞可以是人细胞或动物细胞。在一些实施方案中，所述细胞是人干细胞。在优选的实施方案中，所述供体构建体已经结合在细胞的基因组中。在一个实施方案中，所述供体构建体还包含两个靶序列位点，一个位于所述报道基因编码序列的5′端，并且另一个位于所述多聚腺苷酸(polyA)片段的3′端。在一个实施方案中，所述宿主细胞包括在所有LIG4基因的基因座中具有大的缺失的LO2细胞系，所述基因座中大的缺失通过缺少DNA连接酶IV蛋白的表达而确定。在一个实施方案中，缺乏DNA连接酶IV蛋白的表达可以通过本领域中常规使用的多种方法中的一种确定，例如，通过蛋白质印迹确定。在一个实施方案中，所述宿主细胞可以包括人的体细胞。

另外公开的是包含下述的组合物：细胞，供体构建体，编码一种或两种分别能够与所述靶序列位点中的一个杂交的sgRNA的一种或两种DNA分子；和编码Cas9蛋白的DNA分子。

另外，公开用于检测CRISPR-介导的同源定向修复途径的试剂盒。其典型地包括这些成分：(1)供体构建体；(2)编码一种或两种分别能够与所述靶序列位点中的一个杂交的sgRNA的一种或两种DNA分子；和(3)编码Cas9蛋白的DNA分子。

还公开使用这种类型的构建体来检测CRISPR-介导的非同源末端连接途径的方法。所述方法包括下述步骤：(i)使细胞与下述接触：这种变型的供体构建体，编码一种或两种分别能够与靶序列位点中的一个杂交的sgRNAs的一种或两种DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由报道基因蛋白产生的信号。

公开了使用这种类型的构建体鉴定CRISPR-介导的非同源末端连接修复途径的增强剂的方法，所述方法包括下述步骤：(i)在存在和不存在候选化合物的条件下，使细胞与下述接触：上述供体构建体，编码一种或两种分别能够与靶序列位点中的一个杂交的sgRNA的一种或两种DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由所述报道基因蛋白产生的信号；并且(iii)当与不存在所述化合物相比，在存在所述化合物的条件下检测到更高的报道基因蛋白信号时，确定所述化合物为CRISPR-介导的同源性定向修复途径的增强剂，并且当与不存在所述化合物相比，在存在所述化合物的条件下检测到更低的报道基因蛋白信号时，确定所述化合物为CRISPR-介导的同源性定向修复途径的抑制剂。

在第二种类型的基因编辑系统的另一种变型中，公开了这样的供体构建体，其包含：(1)报道基因的编码序列；(2)在所述报道基因编码序列的5′端的通用且组成型的启动子；和(3)在所述报道基因编码序列的3′端的多聚腺苷酸(polyA)片段，任选地具有位于所述报道基因编码序列的5′端的一个靶序列位点，或具有两个靶序列位点，一个位于所述报道基因编码序列的5′端并且另一个位于所述多聚腺苷酸(polyA)片段的3′端。构建体的优选形式是环形，诸如质粒。在一些实施方案中，所述报道基因编码绿色荧光蛋白(GFP)或抗药基因。在一些实施方案中，所述通用且组成型的启动子与所述报道基因是异源的。在一个实施方案中，所述供体构建体还包含位于所述通用且组成型的启动子的5’端的第一基因组同源性片段；和位于所述报道基因的3’端的第二基因组同源性片段，其中所述第一和第二基因组同源性片段与预先确定的基因组序列同源。在一些实施方案中，所述预先确定的基因组序列包含看家基因。在一些实施方案中，所述预先确定的基因组序列包含沉默的基因。在一些实施方案中，第一和第二基因组同源性片段中的每一个长度约为100-5000个、200-2500个、500-1500个或优选约1000个核苷酸。在一个实施方案中，所述供体构建体是恒定表达构建体(constant expression construct)，诸如CE NH-供体。

本公开内容的另一个方面是包含上文并且还在本申请的各个部分中所述的供体构建体的宿主细胞。所述细胞可以是干细胞或体细胞，并且所述细胞可以是人细胞或动物细胞。在一些实施方案中，所述细胞是人干细胞。在优选的实施方案中，所述供体构建体已经结合在细胞的基因组中。在一个实施方案中，所述供体构建体可以进一步包含两个靶序列位点，一个位于所述报道基因编码序列的5′端，并且另一个位于多聚腺苷酸(polyA)片段的3′端。

另外公开的是包含下述的组合物：细胞，供体构建体，一种或两种编码一种或两种分别能够与所述靶序列位点中的一个杂交的sgRNA的DNA分子；和编码Cas9蛋白的DNA分子。

另外，公开了用于检测CRISPR-介导的同源定向修复途径的试剂盒。其典型地包括这些成分：(1)供体构建体；(2)编码分别能够与所述靶序列位点中的一个杂交的一种或两种sgRNA的一种或两种DNA分子；和(3)编码Cas9蛋白的DNA分子。

公开了使用这种类型的构建体来检测CRISPR-介导的非同源末端连接途径(non-homologous end joining pathway)的方法。所述方法包括下述步骤：(i)使细胞与下述接触：这种变型的供体构建体，编码分别能够与靶序列位点中的一个杂交的一种或两种sgRNA的一种或两种DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由报道基因蛋白产生的信号。在一个实施方案中，步骤(i)中的细胞与编码两种sgRNA的两种DNA分子接触，其中一种sgRNA能够与所述供体构建体内的靶序列位点杂交，并且第二sgRNA能够与预先确定的基因组区域内的非编码序列杂交。

公开了使用这种类型的构建体来鉴定CRISPR-介导的非同源末端连接修复途径的增强剂的方法，所述方法包括下述步骤：(i)在存在和不存在候选化合物的条件下，使细胞与下述接触：上述供体构建体，编码各自能够与所述靶序列位点中的一个杂交的一种或两种sgRNA的一种或两种DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由所述报道基因蛋白产生的信号；并且(iii)当与不存在所述化合物相比，在存在所述化合物的条件下检测到更高的报道基因蛋白信号时，确定所述化合物为CRISPR-介导的同源性定向修复途径的增强剂，并且当与不存在所述化合物相比，在存在所述化合物的条件下检测到更低的报道基因蛋白信号时，确定所述化合物为CRISPR-介导的同源性定向修复途径的抑制剂。

作为第二种类型的基因编辑系统的另一种变型，公开了这样的供体构建体，其包含：(1)第一报道基因的编码序列；(2)第二报道基因的编码序列；(3)位于第一报道基因编码序列的3′端的多聚腺苷酸(PolyA)片段；(4)位于第二报道子的3’端的多聚腺苷酸(PolyA)片段；其中所述第一和第二报道基因的第一和第二编码序列处在不同的方向；和(5)位于第二报道基因的5’端的靶序列位点。在一个实施方案中，上述供体构建体包含在非定向整合后能够表达第一或第二报道基因的双色供体构建体。在一个实施方案中，由所述供体构建体表达的报道基因依赖于供体构建体在整合后的方向。

公开了使用这种类型的构建体检测CRISPR-介导的非同源末端连接途径的方法。所述方法包括下述步骤：(i)使细胞与下述接触：上述供体构建体，编码能够与靶序列位点杂交的sgRNA的DNA分子；和编码Cas9蛋白的DNA分子；并且(ii)检测由报道基因蛋白产生的信号。

按照一个方面，提供用于利用CRISPR/Cpf1通过非同源末端连接介导单向优选的敲入的供体构建体、方法和系统。在一个实施方案中，公开了CRISPR/Cpf1供体构建体，其包含：(1)报道基因的编码序列；(2)在所述报道基因编码序列的5′端的双顺反子元件；(3)在所述报道基因编码序列的3′端的多聚腺苷酸(polyA)片段；和(4)位于所述双顺反子元件的5′端的靶序列位点；其中在所述双顺反子元件5’端的靶序列位点在经受Cpf1时能够产生错开的(staggered)DNA双链断裂。

在一个实施方案中，本发明还提供用于检测CRISPR/Cpf1-介导的NHEJ修复途径的方法，所述方法包括下述步骤：(i)使细胞与下述接触：上述供体构建体，编码能够与靶序列位点杂交的sgRNA的DNA分子；和编码Cpf1蛋白的DNA分子；并且(ii)检测由报道基因产生的信号。

按照一个方面，提供用于向多个基因组等位基因中非同源末端连接整合多种报道基因的构建体、方法和系统。在一个实施方案中，公开了这样的供体构建体，其包括多个分别具有不同报道基因的编码序列的供体构建体；(2)位于每种报道基因编码序列的5′端的靶序列位点；和(3)位于报道基因编码序列的3′端的多聚腺苷酸(polyA)片段。在一个实施方案中，所述供体构建体还包含在多个供体构建体中的每一个中的不同的荧光报道基因。在另一个实施方案中，所述供体构建体还包含在多个供体构建体中的每一个中的不同的抗药报道基因。在另一个实施方案中，人隔离子(insulator)序列的串联重复作为阻断元件，以减少在sg-A靶序列位点的5′端的靶基因的表达，所述sg-A靶序列位点位于报道基因编码序列的5′端。

在一个实施方案中，提供了用于检测CRISPR-介导的非同源末端连接的方法，所述方法包括下述步骤：(i)使细胞与下述接触：供体构建体(其中所述供体构建体包括多个供体构建体，其分别具有不同报道基因的编码序列，位于每种报道基因编码序列的5′端的靶序列位点，和位于报道基因编码序列的3′端的多聚腺苷酸(polyA)片段)，编码能够与靶序列位点杂交的sgRNA的DNA分子和编码Cas9蛋白的DNA分子；并且(ii)检测由报道基因蛋白产生的信号。

附图简述

图1断裂GFP报道质粒设计和在靶基因座HDR-介导的PGK-Puro2a(B)cGFP敲入的靶向策略的示意图。(A)在HEK293T-AAVS1(b)GFP和H1-(b)GFP报道细胞系中靶向人AAVS1基因组基因座。(B)在E14-Rosa26(B)cGFP报道细胞系中靶向小鼠Rosa26基因座。

图2在基因组上敲入断裂的GFP报道基因座的供体质粒设计和靶向策略的示意图

。(A)(B)cGFP供体-HDR.1-3。(B)(B)cGFP供体-HDR.A-B。

图3在HEK293T-AAVS1(b)GFP报道细胞系中由Cas9系统诱导的HDR-介导的基因靶向。(A)使用基因组DNA的PCR证实PGK-Puro2a(B)cGFP报道载体在基因组上AAVS1基因座的敲入。(B)T7E1测定显示Cas9/sg-X靶向基因组的效率。(C)FACS结果显示由切口酶Cas9D10A和野生型Cas9(wtCas9)与sg-X组合诱导的(B)cGFP供体-HDR.1-3的HDR-介导的敲入。(D)FACS结果显示由切口酶Cas9D10A和野生型Cas9(wtCas9)与sg-Y组合诱导的(B)cGFP供体-HDR.B的HDR-介导的敲入。

图4报道载体基因组整合到H1-(b)GFP报道系(reporter line)中和Cas9系统诱导的DSB。(A)使用基因组DNA的PCR证实PiggyBac_(B)cGFP报道载体在基因组上AAVS1基因座的敲入。(B)T7E1测定显示Cas9/sg-X的基因组DSB效率。

图5直接检测CRISPR/Cas9-诱导的HDR-介导的报道子在GAPDH 3’-UTR的插入的系统的设计。(A)上图显示sg-1-4靶向的位点、用于T7E1测定的引物对和在T7E1测定中使用不同的sgRNAs的预测的切割图谱的示意图。中间图显示在mTeSR1培养基中在基质胶(Matrigel)上培养的H1人ESCs，并且T7E1测定显示在人H1 ESC(上部图)和所选的体细胞系(下部图)中Cas9/sg-1、2或3的基因组靶向效率。下图：T7E1测定显示在所选的人体细胞系中Cas9/sg-1的基因组靶向效率。(B)sg-1-3靶向位点、供体质粒设计和在GAPDH外显子9中HDR-介导的2a-copGFP报道子敲入的靶向策略的示意图。虚线显示在基因组基因座和质粒DNA之间的同源性部分。显示了用于检测报道子敲入的PCR引物的位置。

图6在不同的人细胞系中，HDR-介导的GAPDH供体-HDR.1基因靶向的变化的频率。(A)FACS结果显示使用或不使用sg-1在人细胞系LO2和HK2中HDR-介导的2a-copGFP敲入的变化频率。将供体质粒和野生型Cas9转染到所有样品中。从Cas9/sg-1靶向的细胞分选GFP+细胞(在每幅图中在虚线右侧门控的(gated)绿色信号)用于进一步的分析。(B)使用从a得到的GFP+细胞分离的基因组DNA进行PCR。引物结合位点在a中表示。在通过HDR将2a-copGFP整合到基因组中后，引物对XJ-45/46扩增5’-连接(1350bp)和XJ-47/48检测3’-连接(1473bp)。引物XJ-45/48扩增两个DNA片段，其代表野生型(2480bp)和修饰的等位基因(3241bp)。所有的PCR分析以预测的尺寸扩增DNA片段，表明2a-copGFP通过HDR正确整合到基因组中。(C)从这些连接(junction)扩增的PCR片段的测序结果。检测到在5’和3’-连接中的预测的修饰，这表明2a-copGFP通过Cas9/sg-1-诱导的DSBs的HDR-介导的修复的精确整合。(D)H1人ESCs和不同的人的体细胞系的FACS分析，显示在存在野生型(wt)或D10A Cas9和sg-1的条件下HDR-介导的2a-copGFP的整合。将细胞样品用Cas9/sgRNAs和供体质粒共转染，并在转染后四天进行分析。

图7NHEJ修复介导报道基因向CRISPR/Cas9-诱导的DSBs中的有效的插入。(A)供体质粒设计和NHEJ介导的ires-eGFP报道子在GAPDH 3’-UTR的插入的靶向策略的示意图。产生两个NHEJ-供体质粒。一个质粒在ires-eGFP报道子(GAPDH供体-NHEJ.1)的5’携带单个sg-A靶位点，另一个质粒在ires-eGFP(GAPDH供体-NHEJ.2)的5’和3’两侧携带两个sg-A靶位点。(B)在LO2细胞中的FACS分析显示在存在野生型或切口酶D10A Cas9的条件下，由供体和sgRNAs的不同组合诱导的NHEJ-介导的ires-eGFP报道子的插入。(C)对于用sgl、sg-2或sg-3、用GAPDH供体-NHEJ.1或GAPDH供体-NHEJ.2转染的GFP+细胞都通过基因组PCR进行分析。用于连接(junction)检测的引物对显示在(A)中。PCR扩增显示在预测尺寸的DNA片段，这表明ires-eGFP供体在GAPDH 3’-UTR的正确整合。(D)上图显示在GAPDH基因组基因座中的sg-1、2和3靶位点、在单一切割供体GAPDH供体-NHEJ.1中的sg-A靶位点和在基因组与供体DNA之间切割与重新连接的位置的示意图。下图显示来自通过GAPDH供体-NHEJ.1产生的GFP+细胞的连接PCRs(在C中，上图)的测序结果。分别分析Cas9/sg-A/sg-1、2或3诱导的整合的5’-和3’-连接。在每个连接中，显示了多个测序结果。在连接序列中，不同sgRNA靶位点和PAMs的核苷酸以不同颜色表示：绿色表示sg-1，蓝色表示sg-2，橙色表示sg-3，并且紫色表示sg-A。来自供体模板的序列用灰色显示，基因组DNA用黑色显示。这些结果表明供体在预测的sgRNA靶位点的插入以及在5’和3’-连接中的频繁插入/缺失(indels)。(E)上图显示GAPDH基因组基因座中的sg-1、2和3靶位点、双切割供体中的sg-A靶位点和基因组与供体之间的切割和重新连接的位置的示意图。下图显示来自用GAPDH供体-NHEJ.2产生的GFP+细胞的连接PCRs的测序结果(在C中，下图)。分别分析Cas9/sg-A/sg-1、2或3诱导的整合的5’-和3’-连接。在每个连接中，显示了多个测序结果。在连接序列中，不同sgRNA靶位点和PAMs的核苷酸用不同的颜色显示：绿色表示sg-1，蓝色表示sg-2，橙色表示sg-3，并且紫色表示sg-A。来自供体模板的序列用灰色显示，基因组DNA用黑色显示。这些结果证实供体在预测的sgRNA靶位点的插入，并且在5’和3’-连接二者中都发现频繁的插入/缺失。

图8基因组PCR检测非GFP表达整合中的基因组与供体片段的重新连接。(A)示意图显示使用单一切割供体GAPDH供体-NHEJ.1(左图)或使用双切割供体GAPDH供体-NHEJ.2(右图)，在NHEJ介导的ires-eGFP报道子敲入过程中可能发生的不同类型的整合。(B)使用基因组DNA的PCR检测表示供体与片段的非GFP表达整合的连接片段。

图9不同人细胞系中的NHEJ和HDR-靶向的比较。(A)示意图显示sg-1-4靶向位点以及它们在GAPDH供体-HDR.2和基因组中的位置。基因组中在GAPDH外显子9中的同源臂区用棕色突出显示。(B)在LO2细胞中获得的由用Cas9和sg-1、2、3、4或3&4共转染的GAPDH供体-HDR.2诱导的HDR或NHEJ-介导的插入的FACS结果。(C)FACS结果显示在H1人ESCs中CRISPR/Cas9-诱导的HDR或NHEJ-介导的GAPDH供体-NHEJ.1、GAPDH供体-NHEJ.2或GAPDH供体-HDR.2报道子的插入。GAPDH供体-NHEJ.1和GAPDH供体-NHEJ.2模板与sg-1或sg-2组合进行检验。GAPDH供体-HDR.2与Cas9/sg-1、2或4组合进行检验。在核染(nucleofection)后四天进行FACS分析。(D)在检验的人ESCs和体细胞系中Cas9/sg-1-诱导的NHEJ和HDR-靶向的总结。显示的数据是GFP+细胞的百分数，表示为平均数±s-e.m.，并且来源于独立的实验(n＝3)。来自人ESCs的数据来源于两次独立的实验(n＝2)。***：p＜0.001；**：p＜0.01；*：p＜0.05；ns：不显著的p＞0.05。(E)上图显示在用Cas9/sg-1诱导的HDR-靶向中的5’-连接的测序结果。第二图显示基因组和GAPDH供体-HDR.2中sg-2和sg-3靶位点以及在用Cas9/sg-2或sg-3经由NHEJ修复诱导的整合过程中的切割和重新连接的位置的示意图。第三图显示5-连接的测序结果。第四图显示在用Cas9/sg-4诱导的整合的5’-连接中的测序结果。下图显示在通过用Cas9/sg-3和sg-4共转染诱导的整合的5’-连接中的测序结果。

图10在H1人ESCs中在OCT4和ACTB 3’-UTR处CRISPR/Cas9-诱导的NHEJ-介导的ires-eGFP报道子敲入。(A)FACS结果显示在H1人ESCs中在OCT43’-UTR处CRISPR/Cas9-偶联的NHEJ-介导的ires-eGFP报道子的整合。将单一切割的NHEJ供体用Cas9/sgOCT4共转染。(B)FACS结果显示在H1人ESCs中在ACTB 3’-UTR处CRISPR/Cas9-偶联的NHEJ-介导的ires-eGFP报道子的整合。将单一切割的NHEJ供体用Cas9/sgACTB共转染。在核染后四天进行FACS分析。GFP+细胞门控在每幅图中虚线右侧。(C)示意图显示在OCT4基因组基因座中sgOCT4靶位点的放大图和使用单一切割供体的CRISPR/Cas9-偶联的基于NHEJ的靶向策略。(D)关于在用单一切割NHEJ供体/Cas9/sgOCT4转染时产生的分选的GFP+细胞中的整合连接的基因组PCR(图3，C)。使用引物F5/R3的PCR检测5’-连接，而使用引物F4/R5的扩增检测在OCT43’-UTR处NHEJ-介导的单一切割供体的整合的3’-连接。(E)在B中扩增的整合连接的序列。分别分析5’-和3’-连接。对于每个连接，显示了多个序列。不同sgRNA靶位点和PAMs的核苷酸用颜色编码(color-coded)。来自供体模板的序列用灰色显示，侧邻整合连接的基因组DNA用黑色显示。

图11通过不依赖同源性的敲入方法，无选择地产生敲入克隆。(A)在以低密度接种转染了单一切割的NH-供体/Cas9/sg-A/sg-2或sg-3(未分选)的细胞后10天观察到的单细胞集落的亮视野和荧光图像。在两种样品中都观察到GFP+(白色箭头)和GFP-集落(未标记的)。(B)显示在所选的个体克隆中的GFP表达的荧光图像，所述个体克隆是从转染了单一切割的NH-供体/Cas9/sg-A/sg-2的细胞分离的。(C)从转染了单一切割的NH-供体/Cas9/sg-A/sg-2的细胞分离的13个GFP+克隆的PCR。使用引物F3/R3*检测5’-整合连接；并且示意性显示它们的位置(上图)。此处使用引物R3*替代引物R3以获得最佳的扩增。PCR扩增显示预计尺寸的DNA片段，这表明ires-eGFP报道子在GAPDH 3’-UTR处的正确整合。

图12常规NHEJ修复介导大的报道基因的有效敲入。(A)上图显示在LIG4基因座sgLIG4-i-iv靶标位置的示意图。将这些sgRNAs组合并与Cas9一起共转染到LO2细胞中，以产生LIG4敲除克隆。下图是蛋白质印迹，表明在得到的LIG4无效(null)克隆中丢失DNA连接酶IV，以及通过向这些细胞中转染LIG4cDNA构建体而引入的LIG4表达。(B)LIG4敲除LO2细胞的FACS分析。在野生型和敲除LIG4的LO2细胞中，通过单一切割的NH-供体/Cas9/sg-A/sg-2诱导不依赖同源性的敲入，并且使用2a-copGFP(+HAs)供体/Cas9/sg-2引入基于HDR的敲入。在两种LIG4空克隆#S16和#T8中观察到NH-靶向的急剧减少和LIG4过表达挽救(左图)。在LIG4无效细胞中还观察到HDR敲入的显著增加(右图)。(C)FACS结果表明使用大尺寸供体的NHEJ-介导的敲入。将12k和34k NK-供体与Cas9/sg-A/sg-2一起共转染到野生型LO2细胞中。对照在没有sg-2或sg-A情况下转染。将GFP+细胞门控在每幅图中虚线的右侧。同时，平行转染恒定表达GFP的12k(PB)和34k(AD)GFP-载体；并且在第2天通过FACS检验的转染效率显示在下图中。(D)PCR检测C中转染的细胞(未分选的)中的报道子整合。引物对F3/R3检测整合在GAPDH 3’-UTR处的12k和34k NH-供体的5’-连接。PCR扩增显示预计尺寸的DNA片段。

图13HDR-和NHEJ-介导的报道子敲入之间的比较。(A)显示sg-1-4靶位点以及它们在基因组GAPDH基因座的位置和ires-eGFP(+HAs)供体-1，2，2.A与2.B质粒的设计的放大图的示意图。ires-eGFP(+HAs)供体-1中使用的同源臂(HA)区域用灰色突出显示，在供体-2、2.A和2.B中使用的HAs以紫色突出显示。供体-2.A在3’携带单个sg-A靶位点，供体-2.B在ires-eGFP(+HAs)盒的5’携带一个sg-A靶位点。(B)用ires-eGFP(+HAs)供体-1/Cas9和sg-1、2、3或4转染的LO2细胞的FACS分析。由于在基因组和供体上的不同的靶位点，sg-1诱导了HDR-介导的敲入；sg-2和sg-3诱导了基于NHEJ的敲入；并且sg-4主要通过完整的5’同源臂、经由基于HDR的敲入产生GFP+细胞。(C)FACS分析显示使用环形和线性供体模板的HDR-介导的敲入。ires-eGFP(+HAs)供体-2、2.A或2.B与Cas9/sg-1或Cas9/sg-2一起转染。在sg-A(线性)的存在下以及在不存在sg-A(环形)的条件下，都检验供体-2.A和2.B。Cas9/sg-A在ires-eGFP(+HAs)盒的3’切割供体-2.A，并且线性化的供体2.A通过HDR-介导的敲入产生GFP+细胞。明显地，Cas9/sg-A在ires-eGFP(+HAs)盒的5’切割供体-2.B，并且线性化的供体2.B通过NHEJ-和HDR-介导的两种敲入产生GFP+细胞。(D)FACS结果表明NHEJ-和HDR-介导的在ACTB、SOX17和T基因的基因座的报道子敲入。上图显示分别用于在ACTB和SOX17或T基因的基因座敲入的ires-eGFP和PGK-eGFP报道子的示意图。单一切割的NH-供体与Cas9/sg-A/sgACTB-i或sgACTB-ii一起共转染以靶向ACTB基因座(左下图，上两排)；而CE NH-供体与Cas9/sg-A/sgSOX17-i、sgSOX17-ii或sgT-i一起共转染，以靶向SOX17或T基因的基因座(右下图，上两排)。将携带ires-eGFP的ACTB HDR-供体和包含PGK-eGFP的SOX17和T HDR-供体与Cas9和相应的sgRNAs一起共转染，以检验基于HDR的敲入(下图，底排)。对照样品在没有基因特异性的sgRNA或sg-A的情况下转染。在转染后第5天进行FACS分析，以进行ACTB基因座的检测。在FACS分析之前，将转染了包含PGK-eGFP的供体的细胞(用于在SOX17和T基因座的检测)维持五代。将GFP+细胞门控在每幅图中虚线的右侧。(E).FACS结果表明在检验的多种体细胞系中Cas9/sg-1诱导的、HDR介导的报道子敲入。检验了野生型和携带D10A突变的切口酶Cas9二者。

图14 NHEJ-介导的在沉默的基因组基因座的报道子敲入。(A)FACS结果表明在OCT4、NANOG、T和PAX6基因的基因座的多个位置NHEJ-介导的PGK-eGFP报道子的敲入。将CENH-供体与Cas9和相应的sgRNAs、与或不与sg-A一起共转染到LO2细胞中。在FACS分析之前，将转染的细胞维持五代。将GFP+细胞门控在每幅图中虚线的右侧。(B)LO2细胞中OCT4、NANOG、ACTB、GAPDH、SOX17、T和PAX6基因的表达的qRT-PCR分析。包括表达OCT4和NANOG的H1人ESCs和表达SOX17、T和PAX6的分化的细胞作为参比。所示的数据为平均数±s.d.，n＝3。

图15在具有loxp位点的沉默基因的基因座的不依赖同源性的敲入。(A)在沉默基因的基因座，Cas9诱导的不依赖同源性的敲入的示意图。内源性sgRNA诱导基因组DSBs，并且sg-A诱导对供体质粒的切割。用于沉默基因靶向的NH-S供体4包含用于敲入选择的PGK-eGFP-pA盒、用于报道子应用的ires-td Tomato-pA和用于在荧光选择后缺失不需要的部分的LoxP位点。NH-S供体1、2和3具有类似的功能目的。(B)NH-S供体4用于在GADPH 3’-UTR基因座的报道子敲入。流量监视显示关于td-Tomato表达的阳性信号，其表示成功的敲入，并且表明该种类型的供体的功能性作用。(C)进行NH-S供体4的流式分析以检测在Soxl和Foxa2位点的3’-UTR的敲入。与对照组相比，高得多的GFP阳性比率表示在该位点的成功的敲入。

图16报道基因的不依赖同源性的双色插入敲入。(A)Cas9诱导的NHEJ-介导的两次定向(two directional)荧光敲入的示意图。内源性的sgRNA诱导基因组DSBs，并且sg-A诱导在供体质粒上的切割。两次定向荧光供体包含用于报道子应用的eGFP-pA盒与TDtomato-pA盒。NHEJ-介导的非定向整合包括两次定向敲入。使用该新的供体，一次定向整合可以产生eGFP表达(图16，A，左侧)，并且另一次定向整合可以产生TD tomato表达(图16，A，右侧)。(B)使用靶向GAPDH 5’-UTR的SgGAPDH介导非定向整合。利用流式分析进行敲入检测。使用该两次定向荧光供体，Cas9/sg-A/sgGAPDH介导的敲入产生GFP+/TD-、GFP-/Td+和GFP+/TD+细胞群，这表明该新的供体对于非定向整合的功能性作用。

图17向基因组中CPF1-诱导的DSBs中不依赖同源性敲入报道基因。(A)在GAPDH基因座的3’-UTR，CPF1诱导的不依赖同源性的敲入的示意图。sgGAPDH靶向内源性GAPDH基因座，并且sg-A诱导供体质粒的切割。使用两个供体，即，互补性供体(C供体)和非互补性供体(NC供体)。(B)FACS分析显示由CPF1-诱导的DSBs介导的报道子整合。spCas9诱导的NHEJ介导的敲入作为阳性对照。使用C供体的CPF1产生比使用NC供体介导的(2.69％)高得多的敲入效率(7.04％)，这表明优选的定向整合。

图18在多个基因组等位基因上的一个靶基因中不依赖同源性敲入多种报道基因。(A)通过Cas9诱导的NHEJ-介导的敲入的多个等位基因敲除策略的示意图。内源性sgRNA在内源性基因的基因座的5’-UTR诱导基因组DSBs，并且sg-A诱导供体质粒的切割。提供多种供体质粒用于同时敲入。整合了不同的报道子，被靶向的细胞表现出不同的荧光颜色或抗药性。这意味着NH-隔离子供体eGFP敲入表达GFP，NH-隔离子供体TD Tomato敲入表达TDtomato，NH-隔离子供体puro和NH-隔离子供体Hygro分别表现出嘌呤霉素和潮霉素抗性。(B)关于在MRE11基因座的靶向结果的流式分析，所述靶向使用NH-隔离子供体eGFP和NH-隔离子供体tdTomato二者。GFP或tdTomato(单)-阳性细胞表示至少一种等位基因被修饰(图18，右图)。双阳性细胞群体表示那些细胞在两个等位基因中携带敲入。

表1.sgRNAs结合的DNA序列。

表2.用于靶向GAPDH基因座的sgRNAs的潜在的脱靶位点。

表3.用于克隆和整合检测的引物。

发明详述

I.介绍

基因靶向允许能够在活细胞内用设计的供体模板替换内源性基因组DNA片段，允许引入宽范围的设计的改变[1]。自二十世纪八十年代以来，该技术已经广泛地用于产生遗传修饰的小鼠，变成在活的哺乳动物中分析基因功能的基本和首要的工具[2]。基于该技术的大量基因的广泛研究已经在涉及哺乳动物发育、机制和遗传病的基因调控的许多方面刷新了我们的理解[3]。

研究人细胞长期需要基因组编辑工具，特别是在最近关于产生人多能干细胞(hPSCs)(包括人胚胎干细胞(ESCs)和人诱导的多能干细胞(iPSCs))的技术的广告之后[4，5]。这些细胞能够强健地自我更新，同时在培养物中保持多能性。由此，它们拥有提供产生临床移植所需的几乎任何功能细胞类型的无限和自体资源的巨大潜力[6]。然而，驾驭这些细胞的完全的潜能需要有效的基因靶向，目前这是不能实现的，但是，对于在进一步考虑临床应用之前了解涉及种系定型(lineage commitment)的基因调节、修正患者iPSCs中引起疾病的突变或消除人ESCs中潜在的免疫刺激性抗原是重要的[7，8]。

在最近两年内，已经建立的一种新的内切核酸酶系统，即，成簇的规律间隔性短回文重复(clustered regularly interspaced short palindromic repeat，CRISPR)和CRISPR相关的9(Cas9)，来介导精确的同源重组(HR)，并且用于报道子敲入、基因敲除和基因修正[9-11]。在CRISPR/Cas9系统中，小的导向RNA(sgRNA)与Cas9核酸酶通过在其3’端的支架结构缔合。sgRNA以碱基配对方式退火到基因组DNA中的靶序列(典型地约20个核苷酸)上，其邻近5′-NGG-3′原间隔区相邻的基序(protospacer adiacent motifs，PAM)。随后，在存在于PAM的3-bp上游处的靶标DNA处引入双链DNA断裂(DSB)。与其他DSBs相似，CRISPR/Cas9系统通过两种不同的机制引发DNA修复过程，包括非同源末端连接(NHEJ)和同源性定向的修复(HDR)途径。

NHEJ途径通过经由机制灵活的过程连接断裂的末端而修复DNA DSBs。其通常导致随机的小的插入或缺失(插入/缺失)，由此其是易错的[12]。已经利用CRISPR/Cas9-引入的DNA切割之后的NHEJ修复在编码蛋白的基因中产生功能缺失的等位基因[13]，但是认为，当需要靶向插入大片段时，这具有有限的潜力。另一方面，HDR途径介导链交换过程，从而基于现有的模板准确修复DNA损伤[14]。提供了用携带同源臂的供体模板精确替代内源性基因组中的DNA片段的途径，由此允许向活细胞中引入宽范围的设计的遗传修饰[1]。

然而，认为低HDR效率是CRISPR/Cas9系统在hPSCs中的临床应用的主要挑战。研究表明，在人ESC/iPSC中的HR表现出低效率，约为10E-5[15]。背后的原因还没有完全理解。另外，尽管由脱靶突变引起的安全性考虑是CRISPR/Cas9系统的另一个挑战，但是一些研究已经研究并推断脱靶突变在hPSC中非常低，由此其不是进一步的研究和临床应用的主要关注问题[2-4]。迄今为止，提高hPSC中精确的CRISPR-介导的基因编辑的效率以满足临床需要是至关重要的和急需的。

在之前的公开内容美国临时专利号62/256,514中，发明人构建了通用报道子系统来检测人ESCs和体细胞系中CRISPR-介导的大DNA片段的基因组整合。本发明的系统靶向编码看家基因GAPDH的基因组基因座，所述看家基因在几乎所有的细胞类型中恒定且普遍表达。该靶向基因座与荧光蛋白(copGFP或eGFP)报道子的组合应用将允许人们直接且实时地观察在所用的任何人细胞类型中的基因靶向事件。数据显示，该报道子系统可以在转染后4-5天内直接稳健地检测HDR-介导的基因靶向，其可以作为用于药物筛选或提高HDR效率以及基于HDR的基因靶向的机制研究的优良的通用平台。

另一方面，通过靶向相同的基因座，本发明人构建了另一种检测NHEJ介导的基因靶向的系统。发现本文所述的系统和靶向策略建立了一种通过NHEJ途径进行基因靶向的新方法。NHEJ靶向的效率高得多，在体细胞系中达到多至20％，并且在人ESCs中达到多至1.7％，无需任何的预先选择或富集步骤。相关的方法和载体构建提供了一种在人细胞中(特别是在人ESCs/iPSCs中)实现高效的基因靶向的有希望且用户友好的工具。更重要的是，本发明的系统可以是通用的，由此具有在多种其他的人细胞类型中以及在其他物种(包括低等脊椎动物，如斑马鱼和青蛙(爪蟾属(Xenopus)))中应用的潜能，在sgRNA的构建中具有较少的改变。

在本发明中，本发明人为Cas9-介导的基因组编辑系统在各种基因组基因座和条件下的应用提供进一步的证据。进一步证明了不依赖同源性的报道子整合的分子基础和效率；并且提供了用于NHEJ-介导的在沉默的基因的基因座处有效的敲入的另外的方法和系统。另外，研究了NHEJ-介导的敲入系统的脱靶效应。

此外，本申请公开了向在GAPDH基因座的3’-UTR处的CPF1-诱导的DSBs中不依赖同源性敲入报道基因的另外的方法和系统，这证明对于定向整合的偏好性。由此，本申请公开了用于使用CRISPR/CPF1通过NHEJ介导的单向优选的敲入的构建体、方法和系统。

本申请还公开了不依赖同源性的报道基因的双色插入敲入的另外的方法、构建体和系统。由此，本申请公开了用于使用CRISPR/Cas9通过NHEJ介导的双向敲入的方法、构建体和系统。

另外，本申请公开了向多个基因组等位基因上的一个靶基因中不依赖同源性敲入多种报道基因的方法和系统，这表明产生单阳性或双阳性的细胞群体。因此，本申请公开了向多个等位基因中NHEJ-介导敲入多种颜色荧光报道基因的构建体、方法和系统。

II.定义

用于本文时，“报道基因”是指编码能够在适当的条件下产生可检测的信号的蛋白产物的多核苷酸序列，所述可检测的信号允许指示报道基因蛋白产物的存在和/或量的检测。

用于本文时，“同源序列”或与参比基因/序列“同源的序列”描述与参比基因/序列的对应片段具有相当程度的序列同一性的多核苷酸序列，例如，与所述参比基因/序列的核苷酸序列至少80，85，90，91，92，93，94，95，96，97，98，99％相同或甚至100％相同，从而，当处在适当条件下时，可以在一对“同源序列”与其参比基因/序列之间发生同源重组。

术语“靶序列”或“靶标DNA序列”，当用于指本发明的基因组序列或多核苷酸构建体(例如，供体质粒)的预先确定的片段时，关于靶序列与其对应的sgRNA之间的百分比序列同一性类似地定义。另一方面，“同源序列”或“靶序列”是确保其目的的适当的长度。典型地，“同源序列”的尺寸范围为约100-1000个、200-800个或250-500个核苷酸(例如，约250个，500个或800个核苷酸长)；而“靶序列”较短，并且在可以在约10-50个、15-45个或20-40个(例如，约20、25或30个)核苷酸的尺寸范围内变化。在一些实施方案中，靶序列包含适合作为Cas9核酸酶的底物的序列(即，核酸酶靶序列位点)。在一些实施方案中，靶序列包含适合作为Cfp1内切核酸酶的底物的序列(即，内切核酸酶靶序列位点)。

术语“异源的”，当用于描述在重组多核苷酸或多肽构建体中彼此邻近存在的两个多核苷酸序列或两个多肽序列之间的关系时，表示这两个序列都不是天然存在的。

用于本文时，术语“启动子”是指能够驱动DNA序列在细胞中的转录的多核苷酸序列。由此，用在本发明的多核苷酸构建体中的启动子包含顺式-和反式-作用转录控制元件和调节序列，它们参与调节或调控基因转录的时机和/或速率。例如，启动子可以是顺式-作用转录控制元件，包括增强子、阻抑物结合序列等。这些顺式-作用序列典型地与蛋白或其他生物分子相互作用以进行(打开/关闭、调节、调控等)基因转录。最经常的，核心启动子序列位于翻译起始位点的1-2kb之内，更经常的，位于翻译起始位点的1kbp之内，并且通常在500bp或200bp或更少之内。按常规，启动子序列通常提供为在其控制的基因的编码链上的序列。在本申请的情形中，启动子典型地由其天然调节表达的基因的名称所称呼。用在本发明的构建体中的启动子由基因的名称称呼。对启动子的名称的提及，包括野生型、天然的启动子以及保留诱导表达的能力的启动子变体。对启动子的名称的提及，不限于特定的物种，而是还包括来自其他物种中相对应的基因的启动子。

术语“可操作性地连接”是指两个以上多核苷酸(例如，DNA)片段之间的功能性关系。典型地，其是指转录调节序列与转录的序列之间的功能性关系。例如，如果启动子刺激或调节DNA或RNA序列在适当的宿主细胞或其他表达系统中的转录，则所述启动子可操作性地连接到DNA或RNA序列。通常，可操作性地连接到转录的序列上的启动子转录调节序列在物理上邻近转录的序列，即，它们是顺式作用的。然而，一些转录调节序列，诸如增强子，不需要在物理上邻近或紧密位于它们增强转录的编码序列的附近。

用于本文时，“中断片段”是指中断报道基因的表达的多核苷酸序列。在一些实施方案中，所述中断片段长度约为10-2000个、15-1000个、20-500个或25-100个核苷酸，优选长度为30个核苷酸。在一些实施方案中，中断片段包含三个终止密码子，它们分别在不同的阅读框中，以完全消除报道基因的表达。

用于本文时，“间隔片段”是指中断报道基因表达的多核苷酸序列。在一些实施方案中，间隔片段长度约为10-2000个、15-1000个、20-500个或25-100个核苷酸，例如，长度为30个核苷酸或726个核苷酸。在一些实施方案中，间隔片段可以编码与属于供体构建体的功能性报道基因不同的功能性报道基因。

用于本文时，“看家基因”是在适当的细胞系中以稳定且可检测的水平连续表达其编码的蛋白的任何基因。优选地，“看家基因”在多种细胞系中连续表达。

用于本文时，词语“约”，当用在描述指定的值的近似值的情形中时，限定包括该值±10％的范围。

用于本文时，“组成型启动子”是指允许其关联的基因在任意适当的宿主细胞或生物体内的连续转录的不调节的启动子(unregulated promoter)。

用于本文时，“通用启动子”是指可以融合在任意靶基因的上游、能够允许其关联的基因在任意适当的宿主细胞或生物体中的转录的启动子。

用于本文时，“双顺反子元件”或“内部核糖体进入位点(ires)元件”是指允许两个编码序列共表达的遗传元件或多核苷酸序列片段。在一些方面中，双顺反子元件能够允许用同一种载体协调表达两种基因。例如，双顺反子元件可以允许使用具有荧光标记的第二基因监视一个基因的递送，或者使用相同的载体表达目的蛋白并同时将其生物素化。在一个方面中，双顺反子元件允许报道基因和抗生素抗性标记的翻译。在一个方面中，双顺反子元件允许报道基因和荧光蛋白的翻译。

术语“表达盒”或“构建体”或“载体”或“供体质粒”是指这样的核酸构建体，即，当引入到宿主细胞中时，其分别导致RNA或多肽的转录和/或翻译。表达盒的一个实例是这样的多核苷酸构建体，其包含可操作性连接到启动子(例如，其天然启动子)上的编码本发明的多肽、蛋白的多核苷酸序列，其中所述表达盒被引入到异源微生物中。在一些实施方案中，表达盒包含编码本发明的多肽的多核苷酸序列，其中所述多核苷酸靶向微生物基因组中的位置，从而使所述多核苷酸序列的表达受所述微生物中存在的启动子的驱动。

术语“宿主细胞”或“细胞”用在本发明的情形中是指微生物，并且包括个体细胞或细胞培养物，它们可以是或已经成为本发明的任意重组载体或分离的多核苷酸的接受体。宿主细胞包括单个宿主细胞的后代，并且，由于天然的、意外的或故意的突变和/或变化，所述后代不必与原始的母代细胞完全相同(在形态上，或在总DNA成分(total DNAcomplement)上)。宿主细胞包括已在其中引入(包括通过转化、转染等)本发明的重组载体或多核苷酸的细胞。

“Cas9”或(CRISPR相关蛋白9)是一种与细菌中、特别是酿脓链球菌中的CRISPR(成簇的规律间隔性回文重复)适应性免疫系统相关的RNA导向的DNA内切核酸酶。酿脓链球菌(S.pyogenes)利用Cas9记忆并且后续审查(interrogate)并切割外源DNA，诸如侵入的噬菌体的DNA。Cas9，与小的导向RNA(sgRNA)复合，通过解开外源DNA并且检查该DNA是否包含与sgRNA的20bp间隔臂区互补的任意序列片段来进行这种审查(interrogation)。如果sgRNA发现所述DNA中的序列互补性，其通过Cas9切割。

“Cpf1”或“CRISPR/Cpf1”是与CRISPR/Cas9系统相似的DNA编辑技术。Cpf1是与细菌中的普雷沃菌属(Prevotella)和弗朗西丝菌属(Francisella)中的CRISPR适应性免疫系统相关的RNA-引导的DNA内切核酸酶。由于Cpf1仅需要一个RNA分子来切割DNA，而Cas9需要两个RNA分子，所以，与Cas9相比，Cpfl是更小且更简单的内切核酸酶。Cpf1是含有1,300个氨基酸的蛋白的V型CRISPR/Cas系统。

用于本文时，“sgRNA”或“小的导向RNA”是指能够与Cas9蛋白形成复合物并且包含与靶DNA序列互补的约20个核苷酸的短RNA分子，从而使得当sgRNA识别靶DNA序列中的互补序列时，Cas9-sgRNA复合物指导靶DNA序列的Cas9切割。因此，sgRNA是特异性针对不可变的构架序列的5’的靶标DNA的约20个碱基的序列(范围在约10-50、15-45或20-40个，例如，15、20、25或30个碱基)。

用于本文时，术语“GAPDH”是本领域技术人员理解的术语，并且意指产生甘油醛3-磷酸脱氢酶的看家基因。GAPDH基因通常在大部分人组织和细胞中以高水平稳定地且组成型表达。因此，GAPDH通常用作蛋白质印迹中的对照以检测蛋白的表达水平或用于qPCR中的对照以检测mRNA表达水平。

用于本文时，术语“AAVS1”是本领域技术人员理解的术语，并且意指人基因组中称为腺相关病毒整合位点1的基因组基因座(还称为PPP1R12C基因座)。其表现出开放的染色质结构，并且，由于其破坏没有功能性后果，已经提议其作为整合的潜在靶标区域[16]。

用于本文时，“ACTB”是本领域技术人员理解的术语，并且意指人基因组中称为β-肌动蛋白的基因组基因做。该基因产生参与细胞运动性、结构和完整性的高度保守的蛋白。

用于本文时，术语“SOX17”是本领域技术人员理解的术语，并且意指人基因组中称为SOX(SRY-相关的HMG-盒)家族成员17的基因组基因座。该基因产生参与胚胎发育的调节和细胞命运的确定的转录因子。

用于本文时，术语“T”是本领域技术人员理解的术语，并且意指人基因组中称为T短尾(brachyury)转录因子的基因组基因座(还称为TFT或SAVA基因座)。由该基因编码的蛋白是结合特定的DNA元件回文T位点(palindromic T-site)的胚胎核转录因子。

用于本文时，术语“OCT4”是本领域技术人员理解的术语，并且意指人基因组中称为POU种类5同源异型框1(POU class 5 homeobox 1，POU5F1)的基因组基因座，其产生作为转录因子的蛋白，所述蛋白包含POU同源结构域，其在胚胎发育和干细胞多能性中起关键作用。

用于本文时，术语“NANOG”是本领域技术人员理解的术语，并且意指人基因组中称为Nanog同源异型框的基因组基因座，其产生作为参与胚胎干(ES)细胞增殖、更新和多能性的DNA结合性同源异型框转录因子。

用于本文时，术语“PAX6”是本领域技术人员理解的术语，并且意指人基因组中称为配对框6的基因组基因座，其产生结合DNA并且作用为转录调节剂的包含同源异型框和配对结构域的蛋白。

用于本文时，术语“SOX1”是本领域技术人员理解的术语，并且意指人基因组中称为SRY-相关的HMG-盒1的基因组基因座，其产生参与胚胎发育的调节和细胞命运的确定的同源异型框转录因子。

用于本文时，术语“FOXA2”是本领域技术人员理解的术语，并且意指人基因组中称为叉头框蛋白(forkhead box protein)A2或转录因子3B或肝细胞核因子3-β的基因组基因座，其编码结合DNA并且作用为转录调节剂的蛋白。

用于本文时，术语“LoxP”是本领域技术人员理解的术语，并且意指称为LoxP1的基因组基因座。Cre-Lox重组系统是用于在DNA中特定位点进行缺失、插入、易位和倒位的位点特异性的重组酶方法。其在真核和原核生物两种系统中实施。Cre-Lox系统由酶，即Cre重组酶组成，其重组一对称为LoxP序列的短的靶序列。LoxP是噬菌体P1上由34bp组成的位点。该位点在两组回文的13bp序列之间包含不对称的8bp序列，该序列除了中间两个碱基之外是可变的。

用于本文时，术语“PGK”是本领域技术人员理解的术语，并且意指磷酸甘油酸酯激酶1的启动子，其在大部分人和小鼠细胞中是有恒定活性的。

用于本文时，术语“puro”是本领域技术人员理解的术语，并且意指编码嘌呤霉素N-乙酰基-转移酶的基因，其存在于链霉菌属(Streptomyces)生产菌株中，并且能够赋予宿主细胞针对培养基中补充的嘌呤霉素抗生素的抗性。

用于本文时，术语“hygro”是本领域技术人员理解的术语，并且意指编码潮霉素B磷酸转移酶的基因，所述潮霉素B磷酸转移酶存在于链霉菌属(Streptomyces)生产菌株中，并且可以赋予宿主细胞针对培养基中补充的针对生素潮霉素的抗性。

用于本文时，术语“2a”是本领域技术人员理解的术语，并且意指编码最初在微小RNA病毒(Picornavirus)(F2a)中鉴定的短的自我切割的肽的DNA序列[17]。

用于本文时，术语“Rosa26”是本领域技术人员理解的术语，并且意指用于在小鼠中组成型的、遍在基因表达的基因[18]。

用于本文时，术语“copGFP”是本领域技术人员理解的术语，并且意指从桡足动物羽小角水蚤(Pontellina plumata)克隆的绿色荧光蛋白(GFP)。copGFP特征在于在宽泛的温度下超亮的绿色荧光(最大激发/发射＝482/502nm)和快速的成熟速率，这导致在冷血动物中的成功的表现。

用于本文时，术语“eGFP”是本领域技术人员理解的术语，并且意指在37℃效率翻番的具有F64L点突变的增强绿色荧光蛋白。因此，eGFP在哺乳动物细胞中导致显著的GFPs表现。

用于本文时，术语“ires”是本领域技术人员理解的术语，并且意指内部核糖体进入位点片段，已知其吸引真核核糖体翻译起始复合物，由此不依赖常用的5′-端7mG帽结构的存在而促进翻译起始。

用于本文时，术语“H1”是本领域技术人员理解的术语，并且意指从人胚泡的内细胞团建立的常用的人胚胎干细胞系。

用于本文时，术语“E14”是本领域技术人员理解的术语，并且意指从近交系小鼠品系129/Ola建立的天然状态的常用的小鼠胚胎干细胞。

用于本文时，术语“LO2”是本领域技术人员理解的术语，并且意指从人的肝组织建立的体细胞无限增殖细胞系。

用于本文时，术语“HK2”是本领域技术人员理解的术语，并且意指从人表皮组织建立的体细胞无限增殖细胞系。

用于本文时，术语“HEK293T”是本领域技术人员理解的术语，并且意指包含SV40大T抗原的人胚肾293细胞(HEK293)的变体。所述抗原允许转染的包含SV40复制起点的质粒的附加型复制，这导致转染的质粒的扩增和需要的基因产物的延长的暂时表达。

用于本文时，术语“BEL-7402”是本领域技术人员理解的术语，并且意指从人肝细胞瘤组织建立的肝细胞癌细胞系。

用于本文时，术语“BEL-7404”是本领域技术人员理解的术语，并且意指从人肝细胞瘤组织建立的肝细胞癌细胞系。

用于本文时，术语“SMMC-7721”是本领域技术人员理解的术语，并且意指从人肝细胞瘤组织建立的肝细胞癌细胞系。

用于本文时，术语“H1299”是本领域技术人员理解的术语，并且意指来源于淋巴结的人非小细胞肺癌细胞系。

用于本文时，术语“HCT116”是本领域技术人员理解的术语，并且意指从人结肠癌组织建立的人结肠癌细胞系。

用于本文时，术语“人隔离子”是本领域技术人员理解的术语，并且意指人基因组中的某种类型的阻断序列，其防止在不同染色质结构域的不同调节元件之间的干扰。

III.靶向的基因组操作系统

本发明的CRISPR/Cas9基因组序列操作系统旨在通用地靶向来源于基本上任意活生物体的基本上任意细胞类型中的基本上任意的基因。这些系统包括基因靶向系统，其需要在宿主细胞基因组中的第一插入事件，在所述宿主细胞基因组中，首先将包含非功能性报道基因的整合构建体引入到靶基因组基因座中。随后，发生第二插入事件，以用完全功能性的报道基因替代所述非功能性报道基因，由此允许报道基因蛋白产物的立即检测和第二插入事件的完成。两个插入事件都是基于多核苷酸构建体与其插入位点之间的核苷酸序列同源性。

在报道基因整合到预先确定的基因组基因座中并检测其表达产物之前，第二基因靶向系统不需要在先的整合事件。在该基因靶向系统中存在两个变型：第一个变型利用报道基因在所选的整合位点处的基于同源性的整合，而第二个变型利用关于报道基因整合的非同源末端连接机制。

在下文中详细描述用于操作这两个系统的重组多核苷酸构建体、细胞、组合物和试剂盒以及这些系统的多种应用。

A.细胞

本发明可以在基本上任意的真核细胞类型中实施，以用于在预先选择的基因组基因座处操作基因组序列的目的。例如，本发明的基因靶向系统可以用于多种人细胞，包括干细胞(例如，胚胎干细胞，多能干细胞，成人干细胞)，或体细胞。来源于其他动物物种，特别是来源于其他哺乳动物(包括灵长类动物)的细胞可以类似地用于遗传操作。

B.涉及两次插入事件的基因靶向系统

本发明的一个基因靶向系统涉及两次插入事件：第一，包含非功能性报道基因的整合构建体(典型地在正常功能性报道基因编码序列的中间放置中断序列片段而导致)通过同源重组的方式插入到预先选择的基因组基因座。第二，包含所述整合构建体的宿主细胞以基于CRISPR/Cas9的方法被靶向，从而用供体构建体提供的功能性报道基因替代所述非功能性报道基因，这允许所述功能性报道基因表达其蛋白产物，以及由此检测成功的整合。

用于第一次整合事件的整合构建体是重组多核苷酸构建体，其包含启动子，从5′至3′所述启动子可操作地连接用于报道基因的第一非功能性编码片段、中断片段和用于报道基因的第二非功能性编码片段。由于存在中断片段，所以非功能性报道蛋白由所述启动子表达。所述中断片段可以是任意长度的任意核苷酸序列，典型地长度为约10-200个、20-100个或20-50个核苷酸。在一个实例中，为了确保没有功能性报道基因蛋白被表达，用于本发明的中断片段长度为30个核苷酸，其被改造以包含三个终止密码子，分别处在不同的阅读框中，其后接sgRNA(sg-X)靶序列。

报道基因是编码允许细胞呈现可检测信号的蛋白的核酸序列。所述能够产生可检测的信号的蛋白的实例包括产生荧光信号或磷光信号的蛋白、在测定中可检测到的蛋白、表现出酶活性的蛋白、和在细胞上或在细胞内可检测的抗原。由所述报道基因编码的蛋白的实例包括荧光蛋白，诸如绿色荧光蛋白(GFP)、人源化的Renilla绿色荧光蛋白(hrGEP)、增强的绿色荧光蛋白(eGFP)、增强的蓝色荧光蛋白(eBFP)、增强的青色荧光蛋白(eCFP)、增强的黄色荧光蛋白(eYFP)和红色荧光蛋白(RFP或DsRed)。由所述报道基因编码的蛋白的更多实例包括生物发光蛋白，诸如萤火虫荧光素酶和Renilla荧光素酶。由所述报道基因编码的蛋白的其他实例包括用于转化化学发光底物的酶，诸如碱性磷酸酶、过氧化物酶、氯霉素乙酰基转移酶和β-半乳糖苷酶。在本发明中，当使用通过光信号(诸如荧光信号或磷光信号)检测的报道基因时，可以在维持细胞的状态下观察到报道基因的表达水平，并且可以容易地选择用于评价的细胞，同时所述细胞是活的。另外，在这样的情形中，报道基因可以用于连续施用测试物质的实验中，并且可以实时追踪所述报道基因的表达水平随时间的变化。由此，利用光信号作为标记的报道基因可以优选地用作本发明的报道基因。

整合构建体可以以多种形式存在。所述构建体的一个实施方案是环形多核苷酸载体，诸如质粒，其中所述载体还包含两个基因组同源序列，其中一个位于启动子的5′端，另一个位于用于报道基因的第二非功能性编码片段的3′端。这两个基因组同源序列设计成与在宿主或接受体细胞的预先确定的遗传基因座的基因组序列的两个片段同源，从而这两个基因组同源序列的存在允许在所述整合构建体与细胞在所述预先确定的遗传基因座的基因组序列之间的同源重组。因此，得到的宿主细胞在其基因组中包含可操作性连接到非功能性报道基因编码序列(即，从5′至3′，用于报道基因的第一非功能性编码片段，中断片段，和用于报道基因的第二非功能性编码片段)的启动子。

第二次整合事件依赖第二重组多核苷酸构建体，即供体构建体。所述供体构建体从5′至3′包含第一报道基因同源片段、间隔(interval)片段和第二报道基因同源片段。第一和第二报道基因同源序列分别与用于所述报道基因的第一和第二非功能性编码片段同源，以致这两个报道基因同源序列的存在允许在所述整合构建体(现在已经结合到宿主细胞基因组中)与所述供体构建体之间的同源重组，从而形成功能性报道基因的编码序列。然后，所述功能性报道基因可以在启动子下表达，允许检测第二插入事件的完成。供体构建体典型地也是环形载体，诸如质粒。第一和第二报道基因同源片段中的每一种在长度上可以不同，但是其长度典型地为约100-1000个、200-800个，或250-500个核苷酸，例如，长度为约250个、500个或800个核苷酸。间隔片段也可以长度不同，典型地，依据所用的靶向策略，其可以长约20-1000个、50-750个、100-500个或200-400个核苷酸。在一些实施方案中，其长度可以为约30个或726个核苷酸。在一些情形中，其可以编码功能性报道基因蛋白。

为了成功地实现第二次整合事件，用上述供体构建体、编码能够与用于报道基因的第一非功能性编码片段或中断片段内的约20个核苷酸的片段杂交的sgRNA的DNA分子、和编码Cas9蛋白(核酸酶)的DNA分子转染携带整合构建体的宿主细胞。sgRNA/Cas9复合物将识别并切割在用于报道基因的非功能性编码片段内的靶位点处的DNA；然后，其将促进在所述整合构建体(现在结合到宿主细胞基因组中)与所述供体构建体之间的同源重组，从而形成功能性报道基因的编码序列。本发明因此还提供包含这些成分的组合物。

这种基因靶向系统不仅可用于人们研究参与CRISPR-介导的同源性定向修复途径的机制和过程，其还允许人们筛选作为所述修复途径的潜在的调节剂的化合物。例如，如果候选化合物的存在导致增加的整合成功率，则所述化合物被鉴定为CRISPR-介导的同源性定向修复途径的潜在的增强剂，并且其可以进一步检测并验证该活性。另一方面，如果候选化合物的存在导致降低的整合成功率，则所述化合物被鉴定为CRISPR-介导的同源性定向修复途径的潜在的抑制剂，并且其可以进一步检测并验证该活性。考虑到CRISPR/Cas9-介导的基因操作的重要性，可以证明此类检测方法是有效的用于鉴定目的潜力的化合物的工具。

C.涉及一次整合事件的基因靶向系统

本发明的另一个基因靶向系统仅需要一次基因组整合事件，并且可以进一步分成第一种类型，或同源性定向修复，和第二种类型，或非同源末端连接类型。在第一类型的此类基因靶向系统中的供体构建体包含：(1)报道基因的编码序列；(2)位于所述报道基因编码序列的5′端的第一基因组同源片段；和(3)位于所述报道基因编码序列的3′端的第二基因组同源片段。第一和第二基因组同源片段与预先确定的基因组序列同源，所述预先确定的基因组序列优选是活跃表达的基因，诸如看家基因。在适当的条件下，这些基因组同源片段的存在允许在所述供体构建体与所述预先确定的基因组序列之间的同源重组。如上述，所述供体构建体通常是环形载体，诸如质粒。

为了实现报道基因的基因组整合及其后续的表达，使宿主或接受体细胞与下述接触：供体构建体，编码能够与在所述预先确定的基因组序列的编码序列内部或非编码序列上游或下游内部的片段杂交的sgRNA的DNA分子，和编码Cas9蛋白的DNA分子(核酸酶)。sgRNA/Cas9复合物将在所述预先确定的基因组序列的上游或下游非编码序列内部的靶位点处识别并切割DNA；然后，在存在供体构建体的条件下，其将通过同源定向的修复促进报道子整合。成功的整合导致报道基因表达并且可通过适当的检测方式检测。

相反，在仅需要一次整合事件的第二种类型的基因靶向系统中的供体构建体具有相当不同的成分。所述构建体包含：(1)报道基因的编码序列；和(2)在所述报道基因编码序列的3′端的多聚腺苷酸(polyA)片段，任选地具有一个位于所述报道基因编码序列的5′端或所述多聚腺苷酸(polyA)片段的3′端的靶序列，或具有位于所述报道基因编码序列的5′端和所述多聚腺苷酸(polyA)片段的3′端的两个靶序列。在靶序列位点的核苷酸序列，有时称为“sg-A靶位点”，对应预先选择的基因组序列的预先确定的片段，或需要的整合位点，其典型地位于看家基因的上游或下游非编码区内，而在一些情形中，也可以在基因编码区内。当使用两个此类靶序列位点时，它们可以具有相同或不同的核苷酸序列。通过仔细选择此类靶位点的核苷酸序列，例如，通过选择可能在多种真核物种中的多个基因组基因座中存在的原核来源(例如，细菌或病毒来源)的核苷酸序列作为靶位点序列，人们可以使用本发明的基因操作系统作为向真核细胞中的任何基因组基因座引入报道子的通用工具。这种供体构建体不包含任何基于同源性的元件，原因在于旨在以非同源末端连接方式使用。环形载体(诸如质粒)也是供体构建体的优选形式。

使用这种类型的基因组操作系统，使细胞与下述接触：供体构建体，编码一种或两种分别能够与所述靶序列位点中的一个杂交的sgRNAs(其核苷酸序列可以相同或不同)的一种或两种DNA分子，和编码Cas9蛋白的DNA分子(核酸酶)。所述一种或多种sgRNAs包括能够杂交到供体构建体的sg-A靶序列位点的一种和能够杂交到典型地位于下游非编码序列内(但是，在一些情形中，位于编码序列或上游非编码序列内)的预先确定的基因组序列的一种。所述sgRNAs将招募Cas9核酸酶在供体构建体内和在预先确定的基因组区域内的靶位点处切割DNA；然后，这将促进通过非同源末端连接的报道子整合。成功的整合导致报道基因表达并且可通过适当的检测方式检测。

除了使用这些基因靶向系统来研究CRISPR-介导的同源性定向或非同源末端连接修复途径涉及的机制和过程之外，这些提供可以类似地允许人们筛选作为此类修复途径的潜在的调节剂的化合物。例如，如果候选化合物的存在导致增加的整合成功率，则所述化合物被鉴定为CRISPR-介导的同源性定向或非同源性修复途径的潜在的增强子，并且可以进一步检测并验证这一活性。另一方面，如果候选化合物的存在导致减少的整合成功率，在所述化合物被鉴定为CRISPR-介导的同源性定向或非同源性修复途径的潜在的抑制剂，并且可以进一步检测并验证这一活性。

D.通过CRISPR/Cas9-偶联的NHEJ的有效敲入

按照一个方面，我们检验了使用单一切割的NH-供体(GAPDH供体-NHEJ.1)(其与Cas-9、sg-A、sg-2或sg-3共转染插入到LO细胞)的基因组整合效率。为了研究非同源性(NH)-靶向方法是否能够以高效率产生稳定的敲入克隆，用单一切割NH-供体(GAPDH供体-NHEJ.1)/Cas9/sg-A/sg-2和sg-3转染LO细胞并且以低密度增殖。在由未分选的细胞建立的集落中，观察到纯的GFP+克隆(图11，A)。在从转染了sg-2的细胞中随机分离的90个克隆中，发现13个是GFP+(14.44％)。PCR和测序分析证实，这些克隆确实在它们的基因组中携带正确的报道子敲入(图11，C)，这表明在没有任何预先选择的情况下成功产生了稳定的敲入克隆。

1.不依赖同源性的报道子整合的潜在的分子基础受常规DNA连接酶IV-依赖性 NHEJ途径的介导

按照一个方面，我们使用DNA连接酶IV(LIG4)敲除的LO2细胞检验了在用单一切割的NH-供体(GAPDH供体-NHEJ.1)/Cas9/sg-A/sg-2转染后的基因组整合的分子基础。为了揭示这些不依赖同源性的报道子整合潜在的分子基础，通过使用Cas9/sgRNAs缺失大段的LIG4 CDS产生DNA连接酶IV(LIG4)敲除的LO2细胞(图12，A)。在检验的两个LIG4敲除的克隆(#S16和#T8)中，与野生型LO2细胞相比，在用单一切割的NH-供体(GAPDH供体-NHEJ.1)/Cas9/sg-A/sg-2转染后，观察到急剧减少的报道子敲入(图12，B，左图，顶排)。并且，在这些LIG4无效细胞中NH-靶向的减少可以由携带LIG4过表达盒的质粒挽救(图12，B，左图，底排)。与Maruyama等人[1]和Chu等人[2]最近的研究相一致的，还在这些LIG4无效细胞中观察到基于HDR的2a-copGFP(GAPDH供体-HDR.1)报道子敲入的显著增加(图12，B，右图)，这与NHEJ活性的丧失相关。总之，这些数据表明，观察到的不依赖同源性的报道子整合确实主要由常规的DNA连接酶IV-依赖性的NHEJ途径介导。

2.NHEJ-介导的敲入可以容纳更大的插入物

按照一个方面，提供了使用12kb或34kb NH-供体在与Cas9/sg-A/sg-2共转染时插入大的插入物的方法。为了检验NHEJ-介导的敲入是否能够容纳更大的插入物，通过将无启动子ires-eGFP报道子与5’sg-A靶序列一起分别插入到大的PiggyBac载体(12kb)和腺病毒载体(34kb)中而构建了称为12k和34k NH-供体的质粒。当与Cas9/sg-A共转染时，这些供体可以在sg-A靶序列处被切割，由此提供在12kb或34kb主链中携带ires-eGFP的用于基于NHEJ的敲入的线性供体。在与Cas9/sg-A/sg-2共转染后，使用12k NH-供体检测到7.49％的GFP+细胞，使用34k NH-供体检测到1.18％(图12，C，左图)。与使用单一切割的NH-供体(GAPDH供体-NHEJ.1)/Cas9/sg-A/sg-2(4.6kb)观察到的20.99％的GFP+细胞一起(图12，C，右图)，明显的是，当使用较大的供体时，敲入频率降低。这可能至少部分是由较大的质粒的降低的转染效率引起的(图12，C，左图)。转染的细胞的PCR分析进一步证实这些大供体在GAPDH基因座的正确敲入(图12，D)。

E.在相同的条件下使用线性化的供体，NHEJ敲入方法具有比HDR方法更高的功效

按照一个方面，我们使用多种与Cas9/sg-1或sg-2共转染的HDR和NHEJ构建体检验了NHEJ敲入与HDR敲入相比较的效率。使用不包含sg-2和sg-3靶位点的缩短的5’同源臂，构建了GAPDH供体-HDR.3(图13，A，上图)。该质粒不被Cas9/sg-2或sg-3切割，并且可以仅作为基于HDR的敲入的供体。事实上，共转染Cas9/sg-2与该新供体产生6.46％的GFP+细胞(图13，C，上排)。这一频率比使用ires-eGFP(+HAs)供体-1/Cas9/sg-2引入的基于NHEJ的敲入低得多(图13，B)，尽管其与使用Cas9/sg-1与每种类型的(HAs+)供体一起产生的HDR-介导的报道子整合相当(图13，B，图13，C和图13，E)。

为了比较相同条件下基于NHEJ和基于HDR的敲入，使用线性化的供体进一步检验HDR介导的报道子插入。通过将sg-A靶序列分别插入到ires-eGFP(+HAs)盒的3’或5’，构建GAPDH供体HDR.3a和GAPDH供体-HDR.3b(图13，A)。这些供体由此可以通过Cas9/sg-A在sg-A靶位点切割而提供携带同源臂的线性模板。在存在sg-A的条件下使用GAPDH供体-HDR.3a，使用sg-1观察到7.30％的GFP+细胞，使用sg-2观察到7.42％(图13，C，第三排)，其实际上高于使用环形供体(供体-2或供体-2.A和2.B，不使用sg-A)得到的结果(图13，C，顶部、第二和第四排)。然而，这些频率仍然比通过基于NHEJ的报道子敲入产生的频率低得多(图12，C，右图；和图13，B，使用sg-2和sg-3)。有趣的是，使用GAPDH供体-HDR.3b和Cas9/sg-A，我们使用sg-1观察到19.75％的GFP+细胞，使用sg-2观察到27.23％(图13，C，最下一排)。这表明，线性化的供体-2.B能够允许基于NHEJ的敲入，并且高比例的GFP+细胞可能表示NHEJ-和HDR-介导的GFP+敲入事件二者的组合结果。

F.NHEJ-介导的敲入的脱靶效应

按照一个方面，提供用于确定NHEJ-介导的敲入的脱靶效应的方法。脱靶效应通常涉及所有基于CRISPR/Cas9的技术[30]。由于不依赖同源性和非定向的性质，NHEJ-介导的敲入方法面临比HDR方法更高的在脱靶位点引入DNA插入的机会。为了评价脱靶效应，在完整的人基因组(hg19)中寻找在所用的sgRNA中包含≤2个错配的潜在的脱靶位点。对于sg-A没有找到强脱靶位点。对于靶向GAPDH的sg-1、sg-2和sg-3，分别鉴定了15、14和6个潜在的脱靶位点，并且这些脱靶位点中无一位于已知的转录物的外显子中(表2)。进一步选择sg-2的前3个脱靶，并且分别使用引物XJ-77/XJ-78/XJ-79对脱靶整合进行PCR分析。在之前增殖的90个单细胞克隆中，没有发现一个在脱靶位点#1携带报道子整合，而分别在两个和三个克隆中发现在脱靶位点#2和#3的整合。与得到的正确敲入的克隆的数目(90个中有13个)相比(图11)，这些结果表明脱靶整合可能在NHEJ-介导的敲入过程中发生，但是频率要比准确的插入低得多。

G.CRISPR/Cas9-偶联的NHEJ在活跃和沉默的基因的基因座都引入有效的敲入

按照一个方面，提供建立允许测量活跃和沉默的基因的基因座二者中的基因靶向效率的报道子系统的方法。为了检验局部基因组情形中的染色质结构是否影响NHEJ-介导的报道子敲入的效率，靶向另一种活跃转录的基因座ACTB和几个沉默的基因的基因座，包括SOX17、T、OCT4、NANOG和PAX6。

设计两种靶向ACTB 3’-UTR的sgRNAs(sgACTB-i和sgACTB-ii)，以检验在ACTB基因座的HDR-和NHEJ-介导的敲入。通过将单一切割的NH-供体/Cas9/sg-A与sgACTB-i或sgACTB-ii一起共转染，分别观察到10.25％和15.27％的GFP+细胞(图13，D，左图，顶排)。使用新构建的ACTB HDR-供体(其携带通过同源臂侧连ACTB基因的基因座的ires-eGFP)，使用sgACTB-i观察到2.38％的基于HDR的敲入，使用sgACTB-ii观察到8.60％(图13，D，左图，最下一排)。基于NHEJ和基于HDR的两种敲入的频率都与在GAPDH基因座观察到的频率相当。

为了通过FACS分析直接检验在沉默的基因的基因座的敲入，使用PGK-eGFP报道子(图13，D，右上图)，其在整合后表达GFP，而不管靶基因座是否被活性转录。构建持续表达(CE)NH-供体，其在PGK-eGFP盒的5’携带sg-A靶序列；同时，产生靶向SOX17和T3’-UTRs的sgRNAs。值得注意的是，由于PGK-eGFP报道子的表达不依赖整合方向，因此，在这些测定中观察到的GFP+细胞表示任一方向的敲入事件。在用CE NH-供体/Cas9/sg-A和一种基因特异性的sgRNA转染后，在进行FACS分析之前，将LO2细胞维持五代以消除瞬时GFP表达。实际上，对于sgSOX17-i和sgSOX17-ii，分别检测到26.25％和32.04％的GFP+细胞，使用sgT-i观察到16.00％的GFP+细胞(图13，D，右图，顶排)。相反，在不存在基因特异性的sgRNA时，仅观察到约2-3％的GFP+细胞；并且在不存在sg-A时，检测到约1％的GFP+细胞。使用这种CE NH-供体，还在OCT4、NANOG、T和PAX6基因的基因座(它们在LO2细胞中大部分是沉默的)的多个位置检验NHEJ-介导的敲入。事实上，观察到不同的敲入频率，其不与基因中的靶标位置相关，也不与靶标基因座的转录状态相关(图14，A和图14，B)，这表明实际的靶向效率主要由sgRNA固有的性质决定。

此外，使用携带通过同源臂分别侧连SOX17或T基因组区域的PGK-eGFP的供体质粒，检验在SOX17和T基因组基因座的基于HDR的敲入。类似地，在FACS分析之前，将转染的细胞传代五次。通过将SOX17HDR-供体与Cas9/sgSOX17-i或sgSOX17-ii一起转染，观察到1.30％和2.83％的GFP+细胞，其表示在SOX17基因座的HDR-介导的敲入；而使用T HDR-供体和Cas9/sgT-i产生1.59％的GFP+细胞(图13，D，右图，最下一排)。这些频率实际上比在相同的靶位点处基于NHEJ的敲入的频率低得多(图13，D，右图，上两排)。并且，它们还低于在活跃转录的ACTB和GAPDH基因座中观察到的基于HDR的敲入(图13，B，图13，C和图13，D，左图，最下一排)，这与之前表明活跃的转录增强同源重组的研究一致[31，32]。总之，这些结果表明，CRISPR/Cas9-偶联的NHEJ可以介导活跃的和沉默的基因的基因座的有效的敲入，并且效率高于由基于HDR的方法产生的效率。

H.用于沉默的基因的基因座处的CRISPR/Cas9偶联的NHEJ-介导的敲入的另外的系统

按照一个方面，提供了建立允许测量沉默的基因的基因座中的基因靶向效率的报道子系统的方法和系统。为了通过FACS分析直接检验在沉默的基因的基因座(Sox1和Foxa23’UTR基因座)处的敲入，使用用于敲入选择的PGK-eGFP-PA盒与用于报道子应用的ires-td-Tomato-PA以及两个用于在荧光检测后删除非必需部分的LoxP位点(图15，A)。构建NH-供体(NH-S供体4)，其在ires-td-Tomato-PA的5’携带sg-A靶序列；同时，产生靶向Sox1和Foxa2 3’-UTR的sgRNAs。在用NH-S供体4/Cas9/sg-A与一种基因特异性的sgRNAs转染后，在进行FACS分析之前，将LO2细胞维持五代，以消除瞬时GFP表达。事实上，对于sgSox1-i和sgSox1-ii分别检测到2.8％和2.48％的GFP+细胞(图15，C)，对于sgFoxa2-i和Foxa2-ii观察到1.36和1.56％的GFP+细胞(图15，C)。相反，在不存在基因特异性的sgRNA时，观察到少于1％的GFP+细胞。流式检测表明关于td-Tomato表达的阳性信号，其表示通过NH-S供体4构建体成功的敲入(图15，B)。总之，这些结果表明CRISPR/Cas9-偶联的NHEJ能够介导在沉默的基因的基因座处的有效敲入。

I.两次定向NHEJ-介导的报道基因敲入

按照一个方面，提供了建立允许两次定向(双色)NHEJ-介导的敲入的报道子系统的方法和系统。为了通过FACS分析直接检验在基因的基因座(GADPH 3’UTR基因座)的双向敲入，使用单一切割的NH-供体(GAPDH供体-NHEJ.1)作为骨架；使用酶切位点Mlu1和Msc1删除ires，然后将TD-PA克隆到Sac2位点，以得到双重报道子。如图16，A所示，使用用于敲入选择的eGFP-PA盒与用于报道子应用的td-Tomato-PA。使用靶向GAPDH 5’-UTR的sgGAPDH来介导非定向整合，并且sg-A诱导NH-供体质粒的切割。使用这种供体，一次定向整合能够引起eGFP表达(图16，A，左侧)，另一次定向整合能够引起TD tomato表达(图16，A，右侧)。流式分析表明，使用两次定向荧光供体，Cas9/sg-A/sgGAPDH介导的敲入产生GFP+/TD-、GFP-/Td+和GFP+/TD+细胞群体。总之，这些结果表明该供体在非定向整合中的功能性作用。

J.由CRISPR/Cpf1介导的单向优选的敲入方法

CRISPR/Cpf1(来自普雷沃菌属和弗朗西丝菌属1的CRISPR)是包含～1,300个氨基酸的V型CRISPR-Cas系统。与Cas9系统(也称为II型CRISPR-Cas系统)不同，Cpf1-sgRNA复合物有效的切割靶DNA，接着加工成成熟的crRNAs，而不需要具有短的富含T的原间隔臂(protospacer)-邻近的基序(PAM)的另外的反式-激活的crRNA(tracrRNA)，与此相反，对于Cas9系统，需要在靶DNA后富含G的PAM。更重要的是，与由Cas9产生的平端不同，Cpf1引入具有4或5-nt 5’突出端的错开的DNA双链断裂[35]。结果，与Cas9相比，Cpf1具有增强遗传插入的效率和特异性的潜力。

按照一个方面，提供了用于使用CRISPR/Cpf1系统通过NHEJ介导的单向优选的敲入的方法和系统。从Addgene(质粒#69988)获得CRISPR/Cpf1 pY016(pcDNA3.1-hLbCpf1)的质粒，并且按照参考文献[35]设计sgRNAs并克隆到sgRNA骨架中。制备两个供体质粒，一个供体质粒是互补供体(C供体)，另一个供体质粒是非互补供体(NC供体)(图17，A)。为了研究使用CRISPR/Cpf1系统的非同源性(NH)-介导的方法是否能够产生稳定的敲入克隆，将细胞转染单一切割的NH-供体(C和NC供体)/Cpf1/sg-A和sg-GADPH。spCas9诱导的NHEJ-介导的敲入(图17，B，左图)有效地作为阳性对照(15.68％)(图17，B，左图)。与使用非互补供体(NC供体＝2.69％)介导的相比，互补供体产生显著更高的敲入效率(C供体＝7.04％)。总之，这些结果表明，使用CRISPR/Cpf1可以实现NHEJ介导的单向优选的敲入方法。

K.NHEJ-介导的在多个等位基因中敲入多颜色荧光报道基因

按照一个方面，提供了建立允许使用CRISPR/Cas9诱导的NHEJ-介导的敲入进行多个等位基因敲除策略的报道子系统的方法(图18)。本质上，提供多个供体质粒同时用于敲入。所述供体质粒分别包含不同的报道基因，并且所述报道基因可以包括，但不限于，不同的荧光颜色或抗药性。使用包含不同的报道子的每种质粒，当成功的NHEJ-介导的敲入后，被靶向的细胞将表现出不同的颜色和/或抗药性。通过包括人隔离子序列，供体插入在靶基因的5’端，并且因此中断其表达。使用多个供体质粒同时插入到多个等位基因，靶基因将被完全破坏并且产生敲除的基因型。

按照一个方面，基本上如下所述制备多颜色荧光报道子供体：

(a)NH-供体-in-eGFP：单一切割的NH-供体(GAPDH供体-NHEJ.1)用作骨架；并且使用酶切位点Mlu1和Msc1删除ires，以得到NH供体eGFP；并且在sg-A靶序列的5’端插入人隔离子序列的串联重复。

(b)NH-供体-in-td-Tomato：使用单一切割的NH-供体(GAPDH供体-NHEJ.1)作为骨架；并且使用酶切位点Mlu1和Msc1删除ires；之后，使用td-Tomato替代eGFP；并且在sg-A靶序列的5’端插入人隔离子序列的串联重复。

(c)NH-供体-in-puro：使用单一切割的NH-供体(GAPDH供体-NHEJ.1)作为骨架；并且使用酶切位点Mlu1和Msc1删除ires；之后，使用嘌呤霉素(“puro”)替代eGFP，并且在sg-A靶序列的5’端插入人隔离子序列的串联重复。

(d)NH-供体-in-hygro：使用单一切割的NH-供体(GAPDH供体-NHEJ.1)作为骨架；并且使用酶切位点Mlu1和Msc1删除ires；之后，使用潮霉素(“hygro”)替代eGFP，并且在sg-A靶序列的5’端插入人隔离子序列的串联重复。

用各自的NH-in-供体、Cas9、sg-A和一种基因特异性的sgRNAs(sgMRE11)转染后，将细胞进行FACS分析。此处，用于在MRE11基因座的靶向结果(其使用NH-供体-in-eGFP和NH-供体-in-td-Tomato)的流式分析表示单阳性细胞(分别为1.18％和1.01％)，这表示至少一种等位基因被修饰。另外，也注意到双阳性细胞群体，这表示这些细胞在两个等位基因中携带敲入(0.08％)。相反，在不存在基因特异性的sgRNA时，没有观察到阳性细胞。

以下是本发明的一些示例性系统：

1.(b)GFP报道子系统

-pSuper_AAVS1(B)cGFP报道子质粒

-PiggyBac_(B)cGFP报道子质粒

-pSuper_Rosa26(B)cGFP报道子质粒

-sgRNA-X

-三个供体质粒(B)cGFP供体-HDR.1-3，分别携带30-bp插入物和250bp、500bp和800bp的同源臂

-三个供体质粒(B)cGFP供体-HDR.A和B，分别携带726-bp插入物和250bp和500bp的同源臂

按照一个方面，提供允许利用荧光激活的细胞分选(FACS)分析直接评估HDR-介导的基因靶向效率的方法。产生断裂的copGFP((B)cGFP)报道子系统。

按照一个方面，设计报道基因使其包含PGK启动子驱动的Puro-2a-断裂copGFP融合体编码序列(CDS)(PGK-Puro2a(B)cGFP)，并且将其构建到pSuper-puro质粒中(见图1，A)。该断裂的copGFP片段由以77-bp的合成片段间隔的两个非功能性copGFP片段(copGFP-N和copGFP-C)组成。在该77-bp内，包含三个处在不同的阅读框内的终止密码子，以防止通过NHEJ-介导的修复恢复copGFP表达，并且包含sgRNA的靶序列(称为sg-X和sg-Y)用于在基因组内引入位点特异的DSB。

按照一个方面，我们从人AAVS1基因组基因座(还称为PPP1R12C基因座)克隆了两个基因组DNA片段，并且在PGK-Puro2a(B)cGFP的5’和3’处插入到pSuper-puro质粒中，以产生pSuper_AAVS1(B)cGFP报道子质粒(见图1，A)。该质粒可以用于将(b)GFP报道子插入到任意人细胞系中的AAVS1基因座(见图1，A)，并且由此允许直接分析靶细胞系中的HDR。

按照一个方面，我们将PGK-Puro2a-(B)cGFP报道子片段插入到PiggyBac质粒中[19]，从而得到PiggyBac_(B)cGFP报道子质粒。

按照一个方面，我们从小鼠Rosa26基因组基因座克隆两个基因组DNA片段，并且在PGK-Puro2a-(B)cGFP片段的5’和3’处插入到pSuper-puro质粒中，以产生pSuper_Rosa26(B)cGFP报道子质粒(见图1，B)。该质粒可以用于将(B)cGFP报道子插入到任意小鼠细胞系中的Rosa26基因座，并且由此允许直接分析靶细胞系中的HDR效率。

按照一个方面，使用之前所述的支架质粒[20]构建两个sgRNAs(sg-X和sg-Y)，以分别靶向77-bp片段内的设计的靶位点，或靶向copGFP-N内的选择的位点。

按照一个方面，构建三个供体质粒(称为(B)cGFP供体-HDR.1-3)，其分别包含一对针对Puro2a-(B)cGFP报道基因的不同长度(分别为250bp，500bp或800bp)的同源臂(见图2，A)。这些供体质粒可以作为模板，用于以功能性copGFP片段替换中断的(dirupting)77-bp片段，由此通过HDR恢复copGFP表达。涉及的插入是24-bp的序列，其在构建断裂的copGFP报道子时被删除。三个携带不同的同源臂的供体质粒允许量化同源性长度对HDR效率的影响。

按照一个方面，为了检验大的插入物是否能够通过CRISPR/Cas9-诱导的HDR有效地被靶向基因组，我们构建了在针对Puro2a-(B)cGFP的同源臂之间携带完整的eGFP CDS的供体质粒(见图2，B)。类似地，构建两个携带侧连250bp或500bp的同源臂的eGFP插入物的供体质粒(分别称为(B)cGFP供体-HDR.A和B)。

2.HEK293T-AAVS1(B)cGFP报道子细胞系

按照一个方面，我们使用HEK293T细胞产生了稳定的细胞系，以测量人的体细胞中HDR-介导的基因靶向的效率。我们选择将(B)cGFP报道子插入到人基因组中的AAVS1基因座中，所述AAVS1基因座表现出开放的染色质结构，并且已被提议作为整合的潜在靶区域，原因在于其被打断没有功能性后果。按照一个方面，在本公开内容中产生一种HEK293T(B)cGFP报道子细胞系，并且通过基因组PCR证实在AAVS1基因座携带需要的PGK-Puro2a-(B)cGFP报道子(称为HEK293T-AAVS1(B)cGFP报道子细胞系)(见图3，A)。按照一个方面，在报道子细胞系中由Cas9/sg-X诱导的DSBs可以通过T7E1测定检测到(见图3，B)。为了评估CRISPR/Cas9诱导的HDR效率，将质粒(B)cGFP供体-HDR.1-3分别与编码Cas9和sg-X的质粒一起转染到HEK293T-AAVS1(B)cGFP报道子细胞中。按照一个方面，在转染后第3，5，7和9天利用FACS分析检测表示HDR效率的GFP表达(见图3，C)。我们的结果表明，在存在(B)cGFP供体-HDR.1-3的条件下，由Cas9/sg-X诱导的AAVS1基因座处的HDR效率分别约为0.11％、1.00％和3.45％，而在没有转染sg-X质粒的对照组中没有观察到GFP+孔。使用携带800bp的同源臂的(B)cGFP供体-HDR.3得到最有效的靶向，其增加至～3.45％。按照这些数据，当提供更长的同源臂时，可以诱导更高的Cas9诱导的HDR。

按照一个方面，当使用D10A突变体Cas9替代野生型Cas9时，在存在(B)cGFP供体-HDR.1-3的条件下，我们分别观察到～0.11％、0.21％和0.35％的靶向效率(见图3，C)。按照一个方面，与野生型Cas9相比，当使用D10A突变体Cas9时，HDR效率是约十倍低。该数据表明使用切口酶Cas9进行基因靶向的限制性。

按照一个方面，为了检验更大的插入物是否能够有效地被靶向至基因组，我们将供体质粒(B)cGFP供体-HDR.B与Cas9/sg-Y一起共转染到HEK293T-AAVS1(B)cGFP报道子细胞系中。在转染后9天利用FACS分析检测的HDR效率约为1.6％(见图3，D)。类似地，当使用D10A突变体Cas9时，观察到较低的HDR效率(0.2％)。

3.H1-AAVS1(B)cGFP报道子细胞系

按照一个方面，通过共转染PiggyBac_(B)cGFP报道子质粒与转座酶，产生一种稳定的人胚胎干细胞(ESC)报道子细胞系，用来测量基因组中的HDR基因靶向效率。证实该细胞系携带了整合到基因组中的(B)cGFP报道子(见图4)。为了评估由CRISPR/Cas9诱导的HDR效率，将携带800bp同源臂的质粒(B)cGFP供体-HDR.3与Cas9和sg-X一起转染到H1-(b)GFP报道子细胞中。按照一个方面，在转染后第5天利用FACS分析检测表示HDR效率的GFP表达。对照组用供体和Cas9转染，但是不用sg-X转染。检测在存在(B)cGFP供体-HDR.3的条件下由Cas9/sg-X诱导的HDR效率稳定在0.02％，而对照组在10E5个细胞内没有表现出GFP-阳性细胞。该数据表明，我们的H1-(B)cGFP报道子细胞系可以与提供的供体质粒/Cas9/sg-X一起用于评估HDR-介导的基因靶向。

4.E14-Rosa26(B)cGFP报道子细胞系

按照一个方面，我们产生稳定的小鼠ESC(E14)报道子细胞系，用来测量小鼠ESCs中的HDR-介导的基因靶向的效率。我们选择在小鼠基因组中的Rosa26基因座插入(B)cGFP报道子，所述Rosa26基因座也表现出开放的染色质结构，并且由于其断裂没有功能性后果，已被提议作为潜在的整合靶标区域。按照一个方面，在本公开内容中产生一种在Rosa26基因座携带需要的PGK-Puro2a-(B)cGFP报道子的E14(B)cGFP报道子细胞系(称为E14-Rosa26(B)cGFP报道子细胞系)。为了评估由CRISPR/Cas9诱导的HDR效率，将质粒(B)cGFP供体-HDR.3与编码Cas9和sg-X的质粒一起转染到E14-Rosa26(B)cGFP报道子细胞中。按照一个方面，在转染后第3，5，7和9天利用FACS分析检测表示HDR效率的GFP表达。对照组用供体和Cas9转染，但是不用sg-X转染。检测在存在(B)cGFP供体-HDR.3的条件下由Cas9/sg-X诱导的Rosa26基因座的HDR效率稳定在0.08％，其是对照组的～40倍高。按照这些数据，E14-Rosa26(B)cGFP报道子细胞系提供一种用于分析稳定培养的小鼠ESCs中的HR频率的可靠的且便利的工具。

5.用于GAPDH HDR-报道子系统的多核苷酸构建体

-sg-1，2，3和4(靶向GAPDH 3’-UTR的sgRNA)质粒

-GAPDH供体-HDR.1质粒

按照一个方面，提供一种建立允许直接测量所有人细胞类型(系)中的基因靶向效率的报道子系统的方法。我们选择靶向人基因组中的GAPDH基因座，其编码恒定且普遍表达的看家基因。在该基因座插入的无启动子的GFP报道子可以被主动转录，然后翻译成荧光蛋白，所述荧光蛋白可以在活细胞中观察到，并且可以通过荧光激活的细胞分选(FACS)直接检验成功靶向的插入的效率。为了避免破坏GAPDH蛋白功能(这可能在CRISPR/Cas9-介导的基因靶向过程中发生)，我们选择靶向GAPDH3’-UTR。总之，我们设计并构建了四种sgRNAs(sg-1-4)，它们受之前所用的支架载体中的U6启动子驱动[20]。利用T7E1测定，检验个体sgRNAs诱导DSB的活性和有效性(见图5，A，以sg-1-3为例)。

按照一个方面，提供直接定量并比较人ESCs和体细胞中CRISPR/Cas9-诱导的基于HDR的基因靶向的效率的方法。我们构建了供体质粒(称为GAPDH供体-HDR.1)，以携带侧连与人基因组中的GAPDH基因座共有同源性的两个DNA片段臂的P2a-copGFP CDS(见图5，B，C)。5’-臂包含在sg-1-4靶位点上游的903bp的序列，3’-臂包含在下游的967bp。将它们从基因组克隆并且插入在克隆到pSuper-puro载体中的无启动子P2a-copGFP片段的5’和3’侧。为了评估CRISPR/Cas9-诱导的HDR-介导的基因靶向，将野生型(WT)Cas9、来自sg-1-4的sgRNA和GAPDH供体-HDR.1一起共转染。然后，在GAPDH供体-HDR.1模板的存在下，Cas9/sgRNA-诱导的DSBs将刺激通过HDR途径的DNA修复。当在两个同源臂都发生成功的重组时，来自供体的P2a-copGFP片段将被符合GAPDH CDS阅读框地插入到基因组中，与GAPDH一起转录，但是翻译成单独的GFP蛋白(图5，B)。转染后，利用FACS分析可以直接检测表示精确的基因组整合的GFP表达(见图5，D)。已经证实供体载体不正确整合到GAPDH基因座中就不表达GFP。

按照一个方面，应用基因组PCR和测序分析来证实2a-cGFP片段已精确插入到基因组中GAPDH CDS的3’端(见图6，A和图6，B)，这表明靶向的确是通过HDR修复介导的。按照一个方面，在多种人细胞系中检验基于HDR的靶向效率。与来自参考文献[15]的结果一致，在人ESCs中观察到低频率的基于HDR的靶向。在不存在CRISPR/Cas9的条件下，在所检验的10⁵个细胞中，没能检测到GFP+细胞；当Cas9和sgRNAs与供体质粒共转染时，由GFP+细胞表示的靶向的插入以约0.2-0.4％出现(见图6，C)。另一方面，在体细胞系中检测到不同但是更高频率的基于HDR的基因靶向。LO2和HK2细胞分别表现出5.970％和1.608％的靶向效率，而人HEK293T细胞表现出1.655％的靶向效率。在所检验的肿瘤细胞系中，BEL-7402、BEL-7404和SMMC-7721分别表现出1.907％、1.492％和4.429％的靶向效率，而H1299表现出1.177％且HCT116表现出2.139％的靶向效率(见图6，C)。按照一个方面，在所有细胞系中，当省略Cas9和sgRNAs时，表示在不存在位点特异性DSBs的条件下发生的基底HDR-靶向的GFP+细胞以低得多的频率出现(见图6，C，对照组)。CRISPR/Cas9诱导的HDR靶向的富集(使用Cas9/sg-1检验的)约为4-70倍。按照一个方面，D10A突变体Cas9(切口酶)-诱导的HDR-靶向以比野生型Cas9诱导的1.5-3倍低的频率发生(见图6，C)。依据这些数据，我们的报道子系统(包括GAPDH供体-HDR.1和相关的靶向GAPDH 3’-UTR的sgRNAs)提供了一种通过常用的转染方法分析任意人细胞中的HDR频率的可靠的且便利的工具。

6.用于GAPDH NHEJ-报道子系统的多核苷酸构建体

-sg-1，2，3和4(靶向GAPDH 3’-UTR的sgRNA)质粒

-sg-A质粒

-NHEJ-供体.1质粒

-NHEJ-供体.2质粒

按照一个方面，提供直接定量并且比较人ESCs和体细胞中CRISPR-诱导的基于NHEJ的基因靶向的频率的方法。为了这一目的，我们构建了两种供体质粒(称为GAPDH供体-NHEJ.1和GAPDH供体-NHEJ.2)，它们携带无启动子的ires-eGFP，接着是多聚腺苷酸(polyA)信号序列，但是没有与人基因组中的GAPDH基因座同源的序列。按照一个方面，我们在GAPDH供体-NHEJ.1质粒中ires-eGFP的5’处插入了一个合成的sg-A靶位点，或在GAPDH供体-NHEJ.2质粒的ires-eGFP两侧插入两个sg-A位点。在存在Cas9/sg-A的条件下，这些sg-A靶向位点将允许在供体质粒中引入DSB，由此产生用于整合到基因组中的GAPDH 3’-UTR的需要的ires-eGFP报道子片段(见图7，A)。为了产生不同长度的ires-eGFP报道子片段，由此允许检验在靶向整合过程中不同插入物长度的影响的目的，在这两个供体中使用一个和两个sg-A靶位点。按照一个方面，为了确保在将报道子插入到GAPDH 3’-UTR中之后的GFP表达，使用ires元件来绕开由NHEJ-引入的插入/缺失引起的移码。总之，当Cas9/sgRNA在基因组和转染的供体中诱导DSBs时，在不存在同源性供体模板的条件下，其将刺激通过NHEJ途径的DNA修复。当发生需要的末端连接时，ires-eGFP片段将被插入到基因组中GAPDH 3’-UTR处，与GAPDH一起转录，但是翻译为单独的eGFP蛋白。在转染后4-5天利用FACS分析检测表示需要的整合的GFP表达。

按照一个方面，我们使用与Cas9、sg-A和sg-1、2、3一起共转染到LO2细胞中的GAPDH供体-NHEJ.1和GAPDH供体-NHEJ.2来检验基因组整合的效率。有趣的是，当使用GAPDH供体-NHEJ.1时，检测到多至20％的GFP+细胞(见图7，B)；并且当使用GAPDH供体-NHEJ.2时，效率较低(见图7，B)。按照一个方面，在不存在sg-1-3或sg-A的条件下(见图7，B)，或当使用切口酶Cas9D10A突变体引入单链断裂(SSBs)时(见图7，B)，没能检测到明显的靶向。根据这些数据，位点特异性的DSBs是NHEJ-介导的对所选的基因组基因座的基因靶向所需要的。

按照一个方面，通过基因组PCR分析用GAPDH供体-NHEJ.1产生的GFP+细胞。检测到ires-eGFP片段和连接的载体骨架在基因组中在GAPDH CDS的3’处的插入(见图7，C，上图)。然而，当使用GAPDH供体-NHEJ.2时，PCR分析仅检测到ires-eGFP片段插入在基因组中两个sg-A靶位点之间(见图7，C，下图)。这表明双切割的供体模板确实在两个靶位点被sg-A/Cas9切割。对用单切割或双切割的供体产生的GFP+细胞的连接测序分析揭示预期的通过特异性sgRNAs的切割，和在所述切割位点的基因组与供体模板之间的易错再连接(图7，D和7，E)，这表明这些靶向确实是通过Cas9/sgRNA-诱导的NHEJ修复介导的。总之，考虑到NHEJ修复也以CRISPR-诱导的DSB相反的方向发生但是不导致GFP表达(这通过基因组PCR证实)(见图8)，在LO2细胞中由NHEJ介导的整合可以达到多至～40％。根据这些数据，我们的报道子系统已经提供了能够允许直接测量任意人细胞中的NHEJ-介导的基因靶向并且允许直接比较它们的靶向效率的便利工具。

7.用于GAPDH HDR-报道子系统2的多核苷酸构建体

-sg-1，2，3和4(靶向GAPDH 3’-UTR的sgRNA)质粒

-GAPDH供体-HDR.2质粒

按照一个方面，提供澄清NHEJ是否确实以比HDR高的效率介导大片段靶向的方法。构建携带侧连针对GAPDH基因座的同源臂的ires-eGFP的HDR供体(称为GAPDH供体-HDR.2)。GAPDH供体-HDR.2中的5’同源臂比用在GAPDH供体-HDR.1中的同源臂长，从而覆盖终止密码子和携带sg-2-4靶位点的延长序列(见图9)。当GAPDH供体-HDR.2与Cas9和sg-1共转染时，在LO2细胞中检测到7.114％的HDR介导的效率(见图9，B)。该效率低于使用sg-1的NHEJ-介导的靶向，但是与使用GAPDH供体-HDR.1检测的HDR-介导的靶向相似。按照一个方面，当GAPDH供体-HDR.2与Cas9/sg-2或sg-3(其靶向基因组和供体质粒二者的5’同源臂)共转染时，GFP+细胞分别增加至14.75％和17.36％(见图9，B)，其与使用单切割供体(GAPDH供体-NHEJ.1)的NHEJ-靶向相似。基因组PCR证实在基因组与供体质粒之间在3’同源臂之外的末端连接，并且测序分析检测了5’-连接中常见的插入/缺失。这些数据表明Cas9/sg-2或3切割基因组和供体DNAs二者，并且诱导NHEJ-介导的报道子整合。按照一个方面，当使用Cas9/sg-4靶向3’同源臂时，GFP+细胞减少至10.06％(见图9，B)。测序分析没有在5’-连接中检测到插入/缺失(见图9，E)，这表明完整的5’同源臂介导HDR靶向。在5’和3’同源臂二者上的切割，如Cas9/sg-3与sg-4一起共转染所示的，在两侧都诱导NHEJ-靶向。

按照一个方面，检验在人ESCs和其他体细胞系中的NHEJ-介导的靶向效率并且与HDR-介导的靶向比较。在H1人ESCs中，Cas9/sg-1/sg-A与GAPDH供体-NHEJ.1的共转染产生0.84％的GFP+细胞，并且当使用活性更强的sg-2时，GFP+细胞的比例增加至1.69％(见图9，C)。与存在GAPDH供体-HDR.1的条件下Cas9/sg-2诱导的HDR-靶向相比，使用Cas9/sg-A/sg-2/GAPDH供体-NHEJ.1的NHEJ-靶向的效率大约为五倍高；然而，Cas9/sg-1-诱导的NHEJ与HDR-靶向(使用GAPDH供体-HDR.2)之间的增加大约为十倍。相一致地，当使用单一切割供体/Cas9/sg-A/sg-1时，在人的体细胞系中，NHEJ-靶向的效率也高于HDR-靶向，范围为在HCT116细胞中的2.76％至SMMC-7721细胞中的18.42％(见图9，D)。根据这些数据，GAPDH供体-HDR.2质粒允许我们直接比较并证明在所选的细胞系中NHEJ-介导的基因靶向以比HDR-介导的基因靶向以更高的频率发生。

8.用于靶向OCT4和ACTB的NHEJ-报道子系统的多核苷酸构建体

按照一个方面，提供澄清CRISPR/Cas9-诱导的NHEJ是否能够以与整合到GAPDH基因座相当的高效率介导报道基因向OCT4和ACTB基因组基因座的整合的方法。为了这一目的，我们构建了两个sgRNAs(sgOCT4或sgACTB)，它们分别靶向OCT4和ACTB基因的3’-UTR。OCT4基因编码多能性相关的转录因子OCT4，而ACTB基因编码看家蛋白β-肌动蛋白。因此，在OCT4和ACTB 3’-UTRs敲入ires-eGFP报道子将导致活性转录和报道子表达。实际上，NHEJ-供体.1/Cas9/sg-A与sgOCT4或sgACTB共转染到H1人ESCs中分别产生0.55％和0.43％的GFP+细胞(图10，A和B)。这些与报道子整合到GAPDH基因座的效率相当(图9，D)。PCR和测序分析完全证实单一切割供体在OCT43’-UTR整合到基因组中(图10，C-E)。总之，这些数据表明CRISPR/Cas9-偶联的NHEJ修复可以介导大的报道基因向人ESCs中任意选择的基因组基因座中的有效敲入。

实施例

通过仅举例说明的方式而不是限制的方式提供下述实施例。本领域技术人员容易认识到可以改变或改进以产生基本上相同或相似的结果的多种非关键性参数。

实施例I：II型CRISPR系统

通常已知三种种类的CRISPR系统，并且称为I型、II型或III型。按照一个方面，本公开内容所述的特别有用的切割dsDNA的酶是单效应子酶，即Cas9，与II型相同。结果，II型系统更可能在备选的情形中(诸如真核细胞中)行使功能。II型效应子系统由下述组成：从包含间隔臂的CRISPR基因座转录的长pre-crRNA，多功能性Cas9蛋白，和对于gRNA加工是重要的tracrRNA。按照一个方面，本公开内容的Cas9酶解开DNA双链体并且寻找与crRNA匹配的序列进行切割。当在靶DNA中检测到能够与crRNA中的序列匹配的约20bp序列时，发生靶标识别。重要的是，仅在3’端也存在正确的PAM的条件下，Cas9才切割DNA。在本公开内容中，初始来自酿脓链球菌的II型CRISPR系统需要5’-NGG-3’序列，其中N可以是任意核苷酸。生物信息学分析已经产生了多种细菌中可以用来鉴定另外有用的PAMs并且扩展可被CRISPR靶向的序列组的CRISPR基因座的广泛的数据库[21]。在酿脓链球菌II型CRISPR系统中，发生针对原始间隔臂的5’和3’两端的DNA双链断裂(DSB)形成。如果两个核酸酶结构域中的一个被失活，则Cas9将在体外和在人细胞中作为切口酶起作用。

gRNA-定向的Cas9切割的特异性用作基因组改造真核细胞的机制。gRNA/DNA的杂交不需要100％的匹配，就可以被酶识别和切割。因此，可能发生脱靶活性。在本公开内容中，来自酿脓链球菌的II型CRISPR系统在体外耐受在20bp成熟的间隔臂序列中的前6个碱基中的错配。

实施例II：质粒构建

按照一个方面，构建II型CRISPR系统的载体。Cas9基因序列是来自Addgene(#41815)的人密码子优化的。切口酶hCas9D10A类似地来自Addgene(#41816)。

按照一个方面，构建了V型CRISPR系统的载体。从Addgene(质粒#69988)获得CRISPR/Cpf1 pY016(pcDNA3.1-hLbCpf1)的质粒，并且按照参考文献[35]设计sgRNAs并克隆到sgRNA骨架中。

-sg-1，2，3和4(靶向GAPDH 3’-UTR的sgRNA)质粒

-sgOCT4

-sgACTB

-sgSOX17

-sgT

-sgNANOG

-sgPAX6

-sgMRE11

-sg-X

-sg-A

按照一个方面，按照参考文献[22]设计sgRNA。为了产生sgRNA，合成一对包含sgRNA靶序列的26-mer寡聚物。将它们退火，然后插入到sgRNA表达载体MLM3636(Addgene#43860)的BsmBI位点。从在GAPDH CDS的3’端的GAPDH外显子9区域获得在PAM基序(5’-NGG-3’)之前的sg-1-4靶序列(20-bp)；而sgOCT4、sgSOX17、sgT、sgNANOG、sgPAX6、sgMRE11和sgACTB靶序列分别选自OCT43’-UTR、SOX173’-UTR、T 3’-UTR、NANOG 3’-UTR、PAX63’-UTR、MRE11 3’-UTR和ACTB 3’-UTR。sg-X和sg-A靶序列分别选自荧光蛋白eGFP和copGFP。利用NCBI核苷酸BLAST预测导向序列潜在的脱靶效应(off-target effect)。所用的sgRNAs的靶序列显示在表1中。

-pSuper-MSC(修饰的pSuper-puro载体)

按照一个方面，按我们之前的工作(未公开)修饰pSuper-puro载体[23]，使其在几个表达盒的每一侧携带两个多限制性酶切位点簇(包括SalI，MfeI，Mlu1，Bamh1，Nhe1，Hpa1，Afl2，EcoR1 Avr2，Pml1和Xho1)(其在后续构建程序中被去除)。

-pSuper-PGK-puro(无终止密码子)

-pSuper_AAVS1(B)cGFP报道子质粒

按照一个方面，使用引物XJ-1/XJ-2通过PCR扩增包含PGK-puro的DNA片段(无终止密码子)，并且在MfeI和MluI位点亚克隆到之前修饰的基于pSuper的载体(未公开)，从而得到pSuper-PGK-puro。携带P2a序列的引物XJ-3与引物XJ-4一起使用，用于扩增copGFP N-末端片段，然后将其插入到上述pSuper-PGK-puro质粒中，从而得到pSuper-PGK-puro-p2a-cGFP(N)。合成另一对包含sg-X靶序列和重复的终止密码子的引物(XJ-5/XJ-6)(共77bp)，并且用于扩增copGFP的C-端。然后，将该片段插入到pSuper-PGK-puro-p2a-cGFP(N)质粒中，以得到pSuper-PGK-puro-p2a-断裂的cGFP(cGFP的N-和C-端被重复的终止密码子和sg-X靶序列隔开)。该质粒在下文以缩略形式称为pSuper_(B)cGFP。接着，使用引物XJ-7/XJ-8扩增来自AAVS1的5’同源臂并且插入在SalI和MfeI位点，而使用引物XJ-9/XJ-10扩增来自AAVS1的3’同源臂并且插入在pSuper_(B)cGFP质粒的HpaI和EcoRI位点。新构建的质粒为pSuper_AAVS1(B)cGFP报道子。

-pSuper_Rosa26(B)cGFP报道子质粒

按照一个方面，使用引物Xj-11/XJ-12扩增来自小鼠Rosa26基因组基因座的5’同源臂并且插入在SalI和MfeI位点，而使用引物Xj-13/XJ-14扩增来自小鼠Rosa26基因组基因座的3’同源臂并且插入在pSuper_(B)cGFP质粒的AflII和EcoRI位点。新构建的质粒是pSuper_Rosa26(B)cGFP报道子。

-PiggyBac_AAVS1(B)cGFP报道子质粒

按照一个方面，通过pSuper_(B)cGFP质粒的MfeI和EcoRI双重消化获得PGK-Puro2a(B)cGFP DNA片段；并且然后将其亚克隆到PiggyBac载体pCyl50(英国的Sanger中心)的EcoRI处。选择正向的插入(Forwarded insertion)并且命名为PiggyBac_AAVS1(B)cGFP报道子质粒。

-携带30-bp插入物和分别为250bp、500bp和800bp的同源臂的三个供体质粒(B)cGFP供体-HDR.1-3

按照一个方面，我们构建了包含完整的copGFP的供体质粒，其将修复上述报道子中的断裂的cGFP，用于评估HDR-介导的靶向的DNA插入。首先，使用引物XJ-3/XJ-6通过PCR获得完整和有功能的P2a-copGFP-多聚腺苷酸(polyA)DNA片段，并且以MluI和BamHI位点插入到上述中间质粒pSuper-PGK-puro(无终止密码子)中。然后，使用三对引物(XJ-15/XJ-16，XJ-17/XJ-18和XJ-19/XJ-20)来扩增不同长度的puro-P2a-copGFP片段。然后，将携带不同的针对Puro2a(B)cGFP的同源臂(分别为250bp，500bp或800bp)的三个片段通过TA-连接克隆到pGEM-T easy载体中。得到的质粒为供体质粒(B)cGFP供体-HDR.1-3。

-携带726-bp插入物和分别约为250bp、500bp的同源臂的两个供体质粒(B)cGFP供体-HDR.A，B

按照一个方面，我们构建了包含功能性eGFP的供体质粒，其可以替代上述报道子中的断裂的cGFP，用于评估HDR-介导的靶向的DNA插入。使用引物XJ-21/XJ-22扩增eGFPDNA片段，然后以BamHI和MluI位点插入到pSuper_(B)cGFP质粒中。同时BamHI和MluI消化去除断裂的cGFP片段。为了提供针对断裂的cGFP报道子的3’同源序列，使用引物XJ-23/XJ-6通过PCR扩增C-端cGFP片段并且插入回到上述质粒中。接着，使用两对引物(XJ-4/XJ-24和XJ-25/XJ-16)来扩增不同长度的puro-P2a-copGFP片段。然后，将携带不同的针对Puro2a(B)cGFP的同源臂(分别为250bp或500bp)的两个片段通过TA-连接克隆到pGEM-T easy载体中。得到的质粒为供体质粒(B)cGFP供体-HDR.A和B。

-GAPDH供体-HDR.1质粒

-GAPDH供体-HDR.2质粒

-GAPDH供体-HDR.3质粒

-GAPDH供体-HDR.3a质粒

-GAPDH供体-HDR.3b质粒

按照一个方面，构建五个靶向GAPDH的载体，用于HDR-介导的基因靶向报道子测定：(1)构建2a-copGFP供体(GAPDH供体-HDR.1，见图5)。合成携带微小RNA病毒(Picornavirus)“自我切割”P2a序列[17]和克隆位点的引物XJ-3/XJ-26，并且用于通过两步PCR从PCDH-CMV-MCS-EF1-copGFP(SBI，CD511B-1)扩增携带P2a-copGFP接合-CDS的DNA片段。将得到的片段插入到修饰的pSuper-puro载体[23]中的BamHI和XhoI位点。从GAPDH基因组基因座中sg-1-3靶位点的上游(903bp，使用引物XJ-27/XJ-28)和下游(967bp，使用引物XJ-29/XJ-30)扩增两个同源臂，并且插入到上述质粒中2a-copGFP片段5’的MfeI和MluI位点和3’的HpaI和XhoI位点。(2)构建ires-eGFP HDR-供体(GAPDH供体-HDR.2，见图9)。使用引物XJ-31/XJ-32从pLenti6.3-MCS-IRES2-EGFP(Invitogen)扩增携带ires-eGFP的DNA片段，并且插入到MluI和HpaI位点，以替代前述pSuper-puro质粒中的2a-copGFP。使用另一对引物XJ-33/XJ-34扩增5’同源臂，以涵盖GAPDH终止密码子和sg-2、3靶位点，而3’同源臂保留不变。(3)将GAPDH供体-HDR.2中的5’同源臂用使用引物GADPH 5’-臂XJ-33/XJ-57(表3)扩增的缩短的片段替代，以覆盖GAPDH终止密码子，但不覆盖sg-2和sg-3靶位点。3’同源臂保留不变。合成包含sg-A靶序列的两个互补寡核苷酸，将其退火并插入在同源臂侧连的ires-eGFP盒的3’(XhoI位点)或5’(NotI和BamHI位点)，从而分别构建GAPDH供体-HDR.3a和GAPDH供体-HDR.3b。

-NHEJ-供体.1质粒

-NHEJ-供体.2质粒

按照一个方面，构建两个用于包括断裂的GFP的NHEJ报道子测定的载体：构建两个ires-eGFP NHEJ-供体(GAPDH供体-NHEJ.1和GAPDH供体-NHEJ.2，见图7)。合成一对携带sg-A靶位点(5’-GAGATCGAGTGCCGCATCACCGG-3’)的寡聚体(XJ-35/XJ-36)，退火并且插入到携带ires-eGFP的pSuper-puro中，从而建立sgRNA靶位点以使供体载体线性化。对于单一切割NHEJ-供体(GAPDH供体-NHEJ.1)，将单个sg-A靶位点插入在ires-eGFP 5’的MfeI和MluI位点；然而，对于双切割NHEJ-供体(GAPDH供体-NHEJ.2)，将两个sg-A靶位点分别插入在ires-eGFP 5’的MfeI和MluI位点和3’的SalI和HpaI。

-12k NH-供体质粒

-34k NH-供体质粒

将包含sg-A靶序列接着是来自单一切割的NH-供体的ires-eGFP盒的DNA片段亚克隆到大的PiggyBac载体(3)的AfeI位点，以产生PB-ires-eGFP(12,458bp)，即，12k NH-供体。还将相同的sg-A-ires-eGFP片段插入到AdTrack载体(4)的HpaI和MfeI位点，然后，将其与AdEasy-1质粒共转化到大肠杆菌(E.Coli)BJ5183(4)中，以产生重组的AdEasy-ires-eGFP(34,457bp)，即，34k NH-供体。同时，将PGK-GFP片段插入在PiggyBac载体中的AfeI位点，以产生12k(PB)GFP-载体，而将原始的包含CMV-eGFP的AdTrack载体与AdEasy-1质粒共转化，以产生重组的34k(AD)GFP-载体。这些大的质粒恒定表达GFP，并且用于监视转染效率。

-恒定表达的(CE)NH-供体质粒

通过PCR从单一切割的NH-供体扩增包含sg-A靶序列、接着是500bp的间隔序列的DNA片段，并且插入到携带PGK-eGFP盒的pSuper-puro质粒的BamHI和MscI位点。得到的质粒称为CE NH-供体。

-ACTB HDR-供体质粒

-SOX17 HDR-供体质粒

-T HDR-供体质粒

从ACTB基因座扩增一个5’-和一个3’-同源臂，以替代GAPDH供体-HDR.2质粒中的GAPDH同源序列，用以产生ACTB HDR-供体。类似地，从SOX17和T基因组基因座中的每个扩增一个5’-和一个3’-同源臂，并且插入在CE NH-供体中PGK-eGFP的5’和3’，以产生SOX17和THDR-供体。所用的引物列在表3中。XJ-58/XJ-59和XJ-60/XJ-61分别用于ACTB的5′-同源臂和3′-同源臂。XJ-62/XJ-63和XJ-64/XJ-65分别用于SOX17的5′-同源臂和3′-同源臂。XJ-66/XJ-67和XJ-68/XJ-69分别用于T的5′-同源臂和3′-同源臂。

-NH-供体-in-eGFP质粒

-NH-供体-in-td-Tomato质粒

-NH-供体-in-puro质粒

-NH-供体-in-hygro质粒

使用本文之前所述的单一切割的NH-供体(GAPDH供体-NHEJ.1)作为所有四种载体的骨架；使用酶切位点Mlu1和Msc1删除ires，以得到NH-供体-eGFP质粒。为了产生NH-供体-td-Tomato质粒，使用td-Tomato替代eGFP。为了产生NH-供体-puro质粒，使用嘌呤霉素(“puro”)替代eGFP。为了产生NH-供体-hygro质粒，使用潮霉素(“hygro”)替代eGFP。使用酶切位点BamH1在sg-A的5’端插入人隔离子序列的串联重复，以分别得到NH-供体-in-eGFP、NH-供体-td-in-Tomato、NH-供体-in-puro以及NH--供体-in-hygro。本公开内容中的人隔离子序列可见于Liu等人的报告[36]。应用两种类型的人隔离子序列的串联重复(在Liu等人的报告中的A2和A4)。

-双色荧光质粒

使用本文之前所述的单一切割的NH-供体(GAPDH供体-NHEJ.1)作为双色载体的骨架；使用酶切位点Mlul和Mscl删除ires。然后，将td-pA克隆到SacII位点，以产生双报道子。

-Loxp-sgA-ires-eGFP-PA-LoxP-PGK-eGFP-pa供体质粒

-Loxp-sgA-ires-eGFP-PA-LoxP-PGK-td Tomato-pa供体质粒

-Loxp-sgA-ires-td Tomato-PA-LoxP-PGK-eGFP-pa供体质粒

-Loxp-sgA-ires-td Tomato-PA-LoxP-PGK-td Tomato-pa供体质粒

按照一个方面，构建四种靶向沉默的基因的基因座的载体，以用于NHEJ-介导的基因靶向报道子测定。使用本文之前所述的单一切割的NH-供体(GAPDH供体-NHEJ.1)作为Loxp-sgA-ires-eGFP-PA-LoxP-PGK-eGFP-pa供体的骨架。使用酶切位点HpaI和Xho1插入PGK-GFP-PA盒。然后，将在5’侧的LoxP位点合成为寡核苷酸并插入到SacII位点。另外，使用本文之前所述的单一切割的NH--供体(GAPDH供体-NHEJ.1)作为Loxp-sgA-ires-eGFP-PA-LoxP-PGK-td Tomato-pa供体的骨架。使用酶切酶位点HpaI和Xho1插入PGK-td Tomato-pa盒。然后，将在5’侧的LoxP位点合成为寡核苷酸并插入到SacII位点。对于Loxp-sgA-ires-td Tomato-PA-LoxP-PGK-eGFP-pa供体，使用Loxp-sga-ires-eGFP-PA-LoxP-PGK-eGFP-pa供体作为骨架。使用酶切位点BamH1和Hpa1删除ires-eGFP-pa并且插入ires-td Tomato-pa盒。最后，对于Loxp-sgA-ires-td Tomato-PA-LoxP-PGK-td Tomato-pa供体，使用Loxp-sga-ires-eGFP-PA-LoxP-PGK-td Tomato-pa供体作为骨架。使用酶切位点BamH1和Hpa1删除ires-eGFP-pa并且插入PGK-td Tomato-pa盒。

实施例III：细胞培养

将H1人ESCs(WiCell Research Institute)在不含饲养细胞的情况下维持在mTeSR1培养基(Stemcell Technologies)中的基质胶(BD Biosciences)上。每天更换培养基，并且每3天将细胞用0.5mM乙二胺四乙酸(EDTA，Life Technologies)传代培养。使用TrypLE(Life technologies)来解离H1细胞，制备用于FACS分析的单细胞。

人的体细胞系从ATCC(美国典型培养物保藏中心(American Type CultureCollection))获得。将LO2和HEK293T细胞培养在补充了10％胎牛血清(FBS，LifeTechnologies)的Dulbecco改良Eagle培养基(Dulbecco′s modified Eagle′s medium(DMEM)，Life Technologies)中；将SMMC-7721，BEL-7402，BEL-7404和H1299细胞培养在补充了10％FBS的Roswell Park Memorial Institute 1640(RPMI，Life Technologies)中；将HK2细胞培养在补充了10％FBS的1：1 F-12/DMEM培养基(Life Technologies)中；并且将HCT116细胞培养在补充了10％FBS的McCoy 5A培养基(Life Technologies)中。培养物用标准胰蛋白酶/EDTA每3或4天传代。

所有细胞都以37℃和5％CO₂保持在湿润化的培养箱中。

实施例IV：产生HEK293T-AAVS1(B)cGFP报道子细胞系

按照一个方面，按照供应商的使用说明，使用Lipofectamine 2000(LifeTechnologies)将pSuper_AAVS1(B)cGFP报道子质粒转染到HEK293T细胞中。在转染后第2天，将细胞解离成单个细胞并且以低密度接种。向培养基中以0.8μg/ml加入嘌呤霉素，并且将细胞培养7-10天直到出现单个的嘌呤霉素抗性克隆。挑取单克隆并且扩增。然后，使用针对5’整合连接的引物XJ-37/XJ-38和针对3’整合连接的XJ-39/XJ-40，通过PCR分析基因组DNA。阳性克隆用于通过FACS的HDR测定。鉴定了一个克隆在基因组中的正确靶位点携带(B)cGFP报道子，其可以被供体质粒(B)cGFP供体-HDR.1-3与(B)cGFP供体-HDR.A-B二者修复。

实施例V：产生人ESC H1-(B)cGFP报道子细胞系

按照一个方面，按照供应商的使用说明，使用Fugene HD(promega)将PiggyBac(B)cGFP报道子质粒转染到人ESCs H1细胞系中。在转染后第3天，将细胞解离成单个细胞并且在存在Rock抑制剂的条件下以低密度接种。向培养基中以0.4μg/ml加入嘌呤霉素，并且将细胞培养7-10天直到出现单个嘌呤霉素抗性克隆。挑取单克隆，扩增，然后利用FACS分析通过HDR测定筛选。鉴定了一个克隆在基因组中携带(B)cGFP报道子，并且可以通过供体质粒(B)cGFP供体-HDR.3修复。

实施例VI：产生小鼠ESC E14-Rosa26(B)cGFP报道子细胞系

按照一个方面，按照供应商的使用说明，使用Lipofectamine 2000(LifeTechnologies)将pSuper_Rosa26(B)cGFP报道子质粒转染到小鼠ESCsE14细胞中。在转染后第2天，将细胞解离成单个细胞并且以低密度接种。向培养基中以0.8μg/ml加入嘌呤霉素，并且将细胞培养7-10天直到出现单个嘌呤霉素抗性克隆。挑取单克隆并且扩增。然后，使用引物XJ-41/XJ-42(仅针对3’整合连接)通过PCR分析基因组DNA。阳性克隆用于通过FACS的HDR测定。鉴定了一个克隆在基因组中的正确靶位点携带(B)cGFP报道子，其可以被供体质粒(B)cGFP供体-HDR.1-3与(B)cGFP供体-HDR.A和B二者修复。

实施例VII：人ESCs(H1)的基因靶向

在mTeSR1培养基中培养人ESCs(H1)，并且每3天用1mg/ml胶原酶IV或0.5mM EDTA传代。对于核染，将细胞用TrypLE解离成单个细胞，并且按照供应商的使用说明，用Amaxa核染(Lonza)转染。简言之，对于每次转染，将5x10⁶个细胞与100μl核染试剂(82μl溶液-1+18μl溶液-B)混合，并且在37℃预先温育30分钟。然后，将细胞混悬液与16μg DNA(6μg Cas9质粒，4μg gRNA和/或6μg DNA供体质粒)混合，并且按照供应商的使用说明(Lonza)用程序A-023电穿孔。将电穿孔的H1人ESCs在补充了20％敲除血清替代品、1mM L-谷氨酰胺、1％非必需氨基酸、0.1mM β-巯基乙醇和4ng/ml碱性成纤维细胞生长因子(bFGF)(Lifetechnologies)的1：1 F-12/DMEM培养基中在丝裂霉素C灭活的MEF饲养细胞上培养。通过小鼠胚胎成纤维细胞调制培养基。向条件培养基中新鲜加入另外8ng/ml bFGF，用于培养刚转染的人ESC。每天更换培养基，持续4-5天，并且使用TrypLE(Life technologies)解离细胞，以制备用于FACS分析的单个细胞。使用16μg pEGFP-N1质粒，估计的转染效率约为53.5％。

实施例VIII：LO2、HEK293T和HCT116细胞的基因靶向

在转染前5-8小时，将LO2、HEK293T和HCT116细胞以5x10⁵个细胞/孔的密度接种到12孔平板中。使用Lipofectamine 2000(Life Technologies)转染细胞。按照供应商的使用说明(Life Technologies)，每个孔使用1.6μg质粒(0.6μg供体DNA质粒，0.6μg Cas9质粒和0.4μg sgRNA质粒)和4ul Lipofectamine 2000(Life Technologies)。当使用多于一种sgRNA时，总量保持相同，并且每种sgRNA质粒等于0.4μg平均地除以质粒的种类数。将LO2细胞批量传代一次，并且在通过FACS分析(BD LSRFortessa细胞分析仪)检验之前培养四天；然而，由于来自转染的质粒的高背景GFP表达，在通过FACS分析基因靶向效率之前，将HEK293T和HCT116细胞维持一周。通过转染1.6μg pEGFP-N1质粒，接着在48小时后进行FACS分析，估测每种细胞系的转染效率。

实施例IX：SMMC-7721、BEL-7402、BEL-7404、H1299和HK2细胞的基因靶向

使用FuGENE HD (Promega)将SMMC-7721、BEL-7402、BEL-7404、H1299和HK2细胞转染。在转染前16小时，将细胞以5x10⁵个细胞/孔的密度接种在12孔平板中。按照供应商的使用说明(Promega)，每个孔中使用0.6μg供体质粒、1.6ug DNA(0.6μg Cas9质粒，0.4μgsgRNA质粒)和4.5ul FuGENE HD (Promega)进行转染。当使用多种sgRNAs时，每种sgRNA质粒等于0.4μg平均地除以质粒的种类数。在使用FACS(BD LSRFortessa细胞分析仪)检验之前，将转染的细胞批量传代一次或两次。通过转染1.6μg pEGFP-N1质粒，接着在48小时后进行FACS分析，估测每种细胞系的转染效率。

实施例X：基因组DNA提取和基因组整合的PCR检测

使用基因组DNA提取试剂盒(Tiangen)按照供应商的使用说明从培养的细胞提取基因组DNA。按照供应商的使用说明，通常使用200ng基因组DNA进行使用Phusion高保真度DNA聚合酶(New England Biolabs)的PCR反应。用于检测HDR或NHEJ-介导的基因组整合的引物显示在表3中。

实施例XI：T7E1测定

按照一个方面，进行基因组PCR以扩增基因组中的sgRNAs靶标区域(704bp，使用引物XJ-43/XJ-44)。然后，电泳之后使用凝胶提取试剂盒(Tiangen)纯化PCR产物。将纯化的基因组DNA样品进行T7内切核酸酶I处理。使用热循环仪将300ng纯化的PCR产物在20μl NE缓冲液2(NEB)中变性并退火。然后将杂交的PCR产物用T7内切核酸酶1(NEB，M0302L)在37℃消化60分钟，并且进行2％琼脂糖凝胶电泳。使用ImageJ定量T7E1切割效率。所有的PCR引物序列列在表3中。

实施例XII：TA-连接测序

按照一个方面，将由提取的基因组DNA扩增的PCR片段测序。用于同源臂扩增和整合检测的引物(XJ-45-XJ-54)列在表3中。将基因组PCR片段与dATP和Taq DNA聚合酶(Dreamtaq，TAKARA)一起温育，以在末端添加A。然后，使用MEGA快旋(quick-spin)总片段DNA纯化试剂盒(iNtRON)纯化这些产物，并且按照供应商的使用说明连接到pGEM T easy载体(Promega)中。然后，使用标准的M13-正向和M13-反向引物(表3)通过BGI对阳性克隆进行测序。

实施例XIII：荧光-激活的细胞分选分析

将荧光激活的细胞分选(FACS)分析仪(BD LSRFortessa细胞分析仪)设置单个488nm氩离子激光器(200mW)。将该激光器用于通过细胞荧光蛋白(copGFP或eGFP)的激发或细胞内的颗粒性诱导光散射。通过显微镜目镜收集来自细胞的SSC(侧向散射收集器)光检测，通过纤维光导传递到光电倍增管(PMT′s)阵列，并且按照制造商推荐的默认设置，将FSC(Forward Scatter Collector，正向散射收集器)构建光电二极管。

关于FACS样品得到的数据包括一些不同的绘图窗口(plot windows)；其包括关于FSC-A vs.SSC-A、FSC-A vs.FITC-A(GFP)、SSC-A vs.FITC-A(GFP)的点图，和关于特定通道的SSC-A、FSC-A与FITC-A(GFP)的柱状图(宽×高)(“A”是计算的面积；“FS”是正向散射；“SS”是侧向散射)。在每份样品的记录过程中，对关于FSC-A vs.SSC-A的图和/或FITC-A(GFP)柱状图设置门控为10³-10⁴(对数级别)，以监视并观察GFP表达水平和效率。在关于FITC-A(GFP)对数级别的门控内记录的事件提供GFP表达水平的良好指示，并且计数表示GFP-阳性细胞的数量。在门控区域内GFP-阳性细胞占总计数的比例定义为靶向效率。

实施例XIV：产生LIG4过表达构建体

通过RT-PCR从由野生型LO2细胞提取的RNA扩增人LIG4 cDNA，并且克隆到pCAG-ires-Hyg载体的BglII和XhoI位点[9]。所用的引物在表3中列为XJ-70和XJ-71。

实施例XV：产生LIG4无效LO2细胞

将野生型LO2细胞用Cas9与组合的sgLIG4-i-iv共转染两次。将转染的细胞解离成单个细胞，并且以低密度(2000个细胞/10cm培养皿)接种用于集落扩增。然后，将单个克隆分离并通过基因组PCR和蛋白质印迹分析。所用的引物在表3中显示为XJ-72至XJ-76。

实施例XVI：LO2的基因靶向

在转染前5-8小时，将LO2细胞以5x10⁵个细胞/孔的密度接种在12孔平板中。细胞使用Lipofectamine 2000(Life Technologies)进行转染。每个孔中使用1.6μg质粒(0.6μg供体DNA质粒，0.6μg Cas9质粒和0.4μg sgRNA质粒)，并且按照供应商的使用说明(LifeTechnologies)使用4ul Lipofectamine 2000(Life Technologies)。当使用多于一种的sgRNA时，总量保持相同，并且每种sgRNA质粒等于0.4μg平均地除以质粒的种类数。在FACS分析(BD LSRFortessa细胞分析仪)之前，将LO2细胞批量传代一次，并且培养四天；然而，由于来自转染的质粒的高背景GFP表达。通过转染1.6μg pEGFP-N1质粒，接着在48小时后进行FACS分析，估测每种细胞系中的转染效率。

实施例XVII：LIG4挽救测定

为了进行LIG4挽救测定，在每个孔中组合另外0.6μg LIG4 cDNA过表达质粒与0.6μg供体、0.6μg Cas9、0.4μg sgRNA，并且按照供应商的使用说明(Life Technologies)组合5.5μl Lipofectamine 2000(Life Technologies)进行转染。在通过FACS分析(BDLSRFortessa细胞分析仪)检验之前，将LO2细胞批量传代一次并培养四天。

实施例XVIII：蛋白质印迹

将细胞用胰蛋白酶处理，用PBS清洗，并且在冰上在包含50mM Tris、0.5％NP40、1mM EDTA、1mM DTT、10％甘油、400mM氯化钠和蛋白酶抑制剂混合物(Roche)的缓冲液中裂解20分钟，然后在4℃离心15分钟。通过SDS/PAGE分辨每种样品的10μg蛋白，然后转移到聚偏氟乙烯膜(Bio-Rad)上。将膜在室温用在PBST缓冲液中的5％脱脂奶粉封闭1小时，然后用抗-DNA连接酶IV(Abcam)或抗-β-肌动蛋白(Santa Cruz)抗体温育过夜。将膜用PBST缓冲液洗涤三次，并且用HRP-缀合的山羊抗-小鼠(Life-Technologies)或山羊抗-兔(SantaCruz)抗体温育。使用Amersham ECL选择性蛋白质印迹检测试剂盒(GE Health Care LifeSciences)检测信号并且曝光到Super RX-N胶片(Fuji)上。

实施例XIX：免疫荧光

如之前所述进行免疫荧光[9]。基本上，将细胞用在PBS中的4％的低聚甲醛(Sigma)固定。将细胞膜用1％Triton X-100/PBS渗透化处理，并且用在0.1％吐温-20/PBS中的8％FBS封闭非特异性的结合。然后，将样品用稀释在封闭液中的一级抗体在4℃温育过夜，然后用Alexafluor 546-缀合的二级抗体在室温温育2-4小时。通过1∶5000的Hoechst染料(Life Technologies)复染细胞核。所用的一级抗体是OCT4(1∶100，Santa Cruz)、TRA-1-60(1∶100，Santa Cruz)。

本申请中引用的所有专利、专利申请和其他出版物，包括GenBank登记号，通过引用完全地结合用于所有的目的。

参考文献

1.Vasquez KM，Marburger K，Intody Z&Wilson JH.Manipulating themammalian genome by homologous recombination(通过同源重组操作哺乳动物的基因组).Proc Natl Acad Sci USA 98，8403-10(2001).

2.Koller BH，Hagemann LJ，Doetschman T，Hagaman JR，Huang S，Williams PJ，First NL，Maeda N&Smithies O.Germ-line transmission of a planned alterationmade in a hypoxanthine phosphoribosyltransferase gene by homologousrecombination in embryonic stem cells(在整合干细胞中通过同源重组在次黄嘌呤磷酸核糖转移酶基因中进行计划的改变的种系传递).Proc Natl Acad Sci USA 86，8927-31(1989).

3.Capecchi MR.Gene targeting in mice：functional analysis of themammalian genome for the twenty-first century(小鼠中的基因靶向：二十一世纪的哺乳动物基因组功能分析).Nat Rev Genet 6，507-12(2005).

4.Thomson JA，Itskovitz-Eldor J，Shapiro SS，Waknitz MA，Swiergiel JJ，Marshall VS&Jones JM.Embryonic stem cell lines derived from human blastocysts(来源于人胚泡的胚胎干细胞系).Science 282，1145-7(1998).

5.Takahashi K，Tanabe K，Ohnuki M，Narita M，Ichisaka T，Tomoda K&YamanakaS.Induction of pluripotent stem cells from adult human fibroblasts by definedfactors(通过限定的因子从成人成纤维细胞诱导多能干细胞).Cell 131，861-72(2007).

6.Sterneckert JL，Reinhardt P&Scholer HR.Investigating human diseaseusing stem cell models(利用干细胞模型研究人类疾病).Nat Rev Genet 15，625-39(2014).

7.Nakayama M.Homologous recombination in human iPS and ES cells foruse in gene correction therapy(用于基因修正疗法的人iPS和ES细胞中的同源重组).Drug Discov Today 15，198-202(2010).

8.Musunuru K.Genome editing of human pluripotent stem cells togenerate human cellular disease models(人多能干细胞的基因组编辑以产生人细胞疾病模型).Dis Model Mech 6，896-904(2013).

9.Jiang W，Bikard D，Cox D，Zhang F&Marraffini LA.RNA-guided editing ofbacterial genomes using CRISPR-Cas systems(使用CRISPR-Cas细胞的RNA-导向的细菌基因组编辑).Nat Biotech 31，233-239(2013).

10.Hsu PD，Lander ES&Zhang F.Development and applicatiohs of CRISPR-Cas9 for genome engineering(CRISPR-Cas9用于基因组改造的研发和应用).Cell 157，1262-78(2014).

11.Kearns NA，Genga RM，Enuameh MS，Garber M，Wolfe SA&Maehr R.Cas9effector-mediated regulation of transcription and differentiation in humanpluripotent stem cells(人多能干细胞中Cas9效应子-介导的转录和分化的调节).Development 141，219-23(2014).

12.Lieber MR.The mechanism of double-strand DNA break repair by thenonhomologous DNA end-joining pathway(通过非同源DNA末端连接途径的双链DNA断裂修复的机制).Annu Rev Biochem 79，181-211(2010).

13.Wang H，Yahg H，Shivalila CS，Dawlaty MM，Cheng AW，Zhang F&JaenischR.One-step generation of mice carrying mutatiohs in multiple genes by CRISPR/Cas-mediated genome engineering(通过CRISPR/Cas-介导的基因组改造一步法产生在多种基因中携带突变的小鼠).Cell 153，910-8(2013).

14.Heyer WD，Ehmsen KT&Liu J.Regulation of homologous recombination ineukaryotes(真核生物中同源重组的调节).Annu Rev Genet 44，113-39(2010).

15.Merkle FT，Neuhausser WM，Santos D，Valen E，Gagnon JA，Maas K，SandoeJ，Schier AF&Eggan K.Efficient CRISPR-Cas9-Mediated Generation of KnockinHuman Pluripotent Stem Cells Lacking Undesired Mutations at the TargetedLocus(有效的CRISPR-Cas9-介导的在靶向的基因座缺少不需要的突变的敲入人多能干细胞的产生).Cell Rep 11，875-83(2015).

16.van Rensburg R，Beyer I，Yao XY，Wang H，Denisenko O，Li ZY，Russell DW，Miller DG，Gregory P，Holmes M，Bomsztyk K&Lieber A.Chromatin structure of twogenomic sites for targeted transgene integration in induced pluripotent stemcells and hematopoietic stem cells(在诱导的多能干细胞和造血干细胞中用于靶向的转基因整合的两个基因组位点的染色质结构).Gene Ther 20，201-14(2013).

17.Szymczak AL，Workman CJ，Wang Y，Vignali KM，Dilioglou S，Vanin EF&Vignali DA.Correction of multi-gene deficiency in vivo using a single′self-cleaving′2A peptide-based retroviral vector(使用单个‘自我-切割’的基于2A肽的反转录病毒载体在体内修正多基因缺陷).Nat Biotechnol 22，589-94(2004).

18.Casola S.Mouse modelsfor miRNA expression：the ROSA26 locus (小鼠miRNA表达模型：ROSA26基因座).Methods Mol Biol 667，145-63(2010).

19.Woltjen K，Michael IP，Mohseni P，Desai R，Mileikovsky M，Hamalainen R，Cowling R，Wang W，LiuP，Gertsenstein M，Kaji K，Sung HK&Nagy A.piggyBactransposition reprograms fibroblasts to induced pluripotent stem cells(piggyBac易位将成纤维细胞重新编程为诱导的多能干细胞).Nature 458，766-70(2009).

20.Hwang WY，Fu Y，Reyon D，Maeder ML，Tsai SQ，Sander JD，Peterson RT，YehJR&Joung JK.Efficient genome editing in zebrafish using a CRISPR-Cas system(在斑马鱼中使用CRISPR-Cas系统的有效基因组编辑).Nat Biotechnol 31，227-9(2013).

21.Jiang W，Bikard D，Cox D，Zhang F&Marraffini LA.RNA-guidedediting ofbacterial genomes using CRISPR-Cas systems(利用CRISPR-Cas系统的RNA-导向的细菌基因组编辑).Nat Biotechnol 31，233-9(2013).

22.Hu J，Lei Y，Wong W-K，Liu S，Lee K-C，He X，You W，Zhou R，Guo J-T，ChenX，Peng X，Sun H，Huang H，Zhao H&Feng B.Direct activation of human and mouseOct4 genes using engineered TALE and Cas9 transcription factors(使用改造的TALE和Cas9转录因子直接激活人和小鼠Oct4基因).Nucleic Acids Research 42，4375-4390(2014).

23.Feng B，Jiang J，Kraus P，Ng JH，Heng JC，Chan YS，Yaw LP，Zhang W，LohYH，Han J，Vega VB，Cacheux-Rataboul V，Lim B，Lufkin T&Ng HH.Reprogramming offibroblasts into induced pluripotent stem cells with orphan nuclear receptorEsrrb(使用孤儿核受体Esrrb将成纤维细胞重新编程为诱导的多能干细胞).Nat CellBiol 11，197-203(2009).

24.Yu C，Liu Y，Ma T，Liu K，Xu S，Zhang Y，Liu H，La Russa M，Xie M，Ding S&Qi LS.Small molecules enhance CRISPR genome editingin pluripotent stem cells(小分子增强多能干细胞中的CRISPR基因组编辑).Cell Stem Cell 16，142-7(2015).

25.Maruyama T，Dougan SK，Truttmann MC，Bilate AM，Ingram JR&PloeghHL.Increasing the efficiency of precise genome editing with CRISPR-Cas9 byinhibition of nonhomologous end joining(通过抑制非同源末端连接使用CRISPR-Cas9提高精确的基因组编辑的效率).Nat Biotechnol 33，538-42(2015).

26.Zhu Z，Verma N，Gonzalez F，Shi ZD&Huangfu D.A CRISPR/Cas-MediatedSelection-free Knockin Strategy in Human Embryonic Stem Cells(在人胚胎干细胞中CRISPR/Cas-介导的无选择敲入策略).Stem Cell Reports 4，1103-11(2015).

27.Li J，Zhang BB，Ren YG，Gu SY，Xiang YH&Du JL.Intron targeting-mediated and endogenous gene integrity-maintaining knockin in zebrafish usingthe CRISPR/Cas9 system(在斑马鱼中使用CRISPR/Cas9系统的内含子靶向-介导的和保持内源性基因完整性的敲入).Cell Res 25，634-7(2015).

28.Hisano Y，Sakuma T，Nakade S，Ohga R，Ota S，Okamoto H，Yamamoto T&Kawahara A.Precise in-frame integration of exogenous DNA mediated by CRISPR/Cas9 system in zebrafish(在斑马鱼中通过CRISPR/Cas9系统介导的内源性DNA的符合阅读框的整合).Sci Rep 5，8841(2015).

29.MALI PG，Church GM&Yang L.RNA-Guided Human Genome Engineering(RNA-导向的人基因组改造).(Google Patents，2014).

30.Wu F.Crispr/cas systems for genomic modification and genemodulation(用于基因组修饰和基因调整的Crispr/cas系统).(Google Patents，2014).

31.Zhang F&RAN F.Delivery，engineering and optimization of systems，methods and compositions for sequence manipulation and therapeuticapplications(用于序列操作和治疗性应用的系统、方法和组合物的递送、改造和优化).(Google Patents，2014).

32.Cong L&Zhang F.CRISPR-Cas component systems，methodsandcompositions for sequence manipulation(用于序列操作的CRISPR-Cas成分系统、方法和组合物).(Google Patents，2014).

33.Chen F，Davis GD，KANG Q&KNIGHT SW.Crispr-based genome modificationand regulation(基于Crispr的基因组修饰和调节).(Google Patents，2014).

34.Zhang F.Crispr-cas component systems，methods and compositions forsequence manipulation(用于序列操作的Crispr-cas成分系统、方法和组合物).(GooglePatents，2015).

35.Zetsche，B.，等人，Cpfl Is a Single RNA-Guided Endonuclease of aClass 2 CRISPR-Cas System(Cpf1是2类CRISPR-Cas系统的单RNA-导向的内切核酸酶).Cell.163(3)：p.759-771.

36.Liu，M.，等人，Genomic discovery of potent chromatin insulators forhuman gene therapy(用于人基因治疗的有效的染色质隔离子的基因组发现).NatBiotech，2015.33(2)：p.198-203.

序列表

<110> 香港中文大学

<120> 用于靶向基因操作的新方法和系统

<130> 080015-1021507(017420US)

<150> US 62/256,514

<151> 2015-11-17

<150> US 62/288,974

<151> 2016-01-29

<160> 143

<170> PatentIn version 3.5

<210> 1

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 1

gagagagacc ctcactgctg 20

<210> 2

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 2

agccccagca agagcacaag 20

<210> 3

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 3

cttcctcttg tgctcttgct 20

<210> 4

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 4

gccatgtaga ccccttgaag 20

<210> 5

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 5

gagatcgagt gccgcatcac 20

<210> 6

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 6

aagattcatc accgctttga 20

<210> 7

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 7

ttaaactaca gaacacccac 20

<210> 8

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 8

tctggcagac tcattgcagc 20

<210> 9

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 9

tagggtagaa ttgttacagc 20

<210> 10

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 10

aatatgagat gcgttgttac 20

<210> 11

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 11

gtaacaacgc atctcatatt 20

<210> 12

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 12

ctgcaggctg gggcggatca 20

<210> 13

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 13

gaagtgtgta acactgcttc 20

<210> 14

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 14

cactgcatct ttcgggacct 20

<210> 15

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 15

ggagaatgag ctgcagg 17

<210> 16

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 16

gctctttccc gcgctct 17

<210> 17

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 17

caaaaagtca ctgcatcttt 20

<210> 18

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 18

gccttctcgc cccctccagg 20

<210> 19

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 19

ggtggtggag gtgatgggcc 20

<210> 20

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 20

ggtgaatgac atttgtgggt 20

<210> 21

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 21

gtgcctgccc ttctaggaat 20

<210> 22

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 22

ggcccacaaa tcacaggcat 20

<210> 23

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 23

gccgaccgac tgaggcc 17

<210> 24

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 24

gctgccgggc gcggagc 17

<210> 25

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 25

gttaattcag tcagtgacta 20

<210> 26

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 26

gagagagacc ctcactgctg 20

<210> 27

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 27

gagagagacc ctcactgctg 20

<210> 28

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 28

gagagagacc ctcactgctg 20

<210> 29

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 29

gagagagacc ctcactgctg 20

<210> 30

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 30

gagagaggcc ctcactgctg 20

<210> 31

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 31

gagagaggcc ctcactgctg 20

<210> 32

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 32

gagagagacc ctcaatgctg 20

<210> 33

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 33

gagagaggcc ctcactgctg 20

<210> 34

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 34

aagagaggcc ctcactgctg 20

<210> 35

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 35

gagagaggct ctcactgctg 20

<210> 36

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 36

tagagagagc ctcactgctg 20

<210> 37

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 37

gagagcggcc ctcactgctg 20

<210> 38

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 38

cagagagacc ctcagtgctg 20

<210> 39

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 39

gagagaggcc ttcactgctg 20

<210> 40

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 40

gagagaggcc ttcactgctg 20

<210> 41

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 41

gagagaggcc ctcactcctg 20

<210> 42

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 42

agccccagca agagcacaag 20

<210> 43

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 43

agccccagca agagcacaag 20

<210> 44

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 44

agccccagcg agagcacaag 20

<210> 45

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 45

agccccagta agagcacaag 20

<210> 46

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 46

agccccagca agagcacaac 20

<210> 47

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 47

agccccagca agagcacgag 20

<210> 48

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 48

agccccagca agagcacgag 20

<210> 49

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 49

agccccagca agagcacgag 20

<210> 50

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 50

agccccagtg agagcacaag 20

<210> 51

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 51

agccccagtg agagcacaag 20

<210> 52

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 52

agccccagtc agagcacaag 20

<210> 53

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 53

agcccaagca acagcacaag 20

<210> 54

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 54

agccccagga agagcacagg 20

<210> 55

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 55

agccccagcg agagcacgag 20

<210> 56

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 56

agccccagcg agagcaccag 20

<210> 57

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 57

gttcctcttg tgctcttgct 20

<210> 58

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 58

cttcctcttg tgctctcgct 20

<210> 59

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 59

cttcctctcg tgctcttgct 20

<210> 60

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 60

cttcctctcg tgctcttgct 20

<210> 61

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 61

tttcctctcg tgctcttgct 20

<210> 62

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 62

cttcctcttg tgctcttact 20

<210> 63

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 63

cttcctcttg tgctgttgct 20

<210> 64

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 64

gccatgtaga ccccttgaag 20

<210> 65

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 65

tccatgtaga ccccttgaag 20

<210> 66

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 66

agagacaatt gcgcacacat tccacatcca c 31

<210> 67

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 67

agagaacgcg tggcaccggg cttgcg 26

<210> 68

<211> 87

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 68

agagaacgcg tgccactaac ttctccctgt tgaaacaagc aggggatgtc gaagagaatc 60

ccgggccaat ggagagcgac gagagcg 87

<210> 69

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 69

agagaggatc ctcaatcaat cacgatgcgg gtgttggtgt ag 42

<210> 70

<211> 92

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 70

agagaggatc ctgaggctac gtccaggagc gcaccatctt cttcaaggac gacggcaact 60

tgattgattg atgcacgtga gcttcagcta cc 92

<210> 71

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 71

agagaagatc tccatagagc ccaccgcatc 30

<210> 72

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 72

agagagtcga ccggaactct gccctctaac g 31

<210> 73

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 73

agagacaatt gcccagaacc agagccacat t 31

<210> 74

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 74

agagagttaa ccccccacct cctgttaggc aga 33

<210> 75

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 75

agagagaatt cagagcagag ccaggaaccc 30

<210> 76

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 76

agagagtcga cgtggagccg ttctgtgaga c 31

<210> 77

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 77

agagacaatt gaactcccag aaaggtattg caac 34

<210> 78

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 78

agagacttaa gttctgggca ggcttaaagg c 31

<210> 79

<211> 36

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 79

agagagaatt cagcttggca aaatcacatt tagacc 36

<210> 80

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 80

accgagctgc aagaactctt cc 22

<210> 81

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 81

cctaagcttg gctggacgta aactc 25

<210> 82

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 82

ccgcaacctc cccttctacg ag 22

<210> 83

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 83

ctggcaacta gaaggcacag tcg 23

<210> 84

<211> 86

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 84

agagaacgcg tgccactaac ttctccctgt tgaaacaagc aggggatgtc gaagagaatc 60

ccgggccaat ggtgagcaag ggcgag 86

<210> 85

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 85

agagaggatc cttacttgta cagctcgtcc atgc 34

<210> 86

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 86

agagaggatc ccaccctgaa cggcgtgga 29

<210> 87

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 87

cccgcaacct ccccttctac gag 23

<210> 88

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 88

ctgcaagaac tcttcctcac g 21

<210> 89

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 89

agagaagatc tttagcgaga tccggtggag c 31

<210> 90

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 90

agagacaatt ggacacgctc ccctgacttg c 31

<210> 91

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 91

agagaacgcg tctccttgga ggccatgtgg 30

<210> 92

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 92

agagagttaa cccctgccac actcagtccc c 31

<210> 93

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 93

agagactcga gctggggtta caggcgtgcg 30

<210> 94

<211> 41

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 94

agagagaatt ccaattgacg cgtgctcctc tccctccccc c 41

<210> 95

<211> 45

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 95

agagaagatc tacttacctg ttacttgtac agctcgtcca tgccg 45

<210> 96

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 96

agagaggatc cgacacgctc ccctgacttg c 31

<210> 97

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 97

agagacaatt gttcctcttg tgctcttgct gg 32

<210> 98

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 98

gatccgagat cgagtgccgc atcaccggc 29

<210> 99

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 99

aattgccggt gatgcggcac tcgatctcg 29

<210> 100

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 100

cgtgggcttg tactcggtca tgg 23

<210> 101

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 101

gacctgcatc catctagatc tctcg 25

<210> 102

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 102

gataccccga agagtgagtt tgcc 24

<210> 103

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 103

gttctaattc catcagaagc tggtcg 26

<210> 104

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 104

attgttttgc caagttctaa ttccatc 27

<210> 105

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 105

caagtcaagc aaaattatag gtcctg 26

<210> 106

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 106

gaaggtggtg aagcaggcg 19

<210> 107

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 107

gagcgggaag caaatggtt 19

<210> 108

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 108

ggagtccact ggcgtcttca 20

<210> 109

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 109

gcccaccagc tcgaactcc 19

<210> 110

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 110

gcggctacta cagcttcgtg gtg 23

<210> 111

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 111

gatggagtct catactctgt tgcct 25

<210> 112

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 112

gaaggtggtg aagcaggcg 19

<210> 113

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 113

cctcacattg ccaaaagacg 20

<210> 114

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 114

cgccagggtt ttcccagtca cgac 24

<210> 115

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 115

actcccactg tcctttccta at 22

<210> 116

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 116

gagcgggaag caaatggtt 19

<210> 117

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 117

caggaaacag ctatgac 17

<210> 118

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 118

ttgaggctgc tgggtctc 18

<210> 119

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 119

gctctgaaca ggtaacagct aca 23

<210> 120

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 120

agagacaatt gttactcctt ggaggccatg tgg 33

<210> 121

<211> 37

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 121

agagaggatc cacattaagg agaagctgtg ctacgtc 37

<210> 122

<211> 37

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 122

agagacaatt gacaacaatg tgcaatcaaa gtcctcg 37

<210> 123

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 123

agagagtcga ctctaaggag aatggcccag tcctc 35

<210> 124

<211> 36

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 124

agagagttaa ccagacctca gcccatagct aaccag 36

<210> 125

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 125

agagacaatt gcctttagag gacgggtgtt c 31

<210> 126

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 126

agagaacgcg tcacgtcagg atagttgcag taat 34

<210> 127

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 127

agagagaatt cgtttttgtt gttgctgttg ttg 33

<210> 128

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 128

agagactcga gccatctttt actcacaacc ctg 33

<210> 129

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 129

agagacaatt gggtgctttt cttgctgctg g 31

<210> 130

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 130

agagaacgcg tcatggaagg tggcgacaca g 31

<210> 131

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 131

agagagttaa ctggcagtct caggttaaga agga 34

<210> 132

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 132

agagagaatt cataatgccg ctttgacact cc 32

<210> 133

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 133

agagaggatc catggctgcc tcacaaactt cac 33

<210> 134

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 134

agagactcga ggcaatgagt ctgccagatc agag 34

<210> 135

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 135

cttcaaatta gggttggagc aaaacag 27

<210> 136

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 136

atcgacaggg ttttattgtt acatttgg 28

<210> 137

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 137

tcctttctgt aaacatcttg gcttcaacac 30

<210> 138

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 138

ctcccctcag gacattttac gtttg 25

<210> 139

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 139

acacatagta tcgcatggat caaattccg 29

<210> 140

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 140

tcattttgga cctgacttgc catc 24

<210> 141

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 141

catccctgca tctactggtg ctac 24

<210> 142

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 142

ggaaaaacct gccaaatatg atgacacc 28

<210> 143

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸序列.

<400> 143

tcagcccctt gttgaatacg cttg 24

Claims

1.整合构建体，其包含启动子，所述启动子从5'至3'可操作地与下述连接：报道基因的第一非功能性编码片段，中断片段，和所述报道基因的第二非功能性编码片段，其中从所述启动子不表达功能性报道蛋白。

2.权利要求1的整合构建体，其还包含两个基因组同源序列，一个位于所述启动子的5'端并且另一个位于所述报道基因的第二非功能性编码片段的3'端，其中这两个基因组同源序列与细胞预先确定的遗传基因座处的基因组序列的两个片段同源，以使这两个基因组同源序列的存在允许在所述整合构建体与所述细胞在所述预先确定的遗传基因座处的基因组序列之间的同源重组。

3.权利要求1的整合构建体，其中所述报道基因的第一和第二非功能性编码片段当没有所述中断片段连接在一起时编码功能性报道基因蛋白。

4.权利要求2的整合构建体，其中所述预先确定的遗传基因座包含非必需基因。

5.供体构建体，其从5'到3'包含：第一报道基因同源片段，间隔片段，和第二报道基因同源片段，其中所述第一和第二报道基因同源片段与权利要求1的报道基因的第一和第二非功能性编码片段同源，以使这两个报道基因同源片段的存在允许在权利要求1的整合构建体与所述供体构建体之间的同源重组，从而形成功能性报道基因的编码序列。

6.权利要求5的供体构建体，其中所述间隔片段编码功能性报道基因蛋白。

7.包含权利要求1的整合构建体的宿主细胞。

8.权利要求7的细胞，其是干细胞或体细胞。

9.权利要求7的细胞，其还包含权利要求5的供体构建体。

10.用于检测CRISPR-介导的同源性定向修复途径的方法，所述方法包括下述步骤：(i)使权利要求7的细胞与下述接触：权利要求5的供体构建体，编码能够与权利要求1中报道基因的非功能性编码片段或中断片段内部约20个核苷酸的片段杂交的sgRNA的DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由所述报道基因蛋白产生的信号。

11.用于鉴定CRISPR-介导的同源性定向修复途径的增强剂的方法，所述方法包括下述步骤：(i)在存在和不存在候选化合物的条件下，使权利要求7的细胞与下述接触：权利要求5的供体构建体，编码能够与权利要求1中报道基因的非功能性编码片段或中断片段内部约20个核苷酸的片段杂交的sgRNA的DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由报道基因蛋白产生的信号；并且(iii)当与不存在所述化合物相比，在存在所述化合物的条件下检测到更高的报道基因蛋白信号时，确定所述化合物为CRISPR-介导的同源性定向修复途径的增强剂。

12.供体构建体，其包含：(1)报道基因的编码序列；(2)位于所述报道基因编码序列的5'端的第一基因组同源片段；和(3)位于所述报道基因编码序列的3'端的第二基因组同源片段，其中所述第一和第二基因组同源片段与预先确定的基因组序列同源。

13.用于直接检测CRISPR-诱导的同源性定向修复的活性的方法，所述方法包括下述步骤：(i)使细胞与下述接触：权利要求12的供体构建体，编码能够与预先确定的基因组序列的上游或下游非编码序列内部的片段杂交的sgRNA的DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由报道基因蛋白产生的信号。

14.用于鉴定CRISPR-诱导的同源性定向修复的增强剂的方法，所述方法包括下述步骤：(i)在存在和不存在候选化合物的条件下，使细胞与下述接触：权利要求12的供体构建体，编码能够与预先确定的基因组序列的上游或下游非编码序列内部的片段杂交的sgRNA的DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由报道基因蛋白产生的信号；并且(iii)当与不存在所述化合物相比，在存在所述化合物的条件下检测到更高的报道基因蛋白信号时，确定所述化合物为CRISPR-诱导的同源性定向修复的增强剂，并且，当与不存在所述化合物相比，在存在所述化合物的条件下检测到更低的报道基因蛋白信号时，确定所述化合物为CRISPR-诱导的同源性定向修复的抑制剂。

15.供体构建体，其包含：(1)报道基因编码序列；(2)在所述报道基因编码序列的5'端的双顺反子元件；(3)在所述报道基因编码序列的3'端的多聚腺苷酸片段，(4)任选地具有一个位于所述报道基因编码序列的5'端或所述多聚腺苷酸片段的3'端的sg-A靶序列位点，或具有两个sg-A靶序列位点，一个位于所述报道基因编码序列的5'端，另一个位于所述多聚腺苷酸片段的3'端；和(5)任选地具有插入在所述双顺反子元件的5'端的包含多个终止密码子的序列。

16.用于检测CRISPR-诱导的非同源末端连接修复的方法，所述方法包括下述步骤：(i)使细胞与下述接触：权利要求15的供体构建体，编码分别能够与靶序列位点之一杂交的一种或两种sgRNAs的一种或两种DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由报道基因蛋白产生的信号。

17.用于鉴定CRISPR-诱导的非同源末端连接修复的增强剂的方法，所述方法包括下述步骤：(i)在存在和不存在候选化合物的条件下，使细胞与下述接触：权利要求15的供体构建体，编码分别能够与靶序列位点之一杂交的一种或两种sgRNAs的一种或两种DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由报道基因蛋白产生的信号；并且(iii)当与不存在所述化合物相比，在存在所述化合物的条件下检测到更高的报道基因蛋白信号时，确定所述化合物为CRISPR-诱导的非同源末端连接修复的增强剂，并且，当与不存在所述化合物相比，在存在所述化合物的条件下检测到更低的报道基因蛋白信号时，确定所述化合物为CRISPR-诱导的非同源末端连接修复的抑制剂。

18.用于通过CRISPR-诱导的非同源末端连接修复在活性基因的基因座插入报道基因以产生报道细胞的方法，所述方法包括下述步骤：(i)使细胞与下述接触：权利要求15的供体构建体，编码分别能够与靶序列位点之一杂交的一种或两种sgRNAs的一种或两种DNA分子，和编码Cas9蛋白的DNA分子；(ii)检测由报道基因蛋白产生的信号；并且(iii)收集表现出共存多于两种报道信号的细胞。

19.供体构建体，其包含：(1)报道基因编码序列；(2)在所述报道基因编码序列的5'端的双顺反子元件；(3)在所述报道基因的编码序列的3'端的多聚腺苷酸片段；(4)位于所述双顺反子元件的5'端的第一基因组同源片段；和(5)位于所述多聚腺苷酸片段的3'端的第二基因组同源片段，其中所述第一和第二基因组同源片段与预先确定的基因组序列是同源的。

20.供体构建体，其包含：(1)报道基因编码序列；(2)在所述报道基因编码序列的5'端的通用且组成型的启动子；(3)在所述报道基因编码序列的3'端的多聚腺苷酸片段；(4)位于所述通用且组成型启动子的5'端的第一基因组同源片段；和(5)位于所述多聚腺苷酸片段的3'端的第二基因组同源片段，其中所述第一和第二基因组同源片段与预先确定的基因组序列是同源的。

21.权利要求18或19的供体构建体，其中所述双顺反子元件或所述通用且组成型的启动子与所述报道基因是异源的。

22.用于通过CRISPR-诱导的同源性定向修复向活性(active)基因的基因座插入报道子的方法，所述方法包括下述步骤：(i)使细胞与下述接触：权利要求19的供体构建体、编码能够与预先确定的基因组序列的上游或下游非编码序列内的片段杂交的sgRNA的DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由报道基因蛋白产生的信号。

23.用于通过CRISPR-诱导的同源性定向修复向沉默的基因组基因座插入报道子的方法，所述方法包括下述步骤：(i)使细胞与下述接触：权利要求20的供体构建体，编码分别能够与靶序列位点之一杂交的一种或两种sgRNAs的一种或两种DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由报道基因蛋白产生的信号。

24.供体构建体，其包含：(1)报道基因编码序列；(2)在所述报道基因编码序列的3'端的多聚腺苷酸片段；(3)具有位于所述报道基因编码序列的5'端的一个sg-A靶序列位点，或具有两个靶序列位点，一个位于所述报道基因编码序列的5'端，另一个位于所述多聚腺苷酸片段的3'端；和(4)在位于所述报道基因编码序列的5'端的sg-A靶序列位点的5’端的人隔离子序列的串联重复。

25.供体构建体，其包含：(1)报道基因编码序列；(2)在所述报道基因编码序列的5'端的通用且组成型的启动子；(3)在所述报道基因编码序列的3'端的多聚腺苷酸片段；和(4)任选地具有位于所述报道基因编码序列的5'端的一个sg-A靶序列位点，或具有两个靶序列位点，一个位于所述报道基因编码序列的5'端，另一个位于所述多聚腺苷酸片段的3'端。

26.权利要求15、24或25的供体构建体，其不包含与预先确定的基因组序列同源的任何片段，它们能够用于所选的任意基因组基因座。

27.用于通过CRISPR-诱导的非同源末端连接修复向活性基因的基因座插入报道子以追踪其表达变化的方法，所述方法包括下述步骤：(i)使细胞与下述接触：权利要求15和24的供体构建体，编码分别能够与靶序列位点之一杂交的一种或两种sgRNAs的一种或两种DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由报道基因蛋白产生的信号。

28.用于通过CRISPR-诱导的非同源末端连接修复向沉默的基因的基因座插入报道子的方法，所述方法包括下述步骤：(i)使细胞与下述接触：权利要求25的供体构建体，编码分别能够与靶序列位点之一杂交的一种或两种sgRNAs的一种或两种DNA分子，和编码Cas9蛋白的DNA分子；并且(ii)检测由报道基因蛋白产生的信号。

29.用于通过CRISPR-诱导的非同源末端连接修复插入报道子以同时中断(disrupt)基因组中多个拷贝的靶基因由此产生功能缺失(敲除)的细胞的方法，所述方法包括下述步骤：(i)使细胞与下述接触：权利要求15、24或25的多种分别具有不同报道基因的编码序列的供体构建体，编码能够与靶序列位点杂交的sgRNA的一种或两种DNA分子，和编码Cas9蛋白的DNA分子；(ii)检测由报道基因蛋白产生的信号；并且(iii)收集表现出共存多于两种报道子信号的细胞。

30.包含两种报道子的供体构建体，一种报道子处在不同的双顺反子元件的控制下，另一种处在通用且组成型的启动子的控制下，详细地，其包含：(1)权利要求23的构建体的报道子盒(cassette)，其包含：报道基因编码序列，在所述报道基因编码序列的5'端的双顺反子元件，在所述报道基因编码序列的3'端的多聚腺苷酸片段；(2)位于第一报道基因编码序列的双顺反子元件的5'端的sg-A靶序列位点；(3)权利要求24的构建体的报道子盒，其包含：报道基因编码序列，在所述报道基因编码序列的5'端的通用且组成型的启动子，在所述报道基因编码序列的3'端的多聚腺苷酸片段；(4)两个LoxP位点，一个位于所述sg-A靶序列的5'端，并且一个位于在第一报道基因编码序列之后的多聚腺苷酸片段的3'端。

31.用于通过CRISPR-诱导的非同源末端连接修复向沉默的基因的基因座插入报道子以用于追踪靶基因的激活的目的的方法，所述方法包括下述步骤：(i)使细胞与下述接触：权利要求29的供体构建体，编码能够与靶序列位点杂交的sgRNA的一种或两种DNA分子，和编码Cas9蛋白的DNA分子；(ii)检测由第二报道基因蛋白产生的信号；(iii)收集表现出由第二报道基因蛋白产生的信号的细胞；并且(iv)使收集的报道细胞与编码CRE内切核酸酶的DNA分子接触，以去除插入的供体的多余部分。

32.供体构建体，其包含：(1)第一报道基因编码序列，接着是位于其3’端的多聚腺苷酸片段；(2)位于所述第一报道基因编码序列的5'端的sg-A靶序列位点；(3)第二报道基因编码序列，接着是位于其3’端的多聚腺苷酸片段，所述第二报道基因编码序列以与所述第一报道基因编码序列头-对-头的方式位于所述sg-A靶序列的5’端。

33.用于通过CRISPR-诱导的非同源末端连接修复向活性基因中插入报道子的方法，所述方法包括下述步骤：(i)使细胞与下述接触：权利要求32的供体构建体，编码分别能够与靶序列位点之一杂交的一种或两种sgRNAs的一种或两种DNA分子，和编码Cas9蛋白的DNA分子；和(ii)检测由两种报道子产生的信号。

34.构建体，其包含：(1)报道基因编码序列；(2)位于所述报道基因编码序列的5'端的双顺反子元件；(3)位于所述报道基因编码序列的3'端的多聚腺苷酸片段；和(4)位于所述双顺反子元件的5’端的sgRNA序列位点；其中在所述双顺反子元件的5’端的靶序列位点当进行Cpf1诱导的切割时能够产生靶向的DNA双链断裂。

35.用于通过CRISPR-诱导的非同源末端连接修复以更精确的方式插入报道基因的方法，所述方法包括下述步骤：(i)使细胞与下述接触：权利要求34的供体构建体，编码分别能够与靶序列位点之一杂交的一种或两种sgRNAs的一种或两种DNA分子；和编码Cpf1蛋白的DNA分子；并且(ii)检测由所述报道基因产生的信号。