CN107109486B

CN107109486B - 用于检测基因组中遗传剪刀的脱靶位点的方法

Info

Publication number: CN107109486B
Application number: CN201580067606.XA
Authority: CN
Inventors: 金晋秀; 金大植; 裵相洙
Original assignee: Institute for Basic Science
Current assignee: Institute for Basic Science
Priority date: 2014-11-14
Filing date: 2015-11-13
Publication date: 2021-08-13
Anticipated expiration: 2035-11-13
Also published as: CN107109486A; KR20160058703A; JP6621820B2; EP3219810B1; WO2016076672A1; EP3219810A4; KR101828933B1; JP2017533724A; EP3219810A1

Abstract

本发明涉及用于检测基因组中遗传剪刀的脱靶位点的方法，并且具体来说涉及用于通过数据分析检测脱靶位点的方法，所述方法是通过使在体外分离的基因组经历遗传剪刀处理以裂解该基因组，随后对该基因组进行全基因组测序(消化基因组测序)；并且涉及用于使用这种检测方法选择RGEN的靶位点的方法，所述方法将脱靶效应降至最低。本发明的消化基因组测序可在基因组水平上以高度再现性检测遗传剪刀的脱靶位点，并且因此可用于生产具有高靶特异性的遗传剪刀和所述遗传剪刀的研究。

Description

用于检测基因组中遗传剪刀的脱靶位点的方法

技术领域

本披露涉及用于检测基因组中可编程核酸酶的脱靶位点的方法，并且具体来说涉及用于通过数据分析检测脱靶位点的方法，所述方法包括通过用可编程核酸酶处理在体外分离的基因组(无细胞基因组DNA)来裂解基因组，然后进行全基因组测序；并且涉及用于使用这种方法选择可编程核酸酶的中靶位点的方法，所述方法将脱靶效应降到最低。

背景技术

来源于II型CRISPR/Cas(规律间隔成簇重复序列/CRISPR相关)原核适应性免疫系统等的可编程核酸酶(例如ZFN(锌指核酸酶)、TALEN(转录激活因子样效应因子核酸酶)和RGEN(RNA指导的工程化核酸酶))广泛用于培养细胞和完整生物体中的基因组编辑。使用可编程核酸酶的基因组编辑技术是非常有用的技术，其可用于生命科学、生物技术和医学领域中的多种用途。例如，用于种种遗传性或获得性疾病的基因/细胞疗法已通过在干细胞或体细胞中引发靶向遗传修饰而变得可能。然而，可编程核酸酶不仅可使中靶位点突变，还可使与其同源的脱靶位点突变(Nucleic acids research,2013, 41(20):9584-9592)。

作为代表性例子，包括来源于酿脓链球菌(S.pyogenes)的Cas9蛋白和小指导RNA(sgRNA)的RGEN识别23-bp(碱基对)靶DNA序列，所述靶 DNA序列由与该sgRNA杂交的20-bp(碱基对)序列和由Cas9识别的5'-NGG-3' 前间区序列邻近基序(protospacer-adjacentmotif，PAM)序列组成，但可容忍多达数个核苷酸序列处的错配(Genome Res,2014,24:132-141)。另外，RGEN也可裂解与该sgRNA序列相比具有额外碱基序列(DNA凸起)或缺少碱基(RNA凸起)的脱靶DNA序列。同样，ZFN和TALEN二者也可裂解在一些碱基上不同的序列。这表明，在将可编程核酸酶应用于基因组的情形中，除了中靶位点以外，可能还存在大量的脱靶位点。

脱靶DNA裂解可导致非预期基因(例如原癌基因和肿瘤抑制基因)突变，以及大范围(gross)基因组重组(例如易位、缺失和倒位)，并且引起在研究和医学中使用可编程核酸酶的严重担忧(Proc Natl Acad Sci,2009,106: 10620-10625)。就这一点而言，已报道多种策略可降低可编程核酸酶的脱靶效应，尚未报道在整个基因组规模中特异性地作用于中靶位点而没有脱靶效应的可编程核酸酶。为了解决这个问题，必须研发询问可编程核酸酶在基因组规模上的特异性的方法。

发明概述

[技术问题]

由于诸位发明人尽力研发能在基因组规模上检测并分析可编程核酸酶的靶位点和脱靶位点的系统，已研发出用于通过用可编程核酸酶裂解基因组后进行下一代测序(NGS)来检测可编程核酸酶的脱靶位点的方法来完成本发明(消化基因组测序(Digenome-seq)，核酸酶裂解的基因组DNA测序)。

[技术方案]

本披露的目的在于提供用于检测可编程核酸酶的脱靶位点的方法，其包括：(a)用靶特异性可编程核酸酶裂解分离的基因组DNA；(b)进行所裂解 DNA的下一代测序；和(c)测定通过该测序获得的序列读取中的经裂解位点。

本披露的另一目的在于提供用于在基因组编辑中降低脱靶效应的方法，其包括：使用质粒作为模板将体外转录的指导RNA引入细胞中。

[效果]

本披露的消化基因组测序可在基因组规模上以高再现性检测出可编程核酸酶的脱靶位点，并且因此可用于生产和研究具有高靶特异性的可编程核酸酶。

附图说明

图1涉及RGEN介导的体外基因组DNA裂解。(a)其为RGEN介导的体外基因组DNA裂解的模拟图。(b)其鉴别基因组DNA是否被靶向HBB的RGEN 在中靶位点和4个潜在脱靶位点处裂解。对于1X反应，使Cas9蛋白(40μg， 300nM)和sgRNA(30μg，900nM)与8μg HAP1基因组DNA反应8小时。将Cas9和sgRNA连续稀释10倍到10,000倍。通过qPCR测量未裂解的DNA。(下图)其展示了中靶位点和4个潜在脱靶位点的DNA序列。错配核苷酸以红色显示，并且PAM序列以蓝色显示。(c)其用T7E1分析来测量中靶位点和潜在脱靶位点处由RGEN导致的突变频率。(d)其进行靶向深度测序以测量插缺(indel)频率。

图2涉及用于鉴别脱靶位点的RGEN诱导的消化基因组测序。(a)其为用于鉴别脱靶位点的核酸酶裂解的全基因组测序(WGS)的模拟图。将从未转化或经RGEN转化的细胞中分离的基因组DNA通过RGEN裂解，并经历 WGS。将序列读取与参考基因组(hg19)比对并使用IGV程序可视化。正向和反向序列读取分别以橙色和天蓝色显示。红色三角形和垂直虚线指示裂解位置。(b)其为使用HBB特异性RGEN在中靶位点处获得的代表性IGV数据。插缺由箭头指示。(c)其显示了根据核苷酸位置具有相同5'端的序列读取的绝对数目和相对数目。

图3涉及用于鉴别脱靶位点的RGEN诱导的消化基因组测序。(a-d)其为使用HBB特异性RGEN在潜在脱靶位点OT1(a)、OT3(b)、OT7(c)和OT12 (d)处获得的代表性IGV数据。插缺由箭头指示(a)或显示于框中(b)。

图4展示了基因组上的特定位置处的5'端数目的图。(a)其显示了核酸酶裂解位点处的IGV数据。(b、c)其展示了显示出在OT1(b)和OT3(c)位点处根据核苷酸位置具有相同5'端的序列读取的绝对数目和相对数目的5'端图。

图5展示了通过消化基因组测序鉴别并通过靶向深度测序验证的HBB RGEN的脱靶位点。(a)其为显示出在未转化或经RGEN转化的细胞中通过使用HBB RGEN的消化基因组测序鉴别的中靶位点和脱靶位点的数目的维恩图(Venn diagram)。(b)其展示了比较通过消化基因组测序鉴别的位点与中靶位点的热图。(c)其展示了使用通过消化基因组测序鉴别的位点处的 DNA序列通过WebLogo获得的序列标志。(d)其为消化基因组测序和靶向深度测序的结果汇总。N.D.意味着未测得。(e)其展示了通过靶向深度测序验证的脱靶位点。蓝条和红条代表使用未转化HAP1细胞和经HBB RGEN转化的HAP1细胞获得的插缺频率。(左图)其展示了中靶位点和脱靶位点的DNA 序列。错配碱基以红色显示，并且PAM序列以蓝色显示。(右图)通过费雪精确检验(Fisher exact test)计算P值。

图6展示了在完整基因组序列中鉴别的假阳性位置。(a-c)其为假阳性位点周围的代表性IGV数据，所述假阳性位点是由于HAP1细胞中天然存在的插缺产生的。

图7展示了在新验证的脱靶位点处由HBB RGEN诱导的插缺序列。(a，b) 通过靶向深度测序检测脱靶插缺。插入的核苷酸以红色显示并且PAM序列以蓝色显示。

图8展示了通过消化基因组测序鉴别的VEGF-A RGEN的脱靶位点。(a) 其展示了在一个VEGF-A脱靶位点处的5'端数目的图。(b)其为比较通过消化基因组测序鉴别的位点与中靶位点的热图。深红色和深蓝色对应给定位置处的100％和0％匹配。(c)其展示了使用通过消化基因组测序鉴别的位点处的DNA序列通过WebLogo获得的序列标志。(d)其为消化基因组测序和靶向深度测序的结果汇总。N.D.意味着未测得。(e)其展示了通过靶向深度测序验证的脱靶位点。蓝条和红条代表使用未转化HAP1细胞和经VEGF-A RGEN 转化的HAP1细胞获得的插缺频率。(左图)其展示了中靶位点和脱靶位点的 DNA序列。错配碱基以红色显示，并且PAM序列以蓝色显示。(右图)通过费雪精确检验计算P值。

图9展示了用于鉴别VEGF-A RGEN的脱靶位点的RGEN诱导的消化基因组测序。(a-d)其展示了显示出根据中靶位点位点(a)和脱靶位点(b-d) 中的核苷酸位置具有相同5'端的序列读取的绝对数目和相对数目的5'端图。

图10展示了在新验证的脱靶位点处由VEGF-A RGEN诱导的插缺序列。(a-d)通过靶向深度测序检测脱靶插缺。插入的核苷酸以红色显示并且PAM 序列以蓝色显示。

图11展示了用于消化基因组测序分析的体外DNA裂解评分系统。

图12展示了经改良的消化基因组测序分析。(a)其展示了体外DNA裂解分数的基因组规模Circos图。使用人类基因组DNA(红色)和经RGEN裂解的基因组DNA(绿色)进行全基因组测序(WGS)。(b)其展示了使用寡核苷酸双链或从质粒转录的sgRNA的消化基因组测序的模拟图。(c)其展示了使用寡核苷酸双链或从质粒转录的sgRNA获得的序列标志。

图13展示了体外DNA裂解评分系统的再现性。

图14展示了使用从寡核苷酸双链转录的sgRNA通过消化基因组测序鉴别的凸起型脱靶位点。

图15展示了多重消化基因组测序。(a)其展示了多重消化基因组测序的模拟图。(b)其展示了显示出通过单一和多重消化基因组测序分析鉴别的体外裂解位点数目的维恩图。(c)其展示了通过单一或多重消化基因组测序获得的X-染色体上的体外DNA裂解分数。

图16展示了通过多重消化基因组测序鉴别的位点的分析。(a)通过消化基因组测序、GUIDE-seq和HTGTS鉴别的位点数目显示于维恩图中。(b)其展示了根据错配总数(上图)和种子区域中的错配数目(下图)，通过消化基因组测序鉴别的位点的百分比。(c)人类基因组中具有少于或等于6个核苷酸的错配的位点数目和通过消化基因组测序鉴别的位点数目以散点图显示(上图)。将11个RGEN中靶位点分为两个组：G1(人类基因组中少于13,000 个具有少于或等于6个核苷酸的错配的位点)和G2(人类基因组中多于或等于16,000个具有少于或等于6个核苷酸的错配的位点)(下图)。误差条代表 SEM。通过学生t检验计算P值。(d)通过GUIDE-seq鉴别的位点数目和通过消化基因组测序鉴别的位点数目以散点图显示。

图17说明GUIDE-seq阳性位点数目与人类基因组中具有少于或等于6个核苷酸的错配的同源位点数目之间缺乏相关性。

图18展示了两个EMX1脱靶位点，其是通过HTGTS和GUIDE-seq鉴别出的，但未通过消化基因组测序鉴别出。

图19展示了呈维恩图的通过消化基因组测序和CHIP-seq鉴别的位点数目。

图20展示了在经RNF2特异性sgRNA转化的HeLa细胞中中靶位点和脱靶位点的插缺频率(对数标度)。

图21使用靶向深度测序在脱靶位点处鉴别插缺频率。(a)其以模拟方式展示了一般sgRNA(gX₁₉ sgRNA)和经修饰sgRNA(ggX₂₀ sgRNA)。(b-d) 其展示了通过NGS验证的(b)EMX1、(c)HEK293-3和(d)RNF2 sgRNA 的中靶位点和脱靶位点的插缺频率。(e-g)其展示了通过将(e)EMX1、(f) HEK293-3和(g)RNF2 sgRNA的中靶位点处的插缺频率除以脱靶位点处的插缺频率计算出的特异性比率。

图22展示了通过NGS验证的脱靶位点和未通过NGS验证的脱靶位点的分析。(a-c)其展示了根据(a)整个20-nt序列或(b和c)10-nt种子序列中显示的错配在脱靶位点处的相对插缺频率(对数标度)图。将通过NGS鉴别的位点(a)分为两组：经验证位点(b)和未验证位点(c)。

图23展示了对100个中靶位点进行的消化基因组测序的结果。(a)其以模拟方式展示了测试过程，并且(b)其展示了比较基于消化基因组测序预测脱靶位点的程序与其他程序(Crop-it)的结果。

图24在基因组规模上通过消化基因组测序展示了ZFN(锌指核酸酶)的脱靶效应。(a)其为在ZFN-224处理之前和之后中靶位点的代表性IGV照片。 (b)其展示了在基因组规模上显示出未处理基因组DNA(红色)、经ZFN-224 (WT FokI)裂解的DNA(绿色)和经ZFN-224(KK/EL FokI)裂解的DNA (蓝色)的体外DNA裂解分数的Circos图。(c-d)其展示了使用ZFN-224(WT FokI)或ZFN-224(KK/EL FokI)中的候选脱靶位点获得的序列标志。

图25展示了在ZFN的消化基因组测序中检测脱靶位点的结果。(a)通过在ZFN-224(KK/EL FokI)的候选脱靶位点处使用靶向深度测序测量插缺频率。(b-c)其为显示出(b)在体外检测的候选脱靶位点和(c)经验证的中靶位点的消化基因组测序、ILDV和数目的维恩图。

发明详述

根据一个方面，为了实现本披露的这个目的，提供了用于检测基因组中的脱靶位点的方法，所述方法包括：(a)用靶特异性可编程核酸酶裂解分离的基因组DNA；(b)进行所裂解DNA的下一代测序；和(c)测定通过该测序获得的序列读取中的经裂解位点。诸位发明人将所述方法命名为“消化基因组测序”，其是指核酸酶裂解的基因组DNA测序。

基因组编辑/基因编辑技术是可将靶定向突变引入动物和植物细胞(包括人类细胞)的基因组碱基序列中的技术。其可敲除或敲入特定基因，或可将突变引入不产生蛋白质的非编码DNA序列中。本披露的方法检测这种基因组编辑/基因编辑技术中使用的可编程核酸酶的脱靶位点，所述技术可用于有效地研发仅特异性地作用于中靶位点的可编程核酸酶。

步骤(a)是用靶特异性可编程核酸酶裂解分离的基因组DNA的步骤，也就是在体外用特异性地作用于中靶位点的可编程核酸酶裂解该分离的基因组DNA的步骤。然而，即使可编程核酸酶是针对靶特异性地产生的，其他位点(也就是脱靶位点)也可取决于特异性而被裂解。于是结果，通过步骤 (a)，所用的靶特异性可编程核酸酶裂解中靶位点位置和多个脱靶位点，从而获得特定位点被裂解的基因组DNA，所述可编程核酸酶可对基因组DNA 具有活性。基因组DNA的类型并无特别限制，并且可为野生型细胞或经转化细胞的基因组DNA。另外，取决于消化基因组测序的目的，经转化细胞可被转化以表达特定的可编程核酸酶。

本披露中所用的术语“可编程核酸酶”是指所有形式的核酸酶，其能识别并裂解所需基因组上的特定位点。具体地，其可包括但不限于与来源于植物致病基因的转录激活因子样效应因子(TAL)结构域(其是识别基因组上的特定靶序列的结构域)和裂解结构域融合的转录激活因子样效应因子核酸酶(TALEN)、锌指核酸酶、大范围核酸酶、来源于CRISPR(其为微生物免疫系统)的RGEN(RNA指导的工程化核酸酶)、Cpf1、Ago同系物(DNA 指导的内切核酸酶)等。

可编程核酸酶识别动物和植物细胞(包括人类细胞)的基因组中的特定碱基序列，以引发双链断裂(DSB)。双链断裂包括通过裂解DNA双链导致的平端或粘端二者。DSB通过细胞内的同源重组或非同源末端连接(NHEJ) 机制得到有效修复，从而容许研究者在此过程期间将所需突变引入中靶位点中。可编程核酸酶可为人工的或经操作非天然存在的。

本披露中所用的术语“中靶位点”意指通过使用可编程核酸酶将突变引入其中的位点，并且可取决于其目的而任意选择。所述位点可为非编码DNA 序列，其可存在于特定基因内且不产生蛋白质。

可编程核酸酶具有序列特异性，并且由此作用于中靶位点，但是可取决于靶序列而作用于脱靶位点。本披露中所用的术语“脱靶位点”是指如下位点，其中可编程核酸酶在具有与该可编程核酸酶的靶序列不同的序列的位点处具有活性。也就是说，脱靶位点是指由可编程核酸酶裂解的并非中靶位点的位点。具体地，本披露中的脱靶位点不仅包括特定可编程核酸酶的实际脱靶位点，而且还包括可能变为脱靶位点的位点。脱靶位点可为但不限于由可编程核酸酶在体外裂解的位点。

可编程核酸酶甚至在并非中靶位点的位点处具有活性的事实可能是由于多种原因可引起的现象所致。然而，具体地，在与中靶位点具有高序列同源性的脱靶序列具有针对该中靶位点设计的靶序列和核苷酸错配的情形中，可编程核酸酶有可能发挥作用。脱靶位点可为但不限于具有靶序列和一个或多个核苷酸错配的位点。

其可导致基因组中非预期基因的突变，并引起可编程核酸酶的使用的严重担忧。就这一点而言，精确检测并分析脱靶位点以及基因可编程核酸酶在中靶位点的活性的方法也可非常重要，并且可有效地用于研发仅特异性地作用于中靶位点而没有脱靶效应的可编程核酸酶。

可编程核酸酶可选自下组，该组由以下各项组成：大范围核酸酶、ZFN (锌指核酸酶)、TALEN(转录激活因子样效应因子核酸酶)、RGEN(RNA 指导的工程化核酸酶)、Cpf1和Ago同系物。只要可编程核酸酶识别靶基因的特定序列并具有核苷酸裂解活性并且可在靶基因中引起插入和缺失(插缺)，其就可被包括于但不限于本披露的范围中。

大范围核酸酶可为但不限于天然存在的大范围核酸酶，其识别15至40个碱基对的裂解位点，所述大范围核酸酶通常归类为4个家族：LAGLIDADG 家族、GIY-YIG家族、His-Cyst盒家族和HNH家族。示例性大范围核酸酶包括I-SceI、I-CeuI、PI-PspI、PI-SceI、I-SceIV、I-CsmI、I-PanI、I-SceII、I-PpoI、 I-SceIII、I-CreI、I-TevI、I-TevII和I-TevIII。

已在植物、酵母、果蝇(Drosophila)、哺乳动物细胞和小鼠中使用来源于天然存在的大范围核酸酶、主要来自LAGLIDADG家族的DNA结合结构域促成了位点特异性基因组修饰。这种方法基于同源基因的修饰，其中大范围核酸酶靶序列是保守的(Monet等人(1999)Biochem.Biophysics Res. Common.255:88-93)，并且对该靶序列引入其中的预工程化基因组的修饰有限制。因此，已尝试将大范围核酸酶工程化以展现在医学或生物技术相关位点处的新颖的结合特异性。另外，来源于大范围核酸酶的天然存在的或工程化的DNA结合结构域可操作地连接至来源于异源核酸酶(例如，Fokl)的裂解结构域。

ZFN包括所选基因和经工程化以结合至裂解结构域或裂解半结构域的中靶位点的锌指蛋白。ZFN可为包括锌指DNA结合结构域和DNA裂解结构域的人工限制酶。此处，锌指DNA结合结构域可经工程化以结合至所选序列。例如，Beerli等人(2002)NatureBiotechnol.20:135-141；Pabo等人(2001)Ann. Rev.Biochem.70:313-340；Isalan等人(2001)Nature Biotechnol.19:656-660； Segal等人(2001)Curr.Opin.Biotechnol.12:632-637；Choo等人(2000)Curr. Opin.Struct.Biol.10:411-416可作为参考材料被包括在本说明书中。与天然存在的锌指蛋白相比，工程化锌指结合结构域可具有新颖的结合特异性。工程化方法包括但不限于对各种类型的合理设计和选择。合理设计包括使用含有例如三联(或四联)核苷酸序列以及单个锌指氨基酸序列的数据库，其中每个三联或四联核苷酸序列与结合至特定三联或四联序列的锌指的一或多个序列相关。

靶序列的选择以及融合蛋白(及其编码多核苷酸)的设计与构建为本领域技术人员所熟知，并且详细描述于美国专利申请公开案第2005/0064474号和第2006/0188987号的全文中。所述公开案的全部披露内容都作为本披露的参考文献而被包括在本说明书中。另外，如在这些参考文献和相关领域的其他参考文献中所披露的，锌指结构域和/或多指锌指蛋白可通过包括任何适宜的接头序列的接头(例如长度为5个或更多个氨基酸的接头)连接在一起。长度为6个或更多个氨基酸的接头序列的例子披露于美国专利第6,479,626 号；第6,903,185号；第7,153,949号中。本文中解释的蛋白质可包括该蛋白质的每一锌指之间的适宜接头的任何组合。

另外，核酸酶(例如ZFN)含有核酸酶活性部分(裂解结构域、裂解半结构域)。众所周知，裂解结构域可与DNA结合结构域异源，例如像，来自核酸酶的裂解结构域与锌指DNA结合结构域不同。异源裂解结构域可从任何内切核酸酶或外切核酸酶获得。可得到裂解结构域的示例性内切核酸酶包括但不限于限制性内切核酸酶和大范围核酸酶。

类似地，裂解半结构域可来源于任何核酸酶或其一部分，其裂解活性需要二聚作用，如上文所指示的。如果融合蛋白包括裂解半结构域，通常两个融合蛋白需要裂解。可替代地，可使用包括两个裂解半结构域的单一蛋白质。两个裂解半结构域可来源于相同的内切核酸酶(或其功能性片段)，或每一裂解半结构域可来源于不同的内切核酸酶(或其功能性片段)。另外，两个融合蛋白的中靶位点是以使得裂解半结构域通过两个融合蛋白与其相应的中靶位点结合而在空间上朝向彼此定向的方式来定位的。因此，优选的是布置裂解半结构域以能够通过二聚作用形成功能性裂解结构域。因此，在一个实施方案中，中靶位点的相邻边缘由3至8个核苷酸或14至18个核苷酸隔开。然而，可将任何整数的核苷酸或核苷酸对插入两个中靶位点之间(例如，2 至50个或更多个核苷酸对)。通常，裂解位点位于中靶位点之间。

限制性内切核酸酶(限制酶)存在于许多物种中，可序列特异性地结合至DNA(在中靶位点处)，并且在结合位点处或结合位点附近直接裂解DNA。一些限制酶(例如，IIS型)在远离识别位点的位点处裂解DNA，并且具有可分离的结合结构域和可裂解结构域。例如，IIS型酶FokI在一条链上离识别位点9个核苷酸处和在另一条链上离识别位点13个核苷酸处催化DNA双链断裂。因此，在一个实施方案中，融合蛋白包括来自至少一种IIS型限制酶的裂解结构域(或裂解半结构域)和一个或多个锌指结合结构域(可经或可未经工程化)。

本披露中所用的术语“TALEN”是指能识别并裂解DNA靶区域的核酸酶。TALEN是指包括TALE结构域和核苷酸裂解结构域的融合蛋白。在本披露中，术语“TAL效应因子核酸酶”和“TALEN”可互换。TAL效应因子作为在黄单胞菌属(Xanthomonas)细菌被多种植物物种感染时由其III型分泌系统分泌的蛋白质为人所知。该蛋白质可与宿主植物中的启动子序列组合以激活帮助细菌感染的植物基因的表达。该蛋白质通过由34个或更少的不同数目的氨基酸重复序列组成的中央重复结构域识别植物DNA序列。因此，预期 TALE是基因组工程化工具的新平台。然而，为了构建具有基因组编辑活性的功能性TALEN，迄今尚未得知的一些关键参数应该如下定义。i)TALE的最小DNA-结合结构域，ii)构成一个靶区域的两个半指(half-digit)之间的间隔区的长度，和iii)连接FokI核酸酶结构域与dTALE的接头或融合接点。

本披露的TALE结构域是指以序列特异性方式通过一或多个TALE重复模块结合核苷酸的蛋白质结构域。TALE结构域包括但不限于至少一个TALE 重复模块，并且更具体地，1至30个TALE重复模块。在本披露中，术语“TAL 效应因子结构域”与“TALE结构域”可互换。TALE结构域可包括TALE重复模块的一半。涉及此TALEN的国际专利公开案第WO/2012/093833号或美国专利申请公开案第2013-0217131号中披露的全部内容作为参考文献被包括在本说明书中。

本披露中所用的术语“RGEN”意指包括靶DNA特异性指导RNA和Cas 蛋白作为组分的核酸酶。

在本披露中，RGEN可应用于但不限于呈靶DNA特异性指导RNA形式的体外分离的基因组DNA和分离的Cas蛋白。

指导RNA可在体外转录，并且具体地，其可以但不限于从寡核苷酸双链或质粒模板转录。

在本披露中，术语“Cas蛋白”是CRISPR/Cas系统的主要蛋白质组分，并且是能形成活化内切核酸酶或切口酶的蛋白质。

Cas蛋白可与crRNA(CRISPR RNA)和tracrRNA(反式激活crRNA)形成复合物以展现该Cas蛋白的活性。

Cas蛋白或基因信息可从已知数据库获得，例如国家生物技术信息中心(National Center for Biotechnology Information，NCBI)的GenBank。具体地，该Cas蛋白可为Cas9蛋白。另外，该Cas蛋白可为链球菌属(Streptococcus genus)，更具体地，来源于酿脓链球菌(Streptococcus pyogens)的Cas蛋白，并且更具体地是Cas9蛋白。另外，该Cas蛋白可为奈瑟氏菌属(Neisseria genus)，更具体地，来源于脑膜炎奈瑟氏菌(Neisseria meningitidis)的Cas 蛋白，并且更具体地是Cas9蛋白。另外，该Cas蛋白可为巴斯德菌属 (Pasteurella genus)，更具体地，来源于多杀巴斯德菌(Pasteurellamultocida) 的Cas蛋白，并且更具体地是Cas9蛋白。另外，该Cas蛋白可为弗朗西斯菌属(Francisella genus)，更具体地，来源于新凶手弗朗西斯菌(Francisella novicida)的Cas蛋白，并且更具体地是Cas9蛋白。另外，该Cas蛋白可为弯曲杆菌属(Campylobactergenus)，更具体地，来源于空肠弯曲杆菌 (Campylobacter jejuni)的Cas蛋白，并且更具体地是Cas9蛋白。然而，本披露并不限于上述例子。

另外，该Cas蛋白在本披露中作为如下概念使用：包括能与指导RNA合作用作活化的内切核酸酶或切口酶的天然蛋白质以及变体。该Cas9蛋白的变体可为Cas9的突变形式，其中催化性天冬氨酸残基变为任何其他氨基酸。具体地，其他氨基酸可为但不限于丙氨酸。

在本披露中，该Cas蛋白可为重组蛋白。

在就例如细胞、核酸、蛋白质或载体等使用时，术语“重组”是指异源核酸或蛋白质的引入或天然核酸或蛋白质的修饰，或通过来源于经修饰细胞的细胞修饰的细胞、核酸、蛋白质或载体。因此，例如，重组Cas蛋白可通过使用人类密码子表重构编码该Cas蛋白的序列来制得。

该Cas蛋白或其编码核酸可呈容许该Cas蛋白在细胞核中发挥作用的形式。

所分离的Cas蛋白也可呈易于引入细胞中的形式。例如，Cas蛋白可连接至细胞穿透肽或蛋白质转导结构域。蛋白质转导结构域可为但不限于聚精氨酸或来源于HIV的TAT蛋白。除了上述例子外，多种类型的细胞穿透肽或蛋白质转导结构域在相关领域中也为人所熟知，使得本领域技术人员可将但不限于多种例子应用于本披露。

另外，编码该Cas蛋白的核酸可进一步包括核定位信号(NLS)序列。因此，除了用于表达该Cas蛋白的调节序列(例如启动子序列等)外，含有编码该Cas蛋白的核酸的表达盒还可包括但不限于NLS序列。

该Cas蛋白可连接至有利于分离和/或纯化的标签。例如，小肽标签(例如His标签、Flag标签或S标签等)或谷胱甘肽S-转移酶(GST)标签或麦芽糖结合蛋白质(MBP)标签可以但不限于取决于目的而被连接。

本披露中所用的术语“指导RNA”意指靶DNA特异性RNA，其可结合至Cas蛋白并将Cas蛋白引导至靶DNA。

在本披露中，该指导RNA是包括两种RNA、也就是crRNA(CRISPR RNA)和tracrRNA(反式激活crRNA)作为组分的双RNA；或包括第一位点 (包括与靶DNA中的序列互补的序列)和第二位点(包括与Cas蛋白相互作用的序列)的形式，且更具体地，单链指导RNA(sgRNA)，其呈crRNA和 tracrRNA的主要部分的融合物形式。

sgRNA可包括具有与靶DNA中的序列(还称为间隔区(Spacer region)、靶DNA识别序列、碱基配对区等)互补的序列的部分和用于Cas蛋白结合的发夹结构。更具体地，其可包括具有与靶DNA中的序列互补的序列的部分、用于Cas蛋白结合的发夹结构和终止子序列。上述结构可以但不限于以5'至3' 的顺序连续存在。

本披露中也可使用任何类型的指导RNA，只要该指导RNA包括crRNA和 tracrRNA的主要部分和靶DNA的互补部分即可。

该crRNA可与靶DNA杂交。

RGEN可由Cas蛋白和双RNA组成，或可以但不限于由Cas蛋白和sgRNA 组成。

该指导RNA、具体地该crRNA或sgRNA可包含与靶DNA中的序列互补的序列，并且可在crRNA或sgRNA上游区域、具体地在sgRNA或双RNA的 crRNA的5'端包括一或多个另外的核苷酸。另外的核苷酸可为但不限于鸟嘌呤(G)。

出于本披露的目的，RGEN可在体内和体外具有核酸酶活性。因此， RGEN可用于在体外检测基因组DNA的脱靶位点，并且当其在体内应用时，可预期其即使在与所检测脱靶位点相同的位点处也具有活性。

基因组DNA可从经转化细胞中分离，使得未转化细胞或靶特异性可编程核酸酶具有核酸酶活性，并且可取决于检测可编程核酸酶的脱靶位点的目的在不限制其来源的情况下使用。

在本披露中，术语“Cpf1”是新CRISPR系统的可编程核酸酶，所述新 CRISPR系统与CRISPR/Cas系统不同，并且最近已报道Cpf1作为可编程核酸酶的作用(Cell,2015,163(3):759-71)。Cpf1是由单一RNA驱动的可编程核酸酶，不需要tracrRNA，并且尺寸与Cas9相比相对较小。另外，Cpf1使用富含胸腺嘧啶的前间区序列邻近基序(PAM)序列并且裂解DNA双链以形成粘端。Cpf1可以但不限于来源于候选帕西菌(Candidatus Paceibacter)、毛螺菌属(Lachnospira genus)、丁酸弧菌属(Butyrivibrio genus)、Peregrinibacteria、氨基酸球菌属(Acidaminococcus genus)、卟啉单胞菌属(Porphyromonas genus)、普雷沃氏菌属(Prevotella genus)、弗朗西斯菌属、候选甲烷支原体 (Candidatus methanoplasma)或真细菌属(Eubacterium genus)。

在本披露的具体实施方案中，中靶位点和一些预测脱靶位点由于用在体外分离的基因组DNA处理靶向HBB基因的RGEN而被裂解。在体内，在该位点处诱导插缺(插入和缺失)(图1)。然而，并非所有预测脱靶位置都被裂解。

步骤(b)是使用通过步骤(a)裂解的DNA进行下一代测序(NGS)的步骤。与寻找和中靶位点处的序列具有同源性的序列并预测其为脱靶位点的间接方法不同，进行步骤(b)以检测在整个基因组规模上基本上由可编程核酸酶裂解的脱靶位点。

在本披露中，术语“全基因组测序”意指通过下一代测序用于全基因组测序的以10X、20X和40X格式以多个倍数(multiple)读取基因组的方法。“下一代测序”意指以基于芯片的和基于PCR的末端配对格式对全基因组或基因组的靶向区域造型(sculpt)并以超高速度基于片段的化学反应(杂交) 进行测序的技术。

步骤(c)是在通过下一代测序(NGS)获得的序列读取中测定DNA被裂解的位点的步骤，并且可编程核酸酶的中靶位点和脱靶位点可通过分析测序数据而容易地检测。从序列读取测定DNA被裂解的特定位点可以多种方法进行，并且本披露提供了多种合理方法来测定该位点。然而，这只是被包括在本披露的技术构思中的一个例子，并且本披露的范围不受限于这些方法。

例如，作为测定裂解位点的例子，在使用分析程序(例如，BWA/GATK 或ISAAC)根据基因组中的位点比对通过全基因组测序获得的序列读取时， 5'端经垂直比对的位点可意指DNA被裂解的位点。换句话说，在本披露中，术语“垂直比对”意指如下布置，其中对于邻近的沃森链(Watson strand) 和克里克链(Crick strand)中的每一者，在用程序(例如BWA/GATK或ISAAC) 分析全基因组测序结果时，两个或更多个序列读取的5'端在基因组的相同位点(核苷酸位置)处开始。因为对由可编程核酸酶裂解并且因此具有相同5' 端的每一DNA片段进行测序，所以显示此垂直比对。

也就是说，在可编程核酸酶在中靶位点和脱靶位点处具有核酸酶活性并裂解所述位点时，如果比对序列读取，那么垂直比对共同的经裂解位点，因为其每一位点都在该5'端开始。然而，该5'端在未裂解位点中并不存在，使得该5'端可在比对中以交错方式布置。因此，垂直比对位点可视为由可编程核酸酶裂解的位点，其意指该可编程核酸酶的中靶位点或脱靶位点。

比对意指将序列读取映射至参考基因组，并且随后比对在基因组中具有相同位点的碱基以配合(fit)每一位点。因此，可使用任何计算机程序，只要序列读取可以与上述相同的方式布置即可，所述计算机程序可为相关领域中已知的已知程序，或适应该目的的程序。在本披露的一个实施方案中，比对是使用ISAAC进行的，但并不限于此。

由于比对，DNA被可编程核酸酶裂解的位点可通过例如寻找5'端如上文所述经垂直比对的位点的方法来确定，并且如果该经裂解位点不是中靶位点，其可被确定为脱靶位点。换句话说，与经设计具有可编程核酸酶的中靶位点的碱基序列一致的序列是中靶位点，并且与该碱基序列不一致的序列被视为脱靶位点。这根据上文所述的脱靶位点的定义显而易见。具体地，脱靶位点可由与中靶位点序列具有同源性的序列组成，具体地包括具有中靶位点和一个或多个核苷酸错配的序列，且更具体地，具有中靶位点和1至6个核苷酸错配，但并不特别受限于此。如果该脱靶位点为可编程核酸酶可裂解的位点，那么其可被包括于本披露的范围内。这时，中靶位点可为与指导RNA互补的15-30个核苷酸的序列，并且可进一步包括由核酸酶识别的序列(例如，在Cas9情形中由Cas9识别的PAM序列)。

除了寻找5'端经垂直比对的位点的方法以外，如果当在5'端图中观察到双峰图案时，脱靶位点并非中靶位点，可将该位点确定为脱靶位点。在通过计数构成基因组中每一位点处相同碱基的5'端的核苷酸数目绘图时，在特定位点处出现双峰图案。这是因为由可编程核酸酶裂解的每一双链都指示双峰。

在本披露的具体实施方案中，基因组DNA被裂解为RGEN，并且在全基因组分析后，将其与ISAAC比对，并且鉴别在裂解位点处垂直比对的模式和在未裂解位点处的交错模式。经鉴别，在通过5'端图表示时，在裂解位点处出现唯一双峰图案(图2至图4)。

此外，其并不限于此，但作为具体例子，两个或更多个对应于沃森链和克里克链的序列读取经垂直比对的位点可被确定为脱靶位点。另外，20％或更多的序列读取经垂直比对并且在沃森链和克里克链的每一者中具有相同5' 端的序列读取数目为10或更大的位点被确定为脱靶位点位置，也就是裂解位点。

在本披露的具体实施方案中，搜索在两条链处具有相同5'端的序列读取数目为10或更大，并且至少19％的序列读取经垂直比对的位点。结果，经鉴别，消化基因组测序通过检测125个先前已验证的位点(包括中靶位点和脱靶位点)而具有高再现性(图5至图7)。

在本披露的另一具体实施方案中，经鉴别，脱靶位点可用另一靶基因 VEGF-A的消化基因组测序来检测(图8至图10)。在另一具体实施方案中，经鉴别，消化基因组测序还可检测除了RGEN以外的ZFN的脱靶位点(图24)。总之，从这些结果可以看出，本披露的消化基因组测序是用于在不限于中靶位点和可编程核酸酶的类型的情况下检测可编程核酸酶的脱靶位点的方法。

脱靶位点是在体外通过在基因组DNA中处理可编程核酸酶来进行的。因此，可鉴别脱靶效应是否也在体内在通过这种方法检测的脱靶位点中实际产生。然而，这只是另外的验证过程，并且因此不是本披露的范围必须伴随的步骤，并且只是可根据需求另外进行的步骤。在本披露中，术语“脱靶效应”是与脱靶位点不同的概念。也就是说，如上文所述，在本披露中，脱靶位点的概念意指在可编程核酸酶可发挥作用的位点中，除了中靶位点以外的，并且是作为核酸酶裂解的位点来提及的位点。脱靶效应是指通过可编程核酸酶在细胞中的脱靶位点处显示插缺(插入和缺失)的效应。在本披露中，术语“插缺”是在DNA碱基序列中间插入或缺失一些碱基的突变的通用术语。另外，由可编程核酸酶引起插缺的脱靶位点还称为脱靶插缺位点。总之，本披露的脱靶位点被认为是包括脱靶插缺位点的概念，并且如果该脱靶位点是可编程核酸酶在其中可能具有活性，并且插缺不一定必须通过可编程核酸酶来鉴别的位点，那么这个概念是足够的。同时，本披露中的脱靶位点被称为候选脱靶位点，并且脱靶插缺位点还称为经验证脱靶位点。

具体地，验证过程可包括但不限于从表达针对脱靶位点的可编程核酸酶的细胞中分离基因组DNA，在DNA脱靶位点处鉴别插缺，和在脱靶位点处鉴别脱靶效应。脱靶效应可通过使用T7E1分析和Cel-I酶分析突变体检测以及相关领域中已知的鉴别插缺的方法(例如靶向深度测序)来鉴别。鉴别脱靶效应的步骤可为直接确认在脱靶位点处是否出现插缺。然而，即使在体内验证过程期间不出现插缺，也应将其视为辅助手段，因为其无法鉴别插缺以低于可检测水平的频率出现的情形。

通过鉴别如上文所述的垂直比对位点，或通过鉴别5'端图中的双峰，可充分检测脱靶位点，这种方式可高度再现。然而，存在可能遗失一些具有不均匀裂解图案或低测序深度的位点的问题。基于序列读取的比对模式，诸位发明人研发了用于计算每一核苷酸位点处的DNA裂解分数的公式(图11)，如下：

i位点处的分数＝

F_i：在i位点处开始的正向序列读取的数目

R_i：在i位点处开始的反向序列读取的数目

D_i：在i位点处的测序深度

C：任意常数。

通过这个公式，可检测出多个在现有消化基因组测序中未检测到的另外的位点，从而容许容易地过滤假阳性位点。这个公式中的C值不受限于本发明的例子，因为本领域技术人员可应用任意常数。具体地，其不限于此，但是例如，在C值为100并且所计算分数为25,000或更高时，可将位点确定为脱靶位点。然而，评分标准可由本领域技术人员根据目的进行适当调整或改变。

在本披露的具体实施方案中，脱靶位点是通过将DNA裂解分数引入现有消化基因组测序方法中来检测的。结果，与只寻找垂直比对位点的方法相比较，可检测另外的位置，并且其具有高再现性(图12和图13)。在本披露的另一具体实施方案中，在RGEN的sgRNA中，在使用从质粒模板转录的sgRNA 与从质粒模板转录的sgRNA和从寡核苷酸双链转录的sgRNA相比较时，所检测的脱靶位点与中靶位点相比具有高同源性(图14，表1和表2)。

另外，本披露的消化基因组测序可使用多种可编程核酸酶来进行，并且诸位发明人已将这种方法命名为“多重消化基因组测序”。在这种情形中，该可编程核酸酶可为2个或更多个、具体地2至100个靶的可编程核酸酶的混合物，但不限于此。

在多重消化基因组测序的情形中，重要的是检查裂解位点是否由可编程核酸酶裂解，因为基因组DNA是由每一种可编程核酸酶裂解的。这可通过根据到中靶位点的编辑距离归类脱靶位点来实现，并且是基于以下假设：脱靶位点处的碱基序列与中靶位点同源。这使得针对每一可编程核酸酶的中靶位点与脱靶位点之间有明显区别。

在本披露的具体实施方案中，进行在消化基因组测序中使用11个不同中靶位点的sgRNA的多重消化基因组测序，并且根据与中靶位点的编辑距离将所鉴别的964个位置归类以鉴别每一中靶位点的脱靶位点(图15-图19)。

在另一具体实施方案中，使用100个不同中靶位点的sgRNA进行多重消化基因组测序，并且同样在这种情形中，可在没有特别限制的情况下鉴别脱靶位点(图23)。经鉴别，本披露的消化基因组测序可没有限制地应用于任何数目的中靶位点。

在本披露的具体实施方案中，对于靶向特定位点的RNA指导的工程化核酸酶(RGEN)，在全基因组中通过消化基因组测序检测的脱靶位点之间，在与中靶位点具有6个或更少的核苷酸错配的同源性位点为13,000个或更少并且其不具有含有2个或更少的核苷酸错配的同源性位点时，经鉴别，脱靶效应可通过选择该特定位点作为RGEN的中靶位点而降到最低。这是个显示使用本披露的消化基因组测序建立用于选择中靶位点的优选标准的方法的例子，并且预期可编程核酸酶的脱靶效应可通过消化基因组测序降至最低。

在本披露的另一具体实施方案中，经鉴别，随着核苷酸错配水平增加，通过消化基因组测序以小比率检测出与中靶位点处的序列具有同源性的位点数目(图16)。

这是因为在RGEN的中靶位点的选择中，在靶序列和基因组中具有同源性的核苷酸序列越小，具有高同源性的核苷酸序列的特异性越高。通过这种方法选择的RGEN的中靶位点可使脱靶效应降至最低。

在另一方面中，本披露提供了用于在基因组编辑中降低脱靶效应的方法，其包括将在体外转录的指导RNA引入具有质粒作为模板的细胞中。

这种脱靶效应降低归因于在使用质粒作为模板时，在凸起型脱靶位点处防止插缺。也就是说，在通过体外转录方法制备指导RNA时，在使用寡核苷酸双链作为模板时检测出大量凸起型脱靶位点，但大多数凸起型脱靶位点在使用质粒模板时消失。除了消化基因组测序以外，RGEN也可用于裂解基因组DNA和诱导插缺，其可使用质粒作为模板代替寡核苷酸双链来降低脱靶效应。这是因为寡核苷酸含有失效序列，其被称为(n-1)聚体。

实施例

在下文中，将参照实施例详细描述本披露。然而，本披露的这些实施例在本文中仅出于说明目的来描述，并且本披露的权利范围不受限于这些实施例。

实施例1：Cas9和体外sgRNA

重组Cas9蛋白是从大肠杆菌(E.coli)中纯化的或购自ToolGen(韩国)。 sgRNA是使用T7 RNA聚合酶通过体外转录合成的。具体地，将sgRNA模板与T7 RNA聚合酶在反应缓冲液(40mM Tris-HCl、6mM MgCl₂、10mM DTT、 10mM NaCl、2mM亚精胺、NTP和RNA酶抑制剂)中在37℃下混合8小时。在与DNaseI一起孵育以移除模板DNA后，使用PCR纯化试剂盒(Macrogen) 纯化所转录sgRNA。

实施例2：细胞培养和转化条件

在含有10％FBS的DMEM培养基中培养HeLa细胞。使用lipofectamine 2000(LifeTechnologies)将Cas9表达质粒(500ng)和编码sgRNA的质粒(500 ng)引入8×10⁴个HeLa细胞中。在48小时后，根据制造商说明书用DNeasy 组织试剂盒(Qiagen)分离基因组DNA。

实施例3：基因组DNA的体外裂解

使用DNeasy组织试剂盒(Qiagen)从HAP1细胞中纯化基因组DNA。进行该基因组DNA的体外裂解用于消化基因组测序。具体地，将Cas9蛋白和 sgRNA在室温下孵育10分钟以形成RNP(核糖核蛋白)。之后，使RNP复合物与该基因组DNA在反应缓冲液(100mM NaCl、50mMTris-HCl、10mM MgCl₂和100μg/ml BSA)中在37℃下反应8小时。将在这个过程期间裂解以分解sgRNA的基因组DNA用RNA酶A(50ug/mL)处理，并再次用DNeasy 组织试剂盒(Qiagen)纯化。

实施例4：全基因组测序和消化基因组测序(裂解基因组测序)

对于全基因组测序(WGS)，将裂解的DNA用超声波仪破碎并用衔接子连接以制备文库。WGS是在来自Macrogen(韩国 )的Illumina HiSeq X Ten 测序仪上使用这个文库来进行的。之后，使用Isaac比对人类参考基因组hg19 的序列文件。使用裂解评分系统来鉴别DNA裂解位点。

对于多重消化基因组测序，根据编辑距离将检测位点结果归类为11个组。分开生成用于检测体外RGEN裂解位点的计算机程序和用于消化基因组 (Digenome)检测位点归类的计算机程序。

实施例5：靶向深度测序

使用Phusion聚合酶(New England biolabs)扩增中靶位点和潜在脱靶位点。用NaOH使PCR扩增产物变性，使用Illumina MiSeq进行末端配对测序，随后计算插入和缺失(插缺)的频率。

实验实施例1：在体外使用RGEN的基因组DNA裂解

为了研发用于检测可编程核酸酶的脱靶位点的方法，诸位发明人已使用 RGEN(RNA指导的工程化核酸酶)作为代表来进行实验。然而，这只是用于解释本披露技术的例子，并且可应用的可编程核酸酶的种类不限于RGEN。本披露的用于检测基因组中可编程核酸酶的脱靶位点的方法的特征在于，在体外将基因组裂解为针对特定靶的可编程核酸酶，随后通过进行并分析全基因组测序(WGS)来检测可编程核酸酶的脱靶位点。诸位发明人将这种方法命名为消化基因组测序(核酸酶裂解的基因组DNA测序)。

诸位发明人推断，他们可通过消化基因组测序在大细胞群中鉴别由可编程核酸酶诱导的脱靶突变。

应该可能在体外在高RGEN浓度下有效裂解脱靶DNA序列，产生许多具有相同5'端的DNA片段。这些RGEN裂解的DNA片段会产生在核酸酶裂解位点垂直比对的序列读取。相反，未通过RGEN裂解的序列读取会以交错方式比对。开发计算机程序以搜索对应于脱靶位点的具有垂直比对的序列读取。

首先，诸位发明人测试了RGEN是否可在体外在基因组中有效裂解潜在脱靶DNA序列。为此，选择了已显示可在RGEN的中靶位点和高同源位点(称为OT1位点)处诱导脱靶突变的HBB基因特异性RGEN。除了这个位点以外，还分析了另外三个与RGEN的该中靶位点相差3个核苷酸的潜在脱靶位点(称为OT3、OT7和OT12位点)。

使用与在从0.03nM至300nM浓度范围下的HBB特异性sgRNA一起预孵育的Cas9蛋白裂解从野生型HAP1细胞中分离的基因组DNA(图1a)。随后，使用定量PCR测量这些位点的DNA裂解。即使在极低RGEN浓度下也几乎完全裂解HBB中靶位点和OT1位点二者(图1b)。相比之下，OT3位点只在高RGEN浓度下被完全裂解。另两个位点OT7和OT12即使在最高浓度下也裂解较差。

之后，将此RGEN转化到HAP1细胞中并使用T7内切核酸酶I(T7E1)和靶向深度测序检测在这些位点处诱导的插缺(插入和缺失)。

对于T7E1分析，根据制造商说明书使用DNeasy组织试剂盒(Qiagen) 分离基因组DNA。通过PCR扩增中靶位点。之后，通过加热使扩增的PCR产物变性并使用热循环仪缓慢冷却。将冷却的产物与T7内切核酸酶I(ToolGen) 一起在37℃下孵育20分钟，并通过琼脂糖凝胶电泳根据大小进行分离。

对于靶向深度测序，使用Phusion聚合酶(New England biolabs)扩增跨越中靶位点和脱靶位点的基因组DNA区段。使用Illumina MiSeq使PCR扩增子经历末端配对测序。

在解释这些结果时，位于PAM(前间区序列邻近基序)上游3-bp的插缺被视为由RGEN诱导的突变。如所预期，HBB RGEN在HBB中靶位点和OT1 脱靶位点二者处具有高活性，分别以71％和55％(T7E1)的频率产生插缺(图 1c)。在OT3位点处也以3.2％(T7E1)或4.3％(深度测序)的频率诱导脱靶插缺(图1c、图1d)。同时，在另两个在体外裂解较差的潜在脱靶位点处，使用T7E1(检出限，约1％)和深度测序(检出限，约0.1％)未检测到插缺。应注意，OT7位点在种子区域(在PAM上游的10-nt至12-nt序列)中无核苷酸错配，但在体外或在细胞中未被裂解，从而鉴别PAM远端区域的重要性。

这些结果与我们先前的如下发现一致：RGEN可在体外裂解脱靶DNA序列，但通常在细胞中在相同位点处无法诱导插缺。因此，RGEN在体外比在细胞中在靶特异性方面似乎杂乱得多。也许，通过RGEN产生的大多数DNA 双链断裂(DSB)在细胞中通过非同源末端连接(NHEJ)或同源重组(HR) 得到修复。

实验实施例2：序列读取分析

使4个不同的基因组DNA组经历全基因组测序(WGS)以研究使用RGEN 在体外裂解基因组DNA是否可产生在裂解位点处具有垂直比对的序列读取。

将从经RGEN转化的HAP1细胞和未转化HAP1细胞中分离的基因组 DNA在体外用靶向HBB基因的300nM Cas9和900nM sgRNA完全裂解。平行地，在体外没有RGEN裂解的情况下通过使用从这些细胞中分离的基因组 DNA进行WSG(图2a)。在将序列读取映射到参考基因组中之后，使用IGV (整合基因组学查看器)观察在中靶位点和4个同源位点处的序列比对模式。

首先，检查从对照组HAP1细胞中分离的消化基因组(裂解的基因组)。在中靶位点、OT1位点和OT3位点处，观察到不常见的垂直比对模式(图2b 和图3a、图3b)。跨越裂解位点的序列读取极其罕见。相比之下，在分析尚未经RGEN处理的完整基因组时，在这些位点处未观察到这样的垂直比对。在OT7位点和OT12位点处，大多数序列读取跨越潜在裂解位点(在PAM上游 3-bp)，产生交错比对(图3c、图3d)。

其次，将从经RGEN转化细胞中分离的消化基因组与相应的完整基因组相比较。在所有5个位点处，完整基因组产生典型的交错比对模式(图2b和图3)。相比之下，消化基因组在中靶位点和OT1位点处显示垂直和交错比对。在这两个位点处，几乎所有对应于交错比对的序列读取都含有插缺(图2b及图3a和图3b)。也就是说，应注意，RGEN无法裂解由其自身诱导的插缺序列。同时，对于跨越OT7和OT12裂解位点的序列读取，未发现插缺，与T7E1和深度测序结果一致。在OT3位点处，对于少数跨越该裂解位点的序列读取，消化基因组显示出直线比对模式。具体地，一个序列读取含有由RGEN诱导的插缺(图3b)。

这些结果表明，消化基因组测序足够灵敏，容许鉴别后脱靶突变，并且序列读取的垂直比对是体外RGEN裂解的独特标志。

实验实施例3：在信号核苷酸规模下的5'端图

为了在基因组规模上鉴别潜在的RGEN脱靶位点，开发搜索序列读取的直线比对的计算机程序。首先，对在单核苷酸规模下5'端在HBB中靶位点和两个经验证脱靶位点(OT1和OT3)附近的核苷酸位置处开始的序列读取绘图(图4a)。因为对沃森链和克里克链二者进行测序，假设应该在裂解位点处就在彼此旁边观察到几乎相等数目的对应于每条链的序列读取，产生双峰。如所预期，消化基因组在三个裂解位点(中靶位点、OT1和OT3)处产生双峰(图2c和图4b、图4c)。已经历体外RGEN处理的完整基因组在这些位点处未产生所述双峰图案。

之后，将这种方法应用于整个经RGEN转化的消化基因组、未转化消化基因组、完整的经RGEN转化的基因组和完整的未转化基因组。另外，将未转化基因组DNA在体外用Cas9蛋白在sgRNA不存在下或用浓度低100倍的 RGEN(3nM Cas9)处理，并且经历WGS和消化基因组分析。对具有相同 5'端的序列读取的计数在两条链中都大于10并且至少19％的序列读取经垂直比对的位点实施搜索。在经3nM和300nM RGEN处理的未转化消化基因组中鉴别总共17个和78个位点(包括中靶位点和两个经验证脱靶位点)(图5a)，其显示出5'端图中的双峰图案和IGV图像中的直线比对。在这些位点之间，在经3nM和300nM RGEN处理的消化基因组中的一个和两个位点是源自天然存在的插缺的假阳性。另外，在经RGEN转化的消化基因组中在总共125 个位点(包括三个经验证中靶位点和脱靶位点)处观察到这样的图案。同时，未验证OT7和OT12位点在这三个消化基因组中未显示出双峰图案。此外，在这三个消化基因组中共同鉴别出大多数位点，证实了消化基因组测序的高再现性。具体地，发现于未转化消化基因组(3nM RGEN)中的16个候选位点中的15个(94％)(不包括一个假阳性位点)也在另两个消化基因组中被鉴别出。发现于未转化消化基因组(300nM)中的76个候选位点中的74个(97％) 也在经RGEN转化的消化基因组中被鉴别出(图5a)。除了这三个经验证裂解位点外，在经RGEN转化的消化基因组中其他122个位点都不伴随插缺，表明这些候选位点处很少发生突变。同时，只在完整基因组中的两个位置、完整的经RGEN转化的基因组中的三个位置和仅用Cas9(300nM)处理的未转化基因组中的一个位置处观察到这样的双峰图案。在这三个完整基因组中鉴别的所有这些位置都是假阳性，其源自HAP1基因组中相对于参考基因组的天然存在的插缺(图6a至图6c)。因此，双峰图案或序列读取的垂直比对是在消化基因组中发现的独特特征。

之后，将在经RGEN转化和未转化消化基因组中鉴别的74个共有位点的 DNA序列与20bp中靶位点相比较，并且发现该20个核苷酸除了在5'端的一个以外全部都是保守的(图5b)。另外，通过将74个位点的DNA序列彼此比较而不是与中靶序列比较获得的序列标志或从头基序明确显示出在除了最初两个核苷酸外的所有位置处与中靶序列匹配(图5c)。另外，这些双峰位置中的70个(95％)伴随确切地在预期裂解位置下游3个核苷酸的 5'-NAG-3'PAM。预期仅6.25％(＝1/16)的位点偶然伴随PAM。两个位点含有5'-NAG-3'PAM。一些位点通过容许DNA或RNA凸起或假设5'-NGA-3'作为非标准PAM而与中靶位点匹配。可疑的是，5'-NGA-3'是否可在细胞中用作 PAM，但是在本披露的极端体外裂解条件下，RGEN可裂解这些位点。其他位点与中靶序列不具有序列同源性，表明其可为假阳性。

另外，在同源位点中的核苷酸错配越少，其越可能被消化基因组测序检测到。也就是说，检测到15个中的7个(47％)和142中的14个(10％)同源位点与中靶位点相差3和4个核苷酸，但仅检测到1,191个位点中的15个 (1.2％)和7,896个位点中的1个(0.013％)相差5和6个核苷酸(图5d)。

总而言之，这些结果指示，大多数双峰图案是由体外RGEN裂解引起的，并且消化基因组测序可在基因组规模上发现核酸酶裂解位点。

实验实施例4：用于鉴别候选位点处的脱靶效应的深度测序

进行深度测序以验证在两个消化基因组中鉴别的74个共有位点处的脱靶效应(图5e)。此外，还测试了另外8个与中靶位点相差3个核苷酸但未被消化基因组测序检测到的位点。在这8个位点处以至少0.1％并且大于阴性对照组的频率未检测到脱靶插缺(费雪精确检验，p<0.01)(图5d)。在74个位点中，总共5个位点(包括已验证的中靶位点、OT1位点和OT3位点)处以在0.11％至87％范围内的频率观察到插缺(图5e和图7a、图7b)。在另外两个刚验证的脱靶位点(称为HBB_48和HBB_75)处，以0.11％和2.2％的频率检测到插缺。这两个位点与中靶位点相差3个核苷酸。相对于在5'端与中靶位点相差1个核苷酸的20-nt sgRNA序列，在该HBB_48位点处存在3个核苷酸错配并且在该HBB_75位点处存在2个错配。这些经验证脱靶位点与该20-nt sgRNA序列相比都不具有DNA或RNA凸起，其也都不伴随非标准PAM，例如5'-NGA-3'或5'-NAG-3'。应注意，这两个新脱靶位点和另外三个位点是在三个消化基因组的每一者中被独立地鉴别。这些结果显示，消化基因组测序是灵敏并且可再现的在基因组规模上鉴别核酸酶脱靶效应的方法。

实验实施例5：用于VEGF-A特异性RGEN的消化基因组测序

之后，诸位发明人设法鉴别消化基因组测序是否适用于除了HBB基因以外的其他基因。用已显示在VEGF-A基因座处诱导中靶突变并且另外在4个同源位点处诱导脱靶突变的另一RGEN进行消化基因组测序。鉴别到总共81个位点(包括中靶位点和4个已验证的脱靶位点)显示双峰图案(图8a和图9)。这81个位点处的所有DNA序列都含有标准5'-NGG-3'PAM序列。将这些序列与中靶序列相比较显示在每个核苷酸位点处都匹配。此外，还将这些序列彼此比较以获得从头基序：所得序列标志还显示在几乎每个核苷酸位置处都与靶序列匹配，表明在该20-nt sgRNA序列中的每个核苷酸都有助于RGEN的特异性(图8b和图8c)。

之后，使用靶向深度测序在由消化基因组测序鉴别的81个位点和与中靶位点相差3个或更少核苷酸但未被消化基因组测序鉴别出的28个位点处鉴别中靶效应和脱靶效应。这种RGEN在HAP1细胞中具有高活性，在中靶位点除以87％的频率产生插缺并且在4个先前经验证的脱靶位点出以0.32％至79％范围内的频率产生插缺。此外，另外鉴别出4个脱靶位点，在这些位点处以0.065 ±0.021％至6.4±1.2％范围内的频率诱导插缺(图8e和图10)。使用该 RGEN获得的在这些位点处的插缺频率显著大于使用空载体对照组获得的频率(费雪精确检验，p<0.01)。这些脱靶位点含有与该20-nt靶序列的1至6个核苷酸错配和在PAM近端种子区域中的至少一个错配。在人类基因组中存在 13,892个具有6-nt错配的位点，但通过消化基因组测序仅鉴别到6个位点 (0.043％)，并且在所述位点中，仅1个位点通过深度测序得到了验证(图8d 和图8e)。迄今，与中靶位点具有6-nt核苷酸错配的RGEN脱靶位点先前从未被鉴别过。这些脱靶位点都不含DNA或RNA凸起，但通过消化基因组测序鉴别的81个位点中的40个与该20-nt靶序列相比含有丢失或额外的核苷酸。在所有这些其他位点(包括那些未被消化基因组测序鉴别出的位点)处，使用 RGEN获得的插缺频率为0.05％或更低，或小于使用空载体对照组获得的频率或与其无显著不同。

从这些实验实施例1至5可以看出，本频率的消化基因组测序是用于检测可编程核酸酶的脱靶位点的极高可再现的方法。

实验实施例6：改良的消化基因组测序

首先，诸位发明人开发了能使用人类基因组的全基因组测序(WGS)数据鉴别体外裂解位点的评分系统。在这些实验实施例1至5中鉴别的消化基因组测序分析具有高再现性，但存在一些具有不均匀裂解图案或低测序深度的位点可能丢失的问题。诸位发明人已发现，这些位点可通过估计Cas9蛋白在钝端制造一个或两个核苷酸悬突的情形来鉴别。基于序列读取的比对模式，将DNA裂解分数分配给每一核苷酸位点(图11)。通过这个程序，检测到多个在现有消化基因组测序中未检测到的另外的位点。裂解分数的基因组规模图显示，在未裂解基因组DNA中几乎未发现假阳性位点(图12a)：

在全基因组中鉴别的少量假阳性位点包括插缺(插入和缺失)，其在基因组DNA中天然存在，可易于筛选。如在两个独立消化基因组测序分析中可以看出的，人类基因组的裂解分数具有高再现性(R2＝0.89)(图13)。

诸位发明人还发现，在消化基因组测序分析中通过质粒模板转录的 sgRNA甚至不裂解在中靶位点处的任何核苷酸缺陷型假阳性的凸起型脱靶位点，其中该脱靶位点(it)是以使用寡核苷酸双链转录的sgRNA来检测的 (图12b和图14)。

这是因为从寡核苷酸双链转录的sgRNA不是均匀组分，包括从合成失败的寡核苷酸转录的不完整分子。结果，使用从质粒模板转录的sgRNA鉴别到的裂解位点比使用从寡核苷酸模板转录的sgRNA鉴别到的裂解位点具有更高的与中靶位点的同源性(表1和表2)。裂解位点周围的DNA序列可从通过比较所述序列获得的序列标志加以鉴别(图12c)。

[表1]

[表2]

因此，假阴性位点数目可使用本披露的裂解评分系统显著减少，并且假阳性位点数目可使用在质粒模板中转录的sgRNA显著减少。

实验实施例7：多重消化基因组测序

与其他方法不同，消化基因组测序可组合使用而无需增加与核酸酶数目成比例的测序深度。诸位发明人选择了10个sgRNA，使用GUIDE-seq对其单独分析，所述GUIDE-seq比IDLV检测和其他方法更灵敏。诸位发明人用另一种靶向sgRNA的Cas9蛋白、10个sgRNA和HBB基因的混合物裂解人类基因组 DNA，并且进行两个独立WGS分析(图15a)。之后，使用该评分系统在基因组规模上研究体外裂解位点。结果，在人类基因组中鉴别了总共964个位点(表3至12)。之后，根据与中靶位点的编辑距离将该位点归类(图15a和表3至表12)。

[表3]

[表4]

[表5]

[表6]

[表7]

[表8]

[表9]

[表10]

[表11]

[表12]

GUIDE-seq和其他方法需要过滤步骤，所述步骤移除约90％的与中靶位点缺少同源性的检测位点，但多重消化基因组测序不过滤位点，而是基于编辑距离进行比对。将该964个位点明确分为11个组。另外，体外裂解位点的 11个组中的每组与11个靶序列中的一个序列具有高同源性。因此，通过比较每组内的序列获得的从头基序或序列标志在几乎所有核苷酸位点处匹配靶序列(图15a)。

结果显示，尽管其小于前间区序列邻近基序(PAM)序列和由Cas9识别的PAM近端10-nt“种子”位点，但在23-nt靶序列5'端的10-nt位点有助于RGEN 的特异性。另外，经鉴别，除了由该11个RGEN裂解的964个位点中的一个位点外，所有位点都具有5'-NGG-3'的PAM序列或类似于5'-NNG-3'/5'-NGN-3' 的PAM的序列。因此，多重消化基因组测序可用于在无需同源序列的程序搜索的情况下精确寻找体外裂解位点并且简单，可应用于多种可编程核酸酶，并且与其他已知方法(例如GUIDE-seq和HTGTS)相比具有许多优点。

之后，鉴别是否每一sgRNA都能裂解中靶位点和脱靶位点。通过在高浓度(900nM)的HBB特异性sgRNA下用Cas9(300nM)处理而裂解的30个位点中的17个位点(＝57％)在使用低浓度(82nM)的相同sgRNA进行多重消化基因组测序时被检测到(图15b和图16c)。这些结果表明，11个sgRNA 中的每一者都可彼此独立地将Cas9引导至其中靶位点和脱靶位点，并且可理解，消化基因组测序具有复杂性。

实验实施例8：体外裂解位点

该11个sgRNA在基因组规模上显示宽特异性范围；人类基因组中每个 sgRNA的裂解位点数目都在13至302范围内(图16a和表3至表12)。如所预期，在进行多重消化基因组测序时检测到在人类基因组中使用Cas-OFFinder鉴别出的所有中靶位点，以及每个中靶位点和大多数具有一个或两个核苷酸的位点(图16b)。然而，检测到极少数具有3个或更多个核苷酸错配的位点。也就是说，通过消化基因组测序检测出的位点的比率随着核苷酸错配数目从3 增加到6，以指数方式减少(图16b)。另外，与具有0或1个错配的位置相比，种子区域中具有两个或更多个核苷酸错配的位点在体外不被裂解(P<0.01，学生t检验)。

另一方面，经鉴别，用消化基因组测序检测出的位点数目和人类基因组中具有6个或更少核苷酸错配的同源位点数目(定义为“正交性”)具有显著相关性(R²＝0.93)(图16c)。也就是说，人类基因组中5个具有16,000个或更多同源位点的sgRNA在体外裂解63个或更多(每个sgRNA平均161个)，而 6个具有13,000个或更少同源位点的sgRNA在体外裂解46个或更少(每个 sgRNA平均28个)，并且因此特异性相对更高(P<0.01，学生t检验)(图16c)。该结果与在GUIDE-seq阳性位点数目与人类基因组的中靶位点的正交性之间观察到的缺乏相关性(R²＝0.29)不同(图17)。然而，如GUIDE-seq所鉴别的5个特异性最高的sgRNA在细胞中裂解10个或更少位点，与通过消化基因组测序鉴别的特异性最高的sgRNA一致。

结果表明，可需要人类基因组中的某些位点以使脱靶效应降至最低，在所述位点中存在少于13,000个具有6个或更少核苷酸错配的同源位点且不存在具有2个或更少核苷酸错配的同源位点。就这一点而言，在1715个可靶向位点(包括5'-NGG-3'PAM序列)中的368个位点(＝21.5％)对应于上文关于本披露中测试的4个基因的概念(表13)。

[表13]

实验实施例9：消化基因组测序相对于其他方法

平均来说，多重消化基因组测序成功地鉴别到80±8％的通过常规 GUIDE-seq检测出的位点(图16a)。例如，用GUIDE-seq使用3个对VEGFA1、 RNF2和HEK293-3具有特异性的sgRNA检测到的所有位点也被消化基因组测序所鉴别。另外，多重消化基因组测序检测出703个未被GUIDE-seq检测到的新位点(平均每个sgRNA70个)(图16a)。结果，GUIDE-seq检测出25±6％的通过多重消化基因组测序检测到的位点。RNF2特异性sgRNA是显示出消化基因组测序的优点的很好的例子。先前研究已进行了两个独立的 GUIDE-seq分析，但无法检测到这个sgRNA的脱靶位点。然而，除了中靶位点外，消化基因组测序还鉴别到12个裂解位点。另外，在消化基因组测序阳性位点数目与GUIDE阳性位点数目之间观察到缺乏相关性(R²＝0.20)(图 16d)。

对于该10个sgRNA中的9个，消化基因组测序可比GUIDE-seq获得更多的候选脱靶位点，但这不是综合结果。也就是说，HBB sgRNA未通过GUIDE-seq 进行分析。总之，GUIDE-seq检测出总共168个在消化基因组测序中未被检测到的位点。

另一方面，还针对两个靶向VEGFA 1和EMXl位点的sgRNA进行HTGTS (图16a)。大多数通过另外两种方法(GUIDE-seq和HTGTS)中的至少一种检测到的位点(VEGFA 1中40个位点中的31个和EMX1中19个位点中的17个) 也如消化基因组测序所研究，但VEGFA中的9个和EMX1中的2个未被检测到。这是因为一些位点是PCR引物所致的假结果或因天然存在的DSB产生的假阳性，这是GUIDE-seq和HTGTS的固有限制。然而，常见地在这个位置中发现、最常见地在另外两种方法中发现的两个EMX1脱靶位点是在该特定位点处具有低测序深度(图18)或低浓度(82nM)的sgRNA，并且因此在多重消化基因组测序中不被鉴别出。这个问题可以通过多次进行WGS以增加平均测序深度和与通过使用在单一分析中具有高浓度的sgRNA获得的序列读取合并来克服。

VEGFA 2特异性sgRNA是消化基因组测序可检测出比GUIDE-seq更多的候选位点的规则的唯一例外。也就是说，GUIDE-seq鉴别出122个未在消化基因组测序中检测到的位点。靶序列是由胞嘧啶伸长段(stretch)组成的不常见序列。可从映射程序中移除用WGS在均聚物位点处获得的多个序列读取。另一方面，GUIDE-seq将能够使用PCR扩增所检测的寡核苷酸位点来检测这些位置。

之后，将在本披露中鉴别的裂解位点与使用ChiP-seq(染色质免疫沉淀测序)检测的裂解位点相比较。首先，对本披露中所用的4个sgRNA进行 ChiP-seq。dCas9未结合至如消化基因组测序鉴别的大多数Cas9裂解位点(288 个，98％)(图19)。结果显示，Cas9的DNA结合是与DNA裂解分开的概念，并且使用dCas9的ChiP-seq可用于检查基于dCas9的转录因子和表观基因组调节因子的特异性，但其不适于分析Cas9 RGEN的基因组规模特异性。

实验实施例10：细胞内脱靶位点的鉴别

之后，使用下一代测序(NGS)平台，鉴别在消化基因组测序和GUIDE-seq 中鉴别的位点(表14至表23)中的一些位点的每一sgRNA和Cas9蛋白是否在人类细胞中诱导脱靶插缺。

[表14]

[表15]

[表16]

[表17]

[表18]

[表19]

[表20]

[表21]

[表22]

[表23]

在消化基因组测序和GUIDE-seq中共同检测到的132个位点中的116个位点(＝88％)处检测到高于由测序误差造成的背景噪音水平的插缺。另一方面，在消化基因组测序中以及仅在GUIDE-seq中检测到的大多数位置未通过靶向深度测序进行鉴别。另一方面，仅在消化基因组测序中以及在GUIDE-seq 中检测到的大多数位点未通过靶向深度测序来鉴别插缺。也就是说，仅在消化基因组测序中检测到的127个位点中的21个(＝17％)和仅在GUIDE-seq中检测的45个位点中的23个(＝51％)诱导高于噪音水平的插缺。经鉴别，两种方法都不是通用方法。在大多数经验证位点中，插缺频率低于1％，远低于在相应中靶位点处鉴别的插缺频率。例如，靶向RNF2的sgRNA在本披露中验证的中靶位点和两个脱靶位点处诱导插缺，其显示频率分别为68％、 0.25％和0.09％(图20)。可以看出，可在未在NGS中鉴别的位点处以低于噪音水平的频率(0.001％至4％，取决于位点)诱导插缺。

为了降低脱靶效应，另外使用在5'端包括两个鸟嘌呤的sgRNA(称为ggX₂₀ sgRNA)(图21a)。经修饰sgRNA的特异性是相应GX₁₉ sgRNA的598倍 (图21b-图21g)。RNF2特异性ggX₂₀ sgRNA未检测到高于噪音水平的脱靶插缺(图21d)。

实验实施例11：脱靶位点处的插缺频率

通过NGS验证的脱靶位点(＝160)和未验证脱靶位点(＝144)处的插缺频率特定地用于鉴别脱靶效应。经鉴别，发现中靶位点和脱靶位点的插缺频率图中的错配核苷酸数目和具有2个或更少核苷酸错配的脱靶位点可在细胞内被有效裂解(平均插缺频率＝5.38％)，并且所述位点在具有3个或更多个核苷酸错配的情形中未被有效裂解(平均插缺频率＝0.14％或更低)(图 22a)。中靶位点处的插缺频率为60±7％。在经验证或未验证位点处，核苷酸错配在PAM远端区域和PAM近端区域中几乎均匀分布。具有3个或更多个核苷酸错配的经验证或未验证位点与PAM远端位点同样重要(图22b和图 22c)。也就是说，在种子位点具有0或1个核苷酸错配的位点处，插缺频率与具有2个或更多个错配的位点同样低。

结果显示，计算基因组中的潜在脱靶位点数目、通过消化基因组测序鉴别的位点比率(图16a)和从该位点的平均可插缺频率(图20)计算的脱靶分数(表24)。

[表24]关于人类基因组中的EMX1靶序列 (5'-GAGTCCGAGCAGAAGAAGAANGG-3')的脱靶分数的计算

^a通过使用Cas-OFFinder获得

^b如图16b中所示来鉴别

^c通过靶向深度测序鉴别(图22a)。

为了汇总上述结果，诸位发明人已开发了能检测可编程核酸酶的脱靶位点的消化基因组测序方法，所述方法与其他常规方法相比高度可再现，并且经配置以易于检测脱靶位点。另外，诸位发明人开发了体外DNA裂解评分系统并开发了强化消化基因组测序，其可使用从质粒模板而不是合成寡核苷酸双链转录的sgRNA减少假阳性和假阴性位点数目。另外，多重消化基因组测序是通过用11个sgRNA的混合物裂解基因组DNA来进行的，并且平均每个 sgRNA鉴别70个在GUIDE-seq中未检测到的另外的裂解位点。在经RGEN转化的人类细胞中在这些位点中的多个中诱导脱靶插缺。因此，通过检查插缺频率、核苷酸错配数目和数百个脱靶位点中的错配位点，经鉴别，RGEN特异性中的PAM远端区域与种子区域同样重要。另外，已鉴别，与总错配核苷酸数目为0或1的情形相比，在种子位点具有两个或更多个核苷酸错配的位点不在体外被裂解。

实验实施例12：大规模多重消化基因组测序

诸位发明人尝试鉴别即使在大规模扩展多重消化基因组测序的靶的情形中是否可有效地检测脱靶位点。

具体地，对各自不同的100个中靶位点进行多重消化基因组测序。即使将中靶位点扩展至100个，该100个靶的脱靶位点也可通过消化基因组测序有效检测。

就这一点而言，在通过计算机程序关于中靶位点细化具有6个或更少核苷酸错配的位点后，将这个部分归类为RGEN的裂解位点和非裂解位点。之后，通过基于神经网络的机器学习来分析裂解位点序列与非裂解位点序列之间的差异，并产生能关于中靶位点预测脱靶位点的程序。发现与已开发的其他程序(crop-it)相比，通过该程序可检测大量脱靶位点(图23)。

实验实施例13：用于ZFN的消化基因组测序

另外，诸位发明人还尝试通过相同方法检测ZFN而不是RGEN的脱靶位点。

与RGEN一样，用在体外分离的无细胞基因组DNA处理ZFN蛋白，然后进行WGS。在ZFN情形中，经鉴别，在通过IGV观察中靶位点时出现垂直比对(图24a)，并且在整个基因组规模上给出裂解分数(图24b)。经鉴别，通过比较在体外裂解位点周围的DNA序列获得的序列标志与大多数位点处的靶序列一致(图24c和图24d)。

在针对一部分从消化基因组测序获得的具有4个或更少核苷酸错配区域的候选中靶位点和候选脱靶位点(表25)通过ZFN转化后，进行靶向深度测序。

[表25]

结果，经鉴别，插缺存在于62个候选脱靶位点中的35个中靶位点和脱靶位点中。具体地，经鉴别，0.028％至5.9％被诱导(表25)。这显示消化基因组测序方法也预测ZFN的脱靶位点。在通过在FokI位点处修饰(KK或EL) 制得的ZFN的情形中，特异性增加(图24)。因此，在通过FokI修饰的ZFN 进行消化基因组测序时发现总共16个候选脱靶位点。另外经鉴别，在通过使用FokI修饰的ZFN转化的细胞中，插缺在16个候选脱靶位点中的15个位点处出现，并且这指示与其他常规方法(ILDV、体外选择)相比,可发现大量脱靶位点(图25)。

总之，上述结果表明，本披露的消化基因组测序可应用于任何可具有 RGEN、ZFN以及中靶位点和脱靶位点的可编程核酸酶。

如上所述，本披露所属技术领域的普通技术人员将理解，在不背离本披露的技术精神或本质特征的情况下，本披露可以其他具体形式来体现。就这一点而言，应理解，上述实施方案旨在在每个方面中进行说明，但并不旨在是限制性的。本发明的范围应视为涵盖在如通过所附权利要求书而不是前述说明书定义的含义和范围内的所有修改和改变及其等效概念。

Claims

1.一种用于检测基因组中的脱靶位点的方法，其包括：

(a)用靶特异性可编程核酸酶裂解分离的基因组DNA；

(b)进行该裂解DNA的下一代测序；和

(c)在每一核苷酸位点处用如下公式计算裂解分数以测定通过该测序获得的序列读取中的经裂解位点，如果计算的分数为25000或更高，该位点是经裂解位点：

F_i：在i位点处开始的正向序列读取的数目

R_i：在i位点处开始的反向序列读取的数目

D_i：在i位点处的测序深度

C：任意常数

C值为100，

(d)在该经裂解位点不是中靶位点的情形中，确定该经裂解位点为脱靶位点。

2.根据权利要求1的方法，其中该基因组DNA是从表达或不表达该靶特异性可编程核酸酶的细胞中分离的。

3.根据权利要求1的方法，其中该分离的基因组DNA是从表达可编程核酸酶的细胞中分离的，并且所述方法进一步包括通过在该DNA的脱靶位点处鉴别插缺(插入和缺失)来测定脱靶效应。

4.根据权利要求3的方法，其中该插缺是通过使用T7E1分析对该脱靶位点和Cel-I酶进行突变体检测或靶向深度测序来鉴别的。

5.根据权利要求1的方法，其中该脱靶位点与靶位点具有一个或多个核苷酸错配。

6.根据权利要求1的方法，其中该脱靶位点与靶位点具有1至6个核苷酸错配。

7.根据权利要求1的方法，其中该可编程核酸酶是针对2个或更多个靶的可编程核酸酶的混合物。

8.根据权利要求1的方法，其中该可编程核酸酶是针对2至100个靶的可编程核酸酶的混合物。

9.根据权利要求7的方法，其进一步包括根据到该中靶位点的编辑距离对脱靶位点进行归类。

10.根据权利要求1的方法，其中该可编程核酸酶选自下组，该组由以下各项组成：大范围核酸酶、ZFN(锌指核酸酶)、TALEN(转录激活因子样效应因子核酸酶)、RGEN(RNA指导的工程化核酸酶)和Cpf1。

11.根据权利要求10的方法，其中RGEN包括特异性地结合至靶基因的序列的指导RNA和Cas蛋白。

12.根据权利要求11的方法，其中该指导RNA是从寡核苷酸双链或质粒模板转录的。

13.根据权利要求11的方法，其中该指导RNA是包括crRNA和tracrRNA的双RNA或单链指导RNA。

14.根据权利要求11的方法，其中该Cas蛋白是Cas9蛋白或Cas9蛋白的变体。

15.根据权利要求11的方法，其中该Cas蛋白来源于选自下组的一种，该组由以下各项组成：链球菌属(Streptococcus)、奈瑟氏菌属(Neisseria)、巴斯德菌属(Pasteurella)、弗朗西斯菌属(Francisella)和弯曲杆菌属(Campylobacter)。

16.根据权利要求10的方法，其中该大范围核酸酶选自下组，该组由以下各项组成：I-SceI、I-CeuI、PI-PspI和PI-SceI。

17.权利要求10的方法，其中该Cpf1来源于选自下组的一种，该组由以下各项组成：候选帕西菌(Candidatus Paceibacter)、毛螺菌属(Lachnospira)、丁酸弧菌属(Butyrivibrio)、Peregrinibacteria、氨基酸球菌属(Acidominococcus)、卟啉单胞菌属(Porphyromonas)、普雷沃氏菌属(Prevotella)、弗朗西斯菌属(Francisella)、候选甲烷支原体(Candidatus methanoplasma)和真细菌属(Eubacterium)。