CN114402097A

CN114402097A - 用于筛选文库的方法

Info

Publication number: CN114402097A
Application number: CN202080064335.3A
Authority: CN
Inventors: B.多尔; G.斯卡韦洛
Original assignee: GlaxoSmithKline Intellectual Property Development Ltd
Current assignee: GlaxoSmithKline Intellectual Property Development Ltd
Priority date: 2019-09-12
Filing date: 2020-09-10
Publication date: 2022-04-26
Also published as: IL290650A; US20220403553A1; JP2022547699A; WO2021048291A1; CA3151872A1; EP4028585A1

Abstract

本发明涉及鉴定内切核酸酶的DNA靶序列的方法。用于该方法的底物文库和工程化改造内切核酸酶以具有改善的对特定底物的切割效率的方法形成本发明的其他方面。

Description

用于筛选文库的方法

发明领域

发明背景

能够切割基因组内单个位点的内切核酸酶通过刺激非同源末端连接或同源重组而具有巨大的基因组编辑的潜力，并且多种工程化改造的内切核酸酶已经进入临床试验，包括CCR5-2246(靶向人CCR5)和VR24684(靶向人VEGF-A启动子)。尽管有能力工程化改造某些核酸酶(例如RNA引导的核酸酶，诸如Cas9/向导RNA、TALEN或锌指核酸酶)以对特定的独特靶序列具有特异性，但很明显这些核酸酶也可能与其他脱靶序列相互作用并在其他脱靶序列处切割。事实上，一些工程化改造的核酸酶与细胞毒性和致瘤性有关。在2016年11月15日的科学委员会会议上，FDA指出批准治疗性内切核酸酶时，需要考虑切割的特异性。

鉴于对脱靶切割的担忧，已经进行了各种尝试来表征与内切核酸酶经工程化改造以切割的靶位点密切相关的靶位点上的内切核酸酶的切割。WO2018/119010描述了使用寡核苷酸文库的方法，该方法易于大规模生产，并且该方法与自动化相容。然而，该方法具有低信噪比，并且需要高切割率以检测信号。因此，该方法使用非生理酶:DNA化学计量学进行，其本身可能导致人为现象(artefact)。

需要能够克服与现有技术相关的缺点的方法。

发明内容

在第一方面，本发明提供了底物文库，其包含多种DNA底物，其中该文库内的每个底物含有推定的靶序列，该推定的靶序列是能够独特地鉴定所述推定的靶序列的标识符DNA序列的5’，该标识符DNA序列是与反向PCR引物相同的序列的5’，并且其中文库内的双链DNA底物彼此之间的不同仅在于推定的靶序列和标识符DNA序列。

在一个实施方案中，底物文库包含多个双链DNA底物。

在另一个方面，本发明提供了用于制备包含如本文所定义的多个双链DNA底物的底物文库的方法。该方法包括用文库正向引物和文库反向引物对多个推定的靶序列进行PCR扩增的步骤，该推定的靶序列侧接有a)与所述文库正向引物互补的序列和b)与所述文库反向引物序列的部分相同的序列，其中文库反向引物是含有不同标识符序列的DNA序列的异质混合物，该不同标识符序列位于与反向引物互补的所有序列共有的序列的5’，并且其中不同标识符序列的数目以摩尔超过推定的靶序列的数目。

另一方面，本发明提供了用于鉴定内切核酸酶的DNA靶序列的方法，其包括以下步骤：

a)在合适的条件下使如本文所述的底物文库与内切核酸酶接触以允许切割；

b)将经内切核酸酶处理的文库与包括与“切割”PCR引物互补的序列的DNA序列连接；

c)用切割和反向PCR引物对经切割的底物进行PCR扩增；和

d)测序扩增的PCR产物；

其中通过标识符序列的序列鉴定切割产物中的DNA靶序列。

在又一方面，本发明提供了用于工程化改造内切核酸酶的方法，其包括：

a)使用相同的底物文库，用第一内切核酸酶和至少两种其他内切核酸酶进行如本文所述的鉴定内切核酸酶的DNA靶序列的方法，该其他内切核酸酶与第一内切核酸酶的不同在于内切核酸酶氨基酸序列内不同位置处的单个氨基酸变化；

b)比较步骤a)中测试的每种内切核酸酶在特定底物处的切割效率；

c)鉴定提高切割效率的不同位置处的至少两个氨基酸变化；

d)产生含有步骤c)中鉴定的至少两个氨基酸变化的变体内切核酸酶。

在又一方面，本发明提供了通过本文所述方法获得的变体内切核酸酶。

附图简述

图1显示用于鉴定内切核酸酶的DNA靶序列的方法的步骤a)至c)的示意图。图1A显示双链底物文库，包括推定的靶序列、标识符序列和与反向引物互补的序列。图1B显示经切割的底物文库。在此表示中，推定的靶序列2是仅有的经切割的推定靶序列。图1C显示与切割引物连接后的文库。图1D显示使用切割和反向引物进行PCR扩增所得的扩增PCR产物。

图2显示实施例3中表征的底物文库中单个DNA底物的频率。y轴显示单个寡核苷酸计数频率。

图3A显示使用野生型Cas9-RNP和R691A突变体Cas9-RNP两者的未切割PCR反应的4％琼脂糖凝胶。图3B显示使用野生型Cas9-RNP和R691A突变体Cas9-RNP两者的切割PCR反应的4％琼脂糖凝胶。

图4显示所得探针文库中各种错配的数目的相对丰度以及DNA的PAM或gRNA区域中具有N＝4、5或6个错配的未采样序列的相对比例。

图5和图6显示BEESEM衍生的结合谱(A和B)以及在1:1和1:5DNA:RNP比率下HifiCas9相对于wt Cas9的比较(C)。

图7显示证明在相同条件下两次测定运行的高重现性的重现性试验，以及池中每个寡核苷酸之间的相对高相关性的比较(相互比较)。

图8显示实施例6中表征的底物文库中单个DNA底物的频率。y轴显示单个寡核苷酸计数频率。

图9显示I-SceI探针文库中各种错配的数目的相对丰度(A)和文库靶区域中具有N＝4、5或6个错配的未采样序列的相对比例(B)。

图10显示在50单位/ug的DNA文库(A)、5单位/ug的DNA文库(B)和0.5单位/ug的DNA文库(C)下I-SceI的BEESEM衍生的结合谱。

发明详述

如上所述，本发明提供了底物文库，其包含多种DNA底物，其中文库中的每种底物含有推定的靶序列，该推定的靶序列是能够独特地鉴定所述推定的靶序列的标识符序列的5’，该标识符序列是与反向PCR引物相同的序列的5’，并且其中文库内的双链DNA底物彼此之间的不同仅在于推定的靶序列和标识符DNA序列。

在本发明的上下文中，推定的靶序列是可以潜在地由内切核酸酶进行切割的DNA序列。在DNA底物是双链的情况下，推定的靶序列是可以潜在地由内切核酸酶进行双链切割的DNA序列。在DNA底物是单链的情况下，推定的靶序列是可以潜在地由内切核酸酶进行单链切割的DNA序列。底物文库中的DNA底物含有不同的推定的靶序列，每个推定的靶序列在一个或多个位置(核苷酸)处与文库中的每个其他推定的靶序列不同。在一个实施方案中，所有推定的靶序列长度相同。

在一个实施方案中，文库中推定的靶序列的长度为9至50个核苷酸。在一个更特定的实施方案中，推定的靶序列的长度为9至40、12至40、12至30个核苷酸、12至25个核苷酸和12至20个核苷酸。在内切核酸酶是Cas9核酸酶的一个实施方案中，推定的靶序列长度为18至22个核苷酸。在内切核酸酶是TALEN的另一个实施方案中，推定的靶序列的长度为14至20个(单体)或32至48个(二聚体)核苷酸。在内切核酸酶是锌指核酸酶的另一个实施方案中，推定的靶序列长度为9或15个(单体)或22至38个(二聚体)核苷酸。在内切核酸酶是大范围核酸酶的实施方案中，推定的靶序列长度为17至24个核苷酸。

在一个实施方案中，推定的靶序列是随机生成的。在另一个实施方案中，这些是基于来自关于相关内切核酸酶的已知靶序列的文献的知识。在这种情况下，底物文库含有推定的靶序列，其包括已知靶序列和该已知靶序列的变体。变体序列通常包括在单个位置处不同于靶序列的变体。在一个实施方案中，所包括的推定的靶序列包含内切核酸酶的已知靶序列和所有可能的单个变体(所有可能的单个变体是指序列中的每个核苷酸在该位置改变为其他3个可能的核苷酸中的每一个的情况)。在某些实施方案中，变体序列包括在两个或更多个位置处不同于已知靶序列的序列。因此，在另一个实施方案中，所包括的推定的靶序列包含内切核酸酶的已知靶序列和这些的所有可能的单个变体和双变体(所有可能的双变体是指包括所有可能的单个变体结合每一个其他可能的单个变体的情况)。在另一个实施方案中，所包括的推定的靶序列包含内切核酸酶的已知靶序列和这些的所有可能的单个变体、双变体和三变体(所有可能的三变体出现在包括所有可能的单个变体结合所有可能的双变体的情况下)。

在一个实施方案中，所包括的推定的靶序列包含内切核酸酶的已知靶序列和在4至7个核苷酸之间的连续区段处不同于已知靶序列的变体。在一个实施方案中，已知靶标中的4至7个核苷酸区段经修饰以包括所有其他可能的4至7个核苷酸组合。在一个实施方案中，推定的靶序列包括变体，其中已知靶序列内的每个4至7个核苷酸区段经修饰以包括所有其他可能的4至7个核苷酸组合。

在其中底物文库包含双链DNA底物的一个实施方案中，底物文库针对酶类EC3.1.21的大范围核酸酶(也称为归巢内切核酸酶)进行定制。大范围核酸酶的实例包括I-CreI、I-SceI和I-DmoI。已经显示野生型形式的大范围核酸酶I-CreI识别序列TGTTCTCAGGTACCTCAGCCAG(SEQ ID NO:1)。在一个实施方案中，可以制备基于该已知靶序列的底物文库。在一个实施方案中，本发明提供了底物文库，其中在文库中存在的推定的靶序列作为整体包括SEQ ID NO:1和SEQ ID NO:1的所有可能的单个变体。在另一个实施方案中，本发明提供了底物文库，其中在文库中存在的推定的靶序列作为整体包括SEQ ID NO:1和SEQ ID NO:1的所有可能的单个变体和双变体。在另一个实施方案中，本发明提供了底物文库，其中在文库中存在的推定的靶序列作为整体包括SEQ ID NO:1和SEQ ID NO:1的所有可能的单个变体、双变体和三变体。

已经显示野生型形式的大范围核酸酶I-SceI识别序列TAGGGATAACAGGGTAAT(SEQID NO:2)。在一个实施方案中，可以制备基于该已知靶序列的底物文库。在一个实施方案中，本发明提供了底物文库，其中在文库中存在的推定的靶序列作为整体包括SEQ ID NO:2和SEQ ID NO:x1的所有可能的单个变体。在另一个实施方案中，本发明提供了底物文库，其中在文库中存在的推定的靶序列作为整体包括SEQ ID NO:2和SEQ ID NO:2的所有可能的单个变体和双变体。在另一个实施方案中，本发明提供了底物文库，其中在文库中存在的推定的靶序列作为整体包括SEQ ID NO:2和SEQ ID NO:2的所有可能的单个变体、双变体和三变体。基于该靶序列的底物文库的制备描述于实施例6。

在底物文库包含双链DNA底物的一个实施方案中，底物文库针对锌指核酸酶进行定制。虽然这些核酸酶不是天然存在的，但已经生成了许多。事实上，有许多公开可用的生成锌指核酸酶的系统，包括寡聚化池工程(OPEN)、上下文相关组装(CoDA)和基于细菌单杂交(B1H)选择的系统。OPEN策略已经用于生成识别内源性人和烟草基因中的特定序列的锌指核酸酶(Maeder et al.,Molecular Cell,2008,31(2):294-301)。在该研究中，生成了许多锌指核酸酶，包括能够识别序列CTACCCCGACCACATGAAGCAGCAC(SEQ ID NO:3)的锌指核酸酶。在一个实施方案中，可以制备基于锌指核酸酶的靶序列的底物文库。在一个实施方案中，本发明提供了底物文库，其中在文库中存在的推定的靶序列作为整体包括SEQ ID NO:3和SEQ ID NO:3的所有可能的单个变体。在另一个实施方案中，本发明提供了底物文库，其中在文库中存在的推定的靶序列作为整体包括SEQ ID NO:3和SEQ ID NO:3的所有可能的单个变体和双变体。在另一个实施方案中，本发明提供底物文库，其中在文库中存在的推定的靶序列作为整体包括SEQ ID NO:3和SEQ ID NO:3的所有可能的单个变体、双变体和三变体。

在底物文库包含双链DNA底物的一个实施方案中，底物文库针对TALEN进行定制。同样，这些不是天然存在的，但已经生成了许多，并且存在设计和合成具有特定特异性的TALEN的软件和平台(例如，TALEN targetter、E-TALEN、FLASH、Golden Gate)。Reyon和同事使用FLASH系统来产生靶向许多人基因的TALEN(Reyon et al.,Nature Biotechnology,2012,30:460-465)。靶向ERCC2的TALEN识别序列TCCGGCCGGCGCCATGAAGTGAGAAGGGGGCTGGGGGTCGCGCTCGCTA(SEQ ID NO:4)。在一个实施方案中，可以制备基于该已知靶序列的底物文库。在一个实施方案中，本发明提供了底物文库，其中在文库中存在的推定的靶序列作为整体包括SEQ ID NO:4和SEQ ID NO:4的所有可能的单个变体。在另一个实施方案中，本发明提供了底物文库，其中在文库中存在的推定的靶序列作为整体包括SEQ ID NO:4和SEQ IDNO:4的所有可能的单个变体和双变体。在另一个实施方案中，本发明提供了底物文库，其中在文库中存在的推定的靶序列作为整体包括SEQ ID NO:4和SEQ ID NO:4的所有可能的单个变体、双变体和三变体。

在一个实施方案中，底物文库针对RNA引导的核酸酶进行定制。RNA引导的核酸酶是指与向导RNA(gRNA)相互作用并且与gRNA缔合来切割可以是双链或单链的靶区域的核酸酶。gRNA可以是单分子的(包括单个RNA分子)或模块化的，包括CRISPR RNA(crRNA)和反式激活crRNA(tracrRNA)两者。无论是单分子的还是模块化的gRNA，都包含与期望被切割的DNA序列互补的向导序列。在一个实施方案中，RNA引导的核酸酶包括但不限于天然存在的2类CRISPR核酸酶，诸如Cas9或Cpf1，以及切割双链DNA的这些的变体。在一个实施方案中，II类CRISPR核酸酶是天然存在的。此类核酸酶的靶序列将以众所周知的方式取决于核酸酶类别的性质和gRNA。例如，通常Cas9核酸酶识别其中PAM(前间隔区相邻基序)序列是与向导序列互补的前间隔区序列的3’的序列。实施例1举例说明了含有作为推定的靶序列的22bpTCRα靶区域和该22bp序列的所有可能的单个变体、双变体和三变体的底物文库。实施例1中制备的底物文库用于实施例5以表征来自酿脓链球菌(S.pyogenes)的野生型CRISPR Cas9酶或其展现出显示脱靶活性降低的点突变R691A的变体，与TCRαcrRNA和经修饰以增加核酸酶抗性的市售67bp tracrRNA组合的切割。在另一个实施方案中，RNA引导的核酸酶包括但不限于天然存在的II型C亚类的Cas9酶或其变体，或切割单链DNA的Cas3酶或其变体。

在另一个实施方案中，底物文库针对已知与特定疾病适应症相关的已知SNP进行定制。在该实施方案中，推定的靶序列将包括长度为9-50个核苷酸的序列，包括SNP和周围的野生型序列，其中在不同的推定的靶序列中，序列内SNP的位置移动了单个核苷酸位置。除此之外，推定的靶序列将包括对应于所有天然存在的同种型的上述所有序列的野生型序列。

在一个实施方案中，底物文库将含有超过1000个DNA底物。在更特定的实施方案中，底物文库将含有超过10000个DNA底物。在更特定的实施方案中，底物文库将含有超过60000个DNA底物。在更特定的实施方案中，底物文库将含有超过100000个DNA底物。在本文所述的底物文库的一个实施方案中，DNA底物将是双链的。在本文所述的底物文库的另一个实施方案中，DNA底物将是单链的。发明人已经生成了用于本发明的方法的约290000个底物的文库。

在本发明的特定实施方案中，底物文库中的每种底物以大致相同的拷贝数存在，换言之，底物的丰度大致相等。可以通过实施例3中描述的方法评估底物的丰度。在一个实施方案中，文库中至少99％底物的丰度变化小于5倍，并且在更特定的实施方案中，小于2倍。

除了含有推定的靶序列外，文库中的每个底物还含有标识符序列。这是结合特定的靶序列而独特存在的DNA序列，因此它可以充当条形码。标识符序列的确切序列并不重要，并且可以使用任何序列，只要它可以链接回特定的推定靶序列。然而，有一个重要的限制，即推定的靶序列的序列不应该与标识符序列的序列相同。在一个实施方案中，每个推定的靶序列的序列与相关标识符序列的序列不同。在另一个实施方案中，标识符序列的序列与文库中存在的任何推定的靶序列的序列不同。这确保了当推定的靶序列经内切核酸酶切割时，标识符序列将保持完整。

在一个实施方案中，存在于底物文库中的每个独特标识符序列的长度相同。在一个实施方案中，每个独特标识符与每个其他独特标识符序列在至少1个核苷酸上不同。在更特定的实施方案中，每个独特标识符与每个其他独特标识符序列在至少2或至少3个核苷酸上不同。具有一个以上不同的核苷酸最小化测序错误生成文库中另一个标识符序列的序列的可能性。

在一个实施方案中，独特标识符不包括内部互补或与其自身、引物或底物的其他部分具有同源性的序列。

在一个实施方案中，底物文库中的推定的靶序列中的每一个与底物文库中的其他推定的靶序列长度相同，并且底物文库中的标识符DNA序列中的每一个与底物文库中的其他标识符DNA序列的长度相同。

文库中的每个底物还含有与反向PCR引物互补的序列。该序列在文库的每个成员中相同。如果反向PCR引物能够在适当的条件下扩增底物，该确切序列不重要。

在DNA底物是双链的某些实施方案中，文库中的每个底物还含有与正向引物互补的序列，其中该序列位于推定的靶序列的5’。该序列在文库的每个成员中相同。如与反向引物互补的序列，如果正向PCR引物能够在适当条件下扩增底物，与正向引物互补的区域的确切序列不重要。

在某些实施方案中，在DNA底物是双链或单链的情况下，DNA底物在其5’末端具有亲和标签。在DNA底物为单链的某些实施方案中，所选择的5’亲和标签防止5’末端与双链DNA连接，例如，通过其5’羟基附接至DNA底物。

每个底物内的序列元件的相对定位也很重要。重要的是，与正向和反向引物互补的序列分别在5’和3’末端，使得它们在推定的靶标和标识符靶序列的侧翼。因此，使用正向和反向引物的PCR扩增将扩增推定的靶序列和标识符序列两者。

此外，重要的是推定的靶序列是标识符序列的5’(或上游)。这对于在鉴定靶序列的方法中使用文库很重要，这将在后面解释。在DNA底物是双链的情况下，技术人员将理解序列元件的顺序将仅出现在两条链之一中。为避免疑义，双链DNA底物是本发明的DNA底物，其中序列元件在两条链之一中的顺序正确。

各种序列元件(推定的靶序列、标识符靶序列、与反向引物互补的序列)可以通过DNA间隔物彼此分开。通常，这些长度在1-20个核苷酸之间。任何间隔物的精确序列均不重要，尽管应当理解它们不应该具有与推定的靶序列或标识符序列相同的序列。在一个实施方案中，间隔物序列不含有内切核酸酶的已知靶序列。在一个实施方案中，标识符靶序列和推定的靶序列之间的间隔物在1-20个核苷酸之间。在另一个实施方案中，标识符靶序列和推定的靶序列之间的间隔物在1-10个核苷酸之间。在进一步的实施方案中，标识符靶序列和推定的靶序列之间的间隔物在1-5个核苷酸之间。在进一步的实施方案中，标识符靶序列和推定的靶序列之间的间隔物不超过2个核苷酸。

底物文库可以通过常规方法，例如诱变方法合成。

生成简并寡核苷酸的常用方法是在寡核苷酸中的期望位置处使用混合亚磷酰胺(又名亚酰胺，寡核苷酸合成的构件)，例如使用“N”以掺入dA、dC、dG和dT核苷酸，或“Y”用于嘧啶，“R”用于嘌呤。在寡核苷酸的自动化学合成过程中，合成器以预设的比率(例如，每种25％)连续添加dT、dA、dC或dG(在“N”的情况下)。此过程并不总是导致每种亚酰胺的预期使用，因为不同的亚酰胺具有不同的偶联效率，并且添加顺序也可能偏向于稍后添加的亚酰胺。

使用如上所述的混合碱基可能导致有限的控制以实现特定氨基酸的密码子的比率。通过使用可以用于在每个合成循环中添加3个核苷酸的三聚体亚酰胺，可以创建以预定百分比编码选定氨基酸的寡核苷酸。然而，这个规程很难执行，因为三聚体亚酰胺庞大且难以与延长的寡核苷酸偶联；合成期间存在的任何水分将具有比使用常规亚酰胺更严重的不利影响。

另一种制备文库寡核苷酸的方法是“分裂和合并(split-and-pool)”方法，该方法特别适用于将多种氨基酸嵌入其他常见序列如抗体可变区内的CDR中。

此外，DNA池可以通过易错PCR生成，或更具体地，使用简并引物通过重叠PCR生成。

此处所公开类型的文库也可以从商业供应商诸如Twist Bioscience处订购。

在底物文库包含双链DNA底物的一个实施方案中，底物文库在两步过程中获得。第一步包括制备推定的靶序列。推定的靶序列可以通过诱变方法从已知的靶序列或从商业供应商诸如Twist Bioscience衍生。重要的是，在推定的靶序列侧翼，该序列必须包含与引物序列(其用于本文所述的鉴定DNA靶序列的方法)互补的序列以及文库中存在的另外的序列元件。通过使用5’和3’引物对推定的靶序列进行PCR扩增生成底物文库。重要的是，这意味着3’引物不是单个序列，而是含有不同标识符序列以及与反向引物互补的序列的多个序列。在其中底物文库含有与正向引物互补的序列的实施方案中，该序列由所用的5’引物编码。

因此，在一个实施方案中，本发明提供了用于制备包含本文所定义的双链DNA底物的底物文库的方法，该方法包括用文库正向引物和文库反向引物对多个推定的靶序列进行PCR扩增的步骤，该推定的靶序列侧接有a)所述文库正向引物和b)与所述文库反向引物序列的部分相同的序列，其中文库反向引物是含有不同标识符序列的DNA序列的异质混合物，该不同标识符序列位于与反向引物序列互补的所有序列共有的序列的5’，并且其中不同标识符序列的数目以摩尔超过推定的靶序列的数目。

在一个实施方案中，多个推定的靶序列是所有相同长度的序列。

本文所述的底物文库可以用于鉴定内切核酸酶的DNA靶序列的方法。因此，在第二方面，本发明提供了用于鉴定内切核酸酶的DNA靶序列的方法，其包括以下步骤：

a)在合适的条件下使本文所定义的底物文库与内切核酸酶接触以允许切割；

c)用切割和反向PCR引物对经切割的底物进行PCR扩增；和

d)对扩增的PCR产物进行测序；

其中通过标识符序列的序列鉴定切割产物中的DNA靶序列。

虽然不是必需的，但可以匹配内切核酸酶和文库的选择(即，使得推定的靶序列包括相关内切核酸酶的任何已知靶序列及其变体)。例如，在测定中使用的核酸酶是I-CreI的情况下，合适的底物文库将是包括序列TGTTCTCAGGTACCTCAGCCAG(SEQ ID NO:1)及其变体的文库。

方法步骤a)至d)能够鉴定经内切核酸酶切割的推定的靶序列。一经鉴定，推定的靶序列称为DNA靶序列。

该测定能够如下鉴定那些被切割的序列和因此所包含的DNA靶序列。首先，文库与内切核酸酶接触。在底物的子集含有由内切核酸酶识别的DNA靶序列的情况下，这些底物将被切割。然后将该文库连接到与切割PCR引物互补的DNA序列。这种连接使得能够使用切割和反向引物选择性地扩增经切割的底物。然后可以对扩增的DNA进行测序以鉴定DNA靶序列。鉴于该序列已被切割，这不能直接进行，但可以通过DNA靶序列独有的标识符序列间接鉴定DNA靶序列。

步骤a)涉及用内切核酸酶处理底物文库。内切核酸酶可以是工程化改造的核酸酶，诸如TALEN或锌指核酸酶。在一个实施方案中，核酸酶是天然存在的核酸酶，诸如大范围核酸酶(归巢内切核酸酶)或天然存在的RNA引导的核酸酶。在另一个实施方案中，内切核酸酶可以是有机化合物核酸酶、烯二炔、抗生素核酸酶、达内霉素(dynemicin)、新制癌菌素(neocarzinostatin)、卡奇霉素(calicheamicin)、埃斯培拉霉素(esperamicin)或博来霉素(bleomycin)。在一个实施方案中，核酸酶是工程化改造的大范围核酸酶或RNA引导的核酸酶，其与天然存在的大范围核酸酶在一个或多个残基上不同。

重要的是要注意文库中的不同底物不需要经物理分离才能使该方法有效。步骤(a)、(b)和(c)可以在整个底物文库上进行。将步骤(c)的PCR产物稀释至乳剂中约60-70％的随机形成的液滴将精确含有1个DNA片段的水平，从而允许对单个片段进行测序。

因此，步骤(a)可以作为一锅反应进行，其中将整个底物文库与内切核酸酶接触。技术人员将充分理解合适的条件并且可以对每种内切核酸酶进行优化，但总而言之，步骤(a)在合适的温度下的溶液中，在合适的缓冲溶液中进行合适的时间。在方法的步骤(a)和(b)使用相同的缓冲液的情况下，重要的是所选择的缓冲液适合允许这两个步骤中的反应发生(例如与DNA切除和连接广泛相容)。

在底物文库包含双链DNA底物的一些实施方案中，内切核酸酶切割导致平切割末端。在其他实施方案中，双链DNA底物的内切核酸酶切割导致突出端或粘性末端。在某些实施方案中，其中内切核酸酶切割导致粘性末端，该方法可以包括将粘性末端转化为平末端的步骤。这可以通过任何适当的方法来实现。钝化5’突出端的方法是本领域已知的。例如，可以通过使用5’至3’DNA聚合酶诸如T4聚合酶或DNA聚合酶I或其功能片段(例如DNA聚合酶I的大Klenow片段)填充来钝化5’突出端。例如，在实施例7中，通过用Klenow聚合酶填充来钝化5’突出端。或者，可以使用5’至3’外切核酸酶诸如绿豆核酸酶或其功能片段来钝化5’突出端。通过填充和/或3’至5’外切核酸酶消化来钝化3’突出端的方法也是众所周知的。

在一个实施方案中，在步骤(a)之后、在(任选的)生成平末端的步骤之后或在这两者之后淬灭反应以使酶失活。可以使用任何合适的使酶失活的方法，但应注意避免引入可能干扰该方法后续步骤的物质。在一个实施方案中，通过加热到适合使酶失活但不使DNA底物变性的温度，例如在65-70℃之间，来淬灭反应。在另一个实施方案中，例如使用螯合剂诸如EDTA除去酶的必需辅助因子。在另一个实施方案中，例如使用捕捉树脂诸如Ni-NTA-琼脂糖或链霉亲和素-琼脂糖来物理除去酶。在另一个实施方案中，通过使用混杂蛋白酶诸如蛋白酶K破坏酶。

步骤(b)涉及在包括与切割PCR引物互补的序列的DNA序列存在下进行连接。包括与切割PCR引物互补的序列的DNA序列应该以摩尔过量存在。在一个实施方案中，包括与切割PCR引物互补的序列的DNA序列相对于文库DNA以至少3:1的摩尔比存在。在一个实施方案中，包括与切割PCR引物互补的序列的DNA序列另外含有切割事件标识符序列(在实施例中称为孔条形码寡核苷酸)。

在步骤(b)中可以使用任何合适的DNA连接酶(或其功能片段)。许多DNA连接酶(例如T4、T3、T7)在本领域中是已知的并且许多是市售的。为步骤(b)选择的连接酶的类型将取决于步骤(a)之后存在的切割末端的性质以及包括与切割PCR引物互补的序列的DNA序列的末端的性质。在内切核酸酶切割生成平末端的情况下(或在步骤b之前钝化突出端的情况下)并且在包括与切割PCR引物互补的序列的DNA序列也具有平3’末端的情况下，可以选择适用于连接平末端的连接酶。在内切核酸酶切割生成粘性末端的情况下，可以选择适用于粘性末端的连接酶。在底物文库是单链的实施方案中，连接步骤可以采用适用于连接单链和双链DNA的连接酶，例如环化酶(circligase)。在底物文库是单链的另一个实施方案中，包括与切割PCR引物互补的序列的DNA序列可以包括能够与切割的单链DNA底物杂交的简并粘性末端。在使用此类DNA序列的情况下，可以使用能够连接粘性末端的连接酶。

如上所述，在一个实施方案中，包括与切割PCR引物互补的序列的DNA序列是平末端的。在另一个实施方案中，包括与切割PCR引物互补的序列的DNA序列具有3’突出端。在更特定的实施方案中，突出端的长度在1-10个核苷酸之间，更特定地，长度在3-6个核苷酸之间，更特定地长度为4个核苷酸。在DNA序列包括突出端的情况下，与切割序列的连接减少，但噪音(由与未切割序列连接所导致)程度显著降低，从而提高了信噪比。

在一个实施方案中，将连接酶和包括与切割PCR引物互补的序列的DNA序列直接添加到步骤(a)的经核酸酶处理的文库中。在替代的实施方案中，连接酶和包括与切割PCR引物互补的DNA序列在钝化5’或3’突出端的步骤之后直接添加到经核酸酶处理的文库中。在缓冲液中不存在反应所需的辅助因子的情况下，也可以在此阶段添加这些辅助因子。

在另一个实施方案中，将连接酶和包括与切割PCR引物互补的序列的DNA序列添加到步骤(a)的经核酸酶处理的文库或步骤(a)的反应淬灭(和/或在适当的情况下，钝化步骤的淬灭)之后的钝化文库中。在这些实施方案中，步骤(b)的反应在合适的温度下进行合适的时间。在缓冲液中不存在反应所需的辅助因子的情况下，也可以在此阶段添加这些辅助因子。还必须确保先前使用的淬灭方法不干扰步骤(b)的反应。

在一个实施方案中，底物文库中的DNA底物包括亲和标签，该标签能够用于将底物在其5’末端附接至固相。在一个实施方案中，亲和标签是生物素、链霉亲和素或组氨酸标签。也可以采用共价捕捉标签，诸如巯基、二硫化物、环氧化物或醛底物。在连接到经核酸酶处理的文库上的DNA序列附接到能够用于将底物附接到固相的亲和标签上的情况下，这可以用于将切割的序列和连接的底物与文库的其余部分分开。通过解链或分离双链体DNA的单个链，只有那些已被活性内切核酸酶切割的链将能够从固相中解离，导致切割的DNA级分的选择性富集。在一个实施方案中，该解链过程由将溶液的pH提高到9以上，导致DNA双链体的解离组成。在其他实施方案中，该过程可以通过加热或用离液剂诸如氯化胍、高氯酸锂或尿素处理来实现。虽然在柱或板上捕捉将是可能的，但在珠上捕捉与规程的后续步骤最相容。技术人员将理解捕捉将在经包被的珠(其中标签对包被具有亲和力)上实现。虽然不是必需的，但该步骤增加了该方法的信噪比。

步骤c)涉及用切割和反向PCR引物对经切割的底物进行PCR扩增。在一个实施方案中，步骤(b)的产物直接用于步骤(c)，简单地添加PCR所需要的组分(聚合酶、核苷酸、引物、任何必需的辅助因子)。在其中将未切割的序列捕捉在珠上的实施方案中，DNA可以从珠上洗脱下来并用所需的PCR组分(包括合适的缓冲液)重悬浮，或者可以将珠本身重悬浮于所需的PCR组分(包括合适的缓冲液)中。本领域技术人员将充分理解PCR的要求。

在一个实施方案中，反向引物包括衔接物以促进特定测序平台的后续下一代测序，诸如，例如LIFE TECHNOLOGIES S5 SEQUENCER上的ION TORRENT NGS、ROCHE 454A或454B测序平台、ILLUMINA SOLEXA测序平台、APPLIED BIOSYSTEMS SOLID测序平台、PACIFICBIOSCIENCES'MRT测序平台、POLLONATOR POLONY测序平台、a HELICOS测序平台、COMPLETEGENOMICS测序平台、INTELLIGENT BIOSYSTEMS测序平台或任何其他测序平台。在一个特定实施方案中，反向引物包括反向Illumina衔接物(例如i7)。

在一个实施方案中，将反向引物附接到能够用于将基底附接到固相的亲和标签上。在一个实施方案中，亲和标签是生物素、链霉亲和素或组氨酸标签。在另一个实施方案中，亲和标签是共价捕捉系统并且标签是巯基、二硫化物、环氧化物或醛底物。

步骤(d)涉及对扩增的PCR产物进行测序。这里可以使用下一代测序技术。通常，这些要求产物包括在固相上。在需要的情况下，反向引物上的亲和标签用于以合适的形式(例如在板或珠上)捕捉PCR产物以进行测序。对于熟练的阅读者来说显而易见的是，捕捉是通过用标签对其具有亲和性的物质包被板或珠来完成的。对于熟练的阅读者来说也将显而易见的是，在捕捉前适当的稀释允许对单个DNA片段进行测序。

虽然有时与切割引物互补的序列将连接到未切割的底物上，但这种情况极为罕见，绝大多数仅经切割的底物并通过PCR扩增。PCR产物的序列在步骤(d)中鉴定。虽然DNA靶序列不完全存在于该序列中，但通过标识符序列的序列可以明确鉴定。在那些未切割的底物被扩增的罕见事件中，DNA测序将显示这包括完整的推定的靶序列。因此，可以将此类“假阳性”排除在考虑之外(即，可以理解，所含有的推定的靶序列不是DNA靶序列)。

在一个实施方案中，在底物文库包含双链DNA底物并另外含有与位于推定的靶序列的5’的正向引物互补的序列的情况下，步骤c)进一步包括用正向和反向PCR引物对未切割的底物进行PCR扩增。未切割的底物是唯一用正向引物扩增的底物。此外，未切割的底物可以通过测序步骤(d)与经切割的序列进一步区分。未切割的序列将不含有切割引物序列并且将含有完整的推定的靶序列和标识符序列，而经切割的序列将含有切割引物序列和完整的标识符序列。

在一个实施方案中，在底物文库包含单链DNA底物(其包含防止双链DNA连接的5’亲和标签)的情况下，步骤c)进一步包括从5’亲和标签上释放未切割的DNA底物，然后是将未切割的DNA底物连接到与切割引物序列不同的双链DNA序列(在5’到3’方向上含有与未切割的正向引物序列互补的序列)，以及使用未切割的正向引物和反向引物进行PCR扩增的步骤。在双链DNA序列(在5’至3’方向上含有与未切割的正向引物序列互补的序列)具有平末端的情况下，连接步骤可以采用适用于连接单链和双链DNA的连接酶，例如环化酶。在另一个实施方案中，双链DNA序列(在5’至3’方向含有与未切割的正向引物序列互补的序列)具有与未切割单链DNA底物5’末端处的已知序列杂交的粘性末端。在其发生的情况下，可以使用能够连接粘性末端的连接酶。

关于上述步骤(b)和(c)讨论的条件也适用于此处使用的连接和PCR步骤。

从亲和标签相继除去经切割和未切割的底物允许分别扩增未切割和经切割的底物。此外，可以通过测序步骤(d)进一步区分未切割的底物与经切割的序列。未切割的序列将不含有切割引物序列并且将含有完整的推定的靶序列和标识符序列，而经切割的序列将含有切割引物序列和完整的标识符序列。

该方法的这个实施方案提供了关于哪些序列被切割以及哪些没有被切割的信息。在文库含有每个底物的多个拷贝的情况下，可能是推定的靶序列的一些拷贝被切割而另一些没有被切割的情况。关于被切割的具有特定标识符的序列的比例的信息给予关于哪些DNA靶序列被核酸酶优先靶向的信息。

在一个实施方案中，包括与切割PCR引物互补的序列的DNA序列另外包含在与切割PCR引物互补的序列的5’的独特标识符序列。很明显，使用切割PCR引物和反向引物进行的PCR扩增将产生含有两个独特标识符序列的产物，一个鉴定推定的靶序列并且另一个鉴定连接事件。这控制了扩增偏倚，并因此允许更准确地鉴定切割事件的数目。

在一个实施方案中，未切割的正向引物另外含有独特标识符序列。很明显，使用未切割的正向引物和反向引物进行的PCR扩增将产生含有两个独特标识符序列的产物，一个鉴定推定的靶序列并且另一个鉴定连接事件。这控制了扩增偏倚。

类似地，重复该方法但改变步骤(a)的条件以降低切割效率也将给予关于哪些序列被优先切割的信息。

应当理解，测序步骤不仅提供关于推定的靶序列是否是DNA靶序列的信息，而且还提供关于DNA靶序列内的精确切割位点的信息。因此，在一个实施方案中，本发明还提供了用于鉴定DNA靶序列中的内切核酸酶切割位点的方法，其包括以下步骤：

c)用切割和反向PCR引物对经切割的底物进行PCR扩增；和

d)对扩增的PCR产物进行测序；

其中通过标识符序列的序列鉴定经切割的产物中的DNA靶序列，并且其中通过对扩增的PCR产物进行测序鉴定DNA靶序列中的内切核酸酶切割的位点。

重要的是，这种方法可以鉴定切割的确切位点是否不变，或者这是否会因任何特定的内切核酸酶而不同。

熟练的阅读者将理解，除了鉴定在单个位置优先切割的序列之外，该方法还生成关于可能与脱靶结合和切割相关的相关序列的切割的信息。显而易见的是，由该测定生成的信息将能够鉴定对特定序列具有活性并且另外对基因组中另外存在的任何相关序列没有活性的酶。这是旨在用于期望在单个位点进行切割的基因疗法应用的酶中的特别期望的特征。

实施例7证实本发明的方法适合鉴定脱靶序列。本实施例中鉴定的前25个DNA靶序列包括先前其他研究人员使用替代方法强调的那些所鉴定的那些。值得注意的是，这使得使用严格的体外测定能够直接鉴定真正的体内倾向(liabilities)，显著简化了分类具有显著倾向性的酶并追踪人细胞中这些倾向的过程。

在另一方面，使用相同的底物文库和变体内切核酸酶进行多次该方法。例如，在内切核酸酶是大范围核酸酶的情况下，使用野生型大范围核酸酶和其中一个或多个残基变化的大范围核酸酶的工程化改造形式进行该方法。

核对来自相同底物上的变体内切核酸酶的信息可以确定内切核酸酶的哪些变化改变靶序列特异性，并且可以用于引导内切核酸酶的进一步修饰以提高对特定DNA靶序列的特异性和/或降低对相关序列的特异性。

例如，该方法经常使用已知的内切核酸酶和与该核酸酶相差一个氨基酸残基的一组变体内切核酸酶(单个变体)进行。在一个实施方案中，内切核酸酶组包括所有可能的单个氨基酸变体(即，其中每个位置的氨基酸突变为该位置的每个其他可能的残基)。这允许比较变体内切核酸酶在特定底物处的切割效率。在这种情况下，切割效率是指在测序步骤中鉴定的经切割序列的百分比。在方法的步骤d)中获得的具有相关标识符的序列的100％被切割的情况下，认为这是100％的效率。在具有相关标识符的序列的50％被切割，而50％未切割的情况下，则效率为50％。类似地，在具有相关标识符的序列的30％被切割，而70％未切割的情况下，则效率为30％。

因此，在另一个方面，本发明提供了用于工程化改造内切核酸酶的方法，其包括：a)使用相同底物文库，用第一内切核酸酶和至少两种其他内切核酸酶进行用于鉴定本文所定义的DNA靶序列的方法，该其他内切核酸酶与第一内切核酸酶的不同在于内切核酸酶氨基酸序列内不同位置处的单个氨基酸变化；b)比较步骤a)中测试的每种内切核酸酶在特定底物上的切割效率；c)鉴定提高切割效率的不同位置处的至少两个氨基酸变化；和d)产生含有步骤c)中鉴定的至少两个氨基酸变化的变体内切核酸酶。

熟练的阅读者会理解，该方法可以扩展以鉴定可以提高底物的切割效率的多个氨基酸取代，允许鉴定和产生含有3个或更多个氨基酸取代的变体内切核酸酶。

可以以相同的方式比较多个底物。在一种底物是期望靶序列且其他序列是基因组中存在的相关序列的情况下，可以鉴定可能提高期望靶序列的切割效率同时使相关基因组序列的切割效率最小化的变体序列。因此，在另一个方面，本发明提供了用于工程化改造内切核酸酶的方法，其包括：a)使用相同底物文库，用第一内切核酸酶和至少两种其他内切核酸酶进行用于鉴定本文定义的内切核酸酶的DNA靶序列的方法，该其他内切核酸酶与第一内切核酸酶的不同在于内切核酸酶氨基酸序列内不同位置的单个氨基酸变化；b)比较步骤a)中测试的每种内切核酸酶在两个单独的底物上的切割效率，其中一个是期望的靶序列，另一个是基因组中存在的相关序列；c)鉴定不同位置的至少两个氨基酸变化，其提高期望靶序列的切割效率，或降低基因组中存在的相关序列的切割效率；和d)产生含有步骤c)中鉴定的至少两个氨基酸变化的变体内切核酸酶。

熟练的阅读者将理解，该方法可以扩展以鉴定多个氨基酸取代，这些取代可以提高期望靶底物的切割效率和/或降低基因组中存在的相关序列的切割效率，从而允许鉴定和产生含有3个或更多氨基酸取代的变体内切核酸酶。

根据上述方法产生的变体内切核酸酶也构成本发明的一个方面。变体内切核酸酶可能在基因编辑领域具有实用性。因此，在一个实施方案中，本发明提供了用于基因编辑的变体内切核酸酶。在一个实施方案中，本发明提供了基因编辑方法，该方法包括在体外将编码变体内切核酸酶的DNA转染到细胞中的步骤。在另一个实施方案中，本发明提供了用于基因疗法的编码变体内切核酸酶的DNA。在另一个实施方案中，本发明提供了用于基因疗法的方法，该方法包括将包含编码变体内切核酸酶的DNA的载体施用至有此需要的患者的步骤。在进一步的实施方案中，本发明提供了包含编码变体内切核酸酶的DNA的载体在制备用于基因疗法的药物中的用途。

实施例

实施例1：TCRα底物文库制备

从Twist Biosciences订购了基于TCRα基因中存在的序列的推定的靶序列的文库。特别地，从包括3’PAM序列GGN的起始22bp的靶序列，计算机诱变用于生成其中的所有单、双和三突变体，以及连续5个或更多突变的所有串，总计143,452个靶序列。突变包括3’PAM序列，以及作为对照碱基添加到池的末端的4bp AAAA片段。然后进行以下反应以将推定的靶序列的文库转化为底物文库，其用于鉴定TCRαCas9-核糖核苷酸的DNA靶序列的方法：

1. 28μl的100uM生物素标记的文库正向引物

2. 28μl的100uM生物素标记的文库反向引物，其含有异质标识符序列

3. 4μl文库(10ng/μl)

4. 80μl 10mM dNTP

5.水3.02ml

6. 800μl 5X Phusion HF缓冲液(New England Biosciences B0518S)

7. 40μl Phusion热启动II(2U/μl)

每孔分配40μl的混合物。然后根据以下程序对板进行PCR扩增：

1. 98℃ 3分钟

2. 98℃ 10秒

3. 62℃ 30秒

4. 72℃ 30秒

重复2-4 12X

5. 4℃保持

合并来自每个PCR板的反应物(c.4ml)。添加0.1体积3M NaOAc，然后添加2.4体积无水乙醇。将混合物分配到微量离心管(1.4ml/管)中，将其在-80℃下温育至少1小时。将管以最大rpm离心30分钟并吸出残留的酒精(沉淀物不可见，因此在与离心机外侧相对的一侧进行吸出)。向每管添加200μl 95％乙醇，然后涡旋振荡。然后将管以最大rpm离心10分钟并吸出上清液。将开口管置于37℃的恒温箱中至少5分钟，然后将沉淀物重悬浮于总共500μl的水中(在管之间分开)。使用Nanodrop 2000分光光度计通过260nm处的吸收来定量DNA。

实施例2：Dynabead制备

通过将1体积的链霉亲和素Dynabead置于磁体上并除去贮存缓冲液来制备珠，然后将珠重悬浮于1体积的1X清洗缓冲液(5mM Tris pH7.5、0.5mM EDTA、1M NaCl)中，然后添加100μM随机六聚体(这可能是商业来源的，例如IDT DNA#51-01-18-27)寡核苷酸。然后将珠用一体积的1X清洗缓冲液清洗两次，然后在重悬浮于1体积的2X清洗缓冲液中之前，用1体积的2X清洗缓冲液清洗一次。

实施例3：底物文库表征

对实施例1中制备的底物文库进行表征以确定文库中存在哪些寡核苷酸以及以何种丰度存在。这种表征提供了推定的靶序列与文库中存在的标识符序列之间的联系。

如下在多孔板中制备50μl反应物：

1.实施例1中制备的1000ng底物文库

2. 5μl 10X T4 DNA连接酶缓冲液

3. 2.5μl T4 DNA连接酶

4. 2μl 50μM孔条形码寡核苷酸

5.水

将反应物在30℃下温育1.5小时，然后在65℃下淬灭20分钟，然后在4℃下保持。

通过在链霉亲和素珠(如实施例2中所述制备)上捕捉来纯化连接的反应产物。

将50μl珠与50μl反应物相结合。混合物用100μl 1X清洗缓冲液清洗4次，用50μl0.1X清洗缓冲液清洗一次，然后用50μl 150mM NaOH清洗两次。将珠重悬浮于50μl 10mMTris pH 7.5中。然后如下使用珠来制备50μl PCR反应物：

1. 5μl珠

2. 10μl 5x Phusion HF缓冲液(New England Biosciences B0518S)

3. 0.25μl含有板条形码的引物

4. 0.25μl引物

5. 1μl 10mM dNTP

6. 0.5μl Phusion HS2

7. 33μl水

根据以下程序进行PCR扩增：

1. 98℃ 30秒

2. 98℃ 10秒

3. 60℃ 5秒

4. 72℃ 5秒

重复2-4 9X

5. 12℃保持

根据制造商的说明，使用3％盒使用Pippin HT净化来分离产物。然后进行定量PCR，并使用整个540芯片将50pM产物加载到Ion Chef上。然后根据制造商的说明，使用LifeTechnologies Ion S5测序仪(A27212)对540芯片进行测序。

图2显示TCRα底物文库中存在的DNA序列的相对丰度。

实施例4：TCRαCas9-核糖核蛋白制备

将具有序列GAGAAUCAAAAUCGGUGAAU(SEQ ID NO:5)的crRNA和67bp通用tracrRNA(美国专利号9840702中的SEQ ID NO:134；可商购自IDT，目录号1072532)各自在水中重建至100mM。通过混合等摩尔量的crRNA和tracrRNA制备双链体gRNA，加热至95℃达3分钟，并允许冷却至室温。将等摩尔量的双链体gRNA与来自酿脓链球菌的野生型CRISPR Cas9酶或R691A突变体酶混合以形成活性Cas9-核糖核蛋白。

实施例5：鉴定TCRαCas9-核糖核苷酸的DNA靶序列

如下在多孔板中制备10μl切割反应物：

1.实施例1中制备的30ng/μl底物文库

2. 1mM MgCl₂

3. 1mg/ml牛血清白蛋白

4. 10mM Tris pH 7.5

5.TCRαCas9-核糖核蛋白(不同浓度–8μM、4μM、2μM和0.4μM)

将切割反应物在37℃下温育1小时，然后在65℃下温育20分钟。然后将以下添加到每个孔中：

1. 5μl孔条形码寡核苷酸

2. 5μl连接预混物(2.5μl 10X T4连接酶缓冲液、0.5μl T4连接酶、2μl去离子水)

将反应物在30.5℃下温育1.5小时，然后在65℃下温育20分钟。合并使用相同条件的反应物(包括孔条形码寡核苷酸)以确保至少50μl的总体积。

上述步骤涉及以上描述的用于鉴定DNA靶序列的方法的步骤(a)和(b)。

通过在链霉亲和素珠(如实施例2中所述制备)上捕捉来纯化文库(切割的和未切割的序列两者)。

将50μl珠与50μl反应物相结合。混合物用100μl 1X清洗缓冲液清洗4次，然后用50μl 0.1X清洗缓冲液清洗一次。

然后通过将珠与50μl 150mM NaOH温育1分钟来洗脱切割的DNA，然后将上清液置于含有12μl 1.25M乙酸和6μl 1M Tris pH 7.5的受体孔中，然后再与另外的50μl 150mMNaOH第二次温育1分钟，然后与第一洗脱物合并。然后将珠(含有未切割的DNA)重悬浮并贮存在50μl 10mM Tris pH 7.5中。

使用切割和未切割的DNA样品两者均以如下制备PCR反应物：

用于切割样品的PCR反应

1. 5μl含有切割产物的珠纯化的上清液，

2. 10μl 5x Phusion HF缓冲液(New England Biosciences B0518S)

3. 5μl引物混合物(5μM与孔条形码互补并含有板条形码的引物+5μM与寡核苷酸文库的3’末端互补的引物)

4. 1μl 10mM dNTP

5. 0.5μl Phusion HS2

6. 28.5μl水

根据以下程序进行PCR扩增：

1. 98℃ 3分钟

2. 98℃ 10秒

3. 60℃ 30秒

4. 72℃ 30秒

重复2-4 11X

5. 4℃保持

用于未切割样品的PCR反应

1. 5μl珠

2. 10μl 5x Phusion HF缓冲液(New England Biosciences B0518S)

3. 0.25μl含有板条形码的引物

4. 0.25μl引物

5. 1μl 10mM dNTP

6. 0.5μl Phusion HS2

7. 33μl水

根据以下程序进行PCR扩增：

6. 98℃ 30秒

7. 98℃ 10秒

8. 60℃ 5秒

9. 72℃ 5秒

重复2-4 9X

10. 12℃保持

在4％琼脂糖凝胶上运行未切割/切割PCR反应物的样品。这些显示于图3。凝胶证实Cas-9 RNP切割，并显示野生型Cas9-RNP似乎比R691A突变体Cas9-RNP具有更多的非特异性切割。

根据制造商的说明，使用3％盒使用Pippin HT净化来分离切割/未切割的DNA。然后进行定量PCR，并使用整个540芯片将50pM产物加载到Ion Chef上。然后根据制造商的说明，使用Life Technologies Ion S5测序仪(A27212)对540芯片进行测序。

根据它们的孔条形码对池进行去卷积，并分析整体切割频率。在每个实验中，将每个寡核苷酸的原始丰度与真正的gRNA靶定寡核苷酸的丰度进行比较，并评估潜在的脱靶。这些结果列于表1。

表1

[Cas9]/[DNA]	#>靶标，Cas9	#>靶标，HiFi
			20	16,528(30)	16,556(34)
10	23,599(27)	18,603(29)
			5	27,821(27)	18,227(22)
1	17,092(30)	7,559(27)
			0.1	14,268(40)	9,889(26)
0.01	10,642(84)	10,208(30)
			0.001	10,498(48)	10,642(67)
0.0001	9,713(32)	10,516(58)

与预期一致，我们观察到脱靶的数目随着酶:DNA化学计量的减少而减少。令人惊讶的是，我们在每种情况下均观察到“基线特异性”，其出现在大约0.01-0.1RNP:DNA比率处，其中特异性随着酶载荷的减少而停止改善。这表明系统的酶/gRNA依赖性的不可还原背景。

此外，使用Zhao和Stormo报道的BEESEM方法，使用切割丰度以生成每个碱基对结合能(Nature Biotechnology 29,pages480–483(2011))。样品作为生物一式三份运行，然后平均以生成整体脱靶结合惩罚。1:1RNP:DNA化学计量的结果显示于图5，并且5:1RNP:DNA化学计量的结果显示于图6。该分析显示了HiFi和野生型spCas9两者的每个碱基对结合亲和力中的明显对应，但我们观察到整体化学势项在统计上显著增加，表明活性普遍丧失。这与先前报道的通过对HiFi spCas9突变体的生物物理分析衍生的HiFi spCas9的作用模式一致(Nature Medicine 24,pages 1216–1224(2018))。

为了测试单个寡核苷酸切割率的再现性，使用BEESEM估计值对这些进行计算并将其显示于图7，表明该方法具有高度的再现性。

实施例6：I-SceI底物文库制备和表征

I-SceI具有18个碱基对的识别序列TAGGGATAACAGGGTAAT(SEQ ID NO:2)。列举了含有SEQ ID NO:2和来自集[A,C,T,G]的SEQ ID NO:2的所有单、双和三突变体的文库，即[AAGG…TAAT、TAGG…TGGA]。为此，包括了所有可能的n大小的突变体的大小n＝4至6的运行窗口的所有列举，即[CCCC…TAAT,TAGG…CCCCCC]。所得的文库包含59,914个成员，每个成员代表推定的靶序列。该文库是从Twist Biosciences订购的。

基本上使用实施例1中描述的方法从获得自Twist Biosciences的推定的靶序列的文库生成I-SceI底物文库(微小差异在于PCR反应中使用的推定的靶序列的浓度为约9ng/μl)。基本上，对于池的每个成员，将具有序列CACGAGCGTAGCAGAGTATGTC(SEQ ID NO:6)的参考寡核苷酸预先添加到推定的靶序列的5’末端，将“CG”间隔物置于推定的靶序列和独特标识符DNA序列之间，并最后将具有序列GAGCATGCTCTATCGTCTGATG(SEQ ID NO:7)的第二参考寡核苷酸附加到3’末端。示例池成员将具有以下构建形式：SEQ ID NO:6-推定的靶序列-CG-标识符DNA序列-SEQ ID NO:7。

根据实施例3中概述的方法表征I-SceI底物文库。图8显示了存在于I-SceI底物文库中的DNA序列的相对丰度。

实施例7：鉴定I-SceI的DNA靶序列

如下所列连续稀释市售的I-SceI：

1.纯的(Neat)

2. 1:10-4uL的纯的至36uL H₂O

3. 1:100-4uL的1:10至36uL H₂O

4. 1:1,000-4uL的1:100至36uL H₂O

5. 1:10,000-4uL的1:1000至36uL H₂O

6. 1:100,000-4uL的1:10000至36uL H₂O

7. 1:1,000,000-4uL的1:100000至36uL H₂O

8. 1:10,000,000-4uL的1:1000000至36uL H₂O

将如实施例6中所列制备的I-SceI底物文库稀释至约1000ng/uL并用于制备10μl切割反应，如下所列：

1. 30ng/μl I-SceI底物文库

2. 1mM MgCl₂

3. 1mg/ml BSA

4. 10mM Tris pH7.5

5. 3μl I-SceI(可变浓度-以上制备的稀释物)

将板在37℃下温育1小时，然后在65℃下温育20分钟。该切割反应涉及上述用于鉴定DNA靶序列的方法的步骤(a)。

I-SceI切割导致突出的单链。这些使用Klenow聚合酶“填充”，其通过向每个切割反应中添加5uL Klenow混合物(31.9μl 10mM dNTP、42.5μl Klenow DNA聚合酶、456.9μl去离子水)，密封并在室温下温育约30min，然后在65℃下加热杀死酶20min。

然后将以下添加到每个孔中：

1. 5μl孔条形码寡核苷酸

将反应物在30.5℃下温育1.5小时，然后在65℃下温育20分钟，然后在4℃下贮存。合并使用相同条件的反应物(包括孔条形码寡核苷酸)，以确保至少50μl的总体积。这涉及上述用于鉴定DNA靶序列的方法的步骤(b)。

然后通过将珠与50μl 150mM NaOH温育1分钟来洗脱切割的DNA，然后将上清液置于含有12μl 1.25M乙酸和6μl 1M Tris pH7.5的受体孔中，然后再与另外的50μl 150mMNaOH第二次温育1分钟，然后将其与第一洗脱物合并。然后将珠(含有未切割的DNA)重悬浮并贮存在50μl 10mM Tris pH7.5中。

使用切割和未切割的DNA样品两者以如下制备PCR反应：

用于切割样品的PCR反应

1. 5μl含有切割产物的珠纯化的上清液

2. 10μl 5x Phusion HF缓冲液(New England Biosciences B0518S)

4. 1μl 10mM dNTP

5. 0.5μl Phusion HS2

6. 28.5μl水

根据以下程序进行PCR扩增：

1. 98℃ 3分钟

2. 98℃ 10秒

3. 60℃ 30秒

4. 72℃ 30秒

重复2-4 15X

5. 4℃保持

用于未切割样品的PCR反应

1. 5μl珠

2. 10μl 5x Phusion HF缓冲液(New England Biosciences B0518S)

3. 0.25μl含有板条形码的引物

4. 0.25μl引物

5. 1μl 10mM dNTP

6. 0.5μl Phusion HS2

7. 33μl水

根据以下程序进行PCR扩增：

1. 98℃ 30秒

2. 98℃ 10秒

3. 60℃ 5秒

4. 72℃ 5秒

重复2-4 9X

5. 12℃保持

在4％琼脂糖凝胶上运行未切割/切割PCR反应物的样品。在切割反应物中不存在180bp片段的情况下，进行另外两个循环的PCR。

根据它们的孔条形码对池进行去卷积，并分析整体切割频率。在每个实验中，将每个寡核苷酸的原始丰度与真正的gRNA靶定寡核苷酸的丰度进行比较，并评估潜在的脱靶。使用来自这些数据的衍生评分矩阵，评估人参考基因组的潜在脱靶DNA序列，并对各种酶稀释物中的每一种鉴定前25个推定的脱靶。值得注意的是，该方法能够正确检测出在前25个推定的脱靶中使用体内方法检测到的除一个之外的所有脱靶，大大简化了鉴定和评估潜在基因组脱靶序列的工作流程。

表2鉴定了使用该方法鉴定的人基因组中存在的I-SceI的前25个DNA靶序列。值得注意的是，该方法鉴定了先前工作中所观察到的所有5个位点(Petek,Lisa M et al,"Frequent endonuclease cleavage at off-target locations in vivo."MolecularTherapy 18.5(2010):983-986.)以及在二次研究中所观察到的9个位点中的8个(Frock,Richard L.,et al."Genome-wide detection of DNA double-stranded breaks inducedby engineered nucleases."Nature biotechnology 33.2(2015):179-186.)。

表2

序列表

<110> 葛兰素史密斯克莱知识产权发展有限公司

<120> 用于筛选文库的方法

<130> PB66731 WO

<150> US62/899352

<151> 2019-09-12

<160> 32

<170> PatentIn version 3.5

<210> 1

<211> 22

<212> DNA

<213> 人工

<220>

<223> 野生型I-CreI的DNA识别序列

<400> 1

tgttctcagg tacctcagcc ag 22

<210> 2

<211> 18

<212> DNA

<213> 人工

<220>

<223> 野生型I-SceI的DNA识别序列

<400> 2

tagggataac agggtaat 18

<210> 3

<211> 25

<212> DNA

<213> 人工

<220>

<223> 由Maeder et al., Molecular Cell, 2008, 31(2): 294-301制备的

工程化锌指核酸酶的DNA识别序列

<400> 3

ctaccccgac cacatgaagc agcac 25

<210> 4

<211> 49

<212> DNA

<213> 人工

<220>

<223> 由Reyon et al., Nature Biotechnology, 2012, 30: 460-465制备的

靶向ERCC2的TALEN的DNA识别序列

<400> 4

tccggccggc gccatgaagt gagaaggggg ctgggggtcg cgctcgcta 49

<210> 5

<211> 20

<212> RNA

<213> 人工

<220>

<223> 靶向TCRa基因的crRNA序列

<400> 5

gagaaucaaa aucggugaau 20

<210> 6

<211> 22

<212> DNA

<213> 人工

<220>

<223> 用于I-SceI底物文库产生的正向DNA引物

<400> 6

cacgagcgta gcagagtatg tc 22

<210> 7

<211> 22

<212> DNA

<213> 人工

<220>

<223> 用于I-SceI底物文库产生的反向DNA引物

<400> 7

gagcatgctc tatcgtctga tg 22

<210> 8

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 8

tagggatacc aggtcaaa 18

<210> 9

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 9

tagggatacc agggtagt 18

<210> 10

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 10

tagggataac agggcata 18

<210> 11

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 11

tagggatacc aggttaaa 18

<210> 12

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 12

ttgggataac agggcaat 18

<210> 13

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 13

tagggatacc agggctgt 18

<210> 14

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 14

ttgggatacc agggcatt 18

<210> 15

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 15

cagggatacc agggcggt 18

<210> 16

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 16

cagggatacc agggcggt 18

<210> 17

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 17

cagggatacc agggcaac 18

<210> 18

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 18

cagggataac aggtcaat 18

<210> 19

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 19

ttgggataac agggcaaa 18

<210> 20

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 20

tagggatacc agggtcat 18

<210> 21

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 21

tagggataac agggctgt 18

<210> 22

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 22

tagggatacc aggtcaag 18

<210> 23

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 23

tagggatacc aggtttat 18

<210> 24

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 24

tagggatacc aggtttat 18

<210> 25

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 25

tagggataac aggttgaa 18

<210> 26

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 26

cagggataac aggtcaaa 18

<210> 27

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 27

cagggatacc agggtggt 18

<210> 28

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 28

tagggatgcc agggcaga 18

<210> 29

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 29

tagggatgcc agggtgaa 18

<210> 30

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 30

cagggatgcc agggcaaa 18

<210> 31

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 31

cagggatgcc agggcaaa 18

<210> 32

<211> 18

<212> DNA

<213> 人工

<220>

<223> I-SceI的脱靶DNA序列

<400> 32

tagggatacc atggcaaa 18

Claims

1.底物文库，其包含多个DNA底物，其中所述文库内的每个底物含有推定的靶序列，所述推定的靶序列是能够独特地鉴定所述推定的靶序列的标识符DNA序列的5’，所述标识符DNA序列是与反向PCR引物相同的序列的5’，并且其中所述文库内的所述双链DNA底物彼此之间的不同仅在于所述推定的靶序列和标识符DNA序列。

2.根据权利要求1所述的底物文库，其中所述DNA底物是双链DNA底物。

3.根据权利要求2所述的底物文库，其中所述文库内的每个底物另外含有与正向引物互补的序列，其中此序列位于所述推定的靶序列的5’。

4.根据权利要求1所述的底物文库，其中所述DNA底物是单链底物。

5.根据权利要求1至4中任一项所述的底物文库，其中每个推定的靶序列的序列与相关标识符序列的序列不相同。

6.根据权利要求1至5中任一项所述的底物文库，其中所述底物文库中的所述推定的靶序列中的每一个与所述底物文库中的其他推定的靶序列长度相同，并且其中所述底物文库中的所述标识符DNA序列中的每一个与所述底物文库中的其他标识符DNA序列长度相同。

7.根据权利要求1至6中任一项所述的底物文库，其中在所述文库中存在的所述推定的靶序列作为整体包括内切核酸酶的特征化靶序列和此特征化靶序列的所有可能的单个变体。

8.根据权利要求7所述的底物文库，其中所述内切核酸酶是RNA引导的核酸酶、大范围核酸酶、TALEN或锌指核酸酶。

9.根据前述权利要求中任一项所述的底物文库，其中每个DNA底物在其5’末端具有亲和标签。

10.用于制备如权利要求2至3和5至9中任一项所定义的底物文库的方法，其包括用文库正向引物和文库反向引物对多个推定的靶序列进行PCR扩增的步骤，所述推定的靶序列侧接有a)与所述文库正向引物互补的序列和b)与所述文库反向引物序列的部分相同的序列，其中所述文库反向引物是含有不同标识符序列的DNA序列的异质混合物，所述不同标识符序列位于与所述反向引物互补的所有序列共有的序列的5’，并且其中所述不同标识符序列的数目以摩尔超过推定的靶序列的数目。

11.用于鉴定内切核酸酶的DNA靶序列的方法，其包括以下步骤：

a)在合适的条件下使权利要求1中所定义的底物文库与内切核酸酶接触以允许切割；

b)将经所述内切核酸酶处理的文库与包括与“切割”PCR引物互补的序列的DNA序列连接；

c)用切割和反向PCR引物对所述经切割的底物进行PCR扩增；和

d)对所述扩增的PCR产物进行测序；

其中通过所述标识符序列的序列鉴定所述切割产物中的DNA靶序列。

12.根据权利要求11所述的方法，其中所述底物文库如权利要求3中所定义，并且其中步骤c)进一步包括用所述正向和反向PCR引物对未切割的底物进行PCR扩增。

13.根据权利要求11或权利要求12所述的方法，其中所述底物文库如权利要求9中所定义，并且其中所述亲和标签用于将步骤(b)的所述产物附接到固相，随后是洗脱经切割的底物的步骤。

14.根据权利要求13所述的方法，其中所述底物文库如权利要求4中所定义，并且其中，在洗脱经切割的底物的步骤之后和步骤(d)之前，有以下步骤：

i)切割所述亲和标签和洗脱未切割底物；

ii)将所述未切割的底物与双链DNA序列连接，所述双链DNA序列在5’到3’方向上含有与未切割的正向引物序列互补的序列；和

iii)用所述未切割的正向引物和反向PCR引物对所述经切割的底物进行PCR扩增。

15.根据权利要求11至14中任一项所述的方法，其中所述内切核酸酶选自由RNA引导的核酸酶、大范围核酸酶、TALEN和锌指核酸酶组成的组。

16.根据权利要求15所述的方法，其中所述核酸酶是天然存在的或工程化改造的大范围核酸酶。

17.用于工程化改造内切核酸酶的方法，其包括：

a)使用相同底物文库，用第一内切核酸酶和至少两种其他内切核酸酶进行权利要求11所述的方法，所述其他内切核酸酶与所述第一内切核酸酶的不同在于所述内切核酸酶氨基酸序列内不同位置处的单个氨基酸变化；

b)比较步骤a)中测试的每种内切核酸酶在特定底物上的切割效率；

c)鉴定提高切割效率的不同位置处的至少两个氨基酸变化；

d)产生含有步骤c)中鉴定的所述至少两个氨基酸变化的变体内切核酸酶。

18.根据权利要求17所述的方法，其中每种内切核酸酶选自由RNA引导的核酸酶、大范围核酸酶、TALEN和锌指核酸酶组成的组。

19.通过权利要求17或18所述的方法获得的变体内切核酸酶。

20.根据权利要求19所述的变体内切核酸酶，其用于基因编辑。