CN112955549A

CN112955549A - 改进的高通量组合基因修饰系统和优化的Cas9酶变体

Info

Publication number: CN112955549A
Application number: CN201980061793.9A
Authority: CN
Inventors: 黄兆麟; 蔡正姿
Original assignee: University of Hong Kong HKU
Current assignee: University of Hong Kong HKU
Priority date: 2018-09-19
Filing date: 2019-09-17
Publication date: 2021-06-11
Also published as: KR20210060541A; US20230193251A1; JP2023156337A; EP4253549A2; JP2022501025A; EP3853363A1; EP3853363A4; EP4253549A3; WO2020057481A1

Abstract

本发明提供一种用于通过组合修饰产生和筛选基因变体的改进的高通量系统和方法。还提供由该系统产生的优化的SpCas9酶变体。

Description

改进的高通量组合基因修饰系统和优化的Cas9酶变体

相关申请

本申请要求于2018年9月19日提交的美国临时专利申请号62/733410的优先权，其内容出于所有目的特此通过参考以其全部结合。

背景重组蛋白在包括工业和医学背景中的用途在内的广泛种类的应用中具有越来越显著重要。由于重组蛋白(尤其是酶和抗体)的功能性可通过基因突变得到改善，因此，不断努力来产生和选择广泛的重组蛋白的可能基因变体，以鉴定具有更合乎期望的特性的那些重组蛋白，使得可在其应用中实现提高效率。

Cas9(CRISPR相关蛋白9)为一种与细菌(比如化脓性链球菌(Streptococcuspyogenes)，一种链球菌属的革兰氏阳性细菌)中的CRISPR(成簇的规律间隔的短回文重复序列(Clustered Regularly Interspaced Short Palindromic Repeats))适应性免疫系统相关的RNA引导的DNA核酸内切酶。由于最近几年越来越多地使用CRISPR进行基因编辑，Cas9为一种引起人们强烈兴趣的酶，许多人试图通过基因修饰来提高其性能。然而，用于系统地产生和筛选任何特定蛋白的大量基因变体的目前可获得的系统通常是麻烦的，劳动密集型的，因此效率低下。

因此，对新的高通量组合基因修饰系统/方法以及具有改善的特性的经工程改造的蛋白(比如Cas9酶)存在明显的需求。本发明满足这个和其他相关需求。

发明概述以前，由本发明人领导的研究小组设计了一种用于对高阶条形码化的组合基因文库进行高通量功能分析的系统，称为全体组合遗传学(combinatorial geneticen masse)或CombiGEM。该系统已用于产生例如条形码化的双引导RNA(gRNA)组合的文库和两维或三维条形码化的人类微小RNA(miRNA)前体的文库，以进一步筛选期望的功能性，参见例如Wong等人(Nat.Biotechnol.2015年9月；33(9)：952-961)、Wong等人(Proc.Nat.Acad.Sci.，2016年3月1日，113(9)：2544-2549)、WO2016/070037和WO2016/115033。另请参见美国专利号9315806。发明人现在对CombiGEM系统进行了进一步修饰，并开发了改进的CombinSEAL平台，其提供高阶组合突变体文库每个成员的任何两个相邻基因组件之间的无缝连接。换句话说，该平台不会在每个接合位点处引入任何人工或外来氨基酸序列，从而允许产生大量含有组合突变，同时原本保留野生型蛋白的天然氨基酸序列的蛋白变体。

因此，本发明首先提供一种改进的高通量基因修饰系统以用于系统地产生和筛选组合突变体。一方面，本发明提供一种DNA构建体，其在DNA链的5’至3’方向上包含：第一IIS型限制酶的第一识别位点；DNA元件；第二IIS型限制酶的第一和第二识别位点，唯一分配给DNA元件的条形码；以及第一IIS型限制酶的第二识别位点。在一些实施方案中，DNA构建体为线性构建体；在其他实施方案中，DNA构建体为环状构建体或DNA载体，包括基于细菌的DNA质粒或DNA病毒载体。优选地分离DNA构建体，即在不存在任何大量其他DNA序列的情况下。在一些实施方案中，本发明提供一种文库，其包括至少两种可能更多种以上和本文所述的DNA构建体，每个文库成员具有不同的DNA元件，所述DNA元件具有不同的多核苷酸序列以及唯一分配的条形码。

在本发明的另一方面，提供另一种DNA构建体：DNA构建体在DNA链的5’至3’方向上包含：第一IIS型限制酶的识别位点；多个DNA元件；引物结合位点；以及各自唯一分配给多个DNA元件之一的多个条形码，以及第二IIS型限制酶的识别位点，其中多个DNA元件彼此连接以形成蛋白的编码序列(比如天然或野生型蛋白的编码序列)，而在多个DNA元件中的任何两个之间的任何连接点处没有任何外来序列，并且其中多个条形码以其分配的DNA元件的相反顺序放置。在一些实施方案中，DNA构建体为线性构建体；在其他实施方案中，DNA构建体为环状构建体，比如包括基于细菌的DNA质粒或DNA病毒载体的DNA载体。还提供了这种构建体的文库，以包括至少两种可能更多种构建体，每个成员具有不同多核苷酸序列的不同DNA元件组和唯一分配的条形码组。

在以上和本文所述的任一DNA构建体的一些实施方案中，第一IIS型限制酶和第二IIS型限制酶在切割DNA分子后产生相容性末端。在一些实施方案中，第一IIS型限制酶为BsaI。在一些实施方案中，第二IIS型限制酶为BbsI。

在另一方面，本发明涉及一种用于产生组合基因构建体的方法。方法包括这些步骤：(a)用第一IIS型限制酶切割权利要求2的第一DNA载体，以释放第一DNA片段，所述第一DNA片段包含第一DNA链段、第二IIS型限制酶的第一和第二识别位点以及侧翼为由第一IIS型限制酶产生的第一和第二末端的第一条形码；(b)用第二IIS型限制酶切割包含启动子的初始表达载体，以线性化启动子3’末端附近的初始表达载体并产生与(a)的DNA片段的第一和第二末端相容的两个末端；(c)将(a)的第一DNA片段退火并连接到(b)的线性化表达载体中以形成单向复合表达载体，其中第一DNA片段和第一条形码可操作地连接于启动子的3’末端；(d)用第一IIS型限制酶切割权利要求2的第二DNA载体，以释放第二DNA片段，所述第二DNA片段包含第二DNA链段、第二IIS型限制酶的第一和第二识别位点以及侧翼为由第一IIS型限制酶产生的第一和第二末端的第二条形码；(e)用第二IIS型限制酶切割(c)的复合表达载体以线性化第一DNA元件和第一条形码之间的复合表达载体并产生与(d)的DNA片段的第一和第二末端相容的两个末端；和(f)将(d)的第二DNA片段退火并连接到在第一DNA元件和第一条形码之间的(e)的线性化复合表达载体中以形成双向复合表达载体，其中第一DNA片段、第二DNA片段、第二条形码和第一条形码以该顺序可操作地连接于启动子的3’末端，其中第一和第二DNA元件编码彼此紧邻的自其N-末端开始的预选蛋白的第一和第二链段，和其中第一和第二DNA片段在双向复合表达载体中彼此连接而没有导致在预选蛋白中没有发现的任何氨基酸残基的任何外来核苷酸序列，并且其中第一和第二DNA元件中的每一个包含一个或多个突变。

在该方法的一些实施方案中，重复步骤(d)-(f)直至第n次，以将包含第n个DNA元件、第二IIS型限制酶的第一和第二识别位点和第n个条形码的第n个DNA片段掺入到n向复合表达载体中，第n个DNA元件编码从其C-末端开始的预选蛋白的第n个或倒数第二个链段。方法进一步包括以下步骤：(x)提供最终DNA载体，其在第一IIS型限制酶的第一和第二识别位点之间包含第(n+1)个DNA元件、引物结合位点和第(n+1)个条形码；(y)用第一IIS型限制酶切割最终DNA载体以释放最终DNA片段，所述最终DNA片段从5’至3’包含：第(n+1)个DNA元件、引物结合位点和侧翼为由第一IIS型限制酶产生的第一和第二末端的第(n+1)个条形码；(z)将最终DNA片段退火并连接到在步骤(d)-(f)重复第n次之后产生并已被第二IIS型限制酶线性化的n向复合表达载体中，以形成最终复合表达载体，其中第一、第二、依此类推直到第n个和第(n+1)个DNA元件编码彼此紧邻的自其N-末端开始的预选蛋白的第一、第二、依此类推直到第n个和最后一个链段，和其中第一、第二、依此类推直到第n个和最后一个DNA片段在最终复合表达载体中彼此连接而没有导致在预选蛋白中没有发现的任何氨基酸残基的任何外来核苷酸序列，并且其中每个DNA元件包含一个或多个突变。

在以上或本文所述方法的一些实施方案中，第一IIS型限制酶和第二IIS型限制酶在切割DNA分子后产生相容性末端。在一些实施方案中，第一IIS型限制酶为BsaI。在一些实施方案中，第二IIS型限制酶为BbsI。

在另一方面，本发明提供一种文库，其包括至少两种可能更多种通过以上和本文所述方法产生的最终复合表达载体。

其次，本发明提供具有改进的靶上切割和减少的脱靶切割能力的SpCas9突变体，其通过使用以上和本文所述改进的高通量基因修饰系统来产生和鉴定。一方面，本发明提供一种多肽(优选地为分离的多肽)，其包含用作基本序列的SEQ ID NO：1和4-13中任何一个所示的氨基酸序列，其中对应于SEQ ID NO：1的残基661、695、848、923、924、926、1003或1060的至少一个可能更多个残基例如通过取代被修饰。本发明的一些示例性多肽提供于本公开的表2中。在一些实施方案中，对应于SEQ ID NO：1的残基1003的残基被取代和对应于SEQ ID NO：1的残基661的残基被取代。在一些实施方案中，多肽在对应于SEQ ID NO：1的残基926的残基处进一步具有取代。例如，多肽具有用组氨酸取代的对应于SEQ ID NO：1的残基1003的残基和用丙氨酸取代的对应于SEQ ID NO：1的残基661的残基。在另一个实例中，多肽具有SEQ ID NO：1中所示的基本氨基酸序列，其中残基1003用组氨酸取代和残基661用丙氨酸取代，其任选地进一步包括在残基926处用丙氨酸取代。在另一个实例中，多肽具有SEQ ID NO：1中所示的基本氨基酸序列，其中残基695、848和926用丙氨酸取代，残基923用甲硫氨酸取代和残基924用缬氨酸取代。还提供一种组合物，其包含(1)以上和本文所述的多肽；和(2)生理学上可接受的赋形剂。

在另一方面，本发明提供一种包含编码以上和本文所述多肽的多核苷酸序列的核酸(优选地为分离的核酸)以及含有核酸的组合物。本发明还提供一种包含可操作地连接于编码本发明多肽的多核苷酸序列的启动子的表达盒以及包含表达盒的载体(比如基于细菌的质粒或基于病毒的载体)、包含本发明的表达盒或多肽的宿主细胞。

在另一方面，本发明提供一种用于在靶位点切割DNA分子的方法。方法包括使包含靶DNA位点的DNA分子与以上和本文所述的多肽以及特异性地结合靶DNA位点的短引导RNA(sgRNA)接触，从而使DNA分子在靶DNA位点处被切割的步骤。在方法的一些实施方案中，DNA分子为活细胞内的基因组DNA，并且细胞已用编码sgRNA和多肽的多核苷酸序列进行转染。在某些情况下，细胞已用编码sgRNA的第一载体和编码多肽的第二载体进行转染。在其他情况下，细胞已用编码sgRNA和多肽两者的载体进行转染。在方法的一些实施方案中，第一和第二载体中的每一个为病毒载体，比如逆转录病毒载体，尤其是慢病毒载体。

以上和本文所述的高通量组合基因修饰系统、方法和相关组合物在适当时具有修饰的情况下适合用于原核细胞和真核细胞中。一些等同物也可从以上和本文的描述中得出。例如，可转换每个DNA构建体中DNA元件及其相应条形码的放置，即DNA构建体从5’至3’包含：第一IIS型限制酶的第一识别位点、唯一分配给DNA元件的条形码、第二IIS型限制酶的第一和第二识别位点、DNA元件以及第一IIS型限制酶的第二识别位点。除相应地转换这些载体中DNA元件和条形码的相对位置之外，可以与本文所述相同的方式使用DNA构建体和这种DNA构建体的文库，以产生与本文所述那些相似的中间和最终载体。

附图简述

图1.SpCas9高覆盖率组合突变体文库的产生以及文库向人类细胞的有效递送。a，用于组装SpCas9的组合突变体文库的策略。SpCas9的编码序列被模块化为4个可组合的部件(即P1至P4)，每个部件均包含条形码化的片段库，这些片段如图所示在定义的位置编码预定的氨基酸残基突变。通过部件的连续多轮一锅无缝连接，组装了952种SpCas9变体的文库，并生成了唯一标记每种变体的连接的条形码(详细信息参见图7)。b，从大肠杆菌提取的质粒池和感染的OVCAR8-ADR细胞池中条形码化的组合突变体文库的测序读数的累积分布。从每样品～80万个读数中检测到质粒和感染的细胞池内文库的高覆盖率(分别为～99.9％和～99.6％)，并且大多数组合检测到至少300个绝对条形码读数(以阴影面积突出显示)。

图2.用于分析人类细胞中SpCas9变体的靶上和脱靶活性的策略。a，SpCas9文库以感染复数为～0.3经慢病毒递送至OVCAR8-ADR报告细胞系，OVCAR8-ADR报告细胞系表达分别由UBC和CMV启动子驱动的RFP和GFP基因以及靶向RFP(RFPsg5或RFPsg8)位点的gRNA的串联U6启动子驱动的表达盒。以流式细胞术分析RFP和GFP的表达。当gRNA间隔序列与RFP靶位点完全匹配时测量SpCas9的靶上活性，而当RFP靶位点包含同义突变时测量其脱靶活性。包含活性SpCas9变体的细胞预期失去RFP荧光。基于RFP荧光，将细胞分选到包含群体的～5％的箱中，并提取其基因组DNA，以通过Illumina HiSeq量化条形码化的SpCas9变体。b，比较经分选的箱(即A、B和C)与未分选的群体之间每个SpCas9变体的条形码计数的散点图。每个点代表SpCas9变体，并且WT SpCas9和eSpCas9(1.1)标记于图中。参考实线表示条形码计数中的1.5倍富集和0.5倍耗尽，和参考虚线表示与未分选的群体相比较，经分选的箱中的条形码计数没有变化。

图3.高通量分析揭示SpCas9组合突变体的广谱特异性和效率。a，SpCas9的组合突变体基于来自两个生物学重复的分析数据，通过其对数变换的富集比(即log₂(E))进行排序，所述富集比代表其在经分选的RFP耗尽的细胞群体中针对每个靶上(x轴)和脱靶(y-轴)报告细胞系的相对丰度(详细信息参见表2和方法)。散点图中的每个点代表SpCas9变体，并且标记了WT SpCas9、eSpCas9(1.1)、Opti-SpCas9和OptiHF-SpCas9。在两个脱靶报告系RFPsg5-OFF5-2和RFPsg8-OFF5中，＞99％的组合突变体的log₂(E)低于WT，而在两个靶上报告系RFPsg5-ON和RFPsg8-ON中，分别16.2％和2.5％的突变体的log₂(E)高于WT。b，包含靶上(上图)和脱靶(下图)位点的OVCAR8-ADR报告细胞用单个SpCas9组合突变体进行感染。SpCas9变体的编辑效率通过RFP水平耗尽的细胞百分比进行测量，并与WT进行比较。

图4.描绘靶上和脱靶位点的编辑效率和上位性的热图。如方法中所述，确定每个SpCas9组合突变体的编辑效率(上图；通过log₂(E)测量)和上位性(下图；ε)得分。预计会与靶DNA链接触或位于连接SpCas9的HNH和RuvC结构域的接头区域处的氨基酸残基在y轴上分组，而预计会与非靶DNA链相互作用的那些氨基酸残基则显示于x轴上，以助于可视化。每个组合的log₂(E)的P值通过使用两个样品的双尾斯氏t检验(MATLAB函数‘ttest2’)将log₂(E)与从两个独立的生物学重复获得的整个群体内包含的那些进行比较而计算。经调整的P值(即Q值)基于P值的分布(MATLAB函数‘mafdr’)进行计算，以校正多重假设检验。基于＜0.1的Q值截止值，log₂(E)被认为相对于整个群体具有统计学显著性，并用方框框起来。完整热图完全地显示于图10中。没有测量富集比或上位性得分的组合以灰色表示。

图5.Opti-SpCas9表现出稳健的靶上和降低的脱靶活性。a-b，以靶向内源性基因座的gRNA进行的SpCas9变体的有效靶上编辑的评估。使用T7核酸内切酶I(T7E1)测定测量插入缺失的百分比。确定SpCas9变体与WT(在(a)中)和Opti-SpCas9(在(b)中)的靶上活性的比率，并显示测试的10-16个基因座的插入缺失形成的归一化百分比的中位数和四分位距。每个基因座测量一次或两次，并且完整数据集如图12所示。c，SpCas9变体小组的GUIDE-Seq全基因组特异性概况，每个变体与指明的gRNA配对。脱靶位点中错配的位置以彩色突出显示，并且GUIDE-Seq读数计数用作给定位点切割效率的量度。使用的gRNA序列的列表如表5所示。

图6.用于表征蛋白序列上的组合突变的策略实例。

图7.用于条形码化的组合突变体文库池的无缝组装的策略。a，为了在储存载体中创建条形码化的DNA部件，通过PCR或合成产生基因插入片段，并通过Gibson组装反应将其克隆于包含随机条形码的储存载体(pAWp61和pAWp62；用EcoRI和BamHI消化)中。进行BsaI消化以产生条形码化的DNA部件(即P1、P2、…、P(n))。分别在插入片段与pAWp61和pAWp62的条形码之间引入用于条形码测序的BbsI位点和引物结合位点。b，为了创建条形码化的组合突变体文库，分别用BsaI和BbsI消化合并的DNA部件和目标组装载体。一锅连接创建合并的载体文库，将其进一步迭代消化并与随后的DNA部件池连接以产生更高阶的组合突变体。用IIS型限制酶(即BsaI和BbsI)消化之后，条形码化的插入片段与源自蛋白编码序列的相容性突出端连接，从而在连接反应中没有形成融合疤痕。所有条形码均定位于连续的DNA片段中。最终组合突变体文库在慢病毒中编码，并递送到目标人类细胞中。代表每种组合的整合的条形码以无偏倚方式从合并的细胞群体内的基因组DNA扩增，并使用高通量测序进行量化，以鉴定在不同实验条件下表现的变化。c.为了显示质粒和感染的细胞池之间以及感染的细胞池的生物学重复之间高度可再现的表现。

图8.包含靶上和脱靶报告物的SpCas9文库感染的人类细胞的荧光激活细胞分选。表达分别受UBC和CMV启动子驱动的RFP和GFP基因以及靶向RFP位点(RFPsg5或RFPsg8)的gRNA的串联U6启动子驱动的表达盒的OVCAR8-ADR报告细胞系未感染或用SpCas9文库感染。RFPsg5-ON和RFPsg8-ON系包含与gRNA序列完全匹配的位点，而RFPsg5-OFF5-2和RFPsg8-OFF5系在RFP上含有同义突变并与gRNA错配。以流式细胞术将细胞分选到各自包含具有低RFP荧光的群体的～5％的箱中。这些实验独立地重复两次，结果相似。

图9.在从合并筛选确定的富集得分与单个验证数据之间的正相关。每个SpCas9组合突变体的归一化log₂(E)为从两个生物学重复中的集中筛选中确定的平均得分，和归一化RFP破坏值为与从3个生物学重复中确定的WT相比较，RFP水平耗尽的平均细胞百分比。R为皮尔森相关系数。

图10.描绘靶上和脱靶位点的编辑效率的热图。通过对每个SpCas9组合突变体确定的对数变换的富集比(log₂(E))来测量编辑效率。富集和耗尽的突变体分别具有＞0和＜0。为了助于可视化，将预计会与靶DNA链接触或位于连接SpCas9的HNH和RuvC结构域的接头区域处的氨基酸残基在y轴上分组，而预计会与非靶DNA链接触的那些氨基酸残基则显示于x轴上。对于没有富集的那些的组合以灰色表示。

图11.参考人类基因组中N20-NGG和G-N19-NGG位点的频率。使用定制的Python代码来查找参考人类基因组hg19的两条链中N₂₀-NGG和G-N₁₉-NGG位点的出现，分别作为Opti-SpCas9和其他经过工程改造的SpCas9变体(包括eSpCas9(1.1)、SpCas9-HF1、HypaCas9和evoCas9)的靶向范围的估计。N₂₀-NGG位点的频率在人类基因组中为G-N₁₉-NGG位点的约4.3倍。

图12.OVCAR8-ADR细胞中DNA错配切割的T7核酸内切酶I(T7E1)测定结果的概述。用SpCas9变体和指明的gRNA感染细胞，并在感染后11-16天之后收集基因组DNA用于T7E1测定。所感染样品的插入缺失量化显示为条形图。

图13.SpCas9变体在OVCAR8-ADR细胞中的表达。用编码WT SpCas9、Opti-SpCas9、eSpCas9(1.1)、HypaCas9、SpCas9-HF1、Sniper-Cas9、evoCas9、xCas9或OptiHF-SpCas9的慢病毒感染细胞。提取蛋白溶解产物用于Western印迹分析，并用抗SpCas9抗体进行免疫印迹。β-肌动蛋白用作上样对照。在OVCAR8-ADR细胞中没有检测到SpCas9-HF1和xCas9的表达，这可能是由于其在哺乳动物细胞中表达的非优化序列所致^24，49，从而在其他活性测定中没有包括SpCas9-HF1和xCas9。将这些实验独立地重复3次，结果相似。

图14.使用GFP破坏测定，用带有或缺少另外错配的5’鸟嘌呤(5’G)的gRNA评估SpCas9变体的编辑效率。用编码携带或缺少另外错配的5’G的gRNA的慢病毒感染表达WTSpCas9、Opti-SpCas9、eSpCas9(1.1)或HypaCas9的OVCAR8-ADR细胞。使用流式细胞术通过GFP水平耗尽的细胞百分比来测量编辑效率。数值和误差棒反映4个独立生物学重复的平均值和标准偏差。

图15.与野生型SpCas9相比较，Opti-SpCas9表现出降低的脱靶活性。评估SpCas9变体在8个内源性基因座处由VEGFA位点3或DNMT1位点4gRNA引起的脱靶编辑。使用T7E1测定(从3个独立实验取平均值)来测量插入缺失的百分比。破折号表示没有检测到。WTSpCas9及其变体在OFF1基因座处对VEGFA位点3gRNA的特异性作为靶上：脱靶活性的比率(靶上活性数据从图12获得)绘图。

图16.使用GFP破坏测定针对编辑包含与gRNA间隔子完全匹配或含有错配的序列的靶位点对SpCas9变体的表征。用编码相对于靶标不携带错配或携带1-4个碱基错配的gRNA的慢病毒感染表达WT SpCas9、Opti-SpCas9、eSpCas9(1.1)或HypaCas9的OVCAR8-ADR细胞。使用流式细胞术通过GFP水平耗尽的细胞百分比来测量编辑效率。数值和误差棒反映3个独立生物学重复的平均值和标准偏差。

图17.使用截短的gRNA对SpCas9变体进行靶上编辑的活性。a，b，用编码靶向GFP序列(a)和内源性基因座(b)的不同长度(17-19个核苷酸)的gRNA的慢病毒感染表达WTSpCas9、Opti-SpCas9、eSpCas9(1.1)或HypaCas9的OVCAR8-ADR细胞。使用流式细胞术(a)和T7E1测定(b)通过GFP水平耗尽的细胞百分比来测量编辑效率。使用的gRNA序列的列表如表5所示。对于(a)，数值和误差棒反映4个独立生物学重复的平均值和标准偏差。

图18.多序列比对-化脓性链球菌(Streptococcus pyogenes)的Cas9同源物的比较。标记了Cas9同源物中的保守氨基酸残基，尤其是对应于SpCas9残基661和1003的氨基酸残基。

定义

如本文使用的“CRISPR-Cas9”或“Cas9”是指一种CRISPR相关蛋白9，为一种与在一些细菌物种(包括化脓性链球菌(Streptococcus pyogenes))中发现的CRISPR(成簇的规律间隔的短回文重复序列)适应性免疫系统相关的RNA引导的DNA核酸内切酶。化脓性链球菌(Streptococcus pyogenes)来源的Cas9蛋白SpCas9具有SEQ ID NO：1中所示的氨基酸序列，其由SEQ ID NO：2中所示的多核苷酸序列编码。包括至少一些(例如至少2、3、4、5或更多个，比如至少一半但不一定是全部)已知的关键保守残基，比如SEQ ID NO：1的残基661、695、848、923、924、926、1003和1060的具有显著序列同源性的另外的Cas9酶，参见图18中的序列比对。如本文使用的术语“Cas9蛋白”涵盖与SEQ ID NO：1共具显著氨基酸序列同一性，例如至少50％、60％、70％、75％、最高80％、85％或更高的总体序列同一性的任何RNA引导的DNA核酸内切酶。示例性的野生型Cas9蛋白包括来自细菌物种变形链球菌(Streptococcus mutans)、停乳链球菌(Streptococcus dysgalactiae)、马链球菌(Streptococcus equi)、口腔链球菌(Streptococcus orahs)、轻型链球菌(Streptococcusmitis)、单核细胞增生李斯特菌(Listeria monocytogenes)、Enterococcus timonensis、嗜热链球菌(Streptococcus thermophilus)和副溶血链球菌(Streptococcusparasanguinis)的分别具有SEQ ID NO：4-13中所示的氨基酸序列集的那些蛋白。

术语“核酸”或“多核苷酸”是指单链或双链形式的脱氧核糖核苷酸或核糖核苷酸及其聚合物。除非特别限制，否则术语涵盖含有天然核苷酸的已知类似物的核酸，其具有与参考核酸相似的结合特性并且以与天然存在的核苷酸类似的方式代谢。除非另外指明，否则特定的核酸序列还隐含地涵盖其保守修饰的变体(例如简并密码子取代)和互补序列以及明确指明的序列。具体地讲，简并密码子取代可通过产生其中一个或多个选定的(或全部)密码子的第三位置用混合碱基和/或脱氧肌苷残基取代的序列来实现(Batzer等人，Nucleic Acid Res.，19：5081(1991)；Ohtsuka等人，J.Biol.Chem.，260：2605-2608(1985)；和Cassol等人，(1992)；Rossolini等人，Mol.Cell.Probes，8：91-98(1994))。术语核酸和多核苷酸可与基因、cDNA和由基因编码的mRNA互换使用。

术语“多肽”、“肽”和“蛋白”在本文中可互换地用于指氨基酸残基的聚合物。该术语适用于其中一个或多个氨基酸残基为相应天然存在的氨基酸的人工化学模拟物的氨基酸聚合物以及天然存在的氨基酸聚合物和非天然存在的氨基酸聚合物。如本文使用的该术语涵盖任何长度的氨基酸链，包括全长蛋白(即抗原)，其中氨基酸残基通过共价肽键连接。

术语“氨基酸”是指天然存在的和合成的氨基酸，以及以类似于天然存在的氨基酸的方式起作用的氨基酸类似物和氨基酸模拟物。天然存在的氨基酸为由遗传密码编码的那些氨基酸，以及后来被修饰的那些氨基酸，例如羟脯氨酸、γ-羧基谷氨酸和O-磷酸丝氨酸。氨基酸类似物是指具有与天然存在的氨基酸相同的基本化学结构，即结合与氢、羧基、氨基和R基团的α碳的化合物，例如高丝氨酸、正亮氨酸、甲硫氨酸亚砜、甲硫氨酸甲基锍。这种类似物具有修饰的R基团(例如正亮氨酸)或修饰的肽骨架，但是保留与天然存在的氨基酸相同的基本化学结构。“氨基酸模拟物”是指具有与氨基酸的一般化学结构不同的结构但以与天然存在的氨基酸相似的方式起作用的化合物。

氨基酸在本文中可通过其众所周知的三字母符号或通过由IUPAC-IUB生化命名委员会(Biochemical Nomenclature Commission)推荐的一字母符号来指涉。同样，核苷酸可通过其通常接受的单字母代码来指涉。

“表达盒”为重组或合成产生的具有允许宿主细胞中的特定多核苷酸序列转录的一系列指定核酸元件的核酸构建体。表达盒可为质粒、病毒基因组或核酸片段的一部分。一般地，表达盒包括待转录的，可操作地连接于启动子的多核苷酸。在该上下文下，“可操作地连接”意指将两个或更多个基因元件(比如多核苷酸编码序列和启动子)置于允许元件(比如指导编码序列转录的启动子)的适当生物学功能的相对位置。表达盒中可能存在的其他元件包括增强转录(例如增强子)和终止转录(例如终止子)的那些元件，以及赋予对从表达盒产生的重组蛋白一定的结合亲和力或抗原性的那些元件。

“载体”为从基于细菌的结构(例如质粒)或基于病毒的结构(例如病毒基因组)重组产生的环状核酸构建体。一般地，除一种或多种目标基因组件(例如编码一种或多种蛋白的多核苷酸序列)之外，载体还含有用于自我复制的起点。在一些情况下，载体可含有表达盒，使载体成为表达载体。在其他情况下，载体可能不包含用于表达编码序列的装置，而是充当运载体或穿梭体，用于储存一种或多种目标基因组件(例如编码序列)和/或将其从一种基因构建体转移至另一种。任选地，载体可进一步包括一种或多种选择或识别标记编码序列，其可编码蛋白比如抗生素抗性蛋白(例如用于检测细菌宿主细胞)或荧光蛋白(例如用于检测真核宿主细胞)，以便使得能够易于检测包含载体并允许从载体进行蛋白表达的转化或转染的宿主细胞。

术语“异源性”当在描述重组构建体中两个元件(比如两个多核苷酸序列或两个多肽序列)之间关系的上下文中使用时，将这两个元件描述为衍生自两个不同来源并且现在置于自然界中没有发现的相对于彼此的位置。例如，指导蛋白编码序列表达的“异源性”启动子为自然界中没有发现指导编码序列表达的启动子。作为另一个实例，在肽与“异源性”肽融合以形成重组多肽的情况下，两个肽序列要么衍生自两种不同的亲本蛋白，要么衍生自相同的蛋白，但彼此不紧邻的两个单独的部分。换句话说，放置彼此“异源性”的两个元件不会导致可在自然界中发现更长的多核苷酸或多肽序列。

如本文使用的术语“条形码”是指短的多核苷酸序列段(一般地不长于30个核苷酸，例如在约4或5至约6、7、8、9、10、12、20或25个核苷酸之间)，其唯一分配给另一个预定的多核苷酸序列(例如目标蛋白编码序列的一个链段，比如SpCas9)，以便得能够基于条形码的存在检测/识别预定的多核苷酸序列或其编码的氨基酸序列。

“IIS型限制酶”为识别不对称DNA序列并在其识别序列之外(3’或5’)切割的核酸内切酶。它们的作用与IIP型限制酶相反，后者可识别对称或回文的DNA序列并在其识别序列内切割。由于IIS型限制酶在其识别序列之外切割DNA链，因此其可产生实际上与其识别序列无关的任何序列的突出端。因此，有可能使用两种不同的IIS型限制酶不仅产生相同大小和相同方向的突出端(即突出端均为3’或5’突出端并具有相同数量的核苷酸)，而且还产生匹配的突出端或相容性末端(即两条相对链上的突出端是完全互补的)，这允许在由两种不同IIS型限制酶产生的两个末端之间进行退火和连接。

如本文使用的术语“短引导RNA”或“sgRNA”是指长度为约15-50(例如20、25或30)个核苷酸的RNA分子，其在预定的靶位点特异性地结合于DNA分子并引导CRISPR核酸酶切割与靶位点相邻的DNA分子。

当两个多核苷酸序列(尤其是两个单链DNA或RNA序列)彼此复合以基于两个序列之间显著或完全(例如至少约80％、85％、90％、95％、96％、97％、98％、99％或最高100％)的Watson-Crick互补性形成双链结构时，核苷酸序列“特异性地结合于”另一个。

“生理学上可接受的赋形剂/载体”和“药学上可接受的赋形剂/载体”是指以下物质，其助于给予递送目标(细胞、组织或活生物体)活性剂-并且通常被其吸收，并可包含在本发明的组合物中而不会对接受者造成显著影响。生理学/药学上可接受的赋形剂的非限制性实例包括水、NaCl、生理盐水溶液、乳酸林格氏液、生理蔗糖、生理葡萄糖、粘合剂、填充剂、崩解剂、润滑剂、包衣、甜味剂、调味剂和着色剂等。如本文使用的术语“生理学上/药学上可接受的赋形剂/载体”旨在包括与预期用途相容的任何和所有溶剂、分散介质、包衣、抗细菌和抗真菌剂、等渗和吸收延迟剂等。

当关于预定值使用时术语“约”表示涵盖该值的±10％的范围。

详述

I.一般观念本发明涉及一种新近改进的高阶基因修饰和筛选平台，用于高效产生和鉴定具有合乎期望的生物学功能的重组蛋白。本发明还提供由该平台产生的重组蛋白。

A.重组技术

公开重组遗传学领域的一般方法和技术的基本文本包括：Sambrook和Russell，Molecular Cloning，A Laboratory Manual(3rd ed.2001)；Kriegler，Gene Transfer andExpression：A Laboratory Manual(1990)；和Ausubel等人，eds.，Current Protocols inMolecular Biology(1994)。

对于核酸，大小以千碱基(kb)或碱基对(bp)给出。这些为源自琼脂糖或丙烯酰胺凝胶电泳、源自测序的核酸或源自公布的DNA序列的估计值。对于蛋白，大小以千道尔顿(kDa)或氨基酸残基数给出。蛋白大小从凝胶电泳、从测序的蛋白、从衍生的氨基酸序列或从公布的蛋白序列估算。

如Van Devanter等人，Nucleic Acids Res.12：6159-6168(1984)中所述，可使用自动合成仪，例如根据Beaucage&Caruthers，Tetrahedron Lett.22：1859-1862(1981)首先描述的固相亚磷酰胺三酯方法，化学合成没有市售的寡核苷酸。寡核苷酸的纯化使用任何领域公认的策略例如如Pearson&Reanier，J.Chrom.255：137-149(1983)中所述的天然丙烯酰胺凝胶电泳或阴离子交换HPLC进行。

可使用例如Wallace等人，Gene 16：21-26(1981)的用于测序双链模板的链终止方法，在克隆或亚克隆之后验证编码目标多肽(例如SpCas9蛋白或其片段)的多核苷酸序列和合成寡核苷酸。

B.多核苷酸编码序列的修饰

给定预选目标蛋白(例如SpCas9)的已知氨基酸序列，可进行修饰以实现蛋白的合乎期望的特征或改善的生物学功能，如可通过本领域已知以及本文所述的体外或体内方法确定的。氨基酸序列的可能修饰可包括在氨基酸序列的一个或多个位置处取代(保守性或非保守性的)；缺失或添加一个或多个氨基酸残基。

在本领域中建立并描述了多种突变产生方案，并可易于用于修饰编码目标蛋白的多核苷酸序列。参见例如Zhang等人，Proc.Natl.Acad.Sci.USA，94：4504-4509(1997)；和Stemmer，Nature，370：389-391(1994)。程序可单独或组合使用，以产生一组核酸的变体，从而产生所编码蛋白的变体。

产生多样性的突变方法包括例如定点诱变(Botstein和Shortle，Science，229：1193-1201(1985))、使用含有尿嘧啶的模板诱变(Kunkel，Proc.Natl.Acad.Sci.USA，82：488-492(1985))、寡核苷酸定向诱变(Zoller和Smith，Nucl.Acids Res.，10：6487-6500(1982))、硫代磷酸酯修饰的DNA诱变(Taylor等人，Nucl.Acids Res.，13：8749-8764和8765-8787(1985))以及使用带缺口的双链DNA诱变(Kramer等人，Nucl.Acids Res.，12：9441-9456(1984))。

用于产生突变的其他可能方法包括位点错配修复(Kramer等人，Cell，38：879-887(1984))、使用修复缺陷型宿主菌株进行诱变(Carter等人，Nucl.Acids Res.，13：4431-4443(1985))、缺失诱变(Eghtedarzadeh和Henikoff，Nucl.Acids Res.，14：5115(1986))、限制性选择和限制性纯化(Wells等人，Phil.Trans.R.Soc.Lond.A，317：415-423(1986))、通过全基因合成进行诱变(Nambiar等人，Science，223：1299-1301(1984))、双链断裂修复(Mandecki，Proc.Natl.Acad.Sci.USA，83：7177-7181(1986))、通过多核苷酸链终止方法进行诱变(美国专利号5965408)和易错PCR(Leung等人，Biotechniques，1：11-15(1989))。

C.用于优选密码子使用的核酸修饰

可基于密码子简并性原理进一步改变编码目标蛋白或其片段的多核苷酸序列，以与优选的密码子使用相符，从而增强特定类型宿主细胞中的重组表达或促进进一步的基因操作，比如允许在期望的位点处构建限制性核酸内切酶识别序列，以进行潜在的切割/重新连接。后者使用在本发明中特别重要，因为经历组合诱变的靶蛋白(例如SpCas9蛋白)的多个编码链段的无缝连接依赖于通过IIS型限制酶对编码链段的消化，从而产生特别衍生自天然蛋白的编码序列的突出端，以便消除这些链段中任何两个之间接合处的任何外来序列或所谓的疤痕序列。

修饰完成时，通过测序验证编码序列，并然后将其亚克隆到合适的载体中，以进行进一步操作或进行蛋白的重组表达。

D.重组多肽的表达

可使用重组遗传学领域中的常规技术来表达目标重组多肽(例如改进的Cas9蛋白)，这依赖于编码如本文公开的多肽的多核苷酸序列。

(i)表达系统

为了获得编码目标多肽的核酸的高水平表达，一般地将多核苷酸编码序列亚克隆到表达载体中，表达载体含有指导转录的强启动子、转录/翻译终止子和用于翻译起始的核糖体结合位点。合适的细菌启动子为本领域众所周知的，并描述于例如上文的Sambrook和Russell以及上文的Ausubel等人中。用于表达重组多肽的细菌表达系统可在例如大肠杆菌、芽孢杆菌属物种(Bacillus sp.)、沙门氏菌属(Salmonella)和柄杆菌属(Caulobacter)中获得。用于这种表达系统的试剂盒为可市售获得的。用于哺乳动物细胞、酵母和昆虫细胞的真核表达系统为本领域众所周知的，并且也为可市售获得的。一些示例性的真核表达载体包括腺病毒载体、腺相关载体和逆转录病毒载体，比如衍生自慢病毒的病毒载体。

用于指导编码目标蛋白的异源性多核苷酸序列表达的启动子取决于特定应用。启动子任选地位于距异源性转录起始位点与在其天然环境中距转录起始位点大约相同的距离。然而，如本领域中已知的，可适应该距离的一些变化而不失去启动子的功能。

除启动子之外，表达载体一般地包括含有在宿主细胞中表达期望的多肽所需的所有另外元件的转录单元或表达盒。因此，典型的表达盒含有可操作地连接于编码多肽的核酸序列的启动子以及转录物有效多聚腺苷酸化所需的信号、核糖体结合位点和翻译终止。在分泌蛋白的重组表达的情况下，编码蛋白的多核苷酸序列一般地连接于可切割的信号肽序列，以促进转化细胞分泌重组多肽。另一方面，如果旨在于宿主细胞表面上表达重组多肽，则将合适的锚定序列与编码序列一起用。盒的另外元件可包括增强子，并且如果基因组DNA用作结构基因，则包括具有功能性剪接供体和受体位点的内含子。

除启动子序列之外，表达盒还应在编码序列的下游含有转录终止区，以提供有效的终止。终止区可从与启动子序列相同的基因获得，或者可从不同的基因获得。

含有来自真核病毒的调控元件的表达载体一般地用于真核表达载体，例如SV40载体、乳头瘤病毒载体、慢病毒载体和衍生自爱泼斯坦-巴尔病毒的载体。其他示例性的真核载体包括pMSG、pAV009/A⁺、pMTO10/A⁺、pMAMneo-5、杆状病毒pDSVE以及允许在SV40早期启动子、SV40晚期启动子、金属硫蛋白启动子、鼠乳腺肿瘤病毒启动子、劳斯肉瘤病毒启动子、多角体蛋白启动子或显示在真核细胞中有效表达的其他启动子的指导下表达蛋白的任何其他载体。

一般地包含于表达载体中的元件还可包括在大肠杆菌中起作用的复制子、编码抗生素抗性以允许选择包含重组质粒的细菌的基因以及在质粒的非必需区中允许插入真核序列的独特的限制性位点。选择的特定抗生素抗性基因不是关键的，本领域已知的许多抗性基因中的任何一种均为合适的。在必要时，任选地选择原核序列，使得其不干扰DNA在真核细胞中的复制。与抗生素抗性选择标记相似，基于已知代谢途径的代谢选择标记也可用作选择转化的宿主细胞的手段。

如上所述，本领域技术人员将认识到可对蛋白或其编码序列进行各种保守性取代同时仍保留蛋白的生物学活性。此外，还可进行多核苷酸编码序列的修饰以适应特定表达宿主中优选的密码子使用或产生限制酶切割位点而不改变所得的氨基酸序列。

(ii)转染方法

使用标准转染方法来产生表达大量重组多肽的细菌、哺乳动物、酵母、昆虫或植物细胞系，然后使用标准技术对其进行纯化(参见例如Colley等人，J.Biol.Chem.264：17619-17622(1989)；Guide to Protein Purification，载于Methods in Enzymology，vol.182(Deutscher，ed.，1990))。根据标准技术进行真核和原核细胞的转化(参见例如Morrison，J.Bact.132：349-351(1977)；Clark-Curtiss&Curtiss，Methods in Enzymology 101：347-362(Wu等人，eds，1983)。

可使用任何用于将外源核苷酸序列引入到宿主细胞中的众所周知的程序。这些程序包括使用磷酸钙转染、聚凝胺、原生质体融合、电穿孔、脂质体、显微注射、血浆载体、病毒载体以及用于将克隆的基因组DNA、cDNA、合成DNA或其他外源遗传物质引入到宿主细胞中的任何其他众所周知的方法(参见例如Sambrook和Russell，同上)。仅需要所使用的特定基因工程程序能够将至少一种基因成功地引入到能够表达重组多肽的宿主细胞中。

II.改进的组合基因修饰系统

基于先前开发的高通量CombiGEM组合基因修饰系统等，本发明人已经对这些系统进行了进一步修饰，目的是无缝地连接编码蛋白链段的DNA元件，各蛋白链段对应于目标蛋白(例如SpCas9)的一部分，并且在其氨基酸序列中含有至少一个，可能是多个突变，使得除有意引入的突变之外，所得的复合蛋白变体将没有外来氨基酸残基。由于先前的方法利用IIP型限制性核酸内切酶切割和重新连接DNA序列(其编码组合蛋白变体的链段)，这种类型核酸内切酶的性质(结合于核苷酸序列的短回文段并在其内切割)一般地需要用户通过在由系统产生的蛋白变体中的两个链段之间的每个接合点处引入额外的核苷酸(这进而导致外来核苷酸残基或“疤痕”序列)来工程改造切割位点。这些外来氨基酸残基进一步改变蛋白序列，并可潜在地干扰变体的功能筛选。

在其避免引入这些不需要的额外氨基酸残基的努力中，本发明人发现，如果将IIS型限制酶改为用于构建和连接编码蛋白链段的多个DNA编码序列以建立组合基因变体的文库，则可完全消除链段之间这种不合期望的“疤痕”序列。该策略利用以下事实：IIS型核酸内切酶能够在其不对称识别位点之外切割DNA链，从而允许在通过这些酶进行DNA切割之后产生具有野生型蛋白的天然DNA编码序列一部分的相容性末端或匹配的突出端。在相容性末端或匹配的突出端中使用天然蛋白衍生的编码序列，不仅支持蛋白链段之间的无缝接合，而且还允许进行特定的定向连接，从而在构建组合蛋白变体的过程中进一步提高效率。

A.编码蛋白链段的DNA链段文库的产生

产生组合蛋白变体文库的第一步是为蛋白的每个链段产生文库：可设计蛋白变体，使得其通过将预定数量(例如3、4、5、6或更多个)的蛋白链段或模块首尾相连来产生。如在本公开中，预定数量表示为n+1，然后对于目标蛋白设计为由6个链段组成，n＝5。可通过已知方法(比如重组产生或化学合成)首先产生编码第一蛋白链段的DNA元件的单个成员的文库或集合，所述蛋白链段对应于野生型蛋白的最N-末端部分，并在蛋白的该部分中含有一个或多个可能的突变；并然后将该文库或集合掺入到DNA载体(就其目的而言为所谓的储存载体)中，载体含有适当的限制酶位点以及唯一分配给包含预定的突变(或预定的突变组)的DNA元件的条形码序列。如果DNA元件相对较长，则可首先通过经已知方法(比如Gibson组装)连接较短片段来制备其，之后再将其掺入到储存载体中。如上所述，产生DNA序列突变的方法为本领域技术人员众所周知的，并且可易于用于通过修饰天然形式或野生型序列，例如通过缺失、插入和/或取代一个或多个核苷酸来创建序列变体。

图5a描绘一个实例，说明如何将编码蛋白链段的DNA元件插入并连接到载体中以形成DNA构建体，其从5’至3’包括：第一IIS型限制酶(例如BsaI)的第一识别位点、DNA元件、第二IIS型限制酶(例如BbsI)的第一和第二识别位点、因其包含的特定突变而唯一分配给DNA元件的条形码以及第一IIS型限制酶(例如BsaI)的第二识别位点。对于已经设计或“解构”成具有(n+1)个链段或模块以进行组合突变研究的蛋白，可以相同的方式为每个后续DNA元件(第二、第三个、依此类推直至第n个DNA元件(分别编码第二、第三个、依此类推直至第n个蛋白链段))构建含有DNA链段的存储载体的文库，第n个蛋白链段对应于蛋白的倒数第二个或最C-末端部分。

对于编码蛋白的最后一个或最C-末端链段的DNA元件，采用结构上不同的储存载体来构建含有第(n+1)个DNA元件的载体文库。如图5a所示，将最后一个或第(n+1)个DNA元件插入到该储存载体中以形成从5’至3’包括以下的DNA构建体：第一IIS型限制酶(例如BsaI)的第一识别位点、第(n+1)个DNA元件、用作引物结合位点的短的核苷酸序列段、因其包含的特定突变而唯一分配给DNA元件的条形码以及第一IIS型限制酶(例如BsaI)的第二识别位点。引物结合位点的存在和放置允许在产生蛋白变体的复合编码序列(组合所有n+1个DNA元件)之后利用通用引物(其特异性地结合于引物结合位点)对组合条形码进行快速测序，以便允许易于鉴定变体中包含的突变，从而不必对整个复合编码序列进行繁琐的测序工作。

为了确保文库中每种潜在的组合蛋白变体的机会均等，每个包含独特突变组的DNA元件优选地以等摩尔比存在于文库中。

B.组合蛋白突变体文库的产生

一旦构建了含有第一、第二个、依此类推直至第n个和第(n+1)个DNA元件的储存载体的文库，就首先通过以下方式释放含有编码蛋白链段或模块的DNA元件的DNA片段：例如通过使用第一IIS型限制性核酸内切酶(例如BsaI)在两个位点处切割载体来对储存载体进行酶消化。储存载体的消化释放出DNA片段，每个片段含有编码蛋白链段(包含突变)的DNA元件及其唯一分配的条形码，两种IIS型限制酶(例如BbsI)识别位点夹在中间。DNA片段的两个末端具有由第一IIS型限制酶切割产生的突出端。

同时，旨在携带并表达编码完整蛋白变体的最终复合DNA元件的DNA载体(就其目的而言为所谓的目标载体)是一种表达载体，其含有用于表达DNA编码序列的所有必要的基因元件。如之前部分所述，转录的一个必需元件为启动子，其可操作地连接于编码序列以指导序列的转录。一般地，启动子为编码序列的异源启动子。

为了接收由储存载体文库产生的DNA片段，目标载体也通过在启动子下游合适距离的位点处经IIS型限制酶消化而线性化，以便允许插入/连接DNA片段，并将DNA元件(其编码蛋白链段)置于DNA片段内，在启动子的控制下进行转录。通常，用于线性化目标载体的IIS型限制酶不同于用于从储存载体中释放DNA片段的酶。但是其优选地产生相同大小和匹配的突出端，以便允许将DNA片段连接到目标载体中。

如图5b所示，当通过第一IIS型限制酶消化含有编码全部种类的第一蛋白链段的全部种类的第一DNA元件的储存载体文库时，则从其储存载体中释放出含有全部种类的第一DNA元件及其相应条形码的DNA片段的文库。然后将这些第一DNA片段的这种文库(优选地对每个序列种类而言以等摩尔比)连接到线性化的目标载体中，从而导致1维文库。所得的1维文库的每个成员将含有功能性表达盒，其中启动子可操作地连接于第一DNA元件，并且能够指导由第一DNA元件编码的第一或最N-末端蛋白链段的表达。

随后，用IIS型限制酶再次消化1维文库，在第一DNA元件及其条形码之间将文库的每个成员切割两次，在每个切割位点产生两个突出端。

同时，通过第一IIS型限制酶消化含有编码全部种类的第二蛋白链段的全部种类的第二DNA元件的储存载体的文库，从其储存载体中释放出含有全部种类的第二DNA元件及其相应条形码的DNA片段的文库。然后将这些第二DNA片段的这种文库(优选地对每个序列种类而言以等摩尔比)连接到第一DNA元件及其相应条形码之间线性化的1维表达载体中，从而导致新的2维表达载体的文库。所得的2维文库的每个成员将含有功能性表达盒，其中启动子可操作地连接于与第二DNA元件融合的第一DNA元件，并且能够指导由第一DNA元件和第二DNA元件的融合物编码的融合的第一和第二蛋白链段的表达。为了消除第一和第二蛋白链段之间融合点处的任何外来氨基酸残基或“疤痕”序列，必须仔细设计位于第一DNA元件及其条形码之间的两个切割位点，以便确保(1)在线性化的1维载体的两个末端的突出端与从含有全部种类的第二DNA元件的储存载体的文库中释放的第二DNA片段的两个末端的突出端之间存在完美匹配(在突出端的序列和大小/方向两者)；和(2)在其连接后，在第一DNA元件的尾部或3’末端与第二DNA元件的头部或5’末端之间匹配的突出端序列编码同一位置的野生型目标蛋白中发现的氨基酸序列段。换句话说，切割位点的设计确保两个相邻蛋白链段的无缝连接。

在完成将从第二储存载体的文库释放的第二DNA片段的文库连接到线性化的1维表达载体文库中时，现在构建2维复合表达载体的文库。重复上两个段落中概述的步骤的循环，可继续将第三DNA片段、依此类推直至第n个和第(n+1)个DNA片段掺入到复合表达载体中，以获得最终复合表达载体的文库，所述最终复合表达载体含有完整DNA编码序列阵列，所述完整DNA编码序列编码含有所有可能的突变组合的全长蛋白变体，每个变体编码序列后接复合条形码序列，条形码序列将具有对应于其唯一分配给DNA元件，但以DNA元件融合的相反顺序存在的所有条形码。

C.蛋白变体的功能筛选

由于目标载体的最终文库为表达载体，每个表达载体具有可操作地连接于含有所有n+1个DNA元件的复合DNA编码序列的启动子，以编码含有特定的一组突变的全长蛋白变体，因此这些蛋白变体可易于在适当的报告系统中针对任何特定合乎期望的功能特征进行表达、筛选和选择。例如，基于病毒的目标载体可用于转染宿主细胞，并在合适的细胞环境中直接表达目标蛋白的变体以进行功能分析。

图2a说明如何针对其功能性筛选SpCas9变体的一个实例：用含有SpCas9变体的编码序列的慢病毒载体转染稳定表达红色荧光蛋白(RFP)和靶向RFP基因序列的gRNA的细胞系以指示每种变体的靶上活性，和转染稳定表达包含同义突变的RFP和gRNA的另一种细胞系以指示变体的脱靶活性。由于CombiSEAL平台旨在潜在地产生任何蛋白的有用变体，因此可取决于目标蛋白的特定功能性设计不同的功能筛选测定。一旦发现合乎期望的功能特性(如在Cas9蛋白的情况下，靶上和脱靶活性特征)的克隆，就对复合条形码进行测序，以使得能够立即识别特定变体中的特定突变。

iii.优化的CAS9酶

利用新近改进的CombiSEAL组合基因修饰系统，本发明人鉴定了一系列SpCas9突变体并表征了其功能特征。在研究的突变体中，已发现一种称为Opti-SpCas9的特定变体具有高度合乎期望的功能特征：其具有增强的基因编辑特异性而不会牺牲效能和广泛的测试范围。鉴于其功能属性，这种改进的Cas9酶在CRISPR基因组编辑方案中为高度有价值的工具。

野生型SpCas9蛋白具有SEQ ID NO：1中所示的氨基酸序列，并且其相应的DNA编码序列如SEQ ID NO：2中所示。先前对该核酸内切酶的研究提供了对该蛋白结构的了解，包括与DNA相互作用的区域和氨基酸残基。在其开发CombiSEAL平台的研究期间，本发明人证实，在先前预测与靶和非靶DNA链相互作用的SpCas9的氨基酸序列的某些残基处引入的突变(特别是取代)，对核酸内切酶的性能具有直接影响。具体地讲，发现在残基比如R661、Q695、K848、Q926、K1003和K1060处的取代会改变酶的靶上/脱靶编辑活性。变体Opti-SpCas9为野生型SpCas9的双突变体：SEQ ID NO：1中的残基661用丙氨酸取代和残基1003用组氨酸取代。其氨基酸序列如SEQ ID NO：3中所示。这些取代为造成修饰的核酸内切酶的靶上编辑效率提高和脱靶活性降低(高度合乎期望的表型)的原因。

发明人还鉴定了R661A、K1003H和Q926A的三重突变体，其进一步使来自Opti-SpCas9的脱靶编辑降低约80％，同时其靶上活性也显著降低。在其中避免脱靶切割特别重要的情况下，这种三重突变体可能具有价值。另外，已经产生了称为OptiHF-SpCas9的第二突变体，其具有5个点突变Q695A、K848A、E923M、T924V和Q926A(参见表2中的变体46)。Opti-SpCas9和OptiHF-SpCas9的氨基酸序列分别如SEQ ID NO：3和SEQ ID NO：13中所示。表2提供本研究中分析的SpCas9变体的汇编，详述了其所包含的点突变及其靶上和脱靶的切割特征。

本文公开的SpCas9变体为活细胞基因组的基因操作中有价值的工具。为了将这些变体用于通过CRISPR系统的靶向DNA切割，一般地将指导变体(例如Opti-SpCas9)的表达的表达载体和编码适当序列的sgRNA(用于指导SpCas9变体至细胞基因组中的预选靶位点，以在靶位点处切割基因组DNA)的表达载体引入到活细胞中。在一些实施方案中，表达载体为病毒载体，比如逆转录病毒载体，尤其是慢病毒载体。尽管编码SpCas9变体的表达载体和编码sgRNA的表达载体通常为两种单独的载体，但在一些情况下，一个单一表达载体含有SpCas9变体和sgRNA的编码序列两者，两个编码序列可操作地连接于相同的启动子或两个单独的启动子。由于启动子一般地与编码序列异源，因此可进一步考虑使用适合于特定类型接受者细胞的启动子。

实施例

提供下列实施例仅作为说明而不是作为限制。本领域技术人员将易于认识到可变化或修改多种非关键参数以产生基本上相同或相似的结果。

实施例1：CombiSEAL作为用于无缝地组装条形码化的组合基因单位的高通量平台，从而为蛋白优化比如筛选SpCas9变体提供一种新颖的方法难以预测多重突变对蛋白功能的联合影响，因此，从功能上评估大量蛋白序列变体的能力对于蛋白工程改造实际上是有用的。本文中提出一种高通量平台，其使得可对具有组合修饰的条形码化的蛋白变体进行可扩展的组装和并行表征。该平台CombiSEAL通过系统地表征广泛使用的化脓性链球菌(Streptococcus pyogenes)Cas9(SpCas9)核酸酶的948种组合突变体的文库，以优化其在人类细胞中的基因组编辑活性来说明。合并评估SpCas9变体在多个靶上和脱靶位点处的编辑活性的容易性加速优化变体的鉴定和促进突变上位性的研究。成功地鉴定出Opti-SpCas9，其具有增强的编辑特异性而不牺牲效能和广泛的靶向范围。该平台可广泛地应用于通过全体组合修饰进行蛋白质工程改造。

介绍

已证明，蛋白质工程改造为用于产生具有新的或增强的特性的酶、抗体和基因组-编辑蛋白的重要策略^1-7。蛋白序列的组合优化依赖于用于创建和筛选大量变体的策略，但是当前的方法在其以高通量方式系统有效地建立和测试多种修饰的能力方面受到限制^8-11。基于结构和生化知识的常规定点诱变促进功能相关突变体的产生，但是使用这种逐个方法筛选组合突变体缺少通量和可扩展性。可采用基因合成技术以合并形式制备组合突变体，但一般地每合成1千个碱基会产生1-10个错误^12，13，并且如果要引入的突变分散在蛋白的不同区域上，则极度昂贵。方法比如组合DNA组装^14，15以及重组和改组¹⁶通过将多个突变序列融合在一起以组装整个蛋白序列来创建组合突变体，但是随后的突变的基因分型和表征需要选择克隆分离物或长读长测序，而其两者均不适合于跟踪大量的突变体。经易错聚合酶链反应和用于定向进化的增变菌株进行诱变，使得能够积极选择期望的突变变体，但由于密码子中很少出现两个或更多个特定核苷酸突变，因此其遭受偏向氨基酸的子集的选择偏倚。即使可通过序列随机化获得多种多样的蛋白变体，但是对于逐个地基因分型和分析选择的命中的非常有限的通量为蛋白质工程改造的主要障碍。此外，从其余乘客突变中明确指出赋予期望的表型的确切突变可能对加速组合优化过程是有用的。

在此，发明人设计了一种新的克隆方法，以将无缝组合DNA组装与用于全体组合遗传学(CombiGEM)^17-19的条形码连接策略结合在一起，该平台我们称为CombiSEAL，用于条形码化的组合突变体的合并组装，所述条形码化的组合突变体可易于通过高通量短读长测序跟踪(图1)。CombiSEAL通过将蛋白序列模块化为可组合的部件来工作，每个部件包含用条形码标记的变体库，条形码指定所定义位置的预定突变。IIS型限制酶位点用于侧接条形码化的部件以形成源自蛋白编码序列的消化的突出端，从而在与前述部件融合后实现无缝连接。在部件的迭代合并克隆之后，将独特的条形码连接起来并附加于所得文库中的每个蛋白编码序列变体上。该方法优于其他策略，因为其避免对覆盖多个突变的整个蛋白编码区域进行长读长测序的需要，这提供一种成本有效的方式以通过对短(例如～50个碱基对)条形码的高通量测序来定量跟踪池中的每个变体而无需选择克隆分离物。另外，对变体的合并表征允许在相同的实验条件下进行头对头比较，并促进突变上位性的研究。与仅允许组合组装离散的基因组件的CombiGEM不同，CombiSEAL不会留下融合疤痕序列来无缝地连接连续序列(例如蛋白的不同链段)。因此，该新平台具有巨大的用于蛋白质工程改造的潜力。

结果

SpCas9组合突变体的高通量筛选。CombiSEAL被用于组装SpCas9(用于基因组工程的广泛使用的成簇的规律间隔的短回文重复序列(CRISPR)核酸酶^20-23)的组合突变体文库，目的是鉴定具有高编辑特异性和活性的优化变体。以前，携带特定突变组合的SpCas9核酸酶(包括eSpCas9(1.1)³、SpCas9-HF1⁴、HypaCas9⁵和evoCas9⁶)均经工程改造以最小化其脱靶编辑。然而，这些变体由于其与以错配的5’-鸟嘌呤(5’G)开头的gRNA不相容^3-6，24-27，因此具有较少可靶向的位点。迄今为止，已产生并测试了数量有限的组合突变体(表1)，因此有必要对具有与带有额外5’G的gRNA更好的相容性的其他SpCas9变体进行更系统的探索。

使用CombiSEAL，将SpCas9序列模块化为4种部件，并将在单个部件包含不同随机和特定突变的条形码化的插入片段克隆到储存载体中(图1a；图7a，b；详细信息参见方法)。然后将组合条形码化的文库(具有4×2×17×7＝952种SpCas9变体，包括野生型(WT)SpCas9和eSpCas9(1.1)序列)合并组装于慢病毒载体中。对文库中的单个部件和组装的构建体进行测序，以证实条形码化的变体的高度精确组装(详细信息参见方法)。发明人检测到在大肠杆菌池(即952种变体中的951种)和感染的人类细胞池(即952种变体中的948种)中储存的质粒池内文库的高覆盖率(图1b)，和质粒与感染的细胞池之间以及感染的细胞池的生物学重复之间高度可再现的表现(图7c)。

为了搜索稳健且特异性的SpCas9变体，使用单克隆人类细胞系建立了一种报告系统，以稳定表达红色荧光蛋白(RFP)和靶向RFP基因序列的gRNA(以下称为RFPsg5-ON和RFPsg8-ON；图2a)。与主要使用以5’G开头的20个核苷酸的gRNA的先前筛选^3-6不同，在报告系统中携带另外5’G的gRNA用于寻找不牺牲靶向范围的相容性SpCas9变体。然后细胞用SpCas9变体文库进行感染，并基于感染后14天时的RFP荧光水平分选到箱中。RFP荧光的失去反映靶位点的DNA的切割和插入缺失介导的破坏，因此包含活性SpCas9变体的细胞会在RFP水平低的分选箱中富集。使用Illumina HiSeq跟踪条形码化的SpCas9变体，当与未分选的群体相比较，发现变体亚群在分选箱中富集＞1.5倍，所述分选箱包含具有最低水平的RFP的细胞群体的～5％(即箱A)(图2b；图8)。WT SpCas9为富含报告系统RFPsg5-ON和RFPsg8-ON两者的那些之一，而eSpCas9(1.1)富含RFPsg8-ON。为了促进SpCas9变体的靶上和脱靶活性的并行表征，进一步产生了在RFP处包含同义突变的细胞系，使得靶向错配的位点表明SpCas9变体的脱靶活性(即RFPsg5-OFF5-2和RFPsg8-OFF5；图2a)。WT SpCas9而不是eSpCas9(1.1)富含RFPsg5-OFF5-2和RFPsg8-OFF5两者(图2b；图8)。

基于SpCas9变体在分选箱中相对于未分选群体的富集，对其文库靶上和脱靶活性进行排序和绘图，并且发现大多数突变体均损害SpCas9的靶上和脱靶活性两者(图3a)。活性优化的变体定义为对RFPsg5-ON和RFPsg8-ON两者的富集比至少为WT的90％，而对于RFPsg5-OFF5-2和RFPsg8-OFF5两者的富集比小于WT的60％的那些变体。nOne变体(以下称为Opti-SpCas9)符合这些标准并被选择进行进一步表征(表2)。基于RFPsg5-ON和RFPsg8-ON两者的富集比为至少＞WT的50％，以及RFPsg5-OFF5-2和RFPsg8-OFF5两者的富集比＜WT的90％，还鉴定了一种高保真变体，名为OptiHF-SpCas9(表2)。Opti-SpCas9和OptiHF-SpCas9的效率和特异性通过单独的验证测定进行验证，以测量其靶上和脱靶活性。使用多个细胞系(每个细胞系表达靶向匹配或错配的RFP位点的gRNA)，证实了当与WT相比较，Opti-SpCas9表现出可比的靶向活性(即94.6％；从3个匹配位点取平均值)和显著降低的脱靶活性(即1.7％；从3个错配位点取平均值)，而OptiHF-SpCas9在靶上(即63.6％；从两个匹配位点取平均值)和脱靶(即2.0％；从两个错配位点取平均值)位点两者显示出活性降低(图3b)。

研究SpCas9编辑效率的突变上位性。通过CombiSEAL对蛋白变体的系统构建使得我们能够将氨基酸取代集分类为中性、有益或有害的，并探索其难以预测的上位相互作用。使用富集比作为SpCas9编辑活性的指标(图9)，构建了热图，显示由突变的组合所赋予的靶上和脱靶活性和涉及的上位相互作用(图4；图10)。据揭示，在SpCas9的预计会与靶和非靶DNA链相互作用的氨基酸残基(比如R661、Q695、K848、Q926、K1003和K1060)处引入的取代的数量和类型决定最大化靶上效率和最小化脱靶活性之间的最佳平衡。活性优化的变体Opti-SpCas9与WT的区别为在这些DNA接触的残基处具有两个取代突变(即R661A和K1003H)。在SpCas9的第1003个氨基酸位置处引入的3个保守性碱性残基(即赖氨酸、精氨酸和组氨酸)之间的比较显示，K1003H为优选的取代，其与R661A突变表现出正上位相互作用，并在靶上位点处赋予Opti-SpCas9高编辑效率(图4)。在Opti-SpCas9上添加显示出对SpCas9-HF1⁴赋予更高特异性的Q926A取代略微降低其脱靶效应(即从Opti-SpCas9的1.0％降至Opti-SpCas9+Q926A的0.2％；从3个错配靶位点取平均值)，并且在3个测试的匹配位点上，其靶上活性大幅度地降低了21.6％、62.4％和99.9％(图3b)。此外，发现大多数在这些DNA接触的残基处带有3个或更多个突变的SpCas9变体，在靶上和脱靶位点两者处产生较少的编辑(图4)。这些结果与先前的发现一致，即在这些DNA接触的残基处过度的丙氨酸取代严重降低SpCas9的编辑活性²⁵。但是有趣的是，在负责SpCas9的HNH和RuvC核酸酶结构域²⁸的构象控制的残基处引入的另外取代，比如位于连接两个结构域的接头区域处的E923M+T924V和E923H+T924L突变的情况下，一些在DNA接触的残基处携带三个或更多个突变的SpCas9变体在RFPsg5-ON位点处恢复了其靶上编辑(图4)。除Q695A、K848A和Q926A取代之外，高保真变体OptiHF-SpCas9还含有E923M+T924V突变，并且显示出在RFPsg8-ON位点处的靶上活性略高于仅有Q695A、K848A和Q926A三重突变的变体(图4)。这些数据支持SpCas9的DNA结合和切割活性在功能上偶联以确定其编辑特异性和效率的模型^5，29，并突出显示通过修饰接头残基来对SpCas9的编辑性能进行编程的潜力。

表征优化的SpCas9变体。在gRNA设计和构建中，通常将5’G包含或添加至gRNA序列的开头，以促进在U6启动子下的有效转录。WT SpCas9与具有与前间隔序列错配的另外5’G的gRNA相容。另一方面，当使用带有另外的5’G(即G-N₂₀)或缺少开头鸟嘌呤(即H-N₁₉)的20个核苷酸的gRNA时，eSpCas9(1.1)、SpCas9-HF1、HypaCas9和evoCas9会失去其编辑效率^{4，6，24-26，30}。与N₂₀-NGG相比较，基于G-N₁₉-NGG位点的可用性，使用具有与前间隔序列匹配的5’G的gRNA可将人类基因组中可编辑位点的数量显著减少至～1/4.3(图11)。Opti-SpCas9的编辑活性进一步用携带另外5’G的gRNA进行表征，并且基于测定我们和其他人先前已经研究的内源性基因座^{3-5，18，31}，发现Opti-SpCas9表现出与WT可比(即95.1％)的靶上DNA切割活性，而eSpCas9(1.1)和HypaCas9表现出大大降低的活性(即分别为32.4％和25.6％)(图5a；图12)。减少的编辑不是由于两种SpCas9变体的蛋白表达水平降低(图13)。这些结果证实在其中使用带有另外5’G的gRNA的我们的筛选系统(图2；3a)中以及基于使用绿色荧光蛋白(GFP)破坏测定的独立验证实验(图3b；图14)对这些变体观察到的靶上活性。另外，当使用以匹配的5’G开头的20个核苷酸的gRNA时，Opti-SpCas9、eSpCas9(1.1)和HypaCas9表现出与WT可比的编辑活性(即分别为109.1％、103.3％和106.8％)(图5a)。进一步将Opti-SpCas9与OptiHF-SpCas9和最近表征的高保真变体evoCas9⁶和Sniper-Cas9³²进行比较，并且发现OptiHF-SpCas9、evoCas9和Sniper-Cas9产生的靶上编辑少于Opti-SpCas9(即当用携带另外5’G的gRNA表达时分别减少60.7％、99.8％和51.7％，而当使用在20个核苷酸的gRNA序列处以匹配的5’G开头的gRNA时则分别减少40.1％、87.7％和63.9％)(图5b；图12；13)。总而言之，限制将匹配的5’G包含为20个核苷酸的gRNA序列的第一个碱基用于在U6下进行转录(这限制了其他先前经工程改造的具有改善的特异性的SpCas9s的实用性)，不适用于Opti-SpCas9，其与携带另外5’G的gRNA相容性地工作。这些发现突出显示，经工程改造的SpCas9s不一定必须为了特异性而牺牲靶向范围。

进一步检查了不同SpCas9变体的脱靶活性。扩增了使用VEGFA位点3和DNMT1位点4gRNA通过WT SpCas9编辑的8个潜在的脱靶基因座^3-5，31，并在OVCAR8-ADR细胞中的那些位点中的4个(即VEGFA OFF1、VEGFA OFF2、VEGFA OFF3和DNMT1 OFF1)检测到由WT SpCas9诱导的基因组插入缺失。当使用Opti-SpCas9、eSpCas9(1.1)和HypaCas9代替WT时，仅在VEGFAOFF1位点检测到脱靶编辑(图15)。在这4种变体中，Opti-SpCas9在该位点显示出最大的靶上：脱靶活性(图15)。为了比较不同SpCas9变体的错配耐受性，产生了含有1-4个针对报告基因靶标(即基因组整合的GFP基因序列)的碱基错配的gRNA。这些错配的碱基跨越gRNA间隔序列的不同位置。测量GFP荧光的失去以反映靶位点的DNA切割和插入缺失介导的破坏。发现Opti-SpCas9对具有两个或更多个错配的碱基的gRNA很大程度上不耐受，尽管在携带两个碱基错配的8个位点中的1个中检测到相对较低的活性水平(即Opti-SpCas9的3.5％相对于WT的73.2％)(图16)。观察到eSpCas9(1.1)和HypaCas9在我们的报告系统中在靶上位点(即减少＞60％)和脱靶位点两者进行较少的编辑(图16)。在WT和Opti-SpCas9(即WT的97.6％)之间靶上活性水平相似的情况下，Opti-SpCas9显示出比WT更高的特异性，这由在含有单碱基错配的20个位点中的13个处产生明显更少的脱靶编辑表明，然而仍然检测到相当数量的脱靶编辑(图16)。其他人也报告了使用eSpCas9(1.1)、SpCas9-HF1、HypaCas9、evoCas9和Sniper-Cas9在单碱基错配位点处的编辑活性^{3，5，6，32}。尽管如此，大多数在计算机上预测的基因组中的脱靶位点均含有两个或更多个相对于gRNA序列的错配³³，因此对单碱基错配的耐受性不应限制SpCas9实现精确基因组编辑的效用。进一步进行了GUIDE-Seq，以查看由Opti-SpCas9和其他经工程改造的SpCas9变体带来的全基因组切割活性。这些结果表明，Opti-SpCas9产生的脱靶切割明显少于WT，并且OptiHF-SpCas9显示出与其他报道的高保真变体(比如eSpCas9(1.1)、HypaCas9、evoCas9和Sniper-Cas9)可比的靶上：脱靶比增加(图5c；表3)。与eSpCas9(1.1)和HypaCas9相比较，Opti-SpCas9与截短的gRNA的使用表现出更好的相容性(图17)，这可提供一种互补策略来提高Opti-SpCas9的编辑特异性³⁴。

讨论

本发明人已经建立了一种简单然而非常强大的平台，名为CombiSEAL，以解决蛋白质工程改造对快速和同时分析高阶组合突变的未满足的需求。该策略使用合并的组装方法以绕开逐个地建立单个组合突变体的繁琐的步骤，并利用条形码策略以使得能够对大量蛋白变体进行平行实验并鉴定其中的最佳表现者，以促进蛋白质工程改造。此外，方法可适用于映射突变之间的上位性关系。使用CombiSEAL方法，发明人成功鉴定出Opti-SpCas9和OptiHF-SpCas9——在人类细胞内广泛范围的内源性靶标上具有出色的基因组编辑效率和特异性的新颖变体(表3)。

CombiSEAL流水线可易于用于建立甚至更多的Cas9变体，以扩大对具有多方面或其他特性的变体，比如具有更宽的前间隔序列邻近基序柔韧性⁷以及与核糖核蛋白递送的相容性增强³⁵的那些变体的搜索。可以设想，CombiSEAL将加速CRISPR酶(包括SaCas9³⁶和Cpf1³⁷)及其衍生物(例如碱基编辑器^38-41)的工程改造，以进行基因组的精确编辑。这种方法的通用性还将扩大我们的范围，以系统地工程改造各种蛋白以及与许多生物医学和生物技术应用相关的其他生物分子和系统，包括合成DNA和遗传调控回路。

方法

DNA载体的构建

使用标准分子克隆技术构建本研究中使用的载体(表4)，所述技术包括PCR、限制酶消化、连接和Gibson组装。定制的寡核苷酸购自Integrated DNA Technologies和Genewiz。将载体构建体转化到大肠杆菌菌株DH5α中，并使用50μg/ml的羧苄青霉素/氨苄青霉素分离包含构建体的菌落。使用Plasmid Mini(Takara)或Midi(Qiagen)试剂盒提取和纯化DNA。用Sanger测序验证载体构建体的序列。

为了创建编码eSpCas9(1.1)、HypaCas9或SpCas9-HF1以及作为选择标记的Zeocin的慢病毒表达载体，使用Phusion DNA聚合酶(New England Biolabs)通过PCR从pAWp30(Addgene#73857)、eSpCas9(1.1)(Addgene#71814)和VP12(Addgene#72247)扩增/突变SpCas9序列，并使用Gibson Assembly Master Mix(New England Biolabs)将其克隆到pFUGW慢病毒载体骨架中。通过分别从Addgene构建体#107550、#113912和#1803380扩增其SpCas9序列并克隆到pFUGW载体骨架中来创建编码evoCas9、Sniper-Cas9和xCas9(3.7)的慢病毒表达载体。为了构建含有U6启动子驱动的靶向特定基因的gRNA表达的储存载体，如先前所述¹⁸，使用T4 DNA连接酶(New England Biolabs)合成了具有gRNA目标序列的寡核苷酸对，将其退火并克隆到BbsI消化的pAWp28载体(Addgene#73850)中。为了寻找可与在20个核苷酸间隔序列的开头携带另外5’G的gRNA相容性地工作的SpCas9变体，以利于U6启动子下的转录，除图5和图14中使用的其中一些之外，该研究中使用了含有额外5’G的gRNA。gRNA间隔序列列于表5中。为了构建用于U6驱动的gRNA表达的慢病毒载体，从用BglII和MfeI酶(ThermoFisher Scientific)消化储存载体制备U6-gRNA表达盒，并将其经通过以BamHI和EcoRI酶(ThermoFisher Scientific)消化载体产生的相容性粘性末端使用连接法插入到pAWp12(Addgene#72732)载体骨架中。为了与双重RFP和GFP荧光蛋白报告物一起表达gRNA，使用上述相同策略将U6驱动的gRNA表达盒插入到慢病毒载体骨架pAWp9(Addgene#73851)而不是pAWp12中。

SpCas9的条形码化的DNA部件的创建

通过在我们开始这项研究时可获得的现有知识为指导，发明人集中于建立在氨基酸残基处的组合突变体的文库，预计这些氨基酸残基在gRNA导向的基因组位点(包括分别在SpCas9-HF1⁴和eSpCas9(1.1)³中鉴定的那些)处与靶和非靶DNA链接触，或控制SpCas9的HNH和RuvC核酸酶结构域的构象动力学用于DNA切割²⁸。选择8个氨基酸残基并进行修饰以包含指定的或随机产生的取代突变(图1a)。将碱性残基突变为丙氨酸，以评估那些荷电残基的作用。除先前引入到eSpCas9(1.1)中的K1003处的丙氨酸取代之外，还将该残基突变为其他荷正电的残基(即精氨酸和组氨酸)，以最小化其对蛋白稳定性的影响。据推测，SpCas9上这些突变的特定组合可最大化其靶上编辑效率并增强与gRNA的相容性，同时最小化不合期望的脱靶活性。

将SpCas9序列模块化为4种部件(即P1、P2、P3和P4)以建立组合突变体，并为P1创建4种插入片段，为P2创建2种插入片段，为P3创建17种插入片段和为P4创建7种插入片段。使用Phusion(New England Biolabs)或Kapa HiFi(KapaBiosystems)DNA聚合酶通过PCR从pAWp30(Addgene#73857)或eSpCas9(1.1)(Addgene#71814)扩增和突变每种插入片段。为了在SpCas9的923、924和926位氨基酸处产生定点突变，在PCR引物中将3个初始密码子序列替换为简并密码子NNS。在克隆到储存载体(pAWp61或pAWp62)中之后，添加每种DNA插入片段特有的8个碱基对的条形码。在末端的侧翼添加限制酶位点BsaI(并在插入片段分别与pAWp61和pAWp62的条形码之间引入BbsI位点和引物结合位点以用于条形码测序)。因此，本文中的每个pAWp61和pAWp62储存载体分别配置为“BsaI-插入片段-BbsI-BbsI-条形码-BsaI”和“BsaI-插入片段-引物-结合位点-条形码-BsaI”。进行Sanger测序以证实单个插入片段及其条形码的序列身份。在其中经工程改造的目标序列含有BsaI或BbsI位点的情况下，可使用其他IIS型限制酶位点代替BsaI和BbsI，或者可将同义突变引入蛋白编码序列中以去除限制位点同时编码相同的氨基酸残基。

SpCas9的条形码化的组合突变文库的创建

将包含用于SpCas9的各部件的插入片段的存储载体以等摩尔比混合。通过混合存储载体与BsaI的单锅消化反应产生合并的插入片段。用BbsI消化目标载体(pAWp60)。连接消化的P1插入片段和载体，以在目标载体中创建合并的P1文库。用BbsI再次消化P1文库，并与消化的P2插入片段连接，以用两向组合(P1×P2)组装文库。进行依序数轮的连接反应以产生三向(P1×P2×P3)和四向(P1×P2×P3×P4)组合文库。在合并组装步骤之后，将插入片段的蛋白编码部件无缝地连接和定位到载体构建体的一端，并将其相应的条形码连接于另一端。建立952种SpCas9变体的四向(4×2×17×7)组合文库，每种变体在以下氨基酸残基处携带1-8个突变(除WT之外)，所述氨基酸残基经预计与gRNA导向的基因组位点的靶和非靶DNA链相互作用^3，4，或者改变SpCas9的核酸酶结构域的构象动力学²⁸(图1a)。可通过引入另外的条形码化的部件来扩大组合的复杂性，并按比例放大以同时研究成千上万或者甚至更多的组合修饰。进行Sanger测序分析，并验证大多数组装的条形码化的组合突变构建体在两向(即20/20个菌落)、三向(即14/15个菌落)和四向(即8/8个菌落)文库中携带预期的突变。除一个携带意外碱基取代的三向组合突变构建体之外，在其他构建体中没有检测到其他随机突变。将最终文库亚克隆到pFUGW慢病毒载体中，以在EFS启动子下与选择标记Zeocin一起表达SpCas9变体。在慢病毒载体中组装的条形码化的SpCas9变体的全长序列的Sanger测序(从文库中采样的7个菌落中的7个)证实仅存在预期的突变而没有随机突变。

用于个体验证的SpCas9变体的产生

除用单个插入片段和载体逐个地进行组装之外，用与用于产生上述组合突变体文库策略相同的策略构建编码个体SpCas9变体(包括Opti-SpCas9)的慢病毒载体。

人类细胞培养

HEK293T细胞获自美国典型培养物保藏中心(American Type CultureCollection)(ATCC)。OVCAR8-ADR细胞为来自T.Ochiya(日本国家癌症中心研究所(Japanese National Cancer Center Research Institute)，Japan)的赠品⁴²。

OVCAR8-ADR细胞的身份已通过细胞系验证测试(Genetica DNA Laboratories)得以证实。单克隆稳定的OVCAR8-ADR细胞系通过用慢病毒转导细胞产生，所述慢病毒编码分别从UBC和CMV启动子表达的RFP和GFP基因，以及靶向RFP位点的gRNA的串联U6启动子驱动的表达盒。RFPsg5-ON、RFPsg8-ON和RFP-sg6-ON系在RFP上包含与gRNA间隔子完全匹配的靶位点，而RFPsg5-OFF5-2、RFPsg8-OFF5和RFPsg5-OFF5系在RFP上包含携带同义突变并与gRNA间隔子错配的靶位点(表6)。将HEK293T细胞在补充有10％热灭活FBS和1x抗生素-抗真菌剂(Life Technologies)的DMEM中于37℃和5％CO₂下进行培养。OVCAR8-ADR细胞在补充有10％热灭活FBS和1x抗生素-抗真菌剂(Life Technologies)的RPMI中于37℃和5％CO₂下进行培养。

慢病毒的产生和转导

慢病毒在6孔板中产生，每孔有2.5×10⁵个HEK293T细胞。细胞使用FuGENE HD转染试剂(Promega)，用混合于100μl OptiMEM培养基(Life Technologies)中的0.5μg慢病毒载体、1μg pCMV-dR8.2-dvpr载体和0.5μg pCMV-VSV-G载体转染15分钟。转染之后1天，培养基替换为新鲜培养基。然后在转染之后48-96小时之间每24小时收集病毒上清液，合并在一起并通过0.45μm聚醚砜膜过滤。为了用单个载体构建体进行转导，在存在8μg/ml聚凝胺(Sigma)的情况下，使用500μl过滤的病毒上清液感染2.5×10⁵个细胞过夜。为了将合并的文库转导到人类细胞(即OVCAR8-ADR)中，使用相同的实验条件按比例放大慢病毒的产生。为了确保高覆盖率的文库对大多数组合均具有足够的表现，用含有为要测试的文库大小的～300倍的细胞的起始细胞群体进行感染。将慢病毒滴定至感染复数为～0.3，得到在存在8μg/ml聚凝胺的情况下感染效率为～30％，使得SpCas9变体文库以低拷贝数递送。

细胞分选

在BD Influx细胞分选仪(BD Biosciences)上进行细胞分选。使用BD Accudrop珠测定液滴延迟。通过70μm尼龙网过滤器过滤细胞，之后使用1.0 Drop Pure分选模式通过100μm喷嘴进行分选。对细胞进行门控以获得GFP阳性信号，并基于RFP的荧光水平将其分选到3个箱(即A、B和C)中，使得将群体中约5％的细胞收集到包含RFP水平较低的细胞的每个箱中。可调整要分选到每个箱中的群体中细胞的百分比，以平衡已分选群体中单个组合的表现与检测箱之间变体富集的灵敏度之间的权衡。在每个样品中对每个分选箱收集约20-30万个细胞。

用于条形码测序的样品制备

对于组合突变体载体文库，使用Plasmid Mini试剂盒(Qiagen)从用载体文库转化的大肠杆菌中提取质粒DNA。对于用组合突变体文库感染的人类细胞池，使用DNeasyBlood&Tissue Kit(Qiagen)提取从各种实验条件收集的细胞的基因组DNA。通过Quant-iTPicoGreen dsDNA Assay Kit(Life Technologies)测量DNA浓度。使用Kapa HiFiHotstart Ready-mix(Kapa Biosystems)对393个碱基对的片段进行PCR扩增，每个片段含有代表单个组合突变体的独特条形码、Illumina锚定序列和用于多重测序的8个碱基对的索引条形码。使用的正向和反向引物为5′-AATGATACGGCGACCACCGAGATCTACACGGAACCGCAACGGTATTC-3′和5′-CAAGCAGAAGACGGCATACGAGATNNNNNNNNGGTTGCGTCAGCAAACACAG-3′，其中NNNNNNNN表示分配给每个实验样品的特定索引条形码。为了避免PCR偏倚(可能会使群体分布偏斜)，对PCR条件进行了优化，以确保扩增发生在指数期期间。在使用Kapa SYBR FastqPCR Master Mix(Kapa Biosystems)以StepOnePlus Real Time PCR系统(AppliedBiosystems)进行实时PCR量化之前，使用比率为1∶0.5和1∶0.95的Agencourt AMPure XP珠(Beckman Coulter Genomics)以两轮大小选择纯化PCR扩增子。用于定量PCR的正向和反向引物分别为5′-AATGATACGGCGACCACCGA-3′和5′-CAAGCAGAAGACGGCATACGA-3′。然后将量化的样品以期望的比率合并以进行多重分析，在Agilent 2100Bioanalyzer上使用高灵敏度DNA芯片(Agilent)进行评估，并使用引物(5′-CCACCGAGATCTACACGGAACCGCAACGGTATTC-3′)和索引条形码引物(5′-GTGGCGTGGTGTGCACTGTGTTTGCTGACGCAACC-3′)运行IlluminaHiSeq。

条形码测序数据分析

从测序数据处理每个组合突变体的条形码读数。对于通过索引条形码分类的每个样品，将代表每个组合的条形码读数按百万个读数进行归一化。以两个生物学重复进行分析。测量分选的箱A和未分选的群体之间每个组合突变体的频率，并计算其相对于其余群体的富集比(E)。选择箱A是因为在该箱中变体的富集最明显(图2b)。使用的公式如下：

其中N_箱代表分选的箱中组合突变体的频率，和N_未分选的代表未分选的箱中组合突变体的频率。

将分选的箱A与未分选的群体进行比较的由重复确定的对数变换的平均得分(即log₂(E))用作靶标编辑活性的量度。仅分析在未分选的群体中给出多于300个绝对读数的条形码，以提高数据可靠性。通过增加合并筛选中每种组合的细胞表现倍数以减少实验噪音⁴³，可提高从合并筛选中确定的log₂(E)得分与个体验证数据之间的相关性(图9)。活性优化的变体(即在本研究中鉴定的Opti-SpCas9)定义为具有以下log₂(E)(对于箱A相对于未分选的群体)的那些变体：对于RFPsg5-ON和RFPsg8-ON两者log₂(E)至少＞WT的90％，和对于RFPsg5-OFF5-2和RFPsg8-OFF5两者log₂(E)＜WT的60％。基于RFPsg5-ON和RFPsg8-ON两者的富集比至少＞WT的50％以及RFPsg5-OFF5-2和RFPsg8-OFF5两者的富集比＜WT的90％，将OptiHF-SpCas9鉴定为高保真变体。完整列表如表2所示。

为了确定上位性，我们应用与先前针对蛋白适合性(protein fitness)描述的^44，45类似的评分系统，并为图4中的每种组合计算上位性(ε)得分。ε得分确定为：观察适合性-预期适合性，其中根据加性模型，组合[X，Y]的预期适合性为(log₂(E_[X])+log₂(E_[Y]))。一般而言，将表现出比预期更好的适合性的组合定义为正上位性，而将比预期的适合性差的组合定义为负上位性。在该项工作中，将致死或几乎致死的组合突变体的log₂(E)值设置为等于具有8个突变(即R661A+Q695A+K848A+E923M+T924V+Q926A+K1003A+R1060A)的SpCas9变体以进行比较，并且我们的个体验证数据证实其在破坏靶RFP序列中活性最小(图3b)。预期适合性的上限为致死或几乎致死的组合突变体的log₂(E)值，以最小化由无意义的预测适合性引起的虚假上位性值。在将来的工作中，在合并筛选中包括SpCas9的核酸酶-死亡突变体作为致死突变体用于比较可能是有益的。

荧光蛋白破坏测定

进行荧光蛋白破坏测定以评估由SpCas9和gRNA表达引起的荧光蛋白(即GFP或RFP)靶位点处的DNA切割和插入缺失介导的破坏，这导致失去细胞荧光。包含整合的GFP或RFP报告基因以及SpCas9和gRNA的细胞用补充有2％热灭活FBS的1x PBS洗涤并重悬，且用LSR Fortessa分析仪(Becton Dickinson)进行测定。基于正向和侧向散射对细胞进行门控。每个数据集中每个样品记录至少1x10⁴个细胞。

免疫印迹分析

在补充有蛋白酶抑制剂(Gold Biotechnology#GB-108-2)的2 x RIPA缓冲液中溶解细胞。通过在冰上刮擦培养板收集溶解产物，并然后在4℃下以15000rpm离心15分钟。使用Bradford测定(BioRad)量化上清液。将蛋白在99℃下变性5分钟，之后在10％聚丙烯酰胺凝胶(Bio-Rad)上进行凝胶电泳。将蛋白在110V和4℃下转移至聚偏二氟乙烯膜上持续2小时。使用的一抗为：抗Cas9(7A9-3A3)(1∶2,000，Cell Signaling#14697)和抗β肌动蛋白(1∶10,000，Sigma#A2228)。使用的二抗为HRP连接的抗小鼠IgG(1∶20,000，Cell Signaling#7076)。膜由WesternBright ECL HRP底物(Advansta#K-12045-D20)显影。

T7核酸内切酶I测定

进行T7核酸内切酶I测定以评估由gRNA靶向的基因组基因座处的DNA错配切割。使用QuickExtract DNA提取溶液(Epicentre)或DNeasy Blood&Tissue Kit(Qiagen)从细胞培养物中提取基因组DNA。使用表7中列出的引物和PCR条件通过PCR产生包含所靶向的基因座的扩增子，然后使用Agencourt AMPure XP珠(Beckman Coulter Genomics)纯化。将约400ng的PCR扩增子变性，白退火，并与4个单位的T7核酸内切酶I(New England Biolabs)一起在37℃下温育～40分钟。使用2％琼脂糖凝胶电泳分离反应产物。量化基于使用ImageJ测量的相对条带强度。如先前所述⁴⁶，通过公式100×(1-(1-(b+c)/(a+b+c))^1/2)估算插入缺失百分比，其中a为未切割的PCR产物的累积强度，和b和c为每种切割产物的累积强度。

全基因组脱靶的GUIDE-Seq检测

使用GUIDE-Seq方法⁴⁷获取全基因组脱靶。对于每个GUIDE-Seq样品，根据制造商的方案，使用100μl Neon吸头(ThermoFisher Scientific)用1000pmol新鲜退火的GUIDE-seq末端保护的dsODN将150万用SpCas9变体和gRNA感染的OVCAR8-ADR细胞进行电穿孔。使用的dsODN寡核苷酸序列为：5′-P-G*T*TTAATTGAGTTGTCATATGTTAATAACGGT*A*T-3′和5′-P-A*T*ACCGTTATTAACATATGACAACTCAATTAA*A*C-3′，其中P表示5′磷酸化和*表示硫代磷酸酯键。电穿孔之后72小时，使用DNeasy Blood and Tissue试剂盒(Qiagen)提取基因组DNA。通过Qubit荧光计dsDNA HS测定(ThermoFisher Scientific)对基因组DNA浓度进行量化，并按照GUIDE-Seq方案在少量修改的情况下，将400ng用于文库构建。简而言之，通过KAPA FragKit(KAPA Biosystems)将DNA酶促片段化，然后进行衔接子连接和dsODN整合序列的两轮半嵌套式PCR富集。为了统一Illumina测序工作流程以在各种Illumina平台上使用单索引测序工作流程来获得双索引数据，对半官能衔接子进行了重新设计，将样品索引(Index 2)置于Read 1的开头，跟随唯一分子索引(表8)。通过用于Illumina的KAPA LibraryQuantification Kits对最终测序文库进行量化，并在Illumina NextSeq 500 System上进行测序。通过bcl2fq v2.19进行Index 1的数据多路分解，然后是Index 2多路分解和格式化的自定义脚本以使用GUIDE-Seq软件进行分析⁴⁸。

在本申请中引用的所有专利、专利申请和其他公开(包括GenBank登录号或等效序列识别号)均通过参考以其全部内容结合用于所有目的。

表2

该文件含有基于合并表征对SpCas9变体确定的富集得分。

表5

该文件含有本研究中使用的gRNA前间隔序列的列表

(*)小写字母表示不匹配的另外的5′鸟嘌呤。大写字母表示匹配的另外的5′鸟嘌呤。“-”表示没有另外的5′鸟嘌呤。

表6

该文件含有本研究中使用的报告细胞系的列表

表7

该文件含有用于T7E1测定的引物和PCR条件的列表

表8

该文件含有GUIDE-Seq的衔接子和引物序列

序列表

SEQ ID NO：1野生型SpCas9蛋白的氨基酸序列(WP_115355356.1II型CRISPR RNA引导的核酸内切酶Cas9[化脓性链球菌]R661和K1003带下划线的)

SEQ ID NO：2编码野生型SpCas9蛋白的多核苷酸序列(GenBank登录号KM099237.1)

SEQ ID NO：3 Opti-SpCas9蛋白的氨基酸序列(基本序列SEQ ID NO：1，残基1003用组氨酸取代和残基661用丙氨酸取代)

SEQ ID NO：4氨基酸序列＞WP_002279859.1 II型CRISPR RNA引导的核酸内切酶Cas9[变形链球菌]

SEQ ID NO：5氨基酸序列＞WP_111681791.1 II型CRISPR RNA引导的核酸内切酶Cas9[停乳链球菌]

SEQ ID NO：6氨基酸序列＞WP_037581760.1 II型CRISPR RNA引导的核酸内切酶Cas9[马链球菌]

SEQ ID NO：7氨基酸序列＞WP_061588516.1 II型CRISPR RNA引导的核酸内切酶Cas9[口腔链球菌]

SEQ ID NO：8氨基酸序列＞WP_042900171.1 II型CRISPR RNA引导的核酸内切酶Cas9[轻型链球菌]

SEQ ID NO：9氨基酸序列＞WP_003739838.1 II型CRISPR RNA引导的核酸内切酶Cas9[单核细胞增生李斯特菌]

SEQ ID NO：10氨基酸序列＞WP_071131842.1 II型CRISPR RNA引导的核酸内切酶Cas9[Enterococcus timonensis]

SEQ ID NO：11氨基酸序列＞WP_082309079.1 II型CRISPR RNA引导的核酸内切酶Cas9[嗜热链球菌]

SEQ ID NO：12氨基酸序列＞WP_049523028.1 II型CRISPR RNA引导的核酸内切酶Cas9[副溶血链球菌]

SEQ ID NO：13 OptiHF-SpCas9蛋白的氨基酸序列(基本序列SEQ ID NO：1，残基695、848和926用丙氨酸取代，残基923用甲硫氨酸取代，和残基924用缬氨酸取代)

参考文献

1 Bornscheuer，U.T.等人Engineering the third wave ofbiocatalysis.Nature 485，185-194，doi10.1038/naturel1117(2012).

2 Weinreich，D.M.，Delaney，N.F.，Depristo，M.A.&Hartl，D.L.Darwinianevolution can follow only very few mutational paths to fitterproteins.Science 312，111-114，doi：10.1126/science.1123539(2006).

3 Slaymaker，I.M.等人Rationally engineered Cas9 nucleases withimproved specificity.Science351，84-88，doi：10.1126/science.aad5227(2016).

4 Kleinstiver，B.P.等人High-fidelity CRISPR-Cas9 nucleases with nodetectable genome-wide off-target effects.Nature 529，490-495，doi：10.1038/nature16526(2016).

5 Chen，J.S.等人Enhanced proofreading governs CRISPR-Cas9 targetingaccuracy.Nature 550，407-410，doi：10.1038/nature24268(2017).

6 Casini，A.等人A highly specific SpCas9 variant is identified by invivo screening in yeast.Nat Biotechnol，doi：10.1038/nbt.4066(2018).

7 Hu，J.H.等人Evolved Cas9 variants with broad PAM compatibility andhigh DNA specificity.Nature，doi：10.1038/nature26155(2018).

8 Packer，M.S.&Liu，D.R.Methods for the directed evolution ofproteins.Nat Rev Genet 16，379-394，doi：10.1038/nrg3927(2015).

9 Romero，P.A.&Arnold，F.H.Exploring protein fitness landscapes byditected evolution.Nat Rev Mol Cell Biol 10，866-876，doi：10.1038/nrm2805(2009).

10 Gasperini，M.，Starita，L.&Shendure，J.The power of multiplexedfunctional analysis of genetic variants.Nat Protoc 11，1782-1787，doi：10.1038/nprot.2016.135(2016).

11 Fowler，D.M.&Fields，S.Deep mutational scanning：a new style ofprotein science.Nat Methods 11，801-807，doi：10.1038/nmeth.3027(2014).

12 Ma，S.，Saaem，I.&Tian，J.Error correction in gene synthesistechnology.Trends Biotechnol 30，147-154，doi：10.1016/j.tibtech.2011.10.002(2012).

13 Kosuri，S.&Church，G.M.Large-scale de novo DNA synthesis：technologies and applications.Nat Methods 11，499-507，doi：10.1038/nmeth.2918(2014).

14 Engler，C.，Kandzia，R.&Marillonnet，S.A one pot，one step，precisioncloning method with high throughput capability.PLoS One 3，e3647，doi：10.1371/journal.pone.0003647(2008).

15 Gibson，D.G.等人Enzymatic assembly of DNA molecules up to severalhundred kilobases.Nat Methods 6，343-345，doi：10.1038/nmeth.1318(2009).

16 Trudeau，D.L.，Smith，M.A.&Arnold，F.H.Innovation by homologousrecombination.Curr Opin Chem Biol 17，902-909，doi：10.1016/j.cbpa.2013.10.007(2013).

17 Wong，A.S.，Choi，G.C.，Cheng，A.A.，Purcell，O.&Lu，T.K.Massivelyparallel high-order combinatorial genetics in human cells.Nat Biotechnol 33，952-961，doi10.1038/nbt.3326(2015).

18 Wong，A.S.等人Multiplexed barcoded CRISPR-Cas9 screening enabled byCombiGEM.Proc Natl Acad Sci USA 113，2544-2549，doi：10.1073/pnas.1517883113(2016).

19 Cheng，A.A.，Ding，H.&Lu，T.K.Enhanced killing of antibiotic-resistantbacteria enabled by massively parallel combinatorial genetics.Proc Natl AcadSci USA 111，12462-12467，doi：10.1073/pnas.1400093111(2014).

20 Doudna，J.A.&Charpentier，E.Genome editing.The new frontier ofgenome engineering with CRISPR-Cas9.Science 346，1258096，doi：10.1126/science.1258096(2014).

21 Hsu，P.D.，Lander，E.S.&Zhang，F.Development and applications ofCRISPR-Cas9 for genome engineering.Cell 157，1262-1278，doi：10.1016/j.cell.2014.05.010(2014).

22 Mali，P.，Esvelt，K.M.&Church，G.M.Cas9 as a versatile tool forengineering biology.Nat Methods 10，957-963，doi：10.1038/nmeth.2649(2013).

23 Barrangou，R.&Horvath，P.A decade of discovery：CRISPR functions andapplications.Nat Microbiol2，17092，doi：10.1038/nmicrobiol.2017.92(2017).

24 Kim，S.，Bae，T.，Hwang，J.&Kim，J.S.Rescue of high-specificity Cas9variants using sgRNAs with matched 5′nucleotides.Genome Biol 18，218，doi：10.1186/s13059-017-1355-3(2017).

25 Kulcsar，P.I.等人Crossing enhanced and high fidelity SpCas9nucleases to optimize specificity and cleavage.Genome Biol 18，190，doi：10.1186/s13059-017-1318-8(2017).

26 Zhang，D.等人Perfectly matched 20-nucleotide guide RNA sequencesenable robust genome editing using high-fidelity SpCas9 nucleases.Genome Biol18，191，doi：10.1186/s13059-017-1325-9(2017).

27 Kato-Inui，T.，Takahashi，G.，Hsu，S.&Miyaoka，Y.Clustered regularlyinterspaced short palindromic repeats(CRISPR)/CRISPR-associated protein 9with improved proof-reading enhances homology-directed repair.Nucleic AcidsRes 46，4677-4688，doi：10.1093/nar/gky264(2018).

28 Sternberg，S.H.，LaFrance，B.，Kaplan，M.&Doudna，J.A.Conformationalcontrol of DNA target cleavage by CRISPR-Cas9.Nature 527，110-113，doi：10.1038/nature15544(2015).

29 Singh，D.等人Mechanisms of improved specificity of engineered Cas9srevealed by single-molecule FRET analysis.Nat Struct Mol Biol 25，347-354，doi：10.1038/s41594-018-0051-7(2018).

30 Kato-Inui，T.，Takahashi，G.，Hsu，S.&Miyaoka，Y.Clustered regularlyinterspaced short palindromic repeats(CRISPR)/CRISPR-associated protein 9with improved proof-reading enhances homology-directed repair.Nucleic AcidsRes，doi：10.1093/nar/gky264(2018).

31 Fu，Y.等人High-frequency off-target mutagenesis induced by CRISPR-Cas nucleases in human cells.Nat Biotechnol 31，822-826，doi：10.1038/nbt.2623(2013).

32 Lee，J.K.等人Directed evolution of CRISPR-Cas9 to increase itsspecificity.Nat Commun 9，3048，doi：10.1018/s41467-018-05477-x(2018).

33 Haeussler，M.等人Evaluation of off-target and on-target scoringalgorithms and integration into the guide RNA selection tool CRISPOR.GenomeBiol 17，148，doi：10.1186/s13059-016-1012-2(2016).

34 Fu，Y.，Sander，J.D.，Reyon，D.，Cascio，V.M.&Joung，J.K.Improving CRISPR-Cas nuclease specificity using truncated guide RNAs.Nat Biotechnol32，279-284，doi：10.1038/nbt.2808(2014).

35 Vakulskas，C.A.等人A high-fidelity Cas9 mutant delivered as aribonucleoprotein complex enables efficient gene editing in humanhematopoietic stem and progenitor cells.Nat Med 24，1216-1224，doi：10.1038/s41591-018-0137-0(2018).

36 Ran，F.A.等人In vivo genome editing using Staphylococcus aureusCas9.Nature 520，186-191，doi：10.1038/nature14299(2015).

37 Zetsche，B.等人Cpf1 is a single RNA-guided endonuclease of a class2 CRISPR-Cas system.Cell 163，759-771，doi：10.1016/j.cell.2015.09.038(2015).

38 Komor，A.C.，Kim，Y.B.，Packer，M.S.，Zuris，J.A.&Liu，D.R.Programmableediting of a target base in genomic DNA without double-stranded DNAcleavage.Nature 533，420-424，doi：10.1038/nature17946(2016).

39 Nishida，K.等人Targeted nucleotide editing using hybrid pFokaryoticand vertebrate adaptive immune systems.Science 353，doi：10.1126/science.aaf8729(2016).

40 Gaudelli，N.M.等人Programmable base editing of A*T to G*C ingenomic DNAwithout DNA cleavage.Nature 551，464-471，doi：10.1038/nature24644(2017).

41 Li，X.等人Base editing with a Cpfl-cytidine deaminase fusion.NatBiotechnol 36，324-327，doi：10.1038/nbt.4102(2018).

42 Honma，K.等人RPN2 gene confers docetaxel resistance in breastcancer.Nat Med 14，939-948，doi：10.1038/nm.1858(2008).

43 Kampmann，M.，Bassik，M.C.&Weissman，J.S.Functional genomics platformfor pooled screening and generation of mammalian genetic interaction maps.NatProtoc 9，1825-1847，doi：10.1038/nprot.2014.103(2014).

44 Olson，C.A.，Wu，N.C.&Sun，R.A comprehensive biophysical descriptionof pairwise epistasis throughout an entire protein domain.CurrBiol24，2643-2651，doi：10.1016/j.cub.2014.09.072(2014).

45 Aakre，C.D.等人Evolving new protein-protein interaction specificitythrough promiscuous intermediates.Cell 163，594-606，doi：10.1016/j.cell.2015.09.055(2015).

46 Guschin，D.Y.等人A rapid and general assay for monitoringendogenous gene modification.Methods Mol Biol 649，247-256，doi：10.1007/978-1-60761-753-2_15(2010).

47 Tsai，S.Q.等人GUIDE-seq enables genome-wide profiling of off-targetcleavage by CRISPR-Cas nucleases.Nat Biotechnol 33，187-197，doi：10.1038/nbt.3117(2015).

48 Tsai，S.Q.，Topkar，V.V.，Joung，J.K.&Aryee，M.J.Open-source guideseqsoftware for analysis of GUIDE-seq data.Nat Biotechnol 34，483，doi：10.1038/nbt.3534(2016)。

Claims

1.一种DNA构建体，其从5’至3’包含：

第一IIS型限制酶的第一识别位点，

DNA元件，

第二IIS型限制酶的第一和第二识别位点，

唯一分配给所述DNA元件的条形码；和

第一IIS型限制酶的第二识别位点。

2.权利要求1的DNA构建体，其为DNA载体。

3.一种文库，其包含两种或更多种权利要求1的DNA构建体。

4.一种DNA构建体，其从5’至3’包含：

第一IIS型限制酶的识别位点，

多个DNA元件，

引物结合位点，和

各自唯一分配给所述多个DNA元件之一的多个条形码，以及第二IIS型限制酶的识别位点，

其中所述多个DNA元件彼此连接以形成蛋白的编码序列而在所述多个DNA元件中的任何两个之间的任何连接点处没有任何外来序列，并且其中所述多个条形码以其分配的DNA元件的相反顺序放置。

5.权利要求4的DNA构建体，其为DNA载体。

6.权利要求1、2、4和5中任何一项的DNA构建体，其中第一IIS型限制酶和第二IIS型限制酶在切割DNA分子后产生相容性末端。

7.权利要求1、2、4和5中任何一项的DNA构建体，其中第一IIS型限制酶为BsaI和第二IIS型限制酶为BbsI。

8.一种用于产生组合基因构建体的方法，其包括：

(a) 用第一IIS型限制酶切割权利要求2的第一DNA载体，以释放第一DNA片段，所述第一DNA片段包含第一DNA链段、第二IIS型限制酶的第一和第二识别位点以及侧翼为由第一IIS型限制酶产生的第一和第二末端的第一条形码；

(b) 用第二IIS型限制酶切割包含启动子的初始表达载体，以线性化所述启动子3’末端附近的初始表达载体并产生与(a)的DNA片段的第一和第二末端相容的两个末端；

(c) 将(a)的第一DNA片段退火并连接到(b)的线性化表达载体中以形成单向复合表达载体，其中第一DNA片段和第一条形码可操作地连接于所述启动子的3’末端；

(d) 用第一IIS型限制酶切割权利要求2的第二DNA载体，以释放第二DNA片段，所述第二DNA片段包含第二DNA链段、第二IIS型限制酶的第一和第二识别位点以及侧翼为由第一IIS型限制酶产生的第一和第二末端的第二条形码；

(e) 用第二IIS型限制酶切割(c)的复合表达载体以线性化第一DNA元件和第一条形码之间的所述复合表达载体并产生与(d)的DNA片段的第一和第二末端相容的两个末端；

(f) 将(d)的第二DNA片段退火并连接到在第一DNA元件和第一条形码之间的(e)的线性化复合表达载体中以形成双向复合表达载体，其中第一DNA片段、第二DNA片段、第二条形码和第一条形码以该顺序可操作地连接于所述启动子的3’末端，

其中第一和第二DNA元件编码彼此紧邻的自其N-末端开始的预选蛋白的第一和第二链段，和其中第一和第二DNA片段在所述双向复合表达载体中彼此连接而没有导致在预选蛋白中没有发现的任何氨基酸残基的任何外来核苷酸序列，并且其中第一和第二DNA元件中的每一个包含一个或多个突变。

9.权利要求6 的方法，其中重复步骤(d)-(f)直至第n次，以将包含第n个DNA元件、第二IIS型限制酶的第一和第二识别位点和第n个条形码的第n个DNA片段掺入到n向复合表达载体中，第n个DNA元件编码从其C-末端开始的预选蛋白的第n个或倒数第二个链段，其进一步包括以下步骤：

(x) 提供最终DNA载体，其在第一IIS型限制酶的第一和第二识别位点之间包含第(n +1)个DNA元件、引物结合位点和第(n + 1)个条形码；

(y) 用第一IIS型限制酶切割所述最终DNA载体以释放最终DNA片段，所述最终DNA片段从5’至3’包含：第(n + 1)个DNA元件、引物结合位点和侧翼为由第一IIS型限制酶产生的第一和第二末端的第(n + 1)个条形码；

(z) 将最终DNA片段退火并连接到在步骤(d)-(f)重复第n次后产生并已被第二IIS型限制酶线性化的n向复合表达载体中，以形成最终复合表达载体，

其中第一、第二、依此类推直到第n个和第(n + 1)个DNA元件编码彼此紧邻的自其N-末端开始的预选蛋白的第一、第二、依此类推直到第n个和最后一个链段，和其中第一、第二、依此类推直到第n个和最后一个DNA片段在所述最终复合表达载体中彼此连接而没有导致在预选蛋白中没有发现的任何氨基酸残基的任何外来核苷酸序列，并且其中每个DNA元件包含一个或多个突变。

10.权利要求8或9方法，其中第一IIS型限制酶和第二IIS型限制酶在切割DNA分子后产生相容性末端。

11.权利要求8或9方法，其中第一IIS型限制酶为BsaI和第二IIS型限制酶为BbsI。

12.一种文库，其包含两种或更多种通过权利要求9的方法产生的所述最终复合表达载体。

13.一种多肽，其包含SEQ ID NO: 1和4-13中任何一个所示的氨基酸序列，其中对应于SEQ ID NO: 1的残基1003的残基被取代和对应于SEQ ID NO: 1的残基661的残基被取代。

14.权利要求13 的多肽，其中对应于SEQ ID NO: 1的残基1003的残基用组氨酸取代和对应于SEQ ID NO: 1的残基661的残基用丙氨酸取代。

15.权利要求14 的多肽，其包含SEQ ID NO: 1中所示的氨基酸序列，其中残基1003用组氨酸取代和残基661用丙氨酸取代，其任选地进一步包含在残基926处用丙氨酸进行的取代。

16.权利要求13的多肽，其中对应于SEQ ID NO: 1的残基695、848和926的残基用丙氨酸取代，对应于SEQ ID NO: 1的残基923的残基用甲硫氨酸取代和对应于SEQ ID NO: 1的残基924的残基用缬氨酸取代。

17.权利要求16的多肽，其包含SEQ ID NO: 1中所示的氨基酸序列，其中对应于SEQ IDNO: 1的残基695、848和926的残基用丙氨酸取代，对应于SEQ ID NO: 1的残基923的残基用甲硫氨酸取代和对应于SEQ ID NO: 1的残基924的残基用缬氨酸取代。

18.一种组合物，其包含权利要求13的多肽和生理学上可接受的赋形剂。

19.一种包含编码权利要求13-17中任何一项的多肽的多核苷酸序列的核酸。

20.一种包含权利要求17的核酸和生理学上可接受的赋形剂的组合物。

21.一种包含可操作地连接于编码权利要求13-17中任何一项的多肽的多核苷酸序列的启动子的表达盒。

22.一种包含权利要求21的表达盒的载体。

23.权利要求22 的载体，其为病毒载体。

24.一种包含权利要求19的表达盒或权利要求13-17中任何一项的多肽的宿主细胞。

25.一种用于在靶位点切割DNA分子的方法，其包括使包含所述靶DNA位点的所述DNA分子与权利要求13-17中任何一项的多肽以及特异性地结合所述靶DNA位点的短引导RNA(sgRNA)接触，从而使所述DNA分子在所述靶DNA位点处被切割。

26.权利要求25的方法，其中所述DNA分子为活细胞内的基因组DNA，并且其中所述细胞已用编码所述sgRNA和所述多肽的多核苷酸序列进行转染。

27.权利要求26的方法，其中所述细胞已用编码所述sgRNA的第一载体和编码所述多肽的第二载体进行转染。

28.权利要求26的方法，其中所述细胞已用编码所述sgRNA和所述多肽两者的载体进行转染。

29.权利要求27的方法，其中第一和第二载体中的每一个为病毒载体。

30.权利要求28的方法，其中所述载体为病毒载体。

31.权利要求29或30的方法，其中所述病毒载体为逆转录病毒载体。

32.权利要求31的方法，其中所述逆转录病毒载体为慢病毒载体。