CN111465689A

CN111465689A - Cas9变体和使用方法

Info

Publication number: CN111465689A
Application number: CN201880080411.2A
Authority: CN
Inventors: R·L·弗里希; H·贺
Original assignee: Diyadik Holland Co ltd
Current assignee: Diyadik Holland Co ltd; Danisco US Inc
Priority date: 2017-12-15
Filing date: 2018-12-11
Publication date: 2020-07-28
Also published as: AU2018386002A1; MX2020005726A; KR20200098578A; EP3707253A1; WO2019118463A1; JP2021506257A; JP2023011727A; CA3084191A1; BR112020011011A2; US20200308561A1; JP7384801B2; US20240018497A1; US11781125B2

Abstract

提供了针对变体Cas系统和包含这类系统的元件的组合物和方法，所述系统和元件包括但不限于Cas内切核酸酶变体、包含Cas内切核酸酶变体的指导多核苷酸/Cas内切核酸酶复合物、以及可与Cas内切核酸酶变体相互作用的指导多核苷酸和指导RNA元件。提供了用于对细胞的基因组中的靶序列进行基因组修饰的组合物和方法。所述方法和组合物采用包含Cas9内切核酸酶变体的指导多核苷酸/Cas内切核酸酶系统，以提供用于修饰或改变细胞或生物体的基因组内的靶序列的有效系统。

Description

CAS9变体和使用方法

本申请要求于2017年12月15日提交的美国临时申请号62/599,176的权益，该申请通过引用以其全文结合在此。

技术领域

本公开涉及分子生物学领域，具体涉及指导多核苷酸/Cas内切核酸酶系统的组合物以及用于修饰细胞基因组的组合物和其方法。

以电子方式提交的序列表的引用

所述序列表的官方副本经由EFS-Web作为ASCII格式的序列表以电子方式提交，文件名为20181129_NB41317PCT_ST25.txt，创建于2018年11月29日，且具有476千字节大小，并且与本说明书同时提交。包括在该ASCII格式的文件中的序列表是本说明书的一部分并且以其全文通过引用并入本文。

背景技术

重组DNA技术使得在靶标基因组位置处插入DNA序列和/或修饰特定内源染色体序列成为可能。已经使用了采用位点特异性重组系统的位点特异性整合技术以及其他类型的重组技术来在各种生物体中产生目的基因的靶向插入。鉴于Cas系统的位点特异性性质，已经描述了基于这些系统的基因组修饰/工程改造技术，包括在哺乳动物细胞中进行的那些(参见，例如Hsu等人，2014)。当如预期发挥功能时，基于Cas的基因组工程通过设计重组crRNA(或等效功能性指导多核苷酸)(其中crRNA的DNA靶向区域(即可变靶向结构域)与基因组内所希望的靶位点同源)并且通过将crRNA与Cas内切核酸酶(通过任何方便和常规手段)在宿主细胞中组合成功能性复合物来赋予靶向复杂基因组内几乎任何特定位置的能力。

尽管基于Cas的基因组工程技术已经应用于许多不同的宿主细胞类型，但这些技术都有已知的局限性。例如，转化某些宿主细胞(例如但不限于芽孢杆菌属物种)的效率仍然很低且成本很高。

因此，仍然需要开发更有效的、更有效率的或否则更稳健的或更灵活的基于Cas的基因组修饰方法及其组合物，这些方法及其组合物用于修饰/改变原核或真核细胞中的基因组靶位点。

发明内容

本发明提供了针对变体Cas系统和包含这类系统的元件的组合物和方法，所述系统和元件包括但不限于Cas内切核酸酶变体、指导多核苷酸、指导多核苷酸/Cas内切核酸酶复合物、指导RNA/Cas内切核酸酶系统，特别是包含位于其HNH和RuvC结构域之外的至少一个氨基酸修饰的Cas9内切核酸酶变体，并且任选地其中当与其不具有所述至少一个氨基酸修饰的亲本Cas9内切核酸酶相比，所述Cas9内切核酸酶变体具有至少一种改善的特性。

还提供了用于直接递送Cas9内切核酸酶变体、指导多核苷酸和包含至少一种Cas9内切核酸酶变体和至少一种指导RNA的指导多核苷酸/Cas内切核酸酶系统的组合物和方法，以及用于原核或真核细胞的基因组中靶序列的基因组修饰的组合物和方法，用于对生物体的基因组进行基因编辑以及用于将目的多核苷酸插入生物体的基因组或从生物体的基因组缺失目的多核苷酸的组合物和方法。

在本公开的一个实施例中，Cas9内切核酸酶变体是Cas9内切核酸酶变体或其活性片段，所述Cas9内切核酸酶变体或其活性片段与SEQ ID NO:2中所示的亲本Cas9多肽具有至少80％的氨基酸同一性，并且在选自由位置86、位置98、位置155及其组合组成的组的位置处具有至少一个氨基酸取代，其中所述变体的氨基酸位置通过与所述亲本Cas9多肽的氨基酸序列相对应来编号，其中所述Cas9内切核酸酶变体具有内切核酸酶活性。所述Cas9内切核酸酶变体可以具有选自由Y155H、Y155N、Y155E、Y155F(在位置155处)、F86A(在位置86处)和F98A(在位置98处)组成的组中的至少一个氨基酸取代。Cas9内切核酸酶变体当与其亲本Cas9内切核酸酶相比时可具有选自由以下组成的组中的至少一种改善的特性：改善的转化效率和改善的编辑效率。Cas9内切核酸酶变体或其活性片段与其亲本Cas9内切核酸酶相比时可具有至少1、2、3、4、5、6、7、8、9、10个氨基酸取代。

在本公开的一个实施例中，Cas9内切核酸酶变体是Cas9内切核酸酶变体或其活性片段，其中所述变体包含与SEQ ID NO:2的氨基酸序列具有75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％氨基酸序列同一性的氨基酸序列。

在本公开的一个实施例中，Cas9内切核酸酶变体是Cas9内切核酸酶变体，其中所述改善的特性是改善的转化效率，并且其中所述变体或其活性片段还具有改善的编辑效率。

在本公开的一个实施例中，组合物是包含本文公开的Cas9内切核酸酶变体或其功能片段的组合物。所述组合物可选自由以下组成的组：指导多核苷酸/Cas9内切核酸酶复合物、指导RNA/Cas9内切核酸酶复合物和包含所述Cas9内切核酸酶变体的融合蛋白。

在本公开的一个实施例中，多核苷酸是包含编码本文公开的任何一个Cas9内切核酸酶变体的核酸序列的多核苷酸。

在本公开的一个实施例中，指导多核苷酸/Cas内切核酸酶复合物(PGEN)是包含至少一种指导多核苷酸和至少一种本文所述的Cas9内切核酸酶变体的PGEN，其中所述指导多核苷酸是嵌合的非天然存在的指导多核苷酸，其中所述指导多核苷酸/Cas内切核酸酶复合物能够识别、结合靶序列的全部或部分和任选地使靶序列的全部或部分产生切口、解旋或切割靶序列的全部或部分。

在本发明的一个实施例中，所述方法包括用于修饰细胞的基因组中靶位点的方法，所述方法包括将至少一种包含至少一种指导多核苷酸和至少一种本文所述Cas9内切核酸酶变体的PGEN引入细胞，并鉴定在所述靶标处具有修饰的至少一个细胞，其中所述靶位点处的修饰选自下组，该组由以下组成：(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、和(iv)(i)-(iii)的任何组合。

在本发明的一个实施例中，所述方法包括用于编辑细胞的基因组中的核苷酸序列的方法，所述方法包括将包含至少一种指导多核苷酸和至少一种本文所述的Cas9内切核酸酶变体以及多核苷酸修饰模板的至少一种PGEN引入，其中所述多核苷酸修饰模板包含所述核苷酸序列的至少一个核苷酸修饰。

在本发明的一个实施例中，所述方法包括用于修饰细胞的基因组中靶位点的方法，所述方法包括将至少一种包含至少一种指导多核苷酸和至少一种本文所述的Cas9内切核酸酶变体的PGEN和至少一种供体DNA引入细胞，其中所述供体DNA包含目的多核苷酸。

在本发明的一个实施例中，所述方法包括用于改善Cas9内切核酸酶变体的至少一种特性的方法，所述方法包括在亲本Cas9内切核酸酶中引入至少一个氨基酸修饰，其中所述至少一个氨基酸修饰位于亲本Cas9内切核酸酶的RuvC和HNH结构域之外，从而创建所述Cas9内切核酸酶变体，其中所述Cas9内切核酸酶变体与所述亲本Cas9内切核酸酶相比时在至少一种特性方面显示出改善。所述至少一个氨基酸修饰可以是选自由位置86、位置98、位置155及其组合组成的组的位置处的氨基酸取代，其中所述变体的氨基酸位置通过与所述亲本Cas9内切核酸酶的氨基酸序列相对应来编号。所述至少一个氨基酸取代可以选自由Y155H、Y155N、Y155E、Y155F(在位置155处)、F86A(在位置86处)和F98A(在位置98处)组成的组。

还提供了表达盒、重组DNA、核酸构建体、具有经修饰的靶序列或具有通过本文所述方法产生的原核和真核细胞的基因组中核苷酸序列的修饰的原核和真核细胞。在本文中示出了本披露的这些方法和组合物的另外的实施例。

附图和序列表的说明

根据下列的详细描述和附图以及序列表，可以更全面地理解本公开，所述详细描述和附图以及序列表形成本申请的一部分。本文所附的序列描述和序列列表符合37C.F.R.§§1.821-1.825中规定的专利申请中关于核苷酸和氨基酸序列公开的规则。序列描述包含37C.F.R.§§1.821-1.825(将其通过引用结合在此)中定义的氨基酸的三字母代码。

附图说明

图1描绘了Cas9多肽及其Cas9蛋白结构域的示意图。黑色填充表示RuvC核酸酶结构域，交叉阴影表示桥螺旋，对角划线阴影填充表示REC I结构域，中灰色填充表示REC II结构域，浅灰色填充表示HNH核酸酶结构域，球形填充表示PAM识别结构域。(改编自JinekM.,Jiang F.,Taylor D.W.等人2014,Science[科学]343,1247997)。本文描述的Cas9内切核酸酶变体的Y155修饰位于REC1结构域中。

图2描绘了映射到Cas9内切核酸酶的一级氨基酸结构上的结构域架构。本文描述的Cas9 Y155内切核酸酶变体的Y155修饰的位置(在REC1结构域中)由箭头指示。

图3描绘了映射到Cas9内切核酸酶的一级氨基酸结构上的结构域架构。本文描述的Cas9内切核酸酶F86-F98变体的F86和F98修饰的位置由箭头指示。

以下序列遵循37C.F.R.§§1.821-1.825(“Requirements for PatentApplications Containing Nucleotide Sequences and/or Amino Acid SequenceDisclosures-the Sequence Rules[含有核苷酸序列和/或氨基酸序列公开的专利申请的要求-序列规则]”)并符合世界知识产权组织(WIPO)标准ST.25(2009)、以及欧洲专利公约(EPC)和专利合作条约(PCT)法规第5.2和49.5(a-bis)条、以及行政章程第208款和附件C关于序列表的要求。用于核苷酸和氨基酸序列数据的符号和格式遵循37C.F.R.§1.822中所示的条例。

SEQ ID NO:1列出了酿脓链球菌Cas9的氨基酸序列。

SEQ ID NO:2列出了芽孢杆菌密码子优化的、编码酿脓链球菌Cas9的野生型Cas9蛋白的Cas9基因的核苷酸序列。

SEQ ID NO:3列出了N-末端NLS的氨基酸序列。

SEQ ID NO:4列出了C-末端NLS的氨基酸序列。

SEQ ID NO:5列出了十组氨酸标签的氨基酸序列。

SEQ ID NO:6列出了6aprE启动子的核苷酸序列。

SEQ ID NO:7列出了终止子的核苷酸序列。

SEQ ID NO:8-9、12-13、38-39、41-42、50-51、54-55、59-60、67-68、71-72、79-80、88-89、91-92、111-112、119-120、138-139、145-146、151-152、156-157列出了引物的核苷酸序列。

SEQ ID NO:10列出了pKB320主链的核苷酸序列。

SEQ ID NO:11列出了pKB320的核苷酸序列。

SEQ ID NO:14列出了质粒RSP1的核苷酸序列。

SEQ ID NO:15列出了质粒RSP2的核苷酸序列。

SEQ ID NO:16-27分别列出了质粒FSP1、FSP2、FSP3、FSP4、FSP5、FSP6、FSP7、RSP3、FSP8、pRF694、pRF801和pRF806的核苷酸序列。

SEQ ID NO:28列出了地衣芽孢杆菌的靶位点1的核苷酸序列。

SEQ ID NO:29列出了地衣芽孢杆菌的靶位点1的核苷酸序列。

SEQ ID NO:30示出了serA1可读框的核苷酸序列。

SEQ ID NO:31列出了地衣芽孢杆菌的靶位点1+PAM的核苷酸序列。

SEQ ID NO:32列出了编码可变靶向结构域1的DNA的核苷酸序列。

SEQ ID NO:33列出了编码CER结构域的DNA的核苷酸序列。

SEQ ID NO:34列出了靶向靶位点1的gRNA的核苷酸序列。

SEQ ID NO:35列出了spac启动子的核苷酸序列。

SEQ ID NO:36列出了t0终止子的核苷酸序列。

SEQ ID NO:37列出了地衣芽孢杆菌的serA1同源臂1的核苷酸序列。

SEQ ID NO:40列出了地衣芽孢杆菌的serA1同源臂2的核苷酸序列。

SEQ ID NO:43列出了编码ts1 gRNA表达盒的DNA的核苷酸序列。

SEQ ID NO:44列出了serA1缺失编辑模板(serA1 deletion editing template)的核苷酸序列。

SEQ ID NO:45列出了地衣芽孢杆菌的rghR1可读框的核苷酸序列。

SEQ ID NO:46列出了地衣芽孢杆菌的靶位点2的核苷酸序列。

SEQ ID NO:47列出了地衣芽孢杆菌的靶位点2+PAM的核苷酸序列。

SEQ ID NO:48列出了编码可变靶向结构域2的DNA的核苷酸序列。

SEQ ID NO:49列出了靶向靶位点2的指导RNA(gRNA)的核苷酸序列。

SEQ ID NO:50列出了来自地衣芽孢杆菌的rghR1的同源臂1的核苷酸序列。

SEQ ID NO:53列出了来自地衣芽孢杆菌的rghR1的同源臂2的核苷酸序列。

SEQ ID NO:56列出了编码ts2表达盒的DNA的核苷酸序列。

SEQ ID NO:57列出了rghR1缺失编辑模板的核苷酸序列。

SEQ ID NO:58列出了Cas9 Y155H变体的氨基酸序列。

SEQ ID NO:61列出了pRF827的核苷酸序列。

SEQ ID NO:62列出了Cas9 Y155H变体表达盒的核苷酸序列。

SEQ ID NO:63列出了pRF856的核苷酸序列。

SEQ ID NO:64列出了pBL.comK-syn的核苷酸序列。

SEQ ID NO:65列出了地衣芽孢杆菌的靶位点1基因座的核苷酸序列。

SEQ ID NO:66列出了靶位点1编辑的基因座的核苷酸序列。

SEQ ID NO:69列出了地衣芽孢杆菌的靶位点2基因座的核苷酸序列。

SEQ ID NO:70列出了靶位点2编辑的基因座的核苷酸序列。

SEQ ID NO:73列出了耶氏酵母密码子优化的Cas9的核苷酸序列。

SEQ ID NO:74列出了SV40 NLS的核苷酸序列。

SEQ ID NO:75列出了耶氏酵母FBA1启动子的核苷酸序列。

SEQ ID NO:76列出了耶氏酵母Cas9表达盒的核苷酸序列。

SEQ ID NO:77列出了pZufCas9的核苷酸序列。

SEQ ID NO:78列出了Cas9-SV40融合体的核苷酸序列。

SEQ ID NO:81列出了Cas9-SV40 PCR产物的核苷酸序列。

SEQ ID NO:82-83分别列出了pBAD/HisB和pRF48的核苷酸序列。

SEQ ID NO:84列出了大肠杆菌优化的Cas9表达盒的核苷酸序列。

SEQ ID NO:85-86分别列出了pKO3和pRF97的核苷酸序列。

SEQ ID NO:87列出了编码Cas9 Y155H的合成片段的核苷酸序列。

SEQ ID NO:90列出了pRF97-Y155H片段的核苷酸序列。

SEQ ID NO:93列出了pRF861的核苷酸序列。

SEQ ID NO:94列出了来自大肠杆菌的nac基因的核苷酸序列。

SEQ ID NO:95列出了nac靶位点1的核苷酸序列。

SEQ ID NO:96列出了nac靶位点1+PAM的核苷酸序列

大肠杆菌

SEQ ID NO:97列出了nac靶位点1的核苷酸序列。

SEQ ID NO:98列出了nac靶位点1+PAM的核苷酸序列。

SEQ ID NO:99列出了N25噬菌体启动子的核苷酸序列。

SEQ ID NO:100列出了nac靶位点1gRNA表达盒的核苷酸序列。

SEQ ID NO:101列出了nac靶位点2gRNA表达盒的核苷酸序列。

SEQ ID NO:102列出了nac上游缺失臂的核苷酸序列。

SEQ ID NO:103列出了nac下游缺失臂的核苷酸序列。

SEQ ID NO:104列出了nac缺失编辑模板的核苷酸序列。

SEQ ID NO:105列出了5'pRF97或pRF861同一性的核苷酸序列。

SEQ ID NO:106列出了3'pRF97或pRF861同一性的核苷酸序列。

SEQ ID NO:107列出了nacET位点1的核苷酸序列。

SEQ ID NO:108列出了nacET位点2的核苷酸序列。

SEQ ID NO:109列出了pRF97-盒的核苷酸序列。

SEQ ID NO:110列出了pRF861-盒的核苷酸序列。

SEQ ID NO:113列出了pRF97-nacET位点1的核苷酸序列。

SEQ ID NO:114列出了pRF97-nacET位点2的核苷酸序列。

SEQ ID NO:115列出了pRF861-nacET位点1的核苷酸序列。

SEQ ID NO:116列出了pRF861-nacET位点2的核苷酸序列。

SEQ ID NO:117列出了来自大肠杆菌的野生型(WT)nac基因座的核苷酸序列。

SEQ ID NO:118列出了编辑的nac基因座的核苷酸序列。

SEQ ID NO:121列出了酿脓链球菌Cas9的核苷酸序列。

SEQ ID NO:122列出了编码Cas9 Y155H变体的核苷酸序列。

SEQ ID NO:123列出了Cas9 Y155N变体的氨基酸序列。

SEQ ID NO:124列出了编码Cas9 Y155N变体的核苷酸序列。

SEQ ID NO:125列出了Cas9 Y155E变体的氨基酸序列。

SEQ ID NO:126列出了编码Cas9 Y155E变体的核苷酸序列。

SEQ ID NO:127列出了Cas9 Y155F变体的氨基酸序列。

SEQ ID NO:128列出了编码Cas9 Y155F变体的核苷酸序列。

SEQ ID NO:129列出了Cas9 F86A-F98A变体的氨基酸序列。

SEQ ID NO:130列出了F86A-F98A合成片段的核苷酸序列。

SEQ ID NO:131列出了F86A F98A的pRF801主链的核苷酸序列。

SEQ ID NO:132列出了pRF801主链(正向)的核苷酸序列。

SEQ ID NO:133列出了pRF801主链(反向)的核苷酸序列。

SEQ ID NO:134列出了合成的F86A-F98A(正向)的核苷酸序列。

SEQ ID NO:135列出了合成的F86A-F98A(反向)的核苷酸序列。

SEQ ID NO:136列出了芽孢杆菌F86A F98A表达盒的核苷酸序列。

SEQ ID NO:137列出了pRF866的核苷酸序列。

SEQ ID NO:140列出了RNR2p启动子的核苷酸序列。

SEQ ID NO:141列出了2微米复制起点1的核苷酸序列。

SEQ ID NO:142列出了KanMX表达盒的核苷酸序列。

SEQ ID NO:143列出了SNR52p启动子的核苷酸序列。

SEQ ID NO:144列出了pSE087质粒的核苷酸序列。

SEQ ID NO:147列出了靶向sgRNA+T(6)终止子的核苷酸序列。

SEQ ID NO：148列出了50bp上游同源臂的核苷酸序列。

SEQ ID NO:149列出了靶向URA3的sgRNA+T(6)终止子的核苷酸序列。

SEQ ID NO:150列出了50bp下游同源臂的核苷酸序列。

SEQ ID NO:153列出了2微米复制起点2的核苷酸序列。

SEQ ID NO:154列出了154氨苄青霉素抗性基因的核苷酸序列。

SEQ ID NO:155列出了RNR2终止子的核苷酸序列。

具体实施方式

提供了针对变体Cas系统和包含这类系统的元件的组合物和方法，所述系统和元件包括但不限于Cas内切核酸酶变体、包含Cas内切核酸酶变体的指导多核苷酸/Cas内切核酸酶复合物、以及可与Cas内切核酸酶变体相互作用的指导多核苷酸和指导RNA元件。还提供了用于直接递送Cas内切核酸酶变体、指导RNA和指导RNA/Cas内切核酸酶复合物的组合物和方法。本公开进一步包括用于细胞基因组中的靶序列的基因组修饰、用于基因编辑、以及用于将目的多核苷酸插入细胞基因组中的组合物和方法。

将本文件组织成若干部分以便于阅读；然而，读者将领会的是，在一个部分中进行的陈述可能适用于其他部分。以这种方式，用于本公开的不同部分的标题不应被解释为限制。

本文提供的标题并非对本发明的组合物和方法的各个方面或实施例进行限制，这些方面或实施例可通过将说明书作为一个整体来参考而得到。因此，把说明书作为一个整体参考时，以下即将定义的术语得以更全面地定义。

除非另有定义，本文使用的所有技术和科学术语具有与本发明组合物和方法所属领域的普通技术人员通常理解的相同含义。虽然类似于或等同于本文描述的那些的任何方法和材料也可以用于本发明组合物和方法的实践或测试中，但现在将对代表性示例方法和材料进行描述。

在本说明书中引用的所有公开物和专利都通过引用结合在此，就好像每个单独的公开物或专利被具体地并单独地指示为通过引用结合，并且通过引用结合在此从而结合引用的公开物来披露和描述这些方法和/或材料。

Cas基因和蛋白质

CRISPR(成簇的规律间隔的短回文重复序列)基因座是指DNA切割系统的某些遗传基因座编码组分，例如被细菌和古细胞用来破坏外源DNA(Horvath和Barrangou，2010，Science[科学]327:167-170；2007年3月1日公开的WO 2007/025097)的那些。CRISPR基因座可以由CRISPR阵列组成，包含由短的可变DNA序列(称为‘间隔子’)分开的短的正向重复序列(CRISPR重复序列)，其可以侧翼是不同Cas(CRISPR相关的重复序列)基因。在给定的CRISPR基因座处的CRISPR相关基因数目在物种之间可以不同。已经描述了包括具有多亚基效应子复合物(包括I型、III型和IV型亚型)的1类系统和具有单一蛋白质效应子(包括II型和V型亚型，例如但不限于Cas9、Cpf1、C2c1、C2c2、C2c3)的2类系统的多重CRISPR/Cas系统。1类系统(Makarova等人，2015，Nature Reviews；Microbiology[自然综述微生物学]第13卷:1-15；Zetsche等人，2015，Cell[细胞]163，1-13；Shmakov等人，2015，Molecular_Cell[分子细胞]60，1-13；Haft等人，2005，Computational Biology[计算生物学]，PLoS ComputBiol[科学公共图书馆计算生物学]1(6):e60.doi:10.1371/journal.pcbi.0010060和2013年11月23日公开的WO 2013/176772 A1，并将其通过引用结合在此)。来自细菌的II型CRISPR/Cas系统使用crRNA(CRISPR RNA)和tracrRNA(反式激活CRISPR RNA)来将Cas内切核酸酶指导到其DNA靶标上。所述crRNA包含与双链DNA靶标的一条链互补的间隔子区域和与tracrRNA(反式激活CRISPR RNA)碱基配对的区域，该tracrRNA形成指导Cas内切核酸酶切割DNA靶标的RNA双链体。通过未完全理解的涉及Cas1和Cas2蛋白的过程获得间隔子。除cas9基因之外，所有的II型CRISPR/Cas基因座包含cas1和cas2基因(Chylinski等人,2013,RNA Biology[RNA生物学]10:726-737；Makarova等人2015，Nature Reviews Microbiology[自然综述微生物学]第13卷:1-15)。II型CRISPR-Cas基因座可以编码tracrRNA，该tracrRNA与重复序列在对应的CRISPR阵列内部分互补，并且可以包含其他蛋白质(如Csn1和Csn2)。在Cas 1和cas 2基因附近cas9的存在是II型基因座的标志(Makarova等人.2015,Nature Reviews Microbiology[自然综述微生物学]第13卷:1-15)。I型CRISPR-Cas(CRISPR-相关(CRISPR-associated))系统由称为Cascade(用于抗病毒防御的CRISPR-相关复合物(CRISPR-associated complex for antiviral defense))的蛋白质复合物组成，所述复合物与单个CRISPR RNA(crRNA)和Cas3一起发挥功能以防御入侵的病毒DNA(Brouns,S.J.J.等人Science[科学]321:960-964；Makarova等人2015,Nature Reviews；Microbiology[自然综述微生物学]第13卷:1-15，其以其全文结合在此)。

本文的术语“Cas基因”是指通常与侧翼CRISPR基因座联接的、相关的、或接近的、或邻近的基因。术语“Cas基因”、“cas基因”“CRISPR-相关(Cas)基因”和“成簇的规律间隔的短回文重复序列相关基因”在本文中可互换使用。

中术语“Cas蛋白”或“Cas多肽”是指由Cas(CRISPR-相关的)基因编码的多肽。Cas蛋白包括Cas内切核酸酶。

Cas蛋白可以是细菌或古细菌蛋白。例如，本文中的I-III型CRISPR Cas蛋白通常起源于原核生物；I型和III型Cas蛋白可以源自于细菌或古细菌物种，而II型Cas蛋白(即Cas9)可以源自于细菌种类。在其他方面，Cas蛋白包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9、Cas10、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4中的一种或多种，其同系物或其经修饰的版本。Cas蛋白包括Cas9蛋白、Cpf1蛋白、C2c1蛋白、C2c2蛋白、C2c3蛋白、Cas3、Cas3-HD、Cas5、Cas7、Cas8、Cas10或这些的组合或复合物。

术语“Cas内切核酸酶”是指当与适合的多核苷酸组分复合时能够识别、结合特定DNA靶序列的全部或部分、并任选地使特定多核苷酸靶序列的全部或部分产生切口或切割特定多核苷酸靶序列的全部或部分的Cas多肽(Cas蛋白)。Cas内切核酸酶由所述指导多核苷酸指导以识别、结合双链DNA中的特定靶位点的全部或部分并任选地使双链DNA中的特定靶位点的全部或部分产生切口或切割双链DNA中的特定靶位点的全部或部分(例如，在细胞基因组中的靶位点处)。本文描述的Cas内切核酸酶包含一个或多个核酸酶结构域。在本文所述的供体DNA插入方法中采用的Cas内切核酸酶是在靶位点处向DNA中引入单链或双链断裂的内切核酸酶。可替代地，本文中的Cas内切核酸酶可能缺乏DNA切割或切口活性，但是当与合适的RNA组分复合时，仍然可以特异性结合DNA靶序列。

如本文所用，称为“Cas9”(以前称为Cas5、Csn1或Csx12)或“Cas9内切核酸酶”或具有“Cas9内切核酸酶活性”的多肽是指Cas内切核酸酶，所述Cas内切核酸酶与cr核苷酸和tracr核苷酸、或与单个指导多核苷酸形成复合物，用于特异性地结合DNA靶序列的全部或部分并任选地使DNA靶序列的全部或部分产生切口或切割DNA靶序列的全部或部分。Cas9内切核酸酶包含RuvC核酸酶结构域和HNH(H-N-H)核酸酶结构域，它们各自可以在靶序列处切割单DNA链(两个结构域的协同作用导致DNA双链切割，而一个结构域的活性导致切口)。通常，RuvC结构域包含亚结构域I、II和III，其中结构域I位于Cas9的N-末端附近，并且亚结构域II和III位于蛋白质的中间，即位于HNH结构域的侧翼(Makarova等人2015,NatureReviews Microbiology[自然综述微生物学]第13卷:1-15,Hsu等人,2013,Cell[细胞]157:1262-1278)。Cas9内切核酸酶通常来源于II型CRISPR系统，该系统包括利用与至少一种多核苷酸组分复合的Cas9内切核酸酶的DNA切割系统。例如，Cas9可以与CRISPR RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)复合。在另一个实例中，Cas9可以与单指导RNA复合(Makarova等人，2015，Nature Reviews Microbiology[自然综述微生物学]第13卷:1-15)。

Cas内切核酸酶的“功能性片段”、“功能上等效的片段”和“功能等效片段”在本文中可互换地使用，并且指Cas内切核酸酶的一部分或子序列，其中保留识别、结合靶位点并任选地使靶位点产生切口或切割(引入单链或双链断裂)靶位点的能力。

本公开的术语Cas内切核酸酶的“功能性变体”、“功能上等同的变体”和“功能等同变体”在本文中可互换使用，并且是指本公开的Cas内切核酸酶的变体，其中保留了识别、结合靶序列的全部或部分并任选地解旋靶序列的全部或部分、使靶序列的全部或部分产生切口或切割靶序列的全部或部分的能力。

确定本文中的Cas蛋白针对特异性靶DNA序列的结合活性和/或内切核酸酶活性可以通过本领域已知的任何合适的测定法(例如在美国专利号8697359(其通过引用披露在此)中披露的)来评估。例如，可以通过在宿主细胞/生物体中表达Cas蛋白和合适的RNA组分，然后检查预测的DNA靶位点是否存在插入缺失(在该特定测定中Cas蛋白将具有内切核苷酸活性[单链或双链切割活性])来进行测定。例如，在预测的靶位点处检查是否存插入缺失可以经由DNA测序方法进行，或通过测定靶序列的功能丧失来推断插入缺失形成。在另一个实例中，可以通过在已经提供了包含与靶位点处或附近的序列同源的序列的供体DNA的宿主细胞/生物中表达Cas蛋白和合适的RNA组分来确定Cas蛋白活性。在靶位点处的供体DNA序列的存在(例如将通过供体和靶序列之间成功的HR来预测)将表明靶向发生。

Cas内切核酸酶的变体，也称为“Cas内切核酸酶变体”，是指亲本Cas内切核酸酶的变体，其中当与cr核苷酸和tracr核苷酸或与单个指导多核苷酸(例如本文所述的指导多核苷酸)相缔合时，Cas内切核酸酶变体保留以下能力：识别、结合DNA靶序列的全部或部分并任选地解旋DNA靶序列的全部或部分、使DNA靶序列的全部或部分产生切口、或切割DNA靶序列的全部或部分。Cas内切核酸酶变体包括本文所述Cas内切核酸酶变体，其中所述Cas内切核酸酶变体不同于亲本Cas内切核酸酶，其方式为：所述Cas内切核酸酶变体(当与指导多核苷酸复合以形成能够修饰靶位点的、多核苷酸指导的内切核酸酶复合物时)与亲本Cas内切核酸酶(与相同的指导多核苷酸复合以形成能够修饰相同靶位点的、多核苷酸指导的内切核酸酶复合物)相比时具有至少一种改善的特性，例如，但不限于，增加的转化效率、增加的DNA编辑效率、减少的脱靶切割、或其任意组合。

如本文所用，术语“转化效率”通过将当Cas9变体与指导多核苷酸组合使用以形成能够修饰靶位点的、多核苷酸指导的内切核酸酶PGEN复合物时获得的转化细胞的数量除以当亲本(野生型)Cas9(作为PGEN的Cas内切核酸酶组分)与相同的指导多核苷酸组合使用以形成能够修饰相同靶位点的PGEN复合物时获得的转化细胞的数量来定义。这个数字可以乘以100表示为％。

转化效率为1(或100％)表明当使用Cas9变体时获得的转化细胞数与当使用WTCas9变体时获得的转化细胞数大约相同或相同。在这种情况下，Cas9变体与其亲本Cas9内切核酸酶相比不会有改善的特性。相反，大于1的转化效率表明当使用Cas9变体时获得的转化细胞数大于当WT Cas9变体时获得的转化细胞数。在这种情况下，与亲本Cas9内切核酸酶相比，Cas9变体确实具有改善的特性，例如改善的转化效率。

如本文所用，术语“编辑效率”或“DNA编辑效率”在本文中可互换使用，并且通过将当Cas9变体与指导多核苷酸组合使用以形成能够修饰靶位点的、多核苷酸指导的内切核酸酶PGEN复合物时获得的包含DNA编辑的细胞(经编辑的细胞)的数量除以当亲本(野生型)Cas9(作为PGEN的Cas内切核酸酶组分)与相同的指导多核苷酸组合使用以形成能够修饰相同靶位点的PGEN复合物时获得的经编辑的细胞的数量来定义。这个数字可以乘以100表示为％。

DNA编辑效率为1(或100％)表明当使用Cas9变体时获得的经编辑的细胞数与当使用WT Cas9变体时获得的经编辑的细胞数大约相同或相同。在这种情况下，Cas9变体与其亲本cas9内切核酸酶相比不会有改善的特性。相反，大于1的DNA编辑效率表明当使用Cas9变体时获得的转化细胞数大于当使用亲本(WT)Cas9变体时获得的转化细胞数。在这种情况下，与亲本Cas9内切核酸酶相比，Cas9变体确实具有改善的特性，例如改善的编辑效率。

Cas内切核酸酶变体可包含与亲本Cas内切核酸酶的氨基酸序列至少约75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同的氨基酸序列。

变体Cas内切核酸酶基因(变体cas基因)可包含与亲本Cas内切核酸酶核苷酸序列至少约75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同的核苷酸序列。

本文亲本Cas内切核酸酶的非限制性实例可以是来自以下任何属的Cas内切核酸酶：气火菌属(Aeropyrum)、火棒菌属(Pyrobaculum)、硫化叶菌属(Sulfolobus)、古球状菌属(Archaeoglobus)、嗜盐小盒菌属(Haloarcula)、甲烷杆菌属(Methanobacteriumn)、产甲烷球菌属(Methanococcus)、甲烷八叠球菌属(Methanosarcina)、甲烷火菌属(Methanopyrus)、火球菌属(Pyrococcus)、嗜酸菌属(Picrophilus)、Thernioplasnia、棒状杆菌属(Corynebacterium)、分支杆菌属(Mycobacterium)、链霉菌属(Streptomyces)、产液菌属(Aquifrx)、卟啉单胞菌属(Porphvromonas)、绿菌属(Chlorobium)、Thermus、芽孢杆菌属(Bacillus)、利斯特菌属(Listeria)、葡萄球菌属(Staphylococcus)、梭菌属(Clostridium)、高温厌氧杆菌属(Thermoanaerobacter)、支原菌属(Mycoplasma)、梭形杆菌属(Fusobacterium)、Azarcus、色素杆菌属(Chromobacterium)、奈瑟氏菌属(Neisseria)、亚硝化单胞菌属(Nitrosomonas)、脱硫弧菌属(Desulfovibrio)、土杆菌属(Geobacter)、Myrococcus、弯曲杆菌属(Campylobacter)、沃林氏菌属(Wolinella)、不动细菌属(Acinetobacter)、欧文氏菌属(Erwinia)、埃希氏菌属(Escherichia)、军团杆菌属(Legionella)、甲基球菌属(Methylococcus)、巴斯德氏菌属(Pasteurella)、发光杆菌属(Photobacterium)、沙门氏菌属(Salmonella)、黄单胞杆菌属(Xanthomonas)、耶尔森氏菌属(Yersinia)、链球菌属(Streptococcus)、密螺旋体属(Treponema)、弗朗西斯氏菌属(Francisella)、或栖热孢菌属(Thermotoga)。此外，本文的亲本Cas内切核酸酶可以例如由SEQ ID NO:462-465、467-472、474-477、479-487、489-492、494-497、499-503、505-508、510-516、或517-521中的任一个编码，如披露于美国申请公开号2010/0093617中，将其通过引用结合在此。

此外，本文的亲本Cas9内切核酸酶可衍生自链球菌属(例如酿脓链球菌(S.pyogenes)、肺炎链球菌(S.pneumoniae)、嗜热链球菌(S.thermophilus)、无乳链球菌(S.agalactiae)、副血链球菌(S.parasanguinis)、口腔链球菌(S.oralis)、唾液链球菌(S.salivarius)、猕猴链球菌(S.macacae)、停乳链球菌(S.dysgalactiae)、咽峡炎链球菌(S.anginosus)、星座链球菌(S.constellatus)、假豕链球菌(S.pseudoporcinus)、变异链球菌(S.mutans))、李斯特菌属(Listeria)(例如，无害利斯特菌(L.innocua))、螺原体属(Spiroplasma)(例如，蜂螺旋原体(S.apis)、S.syrphidicola)、消化链球菌科(Peptostreptococcaceae)、奇异菌属(Atopobium)、卟啉单胞菌属(Porphyromonas)(例如，P.catoniae)、普雷沃菌属(Prevotella)(例如，中间普雷沃菌(P.intermedia))、韦荣球菌属(Veillonella)、密螺旋体属(Treponema)(例如，索氏密螺旋体(T.socranskii)、齿垢密螺旋体(T.denticola))、二氧化碳噬细胞菌属(Capnocytophaga)、芬戈尔德菌属(Finegoldia)(例如，大芬戈尔德菌(F.magna))、红蝽菌科(Coriobacteriaceae)(例如，C.bacterium)、Olsenella(例如，O.Profusa)、嗜血杆菌属(Haemophilus)(例如，H.sputorum、H.pittmaniae)、巴斯德氏菌属(Pasteurella)(例如，贝氏巴斯德菌(P.bettyae))、Olivibacter(例如，O.sitiensis)、Epilithonimonas(例如，E.tenax)、Mesonia(例如，M.mobilis)、乳杆菌属(Lactobacillus)(例如，植物乳杆菌(L.plantarum))、芽孢杆菌属(Bacillus)(例如，蜡样芽孢杆菌(B.Cereus))、Aquimarina(例如，A.Muelleri)、金黄杆菌属(Chryseobacterium)(例如，C.Palustre)、多形杆状菌属(Bacteroides)(例如，B.graminisolvens)、奈瑟氏菌属(Neisseria)(例如，脑膜炎奈瑟氏菌(N.Meningitidis))、弗朗西斯氏菌属(Francisella)(例如，新凶手弗朗西斯菌(F.Novicida))、或黄杆菌属(Flavobacterium)(例如，寒冷黄杆菌(F.Frigidarium)、F.soli)物种。一方面酿脓链球菌亲本Cas9内切核酸酶在此被描述。作为另一个实例，亲本Cas9内切核酸酶可以是描述于Chylinski等人(RNA Biology[RNA生物学]10:726-737，其通过引用结合在此)中的任何Cas9蛋白。

本文的亲本Cas9内切核酸酶的序列可以包含，例如，在以下各项中披露任何Cas9氨基酸序列：基因库(GenBank)登记号G3ECR1(嗜热链球菌(S.thermophilus))、WP_026709422、WP_027202655、WP_027318179、WP_027347504、WP_027376815、WP_027414302、WP_027821588、WP_027886314、WP_027963583、WP_028123848、WP_028298935、Q03JI6(嗜热链球菌)、EGP66723、EGS38969、EGV05092、EHI65578(假豕链球菌)、EIC75614(口腔链球菌)、EID22027(星座链球菌)、EIJ69711、EJP22331(口腔链球菌)、EJP26004(咽峡炎链球菌)、EJP30321、EPZ44001(酿脓链球菌)、EPZ46028(酿脓链球菌)、EQL78043(酿脓链球菌)、EQL78548(酿脓链球菌)、ERL10511、ERL12345、ERL19088(酿脓链球菌)、ESA57807(酿脓链球菌)、ESA59254(酿脓链球菌)、ESU85303(酿脓链球菌)、ETS96804、UC75522、EGR87316(停乳链球菌)、EGS33732、EGV01468(口腔链球菌)、EHJ52063(猕猴链球菌)、EID26207(口腔链球菌)、EID33364、EIG27013(副血链球菌)、EJF37476、EJO19166(链球菌属BS35b)、EJU16049、EJU32481、YP_006298249、ERF61304、ERK04546、ETJ95568(无乳链球菌)、TS89875、ETS90967(链球菌属SR4)、ETS92439、EUB27844(链球菌属BS21)、AFJ08616、EUC82735(链球菌属CM6)、EWC92088、EWC94390、EJP25691、YP_008027038、YP_008868573、AGM26527、AHK22391、AHB36273、Q927P4、G3ECR1、或Q99ZW2(酿脓链球菌)，其通过引用结合。可替代地，例如，本文中的Cas9蛋白可以由如披露于美国申请公开号2010/0093617(通过引用结合在此)中的SEQID NO:462(嗜热链球菌)、474(嗜热链球菌)、489(无乳链球菌)、494(无乳链球菌)、499(变异链球菌)、505(酿脓链球菌)、或518(酿脓链球菌)中的任何一个编码。

鉴于某些氨基酸彼此共享类似的结构和/或电荷特征(即，保守的)，Cas9中每个位置处的氨基酸可以是如所披露的序列提供的或被如下保守的氨基酸残基取代(“保守的氨基酸取代”)：

1.以下小的脂肪族、非极性或轻微极性的残基可以互相取代：Ala(A)、Ser(S)、Thr(T)、Pro(P)、Gly(G)；

2.以下极性、带负电荷的残基和它们的氨化物可以互相取代：Asp(D)、Asn(N)、Glu(E)、Gln(Q)；

3.以下极性、带正电荷的残基可以互相取代：His(H)、Arg(R)、Lys(K)；

4.以下脂肪族、非极性残基可以互相取代：Ala(A)、Leu(L)、Ile(I)、Val(V)、Cys(C)、Met(M)；并且

5.以下大的芳香族残基可以互相取代：Phe(F)、Tyr(Y)、Trp(W)。

这些片段和变体可以经由例如定点诱变和合成构建等方法来获得。用于测量内切核酸酶活性的方法是本领域熟知的，例如但不限于2013年5月1日提交的PCT/US13/39011、2016年5月12日提交的PCT/US16/32073、2016年5月12日提交的PCT/US16/32028，将其通过引用结合在此。

在一个实施例中，Cas内切核酸酶变体是本文所述的Cas9内切核酸酶变体。如本文所用，“Cas9内切核酸酶变体”或“Cas9变体”是指亲本Cas9内切核酸酶的变体，其中当与cr核苷酸和tracr核苷酸或与单个指导多核苷酸(例如本文所述的指导多核苷酸)相缔合时，Cas9内切核酸酶变体保留以下能力：识别、结合DNA靶序列的全部或部分并任选地解旋DNA靶序列的全部或部分、使DNA靶序列的全部或部分产生切口、或切割DNA靶序列的全部或部分。Cas9内切核酸酶变体包括本文所述Cas9内切核酸酶变体，其中所述Cas9内切核酸酶变体不同于亲本Cas9内切核酸酶，其方式为：所述Cas9内切核酸酶变体(当与指导多核苷酸复合以形成能够修饰靶位点的、多核苷酸指导的内切核酸酶复合物时)与亲本Cas9内切核酸酶(与相同的指导多核苷酸复合以形成能够修饰相同靶位点的、多核苷酸指导的内切核酸酶复合物)相比时具有至少一种改善的特性，例如，但不限于，增加的转化效率、增加的DNA编辑效率、减少的脱靶切割、或其任意组合。

本文所述的Cas9内切核酸酶变体包括当与cr核苷酸和tracr核苷酸或与单个指导多核苷酸相缔合时可结合双链DNA靶位点并使双链DNA靶位点产生切口的变体，而亲本Cas内切核酸酶当与cr核苷酸和tracr核苷酸或与单个指导多核苷酸相缔合时可在靶位点处结合并使双链断裂(切割)。

如本文所述，已经令人惊讶地和意外地发现，在其HNH和RuvC结构域之外具有至少一个氨基酸修饰的Cas9内切核酸酶变体(当与指导多核苷酸复合以形成能够修饰靶位点的、多核苷酸指导的内切核酸酶复合物时)与其亲本Cas9内切核酸酶(与相同指导多核苷酸复合以形成能够修饰相同靶位点的、多核苷酸指导的内切核酸酶复合物时)相比时可以具有至少一种改善的特性，例如但不限于增加的转化效率、增加的DNA编辑效率、或其组合。

在一个方面，本文描述的Cas9内切核酸酶变体包含RuvC核酸酶结构域和HNH(H-N-H)核酸酶结构域，以及位于HNH和RuvC结构域之外的至少一个氨基酸修饰(至少一个氨基酸的缺失、取代或插入)。

在一个方面，本文所述的Cas9内切核酸酶变体或其活性片段与亲本Cas9内切核酸酶相比包含至少1、2、3、4、5、6、7、8、9、10个氨基酸取代。

在一个方面，本文所述的Cas9内切核酸酶变体在其HNH和RuvC结构域外具有氨基酸修饰，其中所述Cas9内切核酸酶与不包含所述氨基酸修饰的亲本Cas9内切核酸酶相比具有增加的转化效率和/或DNA编辑效率，其中所述指导多核苷酸和Cas9内切核酸酶变体可形成复合物，所述复合物能够识别、结合所述靶序列的全部或部分并任选地使所述靶序列的全部或部分产生切口、解旋或切割所述靶序列的全部或部分。

在一个方面，本文所述的Cas9内切核酸酶变体与SEQ ID NO:1中所示的亲本Cas9多肽具有至少75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的氨基酸同一性，并且在位置155处具有至少一种氨基酸取代，其中所述变体的氨基酸位置通过与亲本Cas9多肽的氨基酸序列相对应来编号，其中所述Cas9内切核酸酶变体具有内切核酸酶活性。

在位置155处的Cas9内切核酸酶变体取代可选自由以下组成的组：Y155H、Y155N、Y155E、Y155F，分别产生Cas9 Y155H变体(SEQ ID NO:58)、Cas9 Y155N变体(SEQ ID NO:123)、Cas9 Y155E变体(SEQ ID NO:125和Cas9 Y155F变体(SEQ ID NO:127)。编码Cas9Y155变体的DNA序列可以被优化以在特定宿主生物体中表达，这在本领域是公知的。编码Cas9Y155变体蛋白质的DNA序列的实例在SEQ ID NO:122、124、126和128中示出。

在一个方面，本文所述的Cas9内切核酸酶变体与SEQ ID NO:1中所示的亲本Cas9多肽具有至少75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的氨基酸同一性，并且具有至少两个氨基酸取代，一个在位置86处，另一个在位置98处，其中所述变体的氨基酸位置通过与亲本Cas9多肽的氨基酸序列相对应来编号，其中所述Cas9内切核酸酶变体具有内切核酸酶活性。

位置86处的Cas9内切核酸酶变体取代可以是F86A取代，从而产生Cas9 F86A变体。

位置89处的Cas9内切核酸酶变体取代可以是F98A取代，从而产生Cas9 F98A变体。

Cas9内切核酸酶变体可包含至少两个取代，在位置86处的第一取代，例如F86A取代，以及在位置98处的第二取代，例如F98A取代，从而产生SEQ ID NO:129中所述的Cas9F86A-F98A变体。

Cas9内切核酸酶变体可以包含至少三个取代，其中所述至少三个取代包含位于位置86处的第一取代，例如F86A取代，位于位置98处的第二取代，例如F98A取代，以及选自由Y155H、Y155N、Y155E、Y155F组成的组的第三取代。

编码Cas9 Y155变体的DNA序列可以被优化以在特定宿主生物体中表达，这在本领域是公知的。编码Cas9Y155变体蛋白质的DNA序列的实例在SEQ ID NO:122、124、126和128中示出。编码Cas9F86A-F98A变体蛋白的DNA序列的实例在SEQ ID NO:130中示出。

包含选自由位置86、98和155或其组合组成的组的至少一个、至少两个或至少三个取代的Cas9内切核酸酶变体(当与指导多核苷酸复合以形成能够修饰靶位点的、多核苷酸指导的内切核酸酶复合物时)与其亲本Cas9内切核酸酶(与相同指导多核苷酸复合以形成能够修饰相同靶位点的、多核苷酸指导的内切核酸酶复合物时)相比时可以具有至少一种改善的特性，例如但不限于增加的转化效率、增加的DNA编辑效率、或其组合。

选自由位置86、98和155(或其任意组合)组成的组的至少一个、至少两个或至少三个取代可以与本领域技术人员已知的任何其他氨基酸修饰组合。在一个方面，选自本文描述的由位置86、98和155组成的组的取代中的任何一个(或其任何一个组合)可与本领域技术人员已知的位于HNH和RuvC结构域中的任何氨基酸取代组合，以使得Cas9内切核酸酶充当切口酶(Trevino A.E.和Feng Zhang,2014,Methods in Enzymology[酶学方法],第546卷第161-174页)。“切口酶”Cas9(Cas9n)可通过在HNH或RuvC结构域内的关键催化残基处的丙氨酸取代生成—SpCas9 D10A使RuvC失活(Jinek,M,等人,2012,Science[科学],337(6096),816-821)，而N863A已发现使HNH失活(Nishimasu等人,2014；Shen等人2014NatureMethods[自然方法]11,399-402)。还报道了H840A突变(Shen等人2014Nature Methods[自然方法]11,399-402)将Cas9转化为切口酶，然而，与N863A相比，这一突变体在哺乳动物细胞中的活性水平降低(Nishimasu等人2014,Cell,156(5),935-949)

在一个方面，Cas9(N863A)、Cas9(D10A)和/或Cas9(H840A)可以进一步被修饰以包括选自本文所述的由位置86、98和155(或任意组合)组成的组的至少一个取代，任选地分别产生经修饰的Cas9(N863A)、Cas9(D10A)和/或Cas9(H840A)的改善的特性。

在一个方面，选自本文所述的由位置86、98和155(或任意组合)组成的组的取代中的任一个可以与选自由D10A、H840A或N863A和H840A组成的组的氨基酸取代组合。

在一个方面，与所述亲本Cas9内切核酸酶相比时，在位置155处具有至少一种氨基酸取代的Cas9内切核酸酶变体具有至少一种选自由以下组成的组的改善的特性：增加的转化效率、增加的DNA编辑效率、或其组合，其中所述变体的氨基酸位置通过与所述亲本Cas9多肽的氨基酸序列相对应来编号。

在一个方面，当与所述亲本Cas9内切核酸酶相比时，在位置155处具有Y155H取代的Cas9内切核酸酶变体具有增加的转化效率，其中所述变体的氨基酸位置通过与亲本Cas9多肽的氨基酸序列相对应来编号。在一个方面中，在原核宿主细胞中观察到这种增加的转化效率，所述原核宿主细胞例如但不限于芽孢杆菌属物种或大肠杆菌(E.coli)宿主细胞。

在一个方面，与所述亲本Cas9内切核酸酶相比，在位置155处具有Y155H取代的Cas9内切核酸酶变体具有增加的转化效率和增加的DNA编辑效率，其中所述变体的氨基酸位置通过与亲本Cas9多肽的氨基酸序列相对应来编号。在一个方面中，在原核宿主细胞中观察到这种增加的转化效率和增加的DNA编辑效率，所述原核宿主细胞例如但不限于芽孢杆菌属物种或大肠杆菌(E.coli)宿主细胞。

本文所述的Cas9变体的改善的特性包括增加的转化效率，其中与亲本Cas内切核酸酶相比，转化效率增加了至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390、400、410、420、430、440、440、450、460、470、480、490或高达500倍，与亲本Cas内切核酸酶相比。

本文所述的Cas9变体的改善的特性包括增加的DNA编辑效率，其中当与亲本Cas内切核酸酶相比时，DNA编辑效率增加了至少1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、100％、110％、120％、130％、140％、150％、160％、170％、180％、190％、200％、210％、220％、230％、或250％，或当与亲本Cas内切核酸酶相比时，增加了至少约2、3、4、5、6、7、8、9、高达10倍。

本文所述的Cas内切核酸酶变体可用于原核和真核细胞和生物的基因组修饰，如本文进一步所述。

用于所公开方法的Cas内切核酸酶或其功能片段或变体可从重组体来源(其中经基因修饰的宿主细胞(例如细菌细胞、昆虫细胞、真菌细胞、酵母细胞或人衍生的细胞系)被修饰以表达编码Cas蛋白的核酸序列)分离。可替代地，可以使用无细胞蛋白表达系统生产Cas蛋白或合成地产生Cas蛋白。

Cas内切核酸酶，包括本文所述的Cas9 Y155内切核酸酶变体，可包含Cas多肽的修饰形式。Cas多肽的修饰形式可包括降低Cas蛋白的天然存在的核酸酶活性的氨基酸改变(例如，缺失、插入或取代)。例如，在一些情况下，Cas蛋白的修饰形式，包括本文所述的Cas9Y155内切核酸酶变体，具有相应野生型Cas多肽的小于50％、小于40％、小于30％、小于20％、小于10％、小于5％或小于1％的核酸酶活性(美国专利申请US 20140068797 A1，2014年3月6日公布)。在某些情况下，Cas多肽的修饰形式没有实质的核酸酶活性，被称为催化“失活Cas”或“灭活Cas(dCas)”。失活Cas/灭活Cas包括灭活Cas内切核酸酶(dCas)。催化失活的Cas，包括源自本文所述Cas9 Y155内切核酸酶变体的催化失活的Cas，可以融合至本文所述的异源序列。

表达本文所述Cas内切核酸酶和指导多核苷酸(包括其功能片段，细菌、真菌、植物、微生物或哺乳动物密码子优化的Cas蛋白)的重组DNA构建体可以稳定地整合到生物体的基因组中。例如，可以产生包含稳定整合在微生物基因组中的Cas基因的微生物。

本文所述的Cas内切核酸酶(例如但不限于本文所述的Cas9内切核酸酶Y155变体)可以通过本领域已知的方法表达和纯化(例如2016年11月24日公开的WO2016/186946的实例2中所述的那些，并通过引用结合在此)。

Cas蛋白融合体

本文所述的Cas内切核酸酶或Cas内切核酸酶变体可以是包含一个或多个异源蛋白结构域(例如，除了Cas多肽之外的1、2、3或多个结构域)的融合蛋白的一部分。这样的融合蛋白可以包含任何另外的蛋白序列，以及任选的在任何两个结构域之间的，例如在Cas多肽和第一异源结构域之间的接头序列。可以与Cas多肽融合的蛋白质结构域的实例包括但不限于表位标签(例如，组氨酸[His]、V5、FLAG、流感血球凝集素[HA]、myc、VSV-G、硫氧还蛋白[Trx])；报道子(例如谷胱甘肽-5-转移酶[GST]、辣根过氧化物酶[HRP]、氯霉素乙酰转移酶[CAT]、β-半乳糖苷酶、β-葡萄糖醛酸酶[GUS]、荧光素酶、绿色荧光蛋白[GFP]、HcRed、DsRed、青色荧光蛋白[CFP]、黄色荧光蛋白[YFP]、蓝色荧光蛋白[BFP])；以及具有一个或多个以下活性的结构域：甲基化酶活性、脱甲基酶活性、转录激活活性(例如，VP16或VP64)、转录抑制活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性和核酸结合活性。Cas内切核酸酶还可以与结合DNA分子或其他分子的蛋白质融合，例如麦芽糖结合蛋白(MBP)、S-标签、Lex A DNA结合结构域(DBD)、GAL4A DNA结合结构域和单纯疱疹病毒(HSV)VP16。

Cas内切核酸酶可包含异源调控元件，例如核定位序列(NLS)。例如，异源NLS氨基酸序列可具有足够的强度来驱动在本文的细胞的细胞核中可检测的量的Cas内切核酸酶的积累。NLS可以包含碱性、带正电荷的残基(例如赖氨酸和/或精氨酸)的一个(单分型)或多个(例如，二分型)短序列(例如，2至20个残基)，并且可以位于Cas氨基酸序列中的任何地方，但使得其暴露于蛋白质表面上。例如，NLS可以有效地连接到本文中的Cas蛋白的N-末端或C-末端。两个或更多个NLS序列可以连接到Cas蛋白，例如在Cas蛋白的N-末端和C-末端两者。Cas基因可以有效地连接到Cas密码子区域的SV40核靶向信号上游和Cas密码子区域的二分型VirD2核定位信号(Tinland等人，(1992)Proc.Natl.Acad.Sci.USA[美国科学院院报]89:7442-6)下游。本文中适合的NLS序列的非限制性实例包括在美国专利号6660830和7309576中公开的那些，其都通过引用结合在此。异源NLS氨基酸序列包括植物、病毒和哺乳动物核定位信号。

催化活性的和/或失活的Cas内切核酸酶可以融合到异源序列(于2014年3月6日公开的美国专利申请US 20140068797A1)。适合的融合配偶体包括，但不限于提供活性的多肽，该活性通过直接作用于靶DNA上或与该靶DNA相关的多肽(例如，组蛋白或其他DNA-结合蛋白)上间接地增加转录。另外的适合的融合配偶体包括，但不限于提供甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化酶活性、腺苷酸化活性、去腺苷酸化活性、苏素化活性、去苏素化活性、核糖基化活性、去核糖基化活性、豆蔻酰化活性，或去豆蔻酰化活性的多肽。此外适合的融合配偶体包括，但不限于直接提供靶核酸的增加的转录的多肽(例如，募集转录激活因子、小分子/药物-应答性转录调节因子等的转录激活因子或其片段，蛋白质或其片段)。还可以将催化失活的Cas9内切核酸酶融合到FokI核酸酶从而产生双链断裂(Guilinger等人Naturebiotechnology[自然生物技术]，第32卷，第6期，2014年6月)。

指导多核苷酸

如本文所用的，术语“指导多核苷酸”涉及多核苷酸序列，所述多核苷酸序列可以与Cas内切核酸酶形成复合物，并且使得所述Cas内切核酸酶能够识别、结合DNA靶位点并任选地使DNA靶位点产生切口或切割DNA靶位点。指导多核苷酸可以是单分子或双分子。指导多核苷酸序列可以是RNA序列、DNA序列或其组合(RNA-DNA组合序列)。任选地，指导多核苷酸可以包含至少一种核苷酸、磷酸二酯键或连接修饰，例如但不限于锁核酸(LNA)、5-甲基dC、2,6-二氨基嘌呤、2’-氟代A、2’-氟代U、2'-O-甲基RNA、硫代磷酸酯键、与胆固醇分子的连接、与聚乙二醇分子的连接、与间隔子18(六乙二醇链)分子的连接、或导致环化的5’至3’共价连接。仅包含核糖核酸的指导多核苷酸也被称为“指导RNA”或“gRNA”。

指导多核苷酸可以是包含cr核苷酸序列和tracr核苷酸序列的双分子(也称为双链体指导多核苷酸)。cr核苷酸包括可以与靶DNA中的核苷酸序列杂交的第一个核苷酸序列区域(称为可变靶向结构域或VT结构域)和作为Cas内切核酸酶识别(CER)域的一部分的第二核苷酸序列(也称为tracr配对序列)。tracr配对序列可以沿互补区域与tracr核苷酸杂交，并一起形成Cas内切核酸酶识别结构域或CER结构域。CER结构域能够与Cas内切核酸酶多肽相互作用。双链体指导多核苷酸的cr核苷酸和tracr核苷酸可以是RNA、DNA和/或RNA-DNA组合序列。(公开于2015年3月19日的美国专利申请US 20150082478和公开于2015年2月26日的美国专利申请US 20150059010，通过引用结合于此)。在一些实施例中，双链体指导多核苷酸的cr核苷酸分子被称为“crDNA”(当由DNA核苷酸的连续延伸构成时)或“crRNA”(当由RNA核苷酸的连续延伸构成时)或“crDNA-RNA”(当由DNA和RNA核苷酸的组合构成时)。cr核苷酸可以包含在细菌和古细菌中天然存在的crRNA的片段。可以存在于本文披露的cr核苷酸中的、细菌和古细菌中天然存在的crRNA片段的大小可以是但不限于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个核苷酸。在一些实施例中，tracr核苷酸被称为“tracrRNA”(当由RNA核苷酸的连续延伸构成时)或“tracrDNA”(当由DNA核苷酸的连续延伸构成时)或“tracrDNA-RNA”(当由DNA和RNA核苷酸的组合构成时)。在某些实施例中，指导RNA/Cas9内切核酸酶复合物的RNA是包含双链体crRNA-tracrRNA的双链体化的RNA。

在一个方面，所述指导多核苷酸是能够形成PGEN的指导多核苷酸，所述PGEN包含至少一个指导多核苷酸和至少一个本文所述的Cas9内切核酸酶变体，其中所述指导多核苷酸包含与靶DNA中的核苷酸序列互补的第一核苷酸序列结构域(VT结构域)和与所述Cas内切核酸酶多肽相互作用的第二核苷酸序列结构域。

在一个方面，所述指导多核苷酸是本文所述的针对多核苷酸，其中所述第一核苷酸序列结构域(VT结构域)和所述第二核苷酸序列结构域选自由以下组成的组：DNA序列、RNA序列及其组合。

在一个方面，所述指导多核苷酸是本文所述的指导多核苷酸，其中所述第一核苷酸序列和所述第二核苷酸序列结构域选自由以下组成的组：增强稳定性的RNA主链修饰，增强稳定性的DNA主链修饰及其组合(参见Kanasty等人,2013,Common RNA-backbonemodifications[常见RNA主链修饰],Nature Materials[自然材料]12:976-977；)

所述指导多核苷酸包括双RNA分子，所述双RNA分子包含与至少一个tracrRNA连接(非共价连接)的嵌合的非天然存在的crRNA。嵌合的非天然存在的crRNA包括包含在自然界中不一起发现的区域(即，它们彼此异源)的crRNA。例如，非天然存在的crRNA是其中天然存在的间隔子序列被交换为异源可变靶向结构域的crRNA。非天然存在的crRNA包含可与靶DNA中的核苷酸序列杂交的第一核苷酸序列结构域(称为可变靶向结构域或VT结构域)，所述第一核苷酸序列结构域与第二核苷酸序列(也称为tracr配对序列)连接，使得所述第一和第二序列在自然界中未被发现连接在一起。

指导多核苷酸也可以是包含连接至tracr核苷酸序列的cr核苷酸序列的单分子(也称为单指导多核苷酸)。单指导多核苷酸包含可以与靶DNA中的核苷酸序列杂交的第一核苷酸序列结构域(称为可变靶向结构域或VT结构域)和与Cas内切核酸酶多肽相互作用的Cas内切核酸酶识别结构域(CER结构域)。“结构域”意指可以为RNA、DNA和/或RNA-DNA组合序列的核苷酸的连续延伸。单指导多核苷酸的VT结构域和/或CER结构域可以包含RNA序列、DNA序列或RNA-DNA组合序列。由来自cr核苷酸和tracr核苷酸的序列构成的单指导多核苷酸可以被称为“单指导RNA”(当由RNA核苷酸的连续延伸构成时)或“单指导DNA”(当由DNA核苷酸的连续延伸构成时)或“单指导RNA-DNA”(当由RNA和DNA核苷酸的组合构成时)。单指导多核苷酸可以与Cas内切核酸酶形成复合物，其中所述指导多核苷酸/Cas内切核酸酶复合物(还称为指导多核苷酸/Cas内切核酸酶系统)可以将Cas内切核酸酶引导至基因组靶位点，使所述Cas内切核酸酶能够识别、结合靶位点、并任选地使靶位点产生切口或切割(引入单链或双链断裂)靶位点。

术语“可变靶向结构域”或“VT结构域”在本文中可互换使用，并且包括可以与双链DNA靶位点的一条链(核苷酸序列)杂交(互补)的核苷酸序列。第一核苷酸序列结构域(VT结构域)与靶序列之间的互补％可以为至少50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、63％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％。可变靶向结构域可以是至少12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸长度。

可变靶向结构域可包含12至30、12至29、12至28、12至27、12至26、12至25、12至26、12至25、12至24、12至23、12至22、12至21、12至20、12至19、12至18、12至17、12至16、12至15、12至14、12至13、13至30、13至29、13至28、13至27、13至26、13至25、13至26、13至25、13至24、13至23、13至22、13至21、13至20、13至19、13至18、13至17、13至16、13至15、13至14、14至30、14至29、14至28、14至27、14至26、14至25、14至26、14至25、14至24、14至23、14至22、14至21、14至20、14至19、14至18、14至17、14至16、14至15、15至30、15至29、15至28、15至27、15至26、15至25、15至26、15至25、15至24、15至23、15至22、15至21、15至20、15至19、15至18、15至17、15至16、16至30、16至29、16至28、16至27、16至26、16至25、16至24、16至23、16至22、16至21、16至20、16至19、16至18、16至17、17至30、17至29、17至28、17至27、17至26、17至25、17至24、17至23、17至22、17至21、17至20、17至19、17至18、18至30、18至29、18至28、18至27、18至26、18至25、18至24、18至23、18至22、18至21、18至20、18至19、19至30、19至29、19至28、19至27、19至26、19至25、19至24、19至23、19至22、19至21、19至20、20至30、20至29、20至28、20至27、20至26、20至25、20至24、20至23、20至22、20至21、21至30、21至29、21至28、21至27、21至26、21至25、21至24、21至23、21至22、22至30、22至29、22至28、22至27、22至26、22至25、22至24、22至23、23至30、23至29、23至28、23至27、23至26、23至25、23至24、24至30、24至29、24至28、24至27、24至26、24至25、25至30、25至29、25至28、25至27、25至26、26至30、26至29、26至28、26至27、27至30、27至29、27至28、28至30、28至29、或29至30个核苷酸的连续延伸。

可变靶向域可以由DNA序列、RNA序列、修饰的DNA序列、修饰的RNA序列或其任何组合构成。VT结构域可以与衍生自原核或真核DNA的靶序列互补。

术语(指导多核苷酸的)“Cas内切核酸酶识别结构域”或“CER结构域”在本文中可互换地使用，并且包括与Cas内切核酸酶多肽相互作用的核苷酸序列。CER结构域包含tracr核苷酸配对序列，随后是tracr核苷酸序列。CER结构域可以由DNA序列、RNA序列、修饰的DNA序列、修饰的RNA序列(参见例如2015年2月26日公开的US2015-0059010A1，其通过引用以其全文结合在此)或其任何组合构成。

连接单指导多核苷酸的cr核苷酸和tracr核苷酸的核苷酸序列可以包含RNA序列、DNA序列或RNA-DNA组合序列。在一个实施例中，连接单指导多核苷酸的cr核苷酸和tracr核苷酸的核苷酸序列(也称为“环”)可以是至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100个核苷酸的长度。所述环可以是3-4、3-5、3-6、3-7、3-8、3-9、3-10、3-11、3-12、3-13、3-14、3-15、3-20、3-30、3-40、3-50、3-60、3-70、3-80、3-90、3-100、4-5、4-6、4-7、4-8、4-9、4-10、4-11、4-12、4-13、4-14、4-15、4-20、4-30、4-40、4-50、4-60、4-70、4-80、4-90、4-100、5-6、5-7、5-8、5-9、5-10、5-11、5-12、5-13、5-14、5-15、5-20、5-30、5-40、5-50、5-60、5-70、5-80、5-90、5-100、6-7、6-8、6-9、6-10、6-11、6-12、6-13、6-14、6-15、6-20、6-30、6-40、6-50、6-60、6-70、6-80、6-90、6-100、7-8、7-9、7-10、7-11、7-12、7-13、7-14、7-15、7-20、7-30、7-40、7-50、7-60、7-70、7-80、7-90、7-100、8-9、8-10、8-11、8-12、8-13、8-14、8-15、8-20、8-30、8-40、8-50、8-60、8-70、8-80、8-90、8-100、9-10、9-11、9-12、9-13、9-14、9-15、9-20、9-30、9-40、9-50、9-60、9-70、9-80、9-90、9-100、10-20、20-30、30-40、40-50、50-60、70-80、80-90或90-100个核苷酸长度。

在另一方面，连接单指导多核苷酸的cr核苷酸和tracr核苷酸的核苷酸序列可以包含四核苷酸环序列，例如但不限于GAAA四核苷酸环序列。

所述单指导多核苷酸包括嵌合的非天然存在的单指导RNA。术语“单指导RNA”和“sgRNA”在本文中可互换使用，并涉及两个RNA分子的合成融合，其中包含可变靶向结构域(与tracrRNA杂交的tracr配对序列连接)的crRNA(CRISPR RNA)与tracrRNA(反式激活CRISPR RNA)融合。嵌合的非天然存在的指导RNA包含在自然界中不一起发现的区域(即，它们彼此异源)。例如，嵌合的非天然存在的指导RNA包含可与靶DNA中的核苷酸序列杂交的第一核苷酸序列结构域(称为可变靶向结构域或VT结构域)，所述第一核苷酸序列结构域与可识别Cas内切核酸酶的第二核苷酸序列连接，使得所述第一和第二核苷酸序列在自然界中未被发现连接在一起。

嵌合的非天然存在的指导RNA可包含II型CRISPR/Cas系统的crRNA或和tracrRNA，其可与II型Cas内切核酸酶，例如本文所述的Cas9内切核酸酶变体形成复合物，其中所述指导RNA/Cas内切核酸酶复合物可以将Cas内切核酸酶导向DNA靶位点，使Cas内切核酸酶能够识别、结合DNA靶位点并任选地使DNA靶位点产生切口或切割(引入单链或双链断裂)DNA靶位点。

指导多核苷酸的产生和稳定化

指导多核苷酸可以通过本领域已知的任何方法产生，包括化学合成指导多核苷酸(例如但不限于Hendel等人2015，Nature Biotechnology[自然生物技术]33,985-989)、体外产生的指导多核苷酸、和/或自剪接指导RNA(例如但不限于Xie等人2015，PNAS[美国科学院院报]112:3570-3575)。

在真核细胞中表达RNA组分(例如指导RNA)用于进行Cas9介导的DNA靶向的方法已经使用RNA聚合酶III(Pol III)启动子，其允许具有精确定义的未修饰的5’-和3’-末端的RNA转录(DiCarlo等人，Nucleic Acids Res.[核酸研究]41:4336-4343；Ma等人，Mol.Ther.Nucleic Acids[分子治疗-核酸]3:e161)。此策略已经成功应用于若干不同物种(包括玉蜀黍和大豆)的细胞中(2015年3月19日公开的US20150082478)。已经描述了用于表达并不具有5’-帽的RNA组分的方法(2016年2月18日公开的WO 2016/025131)。

在一些方面，主题核酸(例如，指导多核苷酸，包含编码指导多核苷酸的核苷酸序列的核酸；编码Cas蛋白的核酸；crRNA或编码crRNA的核苷酸，tracrRNA或编码tracrRNA的核苷酸，编码VT结构域的核苷酸，编码CPR结构域的核苷酸等)包含提供另外的所需特征(例如，经修饰或调节的稳定性；亚细胞靶向性；追踪例如荧光标记物；蛋白质或蛋白质复合物的结合位点；等)的修饰或序列。指导多核苷酸、VT结构域和/或CER结构域的核苷酸序列修饰可以选自但不限于由以下各项组成的组：5'帽、3'聚腺苷酸尾、核糖开关序列、稳定性控制序列、形成dsRNA双链体的序列、将指导多核苷酸靶向亚细胞位置的修饰或序列、提供跟踪的修饰或序列、提供蛋白质结合位点的修饰或序列、锁核酸(LNA)、5-甲基dC核苷酸、2,6-二氨基嘌呤核苷酸、2’-氟代A核苷酸、2’-氟代U核苷酸、2'-O-甲基RNA核苷酸、硫代磷酸酯键、与胆固醇分子的连接、与聚乙二醇分子的连接、与间隔子18分子的连接、5’至3’共价连接、或其任何组合。这些修饰可以产生至少一个另外的有益特征，其中该另外的有益特征选自由以下组成的组：修改的或调节的稳定性、亚细胞靶向、跟踪、荧光标记、用于蛋白质或蛋白质复合物的结合位点、对互补靶序列的修改的结合亲和力、修改的细胞降解抗性和增加的细胞通透性。

术语“5’-帽”和“7-甲基鸟苷酸(m⁷G)帽”在本文中可互换使用。7-甲基鸟苷酸残基位于真核生物中信使RNA(mRNA)的5′末端。在真核生物中，RNA聚合酶II(Pol II)转录mRNA。信使RNA加帽通常如下：用RNA末端磷酸酶去除mRNA转录物的最末端5’磷酸根基团，留下两个末端磷酸根。用鸟苷酸转移酶将一磷酸鸟苷(GMP)添加至转录物的末端磷酸根，在转录物末端处留下5′-5′三磷酸连接的鸟嘌呤。最后，此末端鸟嘌呤的7-氮被甲基转移酶甲基化。

受指导的Cas系统

如本文所用，术语“指导多核苷酸/Cas内切核酸酶复合物”、“指导多核苷酸/Cas内切核酸酶系统”、“指导多核苷酸/Cas复合物”、“指导多核苷酸/Cas系统”和“指导Cas系统”、“多核苷酸指导的内切核酸酶”、“PGEN”在本文中可互换使用，并且是指能够形成复合物的至少一种指导多核苷酸和至少一种Cas内切核酸酶，其中所述指导多核苷酸/Cas内切核酸酶复合物可以将Cas内切核酸酶引导至DNA靶位点，使Cas内切核酸酶能够对DNA靶位点进行识别、结合、并且任选地产生切口或进行切割(引入单链或双链断裂)。本文中的指导多核苷酸/Cas内切核酸酶复合物可包含一种或多种Cas蛋白、或其片段和变体、和任何已知的CRISPR系统的一种或多种合适的多核苷酸组分(Horvath和Barrangou,2010,Science[科学]327:167-170；Makarova等人,2015,Nature Reviews Microbiology[自然综述微生物学]第13卷:1-15；Zetsche等人,2015,Cell[细胞]163,1-13；Shmakov等人,2015,MolecularCell[分子细胞]60,1-13)。Cas内切核酸酶在靶序列处解开DNA双链体并任选地切割至少一条DNA链，如通过由与Cas蛋白复合的多核苷酸(例如但不限于crRNA或指导RNA)识别靶序列所介导的。如果正确的前间隔子邻近基序(PAM)位于或相邻于DNA靶序列的3'末端，则通过Cas内切核酸酶对靶序列进行的此类识别和切割典型地会发生。可替代地，本文中的Cas蛋白可能缺乏DNA切割或切口活性，但是当与合适的RNA组分复合时，仍然可以特异性结合DNA靶序列。

可以切割DNA靶序列的两条链的指导多核苷酸/Cas内切核酸酶复合物通常包含具有处于功能状态的所有其内切核酸酶结构域的Cas蛋白(例如野生型内切核酸酶结构域或其变体在每个内切核酸酶结构域中保留一些或全部活性)。因此，在Cas蛋白的每个内切核酸酶结构域中保留一些或全部活性的野生型Cas蛋白(例如，本文披露的Cas蛋白)或其变体是可以切割DNA靶序列的两条链的Cas内切核酸酶的合适实例。

可以切割DNA靶序列的一条链的指导多核苷酸/Cas内切核酸酶酶复合物可以在本文中表征为具有切口酶活性(例如，部分切割能力)。Cas切口酶通常包含一个功能性内切核酸酶结构域，该结构域允许Cas仅切割DNA靶序列的一条链(即，形成切口)。例如，Cas9切口酶可以包含(i)突变的、功能失调的RuvC结构域和(ii)功能性HNH结构域(例如野生型HNH结构域)。作为另一个实例，Cas9切口酶可以包含(i)功能性RuvC结构域(例如野生型RuvC结构域)和(ii)突变的功能失调的HNH结构域。作为另一个实例，Cas9切口酶可以包含(i)功能性RuvC结构域(例如野生型RuvC结构域)和(ii)突变的功能失调的HNH结构域。

适用于本文使用的Cas9切口酶的非限制性实例披露于以下文献中：Gasiunas等人(Proc.Natl.Acad.Sci.U.S.A.[美国科学院院报]109:E2579-E2586)、Jinek等人(Science[科学]337:816-821)、Sapranauskas等人(Nucleic Acids Res.[核酸研究]39:9275-9282)和美国专利申请公开号2014/0189896，将其通过引用结合在此。

例如，本文中的Cas9切口酶可以包含嗜热链球菌Cas9，该嗜热链球菌Cas9具有Asp-31取代(例如，Asp-31-Ala)(突变的RuvC结构域的实例)，或His-865取代(例如，His-865-Ala)、Asn-882取代(例如，Asn-882-Ala)或Asn-891取代(例如，Asn-891-Ala)(突变的HNH结构域的实例)。而且，例如，本文中的Cas9切口酶可以包含酿脓链球菌Cas9，该酿脓链球菌Cas9具有Asp-10取代(例如，Asp-10-Ala)、Glu-762取代(例如，Glu-762-Ala)或Asp-986取代(例如，Asp-986-Ala)(突变的RuvC结构域的实例)，或His-840取代(例如，His-840-Ala)、Asn-854取代(例如，Asn-854-Ala)或Asn-863取代(例如，Asn-863-Ala)(突变的HNH结构域的实例)。关于酿脓链球菌Cas9，三个RuvC亚结构域通常分别位于氨基酸残基1-59、718-769和909-1098，并且HNH结构域位于氨基酸残基775-908(Nishimasu等人，Cell[细胞]156:935-949)。

本文中的Cas9切口酶可以在公开的发明的宿主细胞中用于各种目的。例如，Cas9切口酶可以用于在DNA靶位点序列处或其附近用合适的供体多核苷酸刺激HR。由于缺口DNA不是用于NHEJ过程的底物，而是由HR过程所识别的，特异性靶位点处的切口DNA应该使得位点更容易被用合适的供体多核苷酸进行的HR所接受。

可以使用一对Cas切口酶来增加DNA靶向的特异性。一般来说，这可以通过提供两个Cas切口酶来进行，这两个Cas切口酶通过与具有不同引导序列的RNA组分缔合，在希望靶向的区域的相反链上在DNA序列附近进行靶向和切口。每个DNA链的这样的附近切割产生双链断裂(即，具有单链突出端的DSB)，其然后被识别为非同源末端连接(NHEJ)(倾向于产生导致突变的不完美修复)或同源重组(HR)的底物。在这些实施例中的每个切口可以，例如，彼此分离至少约5、10、15、20、30、40、50、60、70、80、90、或100(或在5与100之间的任何整数)个碱基。本文中的一种或两种Cas切口酶蛋白可以用于Cas切口酶对。例如，可以使用具有突变的RuvC结构域但具有功能性HNH结构域的Cas9切口酶(即，Cas9 HNH+/RuvC-)(例如，酿脓链球菌Cas9 HNH+/RuvC-)。通过使用本文中的合适的RNA组分(具有将每个切口酶靶向每个特异性DNA位点的指导RNA序列)，将每个Cas9切口酶(例如，Cas9 HNH+/RuvC-)引导到彼此邻近(分离多达100个碱基对)的特定的DNA位点。

在某些实施例中指导多核苷酸/Cas内切核酸酶复合物可以结合DNA靶位点序列，但不切割在靶位点序列处的任何链。这样的复合物可以包含其中所有核酸酶结构域都是突变的、功能失调的Cas蛋白。例如，可以结合到DNA靶位点序列但在靶位点序列处不切割任何链的本文的Cas9蛋白可以包含突变的、功能失调的RuvC结构域和突变的、功能失调的HNH结构域。这样的Cas9蛋白的非限制性实例包括上文披露的任何RuvC和HNH核酸酶结构域突变(例如，具有Asp-10取代(例如Asp-10-Ala)和His-840取代(例如His-840-Ala)的酿脓链球菌Cas9)。结合但不切割靶DNA序列的本文中的Cas蛋白可以用于调节基因表达，例如，在该情况下，Cas蛋白可以与转录因子(或其部分)融合(例如抑制子或激活子，例如本文披露的那些中的任一种)。例如，可以将包含具有Asp-10取代(例如Asp-10-Ala)和His840取代(例如His-840-Ala)的酿脓链球菌Cas9的Cas9融合到VP16或VP64转录激活子结构域。

指导多核苷酸/Cas内切核酸酶复合物可包含本文所述Cas内切核酸酶变体或其活性片段，其中所述指导多核苷酸是嵌合的非天然存在的指导多核苷酸，其中所述指导多核苷酸/Cas内切核酸酶复合物能够识别、结合靶序列的全部或部分并任选地使靶序列的全部或部分产生切口、解旋或切割靶序列的全部或部分。

在一个方面，指导多核苷酸/Cas内切核酸酶复合物是本文所述的指导多核苷酸和Cas9内切核酸酶变体的复合物，其中所述指导多核苷酸是嵌合的非天然存在的指导多核苷酸，其中所述Cas9内切核酸酶变体在与其亲本Cas内切核酸酶(与相同的指导多核苷酸复合形成能够修饰相同靶位点的受多核苷酸指导的内切核酸酶复合物)相比时具有至少一种改善的特性，例如但不限于，增加的转化效率、增加的DNA编辑效率、减少的脱靶切割、或其任何组合。

指导多核苷酸/Cas内切核酸酶复合物可以是指导多核苷酸和本文描述的Cas9内切核酸酶变体的复合物，其中所述指导多核苷酸是嵌合的非天然存在的指导多核苷酸，其中所述Cas9内切核酸酶变体或其活性片段与本文描述的亲本Cas9多肽具有至少80％的氨基酸同一性，并且在其HNH和RuVC结构域外的位置处具有至少一个氨基酸取代，其中所述变体的氨基酸位置通过与亲本Cas9多肽的氨基酸序列相对应来编号，其中所述Cas9内切核酸酶变体具有内切核酸酶活性。

指导多核苷酸/Cas内切核酸酶复合物可以是指导多核苷酸和本文描述的Cas9内切核酸酶变体的复合物，其中所述指导多核苷酸是嵌合的非天然存在的指导多核苷酸，其中所述Cas9内切核酸酶变体或其活性片段与SEQ ID N0:1中所示的亲本Cas9多肽具有至少80％的氨基酸同一性，并且在位置155处具有至少一种氨基酸取代，其中所述变体的氨基酸位置通过与亲本Cas9多肽的氨基酸序列相对应来编号，其中所述Cas9内切核酸酶变体具有内切核酸酶活性。

指导多核苷酸/Cas内切核酸酶复合物可以是指导多核苷酸和本文描述的Cas9内切核酸酶变体的复合物，其中所述指导多核苷酸是嵌合的非天然存在的指导多核苷酸，其中所述Cas9内切核酸酶变体或其活性片段与SEQ ID N0:1中所示的亲本Cas9多肽具有至少80％的氨基酸同一性，并且具有至少两个氨基酸取代，第一个在位置86处，第二个在位置98处，其中所述变体的氨基酸位置通过与亲本Cas9多肽的氨基酸序列相对应来编号，其中所述Cas9内切核酸酶变体具有内切核酸酶活性。

术语“指导RNA/Cas内切核酸酶复合物”、“指导RNA/Cas内切核酸酶系统”、“指导RNA/Cas复合物”、“指导RNA/Cas系统”、“gRNA/Cas复合物”、“gRNA/Cas系统”、“RNA指导的内切核酸酶”、“RGEN”在本文中可互换地使用并且指能够形成复合物的至少一种RNA组分和至少一种Cas内切核酸酶，其中所述指导RNA/Cas内切核酸酶复合物可以将Cas内切核酸酶引导至DNA靶位点，使Cas内切核酸酶能够识别、结合DNA靶位点并任选地使DNA靶位点产生切口或切割(引入单链或双链断裂)DNA靶位点。

本文所述的指导Cas系统可在宿主细胞中从一种或多种表达构建体表达。在一些方面，本文描述的Cas内切核酸酶变体可以从引导Cas蛋白在原核或真核细胞中表达的表达盒表达，并且指导多核苷酸可以从引导所述指导多核苷酸在原核或真核细胞中表达的第二表达盒表达。

本公开还提供了用于在原核或真核细胞/生物体中表达指导RNA/Cas系统的表达构建体，所述指导RNA/Cas系统能够识别、结合靶序列的全部或部分并任选地使靶序列的全部或部分产生切口、解旋或切割靶序列的全部或部分。

表达盒和重组DNA构建体

本文公开的多核苷酸可以提供在表达盒(也称为DNA构建体)中用于在目的生物体中表达。本文所用的术语“表达”是指产生功能性终产物(例如，crRNA、tracrRNA、mRNA、指导RNA或处于前体或成熟形式的多肽(蛋白质))。术语“表达”包括涉及多肽的生产的任何步骤，这些步骤包括但不限于转录、转录后修饰、翻译、翻译后修饰和分泌。

表达盒可以包括有效地连接至本文公开的多核苷酸的5'和3'调节序列。

“有效地连接”旨在表示两个或更多个元件之间的功能性连接。例如，目的多核苷酸和调节序列(例如启动子)之间的可操作连接是允许目的多核苷酸表达的功能性连接(即，目的多核苷酸在启动子的转录控制下)。有效地连接的元件可以是连续的或非连续的。当用于指两个蛋白质编码区域的连接时，有效地连接意在是这些编码区域处于相同的阅读框中。

本文公开的表达盒可以5'-3'转录的方向包含转录和翻译起始区域(即启动子)、目的多核苷酸、和在宿主细胞(例如，真核细胞)中起作用的转录和翻译终止区域(即终止区域)。还提供可以具有多个限制性位点和/或重组位点的表达盒，用于将多核苷酸插入到本文其他地方所述的调节区的转录调节之下。这些调节区(即启动子、转录调节区和翻译终止区)和/或目的多核苷酸对于宿主细胞或彼此之间可以是天然的/类似的。可替代地，这些调节区和/或目的多核苷酸对于宿主细胞或彼此之间可以是异源的。如本文所用，关于序列的“异源性”是指该序列源于外来物种，或者，如果源于相同物种的话，则是通过蓄意人为干预从其在组合物和/或基因组基因座中的天然形式进行实质性修饰得到的多核苷酸或多肽序列。例如，有效地连接至异源多核苷酸的启动子来自与从其衍生该多核苷酸的物种不同的物种，或者，如果来自相同/类似的物种，那么一方或双方基本上由它们的原来形式和/或基因组基因座修饰得到，或者该启动子不是被有效地连接的多核苷酸的天然启动子。如本文所用，除非另有指定外，嵌合多核苷酸包含与转录起始区有效地连接的编码序列，该转录起始区对于该编码序列是异源的。

在某些实施例中，本文公开的多核苷酸可与本文别处公开的或本领域已知的目的多核苷酸序列或表达盒的任何组合堆叠。堆叠的多核苷酸有效地连接到与初始多核苷酸相同的启动子，或有效地连接到单独的启动子多核苷酸。

表达盒可以包含与目的多核苷酸有效地连接的启动子，以及相应的终止区。所述终止区对于转录起始区可以是天然的，对于有效连接的目的多核苷酸或对于启动子序列可以是天然的，对于宿主生物体可以是天然的，或者可以衍生自另一种来源(即外源或异源)。从噬菌体序列可以获得方便的终止区，例如λ噬菌体t0终止区，或来自原核核糖体RNA操纵子的强终止子。方便的终止区可获自根癌农杆菌(A.tumefaciens)的Ti质粒，如章鱼碱合酶和胭脂碱合酶终止区。参见Guerineau等人(1991)Mol.Gen.Genet.[分子遗传学和普通遗传学]262:141-144；Proudfoot(1991)Cell[细胞]64:671-674；Sanfacon等人，(1991)GenesDev.[基因与发育]5:141-149；Mogen等人(1990)Plant Cell[植物细胞]2:1261-1272；Munroe等人，(1990)Gene[基因]，91:151-158；Ballas等人(1989)Nucleic Acids Res.[核酸研究]17:7891-7903；以及Joshi等人(1987)Nucleic Acid Res.[核酸研究]15:9627-9639。

适当时，可以优化目的多核苷酸以增加在转化的或靶向的宿主生物体中的表达。例如，可以合成或改变多核苷酸以使用生物体偏好的密码子来实现改善的表达。

已知有另外的序列修饰能增强细胞宿主中的基因表达。这些包括消除以下序列：编码假聚腺苷酸化信号、外显子-内含子剪接位点信号、转座子样重复的序列、及可能不利于基因表达的其他经充分表征的序列。可将序列的G-C含量调整至通过参照宿主细胞中表达的已知基因而计算出的给定细胞宿主的平均水平。当可能时，修饰序列以避免出现可预见的发夹二级mRNA结构。

表达盒可以另外包含5'前导序列。此类前导序列可以起到增强翻译的作用。与5’非翻译区互换使用的5’前导序列可以来自已知且良好表征的细菌UTR，例如来自枯草芽孢杆菌aprE基因或地衣芽孢杆菌amyl基因或任何细菌核糖体蛋白基因的那些。翻译前导序列在本领域是已知的，并且包括：小核糖核酸病毒前导序列，例如EMCV前导序列(脑心肌炎5'非编码区)(Elroy-Stein等人,(1989)Proc.Natl.Acad.Sci.USA[美国科学院院报]，86:6126-6130)；马铃薯Y病毒(potyvirus)前导区，例如，TEV前导区(烟草蚀刻病毒)(Gallie等人(1995)Gene[基因]165(2):233-238)，MDMV前导区(玉蜀黍矮花叶病毒)(Johnson等人(1986)Virology[病毒学]154:9-20)，和人免疫球蛋白重链结合蛋白(BiP)(Macejak等人(1991)Nature[自然]353:90-94)；来自苜蓿花叶病毒的外壳蛋白mRNA的非翻译前导序列(AMV RNA 4)(Jobling等人(1987)Nature[自然]325:622-625)；烟草花叶病毒前导区(TMV)(Gallie等人(1989)Molecular Biology of RNA,[RNA的分子生物学],Cech编(Liss[丽丝公司],纽约),第237-256页)；以及玉蜀黍褪绿斑驳病毒前导区(MCMV)(Lommel等人(1991)Virology[病毒学]81:382-385)。还参见，Della-Cioppa等人(1987)Plant Physiol.[植物生理学]84:965-968。还可以利用已知增强翻译的其他方法，例如内含子等。

在制备表达盒时，可以操作各种DNA片段，以提供处于适当方向以及合适时，处于适当阅读框中的DNA序列。为此，可采用衔接子(adapter)或接头以连接DNA片段，或可以涉及其他操作以提供方便的限制位点、移除多余的DNA、移除限制位点等。出于这个目的，可以涉及体外诱变、引物修复、限制性酶切(restriction)、退火、再取代(例如转换和颠换)。

在一些实施例中，编码指导核苷酸和/或Cas蛋白的核苷酸序列有效地连接至控制元件，例如，转录控制元件，如启动子。转录控制元件可在真核细胞(例如，植物细胞、哺乳动物细胞或真菌细胞)或原核细胞(例如，细菌或古细菌细胞)中起作用。在一些实施例中，编码指导核苷酸和/或Cas蛋白的核苷酸序列有效地连接到多个控制元件，所述多个控制元件允许编码指导核苷酸和/或Cas蛋白的核苷酸序列在原核细胞和真核细胞中表达。

合适的真核启动子(在真核细胞中起作用的启动子)的非限制性实例包括来自巨细胞病毒(CMV)即刻早期、单纯疱疹病毒(HSV)胸苷激酶、SV40早期和晚期、来自逆转录病毒的长末端重复序列(LTR)以及小鼠金属硫蛋白-I的启动子。表达盒还可包含用于翻译起始的核糖体结合位点和转录终止子。表达盒还可包含一个或多个核定位序列(NLS序列)，以将指导核苷酸和/或Cas蛋白引导至真核细胞中的核。表达盒还可以包括用于扩大表达的适当序列。表达盒还可以包括编码与Cas蛋白融合的蛋白质标签(例如6x His标签、血凝素标签、绿色荧光蛋白等)，从而产生嵌合多肽的核苷酸序列。

对于在真菌宿主中转录，有用的启动子的非限制性实例包括来源于编码以下的基因的那些：米曲霉TAKA淀粉酶、米黑根毛霉(Rhizomucor miehei)天冬氨酸蛋白酶、黑曲霉中性α-淀粉酶、黑曲霉酸性稳定α-淀粉酶、黑曲霉葡糖淀粉酶、米黑根毛霉脂肪酶、米曲霉碱性蛋白质、米曲霉磷酸丙糖异构酶、构巢曲霉(Aspergillus nidulans)乙酰胺酶等等。当编码Cas内切核酸酶的基因在细菌物种(例如大肠杆菌)中表达时，可以从例如包括T7启动子和λ噬菌体启动子的噬菌体启动子中选择合适的启动子。沿着这些思路，用于在酵母物种中表达的合适启动子的实例包括但不限于酿酒酵母的Gal 1和Gal 10启动子和巴斯德毕赤酵母(Pichia pastoris)AOX1或AOX2启动子。在丝状真菌宿主细胞中的表达通常涉及cbh1，其是来自里氏木霉的内源诱导型启动子或组成型糖酵解启动子(例如pki)。例如，参见Liu等人，2008。

用于引导细菌宿主中DNA序列(例如但不限于编码本文所述的Cas内切核酸酶变体的DNA序列)转录的启动子的非限制性实例包括大肠杆菌(E.coli)的乳糖操纵子的启动子、天蓝色链霉菌(Streptomyces coelicolor)琼脂酶基因dagA或celA启动子、地衣芽孢杆菌(Bacillus licheniformis)淀粉酶基因(amyL)的启动子、嗜热脂肪芽孢杆菌(Bacillusstearothermophilus)生麦芽糖淀粉酶基因(amyM)的启动子、解淀粉芽孢杆菌(Bacillusamyloliquefaciens)淀粉酶(amyQ)的启动子、枯草芽孢杆菌xylA和xylB基因的启动子等等。

表达盒可以包含在线性DNA、环状DNA、重组DNA、质粒或载体中。

如本文所用，术语“重组”是指例如通过化学合成或者通过基因工程技术操纵分离的核酸区段来将两个原本分开的序列区段进行人工组合。当用于提及生物组分或组合物(例如细胞、核酸、多肽/酶、载体等)时，术语“重组体”表示生物组分或组合物处于自然界中未发现的状态。换句话说，生物组分或组合物已经通过人类干预从其天然状态改变。例如，重组细胞涵盖表达在其天然亲本(即非重组)细胞中未发现的一种或多种基因的细胞、以不同于其天然亲本细胞的量表达一种或多种天然基因的细胞、和/或在不同于其天然亲本细胞的条件下表达一种或多种天然基因的细胞。重组核酸可以通过一个或多个核苷酸与天然序列不同、有效地连接到异源序列(例如异源启动子、编码非天然或变体信号序列的序列等)、缺乏内含子序列、和/或处于分离的形式。重组多肽/酶可以通过一个或多个氨基酸与天然序列不同，可以与异源序列融合，可以被截短或具有氨基酸的内部缺失，能以在天然细胞中未发现的方式表达(例如，来自重组细胞，该重组细胞由于细胞中存在编码多肽的表达载体而过量表达多肽)，和/或处于分离的形式。需要强调的是，在一些实施例中，重组多核苷酸或多肽/酶具有与其野生型对应物同一但处于非天然形式(例如，处于分离或富集的形式)的序列。

如本文所用，“重组DNA构建体”或“重组DNA”是指包含核酸片段的人工组合的表达盒。重组DNA构建体可以包括有效地连接至本文公开的多核苷酸的5'和3'调节序列。

例如，重组DNA构建体可以包含衍生自不同来源的调节序列和编码序列。这种构建体可以单独使用或可以与载体结合使用。如果使用载体，则载体的选择取决于如本领域技术人员熟知的将用于将载体引入宿主细胞的方法。例如，可以使用质粒载体。技术人员充分了解必须存在于载体上以便成功转化，选择和繁殖宿主细胞的遗传元件。本领域技术人员还将认识到，不同的独立转化事件可能导致不同的表达水平和模式(Jones等人,(1985)EMBO J[欧洲分子生物学组织杂志]4:2411-2418；De Almeida等人,(1989)Mol GenGenetics[分子遗传学和普通遗传学]218:78-86)，因此典型地筛选多个事件，以获得显示所希望的表达水平和模式的品系。此类筛选可以是完成的标准分子生物学测定、生物化学测定以及其他测定，这些测定包括DNA的印迹分析、mRNA表达的Northern分析、PCR、实时定量PCR(qPCR)、逆转录PCR(RT-PCR)、蛋白表达的免疫印迹分析、酶测定或活性测定、和/或表型分析。

本文使用的标准重组DNA和分子克隆技术是在本领域熟知的，并且更全面地描述于Sambrook等人,Molecular Cloning:A Laboratory Manual[分子克隆：实验室手册]；Cold Spring Harbor Laboratory:Cold Spring Harbor,NY[冷泉港实验室：冷泉港，纽约州](1989)中。

在一个方面，该重组DNA构建体包含与本文公开的Cas9内切核酸酶变体有效地连接的异源5'和3'调节序列。这些调节序列包括但不限于在宿主细胞(如细菌或真菌细胞)中起作用的转录和翻译起始区(即启动子)、核定位信号以及转录和翻译终止区(即终止区)。

在一个方面，所述重组DNA构建体包含编码本文所述的Cas9内切核酸酶变体的DNA，其中所述Cas9内切核酸酶变体有效地连接至或包含异源调节元件，如核定位序列(NLS)。

在一个方面，本文的表达盒或重组DNA包含有效地连接到编码本文描述的Cas9内切核酸酶变体的核苷酸序列的启动子和有效地连接到本公开的指导RNA的启动子。该启动子能够驱动在原核或真核细胞/生物中有效地连接的核苷酸序列的表达。

术语“质粒”或“载体”是指线性或环状染色体外元件，其通常携带非细胞中心代谢的一部分的基因，并且通常呈双链DNA的形式。这样的元件可以是衍生自任何来源的、单链或双链多核苷酸的、处于直链或环状形式的自主复制序列、基因组整合序列、噬菌体、或核苷酸序列，其中许多核苷酸序列已经被连接或重组成能够将目的多核苷酸引入细胞中的独特构造。

靶位点

术语“靶位点”、“靶序列”、“靶位点序列”、“靶DNA”、“靶基因座”、“基因组靶位点”、“基因组靶序列”、“基因组靶基因座”和“前间隔子”在本文中可互换地使用，并且是指多核苷酸序列，例如，但不限于，在细胞的染色体、附加体、转基因基因座或基因组中的任何其他DNA分子(包括染色体DNA、叶绿体DNA、线粒体DNA、质粒DNA)上的核苷酸序列，在这些序列处指导多核苷酸/Cas内切核酸酶复合物可以进行识别、结合并任选地产生切口或进行切割。

靶位点可以是细胞的基因组中的内源性位点，或者可替代地，靶位点对于该细胞可以是异源的并且从而不是天然存在于细胞的基因组中，或者与在自然界发生的位置相比，可以在异质基因组位置中找到靶位点。如本文所用，术语“内源性靶序列”和“天然靶序列”在本文中可互换使用，是指对细胞基因组来说是内源的或天然的、并且位于细胞的基因组中该靶序列的内源或天然位置处的靶序列。“人工靶位点”或“人工靶序列”在本文中可互换使用，并且是指已经引入细胞的基因组中的靶序列。这样的人工靶序列可以在序列上与细胞的基因组中的内源性或天然靶序列相同，但是位于细胞的基因组中的不同位置(即，非内源性的或非天然的位置)处。

“改变的靶位点”、“改变的靶序列”、“修饰的靶位点”、“修饰的靶序列”在本文中可互换使用，并且是指如本文公开的靶序列，当与非改变的靶序列相比时，所述靶序列包括至少一个改变。此类“改变”包括，例如：(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、或(iv)(i)-(iii)的任何组合。

Cas内切核酸酶的靶位点可以是非常特异性的，并且通常可以被定义为确切的核苷酸位置，然而在一些情况下，所希望的基因组修饰的靶位点可以比仅DNA切割发生的位点更广泛地进行定义，例如有待于从基因组中缺失的基因组基因座或区域。因此，在某些情况下，经由Cas/指导RNA的活性发生的基因组修饰DNA切割被描述为发生在靶位点“处或附近”。

用于“修饰靶位点”和“改变靶位点”的方法在本文中可互换使用，并且是指用于产生改变的靶位点的方法。

可以使用多种方法来鉴定在靶位点处或靶位点附近具有改变的基因组的那些细胞，而不使用可筛选标记表型。此类方法可被认为是直接分析靶序列以检测靶序列中的任何变化，包括但不限于PCR方法、测序方法、核酸酶消化、DNA印迹法、及其任何组合。

靶DNA序列(靶位点)的长度可以变化，并且包括例如为至少12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或更多个核苷酸长度的靶位点。还有可能靶位点可以是回文的，即，一条链上的序列与在互补链上以相反方向的读取相同。切口/切割位点可以在靶序列内，或者切口/切割位点可以在靶序列之外。在另一种变异中，切割可以发生在彼此正好相对的核苷酸位置处，以产生平端切割，或者在其他情况下，切口可以交错以产生单链突出端，也称为“粘性末端”，其可以是5'突出端抑或或3'突出端。还可以使用基因组靶位点的活性变体。此类活性变体可以包含与给定靶位点至少65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的序列同一性，其中所述活性变体保留生物活性，因此能够被Cas内切核酸酶识别和切割。

测量由内切核酸酶引起的靶位点的单链或双链断裂的测定是本领域已知的，并且通常测量试剂在包含识别位点的DNA底物上的总体活性和特异性。

前间隔子邻近基序(PAM)

本文中的“前间隔子邻近基序”(PAM)是指与由指导多核苷酸/Cas内切核酸酶(PGEN)系统识别的(靶向的)靶序列(前间隔子)邻近的短核苷酸序列。如果靶DNA序列不在PAM序列后面，则Cas内切核酸酶可能无法成功识别所述靶DNA序列。本文中的PAM的序列和长度可以取决于所使用的Cas蛋白或Cas蛋白复合物而不同。所述PAM序列可以是任何长度，但典型地是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸长度。

鉴于正在使用的PGEN的类型，通常选择本文中的PAM。本文中的PAM序列可以是由包含Cas(例如本文描述的Cas9变体)的PGEN识别的PAM序列，所述Cas9源自于例如可从其得到Cas的本文披露的任何物种。在某些实施例中，PAM序列可以是由包含Cas9的RGEN所识别的PAM序列，该Cas9源自于酿脓链球菌(S.pyogenes)、嗜热链球菌(S.thermophilus)、无乳链球菌(S.agalactiae)、脑膜炎奈瑟氏球菌(N.meningitidis)、齿垢密螺旋体(T.denticola)或新凶手弗朗西斯菌(F.novicida)。例如，源自于酿脓链球菌的合适的Cas9(包括本文所述的Cas9 Y155变体)可以用于靶向具有NGG的PAM序列(N可以是A、C、T或G)的基因组序列。作为其他实例，当靶向具有以下PAM序列的DNA序列时，合适的Cas9可以源自于以下物种中的任一种：嗜热链球菌(NNAGAA)、无乳链球菌(NGG)、NNAGAAW[W是A或T]、NGGNG)、脑膜炎奈瑟氏菌(NNNNGATT)、齿垢密螺旋体(NAAAAC)、或新凶手弗朗西斯菌(NG)(其中在所有这些具体的PAM序列中的N是A、C、T或G)。可用于本文中的Cas9/PAM的其他实例包括在Shah等人(RNA Biology[RNA生物学]10:891-899)以及Esvelt等人(Nature Methods[自然方法]10:1116-1121)(其通过引用结合在此)中披露的那些。

受指导的Cas蛋白系统的用途

发现本文提供的组合物和方法可用于多种宿主细胞。如本文所用，“宿主细胞”是指用作核酸或基因组修饰系统(例如本文所述的指导多核苷酸/Cas内切核酸酶系统)的受体的任何细胞类型(例如但不限于体内或体外细胞，真核细胞，原核细胞或来自作为单细胞实体培养的多细胞生物体的细胞(例如细胞系))。术语“宿主细胞”包括已被本文所述的核酸或指导多核苷酸/Cas内切核酸酶复合物转化、转染或转导的原始细胞的子代。“重组宿主细胞”(也称为“基因修饰的宿主细胞”)是已导入异源核酸(例如重组DNA构建体)的宿主细胞，或已导入并包含基因组修饰系统(例如本文所述的指导多核苷酸/Cas内切核酸酶系统)的宿主细胞。例如，主题细菌宿主细胞包括通过将外源核酸(例如，质粒或重组DNA构建体)引入合适的细菌宿主细胞中进行基因修饰的细菌宿主细胞，而本发明的主题真核宿主细胞包括通过将外源核酸引入合适的真核宿主细胞中而进行基因修饰的真核宿主细胞(例如，真菌、哺乳动物生殖细胞或植物细胞)。

在一些实施例中，所述宿主细胞选自下组，该组由以下组成：原始细胞、细菌细胞、真核细胞、真核单细胞生物体、体细胞、生殖细胞、干细胞、植物细胞、藻类细胞、动物细胞、无脊椎动物细胞、脊椎动物细胞、鱼类细胞、青蛙细胞、鸟类细胞、昆虫细胞、哺乳动物细胞、猪细胞、牛细胞、山羊细胞、绵羊细胞、啮齿动物细胞、大鼠细胞、小鼠细胞、非人类的灵长类动物细胞和人类细胞。在一些情况下，该细胞是体外细胞。在一些情况下，该细胞是体内细胞。

本文描述的指导多核苷酸/Cas系统可以用于基因靶向。

术语“基因靶向”、“靶向”和“DNA靶向”在本文中可互换使用。本文中的DNA靶向可能是在特异性的DNA序列(例如细胞的染色体或质粒)中特异性引入敲除、编辑、或敲入。通常，本文中可以通过在具有与合适的多核苷酸组分缔合的Cas内切核酸酶的细胞中的特异性DNA序列处切割一条或两条链来进行DNA靶向。一旦在DNA中诱导单链断裂或双链断裂，则细胞的DNA修复机制被激活来经由会导致靶位点处的修饰的非同源末端连接(NHEJ)、或同源定向修复(HDR)过程修复断裂。

术语“敲除”、“基因敲除”和“基因敲除”在本文中可互换使用。敲除表示已经通过用Cas内切核酸酶(例如本文所述的Cas9内切核酸酶变体)进行靶向使得细胞的DNA序列部分或完全无效；例如，这种DNA序列在敲除之前可能已编码氨基酸序列，或可能已具有调节功能(例如启动子)。

如本文描述，指导Cas内切核酸酶可以识别、结合DNA靶序列，并且引入单链(切口)或双链断裂。一旦在DNA中诱导单链断裂或双链断裂，则细胞的DNA修复机制被激活来修复断裂。易错DNA修复机制可以在双链断裂位点处产生突变。来将断裂的末端结合在一起的最常见的修复机制是非同源末端连接(NHEJ)途径(Bleuyard等人，(2006)DNA Repair[DNA修复]5:1-12)。染色体的结构完整性典型地通过修复来保存，但是缺失、插入或其他重排(如染色体易位)是可能的(Siebert和Puchta，2002Plant Cell[植物细胞]14:1121-31；Pacher等人，2007Genetics[遗传学]175:21-9)。

可以通过插入缺失(通过NHEJ在靶DNA序列中插入或缺失核苷酸碱基)，或通过特异性去除在靶向位点处或其附近处降低或完全破坏序列功能的序列来产生敲除。本文中术语“插入缺失(indel)”是指在染色体或附加体中的靶DNA序列中核苷酸碱基的插入或缺失。这样的插入或缺失可以是例如1、2、3、4、5、6、7、8、9、10或更多个碱基。在某些实施例中，插入缺失可以甚至更大，至少约20、30、40、50、60、70p、80、90或100个碱基。如果在基因的可读框(ORF)中引入插入缺失，通常该插入缺失会通过产生移码突变来破坏由ORF编码的蛋白质的野生型表达。

在一个实施例中，本公开描述了修饰细胞基因组中靶位点的方法，所述方法包括将至少一种指导多核苷酸和至少一种本文所述的Cas9内切核酸酶变体引入细胞，其中所述指导多核苷酸是嵌合的非天然存在的指导多核苷酸，其中所述指导多核苷酸和Cas9内切核酸酶变体可形成复合物(PGEN)，所述复合物(PGEN)能够识别、结合靶序列的全部或部分并任选地使靶序列的全部或部分产生切口、解旋或切割靶序列的全部或部分，并鉴定至少一个在所述靶上具有修饰的细胞，其中所述靶位点处的修饰选自下组，该组由以下组成：(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、和(iv)(i)-(iii)的任何组合。

指导多核苷酸/Cas内切核酸酶系统可以与至少一个多核苷酸修饰模板组合使用以允许编辑(修饰)目的基因组核苷酸序列。

“经修饰的核苷酸”或“经编辑的核苷酸”是指当与其非修饰的核苷酸序列相比时，包含至少一个改变的目的核苷酸序列。此类“改变”包括，例如：(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、或(iv)(i)-(iii)的任何组合。

术语“多核苷酸修饰模板”包括，当与待编辑的核苷酸序列相比时，包含至少一个核苷酸修饰的多核苷酸。核苷酸修饰可以是至少一个核苷酸取代、添加或缺失。任选地，多核苷酸修饰模板可以进一步包含位于至少一个核苷酸修饰侧翼的同源核苷酸序列，其中侧翼同源核苷酸序列为待编辑的希望的核苷酸序列提供了充足同源性。

在一个实施例中，本公开包括用于编辑细胞基因组中的核苷酸序列的方法，所述方法包括将至少一种指导多核苷酸、至少一种本文所述的Cas9内切核酸酶变体和多核苷酸修饰模板引入细胞，其中所述指导多核苷酸是嵌合的非天然存在的指导多核苷酸，其中所述指导多核苷酸和Cas9内切核酸酶变体可形成复合物(PGEN)，所述复合物(PGEN)能够识别、结合靶序列的全部或部分并任选地使靶序列的全部或部分产生切口、解旋或切割靶序列的全部或部分，其中所述多核苷酸修饰模板包含所述核苷酸序列的至少一个核苷酸修饰，并且所述方法任选地进一步包括选择至少一个包含经编辑的核苷酸序列的细胞。

待编辑的核苷酸可以位于由Cas内切核酸酶识别和切割的靶位点的内部或外部。在一个实施例中，该至少一个核苷酸修饰不是由Cas内切核酸酶(例如本文所述的Cas9内切核酸酶变体)识别和切割的靶位点上的修饰。在另一个实施例中，所述待编辑的至少一个核苷酸和基因组靶位点之间有至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、30、40、50、100、200、300、400、500、600、700、900或1000个核苷酸。

用于编辑细胞的基因组中的核苷酸序列的方法可以是通过恢复无功能基因产物的功能而不使用外源性可选择标记物的方法，如2017年4月27日公开的WO 2017/070029和2017年4月27日公开的WO2017/070032所述。

术语“敲入”、“基因敲入”、“基因插入”和“基因敲入”在本文中可互换使用。敲入代表通过用Cas蛋白(例如通过同源重组(HR)，其中还使用适合的供体DNA多核苷酸)靶向在细胞中的特异性DNA序列处进行的DNA序列的替换或插入。敲入的实例是异源氨基酸编码序列在基因的编码区中的特异性插入，或转录调节元件在遗传基因座中的特异性插入。

可以采用不同方法和组合物来获得细胞或生物体，所述细胞或生物体具有插入针对Cas内切核酸酶的靶位点中的目的多核苷酸。此类方法可以采用同源重组(HR)以提供目的多核苷酸在靶位点处的整合。在本文所述的一种方法中，经由供体DNA构建体，将目的多核苷酸引入生物体细胞。如在此所用，“供体DNA”是包括待插入到Cas内切核酸酶的靶位点的感兴趣的多核苷酸的DNA构建体。供体DNA构建体进一步包含位于目的多核苷酸侧翼的同源的第一区域和第二区域。供体DNA的同源的第一区域和第二区域分别与存在于细胞或生物体基因组的靶位点中或位于所述靶位点侧翼的第一和第二基因组区域共享同源性。

供体DNA可以与指导多核苷酸进行系链。系链的供体DNA可以允许共定位靶标和供体DNA，可用于基因组编辑、基因插入和靶向的基因组调节，并且还可以用于靶向有丝分裂后期细胞，在这些细胞中内源性HR机制的功能预计会大大降低(Mali等人,2013NatureMethods[自然方法]第10卷:957-963)。

还可以将附加体DNA分子连接至双链断裂中，例如，将T-DNA整合至染色体双链断裂中(Chilton和Que,(2003)Plant Physiol[植物生理学]133:956-65；Salomon和Puchta,(1998)EMBO J[欧洲分子生物学学会杂志]17:6086-95)。一旦双链断裂周围的序列被改变，例如被涉及双链断裂的成熟的外切核酸酶活性改变，则基因转换途径可以恢复原始结构，如果有同源序列的话，例如非分裂的体细胞中的同源染色体，或DNA复制后的姊妹染色单体(Molinier等人,2004Plant Cell[植物细胞]16:342-52)。异位的和/或表观遗传的DNA序列还可以充当用于同源重组的DNA修复模板(Puchta,(1999)Genetics[遗传学]152:1173-81)。

同源-定向修复(HDR)是在细胞中用来修复双链DNA和单链DNA断裂的机制。同源-定向修复包括同源重组(HR)和单链退火(SSA)(Lieber.2010Annu.Rev.Biochem[生物化学年鉴].79:181-211)。HDR的最常见形式称为同源重组(HR)，其在供体和受体DNA之间具有最长的序列同源性要求。HDR的其他形式包括单链退火(SSA)和断裂诱导的复制，并且这些需要相对于HR更短的序列同源性。缺口(单链断裂)处的同源-定向修复可以经由与在双链断裂处的HDR不同的机制发生(Davis和Maizels.PNAS[美国科学院院报](0027-8424),111(10),第E924-E932页)。

“同源”意指DNA序列是相似的。例如，在供体DNA上发现的“与基因组区域同源的区域”是与细胞或生物体基因组中给定的“基因组序列”具有类似序列的DNA的区域。同源的区域可以具有足以促进在切割的靶位点处的同源重组的任何长度。例如，同源的区域的长度可以包括至少5-10、5-15、5-20、5-25、5-30、5-35、5-40、5-45、5-50、5-55、5-60、5-65、5-70、5-75、5-80、5-85、5-90、5-95、5-100、5-200、5-300、5-400、5-500、5-600、5-700、5-800、5-900、5-1000、5-1100、5-1200、5-1300、5-1400、5-1500、5-1600、5-1700、5-1800、5-1900、5-2000、5-2100、5-2200、5-2300、5-2400、5-2500、5-2600、5-2700、5-2800、5-2900、5-3000、5-3100或更多个碱基，这样使得同源的区域具有足够的同源性以与相应的基因组区域进行同源重组。“足够的同源性”表示两个多核苷酸序列具有足够的结构相似性以充当同源重组反应的底物。结构相似性包括每个多核苷酸片段的总长度以及多核苷酸的序列相似性。序列相似性可以通过在序列的整个长度上的百分比序列同一性和/或通过包含局部相似性(例如具有100％序列同一性的连续核苷酸)的保守区域以及在序列长度的一部分上的百分比序列同一性来描述。

由靶标和供体多核苷酸共享的同源性或序列同一性的量可以变化，并且包括总长度和/或在约1-20bp、20-50bp、50-100bp、75-150bp、100-250bp、150-300bp、200-400bp、250-500bp、300-600bp、350-750bp、400-800bp、450-900bp、500-1000bp、600-1250bp、700-1500bp、800-1750bp、900-2000bp、1-2.5kb、1.5-3kb、2-4kb、2.5-5kb、3-6kb、3.5-7kb、4-8kb、5-10kb，或多达并包括靶位点的总长度的范围内具有单位整数值的区域。这些范围包括所述范围内的每个整数，例如1-20bp的范围包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20bp。同源性的量也可以通过在两个多核苷酸的完整比对长度上的百分比序列同一性来描述，其包括约至少50％、55％、60％、65％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的百分比序列同一性。足够的同源性包括多核苷酸长度、总体百分比序列同一性，和任选地连续核苷酸的保守区域或局部百分比序列同一性的任何组合，例如，足够的同源性可以被描述为与靶标基因座的区域具有至少80％序列同一性的75-150bp的区域。还可以通过用来在高严格条件下特异性杂交的两个多核苷酸的预测能力来描述足够的同源性，参见例如Sambrook等人，(1989)Molecular Cloning:A Laboratory Manual[分子克隆：实验室手册](Cold Spring HarborLaboratory Press,NY[纽约冷泉港实验室出版社])；Current Protocols in MolecularBiology[分子生物学现代方案]，Ausubel等人，编辑(1994)Current Protocols[实验室指南](Greene Publishing Associates,Inc.[格林出版合伙公司]和John Wiley&Sons,Inc.[约翰威利父子公司])；以及Tijssen(1993)Laboratory Techniques in Biochemistryand Molecular Biology--Hybridization with Nucleic Acid Probes[生物化学和分子生物学中的实验室技术--与核酸探针杂交](Elsevier[爱思唯尔出版社]，纽约)。

如本文所用的，“基因组区域”是存在于靶位点任一侧上的细胞的基因组中的染色体的区段，或者可替代地，还包含靶位点的一部分。基因组区域可以包含至少5-10、5-15、5-20、5-25、5-30、5-35、5-40、5-45、5-50、5-55、5-60、5-65、5-70、5-75、5-80、5-85、5-90、5-95、5-100、5-200、5-300、5-400、5-500、5-600、5-700、5-800、5-900、5-1000、5-1100、5-1200、5-1300、5-1400、5-1500、5-1600、5-1700、5-1800、5-1900、5-2000、5-2100、5-2200、5-2300、5-2400、5-2500、5-2600、5-2700、5-2800。5-2900、5-3000、5-3100或更多个碱基，这样使得基因组区域具有足够的同源性以与相应的同源区域进行同源重组。

在给定的基因组区域和在供体DNA上发现的相应的同源的区域之间的结构相似性可以是允许同源重组发生的任何程度的序列同一性。例如，由供体DNA的“同源的区域”和生物体基因组的“基因组区域”共享的同源性或序列同一性的量可以是至少50％、55％、60％、65％、70％、75％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％序列同一性，这样使得序列进行同源重组。

供体DNA上的同源的区域可以与靶位点侧翼的任何序列具有同源性。虽然在一些情况下，同源的区域与紧邻靶位点侧翼的基因组序列共享显著的序列同源性，但是应当认识到同源的区域可以被设计为与可能更靠近靶位点的5'或3'的区域具有足够的同源性。同源的区域还可以与靶位点的片段以及下游基因组区域具有同源性。

在一个实施例中，第一同源的区域进一步包含靶位点中的第一片段，并且第二同源的区域包含靶位点中的第二片段，其中第一片段和第二片段不同。

如本文所用的，“同源重组”包括在同源的位点处的两个DNA分子之间的DNA片段的交换。同源重组的频率受多个因素影响。不同的生物体相对于同源重组的量和同源与非同源重组的相对比例而变化。通常，同源区域的长度会影响同源重组事件的频率：同源区域越长，频率越高。为观察同源重组而需要的同源区域的长度也是随物种而异的。在许多情况下，已经利用了至少5kb的同源性，但已经观察到具有仅25-50bp的同源性的同源重组。参见，例如，Singer等人,(1982)Cell[细胞]31:25-33；Shen和Huang,(1986)Genetics[遗传学]112:441-57；Watt等人,(1985)Proc.Natl.Acad.Sci.USA[美国科学院院报]82:4768-72；Sugawara和Haber,(1992)Mol Cell Biol[分子细胞生物学]12:563-75；Rubnitz和Subramani,(1984)Mol Cell Biol[分子细胞生物学]4:2253-8；Ayares等人,(1986)Proc.Natl.Acad.Sci.USA[美国科学院院报]83:5199-203；Liskay等人,(1987)Genetics[遗传学]115:161-7。

原核和真核细胞或生物细胞的基因组的改变，例如通过同源重组(HR)，对于基因工程而言的有力工具。已经证明了在植物中(Halfter等人，(1992)Mol Gen Genet[分子和普通遗传学]231:186-93)和昆虫中(Dray和Gloor，1997，Genetics[遗传学]147:689-99)的同源重组。在其他生物体中也可以实现同源重组。例如，在寄生原生动物利什曼原虫中，至少需要150-200bp的同源性进行同源重组(Papadopoulou和Dumas,(1997)Nucleic AcidsRes[核酸研究]25:4278-86)。在丝状真菌构巢曲霉中，已经用仅50bp侧翼同源性实现基因置换(Chaveroche等人,(2000)Nucleic Acids Res[核酸研究]28:e97)。在纤毛虫嗜热四膜虫中也已经证明了靶向基因置换(Gaertig等人,(1994)Nucleic Acids Res[核酸研究]22:5391-8)。在哺乳动物中，使用可以在培养基中生长、转化、选择、和引入小鼠胚胎中的多能胚胎干细胞系(ES)，同源重组在小鼠中已经是最成功的(Watson等人,(1992)RecombinantDNA[重组DNA],第2版,(Scientific American Books distributed by WH Freeman&Co.[由WH Freeman&Co.公司发行的科学美国人图书])。

DNA双链断裂似乎是刺激同源重组途径的有效因子(Puchta等人,(1995)PlantMol Biol[植物分子生物学]28:281-92；Tzfira和White,(2005)Trends Biotechnol[生物技术趋势]23:567-9；Puchta,(2005)J Exp Bot[实验植物学杂志]56:1-14)。使用DNA断裂剂，在植物中的人工构建的同源DNA重复序列之间观察到同源重组的两倍至九倍的增加(Puchta等人,(1995)Plant Mol Biol[植物分子生物学]28:281-92)。在玉蜀黍原生质体中，用线状DNA进行的实验证实了在质粒之间增强的同源重组(Lyznik等人,(1991)Mol GenGenet[分子和普通遗传学]230:209-18)。

在一个方面，本公开包括用于修饰细胞的基因组中的靶位点的方法，所述方法包括将至少一种指导多核苷酸，至少一种本文所述的Cas9内切核酸酶变体和至少一种供体DNA引入细胞，其中所述指导多核苷酸是嵌合的非天然存在的指导多核苷酸，其中所述指导多核苷酸和Cas9内切核酸酶变体可形成复合物(PGEN)，所述复合物(PGEN)能够识别、结合靶序列的全部或部分并任选地使靶序列的全部或部分产生切口、解旋或切割靶序列的全部或部分，其中所述供体DNA包含目的多核苷酸，并且任选地，所述方法进一步包括鉴定至少一个将所述目的多核苷酸整合到所述靶位点中或附近的细胞。

在一个方面，本发明包括用于修饰芽孢杆菌宿主细胞的基因组的方法，所述方法包括

向包含至少一个待修饰的靶序列的芽孢杆菌宿主细胞提供至少一种非天然存在的指导RNA和至少一种本文所述的Cas9内切核酸酶变体，其中所述指导RNA和Cas9内切核酸酶变体能够形成复合物(PGEN)，其中所述复合物能够识别、结合所述至少一个靶序列的全部或部分并任选地使所述至少一个靶序列的全部或部分产生切口、解旋或切割所述至少一个靶序列的全部或部分；并且，

鉴定至少一个芽孢杆菌宿主细胞，其中所述至少一个基因组靶序列已被修饰。所述靶位点上修饰可选自下组，该组由以下组成：(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、和(iv)(i)-(iii)的任何组合。

在一个方面，本发明包括用于修饰大肠杆菌宿主细胞的基因组的方法，所述方法包括

向包含至少一个待修饰的靶序列的大肠杆菌宿主细胞提供至少一种非天然存在的指导RNA和至少一种本文所述的Cas9内切核酸酶变体，其中所述指导RNA和Cas9内切核酸酶变体能够形成复合物(PGEN)，其中所述复合物能够识别、结合所述至少一个靶序列的全部或部分并任选地使所述至少一个靶序列的全部或部分产生切口、解旋或切割所述至少一个靶序列的全部或部分；并且，

鉴定至少一个大肠杆菌宿主细胞，其中所述至少一个基因组靶序列已被修饰。

在一个方面，本发明包括用于修饰酿酒酵母宿主细胞的基因组的方法，所述方法包括

向包含至少一个待修饰的靶序列的酿酒酵母宿主细胞提供至少一种非天然存在的指导RNA和至少一种本文所述的Cas9内切核酸酶变体，其中所述指导RNA和Cas9内切核酸酶变体能够形成复合物(PGEN)，其中所述复合物能够识别、结合所述至少一个靶序列的全部或部分并任选地使所述至少一个靶序列的全部或部分产生切口、解旋或切割所述至少一个靶序列的全部或部分；并且，

鉴定至少一个酿酒酵母宿主细胞，其中所述至少一个基因组靶序列已被修饰。

指导RNA/Cas内切核酸酶系统的另外的用途已进行了描述(参见2015年3月19日公开的美国专利申请US 2015-0082478 A1、2015年2月26日公开的WO 2015/026886 A1、2015年2月26日公开的US 2015-0059010 A1、2014年7月7日提交的美国申请62/023246，和2014年8月13日提交的美国申请62/036,652，将其全部通过引用结合在此)，并包括，但不限于修饰或取代目的核苷酸序列(如调节元件)、目的多核苷酸插入、基因敲除、基因敲入、剪接位点的修饰和/或引入交替剪接位点、编码目的蛋白的核苷酸序列的修饰、氨基酸和/或蛋白质融合物、以及通过在目的基因中表达反向重复序列引起的基因沉默。

多路复用

本文的靶向方法能以例如在该方法中靶向两个或更多个DNA靶位点的这样的方式进行。这种方法可以任选地被表征为多路复用方法。在某些实施例中，可以同时靶向两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个靶位点。多路复用方法典型地通过本文的靶向方法进行，其中提供了多个不同的RNA组分，每一个被设计成将指导多核苷酸/Cas内切核酸酶复合物引导到唯一的DNA靶位点。

本文所述的Cas9内切核酸酶变体可以用于靶向的基因组编辑(经由单个和多个双链断裂和缺口)和靶向的基因组调控(经由将表观遗传效应子结构域系链到Cas9或sgRNA)。本文所述的Cas9内切核酸酶变体还可以被工程改造作为RNA指导的重组酶起作用，并且经由RNA系链可以充当用于组装多蛋白和核酸复合物的支架(Mali等人2013Nature Methods[自然方法]第10卷:957-963)。

复合性状基因座

目的多核苷酸和/或性状可以在复合性状基因座中堆叠在一起，如在公开于2013年3月14日的W0 2012/129373和在公开于2013年1月24日的PCT/US13/22891中的描述，通过引用将这两者特此结合。指导多核苷酸/Cas内切核酸酶系统，例如包含本文所述的Cas9内切核酸酶变体的系统，提供了产生单链或双链断裂的有效系统，并允许性状堆叠在复合性状基因座中。

多核苷酸、多肽、表达盒、重组DNA或受指导的Cas蛋白系统的任何一种组分的引入

本文公开的多核苷酸、多肽、表达盒或重组DNA可使用本领域已知的任何方法引入生物体。指导多核苷酸/Cas系统的任何一个组分、指导多核苷酸/Cas复合物自身、连同一个或多个多核苷酸修饰模板和/或一个或多个DNA供体，可以通过本领域已知的任何方法，被引入到细胞中。

“引入”旨在意指以这样一种方式将多核苷酸或多肽或多核苷酸-蛋白复合物(例如RGEN或PGEN)提供于生物体，如细胞或生物体中，以致于这一种或多种组分得以进入该生物体的细胞的内部或进入细胞自身。这些方法不取决于用于将序列引入生物体或细胞中的具体方法，只要多核苷酸或多肽进入生物体的至少一个细胞的内部即可。引入包括提到将核酸合并到真核细胞或原核细胞中，其中核酸可以被并入细胞的基因组中，并且包括提到核酸、蛋白或多核苷酸-蛋白复合物(PGEN、RGEN)被瞬时(直接)提供至细胞中。

将多核苷酸、多肽、表达盒、重组DNA或多核苷酸-蛋白复合物(PGEN、RGEN)引入细胞或生物体的方法是本领域已知的，包括但不限于自然感受态(如WO 2017/075195、WO2002/14490和WO 2008/7989中所述)、显微注射Crossway等人,(1986)Biotechniques[生物技术]4:320-34和美国专利号6,300,543)、分生组织转化(美国专利号5,736,369)、电穿孔(Riggs等人,(1986)Proc.Natl.Acad.Sci.USA[美国科学院院报]83:5602-6)、稳定的转换方法、瞬态转换方法、弹道粒子加速(粒子轰击)(美国专利号4,945,050；5,879,918；5,886,244；5,932,782)、晶须介导的转化(Ainley等人2013,Plant Biotechnology Journal[植物生物技术杂志]11:1126-1134；Shaheen A.和M.Arshad 2011Properties andApplications of Silicon Carbide[碳化硅的性质及应用](2011),345-358编辑:Gerhardt,Rosario.发布者：InTech,Rijeka,Croatia.CODEN:69PQBP；ISBN:978-953-307-201-2)、农杆菌介导的转化(美国专利号5,563,055和5,981,840)、直接基因转移(Paszkowski等人,(1984)EMBO J[欧洲分子生物学学会杂志]3:2717-22)、病毒介导的引入(美国专利号5,889,191、5,889,190、5,866,785、5,589,367和5,316,931)、转染、转导、细胞穿透肽、介孔二氧化硅纳米粒子(MSN)介导的直接蛋白质递送、局部施用、有性杂交、有性培育、及其任何组合。“稳定转化”旨在表示经引入生物体中的核苷酸构建体合并到该生物体的基因组中，并且能够被其子代遗传。“瞬时转化”旨在表示将多核苷酸引入(直接或间接地)该生物体中并且不合并到该生物体的基因组中，或者将多肽引入生物体中。瞬时转化指示所引入的组合物仅在生物体中暂时表达或存在。

指导多核苷酸(指导RNA，cr核苷酸+tracr核苷酸，指导DNA和/或指导RNA-DNA分子)可以作为单链或双链多核苷酸分子直接引入细胞(瞬时地)。指导RNA(或crRNA+tracrRNA)还可以通过引入包含编码指导RNA(或crRNA+tracrRNA)的异源核酸片段的重组DNA分子被间接引入细胞中，所述指导RNA与能够在所述细胞中转录所述指导RNA(或crRNA+tracrRNA)的特异性启动子有效地连接。特异性启动子可以是但不限于RNA聚合酶III启动子，其允许具有精确定义的未修饰的5’-和3’-末端的RNA转录(Ma等人，2014,Mol.Ther.Nucleic Acids[分子治疗-核酸]3:e161；DiCarlo等人，2013，Nucleic AcidsRes.[核酸研究]41:4336-4343；2015年2月26日公开的WO 2015026887)。可以使用能够在细胞中转录指导RNA的任何启动子，并且这些启动子包括有效地连接到编码指导RNA的核苷酸序列的热休克/热可诱导的启动子。

本文中的Cas内切核酸酶可以通过直接引入Cas多肽本身(称为Cas内切核酸酶的直接递送)、编码Cas蛋白的mRNA和/或指导多核苷酸/Cas内切核酸酶复合物本身，使用本领域已知的任何方法而导入细胞。Cas内切核酸酶也可以通过引入编码Cas内切核酸酶的重组DNA分子间接引入细胞。使用本领域已知的任何方法，可以瞬时地将内切核酸酶引入细胞中，或可以将内切核酸酶并入宿主细胞的基因组中。可以用如在2016年5月12日公开的WO2016/073433中描述的细胞穿透肽(CPP)，促进内切核酸酶和/或指导的多核苷酸摄取进入细胞。可以使用能够在细胞中表达本文的Cas内切核酸酶变体的任何启动子，并且这些启动子包括有效地连接到编码Cas内切核酸酶的核苷酸序列的热休克/热可诱导的启动子。

将多核苷酸修饰模板直接递送到细胞中可以通过粒子介导递送来实现，并且任何其他直接递送方法，例如但不限于聚乙二醇(PEG)介导的原生质体转染、晶须介导的转化、电穿孔、粒子轰击、细胞穿透肽或介孔二氧化硅纳米粒子(MSN)介导的直接蛋白质递送可以成功地用于在细胞(例如真核细胞)中递送多核苷酸修饰模板。

可以通过本领域已知的任何手段引入供体DNA。可以通过本领域已知的任何转化方法(包括，例如农杆菌介导的转化或生物射弹粒子轰击)提供供体DNA。供体DNA可以瞬时地存在于细胞中，或可以经由病毒复制子引入。在Cas内切核酸酶和靶位点的存在下，将供体DNA插入生物体例如植物的转化基因组中。

本文所述的受指导的Cas系统组分中的任何一个的直接递送可以伴随着可以促进接受指导多核苷酸/Cas内切核酸酶复合物组分的细胞的富集和/或可视化的其他mRNA的直接递送(共递送)。例如，指导多核苷酸/Cas内切核酸酶组分(和/或指导多核苷酸/Cas内切核酸酶复合物本身)与编码表型标记物(例如但不限于转录激活剂如CRC(Bruce等人2000The Plant Cell[植物细胞]12:65-79)的mRNA直接共递送可通过恢复无功能基因产物的功能而不使用外源性可选择标记物来实现细胞的选择和富集，如2017年4月27日公布的WO 2017/070029和2017年4月27日公布的WO 2017/070032中所述。

将本文所述的指导RNA/Cas内切核酸酶复合物(RGEN)引入细胞中包括将该指导RNA/Cas内切核酸酶复合物作为核糖核苷酸-蛋白质引入细胞中。可以将该核糖核苷酸-蛋白质在引入如本文所述的细胞中之前进行组装。包含指导RNA/Cas内切核酸酶核糖核苷酸蛋白的组分可在体外组装或在引入细胞(靶向用于如本文所述基因组修饰)之前通过本领域已知的任何方法组装。

植物、真菌和细菌细胞与人和动物细胞的不同之处在于，植物、真菌和细菌细胞含有细胞壁，所述细胞壁可作为直接递送RGEN核糖核蛋白和/或直接递送RGEN组分的屏障。

将RGEN核糖核蛋白直接递送到植物、真菌和细菌细胞中可以通过粒子介导的递送(粒子轰击)来实现。基于本文所述的实验，技术人员现在可以预想任何其他直接递送方法(例如但不限于聚乙二醇(PEG)介导的对原生质体的转染、电穿孔、细胞穿透肽或介孔二氧化硅纳米颗粒(MSN)介导的直接蛋白质递送)都可以成功用于将RGEN核糖核蛋白递送到真菌和细菌细胞中。

RGEN核糖核蛋白的直接递送允许在细胞的基因组中的靶位点进行基因组编辑，其后可以迅速降解复合物，并且仅允许细胞中短暂存在该复合物。RGEN复合物的这种短暂存在可能导致脱靶效应降低。相比之下，经由质粒DNA序列递送RGEN组分(指导RNA、Cas9内切核酸酶)可以导致RGEN从这些质粒的恒定表达，该恒定表达可以加强脱靶效应(Cradick,T.J.等人(2013)Nucleic Acids Res[核酸研究]41:9584-9592；Fu,Y等人(2014)Nat.Biotechnol.[自然生物技术]31:822-826)。

直接递送可以通过将本文所述的指导RNA/Cas内切核酸酶复合物(RGEN)的任何一种组分(例如至少一种指导RNA，至少一种Cas9内切核酸酶变体)与包含诸如但不限于金粒子、钨粒子和碳化硅晶须粒子的微粒子的粒子递送基质组合来实现(还参见2017年4月27日公开的WO 2017/070029和2017年4月27日公开的WO 2017/070032，其通过引用以其全文结合在此)。

在一个方面，指导多核苷酸/Cas内切核酸酶复合物(RGEN)是复合物，其中形成所述指导RNA/Cas内切核酸酶复合物的本文所述的指导RNA和Cas9内切核酸酶变体分别作为RNA和蛋白质引入细胞。

在一个方面，指导多核苷酸/Cas内切核酸酶复合物是复合物，其中形成所述指导RNA/Cas内切核酸酶复合物的本文所述的指导RNA和Cas9内切核酸酶变体在体外预组装并作为核糖核苷酸-蛋白质复合物引入细胞。

可以通过任何方法将核酸和蛋白质提供给细胞，所述方法包括使用分子来促进指导的Cas系统(蛋白质和/或核酸)的任何或所有组分(例如细胞穿透肽和纳米载体)的摄取的方法(US 20110035836，2011年2月20日公开)，通过引用结合在此。

细胞，生物体

目前公开的Cas内切核酸酶变体、多核苷酸、肽、指导多核苷酸、Cas内切核酸酶、多核苷酸修饰模板、供体DNA、指导多核苷酸/Cas内切核酸酶系统及其任一组合可以引入细胞。

细胞包括但不限于人类、非人类、动物、细菌、真菌、昆虫、酵母、非常规酵母、微生物和植物细胞，以及通过本文所述的方法产生的植物和种子。

本文公开的方法和组合物中使用的微生物细胞可以是任何真菌宿主细胞、丝状真菌细胞和细菌细胞。如本文所用，术语“真菌细胞”、“真菌”、“真菌宿主细胞”等包括门子囊菌门(Ascomycota)、担子菌门(Basidiomycota)、壶菌门(Chytridiomycota)、和接合菌门(Zygomycota)(如由Hawksworth等人，1995所定义的)、以及卵菌门(Oomycota)(Hawksworth等人，1995)以及所有有丝分裂孢子真菌(Hawksworth等人，1995)。在某些实施例中，真菌宿主细胞是酵母细胞，其中术语“酵母”意指产子囊酵母(内孢霉目(Endomycetales))、产担子酵母、和属于不完全菌纲(Fungi Imperfecti)(芽孢纲(Blastomycetes))的酵母。因此，酵母宿主细胞包括假丝酵母属(Candida)、汉逊酵母属(Hansenula)、克鲁维酵母属(Kluyveromyces)、毕赤酵母属(Pichia)、酵母属(Saccharomyces)、裂殖酵母属(Schizosaccharomyces)、或耶氏酵母属(Yarrowia)细胞。酵母的种类包括但不限于：卡尔斯伯酵母(Saccharomyces carlsbergensis)、酿酒酵母(Saccharomyces cerevisiae)、糖化酵母(Saccharomyces diastaticus)、道格拉斯酵母(Saccharomyces douglasii)、克鲁弗酵母(Saccharomyces kluyveri)、诺地酵母(Saccharomyces norbensis)、卵形酵母(Saccharomyces oviformis)、乳酸克鲁维酵母(Kluyromomyces lactis)和解脂耶氏酵母(Yarrowia lipolytica)。

本文中术语“非常规酵母”是指不是酵母属(例如，酿酒酵母)或裂殖酵母属酵母物种的任何酵母。(参见Non-Conventional Yeasts in Genetics,Biochemistry andBiotechnology:Practical Protocols[遗传学、生物化学和生物技术中的非常规酵母菌：实践方案](K.Wolf,K.D.Breunig,G.Barth编辑,Springer-Verlag,Berlin,Germany[德国柏林施普林格出版社]，2003))。非常规酵母包括选自由以下组成的组的属的成员：耶氏酵母属、毕赤酵母属、许旺酵母属、克鲁维酵母属、Arxula、毛孢子菌属、假丝酵母属、黑粉菌属、球拟酵母属、接合酵母属、三角酵母属、隐球菌属、红酵母属、法夫酵母属、掷孢酵母属和管囊酵母属。非常规酵母包括偏好非同源末端连接(NHEJ)DNA修复过程超过由同源重组(HR)介导的修复过程的酵母。按照这些原则，非常规酵母的定义-偏好NHEJ超过HR-被Chen等人(PLoS ONE 8:e57952，其通过引用结合在此)进一步披露。本文中的术语“酵母”是指主要以单细胞形式存在的真菌物种。在本文中，可替代地，酵母可以被称为“酵母细胞”。耶氏酵母属(Yarrowia)物种的合适的实例是解脂耶氏酵母(Y.lipolytica)。毕赤酵母属(Pichia)物种的合适的实例包括巴斯德毕赤酵母(P.pastoris)、甲醇毕赤酵母(P.methanolica)、树干毕赤酵母(P.stipitis)、异常毕赤酵母(P.anomala)和安格斯毕赤酵母(P.angusta)。许旺酵母属(Schwanniomyces)物种的合适的实例包括S.castellii、S.alluvius、S.hominis、S.occidentalis、S.capriottii、S.etchellsii、多形许旺酵母(S.polymorphus)、假多形许旺酵母(S.pseudopolymorphus)、S.vanrijiae和S.yamadae。克鲁维酵母属(Kluyveromyces)物种的合适的实例包括乳酸克鲁维酵母(K.lactis)、马克斯克鲁维酵母(K.marxianus)、脆弱克鲁维酵母(K.fragilis)、K.drosophilarum、耐热克鲁维酵母(K.thermotolerans)、K.phaseolosporus、K.vanudenii、K.waltii、非洲克鲁维酵母(K.africanus)和多孔克鲁维酵母(K.polysporus)。Arxula物种的合适的实例包括A.adeninivorans和A.terrestre。毛孢子菌属(Trichosporon)物种的合适的实例包括皮状丝孢酵母(T.cutaneum)、头状丝孢酵母(T.capitatum)、墨汁丝孢酵母(T.inkin)和T.beemeri。假丝酵母属(Candida)物种的合适的实例包括白色念珠菌(C.albicans)、C.ascalaphidarum、C.amphixiae、南极洲假丝酵母(C.antarctica)、C.argentea、大西洋假丝酵母(C.atlantica)、大气假丝酵母(C.atmosphaerica)、C.blattae、C.bromeliacearum、C.carpophila、C.carvajalis、C.cerambycidarum、C.chauliodes、C.corydali、C.dosseyi、杜氏假丝酵母(C.dubliniensis)、C.ergatensis、果实假丝酵母(C.fructus)、光滑假丝酵母(C.glabrata)、发酵假丝酵母(C.fermentati)、吉利蒙念珠菌(C.guilliermondii)、希木龙假丝酵母(C.haemulonii)、C.insectamens、昆虫假丝酵母(C.insectorum)、中间假丝酵母(C.intermedia)、C.jeffresii、乳酒假丝酵母(C.kefyr)、C.keroseneae、克鲁斯假丝酵母(C.krusei)、葡萄牙假丝酵母(C.lusitaniae)、C.lyxosophila、麦芽糖假丝酵母(C.maltosa)、海洋假丝酵母(C.marina)、膜醭假丝酵母(C.membranifaciens)、梅林假丝酵母(C.milleri)、莫格假丝酵母(C.mogii)、C.oleophila、C.oregonensis、近平滑念珠菌(C.parapsilosis)、桔假丝酵母(C.quercitrusa)、皱褶念珠菌(C.rugosa)、清酒假丝酵母(C.sake)、休哈塔假丝酵母(C.shehatea)、C.temnochilae、纤细假丝酵母(C.tenuis)、C.theae、C.tolerans、热带假丝酵母(C.tropicalis)、C.tsuchiyae、C.sinolaborantium、C.sojae、C.subhashii、维斯假丝酵母(C.viswanathii)、产朊假丝酵母(C.utilis)、C.ubatubensis和C.zemplinina。黑粉菌属(Ustilago)物种的合适的实例包括燕麦散黑粉菌(U.avenae)、茭白黑粉菌(U.esculenta)、大麦坚黑粉菌(U.hordei)、玉蜀黍黑粉菌(U.maydis)、裸黑粉(U.nuda)和小麦散黑粉菌(U.tritici)。球拟酵母属(Torulopsis)物种的合适的实例包括T.geochares、T.azyma、光滑球拟酵母(T.glabrata)和白色球拟酵母(T.candida)。接合酵母属(Zygosaccharomyces)物种的合适的实例包括拜耳接合酵母(Z.bailii)、双孢接合酵母(Z.bisporus)、Z.cidri、发酵型结合酵母(Z.fermentati)、Z.florentinus、Z.kombuchaensis、Z.lentus、Z.mellis、Z.microellipsoides、Z.mrakii、Z.pseudorouxii和鲁氏接合酵母(Z.rouxii)。三角酵母属(Trigonopsis)物种的合适的实例包括变异三角酵母(T.variabilis)。隐球菌属(Cryptococcus)物种的合适的实例包括罗伦隐球酵母(C.laurentii)、浅白隐球酵母(C.albidus)、新型隐球菌(C.neoformans)、格特隐球菌(C.gattii)、单咽隐球菌(C.uniguttulatus)、C.adeliensis、C.aerius、C.albidosimilis、C.antarcticus、C.aquaticus、黑隐球酵母(C.ater)、C.bhutanensis、C.consortionis、弯曲隐球菌(C.curvatus)、C.phenolicus、C.skinneri、地生隐球酵母(C.terreus)和C.vishniacci。红酵母属(Rhodotorula)物种的合适的实例包括瘦果红酵母(R.acheniorum)、R.tula、R.acuta、北美红酵母(R.americana)、R.araucariae、北极红酵母(R.arctica)、R.armeniaca、橙黄红酵母(R.aurantiaca)、R.auriculariae、高产酵母菌株(R.bacarum)、海洋红酵母(R.benthica)、R.biourgei、R.bogoriensis、支气管红酵母(R.bronchialis)、R.buffonii、R.calyptogenae、R.chungnamensis、R.cladiensis、珊瑚藻红酵母(R.corallina)、R.cresolica、R.crocea、R.cycloclastica、R.dairenensis、分流红酵母(R.diffluens)、R.evergladiensis、R.ferulica、R.foliorum、草莓红酵母(R.fragaria)、R.fujisanensis、R.futronensis、胶状红酵母(R.gelatinosa)、冰河红酵母(R.glacialis)、粘红酵母(R.glutinis)、瘦弱红酵母(R.gracilis)、牧草红酵母(R.graminis)、R.grinbergsii、R.himalayensis、R.hinnulea、溶组织红酵母(R.histolytica)、袋唇兰红酵母(R.hylophila)、肉色红酵母(R.incarnata)、R.ingeniosa、R.javanica、R.koishikawensis、R.lactosa、R.lamellibrachiae、喉小囊红酵母(R.laryngis)、嗜木红酵母(R.lignophila)、R.lini、R.longissima、R.ludwigii、R.lysinophila、海洋红酵母(R.marina)、R.martyniae-fragantis、R.matritensis、R.meli、小红酵母(R.minuta)、粘质红酵母(R.mucilaginosa)、R.nitens、R.nothofagi、稻红酵母(R.oryzae)、太平洋红酵母(R.pacifica)、浅红酵母(R.pallida)、R.peneaus、R.philyla、R.phylloplana、R.pilatii、果蝇红酵母(R.pilimanae)、R.pinicola、褶皱红酵母(R.plicata)、多形红酵母(R.polymorpha)、R.psychrophenolica、嗜冷红酵母(R.psychrophila)、R.pustula、R.retinophila、R.rosacea、R.rosulata、发红红酵母(R.rubefaciens)、R.rubella、变红红酵母(R.rubescens)、深红酵母(R.rubra)、R.rubrorugosa、R.rufula、R.rutila、血红色红酵母(R.sanguinea)、R.sanniei、R.sartoryi、R.silvestris、R.simplex、R.sinensis、斯鲁菲亚红酵母(R.slooffiae)、R.sonckii、R.straminea、R.subericola、R.suganii、台湾红酵母(R.taiwanensis)、R.taiwaniana、R.terpenoidalis、土地红酵母(R.terrea)、R.texensis、东京红酵母(R.tokyoensis)、R.ulzamae、香草红酵母(R.vanillica)、R.vuilleminii、欧蓍草红酵母(R.yarrowii)、R.yunnanensis和R.zsoltii。法夫酵母属(Phaffia)物种的合适的实例包括红法夫酵母(P.rhodozyma)。掷孢酵母属(Sporobolomyces)物种的合适的实例包括S.alborubescens、S.bannaensis、北京掷孢酵母(S.beijingensis)、S.bischofiae、S.clavatus、S.coprosmae、S.coprosmicola、S.corallinus、S.dimmenae、S.dracophylli、S.elongatus、S.gracilis、S.inositophilus、S.johnsonii、S.koalae、S.magnisporus、S.novozealandicus、香掷孢酵母(S.odorus)、S.patagonicus、长生蜿掷孢酵母(S.productus)、玫瑰掷孢酵母(S.roseus)、(S.sasicola)、S.shibatanus、S.singularis、(S.subbrunneus)、匀称掷孢酵母(S.symmetricus)、S.syzygii、S.taupoensis、S.tsugae、克桑托斯掷孢酵母(S.xanthus)和云南掷孢酵母(S.yunnanensis)。管囊酵母属(Pachysolen)物种的合适实例包括嗜单宁管囊酵母。

如本文所用，术语“丝状真菌细胞”包括真菌亚门的所有丝状形式。丝状真菌属的合适细胞包括但不限于：枝顶孢属、曲霉属、短梗霉属、烟管菌属、拟蜡菌属、金孢属、鬼伞属、革盖菌属、棒囊壳属、毛壳菌属、隐球菌属、线黑粉菌属、镰刀菌属、赤霉菌属、腐质霉属、梨孢菌属(Magnaporthe)、毛霉属、毁丝霉属、毛霉属、新美鞭菌属、脉孢菌属、拟青霉属、青霉菌属、平革菌属、射脉菌属、单鞭毛菌属、侧耳属、柱顶孢属、裂褶菌属、孢子丝菌属、篮状菌属、嗜热子囊菌属、梭孢壳属、弯颈霉属、栓菌属、和木霉属的细胞。

丝状真菌物种的合适细胞包括但不限于：泡盛曲霉、烟曲霉、臭曲霉、日本曲霉、构巢曲霉、黑曲霉、米曲霉、卢克诺文思金孢子菌(Chrysosporium lucknowense)、杆孢状镰孢菌(Fusarium bactridioides)、谷类镰孢菌(Fusarium cerealis)、克地镰孢菌(Fusariumcrookwellense)、黄色镰孢菌(Fusarium culmorum)、禾谷镰孢菌(Fusariumgraminearum)、禾赤镰孢菌(Fusarium graminum)、异孢镰孢菌(Fusarium heterosporum)、合欢木镰孢菌(Fusarium negundi)、尖孢镰孢菌、多枝镰孢菌、粉红镰孢菌、接骨木镰孢菌、肤色镰孢菌、拟枝孢镰孢菌、硫色镰孢菌、圆镰孢菌、拟丝孢镰孢菌、镶片镰孢菌、黑刺烟管菌、干拟蜡菌(Ceriporiopsis aneirina)、干拟蜡菌、卡内基拟蜡菌(Ceriporiopsiscaregiea)、浅黄拟蜡孔菌(Ceriporiopsis gilvescens)、潘诺希塔拟蜡菌(Ceriporiopsispannocinta)、环带拟蜡菌(Ceriporiopsis rivulosa)、微红拟蜡菌(Ceriporiopsissubrufa)、虫拟蜡菌、灰盖鬼伞、毛革盖菌、特异腐质霉、柔毛腐质霉、米黑毛霉、嗜热毁丝霉、粗壮脉纹孢菌、间型脉孢菌、产紫青霉菌、变灰青霉菌、离生青霉菌(Penicilliumsolitum)、绳状青霉菌(Penicillium funiculosum)、黄孢原毛平革菌(Phanerochaetechrysosporium)、射脉侧菌(Phlebia radiate)、刺芹侧耳、黄篮状菌(Talaromycesflavus)、土生梭孢霉、长绒毛栓菌、变色栓菌、哈茨木霉、康宁木霉、长枝木霉、里氏木霉、和绿色木霉的细胞。

在某些实施例中，微生物宿主细胞是细菌细胞，例如嗜碱芽孢杆菌(Bacillusalkalophilus)、解淀粉芽孢杆菌(Bacillus amyloliquefaciens)、短小芽孢杆菌(Bacillus brevis)、环状芽孢杆菌(Bacillus circulans)、凝结芽孢杆菌(Bacilluscoagulans)、灿烂芽孢杆菌(Bacillus lautus)、迟缓芽孢杆菌(Bacillus lentus)、地衣芽孢杆菌(Bacillus licheniformis)、巨大芽孢杆菌(Bacillus megaterium)、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)、枯草芽孢杆菌(Bacillus subtilis)、或苏云金芽孢杆菌(Bacillus thuringiensis)或链霉菌属(Streptomyces)(如例如变铅青链霉菌(Streptomyces lividans)或鼠灰链霉菌(Streptomyces murinus))或革兰氏阴性细菌(如例如大肠杆菌或假单胞菌属物种(Pseudomonas sp.))。

对于上述物种，可以理解的是，本披露和源物种将涵盖此类生物体的完全状态和不完全状态两者，及其的其他分类学等同物(例如无性型)，而不管它们已知的物种名称。本领域技术人员将容易地识别此类源物种的适当等同物的身份。

上述物种的菌株容易地在许多培养物保藏中心为公众所获得，所述培养物保藏中心例如是美国典型培养物保藏中心(ATCC)、德国微生物菌种保藏中心(Deutsche Sammlungvon Mikroorganismen und Zellkulturen GmbH，DSM)、真菌菌种保藏中心(Centraalbureau Voor Schimmelcultures，CBS)和美国农业研究服务专利培养物保藏中心北部地区研究中心(NRRL)。

本文描述的Cas9内切核酸酶变体可用于微生物细胞中同源重组的方法中和/或微生物细胞中基因组编辑的方法中。已经公开了使用指导RNA/Cas内切核酸酶系统用于在微生物细胞(例如，丝状真菌细胞)的基因组中的靶位点处插入具有一个或多个短同源臂的供体DNA的方法(WO 2017/019867，公布于2017年2月2日)。当微生物细胞的基因组的修饰导致表型效应时，通常使用包括目的多核苷酸的供体DNA，该目的多核苷酸是(或编码)表型标记物。可以使用任何方便的表型标记物，包括任何可选择或可筛选的标记物，其允许人们通常在特定培养条件下鉴定或选择含有所述标记物的真菌细胞或对其进行鉴定或选择。因此，在本公开的一些方面，对具有所希望的基因组修饰的微生物细胞的鉴定包括在对靶位点处具有修饰的细胞进行选择的条件下培养已经接受了Cas9内切核酸酶变体和指导多核苷酸(和任选地供体DNA)的微生物细胞群体。可以使用任何类型的选择系统，包括评估真菌细胞中酶活性的增益或丧失(也称为可选择标记物)，例如抗生素抗性的获得或营养缺陷型标记物的获得/丧失。

如本文所用，术语植物包括植物细胞、植物原生质体、可再生植物的植物细胞组织培养物、植物愈伤组织、植物块和在植物或植物部分(如胚、花粉、胚珠、种子、叶、花、枝、果、核、穗、穗轴、壳、茎、根、根尖、花药、籽粒等)中的完整植物细胞。如本文所用，籽粒意指由商业种植者出于栽培或繁殖物种之外的目的所生产的成熟种子。再生植物的后代、变体和突变体也包括在本公开的范围内，条件是这些部分包括再生植物的基因组修饰，如由转化或基因组编辑产生的那些修饰。

可以使用任何植物或植物部分，包括单子叶植物和双子叶植物或植物部分。

可以使用的单子叶植物的实例包括但不限于，玉蜀黍(玉蜀黍(Zea mays))、水稻(水稻(Oryza sativa))、黑麦(黑麦(Secale cereale))、高粱(双色高粱(Sorghumbicolor)、高粱(Sorghum vulgare))、粟(例如，珍珠粟、御谷(Pennisetum glaucum))、黍稷(粟米(Panicum miliaceum))、谷子(谷子(Setaria italica))、穇子(龙爪稷(Eleusinecoracana))、小麦(小麦属物种、小麦(Triticum aestivum)、一粒小麦(Triticummonococcum))、甘蔗(甘蔗属物种(Saccharum spp.))、燕麦(燕麦属(Avena))、大麦(大麦属(Hordeum))、柳枝稷(柳枝黍(Panicum virgatum))、菠萝(菠萝(Ananas comosus))、香蕉(香蕉属物种(Musa spp.))、棕榈、观赏植物、草坪草、以及其他草。

术语“双子叶的”或“双子叶植物”是指被子植物的亚类，也被称为“双子叶植物类”，并且包括提及整株植物、植物器官(例如叶、茎、根、等)、种子、植物细胞、及其子代。可以使用的双子叶植物的实例包括但不限于大豆(大豆(Glycine max))、芸苔属物种(卡诺拉油菜)(欧洲油菜(Brassica napus)和白菜型油菜(B.campestris)、芜菁(Brassica rapa)、芥菜(Brassica.juncea))、苜蓿(紫花苜蓿(Medicago sativa))、烟草(烟草(Nicotianatabacum))、拟南芥属植物(Arabidopsis)(拟南芥(A.thaliana))、向日葵(向日葵(Helianthus annuus))、棉花(木本棉(Gossypium arboreum)、海岛棉(Gossypiumbarbadense))、和花生(花生(Arachis hypogaea))、番茄(番茄(Solanum lycopersicum))、马铃薯(马铃薯(Solanum tuberosum))等。

可以使用的植物包括红花(safflower、Carthamus tinctorius)、甘薯(番薯(Ipomoea batatas))，木薯(cassava，Manihot esculenta)，咖啡(咖啡属(Coffea)物种)，椰子(coconut，Cocos nucifera)，柑橘树(柑橘属(Citrus)物种)，可可(cocoa，Theobromacacao)，茶树(tea，Camellia sinensis)，香蕉(芭蕉属(Musa)物种)，鳄梨(avocado，Perseaamericana)，无花果(fig或(Ficus casica))，番石榴(guava，Psidium guajava)，芒果(mango，Mangifera indica)，橄榄(olive，Olea europaea)，木瓜(番木瓜(Caricapapaya))，腰果(cashew，Anacardium occidentale)，澳洲坚果(macadamia，Macadamiaintegrifolia)，巴旦杏(almond，Prunus amygdalus)，甜菜(sugar beets，Betavulgaris)，蔬菜，观赏植物和针叶树。

蔬菜包括番茄(Lycopersicon esculentum)、莴苣(例如，莴苣(Lactucasativa))、青豆(菜豆(Phaseolus vulgaris))、利马豆(lima bean，Phaseolus limensis)、豌豆(香豌豆属(Lathyrus spp.))和黄瓜属的成员诸如黄瓜(cucumber，C.sativus)、香瓜(cantaloupe，C.cantalupensis)和甜瓜(musk melon，C.melo)。观赏植物包括杜鹃(杜鹃花属(Rhododendron)物种)、八仙花(Macrophylla hydrangea)、朱槿(Hibiscusrosasanensis)、玫瑰(蔷薇属(Rosa)物种)、郁金香(郁金香属(Tulipa)物种)、水仙(水仙属(Narcissus)物种)、矮牵牛(Petunia hybrida)、康乃馨(Dianthus caryophyllus)、一品红(Euphorbia pulcherrima)和菊花。

可以用于实施本发明的针叶树包括，例如，松树如火炬松(火炬松(Pinustaeda))、湿地松(湿地松(Pinus elliotii))、杰克松(西黄松(Pinus ponderosa))、美国黑松(扭叶松(Pinus contorta))和辐射松(辐射松(Pinus radiata)；黄杉(黄杉(Pseudotsuga menziesii))；西部铁杉(加拿大铁杉(Tsuga canadensis))；西加云杉(白云杉(Picea glauca))；红木树(北美红杉(Sequoia sempervirens))；冷杉如银杉(胶冷杉(Abies amabilis))和胶枞(香脂冷杉(Abies balsamea))；和香柏如美国西部侧柏(北美乔柏(Thuja plicata))和阿拉斯加黄杉(黄扁柏(Chamaecyparis nootkatensis))。

术语“植物”包括整株植物、植物器官、植物组织、种子、植物细胞、种子和植物的子代。植物细胞包括但不限于得自下列物质的细胞：种子、悬浮培养物、胚、分生区域、愈伤组织、叶、根、芽、配子体、孢子体、花粉和小孢子。植物部分包括分化和未分化的组织，包括但不限于根、茎、芽、叶、花粉、种子、肿瘤组织和各种形式的细胞和培养物(例如单细胞、原生质体、胚和愈伤组织)。植物组织可以是在植物中或在植物器官、组织或细胞培养物中的。术语“植物器官”是指植物组织或构成植物的形态上和功能上不同部分的一组组织。术语“基因组”意指存在于生物体或病毒或细胞器的每个细胞中的遗传物质的全部互补序列(基因和非编码序列)；和/或从一个亲本遗传为(单倍体)单位的完整染色体组。“子代”包括植物的任何后续世代。

如本文使用，术语“植物部分”是指植物细胞、植物原生质体、可再生植物的植物细胞组织培养物、植物愈伤组织、植物块和在植物或植物部分(如胚、花粉、胚珠、种子、叶、花、枝、果、核、穗、穗轴、壳、茎、根、根尖、花药等)中完好的植物细胞，连同这些部分自身。籽粒意指由商业种植者出于栽培或繁殖物种之外的目的所生产的成熟种子。这些再生植物的后代、变体和突变体也包括在本发明的范围内，条件是这些部分包含经引入的多核苷酸。

转基因植物包括例如在其基因组中包含通过转化步骤引入的异源多核苷酸的植物。异源多核苷酸可以稳定地整合到基因组内，这样使得多核苷酸被传递给连续世代。异源多核苷酸可以单独地或作为重组DNA构建体的部分整合进基因组中。转基因植物还可以在其基因组内包含多于一个异源多核苷酸。各异源多核苷酸均可对所述转基因植物产生不同的性状。异源多核苷酸可以包括源自外来物种的序列，或者如果源自相同物种，可以是从其天然形式上进行实质修饰的序列。转基因可以包括其基因型已经通过异源核酸的存在改变的任何细胞、细胞系、愈伤组织、组织、植物部分或植物，这些异源核酸包括最初如此改变的那些转基因以及通过有性杂交或无性繁殖从初始转基因产生的那些。通过常规植物育种方法，通过本文所述的不导致外源多核苷酸的插入的基因组编辑程序，或通过天然存在的事件如随机异花受精、非重组病毒感染、非重组细菌转化、非重组转座或自发突变的基因组(染色体或染色体外)的改变并不旨在被视为转基因。

可育的植物是产生有活力的雄性和雌性配子并且是自体受精的植物。这样的自体受精的植物可以产生子代植物，而没有来自任何其他植物的配子及其中所含的遗传物质的贡献。

定义

“等位基因”或“等位基因变体”是占据染色体上给定基因座的基因的若干种替代形式中的一种。当染色体上在给定基因座处存在的所有等位基因都相同时，则生物体在所述基因座处是纯合的。如果染色体上在给定基因座处存在的等位基因不同，则生物体在所述基因座处是杂合的。多肽的等位基因变体是由基因的等位基因变体编码的多肽。

“编码序列”是指编码特定氨基酸序列的多核苷酸序列。编码序列的边界一般由可读框确定，所述可读框以起始密码子例如ATG、GTG或TTG开始，并且以终止密码子如TAA、TAG或TGA结束。编码序列可以是基因组DNA、cDNA、合成DNA或其组合。

“调节序列”是指位于编码序列的上游(5’非编码序列)、内部或下游(3’非编码序列)的核苷酸序列，并且其影响相关的编码序列的转录、RNA加工或稳定性、或翻译。调节序列包括但不限于：启动子、翻译前导序列、5’非翻译序列、3’非翻译序列、内含子、聚腺苷酸化靶序列、RNA加工位点、效应子结合位点、和茎环结构。

“密码子修饰的基因”或“密码子偏好的基因”或“密码子优化的基因”是其密码子使用的频率被设计为模拟宿主细胞的偏好的密码子使用的频率的基因。进行核酸改变以密码子优化基因是“同义的”，这意味着它们不改变亲本基因的编码多肽的氨基酸序列。然而，天然基因和变体基因二者都可以针对特定宿主细胞进行密码子优化，因此在这方面不意图限制。合成密码子偏好性基因的方法在本领域中是可用的。参见，例如，美国专利号5,380,831和5,436,391，以及Murray等人(1989)Nucleic Acids Res.[核酸研究]17:477-498，通过引用并入本文。

已知另外的序列修饰可以增强宿主生物中的基因表达。例如，这些序列修饰包括消除：编码假多聚腺苷酸化信号的一个或多个序列、一个或多个外显子-内含子剪接位点信号、一个或多个转座子样重复、以及其他可能对基因表达有害的此类良好表征的序列。序列的G-C含量可以调节到给定宿主生物体(例如植物)的平均水平，如通过参考宿主细胞中表达的已知基因计算的。当可能时，修饰序列以避免出现一个或多个预测的发夹二级mRNA结构。

术语“保守结构域”或“基序”是指沿进化相关蛋白的比对序列在特定位置处保守的一组氨基酸。虽然同源蛋白质之间在其他位置处的氨基酸可以发生变化，但在特定位置处高度保守的氨基酸表明对蛋白质的结构、稳定性或活性来说是必需的氨基酸。因为它们通过蛋白质同系物家族的比对序列中的高度保守性而被鉴定，所以它们可以用作标识符或“特征”，以确定具有新确定的序列的蛋白质是否属于先前鉴定的蛋白质家族。

如本文所用，“核酸”意指多核苷酸，并且包括脱氧核糖核苷酸或核糖核苷酸碱基的单链或双链聚合物。核酸还可以包括片段和修饰的核苷酸。因此，术语“多核苷酸”、“核酸序列”、“核苷酸序列”和“核酸片段”可互换使用以表示单链或双链的RNA和/或DNA和/或RNA-DNA的聚合物，任选地包含合成的、非天然的或改变的核苷酸碱基。核苷酸(通常发现处于其5’-单磷酸形式)可以通过其单字母名称表示如下：“A”用于腺苷或脱氧腺苷(分别针对RNA或DNA)，“C”用于胞嘧啶或脱氧胞嘧啶，“G”用于鸟苷或脱氧鸟苷，“U”用于尿苷，“T”用于脱氧胸苷，“R”用于嘌呤(A或G)，“Y”用于嘧啶(C或T)，“K”用于G或T，“H”用于A或C或T，“I”用于肌苷，并且“N”用于任何核苷酸(核苷酸(例如，如果指的是DNA序列，则N可以是A、C、T或G；如果指的是RNA序列，则N可以是A、C、U或G))。

如本文所用，术语“增加”可以指比被比较的增加的数量或活性的数量或活性多至少1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、100％或至少约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390、400、410、420、430、440、440、450、460、470、480、490或500倍的数量或活性。术语“增加的”、“大于”和“改善的”在本文中可互换使用。术语“增加的”可用于表征蛋白质如本文所述的Cas9内切核酸酶变体的转化效率或基因编辑效率。

在一个方面中，当本文描述的Cas9变体(例如但不限于Cas9 Y155变体或Cas9F86A+F98A变体)用作PGEN的一部分时，在与相同的PGEN相比但替代地包含其亲本(野生型)Cas9时，所述增加是原核细胞或真核细胞转化效率的增加，其中转化效率的增加是至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390、400、410、420、430、440、440、450、460、470、480、490或500倍。

在一个方面中，当本文描述的Cas9变体(例如但不限于Cas9 Y155变体或Cas9F86A+F98A变体)用作PGEN的一部分时，在与相同的PGEN相比但替代地包含其亲本(野生型)Cas9时，所述增加是原核细胞或真核细胞DNA编辑效率的增加，其中基因DNA编辑效率的增加是至少15％、16％、17％、18％、19％、20％、21％、22％、23％、24％、25％、26％、27％、28％、29％、30％、31％、32％、33％、34％、35％、36％、37％、38％、39％、40％、41％、42％、43％、44％、45％、46％、47％、48％、49％、50％、51％、52％、53％、54％、55％、56％、57％、58％、59％。

“可读框”缩写为ORF。

“基因”包括表达功能性分子(诸如但不限于，特定蛋白质)的核酸片段，包括在编码序列之前(5’非编码序列)和之后(3’非编码序列)的调节序列。“天然基因”是指自然界中发现的具有其自身调节序列的基因。

“突变基因”是通过人为干预已经改变的基因。这样的“突变基因”具有通过至少一个核苷酸添加、缺失或取代而与相应的非突变基因的序列不同的序列。在本公开的某些实施例中，该突变的基因包含由如本文公开的指导多核苷酸/Cas蛋白系统引起的改变。突变的细胞或生物体是包含突变基因的细胞或生物体。

术语“基因组”当应用于原核或真核细胞或生物体细胞时不仅涵盖在细胞核内发现的染色体DNA，还涵盖在细胞的亚细胞组分(例如线粒体、或质体)内发现的细胞器DNA。

本文进一步描述了目的多核苷酸，并包括反映商业市场和涉及酶生产(例如，但不限于，通过细菌或真菌发酵从而生产酶或通过生产酶的植物)和作物开发的那些的利益的多核苷酸。

目的作物和市场发生变化，以及随着发展中国家打开国际市场，新作物和技术也将出现。此外，随着我们对农学性状和特征(例如产量和杂种优势增加)的理解逐渐深入，对用于基因工程的基因的选择将会相应变化。目的多核苷酸包括但不限于编码对农艺学、除草剂-抗性、杀昆虫抗性、疾病抗性、线虫抗性、除草剂抗性、微生物抗性、真菌抗性、病毒抗性、能育性或不育性、谷粒特征、和商业产品而言重要的性状的多核苷酸。

目的多核苷酸的一般类别包括，例如涉及信息的那些目的基因(例如锌指)，涉及通讯的那些基因(例如激酶)，以及涉及管家的那些基因(例如热休克蛋白)。更具体的目的多核苷酸包括但不限于：涉及作物产量、谷粒质量、作物营养成分、淀粉和碳水化合物质量和数量的基因、连同及影响籽粒大小、蔗糖载量、蛋白质量和数量、固氮和/或氮利用、脂肪酸和油组成的那些基因、编码赋予对非生物胁迫(例如干旱、氮、温度、盐度、毒性金属、或痕量元素)的抗性的蛋白质，或赋予对毒素(例如杀有害生物剂和除草剂)的抗性的那些蛋白质的基因、编码赋予对生物胁迫(例如真菌、病毒、细菌、昆虫和线虫的攻击以及与这些生物体相关的疾病的发展)的抗性的蛋白质的基因。

此外，认识到目的多核苷酸还可以包括与针对目的所靶向的基因序列的信使RNA(mRNA)的至少一部分互补的反义序列。构建反义核苷酸以与相应的mRNA杂交。可以对该反义序列作出修饰，只要该序列与相应的mRNA杂交并干扰相应的mRNA的表达。在该方式中，可以使用与相应的反义序列具有70％、80％、或85％序列同一性的反义构建体。此外，反义核苷酸的部分可以用来破坏该靶基因的表达。通常，可以使用至少50个核苷酸、100个核苷酸、200个核苷酸、或更多个核苷酸的序列。

此外，目的多核苷酸还可以按有义取向来使用从而抑制生物体中内源基因的表达。以有义取向使用多核苷酸用于抑制生物体中基因表达的方法是本领域已知的。这些方法通常涉及用包含启动子的DNA构建体的转化生物体，所述启动子有效地连接到至少一部分的对应于所述内源基因的转录物的核苷酸序列上，驱动在生物体中的表达。通常，此类核苷酸序列与内源基因的转录物的序列具有实质性的序列同一性，通常大于约65％序列同一性、约85％序列同一性、或大于约95％序列同一性。参见美国专利号5,283,184和5,034,323；通过引用并入本文。

目的多核苷酸还可以是表型标记物。表型标记物是可筛选或可选择标记物，其包括视觉标记物和可选择标记物，无论它是阳性还是阴性可选择标记物。可以使用任何表型标记物。具体地，可选择或可筛选标记物包含允许人们通常在特定条件下鉴定或选择包含它的分子或细胞或对其进行选择的DNA区段。这些标记物可以编码活性，例如但不限于RNA、肽或蛋白质的产生，或可以提供RNA、肽、蛋白质、无机和有机化合物或组合物等的结合位点。

可选择标记物的实例包括但不限于包含限制酶位点的DNA区段；编码提供对包括抗生素在内的其他毒性化合物的抗性的产物的DNA区段，该抗生素例如是大观霉素、氨苄青霉素、卡那霉素、四环素、巴斯塔(Basta)、新霉素磷酸转移酶II(NEO)和潮霉素磷酸转移酶(HPT)；编码另外在受体细胞中缺少的产物的DNA区段(例如，tRNA基因、营养缺陷型标记物)；编码可以容易地鉴定的产物的DNA区段(例如，表型标记物例如β-半乳糖苷酶、GUS；荧光蛋白，例如绿色荧光蛋白(GFP)、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)、红色荧光蛋白(RFP)和细胞表面蛋白)；产生用于PCR的新引物位点(例如，以前未并列的两个DNA序列的并列)，包含通过限制性内切核酸酶或其他DNA修饰酶、化学品等不起作用或起作用的DNA序列；并且包含允许其鉴定的特异性修饰(例如，甲基化)所需的DNA序列。

另外的可选择标记物包括赋予除草剂化合物(例如磺酰脲、草胺磷、溴草腈、咪唑啉酮和2,4-二氯苯氧基乙酸酯(2,4-D))抗性的基因。参见例如，用于对磺酰脲、咪唑啉酮、三唑并嘧啶磺酰胺、嘧啶水杨酸和磺酰基氨基羰基-三唑啉酮(Shaner和Singh，1997，Herbicide Activity:Toxicol Biochem Mol Biol[除草剂活性：毒理学，生物化学，分子生物学]69-110)；草甘膦抗性5-烯醇丙酮莽草酸-3-磷酸(EPSPS)(Saroha等人，1998，J.PlantBiochemistry&Biotechnology[植物生物化学&生物技术杂志]卷7:65-72)的抗性的乙酰乳酸合酶(ALS)；

目的多核苷酸包括与其他性状(例如但不限于除草剂抗性或本文描述的任何其他性状)组合堆叠或使用的的基因。目的多核苷酸和/或性状可以在复合物性状基因座中堆叠在一起，如在2013年10月3日公开的US-2013-0263324-A1和2013年1月24日公开的PCT/US13/22891中所述，将这两个申请通过引用特此结合。

可以使用多种方法来鉴定在靶位点处或靶位点附近插入到基因组中的那些细胞。此类方法可被认为是直接分析靶序列以检测靶序列中的任何变化，包括但不限于PCR方法、测序方法、核酸酶消化、DNA印迹法、及其任何组合。参见，例如，美国专利申请12/147,834，将该申请通过引用结合在此至本文所述方法所必需的程度。所述方法还包括从包含整合至其基因组中的目的多核苷酸细胞重新获得生物体。

目的多肽包括由本文描述的目的多核苷酸编码的蛋白或多肽。

多核苷酸和多肽序列、其变体、以及这些序列的结构关系，可用术语“同源性”、“同源的”、“基本上相同的”、“基本上类似的”、以及“基本上相应”来描述，这些术语在本文中可互换使用。这些是指多肽或核酸序列，其中在一个或多个氨基酸或核苷酸碱基上的变化不影响分子的功能，如介导基因表达或产生某种表型的能力。这些术语还指相对于初始未修饰的核酸，基本上不改变所得核酸的功能特性的核酸序列的一个或多个修饰。这些修饰包括在核酸片段中一个或多个核苷酸的缺失、取代、和/或插入。

所涵盖的基本上类似的核酸序列可以通过这些核酸序列与本文所示例的序列杂交，或与本文所公开的并且与任何本文所公开的核酸序列在功能上等价的核苷酸序列的任何部分杂交(在中严格条件下，例如0.5X SSC，0.1％SDS，60℃)的能力来定义。可以调整严格条件以筛选适度类似的片段(如来自远缘生物体的同源序列)，至高度类似的片段(如复制来自近缘生物体的功能性酶的基因)。杂交后的洗涤决定了严格条件。

术语“选择性杂交”包括参考在严格的杂交条件下将核酸序列杂交到特定的核酸靶序列上，相比其杂交到非靶核酸序列和基本上排除非靶核酸，该杂交达到可检测地更大程度(例如，至少为背景值的2倍)。选择性杂交序列通常彼此具有约至少80％序列同一性、或90％序列同一性、高达并且包括100％序列同一性(即，完全互补)。

术语“严格条件”或“严格杂交条件”包括提及在体外杂交测定中探针将与其靶序列选择性杂交的条件。严格条件是序列依赖性的，并且在不同情况下将有所不同。通过控制杂交条件和/或洗涤条件的严格性，可以鉴定与探针100％互补的靶序列(同源探测)。可替代地，可以调节严格条件以允许序列中的一些错配，以便检测到更低程度的相似性(异源探测)。通常，探针长度为小于约1000个核苷酸，任选地是长度小于500个核苷酸。

通常，严格条件将是以下条件：在pH 7.0至8.3下盐浓度为小于约1.5M Na离子、通常约0.01至1.0M Na离子浓度(或其他一种或多种盐)，并且对于短探针(例如，10至50个核苷酸)为至少约30℃，并且对于长探针(例如，超过50个核苷酸)为至少约60℃。添加去稳定剂如甲酰胺也可以实现严格条件。示例性低严格条件包括在37℃下用30％至35％甲酰胺、1M NaCl、1％SDS(十二烷基硫酸钠)的缓冲溶液杂交，并且在50℃至55℃下在1X至2X SSC(20X SSC＝3.0M NaCl/0.3M柠檬酸三钠)中洗涤。示例性中严格条件包括在37℃下在40％至45％甲酰胺、1M NaCl、1％SDS中杂交，并且在55℃至60℃下在0.5X至1X SSC中洗涤。示例性高严格条件包括在37℃下在50％甲酰胺、1M NaCl、1％SDS中杂交，并且在60℃至65℃下在0.1X SSC中洗涤。

如本文所用，术语“启动子”是指能够控制编码序列或功能性RNA的表达的DNA序列。启动子序列由近端元件和较远端上游元件组成，后一元件通常称为增强子。“增强子”是可以刺激启动子活性的DNA序列，并且可以是该启动子的固有元件或被插入以增强启动子的水平或组织特异性的异源元件。启动子可以全部来源于天然基因，或者由来源于在自然界存在的不同启动子的不同元件构成，和/或包含合成的DNA区段。本领域技术人员应当理解，不同的启动子可能引导基因在不同组织或细胞类型中、或在不同发育阶段、或者响应于不同环境条件的表达。进一步认识到，由于在大多数情况下调节序列的确切边界尚未完全限定，一些变异的DNA片段可能具有相同的启动子活性。如在本领域中熟知的，启动子可以根据其强度和/或它们有活性的条件进行分类，例如组成型启动子、强启动子、弱启动子、诱导型/阻抑型启动子、组织特异性/发育调节性启动子、细胞周期依赖性启动子等。

可用于本文的强启动子的实例包括公开于以下中的那些：美国专利申请公开号2012/0252079(DGAT2)、2012/0252093(EL1)、2013/0089910(ALK2)、2013/0089911(SPS19)、2006/0019297(GPD和GPM)、2011/0059496(GPD和GPM)、2005/0130280(FBA、FBAIN、FBAINm)、2006/0057690(GPAT)和2010/0068789(YAT1)，其通过引用结合在此。合适的强启动子的其他实例包括2016年2月19日公开的WO 2016/025131的表2中列出的那些，通过引用结合在此。

在核酸的或多肽的序列的上下文中，“序列同一性”或“同一性”是指在两个序列中的核酸碱基或氨基酸残基当在指定的比较窗口上比对最大对应度时是相同的。

“序列同一性的百分比”是指通过在比较窗口上比较两个最佳比对的序列所确定的值，其中与参考序列(其不包含添加或缺失)比较两个序列的最佳比对时，该多核苷酸或多肽序列在比较窗口中的部分可以包含添加或缺失(即空位)。通过以下方式计算所述百分比：确定在两个序列中出现相同核酸碱基或氨基酸残基的位置的数目以产生匹配位置的数目，将匹配位置的数目除以比较窗口中的位置的总数目，然后将所述结果乘以100以产生序列同一性的百分比。百分比序列同一性的有用实例包括但不限于50％、55％、60％、65％、70％、75％、80％、85％、90％或95％，或从50％至100％的任何整数百分比。可以使用本文描述的任何程序确定这些同一性。

序列比对和百分比同一性或相似性计算可以使用设计用于检测同源序列的多种比较方法来确定，这些方法包括但不限于LASERGENE生物信息计算包(DNASTAR公司(DNASTAR Inc.)，麦迪逊(Madison)，威斯康星州)的MegAlign^TM程序。在此申请的上下文中，应当理解的是，在使用序列分析软件来分析的情况下，分析的结果将基于参考的程序的“默认值”，除非另有说明。如本文所用，“默认值”将意指当第一次初始化时，最初加载该软件的任何一组值或参数。

“比对的Clustal V方法”对应于标记为Clustal V的比对方法(由以下描述：Higgins和Sharp，(1989)CABIOS 5:151-153；Higgins等人，(1992)Comput Appl Biosci[生物科学中的计算机应用]8:189-191)，并且发现于LASERGENE生物信息计算包(DNASTAR公司(DNASTAR Inc.)，麦迪逊(Madison)，威斯康星州)的MegAlign^TM程序中。对于多重比对，默认值对应于空位罚分(GAP PENALTY)＝10和空位长度罚分(GAP LENGTH PENALTY)＝10。使用Clustal方法进行逐对比对和蛋白质序列的百分比同一性计算的默认参数为KTUPLE＝1、空位罚分＝3、窗口(WINDOW)＝5、以及存储的对角线(DIAGONALS SAVED)＝5。对于核酸，这些参数是KTUPLE＝2、空位罚分＝5、窗口＝4、并且存储的对角线＝4。使用Clustal V程序比对序列后，可能通过查看同一程序中的“序列距离”表来获得“百分比同一性”。

“Clustal W比对方法”对应于标记为Clustal W的比对方法(由以下描述：Higgins和Sharp，(1989)CABIOS 5:151-153；Higgins等人，(1992)Comput Appl Biosci[生物科学中的计算机应用]8:189-191)，并且发现于LASERGENE生物信息计算包(DNASTAR公司(DNASTAR Inc.)，麦迪逊(Madison)，威斯康星州)的MegAlig^TM v6.1程序中。用于多重比对的默认参数(空位罚分＝10、空位长度罚分＝0.2、延迟发散序列(Delay DivergenSeqs，％)＝30、DNA转换权重＝0.5、蛋白质权重矩阵＝Gonnet系列、DNA权重矩阵＝IUB)。使用Clustal W程序比对序列后，可能通过查看同一程序中的“序列距离”表来获得“百分比同一性”。

除非另有说明，本文中提供的序列同一性/相似性值是指使用GAP版本10(GCG，Accelrys公司，圣迭戈，加利福尼亚州)使用以下参数获得的值：核苷酸序列的％同一性和％相似性使用空位创建罚分权重为50、空位长度延伸罚分权重为3、以及nwsgapdna.cmp打分矩阵；氨基酸序列的％同一性和％相似性使用空位创建罚分权重为8、空位长度延伸罚分为2、以及BLOSUM62打分矩阵(Henikoff和Henikoff，(1989)Proc.Natl.Acad.Sci.USA[美国科学院院报]89:10915)。GAP使用Needleman和Wunsch(1970)J Mol Biol[分子生物学杂志]48:443-53的算法来找到使匹配数目最大化并且使空位数目最小化的两个完整序列的比对。GAP考虑所有可能的比对和空位位置，并且使用匹配碱基的单位中的空位产生罚分和空位延伸罚分，产生具有最大数目的匹配碱基和最少的空位的比对。

“BLAST”是美国国家生物技术信息中心(National Center for BiotechnologyInformation，NCBI)提供的用于寻找生物序列之间的相似性的区域的搜索算法。该程序将核苷酸或者蛋白质序列与序列数据库比较，并计算匹配的统计显著性以鉴定出与查询序列具有足够的相似性的序列，这样使得相似性不会被预测为已经随机发生。BLAST报告鉴定的序列和它们与查询序列的局部比对。

本领域技术人员很清楚地理解，许多水平的序列同一性在鉴定来自其他物种的多肽或修饰的天然的或合成的多肽中是有用的，其中这样的多肽具有相同或相似的功能或活性。百分比同一性的有用实例包括但不限于50％、55％、60％、65％、70％、75％、80％、85％、90％或95％，或从50％至100％的任何整数百分比。实际上，在描述本公开中，从50％至100％的任何整数氨基酸同一性会是有用的，例如51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％。

“翻译前导序列”是指位于基因的启动子序列和编码序列之间的多核苷酸序列。翻译前导序列存在于翻译起始序列的mRNA上游。翻译前导序列可以影响初级转录物对mRNA的加工、mRNA稳定性、或翻译效率。已经描述了翻译前导序列的实例(例如，Turner和Foster,(1995)Mol Biotechnol[分子生物技术]3:225-236)。

“3’非编码序列”、“转录终止子”、或“终止序列”是指位于编码序列的下游的DNA序列，并且包括聚腺苷酸化识别序列和编码能够影响mRNA加工或基因表达的调节信号的其他序列。聚腺苷酸化信号通常特征在于影响聚腺苷酸片添加到mRNA前体的3’末端。由Ingelbrecht等人，(1989)Plant Cell[植物细胞]1:671-680示例了不同的3’非编码序列的用途。

如本文所用，“RNA转录物”是指由DNA序列的RNA聚合酶催化的转录产生的产物。当RNA转录物是DNA序列的完全互补拷贝时，RNA转录物被称为初级转录物或前mRNA。当RNA转录物是源自初级转录物前mRNA的转录后加工的RNA序列时，RNA转录物被称为成熟RNA或mRNA。“信使RNA”或“mRNA”是指不含内含子并且可以被细胞翻译成蛋白质的RNA。“cDNA”是指与mRNA模板互补并且使用逆转录酶从mRNA模板合成的DNA。cDNA可以是单链的或者可以使用DNA聚合成酶I的Klenow片段转化成双链形式。“正义”RNA是指包含mRNA并且可以在细胞内或体外翻译成蛋白质的RNA转录物。“反义RNA”是指与靶初级转录物或mRNA的全部或部分互补、并且阻断靶基因的表达的RNA转录物(参见，例如美国专利号5,107,065)。反义RNA可与特定基因转录物的任何部分，即5’非编码序列、3’非编码序列、内含子或编码序列互补。“功能性RNA”是指反义RNA、核糖酶RNA、或可以不进行翻译但是仍对细胞过程具有作用的其他RNA。术语“互补序列”和“反向互补序列”在本文中关于mRNA转录物可互换使用，并且意在限定信使的反义RNA。

“成熟”蛋白质是指翻译后加工的多肽(即，从其中已经去除存在于初级翻译产物中的任何前肽(pre-peptide)或原肽(propeptide)的一种多肽)。“前体”蛋白质是指mRNA的翻译的初级产物(即，仍存在前肽或原肽)。前肽或原肽可以是但不限于细胞内定位信号。

如本文所用，术语“靶向突变”是通过使用本领域技术人员已知的任何方法(包括涉及受指导的Cas蛋白系统的方法)改变靶基因内的靶序列而产生的基因(称为靶基因)包括天然基因中的突变。当Cas蛋白是cas内切核酸酶时，指导多核苷酸/Cas内切核酸酶诱导的靶向突变可以发生在位于由Cas内切核酸酶识别和切割的基因组靶位点内部或外部的核苷酸序列中。

可以按不同方式改变蛋白质，这些方式包括氨基酸取代、缺失、截短、和插入。用于此类操作的方法通常是已知的。例如，可以通过在DNA中的突变制备一种或多种蛋白质的氨基酸序列变体。用于诱变和核苷酸序列改变的方法包括，例如，Kunkel,(1985)Proc.Natl.Acad.Sci.USA[美国科学院院报]82:488-92；Kunkel等人,(1987)Meth Enzymol[酶学方法]154:367-82；美国专利号4,873,192；Walker和Gaastra编辑(1983)Techniquesin Molecular Biology[分子生物学技术](MacMillan Publishing Company,New York[麦克米伦出版公司，纽约])，以及其中所引用的文献。发现关于不太可能影响蛋白质生物学活性的氨基酸取代的引导，例如，在Dayhoff等人,(1978)Atlas of Protein Sequence andStructure[蛋白质序列和结构图谱集](Natl Biomed Res Found,Washington,D.C.[国家生物医学研究基金会，美国华盛顿哥伦比亚特区])的模型中。保守取代，例如将一个氨基酸与具有相似特性的另一个氨基酸交换，会是优选的。未预期保守缺失、插入、和氨基酸取代会产生在蛋白质特征中的根本变化，并且可以通过常规筛选测定来评价任何取代、缺失、插入、或其组合的作用。对双链-断裂-诱导活性的测定是已知的，并且通常测量试剂对包含靶位点的DNA底物的总体活性和特异性。

标准的DNA分离、纯化、分子克隆、载体构建、和验证/表征方法是完善确立的，参见，例如Sambrook等人,(1989)Molecular Cloning:A Laboratory Manual[分子克隆：实验室手册]Cold Spring Harbor Laboratory Press,NY[纽约冷泉港实验室出版社])。载体和构建体包括环状质粒和包含目的多核苷酸的线状多核苷酸，以及任选地包括接头、衔接子、用于调节或分析的其他组分。在一些实例中，识别位点和/或靶位点可以包含在内含子、编码序列、5'UTR、3'UTR、和/或调节区内。

缩写的含义如下：“sec”意指秒、“min”意指分钟、“h”意指小时、“d”意指天、“μL”意指微升、“mL”意指毫升、“L”意指升、“μM”意指微摩尔、“mM”意指毫摩尔、“M”意指摩尔、“mmol”意指毫摩尔、“μmole”微摩尔、“g”意指克、“μg”意指微克、“ng”意指纳克、“U”意指单位、“bp”意指碱基对、以及“kb”意指千碱基。

本文公开的组合物和方法的非限制性实例如下：

1.一种Cas9内切核酸酶变体或其活性片段，所述Cas9内切核酸酶变体或其活性片段与SEQ ID NO:1中所示的亲本Cas9多肽具有至少80％的氨基酸同一性，并且在选自由位置86、位置98、位置155及其组合组成的组的位置处具有至少一个氨基酸取代，其中所述变体的氨基酸位置通过与所述亲本Cas9多肽的氨基酸序列相对应来编号，其中所述Cas9内切核酸酶变体具有内切核酸酶活性。

2.如实施例1所述的Cas9内切核酸酶变体，其中所述至少一个氨基酸取代选自由以下组成的组：Y155H、Y155N、Y155E、Y155F(在位置155处)、F86A(在位置86处)和F98A(在位置98处)。

3.如实施例1所述的Cas9内切核酸酶变体，其中所述Cas9内切核酸酶变体当与所述亲本Cas9内切核酸酶相比时具有选自由以下组成的组中的至少一种改善的特性：改善的转化效率和改善的编辑效率。

4.如任一前述实施例所述的Cas9内切核酸酶变体或其活性片段，其中所述变体包含与SEQ ID NO:1的氨基酸序列具有75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％氨基酸序列同一性的氨基酸序列。

5.如实施例3所述的Cas9内切核酸酶变体，其中所述改善的特性是改善的转化效率，并且其中所述变体或其活性片段还具有改善的编辑效率。

6.如任一前述权利要求所述的Cas9内切核酸酶变体或其活性片段，所述Cas9内切核酸酶变体或其活性片段当与所述亲本Cas9内切核酸酶相比时包含至少1、2、3、4、5、6、7、8、9、10个氨基酸取代。

7.一种组合物，所述组合物包含如前述实施例中任一项所述的Cas9内切核酸酶或其功能片段。

8.如实施例7所述的组合物，其中所述组合物选自由以下组成的组：指导多核苷酸/Cas9内切核酸酶复合物、指导RNA/Cas9内切核酸酶复合物和包含所述Cas9内切核酸酶变体的融合蛋白。

9.一种多核苷酸，所述多核苷酸包含编码如前述实施例中任一项所述的Cas9内切核酸酶变体的核酸序列。

10.一种指导多核苷酸/Cas内切核酸酶复合物(PGEN)，所述指导多核苷酸/Cas内切核酸酶复合物包含至少一种指导多核苷酸和至少一种如实施例1-6中任一项所述的Cas9内切核酸酶变体，其中所述指导多核苷酸是嵌合的非天然存在的指导多核苷酸，其中所述指导多核苷酸/Cas内切核酸酶复合物能够识别、结合靶序列的全部或部分并任选地使靶序列的全部或部分产生切口、解旋或切割靶序列的全部或部分。

11.一种重组DNA构建体，所述重组DNA构建体包含如实施例9所述的多核苷酸。

12.一种宿主细胞，所述宿主细胞包含如实施例1-6中任一项所述的Cas9内切核酸酶或其功能片段。

13.一种宿主细胞，所述宿主细胞包含如实施例9所述的多核苷酸。

14.如实施例13所述的宿主细胞，其中所述细胞是原核细胞或真核细胞。

15.如实施例14所述的宿主细胞，其中所述细胞选自由以下组成的组：人类、非人类、动物、细菌、真菌、昆虫、酵母、非常规酵母和植物细胞。

15b.一种试剂盒，所述试剂盒包含如实施例7所述的PGEN。

15c.一种递送粒子，所述递送粒子包含如实施例1、2、3、4、5或6所述的Cas9内切核酸酶变体。

15d.如实施例15c所述的递送粒子，其中所述Cas9内切核酸酶变体蛋白与指导多核苷酸复合。

16.一种用于修饰细胞的基因组中的靶位点的方法，所述方法包括将至少一种如实施例10所述的PGEN引入细胞，并鉴定在所述靶标处具有修饰的至少一个细胞，其中所述靶位点处的修饰选自由以下组成的组：(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、和(iv)(i)-(iii)的任何组合。

17.一种用于编辑细胞的基因组中的核苷酸序列的方法，所述方法包括将至少一种如实施例10所述的PGEN和多核苷酸修饰模板引入，其中所述多核苷酸修饰模板包含所述核苷酸序列的至少一个核苷酸修饰。

18.如实施例17所述的方法，所述方法进一步包括选择包含所述经编辑的核苷酸序列的至少一个细胞。

19.一种用于修饰细胞的基因组中的靶位点的方法，所述方法包括将至少一种如实施例10所述的PGEN和至少一种供体DNA引入细胞，其中所述供体DNA包含目的多核苷酸。

20.如实施例19所述的方法，所述方法进一步包括鉴定至少一个将所述目的多核苷酸整合到所述靶位点中或所述靶位点附近处的细胞。

21.如实施例16-21中任一项所述的方法，其中所述细胞选自由以下组成的组：人类、非人类、动物、细菌、真菌、昆虫、酵母、非常规酵母和植物细胞。

22.如实施例16-21所述的方法，其中将所述PGEN作为预先组装的多核苷酸-蛋白质复合物引入所述细胞。

23.如实施例16-21中任一项所述的方法，其中所述指导多核苷酸/Cas内切核酸酶是指导RNA/Cas内切核酸酶。

24.如实施例22所述的方法，其中所述指导RNA/Cas内切核酸酶复合物在作为核糖核苷酸-蛋白质复合物引入所述细胞之前在体外组装。

25.一种用于改善Cas9内切核酸酶变体的至少一种特性的方法，所述方法包括在亲本Cas9内切核酸酶中引入至少一个氨基酸修饰，其中所述至少一个氨基酸修饰位于所述亲本Cas9内切核酸酶的RuVC和HNH结构域之外，从而创建所述Cas9内切核酸酶变体，其中所述Cas9内切核酸酶变体与所述亲本Cas9内切核酸酶相比时在至少一种特性方面显示出改善。

26.如实施例25所述的方法，其中所述至少一个氨基酸修饰是选自由位置86、位置98、位置155及其组合组成的组的位置处的氨基酸取代，其中所述变体的氨基酸位置通过与所述亲本Cas9内切核酸酶的氨基酸序列相对应来编号。

27.如实施例26所述的方法，其中所述至少一个氨基酸取代选自由以下组成的组：Y155H、Y155N、Y155E、Y155F(在位置155处)、F86A(在位置86处)和F98A(在位置98处)。

28.如实施例25所述的方法，其中所述Cas9内切核酸酶变体当与所述亲本Cas9内切核酸酶相比时具有选自由以下组成的组中的至少一种改善的特性：改善的转化效率和改善的编辑效率。

29.一种通过如实施例24-27中任一项所述的方法产生的cas9内切核酸酶变体。

30.一种用于修饰芽孢杆菌宿主细胞的基因组的方法，所述方法包括

向包含至少一个待修饰的靶序列的芽孢杆菌宿主细胞提供至少一种非天然存在的指导RNA和至少一种如实施例1-6中任一项所述的Cas9内切核酸酶变体，其中所述指导RNA和Cas9内切核酸酶变体能够形成复合物(PGEN)，其中所述复合物能够识别、结合所述至少一个靶序列的全部或部分并任选地使所述至少一个靶序列的全部或部分产生切口、解旋或切割所述至少一个靶序列的全部或部分；并且，

鉴定至少一个芽孢杆菌宿主细胞，其中所述至少一个基因组靶序列已被修饰。

31.如实施例30所述的方法，所述靶位点处的修饰选自由以下组成的组：(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、和(iv)(i)-(iii)的任何组合。

32.如实施例29所述的方法，其中所述芽孢杆菌宿主细胞选自由以下组成的芽孢杆菌属物种的组：嗜碱芽孢杆菌(Bacillus alkalophilus)、高地芽孢杆菌(Bacillusaltitudinis)、解淀粉芽孢杆菌(Bacillus amyloliquefaciens)、植物解淀粉芽孢杆菌亚种(B.amyloliquefaciens subsp.plantarum)、短芽孢杆菌(Bacillus brevis)、环状芽孢杆菌(Bacillus circulans)、克劳氏芽孢杆菌(Bacillus clausii)、凝结芽孢杆菌(Bacillus coagulans)、坚硬芽孢杆菌(Bacillus firmus)、灿烂芽孢杆菌(Bacilluslautus)、迟缓芽孢杆菌(Bacillus lentus)、地衣芽孢杆菌(Bacillus licheniformis)、巨大芽孢杆菌(Bacillus megaterium)、甲基营养型芽孢杆菌(Bacillusmethylotrophicus)、短小芽孢杆菌(Bacillus pumilus)、沙福芽孢杆菌(Bacillussafensis)、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)、枯草芽孢杆菌(Bacillussubtilis)以及苏云金芽孢杆菌(Bacillus thuringiensis)。

33.一种用于修饰大肠杆菌(E.coli)宿主细胞的基因组的方法，所述方法包括

向包含至少一个待修饰的靶序列的大肠杆菌宿主细胞提供至少一种非天然存在的指导RNA和至少一种如实施例1-6中任一项所述的Cas9内切核酸酶变体，其中所述指导RNA和Cas9内切核酸酶变体能够形成复合物(PGEN)，其中所述复合物能够识别、结合所述至少一个靶序列的全部或部分并任选地使所述至少一个靶序列的全部或部分产生切口、解旋或切割所述至少一个靶序列的全部或部分；并且，

34.一种用于修饰酿酒酵母宿主细胞的基因组的方法，所述方法包括

向包含至少一个待修饰的靶序列的酿酒酵母宿主细胞提供至少一种非天然存在的指导RNA和至少一种如实施例1-6中任一项所述的Cas9内切核酸酶变体，其中所述指导RNA和Cas9内切核酸酶变体能够形成复合物(PGEN)，其中所述复合物能够识别、结合所述至少一个靶序列的全部或部分并任选地使所述至少一个靶序列的全部或部分产生切口、解旋或切割所述至少一个靶序列的全部或部分；并且，

35.一种用于修饰真菌宿主细胞的基因组的方法，所述方法包括

向包含至少一个待修饰的靶序列的真菌宿主细胞提供至少一种非天然存在的指导RNA和至少一种如实施例1-6中任一项所述的Cas9内切核酸酶变体，其中所述指导RNA和Cas9内切核酸酶变体能够形成复合物(PGEN)，其中所述复合物能够识别、结合所述至少一个靶序列的全部或部分并任选地使所述至少一个靶序列的全部或部分产生切口、解旋或切割所述至少一个靶序列的全部或部分；并且，

鉴定至少一个真菌宿主细胞，其中所述至少一个基因组靶序列已被修饰。

36.一种用于修饰细胞中靶位点的Cas9内切核酸酶变体，所述Cas9内切核酸酶变体包含在其HNH结构域和RuVC结构域之外的氨基酸修饰，其中所述Cas9内切核酸酶与不包含所述氨基酸修饰的亲本Cas9内切核酸酶相比时具有至少一种改善的特性，其中Cas9内切核酸酶变体可与所述指导多核苷酸形成复合物，其中所述复合物能够识别、结合所述靶序列的全部或部分并任选地使所述靶序列的全部或部分产生切口、解旋或切割所述靶序列的全部或部分。

37.如实施例34所述的Cas9内切核酸酶变体，其中所述Cas9内切核酸酶变体当与所述亲本Cas9内切核酸酶相比时具有选自由以下组成的组中的至少一种改善的特性：改善的转化效率、改善的倍数转化、改善的编辑效率和改善的倍数编辑。

38.一种通过使用Cas9内切核酸酶变体来修饰细胞中目的基因组基因座中的靶位点从而增加编辑效率来修饰生物体或非人类生物体的方法，所述方法包括向所述细胞提供非天然存在的指导多核苷酸和Cas9内切核酸酶变体，其中所述Cas9内切核酸酶变体包含在其HNH和RuvC结构域之外的氨基酸修饰，其中所述Cas9内切核酸酶与不包含所述氨基酸修饰的亲本Cas9内切核酸酶相比时具有增加的基因编辑效率，其中所述指导多核苷酸和Cas9内切核酸酶变体可形成复合物，所述复合物能够识别、结合所述靶序列的全部或部分并任选地使所述靶序列的全部或部分产生切口、解旋或切割所述靶序列的全部或部分。

39.一种在原核细胞或真核细胞中表达Cas内切核酸酶变体的方法，所述方法包括：

(a)将如实施例11所述的重组DNA构建体引入原核细胞或真核细胞；并且，

(b)在允许表达所述Cas内切核酸酶变体的条件下孵育步骤(a)的原核细胞或真核细胞。

38.一种Cas9内切核酸酶变体，其选自由以下组成的组：SEQ ID NO:58(CasY155H变体)、SEQ ID NO:123(CasY155N变体)、SEQ ID NO:125(Cas9 Y155E变体)、SEQ ID NO:127(Cas9 Y155F变体)、SEQ ID NO:129(Cas9 F86A-F98A变体)。

实例

在以下实例中，除非另有说明，份数和百分比以重量计，并且度数为摄氏度。应当理解的是，尽管这些实例说明了本公开的实施例，但仅是通过说明的方式给出的。从上述讨论和这些实例，本领域技术人员可以对本公开进行各种改变和修改以使其适应各种用途和条件。此类修改也当视为落入所附权利要求的范围内。

实例1

在芽孢杆菌中构建靶向靶位点1和靶位点2的Cas9表达盒

对来自酿脓链球菌的Cas9蛋白(SEQ ID NO:1)进行密码子优化以便在芽孢杆菌(SEQ ID NO:2)中表达，并添加N-末端核定位序列(NLS；“APKKKRKV”；SEQ ID NO:3)、C-末端NLS(“KKKKLK”；SEQ ID NO:4)，十-组氨酸标签(“HHHHHHHHHH”；SEQ ID NO:5)、来自枯草芽孢杆菌的aprE启动子(SEQ ID NO:6)和终止子序列(SEQ ID NO:7)，并使用Q5 DNA聚合酶(NEB)(按照制造商的说明书)用下面表1中列出的正向/反向引物对扩增。

表1.正向和反向引物对

正向	ATATATGAGTAAACTTGGTCTGACAGAATTCCTCCATTTTCTTCTGCTAT	SEQ ID NO:8
			反向	TGCGGCCGCGAATTCGATTACGAATGCCGTCTCCC	SEQ ID NO:9

质粒pKB320(SEQ ID NO:11)的主链(SEQ ID NO:10)使用Q5DNA聚合酶(NEB)(按照制造商的说明书)用下面表2中列出的正向/反向引物对扩增。

表2.正向和反向引物对

正向	GGGAGACGGCATTCGTAATCGAATTCGCGGCCGCA	SEQ ID NO:12
			反向	ATAGCAGAAGAAAATGGAGGAATTCTGTCAGACCAAGTTTACTCATATAT	SEQ ID NO:13

按照制造商的说明书用Zymo清洁和浓缩(Zymo clean and concentrate)5柱纯化PCR产物。随后，用Q5聚合酶(NEB)与等摩尔比的两个片段混合，使用延长重叠延伸PCR(POE-PCR)组装PCR产物。POE-PCR反应循环进行：98℃持续五(5)秒，64℃持续十(10)秒，72℃持续四(4)分钟十五(15)秒，持续30个循环。将五(5)μl POE-PCR(DNA)按照制造商的说明书转化进入Top10大肠杆菌(英杰公司(Invitrogen))，并在包含五十(50)μg/ml硫酸卡那霉素并用1.5％琼脂固化的溶源性(L)液体培养基汤(米勒配方；1％(w/v)胰蛋白胨、0.5％酵母提取物(w/v)，1％NaCl(w/v))中选择。允许菌落在37℃下生长十八(18)小时。挑取菌落，并使用Qiaprep DNA迷你制备试剂盒(按照制造商的说明书)制备质粒DNA，并用五十(55)μl ddH₂O进行洗脱。使用下面表3中列出的测序引物对质粒DNA进行桑格测序以验证正确组装。

表3.测序引物

反向	CCGACTGGAGCTCCTATATTACC	SEQ ID NO:14
			正向	GTCTTTTAAGTAAGTCTACTCT	SEQ ID NO:16
正向	CCAAAGCGATTTTAAGCGCG	SEQ ID NO:17
			正向	CCTGGCACGTGGTAATTCTC	SEQ ID NO:18
正向	GGATTTCCTCAAATCTGACG	SEQ ID NO:19
			正向	GTAGAAACGCGCCAAATTACG	SEQ ID NO:20
正向	GCTGGTGGTTGCTAAAGTCG	SEQ ID NO:21
			正向	GGACGCAACCCTCATTCATC	SEQ ID NO:22
反向	CAGGCATCCGATTTGCAAGG	SEQ ID NO:23
			正向	GCAAGCAGCAGATTACGCG	SEQ ID NO:24

将正确组装的质粒pRF694(SEQ ID NO:25)用于构建质粒pRF801(SEQ ID NO:26)和pRF806(SEQ ID NO:27)，用于编辑地衣芽孢杆菌基因组的靶位点1(SEQ ID NO:28)和靶位点2(SEQ ID NO:29)，如下所述。

地衣芽孢杆菌的serA1可读框(SEQ ID NO:30)含有独特的靶位点，即反向定向的靶位点1(SEQ ID NO:28)。靶位点与反向定向的原间隔子邻近基序(SEQ ID NO:31)相邻。靶位点可转换为编码可变靶向结构域(SEQ ID NO:32)的DNA。编码VT结构域的DNA序列(SEQID NO:32)有效地融合到编码Cas9内切核酸酶识别结构域(CER，SEQ ID NO:33)的DNA序列，使得当被细菌细胞的RNA聚合酶转录时，它产生靶向靶位点1的功能性gRNA(SEQ ID NO:34)。编码gRNA的DNA有效地连接到在芽孢杆菌属物种细胞中有效的启动子(例如spac启动子；SEQ ID NO:35)和在芽孢杆菌属物种细胞中有效的终止子(例如噬菌体λ的t0终止子；SEQ ID NO:36)，使得所述启动子位于编码gRNA的DNA(SEQ ID NO:33)的5’，并且所述终止子位于编码gRNA的DNA(SEQ ID NO:33)的3’。

通过扩增地衣芽孢杆菌基因组DNA(gDNA)的两个同源臂，构建了多核苷酸修饰模板(也称为编辑模板)，用以响应Cas9/gRNA切割而缺失serA1基因。第一片段对应于serA1可读框(SEQ ID NO:37)直接上游500bp。使用Q5 DNA聚合酶(根据制造商的说明书)和下面表4中列出的引物扩增该片段。所述引物在第一片段的3’末端并入了与第二片段5’末端同源的18bp，在第一片段的5’末端并入了与pRF694同源的20bp。

表4.正向和反向引物对。

正向	TGAGTAAACTTGGTCTGACAAATGGTTCTTTCCCCTGTCC	SEQ ID NO:38
			反向	AGGTTCCGCAGCTTCTGTGTAAGATTTCCTCCTAAATAAGCGTCAT	SEQ ID NO:39

第二片段对应于serA1可读框(SEQ ID NO:40)的3’末端直接下游的500bp。使用Q5DNA聚合酶(根据制造商的说明书)和下面表5中列出的引物扩增该片段。所述引物在第二片段的5’末端并入了与第一片段3’末端同源的28bp，在第二片段的3’末端并入了与pRF694同源的21bp。

表5正向和反向引物对。

正向	ATGACGCTTATTTAGGAGGAAATCTTACACAGAAGCTGCGGAACCT	SEQ ID NO:41
			反向	CAGAAGAAAATGGAGGAATTCGAATATCGACCGGAACCCAC	SEQ ID NO:42

使用标准分子生物学技术将编码靶位点1gRNA表达盒(SEQ ID NO:43)、第一(SEQID NO:37)和第二同源臂(SEQ ID NO:40)的DNA组装到pRF694(SEQ ID NO:25)中，产生pRF801(SEQ ID NO:26)，包含以下的大肠杆菌-地衣芽孢杆菌穿梭质粒：Cas9表达盒(SEQID NO:2)、编码靶向serA1可读框内的靶位点1的gRNA的gRNA表达盒(SEQ ID NO:43)和由第一(SEQ ID NO:37)和第二(SEQ ID NO:40)同源臂构成的编辑模板(SEQ ID NO:44)。用表3中列出的寡核苷酸通过桑格测序验证质粒。

地衣芽孢杆菌的rghR1可读框(SEQ ID NO:45)在反向链上含有唯一的靶位点，靶位点2(SEQ ID NO:46)。所述靶位点与反向链上的原间隔子邻近基序(SEQ ID NO:47的最后三个碱基)相邻。所述靶位点可被转化成编码指导RNA的可变靶向(VT)结构域(SEQ ID NO:48)的DNA。编码VT结构域的DNA序列(SEQ ID NO:48)有效地融合到编码Cas9内切核酸酶识别结构域(CER，SEQ ID NO:33)的DNA序列，使得当被细菌细胞的RNA聚合酶转录时，它产生靶向靶位点2的功能性指导RNA(gRNA)(SEQ ID NO:49)。编码gRNA的DNA有效地连接到在芽孢杆菌属物种细胞中有效的启动子(例如来自枯草芽孢杆菌的spac启动子；SEQ ID NO:35)和在芽孢杆菌属物种细胞中有效的终止子(例如噬菌体λ的t0终止子；SEQ ID NO:36)，使得所述启动子位于编码gRNA的DNA(SEQ ID NO:43)的5’，并且所述终止子位于编码gRNA的DNA(SEQ ID NO:43)的3’。

通过扩增地衣芽孢杆菌基因组DNA(gDNA)的两个同源臂，构建了多核苷酸修饰模板(也称为编辑模板)，用以响应Cas9/gRNA切割而修饰rghR1基因。第一片段对应于rghR1可读框(SEQ ID NO:50)直接上游500bp。使用Q5 DNA聚合酶(根据制造商的说明书)和下面表6中列出的引物扩增该片段。所述引物在第一片段的3’末端并入了与第二片段5’末端同源的23bp，在第一片段的5’末端并入了与pRF694同源的20bp。

表6.正向和反向引物对。

正向	TGAGTAAACTTGGTCTGACATTGATATTCAGCACCCTGCG	SEQ ID NO:51
			反向	TGTGCCGCGGAGAAGTATGGCCAAAACCTCGCAATCTC	SEQ ID NO:52

第二片段对应于rghR1可读框(SEQ ID NO:53)的3’末端直接下游的500bp。使用Q5DNA聚合酶(根据制造商的说明书)和下面表7中列出的引物扩增该片段。所述引物在第二片段的5’末端并入了与第一片段3’末端同源的20bp，在第二片段的3’末端并入了与pRF694同源的21bp。

表7.正向和反向引物对。

正向	GAGATTGCGAGGTTTTGGCCATACTTCTCCGCGGCACA	SEQ ID NO:54
			反向	CAGAAGAAAATGGAGGAATTCATTTCTCGGGTTTAAACAGCCAC	SEQ ID NO:55

使用标准分子生物学技术将编码靶位点2gRNA表达盒(SEQ ID NO:56)、第一(SEQID NO:50)和第二同源臂(SEQ ID NO:53)的DNA组装到pRF694(SEQ ID NO:25)中，产生pRF806(SEQ ID NO:27)，包含以下的大肠杆菌-地衣芽孢杆菌穿梭质粒：Cas9表达盒(SEQID NO:2)、编码靶向rghR1可读框内的靶位点2的gRNA的gRNA表达盒(SEQ ID NO:56)和由第一(SEQ ID NO:50)和第二(SEQ ID NO:53)同源臂构成的编辑模板(SEQ ID NO:57)。用表3列出的寡核苷酸通过桑格序列验证质粒。

实例2

Cas9 Y155变体的创建

在本例中，酿脓链球菌Cas9的Y155H变体(称为Cas9 Y155H变体，在本文中，SEQ IDNO:58)在pRF801(SEQ ID NO:26)和pRF806质粒(SEQ ID NO:27)中创建。为了在pRF801质粒(SEQ ID NO:26)或pRF806质粒(SEQ ID NO:27)中引入Cas9 Y155H变体，使用Quikchange诱变试剂盒(按照制造商说明书)和下表8中的寡核苷酸，使用pRF801(SEQ ID NO:26)或pRF806(SEQ ID NO:27)作为模板DNA进行定点诱变。

表8.正向和反向引物对。

正向	GATCTGCGTTTAATCCATCTTGCGTTAGCGCAC	SEQ ID NO:59
			反向	GTGCGCTAACGCAAGATGGATTAAACGCAGATC	SEQ ID NO:60

所产生的反应产物，pRF827(SEQ ID NO:61)包含Cas9 Y155H变体表达盒(SEQ IDNO:62)、gRNA表达盒(SEQ ID NO:43)(其编码靶向serA1可读框内的靶位点1的gRNA)和由第一(SEQ ID NO:37)和第二(SEQ ID NO:40)同源臂构成的编辑模板(SEQ ID NO:44)，或者pRF856(SEQ ID NO:63)，其含有Cas9 Y155H变体表达盒(SEQ ID NO:62)、靶向rghR1可读框内的靶位点2的gRNA表达盒(SEQ ID NO:56)和由第一(SEQ ID NO:50)和第二(SEQ ID NO:53)同源臂构成的编辑模板(SEQ ID NO:57)。使用表3中列出的测序引物对质粒DNA进行桑格测序以验证正确组装。

如上所述，以类似的方式创建了其他Cas9 Y155变体。创建Cas9 Y155N变体并在SEQ ID NO:123(由SEQ ID NO:124编码的氨基酸序列)中示出，创建Cas9 Y155E变体并在SEQ ID NO:125(由SEQ ID NO:126编码的氨基酸序列)中示出，创建Cas9 Y155F变体并在SEQ ID NO:127(由SEQ ID NO:128编码的氨基酸序列)中示出。

实例3

与野生型酿脓链球菌Cas9(WT Cas9)相比，酿脓链球菌Cas9的Y155H变体(Cas9 Y155H变体)在芽孢杆菌细胞中具有增加的转化效率和相等或增加的DNA编辑效率。

在本实例中，将上述pRF694(SEQ ID NO:25)、pRF801(SEQ ID NO:26)、pRF806(SEQID NO:27)、pRF827(SEQ ID NO:61)和pRF856(SEQ ID NO:63)质粒根据制造商的说明书使用滚环扩增(Sygnis)扩增18小时。将滚环扩增的质粒转化到感受态(亲本)地衣芽孢杆菌细胞中，所述细胞包含(具有)pBL.comK质粒(SEQ ID NO:64)，如国际PCR公开号WO 2017/075195、WO 2002/14490和WO 2008/7989中一般描述的。将细胞/DNA转化混合物铺板到含有20μg/ml卡那霉素并用1.5％琼脂固化的L-液体培养基(米勒配方)上。允许菌落在37℃下形成。将生长在含有卡那霉素的L琼脂板上的菌落挑出，并在L琼脂板上划线回收。通过使用Q5DNA聚合酶(根据制造商的说明书)和下面表9中列出的正向/反向引物对扩增靶位点1基因座(SEQ ID NO:65)，针对编辑对来自用pRF801(SEQ ID NO:26)和pRF827(SEQ ID NO:61)进行的转化的菌落进行筛选。在WT扩增子(SEQ ID NO:65)的大小大于经编辑的扩增子(SEQID NO:66)的情况下，可以基于经扩增的基因座的大小来区分芽孢杆菌细胞中的WT和经编辑的靶位点1基因座。

表9.正向和反向引物对。

正向	TAGAGACGAGACGTCTCACC	SEQ ID NO:67
			反向	GTATCAATCCGACTCCTACGG	SEQ ID NO:68

通过使用Q5 DNA聚合酶(根据制造商的说明书)和下面表10中列出的正向/反向引物对扩增靶位点2基因座(SEQ ID NO:69)，针对编辑效率对来自用质粒pRF806(SEQ ID NO:27)或pRF856(SEQ ID NO:63)进行的转化的菌落进行分析。WT(SEQ ID NO:69)和经编辑的靶位点2基因座(SEQ ID NO:70)可以基于经编辑的基因座(SEQ ID NO:70)的大小来区分，其中WT扩增子(SEQ ID NO:69)的大小较大。

表10.正向和反向引物对。

正向	ATCAAACATGCCATGTTTGC	SEQ ID NO:71
			反向	AGGTTGAGCAGGTCTTCG	SEQ ID NO:72

表11显示了在对质粒有选择性的培养基(L琼脂，含20μg·ml^-1硫酸卡那霉素)上获得的转化体数量。转化效率是来自具有特定gRNA和编辑模板的给定Cas9变体获得的转化体数量与来自具有相同gRNA表达盒和编辑模板的亲本(WT)Cas9的转化体数量之比。结果显示在表11中，表明Cas9 Y155H变体将Cas9变体的转化效率(通过质粒递送)增加了至少84至-402倍。

表11：地衣芽孢杆菌靶标处的转化效率和编辑频率。

表11中所示的结果表明，Cas9 Y155H变体的编辑效率至少等于WT Cas9的DNA编辑效率或至少比WT Cas9的DNA编辑效率大2.3倍(或230％)。

实例4

Cas9 F86A-F98A变体的构建。

在本实例中，在pRF801质粒(SEQ ID NO:26)的主链中构建Cas9 F86A-F98A变体(SEQ ID NO:129)，以便测试Cas9 F86A-F98A变体在地衣芽孢杆菌中的转化效率和编辑频率。

从外部供应商订购含有包括F86A和F98A的Cas9的一部分的合成片段(SEQ ID NO:130)。使用标准PCR技术，使用表12中列出的寡核苷酸扩增pRF801(SEQ ID NO:131)的主链。

表12.正向和反向引物对。

正向	AAAGAAAAATGGTCTGTTTG	SEQ ID NO:132
			反向	AATACGATTTTTACGACGTG	SEQ ID NO:133

使用标准PCR技术，使用以下表13中列出的寡核苷酸扩增所述合成片段(SEQ IDNO:130)。

表13正向和反向引物对。

正向	AAAGAAAAATGGTCTGTTTG	SEQ ID NO:134
			反向	AATACGATTTTTACGACGTG	SEQ ID NO:135

使用标准分子生物学技术将pRF801主链片段(SEQ ID NO:131)与F86A-F98A合成片段组装以创建质粒pRF866(SEQ ID NO:137)。pRF866包含针对芽孢杆菌的F86A F98ACas9表达盒(SEQ ID NO:136)、编码针对靶向serA1 ts1的gRNA表达盒的DNA(SEQ ID NO:43)和serA1缺失编辑模板(SEQ ID NO:44)。

将质粒pRF866转化到地衣芽孢杆菌细胞中。

实例5

包括在F86处的第一氨基酸取代和在F98处的第二氨基酸取代的酿脓链球菌的 Cas9变体与其亲本(野生型)酿脓链球菌Cas9(WT Cas9)相比在芽孢杆菌细胞中具有增加的转化效率和相等的DNA编辑效率。

如实例4中所述创建了包含在F86处的第一氨基酸取代(例如F86A)和在F98处的第二个氨基酸取代(例如F98A)的酿脓链球菌的Cas9变体(称为Cas9 F86-F98变体)，其中变体的氨基酸位置通过与SEQ ID NO 1(酿脓链球菌WT Cas9)中所示的亲本Cas9多肽的氨基酸序列相对应来编号。转化效率和编辑效率如实例3中所述并如表14所示进行分析。

表14：使用Cas9 F86-F98变体在地衣芽孢杆菌靶标处的转化效率和编辑频率。

表14清楚地显示，与WT Cas9相比，Cas9 F86-F98A变体的转化效率增加了248倍(或24，800％)。用编辑质粒转化的菌落如实例3中所述通过测定经筛选的含有所需编辑的菌落的百分比来筛选编辑效率。表14中所示的结果表明Cas9 F86A-F98A变体具有与WTCas9相同的编辑效率。

实例6

大肠杆菌Cas9载体的构建

在此实例中，构建了用于在大肠杆菌(E.coli)中的基因组编辑的诱导型Cas9表达载体。确认Cas9表达响应诱导物。

来自酿脓链球菌M1 GAS SF370的Cas9蛋白(SEQ ID NO:1)是按照本领域已知的标准技术优化的密码子(SEQ ID NO:73)。为了将Cas9蛋白定位至细胞核，在Cas9开放读码框的羧基末端合并猿病毒40(SV40)单组份(MAPKKKRKV，SEQ ID NO:74)核定位信号。通过标准分子生物学技术，将耶氏酵母属密码子优化的Cas9基因融合至耶氏酵母属组成型启动子，FBA1(SEQ ID NO:75)。包含组成型FBA启动子、耶氏酵母属密码子优化的Cas9、和SV40核定位信号的耶氏酵母属密码子优化的Cas9表达盒(SEQ ID NO:76)的实例。将Cas9表达盒克隆进质粒pZuf和称为pZufCas9的新构建体(SEQ ID NO:77)。

使用标准分子生物学技术，使用来自下表15的引物，从pZufCas9扩增耶氏酵母属密码子优化的Cas9-SV40融合基因(SEQ ID NO:78)。

表15.正向和反向引物对。

正向	GGGGGAATTCGACAAGAAATACTCCATCGGCCTGG	SEQ ID NO:79
			反向	CCCCAAGCTTAGCGGCCGCTTAGACCTTTCG	SEQ ID NO:80

表12中的引物向融合物中添加了5’EcoRI位点和3’HindIII位点。使用标准技术纯化PCR产物(SEQ ID NO:81)。将纯化的片段克隆进来自美国生命技术公司(lifetechnologies)的pBAD/HisB的EcoRI和HindIII位点(SEQ ID NO:82)，从而产生pRF48(SEQID NO:83)。

将大肠杆菌Cas9表达盒(SEQ ID NO:84)插入低拷贝质粒pKO3(SEQ ID NO:85)中，以创建pRF97(SEQ ID NO:86)，含有Cas9表达盒的低拷贝大肠杆菌质粒。

实例7

在大肠杆菌Cas9质粒中创建Cas9 Y155H变体

在本实例中，将Cas9 Y155H变体引入pRF97(SEQ ID NO:86)上编码的Cas9蛋白中。

产生编码来自pRF97的Cas9蛋白的一部分但包含编码Y155H变体(SEQ ID NO:87)的取代的合成DNA片段。使用标准PCR条件和表16中列出的引物扩增所述合成片段。

表16.正向和反向引物对。

正向	CTCCAGTCGTCTGCTCTTCG	SEQ ID NO:88
			反向	CCAACGAGATGGCCAAGGTG	SEQ ID NO:89

使用标准PCR技术和下面表17中列出的引物扩增pRF97质粒(SEQ ID NO:86)以接受Y155H合成片段(SEQ ID NO:87)的插入，从而产生pRF97-Y155H片段(SEQ ID NO:90)。

表17.正向和反向引物对。

正向	CACCTTGGCCATCTCGTTGG	SEQ ID NO:91
			反向	CGAAGAGCAGACGACTGGAG	SEQ ID NO:92

将Y155H合成片段(SEQ ID NO:87)和pRF97-Y155H片段(SEQ ID NO:90)组合以创建pRF861(SEQ ID NO:93)，含有针对Cas9 Y155H变体的大肠杆菌表达盒的低拷贝质粒。

实例8

使用WT Cas9和Cas9 Y155H变体进行的大肠杆菌的氮同化控制基因的缺失。

在本实例中，将编码大肠杆菌的氮同化控制基因的nac基因使用WT Cas9或Cas9Y155H变体进行缺失。

大肠杆菌nac基因(SEQ ID NO:94)包含两个靶位点；靶位点1(SEQ ID NO:95)和PAM(SEQ ID NO:96的最后三个碱基)，以及靶位点2(SEQ ID NO:97)和PAM(SEQ ID NO:98的最后三个碱基)。如实例1所述，通过将编码CER结构域的DNA(SEQ ID NO:33)添加到编码靶位点的DNA(有效地融合在大肠杆菌中在靶位点的5’末端有活性的启动子(例如N25噬菌体启动子(SEQ ID NO:99))的3’末端，并且将在大肠杆菌中有活性的终止子(例如λ噬菌体t0终止子(SEQ ID NO:36))添加到CER结构域的3’末端，可以针对nac位点1(SEQ ID NO:100)和nac位点2(SEQ ID NO:101)制备有效的gRNA表达盒。大肠杆菌主要通过同源定向修复来修复DNA，为了提高效率，Cas9介导的编辑要求和编辑模板。

将nac起始密码子和第一三密码子上游的491bp(SEQ ID NO:102)有效地连接到nac终止密码子和nac可读框的最后三密码子下游的491bp(SEQ ID NO:103)，以创建编辑模板，所述编辑模板使除nac可读框(SEQ ID NO:104)的第一三密码子和最后三密码子以外的所有密码子缺失。

将位点1gRNA表达盒(SEQ ID NO:100)或位点2gRNA表达盒(SEQ ID NO:102)有效地连接至nac缺失编辑模板(SEQ ID NO:104)，并与pRF97(SEQ ID NO:86)和pRF861(SEQ IDNO:93)在5’末端(SEQ ID NO：105)具有20bp的同一性以及与pRF97(SEQ ID NO:86)和pRF861(SEQ ID NO:93)在3’末端具有21bp的同一性(SEQ ID NO:106)，并且以nacET位点1(SEQ ID NO:107)和nacET位点2(SEQ ID NO:108)合成DNA片段订购。

使用标准分子生物学技术和下表18中列出的引物扩增pRF97(SEQ ID NO:86)或pRF861(SEQ ID NO:93)，以创建线性片段pRF97-盒(SEQ ID NO:109)或pRF861-盒(SEQ IDNO:110)。

表18.正向和反向引物对。

正向	GGTTTATTGACTACCGGAAGC	SEQ ID NO:111
			反向	GCCGTCAATTGTCTGATTCG	SEQ ID NO:112

使用标准分子生物学技术将pRF97-盒(SEQ ID NO:109)或pRF861-盒(SEQ ID NO:110)与nacET位点1(SEQ ID NO:107)或nacET位点1(SEQ ID NO:108)组装，以创建pRF97/nacET位点1(SEQ ID NO:113)、pRF97/nacET位点2(SEQ ID NO:114)、pRF861/nacET位点1(SEQ ID NO:115)和pRF861/nacET位点2(SEQ ID NO:116)。

将MG1655大肠杆菌细胞如前面所述(分子生物学中的短方案)成为电感受态，并用1μl的pRF97/nacET位点1(SEQ ID NO:113)、pRF97/nacET位点2(SEQ ID NO:114)、pRF861/nacET位点1(SEQ ID NO:115)或pRF861/nacET位点2(SEQ ID NO:116)转化。将细胞接种在L液体培养基(用1.5％w·v^-1琼脂固化，含有25μg·ml^-1氯霉素和0.1％w·v^-1L-阿拉伯糖)上(以诱导Cas9表达)。在30℃下培养24小时后，对来自转化的菌落进行计数。

为了确定菌落是否包含经编辑的等位基因，通过使用标准技术和下表19中的引物的PCR扩增，针对WT nac基因座(SEQ ID NO:117)或经编辑的nac基因座(SEQ ID NO:118)的存在，通过PCR筛选来自每个转化的多达8个菌落。

表19.正向和反向引物对。

正向	GGTTTATTGACTACCGGAAGC	SEQ ID NO:119
			反向	GCCGTCAATTGTCTGATTCG	SEQ ID NO:120

将提供与经编辑的nac基因座(SEQ ID NO:118)(其小于WT nac基因座(SEQ IDNO:117))相对应的扩增产物的菌落计数为经编辑的，用于编辑频率的计算。编辑频率是从PCR中证明存在经编辑的nac基因座(SEQ ID NO 118)的经筛选的细胞的百分比。表20中的结果显示了编辑频率和转化效率(转化子/转化子WT Cas9)。

表20.WT Cas9和Y155H Cas9在大肠杆菌中的转化效率和编辑频率

Cas9	靶位点	转化体	转化效率	编辑频率	编辑效率
						WT	位点1	4	1.0	75	1.00
Y155H	位点1	13	3.3	86	1.15
						WT	位点2	11	1.0	63	1.00
Y155H	位点2	8	0.7	100	1.59

表20清楚地表明Cas9 Y155H变体在大肠杆菌中是有效的并且与WTCas9编辑频率相比，编辑效率增加了至少15％至59％。

实例9

用于编辑酿酒酵母染色体URA3基因缺失的CAS9-gRNA载体的构建

为了测试Cas9 Y155H变体相比于Cas9野生型(wt)对编辑酿酒酵母染色体URA3基因缺失的转化效率和编辑效率，如下所述制备了以G-418抗性基因(KanMX)作为选择标记物的Cas9 Y155H-gRNA和Cas9 wt-gRNA表达质粒。

使用Q5 DNA聚合酶(NEB)(按照制造商说明书)用下面表21中列出的正向/反向引物对从pRF694质粒(SEQ ID NO:25)扩增含有编码来自酿脓链球菌的Cas9野生型蛋白(SEQID NO:1)的合成多核苷酸的片段A(Cas9 wt)，所述片段A包含N-末端核定位序列(NLS；“APKKKRKV”；SEQ ID NO:3)、C-末端NLS(“KKKKLK”；SEQ ID NO:4)和十-组氨酸标签(“HHHHHHHHHH”；SEQ ID NO:5)。使用Q5 DNA聚合酶(NEB)(按照制造商的说明书)用下面表21中所列的正向(SEQ ID NO:138)/反向(SEQ ID NO:138)引物对从pRF827质粒(SEQ IDNO:61)扩增含有编码Cas9 Y115H变体(SEQ ID NO:58)的合成多核苷酸的片段A’(Cas9Y115H)，所述片段A’包含N-末端核定位序列、C-末端NLS和十-组氨酸标签。

表21.正向和反向引物对。

使用Q5 DNA聚合酶(NEB)(按照制造商说明书)用下面表22中列出的正向(SEQ IDNO:145)/反向(SEQ ID NO:146)引物对从pSE087质粒(SEQ ID NO:144)扩增含有RNR2p启动子(SEQ ID NO:140)、2微米复制起点1(SEQ ID NO:141)、KanMX表达盒(SEQ ID NO:142)和SNR52p启动子(SEQ ID NO:143)的片段B。

表22.正向和反向引物对。

pSE087质粒是带有异源KanMX表达盒的2μ穿梭载体。所述质粒含有来自酿脓链球菌的在RNR2启动子控制下的cas9基因，在含有靶向sgRNA+T(6)终止子(SEQ ID NO:147)的填充片段上游的SNR52启动子。sgRNA的侧翼是BsmBI结合位点，其定向使得BsmBI对质粒的线性化释放sgRNA填充片段，在消化的质粒上留下不相容的突出部分。

使用Q5 DNA聚合酶(NEB)(按照制造商说明书)用下面表23中列出的正向(SEQ IDNO:151)/反向(SEQ ID NO:152)引物对扩增含有50bp上游同源臂(SEQ ID NO:148)、靶向URA3的sgRNA+T(6)终止子(SEQ ID NO:149)和50bp下游(SEQ ID NO:150)的合成多核苷酸的片段C。

表23正向和反向引物对。

使用Q5 DNA聚合酶(NEB)(按照制造商说明书)用下面表24中列出的正向(SEQ IDNO:156)/反向(SEQ ID NO:157)引物对从pSE087质粒扩增含有2微米复制起点2(SEQ IDNO:153)、氨苄青霉素抗性基因(SEQ ID NO:154)和RNR2终止子(SEQ ID NO:155)的片段D。

表24正向和反向引物对。

使用Qiagen PCR纯化试剂盒(凯杰公司(QIAGEN,Inc))根据制造商的说明书纯化PCR片段。随后，根据以下方案，通过酵母中的缺口修复将PCR片段组装到2微米质粒主链上。

通过使用冷冻-EZ酵母转化II^TM试剂盒(梓墨研究公司(Zymo Research,Inc))按照制造商的说明书制备酿酒酵母ura3Δ感受态细胞。将50μl的酿酒酵母ura3Δ感受态细胞与片段A、B、C和D的每个PCR产物的0.1-0.2μg DNA混合，以创建pWS572(Cas9 wt)。将50μl的酿酒酵母ura3Δ感受态细胞与片段A’、B、C和D的每个PCR产物的0.1-0.2μg DNA混合，以创建pWS573(Cas9 Y115H)。将试剂盒提供的500μl EZ 3溶液加入并充分混合。在30℃孵育混合物45分钟后，将50-150μl的转化混合物铺在补充有200ug/ml遗传霉素(G418)抗生素的YPD培养基板上。将板在30℃下孵育2-4天，以使转化子生长。

通过使用

质粒酵母迷你试剂盒(英杰公司)，从在补充有200ug/ml遗传霉素(G418)抗生素的YPD培养基中生长的1ml转化体制备得到的pWS572(Cas9 wt)和pWS573(Cas9 Y155H)质粒。

实例10

用pWS572(Cas9 WT)和pWS573(Cas9 Y155H)缺失酿酒酵母染色体URA3基因

在本实例中，比较了pWS573(Cas9 Y155H)相比于pWS572(Cas9wt)对酿酒酵母染色体URA3基因缺失的转化效率和编辑效率。通过使用冷冻-EZ酵母转化II^TM试剂盒(梓墨研究公司)按照制造商的说明书制备酿酒酵母野生型感受态细胞，并分别用pWS573(Cas9Y155H)和pWS572(Cas9 wt)的100ng质粒DNA转化。将50-150μl的转化混合物铺在补充有200ug/ml遗传霉素(G418)抗生素的YPD培养基板上。将板在30℃下孵育2-4天，以使转化子生长。通过在补充有2g/L葡萄糖的合成完全培养基(1X不含氨基酸的酵母氮碱基，1X不含尿嘧啶的氨基酸混合物)上划线转化子并在30℃下孵育细胞2-4天以使转化子生长，针对尿嘧啶营养缺陷型筛选正确的ura3Δ菌落。通过PCR和URA3靶区侧翼引物测序证实URA3基因缺失。每个质粒的编辑频率通过ura3Δ菌落数除以测试的菌落总数来确定。

Claims

2.如权利要求1所述的Cas9内切核酸酶变体，其中所述至少一个氨基酸取代选自由以下组成的组：Y155H、Y155N、Y155E、Y155F(在位置155处)、F86A(在位置86处)和F98A(在位置98处)。

3.如权利要求1所述的Cas9内切核酸酶变体，其中所述Cas9内切核酸酶变体当与所述亲本Cas9内切核酸酶相比时具有选自由以下组成的组中的至少一种改善的特性：改善的转化效率和改善的编辑效率。

4.如任一前述权利要求所述的Cas9内切核酸酶变体或其活性片段，其中所述变体包含与SEQ ID NO:1的氨基酸序列具有75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％氨基酸序列同一性的氨基酸序列。

5.如权利要求3所述的Cas9内切核酸酶变体，其中所述改善的特性是改善的转化效率，并且其中所述变体或其活性片段还具有改善的编辑效率。

7.一种组合物，所述组合物包含如前述权利要求中任一项所述的Cas9内切核酸酶或其功能片段。

8.如权利要求7所述的组合物，其中所述组合物选自由以下组成的组：指导多核苷酸/Cas9内切核酸酶复合物、指导RNA/Cas9内切核酸酶复合物和包含所述Cas9内切核酸酶变体的融合蛋白。

9.一种多核苷酸，所述多核苷酸包含编码如前述权利要求中任一项所述的Cas9内切核酸酶变体的核酸序列。

10.一种指导多核苷酸/Cas内切核酸酶复合物(PGEN)，所述指导多核苷酸/Cas内切核酸酶复合物包含至少一种指导多核苷酸和至少一种如权利要求1-6中任一项所述的Cas9内切核酸酶变体，其中所述指导多核苷酸是嵌合的非天然存在的指导多核苷酸，其中所述指导多核苷酸/Cas内切核酸酶复合物能够识别、结合靶序列的全部或部分并任选地使靶序列的全部或部分产生切口、解旋或切割靶序列的全部或部分。

11.一种重组DNA构建体，所述重组DNA构建体包含如权利要求9所述的多核苷酸。

12.一种宿主细胞，所述宿主细胞包含如权利要求1-6中任一项所述的Cas9内切核酸酶或其功能片段。

13.一种宿主细胞，所述宿主细胞包含如权利要求9所述的多核苷酸。

14.如权利要求13所述的宿主细胞，其中所述细胞是原核细胞或真核细胞。

15.如权利要求14所述的宿主细胞，其中所述细胞选自由以下组成的组：人类、非人类、动物、细菌、真菌、昆虫、酵母、非常规酵母和植物细胞。

16.一种用于修饰细胞的基因组中的靶位点的方法，所述方法包括将至少一种如权利要求10所述的PGEN引入细胞，并鉴定在所述靶标处具有修饰的至少一个细胞，其中所述靶位点处的修饰选自由以下组成的组：(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、和(iv)(i)-(iii)的任何组合。

17.一种用于编辑细胞的基因组中的核苷酸序列的方法，所述方法包括将至少一种如权利要求10所述的PGEN和多核苷酸修饰模板引入，其中所述多核苷酸修饰模板包含所述核苷酸序列的至少一个核苷酸修饰。

18.如权利要求17所述的方法，所述方法进一步包括选择包含所述经编辑的核苷酸序列的至少一个细胞。

19.一种用于修饰细胞的基因组中的靶位点的方法，所述方法包括将至少一种如权利要求10所述的PGEN和至少一种供体DNA引入细胞，其中所述供体DNA包含目的多核苷酸。

20.如权利要求19所述的方法，所述方法进一步包括鉴定至少一个将所述目的多核苷酸整合到所述靶位点中或所述靶位点附近处的细胞。

21.如权利要求16-21中任一项所述的方法，其中所述细胞选自由以下组成的组：人类、非人类、动物、细菌、真菌、昆虫、酵母、非常规酵母和植物细胞。

22.如权利要求16-21所述的方法，其中将所述PGEN作为预先组装的多核苷酸-蛋白质复合物引入所述细胞。

23.如权利要求16-21中任一项所述的方法，其中所述指导多核苷酸/Cas内切核酸酶是指导RNA/Cas内切核酸酶。

24.如权利要求22所述的方法，其中所述指导RNA/Cas内切核酸酶复合物在作为核糖核苷酸-蛋白质复合物引入所述细胞之前在体外组装。

26.如权利要求25所述的方法，其中所述至少一个氨基酸修饰是选自由位置86、位置98、位置155及其组合组成的组的位置处的氨基酸取代，其中所述变体的氨基酸位置通过与所述亲本Cas9内切核酸酶的氨基酸序列相对应来编号。

27.如权利要求26所述的方法，其中所述至少一个氨基酸取代选自由以下组成的组：Y155H、Y155N、Y155E、Y155F(在位置155处)、F86A(在位置86处)和F98A(在位置98处)。

28.如权利要求25所述的方法，其中所述Cas9内切核酸酶变体当与所述亲本Cas9内切核酸酶相比时具有选自由以下组成的组中的至少一种改善的特性：改善的转化效率和改善的编辑效率。

29.一种通过如权利要求24-27中任一项所述的方法产生的Cas9内切核酸酶变体。

30.一种用于修饰芽孢杆菌(Bacillus)宿主细胞的基因组的方法，所述方法包括

向包含至少一个待修饰的靶序列的芽孢杆菌宿主细胞提供至少一种非天然存在的指导RNA和至少一种如权利要求1-6中任一项所述的Cas9内切核酸酶变体，其中所述指导RNA和Cas9内切核酸酶变体能够形成复合物(PGEN)，其中所述复合物能够识别、结合所述至少一个靶序列的全部或部分并任选地使所述至少一个靶序列的全部或部分产生切口、解旋或切割所述至少一个靶序列的全部或部分；并且，

31.如30所述的方法，其中所述靶位点处的修饰选自由以下组成的组：(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、和(iv)(i)-(iii)的任何组合。

32.如29所述的方法，其中所述芽孢杆菌宿主细胞选自由以下组成的芽孢杆菌属物种的组：嗜碱芽孢杆菌(Bacillus alkalophilus)、高地芽孢杆菌(Bacillus altitudinis)、解淀粉芽孢杆菌(Bacillus amyloliquefaciens)、植物解淀粉芽孢杆菌亚种(B.amyloliquefaciens subsp.plantarum)、短芽孢杆菌(Bacillus brevis)、环状芽孢杆菌(Bacillus circulans)、克劳氏芽孢杆菌(Bacillus clausii)、凝结芽孢杆菌(Bacilluscoagulans)、坚硬芽孢杆菌(Bacillus firmus)、灿烂芽孢杆菌(Bacillus lautus)、迟缓芽孢杆菌(Bacillus lentus)、地衣芽孢杆菌(Bacillus licheniformis)、巨大芽孢杆菌(Bacillus megaterium)、甲基营养型芽孢杆菌(Bacillus methylotrophicus)、短小芽孢杆菌(Bacillus pumilus)、沙福芽孢杆菌(Bacillus safensis)、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)、枯草芽孢杆菌(Bacillus subtilis)以及苏云金芽孢杆菌(Bacillus thuringiensis)。

向包含至少一个待修饰的靶序列的大肠杆菌宿主细胞提供至少一种非天然存在的指导RNA和至少一种如权利要求1-6中任一项所述的Cas9内切核酸酶变体，其中所述指导RNA和Cas9内切核酸酶变体能够形成复合物(PGEN)，其中所述复合物能够识别、结合所述至少一个靶序列的全部或部分并任选地使所述至少一个靶序列的全部或部分产生切口、解旋或切割所述至少一个靶序列的全部或部分；并且，

34.一种用于修饰真菌宿主细胞的基因组的方法，所述方法包括

向包含至少一个待修饰的靶序列的真菌宿主细胞提供至少一种非天然存在的指导RNA和至少一种如权利要求1-6中任一项所述的Cas9内切核酸酶变体，其中所述指导RNA和Cas9内切核酸酶变体能够形成复合物(PGEN)，其中所述复合物能够识别、结合所述至少一个靶序列的全部或部分并任选地使所述至少一个靶序列的全部或部分产生切口、解旋或切割所述至少一个靶序列的全部或部分；并且，