CN113891936A

CN113891936A - 编辑核苷酸序列的方法和组合物

Info

Publication number: CN113891936A
Application number: CN202080036738.7A
Authority: CN
Inventors: D.R.刘; A.V.安扎隆; P.伦道夫; J.尼尔森
Original assignee: Harvard College; Broad Institute Inc
Current assignee: Harvard College; Broad Institute Inc
Priority date: 2019-03-19
Filing date: 2020-03-19
Publication date: 2022-01-04
Also published as: US20230383289A1; CN114729365A; US20220356469A1; US11795452B2; EP3942041A1; WO2020191242A1; BR112021018607A2; AU2020242032A1; JP2022532470A; CN114127285A; AU2020240109A1; KR20210143230A; US20230090221A1; WO2020191239A1; WO2020191234A1; US20230340465A1; WO2020191171A1; WO2020191246A1; MX2021011325A; EP3942043A2

Abstract

本公开提供了用于对靶DNA分子(如，基因组)进行引导编辑的组合物和方法，所述引导编辑使得能够掺入核苷酸变化和/或靶向诱变。核苷酸变化可包括单核苷酸变化(如，任何转换或任何颠换)、一个或多个核苷酸插入或者一个或多个核苷酸缺失。更具体地，本公开提供了包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶(如，逆转录酶)的融合蛋白，其由经修饰的向导RNA(被称为PEgRNA)引导至特定DNA序列。PEgRNA(相对于标准向导RNA)已改变为包含延伸部分，该延伸部分提供编码单链DNA瓣的DNA合成模板序列，其与待编辑的靶向内源性DNA序列的链同源但包含期望的一个或多个核苷酸变化，并且在被聚合酶(如，逆转录酶)合成之后掺入靶DNA分子中。本文还公开了利用引导编辑的各种方法，包括治疗三核苷酸重复缩减疾病、安装靶向肽标签、通过安装保护突变来治疗朊病毒病、操纵RNA编码基因以安装用于控制RNA功能和表达的RNA标签，使用引导编辑构建复杂的基因文库，使用引导编辑将免疫表位插入蛋白，使用引导编辑将可诱导的二聚化结构域插入蛋白靶标，以及递送方法等。

Description

编辑核苷酸序列的方法和组合物

政府支持

本发明是在获得美国国家卫生研究院授予的资助号U01AI142756、RM1HG009490、R01EB022376和R35GM118062的政府支持下进行的。政府对本发明享有一定的权利。

相关申请和引用并入

本美国临时申请涉及并通过引用并入以下申请，即，2019年3月19日提交的美国临时申请号62/820,813(代理人案卷号B1195.70074US00)、2019年6月7日提交的美国临时申请号62/858,958(代理人案卷号B1195.70074US01)，2019年8月21日提交的美国临时申请号62/889,996(代理人案卷号B1195.70074US02)，2019年8月21日提交的美国临时申请号62/922,654(代理人案卷编号B1195.70083US00)，美国临时申请号62/889,996，2019年10月10日提交的美国临时申请号62/913,553(代理人案卷编号B1195.70074US03)，2019年10月10日提交的美国临时申请号62/973,558(代理人案卷编号B1195.70083US01)，2019年11月5日提交的美国临时申请号62/931,195(代理人案卷号B1195.70074US04)，2019年12月5日提交的美国临时申请号62/944,231(代理人案卷号B1195.70074US05),2019年12月5日提交的美国临时申请号62/974,537(代理人案卷号B1195.70083US02),2020年3月17日提交的美国临时申请号62/991,069(代理人案卷号B1195.70074US06),以及2020年3月17日提交的美国临时申请号(在提交本申请时未获得系列号)(代理人案卷号B1195.70083US03)。

发明背景

据某些估计，致病性单核苷酸突变导致约50％的有遗传组分的人类疾病⁷。不幸地，尽管进行了数十年的基因治疗探索，但这些遗传性疾病患者的治疗选择仍然非常有限⁸。也许应对这一治疗挑战的最节俭的解决方案是直接校正患者基因组中的单核苷酸突变，这将解决疾病的根本原因并可能提供持久的益处。尽管这种策略以前是不可想象的，但最近CRISPR/Cas系统⁹的出现带来的基因组编辑能力的改进现在已经使这种治疗方法触手可及。通过直接设计包含与靶DNA序列互补的约20个核苷酸的向导RNA(guide RNA,gRNA)序列，CRISPR相关(Cas)核酸酶可特异性接近几乎任何可想到的基因组位点^1,2。迄今为止，已鉴定了几种单体细菌Cas核酸酶系统并调整用于基因组编辑应用¹⁰。Cas核酸酶的这种天然多样性，以及越来越多的工程化变体^11-14，为开发新的基因组编辑技术提供了肥沃的土壤。

虽然利用CRISPR进行基因破坏目前是成熟的技术，但精确编辑人类基因组中的单碱基对仍然是主要挑战³。同源定向修复(HDR)长期以来一直用于在人类细胞和其他生物体中使用编码期望编辑的供体DNA修复模板在双链断裂(DSB)位置插入、校正或交换DNA序列。然而，传统HDR在大多数人类细胞类型中的效率非常低，尤其是在非分裂细胞中，并且竞争性非同源末端连接(NHEJ)主要导致插入-缺失(indel)副产物¹⁶。其他问题与DSB的产生有关，这会导致靶基因座处大的染色体重排和缺失¹⁷，或激活p53轴，导致生长停滞和凋亡^18,19。

已经探索了几种方法来解决HDR的这些缺点。例如，已证明利用寡核苷酸供体修复单链DNA断裂(缺口)减少插入/缺失形成，但期望的修复产物的产率仍然很低²⁰。其他策略尝试使用小分子和生物试剂将修复偏向于HDR而非NHEJ^21-23。然而，这些方法的有效性可能取决于细胞类型，并且扰动正常细胞状态会导致不期望且不可预见的影响。

最近，由David Liu教授等领导的发明人开发了碱基编辑作为编辑靶核苷酸而不形成DSB或依赖于HDR的技术^4-6,24-27。通过Cas融合脱氨酶直接修饰DNA碱基可在短的靶窗口(约5-7个碱基)内以非常高的效率将C·G转换为T·A，或A·T转换为G·C。因此，碱基编辑器(editor)已迅速被科学界采用。然而，以下因素限制了它们在精确基因组编辑中的普遍性：(1)观测到靶窗口内的非靶C或A碱基的“旁观者编辑”；(2)观测到靶核苷酸产物混合物；(3)靶碱基必须位于PAM序列上游15±2个核苷酸处；以及(5)小的插入和缺失突变的修复是不可能的。

因此，开发能够灵活地引入任何期望的单核苷酸变化和/或能够安装(install)碱基对插入或缺失(如，至少1、2、3、4、5、6、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60、70、80、90、100或更多个碱基对插入或缺失)和/或能够以高特异性和高效率改变或修饰靶位点处的核苷酸序列将大大扩展基于CRISPR的基因组编辑技术的范围和治疗潜力。

发明概述

本发明描述了被称为“引导编辑(prime editing)”的全新基因组编辑平台。引导编辑是通用且精确的基因组编辑方法，其使用与聚合酶联合作用的核酸可编程DNA结合蛋白(“napDNAbp”)(即，以融合蛋白的形式或在其它情况下与napDNAbp以反式提供)直接将新的遗传信息写入指定的DNA位点，其中引导编辑系统利用引导编辑(PE)向导RNA(“PEgRNA”)编程，该PEgRNA既指定靶位点，又以通过延伸(DNA或RNA)工程化至向导RNA(如，在向导RNA的5′或3′端处或内部部分中)的置换DNA链的形式为期望编辑的合成提供模板。含有期望编辑(如，单核碱基取代)的置换链与待编辑的靶位点的内源性链共有相同的序列(除了它包括期望编辑)。通过DNA修复和/或复制机制，靶位点的内源性链被新合成的包含期望编辑的置换链替换。在某些情况下，可认为引导编辑是“搜索和置换”基因组编辑技术，因为本文所述引导编辑不仅搜索和定位待编辑的期望的靶位点，而且同时编码含有期望编辑的置换链，其得到安装代替相应靶位点内源性DNA链。

本公开的引导编辑器部分地涉及以下发现：可利用或调整靶标引发(target-primed)的逆转录(TPRT)或“引导编辑”的机制进行基于CRISPR/Cas的精确基因组编辑，具有高效率和遗传可塑性(如，如图1A至1F的不同实施方案所描绘)。可移动的DNA元件如哺乳动物非LTR逆转录转座子和细菌II组内含子天然使用TPRT^28,29。本发明人在本文中使用Cas蛋白-逆转录酶融合物或相关系统，利用向导RNA来靶向特定DNA序列，在靶位点处产生单链切口，并使用有切口的DNA作为引物进行与向导RNA一起整合的工程化逆转录酶模板的逆转录。然而，虽然该概念始于使用逆转录酶作为DNA聚合酶组件的引导编辑器，但本文所述的引导编辑器并不限于逆转录酶，而是可包括实际上使用DNA聚合酶。事实上，虽然本申请自始至终都涉及具有“逆转录酶”的引导编辑器，但在此提出逆转录酶只是可与引导编辑一起作用的DNA聚合酶的一种类型。因此，无论说明书何处提及“逆转录酶”，本领域普通技术人员都应理解，可使用任何合适的DNA聚合酶代替逆转录酶。因此，一方面，引导编辑器可包含Cas9(或等同napDNAbp)，其被编程为通过将其与特化向导RNA(即，PEgRNA)缔合来靶向DNA序列，该特化向导RNA包含与靶DNA中互补的原间隔区(protospacer)退火的间隔区序列。特化向导RNA还以延伸形式包含新的遗传信息，该遗传信息编码包含期望的基因变化的DNA置换链，其用于替换靶位点处的相应内源性DNA链。为了将信息从PEgRNA转移到靶DNA，引导编辑机制包括在DNA的一条链中的靶位点处产生切口以暴露3'-羟基。然后可使用暴露的3'-羟基直接对靶位点中引发PEgRNA上的编码编辑的延伸的DNA聚合。在不同实施方案中，延伸——其为含有编辑的置换链的聚合提供模板——可由RNA或DNA形成。在RNA延伸的情况下，引导编辑器的聚合酶可以是RNA依赖性DNA聚合酶(如，逆转录酶)。在DNA延伸的情况下，引导编辑器的聚合酶可以是DNA依赖性DNA聚合酶。

由本文公开的引导编辑器形成的新合成链(即，含有期望编辑的置换DNA链)除了包含期望的核苷酸变化(如，单核苷酸变化、缺失、或插入、或其组合)，还与基因组靶序列同源(即，具有相同的序列)。还可将新合成(或置换)的DNA链称为单链DNA瓣(flap)，它可竞争与互补的同源内源性DNA链的杂交，从而置换相应的内源性链。在某些实施方案中，该系统可与易错逆转录酶组合使用(如，作为与Cas9结构域的融合蛋白提供，或与Cas9结构域以反式提供)。易错逆转录酶可在单链DNA瓣的合成过程中引入变化。因此，在某些实施方案中，可利用易错逆转录酶将核苷酸变化引入靶DNA。根据与系统一起使用的易错逆转录酶，变化可以是随机或非随机的。

杂合中间体(包括由与内源性DNA链杂交的逆转录酶合成的单链DNA瓣)的分解可包括去除所产生的内源性DNA的置换瓣(如，利用5'端DNA瓣核酸内切酶，FENl)，合成的单链DNA瓣与靶DNA的连接，以及由于细胞DNA修复和/或复制过程而导致期望的核苷酸变化的同化。由于提供了模板的DNA合成为任何核苷酸的修饰(包括插入和缺失)提供了单核苷酸精确度，因此这种方法的范围非常广泛，可预见可用于在基础科学和治疗学中的无数应用。

一方面，本说明书提供了融合蛋白，其包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶。在不同实施方案中，融合蛋白能够在延伸的向导RNA存在下通过靶标引发的逆转录进行基因组编辑。

在某些实施方案中，napDNAbp具有切口酶活性。napDNAbp也可以是Cas9蛋白或其功能等同物，如核酸酶活性Cas9、无核酸酶活性Cas9(dCas9)或Cas9切口酶(nCas9)。

在某些实施方案中，napDNAbp选自：Cas9、Cas12e、Cas12d、Cas12a、Cas12b1、Cas13a、Cas12c和Argonaute蛋白，并且任选地具有切口酶活性。

在其他实施方案中，融合蛋白与延伸的向导RNA复合时能够结合靶DNA序列。

在其他实施方案中，靶DNA序列包含靶链和互补的非靶链。

在其他实施方案中，与延伸的向导RNA复合的融合蛋白的结合形成R-环。R-环可包含(i)包含延伸的向导RNA和靶链的RNA-DNA杂合体，和(ii)互补的非靶链。

在其他实施方案中，将互补的非靶链产生切口以形成具有游离3'端的逆转录酶引发序列。

在不同实施方案中，延伸的向导RNA包含(a)向导RNA和(b)在向导RNA的5'或3'端处或在向导RNA的分子内位置中的RNA延伸。RNA延伸可包含(i)包含期望的核苷酸变化的逆转录模板序列，(ii)逆转录引物结合位点，和(iii)任选的接头序列。在不同实施方案中，逆转录模板序列可编码与邻近切口位点的内源性DNA序列互补的单链DNA瓣，其中单链DNA瓣包含期望的核苷酸变化。

在不同实施方案中，RNA延伸的长度为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、或至少25个核苷酸。

在其他实施方案中，单链DNA瓣可与邻近切口位点的内源性DNA序列杂交，从而安装期望的核苷酸变化。在其他实施方案中，单链DNA瓣置换邻近切口位点且具有游离5'端的内源性DNA序列。在某些实施方案中，置换的具有5'端的内源性DNA被细胞切除。

在不同实施方案中，单链DNA瓣的细胞修复导致安装期望的核苷酸变化，从而形成期望的产物。

在不同的其他实施方案中，期望的核苷酸变化安装在PAM序列的约-4至+10之间的编辑窗口中。

在其他实施方案中，期望的核苷酸变化安装在切口位点的约-5至+5之间、或切口位点的约-10至+10之间、或切口位点的约-20至+20之间，或切口位点的约-30至+30之间，或切口位点的约-40至+40之间，或约-50至+50之间切口位点的约-60至+60之间，或切口位点的约-70至+70之间，或切口位点的约-80至+80之间，或切口位点的约-90至+90之间，或切口位点的约-100至+100之间，或切口位点的约-200至+200之间的编辑窗口中。

在不同实施方案中，napDNAbp包含SEQ ID NO:18的氨基酸序列。在不同的其他实施方案中，napDNAbp包含与SEQ ID NO:26-39、42-61、75-76、126、130、137、141、147、153、157、445、460、467和482-487(Cas9)；(SpCas9)；SEQ ID NO:77-86(CP-Cas9)；SEQ ID NO:18-25和87-88(SpCas9)；和SEQ ID NO:62-72(Cas12)中的任一氨基酸序列至少80％、85％、90％、95％、98％或99％相同的氨基酸序列。

在其他实施方案中，所公开的融合蛋白和/或组合物的逆转录酶可包含SEQ IDNO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700-716、739-742和766中的任一氨基酸序列。在其他实施方案中，逆转录酶可包含与SEQ IDNO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700-716、739-742和766中的任一氨基酸序列至少80％、85％、90％、95％、98％或99％相同的氨基酸序列。这些序列可以是如来自逆转录病毒或逆转录转座子的天然存在的逆转录酶序列，这些序列可以是重组的。

在不同的其他实施方案中，本文公开的融合蛋白可包含各种结构构造。例如，融合蛋白可包含结构NH₂-[napDNAbp]-[逆转录酶]-COOH；或NH₂-[逆转录酶]-[napDNAbp]-COOH，其中每个“]-[”情况表示存在任选的接头序列。

在不同实施方案中，接头序列包含SEQ ID NO:127、165-176、446、453和767-769的氨基酸序列，或者与SEQ ID NO:127、165-176、446、453和767-769中的任一接头氨基酸序列至少80％、85％、或90％、或95％、或99％相同的氨基酸序列。

在不同实施方案中，掺入靶DNA中的期望的核苷酸变化可以是单核苷酸变化(如，转换或颠换)、一个或多个核苷酸的插入、或者一个或多个核苷酸的缺失。

在某些情况下，插入的长度为至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少200、至少300、至少400、或至少500个核苷酸。

在某些其他情况下，缺失的长度为至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少200、至少300、至少400、或至少500个核苷酸。

另一方面，本公开提供包含向导RNA和至少一个RNA延伸的延伸的向导RNA。RNA延伸可位于向导RNA的3’端。在其他实施方案中，RNA延伸可位于向导RNA的5'端。在其他实施方案中，RNA延伸可位于向导RNA的分子内位置，然而，优选地，延伸部分的分子内定位不破坏原间隔区的功能。

在不同实施方案中，延伸的向导RNA能够结合napDNAbp并将napDNAbp引导至靶DNA序列。靶DNA序列可包含靶链和互补的非靶链，其中向导RNA与靶链杂交以形成RNA-DNA杂合体和R-环。

在延伸的向导RNA的不同实施方案中，至少一个RNA延伸可包含逆转录模板序列。在不同的其他实施方案中，RNA延伸可进一步包含逆转录引物结合位点。在更进一步的实施方案中，RNA延伸可包含将RNA延伸连接至向导RNA的接头或间隔区序列。

在不同实施方案中、RNA延伸的长度可为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸、至少100个核苷酸、至少150个核苷酸、至少200个核苷酸、至少300个核苷酸、至少400个核苷酸、或至少500个核苷酸。

在其他实施方案中，逆转录模板序列的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸、至少100个核苷酸、至少200个核苷酸、至少长度为300个核苷酸、至少400个核苷酸、或至少500个核苷酸。

在其他实施方案中，其中逆转录引物结合位点序列的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸、至少100个核苷酸、至少200个核苷酸、至少300个核苷酸、至少400个核苷酸、或至少500个核苷酸。

在其他实施方案中，任选的接头或间隔区序列的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸、至少100个核苷酸、至少200个核苷酸、至少为300个核苷酸、至少400个核苷酸、或至少500个核苷酸。

在延伸的向导RNA的不同实施方案中，逆转录模板序列可编码与邻近切口位点的内源性DNA序列互补的单链DNA瓣，其中单链DNA瓣包含期望的核苷酸变化。单链DNA瓣可在切口位点置换内源性单链DNA。在切口位点处置换的内源性单链DNA可具有5'端并形成内源性瓣，其可被细胞切除。在不同实施方案中，5'端内源性瓣的切除可有助于驱动产物形成，因为去除5'端内源性瓣促进单链3'DNA瓣与相应互补DNA链的杂交，以及掺入或同化由单链3'DNA瓣携带到靶DNA中的期望的核苷酸变化。

在延伸的向导RNA的不同实施方案中，单链DNA瓣的细胞修复导致安装期望的核苷酸变化，从而形成期望的产物。

在某些实施方案中，PEgRNA包含以下核苷酸序列：SEQ ID NO:131、222、394、429、430、431、432、433、434、435、436、437、438、439、440、441、442、641、642、643、644、645、646、647、648、649、678、679、680、681、682、683、684、685、686、687、688、689、690、691、692、738、2997、2998、2999、3000、3001、3002、3003、3004、3005、3006、3007、3008、3009、3010、3011、3012、3013、3014、3015、3016、3017、3018、3019、3020、3021、3022、3023、3024、3025、3026、3027、3028、3029、3030、3031、3032、3033、3034、3035、3036、3037、3038、3039、3040、3041、3042、3043、3044、3045、3046、3047、3048、3049、3050、3051、3052、3053、3054、3055、3056、3057、3058、3059、3060、3061、3062、3063、3064、3065、3066、3067、3068、3069、3070、3071、3072、3073、3074、3075、3076、3077、3078、3079、3080、3081、3082、3083、3084、3085、3086、3087、3088、3089、3090、3091、3092、3093、3094、3095、3096、3097、3098、3099、3100、3101、3102、3103、3113、3114、3115、3116、3117、3118、3119、3120、3121、3305、3306、3307、3308、3309、3310、3311、3312、3313、3314、3315、3316、3317、3318、3319、3320、3321、3322、3323、3324、3325、3326、3327、3328、3329、3330、3331、3332、3333、3334、3335、3336、3337、3338、3339、3340、3341、3342、3343、3344、3345、3346、3347、3348、3349、3350、3351、3352、3353、3354、3355、3356、3357、3358、3359、3360、3361、3362、3363、3364、3365、3366、3367、3368、3369、3370、3371、3372、3373、3374、3375、3376、3377、3378、3379、3380、3381、3382、3383、3384、3385、3386、3387、3388、3389、3390、3391、3392、3393、3394、3395、3396、3397、3398、3399、3400、3401、3402、3403、3404、3405、3406、3407、3408、3409、3410、3411、3412、3413、3414、3415、3416、3417、3418、3419、3420、3421、3422、3423、3424、3425、3426、3427、3428、3429、3430、3431、3432、3433、3434、3435、3436、3437、3438、3439、3440、3441、3442、3443、3444、3445、3446、3447、3448、3449、3450、3451、3452、3453、3454、3455、3479、3480、3481、3482、3483、3484、3485、3486、3487、3488、3489、3490、3491、3492、3493、3522、3523、3524、3525、3526、3527、3528、3529、3530、3531、3532、3533、3534、3535、3536、3537、3538、3539、3540、3549、3550、3551、3552、3553、3554、3555、3556、3628、3629、3630、3631、3632、3633、3634、3635、3636、3637、3638、3639、3640、3641、3642、3643、3644、3645、3646、3647、3648、3649、3650、3651、3652、3653、3654、3655、3656、3657、3658、3659、3660、3661、3662、3663、3664、3665、3666、3667、3668、3669、3670、3671、3672、3673、3674、3675、3676、3677、3678、3679、3680、3681、3682、3683、3684、3685、3686、3687、3688、3689、3690、3691、3692、3693、3694、3695、3696、3697、3698、3755、3756、3757、3758、3759、3760、3761、3762、3763、3764、3765、3766、3767、3768、3769、3770、3771、3772、3773、3774、3775、3776、3777、3778、3779、3780、3781、3782、3783、3784、3785、3786、3787、3788、3789、3790、3791、3792、3793、3794、3795、3796、3797、3798、3799、3800、3801、3802、3803、3804、3805、3806、3807、3808、3809、和3810,或与以下任一序列具有至少85％、或至少90％、或至少95％、或至少98％、或至少99％序列同一性的核苷酸序列：SEQ ID NOs:131、222、394、429、430、431、432、433、434、435、436、437、438、439、440、441、442、641、642、643、644、645、646、647、648、649、678、679、680、681、682、683、684、685、686、687、688、689、690、691、692、738、2997、2998、2999、3000、3001、3002、3003、3004、3005、3006、3007、3008、3009、3010、3011、3012、3013、3014、3015、3016、3017、3018、3019、3020、3021、3022、3023、3024、3025、3026、3027、3028、3029、3030、3031、3032、3033、3034、3035、3036、3037、3038、3039、3040、3041、3042、3043、3044、3045、3046、3047、3048、3049、3050、3051、3052、3053、3054、3055、3056、3057、3058、3059、3060、3061、3062、3063、3064、3065、3066、3067、3068、3069、3070、3071、3072、3073、3074、3075、3076、3077、3078、3079、3080、3081、3082、3083、3084、3085、3086、3087、3088、3089、3090、3091、3092、3093、3094、3095、3096、3097、3098、3099、3100、3101、3102、3103、3113、3114、3115、3116、3117、3118、3119、3120、3121、3305、3306、3307、3308、3309、3310、3311、3312、3313、3314、3315、3316、3317、3318、3319、3320、3321、3322、3323、3324、3325、3326、3327、3328、3329、3330、3331、3332、3333、3334、3335、3336、3337、3338、3339、3340、3341、3342、3343、3344、3345、3346、3347、3348、3349、3350、3351、3352、3353、3354、3355、3356、3357、3358、3359、3360、3361、3362、3363、3364、3365、3366、3367、3368、3369、3370、3371、3372、3373、3374、3375、3376、3377、3378、3379、3380、3381、3382、3383、3384、3385、3386、3387、3388、3389、3390、3391、3392、3393、3394、3395、3396、3397、3398、3399、3400、3401、3402、3403、3404、3405、3406、3407、3408、3409、3410、3411、3412、3413、3414、3415、3416、3417、3418、3419、3420、3421、3422、3423、3424、3425、3426、3427、3428、3429、3430、3431、3432、3433、3434、3435、3436、3437、3438、3439、3440、3441、3442、3443、3444、3445、3446、3447、3448、3449、3450、3451、3452、3453、3454、3455、3479、3480、3481、3482、3483、3484、3485、3486、3487、3488、3489、3490、3491、3492、3493、3522、3523、3524、3525、3526、3527、3528、3529、3530、3531、3532、3533、3534、3535、3536、3537、3538、3539、3540、3549、3550、3551、3552、3553、3554、3555、3556、3628、3629、3630、3631、3632、3633、3634、3635、3636、3637、3638、3639、3640、3641、3642、3643、3644、3645、3646、3647、3648、3649、3650、3651、3652、3653、3654、3655、3656、3657、3658、3659、3660、3661、3662、3663、3664、3665、3666、3667、3668、3669、3670、3671、3672、3673、3674、3675、3676、3677、3678、3679、3680、3681、3682、3683、3684、3685、3686、3687、3688、3689、3690、3691、3692、3693、3694、3695、3696、3697、3698、3755、3756、3757、3758、3759、3760、3761、3762、3763、3764、3765、3766、3767、3768、3769、3770、3771、3772、3773、3774、3775、3776、3777、3778、3779、3780、3781、3782、3783、3784、3785、3786、3787、3788、3789、3790、3791、3792、3793、3794、3795、3796、3797、3798、3799、3800、3801、3802、3803、3804、3805、3806、3807、3808、3809、和3810。

在本发明的又一方面，本说明书提供了包含本文所述融合蛋白和上述任何延伸的向导RNA的复合物。

在本发明的其他方面，本说明书提供了包含napDNAbp和延伸的向导RNA的复合物。napDNAbp可以是Cas9切口酶，或可以是SEQ ID NO:42-57(Cas9切口酶)和65(AsCas12a切口酶)的氨基酸序列，或与SEQ ID NO:42-57(Cas9切口酶)和65(AsCas12a切口酶)中的任一氨基酸序列至少80％、85％、90％、95％、98％或99％相同的氨基酸序列。

在涉及复合物的不同实施方案中，延伸的向导RNA能够将napDNAbp引导至靶DNA序列。在不同实施方案中，逆转录酶可以反式提供，即由与复合物本身不同的来源提供。例如，通过引入单独编码逆转录酶的独立载体向具有复合物的同一细胞提供逆转录酶。

另一方面，本说明书提供了多核苷酸。在某些实施方案中，多核苷酸可编码本文公开的任何融合蛋白。在某些其他实施方案中，多核苷酸可编码本文公开的任何napDNAbps。在更进一步的实施方案中，多核苷酸可编码本文公开的任何逆转录酶。在其他实施方案中，多核苷酸可编码本文公开的任何延伸的向导RNA、任何逆转录模板序列、或任何逆转录引物位点、或任何任选的接头序列。

在其他方面，本说明书提供了包含本文所述多核苷酸的载体。因此，在某些实施方案中，载体包含用于编码包含napDNAbp和逆转录酶的融合蛋白的多核苷酸。在其他实施方案中，载体包含分别编码napDNAbp和逆转录酶的多核苷酸。在其他实施方案中，载体可包含编码延伸的向导RNA的多核苷酸。在不同实施方案中，载体可包含在相同或不同载体上的编码napDNAbp、逆转录酶和延伸的向导RNA的一个或多个多核苷酸。

在其他方面，本说明书提供了包含如本文所述融合蛋白和延伸的向导RNA的细胞。细胞可利用包含融合蛋白、napDNAbp、逆转录酶和延伸的向导RNA的载体转化。这些遗传元件可包含在同一载体或不同载体上。

另一方面，本说明书提供了药物组合物。在某些实施方案中，药物组合物包含napDNAbp、融合蛋白、逆转录酶和延伸的向导RNA中的一种或多种。在某些实施方案中，本文所述融合蛋白和药学上可接受的赋形剂。在其他实施方案中，药物组合物包含本文所述任何延伸的向导RNA和药学上可接受的赋形剂。在其他实施方案中，药物组合物包含本文所述任何延伸的向导RNA组合本文所述任何融合蛋白和药学上可接受的赋形剂。在其他实施方案中，药物组合物包含编码napDNAbp、融合蛋白、逆转录酶和延伸的向导RNA中的一种或多种的任何多核苷酸序列。在其他实施方案中，本文公开的各种组分可分离成一种或多种药物组合物。例如，第一药物组合物可包含融合蛋白或napDNAbp，第二药物组合物可包含逆转录酶，并且第三药物组合物可包含延伸的向导RNA。

又一方面，本公开提供了试剂盒。在一个实施方案中，试剂盒包括编码一种或多种组分的一种或多种多核苷酸，所述组分包括融合蛋白、napDNAbp、逆转录酶和延伸的向导RNA。试剂盒还可包含载体、细胞和分离的多肽制剂，包括本文公开的任何融合蛋白、napDNAbp或逆转录酶。

又一方面，本公开提供了使用所公开的物质组合物的方法。

在一个实施方案中，方法涉及在双链DNA序列中安装期望的核苷酸变化的方法。方法首先包括使双链DNA序列与包含融合蛋白和延伸的向导RNA的复合物接触，其中融合蛋白包含napDNAbp和逆转录酶，其中延伸的向导RNA包含含有期望的核苷酸变化的逆转录模板序列。接着，方法包括对非靶链上的双链DNA序列产生切口，从而生成具有3'端的游离单链DNA。然后方法包括将游离单链DNA的3'端与逆转录模板序列杂交，从而引发逆转录酶结构域。然后，方法涉及从3'端聚合DNA的链，从而生成包含期望的核苷酸变化的单链DNA瓣。然后，方法涉及用单链DNA瓣置换邻近切割位点的内源性DNA链，从而在双链DNA序列中安装期望的核苷酸变化。

在其他实施方案中，本公开提供了用于在靶基因座处的DNA分子核苷酸序列中引入一个或多个变化的方法，包括将DNA分子与核酸可编程DNA结合蛋白(napDNAbp)和将napDNAbp靶向靶基因座的向导RNA接触，其中所述向导RNA包含含有至少一个期望的核苷酸变化的逆转录酶(RT)模板序列。接着，方法涉及在靶基因座处的DNA链中形成暴露的3'端，然后将暴露的3'端与RT模板序列杂交以引发逆转录。接着，通过逆转录酶基于RT模板序列合成或聚合含有至少一个期望的核苷酸变化的单链DNA瓣。最后，将至少一个期望的核苷酸变化掺入相应的内源性DNA，从而在靶基因座处的DNA分子核苷酸序列中引入一个或多个变化。

在其他实施方案中，本公开提供了通过靶标引发的逆转录在靶基因座处的DNA分子核苷酸序列中引入一个或多个变化的方法，该方法包括：(a)用以下接触靶基因座处的DNA分子：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的融合蛋白，和(ii)包含含有期望的核苷酸变化的RT模板的向导RNA；(b)对RT模板进行靶标引发的逆转录，以生成包含期望的核苷酸变化的单链DNA；以及(c)通过DNA修复和/或复制过程将期望的核苷酸变化掺入靶基因座处的DNA分子中。

在某些实施方案中，置换内源性DNA链的步骤包括：(i)将单链DNA瓣与邻近切割位点的内源性DNA链杂交以产生序列错配；(ii)切除内源性DNA链；以及(iii)修复错配以在两条DNA链中形成包含期望的核苷酸变化的期望的产物。

在不同实施方案中，期望的核苷酸变化可以是单核苷酸取代(如，转换或颠换变化)、缺失或插入。例如，期望的核苷酸变化可以是(1)G至T取代，(2)G至A取代，(3)G至C取代，(4)T至G取代，(5)T至A取代，(6)T至C取代，(7)C至G取代，(8)C至T取代，(9)C至A取代，(10)A至T取代，(11)A至G取代，或(12)A至C取代。

在其他实施方案中，期望的核苷酸变化可转换(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A:T碱基对，(10)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

在其他实施方案中，方法引入期望的核苷酸变化为插入。在某些情况下，插入的长度为至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少200、至少300、至少400、或至少500个核苷酸。

在其他实施方案中，方法引入期望的核苷酸变化为缺失。在某些其他情况下，缺失的长度为至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11，至少12，至少13，至少14，至少15，至少16、至少17、至少18、至少19、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少200、至少300、至少400、或至少500个核苷酸。

在不同实施方案中，期望的核苷酸变化校正疾病相关基因。疾病相关基因可与选自下组的单基因病症(monogenetic disorder)相关：腺苷脱氨酶(ADA)缺乏症；α-1抗胰蛋白酶缺乏症；囊性纤维化；杜氏肌营养不良；半乳糖血症；血色素沉积症(hemochromatosis)；亨廷顿氏病；枫糖尿病；马凡(Marfan)综合征；1型神经纤维瘤病；先天性厚甲症；苯丙酮尿症；重度联合免疫缺陷；镰状细胞病；史-李-欧综合征；和泰-萨二氏病(Tay-Sachs)病。在其他实施方案中，疾病相关基因可与选自下组的多基因(polygenic)病症相关：心脏病；高血压；阿尔茨海默氏病；关节炎；糖尿病；癌症；以及肥胖。

本文公开的方法可涉及具有napDNAbp的融合蛋白，所述napDNAbp为核酸酶死亡Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9。在其他实施方案中，napDNAbp和逆转录酶不作为单一融合蛋白编码，而是可在单独的构建体中提供。因此，在一些实施方案中，逆转录酶可相对于napDNAbp以反式提供(而不是通过融合蛋白的方式)。

在涉及方法的不同实施方案中，napDNAbp可包含SEQ ID NO:26-61、75-76、126、130、137、141、147、153、157、445、460、467、和482-487(Cas9)；(SpCas9)；SEQ ID NO:77-86(CP-Cas9)；SEQ ID NO:18-25和87-88(SpCas9)；和SEQ ID NO:62-72(Cas12)的氨基酸序列。napDNAbp还可包含与SEQ ID NO:26-61、75-76、126、130、137、141、147、153、157、445、460、467和482-487(Cas9)；(SpCas9)；SEQ ID NO:77-86(CP-Cas9)；SEQ ID NO:18-25和87-88(SpCas9)；和SEQ ID NO:62-72(Cas12)中的任一氨基酸序列至少80％、85％、90％、95％、98％或99％相同的氨基酸序列。

在涉及方法的不同实施方案中，逆转录酶可包含SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700-716、739-742和766的氨基酸序列。逆转录酶还可包含与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、6216、132、139、143、149、154、159、235、454，471、516、662，700-716、739-742、和766中的任一氨基酸序列至少80％、85％、90％、95％、98％、或99％相同的氨基酸序列。

方法可涉及使用包含以下的核苷酸序列的PEgRNA：SEQ ID NO:131、222、394、429、430、431、432、433、434、435、436、437、438、439、440、441、442、641、642、643、644、645、646、647、648、649、678、679、680、681、682、683、684、685、686、687、688、689、690、691、692、738、2997、2998、2999、3000、3001、3002、3003、3004、3005、3006、3007、3008、3009、3010、3011、3012、3013、3014、3015、3016、3017、3018、3019、3020、3021、3022、3023、3024、3025、3026、3027、3028、3029、3030、3031、3032、3033、3034、3035、3036、3037、3038、3039、3040、3041、3042、3043、3044、3045、3046、3047、3048、3049、3050、3051、3052、3053、3054、3055、3056、3057、3058、3059、3060、3061、3062、3063、3064、3065、3066、3067、3068、3069、3070、3071、3072、3073、3074、3075、3076、3077、3078、3079、3080、3081、3082、3083、3084、3085、3086、3087、3088、3089、3090、3091、3092、3093、3094、3095、3096、3097、3098、3099、3100、3101、3102、3103、3113、3114、3115、3116、3117、3118、3119、3120、3121、3305、3306、3307、3308、3309、3310、3311、3312、3313、3314、3315、3316、3317、3318、3319、3320、3321、3322、3323、3324、3325、3326、3327、3328、3329、3330、3331、3332、3333、3334、3335、3336、3337、3338、3339、3340、3341、3342、3343、3344、3345、3346、3347、3348、3349、3350、3351、3352、3353、3354、3355、3356、3357、3358、3359、3360、3361、3362、3363、3364、3365、3366、3367、3368、3369、3370、3371、3372、3373、3374、3375、3376、3377、3378、3379、3380、3381、3382、3383、3384、3385、3386、3387、3388、3389、3390、3391、3392、3393、3394、3395、3396、3397、3398、3399、3400、3401、3402、3403、3404、3405、3406、3407、3408、3409、3410、3411、3412、3413、3414、3415、3416、3417、3418、3419、3420、3421、3422、3423、3424、3425、3426、3427、3428、3429、3430、3431、3432、3433、3434、3435、3436、3437、3438、3439、3440、3441、3442、3443、3444、3445、3446、3447、3448、3449、3450、3451、3452、3453、3454、3455、3479、3480、3481、3482、3483、3484、3485、3486、3487、3488、3489、3490、3491、3492、3493、3522、3523、3524、3525、3526、3527、3528、3529、3530、3531、3532、3533、3534、3535、3536、3537、3538、3539、3540、3549、3550、3551、3552、3553、3554、3555、3556、3628、3629、3630、3631、3632、3633、3634、3635、3636、3637、3638、3639、3640、3641、3642、3643、3644、3645、3646、3647、3648、3649、3650、3651、3652、3653、3654、3655、3656、3657、3658、3659、3660、3661、3662、3663、3664、3665、3666、3667、3668、3669、3670、3671、3672、3673、3674、3675、3676、3677、3678、3679、3680、3681、3682、3683、3684、3685、3686、3687、3688、3689、3690、3691、3692、3693、3694、3695、3696、3697、3698、3755、3756、3757、3758、3759、3760、3761、3762、3763、3764、3765、3766、3767、3768、3769、3770、3771、3772、3773、3774、3775、3776、3777、3778、3779、3780、3781、3782、3783、3784、3785、3786、3787、3788、3789、3790、3791、3792、3793、3794、3795、3796、3797、3798、3799、3800、3801、3802、3803、3804、3805、3806、3807、3808、3809、和3810,或者与其具有至少80％、或至少85％、或至少90％、或至少95％、或至少99％序列同一性的核苷酸序列。方法可包括使用延伸的向导RNA，其在3'端包含RNA延伸，其中RNA延伸包含逆转录模板序列。

方法可包括使用延伸的向导RNA，其在5'端包含RNA延伸，其中RNA延伸包含逆转录模板序列。

方法可包括使用延伸的向导RNA，其在向导RNA的分子内位置包含RNA延伸，其中RNA延伸包含逆转录模板序列。

方法可包括使用延伸的向导RNA，其具有长度为至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少200、至少300、至少400、或至少500个核苷酸的一个或多个RNA延伸。

应当理解，前述概念和下面讨论的其他概念可以任何合适的组合进行排列，因为本公开在这方面不受限制。此外，当结合附图考虑时，根据不同非限制性实施方案的以下详细描述，本公开的其他优点和新颖特征将变得显而易见。

附图简述

以下附图构成本说明书的一部分并被包括在内以进一步阐述本公开的某些方面，通过参考这些附图中的一个或多个并结合本文所呈现的具体实施方案的详细描述，可更好地理解本公开。

图1A提供使用包含与Cas9蛋白融合的逆转录酶的融合蛋白复合延伸的向导RNA将单核苷酸变化和/或插入和/或缺失引入DNA分子(如，基因组)的示例性过程的示意图。在该实施方案中，向导RNA在3'端延伸以包含逆转录酶模板序列。该示意图显示与Cas9切口酶融合的逆转录酶(RT)与向导RNA(gRNA)形成的复合物如何结合DNA靶位点并对邻近靶核苷酸的含PAM的DNA链产生切口。RT酶使用有切口的DNA作为由gRNA合成DNA的引物，其用作合成编码期望编辑的新DNA链的模板。所示的编辑过程可被称为靶标引发的逆转录编辑(TRT编辑)或等同地“引导编辑”。

图1B提供与图1A相同的图示，除了引导编辑器复合物更普遍地表示为[napDNAbp]-[P]:PEgRNA或[P]-[napDNAbp]:PEgRNA，其中“P”指任何聚合酶(如逆转录酶)，“napDNAbp”指核酸可编程DNA结合蛋白(如，SpCas9)，并且“PEgRNA”指引导编辑向导RNA，“]-[”指可选的接头。如别处所述，例如图3A至3G所示，PEgRNA包含含有引物结合位点和DNA合成模板的5'延伸臂。虽然未显示，但预期PEgRNA的延伸臂(即，其包含引物结合位点和DNA合成模板)可以是DNA或RNA。该构造中考虑的特定聚合酶取决于DNA合成模板的性质。例如，如果DNA合成模板是RNA，则聚合酶可以是RNA依赖性DNA聚合酶(如，逆转录酶)。如果DNA合成模板是DNA，则聚合酶可以是DNA依赖性DNA聚合酶。

图1C提供使用包含与Cas9蛋白融合的逆转录酶的融合蛋白复合延伸的向导RNA分子将单核苷酸变化和/或插入和/或缺失引入DNA分子(如，基因组)的示例性过程的示意图。在该实施方案中，向导RNA在5'端延伸以包含逆转录酶模板序列。该示意图显示与Cas9切口酶融合的逆转录酶(RT)与向导RNA(gRNA)形成的复合物如何结合DNA靶位点并对邻近靶核苷酸的含PAM的DNA链产生切口。RT酶使用有切口的DNA作为由gRNA合成DNA的引物，其用作合成编码期望编辑的新DNA链的模板。所示的编辑过程可被称为靶标引发的逆转录编辑(TRT编辑)或等同地“引导编辑”。

图1D提供与图1D相同的图示，除了引导编辑器复合物更普遍地表示为[napDNAbp]-[P]:PEgRNA或[P]-[napDNAbp]:PEgRNA，其中“P”是指任何聚合酶(如，逆转录酶)，“napDNAbp”是指核酸可编程DNA结合蛋白(如，SpCas9)，“PEgRNA”指引导编辑向导RNA，“]-[”指可选的接头。如别处所述，例如图3A至3G所示，PEgRNA包含含有引物结合位点和DNA合成模板的3'延伸臂。虽然未显示，但预期PEgRNA的延伸臂(即，其包含引物结合位点和DNA合成模板)可以是DNA或RNA。该构造中考虑的特定聚合酶取决于DNA合成模板的性质。例如，如果DNA合成模板是RNA，则聚合酶可以是RNA依赖性DNA聚合酶(如，逆转录酶)。如果DNA合成模板是DNA，则聚合酶可以是DNA依赖性DNA聚合酶。在不同实施方案中，PEgRNA可被工程化改造或合成以掺入基于DNA的DNA合成模板。

图1E是描绘合成的DNA单链(其包含期望的核苷酸变化)如何被分解从而将期望的核苷酸变化掺入DNA中的示例性过程的示意图。如所示，接着合成编辑链(或“诱变链”)，与内源性链平衡，内源性链的瓣切割和连接导致通过内源性DNA修复和/或复制过程的作用分解错配的DNA双链体后掺入DNA编辑。

图1F是显示可将“相反链切口”掺入图1E的分解方法以助于驱动形成期望产物相对于回复产物(reversion product)的示意图。在相反链切口产生中，将第二Cas9/gRNA复合物用于在与初始切口链相反的链上引入第二切口。这诱导内源性细胞DNA修复和/或复制过程，以优先置换非编辑链(即，包含第二切口位点的链)。

图1G提供使用核酸可编程DNA结合蛋白(napDNAbp)复合延伸的向导RNA将单核苷酸变化和/或插入和/或缺失引入靶基因座的DNA分子(如，基因组)的示例性过程的另一示意图。该过程可被认为是引导编辑的实施方案。延伸的向导RNA包含在向导RNA的3’或5’端处或在向导RNA的分子内位置中的延伸。步骤(a)中，napDNAbp/gRNA复合物接触DNA分子，gRNA引导napDNAbp与靶基因座结合。步骤(b)中，在靶基因座处的DNA链之一(R环链、或含有PAM的链、或非靶DNA链、或原间隔区链)引入切口(如，通过核酸酶或化学试剂)，从而在靶基因座处的一条链中产生可用的3'端。在某些实施方案中，在对应于R-环链的DNA链中产生切口，即未与向导RNA序列杂交的链。步骤(c)中，3'端DNA链与向导RNA的延伸部分相互作用以引发逆转录。在某些实施方案中，3'端DNA链与向导RNA的延伸部分上的特定RT引发序列杂交。步骤(d)中，引入逆转录酶，该酶从引发位点的3'端向向导RNA的3'端合成单链DNA。这形成包含期望的核苷酸变化(如，单碱基变化、插入、或缺失、或其组合)的单链DNA瓣。步骤(e)中，napDNAbp和向导RNA得到释放。步骤(f)和(g)涉及单链DNA瓣的分解，使得期望的核苷酸变化掺入靶基因座。该过程可向通过去除相应的5'内源性DNA瓣来形成期望的产物驱动，一旦3'单链DNA瓣侵入并与另一条链的互补序列杂交就会形成5'内源性DNA瓣。该过程也可向利用第二链切口产生形成产物驱动，如图1F所示。该过程会引入至少一个或多个以下基因变化：颠换、转换、缺失和插入。

图1H是描绘利用本文所述引导编辑过程可能的基因变化类型的示意图。通过引导编辑可实现的核苷酸变化类型包括缺失(包括短和长的缺失)、单核苷酸变化(包括转换和颠换)、倒置、和插入(包括短和长的插入)。

图1I是描绘由PE3b(PE3b＝PE2引导编辑器融合蛋白+PEgRNA+第二链切口产生向导RNA)示例的时序(temporal)第二链切口产生的示意图。时序第二链切口产生是第二链切口产生的变体，以促进期望编辑产物的形成。“时序”术语指非编辑链的第二链切口仅在期望编辑安装到编辑链之后才出现的事实。这避免了两条链同时出现切口导致双链DNA断裂。

图1J描绘本文预期的引导编辑的变体，其利用任何可编程核酸酶结构域如锌指核酸酶(ZFN)或转录激活因子样效应核酸酶(TALEN)替换napDNAbp(如，SpCas9切口酶)。因此，预期合适的核酸酶不一定需要由核酸靶向分子(如，向导RNA)“编程”，而是可通过定义DNA结合结构域的特异性来编程，例如尤其是核酸酶。正如利用napDNAbp部分的引导编辑，优选对此类替代的可编程核酸酶进行修饰，以便仅切割一条靶DNA链。换言之，可编程核酸酶应优选起切口酶的作用。一旦选择了可编程核酸酶(如，ZFN或TALEN)，则可将附加功能工程化改造到系统中以使其按引导编辑样机制作用。例如，可编程核酸酶可通过对其偶联(如，通过化学接头)RNA或DNA延伸臂来修饰，其中延伸臂包含引物结合位点(PBS)和DNA合成模板。可编程核酸酶也可偶联(如，通过化学或氨基酸接头)到聚合酶，所述聚合酶的性质取决于延伸臂是DNA还是RNA。在RNA延伸臂的情况下，聚合酶可以是RNA依赖性DNA聚合酶(如，逆转录酶)。在DNA延伸臂的情况下，聚合酶可以是DNA依赖性DNA聚合酶(如，原核聚合酶，包括PolI、PolII或PolIII，或真核聚合酶，包括Pola、Polb、Polg、Pold、Pole或Polz)。该系统还可包括作为融合物添加至可编程核酸酶或以反式添加的其他功能来促进整体反应(如，(a)解旋酶解开切割位点处的DNA以形成具有可用3'端的切割链用作引物，(b)瓣核酸内切酶(如，FEN1)有助于去除切割链上的内源性链，以驱动反应向着用合成链置换内源性链，或(c)nCas9:gRNA复合物在相反链上形成第二位点切口，这可有助于通过非编辑链的有利细胞修复来驱动合成修复的整合)。以类似于利用napDNAbp的引导编辑的方式，可将这种具有其他情况下可编程核酸酶的复合物用于合成和然后永久地安装携带感兴趣的编辑的新合成的DNA置换链到DNA的靶位点中。

图1K描绘在一个实施方案中通过引导编辑可编辑的靶DNA的解剖特征。靶DNA包含“非靶链”和“靶链”。靶链是与识别PAM位点的引导编辑器复合物的PEgRNA的间隔区退火的链(在这种情况下，NGG，其被基于SpCas9的经典引导编辑器识别)。靶链也可被称为“非PAM链”或“非编辑链”。相比之下，非靶链(即，包含NGG的原间隔区和PAM序列的链)可被称为“PAM链”或“编辑链”。在不同实施方案中，PE复合物的切口位点位于PAM链的原间隔区中(如，利用基于SpCas9的PE)。切口的定位将是形成PE的特定Cas9的特征。例如，利用基于SpCas9的PE，碱基3(相对于PAM序列的位点1的“-3”位点)和碱基4(相对于PAM序列的位点1的“-4”位点)之间的磷酸二酯键中的切口位点。原间隔区中的切口位点形成游离的3'羟基，如下图所示，其与PEgRNA延伸臂的引物结合位点复合，并提供底物以通过PEgRNA延伸臂的DNA合成模板开始单链DNA编码的聚合。该聚合反应由PE融合蛋白的聚合酶(如，逆转录酶)在5'至3'方向催化。聚合在到达gRNA核心之前终止(如，通过包含聚合终止信号或二级结构，其起终止PE的聚合活性的作用)，产生从有切口的PAM链的原始3'羟基延伸的单链DNA瓣。DNA合成模板编码与内源性5'端DNA单链同源的单链DNA，该内源性5'端DNA单链紧邻PAM链的切口位点并掺入期望的核苷酸变化(如，单碱基替换、插入、缺失、倒置)。期望编辑的位置可在PAM链上切口位点下游之后的任何位点，可包括位点+1、+2、+3、+4(PAM位点的起点)、+5(PAM位点的位点2)、+6(PAM位点的位点3)、+7、+8、+9、+10、+11、+12、+13、+14、+15、+16、+17、+18、+19、+20、+21、+22、+23、+24、+25、+26、+27、+28、+29、+30、+31、+32、+33、+34、+35、+36、+37、+38、+39、+40、+41、+42、+43、+44、+45、+46、+47、+48、+49、+50、+51、+52、+53、+54、+55、+56、+57、+58、+59、+60、+61、+62、+63、+64、+65、+66、+67、+68、+69、+70、+71、+72、+73、+74、+75、+76、+77、+78、+79、+80、+81、+82、+83、+84、+85、+86、+87、+88、+89、+90、+91、+92、+93、+94、+95、+96、+97、+98、+99、+100、+101、+102、+103、+104、+105、+106、+107、+108、+109、+110、+111、+112、+113、+114、+115、+116、+117、+118、+119、+120、+121、+122、+123、+124、+125、+126、+127、+128、+129、+130、+131、+132、+133、+134、+135、+136、+137、+138、+139、+140、+141、+142、+143、+144、+145、+146、+147、+148、+149、或+150或更多(相对于切口位点的下游位点)。一旦3'端单链DNA(包含感兴趣的编辑)置换内源性5'端单链DNA，DNA修复和复制过程将导致永久安装PAM链上的编辑位置，然后校正存在于编辑位置的非PAM链上的错配。这样，编辑将延伸到靶DNA位置上的两条DNA链。应当理解，提及“编辑链”和“非编辑”仅旨在描绘PE机制中涉及的DNA链。“编辑链”是首先通过利用合成的含有期望编辑的3'端单链DNA置换在切口位点的紧邻下游的5'端单链DNA进行编辑的链。“非编辑”链是与编辑链配对的链，但其本身也通过修复和/或复制被编辑以与编辑链互补，特别是感兴趣的编辑。

图1L描述显示靶DNA的解剖特征、引导编辑器复合物以及PEgRNA与靶DNA之间的相互作用的引导编辑机制。首先，包含具有聚合酶(如，逆转录酶)和napDNAbp(如，SpCas9切口酶，例如SpCas9，在HNH核酸酶结构域中具有失活突变(如，H840A)或在RuvC核酸酶结构域中具有失活突变(D10A))的引导编辑器与PEgRNA和具有待编辑的靶DNA的DNA复合。PEgRNA包含间隔区、gRNA核心(又名gRNA支架或gRNA骨架)(其与napDNAbp结合)和延伸臂。延伸臂可位于PEgRNA分子的3'端、5'端或PEgRNA分子内的某处。如所示，延伸臂位于PEgRNA的3'端。延伸臂在3'至5'方向包含引物结合位点和DNA合成模板(包括感兴趣的编辑和与紧邻PAM链的切口位点的5'端单链DNA同源的同源区域(即，同源臂)。如所示，一旦引入切口，从而在紧邻切口位点的上游产生游离的3'羟基，紧邻PAM链的切口位点上游的区域与被称为“引物结合位点”的延伸臂3'端处的互补序列退火，产生具有可用的3'羟基端的短的双链区域，这形成引导编辑器复合物的聚合酶的底物。聚合酶(如,逆转录酶)然后从3'羟基端至延伸臂端聚合DNA链。单链DNA的序列由DNA合成模板编码，其是被聚合酶“读取”以合成新DNA的延伸臂的部分(即，不包括引物结合位点)。这种聚合有效延伸初始切口位点的原始3'羟基端的序列。DNA合成模板编码单链DNA，该单链DNA不仅包含期望编辑，而且还包含与紧邻PAM链的切口位点下游的内源性单链DNA同源的区域。接着，编码的3'端单链DNA(即3'单链DNA瓣)置换紧邻PAM链的切口位点下游的相应同源的内源性5'端DNA单链，形成具有5'端单链DNA瓣的DNA中间体，该5'端单链DNA瓣被细胞移除(如，通过瓣核酸内切酶)。3'端单链DNA瓣(其与内源性5'端单链DNA瓣的互补序列退火)在去除5'DNA瓣后连接到内源性链。3'端单链DNA瓣中期望编辑，现在退火和连接，与互补链形成错配，其经历DNA修复和/或复制轮次，从而在两条链上永久安装期望编辑。

图2显示可用于本文所述的引导编辑器的三种Cas复合物(SpCas9、SaCas9和LbCas12a)及其PAM、gRNA和DNA切割特征。该图显示涉及SpCas9、SaCas9和LbCas12a的复合物的设计。

图3A至3F显示工程化5'引导编辑器gRNA(图3A)、3'引导编辑器gRNA(图3B)和分子内延伸(图3C)的设计。延伸的向导RNA(或延伸的gRNA)在本文中又被称为PEgRNA或“引导编辑向导RNA”。图3D和图3E分别提供了3′和5′引导编辑器gRNA(PEgRNA)的其他实施方案。图3F显示3′端引导编辑器向导RNA与靶DNA序列之间的相互作用。图3A至3C的实施方案描绘了逆转录模板序列(即，或更广泛地被称为DNA合成模板，如所示，因为RT仅是可在引导编辑器的背景下使用的一类聚合酶)，引物结合位点，和3'、5'和分子内版本的延伸部分中的可选接头序列的示例性排列，以及间隔区和核心区的一般排列。所公开的引导编辑过程不限于延伸的向导RNA的这些构造。图3D的实施方案提供本文预期的示例性PEgRNA的结构。PEgRNA包含以5′至3′方向排序的三个主要组成元件，即：间隔区、gRNA核心和3′端的延伸臂。延伸臂在5′至3′方向可进一步分为以下结构元件，即：引物结合位点(A)、编辑模板(B)和同源臂(C)。此外，PEgRNA可包含任选的3′端修饰区(e1)和任选的5′端修饰区(e2)。更进一步地，PEgRNA可包含在PEgRNA3′端的转录终止信号(未描绘)。这些结构元件在本文中进一步定义。PEgRNA结构的描述并不意味着是限制性的，而是包含元件排列的变化。例如，任选的序列修饰区(modifier)(e1)和(e2)可位于所示的任何其他区域之内或之间，并且并不限于位于3'和5'端。在某些实施方案中，PEgRNA可包含二级RNA结构，例如但不限于发夹、茎/环、趾环(toe loop)、RNA结合蛋白募集结构域(如，募集并结合MS2cp蛋白的MS2适体)。例如，这样的二级结构可位于间隔区、gRNA核心或延伸臂内，特别是位于e1和/或e2修饰区内。除二级RNA结构外，PEgRNA还可包含(如，在e1和/或e2修饰区域内)化学接头或poly(N)接头或尾，其中“N”可以是任何核碱基。在一些实施方案中(如，如图72(c)中所示)，化学接头可起到防止sgRNA支架或核心逆转录的作用。此外，在某些实施方案中(如，参见图72(c))，延伸臂(3)可由RNA或DNA组成，和/或可包括一个或多个核碱基类似物(如，其可添加功能性，如温度弹性)。更进一步，延伸臂(3)的定向可以是自然的5′至3′方向，或在3′至5′方向(相对于整个PEgRNA分子的定向)以相反定向合成。还应注意，本领域普通技术人员将能够根据延伸臂的核酸材料(即，DNA或RNA)的性质选择合适的DNA聚合酶，用于引导编辑中，所述引导编辑中可作为与napDNAbp的融合物或作为单独的部分以反式实施，以合成含有期望编辑的期望模板编码的3′单链DNA瓣。例如，如果延伸臂是RNA，DNA聚合酶可以是逆转录酶或任何其他合适的RNA依赖性DNA聚合酶。然而，如果延伸臂是DNA，DNA聚合酶可以是DNA依赖性DNA聚合酶。在不同实施方案中，DNA聚合酶的提供可以反式，例如通过使用RNA-蛋白募集结构域(如，在PEgRNA上安装的MS2发卡(如，在e1或e2区或其他地方，以及与DNA聚合酶融合的MS2cp蛋白中，从而将DNA聚合酶共定位到PEgRNA)。还应注意，引物结合位点通常不形成DNA聚合酶(如，逆转录酶)用来编码所得到的包含期望编辑的3′单链DNA瓣的模板的一部分。因此，“DNA合成模板”的名称是指由DNA聚合酶用作模板来编码包含编辑的期望的3′单链DNA瓣的延伸臂(3)的区域或部分和与5'内源性单链DNA瓣同源的区域，其中5'内源性单链DNA瓣被引导编辑DNA合成的3'单链DNA链产物置换。在一些实施方案中，DNA合成模板包括“编辑模板”和“同源臂”，或一个或多个同源臂，例如在编辑模板之前和之后。编辑模板可以小到单核苷酸取代，也可以是插入或DNA倒置。此外，编辑模板还可包含缺失，这可通过编码包含期望的缺失的同源臂来工程化改造。在其他实施方案中，DNA合成模板还可包括e2区或其一部分。例如，如果e2区包含导致DNA聚合酶活性终止的二级结构，则在e2区的任何部分被实际编码到DNA中之前，DNA聚合酶的功能有可能终止。部分甚至全部e2区域也有可能被编码到DNA中。有多少e2被实际用作模板将取决于其组成以及该组成是否中断DNA聚合酶功能。

图3E的实施方案提供本文预期的另一种PEgRNA结构。PEgRNA包含以5′到3′方向排序的三个主要组成元件，即：间隔区、gRNA核心和3′端的延伸臂。延伸臂在5′至3′方向可进一步分为以下结构元件，即：引物结合位点(A)、编辑模板(B)和同源臂(C)。此外，PEgRNA可包含任选的3′端修饰区(e1)和任选的5′端修饰区(e2)。更进一步地，PEgRNA可包含在PEgRNA的3′端的转录终止信号(未描绘)。这些结构元件在本文中进一步定义。PEgRNA结构的描述并不意味着是限制性的，而是包含元件排列的变化。例如，任选的序列修饰区(e1)和(e2)可位于所示的任何其他区域之内或之间，并且不限于位于3'和5'端。在某些实施方案中，PEgRNA可包含二级RNA结构，例如但不限于发夹、茎/环、趾环、RNA结合蛋白募集结构域(如，募集并结合MS2cp蛋白的MS2适体)。这些二级结构可位于PEgRNA分子中的任何位置。例如，这种二级结构可位于间隔区、gRNA核心或延伸臂内，特别是位于e1和/或e2修饰区内。除二级RNA结构外，PEgRNA还可包含(如，在e1和/或e2修饰区域内)化学接头或poly(N)接头或尾，其中“N”可以是任何核碱基。在一些实施方案中(如，如图72(c)所示)，化学接头可起到防止sgRNA支架或核心逆转录的作用。此外，在某些实施方案中(如，参见图72(c))，延伸臂(3)可由RNA或DNA组成，和/或可包括一个或多个核碱基类似物(如，其可添加功能性，如温度弹性)。更进一步，延伸臂(3)的定向可以是自然的5′至3′方向，或在3′至5′方向(相对于整个PEgRNA分子的定向)以相反定向合成。还应注意，本领域普通技术人员将能够根据延伸臂的核酸材料(即，DNA或RNA)的性质选择合适的DNA聚合酶，用于引导编辑，该引导编辑可作为与napDNAbp的融合物或作为单独的部分以反式提供以合成含有期望编辑的期望模板编码的3′单链DNA瓣。例如，如果延伸臂是RNA，DNA聚合酶可以是逆转录酶或任何其他合适的RNA依赖性DNA聚合酶。然而，如果延伸臂是DNA，DNA聚合酶可以是DNA依赖性DNA聚合酶。在不同实施方案中，DNA聚合酶的提供可以为反式，例如通过使用RNA-蛋白募集结构域(如，在PEgRNA上安装的MS2发卡(如，在e1或e2区或其他地方，以及与DNA聚合酶融合的MS2cp蛋白中，从而将DNA聚合酶共定位到PEgRNA)。还应注意，引物结合位点通常不形成DNA聚合酶(如，逆转录酶)用来编码所得到的包含期望编辑的3′单链DNA瓣的模板的一部分。因此，“DNA合成模板”的名称是指由DNA聚合酶用作模板来编码包含编辑的期望的3′单链DNA瓣的延伸臂(3)的区域或部分和与5'内源性单链DNA瓣同源的区域，其中5'内源性单链DNA瓣被引导编辑DNA合成的3'单链DNA链产物置换。在一些实施方案中，DNA合成模板包括“编辑模板”和“同源臂”，或一个或多个同源臂，例如在编辑模板之前和之后。编辑模板可以小到单核苷酸取代，也可以是插入或DNA倒置。此外，编辑模板还可包含缺失，这可通过编码包含期望的缺失的同源臂来工程化改造。在其他实施方案中，DNA合成模板还可包括e2区或其一部分。例如，如果e2区包含导致DNA聚合酶活性终止的二级结构，在e2区的任何部分被实际编码到DNA中之前，DNA聚合酶的功能就有可能终止。部分甚至全部e2区域也有可能被编码到DNA中。有多少e2被实际用作模板将取决于其组成以及该组成是否中断DNA聚合酶功能。

图3F的示意图描绘典型的PEgRNA与双链DNA的靶位点的相互作用以及伴随产生的包含感兴趣基因变化的3′单链DNA瓣。双链DNA显示为3'至5'方向的上面(top)链(即，靶链)和5'至3'方向的下面(lower)链(即，PAM链或非靶链)。上面链包含“原间隔区”的互补序列和PAM序列的互补序列，并且被称为“靶链”，因为它是PEgRNA的间隔区的靶标并与其退火的链。互补的下面链被称为“非靶链”或“PAM链”或“原间隔区链”，因为它包含PAM序列(如，NGG)和原间隔区。虽然未显示，但描绘的PEgRNA将与引导编辑器融合蛋白的Cas9或等同结构域复合。如示意图中所示，PEgRNA的间隔区与靶链的前间隔区序列的互补区域退火。这种相互作用在间隔区RNA和原间隔区DNA的互补序列之间形成为DNA/RNA杂合体，并诱导在原间隔区中形成R环。如本文别处所教导，Cas9蛋白(未显示)然后在非靶链中诱导切口，如所示。然后，这会导致紧靠切口位点上游的3′ssDNA瓣区的形成，根据*z*，该3′ssDNA瓣区与引物结合位点的PEgRNA的3′端相互作用。ssDNA瓣的3′端(即，逆转录酶引物序列)与PEgRNA上的引物结合位点(A)退火，从而引发逆转录酶。接着，逆转录酶(如，以反式提供或作为融合蛋白顺式提供，连接到Cas9构建体)聚合由DNA合成模板(包括编辑模板(B)和同源臂(C))编码的单链DNA。继续向延伸臂的5′端聚合。ssDNA的聚合链形成ssDNA 3'端flap，如别处所述(如，如图1G所示)，侵入内源性DNA，置换相应的内源性链(其作为内源性DNA的5'端DNA瓣被去除)，并通过自然发生的DNA修复/复制循环安装期望的核苷酸编辑(单核苷酸碱基对变化、缺失、插入(包括整个基因)。

图3G描绘本文预期的引导编辑的又一个实施方案。具体地，顶部示意图描绘引导编辑器(PE)的一个实施方案，其包含通过接头连接的napDNAbp(如，SpCas9)和聚合酶(如，逆转录酶)的融合蛋白。PE通过与PEgRNA的gRNA核心结合而与PEgRNA形成复合物。在所示实施方案中，PEgRNA配备有3'延伸臂，其从3'端开始包含引物结合位点(PBS)，后接DNA合成模板。底部示意图描绘引导编辑器的变体，被称为“反式引导编辑器(tPE)”。在该实施方案中，DNA合成模板和PBS与PEgRNA分开并呈现在单独的分子上，被称为反式引导编辑器RNA模板(“tPERT”)，其包含RNA-蛋白募集结构域(如，MS2发卡)。PE本身被进一步修饰以包含与rPERT募集蛋白(“RP”)的融合，RP是特异性识别并结合RNA蛋白募集结构域的蛋白。在RNA蛋白募集结构域是MS2发夹的示例中，相应rPERT募集蛋白可以是MS2标签化系统(taggingsystem)的MS2cp。MS2标签化系统基于MS2噬菌体外壳蛋白(“MCP”或“MS2cp”)与噬菌体基因组中存在的茎环或发夹结构，即“MS2发夹”或“MS2适体”的自然相互作用。在反式引导编辑的情况下，RP-PE:gRNA复合物“募集”具有适当RNA-蛋白募集结构域的tPERT以与PE:gRNA复合物共定位，从而以反式提供在引导编辑中使用的PBS和DNA合成模板，如图3H所示的示例。

图3H描绘反式引导编辑的过程。在该实施方案中，反式引导编辑器包含与MS2cp蛋白(即，识别并结合MS2适体的一类募集蛋白)融合并且与sgRNA(即，与PEgRNA相反的标准向导RNA)复合的“PE2”引导编辑器(即，Cas9(H840A)和变体MMLV RT的融合物)。反式引导编辑器与靶DNA结合并对非靶链产生切口。MS2cp蛋白通过与tPERT分子的RNA蛋白募集结构域的特异性相互作用来反式募集tPERT。tPERT与反式引导编辑器共定位，从而以反式提供PBS和DNA合成模板，供逆转录酶聚合酶用来合成单链DNA瓣，其具有3'端并包含通过DNA合成模板编码的期望的遗传信息。

图4A至4E显示体外TPRT分析(即，引导编辑分析)。图4A是通过RT酶进行的荧光标记的DNA底物gRNA模板化延伸，PAGE的示意图。图4B示出用预先产生切口的底物、dCas9和不同合成模板长度的5′-延伸的gRNA的TPRT(即，引导编辑)。图4C示出在不存在Cas9的情况下与预先产生切口的DNA底物的RT反应。图4D示出用具有Cas9(H840A)和5′-延伸的gRNA在完整dsDNA底物上的TPRT(即，引导编辑)。图4E示出在预先产生切口的且完整的dsDNA底物的情况下3′延伸的gRNA模板。所有反应均利用M-MLV RT。

图5示出使用具有不同长度合成模板的5′延伸的gRNA进行的体外验证。将荧光标记的(Cy5)DNA靶标用作底物，并在这组实验中预先产生切口。这些实验中使用的Cas9是催化死亡Cas9(dCas9)，所用的RT是源自莫洛尼-鼠白血病病毒(M-MLV)的商业RT，Superscript III。dCas9:gRNA复合物由纯化的组件形成。然后，将荧光标记的DNA底物与dNTP和RT酶一起加入。于37℃温育1小时后，通过变性尿素-聚丙烯酰胺凝胶电泳(PAGE)分析反应产物。凝胶图像显示原始DNA链延伸到与逆转录模板的长度一致的长度。

图6示出使用具有不同长度合成模板的5'-延伸的gRNA的体外验证，其与图5中所示的那些紧密平行。然而，在这组实验中，DNA底物没有预先产生切口。这些实验中使用的Cas9是Cas9切口酶(SpyCas9 H840A突变体)，所用的RT是源自莫洛尼-鼠白血病病毒(M-MLV)的商业RT，Superscript III。通过变性尿素-聚丙烯酰胺凝胶电泳(PAGE)分析反应产物。如凝胶所示，当使用标准gRNA时，切口酶可有效切割DNA链(gRNA_0，泳道3)。

图7显示3’延伸支持DNA合成并且不明显影响Cas9切口酶活性。当使用dCas9或Cas9切口酶时，预先产生切口的底物(黑色箭头)几乎定量地转化为RT产物(泳道4和泳道5)。利用完整底物观测到超过50％的RT产物转化率(红色箭头)(泳道3)。使用Cas9切口酶(SpyCas9 H840A突变体)、催化死亡Cas9(dCas9)和源自莫洛尼鼠白血病病毒(M-MLV)的商业RT，SuperscriptIII。

图8显示用于确定RT反应是否优先以顺式与gRNA(结合在同一复合物中)一起发生的双色实验。对5′-延伸和3′-延伸gRNA进行两个独立的实验。通过PAGE分析产物。产品比率计算为(Cy3cis/Cy3trans)/(Cy5trans/Cy5cis)。

图9A至9D显示瓣模型底物。图9A示出用于瓣定向诱变的双FP报道分子。图9B示出HEK细胞中的终止密码子修复。图9C示出瓣修复后测序的酵母集落。图9D示出人细胞中不同瓣特征的测试。

图10显示对质粒底物的引导编辑。双荧光报告质粒是为酵母(酿酒酵母)表达而构建的。该构建体在酵母中的表达仅产生GFP。体外引导编辑反应引入点突变，并将亲本质粒或体外Cas9(H840A)切口质粒转化到酵母中。通过荧光成像使克隆可视化。示出酵母双FP质粒转化体。转化亲本质粒或体外Cas9(H840A)产生切口的质粒只产生绿色GFP表达集落。使用5′-延伸或3′-延伸的gRNA的引导编辑反应产生绿色和黄色集落的混合物。后者同时表达GFP和mCherry两者。利用3′延伸的gRNA观测到更多黄色集落。还显示不含终止密码子的阳性对照。

图11显示对与图10中的实验类似的质粒底物的引导编辑，但不是在终止密码子中安装点突变，引导编辑安装修复移码突变并允许下游mCherry合成的单核苷酸插入(左)或缺失(右)。两个实验都使用3′延伸的gRNA。

图12示出通过Sanger测序表征的对质粒底物的引导编辑的编辑产物。选择和通过Sanger测序分析来自TRT转化的单个集落。通过测序选择的集落来观测精确的编辑。绿色集落包含具有原始DNA序列的质粒，而黄色集落包含由引导编辑gRNA设计的精确突变。未观测到其他点突变或插入/缺失。

图13示出新的引导编辑技术的潜在范围，并与脱氨酶介导的碱基编辑器技术比较。

图14示出在人细胞中编辑的示意图。

图15显示gRNA中引物结合位点的延伸。

图16显示用于邻近靶向的截短的gRNA。

图17A至17C是显示在人胚胎肾(HEK)细胞中组件转染之后靶核苷酸处的％T至A转化的图。图17A显示呈现使用野生型MLV逆转录酶与Cas9(H840A)切口酶的N端融合物(32个氨基酸接头)的结果的数据。图17B类似于图17A，除了RT酶的C-端融合外。图17C类似于图17A，但MLVRT和Cas9之间的接头长为60个氨基酸而不是32个氨基酸。

图18显示通过高通量扩增子测序在HEK3位置处的高纯度T至A编辑。测序分析的输出显示经编辑的细胞的最丰富的基因型。

图19显示靶核苷酸处的编辑效率(蓝色条)以及indel率(橙色条)。WT是指野生型MLV RT酶。突变酶(M1至M4)包含右侧列出的突变。编辑率通过基因组DNA扩增子的高通量测序来定量。

图20显示在互补DNA链中邻近靶核苷酸处引入单链切口时靶核苷酸的编辑效率。测试在靶核苷酸不同距离处的切口产生(三角形)。靶碱基对的编辑效率(蓝色条)与indel形成率(橙色条)一起显示。“无”示例不包含互补链切口产生向导RNA。编辑率通过基因组DNA扩增子的高通量测序来定量。

图21显示经处理的高通量测序数据，示出期望的T至A颠换突变和其他主要基因组编辑副产物的普遍缺失。

图22提供使用与延伸的向导RNA复合的核酸可编程DNA结合蛋白(napDNAbp)在靶基因座上利用易错逆转录酶进行靶向诱变(即，利用易错RT的引导编辑)的示例性过程的示意图。该过程可被称为用于靶向诱变的引导编辑的实施方案。延伸的向导RNA包含在向导RNA的3’或5’端或在向导RNA的分子内位置处的延伸。步骤(a)中，napDNAbp/gRNA复合物与DNA分子接触，gRNA引导napDNAbp与待诱变的靶基因座结合。步骤(b)中，在靶基因座处的一条DNA链中引入切口(如，通过核酸酶或化学试剂)，从而在靶基因座处的一条链中产生可用的3'端。在某些实施方案中，切口是在对应于R-环链的DNA链中产生的，即未与向导RNA序列杂交的链。步骤(c)中，3'端DNA链与向导RNA的延伸部分相互作用以引发逆转录。在某些实施方案中，3'端DNA链与向导RNA的延伸部分上的特定RT引发序列杂交。步骤(d)中，引入易错逆转录酶，该酶从引发位点的3'端至向导RNA的3'端合成诱变的单链DNA。示例性突变用星号“*”表示。这形成了包含期望的诱变区的单链DNA瓣。步骤(e)中，napDNAbp和向导RNA被释放。步骤(f)和(g)涉及单链DNA瓣(包含诱变区)的分解，使得期望的诱变区整合到靶基因座中。可通过去除相应的5'内源性DNA瓣来驱动该过程向着期望的产物形成，一旦3'单链DNA瓣侵入另一条链上的互补序列并与其杂交就形成该相应的5'内源性DNA瓣。也可利用第二链切口产生驱动该过程向着产物形成，如图1F所示例。在内源性DNA修复和/或复制过程之后，将诱变区掺入DNA基因座的两条DNA链中。

图23是用于缩减三核苷酸重复序列的gRNA设计示意图和利用TPRT基因组编辑(即，引导编辑)缩减三核苷酸重复序列。三核苷酸重复扩增与许多人类疾病有关，包括亨廷顿氏病、脆性X综合征和弗里德赖希氏共济失调。最常见的三核苷酸重复包含CAG三联体，但也存在GAA三联体(弗里德赖希氏共济失调)和CGG三联体(脆性X综合征)。继承扩增的素因或获得已扩增的亲本等位基因增加患病的可能性。假设地，可以使用引导编辑来校正三核苷酸重复的致病性扩增。重复区域上游的区域可被RNA引导的核酸酶产生切口，然后用于引发包含健康重复数目(取决于特定基因和疾病)的新DNA链的合成。在重复序列之后，添加短的同源区段，其匹配邻近重复序列另一端的序列(红色链)的身份。新合成链的侵入，以及随后用新合成的瓣置换内源性DNA，导致缩减的重复等位基因。

图24是显示利用引导编辑得到的精确10个核苷酸的缺失的示意图。靶向HEK3基因座的向导RNA设计有逆转录模板，该模板在切口位点后编码10个核苷酸的缺失。使用扩增子测序评估经转染的HEK细胞的编辑效率。

图25是显示内源性基因组基因座处的肽标签化基因的gRNA设计和利用TPRT基因组编辑(即，引导编辑)的肽标签化的示意图。FlAsH和ReAsH标签化系统包括两部分：(1)荧光团-双砷探针，和(2)包含四半胱氨酸基序的基因编码肽，例如序列FLNCCPGCCMEP(SEQ IDNO:1)。在细胞内表达时，含有四半胱氨酸基序的蛋白可用荧光团-砷探针进行荧光标记(参见参考文献：J.Am.Chem.Soc.,2002,124(21),pp6063–6076.DOI:10.1021/ja017687n)。“分选标签化(sortagging)”系统采用细菌分选酶，其将标记的肽探针与含有合适肽底物的蛋白共价缀合(参见参考文献：Nat.Chem.Biol.2007Nov；3(11):707-8.DOI:10.1038/nchembio.2007.31)。FLAG标签(DYKDDDDK(SEQ ID NO:2))、V5标签(GKPIPNPLLGLDST(SEQID NO:3))、GCN4标签(EELLSKNYHLENEVARLKK(SEQ ID NO:4))、HA标签(YPYDVPDYA(SEQ IDNO:4))IDNO：5))和Myc-标签(EQKLISEEDL(SEQ ID NO:6))通常用作免疫测定的表位标签。π钳(p-clamp)编码的肽序列(FCPF)可用五氟芳香族底物标记(参考：Nat.Chem.2016Feb；8(2):120-8.doi:10.1038/nchem.2413)。

图26A示出将His₆-标签和FLAG-标签精确安装到基因组DNA中。靶向HEK3基因座的向导RNA设计有逆转录模板，该模板编码18-nt His标签插入或24-nt FLAG标签插入。使用扩增子测序评估经转染的HEK细胞中的编辑效率。注意，FLAG标签的完整24-nt序列在观测框(viewing frame)外(测序确认完整和精确插入)。图26B示出概述涉及蛋白/肽标签化的各种应用的示意图，包括(a)使蛋白可溶或不可溶，(b)改变或追踪蛋白的细胞定位，(c)延长蛋白半衰期，(d)促进蛋白纯化，和(e)促进蛋白检测。

图27示出通过在PRNP中安装保护性突变的引导编辑的概述，所述保护性突变防止或阻止朊病毒病进展。PEgRNA序列对应于左侧的SEQ ID NO:351(即，sgRNA支架的5')和右侧的SEQ ID NO:3864(即，sgRNA支架的3')

图28A是编码RNA基序的序列的基于PE的插入的示意图。图28B是可能被插入的一些示例基序及其功能的列表(非详尽的)。

图29A是引导编辑器的描绘。图29B示出对PE引导的基因组、质粒或病毒DNA的可能修饰。图29C示出通过PEgRNA文库将肽环文库插入规定蛋白(在这种情况下为GFP)的示例方案。图29D示出使用不同PEgRNA的蛋白的密码子或N-或C-端截短的可能的可编程缺失的实例。预计会以移码突变的最少产生的情况下发生缺失。

图30示出在诸如PACE的连续进化系统中重复插入密码子的可能方案。

图31是示出gRNA核心、与靶向基因序列匹配的约20nt间隔区、具有免疫原性表位核苷酸序列的逆转录模板和与靶向基因序列匹配的引物结合位点的工程化gRNA的图。

图32是示出使用引导编辑作为将已知免疫原性表位插入内源或外源基因组DNA，导致相应蛋白修饰的手段的示意图。

图33的示意图示出使用引导编辑确定脱靶编辑用于引物结合序列插入和引物结合插入基因组DNA的PEgRNA设计。在该实施方案中，在活细胞、组织或动物模型内进行引导编辑。第一步，设计合适的PEgRNA。上方示意图示出可用于该方面的示例性PEgRNA。PEgRNA中的间隔区(标记为“原间隔区”)与基因组靶标的链之一互补。PE:PEgRNA复合物(即，PE复合物)在切口位点安装单链3′端瓣，其包含编码的引物结合序列和同源区域(由PEgRNA的同源臂编码)，该同源区域与正好在切割位点下游的区域(红色)互补。通过瓣侵入和DNA修复/复制过程，合成的链被掺入DNA中，从而安装引物结合位点。这个过程可发生在期望的基因组靶标处，也可发生在可能以脱靶方式与PEgRNA相互作用的其他基因组位点处(即，由于间隔区区域与非期望的基因组位点的其他基因组位点的互补性，PEgRNA将PE复合物引导至其他脱靶位点)。因此，引物结合序列不仅可安装在期望的基因组靶标处，还可能安装在基因组其他地方的脱靶基因组位点。为了检测这些引物结合位点在意图的基因组靶位点和脱靶基因组位点的插入，可以将基因组DNA(PE后)分离、片段化并连接至衔接子核苷酸(以红色显示)。接着，可利用与衔接子和插入的引物结合序列退火的PCR寡核苷酸进行PCR，以扩增由PE插入引物结合位点的中靶(on-target)和脱靶(off-target)基因组DNA区域。然后可以进行高通量测序和序列比对，以鉴定PE插入的引物结合序列在中靶位点或脱靶位点处的插入点。

图34是示出利用PE的基因的精确插入的示意图。

图35A是示出天然胰岛素信号传导途径的示意图。图35B是示出由FK1012控制的FKBP12标签化的胰岛素受体激活的示意图。

图36示出小分子单体。参考文献：bumped FK506模拟物(2)¹⁰⁷。

图37示出小分子二聚体。参考文献：FK1012 4^95,96；FK1012 5¹⁰⁸；FK10126¹⁰⁷；AP19037¹⁰⁷；环孢霉素A二聚体8⁹⁸；FK506–环孢霉素A二聚体(FkCsA)9¹⁰⁰。

图38A至38F提供体外和酵母细胞中引导编辑和可行性研究的概述。图38A示出ClinVar中的75,122个已知的人类致病性遗传变体，按类型分类(2019年7月访问)。图38B示出由引导编辑器(PE)蛋白组成的引导编辑复合物，所述PE蛋白包含融合至工程化逆转录酶结构域并与引导编辑向导RNA(PEgRNA)复合的RNA引导的DNA切口结构域，如Cas9切口酶。PE:PEgRNA复合物结合靶DNA位置，并中靶位点的原间隔区邻近基序(PAM)之前或之后的各种DNA位点处实现极其多种精确的DNA编辑。图38C示出在DNA靶标结合时，PE:PEgRNA复合物对含有PAM的DNA链产生切口。产生的游离3′端与PEgRNA的引物结合位点杂交。逆转录酶结构域使用PEgRNA的RT模板催化引物延伸，产生包含期望编辑的新合成的DNA链(3'瓣)。编辑的3'瓣和包含原始DNA的非编辑的5'瓣之间平衡，接着细胞5'瓣切割和连接，以及DNA修复或复制以分解异源双链体DNA，导致稳定编辑的DNA。图38D示出利用含有5'-Cy5标记的PAM链的预先产生切口的dsDNA底物、dCas9和商业M-MLV RT变体(RT，SuperscriptIII)的体外5'-延伸的PEgRNA引物延伸测定。dCas9与包含不同长度的RT模板的PEgRNA复合，然后与指定的成分一起添加到DNA底物。反应于37℃下温育1小时，然后通过尿素变性PAGE进行分析并针对Cy5荧光可视化。图38E示出使用与dCas9或Cas9 H840A切口酶预先复合的3'-延伸PEgRNA和预先产生切口或未产生切口的5'-Cy5-标记的dsDNA底物如在图38D进行引物延伸测定。图38F示出利用在体外用PEgRNA、Cas9切口酶和RT编辑的GFP-mCherry融合报告基因质粒转化酵母集落。包含GFP和mCherry之间无义或移码突变的质粒利用5'-延伸或3'-延伸PEgRNA进行编辑，这些PEgRNA通过颠换突变、1-bp插入或1-bp缺失恢复mCherry翻译。GFP和mCherry双阳性细胞(黄色)反映成功的编辑。

图39A至39D示出人类细胞中基因组DNA通过PE1和PE2的引导编辑。图39A示出PEgRNA包含间隔区序列、sgRNA支架和包含引物结合位点(绿色)和逆转录(RT)模板(紫色)的3'延伸，其包含编辑的碱基(红色)。引物结合位点与紧邻切口产生位点上游的含PAM的DNA链杂交。除编码编辑外，RT模板与切口下游的DNA序列同源。图39B示出使用与野生型M-MLV逆转录酶(PE1)融合的Cas9 H840A切口酶和不同引物结合位点长度的PEgRNA在HEK293T细胞中的HEK3位点安装T·A至A·T颠换编辑。图39C示出在PE2中使用工程化五突变M-MLV逆转录酶(D200N、L603W、T306K、W313F、T330P)显著提高HEK293T细胞中5个基因组位点处引导编辑颠换效率，以及HEK3处的小插入和小缺失编辑。图39D是HEK293T细胞中5个基因组位点处用不同RT模板长度的PE2编辑效率的比较。值和误差棒反映3个独立生物学重复的平均值和标准差。

图40A至40C示出PE3和PE3b系统对非编辑链产生切口以增加引导编辑效率。图40A是通过PE3的引导编辑的概述。在编辑链的初始合成后，DNA修复将去除包含编辑的新合成链(3'瓣切除)或原始基因组DNA链(5'瓣切除)。5'瓣切除留下包含一条编辑链和一条非编辑链的DNA异源双链体。错配修复机制或DNA复制可分解异源双链体以提供编辑或非编辑的产物。对非编辑链产生切口有利于修复该链，优先生成包含期望编辑的稳定双链体DNA。图40B示出互补链切口产生对PE3介导的引导编辑效率和indel形成的影响。“无”是指PE2对照，其不对互补链产生切口。图40C是利用PE2(无互补链切口)、PE3(一般互补链切口)和PE3b(编辑特异性互补链切口)的编辑效率的比较。所有编辑产率都反映了没有分选的情况下，所有经处理的细胞中包含预期编辑但不包含indel的总测序读段百分比。值和误差棒反映3个独立生物学重复的平均值和标准差。

图41A至41K示出HEK293T细胞中7个内源性人基因组基因座处用PE3得到的靶向插入、缺失和全部12种类型的点突变。图41A的图示出使用10-nt RT模板从HEK3位置的位点+1至位点+8(计算PEgRNA诱导的切口为位点+1和位点-1之间的位置)的全部12种类型的单核苷酸转换和颠换编辑。图41B的图示出使用34-nt RT模板在HEK3位置进行远程PE3颠换编辑。图41C至41H的图示出(图41C)RNF2、(图41D)FANCF、(图41E)EMX1、(图41F)RUNX1、(图41G)VEGFA和(图41H)DNMT1的引导编辑窗口中不同位点处全部12种类型的转换和颠换编辑。图41I的图示出利用PE3在7个内源性基因组基因座处靶向的1和3bp插入以及1和3bp缺失。图41J是示出在HEK3靶基因座处5至80bp的靶向精确缺失的图。图41K是示出3个内源性基因组基因座处插入和缺失、插入和点突变、缺失和点突变以及双点突变的组合编辑的图。所有编辑产率都反映没有分选的情况下，经处理细胞中包含预期编辑但不包含indel的总测序读段百分比。值和误差棒反映3个独立生物学重复的平均值和标准差。

图42A至42H示出已知Cas9脱靶位点处由Cas9和PE3进行的引导编辑和碱基编辑以及脱靶编辑的比较。图42A示出在HEK293T细胞的内源性HEK3、FANCF和EMX1位置处PE2、PE3、BE2max和BE4max的相同靶核苷酸处的总C·G至T·A编辑效率。图42B示出来自图42中处理的indel频率。图42C示出HEK3、FANCF和EMX1处PE2、PE3、BE2max和BE4max的精确C·G至T·A编辑的编辑效率(没有旁观者编辑或indel)。对于EMX1，还示出在3个靶向核苷酸处C·G至T·A转换的所有可能组合的精确PE组合编辑。图42D示出在HEK3和FANCF处PE2、PE3、ABEdmax和ABEmax的总A·T至G·C编辑效率。图42E示出在HEK3和FANCF处没有旁观者编辑或indel的精确A·T至G·C编辑效率。图42F示出来自图42中处理的indel频率。图42G示出HEK293T细胞中Cas9核酸酶在4个中靶位点和16个已知的脱靶位点处的一式三份平均的编辑效率(具有indel的测序读段百分比)。所检测的16个脱靶位点是4个中靶位点中每个的前4个之前报告的脱靶位点^118,159。对于每个中靶位点，Cas9与sgRNA或识别同一原间隔区的4个PEgRNA中的每一个配对。图42H示出与(图42G)中的每个PEgRNA配对的PE2或PE3在HEK293T细胞中一式三份平均的中靶和脱靶编辑效率和indel效率(以下在括号中)。中靶编辑产率反映没有分选的情况下所有经处理的细胞中包含意图的编辑且不包含indel的总测序读段百分比。脱靶编辑产率反映与引导编辑一致的脱靶基因座修饰。值和误差棒反映三个独立生物学重复的平均值和标准差。

图43A至43I示出不同人类细胞系和原代小鼠皮层神经元中的引导编辑，致病性颠换、插入或缺失突变的安装和校正，以及引导编辑和HDR的比较。图43A是示出在HEK293T细胞的HBB中致病性E6V突变的安装(通过T·A至A·T颠换)和校正(通过A·T至T·A颠换)的图。示出对野生型HBB或包含破坏PEgRNA PAM的沉默突变的HBB的校正。图43B是示出HEK293T细胞的致病性HEXA 1278+TATC等位基因的安装(通过4-bp插入)和校正(通过4-bp缺失)的图。示出对野生型HEXA或包含破坏PEgRNA PAM的沉默突变的HEXA的校正。图43C是示出通过G·C至T·A颠换在HEK293T细胞的PRNP中安装保护性G127V变体的图。图43D是示出包括K562(白血病骨髓细胞)、U2OS(骨肉瘤细胞)和HeLa(宫颈癌细胞)在内的其他人类细胞系中的引导编辑的图。图43E是示出使用双断裂内含肽(dual split-intein)PE3慢病毒系统在小鼠原代皮层神经元的DNMT1中安装G·C至T·A颠换突变的图，其中N-端半部是融合至N-内含肽，并通过P2A自切割肽融合至GFP-KASH的Cas9(1-573)，并且C-端半部是与PE2其余部分融合的C-内含肽。PE2半部由对成熟神经元高度特异的人类突触蛋白启动子表达。分选的值反映来自GFP阳性细胞核的编辑或indel，而未分选的值来自所有细胞核。图43F是HEK293T细胞中内源性基因组基因座处PE3和Cas9介导的HDR编辑效率的比较。图43G是K562、U2OS和HeLa细胞的内源性基因组基因座处PE3和Cas9介导的HDR编辑效率的比较。图43H是HEK293T、K562、U2OS和HeLa细胞中PE3和Cas9介导的HDR indel副产物生成的比较。图43I示出HEK293T细胞中由PE3靶向插入His6标签(18bp)、FLAG表位标签(24bp)或延伸的LoxP位点(44bp)。所有编辑产率都反映所有经处理的细胞中包含意图的编辑但不包含indel的总测序读段百分比。值和误差棒反映3个独立生物学重复的平均值和标准差。

图44A至44G示出利用荧光标记的DNA底物的体外引导编辑验证研究。图44A示出利用dCas9、5′-延伸PEgRNA和5′-Cy5-标记的DNA底物的电泳迁移率分析。PEgRNA 1至5包含间隔区与PBS之间的15-nt接头序列(接头A用于PEgRNA 1，接头B用于PEgRNA 2至5)、5-nt的PBS序列和7nt(PEgRNA 1和2)、8nt(PEgRNA3)、15nt(PEgRNA4)和22nt(PEgRNA5)的RT模板。PEgRNA是图44E和44F中使用的那些；完整序列列于表2A至2C中。图44B示出使用5′-延伸和3′-延伸PEgRNA的Cas9 H840A的体外切口产生测定。图44C示出使用5′-延伸和3′-延伸PEgRNA在HEK293T细胞中在HEK3处的Cas9介导的indel形成。图44D示出体外生化分析的引导编辑概述。测试5′-Cy5标记的预先切口和无切口的dsDNA底物。sgRNA、5′-延伸PEgRNA或3′-延伸PEgRNA与dCas9或Cas9 H840A切口酶预先复合，然后与dsDNA底物、M-MLV RT和dNTP组合。允许反应于37℃进行1小时，然后通过尿素变性PAGE分离并通过Cy5荧光可视化。图44E示出使用5′-延伸PEgRNA、预先产生切口的DNA底物和dCas9的引物延伸反应导致显著转化为RT产物。图44F示出使用如图44B中的5′-延伸PEgRNA和未产生切口的DNA底物及Cas9H840A切口酶的引物延伸反应。与预先产生切口的底物相比，产物产率大大降低。图44G示出使用3′-PEgRNA的体外引物延伸反应通过尿素变性PAGE产生单一表观产物。RT产物条带被切离，从凝胶上洗脱，然后使用dGTP或dATP进行用末端转移酶(TdT)的同聚物加尾。加尾产物通过poly-T或poly-C引物进行延伸，并对所得到的DNA进行测序。Sanger迹线表明源自gRNA支架的三个核苷酸被逆转录(作为最后的3′核苷酸添加至DNA产物中)。注意，在哺乳动物细胞引导编辑实验中，PEgRNA支架插入比体外罕见得多(图56A-56D)，这可能是由于栓系的逆转录酶无法接近Cas9结合的向导RNA支架和/或含有PEgRNA支架序列的3′瓣的错配3′端的细胞切除。

图45A至45G示出酵母中来自体外引导编辑反应的3′DNA瓣的细胞修复。图45A示出双荧光蛋白报告质粒含有由编码框内终止密码子，+1移码或-1移码的靶位点分离的GFP和mCherry开放阅读框。利用Cas9 H840A切口酶、PEgRNA、dNTP和M-MLV逆转录酶在体外进行引导编辑反应，然后转化到酵母。含有非编辑质粒的集落产生GFP但不产生mCherry。含有编辑质粒的酵母集落产生作为融合蛋白的GFP和mCherry。图45B示出利用报告质粒转化的酵母集落的GFP和mCherry荧光叠加，其中报告质粒包含在GFP和mCherry之间的终止密码子(非编辑的阴性对照，上图)，或不包含在GFP和mCherry之间的终止密码子或移码(预先编辑的阳性对照，下图)。图45C至45F示出来自利用体外引导编辑反应产物转化的酵母集落的mCherry和GFP荧光的可视化。图45C示出使用3′-延伸PEgRNA或使用5′-延伸PEgRNA通过T·A至A·T颠换的终止密码子校正，如图45D所示。图45E示出使用3′-延伸PEgRNA通过1-bp缺失的+1移码校正。图45F示出使用3′-延伸PEgRNA通过1-bp插入的-1移码校正。图45G示出来自从图45B中仅GFP集落和图45C中GFP和mCherry双阳性集落分离的质粒的Sanger DNA测序迹线。

图46A至46F示出利用PE1的正确编辑相对于indel生成。图46A示出使用包含10-ntRT模板和范围为8-17nt的PBS序列的PEgRNA在HEK3的位点+1处由PE1进行的T·A至A·T颠换编辑效率和indel生成。图46B示出使用包含13-nt RT模板和范围为9-17nt的PBS序列的PEgRNA在EMX1的位点+5处由PE1进行的G·C至T·A颠换编辑效率和indel生成。图46C示出使用包含17-nt RT模板和范围为8-17nt的PBS序列的PEgRNA在FANCF的位点+5处由PE1进行的G·C至T·A颠换编辑效率和indel生成。图46D示出使用包含11-ntRT模板和范围为9-17nt的PBS序列的PEgRNA在RNF2的位点+1处由PE1进行的C·G至A·T颠换编辑效率和indel生成。图46E示出使用含有13-nt RT模板和范围为7-15nt的PBS序列的PEgRNA在HEK4的位点+2由PE1进行的G·C至T·A颠换编辑效率和iindel生成。图46F示出使用13-nt PBS和10-ntRT模板在HEK3位置处由PE1介导的+1T缺失、+1A插入和+1CTT插入。PEgRNA的序列是图39C中使用的那些(见表3A-3R)。值和误差棒反映三个独立生物学重复的平均值和标准差。

图47A至47S示出用于引导编辑的M-MLV RT变体的评估。图47A示出该图中使用的引导编辑器变体的缩写。图47B示出在HEK3基因座处利用PE1的靶向插入和缺失编辑。图47C至47H示出比较包含M-MLV RT变体的18个引导编辑器构建体在HEK3处安装+2G·C至C·G颠换编辑的能力，如图47C示出，在HEK3处安装24-bp FLAG插入的能力，如图47D示出，在RNF2处安装+1C·G至A·T颠换编辑的能力，如图47E示出，在EMX1处安装+1G·C至C·G颠换编辑的能力，如图47F示出，在HBB处安装+2T·A至A·T颠换编辑的能力，如图47G示出，以及在FANCF处安装+1G·C至C·G颠换编辑的能力，如图47H示出。图47I至47N示出比较包含M-MLV变体的4种引导编辑器构建体在第二轮独立实验中安装图47C至47H中示出的安装编辑的能力。图47O至47S示出具有不同PBS长度的5个基因组基因座处的PE2编辑效率。图47O示出HEK3处+1T·A至A·T变化。图47P示出EMX1处+5G·C至T·A变化。图47Q示出FANCF处+5G·C至T·A变化。图47R示出RNF2处+1C·G至A·T变化。图47S示出HEK4处+2G·C至T·A变化。值和误差棒反映三个独立生物学重复的平均值和标准差。

图48A至48C示出PEgRNA PBS和RT模板序列的设计特征。图48A示出HEK293T细胞中VEGFA处PE2介导的+5G·C至T·A颠换编辑效率(蓝线)作为RT模板长度的函数。绘制indel(灰线)进行比较。图下方的序列示出由PEgRNA合成的最后一个提供模板的核苷酸。G核苷酸(在PEgRNA中以C为模板)突出显示；在PEgRNA设计过程中应避免以C结尾的RT模板，以使引导编辑效率最大化。图48B示出DNMT的+5G·C至T·A颠换编辑和indel，如图48A中一样。图48C示出RUNX1的+5G·C至T·A颠换编辑和indel，如图48A中一样。值和误差棒反映三个独立生物学重复的平均值和标准差。

图49A至49B示出PE2、PE2 R110S K103L、Cas9 H840A切口酶和dCas9对细胞活力的影响。利用编码PE2、PE2 R110S K103L、Cas9H840A切口酶或dCas9的质粒以及靶向HEK3的PEgRNA质粒转染HEK293T细胞。使用CellTiter-Glo2.0测定法(Promega)在转染后每24小时测量一次细胞活力，持续3天。图49A示出转染后1、2或3天通过发光测量的活力。值和误差棒反映三个独立生物学重复的平均值和s.e.m，每个重复技术上进行一式三份。图49B示出PE2、PE2 R110S K103L、Cas9 H840A切口酶或dCas9连同编码+5G至A编辑的靶向HEK3的PEgRNA质粒的百分比编辑和indel。转染后第3天测量经处理细胞连同图49A中用于测量活力的那些细胞的编辑效率。值和误差棒反映三个独立生物学重复的平均值和标准差。

图50A至50B示出由不同PEgRNA进行的PE3介导的HBB E6V校正和HEXA 1278+TATC校正。图50A示出筛选14种PEgRNA在HEK293T细胞中利用PE3校正HBB E6V等位基因。评估的所有PEgRNA将HBB E6V等位基因转换回野生型HBB，而不会引入任何沉默PAM突变。图50B示出筛选41种PEgRNA在HEK293T细胞中利用PE3或PE3b校正HEXA 1278+TATC等位基因。那些标记为HEXA的PEgRNA通过移动4bp缺失来校正致病性等位基因，该缺失会破坏PAM并留下沉默突变。那些标记为HEXA的PEgRNA将致病性等位基因校正回野生型。以“b”结尾的条目将编辑特异性切口产生性sgRNA与PEgRNA结合使用(PE3b系统)。值和误差棒反映三个独立生物学重复的平均值和标准差。

图51A至51F示出人类细胞系中的PE3活性以及比较PE3和Cas9启动的HDR。如图51A所示在HEK293T细胞中，如图51B中所示在K562细胞中，如图51C所示在U2OS细胞中，如图51D所示在HeLa细胞中，PE3和Cas9启动的HDR生成正确编辑(无indel)和indel频率的效率。每个括号内的编辑比较都利用PE3和Cas9启动的HDR安装相同的编辑。非靶向对照是PE3和靶向非靶基因座的PEgRNA。图51E示出利用非靶向PEgRNA+PE3和利用dCas9+sgRNA的对照实验，与野生型Cas9 HDR实验相比，证实ssDNA供体HDR模板(人工提高表观HDR效率的常见污染物)对图51A至51D中的HDR测量没有贡献。图51F示出利用PE3或利用Cas9启动的HDR编辑后从K562细胞中分离的基因组DNA样品的示例HEK3位点等位基因表。等位基因用IlluminaMiSeq测序并利用CRISPResso2进行分析¹⁷⁸。来自该区域的参考HEK3序列位于顶端。示出非靶向PEgRNA阴性对照、使用PE3在HEK3处的+1CTT插入和使用Cas9启动的HDR在HEK3处的+1CTT插入的等位基因表。示出每个等位基因的等位基因频率和相应的Illumina测序读段计数。示出所观测的频率≥0.20％的所有等位基因。值和误差棒反映三个独立生物学重复的平均值和标准差。

图52A至52D示出ClinVar数据库中根据致病性插入、重复、缺失和indel的长度的分布。ClinVar变体摘要于2019年7月15日从NCBI下载。报告的插入、缺失和重复的长度使用参考和替代等位基因、变体开始和终止位点或变体名称中的适当识别信息来计算。分析排除了未报告任何上述信息的变体。报告的indel(包括相对于参考基因组的插入和缺失的单个变体)的长度通过确定参考和替代等位基因之间最佳配对比对中的错配或缺口数目来计算。

图53A至53B示出用于GFP阳性细胞分选的FACS门控实例。以下是原始批量分析文件的示例，概述用于生成HEXA 1278+TATC和HBB E6V HEK293T细胞系的分选策略。图像数据在SonyLE-MA900细胞仪上使用Cell Sorter软件v.3.0.5生成。图1示出不表达GFP的细胞的门控图。图2示出用于分离HBB E6V HEK293T细胞系的P2A-GFP表达细胞的示例。HEK293T细胞最初使用FSC-A/BSC-A(门控A)对群体进行门控，然后使用FSC-A/FSC-H(门控B)分选单峰(singlets)。通过门控DAPI阴性细胞(门控C)对活细胞进行分选。使用EGFP作为荧光染料分选具有高于阴性对照细胞的GFP荧光水平的细胞(门控D)。图53A示出HEK293T细胞(GFP阴性)。图53B示出表达PE2-P2A-GFP的细胞的FACS门控的代表性图。图53C示出HEK293 T细胞HEXA 1278+TATC纯合体的基因型。图53D示出HEK293 T细胞系HBB E6V纯合体的等位基因表。

图54是概括PEgRNA克隆程序的示意图。

图55A至55G是PEgRNA设计的示意图。图55A示出PEgRNA的简化图，其中结构域被标记(左)并在基因组位点与nCas9结合(右)。图55B示出预期增加活性的对PEgRNA的各种类型的修饰。图55C示出对PEgRNA的修饰，以通过启动子选择和5′、3′加工和终止来增加较长RNA的转录。图55D示出P1系统的延长，这是支架修饰的示例。图55E示出在模板区域内或在PEgRNA内的其他地方掺入合成修饰可增加活性。图55F示出设计模板内最小二级结构的掺入可防止形成更长、更具抑制性的二级结构。图55G示出具有由PEgRNA的3′端(左)RNA元件锚定的第二模板序列的断裂PEgRNA。在PEgRNA的5′或3′端掺入元件可增强RT结合。

图56A至56D示出将PEgRNA支架序列掺入靶基因座。如图60A-60B所述，分析PEgRNA支架序列插入的HTS数据。图56A示出对于EMX1基因座的分析。显示在邻近RT模板的插入中包含一个或多个PEgRNA支架序列核苷酸的总测序读段百分比(左)；包含指定长度的PEgRNA支架序列插入的总测序读段百分比(中间)；以及直至并包括X轴上指定长度的PEgRNA插入的累计总百分比。图56B示出除了FANCF外与图56A相同。图56C示出除了HEK3外与图56A相同。图56D示出除了RNF2外与图56A相同。值和误差棒反映三个独立生物学重复的平均值和标准差。

图57A至57I示出PE2、PE2-dRT和Cas9 H840A切口酶对全转录组RNA丰度的影响。分析从表达PE2、PE2-dRT或Cas9H840A切口酶和PRNP靶向或HEXA靶向性PEgRNA的HEK293T细胞中分离的细胞RNA，去除了核糖体RNA。分别检测PRNP和HEXA样品中对应于14,410个基因和14,368个基因的RNA。图57A至57F示出显示Aeach RNA转录本丰度的-log10 FDR调整的p值相比log2倍变化的火山图，比较(图57A)在靶向PRNP的PEgRNA的情况下PE2相比PE2-dRT，(图57B)在靶向PRNP的PEgRNA的情况下PE2相比Cas9 H840A，(图57C)在靶向PRNP的PEgRNA的情况下PE2-dRT相比Cas9H840A，(图57D)在靶向HEXA的PEgRNA的情况下PE2相比PE2-dRT，(图57E)在靶向HEXA的PEgRNA的情况下PE2相比Cas9 H840A，(图57F)在靶向HEXA的PEgRNA的情况下PE2-dRT相比Cas9 H840A。红点表示相对丰度变化≥2倍且统计学显著的基因(FDR调整的p<0.05)。图57G至57I是上调和下调转录本(≥2倍变化)的维恩(Venn)图，比较PRNP和HEXA样品，(图57G)PE2相比PE2-dRT、(图57H)PE2相比Cas9 H840A和(图57I)PE2-dRT相比Cas9H840A。

图58示出用于神经元核分选的代表性FACS门控。基于DyeCycle Ruby信号、FSC/SSC比、SSC宽度/SSC高度比和GFP/DyeCycle比依次对核进行门控。

图59A至59F示出通过Golden Gate组装将3′-延伸PEgRNA克隆到哺乳动物U6表达载体的方案。图59A示出克隆概述。图59B示出“步骤1：消化pU6-PEgRNA-GG-载体质粒(组件1)”。图59C示出“步骤2和3：对寡核苷酸部分(组件2、3和4)进行排序和退火”。图59D示出“步骤2.b.ii.：sgRNA支架磷酸化(如果购买了磷酸化寡核苷酸则不需要)”。图59E示出“步骤4：PEgRNA组装”。图59F示出“步骤5和6：组装质粒的转化”。图59G示出总结PEgRNA克隆方案的图。

图60A至60B示出用于定量PEgRNA支架整合的Python脚本。生成了自定义python脚本来表征和定量靶基因组基因座处的PEgRNA插入。该脚本将从参考序列(向导RNA支架序列)中采集的长度增加的文本字符串与fastq文件中的测序读段迭代匹配，并计算与搜索查询匹配的测序读段数目。每个连续的文本字符串对应于向导RNA支架序列的附加核苷酸。以这种方式计算精确长度积分和累计积分达到指定长度。在参考序列的起始处，包含逆转录酶合成的新DNA链3′端的5至6个碱基，以确保sgRNA短片段的比对和准确计数。

图61是示出对于SaCas9(N580A)-MMLV RT HEK3+6 C>A具有指定编辑的总测序读段的百分比的图。示出正确编辑和indel的值。

图62A至62B示出原间隔区对于利用引导编辑在精确位置处有效安装期望编辑的重要性。图62A是示出针对各个HEK3基因座具有转换为T·A的靶标A·T碱基对的总测序读段的百分比的图。图62B是示出相同的序列分析。

图63是示出PAM编辑中SpCas9 PAM变体(N＝3)的图。示出对于SpCas9(H840A)-VRQR-MMLV RT，其中NGA>NTA，以及对于SpCas9(H840A)-VRER-MMLV RT，其中NGCG>NTCG，具有靶向PAM编辑的总测序读段百分比。列出PEgRNA引物结合位点(PBS)长度、RT模板(RT)长度和使用的PE系统。

图64是示出使用PE将各个位点特异性重组酶(SSR)靶标引入基因组的示意图。(a)提供通过引导编辑器插入重组酶靶序列的一般示意图。(b)示出如何将PE插入的单个SSR靶标用作DNA供体模板的基因组整合的位点。(c)示出如何可以使用串联插入SSR靶位点来删除基因组的部分。(d)示出可以如何使用串联插入SSR靶位点来倒置基因组的部分。(e)示出在两个远端染色体区域插入两个SSR靶位点如何可以导致染色体易位。(f)示出如何可以使用基因组中两个不同SSR靶位点的插入来交换来自DNA供体模板的盒。更多细节参见实施例17。

图65示出1)人类细胞基因组中SSR靶位点的PE介导的合成和2)使用该SSR靶位点整合包含GFP表达标志物的DNA供体模板。一旦成功整合，GFP就会使细胞发荧光。更多细节参见实施例17。

图66描绘作为两个PE半部蛋白提供的引导编辑器的一个实施方案，所述蛋白通过位于每个引导编辑器半部蛋白的末端或起点处的断裂内含肽半部的自剪接作用再生为完整的引导编辑器。

图67描绘从多肽序列中去除内含肽和在N-端和C-端外显肽序列之间重新形成肽键的机制。(a)描述两个半部蛋白的一般机制，每个蛋白都包含内含肽序列的一半，当它们在细胞内接触时产生全功能的内含肽，所述内含肽然后进行自剪接和切除。切除过程导致在N端蛋白半部(或“N外显肽”)和C端蛋白半部(或“C外显肽”)之间形成肽键，以形成完整的包含N外显肽和C外显肽部分的单一多肽。在不同实施方案中，N外显肽可对应于断裂引导编辑器融合蛋白的N-端半部，并且C外显肽可对应于断裂引导编辑器的C-端半部。(b)示出内含肽切除和重新形成连接N外显肽半部(红色半部)和C外显肽半部(蓝色半部)的肽键的的化学机制。断裂内含肽(即，断裂内含肽构造中的N内含肽和C内含肽)的切除也可称为“反式剪接”，因为它涉及以反式提供的两个独立组件的剪接作用。

图68A显示共转染到EK293T细胞中时接头处SpPE(SEQ ID NO:762)的两个断裂内含肽半部的递送在三个测试基因座处保持活性。

图68B显示共转染到HEK293T细胞中时SaPE2的两个断裂内含肽(如，SEQ ID NO:443和SEQ ID NO:450)的递送重现全长SaPE2(SEQ ID NO:134)的活性。引号中指示的残基是SaCas9中氨基酸741-743的序列(C-端外显肽的第一个残基)，其对于内含肽反式剪接反应是重要的。“SMP”是天然残基，我们也将其突变为“CFN”共有剪接序列。如通过引导编辑百分比测量，显示共有序列产生最高的重构。

图68C提供示出可以这种方式递送各种公开的PE核糖核蛋白复合物(高浓度PE2、高浓度PE3和低浓度PE3)的数据。

图69示出确定PANCE中PE有效性的噬菌体噬菌斑测定。斑块(黑圈)表明噬菌体能够成功感染大肠杆菌。L-鼠李糖浓度的增加导致PE表达增加和噬菌斑形成增加。噬菌斑的测序揭示存在PE安装的基因组编辑。

图70A至70I提供了编辑靶序列的示例，作为用于设计PEgRNA和切口产生性sgRNA进行引导编辑的分步说明的图解。图70A：步骤1，定义靶序列和编辑。检索围绕期望编辑(点突变、插入、缺失或其组合)位置为中心的靶DNA区域(约200bp)的序列。图70B：步骤2，定位靶PAM。鉴定接近编辑位置的PAM。一定在两条链上寻找PAM。虽然优选接近编辑位置的PAM，但可使用原间隔区和将切口放置在距编辑位置≥30nt处的PAM安装编辑。图70C：步骤3，定位切口位点。对于正在考虑的各PAM，鉴定相应切口位点。对于Sp Cas9 H840A切口酶，切割发生在含PAM的链中NGG PAM 5′的第3个和第4个碱基之间。所有编辑核苷酸必须存在于切口位点的3′，因此适当的PAM必须将切口置于含PAM的链上的靶编辑的5′处。在下面显示的示例中，有两种可能的PAM。为简单起见，其余步骤将显示仅使用PAM1的PEgRNA设计。图70D：步骤4，设计间隔区序列。Sp Cas9的原间隔区对应于含PAM的链上NGG PAM的5′的20个核苷酸。有效的PolIII转录起始需要G作为第一个转录的核苷酸。如果原间隔区的第一个核苷酸是G，则PEgRNA的间隔区序列就是原间隔区。如果原间隔区的第一个核苷酸不是G，则PEgRNA的间隔区序列是G，后面为原间隔区。图70E：步骤5，设计引物结合位点(PBS)。使用起始等位基因序列，鉴定含PAM的链上的DNA引物。DNA引物的3′端正好是切口位点上游的核苷酸(即，Sp Cas9的NGG PAM的5′的第4个碱基)。作为与PE2和PE3一起使用的一般设计原则，包含与DNA引物的互补性的12至13个核苷酸的PEgRNA引物结合位点(PBS)可用于包含约40-60％GC含量的序列。对于具有较低GC含量的序列，应测试较长(14至15nt)的PBS。对于具有较高GC含量的序列，应测试较短(8至11nt)的PBS。最佳PBS序列应根据经验确定，无论GC含量如何。为设计长度为p的PBS序列，使用起始等位基因序列，取含PAM的链中切口位点5′的前p个核苷酸的反向互补序列。图70F：第6步，设计RT模板。RT模板编码设计的编辑和与邻近编辑的序列的同源性。最佳RT模板长度因靶位点而异。对于短程编辑(位置+1至+6)，建议测试短(9至12nt)、中(13至16nt)和长(17至20nt)RT模板。对于远程编辑(+7位及以上)，建议使用RT模板，该模板在编辑位置后至少延伸5nt(优选是10nt或更多)，以允许足够的3′DNA瓣同源性。对于远程编辑，应筛选几个RT模板以鉴定功能设计。对于较大的插入和缺失(≥5nt)，建议将更大的3′同源性(约20nt或更多)掺入RT模板。当RT模板将G的合成编码为逆转录DNA产物中的最后一个核苷酸(对应于PEgRNA的RT模板中的C)时，通常会损害编辑效率。由于许多RT模板支持有效的引导编辑，因此设计RT模板时建议避免G作为最终合成的核苷酸。为了设计长度为r的RT模板序列，使用期望的等位基因序列，并取原始含PAM的链中切口位点3′的前r个核苷酸的反向互补序列。注意，与SNP编辑相比，使用相同长度的RT模板得到的插入或缺失编辑不会包含相同的同源性。图70G：步骤7，组装完整的PEgRNA序列。按以下顺序(5′至3′)使PEgRNA组件连环化(concatenate)：间隔区、支架、RT模板和PBS。图70H：步骤8，为PE3设计切口产生性sgRNA。鉴定编辑上游和下游的非编辑链上的PAM。最佳切口产生性位点高度依赖于基因座，应根据经验确定。一般地，置于PEgRNA诱导的切口对面的位点5′的40到90个核苷酸的切口导致更高的编辑产率和更少的iindel。切口产生性sgRNA具有与起始等位基因中的20-nt原间隔区匹配的间隔区序列，如果原间隔区不以G开头，则添加5′-G。图70I：步骤9，设计PE3b切口产生性sgRNA。如果PAM存在于互补链中，并且其相应的原间隔区与靶向编辑的序列重叠，则此编辑可以是PE3b系统的候选者。在PE3b系统中，切口产生性sgRNA的间隔区序列匹配期望的经编辑的等位基因的序列，但不匹配起始等位基因的序列。当经编辑的核苷酸落在切口产生性sgRNA原间隔区的种子区(邻近PAM的约10nt)内时，PE3b系统有效运行。这防止在安装编辑链之前对互补链产生切口，从而防止PEgRNA和sgRNA之间竞争结合靶DNA。PE3b还避免两条链上同时切口的生成，从而在保持高编辑效率的情况下显著减少indel形成。PE3b sgRNA应当具有与期望等位基因中的20-nt原间隔区匹配的间隔区序列，在需要时添加5′G。

图71A示出SpCas9 PEgRNA分子的核苷酸序列(上部)，其在3′端终止于“UUU”且不包含趾环元件。该图的下部描绘相同的SpCas9 PEgRNA分子，但进一步修饰为包含趾环元件，该趾环元件具有正好在“UUU”3′端之前插入的序列5′-“GAAANNNNN”-3′。“N”可以是任何核碱基。

图71B示出实施例18的结果，其表明使用含有趾环元件的PEgRNA提高HEK细胞或EMX细胞中的引导编辑效率，而indel形成百分比基本没有变化。

图72描绘可在引导编辑中使用的替代PEgRNA配置。(a)描绘引导编辑的PE2:PEgRNA实施方案。该实施方案涉及与PEgRNA复合的PE2(包含Cas9和逆转录酶的融合蛋白)(也如图1A-1I和/或图3A-3E所述)。在该实施方案中，将用于逆转录的模板掺入sgRNA上的3′延伸臂以制备PEgRNA，并且DNA聚合酶是直接与Cas9融合的逆转录酶(RT)。(b)描绘MS2cp-PE2:sgRNA+tPERT实施方案。该实施方案包括PE2融合物(Cas9+逆转录酶)，其进一步与MS2噬菌体外壳蛋白(MS2cp)融合形成MS2cp-PE2融合蛋白。为实现引导编辑，MS2cp-PE2融合蛋白与sgRNA复合，该sgRNA将复合物靶向到DNA中的特定靶位点。然后，该实施方案涉及引入反式引导编辑RNA模板(“tPERT”)，其通过在分开的分子(即，tPERT)上提供引物结合位点(PBS)和DNA合成模板来代替PEgRNA运行，所述分开的分子还配备了MS2适体(茎环)。MS2cp蛋白通过与分子的MS2适体结合来募集tPERT。(c)描绘可通过核酸分子化学合成的已知方法实现的PEgRNA的替代设计。例如，化学合成可用于合成在引导编辑中使用的杂合RNA/DNA PEgRNA分子，其中杂合PEgRNA的延伸臂是DNA而不是RNA。在这样的实施方案中，可使用DNA依赖性DNA聚合酶代替逆转录酶来合成3′DNA瓣，其包含通过引导编辑形成的期望的基因变化。在另一个实施方案中，可合成延伸臂来包含化学接头，其防止DNA聚合酶(如，逆转录酶)使用sgRNA支架或骨架作为模板。在又一个实施方案中，延伸臂可包含相对于PEgRNA分子的整体定向具有相反定向的DNA合成模板。例如，如以5′至3′定向对PEgRNA所示且利用连接至sgRNA支架3′端的延伸，DNA合成模板以相反反向定向，即3′至5′方向。该实施方案对于具有位于gRNA的3'端处的延伸臂的PEgRNA实施方案可能是有利的。通过反转延伸臂的定向，聚合酶(如，逆转录酶)的DNA合成将在到达延伸臂新定向的5'端时终止，因此没有使用gRNA核心作为模板的风险。

图73显示利用tPERT和MS2募集系统(又名MS2标签化技术)的引导编辑。将引导编辑器蛋白(PE2)靶向到靶基因座的sgRNA与tPERT组合表达，所述tPERT包含引物结合位点(13-nt或17-ntPBS)、编码His6标签插入和同源臂的RT模板，以及MS2适体(位于tPERT分子的5′或3′端)。使用引导编辑器蛋白(PE2)或MS2cp与PE2的N端的融合物。编辑是在有或没有互补链切口产生性sgRNA的情况下进行的，如在先前开发的PE3系统中(在x轴上分别指定为标签“PE2+切口”或“PE2”)。这在本文中又称为并定义为“第二链切口产生”。

图74表明逆转录酶的MS2适体以反式表达及其利用MS2适体系统募集。PEgRNAPEgRNA包含插入至两个sgRNA支架发夹之一的MS2 RNA适体。野生型M-MLV逆转录酶表达为与MS2外壳蛋白(MCP)的N端或C端融合物。编辑位于HEK293T细胞中的HEK3位置。

图75提供比较PE2、PE2-截短、PE3和PE3-截短在不同细胞系的不同靶位点上的效率(即，“具有指定编辑或indel的总测序读段％”)的柱状图。数据表明包含截短的RT变体的引导编辑器与包含非截短的RT蛋白的引导编辑器效率差不多。

图76显示实施例20的内含肽-断裂引导编辑器的编辑效率。利用编码全长PE2或内含肽-断裂PE2、PEgRNA和切口产生性向导RNA的质粒转染HEK239T细胞。显示了共有序列(C端外显肽的大部分氨基端残基)。示出两个位置处的编辑百分比：HEK3+1CTT插入和PRNP+6G至T。重复n＝3独立转染。参见实施例20。

图77显示实施例20的内含肽断裂引导编辑器的编辑效率。在通过ICV注射向P0小鼠递送5E10vg/SpPE3半部和少量1E10核定位的GFP:KASH后，通过大块皮层和GFP+亚群中的靶向深度测序评估编辑。将编辑器和GFP包装在具有EFS启动子的AAV9中。注射后3周收获小鼠并通过流式细胞术分离GFP+细胞核。显示单个数据点，每个条件分析了1-2只小鼠。参见实施例20。

图78显示实施例20的内含肽-断裂引导编辑器的编辑效率。具体地，该图描绘在实施例20中使用的AAV断裂-SpPE3构建体。通过分别表达SpPE3-N和SpPE3-C的AAV颗粒的共转导重演PE3活性。注意N端基因组包含表达切口产生性sgRNA的U6-sgRNA盒，标签C端基因组包含表达PEgRNA的U6-PEgRNA盒。参见实施例20。

图79示出如实施例21中讨论的某些优化接头的编辑效率。特别地，数据显示针对转换、颠换、插入和缺失编辑，对于代表性PEgRNA，在HEK3、EMX1、FANCF、RNF2基因座处，相比于具有用如所示序列替换的接头的各种版本，具有当前接头的PE2构建体的编辑效率(标注为PE2-白框)。替换接头被称为“1xSGGS”、“2xSGGS”、“3xSGGS”、“1xXTEN”、“无接头”、“1xGly”、“1xPro”、“1xEAAAK”、“2xEAAAK””和“3xEAAAK”。编辑效率以相对于PE2的“对照”编辑效率的柱状图形式测量。PE2的接头是SGGSSGGSSGSETPGTSESATPESSGGSSGGSS(SEQ IDNO:127)。所有编辑都在PE3系统的背景下完成，即，指PE2编辑构建体加上添加最佳二级sgRNA切口产生性向导物。参见实施例21。

图80.取相对于PE2的平均倍数功效得到所示图，表明使用1xXTEN接头序列将编辑效率平均提高1.14倍(n＝15)。参见实施例21。

图81描绘来自不同启动子的PEgRNA的转录水平，如实施例22所述。

图82如实施例22所示，对PEgRNA结构的不同类型的修饰相对于未修饰PEgRNA对编辑效率的影响。

图83描绘靶向编辑HEK3基因的PE实验，特别是靶向在相对于切口位点的位点+1处10nt插入的插入并且使用PE3。参见实施例22。

图84A描绘具有间隔区、gRNA核心和延伸臂(RT模板+引物结合位点)的示例性PEgRNA，其在PEgRNA的3'端用tRNA分子修饰，通过UCU接头偶联。tRNA包括各种转录后修饰。然而，所述修饰不是必需的。

图84B描绘可用于修饰PEgRNA结构的tRNA结构。参见实施例22。P1的长度可以是可变的。可以延伸P1以有助于防止PEgRNA-tRNA融合物的RNAseP加工。

图85描绘靶向编辑FANCF基因的PE实验，特别是靶向在相对于切口位点的位点+5处的G至T转化并且使用PE3构建体。参见实施例22。

图86描绘靶向编辑HEK3基因的PE实验，特别是靶向在相对于切口位点的位点+1处71nt FLAG标签插入的插入并且使用PE3构建体。参见实施例22。

图87是来自N2A细胞中的筛选结果，其中pegRNA安装了1412Adel，具有关于引物结合位点(PBS)长度和逆转录酶(RT)模板长度的详细信息(显示有和没有indel)。参见实施例23。

图88是来自N2A细胞中的筛选结果，其中pegRNA安装了1412Adel，具有关于引物结合位点(PBS)长度和逆转录酶(RT)模板长度的详细信息(显示有和没有indel)。参见实施例23。

图89描绘在β-珠蛋白基因中的代理(proxy)基因座处和健康HSC中的HEK3处编辑的结果，改变编辑器对pegRNA和切口产生性gRNA的浓度。参见实施例23。

定义

除非另有定义，本文使用的所有技术和科学术语均具有本发明所属领域的技术人员通常理解的含义。以下参考文献为技术人员提供了本发明中使用的许多术语的一般定义：Singleton et al.,Dictionary of Microbiology and Molecular Biology(2nded.1994)；The Cambridge Dictionary of Science and Technology(Walker ed.,1988)；The Glossary of Genetics,5th Ed.,R.Rieger et al.(编),Springer Verlag(1991)；以及Hale&Marham,The Harper Collins Dictionary of Biology(1991)。如本文所用，除非另有说明，否则以下术语具有赋予它们的含义。

反义链

在遗传学中，双链DNA内区段的“反义”链是模板链，并且认为以3'至5'方向延伸。相比之下，“有义”链是双链DNA内从5'至3'延伸的区段，它与DNA的反义链或模板链(从3'至5'延伸)互补。在编码蛋白质的DNA区段的情况下，有义链是与mRNA具有相同序列的DNA链，它在转录过程中以反义链为其模板，并最终(通常，并非总是)经历翻译成为蛋白。因而，反义链负责随后翻译成蛋白的RNA，而有义链具有与mRNA几乎相同的组成。注意对于dsDNA的每个区段，可能会有两组有义和反义，这取决于读取的方向(因为有义和反义是相对于视角而言的)。最终，规定dsDNA区段的哪条链称为有义或反义是基因产物或mRNA。

双特异性配体

如本文所用，术语“双特异性配体”或“双特异性部分”是指结合两个不同配体结合结构域的配体。在某些实施方案中，配体是小分子化合物或肽或多肽。在其他实施方案中，配体结合结构域是“二聚化结构域”，其可作为肽标签安装到蛋白上。在不同实施方案中，可以诱导各自包含相同或不同二聚化结构域的两种蛋白通过每个二聚化结构域与双特异性配体的结合二聚化。如本文所用，“双特异性配体”可等同地指“二聚化化学诱导物”或“CID”。

Cas9

术语“Cas9”或“Cas9核酸酶”是指包含Cas9结构域或其片段(如，包含Cas9的活性或非活性DNA切割域，和/或Cas9的gRNA结合结构域的蛋白)。如本文所用，“Cas9结构域”是包含Cas9的活性或非活性切割域和/或Cas9的gRNA结合结构域的蛋白片段。“Cas9蛋白”是全长Cas9蛋白。Cas9核酸酶有时又被称为casn1核酸酶或CRISPR(成簇规律间隔短回文重复序列)相关核酸酶。CRISPR是适应性免疫系统，其可针对移动遗传元件(病毒、可转座元件和接合质粒)提供保护。CRISPR簇包含间隔区、与前面移动元件互补的序列和靶侵入核酸。将CRISPR簇转录并加工成CRISPR RNA(crRNA)。在II型CRISPR系统中，正确加工pre-crRNA需要反式编码的小RNA(tracrRNA)、内源性核糖核酸酶3(rnc)和Cas9结构域。tracrRNA充当核糖核酸酶3辅助加工pre-crRNA的向导物。随后，Cas9/crRNA/tracrRNA以内切溶核方式切割与间隔区互补的线性或环状dsDNA靶标。首先以内切溶核方式切割不与crRNA互补的靶链，然后以3'-5'以外切溶核方式修剪。事实上，DNA结合和切割通常需要蛋白和这两种RNA。然而，可对单一向导RNA(“sgRNA”，或简称为“gNRA”)进行工程化改造，以便将crRNA和tracrRNA两者的各个方面掺入单一RNA种类中。参见，例如，Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,Doudna J.A.,Charpentier E.Science 337:816-821(2012)，其全部内容通过引用并入本文。Cas9识别CRISPR重复序列(PAM或原间隔区邻近基序)中的短基序，以帮助区分自我与非自我。Cas9核酸酶序列和结构是本领域技术人员所熟知的(参见，例如，“Complete genome sequence of an M1 strain of Streptococcus pyogenes.”Ferretti et al.,J.J.,McShan W.M.,Ajdic D.J.,Savic D.J.,Savic G.,Lyon K.,Primeaux C.,Sezate S.,Suvorov A.N.,Kenton S.,Lai H.S.,Lin S.P.,Qian Y.,JiaH.G.,Najar F.Z.,Ren Q.,Zhu H.,Song L.,White J.,Yuan X.,Clifton S.W.,Roe B.A.,McLaughlin R.E.,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001)；“CRISPR RNAmaturation by trans-encoded small RNA and host factor RNase III.”DeltchevaE.,Chylinski K.,Sharma C.M.,Gonzales K.,Chao Y.,Pirzada Z.A.,Eckert M.R.,Vogel J.,Charpentier E.,Nature 471:602-607(2011)；以及“A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity.”Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,Doudna J.A.,Charpentier E.Science 337:816-821(2012)，其各自的全部内容通过引用并入本文)。Cas9直系同源物已在各种物种中得到描述，包括但不限于化脓性链球菌(S.pyogenes)和嗜热链球菌(S.thermophilus)。基于本公开，其他合适的Cas9核酸酶和序列对本领域技术人员是显而易见的，并且此类Cas9核酸酶和序列包括来自Chylinski,Rhun,and Charpentier,“The tracrRNA and Cas9families of type II CRISPR-Cas immunity systems”(2013)RNA Biology 10:5,726-737(其全部内容通过引用并入本文)中公开的生物体和基因座的Cas9序列。在一些实施方案中，Cas9核酸酶包含一个或多个部分损害或失活DNA切割域的突变。

核酸酶失活的Cas9结构域可互换地被称为“dCas9”蛋白(代表核酸酶-“死亡”Cas9)。用于产生具有无活性DNA切割域的Cas9结构域(或其片段)的方法是已知的(参见，例如，Jinek et al.,Science.337:816-821(2012)；Qi et al.,“Repurposing CRISPR as anRNA-Guided Platform for Sequence-Specific Control of Gene Expression”(2013)Cell.28；152(5):1173-83，每篇文献的全部内容通过引用并入本文)。例如，已知Cas9的DNA切割域包括两个亚结构域，HNH核酸酶亚结构域和RuvC1亚结构域。HNH亚结构域切割与gRNA互补的链，而RuvC1亚结构域切割非互补链。这些亚结构域内的突变可使Cas9的核酸酶活性沉默。例如，突变D10A和H840A使化脓性链球菌Cas9的核酸酶活性完全失活(Jinek et al.,Science.337:816-821(2012)；Qi et al.,Cell.28；152(5):1173-83(2013))。在一些实施方案中，提供了包含Cas9片段的蛋白。例如，在一些实施方案中，蛋白包含两个Cas9结构域之一：(1)Cas9的gRNA结合结构域；或(2)Cas9的DNA切割域。在一些实施方案中，包含Cas9或其片段的蛋白被称为“Cas9变体”。Cas9变体与Cas9或其片段具有同源性。例如，Cas9变体与野生型Cas9(如，SEQ ID NO:18的SpCas9)至少约70％相同、至少约80％相同、至少约90％相同、至少约95％相同、至少约96％相同、至少约97％相同、至少约98％相同、至少约99％相同、至少约99.5％相同、至少约99.8％相同、或至少约99.9％相同。在一些实施方案中，与野生型Cas9(如，SEQ ID NO:18的SpCas9)相比，Cas9变体可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个氨基酸变化。在一些实施方案中，Cas9变体包含SEQ ID NO:18Cas9的片段(如，gRNA结合结构域或DNA切割域)，使得该片段与野生型Cas9的相应片段(如，SEQ ID NO:18的SpCas9)至少约70％相同、至少约80％相同、至少约90％相同、至少约95％相同、至少约96％相同、至少约97％相同、至少约98％相同、至少约99％相同、至少约99.5％相同、或至少约99.9％相同。在一些实施方案中，该片段为相应野生型Cas9(如，SEQ ID NO:18的SpCas9)的氨基酸长度的至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％。

cDNA

术语“cDNA”是指从RNA模板复制的DNA链。cDNA与RNA模板互补。

环状排列体(permutant)

如本文所用，术语“环状排列体”是指包含环状排列(permutation)的蛋白或多肽(如，Cas9)，所述环状排列为蛋白结构构造的变化，涉及出现在蛋白氨基酸序列中的氨基酸顺序变化。换言之，环状排列体是与野生型对应物相比具有改变的N端和C端的蛋白，如蛋白的野生型C端半部变成新的N端半部。环状排列(或CP)本质上是蛋白一级序列的拓扑重排，通常使用肽接头连接其N和C端，同时在不同位置分割其序列以形成新的相邻N和C-端。结果是具有不同连接性的蛋白结构，但通常可具有相同的整体相似的三维(3D)形状，并且可能包括改进或改变的特征，包括降低的蛋白水解易感性、提高的催化活性、改变的底物或配体结合，和/或提高的热稳定性。环状排列的蛋白在自然界中可以存在(如，伴刀豆球蛋白A和凝集素)。此外，环状排列可作为翻译后修饰的结果出现，或可使用重组技术进行工程化改造。

环状排列的Cas9

术语“环状排列的Cas9”是指已作为环状排列体存在，由此其N-和C-端已局部重排的任何Cas9蛋白或其变体。这种环状排列的Cas9蛋白(“CP-Cas9”)或其变体在与向导RNA(gRNA)复合时保留了结合DNA的能力。参见Oakes et al.,“Protein Engineering of Cas9for enhanced function,”Methods Enzymol,2014,546:491–511和Oakes et al.,“CRISPR-Cas9 Circular Permutants as Programmable Scaffolds for GenomeModification,”Cell,January 10,2019,176:254-267，各自通过引用并入本文。本公开考虑任何先前已知的CP-Cas9或使用新的CP-Cas9，只要所得到的环状排列的蛋白在与向导RNA(gRNA)复合时保留结合DNA的能力。示例性CP-Cas9蛋白是SEQ ID NO:77-86。

CRISPR

CRISPR是细菌和古细菌中的DNA序列家族(即，CRISPR簇)，其代表已侵入原核生物的病毒在先感染的片段。原核细胞使用DNA片段来检测和破坏DNA免受类似病毒的后续攻击，并与一系列CRISPR相关蛋白(包括Cas9及其同源物)和CRISPR相关RNA一起有效地构成原核免疫防御系统。事实上，CRISPR簇被转录并加工成CRISPR RNA(crRNA)。在某些类型的CRISPR系统(如，II型CRISPR系统)中，pre-crRNA的正确加工需要反式编码的小RNA(tracrRNA)、内源性核糖核酸酶3(rnc)和Cas9蛋白。tracrRNA充当核糖核酸酶3辅助加工pre-crRNA的向导物。随后，Cas9/crRNA/tracrRNA以内切溶核方式切割与RNA互补的线性或环状dsDNA靶标。具体地，首先以内切溶核方式切割不与crRNA互补的靶链，然后以3'-5'以外切溶核方式修剪。事实上，DNA结合和切割通常需要蛋白和这两种RNA。然而，可对单一向导RNA(“sgRNA”，或简称为“gNRA”)进行工程化改造，以将crRNA和tracrRNA两者的各个方面掺入单个RNA种类——向导RNA中。参见，例如，Jinek M.,Chylinski K.,Fonfara I.,HauerM.,Doudna J.A.,Charpentier E.Science337:816-821(2012)，其全部内容通过引用并入本文。Cas9识别CRISPR重复序列(PAM或原间隔区邻近基序)中的短基序，以帮助区分自我与非自我。CRISPR生物学以及Cas9核酸酶序列和结构是本领域技术人员所熟知的(参见，例如，“Complete genome sequence of an M1 strain of Streptococcus pyogenes.”Ferretti et al.,J.J.,McShan W.M.,Ajdic D.J.,Savic D.J.,Savic G.,Lyon K.,Primeaux C.,Sezate S.,Suvorov A.N.,Kenton S.,Lai H.S.,Lin S.P.,Qian Y.,JiaH.G.,Najar F.Z.,Ren Q.,Zhu H.,Song L.,White J.,Yuan X.,Clifton S.W.,Roe B.A.,McLaughlin R.E.,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001)；“CRISPR RNAmaturation by trans-encoded small RNA and host factor RNase III.”DeltchevaE.,Chylinski K.,Sharma C.M.,Gonzales K.,Chao Y.,Pirzada Z.A.,Eckert M.R.,Vogel J.,Charpentier E.,Nature471:602-607(2011)；以及“A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity.”Jinek M.,ChylinskiK.,Fonfara I.,Hauer M.,Doudna J.A.,Charpentier E.Science 337:816-821(2012)，其全部内容通过引用并入本文)。已在不同物种中描述了Cas9直系同源物，包括但不限于化脓性链球菌和嗜热链球菌。基于本公开，其他合适的Cas9核酸酶和序列对本领域技术人员而言是显而易见的，并且这类Cas9核酸酶和序列包括来自Chylinski,Rhun,andCharpentier,“The tracrRNA and Cas9 families of type II CRISPR-Cas immunitysystems”(2013)RNA Biology 10:5,726-737(其全部内容通过引用并入本文)中的Cas9序列。

在某些类型的CRISPR系统(如，II型CRISPR系统)中，pre-crRNA的正确加工需要反式编码的小RNA(tracrRNA)、内源性核糖核酸酶3(rnc)和Cas9蛋白。tracrRNA充当核糖核酸酶3辅助加工pre-crRNA的向导物。随后，Cas9/crRNA/tracrRNA以内切溶核方式切割与RNA互补的线性或环状核酸靶标。具体地，首先与内切溶核方式切割不与crRNA互补的靶链，然后以3'-5'以外切溶核方式修剪。事实上，DNA结合和切割通常需要蛋白和这两种RNA。然而，可以对单个向导RNA(“sgRNA”，或简称为“gRNA”)进行工程化改造，以将crRNA和tracrRNA两者的实施方案并入单一RNA种类——向导RNA中。

通常，“CRISPR系统”统称为参与CRISPR相关(“Cas”)基因的表达或指导其活性的转录本和其他元件，包括编码Cas基因的序列、tracr(反式-激活CRISPR)序列(如，tracrRNA或活性部分tracrRNA)、tracr配对序列(包括在内源性CRISPR系统背景下的“直接重复”和tracrRNA加工的部分直接重复)、向导序列(内源性CRISPR系统背景下又被称为“间隔区”)，或来自CRISPR基因座的其他序列和转录本。该系统的tracrRNA与向导RNA上存在的tracr配对序列互补(完全或部分)。

DNA合成模板

如本文所用，术语“DNA合成模板”是指PEgRNA的延伸臂的区域或部分，其被引导编辑器的聚合酶用作模板链来编码3'单链DNA瓣，其含有期望的编辑，然后通过引导编辑机制置换靶位点处相应内源性DNA链。在不同实施方案中，DNA合成模板示于图3A(在包含5'延伸臂的PEgRNA背景下)，图3B(在包含3'延伸臂的PEgRNA背景下)，图3C(在内部延伸臂背景下)，图3D(在3'延伸臂背景下)，以及图3E(在5′延伸臂背景下)。延伸臂(包括DNA合成模板)可由DNA或RNA组成。在RNA的情况下，引导编辑器的聚合酶可以是RNA依赖性DNA聚合酶(如，逆转录酶)。在DNA的情况下，引导编辑器的聚合酶可以是DNA依赖性DNA聚合酶。在不同实施方案中(例如，如图3D-3E中所示)，DNA合成模板(4)可包含“编辑模板”和“同源臂”，以及可选的5'端修饰区e2的全部或部分。也就是说，取决于e2区的性质(如，它是否包括发夹、趾环或茎/环二级结构)，聚合酶也可编码无一、某个或整个的e2区。换言之，在3'延伸臂的情况下，DNA合成模板(3)可包括跨越引物结合位点(PBS)的5'端至gRNA核心的3'端的延伸臂(3)的部分，其可作为聚合酶(如，逆转录酶)合成DNA单链的模板运行。在5′延伸臂的情况下，DNA合成模板(3)可包括跨越PEgRNA分子的5′端至编辑模板的3′端的延伸臂(3)的部分。优选地，DNA合成模板不包括具有3'延伸臂或5'延伸臂的PEgRNA的引物结合位点(PBS)。在此描述的某些实施方案(如，图71A)指“RT模板”，其包括编辑模板和同源臂，即在DNA合成过程中实际用作模板的PEgRNA延伸臂的序列。术语“RT模板”等同于术语“DNA合成模板”。

在反式引导编辑的情况下(如，图3G和图3H)，引物结合位点(PBS)和DNA合成模板可被工程化改造为分开的分子，被称为反式引导编辑器RNA模板(tPERT)。

二聚化结构域

术语“二聚化结构域”是指与双特异性配体的结合部分结合的配体结合结构域。“第一”二聚化结构域结合双特异性配体的第一结合部分，并且“第二”二聚化结构域结合同一双特异性配体的第二结合部分。当第一二聚化结构域与第一蛋白融合(如，通过PE，如本文所讨论的)并且第二二聚化结构域与第二蛋白融合(如，通过PE，如本文所讨论的)时，第一和第二蛋白在双特异性配体的存在下二聚化，其中所述双特异性配体具有至少一个与第一二聚化结构域结合的部分和至少另一个与第二二聚化结构域结合的部分。

下游

如本文所用，术语“上游”和“下游”是相对性术语，其定义了位于以5'至3'方向定向的核酸分子(无论是单链还是双链)中的至少两个元件的线性位置。具体地，第一元件在核酸分子中第二元件的上游，其中第一元件位于第二元件5'的某处。例如，如果SNP位于切口位点的5'侧，则SNP位于Cas9诱导的切口位点的上游。相反地，第一元件位于核酸分子中第二元件的下游，其中第一元件位于第二元件3'的某处。例如，如果SNP位于切口位点的3'侧，则SNP位于Cas9诱导的切口位点的下游。核酸分子可以是DNA(双链或单链)。RNA(双链或单链)，或DNA和RNA的杂合体。单链核酸分子和双链分子的分析相同，因为上游和下游的术语仅参考核酸分子的单链，除了考虑需要选择双链分子的哪条链。通常，可用于确定至少两个元件的位置相对性的双链DNA的链是“有义”或“编码”链。在遗传学中，“有义”链是双链DNA中从5'至3'延伸，且与DNA从3'至5'延伸的反义链或模板链互补的区段。因此，例如，如果SNP核碱基在有义链或编码链的启动子的3'侧，则SNP核碱基在基因组DNA(双链)中启动子序列的“下游”。

编辑模板

术语“编辑模板”是指在由聚合酶合成的单链3'DNA瓣中编码期望编辑的延伸臂的一部分，例如DNA依赖性DNA聚合酶、RNA依赖性DNA聚合酶(如，逆转录酶)。在此描述的某些实施方案(如，图71A)是指“RT模板”，其指编辑模板和同源臂两者，即，在DNA合成过程中实际用作模板的PEgRNA延伸臂的序列。术语“RT编辑模板”也等同于术语“DNA合成模板”，但其中RT编辑模板反映了使用具有作为逆转录酶的聚合酶的引导编辑器，其中DNA合成模板更广泛地反映了使用具有任何聚合酶的引导编辑器。

有效量

如本文所用，术语“有效量”是指足以引发期望的生物反应的生物活性剂的量。例如，在一些实施方案中，引导编辑器(PE)的有效量可指足以编辑靶位点核苷酸序列(如，基因组)的编辑器的量。在一些实施方案中，本文提供的引导编辑器(PE)的有效量，例如包含切口酶Cas9结构域和逆转录酶的融合蛋白的有效量，可指足以引起融合蛋白特异性结合和编辑靶位点的编辑的融合蛋白的量。本领域技术人员将理解，有效量的试剂，例如融合蛋白、核酸酶、杂合蛋白、蛋白二聚体、蛋白(或蛋白二聚体)和多核苷酸的复合物，或多核苷酸可能因各种因素而不同，例如期望的生物反应，例如特定的等位基因、基因组或待编辑的靶位点，被靶向的细胞或组织，以及所使用的试剂。

易错逆转录酶

如本文所用，术语“易错”逆转录酶(或更广泛地，任何聚合酶)是指天然存在或衍生自另一种逆转录酶(如，野生型M-MLV逆转录酶)的逆转录酶(或更广泛地，任何聚合酶)，其错误率小于野生型M-MLV逆转录酶的错误率。据报道，野生型M-MLV逆转录酶的错误率在15,000中的一个错误(较高)至27,000中的一个错误(较低)的范围内。15,000分之一的错误率对应于6.7x10^-5的错误率。27,000分之一的错误率对应于3.7x10^-5的错误率。参见Boutabout et al.(2001)“DNA synthesis fidelity by the reverse transcriptase ofthe yeast retrotransposon Ty1,”Nucleic Acids Res 29(11):2217–2222，其通过引用并入本文。因此，出于本申请的目的，术语“易错”是指具有错误率大于15,000个核碱基掺入中一个错误(6.7x10^-5或更高)的那些RT，例如，14,000个核碱基中有1个错误(7.14x10^-5或更高)，13,000个或更少的核碱基中有1个错误(7.7x10^-5或更高)，12,000个或更少的核碱基中有1个错误(7.7x10^-5或更高)，11,000个或更少的核碱基中有1个错误(9.1x10^-5或更高)，10,000个或更少的核碱基中有1个错误(1x10^-4或0.0001或更高)，9,000个或更少的核碱基中有1个错误(0.00011或更高)，8,000个或更少的碱基中有1个错误(0.00013或更高)，7,000个或更少的核碱基中有1个错误(0.00014或更高)，6,000个或更少的核碱基中有1个错误(0.00016或更高)，5,000个或更少的核碱基中有1个错误(0.0002或更高)，4,000个或更少的核碱基中有1个错误(0.00025或更高)、3,000个或的更少核碱基中有1个错误(0.00033或更高)、2,000个或更少的核碱基中有1个错误(0.00050或更高)、或1,000个或更少的核碱基中有1个错误(0.001或更高)，或500个或更少的核碱基中有1个错误(0.002或更高)，或250个或更少的核碱基中有1个错误(0.004或更高)。

外显肽

如本文所用，术语“外显肽”是指侧翼是内含肽并在蛋白剪接形成成熟的剪接蛋白的过程中与另一外显肽连接的多肽序列。通常，内含肽的两侧是两个外显肽序列，当内含肽催化其自身切除时连接在一起。因此，外显肽是mRNA中存在的外显子的蛋白类似物。例如，包含内含肽的多肽可具有外显肽(N)-内含肽-外显肽(C)的结构。切除内含肽并剪接两个外显肽后，得到的结构是外显肽(N)-外显肽(C)和游离内含肽。在不同配置中，外显肽可以是单独的蛋白(如，Cas9或PE融合蛋白的半部)，各自融合到断裂内含肽，其中断裂内含肽的切除导致外显肽序列剪接在一起。

延伸臂

术语“延伸臂”是指PEgRNA的核苷酸序列组件，其提供多种功能，包括引物结合位点和逆转录酶的编辑模板。在一些实施方案中，例如图3D，延伸臂位于向导RNA的3'端。在其他实施方案中，例如图3E，延伸臂位于向导RNA的5'端。在一些实施方案中，延伸臂还包括同源臂。在不同实施方案中，延伸臂以5'至3'方向包含以下组件：同源臂、编辑模板和引物结合位点。由于逆转录酶的聚合活性为5'至3'方向，同源臂、编辑模板和引物结合位点的优选排列为5'至3'方向，是的逆转录酶一旦被退火引物序列引发，就使用编辑模板作为互补模板链聚合DNA单链。在本文别处描述更多细节，例如延伸臂的长度。

延伸臂也可描述为通常包括两个区域：引物结合位点(PBS)和DNA合成模板，例如，如图3G(上图)所示。引物结合位点结合引物序列，所述引物序列是从靶位点的内源性DNA链当它被引导编辑器复合物产生切口，从而暴露内源性切口链上的3'端时形成的。如本文解释，引物序列与PEgRNA延伸臂上的引物结合位点的结合产生具有暴露的3'端(即，引物序列的3')的双链体区域，该区域然后为聚合酶提供底物以从暴露的3'端沿着DNA合成模板的长度开始聚合DNA单链。单链DNA产物的序列是DNA合成模板的互补序列。继续向着DNA合成模板(或延伸臂)的5'方向聚合，直到聚合终止。因此，DNA合成模板代表延伸臂的一部分，该部分被引导编辑器复合物的聚合酶编码成单链DNA产物(即，含有期望的遗传编辑信息的3'单链DNA瓣)，并最终置换位于紧邻PE诱导的切口位点下游的靶位点的相应内源性DNA链。不受理论的束缚，DNA合成模板继续向着延伸臂的5'端聚合，直到终止事件。聚合可能以多种方式终止，包括但不限于(a)到达PEgRNA的5'端(如，在5'延伸臂的情况下，其中DNA聚合酶简单地耗尽模板)，(b)到达不可逾越的RNA二级结构(如，发夹或茎/环)，或(c)到达复制终止信号，例如阻断或抑制聚合酶的特定核苷酸序列，或核酸拓扑信号，如超螺旋DNA或RNA。

瓣核酸内切酶(如，FEN1)

如本文所用，术语“瓣核酸内切酶”是指催化去除5′单链DNA瓣的酶。这些是天然存在的酶，其处理细胞过程，包括DNA复制期间形成的5′瓣的除去。本文所述引导编辑方法可利用内源提供的瓣核酸内切酶或以反式提供的那些来去除引导编辑过程中的靶位点处形成的内源性DNA的5'瓣。瓣核酸内切酶是本领域已知的，并且描述于Patel et al.,“Flapendonucleases pass5′-flaps through a flexible arch using a disorder-thread-order mechanism to confer specificity for free 5′-ends,”Nucleic AcidsResearch,2012,40(10):4507-4519,Tsutakawa et al.,“Human flap endonucleasestructures,DNA double-base flipping,and a unified understanding of the FEN1superfamily,”Cell,2011,145(2):198-211,以及Balakrishnan et al.,“FlapEndonuclease 1,”Annu Rev Biochem,2013,Vol 82:119-138(各自通过引用并入本文)。示例性瓣核酸内切酶是FEN1，其可由以下氨基酸序列表示：

功能等同物

术语“功能等同物”是指与第一生物分子在功能上等同但在结构上不一定等同的第二生物分子。例如，“Cas9等同物”是指具有与Cas9相同或基本相同功能但不一定具有相同氨基酸序列的蛋白。在本公开的背景中，本说明书自始至终都提到“蛋白X或其功能等同物”。在这种情况下，蛋白X的“功能等同物”包括具有等同功能的蛋白X的任何同系物、旁系同源物、片段、天然存在、工程化、突变或合成版本。

融合蛋白

如本文所用，术语“融合蛋白”是指包含来自至少两种不同蛋白的蛋白结构域的杂合多肽。一种蛋白可位于融合蛋白的氨基端(N端)部分或羧基端(C端)蛋白，从而分别形成“氨基端融合蛋白”或“羧基端融合蛋白”。蛋白可包含不同的结构域，例如，核酸结合结构域(如，引导蛋白与靶位点结合的Cas9的gRNA结合结构域)和核酸编辑蛋白的核酸切割结构域或催化结构域。另一个示例包括Cas9或其与逆转录酶的等同物。本文提供的任何蛋白可通过本领域已知的任何方法产生。例如，本文提供的蛋白可通过重组蛋白表达和纯化产生，这尤其适用于包含肽接头的融合蛋白。用于重组蛋白表达和纯化的方法是众所周知的，包括Green and Sambrook,Molecular Cloning:A Laboratory Manual(4^th ed.,Cold SpringHarbor Laboratory Press,Cold Spring Harbor,N.Y.(2012))中描述的那些，其全部内容通过引用并入本文。

感兴趣基因(GOI)

术语“感兴趣基因”或“GOI”是指编码感兴趣的生物分子(如，蛋白或RNA分子)的基因。感兴趣的蛋白可包括任何细胞内蛋白、膜蛋白或细胞外蛋白，例如核蛋白、转录因子、核膜转运蛋白、细胞内细胞器相关蛋白、膜受体、催化蛋白和酶、治疗蛋白、膜蛋白、膜转运蛋白、信号转导蛋白或免疫蛋白(如，IgG或其他抗体蛋白)等。感兴趣基因还可编码RNA分子，包括但不限于信使RNA(mRNA)、转运RNA(tRNA)、核糖体RNA(rRNA)、小核RNA(snRNA)、反义RNA、向导RNA、微小RNA(miRNA)、小干扰RNA(siRNA)和无细胞(cell-free)RNA(cfRNA)。

向导RNA(“gRNA”)

如本文所用，术语“向导RNA”是特定类型的向导核酸，其通常与CRISPR-Cas9的Cas蛋白相关并且与Cas9缔合，将Cas9蛋白引导至DNA分子中包括与向导RNA的原间隔区的互补性的特定序列。然而，该术语还包括等同的向导核酸分子，其与Cas9等同物、同源物、直系同源物或旁系同源物缔合，无论是天然存在的还是非天然存在的(如，工程化或重组的)，并且在其它方面编程Cas9等同物以定位到特定的靶核苷酸序列。Cas9等同物可包括来自任何类型的CRISPR系统(如，II、V、VI型)的其他napDNAbp，包括Cpf1(V型CRISPR-Cas系统)、C2c1(V型CRISPR-Cas系统)、C2c2(VI型CRISPR-Cas系统)和C2c3(V型CRISPR-Cas系统)。其他Cas等同物描述于Makarova et al.,“C2c2 is a single-component programmable RNA-guidedRNA-targeting CRISPR effector,”Science 2016；353(6299)中，其内容通过引用并入本文。本文提供了向导RNA的示例性序列和结构。此外，本文提供了用于设计合适的向导RNA序列的方法。如本文所用，“向导RNA”又被称为“传统向导RNA”，以将其与被称为“引导编辑向导RNA”(或“PEgRNA”)的修饰形式的向导RNA形成对比，所述修饰形式的向导RNA已经被发明用于本文公开的引导编辑方法和组合物。

向导RNA或PEgRNA可包含各种结构元件，包括但不限于：

间隔区序列-向导RNA或PEgRNA中的序列(具有约20nt的长度)，其与靶DNA中的原间隔区结合。

gRNA核心(或gRNA支架或骨架序列)-指gRNA内负责Cas9结合的序列，其不包括用于引导Cas9至靶DNA的20bp间隔区/靶向序列。

延伸臂-在PEgRNA的3′端或5′端处的单链延伸，其包含引物结合位点和DNA合成模板序列，所述DNA合成模板序列通过聚合酶(如，逆转录酶)编码含有感兴趣的基因变化的单链DNA瓣，然后通过置换相应内源性链整合至内源性DNA中，从而安装期望的基因变化。

转录终止子-向导RNA或PEgRNA可在分子的3′端包含转录终止序列。

同源臂

术语“同源臂”是指编码所得到的逆转录酶编码的单链DNA瓣的部分的延伸臂的一部分，该单链DNA瓣将通过置换内源性链整合到靶DNA位置。由同源臂编码的单链DNA瓣的部分与靶DNA序列的非编辑链互补，这有利于内源性链的置换和单链DNA瓣就地退火，从而安装编辑。该组件在别处进一步定义。同源臂是DNA合成模板的一部分，因为根据定义，它由本文所述的引导编辑器的聚合酶编码。

宿主细胞

如本文所用，术语“宿主细胞”是指可以含有、复制和表达本文所述载体的细胞，例如包含编码融合蛋白的核酸分子的载体，所述融合蛋白包含Cas9或Cas9等同物和逆转录酶。

内含肽

如本文所用，术语“内含肽”是指在来自所有生命领域的生物体中发现的自动加工多肽结构域。内含肽(中间蛋白)执行被称为蛋白剪接的独特自动加工事件，其中它通过两个肽键的裂解从较大的前体多肽中切除自身，并在此过程中通过形成新的肽键连接侧翼外显肽(外部蛋白)序列。这种重排发生在翻译后(或可能是共同翻译)，因为发现内含肽基因以符合读码框的方式嵌入其他蛋白编码基因内。此外，内含肽介导的蛋白剪接是自发的；它不需要外部因素或能量源，只需要折叠内含肽结构域。这个过程也被称为顺式蛋白剪接，与具有“断裂内含肽”的反式蛋白剪接的自然过程相反。内含肽是自剪接RNA内含子的蛋白等同物(参见，Perler et al.,Nucleic Acids Res.22:1125-1127(1994))，其催化它们自己从前体蛋白中切除，同时伴随被称为外显肽的侧翼蛋白序列的融合(综述参见Perler etal.,Curr.Opin.Chem.Biol.1:292-299(1997)；Perler,F.B.Cell 92(1):1-4(1998)；Xu etal.,EMBO J.15(19):5146-5153(1996))。

如本文所用，术语“蛋白剪接”是指将其中前体蛋白(内含肽)的内部区域切除并且将蛋白的侧翼区域(外显肽)连接以形成成熟蛋白的过程。这种自然过程已在来自原核生物和真核生物的许多蛋白中观测到(Perler,F.B.,Xu,M.Q.,Paulus,H.Current Opinion inChemical Biology 1997,1,292-299；Perler,F.B.Nucleic Acids Research 1999,27,346-347)。内含肽单元包含催化蛋白剪接所需的必要成分，并且通常包含参与内含肽迁移的核酸内切酶结构域(Perler,F.B.,Davis,E.O.,Dean,G.E.,Gimble,F.S.,Jack,W.E.,Neff,N.,Noren,C.J.,Thomer,J.,Belfort,M.Nucleic Acids Research 1994,22,1127-1127)。然而，产生的蛋白是连接的，不作为分开的蛋白表达。蛋白剪接也可以反式进行，在分开的多肽上表达的断裂内含肽自发组合形成单个内含肽，其然后经历蛋白剪接过程以连接至分开的蛋白。

蛋白剪接机制的阐明导致了许多基于内含肽的应用((Comb,et al.,美国专利号5,496,714；Comb,et al.,美国专利号5,834,247；Camarero and Muir,J.Amer.Chem.Soc.,121:5597-5598(1999)；Chong,et al.,Gene,192:271-281(1997),Chong,et al.,NucleicAcids Res.,26:5109-5115(1998)；Chong,et al.,J.Biol.Chem.,273:10567-10577(1998)；Cotton,et al.J.Am.Chem.Soc.,121:1100-1101(1999)；Evans,et al.,J.Biol.Chem.,274:18359-18363(1999)；Evans,et al.,J.Biol.Chem.,274:3923-3926(1999)；Evans,et al.,Protein Sci.,7:2256-2264(1998)；Evans,et al.,J.Biol.Chem.,275:9091-9094(2000)；Iwai and Pluckthun,FEBS Lett.459:166-172(1999)；Mathys,etal.,Gene,231:1-13(1999)；Mills,et al.,Proc.Natl.Acad.Sci.USA 95:3543-3548(1998)；Muir,et al.,Proc.Natl.Acad.Sci.USA 95:6705-6710(1998)；Otomo,et al.,Biochemistry 38:16040-16044(1999)；Otomo,et al.,J.Biolmol.NMR 14:105-114(1999)；Scott,et al.,Proc.Natl.Acad.Sci.USA 96:13638-13643(1999)；Severinov andMuir,J.Biol.Chem.,273:16205-16209(1998)；Shingledecker,et al.,Gene,207:187-195(1998)；Southworth,et al.,EMBO J.17:918-926(1998)；Southworth,et al.,Biotechniques,27:110-120(1999)；Wood,et al.,Nat.Biotechnol.,17:889-892(1999)；Wu,et al.,Proc.Natl.Acad.Sci.USA 95:9226-9231(1998a)；Wu,et al.,BiochimBiophys Acta 1387:422-432(1998b)；Xu,et al.,Proc.Natl.Acad.Sci.USA 96:388-393(1999)；Yamazaki,et al.,J.Am.Chem.Soc.,120:5591-5592(1998))。各文献通过引用并入本文。

配体依赖性内含肽

如本文所用，术语“配体依赖性内含肽”是指包含配体结合结构域的内含肽。通常，将配体结合结构域插入内含肽的氨基酸序列中，形成结构：内含肽(N)-配体结合结构域-内含肽(C)。通常，配体依赖性内含肽在不存在合适配体时未显示蛋白剪接活性或仅显示最少的蛋白剪接活性，而在配体存在下蛋白剪接活性显著增加。在一些实施方案中，配体依赖性内含肽在配体不存在时未显示可观测的剪接活性，但在配体存在下确实显示剪接活性。在一些实施方案中，配体依赖性内含肽在配体不存在时显示可观测的蛋白剪接活性，并且在合适配体存在下的蛋白剪接活性比不存在配体时观测到的活性大至少5倍、至少10倍、至少50倍、至少100倍、至少150倍、至少200倍、至少250倍、至少500倍、至少1000倍、至少1500倍、至少2000倍、至少2500倍、至少5000倍、至少10000倍、至少20000倍、至少25000倍、至少50000倍、至少100000倍、至少500000倍、或至少1000000倍。在一些实施方案中，活性的增加在至少1个数量级、至少2个数量级、至少3个数量级、至少4个数量级、或至少5个数量级上是剂量依赖性的，允许通过调节配体浓度来微调内含肽活性。合适的配体依赖性内含肽是本领域已知的，并且包括以下提供的那些和在公开的美国专利申请U.S.2014/0065711A1中描述的那些；Mootz et al.,“Protein splicing triggered by a small molecule.”J.Am.Chem.Soc.2002；124,9044–9045；Mootz et al.,“Conditional protein splicing:anew tool to control protein structure and function in vitro and in vivo.”J.Am.Chem.Soc.2003；125,10561–10569；Buskirk et al.,Proc.Natl.Acad.Sci.USA.2004；101,10505-10510)；Skretas&Wood,“Regulation ofprotein activity with small-molecule-controlled inteins.”Protein Sci.2005；14,523-532；Schwartz,et al.,“Post-translational enzyme activation in an animalvia optimized conditional protein splicing.”Nat.Chem.Biol.2007；3,50-54；Pecket al.,Chem.Biol.2011；18(5),619-630；各自的全部内容在此通过引用并入。示例性序列如下：

接头

如本文所用，术语“接头”是指连接两个其他分子或部分的分子。在连接两个融合蛋白的接头的情况下，接头可以是氨基酸序列。例如，Cas9可通过氨基酸接头序列与逆转录酶融合。在将两个核苷酸序列连接在一起的情况下，接头也可以是核苷酸序列。例如，在当前情况下，传统的向导RNA通过间隔区或接头核苷酸序列连接至可包含RT模板序列和RT引物结合位点的引导编辑向导RNA的RNA延伸。在其他实施方案中，接头是有机分子、基团、聚合物或化学部分。在一些实施方案中，接头的长度为5至100个氨基酸，例如，长度为5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80-90、90-100、100-150或150-200个氨基酸。还考虑更长或更短的接头。

分离的

“分离的”是指从自然状态改变或取出。例如，天然存在于活体动物中的核酸或肽不是“分离的”，而与其天然状态的共存材料部分或完全分离的同一核酸或肽是“分离的”。分离的核酸或蛋白可以以基本上纯化的形式存在，或可存在于非天然环境中如例如宿主细胞中。

在一些实施方案中，感兴趣基因由分离的核酸编码。如本文所用，术语“分离的”是指如本文提供的材料从其原始或天然环境(如，如果它是天然存在的，则为天然环境)取出的特性。因此，存在于活体动物中的天然存在的多核苷酸或蛋白或多肽不是分离的，而通过人工干预与天然系统中的一些或全部共存材料分开的同一多核苷酸或多肽是分离的。因此，人工或工程化材料，例如非天然存在的核酸构建体，如本文所述表达构建体和载体，又被称为分离的。材料不必为了分离而纯化。因此，材料可以是载体的一部分和/或组合物的一部分，并且仍然是分离的，因为这样的载体或组合物不是在自然界中找到材料的环境的一部分。

MS2标签化技术

在不同实施方案中(例如，如图72-73的实施方案和实施例19中所描绘)，术语“MS2标签化技术”是指“RNA-蛋白相互作用结构域”(又名“RNA-蛋白募集结构域或蛋白”)与特异性识别并结合RNA-蛋白相互作用结构域(如，特定发夹结构)的RNA结合蛋白配对的组合。可利用这些类型的系统将各种功能性募集到结合至靶位点的引导编辑器复合物。MS2标签化技术基于MS2噬菌体外壳蛋白(“MCP”或“MS2cp”)与噬菌体基因组中存在的茎环或发夹结构(即“MS2发夹”)的自然相互作用。在引导编辑的情况下，MS2标签化技术包括将MS2发夹引入参与引导编辑的期望的RNA分子(如，PEgRNA或tPERT)，然后构成识别并结合至该结构的RNA结合蛋白的特异性可相互作用结合靶标。在MS2发夹的情况下，其被MS2噬菌体外壳蛋白(MCP)识别和结合。并且，若MCP与另一个蛋白(如，逆转录酶或其他DNA聚合酶)融合，则可将MS2发夹用于反式“募集”其他蛋白至由引导编辑复合物占据的靶位点。

一方面，本文所述的引导编辑器可并入任何已知的RNA-蛋白相互作用结构域以募集或“共定位”感兴趣的特定功能性至引导编辑器复合物。本领域中已描述其他模块化RNA-蛋白相互作用结构域的综述，例如，Johansson et al.,“RNA recognition by the MS2phage coat protein,”Sem Virol.,1997,Vol.8(3):176-185；Delebecque et al.,“Organization of intracellular reactions with rationally designed RNAassemblies,”Science,2011,Vol.333:470-474；Mali et al.,“Cas9 transcriptionalactivators for target specificity screening and paired nickases forcooperative genome engineering,”Nat.Biotechnol.,2013,Vol.31:833-838；以及Zalatan et al.,“Engineering complex synthetic transcriptional programs withCRISPR RNA scaffolds,”Cell,2015,Vol.160:339-350，各自通过引用整体并入本文。其他系统包括PP7发夹(其专门募集PCP蛋白)和“com”发夹(其专门募集Com蛋白)。参见Zalatanet al.。

MS2发夹(或等同地被称为“MS2适体”)的核苷酸序列为：

GCCAACATGAGGATCACCCATGTCTGCAGGGCC(SEQ ID NO:763)。

MCP或MS2cp的氨基酸序列为：

GSASNFTQFVLVDNGGTGDVTVAPSNFANGVAEWISSNSRSQAYKV TCSVRQSSAQNRKYTIKVEVPKVATQTVGGEELPVAGWRSYLNMELTIPF ATNSDCELIVKAMQGLLKDGNPIPSAIAANSGIY(SEQ ID NO:764)。

MS2发夹(或“MS2适体”)也可被称为一类“RNA效应物募集结构域”(或等同地被称为“RNA结合蛋白募集结构域”或简称为“募集结构域”)，因为它是安装到PEgRNA或tPERT中的物理结构(如，发夹)，其有效地将其他效应物功能(如，具有不同功能的RNA结合蛋白，例如DNA聚合酶或其他DNA修饰酶)募集到如此修饰的PEgRNA或rPERT，从而将效应物功能以反式共定位到引导编辑机制。本申请无意以任何方式限制于任何特定的RNA效应物募集结构域，并且可包括任何可用的此类结构域，包括MS2发夹。实施例19和图72(b)描绘了使用连接到DNA合成结构域(即，tPERT分子)的MS2适体和引导编辑器，所述引导编辑器包含融合至PE2的MS2cp蛋白以引起与靶DNA位置结合的引导编辑器复合物(MS2cp-PE2:sgRNA复合物)和tPERT分子的DNA合成结构域共定位以完成。

napDNAbp

如本文所用，术语“核酸可编程DNA结合蛋白”或“napDNAbp”(其中Cas9是示例)是指使用RNA:DNA杂交来靶向并结合DNA分子中的特定序列的蛋白。每个napDNAbp与至少一个向导核酸(如，向导RNA)缔合，这将napDNAbp定位于包含与向导核酸或其部分(如，向导RNA的原间隔区)互补的DNA链(即，靶链)的DNA序列。换言之，向导核酸“编程”napDNAbp(如，Cas9或等同物)以定位并结合互补序列。

不受理论的束缚，napDNAbp-向导RNA复合物的结合机制通常包括形成R环的步骤，由此napDNAbp诱导双链DNA靶标的解旋，从而分离由napDNAbp结合的区域中的链。然后向导RNA原间隔区与“靶链”杂交。这置换了与靶链互补的“非靶链”，形成了R环的单链区域。在一些实施方案中，napDNAbp包括一种或多种核酸酶活性，其然后切割DNA，留下各种类型的损伤。例如，napDNAbp可包含在第一位置处切割非靶链和/或在第二位置处切割靶链的核酸酶活性。根据核酸酶活性，可切割靶DNA形成“双链断裂”，从而切割两条链。在其他实施方案中，靶DNA可仅在单个位置被切割，即DNA在一条链上有“切口”。具有不同核酸酶活性的示例性napDNAbp包括“Cas9切口酶”(“nCas9”)和没有核酸酶活性的失活Cas9(“死亡Cas9”或“dCas9”)。本文提供了这些和其他napDNAbp的示例性序列。

切口酶

术语“切口酶”是指两个核酸酶结构域之一失活的Cas9。这种酶只能切割靶DNA的一条链。

核定位序列(NLS)

术语“核定位序列”或“NLS”是指如通过核转运促进蛋白输入细胞核的氨基酸序列。核定位序列是本领域已知的并且对技术人员而言是显而易见的。例如，lank et al.于2000年11月23日提交的国际PCT申请号PCT/EP2000/011690,于2001年5月31日以WO/2001/038547公开，其公开的示例性核定位序列的内容通过引用并入本文。在一些实施方案中，NLS包含氨基酸序列PKKKRKV(SEQ ID NO:16)或MDSLLMNRRKFLYQFKNVRW AKGRRETYLC(SEQID NO:17)。

核酸分子

如本文所用，术语“核酸”是指核苷酸的聚合物。聚合物可包括天然核苷(即，腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷和脱氧胞苷)、核苷类似物(如，2-氨基腺苷、2-硫胸苷、肌苷、吡咯并嘧啶、3-甲基腺苷，5-甲基胞苷，C5溴尿苷，C5氟尿苷，C5碘尿苷，C5丙炔基尿苷，C5丙炔基胞苷，C5甲基胞苷，7脱氮腺苷，7脱氮鸟苷，8氧腺苷，8氧鸟苷、O(6)甲基鸟嘌呤、4-乙酰基胞苷、5-(羧基羟甲基)尿苷、二氢尿苷、甲基假尿苷、1-甲基腺苷、1-甲基鸟苷、N6-甲基腺苷和2-硫代胞苷)、化学修饰的碱基、生物修饰的碱基(如，甲基化碱基)、插入的碱基、修饰的糖(如，2'-氟核糖、核糖、2'-脱氧核糖、2'-O-甲基胞苷、阿拉伯糖和己糖)，或修饰的磷酸基(如，硫代磷酸酯和5′N亚磷酰胺连接)。

PEgRNA

如本文所用，术语“引导编辑向导RNA”或“PEgRNA”或“延伸的向导RNA”是指已修饰以包括用于实施本文描述的引导编辑方法和组合物的一个或多个额外序列的特定形式的向导RNA。如本文所述，引导编辑向导RNA包含核酸序列的一个或多个“延伸区”。延伸区可包括但不限于单链RNA或DNA。此外，延伸区可能存在于传统向导RNA的3'端。在其他配置中，延伸区可以存在于传统向导RNA的5'端。在其他配置中，延伸区域可能存在于传统向导RNA的分子内区域，例如，在与napDNAbp缔合和/或结合的gRNA核心区域中。延伸区包含“DNA合成模板”，其编码(通过引导编辑器的聚合酶)单链DNA，所述单链DNA继而被设计为(a)与待编辑的内源性靶DNA同源，并且(b)其包含至少一个待引入或整合到内源性靶DNA中的期望的核苷酸变化(如，转变、颠换、缺失、或插入)。延伸区还可包含其他功能序列元件，例如但不限于“引物结合位点”和“间隔区或接头”序列，或附加结构元件，例如但不限于适体、茎环、发夹、趾环(如，3'趾环)或RNA-蛋白募集结构域(如，MS2发夹)。如本文所用，“引物结合位点”包含与从R环的有切口的DNA产生的具有3'端的单链DNA序列杂交的序列。

在某些实施方案中，PEgRNA由图3A所示，显示具有5′延伸臂、间隔区和gRNA核心的PEgRNA。5'延伸在5'至3'方向还包括逆转录酶模板、引物结合位点和接头。如所示，逆转录酶模板也可更广泛地被称为“DNA合成模板”，其中本文所述的引导编辑器的聚合酶不是RT，而是另一类型的聚合酶。

在某些其他实施方案中，PEgRNA由图3B所示，显示具有5′延伸臂、间隔区和gRNA核心的PEgRNA。5'延伸在5'至3'方向还包括逆转录酶模板、引物结合位点和接头。如所示，逆转录酶模板也可更广泛地被称为“DNA合成模板”，其中本文所述的引导编辑器的聚合酶不是RT，而是另一类型的聚合酶。

在其他实施方案中，PEgRNA由图3D所示，显示在5'至3'方向具有间隔区(1)、gRNA核心(2)和延伸臂(3)的PEgRNA。延伸臂(3)位于PEgRNA的3′端。延伸臂(3)在5'至3'方向还包括“引物结合位点”(A)、“编辑模板”(B)和“同源臂”(C)。延伸臂(3)在3'端和5'端还可包含任选的修饰区，可以是相同序列或不同序列。此外，PEgRNA的3'端可包含转录终止子序列。PEgRNA的这些序列元件在本文中进一步描述和定义。

在其他实施方案中，PEgRNA由图3E所示，显示在5'至3'方向具有延伸臂(3)、间隔区(1)和gRNA核心(2)的PEgRNA。延伸臂(3)位于PEgRNA的5'端。延伸臂(3)在5'至3'方向还包括“引物结合位点”(A)、“编辑模板”(B)和“同源臂”(C)。延伸臂(3)在3'端和5'端还可包含任选的修饰区，其可以是相同序列或不同序列。PEgRNA在3'端还可包含转录终止子序列。PEgRNA的这些序列元件在本文中进一步描述和定义。

PE1

如本文所用，“PE1”是指具有以下结构的包含融合蛋白的PE复合物，该融合蛋白包含Cas9(H840A)和野生型MMLV RT：[NLS]-[Cas9(H840A)]-[接头]-[MMLV_RT(wt)]+期望的PEgRNA，其中PE融合物具有SEQ ID NO:123的氨基酸序列，如下所示；

MKRTADGSEFESPKKKRKVDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSTLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFDEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGTAGFCRLWIPGFAEMAAPLYPLTKTGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLPDADHTWYTDGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAEGKKLNVYTDSRYAFATAHIHGEIYRRRGLLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRMADQAARKAAITETPDTSTLLIENSSPSGGSKRTADGSEFEPKKKRKV(SEQID NO:123)

解释：

核定位序列(NLS)开端：(SEQ ID NO:124),末端：(SEQ ID NO:133)

CAS9(H840A)(SEQ ID NO:126)

33-氨基酸接头(SEQ ID NO:127)

M-MLV逆转录酶(SEQ ID NO:128)。

PE2

如本文使用，“PE2”是指具有以下结构的包含融合蛋白的PE复合物，该融合蛋白包含Cas9(H840A)和变体MMLV RT：(NLS)-[(Cas9(H840A)]-[接头]-[MMLV_RT(D200N)(T330P)(L603W)(T306K)(W313F)]+期望的PEgRNA，其中PE融合物具有SEQ ID NO:134的氨基酸序列，如下所示；

MKRTADGSEFESPKKKRKVDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSTLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLPDADHTWYTDGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAEGKKLNVYTDSRYAFATAHIHGEIYRRRGWLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRMADQAARKAAITETPDTSTLLIENSSPSGGSKRTADGSEFEPKKKRKV(SEQID NO:134)

解释:

核定位序列(NLS)开端:(SEQ ID NO:124),末端:(SEQ ID NO:133)

CAS9(H840A)(SEQ ID NO:137)

33-氨基酸接头(SEQ ID NO:127)

M-MLV逆转录酶(SEQ ID NO:139)。

PE3

如本文所用，“PE3”是指PE2加上第二链切口产生性向导RNA，其与PE2复合并在非编辑的DNA链中引入切口以引起编辑链的优先置换。

PE3b

如本文所用，“PE3b”是指PE3但其中第二链切口产生性向导RNA设计用于时序控制，使得直到安装期望编辑之后才引入第二链切口。这通过设计具有间隔区序列的gRNA来实现，该序列仅与编辑链相匹配，而不与原始等位基因相匹配。使用此策略(以下被称为PE3b)，原间隔区和非编辑等位基因之间的错配应当不利于被sgRNA产生切口，直到PAM链上的编辑事件发生之后。

PE-短

如本文所用，“PE-短”是指与C-端截短的逆转录酶融合的PE构建体，具有以下氨基酸序列：

MKRTADGSEFESPKKKRKVDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSTLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDNSRLINSGGSKRTADGSEFEPKKKRKV(SEQ ID NO:765)解释：

核定位序列(NLS)开端：(SEQ ID NO:124),末端：(SEQ ID NO:133)

CAS9(H840A)(SEQ ID NO:157)

33-氨基酸接头1(SEQ ID NO:127)

M-MLV截短的逆转录酶

(SEQ ID NO:766)

肽标签

术语“肽标签”是指与蛋白序列基因融合以赋予蛋白以一种或多种功能的肽氨基酸序列，这些功能有助于出于不同目的对蛋白进行操作，如可视化、纯化、增溶和分离等。肽标签可包括按目的或功能分类的不同类型的标签，其可包括“亲和标签”(促进蛋白纯化)、“增溶标签”(协助蛋白正确折叠)、“色谱标签”(改变蛋白的色谱特性)、“表位标签”(与高亲和力抗体结合)、“荧光标签”(促进细胞中或体外的蛋白可视化)。

聚合酶

如本文所用，术语“聚合酶”是指合成核苷酸链且可与本文所述的引导编辑器系统结合使用的酶。聚合酶可以是“模板依赖性”聚合酶(即，基于模板链的核苷酸碱基顺序合成核苷酸链的聚合酶)。聚合酶还可以是“模板非依赖性”聚合酶(即，不需要模板链就合成核苷酸链的聚合酶)。聚合酶还可进一步分类为“DNA聚合酶”或“RNA聚合酶”。在不同实施方案中，引导编辑器系统包含DNA聚合酶。在不同实施方案中，DNA聚合酶可以是“DNA依赖性DNA聚合酶”(即，由此模板分子是DNA链)。在这种情况下，DNA模板分子可以是PEgRNA，其中延伸臂包含DNA链。在这种情况下，PEgRNA可被称为嵌合或杂合PEgRNA，其包含RNA部分(即，向导RNA组件，包括间隔区和gRNA核心)和DNA部分(即，延伸臂)。在不同的其他实施方案中，DNA聚合酶可以是“RNA依赖性DNA聚合酶”(即，由此模板分子是RNA链)。在这种情况下，PEgRNA是RNA，即包括RNA延伸。术语“聚合酶”还可指催化核苷酸聚合(即，聚合酶活性)的酶。通常，酶将在与多核苷酸模板序列退火的引物(如，与PEgRNA的引物结合位点退火的引物序列)的3'-端开始合成，并将向着模板链的5'端前进。“DNA聚合酶”催化脱氧核苷酸的聚合。如本文关于DNA聚合酶所用，术语DNA聚合酶包括“其功能片段”。“其功能片段”是指野生型或突变型DNA聚合酶的任何部分，其包含少于聚合酶的完整氨基酸序列并在至少一组条件下保留催化多核苷酸聚合的能力。这样的功能片段可作为单独的实体存在，或它可以是较大多肽(如融合蛋白)的组分。

引导编辑

如本文所用，术语“引导编辑”是指使用napDNAbps、聚合酶(如，逆转录酶)和特化向导RNA进行基因编辑的新方法，所述特化向导RNA包括用于编码期望的新遗传信息(或删除遗传信息)的DNA合成模板，所述新遗传信息然后被掺入靶DNA序列中。图1A至1H和图72(a)至72(c)的实施方案中特别描述了引导编辑的某些实施方案。

引导编辑代表了通用且精确的基因组编辑方法的全新基因组编辑平台，其使用与聚合酶(即，以融合蛋白的形式或在其它情况下以与napDNAbp反式提供)一起运行的核酸可编程DNA结合蛋白(“napDNAbp”)将新遗传信息写入规定的DNA位点，其中引导编辑系统利用引导编辑(PE)向导RNA(“PEgRNA”)编程，该PEgRNA通过工程化至向导RNA(如，在向导RNA的5′或3′端或内部部分)的延伸(DNA或RNA)既指定靶位点，又为以置换DNA链的形式合成期望编辑提供模板。含有期望编辑(如，单核碱基取代)的置换链与待编辑的靶位点的内源性链(在切口位点的紧邻下游)共有相同(或同源)的序列(只是它包括期望编辑)。通过DNA修复和/或复制机制，切口位点下游的内源性链被新合成的包含期望编辑的置换链替换。在某些情况下，引导编辑可以认为是“搜索和置换(search-and-replace)”基因组编辑技术，因为本文所述的引导编辑器不仅搜索和定位待编辑的期望的靶位点，而且同时编码被安装而替换相应靶位点内源性DNA链的含有期望编辑的置换链。本公开的引导编辑器部分地涉及以下发现：可利用或调整靶标引发的逆转录(TPRT)或“引导编辑”的机制进行基于CRISPR/Cas的精确基因组编辑，具有高效率和遗传可塑性(如，如图1A至1F的不同实施方案所描绘)。TPRT自然被移动DNA元件所使用，如哺乳动物非LTR逆转录转座子和细菌II组内含子^28,29。本发明人在本文中使用Cas蛋白-逆转录酶融合物或相关系统以利用向导RNA来靶向特定DNA序列，在中靶位点处产生单链切口，并使用有切口的DNA作为引物以进行与向导RNA一起整合的工程化逆转录酶模板的逆转录。然而，虽然该概念始于使用逆转录酶作为DNA聚合酶组件的引导编辑器，但本文所述的引导编辑器不限于逆转录酶，而是可包括使用几乎任何DNA聚合酶。事实上，虽然本申请自始至终都可以涉及具有“逆转录酶”的引导编辑器，但这里提出逆转录酶只是可与引导编辑一起起作用的一种类型DNA聚合酶。因此，无论说明书何处提及“逆转录酶”，本领域普通技术人员都应理解，可使用任何合适的DNA聚合酶代替逆转录酶。因此，一方面，引导编辑器可包含Cas9(或等同的napDNAbp)，其被编程为通过将它与特化向导RNA(即，PEgRNA)缔合而靶向DNA序列，所述特化向导RNA包含与靶DNA中互补的原间隔区退火的间隔区序列。特化向导RNA还包含延伸形式的新遗传信息，该信息编码包含期望的基因变化的DNA置换链，其用于替换靶位点处的相应内源性DNA链。为了将信息从PEgRNA转移到靶DNA，引导编辑机制涉及在DNA的一条链上对靶位点产生切口以暴露3'-羟基。然后，可以使用暴露的3'-羟基对中靶位点中直接引发PEgRNA上编码编辑的延伸的DNA聚合。在不同实施方案中，延伸(其为含有编辑的置换链的聚合提供模板)可由RNA或DNA形成。在RNA延伸的情况下，引导编辑器的聚合酶可以是RNA依赖性DNA聚合酶(如，逆转录酶)。在DNA延伸的情况下，引导编辑器的聚合酶可以是DNA依赖性DNA聚合酶。由本文公开的引导编辑器形成的新合成链(即，含有期望编辑的置换DNA链)除了包含期望的核苷酸变化(如，单核苷酸变化、缺失或插入，或其组合)以外，将与基因组靶序列同源(即，具有相同的序列)。新合成(或置换)的DNA链又被称为单链DNA瓣，它将竞争与互补的同源内源性DNA链的杂交，从而置换相应的内源性链。在某些实施方案中，该系统可与易错逆转录酶的使用组合(如，作为与Cas9结构域的融合蛋白提供，或与Cas9结构域以反式提供)。易错逆转录酶可在单链DNA瓣的合成过程中引入变化。因此，在某些实施方案中，可利用易错逆转录酶将核苷酸变化引入靶DNA。根据与系统一起使用的易错逆转录酶，变化可以是随机的或非随机的。杂交中间体(包括由与内源性DNA链杂交的逆转录酶合成的单链DNA瓣)的分解可包括去除所产生的内源性DNA的置换瓣(如，使用5'端DNA瓣核酸内切酶，FENl)，连接合成的单链DNA瓣与靶DNA，以及由于细胞DNA修复和/或复制过程而导致的期望的核苷酸变化的同化。由于提供模板的DNA合成为任何核苷酸的修饰(包括插入和缺失)提供了单核苷酸精确度，因此这种方法的范围非常广泛，可预见地可以用于基础科学和治疗学中的无数应用。

在不同实施方案中，引导编辑通过将靶DNA分子(期望对其引入核苷酸序列的变化)与同引导编辑向导RNA(PEgRNA)复合的核酸可编程DNA结合蛋白(napDNAbp)接触运行。参考图1G所示，引导编辑向导RNA(PEgRNA)包含在向导RNA的3'或5'端或向导RNA的分子内位置处的延伸，并编码期望的核苷酸变化(如，单核苷酸变化、插入、或缺失)。步骤(a)中，napDNAbp/延伸的gRNA复合物接触DNA分子，并且延伸的gRNA引导napDNAbp与靶因座结合。步骤(b)中，在靶基因座的DNA链之一中引入切口(如，通过核酸酶或化学试剂)，从而在靶基因座的链之一中产生可用的3'端。在某些实施方案中，在对应于R-环链的DNA链(即，未与向导RNA序列杂交的链，即“非靶链”)中产生切口。然而，可在任何一条链中引入切口。换言之，可将切口引入R环“靶链”(即，与延伸的gRNA的原间隔区杂交的链)或“非靶链”(即，形成R环的单链部分的链，其与靶链互补)。步骤(c)中，DNA链的3'端(由切口形成)与向导RNA的延伸部分相互作用以引发逆转录(即“靶物引发的RT”)。在某些实施方案中，3'端DNA链与向导RNA的延伸部分上的特定RT引发序列，即，PEgRNA上的“逆转录酶引发序列”或“引物结合位点”杂交。步骤(d)中，引入逆转录酶(或其他合适的DNA聚合酶)，该酶从引发位点的3'端向着引导编辑向导RNA的5'端合成单链DNA。DNA聚合酶(如，逆转录酶)可与napDNAbp融合，或者备选地可以与napDNAbp以反式提供。这形成了单链DNA瓣，其包含期望的核苷酸变化(如，单碱基变化、插入或缺失或其组合)，并且在其它方面在切口位点处或切口位点附近与内源性DNA同源。步骤(e)中，将napDNAbp和向导RNA释放。步骤(f)和(g)涉及单链DNA瓣的分解，以便将期望的核苷酸变化掺入靶基因座。这可通过去除相应的5'内源性DNA瓣向期望的产物形成驱动该过程，所述5'内源性DNA瓣在3'单链DNA瓣侵入内源DNA序列并且与内源DNA序列杂交后形成。不受理论的束缚，细胞内源性DNA修复和复制过程分解错配的DNA以掺入核苷酸变化来形成期望的改变产物。也可通过“第二链切口产生”向产物形成驱动该过程，如图1F所示。该过程可引入至少一个或多个以下基因变化：颠换、转换、缺失和插入。

术语“引导编辑器(PE)系统”或“引导编辑器(PE)”或“PE系统”或“PE编辑系统”是指使用本文所述靶标引发的逆转录(TPRT)进行基因组编辑方法中涉及的组合物，包括但不限于napDNAbp、逆转录酶、融合蛋白(如，包含napDNAbp和逆转录酶)、引导编辑向导RNA，以及包含融合蛋白和引导编辑向导RNA的复合物，以及辅助元件，例如第二链切口产生性组件(如，第二链sgRNA)和5'内源性DNA瓣去除核酸内切酶(如，FEN1)，用于帮助向着编辑产物形成驱动引导编辑过程。

尽管在迄今为止描述的实施方案中，PEgRNA构成包含向导RNA(其本身包含间隔区序列和gRNA核心或支架)和含有引物结合位点和DNA合成模板的5'或3'延伸臂的单分子(如，参见图3D，PEgRNA也可采用由向导RNA和反式引导编辑器RNA模板(tPERT)组成的两个单独分子的形式，所述反式引导编辑器RNA模板基本上容纳同一分子中的延伸臂(包括特别是引物结合位点和DNA合成结构域)和RNA-蛋白募集结构域(如，MS2适体或发夹)，其共定位或募集到包含tPERT募集蛋白(如，MS2cp蛋白，其与MS2适体结合)的经修饰的引导编辑器复合物。参见图3G和图3H，作为可与引导编辑一起使用的tPERT的示例。

引导编辑器

术语“引导编辑器”是指本文所述融合构建体，其包含napDNAbp(如，Cas9切口酶)和逆转录酶，并且能够在PEgRNA(或“延伸的向导RNA”)存在下对靶核苷酸序列进行引导编辑。术语“引导编辑器”可指融合蛋白或与PEgRNA复合和/或进一步与第二链切口产生性sgRNA复合的融合蛋白。在一些实施方案中，引导编辑器还可指包含融合蛋白(与napDNAbp融合的逆转录酶)、PEgRNA和能够指导非编辑链的第二位点切口产生步骤的常规向导RNA的复合物，如本文所述。在其他实施方案中，“引导编辑器”的逆转录酶组件可以反式提供。

引物结合位点

术语“引物结合位点”或“PBS”是指位于PEgRNA上作为延伸臂组件(通常在延伸臂的3'端)的核苷酸序列，并用于结合由引导编辑器对靶序列的Cas9切口产生后形成的引物序列。如别处详述，当引导编辑器的Cas9切口酶组件对靶DNA序列的一条链产生切口时，形成3′端的ssDNA瓣，其充当与PEgRNA上的引物结合位点退火以引发逆转录的引物序列。图27和图28分别显示位于3'和5'延伸臂上的引物结合位点的实施方案。

启动子

术语“启动子”是本领域公认的，是指具有被细胞转录机制识别并能够启动下游基因转录的序列的核酸分子。启动子可以是组成型活性，意味着该启动子在给定的细胞环境中总是有活性，或者是条件型活性，意味着该启动子仅在存在特定条件时才具有活性。例如，条件型启动子可以仅在将与启动子中的调控元件相关的蛋白与基本转录机制连接起来的特定蛋白存在时才具有活性，或者仅在不存在抑制性分子的情况下才具有活性。条件型活性启动子的一个亚类是诱导型启动子，其需要存在小分子“诱导剂”才有活性。诱导型启动子的实例包括但不限于阿拉伯糖诱导型启动子、Tet-on启动子和他莫昔芬诱导型启动子。各种组成型、条件型和诱导型启动子是本领域技术人员所熟知的，并且本领域技术人员将能够确定用于实施本发明的多种此类启动子，其在这方面不受限制。

原间隔区

如本文所用，术语“原间隔区(protospacer)”是指DNA中与PAM(原间隔区邻近基序)序列相邻的序列(约20bp)。原间隔区与向导RNA的间隔区序列共有相同的序列。向导RNA与靶DNA上的原间隔区的互补序列退火(具体地，其一条链，即靶DNA序列的“靶链”相对于“非靶链”)。为了使Cas9发挥作用，还需要特定的原间隔区邻近基序(PAM)，该基序随Cas9基因的细菌种类而异。源自化脓性链球菌的最常用的Cas9核酸酶识别非靶链上的NGG的PAM序列，该序列直接位于基因组DNA靶序列下游。技术人员会理解，现有技术中的文献有时将“原间隔区”称为向导RNA自身上的约20-nt靶标特异性向导序列，而不是将其称为“间隔区”。因此，在一些情况下，如本文使用的术语“原间隔区”可与术语“间隔区”互换使用。围绕“原间隔区”或“间隔区”出现的说明书上下文将有助于告知读者该术语是指gRNA还是指DNA靶标。

原间隔区邻近基序(PAM)

如本文所用，术语“原间隔区邻近基序”或“PAM”是指作为Cas9核酸酶的重要靶向组件的约2-6个碱基对的DNA序列。通常，PAM序列位于任一链上，并且位于Cas9切割位点5′至3′方向的下游。经典PAM序列(即，与化脓性链球菌的Cas9核酸酶或SpCas9相关的PAM序列)为5′-NGG-3′，其中“N”是任何核碱基，后面有两个鸟嘌呤(“G”)核碱基。不同的PAM序列可与来自不同生物体的不同Cas9核酸酶或等同蛋白相关联。此外，可修饰任何给定的Cas9核酸酶，如SpCas9，以改变核酸酶的PAM特异性，使得核酸酶识别替代的PAM序列。

例如，参考经典SpCas9氨基酸序列为SEQ ID NO:18，PAM序列可通过引入一个或多个突变来修饰，包括(a)D1135V、R1335Q和T1337R“VQR变体”，其改变了PAM对NGAN或NGNG的特异性，(b)D1135E、R1335Q和T1337R“EQR变体”，其改变了PAM对NGAG的特异性，和(c)D1135V、G1218R、R1335E和T1337R“VRR变体”，其改变了PAM对NGCG的特异性。此外，经典SpCas9的D1135E变体仍可识别NGG，但它相比野生型SpCas9蛋白更具选择性。

还应理解来自不同细菌物种的Cas9酶(即，Cas9直系同源物)可具有不同的PAM特异性。例如，来自金黄色葡萄球菌(Staphylococcus aureus)的Cas9(SaCas9)识别NGRRT或NGRRN。此外，来自脑膜炎奈瑟菌(Neisseria meningitis)的Cas9(NmCas)识别NNNNGATT。在另一个示例中，来自嗜热链球菌(Streptococcus thermophilis)的Cas9(StCas9)识别NNAGAAW。在另一个示例中，来自齿状密螺旋体(Treponema denticola)的Cas9(TdCas)识别NAAAAC。这些是示例并不意味着限制。应进一步理解，非SpCas9结合多种PAM序列，这使得它们在期望的靶切割位点不存在合适的SpCas9 PAM序列时有用。此外，非SpCas9可以具有可使它们比SpCas9更有用的其他特征。例如，来自金黄色葡萄球菌的Cas9(SaCas9)比SpCas9小1kb左右，因此它可包装至腺相关病毒(AAV)中。可进一步参考Shah et al.,“Protospacer recognition motifs:mixed identities and functional diversity,”RNA Biology,10(5):891-899(通过引用并入本文)。

重组酶

如本文所用，术语“重组酶”是指介导重组酶识别序列之间的DNA重组从而导致重组酶识别序列之间DNA片段的切除、整合、倒置或交换(如，易位)的位点特异性酶。重组酶可分为两个不同家族：丝氨酸重组酶(如，解离酶和转化酶)和酪氨酸重组酶(如，整合酶)。丝氨酸重组酶的实例包括但不限于Hin、Gin、Tn3、β-6、CinH、ParA、γδ、Bxb1、

TP901、TG1、

R4、

MR11、A118、U153和gp29。酪氨酸重组酶的实例包括但不限于Cre、FLP、R、Lambda、HK101、HK022和pSAM2。丝氨酸和酪氨酸重组酶的名称源于重组酶用来攻击DNA并在链交换过程中与DNA共价连接的保守亲核氨基酸残基。重组酶有许多应用，包括创建基因敲除/敲入和基因治疗应用。参见，例如，Brown et al.,“Serinerecombinases as tools for genome engineering.”Methods.2011；53(4):372-9；Hiranoet al.,“Site-specific recombinases as tools for heterologous geneintegration.”Appl.Microbiol.Biotechnol.2011；92(2):227-39；Chavez and Calos,“Therapeutic applications of theΦC31 integrase system.”Curr.Gene Ther.2011；11(5):375-81；Turan and Bode,“Site-specific recombinases:from tag-and-target-to tag-and-exchange-based genomic modifications.”FASEB J.2011；25(12):4088-107；Venken and Bellen,“Genome-wide manipulations of Drosophila melanogasterwith transposons,Flp recombinase,and ΦC31 integrase.”Methods Mol.Biol.2012；859:203-28；Murphy,“Phage recombinases and their applications.”Adv.VirusRes.2012；83:367-414；Zhang et al.,“Conditional gene manipulation:Cre-ating anew biological era.”J.Zhejiang Univ.Sci.B.2012；13(7):511-24；Karpenshif andBernstein,“From yeast to mammals:recent advances in genetic control ofhomologous recombination.”DNA Repair(Amst).2012；1；11(10):781-8；其各自的全部内容都通过引用以其整体并入本文。本文提供的重组酶并不意味着是可用于本发明实施方案的重组酶的排他性实例。本发明的方法和组合物可通过挖掘新的正交重组酶的数据库或设计具有限定的DNA特异性的合成重组酶来扩展(参见，例如，Groth et al.,“Phageintegrases:biology and applications.”J.Mol.Biol.2004；335,667-678；Gordley etal.,“Synthesis of programmable integrases.”Proc.Natl.Acad.Sci.U S A.2009；106,5053-5058；其各自的全部内容通过引用以其整体并入)。可用于本文所述方法和组合物的重组酶的其他实例是本领域技术人员已知的，并且预期发现或产生的任何新重组酶都能够用于本发明的不同实施方案中。在一些实施方案中，重组酶的催化结构域与核酸酶失活的RNA可编程核酸酶(如，dCas9或其片段)融合，使得重组酶结构域不包含核酸结合结构域或不能结合到靶核酸(如，将重组酶结构域工程化改造为使得其不具有特异性DNA结合活性)。缺乏DNA结合活性的重组酶和其工程化改造方法是已知的，包括描述于Klippel et al.,“Isolation and characterisation of unusual gin mutants.”EMBO J.1988；7:3983–3989:Burke et al.,“Activating mutations of Tn3 resolvase marking interfacesimportant in recombination catalysis and its regulation.Mol Microbiol.2004；51:937–948；Olorunniji et al.,“Synapsis and catalysis by activated Tn3resolvase mutants.”Nucleic Acids Res.2008；36:7181–7191；Rowland et al.,“Regulatory mutations in Sin recombinase support a structure-based model ofthe synaptosome.”Mol Microbiol.2009；74:282–298；Akopian et al.,“Chimericrecombinases with designed DNA sequence recognition.”Proc Natl Acad SciUSA.2003；100:8688–8691；Gordley et al.,“Evolution of programmable zinc finger-recombinases with activity in human cells.J Mol Biol.2007；367:802–813；Gordleyet al.,“Synthesis of programmable integrases.”Proc Natl Acad Sci USA.2009；106:5053–5058；Arnold et al.,“Mutants of Tn3 resolvase which do not requireaccessory binding sites for recombination activity.”EMBO J.1999；18:1407–1414；Gaj et al.,“Structure-guided reprogramming of serine recombinase DNA sequencespecificity.”Proc Natl Acad Sci USA.2011；108(2):498-503；以及Proudfoot et al.,“Zinc finger recombinases with adaptable DNA sequence specificity.”PLoSOne.2011；6(4):e19537的那些；其各自的全部内容通过引用并入。例如，解离酶-转化酶组(如，Tn3和γδ解离酶与Hin和Gin转化酶)中的丝氨酸重组酶具有含有自主催化和DNA结合结构域的模块结构(参见，例如,Grindley et al.,“Mechanism of site-specificrecombination.”Ann Rev Biochem.2006；75:567–605,其全部内容通过引用并入)。因此，如本文所述，这些重组酶的催化结构域易于与核酸酶失活的RNA-可编程核酸酶(如，dCas9或其片段)重组，例如，在分离不需要任何辅助因子(如，DNA结合活性)的“激活”重组酶突变体之后(参见，例如，Klippel et al.,“Isolation and characterisation of unusualgin mutants.”EMBO J.1988；7:3983–3989:Burke et al.,“Activating mutations ofTn3 resolvase marking interfaces important in recombination catalysis and itsregulation.Mol Microbiol.2004；51:937–948；Olorunniji et al.,“Synapsis andcatalysis by activated Tn3 resolvase mutants.”Nucleic Acids Res.2008；36:7181–7191；Rowland et al.,“Regulatory mutations in Sin recombinase support astructure-based model of the synaptosome.”Mol Microbiol.2009；74:282–298；Akopian et al.,“Chimeric recombinases with designed DNA sequencerecognition.”Proc Natl Acad Sci USA.2003；100:8688–8691)。此外，许多其他具有N端催化结构域和C端DNA结合结构域的天然丝氨酸重组酶是已知的(如，phiC31整合酶、TnpX转座酶、IS607转座酶)，并且它们的催化结构域可被共同选择来工程化改造可编程位点特异性重组酶，如本文所述(参见，例如，Smith et al.,“Diversity in the serinerecombinases.”Mol Microbiol.2002；44:299–307，其全部内容通过引用并入)。类似地，酪氨酸重组酶(如，Cre、λ整合酶)的核心催化结构域是已知的，并且可类似地被共同选择来工程化改造可编程位点特异性重组酶，如本文所述(参见，例如，Guo et al.,“Structure ofCre recombinase complexed with DNA in a site-specific recombination synapse.”Nature.1997；389:40–46；Hartung et al.,“Cre mutants with altered DNA bindingproperties.”J Biol Chem 1998；273:22884–22891；Shaikh et al.,“Chimeras of theFlp and Cre recombinases:Tests of the mode of cleavage by Flp and Cre.J MolBiol.2000；302:27–48；Rongrong et al.,“Effect of deletion mutation on therecombination activity of Cre recombinase.”Acta Biochim Pol.2005；52:541–544；Kilbride et al.,“Determinants of product topology in a hybrid Cre-Tn3resolvase site-specific recombination system.”J Mol Biol.2006；355:185–195；Warren et al.,“A chimeric cre recombinase with regulated directionality.”ProcNatl Acad Sci USA.2008 105:18278–18283；Van Duyne,“Teaching Cre to followdirections.”Proc Natl Acad Sci USA.2009Jan 6；106(1):4-5；Numrych et al.,“Acomparison of the effects of single-base and triple-base changes in theintegrase arm-type binding sites on the site-specific recombination ofbacteriophageλ.”Nucleic Acids Res.1990；18:3953–3959；Tirumalai et al.,“Therecognition of core-type DNA sites byλintegrase.”J Mol Biol.1998；279:513–527；Aihara et al.,“A conformational switch controls the DNA cleavage activity ofλintegrase.”Mol Cell.2003；12:187–198；Biswas et al.,“A structural basis forallosteric control of DNA recombination byλintegrase.”Nature.2005；435:1059–1066；以及Warren et al.,“Mutations in the amino-terminal domain ofλ-integrasehave differential effects on integrative and excisive recombination.”MolMicrobiol.2005；55:1104–1112；其各自的全部内容通过引用并入)。

重组酶识别序列

如本文所用，术语“重组酶识别序列”或等同地“RRS”或“重组酶靶序列”是指如下的核苷酸序列靶标，其由重组酶识别，并且与具有RRS的另一DNA分子进行链交换，从而导致重组酶识别序列之间的DNA片段切除、整合、倒置或交换。

重组

在核酸修饰(如，基因组修饰)的背景中，术语“重组”用于指两个或多个核酸分子，或单个核酸分子的两个或多个区域通过重组酶蛋白(如，本文提供的本发明的重组酶融合蛋白)的作用修饰的过程。重组尤其可导致例如在一个或多个核酸分子重组酶识别序列之中或之间，核酸的插入、倒置、切除或易位。

逆转录酶

术语“逆转录酶”描述了表征为RNA依赖性DNA聚合酶的一类聚合酶。所有已知的逆转录酶都需要引物才能从RNA模板合成DNA转录本。历史上，逆转录酶主要用于将mRNA转录成cDNA，然后可将其克隆到载体中进行进一步操作。禽类成肌细胞增多(myoblastosis)病毒(AMV)逆转录酶是首次广泛使用的RNA依赖性DNA聚合酶(Verma，Biochim.Biophys.Acta473：1(1977))。该酶具有5′至3′RNA引导的DNA聚合酶活性、5′至3′DNA引导的DNA聚合酶活性和RNase H活性。RNase H是对用于RNA-DNA杂合体的RNA链特异的持续性5′和3′核糖核酸酶(Perbal,A Practical Guide to Molecular Cloning,NewYork:Wiley&Sons(1984))。逆转录酶不能校正转录中的错误，因为已知的病毒逆转录酶缺乏校对所必需的3′至5′核酸外切酶活性(Saunders and Saunders,Microbial GeneticsApplied to Biotechnology,London:Croom Helm(1987))。AMV逆转录酶活性及其相关RNase H活性的详细研究由Berger et al.,Biochemistry 22:2365-2372(1983)提供。另一种广泛用于分子生物学的逆转录酶是源自莫洛尼(Moloney)鼠白血病病毒(M-MLV)的逆转录酶。参见，例如，Gerard,G.R.,DNA 5:271-279(1986)和Kotewicz,M.L.,et al.,Gene 35:249-258(1985)。还描述了基本上缺乏RNase H活性的M-MLV逆转录酶。参见，例如，美国专利号5,244,797。本发明考虑使用任何此类逆转录酶，或其变体或突变体。

此外，本发明考虑使用易错的逆转录酶，即，其可称为易错逆转录酶或聚合过程中不支持高保真核苷酸掺入的逆转录酶。在与向导RNA一起整合的基于RT模板的单链DNA瓣合成过程中，易错逆转录酶可引入一个或多个与RT模板序列错配的核苷酸，从而通过单链DNA瓣的错误聚合向核苷酸序列引入变化。这些在单链DNA瓣合成过程中引入的错误然后如下整合至双链分子：与相应的内源性靶链杂交、去除内源性置换链、连接，然后再通过一轮内源性DNA修复和/或测序过程。

逆转录

如本文所用，术语“逆转录”表示酶使用RNA作为模板合成DNA链(即，互补DNA或cDNA)的能力。在一些实施方案中，逆转录可以是“易错逆转录”，其指某些逆转录酶在其DNA聚合活性中易错的特性。

PACE

如本文所用，术语“噬菌体辅助连续进化(PACE)”是指采用噬菌体作为病毒载体的连续进化。PACE技术的一般概念已在例如2009年9月8日提交的国际PCT申请PCT/US2009/056194，2010年3月11日以WO2010/028347公布；2011年12月22日提交的国际PCT申请PCT/US2011/066747，2012年6月28日以WO2012/088381公布；美国申请，于2015年5月5日授权的美国专利号9,023,594；于2015年1月20日提交的国际PCT申请PCT/US2015/012022，2015年9月11日以WO2015/134121公布；以及于2015年1月20日提交的国际PCT申请PCT/US2015/012022，2016年10月20日以WO2016/168631公布，其各自的全部内容通过引用并入本文。

噬菌体

如本文使用，可与术语“细菌噬菌体”互换使用的术语“噬菌体”，是指感染细菌细胞的病毒。通常，噬菌体由包裹遗传物质的外部蛋白衣壳组成。遗传物质可以是线性或环状形式的ssRNA、dsRNA、ssDNA或dsDNA。噬菌体和噬菌体载体是本领域技术人员所熟知的，并且可用于实施本文提供的PACE方法的噬菌体的非限制性示例是λ(溶素原)、T2、T4、T7、T12、R17、M13、MS2、G4、P1、P2、P4、PhiX174、N4、Φ6和Φ29。在某些实施方案中，本发明中使用的噬菌体是M13。其他合适的噬菌体和宿主细胞对本领域技术人员而言是显而易见的，并且本发明在这方面不受限制。有关其他合适的噬菌体和宿主细胞的示例性描述，参见ElizabethKutter and Alexander Sulakvelidze:Bacteriophages:Biology and Applications.CRCPress；1st edition(December 2004),ISBN:0849313368；Martha R.J.Clokie and AndrewM.Kropinski:Bacteriophages:Methods and Protocols,Volume 1:Isolation,Characterization,and Interactions(Methods in Molecular Biology)Humana Press；1st edition(December,2008),ISBN:1588296822；Martha R.J.Clokie and AndrewM.Kropinski:Bacteriophages:Methods and Protocols,Volume 2:Molecular andApplied Aspects(Methods in Molecular Biology)Humana Press；1st edition(December 2008),ISBN:1603275649；为了公开合适的噬菌体和宿主细胞以及用于分离、培养和操作此类噬菌体的方法和方案，所有这些均通过引用以其整体并入本文)。

蛋白、肽和多肽

术语“蛋白”、“肽”和“多肽”在本文中可互换使用，是指通过肽(酰胺)键连接在一起的氨基酸残基的聚合物。这些术语是指任何大小、结构或功能的蛋白、肽或多肽。通常，蛋白、肽或多肽的长度为至少3个氨基酸。蛋白、肽或多肽可指单个的蛋白或蛋白的集合。可修饰蛋白、肽或多肽中的一个或多个氨基酸，例如，通过添加化学实体如碳水化合物基团、羟基、磷酸基、法尼基、异法尼基、脂肪酸基团、用于缀合、功能化或其他修饰的接头等。蛋白、肽或多肽也可以是单分子或可以是多分子复合物。蛋白、肽或多肽可以只是天然存在的蛋白或肽的片段。蛋白、肽或多肽可以是天然存在的、重组的或合成的，或其任何组合。本文提供的任何蛋白可通过本领域已知的任何方法产生。例如，本文提供的蛋白可通过重组蛋白表达和纯化产生，这尤其适用于包含肽接头的融合蛋白。重组蛋白表达和纯化的方法是众所周知的，包括Green and Sambrook,Molecular Cloning:A Laboratory Manual(4thed.,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.(2012))中描述的那些，其全部内容其通过引用并入本文。

蛋白剪接

如本文所用，术语“蛋白剪接”是指从氨基酸序列内切除序列、内含肽(或断裂内含肽，视情况而定)，并且氨基酸序列的剩余片段外显肽通过酰胺键连接形成连续的氨基酸序列的过程。术语“反式”蛋白剪接是指内含肽是断裂内含肽并且它们位于不同蛋白上的特定情况。

第二链切口产生

作为引导编辑的结果形成的异源双链体DNA(即，包含一条编辑链和一条非编辑链)的分解决定了长期编辑结果。换言之，引导编辑的目标是通过将编辑链永久整合到互补的内源性链中来分解作为PE中间体形成的异源双链体DNA(编辑链与内源性非编辑链配对)。“第二链切口产生”的方法可在本文中用于帮助驱动异源双链体DNA的分解，以有利于编辑链永久整合到DNA分子中。如本文所用，“第二链切口产生”的概念是指在第一切口下游的位置引入第二切口(即，提供游离3'端的初始切口位点，用于在向导RNA的延伸部分上引发逆转录酶)，优选在未编辑链上。在某些实施方案中，第一切口和第二切口位于相反链上。在其他实施方案中，第一切口和第二切口位于相反链上。在又一实施方案中，第一切口位于非靶链上(即，形成R环的单链部分的链)，并且第二切口位于靶链上。在其他实施方案中，第一切口位于编辑链上，并且第二切口位于非编辑链上。第二切口可位于第一切口下游至少5个核苷酸处，或第一切口下游至少6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、40、50、60、70、80、90、100、110、120、130、140或150个或更多个核苷酸处。在某些实施方案中，可在非编辑链上远离PEgRNA诱导的切口位点约5至150个核苷酸之间、或约5至140个之间、或约5至130个之间、或约5至120个之间、或约5至110个之间、或约5至100个之间、或约5至90个之间、或约5至80个之间、或约5至70个之间、或约5至60个之间、或约5至50个之间、或约5至40个之间、或约5至30个之间、或约5至20个之间、或约5至10个之间引入第二切口。在一个实施方案中，在远离PEgRNA诱导的切口14至116个核苷酸之间引入第二切口。不受理论的束缚，第二切口诱导细胞的内源性DNA修复和复制过程向着未编辑链置换或编辑，从而在两条链上永久安装编辑序列并分解由于PE形成的异源双链体。在一些实施方案中，编辑链是非靶链，并且未编辑链是靶链。在其他实施方案中，编辑链是靶链，并且未编辑链是非靶链。

有义链

在遗传学中，“有义”链是双链DNA中从5'至3'延伸，并且与DNA从3'至5'延伸的反义链或模板链互补的片段。在编码蛋白的DNA片段的情况下，有义链是与mRNA具有相同序列的DNA链，其在转录过程中以反义链为模板，并最终经历(通常，并非总是)翻译成蛋白。因此，反义链负责生成后来翻译成蛋白的RNA，而有义链具有与mRNA几乎相同的组成。注意，对于dsDNA的每个区段，可能会有两组有义和反义，这取决于读取的方向(因为有义和反义是相对于视角而言的)。最终规定dsDNA片段的哪条链被称为有义或反义的是基因产物或mRNA。

在PEgRNA的情况下，第一步是离开PEgRNA延伸臂作为模板的以5'至3'方向定向的单链互补DNA(即，被掺入的3′ssDNA瓣)的合成。3′ssDNA瓣应当被视为有义链还是反义链取决于转录的方向，因为公认两条DNA链都可充当转录的模板(但不能同时)。因此，在一些实施方案中，3′ssDNA瓣(其总体上沿5'至3'方向延伸)将充当有义链，因为其是编码链。在其他实施方案中，3'ssDNA瓣(其总体上沿5'至3'方向延伸)将充当反义链，并因此作为转录模板。

间隔区序列

如本文所用，与向导RNA或PEgRNA相关的术语“间隔区序列”是指向导RNA或PEgRNA的约20个核苷酸的部分，其包含与靶DNA序列中原间隔区互补的核苷酸序列。间隔区序列与原间隔区退火以在靶位点处形成ssRNA/ssDNA杂合体结构和与原间隔区互补的内源性DNA链的相应R环ssDNA结构。

受试者

如本文所用，术语“受试者”是指个体生物体，如个体哺乳动物。在一些实施方案中，受试者是人。在一些实施方案中，受试者是非人类哺乳动物。在一些实施方案中，受试者是非人灵长类动物。在一些实施方案中，受试者是啮齿动物。在一些实施方案中，受试者是绵羊、山羊、牛、猫或狗。在一些实施方案中，受试者是脊椎动物、两栖动物、爬行动物、鱼、昆虫、苍蝇或线虫。在一些实施方案中，受试者是研究动物。在一些实施方案中，受试者是基因工程化的，例如基因工程化的非人类受试者。受试者可以是任何性别，也可以处于任何发育阶段。

断裂内含肽

尽管最常发现内含肽为连续结构域，但有些以自然断裂形式存在。在这种情况下，这两个片段作为单独的多肽表达，并且必须在剪接发生之前缔合，即所谓的蛋白反式剪接。

示例性断裂内含肽是Ssp DnaE内含肽，其包含两个亚基，即DnaE-N和DnaE-C。这两个不同的亚基由不同的基因编码，即dnaE-n和dnaE-c，分别编码DnaE-N和DnaE-C亚基。DnaE是天然存在于集胞藻属种(Synechocytis sp.)PCC6803的断裂内含肽，且能够指导两种不同蛋白的反式剪接，每种蛋白都包含与DnaE-N或DnaE-C的融合物。

其他天然存在或工程化的断裂内含肽序列是本领域已知的或可由本文所述完整内含肽序列或本领域可获得的那些制备。断裂内含肽序列的示例可见于Stevens et al.,“A promiscuous split intein with expanded protein engineering applications,”PNAS,2017,Vol.114:8538-8543；Iwai et al.,“Highly efficient protein trans-splicing by a naturally split DnaE intein from Nostc punctiforme,FEBS Lett,580:1853-1858，其各自通过引用并入本文。其他断裂内含肽序列可见于例如WO2013/045632、WO2014/055782、WO2016/069774和EP2877490，其各自的内容通过引用并入本文。

此外，已在体内和体外描述了反式蛋白剪接(Shingledecker,et al.,Gene 207:187(1998),Southworth,et al.,EMBO J.17:918(1998)；Mills,et al.,Proc.Natl.Acad.Sci.USA,95:3543-3548(1998)；Lew,et al.,J.Biol.Chem.,273:15887-15890(1998)；Wu,et al.,Biochim.Biophys.Acta 35732:1(1998b),Yamazaki,et al.,J.Am.Chem.Soc.120:5591(1998),Evans,et al.,J.Biol.Chem.275:9091(2000)；Otomo,etal.,Biochemistry 38:16040-16044(1999)；Otomo,et al.,J.Biolmol.NMR 14:105-114(1999)；Scott,et al.,Proc.Natl.Acad.Sci.USA 96:13638-13643(1999))，并提供了关于随后经历连接以形成功能性产物的两个无活性片段表达蛋白的机会，例如，如图66和图67关于从两个单独表达的半部形成完整的PE融合蛋白所示。

靶位点

术语“靶位点”是指由本文公开的引导编辑器(PE)编辑的核酸分子内的序列。靶位点还指核酸分子内与引导编辑器(PE)和gRNA的复合物结合的序列。

tPERT

参见“反式引导编辑器RNA模板(tPERT)”的定义。

时序第二链切口产生

如本文所用，术语“时序第二链切口产生”是指第二链切口产生的变体，由此在未编辑链中安装第二切口仅在编辑链中安装期望编辑之后发生。这避免了在两条链上同时出现切口，这可导致双链DNA断裂。将第二链切口产生性向导RNA设计用于时序控制，以便在安装期望编辑之后才引入第二链切口。这是通过设计具有间隔区序列的gRNA来实现的，该间隔区序列仅与编辑链相匹配，而不与原始等位基因相匹配。使用这种策略，原间隔区和未编辑等位基因之间的错配应当不利于被sgRNA产生切口，直到PAM链上的编辑事件发生之后。

反式引导编辑

如本文所用，术语“反式引导编辑”是指利用断裂型PEgRNA的引导编辑的修饰形式，即，其中将PEgRNA分成两个单独的分子：sgRNA和反式引导编辑RNA模板(tPERT)。sgRNA用于将引导编辑器靶向(或更一般地，将引导编辑器的napDNAbp组件靶向)到期望的基因组靶位点，而一旦通过位于引导编辑器和tPERT上的结合结构域的相互作用将tPERT以反式募集至引导编辑器，tPERT由聚合酶(如，逆转录酶)用于将新的DNA序列写入靶基因座。在一个实施方案中，结合结构域可包括RNA-蛋白募集部分，例如位于tPERT上的MS2适体和融合至引导编辑器的MS2cp蛋白。反式引导编辑的优点是，通过将DNA合成模板与向导RNA分开，可潜在使用更长长度的模板。

反式引导编辑的实施方案显示在图3G和图3H中。图3G左侧示出反式引导编辑器复合物(“RP-PE:gRNA复合物”)的组分，其包含与聚合酶(如，逆转录酶)和rPERT募集蛋白(如，MS2sc)中的每一个融合的napDNAbp，并与向导RNA复合。图3G还示出单独的tPERT分子，其包含PEgRNA的延伸臂特征，包括DNA合成模板和引物结合序列。tPERT分子还包括RNA-蛋白募集结构域(在这种情况下，其为茎环结构，可以是例如MS2适体)。如图3H中描述的过程所示，RP-PE:gRNA复合物结合靶DNA序列并对靶DNA序列产生切口。然后，募集蛋白(RP)募集tPERT以共定位至与DNA靶位点结合的引导编辑复合物，从而使引物结合位点与切口链上的引物序列结合，随后，允许聚合酶(如，RT)针对DNA合成模板合成DNA单链直到tPERT的5′。

虽然图3G和图3H中示出tPERT在RNA-蛋白募集结构域的5'端包含PBS和DNA合成模板，但是其他配置中的tPERT可设计为具有位于RNA-蛋白募集结构域的3'端的PBS和DNA合成模板。然而，具有5'延伸的tPERT的优点是DNA单链的合成将在tPERT的5'端自然终止，因此在引导编辑的DNA合成阶段期间不会有使用RNA-蛋白募集结构域的任何部分作为模板的风险。

反式引导编辑器RNA模板(tPERT)

如本文所用，“反式引导编辑器RNA模板(tPERT)”是指用于反式引导编辑的组件，所述反式引导编辑是通过将PEgRNA分成两个不同的分子(向导RNA和tPERT分子)来运行的引导编辑的修饰版本。将tPERT分子编程为在靶DNA位点处与引导编辑器复合物共定位，从而将引物结合位点和DNA合成模板以反式带到引导编辑器。例如，参见图3G，用于反式引导编辑器(tPE)的实施方案，其示出双组件系统，其包含(1)RP-PE:gRNA复合物和(2)包含引物结合位点和连接到RNA-蛋白募集结构域的DNA合成模板的tPERT，其中RP-PE:gRNA复合物的RP(募集蛋白)组件将tPERT募集至待编辑的靶位点，从而将PBS和DNA合成模板与引导编辑器反式缔合。换言之，将tPERT工程化改造为包含(全部或部分)PEgRNA的延伸臂，其包括引物结合位点和DNA合成模板。

转换

如本文所用，“转换”是指嘌呤核碱基的互换

或嘧啶核碱基的互换

这类互换涉及相似形状的核碱基。本文公开的组合物和方法能够诱导靶DNA分子中的一种或多种转换。本文公开的组合物和方法还能够在同一靶DNA分子中诱导转换和颠换。这些变化涉及

或

在具有Watson-Crick配对核碱基的双链DNA的情况下，颠换是指以下碱基对交换：

或

本文公开的组合物和方法能够诱导靶DNA分子中的一个或多个转换。本文公开的组合物和方法还能够诱导同一靶DNA分子中的转换和颠换，以及其他核苷酸变化，包括缺失和插入。

颠换

如本文所用，“颠换”是指嘌呤核碱基与嘧啶核碱基的互换，或相反，因此涉及具有不相似形状的核碱基的互换。这些变化涉及

和

在具有Watson-Crick配对核酸碱基的双链DNA的情况下，颠换是指以下碱基对交换：

和

本文公开的组合物和方法能够诱导靶DNA分子中的一个或多个颠换。本文公开的组合物和方法还能够诱导同一靶DNA分子中的转换和颠换两者，以及其他核苷酸变化，包括缺失和插入。

治疗

术语“治疗”是指旨在对如本文所述疾病或病症或其一种或多种症状进行逆转、减轻、延迟发作或抑制进展的临床干预。如本文所用，术语“治疗”是指旨在对如本文所述疾病或病症或其一种或多种症状进行逆转、减轻、延迟发作或抑制进展的临床干预。在一些实施方案中，可在一种或多种症状出现后和/或疾病被诊断后进行治疗。在其他实施方案中，可在没有症状的情况下进行治疗，例如以预防或延迟症状的发作或抑制疾病的发作或进展。例如，可在症状出现之前对易感个体进行治疗(如，根据症状史和/或根据遗传或其他易感因素)。在症状消退后也可继续治疗，例如，以防止或延迟其复发。

三核苷酸重复病症

如本文所用，“三核苷酸重复病症”(或者，“扩增重复病症”或“重复扩增病症”)是指由“三核苷酸重复扩增”引起的一组遗传病症，其是某些基因或内含子中某些三核苷酸重复的一种突变。曾经认为三核苷酸重复是基因组中常见的重复，但在20世纪90年代澄清了这些病症。这些明显“良性”的DNA段有时会扩增并导致疾病。三核苷酸重复扩增引起的病症共有几个限定的特征。首先，突变重复显示体细胞和种系的不稳定性两者，而且更常见地，它们在连续传播中扩增而不是缩减。其次，较早的发病年龄和后代(预期)中表型的严重程度增加通常与较大的重复长度相关。最后，疾病等位基因的亲本起源通常会影响预期，对于这些病症中的许多种，父系传播具有更大的扩增风险。

认为三联体扩增是由DNA复制过程中的滑移引起的。由于这些区域中DNA序列的重复性质，可能在保持母链和正在合成的子链之间的互补碱基配对的情况下在DNA复制过程中形成“环出(loop out)”结构。如果环出结构是由子链上的序列形成的，这将导致重复数增加。但是，如果在母链上形成环出结构，则发生重复数减少。这些重复的扩增似乎比减少更常见。一般地，扩增越多，它们就越有可能引起疾病或增加疾病的严重性。此特性导致在三核苷酸重复病症中看到预期的特征。预期描述了由于这些重复的扩增，经由受影响家庭的连续几代，发病年龄减小和症状严重程度增加的趋势。

核苷酸重复病症可包括其中三联体重复出现在非编码区(即，非编码三核苷酸重复病症)或编码区中的那些。

本文所述的引导编辑器(PE)系统可用于治疗核苷酸重复病症，其可包括脆性X综合征(FRAXA)、脆性XE MR(FRAXE)、弗里德赖希氏共济失调(FRDA)、肌强直性营养不良(DM)、脊髓小脑共济失调8型(SCA8)和脊髓小脑共济失调12型(SCA12)等。

上游

如本文所用，术语“上游”和“下游”是相对性术语，其定义了位于以5'至3′方向定向的核酸分子(无论是单链还是双链)中的至少两个元件的线性位置。特别地，在第一元件位于第二元件5'的某处的核酸分子中，第一元件在第二元件的上游。例如，如果SNP位于切口位点的5'侧，则SNP位于Cas9诱导的切口位点的上游。相反，在第一元件位于第二元件3'的某处的核酸分子中，第一元件位于第二元件的下游。例如，如果SNP位于切口位点的3'侧，则SNP位于Cas9诱导的切口位点的下游。核酸分子可以是DNA(双链或单链)，RNA(双链或单链)，或DNA和RNA的杂合体。单链核酸分子和双链分子的分析相同，因为术语上游和下游仅参考核酸分子的单链，只是需要选择双链分子的哪条链来考虑。通常，可用于确定至少两个元件的位置相对性的双链DNA的链是“有义”或“编码”链。在遗传学中，“有义”链是双链DNA中从5'至3'延伸的片段，其与DNA的反义链或模板链(其从3'至5'延伸)互补。因此，例如，如果SNP核碱基在有义链或编码链上启动子的3'侧，则SNP核碱基位于基因组DNA(其是双链)中启动子序列的“下游”。

变体

如本文所用，术语“变体”应被理解指表现出具有与自然界发生的模式偏离的模式的特性，例如，与野生型Cas9氨基酸序列相比，变体Cas9是包含一个或多个氨基酸残基变化的Cas9。术语“变体”包括如下的同源蛋白，其与参考序列具有至少75％、或至少80％、或至少85％、或至少90％、或至少95％、或至少99％百分比同一性，并且具有与参考序列相同或基本相同的功能活性。该术语还包括参考序列的突变体、截短或结构域，并且显示与参考序列相同或基本相同的一个或多个功能活性。

载体

如本文所用，术语“载体”是指可经修饰以编码感兴趣基因并且能够进入宿主细胞，在宿主细胞内发生突变和复制，然后转移复制形式的载体进入另一宿主细胞的核酸。示例性的合适载体包括病毒载体，例如逆转录病毒载体或噬菌体和丝状噬菌体，以及接合质粒。基于本公开，其他合适的载体对本领域技术人员而言将是显而易见的。

野生型

如本文所用，术语“野生型”是技术人员理解的本领域术语并且意指如其在自然界中存在的典型形式的生物体、菌株、基因或特征，与突变体或变体形式不同。

5'内源性DNA瓣

如本文所用，术语“5'内源性DNA瓣”是指位于靶DNA中紧邻PE诱导切口位点下游的DNA链。由PE对靶DNA链产生切口暴露切口位点上游侧的3'羟基和切口位点下游侧的5'羟基。以3'羟基结尾的内源性链用于引发引导编辑器的DNA聚合酶(如，其中DNA聚合酶是逆转录酶)。在切口位点下游侧且以暴露的5'羟基开始的内源性链称为“5'内源性DNA瓣”，最终被去除并被由PEgRNA的延伸编码的新合成的置换链(即，“3'置换DNA瓣”)置换。

5'内源性DNA瓣去除

如本文所用，术语“5'内源性DNA瓣去除”或“5'瓣去除”是指当RT合成的单链DNA瓣竞争性侵入内源性DNA并与内源性DNA杂交，在此过程中置换内源性链时形成的5'内源性DNA瓣的去除。去除这种内源性置换链可驱动反应向着形成包含期望的核苷酸变化的期望产物。细胞自身的DNA修复酶可催化5'内源性瓣的去除或切除(如，瓣核酸内切酶，如EXO1或FEN1)。也可转化宿主细胞以表达催化去除所述5'内源性瓣，从而驱动过程向着产物形成的一种或多种酶(如，瓣核酸内切酶)。瓣核酸内切酶是本领域已知的，可见于且描述于Patelet al.,“Flap endonucleases pass 5′-flaps through a flexible arch using adisorder-thread-order mechanism to confer specificity for free 5′-ends,”Nucleic Acids Research,2012,40(10):4507-4519，以及Tsutakawa et al.,“Human flapendonuclease structures,DNA double-base flipping,and a unified understandingof the FEN1 superfamily,”Cell,2011,145(2):198-211(各自都通过引用并入本文)。

3'置换DNA瓣

如本文所用，术语“3'置换DNA瓣”或简称为“置换DNA瓣”是指由引导编辑器合成并由引导编辑器PEgRNA的延伸臂编码的DNA链。更具体地，3'置换DNA瓣由PEgRNA的聚合酶模板编码。3’置换DNA瓣包含与5’内源性DNA瓣相同的序列，只是其还包含编辑序列(如，单核苷酸变化)。3’置换DNA瓣与靶DNA退火，置换或替换5’内源性DNA瓣(如，可通过5’瓣核酸内切酶如FEN1或EXO1切除)，然后连接以联结3’置换DNA瓣的3’端与内源性DNA的暴露的5’羟基端(在切除5’内源性DNA瓣后暴露，从而重新形成磷酸二酯键并安装3’置换DNA瓣以形成异源双链体DNA，其包含一条编辑链和一条未编辑链。DNA修复过程通过将编辑链中的信息复制到互补链来分解异源双链体，从而将编辑永久安装到DNA中。此分解过程可通过对未编辑链产生切口进一步驱动，即，通过“第二链切口产生”，如本文所述。

某些实施方案的详细描述

采用成簇规律间隔短回文重复序列(CRISPR)系统进行基因组编辑已经彻底改变了生命科学^1-3。尽管使用CRISPR进行基因破坏现已成为常规，但单核苷酸编辑的精确安装仍然是重大挑战，尽管对于研究或校正大量致病性突变是必要的。同源定向修复(HDR)能够实现此类编辑，但遭受效率低下(通常<5％)，供体DNA修复模板的需要以及双链DNA断裂(DSB)形成的有害影响。最近，David Liu教授等的实验室开发了碱基编辑，无需DSB即可实现高效的单核苷酸编辑。碱基编辑器(BE)将CRISPR系统与碱基修饰性脱氨酶结合，将靶C·G或A·T碱基对分别转换为A·T或G·C^4–6。尽管已被全世界的研究人员广泛使用，但当前的BE仅实现12种可能的碱基对转换中的4种，并且无法校正小的插入或缺失。此外，碱基编辑的靶向范围受到与靶碱基相邻的非靶C或A碱基的编辑(“旁观者编辑”)以及受到PAM序列存在于距靶碱基15±2bp的要求的限制。因此，克服这些限制将大大拓宽基因组编辑的基础研究和治疗应用。

本公开提出了新的精确编辑方法，该方法提供了碱基编辑的许多益处——即避免双链断裂和供体DNA修复模板——而克服其主要限制。本文所提出的方法使用靶标引发的逆转录(TPRT)在靶基因组位点处直接安装编辑的DNA链。在本文讨论的设计中，将CRISPR向导RNA(gRNA)工程化改造为携带逆转录酶(RT)模板序列，该序列编码包含期望的核苷酸变化的单链DNA。CRISPR核酸酶(Cas9)产生切口的靶位点DNA将充当经修饰的gRNA上模板序列逆转录的引物，允许直接掺入任何期望的核苷酸编辑。

因此，本发明部分地涉及以下发现：可利用或调整靶标引发的逆转录(TPRT)的机制进行基于CRISPR/Cas的精确基因组编辑，具有高效率和遗传可塑性(例如如图1A-1F的不同实施方案所描绘)。本发明人在本文中提出使用Cas蛋白-逆转录酶融合物来靶向具有经修饰的向导RNA(“延伸的向导RNA”)的特定DNA序列，在靶位点处产生单链切口，并使用有切口的DNA作为已整合到延伸的向导RNA中的工程化逆转录酶模板的逆转录引物。除了包含期望的核苷酸变化(如，单核苷酸变化、缺失或插入，或其组合)外，新合成的链将与基因组靶序列同源。新合成的DNA链可被称为单链DNA瓣，其将与互补的同源内源性DNA链竞争杂交，从而置换相应的内源性链。这种杂合中间体的分解可包括去除由此产生的内源性DNA的置换瓣(如，使用5'端DNA瓣核酸内切酶，FEN1)，将合成的单链DNA瓣连接到靶DNA，以及由于细胞DNA修复和/或复制过程导致期望的核苷酸变化的同化。由于提供模板的DNA合成提供单核苷酸精确度，因此这种方法的范围非常广泛，可预见地用于基础科学和治疗学中的无数应用。

[1]napDNAbp

本文所述的引导编辑器和反式引导编辑器可包含核酸可编程DNA结合蛋白(napDNAbp)。

一方面，napDNAbp可与至少一个向导核酸(如，向导RNA或PEgRNA)结合或复合，所述向导核酸将napDNAbp定位于包含与向导核酸或其一部分(如，与DNA靶的原间隔区退火的向导RNA的间隔区)互补的DNA链(即，靶链)的DNA序列。换言之，向导核酸“编程”napDNAbp(如，Cas9或等同物)以定位并结合到DNA中的原间隔区的互补序列。

可将任何合适的napDNAbp用于本文所述的引导编辑器中。在不同实施方案中，napDNAbp可以是任何2类CRISPR-Cas系统，包括任何II型、V型或VI型CRISPR-Cas酶。鉴于CRISPR-Cas作为基因组编辑工具的快速发展，用于描述和/或鉴定CRISPR-Cas酶的命名法一直在不断发展，例如Cas9和Cas9直系同源物。本申请参考可能是旧的和/或新的CRISPR-Cas酶命名法。本领域技术人员将能够基于所使用的命名法(无论它是旧(即“遗留”)的命名法还是新的命名法)来确定在本申请中提及的特定CRISPR-Cas酶。CRISPR-Cas命名法广泛讨论于Makarova et al.,“Classification and Nomenclature of CRISPR-Cas Systems:Where from Here？,”The CRISPR Journal,Vol.1.No.5,2018，其全部内容通过引用并入本文。在本申请的任何给定实例中使用的特定CRISPR-Cas命名法不以任何方式限制，并且本领域技术人员将能够确定所引用的是哪种CRISPR-Cas酶。

例如，以下II型、V型和VI型2类CRISPR-Cas酶具有以下本领域公认的旧(即，旧有)和新的名称。这些酶中的每一种和/或其变体可与本文所述的引导编辑器一起使用：

*参见Makarova et al.,The CRISPR Journal,Vol.1,No.5,2018

不受理论的束缚，本文考虑的某些napDNAbp的作用机制包括形成R-环的步骤，由此napDNAbp诱导双链DNA靶的解旋，从而分离由napDNAbp结合的区域中的链。然后，向导RNA间隔区与原间隔区处的“靶链”杂交。这置换了与靶链互补的“非靶链”，这形成了R环的单链区域。在一些实施方案中，napDNAbp包括一种或多种核酸酶活性，其切割DNA，留下不同类型的损伤。例如，napDNAbp可包含在第一位置处切割非靶链和/或在第二位置处切割靶链的核酸酶活性。根据核酸酶活性，可切割靶DNA以形成“双链断裂”，从而切割两条链。在其他实施方案中，可仅在单个位点处切割靶DNA，即在一条链上对DNA“产生切口”。具有不同核酸酶活性的示例性napDNAbp包括“Cas9切口酶”(“nCas9”)和没有核酸酶活性的失活Cas9(“死亡Cas9”或“dCas9”)。

可与目前公开的引导编辑器结合使用的各种napDNAbps的以下描述并不意味着以任何方式进行限制。引导编辑器可包括经典SpCas9，或任何直系同源Cas9蛋白，或任何变体Cas9蛋白——包括任何天然存在的Cas9变体、突变体或其他工程化版本——其是已知的或可通过定向进化或其他诱变过程制备或进化。在不同实施方案中，Cas9或Cas9变体具有切口酶活性，即仅切割靶DNA序列的链。在其他实施方案中，Cas9或Cas9变体具有无活性的核酸酶，即“死亡”Cas9蛋白。可使用的其他变体Cas9蛋白是具有比经典SpCas9更小的分子量(如，为了更容易递送)或具有经修饰或重排的一级氨基酸结构(如，环状排列形式)的那些。

本文所述的引导编辑器还可包含Cas9等同物，包括Cas12a(Cpfl)和Cas12b1蛋白，其是趋同进化的结果。本文使用的napDNAbps(如，SpCas9、Cas9变体或Cas9等同物)还可包含改变/增强其PAM特异性的各种修饰。最后，本申请考虑与参考Cas9序列(如，参考SpCas9经典序列或参考Cas9等同物(如，Cas12a(Cpf1)))具有至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.9％序列同一性的任何Cas9、Cas9变体或Cas9等同物。

napDNAbp可以是CRISPR(成簇规律间隔短回文重复序列)相关的核酸酶。如上所述，CRISPR是针对可动遗传元件(病毒、转座元件和接合质粒)提供保护的适应性免疫系统。CRISPR簇包含间隔区、与前面的可动元件互补的序列和靶侵入核酸。将CRISPR簇转录并加工成CRISPR RNA(crRNA)。在II型CRISPR系统中，正确处理pre-crRNA需要反式编码小RNA(tracrRNA)、内源性核糖核酸酶3(rnc)和Cas9蛋白。tracrRNA充当核糖核酸酶3辅助加工pre-crRNA的向导物。随后，Cas9/crRNA/tracrRNA以内切溶核的方式切割与间隔区互补的线性或环状dsDNA靶。与crRNA不互补的靶链首先以内切溶核方式切割，然后以外切融合方式以3’-5'修剪。事实上，DNA结合和切割通常需要蛋白和这两种RNA。然而，可对单链向导RNA(“sgRNA”，或简称为“gRNA”)进行工程化改造，以便将crRNA和tracrRNA的各个方面都并入单一RNA种类中。参见，例如，Jinek M.et al.,Science 337:816-821(2012)，其全部内容通过引用并入本文。

在一些实施方案中，napDNAbp引导切割靶序列位置(如，靶序列内和/或靶序列的互补序列内)处的一条或两条链。在一些实施方案中，napDNAbp引导从靶序列的第一个或最后一个核苷酸的约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500或更多碱基对内一条或两条链的切割。在一些实施方案中，载体编码napDNAbp，其相对于相应的野生型酶发生突变，使得突变的napDNAbp缺乏切割含有靶序列的靶多核苷酸的一条或两条链的能力。例如，来自化脓性链球菌的Cas9的RuvC I催化域中的天冬氨酸至丙氨酸取代(D10A)将Cas9从切割两条链的核酸酶转化为切口酶(切割单链)。使Cas9成为切口酶的其他突变实例包括但不限于参考经典SpCas9序列或其他Cas9变体或Cas9等同物中的等同氨基酸位点的H840A、N854A和N863A。

如本文所用，术语“Cas蛋白”是指从自然界获得的全长Cas蛋白、具有与天然存在的Cas蛋白不同的序列的重组Cas蛋白、或Cas蛋白的任何片段，不过其保留所公开方法所需的全部或大量必需的基本功能，即，(i)具有Cas蛋白与靶DNA的核酸可编程结合，和(ii)对一条链上靶DNA序列产生切口的能力。本文考虑的Cas蛋白包括CRISPR Cas9蛋白，以及Cas9等同物、变体(如，Cas9切口酶(nCas9)或核酸酶无活性Cas9(dCas9))同源物、直系同源物或旁系同源物，无论是天然存在的还是非天然存在的(如，工程化或重组)，并且可包括来自任何2类CRISPR系统(如，II、V、VI型)的Cas9等同物，包括Cas12a(Cpf1)、Cas12e(CasX)、Cas12b1(C2c1)、Cas12b2、Cas12c(C2c3)、C2c4、C2c8、C2c5、C2c10、C2c9Cas13a(C2c2)、Cas13d、Cas13c(C2c7)、Cas13b(C2c6)和Cas13b。其他Cas等同物描述于Makarova et al.,“C2c2 is a single-component programmable RNA-guided RNA-targeting CRISPReffector,”Science 2016；353(6299)以及Makarova et al.,“Classification andNomenclature of CRISPR-Cas Systems:Where from Here？,”The CRISPR Journal,Vol.1.No.5,2018，其内容通过引用并入本文。

术语“Cas9”或“Cas9核酸酶”或“Cas9部分”或“Cas9结构域”包括来自任何生物体的任何天然存在的Cas9、任何天然存在的Cas9等同物或其功能片段、任何Cas9同源物、直系同源物或来自任何生物体的旁系同源物，以及Cas9的天然存在或工程化改造的任何突变体或变体。术语Cas9并不意味着特别限制并且可被称为“Cas9或等同物”。示例性Cas9蛋白在本文中进一步描述和/或在本领域中描述，并且通过引用并入本文。本公开对于在本发明的引导编辑器(PE)中使用的特定Cas9是不受限制的。

如本文所述，Cas9核酸酶序列和结构是本领域技术人员所熟知的(参见，例如，“Complete genome sequence of an M1 strain of Streptococcus pyogenes.”Ferrettiet al.,J.J.,McShan W.M.,Ajdic D.J.,Savic D.J.,Savic G.,Lyon K.,Primeaux C.,Sezate S.,Suvorov A.N.,Kenton S.,Lai H.S.,Lin S.P.,Qian Y.,Jia H.G.,NajarF.Z.,Ren Q.,Zhu H.,Song L.,White J.,Yuan X.,Clifton S.W.,Roe B.A.,McLaughlinR.E.,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001)；“CRISPR RNA maturation bytrans-encoded small RNA and host factor RNase III.”Deltcheva E.,Chylinski K.,Sharma C.M.,Gonzales K.,Chao Y.,Pirzada Z.A.,Eckert M.R.,Vogel J.,CharpentierE.,Nature 471:602-607(2011)；and“A programmable dual-RNA-guided DNAendonuclease in adaptive bacterial immunity.”Jinek M.,Chylinski K.,FonfaraI.,Hauer M.,Doudna J.A.,Charpentier E.Science 337:816-821(2012)，其各自的全部内容通过引用并入本文)。

Cas9和Cas9等同物的实例如下提供；然而，这些具体示例并不意味着限制。本公开的引导编辑器可使用任何合适的napDNAbp，包括任何合适的Cas9或Cas9等同物。

A.野生型经典SpCas9

在一个实施方案中，本文所述的引导编辑器构建体可包含来自化脓性链球菌的“经典SpCas9”核酸酶，其已被广泛用作基因组工程的工具并被归类为2类CRISPR-Cas系统的II型亚组酶。这种Cas9蛋白是大型的多结构域蛋白，包含两个不同的核酸酶结构域。可将点突变引入Cas9以消除一种或两种核酸酶活性，分别导致仍保留以sgRNA编程方式结合DNA的能力的切口酶Cas9(nCas9)或死亡Cas9(dCas9)。原则上，当与另一蛋白或结构域融合时，Cas9或其变体(如，nCas9)可通过与适当的sgRNA共表达将蛋白靶向到几乎任何DNA序列。如本文所用，经典SpCas9蛋白是指来自具有以下氨基酸序列的化脓性链球菌的野生型蛋白：

本文所述的引导编辑器可包括经典SpCas9，或其与上面提供的野生型Cas9序列具有至少80％、至少85％、至少90％、至少95％、或至少99％序列同一性的任何变体。这些变体可能包括含有一个或多个突变的SpCas9变体，包括SwissProt登录号Q99ZW2(SEQ ID NO:18)条目报告的任何已知突变，其包括：

可用于本公开的其他野生型SpCas9序列，包括：

本文所述的引导编辑器可包括任何上述SpCas9序列，或与其具有至少80％、至少85％、至少90％、至少95％或至少99％序列同一性的任何变体。

B.野生型Cas9直系同源物

在其他实施方案中，Cas9蛋白可以是不同于来自化脓性链球菌的经典Cas9的来自另一细菌物种的野生型Cas9直系同源物。例如，以下Cas9直系同源物可与本说明书所述的引导编辑器构建体结合使用。此外，与任何以下直系同源物具有至少80％、至少85％、至少90％、至少95％、或至少99％序列同一性的任何变体Cas9直系同源物也可与本引导编辑器一起使用。

本文所述的引导编辑器可包括任何上述Cas9直系同源序列，或与其具有至少80％、至少85％、至少90％、至少95％或至少99％序列同一性的任何变体。

napDNAbp可包括任何合适的同源物和/或直系同源物或天然存在的酶，例如，Cas9、Cas9同源物和/或直系同源物已在不同物种中得到描述，所述物种包括但不限于化脓性链球菌和嗜热链球菌。优选地，Cas部分被配置(如，诱变、重组工程化或以其他方式从自然界获得)为切口酶，即，能够仅切割靶双重(doubpdditional)合适的Cas9核酸酶的单链，且序列基于本公开对技术人员而言是显而易见的，此类Cas9核酸酶和序列包括来自Chylinski,Rhun,and Charpentier,“The tracrRNA and Cas9 families of type IICRISPR-Cas immunity systems”(2013)RNA Biology 10:5,726-737(其全部内容通过引用并入本文)中公开的生物体和基因座的Cas9序列。在一些实施方案中，Cas9核酸酶具有无活性(如，失活)的DNA切割结构域，即Cas9是切口酶。在一些实施方案中，Cas9蛋白包含与由表3的任何一种变体提供的Cas9蛋白的氨基酸序列至少80％相同的氨基酸序列。在一些实施方案中，Cas9蛋白包含与由上表中Cas9直系同源物的任何一种提供的Cas9蛋白的氨基酸序列至少85％、至少90％、至少92％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％相同的氨基酸序列。

C.死亡Cas9变体

在某些实施方案中，本文所述的引导编辑器可包括死亡Cas9，例如死亡SpCas9，其由于一个或多个使Cas9的两个核酸酶结构域失活的突变而没有核酸酶活性，即RuvC结构域(其切割非原间隔区DNA链)和HNH结构域(切割原间隔区DNA链)。核酸酶失活可能是由于一个或多个突变，其导致编码的蛋白或与其具有至少80％、至少85％、至少90％、至少95％或至少99％的序列同一性的任何变体的氨基酸序列中的一个或多个取代和/或缺失。

如本文所用，术语“dCas9”是指无核酸酶活性Cas9或核酸酶死亡Cas9，或其功能片段，并且包括来自任何生物体的任何天然存在的dCas9、任何天然存在的dCas9等同物或其功能片段、来自任何生物体的任何dCas9同系物、直系同源物或旁系同源物，以及天然存在或工程化的dCas9的任何突变体或变体。术语dCas9并不意味着特别限制并且可被称为“dCas9或等同物”。示例性dCas9蛋白和用于制备dCas9蛋白的方法在本文中进一步描述和/或在本领域中描述并且通过引用并入本文。

在其他实施方案中，dCas9对应于或包含部分或整个的具有一个或多个使Cas9核酸酶活性失活的突变的Cas9氨基酸序列。在其他实施方案中，提供了具有除D10A和H840A之外的突变的Cas9变体，所述突变可导致内源性Cas9核酸酶(如，分别为nCas9或dCas9)活性的完全或部分失活。例如，参考野生型序列如来自化脓性链球菌的Cas9(NCBI参考序列：NC_017053.1)，此类突变包括在Cas9的D10和H820处的其他氨基酸取代，或核酸酶结构域内的其他取代(如，HNH核酸酶亚结构域和/或RuvC1亚结构域中的取代)。在一些实施方案中，提供了Cas9的变体或同源物(如，来自化脓性链球菌(NCBI参考序列:NC_017053.1(SEQ IDNO:20))的Cas9的变体)，其与NCBI参考序列：NC_017053.1至少约70％相同、至少约80％相同、至少约90％相同、至少约95％相同、至少约98％相同、至少约99％相同、至少约99.5％相同、或至少约99.9％相同。在一些实施方案中，提供了Cas9的变体(如，NCBI参考序列：NC_017053.1(SEQ ID NO:20)的变体)，其具有比NC_017053.1(SEQ ID NO:20)更短或更长约5个氨基酸，约10个氨基酸，约15个氨基酸，约20个氨基酸，约25个氨基酸，约30个氨基酸，约40个氨基酸，约50个氨基酸，约75个氨基酸，约100个氨基酸或以上的氨基酸序列。

在一个实施方案中，死亡Cas9可基于Q99ZW2的经典SpCas9序列，并且可具有以下序列，其包含D10X和H810X，其中X可以是任何氨基酸、取代(下划线和粗体)、或变体为与SEQID NO:40具有至少80％、至少85％、至少90％、至少95％、或至少99％序列同一性的变体。

在一个实施方案中，死亡Cas9可基于Q99ZW2的经典SpCas9序列并且可具有以下序列，其包含D10A和H810A取代(下划线和粗体)，或是与SEQ ID NO:41具有至少80％、至少85％、至少90％、至少95％、或至少99％序列同一性的变体。

D.Cas9切口酶变体

在一个实施方案中，本文所述的引导编辑器包含Cas9切口酶。术语“nCas9”的“Cas9切口酶”是指能够在双链DNA分子靶中引入单链断裂的Cas9变体。在一些实施方案中，Cas9切口酶仅包含单个功能性核酸酶结构域。野生型Cas9(如，经典SpCas9)包含两个独立的核酸酶结构域，即，RuvC结构域(切割非原间隔区DNA链)和HNH结构域(切割原间隔区DNA链)。在一个实施方案中，Cas9切口酶包含在RuvC结构域中使RuvC核酸酶活性失活的突变。例如，天冬氨酸(D)10、组氨酸(H)983、天冬氨酸(D)986或谷氨酸(E)762中的突变已被报道为RuvC核酸酶结构域的功能丧失突变和功能性Cas9切口酶的创建(如，Nishimasu et al.,“Crystal structure of Cas9 in complex with guide RNA and target DNA,”Cell 156(5),935–949，通过引用并入本文)。因此，RuvC结构域中的切口酶突变可包括D10X、H983X、D986X、或E762X，其中X是除野生型氨基酸之外的任何氨基酸。在某些实施方案中，切口酶可以是D10A、H983A、或D986A、或E762A、或其组合。

在不同实施方案中，Cas9切口酶可在RuvC核酸酶结构域中具有突变并且具有以下氨基酸序列中的一种或与其具有至少80％、至少85％、至少90％、至少95％、或至少99％序列同一性的氨基酸序列的变体。

在另一个实施方案中，Cas9切口酶包含在HNH结构域中使HNH核酸酶活性失活的突变。例如，组氨酸(H)840或天冬酰胺(R)863中的突变已被报道为HNH核酸酶结构域的功能丧失突变和功能性Cas9切口酶的创建(如，Nishimasu et al.,“Crystal structure of Cas9in complex with guide RNA and target DNA,”Cell 156(5),935–949，其通过引用并入本文)。因此，HNH结构域中的切口酶突变可包括H840X和R863X，其中X是除野生型氨基酸之外的任何氨基酸。在某些实施方案中，切口酶可以是H840A或R863A或其组合。

在不同实施方案中，Cas9切口酶可在HNH核酸酶结构域中具有突变并且具有以下氨基酸序列中的一种或与其具有至少80％、至少85％、至少90％、至少95％、或至少99％序列同一性的氨基酸序列的变体。

在一些实施方案中，N-端甲硫氨酸从Cas9切口酶或从本文公开或考虑的任何Cas9变体、直系同源物或等同物去除。例如，减甲硫氨酸的Cas9切口酶包括以下序列或与其具有至少80％、至少85％、至少90％、至少95％或至少99％序列同一性的氨基酸序列的变体。

E.其他Cas9变体

除了死亡Cas9和Cas9切口酶变体外，本文使用的Cas9蛋白还可包括具有与任何参考Cas9蛋白(包括任何野生型Cas9或突变体Cas9(如，失活Cas9或Cas9切口酶)，或Cas9片段，或环状排列的Cas9，或本文公开或本领域已知的Cas9的其他变体)至少约70％相同、至少约80％相同、至少约90％相同、至少约95％相同、至少约96％相同、至少约97％相同、至少约98％相同、至少约99％相同、至少约99.5％相同、或至少约99.9％相同的其他“Cas9变体”。在一些实施方案中，Cas9变体与参考Cas9相比可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个氨基酸变化。在一些实施方案中，Cas9变体包括参考Cas9的片段(如，gRNA结合结构域或DNA切割结构域)，使得该片段与野生型Cas9的相应片段至少约70％相同，至少约80％相同，至少约90％相同、至少约95％相同、至少约96％相同、至少约97％相同、至少约98％相同、至少约99％相同、至少约99.5％相同、或至少约99.9％相同。在一些实施方案中，该片段为相应野生型Cas9(如，SEQ ID NO:18)的氨基酸长度的至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％相同、至少96％、至少97％、至少98％、至少99％，或至少99.5％。

在一些实施方案中，本公开还可利用Cas9片段，其保留功能性并且为本文公开的任何Cas9蛋白的片段。在一些实施方案中，Cas9片段的长度为至少100个氨基酸。在一些实施方案中，该片段的长度为至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950,1000,1050,1100,1150,1200,1250或至少1300个氨基酸。

在不同实施方案中，本文公开的引导编辑器可包含如下所述的Cas9变体中的一种或其与任何参考Cas9变体具有至少约70％相同、至少约80％相同、至少约90％相同、至少约95％相同、至少约96％相同、至少约97％相同、至少约98％相同、至少约99％相同、至少约99.5％相同、或至少约99.9％相同的Cas9变体。

F.小型Cas9变体

在一些实施方案中，本文考虑的引导编辑器可包括分子量小于经典SpCas9序列的Cas9蛋白。在一些实施方案中，小型Cas9变体可促进递送至细胞，例如通过表达载体、纳米颗粒或其他递送方式。在某些实施方案中，小型Cas9变体可包括归类为2类CRISPR-Cas系统的II型酶的酶。在一些实施方案中，小型Cas9变体可包括归类为2类CRISPR-Cas系统的V型酶的酶。在其他实施方案中，小型Cas9变体可包括归类为2类CRISPR-Cas系统的VI型酶的酶。

经典SpCas9蛋白的长度为1368个氨基酸并且具有158千道尔顿的预测分子量。如本文所用，术语“小型Cas9变体”是指任何Cas9变体——天然存在的、工程化的或以其他方式——少于至少1300个氨基酸，或至少少于1290个氨基酸，或少于1280个氨基酸，或少于1270个氨基酸，或少于1260个氨基酸，或少于1250个氨基酸，或少于1240个氨基酸，或少于1230个氨基酸，或少于1220个氨基酸，或少于1210个氨基酸，或少于1200个氨基酸，或少于1190个氨基酸，或少于1180个氨基酸，或少于1170个氨基酸，或少于1160个氨基酸，或少于1150个氨基酸，或少于1140个氨基酸，或少于1130个氨基酸，或少于1120个氨基酸，或少于1110个氨基酸，或少于1100个氨基酸，或少于1050个氨基酸，或少于1000个氨基酸，或少于950个氨基酸，或少于900个氨基酸，或少于850个氨基酸，或少于800个氨基酸，或少于75个0个氨基酸，或少于700个氨基酸，或少于650个氨基酸，或少于600个氨基酸，或少于550个氨基酸，或少于500个氨基酸，但至少多于约400个氨基酸并保留所需的Cas9蛋白功能。Cas9变体可包括归类为2类CRISPR-Cas系统的II型、V型或VI型酶的那些。

在不同实施方案中，本文公开的引导编辑器可包含如下所述的小型Cas9变体或其与任何参考小型Cas9蛋白具有至少约70％相同、至少约80％相同、至少约90％相同、至少约95％相同、至少约96％相同、至少约97％相同、至少约98％相同、至少约99％相同、至少约99.5％相同、或至少约99.9％相同的Cas9变体。

G.Cas9等同物

在一些实施方案中，本文所述的引导编辑器可包括任何Cas9等同物。如本文所用，术语“Cas9等同物”是广义术语，包括在本引导编辑器中起到与Cas9相同的功能的任何napDNAbp蛋白，尽管其氨基酸一级序列和/或其三维结构可能不同和/或从进化的角度来看无关。因此，虽然Cas9等同物包括本文所述或包含的进化相关的任何Cas9直系同源物、同源物、突变体或变体，但Cas9等同物还包括可能已通过趋同进化过程进化为具有与Cas9相同或相似功能的蛋白，但是它们不一定在氨基酸序列和/或三维结构方面具有任何相似性。此处描述的引导编辑器包括将提供与Cas9相同或相似功能的任何Cas9等同物，尽管Cas9等同物可能基于通过趋同进化产生的蛋白。例如，如果Cas9是指CRISPR-Cas系统的II型酶，那么Cas9等同物可指CRISPR-Cas系统的V型或VI型酶。

例如，Cas12e(CasX)是据报道具有与Cas9相同功能但通过趋同进化而进化的Cas9等同物。因此，考虑描述于Liu et al.,“CasX enzymes comprises a distinct family ofRNA-guided genome editors,”Nature,2019,Vol.566:218-223中的Cas12e(CasX)蛋白与本文所述的引导编辑器一起使用。此外，Cas12e(CasX)的任何变体或修饰都是可想到的并且在本公开的范围内。

Cas9是在极其多种物种中进化的细菌酶。然而，本文考虑的Cas9等同物也可从古细菌获得，所述古细菌构成不同于细菌的单细胞原核微生物的域和界。

在一些实施方案中，Cas9等同物可指Cas12e(CasX)或Cas12d(CasY)，其已描述于例如Burstein et al.,“New CRISPR–Cas systems from uncultivated microbes.”CellRes.2017Feb 21.doi:10.1038/cr.2017.21，其全部内容在此通过引用并入。使用基因组解析的宏基因组学，确定了许多CRISPR-Cas系统，包括首个在古细菌生命领域报道的Cas9。这种不同的Cas9蛋白是在研究很少的纳米古细菌(nanoarchaea)中作为活性CRISPR-Cas系统的一部分发现的。在细菌中，发现了两个以前未知的系统，CRISPR-Cas12e和CRISPR-Cas12d，它们是迄今为止发现的最紧凑的系统之一。在一些实施方案中，Cas9是指Cas12e，或Cas12e的变体。在一些实施方案中，Cas9是指Cas12d或Cas12d的变体。应当理解，其他RNA引导的DNA结合蛋白可用作核酸可编程DNA结合蛋白(napDNAbp)，并且在本公开的范围内。另请参见Liu et al.,“CasX enzymes comprises a distinct family of RNA-guidedgenome editors,”Nature,2019,Vol.566:218-223。任何这些Cas9等同物都考虑在内。

在一些实施方案中，Cas9等同物包含与天然存在的Cas12e(CasX)或Cas12d(CasY)蛋白至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％相同的氨基酸序列。在一些实施方案中，napDNAbp是天然存在的Cas12e(CasX)或Cas12d(CasY)蛋白。在一些实施方案中，napDNAbp包含与野生型Cas部分或本文提供的任何Cas部分至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％相同的氨基酸序列。

在不同实施方案中，核酸可编程DNA结合蛋白包括但不限于Cas9(如，dCas9和nCas9)、Cas12e(CasX)、Cas12d(CasY)、Cas12a(Cpfl)、Cas12b1(C2c1)、Cas13a(C2c2)、Cas12c(C2c3)、Argonaute蛋白和Cas12b1。具有与Cas9不同的PAM特异性的核酸可编程DNA结合蛋白的一个示例是来自普雷沃菌属(Prevotella)和弗朗西斯氏菌属(Francisella)1(即，Cas12a(Cpf1))的成簇规律间隔短回文重复序列。与Cas9类似，Cas12a(Cpf1)也是2类CRISPR效应物，但它为V型亚群而不是II型亚群的酶。已表明Cas12a(Cpf1)介导强大的DNA干扰，其特征与Cas9不同。Cas12a(Cpf1)是单链RNA引导的核酸内切酶，缺乏tracrRNA，它利用富含T的原间隔区邻近基序(TTN、TTTN或YTN)。此外，Cpf1通过交错的DNA双链断裂来切割DNA。在16种Cpf1家族蛋白中，来自氨基酸球菌属(Acidaminococcus)和毛螺菌科(Lachnospiraceae)的2种酶证明在人类细胞中具有有效的基因组编辑活性。Cpf1蛋白是本领域已知的，并且之前已描述于例如Yamano et al.,“Crystal structure of Cpf1 incomplex with guide RNA and target DNA.”Cell(165)2016,p.949-962；其全部内容在此通过引用并入。

在其他实施方案中，Cas蛋白可包括任何CRISPR相关蛋白，包括但不限于Cas12a、Cas12b1、Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(又被称为Csn1和Csx12)、Cas10、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr、Csb、Csb、Csm、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4、其同源物或其修饰版本，并且优选包含切口酶突变(如，对应于SEQ ID NO:18的野生型Cas9多肽的D10A突变的突变)。

在不同的其他实施方案中，napDNAbp可以是以下蛋白中的任一种：Cas9、Cas12a(Cpfl)、Cas12e(CasX)、Cas12d(CasY)、Cas12b1(C2c1)、Cas13a(C2c2)、Cas12c(C2c3)、GeoCas9、CjCas9、Cas12g、Cas12h、Cas12i、Cas13b、Cas13c、Cas13d、Cas14、Csn2、xCas9、SpCas9-NG、环状排列的Cas9，或Argonaute蛋白(Ago)结构域，或其变体。

示例性的Cas9等同蛋白序列可包括以下：

本文所述的引导编辑器还可包含Cas12a(Cpfl)(dCpfl)变体，其可用作向导核苷酸序列-可编程DNA结合蛋白结构域。Cas12a(Cpf1)蛋白具有与Cas9的RuvC结构域相似的RuvC样核酸内切酶结构域，但没有HNH核酸内切酶结构域，并且Cas12a(Cpf1)的N端没有Cas9的α-螺旋识别裂片(lobe)。Zetsche et al.,Cell,163,759–771,2015(通过引用并入本文)表明，Cas12a的RuvC样结构域(Cpf1)负责切割两条DNA链，并且失活RuvC样结构域使Cas12a(Cpf1)核酸酶活性失活。

在一些实施方案中，napDNAbp是微生物CRISPR-Cas系统的单一效应物。微生物CRISPR-Cas系统的单一效应物包括但不限于Cas9、Cas12a(Cpf1)、Cas12b1(C2c1)、Cas13a(C2c2)和Cas12c(C2c3)。通常，微生物CRISPR-Cas系统分为1类和2类系统。1类系统具有多亚基效应物复合物，而2类系统具有单一蛋白效应物。例如，Cas9和Cas12a(Cpf1)是2类效应物。除Cas9和Cas12a(Cpf1)之外，三种不同的2类CRISPR-Cas系统(Cas12b1、Cas13a和Cas12c)描述于Shmakov et al.,“Discovery and Functional Characterization ofDiverse Class 2CRISPR Cas Systems”,Mol.Cell,2015Nov 5；60(3):385–397，其全部内容通过引用在此并入。

系统中两种(Cas12b1和Cas12c)的效应物包含与Cas12a相关的RuvC样核酸内切酶结构域。第三种系统Cas13a包含具有两个预测的HEPN RNase结构域的效应物。成熟CRISPRRNA的产生不依赖于tracrRNA，这与Cas12b1产生的CRISPR RNA不同。Cas12b1依赖CRISPRRNA和tracrRNA进行DNA切割。已证明细菌Cas13a对CRISPR RNA成熟具有独特的RNase活性，不同于其RNA激活的单链RNA降解活性。这些RNase功能彼此不同并且与Cas12a的CRISPRRNA加工行为不同。参见，例如East-Seletsky,et al.,“Two distinct RNase activitiesof CRISPR-Cas13a enable guide-RNA processing and RNA detection”,Nature,2016Oct 13；538(7624):270-273，其全部内容在此通过引入并入。Leptotrichia shahii中Cas13a的体外生化分析表明，Cas13a由单链CRISPR RNA引导，并且可编程以切割带有互补原间隔区的ssRNA靶标。两个保守的HEPN结构域中的催化残基介导切割。催化残基中的突变产生催化死亡的RNA结合蛋白。参见，例如，Abudayyeh et al.,“C2c2 is a single-component programmable RNA-guided RNA-targeting CRISPR effector”,Science,2016Aug 5；353(6299)，其全部内容在此通过引用并入。

已报道Alicyclobaccillus acidoterrastris Cas12b1(AacC2c1)的晶体结构与嵌合单分子向导RNA(sgRNA)复合。参见，例如，Liu et al.,“C2c1-sgRNA ComplexStructure Reveals RNA-Guided DNA Cleavage Mechanism”,Mol.Cell,2017Jan 19；65(2):310-322，其全部内容通过在此引用并入。也报道了在以三元复合物形式与靶DNA结合的嗜酸耐热菌(Alicyclobacillus acidoterrestris)C2c1中的晶体结构。参见，例如，Yanget al.,“PAM-dependent Target DNA Recognition and Cleavage by C2C1 CRISPR-Casendonuclease”,Cell,2016Dec 15；167(7):1814-1828，其全部内容在此通过引用并入。已独立地捕获AacC2c1的催化能力的构象(在靶DNA链和非靶DNA链的这两种情况下)，位于单个RuvC催化口袋内，其中C2c1介导的切割导致靶DNA的交错的七核苷酸断裂。C2c1三元复合物与先前确定的Cas9和Cpf1对应物之间的结构比较表明CRISPR-Cas9系统使用的机制的多样性。

在一些实施方案中，napDNAbp可以是C2c1、C2c2或C2c3蛋白。在一些实施方案中，napDNAbp是C2c1蛋白。在一些实施方案中，napDNAbp是Cas13a蛋白。在一些实施方案中，napDNAbp是Cas12c蛋白。在一些实施方案中，napDNAbp包含与天然存在的Cas12b1(C2c1)、Cas13a(C2c2)或Cas12c(C2c3)蛋白至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％相同的氨基酸序列。在一些实施方案中，napDNAbp是天然存在的Cas12b1(C2c1)、Cas13a(C2c2)或Cas12c(C2c3)蛋白。

H.Cas9环状排列体

在不同实施方案中，本文公开的引导编辑器可包含Cas9的环状排列体。

术语“环状排列的Cas9”或Cas9的“环状排列体”或“CP-Cas9”，是指任何Cas9蛋白或其变体，其出现或已修饰以工程化为环状排列体变体，这意味着Cas9蛋白(如，野生型Cas9蛋白)的N端和C端已局部重排。当与向导RNA(gRNA)复合时，这种环状排列的Cas9蛋白或其变体保留了结合DNA的能力。参见Oakes et al.,“Protein Engineering of Cas9 forenhanced function,”Methods Enzymol,2014,546:491–511，以及Oakes et al.,“CRISPR-Cas9Circular Permutants as Programmable Scaffolds for Genome Modification,”Cell,January 10,2019,176:254-267，其各自通过引用并入本文。本公开考虑任何先前已知的CP-Cas9或使用新的CP-Cas9，只要所得到的环状排列的蛋白在与向导RNA(gRNA)复合时保留结合DNA的能力。

本文所述任何Cas9蛋白，包括任何变体、直系同源物或天然存在的Cas9或其等同物，可被重新配置为环状排列体变体。

在不同实施方案中，Cas9的环状排列体可具有以下结构：

N-端-[原始C-端]–[可选的接头]–[原始N-端]-C-端。

作为示例，本公开考虑了经典化脓性链球菌Cas9(UniProtKB-Q99ZW2(CAS9_STRP1)的1368个氨基酸(编号基于SEQ ID NO:18中的氨基酸位置))的以下环状排列体：

N-端-[1268-1368]-[可选的接头]-[1-1267]-C-端；

N-端-[1168-1368]-[可选的接头]-[1-1167]-C-端；

N-端-[1068-1368]-[可选的接头]-[1-1067]-C-端；

N-端-[968-1368]-[可选的接头]-[1-967]-C-端；

N-端-[868-1368]-[可选的接头]-[1-867]-C-端；

N-端-[768-1368]-[可选的接头]-[1-767]-C-端；

N-端-[668-1368]-[可选的接头]-[1-667]-C-端；

N-端-[568-1368]-[可选的接头]-[1-567]-C-端；

N-端-[468-1368]-[可选的接头]-[1-467]-C-端；

N-端-[368-1368]-[可选的接头]-[1-367]-C-端；

N-端-[268-1368]-[可选的接头]-[1-267]-C-端；

N-端-[168-1368]-[可选的接头]-[1-167]-C-端；

N-端-[68-1368]-[可选的接头]-[1-67]-C-端；或

N-端-[10-1368]-[可选的接头]-[1-9]-C-端，或其他Cas9蛋白(包括其他Cas9直系同源物、变体等)的相应环状排列体。

在特定实施方案中，环状排列的Cas9具有以下结构(基于化脓性链球菌Cas9(UniProtKB-Q99ZW2(CAS9_STRP1)的1368个氨基酸(编号基于SEQ ID NO:18中的氨基酸位置))：

N-端-[102-1368]-[可选的接头]-[1-101]-C-端；

N-端-[1028-1368]-[可选的接头]-[1-1027]-C-端；

N-端-[1041-1368]-[可选的接头]-[1-1043]-C-端；

N-端-[1249-1368]-[可选的接头]-[1-1248]-C-端；或

N-端-[1300-1368]-[可选的接头]-[1-1299]-C-端，或其他Cas9蛋白(包括其他Cas9直系同源物、变体等)的相应环状排列体。

在其他实施方案中，环状排列的Cas9具有以下结构(基于化脓性链球菌Cas9(UniProtKB-Q99ZW2(CAS9_STRP1)的1368个氨基酸(编号基于SEQ ID NO:18中的氨基酸位置)：

N-端-[103-1368]-[可选的接头]-[1-102]-C-端；

N-端-[1029-1368]-[可选的接头]-[1-1028]-C-端；

N-端-[1042-1368]-[可选的接头]-[1-1041]-C-端；

N-端-[1250-1368]-[可选的接头]-[1-1249]-C-端；或

N-端-[1301-1368]-[可选的接头]-[1-1300]-C-端，或其他Cas9蛋白(包括其他Cas9直系同源物、变体等)的相应环状排列体。

在一些实施方案中，环状排列体可通过将Cas9的C端片段直接或通过使用接头(如，氨基酸接头)连接至Cas9的N端片段来形成。在一些实施方案中，C-端片段可对应于Cas9的C-端的95％或更多的氨基酸(如，约1300-1368个氨基酸)，或Cas9的C-端的90％、85％、80％、75％、70％、65％、60％、55％、50％、45％、40％、35％、30％、25％、20％、15％、10％或5％或更多的氨基酸(如，SEQ ID NO:77-86中的任一序列)。N-端部分可对应于Cas9的N-端的95％或更多的氨基酸(如，约1-1300个氨基酸)，或Cas9的N-端的90％、85％、80％、75％、70％、65％、60％、55％、50％、45％、40％、35％、30％、25％、20％、15％、10％、或5％或更多的氨基酸(如，SEQ ID NO:18)。

在一些实施方案中，环状排列体可通过将Cas9的C端片段直接或通过使用接头(如，氨基酸接头)连接至Cas9的N端片段来形成。在一些实施方案中，重排至N端的C端片段包括或对应于Cas9的C端的30％或更少的氨基酸(如，SEQ ID NO:18的氨基酸1012-1368)。在一些实施方案中，重排至N端的C端片段包括或对应于Cas9(如，SEQ ID NO:18的Cas9)的C端的30％、29％、28％、27％、26％、25％、24％、23％、22％、21％、20％、19％、18％、17％、16％、15％、14％、13％、12％、11％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％的氨基酸。在一些实施方案中，重排至N端的C端片段包括或对应于Cas9(如，SEQ ID NO:18的Cas9)的C端的410个残基或更少。在一些实施方案中，重排至N端的C端部分包括或对应于Cas9(如，SEQ ID NO:18的Cas9)的C端的410、400、390、380、370、360、350、340、330、320、310、300、290、280、270、260、250、240、230、220、210、200、190、180、170、160、150、140、130、120、110、100、90、80、70、60、50、40、30、20、或10个残基。在一些实施方案中，重排至N端的C端部分包括或对应于Cas9(如，SEQ ID NO:18的Cas9)的C端的357、341、328、120或69个残基。

在其他实施方案中，环状排列体Cas9变体可定义为基于以下方法的Cas9一级结构的拓扑重排，其基于SEQ ID NO:18的化脓性链球菌Cas9：(a)选择对应于Cas9一级结构的内部氨基酸残基的环状排列体(CP)位点，其将原始蛋白分为两个半部：N端区域和C端区域；(b)通过将原始C端区域(包含CP位点氨基酸)移动至原始N端区域之前来修饰Cas9蛋白序列(如，通过基因工程技术)，从而形成现在以CP位点氨基酸残基开头的Cas9蛋白的新N端。CP位点可位于Cas9蛋白的任何结构域中，包括例如螺旋-II结构域、RuvCIII结构域或CTD结构域。例如，CP位点可位于(相对于SEQ ID NO:18的化脓性链球菌Cas9)原始氨基酸残基181、199、230、270、310、1010、1016、1023、1029、1071、1241249或1282。因此，一旦重新定位到N端，原始氨基酸181、199、230、270、310、1010、1016、1023、1029、1041、1247、1249将成为新的N-端氨基酸。这些CP-Cas9蛋白的命名可分别被认为是Cas9-CP¹⁸¹,Cas9-CP¹⁹⁹、Cas9-CP²³⁰、Cas9-CP²⁷⁰、Cas9-CP³¹⁰、Cas9-CP¹⁰¹⁰、Cas9-CP¹⁰¹⁶、Cas9-CP¹⁰²³、Cas9-CP¹⁰²⁹、Cas9-CP¹⁰⁴¹、Cas9-CP¹²⁴⁷、Cas9-CP¹²⁴⁹、和Cas9-CP¹²⁸²。该描述并不意味着限于由SEQ ID NO:18制备CP变体，而是可实施以制备任何Cas9序列的CP变体，无论是在对应于这些位置的CP位点处，还是全部在其他CP位点处。此描述并非旨在以任何方式限制特定CP位点。几乎任何CP位点都可用于形成CP-Cas9变体。

下面提供了基于SEQ ID NO:18的Cas9的示例性CP-Cas9氨基酸序列，其中接头序列加下划线显示并且任选的甲硫氨酸(M)残基以粗体显示。应当理解，本公开提供了不包括接头序列或包括不同接头序列的CP-Cas9序列。应当理解，CP-Cas9序列可基于除SEQ IDNO:18之外的Cas9序列，并且本文提供的任何示例不意味着限制。示例性CP-Cas9序列如下：

本文描述了可用于引导编辑构建体中的Cas9环状排列体。以下提供了Cas9(基于SEQ ID NO:18的Cas9)的示例性C端片段，其可重排至Cas9的N端。应当理解，Cas9的此类C端片段是示例性的，并不意味着限制。这些示例性CP-Cas9片段具有以下序列:

I.具有经修饰的PAM特异性的Cas9变体

本公开的引导编辑器还可包含具有经修饰的PAM特异性的Cas9变体。本公开的一些方面提供了对靶序列表现出活性的Cas9蛋白，该靶序列在其3'-端不包含经典PAM(5'-NGG-3'，其中N是A、C、G或T)。在一些实施方案中，Cas9蛋白对在其3'-端包含5'-NGG-3'PAM序列的靶序列表现出活性。在一些实施方案中，Cas9蛋白对在其3'-端包含5'-NNG-3'PAM序列的靶序列表现出活性。在一些实施方案中，Cas9蛋白对在其3'-端包含5'-NNA-3'PAM序列的靶序列表现出活性。在一些实施方案中，Cas9蛋白对在其3'-端包含5'-NNC-3'PAM序列的靶序列表现出活性。在一些实施方案中，Cas9蛋白对在其3'-端包含5'-NNT-3'PAM序列的靶序列表现出活性。在一些实施方案中，Cas9蛋白对在其3'-端包含5'-NGT-3'PAM序列的靶序列表现出活性。在一些实施方案中，Cas9蛋白对在其3'-端包含5'-NGA-3'PAM序列的靶序列表现出活性。在一些实施方案中，Cas9蛋白对在其3'-端包含5'-NGC-3'PAM序列的靶序列表现出活性。在一些实施方案中，Cas9蛋白对在其3'-端包含5'-NAA-3'PAM序列的靶序列表现出活性。在一些实施方案中，Cas9蛋白对在其3'-端包含5'-NAC-3'PAM序列的靶序列表现出活性。在一些实施方案中，Cas9蛋白对在其3'-端包含5'-NAT-3'PAM序列的靶序列表现出活性。在其他实施方案中，Cas9蛋白对在其3'-端包含5'-NAG-3'PAM序列的靶序列表现出活性。

应当理解，本文所述从第一氨基酸残基(如，A)至第二氨基酸残基(如，T)的任何氨基酸突变(如，A262T)也可包括从第一氨基酸残基至与第二氨基酸残基相似(如，保守)的氨基酸残基的突变。例如，具有疏水侧链(如，丙氨酸、缬氨酸、异亮氨酸、亮氨酸、甲硫氨酸、苯丙氨酸、酪氨酸或色氨酸)的氨基酸的突变可为具有不同疏水侧链(如，丙氨酸、缬氨酸、异亮氨酸、亮氨酸、甲硫氨酸、苯丙氨酸、酪氨酸或色氨酸)的第二氨基酸的突变。例如，丙氨酸至苏氨酸的突变(如，A262T突变)也可以是丙氨酸至与苏氨酸在大小和化学性质上相似的氨基酸(如，丝氨酸)的突变。作为另一个示例，具有带正电荷侧链(如，精氨酸、组氨酸或赖氨酸)的氨基酸突变可为具有不同的带正电荷侧链(如，精氨酸、组氨酸或赖氨酸)的第二氨基酸的突变。作为另一个示例，具有极性侧链(如，丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺)的氨基酸的突变可为具有不同极性侧链(如，丝氨酸、苏氨酸、天冬酰胺、或谷氨酰胺)的第二氨基酸的突变。其他类似的氨基酸对包括但不限于以下：苯丙氨酸和酪氨酸；天冬酰胺和谷氨酰胺；蛋氨酸和半胱氨酸；天冬氨酸和谷氨酸；以及精氨酸和赖氨酸。技术人员会认识到，这种保守的氨基酸取代可能对蛋白结构的影响很小，并且可能被很好地耐受而不损害功能。在一些实施方案中，本文提供的从一个氨基酸至苏氨酸的氨基酸突变的任何氨基可以是氨基酸突变为丝氨酸。在一些实施方案中，本文提供的从一个氨基酸至精氨酸的氨基酸突变中的任何氨基可以是氨基酸突变为赖氨酸。在一些实施方案中，本文提供的从一个氨基酸至异亮氨酸的氨基酸突变的任何氨基可以是氨基酸突变为丙氨酸、缬氨酸、甲硫氨酸或亮氨酸。在一些实施方案中，本文提供的从一个氨基酸至赖氨酸的氨基酸突变中的任何氨基可以氨基酸突变为精氨酸。在一些实施方案中，本文提供的从一个氨基酸至天冬氨酸的氨基酸突变的任何氨基可以是氨基酸突变为谷氨酸或天冬酰胺。在一些实施方案中，本文提供的从一个氨基酸至缬氨酸的氨基酸突变中的任何氨基可以是氨基酸突变为丙氨酸、异亮氨酸、甲硫氨酸或亮氨酸。在一些实施方案中，本文提供的从一个氨基酸至甘氨酸的氨基酸突变的任何氨基可以是氨基酸突变为丙氨酸。然而，应当理解，其他保守氨基酸残基将被本领域技术人员识别且其他保守氨基酸残基的任何氨基酸突变也在本公开的范围内。

在一些实施方案中，Cas9蛋白包含对靶序列表现出活性的突变组合，该靶序列在其3'-端包含5'-NAA-3'PAM序列。在一些实施方案中，突变组合存在于表1中所列的任何一个克隆中。在一些实施方案中，突变组合是表1中所列克隆的保守突变。在一些实施方案中，Cas9蛋白包含表1中列出的任何一个Cas9克隆的突变组合。

表1：NAA PAM克隆

在一些实施方案中，Cas9蛋白包含与表1的任何一个变体提供的Cas9蛋白的氨基酸序列至少80％相同的氨基酸序列。在一些实施方案中，Cas9蛋白包含与表1的任何一个变体提供的Cas9蛋白的氨基酸序列至少85％、至少90％、至少92％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％相同的氨基酸序列。

在一些实施方案中，与由SEQ ID NO:18提供的化脓性链球菌Cas9相比，Cas9蛋白对在其3'端不包含经典PAM(5'-NGG-3')的靶序列表现出增加的活性。在一些实施方案中，与由SEQ ID NO:18提供的化脓性链球菌Cas9对相同靶序列的活性相比，Cas9蛋白对具有与经典PAM序列(5’-NGG-3’)不直接相邻的3′端的靶序列表现出活性增加至少5倍。在一些实施方案中，与由SEQ ID NO:2提供的化脓性链球菌对相同靶序列的活性相比，Cas9蛋白对与经典PAM序列(5’-NGG-3’)不直接相邻的靶序列表现出活性增加至少10倍、至少50倍、至少100倍、至少500倍、至少1,000倍、至少5,000倍、至少10,000倍、至少50,000倍、至少100,000倍、至少500,000倍、或至少1,000,000倍。在一些实施方案中，靶序列的3′端与AAA、GAA、CAA或TAA序列直接相邻。在一些实施方案中，Cas9蛋白包含对在其3’端包含5’-NAC-3’PAM序列的靶序列表现出活性的突变组合。在一些实施方案中，突变组合存在于表2中所列的任何一个克隆中。在一些实施方案中，突变组合是表2中所列的克隆的保守突变。在一些实施方案中，Cas9蛋白包含表2中列出的任何一个Cas9克隆的突变组合。

表2：NAC PAM克隆

在一些实施方案中，Cas9蛋白包含与表2的任何一个变体提供的Cas9蛋白的氨基酸序列至少80％相同的氨基酸序列。在一些实施方案中，Cas9蛋白包含与表2的任何一个变体提供的Cas9蛋白的氨基酸序列至少85％、至少90％、至少92％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％相同的氨基酸序列。

在一些实施方案中，与SEQ ID NO:18提供的化脓性链球菌Cas9相比，Cas9蛋白对在其3'末端不包含经典PAM(5'-NGG-3')的靶序列表现出增加的活性。在一些实施方案中，与SEQ ID NO:18提供的化脓性链球菌Cas9对相同靶序列的活性相比，Cas9蛋白对具有与经典PAM序列(5’-NGG-3’)不直接相邻的3′端的靶序列表现出活性增加至少5倍。在一些实施方案中，与SEQ ID NO:18提供的化脓性链球菌对相同靶序列的活性相比，Cas9蛋白对与经典PAM序列(5’-NGG-3’)不直接相邻的靶序列表现出的活性增加至少10倍、至少50倍、至少100倍、至少500倍、至少1,000倍、至少5,000倍、至少10,000倍、至少50,000倍、至少100,000倍、至少500,000倍、或至少1,000,000倍。在一些实施方案中，靶序列的3’端与AAC、GAC、CAC或TAC序列直接相邻。

在一些实施方案中，Cas9蛋白包含对在其3’端包含5’-NAT-3’PAM序列的靶序列表现出活性的突变组合。在一些实施方案中，突变组合存在于表3中所列的任何一个克隆中。在一些实施方案中，突变组合是表3中所列克隆的保守突变。在一些实施方案中，Cas9蛋白包含表3中列出的任何一个Cas9克隆的突变组合。

表3:NAT PAM克隆

可与当前公开的引导编辑器结合使用的各种napDNAbps的以上描述并不意味着以任何方式进行限制。引导编辑器可包括经典SpCas9，或任何直系同源Cas9蛋白，或任何变体Cas9蛋白——包括任何天然存在的Cas9变体、突变体或其他工程化版本——其是已知的或可通过定向进化或其他诱变过程制备或进化。在不同实施方案中，Cas9或Cas9变体具有切口酶活性，即仅切割靶DNA序列的链。在其他实施方案中，Cas9或Cas9变体具有无活性的核酸酶，即“死亡”Cas9蛋白。可使用的其他变体Cas9蛋白是具有比经典SpCas9更小的分子量(如，为了更容易递送)或具有经修饰或重排的一级氨基酸结构(如，环状排列体形式)的那些。本文所述的引导编辑器还可包含Cas9等同物，包括Cas12a/Cpf1和Cas12b蛋白，它们是趋同进化的结果。本文使用的napDNAbps(如，SpCas9、Cas9变体或Cas9等同物)还可包含改变/增强其PAM特异性的各种修饰。最后，本申请考虑与参考Cas9序列(如，参考SpCas9经典序列或参考Cas9等同物(如，Cas12a/Cpf1))具有至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.9％序列同一性的任何Cas9、Cas9变体或Cas9等同物。

在特定实施方案中，具有扩展的PAM能力的Cas9变体是SpCas9(H840A)VRQR(SEQID NO:87)，其具有以下氨基酸序列(其中V、R、Q、R取代相对于SEQ ID NO:51的SpCas9(H840A)以粗下划线显示。此外，SpCas9(H840A)VRQR去除了SpCas9(H840)中的甲硫氨酸残基：

在另一个特定实施方案中，具有扩展的PAM能力的Cas9变体是SpCas9(H840A)VRER，其具有以下氨基酸序列(其中V、R、E、R取代相对于SEQ IDNO:51的SpCas9(H840A)以粗下划线显示。此外，SpCas9(H840A)VRER去除了SpCas9(H840)中的甲硫氨酸残基：

在一些实施方案中，在非经典PAM序列的情况下发挥功能的napDNAbp是Argonaute蛋白。这种核酸可编程DNA结合蛋白的一个示例是来自格氏嗜盐碱杆菌(Natronobacteriumgregoryi)的Argonaute蛋白(NgAgo)。NgAgo是ssDNA引导的核酸内切酶。NgAgo结合约24个核苷酸(gDNA)的5'磷酸化ssDNA，以将其引导至靶位点，并在gDNA位点处产生DNA双链断裂。与Cas9相比，NgAgo-gDNA系统不需要原间隔区邻近基序(PAM)。使用核酸酶无活性的NgAgo(dNgAgo)可极大地扩展可能靶向的碱基。NgAgo的特征和应用描述于Gao et al.,NatBiotechnol.,2016Jul；34(7):768-73.PubMed PMID:27136078；Swarts et al.,Nature.507(7491)(2014):258-61；以及Swarts et al.,Nucleic Acids Res.43(10)(2015):5120-9，其各自通过引用并入本文。

在一些实施方案中，napDNAbp是Argonaute蛋白的原核同源物。Argonaute蛋白的原核同源物是已知的，并且已描述于例如Makarova K.,et al.,“Prokaryotic homologsof Argonaute proteins are predicted to function as key components of a novelsystem of defense against mobile genetic elements”,Biol Direct.2009Aug 25；4:29.doi:10.1186/1745-6150-4-29，其全部内容在此通过引用并入。在一些实施方案中，napDNAbp是Marinitoga piezophile Argunaute(MpAgo)蛋白。CRISPR相关的Marinitogapiezophile Argunaute(MpAgo)蛋白使用5′-磷酸化向导物切割单链靶序列。所有已知的Argonaute蛋白都使用5′向导物。MpAgo-RNA复合物的晶体结构显示包含阻止5′磷酸酯相互作用的残基的向导链结合位点。该数据表明对5′-羟基化向导物具有非经典特异性的Argonaute蛋白亚类的进化。参见，例如，Kaya et al.,“A bacterial Argonaute withnoncanonical guide RNA specificity”,Proc Natl Acad Sci U S A.2016Apr 12；113(15):4057-62，其全部内容通过引用在此并入)。应当理解，可使用其他argonaute蛋白，并且在本公开的范围内。

本公开的一些方面提供了具有不同PAM特异性的Cas9结构域。通常，Cas9蛋白，例如来自化脓性链球菌(spCas9)的Cas9，需要经典NGG PAM序列来结合特定的核酸区域。这可能会限制编辑基因组内期望的碱基的能力。在一些实施方案中，本文提供的碱基编辑融合蛋白可能需要被放置在精确的位置，例如将靶碱基放置在4碱基区域内(如，“编辑窗口”)，其位于PAM上游约15个碱基。参见Komor,A.C.,et al.,“Programmable editing of atarget base in genomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016)，其全部内容通过引用在此并入。因此，在一些实施方案中，本文提供的任何融合蛋白可包含能够结合不包含经典(如，NGG)PAM序列的核苷酸序列的Cas9结构域。结合非经典PAM序列的Cas9结构域已在本领域中描述并且对技术人员而言是显而易见的。例如，结合非经典PAM序列的Cas9结构域已描述于Kleinstiver,B.P.,et al.,“EngineeredCRISPR-Cas9nucleases with altered PAM specificities”Nature 523,481-485(2015)；以及Kleinstiver,B.P.,et al.,“Broadening the targeting range of Staphylococcusaureus CRISPR-Cas9 by modifying PAM recognition”Nature Biotechnology 33,1293-1298(2015)；各自的全部内容在此通过引用并入。

例如，具有改变的PAM特异性的napDNAbp结构域，例如与具有以下氨基酸序列的野生型新凶手弗朗西斯菌(Francisella novicida)Cpfl(D917、E1006和D1255)(SEQ ID NO:74)具有至少80％、至少85％、至少90％、至少95％、或至少99％序列同一性的结构域：

具有改变的PAM特异性的其他napDNAbp结构域，例如与具有以下氨基酸序列的嗜热脱氮土芽孢杆菌(Geobacillus thermodenitrificans)Cas9(SEQ ID NO:75)具有至少80％、至少85％、至少90％、至少95％、或至少99％序列同一性的结构域：

在一些实施方案中，核酸可编程DNA结合蛋白(napDNAbp)是不需要经典(NGG)PAM序列的核酸可编程DNA结合蛋白。在一些实施方案中，napDNAbp是argonaute蛋白。这种核酸可编程DNA结合蛋白的一个示例是来自格氏嗜盐碱杆菌(Natronobacterium gregoryi)的Argonaute蛋白(NgAgo)。NgAgo是ssDNA引导的核酸内切酶。NgAgo结合约24个核苷酸(gDNA)的5'磷酸化ssDNA，将其引导至靶位点，并在gDNA位点使DNA双链断裂。与Cas9相比，NgAgo-gDNA系统不需要原间隔区邻近基序(PAM)。使用核酸酶失活的NgAgo(dNgAgo)可极大地扩展可能靶向的碱基。NgAgo的表征和应用描述于Gao et al.,Nat Biotechnol.,34(7):768-73(2016),PubMed PMID:27136078；Swarts et al.,Nature,507(7491):258-61(2014)；andSwarts et al.,Nucleic Acids Res.43(10)(2015):5120-9，其各自通过引用并入本文。格氏嗜盐碱杆菌Argonaute蛋白的序列在SEQ ID NO:76中提供。

所公开的融合蛋白可包含与具有以下氨基酸序列的野生型格氏嗜盐碱杆菌Argonaute蛋白(SEQ ID NO:76)具有至少80％、至少85％、至少90％、至少95％、或至少99％序列同一性的napDNAbp结构域：

此外，可利用任何可获得的方法来获得或构建变体或突变体Cas9蛋白。如本文所用，术语“突变”是指序列(如，核酸或氨基酸序列)内的残基被另一个残基取代，或序列内一个或多个残基的缺失或插入。突变通常通过确定原始残基随后是该残基在序列中的位置以及通过新取代残基的身份来描述。用于进行本文提供的氨基酸取代(突变)的各种方法是本领域公知的，并且提供于例如Green and Sambrook,Molecular Cloning:A LaboratoryManual(4th ed.,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.(2012))。突变可以包括多种类别，例如单碱基多态性、微重复区域、插入缺失和倒位，并且不意味着以任何方式进行限制。突变可包括“功能丧失性”突变，这是降低或消除蛋白活性的突变的正常结果。大多数功能丧失突变是隐性的，因为在杂合子中，第二个染色体拷贝携带编码全功能蛋白的基因的未突变版本，其存在补偿了突变的影响。突变还包括“功能获得性”突变，这是赋予正常情况下不存在的蛋白或细胞异常活性的突变。许多功能获得性突变位于调节序列中而不是编码区中，因此会产生许多后果。例如，突变可能导致一个或多个基因在错误的组织中表达，这些组织获得了它们通常没有的功能。由于其性质，功能获得性突变通常是显性的。

可使用定点诱变将突变引入参考Cas9蛋白。本领域已知的较旧的定点诱变方法依赖于待突变的序列亚克隆至载体中，例如M13噬菌体载体，其允许分离单链DNA模板。在这些方法中，将诱变引物(即，能够与待突变位点退火但在待突变位点具有一个或多个错配核苷酸的引物)与单链模板退火，然后从诱变引物的3′端开始聚合模板的互补序列。然后将得到的双链体转化到宿主细菌中，并针对期望的突变筛选噬菌斑。最近，定点诱变采用了PCR方法，其优点是不需要单链模板。此外，还开发了不需要亚克隆的方法。在进行基于PCR的定点诱变时，必须考虑几个问题。首先，在这些方法中，需要减少PCR循环的次数，以防止由聚合酶引入非期望的突变扩大。其次，必须进行选择以减少反应中持续存在的非突变亲本分子的数量。第三，优选延伸长度的PCR方法，以便允许使用单个PCR引物组。第四，由于一些热稳定聚合酶的非模板依赖性末端延伸活性，在PCR产生的突变产物的平端连接之前，通常需要在程序中并入末端补齐步骤。

突变也可通过定向进化过程引入，例如噬菌体辅助连续进化(PACE)或噬菌体辅助非连续进化(PANCE)。如本文所用，术语“噬菌体辅助连续进化(PACE)”是指采用噬菌体作为病毒载体的连续进化。PACE技术的一般概念已描述于，例如于2009年9月8日提交的国际PCT申请PCT/US2009/056194，2010年3月11日以WO2010/028347公布；于2011年12月22日提交的PCT国际申请PCT/US2011/066747，2012年6月28日以WO2012/088381公布；美国申请，2015年5月5日授权的美国专利号9,023,594；于2015年1月20日提交的国际PCT申请PCT/US2015/012022，2015年9月11日以WO2015/134121公布；于2016年4月15日提交的国际PCT申请PCT/US2016/027795，2016年10月20日以WO2016/168631公布，其各自的全部内容通过引用并入本文。变体Cas9也可通过噬菌体辅助非连续进化(PANCE)获得，如本文所用，是指使用噬菌体作为病毒载体的非连续进化。PANCE是快速体内定向进化的简化技术，使用进化的“选择噬菌体”(SP)的连续瓶转移(serial flask transfers)，其中包含在新鲜大肠杆菌宿主细胞中待进化的感兴趣基因，从而允许宿主大肠杆菌内的基因保持恒定，而SP中包含的基因不断进化。连续瓶转移一直是广泛使用的微生物实验室进化方法，最近已开发出类似的方法用于噬菌体进化。PANCE系统的特点是比PACE系统的严格性低。

如果尚未说明，以上提到的涉及Cas9或Cas9等同物的任何参考文献在此通过引用以其整体并入。

J.用于断裂PE递送的分开的napDNAbp结构域

在不同实施方案中，本文所述的引导编辑器可作为两个或更多个片段递送至细胞，这些片段在细胞内组装(通过被动组装，或通过主动组装，如使用断裂内含肽序列)成为重新组成的引导编辑器。在某些情况下，自组装可能是被动的，通过两个或更多个引导编辑器片段在细胞内共价或非共价结合以重新组成引导编辑器。在其他情况下，自组装可由安装在每个片段上的二聚化结构域催化。二聚化结构域的示例在本文中描述。在其他情况下，自组装可由安装在每个引导编辑器片段上的断裂内含肽序列催化。

断裂PE递送可能有利于解决不同递送方法的各种尺寸限制。例如，递送方法可包括基于病毒的递送方法、基于信使RNA的递送方法或基于RNP的递送(基于核糖核蛋白的递送)。并且，通过将引导编辑器分成较小的部分，这些递送方法中的每一种都可能更高效和/或更有效。一旦进入细胞，较小的部分就可组装成功能性引导编辑器。根据断裂的方式，分离的引导编辑器片段可以非共价方式或共价方式重新组装以重新组成引导编辑器。在一个实施方案中，引导编辑器可在一个或多个断裂位点断裂成两个或多个片段。片段可以是未经修饰的(除了被断裂)。一旦将片段递送至细胞(如，通过核糖核蛋白复合物的直接递送或通过核酸递送——例如，mRNA递送或基于病毒载体的递送)，片段可共价或非共价地重新结合以重新组成引导编辑器。在另一个实施方案中，引导编辑器可在一个或多个断割位点断裂成两个或多个片段。每个片段可经修饰以包含二聚化结构域，由此形成的每个片段都与二聚化结构域结合。一旦在细胞内传递或表达，不同片段的二聚化结构域就会相互关联并结合，将不同的引导编辑器片段聚集在一起重新形成功能性引导编辑器。在又一个实施方案中，引导编辑器片段可经修饰以包含断裂内含肽。一旦在细胞内递送或表达，不同片段的断裂内含肽结构域相互关联并结合，然后进行反式剪接，这导致从各个片段中切除断裂内含肽结构域，并在片段之间相伴形成肽键，从而恢复引导编辑器。

在一个实施方案中，使用断裂内含肽方法递送引导编辑器。

断裂位点的位置可位于引导编辑器中的任何一对或多对残基之间以及其中的任何结构域中，包括在napDNAbp结构域内、聚合酶结构域(如，RT结构域)内、连接napDNAbp结构域和聚合酶结构域的接头结构域内。

在一个实施方案中，如图66所示，将引导编辑器(PE)在napDNAbp内的断裂位点分开。

在某些实施方案中，napDNAbp是SEQ ID NO:18的经典SpCas9多肽，如下：

在某些实施方案中，SpCas9在位于SEQ ID NO:18的经典SpCas9的残基1和2、或2和3、或3和4、或4和5、或5和6、或6和7、或7和8、或8和9、或9和10之间，或者位于残基1至10、10至20、20至30、30至40、40至50、50至60、60至70、70至80、80至90、90至100、100至200、200至300、300至400、400至500、500至600、600至700、700至800、800至900、1000至1100、1100至1200、1200至1300、或1300至1368之间任意位置的任何两对残基之间的断裂位点处断裂成两个片段。

在某些实施方案中，napDNAbp在位于对应于位于SEQ ID NO:18的经典SpCas9的位点1至10、10至20、20至30、30至40、40至50、50至60、60至70、70至80、80至90、90至100、100至200、200至300、300至400、400至500、500至600、600至700、700至800、800至900、1000至1100、1100至1200、1200至1300、或1300至1368之间任意位置的任何两对残基的一对残基处的断裂位点断裂成两个片段。

在某些实施方案中，SpCas9在位于SEQ ID NO:18的经典SpCas9的残基1和2、或2和3、或3和4、或4和5、或5和6、或6和7之间，或者位于残基1至10、10至20、20至30、30至40、40至50、50至60、60至70、70至80、80至90、90至100、100至200、200至300、300至400、400至500、500至600、600至700、700至800、800至900、1000至1100、1100至1200、1200至1300、或1300至1368之间任意位置的任何两对残基之间的断裂位点处断裂成两个片段。在某些实施方案中，断裂位点位于一个或多个多肽键位置(即，“断裂位置或断裂内含肽断裂位置”)，与断裂内含肽融合，然后作为单独编码的融合蛋白递送至细胞。一旦断裂内含肽融合蛋白(即，蛋白半部)在细胞内表达，蛋白就会进行反式剪接以形成完整或全部PE，同时去除连接的断裂内含肽序列。

例如，如图66所示，N-端外显肽可与第一断裂内含肽(如，N内含肽)融合，并且C-端外显肽可与第二断裂内含肽(如，C内含肽)融合。N端外显肽与C端外显肽融合，以在细胞内的N内含肽和C内含肽自结合时重新形成完整的引导编辑器融合蛋白，包括napDNAbp结构域和聚合酶结构域(如，RT结构域)，然后进行自我切除，并在完整的引导编辑器(PE)的N端外显肽和C端外显肽部分之间同时形成肽键。

为了利用使用断裂内含肽的断裂PE递送策略，需要将引导编辑器在一个或多个断裂位点处分开以产生引导编辑器的至少两个分开的半部，如果每个半部都融合到断裂内含肽序列，则其各自在细胞内可重新连接。

在某些实施方案中，引导编辑器在单个断裂位点处断裂。在某些其他实施方案中，引导编辑器在两个断裂位点、或三个断裂位点、或四个断裂位点或更多个断裂位点处断裂。

在优选实施方案中，将引导编辑器在单个断裂位点处断裂以产生引导编辑器的两个分开的半部，每个半部可融合至断裂内含肽序列。

示例性断裂内含肽是Ssp DnaE内含肽，其包含两个亚基，即DnaE-N和DnaE-C。这两个不同亚基由单独的基因编码，即dnaE-n和dnaE-c，它们分别编码DnaE-N和DnaE-C亚基。DnaE是天然存在于集胞藻(Synechocytis sp.)PCC6803的断裂内含肽，能够指导两种不同蛋白的反式剪接，每种蛋白包含与DnaE-N或DnaE-C的融合物。

其他天然存在或工程化的断裂内含肽序列是已知的或可由本文所述完整内含肽序列或本领域可获得的那些制备。断裂内含肽序列的示例可见于Stevens et al.,“Apromiscuous split intein with expanded protein engineering applications,”PNAS,2017,Vol.114:8538-8543；Iwai et al.,“Highly efficient protein trans-splicing by a naturally split DnaE intein from Nostc punctiforme,FEBS Lett,580:1853-1858，其各自通过引用并入本文。其他断裂内含肽序列可见于例如WO2013/045632、WO2014/055782、WO2016/069774和EP2877490，其各自的内容通过引用并入本文。

此外，体内和体外蛋白反式剪接已描述于(Shingledecker,et al.,Gene 207:187(1998),Southworth,et al.,EMBO J.17:918(1998)；Mills,et al.,Proc.Natl.Acad.Sci.USA,95:3543-3548(1998)；Lew,et al.,J.Biol.Chem.,273:15887-15890(1998)；Wu,et al.,Biochim.Biophys.Acta 35732:1(1998b),Yamazaki,et al.,J.Am.Chem.Soc.120:5591(1998),Evans,et al.,J.Biol.Chem.275:9091(2000)；Otomo,etal.,Biochemistry 38:16040-16044(1999)；Otomo,et al.,J.Biolmol.NMR 14:105-114(1999)；Scott,et al.,Proc.Natl.Acad.Sci.USA 96:13638-13643(1999))，并提供将蛋白表达为两个无活性片段随后进行连接以形成功能性产物的机会，例如，如图66和图67关于从两个单独表达的半部形成完整的PE融合蛋白所示。

在本文所述的不同实施方案中，连续进化方法(如，PACE)可用于进化碱基编辑器的第一部分。第一部分可包括单个组件或结构域，例如Cas9结构域、脱氨酶结构域或UGI结构域。然后可通过利用断裂内含肽多肽结构域分别表达进化部分和剩余非进化部分，将单独进化的组件或结构域融合到细胞内碱基编辑器的剩余部分。第一部分可更广泛地包括期望使用本文所述连续进化方法进化的碱基编辑器的任何第一氨基酸部分。在该实施方案中，第二部分是指未使用本文方法进化的碱基编辑器的剩余氨基酸部分。碱基编辑器的进化的第一部分和第二部分都可各自在细胞中利用断裂内含肽多肽结构域表达。细胞的天然蛋白剪接机制将重新组装进化的第一部分和非进化的第二部分，以形成单个融合蛋白进化的碱基编辑器。进化的第一部分可包含单个融合蛋白的N-或C-端部分。以类似的方式，使用第二正交反式剪接内含肽对可允许进化的第一部分包含单个融合蛋白的内部部分。

因此，本文所述碱基编辑器的进化和非进化组件中的任何一个可用断裂内含肽标签表达，以促进包含细胞内进化和非进化组件的完整碱基编辑器的形成。

已非常详细地研究了蛋白剪接加工的机制(Chong,et al.,J.Biol.Chem.1996,271,22159-22168；Xu,M-Q&Perler,F.B.EMBO Journal,1996,15,5146-5153)，以及在内含肽和外显肽剪接点发现保守的氨基酸(Xu,et al.,EMBO Journal,1994,13 5517-522)。本文所述构建体包含与第一基因的5'-端融合的内含肽序列(如，碱基编辑器的进化部分)。合适的内含肽序列可选自已知含有蛋白剪接元件的任何蛋白。可在万维网上找到包含所有已知内含肽的数据库(Perler,F.B.Nucleic Acids Research,1999,27,346-347)。内含肽序列在第二基因的3'端与5'端融合。为了将该基因靶向某个细胞器，可将肽信号与基因的编码序列融合。在第二基因之后，内含肽基因序列可根据需要重复多次，以在同一细胞中表达多种蛋白。对于含有多个内含肽的构建体，使用来自不同来源的内含肽元件可能有用。在待表达的最后一个基因序列之后，必须插入转录终止序列。在一个实施方案中，设计了经修饰的内含肽剪接单元，以便其既能催化切除来自内含肽的外显肽，又能防止外显肽的连接。发现火球菌(Pyrococcus)物种GB-DDNA聚合酶中C端外显肽连接的诱变产生改变的剪接元件，其诱导外显肽和内含肽的切割，但阻止随后的外显肽连接(Xu,M-Q&Perler,F.B.EMBOJournal,1996,15,5146-5153)。丝氨酸538突变为丙氨酸或甘氨酸诱导切割但阻止连接。由于在C端外显肽连接到内含肽处的保守氨基酸，其他内含肽剪接单元中等效残基的突变也应防止外显肽连接。不含核酸内切酶结构域的优选内含肽是蟾分枝杆菌(Mycobacteriumxenopi)GyrA蛋白(Telenti,et al.J.Bacteriol.1997,179,6378-6382)。其他已在自然界中发现或通过从含有内含肽的核酸内切酶中去除核酸内切酶结构域而人工产生(Chong,etal.J.Biol.Chem.1997,272,15587-15590)。在优选实施方案中，选择内含肽以使其组成执行剪接功能需要的最低数量的氨基酸，例如，来自蟾分枝杆菌GyrA蛋白的内含肽(Telenti,A.,et al.,J.Bacteriol.1997,179,6378-6382)。在替代实施方案中，选择没有核酸内切酶活性的内含肽，如来自蟾分枝杆菌GyrA蛋白的内含肽或经修饰去除核酸内切酶结构域的酿酒酵母(Saccharaomyces cerevisiae)VMA内含肽(Chong，1997)。内含肽剪接单元的进一步修饰可允许改变切割反应的反应速率，从而允许通过简单修饰剪接单元基因序列来控制蛋白剂量。

内含肽也可作为由两个单独转录和翻译的基因编码的两个片段存在。这些所谓的断裂内含肽自结合并催化反式蛋白剪接活性。已在不同的蓝藻细菌和古细菌中鉴定了断裂内含肽(Caspi et al,Mol Microbiol.50:1569-1577(2003)；Choi J.et al,J MolBiol.556:1093-1106(2006.)；Dassa B.et al,Biochemistry.46:322-330(2007.)；LiuX.and Yang J.,J Biol Chem.275:26315-26318(2003)；Wu H.et al.Proc Natl Acad SciUSA.￡5:9226-9231(1998.)；以及Zettler J.et al,FEBS Letters.553:909-914(2009)),但迄今为止尚未在真核生物中发现。最近，环境宏基因组数据的生物信息学分析揭示了26个具有新基因组排列的不同基因座。在各基因座上，保守的酶编码区被断裂内含肽中断，其中在编码内含肽亚结构域的部分之间插入独立的核酸内切酶基因。其中，5个基因座完全组装：DNA解旋酶(gp41-l、gp41-8)；肌苷-5'-单磷酸脱氢酶(IMPDH-1)；和核糖核苷酸还原酶催化亚基(NrdA-2和NrdJ-1)。这种断裂的基因组织似乎主要存在于噬菌体中(Dassa etal,Nucleic Acids Research.57:2560-2573(2009))。

断裂内含肽Npu DnaE的特征在于具有蛋白反式剪接反应的最高报告率。此外，对于不同的外显肽序列的Npu DnaE蛋白剪接反应，6至37℃的温度和存在高达6M尿素被认为是稳健且高产的(Zettler J.et al,FEBS Letters.553:909-914(2009)；Iwai I.et al,FEBS Letters 550:1853-1858(2006))。如预期，在这些内含肽的N结构域引入Cysl Ala突变时，最初的N至S-酰基转移以及因此蛋白剪接被阻断。不幸地，C-端切割反应也几乎被完全抑制。C端剪接连接处的天冬酰胺环化对N端易裂肽键的酰基转移的依赖性似乎是自然断裂DnaE内含肽等位基因共有的独特性质(Zettler J.et al.FEBS Letters.555:909-914(2009))。

蛋白剪接的机制通常有四个步骤[29-30]：1)内含肽N-端的N-S或N-O酰基转移，这破坏上游肽键并在N-外显肽和内含肽的第一个氨基酸(Cys或Ser)侧链之间形成酯键；2)酯基转移将N-外显肽重新定位至内含肽C-端，形成将N-外显肽连接到C-外显肽的第一个氨基酸(Cys、Ser或Thr)侧链的新酯键；3)Asn环化破坏内含肽和C-外显肽之间的肽键；和4)S-N或O-N酰基转移，其利用N-外显肽和C-外显肽之间的肽键代替酯键。

由断裂内含肽催化的蛋白反式剪接提供了用于蛋白连接的完全酶促方法[31]。断裂内含肽本质上是断裂成两部分(分别命名为N-内含肽和C-内含肽)的连续内含肽(如，微型内含肽)。断裂内含肽的N-内含肽和C-内含肽可以非共价结合形成活性内含肽，并以与连续内含肽基本相同的方式催化剪接反应。已在自然界中发现了断裂内含肽，还在实验室中进行了工程化改造[31-35]。如本文所用，术语“断裂内含肽”是指其中在N-端和C-端氨基酸序列之间存在一个或多个肽键断裂，使得N-端和C-端序列成为单独的分子的任何内含肽，其可非共价地重新结合或重组为对反式剪接反应起作用的内含肽。任何具有催化活性的内含肽或其片段均可用于衍生用于本发明方法的断裂内含肽。例如，一方面，断裂内含肽可源自真核内含肽。另一方面，断裂内含肽可源自细菌内含肽。另一方面，断裂内含肽可源自古细菌内含肽。优选地，如此衍生的断裂内含肽将仅具有催化反式剪接反应所必需的氨基酸序列。

如本文所用，“N-端断裂内含肽(In)”是指包含对反式剪接反应起作用的N-端氨基酸序列的任何内含肽序列。因此，In还包括在发生反式剪接时剪出的序列。In可包含天然存在的内含肽序列的N-端部分的修饰的序列。例如，In可包含额外的氨基酸残基和/或突变的残基，只要包含这样的额外和/或突变残基不会使In在反式剪接中失去功能。优选地，包含额外和/或突变残基提高或增强In的反式剪接活性。

如本文所用，“C-端断裂内含肽(Ic)”是指包含对反式剪接反应起作用的C-端氨基酸序列的任何内含肽序列。一方面，Ic包含4至7个连续氨基酸残基，其中至少4个氨基酸来自衍生其的内含肽的最后的β-链。因此，Ic还包括在发生反式剪接时剪出的序列。Ic可包含天然存在的内含肽序列的C-端部分的修饰的序列。例如，Ic可包含额外的氨基酸残基和/或突变的残基，只要包含这样的额外和/或突变的残基不会使In在反式剪接中失去功能。优选地，包含额外和/或突变的残基提高或增强Ic的反式剪接活性。

在本发明的一些实施方案中，与Ic或In连接的肽可包含额外的化学部分，其中包括荧光基团、生物素、聚乙二醇(PEG)、氨基酸类似物、非天然氨基酸、磷酸盐基、糖基、放射性同位素标记和药物分子。在其他实施方案中，与Ic连接的肽可包含一个或多个化学反应性基团，其中包括酮、醛、Cys残基和Lys残基。存在“内含肽剪接多肽(ISP)”时，断裂内含肽的N-内含肽和C-内含肽可非共价结合形成活性内含肽并催化剪接反应。如本文所用，“内含肽剪接多肽(ISP)”是指从断裂内含肽去除Ic、In或两者时保留的断裂内含肽的氨基酸序列部分。在某些实施方案中，In包括ISP。在另一个实施方案中，Ic包括ISP。在又一个实施方案中，ISP是单独的肽，其既不与In也不与Ic共价连接。

断裂内含肽可通过工程化改造非结构化环中的一个或多个断裂位点或干预微型内含肽结构中存在的-12个保守β-链之间的氨基酸序列而由连续内含肽产生[25-28]。β-链之间区域内断裂位点的位置可能存在一定的灵活性，条件是断裂的产生不会破坏内含肽的结构，特别是结构化的β-链，达到足以使蛋白剪接活性丧失的程度。

在蛋白反式剪接中，一个前体蛋白由N-外显肽部分和后面的N-内含肽组成，另一个前体蛋白由C-内含肽和后面的C-外显肽部分组成，并且反式剪接反应(由N-和C-内含肽共同催化)切除两个内含肽序列并用肽键连接这两个外显肽序列。蛋白反式剪接是酶促反应，可在非常低(如，微摩尔)浓度的蛋白下进行，并且可在生理条件下进行。

其他可编程核酸酶

在本文所述不同实施方案中，引导编辑器包含napDNAbp，如Cas9蛋白。这些蛋白通过与向导RNA(或PEgRNA，视情况而定)复合而“可编程”，其引导Cas9蛋白到DNA的靶位点，其具有与gRNA(或PEgRNA)的间隔区部分互补的序列，并且还具有所需的PAM序列。然而，在此设想的某些实施方案中，napDNAbp可用不同类型的可编程蛋白取代，例如锌指核酸酶或转录激活因子样效应物核酸酶(TALEN)。

图1J描绘了本文考虑的引导编辑的这种变化，即将napDNAbp(如，SpCas9切口酶)用任何可编程核酸酶结构域(如，锌指核酸酶(ZFN)或转录激活因子样效应物核酸酶(TALEN))置换。因此，考虑合适的核酸酶不一定需要由核酸靶向分子(如，向导RNA)“编程”，而是可通过定义DNA结合结构域的特异性来编程，例如尤其是核酸酶。正如利用napDNAbp部分进行引导编辑，最好对此类替代的可编程核酸酶进行修饰，以便仅切割靶DNA的一条链。换言之，可编程核酸酶应当优选起切口酶的作用。一旦选择了可编程核酸酶(如，ZFN或TALEN)，就可将额外的功能工程化到系统中，以使其能够按照类似引导编辑机制进行操作。例如，可编程核酸酶可通过结合(如，通过化学接头)RNA或DNA延伸臂来修饰，其中延伸臂包含引物结合位点(PBS)和DNA合成模板。可编程核酸酶也可(如，通过化学或氨基酸接头)结合聚合酶，聚合酶的性质取决于延伸臂是DNA还是RNA。在RNA延伸臂的情况下，聚合酶可以是RNA依赖性DNA聚合酶(如，逆转录酶)。在DNA延伸臂的情况下，聚合酶可以是DNA依赖性DNA聚合酶(如，原核生物聚合酶，包括PolI、PolII或PolIII，或真核生物聚合酶，包括Pola、Polb、Polg、Pold、Pole或Polz)。该系统还可包括作为融合物添加到可编程核酸酶的其他功能或以反式添加来促进整个反应(如，(a)解旋酶在切割位点解开DNA以获得具有可用的3'端的切割链作为引物，(b)FEN1以帮助去除切割链上的内源性链，以驱动反应向着用合成链置换内源性链，或(c)nCas9:gRNA复合物形成相反链上的第二位点切口，这可能有助于通过非编辑链的有利细胞修复来驱动合成修复的整合)。以类似于使用napDNAbp进行引导编辑的方式，这种具有其他可编程核酸酶的复合物可用于合成，然后将携带感兴趣的编辑的新合成的DNA置换链永久地安装到DNA的靶位点中。

合适的替代可编程核酸酶是本领域所熟知的，可用于代替napDNAbp:gRNA复合物来构建替代的引导编辑器系统，其可被编程以选择性地结合DNA的靶位点，并且其可进一步以上述方式修饰来将聚合酶和包含引物结合位点和DNA合成模板的RNA或DNA延伸臂共定位到特定切口位点。例如，如图1J所示，转录激活因子样效应物核酸酶(TALEN)可用作本文所述引导编辑方法和组合物中的可编程核酸酶。TALENS是通过将TAL效应物DNA结合结构域与DNA切割结构域融合而产生的人工限制酶。这些试剂可实现高效、可编程和特异的DNA切割，是原位基因组编辑的强大工具。可快速工程化改造转录激活因子样效应物(TALE)来结合几乎任何DNA序列。如本文所用，术语TALEN是广义的并且包括单体TALEN，其可切割双链DNA而无需另一个TALEN的帮助。术语TALEN也用于指一对TALEN中的一个或两个成员，其被工程化改造为在同一位点合作切割DNA。合作的TALEN可被称为左TALEN和右TALEN，其与DNA的旋向有关。参见美国系列号12/965,590；美国系列号13/426,991(美国专利号8,450,471)；美国系列号13/427,040(美国专利号8,440,431)；美国系列号13/427,137(美国专利号8,440,432)；以及美国系列号13/738,381，其全部通过引用以其整体并入本文。此外，TALENS描述于WO 2015/027134,US 9,181,535,Boch et al.,"Breaking the Code of DNA BindingSpecificity of TAL-Type III Effectors",Science,vol.326,pp.1509-1512(2009),Bogdanove et al.,TAL Effectors:Customizable Proteins for DNA Targeting,Science,vol.333,pp.1843-1846(2011),Cade et al.,"Highly efficient generationof heritable zebrafish gene mutations using homo-and heterodimeric TALENs",Nucleic Acids Research,vol.40,pp.8001-8010(2012),以及Cermak et al.,"Efficientdesign and assembly of custom TALEN and other TAL effector-based constructsfor DNA targeting",Nucleic Acids Research,vol.39,No.17,e82(2011)，其各自通过引用并入本文。

如图1J所示，锌指核酸酶也可用作替代的可编程核酸酶，用于代替napDNAbps(如，Cas9切口酶)进行引导编辑。与TALENS一样，ZFN蛋白可经修饰，使其起切口酶的作用，即，工程化改造ZFN，使其以类似于与本文所述的引导编辑器一起使用的napDNAbp的方式仅切割靶DNA的一条链。ZFN蛋白已在本领域中广泛描述，例如，Carroll et al.,“GenomeEngineering with Zinc-Finger Nucleases,”Genetics,Aug 2011,Vol.188:773-782；Durai et al.,“Zinc finger nucleases:custom-designed molecular scissors forgenome engineering of plant and mammalian cells,”Nucleic Acids Res,2005,Vol.33:5978-90；and Gaj et al.,“ZFN,TALEN,and CRISPR/Cas-based methods forgenome engineering,”Trends Biotechnol.2013,Vol.31:397-405，其各自通过引用以其整体并入本文。

[3]聚合酶(如，逆转录酶)

在不同实施方案中，本文公开的引导编辑器(PE)系统包括聚合酶(如，DNA依赖性DNA聚合酶或RNA依赖性DNA聚合酶，例如逆转录酶)，或其变体，其可与napDNAbp或其他可编程核酸酶作为融合蛋白提供，或以反式提供。

任何聚合酶均可用于本文公开的引导编辑器中。聚合酶可以是野生型聚合酶、功能片段、突变体、变体或截短变体等。聚合酶可包括来自真核生物、原核生物、古细菌或病毒生物体的野生型聚合酶，和/或聚合酶可通过基因工程、诱变、基于定向进化的过程进行修饰。聚合酶可包括T7DNA聚合酶、T5DNA聚合酶、T4DNA聚合酶、Klenow片段DNA聚合酶、DNA聚合酶III等。聚合酶还可以是热稳定的，并且可包括Taq、Tne、Tma、Pfu、Tfl、Tth、Stoffel片段、

和

聚合酶、KOD、Tgo、JDF3及其突变体、变体和衍生物(参见美国专利号5,436,149；美国专利号4,889,818；美国专利号4,965,185；美国专利号5,079,352；美国专利号5,614,365；美国专利号5,374,553；美国专利号5,270,179；美国专利号5,047,342号；美国专利号5,512,462；WO92/06188；WO92/06200；WO96/10640；Barnes,W.M.,Gene 112:29-35(1992)；Lawyer,F.C.,et al.,PCR Meth.Appl.2:275-287(1993)；Flaman,J.-M,et al.,Nuc.Acids Res.22(15):3259-3260(1994)，其各自通过引用并入)。为了合成更长的核酸分子(如，长度超过约3-5Kb的核酸分子)，可使用至少两种DNA聚合酶。在某些实施方案中，一种聚合酶可基本上缺乏3'核酸外切酶活性，而另一种聚合酶可具有3'核酸外切酶活性。这种配对可包括相同或不同的聚合酶。基本上缺乏3'核酸外切酶活性的DNA聚合酶的示例包括但不限于Taq、Tne(exo-)、Tma(exo-)、Pfu(exo-)、Pwo(exo-)、exo-KOD和TthDNA聚合酶及其突变体、变体和衍生物。

优选地，可用于本文公开的引导编辑器中的聚合酶是“模板依赖性”聚合酶(因为聚合酶旨在依赖于DNA合成模板来指定引导编辑期间合成的DNA链的序列。如本文所使用，术语“模板DNA分子”是指例如在PEgRNA的DNA合成模板的引物延伸反应中通过DNA聚合酶合成互补核酸链的核酸链。

如本文所用，术语“模板依赖性方式”旨在涉及引物分子的模板依赖性延伸(如，通过DNA聚合酶合成DNA)的过程。术语“模板依赖性方式”是指RNA或DNA的多核苷酸合成，其中新合成的多核苷酸链的序列由众所周知的互补碱基配对规则决定(参见，例如，Watson,J.D.et al.,In:Molecular Biology of the Gene,4th Ed.,W.A.Benjamin,Inc.,MenloPark,Calif.(1987))。术语“互补”是指两条多核苷酸链的区域之间或两个核苷酸之间通过碱基配对的序列互补的广义概念。众所周知，腺嘌呤核苷酸能够与胸腺嘧啶或尿嘧啶核苷酸形成特定的氢键(“碱基配对”)。类似地，已知胞嘧啶核苷酸能够与鸟嘌呤核苷酸碱基配对。因此，在引导编辑的情况下，可以说引导编辑器的聚合酶针对DNA合成模板合成的DNA单链与DNA合成模板的序列“互补”。

A.示例性聚合酶

在不同实施方案中，本文所述的引导编辑器包含聚合酶。本公开涵盖从任何天然存在的生物体或病毒获得或从商业或非商业来源获得的任何野生型聚合酶。此外，可用于本公开的引导编辑器中的聚合酶可包括任何天然存在的突变聚合酶、工程化突变聚合酶或其他变体聚合酶，包括保留功能的截短变体。可用于本文的聚合酶也可被设计为包含特定的氨基酸取代，例如本文具体公开的那些。在某些优选实施方案中，可用于本公开的引导编辑器的聚合酶是基于模板的聚合酶，即它们以模板依赖性方式合成核苷酸序列。

聚合酶是合成核苷酸链，并且可与此处描述的引导编辑器系统结合使用的酶。聚合酶优选为“模板依赖性”聚合酶(即，基于模板链的核苷酸碱基的顺序合成核苷酸链的聚合酶)。在某些配置中，聚合酶也可以是“非模板依赖性”(即，不需要模板链就合成核苷酸链的聚合酶)。聚合酶还可进一步分类为“DNA聚合酶”或“RNA聚合酶”。在不同实施方案中，引导编辑器系统包含DNA聚合酶。在不同实施方案中，DNA聚合酶可以是“DNA依赖性DNA聚合酶”(即，模板分子由此是DNA链)。在这种情况下，DNA模板分子可以是PEgRNA，其中延伸臂包含DNA链。在这种情况下，PEgRNA可被称为嵌合或杂合PEgRNA，其包含RNA部分(即，向导RNA组件，包括间隔区和gRNA核心)和DNA部分(即，延伸臂)。在不同的其他实施方案中，DNA聚合酶可以是“RNA依赖性DNA聚合酶”(即，模板分子由此是RNA链)。在这种情况下，PEgRNA是RNA，即包括RNA延伸。术语“聚合酶”还可指催化核苷酸聚合(即，聚合酶活性)的酶。通常，酶将在与多核苷酸模板序列退火的引物(如，与PEgRNA的引物结合位点退火的引物序列)的3'-端处开始合成，并将向着模板链的5'端前进。“DNA聚合酶”催化脱氧核苷酸的聚合。如本文所用提及DNA聚合酶，术语DNA聚合酶包括“其功能片段”。“其功能片段”是指野生型或突变型DNA聚合酶的任何部分，其包含少于聚合酶的完整氨基酸序列并在至少一组条件下保留催化核苷酸聚合的能力。这样的功能片段可作为单独的实体存在，或者它可以是较大多肽如融合蛋白的组分。

在一些实施方案中，聚合酶可来自噬菌体。噬菌体DNA聚合酶通常缺乏5'至3'核酸外切酶活性，因为该活性由单独的多肽编码。合适的DNA聚合酶的示例是T4、T7和phi29DNA聚合酶。可商购的酶是：T4(可从许多来源获得，如Epicentre)和T7(可从许多来源获得，如未经修饰来自Epicenter，和用于3'至5'外切T7“测序酶”DNA聚合酶来自USB)。

在其他实施方案中，聚合酶是古细菌聚合酶。已在古细菌中鉴定出2种不同类型的DNA聚合酶：1.B/pol家族I型(来自强烈火球菌(Pyrococcus furiosus)的Pfu的同源物)和2.pol II型(强烈火球菌(P.furiosus)DP1/DP22-亚基聚合酶的同源物)。来自这两类的DNA聚合酶已显示天然缺乏相关的5'至3'核酸外切酶活性，并具有3'至5'核酸外切酶(校对)活性。合适的DNA聚合酶(pol I或pol II)可源自具有与期望的测定温度相似的最佳生长温度的古细菌。

热稳定的古细菌DNA聚合酶分离自火球菌属(Pyrococcus)物种(火球菌(furiosus),GB-D物种,woesii,abysii,horikoshii)，热球菌属(Thermococcus)物种(kodakaraensis KOD1,litoralis,物种9degrees North-7,物种JDF-3,gorgonarius)，隐蔽热网菌(Pyrodictium occultum)和闪烁古生球菌(Archaeoglobus fulgidus)。

聚合酶也可来自真细菌物种。有3类真细菌DNA聚合酶pol I、II和III。Pol I DNA聚合酶家族中的酶具有5'至3'核酸外切酶活性，某些成员还表现出3'至5'核酸外切酶活性。Pol II DNA聚合酶天然缺乏5'至3'核酸外切酶活性，但确实表现出3'至5'核酸外切酶活性。Pol III DNA聚合酶代表细胞的主要复制型DNA聚合酶，由多个亚基组成。Pol III催化亚基缺乏5'至3'核酸外切酶活性，但在某些情况下，3'至5'核酸外切酶活性位于同一多肽中。

有各种可商购的Pol I DNA聚合酶，其中一些经修饰以降低或消除5'至3'核酸外切酶活性。

合适的热稳定性pol I DNA聚合酶可从多种嗜热真细菌中分离，包括栖热菌属(Thermus)物种和海栖热袍菌(Thermotoga maritima)，例如栖热水生菌(Thermusaquaticus,Taq)、嗜热栖热菌(Thermus thermophilus,Tth)和海栖热袍菌(Thermotogamaritima,TmaUlTma)。

与以上所列那些相关的其他真细菌描述于Thermophilic Bacteria(Kristjansson,J.K.,ed.)CRC Press,Inc.,Boca Raton,Fla.,1992。

本发明进一步提供嵌合或非嵌合DNA聚合酶，根据美国专利号5,677,152、6,479,264和6,183,998中公开的方法进行化学修饰，其内容通过引用以其整体在此并入。

在以下参考文献中描述了与以上所列那些相关的其他古细菌DNA聚合酶：Archaea:A Laboratory Manual(Robb,F.T.and Place,A.R.,eds.),Cold Spring HarborLaboratory Press,Cold Spring Harbor,N.Y.,1995and Thermophilic Bacteria(Kristjansson,J.K.,ed.)CRC Press,Inc.,Boca Raton,Fla.,1992。

B.示例性逆转录酶

在不同实施方案中，本文所述的引导编辑器包含逆转录酶作为聚合酶。本公开涵盖从任何天然存在的生物体或病毒获得的任何野生型逆转录酶或从商业或非商业来源获得。此外，可用于本公开的引导编辑器中的逆转录酶可包括任何天然存在的突变RT、工程化突变RT或其他变体RT，包括保留功能的截短变体。RT也可被设计成含有特定的氨基酸取代，例如本文具体公开的那些。

逆转录酶是多功能酶，通常具有三种酶活性，包括RNA依赖性和DNA依赖性DNA聚合活性，以及催化RNA-DNA杂合体中RNA裂解的RNaseH活性。一些逆转录酶突变体已禁用RNaseH部分以防止对mRNA的意外损伤。这些使用mRNA作为模板合成互补DNA(cDNA)的酶在RNA病毒中首次鉴定。随后，直接从病毒颗粒、细胞或组织中分离和纯化逆转录酶(例如，参见，Kacian et al.,1971,Biochim.Biophys.Acta 46:365-83；Yang et al.,1972,Biochem.Biophys.Res.Comm.47:505-11；Gerard et al.,1975,J.Virol.15:785-97；Liuet al.,1977,Arch.Virol.55 187-200；Kato et al.,1984,J.Virol.Methods 9:325-39；Luke et al.,1990,Biochem.29:1764-69，以及Le Grice et al.,1991,J.Virol.65:7004-07,其各自通过引用并入)。最近，为了寻求改进的特性，例如热稳定性、保真度和活性，已创建了突变体和融合蛋白。本文考虑本领域已知的或可使用本领域已知的方法制备的逆转录酶的任何野生型、变体和/或突变体形式。

逆转录酶(RT)基因(或其中包含的遗传信息)可从许多不同的来源获得。例如，该基因可从逆转录病毒感染的真核细胞中获得，或从包含逆转录病毒基因组的一部分或整个基因组的许多质粒中获得。此外，可从逆转录病毒中获得含有RT基因的信使RNA样RNA。RT来源的示例包括但不限于莫洛尼鼠白血病病毒(M-MLV或MLVRT)；人T细胞白血病病毒1型(HTLV-1)；牛白血病病毒(BLV)；劳斯肉瘤病毒(RSV)；人免疫缺陷病毒(HIV)；酵母，包括酵母菌、脉孢菌属、果蝇属；灵长类动物；和啮齿动物。参见，例如，Weiss,et al.,美国专利号4,663,290(1987)；Gerard,G.R.,DNA:271-79(1986)；Kotewicz,M.L.,et al.,Gene 35:249-58(1985)；Tanese,N.,et al.,Proc.Natl.Acad.Sci.(USA):4944-48(1985)；Roth,M.J.,at al.,J.Biol.Chem.260:9326-35(1985)；Michel,F.,et al.,Nature 316:641-43(1985)；Akins,R.A.,et al.,Cell 47:505-16(1986),EMBO J.4:1267-75(1985)；以及Fawcett,D.F.,Cell 47:1007-15(1986)(其各自通过引用以其整体并入本文)。

野生型RT

与本文公开的引导编辑器一起使用的示例性酶可包括但不限于M-MLV逆转录酶和RSV逆转录酶。具有逆转录酶活性的酶是可商购的。在某些实施方案中，逆转录酶以反式提供给引导编辑器(PE)系统的其他组件。即，逆转录酶作为单独的组分表达或以其他方式提供，即，不是作为与napDNAbp的融合蛋白。

本领域普通技术人员将认识到野生型逆转录酶，包括但不限于莫洛尼鼠白血病病毒(M-MLV)；人免疫缺陷病毒(HIV)逆转录酶和禽肉瘤-白血病病毒(ASLV)逆转录酶，包括但不限于劳斯肉瘤病毒(RSV)逆转录酶、禽成髓细胞瘤病毒(AMV)逆转录酶、禽成红细胞增多症病毒(AEV))辅助病毒MCAV逆转录酶，禽骨髓细胞瘤病毒MC29辅助病毒MCAV逆转录酶，禽网状内皮增生病毒(REV-T)辅助病毒REV-A逆转录酶，禽肉瘤病毒UR2辅助病毒UR2AV逆转录酶，禽肉瘤病毒Y73AV辅助病毒逆转录酶、劳斯相关病毒(RAV)逆转录酶和成髓细胞血症相关病毒(MAV)逆转录酶可适当地用于本文所述主题方法和组合物。

示例性的野生型RT酶如下：

变体和易错RT

逆转录酶对于从RNA模板合成互补DNA(cDNA)链是必不可少的。逆转录酶是由表现出不同生化活性的不同结构域组成的酶。这些酶催化从RNA模板合成DNA，如下所示：在退火引物存在的情况下，逆转录酶与RNA模板结合并引发聚合反应。RNA依赖性DNA聚合酶活性合成互补DNA(cDNA)链，并结合dNTP。RNaseH活性降解DNA:RNA复合物的RNA模板。因此，逆转录酶包含(a)识别并结合RNA/DNA杂合体的结合活性，(b)RNA依赖性DNA聚合酶活性，和(c)RNaseH活性。此外，通常认为逆转录酶具有不同的属性，包括它们的热稳定性、持续合成能力(dNTP掺入率)和保真度(或错误率)。本文考虑的逆转录酶变体可包括影响或改变这些酶活性(如，RNA依赖性DNA聚合酶活性、RNaseH活性或DNA/RNA杂合结合活性)或酶特性(如，热稳定性、持续合成能力或保真度)中的任何一种或多种的逆转录酶的任何突变。此类变体可在本领域的公共领域中获得，可商购获得，或可使用已知的诱变方法制备，包括定向进化过程(如，PACE或PANCE)。

在不同实施方案中，逆转录酶可以是变体逆转录酶。如本文所用，“变体逆转录酶”包括任何天然存在或基因工程改造的变体，其包含一个或多个相对于参考序列(如，参考野生型序列)的突变(包括单一突变、倒置、缺失、插入和重排)。RT自然具有几种活性，包括RNA依赖性DNA聚合酶活性、核糖核酸酶H活性和DNA依赖性DNA聚合酶活性。总的来说，这些活性使酶能够将单链RNA转化为双链cDNA。在逆转录病毒和逆转录转座子中，这种cDNA可整合到宿主基因组中，通过宿主细胞转录可从中产生新的RNA拷贝。变体RT可包含影响这些活性中的一个或多个突变(减少或增加这些活性，或一起消除这些活性)。此外，变体RT可包含一种或多种突变，这些突变使RT或多或少稳定，更不容易聚集，并促进纯化和/或检测，和/或其他性质或特征的修饰。

本领域普通技术人员将认识到衍生自其他逆转录酶的变体逆转录酶，包括但不限于莫洛尼鼠白血病病毒(M-MLV)；人免疫缺陷病毒(HIV)逆转录酶和禽肉瘤-白血病病毒(ASLV)逆转录酶，包括但不限于劳斯肉瘤病毒(RSV)逆转录酶、禽成髓细胞瘤病毒(AMV)逆转录酶、禽成红细胞增多症病毒(AEV))辅助病毒MCAV逆转录酶，禽骨髓细胞瘤病毒MC29辅助病毒MCAV逆转录酶，禽网状内皮增生病毒(REV-T)辅助病毒REV-A逆转录酶，禽肉瘤病毒UR2辅助病毒UR2AV逆转录酶，禽肉瘤病毒Y73AV辅助病毒逆转录酶、劳斯相关病毒(RAV)逆转录酶和成髓细胞相关病毒(MAV)逆转录酶可适当地用于本文所述主题方法和组合物。

制备变体RT的一种方法是通过遗传修饰(如，通过修饰野生型逆转录酶的DNA序列)。本领域已知许多允许DNA序列随机和靶向突变的方法(参见，例如，Ausubelet.al.Short Protocols in Molecular Biology(1995)3.sup.rd Ed.John Wiley&Sons,Inc.)。此外，还有许多用于定点诱变的市售试剂盒，包括常规方法和基于PCR的方法。示例包括QuikChange定点诱变试剂盒

定点诱变试剂盒(NEWENGLAND

)和GeneArt^TM定点诱变系统(THERMOFISHER

)。

此外，可根据本领域技术人员已知的方法通过插入突变或截短(N-末端、内部或C-末端插入或截短)来产生突变逆转录酶。如本文所用，术语“突变”是指序列(如，核酸或氨基酸序列)内的残基被另一残基取代，或缺失或在序列中插入一个或多个残基。突变在本文中通常通过确定原始残基随后是该残基在序列中的位置以及新取代残基的身份来描述。用于进行本文提供的氨基酸取代(突变)的各种方法是本领域公知的，并且由例如Green andSambrook,Molecular Cloning:A Laboratory Manual(4th ed.,Cold Spring HarborLaboratory Press,Cold Spring Harbor,N.Y.(2012))提供。突变可包括多种类别，例如单碱基多态性、微重复区域、插入缺失和倒置，并且不意味着以任何方式进行限制。突变可包括“功能丧失性”突变，这是降低或消除蛋白活性的突变的正常结果。大多数功能丧失性突变是隐性的，因为在杂合子中，第二染色体拷贝携带全功能蛋白的基因编码的未突变版本，其存在补偿了突变的影响。突变还包括“功能获得性”突变，这是一种赋予正常情况下不存在的蛋白或细胞异常活性的突变。许多功能获得性突变位于调节序列中而不是编码区中，因此会产生许多后果。例如，突变可能导致一个或多个基因在错误的组织中表达，这些组织获得了它们通常缺乏的功能。由于其性质，功能获得性突变通常是显性的。

本领域已知的较早的定点诱变方法依赖于将待突变的序列亚克隆到载体中，例如M13噬菌体载体，其允许分离单链DNA模板。在这些方法中，将诱变引物(即，能够与待突变位点退火但在待突变位点带有一个或多个错配核苷酸的引物)与单链模板退火，然后从诱变引物的3′端开始聚合模板的互补序列。然后将得到的双链体转化到宿主细菌中，并针对期望的突变筛选噬菌斑。

最近，定点诱变采用了PCR方法，其优点是不需要单链模板。此外，还开发了不需要亚克隆的方法。在进行基于PCR的定点诱变时，必须考虑几个问题。首先，在这些方法中，需要减少PCR循环的次数，以防止聚合酶引入非期望的突变扩大。其次，必须进行选择以减少反应中持续存在的非突变亲本分子的数量。第三，为了允许使用单个PCR引物组，优选延伸长度的PCR方法。第四，由于一些热稳定聚合酶的非模板依赖性末端延伸活性，在PCR产生的突变产物的平端连接之前，通常需要在程序中加入末端补齐步骤。

本领域中存在随机诱变方法，其将导致一组带有一个或多个随机定位突变的突变体。然后可筛选出这样一组表现出期望特性的突变体，例如相对于野生型逆转录酶增加的稳定性。

随机诱变方法的一个示例是所谓的“易错PCR方法”。顾名思义，该方法在DNA聚合酶不支持高保真掺入的条件下扩增给定序列。尽管促进不同DNA聚合酶易错掺入的条件各不相同，但本领域技术人员可确定给定酶的此类条件。许多DNA聚合酶在扩增保真度方面的关键变量是，例如缓冲液中二价金属离子的类型和浓度。因此可应用锰离子的使用和/或镁或锰离子浓度的变化来影响聚合酶的错误率。

在不同方面，引导编辑器的RT可以是“易错”逆转录酶变体。可使用本领域已知和/或可获得的易错逆转录酶。应当理解，逆转录酶天然不具有任何校对功能；因此逆转录酶的错误率通常高于包含校对活性的DNA聚合酶。任何特定逆转录酶的错误率都是酶“保真度”的特性，其代表了DNA针对其RNA模板的模板定向聚合的准确性。具有高保真度的RT具有低错误率。相反，具有低保真度的RT具有高错误率。据报道，基于M-MLV的逆转录酶的保真度在合成的15,000至27,000个核苷酸中有一个错误范围内的错误率。参见Boutabout et al.,“DNA synthesis fidelity by the reverse transcriptase of the yeastretrotransposon Ty1,”Nucleic Acids Res,2001,29:2217-2222，其通过引用并入。因此，出于本申请的目的，被认为“易错”或被认为具有“易错保真度”的那些逆转录酶是在合成的15,000个核苷酸中具有小于一个错误的错误率的那些逆转录酶。

还可通过起始RT酶(如，野生型M-MLVRT)的诱变产生易错逆转录酶。诱变方法不受限制，可包括定向进化过程，例如噬菌体辅助连续进化(PACE)或噬菌体辅助非连续进化(PANCE)。如本文所用，术语“噬菌体辅助连续进化(PACE)”是指采用噬菌体作为病毒载体的连续进化。PACE技术的一般概念已描述于，例如2009年9月8日提交的国际PCT申请PCT/US2009/056194，2010年3月11日以WO2010/028347公布；2011年12月22日提交的PCT国际申请PCT/US2011/066747，2012年6月28日以WO2012/088381公布；美国申请，2015年5月5日授权的美国专利号9,023,594；2015年1月20日提交的国际PCT申请PCT/US2015/012022，2015年9月11日以WO2015/134121公布，以及2016年4月15日提交的国际PCT申请PCT/US2016/027795，2016年10月20日以WO2016/168631公开，其各自全部内容通过引用并入本文。

还可通过噬菌体辅助非连续进化(PANCE)来获得易错逆转录酶，如本文所用，其是指采用噬菌体作为病毒载体的非连续进化。PANCE是快速体内定向进化的简化技术，使用进化的“选择噬菌体”(SP)的连续瓶转移，其中包含在新鲜大肠杆菌宿主细胞中待进化的感兴趣基因，从而允许宿主大肠杆菌内的基因保持恒定，而SP中包含的基因不断进化。连续瓶转移一直是广泛使用的微生物实验室进化方法，最近已经开发出类似的方法用于噬菌体进化。PANCE系统的特点是比PACE系统的严格性更低。

其他易错逆转录酶已在文献中有所描述，其各自都被考虑用于本文的方法和组合物中。例如，易错逆转录酶已描述于Bebenek et al.,“Error-prone Polymerization byHIV-1Reverse Transcriptase,”J Biol Chem,1993,Vol.268:10324-10334，以及Sebastian-Martin et al.,“Transcriptional inaccuracy threshold attenuatesdifferences in RNA-dependent DNA synthesis fidelity between retroviralreverse transcriptases,”Scientific Reports,2018,Vol.8:627,其各自通过引用并入。更进一步地，逆转录酶，包括易错逆转录酶可获自商业供应商,包括

(II)逆转录酶，AMV逆转录酶，

逆转录酶和M-MuLV逆转录酶，均来自NEW ENGLAND

或AMV逆转录酶XL,SMARTScribe逆转录酶，GPR超纯MMLV逆转录酶，均来自TAKARA BIO USA,INC.(以前的CLONTECH)。

本公开还考虑在RNaseH结构域中具有突变的逆转录酶。如上所述，逆转录酶的内在特性之一是RNaseH活性，其在聚合的同时切割RNA:cDNA杂合体的RNA模板。RNaseH活性可能不适合长cDNA的合成，因为RNA模板可能会在全长逆转录完成之前降解。RNaseH活性也可能降低逆转录效率，可能是由于它与酶的聚合酶活性竞争。因此，本公开内容考虑包含经修饰的RNaseH活性的任何逆转录酶变体。

本公开还考虑在RNA依赖性DNA聚合酶结构域中具有突变的逆转录酶。如上所述，逆转录酶的内在特性之一是RNA依赖性DNA聚合酶活性，其将核碱基结合到由RNA:cDNA杂合体的模板RNA链编码的新生cDNA链中。可增加或减少RNA依赖性DNA聚合酶活性(即，就其掺入速率而言)以增加或减少酶的持续合成能力。因此，本公开考虑了包含经修饰的RNA依赖性DNA聚合酶活性的任何逆转录酶变体，使得酶的持续合成能力相对于未经修饰的版本增加或减少。

本文还考虑了具有改变的热稳定性特征的逆转录酶变体。逆转录酶耐受高温的能力是cDNA合成的重要方面。升高的反应温度有助于使具有强二级结构和/或高GC含量的RNA变性，从而允许逆转录酶读取序列。因此，在较高温度下进行逆转录可实现全长cDNA合成和更高的产率，这可能会导致改善3′瓣ssDNA的生成，这是引导编辑加工的结果。野生型M-MLV逆转录酶的最佳温度范围通常为37-48℃；然而，可能会引入允许在超过48℃的更高温度下进行逆转录活性的突变，包括49℃、50℃、51℃、52℃、53℃、54℃、55℃、56℃、57℃、58℃、59℃、63℃、63℃、63℃、64℃、65℃、66℃及更高。

本文考虑的变体逆转录酶，包括易错RT、热稳定RT、增加持续合成能力的RT，可通过不同的常规策略进行工程化改造，包括诱变或进化过程。在某些情况下，可通过引入单个突变来产生变体。在其他情况下，变体可能需要不止一个突变。对于包含多于一个突变的那些突变体，可通过定点诱变将已鉴定的突变引入野生型基因中并与特定突变体携带的其他突变分离来评估给定突变的影响。这样产生的单一突变体的筛选试验将允许单独确定该突变的影响。

本文使用的变体RT酶还可包括与本文公开或考虑的或本领域已知的任何参考RT蛋白(包括任何野生型RT)、或突变体RT、或片段RT、或RT的其他变体具有至少约70％相同、至少约80％相同、至少约90％相同、至少约95％相同、至少约96％相同、至少约97％相同、至少约98％相同、至少约99％相同、至少约99.5％相同、或至少约99.9％相同的其他“RT变体”。

在一些实施方案中，RT变体可具有与参考RT相比具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、45、46、47、48、49、50、或多达100、或多达200、或多达300、或多达400、或多达500个或更多的氨基酸变化。在一些实施方案中，RT变体包含参考RT的片段，使得该片段与参考RT的相应片段至少约70％相同、至少约80％相同、至少约90％相同、至少约95％相同、至少约96％相同、至少约97％相同、至少约98％相同、至少约99％相同、至少约99.5％相同、或至少约99.9％相同。在一些实施方案中，该片段为相应野生型RT(M-MLV逆转录酶)(如，SEQ ID NO:89)或SEQ ID NO:90-100的任何逆转录酶的氨基酸长度的至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％，或至少99.5％。

在一些实施方案中，本公开还可利用保留其功能性并且是本文公开的任何RT蛋白的片段的RT片段。在一些实施方案中，RT片段的长度为至少100个氨基酸。在一些实施方案中，该片段的长度为至少100、150、200、250、300、350、400、450、500、550或多达600个或更多氨基酸。

在其他实施方案中，本公开还可利用在N-端或C-端或两者处截短一定数量的氨基酸的RT变体，这导致在截短变体中仍然保留足够的聚合酶功能。在一些实施方案中，RT截短变体具有蛋白的N端末端处至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、至少21、至少22、至少23、至少24、至少25、至少30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240或250个氨基酸。在其他实施方案中，RT截短变体具有蛋白的C端末端处至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、至少21、至少22、至少23、至少24、至少25、至少30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、1090 210、220、230、240或250个氨基酸。在其他实施方案中，RT截短变体在N-端和C-端末端具有相同或不同长度的截短。

例如，本文公开的引导编辑器可包括M-MLV逆转录酶的截短版本。在该实施方案中，逆转录酶包含4个突变(D200N、T306K、W313F、T330P；注意PE2中存在的L603W突变由于截短而不再存在)。编码这种截短编辑器的DNA序列比PE2更小522bp，因此它可能适用于DNA序列的递送因其大小而具有挑战性的应用(即，腺相关病毒和慢病毒递送)。该实施方案被称为MMLV-RT(截短)并且具有以下氨基酸序列：

在不同实施方案中，本文公开的引导编辑器可包含本文所述RT变体之一，或其与任何参考Cas9变体具有至少约70％相同、至少约80％相同、至少约90％相同、在至少约95％相同、至少约96％相同、至少约97％相同、至少约98％相同、至少约99％相同、至少约99.5％相同、或至少约99.9％相同的RT变体。

在其他实施方案中，本方法和组合物可利用已进化成逆转录酶的DNA聚合酶，描述于Effefson et al.,“Synthetic evolutionary origin of a proofreading reversetranscriptase,”Science,June 24,2016,Vol.352:1590-1593，其内容通过引用并入本文。

在某些其他实施方案中，逆转录酶以还包含napDNAbp的融合蛋白的组件提供。换言之，在一些实施方案中，逆转录酶融合至napDNAbp成为融合蛋白。

在不同实施方案中，变体逆转录酶可由如SEQ ID NO:89所示的野生型M-MLV逆转录酶工程化改造。

在不同实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括包含一个或多个以下突变的变体RT：SEQ ID NO:89的野生型M-MLV RT或其他野生型RT多肽序列中相应氨基酸位置处的P51L、S67K、E69K、L139P、T197A、D200N、H204R、F209N、E302K、E302R、T306K、F309N、W313F、T330P、L345G、L435G、N454K、D524G、E562Q、D583N、H594Q、L603W、E607K、或D653N。

下面提供了一些示例性逆转录酶，其可与napDNAbp蛋白融合或作为根据本公开的各种实施方案的单独蛋白提供。示例性逆转录酶包括与以下野生型酶或部分酶具有至少80％、至少85％、至少90％、至少95％、或至少99％序列同一性的变体：

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括包含一个或多个以下突变的变体RT：SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的P51X、S67X、E69X、L139X、T197X、D200X、H204X、F209X、E302X、T306X、F309X、W313X、T330X、L345X、L435X、N454X、D524X、E562X、D583X、H594X、L603X、E607X、或D653X，其中“X”可以是任何氨基酸。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的P51X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是L。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的S67X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是K。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的E69X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是K。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的L139X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是P。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列中的相应氨基酸位点处的T197X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是A。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的D200X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是N。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的H204X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是R。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的F209X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是N。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的E302X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是K。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的E302X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是R。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的T306X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是K。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的F309X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是N。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的W313X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是F。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的T330X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是P。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的L345X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是G。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的L435X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是G。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的N454X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是K。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的D524X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是G。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的E562X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是Q。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLVRT或另外的野生型RT多肽序列的相应氨基酸位点处的D583X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是N。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的H594X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是Q。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的L603X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是W。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的E607X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是K。

在不同的其他实施方案中，本文所述的引导编辑器(RT作为融合伴侣或以反式提供)可包括变体RT，其包含SEQ ID NO:89的野生型M-MLV RT或另外的野生型RT多肽序列的相应氨基酸位点处的D653X突变，其中“X”可以是任何氨基酸。在某些实施方案中，X是N。

下面提供了一些示例性逆转录酶，其可与napDNAbp蛋白融合或根据本公开的各种实施方案作为单独的蛋白提供。示例性逆转录酶包括与以下野生型酶或部分酶具有至少80％、至少85％、至少90％、至少95％、或至少99％的序列同一性：

本文所述的引导编辑器(PE)考虑描述或公开于以下美国专利(其各自通过引用以其整体并入)中的任何公开可用的逆转录酶：美国专利号：10,202,658；10,189,831；10,150,955；9,932,567；9,783,791；9,580,698；9,534,201；和9,458,484，以及其使用安装突变的已知方法或进化蛋白的已知方法的任何变体。以下参考文献描述了本领域的逆转录酶。其各自通过引用以其整体并入本文。

Herzig,E.,Voronin,N.,Kucherenko,N.&Hizi,A.A Novel Leu92 Mutant ofHIV-1Reverse Transcriptase with a Selective Deficiency in Strand TransferCauses a Loss of Viral Replication.J.Virol.89,8119–8129(2015).

Mohr,G.et al.A Reverse Transcriptase-Cas1 Fusion Protein Contains aCas6 Domain Required for Both CRISPR RNA Biogenesis and RNA SpacerAcquisition.Mol.Cell 72,700-714.e8(2018).

Zhao,C.,Liu,F.&Pyle,A.M.An ultraprocessive,accurate reversetranscriptase encoded by a metazoan group II intron.RNA 24,183–195(2018).

Zimmerly,S.&Wu,L.An Unexplored Diversity of Reverse Transcriptases inBacteria.Microbiol Spectr 3,MDNA3-0058–2014(2015).

Ostertag,E.M.&Kazazian Jr,H.H.Biology of Mammalian L1Retrotransposons.Annual Review of Genetics 35,501–538(2001).

Perach,M.&Hizi,A.Catalytic Features of the Recombinant ReverseTranscriptase of Bovine Leukemia Virus Expressed in Bacteria.Virology 259,176–189(1999).

Lim,D.et al.Crystal structure of the moloney murine leukemia virusRNase H domain.J.Virol.80,8379–8389(2006).

Zhao,C.&Pyle,A.M.Crystal structures of a group II intron maturasereveal a missing link in spliceosome evolution.Nature Structural&MolecularBiology 23,558–565(2016).

Griffiths,D.J.Endogenous retroviruses in the human genomesequence.Genome Biol.2,REVIEWS1017(2001).

Baranauskas,A.et al.Generation and characterization of new highlythermostable and processive M-MuLV reverse transcriptase variants.Protein EngDes Sel 25,657–668(2012).

Zimmerly,S.,Guo,H.,Perlman,P.S.&Lambowltz,A.M.Group II intronmobility occurs by target DNA-primed reverse transcription.Cell 82,545–554(1995).

Feng,Q.,Moran,J.V.,Kazazian,H.H.&Boeke,J.D.Human L1 retrotransposonencodes a conserved endonuclease required for retrotransposition.Cell 87,905–916(1996).

Berkhout,B.,Jebbink,M.&Zsíros,J.Identification of an Active ReverseTranscriptase Enzyme Encoded by a Human Endogenous HERV-K Retrovirus.Journalof Virology 73,2365–2375(1999).

Kotewicz,M.L.,Sampson,C.M.,D’Alessio,J.M.&Gerard,G.F.Isolation ofcloned Moloney murine leukemia virus reverse transcriptase lackingribonuclease H activity.Nucleic Acids Res 16,265–277(1988).

Arezi,B.&Hogrefe,H.Novel mutations in Moloney Murine Leukemia Virusreverse transcriptase increase thermostability through tighter binding totemplate-primer.Nucleic Acids Res 37,473–481(2009).

Blain,S.W.&Goff,S.P.Nuclease activities of Moloney murine leukemiavirus reverse transcriptase.Mutants with altered substratespecificities.J.Biol.Chem.268,23585–23592(1993).

Xiong,Y.&Eickbush,T.H.Origin and evolution of retroelements basedupon their reverse transcriptase sequences.EMBO J 9,3353–3362(1990).

Herschhorn,A.&Hizi,A.Retroviral reverse transcriptases.Cell.Mol.LifeSci.67,2717–2747(2010).

Taube,R.,Loya,S.,Avidan,O.,Perach,M.&Hizi,A.Reverse transcriptase ofmouse mammary tumour virus:expression in bacteria,purification andbiochemical characterization.Biochem.J.329(Pt 3),579–587(1998).

Liu,M.et al.Reverse Transcriptase-Mediated Tropism Switching inBordetella Bacteriophage.Science 295,2091–2094(2002).

Luan,D.D.,Korman,M.H.,Jakubczak,J.L.&Eickbush,T.H.Reversetranscription of R2Bm RNA is primed by a nick at the chromosomal target site:a mechanism for non-LTR retrotransposition.Cell 72,595–605(1993).

Nottingham,R.M.et al.RNA-seq of human reference RNA samples using athermostable group II intron reverse transcriptase.RNA 22,597–613(2016).

Telesnitsky,A.&Goff,S.P.RNase H domain mutations affect theinteraction between Moloney murine leukemia virus reverse transcriptase andits primer-template.Proc.Natl.Acad.Sci.U.S.A.90,1276–1280(1993).

Halvas,E.K.,Svarovskaia,E.S.&Pathak,V.K.Role of Murine Leukemia VirusReverse Transcriptase Deoxyribonucleoside Triphosphate-Binding Site inRetroviral Replication and In Vivo Fidelity.Journal of Virology 74,10349–10358(2000).

Nowak,E.et al.Structural analysis of monomeric retroviral reversetranscriptase in complex with an RNA/DNA hybrid.Nucleic Acids Res 41,3874–3887(2013).

Stamos,J.L.,Lentzsch,A.M.&Lambowitz,A.M.Structure of a ThermostableGroup II Intron Reverse Transcriptase with Template-Primer and Its Functionaland Evolutionary Implications.Molecular Cell 68,926-939.e4(2017).

Das,D.&Georgiadis,M.M.The Crystal Structure of the Monomeric ReverseTranscriptase from Moloney Murine Leukemia Virus.Structure 12,819–829(2004).

Avidan,O.,Meer,M.E.,Oz,I.&Hizi,A.The processivity and fidelity of DNAsynthesis exhibited by the reverse transcriptase of bovine leukemiavirus.European Journal of Biochemistry 269,859–867(2002).

Gerard,G.F.et al.The role of template-primer in protection of reversetranscriptase from thermal inactivation.Nucleic Acids Res 30,3118–3129(2002).

Monot,C.et al.The Specificity and Flexibility of L1 ReverseTranscription Priming at Imperfect T-Tracts.PLOS Genetics 9,e1003499(2013).

Mohr,S.et al.Thermostable group II intron reverse transcriptasefusion proteins and their use in cDNA synthesis and next-generation RNAsequencing.RNA 19,958–970(2013).

如果尚未说明，以上提及的涉及逆转录酶的任何参考文献通过引用以其整体在此并入。

[4]PE融合蛋白

本文所述的引导编辑器(PE)系统考虑包含napDNAbp和聚合酶(如，DNA依赖性DNA聚合酶或RNA依赖性DNA聚合酶，如逆转录酶)并且任选地通过接头连接的融合蛋白。本申请考虑将任何合适的napDNAbp和聚合酶(如，DNA依赖性DNA聚合酶或RNA依赖性DNA聚合酶，如逆转录酶)组合在单个融合蛋白中。napDNAbps和聚合酶(如，DNA依赖性DNA聚合酶或RNA依赖性DNA聚合酶，如逆转录酶)的实例分别在本文中定义。由于聚合酶是本领域公知的，并且氨基酸序列易于获得，因此本公开并不意味着以任何方式限于本文鉴定的那些特定聚合酶。

在不同实施方案中，融合蛋白可包含任何合适的结构构造。例如，融合蛋白可从N-端至C-端方向包含与聚合酶(如，DNA依赖性DNA聚合酶或RNA依赖性DNA聚合酶，如逆转录酶)融合的napDNAbp。在其他实施方案中，融合蛋白可从N-端至C-端方向包含与napDNAbp融合的聚合酶(如，逆转录酶)。融合结构域可任选地通过接头连接，例如氨基酸序列。在其他实施方案中，融合蛋白可包含结构NH₂-[napDNAbp]-[聚合酶]-COOH；或NH₂-[聚合酶]-[napDNAbp]-COOH，其中“]-[”的每个情况表示存在任选的接头序列。在聚合酶是逆转录酶的实施方案中，融合蛋白可包含结构NH₂-[napDNAbp]-[RT]-COOH；或NH₂-[RT]-[napDNAbp]-COOH，其中“]-[”的每个情况表示存在任选的接头序列。

示例性融合蛋白描述于图14中，显示包含通过接头序列与切口酶Cas9(“Cas9(H840A)”)融合的MLV逆转录酶(“MLV-RT”)的融合蛋白。本示例不旨在限制可用于本文所述的引导编辑器(PE)系统的融合蛋白的范围。

在不同实施方案中，引导编辑器融合蛋白可具有以下氨基酸序列(本文称为“PE1”)，其包括含有H840A突变的Cas9变体(即，Cas9切口酶)和M-MLVRT野生型，以及N端NLS序列(19个氨基酸)和将Cas9切口酶域的C端连接到RT域的N端的氨基酸接头(32个氨基酸)。PE1融合蛋白具有以下结构：[NLS]-[Cas9(H840A)]-[接头]-[MMLV_RT(wt)]。PE1及其各个组件的氨基酸序列如下：

在另一个实施方案中，引导编辑器融合蛋白可具有以下氨基酸序列(本文称为“PE2”)，其包括含有H840A突变的Cas9变体(即，Cas9切口酶)和包含突变D200N、T330P、L603W、T306K和W313F的M-MLV RT，以及N端NLS序列(19个氨基酸)和连接Cas9切口酶结构域C端至RT结构域的N端的氨基酸接头(33个氨基酸)。PE2融合蛋白具有以下结构：[NLS]-[Cas9(H840A)]-[接头]-[MMLV_RT(D200N)(T330P)(L603W)(T306K)(W313F)]。PE2的氨基酸序列如下：

在进一步的其他实施方案中，引导编辑器融合蛋白可具有以下氨基酸序列：

在其他实施方案中，引导编辑器融合蛋白可基于具有改变的PAM特异性的SaCas9或SpCas9切口酶，如以下示例的序列：

在其他实施方案中，本文考虑的引导编辑器融合蛋白可包括与M-MLV逆转录酶的截短版本融合的Cas9切口酶(如，Cas9(H840A))。在该实施方案中，逆转录酶还包含4个突变(D200N、T306K、W313F、T330P；注意PE2中存在的L603W突变由于截短而不再存在)。编码这种截短编辑器的DNA序列比PE2更小522bp，因此它可能适用于DNA序列的递送因其大小而具有挑战性的应用(即，腺相关病毒和慢病毒递送)。该实施方案被称为Cas9(H840A)-MMLV-RT(截短)或“PE2-短”或“PE2-截短”，并具有以下氨基酸序列：

图75提供了比较PE2、PE2-截短、PE3和PE3-截短在不同细胞系中不同靶位点的效率(即“具有指定编辑或indel的总测序读段的百分比％”)的柱状图。数据显示包含截短的RT变体的引导编辑器与包含非截短的RT蛋白的引导编辑器的效率差不多。

在不同实施方案中，本文考虑的引导编辑器融合蛋白还可包括以上公开的序列的任何变体，其具有与PE1、PE2或任何以上显示的引导编辑器融合序列至少约70％相同、至少约80％相同、至少约90％相同、至少约95％相同、至少约96％相同、至少约97％相同、至少约98％相同、至少约99％相同、至少约99.5％相同、或至少约99.9％相同的氨基酸序列。

在某些实施方案中，可将接头用于连接本发明的任何肽或肽结构域或部分(如，与逆转录酶连接或融合的napDNAbp)。

[5]接头和其他结构域

除了napDNAbp(如，Cas9结构域)和聚合酶结构域(如，RT结构域)外，PE融合蛋白可包含各种其他结构域。例如，在napDNAbp是Cas9并且聚合酶是RT的情况下，PE融合蛋白可包含一个或多个连接Cas9结构域和RT结构域的接头。接头还可将其他功能结构域，例如核定位序列(NLS)或FEN1(或其他瓣核酸内切酶)连接到PE融合蛋白或其结构域。

此外，在涉及反式引导编辑的实施方案中，接头可用于将tPERT募集蛋白连接到引导编辑器，如在tPERt募集蛋白和napDNAbp之间。参见，例如图3G，反式引导编辑器(tPE)的示例性示意图，其包括将聚合酶结构域和募集蛋白结构域分别融合到napDNAbp的接头。

A.接头

如以上所定义，如本文所用，术语“接头”是指连接两个分子或部分(如，核酸酶的结合结构域和切割结构域)的化学基团或分子。在一些实施方案中，接头连接RNA可编程核酸酶的gRNA结合结构域和聚合酶(如，逆转录酶)的催化结构域。在一些实施方案中，接头连接dCas9和逆转录酶。通常，接头位于两个基团、分子或其他部分之间或两侧，并通过共价键将其彼此连接，从而将二者连接起来。在一些实施方案中，接头是一个氨基酸或多个氨基酸(如，肽或蛋白)。在一些实施方案中，接头是有机分子、基团、聚合物或化学部分。在一些实施方案中，接头的长度为5-100个氨基酸，例如，长度为5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80-90、90-100、100-150或150-200个氨基酸。还考虑更长或更短的接头。

接头的长度可以与共价键一样简单，或者可以为许多原子的聚合接头。在某些实施方案中，接头是多肽或基于氨基酸。在其他实施方案中，接头不是肽样的。在某些实施方案中，接头是共价键(如，碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中，接头是酰胺键的碳-氮键。在某些实施方案中，接头是环状或非环状、取代或未取代、支链或无支链的脂族或杂脂族接头。在某些实施方案中，接头是聚合的(如，聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中，接头包含氨基链烷酸的单体、二聚体或聚合物。在某些实施方案中，接头包含氨基链烷酸(如，甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在某些实施方案中，接头包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中，接头基于碳环部分(如，环戊烷、环己烷)。在其他实施方案中，接头包含聚乙二醇部分(PEG)。在其他实施方案中，接头包含氨基酸。在某些实施方案中，接头包含肽。在某些实施方案中，接头包含芳基或杂芳基部分。在某些实施方案中，接头基于苯环。接头可包括功能化部分以促进亲核试剂(如，硫醇、氨基)从肽连接到接头。任何亲电子试剂都可用作接头的一部分。示例性亲电子试剂包括但不限于活化酯、活化酰胺、迈克尔(Michael)受体、卤代烷、芳基卤、酰卤和异硫氰酸酯。

在一些其他实施方案中，接头包含氨基酸序列(GGGGS)n(SEQ ID NO:165)、(G)n(SEQ ID NO:166)、(EAAAK)n(SEQ ID NO:167)、(GGS)n(SEQ ID NO:168)、(SGGS)n(SEQ IDNO:169)、(XP)n(SEQ ID NO:170)或其任何组合，其中n独立地为1至30的整数，X为任何氨基酸。在一些实施方案中，接头包含氨基酸序列(GGS)N(SEQ ID NO:176)，其中n为1、3或7。在一些实施方案中，接头包含氨基酸序列SGSETPGTSESATPES(SEQ ID NO:171)。在一些实施方案中，接头包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGS(SEQ ID NO:172)。在一些实施方案中，接头包含氨基酸序列SGGSGGSGGS(SEQ ID NO:173)。在一些实施方案中，接头包含氨基酸序列SGGS(SEQ ID NO:174)。在其他实施方案中，接头包含氨基酸序列SGGSSGGSSGSETPGTSESATPESAGSYPYDVPDYAGSAAPAAKKKKLDGSGSGGSSGGS(SEQ ID NO:175,60AA)。

在某些实施方案中，接头可用于连接本发明的任何肽或肽结构域或部分(如，与逆转录酶连接或融合的napDNAbp)。

如以上所定义，如本文所用，术语“接头”是指连接两个分子或部分(如,核酸酶的结合结构域和切割结构域)的化学基团或分子。在一些实施方案中，接头连接RNA可编程核酸酶的gRNA结合结构域和重组酶的催化域。在一些实施方案中，接头连接dCas9和逆转录酶。通常，接头位于两个基团、分子或其他部分之间或两侧，并通过共价键彼此连接，从而将二者连接起来。在一些实施方案中，接头是一个氨基酸或多个氨基酸(如，肽或蛋白)。在一些实施方案中，接头是有机分子、基团、聚合物或化学部分。在一些实施方案中，接头的长度为5-100个氨基酸，例如，长度为5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80-90、90-100、100-150或150-200个氨基酸。还考虑更长或更短的接头。

接头的长度可以与共价键一样简单，或者可以为许多原子的聚合接头。在某些实施方案中，接头是多肽或基于氨基酸。在其他实施方案中，接头不是肽样的。在某些实施方案中，接头是共价键(如，碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中，接头是酰胺键的碳-氮键。在某些实施方案中，接头是环状或非环状、取代或未取代、支链或无支链的脂族或杂脂族接头。在某些实施方案中，接头是聚合的(如，聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中，接头包含氨基链烷酸的单体、二聚体或聚合物。在某些实施方案中，接头包含氨基链烷酸(如，甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在某些实施方案中，接头包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中，接头基于碳环部分(如，环戊烷、环己烷)。在其他实施方案中，接头包含聚乙二醇部分(PEG)。在其他实施方案中，接头包含氨基酸。在某些实施方案中，接头包含肽。在某些实施方案中，接头包含芳基或杂芳基部分。在某些实施方案中，接头基于苯环。接头可包括功能化部分以促进亲核试剂(如，硫醇、氨基)从肽连接到接头。任何亲电子试剂都可用作接头的一部分。示例性的亲电子试剂包括但不限于活化酯、活化酰胺、迈克尔受体、卤代烷、芳基卤、酰基卤和异硫氰酸酯。

在一些其他实施方案中，接头包含氨基酸序列(GGGGS)n(SEQ ID NO:165)、(G)n(SEQ ID NO:166)、(EAAAK)n(SEQ ID NO:167)、(GGS)n(SEQ ID NO:168)、(SGGS)n(SEQ IDNO:169)、(XP)n(SEQ ID NO:170)或其任何组合，其中n独立地为1至30的整数，X为任何氨基酸。在一些实施方案中，接头包含氨基酸序列(GGS)N(SEQ ID NO:176)，其中n为1、3或7。在一些实施方案中，接头包含氨基酸序列SGSETPGTSESATPES(SEQ ID NO:171)。在一些实施方案中，接头包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGS(SEQ ID NO:172)。在一些实施方案中，接头包含氨基酸序列SGGSGGSGGS(SEQ ID NO:173)。在一些实施方案中，接头包含氨基酸序列SGGS(SEQ ID NO:174)。

特别地，可在不同实施方案中使用以下接头来将引导编辑器结构域彼此连接：

GGS(SEQ ID NO:767)；

GGSGGS(SEQ ID NO:768)；

GGSGGSGGS(SEQ ID NO:769)；

SGGSSGGSSGSETPGTSESATPESSGGSSGGSS(SEQ ID NO:127)

SGSETPGTSESATPES(SEQ ID NO:171)；

SGGSSGGSSGSETPGTSESATPESAGSYPYDVPDYAGSAAPAAKKKKLDGSGSGGSSGGS(SEQ IDNO:175)。

B.核定位序列(NLS)

在不同实施方案中，PE融合蛋白可包含一种或多种核定位序列(NLS)，其有助于促进蛋白易位至细胞核中。这类序列是本领域所熟知的并且可包括以下示例：

以上NLS示例是非限制性的。PE融合蛋白可包含任何已知的NLS序列，包括描述于Cokol et al.,“Finding nuclear localization signals,”EMBO Rep.,2000,1(5):411-415and Freitas et al.,“Mechanisms and Signals for the Nuclear Import ofProteins,”Current Genomics,2009,10(8):550-7中的那些中的任何一种，其各自通过引用并入本文。

在不同实施方案中，本文公开的引导编辑器和编码引导编辑器的构建体进一步包含一个或多个，优选至少两个核定位信号。在某些实施方案中，引导编辑器包含至少两个NLS。在具有至少两个NLS的实施方案中，NLS可以是相同的NLS或者可以是不同的NLS。此外，NLS可作为融合蛋白的一部分与引导编辑器的其余部分一起表达。在一些实施方案中，一个或多个NLS是双组分NLS(“bpNLS”)。在某些实施方案中，所公开的融合蛋白包含两个双组分NLS。在一些实施方案中，所公开的融合蛋白包含两个以上的双组分NLS。

NLS融合的位置可以在N-端、C-端，或在引导编辑器的序列内(如，在编码的napDNAbp组分(如，Cas9)和聚合酶结构域(如，逆转录酶域)之间插入)。

NLS可以是本领域中任何已知的NLS序列。NLS也可以是任何未来发现的用于核定位的NLS。NLS还可以是任何天然存在的NLS，或任何非天然存在的NLS(如，具有一个或多个期望突变的NLS)。

术语“核定位序列”或“NLS”是指例如通过核转运促进蛋白输入细胞核的氨基酸序列。核定位序列是本领域已知的并且对技术人员而言是显而易见的。例如，NLS序列描述于Plank等于2000年11月23日提交的国际PCT申请PCT/EP2000/011690，2001年5月31日以WO/2001/038547公开，其内容通过引用并入本文。在一些实施方案中，NLS包含氨基酸序列PKKKRKV(SEQ ID NO:16)、MDSLLMNRRKFLYQFKNVRWAKGRRETYLC(SEQ ID NO:17)、KRTADGSEFESPKKKRKV(SEQ ID NO:3864)或KRTADGSEFEPKKKRKV(SEQ ID NO:13)。在其他实施方案中，NLS包含氨基酸序列NLSKRPAAIKK AGQAKKKK(SEQ ID NO:3865)、PAAKRVKLD(SEQID NO:192)、RQRRNELKRSF(SEQ ID NO:3866)、NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:3867)。

在本公开的一方面，引导编辑器用一个或多个核定位信号(NLS)，优选至少两个NLS修饰。在某些实施方案中，引导编辑器用两个或更多个NLS修饰。本公开考虑使用在公开时本领域已知的任何核定位信号，或在本申请提交时间之后在现有技术中被确认或以其他方式可用的任何核定位信号。代表性的核定位信号是将蛋白引导至表达该序列的细胞核的肽序列。核定位信号主要是碱性的，几乎可位于蛋白氨基酸序列的任何位置，通常包含4个氨基酸的短序列(Autieri&Agrawal,(1998)J.Biol.Chem.273:14731-37，通过引用并入本文)至8个氨基酸，并且通常富含赖氨酸和精氨酸残基(Magin et al.,(2000)Virology274:11-16,通过引用并入本文)。核定位信号通常包含脯氨酸残基。已鉴定多种核定位信号并已用于影响生物分子从细胞质到细胞核的转运。参见，例如，Tinland et al.,(1992)Proc.Natl.Acad.Sci.U.S.A.89:7442-46；Moede et al.,(1999)FEBS Lett.461:229-34，其通过引用并入。目前认为易位涉及核孔蛋白。

大多数NLS可分为三类：(i)单组分NLS，如SV40较大T抗原NLS(PKKKRKV(SEQ IDNO:16))；(ii)由被不同数量的间隔区氨基酸分开的两个基本结构域组成的二组分基序，以爪蟾核质蛋白NLS(KRXXXXXXXXXXXKKKL(SEQ ID NO:3868))为例；(iii)非经典序列，如hnRNP A1蛋白的M9、流感病毒核蛋白NLS和酵母Gal4蛋白NLS(Dingwall and Laskey1991)。

核定位信号出现在蛋白的氨基酸序列的不同点。NLS已在N端、C端和蛋白的中心区域处鉴定。因此，本公开提供了可在引导编辑器的C-端、N-端及内部区域处用一个或多个NLS修饰的引导编辑器。应选择不作为组分NLS残基发挥作用的较长序列的残基，以免如在张力或空间上干扰核定位信号本身。因此，虽然对包含NLS的序列的组成没有严格限制，但实际上，这样的序列在长度和组成上受功能限制。

本公开考虑了任何合适的手段，通过该手段将引导编辑器修饰为包括一个或多个NLS。一方面，可将引导编辑器设计成表达在其N端或C端(或两者)翻译融合一个或多个NLS的引导编辑器蛋白，即形成引导编辑器-NLS融合构建体。在其他实施方案中，编码引导编辑器的核苷酸序列可经遗传修饰以在编码的引导编辑器的内部区域并入编码一个或多个NLS的阅读框。此外，NLS可包括在引导编辑器和N-端、C-端或内部连接的NLS氨基酸序列之间(如，在蛋白的中心区域)编码的各种氨基酸接头或间隔区。因此，本公开还提供了用于表达融合蛋白的核苷酸构建体、载体和宿主细胞，所述融合蛋白包含引导编辑器和一个或多个NLS。

本文所述的引导编辑器还可包含核定位信号，其通过一个或多个接头连接至引导编辑器，例如聚合物、氨基酸、核酸、多糖、化学或核酸接头元件。本公开考虑范围内的接头不意图具有任何限制，可以是任何合适类型的分子(如，聚合物、氨基酸、多糖、核酸、脂质或任何合成的化学接头结构域)，并且通过实现在引导编辑器和一个或多个NLS之间形成键(如，共价键、氢键)的任何合适策略被连接至引导编辑器。

C.瓣核酸内切酶(如，FEN1)

在不同实施方案中，PE融合蛋白可包含一种或多种瓣核酸内切酶(如，FENl)，其是指催化去除5′单链DNA瓣的酶。这些是天然存在的酶，用于去除细胞过程包括DNA复制中形成的5′瓣。本文所述引导编辑方法可利用内源性提供的瓣核酸内切酶或以反式提供的那些来去除引导编辑期间靶位点形成的内源性DNA的5'瓣。瓣核酸内切酶是本领域已知的，可见描述于Patel et al.,“Flap endonucleases pass 5′-flaps through a flexible archusing a disorder-thread-order mechanism to confer specificity for free 5′-ends,”Nucleic Acids Research,2012,40(10):4507-4519和Tsutakawa et al.,“Humanflap endonuclease structures,DNA double-base flipping,and a unifiedunderstanding of the FEN1 superfamily,”Cell,2011,145(2):198-211(其各自通过引用并入本文)。示例性瓣核酸内切酶是FEN1，其可由以下氨基酸序列表示：

瓣核酸内切酶还可包括任何FEN1变体、突变体或其他瓣核酸内切酶直系同源物、同源物或变体。非限制性FEN1变体示例如下所示：

在不同实施方案中，本文考虑的引导编辑器融合蛋白可包括与上述任何序列具有至少约70％相同、至少约80％相同、至少约90％相同、至少约95％相同、至少约96％相同、至少约97％相同、至少约98％相同、至少约99％相同、至少约99.5％相同、或至少约99.9％相同的氨基酸序列。

可由本方法利用以促进去除5'端单链DNA瓣的其他核酸内切酶包括但不限于(1)trex 2,(2)exo1核酸内切酶(如，Keijzers et al.,Biosci Rep.2015,35(3):e00206)。

Trex 2

3’三原初(prime)修复核酸外切酶2(TREX2)-人

登录号NM_080701

MSEAPRAETFVFLDLEATGLPSVEPEIAELSLFAVHRSSLENPEHDESGALVLPRVLDKLTLCMCPERPFTAKASEITGLSSEGLARCRKAGFDGAVVRTLQAFLSRQAGPICLVAHNGFDYDFPLLCAELRRLGARLPRDTVCLDTLPALRGLDRAHSHGTRARGRQGYSLGSLFHRYFRAEPSAAHSAEGDVHTLLLIFLHRAAELLAWADEQARGWAHIEPMYLPPDDPSLEA(SEQ ID NO:3865)

3'三原初修复核酸外切酶2(TREX2)-小鼠

登录号NM_011907

MSEPPRAETFVFLDLEATGLPNMDPEIAEISLFAVHRSSLENPERDDSGSLVLPRVLDKLTLCMCPERPFTAKASEITGLSSESLMHCGKAGFNGAVVRTLQGFLSRQEGPICLVAHNGFDYDFPLLCTELQRLGAHLPQDTVCLDTLPALRGLDRAHSHGTRAQGRKSYSLASLFHRYFQAEPSAAHSAEGDVHTLLLIFLHRAPELLAWADEQARSWAHIEPMYVPPDGPSLEA(SEQ ID NO:3866)

3'三原初修复核酸外切酶2(TREX2)-大鼠

登录号NM_001107580

MSEPLRAETFVFLDLEATGLPNMDPEIAEISLFAVHRSSLENPERDDSGSLVLPRVLDKLTLCMCPERPFTAKASEITGLSSEGLMNCRKAAFNDAVVRTLQGFLSRQEGPICLVAHNGFDYDFPLLCTELQRLGAHLPRDTVCLDTLPALRGLDRVHSHGTRAQGRKSYSLASLFHRYFQAEPSAAHSAEGDVNTLLLIFLHRAPELLAWADEQARSWAHIEPMYVPPDGPSLEA(SEQ ID NO:3867)

ExoI

人核酸外切酶1(EXO1)涉及许多不同的DNA代谢过程，包括DNA错配修复(MMR)、微介导的末端连接、同源重组(HR)和复制。人EXO1属于真核核酸酶Rad2/XPG家族，其还包括FEN1和GEN1。Rad2/XPG家族在从噬菌体到人类的物种的核酸酶结构域中都是保守的。EXO1基因产物表现出5'核酸外切酶和5'瓣活性。此外，EXO1包含固有的5'RNase H活性。人EXO1对加工双链DNA(dsDNA)、缺口、间隙、假Y结构具有高亲和力，并且可使用其遗传的瓣活性分解霍利迪(Holliday)连结体。人EXO1与MMR相关，并包含与MLH1和MSH2直接相互作用的保守结合结构域。PCNA、MutSα(MSH2/MSH6复合物)、14-3-3、MRN和9-1-1复合物可积极刺激EXO1溶核活性。

核酸外切酶1(EXO1)登录号NM_003686(智人核酸外切酶1(EXO1)，转录本变体3)–同种型A

MGIQGLLQFIKEASEPIHVRKYKGQVVAVDTYCWLHKGAIACAEKLAKGEPTDRYVGFCMKFVNMLLSHGIKPILVFDGCTLPSKKEVERSRRERRQANLLKGKQLLREGKVSEARECFTRSINITHAMAHKVIKAARSQGVDCLVAPYEADAQLAYLNKAGIVQAIITEDSDLLAFGCKKVILKMDQFGNGLEIDQARLGMCRQLGDVFTEEKFRYMCILSGCDYLSSLRGIGLAKACKVLRLANNPDIVKVIKKIGHYLKMNITVPEDYINGFIRANNTFLYQLVFDPIKRKLIPLNAYEDDVDPETLSYAGQYVDDSIALQIALGNKDINTFEQIDDYNPDTAMPAHSRSHSWDDKTCQKSANVSSIWHRNYSPRPESGTVSDAPQLKENPSTVGVERVISTKGLNLPRKSSIVKRPRSAELSEDDLLSQYSLSFTKKTKKNSSEGNKSLSFSEVFVPDLVNGPTNKKSVSTPPRTRNKFATFLQRKNEESGAVVVPGTRSRFFCSSDSTDCVSNKVSIQPLDETAVTDKENNLHESEYGDQEGKRLVDTDVARNSSDDIPNNHIPGDHIPDKATVFTDEESYSFESSKFTRTISPPTLGTLRSCFSWSGGLGDFSRTPSPSPSTALQQFRRKSDSPTSLPENNMSDVSQLKSEESSDDESHPLREEACSSQSQESGEFSLQSSNASKLSQCSSKDSDSEESDCNIKLLDSQSDQTSKLRLSHFSKKDTPLRNKVPGLYKSSSADSLSTTKIKPLGPARASGLSKKPASIQKRKHHNAENKPGLQIKLNELWKNFGFKKF(SEQ ID NO:3868)

核酸外切酶1(EXO1)登录号NM_006027(智人核酸外切酶1(EXO1),转录本变体3)–同种型B

MGIQGLLQFIKEASEPIHVRKYKGQVVAVDTYCWLHKGAIACAEKLAKGEPTDRYVGFCMKFVNMLLSHGIKPILVFDGCTLPSKKEVERSRRERRQANLLKGKQLLREGKVSEARECFTRSINITHAMAHKVIKAARSQGVDCLVAPYEADAQLAYLNKAGIVQAIITEDSDLLAFGCKKVILKMDQFGNGLEIDQARLGMCRQLGDVFTEEKFRYMCILSGCDYLSSLRGIGLAKACKVLRLANNPDIVKVIKKIGHYLKMNITVPEDYINGFIRANNTFLYQLVFDPIKRKLIPLNAYEDDVDPETLSYAGQYVDDSIALQIALGNKDINTFEQIDDYNPDTAMPAHSRSHSWDDKTCQKSANVSSIWHRNYSPRPESGTVSDAPQLKENPSTVGVERVISTKGLNLPRKSSIVKRPRSAELSEDDLLSQYSLSFTKKTKKNSSEGNKSLSFSEVFVPDLVNGPTNKKSVSTPPRTRNKFATFLQRKNEESGAVVVPGTRSRFFCSSDSTDCVSNKVSIQPLDETAVTDKENNLHESEYGDQEGKRLVDTDVARNSSDDIPNNHIPGDHIPDKATVFTDEESYSFESSKFTRTISPPTLGTLRSCFSWSGGLGDFSRTPSPSPSTALQQFRRKSDSPTSLPENNMSDVSQLKSEESSDDESHPLREEACSSQSQESGEFSLQSSNASKLSQCSSKDSDSEESDCNIKLLDSQSDQTSKLRLSHFSKKDTPLRNKVPGLYKSSSADSLSTTKIKPLGPARASGLSKKPASIQKRKHHNAENKPGLQIKLNELWKNFGFKKDSEKLPPCKKPLSPVRDNIQLTPEAEEDIFNKPECGRVQRAIFQ(SEQ ID NO:3869)

核酸外切酶1(EXO1)登录号NM_001319224(智人核酸外切酶1(EXO1),转录本变体4)–同种型C

MGIQGLLQFIKEASEPIHVRKYKGQVVAVDTYCWLHKGAIACAEKLAKGEPTDRYVGFCMKFVNMLLSHGIKPILVFDGCTLPSKKEVERSRRERRQANLLKGKQLLREGKVSEARECFTRSINITHAMAHKVIKAARSQGVDCLVAPYEADAQLAYLNKAGIVQAIITEDSDLLAFGCKKVILKMDQFGNGLEIDQARLGMCRQLGDVFTEEKFRYMCILSGCDYLSSLRGIGLAKACKVLRLANNPDIVKVIKKIGHYLKMNITVPEDYINGFIRANNTFLYQLVFDPIKRKLIPLNAYEDDVDPETLSYAGQYVDDSIALQIALGNKDINTFEQIDDYNPDTAMPAHSRSHSWDDKTCQKSANVSSIWHRNYSPRPESGTVSDAPQLKENPSTVGVERVISTKGLNLPRKSSIVKRPRSELSEDDLLSQYSLSFTKKTKKNSSEGNKSLSFSEVFVPDLVNGPTNKKSVSTPPRTRNKFATFLQRKNEESGAVVVPGTRSRFFCSSDSTDCVSNKVSIQPLDETAVTDKENNLHESEYGDQEGKRLVDTDVARNSSDDIPNNHIPGDHIPDKATVFTDEESYSFESSKFTRTISPPTLGTLRSCFSWSGGLGDFSRTPSPSPSTALQQFRRKSDSPTSLPENNMSDVSQLKSEESSDDESHPLREEACSSQSQESGEFSLQSSNASKLSQCSSKDSDSEESDCNIKLLDSQSDQTSKLRLSHFSKKDTPLRNKVPGLYKSSSADSLSTTKIKPLGPARASGLSKKPASIQKRKHHNAENKPGLQIKLNELWKNFGFKKDSEKLPPCKKPLSPVRDNIQLTPEAEEDIFNKPECGRVQRAIFQ(SEQ ID NO:3870)

D.内含肽和断裂内含肽

应当理解，在一些实施方案中(如，使用AAV颗粒在体内递送引导编辑器)，可能有利的是将多肽(如，脱氨酶或napDNAbp)或融合蛋白(如，引导编辑器)断裂成N端半部和C端半部，分别递送它们，然后让它们共定位以在细胞内重新形成完整的蛋白(或融合蛋白，视情况而定)。蛋白或融合蛋白分开的半部可各自包含断裂内含肽标签以通过蛋白反式剪接机制促进完整蛋白或融合蛋白的重新形成。

由断裂内含肽催化的蛋白反式剪接提供了用于蛋白连接的完全酶促方法。断裂内含肽本质上是断裂成两部分(分别命名为N-i内含肽和C-内含肽)的连续内含肽(如，微型内含肽)。断裂内含肽的N-内含肽和C-内含肽可以非共价结合形成活性内含肽，并以与连续内含肽基本相同的方式催化剪接反应。已在自然界中发现了断裂内含肽，也在实验室中进行了工程化改造。如本文所用，术语“断裂内含肽”是指其中在N-端和C-端氨基酸序列之间存在一个或多个肽键断裂，使得N-端和C-端序列成为单独的分子的任何内含肽，其可非共价地重新结合或重组为对反式剪接反应起作用的内含肽。任何具有催化活性的内含肽或其片段均可用于衍生用于本发明方法的断裂内含肽。例如，一方面，断裂内含肽可源自真核内含肽。另一方面，断裂内含肽可源自细菌内含肽。另一方面，断裂内含肽可源自古细菌内含肽。优选地，如此衍生的断裂内含肽将仅具有催化反式剪接反应所必需的氨基酸序列。

如本文所用，“N-端断裂内含肽(In)”是指包含对反式剪接反应起作用的N-端氨基酸序列的任何内含肽序列。因此，In还包含发生反式剪接时剪出的序列。In可包含作为天然存在的内含肽序列的N-端部分的修饰的序列。例如，In可包含额外的氨基酸残基和/或突变的残基，只要包含这样的额外和/或突变的残基不会使In在反式剪接中失去功能。优选地，包含额外和/或突变的残基提高或增强In的反式剪接活性。

如本文所用，“C-端断裂内含肽(Ic)”是指包含对反式剪接反应起作用的C-端氨基酸序列的任何内含肽序列。一方面，Ic包含4至7个连续氨基酸残基，其中至少4个氨基酸来自衍生其的内含肽的最后的β-链。因此，Ic还包含在发生反式剪接时剪出的序列。Ic可包含作为天然存在的内含肽序列的C-端部分的修饰的序列。例如，Ic可包含额外的氨基酸残基和/或突变的残基，只要包含这样的额外和/或突变的残基不会使In在反式剪接中失去功能。优选地，包含额外的和/或突变的残基提高或增强Ic的反式剪接活性。

在本发明的一些实施方案中，与Ic或In连接的肽可包含额外的化学部分，尤其包括荧光基团、生物素、聚乙二醇(PEG)、氨基酸类似物、非天然氨基酸、磷酸盐基、糖基、放射性同位素标记和药物分子。在其他实施方案中，与Ic连接的肽可包含一个或多个化学反应性基团，其中包括酮、醛、Cys残基和Lys残基。存在“内含肽剪接多肽(ISP)”时，断裂内含肽的N-内含肽和C-内含肽可非共价结合形成活性内含肽并催化剪接反应。如本文所用，“内含肽剪接多肽(ISP)”是指从断裂内含肽去除Ic、In或两者时保留的断裂内含肽的氨基酸序列部分。在某些实施方案中，In包括ISP。在另一实施方案中，Ic包括ISP。在又一实施方案中，ISP是单独的肽，其既不与In也不与Ic共价连接。

断裂内含肽可通过工程化改造非结构化环中的一个或多个断裂位点或干预微型内含肽结构中存在的-12保守β-链之间的氨基酸序列而由连续内含肽产生。β-链之间区域内断裂位点的位置可能存在一定的灵活性，条件是断裂的产生不会破坏内含肽的结构，特别是结构化的β-链，达到足以使蛋白剪接活性丧失的程度。

示例性序列如下：

尽管内含肽最常被发现为连续结构域，但有些以自然断裂的形式存在。在这种情况下，这两个片段作为单独的多肽表达，并且必须在剪接发生之前结合，即所谓的蛋白反式剪接。

示例性断裂内含肽是Ssp DnaE内含肽，其包含两个亚基，即DnaE-N和DnaE-C。这两个不同的亚基由单独的基因编码，即dnaE-n和dnaE-c，分别编码DnaE-N和DnaE-C亚基。DnaE是天然存在于集胞藻(Synechocytis sp.)的断裂内含肽。PCC6803能够指导两种不同蛋白的反式剪接，每种蛋白都包含与DnaE-N或DnaE-C的融合物。

其他天然存在或工程化改造的断裂内含肽序列是已知的或可由本文所述完整内含肽序列或本领域可获得的那些制备。断裂内含肽序列的示例可见于Stevens et al.,“Apromiscuous split intein with expanded protein engineering applications,”PNAS,2017,Vol.114:8538-8543；Iwai et al.,“Highly efficient protein trans-splicing by a naturally split DnaE intein from Nostc punctiforme,FEBS Lett,580:1853-1858，其各自通过引用并入本文。另外的断裂内含肽序列可见于如WO2013/045632、WO2014/055782、WO2016/069774和EP2877490，其各自的内容通过引用并入本文。

此外，已在体内和体外描述了蛋白反式剪接(Shingledecker,et al.,Gene207:187(1998),Southworth,et al.,EMBO J.17:918(1998)；Mills,et al.,Proc.Natl.Acad.Sci.USA,95:3543-3548(1998)；Lew,et al.,J.Biol.Chem.,273:15887-15890(1998)；Wu,et al.,Biochim.Biophys.Acta 35732:1(1998b),Yamazaki,et al.,J.Am.Chem.Soc.120:5591(1998),Evans,et al.,J.Biol.Chem.275:9091(2000)；Otomo,etal.,Biochemistry 38:16040-16044(1999)；Otomo,et al.,J.Biolmol.NMR 14:105-114(1999)；Scott,et al.,Proc.Natl.Acad.Sci.USA 96:13638-13643(1999))，并提供了表达随后经历连接以形成功能性产物的两个无活性片段的蛋白的机会，例如，如图66和图67关于从两个单独表达的半部形成完整的PE融合蛋白所示。

E.RNA-蛋白相互作用结构域

在不同实施方案中，两个单独的蛋白结构域(如，Cas9结构域和聚合酶结构域)可通过使用“RNA-蛋白募集系统”(如，“MS2标签化技术”)彼此共定位以形成功能复合物(类似于包含两个单独的蛋白结构域的融合蛋白的功能)。这样的系统通常用“RNA-蛋白相互作用结构域”(又名“RNA-蛋白募集结构域”)标记一个蛋白结构域，用特异性识别并结合RNA-蛋白相互作用结构域的“RNA结合蛋白”(如，特定的发夹结构)标记另一个蛋白结构域。可利用这些类型的系统来共同定位引导编辑器的结构域，以及为引导编辑器募集附加功能，如UGI结构域。在一个示例中，MS2标签化技术基于MS2噬菌体外壳蛋白(“MCP”或“MS2cp”)与噬菌体基因组中存在的茎环或发夹结构的自然相互作用，即“MS2发卡”。在MS2发夹的情况下，其被MS2噬菌体外壳蛋白(MCP)识别和结合。因此，在一个示例性场景中，脱氨酶-MS2融合物可募集Cas9-MCP融合物。

本领域对其他模块化RNA-蛋白相互作用结构域的综述描述于，例如，Johanssonet al.,“RNA recognition by the MS2 phage coat protein,”Sem Virol.,1997,Vol.8(3):176-185；Delebecque et al.,“Organization of intracellular reactions withrationally designed RNA assemblies,”Science,2011,Vol.333:470-474；Mali et al.,“Cas9 transcriptional activators for target specificity screening and pairednickases for cooperative genome engineering,”Nat.Biotechnol.,2013,Vol.31:833-838；and Zalatan et al.,“Engineering complex synthetic transcriptionalprograms with CRISPR RNA scaffolds,”Cell,2015,Vol.160:339-350，其各自通过引用以其整体并入本文。其他系统包括专门募集PCP蛋白的PP7发夹和专门募集Com蛋白的“com”发夹。参见Zalatan et al.。

MS2发夹(或等同地被称为“MS2适体”)的核苷酸序列为：

GCCAACATGAGGATCACCCATGTCTGCAGGGCC(SEQ ID NO:3871)。

MCP或MS2cp的氨基酸序列为：

GSASNFTQFVLVDNGGTGDVTVAPSNFANGVAEWISSNSRSQAYKVTCSVRQSSAQNRKYTIKVEVPKVATQTVGGEELPVAGWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSGIY(SEQ ID NO:3872)。

F.UGI结构域

在其他实施方案中，本文所述的引导编辑器可包含一个或多个尿嘧啶糖苷酶抑制剂结构域。如本文所用，术语“尿嘧啶糖苷酶抑制剂(UGI)”或“UGI结构域”是指能够抑制尿嘧啶-DNA糖苷酶碱基切除修复酶的蛋白。在一些实施方案中，UGI结构域包含野生型UGI或如SEQ ID NO:3873所示的UGI。在一些实施方案中，本文提供的UGI蛋白包含UGI的片段和与UGI或UGI片段同源的蛋白。例如，在一些实施方案中，UGI结构域包含SEQ ID NO:3873所示氨基酸序列的片段。在一些实施方案中，UGI片段包含含有SEQ ID NO:3873所示氨基酸序列的至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％的氨基酸序列。在一些实施方案中，UGI包含与SEQ ID NO:3873所示氨基酸序列同源的氨基酸序列，或与SEQ ID NO:3873所示氨基酸序列的片段同源的氨基酸序列。在一些实施方案中，包含UGI或UGI片段或UGI或UGI片段的同源物的蛋白被称为“UGI变体”。UGI变体与UGI或其片段具有同源性。例如，UGI变体与野生型UGI或SEQ ID NO:3873所示的UGI至少70％相同、至少75％相同、至少80％相同、至少85％相同、至少90％相同、至少95％相同、至少96％相同、至少97％、至少98％、至少99％、至少99.5％、或至少99.9％相同。在一些实施方案中，UGI变体包含UGI的片段，使得该片段与野生型UGI或SEQ ID NO:3873所示的UGI的相应片段至少70％相同、至少80％相同、至少90％相同、至少95％相同、至少96％相同、至少97％相同、至少98％相同、至少99％相同、至少99.5％相同、或至少99.9％相同。在一些实施方案中，UGI包含以下氨基酸序列：

尿嘧啶-DNA糖苷酶抑制剂：

>sp|P14739|UNGI_BPPB2

MTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKML(SEQ ID NO:3873)。

本文所述的引导编辑器可包含多于一个UGI结构域，其可被如本文所述一个或多个接头分开。

G.其他PE元件

在某些实施方案中，本文所述的引导编辑器可包含碱基修复抑制剂。术语“碱基修复抑制剂”或“IBR”是指能够抑制核酸修复酶(如,碱基切除修复酶)活性的蛋白。在一些实施方案中，IBR是OGG碱基切除修复抑制剂。在一些实施方案中，IBR是碱基切除修复抑制剂(“iBER”)。碱基切除修复的示例性抑制剂包括APE1、Endo III、Endo IV、Endo V、EndoVIII、Fpg、hOGG1、hNEIL1、T7EndoI、T4PDG、UDG、hSMUG1和hAAG的抑制剂。在一些实施方案中，IBR是Endo V或hAAG的抑制剂。在一些实施方案中，IBR是可以是无催化活性的糖苷酶或无催化活性的双加氧酶或氧化酶的小分子或肽抑制剂或其变体的iBER。在一些实施方案中，IBR是可以是TDG抑制剂、MBD4抑制剂或AlkBH酶抑制剂的iBER。在一些实施方案中，IBR是包含无催化活性的TDG或无催化活性的MBD4的iBER。示例性无催化活性的TDG是SEQ IDNO:3872(人TDG)的N140A突变体。

以下提供了一些示例性糖苷酶。这些糖苷酶结构域中的任何无催化活性变体是可融合至本公开提供的引导编辑器的napDNAbp或聚合酶结构域的iBER。

OGG(人)

MPARALLPRRMGHRTLASTPALWASIPCPRSELRLDLVLPSGQSFRWREQSPAHWSGVLADQVWTLTQTEEQLHCTVYRGDKSQASRPTPDELEAVRKYFQLDVTLAQLYHHWGSVDSHFQEVAQKFQGVRLLRQDPIECLFSFICSSNNNIARITGMVERLCQAFGPRLIQLDDVTYHGFPSLQALAGPEVEAHLRKLGLGYRARYVSASARAILEEQGGLAWLQQLRESSYEEAHKALCILPGVGTKVADCICLMALDKPQAVPVDVHMWHIAQRDYSWHPTTSQAKGPSPQTNKELGNFFRSLWGPYAGWAQAVLFSADLRQSRHAQEPPAKRRKGSKGPEG(SEQ ID NO:3869)

MPG(人)

MVTPALQMKKPKQFCRRMGQKKQRPARAGQPHSSSDAAQAPAEQPHSSSDAAQAPCPRERCLGPPTTPGPYRSIYFSSPKGHLTRLGLEFFDQPAVPLARAFLGQVLVRRLPNGTELRGRIVETEAYLGPEDEAAHSRGGRQTPRNRGMFMKPGTLYVYIIYGMYFCMNISSQGDGACVLLRALEPLEGLETMRQLRSTLRKGTASRVLKDRELCSGPSKLCQALAINKSFDQRDLAQDEAVWLERGPLEPSEPAVVAAARVGVGHAGEWARKPLRFYVRGSPWVSVVDRVAEQDTQA(SEQ ID NO:3870)

MBD4(人)

MGTTGLESLSLGDRGAAPTVTSSERLVPDPPNDLRKEDVAMELERVGEDEEQMMIKRSSECNPLLQEPIASAQFGATAGTECRKSVPCGWERVVKQRLFGKTAGRFDVYFISPQGLKFRSKSSLANYLHKNGETSLKPEDFDFTVLSKRGIKSRYKDCSMAALTSHLQNQSNNSNWNLRTRSKCKKDVFMPPSSSSELQESRGLSNFTSTHLLLKEDEGVDDVNFRKVRKPKGKVTILKGIPIKKTKKGCRKSCSGFVQSDSKRESVCNKADAESEPVAQKSQLDRTVCISDAGACGETLSVTSEENSLVKKKERSLSSGSNFCSEQKTSGIINKFCSAKDSEHNEKYEDTFLESEEIGTKVEVVERKEHLHTDILKRGSEMDNNCSPTRKDFTGEKIFQEDTIPRTQIERRKTSLYFSSKYNKEALSPPRRKAFKKWTPPRSPFNLVQETLFHDPWKLLIATIFLNRTSGKMAIPVLWKFLEKYPSAEVARTADWRDVSELLKPLGLYDLRAKTIVKFSDEYLTKQWKYPIELHGIGKYGNDSYRIFCVNEWKQVHPEDHKLNKYHDWLWENHEKLSLS(SEQ ID NO:3871)

TDG(人)

MEAENAGSYSLQQAQAFYTFPFQQLMAEAPNMAVVNEQQMPEEVPAPAPAQEPVQEAPKGRKRKPRTTEPKQPVEPKKPVESKKSGKSAKSKEKQEKITDTFKVKRKVDRFNGVSEAELLTKTLPDILTFNLDIVIIGINPGLMAAYKGHHYPGPGNHFWKCLFMSGLSEVQLNHMDDHTLPGKYGIGFTNMVERTTPGSKDLSSKEFREGGRILVQKLQKYQPRIAVFNGKCIYEIFSKEVFGVKVKNLEFGLQPHKIPDTETLCYVMPSSSARCAQFPRAQDKVHYYIKLKDLRDQLKGIERNMDVQEVQYTFDLQLAQEDAKKMAVKEEKYDPGYEAAYGGAYGENPCSSEPCGFSSNGLIESVELRGESAFSGIPNGQWMTQSFTDQIPSFSNHCGTQEQEEESHA(SEQ ID NO:3872)

在一些实施方案中，本文所述融合蛋白可包含一个或多个异源蛋白结构域(如，除了引导编辑器组件外，约或多于约1、2、3、4、5、6、7、8、9、10或更多个结构域)。融合蛋白可包含任何额外的蛋白序列，并且任选包含任何两个结构域之间的接头序列。可能存在的其他示例性特征是定位序列，例如细胞质定位序列、输出序列(如，核输出序列或其他定位序列)，以及可用于融合蛋白的溶解、纯化或检测的序列标签。

可融合至引导编辑器或其组件(如，napDNAbp结构域、聚合酶结构域或NLS结构域)的蛋白结构域的示例包括但不限于表位标签和报告基因序列。表位标签的非限制性示例包括组氨酸(His)标签、V5标签、FLAG标签、流感血凝素(HA)标签、Myc标签、VSV-G标签和硫氧还蛋白(Trx)标签。报告基因的示例包括但不限于谷胱甘肽-5-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)、β-半乳糖苷酶、β-葡萄糖醛酸酶、萤光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和自发荧光蛋白，包括蓝色荧光蛋白(BFP)。引导编辑器可与编码结合DNA分子或结合其他细胞分子的蛋白或蛋白片段的基因序列融合，包括但不限于麦芽糖结合蛋白(MBP)、S-标签、Lex A DNA结合结构域(DBD)融合物、GAL4DNA结合结构域融合物，以及纯疱疹病毒(HSV)BP16蛋白融合物。可形成引导编辑器一部分的其他结构域描述于2011年3月10日公布的美国专利公开号2011/0059502，并通过引用以其整体并入本文。

在本公开的一方面，报告基因包括但不限于谷胱甘肽-5-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)β-半乳糖苷酶、β-葡糖醛酸苷酶、萤光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和自发荧光蛋白，包括蓝色荧光蛋白(BFP)，其可被引入细胞以编码基因产物，用作测量基因产物表达的改变或修饰的标志物。在本公开的某些实施方案中，基因产物是萤光素酶。在本公开的另一个实施方案中，基因产物的表达降低。

本文提供的合适的蛋白标签包括但不限于生物素羧化酶载体蛋白(BCCP)标签、myc-标签、钙调蛋白-标签、FLAG-标签、血凝素(HA)-标签、多组氨酸标签(又被称为组氨酸标签或His标签)、麦芽糖结合蛋白(MBP)标签、nus标签、谷胱甘肽-S-转移酶(GST)标签、绿色荧光蛋白(GFP)标签、硫氧还蛋白标签、S标签、Softags(如，Softag1、Softag3)、链标签、生物素连接酶标签、Flash标签、V5标签和SBP标签。其他合适的序列对本领域技术人员而言是显而易见的。在一些实施方案中，融合蛋白包含一个或多个His标签。

在本公开的一些实施方案中，可通过调整停留时间、量和/或PE系统的表达组件的活性来时序调节引导编辑系统的活性。例如，如本文所述，PE可与能够改变PE的细胞内半衰期的蛋白结构域融合。在涉及两个或更多个载体的某些实施方案中(如，其中在两个或更多个单独载体上编码本文所述组件的载体系统)，PE系统的活性可通过控制递送载体的时间来时序调节。例如，在一些实施方案中，编码核酸酶系统的载体可在编码模板的载体之前递送PE。在其他实施方案中，编码PEgRNA的载体可在编码PE系统的载体之前递送向导。在一些实施方案中，同时递送编码PE系统和PEgRNA的载体。在某些实施方案中，同时递送的载体时序递送例如PE、PEgRNA和/或第二链向导RNA组件。在进一步的实施方案中，从载体上的编码序列转录的RNA(如，核酸酶转录物)可进一步包含至少一种能够改变RNA的细胞内半衰期和/或调节翻译控制的元件。在一些实施方案中，可增加RNA的半衰期。在一些实施方案中，可减少RNA的半衰期。在一些实施方案中，元件可能能够增加RNA的稳定性。在一些实施方案中，元件可能能够降低RNA的稳定性。在一些实施方案中，元件可在RNA的3'UTR内。在一些实施方案中，元件可包括聚腺苷酸化信号(PA)。在一些实施方案中，元件可包括帽，如上游mRNA或PEgRNA末端。在一些实施方案中，RNA可不包含PA，使得转录后其在细胞中更快地降解。在一些实施方案中，元件可包括至少一种富含AU的元件(ARE)。ARE可以依赖于组织类型、细胞类型、时间、细胞定位和环境的方式被ARE结合蛋白(ARE-BP)结合。在一些实施方案中，去稳定元件可促进RNA衰变、影响RNA稳定性或激活翻译。在一些实施方案中，ARE可包含50至150个核苷酸长度。在一些实施方案中，ARE可包含序列AUUUA的至少一个拷贝。在一些实施方案中，至少一个ARE可被添加到RNA的3'UTR。在一些实施方案中，元件可以是土拨鼠肝炎病毒(WHP)。

转录后调控元件(WPRE)，其产生三级结构以增强转录本的表达。在进一步的实施方案中，元件是经修饰和/或截短的WPRE序列，其能够增强转录本的表达，描述于例如Zufferey et al.,J Virol,73(4):2886-92(1999)and Flajolet et al.,J Virol,72(7):6175-80(1998)。在一些实施方案中，WPRE或等同物可添加到RNA的3'UTR。在一些实施方案中，元件可选自富含快速或缓慢衰变的转录本的其他RNA序列基序。

在一些实施方案中，编码PE或PEgRNA的载体可通过PE系统切割载体上存在的靶序列而自毁。切割可能会阻止PE或PEgRNA从载体继续转录。虽然转录可能在线性化载体上发生一段时间，但进行细胞内降解的表达的转录本或蛋白将有更少的时间产生脱靶效应，而无需由编码载体的表达继续供应。

[6]PEgRNA

本文所述引导编辑系统考虑使用任何合适的PEgRNA。本发明人已经发现，通过使用包含编码期望的核苷酸变化的逆转录(RT)模板序列的特殊配置的向导RNA，可利用或调整靶标引发的逆转录(TPRT)的机制，以进行精确且通用的基于CRISPR/Cas的基因组编辑。本申请将这种特殊配置的向导RNA称为“延伸的向导RNA”或“PEgRNA”，因为RT模板序列可作为标准或传统向导RNA分子的延伸提供。本申请考虑了延伸的向导RNA的任何合适的配置或排列。

PEgRNA结构

图3A显示可用于本文公开的引导编辑系统中的延伸的向导RNA的一个实施方案，其中传统向导RNA(绿色部分)包括约20nt原间隔区和与napDNAbp结合的gRNA核心区。在该实施方案中，向导RNA在5'端包括延伸的RNA区段，即5'延伸。在该实施方案中，5'延伸包括逆转录模板序列、逆转录引物结合位点和任选的5-20个核苷酸接头序列。如图1A-1B所示，RT引物结合位点与在R环的非靶链中形成切口后形成的游离3′端杂交，从而引发逆转录酶以5’至3’方向进行DNA聚合。

图3B显示可用于本文公开的引导编辑系统中的延伸的向导RNA的另一个实施方案，其中传统向导RNA(绿色部分)包括约20nt原间隔区和与napDNAbp结合的gRNA核心。在该实施方案中，向导RNA在3'端包括延伸的RNA片段，即3'延伸。在该实施方案中，3'延伸包括逆转录模板序列和逆转录引物结合位点。如图1C-1D所示，RT引物结合位点与在R环的非靶链中形成切口后形成的游离3'端杂交，从而引发逆转录酶以5’至3’方向进行DNA聚合。

图3C显示可用于本文公开的引导编辑系统中的延伸的向导RNA的另一个实施方案，其中传统向导RNA(绿色部分)包括约20nt原间隔区和与napDNAbp结合的gRNA核心。在该实施方案中，向导RNA包括在gRNA核心内分子间位置处的延伸RNA区段，即，分子内延伸。在该实施方案中，分子内延伸包括逆转录模板序列和逆转录引物结合位点。RT引物结合位点与在R环的非靶链中形成切口后形成的游离3'端杂交，从而引发逆转录酶以5’至3’方向进行DNA聚合。

在一个实施方案中，分子间RNA延伸的位置不在向导RNA的原间隔区中。在另一个实施方案中，gRNA核心中分子间RNA延伸的位置。在又一个实施方案中，分子间RNA延伸的位置是向导RNA分子除了在原间隔区内的任何位置，或在破坏原间隔区的位置。

在一个实施方案中，分子间RNA延伸在原间隔区的3'端下游插入。在另一个实施方案中，分子间RNA延伸在前间隔区序列的3'端下游的至少1个核苷酸、至少2个核苷酸、至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸处插入。

在其他实施方案中，分子间RNA延伸插入gRNA中，gRNA是指向导RNA的对应于或包含tracrRNA的部分，其结合Cas9蛋白或其等同物(即，不同的napDNAbp)和/或与其相互作用。优选地，分子间RNA延伸的插入不破坏或最小限度地破坏tracrRNA部分和napDNAbp之间的相互作用。

RNA延伸的长度可以是任何有用的长度。在不同实施方案中，RNA延伸的长度为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸、至少100个核苷酸、至少200个核苷酸、至少300个核苷酸、至少400个核苷酸、或至少500个核苷酸。

RT模板序列还可以是任何合适的长度。例如，RT模板序列的长度可为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸、至少100个核苷酸、至少200个核苷酸、至少300个核苷酸、至少400个核苷酸，或至少500个核苷酸。

在其他实施方案中，任选的接头或间隔区序列的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸、至少100个核苷酸、至少200个核苷酸、至少300个核苷酸、至少400个核苷酸、或至少500个核苷酸。

在某些实施方案中，RT模板序列编码与非靶链同源(因此与靶链的相应位点互补)但包括一个或多个核苷酸变化的单链DNA分子。至少一个核苷酸变化可包括一个或多个单碱基核苷酸变化、一个或多个缺失和一个或多个插入。

如图1G所示，RT模板序列合成的单链DNA产物与非靶链同源，并含有一个或多个核苷酸变化。RT模板序列的单链DNA产物与互补靶链序列平衡杂交，从而置换同源的内源性靶链序列。在一些实施方案中，置换的内源性链可被称为5'内源性DNA瓣种类(如，参见图1E)。这种5'内源性DNA瓣种类可通过5'瓣核酸内切酶(如，FEN1)去除，可连接现在与内源性靶链杂交的单链DNA产物，从而在内源性序列和新合成的链之间形成错配。错配可通过细胞的先天DNA修复和/或复制过程解决。

在不同实施方案中，RT模板序列的核苷酸序列对应于非靶链的核苷酸序列，该非靶链作为5'瓣种类被置换并且与待编辑的位点重叠。

在延伸的向导RNA的不同实施方案中，逆转录模板序列可编码与邻近切口位点的内源性DNA序列互补的单链DNA瓣，其中单链DNA瓣包含期望的核苷酸变化。单链DNA瓣可在切口位点置换内源性单链DNA。切口位点处被置换的内源性单链DNA可具有5'端并形成内源性瓣，其可被细胞切除。在不同实施方案中，5'端内源性瓣的切除可有助于驱动产物形成，因为去除5'端内源性瓣促进单链3'DNA瓣与相应互补DNA链的杂交，以及掺入或同化由单链3’DNA瓣携带到靶DNA中的期望的核苷酸变化。

在延伸的向导RNA的不同实施方案中，单链DNA瓣的细胞修复导致期望的核苷酸变化的安装，从而形成期望的产物。

在其他实施方案中，将期望的核苷酸变化安装在以下的编辑窗口：切口位点的约-5至+5之间、或切口位点的约-10至+10之间、或切口位点的约-20至+20之间、或切口位点的约-30至+30之间、或切口位点的约-40至+40之间、或切口位点的约-50至+50之间、或切口位点的约-60至+60之间、或切口位点的约-70至+70之间、或切口位点的约-80至+80之间、或切口位点的约-90至+90之间，或切口位点的约-100至+100之间，或切口位点的约-200至+200之间。

在其他实施方案中，将期望的核苷酸变化安装在以下的编辑窗口：距切口位点约+1至+2之间，或距切口位点约+1至+3、+1至+4、+1至+5、+1至+6、+1至+7、+1至+8、+1至+9、+1至+10、+1至+11、+1至+12、+1至+13、+1至+14、+1至+15、+1至+16、+1至+17、+1至+18、+1至+19、+1至+20、+1至+21、+1至+22、+1至+23、+1至+24、+1至+25、+1至+26、+1至+27、+1至+28、+1至+29、+1至+30、+1至+31、+1至+32、+1至+33、+1至+34、+1至+35、+1至+36、+1至+37、+1至+38、+1至+39、+1至+40、+1至+41、+1至+42、+1至+43、+1至+44、+1至+45、+1至+46、+1至+47、+1至+48、+1至+49、+1至+50、+1至+51、+1至+52、+1至+53、+1至+54、+1至+55、+1至+56、+1至+57、+1至+58、+1至+59、+1至+60、+1至+61、+1至+62、+1至+63、+1至+64、+1至+65、+1至+66、+1至+67、+1至+68、+1至+69、+1至+70、+1至+71、+1至+72、+1至+73、+1至+74、+1至+75、+1至+76、+1至+77、+1至+78、+1至+79、+1至+80、+1至+81、+1至+82、+1至+83、+1至+84、+1至+85、+1至+86、+1至+87、+1至+88、+1至+89、+1至+90、+1至+90、+1至+91、+1至+92、+1至+93、+1至+94、+1至+95、+1至+96、+1至+97、+1至+98、+1至+99、+1至+100、+1至+101、+1至+102、+1至+103、+1至+104、+1至+105、+1至+106、+1至+107、+1至+108、+1至+109、+1至+110、+1至+111、+1至+112、+1至+113、+1至+114、+1至+115、+1至+116、+1至+117、+1至+118、+1至+119、+1至+120、+1至+121、+1至+122、+1至+123、+1至+124、或+1至+125。

在其他实施方案中，将期望的核苷酸变化安装在以下的编辑窗口：距切口位点约+1至+2之间，或距切口位点约+1至+5、+1至+10、+1至+15、+1至+20、+1至+25、+1至+30、+1至+35、+1至+40、+1至+45、+1至+50、+1至+55、+1至+100、+1至+105、+1至+110、+1至+115、+1至+120、+1至+125、+1至+130、+1至+135、+1至+140、+1至+145、+1至+150、+1至+155、+1至+160、+1至+165、+1至+170、+1至+175、+1至+180、+1至+185、+1至+190、+1至+195、或+1至+200。

在不同方面，延伸的向导RNA是向导RNA的修饰版本。向导RNA可能是天然存在的、由编码核酸表达的或化学合成的。用于获得或以其他方式合成向导RNA和确定向导RNA的适当序列的方法是本领域所熟知的，包括与感兴趣基因组靶位点的靶链相互作用和杂交的原间隔区。

在不同实施方案中，除其他因素外，向导RNA序列的特定设计方面取决于感兴趣基因组靶位点(即，待编辑的期望位点)的核苷酸序列和存在于本文所述引导编辑系统中的napDNAbp的类型(如，Cas9蛋白)，例如PAM序列位置、靶序列中的G/C含量百分比、微同源区域的程度、二级结构等。

一般地，向导序列是与靶多核苷酸序列具有足够互补性以与靶序列杂交并指导napDNAbp(如，Cas9、Cas9同源物或Cas9变体)与靶序列的序列特异性结合的任何多核苷酸序列。在一些实施方案中，当使用合适的比对算法最佳比对时，向导序列与其对应的靶序列之间的互补程度为约或大于约50％、60％、75％、80％、85％、90％、95％、97.5％、99％或以上。最佳比对可使用用于比对序列的任何合适算法来确定，其非限制性示例包括Smith-Waterman算法、Needleman-Wunsch算法、基于Burrows-Wheeler变换的算法(如，BurrowsWheeler Aligner)、ClustalW、ClustalX、BLAT、Novoalign(Novocraft Technologies，ELAND(Illumina,San Diego,Calif.)、SOAP(可获自soap.genomics.org.cn)和Maq(可获自maq.sourceforge.net)。在一些实施方案中，向导序列的长度为约或多于约5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、2728、29、30、35、40、45、50、75个、或更多的核苷酸。

在一些实施方案中，向导序列的长度小于约75、50、45、40、35、30、25、20、15、12个或更少的核苷酸。可通过任何合适的测定来评估向导序列引导引导编辑器(PE)与靶序列的序列特异性结合的能力。例如，可向具有相应靶序列的宿主细胞提供引导编辑器(PE)的组件，包括待测试的向导序列，例如通过用编码本文公开的引导编辑器(PE)组件的载体转染，然后评估靶序列内的优先切割，例如通过本文所述Surveyor检测法。类似地，靶多核苷酸序列的切割可通过以下在试管中来评估：提供靶序列、引导编辑器(PE)的组件，包括待测试的向导序列和不同于测试向导序列的对照向导序列，以及比较测试和对照向导序列反应之间靶序列的结合或切割率。其他测定是可能的，并且是本领域技术人员会想到。

可选择向导序列以靶向任何靶序列。在一些实施方案中，靶序列是细胞基因组内的序列。示例性靶序列包括靶基因组中独特的那些。例如，对于化脓性链球菌Cas9，基因组中的独特靶序列可包括形式MMMMMMMMNNNNNNNNNNNNXGG(SEQ ID NO:204)的Cas9靶位点，其中NNNNNNNNNNNNXGG(SEQ ID NO:205)(N是A、G、T，或C；X可以是任何碱基)。基因组中的独特靶序列可包括形式MMMMMMMMMNNNNNNNNNNNXGG(SEQ ID NO:206)的化脓性链球菌Cas9靶位点，其中NNNNNNNNNNNXGG(SEQ ID NO:207)(N是A、G、T或C；X可以是任何碱基)。对于嗜热链球菌CRISPR1Cas9，基因组中的独特靶序列可包括形式MMMMMMMMNNNNNNNNNNNNXXAGAAW(SEQID NO:208)的Cas9靶位点，其中NNNNNNNNNNNNXXAGAAW(SEQ ID NO:209)(N是A、G、T或C；X可以是任何碱基；W是A或T)。基因组中的独特靶序列可包括形式MMMMMMMMMNNNNNNNNNNNXXAGAAW(SEQ ID NO:210)的嗜热链球菌CRISPR1Cas9靶位点，其中NNNNNNNNNNNNXXAGAAW(SEQ ID NO:211)(N是A、G、T或C；X可以是任何碱基；W是A或T)。对于化脓性链球菌Cas9，基因组中的独特靶序列可包括形式MMMMMMMMNNNNNNNNNNNNXGGXG(SEQID NO:212)的Cas9靶位点，其中NNNNNNNNNNNNXGGXG(SEQ ID NO:213)(N是A、G、T或C；X可以是任何碱基)。基因组中的独特靶序列可包括形式MMMMMMMMMNNNNNNNNNNNXGGXG(SEQ IDNO:214)的化脓性链球菌Cas9靶位点，其中NNNNNNNNNNNXGGXG(SEQ ID NO:215)(N是A、G、T或C；和X可以是任何碱基)。在这些序列的各序列中，“M”可以是A、G、T或C，并且在确定序列为独特时无需考虑。

在一些实施方案中，选择向导序列以降低向导序列内的二级结构的程度。二级结构可通过任何合适的多核苷酸折叠算法来确定。一些程序基于计算最小吉布斯(Gibbs)自由能。一种此类算法的示例是mFold，如Zuker and Stiegler(Nucleic Acids Res.9(1981),133-148)。另一个示例折叠算法是维也纳大学(the University of Vienna)理论化学研究所开发的在线网络服务器RNAfold，使用质心结构预测算法(参见，例如A.R.Gruber et al.,2008,Cell106(1):23-24；以及PA Carr and GM Church,2009,NatureBiotechnology27(12):1151-62)。进一步的算法可见于美国申请系列号61/836,080(BroadReference BI-2013/004A)；通过引用并入本文。

一般地，tracr配对序列包括与tracr序列具有足够互补性以促进以下一项或多项的任何序列：(1)在含有相应tracr序列的细胞中切除位于tracr配对序列两侧的向导序列；以及(2)在靶序列处形成复合物，其中该复合物包含与tracr序列杂交的tracr配对序列。一般地，互补性程度参考tracr配对序列和tracr序列沿两个序列中较短序列长度的最佳比对。最佳比对可通过任何合适的比对算法确定，并且可进一步导致二级结构，例如tracr序列或tracr配对序列内的自互补性。在一些实施方案中，最佳比对为约或大于约25％、30％、40％、50％、60％、70％、80％、90％、95％、97.5％、99％或更高时，tracr序列和tracr配对序列之间的互补程度沿着两者中较短者的长度。在一些实施方案中，tracr序列的长度为约或大于约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40、50个或更多的核苷酸。在一些实施方案中，tracr序列和tracr配对序列包含在单个转录本内，使得两者之间的杂交产生具有二级结构(如，发夹结构)的转录本。用于发夹结构的优选环形成序列的长度为四个核苷酸，最优选具有序列GAAA。然而，可使用更长或更短的环序列，也可使用替代序列。序列优选包括核苷酸三联体(如，AAA)和额外的核苷酸(如，C或G)。环形成序列的示例包括CAAA和AAAG。在本发明的实施方案中，转录本或转录的多核苷酸序列具有至少两个或更多个发夹。在优选实施方案中，转录本具有2个、3个、4个或5个发夹。在本发明的另一个实施方案中，转录本具有至多5个发夹。在一些实施方案中，单个转录本还包括转录终止序列；优选地，这是polyT序列，如6个T核苷酸。包含向导序列、tracr配对序列和tracr序列的单个多核苷酸的进一步非限制性示例如下(从5'至3'列出)，其中“N”代表向导序列的碱基，第一块小写字母代表tracr配对序列，第二块小写字母代表tracr序列，最后的poly-T序列代表转录终止子：

(1)NNNNNNNNgtttttgtactctcaagatttaGAAAtaaatcttgcagaagctacaaagataaggcttcatgccgaaatcaacaccctgtcattttatggcagggtgttttcgttatttaaTTTTTT(SEQ ID NO:216)；

(2)NNNNNNNNNNNNNNNNNNgtttttgtactctcaGAAAtgcagaagctacaaagataaggcttcatgccgaaatcaacaccctgtcattttatggcagggtgttttcgttatttaaTTTTTT(SEQ ID NO:217)；

(3)NNNNNNNNNNNNNNNNNNNNgtttttgtactctcaGAAAtgcagaagctacaaagataaggcttcatgccgaaatcaacaccctgtcattttatggcagggtgtTTTTT(SEQ ID NO:218)；

(4)NNNNNNNNNNNNNNNNNNNNgttttagagctaGAAAtagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtgcTTTTTT(SEQ ID NO:219)；

(5)NNNNNNNNNNNNNNNNNNNNgttttagagctaGAAATAGcaagttaaaataaggctagtccgttatcaacttgaaaaagtgTTTTTTT(SEQ ID NO:220)；以及

(6)NNNNNNNNNNNNNNNNNNNNgttttagagctagAAATAGcaagttaaaataaggctagtccgttatcaTTTTTTTT(SEQ ID NO:221)。

在一些实施方案中，序列(1)至(3)与来自嗜热链球菌CRISPR1的Cas9组合使用。在一些实施方案中，序列(4)至(6)与来自化脓性链球菌的Cas9组合使用。在一些实施方案中，tracr序列是与包含tracr配对序列的转录本分开的转录本。

对于本领域技术人员显而易见地，如本文公开，为了将包含Cas9结构域和单链DNA结合蛋白的任何融合蛋白靶向靶位点，如包含待编辑的点突变的位点，通常需要将融合蛋白与向导RNA(如，sgRNA)一起共表达。如本文别处更详细解释的，向导RNA通常包含允许Cas9结合的tracrRNA框架和赋予Cas9:核酸编辑酶/结构域融合蛋白序列特异性的向导序列。

在一些实施方案中，向导RNA包含结构5′-[向导序列]-GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAAGGCUAGUCC GUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUU-3′(SEQ ID NO:222)，其中向导序列包含与靶序列互补的靶序列。向导序列通常为20个核苷酸长。基于本公开，用于将Cas9:核酸编辑酶/结构域融合蛋白靶向特定基因组靶位点的合适的向导RNA的序列对于本领域技术人员而言是显而易见的。这类合适的向导RNA序列通常包含与待编辑的靶核苷酸上游或下游50个核苷酸内的核酸序列互补的向导序列。本文提供了一些适用于将任何提供的融合蛋白靶向特定靶序列的示例性向导RNA序列。其他向导序列是本领域公知的并且可与本文所述的引导编辑器(PE)一起使用。

在其他实施方案中，PEgRNA包括图3D中描绘的那些。

在其他实施方案中，PEgRNA可包括图3E中描绘的那些。

图3D提供了本文考虑的PEgRNA的实施方案的结构，其可根据实施例2中定义的方法进行设计。PEgRNA包含以5′至3′方向排列的3个主要组分元件，即：间隔区、gRNA核心和3′端处的延伸臂。延伸臂在5′至3′方向可进一步分为以下结构元件，即：引物结合位点(A)、编辑模板(B)和同源臂(C)。此外，PEgRNA可包含可选的3'端修饰区(e1)和可选的5'端修饰区(e2)。更进一步地，PEgRNA可在PEgRNA的3'端包含转录终止信号(未描绘)。这些结构元件在本文中进一步定义。PEgRNA结构的描述并不意味着是限制性的，而是包含元件排列的变化。例如，可选的序列修饰区(e1)和(e2)可位于所示的任何其他区域之内或之间，并且不限于位于3'和5'端。

图3E提供了本文考虑的PEgRNA的另一个实施方案的结构，其可根据实施例2中定义的方法进行设计。PEgRNA包含以5'至3'方向排列的3个主要组分元件，即：间隔区、gRNA核心和3′端处的延伸臂。延伸臂在5′至3′方向上可进一步分为以下结构元件，即：引物结合位点(A)、编辑模板(B)和同源臂(C)。此外，PEgRNA可包含可选的3'端修饰区(e1)和可选的5'端修饰区(e2)。更进一步地，PEgRNA可在PEgRNA的3'端包含转录终止信号(未描绘)。这些结构元件在本文中进一步定义。PEgRNA结构的描述并不意味着是限制性的，而是包含元件排列的变化。例如，可选的序列修饰区(e1)和(e2)可位于所示的任何其他区域之内或之间，并且不限于位于3'和5'端。

PEgRNA改进

PEgRNA还可包括额外的设计改进，其可改变PEgRNA的性质和/或特征，从而改进引导编辑的功效。在不同实施方案中，这些改进可能属于许多不同类别中的一个或多个，包括但不限于：(1)设计以能够从非聚合酶III(pol III)启动子有效表达功能性PEgRNA，这能够表达更长的PEgRNA而无需繁琐的序列要求；(2)对核心Cas9结合的PEgRNA支架的改进，其可提高效力；(3)修饰PEgRNA以提高RT持续合成能力，从而能够在靶基因组位点插入更长的序列；(4)在PEgRNA的5′或3′端添加RNA基序，以提高PEgRNA稳定性，增强RT持续合成能力，防止PEgRNA错误折叠，或募集对基因组编辑重要的其他要素。

在一个实施方案中，PEgRNA可设计具有pol III启动子以提高具有较大延伸臂的更长长度的PEgRNA的表达。sgRNA通常由U6 snRNA启动子表达。该启动子募集pol III以表达相关的RNA，可用于表达保留在细胞核内的短RNA。然而，pol III的加工能力不强，无法在有效基因组编辑需要的水平上表达长度超过几百个核苷酸的RNA。此外，pol III可在U的延伸处停止或终止，这可能会限制使用PEgRNA插入的序列多样性。已检测募集聚合酶II(如，pCMV)或聚合酶I(如，U1 snRNA启动子)的其他启动子表达更长sgRNA的能力。然而，这些启动子通常是部分转录的，这会导致表达的PEgRNA中间隔区5′的额外序列，这已被证明会导致Cas9:sgRNA活性以位点依赖性方式明显降低。此外，虽然pol III转录的PEgRNA可简单地在6-7U延伸中终止，但从pol II或pol I转录的PEgRNA需要不同的终止信号。通常，此类信号还会导致聚腺苷酸化，从而导致PEgRNA从细胞核中不期望的转运。类似地，从pol II启动子(如，pCMV)表达的RNA通常是5′-加帽的，这也导致它们的核输出。

此前，Rinn和同事筛选了多种表达平台，用于生产长的非编码RNA-(lncRNA)标记的sgRNA¹⁸³。这些平台包括从pCMV表达并终止于来自人的MALAT1 ncRNA的ENE元件¹⁸⁴、来自KSHV的PANENE元件¹⁸⁵或来自U1 snRNA的3′框¹⁸⁶。值得注意地，MALAT1 ncRNA和PAN ENE形成保护poly A尾的三螺旋^184，187。这些构建体还可增强RNA稳定性。还考虑能够表达更长的PEgRNA的这些表达系统。

此外，已设计了一系列方法来切割将作为PEgRNA一部分转录的pol II启动子部分，添加自切割核酶(如，锤头型¹⁸⁸、手枪型¹⁸⁹、斧头型¹⁸⁹、发夹型¹⁹⁰、VS¹⁹¹、twister¹⁹²或twister sister¹⁹²核酶)或其他自切割元件来加工转录的向导，或被Csy4¹⁹³识别并且也导致加工向导的发夹。此外，假设并入多个ENE基序可提高PEgRNA表达和稳定性，如先前对KSHV PAN RNA和元件所证明的那样¹⁸⁵。还预计以环状内含子RNA(ciRNA)形式环化PEgRNA也可能导致增强的RNA表达和稳定性，以及核定位¹⁹⁴。

在不同实施方案中，PEgRNA可包括各种上述元件，如以下序列所示例。

非限制性示例1-由pCMV、Csy4发夹、PEgRNA和MALAT1 ENE组成的PEgRNA表达平台

TAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCGTTCACTGCCGTATAGGCAGGGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGTTTTAGGGTCATGAAGGTTTTTCTTTTCCTGAGAAAACAACACGTATTGTTTTCTCAGGTTTTGCTTTTTGGCCTTTTTCTAGCTTAAAAAAAAAAAAAGCAAAAGATGCTGGTGGTTGGCACTCCTGGTTTCCAGGACGGGGTTCAAATCCCTGCGGCGTCTTTGCTTTGACT(SEQ ID NO:223)

非限制性示例2–由pCMV、Csy4发卡、PEgRNA和PAN ENE组成的PEgRNA表达平台

TAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCGTTCACTGCCGTATAGGCAGGGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGTTTTGTTTTGGCTGGGTTTTTCCTTGTTCGCACCGGACACCTCCAGTGACCAGACGGCAAGGTTTTTATCCCAGTGTATATTGGAAAAACATGTTATACTTTTGACAATTTAACGTGCCTAGAGCTCAAATTAAACTAATACCATAACGTAATGCAACTTACAACATAAATAAAGGTCAATGTTTAATCCATAAAAAAAAAAAAAAAAAAA(SEQ ID NO:224)

非限制性示例3-由pCMV、Csy4发卡、PEgRNA和3xPAN ENE组成的PEgRNA表达平台

TAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCGTTCACTGCCGTATAGGCAGGGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGTTTTGTTTTGGCTGGGTTTTTCCTTGTTCGCACCGGACACCTCCAGTGACCAGACGGCAAGGTTTTTATCCCAGTGTATATTGGAAAAACATGTTATACTTTTGACAATTTAACGTGCCTAGAGCTCAAATTAAACTAATACCATAACGTAATGCAACTTACAACATAAATAAAGGTCAATGTTTAATCCATAAAAAAAAAAAAAAAAAAAACACACTGTTTTGGCTGGGTTTTTCCTTGTTCGCACCGGACACCTCCAGTGACCAGACGGCAAGGTTTTTATCCCAGTGTATATTGGAAAAACATGTTATACTTTTGACAATTTAACGTGCCTAGAGCTCAAATTAAACTAATACCATAACGTAATGCAACTTACAACATAAATAAAGGTCAATGTTTAATCCATAAAAAAAAAAAAAAAAAAATCTCTCTGTTTTGGCTGGGTTTTTCCTTGTTCGCACCGGACACCTCCAGTGACCAGACGGCAAGGTTTTTATCCCAGTGTATATTGGAAAAACATGTTATACTTTTGACAATTTAACGTGCCTAGAGCTCAAATTAAACTAATACCATAACGTAATGCAACTTACAACATAAATAAAGGTCAATGTTTAATCCATAAAAAAAAAAAAAAAAAAA(SEQ ID NO:225)

非限制性示例4–由pCMV、Csy4发卡、PEgRNA和3′框组成的PEgRNA表达平台

TAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCGTTCACTGCCGTATAGGCAGGGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGTTTGTTTCAAAAGTAGACTGTACGCTAAGGGTCATATCTTTTTTTGTTTGGTTTGTGTCTTGGTTGGCGTCTTAAA(SEQ ID NO:226)

非限制性示例5–由pU1、Csy4发卡、PEgRNA和3′框组成的PEgRNA表达平台

CTAAGGACCAGCTTCTTTGGGAGAGAACAGACGCAGGGGCGGGAGGGAAAAAGGGAGAGGCAGACGTCACTTCCCCTTGGCGGCTCTGGCAGCAGATTGGTCGGTTGAGTGGCAGAAAGGCAGACGGGGACTGGGCAAGGCACTGTCGGTGACATCACGGACAGGGCGACTTCTATGTAGATGAGGCAGCGCAGAGGCTGCTGCTTCGCCACTTGCTGCTTCACCACGAAGGAGTTCCCGTGCCCTGGGAGCGGGTTCAGGACCGCTGATCGGAAGTGAGAATCCCAGCTGTGTGTCAGGGCTGGAAAGGGCTCGGGAGTGCGCGGGGCAAGTGACCGTGTGTGTAAAGAGTGAGGCGTATGAGGCTGTGTCGGGGCAGAGGCCCAAGATCTCAGTTCACTGCCGTATAGGCAGGGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGTTTCAGCAAGTTCAGAGAAATCTGAACTTGCTGGATTTTTGGAGCAGGGAGATGGAATAGGAGCTTGCTCCGTCCACTCCACGCATCGACCTGGTATTGCAGTACCTCCAGGAACGGTGCACCCACTTTCTGGAGTTTCAAAAGTAGACTGTACGCTAAGGGTCATATCTTTTTTTGTTTGGTTTGTGTCTTGGTTGGCGTCTTAAA(SEQ IDNO:227).

在不同的其他实施方案中，可通过对支架或核心序列引入改进来改善PEgRNA。这可通过引入已知的完成。

可能可以改善核心，结合Cas9的PEgRNA支架以增强PE活性。已证明了几种这样的方法。例如，支架(P1)的第一配对元件包含GTTTT-AAAAC配对元件。已证明这种T延伸导致pol III暂停和RNA转录本的过早终止。在P1的这一部分，已证明T-A对之一至G-C对的合理突变可增强sgRNA活性，表明这种方法对于PEgRNA也是可行的¹⁹⁵。此外，还证明增加P1的长度可增强sgRNA折叠并导致提高活性¹⁹⁵，表明这是提高PEgRNA活性的另一条途径。对核心的改进示例可包括：

含有对P1的6nt延伸的PEgRNA

GGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGCTCATGAAAATGAGCTAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGCTGTTTTTTT(SEQID NO:228)

Pl内含有T-A至G-C突变的PEgRNA

GGCCCAGACTGAGCACGTGAGTTTGAGAGCTAGAAATAGCAAGTTTAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCCTCTGCCATCAAAGCGTGCTCAGTCTGTTTTTTT(SEQ ID NO:229)

在不同的其他实施方案中，可通过将修饰引入编辑模板区来改进PEgRNA。随着PEgRNA提供模板化的插入物尺寸增加，其更有可能被核酸内切酶降解，发生自发水解，或者折叠成无法被RT逆转录或破坏PEgRNA支架折叠和后续Cas9-RT结合的二级结构。因此，可能需要对PEgRNA模板进行修饰才能影响大的插入，例如整个基因的插入。这样做的一些策略包括在合成或半合成的PEgRNA中插入经修饰的核苷酸，使RNA对降解或水解更具抵抗力，或者不太可能采用抑制性二级结构¹⁹⁶。这类修饰可包括8-氮杂-7-去氮杂鸟苷，其会减少富含G的序列中的RNA二级结构；锁核酸(LNA)，减少降解并增强某些种类的RNA二级结构；增强RNA稳定性的2'-O-甲基、2'-氟或2'-O-甲氧基乙氧基修饰。这些修饰也可包含在PEgRNA的其他地方来增强稳定性和活性。可选择或另外地，可设计PEgRNA的模板，使其既编码期望的蛋白产物，也更可能采用能够通过RT展开的简单二级结构。这类简单结构会充当热力学源，从而不太可能出现阻止逆转录的更复杂的结构。最后，还可将模板分成两个独立的PEgRNA。在这样的设计中，将PE用于启动转录，并通过与Cas9融合的RNA结合蛋白或PEgRNA本身上的RNA识别元件(如，MS2适体)将单独的模板RNA募集到靶向位置。RT可直接结合到这个单独的模板RNA，或者在切换到第二模板之前在原始PEgRNA上启动逆转录。这种方法可通过防止添加长模板后PEgRNA的错误折叠以及不需要为了发生长插入将Cas9从基因组解离来实现长的插入，这种解离可能会抑制基于PE的长插入。

在其他实施方案中，PEgRNA可通过在PEgRNA的5'和3'端处或甚至在它们之间的位点处(如，在gRNA核心区域或间隔区中)引入额外的RNA基序来改进。以上讨论了几个这样的基序—例如来自KSHV的PAN ENE和来自MALAT1的ENE作为终止来自非pol III启动子的较长PEgRNA的表达的可能手段。这些元件形成吞没polyA尾的RNA三螺旋，导致它们保留在细胞核内^184,187。然而，通过在PEgRNA的3′端形成封闭末端核苷酸的复杂结构，这些结构也可能有助于防止核酸外切酶介导的PEgRNA降解。

在3'端插入的附加结构元件也可增强RNA稳定性，尽管不能从非pol III启动子终止。这类基序可包括会封闭3′端的发夹或RNA四链体¹⁹⁷，或自切割核酶(如，HDV)，其会导致在3′端形成2'-3′-环状磷酸酯，并且还可能使PEgRNA不太可能被核酸外切酶降解¹⁹⁸。通过不完全剪接诱导PEgRNA环化以形成ciRNA也可增加PEgRNA稳定性并导致PEgRNA保留在细胞核内¹⁹⁴。

其他RNA基序也可通过增强RT与DNA-RNA双链体的结合来改进RT持续合成能力或增强PEgRNA活性。在其同源逆转录病毒基因组中添加由RT结合的天然序列可增强RT活性¹⁹⁹。这可能包括天然引物结合位点(PBS)、聚嘌呤区(PPT)或参与逆转录病毒基因组二聚化和转录起始的吻环(kissing loop)¹⁹⁹。

在PEgRNA的5'和3'端添加二聚化基序(如，吻环或GNRA四环/四环受体对²⁰⁰)也可导致PEgRNA的有效环化，提高稳定性。此外，预计添加这些基序能够物理分离PEgRNA间隔区和引物，防止间隔区闭塞阻碍PE活性。在间隔区或沿引物结合位点形成小立足点(toehold)发夹的PEgRNA的短5′延伸或3'延伸也可有利地竞争沿PEgRNA长度的互补内区域的退火，例如可能存在的间隔区和引物结合位点之间的相互作用。最后，吻环也可用于将其他模板RNA募集到基因组位点，并能够将RT活性从一种RNA交换到另一种。作为不同二级结构的示例性实施方案，图3D和图3E描绘的PEgRNA列出可被工程化改造到PEgRNA的任何区域(包括延伸臂的末端部分(即，e1和e2))的一些二级RNA结构，如图所示。

示例改进包括但不限于：

PEgRNA-HDV融合物

GGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGGGCCGGCATGGTCCCAGCCTCCTCGCTGGCGCCGGCTGGGCAACATGCTTCGGCATGGCGAATGGGACTTTTTTT(SEQ ID NO:230)

PEgRNA-MMLV吻环

GGTGGGAGACGTCCCACCGGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCTTCGACCGTGCTCAGTCTGGTGGGAGACGTCCCACCTTTTTTT(SEQ ID NO:231)

PEgRNA-VS核酶吻环

GAGCAGCATGGCGTCGCTGCTCACGGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCTTCGACCGTGCTCAGTCTCCATCAGTTGACACCCTGAGGTTTTTTT(SEQ ID NO:232)

PEgRNA-GNRA四环/四环受体

GCAGACCTAAGTGGUGACATATGGTCTGGGCCCAGACTGAGCACGTGAGTTTTAGAGCTAUACGTAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTUACGAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCTTCGACCGTGCTCAGTCTGCATGCGATTAGAAATAATCGCATGTTTTTTT(SEQ ID NO:233)

PEgRNA模板切换的二级RNA-HDV融合物

TCTGCCATCAAAGCTGCGACCGTGCTCAGTCTGGTGGGAGACGTCCCACCGGCCGGCATGGTCCCAGCCTCCTCGCTGGCGCCGGCTGGGCAACATGCTTCGGCATGGCGAATGGGACTTTTTTT(SEQ ID NO:234)

可通过定向进化以类似于如何改进SpCas9和引导编辑器(PE)的方式进一步改进PEgRNA支架。定向进化可增强Cas9或进化的Cas9变体识别PEgRNA。此外，不同的PEgRNA支架序列在不同基因组基因座处增强相关位点的PE活性，减少脱靶活性，或两者可能是最佳的。最后，添加其他RNA基序的PEgRNA支架的进化几乎肯定会提高融合PEgRNA相对于未进化的融合RNA的活性。例如，由c-di-GMP-I适体和锤头型核酶组成的变构核酶的进化导致显著提高活性²⁰²，表明进化也会提高锤头型-PEgRNA融合物的活性。此外，虽然Cas9目前通常不允许sgRNA的5′延伸，但定向进化可能会产生使这种不耐受性减轻的突变，从而允许利用其他RNA基序。

本公开考虑任何这样的方式来进一步提高在此公开的引导编辑系统的功效。

在不同实施方案中，限制来自延伸臂的连续T序列的出现可能是有利的，因为T的连续系列可能限制PEgRNA被转录的能力。例如，设计PEgRNA时应避免或应从最终的设计序列至少去除至少连续三个T、至少连续4个T、至少连续5个T、至少连续6个T、至少连续7个T、至少连续8个T、至少连续9个T、至少连续10个T、至少连续11个T、至少连续12个T、至少连续13个T、至少连续14个T、或至少连续15个T。在一个实施方案中，可避免在PEgRNA延伸臂中包含不需要的连续T串，但避免富含连续A:T核碱基对的靶位点。

用于反式引导编辑的断裂PEgRNA设计

本公开还考虑了反式引导编辑，其指通过将PEgRNA分成两个不同的分子(向导RNA和tPERT分子)来操作的引导编辑的修饰版本。将tPERT分子编程为与靶DNA位点的引导编辑器复合物共定位，从而将引物结合位点和DNA合成模板以反式引入引导编辑器。例如，参见图3G，用于反式引导编辑器(tPE)的实施方案，其显示双组件系统，包含(1)募集蛋白(RP)-PE:gRNA复合物和(2)包括引物结合位点和连接到RNA蛋白募集结构域(如，茎环或发夹)的DNA合成模板的tPERT，其中RP-PE:gRNA复合物的募集蛋白组件将tPERT募集到待编辑的靶位点，从而将PBS和DNA合成模板以反式与引导编辑器结合。换言之，将tPERT工程化改造为包含PEgRNA的延伸臂(全部或部分)，其包括引物结合位点和DNA合成模板。这种方法的一个优点是将PEgRNA的延伸臂与向导RNA分开，从而使延伸臂的PBS和向导RNA的间隔区序列之间倾向于发生的退火相互作用最小化。

反式引导编辑的关键特征是反式引导编辑器将tPERT募集到DNA编辑位点的能力，从而在引导编辑位点有效地共定位PEgRNA的所有功能。可通过将RNA蛋白募集结构域(如，MS2适体)安装到tPERT中并将相应的募集蛋白融合到引导编辑器(如，通过至napDNAbp的接头或通过至聚合酶的接头)来实现募集，该引导编辑器能够与RNA-蛋白募集结构域特异性结合，从而将tPERT分子募集到引导编辑器复合物。如图3H描述的过程所示，RP-PE:gRNA复合物结合并对靶DNA序列产生切口。然后，募集蛋白(RP)募集tPERT共定位至与DNA靶位点结合的引导编辑复合物，从而允许位于tPERT上的引物结合位点与切口链上的引物序列结合，随后允许聚合酶(如，RT)针对位于tPERT上的DNA合成模板合成单链DNA，直至tPERT的5′端。

虽然tPERT在图3G和图3H中以包含RNA蛋白募集结构域5′端的PBS和DNA合成模板示出，其他配置中的tPERT可设计为具有位于RNA蛋白募集结构域3′端的PBS和DNA合成模板。然而，具有5'延伸的tPERT的优点是单链DNA的合成将在tPERT的5'端自然终止，因而在引导编辑的DNA合成过程中不会冒险使用RNA蛋白募集结构域的任何部分作为模板。

PEgRNA设计方法

本公开还涉及用于设计PEgRNA的方法。

在设计的一方面，设计方法可考虑待使用的引导编辑的特定应用。例如，如本文所示例和讨论，引导编辑可使用但不限于：(a)对核苷酸序列安装校正突变的变化，(b)安装蛋白和RNA标签，(c)在感兴趣的蛋白上安装免疫表位，(d)在蛋白中安装可诱导的二聚化结构域，(e)安装或去除序列以改变生物分子的活性，(f)安装重组酶靶位点以引导特定的基因变化，以及(g)使用易错RT的靶序列诱变。除了通常在感兴趣的靶位点插入、改变或缺失核苷酸序列的这些方法之外，引导编辑器还可用于构建高度可编程的文库，以及进行细胞数据记录和谱系追踪研究。在这些不同的用途中，如本文所述，可能存在与制备任何给定的这些应用中特别有用的PEgRNA有关的特定设计方面。

为任何特定的应用或引导编辑的使用设计PEgRNA时，会考虑许多考虑因素，包括但不限于：

(a)靶序列，即，期望引导编辑器在其中安装一个或多个核碱基修饰的核苷酸序列；

(b)靶序列内切割位点的位置，即，引导编辑器将在特定核碱基位点诱导单链切口，以在切口的一侧产生3′端RT引物序列和切口的另一侧产生5′端内源性瓣(最终被FEN1或其等同物去除，并由3′ssDNA瓣置换)。切割位点类似于“编辑位置”，因为这产生了3′端RT引物序列，其在RNA依赖性DNA聚合过程中被RT延伸，以产生包含期望编辑的3′ssDNA瓣，然后该3′ssDNA瓣置换靶序列中的5′内源性DNA瓣。

(c)可用的PAM序列(包括经典SpCas9 PAM位点，以及Cas9变体识别的非经典PAM位点以及具有扩展或不同PAM特异性的等同物)；

(d)可用的PAM序列与靶序列的切割位点的位置之间的间距；

(e)所使用的引导编辑器的特定Cas9、Cas9变体或Cas9等同物；

(f)引物结合位点的序列和长度；

(g)编辑模板的序列和长度；

(h)同源臂的序列和长度；

(i)间隔区序列和长度；和

(j)核心序列。

本公开讨论了以上这些方面。

在一个实施方案中，在此提供了设计合适的PEgRNA和任选用于第二位点切口产生的切口产生性sgRNA设计指南的方法。该实施方案提供了用于引导编辑的设计PEgRNA和切口产生性sgRNA的一组分步说明，其考虑了上述考虑中的一个或多个。这些步骤参考图70A至图70I中所示的示例。

1.定义靶序列和编辑。检索以期望编辑(点突变、插入、缺失或其组合)位置为中心的靶DNA区域的序列(约200bp)。参见图70A。

2.定位靶PAM。确定接近期望编辑位置的PAM。可在邻近期望编辑位置的任一DNA链上确定PAM。虽然优选接近编辑位置的PAM(即，其中切口位点距编辑位点小于30nt，或从编辑位点至切口位点小于29nt、28nt、27nt、26nt、25nt、24nt、23nt、22nt、21nt、20nt、19nt、18nt、17nt、16nt、15nt、14nt、13nt、12nt、11nt、10nt、9nt、8nt、7nt、6nt、5nt、4nt、3nt或2nt)，但可使用原间隔区和PAM安装编辑，将切口放置在距编辑位点≥30nt处。参见图70B。

3.定位切口位点。对于正在考虑的各PAM，确定相应切口位点以及在哪条链上。对于Sp Cas9 H840A切口酶，切割发生在含PAM的链中NGG PAM5′的第3个和第4个碱基之间。所有编辑核苷酸必须存在于切口位点的3′，因此适当的PAM必须将切口置于含PAM的链的靶编辑的5′处。在以下所示的示例中，有两种可能的PAM。为简单起见，其余步骤将显示仅使用PAM1的PEgRNA设计。参见图70C。

4.设计间隔区序列。SpCas9的原间隔区对应于含PAM的链中NGG PAM的5′的20个核苷酸。有效的Pol III转录起始需要G作为第一个转录的核苷酸。如果原间隔区的第一个核苷酸是G，则PEgRNA的间隔区序列就是原间隔区。如果原间隔区的第一个核苷酸不是G，则PEgRNA的间隔区序列为G接着原间隔区。参见图70D。

5.设计引物结合位点(PBS)。使用起始等位基因序列，确定含PAM的链的DNA引物。DNA引物的3′端正好是切口位点上游的核苷酸(即，Sp Cas9的NGG PAM的5′的第4个碱基)。作为使用PE2和PE3的一般设计原则，包含与DNA引物互补的12至13个核苷酸的PEgRNA引物结合位点(PBS)可用于包含约40-60％GC含量的序列。对于较低GC含量的序列，应当测试较长(14至15nt)的PBS。对于较高GC含量的序列，应当测试较短(8至11nt)的PBS。最佳PBS序列应根据经验确定，无论GC含量如何。为设计长度为p的PBS序列，使用起始等位基因序列，取含PAM的链中切口位点5′的前p个核苷酸的反向互补序列。参见图70E。

6.设计RT模板(或DNA合成模板)。RT模板(或DNA合成模板，其中聚合酶不是逆转录酶)编码设计的编辑并与邻近编辑的序列同源。在一个实施方案中，这些区域对应于图3D和图3E的DNA合成模板，其中DNA合成模板包括“编辑模板”和“同源臂”。最佳RT模板长度因靶位点而异。对于短程编辑(位置+1至+6)，建议测试短(9至12nt)、中(13至16nt)和长(17至20nt)RT模板。对于远程编辑(+7位及以上)，建议使用RT模板，该模板在编辑位点后至少延伸5nt(最好是10nt或更多)，以允许足够的3′DNA瓣同源性。对于远程编辑，应筛选多个RT模板以识别功能设计。对于较大的插入和缺失(≥5nt)，建议将更大的3′同源性(约20nt或更多)掺入RT模板。当RT模板将编码G的合成作为逆转录DNA产物中的最后一个核苷酸(对应于PEgRNA的RT模板中的C)时，通常会损害编辑效率。由于许多RT模板支持有效的引导编辑，因此设计RT模板时建议避免G作为最终合成的核苷酸。为设计长度为r的RT模板序列，使用期望等位基因序列，并取原始含PAM的链中切口位点3′的前r个核苷酸的反向互补序列。注意，与SNP编辑相比，使用相同长度的RT模板进行插入或缺失编辑不包含相同的同源性。参见图70F。

7.组装完整的PEgRNA序列。按以下顺序(5′至3′)连接PEgRNA组件：间隔区、支架、RT模板和PBS。参见图70G。

8.设计PE3的切口产生性sgRNA。确定编辑上游和下游的非编辑链上的PAM。最佳切口位点高度依赖于基因座，应根据经验确定。一般地，在PEgRNA诱导的切口对面的位点5′放置40至90个核苷酸的切口导致更高的编辑产率和更少的indel。切口产生性sgRNA具有与起始等位基因中的20-nt原间隔区匹配的间隔区序列，如果原间隔区不以G开头，则添加5′-G。参见图70H。

9.设计PE3b切口产生性sgRNA。如果PAM存在于互补链中，并且其相应的原间隔区与靶向编辑的序列重叠，则此编辑可能是PE3b系统的候选者。在PE3b系统中，切口产生性sgRNA的间隔区序列匹配期望编辑等位基因的序列，但不匹配起始等位基因的序列。当编辑核苷酸落在切口产生性sgRNA原间隔区的种子区(邻近PAM的约10nt)内时，PE3b系统有效运行。这可防止在安装编辑链之前对互补链产生切口，从而防止PEgRNA和sgRNA之间竞争结合靶DNA。PE3b还避免同时对两条链产生切口，从而在保持高编辑效率的同时显著减少indel形成。PE3b sgRNA应当具有与期望等位基因中的20nt原间隔区匹配的间隔区序列，并在需要时添加5′G。参见图70I。

上述用于设计合适的PEgRNA和第二位点切口产生性sgRNA的分步方法并不意味着以任何方式进行限制。本公开考虑了本领域普通技术人员可从中推导出的上述分步方法的变化。

[7]利用引导编辑的应用

除了开发本文所述的引导编辑系统作为新的“搜索和置换”基因组编辑技术(介导人细胞中靶向基因座处的靶向插入、缺失和所有12种可能的碱基至碱基转换，而无需双链DNA断裂或供体DNA模板)外，本发明人还考虑引导编辑器在广泛的特定应用中的使用。例如，如本文所示例和讨论，引导编辑可用于(a)对核苷酸序列安装校正突变的变化，(b)安装蛋白和RNA标签，(c)在感兴趣的蛋白上安装免疫表位，(d)在蛋白中安装可诱导的二聚化结构域，(e)安装或去除序列以改变生物分子的活性，(f)安装重组酶靶位点以引导特定的基因变化，以及(g)使用易错RT诱变靶序列。除了这些通常在感兴趣的靶位点插入、改变或缺失核苷酸序列的方法外，引导编辑器还可用于构建高度可编程的文库，以及进行细胞数据记录和谱系追踪研究。本发明人还考虑旨在提高引导编辑效率的PEgRNA的额外设计特征。更进一步地，本发明人已构思了使用载体递送系统成功递送引导编辑器的方法，并且包括使用内含肽结构域断裂napDNAbp。

引导编辑的这些特定示例性应用绝不旨在限制。本申请考虑引导编辑的任何应用，其通常涉及在核苷酸序列如基因组DNA的靶位点处的一个或多个核碱基的某种形式的安装、去除和/或修饰。

对于引导编辑的任何示例性应用，可使用本文公开的任何引导编辑器，包括PE1、PE2、PE3和PE3b，或PE-短。

A.引导编辑机制

在不同实施方案中，引导编辑通过将靶DNA分子(期望对其引入核苷酸序列的变化)与复合延伸的向导RNA的核酸可编程DNA结合蛋白(napDNAbp)接触来进行操作。参考图1G，延伸的向导RNA包含位于向导RNA的3'或5'端或向导RNA的分子内位置的延伸，并编码期望的核苷酸变化(如，单核苷酸变化、插入或缺失)。步骤(a)中，napDNAbp/延伸的gRNA复合物接触DNA分子，延伸的gRNA引导napDNAbp与靶基因座结合。步骤(b)中，在靶基因座处的一条DNA链中引入切口(如，通过核酸酶或化学试剂)，从而在靶基因座处的一条链中产生可用的3'端。在某些实施方案中，在对应于R-环链的DNA链(即,未与向导RNA序列杂交的链，即“非靶链”)中产生切口。然而，切口可在任何一条链中引入。也就是说，可将切口引入R环“靶链”(即，与延伸的gRNA的原间隔区杂交的链)或“非靶链”(即，形成R环的单链部分的链，且与靶链互补)。步骤(c)中，DNA链的3'端(由切口形成)与向导RNA的延伸部分相互作用以引发逆转录(即“靶引发的RT”)。在某些实施方案中，3'端DNA链与向导RNA的延伸部分上的特定RT引发序列(即，“逆转录酶引发序列”)杂交。步骤(d)中，引入逆转录酶(作为与napDNAbp的融合蛋白或以反式)，该酶从引发位点的3'端向着延伸的向导RNA的5'端合成单链DNA。这形成包含期望的核苷酸变化(如，单碱基变化、插入或缺失或其组合)的单链DNA瓣，并且其与切口位点或邻近处的内源性DNA同源。步骤(e)中，将napDNAbp和向导RNA释放。步骤(f)和(g)涉及单链DNA瓣的分解，使得期望的核苷酸变化被掺入靶基因座。可通过去除相应的5’内源性DNA瓣(如，通过FEN1或以反式提供的类似酶，作为与引导编辑器的融合物，或内源性提供)来驱动该过程向着期望的产物形成，该5’内源性DNA瓣在3’单链DNA瓣侵入并杂交内源性DNA序列时形成。不受理论的束缚，细胞内源性DNA修复和复制过程分解了错配的DNA以掺入核苷酸变化来形成期望的改变产物。还可驱动该过程向着具有“第二链切口”(如图1G所示例)或“时序第二链切口”(如图1I所示例并在此讨论)的产物形成。

引导编辑过程可引入至少一种或多种以下基因变化：颠换、转换、缺失和插入。此外，可为特定应用实施引导编辑。例如，如本文所示例和讨论，引导编辑可用于(a)对核苷酸序列安装校正突变的变化，(b)安装蛋白和RNA标签，(c)在感兴趣的蛋白上安装免疫表位，(d)在蛋白中安装可诱导的二聚化结构域，(e)安装或去除序列以改变生物分子的活性，(f)安装重组酶靶位点以指导特定的基因变化，以及(g)使用易错RT诱变靶序列。除了这些通常在感兴趣的靶位点插入、改变或缺失核苷酸序列的方法外，引导编辑器还可用于构建高度可编程的文库，以及进行细胞数据记录和谱系追踪研究。本发明人还考虑旨在提高引导编辑效率的PEgRNA的额外设计特征。更进一步地，本发明人已构思了使用载体递送系统成功递送引导编辑器的方法，并且包括使用内含肽结构域断裂napDNAbp。

术语“引导编辑系统”或“引导编辑器(PE)”是指本文所述使用靶标引发的逆转录(TPRT)的基因组编辑方法中涉及的组合物，包括但不限于napDNAbp、逆转录转录酶、融合蛋白(如，包含napDNAbp和逆转录酶)、延伸的向导RNA、和包含融合蛋白和延伸的向导RNA的复合物，以及辅助元件，例如第二链切口组件和5'内源性DNA瓣去除核酸内切酶(如，FEN1)，用于帮助驱动引导编辑过程向着编辑产物形成。

在另一个实施方案中，图3F的示意图描绘了典型的PEgRNA与双链DNA的靶位点的相互作用以及伴随产生的包含感兴趣基因变化的3′单链DNA瓣。双链DNA显示上面链为3′至5′方向，下面链为5′至3′方向。上面链包含“原间隔区”和PAM序列，被称为“靶链”。互补的下面链被称为“非靶链”。尽管未显示，但所描述的PEgRNA将与Cas9或等同物复合。如所示，PEgRNA的间隔区与靶链的互补区(被称为原间隔区，位于PAM序列的下游，长度约为20个核苷酸)退火。这种相互作用形成间隔区RNA和原间隔区DNA之间的DNA/RNA杂合体，并诱导在与原间隔区相对的区域形成R环。如本文别处所教导的，Cas9蛋白(未显示)然后在非靶链中诱导切口，如所示。然后，这会导致3′ssDNA瓣区的形成，根据*z*，该区域在引物结合位点处与PEgRNA的3′端相互作用。ssDNA瓣的3′端(即，逆转录酶引物序列)与PEgRNA上的引物结合位点(A)退火，从而引发逆转录酶。接着，逆转录酶(如，以反式提供或作为融合蛋白顺式提供，连接到Cas9构建体)聚合由编辑模板(B)和同源臂(C)编码的单链DNA。聚合继续向着延伸臂的5′端延伸。ssDNA的聚合链形成ssDNA 3′端瓣，如别处所述(例如，如图1G所示)，侵入内源性DNA，置换相应的内源性链(其作为内源性DNA的5′DNA瓣去除)，并通过自然发生的DNA修复/复制循环安装期望的核苷酸编辑(单核苷酸碱基对变化、缺失、插入(包括整个基因)。

在实施例1中进一步描述了引导编辑的这种应用。

B.利用易错RT使用引导编辑进行诱变

在不同实施方案中，引导编辑系统(即，引导编辑系统)可包括使用易错逆转录酶进行靶向诱变，即仅突变基因组中明确限定的DNA或细胞中的其他DNA元件。图22提供了使用复合延伸的向导RNA的核酸可编程DNA结合蛋白(napDNAbp)在靶基因座处引入具有易错逆转录酶的靶向诱变的示例性过程的示意图。该过程可被称为用于靶向诱变的引导编辑的实施方案。延伸的向导RNA包含在向导RNA的3’或5’端或向导RNA的分子内位置处的延伸。步骤(a)中，napDNAbp/gRNA复合物与DNA分子接触，gRNA引导napDNAbp与待诱变的靶基因座结合。步骤(b)中，在靶基因座处的一条DNA链中引入切口(如，通过核酸酶或化学试剂)，从而在靶基因座处的一条链中产生可用的3'端。在某些实施方案中，在对应于R-环链的DNA链(即，未与向导RNA序列杂交的链)中产生切口。步骤(c)中，3'端的DNA链与向导RNA的延伸部分相互作用以引发逆转录。在某些实施方案中，3'端的DNA链与向导RNA的延伸部分的特定RT引发序列杂交。步骤(d)中，引入易错逆转录酶，其从引发位点的3'端向着向导RNA的3'端合成诱变的单链DNA。示例性突变用星号“*”表示。这形成了包含期望的诱变区的单链DNA瓣。步骤(e)中，将napDNAbp和向导RNA释放。步骤(f)和(g)涉及单链DNA瓣(包含诱变区)的分解，使得期望的诱变区掺入靶基因座中。可通过去除相应的5'内源性DNA瓣驱动这个过程向着期望的产物形成，该5'内源性DNA瓣在3'单链DNA瓣侵入并杂交另一条链的互补序列时形成。也可驱动该过程向着具有第二链切口的产物形成，如图1F所示例。在内源性DNA修复和/或复制过程之后，诱变区掺入DNA基因座的两条DNA链中。

在实施例2中进一步描述了引导编辑的这种应用。

易错或诱变RT酶是本领域已知的。如本文所用，术语“易错”逆转录酶是指天然存在或源自另一逆转录酶(如，野生型M-MLV逆转录酶)的逆转录酶，其错误率小于野生型M-MLV逆转录酶的错误率。据报道，野生型M-MLV逆转录酶的错误率在15,000至27,000个核碱基掺入中有1个错误的范围内。参见Boutabout et al.(2001)“DNA synthesis fidelityby the reverse transcriptase of the yeast retrotransposon Ty1,”Nucleic AcidsRes 29(11):2217–2222，其通过引用并入本文。因此，出于本申请的目的，术语“易错”是指错误率大于15,000个核碱基掺入中有1个错误(6.7x10^-5或更高)的那些RT，例如，14,000个核碱基中有1个错误(7.14x10^-5或更高)，13,000个或更少的核碱基中有1个错误(7.7x10^-5或更高)，12,000个或更少的核碱基中有1个错误(7.7x10^-5或更高)，11,000个或更少的核碱基中有1个错误(9.1x10^-5或更高)，10,000个或更少的核碱基中有1个错误(1x10^-4或0.0001或更高)，9,000个或更少的核碱基中有1个错误(0.00011或更高)，8,000个或更少的碱基中有1个错误(0.00013或更高)7,000个或更少的核碱基中有1个错误(0.00014或更高)，6,000个或更少的核碱基中有1个错误(0.00016或更高)，5,000个或更少的核碱基中有1个错误(0.0002或更高的碱基错误)更少(0.00025或更高)、3,000个或更少的核碱基中有1个错误(0.00033或更高)、2,000个或更少的核碱基中有1个错误(0.00050或更高)或1,000个或更少的核碱基中有1个错误(0.001或更高)，或500个或更少的核碱基中有1个错误(0.002或更高)，或250个或更少的核碱基中有1个错误(0.004或更高)。

可设想各种诱变RT用于使用引导编辑产生诱变序列。两个这样的示例是来自博德特氏菌(Bordetella)噬菌体(参见Handa,S.,et al.Nucl Acids Res 9711-25(2018),其通过引用并入本文)和嗜肺军团菌(Legionella pneumophila)(参见Arambula,D.,etal.Proc Natl Acad Sci USA 8212-7(2013)，其通过引用并入本文)的诱变逆转录酶。对于来自博德特氏菌噬菌体的RT(brt)，可能还需要将辅助蛋白添加(bavd)到Cas9或以反式递送，以及将额外的RNA序列添加到PEgRNA以改善诱变的RT至靶位点的结合(参见Handa,S.,et al.Nucl Acids Res 9711-25(2018))。使用诱变RT时，PEgRNA的模板区域可能富含腺苷或AAY密码子以增强多样化。

以下提供来自博德特氏菌噬菌体的诱变RT的氨基酸序列。与本文公开的其他RT一样，Brt蛋白可与napDNAbp融合成为融合蛋白以形成功能性PE。

在来自博德特氏菌属(Bodetella)的Brt的情况下，PE融合物还可包括额外的辅助蛋白(Bavd)。辅助蛋白可与PE融合蛋白融合或以反式提供。Bavd辅助蛋白的氨基酸序列如下：

在来自博德特氏菌属(Bodetella)的Brt的情况下，PEgRNA可包含添加至PEgRNA如5'或3'端的额外核苷酸序列。示例序列如下，最初来自博德特氏菌属噬菌体(Bordetellaphage)基因组：

该PEgRNA添加序列可以各种方式减少以缩短长度。例如，PEgRNA-添加物1序列可简化为以下示例性替代添加序列：

在其他实施方案中，PEgRNA添加序列也可被突变。例如，可将PEgRNA-添加物1序列突变为以下示例性替代添加序列：

在涉及使用PE引入突变的不同实施方案中，可应用特殊的PEgRNA考虑。例如，不希望受理论的束缚，可能需要上述额外的PEgRNA序列以通过诱变RT实现有效诱变。

任何诱变RT都可与本文公开的引导编辑器一起使用。例如，可使用以下参考文献中描述的易错RT，并通过引用并入本文：

Bebenek et al.,“Error-prone polymerization by HIV-1reversetranscriptase.Contribution of template-primer misalignment,miscoding,andtermination probability to mutational hot spots.,”J.Biol Chem,1993,268:10324-34；以及

Menendez-Arias,“Mutation rates and instrinsic fidelity of retroviralreverse transcriptases,”2009,Viruses,1(3):1137-1165.

各种易错RT可包括但不限于Menendez-Arias等的表1中公开的以下酶(其全部内容通过引用并入)，如下：

易错RT	报告的错误率范围
		HIV-1RT(组M,亚型B)	0.6X 10-4至2.0X 10-4
HIV-1RT(组O)	5.5X 10-5
		SIV AGM RT	2.9X 10-5
SIV MNE RT	1.6X 10-5至1.2X 10-4
		PFV RT	1.7X 10-4
FIV RT	6.2X 10-5
		AMV RT	5.9X 10-5
MO-MLV RT	2.7X 10-5至3.3X 10-5

C.引导编辑在治疗三联体扩增疾病中的应用

本文所述引导编辑(PE)系统可用于缩减三核苷酸重复突变(或“三联体扩增疾病”)，以治疗诸如亨廷顿病的病症和其他三核苷酸重复病症。三核苷酸重复扩增病症是复杂的进行性疾病，涉及发育神经生物学，通常会影响认知和感觉运动功能。这些疾病显示遗传早现(即，每一代都增加严重程度)。DNA扩增或缩减通常以减数分裂方式发生(即，在配子发生期间或胚胎发育早期)，并且通常具有性别偏倚，这意味着某些基因仅在通过女性遗传时才会扩增，而其他基因则仅通过男性遗传。在人类中，三核苷酸重复扩增病症会导致转录或翻译水平的基因沉默，这本质上破坏基因功能。或者，三核苷酸重复扩增病症会导致产生具有大的重复氨基酸序列的改变的蛋白，通常以显性失活的方式(如，聚谷氨酰胺疾病)消除或改变蛋白功能。

不希望受理论的束缚，三联体扩增是由DNA复制期间或DNA修复合成过程中的滑移引起的。由于串联重复序列彼此具有相同的序列，两条DNA链之间的碱基配对可沿着序列在多个点发生。这可能会导致在DNA复制或DNA修复合成过程中形成“环出”结构。这可能导致重复序列的重复拷贝，扩大重复序列的数目。已提出了涉及杂交RNA:DNA中间体的其他机制。可将引导编辑用于通过删除一个或多个或有问题的重复密码子三联体来减少或消除这些三联体扩增区域。在这种应用的实施方案中，图23提供了利用引导编辑缩减或减少三核苷酸重复序列的PEgRNA设计的示意图。

可实施引导编辑以通过用包含适合靶向切割位置的PEgRNA的引导编辑器对三联体重复区域上游的区域产生切口来缩减三联体扩增区域。然后，引导编辑器基于PEgRNA作为模板(即，其编辑模板)合成新的DNA链(ssDNA瓣)，该模板编码健康数目的三联体重复(取决于特定的基因和疾病)。还合成新合成的包含健康三联体重复序列的ssDNA链，以包括匹配邻近重复序列的另一端的序列(红色链)的同源短序列(即，同源臂)。新合成链的侵入，以及随后用新合成的ssDNA瓣置换内源性DNA，导致缩减的重复等位基因。

取决于特定的三核苷酸扩增疾病，诱导缺陷的三联体扩增可能存在于“三核苷酸重复扩增蛋白”中。三核苷酸重复扩增蛋白是与发生三核苷酸重复扩增病症的易感性、三核苷酸重复扩增病症的存在、三核苷酸重复扩增病症的严重程度或其任何组合相关的一组不同的蛋白。三核苷酸重复序列扩增疾病根据重复的类型分为两类。最常见的重复是三联体CAG，当其存在于基因的编码区时，其编码氨基酸谷氨酰胺(Q)。因此，这些疾病被称为聚谷氨酰胺(poly Q)疾病且包括以下疾病：亨廷顿病(HD)；脊髓延髓肌萎缩(SBMA)；脊髓小脑性共济失调(SCA1、2、3、6、7和17型)；和齿状核红核苍白球路易体(Dentatorubro-Pallidoluysian)萎缩(DRPLA)。其余的三核苷酸重复扩增病症不涉及CAG三联体或CAG三联体不在基因的编码区，因此被称为非聚谷氨酰胺疾病。非聚谷氨酰胺疾病包括脆性X综合征(FRAXA)；脆性XE智力低下(FRAXE)；弗里德赖希氏(Friedreich)共济失调(FRDA)；肌强直性营养不良(DM)；以及脊髓小脑共济失调(SCA 8型和12型)。

可基于与三核苷酸重复扩增病症相关的蛋白与三核苷酸重复扩增病症的实验关联来选择与三核苷酸重复扩增病症相关的蛋白。例如，相对于没有三核苷酸重复扩增病症的群体，与三核苷酸重复扩增病症相关的蛋白的生产率或循环浓度在具有三核苷酸重复扩增病症的群体中可能升高或降低。可使用蛋白组学技术评估蛋白水平的差异，包括但不限于Western印迹、免疫组织化学染色、酶联免疫吸附测定(ELISA)和质谱法。或者，可通过使用基因组技术获得编码蛋白的基因的基因表达谱来确定与三核苷酸重复扩增病症相关的蛋白，包括但不限于DNA微阵列分析、基因表达系列分析(SAGE)和定量实时聚合酶链反应(Q-PCR)。

与三核苷酸重复扩增病症相关的蛋白的非限制性示例可通过引导编辑来校正，包括AR(雄激素受体)、FMRl(脆性X智力低下1)、HTT(亨廷顿蛋白)、DMPK(肌强直性营养不良症-蛋白激酶)、FXN(frataxin)、ATXN2(ataxin2)、ATN1(atrophin1)、FEN1(瓣结构特异性核酸内切酶1)、TNRC6A(含6A的三核苷酸重复)、PABPN1(poly(A)结合蛋白、核1)、JPH3(亲联蛋白3)、MED15(中介体复合物亚基15)、ATXN1(ataxin 1)、ATXN3(ataxin 3)、TBP(TATA盒结合蛋白)、CACNA1A(钙通道、电压依赖性P/Q型，α1A亚基)、ATXN80S(ATXN8反链(非蛋白编码))、PPP2R2B(蛋白磷酸酶2、调节亚基B、β)、ATXN7(ataxin7)、TNRC6B(含6B的三核苷酸重复)、TNRC6C(含6C的三核苷酸重复)、CELF3(CUGBP，Elav-样家族成员3)、MAB21L1(mab-21-样1(秀丽隐杆线虫))、MSH2(mutS同源物2，结肠癌，非息肉病1型(大肠杆菌))、TMEM185A(跨膜蛋白185A)、SIX5(SIX同源框5)、CNPY3(冠层3同源物(斑马鱼))、FRAXE(脆弱部位、叶酸型、罕见、fra(X)(q28)E)、GNB2(鸟嘌呤核苷酸结合蛋白(G蛋白)、β多肽2)、RPL14(核糖体蛋白L14)、ATXN8(ataxin8)、INSR(胰岛素受体)、TTR(转甲状腺素蛋白)、EP400(E1A结合蛋白p400)、GIGYF2(GRB10相互作用的GYF蛋白2)、OGG1(8-氧鸟嘌呤DNA糖苷酶)、STC1(斯钙素1)、CNDP1(肌肽二肽酶1(金属肽酶M20家族))、C10orf2(染色体10开放阅读框2)、MAML3(mastermind-样3(果蝇))、DKC1(先天性角化不良1，角化不良蛋白)、PAXIP1(PAX相互作用(与转录激活域)蛋白1)、CASK(钙/钙调蛋白依赖性丝氨酸蛋白激酶(MAGUK家族))、MAPT(微管相关蛋白tau)、SP1(Sp1转录因子)、POLG(聚合酶(DNA定向)、γ)、AFF2(AF4/FMR2家族，成员2)、THBS1(血小板反应蛋白1)、TP53(肿瘤蛋白p53)、ESR1(雌激素受体1)、CGGBP1(CGG三联体重复结合蛋白1)、ABT1(基础转录激活因子1)、KLK3(激肽释放酶相关肽酶3)、PRNP(朊病毒蛋白)、JUN(jun致癌基因))，KCNN3(钾中/小电导钙激活通道，亚家族N，成员3)，BAX(BCL2相关X蛋白)，FRAXA(脆弱部位，叶酸型，罕见，fra(X)(q27.3)A(巨睾丸病，智力低下)、KBTBD10(kelch重复和BTB(POZ)域包含10)、MBNL1(盲肌样(果蝇))、RAD51(RAD51同源物(RecA同源物，大肠杆菌)(酿酒酵母))、NCOA3(核受体共激活因子3)、ERDA1(扩增重复结构域，CAG/CTG1)、TSC1(结节性硬化症1)、COMP(软骨寡聚基质蛋白)、GCLC(谷氨酸-半胱氨酸连接酶，催化亚基)，RRAD(与糖尿病相关的Ras)、MSH3(mutS同源物3(大肠杆菌))、DRD2(多巴胺受体D2)、CD44(CD44分子(印度血型))、CTCF(CCCTC结合因子(锌指蛋白)))、CCND1(细胞周期蛋白D1)、CLSPN(claspin同源物(非洲爪蟾)、MEF2A(肌细胞增强因子2A)、PTPRU(蛋白酪氨酸磷酸酶，受体类型，U)、GAPDH(3-磷酸甘油醛脱氢酶)、TRIM22(三重基序含22)、WT1(威尔姆氏(Wilms)肿瘤1)、AHR(芳烃受体)、GPX1(谷胱甘肽过氧化物酶1)、TPMT(硫嘌呤S-甲基转移酶)、NDP(诺里(Norrie)病(假神经胶质瘤))、ARX(无芒相关同源框)、MUS81(MUS81核酸内切酶同源物(酿酒酵母))、TYR(酪氨酸酶(眼皮肤白化病IA))、EGR1(早期生长反应蛋白1)、UNG(尿嘧啶-DNA糖基化酶)、NUMBL(numb同源物(果蝇)样)、FABP2(脂肪酸结合蛋白2，肠道)、EN2(engrailed同源框2)、CRYGC(晶状体蛋白、γC)、SRP14(信号识别颗粒14kDa(同源Alu RNA结合蛋白)、CRYGB(晶状体蛋白、γB)、PDCD1(程序性细胞死亡1)、HOXA1(同源框A1)、ATXN2L(ataxin2样)、PMS2(PMS2减数分裂后分离增加2(酿酒酵母))、GLA(半乳糖苷酶，α)、CBL(Cas-Br-M(鼠)亲嗜性逆转录病毒转化序列)、FTH1(铁蛋白，重多肽1)、IL12RB2(白细胞介素12受体，β2)、OTX2(orthodenticle同源框2)、HOXA5(同源框A5)、POLG2(聚合酶(DNA定向)、γ2、辅助亚基)、DLX2(无远端同源框2)、SIRPA(信号调节蛋白)α)、OTX1(orthodenticle同源框1)、AHRR(芳烃受体阻遏物)、MANF(中脑星形胶质细胞衍生的神经营养因子)、TMEM158(跨膜蛋白158(基因/假基因))和ENSG00000078687。

本文公开的引导编辑器可用于缩减任何上述疾病蛋白中的三联体重复扩增区域，包括以下聚谷氨酰胺三联体扩增疾病基因(其显示通过引导编辑可完全或部分去除致病性重复的特定位置)：

本文公开的引导编辑器也可用于缩减通常在以下非多聚谷氨酰胺三联体扩增疾病基因中存在的三联体重复扩增区域，:

可实施引导编辑以使用具有编辑模板的PEgRNA来缩减三联体扩增区域，将该编辑模板设计为缺失三联体扩增区域的至少一个密码子。在其他实施方案中，用于此应用进行引导编辑的PEgRNA从三联体扩增区缺失至少1、或2、或3、或4、或5、或6、或7、或8、或9、或10、或11、或12、或13、或14、或15、或16、或17、或18、或19、或20、或21、或22、或23、或24、或25、或26、或27、或28、或29、或30、或31、或32、或33、或34、或35、或36、或37、或38、或39、或40、或41、或42、或43、或44、或45、或46、或47、或48、或49、或50、或51、或52、或53、或54、或55、或56、或57、或58、或59、或60、或61、或62、或63、或64、或65、或66、或67、或68、或69、或70、或71、或72、或73、或74、或75、或76、或77、或78、或79、或80、或81、或82、或83、或84、或85、或86、或87、或88、或89、或90、或91、或92、或93、或94、或95、或96、或97、或98、或99、或100个、或更多的密码子，以达到健康(即，与产生疾病无关)数量的三联体重复。

在其他实施方案中，用于此应用进行引导编辑的PEgRNA从三联体扩增区缺失至少1、或2、或3、或4、或5、或6、或7、或8、或9、或10、或11、或12、或13、或14、或15、或16、或17、或18、或19、或20个、或更多的密码子，以达到健康(即，与产生疾病无关)数量的三联体重复。

在其他实施方案中，用于此应用进行引导编辑的PEgRNA从三联体扩增区缺失至少1、或2、或3、或4、或5、或6、或7、或8、或9、或10、或11、或12、或13、或14、或15个、或更多的密码子，以达到健康(即，与产生疾病无关)数量的三联体重复。

在其他实施方案中，用于此应用进行引导编辑的PEgRNA从三联体扩增区缺失至少1、或2、或3、或4、或5、或6、或7、或8、或9、或10个、或更多的密码子，以达到健康(即，与产生疾病无关)数量的三联体重复。

可将引导编辑配置为校正任何三联体扩增区，例如Budworth et al.,“A BriefHistory of Triplet Repeat Diseases,”Methods Mol Biol,2013,1010:3-17,US 20011/00165540A1(Genome editing of genes associated with trinucleotide repeatexpansion disorders in animals),US 2016/0355796 A1(Compositions and methodsof use of crispr-cas systems in nucleotide repeat disorders)。

在不同实施方案中，本公开提供了适合于具有三核苷酸重复扩增区缺陷基因的细胞中使用的引导编辑构建体，其包含(a)包含napDNAbp和逆转录酶的引导编辑器融合物，(b)包含靶向三核苷酸重复扩增区的间隔区序列和含有编码去除三核苷酸重复扩增区的编辑模板的延伸臂的PEgRNA。

在不同的其他实施方案中，本公开提供了使用引导编辑缺失细胞的缺陷基因中三核苷酸重复扩增区的全部或部分的方法，包括使细胞与引导编辑器融合物和PEgRNA接触，其中引导编辑器融合物包含napDNAbp和逆转录酶，PEgRNA包含靶向三核苷酸重复扩增区的间隔区序列和含有编码去除三核苷酸重复扩增区的编辑模板的延伸臂。

在不同实施方案中，三核苷酸重复包括重复的CTG、CAG、CGG、CCG、GAA、或TTC三核苷酸。

在不同的其他实施方案中，四核苷酸重复、五核苷酸重复或六核苷酸重复。

D.引导编辑在肽标签化中的应用

另一方面，本公开提供了使用本文所述的引导编辑器通过引导编辑将一个或多个肽标签基因移植到蛋白上的方法。更具体地，本公开提供了用于从遗传学上安装一个或多个肽标签至蛋白上的方法，包括：使编码蛋白的靶核苷酸序列与配置为在其中插入编码一个或多个肽标签的第二核苷酸序列的引导编辑器接触，以产生编码融合蛋白的重组核苷酸序列，该融合蛋白包含与蛋白标签融合的蛋白。

在其他实施方案中，本公开提供了制备包含感兴趣的肽和一个或多个肽标签的融合蛋白的方法，该方法包括：使编码该蛋白的靶核苷酸序列与配置为在其中插入编码一个或多个肽标签的第二核苷酸序列的引导编辑器接触，以产生编码融合蛋白的重组核苷酸序列，该融合蛋白包含与蛋白标签融合的蛋白。

在不同实施方案中，靶核苷酸序列是基因组DNA中的感兴趣的特定基因。感兴趣基因可编码感兴趣的蛋白(如，受体、酶、治疗性蛋白、膜蛋白、转运蛋白、信号转导蛋白、或免疫学蛋白等)。感兴趣基因还可编码RNA分子，包括但不限于信使RNA(mRNA)、转移RNA(tRNA)、核糖体RNA(rRNA)、小核RNA(snRNA)、反义RNA、向导RNA、微RNA(miRNA)、小干扰RNA(siRNA)和无细胞RNA(cfRNA)。

肽标签可以是任何肽标签或其变体，其将一种或多种功能赋予蛋白以用于诸如分离、纯化、可视化、增溶或检测的目的。肽标签可包括“亲和标签”(促进蛋白纯化)、“溶解标签”(辅助蛋白正确折叠)、“色谱标签”(改变蛋白的色谱特性)、“表位标签”(用于结合高亲和力抗体)和“荧光标签”(促进细胞或体外蛋白的可视化)。肽标签的示例包括但不限于以下标签：

肽标签还可能是以下亲和标签(用于蛋白的分离和/或纯化)(描述于Kimple etal.,“Overview of Affinity Tags for Protein Purification,”Curr Protoc ProteinSci,2013,73:Unit-9.9的表9.9.1中，其通过引用并入本文)。

名称	氨基酸序列
			AU1表位	DTYRYI	SEQ ID NO:278
AU5表位	TDFYLK	SEQ ID NO:279
			噬菌体T7表位(T7-标签)	MASMTGGQQMG	SEQ ID NO:280
蓝舌病毒标签(B-标签)	QYPALT	SEQ ID NO:281
			E2表位	SSTSSDFRDR	SEQ ID NO:282
组氨酸亲和标签(HAT)	KDHLIHNVHKEFHAHAHNK	SEQ ID NO:283
			HSV表位	QPELAPED	SEQ ID NO:284
聚精氨酸(ARG-标签)	RRRRR	SEQ ID NO:285
			聚天冬氨酸(ASP-标签)	CCCC	SEQ ID NO:286
聚苯丙氨酸(PHE-标签)	FFFFFFFFFFF	SEQ ID NO:287
			S1-标签	NANNPDWDF	SEQ ID NO:288
S-标签	KETAAAKFERQHMDS	SEQ ID NO:266
			VSV-G	YTDIEMNRLGK	SEQ ID NO:275

在特定实施方案中，肽标签可包括His⁶标签、FLAG-标签、V5-标签、GCN4-标签、HA-标签、Myc-标签、FIAsH/ReAsH-标签、分选酶底物、π钳(pi-clamp)。

在不同实施方案中，肽标签可用于包括蛋白荧光标记、免疫沉淀、免疫印迹、免疫组织化学、蛋白募集、诱导型蛋白降解和全基因组筛选的应用。

在不同的其他实施方案中，肽标签可包括内含肽序列以安装蛋白自剪接功能。如本文所用，术语“内含肽”是指在来自所有生命领域的生物体中发现的自动加工多肽结构域。内含肽(中间蛋白)执行被称为蛋白剪接的独特自动加工事件，其中其通过两个肽键的裂解从较大的前体多肽中切出自身，并在此过程中通过形成新的肽键连接侧翼外显肽(外部蛋白)序列。这种重排发生在翻译后(或可能是共翻译)，因为发现内含肽基因嵌入在其他蛋白编码基因的框架内。此外，内含肽介导的蛋白剪接是自发的。它不需要外部因素或能源，只需折叠内含肽结构域。这个过程又被称为顺式蛋白剪接，与具有“断裂内含肽”的反式蛋白剪接的自然过程相反。内含肽是自剪接RNA内含子的蛋白等同物(参见Perler et al.,Nucleic Acids Res.22:1125-1127(1994))，其催化它们自身从前体蛋白中切除，同时伴随融合被称为外显肽的侧翼蛋白序列(综述见Perler et al.,Curr.Opin.Chem.Biol.1:292-299(1997)；Perler,F.B.Cell 92(1):1-4(1998)；Xu et al.,EMBO J.15(19):5146-5153(1996)))。

已非常详细地研究了蛋白剪接过程的机制(Chong,et al.,J.Biol.Chem.1996,271,22159-22168；Xu,M-Q&Perler,F.B.EMBO Journal,1996,15,5146-5153)，并且在内含肽和外显肽剪接点存在保守氨基酸(Xu,et al.,EMBO Journal,1994,13 5517-522)。

内含肽也可作为由两个单独转录和翻译的基因编码的两个片段存在。这些所谓的断裂内含肽自结合并催化反式蛋白剪接活性。已在不同的蓝藻和古细菌中鉴定出断裂内含肽(Caspi et al,Mol Microbiol.50:1569-1577(2003)；Choi J.et al,J Mol Biol.556:1093-1106(2006.)；Dassa B.et al,Biochemistry.46:322-330(2007.)；Liu X.and YangJ.,J Biol Chem.275:26315-26318(2003)；Wu H.et al.Proc Natl Acad Sci USA.￡5:9226-9231(1998.)；以及Zettler J.et al,FEBS Letters.553:909-914(2009))，但迄今为止尚未在真核生物中发现。最近，环境宏基因组数据的生物信息学分析揭示26个具有新基因组排列的不同位点。在每个基因座上，保守的酶编码区被断裂内含肽中断，其中独立的核酸内切酶基因插入编码内含肽亚结构域的部分之间。其中，5个基因座完全组装：DNA解旋酶(gp41-l、gp41-8)；肌苷-5′-单磷酸脱氢酶(IMPDH-1)；和核糖核苷酸还原酶催化亚基(NrdA-2和NrdJ-1)。这种断裂的基因结构似乎主要存在于噬菌体中(Dassa et al,NucleicAcids Research.57:2560-2573(2009))。

在某些实施方案中，本文所述的引导编辑器可用于在两个不同的蛋白中插入断裂内含肽标签，当共表达形成融合蛋白时导致它们的细胞内连接。在蛋白反式剪接中，一个前体蛋白由N-外显肽部分和后面的N-内含肽组成，另一个前体蛋白由C-内含肽和后面的C-外显肽部分组成，并且反式剪接反应(由N-和C-内含肽共同催化)切除两个内含肽序列并用肽键连接这两个外显肽序列。蛋白反式剪接是酶促反应，可在非常低(如，微摩尔)浓度的的蛋白下工作，并且可在生理条件下进行。

由断裂内含肽催化的蛋白反式剪接提供了用于蛋白连接的完全酶促方法。断裂内含肽本质上是断裂成两部分(分别命名为N-内含肽和C-内含肽)的连续内含肽(如，微型内含肽)。断裂内含肽的N-内含肽和C-内含肽可以非共价结合形成活性内含肽，并以与连续内含肽基本相同的方式催化剪接反应。已在自然界中发现了断裂内含肽，还在实验室中进行了工程化改造。如本文所用，术语“断裂内含肽”是指其中在N-端和C-端氨基酸序列之间存在一个或多个肽键断裂，使得N-端和C-端序列成为单独的分子的任何内含肽，其可非共价地重新结合或重组为对反式剪接反应起作用的内含肽。任何具有催化活性的内含肽或其片段均可用于衍生用于本发明方法的断裂内含肽。例如，一方面，断裂内含肽可源自真核内含肽。另一方面，断裂内含肽可源自细菌内含肽。另一方面，断裂内含肽可源自古细菌内含肽。优选地，如此衍生的断裂内含肽将仅具有催化反式剪接反应所必需的氨基酸序列。

断裂内含肽可通过工程化改造非结构化环中的一个或多个断裂位点或干预微型内含肽结构中存在的-12个保守β-链之间的氨基酸序列而由连续的内含肽产生。β-链之间区域内断裂位点的位置可能存在一定的灵活性，条件是断裂的产生不会破坏内含肽的结构，特别是结构化的β-链，达到足以使蛋白剪接活性丧失的程度。

本文所述的引导编辑器可将肽标签(包括内含肽)掺入感兴趣的蛋白的C-末端。在其他实施方案中，可将肽标签(包括内含肽)掺入感兴趣的蛋白的N-末端。也可将肽标签掺入感兴趣的蛋白的内部。由本文所述的引导编辑器产生的融合蛋白可具有以下结构：

[感兴趣的蛋白]-[肽标签]；

[肽标签]-[感兴趣的蛋白]；或

[感兴趣的蛋白-N-端区域]-[肽标签]-[感兴趣的蛋白-C-端区域]。

可将在肽标签化中使用的向导RNA设计原则应用于肽标签化。例如，在一个实施方案中，用于肽标签化的PEgRNA结构可具有以下结构：5′-[间隔区序列]-[gRNA核心或支架]-[延伸臂]-3′，其中延伸臂在5′至3′方向包括同源臂、编辑模板(包含编码肽标签的序列)和引物结合位点。该配置描绘于图3D和图24中。

在另一个实施方案中，用于肽标签化的PEgRNA结构可具有以下结构：5'-[延伸臂]-[间隔区序列]-[gRNA核心或支架]-3'，其中延伸臂在5'至3'方向包括同源臂、编辑模板(包含编码肽标签的序列)和引物结合位点。该配置在图3E中描绘。

使用引导编辑的肽标签化的实施方案描绘于图25和图26中，并描述于实施例4中。

E.引导编辑在预防或治疗朊病毒病中的应用

引导编辑还可通过将一个或多个保护性突变安装到疾病过程中错误折叠的朊病毒蛋白(PRNP)来预防或阻止朊病毒病的进展。朊病毒病或传染性海绵状脑病(TSE)是影响人类和动物的罕见进行性神经退行性疾病家族。它们的特点是潜伏期长、与神经元丢失相关的特征性海绵状变化以及不能诱导炎症反应。

在人类中，朊病毒病包括克雅氏(Creutzfeldt-Jakob)病(CJD)、变异型克雅氏病(vCJD)、杰茨曼-斯脱司勒-史茵克综合征、致命性家族性失眠症和库鲁病(Kuru)。在动物中，朊病毒病包括牛海绵状脑病(BSE或“疯牛病”)、慢性消耗性疾病(CWD)、羊瘙痒症、传染性水貂脑病、猫海绵状脑病和有蹄类海绵状脑病。引导编辑可用于将保护性点突变安装到朊病毒蛋白，以预防或阻止这些朊病毒病中任何一种的进展。

经典CJD是人朊病毒病。它是神经退行性疾病，具有典型的临床和诊断特征。这种疾病进展迅速并且总是致命的。感染这种疾病通常会在发病1年内导致死亡。CJD是快速进展且总是致命的神经退行性疾病，据信是由被称为朊病毒蛋白的细胞糖蛋白的异常同种型引起的。CJD在世界范围内发生，据报道包括美国在内的许多国家的估计年发病率约为每百万人口一例。绝大多数CJD患者通常在发病1年内死亡。将CJD与人类和动物中发生的其他朊病毒病一起归类为传染性海绵状脑病(TSE)。在约85％的患者中，CJD作为散发性疾病发生，没有可识别的传播模式。由于朊病毒蛋白基因的遗传突变，一小部分患者(5％至15％)会发展为CJD。这些遗传形式包括杰茨曼-斯脱司勒-史茵克综合征和致命性家族性失眠症。目前对CJD尚无已知的治疗方法。

变异型克雅氏病(vCJD)是1996年首次在英国被描述的一种朊病毒病。现在有强有力的科学证据表明，导致奶牛朊病毒病，牛海绵状脑病(BSE或“疯牛病”)爆发的病原体与导致人vCJD爆发的病原体相同。变异型CJD(vCJD)与经典的CJD(通常简称为CJD)不同。它具有不同于经典的CJD的临床和病理特征。每种疾病还具有朊病毒蛋白基因的特定遗传特征。这两种疾病都是致命的脑部疾病，潜伏期非常长，以年为单位，并且由被称为朊病毒的非常规传染性因子引起。目前对vCJD尚无已知的治疗方法。

BSE(牛海绵状脑病或“疯牛病”)是牛的进行性神经系统疾病，其由被称为朊病毒的罕见传染性因子感染引起。传染性因子的性质还不是很清楚。目前，最公认的理论是该因子是被称为朊病毒蛋白的正常蛋白的修饰形式。由于尚不清楚的原因，正常朊病毒蛋白会转变为致病(有害)形式，然后损害牛的中枢神经系统。越来越多的证据表明存在不同的BSE株系：导致英国爆发的典型或经典的BSE株系和两种非典型株系(H株和L株)。目前对BSE尚无已知的治疗方法。

慢性消耗性疾病(CWD)是影响鹿、麋鹿、驯鹿、梅花鹿和驼鹿的朊病毒病。已在包括加拿大和美国的北美一些地区、挪威和韩国发现。受感染的动物可能需要一年多的时间才会出现症状，包括体重急剧下降(消瘦)、跌跌撞撞、无精打采和其他神经系统症状。CWD可影响所有年龄的动物，一些受感染的动物可能在没有患病的情况下死亡。CWD对动物是致命的，并且没有治疗方法或疫苗。

认为TSE的病原体是朊病毒。术语“朊病毒”是指异常的病原体，它们是可传播的，并且能够诱导在大脑中含量最高的被称为朊病毒蛋白的特定正常细胞蛋白的异常折叠。这些正常朊病毒蛋白的功能仍未完全了解。朊病毒蛋白的异常折叠导致脑损伤和疾病的特征性体征和症状。朊病毒病通常进展迅速且总是致命的。

如本文所用，术语“朊病毒”是指已知会引起人类和动物疾病(海绵状脑病)的传染性颗粒。术语“朊病毒”是“蛋白”和“感染”这两个词的缩写，并且颗粒大部分(如果不是全部)由表达PRNP^C的PRNP基因编码的PRNP^Sc分子组成，PRNP^C构象改变为PRNP^Sc。朊病毒不同于细菌、病毒和类病毒。已知的朊病毒包括感染动物引起羊瘙痒症(绵羊和山羊神经系统的可传染的退行性疾病)以及牛海绵状脑病(BSE)或疯牛病和猫海绵状脑病的那些。如上所述，已知影响人类的四种朊病毒病是(1)库鲁病，(2)克雅氏病(CJD)，(3)杰茨曼-斯脱司勒-史茵克(Gerstmann-Strassler-Scheinker)病(GSS)，以及(4)致命性家族性失眠症(FFI)。如本文所用，朊病毒包括在所用的任何动物，特别是在人类和家养农场动物中引起所有或任何这些疾病或其他疾病的所有形式的朊病毒。

一般地且不希望受理论的束缚，先前疾病是由朊病毒蛋白的错误折叠引起的。此类疾病——通常被称为沉积病——朊病毒蛋白的错误折叠可解释如下。如果A是正常合成的基因产物，在单体或寡聚状态下发挥预期的生理作用，A*是A的构象激活形式，能够发生明显的构象变化，B是倾向于多聚体组装的构象改变状态(即，形成沉积物的错误折叠形式)，Bn是具有致病性且相对难以回收的多聚体材料。对于朊病毒病，PRNP^C和PRNP^Sc对应于状态A和Bn，其中A主要是螺旋和单体，Bn是富含β的多聚体。

已知朊病毒蛋白中的某些突变可能与先前疾病的风险增加有关。相反地，朊病毒蛋白中的某些突变在本质上具有保护作用。参见Bagynszky et al.,“Characterizationof mutations in PRNP(prion)gene and their possible roles in neurodegenerativediseases,”Neuropsychiatr Dis Treat.,2018；14:2067-2085，其内容通过引用并入本文。

PRNP(NCBI参考序列号NP_000302.1(SEQ ID NO:291))——人朊病毒蛋白——由位于20号染色体16kb长的基因编码(4686151-4701588)。它包含两个外显子，外显子2携带编码253个氨基酸(AA)长的PrP蛋白的开放阅读框。外显子1是非编码外显子，可用作转录起始位点。翻译后修饰导致前22个AA N端片段(NTF)和最后23个AA C端片段(CTF)的去除。NTF在PrP转运到内质网(ER)后裂解，而CTF(糖基磷脂酰肌醇[GPI]信号肽[GPI-SP])被GPI锚裂解。GPI锚可能参与PrP蛋白转运。它还可能发挥将朊病毒蛋白附着至细胞膜外表面的作用。正常的PrP由长N端环(包含八肽重复区域)、两个短的β折叠、三个α螺旋和C端区域(包含GPI锚)组成。PrP的裂解产生208个AA长的糖蛋白，锚定于细胞膜。

PRNP(NP_000302.1)的氨基酸序列如下：

MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYPPQGGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQGGGTHSQWNKPSKPKTNMKHMAGAAAAGAVVGGLGGYMLGSAMSRPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCVNITIKQHTVTTTTKGENFTETDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG(SEQ ID NO:291)

PRNP(NP_000302.1)的氨基酸序列由以下核苷酸序列(NCBI参考序列号NM_000311.5,“智人朊病毒蛋白(PRNP),转录本变体1,mRNA)编码，如下：

GCGAACCTTGGCTGCTGGATGCTGGTTCTCTTTGTGGCCACATGGAGTGACCTGGGCCTCTGCAAGAAGCGCCCGAAGCCTGGAGGATGGAACACTGGGGGCAGCCGATACCCGGGGCAGGGCAGCCCTGGAGGCAACCGCTACCCACCTCAGGGCGGTGGTGGCTGGGGGCAGCCTCATGGTGGTGGCTGGGGGCAGCCTCATGGTGGTGGCTGGGGGCAGCCCCATGGTGGTGGCTGGGGACAGCCTCATGGTGGTGGCTGGGGTCAAGGAGGTGGCACCCACAGTCAGTGGAACAAGCCGAGTAAGCCAAAAACCAACATGAAGCACATGGCTGGTGCTGCAGCAGCTGGGGCAGTGGTGGGGGGCCTTGGCGGCTACATGCTGGGAAGTGCCATGAGCAGGCCCATCATACATTTCGGCAGTGACTATGAGGACCGTTACTATCGTGAAAACATGCACCGTTACCCCAACCAAGTGTACTACAGGCCCATGGATGAGTACAGCAACCAGAACAACTTTGTGCACGACTGCGTCAATATCACAATCAAGCAGCACACGGTCACCACAACCACCAAGGGGGAGAACTTCACCGAGACCGACGTTAAGATGATGGAGCGCGTGGTTGAGCAGATGTGTATCACCCAGTACGAGAGGGAATCTCAGGCCTATTACCAGAGAGGATCGAGCATGGTCCTCTTCTCCTCTCCACCTGTGATCCTCCTGATCTCTTTCCTCATCTTCCTGATAGTGGGATGAGGAAGGTCTTCCTGTTTTCACCATCTTTCTAATCTTTTTCCAGCTTGAGGGAGGCGGTATCCACCTGCAGCCCTTTTAGTGGTGGTGTCTCACTCTTTCTTCTCTCTTTGTCCCGGATAGGCTAATCAATACCCTTGGCACTGATGGGCACTGGAAAACATAGAGTAGACCTGAGATGCTGGTCAAGCCCCCTTTGATTGAGTTCATCATGAGCCGTTGCTAATGCCAGGCCAGTAAAAGTATAACAGCAAATAACCATTGGTTAATCTGGACTTATTTTTGGACTTAGTGCAACAGGTTGAGGCTAAAACAAATCTCAGAACAGTCTGAAATACCTTTGCCTGGATACCTCTGGCTCCTTCAGCAGCTAGAGCTCAGTATACTAATGCCCTATCTTAGTAGAGATTTCATAGCTATTTAGAGATATTTTCCATTTTAAGAAAACCCGACAACATTTCTGCCAGGTTTGTTAGGAGGCCACATGATACTTATTCAAAAAAATCCTAGAGATTCTTAGCTCTTGGGATGCAGGCTCAGCCCGCTGGAGCATGAGCTCTGTGTGTACCGAGAACTGGGGTGATGTTTTACTTTTCACAGTATGGGCTACACAGCAGCTGTTCAACAAGAGTAAATATTGTCACAACACTGAACCTCTGGCTAGAGGACATATTCACAGTGAACATAACTGTAACATATATGAAAGGCTTCTGGGACTTGAAATCAAATGTTTGGGAATGGTGCCCTTGGAGGCAACCTCCCATTTTAGATGTTTAAAGGACCCTATATGTGGCATTCCTTTCTTTAAACTATAGGTAATTAAGGCAGCTGAAAAGTAAATTGCCTTCTAGACACTGAAGGCAAATCTCCTTTGTCCATTTACCTGGAAACCAGAATGATTTTGACATACAGGAGAGCTGCAGTTGTGAAAGCACCATCATCATAGAGGATGATGTAATTAAAAAATGGTCAGTGTGCAAAGAAAAGAACTGCTTGCATTTCTTTATTTCTGTCTCATAATTGTCAAAAACCAGAATTAGGTCAAGTTCATAGTTTCTGTAATTGGCTTTTGAATCAAAGAATAGGGAGACAATCTAAAAAATATCTTAGGTTGGAGATGACAGAAATATGATTGATTTGAAGTGGAAAAAGAAATTCTGTTAATGTTAATTAAAGTAAAATTATTCCCTGAATTGTTTGATATTGTCACCTAGCAGATATGTATTACTTTTCTGCAATGTTATTATTGGCTTGCACTTTGTGAGTATTCTATGTAAAAATATATATGTATATAAAATATATATTGCATAGGACAGACTTAGGAGTTTTGTTTAGAGCAGTTAACATCTGAAGTGTCTAATGCATTAACTTTTGTAAGGTACTGAATACTTAATATGTGGGAAACCCTTTTGCGTGGTCCTTAGGCTTACAATGTGCACTGAATCGTTTCATGTAAGAATCCAAAGTGGACACCATTAACAGGTCTTTGAAATATGCATGTACTTTATATTTTCTATATTTGTAACTTTGCATGTTCTTGTTTTGTTATATAAAAAAATTGTAAATGTTTAATATCTGACTGAAATTAAACGAGCGAAGATGAGCACCA(SEQ ID NO:292)

报道了与CJD和FFI相关的相对于PRNP(NP_000302.1)的突变位点如下。

这些突变可使用本文公开的引导编辑器去除或安装。

报道了与GSS相关的相对于PRNP(NP_000302.1)(SEQ ID NO:291)的突变位点，如下：

与可能对朊病毒病有保护性质相关的相对于PRNP(NP_000302.1)(SEQ ID NO:291)的突变位点，如下：

因此，在不同实施方案中，可将引导编辑用于去除与朊病毒病相关的PRNP中的突变或在PRNP中安装被认为对朊病毒病具有保护作用的突变。例如，引导编辑可用于去除或恢复D178N、V180I、T188K、E196K、E196A、E200K、E200G、V203I、R208H、V210I、E211Q、I215V或M232R突变(相对于NP_000302.1的PRNP)(SEQ ID NO:291)。在其他实施方案中，可将引导编辑用于去除或恢复PRNP蛋白中的P102L、P105L、A117V、G131V、V176G、H187R、F198S、D202N、Q212P、Q217R或M232T突变(相对于NP_000302.1的PRNP)(SEQ ID NO:291)。通过使用引导编辑去除或校正PRNP中此类突变的存在，可降低或消除朊病毒病的风险。

在其他实施方案中，可将引导编辑用于PRNP中安装保护性突变，该突变与针对一种或多种朊病毒病的保护作用相关。例如，引导编辑可用于在PRNP(相对于NP_000302.1的PRNP)(SEQ ID NO:291)中安装G127S、G127V、M129V、D167G、D167N、N171S、E219K或P238S保护性突变。在其他实施方案中，保护性突变可以是安装在PRNP中G127、G127、M129、D167、D167、N171、E219或P238处的任何替代氨基酸(相对于NP_000302.1的PRNP)(SEQ ID NO:291)。

在特定实施方案中，可将引导编辑用于在PRNP中安装G127V保护性突变，如图27所示，并在实施例5中讨论。

在另一实施方案中，可将引导编辑用于在PRNP中安装E219K保护性突变。

PRNP蛋白和保护性突变位点在哺乳动物中是保守的，因此除了治疗人类疾病外，它还可用于产生对朊病毒病免疫的牛和羊，甚至帮助治愈患有朊病毒病的野生动物种群。已将引导编辑用于在人细胞中实现约25％的天然保护性等位基因的安装，先前小鼠实验表明，这种安装水平足以引起对大多数朊病毒病的免疫力。这种方法是首次且目前可能唯一的在大多数细胞类型中以如此高的效率安装该等位基因的方法。另一种可能的治疗策略是使用引导编辑通过在基因中安装早期终止密码子来减少或消除PRNP的表达。

使用本文所述PEgRNA设计原理，可设计合适的PEgRNA来安装期望的保护性突变，或从PRNP中去除朊病毒病相关突变。例如，可将下面的PEgRNA列表用于安装人PRNP中的G127V保护性等位基因和E219K保护性等位基因，以及各种动物PRNP中的G127V保护性等位基因。

F.引导编辑在RNA标签化中的应用

还可将引导编辑用于通过RNA标签化操纵、改变和以其他方式修饰编码RNA功能的DNA序列，并以此方式提供间接修饰RNA的结构和功能的手段。例如，可将PE用于插入在RNA水平上作用的基序(以下称为RNA基序)以标签化或以其他方式操纵非编码RNA或mRNA。这些基序可通过自切割或RNA酶用于增加基因表达、减少基因表达、改变剪接、改变转录后修饰、影响RNA的亚细胞定位、能够分离或确定RNA的细胞内或细胞外位置(使用如荧光RNA适体，如Spinach,Spinach2,Baby Spinach或Broccoli)、募集内源性或外源性蛋白或RNA结合物、引入sgRNA、或诱导RNA加工(更多细节参见图28B和实施例6)。

可使用引导编辑利用适当PEgRNA(使用本文提供的指导设计)将以下RNA标签或基序插入感兴趣基因中来影响RNA的各种特性，包括RNA转运、表达水平、剪接和检测。

*各PEGRNA以5′至3′方向显示，并具有以下图3F的结构元件，由字体指定，如下：5′–间隔区(正常字体)–gRNA核心(下划线序列)–同源臂(斜体)–RT模板(粗体)–引物结合位点(斜体)–3′

将上表的PEgRNA设计为上述基序的位点特异性插入HEXA基因(泰-萨二氏病缺陷)(如，GenBank号KR710351.1(SEQ ID NO:369)的示例，然而，这只是为了说明的目的。引导编辑在RNA标记中的应用不限于HEXA基因，实际上可以是任何基因。HEXA mRNA具有以下核苷酸序列：

GTTCGTTGCAACAAATTGATGAGCAATGCTTTTTTATAATGCCAACTTTGTACAAAAAAGTTGGCATGACAAGTTCCAGGCTTTGGTTTTCGCTGCTGCTGGCGGCAGCGTTCGCAGGACGGGCGACGGCCCTCTGGCCCTGGCCTCAGAACTTCCAAACCTCCGACCAGCGCTACGTCCTTTACCCGAACAACTTTCAATTCCAGTACGATGTCAGCTCGGCCGCGCAGCCCGGCTGCTCAGTCCTCGACGAGGCCTTCCAGCGCTATCGTGACCTGCTTTTCGGTTCCGGGTCTTGGCCCCGTCCTTACCTCACAGGGAAACGGCATACACTGGAGAAGAATGTGTTGGTTGTCTCTGTAGTCACACCTGGATGTAACCAGCTTCCTACTTTGGAGTCAGTGGAGAATTATACCCTGACCATAAATGATGACCAGTGTTTACTCCTCTCTGAGACTGTCTGGGGAGCTCTCCGAGGTCTGGAGACTTTTAGCCAGCTTGTTTGGAAATCTGCTGAGGGCACATTCTTTATCAACAAGACTGAGATTGAGGACTTTCCCCGCTTTCCTCACCGGGGCTTGCTGTTGGATACATCTCGCCATTACCTGCCACTCTCTAGCATCCTGGACACTCTGGATGTCATGGCGTACAATAAATTGAACGTGTTCCACTGGCATCTGGTAGATGATCCTTCCTTCCCATATGAGAGCTTCACTTTTCCAGAGCTCATGAGAAAGGGGTCCTACAACCCTGTCACCCACATCTACACAGCACAGGATGTGAAGGAGGTCATTGAATACGCACGGCTCCGGGGTATCCGTGTGCTTGCAGAGTTTGACACTCCTGGCCACACTTTGTCCTGGGGACCAGGTATCCCTGGATTACTGACTCCTTGCTACCCTGGGTCTGAGCCCTCTGGCACCTTTGGACCAGTGAATCCCAGTCTCAATAATACCTATGAGTTCATGAGCACATTCTTCTTAGAAGTCAGCTCTGTCTTCCCAGATTTTTATCTTCATCTTGGAGGAGATGAGGTTGATTTCACCTGCTGGAAGTCCAACCCAGAGATCCAGGACTTTATGAGGAAGAAAGGCTTCGGTGAGGACTTCAAGCAGCTGGAGTCCTTCTACATCCAGACGCTGCTGGACATCGTCTCTTCTTATGGCAAGGGCTATGTGGTGTGGCAGGAGGTGTTTGATAATAAAGTAAAGATTCAGCCAGACACAATCATACAGGTGTGGCGAGAGGATATTCCAGTGAACTATATGAAGGAGCTGGAACTGGTCACCAAGGCCGGCTTCCGGGCCCTTCTCTCTGCCCCCTGGTACCTGAACCGTATATCCTATGGCCCTGACTGGAAGGATTTCTACGTAGTGGAACCCCTGGCATTTGAAGGTACCCCTGAGCAGAAGGCTCTGGTGATTGGTGGAGAGGCTTGTATGTGGGGAGAATATGTGGACAACACAAACCTGGTCCCCAGGCTCTGGCCCAGAGCAGGGGCTGTTGCCGAAAGGCTGTGGAGCAACAAGTTGACATCTGACCTGACATTTGCCTATGAACGTTTGTCACACTTCCGCTGTGAGTTGCTGAGGCGAGGTGTCCAGGCCCAACCCCTCAATGTAGGCTTCTGTGAGCAGGAGTTTGAACAGACCTGCCCAACTTTCTTGTACAAAGTTGGCATTATAAGAAAGCATTGCTTATCAATTTGTTGCAACGAAC(SEQ ID NO:369)。

相应HEXA蛋白具有以下氨基酸序列：

MTSSRLWFSLLLAAAFAGRATALWPWPQNFQTSDQRYVLYPNNFQFQYDVSSAAQPGCSVLDEAFQRYRDLLFGSGSWPRPYLTGKRHTLEKNVLVVSVVTPGCNQLPTLESVENYTLTINDDQCLLLSETVWGALRGLETFSQLVWKSAEGTFFINKTEIEDFPRFPHRGLLLDTSRHYLPLSSILDTLDVMAYNKLNVFHWHLVDDPSFPYESFTFPELMRKGSYNPVTHIYTAQDVKEVIEYARLRGIRVLAEFDTPGHTLSWGPGIPGLLTPCYPGSEPSGTFGPVNPSLNNTYEFMSTFFLEVSSVFPDFYLHLGGDEVDFTCWKSNPEIQDFMRKKGFGEDFKQLESFYIQTLLDIVSSYGKGYVVWQEVFDNKVKIQPDTIIQVWREDIPVNYMKELELVTKAGFRALLSAPWYLNRISYGPDWKDFYVVEPLAFEGTPEQKALVIGGEACMWGEYVDNTNLVPRLWPRAGAVAERLWSNKLTSDLTFAYERLSHFRCELLRRGVQAQPLNVGFCEQEFEQT(SEQ ID NO:370)。

注意，所得到的RNA基序将包含在HEXA基因的翻译区内，破坏蛋白编码基因的功能。插入的聚腺苷酸化基序会导致转录本过早终止。该位置仅说明潜在的PEgRNA，其可能导致上表所列RNA基序插入被转录的基因组位点内，从而产生RNA产物。

与PE一起用于RNA标签化的PEgRNA可由以下表达：U6启动子(在这种情况下，将单个鸟苷添加至PEgRNA的5'端以包括不以G开头的原间隔区，并将6-7胸腺嘧啶添加到3′端)，或pol II启动子，如pCMV(在这种情况下，可能需要通过自切割元件从RNA的5′端去除该启动子的固有转录序列或Csy4基序，并且需要将终止基序添加到RNA的3′端，该终止基序不导致RNA从细胞核中输出，例如以上列出的3′框基序。注意，由于PE该基序不会插入基因组，因为它是退火区的3′)。核心PEgRNA支架加下划线表示，同源和退火区用斜体表示，插入序列为粗体。注意，插入的序列是上述示例的反向互补序列——如下所述，因此这些PEgRNA需要靶向编码链。

另外，在一些实施方案中，注意除HDV之外，自切割核酶需要针对给定的靶位点进行调整；换言之，虽然HDV切割紧靠其自身5′端的编码的转录本，但所有其他自切割核酶的切割位点都在核酶本身内。因此，前面和最后约5-10个核苷酸(在某些情况下可能超过10个)实际上是编码序列的一部分。例如，为了切割5N之后的序列5′NNNNNTCATCCTGATAAACTGCAAA3′(SEQ ID NO:371)，其中N是任何核苷酸，使用锤头型自切割核酶插入以下序列，其中加下划线的序列形成不完全RNA配对元件。5′NNNNNCAGTTTGTACGG ATGACTGATGAGTCCCAAATAGGACGAAACGCGCTTCGGTGCGTCTCATCCTGATAAACTGCAAA-3′(SEQ IDNO:372)。

在该配对元件的长度和性质方面存在明显的灵活性，并且对原始提交中列出的任何非HDV自切割核酶而言都是如此。为安装锤头型核酶以使用具有与上述结构相同的原间隔区的PEgRN来切割hexA mRNA，可使用以下PEgRNA序列(标签与以上相同)：

5′ACCTGAACCGTATATCGACGCACCGAAGCGCGTTTCGTCCTATTTGGGACTCATCAGGATATACGGTTCAGGTGATATACGGTTCAGGTGACGCACCGAAGCGCGTTTCGTCCTATTTGGGACTCATCAGACCTGAACCGTATATCATCCTTCCAGTCAGGGCCATGTTTGAGAGCTAGAAATAGCAAGTTTAAATAAGGCTAGTCCGTTATCAACTT GAAAAAGTGGGACCGAGTCGGTCCACCTGAACCGTATATC

TCAGGTCTATGGCCCTGACTGGAA-3′(其中核心PEgRNA支架加下划线，同源和退火区为斜体，插入序列为粗体)(SEQ ID NO:373)。

设计用于插入RNA基序的其他PEgRNA可遵循本文所述一般原则。然而，值得注意地，许多RNA基序可能是高度结构化的，这可能使其难以逆转录并插入基因组。尽管对于一些RNA序列，例如简单的发夹，RNA序列本身及其互补序列都是结构化的。然而，对于以上提到的序列不太可能如此。因此，插入这些基序时，可能最好是PEgRNA编码这些序列的反向互补序列，从而将实际编码该基序的DNA序列插入基因组中。类似地，在PEgRNA模板区域中包含自切割核酶会导致加工和低效活性，而包含其反向互补序列则不会。因此，这些PEgRNA可能必须靶向编码链，而编码其他类型插入物(如，治疗性校正)的PEgRNA理论上能够靶向任一链。

另外，注意，对于许多插入的基序，所得到的PEgRNA可能无法由U6启动子转录，因而需要使用其他启动子，如pCMV。同样，较长的PEgRNA也可能不太稳定。较短的基序，如m⁶A标志物不会有这个挑战。

G.引导编辑在生成复杂基因文库中的应用

引导编辑还可用于生成具有确定或可变插入、缺失或确定氨基酸/核苷酸转换的蛋白或RNA编码基因的复杂文库，并且本文描述了它们在高通量筛选和定向进化中的应用。引导编辑的这种应用进一步描述于实施例7。

可变基因文库的产生最常见的是通过诱变PCR完成(参见，Cadwell RC and JoyceGF.PCR Methods Appl.1992)。该方法依赖于使用降低DNA聚合酶保真度的反应条件，或使用具有更高突变率的经修饰的DNA聚合酶。因此，这些聚合酶的偏好反映在文库产物中(如，偏好转换突变相比颠换)。这种文库构建方法的固有限制是相对无法影响变化的基因大小。大多数DNA聚合酶具有极低的indel突变率(插入或缺失)，其中大多数会导致蛋白编码区中的移码突变，使文库成员不太可能通过任何下游选择(参见McInerney P,Adams P,andHadi MZ.Mol Biol Int.2014)。

此外，PCR和克隆偏好可能难以产生由不同大小的基因组成的单一文库。这些限制会严重限制定向进化增强现有或设计新蛋白功能的功效。在自然进化中，蛋白功能或功效的巨大变化通常与插入和缺失突变有关，这些突变在用于诱变的经典文库生成过程中不太可能发生。此外，这些突变最常发生预计会形成环的蛋白区域，而不是疏水内核。因此，使用传统的无偏好方法生成的大多数indel可能是有害或无效的。

考虑到所有文库仅访问可能的突变空间的一小部分，可将此类突变偏向蛋白内它们最可能有益的位点(如，环区域)的文库，相比传统文库具有明显优势。最后，虽然可使用NNK引物或通过DNA改组通过多步PCR和克隆组装生成具有位点特异性indel突变的基因文库，但这些文库无法在连续进化中进行额外的“indel形成(indelgenesis)”循环。连续进化是用户干预最少的定向进化类型。这样的一个示例是PACE(参见，Esvelt KM,Carlson JC,and Liu DR.Nature.2011)。由于连续进化在用户干预最少的情况下发生，进化过程中任何文库多样化的增加都必须使用天然复制机制进行。因此，尽管可在PACE中生成和筛选具有插入或去除密码子作为特定基因座的基因文库，但不可能进行额外的“indel形成”循环。

预计可利用引导编辑(PE)的可编程性来生成高度复杂的编程基因文库，用于高通量筛选和定向进化(参见图29A)。PE可使用引导编辑向导RNA(PEgRNA)中编码的信息从指定的遗传基因座插入、改变或去除确定数量的核苷酸(参见图29B)。这能够生成具有从其中突变最有可能引起功能变化的环区域插入或去除一个或多个氨基酸的靶文库，而没有非功能性移码突变的背景引入(参见图29C)。可将PE用于安装特定的突变组，而无需考虑DNA聚合酶或突变序列中固有的偏好。

例如，虽然通过经典文库生成不太可能将CCC密码子转化为终止密码子，因为它需要三个连续的突变，包括两个颠换，但是PE可用于将任何给定的靶向密码子一步转换为TGA终止密码子。它们还可用于在给定位点安装程序多样化，例如通过在给定位点掺入编码任何疏水性氨基酸而不编码任何其他氨基酸的密码子。此外，由于PE的可编程性，可利用多个PEgRNA在多个位点同时生成多个不同的编辑，从而能够生成高度编程文库(参见图29D)。此外，可使用保真度较低的逆转录酶(如，HIV-1逆转录酶或博德特氏菌噬菌体逆转录酶)在其他方面不变的文库中生成诱变区(参见，Naorem SS,Hin J,Wang S,Lee WR,Heng X,MillerJF,Guo H.Proc Natl Acad Sci2017and Martinez MA,Vartanian JP,Wain-HobsonS.Proc Natl Acad Sci USA1994)。

还设想了在同一位点上重复多轮PE的可能性，例如允许在单个位点如在环区域中重复插入密码子。同样，设想所有上述方法都可并入连续进化中，从而能够产生新的原位进化文库(参见图30)。它们还可用于在其他细胞类型中构建这些文库，否则难以组装大型文库，例如在哺乳动物细胞中。已针对定向进化进行优化的PE编码细菌菌株的生成将是有用的附加工具，用于鉴定具有改进或新功能的蛋白和RNA。由于PE的新性质，PE的所有这些应用都不是显而易见的。总之，通过PE生成文库将是合成生物学和定向进化以及蛋白和RNA组合突变体的高通量筛选中非常有用的工具。

竞争方法

目前产生不同文库的主要方法是通过诱变PCR(参见Cadwell RC and JoyceGF.PCR Methods Appl.1992)，如上所述。在PCR过程中，可通过简并NNK引物在确定的位点引入插入或缺失，但在多个位点引入此类突变需要多轮重复PCR和克隆，然后才能通过诱变PCR构建更多样化的文库，从而使方法变慢。另一种补充方法是DNA改组，其中将通过DNase处理产生的基因文库片段引入PCR反应中而无需引物，导致不同片段彼此退火，并快速产生比通过单独的诱变PCR更多样化的文库(参见Meyer AJ,Ellefson JW,Ellington AD.CurrProtoc Mol Biol.2014)。虽然这种方法理论上可产生indel突变，但其更经常导致破坏基因功能的移码突变。此外，DNA改组需要基因片段之间的高度同源性。

这两种方法都必须在体外进行，将所得到的文库转化到细胞中，而由PE产生的文库可以原位构建，使其能够在连续进化中应用。虽然可通过体内诱变原位构建文库，但这些文库依赖于宿主细胞机制并对indel表现出偏倚。同样，虽然传统克隆方法可用于生成位点特异性突变谱，但它们不能原位应用，通常在转化至细胞之前在体外一次组装一个。PE在原核和真核细胞类型中的效率和广泛功能进一步表明，这些文库可直接在感兴趣的细胞类型中构建，而不是克隆至模式生物(如，大肠杆菌)中再转移到感兴趣的细胞或生物体中。另一种靶向多样化的竞争方法是多重自动基因组工程或MAGE，其中可将多个单链DNA寡核苷酸掺入复制叉中并导致可编程突变⁷。然而，MAGE需要对宿主株系进行大量修饰，并可能导致脱靶或背景突变增加100倍(参见Nyerges

et al.Proc Natl Acad Sci USA.2016)，而PE的编程程度更高，预计导致更少的脱靶效应。此外，MAGE尚未在多种细胞类型中得到证实，包括哺乳动物细胞。

相比之下，引导编辑是用于文库生成的新颖且非显而易见的补充技术。

PE在构建基因文库中的应用

PE可用于以可编程的方式构建基因文库。

在一个示例中，可将PE用于定向进化实验以在使用PACE的连续进化实验的过程中将蛋白变体引入基因文库，允许以通过传统方法不可能的方式重复积累点突变和indel。

已表明，PE可位点特异且可编程地将核苷酸插入大肠杆菌的基因序列。可将定向进化用于通过经修饰的双杂交蛋白:蛋白结合PACE选择来确定对特定表位具有改进结合的单体。这些单体内特异且高度可变的环对亲和力和特异性有显著贡献。通过以靶向方式改变这些环的长度和组成，可在PACE中快速获得改进的单体结合。然而，改变序列长度并不是PACE的既定功能。虽然不同环大小的文库可用作PACE的起点，但在整个PACE选择过程中不会出现长度的后续改进，除非获得点突变和indel突变的有益协同组合。

在不同实施方案中，可将PE用于通过实现具有不同环长度的单体的原位生成和演化来改进PACE选择。为此，可向PACE大肠杆菌菌株引入额外的PE质粒，该质粒编码PE酶和一个或多个PEgRNA。PE酶和PEgRNA在大肠杆菌中的表达受小分子的控制以实验者选择的速率递送至PACE lagoon。

在不同实施方案中，PEgRNA组件包含将PE引导至选择噬菌体上感兴趣的位点的间隔区，并且被设计为可中靶位点插入多个三核苷酸，这样引入新的PEgRNA结合位点，从而能够中靶位点重复插入一个或多个密码子。

平行地，另一种宿主大肠杆菌菌株可包括PEgRNA，其为去除一个或多个密码子提供模板，使得环尺寸能够在进化过程中缩小。PACE实验可利用两种菌株的混合物或交替使用这两种菌株，以允许缓慢且受控地添加或去除环序列。

除了利用PE和PACE创建单体文库外，该技术还可应用于使用PE和PACE的抗体进化。控制抗体的结合原理与控制单体的原理非常相似：抗体互补决定区环的长度对其结合功能至关重要。此外，已发现更长的环长度对于开发针对HIV-1和其他病毒感染具有广泛保护活性的稀有抗体至关重要(参见Mascola JR,Haynes BF.Immunol Rev.2013)。将如上所述的PE应用于抗体或抗体衍生分子，允许产生具有不同环长度和不同环序列的抗体。与PACE相结合，这种方法允许通过标准PACE无法获得的环几何构造增强结合，从而允许高功能抗体的进化。

作为非限制性示例，可将以下PEgRNA用于可编程地修饰连续进化实验中使用的噬菌体的基因组：

在不同实施方案中，使用PE构建基因文库可利用易错逆转录酶的诱变活性。由于易错RT的保真度较低，因此使用这种诱变逆转录酶可促进诱变可编程文库的生成。如本文所用，术语“易错”逆转录酶是指天然存在或源自另一种逆转录酶(如，野生型M-MLV逆转录酶)的逆转录酶，其错误率小于野生型M-MLV逆转录酶的错误率。据报道，野生型M-MLV逆转录酶的错误率在15,000至27,000个核碱基掺入中有1个错误的范围内。参见Boutabout etal.(2001)“DNA synthesis fidelity by the reverse transcriptase of the yeastretrotransposon Ty1,”Nucleic Acids Res 29(11):2217–2222，其通过引用并入本文。

因此，出于本申请的目的，术语“易错”是指错误率大于15,000个核碱基掺入中有1个错误(6.7x10^-5或更高)的那些RT，例如，14,000个核碱基中有1个错误(7.14x10^-5或更高)，13,000个或更少的核碱基中有1个错误(7.7x10^-5或更高)，12,000个或更少的核碱基中有1个错误(7.7x10^-5或更高)，11,000个或更少的核碱基中有1个错误(9.1x10^-5或更高)，10,000个或更少的核碱基中有1个错误(1x10^-4或0.0001或更高)，9,000个或更少的核碱基中有1个错误(0.00011或更高)，8,000个或更少的核碱基中有1个错误(0.00013或更高)，7,000个或更少的核碱基中有1个错误(0.00014或更高)，6,000个或更少的核碱基中有1个错误(0.00016或更高)，5,000个或更少的核碱基中有1个错误(0.0002或更高)，4,000个或更少的核碱基中有1个错误(0.00025或更高)，3,000个或更少的核碱基中有1个错误(0.00033或更高)，2,000个或更少的核碱基中有1个错误(0.00050或更高)，或1,000个或更少的核碱基中有1个错误(0.001或更高)，或500个或更少的核碱基中有1个错误(0.002或更高)，或250个或更少的核碱基中有1个错误(0.004或更高)。

可设想各种诱变RT用于产生高度诱变的可编程文库。两个这样的示例是来自博德特氏菌噬菌体(参见Handa,S.,et al.Nucl Acids Res 9711-25(2018),其通过引用并入本文)和嗜肺军团菌(参见Arambula,D.,et al.Proc Natl Acad Sci USA 8212-7(2013)，其通过引用并入)的诱变逆转录酶。对于来自博德特氏菌噬菌体的RT(brt)，可能还需要将辅助蛋白添加(bavd)到Cas9或以反式递送，以及将额外的RNA序列添加到PEgRNA以改善诱变的RT至靶位点的结合(参见Handa,S.,et al.Nucl Acids Res 9711-25(2018))。使用诱变RT时，PEgRNA的模板区域可能富含腺苷或AAY密码子以增强多样化。

在来自博德特氏菌属的Brt的情况下，PE融合物还可包括额外的辅助蛋白(Bavd)。辅助蛋白可与PE融合蛋白融合或以反式提供。Bavd辅助蛋白的氨基酸序列如下：

在来自博德特氏菌属的Brt的情况下，PEgRNA可包含添加至PEgRNA如5'或3'端的额外的核苷酸序列。示例序列如下，最初来自博德特氏菌属噬菌体基因组：

在其他实施方案中，也可突变PEgRNA添加序列。例如，可将PEgRNA-添加物1序列突变为以下示例性替代添加序列：

在涉及使用PE设计基因文库的不同实施方案中，可应用特殊的PEgRNA考虑。例如，不希望受理论的束缚，可能需要上述额外的PEgRNA序列来通过诱变RT实现有效诱变。在另一个实施方案中，使用PE的重复密码子插入可能需要特定的PEgRNA设计。例如，为重复插入GGG(甘氨酸)密码子，PEgRNA的整个同源区可能需要由G组成，如上所示。这意味着只有某些位置可进行重复插入。此外，PAM序列不会被PE中断。

H.引导编辑在插入免疫表位中的应用

引导编辑器也可用作将已知免疫原性表位插入内源或外源基因组DNA中的手段，导致相应蛋白的修饰以用于治疗或生物技术应用(参见图31和图32)。在引导编辑发明之前，这样的插入只能低效地实现，并且来自DSB的indel形成率很高。引导编辑解决了插入编辑导致的高indel形成问题，同时通常提供比HDR更高的效率。这种较低的indel形成率显示引导编辑作为靶向DNA插入方法优于HDR的主要优势，特别是在插入免疫原性表位的所述应用中。表位的长度在几个碱基到几百个碱基的范围内。引导编辑器是在哺乳动物细胞中实现此类靶向插入的有效方法。

本发明的关键概念是使用引导编辑器将包含先前描述的免疫原性表位的核苷酸序列插入内源或外源基因组DNA中进行下调和/或破坏它们的蛋白产物和/或表达细胞类型。用于免疫原性表位插入的核苷酸序列将以产生靶向基因的编码蛋白的融合蛋白和插入的免疫原性表位的相应蛋白翻译的方式靶向基因。作为针对例如破伤风、白喉或麻疹的常规疫苗接种的标准预先免疫的结果，患者的免疫系统之前已接受过训练以识别这些表位。由于融合表位的免疫原性，预期患者的免疫系统会识别和禁用引导编辑的蛋白(不仅仅是插入的表位)以及可能表达它的细胞。

最近在广泛应用中探索了使用CRISPR/Cas系统的精确基因组靶向技术，包括将工程化DNA序列插入靶向基因组基因座。以前，同源定向修复(HDR)已用于此应用，需要ssDNA供体模板并通过双链DNA断裂(DSB)启动修复。这种策略提供了在细胞中进行最广泛的可能变化，并且是将大的DNA序列插入哺乳动物细胞的唯一可用方法。然而，HDR受其起始DSB产生的非期望的细胞副作用的阻碍，例如高水平的indel形成、DNA易位、大的缺失和P53激活。除了这些缺点外，HDR还受在许多细胞类型中低效率的限制(T细胞是该观测结果的明显例外)。最近为克服这些缺点所做的努力包括将人Rad51突变体与Cas9D10A切口酶(RDN)融合，从而形成无DSB的HDR系统，该系统具有增加的HDR产物:indel比率和较低的脱靶编辑，但仍受到细胞类型依赖性阻碍且只有适度的HDR编辑效率。

最近开发的Cas9与结合PEgRNA的逆转录酶的融合物(“引导编辑器”)代表了新的基因组编辑技术，提供了许多优于现有基因组编辑方法的优势，包括能够安装任何单核苷酸取代，以及以位点特异性方式插入或缺失任何短的核苷酸段(多达至少几十个碱基)。值得注意地，PE编辑通常实现较低的意外indel率。因此，PE基于靶向插入使以前不可能或不切实际的编辑应用成为可能。

该特定方面描述了使用引导编辑作为将已知免疫原性表位插入内源或外源基因组DNA的手段的方法，导致用于治疗或生物技术应用的相应蛋白的修饰(参见图31和图32)。在引导编辑发明之前，这样的插入只能低效地实现，并且来自DSB的indel形成率很高。引导编辑解决了插入编辑的高indel形成问题，同时通常提供比HDR更高的效率。这种较低的indel形成率代表作为靶向DNA插入方法的引导编辑优于HDR的主要优势，特别是在所述插入免疫原性表位的应用中。表位长度在几个碱基到几百个碱基的范围内。引导编辑器是在哺乳动物细胞中实现此类靶向插入的最高效且最清洁的技术。

该方面的关键概念是使用引导编辑器将包含先前所述的免疫原性表位的核苷酸序列插入内源或外源基因组DNA中进行下调和/或破坏它们的蛋白产物和/或表达细胞类型。用于免疫原性表位插入的核苷酸序列将以产生靶向基因的编码蛋白和插入的免疫原性表位的相应蛋白翻译的融合蛋白的方式靶向基因。由于针对如破伤风、白喉或麻疹的常规疫苗接种的标准预先免疫，患者的免疫系统之前已接受过训练以识别这些表位。由于融合表位的免疫原性，预计患者的免疫系统会识别和禁用引导编辑的蛋白(不仅仅是插入的表位)以及可能表达它的细胞。

与靶向基因的融合将根据需要工程化改造以确保暴露插入的表位蛋白翻译进行免疫系统识别。这可包括导致蛋白翻译的靶向核苷酸插入，产生免疫原性表位与靶向基因的C端融合物，免疫原性表位与靶向基因的N端融合物，或将核苷酸插入基因中，以便在蛋白结构的表面暴露区域内编码免疫原性表位。

在靶基因序列和插入的免疫原性表位核苷酸序列之间插入的核苷酸编码的蛋白接头，可能需要经工程化改造为本发明的一部分以促进靶基因的免疫系统识别、细胞运输、蛋白功能或蛋白折叠。这些插入的核苷酸编码的蛋白接头可包括(但不限于)可变长度和序列的XTEN接头或可变长度和序列的甘氨酸-丝氨酸接头。这些工程化接头以前曾被用于成功促进蛋白融合。示例性接头可包括本文所述任何接头，包括氨基酸序列(GGGGS)n(SEQ IDNO:165)、(G)n(SEQ ID NO:166)、(EAAAK)n(SEQ ID NO:167)、(GGS)n(SEQ ID NO:168)、(SGGS)n(SEQ ID NO:169)、(XP)n(SEQ ID NO:170)或其任何组合，其中n独立地为1至30的整数，并且其中X是任何氨基酸。在一些实施方案中，接头包含氨基酸序列(GGS)n(SEQ IDNO:176)，其中n为1、3或7。在一些实施方案中，接头包含氨基酸序列SGSETPGTSESATPES(SEQID NO:171)。在一些实施方案中，接头包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGS(SEQ ID NO:172)。在一些实施方案中，接头包含氨基酸序列SGGSGGSGGS(SEQID NO:173)。在一些实施方案中，接头包含氨基酸序列SGGS(SEQ ID NO:174)。

该方面的区别特征包括使用对特定氨基酸序列的先前获得性免疫反应作为诱导针对其他非免疫原性蛋白的免疫反应的手段的能力。另一个区别特征是能够以靶标方式插入这些免疫原性表位的核苷酸序列，该方式不会诱导高水平的不需要的indel作为副产物编辑，并且其插入有效。PE的这种特定应用能够结合细胞类型特异性递送方法(如，AAV血清型)在感兴趣的细胞类型中插入表位以触发免疫反应。

可将引导编辑作为将免疫原性表位插入致病基因的手段用于对患者的免疫系统进行编程以对抗多种疾病(不限于癌症，正如免疫肿瘤学策略)。这项技术的直接相关应用将是作为癌症治疗剂，因为它可通过引起对相关致癌基因(如，HER2)或生长因子(如，EGFR)的免疫反应来破坏肿瘤的免疫逃逸机制。这种方法似乎类似于T细胞工程，但这种方法的一个新进展是它可用于许多细胞类型和癌症以外的疾病，而无需生成工程化T细胞并将其引入患者。

使用PE将大多数人已针对(破伤风、百日咳、白喉、麻疹、腮腺炎、风疹等)接种疫苗的免疫原性表位插入驱动疾病的外源或内源基因中，因此患者的免疫系统学会了禁用该蛋白。

从上述策略中获得潜在治疗益处的疾病包括由有毒蛋白聚集引起的疾病，例如致命性家族性失眠症。其他可能受益的疾病包括由原本无毒的内源性蛋白的致病性过表达引起的疾病，以及由外源病原体引起的疾病。

主要治疗的适应症包括上述那些，例如治疗癌症、朊病毒和其他神经退行性疾病、传染病和预防医学。次要治疗的适应症可包括对迟发性遗传病患者的预防性护理。预期当前的护理药物标准可与某些疾病的引导编辑结合使用，例如特别具有侵袭性的癌症，或在药物有助于缓解疾病症状直到疾病完全治愈的情况下。以下是可由本文公开的引导编辑器插入基因中的免疫表位的示例：

还可安装本领域已知的其他免疫表位。可通过本文公开的引导编辑器安装可从免疫表位数据库和分析资源(iedb.org/epitopedetails_v3.php)(其内容通过引用并入本文)获得的任何免疫表位。

在一些实施方案中，可由本文公开的引导编辑器安装的免疫表位可包括以下表位中的任一种：

I.引导编辑器的递送

另一方面，本公开提供了使用不同策略在体外和体内递送引导编辑器，包括在单独的载体上使用断裂内含肽，使用诸如电穿孔的技术直接递送核糖核蛋白复合物(即，引导编辑器复合PEgRNA和/或第二位点gRNA)的策略，利用阳离子脂质介导的制剂，以及使用与核糖核蛋白复合物融合的受体配体诱导内吞作用的方法。本文考虑了任何此类方法。

递送选择概述

一些方面，本发明提供了包括向宿主细胞递送一种或多种编码引导编辑器多核苷酸的方法，例如本文所述一种或多种载体，所述载体编码本文所述引导编辑系统的一种或多种组件，其一种或多种转录本和/或由其转录的一种或多种蛋白。一些方面，本发明进一步提供了通过此类方法产生的细胞，以及包含此类细胞或由此类细胞产生的生物体(如，动物、植物或真菌)。在一些实施方案中，本文所述的引导编辑器与向导序列组合(并且任选地与向导序列复合)递送至细胞。可将常规的基于病毒和非病毒的基因转移方法用于在哺乳动物细胞或靶组织中引入核酸。此类方法可用于向培养细胞或宿主生物体中施用编码引导编辑器组分的核酸。非病毒载体递送系统包括DNA质粒、RNA(如，本文所述载体的转录本)、裸核酸和与递送载体(如，脂质体)复合的核酸。病毒载体递送系统包括DNA和RNA病毒，其在递送至细胞后具有游离基因组或整合基因组。关于基因治疗程序的综述，参见Anderson,Science 256:808-813(1992)；Nabel&Felgner,TIBTECH11:211-217(1993)；Mitani&Caskey,TIBTECH 11:162-166(1993)；Dillon,TIBTECH 11:167-175(1993)；Miller,Nature357:455-460(1992)；Van Brunt,Biotechnology 6(10):1149-1154(1988)；Vigne,Restorative Neurology and Neuroscience 8:35-36(1995)；Kremer&Perricaudet,British Medical Bulletin 51(1):31-44(1995)；Haddada et al.,in Current Topicsin Microbiology and Immunology Doerfler and Bihm(编)(1995)；以及Yu et al.,GeneTherapy 1:13-26(1994)。

核酸的非病毒递送方法包括脂质转染、核转染、显微注射、基因枪、病毒体、脂质体、免疫脂质体、聚阳离子或脂质:核酸缀合物、裸DNA、人工病毒体和试剂增强的DNA摄取。脂质转染描述于例如美国专利号5,049,386,4,946,787；和4,897,355中，脂质转染试剂可商购获得(如，Transfectam^TM和Lipofectin^TM)。适用于多核苷酸的有效受体识别脂质转染的阳离子和中性脂质包括Feigner，WO91/17424；WO91/16024的那些。递送可以是细胞(如，体外或离体施用)或靶组织(如，体内施用)。

制备脂质:核酸复合物，包括靶向脂质体如免疫脂质复合物是本领域技术人员所熟知的(参见，例如，Crystal,Science 270:404-410(1995)；Blaese et al.,Cancer GeneTher.2:291-297(1995)；Behr et al.,Bioconjugate Chem.5:382-389(1994)；Remy etal.,Bioconjugate Chem.5:647-654(1994)；Gao et al.,Gene Therapy 2:710-722(1995)；Ahmad et al.,Cancer Res.52:4817-4820(1992)；美国专利号4,186,183,4,217,344,4,235,871,4,261,975,4,485,054,4,501,728,4,774,085,4,837,028,和4,946,787)。

使用基于RNA或DNA病毒的系统来递送核酸利用了高度进化的过程，用于将病毒靶向体内的特定细胞并将病毒有效载荷运输到细胞核。病毒载体可直接施用于患者(体内)或它们可用于体外处理细胞，并且任选地将经修饰的细胞施用于患者(离体)。常规基于病毒的系统可包括用于基因转移的逆转录病毒、慢病毒、腺病毒、腺相关病毒和单纯疱疹病毒载体。利用逆转录病毒、慢病毒和腺相关病毒基因转移方法可能在宿主基因组中整合，通常导致插入转基因的长期表达。此外，在许多不同细胞类型和靶组织中都观测到高转导效率。

病毒的趋向性可通过并入外源包膜蛋白来改变，扩大靶细胞的潜在目标群体。慢病毒载体是能够转导或感染非分裂细胞并通常产生高病毒滴度的逆转录病毒载体。因此，逆转录病毒基因转移系统的选择取决于靶组织。逆转录病毒载体由顺式作用的长末端重复序列组成，其包装容量高达6-10kb的外源序列。最小的顺式作用LTR足以复制和包装载体，用于将治疗基因整合到靶细胞中以提供永久的转基因表达。广泛使用的逆转录病毒载体包括基于鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猿猴免疫缺陷病毒(SIV)、人免疫缺陷病毒(HIV)及其组合的那些(参见，例如Buchscher et al.,J.Virol.66:2731-2739(1992)；Johann et al.,J.Virol.66:1635-1640(1992)；Sommnerfelt et al.,Virol.176:58-59(1990)；Wilson et al.,J.Virol.63:2374-2378(1989)；Miller et al.,J.Virol.65:2220-2224(1991)；PCT/US94/05700)。在优选瞬时表达的应用中，可使用基于腺病毒的系统。基于腺病毒的载体能够在许多细胞类型中具有非常高的转导效率，并且不需要细胞分裂。使用这样的载体，已获得了高滴度和表达水平。该载体可在相对简单的系统中大量生产。腺相关病毒(“AAV”)载体也可用于用靶核酸转导细胞，例如在核酸和肽的体外生产中，以及用于体内和离体基因治疗程序(参见，例如West et al.,Virology 160:38-47(1987)；美国专利号4,797,368；WO 93/24641；Kotin,Human Gene Therapy 5:793-801(1994)；Muzyczka,J.Clin.Invest.94:1351(1994)。重组AAV载体的构建描述于许多出版物中，包括美国专利号5,173,414；Tratschin et al.,Mol.Cell.Biol.5:3251-3260(1985)；Tratschin,et al.,Mol.Cell.Biol.4:2072-2081(1984)；Hermonat&Muzyczka,PNAS 81:6466-6470(1984)；以及Samulski et al.,J.Virol.63:03822-3828(1989)。

包装细胞通常用于形成能够感染宿主细胞的病毒颗粒。这些细胞包括包装腺病毒的293细胞和包装逆转录病毒的ψ2细胞或PA317细胞。用于基因治疗的病毒载体通常是通过产生将核酸载体包装成病毒颗粒的细胞系来产生的。载体通常包含包装和随后整合到宿主中所需的最少病毒序列，将其他病毒序列用于替换待表达的多核苷酸的表达盒。缺失的病毒功能通常由包装细胞系以反式提供。例如，用于基因治疗的AAV载体通常仅具有来自AAV基因组的ITR序列，这些序列是包装和整合到宿主基因组中所必需的。将病毒DNA包装在细胞系中，该细胞系包含编码其他AAV基因的辅助质粒，即rep和cap，但缺少ITR序列。细胞系也可用腺病毒作为辅助者进行感染。辅助病毒促进从辅助质粒中复制AAV载体和表达AAV基因。由于缺乏ITR序列，辅助质粒没有大量包装。腺病毒的污染可通过例如热处理来减少，腺病毒比AAV对热处理更敏感。将核酸递送至细胞的其他方法是本领域技术人员已知的。参见，例如US20030087817，通过引用并入本文。

在不同实施方案中，可将PE构建体(包括断裂构建体)工程化改造用于在一种或多种rAAV载体中递送。与本文提供的任何方法和组合物相关的rAAV可以是任何血清型，包括任何衍生物或假型(如，1、2、3、4、5、6、7、8、9、10、11、12、13、2/1、2/5、2/8、2/9、3/1、3/5、3/8或3/9)。rAAV可包含待递送至细胞的遗传负荷(即，表达感兴趣基因的重组核酸载体，如由rAAV携带至细胞的完整或断裂PE融合蛋白)。rAAV可以是嵌合的。

如本文所用，rAAV的血清型是指重组病毒衣壳蛋白的血清型。衍生物和假型的非限制性实例包括rAAV2/1、rAAV2/5、rAAV2/8、rAAV2/9、AAV2-AAV3杂合体、AAVrh.10、AAVhu.14、AAV3a/3b、AAVrh32.33、AAV-HSC15、AAV-HSC17、AAVhu.37、AAVrh.8、CHt-P6、AAV2.5、AAV6.2、AAV2i8、AAV-HSC15/17、AAVM41、AAV9.45、AAV6(Y445F/Y731F)、AAV2.5T、AAV-HAE1/2、AAV克隆32/83、AAVShH10、AAV2(Y->F)、AAV8(Y733F)、AAV2.15、AAV2.4、AAVM41和AAVr3.45。具有嵌合VP1蛋白的衍生物和假型的非限制性示例是rAAV2/5-1VP1u，其具有AAV2的基因组、AAV5的衣壳骨架和AAV1的VP1u。具有嵌合VP1蛋白的衍生物和假型的其他非限制性示例是rAAV2/5-8VP1u、rAAV2/9-1VP1u和rAAV2/9-8VP1u。

AAV衍生物/假型，以及产生此类衍生物/假型的方法是本领域已知的(参见，例如，Mol Ther.2012Apr；20(4):699-708.doi:10.1038/mt.2011.287.Epub 2012Jan 24.TheAAV vector toolkit:poised at the clinical crossroads.Asokan A1,Schaffer DV,Samulski RJ.)。产生和使用假型rAAV载体的方法是本领域已知的(参见，例如，Duan etal.,J.Virol.,75:7662-7671,2001；Halbert et al.,J.Virol.,74:1524-1532,2000；Zolotukhin et al.,Methods,28:158-167,2002；以及Auricchio et al.,Hum.Molec.Genet.,10:3075-3081,2001)。

制备或包装rAAV颗粒的方法是本领域已知的，并且试剂是可商购的(参见，例如，Zolotukhin et al.Production and purification of serotype 1,2,and 5recombinantadeno-associated viral vectors.Methods 28(2002)158–167；以及美国专利公开号US20070015238和US20120322861，其通过引用并入本文；以及可从ATCC和CellBiolabs,Inc.获得的质粒和试剂盒)。例如，包含感兴趣基因的质粒可与一个或多个辅助质粒组合，例如包含rep基因(如，编码Rep78、Rep68、Rep52和Rep40)和cap基因(编码VP1、VP2和VP3，包括如本文所述经修饰的VP2区)，并转染到重组细胞中，使得rAAV颗粒可被包装并随后纯化。

重组AAV可包含核酸载体，其可最低限度包括：(a)一个或多个异源核酸区域，其包含编码感兴趣的蛋白或多肽或者感兴趣的RNA(如，siRNA或microRNA)，和(b)包含在一个或多个核酸区域(如，异源核酸区域)侧翼的反向末端重复(ITR)序列(如，野生型ITR序列或工程化ITR序列)的一个或多个区域。在此，包含编码感兴趣的蛋白或感兴趣的RNA的序列的异源核酸区域被称为感兴趣基因。

本文提供的任何一种rAAV颗粒可具有衣壳蛋白，该衣壳蛋白在VPlu区之外具有不同血清型的氨基酸。在一些实施方案中，VP1蛋白骨架的血清型不同于ITR和/或Rep基因的血清型。在一些实施方案中，颗粒的VP1衣壳蛋白骨架的血清型与ITR的血清型相同。在一些实施方案中，颗粒的VP1衣壳蛋白骨架的血清型与Rep基因的血清型相同。在一些实施方案中，rAAV颗粒的衣壳蛋白包含导致转导效率提高的氨基酸突变。

在一些实施方案中，核酸载体包含含有促进核酸(如，异源核酸)表达的序列(如，与核酸可操作地连接的表达控制序列)的一个或多个区域。许多这样的序列是本领域已知的。表达控制序列的非限制性示例包括启动子、隔离子、沉默子、响应元件、内含子、增强子、起始位点、终止信号和poly(A)尾。本文考虑了此类控制序列的任何组合(如，启动子和增强子)。

最终的AAV构建体可并入编码PEgRNA的序列。在其他实施方案中，AAV构建体可并入编码第二位点切口向导RNA的序列。在其他实施方案中，AAV构建体可并入编码第二位点切口向导RNA的序列和编码PEgRNA的序列。

在不同实施方案中，PEgRNA和第二位点切口向导RNA可由合适的启动子表达，例如人U6(hU6)启动子、小鼠U6(mU6)启动子或其他合适的启动子。PEgRNA和第二位点切口向导RNA可由相同的启动子或不同的启动子驱动。

在一些实施方案中，rAAV构建体或本文的组合物经肠内向受试者施用。在一些实施方案中，rAAV构建体或本文的组合物经肠胃外向受试者施用。在一些实施方案中，将rAAV颗粒或本文的组合物经皮下、眼内、玻璃体内、视网膜下、静脉内(IV)、脑室内、肌内、鞘内(IT)、脑池内、腹膜内、经由吸入、局部或通过直接注射到一种或多种细胞、组织或器官。在一些实施方案中，rAAV颗粒或本文的组合物通过注射到肝动脉或门静脉中向受试者施用。

基于断裂PE载体的策略

在这方面，引导编辑器可在断裂位点分开并作为整个/完整引导编辑器的两个半部提供。可将这两个半部递送至细胞(如，作为表达的蛋白或在单独的表达载体上)，并且一旦在细胞内接触，这两个半部通过在每个引导编辑器半部上的内含肽的自剪接作用形成完整的引导编辑器。可将断裂内含肽序列工程化改造到编码的引导编辑器的每一个半部中，以促进它们在细胞内的转剪接和完整的功能性PE的伴随恢复。

这些基于断裂内含肽的方法克服了体内递送的几个障碍。例如，编码引导编辑器的DNA大于rAAV包装限制，因此需要特殊的解决方案。一种这样的解决方案是配制与断裂内含肽对融合的编辑器，将这些内含肽对包装到两个单独的rAAV颗粒，当它们共同递送到细胞时，重组功能性编辑器蛋白。描述了一些其他特殊考虑因素以解释引导编辑的独特功能，包括优化第二位点切口靶标和将引导编辑器正确包装到病毒载体中，包括慢病毒和rAAV。

在这方面，引导编辑器可在断裂位点分开并作为完整/全部引导编辑器的两个半部提供。可将这两个半部递送至细胞(如，作为表达的蛋白或在单独的表达载体上)，并且一旦在细胞内接触，这两个半部通过每个引导编辑器半部的内含肽的自剪接作用形成完整的引导编辑器。可将断裂内含肽序列工程化改造到编码的引导编辑器的每一个半部中，以促进它们在细胞内的转剪接和完整的功能性PE的伴随恢复。

图66描绘了作为两个PE半部蛋白提供的引导编辑器的一个实施方案，其通过位于每个引导编辑器半部蛋白的末端或起点处的断裂内含肽的自剪接作用再生为完整的引导编辑器。如本文所用，术语“PE N-端半部”是指完整的引导编辑器的N-端半部，且其包含在完整的引导编辑器的PE N-端半部(即，N端外显肽)的C-末端处的“N内含肽”。“N内含肽”是指完整、完全形成的断裂内含肽部分的N端半部。如本文所用，术语“PE C-端半部”是指完整引导编辑器的C-端半部，且其包含在完整的引导编辑器的C-端半部(即，C-端外显肽)的N-末端处的“C内含肽”。当这两个半部蛋白，即，PE N-端半部和PE C-端半部相互接触时，例如在细胞内，N内含肽和C内含肽同时经历自切除过程并且在PE N-端半部的C-末端和PE C-端半部的N-末端之间形成肽键，以重新形成包含完整napDNAbp结构域(如，Cas9切口酶)和RT结构域的完整引导编辑器蛋白。尽管图中未显示，引导编辑器还可包含额外的序列，包括N端和/或C端处的NLS，以及连接各结构域的氨基酸接头序列。

在不同实施方案中，可通过将整个引导编辑器在“断裂位点”处“断裂”来将引导编辑器工程化改造为两个半部蛋白(即，PE N-端半部和PE C-端半部)。“断裂位点”是指引导编辑器中两个相邻氨基酸残基之间插入断裂内含肽序列(即，N内含肽和C内含肽)的位置。更具体地，“断裂位点”是指将整个引导编辑器分成两个独立的半部的位置，其中每一个半部在断裂位点与N内含肽或C内含肽基序融合。断裂位点可位于引导编辑器融合蛋白中的任何合适的位置，但优选断裂位点位于允许形成大小适合(如，通过表达载体)递送的两个半部蛋白的位置，并且当一个半部蛋白与细胞内的另一个半部蛋白接触时，在断裂位点末端处与每一个半部蛋白融合的内含肽可用于彼此充分相互作用。

在一些实施方案中，断裂位点位于napDNAbp结构域中。在其他实施方案中，断裂位点位于RT结构域中。在其他实施方案中，断裂位点位于连接napDNAbp结构域和RT结构域的接头中。

在不同实施方案中，断裂位点设计需要寻找断裂和插入N端和C端内含肽的位置，这些位置在结构上都允许将两个半部引导编辑器结构域包装到两个不同的AAV基因组中。此外，反式剪接所需的内含肽残基可通过突变C端外显肽的N端处的残基或插入会留下内含肽“痕”的残基来掺入。

示例性包含SpCas9切口酶或SaCas9切口酶的断裂引导编辑器的断裂配置如下。

在不同实施方案中，使用SpCas9切口酶(SEQ ID NO:18，1368个氨基酸)作为示例，断裂可在1至1368之间的任何两个氨基酸之间。然而，优选的断裂将位于蛋白的中央区域，例如，从SEQ ID NO:18的氨基酸50至1250、或从100至1200、或从150至1150、或从200至1100、或从250至1050、或从300至1000、或从350至950、或从400至900、或从450至850、或从500至800、或从550至750、或从600至700。在具体的示例性实施方案中、断裂位点可位于740/741、或801/802、或1010/1011、或1041/1042。在其他实施方案中，断裂位点可相对于SEQ ID NO:18的SpCas9位于1/2、2/3、3/4、4/5、5/6、6/7、7/8、8/9、9/10、10/11、12/13、14/15、15/16、17/18、19/20、20/21、21/22、22/23、23/24、24/25、25/26、26/27、27/28、28/29、29/30、30/31、31/32、32/33、33/34、34/35、35/36、36/37、38/39、39/40、41/42、42/43、43/44、44/45、45/46、46/47、47/48、48/49、49/50、51/52、52/53、53/54、54/55、55/56、56/57、57/58、58/59、59/60、61/62、62/63、63/64、64/65、65/66、66/67、67/68、68/69、69/70、71/72、72/73、73/74、74/75、75/76、76/77、77/78、78/79、79/80、81/82、82/83、83/84、84/85、85/86、86/87、87/88、88/89、89/90、或90至100、100至150、150至200、200至250、250至300、300至350、350至400、450至500、500至550、550至600、600至650、650至700、700至750、750至800、800至850、850至900、900至950、950至1000、1000至1050、1050至1100、1100至1150、1150至1200、1200至1250、1250至1300、1300至1350、1300至1350、1350至1368之间的任何两对相邻残基之间，或与SEQ ID NO:18具有至少80％、85％、90％、95％、98％、99％或99.9％序列同一性的氨基酸序列的任意两个相应残基之间，或SEQ ID NO:19-88的SpCas9的任一氨基酸序列的变体或等同物或与SEQ ID NO:19-88的任一序列具有至少80％、85％、90％、95％、98％、99％、或99.9％序列同一性的氨基酸序列的任何两个相应残基之间。

在不同实施方案中，断裂内含肽序列可由以下内含肽序列工程化改造。

在不同实施方案中，断裂内含肽序列可如下使用：

在不同实施方案中，断裂内含肽可用于将完整PE融合蛋白的单独部分分别递送至细胞，其在细胞中表达后，通过反式剪接重新组成完整PE融合蛋白。

在一些实施方案中，本公开提供了将PE融合蛋白递送至细胞的方法，其包括：

(a)构建第一表达载体，其编码与第一断裂内含肽序列融合的PE融合蛋白的N-端片段；

(b)构建第二表达载体，其编码与第二断裂内含肽序列融合的PE融合蛋白的C端片段；

(c)将第一和第二表达载体递送至细胞，

其中N-端和C-端片段由于反式剪接活性导致第一和第二断裂内含肽序列的自切除而在细胞中重新组成PE融合蛋白。

在一些实施方案中，断裂位点可在引导编辑器融合中的任何位置，包括napDNAbp结构域、接头或逆转录酶结构域。

在其他实施方案中，断裂位点在napDNAbp结构域中。

在其他实施方案中，断裂位点在逆转录酶或聚合酶结构域中。

在其他实施方案中，断裂位点在接头中。

在不同实施方案中，本公开提供包含napDNAbp(如，Cas9结构域)和逆转录酶的引导编辑器，其中napDNAbp和/或逆转录酶之一或两者包含内含肽，如配体依赖性内含肽。通常，内含肽是配体依赖性内含肽，其在没有配体(如，小分子如4-羟基三苯氧胺、肽、蛋白、多核苷酸、氨基酸和核苷酸)的情况下不表现蛋白剪接活性或表现出最小的蛋白剪接活性。配体依赖性内含肽是已知的，包括描述于美国专利申请U.S.S.N.14/004,280，以US2014/0065711A1公布中的那些，其全部内容通过引用并入本文。此外，利用断裂Cas9结构。在一些实施方案中，内含肽包含选自SEQ ID NO:8-15、447、452、462和472-479的氨基酸序列。

在不同实施方案中，与SEQ ID NO:18的经典SpCas9结构域相比，napDNAbp结构域是较小尺寸的napDNAbp结构域。

经典SpCas9蛋白的长度为1368个氨基酸，并且具有158千道尔顿的预测分子量。如本文所用，术语“小尺寸Cas9变体”是指任何Cas9变体——天然存在的、工程化改造的或以其他方式——少于至少1300个氨基酸，或至少少于1290个氨基酸，或少于1280个氨基酸，或少于1270个氨基酸，或少于1260个氨基酸，或少于1250个氨基酸，或少于1240个氨基酸，或少于1230个氨基酸，或少于1220个氨基酸，或少于1210个氨基酸，或少于1200个氨基酸，或少于1190个氨基酸，或少于1180个氨基酸，或少于1170个氨基酸，或少于1160个氨基酸，或少于1150个氨基酸，或少于1140个氨基酸，或少于1130个氨基酸，或少于1120个氨基酸，或少于1110个氨基酸，或少于1100个氨基酸，或少于1050个氨基酸，或少于1000个氨基酸，或少于950个氨基酸，或少于900个氨基酸，或少于850个氨基酸，或少于800个氨基酸，或少于75 0个氨基酸，或少于700个氨基酸，或少于650个氨基酸，或少于600个氨基酸，或少于550个氨基酸，或少于500个氨基酸，但至少大于约400个氨基酸并保留Cas9蛋白所需的功能。

在一个实施方案中，如实施例20所述，本说明书包括以下断裂内含肽PE构建体，其在经典SpCas9(SEQ ID NO:18)的残基1024和1025之间断裂(或相对于Met减SEQ ID NO:18，其可被分别称为残基1023和1024)。

首先，SEQ ID NO:18的氨基酸序列如下所示，表明1024("K")和1025("S")残基之间断裂位点的位置：

在此配置中，N端半部的氨基酸序列(氨基酸1-1024)如下:

MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAK(SEQ ID NO:3877).

在此配置中，N端半部(其中蛋白在位点1减Met)的氨基酸序列(氨基酸1-1023)如下：

DKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAK(SEQ ID NO:3878).

在此配置中，C端半部的氨基酸序列(氨基酸1024-1368(或在减Met Cas9中计数为氨基酸1023-1367)如下：

SEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD(SEQ ID NO:3879)

如实施例20所示，PE2(基于SEQ ID NO:18的SpCas9)构建体在位点1023/1024(相对于减Met SEQ ID NO:18)处断裂成两个独立的构建体，如下：

SpPE2在1023/1024N端半部处断裂

解释：NLS,

NpuC内含肽,RT

SpPE2在1023/1024C端部分处断裂

解释：NLS,

NpuC内含肽,RT

本公开还考虑将断裂内含肽引导编辑器递送至细胞和/或利用断裂内含肽引导编辑器处理细胞的方法。

(c)将第一和第二表达载体递送至细胞，

其中N-端和C-端片段由于反式剪接活性导致第一和第二断裂内含肽序列的自我切除而在细胞中重新组成PE融合蛋白。

在某些实施方案中，融合至第一断裂内含肽序列的PE融合蛋白的N-端片段为SEQID NO:3875，或与SEQ ID NO:3875具有至少80％、至少85％、至少90％、至少95％、至少98％、或至少99.9％序列同一性的氨基酸序列。

在其他实施方案中，融合至第一断裂内含肽序列的PE融合蛋白的C-端片段为SEQID NO:3876，或与SEQ ID NO:3876具有至少80％、至少85％、至少90％、至少95％、至少98％、或至少99.9％序列同一性的氨基酸序列。

在其他实施方案中，本公开提供了在细胞内编辑靶DNA序列的方法，其包括：

(b)构建第二表达载体，其编码与第二断裂内含肽序列融合的PE融合蛋白的C-端片段；

(c)将第一和第二表达载体递送至细胞，

PE核糖核蛋白复合物的递送

在这方面，引导编辑器可通过非病毒递送策略递送，包括通过各种方法递送与PEgRNA复合的引导编辑器(即，PE核糖核蛋白复合物)，包括电穿孔和脂质纳米颗粒。核酸的非病毒递送方法包括脂质转染、核转染、显微注射、基因枪、病毒体、脂质体、免疫脂质体、聚阳离子或脂质:核酸缀合物、裸DNA、人工病毒体和试剂增强的DNA摄取。脂质转染描述于如美国专利号5,049,386、4,946,787和4,897,355中)，脂质转染试剂是可商购获得的(如，Transfectam^TM和Lipofectin^TM)。适用于多核苷酸的有效受体识别脂质转染的阳离子和中性脂质包括Feigner，WO91/17424；WO91/16024中的那些。可递送至细胞(如，体外或离体施用)或靶组织(如，体内施用)。

制备脂质:核酸复合物，包括靶向脂质体如免疫脂质复合物是本领域技术人员所熟知的(参见，例如，Crystal,Science 270:404-410(1995)；Blaese et al.,Cancer GeneTher.2:291-297(1995)；Behr et al.,Bioconjugate Chem.5:382-389(1994)；Remy etal.,Bioconjugate Chem.5:647-654(1994)；Gao et al.,Gene Therapy 2:710-722(1995)；Ahmad et al.,Cancer Res.52:4817-4820(1992)；美国专利号4,186,183,4,217,344,4,235,871,4,261,975,4,485,054,4,501,728,4,774,085,4,837,028和4,946,787)。

可参考以下讨论非病毒递送核糖核蛋白复合物的方法的参考文献，其各自通过引用并入本文。

Chen,Sean,et al."Highly efficient mouse genome editing by CRISPRribonucleoprotein electroporation of zygotes."Journal of Biological Chemistry(2016):jbc-M116.PubMed

Zuris,John A.,et al."Cationic lipid-mediated delivery of proteinsenables efficient protein-based genome editing in vitro and in vivo."Naturebiotechnology 33.1(2015):73.PubMed

Rouet,Romain,et al."受体-Mediated Delivery of CRISPR-Cas9Endonuclease for Cell-Type-Specific Gene Editing."Journal of the AmericanChemical Society 140.21(2018):6596-6603.PubMed.

图68C提供的数据显示可以这种方式递送各种公开的PE核糖核蛋白复合物(PE2在高浓度下、PE3在高浓度下和PE3在低浓度下)。

通过mRNA递送PE

可用于将引导编辑器和/或PEgRNA递送至需要基于引导编辑的基因组编辑的细胞的另一种方法是通过使用信使RNA(mRNA)递送方法和技术。可在本公开中利用的mRNA递送方法和组合物的示例包括，例如PCT/US2014/028330、US8822663B2、NZ700688A、ES2740248T3、EP2755693A4、EP2755986A4、WO2014152940A1、EP3450553B1、BR112016030852A2和EP3362461A1，其各自通过引用以其整体并入本文。通过引用在此并入的其他公开见于Kowalski et al.,“Delivering the Messenger:Advances inTechnologies for Therapeutic mRNA Delivery,”Mol Therap.,2019；27(4):710-728。

与编码引导编辑器的DNA载体相反，使用RNA作为引导编辑器的递送剂具有遗传物质不必进入细胞核来执行其功能的优点。递送的mRNA可在细胞质中直接翻译成期望的蛋白(如，引导编辑器融合蛋白)和核酸产物(如，PEgRNA)。然而，为了更稳定(如，抵抗细胞质中的RNA降解酶)，在一些实施方案中使mRNA稳定以提高递送效率是必需的。某些递送载体(如，阳离子脂质或聚合物递送载体)还可帮助保护转染的mRNA免受内源性RNase酶的影响，否则内源性RNase酶可能会降解编码期望的引导编辑器融合蛋白的治疗性mRNA。此外，尽管经修饰的mRNA的稳定性增加，但将mRNA(特别是编码全长蛋白的mRNA)在体内以允许治疗水平的蛋白产生的方式递送至细胞仍然是挑战。

除了一些例外，mRNA的细胞内递送通常比小的寡核苷酸的细胞内递送更具挑战性，并且它需要封装到递送纳米颗粒中，部分原因是与其他类型的RNA(小干扰RNA[siRNA]，约14kDa；反义寡核苷酸[ASO]，4-10kDa)相比，mRNA分子的尺寸明显更大(300-5,000kDa，约1–15kb)。

mRNA必须穿过细胞膜才能到达细胞质。细胞膜是细胞内递送的动态且强大的屏障。它主要由两性离子和带负电荷的磷脂的脂质双层组成，其中磷脂的极性头部指向水性环境，疏水尾部形成疏水核。

在一些实施方案中，本公开的mRNA组合物包含mRNA(编码引导编辑器和/或PEgRNA)、转运载体和任选的促进与靶细胞接触和随后转染的试剂。

在一些实施方案中，mRNA可包括一种或多种赋予mRNA稳定性的修饰(如，与mRNA的野生型或天然版本相比)，并且涉及相关的蛋白异常表达。还可包括对野生型进行校正缺陷的一种或多种修饰。例如，本发明的核酸可包括对5'非翻译区或3'非翻译区之一或两者的修饰。此类修饰可包括包含编码巨细胞病毒(CMV)立即早期1(IE1)基因、poly A尾、Cap1结构或人生长激素(hGH)的部分序列的序列。在一些实施方案中，mRNA经修饰以降低mRNA免疫原性。

在一个实施方案中，本发明的组合物中的“引导编辑器”mRNA可在脂质体转移载体中配制以促进递送至靶细胞。考虑的转移载体可包括一种或多种阳离子脂质、非阳离子脂质和/或PEG修饰的脂质。例如，转移载体可包括以下阳离子脂质中的至少一种：C12-200、DLin-KC2-DMA、DODAP、HGT4003、ICE、HGT5000或HGT5001。在实施方案中，转移载体包括胆固醇(chol)和/或PEG修饰的脂质。在一些实施方案中，转移载体包括DMG-PEG2K。在某些实施方案中，转移载体具有以下脂质制剂：C12-200、DOPE、chol、DMG-PEG2K；DODAP、DOPE、胆固醇、DMG-PEG2K；HGT5000、DOPE、chol、DMG-PEG2K、HGT5001、DOPE、chol、DMG-PEG2K之一。

本公开还提供了用于促进利用一种或多种编码PE的mRNA分子转染靶细胞的组合物和方法。例如，本发明的组合物和方法考虑使用可增加组合物对一种或多种靶细胞的亲和力的靶向配体。在一个实施方案中，靶向配体为载脂蛋白B或载脂蛋白E，对应的靶细胞表达低密度脂蛋白受体，从而促进靶向配体的识别。使用本公开的方法和组合物可优先靶向大量靶细胞。例如，考虑的靶细胞包括肝细胞、上皮细胞、造血细胞、上皮细胞、内皮细胞、肺细胞、骨细胞、干细胞、间充质细胞、神经细胞、心脏细胞、脂肪细胞、血管平滑肌包括细胞、心肌细胞、骨骼细胞肌细胞、β细胞、垂体细胞、滑膜衬里细胞、卵巢细胞、睾丸细胞、成纤维细胞、B细胞、T细胞、网织红细胞、白细胞、粒细胞和肿瘤细胞。然而，不限于这些。

在一些实施方案中，编码PE的mRNA可任选地具有化学或生物修饰，例如，提高此类mRNA的稳定性和/或半衰期，或者提高或以其他方式促进蛋白生产。转染后，本发明组合物中的天然mRNA可以30分钟至数天的半衰期衰变。本公开的组合物中的mRNA可保留至少一些被翻译的能力，从而产生功能性蛋白或酶。因此，本发明提供了包含稳定化mRNA的组合物及其施用方法。在一些实施方案中，mRNA的活性在延长的时间段内延长。例如，可延长mRNA的活性，使得本公开的组合物每半周或每两周，或更优选地每月、每两月、每季度或以年为基础向受试者施用。本发明的mRNA扩展或延长的活性与由这种mRNA产生的蛋白或酶的量直接相关。类似地，本公开组合物的活性可通过进行改善或增强mRNA翻译的修饰而进一步扩展或延长。此外，靶细胞产生的功能性蛋白或酶的数量是递送至靶细胞的mRNA数量和此类mRNA的稳定性的函数。本发明的mRNA的稳定性在一定程度上可得到改善或增强，可进一步扩展半衰期、产生的蛋白或酶的活性以及组合物的给药频率。

因此，在一些实施方案中，本公开组合物中的mRNA包含至少一种修饰，其赋予核酸增加或增强的稳定性，包括例如改善对体内核酸酶消化的抗性。如本文所用，术语“修饰”和“经修饰的”作为涉及本文提供的核酸的这类术语，包括优选增强稳定性并使mRNA比野生型或天然存在的mRNA版本更稳定的至少一种改变(如，对核酸酶消化的抗性)。如本文所用，术语“稳定的”和“稳定性”作为涉及本发明的核酸，特别是mRNA的这类术语，是指增加或增强对如通常能够降解这类mRNA的核酸酶(即，核酸内切酶或核酸外切酶)的降解的抗性。增加的稳定性可包括，例如，对内源性酶(如，核酸内切酶或核酸外切酶)或者靶细胞或组织内的条件的水解或其他破坏的敏感性降低，从而增加或增强这类mRNA在靶细胞、组织、受试者和/或细胞质中的驻留。本文提供的稳定的mRNA分子表现出相对于它们天然存在的未经修饰的对应物(如，mRNA的野生型版本)更长的半衰期。术语“修饰”和“经修饰的”作为涉及本发明的mRNA的这类术语，还涵盖改善或增强mRNA核酸翻译的改变，包括例如包含在蛋白翻译起始中作用的序列(例如，Kozak共有序列)(Kozak,M.,Nucleic Acids Res 15(20):8125-48(1987))。

在一些实施方案中，用于本公开组合物中的mRNA经化学或生物修饰以使它们更稳定。对mRNA的示例性修饰包括碱基的耗尽(如，通过缺失或通过一个核苷酸取代另一个核苷酸)或碱基修饰，例如碱基的化学修饰。本文使用的短语“化学修饰”包括引入不同于天然存在的mRNA中看到的那些的化学性质的修饰，例如，共价修饰，如引入经修饰的核苷酸(如，核苷酸类似物，或包含在这类mRNA分子中并非天然存在的侧基)。

可并入本公开组合物中使用的编码PE的mRNA中的其他合适的多核苷酸修饰包括但不限于4'-硫代修饰的碱基：4'-硫代-腺苷、4'-硫代-鸟苷、4'-硫代-胞苷、4'-硫代-尿苷、4'-硫代-5-甲基-胞苷、4'-硫代-假尿苷和4'-硫代-2-硫代尿苷、吡啶-4-核糖核苷、5-氮杂-尿苷、2-硫代-5-氮杂-尿苷、2-硫代尿苷、4-硫代-假尿苷、2-硫代-假尿苷、5-羟基尿苷、3-甲基尿苷、5-羧甲基-尿苷、1-羧甲基-伪尿苷、5-丙炔基-尿苷、1-丙炔基-伪尿苷、5-牛磺酸甲基尿苷、1-牛磺酸甲基-伪尿苷、5-牛磺酸甲基-2-硫代尿苷、1-牛磺酸甲基-4-硫代尿苷、5-甲基-尿苷、1-甲基-假尿苷、4-硫代-1-甲基-假尿苷、2-硫代-1-甲基-假尿苷、1-甲基-1-脱氮-假尿苷、2-硫代-1-甲基-1-脱氮-假尿苷、二氢尿苷、二氢假尿苷、2-硫代二氢尿苷、2-硫代二氢假尿苷、2-甲氧基尿苷、2-甲氧基-4-硫代尿苷、4-甲氧基-假尿苷、4-甲氧基-2-硫代-假尿苷、5-氮杂-胞苷、假异胞苷、3-甲基-胞苷、N4-乙酰胞苷、5-甲酰胞苷、N4-甲基胞苷、5-羟甲基胞苷、1-甲基-假异胞苷、吡咯并-胞苷、吡咯--假异胞苷、2-硫代-胞苷、2-硫代-5-甲基-胞苷、4-硫代-假异胞苷、4-硫代-1-甲基-假异胞苷、4-硫代-1-甲基-1-de氮杂-假异胞苷、1-甲基-1-去氮杂-假异胞苷、泽布拉林(zebularine)、5-氮杂-泽布拉林、5-甲基-泽布拉林、5-氮杂-2-硫代-泽布拉林、2-硫代-泽布拉林、2-甲氧基-胞苷、2-甲氧基-5-甲基-胞苷、4-甲氧基-假异胞苷、4-甲氧基-1-甲基-假异胞苷、2-氨基嘌呤、2、6-二氨基嘌呤、7-去氮杂-腺嘌呤、7-去氮杂-8-氮杂-腺嘌呤、7-去氮杂-2-氨基嘌呤、7-去氮杂-8-氮杂-2-氨基嘌呤、7-去氮杂-2、6-二氨基嘌呤、7-去氮杂-8-氮杂-2、6-二氨基嘌呤、1-甲基腺苷、N6-甲基腺苷、N6-异戊烯基腺苷、N6-(顺式-羟基异戊烯基)腺苷、2-甲基硫代-N6-(顺式-羟基异戊烯基)腺苷、N6-甘氨酰氨基甲酰腺苷、N6-苏氨酰氨基甲酰腺苷、2-甲硫基-N6-苏氨酰氨基甲酰腺苷、N6、N6-二甲基腺苷、7-甲基腺嘌呤、2-甲硫腺嘌呤、2-甲硫腺嘌呤、肌苷、1-甲基肌苷、怀俄苷(wyosine)、怀丁苷(wybutosine)、7-去氮杂-鸟苷、7-去氮杂-8-氮杂-鸟苷、6-硫代-鸟苷、6-硫代-7-去氮杂-鸟苷、6-硫代-7-去氮杂-8-氮杂-鸟苷、7-甲基-鸟苷、6-硫代-7-甲基-鸟苷、7-甲基肌苷、6-甲氧基-鸟苷、1-甲基鸟苷、N2-甲基鸟苷、N2、N2-甲基鸟苷、8-氧代鸟苷、7-甲基-8-氧代鸟苷、1-甲基-6-硫代鸟苷、N2-甲基-6-硫代鸟苷和N2、N2-二甲基-6-硫代鸟苷、以及其组合。术语修饰还包括，例如，将非核苷酸键或经修饰的核苷酸掺入本发明的mRNA序列中(如，对编码功能性蛋白或酶的mRNA分子的3'和5'端之一或两者进行修饰)。此类修饰包括向mRNA序列添加碱基(如，包含poly A尾或更长的polyA尾)、3'UTR或5'UTR的改变、将mRNA与试剂(如、蛋白或互补核酸分子)复合，以及包含改变mRNA分子结构的元件(如，形成二级结构)。

在一些实施方案中，编码PE的mRNA包括5'帽结构。通常按如下添加5'帽：首先，RNA端磷酸酶从5'核苷酸中去除一个末端磷酸基团，留下两个末端磷酸基团；然后通过鸟苷酸转移酶将三磷酸鸟苷(GTP)添加到末端磷酸，产生5'5'5三磷酸键；然后鸟嘌呤的7-氮被甲基转移酶甲基化。帽结构的示例包括但不限于m7G(5')ppp(5'(A,G(5')ppp(5')A和G(5')ppp(5')G。天然存在的帽结构包括7-甲基鸟苷，它通过三磷酸桥接到首个转录的核苷酸的5'-端，产生m7G(5')ppp(5')N的二核苷酸帽，其中N是任何核苷。在体内，酶促加帽。加帽在细胞核内，由酶(鸟苷酸转移酶)催化。在转录起始后立即加帽到RNA的5'末端。末端核苷是通常是鸟苷，并且与所有其他核苷酸的方向相反，即G(5')ppp(5')GpNpNp。

其他帽类似物包括但不限于选自下组的化学结构：m7GpppG、m7GpppA、m7GpppC；未甲基化的帽类似物(如，GpppG)；二甲基化帽类似物(如，m2,7GpppG)、三甲基化帽类似物(如，m2,2,7GpppG)、二甲基化对称帽类似物(如，m7Gpppm7G)、或抗反向帽类似物(如，ARCA；m7,2'OmeGpppG，m72'dGpppG、m7,3'OmeGpppG、m7,3'dGpppG和它们的四磷酸衍生物)(参见，例如，Jemielity,J.et al.,"Novel'anti-reverse'cap analogs with superiortranslational properties",RNA,9:1108-1122(2003))。

通常，“尾”的存在用于保护mRNA免于核酸外切酶降解。认为Poly A或poly U尾可稳定天然信使和合成有义RNA。因此，在某些实施方案中，可向mRNA分子添加长poly A或poly U尾，从而使RNA更稳定。可使用本领域认可的技术添加Poly A或Poly U尾。例如，可使用Poly A聚合酶将长Poly A尾添加到合成或体外转录的RNA中(Yokoe,et al.NatureBiotechnology.1996；14:1252-1256)。转录载体也可编码长poly A尾。此外，可通过直接从PCR产物转录来添加poly A尾。Poly A也可用RNA连接酶连接到有义RNA的3'端(参见，例如，Molecular Cloning A Laboratory Manual,2nd Ed.,ed.by Sambrook,Fritsch andManiatis(Cold Spring Harbor Laboratory Press:1991版))。

通常，poly A或poly U尾的长度可为至少约10、50、100、200、300、400个、至少500个核苷酸。在一些实施方案中，mRNA3'端的poly A尾通常包括约10至300个腺苷核苷酸(如，约10至200个腺苷核苷酸、约10至150个腺苷核苷酸、约10至100个腺苷核苷酸、约20至70个腺苷核苷酸、或约20至60个腺苷核苷酸)。在一些实施方案中，mRNA包括3'poly(C)尾结构。mRNA的3'端上合适的poly-C尾通常包括约10至200个胞嘧啶核苷酸(如，约10至150个胞嘧啶核苷酸、约10至100个胞嘧啶核苷酸、约20至70个胞嘧啶核苷酸、约20至60个胞嘧啶核苷酸、或约10至40个胞嘧啶核苷酸)。poly-C尾可添加到poly-A或poly U尾或可替换poly-A或poly-U尾。

根据本公开的编码PE的mRNA可根据多种已知方法中的任一种合成。例如，本发明的mRNA可通过体外转录(IVT)合成。简言之，IVT通常使用包含启动子的线性或环状DNA模板、三磷酸核糖核苷酸池、可包含DTT和镁离子的缓冲系统以及合适的RNA聚合酶(如，T3、T7或SP6RNA聚合酶)、DNAse I、焦磷酸酶和/或RNAse抑制剂进行。确切的条件将根据具体应用而不同。

在涉及mRNA递送的实施方案中，编码PE融合蛋白的mRNA与PEgRNA的比率对于有效编辑可能是重要的。在某些实施方案中，mRNA(编码PE融合蛋白)与PEgRNA的重量比为1:1。在某些其他实施方案中，mRNA(编码PE融合蛋白)与PEgRNA的重量比为2:1。在其他实施方案中，mRNA(编码PE融合蛋白)与PEgRNA的重量比为1:2。在更进一步的实施方案中，mRNA(编码PE融合蛋白)与PEgRNA的重量比选自：约1:1000、1:900、1:800、1:700、1:600、1:500、1:400、1:300、1:200、1:100、1:90、1:80、1:70、1:60、1:50、1:40、1:30、1:20、1:10、和1:1。在其他实施方案中，mRNA(编码PE融合蛋白)与PEgRNA的重量比选自：约1:1000、1:900、800:1、700:1、600:1、500:1、400:1、300:1、200:1、100:1、90:1、80:1、70:1、60:1、50:1、40:1、30:1、20:1、10:1、和1:1。

J.引导编辑以无偏倚的方式鉴定脱靶编辑的应用

与其他基因组编辑器一样，存在一些风险，即PE可能会在基因组周围的非预期位点(即，“脱靶”位点)引入其编程的基因变化。然而，目前尚未描述利用引导编辑器检测脱靶编辑的方法。这类方法将允许使用引导编辑器识别潜在的脱靶编辑位点。

该方面的关键概念是使用引导编辑在中靶和脱靶位点处插入从同一PEgRNA模板化的相同衔接子序列和/或引物结合位点，从而能够快速识别napDNAbp核酸酶或引导编辑器的基因组脱靶修饰位点。这种方法与其他识别核酸酶脱靶位点的技术不同，因为在DNA结合和由napDNAbp产生切口的同一事件中插入衔接子和/或引物结合序列，从而简化了下游加工。

图33阐明脱靶识别的基本原理。该图是示出使用引导编辑确定脱靶编辑用于引物结合序列插入和引物结合插入基因组DNA的PEgRNA设计的示意图。在该实施方案中，在活细胞、组织或动物模型内进行引导编辑。第一步，设计合适的PEgRNA。上方示意图显示可用于该方面的示例性PEgRNA。PEgRNA中的间隔区(标记为“原间隔区”)与基因组靶标的一条链互补。PE:PEgRNA复合物(即，PE复合物)在切口位点安装单链3′端瓣，其包含编码的引物结合序列和同源区域(由PEgRNA的同源臂编码)，该区域正好与切割位点下游的区域(红色)互补。通过瓣侵入和DNA修复/复制过程，合成的链被掺入DNA中，从而安装引物结合位点。这个过程可发生在期望的基因组靶标处，也可发生在可能以脱靶方式与PEgRNA相互作用的其他基因组位点处(即，由于间隔区区域与非期望的基因组位点的其他基因组位点的互补性，PEgRNA将PE复合物引导至其他脱靶位点)。因此，引物结合序列不仅可安装在期望的基因组靶标处，还可能安装在基因组其他地方的脱靶基因组位点。为了检测这些引物结合位点在期望的基因组靶位点和脱靶基因组位点的插入，基因组DNA(PE后)可被分离、片段化并连接至衔接子核苷酸(以红色显示)。接着，可利用与衔接子和插入的引物结合序列退火的PCR寡核苷酸进行PCR，以将中靶和脱靶基因组DNA区域扩增至由PE插入的引物结合位点。然后可进行高通量测序和序列比对，以确定PE插入的引物结合序列在中靶位点或脱靶位点处的插入点。

因此，图33显示关于在活细胞内、组织培养或动物模型中编辑时识别脱靶编辑位点的一方面。为实施此方法，生成的PEgRNA与最终期望的引导编辑器具有相同的间隔区(并且，如果考虑引导编辑脱靶，则引物结合位点序列与最终期望编辑器相同)，但包括通过引导编辑进行逆转录后安装衔接子或引物结合位点的必要序列。体内编辑使用引导编辑器或RT融合核酸酶进行，并分离基因组DNA。基因组DNA通过酶促或机械方式进行片段化，并将不同的衔接子附加到DNA片段化位点。将PCR用于从一个衔接子扩增到通过PEgRNA安装的衔接子。所得的的产物经过深度测序以识别所有经修饰的位点。

另一方面，可在体外进行PE脱靶编辑的评估。在这方面，PE可用于基因组DNA的体外修饰期间，使用基因组DNA的体外修饰识别脱靶编辑位点。为了实施该方法，将纯化的引导编辑器融合蛋白的核糖核蛋白(RNP)和PEgRNA(即，PE复合物)组装在一起，配置为中靶位点处安装衔接子或引物结合序列，但在其他方面与感兴趣的PEgRNA相同。该RNP(即，PE复合物)在DNA片段化之前或之后与提取的基因组DNA一起温育。片段化后，将不同的衔接子序列连接至片段DNA的末端。将PCR用于扩增那些跨越插入的衔接子序列(即，由EP插入)和连接到片段末端的衔接子的基因组位点。衔接子序列之间的高通量测序可识别中靶和脱靶的基因组修饰位点。这种体外编辑方法应当提高检测的灵敏度，因为细胞DNA修复不会消除由引导编辑器添加的逆转录DNA衔接子。

这些方法可用于识别任何引导编辑器或使用向导RNA识别靶切割位点(大多数Cas核酸酶)的任何基因组编辑器的脱靶编辑。

这些方法可应用于考虑使用基因组编辑器进行治疗的所有遗传性疾病。

可由PE安装的示例性衔接子和/或引物结合序列包括但不限于：

衔接子1	5′-CGGTGGACCGATGATCT-3′(SEQ ID NO:177)
		衔接子2	5′-GCCACCTGGCTACTAGA-3′(SEQ ID NO:178)
衔接子3	5′-AGATCATCGGTCCACCG-3′(SEQ ID NO:179)
		衔接子4	5′-TCTAGTAGCCAGGTGGC-3′(SEQ ID NO:180)

这些衔接子和/或引物结合序列也可用于上述基因组DNA片段化之后的连接步骤。

说明使用本文所述方法评估脱靶编辑及其编辑靶基因座的示例性PEgRNA设计如下：

K.引导编辑在插入可诱导二聚化结构域中的应用

本文所述的引导编辑器还可用于将二聚化结构域安装到一个或多个蛋白靶标中。二聚化结构域可通过以双特异性方式结合的连接部分(如，小分子、肽或蛋白)促进与一个或多个蛋白靶标的二聚化相关的活性的诱导调节。在不同方面，安装在不同蛋白(如，相同类型或不同蛋白)上时，二聚化结构域各自结合相同的双特异性部分(如，具有至少两个区域分别与二聚化结构域结合的双特异性小分子、肽或多肽)，从而通过蛋白与双特异性配体的共同相互作用引起蛋白的二聚化。以这种方式，双特异性配体充当两个蛋白二聚化的“诱导剂”。在一些情况下，双特异性配体或化合物将具有两个相同的靶向部分。在其他实施方案中，双特异性配体或化合物将具有彼此不同的靶向部分。具有相同的两个靶向部分的双特异性配体或化合物将能够靶向安装在不同蛋白靶标上的相同二聚化结构域。具有不同靶向部分的双特异性配体或化合物将能够靶向安装在不同蛋白靶标上的不同二聚化结构域。

如本文所用，术语“二聚化结构域”是指与双特异性配体的结合部分结合的配体结合结构域。“第一”二聚化结构域结合双特异性配体的第一结合部分，“第二”二聚化结构域结合同一双特异性配体的第二结合部分。当第一二聚化结构域与第一蛋白融合(如，通过PE，如本文所讨论)并且第二二聚化结构域与第二蛋白融合(如，通过PE，如本文所讨论)时，第一和第二蛋白在双特异性配体存在下二聚化，其中所述双特异性配体具有与第一二聚化结构域结合的至少一个部分和与第二二聚化结构域结合的至少另一个部分。

如本文所用，术语“双特异性配体”或“双特异性部分”是指结合两个不同配体结合结构域的配体。在不同实施方案中，双特异性部分本身是二聚体两个相同或两个不同的化学部分，其中每个部分与二聚化结构域特异性且紧密结合。在某些实施方案中，配体是小分子化合物、肽或多肽。在其他实施方案中，配体结合结构域是“二聚化结构域”，其可作为肽标签安装到蛋白上。在不同实施方案中，可通过每个二聚化结构域与双特异性配体的结合来诱导各自包含相同或不同二聚化结构域的两个蛋白二聚化。这些分子也可被称为“二聚化化学诱导物”或CID。此外，双特异性配体可通过将两个相同部分或两个不同部分结合(如，通过标准化的化学键)来制备，其中每个部分紧密且特异性地结合到二聚化结构域。

在不同方面，PE安装的二聚化结构域可以相同或不同。

例如，二聚化结构域可以是FKBP12，其具有以下氨基酸序列：

在另一个示例中，二聚化结构域可为FKBP12的突变体，被称为FKBP12-F36V，FKBP12的突变体具有结合合成凸起的FK506模拟物的工程化孔(2，图3)¹⁰⁷：

在另一个示例中，二聚化结构域可为亲环蛋白，如下：

在不同实施方案中，可改变这些二聚化结构域的氨基酸序列以优化结合或改善与天然靶标的结合正交性。可改变编码小分子结合蛋白的基因的核酸序列以优化PE加工的效率，例如通过减少PEgRNA二级结构。

合适的二聚化结构域和与其结合的同源小分子化合物的其他示例提供如下。注意，同源小分子化合物可结合(如，通过化学接头)至第二小分子化合物(相同的化合物或不同的化合物)，以形成可结合两个二聚化结构域的双特异性配体。在一些情况下，例如FK506和环孢菌素A，各自的二聚化(如，FK506-FK506或环孢菌素A-环孢菌素A)降低或消除单体化合物的免疫抑制活性。

其他天然存在的双功能分子及其双靶标受体的示例如下。引导编辑可用于将双靶受体安装到不同的蛋白中。一旦不同的蛋白由PE修饰成含有双功能分子受体，该双功能分子就可能被引入，从而导致蛋白二聚化修饰为包含不同的二聚化结构域。(1)生物功能分子和(2)它们的双靶受体的配对示例：

可与这方面引导编辑使用的其他双功能分子的示例如下：Synstab A:

紫杉醇:

Discodermolide:

GNE-0011

ARV-825，以及

dBET1

Synstab A、紫杉醇和discodermolide是微管稳定剂。因此，这些化合物可用于使经PE修饰的蛋白二聚化以包含微管蛋白。GNE-0011、ARV-825和dBET1包含BRD4结合基序和CRBN结合基序。因此，这些化合物可用于使经PE修饰的蛋白二聚化以包含这些靶向结构域。

用于安装二聚化结构域的PEgRNA可包含以下结构(参考图3D):

5′-[间隔区]-[gRNA核心]-[延伸臂]-3′，其中延伸臂包含5′-[同源臂]-[编辑模板]-[引物结合位点]-3′；或

5′-[延伸臂]-[间隔区]-[gRNA核心]-3′，其中延伸臂包含5′-[同源臂]-[编辑模板]-[引物结合位点]-3′，并且其中任一构造“编辑模板”包含二聚化结构域的核苷酸序列。

在一个示例中，用于在人胰岛素受体的C端插入FKBP12二聚化结构域的PEgRNA(间隔区加下划线，gRNA核心为正常文本，瓣同源性为粗体，FKBP12插入为斜体，退火区为粗斜体)：

在另一个示例中，用于在HEK3基因座插入FKBP12二聚化结构域的PEgRNA(用于优化):

用于安装二聚化结构域的靶蛋白没有特别限制；然而，在双特异性配体存在下，它们的二聚化(一旦经PE修饰)产生一些有利的生物学效应是有利的，例如，信号通路、降低的免疫反应性等。在不同方面，待通过PE依赖性安装二聚化结构域进行二聚化的靶蛋白可以是相同的蛋白或不同的蛋白。优选地，蛋白在二聚化时触发一个或多个下游生物级联，例如信号传导级联、磷酸化等。可将PE用于安装二聚化结构域的示例性靶蛋白包括但不限于：

一方面，本文所述的引导编辑器可用于将编码二聚化结构域的序列安装到活细胞或患者的一个或多个编码感兴趣的靶蛋白的基因中。这可被称为“引导编辑-CID系统”，其中CID是诱导靶蛋白二聚化的双特异性配体，各自与由PE安装的二聚化结构域融合。单独的这种编辑应当没有生理影响。施用双特异性配体后，双特异性配体通常是可同时结合两个二聚化结构域的二聚体小分子，每个二聚化结构域都与靶蛋白的拷贝融合，双特异性配体引起靶向蛋白的二聚化。该靶蛋白二聚化事件后诱导生物信号传导事件，例如红细胞生成或胰岛素信号。本文描述了在常规小分子药物(即，双特异性配体)的控制下，利用基因编辑通过基因组整合编码小分子结合蛋白(即，二聚化结构域)的基因来放置诱导二聚化生物过程(如，受体信号传导)的新方法。

蛋白二聚化是普遍存在的生物过程。注意，已知许多膜结合受体的同源二聚化会引发信号级联反应，通常会产生深远的生物学后果。许多经批准用作药物的小分子天然产物因其作用机制的一部分充当蛋白二聚化的化学诱导物⁹²。例如，FK506与FKBP12紧密结合，产生的小分子-蛋白复合物与磷酸酶钙神经素结合，从而抑制T细胞受体信号传导的一个步骤⁹³。同样，环孢菌素A诱导亲环蛋白和钙神经素的二聚化，雷帕霉素诱导FKBP和mTOR的二聚化^93,94。

在一个实施方案中，利用FK506:FKBP12和环孢菌素A:亲环蛋白小分子:蛋白结合相互作用的选择性高亲和力结合，还开发了合成的二聚化化学诱导物。在示例中，当信号传导受体的胞质结构域用FKBP12标记时，由两个FK506单元组成的小分子(被称为FK1012)显示影响信号转导⁹⁵。已将二聚化化学诱导物(CID)用于控制许多信号传导通路^96-103。

虽然是研究生物过程的有用工具，但用于治疗应用的合成CID面临的一个挑战是将FKBP12-或亲环蛋白-靶蛋白嵌合体引入患者具有挑战性。

本公开将两个概念结合在一起形成以前无法达到的治疗过程。第一个概念是本文所述引导编辑，其允许在活细胞中进行精确的基因组编辑，包括靶向插入。第二个概念是化学诱导的二聚化，这是使小分子能够控制细胞培养中的信号传导和寡聚化过程的强大工具。

已确定对蛋白二聚化的化学控制可能具有有益的治疗效果的特定情况。

胰岛素受体是异四聚体跨膜蛋白，其通过胞质激酶结构域的磷酸化响应于胰岛素与胞外结构域的结合¹⁰⁴。工程化嵌合蛋白由膜定位组件、胰岛素受体的C端激酶结构域和三个拷贝的FKBP12组成，在细胞培养中响应于FK1012并启动胰岛素反应⁹⁹。同样，预期FKBP12与患者细胞中天然胰岛素受体激酶结构域的C末端融合应当允许用于FK1012依赖性磷酸化和启动胰岛素信号传导级联。该系统可在不能制造胰岛素的患者(如，1型糖尿病患者)或对胰岛素反应较弱的患者(如，2型糖尿病患者)中替代或补充胰岛素使用。

此外，促红细胞生成素通过与促红细胞生成素受体(EpoR)结合来刺激红细胞增殖，诱导预先形成的受体二聚体的二聚化或构象变化，从而导致激活Jak/STAT信号级联¹⁰⁵。已证明FK1012诱导的用FKBP12标记的EpoR膜锚定胞质结构域的寡聚化足以启动信号传导Jak/STAT信号级联并促进细胞增殖¹⁰⁶。预计通过在患者细胞中进行引导编辑将FKBP12与天然EpoR融合允许FK1012诱导的控制红细胞增殖(红细胞生成)。可将该系统用于触发贫血患者的红细胞生长。FK1012诱导型EpoR也可用作已经历离体工程的血细胞的体内可选择标志物。

原则上，任何受体酪氨酸激酶都可能是引导编辑CID治疗的可行靶标。

下表包括人类基因组中所有受体酪氨酸激酶的列表¹¹⁰。

引导编辑-CID系统有许多优点。一个这样的优点是它可用药物样小分子代替内源性配体，这些内源性配体通常是在制造、成本、递送、生产或储存时并发的蛋白，药物样小分子可口服施用，而不是IV或注射施用，很容易用FDA批准的药物制备(或本身已经是药物)，并且不会产生通常与蛋白药物相关的特殊生产或储存成本。另一个优点是单独的编辑应当没有生理影响。可通过给药小分子CID来控制靶蛋白二聚化的量。此外，通过添加单体形式的CID，靶蛋白二聚化易于快速地逆转。另一个优点是，在单个配体靶向多个受体的情况下，可通过仅对一个受体进行引导编辑来实现选择性。最后，根据用于引导编辑的递送方法，还可将编辑限制在局部组织或器官，只允许在特定区域进行诱导受体激活。

如果利用引导编辑的编辑效率足够高，两个单独的编辑事件可在高水平发生，那么也有可能利用不同的小分子结合结构域(如，FKBP和亲环蛋白)标记两种感兴趣的蛋白并诱导与小分子异源二聚体的异源二聚化(如，FK506-环孢菌素A二聚物)。

FKBP12或其他小分子结合蛋白与天然蛋白的融合通常是通过组织培养中的质粒过表达来完成的。已证明随后的化学诱导二聚化会诱导产生融合蛋白的细胞发生表型变化。

在上文G部分中引用以下参考文献并且通过引用并入本文。

1.Crabtree,G.R.&Schreiber,S.L.Three-part inventions:intracellularsignaling and induced proximity.Trends Biochem.Sci.21,418–22(1996).

2.Liu,J.et al.Calcineurin Is a Common Target of A and FKBP-FK506Complexes.Cell 66,807–815(1991).

3.Keith,C.T.et al.A mammalian protein targeted by G1-arrestingrapamycin–receptor complex.Nature 369,756–758(2003).

4.Spencer,D.M.,Wandless,T.J.,Schreiber,S.L.S.&Crabtree,G.R.Controlling signal transduction with synthetic ligands.Science 262,1019–24(1993).

5.Pruschy,M.N.et al.Mechanistic studies of a signaling pathwayactivated by the organic dimerizer FK1012.Chem.Biol.1,163–172(1994).

6.Spencer,D.M.et al.Functional analysis of Fas signaling in vivousing synthetic inducers of dimerization.Curr.Biol.6,839–847(1996).

7.Belshaw,P.J.,Spencer,D.M.,Crabtree,G.R.&Schreiber,S.L.Controllingprogrammed cell death with a cyclophilin-cyclosporin-based chemical inducerof dimerization.Chem.Biol.3,731–738(1996).

8.Yang,J.X.,Symes,K.,Mercola,M.&Schreiber,S.L.Small-molecule controlof insulin and PDGF receptor signaling and the role of membraneattachment.Curr.Biol.8,11–18(1998).

9.Belshaw,P.J.,Ho,S.N.,Crabtree,G.R.&Schreiber,S.L.Controllingprotein association and subcellular localization with a synthetic ligand thatinduces heterodimerization of proteins.Proc.Natl.Acad.Sci.93,4604–4607(2002).

10.Stockwell,B.R.&Schreiber,S.L.Probing the role of homomeric andheteromeric receptor interactions in TGF-βsignaling using small moleculedimerizers.Curr.Biol.8,761–773(2004).

11.Spencer,D.M.,Graef,I.,Austin,D.J.,Schreiber,S.L.&Crabtree,G.R.Ageneral strategy for producing conditional alleles of Src-like tyrosinekinases.Proc.Natl.Acad.Sci.92,9805–9809(2006).

12.Holsinger,L.J.,Spencer,D.M.,Austin,D.J.,Schreiber,S.L.&Crabtree,G.R.Signal transduction in T lymphocytes using a conditional allele ofSos.Proc.Natl.Acad.Sci.92,9810–9814(2006).

13.Myers,M.G.Insulin Signal Transduction and the IRS Proteins.Annu.Rev.Pharmacol.Toxicol.36,615–658(1996).

14.Watowich,S.S.The erythropoietin receptor:Molecular structure andhematopoietic signaling pathways.J.Investig.Med.59,1067–1072(2011).

15.Blau,C.A.,Peterson,K.R.,Drachman,J.G.&Spencer,D.M.A proliferationswitch for genetically modified cells.Proc.Natl.Acad.Sci.94,3076–3081(2002).

16.Clackson,T.et al.Redesigning an FKBP-ligand interface to generatechemical dimerizers with novel specificity.Proc.Natl.Acad.Sci.95,10437–10442(1998).

17.Diver,S.T.&Schreiber,S.L.Single-step synthesis of cell-permeableprotein dimerizers that activate signal transduction and geneexpression.J.Am.Chem.Soc.119,5106–5109(1997).

18.Guo,Z.F.,Zhang,R.&Liang,F.Sen.Facile functionalization of FK506for biological studies by the thiol-ene‘click’reaction.RSC Adv.4,11400–11403(2014).

19.Robinson,D.R.,Wu,Y.-M.&Lin,S.-F.The protein tyrosine kinase familyof the human genome.Oncogene 19,5548–5557(2000).

L.引导编辑在细胞数据记录中的应用

还可将引导编辑器和产生的基因组修饰用于研究和记录细胞过程和发育。例如，可将本文所述的引导编辑器用于通过向细胞提供第一核酸序列和向细胞提供至少编码PEgRNA的第二核酸序列来记录对细胞的刺激的存在和持续时间，其中第一核酸序列编码具有核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的融合蛋白。第一、第二核酸序列或两者与响应于细胞刺激的诱导型启动子可操作地连接，从而诱导融合蛋白和/或PEgRNA的表达，导致细胞内靶序列的修饰。

还可将本文所述的引导编辑器用于细胞条形码和谱系追踪。例如，通过利用独特的基因组条形码对每个细胞进行条形码编码，引导编辑器可通过允许基于对一个或多个靶序列进行修饰构建系统发育树来帮助揭示细胞谱系图。从祖细胞开始，引导编辑器系统可为整个生物体的单细胞构建细胞命运图谱，其可通过分析在一个或多个靶序列中进行的修饰来破译。用于追踪细胞谱系的方法可包括提供编码具有napDNAbp和逆转录酶的融合蛋白的核酸，以及提供至少一个编码PEgRNA的第二核酸。使用融合蛋白和PEgRNA生成独特的细胞条形码，以在一个或多个靶序列中形成一个或多个修饰，从而允许使用独特的细胞条形码追踪源自第一个细胞的任何细胞的谱系。实施例13进一步描述了引导编辑器在细胞数据记录和谱系追踪中的应用。

引导编辑器可通过修饰基因组靶序列或整合的预先设计的序列来进行谱系追踪和细胞信号记录。引导编辑器使用合成的融合蛋白，其包含Cas9切口酶片段(包括但不限于SpCas9H840A变体)和逆转录酶结构域，以及工程化引导编辑向导RNA(PEgRNA)。这些组件共同靶向特定的基因组序列或整合的预先设计的序列，并安装预先确定的编辑。由于PEgRNA指定了靶基因组序列和编辑结果，因此可在同一细胞内使用多个PEgRNA同时实现高度特异且受控的基因组修饰。可使用的基因组修饰包括所有单核苷酸取代、中小型序列插入和中小型缺失。这种基因组编辑技术的多功能性可在细胞内实现时间耦合的信号特异性记录。

引导编辑器在细胞数据记录中的应用可包括用于在细胞的生命周期中记录内源性或外源性刺激的强度和/或持续时间的组合物(如，核酸)、细胞、系统、试剂盒和方法。细胞数据记录系统可包括由napDNAbp(如，Cas9结构域)和与启动子可操作连接的逆转录酶组成的融合蛋白，该启动子诱导响应于细胞中的刺激或变化的融合蛋白表达，以通过形成靶向且序列特异性基因组插入、缺失或突变来诱导变化。与以两种不同状态之一(即，“开”或“关”)的存储信息(如，刺激的存在或不存在)的数字存储设备相比，这些细胞数据记录器可在细胞DNA中以反映一个或多个刺激的强度(即，振幅)和持续时间的方式诱导永久性标记。因此，在某些方面，细胞数据记录系统具有同时记录多种细胞状态的能力，包括例如暴露于小分子、蛋白、肽、氨基酸、代谢物、无机分子、有机金属分子、有机分子、药物或候选药物、糖、脂质、金属、核酸、内源性或外源性信号传导级联激活过程中产生的分子、光、热、声音、压力、机械应力、剪应力、病毒或其他微生物。这些细胞数据记录器可采用测序技术(如，高通量测序)来测量读出(如，细胞DNA的变化)，并且不依赖于大的细胞群来记录刺激或由刺激诱导的细胞DNA中的读出变化。

一般地，本文提供的用于细胞的细胞数据记录器系统包括融合蛋白，其由napDNAbp和逆转录酶组成，其中编码融合质粒的核酸序列可操作地连接至启动子(如，诱导型启动子或组成型启动子)。当存在刺激或细胞状态改变时，刺激诱导融合蛋白的表达。细胞内还存在一个或多个编码至少一种PEgRNA的核酸，其与napDNAbp相结合并将napDNAbp或融合蛋白引导至靶序列(即，PEgRNA与靶序列互补)。编码PEgRNA的核酸也可以或可替代地，可操作地连接至启动子(如，诱导型启动子或组成型启动子)。在正确的刺激或正确的一组刺激下，融合蛋白和PEgRNA都在细胞中表达，并且PEgRNA与融合蛋白结合以将其引导至靶序列。这个靶序列记录了引导编辑器的活动，从而记录了刺激或一组刺激的存在或者细胞状态的变化。细胞中也可存在不止一个PEgRNA序列，这些可将融合蛋白引导至不同靶序列的其他PEgRNA序列可各自可操作地连接启动子，该启动子感知不同刺激的存在，从而允许构建用于有序记录一个刺激或一组刺激的存在和持续时间的复杂细胞数据记录器系统。在一些情况下，细胞数据记录系统的一种或多种组件(如，融合蛋白和PEgRNA)可在细胞中组成型表达。本文描述了与组合物一起使用的细胞数据记录器系统的示例性组件。基于本公开和本领域的知识，本文提供的组件的其他合适组合对于本领域普通技术人员而言将是显而易见的，并且因此包含在本公开的范围内。

可将可通过靶向扩增子测序和/或RNA测序(这对于单细胞记录实验具有特殊价值)进行测序的DNA靶的重复修饰用于记录许多重要的生物过程，包括信号传导级联的激活、代谢状态和细胞分化程序。对于存在信号响应性启动子的任何信号，将内部和外部细胞信号与基因组中的序列修饰联系起来是可能的。在一些实施方案中，启动子是适用于原核系统的启动子(即，细菌启动子)。在一些实施方案中，启动子是适用于真核系统的启动子(即，真核启动子)。在一些实施方案中，启动子是适用于哺乳动物(如，人)系统的启动子(即，哺乳动物启动子)。在一些实施方案中，启动子由刺激物诱导(即，诱导型启动子)。在一些实施方案中，刺激物是小分子、蛋白、肽、氨基酸、代谢物、无机分子、有机金属分子、有机分子、药物或候选药物、糖、脂质、金属、核酸、在内源性或外源性信号传导级联激活过程中产生的分子、光、热、声、压力、机械应力、剪切应力或病毒或其他微生物、pH值变化或氧化/还原状态。在一些实施方案中，刺激物是光。在一些实施方案中，刺激物是病毒。在一些实施方案中，刺激物是小分子。在一些实施方案中，刺激物是抗生素。在一些实施方案中，刺激物是脱水四环素或强力霉素。在一些实施方案中，刺激物是糖。在一些实施方案中，刺激物是阿拉伯糖、鼠李糖或IPTG。在一些实施方案中，刺激物是在激活的信号传导级联过程中产生的信号分子(如，在激活的Wnt信号传导级联过程中产生的β-连环蛋白)。可产生检测信号分子的其他启动子来诱导与启动子可操作连接的核酸序列的表达，例如，记录内源性通路的启动子，包括免疫应答(IL-2启动子)、cAMP应答元件(CREB)、NFκB信号、干扰素反应、P53(DNA损伤)、Sox2、TGF-β信号(SMAD)、Erk(如，来自激活的Ras/Raf/Mek/Erk级联)、PI3K/AKT(如，来自激活的Ras/PI3K/Akt级联)、热休克、Notch信号、Oct4、芳烃受体或AP-1转录因子。在一些实施方案中，启动子是组成型启动子。在一些实施方案中，启动子是表3中列出的启动子。基于本公开和本领域的知识，用于原核和真核系统的其他合适的启动子对于本领域普通技术人员是显而易见的，并且在本公开的范围内。

还可将引导编辑器用于追踪细胞谱系。可将重复序列修饰用于生成独特的细胞条形码以追踪单个细胞。条形码阵列、它们的顺序和大小都可用来推断细胞谱系。例如，插入同源序列(即，Cas9切口位置3′的序列)，特别是具有相关条形码的同源序列，似乎是特别有用的谱系引导编辑器策略。可设计这些系统使得连续几轮编辑导致插入来自PEgRNA盒的条形码，该条形码不能被同一细胞中的其他PEgRNA编辑事件修改。条码系统可利用与给定刺激相关联的多个条形码。该系统可保留大部分靶原间隔区，但会改变种子序列、PAM和下游邻近核苷酸。这使得多个信号能够连接到一个编辑基因座，而无需对所使用的PEgRNA进行大量重新设计。该策略可使多个条形码插入能够响应于单个基因座处的大量细胞刺激(内部或外部)。它能够记录与存在独特条形码一样多的信号的强度、持续时间和顺序(可设计多个N个核苷酸生成4^N个可能的条形码，例如5-nt条形码同时可记录4^5或1024个独特信号)。该系统可用于体外和体内。

M.引导编辑在调节生物分子活性中的应用

本文所述的引导编辑器的应用还可用于调节生物分子(如，DNA、RNA和蛋白)的亚细胞定位和修饰状态。在细胞内的特定位置精心安排特定的生物学功能如转录控制、细胞代谢和信号转导级联。将蛋白运送到这些和其他独特的细胞区室的能力可提供改变许多生物过程的机会。

因此，可将引导编辑用于安装遗传编码的控键，其将允许改变修饰状态和具有遗传编码信号的生物分子(如，蛋白、脂质、糖和核酸)的亚细胞运输。在不同实施方案中，用于引导编辑器介导的药物的靶生物分子是DNA。例如，可通过安装许多改变靶基因座可及性的DNA序列来修饰DNA，这可能导致期望的序列的转录增加或减少。在其他实施方案中，引导编辑器介导的药物的靶生物分子是RNA。例如，可通过改变其细胞定位、相互作用的伴侣、结构动力学或折叠热力学来改变RNA的活性。在其他实施方案中，用于引导编辑器介导的药物的靶生物分子是蛋白。可修饰蛋白来影响翻译后修饰，可安装蛋白基序来改变蛋白的亚细胞定位，或可修饰蛋白来形成或破坏它们在蛋白-蛋白复合事件中存在的能力。

引导编辑的这种应用进一步描述于实施例14中。

DNA修饰

PE介导的修饰的一种靶生物分子是DNA。可对DNA进行修饰以安装许多改变靶基因座可及性的DNA序列。染色质可及性控制基因转录输出。安装标记以募集染色质压缩酶应当减少邻近基因的转录输出，而与染色质开放相关的序列的安装应当使区域更易于接近，继而增加转录。与目前可用的dCas9融合到不同的表观遗传读取器、写入器或清除器酶(通常安装可能没有特定的生物学前因的大量单一类型的标记的工具)相比，安装反映天然调控序列的更复杂的序列基序应当提供更细微且生物学更敏感的控制。安装将使两个基因座靠近或使基因座与核膜接触的序列，也应当改变那些基因座的转录输出，正如在新兴的3-D基因组结构领域中所证明的那样。

RNA修饰

还可通过改变RNA的细胞定位、相互作用的伴侣、结构动力学或折叠热力学，对RNA进行修饰来改变其活性。安装导致翻译暂停或移码的基序可通过各种mRNA加工机制改变mRNA种类的丰度。修饰共有剪接序列也会改变不同RNA种类的丰度和流行率。改变不同剪接亚型的相对比例会导致蛋白翻译产物比例的变化，这可用于改变许多生物学途径。例如，改变线粒体与核DNA修复蛋白的平衡将改变不同癌症对化疗试剂的适应能力。此外，RNA可用能够与新蛋白靶标结合的序列进行修饰。已开发了许多与细胞蛋白具有高亲和力的RNA适体。安装这些适体中的一种可用于通过与蛋白靶标结合来隔离不同的RNA种类，从而阻止它们的翻译、生物活性，或将RNA种类带到特定的亚细胞区室。生物分子降解是另一类定位修饰。

例如，将RNA甲基化用于调节细胞内的RNA。可将甲基化的共有基序引入具有PE的靶RNA编码序列中。还可修饰RNA以包括引导无义介导的衰变机制或其他核酸代谢途径来降解靶RNA种类的序列，这将改变细胞中的RNA库。此外，可修饰RNA种类以改变它们的聚集状态。可将序列安装在感兴趣的单个RNA或多个RNA上，以产生RNA缠结，使它们成为翻译或信号传导的无效底物。

蛋白修饰

通过翻译后修饰(PTM)对蛋白的修饰也代表了可用PE进行的一类重要的生物分子操作。与RNA种类一样，改变细胞中蛋白的丰度是PE的重要能力。可进行编辑以在开放阅读框中安装终止密码子——这将消除编辑DNA序列产生的全长产物。或者，可安装导致靶蛋白的蛋白降解速率发生变化的肽基序。将降解标签安装到基因体中可用于改变细胞中蛋白的丰度。此外，由小分子诱导的降解决定子(degron)的引入可实现对蛋白降解的时间控制。这对研究和治疗都有重要意义，因为研究人员可以很容易地评估给定靶的小分子介导的治疗性蛋白降解是否是可行的治疗策略。还可安装蛋白基序来改变蛋白的亚细胞定位。可安装氨基酸基序以优先将蛋白运输到许多亚细胞区室，包括细胞核、线粒体、细胞膜、过氧化物酶体、溶酶体、蛋白酶体、外泌体等。

安装或破坏由PTM机制修饰的基序可改变蛋白的翻译后修饰。已鉴定了磷酸化、泛素化、糖基化、脂化(如，法呢基化、肉豆蔻酰化、棕榈酰化、异戊二烯化、GPI锚)、羟基化、甲基化、乙酰化、巴豆酰化、SUMO化、二硫键形成、侧链键裂解事件、多肽骨架裂解事件(蛋白水解)以及许多其他蛋白PTM。这些PTM通常通过改变亚细胞定位来改变蛋白功能。事实上，激酶通常通过磷酸化事件激活下游信号传导级联。去除靶磷酸位点会阻止信号转导。在保留全长蛋白表达的同时，具有位点特异性切除或安装任何PTM基序的能力将是基础研究和治疗学的重要进步。PE的序列安装范围和靶窗口使其非常适合广泛的PTM修饰空间。

脂化位点的去除应当防止蛋白向细胞膜的运输。当前靶向翻译后修饰过程的疗法的主要限制是它们的特异性。已广泛测试法呢基转移酶抑制剂消除KRAS在细胞膜上定位的能力。不幸地，法呢基化的全面抑制伴随着许多脱靶效应，这阻止了这些小分子的广泛使用。类似地，由于人类基因组的大尺寸和各种激酶之间的相似性，用小分子特异性抑制蛋白激酶可能非常具有挑战性。PE为这个特异性问题提供了潜在的解决方案，因为它能够通过切除修饰位点而不是全面酶抑制来抑制靶蛋白的修饰。例如，去除KRAS中的靶向(lapidated)肽基序将是可用于替代法呢基转移酶抑制的靶向方法。这种方法通过在未设计为膜结合的蛋白上安装脂质靶向基序来抑制靶蛋白活性的功能性逆转。

还可将PE用于引发蛋白-蛋白复合事件。蛋白通常在复合物中作用以执行其生物学活性。可将PE用于形成或破坏蛋白在这些复合物中存在的能力。为了消除复杂的形成事件，沿着蛋白:蛋白界面可安装氨基酸替换或插入而不利于复合。SSX18是BAF复合物(重要的组蛋白重塑复合物)的蛋白组件。SSX18中的突变导致滑膜肉瘤。可将PE用于安装防止SSX18与复合物中的蛋白伴侣结合的侧链，以防止其致癌活性。还可将PE用于去除致病性突变以恢复该蛋白的WT活性。或者，PE可用于将蛋白保持在其天然复合物中，或拖动它们参与与其天然活性无关的相互作用来抑制其活性。形成保持一种相互作用状态而不是另一种相互作用状态的复合物可能代表重要的治疗方式。改变蛋白:蛋白界面以降低相互作用的Kd将使这些蛋白彼此粘连更长时间。由于蛋白复合物可具有多种信号传导复合物如n-myc，其在疾病中驱动神经母细胞瘤信号传导级联但在其他细胞中参与健康的转录控制。可将PE用于安装驱动n-myc与健康相互作用伴侣的关联并降低其对致癌相互作用伴侣的亲和力的突变。

部分I中引用的参考文献

以下参考文献各自通过引用并入本文。

1.Selective Target Protein Degradation via PhthalimideConjugation.Winter et al.Science.Author manuscript；available in PMC 2016Jul8.

2.Reversible disruption of mSWI/SNF(BAF)complexes by the SS18-SSXoncogenic fusion in synovial sarcoma.Kadoch and Crabtree.Cell.2013Mar 28；153(1):71-85.doi:10.1016/j.cell.2013.02.036.

3.Ribosomal frameshifting and transcriptional slippage:From geneticsteganography and cryptography to adventitious use.Atkins et al.Nucleic AcidsResearch,Volume 44,Issue15,6September 2016,Pages 7007–7078.

4.Transcriptional Regulation and its Misregulation in Disease.Lee andYoung.Cell.Author manuscript；available in PMC 2014Mar 14.

5.Protein localization in disease and therapy.Mien-Chie Hung,WolfgangLink Journal of Cell Science 2011 124:3381-3392.

6.Loss of post-translational modification sites in disease.Li etal.Pac Symp Biocomput.2010:337-47.PTMD:A Database of Human Disease-associatedPost-translational Modifications.Xu et al.Genomics ProteomicsBioinformatics.2018Aug；16(4):244-251.Epub 2018Sep 21.

7.Post-transcriptional gene regulation by mRNA modifications.Zhao etal.Nature Reviews Molecular Cell Biology volume18,pages31–42(2017).

N.用于引导编辑的PEgRNA设计方面的改进

在其他实施方案中，引导编辑系统可包括使用可提高引导编辑效率的PEgRNA设计和策略。这些策略旨在克服由于引导编辑所需的多步骤过程而存在的一些问题。例如，在PEgRNA内形成的不利RNA结构可导致抑制DNA编辑从PEgRNA拷贝到基因组基因座。这些限制可通过重新设计和工程化改造PEgRNA组件来克服。这些重新设计可提高引导编辑器的效率，并可将更长的插入序列安装到基因组中。

因此，在不同实施方案中，PEgRNA设计可通过使功能性PEgRNA从非聚合酶III(polIII)启动子有效表达而产生更长的PEgRNA，这将避免需要繁重的序列要求。在其他实施方案中，可改进核心——结合Cas9的PEgRNA支架来提高系统的功效。在其他实施方案中，可对PEgRNA进行修饰以提高逆转录酶(RT)持续合成能力，这将能够在靶基因组基因座插入更长的序列。在其他实施方案中，可将RNA基序添加到PEgRNA的5′和/或3′端以提高稳定性、增强RT持续合成能力、防止PEgRNA的错误折叠和/或募集对基因组编辑重要的其他因素。在又一个实施方案中，提供了用于进化给定序列靶标的PEgRNA的平台，其可改进PEgRNA支架并提高引导编辑器效率。可将这些设计用于改进任何Cas9或其进化变体识别的任何PEgRNA。

引导编辑的这种应用进一步描述于实施例15中。

PEgRNA可包括额外的设计改进，其可修饰PEgRNA的性质和/或特征，从而改进引导编辑的功效。在不同实施方案中，这些改进可能属于许多不同类别中的一个或多个，包括但不限于：(1)设计能够从非聚合酶III(polIII)启动子有效表达的功能性PEgRNA，这使更长的PEgRNA能够表达而无需繁重序列要求；(2)对核心——结合Cas9的PEgRNA支架的改进，可提高功效；(3)修饰PEgRNA以提高RT持续合成能力，从而能够在靶基因组位点插入更长的序列；(4)在PEgRNA的5'或3'端添加RNA基序，以提高PEgRNA稳定性、增强RT持续合成能力、防止PEgRNA错误折叠或募集对基因组编辑重要的其他因素。

在一个实施方案中，PEgRNA可设计为具有pol III启动子，以提高具有更大延伸臂的更长长度的PEgRNA的表达。sgRNA通常由U6 snRNA启动子表达。该启动子募集pol III来表达相关的RNA，可用于表达保留在细胞核内的短RNA。然而，pol III的加工能力不强，无法以有效基因组编辑所需的水平表达长度超过几百个核苷酸的RNA。此外，pol III可在U的延伸处停止或终止，这可能会限制使用PEgRNA插入的序列多样性。已检测其他募集聚合酶II(如，pCMV)或聚合酶I(如，U1 snRNA启动子)的启动子表达更长sgRNA的能力。然而，这些启动子通常是部分转录的，这会产生表达的PEgRNA中间隔区5'的额外序列，这已证明会导致Cas9:sgRNA活性以位点依赖性方式显著降低。此外，虽然pol III转录的PEgRNA可简单地在6-7U延伸中终止，但从pol II或pol I转录的PEgRNA需要不同的终止信号。通常，这类信号还会导致聚腺苷酸化，从而导致从细胞核中非期望的转运PEgRNA。类似地，从pol II启动子(如，pCMV)表达的RNA通常是5'加帽的，也导致其的核输出。

此前，Rinn和同事筛选了用于生产长的非编码RNA(lncRNA)标记的sgRNA的多种表达平台¹⁸³。这些平台包括由pCMV表达RNA，终止于来自人的MALAT1 ncRNA的ENE元件¹⁸⁴、来自KSHV的PAN ENE元件¹⁸⁵或来自U1 snRNA的3'框¹⁸⁶。值得注意地，MALAT1 ncRNA和PAN ENE形成三螺旋保护poly A尾^184，187。这些构建体还可增强RNA的稳定性。考虑这些表达系统也将能够表达更长的PEgRNA。

此外，已设计一系列方法用于切割将作为PEgRNA的一部分转录的pol II启动子部分，添加自切割核酶如锤头型¹⁸⁸、手枪型¹⁸⁹、斧头型¹⁸⁹、发夹型¹⁹⁰、VS¹⁹¹、twister¹⁹²或twister sister¹⁹²核酶或其他自切割元件来加工转录的向导，或者由Csy4识别的发夹¹⁹³，同样导致加工向导。此外，假设掺入多个ENE基序可提高PEgRNA的表达和稳定性，如先前对KSHV PAN RNA和元件所证明的那样¹⁸⁵。还预计以环状内含子RNA(ciRNA)的形式环化PEgRNA也可能导致增强的RNA表达和稳定性，以及核定位¹⁹⁴。

在不同实施方案中，PEgRNA可包括各种以上元件，如以下序列所示例。

TAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTC

CGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCC

GCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCC

ATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAA

GTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGC

CTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTA

CGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCG

TGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATG

GGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTC

CGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGC

AGAGCTGGTTTAGTGAACCGTCAGATCGTTCACTGCCGTATAGGCAGGGCCCAGA

CTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTT

ATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGT

CTGTTTTAGGGTCATGAAGGTTTTTCTTTTCCTGAGAAAACAACACGTATTGTTTTC

TCAGGTTTTGCTTTTTGGCCTTTTTCTAGCTTAAAAAAAAAAAAAGCAAAAGATGC

TGGTGGTTGGCACTCCTGGTTTCCAGGACGGGGTTCAAATCCCTGCGGCGTCTTTGCTTTGACT(SEQID NO:501)

非限制性示例2-由pCMV、Csy4发夹、PEgRNA和PAN ENE组成的PEgRNA表达平台

TAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCGTTCACTGCCGTATAGGCAGGGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGTTTTGTTTTGGCTGGGTTTTTCCTTGTTCGCACCGGACACCTCCAGTGACCAGACGGCAAGGTTTTTATCCCAGTGTATATTGGAAAAACATGTTATACTTTTGACAATTTAACGTGCCTAGAGCTCAAATTAAACTAATACCATAACGTAATGCAACTTACAACATAAATAAAGGTCAATGTTTAATCCATAAAAAAAAAAAAAAAAAAA(SEQ ID NO:502)

非限制性示例3-由pCMV、Csy4发夹、PEgRNA和3x PAN ENE组成的PEgRNA表达平台

TAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCGTTCACTGCCGTATAGGCAGGGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGTTTTGTTTTGGCTGGGTTTTTCCTTGTTCGCACCGGACACCTCCAGTGACCAGACGGCAAGGTTTTTATCCCAGTGTATATTGGAAAAACATGTTATACTTTTGACAATTTAACGTGCCTAGAGCTCAAATTAAACTAATACCATAACGTAATGCAACTTACAACATAAATAAAGGTCAATGTTTAATCCATAAAAAAAAAAAAAAAAAAAACACACTGTTTTGGCTGGGTTTTTCCTTGTTCGCACCGGACACCTCCAGTGACCAGACGGCAAGGTTTTTATCCCAGTGTATATTGGAAAAACATGTTATACTTTTGACAATTTAACGTGCCTAGAGCTCAAATTAAACTAATACCATAACGTAATGCAACTTACAACATAAATAAAGGTCAATGTTTAATCCATAAAAAAAAAAAAAAAAAAATCTCTCTGTTTTGGCTGGGTTTTTCCTTGTTCGCACCGGACACCTCCAGTGACCAGACGGCAAGGTTTTTATCCCAGTGTATATTGGAAAAACATGTTATACTTTTGACAATTTAACGTGCCTAGAGCTCAAATTAAACTAATACCATAACGTAATGCAACTTACAACATAAATAAAGGTCAATGTTTAATCCATAAAAAAAAAAAAAAAAAAA(SEQ ID NO:503)

非限制性示例4-由pCMV、Csy4发夹、PEgRNA和3′框组成的PEgRNA表达平台

TAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCGTTCACTGCCGTATAGGCAGGGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGTTTGTTTCAAAAGTAGACTGTACGCTAAGGGTCATATCTTTTTTTGTTTGGTTTGTGTCTTGGTTGGCGTCTTAAA(SEQ ID NO:504)

非限制性示例5-由pU1、Csy4发夹、PEgRNA和3′框组成的PEgRNA表达平台

CTAAGGACCAGCTTCTTTGGGAGAGAACAGACGCAGGGGCGGGAGGGAAAAAGGGAGAGGCAGACGTCACTTCCCCTTGGCGGCTCTGGCAGCAGATTGGTCGGTTGAGTGGCAGAAAGGCAGACGGGGACTGGGCAAGGCACTGTCGGTGACATCACGGACAGGGCGACTTCTATGTAGATGAGGCAGCGCAGAGGCTGCTGCTTCGCCACTTGCTGCTTCACCACGAAGGAGTTCCCGTGCCCTGGGAGCGGGTTCAGGACCGCTGATCGGAAGTGAGAATCCCAGCTGTGTGTCAGGGCTGGAAAGGGCTCGGGAGTGCGCGGGGCAAGTGACCGTGTGTGTAAAGAGTGAGGCGTATGAGGCTGTGTCGGGGCAGAGGCCCAAGATCTCAGTTCACTGCCGTATAGGCAGGGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGTTTCAGCAAGTTCAGAGAAATCTGAACTTGCTGGATTTTTGGAGCAGGGAGATGGAATAGGAGCTTGCTCCGTCCACTCCACGCATCGACCTGGTATTGCAGTACCTCCAGGAACGGTGCACCCACTTTCTGGAGTTTCAAAAGTAGACTGTACGCTAAGGGTCATATCTTTTTTTGTTTGGTTTGTGTCTTGGTTGGCGTCTTAAA(SEQ IDNO:505)

在不同的其他实施方案中，可通过对支架或核心序列引入改进来改进PEgRNA。这可通过引入已知的。

很可能改进核心——Cas9结合PEgRNA支架来增强PE活性。已证明了几种这类方法。例如，支架的第一个配对元件(P1)包含GTTTT-AAAAC配对元件。已证明这种T延伸导致pol III暂停和RNA转录的过早终止。已证明在P1的这一部分中T-A对之一至G-C对的合理突变可增强sgRNA活性，表明这种方法对于PEgRNA也是可行的¹⁹⁵。此外，还证明增加P1的长度可增强sgRNA折叠并提高活性¹⁹⁵，表明这是提高PEgRNA活性的另一条途径。对核心的改进示例包括：

含有至P1的6nt延伸PEgRNA

含有Pl内T-A至G-C突变的PEgRNA

在不同的其他实施方案中，可通过对编辑模板区域引入修饰来改进PEgRNA。随着由PEgRNA模板化的插入物尺寸增加，它更有可能被核酸内切酶降解，发生自发水解，或折叠成无法被RT逆转录或破坏PEgRNA支架折叠和后续Cas9-RT结合的二级结构。因此，可能需要对PEgRNA模板进行修饰才能影响大的插入，例如整个基因的插入。这样做的一些策略包括在合成或半合成的PEgRNA中掺入经修饰的核苷酸，使RNA对降解或水解更具抵抗力，或者不太可能采用抑制性二级结构¹⁹⁶。这种修饰可能包括8-氮杂-7-去氮杂鸟苷，其会减少富含G的序列中的RNA二级结构；锁核酸(LNA)，可减少降解并增强某些种类的RNA二级结构；可增强RNA稳定性的2'-O-甲基、2'-氟或2'-O-甲氧基乙氧基修饰。这些修饰也可包含在PEgRNA的其他地方来增强稳定性和活性。可选择地或另外地，可设计PEgRNA的模板，使其既编码期望的蛋白产物，也更可能采用能够通过RT展开的简单二级结构。这些简单的结构将充当热力学源，从而不太可能出现阻止逆转录的更复杂的结构。最后，还可将模板分成两个独立的PEgRNA。在这样的设计中，PE将用于启动转录，并通过与Cas9融合的RNA结合蛋白或PEgRNA自身的RNA识别元件(如，MS2适体)将单独的模板RNA募集到靶向位置。RT可直接结合这个单独的模板RNA，或在切换到第二模板之前在原始PEgRNA上启动逆转录。这种方法可通过添加长模板后防止PEgRNA的错误折叠来实现长的插入，而不需要为了发生长的插入将Cas9从基因组解离，这种解离可能会抑制基于PE的长的插入。

在其他实施方案中，可通过在PEgRNA的5'和3'端引入其他RNA基序来改进PEgRNA。上面讨论了几个这样的基序——例如来自KSHV的PAN ENE和来自MALAT1的ENE作为终止来自非pol III启动子的较长PEgRNA表达的可能手段。这些元件形成吞没poly A尾的RNA三螺旋，导致它们保留在细胞核内^184,187。然而，通过在PEgRNA的3'端形成封闭末端核苷酸的复杂结构，这些结构也可能有助于防止核酸外切酶介导的PEgRNA降解。

在3'端插入的附加结构元件也可增强RNA稳定性，尽管不能由非pol III启动子终止。这类基序可包括会封闭3'端的发夹或RNA四链体¹⁹⁷，或自切割核酶(如，HDV)，其导致在3'端形成2'-3'-环状磷酸酯并且还可能使PEgRNA不太可能被核酸外切酶降解¹⁹⁸。通过不完全剪接诱导PEgRNA环化形成ciRNA，也可增加PEgRNA的稳定性并导致PEgRNA保留在细胞核内¹⁹⁴。

其他RNA基序也可通过增强RT与DNA-RNA双链体的结合来改进RT持续合成能力或增强PEgRNA活性。在其同源逆转录病毒基因组中添加由RT结合的天然序列可增强RT活性¹⁹⁹。这可能包括天然引物结合位点(PBS)、多嘌呤束(PPT)或参与逆转录病毒基因组二聚化和转录起始的吻环¹⁹⁹。

在PEgRNA的5'和3'端添加二聚化基序(如，吻环或GNRA四环/四环受体对²⁰⁰)也可导致PEgRNA的有效环化，提高稳定性。此外，预计添加这些基序能够物理分离PEgRNA间隔区和引物，防止间隔区闭塞阻碍PE活性。在间隔区形成小立足点发夹的PEgRNA的短5′或3'延伸也可有利地竞争结合间隔区的PEgRNA的退火区。最后，吻环也可用于将其他模板RNA募集到基因组位点，并能够将RT活性从一种RNA交换到另一种。示例性改进包括但不限于：

PEgRNA-HDV融合物

PEgRNA-MMLV吻环

PEgRNA-VS核酶吻环

PEgRNA-GNRA四环/四环受体

PEgRNA模板切换二级RNA-HDV融合物

可通过定向进化以类似于如何改进SpCas9和引导编辑器(PE)的方式进一步改进PEgRNA支架。定向进化可增强Cas9或进化的Cas9变体识别PEgRNA。此外，不同PEgRNA支架序列在不同基因组基因座处增强相关位点的PE活性，减少脱靶活性，或两者可能是最佳的。最后，添加其他RNA基序的PEgRNA支架的进化几乎肯定会提高融合PEgRNA相对于未进化的融合RNA的活性。例如，由c-di-GMP-I适体和锤头型核酶组成的变构核酶的进化导致显著提高活性²⁰²，表明进化也会提高锤头型-PEgRNA融合物的活性。此外，虽然Cas9目前通常不允许sgRNA的5′延伸，但定向进化可能会产生使这种不耐受性减轻的突变，从而允许利用其他RNA基序。

O.引导编辑在扩展靶范围中的应用

使用化脓性链球菌Cas9(SpCas9)的引导编辑(PE)可在基因组基因座有效安装所有单碱基取代、插入、缺失及其组合，该基因组位点中存在可有效结合SpCas9的合适放置的NGG原间隔区邻近基序(PAM)。然而，另一方面，本文所述方法通过扩展可接近的PAM并由此扩增有效PE可接近的可靶向基因组基因座来拓宽PE的靶向能力。使用非SpCas9的RNA引导的DNA结合蛋白的引导编辑器，通过允许接近不同的PAM，扩展了基因组基因座的可靶向范围。此外，利用比SpCas9更小的RNA引导的DNA结合蛋白还允许更有效的病毒递送。具有Cas蛋白或SpCas9以外的其他RNA引导的DNA结合蛋白的PE将允许高效率治疗编辑，而使用基于SpCas9的PE无法接近或效率低下。

预期这将用于基于SpCas9的PE由于相对于NGG PAM的编辑间距不理想效率低下，或者基于SpCas9的构建体的整体尺寸限制细胞表达和/或递送的情况。特定的疾病相关基因座如亨廷顿蛋白基因，其在靶区域附近针对SpCas9的NGG PAM很少且定位不佳，可容易地使用PE系统中的不同Cas蛋白靶向，例如识别NGA PAM的SpCas9-VRQR。将较小的Cas蛋白用于生成较小的PE构建体，这些构建体可更有效地包装到AAV载体中，从而使得能够更好地递送至靶组织。图61示出使用金黄色葡萄球菌CRISPR-Cas作为RNA引导的DNA结合蛋白实践引导编辑的缩图。NT是未经处理的对照。

图62A至图62B显示原间隔区对于利用引导编辑在精确位置处有效安装期望编辑的重要性。这突出了替代PAM和原间隔区作为该技术的新特性的重要性。图62A中的“n.d.”为“未检测到”。

图63示出在引导编辑器系统中使用SpCas9(H840A)-VRQR和SpCas9(H840A)-VRER作为RNA引导的DNA结合蛋白简化实践PE。SpCas9(H840A)-VRQRnapDNAbp在本文中公开为SEQ ID NO:87。SpCas9(H840A)-VRERnapDNAbp在本文中公开为SEQ ID NO:88。SpCas9(H840A)-VRER-MMLVRT融合蛋白在本文中公开为SEQ ID NO:516，其中MMLV RT包含相对于野生型MMLV RT的D200N、L603W、T330P、T306K和W313F替换。SpCas9(H840A)-VRQR-MMLV RT融合蛋白在本文中公开为SEQ ID NO:515，其中MMLV RT包含相对于野生型MMLV RT的D200N、L603W、T330P、T306K和W313F替换。靶向人类基因组中的7个不同基因座：4个利用SpCas9(H840A)-VRQR-MMLV RT引导编辑器系统，3个利用SpCas9(H840A)-VRER-MMLV RT系统。测试的构建体氨基酸序列如下：

如图63所示，SpCas9(H840A)-VRQR-MMLV RT在包括“AGAG”和“GGAG”的PAM位点处可操作，在“GGAT”和“AGAT”PAM序列处具有一些编辑活性。SpCas9(H840A)-VRER-MMLV RT在包括“AGCG”和“GGCG”的PAM位点可操作，在“TGCG”处具有一些编辑活性。

数据表明，可使用具有不同PAM特异性的napDNAbp进行引导编辑，例如本文所述那些Cas9变体。

在不同实施方案中，具有改变的PAM特异性的napDNAbp(如，Cas9)包含对靶序列表现出活性的突变组合，在其3’端包含5’-NAA-3’PAM序列。在一些实施方案中，突变组合存在于表1中所列的任一克隆中。在一些实施方案中，突变组合是表1中所列克隆的保守突变。在一些实施方案中，Cas9蛋白包含组合表1中列出的任何一个Cas9克隆的突变。

表1：NAA PAM克隆

在一些实施方案中，Cas9蛋白包含与表1的任一变体提供的Cas9蛋白的氨基酸序列至少80％相同的氨基酸序列。在一些实施方案中，Cas9蛋白包含与表1的任一变体提供的Cas9蛋白的氨基酸序列至少85％、至少90％、至少92％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％相同的氨基酸序列。

在一些实施方案中，与SEQ ID NO:18提供的化脓性链球菌Cas9相比，Cas9蛋白对在其3'端不包含经典PAM(5'-NGG-3')的靶序列表现出增加的活性。在一些实施方案中，与SEQ ID NO:18提供的化脓性链球菌Cas9对同一靶序列的活性相比，Cas9蛋白对具有不与经典PAM序列(5’-NGG-3’)直接相邻的3′端的靶序列表现出活性增加至少5倍。在一些实施方案中，与由SEQ ID NO:2提供的化脓性链球菌对同一靶序列的活性相比，Cas9蛋白对不与经典PAM序列(5’-NGG-3’)直接相邻的靶序列表现出活性增加至少10倍、至少50倍、至少100倍、至少500倍、至少1,000倍、至少5,000倍、至少10,000倍、至少50,000倍、至少100,000倍、至少500,000倍、或至少1,000,000倍。在一些实施方案中，靶序列的3′端与AAA、GAA、CAA或TAA序列直接相邻。在一些实施方案中，Cas9蛋白包含对在其3′端包含5′-NAC-3′PAM序列的靶序列表现出活性的突变组合。在一些实施方案中，突变组合存在于表2所列的任一克隆中。在一些实施方案中，突变组合是表2所列克隆的保守突变。在一些实施方案中，Cas9蛋白包含表2列出的任一Cas9克隆的突变组合。

表2：NAC PAM克隆

在一些实施方案中，Cas9蛋白包含与表2的任一变体提供的Cas9蛋白的氨基酸序列至少80％相同的氨基酸序列。在一些实施方案中，Cas9蛋白包含与表2的任一变体提供的Cas9蛋白的氨基酸序列至少85％、至少90％、至少92％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％相同的氨基酸序列。

在一些实施方案中，与SEQ ID NO:18提供的化脓性链球菌Cas9相比，Cas9蛋白对在其3'端不包含经典PAM(5'-NGG-3')的靶序列表现出增加的活性。在一些实施方案中，与由SEQ ID NO:18提供的化脓性链球菌Cas9对同一靶序列的活性相比，Cas9蛋白对具有不与经典PAM序列(5’-NGG-3’)直接相邻的3′端的靶序列表现出活性增加至少5倍。在一些实施方案中，与由SEQ ID NO:18提供的化脓性链球菌对同一靶序列的活性相比，Cas9蛋白对不与经典PAM序列(5’-NGG-3’)直接相邻的靶序列表现出活性增加至少10倍、至少50倍、至少100倍、至少500倍、至少1,000倍、至少5,000倍、至少10,000倍、至少50,000倍、至少100,000倍、至少500,000倍、或至少1,000,000倍。在一些实施方案中，靶序列的3’端与AAC、GAC、CAC或TAC序列直接相邻。

在一些实施方案中，Cas9蛋白包含对在其3′端包含5'-NAT-3'PAM序列的靶序列表现出活性的突变组合。在一些实施方案中，突变组合存在于表3所列的任一克隆中。在一些实施方案中，突变组合是表3所列克隆的保守突变。在一些实施方案中，Cas9蛋白包含表3所列的任一Cas9克隆的突变组合。

表3：NAT PAM克隆

与经典SpCas9相比，以上任何显示不同PAM特异性的Cas9变体可用于本文公开的引导编辑器。

P.引导编辑在插入重组酶靶位点中的应用

另一方面，可使用引导编辑将重组酶位点(或“重组酶识别序列”)插入期望的基因组位点。重组酶位点的插入提供了用于影响基因组中位点特异性基因变化的编程位置。这类基因变化可包括，例如质粒的基因组整合、基因组缺失或插入、染色体易位和盒交换，以及其他基因变化。这些示例性类型的基因变化示于图64(b)-(f)。然后可使用安装的重组酶识别序列在该位点进行位点特异性重组来产生多种重组结果，例如DNA片段的切除、整合、倒置或交换。例如，图65显示可用于整合包含GFP表达标志物的DNA供体模板的重组酶位点的安装。含有整合到重组酶位点的GFP表达系统的细胞会发荧光。

在基因组中安装重组酶位点的机制类似于在基因组中安装其他序列，如肽/蛋白和RNA标签。示例重组酶靶序列的安装的示意图示于图64(a)。该过程从选择将引入重组酶靶序列的期望的靶基因座开始。接着，提供了引导编辑器融合物(“RT-Cas9:gRNA”)。在此，“gRNA”是指PEgRNA，其可使用本文所述原理设计。不同实施方案中的PEgRNA将包括对应于图3D中(5′-[约20-nt间隔区]-[gRNA核心]-[延伸臂]-3′的结构，其中延伸臂在3′至5′方向包含引物结合位点(“A”)、编辑模板(“B”)和同源臂(“C”)。编辑模板(“B”)将包含对应于重组酶位点的序列，即编码互补单链DNA的PEgRNA的单链RNA，其为重组酶位点的有义链或反义链，通过引导编辑过程并入基因组DNA靶基因座。

在不同方面，本公开提供了使用PE在人或其他基因组中的高价值基因座处引入重组酶识别序列，其在暴露于位点特异性重组酶之后将指导精确且有效的基因组修饰(图64)。在图64所示的不同实施方案中，可将PE用于(b)插入单个SSR靶标，用作DNA供体模板基因组整合的位点。(c)显示如何使用串联插入SSR靶位点来删除部分基因组。(d)显示如何使用串联插入SSR靶位点来倒置部分基因组。(e)显示如何在两个远端染色体区域插入两个SSR靶位点来导致染色体易位。(f)显示如何使用基因组中两个不同SSR靶位点的插入来交换来自DNA供体模板的盒。每种类型的基因组修饰都是通过使用PE插入SSR靶标来设想的，但该列表也不意味着是限制性的。

PE介导的重组酶识别序列的引入对于治疗由大规模基因组缺陷引起的遗传性疾病特别有用，如基因丢失、倒置或重复，或染色体易位^1-7(表6)。例如，Williams-Beuren综合征是由染色体721中的24个缺失引起的发育病症。目前尚无技术可用于将多个完整基因高效且靶向插入活细胞中(目前正在探索PE进行这种全长基因插入的潜力，但尚未确定)；然而，在PE插入的靶标处重组酶介导的整合提供了一种永久治愈这种疾病和其他疾病的方法。此外，靶向引入重组酶识别序列可为包括转基因植物、动物研究模型、生物生产细胞系或其他定制真核细胞系在内的应用提供高度支持。例如，在转基因植物中PE特异性靶标处重组酶介导的基因组重排可克服产生具有改进特性的农作物的瓶颈之一^8,9。

表6.通过重组酶识别序列的基于PE的安装可修复与大规模基因组修饰相关的遗传性疾病示例。

疾病	起因
		三体性17P	基因重复
夏-马-图三氏病I型	基因重复
		SMITH-MAGENIS综合征	基因缺失
WILLIAMS-BEUREN综合征	基因缺失
		DE LA CHAPELLE综合征	染色体易位
唐氏(DOWN)综合征(某些类型)	染色体易位
		血友病A	基因倒置
亨特氏(HUNTER)综合征	基因倒置

已表征了许多SSR家族成员并描述了它们的重组酶识别序列，包括天然和工程化酪氨酸重组酶(表7)、大型丝氨酸整合酶(表8)、丝氨酸解离酶(表9)和酪氨酸整合酶(表10)。针对几个SSR还描述了显示提高基因组整合率的经修饰的靶序列^22-30。除了天然重组酶之外，还开发了具有不同特异性的可编程重组酶^31-40。使用PE，可将这些识别序列中的一个或多个引入基因组的指定位置，例如安全港基因座^41-43，取决于期望的应用。

例如，通过引导编辑在基因组中引入单个重组酶识别序列将导致与DNA供体模板的整合重组(图64b)。在人细胞中稳健作用的丝氨酸整合酶，可能特别适合于基因整合^44,45。

此外，取决于靶标的身份和方向，引入两个重组酶识别序列可导致间插序列的缺失、间插序列的倒置、染色体易位或盒交换(图64c至f)。通过选择已与重组酶靶标非常相似的内源性序列，引入完整重组酶靶标所需的编辑范围会减少。

最后，已证明几种重组酶可在天然存在的假位点(pseudosite)处整合到人或真核生物基因组中^46-64。可将PE编辑用于修饰这些基因座，以提高这些天然假位点的整合率，或者可选择地，消除可能用作不需要的脱靶序列的假位点。

本公开描述了使用PE在真核基因组中引入重组酶靶序列的一般方法，其应用几乎是无限制的。基因组编辑反应旨在与“引导编辑器”一起使用，“引导编辑器”是CRISPR/Cas9蛋白和逆转录酶结构域的嵌合融合物，其利用定制的引导编辑向导RNA(PEgRNA)。相关地，还可利用Cas9工具和同源定向修复(HDR)途径，通过使用几种技术降低indel率，通过DNA模板来引入重组酶识别序列^65-67。人细胞培养中的概念验证实验示于图65。

在以上关于重组酶识别序列的PE引导安装的描述中引用了以下几个表，并提供了可使用的示例性重组酶的列表，以及它们可由PE安装的同源重组酶识别序列。

表7.酪氨酸重组酶和SSR靶序列

表8.大型丝氨酸整合酶和SSR靶序列

表9.丝氨酸解离酶和SSR靶序列

表10.酪氨酸整合酶和靶序列

在不同的其他方面，本公开涉及使用PE来安装一个或多个重组酶识别序列的方法及其在位点特异性重组中的应用。

在一些实施方案中，位点特异性重组可产生多种重组结果，例如DNA片段的切除、整合、倒置或交换。

在一些实施方案中，该方法可用于诱导两个或多个核酸(如，DNA)分子的两个或多个区域之间的重组。在其他实施方案中，该方法可用于诱导单个核酸分子(如，DNA)中的两个或更多个区域的重组或在两个或更多个区域之间的重组。

在一些实施方案中，本公开提供了通过位点特异性重组整合供体DNA模板的方法，其包括：(a)通过引导编辑在基因组基因座安装重组酶识别序列；(b)在重组酶存在下，使基因组基因座与还包含重组酶识别序列的DNA供体模板接触。

在其他实施方案中，本发明提供了通过位点特异性重组缺失基因组区域的方法，其包括：(a)通过引导编辑在基因组基因座安装一对重组酶识别序列；(b)使基因组基因座与重组酶接触，从而催化重组酶识别序列对之间的基因组区域的缺失。

在其他实施方案中，本公开提供了通过位点特异性重组倒置基因组区域的方法，其包括：(a)通过引导编辑在基因组基因座安装一对重组酶识别序列；(b)使基因组基因座与重组酶接触，从而催化重组酶识别序列对之间的基因组区域的倒置。

在其他实施方案中，本公开提供了用于诱导第一基因组位点和第二基因组位点之间的染色体易位的方法，其包括：(a)通过引导编辑在第一基因组位基因座安装第一重组酶识别序列；(b)通过引导编辑在第二基因组基因座安装第二重组酶识别序列；(c)使第一和第二基因组基因座与重组酶接触，从而催化第一和第二基因组基因座的染色体易位。

在其他实施方案中，本公开提供了用于诱导基因组位点和包含盒的供体DNA之间的盒交换的方法，其包括：(a)通过引导编辑在第一基因组位点安装第一重组酶识别序列；(b)通过引导编辑在第二基因组位点安装第二重组酶识别序列；(c)使第一和第二基因组座位与供体DNA接触，该供体DNA包含侧接第一和第二重组酶识别序列和重组酶的盒，从而催化DNA供体中侧接的基因组基因座和盒的交换。

在涉及在基因组中插入多于一种重组酶识别序列的不同实施方案中，重组酶识别序列可以相同或不同。在一些实施方案中，重组酶识别序列是相同的。在其他实施方案中，重组酶识别序列是不同的。

在不同实施方案中，重组酶可以是酪氨酸重组酶，如Cre、Dre、Vcre、Sre、Flp、B2、B3、Kw、R、TD1-40、Vika、Nigri、Panto、Kd、Fre、Cre(ALSHG)、Tre、Brec1、或Cre-R3M3，如表7所示。在这些实施方案中，重组酶识别序列可以是表7中对应于使用的重组酶的RRS。

在不同的其他实施方案中，重组酶可以是大型丝氨酸重组酶，例如Bxb1、PhiC31、R4、phiBT1、MJ1、MR11、TP901-1、A118、V153、phiRV1、phi370.1、TG1、WB、BL3、SprA、phiJoe、phiK38、Int2、Int3、Int4、Int7、Int8、Int9、Int10、Int11、Int12、Int13、L1、peaches、Bxz2、或SV1，如表8所示。在这些实施方案中，重组酶识别序列可以是表8中对应于使用的重组酶的RRS。

在其他实施方案中，重组酶可以是丝氨酸重组酶，例如Bxb1、PhiC31、R4、phiBT1、MJ1、MR11、TP901-1、A118、V153、phiRV1、phi370.1、TG1、WB、BL3SprA、phiJoe、phiK38、Int2、Int3、Int4、Int7、Int8、Int9、Int10、Int11、Int12、Int13、L1、peaches、Bxz2、或SV1，如表8所示。在这些实施方案中，重组酶识别序列可以是表8中对应于使用的重组酶的RRS。

在其他实施方案中，重组酶可以是丝氨酸解离酶，例如Gin、Cin、Hin、Min、或Sin，如表9所示。在这些实施方案中，重组酶识别序列可以是表9中对应于使用的重组酶的RRS。

在不同的其他实施方案中，重组酶可以是酪氨酸整合酶，如HK022、P22、或L5，如表10所示。在这些实施方案中，重组酶识别序列可以是表10中对应于使用的重组酶的RRS。

在一些实施方案中，利用PE进行位点特异性重组的任何方法可在体内或体外进行。在一些实施方案中，用于位点特异性重组的任何方法在细胞中进行(如，细胞中的重组基因组DNA)。细胞可以是原核的或真核的。细胞，如真核细胞，可在个体如受试者中，如本文所述(如，人类受试者)。本文所述方法可用于体外和体内细胞的基因修饰，例如，在产生转基因细胞、细胞系或动物的情况下，或在基因组序列的改变中，例如，校正受试者细胞中的遗传缺陷。

部分L引用的参考文献

以下各参考文献在实施例17中引用，其各自通过引用并入本文。

1.Feuk,L.Inversion variants in the human genome:role in disease andgenome architecture.Genome Med 2,11(2010).

2.Zhang,F.,Gu,W.,Hurles,M.E.&Lupski,J.R.Copy number variation inhuman health,disease,and evolution.Annu Rev Genomics Hum Genet 10,451-481(2009).

3.Shaw,C.J.&Lupski,J.R.Implications of human genome architecture forrearrangement-based disorders:the genomic basis of disease.Hum Mol Genet13Spec No 1,R57-64(2004).

4.Carvalho,C.M.,Zhang,F.&Lupski,J.R.Evolution in health and medicineSackler colloquium:Genomic disorders:a window into human gene and genomeevolution.Proc Natl Acad Sci U S A 107Suppl 1,1765-1771(2010).

5.Rowley,J.D.Chromosome translocations:dangerous liaisonsrevisited.Nat Rev Cancer 1,245-250(2001).

6.Aplan,P.D.Causes of oncogenic chromosomal translocation.TrendsGenet 22,46-55(2006).

7.McCarroll,S.A.&Altshuler,D.M.Copy-number variation and associationstudies of human disease.Nat Genet 39,S37-42(2007).

[8]治疗方法

本公开提供了用于治疗被诊断患有与点突变或其他突变(如，缺失、插入、倒位、重复等)相关或由其引起的疾病的受试者的方法，这些突变可通过本文提供的引导编辑系统校正，例如但不限于朊病毒病(如，本文的实施例5)、三核苷酸重复扩增病症(如，本文的实施例3)或CDKL5缺乏病症(CDD)(如，本文的实施例23)。

实际上，任何引起疾病的遗传缺陷都可通过使用引导编辑来修复，包括选择合适的引导编辑器融合蛋白(包括napDNAbp和聚合酶(如，逆转录酶)，以及设计合适的PEgRNA以(a)靶向包含编辑位点的适当靶DNA，和(b)提供用于从切口位点的3'端合成单链DNA的模板，该模板包括置换并取代紧靠切口位点下游的内源性链的期望编辑。引导编辑可用于但不限于(a)对核苷酸序列安装校正突变变化，(b)安装蛋白和RNA标签，(c)在感兴趣的蛋白上安装免疫表位，(d)在蛋白中安装诱导型二聚化结构域，(e)安装或去除序列以改变生物分子的活性，(f)安装重组酶靶位点以引导特定的基因变化，以及(g)通过使用易错RT的靶序列的诱变。

治疗病症的方法可包括根据本文所述方法设计合适的PEgRNA和引导编辑器融合蛋白作为前期步骤，其包括可以考虑的许多考虑因素，例如：

(b)靶序列中切割位点的位置，即，引导编辑器将诱导单链切口以在切口一侧形成3′端RT引物序列和在切口另一侧形成5′端内源性瓣(其最终被FEN1或其等同物去除并被3'ssDNA瓣取代)。切割位点形成3'端引物序列，在RNA依赖性DNA聚合过程中，其被PE融合蛋白的聚合酶(如，RT酶)延伸，以形成包含期望编辑的3′ssDNA瓣，其接着取代靶序列中的5′内源性DNA瓣。

(c)可用的PAM序列(包括经典SpCas9 PAM位点，以及由具有扩展或不同PAM特异性的Cas9变体和等同物识别的非经典PAM位点)；

(d)可用的PAM序列之间的间距和PAM链中切割位点的位置；

(e)待使用的可用的引导编辑器的特定Cas9、Cas9变体或Cas9等同物(部分由可用的PAM支配)；

(f)引物结合位点的序列和长度；

(g)编辑模板的序列和长度；

(h)同源臂的序列和长度；

(i)间隔区序列和长度；以及

(j)gRNA核心序列。

合适的PEgRNA和任选地用于产生第二位点切口的切口产生性sgRNA设计指南，可通过以下示例性分步指令组的方式设计，其考虑了的一个或多个上述考虑。这些步骤参考图70A至图70I中所示的示例。

1.定义靶序列和编辑。检索以期望编辑位置(点突变、插入、缺失或其组合)为中心的靶DNA区域(约200bp)的序列。参见图70A。

2.定位靶PAM。确定邻近期望编辑位置的PAM。可在邻近期望编辑位置的任一DNA链上确定PAM。虽然编辑位置附近的PAM是优选的(即，其中切口位点距编辑位置小于30nt，或从编辑位点至切口位点小于29nt、28nt、27nt、26nt、25nt、24nt、23nt、22nt、21nt、20nt、19nt、18nt、17nt、16nt、15nt、14nt、13nt、12nt、11nt、10nt、9nt、8nt、7nt、6nt、5nt、4nt、3nt、或2nt)，则可使用原间隔区和PAM安装编辑，将切口放置在距编辑位置≥30nt处。参见图70B。

3.定位切口位点。对于正在考虑的各PAM，确定相应切口位点以及在哪条链上。对于Sp Cas9 H840A切口酶，切割发生在含PAM的链中NGG PAM的5′的第3个和第4个碱基之间。所有编辑核苷酸必须存在于切口位点的3′，因此适当的PAM必须将切口置于含PAM的链的靶编辑的5′。在下面显示的示例中，有两种可能的PAM。为简单起见，其余步骤将显示仅使用PAM1的PEgRNA设计。参见图70C。

4.设计间隔区序列。SpCas9的原间隔区对应于含PAM的链中NGG PAM的5′的20个核苷酸。有效的Pol III转录起始需要G作为第一个转录的核苷酸。如果原间隔区的第一个核苷酸是G，则PEgRNA的间隔区序列就是原间隔区。如果原间隔区的第一个核苷酸不是G，则PEgRNA的间隔区序列是G，后面为原间隔区。参见图70D。

5.设计引物结合位点(PBS)。使用起始等位基因序列，确定含PAM的链的DNA引物。DNA引物的3′端正好是切口位点上游的核苷酸(即，SpCas9的NGG PAM的5′的第4个碱基)。作为使用PE2和PE3的一般设计原则，包含与DNA引物互补的12至13个核苷酸的PEgRNA引物结合位点(PBS)可用作包含约40-60％GC含量的序列。对于低GC含量的序列，应当测试较长(14至15nt)的PBS。对于较高GC含量的序列，应当测试较短(8至11nt)的PBS。最佳PBS序列应根据经验确定，无论GC含量如何。为设计长度为p的PBS序列，使用起始等位基因序列，取含PAM的链中切口位点的5′前p个核苷酸的反向互补序列。参见图70E。

6.设计RT模板(或DNA合成模板)。RT模板(或DNA合成模板，其中聚合酶不是逆转录酶)编码设计的编辑和邻近编辑序列的同源性。在一个实施方案中，这些区域对应于图3D和图3E的DNA合成模板，其中DNA合成模板包括“编辑模板”和“同源臂”。最佳RT模板长度因靶位点而异。对于短程编辑(位置+1至+6)，建议测试短(9至12nt)、中(13至16nt)和长(17至20nt)RT模板。对于远程编辑(+7位及以上)，建议使用RT模板，该模板在编辑位置后至少延伸5nt(最好是10nt或更多)，以允许足够的3′DNA瓣同源性。对于远程编辑，应筛选多个RT模板以识别功能设计。对于较大的插入和缺失(≥5nt)，建议将更大的3′同源性(约20nt或更多)掺入RT模板。当RT模板将G的合成编码为逆转录DNA产物中的最后一个核苷酸(对应于PEgRNA的RT模板中的C)时，通常会降低编辑效率。由于许多RT模板支持有效的引导编辑，因此设计RT模板时建议避免G作为最终合成的核苷酸。为设计长度为r的RT模板序列，使用期望等位基因序列并取原始含PAM的链中切口位点3′前r个核苷酸的反向互补序列。注意，与SNP编辑相比，使用相同长度的RT模板进行插入或缺失编辑不包含相同的同源性。参见图70F。

8.为PE3设计切口产生性sgRNA。确定编辑上游和下游的非编辑链的PAM。最佳切口位点高度依赖于基因座，应根据经验确定。一般地，在PEgRNA诱导的切口对面的位点5′放置40至90个核苷酸的切口导致更高的编辑产率和更少的indel。切口产生性sgRNA具有与起始等位基因中的20-nt原间隔区匹配的间隔区序列，如果原间隔区不以G开头，则添加5′-G。参见图70H。

9.设计PE3b切口产生性sgRNA。如果PAM存在于互补链中，并且其相应的原间隔区与靶向编辑的序列重叠，则此编辑可能是PE3b系统的候选者。在PE3b系统中，切口产生性sgRNA的间隔区序列匹配期望编辑等位基因的序列，但不匹配起始等位基因的序列。当编辑核苷酸落在切口产生性sgRNA原间隔区的种子区(邻近PAM的约10nt)内时，PE3b系统有效运行。这可防止在安装编辑链之前对互补链产生切口，从而防止PEgRNA和sgRNA之间竞争结合靶DNA。PE3b还避免同时对两条链产生切口，从而在保持高编辑效率的同时显著减少indel形成。PE3b sgRNA应当具有与期望等位基因中的20-nt原间隔区匹配的间隔区序列，并在需要时添加5′G。参见图70I。

一旦选择/设计了合适的PEgRNA和PE融合蛋白，它们可通过合适的方法施用，例如通过基于载体的转染(其中一个或多个载体包含编码PEgRNA和PE融合蛋白的DNA，且利用载体转染后在细胞内表达)、以递送形式(如，脂质颗粒、纳米颗粒)直接递送与PEgRNA复合的PE融合蛋白(如，RNP递送)，或通过基于mRNA的递送系统。本公开在此描述了这类方法并且可利用任何已知方法。

PEgRNA和PE融合蛋白(或一起被称为PE复合物)可以治疗有效量递送至细胞，使得在接触感兴趣的靶DNA时，将期望编辑安装在其中。

可以想象，任何疾病都可通过这类方法治疗，只要递送至合适的细胞是可行的。本领域普通技术人员将能够选择和/或挑选适合预期目的和预期靶细胞的PE递送方法。

例如，在一些实施方案中，提供的方法包括向患有这种疾病(如，与上述的点突变相关的癌症)的受试者施用有效量的本文所述引导编辑系统，在包含期望的基因变化的供体DNA分子的存在下，通过同源定向修复介导，该引导编辑系统校正疾病相关基因中的点突变或向其引入失活突变。在一些实施方案中，提供的方法包括向患有这种疾病(如，与上述点突变相关的癌症)的受试者施用有效量的本文所述引导编辑系统，该引导编辑系统校正疾病相关基因中的点突变或向其引入失活突变。在一些实施方案中，疾病是增殖性疾病。在一些实施方案中，疾病是遗传性疾病。在一些实施方案中，疾病是肿瘤性疾病。在一些实施方案中，疾病是代谢性疾病。在一些实施方案中，疾病是溶酶体贮积病。可通过校正疾病相关基因中的点突变或向其中引入失活突变来治疗的其他疾病是本领域技术人员已知的，并且本公开在这方面不受限制。

本公开提供了用于治疗其他疾病或病症的方法，例如，与可通过TPRT介导的基因编辑校正的点突变相关或由其引起的疾病或病症。本文描述了一些这样的疾病，并且基于本公开可用本文提供的策略和融合蛋白治疗的其他合适的疾病对于本领域技术人员将是显而易见的。下面列出示例性的合适的疾病和病症。应当理解，各个序列中特定位置或残基的编号取决于所使用的具体蛋白和编号方案。例如，成熟蛋白的前体和成熟蛋白本身中的编号可能不同，物种之间的序列差异可能会影响编号。本领域技术人员将能够通过本领域所熟知的方法，例如通过序列比对和同源残基的测定，鉴定任何同源蛋白和相应编码核酸中的相应残基。示例性的合适疾病和病症包括但不限于：2-甲基-3-羟基丁酸尿症(2-methyl-3-hydroxybutyric aciduria)；3β-羟基类固醇脱氢酶缺乏症(3beta-Hydroxysteroid dehydrogenase deficiency)；3-甲基戊二酸尿症(3-Methylglutaconicaciduria)；3-氧-5α-类固醇δ4-脱氢酶缺乏症(3-Oxo-5alpha-steroid delta 4-dehydrogenase deficiency)；46,XY性反转1、3、5型(46,XY sex reversal,type 1,3,and5)；5-羟脯氨酸酶缺乏症(5-Oxoprolinase deficiency)；6-丙酮酰-四氢蝶呤合酶缺乏症(6-pyruvoyl-tetrahydropterin synthase deficiency)；Aarskog综合征(Aarskogsyndrome)；Aase综合征(Aase syndrome)；软骨成长不全2型(Achondrogenesis type 2)；色盲2和7(Achromatopsia 2and 7)；获得性长QT综合征(Acquired long QT syndrome)；Acrocallosal综合征Schinzel型(Acrocallosal syndrome,Schinzel type)；Acrocapitofemoral发育不良(Acrocapitofemoral dysplasia)；肢端骨发育不全2，有或无激素抗性(Acrodysostosis 2,with or without hormone resistance)；肢端红斑角化症(Acroerythrokeratoderma)；肩峰发育不良(Acromicric dysplasia)；Acth非依赖性肾上腺大结节性增生症2(Acth-independent macronodular adrenal hyperplasia 2)；激活PI3K-δ综合征(Activated PI3K-delta syndrome)；急性间歇性卟啉症(Acuteintermittent porphyria)；酰基辅酶A脱氢酶家族成员9缺乏症(deficiency of Acyl-CoAdehydrogenase family,member 9)；Adams-Oliver综合征5和6；腺嘌呤磷酸核糖转移酶缺乏症(Adenine phosphoribosyltransferase deficiency)；腺苷酸激酶缺乏症(Adenylatekinase deficiency)；溶血性贫血，腺苷酸琥珀酸裂解酶缺乏所致(hemolytic anemia dueto Adenylosuccinate lyase deficiency)；青少年肾消耗病(Adolescentnephronophthisis)；肾-肝-胰腺发育不良(Renal-hepatic-pancreatic dysplasia)；梅克尔(Meckel)综合征7型；肾上腺脑白质营养不良(Adrenoleukodystrophy)；成人交界性大疱性表皮松解症(Adult junctional epidermolysis bullosa)；交界性大疱性表皮松解症，局部变异(Epidermolysis bullosa,junctional,localisata variant)；成人神经元蜡样质脂褐质沉积症(Adult neuronal ceroid lipofuscinosis)；成人神经元蜡样质脂褐质沉积症(Adult neuronal ceroid lipofuscinosis)；成人发作性共济失调伴眼动失用症(Adult onset ataxia with oculomotor apraxia)；ADULT综合征；无纤维蛋白原血症和先天性无纤维蛋白原血症(Afibrinogenemia and congenital Afibrinogenemia)；常染色体隐性无丙种球蛋白血症2(autosomal recessive Agammaglobulinemia 2)；年龄相关性黄斑变性3、6、11和12(Age-related macular degeneration 3,6,11,and 12)；AicardiGoutieres综合征1、4和5；Chilbain狼疮1；Alagille综合征1和2；亚历山大(Alexander)症；黑尿酸尿症(Alkaptonuria)；Allan-Herndon-Dudley综合征；广泛先天性脱发症(Alopeciauniversalis congenital)；阿尔珀斯氏脑病(Alpers encephalopathy)；α-1-抗胰蛋白酶缺乏症(Alpha-1-antitrypsin deficiency)；常染色体显性、常染色体隐性和X连锁隐性Alport综合征(autosomal dominant,autosomal recessive,and X-linked recessiveAlport syndromes)；家族性阿尔茨海默病3，伴痉挛性下肢轻瘫和失用症(Alzheimerdisease,familial,3,with spastic paraparesis and apraxia)；阿尔茨海默病1、3和4型(Alzheimer disease,types,1,3,and 4)；低钙化型和低成熟型，IIA1釉质发育不全(hypocalcification type and hypomaturation type,IIA1 Amelogenesisimperfecta)；氨酰化酶1缺乏症(Aminoacylase 1deficiency)；阿米什婴儿癫痫综合征(Amish infantile epilepsy syndrome)；淀粉样蛋白转甲状腺素蛋白淀粉样变性(Amyloidogenic transthyretin amyloidosis)；淀粉样心肌病，转甲状腺素蛋白相关(Amyloid Cardiomyopathy,Transthyretin-related)；心肌病(Cardiomyopathy)；肌萎缩侧索硬化症1型、6型、15型(有或无额颞叶痴呆)、22型(有或无额颞叶痴呆)和10型(Amyotrophic lateral sclerosis types 1,6,15(with or without frontotemporaldementia),22(with or without frontotemporal dementia),and10)；额颞叶痴呆伴TDP43内含物，TARDBP相关(Frontotemporal dementia with TDP43 inclusions,TARDBP-related)；Andermann综合征；AndersenTawil综合征；先天性长QT综合征(Congenital longQT syndrome)；非血球型溶血性贫血，G6PD缺乏所致(Anemia,nonspherocytic hemolytic,due to G6PD deficiency)；Angelman综合征；严重新生儿脑病伴小头畸形(Severeneonatal-onset encephalopathy with microcephaly)；易感性自闭症，X-连锁3(susceptibility to Autism,X-linked 3)；遗传性血管病伴肾病、动脉瘤和肌肉痉挛(Angiopathy,hereditary,with nephropathy,aneurysms,and muscle cramps)；血管紧张素i-转换酶，良性血清升高(Angiotensin i-converting enzyme,benign serumincrease)；无虹膜、小脑性共济失调和智力低下(Aniridia,cerebellar ataxia,andmental retardation)；无甲症(Anonychia)；抗凝血酶III缺乏症(Antithrombin IIIdeficiency)；伴有生殖器异常和类固醇生成障碍的Antley-Bixler综合征(Antley-Bixlersyndrome with genital anomalies and disordered steroidogenesis)；家族性胸主动脉瘤4、6和9(Aortic aneurysm,familial thoracic 4,6,and 9)；胸主动脉瘤和主动脉夹层(Thoracic aortic aneurysms and aortic dissections)；多系统平滑肌功能障碍综合征(Multisystemic smooth muscle dysfunction syndrome)；烟雾病5(Moyamoya disease5)；再生障碍性贫血(Aplastic anemia)；表观盐皮质激素过量(Apparentmineralocorticoid excess)；精氨酸酶缺乏症(Arginase deficiency)；精氨基琥珀酸裂解酶缺乏症(Argininosuccinate lyase deficiency)；芳香酶缺乏症(Aromatasedeficiency)；致心律失常性右心室心肌病5型、8型和10型(Arrhythmogenic rightventricular cardiomyopathy types 5,8,and 10)；原发性家族性肥厚型心肌病(Primaryfamilial hypertrophic cardiomyopathy)；先天性远端多发性关节弯曲症，X连锁(Arthrogryposis multiplex congenita,distal,X-linked)；关节弯曲肾功能不全胆汁淤积综合征(Arthrogryposis renal dysfunction cholestasis syndrome)；关节弯曲、肾功能障碍和胆汁淤积2(Arthrogryposis,renal dysfunction,and cholestasis 2)；天冬酰胺合成酶缺乏症(Asparagine synthetase deficiency)；神经元迁移异常(Abnormalityof neuronal migration)；共济失调伴维生素E缺乏(Ataxia with vitamin Edeficiency)；常染色体显性感觉性共济失调(Ataxia,sensory,autosomal dominant)；共济失调-毛细血管扩张综合征(Ataxia-telangiectasia syndrome)；遗传性癌症易感综合征(Hereditary cancer-predisposing syndrome)；转铁蛋白缺乏症(Atransferrinemia)；家族性心房颤动11、12、13和16(Atrial fibrillation,familial,11,12,13,and 16)；心房间隔缺损2、4和7(有或无房室传导缺陷)(Atrial septal defects 2,4,and 7(with orwithout atrioventricular conduction defects))；心房阻滞2(Atrial standstill 2)；心房间隔缺损4(Atrioventricular septal defect 4)；遗传性眼球萎缩(Atrophiabulborum hereditaria)；ATR-X综合征(ATR-X syndrome)；耳髁突综合征2(Auriculocondylar syndrome 2)；多系统自身免疫性疾病，婴儿期发病(Autoimmunedisease,multisystem,infantile-onset)；自身免疫性淋巴增生综合征1a型(Autoimmunelymphoproliferative syndrome,type 1a)；常染色体显性遗传性少汗性外胚层发育不良(Autosomal dominant hypohidrotic ectodermal dysplasia)；常染色体显性进行性外眼肌麻痹伴线粒体DNA缺失1和3(Autosomal dominant progressive externalophthalmoplegia with mitochondrial DNA deletions 1and 3)；常染色体显性扭转肌张力障碍4(Autosomal dominant torsion dystonia 4)；常染色体隐性中央核肌病(Autosomal recessive centronuclear myopathy)；常染色体隐性先天性鱼鳞癣1、2、3、4A和4B(Autosomal recessive congenital ichthyosis 1,2,3,4A,and 4B)；常染色体隐性皮肤松弛IA型和1B型(Autosomal recessive cutis laxa type IA and 1B)；常染色体隐性少汗性外胚层发育不良综合征(Autosomal recessive hypohidrotic ectodermaldysplasia syndrome)；外胚层发育不良11b(Ectodermal dysplasia 11b)；少汗/毛发/牙齿型，常染色体隐性(hypohidrotic/hair/tooth type,autosomal recessive)；常染色体隐性低磷酸血症骨病(Autosomal recessive hypophosphatemic bone disease)；Axenfeld-Rieger综合征3型；Bainbridge-Ropers综合征；Bannayan-Riley-Ruvalcaba综合征；PTEN错构瘤肿瘤综合征(PTEN hamartoma tumor syndrome)；Baraitser-Winter综合征1和2；Barakat综合征；Bardet-Biedl综合征1、11、16和19；裸淋巴细胞综合征2型，互补群E(Bare lymphocyte syndrome type 2,complementation group E)；产前Bartter综合征2型(Bartter syndrome antenatal type 2)；Bartter综合征3型、3型伴低钙尿和4型(Bartter syndrome types 3,3with hypocalciuria,and 4)；特发性基底核钙化4(Basalganglia calcification,idiopathic,4)；念珠状毛(Beaded hair)；良性家族性血尿(Benign familial hematuria)；良性家族性新生儿癫痫1和2(Benign familial neonatalseizures 1and 2)；良性家族性新生儿癫痫1和/或肌纤维颤搐(Seizures,benignfamilial neonatal,1,and/or myokymia)；癫痫，早期婴儿癫痫性脑病7(Seizures,Earlyinfantile epileptic encephalopathy 7)；良性家族性新生儿-婴儿癫痫(Benignfamilial neonatal-infantile seizures)；良性遗传性舞蹈病(Benign hereditarychorea)；良性肩胛腓骨肌营养不良伴心肌病(Benign scapuloperoneal musculardystrophy with cardiomyopathy)；Bernard-Soulier综合征A1和A2型(常染色体显性)；Bestrophinopathy，常染色体隐性；β地中海贫血(beta Thalassemia)；Bethlem肌病和Bethlem肌病2(Bethlem myopathy and Bethlem myopathy 2)；Bietti结晶样角膜视网膜营养不良(Bietti crystalline corneoretinal dystrophy)；先天性胆汁酸合成障碍2(Bile acid synthesis defect,congenital,2)；生物素酶缺乏症(Biotinidasedeficiency)；Birk Barel智力低下畸形综合征(Birk Barel mental retardationdysmorphism syndrome)；睑裂狭小、下垂和倒转型内眦赘皮(Blepharophimosis,ptosis,and epicanthus inversus)；Bloom综合征；Borjeson-Forssman-Lehmann综合征；BoucherNeuhauser综合征；短指症A1和A2型(Brachydactyly types A1 and A2)；短指症伴高血压(Brachydactyly with hypertension)；脑小血管病伴出血(Brain small vessel diseasewith hemorrhage)；支链酮酸脱氢酶激酶缺乏症(Branched-chain ketoaciddehydrogenase kinase deficiency)；Branchiootic综合征2和3；早发型乳腺癌(Breastcancer,early-onset)；家族性乳腺癌-卵巢癌1、2和4(Breast-ovarian cancer,familial1,2,and 4)；角膜脆弱综合征2(Brittle cornea syndrome 2)；Brody肌病；支气管扩张伴有或不伴有升高的汗液氯化物3(Bronchiectasis with or without elevated sweatchloride 3)；Brown-Vialetto-Van Laere综合征和Brown-Vialetto-Van Laere综合征2；Brugada综合征；Brugada综合征1；心室颤动(Ventricular fibrillation)；阵发性家族性心室颤动(Paroxysmal familial ventricular fibrillation)；Brugada综合征和Brugada综合征4；长QT综合征(Long QT syndrome)；心脏性猝死(Sudden cardiac death)；牛眼样黄斑营养不良(Bull eye macular dystrophy)；Stargardt病4；视锥视杆营养不良12(Cone-rod dystrophy 12)；大疱性鱼鳞癣样红皮病(Bullous ichthyosiformerythroderma)；Burn-Mckeown综合征；家族性念珠菌病2、5、6和8(Candidiasis,familial,2,5,6,and 8)；碳水化合物缺乏糖蛋白综合征I型和II型(Carbohydrate-deficientglycoprotein syndrome type I and II)；碳酸酐酶VA缺乏症，高氨血症所致(Carbonicanhydrase VA deficiency,hyperammonemia due to)；结肠癌(Carcinoma of colon)；心律失常(Cardiac arrhythmia)；长QT综合征LQT1亚型(Long QT syndrome,LQT1 subtype)；婴儿致命性心脑肌病，细胞色素c氧化酶缺乏所致(Cardioencephalomyopathy,fatalinfantile,due to cytochrome c oxidase deficiency)；Cardiofaciocutaneous综合征；心肌病(Cardiomyopathy)；Danon病；肥厚型心肌病(Hypertrophic cardiomyopathy)；左心室致密化不全心肌病(Left ventricular noncompaction cardiomyopathy)；Carnevale综合征；Carney综合征1型；肉碱酰基肉碱转位酶缺乏症(Carnitine acylcarnitinetranslocase deficiency)；肉碱棕榈酰基转移酶I、II、II(迟发性)和II(婴儿)缺乏症(Carnitine palmitoyltransferase I,II,II(late onset),and II(infantile)deficiency)；白内障1、4，常染色体显性，常染色体显性，多种类型，伴小角膜，coppock样，幼年，伴小角膜和糖尿，以及弥漫性非进行性核(Cataract 1,4,autosomal dominant,autosomal dominant,multiple types,with microcornea,coppock-like,juvenile,withmicrocornea and glucosuria,and nuclear diffuse nonprogressive)；儿茶酚胺敏感性多形性室性心动过速(Catecholaminergic polymorphic ventricular tachycardia)；尾部退化综合征(Caudal regression syndrome)；家族性Cd8缺乏症(Cd8 deficiency,familial)；中央轴突症(Central core disease)；1、9和16号染色体着丝粒不稳定和免疫缺陷(Centromeric instability of chromosomes 1,9and 16and immunodeficiency)；小儿小脑共济失调伴进行性眼外麻痹及小脑共济失调、智力低下和平衡失调综合征2(Cerebellar ataxia infantile with progressive external ophthalmoplegi andCerebellar ataxia,mental retardation,and dysequilibrium syndrome 2)；APP相关脑淀粉样血管病(Cerebral amyloid angiopathy,APP-related)；常染色体显性和隐性脑动脉病变伴皮质下梗死和脑白质病(Cerebral autosomal dominant and recessivearteriopathy with subcortical infarcts and leukoencephalopathy)；脑海绵状血管瘤2(Cerebral cavernous malformations 2)；脑眼面骨骼综合征2(Cerebrooculofacioskeletal syndrome 2)；脑-眼-面-骨骼综合征(Cerebro-oculo-facio-skeletal syndrome)；脑视网膜微血管病伴钙化和囊肿(Cerebroretinalmicroangiopathy with calcifications and cysts)；神经元蜡样质脂褐质沉积症2、6、7和10()；Ch\xc3\xa9diak-Higashi综合征，成人型Chediak-Higashi综合征(Ceroidlipofuscinosis neuronal 2,6,7,and 10；Ch\xc3\xa9diak-Higashi syndrome,Chediak-Higashi syndrome,adult type)；夏-马-图三氏(Charcot-Marie-Tooth)病1B、2B2、2C、2F、2I、2U(轴突)、1C(脱髓鞘)、显性中间体C、隐性中间体A、2A2、4C、4D、4H、IF、IVF和X型；肩腓型脊髓性肌萎缩(Scapuloperoneal spinal muscular atrophy)；先天非进行性远端脊髓性肌萎缩(Distal spinal muscular atrophy,congenital nonprogressive)；常染色体隐性远端脊髓性肌萎缩5(Spinal muscular atrophy,distal,autosomal recessive,5)；CHARGE联合征；儿童磷酸酶过低症(Childhood hypophosphatasia)；成人磷酸酶过低症(Adult hypophosphatasia)；胆囊炎(Cholecystitis)；进行性家族性肝内胆汁淤积3(Progressive familial intrahepatic cholestasis 3)；妊娠期肝内胆汁淤积3(Cholestasis,intrahepatic,of pregnancy 3)；胆固烷醇贮积病(Cholestanol storagedisease)；胆固醇单加氧酶(侧链切割)缺乏症(Cholesterol monooxygenase(side-chaincleaving)deficiency)；软骨发育异常Blomstrand型(Chondrodysplasia Blomstrandtype)；点状软骨发育异常1，X连锁隐性和2X连锁显性(Chondrodysplasia punctata 1,X-linked recessive and 2X-linked dominant)；CHOPS综合征；慢性肉芽肿病，常染色体隐性细胞色素b阳性，1型和2型(Chronic granulomatous disease,autosomal recessivecytochrome b-positive,types 1and 2)；Chudley-McCullough综合征；原发性纤毛运动障碍7、11、15、20和22(Ciliary dyskinesia,primary,7,11,15,20and 22)；瓜氨酸血症I型(Citrullinemia type I)；瓜氨酸血症I型和II型(Citrullinemia type I and II)；颅锁骨发育不全(Cleidocranial dysostosis)；C样综合征(C-like syndrome)；Cockayne综合征A型；原发性辅酶Q10缺乏症1、4和7(Coenzyme Q10deficiency,primary 1,4,and 7)；CoffinSiris/智力低下(Coffin Siris/Intellectual Disability)；Coffin-Lowry综合征；Cohen综合征；冷诱发出汗综合征1(Cold-induced sweating syndrome 1)；COLE-CARPENTER综合征2；细胞和体液免疫联合缺陷伴肉芽肿(Combined cellular and humoralimmune defects with granulomas)；联合d-2-和l-2-羟基戊二酸尿症()；结合性丙二酸和甲基丙二酸尿症(Combined d-2-and l-2-hydroxyglutaric aciduria；Combinedmalonic and methylmalonic aciduria)；联合氧化磷酸化缺陷1、3、4、12、15和25(Combined oxidative phosphorylation deficiencies 1,3,4,12,15,and 25)；联合部分和完全17-α-羟化酶/17,20-裂解酶缺乏症(Combined partial and complete 17-alpha-hydroxylase/17,20-lyase deficiency)；常见变异免疫缺陷9(Common variableimmunodeficiency 9)；c1抑制剂补体成分4部分缺乏症，功能失调所致(Complementcomponent 4,partial deficiency of,due to dysfunctional c1 inhibitor)；补体因子B缺乏症(Complement factor B deficiency)；锥体细胞单色型色觉(Conemonochromatism)；锥杆营养不良2和6(Cone-rod dystrophy 2and 6)；锥杆营养不良性釉质发育不全(Cone-rod dystrophy amelogenesis imperfecta)；X-连锁先天性肾上腺增生症和先天性肾上腺发育不全(Congenital adrenal hyperplasia and Congenitaladrenal hypoplasia,X-linked)；先天性无巨核细胞血小板减少症(Congenitalamegakaryocytic thrombocytopenia)；先天性无虹膜(Congenital aniridia)；先天性中枢性换气不足(Congenital central hypoventilation)；先天性巨结肠病3(Hirschsprungdisease 3)；先天性挛缩性蜘蛛样指综合征(Congenital contracturalarachnodactyly)；先天性四肢和面部挛缩、肌张力减退和发育迟缓(Congenitalcontractures of the limbs and face,hypotonia,and developmental delay)；先天性糖基化障碍1B、1D、1G、1H、1J、1K、1N、1P、2C、2J、2K、IIm型(Congenital disorder ofglycosylation types 1B,1D,1G,1H,1J,1K,1N,1P,2C,2J,2K,IIm)；先天性红细胞生成异常性贫血I型和II型(Congenital dyserythropoietic anemia,type I and II)；先天性面部外胚层发育不良(Congenital ectodermal dysplasia of face)；先天性红细胞生成性卟啉症(Congenital erythropoietic porphyria)；先天性泛发性脂肪代谢障碍2型(Congenital generalized lipodystrophy type 2)；先天性心脏病多类型2(Congenitalheart disease,multiple types,2)；先天性心脏病(Congenital heart disease)；主动脉弓离断(Interrupted aortic arch)；先天性脂肪瘤过度生长、血管畸形和表皮痣(Congenital lipomatous overgrowth,vascular malformations,and epidermal nevi)；非小细胞肺癌(Non-small cell lung cancer)；卵巢肿瘤(Neoplasm of ovary)；非特异性心脏传导缺陷(Cardiac conduction defect,nonspecific)；先天性微绒毛萎缩(Congenital microvillous atrophy)；先天性肌营养不良症(Congenital musculardystrophy)；先天性肌营养不良症，部分LAMA2缺乏所致(Congenital muscular dystrophydue to partial LAMA2deficiency)；先天性肌营养不良-抗肌萎缩相关糖蛋白病伴脑和眼异常A2、A7、A8、A11和A14型(Congenital muscular dystrophy-dystroglycanopathy withbrain and eye anomalies,types A2,A7,A8,A11,and A14)；先天性肌营养不良-抗肌萎缩相关糖蛋白病伴智力低下B2、B3、B5和B15型(Congenital muscular dystrophy-dystroglycanopathy with mental retardation,types B2,B3,B5,and B15)；先天性肌营养不良-抗肌萎缩相关糖蛋白病无智力低下B5型(Congenital muscular dystrophy-dystroglycanopathy without mental retardation,type B5)；先天性肌肥大-脑综合征(Congenital muscular hypertrophy-cerebral syndrome)；先天性肌无力综合征，乙酰唑胺反应性(Congenital myasthenic syndrome,acetazolamide-responsive)；先天性肌病伴纤维型不均衡(Congenital myopathy with fiber type disproportion)；先天性眼球缺损(Congenital ocular coloboma)；先天性静止性夜盲症1A、1B、1C、1E、1F、2A型(Congenital stationary night blindness,type 1A,1B,1C,1E,1F,and 2A)；粪卟啉症(Coproporphyria)；扁平角膜2(Cornea plana 2)；Fuchs角膜内皮营养不良4(Cornealdystrophy,Fuchs endothelial,4)；角膜内皮营养不良2型(Corneal endothelialdystrophy type 2)；角膜脆性球形角膜、蓝色巩膜和关节运动过度(Corneal fragilitykeratoglobus,blue sclerae and joint hypermobility)；Cornelia de Lange综合征1和5；常染色体显性冠状动脉病变2(Coronary artery disease,autosomal dominant 2)；冠状动脉性心脏病(Coronary heart disease)；高α脂蛋白血症2(Hyperalphalipoproteinemia 2)；复杂型皮质发育不良伴其他脑畸形5和6(Corticaldysplasia,complex,with other brain malformations 5and 6)；枕骨皮质畸形(Cortical malformations,occipital)；皮质醇结合球蛋白缺陷症(Corticosteroid-binding globulin deficiency)；皮质酮甲基氧化酶2型缺乏症(Corticosteronemethyloxidase type 2deficiency)；Costello综合征；Cowden综合征1；扁平髋(Coxaplana)；常染色体显性颅骨骨干发育不良(Craniodiaphyseal dysplasia,autosomaldominant)；颅缝早闭1和4(Craniosynostosis 1and 4)；颅缝早闭和牙齿异常(Craniosynostosis and dental anomalies)；肌酸缺乏症，X连锁(Creatine deficiency,X-linked)；Crouzon综合征；隐眼综合征(Cryptophthalmos syndrome)；单侧或双侧隐睾症(Cryptorchidism,unilateral or bilateral)；Cushing指(趾)关节粘连(Cushingsymphalangism)；皮肤恶性黑素瘤1(Cutaneous malignant melanoma 1)；皮肤松弛症伴骨营养不良和严重肺、胃肠道和泌尿系统异常(Cutis laxa with osteodystrophy and withsevere pulmonary,gastrointestinal,and urinary abnormalities)；新生儿暂时性紫绀和非典型肾病(Cyanosis,transient neonatal and atypical nephropathic)；囊性纤维化病(Cystic fibrosis)；胱氨酸尿症(Cystinuria)；细胞色素c氧化酶i缺乏症(Cytochrome c oxidase i deficiency；)；细胞色素-c氧化酶缺乏症(Cytochrome-coxidase deficiency)；D-2-羟基戊二酸尿症2(D-2-hydroxyglutaric aciduria 2)；节段性Darier病(Darier disease,segmental)；耳聋伴复杂发育不全小耳症和小牙症(LAMM)(Deafness with labyrinthine aplasia microtia and microdontia(LAMM))；耳聋，常染色体显性3a、4、12、13、15，常染色体显性非综合征型感觉神经17、20和65(Deafness,autosomal dominant 3a,4,12,13,15,autosomal dominant nonsyndromicsensorineural 17,20,and 65)；耳聋，常染色体隐性1A、2、3、6、8、9、12、15、16、18b、22、28、31、44、49、63、77、86和89(Deafness,autosomal recessive 1A,2,3,6,8,9,12,15,16,18b,22,28,31,44,49,63,77,86,and 89)；耳蜗性耳聋伴近视和智力低下，无前庭受累，常染色体显性，X-连锁2(Deafness,cochlear,with myopia and intellectual impairment,without vestibular involvement,autosomal dominant,X-linked 2)；2-甲基丁酰辅酶A脱氢酶缺乏症(Deficiency of 2-methylbutyryl-CoA dehydrogenase)；3-羟酰基辅酶A脱氢酶缺乏症(Deficiency of 3-hydroxyacyl-CoA dehydrogenase)；α-甘露糖苷酶缺乏症(Deficiency of alpha-mannosidase)；芳香族-L-氨基酸脱羧酶缺乏症(Deficiency ofaromatic-L-amino-acid decarboxylase)；双磷酸甘油酸变位酶缺乏症(Deficiency ofbisphosphoglycerate mutase)；丁酰辅酶A脱氢酶缺乏症(Deficiency of butyryl-CoAdehydrogenase)；铁氧化酶缺乏症(Deficiency of ferroxidase)；半乳糖激酶缺乏症(Deficiency of ferroxidase；Deficiency of galactokinase)；胍基乙酸甲基转移酶缺乏症(Deficiency of guanidinoacetate methyltransferase)；透明质酸氨基葡糖苷酶缺乏症(Deficiency of hyaluronoglucosaminidase)；5-磷酸核糖异构酶缺乏症(Deficiency of ribose-5-phosphate isomerase)；类固醇11-β-单加氧酶缺乏症(Deficiency of steroid 11-beta-monooxygenase)；UDP葡糖-己糖-1-磷酸尿苷酰转移酶缺乏症(Deficiency of UDPglucose-hexose-1-phosphate uridylyltransferase)；黄嘌呤氧化酶缺乏症(Deficiency of xanthine oxidase)；Dejerine-Sottas病；夏-马-图三氏病ID和IVF型；常染色体显性Dejerine-Sottas综合征；树突状细胞、单核细胞、B淋巴细胞和自然杀伤淋巴细胞缺乏症(Dendritic cell,monocyte,Blymphocyte,and natural killerlymphocyte deficiency)；Desbuquois发育不良2；Desbuquois综合征；DFNA2非综合征性听觉损失(DFNA 2Nonsyndromic Hearing Loss)；糖尿病和尿崩症伴视神经萎缩和耳聋(Diabetes mellitus and insipidus with optic atrophy and deafness)；糖尿病2型和胰岛素依赖型20(Diabetes mellitus,type 2,and insulin-dependent,20)；Diamond-Blackfan贫血1、5、8和10；腹泻3(先天性分泌钠综合征型)和5(伴有先天性簇绒肠病)(Diarrhea 3(secretory sodium,congenital,syndromic)and 5(with tuftingenteropathy,congenital))；二羧基氨基酸尿症(Dicarboxylic aminoaciduria)；弥漫性掌跖角化病Bothnian型(Diffuse palmoplantar keratoderma,Bothnian type)；Digitorenocerebral综合征；二氢蝶呤还原酶缺乏症(Dihydropteridine reductasedeficiency)；扩张型心肌病1A、1AA、1C、1G、1BB、1DD、1FF、1HH、1I、1KK、1N、1S、1Y和3B(Dilated cardiomyopathy 1A,1AA,1C,1G,1BB,1DD,1FF,1HH,1I,1KK,1N,1S,1Y,and 3B)；左心室致密化不全3(Left ventricular noncompaction 3)；类固醇生成紊乱，细胞色素p450氧化还原酶缺乏所致(Disordered steroidogenesis due to cytochrome p450oxidoreductase deficiency)；远端关节弯曲2B型(Distal arthrogryposis type 2B)；远端遗传性运动神经元病2B型(Distal hereditary motor neuronopathy type 2B)；远端肌病Markesbery-Griggs型(Distal myopathy Markesbery-Griggs type)；远端脊肌萎缩症，X连锁3(Distal spinal muscular atrophy,X-linked 3)；双行睫-淋巴水肿综合征(Distichiasis-lymphedema syndrome)；显性营养不良型大疱性表皮松解症伴皮肤缺损(Dominant dystrophic epidermolysis bullosa with absence of skin)；显性遗传性视神经萎缩(Dominant hereditary optic atrophy)；Donnai Barrow综合征；多巴胺β羟化酶缺乏症(Dopamine beta hydroxylase deficiency)；多巴胺受体d2，脑密度降低(Dopaminereceptor d2,reduced brain density of)；Dowling-degos病4；Doyne蜂窝状视网膜营养不良(Doyne honeycomb retinal dystrophy)；Malattia leventinese；Duane综合征2型；Dubin-Johnson综合征；杜氏肌营养不良症(Duchenne muscular dystrophy)；贝克肌营养不良(Becker muscular dystrophy)；血纤维蛋白原异常(Dysfibrinogenemia)；常染色体显性和常染色体显性先天性角化不良3(Dyskeratosis congenita autosomal dominantand autosomal dominant,3)；先天性角化不良，常染色体隐性1、3、4和5(Dyskeratosiscongenita,autosomal recessive,1,3,4,and 5)；先天性角化不良，X连锁(Dyskeratosiscongenita X-linked)；家族性运动障碍伴面肌纤维颤搐(Dyskinesia,familial,withfacial myokymia)；异常纤溶酶原血症(Dysplasminogenemia)；肌张力障碍2(扭转，常染色体隐性)，3(扭转，X连锁)，5(多巴反应型)，10、12、16、25、26(肌阵挛)(Dystonia 2(torsion,autosomal recessive),3(torsion,X-linked),5(Dopa-responsive type),10,12,16,25,26(Myoclonic))；良性家族性婴儿癫痫2(Seizures,benign familialinfantile,2)；婴儿早期癫痫性脑病2、4、7、9、10、11、13和14(Early infantile epilepticencephalopathy 2,4,7,9,10,11,13,and14)；非典型Rett综合征；早期T细胞祖细胞急性淋巴细胞白血病(Early T cell progenitor acute lymphoblastic leukemia)；外胚层发育不良皮肤脆性综合征(Ectodermal dysplasia skin fragility syndrome)；外胚层发育不良-并指(趾)综合征1(Ectodermal dysplasia-syndactyly syndrome 1)；晶状体异位，孤立型常染色体隐性和显性(Ectopia lentis,isolated autosomal recessive anddominant)；缺指(趾)畸形、外胚层发育不良和唇裂/腭裂综合征3(Ectrodactyly,ectodermal dysplasia,and cleft lip/palate syndrome 3)；Ehlers-Danlos综合征7型(常染色体隐性)，经典型，2型(早衰)，羟赖氨酸缺乏，4型，4型变异，以及腱生蛋白-X缺乏所致(Ehlers-Danlos syndrome type 7(autosomal recessive),classic type,type 2(progeroid),hydroxylysine-deficient,type 4,type 4variant,and due to tenascin-X deficiency)；Eichsfeld型先天性肌肉萎缩症(Eichsfeld type congenital musculardystrophy)；内分泌-脑骨发育不良(Endocrine-cerebroosteodysplasia)；增强型s-锥体综合征(Enhanced s-cone syndrome)；大前庭导水管综合征(Enlarged vestibularaqueduct syndrome)；肠激酶缺乏症(Enterokinase deficiency)；疣状表皮发育不良(Epidermodysplasia verruciformis)；单纯性大疱性表皮松解症和肢带型肌营养不良症，单纯性伴斑状色素沉着，单纯性伴幽门闭锁，单纯性，常染色体隐性，以及伴幽门闭锁(Epidermolysa bullosa simplex and limb girdle muscular dystrophy,simplex withmottled pigmentation,simplex with pyloric atresia,simplex,autosomalrecessive,and with pyloric atresia)；表皮松解性掌跖角化病(Epidermolyticpalmoplantar keratoderma)；家族性热性惊厥8(Familial febrile seizures 8)；儿童失神癫痫2、12(特发性泛发性，易感)5(夜间额叶)，夜间额叶1型，部分性，伴可变病灶，进行性肌阵挛3和X连锁，伴可变学习障碍和行为障碍(Epilepsy,childhood absence 2,12(idiopathic generalized,susceptibility to)5(nocturnal frontal lobe),nocturnalfrontal lobe type 1,partial,with variable foci,progressive myoclonic 3,and X-linked,with variable learning disabilities and behavior disorders)；癫痫性脑病，儿童期发病，早期婴儿型，1、19、23、25、30和32(Epileptic encephalopathy,childhood-onset,early infantile,1,19,23,25,30,and 32)；多发性骨骺发育不良伴近视和传导性耳聋(Epiphyseal dysplasia,multiple,with myopia and conductivedeafness)；发作性共济失调2型(Episodic ataxia type 2)；家族性阵发性疼痛综合征3(Episodic pain syndrome,familial,3)；Epstein综合征；Fechtner综合征；红细胞生成性原卟啉症(Erythropoietic protoporphyria)；雌激素抗性(Estrogen resistance)；渗出性玻璃体视网膜病变6(Exudative vitreoretinopathy 6)；法布里病和法布里病心脏变异(Fabry disease and Fabry disease,cardiac variant)；因子H、VII、X、v和因子viii，2种联合缺乏，xiii，亚基，缺乏(Factor H,VII,X,v and factor viii,combined deficiencyof 2,xiii,a subunit,deficiency)；家族性腺瘤性息肉病1和3(Familial adenomatouspolyposis 1and 3)；家族性淀粉样蛋白肾病伴荨麻疹和耳聋(Familial amyloidnephropathy with urticaria and deafness)；家族性寒冷性荨麻疹(Familial coldurticarial)；小脑吲体家族性发育不全(Familial aplasia of the vermis)；家族性良性天疱疮(Familial benign pemphigus)；家族性乳腺癌(Familial cancer of breast)；易感性乳腺癌(Breast cancer,susceptibility to)；骨肉瘤(Osteosarcoma)；胰腺癌3(Pancreatic cancer 3)；家族性心肌病(Familial cardiomyopathy)；家族性寒冷性自身炎症综合征2(Familial cold autoinflammatory syndrome 2)；家族性结直肠癌(Familial colorectal cancer)；家族性渗出性玻璃体视网膜病变，X连锁(Familialexudative vitreoretinopathy,X-linked)；家族性偏瘫偏头痛1型和2型(Familialhemiplegic migraine types 1and 2)；家族性高胆固醇血症(Familialhypercholesterolemia)；家族性肥厚型心肌病1、2、3、4、7、10、23和24(Familialhypertrophic cardiomyopathy 1,2,3,4,7,10,23and 24)；家族性低钾血症-低镁血症(Familial hypokalemia-hypomagnesemia)；家族性肾小球囊肿性肾病(Familialhypoplastic,glomerulocystic kidney)；家族性婴儿肌无力(Familial infantilemyasthenia)；家族性青少年痛风(Familial juvenile gout)；家族性地中海热和家族性地中海热，常染色体显性(Familial Mediterranean fever and Familial mediterraneanfever,autosomal dominant)；家族性孔洞脑畸形(Familial porencephaly)；家族性迟发性皮肤卟啉症(Familial porphyria cutanea tarda)；家族性肺毛细血管瘤病(Familialpulmonary capillary hemangiomatosis)；家族性肾糖尿(Familial renal glucosuria)；家族性肾低尿酸血症(Familial renal hypouricemia)；家族性限制性心肌病1(Familialrestrictive cardiomyopathy 1)；家族性高脂蛋白血症1型和3型(Familial type 1and3hyperlipoproteinemia)；范可尼贫血，互补群E、I、N和O(Fanconi anemia,complementation group E,I,N,and O)；Fanconi-Bickel综合征；易感性蚕豆病(Favism,susceptibility to)；家族性高热惊厥11(Febrile seizures,familial,11)；Feingold综合征1；胎儿血红蛋白数量性状位点1(Fetal hemoglobin quantitative trait locus 1)；FG综合征和FG综合征4；先天性眼外肌纤维化1、2、3a(有或没有眼外肌受累)、3b(Fibrosisof extraocular muscles,congenital,1,2,3a(with or without extraocularinvolvement),3b)；鱼眼病(Fish-eye disease)；斑点状角膜营养不良(Fleck cornealdystrophy)；Floating-Harbor综合征；语言障碍局灶性癫痫伴有或不伴有智力低下(Floating-Harbor syndrome；Focal epilepsy with speech disorder with or withoutmental retardation)；局灶节段性肾小球硬化症5(Focal segmentalglomerulosclerosis 5)；前脑缺陷(Forebrain defects)；Frank Ter Haar综合征；Borrone Di Rocco Crovato综合征；Frasier综合征；维尔姆氏瘤1(Wilms tumor 1)；Freeman-Sheldon综合征；额干骺端发育不良1和3(Frontometaphyseal dysplasia 1and3)；额颞叶痴呆(Frontotemporal dementia)；额颞叶痴呆和/或肌萎缩侧索硬化症3和4(Frontotemporal dementia and/or amyotrophic lateral sclerosis 3and 4)；额颞叶痴呆染色体3连锁和额颞叶痴呆泛素阳性(Frontotemporal Dementia Chromosome 3-Linked and Frontotemporal dementia ubiquitin-positive)；果糖-双磷酸酶缺乏症(Fructose-biphosphatase deficiency)；富尔曼综合征(Fuhrmann syndrome)；γ-氨基丁酸转氨酶缺乏症(Gamma-aminobutyric acid transaminase deficiency)；Gamstorp-Wohlfart综合征；戈谢病1型和亚急性神经病(Gaucher disease type 1and Subacuteneuronopathic)；家族性水平凝视麻痹伴进行性脊柱侧凸(Gaze palsy,familialhorizontal,with progressive scoliosis)；泛发性显性营养不良型大疱性表皮松解症(Generalized dominant dystrophic epidermolysis bullosa)；泛发性癫痫伴发热性惊厥加3、1型、2型(Generalized epilepsy with febrile seizures plus 3,type 1,type2)；癫痫性脑病Lennox-Gastaut型(Epileptic encephalopathy Lennox-Gastaut type)；巨轴索神经病(Giant axonal neuropathy)；Glanzmann血小板无力症(Glanzmannthrombasthenia)；开角型青光眼1，e、F和G(Glaucoma 1,open angle,e,F,and G)；原发性先天性青光眼3，d(Glaucoma 3,primary congenital,d)；先天性青光眼和先天性青光眼缺损(Glaucoma,congenital and Glaucoma,congenital,Coloboma)；青少年型原发性开角型青光眼(Glaucoma,primary open angle,juvenile-onset)；胶质瘤易感性1(；Gliomasusceptibility 1)；葡萄糖转运蛋白1型缺乏综合征(Glucose transporter type1deficiency syndrome)；葡萄糖-6-磷酸转运缺陷(Glucose-6-phosphate transportdefect)；GLUT1缺乏综合征2(GLUT1 deficiency syndrome 2)；特发性泛发性易感癫痫12(Epilepsy,idiopathic generalized,susceptibility to,12)；谷氨酸亚胺甲基转移酶缺乏症(Glutamate formiminotransferase deficiency)；戊二酸血症IIA和IIB(Glutaricacidemia IIA and IIB)；戊二酸尿症1型(Glutaric aciduria,type 1)；谷胱甘肽合成酶缺乏症(Gluthathione synthetase deficiency)；糖原贮积病0(肌肉)，II(成人型)，IXa2，IXc，1A型；II型、IV型、IV型(肝病和肌病联合)、V型和VI型(Glycogen storage disease 0(muscle),II(adult form),IXa2,IXc,type 1A；type II,type IV,IV(combined hepaticand myopathic),type V,and type VI)；Goldmann-Favre综合征；戈登综合征(Gordonsyndrome)；Gorlin综合征；前脑无裂畸形序列征(Holoprosencephaly sequence)；前脑无裂畸形7(Holoprosencephaly 7)；慢性肉芽肿病，X连锁，变异(Granulomatous disease,chronic,X-linked,variant)；卵巢颗粒细胞瘤(Granulosa cell tumor of the ovary)；灰色血小板综合征(Gray platelet syndrome)；Griscelli综合征3型；Groenouw角膜营养不良I型(Groenouw corneal dystrophy type I)；生长和智力低下、下颌面骨发育不全、小头畸形和腭裂(Growth and mental retardation,mandibulofacial dysostosis,microcephaly,and cleft palate)；生长激素缺乏症伴垂体异常(Growth hormonedeficiency with pituitary anomalies)；生长激素不敏感伴免疫缺陷(Growth hormoneinsensitivity with immunodeficiency)；GTP环化水解酶I缺乏症(GTP cyclohydrolaseI deficiency)；Hajdu-Cheney综合征；手足子宫综合征(Hand foot uterus syndrome)；听觉受损(Hearing impairment)；婴儿毛细血管血管瘤(Hemangioma,capillaryinfantile)；血液肿瘤(Hematologic neoplasm)；血色病1、2B和3型(Hemochromatosistype 1,2B,and3)；糖尿病微血管并发症7(Microvascular complications of diabetes7)；转铁蛋白血清水平定量性状位点2(Transferrin serum level quantitative traitlocus2)；非缺失性血红蛋白H病(Hemoglobin H disease,nondeletional)；非血球型溶血性贫血，葡萄糖磷酸异构酶缺乏所致(Hemolytic anemia,nonspherocytic,due toglucose phosphate isomerase deficiency)；家族性噬血细胞性淋巴组织细胞增生症2(Hemophagocytic lymphohistiocytosis,familial,2)；家族性噬血细胞性淋巴组织细胞增生症3(Hemophagocytic lymphohistiocytosis,familial,3)；肝素辅因子II缺乏症(Heparin cofactor II deficiency)；遗传性肠病性肢端皮炎(Hereditaryacrodermatitis enteropathica)；遗传性乳腺癌和卵巢癌综合征(Hereditary breastand ovarian cancer syndrome)；共济失调-毛细血管扩张样障碍(Ataxia-telangiectasia-like disorder)；遗传性弥漫性胃癌(Hereditary diffuse gastriccancer)；遗传性弥漫性球状体白质脑病()Hereditary diffuse leukoencephalopathywith spheroids；遗传因素II、IX、VIII缺乏症(Hereditary factors II,IX,VIIIdeficiency disease)；遗传性出血性毛细血管扩张症2型(Hereditary hemorrhagictelangiectasia type 2)；遗传性无汗性疼痛不敏感(Hereditary insensitivity topain with anhidrosis)；遗传性淋巴水肿I型(Hereditary lymphedema type I)；遗传性运动和感觉神经病伴视神经萎缩(Hereditary motor and sensory neuropathy withoptic atrophy)；遗传性肌病伴早期呼吸衰竭(Hereditary myopathy with earlyrespiratory failure)；遗传性神经痛性肌萎缩症(Hereditary neuralgic amyotrophy)；遗传性非息肉病性结直肠肿瘤(Hereditary Nonpolyposis Colorectal Neoplasms)；Lynch综合征I和II()；遗传性胰腺炎(Hereditary pancreatitis)；慢性易感性胰腺炎(Pancreatitis,chronic,susceptibility to)；IIB型和IIA型遗传性感觉和自主神经病变(Hereditary sensory and autonomic neuropathy type IIB amd IIA)；遗传性铁粒幼细胞性贫血(Hereditary sideroblastic anemia)；Hermansky-Pudlak综合征1、3、4和6；内脏异位2、4和6，常染色体(Heterotaxy,visceral,2,4,and 6,autosomal)；内脏异位，X-连锁(Heterotaxy,visceral,X-linked)；异位(Heterotopia)；组织细胞性髓性网状细胞增生症(Histiocytic medullary reticulosis)；组织细胞增生症-淋巴结病加综合征(Histiocytosis-lymphadenopathy plus syndrome)；全羧化酶合成酶缺乏症(Holocarboxylase synthetase deficiency)；前脑无裂畸形2、3、7和9(Holoprosencephaly 2,3,7,and 9)；Holt-Oram综合征；同型半胱氨酸血症，吡哆醇反应性，MTHFR缺乏、CBS缺乏和高半胱氨酸尿所致(Homocysteinemia due to MTHFRdeficiency,CBS deficiency,and Homocystinuria,pyridoxine-responsive)；高胱氨酸尿症-巨幼红细胞性贫血，钴胺素代谢缺陷所致，cblE互补型(Homocystinuria-Megaloblastic anemia due to defect in cobalamin metabolism,cblEcomplementation type)；Howel-Evans综合征；Hurler综合征；Hutchinson-Gilford综合征；脑积水(Hydrocephalus)；高氨血症III型(Hyperammonemia,type III)；高胆固醇血症和高胆固醇血症，常染色体隐性(Hypercholesterolaemia and Hypercholesterolemia,autosomal recessive)；过度惊骇2和遗传性过度惊骇(Hyperekplexia 2andHyperekplexia hereditary)；高铁蛋白血症白内障综合征(Hyperferritinemia cataractsyndrome)；高甘氨酸尿症(Hyperglycinuria)；高免疫球蛋白D伴周期性发热(Hyperimmunoglobulin D with periodic fever)；甲羟戊酸尿症(Mevalonic aciduria)；高免疫球蛋白E综合征(Hyperimmunoglobulin E syndrome)；家族性高胰岛素性低血糖症3、4和5(Hyperinsulinemic hypoglycemia familial 3,4,and 5)；高胰岛素血症-高氨血症综合征(Hyperinsulinism-hyperammonemia syndrome)；高赖氨酸血症(Hyperlysinemia)；高锰血症伴肌张力障碍、红细胞增多症和肝硬化症(Hypermanganesemia with dystonia,polycythemia and cirrhosis)；高鸟氨酸血症-高氨血症-高瓜氨酸尿综合征(Hyperornithinemia-hyperammonemia-homocitrullinuriasyndrome)；甲状旁腺功能亢进1和2(Hyperparathyroidism 1and 2)；新生儿严重性甲状旁腺功能亢进(Hyperparathyroidism,neonatal severe)；高苯丙氨酸血症，bh4缺乏，a，部分pts缺乏所致，BH4缺乏，D和非pku(Hyperphenylalaninemia,bh4-deficient,a,due topartial pts deficiency,BH4-deficient,D,and non-pku)；高磷酸酯酶症伴精神发育迟滞综合征2、3和4(Hyperphosphatasia with mental retardation syndrome 2,3,and 4)；多发性骨软骨发育不良(Hypertrichotic osteochondrodysplasia)；与apob32相关的家族性低β脂蛋白血症(Hypobetalipoproteinemia,familial,associated with apob32)；低钙血症，常染色体显性1(Hypocalcemia,autosomal dominant 1)；家族性低钙尿性高钙血症1型和3型(Hypocalciuric hypercalcemia,familial,types 1and 3)；软骨症(Hypochondrogenesis)；铁过载的低色素性小细胞性贫血(Hypochromic microcyticanemia with iron overload)；低血糖症，肝糖原合成酶缺乏所致(Hypoglycemia withdeficiency of glycogen synthetase in the liver)；低促性腺激素性性腺机能减退11伴有或不伴有嗅觉障碍(Hypogonadotropic hypogonadism 11with or withoutanosmia)；少汗性外胚层发育不良伴免疫缺陷(Hypohidrotic ectodermal dysplasiawith immune deficiency)；少汗性X连锁外胚层发育不良(Hypohidrotic X-linkedectodermal dysplasia)；低钾血症碘麻痹1和2(Hypokalemic periodic paralysis 1and2)；肠道低镁血症1(Hypomagnesemia 1,intestinal)；低镁血症、癫痫发作和智力低下(Hypomagnesemia,seizures,and mental retardation)；低髓鞘性脑白质营养不良7(Hypomyelinating leukodystrophy 7)；左心发育不良综合征(Hypoplastic left heartsyndrome)；房室间隔缺损和共同房室交界(Atrioventricular septal defect andcommon atrioventricular junction)；尿道下裂1和2，X连锁(Hypospadias 1and 2,X-linked)；先天性甲状腺功能减退症无甲状腺肿1(Hypothyroidism,congenital,nongoitrous,1)；少毛症8和12(Hypotrichosis 8and 12)；少毛症-淋巴水肿-毛细血管扩张综合征(Hypotrichosis-lymphedema-telangiectasia syndrome)；I血型系统(I bloodgroup system)；Siemens大疱性鱼鳞癣(Ichthyosis bullosa of Siemens)；剥脱性鱼鳞癣(Ichthyosis exfoliativa)；早产儿鱼鳞癣综合征(Ichthyosis prematurity syndrome)；特发性基底神经节钙化5(Idiopathic basal ganglia calcification 5)；特发性纤维化肺泡炎，慢性形式(Idiopathic fibrosing alveolitis,chronic form)；先天性角化不良，常染色体显性，2和5(Dyskeratosis congenita,autosomal dominant,2and 5)；婴儿特发性高钙血症(Idiopathic hypercalcemia of infancy)；免疫功能障碍伴T细胞失活，钙进入缺陷所致，2(Immune dysfunction with T-cell inactivation due to calcium entrydefect 2)；免疫缺陷15、16、19、30、31C、38、40、8，cd3-ζ缺陷所致，具有高IgM1型和2型，且X连锁，伴镁缺陷、Epstein-Barr病毒感染和瘤形成(Immunodeficiency 15,16,19,30,31C,38,40,8,due to defect in cd3-zeta,with hyper IgM type 1and 2,and X-Linked,with magnesium defect,Epstein-Barr virus infection,and neoplasia)；免疫缺陷-着丝粒不稳定-面部异常综合征2(Immunodeficiency-centromeric instability-facialanomalies syndrome 2)；包涵体肌病2和3(Inclusion body myopathy 2and 3)；Nonaka肌病；家族性婴儿惊厥和阵发性舞蹈手足徐动症(Infantile convulsions and paroxysmalchoreoathetosis,familial)；婴儿皮质骨质增生症(Infantile corticalhyperostosis)；婴儿GM1神经节苷脂沉积症(Infantile GM1 gangliosidosis)；婴儿低磷酸酯酶症(Infantile hypophosphatasia)；婴儿肾炎(Infantile nephronophthisis)；婴儿眼球震颤，X连锁(Infantile nystagmus)；婴儿帕金森病-肌张力障碍(InfantileParkinsonism-dystonia)；与多尾精子和DNA过多相关的不育症(Infertility associatedwith multi-tailed spermatozoa and excessive DNA)；胰岛素抵抗(Insulinresistance)；胰岛素抵抗糖尿病和黑棘皮病(Insulin-resistant diabetes mellitusand acanthosis nigricans)；胰岛素依赖型糖尿病分泌性腹泻综合征(Insulin-dependent diabetes mellitus secretory diarrhea syndrome)；巨核间质性肾炎(Interstitial nephritis,karyomegalic)；宫内发育迟缓、干骺端发育不良、先天性肾上腺发育不良、生殖器异常(Intrauterine growth retardation,metaphyseal dysplasia,adrenal hypoplasia congenita,and genital anomalies)；碘酪氨酰偶联缺陷(Iodotyrosyl coupling defect)；IRAK4缺乏症；虹膜发育不全显性型和1型(Iridogoniodysgenesis dominant type and type 1)；脑组织铁沉积(Ironaccumulation in brain)；坐骨髌骨发育不良(Ischiopatellar dysplasia)；胰岛细胞增生症(Islet cell hyperplasia)；孤立型17,20-裂解酶缺乏症(Isolated 17,20-lyasedeficiency)；孤立型促黄体素缺乏症(Isolated lutropin deficiency)；异戊酰辅酶A脱氢酶缺乏症(Isovaleryl-CoA dehydrogenase deficiency)；Jankovic Rivera综合征；Jervell-Lange Nielsen综合征2；Joubert综合征1、6、7、9/15(双基因)、14、16和17，以及Orofaciodigital综合征xiv(Jankovic Rivera syndrome；Jervell and Lange-Nielsensyndrome 2；Joubert syndrome 1,6,7,9/15(digenic),14,16,and 17,andOrofaciodigital syndrome xiv)；Herlitz交界性大疱性表皮松解症(Junctionalepidermolysis bullosa gravis of Herlitz)；幼年GM>1<神经节苷脂沉积症(JuvenileGM>1<gangliosidosis)；幼年性息肉病综合征(Juvenile polyposis syndrome)；幼年性息肉病/遗传性出血性毛细血管扩张综合征(Juvenile polyposis/hereditary hemorrhagictelangiectasia syndrome)；青少年视网膜劈裂症(Juvenile retinoschisis)；Kabukimake-up综合征；卡尔曼综合征1、2和6(Kallmann syndrome 1,2,and 6)；青春期延迟(Delayed puberty)；Kanzaki病；卡拉克综合征(Karak syndrome)；Kartagener综合征；Kenny-Caffey综合征2型；Keppen-Lubinsky综合征；圆锥形角膜1(Keratoconus 1)；毛囊角化病(Keratosis follicularis)；掌跖角化病1(Keratosis palmoplantaris striata 1)；Kindler综合征；L-2-羟基戊二酸尿症(L-2-hydroxyglutaric aciduria)；Larsen综合征，显性型；III型晶格角膜营养不良(Lattice corneal dystrophy Type III)；莱伯氏黑蒙症(Leber amaurosis)；Zellweger综合征；过氧化物酶体生物发生障碍(Peroxisomebiogenesis disorders)；Zellweger综合征谱(Zellweger syndrome spectrum)；莱伯氏先天性黑蒙症11、12、13、16、4、7和9(Leber congenital amaurosis 11,12,13,16,4,7,and9)；莱伯氏视神经萎缩(Leber optic atrophy)；氨基糖苷类诱发的耳聋(Aminoglycoside-induced deafness)；非综合征型感觉神经性耳聋，线粒体(Deafness,nonsyndromicsensorineural,mitochondrial)；左心室致密化不全5(Left ventricular noncompaction5)；左右轴畸形(Left-right axis malformations)；Leigh病；线粒体短链烯酰辅酶A水合酶1缺乏症(Mitochondrial short-chain Enoyl-CoA Hydratase 1deficiency)；Leigh综合征，线粒体复合物I缺乏所致；Leiner病；Leri Weill软骨生成障碍(Leri Weilldyschondrosteosis)；致死性先天性挛缩综合征6(Lethal congenital contracturesyndrome 6)；白细胞粘附缺陷症I型和III型(Leukocyte adhesion deficiency type Iand III)；脑白质营养不良，髓鞘形成不足11和6(Leukodystrophy,Hypomyelinating,11and 6)；脑白质病，伴共济失调、脑干和脊髓受累且乳酸升高，伴白质消失且进展性，伴卵巢功能衰竭(Leukoencephalopathy with ataxia,with Brainstem and Spinal CordInvolvement and Lactate Elevation,with vanishing white matter,andprogressive,with ovarian failure)；全白甲病(Leukonychia totalis)；路易体痴呆症(Lewy body dementia)；Lichtenstein-Knorr综合征；Li-Fraumeni综合征1；Lig4综合征；肢带型肌营养不良症1B、2A、2B、2D、C1、C5、C9、C14型(Lig4 syndrome；Limb-girdlemuscular dystrophy,type 1B,2A,2B,2D,C1,C5,C9,C14)；先天性肌营养不良-肌营养不良症伴脑和眼异常A14和B14型(Congenital muscular dystrophy-dystroglycanopathywith brain and eye anomalies,type A14 and B14)；联合脂肪酶缺乏症(Lipasedeficiency combined)；脂质蛋白沉积症(Lipid proteinosis)；家族性部分脂肪代谢障碍2型和3型(Lipodystrophy,familial partial,type 2and 3)；无脑回畸形1、2(X连锁)、3、6(小头畸形)，X连锁(Lissencephaly 1,2(X-linked),3,6(with microcephaly),X-linked)；皮质下层状异位，X-连锁(Subcortical laminar heterotopia,X-linked)；急性婴儿肝功能衰竭(Liver failure acute infantile)；Loeys-Dietz综合征1、2、3；长QT综合征1、2、2/9、2/5、(二基因型)、3、5和5，获得性，易感性；肺癌(Lung cancer)；遗传性淋巴水肿，id(Lymphedema,hereditary,id)；原发性淋巴水肿伴脊髓发育不良(Lymphedema,primary,with myelodysplasia)；淋巴增生综合征1、1(X连锁)和2(Lymphoproliferativesyndrome 1,1(X-linked),and 2)；溶酶体酸性脂肪酶缺乏症(Lysosomal acid lipasedeficiency)；巨头畸形、巨大儿、面部畸形综合征(Macrocephaly,macrosomia,facialdysmorphism syndrome)；成年型卵黄样黄斑营养不良(Macular dystrophy,vitelliform,adult-onset；)；恶性高热易感性1型(Malignant hyperthermia susceptibility type1)；非霍奇金恶性淋巴瘤(Malignant lymphoma,non-Hodgkin)；恶性黑素瘤(Malignantmelanoma)；前列腺恶性肿瘤(Malignant tumor of prostate)；下颌骨骨发育不良(Mandibuloacral dysostosis)；下颌骨发育不良伴A型或B型脂肪营养不良，非典型(Mandibuloacral dysplasia with type A or B lipodystrophy,atypical)；下颌面骨发育不良，Treacher Collins型，常染色体隐性(Mandibulofacial dysostosis,TreacherCollins type,autosomal recessive)；甘露糖结合蛋白缺乏症(Mannose-bindingprotein deficiency)；枫糖尿病1A型和3型(Maple syrup urine disease type 1A andtype 3)；Marden Walker样综合征；马凡综合征(Marfan syndrome)；Marinesco-Sj\xc3\xb6gren综合征；Martsolf综合征；青少年发病的成年型糖尿病1型、2型、11型、3型和9型(Maturity-onset diabetes of the young,type 1,type 2,type 11,type 3,and type9)；May-Hegglin异常；MYH9相关疾病(MYH9 related disorders)；Sebastian综合征；McCune-Albright综合征；生长激素细胞腺瘤(Somatotroph adenoma)；性索间质瘤(Sexcord-stromal tumor)；Cushing综合征；McKusick Kaufman综合征；McLeod神经棘红细胞增多症综合征(McLeod neuroacanthocytosis syndrome)；Meckel-Gruber综合征；中链酰基辅酶A脱氢酶缺乏症(Medium-chain acyl-coenzyme A dehydrogenase deficiency)；髓母细胞瘤(Medulloblastoma)；巨脑性脑白质病伴皮质下囊肿1和2a(Megalencephalicleukoencephalopathy with subcortical cysts 1and 2a)；先天性巨脑毛细血管扩张性大理石样皮肤(Megalencephaly cutis marmorata telangiectatica congenital)；PIK3CA相关过度生长谱(PIK3CA Related Overgrowth Spectrum)；巨脑-多小脑回-多指(趾)畸形-脑积水综合征2(Megalencephaly-polymicrogyria-polydactyly-hydrocephalus syndrome 2)；硫胺素反应性巨幼红细胞性贫血伴糖尿病和感觉神经性耳聋(Megaloblastic anemia,thiamine-responsive,with diabetes mellitus andsensorineural deafness)；Meier-Gorlin综合征1和4；Melnick-Needles综合征；脑膜瘤(Meningioma)；智力低下，X-连锁，3、21、30和72(Mental retardation,X-linked,3,21,30,and 72)；智力低下和小头畸形伴脑桥和小脑发育不全(Mental retardation andmicrocephaly with pontine and cerebellar hypoplasia)；智力低下X连锁综合征5(Mental retardation X-linked syndromic 5)；智力低下、上颌前突和斜视(Mentalretardation,anterior maxillary protrusion,and strabismus)；智力低下，常染色体显性12、13、15、24、3、30、4、5、6和9(Mental retardation,autosomal dominant 12,13,15,24,3,30,4,5,6,and 9)；智力低下，常染色体隐性15、44、46和5(Mental retardation,autosomal recessive 15,44,46,and 5)；智力低下、刻板运动、癫痫和/或脑畸形(Mentalretardation,stereotypic movements,epilepsy,and/or cerebral malformations)；智力低下，综合征性，Claes-Jensen型，X连锁(Mental retardation,syndromic,Claes-Jensen type,X-linked)；X-连锁非特异性智力低下，综合征性Hedera型和综合征性wu型(Mental retardation,X-linked,nonspecific,syndromic,Hedera type,and syndromic,wu type)；Merosin缺乏先天性肌营养不良症(Merosin deficient congenital musculardystrophy)；异染性脑白质营养不良，青少年型、婴儿晚期型和成人型(Metachromaticleukodystrophy juvenile,late infantile,and adult types)；异染性脑白质营养不良(Metachromatic leukodystrophy)；后生营养性发育不良(Metatrophic dysplasia)；高铁血红蛋白血症I型和2型(Methemoglobinemia types I and 2)；蛋氨酸腺苷转移酶缺乏症，常染色体显性(Methionine adenosyltransferase deficiency,autosomal dominant)；甲基丙二酸血症伴高胱氨酸尿症(Methylmalonic acidemia with homocystinuria)；甲基丙二酸尿症cblB型(Methylmalonic aciduria cblB type)；甲基丙二酸尿症，甲基丙二酰辅酶A变位酶缺乏所致(Methylmalonic aciduria due to methylmalonyl-CoA mutasedeficiency)；甲基丙二酸尿症，mut(0)型(METHYLMALONIC ACIDURIA,mut(0)TYPE)；小头畸形骨发育不良原始侏儒症2型(Microcephalic osteodysplastic primordial dwarfismtype 2)；小头畸形伴有或不伴有脉络膜视网膜病变、淋巴水肿或智力低下(Microcephalywith or without chorioretinopathy,lymphedema,or mental retardation)；小头畸形、食管裂孔疝和肾病综合征(Microcephaly,hiatal hernia and nephrotic syndrome)；小头畸形(Microcephaly)；胼胝体发育不全(Hypoplasia of the corpus callosum)；痉挛性截瘫50，常染色体隐性(Spastic paraplegia 50,autosomal recessive)；整体发育迟缓症(Global developmental delay)；CNS髓鞘形成不足(CNS hypomyelination)；脑萎缩(Brain atrophy)；小头畸形、正常智力和免疫缺陷(Microcephaly,normal intelligenceand immunodeficiency)；小头畸形-毛细血管畸形综合征(Microcephaly-capillarymalformation syndrome)；小细胞性贫血(Microcytic anemia)；小眼球综合征5、7和9(Microphthalmia syndromic 5,7,and 9)；小眼球，孤立型3、5、6、8和伴眼缺损6(Microphthalmia,isolated 3,5,6,8,and with coloboma 6)；球形晶状体(Microspherophakia；)；家族性基底型偏头痛(Migraine,familial basilar)；Miller综合征；微核肌病伴眼外肌麻痹(Minicore myopathy with external ophthalmoplegia)；先天性中央核肌病(Myopathy,congenital with cores)；Mitchell-Riley综合征；线粒体3-羟基-3-甲基戊二酰辅酶A合酶缺乏症(mitochondrial3-hydroxy-3-methylglutaryl-CoAsynthase deficiency)；线粒体复合物I、II、III、III(核型2、4或8)缺乏症(Mitochondrialcomplex I,II,III,III(nuclear type 2,4,or 8)deficiency)；线粒体DNA耗竭综合征11、12(心肌病型)、2、4B(MNGIE型)、8B(MNGIE型)(Mitochondrial DNA depletion syndrome11,12(cardiomyopathic type),2,4B(MNGIE type),8B(MNGIE type))；线粒体DNA耗竭综合征3和7、肝脑型和13(脑肌病型)(Mitochondrial DNA-depletion syndrome 3and 7,hepatocerebral types,and 13(encephalomyopathic type))；线粒体磷酸盐载体和丙酮酸载体缺乏症(Mitochondrial phosphate carrier and pyruvate carrierdeficiency)；线粒体三功能蛋白缺乏症(Mitochondrial trifunctional proteindeficiency)；长链3-羟烷基辅酶A脱氢酶缺乏症(Long-chain 3-hydroxyacyl-CoAdehydrogenase deficiency)；Miyoshi肌营养不良1(Miyoshi muscular dystrophy 1)；远端肌病，伴有胫骨前肌发病(Myopathy,distal,with anterior tibial onset)；Mohr-Tranebjaerg综合征；钼辅因子缺乏症，互补群A(Molybdenum cofactor deficiency,complementation group A)；Mowat-Wilson综合征；粘多糖症IIIγ(Mucolipidosis IIIGamma)；黏多糖贮积症VI型、VI型(重度)和VII型(Mucopolysaccharidosis type VI,typeVI(severe),and type VII)；黏多糖贮积症，MPS-I-H/S、MPS-II、MPS-III-A、MPS-III-B、MPS-III-C、MPS-IV-A、MPS-IV-B(Mucopolysaccharidosis,MPS-I-H/S,MPS-II,MPS-III-A,MPS-III-B,MPS-III-C,MPS-IV-A,MPS-IV-B)；色素性视网膜炎73(Retinitis Pigmentosa73)；神经节苷脂沉积症GM1型1(伴心脏受累)3(Gangliosidosis GM1 type1(with cardiacinvolvement)3)；多中心骨质溶解肾病(Multicentric osteolysis nephropathy)；多中心骨质溶解、结节病和关节病(Multicentric osteolysis,nodulosis and arthropathy)；多发性先天性畸形(Multiple congenital anomalies)；心房间隔缺损2(Atrial septaldefect 2)；多发性先天性畸形-张力减退-癫痫综合征3(Multiple congenitalanomalies-hypotonia-seizures syndrome 3)；多发性皮肤和粘膜静脉畸形(MultipleCutaneous and Mucosal Venous Malformations)；多发性内分泌肿瘤1型和4型(Multipleendocrine neoplasia,types 1and 4)；多发性骨骺发育不良5或显性(Multipleepiphyseal dysplasia 5or Dominant)；多发性胃肠道闭锁(Multiple gastrointestinalatresias)；多发性翼状胬肉综合征Escobar型(Multiple pterygium syndrome Escobartype)；多发性硫酸酯酶缺乏症(Multiple sulfatase deficiency)；多发性骨性连接综合征3(Multiple synostoses syndrome 3)；肌肉AMP鸟嘌呤氧化酶缺乏症(Muscle AMPguanine oxidase deficiency)；肌眼脑病(Muscle eye brain disease)；先天性肌肉萎缩症，大锥状颗粒型(Muscular dystrophy,congenital,megaconial type)；家族性婴儿肌无力1(Myasthenia,familial infantile,1)；先天性肌无力综合征11，与乙酰胆碱受体缺乏症有关(Myasthenic Syndrome,Congenital,11,associated with acetylcholinereceptor deficiency)；先天性肌无力综合征17、2A(慢通道)，4B(快通道)，且无管状聚集体(Myasthenic Syndrome,Congenital,17,2A(slow-channel),4B(fast-channel),andwithout tubular aggregates)；髓过氧化物酶缺乏症(Myeloperoxidase deficiency)；MYH相关息肉病(MYH-associated polyposis)；子宫内膜癌(Endometrial carcinoma)；心肌梗塞1(Myocardial infarction 1)；肌阵挛性肌张力障碍(Myoclonic dystonia)；肌阵挛-失张力癫痫(Myoclonic-Atonic Epilepsy)；肌阵挛性癫痫伴破碎红纤维(Myoclonuswith epilepsy with ragged red fibers)；肌原纤维肌病1和ZASP相关(Myofibrillarmyopathy 1and ZASP-related)；急性复发性肌红蛋白尿，常染色体隐性(Myoglobinuria,acute recurrent,autosomal recessive)；肌神经性胃肠道脑病综合征(Myoneuralgastrointestinal encephalopathy syndrome)；婴儿小脑性共济失调伴进行性外眼肌麻痹(Cerebellar ataxia infantile with progressive external ophthalmoplegia)；线粒体DNA耗竭综合征4B，MNGIE型(Mitochondrial DNA depletion syndrome 4B,MNGIEtype)；先天性中央核肌病1，伴过远端多肌梭1，乳酸酸中毒和铁粒幼红细胞性贫血1，线粒体进行性伴先天性白内障，听力损失和发育迟缓，且有管状聚集体2(Myopathy,centronuclear,1,congenital,with excess of muscle spindles,distal,1,lacticacidosis,and sideroblastic anemia 1,mitochondrial progressive with congenitalcataract,hearing loss,and developmental delay,and tubular aggregate,2)；近视6(Myopia6)；肌硬化症，常染色体隐性(Myosclerosis,autosomal recessive)；先天性肌强直(Myotonia congenital)；先天性肌强直，常染色体显性和隐性形式(Congenitalmyotonia,autosomal dominant and recessive forms)；指甲-髌骨综合征(Nail-patellasyndrome)；Nance-Horan综合征；真性小眼球2(Nanophthalmos 2)；Navajo神经肝病(Navajo neurohepatopathy)；线状体肌病3和9(Nemaline myopathy 3and 9)；新生儿肌张力低下(Neonatal hypotonia)；智能障碍(Intellectual disability)；癫痫(Seizures)；言语和语言发育迟缓(Delayed speech and language development)；智力低下，常染色体显性31(Mental retardation,autosomal dominant 31)；新生儿肝内胆汁淤积，希特林缺乏所致(Neonatal intrahepatic cholestasis caused by citrin deficiency)；肾源性尿崩症，X连锁肾源性尿崩症(Nephrogenic diabetes insipidus,Nephrogenic diabetesinsipidus,X-linked)；肾结石/骨质疏松症，低磷血症2(Nephrolithiasis/osteoporosis,hypophosphatemic,2)；肾消耗病13、15和4(Nephronophthisis 13,15and 4)；不孕症(Infertility)；小脑-眼-肾综合征(肾消耗病、动眼神经失用和小脑异常)(Cerebello-oculo-renal syndrome(nephronophthisis,oculomotor apraxia and cerebellarabnormalities))；肾病综合征3型，5型，有或无眼部异常，7型和9型(Nephrotic syndrome,type 3,type 5,with or without ocular abnormalities,type 7,and type 9)；Nestor-Guillermo早衰综合征(Nestor-Guillermo progeria syndrome)；Neu-Laxova综合征1；神经退行性伴脑铁沉积4和6(Neurodegeneration with brain iron accumulation 4and6)；神经铁蛋白病变(Neuroferritinopathy)；神经纤维瘤病1型和2型(Neurofibromatosis,type 1and type 2)；神经纤维肉瘤(Neurofibrosarcoma)；神经垂体尿崩症(Neurohypophyseal diabetes insipidus)；遗传性感觉神经病IC型(Neuropathy,Hereditary Sensory,Type IC)；中性1氨基酸转运缺陷(Neutral 1amino acid transportdefect)；中性脂质贮积病伴肌病(Neutral lipid storage disease with myopathy)；中性粒细胞免疫缺陷综合征(Neutrophil immunodeficiency syndrome)；Nicolaides-Baraitser综合征；成人型尼曼病C1型、C2型、A型和C1型(Niemann-Pick disease type C1,C2,type A,and type C1,adult form)；非酮症高甘氨酸血症(Non-ketotichyperglycinemia)；努南综合征1和4，LEOPARD综合征1(Noonan syndrome 1and 4,LEOPARDsyndrome 1)；努南综合征样疾病伴有或不伴有幼年型粒单核细胞白血病(Noonansyndrome-like disorder with or without juvenile myelomonocytic leukemia)；正常血钾型周期性麻痹，钾敏感(Normokalemic periodic paralysis,potassium-sensitive)；诺鲁姆病(Norum disease)；癫痫、听力损失和智力低下综合征(Epilepsy,Hearing Loss,And Mental Retardation Syndrome)；智力低下，X连锁102和综合征性13(MentalRetardation,X-Linked 102 and syndromic 13)；肥胖症(Obesity)；眼白化病I型(Ocularalbinism,type I)；眼皮肤白化病1B型、3型和4型(Oculocutaneous albinism type 1B,type 3,and type 4)；眼齿指发育不良(Oculodentodigital dysplasia)；牙齿型低碱性磷酸酯酶症(Odontohypophosphatasia)；Odontotrichomelic综合征；小口氏病(Oguchidisease)；少牙畸形-结直肠癌综合征(Oligodontia-colorectal cancer syndrome)；OpitzG/BBB综合征；视神经萎缩9(Optic atrophy 9)；口-面-指综合征(Oral-facial-digital syndrome)；鸟氨酸转氨酶缺乏症(Ornithine aminotransferase deficiency)；口面裂畸形11和7，唇裂/腭裂-外胚层发育不良综合征(Orofacial cleft 11and 7,Cleftlip/palate-ectodermal dysplasia syndrome)；Orstavik Lindemann Solberg综合征；骨关节炎伴轻度软骨发育异常(Osteoarthritis with mild chondrodysplasia)；剥脱性骨软骨炎(Osteochondritis dissecans)；成骨不全症12型、5型、7型、8型、I型、III型，伴有巩膜正常，显性型，隐性围产期致死(Osteogenesis imperfecta type 12,type 5,type 7,type 8,type I,type III,with normal sclerae,dominant form,recessive perinatallethal)；纹状骨病伴患有颅骨硬化(Osteopathia striata with cranial sclerosis)；骨硬化症，常染色体显性1型和2型，隐性4，隐性1，隐性6(Osteopetrosis autosomaldominant type 1and 2,recessive 4,recessive 1,recessive 6)；骨质疏松症伴假神经胶质瘤(Osteoporosis with pseudoglioma)；耳-腭-指综合征，I型和II型(Oto-palato-digital syndrome,types I and II)；卵巢发育不全1(Ovarian dysgenesis 1)；卵巢脑白质营养不良(Ovarioleukodystrophy)；先天性厚甲症4和2型(Pachyonychia congenita4and type 2)；家族性骨佩吉特病(Paget disease of bone,familial)；Pallister-Hall综合征；掌跖角化病，非表皮松懈性、局灶性或弥漫性(Palmoplantar keratoderma,nonepidermolytic,focal or diffuse)；胰腺发育不全和先天性心脏病(Pancreaticagenesis and congenital heart disease)；Papillon-Lef\xc3\xa8vre综合征；副神经节瘤3(Paragangliomas 3)；von Eulenburg先天性副肌强直(Paramyotonia congenita ofvon Eulenburg)；甲状旁腺癌(Parathyroid carcinoma)；帕金森病14、15、19(青少年发病)、2、20(早发)、6、常染色体隐性早发和9(Parkinson disease 14,15,19(juvenile-onset),2,20(early-onset),6,(autosomal recessive early-onset,and 9)；部分白化病(Partial albinism)；部分次黄嘌呤-鸟嘌呤磷酸核糖转移酶缺乏症(Partialhypoxanthine-guanine phosphoribosyltransferase deficiency)；视网膜色素上皮图形状营养不良(Patterned dystrophy of retinal pigment epithelium)；PC-K6a；Pelizaeus-Merzbacher病；Pendred综合征；外周脱髓鞘神经病，中枢性髓鞘形成障碍(Peripheral demyelinating neuropathy,central dysmyelination)；Hirschsprung病；永久性新生儿糖尿病(Permanent neonatal diabetes mellitus)；永久性新生儿糖尿病伴神经病学特征(Diabetes mellitus,permanent neonatal,with neurologic features)；新生儿胰岛素依赖型糖尿病(Neonatal insulin-dependent diabetes mellitus)；青少年发病的成年型糖尿病2型(Maturity-onset diabetes of the young,type 2)；过氧化物酶体生物发生障碍14B、2A、4A、5B、6A、7A和7B(Peroxisome biogenesis disorder 14B,2A,4A,5B,6A,7A,and 7B；Perrault syndrome 4)；Perrault综合征4；Perry综合征；婴儿持续高胰岛素性低血糖症(Persistent hyperinsulinemic hypoglycemia of infancy)；家族性高胰岛素血症(familial hyperinsulinism)；表现型(Phenotypes)；苯丙酮尿症(Phenylketonuria)；嗜铬细胞瘤(Pheochromocytoma)；遗传性副神经节瘤-嗜铬细胞瘤综合征(Hereditary Paraganglioma-Pheochromocytoma Syndromes)；副神经节瘤1(Paragangliomas 1)；肠类癌瘤(Carcinoid tumor of intestine)；Cowden综合征3；磷酸甘油酸脱氢酶缺乏症(Phosphoglycerate dehydrogenase deficiency)；磷酸甘油酸激酶1缺乏症(Phosphoglycerate kinase 1deficiency)；光敏毛发硫营养不良(Photosensitivetrichothiodystrophy)；植烷酸贮积病(Phytanic acid storage disease)；皮克病(Pickdisease)；皮尔森综合征(Pierson syndrome)；色素性视网膜营养不良(Pigmentaryretinal dystrophy)；原发性色素性结节性肾上腺皮质病1(Pigmented nodularadrenocortical disease,primary,1)；毛母质瘤(Pilomatrixoma)；Pitt-Hopkins综合征；垂体依赖性皮质醇增多症(Pituitary dependent hypercortisolism)；联合性垂体激素缺乏症1、2、3和4(Pituitary hormone deficiency,combined 1,2,3,and 4)；纤溶酶原激活物抑制剂1型缺乏症(Plasminogen activator inhibitor type 1deficiency)；纤溶酶原缺乏症I型(Plasminogen deficiency,type I)；血小板型出血障碍15和8(Platelet-typebleeding disorder 15and 8)；遗传性纤维化皮肤异色病伴肌腱挛缩、肌病和肺纤维化(Poikiloderma,hereditary fibrosing,with tendon contractures,myopathy,andpulmonary fibrosis)；多囊性肾病2，成人型、婴儿型(Polycystic kidney disease 2,adult type,and infantile type)；多囊性脂膜样骨发育不良伴硬化性白质脑病(Polycystic lipomembranous osteodysplasia with sclerosingleukoencephalopathy)；聚葡糖体肌病1伴有或不伴有免疫缺陷(Polyglucosan bodymyopathy 1with or without immunodeficiency)；不对称双侧额顶多小脑回畸形(Polymicrogyria,asymmetric,bilateral frontoparietal)；多发性神经病、听力损失、共济失调、色素性视网膜炎和白内障(Polyneuropathy,hearing loss,ataxia,retinitispigmentosa,and cataract)；脑桥小脑发育不全4型(Pontocerebellar hypoplasia type4)；腘窝翼状胬肉综合征(Popliteal pterygium syndrome)；孔洞脑畸形2(Porencephaly2)；弥漫性浅表性光敏性汗孔角化症8(Porokeratosis 8,disseminated superficialactinic type)；胆色素原合酶缺乏症(Porphobilinogen synthase deficiency)；迟发性皮肤卟啉症(Porphyria cutanea tarda)；后柱共济失调伴视网膜色素变性(Posteriorcolumn ataxia with retinitis pigmentosa)；后极白内障2型(Posterior polarcataract type 2)；Prader-Willi样综合征；卵巢功能早衰4、5、7和9(Premature ovarianfailure 4,5,7,and 9)；原发性常染色体隐性小头畸形10、2、3和5(Primary autosomalrecessive microcephaly 10,2,3,and 5)；原发性纤毛运动障碍24(Primary ciliarydyskinesia 24)；原发性扩张型心肌病(Primary dilated cardiomyopathy)；左心室致密化不全6(Left ventricular noncompaction 6)；4，左心室致密化不全10(Leftventricular noncompaction 6)；阵发性心房颤动(Paroxysmal atrial fibrillation)；原发性高草酸尿症I型、III型和III型(Primary hyperoxaluria,type I,type,and typeIII)；原发性肥厚性骨关节病，常染色体隐性2(Primary hypertrophicosteoarthropathy,autosomal recessive 2)；原发性低镁血症(Primaryhypomagnesemia)；原发性开角型青少年青光眼1(Primary open angle glaucomajuvenile onset 1)；原发性肺动脉高压症(Primary pulmonary hypertension)；Primrose综合征；进行性家族性心脏传导阻滞1B型(Progressive familial heart block type1B)；进行性家族性肝内胆汁淤积2和3(Progressive familial intrahepaticcholestasis 2and 3)；进行性肝内胆汁淤积(Progressive intrahepatic cholestasis)；进行性肌阵挛性癫痫伴共济失调(Progressive myoclonus epilepsy with ataxia)；进行性假类风湿发育不良(Progressive pseudorheumatoid dysplasia)；进行性硬化性灰质营养不良(Progressive sclerosing poliodystrophy)；脯肽酶缺乏症(Prolidasedeficiency)；脯氨酸脱氢酶缺乏症(Proline dehydrogenase deficiency)；精神分裂症4(Schizophrenia 4)；备解素缺乏症，X连锁(Properdin deficiency,X-linked)；丙酸血症(Propionic academia)；前蛋白转化酶1/3缺乏症(Proprotein convertase 1/3deficiency)；遗传性前列腺癌2(Prostate cancer,hereditary,2)；红色素缺陷(Protandefect)；蛋白尿(Proteinuria)；芬兰型先天性肾病综合征(Finnish congenitalnephrotic syndrome)；Proteus综合征；乳腺癌(Breast adenocarcinoma)；假性软骨发育不全性脊椎骨骺发育不良综合征(Pseudoachondroplastic spondyloepiphysealdysplasia syndrome)；假性醛固酮减少症1型常染色体显性和隐性和2型(Pseudohypoaldosteronism type 1autosomal dominant and recessive and type 2)；假性甲状旁腺功能减退症1A型，假性假甲状旁腺功能减退症(Pseudohypoparathyroidismtype 1A,Pseudopseudohypoparathyroidism)；假性新生儿肾上腺脑白质营养不良(Pseudoneonatal adrenoleukodystrophy)；假原发性醛固酮增多症(Pseudoprimaryhyperaldosteronism)；弹性假黄瘤(Pseudoxanthoma elasticum)；婴儿泛发性动脉钙化2(Generalized arterial calcification of infancy 2)；弹性假黄瘤样障碍伴多发性凝血因子缺乏症(Pseudoxanthoma elasticum-like disorder with multiple coagulationfactor deficiency)；银屑病易感性2(Psoriasis susceptibility 2)；PTEN错构瘤肿瘤综合征(PTEN hamartoma tumor syndrome)；肺动脉高血压，与遗传性出血性毛细血管扩张相关(Pulmonary arterial hypertension related to hereditary hemorrhagictelangiectasia)；端粒相关肺纤维化和/或骨髓衰竭1和3(Pulmonary Fibrosis And/OrBone Marrow Failure,Telomere-Related,1and 3)；原发性肺动脉高血压1伴遗传性出血性毛细血管扩张(Pulmonary hypertension,primary,1,with hereditary hemorrhagictelangiectasia)；嘌呤核苷磷酸化酶缺乏症(Purine-nucleoside phosphorylasedeficiency)；丙酮酸羧化酶缺乏症(Pyruvate carboxylase deficiency)；丙酮酸脱氢酶E1-α缺乏症(Pyruvate dehydrogenase E1-alpha deficiency)；红细胞丙酮酸激酶缺乏症(Pyruvate kinase deficiency of red cells)；雷恩综合征(Raine syndrome)；Rasopathy；隐性营养不良性大疱性表皮松解症(Recessive dystrophic epidermolysisbullosa)；非综合征先天性指甲疾病8(Nail disorder,nonsyndromic congenital,8)；雷凡斯坦综合征(Reifenstein syndrome)；肾发育不良(Renal adysplasia)；肾肉碱转运缺陷(Renal carnitine transport defect)；肾缺损综合征(Renal coloboma syndrome)；肾发育不良(Renal dysplasia)；肾发育不良、视网膜色素营养不良、小脑共济失调和骨骼发育不良(Renal dysplasia,retinal pigmentary dystrophy,cerebellar ataxia andskeletal dysplasia)；远端肾小管酸中毒，常染色体隐性，伴迟发性感觉神经性听力损失或伴溶血性贫血(Renal tubular acidosis,distal,autosomal recessive,with late-onset sensorineural hearing loss,or with hemolytic anemia)；近端肾小管酸中毒伴眼部异常和智力低下(Renal tubular acidosis,proximal,with ocular abnormalitiesand mental retardation)；视锥营养不良3B(Retinal cone dystrophy 3B)；视网膜色素变性(Retinitis pigmentosa)；色素性视网膜炎10、11、12、14、15、17和19(Retinitispigmentosa 10,11,12,14,15,17,and 19)；色素性视网膜炎2、20、25、35、36、38、39、4、40、43、45、48、66、7、70、72(Retinitis pigmentosa 2,20,25,35,36,38,39,4,40,43,45,48,66,7,70,72)；视网膜母细胞瘤(Retinoblastoma)；雷特氏症(Rett disorder)；横纹肌样肿瘤易感综合征2(Rhabdoid tumor predisposition syndrome 2)；孔源性视网膜脱离，常染色体显性(Rhegmatogenous retinal detachment,autosomal dominant)；肢根型点状软骨发育不良2型和3型(Rhizomelic chondrodysplasia punctata type 2and type 3)；Roberts-SC短肢畸形综合征(Roberts-SC phocomelia syndrome)；Robinow Sorauf综合征；Robinow综合征，常染色体隐性，常染色体隐性，伴短同时并指(趾)多指(趾)(Robinowsyndrome,autosomal recessive,autosomal recessive,with brachy-syn-polydactyly)；Rothmund-Thomson综合征；Rapadilino综合征；RRM2B相关线粒体疾病(RRM2B-related mitochondrial disease)；Rubinstein-Taybi综合征；Salla病；Sandhoff病，成人型和婴儿型；早发结节病(Sarcoidosis,early-onset)；Blau综合征；辛德勒(Schindler)病1型(Schindler disease,type 1)；脑裂畸形(Schizencephaly)；精神分裂症15(Schizophrenia 15)；Schneckenbecken发育不良；神经鞘瘤病2(Schwannomatosis2)；Schwartz Jampel综合征1型；硬化性角膜，常染色体隐性(Sclerocornea,autosomalrecessive)；硬化性骨化病(Sclerosteosis)；继发性甲状腺功能减退(Secondaryhypothyroidism)；Segawa综合征，常染色体隐性；Senior-Loken综合征4和5；感觉共济失调神经病、构音障碍和眼肌麻痹(Sensory ataxic neuropathy,dysarthria,andophthalmoparesis)；Sepiapterin还原酶缺乏症；SeSAME综合征；严重联合免疫缺陷，ADA缺乏所致，伴小头畸形、生长迟缓、对电离辐射敏感，非典型、常染色体隐性遗传、T细胞阴性、B细胞阳性、NK细胞阴性或NK阳性(Severe combined immunodeficiency due to ADAdeficiency,with microcephaly,growth retardation,and sensitivity to ionizingradiation,atypical,autosomal recessive,T cell-negative,B cell-positive,NKcell-negative of NK-positive)；严重先天性中性粒细胞减少症(Severe congenitalneutropenia)；严重先天性中性粒细胞减少症3，常染色体隐性或显性(Severe congenitalneutropenia 3,autosomal recessive or dominant)；严重先天性中性粒细胞减少症6，常染色体隐性(Severe congenital neutropenia and 6,autosomal recessive)；婴儿严重肌阵挛性癫痫(Severe myoclonic epilepsy in infancy)；泛发性癫痫伴高热惊厥加1型和2型(Generalized epilepsy with febrile seizures plus,types 1and 2)；严重X连锁肌管肌病(Severe X-linked myotubular myopathy)；短QT综合征3(Short QT syndrome3)；身材矮小伴非特异性骨骼异常(Short stature with nonspecific skeletalabnormalities)；身材矮小、耳道闭锁、下颌发育不全、骨骼异常(Short stature,auditorycanal atresia,mandibular hypoplasia,skeletal abnormalities)；身材矮小、指(趾)甲发育不良、面部畸形和少毛症(Short stature,onychodysplasia,facial dysmorphism,and hypotrichosis)；原始侏儒症(Primordial dwarfism)；胸短肋发育不良11或3伴有或不伴有多指(趾)畸形(Short-rib thoracic dysplasia 11or 3with or withoutpolydactyly)；唾液酸沉积症I型和II型(Sialidosis type I and II)；银色痉挛性截瘫综合征(Silver spastic paraplegia syndrome)；神经传导速度减慢，常染色体显性(Slowednerve conduction velocity,autosomal dominant)；Smith-Lemli-Opitz综合征；SnyderRobinson综合征；生长激素细胞腺瘤(Somatotroph adenoma)；泌乳素瘤(Prolactinoma)；家族性垂体腺瘤易感性(familial,Pituitary adenoma predisposition)；Sotos综合征1或2(Sotos syndrome1or 2)；痉挛性共济失调5，常染色体隐性，Charlevoix-Saguenay型、1、10或11，常染色体隐性(Spastic ataxia 5,autosomal recessive,Charlevoix-Saguenay type,1,10,or 11,autosomal recessive)；肌萎缩性侧索硬化症5型(Amyotrophic lateral sclerosis type 5)；痉挛性截瘫15、2、3、35、39、4，常染色体显性，55，常染色体隐性，和5A(Spastic paraplegia 15,2,3,35,39,4,autosomal dominant,55,autosomal recessive,and 5A)；先天性胆汁酸合成缺陷3(Bile acid synthesis defect,congenital,3)；精子生成障碍11、3和8(Spermatogenic failure 11,3,and 8)；球形红细胞症4型和5型(Spherocytosis types 4and 5)；球状体肌病(Spheroid body myopathy)；脊髓性肌萎缩，下肢显性2，常染色体显性(Spinal muscular atrophy,lower extremitypredominant 2,autosomal dominant)；脊髓性肌萎缩症II型(Spinal muscular atrophy,type II)；脊髓小脑性共济失调14、21、35、40和6(Spinocerebellar ataxia 14,21,35,40,and 6)；脊髓小脑性共济失调常染色体隐性1和16(Spinocerebellar ataxia autosomalrecessive 1and 16)；脾发育不全(Splenic hypoplasia)；脊椎腕骨跗骨融合综合征(Spondylocarpotarsal synostosis syndrome)；脊椎手发育不良，Ehlers-Danlos综合征样，伴免疫失调，Aggrecan型，伴先天性关节脱位，短肢手型，Sedaghatian型，伴锥杆营养不良，Kozlowski型(Spondylocheirodysplasia,Ehlers-Danlos syndrome-like,withimmune dysregulation,Aggrecan type,with congenital joint dislocations,shortlimb-hand type,Sedaghatian type,with cone-rod dystrophy,and Kozlowski type)；类扭伤性侏儒症(Parastremmatic dwarfism)；Stargardt病1；锥杆营养不良3(Cone-roddystrophy 3)；Stickler综合征1型；Kniest发育不良(Kniest dysplasia)；Stickler综合征1型(非综合征性眼疾)和4型(Stickler syndrome,types 1(nonsyndromic ocular)and4)；Sting相关血管病变，婴儿期发病(Sting-associated vasculopathy,infantile-onset)；Stormorken综合征；Sturge-Weber综合征，先天性毛细血管畸形1(Sturge-Webersyndrome,Capillary malformations,congenital,1)；琥珀酰辅酶A乙酰乙酸转移酶缺乏症(Succinyl-CoA acetoacetate transferase deficiency)；蔗糖酶-异麦芽糖酶缺乏症(Sucrase-isomaltase deficiency)；婴儿猝死综合征(Sudden infant death syndrome)；孤立型亚硫酸盐氧化酶缺乏症(Sulfite oxidase deficiency,isolated)；瓣上主动脉瓣狭窄(Supravalvar aortic stenosis)；肺表面活性物质代谢功能障碍2和3(Surfactantmetabolism dysfunction,pulmonary,2and 3)；近端指关节粘连1b(Symphalangism,proximal,1b)；并指(趾)Cenani Lenz型(Syndactyly Cenani Lenz type)；并指(趾)3型(Syndactyly type 3)；综合征性X连锁智力低下16(Syndromic X-linked mentalretardation 16)；马蹄内翻足畸形(Talipes equinovarus)；Tangier病；TARP综合征；泰萨二氏病，B1变异，Gm2-神经节苷脂沉积症(成人)，Gm2-神经节苷脂沉积症(成人发病)(Tay-Sachs disease,B1 variant,Gm2-gangliosidosis(adult),Gm2-gangliosidosis(adult-onset))；Temtamy综合征；Tenorio综合征；终末骨发育不良(Terminal osseousdysplasia)；睾酮17-β-脱氢酶缺乏症(Testosterone 17-beta-dehydrogenasedeficiency)；先天性四肢切断症，常染色体隐性(Tetraamelia,autosomal recessive)；法洛四联症(Tetralogy of Fallot)；左心发育不全综合征2(Hypoplastic left heartsyndrome 2)；动脉干(Truncus arteriosus)；心脏和大血管畸形(Malformation of theheart and great vessels)；室间隔缺损1(Ventricular septal defect 1)；Thiel-Behnke角膜营养不良(Thiel-Behnke corneal dystrophy)；胸主动脉瘤和主动脉夹层(Thoracic aortic aneurysms and aortic dissections)；类马凡氏体态(Marfanoidhabitus)；三M综合征2(Three M syndrome 2)；血小板减少症、血小板功能障碍、溶血和球蛋白合成不平衡(Thrombocytopenia,platelet dysfunction,hemolysis,and imbalancedglobin synthesis)；血小板减少症，X连锁(Thrombocytopenia,X-linked)；遗传性血栓形成倾向，蛋白C缺乏所致，常染色体显性和隐性(Thrombophilia,hereditary,due toprotein C deficiency,autosomal dominant and recessive)；甲状腺发育不全(Thyroidagenesis)；滤泡性甲状腺癌(Thyroid cancer,follicular)；甲状腺激素代谢异常(Thyroid hormone metabolism,abnormal)；泛发性甲状腺激素抵抗，常染色体显性(Thyroid hormone resistance,generalized,autosomal dominant)；甲亢性周期性麻痹和甲亢性周期性麻痹2(Thyrotoxic periodic paralysis and Thyrotoxic periodicparalysis 2)；泛发性促甲状腺激素释放激素抵抗(Thyrotropin-releasing hormoneresistance,generalized)；Timothy综合征；TNF受体相关周期性发热综合征(TNFreceptor-associated periodic fever syndrome(TRAPS))；选择性牙齿发育不全3和4(Tooth agenesis,selective,3and 4)；扭转型室性心动过速(Torsades de pointes)；Townes-Brocks-branchiootorenal样综合征；新生儿暂时性大疱性皮肤溶解症(Transientbullous dermolysis of the newborn)；Treacher collins综合征1；毛发肿大伴智力低下、侏儒症和视网膜色素变性(Trichomegaly with mental retardation,dwarfism andpigmentary degeneration of retina)；毛发鼻指骨发育不良I型(Trichorhinophalangeal dysplasia type I)；毛发鼻指骨综合征3型(Trichorhinophalangeal syndrome type 3)；三甲基胺尿症(Trimethylaminuria)；结节性硬化综合征(Tuberous sclerosis syndrome)；淋巴管肌瘤病(Lymphangiomyomatosis)；结节性硬化症1和2(Tuberous sclerosis 1and 2)；酪氨酸酶阴性眼皮肤白化病(Tyrosinase-negative oculocutaneous albinism)；酪氨酸酶阳性眼皮肤白化病(Tyrosinase-positive oculocutaneous albinism)；酪氨酸血症I型(Tyrosinemia typeI)；UDP葡糖-4-差向异构酶缺乏症(UDPglucose-4-epimerase deficiency)；Ullrich先天性肌营养不良(Ullrich congenital muscular dystrophy)；尺骨和腓骨缺如伴严重肢体缺陷(Ulna and fibula absence of with severe limb deficiency)；Upshaw-Schulman综合征；尿苷酸合酶缺乏症(Urocanate hydratase deficiency)；Usher综合征1、1B、1D、1G、2A、2C和2D型；视网膜色素变性39(Retinitis pigmentosa 39)；UV敏感综合征(UV-sensitive syndrome)；Van der Woude综合征；Van Maldergem综合征2；Hennekam淋巴管扩张-淋巴水肿综合征2(Hennekam lymphangiectasia-lymphedema syndrome 2)；杂色卟啉症(Variegate porphyria)；脑室扩大伴囊性肾病(Ventriculomegaly with cystickidney disease)；Verheij综合征；极长链酰基辅酶A脱氢酶缺乏症(Very long chainacyl-CoA dehydrogenase deficiency)；膀胱输尿管反流8(Vesicoureteral reflux 8)；内脏异位5，常染色体(Visceral heterotaxy 5,autosomal)；内脏肌病(Visceralmyopathy)；维生素D依赖性佝偻病1型和2型(Vitamin D-dependent rickets,types 1and2)；卵黄样营养不良(Vitelliform dystrophy)；von Willebrand病2M型和3型；Waardenburg综合征1、4C和2E型(有神经系统受累)；Klein-Waardenberg综合征；Walker-Warburg先天性肌营养不良(Walker-Warburg congenital muscular dystrophy)；Warburgmicro综合征2和4；疣、低丙球蛋白血症、感染和骨髓粒细胞缺乏症(Warts,hypogammaglobulinemia,infections,and myelokathexis)；Weaver综合征；Weill-Marchesani综合征1和3；Weill-Marchesani样综合征；Weissenbacher-Zweymuller综合征；Werdnig-Hoffmann病；夏-马-图三氏病；Werner综合征；WFS1相关疾病；Wiedemann-Steiner综合征；威尔逊病(Wilson disease)；Wolfram样综合征，常染色体显性；Worth病；VanBuchem病2型；着色性干皮病，互补群b、群D、群E和群G；X-连锁无丙种球蛋白血症(Xeroderma pigmentosum,complementation group b,group D,group E,and group G)；X连锁遗传性运动和感觉神经病(X-linked agammaglobulinemia；X-linked hereditarymotor and sensory neuropathy)；X连锁鱼鳞癣伴甾醇硫酸酯酶缺乏症(X-linkedichthyosis with steryl-sulfatase deficiency)；X连锁脑室周围异位(X-linkedperiventricular heterotopia)；耳-腭-指综合征综合征I型(Oto-palato-digitalsyndrome,type I)；X连锁严重联合免疫缺陷(X-linked severe combinedimmunodeficiency)；Zimmermann-Laband综合征以及Zimmermann-Laband综合征2；以及板层粉尘状白内障3(Zonular pulverulent cataract 3)。

靶核苷酸序列可包含与疾病、障碍或病症相关的靶序列(如，点突变)。靶序列可包含与疾病、障碍或病症相关的T至C(或A至G)点突变，并且其中突变C碱基的脱氨基作用导致错配修复介导的校正与疾病、障碍或病症不相关的序列。靶序列可包含与疾病、障碍或病症相关的G至A(或C至T)点突变，并且其中突变A碱基的脱氨基作用导致错配修复介导的校正与疾病、障碍或病症不相关的序列。靶序列可编码蛋白，并且其中点突变在密码子中并导致突变密码子编码的氨基酸与野生型密码子相比发生变化。靶序列还可位于剪接位点，并且点突变导致mRNA转录本的剪接与野生型转录本相比发生变化。此外，靶标可能位于基因的非编码序列，如启动子，点突变导致基因表达的增加或减少。

因此，一些方面，突变C的脱氨基作用导致突变密码子编码的氨基酸变化，这在一些情况下可导致野生型氨基酸的表达。在其他方面，突变A的脱氨基作用导致突变密码子编码的氨基酸变化，这在一些情况下可导致野生型氨基酸的表达。

本文所述涉及使细胞与组合物或rAAV颗粒接触的方法可在体外、离体或体内发生。在某些实施方案中，接触步骤发生在受试者中。在某些实施方案中，受试者已被诊断患有疾病、障碍或病症。

在一些实施方案中，本文公开的方法包括使哺乳动物细胞与组合物或rAAV颗粒接触。在特定实施方案中，该方法涉及接触视网膜细胞、皮质细胞或小脑细胞。

使用本文所述方法递送的断裂Cas9蛋白或断裂引导编辑器优选具有与原始Cas9蛋白或引导编辑器(即，递送至细胞或在细胞中作为整体表达的未断裂蛋白)相当的活性。例如，断裂Cas9蛋白或断裂引导编辑器保留原始Cas9蛋白或引导编辑器活性的至少50％(如，至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、至少98％、至少99％、或100％)。在一些实施方案中，断裂Cas9蛋白或断裂引导编辑器比原始Cas9蛋白或引导编辑器的活性更强(如，2倍、5倍、10倍、100倍、1000倍或更多)。

本文所述组合物可以治疗有效量施用于有需要的受试者来治疗和/或预防受试者患有的疾病或病症。可使用基于CRISPR/Cas9的基因组编辑技术治疗和/或预防的任何疾病或病症都可通过本文所述断裂Cas9蛋白或断裂引导编辑器治疗。应理解，如果编码断裂Cas9蛋白或引导编辑器的核苷酸序列不进一步编码gRNA，则可将编码gRNA的单独核酸载体与本文所述组合物一起施用。

示例性的合适疾病、病症或病症包括但不限于选自下组的疾病或病症：囊性纤维化、苯丙酮尿症、表皮松解性角化过度症(EHK)、慢性阻塞性肺病(COPD)、Charcot-Marie-Toot病4J型、神经母细胞瘤(NB)、冯·维勒布兰德氏(von Willebrand)病(vWD)、先天性肌强直、遗传性肾淀粉样变性、扩张型心肌病、遗传性淋巴水肿、家族性阿尔茨海默病、朊病毒病、慢性婴儿神经性皮肤关节综合征(CINCA)、先天性耳聋、尼曼-匹克氏(Niemann-Pick)病C型(NPC)病和结蛋白(desmin)相关肌病(DRM)。在特定实施方案中，疾病或病症是尼曼-匹克氏病C型(NPC)病。

在一些实施方案中，疾病、障碍或病症与NPC基因、DNMT1基因、PCSK9基因或TMC1基因中的点突变相关。在某些实施方案中，点突变是NPC中的T3182C突变，其导致I1061T氨基酸替换。

在某些实施方案中，点突变是TMC1中的A545G突变，其导致Y182C氨基酸替换。TMC1编码在内耳感觉毛细胞中形成机械敏感离子通道的蛋白，是正常听觉功能所必需的。Y182C氨基酸置换与先天性耳聋有关。

在一些实施方案中，疾病、障碍或病症与产生终止密码子的点突变相关，例如，基因编码区内的提前终止密码子。

其他示例性疾病、障碍和病症包括囊性纤维化(参见，例如，Schwank et al.,Functional repair of CFTR by CRISPR/Cas9 in intestinal stem cell organoids ofcystic fibrosis patients.Cell stem cell.2013；13:653-658；以及Wu et.al.,Correction of a genetic disease in mouse via use of CRISPR-Cas9.Cell stemcell.2013；13:659-662，两者都没有使用脱氨酶融合蛋白来校正遗传缺陷)；苯丙酮尿症——例如，苯丙氨酸羟化酶基因中位点835(小鼠)或位点240(人)或同源残基处苯丙氨酸至丝氨酸突变(T>C突变)——参见，例如，McDonald et al.,Genomics.1997；39:402-405；Bernard-Soulier综合征(BSS)——例如，血小板膜糖蛋白IX中位点55或同源残基处苯丙氨酸至丝氨酸突变，或残基24或同源残基处半胱氨酸至精氨酸突变(T>C突变)——参见，例如，Noris et al.,British Journal of Haematology.1997；97:312-320,and Ali etal.,Hematol.2014；93:381-384；表皮松解性角化过度(EHK)——例如，角蛋白1中位点160或161(如果计算起始蛋氨酸)或同源残基处亮氨酸至脯氨酸突变(T>C突变)——参见，例如，Chipev et al.,Cell.1992；70:821-828，另见UNIPROT数据库(www.uniprot.org)登录号P04264；慢性阻塞性肺疾病(COPD)——例如，α1-抗胰蛋白酶的加工形式位点54或55或同源残基(如果计算起始蛋氨酸)或未加工形式残基78或同源残基处亮氨酸至脯氨酸突变(T>C突变)——参见，例如，Poller et al.,Genomics.1993；17:740-743，另见UNIPROT数据库登录号P01011；Charcot-Marie-Toot病4J型——例如，FIG4中位点41或同源残基处异亮氨酸至苏氨酸突变(T>C突变)——参见，例如Lenk et al.,PLoS Genetics.2011；7:e1002104；成神经细胞瘤(NB)——例如，Caspase-9中位点197或同源残基处亮氨酸至脯氨酸突变(T>C突变)——参见，例如，Kundu et al.,3Biotech.2013,3:225-234；冯·维勒布兰德氏病(vWD)–例如，冯·维勒布兰德因子的加工形式位点509或同源残基处或冯·维勒布兰德因子的未加工形式位点1272或同源残基处半胱氨酸至精氨酸突变(T>C突变)——参见，例如，Lavergne et al.,Br.J.Haematol.1992，82：66-72；另见UNIPROT数据库登录号P04275；先天性肌强直——例如，肌肉氯离子通道基因CLCN1中位点277或同源残基处半胱氨酸至精氨酸突变(T>C突变)——参见，例如，Weinberger et al.,The J.ofPhysiology.2012,590:3449-3464；遗传性肾淀粉样变性——例如，载脂蛋白AII的加工形式位点78或同源残基或未加工形式位点101或同源残基处终止密码子至精氨酸突变(T>C突变)——参见，例如，Yazaki et al.,Kidney Int.2003；64:11-16；扩张型心肌病(DCM)——例如，FOXD4基因中位点148或同源残基色氨酸至精氨酸突变(T>C突变)，参见，例如，Minoretti et.al.,Int.J.of Mol.Med.2007,19:369-372；遗传性淋巴水肿——例如，VEGFR3酪氨酸激酶中位点1035或同源残基处组氨酸至精氨酸突变(A>G突变)，参见，例如，Irrthum et al.,Am.J.Hum.Genet.2000,67:295-301；家族性阿尔茨海默病——例如，早老素1中位点143或同源残基处异亮氨酸至缬氨酸突变(A>G突变)，参见，例如，Gallo et.al.,J.Alzheimer’s disease.2011,25:425-431；朊病毒病——例如，朊病毒蛋白中位点129同源残基处甲硫氨酸至缬氨酸突变(A>G突变)——参见，例如，Lewis et.al.,J.of GeneralVirology.2006,87:2443-2449；慢性婴儿神经性皮肤关节综合征(CINCA)——例如，cryopyrin蛋白中位点位点570或同源残基处酪氨酸至半胱氨酸突变(A>G突变)——参见，例如，Fujisawa et.al.Blood.2007,109:2903-2911；以及结蛋白相关肌病(DRM)——例如，αβ晶状体蛋白中位点120或同源残基处精氨酸至甘氨酸突变(A>G突变)——参见，例如，Kumar et al.,J.Biol.Chem.1999；274:24137-24141。所有参考文献和数据库条目的全部内容通过引用并入本文。

三核苷酸重复扩增病

三核苷酸重复扩增与许多人类疾病有关，包括亨廷顿病、脆性X综合征和弗里德赖希氏共济失调。最常见的三核苷酸重复包含CAG三联体，但也存在GAA三联体(弗里德赖希氏共济失调)和CGG三联体(脆性X综合征)。继承扩增的倾向或获得已经扩增的亲本等位基因增加患病的可能性。三核苷酸重复的致病性扩增可假设使用引导编辑来校正。

重复区域上游的区域可被RNA引导的核酸酶产生切口，然后用于引发合成包含健康数量重复的新DNA链(取决于特定基因和疾病)，根据图1G或图22中概述的一般机制。在重复序列之后，添加匹配邻近重复序列的另一端的序列(红色链)的同一性的同源短序列。TPRT系统侵入新合成的链，随后用新合成的瓣置换内源性DNA，导致缩减的重复等位基因。术语“缩减”是指核苷酸重复区长度的缩短，从而导致三核苷酸重复区的修复。

本文所述引导编辑系统或引导编辑(PE)系统可用于缩减三核苷酸重复突变(或“三联体扩增疾病”)，以治疗诸如亨廷顿病和其他三核苷酸重复病症的病症。三核苷酸重复扩增病是复杂的进行性障碍，涉及发育神经生物学，通常影响认知和感觉运动功能。这些障碍显示出遗传早现(即，每一代都增加严重程度)。DNA扩增或缩减通常以减数分裂方式发生(即，在配子发生期间或胚胎发育早期)，并且通常具有性别偏倚，这意味着某些基因仅在通过女性遗传时才会扩增，而其他基因则仅通过男性遗传。在人类中，三核苷酸重复扩增病会导致转录或翻译水平的基因沉默，这本质上破坏基因功能。或者，三核苷酸重复扩增病会导致改变的蛋白产生大的重复氨基酸序列，通常以显性失活的方式(如，多聚谷氨酰胺疾病)消除或改变蛋白功能。

不希望受理论的束缚，三联体扩增由DNA复制期间或DNA修复合成期间的滑移引起。由于串联重复序列彼此具有相同的序列，两条DNA链之间的碱基配对可在序列的多个点发生。这可能会导致在DNA复制或DNA修复合成过程中形成“环出”结构。这可能导致重复序列的重复复制，扩大重复数目。已提出了涉及杂交RNA:DNA中间体的其他机制。引导编辑可用于通过删除一个或多个或有问题的重复密码子三联体来减少或消除这些三联体扩增区。在这种应用的实施方案中，图23提供了用引导编辑缩减或减少三核苷酸重复序列的PEgRNA设计的示意图。

可实施引导编辑以通过用包含适当靶向切割位点的PEgRNA的引导编辑器对三联体重复区域上游的区域产生切口来缩减三联体扩增区。然后，引导编辑器基于PEgRNA作为模板(即，其编辑模板)合成新的DNA链(ssDNA瓣)，该模板链编码健康数量的三联体重复(取决于特定的基因和疾病)。还合成包含健康三联体重复序列的ssDNA链的新合成的ssDNA链，以包括匹配邻近重复序列的另一端的序列(红色链)的同源短序列(即，同源臂)。新合成链的侵入，以及随后用新合成的ssDNA瓣置换内源性DNA，导致缩减重复等位基因。

取决于特定的三核苷酸扩增病，缺陷诱导三联体扩增可发生在“三核苷酸重复扩增蛋白”中。三核苷酸重复扩增蛋白是与发生三核苷酸重复扩增病的易感性、三核苷酸重复扩增病的存在、三核苷酸重复扩增病的严重程度或其任何组合相关的一组不同的蛋白。三核苷酸重复扩增病根据重复序列的类型分为两类。最常见的重复是三联体CAG，当其存在于基因的编码区时，编码氨基酸谷氨酰胺(Q)。因此，这些疾病被称为聚谷氨酰胺(poly Q)疾病且包括以下疾病：亨廷顿病(HD)；脊髓延髓肌萎缩症(SBMA)；脊髓小脑性共济失调(SCA1、2、3、6、7和17型)；和齿状核红核苍白球路易体萎缩(DRPLA)。其余的三核苷酸重复扩增病不涉及CAG三联体或CAG三联体不在基因的编码区，因此被称为非聚谷氨酰胺疾病。非聚谷氨酰胺疾病包括脆性X综合征(FRAXA)；脆性XE智力低下(FRAXE)；弗里德赖希氏共济失调(FRDA)；肌强直性营养不良(DM)；以及脊髓小脑性共济失调(SCA 8型和12型)。

可基于与三核苷酸重复扩增病相关的蛋白与三核苷酸重复扩增病的实验关联来选择与三核苷酸重复扩增病相关的蛋白。例如，相对于没有三核苷酸重复扩增病的群体，与三核苷酸重复扩增病相关的蛋白的生产率或循环浓度在具有三核苷酸重复扩增病的群体中可能升高或降低。可使用蛋白组学技术评估蛋白水平的差异，包括但不限于Western印迹、免疫组织化学染色、酶联免疫吸附测定(ELISA)和质谱法。或者，可通过使用基因组技术获得编码蛋白的基因的基因表达谱来鉴定与三核苷酸重复扩增病相关的蛋白，包括但不限于DNA微阵列分析、基因表达系列分析(SAGE)和实时定量聚合酶链反应(Q-PCR)。

与三核苷酸重复扩增病相关的蛋白的非限制性示例可通过引导编辑来校正，包括AR(雄激素受体)、FMR1(脆性X智力低下1)、HTT(亨廷顿蛋白)、DMPK(肌强直性肌营养不良症-蛋白激酶)、FXN(frataxin)、ATXN2(ataxin2)、ATN1(atrophin1)、FEN1(瓣结构特异性核酸内切酶1)、TNRC6A(含有6A的三核苷酸重复序列)、PABPN1(poly(A)结合蛋白、核1)、JPH3(亲联蛋白3)、MED15(中介复合体亚基15)、ATXN1(ataxin1)、ATXN3(ataxin3)、TBP(TATA盒结合蛋白)、CACNA1A(钙通道、电压依赖性P/Q型，α1A亚基)、ATXN80S(ATXN8反链(非蛋白编码))、PPP2R2B(蛋白磷酸酶2、调节亚基B、β)、ATXN7(ataxin7)、TNRC6B(含6B的三核苷酸重复)、TNRC6C(含6C的三核苷酸重复)、CELF3(CUGBP，Elav-样家族成员3)、MAB21L1(mab-21-样1(秀丽隐杆线虫))、MSH2(mutS同源物2，结肠癌，非息肉病1型(大肠杆菌))、TMEM185A(跨膜蛋白185A)、SIX5(SIX同源框5)、CNPY3(冠层3同源物(斑马鱼))、FRAXE(脆弱部位、叶酸型、罕见、fra(X)(q28)E)、GNB2(鸟嘌呤核苷酸结合蛋白(G蛋白)、β多肽2)、RPL14(核糖体蛋白L14)、ATXN8(ataxin8)、INSR(胰岛素受体)、TTR(转甲状腺素蛋白)、EP400(E1A结合蛋白p400)、GIGYF2(GRB10相互作用的GYF蛋白2)、OGG1(8-氧鸟嘌呤DNA糖苷酶)、STC1(斯钙素1)、CNDP1(肌肽二肽酶1(金属肽酶M20家族))、C10orf2(染色体10开放阅读框2)、MAML3(mastermind-样3(果蝇))、DKC1(先天性角化不良1，角化不良蛋白)、PAXIP1(PAX相互作用(与转录激活域)蛋白1)、CASK(钙/钙调蛋白依赖性丝氨酸蛋白激酶(MAGUK家族))、MAPT(微管相关蛋白tau)、SP1(Sp1转录因子)、POLG(聚合酶(DNA定向)、γ)、AFF2(AF4/FMR2家族，成员2)、THBS1(血小板反应蛋白1)、TP53(肿瘤蛋白p53)、ESR1(雌激素受体1)、CGGBP1(CGG三联体重复结合蛋白1)、ABT1(基础转录激活因子1)、KLK3(激肽释放酶相关肽酶3)、PRNP(朊病毒蛋白)、JUN(jun致癌基因))，KCNN3(钾中/小电导钙激活通道，亚家族N，成员3)，BAX(BCL2相关X蛋白)，FRAXA(脆弱部位，叶酸型，罕见，fra(X)(q27.3)A(巨睾丸病，智力低下)、KBTBD10(kelch重复和BTB(POZ)域包含10个)、MBNL1(盲肌样(果蝇))、RAD51(RAD51同源物(RecA同源物，大肠杆菌)(酿酒酵母))、NCOA3(核受体共激活因子3)、ERDA1(扩增重复结构域，CAG/CTG1)、TSC1(结节性硬化症1)、COMP(软骨寡聚基质蛋白)、GCLC(谷氨酸-半胱氨酸连接酶，催化亚基)，RRAD(与糖尿病相关的Ras)、MSH3(mutS同源物3(大肠杆菌))、DRD2(多巴胺受体D2)、CD44(CD44分子(印度血型))、CTCF(CCCTC结合因子(锌指蛋白)))、CCND1(细胞周期蛋白D1)、CLSPN(claspin同源物(非洲爪蟾)、MEF2A(肌细胞增强因子2A)、PTPRU(蛋白酪氨酸磷酸酶，受体类型，U)、GAPDH(3-磷酸甘油醛脱氢酶)、TRIM22(三重基序含22)、WT1(威尔姆氏(Wilms)肿瘤1)、AHR(芳烃受体)、GPX1(谷胱甘肽过氧化物酶1)、TPMT(硫嘌呤S-甲基转移酶)、NDP(诺里病(假神经胶质瘤))、ARX(无芒相关同源框)、MUS81(MUS81核酸内切酶同源物(酿酒酵母))、TYR(酪氨酸酶(眼皮肤白化病IA))、EGR1(早期生长反应蛋白1)、UNG(尿嘧啶-DNA糖基化酶)、NUMBL(numb同源物(果蝇)样)、FABP2(脂肪酸结合蛋白2，肠道)、EN2(engrailed同源框2)、CRYGC(晶状体蛋白、γC)、SRP14(信号识别颗粒14kDa(同源AluRNA结合蛋白)、CRYGB(晶状体蛋白、γB)、PDCD1(程序性细胞死亡1)、HOXA1(同源框A1)、ATXN2L(ataxin2样)、PMS2(PMS2减数分裂后分离增加2(酿酒酵母))、GLA(半乳糖苷酶，α)、CBL(Cas-Br-M(鼠)亲嗜性逆转录病毒转化序列)、FTH1(铁蛋白，重多肽1)、IL12RB2(白细胞介素12受体，β2)、OTX2(orthodenticle同源框2)、HOXA5(同源框A5)、POLG2(聚合酶(DNA定向)、γ2、辅助亚基)、DLX2(无远端同源框2)、SIRPA(信号调节蛋白)α)、OTX1(orthodenticle同源框1)、AHRR(芳烃受体阻遏物)、MANF(中脑星形胶质细胞衍生的神经营养因子)、TMEM158(跨膜蛋白158(基因/假基因))和ENSG00000078687。

在特定方面，本公开提供了基于TPRT的方法，其用于治疗被诊断患有扩增重复病(又被称为重复扩增病症或三核苷酸重复病)的受试者。当微卫星重复扩增超过阈值长度时发生扩增重复病。目前，至少有30种遗传性疾病被认为是由重复扩增引起的。20世纪90年代初期，随着发现三核苷酸重复是几种主要遗传性疾病的基础，包括脆性X、脊髓和延髓肌萎缩症、肌强直性营养不良和亨廷顿病(Nelson et al,“The unstable repeats–threeevolving faces of neurological disease,”Neuron,March 6,2013,Vol.77；825-843,其通过引用并入本文)，以及HawRiver综合征、Jacobsen综合征、齿状核红核苍白球路易体萎缩(DRPLA)、Machado-Joseph病、并指(趾)多指(趾)畸形(SPDII)、手足生殖器综合征(HFGS)、锁骨颅骨发育不全(CCD)、前脑无裂畸形(HPE)、先天性中枢性低通气综合征(CCHS)、ARX非综合征性X连锁智力低下(XLMR)和眼咽肌营养不良(OPMD)(参见，发现微卫星重复不稳定性是这些病症的标志，正如预期，每一代连续发生重复扩增的现象，导致后代出现更严重的表型和更早的发病年龄。认为重复扩增通过几种不同的机制引起疾病。即，扩增可能在基因、mRNA转录本和/或编码的蛋白水平上干扰细胞功能。在某些情况下，突变经由通过沉默包含重复基因的功能丧失机制作用。在其他情况下，疾病是由功能获得机制引起的，即mRNA转录本或蛋白具有新的异常功能。

在一个实施方案中，治疗三核苷酸重复病的方法描述于图23中。一般地，该方法涉及使用TPRT基因组编辑(即，引导编辑)与延伸的gRNA相组合，该gRNA包含编码期望且健康的置换三核苷酸重复序列的区域，该区域旨在通过引导编辑加工机制置换内源性患病三核苷酸重复序列。用于缩减三核苷酸重复序列和利用TPRT基因组编辑(即，引导编辑)的三核苷酸重复缩减的示例性gRNA设计的示意图示于图23。

朊病毒病

在人类中，朊病毒病包括克雅氏病(CJD)、变异型克雅氏病(vCJD)、杰茨曼-斯脱司勒-史茵克综合征、致命性家族性失眠症和库鲁病。在动物中，朊病毒病包括牛海绵状脑病(BSE或“疯牛病”)、慢性消耗性疾病(CWD)、羊瘙痒症、传染性水貂脑病、猫海绵状脑病和有蹄类海绵状脑病。引导编辑可用于将保护性点突变安装到朊病毒蛋白，以预防或阻止这些朊病毒病中任何一种疾病的进展。

经典CJD是一种人朊病毒病。它是神经退行性疾病，具有典型的临床和诊断特征。这种疾病进展迅速并且总是致命的。感染这种疾病通常会在发病后1年内导致死亡。CJD是快速进展且总是致命的神经退行性疾病，据信是由被称为朊病毒蛋白的细胞糖蛋白的异常同种型引起的。CJD在世界范围内发生，据报道包括美国在内的许多国家的估计年发病率约为每百万人口一例。绝大多数CJD患者通常在发病1年内死亡。将CJD与人类和动物中发生的其他朊病毒病一起归类为传染性海绵状脑病(TSE)。在约85％的患者中，CJD作为散发性疾病发生，没有可识别的传播模式。由于朊病毒蛋白基因的遗传突变，一小部分患者(5％至15％)会发展为CJD。这些遗传形式包括杰茨曼-斯脱司勒-史茵克综合征和致命性家族性失眠症。目前对CJD尚无已知的治疗方法。

变异型克雅氏病(vCJD)是1996年首次在英国被描述的一种朊病毒病。现在有强有力的科学证据表明，导致奶牛朊病毒病，牛海绵状脑病(BSE或“疯牛病”)爆发的病原体与导致人vCJD爆发的病原体相同。变异型CJD(vCJD)与经典CJD(通常简称为CJD)不同。它具有不同于经典CJD的临床和病理特征。每种疾病还具有朊病毒蛋白基因的特定遗传特征。这两种疾病都是致命的脑部疾病，潜伏期非常长，以年为单位，并且由被称为朊病毒的非常规传染性因子引起。目前对vCJD尚无已知的治疗方法。

BSE(牛海绵状脑病或“疯牛病”)是牛的进行性神经系统疾病，其由被称为朊病毒的罕见传染性因子感染引起。传染性因子的性质还不是很清楚。目前，最公认的理论是该因子是被称为朊病毒蛋白的正常蛋白的修饰形式。由于尚不清楚的原因，正常朊病毒蛋白会转变为致病(有害)形式，然后损害牛的中枢神经系统。越来越多的证据表明存在不同的BSE株系：导致英国爆发的典型或经典BSE株系和两种非典型株系(H和L株)。目前对BSE尚无已知的治疗方法。

慢性消耗性疾病(CWD)是影响鹿、麋鹿、驯鹿、梅花鹿和驼鹿的朊病毒病。已在北美一些地区包括加拿大和美国、挪威和韩国发现。受感染的动物可能需要一年多的时间才会出现症状，包括体重急剧下降(消瘦)、跌跌撞撞、无精打采和其他神经系统症状。CWD可影响所有年龄的动物，一些受感染的动物可能在没有患病的情况下死亡。CWD对动物是致命的，并且没有治疗方法或疫苗。

如本文所用，术语“朊病毒”是指已知会引起人类和动物疾病(海绵状脑病)的传染性颗粒。术语“朊病毒”是“蛋白”和“感染”这两个词的缩写，并且颗粒大部分(如果不是全部)由表达PRNP^C的PRNP基因编码的PRNP^Sc分子组成，PRNP^C构象改变成为PRNP^Sc。朊病毒不同于细菌、病毒和类病毒。已知的朊病毒包括感染动物引起羊瘙痒症(绵羊和山羊神经系统的可传染的退行性疾病)以及牛海绵状脑病(BSE)或疯牛病和猫海绵状脑病的那些。如上所述，已知影响人类的四种朊病毒病是(1)库鲁病，(2)克雅氏病(CJD)，(3)杰茨曼-斯脱司勒-史茵克病(GSS)，以及(4)致命性家族性失眠症(FFI)。如本文所用，朊病毒包括在所用的任何动物，特别是在人和家养农场动物中引起所有或任何这些疾病或其他疾病的所有形式的朊病毒。

一般地且不希望受理论的束缚，先前疾病是由朊病毒蛋白的错误折叠引起的。此类疾病——通常被称为沉积病——朊病毒蛋白的错误折叠可解释如下。如果A是正常合成的基因产物，在单体或寡聚状态下发挥预期的生理作用，A*是A的构象激活形式，能够发生明显的构象变化，B是倾向于多聚体组装的构象改变状态(即，形成沉积物的错误折叠形式)，Bn是具有致病性且相对难以回收的多聚体材料。对于朊病毒病，PRNP^C和PRNP^Sc对应于状态A和Bn，其中A主要是螺旋和单体，而Bn是富含β的多聚体。

已知朊病毒蛋白中的某些突变可能与先前疾病的风险增加有关。相反地，朊病毒蛋白中的某些突变在本质上具有保护作用。参见，Bagynszky et al.,“Characterizationof mutations in PRNP(prion)gene and their possible roles in neurodegenerativediseases,”Neuropsychiatr Dis Treat.,2018；14:2067-2085，其内容通过引用并入本文。

PRNP(NCBI参考序列号NP_000302.1(SEQ ID NO:291))——人朊病毒蛋白——由位于20号染色体16kb长的基因编码(4686151-4701588)。它包含两个外显子，外显子2携带编码253个氨基酸(AA)长的PrP蛋白的开放阅读框。外显子1是非编码外显子，可用作转录起始位点。翻译后修饰导致前22个AA N端片段(NTF)和最后23个AA C端片段(CTF)的去除。NTF在PrP转运到内质网(ER)后裂解，而CTF(糖基磷脂酰肌醇[GPI]信号肽[GPI-SP])被GPI锚裂解。GPI锚可能参与PrP蛋白转运。它还可能发挥将朊病毒蛋白附着至细胞膜外表面的作用。正常的PrP由长N端环(包含八肽重复区域)、两个短β折叠、三个α螺旋和C端区域(包含GPI锚)组成。PrP的裂解产生208个AA长的糖蛋白，锚定于细胞膜。

PRNP(NP_000302.1)的253个氨基酸序列如下：

MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYPPQGGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQGGGTHSQWNKPSKPKTNMKHMAGAAAAGAVVGGLGGYMLGSAMSRPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCVNITIKQHTVTTTTKGENFTETDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSSPPV(SEQ ID NO:291).

PRNP(NP_000302.1)的253个氨基酸序列由以下核苷酸序列(NCBI参考序列号NM_000311.5,“智人朊病毒蛋白(PRNP),转录本变体1,mRNA)编码，如下:

目前报道的与CJD和FFI相关的相对于PRNP(NP_000302.1)的突变位点如下。这些突变可使用本文公开的引导编辑器去除或安装。

与可能对朊病毒病的保护性质相关的相对于PRNP(NP_000302.1)(SEQ ID NO:291)的突变位点，如下：

因此，在不同实施方案中，可使用引导编辑来去除与朊病毒病相关的PRNP中的突变或在PRNP中安装被认为对朊病毒病具有保护作用的突变。例如，引导编辑可用于去除或恢复D178N、V180I、T188K、E196K、E196A、E200K、E200G、V203I、R208H、V210I、E211Q、I215V或M232R突变(相对于NP_000302.1的PRNP)(SEQ ID NO:291)。在其他实施方案中，可使用引导编辑来去除或恢复PRNP蛋白中的P102L、P105L、A117V、G131V、V176G、H187R、F198S、D202N、Q212P、Q217R或M232T突变(相对于NP_000302.1的PRNP)(SEQ ID NO:291)。通过使用引导编辑去除或校正PRNP中此类突变的存在，可降低或消除朊病毒病的风险。

在其他实施方案中，可使用引导编辑在PRNP中安装保护性突变，该突变与对一种或多种朊病毒病的保护作用相关。例如，可将引导编辑用于在PRNP中安装G127S、G127V、M129V、D167G、D167N、N171S、E219K或P238S保护性突变(相对于NP_000302.1的PRNP)(SEQID NO:291)。在其他实施方案中，保护性突变可以是安装在PRNP中G127、G127、M129、D167、D167、N171、E219或P238处的任何替代氨基酸(相对于NP_000302.1的PRNP)(SEQ ID NO:291)。

在另一个实施方案中，可将引导编辑用于在PRNP中安装E219K保护性突变。

[9]药物组合物

本公开的其他方面涉及包含本文所述引导编辑系统的各种组件(如，包括但不限于napDNAbps、逆转录酶、融合蛋白(如，包含napDNAbps和逆转录酶)、延伸的向导RNA和包含融合蛋白和延伸的向导RNA的复合物，以及辅助元件(如，第二链切口组件和5'内源性DNA瓣去除核酸内切酶，用于帮助驱动引导编辑过程向着编辑产物形成)中任一种的药物组合物。

如本文所用，术语“药物组合物”是指配制用于制药用途的组合物。在一些实施方案中，药物组合物进一步包含药学上可接受的载体。在一些实施方案中，药物组合物包含其他药剂(如，用于特异性递送、增加半衰期或其他治疗化合物)。

如本文所用，术语“药学上可接受的载体”是指药学上可接受的材料、组合物或赋形剂，例如液体或固体填充剂、稀释剂、赋形剂、制造助剂(如，润滑剂、滑石镁、硬脂酸钙或锌、或硬脂酸)或参与将化合物从身体的一个部位(如，递送部位)携带或运输到另一个部位(如，器官、组织或身体的一部分)的溶剂包封材料。药学上可接受的载体在与制剂的其他成分相容并且对受试者的组织没有伤害的意义上是“可接受的”(如，生理相容的、无菌的、生理pH等)。可用作药学上可接受的载体的材料的一些示例包括：(1)糖类，如乳糖、葡萄糖和蔗糖；(2)淀粉，如玉米淀粉、马铃薯淀粉；(3)纤维素及其衍生物，如羧甲基纤维素钠、甲基纤维素、乙基纤维素、微晶纤维素、醋酸纤维素等；(4)粉状黄芪胶；(5)麦芽；(6)明胶；(7)润滑剂，如硬脂酸镁、十二烷基硫酸钠、滑石粉等；(8)可可脂、栓剂蜡等赋形剂；(9)油类，如花生油、棉籽油、红花油、香油、橄榄油、玉米油、豆油等；(10)二醇类，如丙二醇；(11)多元醇，如甘油、山梨糖醇、甘露糖醇和聚乙二醇(PEG)；(12)油酸乙酯、月桂酸乙酯等酯类；(13)琼脂；(14)缓冲剂，如氢氧化镁、氢氧化铝等；(15)海藻酸；(16)无热原水；(17)等渗盐水；(18)林格氏(Ringer's)溶液；(19)乙醇；(20)pH缓冲溶液；(21)聚酯、聚碳酸酯和/或聚酐；(22)填充剂，如多肽和氨基酸；(23)血清成分，如血清白蛋白、高密度脂蛋白和低密度脂蛋白；(22)C2-C12醇类，如乙醇；(23)用于药物制剂的其他无毒相容物质。润湿剂、着色剂、脱模剂、涂层剂、甜味剂、调味剂、加香剂、防腐剂和抗氧化剂也可存在于制剂中。诸如“赋形剂”、“载体”、“药学上可接受的载体”等术语在本文中可互换使用。

在一些实施方案中，药物组合物被配制用于递送至受试者，例如用于基因编辑。施用本文所述药物组合物的合适途径包括但不限于：局部、皮下、经皮、皮内、病灶内、关节内、腹膜内、膀胱内、经粘膜、牙龈、牙内、耳蜗内、经鼓膜、器官内、硬膜外、鞘内、肌肉内、静脉内、血管内、骨内、眼周、瘤内、脑内和脑室内施用。

在一些实施方案中，将本文所述药物组合物局部施用于患病部位(如，肿瘤部位)。在一些实施方案中，本文所述药物组合物通过注射、通过导管、通过栓剂或通过植入物向受试者施用，植入物为多孔、无孔或凝胶状材料，包括膜如唾液酸膜，或纤维。

在其他实施方案中，本文所述药物组合物在控释系统中递送。在一个实施方案中，可使用泵(参见，例如，Langer,1990,Science 249:1527-1533；Sefton,1989,CRCCrit.Ref.Biomed.Eng.14:201；Buchwald et al.,1980,Surgery 88:507；Saudek et al.,1989,N.Engl.J.Med.321:574)。在另一个实施方案中，可使用聚合材料(参见，例如，Medical Applications of Controlled Release(Langer and Wise eds.,CRC Press,Boca Raton,Fla.,1974)；Controlled Drug Bioavailability,Drug Product Design andPerformance(Smolen and Ball eds.,Wiley,New York,1984)；Ranger and Peppas,1983,Macromol.Sci.Rev.Macromol.Chem.23:61.还参见Levy et al.,1985,Science 228:190；During et al.,1989,Ann.Neurol.25:351；Howard et al.,1989,J.Neurosurg.71:105)。其他控释系统在例如Langer(同上)中讨论。

在一些实施方案中，根据常规程序将药物组合物配制成适合于静脉内或皮下向受试者如人施用的组合物。在一些实施方案中，用于通过注射施用的药物组合物是无菌等渗水性缓冲液中的溶液。必要时，药物还可包括增溶剂和局部麻醉剂(如，利多卡因)，以缓解注射部位的疼痛。通常，成分以单位剂型单独提供或混合在一起提供，例如，作为显示活性剂量的密封容器如安瓿或小袋中的干燥冻干粉或无水浓缩物。当药物通过输液施用时，可用装有无菌药用级水或盐水的输液瓶进行配药。当药物组合物通过注射施用时，可提供无菌注射用水或盐水的安瓿，以便在施用前可混合成分。

用于全身施用的药物组合物可以是液体，如无菌盐水、乳酸林格氏溶液或汉克氏(Hank’s)溶液。此外，药物组合物可以是固体形式并在使用前立即重新溶解或悬浮。还考虑了冻干形式。

药物组合物可包含在脂质颗粒或囊泡中，例如脂质体或微晶，其也适用于肠胃外施用。颗粒可具有任何合适的结构，如单层或多层，只要其中包含组合物。化合物可被包裹在含有融合脂质二油酰磷脂酰乙醇胺(DOPE)、低水平(5-10mol％)阳离子脂质核并通过聚乙二醇(PEG)涂层稳定的“稳定型质粒-脂质颗粒”(SPLP)中(Zhang Y.P.et al.,GeneTher.1999,6:1438-47)。带正电荷的脂质如N-[1-(2,3-二油酰氧基)丙基]-N,N,N-三甲基-甲基硫酸铵或“DOTAP”特别优选用于此类颗粒和囊泡。这些脂质颗粒的制备是众所周知的。参见，例如美国专利号4,880,635；4,906,477；4,911,928；4,917,951；4,920,016；和4,921,757；其各自通过引用并入本文。

例如，本文所述药物组合物可以单位剂量施用或包装。当用于本公开的药物组合物时，术语“单位剂量”是指适合用于受试者的单位剂量的物理上离散的单位，每个单位包含经计算以产生期望的治疗效果的预定量的活性物质结合所需的稀释剂；即，载体或媒介物。

此外，药物组合物可作为药物试剂盒提供，其包括(a)含有冻干形式的本发明化合物的容器，和(b)含有药学上可接受的注射用稀释剂(如，无菌水)的第二容器。药学上可接受的稀释剂可用于复溶或稀释本发明的冻干化合物。任选与这种容器相关联的可以是由管理药物或生物产品的制造、使用或销售的政府机构规定形式的通知，该通知反映了用于人类施用的制造、使用或销售机构的批准。

另一方面，包括含有可用于治疗上述疾病的材料的制品。在一些实施方案中，制品包括容器和标签。合适的容器包括如瓶子、小瓶、注射器和试管。容器可由多种材料形成，例如玻璃或塑料。在一些实施方案中，容器容纳有效治疗本文所述疾病的组合物并且可具有无菌进入孔。例如，容器可以是静脉内溶液袋或具有可被皮下注射针刺穿的塞子的小瓶。组合物中的活性剂是本发明的化合物。在一些实施方案中，容器上或与容器相关的标签表明组合物用于治疗疾病的选择。制品还可包括第二容器，其包含药学上可接受的缓冲液，例如磷酸盐缓冲盐水、林格氏溶液或葡萄糖溶液。从商业和用户的角度来看，它还可包括其他所需的材料，包括其他缓冲液、稀释剂、过滤器、针头、注射器和带有使用说明的包装插页。

试剂盒、细胞、载体和递送

试剂盒

本公开的组合物可组装成试剂盒。在一些实施方案中，试剂盒包含用于表达本文所述的引导编辑器的核酸载体。在其他实施方案中，试剂盒还包含合适的向导核苷酸序列(如，PEgRNA和第二位点gRNA)或用于表达此类向导核苷酸序列的核酸载体，以将Cas9蛋白或引导编辑器靶向期望的靶序列。

本文所述试剂盒可包括一个或多个容器，其容纳用于执行本文所述方法的组分和任选的使用说明。本文所述任何试剂盒还可包括执行测定方法所需的组分。在适用的情况下，试剂盒的各组分可以液体形式(如，溶液)或固体形式(如，干粉)提供。在某些情况下，一些组分可以是可复溶的或以其他方式可加工的(如，成为活性形式)，例如，通过添加合适的溶剂或其他物质(如，水)，这些物质可与试剂盒一起提供或不与试剂盒一起提供提供。

在一些实施方案中，试剂盒可任选包括使用所提供组分的说明书和/或宣传。如本文所用，“说明”可标明说明和/或宣传的组成部分，并且通常涉及关于本公开的包装或与本公开的包装相关联的书面说明。说明还可包括以任何方式提供的任何口头或电子说明，使得用户将清楚地认识到说明将与试剂盒相关联，例如，视听(如，录像带、DVD等)、互联网和/或基于网络的通讯等。书面说明可采用监管药品或生物制品制造、使用或销售的政府机构规定的形式，这也可反映制造、使用或销售机构对动物施用的批准。如本文所用，“宣传”包括所有开展业务的方法，包括教育方法、医院和其他临床指导、科学探究、药物发现或开发、学术研究、制药行业活动(包括药品销售)以及任何广告或其他促销活动，包括与本公开相关的任何形式的书面、口头和电子通讯。此外，如本文所述，试剂盒可根据具体应用包括其他组分。

试剂盒可在一个或多个容器中包含本文所述任何一种或多种组分。组分可以无菌制备，包装在注射器中并冷藏运输。或者，其可装在小瓶或其他容器中储存。第二容器可具有无菌制备的其他组分。或者，试剂盒可包括在小瓶、管或其他容器中预先混合和运输的活性剂。

试剂盒可具有多种形式，例如泡罩袋、收缩包装袋、真空密封袋、密封热成型托盘或类似的袋或托盘形式，其中配件松散地包装在袋，一个或多个管子、容器、盒子或袋子内。在添加附件之后可对试剂盒进行灭菌，从而允许容器中的各个附件以其他方式打开。可使用任何合适的灭菌技术对试剂盒进行灭菌，例如辐射灭菌、热灭菌或本领域已知的其他灭菌方法。试剂盒还可根据具体应用包括其他组分，例如容器、细胞培养基、盐、缓冲液、试剂、注射器、针头、用于施加或去除消毒剂的织物(如，纱布)、一次性手套、施用前用于试剂的支撑物等。本公开的一些方面提供了包含核酸构建体的试剂盒，所述核酸构建体包含编码本文所述引导编辑系统的各种组件的核苷酸序列(如，包括但不限于napDNAbp、逆转录酶、聚合酶、融合蛋白(如，包含napDNAbps和逆转录酶(或更广泛地，聚合酶)、延伸的向导RNA和包含融合蛋白和延伸的向导RNA的复合物，以及辅助元件，如第二链切口组分(如，第二链切口产生性gRNA)和5’内源性DNA瓣去除核酸内切酶，用于帮助驱动引导编辑过程向着编辑产物形成)。在一些实施方案中，核苷酸序列包含驱动引导编辑系统组件表达的异源启动子(或多于一个启动子)。

本公开的其他方面提供了包含一种或多种核酸构建体的试剂盒，所述核酸构建体编码本文所述引导编辑系统的各种组件，例如，包含编码能够修饰靶DNA序列的引导编辑系统的组件的核苷酸序列。在一些实施方案中，核苷酸序列包含驱动引导系统组件表达的异源启动子。

本公开的一些方面提供了包含核酸构建体的试剂盒，所述核酸构建体包含(a)编码融合到逆转录酶的napDNAbp(如，Cas9结构域)的核苷酸序列，和(b)驱动(a)的序列表达的异源启动子。

细胞

可包含本文所述任何组合物的细胞包括原核细胞和真核细胞。本文所述方法用于将Cas9蛋白或引导编辑器递送至真核细胞(如，哺乳动物细胞如人细胞)。在一些实施方案中，细胞是体外的(如，培养的细胞)。在一些实施方案中，细胞是体内的(如，在受试者如人受试者中)。在一些实施方案中，细胞是离体的(如，分离自受试者且可被施用回同一或不同受试者)。

本公开的哺乳动物细胞包括人细胞、灵长类细胞(如，vero细胞)、大鼠细胞(如，GH3细胞、OC23细胞)或小鼠细胞(如，MC3T3细胞)。存在多种人细胞系，包括但不限于人胚胎肾(HEK)细胞、HeLa细胞、来自美国国家癌症研究所(National Cancer Institute)60种癌细胞系(NCI60)的癌细胞、DU145(前列腺癌)细胞、Lncap(前列腺癌)细胞、MCF-7(乳腺癌)细胞、MDA-MB-438(乳腺癌)细胞、PC3(前列腺癌)细胞、T47D(乳腺癌)细胞、THP-1(急性髓系白血病)细胞、U87(胶质母细胞瘤)细胞、SHSY5Y人神经母细胞瘤细胞(克隆自骨髓瘤)和Saos-2(骨癌)细胞。在一些实施方案中，将rAAV载体递送至人胚胎肾(HEK)细胞(如，HEK 293或HEK 293T细胞)中。在一些实施方案中，将rAAV载体递送至干细胞(如，人干细胞)中，例如多能干细胞(如，人多能干细胞，包括人诱导多能干细胞(hiPSC))。干细胞是指能够在培养中无限期分裂并产生特化细胞的细胞。多能干细胞是指能够分化为生物体所有组织的一类干细胞，但不能单独维持完整的生物体发育。人诱导多能干细胞是指通过被迫表达对维持胚胎干细胞的定义特性重要的基因和因子而被重编程为胚胎干细胞样状态的体细胞(如，成熟或成体)细胞(参见，例如，Takahashi and Yamanaka,Cell 126(4):663–76,2006，通过引用并入本文)。人诱导多能干细胞表达干细胞标志物，并且能够产生具有所有三个胚层(外胚层、内胚层、中胚层)特征的细胞。

可根据本公开使用的细胞系的其他非限制性示例包括293-T、293-T、3T3、4T1、721、9L、A-549、A172、A20、A253、A2780、A2780ADR、A2780cis、A431、ALC、B16、B35、BCP-1、BEAS-2B、bEnd.3、BHK-21、BR 293、BxPC3、C2C12、C3H-10T1/2、C6、C6/36、Cal-27、CGR8、CHO、CML T1、CMT、COR-L23、COR-L23/5010、COR-L23/CPR、COR-L23/R23、COS-7、COV-434、CT26、D17、DH82、DU145、DuCaP、E14Tg2a、EL4、EM2、EM3、EMT6/AR1、EMT6/AR10.0、FM3、H1299、H69、HB54、HB55、HCA2、Hepa1c1c7、High Five细胞、HL-60、HMEC、HT-29、HUVEC、JUVEC、Jurkat、JY细胞、K562细胞、KCL22、KG1、Ku812、KYO1、LNCap、Ma-Mel 1、2、3....48、MC-38、MCF-10A、MCF-7、MDA-MB-231、MDA-MB-435、MDA-MB-468、MDCK II、MG63、MONO-MAC 6、MOR/0.2R、MRC5、MTD-1A、MyEnd、NALM-1、NCI-H69/CPR、NCI-H69/LX10、NCI-H69/LX20、NCI-H69/LX4、NIH-3T3、NW-145、OPCN/OPCT Peer、PNT-1A/PNT 2、PTK2、Raji、RBL细胞、RenCa、RIN-5F、RMA/RMAS、S2、Saos-2细胞、Sf21、Sf9、SiHa、SKBR3、SKOV-3、T-47D、T2、T84、THP1、U373、U87、U937、VCaP、WM39、WT-49、X63、YAC-1和YAR细胞。

本公开的一些方面提供了包含本文公开的任何构建体的细胞。在一些实施方案中，宿主细胞用本文所述一种或多种载体瞬时或非瞬时转染。在一些实施方案中，细胞在受试者中自然发生转染。在一些实施方案中，被转染的细胞取自受试者。在一些实施方案中，细胞来源于取自受试者的细胞，如细胞系。用于组织培养的多种细胞系是本领域已知的。细胞系的示例包括但不限于C8161、CCRF-CEM、MOLT、mIMCD-3、NHDF、HeLa-S3、Huh1、Huh4、Huh7、HUVEC、HASMC、HEKn、HEKa、MiaPaCell、Panc1、PC-3、TF1、CTLL-2、C1R、Rat6、CV1、RPTE、A10、T24、J82、A375、ARH-77、Calu1、SW480、SW620、SKOV3、SK-UT、CaCo2、P388D1、SEM-K2、WEHI-231、HB56、TIB55、Jurkat、J45.01、LRMB、Bcl-1、BC-3、IC21、DLD2、Raw264.7、NRK、NRK-52E、MRC5、MEF、Hep G2、HeLa B、HeLa T4、COS、COS-1、COS-6、COS-M6A、BS-C-1猴肾上皮、BALB/3T3小鼠胚胎成纤维细胞、3T3 Swiss、3T3-L1、132-d5人胎成纤维细胞；10.1小鼠成纤维细胞、293-T、3T3、721、9L、A2780、A2780ADR、A2780cis、A 172、A20、A253、A431、A-549、ALC、B16、B35、BCP-12B、BCP-12B、3、BHK-21、BR 293。BxPC3。C3H-10T1/2、C6/36、Cal-27、CHO、CHO-7、CHO-IR、CHO-K1、CHO-K2、CHO-T、CHO Dhfr-/-、COR-L23、COR-L23/CPR、COR-L23/5010、COR-L23/R23、COS-7、COV-434、CML T1、CMT、CT26、D17、DH82、DU145、DuCaP、EL4、EM2、EM3、EMT6/AR1、EMT6/AR10.0、FM3、H1299、H69、HB54、HB55、HCA2、HEK-293、HeLa、Hepa1c1c7、HL-60、HMEC、HT-29、Jurkat、JY细胞、K562细胞、Ku812、KCL22、KG1、KYO1、Ma-Mel 1-48、MC-38、MCF-7、MCF-10A、MDA-MB-231、MDA-MB-468、MDA-MB-435、MDCK II、MDCK 11、MOR/0.2R、MONO-MAC 6、MTD-1A、MyEnd、NCI-H69/CPR、NCI-H69/LX10、NCI-H69/LX20、NCI-H69/LX4、NIH-3T3、NALM-1、NW-145、OPCN/OPCT细胞系、Peer、PNT-1A/PNT 2、RenCa、RIN-5F、RMA/RMAS、Saos-2细胞、Sf-9、SkBr3、T2、T-47D、T84、THP1细胞系、U373、U87、U937、VCaP、Vero细胞、WM39、WT-49、X63、YAC-1、YAR及其转基因变体。

细胞系可从本领域技术人员已知的多种来源获得(参见，例如美国典型培养物保藏中心(ATCC)(Manassus,VA))。在一些实施方案中，用本文所述一种或多种载体转染的细胞用于建立包含一种或多种载体衍生序列的新细胞系。在一些实施方案中，将用如本文所述CRISPR系统组件瞬时转染(如通过一种或多种载体的瞬时转染，或用RNA转染)并通过CRISPR复合物的活性修饰的细胞用于建立新的细胞系，其中新的细胞系包含含有修饰但缺乏任何其他外源序列的细胞。在一些实施方案中，将用一种或多种本文所述载体瞬时或非瞬时转染的细胞，或源自此类细胞的细胞系用于评估一种或多种测试化合物。

载体

本公开的一些方面涉及使用重组病毒载体(如，腺相关病毒载体、腺病毒载体或单纯疱疹病毒载体)将本文所述的引导编辑器或其组件(如，断裂Cas9蛋白或断裂核碱基引导编辑器)递送至细胞。在断裂PE方法的情况下，PE融合蛋白的N端部分和PE融合蛋白的C端部分由单独的重组病毒载体(如，腺相关病毒载体、腺病毒载体或单纯疱疹病毒载体)递送至同一细胞，因为全长Cas9蛋白或引导编辑器超过各种病毒载体的包装限制，如rAAV(约4.9kb)。

因此，在一个实施方案中，本公开考虑能够递送断裂引导编辑器融合蛋白或其断裂组件的载体。在一些实施方案中，提供了用于将断裂Cas9蛋白或断裂引导编辑器递送至细胞(如，哺乳动物细胞、人细胞)的组合物。在一些实施方案中，本公开的组合物包含：(i)第一重组腺相关病毒(rAAV)颗粒，其包含编码Cas9蛋白的N端部分或在其C端与内含肽N融合的引导编辑器的第一核苷酸序列；和(ii)第二重组腺相关病毒(rAAV)颗粒，其包含编码内含肽-C融合至Cas9蛋白或引导编辑器的C端部分的N端的第二核苷酸序列。本公开的rAAV颗粒包含包封在病毒衣壳蛋白中的rAAV载体(即，rAAV的重组基因组)。

在一些实施方案中，rAAV载体包含：(1)异源核酸区域，其包含编码本文所述任何形式的断裂Cas9蛋白或断裂引导编辑器的N-端部分或C-端部分的第一或第二核苷酸序列；(2)一个或多个核苷酸序列，其包含促进异源核酸区域(如，启动子)表达的序列，和(3)一个或多个核酸区域，其包含促进异源核酸区域(任选具有包含促进表达的序列的一个或多个核酸区域)整合至细胞基因组的序列。在一些实施方案中，促进整合的病毒序列包括反向末端重复(ITR)序列。在一些实施方案中，编码断裂Cas9蛋白或断裂引导编辑器的N-端部分或C-端部分的第一或第二核苷酸序列在每一侧的侧翼有ITR序列。在一些实施方案中，核酸载体还包含编码如本文所述AAV Rep蛋白的区域，其包含在侧翼有ITR的区域内或该区域外。ITR序列可源自任何AAV血清型(如，1、2、3、4、5、6、7、8、9或10)或可源自多于一种血清型。在一些实施方案中，ITR序列源自AAV2或AAV6。

因此，在一些实施方案中，本文公开的rAAV颗粒包括至少一种rAAV2颗粒、rAAV6颗粒、rAAV8颗粒、rPHP.B颗粒、rPHP.eB颗粒、或rAAV9颗粒、或其变体。在特定实施方案中，所公开的rAAV颗粒是rPHP.B颗粒、rPHP.eB颗粒、rAAV9颗粒。

ITR序列和含有ITR序列的质粒是本领域已知的并且可商购获得(参见，例如可获自以下的产品或服务：Vector Biolabs,Philadelphia,PA；Cellbiolabs,San Diego,CA；Agilent Technologies,Santa Clara,Ca；and Addgene,Cambridge,MA；以及Genedelivery to skeletal muscle results in sustained expression and systemicdelivery of a therapeutic protein.Kessler PD,Podsakoff GM,Chen X,McQuistonSA,Colosi PC,Matelis LA,Kurtzman GJ,Byrne BJ.Proc Natl Acad Sci USA.1996Nov26；93(24):14082-7；以及Curtis A.Machida.Methods in Molecular Medicine^TM.ViralVectors for Gene Therapy Methods and Protocols.10.1385/1-59259-304-6:201

Humana Press Inc.2003.Chapter 10.Targeted Integration by Adeno-AssociatedVirus.Matthew D.Weitzman,Samuel M.Young Jr.,Toni Cathomen and Richard JudeSamulski；美国专利号5,139,941和5,962,313，所有这些都通过引用并入本文)。

在一些实施方案中，本公开的rAAV载体包含一种或多种调控元件来控制异源核酸区域(如，启动子、转录终止子和/或其他调控元件)的表达。在一些实施方案中，第一和/或第二核苷酸序列与一个或多个(如，1、2、3、4、5或更多个)转录终止子可操作地连接。可根据本公开使用的转录终止子的非限制性示例包括牛长激素基因(bGH)、人生长激素基因(hGH)、SV40、CW3、

或其组合的转录终止子。已测试了几种转录终止子的效率，以确定它们各自对断裂Cas9蛋白或断裂引导编辑器的表达水平的影响。在一些实施方案中，本公开使用的转录终止子是bGH转录终止子。在一些实施方案中，rAAV载体还包含土拨鼠肝炎病毒转录后调控元件(WPRE)。在某些实施方案中，WPRE是截短的WPRE序列，如“W3”。在一些实施方案中，WPRE插入转录终止子的5'。这些序列在转录时产生三级结构，该结构增强了表达，特别是来自病毒载体的表达。

在一些实施方案中，本文使用的载体可编码PE融合蛋白或其任何组件(如，napDNAbp、接头或聚合酶)。此外，本文使用的载体可编码PEgRNA和/或用于第二链切口的辅助gRNA。载体可能能够驱动细胞中一种或多种编码序列的表达。在一些实施方案中，细胞可以是原核细胞，例如细菌细胞。在一些实施方案中，细胞可以是真核细胞，例如酵母、植物、昆虫或哺乳动物细胞。在一些实施方案中，真核细胞可以是哺乳动物细胞。在一些实施方案中，真核细胞可以是啮齿动物细胞。在一些实施方案中，真核细胞可以是人细胞。在不同类型的细胞中驱动表达的合适启动子是本领域已知的。在一些实施方案中，启动子可以是野生型的。在其他实施方案中，可对启动子进行修饰以进行更有效的表达。在其他实施方案中，启动子可被截短但保留其功能。例如，启动子可具有适合将载体正确包装到病毒中的正常尺寸或减小的尺寸。

在一些实施方案中，可用于引导编辑器载体的启动子可为组成型、诱导型或组织特异性的。在一些实施方案中，启动子可为组成型启动子。非限制的示例性组成型启动子包括巨细胞病毒立即早期启动子(CMV)、猿猴病毒(SV40)启动子、腺病毒主要晚期(MLP)启动子、劳斯肉瘤病毒(RSV)启动子、小鼠乳腺肿瘤病毒(MMTV)启动子、磷酸甘油酸激酶(PGK)启动子、延伸因子-α(EFla)启动子、泛素启动子、肌动蛋白启动子、微管蛋白启动子、免疫球蛋白启动子、其功能片段，或任何前述的组合。在一些实施方案中，启动子可为CMV启动子。在一些实施方案中，启动子可为截短的CMV启动子。在其他实施方案中，启动子可为EFla启动子。在一些实施方案中，启动子可为诱导型启动子。非限制的示例性诱导型启动子包括可通过热休克、光、化学品、肽、金属、类固醇、抗生素或酒精诱导的那些启动子。在一些实施方案中，诱导型启动子可为具有低基础(非诱导)表达水平的启动子，如

启动子(Clontech)。在一些实施方案中，启动子可为组织特异性启动子。在一些实施方案中，组织特异性启动子在肝脏组织中排他地或主要地表达。非限制的示例性组织特异性启动子包括B29启动子、CD14启动子、CD43启动子、CD45启动子、CD68启动子、desmin启动子、弹性蛋白酶-1启动子、内皮糖蛋白启动子、纤连蛋白启动子、Flt-1启动子、GFAP启动子、GPIIb启动子、ICAM-2启动子、INF-β启动子、Mb启动子、Nphsl启动子、OG-2启动子、SP-B启动子、SYN1启动子和WASP启动子。

在一些实施方案中，引导编辑器载体(如，包括编码引导编辑器融合蛋白和/或PEgRNA和/或辅助第二链切口产生性gRNA的任何载体)可包含诱导型启动子以仅在其被递送至靶细胞之后开始表达。非限制的示例性诱导型启动子包括可通过热休克、光、化学品、肽、金属、类固醇、抗生素或酒精诱导的那些启动子。在一些实施方案中，诱导型启动子可为具有低基础(非诱导)表达水平的启动子，如

启动子(Clontech)。

在其他实施方案中，引导编辑器载体(如，包括编码引导编辑器融合蛋白和/或PEgRNA和/或辅助第二链切口产生性gRNA的任何载体)可包含组织特异性启动子以仅在其被递送至特定组织后开始表达。非限制的示例性组织特异性启动子包括B29启动子、CD14启动子、CD43启动子、CD45启动子、CD68启动子、结蛋白启动子、弹性蛋白酶-1启动子、内皮糖蛋白启动子、纤连蛋白启动子、Flt-1启动子、GFAPpro启动子、GPIIb启动子、ICAM-2启动子、INF-β启动子、Mb启动子、Nphsl启动子、OG-2启动子、SP-B启动子、SYN1启动子和WASP启动子。

在一些实施方案中，编码PEgRNA(或与引导编辑相关使用的任何向导RNA)的核苷酸序列可与至少一个转录或翻译控制序列可操作地连接。在一些实施方案中，编码向导RNA的核苷酸序列可与至少一个启动子可操作地连接。在一些实施方案中，启动子可被RNA聚合酶III(Pol III)识别。Pol III启动子的非限制性示例包括U6、HI和tRNA启动子。在一些实施方案中，编码向导RNA的核苷酸序列可与小鼠或人U6启动子可操作地连接。在其他实施方案中，编码向导RNA的核苷酸序列可与小鼠或人HI启动子可操作地连接。在一些实施方案中，编码向导RNA的核苷酸序列可与小鼠或人tRNA启动子可操作地连接。在具有多于一种向导RNA的实施方案中，用于驱动表达的启动子可以相同或不同。在一些实施方案中，编码向导RNA的crRNA的核苷酸和编码向导RNA的tracrRNA的核苷酸可在同一载体上提供。在一些实施方案中，编码crRNA的核苷酸和编码tracrRNA的核苷酸可由相同的启动子驱动。在一些实施方案中，crRNA和tracrRNA可被转录成单一转录本。例如，crRNA和tracrRNA可由单一转录本加工形成双分子向导RNA。或者，crRNA和tracrRNA可被转录成单分子向导RNA。

在一些实施方案中，编码向导RNA的核苷酸序列可位于包含编码PE融合蛋白的核苷酸序列的同一载体上。在一些实施方案中，向导RNA和PE融合蛋白的表达可由它们相应的启动子驱动。在一些实施方案中，向导RNA的表达可由驱动PE融合蛋白表达的同一启动子驱动。在一些实施方案中，向导RNA和PE融合蛋白转录本可包含在单一转录本内。例如，向导RNA可在Cas9蛋白转录物的非翻译区(UTR)内。在一些实施方案中，向导RNA可在PE融合蛋白转录本的5'UTR内。在其他实施方案中，向导RNA可在PE融合蛋白转录本的3'UTR内。在一些实施方案中，PE融合蛋白转录物的细胞内半衰期可通过在其3'UTR内包含向导RNA并由此缩短其3'UTR的长度而减少。在其他实施方案中，向导RNA可在PE融合蛋白转录本的内含子内。在一些实施方案中，可在向导RNA所在的内含子处添加合适的剪接位点，使得向导RNA从转录本正确剪接出来。在一些实施方案中，Cas9蛋白和在同一载体上紧密接近的向导RNA的表达可促进CRISPR复合物的更有效形成。

引导编辑器载体系统可包括一个载体、或两个载体、或三个载体、或四个载体、或五个载体、或更多。在一些实施方案中，载体系统可包括一种单一载体，其编码PE融合蛋白和PEgRNA。在其他实施方案中，载体系统可包括两种载体，其中一种载体编码PE融合蛋白，另一种编码PEgRNA。在其他实施方案中，载体系统可包括三个载体，其中第三种载体编码本文方法中使用的第二链切口产生性gRNA。

在一些实施方案中，包含rAAV颗粒(以本文中考虑的任何形式)的组合物还包含药学上可接受的载体。在一些实施方案中，将组合物配制在合适的药物载体中来施用于人或动物受试者。

可用作药学上可接受的载体的材料的一些示例包括：(1)糖类，如乳糖、葡萄糖和蔗糖；(2)淀粉，如玉米淀粉、马铃薯淀粉；(3)纤维素及其衍生物，如羧甲基纤维素钠、甲基纤维素、乙基纤维素、微晶纤维素、醋酸纤维素等；(4)粉状黄芪胶；(5)麦芽；(6)明胶；(7)润滑剂，如硬脂酸镁、十二烷基硫酸钠、滑石粉等；(8)可可脂、栓剂蜡等赋形剂；(9)油类，如花生油、棉籽油、红花油、香油、橄榄油、玉米油、豆油等；(10)二醇类，如丙二醇；(11)多元醇，如甘油、山梨糖醇、甘露糖醇和聚乙二醇(PEG)；(12)油酸乙酯、月桂酸乙酯等酯类；(13)琼脂；(14)缓冲剂，如氢氧化镁、氢氧化铝等；(15)海藻酸；(16)无热原水；(17)等渗盐水；(18)林格氏(Ringer's)溶液；(19)乙醇；(20)pH缓冲溶液；(21)聚酯、聚碳酸酯和/或聚酐；(22)填充剂，如多肽和氨基酸；(23)血清成分，如血清白蛋白、高密度脂蛋白和低密度脂蛋白；(22)C2-C12醇类，如乙醇；(23)用于药物制剂的其他无毒相容物质。润湿剂、着色剂、脱模剂、涂层剂、甜味剂、调味剂、加香剂、防腐剂和抗氧化剂也可存在于制剂中。诸如“赋形剂”、“载体”、“药学上可接受的载体”等术语在本文中可互换使用。

递送方法

一些方面，本发明提供了包括将一种或多种多核苷酸，例如本文所述一种或多种载体、其一种或多种转录本和/或由其转录的一种或多种蛋白递送至宿主细胞的方法。在一些方面，本发明还提供了通过此类方法产生的细胞，以及包含此类细胞或由此类细胞产生的生物体(如，动物、植物或真菌)。在一些实施方案中，如本文所述碱基编辑器与向导序列组合(并且任选与向导序列复合)递送至细胞。

示例性递送策略在本文其他地方描述，其包括基于载体的策略、PE核糖核蛋白复合物递送和通过mRNA方法递送PE。

在一些实施方案中，提供的递送方法包括核转染、显微注射、基因枪、病毒体、脂质体、免疫脂质体、聚阳离子或脂质:核酸缀合物、裸DNA、人工病毒体和试剂增强的DNA摄取。

示例性的核酸递送方法包括脂质转染、核转染、电穿孔、稳定基因组整合(如，piggybac)、显微注射、基因枪、病毒体、脂质体、免疫脂质体、聚阳离子或脂质:核酸缀合物、裸DNA、人工病毒粒体和试剂增强的DNA摄取。脂质转染描述于例如美国专利号5,049,386,4,946,787；和4,897,355中，脂质转染试剂可商购获得(如，Transfectam^TM、Lipofectin^TM和SFCellLine4D-Nucleofector X Kit^TM(Lonza)))。适用于多核苷酸的有效受体识别脂质转染的阳离子和中性脂质包括Feigner在WO91/17424；WO91/16024中的那些。递送可以是细胞(如，体外或离体施用)或靶组织(如，体内施用)。递送可通过使用RNP复合物来实现。

脂质:核酸复合物的制备，包括靶向脂质体，如免疫脂质复合物，是本领域技术人员所熟知的(参见，例如，Crystal,Science 270:404-410(1995)；Blaese et al.,CancerGene Ther.2:291-297(1995)；Behr et al.,Bioconjugate Chem.5:382-389(1994)；Remyet al.,Bioconjugate Chem.5:647-654(1994)；Gao et al.,Gene Therapy 2:710-722(1995)；Ahmad et al.,Cancer Res.52:4817-4820(1992)；美国专利号4,186,183、4,217,344、4,235,871、4,261,975、4,485,054,4,501,728、4,774,085、4,837,028和4,946,787)。

在其他实施方案中，本文提供的递送方法和载体是RNP复合物。融合蛋白的RNP递送显著增强了碱基编辑的DNA特异性。融合蛋白的RNP递送导致中靶和脱靶DNA编辑的分离。RNP递送消除了非重复位点的脱靶编辑，同时保持了与质粒递送相当的中靶编辑，并且即使在高度重复的VEGFA位点2上也大大减少了脱靶DNA编辑。参见，Rees,H.A.et al.,Improving the DNA specificity and applicability of base editing throughprotein engineering and protein delivery,Nat.Commun.8,15790(2017),2016年12月27日授权的美国专利号9,526,784和2017年8月22日授权的美国专利号9,737,604，其各自通过引用并入本文。

将核酸递送至细胞的其他方法是本领域技术人员已知的。参见，例如US2003/0087817，通过引用并入本文。

本公开的其他方面提供了将引导编辑器构建体递送至细胞以在细胞内形成完整的功能性引导编辑器的方法。例如，在一些实施方案中，使细胞与本文所述组合物接触(如，包含编码断裂Cas9或断裂引导编辑器的核苷酸序列的组合物或包含含有此类核苷酸序列的核酸载体的AAV颗粒)。在一些实施方案中，接触导致此类核苷酸序列递送到细胞中，其中Cas9蛋白或引导编辑器的N端部分和Cas9蛋白或引导编辑器的C端部分在细胞内表达并连接形成完整的Cas9蛋白或完整的引导编辑器。

应当理解，本文提供的任何rAAV颗粒、核酸分子或组合物可以任何合适的方式稳定或瞬时地引入细胞。在一些实施方案中，所公开的蛋白可被转染至细胞中。在一些实施方案中，细胞可用核酸分子转导或转染细胞。例如，可用编码断裂蛋白的核酸分子或含有编码一种或多种核酸分子的病毒基因组的rAAV颗粒转导(如，用编码断裂蛋白的病毒)或转染(如，用编码断裂蛋白的质粒)。这种转导可以是稳定或瞬时转导。在一些实施方案中，表达断裂蛋白或含有断裂蛋白的细胞可用一种或多种向导RNA序列转导或转染，例如递送断裂Cas9(如，nCas9)蛋白时。在一些实施方案中，可通过电穿孔、瞬时(如，脂质转染)和稳定基因组整合(如，piggybac)和病毒转导或本领域技术人员已知的其他方法将表达断裂蛋白的质粒引入细胞。

在某些实施方案中，本文提供的组合物包含脂质和/或聚合物。在某些实施方案中，脂质和/或聚合物是阳离子的。此类脂质颗粒的制备是众所周知的。见，例如美国专利号4,880,635；4,906,477；4,911,928；4,917,951；4,920,016；4,921,757；和9,737,604，其各自通过引用并入本文。

向导RNA序列的长度可以是15-100个核苷酸并且包含与靶核苷酸序列互补的至少10、至少15或至少20个连续核苷酸的序列。向导RNA可包含15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个与靶核苷酸序列互补的连续核苷酸。向导RNA的长度可为15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸。

在一些实施方案中，靶核苷酸序列是基因组中的DNA序列，如真核基因组。在某些实施方案中，靶核苷酸序列在哺乳动物(如，人)基因组中。

例如，本公开的组合物可以单位剂量施用或包装。当用于本公开的药物组合物时，术语“单位剂量”是指适合作为受试者的单位剂量的物理离散单位，每个单位含有与所需的稀释剂(即，载体或媒介物)结合的预定量的活性物质，经计算以产生期望需的治疗效果。

疾病或病症的治疗包括延迟疾病的发展或进展，或降低疾病的严重性。治疗疾病不一定需要治愈结果。

如本文所用，“延迟”疾病的发展是指推迟、阻碍、减缓、阻止、稳定和/或推迟疾病的进展。这种延迟可以是不同的时间长度，这取决于疾病的历史和/或被治疗的个体。“延迟”或减轻疾病发展或延迟疾病发作的方法是与不使用该方法相比，降低在给定时间范围内出现疾病的一种或多种症状的可能性和/或减轻在给定时间范围内症状程度的方法。此类比较通常基于临床研究，使用的受试者数量足以得出统计学上有意义的结果。

疾病的“发展”或“进展”是指疾病的初始表现和/或随后的进展。可使用本领域公知的标准临床技术检测和评估疾病的发展。然而，发展也指可能无法检测到的进展。出于本公开的目的，发展或进展是指症状的生物学过程。“发展”包括发生、复发和发作。

如本文所用，疾病的“发作”或“发生”包括初始发作和/或复发。根据待治疗的疾病类型或疾病部位，可使用医学领域普通技术人员已知的常规方法向受试者施用分离的多肽或药物组合物。

无需进一步阐述，相信本领域技术人员可基于以上描述充分利用本公开。因此，以下具体实施方案应理解为仅以任何方式说明而非限制本公开的其余部分。出于本文引用的目的或主题，本文引用的所有出版物均通过引用并入。

实施例

实施例1.用于在基因组中安装精确核苷酸变化的引导编辑(PE)

目标是开发用于在哺乳动物基因组中精确且通用安装单核苷酸变化的转化基因组编辑技术。这项技术将允许研究人员研究几乎任何哺乳动物基因中单核苷酸变异的影响，并潜在实现校正人类患者中的致病性点突变的治疗干预。

采用规律成簇间隔短回文重复序列(CRISPR)系统进行基因组编辑已彻底改变了生命科学^1-3。尽管使用CRISPR进行基因破坏现已成为常规，但单核苷酸编辑的精确安装仍然是重大挑战，尽管对于研究或校正大量致病性突变是必要的。同源定向修复(HDR)能够实现此类编辑，但效率低下(通常<5％)、需要供体DNA修复模板以及双链DNA断裂(DSB)形成的有害影响。最近，Liu的实验室开发了碱基编辑，无需DSB即可实现高效的单核苷酸编辑。碱基编辑器(BE)将CRISPR系统与碱基修饰脱氨酶结合，将靶C·G或A·T碱基对分别转化为A·T或G·C^4–6。尽管已被全世界的研究人员广泛使用(由Addgene分发了>5,000个Liu实验室BE构建体)，但当前的BE仅实现十二种可能的碱基对转换中的四种，并且无法校正小的插入或缺失。此外，碱基编辑的靶向范围受到邻近靶碱基的非靶C或A碱基编辑(“旁观者(bystander)编辑”)以及PAM序列距靶碱基15±2bp存在的要求限制。因此，克服这些限制将大大拓宽基因组编辑的基础研究和治疗应用。

在此，建议开发新的精确编辑方法，该方法提供碱基编辑的许多益处——即避免双链断裂和供体DNA修复模板——同时克服其主要限制。为实现这个宏伟目标，旨在使用靶标引发的逆转录(TPRT)在靶基因组位点处直接安装编辑的DNA链。在本文讨论的设计中，CRISPR向导RNA(gRNA)将被工程化改造为携带编码诱变DNA链合成的模板，由相关的逆转录酶(RT)酶执行。CRISPR核酸酶(Cas9)产生切口的靶位点DNA将充当逆转录的引物，允许直接掺入任何期望的核苷酸编辑。

第1部分

建立诱变DNA链的向导RNA模板化逆转录。先前研究表明，在DNA切割之后但在复合物解离之前，Cas9释放非靶DNA链以暴露游离的3′端。据推测，该DNA链可进行通过聚合酶的延伸，并且该gRNA可通过延伸其5′或3′端来工程化改造，以充当DNA合成的模板。在初步体外研究中，已确定Cas9:gRNA结合复合物中的切口DNA链确实可使用结合的gRNA作为模板引发逆转录(反式RT酶)。接着，探索不同的gRNA接头、引物结合位点和合成模板，以确定体外优化设计规则。然后，在体外评估以反式作用或作为与Cas9的融合物的不同RT酶。最后，鉴定在细胞中保留有效结合和切割活性的工程化gRNA设计。该目标的成功证明为在细胞中携带我们的诱变链合成提供基础。

第2部分

在人细胞中建立引导编辑。基于DNA加工和修复机制，假设诱变DNA链(单链瓣)可用于引导靶核苷酸的特异性和有效编辑。在令人鼓舞的初步研究中，通过显示利用含有诱变瓣的模型质粒底物的编辑，建立了该策略的可行性。在目标1同时，通过系统地改变诱变瓣的长度、序列组成、靶核苷酸身份和3′端来进一步评估修复结果。也可测试1至3个小的核苷酸插入和缺失。并行地，且从目标1构建，可评估Cas9-RT结构，包括融合蛋白和非共价募集策略。可对Cas9-RT结构和延伸的gRNA测定在人类基因组中的多个靶位点处的细胞编辑，然后针对高效率进行优化。如果成功，则该目标会立即为基础科学应用建立TPRT基因组编辑(即，引导编辑)

第3部分

在培养的人细胞中实现致病性突变的位点特异性编辑。这项技术的潜在通用性实现编辑目前不能被BE校正的颠换突变和indel。在目标1和目标2的结果的指导下，在培养的人细胞中靶向致病性颠换突变，包括β珠蛋白中镰状细胞病创始者突变(需要A·T至T·A颠换来校正)和ATP7B中最普遍的威尔逊氏(Wilson’s)病突变(需要G·C至T·A颠换来校正)。还可检测小的插入和缺失突变的校正，包括CFTR中导致囊性纤维化的3核苷酸ΔF508缺失。如果成功，则这将为开发解决这些重要人类疾病的强大治疗方法奠定基础。

方法

目标是开发基因组编辑策略，其直接在靶向基因组位点处安装点突变。在技术开发阶段，工作重点集中在蛋白和RNA工程，以将TPRT功能并入CRISPR/Cas系统中。体外测定将用于仔细探索TPRT各个步骤的功能，从头开始构建(目标1)。第二个焦点领域将使用模型底物和工程化CRISPR/Cas系统的组合来评估哺乳动物细胞中的编辑结果(目标2)。最后，应用阶段使用该技术来校正通过其他方法无法进行基因组编辑的突变(目标3)。

一般的编辑设计示于图1A-1B中。Cas9切口酶包含对HNH核酸酶结构域的失活突变(Spy Cas9 H840A或N863A)，将DNA切割限制为含有PAM的链(非靶链)。将向导RNA(gRNA)工程化改造为包含用于逆转录的模板(幻灯片5中详述了设计)。显示了gRNA的5′延伸，但也可实施3′延伸。Cas9切口酶通过C端或N端与逆转录酶(RT)酶融合。gRNA:Cas9-RT复合物靶向感兴趣的DNA区域并在置换非靶链后形成R环。Cas9对非靶DNA链产生切口。切口链的释放暴露了游离的3′-OH末端，其能够使用延伸的gRNA作为模板引发逆转录。这种DNA合成反应通过融合的RT酶进行。gRNA模板编码除了靶向编辑的核苷酸外与原始DNA双链体同源的DNA序列。逆转录的产物是编码期望编辑的单链DNA瓣。包含游离的3′端的该瓣可与邻近DNA链平衡，产生5′瓣种类。后面的种类被假设充当FEN1(瓣核酸内切酶1)的有效底物，FEN1是如下的酶，该酶在滞后链DNA合成过程中从冈崎(Okazaki)片段自然切除5'瓣，并在长补丁(long-patch)碱基切除修复过程中发生的链置换合成后去除5'瓣。连接切口的DNA产生错配的碱基对。该中间体可通过错配修复(MMR)过程经历回复到原始碱基对或转换为期望编辑碱基对。或者，半保守的DNA复制可产生回复和编辑的各一个拷贝。

1.建立诱变DNA链的向导RNA模板化逆转录

背景和基本原理

在提议的基因组编辑策略中，Cas9产生切口的非靶DNA链(形成R环的含有PAM的链)充当DNA合成的引物。假设这根据一些生化和结构数据是可能的。核酸酶保护实验³²、晶体学研究³³和碱基编辑窗口^4、24已显示，在Cas9结合复合物的所谓R环内的-20至-10(编号表示距第一个PAM核苷酸5′的距离)的非靶链核苷酸的较大程度的灵活性和无序性。此外，以反式添加互补ssDNA时，切割的非靶链的PAM远端部分可从紧密结合的三元复合物中置换²⁰。这些研究支持非靶链具有高度灵活性，酶可及性，并且在产生切口后PAM远端片段的3′端在Cas9解离之前释放。此外，假设gRNA可延伸至模板DNA合成。先前研究表明，SpCas9、SaCas9和LbCas12a(以前称为Cpf1)的gRNA耐受用RNA适体³⁴、配体诱导型自切割核酶³⁵和长的非编码RNA³⁶的gRNA延伸。该文献为将要利用的两个主要特征建立了先例。在评估该策略时，使用体外和细胞测定的组合与5'和3'延伸的gRNA设计结合来评估多个CRISPR-Cas系统(图2A至2C)。

用于TRT编辑的工程化gRNA的设计示于图3A至3B。DNA合成从5′至3′进行，因此在3′至5′方向复制RNA模板。5′延部分的设计包含接头区域，切口DNA链退火的引物结合位点，以及通过逆转录进行DNA合成的模板。3′延伸的gRNA包含引物结合位点和逆转录模板。在某些情况下，gRNA核心的3′RNA发夹经修饰以匹配DNA靶序列，因为体外实验表明，逆转录将约3个核苷酸延伸至3′延伸的gRNA构建体的gRNA核心(只要进行维持发夹RNA结构的补偿性变化，发夹序列的序列似乎耐受良好)。DNA合成从5′至3′进行，其中核苷酸添加到正在生长的DNA链的3′OH。

初步结果

Cas9产生切口的DNA引发gRNA模板的逆转录。为评估有切口的非靶DNA链的可及性，使用来自化脓性链球菌的Cas9核酸酶(SpCas9)和Cy5荧光标记的双链体DNA底物(51个碱基对)进行体外生化测定。首先，通过体外转录制备一系列包含具有不同合成模板长度的5′延伸的gRNA(总体设计如图2B所示)。利用核酸酶死亡Cas9(dCas9)进行电泳迁移率变化测定(EMSA)建立了5′延伸的gRNA保持靶结合亲和力(数据未显示)。接着，使用dCas9、5′-延伸的gRNA和莫洛尼-鼠白血病病毒(M-MLV)逆转录酶(Superscript III)在预先产生切口的Cy5标记的双链体DNA底物上测试TPRT活性。于37℃温育1小时后，通过变性聚丙烯酰胺凝胶电泳(PAGE)评估产物并使用Cy5荧光成像(图4A)。每个5′-延伸的gRNA变体导致明显的产物形成，观测到的DNA产物大小与延伸模板的长度一致(图4B)。重要地，在没有dCas9的情况下，将预先产生切口的底物延伸至DNA底物的全长51bp，这强烈表明dCas9不存在时，将互补的DNA链而不是gRNA用作DNA合成的模板(图4C)。值得注意地，设计该系统使得新合成的DNA链反映靶位点编辑所需的产物(具有单核苷酸变化的同源链)。该结果建立了Cas9:gRNA结合暴露了有切口的非靶链的3′端，并且非靶链可进行逆转录。

接着，使用Cas9(H840A)突变体评估非产生切口的dsDNA底物，该突变体对非靶DNA链产生切口。首先，为了用5′延伸的gRNA测试Cas9(H840A)切口酶活性，如先前所述³⁷进行体外切割测定。尽管与标准gRNA相比切口产生受损，但形成可察觉的切割产物(图4D)。重要地，当用5′-延伸的gRNA和Cas9(H840A)进行TPRT反应时，也观测到RT产物，尽管产率较低，这可能通过切口产生活性降低解释(图4D)。该结果建立了5′-延伸的gRNA:Cas9(H840A)复合物可对DNA产生切口和为逆转录提供模板。

最后，针对Cas9(H840A)切口产生和TPRT评估3′gRNA延伸。与5′延伸的gRNA相比，3′延伸的gRNA对DNA的切割与标准gRNA相比没有受到任何可检测程度的损害。重要地，M-MLV RT以反式提供时，3′延伸的gRNA模板也支持利用预先产生切口且完整的双链体DNA底物的有效逆转录(图4E)。令人惊讶地，对于3′延伸的模板仅观测到单一产物，表明逆转录沿着gRNA支架的特定位置终止。用末端转移酶对产物的同聚物加尾，随后是Klenow延伸和Sanger测序揭示，除了gRNA核心的末端3个核苷酸外，还复制了完整的gRNA合成模板。将来，瓣末端将通过修饰末端gRNA序列重新编程^38,39。该结果表明，3′延伸的gRNA可充当有效的核酸酶靶向向导物，并且可为逆转录提供模板。

Cas9-TPRT以顺式使用有切口的DNA和gRNA。双色实验用于确定RT反应是否优先在顺式(结合在同一复合物中)的gRNA的情况下发生(参见图8)。对5′-延伸和3′-延伸的gRNA进行两个独立实验。对于给定实验，dCas9、gRNA和DNA底物的三元复合物在不同管中形成。在一个管中，gRNA编码长的RT产物，并且DNA底物用Cy3(红色)标记；另一方面，gRNA编码短的RT产物，DNA底物用Cy5(蓝色)标记。短暂温育后，将复合物混合，然后用RT酶和dNTP处理。通过尿素变性PAGE分离产物，并通过Cy3和Cy5通道中的荧光可视化。发现使用与DNA底物预先复合的gRNA模板优先形成反应产物，表明RT反应可能以顺式发生。该结果支持单个Cas9:gRNA复合物可靶向DNA位点并为逆转录诱变DNA链提供模板。

使用其他Cas系统测试TPRT

使用其他Cas系统，包括来自金黄色葡萄球菌的Cas9和来自L.bacterium的Cas12a进行与前面部分中呈现的那些实验类似的实验(参见图2A至2C)。如果对于这些Cas变体也可以证明TRPT，则潜在的编辑范围和在细胞中整体成功的可能性会增加。

利用RT-Cas9融合蛋白测试TPRT

首先以反式评估一系列市售或可纯化的RT酶的TPRT活性。除了已测试的来自M-MLV的RT外，评估了来自禽成肌细胞增多病毒(AMV)、嗜热脂肪土芽孢杆菌II组内含子(GsI-IIC)^41,42和直肠真杆菌II组内含子(Eu.re.I2)^43,44的RT。显著地，后两个RT在其自然生物环境中执行TPRT。在相关情况下，测试RNAse失活突变和其他潜在有益的RT酶修饰。一旦以反式提供时鉴定功能性RT，每个RT将作为与Cas9变体的融合蛋白进行评估。测试N端和C端融合方向，以及各种的接头长度和结构。将动力学时程实验用于确定是否可以顺式使用RT酶发生TPRT。如果可构建允许有效TPRT化学的RT-Cas9融合结构，则这将大大增加在细胞环境中进行功能编辑的可能性。

细胞中利用工程化gRNA的Cas9靶向

在人类细胞培养实验(HEK293)中评估在前面子目标中开发的候选工程化gRNA，以确认Cas9靶向效率。使用已建立的使用野生型SpCas9的indel形成测定⁴⁵，跨越人基因组中5个或更多位点，并行比较工程化gRNA与标准gRNA。基因组编辑效率通过使用实验室内安装的Illumina MiSeq平台以多重方式进行扩增子测序来表征。预计此部分和前面部分的结果将产生通告设计-构建-测试循环的后续迭代的见解，其中gRNA可针对在细胞中为逆转录提供模板和有效Cas9靶向进行优化。

体外验证的结果显示在图5至图7中。体外实验表明，有切口的非靶DNA链是柔性的，并且可用于引发DNA合成，并且gRNA延伸可充当逆转录的模板(参见图5)。这组实验使用5′延伸的gRNA(设计如图3A至3B所示)与不同长度的合成模板(列在左侧)。将荧光标记的(Cy5)DNA靶标用作底物，并在这组实验中预先产生切口。这些实验中使用的Cas9是催化死亡Cas9(dCas9)，因此不能切割DNA但仍可有效结合。Superscript III(源自莫洛尼鼠白血病病毒(M-MLV)的商业RT)以反式提供。首先，dCas9:gRNA复合物由纯化的组件形成。然后，将荧光标记的DNA底物与dNTP和RT酶一起加入。于37℃温育1小时后，通过变性尿素-聚丙烯酰胺凝胶电泳(PAGE)分析反应产物。凝胶图像显示原始DNA链的延伸长度与逆转录模板的长度一致。值得注意地，在不存在dCas9的情况下进行的反应产生长度为51个核苷酸的DNA产物，而与所使用的gRNA无关。该产物对应于使用互补DNA链作为DNA合成的模板，而不是RNA(数据未显示)。因此，需要Cas9结合才能将DNA合成引导至RNA模板。这组体外实验与图5所示的那些非常相似，只是DNA底物没有预先产生切口，并且使用Cas9切口酶(SpyCas9H840A突变体)。如凝胶所示，当使用标准gRNA时，切口酶有效切割DNA链(gRNA_0，泳道3)。观测到多种切割产物，与之前SpyCas9的生化研究一致。5′延伸损害切口产生活性(泳道4-8)，但仍观测到一些RT产物。图7显示3′延伸支持DNA合成，并且不会显著实现Cas9切口酶活性。当使用dCas9或Cas9切口酶(泳道4和泳道5)时，预先产生切口的底物(黑色箭头)几乎定量地转化为RT产物。使用完整底物(泳道3)观测到超过50％的RT产物转化率(红色箭头)。为了确定RT产物的长度和序列，从凝胶上切下产物条带，提取并测序。这显示RT将3个核苷酸延伸至gRNA核心的3′端发夹中。随后的实验(未显示)表明只要进行保持发夹RNA结构的互补改变，可将这三个核苷酸改变以匹配靶DNA序列。

潜在的困难和替代方案

(1)RT不作为融合物发挥功能：分子拥挤和/或不利的几何构造可阻碍Cas9融合的RT酶的聚合酶延伸。首先，可测试接头优化。评估Cas9的环状排列变体，其可重新定向DNA引物、gRNA和RT酶之间的空间关系。可测试目标2中详述的非共价RT募集策略。(2)延伸的gRNA变体的Cas靶向效率降低：这最可能是5′-延伸的gRNA的问题。基于结构数据²⁴，可设计和筛选Cas9突变体，以鉴定对gRNA延伸具有更大耐受性的变体。此外，可在细胞中筛选gRNA文库以寻找提高靶向活性的接头。

重要性

这些初步结果建立了，使用反式提供的逆转录酶，Cas9切口酶和延伸的gRNA可在结合的DNA靶标上启动靶标引发的逆转录。重要地，发现Cas9结合对于产物形成至关重要。虽然可能不是细胞中基因组编辑的绝对要求，但进一步开发以顺式并入RT酶功能的系统将显著增加基于细胞的应用中成功的可能性。该目标的其余方面的实现将为在人类基因组的背景下进行精确基因组编辑提供分子基础。

2.在人细胞中建立引导编辑

背景和基本原理

在提议的策略中，工程化RT-Cas9:gRNA复合物在基因组靶位点处引入诱变的3′DNA瓣。假设含有单个错配的诱变3′瓣通过DNA修复机制经由与邻近5′瓣的能量可达平衡而掺入，所述邻近5′瓣是优先去除的(图1C至1D)。DNA复制和修复机制在加工冈崎片段⁴⁶时和长补丁碱基切除修复(LP-BER)期间⁴⁷遇到5′ssDNA瓣。5′瓣是广泛表达的瓣内切核酸酶FEN1的优选底物，该FEN1被同源三聚体滑动钳复合体PCNA募集至DNA修复位置⁴⁸。PCNA还可充当同时募集其他修复因子(包括DNA连接酶Lig1)的支架⁴⁹。作为“工具带(toolbelt)”起作用，PCNA加速连续瓣切割和连接，这对于加工每次细胞分裂过程中产生的数百万冈崎片段至关重要^50,51。基于与这些天然DNA中间体的相似性，假设诱变链通过与5′瓣平衡，随后进行协调的5′瓣切除和连接掺入。然后，错配修复(MMR)应当以相等的概率发生在任一条链上，导致编辑或回复(图1C至1D)。或者，可先发生DNA复制，并直接导致编辑掺入新合成的子链中。虽然来自该过程的最高预期产率为50％，但由于编辑修复的不可逆性，多个底物编辑尝试可驱动反应完成。

初步结果

DNA瓣在酵母和HEK细胞中的质粒模型底物中诱导位点特异性诱变。为测试所提议的编辑策略，开始使用模型质粒底物进行研究，该底物含有类似于TPRT产物的诱变3′瓣。创建编码GFP和mCherry之间的终止密码子的双荧光蛋白报告基因。诱变瓣编码对终止密码子的校正(图9A)，实现mCherry合成。因此，诱变效率可通过GFP:mCherry比率来定量。体外制备质粒底物并将其引入酵母(酿酒酵母)或人细胞(HEK293)。在两个系统中都观测到高频率诱变(图9B)，并且分离的酵母集落含有回复碱基、突变碱基或两种产物的混合物(图9C)。后者的检测表明在这些情况下质粒复制发生在MMR之前，并进一步表明瓣切除和连接先于MMR。这一结果建立了使用3′诱变链进行DNA编辑的可行性。

·用模型瓣底物的系统研究

基于上述初步结果，在HEK细胞中评估更广泛的瓣底物，以推断有效编辑的原理。将3′ssDNA瓣系统地改变以确定错配配对的影响、沿瓣的诱变核苷酸的位置、以及末端核苷酸的身份(图9D)。还测试了单核苷酸插入和缺失。将扩增子测序用于分析编辑精确度。这些结果将有助于为gRNA逆转录模板的设计提供信息。

质粒底物上的体外TPRT导致有效的编辑结果。将目标1中开发的TPRT反应用于在质粒底物中诱导诱变。反应在环状DNA质粒底物上进行(参见图10)。这排除了DNA链解离作为先前体外实验中RT延伸机制的可能性。其还允许测试细胞中瓣底物的DNA修复。构建了用于酵母(酿酒酵母)表达的双荧光报告质粒。该质粒编码带有中间终止密码子(TGA)的GFP(绿色荧光蛋白)和mCherry(红色荧光蛋白)。该构建体在酵母中的表达仅产生GFP。将该质粒用作体外TRT的底物[Cas9(H840A)切口酶、工程化gRNA、MLVRT酶、dNTPS]。gRNA延伸编码对终止密码子的突变。将瓣链用于修复终止密码子，预计产生作为融合蛋白表达GFP和mCherry两者的质粒。酵母双-FP质粒转化体示于图10。转化亲本质粒或体外Cas9(H840A)产生切口的质粒仅产生绿色GFP表达集落。用5′-延伸或3′-延伸的gRNA进行的TRT反应产生绿色和黄色集落的混合物。后者表达GFP和mCherry两者。使用3′延伸的gRNA观测到更多黄色集落。还显示不含终止密码子的阳性对照。

该结果建立了，长的双链底物可经历TPRT，并且TPRT产物在真核细胞中诱导编辑。

进行了另一个与上述引导编辑实验类似的实验，但替换在终止密码子中安装点突变，TRT编辑安装单核苷酸插入(左)或缺失(右)，其修复移码突变并允许下游mCherry的合成(参见图11)。这两个实验都使用3′延伸的gRNA。选择并且通过Sanger测序分析来自TRT转化的个别集落(参见图12)。绿色集落包含具有原始DNA序列的质粒，而黄色集落包含由TRT编辑gRNA设计的精确突变。未观测到其他点突变或indel。

在HEK细胞中使用RT-Cas9结构建立引导编辑

来自前面目标的优化构建体将适用于哺乳动物表达和在人基因组中靶向位点处的编辑。除了使用二级gRNA(截短以防止切口产生)的邻近靶向之外，还测试了多种RT酶和融合结构。还使用Sun-Tag系统⁵²和MS2适体系统⁵³评估非共价RT募集。将Indel形成测定用于评估用标准gRNA和RT-Cas9融合物的靶向效率(如上)。然后，对于每个基因组位点，对延伸的gRNA和RT-Cas9对测定单核苷酸编辑。使用MiSeq评估编辑结果。

在HEK细胞中使用Cas9-RT融合物进行初步实验。通过细胞内表达的组件进行编辑需要Cas9(H840A)切口酶、逆转录酶(以融合物表达或以反式形式提供)和具有3'延伸的工程化gRNA(参见图14)。初步研究表明，gRNA延伸内的引物结合位点的长度对于提高人细胞中的编辑效率是重要的(参见图15)。

优化HEK细胞中的引导编辑参数

在鉴定出可在细胞中进行引导编辑的Cas9-RT结构后，优化组件和设计以实现高效编辑。改变编码点突变的位置和核苷酸身份，以及新合成的DNA链的总长度，以评估编辑范围和潜在限制。还评估短的插入和缺失突变。对蛋白表达构建体进行密码子优化。如果成功，则这将在哺乳动物细胞中建立有效的引导编辑。

初步结果

在融合的RT酶不可能进行分子内逆转录的情况下，设计其他gRNA以使RT酶在编辑基因座处达到更高的局部浓度。这些辅助向导物在5′端处截短(14-15nt间隔区)，这在之前已证明可防止Cas9切割但保留结合(参见图16)。选择HEK3基因座来探索该策略。

潜在的困难和替代方案

(1)细胞中的gRNA降解：如果延伸的gRNA末端在细胞中截短，则可安装稳定化的二级结构，或可测试具有稳定化修饰的合成gRNA。(2)在人细胞中无观测到的编辑：将探索其他策略，包括将RT-Cas9融合物二次靶向到邻近的基因组位点⁵⁴。此外，可探索大肠杆菌或酿酒酵母中潜在的定向进化策略。

重要性

如果可在实验细胞系中建立引导编辑，则这将通过实现快速生成和表征人基因中的大量点突变，对基础生物医学研究产生直接影响。该方法的通用性及其相对于碱基编辑器的正交编辑窗口将提供安装许多当前难以接近的突变的方法。此外，如果可针对高效率和产品纯度优化引导编辑，那么其校正其他人细胞类型中的疾病突变的潜在适用性将具有重要意义。

3.实现对培养人细胞致病性突变的位点特异性编辑

背景和基本原理

由于PAM限制，或需要颠换或indel突变校正，当前的碱基编辑器无法校正大量致病性突变。通过引导编辑，理论上所有的转换和颠换都是可能的，小的插入和缺失也是如此。此外，关于PAM，引导编辑窗口(预期-3至+4)不同于碱基编辑器的窗口(-18至-12)(图13)。碱基编辑器目前无法校正的孟德尔(Mendelian)病况包括：(1)血红蛋白β中的镰状细胞病Glu6Val创始者突变(需要A·T至T·A的颠换)；(2)ATP7B中最常见的威尔逊氏病变体His1069Gln(需要G·C至T·A的颠换)；以及(3)导致囊性纤维化的CFTR中的ΔPhe508突变(需要3个核苷酸插入)。这些靶标中的每一个都包含适当定位的PAM，用于SpCas9靶向和引导编辑。

初步结果

·HEK3细胞中的T至A编辑不能通过当前的碱基编辑实现，但可通过TRPT编辑实现(参见图17A至17C)

图17A示出显示在人胚胎肾(HEK)细胞中组件转染后靶核苷酸处％T至A转换的图。该数据展示使用野生型MLV逆转录酶与Cas9(H840A)切口酶的N端融合物(32个氨基酸接头)的结果。当引物结合位点的长度从7个核苷酸延伸至11或12个核苷酸时，编辑效率显著提高。此外，正好位于编辑基因座上游的辅助向导物A(参见图16)显著提高编辑活性，特别是对于较短长度的引物结合位点。使用Illumina MiSeq平台通过扩增子测序定量编辑效率。图17B还示出在人胚胎肾(HEK)细胞中组件转染后靶核苷酸处％T至A转换，但该数据展示使用RT酶的C-端融合物的结果。在此，辅助向导物A没有那么大的作用，并且编辑效率整体较高。图17C示出的数据展示使用野生型MLV逆转录酶与Cas9(H840A)切口酶的N端融合物的结果，与图17C中的结果类似；然而，MLV RT和Cas9之间的接头长60个氨基酸，而不是32个氨基酸。

·通过TRPT编辑结果得到的HEK3位置处T至A编辑显示高纯度

图18示出通过高通量扩增子测序进行的测序分析的输出。输出显示编辑细胞的最丰富的基因型。值得注意地，未获得主要的indel产物，并且清洁地安装期望的点突变(T至A)，而无旁观者编辑。第一序列显示参考基因型。上方两个产物是包含内源性多态性(G或A)的起始基因型。下方两个产物代表经正确编辑的基因型。

·MLV RT突变体改进编辑

以与Cas9(H840A)切口酶的C端融合物测试Baranauskas等(doi:10.1093/protein/gzs034)所述的突变体逆转录酶在人胚胎肾(HEK)细胞中的靶核苷酸编辑。Cas9-RT编辑器质粒与为逆转录提供模板的编码3′-引导编辑向导RNA的质粒共转染。图19中在indel比率(橙色柱)旁边示出靶核苷酸处的编辑效率(蓝色柱)。WT是指野生型MLV RT酶。突变酶(M1至M4)包含右侧列出的突变。编辑率通过基因组DNA扩增子的高通量测序来定量。

利用第二gRNA进行的互补链切口产生改进编辑

本实验评估了在互补DNA链中靠近靶核苷酸处引入单链切口时靶核苷酸的编辑效率，假设这将引导错配修复优先去除原始核苷酸并转换碱基对至期望编辑。Cas9(H840A)-RT编辑构建体与两个向导RNA编码质粒共转染，所述向导RNA编码质粒之一为逆转录反应提供模板，而另一个靶向互补DNA链产生切口。测试距靶核苷酸不同距离处的产生切口(橙色三角形)(参见图20)。在indel形成率(橙色柱)旁边示出靶碱基对的编辑效率(蓝色柱)。“无”示例不包含互补链切口产生性向导RNA。编辑率通过基因组DNA扩增子的高通量测序来定量。

图21示出经处理的高通量测序数据，显示期望的T至A颠换突变和其他主要基因组编辑副产物的普遍缺失。

范围。新编辑技术的潜在范围如图13所示，并与脱氨酶介导的碱基编辑器技术进行比较。先前开发的碱基编辑器靶向PAM上游约15±2bp的区域。通过将靶标C或A核苷酸分别转换为T或G，先前开发的碱基编辑器可实现所有转换突变(A:T至G:C的转换)。但是，先前开发的碱基编辑器无法安装颠换突变(A至T、A至C、G至T、G至C、T至A、T至G、C至A、C至G)。此外，如果编辑窗口中有多个靶核苷酸，则可导致额外的非期望编辑。

新的引导编辑技术理论上可安装任何核苷酸和碱基对转换，以及潜在的小的插入和缺失编辑。对于PAM，引导编辑窗口从DNA切口产生的位点(PAM上游3个碱基)开始，并在PAM下游尚未确定的位点结束。值得注意地，此编辑窗口不同于脱氨酶碱基编辑器的编辑窗口。由于TPRT系统使用DNA聚合酶进行编辑，因此它可能具有所有优点，包括通用性、精确度和保真度。

校正患者来源细胞系中的致病性突变

从ATCC、Coriell Biobank或合作的Harvard/Broad附属实验室获得携带相关突变的细胞系(镰状细胞病：CD34+造血干细胞；威尔逊氏病：培养的成纤维细胞；囊性纤维化：培养的支气管上皮细胞)。通过高通量测序评估编辑效率，并且使用表型分析(血红蛋白HPLC、ATP7B免疫染色和CFTR膜电位分析)测试经校正的基因型的功效。

表征脱靶编辑活性

使用与野生型Cas9配对的靶gRNA，利用已建立的方法(如GUIDE-seq⁵⁵和CIRCLE-seq⁵⁶)筛选潜在的脱靶编辑。如果鉴定了潜在的脱靶，则这些基因座将在TPRT编辑的细胞中进行探测，以鉴定真正的脱靶编辑事件。

潜在的困难和替代方案

(1)编辑效率低：引导编辑器(PE)可能需要针对每个靶标进行优化。在这种情况下，可测试gRNA文库，以鉴定针对特定应用的最高功能变体。可优化RT-Cas融合表达和核定位。可将脂质体RNP递送用于限制脱靶编辑。

即将进行的实验

gRNA设计的优化可通过进一步探索引物结合位点长度和延伸合成模板来实现。测试范围和通用性包括不同的核苷酸转换、小的插入和缺失，以及关于PAM的不同编辑位点，以及人基因组中的多个位点。RT组件的优化包括探索MLV RT中的突变以增强活性(Rnase H失活、增加引物-模板结合亲和力、调整持续合成能力)和新的RT酶(II组intro RT、其他逆转录病毒RT)。

重要性

无数的遗传疾病是由单个基因的单核苷酸变化引起的。开发在此描述的基因组编辑技术，并将其应用于与疾病相关的细胞类型，会为临床转化奠定基础。对于某些疾病，例如镰状细胞病，单点突变代表整个群体的显性基因型。然而，对于许多其他遗传疾病，在整个患者群体中观测到单个基因内不同点突变的巨大异质性，每一种都会导致相似的疾病表型。因此，作为理论上可靶向大量此类突变的通用基因组编辑方法，这项技术可为这些患者及其家庭提供巨大的潜在利益。如果可在细胞中建立这些应用原理的证明，则将为疾病动物模型的研究奠定基础。

优点

精确度：编码核酸序列中定向的期望编辑。通用性：理论上，可进行任何碱基对转换，包括颠换编辑，以及小的插入或缺失。关于Cas9原间隔区邻近基序(PAM)序列，存在与碱基编辑器不同的编辑窗口。此方法实现了同源定向修复(HDR)的许多编辑能力，但没有HDR的主要限制(在大多数细胞类型中效率低下，并且通常伴随着过量的非期望的副产物，如indel)。此外，其不会造成双链DNA断裂(DSB)，因此很少indel、易位、大的缺失、p53激活等。

实施例2–易错引导编辑(PE)

本文所述引导编辑(PE)系统也可与易错逆转录酶结合使用以在基因组中安装突变。

图22中描绘的实施方案，其是在靶基因座上使用与延伸的向导RNA复合的核酸可编程DNA结合蛋白(napDNAbp)利用易错逆转录酶进行靶向诱变的示例性方法的示意图。该方法可被称为用于靶向诱变的引导编辑的实施方案。延伸的向导RNA包含向导RNA的3′或5′端处或向导RNA的分子内位置处的延伸。步骤(a)中，napDNAbp/gRNA复合物与DNA分子接触，gRNA引导napDNAbp与待诱变的靶基因座结合。步骤(b)中，在靶基因座处的一条DNA链中引入切口(如，通过核酸酶或化学试剂)，从而在靶基因座处的一条链中产生可用的3'端。在某些实施方案中，切口是在与R-环链相对应的DNA链(即，未与向导RNA序列杂交的链)中产生。步骤(c)中，3'端DNA链与向导RNA的延伸部分相互作用以引发逆转录。在某些实施方案中，3'端DNA链与向导RNA的延伸部分上的特定RT引发序列杂交。步骤(d)中，引入易错逆转录酶，该酶从引发位点的3'端向着向导RNA的3'端合成诱变DNA单链。示例性突变用星号“*”表示。这形成了包含期望的诱变区域的单链DNA瓣。步骤(e)中，napDNAbp和向导RNA得到释放。步骤(f)和(g)涉及单链DNA瓣(包含诱变区域)的分解，使得期望的诱变区域掺入靶基因座中。该过程可通过去除相应的5'内源性DNA瓣向着期望的产物形成驱动，其中5'内源性DNA瓣是3'单链DNA瓣侵入另一条链的互补序列并与其杂交时形成的。该过程也可利用第二链切口产生向着产物形成驱动，如图1F所示。在内源性DNA修复和/或复制过程之后，诱变区域掺入DNA基因座的两条DNA链中。

实施例3–利用PE的三核苷酸重复缩减

本文所述引导编辑(PE)系统可用于缩减三核苷酸重复突变(或“三联体扩增病”)，以治疗病况诸如亨廷顿病和其他三核苷酸重复病症。不希望受理论的束缚，三联体扩增是由DNA复制期间或DNA修复合成期间的滑移引起的。由于串联重复序列彼此具有相同的序列，两条DNA链之间的碱基配对可沿着序列在多个点发生。这可能会导致在DNA复制或DNA修复合成过程中形成“环出”结构。这可能导致重复序列的重复拷贝，扩大重复序列的数目。已提出了涉及杂交RNA:DNA中间体的其他机制。可将引导编辑用于通过缺失一个或多个或厌恶的重复密码子三联体来减少或消除这些三联体扩增区域。在这种应用的实施方案中，图23提供了利用引导编辑缩减或减少三核苷酸重复序列的PEgRNA设计的示意图。

因此，引导编辑可能能够用于校正任何三核苷酸重复病症，包括亨廷顿病、脆性X综合征和弗里德赖希氏共济失调。

最常见的三核苷酸重复序列包含CAG三联体，但也存在GAA三联体(弗里德赖希氏共济失调)和CGG三联体(脆性X综合征)。CAG三联体编码谷氨酰胺(Q)，因而CAG重复导致患病蛋白编码区中的多聚谷氨酰胺束。这种特殊类型的三核苷酸重复病症又被称为“聚谷氨酰胺(Poly Q)疾病”。其他三核苷酸重复会导致基因调控发生改变，被称为“非聚谷氨酰胺疾病”。继承扩增的素因或获得已扩增的亲本等位基因增加患病的可能性。三核苷酸重复的致病性扩增可使用引导编辑进行校正。

可实施引导编辑以通过用包含适合靶向到切割位置的PEgRNA的引导编辑器对三联体重复区域上游的区域产生切口来缩减三联体扩增区域。然后，引导编辑器基于PEgRNA作为模板(即，其编辑模板)合成新的DNA链(ssDNA瓣)，该模板编码健康数量的三联体重复(取决于特定的基因和疾病)。还合成包含健康三联体重复序列的新合成的ssDNA链，以包括匹配邻近重复序列的另一端的序列(红色链)的短同源段(即，同源臂)。新合成链的侵入，以及随后用新合成的ssDNA瓣置换内源性DNA，导致缩减的重复等位基因。

实施例4–利用PE的肽标签化

本文所述引导编辑系统(即，PE系统)还可用于将各种肽标签引入蛋白编码基因中。这类标签可包括6x组氨酸标签、FLAG-标签、V5-标签、GCN4-标签、HA-标签、Myc-标签等。这种方法可用于诸如蛋白荧光标记、免疫沉淀、免疫印迹、免疫组织化学、蛋白募集、诱导型蛋白降解决定子(degron)和全基因组筛选的应用中。图25和图26描绘了实施方案。

图25是显示内源性基因组基因座处的肽标签化基因和利用TPRT基因组编辑(即，引导编辑)进行肽标签化的gRNA设计的示意图。FlAsH和ReAsH标签化系统包括两部分：(1)荧光团-双砷探针，和(2)含有四半胱氨酸基序的基因编码肽，例如序列FLNCCPGCCMEP(SEQID NO:1)。在细胞内表达时，含有四半胱氨酸基序的蛋白可用荧光团-砷探针进行荧光标记(参见文献：J.Am.Chem.Soc.,2002,124(21),pp 6063–6076.DOI:10.1021/ja017687n)。“分选标签化”系统采用细菌分选酶，其将标记的肽探针与含有合适肽底物的蛋白共价缀合(参见文献：Nat.Chem.Biol.2007Nov；3(11):707-8.

DOI:10.1038/nchembio.2007.31)。FLAG-标签(DYKDDDDK(SEQ ID NO:2))、V5-标签(GKPIPNPLLGLDST(SEQ ID NO:3))、GCN4-标签(EELLSKNYHLENEVARLKK(SEQ ID NO:4))、HA-标签(YPYDVPDYA(SEQ ID NO:5))和Myc-标签(EQKLISEEDL(SEQ ID NO:6))通常用作免疫测定的表位标签。π钳(pi-clamp)编码肽序列(FCPF)(SEQ ID NO:622)，其可用五氟芳香族底物标记(参考文献：Nat.Chem.2016Feb；8(2):120-8.doi:10.1038/nchem.2413)。

图26示出His6-标签和FLAG-标签精确安装至基因组DNA。靶向HEK3基因座的向导RNA设计为具有编码18-nt His标签插入或24-nt FLAG标签插入的逆转录模板。使用扩增子测序评估转染的HEK细胞中的编辑效率。注意，FLAG标签的完整24-nt序列在观测框外(测序确认完整和精确插入)。

实施例5–利用PE预防或治疗朊病毒病

本发明可帮助解决人类、家畜和野生动物的朊病毒病问题。先前描述的编辑策略不是足够有效且清洁的，以安装保护性突变或可靠地敲低PRNP。可使用Cas9核酸酶和HDR，但会主要产生PRNP indel变体的混合物，其中一些被认为是致病性的。此外，HDR在大多数细胞类型中不起作用。引导编辑可靠且高效地安装这两种类型的突变，而不会产生过多的双链DNA断裂或得到indel。

本发明描述了如何在PRNP中安装保护性突变，其防止或阻止朊病毒病的发展。该位点在哺乳动物中是保守的，因此除了治疗人类疾病外，还可用来产生对朊病毒病免疫的牛和棉羊，甚至帮助治愈患有朊病毒病的野生动物群。已将引导编辑用于在人细胞中实现天然存在保护性等位基因的约25％安装，并且先前小鼠实验表明，这种安装水平足以引起免疫力而免于大多数朊病毒病。这种方法是首次且目前可能唯一的在大多数细胞类型中以如此高的效率安装该等位基因的方法。另一种可能的治疗策略是使用引导编辑通过在基因中安装早期终止密码子来减少或消除PRNP的表达。许多研究人员预测，这样做可治疗疾病。

三种潜在的治疗策略包括引导编辑以减少PrP的表达。这一目标可通过引入导致PRNP中过早终止密码子的突变、消除起始密码子、突变或缺失必需氨基酸密码子、引入或去除剪接位点以产生异常转录本、或改变减少转录本水平的调控元件来实现。引导编辑消除疾病突变。已描述了导致感染疾病的可能性增加的PRNP的许多变体(ncbi.nlm.nih.gov/pmc/articles/PMC6097508/#b154-ndt-14-2067)。各已知的变体都可使用引导编辑进行逆转，因为引导编辑可进行所有可能类型的点突变、局部插入和局部缺失。引导编辑将一个或多个保护性突变引入PRNP，破坏朊病毒形成和/或传播。例如，已证明人PRNP基因中的G127V可针对多种形式的朊病毒病提供保护(ncbi.nlm.nih.gov/pmc/articles/PMC4486072/)。该突变后来被描述为通过阻止稳定的β折叠和二聚体形成来干扰朊病毒形成(ncbi.nlm.nih.gov/pubmed/30181558,ncbi.nlm.nih.gov/pubmed/26906032)。除了引入单核苷酸多态性之外，在PRNP中干扰朊病毒形成的序列插入或缺失也可用于提供保护而免于朊病毒病或治疗朊病毒病。

第三种治疗策略特别有利，因为即使相对较少数量的细胞经历编辑时，保护性变体的引入也可带来益处。此外，引入保护性变体，尤其是那些天然存在于人群中的变体如G127V，预计不会产生任何有害后果，而如策略1中那样减少朊病毒蛋白的表达可具有一些有害的表型，正如在PRNP敲除小鼠中所记录的那样(ncbi.nlm.nih.gov/pmc/articles/PMC4601510/,ncbi.nlm.nih.gov/pmc/articles/PMC2634447/)。

先前已证明，表达比例约为2:1的野生型人朊病毒蛋白:人朊病毒蛋白的保护性G127V变体(保护性变体的约33％表达)的小鼠对大多数测试形式的朊病毒病完全免疫，并且对变异型克雅氏病(vCJD，从牛海绵状脑病(BSE，或疯牛病)传播的人类疾病⁹¹)也有抵抗力。仅表达保护性G127V变体的小鼠对所有测试的朊病毒病攻击(包括vCJD)完全免疫。

在此证明使用引导编辑，保护性G127V突变可有效地安装在组织培养中的人细胞中(参见图27)。

这些结果告知，描述了可使用PRNP编辑的三种情况。可使用PRNP编辑的一种情况是在人类患者中进行引导编辑以预防或治疗朊病毒病。可使用PRNP编辑的第二种情况是在家畜中进行引导编辑以防止朊病毒病的发生和传播。牛和棉羊家畜都已经历过由PRNP基因产生的蛋白引起的朊病毒病的零星发生。除了动物遭受的虚弱性和死亡疾病外，这些病例在经济上也是毁灭性的，部分原因是必须采取措施防止这种极具传染性的疾病的传播。2003年12月，华盛顿州的一头奶牛检测出BSE呈阳性，这导致第二年牛肉销售额预计损失28-42亿美元(bookstore.ksre.ksu.edu/pubs/MF2678.pdf)。PRNP基因在哺乳动物中高度保守。将PRNP突变如G127V引入家畜种系可消除BSE或羊瘙痒症(绵羊中朊病毒病的表现)的发生。可使用PRNP编辑的第三种情况是野生动物中的引导编辑可防止野生朊病毒病的传播。目前，北美的鹿科种群(包括鹿、麋鹿(elk)和驼鹿(moose))正在遭受慢性消耗性疾病(CWD，在这些物种中由PNRP引起的朊病毒病的表现)的折磨。据报道，某些群体的发生率高达25％(cdc.gov/prions/cwd/occurrence.html)。挪威、芬兰和韩国也报告了CWD。尚不清楚该疾病是否会从这些物种传播给人类(cdc.gov/prions/cwd/transmission.html)或家畜。在这些物种种系中引入PRNP突变如G127V可保护其免受CWD的侵害，并降低传播给其他物种(包括人类)的风险。

这种方法可用于治疗克雅氏病(CJD)、库鲁病、杰茨曼-斯脱司勒-史茵克病、致死性家族性失眠症(FFI)、牛海绵状脑病(BSE；疯牛病)、羊瘙痒症(绵羊中)和慢性消耗性疾病(CWD；鹿、麋鹿和驼鹿)。

该方法需要与用于胚胎或成人神经元的递送方法，例如显微注射、脂质纳米颗粒或AAV载体相结合。

实施例6–使用PE进行RNA标签化和操作

本文描述了将基序插入遗传序列中的新方法，所述基序标签化或者以其它方式操作哺乳动物、真核和细菌细胞内的RNA。虽然据估计只有1％的人类基因组编码蛋白，但实际上所有基因组都在某种程度上转录。所产生的非编码RNA(ncRNA)在多大程度上发挥功能性作用是开放的问题，更不用说大多数这些假定的RNA的作用如何。通过将具有有用特性的新的RNA编码序列插入感兴趣基因来“标签化”这些RNA分子是研究细胞中RNA分子生物学功能的有用方法。将标签安装到编码蛋白的mRNA上作为干扰的手段也是有用的，从而更好地了解mRNA修饰如何影响细胞功能。例如，细胞使用普遍存在的天然RNA标签——聚腺苷酸化来影响mRNA向细胞质的转运。不同类型的聚腺苷酸化信号导致不同的转运速率和不同的mRNA寿命，从而导致编码蛋白表达水平的差异。

细胞内表达标签化的RNA的常用方法是外源引入合成构建体，其使用以下进行(i)瞬时质粒转染，其通常以超生理水平产生短期基因表达爆发；或(ii)使用慢病毒整合或转座子将标签化的RNA基因永久整合至基因组(随机位点处)，从而实现延长的表达。这两种方法都受到产生改变的表达水平以及缺乏调节基因表达或活性的天然机制的限制。另一种策略是使用由Cas9或其他靶向DNA核酸酶诱导的双链DNA断裂的同源定向修复(HDR)，在其内源性基因座处直接对感兴趣基因进行标签化。虽然这种方法能够产生广泛的内源性标签化基因，但HDR的效率明显低下，因此需要进行大量筛选以识别已成功标签化的期望的细胞克隆群体。此外，HDR在大量细胞类型中通常非常低效或完全无活性，尤其是在有丝分裂期后的细胞中。HDR的低效率因产生非期望的indel产物而进一步复杂化，在RNA基因的情况下可能尤其成问题，因为它们可能导致产生RNA，其活性干扰正常等位基因功能。最后，研究人员通常需要筛选RNA分子内的各种标签化位点，以实现最佳性能。总之，这些缺点使HDR成为RNA中安装标签不太理想的方法。

引导编辑是新的基因组编辑技术，其可通过将遗传信息从RNA转移到DNA来对基因组基因座进行靶向编辑。使用引导编辑，RNA基因可用各种组件，例如RNA适体、核酶或其他RNA基序标签化。与HDR策略相比，引导编辑具有在更多种类的细胞类型中更快、更便宜和更有效的潜力。因此，所描述的发明代表了用于研究健康和疾病中RNA基因的生物学中新的、有用的且非显而易见的工具。本文描述了使用引导编辑器(PE)将RNA基序插入遗传序列的新方法，所述RNA基序标签化或以其它方式操作RNA。PE能够在由CRISPR/Cas系统可靶向的期望的基因组位点处进行位点特异性插入、突变和/或缺失多个核苷酸。PE由Cas9核酸酶结构域和逆转录酶结构域之间的融合物组成。通过工程化PEgRNA(引导编辑向导RNA)将它们引导至基因组靶标，所述工程化PEgRNA包含用于DNA靶向的向导间隔区部分，以及用于编码期望的基因组编辑的逆转录的模板(参见图28A)。设想可将PE用于插入在RNA水平上功能性的基序(以下称为RNA基序)以标签化或以其他方式操纵非编码RNA或mRNA。这些基序可用于增加基因表达、减少基因表达、改变剪接、改变转录后修饰、影响RNA的亚细胞定位、实现分离或确定RNA的细胞内或细胞外位置(使用如荧光RNA适体如Spinach、Spinach2、BabySpinach或Broccoli)，募集内源性或外源性蛋白或RNA结合剂，引入sgRNA，或诱导通过自切割或RNA酶的RNA加工(参见图28B)。由于引导编辑的灵活性，不可能提供可安装在基因组内的RNA基序的完整列表。在此显示了一系列示例，广泛地说明可用于对RNA基因进行标签化的PE安装的RNA基序的预测范围。目前不可能使用除PE之外的任何其他报告的基因组编辑方法在大多数类型的细胞(包括许多不支持HDR的细胞)中有效且相当清洁地进行这些改变。

基因表达可能受编码3′非翻译区(UTR)的影响，所述3′非翻译区导致核转运或保留或mRNA寿命发生变化。例如，来自多瘤病毒猿猴病毒40(SV40)的poly A尾具有额外的辅助序列，其实现有效的转录终止，并可相对于其他3′UTR增加基因表达^57,58。SV40 poly A尾的示例序列：

除了聚腺苷酸化信号外，翻译后修饰信号也可由PE编码。这些包括掺入N6-甲基腺苷、N1-甲基腺苷、5-甲基胞嘧啶和假尿苷修饰的信号⁵⁹。通过使用PE来包含在RNA转录本中写入或去除这些修饰的由酶结合的序列，有可能诱导它们的写入或清除。这可用作研究这些标志物的影响、诱导细胞分化、影响应激反应的工具，或者鉴于这些标志物的功能尚未得到充分探索，以其他方式影响靶向细胞。

PE可编码影响亚细胞定位的突变。例如，在mRNA中掺入tRNA-Lys理论上可以导致转运至线粒体⁶⁰，而各种3′UTR可导致核保留或转运⁶¹。

示例：

SV40 poly A信号导致转运。

U1 snRNA3′框导致保留

确定内源性RNA的亚细胞定位可以具有挑战性，标签需要添加外源性荧光标签化的核苷酸探针，如在FISH的情况下，或者耗时且可能不准确的细胞分级以及然后的RNA检测。在内源性RNA内编码探针将避免许多这些问题。一个示例是在内源性RNA中编码荧光RNA适体，例如Spinach⁶²或Broccoli，从而通过添加小分子原(proto-)荧光团来可视化该RNA的存在。

Broccoli适体

PE可插入或去除编码由RNA结合蛋白识别的RNA，影响RNA的稳定性、表达、定位或修饰(例如，参见列出的蛋白⁶³)的序列。

PE可在基因组中插入编码sgRNA的序列，作为病毒或癌症防御机制。类似地，它可用于插入microRNA(如，pre-microRNA)以指导靶向基因的沉默。

PE可插入导致RNA加工的序列，无论是通过其自身还是外部因素，作为研究RNA各个部分功能的疗法或工具。例如，HDV核酶⁶⁴包含在RNA序列中时，导致加工紧靠核酶的5′的RNA，而锤头型核酶在核酶内的第三个茎之前切割⁶⁵。其他自切割核酶包括手枪型⁶⁶、斧头型⁶⁶、发夹型⁶⁷、Neuropora Varkud卫星型⁶⁸、glmS⁶⁹、twister⁷⁰和twiner sister⁶⁶。这些序列可能包括核酶的野生型或工程化或进化版本。这些核酶中的大多数可具有不同的序列，取决于它们与RNA相结合的区域，取决于核酶切割位点的位置。还可实现通过外部因素指导RNA加工的序列，例如序列特异性RNAse⁷¹、识别特定结构的RNAse⁷²——如Dicer⁷³和Drosha⁷⁴。

HDV核酶

实施例6的参考文献：

以下参考文献通过引用整体并入本文。

1.Schek N,Cooke C,Alwine JC.Molecular and Cellular Biology.1992.

2.Gil A,Proudfoot NJ.Cell.1987.

3.Zhao,B.S.,Roundtree,I.A.,He,C.Nat Rev Mol Cell Biol.2017.

4.Rubio,M.A.T.,Hopper,A.K.Wiley Interdiscip Rev RNA 2011.

5.Shechner,D.M.,Hacisuleyman E.,Younger,S.T.,Rinn,J.L.NatMethods.2015.

6.Paige,J.S.,Wu,K.Y.,Jaffrey,S.R.Science 2011.

7.Ray D.,…Hughes TR.Nature 2013.

8.Chadalavada,D.M.,Cerrone-Szakal,A.L.,Bevilacqua,P.C.RNA 2007.

9.Forster AC,Symons RH.Cell.1987.

10.Weinberg Z,Kim PB,Chen TH,Li S,Harris KA,Lünse CE,BreakerRR.Nat.Chem.

Biol.2015.

11.Feldstein PA,Buzayan JM,Bruening G.Gene 1989.

12.Saville BJ,Collins RA.Cell.1990.

13.Winkler WC,Nahvi A,Roth A,Collins JA,Breaker RR.Nature 2004.

14.Roth A,Weinberg Z,Chen AG,Kim PG,Ames TD,Breaker RR.Nat ChemBiol.2013.

15.Choudhury R,Tsai YS,Dominguez D,Wang Y,Wang Z.Nat Commun.2012.

16.MacRae IJ,Doudna JA.Curr Opin Struct Biol.2007.

17.Bernstein E,Caudy AA,Hammond SM,Hannon GJ Nature 2001.

18.Filippov V,Solovyev V,Filippova M,Gill SS.Gene 2000.

实施例7–利用PE生成基因文库

本文描述了用于细胞生成高度复杂的具有确定或可变的插入、缺失或确定的氨基酸/核苷酸转换的蛋白或RNA编码基因文库的新方法，以及它们在高通量筛选和定向进化中的应用。实施例中引用的参考文献基于本实施例末尾包含的参考文献列表。

可变基因文库的生成最常见的是通过诱变PCR完成¹。该方法依赖于使用降低DNA聚合酶保真度的反应条件，或使用具有更高突变率的经修饰的DNA聚合酶。因此，这些聚合酶的偏好反映在文库产物中(如，相比颠换，偏好转换突变)。这种文库构建方法的固有限制是相对无法影响改变基因的大小。大多数DNA聚合酶具有极低的indel突变率²(插入或缺失)，其中大多数会导致蛋白编码区中的移码突变，使文库成员不太可能通过任何下游选择。此外，PCR和克隆中的偏好可以使得难以产生由不同大小的基因组成的单一文库。这些限制会严重限制定向进化增强现有蛋白质功能或工程化改造新蛋白功能的功效。在自然进化中，蛋白功能或功效的巨大变化通常与插入和缺失突变有关，这些突变在用于诱变的经典文库生成过程中不太可能发生。此外，这些突变最常发生在所讨论的蛋白区域，这些区域预计会形成环，而不是疏水核。因此，使用传统的无偏倚方法生成的大多数indel可能是有害或无效的。

考虑到所有文库仅存取可能的突变空间的部分，可将这类突变偏向蛋白内它们最可能有益的位点(如，环区域)的文库，相比传统文库具有明显优势。最后，虽然可通过多步PCR和克隆组装使用NNK引物或通过DNA改组生成具有位点特异性indel突变的基因文库，但这些文库无法在连续进化中进行额外的“indel形成(indelgenesis)”轮次。连续进化是用户干预最少的定向进化类型。这样的一个示例是PACE³。由于连续进化在用户干预最少的情况下发生，进化过程中文库多样性的任何增加都必须使用天然复制机制进行。因此，尽管可在PACE中生成和筛选具有插入或去除密码子作为特定基因座的基因文库，但不可能进行额外的“indel形成”轮次。

预计可利用引导编辑(PE)的可编程性来生成高度复杂的编程基因文库，用于高通量筛选和定向进化(参见图29A)。PE可使用引导编辑向导RNA(PEgRNA)中编码的信息从指定的遗传基因座插入、改变或去除确定数量的核苷酸(参见图29B)。这实现插入或从环区域去除一个或多个氨基酸的靶向文库的生成，其中突变最有可能引起功能变化，而没有非功能性移码突变的背景引入(参见图29C)。可将PE用于安装特定的突变组，而无需考虑DNA聚合酶中固有的偏好或所突变的序列。

例如，虽然通过经典文库生成不太可能将CCC密码子转化为终止密码子，因为它需要三个连续的突变，包括两个颠换，但是PE可用于将任何给定的靶向密码子一步转换为TGA终止密码子。它们还可用于在给定位置安装编程多样性，例如通过在给定位点掺入编码任何疏水性氨基酸而不编码任何其他氨基酸的密码子。此外，由于PE的可编程性，可利用多个PEgRNA在多个位点同时形成多个不同的编辑，从而能够生成高度编程文库(参见图29D)。此外，可使用保真度较低的逆转录酶在其他方面不变的文库中生成诱变区域(如，HIV-1逆转录酶⁴或博德特氏菌噬菌体逆转录酶⁵)。

还设想了在同一位点上重复多轮PE的可能性，例如允许在单个位点重复插入密码子。最后，可设想所有上述方法都可并入连续进化中，从而能够产生新的原位进化文库(参见图30)。它们还可用于在其它情况下难以组装大型文库的其他细胞类型中构建这些文库，例如在哺乳动物细胞中。已针对定向进化进行优化的PE编码细菌菌株的生成将是有用的用于鉴定具有改进或新功能的蛋白和RNA的附加工具。由于PE的新性质，PE的所有这些应用都不是显而易见的。总之，通过PE生成文库将是合成生物学和定向进化以及蛋白和RNA组合突变体的高通量筛选中非常有用的工具。

竞争方法

目前产生多样化文库的主要方法是通过诱变PCR¹，如上所述。在PCR过程中，可通过简并NNK引物在确定的位点引入插入或缺失，但在多个位点引入这类突变需要在通过诱变PCR构建更多样化的文库前的多轮重复PCR和克隆，从而使方法较慢。替代补充方法是DNA改组，其中将通过DNase处理产生的基因文库片段引入PCR反应中而无需引物，导致不同片段彼此退火，并快速产生比通过单独的诱变PCR更多样化的文库⁶。虽然这种方法理论上可产生indel突变，但其更经常导致破坏基因功能的移码突变。此外，DNA改组需要基因片段之间的高度同源性。这两种方法都必须在体外进行，将所得到的文库转化到细胞中，而由PE产生的文库可以原位构建，使其能够在连续进化中应用。虽然可通过体内诱变原位构建文库，但这些文库依赖于宿主细胞机制并表现出针对indel的偏倚。同样，虽然传统克隆方法可用于生成位点特异性突变谱，但它们不能原位应用，通常在转化到细胞之前在体外一次组装一个。PE在原核和真核细胞类型中的效率和广泛功能进一步表明，这些文库可直接在感兴趣的细胞类型中构建，与克隆到模式生物(如，大肠杆菌)再转移到感兴趣的细胞或生物体中相反。另一种靶向多样化的竞争方法是多重自动基因组工程或MAGE，其中多个单链DNA寡核苷酸可掺入复制叉中并导致可编程突变⁷。然而，MAGE需要对宿主株进行大量修饰，并可导致脱靶或背景突变增加100倍⁸，而PE是更加高度编程，预计导致更少的脱靶效应。此外，MAGE尚未在极其多种细胞类型中得到证实，包括哺乳动物细胞。引导编辑是用于文库生成的新颖且非显而易见的补充技术。

PE在定向进化中构建基因文库的示例

在一个示例中，可将PE用于定向进化实验以在使用PACE的连续进化实验的过程中将蛋白变体引入基因文库，允许以通过传统方法不可能的方式迭代积累点突变和indel两者。已表明，PE可位点特异性且可编程地将核苷酸插入大肠杆菌的基因序列中。在概述的定向进化中，建议通过经修饰的双杂交蛋白:蛋白结合PACE选择来鉴定对特定表位具有改进结合的单抗体(monobody)。这些单抗体内特异且高度可变的环对亲和力和特异性有显著贡献。通过以靶向方式改变这些环的长度和组成，可在PACE中快速获得改进的单抗体结合。然而，改变序列长度并不是PACE的既定功能。虽然不同环尺寸的文库可用作PACE的起点，但在整个PACE选择过程中不会出现长度的后续改进，除非获得点突变和indel突变的有益协同组合。将PE引入PACE选择能够原位形成和进化具有不同环长度的单抗体。为此，预计可向宿主大肠杆菌菌株引入额外的PE质粒，该质粒编码PE酶和一个或多个PEgRNA。PE酶和PEgRNA的表达受以实验者选择的速率递送至PACE湖(lagoon)的小分子的控制。

在不同实施方案中，PEgRNA组件包含将PE引导至选择噬菌体上感兴趣的位点的间隔区，并且设计为使得在靶位点处可插入多个三核苷酸，从而引入新的PEgRNA结合位点，实现在靶向位点处迭代插入一个或多个密码子。

平行地，另一种宿主大肠杆菌菌株可包括PEgRNA，其将提供去除一个或多个密码子的模板，使环尺寸在进化过程中缩小。PACE实验可利用两种菌株的混合物或交替使用这两种菌株，以允许缓慢且受控地添加或去除环序列。

值得注意地，该技术还可应用于抗体进化。控制抗体的结合原理与控制单抗体的原理非常相似：抗体互补决定区环的长度对其结合功能至关重要。此外，已发现更长的环长度对于开发对HIV-1和其他病毒感染具有广泛保护活性的罕见抗体至关重要⁹。将上述PE应用于抗体或抗体衍生分子将允许产生具有不同环长度和不同环序列的抗体。与PACE相结合，这种方法将允许通过标准PACE无法获得的环几何构造增强结合，从而允许高功能抗体的进化。

实验将显示在噬菌体辅助的非连续进化(PANCE)中使用PE来校正噬菌体M3中的有害突变的能力，这是在连续进化中使用PE的必要的第一步(参见图69)。

实施例7的参考文献

以下参考文献通过引用整体并入本文。

1.Cadwell RC and Joyce GF.PCR Methods Appl.1992.

2.McInerney P,Adams P,and Hadi MZ.Mol Biol Int.2014.

3.Esvelt KM,Carlson JC,and Liu DR.Nature.2011.

4.Naorem SS,Hin J,Wang S,Lee WR,Heng X,Miller JF,Guo H.Proc Natl AcadSci USA

2017.

5.Martinez MA,Vartanian JP,Wain-Hobson S.Proc Natl Acad Sci USA 1994.

6.Meyer AJ,Ellefson JW,Ellington AD.Curr Protoc Mol Biol.2014.

7.Wang HH,Isaacs FJ,Carr PA,Sun ZZ,Xu G,Forest CR,ChurchGM.Nature.2009.

8.Nyerges

et al.Proc Natl Acad Sci USA.2016.

9.Mascola JR,Haynes BF.Immunol Rev.2013.

实施例8-通过PE插入免疫表位

最近在极其多种应用中探索了使用CRISPR/Cas系统的精确基因组靶向技术，包括将工程化DNA序列插入靶向基因组位点。先前，同源定向修复(HDR)已用于此应用，需要ssDNA供体模板并通过双链DNA断裂(DSB)启动修复。这种策略提供了在细胞中进行的最广泛的可能的改变，并且是将大的DNA序列插入哺乳动物细胞的唯一可用方法。然而，HDR受其起始DSB产生的非期望的细胞副作用的阻碍，例如高水平的indel形成、DNA易位、大的缺失和P53激活。除了这些缺点之外，HDR还受到许多细胞类型低效率的限制(T细胞是该观测结果的明显例外)。最近为克服这些缺点所做的努力包括将人Rad51突变体与Cas9D10A切口酶(RDN)融合，从而形成无DSB的HDR系统，该系统的特征在于增加的HDR产物:indel比率和较低的脱靶编辑，但仍受到细胞类型依赖性阻碍且只有适度的HDR编辑效率。

与PEgRNA偶联的Cas9与逆转录酶的最近开发的融合物(“引导编辑器”)的融合物代表了新的基因组编辑技术，其提供了许多优于现有基因组编辑方法的优势，包括具有安装任何单核苷酸取代的能力，以及以位点特异性方式插入或缺失任何短的核苷酸段(多达至少几十个碱基)。值得注意地，PE编辑通常以较低的意外indel率实现。因此，PE实现基于插入的靶向编辑应用，其以前是不可能或不能实现的。

该特定发明描述了使用引导编辑作为将已知免疫原性表位插入内源或外源基因组DNA的手段的方法，导致用于治疗或生物技术应用的相应蛋白的修饰(参见图31和图32)。在引导编辑发明之前，此类插入只能低效地且以较高的来自DSB的indel形成率实现。引导编辑在通常提供比HDR更高的效率的情况下解决了来自插入编辑的高indel形成问题。这种较低的indel形成率代表引导编辑作为靶向DNA插入方法优于HDR的主要优势，特别是在所述插入免疫原性表位的应用中。表位长度在几个碱基到几百个碱基的范围内。引导编辑器是在哺乳动物细胞中实现此类靶向插入的最高效且最清洁的技术。

本发明的关键概念是使用引导编辑器将包含先前所述的免疫原性表位的核苷酸序列插入内源或外源基因组DNA中，以下调和/或破坏它们的蛋白产物和/或表达细胞类型。以产生靶向基因的编码蛋白和插入的免疫原性表位的相应蛋白翻译的融合蛋白的方式将用于免疫原性表位插入的核苷酸序列靶向到基因。由于针对如破伤风、白喉或麻疹的常规疫苗接种的标准预先免疫，患者的免疫系统之前已接受过训练以识别这些表位。由于融合表位的免疫原性，预计患者的免疫系统会识别和禁用引导编辑的蛋白(不仅仅是插入的表位)以及可能表达它的细胞。

与靶向基因的融合物将根据需要工程化改造以确保暴露插入的表位蛋白翻译进行免疫系统识别。这可包括导致蛋白翻译的靶向核苷酸插入，产生免疫原性表位与靶向基因的C端融合物，免疫原性表位与靶向基因的N端融合物，或核苷酸插入基因中以便在蛋白结构的表面暴露区域内编码免疫原性表位。

作为在靶基因序列和插入的免疫原性表位核苷酸序列之间插入的核苷酸编码的蛋白接头可需要经工程化改造为本发明的一部分以促进靶向基因的免疫系统识别、细胞运输、蛋白功能或蛋白折叠。这些插入的核苷酸编码的蛋白接头可包括(但不限于)XTEN接头的可变长度和序列或甘氨酸-丝氨酸接头的可变长度和序列。这些工程化接头以前曾被用于成功促进蛋白融合。

本发明的区别特征包括使用对特定氨基酸序列的先前获得性免疫反应作为诱导对其他情况下非免疫原性蛋白的免疫反应的手段的能力。另一个区别特征是能够以靶标方式插入这些免疫原性表位的核苷酸序列，该靶标方式不诱导高水平的作为副产物编辑的不需要的indel，并且在其插入中有效。在此所讨论的本发明还能够结合细胞类型特异性递送方法(如，AAV血清型)以插入在感兴趣的细胞类型中触发免疫反应的表位。

可将引导编辑用作将免疫原性表位插入致病基因的手段用于对患者的免疫系统进行编程以对抗极其多种疾病(不限于癌症，如用免疫肿瘤学策略一样)。该技术的直接相关应用将是作为癌症治疗剂，因为它可通过引起对相关致癌基因如HER2或生长因子如EGFR的免疫反应来破坏肿瘤的免疫逃逸机制。这种方法似乎类似于T细胞工程，但这种方法的一个新进展是它可用于许多细胞类型和癌症以外的疾病，而无需生成工程化T细胞并将其引入患者。

使用PE将大多数人已针对性(破伤风、百日咳、白喉、麻疹、腮腺炎、风疹等)接种疫苗的免疫原性表位插入驱动疾病的外源或内源基因中，因此患者的免疫系统掌握禁用该蛋白。

从上述策略中获得潜在治疗益处的疾病包括由有毒蛋白聚集引起的疾病，例如致命性家族性失眠症。其他可能受益的疾病包括由其它情况下无毒的内源性蛋白的致病性过表达引起的疾病，以及由外源病原体引起的疾病。

主要治疗的适应症包括上述那些，例如癌症、朊病毒和其他神经退行性疾病、传染病的治疗剂和预防药物。次要治疗的适应症可包括对迟发性遗传病患者的预防性护理。预期当前的护理药物标准可与某些疾病的引导编辑结合使用，例如特别具有侵袭性的癌症，或在药物有助于缓解疾病症状直到疾病完全治愈的情况下。

以下是可使用引导编辑器插入来实现的免疫原性表位的示例：

以下是可整合入靶基因进行免疫表位标签化的表位的其他示例：

实施例8中引用的参考文献

以下参考文献通过引用以其整体并入：

1.X.Wen,K.Wen,D.Cao,G.Li,R.W.Jones,J.Li,S.Szu,Y.Hoshino,L.Yuan,Inclusion of a universal tetanus toxoid CD4(+)T cell epitope P2 significantlyenhanced the immunogenicity of recombinant rotavirusΔVP8*subunit parenteralvaccines.Vaccine 32,4420-4427(2014).

2.G.Ada,D.Isaacs,Carbohydrate-protein conjugate vaccines.ClinMicrobiol Infect 9,79-85(2003).

3.E.Malito,B.Bursulaya,C.Chen,P.L.Surdo,M.Picchianti,E.Balducci,M.Biancucci,A.Brock,F.Berti,M.J.Bottomley,M.Nissum,P.Costantino,R.Rappuoli,G.Spraggon,Structural basis for lack of toxicity of the diphtheria toxinmutant CRM197.Proceedings of the National Academy of Sciences 109,5229(2012).

4.J.de Wit,M.E.Emmelot,M.C.M.Poelen,J.Lanfermeijer,W.G.H.Han,C.vanEls,P.Kaaijk,The Human CD4(+)T Cell Response against Mumps Virus Targets aBroadly Recognized Nucleoprotein Epitope.J Virol 93,(2019).

5.M.May,C.A.Rieder,R.J.Rowe,Emergent lineages of mumps virus suggestthe need for a polyvalent vaccine.Int J Infect Dis 66,1-4(2018).

6.M.Ramamurthy,P.Rajendiran,N.Saravanan,S.Sankar,S.Gopalan,B.Nandagopal,Identification of immunogenic B-cell epitope peptides of rubellavirus E1 glycoprotein towards development of highly specific immunoassaysand/or vaccine.Conference Abstract,(2019).

7.U.S.F.Tambunan,F.R.P.Sipahutar,A.A.Parikesit,D.Kerami,VaccineDesign for H5N1 Based on B-and T-cell Epitope Predictions.Bioinform BiolInsights 10,27-35(2016).

实施例9-PE试剂的体内递送

最近在包括基因治疗的极其多种应用中探索了使用CRISPR/Cas9系统的精确基因组靶向技术。Cas9和基于Cas9的基因组编辑试剂在基因治疗中应用的主要限制是Cas9的尺寸(>4kb)，阻碍了其通过重组腺相关病毒(rAAV)的有效传递。最近开发的Cas9与逆转录酶的融合物(“引导编辑器”)代表了新的基因组编辑技术，其具有许多优于现有基因组编辑方法的优势，包括能够安装任何单核苷酸取代，以及以位点特异性方式插入或缺失任何任意定义的短核苷酸段(<约20)。因此，这种方法能够编辑先前难以校正的人类致病变体。引导编辑试剂的递送能够校正导致人类疾病的基因序列，或允许安装预防疾病的基因变体。

本发明描述了在体外和体内将引导编辑器递送至细胞的方法。开发了引导编辑器并且仅在培养细胞中表征。无已知的方法可在体内递送引导编辑器。现在公开的通过rAAV或预组装核糖核蛋白(RNP)复合物递送引导编辑器的方法将克服体内递送的若干障碍。例如，编码引导编辑器的DNA大于rAAV包装限制，因此需要特殊的解决方案。一种这样的解决方案是配制融合至断裂内含肽对的编辑器，所述断裂内含肽对被包装在两个单独的rAAV颗粒中，所述颗粒当共同递送至细胞时重组功能性编辑器蛋白。描述了一些其他特殊考虑因素以解释引导编辑的独特功能，包括优化第二位点切口产生性靶标和将引导编辑器正确包装至病毒载体中，包括慢病毒和rAAV。

区别特征包括使用核糖核蛋白(RNP)递送制剂，引导编辑器和附近的切口产生性靶标可与其特异性sgRNA/PEgRNA预先复合。这将增强可能的可靶向位点的范围，并允许相对于已经使用DNA递送的当前数据的更大的编辑效率优化。使用RNP或mRNA递送制剂，可使用变体Cas蛋白，每个变体都与其自身的向导RNA变体复合。这也将允许潜在切口产生性基因座的更大多样化，因此预期在任何给定应用中都可针对更高效率实现优化。使用RNP，基于先前RNP报告(Rees et al.,2017)预期提高编辑特异性。这将减少脱靶引导编辑。描述了将引导编辑器分成两个AAV载体进行体内或离体递送的可能结构。将引导编辑器包装至双AAV系统中需要优化设计考虑因素，包括断裂位点、重构方法(如，内含肽)和向导物表达结构。使用病毒和RNP的混合物来递送引导编辑器，预期编辑将随着时间而受到控制，因为RNP最终在体内降解，这将在不再提供RNP后停止引导编辑。

引导编辑器核糖核蛋白(RNP)、具有引导编辑器向导RNA的mRNA或DNA可包装至脂质纳米颗粒、rAAV或慢病毒中并注射、摄入或吸入以在体内和离体改变基因组DNA，包括为了建立人类疾病的动物模型，在人类疾病的动物模型中测试治疗和科学假设，以及治疗人类疾病的目的。

如果开发出合适的体内递送至相关细胞类型的方法，引导编辑器可行地用于校正全部遗传疾病中的大部分(Clinvar中约89％的致病性人类遗传变体)。由于已建立其他试剂的递送系统，血液疾病、视网膜疾病和肝脏疾病最有可能成为首批应用。AAV衣壳、其他进化或工程化病毒载体和脂质纳米颗粒制剂需要与本发明结合使用。

在某些实施方案中，一个或多个引导编辑器结构域(如，napDNAbp结构域或RT结构域)可工程化改造为具有内含肽序列。

实施例10-使用PE鉴定脱靶编辑

目前尚未描述使用引导编辑器检测脱靶编辑的方法(引导编辑本身尚未公开)。这些方法将允许研究人员使用引导编辑器鉴定潜在的脱靶编辑位点，该技术用于治疗患者的遗传性疾病时这将是重要的考虑因素。

本文所述方法也可用于鉴定Cas核酸酶的脱靶。这些脱靶先前经使用BLESS、Guide-Seq、CIRCLE-Seq和Digenome-Seq进行鉴定。然而，这种方法在方法的灵敏性和简单性方面是有利的。

这方面的关键概念是使用引导编辑插入衔接子序列或引物结合位点(自PEgRNA提供模板)，从而能够快速鉴定Cas核酸酶或引导编辑器的基因组脱靶修饰位点的想法。

无以非偏倚方式鉴定引导编辑脱靶位点的方法是已知的。这种方法与其他鉴定核酸酶脱靶位点的技术可区分，因为在DNA结合和切口产生的同一事件中插入衔接子序列，从而简化下游加工。

本发明包括在活细胞内部、组织培养物或动物模型中编辑时鉴定脱靶编辑位点(参见图33)。为了进行该方法，生成PEgRNA，其与最终期望编辑器具有相同的原间隔区(并且，如果查看引导编辑脱靶，则与最终期望编辑器具有相同的引物结合位点序列)，但包括通过引导编辑进行逆转录后安装衔接子或引物结合位点的必需序列。使用引导编辑器或RT融合核酸酶进行体内编辑并分离基因组DNA。基因组DNA通过酶促或机械手段进行片段化，并将不同的衔接子附加到DNA片段化位点。将PCR用于从一个衔接子扩增至通过PEgRNA安装的衔接子。深度测序所得到的产物以鉴定所有经修饰的位点。

本发明还包括使用基因组DNA的体外修饰来鉴定脱靶编辑位点(参见图33)。为了进行该方法，组装纯化的引导编辑器蛋白和PEgRNA的RNP，其安装衔接子或引物结合序列，但在其他方面与感兴趣的PEgRNA相同。在DNA片段化和不同衔接子连接到DNA断裂位点之前或之后，一起温育该RNP与提取的基因组DNA。将PCR用于从片段化位点扩增至用PE安装的衔接子。深度测序鉴定修饰位点。这种体外编辑方法应当提高检测的灵敏度，因为细胞DNA修复永远不会消除由引导编辑器添加的逆转录的DNA衔接子。

这些方法可用于鉴定任何引导编辑器或任何使用向导RNA识别靶切割位点的基因组编辑器(大多数Cas核酸酶)的脱靶编辑。

这些方法可应用于所有基因组编辑器被考虑用于治疗的遗传性疾病。

实施例11-使用PE在体内实现化学剂诱导的靶蛋白二聚化

本文所述的引导编辑器还可用于将二聚化诱导的生物过程如受体信号传导置于方便的小分子药物的控制下，通过用本文描述的引导编辑对编码小分子结合蛋白进行基因组整合进行。使用本文所述的引导编辑器，在活细胞或患者中可将编码小分子结合蛋白的基因序列插入编码感兴趣的靶蛋白的基因内。单独的此编辑应当没有生理影响。在施用小分子药物(通常是二聚的小分子，其可同时结合两个药物结合蛋白结构域，每个结构域都与靶蛋白的一个拷贝融合)后，小分子诱导靶向蛋白的二聚化。然后，该靶蛋白二聚化事件诱导生物信号传导事件，如红细胞生成或胰岛素信号传导。

实施例12-引导编辑：在人细胞中进行高度通用且精确的搜索和置换基因组编辑而无需双链DNA断裂

当前的基因组编辑方法可使用可编程核酸酶破坏、缺失或插入靶基因，伴随着双链DNA断裂的副产物，并使用碱基编辑器在靶基因座处安装四个转换点突变。然而，小的插入、小的缺失和八个颠换点突变共同代表了大多数致病性遗传变体，但在大多数细胞类型中不能有效且在没有过量的副产物的情况下校正。本文描述了引导编辑，是高度通用且精确的基因组编辑方法，其使用与工程化逆转录酶融合的催化受损Cas9(利用既指定靶位点又编码期望编辑的工程化引导编辑向导RNA(PEgRNA)编程)，将新的遗传信息直接写入指定的DNA位点。在人细胞中进行了超过175种不同的编辑，以证实引导编辑可有效地(通常为20-60％，在未分选细胞中高达77％)且在副产物低(通常为1-10％)的情况下进行靶向插入、缺失、所有12种可能类型的点突变及其组合，无需双链断裂或供体DNA模板。在人细胞中应用引导编辑来校正镰状细胞病(需要HBB中的A·T至T·A颠换)和泰-萨二氏病(需要HEXA中的4-碱基缺失)的主要遗传原因，在这两种情况中在最少副产物的情况下有效地将致病基因组等位基因回复为野生型。还可将引导编辑用于创建具有这些致病性HBB颠换和HEXA插入突变的人细胞系，在PRNP中安装赋予对朊病毒病的抗性(需要G·C至T·A颠换)的G127V突变，以及有效地将His6标签、FLAG表位标签和延伸的LoxP位点插入人细胞的靶基因座。引导编辑在效率和产物纯度方面提供了优于HDR的优势，并且与碱基编辑相比提供互补的优势和劣势。与其搜索和替换机制(其需要三个不同的碱基配对事件)一致，相比于Cas9，引导编辑在已知Cas9脱靶位点处更不容易发生脱靶DNA修饰。引导编辑极大地扩展了基因组编辑的范围和能力，原则上可校正约89％的已知致病性人类遗传变体。

在任何活细胞或生物体的基因组中进行几乎任何靶向改变的能力是生命科学的长期追求。尽管基因组编辑技术取得了快速进展，但与疾病相关的>75,000种已知人类遗传变体¹¹¹中的大部分无法在大多数治疗相关细胞中校正或安装(图38A)。可编程核酸酶如CRISPR-Cas9产生双链DNA断裂(DSB)，其可通过靶位点处诱导插入和缺失(indel)的混合来破坏基因^112-114。核酸酶也可用于通过不依赖于同源性的加工缺失靶基因^115,116或插入外源基因^117-119。然而，双链DNA断裂也与非期望的结果相关，包括复杂的产物混合物、易位¹²⁰和p53激活^121,122。此外，绝大多数致病性等位基因与它们的非致病性对应物的不同之处在于需要精确得多的编辑技术来校正的小的插入、缺失或碱基替换(图38A)。由核酸酶诱导的DSB刺激的同源定向修复(HDR)¹²³已广泛用于安装各种精确的DNA变化。然而，HDR依赖于外源性供体DNA修复模板，通常从DSB的末端连接修复中产生过量的indel副产物，并且在大多数治疗相关的细胞类型中效率低下(T细胞和一些干细胞是重要的例外)^124,125。虽然提高DSB介导的基因组编辑的效率和精确度仍然是有希望的努力的重点^126-130，但这些挑战需要探索替代的精确基因组编辑策略。

碱基编辑在极其多种细胞类型和生物体(包括哺乳动物)中可有效地安装或校正四种类型的转换突变(C至T、G至A、A至G和T至C)而无需使用DSB^128–131，但目前无法实现八种颠换突变(C至A、C至G、G至C、G至T、A至C、A至T、T至A和T至G)中的任何一个，例如直接校正镰状细胞病(HBB E6V)的最常见原因需要T·A至A·T突变¹³²。此外，未报道无DSB的方法进行靶缺失，例如去除导致泰-萨二氏病(HEXA 1278+TATC)的4-碱基重复¹³³，或靶向插入，例如直接校正囊性纤维化最常见原因(CFTRΔF508)需要精确的3-碱基插入¹³⁴。因此，靶向颠换点突变、插入和缺失在大多数细胞类型中难以有效地且在没有过量副产物的情况下安装或校正，即使它们共同构成大多数已知的致病性等位基因(图38A)。

本文描述了引导编辑的开发，这是新的“搜索和替换”基因组编辑技术，其介导人细胞中靶向基因座处靶向插入、缺失和所有12种可能的碱基至碱基转换，而无需双链DNA断裂或供体DNA模板。引导编辑器，最初以PE1为例，使用与可编程切口酶融合的逆转录酶和引导编辑延伸的向导RNA(PEgRNA)将遗传信息从PEgRNA的延伸直接拷贝至靶基因组基因座。第二代引导编辑器(PE2)使用工程化逆转录酶在indel形成最小(通常<2％)的情况下显著提高编辑效率，而第三代PE3系统添加第二向导RNA来对非编辑链产生切口，从而有利于置换非编辑链并在indel形成约1-10％的情况下进一步提高编辑效率，通常在人细胞中达到约20-50％。与优化的Cas9核酸酶启动的HDR相比，PE3提供少得多的副产物和更高或相似的效率，并且与当代碱基编辑器相比提供互补的优势和劣势。

PE3应用于人HEK293T细胞的基因组基因座，以实现HBB E6V至野生型HBB的有效转换，删除插入的TATC以使HEXA 1278+TATC恢复为野生型HEXA，在PRNP中安装赋予对朊病毒病的抗性¹³⁵(需要G·C至T·A颠换)的G127V突变，以及靶向插入His₆标签(18bp)、FLAG表位标签(24bp)和延伸的LoxP位点进行Cre介导的重组(44bp)。引导编辑在其他三种人细胞系以及有丝分裂后原代小鼠皮层神经元中也取得了成功，效率各不相同。由于初始切口和编辑位置之间的距离的高度灵活性，引导编辑基本上不受Cas9的PAM要求的限制，原则上可靶向绝大多数基因组基因座。在已知的Cas9脱靶基因座处的脱靶引导编辑比脱靶Cas9编辑少得多，这可能是由于需要三个不同的DNA碱基配对事件才能发生有效的引导编辑。通过在极其多种基因组基因座处实现精确的靶向插入、缺失和所有12类可能的点突变而无需DSB或供体DNA模板，引导编辑具有推进许多基因变体的研究和校正的潜力。

结果

从延伸的向导RNA转移信息至靶DNA位点的策略

Cas9使用包含与靶DNA位点杂交的间隔区序列的向导RNA靶向DNA112-114,136^,137。目标是工程化改造向导RNA，既能像在天然CRISPR系统中一样指定DNA靶标^138,139，也能包含置换靶基因座处相应DNA核苷酸的新的遗传信息。将遗传信息从延伸的向导RNA直接转移至指定的DNA位点，然后置换原始非编辑DNA，原则上可提供在活细胞中安装靶向DNA序列变化而不依赖于DSB或供体DNA模板的通用方法。为了实现这种直接的信息转移，目标是使用在靶位点处产生切口以暴露3′-羟基的基因组DNA，以引发遗传信息从工程化向导RNA(以下被称为引导编辑向导RNA或PEgRNA)上的延伸部分直接逆转录至靶位点(图38A)。

切口产生和逆转录的这些初始步骤(其类似于某些天然可移动的遗传元件所使用的机制¹⁴⁰)导致在一条链上具有两个冗余的单链DNA瓣的分支中间体：包含未编辑DNA序列的5'瓣和包含从PEgRNA拷贝的编辑序列的3′瓣(图38B)。为实现成功编辑，必须分解该分支中间体，以便经编辑的3′瓣取代未编辑的5′瓣。虽然5′瓣与未编辑链的杂交在热力学上可能是有利的，因为经编辑的3′瓣可与未编辑链形成较少的碱基对，但5′瓣是结构特异性核酸内切酶(如，FEN1)的优选底物¹⁴¹，其切除在滞后链DNA合成和长补丁碱基切除修复过程中产生的5′瓣。推断优先5'瓣切除和3'瓣连接可驱动编辑DNA链的掺入，形成含有一条编辑链和一条未编辑链的异源双链体DNA(图38B)。

编辑的永久安装可源于随后的DNA修复，该修复以将编辑链中的信息拷贝到互补DNA链的方式分解两条DNA链之间的错配(图38C)。基于开发用于最大化DNA碱基编辑效率的类似策略^131-133，预计距初始切口位点足够远对非编辑DNA链产生切口来使双链断裂形成最小化，可以使DNA修复偏向于优先置换非编辑链。

在体外和酵母细胞中验证引导编辑步骤

在通过Cas9的RuvC核酸酶结构域切割含PAM的DNA链后，该链的PAM远端片段可与其他情况下稳定的Cas9:sgRNA:DNA复合物分离¹⁴³。推测这条游离链的3′端可能足够接近以引发DNA聚合。向导RNA工程化的努力^144-146和Cas9:sgRNA:DNA复合物的晶体结构^147-149表明，可延伸sgRNA的5′和3′端而无需消除Cas9:sgRNA活性。通过将sgRNA延伸为包括两个关键组件而设计PEgRNA：允许有切口的DNA链的3′端与PEgRNA杂交的引物结合位点(PBS)和包含期望编辑的逆转录酶(RT)模板，所述期望编辑当有切口的DNA链的3'端通过聚合酶沿着RNA模板延伸时将直接拷贝至基因组DNA位点(图38C)。

这些假设使用纯化的化脓性链球菌Cas9蛋白在体外进行了测试。通过利用PBS序列(5至6个核苷酸，nt)和RT模板(7至22nt)在任一末端延伸sgRNA构建了一系列候选PEgRNA。已证实，5′-延伸PEgRNA引导Cas9与靶DNA结合，并且5′-延伸PEgRNA和3′-延伸PEgRNA均在体外支持Cas9介导的靶标切口产生和哺乳动物细胞中的DNA切割活性(图44A至44C)。这些候选PEgRNA设计使用预先产生切口的5′-Cy5标记的dsDNA底物、催化死亡Cas9(dCas9)和莫洛尼鼠白血病病毒(M-MLV)逆转录酶的商业变体进行测试(图44D)。当所有组分都存在时，观测到荧光标记的DNA链有效转化为更长的DNA产物，具有与沿RT模板的逆转录一致的凝胶迁移(图38D，图44D至44E)。利用5′-延伸或3′-延伸PEgRNA形成期望长度的产物(图38D至38E)。省略dCas9导致DNA模板上源自逆转录酶介导的DNA聚合的切口平移产物而无PEgRNA信息转移(图38D)。当PEgRNA用常规sgRNA替代时未观测到DNA聚合产物，证实PEgRNA的PBS和RT模板组件的必要性(图38D)。这些结果表明Cas9介导的DNA熔解暴露了单链R环，如果产生切口，该环能够从5′-延伸或3′-延伸PEgRNA引发逆转录。

接着，利用专门对含PAM的链产生切口的Cas9切口酶(H840A突变体)¹¹²测试非产生切口的dsDNA底物。在这些反应中，5′-延伸PEgRNA低效产生逆转录产物，可能是由于Cas9切口酶活性受损(图44F)。然而，3′-延伸PEgRNA允许稳健的Cas9切口产生和有效的逆转录(图38E)。尽管原则上逆转录可能在PEgRNA的其余部分内的任何位置终止，但使用3′延伸PEgRNA仅产生单个表观产物。与Cas9切口酶、RT和3′-延伸PEgRNA反应的产物的DNA测序显示完整的RT模板序列被逆转录至DNA底物中(图44G)。这些实验证实3′-延伸PEgRNA可在保留引导Cas9切口酶活性的能力的情况下为新的DNA链的逆转录提供模板。

为了在体外评估由PEgRNA编程逆转录产生的3′瓣的真核细胞DNA修复结果，在体外使用PEgRNA、Cas9切口酶和RT对报告质粒底物进行DNA切口产生和逆转录，并将反应产物转化至酵母(酿酒酵母)细胞中(图45A)。令人鼓舞地，当在体外利用编码校正过早终止密码子的T·A至A·T颠换的3′-延伸PEgRNA编辑质粒时，37％的酵母转化株表达GFP和mCherry蛋白(图38F，图45C)。与图38E和图44F中的结果一致，在体外利用5′-延伸PEgRNA进行的编辑反应产生的GFP和mCherry双阳性克隆(9％)比利用3′-延伸PEgRNA的那些更少(图38F和图45D)。使用插入单核苷酸(15％双阳性转化体)或缺失单核苷酸(29％双阳性转化体)校正移码突变的3′-延伸PEgRNA也观测到高效的编辑(图38F和图45E至45F)。从双阳性酵母集落中回收的编辑质粒的DNA测序证实在期望序列位点处发生经编码的颠换编辑(图45G)。这些结果表明，真核细胞中的DNA修复可分解由引导编辑引起的3′DNA瓣，以掺入精确的DNA编辑，包括颠换、插入和缺失。

引导编辑器1(PE1)的设计

受体外和酵母中结果的鼓舞，寻求开发能够编辑哺乳动物细胞中基因组DNA的具有最少数量组件的引导编辑系统。假设3′-延伸PEgRNA(以下简称为PEgRNA，图39A)和Cas9H840A与逆转录酶的直接融合物通过柔性接头可构成功能性双组分引导编辑系统。用编码野生型M-MLV逆转录酶与Cas9 H840A切口酶的任一端的融合物的质粒以及编码PEgRNA的第二质粒转染HEK293T(永生化人胚胎肾)细胞。初步尝试导致在HEK3靶基因座处检测不到T·A至A·T转换。

然而，PEgRNA中的PBS延伸至8-15个碱基(图39A)导致在HEK3靶位点处可检测到T·A至A·T编辑(图39B)，将RT与Cas9切口酶C端融合的引导编辑器构建体(3.7％最大T·A至A·T转换，其中PBS长度范围为8-15nt)相比N端RT-Cas9切口酶融合物(1.3％最大T·A至A·T转换)具有更高的效率(图39B；除非另有说明，本文报告的全部哺乳动物细胞数据是整个处理细胞群体的值，未选择或分选)。这些结果表明，与使用反式提供的M-MLV RT商业变体在体外的需求相比，与Cas9融合的野生型M-MLV RT需要更长的PBS序列进行人细胞的基因组编辑。将这种与Cas9 H840A切口酶C端融合的第一代野生型M-MLV逆转录酶命名为PE1。

测试了PE1在PEgRNA指定的四个额外基因组靶位点处精确引入颠换点突变的能力(图39C)。类似于HEK3基因座处的编辑，这些基因组位点处的效率取决于PBS长度，最大编辑效率范围为0.7-5.5％(图39C)。来自PE1的indel很低，在使每个位点的编辑效率最大化的条件下，五个位点的平均值为0.2±0.1％(图46A)。PE1还能安装靶向插入和缺失，例如在HEK3基因座处的单核苷酸缺失(4.0％效率)、单核苷酸插入(9.7％)和三核苷酸插入(17％)(图39C)。这些结果证实PE1能够直接安装靶向颠换、插入和缺失，无需双链DNA断裂或DNA模板。

引导编辑器2(PE2)的设计

虽然PE1可在HEK293T细胞的多个基因座安装多种编辑，但编辑效率通常较低(通常≤5％)(图39C)。推测工程化改造PE1中的逆转录酶可在引导编辑复合物的独特构象限制内提高DNA合成的效率，从而导致更高的基因组编辑产率。先前已报道M-MLV RT突变增加酶的热稳定性^150,151、持续合成能力¹⁵⁰和DNA:RNA异源双链体底物亲和力¹⁵²，并使RNaseH活性失活¹⁵³。构建了19种包含各种逆转录酶突变的PE1变体，以评估它们在人细胞中的引导编辑效率。

首先，研究了一系列M-MLVRT变体，这些变体先前由于具有在升高温度下支持逆转录的能力而从实验室进化而来¹⁵⁰。将这些氨基酸替换中的三个(D200N、L603W和T330P)连续引入M-MLV RT(以下称为M3)，导致HEK293T细胞中5个基因组基因座的颠换和插入编辑效率相比PE1平均提高6.8倍(图47A至47S)。

接着，与M3结合，测试了先前显示增强模板:PBS复合物结合、酶持续合成能力和热稳定性的其他逆转录酶突变¹⁵²。在分析的14种其他突变体中，除了M3突变外，还具有T306K和W313F取代的变体在人细胞的5个基因组位点进行6个颠换或插入编辑的编辑效率相比M3再提高了1.3倍至3.0倍(图47A至47S)。这种M-MLV逆转录酶的五突变体掺入PE1结构(Cas9H840A-M-MLV RT(D200N L603W T330P T306K W313F))在下文中被称为PE2。

PE2以基本上高于PE1的效率安装单核苷酸颠换、插入和缺失突变(图39C)，并且与更短的PBS PEgRNA序列(图39C)兼容，与提高的有效接合瞬时基因组DNA:PBS复合物的能力一致。平均地，PE2导致引导编辑点突变效率比PE1提高1.6到5.1倍(图39C)，并且在某些情况下显著提高编辑产率高达46倍(图47F和图47I)。PE2还比PE1更有效地实现靶向插入和缺失，在HEK3基因座处以4.5％的效率实现24-bp FLAG表位标签的靶向插入，比用PE1安装该插入的效率提高15倍(图47D)，在HEK3中以8.6％的效率介导1-bp缺失，比PE1的效率更高2.1倍(图39C)。这些结果证实PE2是比PE1更有效的引导编辑器。

PEgRNA特征的优化

利用PE2在HEK293T细胞的5个基因组位点处系统地探究PEgRNA结构与引导编辑效率之间的关系(图39C)。通常，GC含量越低的引发位点需要越长的PBS序列(EMX1和RNF2，在缺口上游的前10nt分别含有40％和30％GC含量)，而那些GC含量越高的位点支持具有更短的PBS序列(HEK4和FANCF，在切口上游的前10nt中分别含有80％和60％GC含量)(图39C)引发编辑，这与有切口的DNA链与PEgRNA PBS杂交的能量要求一致。PBS长度或GC含量水平不能严格预测引导编辑效率，其他因素如DNA引物或PEgRNA延伸的二级结构也可能影响编辑活性。对于典型的靶序列，建议从约13nt的PBS长度开始，如果序列偏离约40-60％GC含量，则探索不同的PBS长度。必要时，应根据经验确定最佳PBS序列。

接着，研究PEgRNA的RT模板部分的性能决定因素。使用PE2在五个基因组靶位点处系统评估具有长度范围为10-20nt的RT模板(图39D)，并在三个基因组位点处评估具有长达31nt的更长RT模板的PEgRNA(图48A至48C)。与PBS长度一样，也可改变RT模板长度以最大化引导编辑效率，尽管通常长≥10nt的许多RT模板长度支持更有效的引导编辑(图39D)。由于一些靶位点优选较长的RT模板(>15nt)来实现更高的编辑效率(FANCF，EMX1)，而其他基因座优选短的RT模板(HEK3，HEK4)(图39D)，因此优化PEgRNA时建议使用短和长RT模板两者进行测试，从约10-16nt开始。

重要地，与具有相似长度的RT模板的其他PEgRNA相比，将C放置作为与sgRNA支架的末端发夹相邻的核苷酸的RT模板通常导致较低的编辑效率(图48A至48C)。基于与Cas9结合的sgRNA的结构^148,149，推测C作为经典sgRNA的3'延伸的第一个核苷酸的存在可通过与G81配对破坏sgRNA支架折叠，所述G81是与Cas9中的Tyr1356天然形成π堆积且与sgRNA A68非经典碱基配对的核苷酸。由于许多RT模板长度支持引导编辑，建议选择3′延伸的第一个碱基(RT模板的最后一个逆转录碱基)不是C的PEgRNA。

引导编辑器3系统设计(PE3和PE3b)

虽然PE2可比PE1更有效地将遗传信息从PEgRNA转移到靶基因座，但细胞分解由一条编辑链和一条非编辑链形成的异源双链体DNA的方式决定了编辑是否持久。先前的碱基编辑发展面临着类似的挑战，因为胞嘧啶或腺嘌呤脱氨基的初始产物是包含一条编辑链和一条非编辑链的异源双链体DNA。为了提高碱基编辑的效率，使用编辑链作为模板，使用Cas9 D10A切口酶将切口引入非编辑链，并将DNA修复引导至该链¹²⁹,130^,142。为了利用该原理来提高引导编辑效率，测试使用已存在于PE2中的Cas9 H840A切口酶和简单sgRNA对非编辑链产生切口来诱导细胞优先置换非编辑链的类似策略(图40A)。由于编辑DNA链也有切口以启动引导编辑，在非编辑链上测试各种sgRNA编程的切口位置，以最小化导致indel的双链DNA断裂的产生。

首先通过筛选诱导位于PEgRNA诱导的切口位点(PAM的5′或3′)14至116个碱基处的切口的sgRNA，在HEK293T细胞的5个基因组位点测试了这种PE3策略。在测试的5个位点中的4个中，对非编辑链产生切口使无indel的引导编辑产物的数量相比PE2系统增加了1.5至4.2倍，高达55％(图40B)。虽然最佳切口位点因基因组位点而异，但位于PAM的3′(图40B中的正距离)的距离PEgRNA诱导的切口约40至90bp的切口通常产生引导编辑效率的有利增加(平均41％)，而没有过多的indel形成(sgRNA平均indel为6.8％，导致所测试5个位点中每一个的最高编辑效率)(图40B)。如预期，在某些位点，将非编辑链切口放置在PEgRNA诱导的切口的40bp内导致indel形成大幅增加高达22％(图40B)，这可能是由于对两条紧密的链产生切口形成了双链断裂。然而，在其他位点，对距离PEgRNA诱导的切口近达14bp产生切口仅产生5％的indel(图40B)，表明基因座依赖性因素控制近端双切口转化为双链DNA断裂。在一个测试位点(HEK4)处，互补链切口未提供任何益处，或导致indel水平超过编辑效率(高达26％)，即使放置在距离PEgRNA诱导的切口>70bp处，这与编辑链在该位点处被细胞产生切口或低效连接的不寻常倾向一致。如果indel频率超过可接受的水平，则建议从PEgRNA介导的切口约50bp的非编辑链产生切口开始并测试替代切口位置。

这种关于互补链切口产生如何提高引导编辑效率的模型(图40A)预测，仅在编辑链瓣分解后才对非编辑链产生切口可最小化并发切口的存在，从而降低继续形成indel的双链断裂的频率。为了实现时序控制非编辑链切口产生，设计了具有与编辑链匹配但与原始等位基因不匹配的间隔区序列的sgRNA。使用此策略(以下被称为PE3b)，间隔区和非编辑等位基因之间的错配应当不利于由sgRNA产生切口，直到PAM链发生编辑事件之后。这种PE3b方法用HEK293T细胞的三个基因组位点处的5种不同的编辑测试，并将结果与用PE2和PE3系统实现的结果进行了比较。在所有情况下，PE3b相比PE3与显著更低水平的indel相关(indel低3.5至30倍，平均低12倍，或0.85％)，整体编辑效率相比PE3没有任何明显下降(图40C)。因此，当编辑位于第二原间隔区内时，PE3b系统可减少indel，相比于PE2仍然提高编辑效率，通常达到与PE3相似的水平(图40C)。

总之，这些发现证实PE3系统(Cas9切口酶优化的逆转录酶+PEgRNA+sgRNA)相比于PE2提高了编辑效率约3倍(图40B至40C)。如预期考虑到PE3的额外切口产生活性，PE3伴随着比PE2更宽范围的indel。在优先考虑引导编辑效率时，建议使用PE3。当最小化indel至关重要时，PE2提供低约10倍的indel频率。当可使用识别已安装编辑的sgRNA来对非编辑链产生切口时，PE3b系统可在大大减少indel形成的情况下实现类似PE3的编辑水平。

为了证明用PE3进行引导编辑的靶向范围和多功能性，使用PE3和具有10个核苷酸RT模板的PEgRNA，探索了在HEK3靶位点的+1至+8位点(将PEgRNA诱导的切口3′的第一个碱基计为位点+1)间安装所有可能的单核苷酸取代(图41A)。总体地，这24个不同编辑涵盖了所有4个转换突变和所有8个颠换突变，以平均为33±7.9％(范围为14％至48％)的编辑效率(不含indel)进行，平均值为7.5±1.8％indel。

重要地，利用PE3，长距离RT模板也可引起高效引导编辑。例如，使用具有34-nt RT模板的PE3，以平均36±8.7％的效率和8.6±2.0％的indel将点突变安装在HEK3基因座中位点+12、+14、+17、+20、+23、+24、+26、+30和+33(PEgRNA诱导的切口12至33个碱基)处(图41B)。尽管未尝试其他基因座处超过+10位点的编辑，但在三个替代位点处≥30nt的其他RT模板也支持高效编辑(图48A至C)。长RT模板的活性能够对来自初始切口位点的数十个核苷酸进行高效的引导编辑。由于任一DNA链上的NGG PAM平均每约8bp出现一次，远小于支持高效引导编辑的编辑和PAM之间的最大距离，与其他精确基因组编辑方法相反^125,142,154，引导编辑基本不受附近PAM序列可用性的限制。鉴于RNA二级结构与引导编辑效率之间的假定的关系，在设计用于远程编辑的PEgRNA时，谨慎的做法是测试不同长度的RT模板，并在必要时测试序列组成(如，同义密码子)以优化编辑效率。

为了进一步测试PE3系统用于引入转换和颠换点突变的范围和局限性，测试了涵盖跨越6个其他基因组靶位点的所有12种可能类型点突变的72种其他编辑(图41C至41H)。总之，无indel编辑效率平均为25±14％，而indel形成平均为8.3±7.5％。由于PEgRNART模板包含PAM序列，引导编辑可诱导PAM序列变化。在这些情况下，观测到更高的编辑效率(平均为39±9.7％)和更低的indel形成(平均为25.0±2.9％)(图41A至41K，位点+5或+6处的点突变)。PAM编辑的效率的此提高和indel形成减少可能是由于Cas9切口酶无法在互补链修复之前重新结合和对编辑链产生切口。由于引导编辑支持组合编辑而不会明显损失编辑效率，因此建议除了其他期望的变化之外，在可能的情况下编辑PAM。

接着，使用PE3在7个基因组位点处进行14个靶向小插入和14个靶向小缺失(图41I)。靶向1-bp插入的平均效率为32±9.8％，而3-bp插入的平均效率为39±16％。靶向的1-bp和3-bp缺失也是有效的，分别以29±14％和32±11％的平均产率进行。Indel形成(超出靶向的插入或缺失)平均为6.8±5.4％。由于在位点+1和+6之间引入的插入和缺失改变PAM的位点或结构，推测该范围内的插入和缺失编辑通常更高效，因为修复互补链之前Cas9切口酶无法重新结合和对编辑DNA链产生切口，类似于编辑PAM的点突变。

还测试了PE3在HEK3位点处介导5bp至80bp的较大精确缺失的能力(图41J)。使用13-nt PBS和包含分别与靶基因座同源的29、24或19bp的RT模板时，对于5-、10-和15-bp缺失观测到非常高的编辑效率(52％至78％)。使用26-nt RT模板支持25bp的更大缺失，效率为72±4.2％，而20-nt RT模板实现80-bp缺失，效率为52±3.8％。这些靶向缺失伴随着平均为11±4.8％的indel频率(图41J)。

最后，测试了PE3在同一靶基因座处介导由跨越三个基因组位点的插入和缺失、插入和点突变、缺失和点突变或两个点突变组成的12种多重编辑组合的能力。这些组合编辑是非常高效的，在6.4％的indel的情况下平均为55％的靶编辑(图41K)，并且表明引导编辑能够在单个靶位点处在具有高效率和低indel频率的情况下进行精确插入、缺失和点突变的组合。

总之，图41A至41K的示例代表了跨越7个人类基因组基因座的156种不同的转换、颠换、插入、缺失和组合编辑。这些发现证实引导编辑的多功能性、精确性和靶向灵活性。

引导编辑与碱基编辑的比较

当前世代的胞苷碱基编辑器(CBE)和腺嘌呤碱基编辑器(ABE)可在具有高效率和低indel的情况下安装C·G至T·A转换突变和A·T至G·C转换突变^129,130,142。碱基编辑的应用可受限于碱基编辑活性窗口内存在的多个胞苷或腺嘌呤碱基(通常约为5bp宽)，这导致不需要的旁观者编辑^{129,130,142,155}，或者受限于距靶核苷酸约15±2nt定位的PAM的缺乏^142,156。预计引导编辑对于在无旁观者编辑的情况下精确安装转换突变，或在缺乏适当定位的PAM阻止CBE或ABE活性窗口内有利地定位靶核苷酸时特别有用。

通过使用无切口酶活性(BE2max)或具有切口酶活性(BE4max)的优化CBE¹⁵⁷，或使用类似PE2和PE3引导编辑系统，编辑在经典碱基编辑窗口(原间隔区位点4-8，将PAM计数为位点21-23)中包含多个靶胞苷的3个基因组基因座来比较引导编辑和胞嘧啶碱基编辑。在3个位点的碱基编辑窗口内的9个总靶胞嘧啶中，对于碱基编辑窗口中心的碱基(原间隔区位点5-7，图42A)，BE4max产生的平均总C·G至T·A转换比PE3高2.2倍。同样，在这些良好定位的碱基处，非切口产生性BE2max平均比PE2表现优异1.4倍(图42A)。然而，对于超出碱基编辑窗口中心的胞嘧啶，PE3比BE4max表现优异2.7倍，PE2比BE2max表现优异2.0倍(PE3平均编辑为40±17％相比于BE4max为15±18％，PE2为22±11％相比于BE2max为11±13％)。总之，PE2的indel频率非常低(平均0.86±0.47％)，而PE3的indel频率与BE4max相似或略高(BE4max范围：2.5％至14％；PE3范围：2.5％至21％)(图42B)。

比较碱基编辑与引导编辑安装精确C·G至T·A编辑(无任何旁观者编辑)的效率时，上述位点处，引导编辑的效率大大超过碱基编辑的效率，与大多数基因组DNA位点类似，这些位点在约5-bp碱基编辑窗口内包含多个胞嘧啶(图42C)。在这些位点(如，EMX1，其在原间隔区位点C5、C6和C7处包含胞嘧啶)处，BE4max生成很少的产物，该产物只包含单个靶碱基对转换，没有旁观者编辑。相反地，该位点处的引导编辑可用于在任何位点或位点组合(C5、C6、C7、C5+C6、C6+C7、C5+C7，或C5+C6+C7)处选择性安装C·G至T·A编辑(图42C)。所有精确的单碱基或双碱基编辑(即，不修饰任何其他附近碱基的编辑)在利用PE3或PE2的情况下分别比在利用BE4max或BE2的情况下有效得多，而三碱基C·G至T·A编辑在利用BE4max的情况下更高效(图42C)，反映了碱基编辑器在活性窗口内编辑所有靶碱基的倾向。总之，这些结果表明，胞嘧啶碱基编辑器可在最佳定位的靶碱基处进行比PE2或PE3更高水平的编辑，但引导编辑可在非最佳定位的靶碱基处优于碱基编辑，并且可利用多个可编辑的碱基以高得多的精确度进行编辑。

通过优化的非切口产生性ABE(具有dCas9而非Cas9切口酶的ABEmax¹⁵²，以下被称为ABEdmax)相比于PE2，以及通过优化的切口产生性腺嘌呤碱基编辑器ABEmax相比于PE3，在两个基因组基因座处比较A·T至G·C编辑。在碱基编辑窗口(HEK3)中包含两个靶腺嘌呤的位置处，对于A5转换，ABE比PE2或PE3更高效，但对于位于ABEmax编辑窗口边缘的A8转换，PE3更高效(图42D)。当比较其中仅转换单个腺嘌呤的精确编辑的效率时，PE3在A5和A8处均优于ABEmax(图42E)。总之，ABE在HEK3处产生的indel比引导编辑器少得多(ABEdmax为0.19±0.02％相比于PE2为1.5±0.46％，ABEmax为0.53±0.16％相比于PE3为11±2.3％，图42F)。在碱基编辑窗口内仅存在单个A的FANCF处，ABE2和ABEmax在总靶碱基对转换方面优于它们的引导编辑对应物1.8至2.9倍，几乎所有编辑产物都来自两种碱基编辑，引导编辑仅包含精确编辑(图42D至42E)。与HEK3位点一样，ABE在FANCF位点处产生的indel少得多(图42F)。

总之，这些结果表明碱基编辑和引导编辑为进行靶向转换突变提供了互补的优势和劣势。对于碱基编辑窗口内存在单个靶核苷酸的情况，或当旁观者编辑是可接受的，当前的碱基编辑器通常比引导编辑器更高效且产生更少的indel。当存在多个胞嘧啶或腺嘌呤并且不期望旁观者编辑时，或者当用于相对于可用PAM的碱基编辑的靶碱基定位不佳时，引导编辑器提供了巨大的优势。

脱靶引导编辑

为了导致高效编辑，引导编辑需要与Cas9结构域互补以结合的靶基因座:PEgRNA间隔区，启动PEgRNA引发的逆转录的靶基因座:PEgRNA PBS互补性，以及用于进行瓣分解的靶基因座:逆转录酶产物互补性。推测与其他基因组编辑方法相比，这三种不同的DNA杂交要求可最小化脱靶引导编辑。为了测试这种可能性，利用Cas9和4种靶向相同原间隔区的相应sgRNA，或利用Cas9和相同的16种PEgRNA，用PE3或PE2和总共16种设计用于靶向四个中靶基因组基因座的PEgRNA处理HEK293T细胞。选择这4个靶基因座，因为每个都具有至少4个良好表征的脱靶位点，对于所述脱靶位点，已知在HEK293T细胞中Cas9和相应中靶sgRNA导致大量脱靶DNA修饰^118,159。处理后，对每个中靶间隔区的4个中靶基因座和前4个已知的Cas9脱靶位点进行测序，总共16个脱靶位点(表1)。

与先前研究¹¹⁸一致，Cas9和4种靶sgRNA修饰所有16个先前报告的脱靶基因座(图42G)。HEK3靶基因座的4个脱靶位点中Cas9脱靶修饰效率平均为16％。Cas9和靶向HEK4的sgRNA导致4个测试的已知脱靶位点的平均60％的修饰。类似地，EMX1和FANCF的脱靶位点由Cas9:sgRNA修饰，平均频率分别为48％和4.3％(图42G)。值得注意地，相比于sgRNA，平均地，PEgRNA与Cas9核酸酶以相似的效率修饰中靶位点(低1至1.5倍)，而PEgRNA与Cas9核酸酶修饰脱靶位点的平均效率比sgRNA低约4倍。

引人注目地，具有包含这四个靶间隔区的相同16种测试PEgRNA的PE3或PE2导致脱靶编辑低得多(图42H)。在已知通过Cas9+sgRNA、PE3+PEgRNA或PE2+PEgRNA进行脱靶编辑的16个位点中，16个脱靶位点只有3个发生可检测的脱靶引导编辑，16个中只有1个显示脱靶编辑效率≥1％(图42H)。在这16个已知Cas9脱靶位点处，靶向HEK3、HEK4、EMX1和FANCF的PEgRNA的平均脱靶引导编辑分别为<0.1％、<2.2±5.2％、<0.1％和<0.13±0.11％(图42H)。值得注意地，在Cas9+PEgRNA1以97％的效率编辑的HEK4脱靶3位点处，尽管共有相同的间隔区序列，PE2+PEgRNA1导致仅0.7％的脱靶编辑，表明与Cas9编辑相比引导编辑必需的两个额外DNA杂交事件如何可以大大减少脱靶编辑。综上所述，这些结果表明PE3和PEgRNA在人细胞中诱导的脱靶DNA编辑比靶向相同原间隔区的Cas9和sgRNA低得多。

原则上，3′-延伸PEgRNA的逆转录可进行到向导RNA支架。如果所产生的3′瓣(尽管其3′端与未编辑DNA链缺乏互补性)掺入靶基因座中，则结果是插入有助于indel频率的PEgRNA支架核苷酸。我们分析了来自HEK293T细胞中4个基因座处66个PE3介导的编辑实验的测序数据，观测到低频率的PEgRNA支架插入，平均为任意数目的PEgRNA支架核苷酸的1.7±1.5％总插入(图56A-56D)。推测由于Cas9结构域结合，以及在由PEgRNA支架逆转录造成的3′瓣的错配3′端的瓣分解过程中的细胞切除，向导RNA支架无法接近逆转录酶，从而最小化掺入PEgRNA支架核苷酸的产物。虽然此类事件很少见，但未来致力于最小化PEgRNA支架掺入的工程化PEgRNA或引导编辑器蛋白可能会进一步降低indel频率。

一些碱基编辑器中的脱氨酶可以以Cas9非依赖性方式作用，产生第一代CBE(但不是ABE)中低水平但广泛的脱靶DNA编辑^160-162和第一代CBE和ABE中的脱靶RNA编辑^163-165，但是具有工程化脱氨酶的较新CBE和ABE变体大大减少了Cas9非依赖性脱靶DNA和RNA编辑^163-165。引导编辑器缺乏碱基修饰酶如脱氨酶，因此没有以Cas9非依赖性方式修饰DNA或RNA碱基的固有能力。

虽然原则上引导编辑器中的逆转录酶结构域可加工细胞中正确引发的RNA或DNA模板，但注意到逆转录转座子如LINE-1家族¹⁶⁶、内源性逆转录病毒^167、168和人端粒酶中的那些都提供了活性内源性人逆转录酶。它们在人细胞中的天然存在表明逆转录酶活性本身基本上无毒性。实际上，与表达dCas9、Cas9 H840A切口酶的对照或具有使逆转录酶失活的R110S+K103L(PE2-dRT)突变的PE2¹⁶⁹相比，HEK293T细胞活力中未观测到PE3依赖性差异(图49A至49B)。

尽管有上述数据和分析，仍需要其他研究以无偏倚的全基因组方式评估脱靶引导编辑，以及表征引导编辑器或引导编辑中间体中逆转录酶变体可能影响细胞的程度。

在人细胞中引导编辑致病性颠换、插入和缺失突变

在人细胞中测试PE3直接安装或校正导致遗传性疾病的颠换、小插入和小缺失突变的能力。镰状细胞病最常由HBB中的A·T至T·A颠换突变导致β-珠蛋白中Glu6→Val突变引起。利用Cas9核酸酶和供体DNA模板进行HDR，然后富集经编辑的细胞、移植和植入来离体治疗造血干细胞，是治疗镰状细胞病有前景的潜在策略¹⁷⁰。然而，除了正确编辑的HBB等位基因^170-171之外，这种方法仍然会产生许多含有indel的副产物。虽然碱基编辑器通常产生少得多的indel，但它们目前不能进行直接恢复HBB正常序列所需的T·A至A·T颠换突变。

将PE3用于在HEK293T细胞中以44％的效率和4.8％的indel安装HBB E6V突变(图43A)。从PE3处理的细胞混合物中，我们分离出HBB E6V等位基因纯合(三倍体)的6个HEK293T细胞系(图53A至53D)，表明引导编辑产生具有致病性突变的人细胞系的能力。为将HBB E6V等位基因校正为野生型HBB，我们利用PE3和编程为直接将HBB E6V突变回复为野生型HBB的PEgRNA处理纯合的HBB E6V HEK293T细胞。总共测试了14种PEgRNA设计。3天后，DNA测序显示所有14种PEgRNA在与PE3结合时都能高效地将HBB E6V校正为野生型HBB(≥26％野生型HBB，无indel)，并且indel水平平均为2.8±0.70％(图50A)。最佳PEgRNA以2.4％indel导致52％的HBB E6V至野生型的校正(图43A)。引入修饰由PEgRNA识别的PAM的沉默突变适度提高编辑效率和产物纯度至1.4％indel情况下的58％的校正(图43A)。这些结果证实引导编辑可在人细胞系中以高效率和最少的副产物的情况下安装和校正致病性颠换点突变。

泰-萨二氏病最常由4-bp插入HEXA基因(HEXA1278+TATC)引起¹³⁶。PE3用于以31％的效率和0.8％indel将该4-bp插入安装到HEK293T细胞中(图43B)，并分离出2个HEXA1278+TATC等位基因纯合的HEK293T细胞系(图53A-53D)。在利用PE3或PE3b系统的情况下使用这些细胞对43种PEgRNA和3种切口产生性sgRNA测试HEXA中的致病性插入的校正(图50B)，通过完全回复为野生型等位基因或通过破坏PAM并安装沉默突变的转移的4-bp缺失进行。测试的43种PEgRNA中的19种导致≥20％的编辑。利用PE3或PE3b和最佳PEgRNA向野生型HEXA的完全校正以相似的平均效率进行(PE3为30％相比于PE3b为33％)，但PE3b系统伴随着少5.3倍的indel产物(PE3为1.7％相比于PE3b为0.32％)(图43B和图50B)。这些发现表明引导编辑能够进行高效且在副产物最少的情况下安装或校正哺乳动物细胞中的致病性等位基因的精确小插入和缺失。

最后，测试了将保护性SNP安装到编码人朊病毒蛋白(PrP)的基因PRNP中。PrP错误折叠导致进行性和致命的神经退行性朊病毒病，该病可通过PRNP基因中的遗传显性突变或通过暴露于错误折叠的PrP而自发出现¹⁷²。天然存在的PRNP G127V突变体等位基因赋予人¹³⁸和小鼠¹⁷³对朊病毒病的抗性。PE3用于将G127V安装到HEK293T细胞的人PRNP等位基因中，这需要G·C至T·A颠换。利用PE3系统评估4种PEgRNA和3种切口产生性sgRNA。在暴露于最有效的PE3和PEgRNA的3天后，DNA测序显示安装G127V突变的效率为53±11％，indel水平为1.7±0.7％(图43C)。总之，这些结果证实引导编辑在人细胞中高效且在副产物最少的情况下安装或校正导致或赋予对疾病抗性的颠换、插入或缺失突变的能力。

不同人细胞系和原代小鼠神经元中的引导编辑

接着，测试引导编辑在3种其他人细胞系中编辑内源性位点的能力。在K562(白血病骨髓)细胞中，PE3用于在HEK3、EMX1和FANCF位点执行颠换编辑，以及在HEK3中插入18-bp的6xHis标签。对于这四种PE3介导的编辑中的每一种，观测到平均编辑效率为15-30％，indel平均为0.85-2.2％(图43A)。在U2OS(骨肉瘤)细胞中，安装了HEK3和FANCF中的颠换突变，以及对HEK3中的3-bp插入和6xHis标签插入，具有7.9-22％的编辑效率，超过indel形成10至76倍(图43A)。最后，在HeLa(宫颈癌)细胞中，3-bp插入HEK3以12％的平均效率和1.3％的indel进行(图43A)。总之，这些数据表明HEK293T细胞以外的多种细胞系支持引导编辑，但是编辑效率因细胞类型而异，而且效率通常低于HEK293T细胞。在所有测试的人细胞系中编辑:indel比率保持较高。

为确定有丝分裂后是否可能进行引导编辑，用双断裂PE3慢病毒递送系统转导从E18.5小鼠收获的终末分化原代细胞，原代皮层神经元，其中断裂内含肽剪接²⁰³重新组成来自N端半部和C端半部的PE2蛋白，每个半部都由单独的病毒递送。为了限制对有丝分裂后神经元的编辑，将对成熟神经元高度特异的人突触蛋白启动子用于驱动两种PE2蛋白组件的表达。GFP通过自切割P2A肽²⁰⁵融合至PE2的N端半部。在双病毒转导后两周从神经元中分离细胞核并直接测序，或在测序前对GFP表达进行分选。观察到在分选的细胞核中以0.58±0.14％的平均indel在DNMT1基因座处7.1±1.2％的平均引导编辑安装颠换(图43D)。同一断裂内含肽双慢病毒系统中的Cas9核酸酶导致分选的皮质神经元核中31±5.5％的indel(图43D)。这些数据表明有丝分裂后终末分化的原代细胞可支持引导编辑，因此证实引导编辑不需要细胞复制。

比较引导编辑与Cas9启动的HDR

在支持HDR¹²⁸的有丝分裂细胞系中比较PE3的性能与优化Cas9启动的HDR^128,125的性能。利用Cas9核酸酶、sgRNA和设计用于安装各种颠换和插入编辑的ssDNA供体寡核苷酸模板处理HEK293T、HeLa、K562和U2OS细胞(图43E至43G和图51A至51F)。在所有情况下，Cas9启动的HDR成功安装了期望编辑，但副产物水平高得多(主要是indel)，如导致双链断裂的处理所预期的。在HEK293T细胞中使用PE3，HBB E6V安装和校正以42％和58％的平均编辑效率进行，分别具有2.6％和1.4％的平均indel(图43E和图43G)。相反地，利用Cas9核酸酶和HDR模板得到的相同编辑导致5.2％和6.7％的平均编辑效率，具有79％和51％的平均indel频率(图43E和图43G)。类似地，PE3以53％的效率和1.7％indel安装PRNP G127V，而Cas9启动的HDR以6.9％的效率和53％indel安装该突变(图43E和图43G)。因此，HBB E6V安装、HBBE6V校正和PRNP G127V安装的编辑:indel比率平均而言对于PE5比对于Cas9启动的HDR高270倍。

在除HEK293T之外的人细胞系中，PE3和HDR之间的比较显示类似的结果，尽管PE3编辑效率较低。例如，在K562细胞中，与Cas9启动的HDR的17％编辑和72％indel相比，PE3介导的对HEK3的3-bp插入以25％的效率和2.8％indel进行，有利于PE3的40倍编辑:indel比率优势(图43F至43G)。在U2OS细胞中，PE3以22％的效率和2.2％indel进行此3-bp插入，而Cas9启动的HDR导致15％的编辑与74％indel，低49倍的编辑:indel比率(图43F至3G)。在HeLa细胞中，相比于Cas9启动的HDR的3.0％的编辑和69％indel，PE3以12％的效率和1.3％indel进行插入，210倍的编辑:indel比率差异(图43F至43G)。总之，这些数据表明，在所测试的四种细胞系中，HDR通常导致与PE3相似或更低的编辑效率和远高于PE3的indel(图51A-51F)。

讨论和未来方向

以单核苷酸精确度插入DNA序列的能力是特别可行的引导编辑能力。例如，PE3用于将His₆标签(18bp，65％的平均效率)、FLAG表位标签(24bp，18％的平均效率)和延伸LoxP位点(其是Cre重组酶的天然底物，44bp，23％的平均效率)精确插入HEK293T细胞的HEK3基因座中。这些示例的平均indel范围为3.0％至5.9％(图43H)。许多生物技术、合成生物学和治疗应用预计源自有效且精确地将新的DNA序列引入活细胞中感兴趣的靶位点的能力。

总之，本文所述引导编辑实验在人和小鼠基因组从PAM起始的上游3bp至下游29bp范围的位置处跨越12个内源性基因座安装18个高达44bp的插入、22个高达80bp的缺失、113个点突变(包括77个颠换)和18个组合编辑，而不会造成明显的双链DNA断裂。这些结果证实引导编辑为非常通用的基因组编辑方法。由于ClinVar中绝大多数(85-99％)的插入、缺失、indel和重复

≤30bp(图52A至52D)，原则上引导编辑可校正ClinVar中目前已知的75,122个致病性人遗传变体中高达约89％(图38A中的转换、颠换、插入、缺失、indel和重复)，具有改善由拷贝数增加或减少引起的疾病的额外潜力。

重要地，对于任何期望编辑，引导编辑的灵活性提供了PEgRNA诱导的切口位点、sgRNA诱导的第二切口位点、PBS长度、RT模板长度以及首先编辑的链的许多可能的选择，如本文广泛证明的。这种灵活性与通常可用于其他精确基因组编辑方法¹²⁵,142^,154的更有限的选择形成对比，允许优化编辑效率、产物纯度、DNA特异性或其他参数来适应给定应用的需要，如图50A至50B所示，其中测试14和43个PEgRNA，分别涵盖优化致病性HBB和HEXA等位基因校正的一系列引导编辑策略。

需要更多的研究来进一步了解和改进引导编辑。可能需要额外修饰引导编辑器系统扩展其兼容性来包括其他细胞类型，例如有丝分裂后的细胞。需要将引导编辑与病毒和非病毒体外和体内递送策略相互联系以充分探索引导编辑实现广泛应用的潜力，包括遗传性疾病的研究和治疗。然而，通过在哺乳动物细胞基因组中实现高精确度的靶向转换、颠换、小插入和小缺失而无需双链断裂或HDR，引导编辑提供了新的“搜索和置换”能力，大大扩展了基因组编辑的范围。

方法

一般方法

除非另有说明，否则使用Phusion U Green Multiplex PCR Master Mix(ThermoFisher Scientific)或Q5 Hot Start High-Fidelity 2x Master Mix(NewEngland BioLabs)通过PCR进行DNA扩增。DNA寡核苷酸，包括Cy5标记的DNA寡核苷酸、dCas9蛋白和Cas9H840A蛋白获自Integrated DNA Technologies。酵母报告质粒来源于先前描述的质粒⁶⁴并通过Gibson组装方法克隆。本文使用的所有哺乳动物编辑器质粒都使用先前描述的USER克隆方法¹⁷⁵组装。通过将退火的寡核苷酸连接到BsmBI消化的受体载体中来构建表达sgRNA的质粒。使用定制受体质粒通过Gibson组装或Golden Gate组装构建表达PEgRNA的质粒(参见补充的“Golden Gate组装”概述)。本文使用的sgRNA和PEgRNA构建体的序列列于表2A至2C和表3A至3R中。用于哺乳动物细胞实验的所有载体均使用Plasmid PlusMidiprep试剂盒(Qiagen)或PureYield plasmid miniprep试剂盒(Promega)纯化，其中包括内毒素去除步骤。所有使用活动物的实验都经Broad研究所学会和动物护理和使用委员会(Broad Institute Institutional and Animal Care and Use Committees)批准。野生型C57BL/6小鼠获自CharlesRiver(#027)。

体外生化分析

使用HiScribe T7体外转录试剂盒(New England Biolabs)从含有T7启动子序列的PCR扩增模板中体外转录PEgRNA和sgRNA。RNA通过尿素变性PAGE纯化，并在使用前通过分析凝胶确认质量。通过加热至95℃3分钟，然后缓慢冷却至室温，使用用于未产生切口的底物的两种寡核苷酸(Cy5-AVA024和AVA025；1:1.1比例)或用于预先产生切口的底物的三种寡核苷酸(Cy5-AVA023、AVA025和AVA026；1:1.1:1.1)退火5′-Cy5标记的DNA双链体底物(表2A至2C)。在补充有dNTP的1x切割缓冲液(20mM HEPES-K,pH7.5；100mM KCl；5％glycerol；0.2mM EDTA,pH 8.0；3mM MgCl2；0.5mM dNTP mix；5mM DTT)²⁰⁵中进行Cas9切割和逆转录反应。dCas9或Cas9H840A(最终5μM)和sgRNA或PEgRNA(最终5μM)在5μL反应混合物中于室温预先温育10分钟，然后加入双链体DNA底物(最终400nM)，接着添加Superscript III逆转录酶(ThermoFisher Scientific)，合适时未公开的M-MLV RT变体。反应于37℃进行1小时，然后用水稀释至10μL体积，用0.2μL蛋白酶K溶液(20mg/mL，Thermo Fisher Scientific)处理，并于室温温育30分钟。于95℃加热灭活10分钟后，将反应产物与2x甲酰胺凝胶上样缓冲液(90％甲酰胺；10％甘油；0.01％溴酚蓝)混合，于95℃变性5分钟，然后通过尿素变性-PAGE凝胶(15％TBE-尿素，55℃，200V)分离。使用Typhoon FLA 7000生物分子成像仪通过Cy5荧光信号可视化DNA产物。

使用预先温育的dCas9:sgRNA或dCas9:PEgRNA复合物(最终浓度范围为5nM至1μM)和Cy5标记的双链DNA(Cy5-AVA024和AVA025；最终浓度为20nM)，在1x结合缓冲液(1x裂解缓冲液+10μg/mL肝素)中进行电泳迁移率变化分析。于37℃温育15分钟后，样品通过天然PAGE凝胶(10％TBE)分析并进行Cy5荧光成像。

对于逆转录产物的DNA测序，从尿素-PAGE凝胶中切下和纯化荧光带，然后根据制造商方案在dGTP或dATP存在下利用末端转移酶(TdT；New England Biolabs)进行3'加尾。加尾DNA产物用结合缓冲液(40％饱和氯化胍水溶液+60％异丙醇)稀释10倍，并通过QIAquick离心柱(Qiagen)纯化，然后用作模板，使用引物AVA134(A加尾产物)或AVA135(G加尾产物)通过Klenow片段(New England Biolabs)进行引物延伸(表2A至2C)。使用引物AVA110和AVA122通过PCR扩增延伸10个循环，然后使用Sanger方法利用AVA037测序(表2A至2C)。

酵母荧光报告基因测定

如上所述，所有包含框内终止密码子、+1移码或-1移码的双荧光报告质粒在体外进行5′-延伸PEgRNA或3′-延伸PEgRNA引导编辑反应。于37℃温育1小时后，用水稀释反应物，并用0.3M乙酸钠和70％乙醇沉淀质粒DNA。如前所述⁶⁷，通过电穿孔将重悬的DNA转化至酿酒酵母中，并接种于不含亮氨酸(SC(葡萄糖)，L-)的合成完全培养基。利用TyphoonFLA7000生物分子成像仪从克隆中可视化GFP和mCherry荧光信号。

一般哺乳动物细胞培养条件

HEK293T(ATCC CRL-3216)、U2OS(ATTC HTB-96)、K562(CCL-243)和HeLa(CCL-2)细胞购自ATCC并在以下培养基中培养和传代：Dulbecco改良Eagle培养基(DMEM)加上GlutaMAX(ThermoFisher Scientific)、McCoy's 5A培养基(Gibco)、RPMI培养基1640加上GlutaMAX(Gibco)或Eagle最低基础培养基(EMEM、ATCC)，分别各自添加10％(v/v)胎牛血清(Gibco，合格)和1x青霉素链霉素(Coring)。所有细胞类型均于37℃和5％CO₂下温育、维持和培养。细胞系由各自供应商鉴定，并且支原体检测呈阴性。

HEK293T组织培养转染方案和基因组DNA制备

将生长的HEK293T细胞接种于48孔聚-D-赖氨酸包被的板(Corning)。接种后16至24小时，根据制造商方案，用1μL Lipofectamine 2000(Thermo Fisher Scientific)和750ng PE质粒、250ng PEgRNA质粒和83ng sgRNA以约60％的汇合度转染细胞质粒(用于PE3和PE3b)。除非另有说明，细胞在转染后培养3天，然后去除培养基，用1xPBS溶液(ThermoFisher Scientific)洗涤细胞，并通过直接向组织培养板的每个孔添加150μL新鲜制备的裂解缓冲液(10mM Tris-HCl,pH 7.5；0.05％SDS；25μg/mL蛋白酶K(Thermo FisherScientific))提取基因组DNA。基因组DNA混合物于37℃温育1至2小时，然后于80℃进行30分钟的酶灭活步骤。用于哺乳动物细胞基因组DNA扩增的引物列于表4。对于HEK293T细胞中的HDR实验，使用每孔1.4μL Lipofectamine 2000(Thermo Fisher)脂质转染231ng核酸酶表达质粒，69ng sgRNA表达质粒，50ng(1.51pmol)100-nt ssDNA供体模板(PAGE-纯化；Integrated DNA Technologies)。根据制造商方案，使用Agencourt DNAdvance试剂盒(BeckmanCoulter)纯化来自所有HDR实验的基因组DNA。

基因组DNA样品的高通量DNA测序

从基因组DNA样品中扩增感兴趣的基因组位点，并用Illumina MiSeq进行测序，如前所述并进行以下修改^129,130。简言之，包含Illumina正向和反向衔接子的扩增引物(表4)用于第一轮PCR(PCR1)扩增感兴趣的基因组区域。利用0.5μM正向和反向引物、1μL基因组DNA提取物和12.5μL Phusion U Green Multiplex PCR Master Mix进行25μL PCR1反应。PCR反应如下进行：98℃2分钟，接着[98℃ 10秒，61℃ 20秒，72℃ 30秒]的30个循环，最后72℃延伸2分钟。在第二轮PCR反应(PCR2)中，将独特的Illumina条码引物对添加到每个样品中。具体地，25μL给定的PCR2反应包含各0.5μM独特的正向和反向Illumina条形码引物对、1μL未纯化的PCR1反应混合物和12.5μL Phusion U Green Multiplex PCR 2x MasterMix。条形码PCR2反应如下进行：98℃2分钟，然后[98℃10秒、61℃ 20秒和72℃ 30秒]的12个循环，最后72℃延伸2分钟。PCR产物通过在1.5％琼脂糖凝胶中电泳进行分析评估。PCR2产物(由共同扩增子合并)使用QIAquick凝胶提取试剂盒(Qiagen)通过1.5％琼脂糖凝胶电泳纯化，用40μL水洗脱。根据制造商的方案，DNA浓度通过荧光定量(Qubit，Thermo FisherScientific)或qPCR(KAPA文库定量试剂盒-Illumina，KAPA Biosystems)测量，并用Illumina MiSeq仪器测序。

使用MiSeq Reporter(Illumina)对测序读段进行多路分解。使用CRISPResso2¹⁷⁸进行扩增子序列与参考序列的比对。为了定量点突变编辑，CRISPResso2在标准模式下运行，并启用“丢弃_indel_读段”(“discard_indel_reads”)。编辑效率计算为：(非丢弃读段中指定点突变的频率)x(非丢弃读段的数目#)÷总读段。对于插入或缺失编辑，CRISPResso2在HDR模式下运行，使用期望的等位基因作为预期的等位基因(e flag)，并启用“丢弃_indel_读段”。编辑产率计算为HDR比对读段的数目除以总读段。对于所有编辑，indel产率计算为丢弃读段的数目除以总读段。

U2OS、K562和HeLa细胞的核转染

在所有实验中使用K562、HeLa和U2OS细胞进行核转染。对于这些细胞类型的PE条件，在16孔nucleocuvette strip(Lonza)中800ng引导编辑器表达质粒、200ng PEgRNA表达质粒和83ng切口质粒以20μL的最终体积进行核转染。对于这三种细胞类型的HDR条件，在16孔Nucleocuvette strip(Lonza)中350ng核酸酶表达质粒、150ng sgRNA表达质粒和200pmol(6.6μg)100-nt ssDNA供体模板(PAGE纯化；Integrated DNA Technologies)以每个样品20μL的最终体积进行核转染。根据制造商的方案，使用SF细胞系4D-Nucleofector X试剂盒(Lonza)对K562细胞进行核转染，每个样品5×10⁵个细胞(程序FF-120)。根据制造商的方案，使用SE细胞系4D-Nucleofector X试剂盒(Lonza)对U2OS细胞进行核转染，每个样品3-4×10⁵个细胞(程序DN-100)。根据制造商的方案，使用SE细胞系4D-Nucleofector X试剂盒(Lonza)对HeLa细胞进行核转染，每个样品2×10⁵个细胞(程序CN-114)。在核转染后72小时收获细胞用于基因组DNA提取。

用于HDR实验的基因组DNA提取

根据制造商的方案，使用Agencourt DNAdvance试剂盒(BeckmanCoulter)纯化来自HEK293T、HEK293T HBB E6V、K562、U2OS和HeLa细胞中所有HDR比较实验的基因组DNA。

PE2、PE3、BE2、BE4max、ABEdmax和ABEmax之间的比较

HEK293T细胞接种于48孔聚-D-赖氨酸包被的板(Corning)。16至24小时后，转染约60％汇合度的细胞。对于利用CBE或ABE构建体的碱基编辑，用750ng碱基编辑器质粒、250ngsgRNA表达质粒和1μL Lipofectamine 2000(ThermoFisher Scientific)转染细胞。如上所述进行PE转染。如上所述进行PE和BE的基因组DNA提取。

确定已知Cas9脱靶位点处的PE3活性

为评估已知Cas9脱靶位点处的PE3脱靶编辑活性，将用PE3转染3天后从HEK293T细胞提取的基因组DNA用作模板，对16个先前报告的Cas9脱靶基因组位点^118,159进行PCR扩增(HEK3、EMX1、FANCF和HEK4间隔区各自的前四个脱靶位点；引物序列列于表4)。这些基因组DNA样品与用于定量图41A至41K所示的在靶PE3编辑活性的那些相同；PEgRNA和切口产生性sgRNA序列列于表3A至3R。在对脱靶位点进行PCR扩增后，如上所述用Illumina MiSeq平台对扩增子进行测序(HTS分析)。为了确定Cas9核酸酶、Cas9H840A切口酶、dCas9和PE2-dRT的中靶和脱靶编辑活性，用750ng编辑器质粒(Cas9核酸酶、Cas9H840A切口酶、dCas9或PE2-dRT)、250ng PEgRNA或sgRNA质粒和1μL Lipofectamine 2000转染HEK293T细胞。如上所述，在转染后3天从细胞中分离基因组DNA。使用表4中的引物序列通过PCR扩增中靶和脱靶基因组位点，并用Illumina MiSeq测序。

使用CRISPResso2¹⁷⁸进行HTS数据分析。将Cas9核酸酶、Cas9 H840A切口酶和dCas9的编辑效率定量为包含indel的总测序读段的百分比。为定量PE3和PE3-dRT脱靶，检查比对的测序读段是否存在与Cas9切口位点处启动的PEgRNA逆转录的预期产物一致的点突变、插入或缺失。从分析中排除在样品内总读段中以<0.1％总体频率发生的单核苷酸变异。对于包含发生频率≥0.1％且与PEgRNA编码编辑部分一致的单核苷酸变异的读段，用t检验(未配对，单尾，α＝0.5)确定与用含有相同间隔区但编码不同编辑的PEgRNA处理的样品相比，变体是否以显著更高的水平存在。为避免测序错误的差异，在同一MiSeq运行内同时测序的样品之间进行比较。排除不符合p值>0.05标准的变体。然后将脱靶PE3编辑活性计算为满足上述标准的总测序读段的百分比。

使用Cas9启动的HDR生成含有HBB E6V突变的HEK293T细胞系将HEK293T细胞接种于48孔板，并以约60％的汇合度转染1.5μL Lipofectamine 2000、300ng Cas9 D10A切口酶质粒、100ng sgRNA质粒和200ng 100-mer ssDNA供体模板(表5)。转染后3天，将培养基更换为新鲜培养基。转染后4天，细胞使用30μL TrypLE溶液分离并悬浮于1.5mL培养基中。通过荧光激活细胞分选(FACS)(Beckman-Coulter Astrios)，将单个细胞分离到两个96孔板的各个孔中。参见代表性FACS分选示例的图53A至53B。如上所述，在基因组DNA测序之前扩增细胞14天。在分离的克隆群体中，HBB E6V突变未发现纯合的，因此在部分编辑的细胞系中重复通过脂质转染、分选和生长的第二轮编辑，以产生E6V等位基因纯合的细胞系。

使用PE3产生含有HBB E6V突变的HEK293T细胞系

将在不存在抗生素的情况下生长的2.5x10⁴个HEK293T细胞接种于48孔聚D-赖氨酸包被的板(Corning)。接种后16至24小时，用1μL Lipofectamine 2000(Thermo FisherScientific，根据制造商的方案)以及750ng PE2-P2A-GFP质粒、250ng PEgRNA质粒和83ngsgRNA质粒转染约70％汇合度的细胞。转染后3天，用磷酸盐缓冲盐水(Gibco)洗涤细胞并使用TrypLE Express(Gibco)解离。然后用补充10％(v/v)FBS(Gibco)的DMEM加上GlutaMax(Thermo Fisher Scientific)稀释细胞，并在分选前通过35-μm细胞过滤器(Corning)。用LE-MA900细胞分选仪(Sony)进行流式细胞术。分选前，细胞用3nM DAPI(BioLegend)处理15分钟。在双重排除门控后，将具有高于GFP阴性对照细胞群的GFP荧光的单个DAPI阴性细胞分选到96孔平底细胞培养板(Corning)，其中填充有补充10％FBS的预冷DMEM和GlutaMax。参见代表性FACS分选示例的图53A至53B。如上所述，在基因组DNA提取和HTS表征之前，培养细胞10天。总共6个克隆细胞系鉴定为HBB中E6V突变纯合的。

使用PE3生成含有HEXA 1278+TATC插入的HEK293T细胞系

按照上述用于创建HBB E6V细胞系的方案生成包含HEXA 1278+TATC等位基因的HEK293T细胞；PEgRNA和sgRNA序列列于表2A至2C，图43A至43H小标题。转染和分选后，在基因组DNA提取和HTS表征之前，培养细胞10天，如上所述。分离出含有50％HEXA 1278+TATC等位基因的两个杂合细胞系，回收含有100％HEXA 1278+TATC等位基因的两个纯合细胞系。

细胞活力测定

将HEK293T细胞接种于48孔板，并如上所述用750ng编辑器质粒(PE3、PE3R110SK103L、Cas9H840A切口酶或dCas9)、250ng HEK3-靶向PEgRNA质粒和1μLLipofectamine 2000转染约70％汇合度的细胞。根据制造商的方案，使用CellTiter-Glo2.0测定(Promega)在转染后每隔24小时测量一次细胞活力，持续3天。使用M1000 Pro酶标仪(Tecan)在96孔平底聚苯乙烯微孔板(Corning)中测量发光，积分时间为1秒。

慢病毒生产

如先前所述²⁰⁶生产慢病毒。根据制造商的说明，使用FuGENE HD(Promega,Madison,WI，USA)用慢病毒生产辅助质粒pVSV-G和psPAX2结合携带内含肽断裂PE2编辑器的经修饰lentiCRISPR_v2基因组转染快速分裂的HEK293T细胞(ATCC；Manassas,VA,USA)的T75细胞培养瓶。设计四种断裂内含肽编辑器构建体：1)编码U6-PEgRNA表达盒和与Npu N-内含肽、自切割P2A肽和GFP-KASH融合的Cas9 H840A切口酶的N端部分(1-573)的病毒基因组；2)编码与PE2的C端其余部分融合的Npu C-内含肽的病毒基因组；3)编码与Cas9的C端其余部分融合的Npu C-内含肽的病毒基因组，用作Cas9对照；以及4)DNMT1的切口产生性sgRNA。断裂内含肽介导反式剪接以连接PE2或Cas9的两个半部，而P2A GFP-KASH能够共同翻译产生核膜定位的GFP。48小时后，收集上清液，以500g离心5分钟去除细胞碎片，并使用0.45μm过滤器过滤。根据制造商的说明，使用PEG-it病毒沉淀溶液(System Biosciences,Palo Alto,CA,USA)浓缩过滤的上清液。使用原始培养基量的1％将所得沉淀重新悬浮于Opti-MEM(Thermo Fisher Scientific，Waltham，MA，USA)。将重悬的沉淀快速冷冻并在使用前于-80℃储存。

小鼠原代皮质神经元解剖和培养

从定时怀孕的C57BL/6小鼠(Charles River)收获E18.5分离的皮质培养物。在通过CO2实施安乐死后进行断头术从怀孕小鼠收获胚胎。在补充有青霉素/链霉素(LifeTechnologies)的冰冷Hibernate-E中解剖皮质帽(cap)。用冰冷Hibernate-E冲洗后，将组织用木瓜蛋白酶/DNase(Worthington/Sigma)于37℃消化8分钟。在补充有DNase的NBActiv4(BrainBits)中研磨组织。对细胞进行计数并以每孔100,000个细胞接种于24孔板。每周更换两次一半的培养基。

原代神经元和核分离中的引导编辑

在DIV1，15μL慢病毒添加10:10:1比例的N端:C端:切口产生性sgRNA。在DIV14，按照制造商的方案，使用EZ-PREP缓冲液(Sigma D8938)分离神经元核。所有步骤均在冰上或于4℃进行。从分离的培养物中去除培养基，并用冰冷PBS洗涤培养物。吸出PBS并用200μLEZ-PREP溶液更换。在冰上温育5分钟后，吸取越过孔表面的EZ-PREP以取出剩余细胞。将样品以500g离心5分钟，去除上清液。样品用200μL EZ-PREP洗涤，并再次以500g离心5分钟。将样品轻轻移入200μL冰冷的Nuclei Suspension缓冲液(NSB)中重悬，该缓冲液由1xPBS中的100μg/mLBSA和3.33μM Vybrant DyeCycle Ruby(Thermo Fisher)组成，然后以500g离心5分钟。去除上清液，将核重悬于100μL NSB中，并在Broad研究所流式细胞仪设备中使用MoFlo Astrios(Beckman Coulter)分选到100μL Agencourt DNAdvance裂解缓冲液中。根据制造商的Agencourt DNAdvance说明，纯化基因组DNA。

RNA测序和数据分析

用PRNP靶向或HEXA靶向性PEgRNA和PE2、PE2-dRT或Cas9 H840A切口酶共转染HEK293T细胞。转染后72小时，使用TRIzol试剂(Thermo Fisher)从细胞中收获总RNA，并利用RNeasy Mini试剂盒(Qiagen)纯化，包括柱上DNaseI处理。使用TruSeq链式总RNA文库制备试剂盒(Illumina)的rRNA去除方案从总RNA中去除核糖体，然后用RNAClean XP珠(Beckman Coulter)洗涤。按照制造商的方案，用SMARTer PrepX Apollo NGS文库制备系统(Takara)使用核糖耗尽的RNA制备测序文库。所得到的文库用2200TapeStation(AgilentTechnologies)可视化，使用Qubit dsDNA HS分析(Thermo Fisher)标准化，并用NextSeq550使用高输出v2流动槽(Illumina)测序为75-bp配对末端读段。Fastq文件使用bcl2fastq2版本2.20生成，并使用TrimGalore版本0.6.2(https://github.com/FelixKrueger/TrimGalore)修剪以去除低质量碱基、未配对序列和衔接子序列。使用RSEM版本1.3.1²⁰⁷将修剪后的读段与具有定制Cas9H840A基因条目的智人基因组组装GRCh¹⁴⁸进行比对。limma-voom²⁰⁸包用于标准化基因表达水平并利用批次效应校正进行差异表达分析。差异表达的基因以FDR校正的p值<0.05和倍数变化>2截止值命名，结果用R显示。

Clin Var分析

从NCBI下载Clin Var变体摘要(2019年7月15日访问)，其中包含的信息用于所有下游分析。所有报告的变体列表都通过等位基因ID过滤，以去除重复，并通过临床意义来限制对致病性变体的分析。致病性变体列表按变体类型顺序过滤，以计算插入、缺失等致病性变体的分数。基于报告的参考和替代等位基因，将单核苷酸变体(SNV)分为两类(转换和颠换)。未报告的参考或替代等位基因的SNV被排除在分析之外。

使用参考/替代等位基因、变体起始/终止位点或变体名称中的适当识别信息计算报告的插入、缺失和重复的长度。未报告任何上述信息的变体被排除在分析之外。通过确定参考和替代等位基因之间的最佳双序列比对中错配或缺口的数目，计算报告的indel(包括相对于参考基因组的插入和缺失的单个变体)的长度。使用GraphPad Prism8计算变体长度的频率分布。

数据可用性

高通量测序数据存入NCBI Sequence Read Archive数据库。编码PE1、PE2/PE3和PEgRNA表达载体的质粒可从Addgene获得。

代码可用性

用于定量PEgRNA支架插入的脚本在图60A至60B中提供。

补充信息：表格和序列

表1：HEK3、HEK4、EMX1和FANCF中靶和脱靶位点处引导编辑器、Cas9核酸酶、Cas9H840A切口酶和PE2-dRT的活性。PE2/PE3编辑显示为％引导编辑和％indel(在括号中)。显示Cas9、Cas9 H840A切口酶(nCas9)和PE2-dRT在先前表征的前四个脱靶位点^179,180处的％indel。sgRNA和PEgRNA序列可见于表3A至3R，图42A至42H标题下。所有值都是三个独立生物学重复的平均值。

表2A至2C：在体外实验使用的DNA寡核苷酸、PEgRNA和sgRNA序列。

表2A：DNA寡核苷酸

表2B：5′-延伸PEgRNA

表2C：3′-延伸PEgRNA

表3A至3R:哺乳动物细胞实验中使用的PEgRNA和sgRNA序列。所有序列以5′至3′方向显示。为了构建PEgRNA，在sgRNA支架的5′端添加如下所列的间隔区序列，并在sgRNA支架的3′端添加如下所列的包含引物结合位点和RT模板的3′延伸。sgRNA支架序列为

GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGC(SEQ ID NO:131)

表3A:图39A至39D PEgRNA

表3B:图40A至40C PEgRNA

表3C:图40A至40C切口产生性sgRNA序列

切口产生性SGRNA	间隔区序列	SEQ ID NO:
			RNF2_2B_+41	GTCAACCATTAAGCAAAACAT	3122
RNF2_2B_+67	GTCTCAGGCTGTGCAGACAAA	3123
			EMX1_2B_-116	GGGGCACAGATGAGAAACTC	3124
EMX1_2B_-57	GCCGTTTGTACTTTGTCCTC	3125
			EMX1_2B_+14	GCGCCACCGGTTGATGTGAT	3126
EMX1_2B_+27	GCTTCGTGGCAATGCGCCAC	3127
			EMX1_2B_+53	GACATCGATGTCCTCCCCAT	3128
EMX1_2B_+80	GTGGTTGCCCACCCTAGTCAT	3129
			FANCF_2B_-78	GCGACTCTCTGCGTACTGAT	3130
FANCF_2B_-50	GCCCTACTTCCGCTTTCACCT	3131
			FANCF_2B_-27	GGATTCCATGAGGTGCGCGA	3132
FANCF_2B_-17	GCTGCAGAAGGGATTCCATG	3133
			FANCF_2B_+21	GCTTGAGACCGCCAGAAGCT	3134
FANCF_2B_+48	GGGGTCCCAGGTGCTGACGT	3135
			HEK3_2B_-108	GCAGAAATAGACTAATTGCA	3136
HEK3_2B_-38	GGATTGACCCAGGCCAGGGC	3137
			HEK3_2B_+26	GACGCCCTCTGGAGGAAGCA	3138
HEK3_2B_+37	GCTGTCCTGCGACGCCCTC	3139
			HEK3_2B_+63	GCACATACTAGCCCCTGTCT	3140
HEK3_2B_+90	GTCAACCAGTATCCCGGTGC	3141
			HEK4_2B_-95	TCCCTTCCTTCCACCCAGCC	3142
HEK4_2B_-51	CCCTGCCTGTCATCCTGCTT	3143
			HEK4_2B_-26	GCAGTGCCACCGGGGCGCCG	3144
HEK4_2B_+52	GCGGGGGCTCAGAGAGGGCA	3145
			HEK4_2B_+74	GAGACACACACACAGGCCTGG	3146
RNF2_2C_+41	GTCAACCATTAAGCAAAACAT	3147
			RNF2_2C_4ATOC_+5	GTGAGTTACAACGAACACCGC	3148
RNF2_2C_4ATOG_+5	GTGAGTTACAACGAACACCCC	3149
			FANCF_2C_+48	GGGGTCCCAGGTGCTGACGT	3150
FANCF_2C_5GTOT_+7	GAAGCTCGGAAAAGCGATCA	3151
			FANCF_2C_7ATOC_+7	GAAGCTCGGAAAAGCGAGCC	3152
HEK3_2C_+90	GTCAACCAGTATCCCGGTGC	3153

表3D：图41A至41K PEgRNA

图3E：图41A至41K切口产生性sgRNA

表3F:图42A至42H PEgRNA

表3G:图42A至42H切口产生性sgRNA

表3H:图42A至42H碱基编辑sgRNA

碱基编辑SGRNA	间隔区序列SEQUENCE
		HEK3_5A-F_BE	GTGCCATCACGTGCTCAGTCT(SEQ ID NO:455)
FANCF_5A-F_BE	GAGCGATCCAGGTGCTGCAGA(SEQ ID NO:456)
		EMX1_5A-F_BE	GGAGCCCTTCTTCTTCTGCT(SEQ ID NO:455)

表3I:图42A至42H中靶sgRNA

中靶SGRNA	间隔区序列
		HEK3_5G	GGCCCAGACTGAGCACGTGA(SEQ ID NO:510)
HEK4_5G	GGCACTGCGGCTGGAGGTGG(SEQ ID NO:511)
		EMX1_5G	GAGTCCGAGCAGAAGAAGAA(SEQ ID NO:512)
FANCF_5G	GGAATCCCTTCTGCAGCACC(SEQ ID NO:513)

表3J:图42A至42H中靶PEgRNA

表3K:图49A至49B PEgRNA

表3L：图47A至74D PEgRNA

表3M:图48A至48C PEgRNA

表3N：图48A至48C PEgRNA

表3O：图48A至48C切口产生性sgRNA

表3P：图50A至50B PEgRNA

表3Q：图50A至50B切口产生性sgRNA

表3R:图51A至51F PEgRNA

表4：哺乳动物细胞基因组DNA扩增和HTS中使用的引物序列¹⁸¹

表5：HDR实验和HBB E6V HEK293T细胞系创建中使用的100-mer单链DNA寡核苷酸供体模板序列。寡核苷酸长度为100-103nt，具有围绕编辑位点中心的同源臂。寡核苷酸来自Integrated DNA Technologies，经PAGE纯化。

其他序列

本文使用的酵母双荧光报告质粒序列

p425-GFP_终止_mCherry：

p425-GFP_+1fs_mCherry:

p425-GFP_-1fs_mCherry:

解释:

GFP开放阅读框

接头包含终止密码子+1移码或-1移码

mCherry开放阅读框

质粒骨架(包含GPD启动子，Leu2标志物和AmpR)

原间隔区(加下划线)

PAM(粗体)

哺乳动物引导编辑器质粒和示例PEgRNA质粒的DNA序列

pCMV-PE2:

N-端NLS+Cas9 H840A

柔性接头

M-MLV逆转录酶+C-端NLS

质粒骨架(包含CMV启动子和AmpR)

pU6-HEK3_PEgRNA_CTTins:

U6启动子序列

间隔区序列

sgRNA支架

3′延伸(包含PBS和RT模板)

骨架(包含AmpR)

pLenti-hSyn-N-PE2-NpuN-P2A-GFP-KASH_U6-DNMT1-PEgRNA:

U6启动子

PEgRNA

hSyn启动子

N-端PE2

N-端Npu

P2A-GFP-KASH

pLenti-hSyn-C-PE2-NpuC:

hSyn启动子

C-端Npu

C-端wtCas9

pLenti-U6-DNMT1_切口产生_sgRNA:

U6启动子

sgRNA

本文使用的莫洛尼小鼠白血病病毒逆转录酶(M-MLV RT)变体的氨基酸序列

PE1 M-MLV RT:

TLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFDEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGTAGFCRLWIPGFAEMAAPLYPLTKTGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLPDADHTWYTDGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAEGKKLNVYTDSRYAFATAHIHGEIYRRRGLLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRMADQAARKAAITETPDTSTLLIENSSP(SEQ ID NO:739)

M3 M-MLV RT(D200N,T330P,L603W)(参见Baranauskas et al.¹⁸²):

TLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGTAGFCRLWIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLPDADHTWYTDGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAEGKKLNVYTDSRYAFATAHIHGEIYRRRGWLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRMADQAARKAAITETPDTSTLLIENSSP(SEQ ID NO:740)

PE2 M-MLV RT(D200N,T306K,W313F,T330P,L603W):

TLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLPDADHTWYTDGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAEGKKLNVYTDSRYAFATAHIHGEIYRRRGWLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRMADQAARKAAITETPDTSTLLIENSSP(SEQ ID NO:741)

M3-deadRT M-MLV RT:

TLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKLPGTNDYSPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGTAGFCRLWIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLPDADHTWYTDGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAEGKKLNVYTDSRYAFATAHIHGEIYRRRGWLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRMADQAARKAAITETPDTSTLLIENSSP(SEQ ID NO:742)

实施例12的参考文献

实施例12中引用下列各参考文献，其各自通过引用并入本文。

1.Landrum,M.J.et al.ClinVar:public archive of interpretations ofclinically relevant variants.Nucleic Acids Res.44,D862–D868(2016).

2.Jinek,M.et al.A Programmable Dual-RNA–Guided DNA Endonuclease inAdaptive Bacterial Immunity.Science 337,816–821(2012).

3.Cong,L.et al.Multiplex Genome Engineering Using CRISPR/CasSystems.Science 339,819–823(2013).

4.Mali,P.et al.RNA-Guided Human Genome Engineering via Cas9.Science339,823–826(2013).

5.Yang,H.et al.One-Step Generation of Mice Carrying Reporter andConditional Alleles by CRISPR/Cas-Mediated Genome Engineering.Cell 154,1370–1379(2013).

6.Kim,S.,Kim,D.,Cho,S.W.,Kim,J.&Kim,J.-S.Highly efficient RNA-guidedgenome editing in human cells via delivery of purified Cas9ribonucleoproteins.Genome Res.24,1012–1019(2014).

7.Orlando,S.J.et al.Zinc-finger nuclease-driven targeted integrationinto mammalian genomes using donors with limited chromosomal homology.NucleicAcids Res.38,e152–e152(2010).

8.Tsai,S.Q.et al.GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPRCas nucleases.Nat.Biotechnol.33,187–197(2015).

9.Suzuki,K.et al.In vivo genome editing via CRISPR/Cas9mediatedhomology-independent targeted integration.Nature 540,144–149(2016).

10.Kosicki,M.,Tomberg,K.&Bradley,A.Repair of double-strand breaksinduced by CRISPR–Cas9 leads to large deletions and complex rearrangements.Nat.Biotechnol.36,765–771(2018).

11.Haapaniemi,E.,Botla,S.,Persson,J.,Schmierer,B.&Taipale,J.CRISPR–Cas9 genome editing induces a p53-mediated DNA damage response.Nat.Med.24,927–930(2018).

12.Ihry,R.J.et al.p53 inhibits CRISPR–Cas9 engineering in humanpluripotent stem cells.Nat.Med.24,939–946(2018).

13.Rouet,P.,Smih,F.&Jasin,M.Expression of a site-specificendonuclease stimulates homologous recombination in mammaliancells.Proc.Natl.Acad.Sci.91,6064–6068(1994).

14.Chapman,J.R.,Taylor,M.R.G.&Boulton,S.J.Playing the end game:DNAdouble-strand break repair pathway choice.Mol.Cell 47,497–510(2012).

15.Cox,D.B.T.,Platt,R.J.&Zhang,F.Therapeutic genome editing:prospectsand challenges.Nat.Med.21,121–131(2015).

16.Paquet,D.et al.Efficient introduction of specific homozygous andheterozygous mutations using CRISPR/Cas9.Nature 533,125–129(2016).

17.Chu,V.T.et al.Increasing the efficiency of homology-directedrepair for CRISPR-Cas9-induced precise gene editing in mammaliancells.Nat.Biotechnol.33,543–548(2015).

18.Maruyama,T.et al.Increasing the efficiency of precise genomeediting with CRISPR-Cas9 by inhibition of nonhomologous endjoining.Nat.Biotechnol.33,538–542(2015).

19.Rees,H.A.,Yeh,W.-H.&Liu,D.R.Development of hRad51–Cas9 nickasefusions that mediate HDR without double-stranded breaks.Nat.Commun.10,1–12(2019).

20.Shen,M.W.et al.Predictable and precise template-free CRISPRediting of pathogenic variants.Nature 563,646–651(2018).

21.Rees,H.A.&Liu,D.R.Base editing:precision chemistry on the genomeand transcriptome of living cells.Nat.Rev.Genet.19,770(2018).

22.Komor,A.C.,Kim,Y.B.,Packer,M.S.,Zuris,J.A.&Liu,D.R.Programmableediting of a target base in genomic DNA without double-stranded DNAcleavage.Nature 533,420–424(2016).

23.Gaudelli,N.M.et al.Programmable base editing of A·T to G·C ingenomic DNA without DNA cleavage.Nature 551,464–471(2017).

24.Gao,X.et al.Treatment of autosomal dominant hearing loss by invivo delivery of genome editing agents.Nature 553,217–221(2018).

25.Ingram,V.M.A specific chemical difference between the globins ofnormal human and sickle-cell anaemia haemoglobin.Nature 178,792–794(1956).

26.Myerowitz,R.&Costigan,F.C.The major defect in Ashkenazi Jews withTay-Sachs disease is an insertion in the gene for the alpha-chain of beta-hexosaminidase.J.Biol.Chem.263,18587–18589(1988).

27.Zielenski,J.Genotype and Phenotype in Cystic Fibrosis.Respiration67,117–133(2000).

28.Mead,S.et al.A Novel Protective Prion Protein Variant thatColocalizes with Kuru Exposure.N.Engl.J.Med.361,2056–2065(2009).

29.Marraffini,L.A.&Sontheimer,E.J.CRISPR interference limitshorizontal gene transfer in staphylococci by targeting DNA.Science 322,1843–1845(2008).

30.Barrangou,R.et al.CRISPR provides acquired resistance againstviruses in prokaryotes.Science 315,1709–1712(2007).

31.Jiang,F.&Doudna,J.A.CRISPR–Cas9 Structures andMechanisms.Annu.Rev.Biophys.46,505–529(2017).

32.Hille,F.et al.The Biology of CRISPR-Cas:Backward and Forward.Cell172,1239–1259(2018).

33.Luan,D.D.,Korman,M.H.,Jakubczak,J.L.&Eickbush,T.H.Reversetranscription of R2Bm RNA is primed by a nick at the chromosomal target site:a mechanism for non-LTR retrotransposition.Cell 72,595–605(1993).

34.Liu,Y.,Kao,H.-I.&Bambara,R.A.Flap endonuclease 1:a centralcomponent of DNA metabolism.Annu.Rev.Biochem.73,589–615(2004).

35.Richardson,C.D.,Ray,G.J.,DeWitt,M.A.,Curie,G.L.&Corn,J.E.Enhancinghomology directed genome editing by catalytically active and inactive CRISPR-Cas9 using asymmetric donor DNA.Nat.Biotechnol.34,339–344(2016).

36.Qi,L.S.et al.Repurposing CRISPR as an RNA-Guided Platform forSequence-Specific Control of Gene Expression.Cell 152,1173–1183(2013).

37.Shechner,D.M.,Hacisuleyman,E.,Younger,S.T.&Rinn,J.L.Multiplexable,locus-specific targeting of long RNAs with CRISPR-Display.Nat.Methods 12,664–670(2015).

38.Tang,W.,Hu,J.H.&Liu,D.R.Aptazyme-embedded guide RNAs enableligand-responsive genome editing and transcriptional activation.Nat.Commun.8,15939(2017).

39.Jinek,M.et al.Structures of Cas9 Endonucleases Reveal RNA-MediatedConformational Activation.Science 343,1247997(2014).

40.Nishimasu,H.et al.Crystal Structure of Cas9 in Complex with GuideRNA and Target DNA.Cell 156,935–949(2014).

41.Jiang,F.,Zhou,K.,Ma,L.,Gressel,S.&Doudna,J.A.A Cas9–guide RNAcomplex preorganized for target DNA recognition.Science 348,1477–1481(2015).

42.Baranauskas,A.et al.Generation and characterization of new highlythermostable and processive M-MuLV reverse transcriptase variants.ProteinEng.Des.Sel.25,657–668(2012).

43.Gerard,G.F.et al.The role of template-primer in protection ofreverse transcriptase from thermal inactivation.Nucleic Acids Res.30,3118–3129(2002).

44.Arezi,B.&Hogrefe,H.Novel mutations in Moloney Murine LeukemiaVirus reverse transcriptase increase thermostability through tighter bindingto template-primer.Nucleic Acids Res.37,473–481(2009).

45.Kotewicz,M.L.,Sampson,C.M.,D’Alessio,J.M.&Gerard,G.F.Isolation ofcloned Moloney murine leukemia virus reverse transcriptase lackingribonuclease H activity.Nucleic Acids Res.16,265–277(1988).

46.Thuronyi,B.W.et al.Continuous evolution of base editors withexpanded target compatibility and improved activity.Nat.Biotechnol.(2019).doi:10.1038/s41587-019-0193-0

47.Kim,Y.B.et al.Increasing the genome-targeting scope and precisionof base editing with engineered Cas9-cytidine deaminasefusions.Nat.Biotechnol.35,371–376(2017).

48.Koblan,L.W.et al.Improving cytidine and adenine base editors byexpression optimization and ancestral reconstruction.Nat.Biotechnol.(2018).doi:10.1038/nbt.4172

49.Kleinstiver,B.P.et al.High-fidelity CRISPR–Cas9 nucleases with nodetectable genome-wide off target effects.Nature 529,490–495(2016).

50.Zuo,E.et al.Cytosine base editor generates substantial off-targetsingle-nucleotide variants in mouse embryos.Science 364,289–292(2019).

51.Jin,S.et al.Cytosine,but not adenine,base editors induce genome-wide off-target mutations in rice.Science 364,292–295(2019).

52.Kim,D.,Kim,D.,Lee,G.,Cho,S.-I.&Kim,J.-S.Genome-wide targetspecificity of CRISPR RNA guided adenine base editors.Nat.Biotechnol.37,430–435(2019).

53.Grunewald,J.et al.Transcriptome-wide off-target RNA editinginduced by CRISPR-guided DNA base editors.Nature 569,433–437(2019).

54.Zhou,C.et al.Off-target RNA mutation induced by DNA base editingand its elimination by mutagenesis.Nature 571,275–278(2019).

55.Rees,H.A.,Wilson,C.,Doman,J.L.&Liu,D.R.Analysis and minimizationof cellular RNA editing by DNA adenine base editors.Sci.Adv.5,eaax5717(2019).

56.Ostertag,E.M.&Kazazian Jr,H.H.Biology of Mammalian L1 Retrotransposons.Annu.Rev.Genet.35,501–538(2001).

57.Griffiths,D.J.Endogenous retroviruses in the human genomesequence.Genome Biol.2,REVIEWS1017(2001).

58.Berkhout,B.,Jebbink,M.&Zsiros,J.Identification of an ActiveReverse Transcriptase Enzyme Encoded by a Human Endogenous HERV-KRetrovirus.J.Virol.73,2365–2375(1999).

59.Halvas,E.K.,Svarovskaia,E.S.&Pathak,V.K.Role of Murine LeukemiaVirus Reverse Transcriptase Deoxyribonucleoside Triphosphate-Binding Site inRetroviral Replication and In Vivo Fidelity.J.Virol.74,10349–10358(2000).

60.Dever,D.P.et al.CRISPR/Cas9 Beta-globin Gene Targeting in HumanHematopoietic Stem Cells.Nature 539,384–389(2016).

61.Park,S.H.et al.Highly efficient editing of theβ-globin gene inpatient-derived hematopoietic stem and progenitor cells to treat sickle celldisease.Nucleic Acids Res.doi:10.1093/nar/gkz475

62.Collinge,J.Prion diseases of humans and animals:their causes andmolecular basis.Annu.Rev.Neurosci.24,519–550(2001).

63.Asante,E.A.et al.A naturally occurring variant of the human prionprotein completely prevents prion disease.Nature 522,478–481(2015).

64.Zettler,J.,Schutz,V.&Mootz,H.D.The naturally split Npu DnaE inteinexhibits an extraordinarily high rate in the protein trans-splicingreaction.FEBS Lett.583,909–914(2009).

65.Kugler,S.,Kilic,E.&Bahr,M.Human synapsin 1gene promoter confershighly neuron-specific long-term transgene expression from an adenoviralvector in the adult rat brain depending on the transduced area.Gene Ther.10,337–347(2003).

66.de Felipe,P.,Hughes,L.E.,Ryan,M.D.&Brown,J.D.Co-translational,intraribosomal cleavageof polypeptides by the foot-and-mouth disease virus 2Apeptide.J.Biol.Chem.278,11441–11448(2003).

实施例13-通过PE进行细胞数据记录和谱系追踪

背景

基因组修饰可用于研究和记录细胞过程和发育。将细胞事件(如，细胞分裂或信号传导级联激活)与DNA序列修饰联系起来，使细胞历史存储为可解释的DNA序列变化，这些变化将描述是否发生了特定的细胞事件。DNA编辑对于这些应用是必要的，因为DNA以RNA和蛋白没有的方式忠实地从一个细胞传递到另一个细胞。当对短寿命蛋白和RNA分子进行修饰时，与细胞状态和谱系相关的信息通常会丢失。记录单细胞内的细胞事件是了解疾病状态相对于健康对照如何开始、维持和改变的有力方式。探究这些问题的能力对于理解癌症、神经系统疾病和人类健康中的许多其他重要问题的发展具有重要意义。引导编辑(PE)提供了用于创建靶向和序列指定的基因组插入、缺失或突变的系统。通过靶向扩增子测序和/或RNA测序(这对单细胞记录实验具有特殊价值)可对DNA靶标进行重复修饰，可用于记录许多重要的生物过程，包括激活信号传导级联、代谢状态和细胞分化程序。理论上，将内部和外部细胞信号与基因组中的序列修饰相联系，对于存在信号响应启动子的任何信号都是可能的。认为PE为在培养条件中和体内探究真核细胞和原核细胞的细胞谱系和信号传导历史开启了巨大的扩展工具包。

先前的标准

靶向序列插入、缺失或突变可用于研究许多重要的生物学问题，包括谱系追踪和细胞刺激的记录。当前用于在基因组中生成这些签名的工具包是有限的。迄今为止，已使用DNA核酸酶和碱基编辑器开发靶基因座的诱变。

靶序列的CRISPR/Cas9核酸酶切割产生随机序列变化，从而产生大量插入或缺失(indel)产物。自Cas9切割产生的大量序列结果允许清楚确定已被核酸酶切割的序列。区分切割序列相比于非切割序列的能力已经以两种主要方式使用。

第一种，Cas9核酸酶和/或其单一向导RNA(sgRNA)的表达已经与细胞信号传导联系。此外，已记录该信号是否已基于对Cas9靶向基因组基因座的序列修饰而发生。然而，这种方法是受限制，因为每个信号都需要独特的靶基因座，这使得追踪多个信号传导的相对时机变得难以解释。这种方法的另一个限制是特定sgRNA期望多个靶基因座，因为indel的产生通常严重阻碍靶基因座的其他诱变；这通常意味着预先工程化改造的靶基因座整合至细胞中进行编辑，而不是直接诱变内源性基因座。

第二种，已将Cas9 indel用于追踪细胞谱系。如本文所述，由Cas9核酸酶活性产生的大量可能的indel状态允许生成细胞发育树，表明哪些细胞已随时间彼此产生。该方法是了解细胞如何彼此产生的有力方法，并且已用于通过对选定的细胞库执行RNA测序来帮助鉴定整个发育时期的独特细胞状态和类型。该方法不能独立报告细胞信号传导事件及其顺序，并且在报告前体(pre-cursor)相比于终末分化细胞状态时可能存在偏倚。

Cas9核酸酶介导的谱系追踪和信号传导记录是强大的技术，其伴随着一些重要说明。利用Cas9核酸酶记录信号在技术上通常非常具有挑战性。Cas9切割耗尽靶基因座(一旦产生indel，重复切割就是难的)，使得难以在单细胞水平上记录长期刺激。尽管整合多个刺激的顺序、强度和持续时间的能力仍然是该工具可能无法实现的非常具有挑战性的技术问题，但可调整Cas9切割的动力学以实现更长期的记录事件。Cas9谱系追踪实验非常强大，但由于在靶基因座处同时发生Cas9切割遭受较小的序列瓦解(collapse)的技术挑战。这些谱系追踪实验需要编辑预先设计的靶基因座，限制了这种方法的灵活性。

还可将DNA碱基编辑用于追踪细胞信号传导事件。由于编辑事件生成的结果状态数量相对于Cas9 indel生成的状态数量较少，碱基编辑不太适合谱系追踪；然而，由碱基编辑器进行的序列修饰的预先定义性质对于跟踪内部和外部细胞刺激特别有用。如本文所述，碱基编辑器或sgRNA表达可与特定的生物或化学刺激相关联。碱基编辑活性已用于追踪哺乳动物和细菌细胞两者中的大量个别刺激。该方法还用于跟踪连续刺激，其中在第二编辑发生之前必须有第一编辑事件。

碱基编辑信号记录是该领域重要的第一步，但它有许多限制。一个此类限制是碱基编辑在编辑后耗尽其靶标，从而限制了该技术的动态范围。这意味着使用内源性靶标记录事件通常是难的，并且仅限于记录批量活动而不是单细胞水平的活动。对此的替代方法是引入预先设计的重复记录基因座，尽管迄今为止尚未执行这点。双信号记录也存在问题。这两个信号记录实验只报告第一个刺激之后第二个刺激的存在；它未报告哪个刺激首先发生或刺激存在多长时间。这在根本上限制了从实验中收集到的生物学理解。

提议PE谱系追踪可通过修饰基因组靶序列以及整合预先设计的序列来进行谱系追踪和细胞信号传导记录。PE使用合成融合蛋白以及工程化引导编辑向导RNA(PEgRNA)，所述融合蛋白包括Cas9切口酶片段(通常是SpCas9 H840A变体)和逆转录酶(RT)结构域。这些组件共同靶向特定基因组序列并安装预先确定的编辑。由于PEgRNA指定靶基因组序列和编辑结果两者，可在同一细胞内使用多个PEgRNA同时实现高度特异性和受控的基因组修饰。可达的基因组修饰包括所有单核苷酸取代、小至中等大小的序列插入和小至中等大小的序列缺失。这种基因组编辑技术的通用性应当实现在细胞内进行时序耦合的信号特异性记录。

PE谱系和细胞信号传导记录的效用

记录细胞信号传导可通过许多方式完成。该方法的一种重要的首次应用是将DNA修饰事件与细胞周期相关信号，如细胞周期蛋白、CDK或细胞寿命阶段的其他特异性蛋白的表达相联系，可形成细胞时钟。细胞时钟使研究人员能够了解个别细胞接收和处理的各种信号的顺序。分子钟还能够确定长期信号传导相比域短期信号传导爆发。使用只能编辑细胞周期一次的引导编辑组件也可导致分子钟。如果编辑只能处理细胞周期一次而没有持续的DNA修饰(也许通过不对非编辑DNA链产生切口)，那么可以想象只能在随后的细胞分裂中由第二靶向性PEsgRNA进行编辑的系统。PE作为细胞时钟特别有用，因为其可以预定方式重复插入、缺失或突变基因座，其中插入特别有价值，因为可在任何靶基因组基因座进行重复的规律插入。

与记录细胞信号传导相关的另一种重要应用是平行记录大量细胞输入。将细胞信号传导事件与DNA修饰相联系使得能够记录这类信号传导事件是否发生。与基于Cas9核酸酶或基于碱基编辑的记录系统类似，细胞事件的记录可与gRNA或编辑器表达栓系在一起。与这些其他方法不同，谱系引导编辑应当能够记录信号传导事件的顺序、强度和持续时间，而不需要严格的序列基序进行有序编辑。实际上，谱系引导编辑应当能够将上述细胞计数器与信号特异性插入、缺失或突变相联系，以研究生物信号的顺序、强度和持续时间。由于引导编辑的可编程性质，该方法可在预先存在于感兴趣的靶细胞(无论这是在细菌、小鼠、大鼠、猴、猪、人、斑马鱼、秀丽隐杆线虫等中)的基因组基因座处实现。也重要的是注意到，引导编辑记录以向导RNA依赖性方式安装条形码，输入的数量限于具有可靠的信号特异性向导RNA表达盒的信号数量(由于将这些表达与RNA Pol II启动子的活性栓系在一起的能力，这应当非常高)。可记录信号的数量与所需PEgRNA的数量成线性比例。

PE也可用于追踪细胞谱系。重复序列修饰可用于生成独特的细胞条形码来跟踪个别细胞。条形码的阵列、其顺序和大小都可以用于以与Cas9核酸酶产生的大量indel状态互补的方式推断细胞谱系。

重复序列修饰的引导编辑方法

设想了使用引导编辑(PE)进行重复序列修饰的许多不同形式：DNA诱变；序列缺失；和序列插入。值得注意地，这些应用可用于预先存在的基因组DNA靶标或研究人员整合到靶细胞中的预先设计的DNA序列。连续序列修饰的这些技术对于记录信息和以连续方式设计或随机修饰靶基因座具有价值。连续靶向基因座修饰对于在各种宿主中生成变体文库特别有用。

重复序列突变可用于以迭代方式改变基因组DNA或预先设计的整合DNA序列，以报告细胞信号传导事件。在这种范例中，由PEgRNA活性安装的突变将对应于细胞信号的存在。这些点突变可安装连续编辑事件所需的PAM基序，以及与特定信号的存在相对应的点突变。该系统需要在使用前进行gRNA设计，因为每个连续的向导RNA都将使用新的原间隔区；然而，对于检测个别或少数特别感兴趣的刺激可能特别有力。这些突变的安装可能取决于个别生物刺激，或可能与标记细胞时间的一致细胞过程有关联。以下序列对应于SEQ ID NO:743、744、744和745。

另一种类似的PE向导RNA加强方法是靶序列的重复缺失。从靶基因座去除个别序列将允许通过损失DNA基序来重建信号传导事件的能力。设计缺失连续序列的PEgRNA使得能够追踪连续信号。这允许研究人员鉴定一个信号跟随另一个信号的示例，这会允许研究人员探究哪些信号事件以何种顺序发生。此类系统已使用CAMERA进行测试；然而，这需要预先选择具有独特序列要求的特定基因座。使用PE的连续序列缺失允许在个体细胞中平行记录成对事件，因为不需要特异性序列决定因素。这允许研究人员能够在任何感兴趣的靶细胞内以多路复用的方式探究成对的信号传导事件。以下序列对应于SEQ ID NO:746、747和748。

序列插入是追踪细胞信号传导事件的第三种方法。相比于诱变或缺失，该策略的一些变体对PEgRNA的依赖性更低。存在许多不同的插入策略——插入短序列、插入原间隔区、插入原间隔区和条形码、插入新的同源序列和插入带有条形码的同源序列。

插入短的重复序列是逐渐增加靶序列大小以测量细胞中时间通过的方法。在该系统中，插入5个或更多个核苷酸的重复序列可导致与时间通过或预定刺激的持续存在相关的重复扩增。谱系PE的基因座不可知性质再次实现平行追踪与离散生物信号相关的多个独特序列扩增。这应当能够测量个别细胞中跨越细胞时间的多个生物信号的强度。以下序列对应于SEQ ID NO:749、750和751。

插入不同的短序列以类似于缺失间隔的方式需要少量的PEgRNA。记录的信号数量和插入序列的大小将决定所需的PEgRNA组合的数量。在该系统中记录多个序列的一个挑战是各PEgRNA在插入其运送序列时的效率不同。

尽管技术挑战可能破坏这种方法的效率，但插入原间隔区作为细胞信号的指示物是有吸引力的。使用单个PEgRNA系统将具有挑战性，因为PEgRNA盒将成为其自身的底物，导致插入PEgRNA中，损害连续编辑的效率和保真度。对于两个或三个PEgRNA系统仍然存在同样的问题，因为每个向导都是另一个向导的底物，从而能够将其他序列插入向导盒本身中，这可能导致与错误信号相关的原间隔区的不适当插入。这些原间隔区插入系统也很难设想包含条形码序列。单个PEgRNA条码系统将简单地写入所使用的条形码，去除第一次编辑中存储的数据。多个向导系统再次受到插入其他PEgRNA表达构建体的影响，限制了其效用(尤其是在体内)。以下序列对应于SEQ ID NO:752、752、753、754、754、755和756。

插入同源序列(即，Cas9切口位点3′的序列)，尤其是具有相关条形码的同源序列，似乎是特别有用的谱系PE策略。该系统通过确保连续几轮编辑导致从PEgRNA盒中插入无法被同一细胞中的其他PEgRNA编辑事件修饰的条形码，避免了与原间隔区插入相关的问题。条形码编码系统是有价值的，因为多个条形码可与给定的刺激相关。该系统保留了大部分靶原间隔区，但改变了种子序列、PAM和下游相邻核苷酸。这使得多个信号能够连接到一个编辑基因座，而无需所使用的PEgRNA的大量重新设计。该策略将使得能够响应单个基因座处的大量细胞刺激(内部或外部)的多路复用条形码插入。它可记录与存在独特条形码(其可设计为具有多个N核苷酸以生成4^N个可能的条形码；即，5-nt条形码一次可实现记录4^5或1024个独特信号)一样多的信号的强度、持续时间和顺序。该系统可在体外和体内使用。

实施例13中引用的参考文献

以下参考文献各自通过引用并入本文。

1.Recording development with single cell dynamic lineagetracing.Aaron McKenna,James A.Gagnon.

2.Whole-organism lineage tracing by combinatorial and cumulativegenome editing.Mckenna et al.Science.2016Jul 29；353(6298):aaf7907.doi10.1126/science.aaf7907.Epub 2016May 26.

3.Molecular recording of mammalian embryogenesis.Chan etal.2019.Nature.Jun；570(7759):77-82.doi:10.1038/s41586-019-1184-5.Epub 2019May13.

实施例14-通过PE调控生物分子活性和/或定位

生物分子的亚细胞定位和修饰状态调控其活性。特定的生物学功能，如转录控制、细胞代谢和信号转导级联都精心编排在细胞内的特定位置中。因此，调节蛋白的细胞定位和修饰状态代表了治疗疾病的潜在治疗策略。已开发了一些现有疗法来改变靶蛋白的定位。例如，设计法呢基化抑制剂以防止重要致癌蛋白如KRAS的脂化和膜靶向。类似地，小分子诱导的靶蛋白泛素化将它们引导至蛋白酶体进行降解。将蛋白运输到这些和其他独特细胞区室的能力提供了改变许多生物过程的机会。本文提出使用引导编辑(PE)来安装遗传编码的控键，用于改变具有遗传编码信号的生物分子(如蛋白、脂质、糖和核酸)的修饰状态和亚细胞运输以达到治疗目的。

PE是基因组编辑技术，其使得能够将短DNA序列安装、缺失或置换至任何可被Cas9酶靶向的基因组基因座。使用该技术，原则上可安装或去除重要的DNA、RNA或蛋白编码序列，所述序列改变这些重要生物分子的活性。更具体地，引导编辑可用于安装改变生物分子的定位或修饰特性的基序或信号。一些示例包括修饰：蛋白氨基酸序列；用于翻译后修饰的基序；改变折叠或定位的RNA基序；以及安装改变周围DNA的局部染色质状态或结构的DNA序列。

PE介导的修饰的一种靶生物分子是DNA。可对DNA进行修饰以安装一些改变靶基因座可及性的DNA序列。染色质可及性控制基因转录输出。安装标记以募集染色质致密化酶应当减少邻近基因的转录输出，而安装与染色质开放相关的序列应当使区域更容易接近，进而增加转录。相比于目前可用的与不同表观遗传读取因子(reader)、写入因子(writer)或擦除因子(eraser)酶(通常安装大量单一类型的标记的工具，所述标记可以没有特定的生物学前因)的dCas9融合物，安装反映天然调控序列的更复杂的序列基序应当提供更细微且生物敏感的控制。安装使两个基因座靠近或使基因座与核膜接触的序列也应当改变那些基因座的转录输出，正如在新兴的3-D基因组结构领域中所证明的那样。

也可对RNA进行修饰，通过改变其细胞定位、相互作用的伴侣、结构动力学或折叠热力学来改变活性。安装导致翻译暂停或移码的基序可通过不同mRNA加工机制改变mRNA种类的丰度。修饰共有剪接序列也会改变不同RNA种类的丰度和流行。改变不同剪接同种型的相对比例会可预测地导致蛋白翻译产物比例的变化，并且这可用于改变许多生物学途径。例如，改变线粒体相比于核DNA修复蛋白的平衡会改变不同癌症对化疗试剂的抗性。此外，RNA修饰为具有实现结合新蛋白靶标的序列。已开发了许多与细胞蛋白以高亲和力结合的RNA适体。安装这些适体之一可用于通过与蛋白靶标结合来隔离不同的RNA种类，这会阻止其翻译、生物活性，或将RNA种类带到特定的亚细胞区室。生物分子降解是另一类定位修饰。例如，RNA甲基化用于调节细胞内的RNA。利用PE可将甲基化的共有基序引入靶RNA编码序列中。还可修饰RNA以包括引导无义介导的衰变机制或其他核酸代谢途径来降解靶RNA种类的序列，这将改变细胞中的RNA池。此外，可修饰RNA种类以改变其聚集状态。序列可安装在感兴趣的单个RNA或多个RNA上，以产生使它们成为翻译或信号传导的无效底物的RNA缠结。

通过翻译后修饰(PTM)对蛋白的修饰也代表可用PE进行的一类重要的生物分子操作。与RNA种类一样，改变细胞中蛋白的丰度是PE的重要能力。可进行编辑以在开放阅读框中安装终止密码子——这将消除全长产物，免于由编辑的DNA序列产生。或者，可安装导致靶蛋白的蛋白降解速率发生变化的肽基序。将降解标签安装到基因体中可用于改变细胞中蛋白的丰度。此外，引入由小分子诱导的蛋白降解子(degron)可实现对蛋白降解的时序控制。这对研究和治疗学都有重要意义，因为研究人员可很容易地评估给定靶标的小分子介导的治疗性蛋白降解是否是可行的治疗策略。也可安装蛋白基序来改变蛋白的亚细胞定位。可安装氨基酸基序以优先将蛋白运输至许多亚细胞区室，包括细胞核、线粒体、细胞膜、过氧化物酶体、溶酶体、蛋白酶体、外泌体等。

安装或破坏由PTM机制修饰的基序可改变蛋白的翻译后修饰。已鉴定了磷酸化、泛素化、糖基化、脂化(如，法呢基化、肉豆蔻酰化、棕榈酰化、异戊二烯化、GPI锚)、羟基化、甲基化、乙酰化、巴豆酰化、SUMO化(SUMOylation)、二硫键形成、侧链键裂解事件、多肽骨架裂解事件(蛋白水解)和许多其他蛋白PTM。这些PTM通常通过改变亚细胞定位来改变蛋白功能。事实上，激酶通常通过磷酸化事件激活下游信号级联。去除靶磷酸位点会阻止信号转导。在保留全长蛋白表达的情况下对任何PTM基序进行位点特异性切除或安装的能力是基础研究和治疗学的重要进步。PE的序列安装范围和靶窗口使其非常适合于广泛的PTM修饰空间。

脂化位点的去除应当防止蛋白向细胞膜的运输。靶向翻译后修饰过程的当前疗法的主要限制是其特异性。已广泛测试法呢基转移酶抑制剂消除KRAS在细胞膜定位的能力。不幸地，整体抑制法呢基化伴随着许多阻止这些小分子广泛应用的脱靶效应。类似地，由于人类基因组的大尺寸和各种激酶之间的相似性，利用小分子特异性抑制蛋白激酶可能非常具有挑战性。PE为这个特异性问题提供了潜在的解决方案，因为其使得能够通过切除修饰位点而不是整体酶抑制来抑制靶蛋白的修饰。例如，去除KRAS中脂化的肽基序是可用于代替法呢基转移酶抑制的靶向方法。这种方法是通过在未设计为膜结合的蛋白上安装脂质靶向基序来抑制靶蛋白活性相反的功能。

PE也可用于引发蛋白-蛋白复合事件。蛋白通常在复合物内发挥功能以执行其生物活性。PE可用于创建或破坏蛋白在这些复合物中存在的能力。为了消除复合物形成事件，沿着蛋白:蛋白界面可安装氨基酸取代或插入来不利于复合。SSX18是BAF复合物(重要的组蛋白重构复合物)的蛋白组分。SSX18中的突变驱动滑膜肉瘤。PE可用于安装侧链，其防止SSX18与复合物中的蛋白伴侣结合来防止其致癌活性。PE也可用于去除致病性突变以恢复该蛋白的WT活性。或者，PE可用于将蛋白保持在其天然复合物中，或拖动它们参与与其天然活性无关的相互作用来抑制其活性。形成保持一种相互作用状态而不是另一种相互作用状态的复合物可代表重要的治疗方式。改变蛋白:蛋白界面以降低相互作用的Kd，使那些蛋白彼此粘连更长时间。由于蛋白复合物可具有多种信号传导复合物如n-myc，在疾病中驱动成神经细胞瘤信号传导级联，但在其他细胞中在其它情况下参与健康的转录控制。PE可用于安装驱动n-myc与健康相互作用配偶体的缔合并降低其对致癌相互作用配偶体的亲和力的突变。

实施例14中引用的参考文献

以下各参考文献通过引用并入本文。

3.Ribosomal frameshifting and transcriptional slippage:From geneticsteganography and cryptography to adventitious use.Atkins et al.Nucleic AcidsResearch,Volume 44,Issue 15,6September 2016,Pages 7007–7078.

7.Post-transcriptional gene regulation by mRNA modifications.Zhao etal.Nature Reviews Molecular Cell Biology volume18,pages31-42(2017).

实施例15-PEgRNA的设计和工程化改造

本文描述了一系列可提高引导编辑(PE)效率的PEgRNA设计和策略。

引导编辑(PE)是可使用引导编辑向导RNA(PEgRNA)中编码的信息置换、插入或去除靶向遗传基因座内的特定DNA序列的基因组编辑技术。引导编辑器(PE)由与逆转录酶(RT)融合的具有核酸酶活性(Cas9)的序列可编程DNA结合蛋白组成。PE与PEgRNA形成复合物，所述PEgRNA包含靶向在其间隔区序列内的特定DNA基因座的信息，以及指定对标准sgRNA支架中构建的工程化延伸中的期望编辑的信息。PE:PEgRNA复合物结合并切开编程的靶DNA基因座，允许有切口的DNA链与PEgRNA的工程化引物结合序列(PBS)杂交。然后，使用有切口的基因组DNA作为DNA聚合的引物，逆转录酶结构域在PEgRNA的RT模板部分内拷贝编辑编码信息。随后的DNA修复过程将新合成的编辑的DNA链掺入基因组基因座中。虽然引导编辑的多功能性作为研究工具和潜在疗法具有很大的前景，但由于编辑所需的多步骤过程，在效率和范围方面存在一些限制。例如，在PEgRNA内形成的不利RNA结构可抑制DNA编辑从PEgRNA拷贝到基因组基因座。改进PE技术的一种潜在方法是通过重新设计和工程化改造关键的PEgRNA组件。改进这些PEgRNA的设计可能是提高PE效率所必需的，并且能够将更长的插入序列安装到基因组中。

本文描述了一系列预计提高PE功效的PEgRNA设计。这些设计利用了许多先前发表的方法来提高sgRNA的功效和/或稳定性，并利用了许多新的策略。这些改进可属于许多不同类别中的一个或多个：

(1)更长的PEgRNA。该类别涉及改进的设计，所述设计使得能够从非聚合酶III(pol III)启动子中有效表达功能性PEgRNA，该启动子使得更长的PEgRNA能够表达而无需繁重的序列要求；

(2)核心改进。该类别涉及对核心，Cas9结合PEgRNA支架的改进，其可提高功效；

(3)RT持续合成能力。该类别涉及提高RT持续合成能力的对PEgRNA的修饰，使得能够在靶向基因组基因座处插入更长的序列；和

(4)末端基序。该类别涉及在PEgRNA的5′和/或3′端添加RNA基序，其提高PEgRNA稳定性、增强RT持续合成能力、防止PEgRNA错误折叠或募集对基因组编辑重要的其他因素。

本文描述了每个类别中的许多潜在的此类PEgRNA设计。先前已描述了用于利用Cas9提高sgRNA活性的这些设计中的一些，并且如此表明。本文还描述了用于给定序列靶标的PEgRNA进化的平台，该平台使得能够改进PEgRNA支架并增强PE活性(5)。值得注意地，这些设计也易于应用于改进由任何Cas9或其进化变体识别的PEgRNA。

(1)更长的PEgRNA

sgRNA通常由U6 snRNA启动子表达。该启动子募集pol III来表达相关RNA，并且可用于表达保留在细胞核内的短RNA。然而，pol III不是高度持续，并且无法以有效基因组编辑所需的水平表达长度超过几百个核苷酸的RNA¹⁸³。此外，pol III可在U的延伸处停止或终止，这可能会限制使用PEgRNA插入的序列多样性。已检测其他募集聚合酶II(如，pCMV)或聚合酶I(如，U1 snRNA启动子)的启动子表达更长sgRNA的能力¹⁸³。然而，这些启动子通常是部分转录的，这会产生表达的PEgRNA中的间隔区5′的额外序列，已经显示这以位点依赖性方式导致Cas9:sgRNA活性显著降低。此外，虽然pol III转录的PEgRNA可简单地在6-7个U的段中终止，但从pol II或pol I转录的PEgRNA需要不同的终止信号。通常，这类信号还会导致聚腺苷酸化，从而导致从细胞核中非期望的转运PEgRNA。类似地，由诸如pCMV的pol II启动子表达的RNA通常是5′-加帽的，也导致它们的核输出。

此前，Rinn和同事筛选了用于生产长的非编码RNA(lncRNA)标签化的sgRNA的多种表达平台¹⁸³。这些平台包括如下的RNA，其由pCMV表达并且终止于来自人的MALAT1 ncRNA的ENE元件¹⁸⁴、来自KSHV的PANENE元件¹⁸⁵或来自U1 snRNA的3′框¹⁸⁶。值得注意地，MALAT1ncRNA和PAN ENE形成三螺旋保护性poly A尾^184、187。预期除了能够表达RNA外，这些构建体还可增强RNA稳定性(参见部分iv)。还探索了使用来自U1 snRNA的启动子来实现这些更长的sgRNAs的表达¹⁸³。预期这些表达系统也能够表达更长的PEgRNA。此外，还设计了一系列方法来切割将作为PEgRNA一部分转录的pol II启动子部分，添加自切割核酶，如锤头型¹⁸⁸、手枪型¹⁸⁹、斧头型¹⁸⁹、发夹型¹⁹⁰、VS¹⁹¹、twister¹⁹²或twister sister¹⁹²核酶，或加工转录的向导物的其他自切割元件，或由Csy4识别并且也导致向导物的加工的发夹¹⁹³。此外，假设掺入多个ENE基序可提高PEgRNA的表达和稳定性，如先前对KSHV PAN RNA和元件所证明¹⁸⁵。还预期以环状内含子RNA(ciRNA)的形式环化PEgRNA也可导致增强的RNA表达和稳定性，以及核定位¹⁹⁴。

由pCMV、Csy4发卡、PEgRNA和MALAT1 ENE组成的PEgRNA表达平台

TAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCGTTCACTGCCGTATAGGCAGGGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGTTTTAGGGTCATGAAGGTTTTTCTTTTCCTGAGAAAACAACACGTATTGTTTTCTCAGGTTTTGCTTTTTGGCCTTTTTCTAGCTTAAAAAAAAAAAAAGCAAAAGATGCTGGTGGTTGGCACTCCTGGTTTCCAGGACGGGGTTCAAATCCCTGCGGCGTCTTTGCTTTGACT(SEQ ID NO:757)

由pCMV、Csy4发卡、PEgRNA和PAN ENE组成的PEgRNA表达平台

TAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCGTTCACTGCCGTATAGGCAGGGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGTTTTGTTTTGGCTGGGTTTTTCCTTGTTCGCACCGGACACCTCCAGTGACCAGACGGCAAGGTTTTTATCCCAGTGTATATTGGAAAAACATGTTATACTTTTGACAATTTAACGTGCCTAGAGCTCAAATTAAACTAATACCATAACGTAATGCAACTTACAACATAAATAAAGGTCAATGTTTAATCCATAAAAAAAAAAAAAAAAAAA(SEQ ID NO:758)

由pCMV、Csy4发卡、PEgRNA和3x PAN ENE组成的PEgRNA表达平台

TAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCGTTCACTGCCGTATAGGCAGGGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGTTTTGTTTTGGCTGGGTTTTTCCTTGTTCGCACCGGACACCTCCAGTGACCAGACGGCAAGGTTTTTATCCCAGTGTATATTGGAAAAACATGTTATACTTTTGACAATTTAACGTGCCTAGAGCTCAAATTAAACTAATACCATAACGTAATGCAACTTACAACATAAATAAAGGTCAATGTTTAATCCATAAAAAAAAAAAAAAAAAAAACACACTGTTTTGGCTGGGTTTTTCCTTGTTCGCACCGGACACCTCCAGTGACCAGACGGCAAGGTTTTTATCCCAGTGTATATTGGAAAAACATGTTATACTTTTGACAATTTAACGTGCCTAGAGCTCAAATTAAACTAATACCATAACGTAATGCAACTTACAACATAAATAAAGGTCAATGTTTAATCCATAAAAAAAAAAAAAAAAAAATCTCTCTGTTTTGGCTGGGTTTTTCCTTGTTCGCACCGGACACCTCCAGTGACCAGACGGCAAGGTTTTTATCCCAGTGTATATTGGAAAAACATGTTATACTTTTGACAATTTAACGTGCCTAGAGCTCAAATTAAACTAATACCATAACGTAATGCAACTTACAACATAAATAAAGGTCAATGTTTAATCCATAAAAAAAAAAAAAAAAAAA(SEQ ID NO:759)

由pCMV、Csy4发卡、PEgRNA和3′框组成的PEgRNA表达平台

TAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCGTTCACTGCCGTATAGGCAGGGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGTTTGTTTCAAAAGTAGACTGTACGCTAAGGGTCATATCTTTTTTTGTTTGGTTTGTGTCTTGGTTGGCGTCTTAAA(SEQ ID NO:760)

由pU1、Csy4发卡、PEgRNA和3′框组成的PEgRNA表达平台

CTAAGGACCAGCTTCTTTGGGAGAGAACAGACGCAGGGGCGGGAGGGAAAAAGGGAGAGGCAGACGTCACTTCCCCTTGGCGGCTCTGGCAGCAGATTGGTCGGTTGAGTGGCAGAAAGGCAGACGGGGACTGGGCAAGGCACTGTCGGTGACATCACGGACAGGGCGACTTCTATGTAGATGAGGCAGCGCAGAGGCTGCTGCTTCGCCACTTGCTGCTTCACCACGAAGGAGTTCCCGTGCCCTGGGAGCGGGTTCAGGACCGCTGATCGGAAGTGAGAATCCCAGCTGTGTGTCAGGGCTGGAAAGGGCTCGGGAGTGCGCGGGGCAAGTGACCGTGTGTGTAAAGAGTGAGGCGTATGAGGCTGTGTCGGGGCAGAGGCCCAAGATCTCAGTTCACTGCCGTATAGGCAGGGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGTTTCAGCAAGTTCAGAGAAATCTGAACTTGCTGGATTTTTGGAGCAGGGAGATGGAATAGGAGCTTGCTCCGTCCACTCCACGCATCGACCTGGTATTGCAGTACCTCCAGGAACGGTGCACCCACTTTCTGGAGTTTCAAAAGTAGACTGTACGCTAAGGGTCATATCTTTTTTTGTTTGGTTTGTGTCTTGGTTGGCGTCTTAAA(SEQ IDNO:761)

(2)核心改进

可能地，可以改进核心，Cas9结合PEgRNA支架以增强PE活性。已证明了几种这样的方法。例如，支架的第一配对元件(P1)包含GTTTT-AAA AC配对元件。已证明此类T段导致polIII暂停和RNA转录的过早终止。已证明在P1的这部分中T-A对之一至G-C对的合理突变增强sgRNA活性，表明该方法对于PEgRNA也会是可行的¹⁹⁵。此外，还表明增加P1的长度也可增强sgRNA折叠并导致提高的活性¹⁹⁵，表明它是提高PEgRNA活性的另一条途径。最后，可能的是通过给定DNA靶标上的PEgRNA定向进化来改进PEgRNA支架也会导致提高的活性。这描述于部分(v)中。

含有6nt延伸至P1的PEgRNA

GGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGCTCATGAAAATGAGCTAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGTTTTTTT(SEQID NO:228)

P1内含有T-A至G-C突变的PEgRNA

GGCCCAGACTGAGCACGTGAGTTTGAGAGCTAGAAATAGCAAGTTTAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGTTTTTTT(SEQ ID NO:229)

(iii)通过修饰PEgRNA的模板区域提高RT持续合成能力

随着由PEgRNA提供模板的插入尺寸增加，其更有可能被内切核酸酶降解，发生自发水解，或折叠成无法被RT逆转录或破坏PEgRNA支架折叠和后续Cas9-RT结合的二级结构。因此，可能需要对PEgRNA模板进行修饰才能影响大的插入，例如整个基因的插入。这样做的一些策略包括在合成或半合成的PEgRNA中掺入经修饰的核苷酸，其使RNA对降解或水解更具抗性，或者不太可能采用抑制性二级结构¹⁹⁶。这类修饰可包括8-氮杂-7-去氮杂鸟苷，其会减少富含G序列中的RNA二级结构；锁定核酸(LNA)，其减少降解并增强某些种类的RNA二级结构；增强RNA稳定性的2'-O-甲基、2'-氟或2'-O-甲氧基乙氧基修饰。这类修饰也可包含在PEgRNA的其他地方来增强稳定性和活性。可选择地或另外地，可设计PEgRNA的模板，使得其既编码期望的蛋白产物，也更可能采用能够由RT展开的简单二级结构。这类简单结构会充当热力学源(sink)，从而不太可能出现阻止逆转录的更复杂结构。最后，还可设想将模板分成两个独立的PEgRNA。在这样的设计中，将PE用于启动转录，并通过与Cas9融合的RNA结合蛋白或PEgRNA本身上的RNA识别元件(如，MS2适体)将单独的模板RNA募集到靶向位置。RT可直接结合到该单独的模板RNA，或在交换到第二模板之前在原始PEgRNA上启动逆转录。这种方法可通过防止添加长模板后PEgRNA的错误折叠以及还通过不需要为了发生长插入而将Cas9从基因组解离(其可能可以抑制基于PE的长插入)来实现长的插入。

(iv)在5′或3′端安装其他RNA基序

还可通过在RNA末端的任一端安装其他基序来改进PEgRNA设计。几种这类基序，例如来自KSHV的PAN ENE和来自MALAT1的ENE在前面部分(i)中讨论^184,185，作为终止来自非pol III启动子的较长PEgRNA表达的可能手段。这些元件形成吞没poly A尾的RNA三螺旋，导致它们保留在细胞核内^184,187。然而，通过在PEgRNA的3′端形成封闭末端核苷酸的复杂结构，这些结构也可能有助于防止外切核酸酶介导的PEgRNA降解。在3′端插入的附加结构元件也可增强RNA稳定性，尽管没有实现从非pol III启动子的终止。这类基序可能包括会封闭3′端的发夹或RNA四链体¹⁹⁷，或自切割核酶(如，HDV)，其会导致在3′端形成2'-3′-环状磷酸酯，并且还潜在使PEgRNA不太可能被外切核酸酶降解¹⁹⁸。通过不完全剪接诱导PEgRNA环化以形成ciRNA也可以增加PEgRNA稳定性并导致PEgRNA保留在细胞核内¹⁹⁴。

其他RNA基序也可通过增强RT与DNA-RNA双链体的结合来改进RT持续合成能力或增强PEgRNA活性。在其关联逆转录病毒基因组中添加由RT结合的天然序列可增强RT活性¹⁹⁹。这可包括天然引物结合位点(PBS)、聚嘌呤区(PPT)或涉及逆转录病毒基因组二聚化和转录起始的吻环。在PEgRNA的5′和3′端添加二聚化基序(如，吻环或GNRA四环/四环受体对²⁰⁰)也可导致PEgRNA的有效环化，提高稳定性。此外，预计添加这些基序使得能够物理分离PEgRNA间隔区和引物，防止会阻碍PE活性的间隔区闭塞。在间隔区中形成小立足点发夹的对PEgRNA的短5′延伸也可有利地竞争PEgRNA结合间隔区的退火区域。最后，吻环也可用于将其他模板RNA募集到基因组位点，并使得能够将RT活性从一种RNA交换到另一种(部分iii)。

PEgRNA-HDV融合物GGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCAAAGCGTGCTCAGTCTGGGCCGGCATGGTCCCAGCCTCCTCGCTGGCGCCGGCTGGGCAACATGCTTCGGCATGGCGAATGGGACTTTTTTT(SEQ IDNO:230)

PEgRNA-MMLV吻环

PEgRNA-VS核酶吻环

PEgRNA-GNRA四环/四环受体

PEgRNA模板切换二级RNA-HDV融合物

(v)PEgRNA的进化

可能的是PEgRNA支架可通过定向进化进一步改进，以类似于如何改进SpCas9和碱基编辑器(PE)的方式²⁰¹。定向进化可增强Cas9或进化的Cas9变体识别PEgRNA。此外，可能的是，不同PEgRNA支架序列在不同基因组基因座处会是最佳的，增强讨论的位点处的PE活性，减少脱靶活性或两者。最后，添加了其他RNA基序的PEgRNA支架的进化几乎肯定会提高融合PEgRNA相对于未进化的融合RNA的活性。例如，由c-di-GMP-I适体和锤头型核酶组成的变构核酶的进化导致活性显著提高²⁰²，表明进化也会提高锤头型-PEgRNA融合物的活性。此外，虽然Cas9目前通常不耐受sgRNA的5'延伸，但定向进化可能会产生减轻这种不耐受性的使能突变，从而允许利用其他RNA基序。

如本文所述，已描述了与Cas9:sgRNA复合物一起使用的许多这些方法，但尚未报道用于改进PEgRNA活性的设计。将可编程突变安装到基因组中的其他策略包括碱基编辑、同源定向重组(HDR)、精确微同源性介导的末端连接(MMEJ)或转座酶介导的编辑。然而，与PE相比时，所有这些方法都有明显的缺点。当前的碱基编辑器虽然比现有PE更有效，但只能安装某些类别的基因组突变，并可在感兴趣的位点处导致其他非期望的核苷酸转换。HDR仅适用于极少数细胞类型，并导致随机插入和缺失突变(indel)的相当高的比率。精确MMEJ可导致双链断裂的可预测修复，但主要限于安装缺失，非常依赖于位点，并且也可具有相当高的非期望indel比率。迄今为止，转座酶介导的编辑仅显示在细菌中发挥功能。因此，对PE的改进可能代表了治疗性校正广泛基因组突变的最佳途径。

实施例15中引用的参考文献

实施例15中引用的各参考文献，其各自通过引用并入本文。

1.Schechner,DM,Hacisuleyman E.,Younger ST,Rinn JL.Nat Methods 664-70(2015).

2.Brown JA,et al.Nat Struct Mol Biol 633-40(2014).

3.Conrad NA and Steitz JA.EMBO J 1831-41(2005).

4.Bartlett JS,et al.Proc Natl Acad Sci USA 8852-7(1996).

5.Mitton-Fry RM,DeGregorio SJ,Wang J,Steitz TA,Steitz JA.Science1244-7(2010).

6.Forster AC,Symons RH.Cell.1987.

7.Weinberg Z,Kim PB,Chen TH,Li S,Harris KA,Lünse CE,BreakerRR.Nat.Chem.Biol.

2015.

8.Feldstein PA,Buzayan JM,Bruening G.Gene 1989.

9.Saville BJ,Collins RA.Cell.1990.

10.Roth A,Weinberg Z,Chen AG,Kim PG,Ames TD,Breaker RR.Nat ChemBiol.2013.

11.Borchardt EK,et al.RNA 1921-30(2015).

12.Zhang Y,et al.Mol Cell 792-806(2013).

13.Dang Y,et al.Genome Biol 280(2015).

14.Schaefer M,Kapoor U,and Jantsch MF.Open Biol 170077(2017).

15.Nahar S,et al.Chem Comm 2377-80(2018).

16.Gao Y and Zhao Y.J Integr Plant Biol 343-9(2014).

17.Dubois N,Marquet R,Paillart J,Bernacchi S.Front Microbiol 527(2018).

18.Costa M and Michel F.EMBO J 1276-85(1995).

19.Hu JH,et al.Nature 57-63(2018).

20.Furukawa K,Gu H,Breaker RR.Methods Mol Biol 209-20(2014).

实施例16-使用除SPCAS9外的DNA结合蛋白扩展PE的靶范围

使用化脓性链球菌Cas9(SpCas9)的引导编辑(PE)可在基因组基因座有效安装所有单碱基替换、插入、缺失及其组合，该基因组基因座中存在SpCas9可有效结合的合适放置的NGG原间隔区邻近基序(PAM)。本文所述方法通过扩展可接近的PAM并由此扩展高效PE可接近的可靶向基因组基因座来拓宽PE的靶向能力。使用非SpCas9的RNA引导的DNA结合蛋白的引导编辑器通过允许接近不同PAM使得能够扩展基因组基因座的可靶向范围。此外，使用比SpCas9更小的RNA引导的DNA结合蛋白还允许更高效的病毒递送。具有Cas蛋白或超出SpCas9的其他RNA引导的DNA结合蛋白的PE将允许高效率治疗编辑，其是使用基于SpCas9的PE无法接近或效率低下的。

预期这将用于如下的情况，其中基于SpCas9的PE由于编辑相对于NGG PAM的间距不理想而效率低下，或者基于SpCas9的构建体的整体尺寸对于细胞表达和/或递送是禁止的。特定的疾病相关基因座如亨廷顿蛋白基因(其在靶区域附近针对SpCas9的NGG PAM很少且定位不佳)可使用PE系统中的不同Cas蛋白容易地定位，例如识别NGA PAM的SpCas9-VRQR。较小的Cas蛋白用于生成较小的PE构建体，这些构建体可更高效地包装至AAV载体中，使得能够更好地递送至靶组织。图61显示使用金黄色葡萄球菌CRISPR-Cas作为RNA引导的DNA结合蛋白进行引导编辑的缩图。NT是未处理的对照。

图62A至62B显示原间隔区对于在用引导编辑在精确位置处有效安装期望的编辑的重要性。这突出显示了替代PAM和原间隔区作为该技术的新特性的重要性。图62A中的“n.d.”为“未检测到”。

图63显示在引导编辑器系统中使用SpCas9(H840A)-VRQR和SpCas9(H840A)-VRER作为RNA引导的DNA结合蛋白进行PE的缩图。SpCas9(H840A)-VRQR napDNAbp在本文中公开为SEQ ID NO:87。SpCas9(H840A)-VRER napDNAbp在本文中公开为SEQ ID NO:88。SpCas9(H840A)-VRER-MMLVRT融合蛋白在本文中公开为SEQ ID NO:516，其中MMLV RT包含相对于野生型MMLV RT的D200N、L603W、T330P、T306K和W313F取代。SpCas9(H840A)-VRQR-MMLV RT融合蛋白在本文中公开为SEQ ID NO:515，其中MMLV RT包含相对于野生型MMLV RT的D200N、L603W、T330P、T306K和W313F取代。靶向人类基因组中的七个不同基因座：4个使用SpCas9(H840A)-VRQR-MMLV RT引导编辑器系统，3个使用SpCas9(H840A)-VRER-MMLV RT系统。测试的构建体氨基酸序列如下：

如图63所示，SpCas9(H840A)-VRQR-MMLV RT在包括“AGAG”和“GGAG”的PAM位点处是可操作的，在“GGAT”和“AGAT”PAM序列处具有一些编辑活性。SpCas9(H840A)-VRER-MMLVRT在包括“AGCG”和“GGCG”的PAM位点是可操作的，在“TGCG”处具有一些编辑活性。

数据表明，可使用具有不同PAM特异性的napDNAbps进行引导编辑，例如本文所述那些Cas9变体。

实施例17-利用PE引入重组酶靶位点

本实施例描述了在哺乳动物和其他基因组中通过使用引导编辑(PE)以高特异性和效率引入重组酶靶位点(SSR靶位点)来解决遗传性疾病或产生定制动物或植物模型的方法。

该实施例描述了使用PE在人或其他基因组中的高价值基因座处引入重组酶识别序列，其在暴露于位点特异性重组酶后将指导精确且有效的基因组修饰(图64)。在图64所示的不同实施方案中，PE可用于(b)插入单个SSR靶标，用作DNA供体模板基因组整合的位点。(c)显示如何可以使用串联插入SSR靶位点来缺失部分基因组。(d)显示如何可以使用串联插入SSR靶位点来倒置部分基因组。(e)显示如何可以在两个远端染色体区域插入两个SSR靶位点来导致染色体易位。(f)显示如何可以使用基因组中两个不同SSR靶位点的插入来交换来自DNA供体模板的盒。每种类型的基因组修饰都是通过使用PE插入SSR靶标来设想的，但该列表也不意味着是限制性的。

许多大规模基因组变化，如基因插入、缺失、倒置或染色体易位，都与遗传性疾病有关^1-7。此外，对真核基因组的定制和靶向操作对于研究人类疾病以及产生转基因植物^8、9或其他生物技术产品也是重要的。例如，染色体的微缺失会导致疾病，并且通过插入关键DNA元件来置换这些缺失可能会导致疾病的永久性改善。此外，由倒置、基因拷贝数变化或染色体易位引起的疾病可通过恢复受影响细胞中先前的基因结构来解决。或者，在工业中使用的植物或其他高价值真核生物中，引入重组DNA或靶向基因组重排可导致改进的产品，例如需要较少资源或对病原体具有抗性的作物。当前用于实现大规模基因组变化的技术依赖于随机或任意过程，例如使用转座子或逆转录病毒，而其他期望的基因组修饰只能通过同源重组策略来实现。

用于完成靶向和有效基因组修饰的一类有吸引力的蛋白是位点特异性重组酶(SSR)。SSR被用作基因组修饰工具的历史悠久^10-13。认为SSR是有前景的基因治疗工具，因为它们催化DNA片段在定义的重组靶标处精确切割、链交换和重新连接¹⁴，无需依赖于可诱导indel、易位、其他DNA重排或p53激活的双链断裂的内源性修复^15-18。SSR催化的反应可导致靶DNA片段的直接置换、插入或缺失，其效率超过同源定向修复的效率^14,19。

尽管SSR提供了许多优点，但它们并未广泛使用，因为它们对其关联靶序列具有强烈的先天偏好。SSR的识别序列通常≥20个碱基对，因此不太可能出现在人类或模式生物的基因组中。此外，即使有广泛的实验室工程或进化，SSR的天然底物偏好也不容易改变。通过使用PE将重组酶靶标直接引入基因组，或修饰与重组酶靶标天然相似的内源性基因组序列，克服此限制。随后细胞暴露于重组酶蛋白将允许由重组酶靶标的定位和定向引导的精确且高效的基因组修饰(图64)。

PE介导的重组酶靶标的引入对于治疗由大规模基因组缺陷引起的遗传性疾病特别有用，如基因丢失、倒置或重复，或染色体易位^1-7(表6)。例如，Williams-Beuren综合征是由染色体721中24的缺失引起的发育病症。目前尚无技术可用于将多个完整基因高效且靶向插入活细胞中(目前正在探索PE进行这种全长基因插入的潜力，但尚未证实)；然而，通过PE在靶标处插入的重组酶介导的整合提供了一种永久治愈这种疾病和其他疾病的方法。此外，靶向引入重组酶识别序列对于应用可以是高度使能的，所述应用包括产生转基因植物、动物研究模型、生物生产细胞系或其他定制真核细胞系。例如，在转基因植物中PE特异性靶标处重组酶介导的基因组重排可克服产生具有改进特性的农作物的瓶颈之一^8,9。

已表征了许多SSR家族成员并描述了它们的靶序列，包括天然和工程化酪氨酸重组酶(表7)、大型丝氨酸整合酶(表8)、丝氨酸解离酶(表9)和酪氨酸整合酶(表10))。针对几个SSR还描述了表明提高基因组整合率的经修饰的靶序列^22-30。除了天然重组酶外，还开发了具有不同特异性的可编程重组酶^31-40。使用PE，可将这些识别序列中的一个或多个引入基因组中的指定位置处，例如安全港基因座^41-43，取决于期望的应用，

例如，在基因组中引入单个重组酶靶标会导致与DNA供体模板的整合重组(图64b)。在人细胞中稳健运行的丝氨酸整合酶可能特别适合基因整合^44,45。此外，取决于靶标的身份和方向，引入两个重组酶靶标可导致间插序列的缺失、间插序列的倒置、染色体易位或盒交换(图64c-f)。通过选择已与重组酶靶标非常相似的内源性序列，引入完整重组酶靶标所需的编辑范围会减少。

最后，已证明几种重组酶可在天然存在的假位点(pseudosite)处整合至人或真核生物基因组中^46-64。PE编辑可用于修饰这些基因座，以提高这些天然假位点处的整合率，或者备选地消除可充当不需要的脱靶序列的假位点。

本报告描述了使用PE在真核基因组中引入重组酶靶序列的一般方法，其应用几乎是无限制的。基因组编辑反应旨在与“引导编辑器”一起使用，“引导编辑器”是CRISPR/Cas9蛋白和逆转录酶结构域的嵌合融合物，其利用定制的引导编辑向导RNA(PEgRNA)。通过延伸，还可利用Cas9工具和同源定向修复(HDR)途径，以通过使用几种技术降低indel率来经由DNA模板引入重组酶靶标^65-67。人细胞培养中的概念验证实验示于图65中。

表6.与大规模基因组修饰相关的遗传性疾病示例

表7.酪氨酸重组酶和SSR靶序列

表8.大型丝氨酸整合酶和SSR靶序列

表9.丝氨酸解离酶和SSR靶序列

表10.酪氨酸整合酶和靶序列

实施例17中引用的参考文献

以下是实施例17中引用的参考文献，其各自通过引用并入本文。

8.Wijnker,E.&de Jong,H.Managing meiotic recombination in plantbreeding.Trends Plant Sci 13,640-646(2008).

9.Petolino,J.F.,Srivastava,V.&Daniell,H.Editing Plant Genomes:a newera of crop improvement.Plant Biotechnol J 14,435-436(2016).

10.Smith,M.C.M.Phage-encoded Serine Integrases and Other Large SerineRecombinases.Microbiol Spectr 3(2015).

11.Meinke,G.,Bohm,A.,Hauber,J.,Pisabarro,M.T.&Buchholz,F.CreRecombinase and Other Tyrosine Recombinases.Chem Rev 116,12785-12820(2016).

12.Karpinski,J.et al.Directed evolution of a recombinase that excisesthe provirus of most HIV-1primary isolates with high specificity.NatBiotechnol 34,401-409(2016).

13.Olorunniji,F.J.,Rosser,S.J.&Stark,W.M.Site-specific recombinases:molecular machines for the Genetic Revolution.Biochem J 473,673-684(2016).

14.Grindley,N.D.,Whiteson,K.L.&Rice,P.A.Mechanisms of site-specificrecombination.Annu Rev Biochem 75,567-605(2006).

15.Lukacsovich,T.,Yang,D.&Waldman,A.S.Repair of a specific double-strand break generated within a mammalian chromosome by yeast endonuclease I-SceI.Nucleic Acids Res 22,5649-5657(1994).

16.Rouet,P.,Smih,F.&Jasin,M.Introduction of double-strand breaks intothe genome of mouse cells by expression of a rare-cutting endonuclease.MolCell Biol 14,8096-8106(1994).

17.Jeggo,P.A.DNA breakage and repair.Adv Genet 38,185-218(1998).

18.Haapaniemi,E.,Botla,S.,Persson,J.,Schmierer,B.&Taipale,J.CRISPR-Cas9 genome editing induces a p53-mediated DNA damage response.Nat Med 24,927-930(2018).

19.Wang,B.et al.Highly efficient CRISPR/HDR-mediated knock-in formouse embryonic stem cells and zygotes.Biotechniques 59,201-202,204,206-208(2015).

20.Bogdanove,A.J.,Bohm,A.,Miller,J.C.,Morgan,R.D.&Stoddard,B.L.Engineering altered protein-DNA recognition specificity.Nucleic Acids Res46,4845-4871(2018).

21.Tassabehji,M.Williams-Beuren syndrome:a challenge for genotype-phenotype correlations.Hum Mol Genet 12 Spec No 2,R229-237(2003).

22.Araki,K.,Araki,M.&Yamamura,K.Targeted integration of DNA usingmutant lox sites in embryonic stem cells.Nucleic Acids Res 25,868-872(1997).

23.Araki,K.,Okada,Y.,Araki,M.&Yamamura,K.Comparative analysis ofright element mutant lox sites on recombination efficiency in embryonic stemcells.BMC Biotechnol 10,29(2010).

24.Thomson,J.G.,Rucker,E.B.,3rd&Piedrahita,J.A.Mutational analysis ofloxP sites for efficient Cre-mediated insertion into genomic DNA.Genesis 36,162-167(2003).

25.Jusiak,B.et al.Comparison of Integrases Identifies Bxb1-GA Mutantas the Most Efficient Site-Specific Integrase System in Mammalian Cells.ACSSynth Biol 8,16-24(2019).

26.Xie,F.et al.Adjusting the attB site in donor plasmid improves theefficiency of PhiC31 integrase system.DNA Cell Biol 31,1335-1340(2012).

27.Gupta,M.,Till,R.&Smith,M.C.Sequences in attB that affect theability of phiC31 integrase to synapse and to activate DNA cleavage.NucleicAcids Res 35,3407-3419(2007).

28.Kolot,M.,Malchin,N.,Elias,A.,Gritsenko,N.&Yagil,E.Site promiscuityof coliphage HK022 integrase as tool for gene therapy.Gene Ther 22,602(2015).

29.Gaj,T.,Mercer,A.C.,Sirk,S.J.,Smith,H.L.&Barbas,C.F.,3rd Acomprehensive approach to zinc-finger recombinase customization enablesgenomic targeting in human cells.Nucleic Acids Res 41,3937-3946(2013).

30.Chuang,K.,Nguyen,E.,Sergeev,Y.&Badea,T.C.Novel Heterotypic RoxSites for Combinatorial Dre Recombination Strategies.G3(Bethesda)6,559-571(2015).

31.Chaikind,B.,Bessen,J.L.,Thompson,D.B.,Hu,J.H.&Liu,D.R.Aprogrammable Cas9-serine recombinase fusion protein that operates on DNAsequences in mammalian cells.Nucleic Acids Res 44,9758-9770(2016).

32.Gaj,T.,Mercer,A.C.,Gersbach,C.A.,Gordley,R.M.&Barbas,C.F.Structure-guided reprogramming of serine recombinase DNA sequencespecificity.P Natl Acad Sci USA 108,498-503(2011).

33.Gaj,T.,Sirk,S.J.&Barbas,C.F.,3rd Expanding the scope of site-specific recombinases for genetic and metabolic engineering.Biotechnol Bioeng111,1-15(2014).

34.Akopian,A.,He,J.,Boocock,M.R.&Stark,W.M.Chimeric recombinases withdesigned DNA sequence recognition.Proc Natl Acad Sci U S A 100,8688-8691(2003).

35.Prorocic,M.M.et al.Zinc-finger recombinase activities invitro.Nucleic Acids Research 39,9316-9328(2011).

36.Gersbach,C.A.,Gaj,T.,Gordley,R.M.,Mercer,A.C.&Barbas,C.F.Targetedplasmid integration into the human genome by an engineered zinc-fingerrecombinase.Nucleic Acids Research 39,7868-7878(2011).

37.Sirk,S.J.,Gaj,T.,Jonsson,A.,Mercer,A.C.&Barbas,C.F.Expanding thezinc-finger recombinase repertoire:directed evolution and mutational analysisof serine recombinase specificity determinants.Nucleic Acids Research 42,4755-4766(2014).

38.Gaj,T.&Barbas,C.F.,3rd Genome engineering with customrecombinases.Methods Enzymol 546,79-91(2014).

39.Olorunniji,F.J.,Rosser,S.J.&Marshall Stark,W.Purification and InVitro Characterization of Zinc Finger Recombinases.Methods Mol Biol 1642,229-245(2017).

40.Proudfoot,C.,McPherson,A.L.,Kolb,A.F.&Stark,W.M.Zinc fingerrecombinases with adaptable DNA sequence specificity.PLoS One 6,e19537(2011).

41.Irion,S.et al.Identification and targeting of the ROSA26 locus inhuman embryonic stem cells.Nat Biotechnol 25,1477-1482(2007).

42.Sadelain,M.,Papapetrou,E.P.&Bushman,F.D.Safe harbours for theintegration of new DNA in the human genome.Nat Rev Cancer 12,51-58(2012).

43.Pellenz,S.et al.New human chromosomal safe harbor sites for genomeengineering with CRISPR/Cas9,TAL effector and homing endonucleases.bioRxiv(2019).

44.Brown,W.R.,Lee,N.C.,Xu,Z.&Smith,M.C.Serine recombinases as toolsfor genome engineering.Methods 53,372-379(2011).

45.Xu,Z.et al.Accuracy and efficiency define Bxb1 integrase as thebest of fifteen candidate serine recombinases for the integration of DNA intothe human genome.BMC Biotechnol 13,87(2013).

46.Thyagarajan,B.,Guimaraes,M.J.,Groth,A.C.&Calos,M.P.Mammaliangenomes contain active recombinase recognition sites.Gene 244,47-54(2000).

47.Shultz,J.L.,Voziyanova,E.,Konieczka,J.H.&Voziyanov,Y.A genome-wideanalysis of FRT-like sequences in the human genome.PLoS One 6,e18077(2011).

48.Thyagarajan,B.,Olivares,E.C.,Hollis,R.P.,Ginsburg,D.S.&Calos,M.P.Site-specific genomic integration in mammalian cells mediated by phagephiC31 integrase.Mol Cell Biol 21,3926-3934(2001).

49.Sivalingam,J.et al.Biosafety assessment of site-directed transgeneintegration in human umbilical cord-lining cells.Mol Ther 18,1346-1356(2010).

50.Ortiz-Urda,S.et al.Stable nonviral genetic correction of inheritedhuman skin disease.Nat Med 8,1166-1170(2002).

51.Chalberg,T.W.et al.Integration specificity of phage phiC31integrase in the human genome.J Mol Biol 357,28-48(2006).

52.Thyagarajan,B.et al.Creation of engineered human embryonic stemcell lines using phiC31 integrase.Stem Cells 26,119-126(2008).

53.Olivares,E.C.et al.Site-specific genomic integration producestherapeutic Factor IX levels in mice.Nat Biotechnol 20,1124-1128(2002).

54.Hollis,R.P.et al.Phage integrases for the construction andmanipulation of transgenic mammals.Reprod Biol Endocrinol 1,79(2003).

55.Held,P.K.et al.In vivo correction of murine hereditary tyrosinemiatype I by phiC31 integrase-mediated gene delivery.Mol Ther 11,399-408(2005).

56.Ma,H.et al.PhiC31 integrase induces efficient site-specificrecombination in the Capra hircus genome.DNA Cell Biol 33,484-491(2014).

57.Bi,Y.et al.Pseudo attP sites in favor of transgene integration andexpression in cultured porcine cells identified by Streptomyces phage phiC31integrase.BMC Mol Biol 14,20(2013).

58.Ma,Q.W.et al.Identification of pseudo attP sites for phage phiC31integrase in bovine genome.Biochem Biophys Res Commun 345,984-988(2006).

59.Qu,L.et al.Global mapping of binding sites for phic31 integrase intransgenic maden-darby bovine kidney cells using ChIP-seq.Hereditas 156,3(2019).

60.Ghahfarokhi,M.K.,Dormiani,K.,Mohammadi,A.,Jafarpour,F.&Nasr-Esfahani,M.H.Blastocyst Formation Rate and Transgene Expression areAssociated with Gene Insertion into Safe and Non-Safe Harbors in the CattleGenome.Sci Rep 7,15432(2017).

61.Groth,A.C.,Fish,M.,Nusse,R.&Calos,M.P.Construction oftransgenicDrosophila by using the site-specific integrase from phagephiC31.Genetics 166,1775-1782(2004).

62.Chalberg,T.W.,Genise,H.L.,Vollrath,D.&Calos,M.P.phiC31 integraseconfers genomic integration and long-term transgene expression in ratretina.Invest Ophthalmol Vis Sci 46,2140-2146(2005).

63.Keravala,A.et al.A diversity of serine phage integrases mediatesite-specific recombination in mammalian cells.Mol Genet Genomics 276,135-146(2006).

64.Lei,X.,Wang,L.,Zhao,G.&Ding,X.Site-specificity of serine integrasedemonstrated by the attB sequence preference of BT1 integrase.FEBS Lett 592,1389-1399(2018).

65.Chu,V.T.et al.Increasing the efficiency of homology-directedrepair for CRISPR-Cas9-induced precise gene editing in mammalian cells.NatBiotechnol 33,543-548(2015).

66.Yu,C.et al.Small molecules enhance CRISPR genome editing inpluripotent stem cells.Cell Stem Cell 16,142-147(2015).

67.Paquet,D.et al.Efficient introduction of specific homozygous andheterozygous mutations using CRISPR/Cas9.Nature 533,125(2016).

68.Martsolf,J.T.et al.Complete trisomy 17p a relatively newsyndrome.Ann Genet 31,172-174(1988).

69.Bird,T.D.in GeneReviews((R)).(eds.M.P.Adam et al.)(Seattle(WA)；1993).

70.Smith,A.C.M.et al.in GeneReviews((R)).(eds.M.P.Adam et al.)(Seattle(WA)；1993).

71.Dupuy,O.et al.[De La Chapelle syndrome].Presse Med 30,369-372(2001).

72.Jyothy,A.et al.Translocation Down syndrome.Indian J Med Sci 56,122-126(2002).

73.Lakich,D.,Kazazian,H.H.,Jr.,Antonarakis,S.E.&Gitschier,J.Inversions disrupting the factor VIII gene are a common cause of severehaemophilia A.Nat Genet 5,236-241(1993).

74.Bondeson,M.L.et al.Inversion of the IDS gene resulting fromrecombination with IDS-related sequences is a common cause of the Huntersyndrome.Hum Mol Genet 4,615-621(1995).

75.Abremski,K.&Hoess,R.Bacteriophage P1 site-specificrecombination.Purification and properties of the Cre recombinase protein.JBiol Chem 259,1509-1514(1984).

76.Sauer,B.&McDermott,J.DNA recombination with a heterospecific Crehomolog identified from comparison of the pac-c1 regions of P1-relatedphages.Nucleic Acids Res 32,6086-6095(2004).

77.Suzuki,E.&Nakayama,M.VCre/VloxP and SCre/SloxP:new site-specificrecombination systems for genome engineering.Nucleic Acids Res 39,e49(2011).

78.Sadowski,P.D.The Flp recombinase of the 2-microns plasmid ofSaccharomyces cerevisiae.Prog Nucleic Acid Res Mol Biol 51,53-91(1995).

79.Nern,A.,Pfeiffer,B.D.,Svoboda,K.&Rubin,G.M.Multiple new site-specific recombinases for use in manipulating animal genomes.Proc Natl AcadSci U S A 108,14198-14203(2011).

80.Ringrose,L.,Angrand,P.O.&Stewart,A.F.The Kw recombinase,anintegrase from Kluyveromyces waltii.Eur J Biochem 248,903-912(1997).

81.Araki,H.et al.Site-specific recombinase,R,encoded by yeast plasmidpSR1.J Mol Biol 225,25-37(1992).

82.Blaisonneau,J.,Sor,F.,Cheret,G.,Yarrow,D.&Fukuhara,H.A circularplasmid from the yeast Torulaspora delbrueckii.Plasmid 38,202-209(1997).

83.Karimova,M.et al.Vika/vox,a novel efficient and specific Cre/loxP-like site-specific recombination system.Nucleic Acids Res 41,e37(2013).

84.Karimova,M.,Splith,V.,Karpinski,J.,Pisabarro,M.T.&Buchholz,F.Discovery of Nigri/nox and Panto/pox site-specific recombinase systemsfacilitates advanced genome engineering.Sci Rep 6,30130(2016).

85.Buchholz,F.&Stewart,A.F.Alteration of Cre recombinase sitespecificity by substrate-linked protein evolution.Nat Biotechnol 19,1047-1052(2001).

86.Santoro,S.W.&Schultz,P.G.Directed evolution of the sitespecificity of Cre recombinase.Proc Natl Acad Sci U S A 99,4185-4190(2002).

87.Sarkar,I.,Hauber,I.,Hauber,J.&Buchholz,F.HIV-1 proviral DNAexcision using an evolved recombinase.Science 316,1912-1915(2007).

88.Rufer,A.W.&Sauer,B.Non-contact positions impose site selectivityon Cre recombinase.Nucleic Acids Res 30,2764-2771(2002).

89.Kim,A.I.et al.Mycobacteriophage Bxb1 integrates into theMycobacterium smegmatis groEL1 gene.Mol Microbiol 50,463-473(2003).

90.Brown,D.P.,Idler,K.B.&Katz,L.Characterization of the geneticelements required for site-specific integration of plasmid pSE211 inSaccharopolyspora erythraea.J Bacteriol 172,1877-1888(1990).

91.Matsuura,M.et al.A GENE ESSENTIAL FOR THE SITE-SPECIFIC EXCISIONOF ACTINOPHAGE R4 PROPHAGE GENOME FROM THE CHROMOSOME OF ALYSOGEN.The Journalof General and Applied Microbiology 41,53-61(1995).

92.Gregory,M.A.,Till,R.&Smith,M.C.Integration site for Streptomycesphage phiBT1 and development of site-specific integrating vectors.J Bacteriol185,5320-5323(2003).

93.Yang,H.Y.,Kim,Y.W.&Chang,H.I.Construction of an integration-proficient vector based on the site-specific recombination mechanism ofenterococcal temperate phage phiFC1.J Bacteriol 184,1859-1864(2002).

94.Rashel,M.et al.A novel site-specific recombination system derivedfrom bacteriophage phiMR11.Biochem Biophys Res Commun 368,192-198(2008).

95.Christiansen,B.,Johnsen,M.G.,Stenby,E.,Vogensen,F.K.&Hammer,K.Characterization of the lactococcal temperate phage TP901-1 and its site-specific integration.J Bacteriol 176,1069-1076(1994).

96.Loessner,M.J.,Inman,R.B.,Lauer,P.&Calendar,R.Complete nucleotidesequence,molecular analysis and genome structure of bacteriophage A118 ofListeria monocytogenes:implications for phage evolution.Mol Microbiol 35,324-340(2000).

97.Lauer,P.,Chow,M.Y.,Loessner,M.J.,Portnoy,D.A.&Calendar,R.Construction,characterization,and use of two Listeria monocytogenes site-specific phage integration vectors.J Bacteriol 184,4177-4186(2002).

98.Bibb,L.A.,Hancox,M.I.&Hatfull,G.F.Integration and excision by thelarge serine recombinase phiRv1 integrase.Mol Microbiol 55,1896-1910(2005).

99.Canchaya,C.et al.Genome analysis of an inducible prophage andprophage remnants integrated in the Streptococcus pyogenes strainSF370.Virology 302,245-258(2002).

100.Morita,K.et al.The site-specific recombination system ofactinophage TG1.FEMS Microbiol Lett 297,234-240(2009).

101.Fouts,D.E.et al.Sequencing Bacillus anthracis typing phages gammaand cherry reveals a common ancestry.J Bacteriol 188,3402-3408(2006).

102.Kilcher,S.,Loessner,M.J.&Klumpp,J.Brochothrix thermosphactabacteriophages feature heterogeneous and highly mosaic genomes and utilizeunique prophage insertion sites.J Bacteriol 192,5441-5453(2010).

103.Lazarevic,V.et al.Nucleotide sequence of the Bacillus subtilistemperate bacteriophage SPbetac2.Microbiology 145(Pt 5),1055-1067(1999).

104.Fogg,P.C.M.,Haley,J.A.,Stark,W.M.&Smith,M.C.M.Genome Integrationand Excision by a New Streptomyces Bacteriophage,varphiJoe.Appl EnvironMicrobiol 83(2017).

105.Yang,L.et al.Permanent genetic memory with>1-byte capacity.NatMethods 11,1261-1266(2014).

106.Rutherford,K.,Yuan,P.,Perry,K.,Sharp,R.&Van Duyne,G.D.Attachmentsite recognition and regulation of directionality by the serineintegrases.Nucleic Acids Res 41,8341-8356(2013).

107.Singh,S.,Rockenbach,K.,Dedrick,R.M.,VanDemark,A.P.&Hatfull,G.F.Cross-talk between diverse serine integrases.J Mol Biol 426,318-331(2014).

108.Gupta,N.et al.Cross-talk between cognate and noncognate RpoEsigma factors and Zn(2+)-binding anti-sigma factors regulates photooxidativestress response in Azospirillum brasilense.Antioxid Redox Signal 20,42-59(2014).

109.Kahmann,R.,Rudt,F.,Koch,C.&Mertens,G.G inversion in bacteriophageMu DNA is stimulated by a site within the invertase gene and a hostfactor.Cell 41,771-780(1985).

110.Iida,S.,Meyer,J.,Kennedy,K.E.&Arber,W.A site-specific,conservative recombination system carried by bacteriophage P1.Mapping therecombinase gene cin and the cross-over sites cix for the inversion of the Csegment.EMBO J 1,1445-1453(1982).

111.Glasgow,A.C.,Bruist,M.F.&Simon,M.I.DNA-binding properties of theHin recombinase.J Biol Chem 264,10072-10082(1989).

112.Iida,S.et al.The Min DNA inversion enzyme of plasmid p15B ofEscherichia coli 15T-:a new member of the Din family of site-specificrecombinases.Mol Microbiol 4,991-997(1990).

113.Rowland,S.J.,Stark,W.M.&Boocock,M.R.Sin recombinase fromStaphylococcus aureus:synaptic complex architecture and transposontargeting.Mol Microbiol 44,607-619(2002).

114.Kolot,M.,Silberstein,N.&Yagil,E.Site-specific recombination inmammalian cells expressing the Int recombinase of bacteriophage HK022.MolBiol Rep 26,207-213(1999).

115.Cho,E.H.,Nam,C.E.,Alcaraz,R.,Jr.&Gardner,J.F.Site-specificrecombination of bacteriophage P22 does not require integration host factor.JBacteriol 181,4245-4249(1999).

116.Lee,M.H.,Pascopella,L.,Jacobs,W.R.,Jr.&Hatfull,G.F.Site-specificintegration of mycobacteriophage L5:integration-proficient vectors forMycobacterium smegmatis,Mycobacterium tuberculosis,and bacille Calmette-Guerin.Proc Natl Acad Sci U S A 88,3111-3115(1991).

实施例18-在引物结合位点(PBS)中掺入3′趾环提高PEgRNA活性

为了进一步提高PE活性，发明人考虑在具有3'延伸臂的PEgRNA的3'端添加趾环序列。图71A提供了具有3'延伸臂的通用SpCas9PEgRNA示例(上部分子)。继而，3′延伸臂包含RT模板(包含期望的编辑)和位于分子3′端的引物结合位点(PBS)。该分子以包含3个U核碱基(即，5′-UUU-3′)的poly(U)序列终止。

相反地，图71A的下部显示与图71A的上部相同的PEgRNA分子，但其中已在引物结合位点的3'端和末端poly(U)序列的5'端之间插入5'-GAAANNNNN-3'的9-核碱基序列。该结构自身向后折叠180°形成“趾环”RNA结构，其中9-核碱基插入的5′-NNNNN-3′序列与引物结合位点中的互补序列退火，其中5′-GAAA-3′部分形成180°转弯。图71A中描绘的趾环序列的特征并非旨在限制或缩小可在其位置中使用的可能的趾环范围。此外，趾环序列取决于引物结合位点的互补序列。本质上，然而，在不同实施方案中，趾环序列可具有形成180°的第一序列部分和具有与引物结合位点的一部分互补的序列的第二序列部分。

不受理论的束缚，认为趾环序列实现与其它情况下可能的PEgRNA相比具有越来越长的引物结合位点的PEgRNA的使用。继而，认为更长的PBS序列提高PE活性。PEgRNA。更具体地，趾环的可能功能是阻止或至少最小化PBS与间隔区的相互作用。PBS和间隔区之间的稳定发夹形成可导致无活性PEgRNA。如果没有趾环，这种相互作用可能需要限制PBS的长度。使用3'端趾环阻断或最小化间隔区和PBS之间的相互作用可导致PE活性的改善。

实施例19-利用替代核酸模板和编辑器蛋白结构的引导编辑

在本实施例之前，将引导编辑描述为需要PEgRNA。描述用于引导编辑的合适PEgRNA的可能构造的示例性实施方案描绘于图3A(具有5'延伸臂的PEgRNA)，图3B(具有3'延伸臂的PEgRNA)，图3C(内部延伸PEgRNA)，图3D(具有3'延伸臂的PEgRNA，其包含引物结合位点、编辑模板、同源臂和可选的3'和5'修饰区以及指示为DNA合成模板的区域)，以及图3E(具有5'延伸臂的PEgRNA，其包含引物结合位点、编辑模板、同源臂和可选的3'和5'修饰区以及指示为DNA合成模板的区域)。此外，PEgRNA结构和组成在本文的发明详述和全文中进行了广泛的描述。

本实施例描述了PEgRNA的其他设计变体——在某些情况下，在细胞外完全或部分化学合成的PEgRNA——其被设想与本说明书的引导编辑器一起起作用。这类替代设计可改进引导编辑的各方面，包括通过引导编辑插入更长的DNA序列、使用潜在以提高的效率和/或保真度起作用的替代聚合酶(即，逆转录酶的替代物)，以及使用或募集替代和/或额外引导编辑器蛋白效应物组件来提高或增强引导编辑。此外，使用化学合成的PEgRNA潜在可以产生更稳定的分子，并具有提高引导编辑效率和能力的期望特征。

PEgRNAPEgRNAPEgRNAA PEgRNA充当编码将待掺入靶位点中的期望的编辑遗传信息的核酸模板。一方面，如下创建sgRNA：通过对sgRNA的5'端或3'端添加延伸臂(如，如图3A、3B、3D或3E的实施方案所示)或通过内部插入sgRNA内的相似序列(如，如图3C的实施方案所示)，其中延伸臂包含能够通过聚合酶(如，逆转录酶)编码ssDNA产物且含有感兴趣的编辑遗传信息的DNA合成模板。延伸臂包含与napDNAbp产生切口的基因组DNA链退火的引物结合位点(PBS)和编码感兴趣的编辑DNA链的DNA合成模板，其通过置换对应的DNA链掺入内源性DNA靶位点中。PEgRNA可由质粒DNA或基因组整合的DNA盒在细胞内表达，或者它们可通过体外转录或通过化学合成在细胞外制备，随后递送至细胞。在细胞外制备PEgRNA(特别是通过化学合成)实质上提供了修饰PEgRNA的机会。本发明描述了引导编辑模板的替代设计(图72)。

(A)DNA合成模板，与向导RNA以分开的分子表达(即，DNA合成模板以反式向引导编辑器复合物(napDNAbp+向导RNA)提供)。

在本文所述的不同实施方案中，引导编辑利用充当可编程靶向分子和编辑编码分子两者的单个PEgRNA。该实施方案描述于图72(a)，其中PEgRNA具有3'延伸臂。然而，在某些情况下，这可以是不利的，特别是对于更复杂的PEgRNA分子，如那些编码大的插入的分子。这些RNA可包含干扰PEgRNA支架结构和与Cas9相互作用的广泛二级结构。或者，引导编辑可通过用两个单独RNA分子(sgRNA和反式引导编辑RNA模板(tPERT))替换PEgRNA来进行，如图72(b)所示。sgRNA用于将Cas9(或更一般地，napDNAbp)靶向到期望的基因组靶位点，而聚合酶(如，逆转录酶)使用tPERT将新的DNA序列写入靶基因座。

通常，与PEgRNA相比，tPERT的简单表达导致较低的编辑效率。然而，通过将一个或多个MS2 RNA适体引入tPERT RNA，以及将MS2外壳蛋白(MS2cp)融合至引导编辑器蛋白(以制备MS2cp-Cas9-RT)可提高反式引导编辑的效率。这允许MS2 RNA适体与MS2cp结合，从而将tPERT(其包含DNA合成模板)共定位至引导编辑器复合物的编辑位点。MS2适体优选放置在tPERT的3'端上以避免适体序列的逆转录。

虽然本实施例利用了MS2标签化技术(包括与融合至引导编辑器的MS2cp蛋白配对的tPERT上的MS2 RNA适体)，但在替代方案中可使用其他RNA-蛋白募集系统。在此设想的一般概念是，将tPERT的DNA合成模板修饰为包含RNA募集二级结构(如，如MS2适体的特化发夹)，以便tPERT可通过经修饰的引导编辑器融合蛋白募集，所述经修饰的引导编辑器进一步包含特异性识别并结合tPERT分子上的RNA募集第二结构的RNA结合蛋白。本领域描述了其他RNA-蛋白募集结构域的综述，例如Johansson et al.,“RNA recognition by the MS2phage coat protein,”Sem Virol.,1997,Vol.8(3):176-185；Delebecque et al.,“Organization of intracellular reactions with rationally designed RNAassemblies,”Science,2011,Vol.333:470-474；Mali et al.,“Cas9 transcriptionalactivators for target specificity screening and paired nickases forcooperative genome engineering,”Nat.Biotechnol.,2013,Vol.31:833-838；以及Zalatan et al.,“Engineering complex synthetic transcriptional programs withCRISPR RNA scaffolds,”Cell,2015,Vol.160:339-350，其各自通过引用以其整体并入本文。其他系统包括特异性募集PCP蛋白的PP7发夹和特异性募集Com蛋白的“com”发夹。参见Zalatan et al.。任何这些众所周知的募集系统都可与本文所述的反式引导编辑一起使用。

测试了本tPERT反式引导编辑系统的效率。使用包含单个3'MS2适体、13-nt引物结合位点和含有插入序列和与基因座具有同源性的34nt的RT模板的tPERT，以及包含与PE2的N端融合的MS2cp的编辑器，在HEK293T细胞的HEK3位点处实现His6插入(18bp)的高达20％效率。参见图73。反式引导编辑策略有解决与PEgRNAPEgRNA设计相关的影响的潜力，并且可以更适合于更长的RT模板，以在距引导编辑器切口位点更远的距离处实现更大的插入、缺失或编辑。

(B)化学合成的具有RNA和DNA合成模板的PEgRNA

在化学合成的PEgRNA中可使用替代的核酸模板(图72c)。例如，合成的PEgRNA可构建为RNA/DNA杂合体，其中间隔区序列和sgRNA支架由RNA核苷酸组成，并且引物结合位点和合成模板(在图72c中显示为3'延伸)由DNA核苷酸组成。这可允许使用DNA依赖性DNA聚合酶代替引导编辑器中的逆转录酶。它还可阻止由sgRNA支架序列提供模板的DNA合成。在其他设计中，由非提供模板的核苷酸或其他合适的接头部分组成的化学接头可用于将核酸编辑模板(由RNA或DNA组成)栓系到sgRNA支架。这可防止sgRNA支架的持续DNA聚合，并允许延伸中的灵活性，其允许更高效的模板化合成。最后，可反转核酸合成模板的方向性，使得DNA聚合远离sgRNA支架进行，与朝向它相反。

(C)反式表达的DNA聚合酶的募集

在引导编辑的主要实施方案中，将聚合酶(如，逆转录酶)表达为与napDNAbp(如，Cas9切口酶)的融合物。或者，可以反式表达聚合酶(如，逆转录酶)，并且其活性可使用募集系统如MS2 RNA适体和MS2外壳蛋白或本领域已知的其他类似募集系统定位于编辑位点。在该系统中，将PEgRNA修饰为在sgRNA支架发夹之一内包含MS2适体，并且聚合酶(如，逆转录酶)表达为与MS2cp的融合蛋白。napDNAbp(如，Cas9切口酶)还表达为独立的多肽。该系统已用野生型M-MLV逆转录酶证明(图74)，并且应当适用于其他RT变体。此外，其他RNA-蛋白相互作用或蛋白-蛋白相互作用可用于RT募集。

以下序列与实施例19相关：

tPERT的序列：

MS2适体/RT模板/PBS/接头

5’-MS2_13nt-PBS:

5’GCCAACATGAGGATCACCCATGTCTGCAGGGCCTGGAGGAAGCAGGGCTTCCTTTCCTCTGCCATCAATGATGGTGATGATGGTGCGTGCTCAGTCTG–3’(SEQ ID NO:762)

5’-MS2_17nt-PBS:

5’GCCAACATGAGGATCACCCATGTCTGCAGGGCCTGGAGGAAGCAGGGCTTCCTTTCCTCTGCCATCAATGATGGTGATGATGGTGCGTGCTCAGTCTGGGCC–3’(SEQ ID NO:773)

3’-MS2_13nt-PBS:

5’GGAGGAAGCAGGGCTTCCTTTCCTCTGCCATCAATGATGGTGATGATGGTGCGTGCTCAGTCTGAA ATTAACAAATCAAGCCAACATGAGGATCACCCATGTCTGCAGGGCC–3’(SEQ ID NO:774)

3’-MS2_17nt-PBS:

5’GGAGGAAGCAGGGCTTCCTTTCCTCTGCCATCAATGATGGTGATGATGGTGCGTGCTCAGTCTGGGCCAAATTAACAAATCAAGCCAACATGAGGATCACCCATGTCTGCAGGGCC–3’(SEQ ID NO:775)

MS2 PEgRNA的序列:

间隔区/MS2适体/sgRNA支架/RT模板/PBS

HEK3_MS2_1

5’GGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGGCCAACATGAGGATCACCCATGTCTGCAGGGCCTAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCCTCTGCCATCTCGTGCTCAGTCT–3’(SEQ ID NO:776)

HEK3_MS2_2

5’GGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGGCCAACATGAGGATCACCCATGTCTGCAGGGCCAAGTGGGACCGAGTCGGTCCTCTGCCATCTCGTGCTCAGTCT–3’(SEQ ID NO:777)

蛋白序列:

MS2cp-PE2

MKRTADGSEFESPKKKRKVGSASNFTQFVLVDNGGTGDVTVAPSNFANGVAEWISSNSRSQAYKVTCS VRQSSAQNRKYTIKVEVPKVATQTVGGEELPVAGWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIA ANSGIYSGGSSGGSSGSETPGTSESATPESSGGSSGGSSDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSTLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLPDADHTWYTDGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAEGKKLNVYTDSRYAFATAHIHGEIYRRRGWLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRMADQAARKAAITETPDTSTLLIENSSPSGGSKRTADGSEFEPKKKRKV(SEQ ID NO:778)

MS2cp-MMLV-RT

MKRTADGSEFESPKKKRKVGSASNFTQFVLVDNGGTGDVTVAPSNFANGVAEWISSNSRSQAYKVTCS VRQSSAQNRKYTIKVEVPKVATQTVGGEELPVAGWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIA ANSGIYSGGSSGGSSGSETPGTSESATPESSGGSSGGSSTLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFDEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGTAGFCRLWIPGFAEMAAPLYPLTKTGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLPDADHTWYTDGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAEGKKLNVYTDSRYAFATAHIHGEIYRRRGLLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRMADQAARKAAITETPDTSTLLIENSSPSGGSKRTADGSEFEPKKKRKV(SEQ ID NO:779)

MMLV-RT-MS2cp

MKRTADGSEFESPKKKRKVTLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFDEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGTAGFCRLWIPGFAEMAAPLYPLTKTGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLPDADHTWYTDGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAEGKKLNVYTDSRYAFATAHIHGEIYRRRGLLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRMADQAARKAAITETPDTSTLLIENSSPSGGSSGGSSGSETPGTSESATPESSGGSSGGSSGSASNFTQFVLVDNGGTGDVTVA PSNFANGVAEWISSNSRSQAYKVTCSVRQSSAQNRKYTIKVEVPKVATQTVGGEELPVAGWRSYLNMELTIPIFAT NSDCELIVKAMQGLLKDGNPIPSAIAANSGIYSGGSKRTADGSEFEPKKKRKV(SEQ ID NO:780)

实施例20：引导编辑器的断裂内含肽递送

本实施例表明可以以通过单独的载体递送引导编辑器至细胞的手段使用内含肽断裂引导编辑器，其中每个载体编码引导编辑器融合蛋白的一部分。本实施例聚焦于包含经典SpCas9(SEQ ID NO:18)的PE融合蛋白。其他Cas9蛋白的断裂位点可能是相应的同一位置，或者可能需要对各不同的Cas9蛋白进行优化。在本实施例中，引导编辑器在SpCas9(SEQID NO:18)的残基1023和1024之间断裂。这被称为“1023/1024”断裂位点。

引导编辑器(PE)超出了AAV的包装容量。因此，考虑通过在SEQ ID NO:18中的化脓性链球菌Cas9残基1024处插入反式剪接Npu内含肽来断裂PE，允许将断裂SpPE作为两个单独的多肽递送，每个多肽都由双重AAV系统之一编码。选择断裂位点1023/1024，因为其(1)允许包装到两个AAV中，而容纳向导盒和最小调控元件的空间，(2)将天然丝氨酸突变为半胱氨酸会相对保守，(3)该位点是接近Cas9周边的柔性环，预计其在空间上允许发生剪接(spicing)，以及(4)Cas9已通过环状排列在该环中成功改变(但先前没有在该特定的断裂位点处)。

为了确定Npu-断裂引导编辑器是否有活性，用编码断裂-编辑器的质粒转染HEK细胞，通过高通量测序分析发现它们重演了全长PE3的活性。此外，已知C端外显肽的三个天然Npu氨基末端残基是最高效地剪接，但不同于天然在Cas9残基1024侧面的那些。用天然Npu残基置换这些Cas9残基可改变引导编辑器的活性。因此，确定从Cas9天然“SEQ”至Npu内含肽“CFN”序列的突变是否改变引导编辑的效率。“SEQ”残基以与全长相似的效率促进引导编辑，表明内含肽断裂PE半部能够关联并介导引导编辑。通过向“CFN”的突变未看到进一步增加，表明单独的关联可能足以实现断裂PE活性，正如我们之前用内含肽断裂碱基编辑器观测到的那样。

虽然相关联的未剪接编辑器可能具有活性，但在启动步骤期间因不完全剪接而导致的引导编辑器的空间扰动可影响编辑结果。因此选择1024-CFN进行进一步研究，因为其也重演了全长PE3的活性。

以下是1023/1024断裂的氨基酸序列。

SpPE2在1023/1024N端半部处断裂

解释：NLS,

NpuC内含肽,RT

SpPE2在1023/1024C端半部处断裂

解释:NLS,

NpuC内含肽,RT

双重AAV系统中的引导编辑器包装

利用Npu反式剪接内含肽在残基1023和1024之间断裂的引导编辑器在AAV内变为包装，其具有与以相同方式产生的相似基因组大小的碱基编辑器的效价相当的高效价。

体内引导编辑

利用AAV9通过对P0小鼠的脑室内注射递送的断裂SpPE3在体内介导脑组织中的引导编辑。位点+5(即，切口位点下游且在PAM序列内的5个核苷酸碱基)处的G至T核苷酸取代导致在DNMT1的N端附近安装Pro>Gln编码突变。该编辑表明体内引导编辑的可行性，并且认为不对编辑细胞引入任何选择压力(其中“+5”是指切口位点下游的+5位点)。测试的AAV结构包括全长MMLV RT以及缺乏RNAse H结构域的截短变体。还评估了截短的转录后调控元件W3，因为已表明其在体内增加来自病毒盒的表达，但其重要性尚未在碱基编辑器或引导编辑器的背景下进行测试。发现全长RT表现优于截短的RT，并且添加W3序列提高了活性。W3存在时编辑活性的增加表明引导编辑器的表达在体内是限制性的，并显示体内引导编辑相比细胞培养的不同挑战。

参考文献

Oakes,B.L.,Fellmann,C.et al.CRISPR-Cas9 Circular Permutants asProgrammable Scaffolds for Genome Modification.Cell.2019Jan 10；176(1-2):254-267.e16.doi:10.1016/j.cell.2018.11.052.

实施例21.PE2格式中的接头优化

本实施例构建了许多变体引导编辑器，全部都基于PE2。PE2具有以下序列和结构：

如本文所用，“PE2”是指具有以下结构的包含融合蛋白的PE复合物，该融合蛋白包含Cas9(H840A)和变体MMLV RT：[NLS]-[Cas9(H840A)]-[接头]-[MMLV_RT(D200N)(T330P)(L603W)(T306K)(W313F)]+期望的PEgRNA，其中PE融合物具有SEQ ID NO:134的氨基酸序列，其如下所示：MKRTADGSEFESPKKKRKVDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSTLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLPDADHTWYTDGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAEGKKLNVYTDSRYAFATAHIHGEIYRRRGWLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRMADQAARKAAITETPDTSTLLIENSSPSGGSKRTADGSEFEPKKK RKV(SEQ ID NO:134)

解释:

核定位序列(NLS)开端:(SEQ ID NO:124),末端:(SEQ ID NO:133)

CAS9(H840A)(SEQ ID NO:137)

33-氨基酸接头(SEQ ID NO:127)

M-MLV逆转录酶(SEQ ID NO:139)。

PE2接头为SGGSSGGSSGSETPGTSESATPESSGGSSGGSS(SEQ ID NO:127)。

在该实验中，将PE2接头用以下替代接头之一替换(或在一个示例中无接头):

图79显示置换接头构建体的编辑效率。具体地，数据显示对于转换、颠换、插入和缺失编辑，对于代表性PEgRNA，在HEK3、EMX1、FANCF、RNF2基因座处，相比于具有用所示序列置换的接头的各种版本，具有当前链接头的PE2构建体(标记为PE2–白框)的编辑效率。置换接头被称为“1xSGGS”、“2xSGGS”、“3xSGGS”、“1xXTEN”、“无接头”、“1xGly”、“1xPro”、“1xEAAAK”、“2xEAAAK”和“3xEAAAK”。编辑效率测量为相对于PE2的“对照”编辑效率的条形图。PE2的接头是SGGSSGGSSGSETPGTSESATPESSGGSSGGSS(SEQ ID NO:127)。所有编辑都是在PE3系统的背景下完成的，即，PE3系统是指PE2编辑构建体加上最佳二级sgRNA切口产生性向导物的添加。

图80显示1xXTEN接头提供了编辑效率的增加。取相对于PE2的平均倍数功效产生所示图，表明使用1x XTEN接头序列将编辑效率平均提高1.14倍(n＝15)。

实施例22.具有改进活性的引导编辑器向导RNA

在不同实施方案中，PEgRNA可能是靶DNA位点并且依赖于编辑。也就是说，PEgRNA的序列将取决于靶DNA序列和通过引导编辑引入其中的特定编辑(如，缺失、插入、倒置、替换)。例如，在某些实施方案中，当连接PEgRNA的引物结合位点(PBS)3'基序时，PBS和基序之间的接头是优选的，以防止与PE融合蛋白的聚合酶结构域(如，逆转录酶)的空间位阻。但是，对于每个位点，接头性质可能不同。例如，如果每个位点使用相同的接头，则它可通过与间隔区序列的偶然配对人为地使13nt PBS成为16nt PBS。类似地，接头可与PBS本身碱基配对，导致其阻塞并潜在降低活性。因此，与基于蛋白的编辑器(如，PE或BE4)的情况下不同，连接两个元件的单个接头序列选择在各构建体中可能不是有效的，但会部分取决于靶DNA序列的序列和感兴趣的编辑。

部分地，基于实施例15(PEgRNA的设计和工程化)提供的信息，本实施例构建并测试了对PEgRNA进行的各种结构修饰对编辑功能等方面的影响。

来自非pol III启动子的PEgRNA的表达

使用来自FKBP的102个核苷酸序列的插入作为读出，测试了多种PEgRNA表达系统产生PEgRNA的能力。

PEgRNA的转录可由典型的组成型启动子指导，例如U6启动子。尽管U6启动子在大多数情况下可有效指导PEgRNA的转录，但U6启动子在指导较长的PEgRNA或富含U的RNA的转录方面不是很有效。富含U的RNA延伸导致转录提前终止。本实施例比较了从CMV启动子或U1启动子与U6启动子表达的向导物的编辑结果。这些启动子需要不同的终止子序列，如MASCENE或PAN ENE，如下文所提供。利用pCMV/MASC-ENE系统观测到编辑增加，但是这些向导物导致序列的不完全插入，而利用U6启动子，在较低的编辑水平下观测到完全插入。见图81。数据表明替代表达系统可能对长的插入有用的可能性。

pCMV/MASC-ENE表达系统的核苷酸序列如下(5'至3'方向)(在它所指的区域之前以粗体显示基序名称)：

-pCMV启动子-TAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATC-Csy4环-GTTCACTGCCGTATAGGCAG-间隔区-GGCCCAGACTGAGCACGTGA-支架-GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCC-模板-TGGAGGAAGCAGGGCTTCCTTTCCTCTGCCATCA-插入-AAATTTCTTTCCATCTTCAAGCATCCCGGTGTAGTGCACCACGCAGGTCTGGCCGCGCTTGGGGAAGGTGCGCCCGTCTCCTGGGGAGATGGTTTCCACCTGCACTCC-PBS-CGTGCTCAGTCTG-接头-TTT-MASC ENE-TAGGGTCATGAAGGTTTTTCTTTTCCTGAGAAAACAACACGTATTGTTTTCTCAGGTTTTGCTTTTTGGCCTTTTTCTAGCTTAAAAAAAAAAAAAGCAAAAGATGCTGGTGGTTGGCACTCCTGGTTTCCAGGACGGGGTTCAAATCCCTGCGGCGTCTTTGCTTTGACT-不相关的质粒序列-TTTTTTTAAGCTTGGGCCGCTCGAGGTAGCAGC-Ubc启动子-GGCCTCCGCGCCGGGTTTTGGCGCCTCCCGCGGGCGCCCCCCTCCTCACGGCGAGCGCTGCCACGTCAGACGAAGGGCGCAGGAGCGTTCCTGATCCTTCCGCCCGGACGCTCAGGACAGCGGCCCGCTGCTCATAAGACTCGGCCTTAGAACCCCAGTATCAGCAGAAGGACATTTTAGGACGGGACTTGGGTGACTCTAGGGCACTGGTTTTCTTTCCAGAGAGCGGAACAGGCGAGGAAAAGTAGTCCCTTCTCGGCGATTCTGCGGAGGGATCTCCGTGGGGCGGTGAACGCCGATGATTATATAAGGACGCGCCGGGTGTGGCACAGCTAGTTCCGTCGCAGCCGGGATTTGGGTCGCGGTTCTTGTTTGTGGATCGCTGTGATCGTCACTTGGTGAGTTGCGGGCTGCTGGGCTGGCCGGGGCTTTCGTGGCCGCCGGGCCGCTCGGTGGGACGGAAGCGTGTGGAGAGACCGCCAAGGGCTGTAGTCTGGGTCCGCGAGCAAGGTTGCCCTGAACTGGGGGTTGGGGGGAGCGCACAAAATGGCGGCTGTTCCCGAGTCTTGAATGGAAGACGCTTGTAAGGCGGGCTGTGAGGTCGTTGAAACAAGGTGGGGGGCATGGTGGGCGGCAAGAACCCAAGGTCTTGAGGCCTTCGCTAATGCGGGAAAGCTCTTATTCGGGTGAGATGGGCTGGGGCACCATCTGGGGACCCTGACGTGAAGTTTGTCACTGACTGGAGAACTCGGGTTTGTCGTCTGGTTGCGGGGGCGGCAGTTATGCGGTGCCGTTGGGCAGTGCACCCGTACCTTTGGGAGCGCGCGCCTCGTCGTGTCGTGACGTCACCCGTTCTGTTGGCTTATAATGCAGGGTGGGGCCACCTGCCGGTAGGTGTGCGGTAGGCTTTTCTCCGTCGCAGGACGCAGGGTTCGGGCCTAGGGTAGGCTCTCCTGAATCGACAGGCGCCGGACCTCTGGTGAGGGGAGGGATAAGTGAGGCGTCAGTTTCTTTGGTCGGTTTTATGTACCTATCTTCTTAAGTAGCTGAAGCTCCGGTTTTGAACTATGCGCTCGGGGTTGGCGAGTGTGTTTTGTGAAGTTTTTTAGGCACCTTTTGAAATGTAATCATTTGGGTCAATATGTAATTTTCAGTGTTAGACTAGTAAATTGTCCGCTAAATTCTGGCCGTTTTTGGCTTTTTTGTTAGACAGGATCCCCGGGTACCGGTCGCCACC-Csy4和NLS-ATGGGCTCTTTTACTATGGACCACTACCTGGATATTAGACTGAGACCTGACCCTGAGTTCCCACCCGCCCAGCTGATGAGCGTGCTGTTCGGCAAGCTGCACCAGGCCCTGGTGGCACAGGGAGGCGACCGGATCGGCGTGAGCTTCCCCGACCTGGATGAGAGCAGATCCAGGCTGGGAGAGCGCCTGAGGATCCACGCATCCGCCGACGATCTGCGCGCCCTGCTGGCCCGGCCATGGCTGGAGGGCCTGCGCGACCACCTGCAGTTTGGAGAGCCAGCAGTGGTGCCACACCCTACCCCATACAGGCAGGTGTCCAGGGTGCAGGCAAAGTCTAACCCTGAGCGGCTGCGGAGAAGGCTGATGCGCCGGCACGATCTGTCTGAGGAGGAGGCCAGAAAGAGGATCCCCGACACCGTGGCCAGAACACTGGATCTGCCTTTCGTGACCCTGCGGAGCCAGAGCACAGGCCAGCACTTCAGACTGTTTATCAGGCACGGCCCACTGCAGGTGACAGCCGAGGAAGGAGGATTCACTTGTTACGGACTGTCTAAAGGAGGATTCGTGCCCTGGTTCAGCAGCCTGAGGCCTCCTAAGAAGAAGAGGAAGGTTTAA-SV40终止子-TGATCATAATCAAGCCATATCACATCTGTAGAGGTTTACTTGCTTTAAAAAACCTCCACACCTCCCCCTGAACCTGAAACATAAAATGAATGCAATTGTTGTTGTTAACTTGTTTATTGCAGCTTATAATGGTTACAAATAAAGCAATAGCATCACAAATTTCACAAATAAAGCATTTTTTTCACTGCATTCTAGTTGTGGTTTGTCCAAACTCATCAATGTATCTTATCATGTCTGGATCTGC.

解释:

[pCMV启动子]–结合pol IIRNA聚合酶

[Csy4环]–由Csy4蛋白结合，导致环的3'切割。需要的，因为[CMV启动子]部分被转录，如果该序列连接到gRNA的5'，则它将降低/消除活性(先前已知)。

pegRNA的[间隔区序列]

[pegRNA支架]

[DNA合成模板]

[插入编辑(来自FKBP的108nt)]

[引物结合位点]

[接头](高度可变)——连接PBS和终止子元件

[MASC ENE转录终止子]-该元件的转录导致转录终止；polyA尾得到编码，然后由ENE元件隔离

[不重要的序列]

[Ubc启动子]–Csy4蛋白表达需要的

[Csy4蛋白和NLS]–加工向导5'端需要的。也可使用不需要表达大蛋白的其他策略(如，核酶介导的间隔区切割)，但这些需要对不同的间隔区序列进行更多的单独调整，所以我们使用了这个。

[SV40终止子]–用于终止Csy4蛋白。

PEgRNA支架的改进

还测试了对gRNA支架的许多结构修饰，没有一个显示编辑活性的显著增加(参见图82的X轴处3.30.13至3.30.19，与3.30相比)。然而，该数据有两个值得注意的说明。首先，该向导物已相当好地起作用，并且不太有效的向导物对于测试会是较好的。其次，在HEK细胞中，转染非常有效，并且注意到转染的向导RNA量与所需量相比大大过量(将量减少约4-8倍对编辑没有影响)。仅可以在转染效率较低的其他细胞类型中或在不太有效的向导物的情况下看到这些改进。在其他细胞系中，许多这些变化都有改善sgRNA活性的先例。

图82的构建体的序列如下：

注意，无论是不存在末端基序或存在未以U段结束的末端基序，转录本都使用以下HDV核酶终止:

GGCCGGCAUGGUCCCAGCCUCCUCGCUGGCGCCGGCUGGGCAACAUGCUUCGGCAUGGCGAAUGGGAC[SEQ ID NO:3923]

其他RNA基序

参见图82，关于可引入PEgRNA以提高其性能的某些基序如PEgRNA3'的HDV核酶，或G-四链体插入、P1延伸、模板发夹和四环circ'd的详细信息。

特别地，本实施例测试了在引物结合位点的3'安装tRNA基序的效果。由于多个潜在的功能选择该元件：

(1)tRNA基序是非常稳定的RNA基序，因而可潜在地减少PEgRNA降解；

(2)MMLV RT在转录过程中将病毒基因组转化为DNA时使用脯氨酰-tRNA作为引物，因而猜想RT可结合相同的帽，从而改善PE结合PEgRNA、RNA稳定性，并使PBS更接近基因组位点，这也潜在提高活性。

在这些构建体中，延伸了tRNA的P1(参见图84)。P1是指tRNA的第一个茎/碱基配对元件(参见图84)。认为这对于防止RNAseP介导的对P1 5'的tRNA的切割是必需的，这会导致其从PEgRNA中去除。

在该设计中，使用了在tRNA和PBS之间具有延伸的P1和短的3nt接头的脯氨酰-tRNA(密码子CGG)。测试了多种tRNA设计，并测试了与无tRNA帽的PEgRNA相比的编辑效率——参见图83中的比较数据(描绘了靶向HEK3基因编辑的PE实验，特别是靶向相对于切口位点的位点+1处10nt插入的插入且使用PE3)，图85(描绘了靶向编辑FANCF基因的PE实验，特别是靶向相对于切口位点的位点+5处的G至T转换且使用PE3构建体)和图86(描绘了靶向HEK3基因编辑的PE实验，特别是靶向相对于切口位点的位点+1处71nt FLAG标签插入的插入且使用PE3构建体)。tRNA修饰的PEgRNA针对未修饰的PEgRNA对照进行了测试。

UGG/CGG指使用的密码子，数字指添加的P1延伸的长度，长表示8nt接头，未指定为3nt接头。

数据表明，安装tRNA可使得能够使用更短的PBS，这可能会导致额外的活性改善。在RNF2的情况下，可能/有可能的是，使用的接头导致改善的PBS与间隔区的结合，从而导致活性降低。

使用的一些序列：

HEK3+1FLAG-标签插入,脯氨酰-tRNA{UGG}P1 ext 5nt,接头3nt

GGCCCAGACUGAGCACGUGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUGGAGGAAGCAGGGCUUCCUUUCCUCUGCCAUCACUUAUCGUCGUCAUCCUUGUAAUCCGUGCUCAGUCUGUCUGGCGGGGCUCGUUGGUCUAGGGGUAUGAUUCUCGCUUCGGGUGCGAGAGGUCCCGGGUUCAAAUCCCGGACGAGCCCCGCCUUUU[SEQ ID NO:3902]

FANCF+5G至T脯氨酰-tRNA{CGG}P1 ext 5nt,接头3nt

GGAAUCCCUUCUGCAGCACCGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCGGAAAAGCGAUCAAGGUGCUGCAGAAGGGAUCUGGCGGGGCUCGUUGGUCUAGGGGUAUGAUUCUCGCUUCGGGUGCGAGAGGUCCCGGGUUCAAAUCCCGGACGAGCCCCGCCUUUU[SEQ IDNO:3903]

HEK3++1 10nt插入,脯氨酰-tRNA{UGG}P1 ext 5nt,接头3nt

GGCCCAGACUGAGCACGUGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGGACCGAGUCGGUCCUCUGCCAUCAAAGCUUCGACCGUGCUCAGUCUUCUGCUCGAGGCGGGGCUCGUUGGUCUAGGGGUAUGAUUCUCGCUUCGGGUGCGAGAGGUCCCGGGUUCAAAUCCCGGACGAGCCCCGCCUCGAGCUUUU[SEQ ID NO:3904]

图85和图86的数据中报告的序列如下：

实施例23.使用引导编辑来校正CDKL5和镰状细胞性贫血

利用PE设计具有1412delA突变的CDKL5的小鼠模型

CDKL5缺乏病症(CDD)是神经退行性疾病，最常由细胞周期蛋白依赖性激酶样5基因的自发突变引起。症状出现在儿童早期，并且包括癫痫发作、不规律睡眠模式、胃肠道应激和发育迟缓。一些导致CDD的突变，包括1412delA，无法利用碱基编辑校正。然而，引导编辑有精确校正所有碱基至碱基的变化、缺失和插入的潜力。以1412delA突变为重点，本实施例设计并测试了能够插入突变的pegRNA，以建立携带该突变的小鼠神经元细胞系(N2A)。这将允许广泛筛选校正突变的潜在治疗性pegRNA。最终目标是能够获得具有1412delA突变的CDD小鼠模型来评估治疗效果。目前的CDD小鼠模型都没有人源化等位基因，但是在HEK293T细胞中对pegRNA的优化也在进行中。图87和图88是在N2A细胞中进行初步筛选的结果，其中pegRNA安装了1412Adel，具有关于引物结合位点(PBS)长度和逆转录酶(RT)模板长度的详细信息。(在有和没有indel的情况下显示)

利用PE治疗镰状细胞性贫血(SCA)

镰状细胞性贫血(SCA)是由β-珠蛋白基因中的位点6处的谷氨酸至缬氨酸突变引起的隐性血液疾病。结果是作为较差的氧转运体且倾向于聚集的镰状红细胞。聚集的症状可以是危及生命的。先前Liu博士实验室能够显示使用引导编辑通过DNA质粒转染在HEK293T细胞中的SCA基因座的安装和校正。由于造血干细胞(HSC)难以通过DNA质粒转染进行编辑，因此本实施例在HSC中利用蛋白和mRNA核转染测试了PE3系统。图89是改变相对于pegRNA和切口产生性gRNA的编辑器浓度，在β-珠蛋白基因中的代理基因座处和健康HSC中的HEK3处编辑的结果。

mRNA核转染实验方案：

通过调整编辑器与向导物的比率([编辑器]与[向导物]比率或编辑器:向导物比)改进了方案

切口产生性向导物原间隔区为：CCTTGATACCAACCTGCCCA

pegRNA序列为：

CATGGTGCACCTGACTCCTGGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCAGACTTCTCTTCAGGAGTCAGGTGCACTTT

1.解冻CD34+细胞并在X-Vivo15培养基中用细胞因子(SCF、Flt3和TPO)预刺激24小时。接种密度为100万个细胞/mL。

2.第2天(24小时后)，吸出CD34+细胞(1x105)，用PBS洗涤一次(于RT以300g离心10分钟)并重悬于P3溶液(Lonza)(每种条件20ul))。

3.在通风橱中，将无菌PCR条中的2ug SpPE2 mRNA、1ug组合的pegRNA和sgRNA于冰上混合。将体积调整为20ul(P3溶液中的细胞+mRNA&gRNA混合物)。

4.将细胞悬液移液至20uL Lonza4D 16孔条中，并用程序DS130进行电穿孔。

5.电穿孔后等待10至15分钟，然后将80uL X-Vivo10+细胞因子培养基添加到细胞悬液中并转移到含有细胞因子培养基的预热X-Vivo10中。

6.电穿孔后72小时收获细胞，检查细胞回收，并且对大量群体进行基因型分型，并还分选CD34+和CD34+90+群体。

野生型CDKL5蛋白(登录号NP_001032420)(同种型1–人类)

MKIPNIGNVM NKFEILGVVG EGAYGVVLKC RHKETHEIVA IKKFKDSEEN EEVKETTLRELKMLRTLKQE NIVELKEAFR RRGKLYLVFE YVEKNMLELL EEMPNGVPPE KVKSYIYQLI KAIHWCHKNDIVHRDIKPEN LLISHNDVLK LCDFGFARNL SEGNNANYTE YVATRWYRSP ELLLGAPYGK SVDMWSVGCILGELSDGQPL FPGESEIDQL FTIQKVLGPL PSEQMKLFYS NPRFHGLRFP AVNHPQSLER RYLGILNSVLLDLMKNLLKL DPADRYLTEQ CLNHPTFQTQ RLLDRSPSRS AKRKPYHVES STLSNRNQAG KSTALQSHHRSNSKDIQNLS VGLPRADEGL PANESFLNGN LAGASLSPLH TKTYQASSQP GSTSKDLTNN NIPHLLSPKEAKSKTEFDFN IDPKPSEGPG TKYLKSNSRS QQNRHSFMES SQSKAGTLQP NEKQSRHSYI DTIPQSSRSPSYRTKAKSHG ALSDSKSVSN LSEARAQIAE PSTSRYFPSS CLDLNSPTSP TPTRHSDTRT LLSPSGRNNRNEGTLDSRRT TTRHSKTMEE LKLPEHMDSS HSHSLSAPHE SFSYGLGYTS PFSSQQRPHR HSMYVTRDKVRAKGLDGSLS IGQGMAARAN SLQLLSPQPGEQLPPEMTVA RSSVKETSRE GTSSFHTRQK SEGGVYHDPHSDDGTAPKE NRHLYNDPVPR RVGSFYRVPS PRPDNSFHEN NVSTRVSSLP SESSSGTNHS KRQPAFDPWKSPENISHSEQ LKEKEKQGFF RSMKKKKKKS QTVPNSDSPD LLTLQKSIHS ASTPSSRPKE WRPEKISDLQTQSQPLKSLR KLLHLSSASN HPASSDPRFQ PLTAQQTKNS FSEIRIHPLS QASGGSSNIR QEPAPKGRPALQLPDGGCDG RRQRHHSGPQ DRRFMLRTTE QQGEYFCCGD PKKPHTPCVPNRALHRPISS PAPYPVLQVRGTSMCPTLQV RGTDAFSCPT QQSGFSFFVR HVMREALIHR AQVNQAALLT YHENAALTGK

野生型CDKL5蛋白(登录号NP_001310218)(同种型2–人类)

MKIPNIGNVM NKFEILGVVG EGAYGVVLKC RHKETHEIVA IKKFKDSEEN EEVKETTLRELKMLRTLKQE NIVELKEAFR RRGKLYLVFE YVEKNMLELL EEMPNGVPPE KVKSYIYQLI KAIHWCHKNDIVHRDIKPEN LLISHNDVLK LCDFGFARNL SEGNNANYTE YVATRWYRSP ELLLGAPYGK SVDMWSVGCILGELSDGQPL FPGESEIDQL FTIQKVLGPL PSEQMKLFYS NPRFHGLRFP AVNHPQSLER RYLGILNSVLLDLMKNLLKL DPADRYLTEQ CLNHPTFQTQ RLLDRSPSRS AKRKPYHVES STLSNRNQAG KSTALQSHHRSNSKDIQNLS VGLPRADEGL PANESFLNGN LAGASLSPLH TKTYQASSQP GSTSKDLTNN NIPHLLSPKEAKSKTEFDFN IDPKPSEGPG TKYLKSNSRS QQNRHSFMES SQSKAGTLQP NEKQSRHSYI DTIPQSSRSPSYRTKAKSHG ALSDSKSVSN LSEARAQIAE PSTSRYFPSS CLDLNSPTSP TPTRHSDTRT LLSPSGRNNRNEGTLDSRRT TTRHSKTMEE LKLPEHMDSS HSHSLSAPHE SFSYGLGYTS PFSSQQRPHR HSMYVTRDKVRAKGLDGSLS IGQGMAARAN SLQLLSPQPG EQLPPEMTVARSSVKETSRE GTSSFHTRQK SEGGVYHDPHSDDGTAPKEN RHLYNDPVPR RVGSFYRVPS PRPDNSFHEN NVSTRVSSLP SESSSGTNHS KRQPAFDPWKSPENISHSEQ LKEKEKQGFF RSMKKKKKKS QTVPNSDSPD LLTLQKSIHS ASTPSSRPKE WRPEKISDLQTQSQPLKSLR KLLHLSSASN HPASSDPRFQ PLTAQQTKNS FSEIRIHPLS QASGGSSNIR QEPAPKGRPALQLPGQMDPG WHVSSVTRSA TEGPSYSEQL GAKSGPNGHP YNRTNRSRMP NLNDLKETAL

实施例24.利用引导编辑靶向致病性AOL1等位基因作为非糖尿病性慢性肾病的治疗

本实施例设计了能够靶向致病性APOL1等位基因的PEgRNA，用于与引导编辑一起使用来治疗或降低形成肾病的可能性。

终末期肾功能衰竭(ESKD)是目前在美国影响超过50万人的日益严重的问题。目前，ESKD患者的护理费用每年超过400亿美元。在美国，非洲裔受试者患ESKD的可能性比没有非洲血统的美国人高4至5倍。这些事实体现在占美国人口12-13％的非洲裔与40％的美国透析患者为非洲裔美国人之间的不一致。肾病危险因素如肥胖和代谢综合征的流行表明这个问题的严重性只会增加。

对于绝大多数进行性肾病没有特定的治疗方法。某些类型的慢性肾病进展可通过使用特定药物控制血压来减缓，但肾脏科医生无法准确预测哪些患者会有反应。此外，虽然成功的治疗通常会减缓进展，但既不能预防疾病也不能阻止疾病进展。

最近确定，改变载脂蛋白-L1(APOL1)蛋白序列的特定遗传变体与进行性肾病有关。令人惊讶地，APOL1肾病变体对多种不同类型的肾病有重大影响，包括高血压相关终末期肾病(H-ESRD)、局灶性节段性肾小球硬化症(FSGS)和HIV相关肾病(HIVAN)。具有这些变体APOL1等位基因的个体患肾病的风险增加7至30倍。基于这些APOL1风险等位基因的高频率，超过350万非洲裔美国人可能具有高风险APOL1基因型。与欧洲血统的美国人相比，没有高风险基因型的非洲裔美国人几乎没有额外风险。

尽管有证据表明APOL1基因变体引起肾病，但对其产物APOL1的生物学或其在肾脏中的作用知之甚少。APOL1在抗锥虫中具有明确的作用，并且G1和G2变体似乎在非洲变得普遍，因为它们赋予针对导致非洲昏睡病的锥虫形式的保护。

仍然需要针对具有一个或多个APOL1风险等位基因的患者中的肾病的治疗，该APOL1风险等位基因导致较大的发病率和死亡率，在此受试者群体和其他受试者人群中具有高的经济影响。

本实施例提供了基于特定示例性靶序列的三种示例性PEgRNA设计选择，其可与引导编辑一起使用来校正APOL1缺陷等位基因。

PEgRNA1

为APOL1等位基因rs73885319(p.S342G)设计PEgRNA。这代表受受累个体中的G→A校正。靶序列是5-GGAGTCAAGCTCACGGATGTGGCCCCTGTA(G至A)GCTTCTTTCTTGTGCTGGATGTAGTCTACCT-3。

原间隔区(上面加粗)为AAGCTCACGGATGTGGCCCC。选定的PE包括SaCas9(D10A)。

引物结合位置可为：

GTGGCCCC

TGTGGCCCC

ATGTGGCCCC

GATGTGGCCCC

GGATGTGGCCCC

CGGATGTGGCCCC

ACGGATGTGGCCCC

CACGGATGTGGCCCC

TCACGGATGTGGCCCC

CTCACGGATGTGGCCCC.

RT模板可为：

AAGAAGCTTACA

AAAGAAGCTTACA

GAAAGAAGCTTACA

AGAAAGAAGCTTACA

AAGAAAGAAGCTTACA

CAAGAAAGAAGCTTACA

ACAAGAAAGAAGCTTACA

CACAAGAAAGAAGCTTACA

GCACAAGAAAGAAGCTTACA

AGCACAAGAAAGAAGCTTACA

CAGCACAAGAAAGAAGCTTACA

CCAGCACAAGAAAGAAGCTTACA

TCCAGCACAAGAAAGAAGCTTACA

ATCCAGCACAAGAAAGAAGCTTACA。

切口模板可以是GCTTTGATTCGTACACGAGG。

PEgRNA 2

设计用于APOL1等位基因rs60910145的PEgRNA。这代表受受累个体中的G→T校正。

原间隔区为GCTGGAGGAGAAGCTAAACA。所选择的PE包括SpCas9(D10A)-NG。

引物结合位点可为：

GAAGCTAA

AGAAGCTAA

GAGAAGCTAA

GGAGAAGCTAA

AGGAGAAGCTAA

GAGGAGAAGCTAA

GGAGGAGAAGCTAA

TGGAGGAGAAGCTAA

CTGGAGGAGAAGCTAA

GCTGGAGGAGAAGCTAA。

RT模板可为(不能以C结尾):

AGAATGT

GAGAATGT

TGAGAATGT

TTGAGAATGT

GTTGAGAATGT

TGTTGAGAATGT

TTGTTGAGAATGT

ATTGTTGAGAATGT

TATTGTTGAGAATGT

TTATTGTTGAGAATGT

ATTATTGTTGAGAATGT

AATTATTGTTGAGAATGT

TAATTATTGTTGAGAATGT

ATAATTATTGTTGAGAATGT。

切口模板可为：

CCTGTGGTCACAGTTCTTGG

CCACAGGGCAGGGCAGCCAC。

PEgRNA 3

设计用于APOL1等位基因rs71785313的PEgRNA。这代表插入，如下所示：ATTCTCAACAA[插入：TAATTA]TAAGATTC。

原间隔区可为：TCTCAACAATAAGATTCTGC

PE包含SaKKH-PE2。

引物结合位点可为：

TTCTCAAC

ATTCTCAAC

CATTCTCAAC

ACATTCTCAAC

AACATTCTCAAC

AAACATTCTCAAC

TAAACATTCTCAAC

CTAAACATTCTCAAC

GCTAAACATTCTCAAC

AGCTAAACATTCTCAAC。

RT模板可为：

AATCTTATAATTATT

GAATCTTATAATTATT

AGAATCTTATAATTATT

CAGAATCTTATAATTATT

GCAGAATCTTATAATTATT

TGCAGAATCTTATAATTATT

CTGCAGAATCTTATAATTATT

CCTGCAGAATCTTATAATTATT

GCCTGCAGAATCTTATAATTATT

CGCCTGCAGAATCTTATAATTATT

CCGCCTGCAGAATCTTATAATTATT

TCCGCCTGCAGAATCTTATAATTATT

GTCCGCCTGCAGAATCTTATAATTATT

GGTCCGCCTGCAGAATCTTATAATTATT。

切口模板可为：

CCTGTGGTCACAGTTCTTGG

CCACAGGGCAGGGCAGCCAC。

本公开中提及的其他参考文献

以下参考文献各自通过引用以其整体并入本文。

1.Jinek,M.et al.A Programmable Dual-RNA–Guided DNA Endonuclease inAdaptive Bacterial Immunity.Science 337,816–821(2012).

2.Cong,L.et al.Multiplex Genome Engineering Using CRISPR/CasSystems.Science 339,819–823(2013).

3.Komor,A.C.,Badran,A.H.&Liu,D.R.CRISPR-Based Technologies for theManipulation of Eukaryotic Genomes.Cell 168,20–36(2017).

4.Komor,A.C.,Kim,Y.B.,Packer,M.S.,Zuris,J.A.&Liu,D.R.Programmableediting of a target base in genomic DNA without double-stranded DNAcleavage.Nature 533,420–424(2016).

5.Nishida,K.et al.Targeted nucleotide editing using hybridprokaryotic and vertebrate adaptive immune systems.Science 353,aaf8729(2016).

6.Gaudelli,N.M.et al.Programmable base editing of A·T to G·C ingenomic DNA without DNA cleavage.Nature 551,464–471(2017).

7.ClinVar,July 2019.

8.Dunbar,C.E.et al.Gene therapy comes of age.Science 359,eaan4672(2018).

9.Cox,D.B.T.,Platt,R.J.&Zhang,F.Therapeutic genome editing:prospectsand challenges.Nat.Med.21,121–131(2015).

10.Adli,M.The CRISPR tool kit for genome editing andbeyond.Nat.Commun.9,1911(2018).

11.Kleinstiver,B.P.et al.Engineered CRISPR-Cas9 nucleases withaltered PAM specificities.Nature 523,481–485(2015).

12.Kleinstiver,B.P.et al.High-fidelity CRISPR–Cas9 nucleases with nodetectable genome-wide off-target effects.Nature 529,490–495(2016).

13.Hu,J.H.et al.Evolved Cas9 variants with broad PAM compatibilityand high DNA specificity.Nature 556,57–63(2018).

14.Nishimasu,H.et al.Engineered CRISPR-Cas9 nuclease with expandedtargeting space.Science 361,1259–1262(2018).

15.Jasin,M.&Rothstein,R.Repair of strand breaks by homologousrecombination.Cold Spring Harb.Perspect.Biol.5,a012740(2013).

17.Kosicki,M.,Tomberg,K.&Bradley,A.Repair of double-strand breaksinduced by CRISPR–Cas9 leads to large deletions and complex rearrangements.Nat.Biotechnol.36,765–771(2018).

18.Haapaniemi,E.,Botla,S.,Persson,J.,Schmierer,B.&Taipale,J.CRISPR–Cas9 genome editing induces a p53-mediated DNA damage response.Nat.Med.24,927–930(2018).

19.Ihry,R.J.et al.p53 inhibits CRISPR–Cas9 engineering in humanpluripotent stem cells.Nat.Med.24,939–946(2018).

20.Richardson,C.D.,Ray,G.J.,DeWitt,M.A.,Curie,G.L.&Corn,J.E.Enhancinghomology-directed genome editing by catalytically active and inactive CRISPR-Cas9 using asymmetric donor DNA.Nat.Biotechnol.34,339–344(2016).

21.Srivastava,M.et al.An Inhibitor of Nonhomologous End-JoiningAbrogates Double-Strand Break Repair and Impedes Cancer Progression.Cell 151,1474–1487(2012).

22.Chu,V.T.et al.Increasing the efficiency of homology-directedrepair for CRISPR-Cas9-induced precise gene editing in mammaliancells.Nat.Biotechnol.33,543–548(2015).

23.Maruyama,T.et al.Increasing the efficiency of precise genomeediting with CRISPR-Cas9 by inhibition of nonhomologous endjoining.Nat.Biotechnol.33,538–542(2015).

24.Kim,Y.B.et al.Increasing the genome-targeting scope and precisionof base editing with engineered Cas9-cytidine deaminasefusions.Nat.Biotechnol.35,371–376(2017).

25.Li,X.et al.Base editing with a Cpf1–cytidine deaminasefusion.Nat.Biotechnol.36,324–327(2018).

26.Gehrke,J.M.et al.An APOBEC3A-Cas9 base editor with minimizedbystander and off-target activities.Nat.Biotechnol.(2018).doi:10.1038/nbt.4199

27.Rees,H.A.&Liu,D.R.Base editing:precision chemistry on the genomeand transcriptome of living cells.Nat.Rev.Genet.1(2018).doi:10.1038/s41576-018-0059-1.

28.Ostertag,E.M.&Kazazian Jr,H.H.Biology of Mammalian L1 Retrotransposons.Annu.Rev.Genet.35,501–538(2001).

29.Zimmerly,S.,Guo,H.,Perlman,P.S.&Lambowltz,A.M.Group II intronmobility occurs by target DNA-primed reverse transcription.Cell 82,545–554(1995).

30.Luan,D.D.,Korman,M.H.,Jakubczak,J.L.&Eickbush,T.H.Reversetranscription of R2Bm RNA is primed by a nick at the chromosomal target site:a mechanism for non-LTR retrotransposition.Cell 72,595–605(1993).

31.Feng,Q.,Moran,J.V.,Kazazian,H.H.&Boeke,J.D.Human L1retrotransposon encodes a conserved endonuclease required forretrotransposition.Cell 87,905–916(1996).

32.Jinek,M.et al.Structures of Cas9 Endonucleases Reveal RNA-MediatedConformational Activation.Science 343,1247997(2014).

33.Jiang,F.et al.Structures of a CRISPR-Cas9 R-loop complex primedfor DNA cleavage.Science aad8282(2016).doi:10.1126/science.aad8282

34.Qi,L.S.et al.Repurposing CRISPR as an RNA-Guided Platform forSequence-Specific Control of Gene Expression.Cell 152,1173–1183(2013).

35.Tang,W.,Hu,J.H.&Liu,D.R.Aptazyme-embedded guide RNAs enableligand-responsive genome editing and transcriptional activation.Nat.Commun.8,15939(2017).

36.Shechner,D.M.,Hacisuleyman,E.,Younger,S.T.&Rinn,J.L.Multiplexable,locus-specific targeting of long RNAs with CRISPR-Display.Nat.Methods 12,664–670(2015).

37.Anders,C.&Jinek,M.Chapter One-In vitro Enzymology of Cas9.inMethods in Enzymology(eds.Doudna,J.A.&Sontheimer,E.J.)546,1–20

(Academic Press,2014).

38.Briner,A.E.et al.Guide RNA Functional Modules Direct Cas9 Activityand Orthogonality.Mol.Cell 56,333–339(2014).

39.Nowak,C.M.,Lawson,S.,Zerez,M.&Bleris,L.Guide RNA engineering forversatile Cas9 functionality.Nucleic Acids Res.44,9555–9564(2016).

40.Sternberg,S.H.,Redding,S.,Jinek,M.,Greene,E.C.&Doudna,J.A.DNAinterrogation by the CRISPR RNA-guided endonuclease Cas9.Nature 507,62–67(2014).

41.Mohr,S.et al.Thermostable group II intron reverse transcriptasefusion proteins and their use in cDNA synthesis and next-generation RNAsequencing.RNA 19,958–970(2013).

42.Stamos,J.L.,Lentzsch,A.M.&Lambowitz,A.M.Structure of aThermostable Group II Intron Reverse Transcriptase with Template-Primer andIts Functional and Evolutionary Implications.Mol.Cell 68,926-939.e4(2017).

43.Zhao,C.&Pyle,A.M.Crystal structures of a group II intron maturasereveal a missing link in spliceosome evolution.Nat.Struct.Mol.Biol.23,558–565(2016).

44.Zhao,C.,Liu,F.&Pyle,A.M.An ultraprocessive,accurate reversetranscriptase encoded by a metazoan group II intron.RNA 24,183–195(2018).

45.Ran,F.A.et al.Genome engineering using the CRISPR-Cas9system.Nat.Protoc.8,2281–2308(2013).

46.Liu,Y.,Kao,H.-I.&Bambara,R.A.Flap endonuclease 1:a centralcomponent of DNA metabolism.Annu.Rev.Biochem.73,589–615(2004).

47.Krokan,H.E.&

M.Base Excision Repair.Cold SpringHarb.Perspect.Biol.5,(2013).

48.Kelman,Z.PCNA:structure,functions and interactions.Oncogene 14,629–640(1997).

49.Choe,K.N.&Moldovan,G.-L.Forging Ahead through Darkness:PCNA,Stillthe Principal Conductor at the Replication Fork.Mol.Cell 65,380–392(2017).

50.Li,X.,Li,J.,Harrington,J.,Lieber,M.R.&Burgers,P.M.Lagging strandDNA synthesis at the eukaryotic replication fork involves binding andstimulation of FEN-1 by proliferating cell nuclear antigen.J.Biol.Chem.270,22109–22112(1995).

51.Tom,S.,Henricksen,L.A.&Bambara,R.A.Mechanism wherebyproliferatingcell nuclear antigen stimulates flap endonuclease 1.J.Biol.Chem.275,10498–10505(2000).

52.Tanenbaum,M.E.,Gilbert,L.A.,Qi,L.S.,Weissman,J.S.&Vale,R.D.Aprotein-tagging system for signal amplification in gene expression andfluorescence imaging.Cell 159,635–646(2014).

53.Bertrand,E.et al.Localization of ASH1 mRNA particles in livingyeast.Mol.Cell 2,437–445(1998).

54.Dahlman,J.E.et al.Orthogonal gene knockout and activation with acatalytically active Cas9 nuclease.Nat.Biotechnol.33,1159–1161(2015).

55.Tsai,S.Q.et al.GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases.Nat.Biotechnol.33,187–197(2015).

56.Tsai,S.Q.et al.CIRCLE-seq:a highly sensitive in vitro screen forgenome-wide CRISPR-Cas9 nuclease off-targets.Nat.Methods 14,607–614(2017).

57.Schek N,Cooke C,Alwine JC.Molecular and Cellular Biology.(1992).

58.Gil A,Proudfoot NJ.Cell.(1987).

59.Zhao,B.S.,Roundtree,I.A.,He,C.Nat Rev Mol Cell Biol.(2017).

60.Rubio,M.A.T.,Hopper,A.K.Wiley Interdiscip Rev RNA(2011).

61.Shechner,D.M.,Hacisuleyman E.,Younger,S.T.,Rinn,J.L.Nat Methods.(2015).

62.Paige,J.S.,Wu,K.Y.,Jaffrey,S.R.Science(2011).

63.Ray D.,…Hughes TR.Nature(2013).

64.Chadalavada,D.M.,Cerrone-Szakal,A.L.,Bevilacqua,P.C.RNA(2007).

65.Forster AC,Symons RH.Cell.(1987).

66.Weinberg Z,Kim PB,Chen TH,Li S,Harris KA,Lünse CE,BreakerRR.Nat.Chem.Biol.(2015).

67.Feldstein PA,Buzayan JM,Bruening G.Gene(1989).

68.Saville BJ,Collins RA.Cell.(1990).

69.Winkler WC,Nahvi A,Roth A,Collins JA,Breaker RR.Nature(2004).

70.Roth A,Weinberg Z,Chen AG,Kim PG,Ames TD,Breaker RR.Nat Chem Biol.(2013).

71.Choudhury R,Tsai YS,Dominguez D,Wang Y,Wang Z.Nat Commun.(2012).

72.MacRae IJ,Doudna JA.Curr Opin Struct Biol.(2007).

73.Bernstein E,Caudy AA,Hammond SM,Hannon GJ Nature(2001).

74.Filippov V,Solovyev V,Filippova M,Gill SS.Gene(2000).

75.Cadwell RC and Joyce GF.PCR Methods Appl.(1992).

76.McInerney P,Adams P,and Hadi MZ.Mol Biol Int.(2014).

77.Esvelt KM,Carlson JC,and Liu DR.Nature.(2011).

78.Naorem SS,Hin J,Wang S,Lee WR,Heng X,Miller JF,Guo H.Proc NatlAcad Sci USA(2017).

79.Martinez MA,Vartanian JP,Wain-Hobson S.Proc Natl Acad Sci USA(1994).

80.Meyer AJ,Ellefson JW,Ellington AD.Curr Protoc Mol Biol.(2014).

81.Wang HH,Isaacs FJ,Carr PA,Sun ZZ,Xu G,Forest CR,Church GM.Nature.(2009).

82.Nyerges

et al.Proc Natl Acad Sci USA.(2016).

83.Mascola JR,Haynes BF.Immunol Rev.(2013).

84.X.Wen,K.Wen,D.Cao,G.Li,R.W.Jones,J.Li,S.Szu,Y.Hoshino,L.Yuan,Inclusion of a universal tetanus toxoid CD4(+)T cell epitope P2 significantlyenhanced the immunogenicity of recombinant rotavirus ΔVP8*subunit parenteralvaccines.Vaccine 32,4420-4427(2014).

85.G.Ada,D.Isaacs,Carbohydrate-protein conjugate vaccines.ClinMicrobiol Infect 9,79-85(2003).

86.E.Malito,B.Bursulaya,C.Chen,P.L.Surdo,M.Picchianti,E.Balducci,M.Biancucci,A.Brock,F.Berti,M.J.Bottomley,M.Nissum,P.Costantino,R.Rappuoli,G.Spraggon,Structural basis for lack of toxicity of the diphtheria toxinmutant CRM197.Proceedings of the National Academy of Sciences 109,5229(2012).

87.J.de Wit,M.E.Emmelot,M.C.M.Poelen,J.Lanfermeijer,W.G.H.Han,C.vanEls,P.Kaaijk,The Human CD4(+)T Cell Response against Mumps Virus Targets aBroadly Recognized Nucleoprotein Epitope.J Virol 93,(2019).

88.M.May,C.A.Rieder,R.J.Rowe,Emergent lineages of mumps virus suggestthe need for a polyvalent vaccine.Int J Infect Dis 66,1-4(2018).

89.M.Ramamurthy,P.Rajendiran,N.Saravanan,S.Sankar,S.Gopalan,B.Nandagopal,Identification of immunogenic B-cell epitope peptides of rubellavirus E1 glycoprotein towards development of highly specific immunoassaysand/or vaccine.Conference Abstract,(2019).

90.U.S.F.Tambunan,F.R.P.Sipahutar,A.A.Parikesit,D.Kerami,VaccineDesign for H5N1 Based on B-and T-cell Epitope Predictions.Bioinform BiolInsights 10,27-35(2016).

91.Asante,EA.et.al."A naturally occurring variant of the human prionprotein completely prevents prion disease".Nature.(2015).

92.Crabtree,G.R.&Schreiber,S.L.Three-part inventions:intracellularsignaling and induced proximity.Trends Biochem.Sci.21,418–22(1996).

93.Liu,J.et al.Calcineurin Is a Common Target of A and FKBP-FK506Complexes.Cell 66,807–815(1991).

94.Keith,C.T.et al.A mammalian protein targeted by G1-arrestingrapamycin–receptor complex.Nature 369,756–758(2003).

95.Spencer,D.M.,Wandless,T.J.,Schreiber,S.L.S.&Crabtree,G.R.Controlling signal transduction with synthetic ligands.Science 262,1019–24(1993).

96.Pruschy,M.N.et al.Mechanistic studies of a signaling pathwayactivated by the organic dimerizer FK1012.Chem.Biol.1,163–172(1994).

97.Spencer,D.M.et al.Functional analysis of Fas signaling in vivousing synthetic inducers of dimerization.Curr.Biol.6,839–847(1996).

98.Belshaw,P.J.,Spencer,D.M.,Crabtree,G.R.&Schreiber,S.L.Controllingprogrammed cell death with a cyclophilin-cyclosporin-based chemical inducerof dimerization.Chem.Biol.3,731–738(1996).

99.Yang,J.X.,Symes,K.,Mercola,M.&Schreiber,S.L.Small-molecule controlof insulin and PDGF receptor signaling and the role of membraneattachment.Curr.Biol.8,11–18(1998).

100.Belshaw,P.J.,Ho,S.N.,Crabtree,G.R.&Schreiber,S.L.Controllingprotein association and subcellular localization with a synthetic ligand thatinduces heterodimerization of proteins.Proc.Natl.Acad.Sci.93,4604–4607(2002).

101.Stockwell,B.R.&Schreiber,S.L.Probing the role of homomeric andheteromeric receptor interactions in TGF-βsignaling using small moleculedimerizers.Curr.Biol.8,761–773(2004).

102.Spencer,D.M.,Graef,I.,Austin,D.J.,Schreiber,S.L.&Crabtree,G.R.Ageneral strategy for producing conditional alleles of Src-like tyrosinekinases.Proc.Natl.Acad.Sci.92,9805–9809(2006).

103.Holsinger,L.J.,Spencer,D.M.,Austin,D.J.,Schreiber,S.L.&Crabtree,G.R.Signal transduction in T lymphocytes using a conditional allele ofSos.Proc.Natl.Acad.Sci.92,9810–9814(2006).

104.Myers,M.G.Insulin Signal Transduction and the IRS Proteins.Annu.Rev.Pharmacol.Toxicol.36,615–658(1996).

105.Watowich,S.S.The erythropoietin receptor:Molecular structure andhematopoietic signaling pathways.J.Investig.Med.59,1067–1072(2011).

106.Blau,C.A.,Peterson,K.R.,Drachman,J.G.&Spencer,D.M.A proliferationswitch for genetically modified cells.Proc.Natl.Acad.Sci.94,3076–3081(2002).

107.Clackson,T.et al.Redesigning an FKBP-ligand interface to generatechemical dimerizers with novel specificity.Proc.Natl.Acad.Sci.95,10437–10442(1998).

108.Diver,S.T.&Schreiber,S.L.Single-step synthesis of cell-permeableprotein dimerizers that activate signal transduction and geneexpression.J.Am.Chem.Soc.119,5106–5109(1997).

109.Guo,Z.F.,Zhang,R.&Liang,F.Sen.Facile functionalization of FK506for biological studies by the thiol-ene‘click’reaction.RSC Adv.4,11400–11403(2014).

110.Robinson,D.R.,Wu,Y.-M.&Lin,S.-F.The protein tyrosine kinasefamily of the human genome.Oncogene 19,5548–5557(2000).

111.Landrum,M.J.et al.ClinVar:public archive of interpretations ofclinically relevant variants.Nucleic Acids Res.44,D862–D868(2016).

112.Jinek,M.et al.A Programmable Dual-RNA–Guided DNA Endonuclease inAdaptive Bacterial Immunity.Science 337,816–821(2012).

113.Cong,L.et al.Multiplex Genome Engineering Using CRISPR/CasSystems.Science339,819–823(2013).

114.Mali,P.et al.RNA-Guided Human Genome Engineering via Cas9.Science339,823–826(2013).

115.Yang,H.et al.One-Step Generation of Mice Carrying Reporter andConditional Alleles by CRISPR/Cas-Mediated Genome Engineering.Cell 154,1370–1379(2013).

116.Kim,S.,Kim,D.,Cho,S.W.,Kim,J.&Kim,J.-S.Highly efficient RNA-guided genome editing in human cells via delivery of purified Cas9ribonucleoproteins.Genome Res.24,1012–1019(2014).

117.Orlando,S.J.et al.Zinc-finger nuclease-driven targetedintegration into mammalian genomes using donors with limited chromosomalhomology.Nucleic Acids Res.38,e152–e152(2010).

118.Tsai,S.Q.et al.GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases.Nat.Biotechnol.33,187–197(2015).

119.Suzuki,K.et al.In vivo genome editing via CRISPR/Cas9 mediatedhomology-independent targeted integration.Nature 540,144–149(2016).

120.Kosicki,M.,Tomberg,K.&Bradley,A.Repair of double-strand breaksinduced by CRISPR–Cas9 leads to large deletions and complex rearrangements.Nat.Biotechnol.36,765–771(2018).

121.Haapaniemi,E.,Botla,S.,Persson,J.,Schmierer,B.&Taipale,J.CRISPR–Cas9 genome editing induces a p53-mediated DNA damage response.Nat.Med.24,927–930(2018).

122.Ihry,R.J.et al.p53 inhibits CRISPR–Cas9 engineering in humanpluripotentstem cells.Nat.Med.24,939–946(2018).

123.Chapman,J.R.,Taylor,M.R.G.&Boulton,S.J.Playing the end game:DNAdouble-strand break repair pathway choice.Mol.Cell 47,497–510(2012).

124.Cox,D.B.T.,Platt,R.J.&Zhang,F.Therapeutic genome editing:prospects and challenges.Nat.Med.21,121–131(2015).

125.Paquet,D.et al.Efficient introduction of specific homozygous andheterozygous mutations using CRISPR/Cas9.Nature 533,125–129(2016).

126.Chu,V.T.et al.Increasing the efficiency of homology-directedrepair for CRISPR-Cas9-induced precise gene editing in mammaliancells.Nat.Biotechnol.33,543–548(2015).

127.Maruyama,T.et al.Increasing the efficiency of precise genomeediting with CRISPR-Cas9 by inhibition of nonhomologous endjoining.Nat.Biotechnol.33,538–542(2015).

128.Rees,H.A.,Yeh,W.-H.&Liu,D.R.Development of hRad51–Cas9 nickasefusions that mediate HDR without double-stranded breaks.Nat.Commun.10,1–12(2019).

129.Komor,A.C.,Kim,Y.B.,Packer,M.S.,Zuris,J.A.&Liu,D.R.Programmableediting of a target base in genomic DNA without double-stranded DNAcleavage.Nature 533,420–424(2016).

130.Gaudelli,N.M.et al.Programmable base editing of A·T to G·C ingenomic DNA without DNA cleavage.Nature 551,464–471(2017).

131.Gao,X.et al.Treatment of autosomal dominant hearing loss by invivo delivery of genome editing agents.Nature 553,217–221(2018).

132.Ingram,V.M.A specific chemical difference between the globins ofnormal human and sickle-cell anaemia haemoglobin.Nature 178,792–794(1956).

133.Myerowitz,R.&Costigan,F.C.The major defect in Ashkenazi Jews withTay-Sachs disease is an insertion in the gene for the alpha-chain of beta-hexosaminidase.J.Biol.Chem.263,18587–18589(1988).

134.Zielenski,J.Genotype and Phenotype in Cystic Fibrosis.Respiration67,117–133(2000).

135.Mead,S.et al.A Novel Protective Prion Protein Variant thatColocalizes with Kuru Exposure.N.Engl.J.Med.361,2056–2065(2009).

136.Marraffini,L.A.&Sontheimer,E.J.CRISPR interference limitshorizontal gene transfer in staphylococci by targeting DNA.Science 322,1843–1845(2008).

137.Barrangou,R.et al.CRISPR provides acquired resistance againstviruses in prokaryotes.Science 315,1709–1712(2007).

138.Jiang,F.&Doudna,J.A.CRISPR–Cas9 Structures andMechanisms.Annu.Rev.Biophys.46,505–529(2017).

139.Hille,F.et al.The Biology of CRISPR-Cas:Backward and Forward.Cell172,1239–1259(2018).

140.Luan,D.D.,Korman,M.H.,Jakubczak,J.L.&Eickbush,T.H.Reversetranscription of R2Bm RNA is primed by a nick at the chromosomal target site:a mechanism for non-LTR retrotransposition.Cell 72,595–605(1993).

141.Liu,Y.,Kao,H.-I.&Bambara,R.A.Flap endonuclease 1:a centralcomponent of DNA metabolism.Annu.Rev.Biochem.73,589–615(2004).

142.Rees,H.A.&Liu,D.R.Base editing:precision chemistry on the genomeand transcriptome of living cells.Nat.Rev.Genet.19,770(2018).

143.Richardson,C.D.,Ray,G.J.,DeWitt,M.A.,Curie,G.L.&Corn,J.E.Enhancing homology-directed genome editing by catalytically active andinactive CRISPR-Cas9 using asymmetric donor DNA.Nat.Biotechnol.34,339–344(2016).

144.Qi,L.S.et al.Repurposing CRISPR as an RNA-Guided Platform forSequence-Specific Control of Gene Expression.Cell 152,1173–1183(2013).

145.Shechner,D.M.,Hacisuleyman,E.,Younger,S.T.&Rinn,J.L.Multiplexable,locus-specific targeting of long RNAs with CRISPR-Display.Nat.Methods 12,664–670(2015).

146.Tang,W.,Hu,J.H.&Liu,D.R.Aptazyme-embedded guide RNAs enableligand-responsive genome editing and transcriptional activation.Nat.Commun.8,15939(2017).

147.Jinek,M.et al.Structures of Cas9 Endonucleases Reveal RNA-Mediated Conformational Activation.Science 343,1247997(2014).

148.Nishimasu,H.et al.Crystal Structure of Cas9 in Complex with GuideRNA and Target DNA.Cell 156,935–949(2014).

149.Jiang,F.,Zhou,K.,Ma,L.,Gressel,S.&Doudna,J.A.A Cas9–guideRNAcomplex preorganized for target DNA recognition.Science 348,1477–1481(2015).

150.Baranauskas,A.et al.Generation and characterization of new highlythermostable and processive M-MuLV reverse transcriptase variants.ProteinEng.Des.Sel.25,657–668(2012).

151.Gerard,G.F.et al.The role of template-primer in protection ofreversetranscriptase from thermal inactivation.Nucleic Acids Res.30,3118–3129(2002).

152.Arezi,B.&Hogrefe,H.Novel mutations in Moloney Murine LeukemiaVirus reverse transcriptase increase thermostability through tighter bindingto template-primer.Nucleic Acids Res.37,473–481(2009).

153.Kotewicz,M.L.,Sampson,C.M.,D’Alessio,J.M.&Gerard,G.F.Isolation ofcloned Moloney murine leukemia virus reverse transcriptase lackingribonuclease H activity.Nucleic Acids Res.16,265–277(1988).

154.Shen,M.W.et al.Predictable and precise template-free CRISPRediting of pathogenic variants.Nature 563,646–651(2018).

155.Thuronyi,B.W.et al.Continuous evolution of base editors withexpanded target compatibility and improved activity.Nat.Biotechnol.(2019).doi:10.1038/s41587-019-0193-0

156.Kim,Y.B.et al.Increasing the genome-targeting scope and precisionof base editing with engineered Cas9-cytidine deaminasefusions.Nat.Biotechnol.35,371–376(2017).

157.Koblan,L.W.et al.Improving cytidine and adenine base editors byexpression optimization and ancestral reconstruction.Nat.Biotechnol.(2018).doi:10.1038/nbt.4172

158.Komor,A.C.et al.Improved base excision repair inhibition andbacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity.Sci.Adv.3,eaao4774(2017).

159.Kleinstiver,B.P.et al.High-fidelity CRISPR–Cas9 nucleases with nodetectable genome-wide off-target effects.Nature 529,490–495(2016).

160.Zuo,E.et al.Cytosine base editor generates substantial off-targetsingle-nucleotide variants in mouse embryos.Science 364,289–292(2019).

161.Jin,S.et al.Cytosine,but not adenine,base editors induce genome-wide off-target mutations in rice.Science 364,292–295(2019).

162.Kim,D.,Kim,D.,Lee,G.,Cho,S.-I.&Kim,J.-S.Genome-wide targetspecificity of CRISPR RNA-guided adenine base editors.Nat.Biotechnol.37,430–435(2019).

163.Grünewald,J.et al.Transcriptome-wide off-target RNA editinginduced by CRISPR-guided DNA base editors.Nature 569,433–437(2019).

164.Zhou,C.et al.Off-target RNA mutation induced by DNA base editingand its elimination by mutagenesis.Nature 571,275–278(2019).

165.Rees,H.A.,Wilson,C.,Doman,J.L.&Liu,D.R.Analysis and minimizationof cellular RNA editing by DNA adenine base editors.Sci.Adv.5,eaax5717(2019).

166.Ostertag,E.M.&Kazazian Jr,H.H.Biology of Mammalian L1 Retrotransposons.Annu.Rev.Genet.35,501–538(2001).

167.Griffiths,D.J.Endogenous retroviruses in the human genomesequence.Genome Biol.2,REVIEWS1017(2001).

168.Berkhout,B.,Jebbink,M.&Zsíros,J.Identification of an ActiveReverse Transcriptase Enzyme Encoded by a Human Endogenous HERV-KRetrovirus.J.Virol.73,2365–2375(1999).

169.Halvas,E.K.,Svarovskaia,E.S.&Pathak,V.K.Role of Murine LeukemiaVirus Reverse Transcriptase Deoxyribonucleoside Triphosphate-Binding Site inRetroviral Replication and In Vivo Fidelity.J.Virol.74,10349–10358(2000).

170.Dever,D.P.et al.CRISPR/Cas9 Beta-globin Gene Targeting in HumanHematopoietic Stem Cells.Nature 539,384–389(2016).

171.Park,S.H.et al.Highly efficient editing of theβ-globin gene inpatient-derived hematopoietic stem and progenitor cells to treat sickle celldisease.Nucleic Acids Res.doi:10.1093/nar/gkz475

172.Collinge,J.Prion diseases of humans and animals:their causes andmolecular basis.

Annu.Rev.Neurosci.24,519–550(2001).

173.Asante,E.A.et al.A naturally occurring variant of the human prionprotein completely prevents prion disease.Nature 522,478–481(2015).174.Anzalone,A.V.,Lin,A.J.,Zairis,S.,Rabadan,R.&Cornish,V.W.Reprogrammingeukaryotic translation with ligand-responsive synthetic RNAswitches.Nat.Methods 13,453–458(2016).

175.Badran,A.H.et al.Continuous evolution of Bacillus thuringiensistoxins overcomes insect resistance.Nature 533,58–63(2016).

176.Anders,C.&Jinek,M.Chapter One-In Vitro Enzymology of Cas9.inMethods in Enzymology(eds.Doudna,J.A.&Sontheimer,E.J.)546,1–20(AcademicPress,2014).

177.Pirakitikulr,N.,Ostrov,N.,Peralta-Yahya,P.&Cornish,V.W.PCRlesslibrary mutagenesis via oligonucleotide recombination in yeast.ProteinSci.Publ.Protein Soc.19,2336–2346(2010).

178.Clement,K.et al.CRISPResso2 provides accurate and rapid genomeediting sequence analysis.Nat.Biotechnol.37,224–226(2019).

179.Tsai,S.Q.et al.GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases.Nat.Biotechnol.33,187–197(2015).

180.Kleinstiver,B.P.et al.High-fidelity CRISPR–Cas9 nucleases with nodetectable genome-wide off-target effects.Nature 529,490–495(2016).

181.Koblan,L.W.et al.Improving cytidine and adenine base editors byexpression optimization and ancestral reconstruction.Nat.Biotechnol.(2018).doi:10.1038/nbt.4172

182.Baranauskas,A.et al.Generation and characterization of new highlythermostable and processive M-MuLV reverse transcriptase variants.ProteinEng.Des.Sel.25,657–668(2012).

183.Schechner,DM,Hacisuleyman E.,Younger ST,Rinn JL.Nat Methods 664-70(2015).

184.Brown JA,et al.Nat Struct Mol Biol 633-40(2014).

185.Conrad NA and Steitz JA.EMBO J 1831-41(2005).

186.Bartlett JS,et al.Proc Natl Acad Sci USA 8852-7(1996).

187.Mitton-Fry RM,DeGregorio SJ,Wang J,Steitz TA,Steitz JA.Science1244-7(2010).

188.Forster AC,Symons RH.Cell.1987.

189.Weinberg Z,Kim PB,Chen TH,Li S,Harris KA,Lünse CE,BreakerRR.Nat.Chem.Biol.2015.

190.Feldstein PA,Buzayan JM,Bruening G.Gene 1989.

191.Saville BJ,Collins RA.Cell.1990.

192.Roth A,Weinberg Z,Chen AG,Kim PG,Ames TD,Breaker RR.Nat ChemBiol.2013.

193.Borchardt EK,et al.RNA 1921-30(2015).

194.Zhang Y,et al.Mol Cell 792-806(2013).

195.Dang Y,et al.Genome Biol 280(2015).

196.Schaefer M,Kapoor U,and Jantsch MF.Open Biol 170077(2017).

197.Nahar S,et al.Chem Comm 2377-80(2018).

198.Gao Y and Zhao Y.J Integr Plant Biol 343-9(2014).

199.Dubois N,Marquet R,Paillart J,Bernacchi S.Front Microbiol 527(2018).

200.Costa M and Michel F.EMBO J 1276-85(1995).

201.Hu JH,et al.Nature 57-63(2018).

202.Furukawa K,Gu H,Breaker RR.Methods Mol Biol 209-20(2014).

203.Zettler,J.,Schütz,V.&Mootz,H.D.The naturally split Npu DnaEintein exhibits an extraordinarily high rate in the protein trans-splicingreaction.FEBS Lett.583,909–914(2009).

204.Kügler,S.,Kilic,E.&

M.Human synapsin 1gene promoter confershighly neuron-specific long-term transgene expression from an adenoviralvector in the adult rat brain depending on the transduced area.Gene Ther.10,337–347(2003).

205.de Felipe,P.,Hughes,L.E.,Ryan,M.D.&Brown,J.D.Co-translational,intraribosomal cleavage of polypeptides by the foot-and-mouth disease virus2A peptide.J.Biol.Chem.278,11441–11448(2003).

206.Levy,J.M.&Nicoll,R.A.Membrane-associated guanylate kinasedynamics reveal regional and developmental specificity of synapsestability.J.Physiol.595,1699–1709(2017).

207.Li,B.&Dewey,C.N.RSEM:accurate transcript quantification from RNA-Seq data with or without a reference genome.BMC Bioinformatics 12,323(2011).

208.Ritchie,M.E.et al.limma powers differential expression analysesfor RNA-sequencing and microarray studies.Nucleic Acids Res.43,e47–e47(2015).

实施方案

以下实施方案在本公开的范围内。此外，本公开包括这些实施方案的所有变化、组合和排列，其中来自一个或多个所列实施方案的一个或多个限制、元素、条款和描述性术语被引入到本部分中的另一个所列实施方案中。例如，可修改依赖于另一个实施方案的任何列出的实施方案以包括在依赖于相同基本实施方案的本部分中的任何其他列出的实施方案中存在的一个或多个限制。在元素以列表形式如以马库什组形式呈现的情况下，还公开了元素的每个亚组，并且可从组中去除任何元素。应当理解，在本公开或本公开的方面通常被称为包括特定元素和/或特征的情况下，本发明的某些实施方案或本发明的方面由这样的元素和/或特征组成或基本上由这样的元素和/或特征组成。还应注意，术语“包括”和“包含”旨在是开放的并且允许包括额外的元素或步骤。在给出范围时包括端点。此外，除非另有说明或根据上下文和本领域普通技术人员的理解显然的，否则表示为范围的值可设想本发明不同实施方案中所述范围内的任何特定值或子范围，至范围下限单位的十分之一，除非上下文另外明确指明。

组1实施方案1-212

1.融合蛋白，其包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶。

2.实施方案1的融合蛋白，其中所述融合蛋白能够在延伸的向导RNA存在下通过靶标引发的逆转录进行基因组编辑。

3.实施方案1的融合蛋白，其中所述napDNAbp具有切口酶活性。

4.实施方案1的融合蛋白，其中所述napDNAbp是Cas9蛋白或其变体。

5.实施方案1的融合蛋白，其中所述napDNAbp是核酸酶活性Cas9、核酸酶无活性Cas9(dCas9)或Cas9切口酶(nCas9)。

6.实施方案1的融合蛋白，其中所述napDNAbp是Cas9切口酶(nCas9)。

7.实施方案1的融合蛋白，其中所述napDNAbp选自：Cas9、CasX、CasY、Cpf1、C2c1、C2c2、C2C3和Argonaute蛋白，并且任选地具有切口酶活性。

8.实施方案1的融合蛋白，其中所述融合蛋白与延伸的向导RNA复合时能够结合靶DNA序列。

9.实施方案8的融合蛋白，其中所述靶DNA序列包含靶链和互补的非靶链。

10.实施方案8的融合蛋白，其中与所述延伸的向导RNA复合的融合蛋白的结合形成R环。

11.实施方案10的融合蛋白，其中所述R-环包含(i)包含所述延伸的向导RNA和所述靶链的RNA-DNA杂合体，和(ii)所述互补的非靶链。

12.实施方案11的融合蛋白，其中对所述互补的非靶链产生切口以形成具有游离3'端的逆转录酶引发序列。

13.实施方案2的融合蛋白，其中所述延伸的向导RNA包含(a)向导RNA，和(b)在所述向导RNA的5'或3'端处或在所述向导RNA的分子内位置处的RNA延伸。

14.实施方案13的融合蛋白，其中所述RNA延伸包含(i)含有期望的核苷酸变化的逆转录模板序列，(ii)逆转录引物结合位点，和(iii)任选地接头序列。

15.实施方案14的融合蛋白，其中所述逆转录模板序列编码与邻近所述切口位点的内源性DNA序列互补的单链DNA瓣，其中所述单链DNA瓣包含期望的核苷酸变化。

16.实施方案13的融合蛋白，其中所述RNA延伸长度为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、或至少25个核苷酸。

17.实施方案15的融合蛋白，其中所述单链DNA瓣与邻近所述切口位点的所述内源性DNA序列杂交，从而安装所述期望的核苷酸变化。

18.实施方案15的融合蛋白，其中所述单链DNA瓣替换邻近所述切口位点并且具有游离5′端的所述内源性DNA序列。

19.实施方案18的融合蛋白，其中所述具有5'端的内源性DNA序列被所述细胞切除。

20.实施方案18的融合蛋白，其中所述单链DNA瓣的细胞修复导致所述期望的核苷酸变化的安装，从而形成期望的产物。

21.实施方案14的融合蛋白，其中所述期望的核苷酸变化安装在PAM序列的约-4至+10之间，或PAM序列的约-10至+20之间，或PAM序列的约-20至+40之间，或PAM序列的约-30至+100之间的编辑窗口中，或其中所述期望的核苷酸变化安装在所述切口位点下游至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、或100个核苷酸。

22.实施方案1的融合蛋白，其中所述napDNAbp包含SEQ ID NO:2的氨基酸序列，或与SEQ ID NO:2的氨基酸序列至少80％、85％、90％、95％、98％、或99％相同的氨基酸序列。

23.实施方案1的融合蛋白，其中所述napDNAbp包含与SEQ ID NO:2-10的任一氨基酸序列至少80％、85％、90％、95％、98％、或99％相同的氨基酸序列。

24.实施方案1的融合蛋白，其中所述逆转录酶包含SEQ ID NO:11-17的任一氨基酸序列。

25.实施方案1的融合蛋白，其中所述逆转录酶包含与SEQ ID NO:11-17的任一氨基酸序列至少80％、85％、90％、95％、98％、或99％相同的氨基酸序列。

26.实施方案1的融合蛋白，其中所述逆转录酶是来自逆转录病毒或逆转录转座子的天然存在的逆转录酶。

27.前述实施方案中任一项的融合蛋白，其中所述融合蛋白包含结构NH₂-[napDNAbp]-[逆转录酶]-COOH；或NH₂-[逆转录酶]-[napDNAbp]-COOH，其中“]-[”的每个情况表示存在任选的接头序列。

28.实施方案27的融合蛋白，其中所述接头序列包含SEQ ID NO:37-47的氨基酸序列。

29.实施方案14的融合蛋白，其中所述期望的核苷酸变化是单核苷酸变化、一个或多个核苷酸的插入、或一个或多个核苷酸的缺失。

30.实施方案29的融合蛋白，其中所述插入或缺失为至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少21个、至少22个、至少23个、至少24个、至少25个、至少26个、至少27个、至少28个、至少29个、至少30个、至少31个、至少32个、至少33个、至少34个、至少35个、至少36个、至少37个、至少38个、至少39个、至少40个、至少41个、至少42个、至少43个、至少44个、至少45个、至少46个、至少47个、至少48个、至少49个、或至少50个。

31.延伸的向导RNA，其包含向导RNA和至少一个RNA延伸。

32.实施方案1的延伸的向导RNA，其中所述RNA延伸位于所述向导RNA的3'或5'端，或所述向导RNA的分子内位置。

33.实施方案31的延伸的向导RNA，其中所述延伸的向导RNA能够结合napDNAbp并将所述napDNAbp引导至靶DNA序列。

34.实施方案33的延伸的向导RNA，其中所述靶DNA序列包含靶链和互补的非靶链，其中所述向导RNA与所述靶链杂交形成RNA-DNA杂合体和R-环。

35.实施方案31的延伸的向导RNA，其中所述至少一个RNA延伸包含(i)逆转录模板序列，(ii)逆转录引物结合位点，和(iii)任选地接头序列。

36.实施方案35的延伸的向导RNA，其中所述RNA延伸的长度为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、或至少25个核苷酸。

37.实施方案35的延伸的向导RNA，其中所述逆转录模板序列的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、或至少15个核苷酸。

38.实施方案35的延伸的向导RNA，其中所述逆转录引物结合位点序列的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、或至少15个核苷酸。

39.实施方案35的延伸的向导RNA，其中所述任选的接头序列长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、或至少15个核苷酸。

40.实施方案35的延伸的向导RNA，其中所述逆转录模板序列编码与邻近切口位点的内源性DNA序列互补的单链DNA瓣，其中所述单链DNA瓣包含期望的核苷酸变化。

41.实施方案40的延伸的向导RNA，其中所述单链DNA瓣置换已经有切口的所述靶DNA序列中具有5'端的内源性单链DNA，并且其中所述内源性单链DNA紧邻所述切口位点的下游。

42.实施方案41的延伸的向导RNA，其中所述具有游离5'端的内源性单链DNA被所述细胞切除。

43.实施方案41的延伸的向导RNA，其中所述单链DNA瓣的细胞修复导致所述期望的核苷酸变化的安装，从而形成期望的产物。

44.实施方案31的延伸的向导RNA，其包含SEQ ID NO:18-36的核苷酸序列，或与SEQ ID NO:18-36中的任一序列具有至少85％、或至少90％、或至少95％、或至少98％、或至少99％序列同一性的核苷酸序列。

45.实施方案35的延伸的向导RNA，其中所述逆转录模板序列包含与内源性DNA靶标至少80％、或85％、或90％、或95％、或99％相同的核苷酸序列。

46.实施方案35的延伸的向导RNA，其中所述逆转录引物结合位点与切割的DNA的游离3'端杂交。

47.实施方案35的延伸的向导RNA，其中所述任选的接头序列的长度为至少1个核苷酸、或至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9、至少10、至少11、至少12、至少13、至少14、或至少15个核苷酸。

48.复合物，其包含实施方案1至30中任一项的融合蛋白和延伸的向导RNA。

49.实施方案48的复合物，其中所述延伸的向导RNA包含向导RNA和在所述向导RNA的3'或5'端处或在所述向导RNA的分子内位置处的RNA延伸。

50.实施方案48的复合物，其中所述延伸的向导RNA能够结合napDNAbp并将所述napDNAbp引导至靶DNA序列。

51.实施方案50的复合物，其中所述靶DNA序列包含靶链和互补的非靶链，其中所述向导RNA与所述靶链杂交形成RNA-DNA杂合体和R-环。

52.实施方案49的复合物，其中所述至少一个RNA延伸包含(i)逆转录模板序列，(ii)逆转录引物结合位点，和(iii)任选地接头序列。

53.实施方案48的复合物，其中所述延伸的向导RNA包含SEQ ID NO:18-36的核苷酸序列，或与SEQ ID NO:18-36中的任一序列具有至少85％、或至少90％、或至少95％、或至少98％、或至少99％序列同一性的核苷酸序列。

54.实施方案52的复合物，其中所述逆转录模板序列包含与所述内源性DNA靶标具有至少80％、或85％、或90％、或95％、或99％序列同一性的核苷酸序列。

55.实施方案52的复合物，其中所述逆转录引物结合位点与切割的DNA的游离3'端杂交。

56.复合物，其包含napDNAbp和延伸的向导RNA。

57.实施方案56的复合物，其中所述napDNAbp是Cas9切口酶。

58.实施方案56的复合物，其中所述napDNAbp包含SEQ ID NO:2的氨基酸序列，或与SEQ ID NO:2具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

59.实施方案57的复合物，其中所述napDNAbp包含与SEQID NO：2-10中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

60.实施方案57的复合物，其中所述延伸的向导RNA包含向导RNA和在所述向导RNA的3'或5'端处或在所述向导RNA的分子内位置处的RNA延伸。

61.实施方案57的复合物，其中所述延伸的向导RNA能够将所述napDNAbp引导至靶DNA序列。

62.实施方案61的复合物，其中所述靶DNA序列包含靶链和互补的非靶链，其中所述间隔区序列与所述靶链杂交形成RNA-DNA杂合体和R-环。

63.实施方案61的复合物，其中所述RNA延伸包含(i)逆转录模板序列，(ii)逆转录引物结合位点，和(iii)任选地接头序列。

64.实施方案57的复合物，其中所述延伸的向导RNA包含SEQ ID NO:18-36的核苷酸序列，或与SEQ ID NO:18-36中的任一序列具有至少85％、或至少90％、或至少95％、或至少98％、或至少99％序列同一性的核苷酸序列。

65.实施方案63的复合物，其中所述逆转录模板序列包含与所述内源性DNA靶至少80％、或85％、或90％、或95％、或99％相同的核苷酸序列。

66.实施方案63的复合物，其中所述逆转录引物结合位点与切割的DNA的游离3'端杂交。

67.实施方案63的复合物，其中所述任选的接头序列的长度为至少1个核苷酸、或至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、或至少15个核苷酸。

68.多核苷酸，其编码实施方案1至30中任一项的融合蛋白。

69.载体，其包含实施方案68的多核苷酸。

70.细胞，其包含实施方案1至30中任一项的融合蛋白和与所述融合蛋白的napDNAbp结合的延伸的向导RNA。

71.细胞，其包含实施方案48至67中任一项的复合物。

72.药物组合物，其包含：(i)实施方案1至30中任一项的融合蛋白、实施方案48至67的复合物、实施方案68的多核苷酸、或实施方案69的载体；和(ii)药学上可接受的赋形剂。

73.药物组合物，其包含：(i)实施方案48至67的复合物；(ii)以反式提供的逆转录酶；和(iii)药学上可接受的赋形剂。

74.试剂盒，其包含核酸构建体，所述核酸构建体包含：(i)编码实施方案1至30中任一项的融合蛋白的核酸序列；和(ii)驱动(i)的序列表达的启动子。

75.在双链DNA序列中安装期望的核苷酸变化的方法，该方法包括：

(i)使所述双链DNA序列与包含融合蛋白和延伸的向导RNA的复合物接触，其中所述融合蛋白包含napDNAbp和逆转录酶，并且其中所述延伸的向导RNA包含含有所述期望的核苷酸变化的逆转录模板序列；

(ii)在非靶链上对所述双链DNA序列产生切口，从而产生具有3'端的游离单链DNA；

(iii)使所述游离单链DNA的3'端与所述逆转录模板序列杂交，从而引发逆转录酶结构域；

(iv)从3'端聚合DNA链，从而产生含有所述期望的核苷酸变化的单链DNA瓣；

(v)用所述单链DNA瓣置换邻近切割位点的内源性DNA链，从而在所述双链DNA序列中安装期望的核苷酸变化。

76.实施方案75的方法，其中步骤(v)的置换包括：(i)使所述单链DNA瓣与所述邻近切割位点的内源性DNA链杂交以产生序列错配；(ii)切除所述内源性DNA链；以及(iii)修复错配以形成在两条DNA链中含有所述期望的核苷酸变化的所述期望产物。

77.实施方案76的方法，其中所述期望的核苷酸变化是单核苷酸取代、缺失或插入。

78.实施方案77的方法，其中所述单核苷酸取代是转换或颠换。

79.实施方案76的方法，其中所述期望的核苷酸变化是(1)G至T取代，(2)G至A取代，(3)G至C取代，(4)T至G取代，(5)T至A取代，(6)T至C取代，(7)C至G取代，(8)C至T取代，(9)C至A取代，(10)A至T取代，(11)A至G取代，或(12)A至C取代。

80.实施方案76的方法，其中所述期望的核苷酸变化转换(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A:T碱基对，(10)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

81.实施方案76的方法，其中所述期望的核苷酸变化是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸的插入或缺失。

82.实施方案76的方法，其中所述期望的核苷酸变化校正疾病相关基因。

83.实施方案82的方法，其中所述疾病相关基因与选自下组的单基因病症相关：腺苷脱氨酶(ADA)缺乏症；α-1抗胰蛋白酶缺乏症；囊性纤维化症；杜氏肌营养不良症；半乳糖血症；血色素沉积症；亨廷顿氏病；槭糖尿病；马凡氏综合征；1型神经纤维瘤病；先天性厚甲症；苯丙酮尿症；重度联合免疫缺陷；镰状细胞性贫血；史-李-欧综合征；和泰-萨二氏病。

84.实施方案82的方法，其中所述疾病相关基因与选自下组的多基因病症相关：心脏病；高血压；阿尔茨海默氏病；关节炎；糖尿病；癌症；和肥胖症。

85.实施方案76的方法，其中所述napDNAbp是核酸酶死亡Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9。

86.实施方案76的方法，其中所述napDNAbp包含SEQ ID NO:2的氨基酸序列。

87.实施方案76的方法，其中所述napDNAbp包含与SEQID NO：2-10中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

88.实施方案76的方法，其中所述逆转录酶包含SEQ ID NO:11-17中的任一氨基酸序列。

89.实施方案76的方法，其中所述逆转录酶结构域包含与SEQ ID NO:11-17中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

90.实施方案76的方法，其中所述延伸的向导RNA在所述向导RNA的3'或5'端处或分子内位置处包含RNA延伸，其中所述RNA延伸包含逆转录模板序列。

91.实施方案90的方法，其中所述RNA延伸的长度为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、或至少25个核苷酸。

92.实施方案76的方法，其中所述延伸的向导RNA具有选自SEQ ID NO:18-36的核苷酸序列。

93.用于在靶基因座处的DNA分子核苷酸序列中引入一个或多个变化的方法，其包括：

(i)使所述DNA分子与核酸可编程DNA结合蛋白(napDNAbp)和将所述napDNAbp靶向到靶基因座的向导RNA接触，其中所述向导RNA包含含有至少一个期望的核苷酸变化的逆转录酶(RT)模板序列；

(ii)在所述靶基因座处的DNA链中形成暴露的3'端；

(iii)使所述暴露的3'端与所述RT模板序列杂交以引发逆转录；

(iv)通过逆转录酶基于所述RT模板序列合成包含所述至少一个期望的核苷酸变化的单链DNA瓣；以及

(v)将所述至少一个期望的核苷酸变化掺入相应的内源性DNA，从而在所述靶基因座处的所述DNA分子核苷酸序列中引入一个或多个变化。

94.实施方案93的方法，其中所述核苷酸序列中的一个或多个变化包括转换。

95.实施方案94的方法，其中所述转换选自：(a)T至C；(b)A至G；(c)C至T；和(d)G至A。

96.实施方案93的方法，其中所述核苷酸序列中的所述一个或多个变化包括颠换。

97.实施方案96的方法，其中所述颠换选自：(a)T至A；(b)T至G；(c)C至G；(d)C至A；(e)A至T；(f)A至C；(g)G至C；和(h)G至T。

98.实施方案93的方法，其中所述核苷酸序列中的所述一个或多个变化包括改变(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A:T碱基对，(10)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

99.实施方案93的方法，其中所述核苷酸序列中的所述一个或多个变化包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸的插入或缺失。

100.实施方案93的方法，其中所述核苷酸序列中的所述一个或多个变化包括校正疾病相关基因。

101.实施方案100的方法，其中所述疾病相关基因与选自下组的单基因病症相关：腺苷脱氨酶(ADA)缺乏症；α-1抗胰蛋白酶缺乏症；囊性纤维化症；杜氏肌营养不良症；半乳糖血症；血色素沉积症；亨廷顿氏病；槭糖尿病；马凡氏综合征；1型神经纤维瘤病；先天性厚甲症；苯丙酮尿症；重度联合免疫缺陷；镰状细胞性贫血；史-李-欧综合征；和泰-萨二氏病。

102.实施方案100的方法，其中所述疾病相关基因与选自下组的多基因病症相关：心脏病；高血压；阿尔茨海默氏病；关节炎；糖尿病；癌症；和肥胖症。

103.实施方案93的方法，其中所述napDNAbp是核酸酶活性Cas9或其变体。

104.实施方案93的方法，其中所述napDNAbp是核酸酶无活性Cas9(dCas9)或Cas9切口酶(nCas9)，或其变体。

105.实施方案93的方法，其中所述napDNAbp包含SEQ ID NO:2的氨基酸序列。

106.实施方案93的方法，其中所述napDNAbp包含与SEQID NO：2-10中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

107.实施方案93的方法，其中所述逆转录酶以反式引入。

108.实施方案93的方法，其中所述napDNAbp包含与逆转录酶的融合物。

109.实施方案93的方法，其中所述逆转录酶包含SEQ ID NO:11-17中的任一氨基酸序列。

110.实施方案93的方法，其中所述逆转录酶包含与SEQ ID NO:11-17中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

111.实施方案93的方法，其中所述在靶基因座处的所述DNA链中形成暴露的3'端的步骤包括利用核酸酶对所述DNA链产生切口。

112.实施方案111的方法，其中所述核酸酶是napDNAbp，作为napDNAbp的融合结构域提供，或以反式提供。

113.实施方案93的方法，其中所述在靶基因座处的DNA链中形成暴露的3'端的步骤包括使所述DNA链与化学试剂接触。

114.实施方案93的方法，其中所述在靶基因座处的DNA链中形成暴露的3'端的步骤包括所述引入复制错误。

115.实施方案93的方法，其中所述使DNA分子与napDNAbp和向导RNA接触的步骤形成R-环。

116.实施方案115的方法，其中形成暴露的3'端的DNA链位于所述R-环中。

117.实施方案93的方法，其中向导RNA包含含有所述逆转录酶(RT)模板序列的延伸部分。

118.实施方案117的方法，其中所述延伸部分位于所述向导RNA的3'端、所述向导RNA的5'端或所述向导RNA的分子内位置。

119.实施方案93的方法，其中所述向导RNA还包含引物结合位点。

120.实施方案93的方法，其中所述向导RNA还包含间隔区序列。

121.实施方案93的方法，其中所述RT模板序列与相应的内源性DNA同源。

122.通过靶标引发的逆转录在靶基因座处的DNA分子核苷酸序列中引入一个或多个变化的方法，该方法包括：(a)使所述靶基因座处的所述DNA分子与(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的融合蛋白和(ii)包含含有期望的核苷酸变化的RT模板的向导RNA接触；(b)进行RT模板的靶标引发的逆转录，以产生包含所述期望的核苷酸变化的单链DNA；以及(c)通过DNA修复和/或复制过程将所述期望的核苷酸变化在所述靶基因座处掺入所述DNA分子中。

123.实施方案122的方法，其中所述RT模板位于所述向导RNA的3'端、所述向导RNA的5'端、或所述向导RNA的分子内位置。

124.实施方案122的方法，其中所述期望的核苷酸变化包括转换、颠换、插入、或缺失、或其任何组合。

125.实施方案122的方法，其中所述期望的核苷酸变化包括选自下组的转换：(a)T至C；(b)A至G；(c)C至T；和(d)G至A。

126.实施方案122的方法，其中所述期望的核苷酸变化包括选自下组的颠换：(a)T至A；(b)T至G；(c)C至G；(d)C至A；(e)A至T；(f)A至C；(g)G至C；和(h)G至T。

127.实施方案122的方法，其中所述期望的核苷酸改变包括改变(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A:T碱基对，(10)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

128.多核苷酸，其编码实施方案31至47中任一项的延伸的向导RNA。

129.载体，其包含实施方案128的多核苷酸。

130.细胞，其包含实施方案129的载体。

131.实施方案1至30中任一项的融合蛋白，其中所述逆转录酶是易错逆转录酶。

132.通过靶标引发的逆转录在靶基因座处诱变DNA分子的方法，该方法包括：(a)使所述靶基因座处的DNA分子与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和易错逆转录酶的融合蛋白和(ii)包含含有期望的核苷酸变化的RT模板的向导RNA；(b)进行RT模板的靶标引发的逆转录以产生诱变的单链DNA；和(c)通过DNA修复和/或复制过程将诱变的单链DNA在所述靶基因座处掺入所述DNA分子中。

133.实施方案132的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

134.实施方案132的方法，其中所述napDNAbp是Cas9切口酶(nCas9)。

135.实施方案132的方法，其中所述napDNAbp包含SEQ ID NO:18-25的氨基酸序列。

136.实施方案132的方法，其中所述向导RNA包含SEQ ID NO:222。

137.实施方案132的方法，其中(b)进行靶标引发的逆转录的步骤包括在所述靶基因座处产生3'端引物结合序列，其能够通过与所述向导RNA上的引物结合位点退火引发逆转录。

138.利用包含健康数目的重复三核苷酸的健康序列置换靶DNA分子中的三核苷酸重复扩增突变的方法，该方法包括：(a)使所述靶基因座处的DNA分子与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的融合蛋白和(ii)包含含有置换序列的RT模板的向导RNA，其中所述融合蛋白intr；(b)进行所述RT模板的靶标引发的逆转录以产生包含所述置换序列的单链DNA；以及(c)通过DNA修复和/或复制过程在所述靶基因座处将单链DNA掺入所述DNA分子中。

139.实施方案138的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

140.实施方案138的方法，其中所述napDNAbp是Cas9切口酶(nCas9)。

141.实施方案138的方法，其中所述napDNAbp包含SEQ ID NO:18-25的氨基酸序列。

142.实施方案138的方法，其中所述向导RNA包含SEQ ID NO:222。

143.实施方案138的方法，其中(b)进行靶标引发的逆转录的步骤包括在所述靶基因座处产生3'端引物结合序列，其通过与向导RNA的引物结合位点退火能够引发逆转录。

144.实施方案138的方法，其中所述三核苷酸重复扩增突变与亨廷顿氏病、脆性X综合征或弗里德赖希氏共济失调相关。

145.实施方案138的方法，其中所述三核苷酸重复扩增突变包含CAG三联体的重复单元。

146.实施方案138的方法，其中所述三核苷酸重复扩增突变包含GAA三联体的重复单元。

147.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装功能部分的方法，该方法包括：(a)使所述靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的引导编辑器和(ii)包含编码所述功能部分的编辑模板的PEgRNA；(b)使编码所述功能部分的单链DNA序列聚合；以及(c)通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入所述单链DNA序列代替相应的内源性链，其中该方法产生编码包含所述感兴趣的蛋白和所述功能部分的融合蛋白的重组靶核苷酸序列。

148.实施方案147的方法，其中功能部分是肽标签。

149.实施方案148的方法，其中所述肽标签是亲和标签、增溶标签、层析标签、表位标签或荧光标签。

150.实施方案148的方法，其中所述肽标签选自：AviTag(SEQ ID NO:245)；C-标签(SEQ ID NO:246)；钙调蛋白标签(SEQ ID NO:247)；聚谷氨酸标签(SEQ ID NO:248)；E-tag(SEQ ID NO:249)；FLAG-标签(SEQ ID NO:250)；HA-标签(SEQ ID NO:251)；His-标签(SEQID NO:252-262)；Myc-标签(SEQ ID NO:263)；NE-标签(SEQ ID NO:264)；Rho1D4-标签(SEQID NO:265)；S-标签(SEQ ID NO:266)；SBP-标签(SEQ ID NO:267)；Softag-1(SEQ ID NO:268)；Softag-2(SEQ ID NO:269)；Spot-标签(SEQ ID NO:270)；Strep-标签(SEQ ID NO:271)；TC标签(SEQ ID NO:272)；Ty标签(SEQ ID NO:273)；V5标签(SEQ ID NO:274)；VSV-标签(SEQ ID NO:275)；和Xpress标签(SEQ ID NO:276)。

151.实施方案148的方法，其中所述肽标签选自：AU1表位(SEQ ID NO:278)；AU5表位(SEQ ID NO:279)；噬菌体T7表位(T7-标签)(SEQ ID NO:280)；蓝舌病毒标签(B-标签)(SEQ ID NO:281)；E2表位(SEQ ID NO:282)；组氨酸亲和标签(HAT)(SEQ ID NO:283)；HSV表位(SEQ ID NO:284)；聚精氨酸(Arg-标签)(SEQ ID NO:285)；聚天冬氨酸(Asp-tag)(SEQID NO:286)；聚苯丙氨酸(Phe-标签)(SEQ ID NO:287)；S1-标签(SEQ ID NO:288)；S-标签(SEQ ID NO:289)；和VSV-G(SEQ ID NO:290)。

152.实施方案147的方法，其中所述功能部分是免疫表位。

153.实施方案152的方法，其中所述免疫表位选自：破伤风类毒素(SEQ ID NO:396)；白喉毒素突变体CRM197(SEQ ID NO:398)；流行性腮腺炎免疫表位1(SEQ ID NO:400)；流行性腮腺炎免疫表位2(SEQ ID NO:402)；流行性腮腺炎免疫表位3(SEQ ID NO:404)；风疹病毒(SEQ ID NO:406)；血凝素(SEQ ID NO:408)；神经氨酸酶(SEQ ID NO:410)；TAP1(SEQ ID NO:412)；TAP2(SEQ ID NO:414)；针对HLA I类的血凝素表位(SEQ ID NO:416)；针对HLA I类的神经氨酸酶表位(SEQ ID NO:418)；针对HLA II类的血凝素表位(SEQID NO:420)；针对HLA II类的神经氨酸酶表位(SEQ ID NO:422)；结合HLA I类和II类的H5N1血凝素表位(SEQ ID NO:424)；结合HLA I类和II类的H5N1神经氨酸酶表位(SEQ IDNO:426)。

154.实施方案147的方法，其中所述功能部分改变所述感兴趣的蛋白的定位。

155.实施方案147的方法，其中所述功能部分是使得所述感兴趣的蛋白的降解速率改变的降解标签。

156.实施方案155的方法，其中所述降解标签。

157.实施方案147的方法，其中所述功能部分是小分子结合结构域。

158.实施方案157的方法，其中所述小分子结合结构域是SEQ ID NO:488的FKBP12。

159.实施方案157的方法，其中所述小分子结合结构域是SEQ ID NO:489的FKBP12-F36V。

160.实施方案157的方法，其中所述小分子结合结构域是SEQ ID NO:492-494的亲环蛋白。

161.实施方案157的方法，其中所述小分子结合结构域安装在两种或更多种感兴趣的蛋白中。

162.实施方案161的方法，其中所述两种或更多种感兴趣的蛋白在与小分子接触时可二聚化。

163.实施方案157的方法，其中所述小分子是选自下组的小分子的二聚体：

164.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装免疫表位的方法，该方法包括：(a)使所述靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的引导编辑器，和(ii)包含编码功能部分的编辑模板的PEgRNA；(b)使编码所述免疫表位的单链DNA序列聚合；以及(c)通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入所述单链DNA序列代替相应的内源性链，其中所述方法产生编码包含所述感兴趣的蛋白和所述免疫表位的融合蛋白的重组靶核苷酸序列。

165.实施方案164的方法，其中所述免疫表位选自：破伤风类毒素(SEQ ID NO:396)；白喉毒素突变体CRM197(SEQ ID NO:398)；流行性腮腺炎免疫表位1(SEQ ID NO:400)；流行性腮腺炎免疫表位2(SEQ ID NO:402)；流行性腮腺炎免疫表位3(SEQ ID NO:404)；风疹病毒(SEQ ID NO:406)；血凝素(SEQ ID NO:408)；神经氨酸酶(SEQ ID NO:410)；TAP1(SEQ ID NO:412)；TAP2(SEQ ID NO:414)；针对HLA I类的血凝素表位(SEQ ID NO:416)；针对HLA I类的神经氨酸酶表位(SEQ ID NO:418)；针对HLA II类的血凝素表位(SEQID NO:420)；针对HLA II类的神经氨酸酶表位(SEQ ID NO:422)；结合HLA I类和II类的H5N1血凝素表位(SEQ ID NO:424)；结合HLA I类和II类的H5N1神经氨酸酶表位(SEQ IDNO:426)。

166.实施方案164的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

167.实施方案164的方法，其中所述napDNAbp是Cas9切口酶(nCas9)。

168.实施方案164的方法，其中所述napDNAbp包含SEQ ID NO:18-25的氨基酸序列。

169.实施方案164的方法，其中所述向导RNA包含SEQ ID NO:222。

170.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装小分子二聚化结构域的方法，该方法包括：(a)使所述靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的引导编辑器，和(ii)包含编码小分子二聚化结构域的编辑模板的PEgRNA；(b)使编码所述免疫表位的单链DNA序列聚合；(c)通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入所述单链DNA序列代替相应的内源性链，其中所述方法产生编码包含感兴趣的蛋白和小分子二聚化结构域的融合蛋白的重组靶核苷酸序列。

171.实施方案170的方法，其还包括对第二感兴趣的蛋白进行该方法。

172.实施方案171的方法，其中所述第一感兴趣的蛋白和所述第二感兴趣的蛋白在与所述蛋白的每个上的所述二聚化结构域结合的小分子存在下二聚化。

173.实施方案170的方法，其中所述小分子结合结构域是SEQ ID NO:488的FKBP12。

174.实施方案170的方法，其中所述小分子结合结构域是SEQ ID NO:489的FKBP12-F36V。

175.实施方案170的方法，其中所述小分子结合结构域是SEQ ID NO:492-494的亲环蛋白。

176.实施方案170所述的方法，其中所述小分子是选自下组的小分子的二聚体：

177.实施方案170的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

178.实施方案170的方法，其中所述napDNAbp是Cas9切口酶(nCas9)。

179.实施方案170的方法，其中所述napDNAbp包含SEQ ID NO:18-25的氨基酸序列。

180.实施方案170的方法，其中所述向导RNA包含SEQ ID NO:222。

181.使用引导编辑在蛋白上安装肽标签或表位的方法，其包括：使编码所述蛋白的靶核苷酸序列与引导编辑器构建体接触，所述引导编辑器构建体被配置为在其中插入编码所述肽标签的第二核苷酸序列以产生重组核苷酸序列，使得所述肽标签和所述蛋白作为融合蛋白由所述重组核苷酸序列表达。

182.实施方案181的方法，其中所述肽标签用于蛋白的纯化和/或检测。

183.实施方案181的方法，其中所述肽标签是聚组氨酸(如，HHHHHH)、FLAG(如，DYKDDDDK)、V5(如，GKPIPNPLLGLDST)、GCN4、HA(如，YPYDVPDYA)、Myc(如，EQKLISEED)、GST等。

184.实施方案181的方法，其中所述肽标签具有选自SEQ ID NO:245-290的氨基酸序列。

185.实施方案181的方法，其中所述肽标签通过接头与所述蛋白融合。

186.实施方案181的方法，其中所述融合蛋白具有以下结构：[蛋白]-[肽标签]或[肽标签]-[蛋白]，其中“]-[”代表任选的接头。

187.实施方案181的方法，其中所述接头具有SEQ ID NO:127、165-176、446、453和767-769的氨基酸序列。

188.实施方案181的方法，其中所述引导编辑器构建体包含PEgRNA，所述PEgRNA包含SEQ ID NO:18-25的核苷酸序列。

189.实施方案181的方法，其中所述PEgRNA包含间隔区、gRNA核心和延伸臂，其中所述间隔区与所述靶核苷酸序列互补，并且所述延伸臂包含编码所述肽标签的逆转录酶模板。

190.实施方案181的方法，其中所述PEgRNA包含间隔区、gRNA核心和延伸臂，其中所述间隔区与所述靶核苷酸序列互补，并且所述延伸臂包含编码所述肽标签的逆转录酶模板。

191.通过引导编辑在由靶核苷酸序列编码的PRNP中安装一个或多个保护性突变来预防或阻止朊病毒病进展的方法，该方法包括：(a)使所述靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的引导编辑器，和(ii)包含编码功能部分的编辑模板的PEgRNA；(b)使编码所述保护性突变的单链DNA序列聚合；(c)通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入所述单链DNA序列代替相应的内源性链，其中所述方法产生编码包含保护性突变且对错误折叠具有抗性的PRNP的重组靶核苷酸序列。

192.实施方案191的方法，其中所述朊病毒病是人类朊病毒病。

193.实施方案191的方法，其中所述朊病毒病是动物朊病毒病。

194.实施方案192的方法，其中所述朊病毒病是克雅氏病(CJD)、变异型克雅氏病(vCJD)、杰茨曼-斯脱司勒-史茵克综合征、致死性家族性失眠症或库鲁病。

195.实施方案193的方法，其中所述朊病毒病是牛海绵状脑病(BSE或“疯牛病”)、慢性消耗性疾病(CWD)、羊瘙痒症、传染性水貂脑病、猫海绵状脑病和有蹄类海绵状脑病。

196.实施方案191的方法，其中所述野生型PRNP氨基酸序列是SEQ ID NO:291-292。

197.实施方案191的方法，其中所述方法产生选自SEQ ID NO:293-323的经修饰的PRNP氨基酸序列，其中所述经修饰的PRNP蛋白对错误折叠具有抗性。

198.实施方案191的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

199.实施方案191的方法，其中所述napDNAbp是Cas9切口酶(nCas9)。

200.实施方案191的方法，其中所述napDNAbp包含SEQ ID NO:18-25的氨基酸序列。

201.实施方案191的方法，其中所述向导RNA包含SEQ ID NO:222。

202.通过引导编辑在由靶核苷酸序列编码的感兴趣的RNA中安装核糖核苷酸基序或标签的方法，该方法包括：(a)使所述靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的引导编辑器，和(ii)包含编码所述核糖核苷酸基序或标签的编辑模板的PEgRNA；(b)使编码所述核糖核苷酸基序或标签的单链DNA序列聚合；以及(c)通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入所述单链DNA序列代替相应的内源性链，其中所述方法产生编码包含所述核糖核苷酸基序或标签的经修饰的感兴趣的RNA的重组靶核苷酸序列。

203.实施方案202的方法，其中所述核糖核苷酸基序或标签是检测部分。

204.实施方案202的方法，其中所述核糖核苷酸基序或标签影响感兴趣的RNA的表达水平。

205.实施方案202的方法，其中所述核糖核苷酸基序或标签影响感兴趣的RNA的转运或亚细胞定位。

206.实施方案202的方法，其中所述核糖核苷酸基序或标签选自：SV401型、SV40 2型、SV40 3型、hGH、BGH、rbGlob、TK、MALAT1ENE-mascRNA、KSHV PAN ENE、Smbox/U1snRNA框、U1snRNA3'框、tRNA-赖氨酸、broccoli适体、spinach适体、mango适体、HDV核酶和m6A。

207.实施方案202的方法，其中所述PEgRNA包含SEQ ID NO:18-25。

208.实施方案202的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

209.实施方案202的方法，其中所述napDNAbp是Cas9切口酶(nCas9)。

210.实施方案202的方法，其中所述napDNAbp包含SEQ ID NO:18-25的氨基酸序列。

211.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装或删除功能部分的方法，该方法包括：(a)使所述靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的引导编辑器，和(ii)包含编码所述功能部分或其删除的编辑模板的PEgRNA；(b)使编码所述功能部分或其删除的单链DNA序列聚合；以及(c)通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入所述单链DNA序列代替相应的内源性链，其中所述方法产生编码经修饰的蛋白的重组靶核苷酸序列，所述经修饰的蛋白包含所述感兴趣的蛋白和所述功能部分或其去除，其中所述功能部分改变所述蛋白的修饰状态或定位状态。

212.实施方案211的方法，其中功能部分改变所述感兴趣的蛋白的磷酸化、泛素化、糖基化、脂化、羟基化、甲基化、乙酰化、巴豆酰化、SUMO化状态。

组2实施方案213-424

213.融合蛋白，其包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶。

214.实施方案213的融合蛋白，其中所述融合蛋白能够在引导编辑向导RNA(PEgRNA)存在下进行引导编辑。

215.实施方案213的融合蛋白，其中所述napDNAbp具有切口酶活性。

216.实施方案213的融合蛋白，其中所述napDNAbp是Cas9蛋白或其变体。

217.实施方案213的融合蛋白，其中所述napDNAbp是核酸酶活性Cas9、核酸酶无活性Cas9(dCas9)或Cas9切口酶(nCas9)。

218.实施方案213的融合蛋白，其中所述napDNAbp是Cas9切口酶(nCas9)。

219.实施方案213的融合蛋白，其中所述napDNAbp选自：Cas9、Cas12e、Cas12d、Cas12a、Cas12b1、Cas13a、Cas12c和Argonaute蛋白，并且任选地具有切口酶活性。

220.实施方案213的融合蛋白，其中所述融合蛋白与PEgRNA复合时能够结合所述靶DNA序列。

221.实施方案220的融合蛋白，其中所述靶DNA序列包含靶链和互补的非靶链。

222.实施方案220的融合蛋白，其中所述与PEgRNA复合的融合蛋白的结合形成R环。

223.实施方案222的融合蛋白，其中所述R-环包含(i)包含所述PEgRNA和所述靶链的RNA-DNA杂合体，和(ii)所述互补的非靶链。

224.实施方案223的融合蛋白，其中对所述互补的非靶链产生切口形成具有游离3'端的引发序列。

225.实施方案214的融合蛋白，其中所述PEgRNA包含(a)向导RNA和(b)在所述向导RNA的5'或3'端处或所述向导RNA的分子内位置处的延伸臂。

226.实施方案225的融合蛋白，其中所述延伸臂包含(i)包含期望的核苷酸变化的DNA合成模板序列，和(ii)引物结合位点。

227.实施方案226的融合蛋白，其中所述DNA合成模板序列编码与邻近所述切口位点的内源性DNA序列互补的单链DNA瓣，其中所述单链DNA瓣包含所述期望的核苷酸变化。

228.实施方案225的融合蛋白，其中所述延伸臂的长度为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、或至少25个核苷酸。

229.实施方案227的融合蛋白，其中所述单链DNA瓣与邻近所述切口位点的所述内源性DNA序列杂交，从而安装所述期望的核苷酸变化。

230.实施方案227的融合蛋白，其中所述单链DNA瓣置换邻近所述切口位点并具有游离5'端的内源性DNA序列。

231.实施方案230的融合蛋白，其中所述具有5'端的内源性DNA序列被所述细胞切除。

232.实施方案230的融合蛋白，其中所述单链DNA瓣的细胞修复导致所述期望的核苷酸变化的安装，从而形成所述期望的产物。

233.实施方案226的融合蛋白，其中所述期望的核苷酸变化安装在PAM序列的约-4至+10，或PAM序列的约-10至+20，或PAM序列的约-20至+40，或PAM序列的约-30至+100的编辑窗口中，或其中所述期望的核苷酸变化安装在所述切口位点下游至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、或100个核苷酸。

234.实施方案213的融合蛋白，其中所述napDNAbp包含SEQ ID NO:2的氨基酸序列，或与SEQ ID NO:2的氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

235.实施方案213的融合蛋白，其中所述napDNAbp包含与SEQ ID NO:2-10的任一序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

236.实施方案213的融合蛋白，其中所述聚合酶是包含SEQ ID NO:11-17的任一氨基酸序列的逆转录酶。

237.实施方案213的融合蛋白，其中所述聚合酶是包含与SEQ ID NO:11-17中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列的逆转录酶。

238.实施方案213的融合蛋白，其中所述聚合酶是来自逆转录病毒或逆转录转座子的天然存在的逆转录酶。

239.前述实施方案中任一项的融合蛋白，其中所述融合蛋白包含结构NH₂-[napDNAbp]-[聚合酶]-COOH；或NH2-[聚合酶]-[napDNAbp]-COOH，其中“]-[”的每个情况表示存在任选的接头序列。

240.实施方案239的融合蛋白，其中所述接头序列包含SEQ ID NO:37-47的氨基酸序列。

241.实施方案226的融合蛋白，其中所述期望的核苷酸变化是单核苷酸变化、一个或多个核苷酸的插入、或一个或多个核苷酸的缺失。

242.实施方案241的融合蛋白，其中所述插入或缺失为至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少21个、至少22个、至少23个、至少24个、至少25个、至少26个、至少27个、至少28个、至少29个、至少30个、至少31个、至少32个、至少33个、至少34个、至少35个、至少36个、至少37个、至少38个、至少39个、至少40个、至少41个、至少42个、至少43个、至少44个、至少45个、至少46个、至少47个、至少48个、至少49个、或至少50个。

243.PEgRNA，其包含向导RNA和至少一个含有DNA合成模板的核酸延伸臂。

244.实施方案241的PEgRNA，其中所述核酸延伸臂位于所述向导RNA的3'或5'端，或位于所述向导RNA的分子内位置，并且其中所述核酸延伸臂为DNA或RNA。

245.实施方案242的PEgRNA，其中所述PEgRNA能够结合napDNAbp并将所述napDNAbp引导至靶DNA序列。

246.实施方案245的PEgRNA，其中所述靶DNA序列包含靶链和互补的非靶链，其中所述向导RNA与所述靶链杂交形成RNA-DNA杂合体和R-环。

247.实施方案243的PEgRNA，其中所述至少一个核酸延伸臂包含(i)DNA合成模板，和(ii)引物结合位点。

248.实施方案247的PEgRNA，其中所述核酸延伸臂的长度为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸，或至少25个核苷酸。

249.实施方案247的PEgRNA，其中所述DNA合成模板的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、或至少15个核苷酸。

250.实施方案247的PEgRNA，其中所述引物结合位点的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、或至少15个核苷酸。

251.实施方案243的PEgRNA，其还包含至少一种选自下组的附加结构：接头、茎环、发夹、趾环、适体或RNA-蛋白募集结构域。

252.实施方案247的PEgRNA，其中所述DNA合成模板编码与邻近所述切口位点的内源性DNA序列互补的单链DNA瓣，其中所述单链DNA瓣包含期望的核苷酸变化。

253.实施方案252的PEgRNA，其中所述单链DNA瓣置换已经有切口的靶DNA序列中具有5'端的内源性单链DNA，并且其中所述内源性单链DNA紧邻所述切口位点的下游。

254.实施方案253的PEgRNA，其中所述具有游离5'端的内源性单链DNA被所述细胞切除。

255.实施方案253的PEgRNA，其中所述单链DNA瓣的细胞修复导致所述期望的核苷酸变化的安装，从而形成期望的产物。

256.实施方案243的PEgRNA，其包含SEQ ID NO:18-36的核苷酸序列，或与SEQ IDNO:18-36中的任一序列具有至少85％、或至少90％、或至少95％、或至少98％、或至少99％序列同一性的核苷酸序列。

257.实施方案247的PEgRNA，其中所述DNA合成模板包含与所述内源性DNA靶标至少80％、或85％、或90％、或95％、或99％相同的核苷酸序列。

258.实施方案247的PEgRNA，其中所述引物结合位点与切割的DNA的游离3'端杂交。

259.实施方案251的PEgRNA，其中所述至少一个附加结构位于所述PEgRNA的3'或5'端。

260.复合物，其包含实施方案213至242中任一项的融合蛋白和PEgRNA。

261.实施方案260的复合物，其中所述PEgRNA包含向导RNA和在所述向导RNA的3'或5'端或所述向导RNA的分子内位置的核酸延伸臂。

262.实施方案260的复合物，其中所述PEgRNA能够结合napDNAbp并将所述napDNAbp引导至靶DNA序列。

263.实施方案262的复合物，其中所述靶DNA序列包含靶链和互补的非靶链，其中所述向导RNA与所述靶链杂交形成RNA-DNA杂合体和R-环。

264.实施方案261的复合物，其中所述至少一个核酸延伸臂包含(i)DNA合成模板，和(ii)引物结合位点。

265.实施方案260的复合物，其中所述PEgRNA包含SEQ ID NO:18-36的核苷酸序列，或与SEQ ID NO:18-36中的任一序列具有至少85％、或至少90％、或至少95％、或至少98％、或至少99％序列同一性的核苷酸序列。

266.实施方案264的复合物，其中所述DNA合成模板包含与内源性DNA靶标至少80％、或85％、或90％、或95％、或99％相同的核苷酸序列。

267.实施方案264的复合物，其中所述引物结合位点与切割的DNA的游离3'端杂交。

268.复合物，其包含napDNAbp和PEgRNA。

269.实施方案268的复合物，其中所述napDNAbp是Cas9切口酶。

270.实施方案268的复合物，其中所述napDNAbp包含SEQ ID NO:2的氨基酸序列。

271.实施方案268的复合物，其中所述napDNAbp包含与SEQ ID NO:2-10中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

272.实施方案268的复合物，其中所述PEgRNA包含所述向导RNA和在所述向导RNA的3'或5'端或在所述向导RNA的分子内位置的核酸延伸臂。

273.实施方案268的复合物，其中所述PEgRNA能够将napDNAbp引导至靶DNA序列。

274.实施方案272的复合物，其中所述靶DNA序列包含靶链和互补的非靶链，其中所述PEgRNA的间隔区序列与所述靶链杂交形成RNA-DNA杂合体和R-环。

275.实施方案273的复合物，其中所述核酸延伸臂包含(i)DNA合成模板，和(ii)引物结合位点。

276.实施方案269的复合物，其中所述PEgRNA包含SEQ ID NO:18-36的核苷酸序列，或与SEQ ID NO:18-36中的任一序列具有至少85％、或至少90％、或至少95％、或至少98％、或至少99％序列同一性的核苷酸序列。

277.实施方案276的复合物，其中所述DNA合成模板包含与内源性DNA靶标至少80％、或85％、或90％、或95％、或99％相同的核苷酸序列。

278.实施方案276的复合物，其中所述引物结合位点与切割的DNA的游离3'端杂交。

279.实施方案276的复合物，其中所述PEgRNA还包含至少一种选自下组的附加结构：接头、茎环、发夹、趾环、适体或RNA-蛋白募集结构域。

280.多核苷酸，其编码实施方案213至242中任一项的融合蛋白。

281.载体，其包含实施方案280的多核苷酸。

282.细胞，其包含实施方案213至242中任一项的融合蛋白和与所述融合蛋白的napDNAbp结合的PEgRNA。

283.细胞，其包含实施方案260至279中任一项的复合物。

284.药物组合物，其包含：(i)实施方案213至242中任一项的融合蛋白、实施方案260至279的复合物、实施方案68的多核苷酸、或实施方案69的载体；和(ii)药学上可接受的赋形剂。

285.药物组合物，其包含：(i)实施方案260至279的复合物，(ii)以反式提供的聚合酶；和(iii)药学上可接受的赋形剂。

286.包含核酸构建体的试剂盒，所述核酸构建体包含：(i)编码实施方案213至242中任一项的融合蛋白的核酸序列；和(ii)驱动(i)的序列表达的启动子。

287.在双链DNA序列中安装期望的核苷酸变化的方法，该方法包括：

(i)使所述双链DNA序列与包含融合蛋白和PEgRNA的复合物接触，其中所述融合蛋白包含napDNAbp和聚合酶，并且其中所述PEgRNA包含含有所述期望的核苷酸变化的DNA合成模板和引物结合位点；

(ii)对所述双链DNA序列产生切口，从而产生具有3'端的游离单链DNA；

(iii)使所述游离单链DNA的3'端与所述引物结合位点杂交，从而引发所述聚合酶；

(iv)自与所述引物结合位点杂交的3'端聚合DNA链，从而产生包含所述期望的核苷酸变化且与所述DNA合成模板互补的单链DNA瓣；

(v)利用所述单链DNA瓣置换邻近所述切割位点的内源性DNA链，从而在所述双链DNA序列中安装所述期望的核苷酸变化。

288.实施方案287的方法，其中(v)置换的步骤包括：(i)使所述单链DNA瓣与邻近所述切割位点的所述内源性DNA链杂交以产生序列错配；(ii)切除所述内源性DNA链；并且(iii)修复所述错配以在两条DNA链中形成包含所述期望的核苷酸变化的所述期望的产物。

289.实施方案288的方法，其中所述期望的核苷酸变化是单核苷酸取代、缺失或插入。

290.实施方案289的方法，其中所述单核苷酸取代是转换或颠换。

291.实施方案288的方法，其中所述期望的核苷酸变化是(1)G至T取代，(2)G至A取代，(3)G至C取代，(4)T至G取代，(5)T至A取代，(6)T至C取代，(7)C至G取代，(8)C至T取代，(9)C至A取代，(10)A至T取代，(11)A至G取代，或(12)A至C取代。

292.实施方案288的方法，其中所述期望的核苷酸变化转换(1)G:C碱基至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，C:G碱基对至A:T碱基对，(10)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

293.实施方案288的方法，其中所述期望的核苷酸变化是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸的插入或缺失。

294.实施方案288的方法，其中所述期望的核苷酸变化校正疾病相关基因。

295.实施方案294的方法，其中所述疾病相关基因与选自下组的单基因病症相关：腺苷脱氨酶(ADA)缺乏症；α-1抗胰蛋白酶缺乏症；囊性纤维化症；杜氏肌营养不良症；半乳糖血症；血色素沉积症；亨廷顿氏病；槭糖尿病；马凡氏综合征；1型神经纤维瘤病；先天性厚甲症；苯丙酮尿症；重度联合免疫缺陷；镰状细胞性贫血；史-李-欧综合征；三核苷酸重复病症；朊病毒病；和泰-萨二氏病。

296.实施方案294的方法，其中所述疾病相关基因与选自下组的多基因病症相关：心脏病；高血压；阿尔茨海默氏病；关节炎；糖尿病；癌症；和肥胖症。

297.实施方案287的方法，其中所述napDNAbp为核酸酶死亡Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9。

298.实施方案287的方法，其中所述napDNAbp包含SEQ ID NO:2的氨基酸序列，或与SEQ ID NO:2的氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

299.实施方案287的方法，其中所述napDNAbp包含与SEQID NO：2-10中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

300.实施方案287的方法，其中所述聚合酶是包含SEQ ID NO:11-17中的任一氨基酸序列的逆转录酶。

301.实施方案287的方法，其中所述聚合酶是包含与SEQ ID NO:11-17中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列的逆转录酶。

302.实施方案287的方法，其中所述PEgRNA在所述向导RNA的3'或5'端或分子内位置处包含核酸延伸臂，其中所述延伸臂包含所述DNA合成模板序列和所述引物结合位点。

303.实施方案302的方法，其中所述延伸臂的长度为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、或至少25个核苷酸。

304.实施方案287的方法，其中所述PEgRNA具有选自SEQ ID NO:18-36的核苷酸序列。

305.在靶基因座处在DNA分子核苷酸序列中引入一个或多个变化的方法，其包括：

(i)使所述DNA分子与核酸可编程DNA结合蛋白(napDNAbp)和将napDNAbp靶向到所述靶基因座的PEgRNA接触，其中所述PEgRNA包含含有至少一个期望的核苷酸变化的逆转录酶(RT)模板序列和引物结合位点；

(ii)在所述靶基因座处在DNA链中形成暴露的3'端；

(iii)使暴露的3'端与所述引物结合位点杂交以引发逆转录；

(v)将所述至少一个期望的核苷酸变化掺入相应的内源性DNA，从而在所述靶基因座处在所述DNA分子核苷酸序列中引入一个或多个变化。

306.实施方案305的方法，其中所述核苷酸序列中的一个或多个变化包括转换。

307.实施方案306的方法，其中所述转换选自：(a)T至C；(b)A至G；(c)C至T；和(d)G至A。

308.实施方案305的方法，其中所述核苷酸序列中的所述一个或多个变化包括颠换。

309.实施方案308的方法，其中所述颠换选自：(a)T至A；(b)T至G；(c)C至G；(d)C至A；(e)A至T；(f)A至C；(g)G至C；和(h)G至T。

310.实施方案305的方法，其中所述核苷酸序列中的所述一个或多个变化包括改变(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A:T碱基对，(9)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

311.实施方案305的方法，其中所述核苷酸序列中的所述一个或多个变化包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸的插入或缺失。

312.实施方案305的方法，其中所述核苷酸序列中的一个或多个变化包括校正疾病相关基因。

313.实施方案312的方法，其中所述疾病相关基因与选自下组的单基因病症相关：腺苷脱氨酶(ADA)缺乏症；α-1抗胰蛋白酶缺乏症；囊性纤维化症；杜氏肌营养不良症；半乳糖血症；血色素沉积症；亨廷顿氏病；槭糖尿病；马凡氏综合征；1型神经纤维瘤病；先天性厚甲症；苯丙酮尿症；重度联合免疫缺陷；镰状细胞性贫血；史-李-欧综合征；三核苷酸重复病症；朊病毒病；和泰-萨二氏病。

314.实施方案312的方法，其中所述疾病相关基因与选自下组的多基因病症相关：心脏病；高血压；阿尔茨海默氏病；关节炎；糖尿病；癌症；和肥胖症。

315.实施方案305的方法，其中所述napDNAbp是核酸酶活性Cas9或其变体。

316.实施方案305的方法，其中所述napDNAbp是核酸酶无活性Cas9(dCas9)或Cas9切口酶(nCas9)，或其变体。

317.实施方案305的方法，其中所述napDNAbp包含SEQ ID NO:2的氨基酸序列，或与SEQ ID NO:2具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

318.实施方案305的方法，其中所述napDNAbp包含与SEQ ID NO:2-10中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

319.实施方案305的方法，其中所述逆转录酶以反式引入。

320.实施方案305的方法，其中所述napDNAbp包含与逆转录酶的融合物。

321.实施方案305的方法，其中所述逆转录酶包含SEQ ID NO:11-17中的任一氨基酸序列。

322.实施方案305的方法，其中所述逆转录酶包含与SEQ ID NO:11-17中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

323.实施方案305的方法，其中在所述靶基因座处在DNA链中形成暴露的3'端的步骤包括利用核酸酶对所述DNA链产生切口。

324.实施方案323的方法，其中所述核酸酶以反式提供。

325.实施方案305的方法，其中在所述靶基因座处在所述DNA链中形成暴露的3'端的步骤包括使所述DNA链与化学试剂接触。

326.实施方案305的方法，其中在所述靶基因座处在所述DNA链中形成暴露的3'端的步骤包括引入复制错误。

327.实施方案305的方法，其中使所述DNA分子与所述napDNAbp和所述向导RNA接触的步骤形成R-环。

328.实施方案327的方法，其中形成所述暴露的3'端的DNA链位于所述R-环中。

329.实施方案315的方法，其中所述PEgRNA包含含有所述逆转录酶(RT)模板序列和所述引物结合位点的延伸臂。

330.实施方案329的方法，其中所述延伸臂在所述向导RNA的3'端、所述向导RNA的5'端或所述向导RNA的分子内位置。

331.实施方案305的方法，其中所述PEgRNA还包含至少一种选自下组的附加结构：接头、茎环、发夹、趾环、适体或RNA-蛋白募集结构域。

332.实施方案305的方法，其中所述PEgRNA还包含同源臂。

333.实施方案305的方法，其中所述RT模板序列与相应的内源性DNA同源。

334.通过靶标引发的逆转录在靶基因座处在DNA分子的核苷酸序列中引入一个或多个变化的方法，所述方法包括：(a)使所述靶基因座的DNA分子与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的融合蛋白质，和(ii)包含含有期望的核苷酸变化的RT模板的向导RNA；(b)进行所述RT模板的靶标引发的逆转录，以产生包含所述期望的核苷酸变化的单链DNA；以及(c)通过DNA修复和/或复制过程在所述靶基因座处将所述期望的核苷酸变化掺入所述DNA分子中。

335.实施方案334的方法，其中所述RT模板位于所述向导RNA的3'端、所述向导RNA的5'端或所述向导RNA的分子内位置。

336.实施方案334的方法，其中所述期望的核苷酸变化包括转换、颠换、插入、或缺失、或其任何组合。

337.实施方案334的方法，其中所述期望的核苷酸变化包括选自下组的转换：(a)T至C；(b)A至G；(c)C至T；和(d)G至A。

338.实施方案334的方法，其中所述期望的核苷酸变化包括选自下组的颠换：(a)T至A；(b)T至G；(c)C至G；(d)C至A；(e)A至T；(f)A至C；(g)G至C；和(h)G至T。

339.实施方案334的方法，其中所述期望的核苷酸变化包括改变(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A:T碱基对，(10)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

340.多核苷酸，其编码实施方案243至259中任一项的PEgRNA。

341.载体，其包含实施方案340的多核苷酸。

342.细胞，其包含实施方案341的载体。

343.实施方案213的融合蛋白，其中所述聚合酶是易错逆转录酶。

344.通过靶标引发的逆转录在靶基因座诱变DNA分子的方法，所述方法包括：(a)使所述靶基因座处的DNA分子与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和易错逆转录酶的融合蛋白，和(ii)包含含有期望的核苷酸变化的RT模板的向导RNA；(b)进行RT模板的靶标引发的逆转录，以产生诱变的单链DNA；以及(c)通过DNA修复和/或复制过程在所述靶位点处将所述诱变的单链DNA掺入所述DNA分子中。

345.任何前述实施方案的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

346.任何前述实施方案的方法，其中所述napDNAbp是Cas9切口酶(nCas9)。

347.实施方案344的方法，其中所述napDNAbp包含SEQ ID NO:18-25的氨基酸序列。

348.实施方案344的方法，其中所述向导RNA包含SEQ ID NO:26-36。

349.实施方案344的方法，其中(b)进行靶标引发的逆转录的步骤包括在所述靶基因座处产生3’端引物结合序列，其通过与所述向导RNA上的引物结合位点退火引发逆转录。

350.用包含健康数目的重复三核苷酸的健康序列置换靶DNA分子中的三核苷酸重复扩增突变的方法，所述方法包括：(a)使所述靶基因座处的所述DNA分子与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的融合蛋白，和(ii)包含含有置换序列和引物结合位点的DNA合成模板的PEgRNA；(b)进行引导编辑以生成包含置换序列的单链DNA；以及(c)通过DNA修复和/或复制过程在所述靶基因座处将所述单链DNA掺入所述DNA分子中。

351.实施方案350的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

352.实施方案350的方法，其中所述napDNAbp是Cas9切口酶(nCas9)。

353.实施方案350的方法，其中所述napDNAbp包含SEQ ID NO:18-25的氨基酸序列。

354.实施方案350的方法，其中所述向导RNA包含SEQ ID NO:26-36。

355.实施方案350的方法，其中(b)进行引导编辑的步骤包括在所述靶基因座处产生3’端引物结合序列，其通过与所述向导RNA上的引物结合位点退火引发逆转录。

356.实施方案350的方法，其中所述三核苷酸重复扩增突变与亨廷顿氏病、脆性X综合征或弗里德赖希氏共济失调相关。

357.实施方案350的方法，其中所述三核苷酸重复扩增突变包含CAG三联体的重复单元。

358.实施方案350的方法，其中所述三核苷酸重复扩增突变包含GAA三联体的重复单元。

359.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装功能部分的方法，该方法包括：(a)使所述靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含编码所述功能部分的DNA合成模板的PEgRNA；(b)使编码所述功能部分的单链DNA序列聚合；以及(c)通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入所述单链DNA序列代替相应的内源性链，其中所述方法产生编码包含所述感兴趣的蛋白和所述功能部分的融合蛋白的重组靶核苷酸序列。

360.实施方案359的方法，其中功能部分是肽标签。

361.实施方案360的方法，其中所述肽标签为亲和标签、增溶标签、层析标签、表位或免疫表位标签、或荧光标签。

362.实施方案360的方法，其中所述肽标签选自：AviTag(SEQ ID NO:245)；C-标签(SEQ ID NO:246)；钙调蛋白标签(SEQ ID NO:247)；聚谷氨酸标签(SEQ ID NO:248)；E-tag(SEQ ID NO:249)；FLAG-标签(SEQ ID NO:250)；HA-标签(SEQ ID NO:251)；His-标签(SEQID NO:252-262)；Myc-标签(SEQ ID NO:263)；NE-标签(SEQ ID NO:264)；Rho1D4-标签(SEQID NO:265)；S-标签(SEQ ID NO:266)；SBP-标签(SEQ ID NO:267)；Softag-1(SEQ ID NO:268)；Softag-2(SEQ ID NO:269)；Spot-标签(SEQ ID NO:270)；Strep-标签(SEQ ID NO:271)；TC标签(SEQ ID NO:272)；Ty标签(SEQ ID NO:273)；V5标签(SEQ ID NO:274)；VSV-标签(SEQ ID NO:275)；和Xpress标签(SEQ ID NO:276)。

363.实施方案360的方法，其中所述肽标签选自：AU1表位(SEQ ID NO:278)；AU5表位(SEQ ID NO:279)；噬菌体T7表位(T7-标签)(SEQ ID NO:280)；蓝舌病毒标签(B-标签)(SEQ ID NO:281)；E2表位(SEQ ID NO:282)；组氨酸亲和标签(HAT)(SEQ ID NO:283)；HSV表位(SEQ ID NO:284)；聚精氨酸(Arg-标签)(SEQ ID NO:285)；聚天冬氨酸(Asp-tag)(SEQID NO:286)；聚苯丙氨酸(Phe-标签)(SEQ ID NO:287)；S1-标签(SEQ ID NO:288)；S-标签(SEQ ID NO:289)；和VSV-G(SEQ ID NO:290)。

364.实施方案359的方法，其中所述功能部分是免疫表位。

365.实施方案364的方法，其中所述免疫表位选自：破伤风类毒素(SEQ ID NO:396)；白喉毒素突变体CRM197(SEQ ID NO:398)；流行性腮腺炎免疫表位1(SEQ ID NO:400)；流行性腮腺炎免疫表位2(SEQ ID NO:402)；流行性腮腺炎免疫表位3(SEQ ID NO:404)；风疹病毒(SEQ ID NO:406)；血凝素(SEQ ID NO:408)；神经氨酸酶(SEQ ID NO:410)；TAP1(SEQ ID NO:412)；TAP2(SEQ ID NO:414)；针对HLA I类的血凝素表位(SEQ ID NO:416)；针对HLA I类的神经氨酸酶表位(SEQ ID NO:418)；针对HLA II类的血凝素表位(SEQID NO:420)；针对HLA II类的神经氨酸酶表位(SEQ ID NO:422)；结合HLA I类和II类的H5N1血凝素表位(SEQ ID NO:424)；结合HLA I类和II类的H5N1神经氨酸酶表位(SEQ IDNO:426)。

366.实施方案359的方法，其中所述功能部分改变所述感兴趣的蛋白的定位。

367.实施方案359的方法，其中所述功能部分是使得所述感兴趣的蛋白的降解速率改变的降解标签。

368.实施方案367的方法，其中所述降解标签导致消除带标签的蛋白。

369.实施方案359的方法，其中所述功能部分是小分子结合结构域。

370.实施方案359的方法，其中所述小分子结合结构域是SEQ ID NO:488的FKBP12。

371.实施方案359的方法，其中所述小分子结合结构域是SEQ ID NO:489的FKBP12-F36V。

372.实施方案359的方法，其中所述小分子结合结构域是SEQ ID NO:492-494的亲环蛋白。

373.实施方案359的方法，其中所述小分子结合结构域安装在两个或更多个感兴趣的蛋白中。

374.实施方案373的方法，其中所述两个或更多个感兴趣的蛋白在与小分子接触时可二聚化。

375.实施方案369所述的方法，其中所述小分子是选自下组的小分子的二聚体：

376.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装免疫表位的方法，所述方法包括：(a)使所述靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器接触，和(ii)包含编码功能部分的编辑模板的PEgRNA；(b)使编码所述免疫表位的单链DNA序列聚合；(c)通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入所述单链DNA序列代替相应的内源性链，其中所述方法产生编码包含所述感兴趣的蛋白和所述免疫表位的融合蛋白的重组靶核苷酸序列。

377.实施方案376的方法，其中所述免疫表位选自：破伤风类毒素(SEQ ID NO:396)；白喉毒素突变体CRM197(SEQ ID NO:398)；流行性腮腺炎免疫表位1(SEQ ID NO:400)；流行性腮腺炎免疫表位2(SEQ ID NO:402)；流行性腮腺炎免疫表位3(SEQ ID NO:404)；风疹病毒(SEQ ID NO:406)；血凝素(SEQ ID NO:408)；神经氨酸酶(SEQ ID NO:410)；TAP1(SEQ ID NO:412)；TAP2(SEQ ID NO:414)；针对HLA I类的血凝素表位(SEQ ID NO:416)；针对HLA I类的神经氨酸酶表位(SEQ ID NO:418)；针对HLA II类的血凝素表位(SEQID NO:420)；针对HLA II类的神经氨酸酶表位(SEQ ID NO:422)；结合HLA I类和II类的H5N1血凝素表位(SEQ ID NO:424)；结合HLA I类和II类的H5N1神经氨酸酶表位(SEQ IDNO:426)。

378.实施方案376的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

379.实施方案376的方法，其中所述napDNAbp是Cas9切口酶(nCas9)。

380.实施方案376的方法，其中所述napDNAbp包含SEQ ID NO:18-25的氨基酸序列。

381.实施方案376的方法，其中所述PEgRNA包含SEQ ID NO:26-36。

382.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装小分子二聚化结构域的方法，所述方法包括：(a)使所述靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含编码所述小分子二聚化结构域的编辑模板的PEgRNA；(b)使编码免疫表位的单链DNA序列聚合；(c)通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入所述单链DNA序列代替相应的内源性链，其中所述方法产生编码包含所述感兴趣的蛋白和所述小分子二聚化结构域的融合蛋白的重组靶核苷酸序列。

383.实施方案382的方法，其还包括对第二感兴趣的蛋白进行该方法。

384.实施方案383的方法，其中所述第一感兴趣的蛋白和所述第二感兴趣的蛋白在与所述蛋白的每个上的所述二聚化结构域结合的小分子存在下二聚化。

385.实施方案382的方法，其中所述小分子结合结构域是SEQ ID NO:488的FKBP12。

386.实施方案382的方法，其中所述小分子结合结构域是SEQ ID NO:489的FKBP12-F36V。

387.实施方案382的方法，其中所述小分子结合结构域是SEQ ID NO:492-494的亲环蛋白。

388.实施方案382的方法，其中小分子是选自下组的小分子的二聚体：

389.实施方案382的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

390.实施方案382的方法，其中所述napDNAbp是Cas9切口酶(nCas9)。

391.实施方案382的方法，其中所述napDNAbp包含SEQ ID NO:18-25的氨基酸序列。

392.实施方案382的方法，其中所述PEgRNA包含SEQ ID NO:26-36。

393.利用引导编辑在蛋白上安装肽标签或表位的方法，其包括：使编码所述蛋白的靶核苷酸序列与引导编辑器构建体接触，所述引导编辑器构建体被配置为在其中插入编码所述肽标签的第二核苷酸序列以产生重组核苷酸序列，使得所述肽标签和所述蛋白作为融合蛋白由所述重组核苷酸序列表达。

394.实施方案383的方法，其中所述肽标签用于蛋白的纯化和/或检测。

395.实施方案383的方法，其中所述肽标签为聚组氨酸(如，HHHHHH)、FLAG(如，DYKDDDDK)、V5(如，GKPIPNPLLGLDST)、GCN4、HA(如，YPYDVPDYA)、Myc(如，EQKLISEED)、或GST。

396.实施方案383的方法，其中所述肽标签具有选自SEQ ID NO:245-290的氨基酸序列。

397.实施方案383的方法，其中所述肽标签通过接头与所述蛋白融合。

398.实施方案383的方法，其中所述融合蛋白具有以下结构：[蛋白]-[肽标签]或[肽标签]-[蛋白]，其中“]-[”代表任选的接头。

399.实施方案383的方法，其中所述接头具有SEQ ID NO:37-47的氨基酸序列。

400.实施方案383的方法，其中所述引导编辑器构建体包含PEgRNA，所述PEgRNA包含SEQ ID NO:18-25的核苷酸序列。

401.实施方案383的方法，其中所述PEgRNA包含间隔区、gRNA核心和延伸臂，其中所述间隔区与所述靶核苷酸序列互补，并且所述延伸臂包含编码所述肽标签的逆转录酶模板。

402.实施方案383的方法，其中所述PEgRNA包含间隔区、gRNA核心和延伸臂，其中所述间隔区与所述靶核苷酸序列互补，并且所述延伸臂包含编码所述肽标签的逆转录酶模板。

403.通过引导编辑对由靶核苷酸序列编码的PRNP中安装一个或多个保护性突变来预防或阻止朊病毒病进展的方法，所述方法包括：(a)使所述靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含编码功能部分的编辑模板的PEgRNA；(b)使编码所述保护性突变的单链DNA序列聚合；以及(c)通过DNA修复和/或复制过程在靶核苷酸序列处掺入单链DNA序列代替相应的内源性链，其中所述方法产生编码包含所述保护性突变且对错误折叠具有抗性的PRNP的重组靶核苷酸序列。

404.实施方案403的方法，其中所述朊病毒病是人类朊病毒病。

405.实施方案403的方法，其中所述朊病毒病是动物朊病毒病。

406.实施方案404的方法，其中所述朊病毒病是克雅氏病(CJD)、变异型克雅氏病(vCJD)、杰茨曼-斯脱司勒-史茵克综合征、致死性家族性失眠症或库鲁病。

407.实施方案403的方法，其中所述朊病毒病是牛海绵状脑病(BSE或“疯牛病”)、慢性消耗性疾病(CWD)、羊瘙痒症、传染性水貂脑病、猫海绵状脑病和有蹄类海绵状脑病。

408.实施方案403的方法，其中所述野生型PRNP氨基酸序列是SEQ ID NO:291-292。

409.实施方案403的方法，其中所述方法产生选自SEQ ID NO:293-323的经修饰的PRNP氨基酸序列，其中所述经修饰的PRNP蛋白对错误折叠具有抗性。

410.实施方案403的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

411.实施方案403的方法，其中所述napDNAbp是Cas9切口酶(nCas9)。

412.实施方案403的方法，其中所述napDNAbp包含SEQ ID NO:18-25的氨基酸序列。

413.实施方案403的方法，其中所述PEgRNA包含SEQ ID NO:26-36。

414.通过引导编辑在由靶核苷酸序列编码的感兴趣的RNA中安装核糖核苷酸基序或标签的方法，所述方法包括：(a)使所述靶核苷酸序列接触以下：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含编码所述核糖核苷酸基序或标签的编辑模板的PEgRNA；(b)使编码所述核糖核苷酸基序或标签的单链DNA序列聚合；(c)通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入所述单链DNA序列代替相应的内源性链，其中所述方法产生编码含有所述核糖核苷酸基序或标签的经修饰的感兴趣的RNA的重组靶核苷酸序列。

415.实施方案414的方法，其中所述核糖核苷酸基序或标签为检测部分。

416.实施方案414的方法，其中所述核糖核苷酸基序或标签影响感兴趣的RNA的表达水平。

417.实施方案414的方法，其中所述核糖核苷酸基序或标签影响感兴趣的RNA的转运或亚细胞定位。

418.实施方案414的方法，其中所述核糖核苷酸基序或标签选自：SV401型、SV40 2型、SV40 3型、hGH、BGH、rbGlob、TK、MALAT1ENE-mascRNA、KSHVPANENE、Smbox/U1snRNA框、U1snRNA3'框、tRNA-赖氨酸、broccoli适体、spinach适体、mango适体、HDV核酶和m6A。

419.实施方案414的方法，其中所述PEgRNA包含SEQ ID NO:18-25。

420.实施方案414的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

421.实施方案414的方法，其中所述napDNAbp是Cas9切口酶(nCas9)。

422.实施方案414的方法，其中所述napDNAbp包含SEQ ID NO:18-25的氨基酸序列。

423.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装或删除功能部分的方法，所述方法包括：(a)使所述靶核苷酸序列与以下接触：(i)包含可编程核酸DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含编码功能部分或其删除的编辑模板的PEgRNA；(b)使编码功能部分或其删除的单链DNA序列聚合；(c)通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入所述单链DNA序列代替相应的内源性链，其中所述方法产生编码包含所述感兴趣的蛋白和所述功能部分或其去除的经修饰的蛋白的重组靶核苷酸序列，其中所述功能部分改变所述蛋白的修饰状态或定位状态。

424.实施方案423的方法，其中所述功能部分改变所述感兴趣的蛋白的磷酸化、泛素化、糖基化、脂化、羟基化、甲基化、乙酰化、巴豆酰化、SUMO化状态。

组A.融合蛋白、向导物和方法

实施方案1.融合蛋白，其包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶。

实施方案2.实施方案1的融合蛋白，其中所述融合蛋白能够在延伸的向导RNA的存在下通过靶标引发的逆转录进行基因组编辑。

实施方案3.实施方案1的融合蛋白，其中所述napDNAbp具有切口酶活性。

实施方案4.实施方案1的融合蛋白，其中所述napDNAbp是Cas9蛋白或其变体。

实施方案5.实施方案1的融合蛋白，其中所述napDNAbp2是核酸酶活性Cas9、核酸酶死无活性亡Cas9(dCas9)或Cas9切口酶(nCas9)。

实施方案6.实施方案1的融合蛋白，其中所述napDNAbp是Cas9切口酶(nCas9)。

实施方案7.实施方案1的融合蛋白，其中所述napDNAbp选自：Cas9、CasX、CasY、Cpf1、C2c1、C2c2、C2C3和Argonaute蛋白，并且任选地具有切口酶活性。

实施方案8.实施方案1的融合蛋白，其中所述融合蛋白在与延伸的向导RNA复合时能够结合靶DNA序列。

实施方案9.实施方案8的融合蛋白，其中所述靶DNA序列包含靶链和互补的非靶链。

实施方案10.实施方案8的融合蛋白，其中与所述延伸的向导RNA复合的所述融合蛋白的结合形成R环。

实施方案11.实施方案10的融合蛋白，其中所述R-环包含(i)包含所述延伸的向导RNA和所述靶链的RNA-DNA杂合体，和(ii)所述互补的非靶链。

实施方案12.实施方案11的融合蛋白，其中对所述互补的非靶链产生切口以形成具有游离3'端的逆转录酶引发序列。

实施方案13.实施方案2的融合蛋白，其中所述延伸的向导RNA包含(a)向导RNA，和(b)在所述向导RNA的5'或3'端或所述向导RNA中的分子内定位的RNA延伸。

实施方案14.实施方案13的融合蛋白，其中所述RNA延伸包含(i)包含期望的核苷酸变化的逆转录模板序列，(ii)逆转录引物结合位点，和(iii)任选地接头序列。

实施方案15.实施方案14的融合蛋白，其中所述逆转录模板序列编码与邻近所述切口位点的内源性DNA序列互补的单链DNA瓣，其中所述单链DNA瓣包含期望的核苷酸变化。

实施方案16.实施方案13的融合蛋白，其中所述RNA延伸的长度为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、或至少25个核苷酸。

实施方案17.实施方案15的融合蛋白，其中所述单链DNA瓣与所述邻近切口位点的内源性DNA序列杂交，从而安装所述期望的核苷酸变化。

实施方案18.实施方案15的融合蛋白，其中单链DNA瓣置换邻近切口位点且具有游离的5'端的内源性DNA序列。

实施方案19.实施方案18的融合蛋白，其中所述具有5'端的内源性DNA序列被细胞切除。

实施方案20.实施方案18的融合蛋白，其中所述单链DNA瓣的细胞修复导致安装所述期望的核苷酸变化，从而形成期望的产物。

实施方案21.实施方案14的融合蛋白，其中所述期望的核苷酸变化安装在PAM序列的约-4至+10，或PAM序列的约-10至+20，或PAM序列的约-20至+40，或PAM序列的约-30至+100的编辑窗口中，或其中期望的核苷酸变化安装在切口位点下游至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、或100个核苷酸。

实施方案22.实施方案1的融合蛋白，其中所述napDNAbp包含SEQ ID NO:18的氨基酸序列，或与SEQ ID NO:18的氨基酸序列至少80％、85％、90％、95％、98％或99％相同的氨基酸序列。

实施方案23.实施方案1的融合蛋白，其中所述napDNAbp包含与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487中的任一氨基酸序列至少80％、85％、90％、95％、98％、或99％相同的氨基酸序列。

实施方案1的融合蛋白，其中所述逆转录酶包含SEQ ID NO:89的任一氨基酸序列。

实施方案24.实施方案1的融合蛋白，其中所述逆转录酶包含SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列。

实施方案1的融合蛋白，其中所述逆转录酶包含与SEQ ID NO:89中的任一氨基酸序列至少80％、85％、90％、95％、98％或99％相同的氨基酸序列。

实施方案25.实施方案1的融合蛋白，其中所述逆转录酶包含与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、7039、143、149、154、471、516、662、7007、707-16741和766中的任一氨基酸序列至少80％、85％、90％、95％、98％、或99％相同的氨基酸序列。

实施方案26.实施方案1的融合蛋白，其中所述逆转录酶是来自逆转录病毒或逆转录转座子的天然存在的逆转录酶。

实施方案27.前述实施方案中任一项的融合蛋白，其中所述融合蛋白包含结构NH2-[napDNAbp]-[逆转录酶]-COOH；或NH2-[逆转录酶]-[napDNAbp]-COOH，其中“]-[”的每个情况表示存在任选的接头序列。

实施方式28.实施方案27的融合蛋白，其中所述接头序列包含SEQ ID NO:127、165-176、446、453和767-769的氨基酸序列。

实施方案29.实施方案14的融合蛋白，其中所述期望的核苷酸变化是单核苷酸变化、一个或多个核苷酸的插入、或一个或多个核苷酸的缺失。

实施方案30.实施方案29的融合蛋白，其中所述插入或缺失为至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少21个、至少22个、至少23个、至少24个、至少25个、至少26个、至少27个、至少28个、至少29个、至少30个、至少31个、至少32个、至少33个、至少34个、至少35个、至少36个、至少37个、至少38个、至少39个、至少40个、至少41个、至少42个、至少43个、至少44个、至少45个、至少46个、至少47个、至少48个、至少49个、或至少50个。

实施方案31.延伸的向导RNA，其包含向导RNA和至少一个RNA延伸。

实施方案32.实施方案31的延伸的向导RNA，其中所述RNA延伸位于所述向导RNA的3'或5'端或所述向导RNA的分子内位置。

实施方案33.实施方案31的延伸的向导RNA，其中所述延伸的向导RNA能够结合napDNAbp并将所述napDNAbp引导至靶DNA序列。

实施方案34.实施方案33的延伸的向导RNA，其中所述靶DNA序列包含靶链和互补的非靶链，其中所述向导RNA与靶链杂交形成RNA-DNA杂合体和R-环形。

实施方案35.实施方案31的延伸的向导RNA，其中所述至少一个RNA延伸包含(i)逆转录模板序列，(ii)逆转录引物结合位点，和(iii)任选的接头序列。

实施方案36.实施方案35的延伸的向导RNA，其中所述RNA延伸的长度为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、或至少25个核苷酸。

实施方案37.实施方案35的延伸的向导RNA，其中所述逆转录模板序列的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、长度至少为9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、或至少15个核苷酸。

实施方案38.实施方案35的延伸的向导RNA，其中所述逆转录引物结合位点序列的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、或至少15个核苷酸。

实施方案39.实施方案35的延伸的向导RNA，其中任选的接头序列的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、或至少15个核苷酸。

实施方案40.实施方案35的延伸的向导RNA，其中所述逆转录模板序列编码与邻近所述切口位点的内源性DNA序列互补的单链DNA瓣，其中所述单链DNA瓣包含期望的核苷酸变化。

实施方案41.实施方案40的延伸的向导RNA，其中所述单链DNA瓣置换被已经有切口的靶DNA序列中具有5'端的内源性单链DNA，并且其中所述内源性单链DNA紧邻所述切口位点的下游。

实施方案42.实施方案41的延伸的向导RNA，其中所述具有游离5'端的内源性单链DNA被所述细胞切除。

实施方案43.实施方案41的延伸的向导RNA，其中所述单链DNA瓣的细胞修复导致安装所述期望的核苷酸变化，从而形成所述期望的产物。

实施方案44.实施方案31的延伸的向导RNA，其包含SEQ ID NO:18-36的核苷酸序列，或与SEQ ID NO:394、429-442、641-649、678-692、2997-3103、3113-3121、3305-3455、3479-3493、3522-3556、3628-3698和3755-3810中的任一序列具有至少85％、或至少90％、或至少95％、或至少98％、或至少99％序列同一性的核苷酸序列。

实施方案45.实施方案35的延伸的向导RNA，其中所述逆转录模板序列包含与内源性DNA靶标至少80％、或85％、或90％、或95％、或99％相同的核苷酸序列。

实施方案46.实施方案35的延伸的向导RNA，其中所述逆转录引物结合位点与切割的DNA的游离3'端杂交。

实施方案47.实施方案35的延伸的向导RNA，其中所述任选的接头序列的长度为至少1个核苷酸，或至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、或至少15个核苷酸。

实施方案48.复合物，其包含实施方案1至30中任一项的融合蛋白和延伸的向导RNA。

实施方案49.实施方案48的复合物，其中所述延伸的向导RNA包含在所述向导RNA和所述向导RNA的3'或5'端或所述向导RNA的分子内位置的RNA延伸。

实施方案50.实施方案48的复合物，其中所述延伸的向导RNA能够结合napDNAbp并将所述napDNAbp引导至靶DNA序列。

实施方案51.实施方案50的复合物，其中所述靶DNA序列包含靶链和互补的非靶链，其中所述向导RNA与所述靶链杂交形成RNA-DNA杂合体和R-环。

实施方案52.实施方案49的复合物，其中所述至少一个RNA延伸包含(i)逆转录模板序列，(ii)逆转录引物结合位点，和(iii)任选的接头序列。

实施方案53.实施方案48的复合物，其中所述延伸的向导RNA包含SEQ ID NO:394、429-442、641-649、678-692、2997-3103、3113-3121、3305-3455、3479-3493、3522-3556、3628-3698和3755-3810的核苷酸序列，或与SEQ ID NO:394、429-442、641-649、678-692、2997-3103、3113-3121、3305-3455、3479-3493、3522-3556、3628-3698、和3755-3810中的任一序列具有至少85％、或至少90％、或至少95％、或至少98％、或至少99％序列同一性的核苷酸序列。

实施方案54.实施方案52的复合物，其中所述逆转录模板序列包含与所述内源性DNA靶标具有至少80％、或85％、或90％、或95％、或99％序列同一性的核苷酸序列。

实施方案55.实施方案52的复合物，其中所述逆转录引物结合位点与切割的DNA的游离3'端杂交。

实施方案56.复合物，其包含napDNAbp和延伸的向导RNA。

实施方案57.实施方案56的复合物，其中所述napDNAbp是Cas9切口酶。

实施方案58.实施方案56的复合物，其中所述napDNAbp包含SEQ ID NO:18的氨基酸序列，或与SEQ ID NO:18具有至少80％、85％、90％、95％、98％、或具有99％序列同一性的氨基酸序列。

实施方案59.实施方案57的复合物，其中所述napDNAbp包含与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

实施方案60.实施方案57的复合物，其中所述延伸的向导RNA包含所述向导RNA和在所述向导RNA的3'或5'端或所述向导RNA的分子内位置的RNA延伸。

实施方案61.实施方案57的复合物，其中所述延伸的向导RNA能够将napDNAbp引导至靶DNA序列。

实施方案62.实施方案61的复合物，其中所述靶DNA序列包含靶链和互补的非靶链，其中所述间隔区序列与所述靶链杂交形成RNA-DNA杂合体和R-环。

实施方案63.实施方案61的复合物，其中所述RNA延伸包含(i)逆转录模板序列，(ii)逆转录引物结合位点，和(iii)任选的接头序列。

实施方案64.实施方案57的复合物，其中所述延伸的向导RNA包含SEQ ID NO:394、429-442、641-649、678-692、2997-3103、3113-3121、3305-3455、3479-3493、3522-3556、3628-3698和3755-3810的核苷酸序列，或与SEQ ID NO:394、429-442、641-649、678-692、2997-3103、3113-3121、3305-3455、3479-3493、3522-3556、3628-3698和3755-3810中的任一序列具有至少85％、或至少90％、或至少95％、或至少98％、或至少99％序列同一性的核苷酸序列。

实施方案65.实施方案63的复合物，其中所述逆转录模板序列包含与所述内源性DNA靶标至少80％、或85％、或90％、或95％、或99％相同的核苷酸序列。

实施方案66.实施方案63的复合物，其中所述逆转录引物结合位点与切割的DNA的游离3'端杂交。

实施方案67.实施方案63的复合物，其中所述任选的接头序列的长度为至少1个核苷酸，或至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、或至少15个核苷酸。

实施方案68.多核苷酸，其编码实施方案1至30中任一项的融合蛋白。

实施方案69.载体，其包含实施方案68的多核苷酸。

实施方案70.细胞，其包含实施方案1至30中任一项的融合蛋白和与融合蛋白的napDNAbp结合的延伸的向导RNA。

实施方案71.细胞，其包含实施方案48至67中任一项的复合物。

实施方案72.药物组合物，其包含：(i)实施方案1至30中任一项的融合蛋白、实施方案48至67的复合物、实施方案68的多核苷酸、或实施方案69的载体；和(ii)药学上可接受的赋形剂。

实施方案73.药物组合物，其包含：(i)实施方案48至67的复合物，(ii)以反式提供的逆转录酶；和(iii)药学上可接受的赋形剂。

实施方案74.试剂盒，其包含核酸构建体，所述核酸构建体包含：(i)编码实施方案1至30中任一项的融合蛋白的核酸序列；和(ii)驱动(i)的序列表达的启动子。

实施方案75.在双链DNA序列中安装期望的核苷酸变化的方法，所述方法包括：

(i)使双链DNA序列与包含融合蛋白和延伸的向导RNA的复合物接触，其中所述融合蛋白包含napDNAbp和逆转录酶，并且其中所述延伸的向导RNA包含含有期望的核苷酸变化的逆转录模板序列；

(ii)对所述非靶链的双链DNA序列产生切口，从而产生具有3'端的游离单链DNA；

(iii)使所述游离单链DNA的3'端与所述逆转录模板序列杂交，从而引发所述逆转录酶结构域；

(iv)使DNA的链从3'端聚合，从而产生包含所述期望的核苷酸变化的单链DNA瓣；

实施方案76.实施方案75的方法，其中(v)置换的步骤包括：(i)使所述单链DNA瓣与邻近所述切割位点的内源性DNA链杂交以产生序列错配；(ii)切除内源性DNA链；以及(iii)修复错配以在所述两条DNA链中形成包含所述期望的核苷酸变化的所述期望的产物。

实施方案77.实施方案76的方法，其中所述期望的核苷酸变化是单核苷酸取代、缺失或插入。

实施方案78.实施方案77的方法，其中所述单核苷酸取代是转换或颠换。

实施方案79.实施方案76的方法，其中所述期望的核苷酸变化是(1)G至T取代，(2)G至A取代，(3)G至C取代，(4)T至G取代，(5)T至A取代，(6)T至C取代，(7)C至G取代，(8)C至T取代，(9)C至A取代，(10)A至T取代，(11)A至G取代，或(12)A至C取代。

实施方案80.实施方案76的方法，其中所述期望的核苷酸变化转换(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A:T碱基对，(10)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

实施方案81.实施方案76的方法，其中所述期望的核苷酸变化是插入或缺失1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸。

实施方案82.实施方案76的方法，其中所述期望的核苷酸变化校正疾病相关基因。

实施方案83.实施方案82的方法，其中所述疾病相关基因与选自下组的单基因病症相关：腺苷脱氨酶(ADA)缺乏症；α-1抗胰蛋白酶缺乏症；囊性纤维化症；杜氏肌营养不良症；半乳糖血症；血色素沉积症；亨廷顿氏病；槭糖尿病；马凡氏综合征；1型神经纤维瘤病；先天性厚甲症；苯丙酮尿症；重度联合免疫缺陷；镰状细胞性贫血；史-李-欧综合征；和泰-萨二氏病。

实施方案84.实施方案82的方法，其中所述疾病相关基因与选自下组的多基因病症相关：心脏病；高血压；阿尔茨海默氏病；关节炎；糖尿病；癌症；和肥胖症。

实施方案85.实施方案76的方法，其中所述napDNAbp为核酸酶死亡Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9。

实施方案86.实施方案76的方法，其中所述napDNAbp包含SEQ ID NO:18的氨基酸序列。

实施方案87.实施方案76的方法，其中所述napDNAbp包含与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

实施方案88.实施方案76的方法，其中所述逆转录酶包含SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列。

实施方案89.实施方案76的方法，其中所述逆转录酶结构域包含与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、7039、143、149、154、471、516、662、700、701-716、739-741和766中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

实施方案90.实施方案76的方法，其中所述延伸的向导RNA包含在所述向导RNA的3'或5'端处或分子内位置处的RNA延伸，其中所述RNA延伸包含所述逆转录模板序列。

实施方案91.实施方案90的方法，其中所述RNA延伸的长度为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、或至少25个核苷酸。

实施方案92.实施方案76的方法，其中所述延伸的向导RNA具有选自SEQ ID NO:394、429-442、641-649、678-692、2997-3103、3113-3121、3305-3455、3479-3493、3522-3556、3628-3698和3755-3810的核苷酸序列。

实施方案93.在靶基因座处在DNA分子核苷酸序列中引入一个或多个变化的方法，其包括：

(i)使所述DNA分子与核酸可编程DNA结合蛋白(napDNAbp)和将napDNAbp靶向到所述靶基因座的向导RNA接触，其中所述向导RNA包含含有至少一个期望的核苷酸变化的逆转录酶(RT)模板序列；

(ii)在靶基因座处的DNA链中形成暴露的3'端；

(iii)使暴露的3'端与所述RT模板序列杂交以引发逆转录；

(iv)通过逆转录酶基于所述RT模板序列合成包含至少一个期望的核苷酸变化的单链DNA瓣；以及

(v)将所述至少一个期望的核苷酸变化掺入相应的内源性DNA中，从而在所述靶基因座处在DNA分子的核苷酸序列中引入所述一个或多个变化。

实施方案94.实施方案93的方法，其中所述核苷酸序列中的一个或多个变化包括转换。

实施方案95.实施方案94的方法，其中所述转换选自：(a)T至C；(b)A至G；(c)C至T；和(d)G至A。

实施方案96.实施方案93的方法，其中所述核苷酸序列中的所述一个或多个变化包括颠换。

实施方案97.实施方案96的方法，其中所述颠换选自：(a)T至A；(b)T至G；(c)C至G；(d)C至A；(e)A至T；(f)A至C；(g)G至C；和(h)G到T。

实施方案98.实施方案93的方法，其中所述核苷酸序列中的所述一个或多个变化包括改变(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A:T碱基对，(10)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

实施方案99.实施方案93的方法，其中所述核苷酸序列中的一个或多个变化包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸的插入或缺失。

实施方案100.实施方案93的方法，其中所述核苷酸序列中的所述一个或多个变化包括校正疾病相关基因。

实施方案101.实施方案100的方法，其中所述疾病相关基因与选自下组的单基因病症相关：腺苷脱氨酶(ADA)缺乏症；α-1抗胰蛋白酶缺乏症；囊性纤维化症；杜氏肌营养不良症；半乳糖血症；血色素沉积症；亨廷顿氏病；槭糖尿病；马凡氏综合征；1型神经纤维瘤病；先天性厚甲症；苯丙酮尿症；重度联合免疫缺陷；镰状细胞性贫血；史-李-欧综合征；和泰-萨二氏病。

实施方案102.实施方案100的方法，其中所述疾病相关基因与选自下组的多基因病症相关：心脏病；高血压；阿尔茨海默氏病；关节炎；糖尿病；癌症；和肥胖症。

实施方案103.实施方案93的方法，其中所述napDNAbp为核酸酶活性Cas9或其变体。

实施方案104.实施方案93的方法，其中所述napDNAbp为核酸酶无活性Cas9(dCas9)或Cas9切口酶(nCas9)，或其变体。

实施方案105.实施方案93的方法，其中所述napDNAbp包含SEQ ID NO:18的氨基酸序列。

实施方案106.实施方案93的方法，其中所述napDNAbp包含与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

实施方案107.实施方案93的方法，其中所述逆转录酶以反式引入。

实施方案108.实施方案93的方法，其中所述napDNAbp包含与逆转录酶的融合物。

实施方案109.实施方案93的方法，其中所述逆转录酶包含SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列。

实施方案110.实施方案93的方法，其中所述逆转录酶包含与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

实施方案111.实施方案93的方法，其中在所述靶基因座处在所述DNA链中形成暴露的3'端的步骤包括利用核酸酶对所述DNA链产生切口。

实施方案112.实施方案111的方法，其中所述核酸酶为napDNAbp，其以napDNAbp的融合域提供，或以反式提供。

实施方案113.实施方案93的方法，其中在所述靶基因座处在所述DNA链中形成暴露的3'端的步骤包括使所述DNA链与化学试剂接触。

实施方案114.实施方案93的方法，其中在所述靶基因座处在所述DNA链中形成暴露的3'端的步骤包括引入复制错误。

实施方案115.实施方案93的方法，其中使所述DNA分子与所述napDNAbp和所述向导RNA接触的步骤形成R-环。

实施方案116.实施方案115的方法，其中形成所述暴露的3'端的DNA链位于所述R-环中。

实施方案117.实施方案93的方法，其所述中向导RNA包含含有逆转录酶(RT)模板序列的延伸部分。

实施方案118.实施方案117的方法，其中所述延伸部分位于向导RNA的3'端、所述向导RNA的5'端或所述向导RNA的分子内位置。

实施方案119.实施方案93的方法，其中所述向导RNA还包含引物结合位点。

实施方案120.实施方案93的方法，其中所述向导RNA还包含间隔区序列。

实施方案121.实施方案93的方法，其中所述RT模板序列与相应的内源性DNA同源。

实施方案122.通过靶标引发的逆转录在靶基因座处在DNA分子的核苷酸序列中引入一个或多个变化的方法，该方法包括：(a)使所述靶基因座处的所述DNA分子与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的融合蛋白，和(ii)包含含有期望的核苷酸变化的RT模板的向导RNA；(b)进行所述RT模板的靶标引发的逆转录，以产生包含所述期望的核苷酸变化的单链DNA；以及(c)通过DNA修复和/或复制过程在所述靶基因座处将所述期望的核苷酸变化掺入所述DNA分子中。

实施方案123.实施方案122的方法，其中所述RT模板位于所述向导RNA的3'端、所述向导RNA的5'端或所述向导RNA的分子内位置。

实施方案124.实施方案122的方法，其中所述期望的核苷酸变化包括转换、颠换、插入、或缺失，或其任何组合。

实施方案125.权利要求122的方法，其中所述期望的核苷酸变化包括选自下组的转换：(a)T至C；(b)A至G；(c)C至T；和(d)G至A。

实施方案126.权利要求122的方法，其中所述期望的核苷酸变化包括选自下组的颠换：(a)T至A；(b)T至G；(c)C至G；(d)C至A；(e)A至T；(f)A至C；(g)G至C；和(h)G至T。

实施方案127.实施方案122的方法，其中所述期望的核苷酸变化包括改变(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A:T碱基对，(10)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

实施方案128.多核苷酸，其编码实施方案31-47中任一项的延伸的向导RNA。

实施方案129.载体，其包含实施方案128的多核苷酸。

实施方案130.细胞，其包含实施方案129的载体。

实施方案131.实施方案1-30中任一项所述的融合蛋白，其中逆转录酶是易错逆转录酶。

实施方案132.通过靶标引发的逆转录在靶基因座处诱变DNA分子的方法，该方法包括：(a)使所述靶基因座处的所述DNA分子与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和易错逆转录酶的融合蛋白和(ii)包含含有期望的核苷酸变化的RT模板的向导RNA；(b)进行所述RT模板的靶标引发的逆转录以产生诱变的单链DNA；以及(c)通过DNA修复和/或复制过程在所述靶基因座处将所述诱变的单链DNA掺入所述DNA分子中。

实施方案133.实施方案132的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案134.实施方案132的方法，其中所述napDNAbp为Cas9切口酶(nCas9)。

实施方案135.实施方案132的方法，其中所述napDNAbp包含SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487的氨基酸序列。

实施方案136.实施方案132的方法，其中所述向导RNA包含SEQ ID NO:222。

实施方案137.实施方案132的方法，其中(b)进行靶标引发的逆转录的步骤包括在所述靶基因座处产生3'端引物结合序列，其能够通过与向导RNA的引物结合位点退火引发逆转录。

实施方案138.利用包含健康数目的重复三核苷酸的健康序列置换靶DNA分子中的三核苷酸重复扩增突变的方法，该方法包括：(a)使所述靶基因座处的所述DNA分子与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的融合蛋白，和(ii)包含含有置换序列的RT模板的向导RNA，其中所述融合蛋白intr；(b)进行所述RT模板的靶标引发的逆转录以产生包含置换序列的单链DNA；以及(c)通过DNA修复和/或复制过程在所述靶基因座处将所述单链DNA掺入所述DNA分子中。

实施方案139.实施方案138的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案140.实施方案138的方法，其中所述napDNAbp为Cas9切口酶(nCas9)。

实施方案141.实施方案138的方法，其中所述napDNAbp包含SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487的氨基酸序列。

实施方案142.实施方案138的方法，其中所述向导RNA包含SEQ ID NO:222。

实施方案143.实施方案138的方法，其中(b)进行靶标引发的逆转录的步骤包括在所述靶基因座处产生3'端引物结合序列，其能够通过与所述向导RNA的引物结合位点退火引发逆转录。

实施方案144.实施方案138的方法，其中所述三核苷酸重复扩增突变与亨廷顿氏病、脆性X综合征或弗里德赖希氏共济失调相关。

实施方案145.实施方案138的方法，其中所述三核苷酸重复扩增突变包含CAG三联体的重复单元。

实施方案146.实施方案138的方法，其中所述三核苷酸重复扩增突变包含GAA三联体的重复单元。

实施方案147.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装功能部分的方法，该方法包括：(a)使所述靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的引导编辑器，和(ii)包含编码功能部分的编辑模板的PEgRNA；(b)使编码功能部分的单链DNA序列聚合；以及(c)通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入所述单链DNA序列代替相应的内源性链，其中该方法产生编码包含所述感兴趣的蛋白和所述功能部分的融合蛋白的重组靶核苷酸序列。

实施方案148.实施方案147的方法，其中功能部分是肽标签。

实施方案149.实施方案148的方法，其中所述肽标签是亲和标签、增溶标签、层析标签、表位标签或荧光标签。

实施方案150.实施方案148的方法，其中所述肽标签选自：AviTag(SEQ ID NO:245)；C-标签(SEQ ID NO:246)；钙调蛋白标签(SEQ ID NO:247)；聚谷氨酸标签(SEQ IDNO:248)；E-tag(SEQ ID NO:249)；FLAG-标签(SEQ ID NO:2)；HA-标签(SEQ ID NO:5)；His-标签(SEQ ID NO:252-262)；Myc-标签(SEQ ID NO:6)；NE-标签(SEQ ID NO:264)；Rho1D4-标签(SEQ ID NO:265)；S-标签(SEQ ID NO:266)；SBP-标签(SEQ ID NO:267)；Softag-1(SEQ ID NO:268)；Softag-2(SEQ ID NO:269)；Spot-标签(SEQ ID NO:270)；Strep-标签(SEQ ID NO:271)；TC标签(SEQ ID NO:272)；Ty标签(SEQ ID NO:273)；V5标签(SEQ ID NO:3)；VSV-标签(SEQ ID NO:275)；和Xpress标签(SEQ ID NO:276)。

实施方案151.实施方案148的方法，其中所述肽标签选自：AU1表位(SEQ ID NO:278)；AU5表位(SEQ ID NO:279)；噬菌体T7表位(T7-标签)(SEQ ID NO:280)；蓝舌病毒标签(B-标签)(SEQ ID NO:281)；E2表位(SEQ ID NO:282)；组氨酸亲和标签(HAT)(SEQ ID NO:283)；HSV表位(SEQ ID NO:284)；聚精氨酸(Arg-标签)(SEQ ID NO:285)；聚天冬氨酸(Asp-tag)(SEQ ID NO:286)；聚苯丙氨酸(Phe-标签)(SEQ ID NO:287)；S1-标签(SEQ ID NO:288)；S-标签(SEQ ID NO:266)；和VSV-G(SEQ ID NO:275)。

实施方案152.实施方案147的方法，其中所述功能部分是免疫表位。

实施方案153.实施方案152的方法，其中所述免疫表位选自：破伤风类毒素(SEQID NO:396)；白喉毒素突变体CRM197(SEQ ID NO:398)；流行性腮腺炎免疫表位1(SEQ IDNO:400)；流行性腮腺炎免疫表位2(SEQ ID NO:402)；流行性腮腺炎免疫表位3(SEQ ID NO:404)；风疹病毒(SEQ ID NO:406)；血凝素(SEQ ID NO:408)；神经氨酸酶(SEQ ID NO:410)；TAP1(SEQ ID NO:412)；TAP2(SEQ ID NO:414)；针对HLA I类的血凝素表位(SEQ ID NO:416)；针对HLA I类的神经氨酸酶表位(SEQ ID NO:418)；针对HLA II类的血凝素表位(SEQID NO:420)；针对HLA II类的神经氨酸酶表位(SEQ ID NO:422)；结合HLA I类和II类的H5N1血凝素表位(SEQ ID NO:424)；结合HLA I类和II类的H5N1神经氨酸酶表位(SEQ IDNO:426)。

实施方案154.实施方案147的方法，其中所述功能部分改变所述感兴趣的蛋白质的定位。

实施方案155.实施方案147的方法，其中所述功能部分为使得所述感兴趣的蛋白的降解速率改变的降解标签。

实施方案156.实施方案155的方法，其中所述降解标签包含编码如本文公开的所述降解标签的氨基酸序列。

实施方案157.实施方案147的方法，其中所述功能部分是小分子结合结构域。

实施方案158.实施方案157的方法，其中所述小分子结合结构域是SEQ ID NO:488的FKBP12。

实施方案159.实施方案157的方法，其中所述小分子结合结构域是SEQ ID NO:489的FKBP12-F36V。

实施方案160.实施方案157的方法，其中所述小分子结合结构域是SEQ ID NO:492-494的亲环蛋白。

实施方案161.实施方案157的方法，其中所述小分子结合结构域安装在两个或更多个感兴趣的蛋白中。

实施方案162.实施方案161的方法，其中所述两个或更多个感兴趣的蛋白在与小分子接触时可二聚化。

实施方案163.实施方案157的方法，其中所述小分子是选自第1组的实施方案163中公开的那些化合物的小分子的二聚体。

实施方案164.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装免疫表位的方法，该方法包括：(a)使所述靶核苷酸序列与以下接触：(i)核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的引导编辑器，和(ii)包含编码所述功能部分的编辑模板的PEgRNA；(b)使编码所述免疫表位的单链DNA序列聚集；(c)通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入所述单链DNA序列代替相应的内源性链，其中该方法产生编码包含所述感兴趣的蛋白和所述免疫表位的融合蛋白的重组靶核苷酸序列。

实施方案165.实施方案164的方法，其中所述免疫表位选自：破伤风类毒素(SEQID NO:396)；白喉毒素突变体CRM197(SEQ ID NO:398)；流行性腮腺炎免疫表位1(SEQ IDNO:400)；流行性腮腺炎免疫表位2(SEQ ID NO:402)；流行性腮腺炎免疫表位3(SEQ ID NO:404)；风疹病毒(SEQ ID NO:406)；血凝素(SEQ ID NO:408)；神经氨酸酶(SEQ ID NO:410)；TAP1(SEQ ID NO:412)；TAP2(SEQ ID NO:414)；针对HLA I类的血凝素表位(SEQ ID NO:416)；针对HLA I类的神经氨酸酶表位(SEQ ID NO:418)；针对HLA II类的血凝素表位(SEQID NO:420)；针对HLA II类的神经氨酸酶表位(SEQ ID NO:422)；结合HLA I类和II类的H5N1血凝素表位(SEQ ID NO:424)；结合HLA I类和II类的H5N1神经氨酸酶表位(SEQ IDNO:426)。

实施方案166.实施方案164的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案167.实施方案164的方法，其中所述napDNAbp为Cas9切口酶(nCas9)。

实施方案168.实施方案164的方法，其中所述napDNAbp包含SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和472-48的氨基酸序列。

实施方案169.实施方案164的方法，其中所述向导RNA包含SEQ ID NO:222。

实施方案170.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装小分子二聚化结构域的方法，该方法包括：(a)使所述靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的引导编辑器，和(ii)包含编码小分子二聚化结构域的编辑模板的PEgRNA；(b)使编码所述免疫表位的单链DNA序列聚合；(c)通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入所述单链DNA序列代替相应的内源性链，其中该方法产生编码包含所述感兴趣的蛋白和所述小分子二聚化结构域的融合蛋白的重组靶核苷酸序列。

实施方案171.实施方案170的方法，其还包括对第二感兴趣的蛋白实施该方法。

实施方案172.实施方案171的方法，其中所述第一感兴趣的蛋白和所述第二感兴趣的蛋白在与所述蛋白的每个上的二聚化结构域结合的小分子存在下二聚化。

实施方案173.实施方案170的方法，其中所述小分子结合结构域是SEQ ID NO:488的FKBP12。

实施方案174.实施方案170的方法，其中所述小分子结合结构域是SEQ ID NO:489的FKBP12-F36V。

实施方案175.实施方案170的方法，其中所述小分子结合结构域是SEQ ID NO:490和493-494的亲环蛋白。

实施方案176.实施方案170的方法，其中所述小分子是选自第1组的实施方案163中公开的那些化合物的小分子的二聚体。

实施方案177.实施方案170的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案178.实施方案170的方法，其中所述napDNAbp为Cas9切口酶(nCas9)。

实施方案179.实施方案170的方法，其中所述napDNAbp包含SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467，和482-487的氨基酸序列。

实施方案180.实施方案170的方法，其中所述向导RNA包含SEQ ID NO:222。

实施方案181.利用引导编辑将肽标签或表位安装到蛋白上的方法，包括：使编码所述蛋白的靶核苷酸序列与引导编辑器构建体接触，该引导编辑器构建体被配置为在其中插入编码肽标签的第二核苷酸序列以产生重组核苷酸序列，使得所述肽标签和所述蛋白作为融合蛋白由重组核苷酸序列表达。

实施方案182.实施方案181的方法，其中所述肽标签用于蛋白的纯化和/或检测。

实施方案183.实施方案181的方法，其中所述肽标签是聚组氨酸(如，HHHHHH)(SEQID NO:252-262)、FLAG(如，DYKDDDDK)(SEQ ID NO:2)，V5(如，GKPIPNPLLGLDST)(SEQ IDNO:3)、GCN4、HA(如，YPYDVPDYA)(SEQ ID NO:5)、Myc(如，EQKLISEED)(SEQ ID NO:6)、GST等。

实施方案184.实施方案181的方法，其中所述肽标签具有选自SEQ ID NO:1-6、245-249、252-262、264-273、275-276、281、278-288和622的氨基酸序列。

实施方案185.实施方案181的方法，其中所述肽标签通过所述接头与所述蛋白融合。

实施方案186.实施方案181的方法，其中所述融合蛋白具有以下结构：[蛋白]-[肽标签]或[肽标签]-[蛋白]，其中“]-[”表示任选的接头。

实施方案187.实施方案181的方法，其中所述接头具有SEQ ID NO:127、165-176、446、453和767-769的氨基酸序列。

实施方案188.实施方案181的方法，其中所述引导编辑器构建体包含PEgRNA，所述PEgRNA包含SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777的核苷酸序列。

实施方案189.实施方案181的方法，其中所述PEgRNA包含间隔区、gRNA核心和延伸臂，其中所述间隔区与所述靶核苷酸序列互补，并且所述延伸臂包含编码所述肽标签的逆转录酶模板。

实施方案190.实施方案181的方法，其中所述PEgRNA包含间隔区、gRNA核心和延伸臂，其中所述间隔区与所述靶核苷酸序列互补，并且所述延伸臂包含编码所述肽标签的逆转录酶模板。

实施方案191.通过引导编辑在由靶核苷酸序列编码的PRNP中安装一个或多个保护性突变来预防或阻止朊病毒病进展的方法，该方法包括：(a)使靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的引导编辑器，和(ii)包含编码功能部分的编辑模板的PEgRNA；(b)使编码所述保护性突变的单链DNA序列聚合；以及(c)通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入所述单链DNA序列代替相应的内源性链，其中该方法产生编码包含所述保护性突变且对错误折叠具有抗性的PRNP的重组靶核苷酸序列。

实施方案192.实施方案191的方法，其中所述朊病毒病是人类朊病毒病。

实施方案193.实施方案191的方法，其中所述朊病毒病是动物朊病毒病。

实施方案194.实施方案192的方法，其中所述朊病毒病是克雅氏病(CJD)、变异型克雅氏病(vCJD)、杰茨曼-斯脱司勒-史茵克综合征、致死性家族性失眠症或库鲁病。

实施方案195.实施方案193的方法，其中所述朊病毒病是牛海绵状脑病(BSE或“疯牛病”)、慢性消耗性疾病(CWD)、羊瘙痒症、传染性水貂脑病、猫海绵状脑病和有蹄类海绵状脑病。

实施方案196.实施方案191的方法，其中野生型PRNP氨基酸序列为SEQ ID NO:291-292。

实施方案197.实施方案191的方法，其中该方法产生选自SEQ ID NO:293-309和311-323的经修饰的PRNP氨基酸序列，其中所述经修饰的PRNP蛋白对错误折叠具有抗性。

实施方案198.实施方案191的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案199.实施方案191的方法，其中所述napDNAbp为Cas9切口酶(nCas9)。

实施方案200.实施方案191的方法，其中所述napDNAbp包含SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467，和482-487的氨基酸序列。

实施方案201.实施方案191的方法，其中所述向导RNA包含SEQ ID NO:222。

实施方案202.通过引导编辑在由靶核苷酸序列编码的感兴趣的RNA中安装核糖核苷酸基序或标签的方法，该方法包括：(a)使靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的引导编辑器，和(ii)包含编码所述核糖核苷酸基序或标签的编辑模板的PEgRNA；(b)使编码所述核糖核苷酸基序或标签的单链DNA序列聚合；以及(c)通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入单链DNA序列代替相应的内源性链，其中该方法产生编码包含所述核糖核苷酸基序或标签的经修饰的感兴趣的RNA的重组靶核苷酸序列。

实施方案203.实施方案202的方法，其中所述核糖核苷酸基序或标签为检测部分。

实施方案204.实施方案202的方法，其中所述核糖核苷酸基序或标签影响所述感兴趣的RNA的表达水平。

实施方案205.实施方案202的方法，其中所述核糖核苷酸基序或标签影响所述感兴趣的RNA的转运或亚细胞定位。

实施方案206.实施方案202的方法，其中所述核糖核苷酸基序或标签选自SV40 1型、SV40 2型、SV40 3型、hGH、BGH、rbGlob、TK、MALATlENE-mascRNA、KSHVPANENE、Smbox/U1snRNA框、U1snRNA3'框、tRNA-赖氨酸、broccoli适体、spinach适体、mango适体、HDV核酶和m6A。

实施方案207.实施方案202的方法，其中所述PEgRNA包含SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、364348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777。

实施方案208.实施方案202的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案209.实施方案202的方法，其中所述napDNAbp为Cas9切口酶(nCas9)。

实施方案210.实施方案202的方法，其中所述napDNAbp包含氨基酸序列SEQ IDNO:18-88、126、130、137、141、147、153、157、445、460、467，和482-487。

实施方案211.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装或删除功能部分的方法，该方法包括：(a)使靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的引导编辑器，和(ii)包含编码功能部分或其删除的编辑模板的PEgRNA；(b)使编码所述功能部分或其删除的单链DNA序列聚合；以及(c)通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入所述单链DNA序列代替相应的内源性链，其中该方法产生编码包含所述感兴趣的蛋白和功能部分或其去除的经修饰的蛋白的重组靶核苷酸序列，其中功能部分改变蛋白的修饰状态或定位状态。

实施方案212.实施方案211的方法，其中功能部分改变感兴趣的蛋白的磷酸化、泛素化、糖基化、脂化、羟基化、甲基化、乙酰化、巴豆酰化、或SUMO化状态。

实施方案213.融合蛋白，其包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶。

实施方案214.实施方案213的融合蛋白，其中所述融合蛋白能够在引导编辑向导RNA(PEgRNA)的存在下进行引导编辑。

实施方案215.实施方案213的融合蛋白，其中所述napDNAbp具有切口酶活性。

实施方案216.实施方案213的融合蛋白，其中所述napDNAbp为Cas9蛋白或其变体。

实施方案217.实施方案213的融合蛋白，其中所述napDNAbp为核酸酶活性Cas9、核酸酶无活性Cas9(dCas9)或Cas9切口酶(nCas9)。

实施方案218.实施方案213的融合蛋白，其中所述napDNAbp为Cas9切口酶(nCas9)。

实施方案219.实施方案213的融合蛋白，其中所述napDNAbp选自：Cas9、Cas12e、Cas12d、Cas12a、Cas12b1、Cas13a、Cas12c和Argonaute蛋白，并且任选地具有切口酶活性。

实施方案220.实施方案213的融合蛋白，其中所述融合蛋白与PEgRNA复合时能够结合靶DNA序列。[

实施方案221.实施方案220的融合蛋白，其中所述靶DNA序列包含靶链和互补的非靶链。

实施方案222.实施方案220的融合蛋白，其中与PEgRNA复合的融合蛋白的结合形成R环。

实施方案223.实施方案222的融合蛋白，其中所述R-环包含(i)包含PEgRNA和靶链的RNA-DNA杂合体，和(ii)互补的非靶链。

实施方案224.实施方案223的融合蛋白，其中对所述互补非靶链产生切口以形成具有游离3'端的引发序列。

实施方案225.实施方案214的融合蛋白，其中所述PEgRNA包含(a)向导RNA和(b)在所述向导RNA的5'或3'端处或分子内位置处的延伸臂向导RNA。

实施方案226.实施方案225的融合蛋白，其中所述延伸臂包含(i)包含期望的核苷酸变化的DNA合成模板序列，和(ii)引物结合位点。

实施方案227.实施方案226的融合蛋白，其中所述DNA合成模板序列编码与邻近所述切口位点的内源性DNA序列互补的单链DNA瓣，其中所述单链DNA瓣包含期望的核苷酸变化。

实施方案228.实施方案225的融合蛋白，其中所述延伸臂的长度为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少长度为21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、或至少25个核苷酸。

实施方案229.实施方案227的融合蛋白，其中所述单链DNA瓣与邻近切口位点的内源性DNA序列杂交，从而安装期望的核苷酸变化。

实施方案230.实施方案227的融合蛋白，其中所述单链DNA瓣置换邻近所述切口位点且具有游离5'端的内源性DNA序列。

实施方案231.实施方案230的融合蛋白，其中所述具有5'端的内源性DNA序列被细胞切除。

实施方案232.实施方案230的融合蛋白，其中所述单链DNA瓣的细胞修复导致期望的核苷酸变化的安装，从而形成期望的产物。

实施方案233.实施方案226的融合蛋白，其中所述期望的核苷酸包含安装在编辑窗口PAM序列的约-4至+10，或PAM序列的约-10至+20，或PAM序列的约-20至+40，或PAM序列的约-30至+100，或者其中期望的核苷酸变化安装在切口位点下游至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、3、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、76、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、或100个核苷酸。

实施方案234.实施方案213的融合蛋白，其中所述napDNAbp包含SEQ ID NO:2的氨基酸序列，或与SEQ ID NO:18的氨基酸序列具有至少80％、85％、90％、95％、98％、99％序列同一性的氨基酸序列。

实施方案235.实施方案213的融合蛋白，其中所述napDNAbp包含与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

实施方案236.实施方案213的融合蛋白，其中所述聚合酶为逆转录酶，其包含SEQID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766的任一氨基酸序列。

实施方案237.实施方案213的融合蛋白，其中所述聚合酶为逆转录酶，其包含与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

实施方案238.实施方案213的融合蛋白，其中所述聚合酶是来自逆转录病毒或逆转录转座子的天然存在的逆转录酶。

实施方案239.前述实施方案中任一项的融合蛋白，其中所述融合蛋白包含结构NH2-[napDNAbp]-[聚合酶]-COOH；或NH2-[聚合酶]-[napDNAbp]-COOH，其中“]-[”的每个情况表示存在任选的接头序列。

实施方案240.实施方案239的融合蛋白，其中所述接头序列包含氨基酸序列SEQID NO:127、165-176、446、453和767-769。

实施方案241.实施方案226的融合蛋白，其中所述期望的核苷酸变化是单核苷酸变化、一个或多个核苷酸的插入、或一个或多个核苷酸的缺失。

实施方案242.实施方案241的融合蛋白，其中插入或缺失为至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少21个、至少22个、至少23个、至少24个、至少25个、至少26个、至少27个、至少28个、至少29个、至少30个、至少31个、至少32个、至少33个、至少34个、至少35个、至少36个、至少37个、至少38个、至少39个、至少40个、至少41个、至少42个、至少43个、至少44个、至少45个、至少46个、至少47个、至少48个、至少49个、或至少50个。

实施方案243.PEgRNA，其包含向导RNA和包含DNA合成模板的至少一个核酸延伸臂。

实施方案244.实施方案241的PEgRNA，其中所述核酸延伸臂位于向导RNA的3'或5'端，或位于向导RNA的分子内位置，并且其中所述核酸延伸臂为DNA或RNA。

实施方案245.实施方案242的PEgRNA，其中所述PEgRNA能够结合napDNAbp并将所述napDNAbp引导至靶DNA序列。

实施方案246.实施方案245的PEgRNA，其中所述靶DNA序列包含靶链和互补的非靶链，其中向导RNA与靶链杂交形成RNA-DNA杂合体和R-环。

实施方案247.实施方案243的PEgRNA，其中至少一个核酸延伸臂包含(i)DNA合成模板，和(ii)引物结合位点。

实施方案248.实施方案247的PEgRNA，其中核酸延伸臂的长度为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸，至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、或至少25个核苷酸。

实施方案249.实施方案247的PEgRNA，其中DNA合成模板的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、或至少15个核苷酸。

实施方案250.实施方案247的PEgRNA，其中引物结合位点的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、或至少15个核苷酸。

实施方案251.实施方案243的PEgRNA，其还包含至少一种选自下组的附加结构：接头、茎环、发夹、趾环、适体或RNA-蛋白募集结构域。

实施方案252.实施方案247的PEgRNA，其中DNA合成模板编码与邻近切口位点的内源性DNA序列互补的单链DNA瓣，其中单链DNA瓣包含期望的核苷酸变化。

实施方案253.实施方案252的PEgRNA，其中单链DNA瓣置换被有切口的靶DNA序列中具有5'端的内源性单链DNA，并且其中内源性单链DNA紧邻切口位点的下游。

实施方案254.实施方案253的PEgRNA，其中具有游离5'端的内源性单链DNA被细胞切除。

实施方案255.实施方案253的PEgRNA，其中单链DNA瓣的细胞修复导致期望的核苷酸变化的安装，从而形成期望的产物。

实施方案256.实施方案243的PEgRNA，其包含SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777的核苷酸序列或与SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777中的任一序列具有至少85％、或至少95％、或至少98％、或至少99％序列同一性的核苷酸序列。

实施方案257.实施方案247的PEgRNA，其中DNA合成模板包含与内源性DNA靶标具有至少80％、或85％、或90％、或95％或99％同一性的核苷酸序列。

实施方案258.实施方案247的PEgRNA，其中引物结合位点与切割的DNA的游离3'端杂交。

实施方案259.实施方案251的PEgRNA，其中至少一个附加结构位于PEgRNA的3'或5'端。

实施方案260.复合物，其包含实施方案213-242中任一项的融合蛋白和PEgRNA。

实施方案261.实施方案260的复合物，其中PEgRNA包含向导RNA和在向导RNA的3'或5'端处或在向导RNA的分子内位置处的核酸延伸臂。

实施方案262.实施方案260的复合物，其中PEgRNA能够结合napDNAbp并将napDNAbp引导至靶DNA序列。

实施方案263.实施方案262的复合物，其中靶DNA序列包含靶链和互补的非靶链，其中向导RNA与靶链杂交形成RNA-DNA杂合体和R-环。

实施方案264.实施方案261的复合物，其中至少一个核酸延伸臂包含(i)DNA合成模板，和(ii)引物结合位点。

实施方案265.实施方案260的复合物，其中PEgRNA包含SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、32,0、34344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777的核苷酸序列、或与SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777中的任一序列具有至少85％、90％、或至少95％、或至少98％、或至少99％序列同一性的核苷酸序列。

实施方案266.实施方案264的复合物，其中DNA合成模板包含与内源性DNA靶标具有至少80％、或85％、或90％、或95％、或99％同一性的核苷酸序列。

实施方案267.实施方案264的复合物，其中引物结合位点与切割的DNA的游离3'端杂交。

实施方案268.复合物，其包含napDNAbp和PEgRNA。

实施方案269.实施方案268的复合物，其中napDNAbp是Cas9切口酶。

实施方案270.实施方案268的复合物，其中napDNAbp包含SEQ ID NO:18的氨基酸序列。

实施方案271.实施方案268的复合物，其中napDNAbp包含与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

实施方案272.实施方案268的复合物，其中PEgRNA包含向导RNA和在向导RNA的3'或5'端处或在向导RNA的分子内位置处的核酸延伸臂。

实施方案273.实施方案268的复合物，其中PEgRNA能够将napDNAbp引导至靶DNA序列。

实施方案274.实施方案272的复合物，其中靶DNA序列包含靶链和互补的非靶链，其中PEgRNA的间隔区序列与靶链杂交形成RNA-DNA杂合体和R环。

实施方案275.实施方案273的复合物，其中核酸延伸臂包含(i)DNA合成模板，和(ii)引物结合位点。

实施方案276.实施方案269的复合物，其中PEgRNA包含SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777的核苷酸序列或与SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777中的任一序列具有至少85％、至少90％、或至少95％、或至少98％、或至少99％序列同一性的核苷酸序列。

实施方案277.实施方案276的复合物，其中DNA合成模板包含与内源性DNA靶标至少80％、或85％、或90％、或95％、或99％相同的核苷酸序列。

实施方案278.实施方案276的复合物，其中引物结合位点与切割的DNA的游离3'端杂交。

实施方案279.实施方案276的复合物，其中PEgRNA还包含至少一个选自下组的附加结构：接头、茎环、发夹、趾环、适体或RNA-蛋白募集结构域。

实施方案280.多核苷酸，其编码实施方案213-242中任一项的融合蛋白。

实施方案281.载体，其包含实施方案280的多核苷酸。

实施方案282.细胞，其包含实施方案213-242中任一项的融合蛋白和与融合蛋白的napDNAbp结合的PEgRNA。

实施方案283.细胞，其包含实施方案260-279中任一项的复合物。

实施方案284.药物组合物，其包含：(i)实施方案213-242中任一项的融合蛋白、实施方案260-279的复合物、实施方案68的多核苷酸或实施方案69的载体；和(ii)药学上可接受的赋形剂。

实施方案285.药物组合物，其包含：(i)实施方案260-279的复合物，(ii)以反式提供的聚合酶；和(iii)药学上可接受的赋形剂。

实施方案286.试剂盒，其包含核酸构建体，所述核酸构建体包含：(i)编码实施方案213-242中任一项的融合蛋白的核酸序列；和(ii)驱动(i)的序列表达的启动子。

实施方案287.在双链DNA序列中安装期望的核苷酸变化的方法，该方法包括：

(i)使双链DNA序列与包含融合蛋白和PEgRNA的复合物接触，其中融合蛋白包含napDNAbp和聚合酶，并且其中PEgRNA包含含有期望的核苷酸变化的DNA合成模板和引物结合位点；

(ii)对双链DNA序列产生切口，从而产生具有3'端的游离单链DNA；

(iii)使游离单链DNA的3'端与引物结合位点杂交，从而引发聚合酶；

(iv)从与引物结合位点杂交的3'端聚合DNA的链，从而生成包含期望的核苷酸变化且与DNA合成模板互补的单链DNA瓣；

(v)利用单链DNA瓣置换邻近切割位点的内源性DNA链，从而在双链DNA序列中安装期望的核苷酸变化。

实施方案288.实施方案287的方法，其中(v)置换的步骤包括：(i)使单链DNA瓣与邻近切割位点的内源性DNA链杂交以产生序列错配；(ii)切除内源性DNA链；以及(iii)修复错配以在两条DNA链中形成包含期望的核苷酸变化的期望的产物。

实施方案289.实施方案288的方法，其中期望的核苷酸变化是单核苷酸取代、缺失或插入。

实施方案290.实施方案289的方法，其中单核苷酸取代是转换或颠换。

实施方案291.实施方案288的方法，其中期望的核苷酸变化为(1)G至T取代，(2)G至A取代，(3)G至C取代，(4)T至G取代，(5)T至A取代，(6)T至C取代，(7)C至G取代，(8)C至T取代，(9)C至A取代，(10)A至T取代，(11)A至G取代，或(12)A至C取代。

实施方案292.实施方案288的方法，其中期望的核苷酸变化转换(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，C:G碱基对至A:T碱基对，(10)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

实施方案293.实施方案288的方法，其中期望的核苷酸变化是插入或缺失1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸。

实施方案294.实施方案288的方法，其中期望的核苷酸变化校正疾病相关基因。

实施方案295.实施方案294的方法，其中疾病相关基因与选自下组的单基因病症相关：腺苷脱氨酶(ADA)缺乏症；α-1抗胰蛋白酶缺乏症；囊性纤维化症；杜氏肌营养不良症；半乳糖血症；血色素沉积症；亨廷顿氏病；槭糖尿病；马凡氏综合征；1型神经纤维瘤病；先天性厚甲症；苯丙酮尿症；重度联合免疫缺陷；镰状细胞性贫血；史-李-欧综合征；三核苷酸重复病症；朊病毒病；和泰-萨二氏病。

实施方案296.实施方案294的方法，其中疾病相关基因与选自下组的多基因病症相关：心脏病；高血压；阿尔茨海默氏病；关节炎；糖尿病；癌症；和肥胖症。

实施方案297.实施方案287的方法，其中napDNAbp是核酸酶死亡Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9。

实施方案298.实施方案287的方法，其中napDNAbp包含SEQ ID NO:18的氨基酸序列，或与SEQ ID NO:18的氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案299.实施方案287的方法，其中napDNAbp包含与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

实施方案300.实施方案287的方法，其中聚合酶是逆转录酶，其包含SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766。

实施方案301.实施方案287的方法，其中聚合酶是逆转录酶，其包含与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

实施方案302.实施方案287的方法，其中PEgRNA在向导RNA的3'或5'端处或分子内位置处包含核酸延伸臂，其中延伸臂包含DNA合成模板序列和引物结合位点。

实施方案303.实施方案302的方法，其中延伸臂的长度为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸。核苷酸，至少12核苷酸，至少13个核苷酸，至少14个核苷酸，至少15个核苷酸，至少16个核苷酸，至少17个核苷酸，至少18个核苷酸，至少19个核苷酸，至少20个核苷酸，至少21个核苷酸，至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、或至少25个核苷酸。

实施方案304.实施方案287的方法，其中PEgRNA具有选自SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777的核苷酸序列。

实施方案305.在靶基因座处的DNA分子核苷酸序列中引入一个或多个变化的方法，其包括：

(i)使DNA分子与核酸可编程DNA结合蛋白(napDNAbp)和将napDNAbp靶向靶基因座的PEgRNA接触，其中PEgRNA包含含有至少一个期望的核苷酸变化和引物结合位点的逆转录酶(RT)模板序列；

(ii)在靶基因座处的DNA链中形成暴露的3'端；

(iii)使暴露的3'端与引物结合位点杂交以引发逆转录；

(iv)通过逆转录酶基于RT模板序列合成包含至少一个期望的核苷酸变化的单链DNA瓣；以及

(v)将至少一个期望的核苷酸变化掺入相应的内源性DNA中，从而在靶基因座处的DNA分子核苷酸序列中引入一个或多个变化。

实施方案306.实施方案305的方法，其中核苷酸序列中的一个或多个变化包括转换。

实施方案307.实施方案306的方法，其中转换选自：(a)T至C；(b)A至G；(c)C至T；和(d)G至A。

实施方案308.实施方案305的方法，其中核苷酸序列中的一个或多个变化包括颠换。

实施方案309.实施方案308的方法，其中颠换选自：(a)T至A；(b)T至G；(c)C至G；(d)C至A；(e)A至T；(f)A至C；(g)G至C；和(h)G至T。

实施方案310.实施方案305的方法，其中核苷酸序列中的一个或多个变化包括改变(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A:T碱基对，(9)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

实施方案311.实施方案305的方法，其中核苷酸序列中的一个或多个变化包括插入或缺失1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸。

实施方案312.实施方案305的方法，其中核苷酸序列中的一个或多个变化包括校正疾病相关基因。

实施方案313.实施方案312的方法，其中疾病相关基因与选自下组的单基因病症相关：腺苷脱氨酶(ADA)缺乏症；α-1抗胰蛋白酶缺乏症；囊性纤维化症；杜氏肌营养不良症；半乳糖血症；血色素沉积症；亨廷顿氏病；槭糖尿病；马凡氏综合征；1型神经纤维瘤病；先天性厚甲症；苯丙酮尿症；重度联合免疫缺陷；镰状细胞性贫血；史-李-欧综合征；三核苷酸重复病症；朊病毒病；和泰-萨二氏病。

实施方案314.实施方案312的方法，其中疾病相关基因与选自下组的多基因病症相关：心脏病；高血压；阿尔茨海默氏病；关节炎；糖尿病；癌症；和肥胖症。

实施方案315.实施方案305的方法，其中napDNAbp是核酸酶活性Cas9或其变体。

实施方案316.实施方案305的方法，其中napDNAbp是核酸酶死亡Cas9(dCas9)或Cas9切口酶(nCas9)，或其变体。

实施方案317.实施方案305的方法，其中napDNAbp包含SEQ ID NO:18的氨基酸序列，或与SEQ ID NO:18具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案318.实施方案305的方法，其中napDNAbp包含与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案319.实施方案305的方法，其中逆转录酶以反式引入。

实施方案320.实施方案305的方法，其中napDNAbp包含与逆转录酶的融合。

实施方案321.实施方案305的方法，其中逆转录酶包含SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列。

实施方案322.实施方案305的方法，其中逆转录酶包含与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案323.实施方案305的方法，其中在靶基因座处的DNA链中形成暴露的3'端的步骤包括利用核酸酶对DNA链产生切口。

实施方案324.实施方案323的方法，其中核酸酶以反式提供。

实施方案325.实施方案305的方法，其中在靶基因座处的DNA链中形成暴露的3'端的步骤包括使DNA链与化学试剂接触。

实施方案326.实施方案305的方法，其中在靶基因座处的DNA链中形成暴露的3'端的步骤包括引入复制错误。

实施方案327.实施方案305的方法，其中使DNA分子与napDNAbp和向导RNA接触的步骤形成R-环。

实施方案328.实施方案327的方法，其中形成暴露的3'端的DNA链位于R环中。

实施方案329.实施方案315的方法，其中PEgRNA包含含有逆转录酶(RT)模板序列和引物结合位点的延伸臂。

实施方案330.实施方案329的方法，其中延伸臂位于向导RNA的3'端、向导RNA的5'端或向导RNA的分子内位置。

实施方案331.实施方案305的方法，其中PEgRNA还包含至少一个选自下组的附加结构：接头、茎环、发夹、趾环、适体或RNA-蛋白募集结构域。

实施方案332.实施方案305的方法，其中PEgRNA还包含同源臂。

实施方案333.实施方案305的方法，其中RT模板序列与相应的内源性DNA同源。

实施方案334.通过靶标引发的逆转录在靶基因座处的DNA分子核苷酸序列中引入一个或多个变化的方法，该方法包括：(a)使靶基因座处的DNA分子与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的融合蛋白，和(ii)包含含有期望的核苷酸变化的RT模板的向导RNA；(b)进行RT模板的靶标引发的逆转录，以产生包含期望的核苷酸变化的单链DNA；以及(c)通过DNA修复和/或复制过程将期望的核苷酸变化掺入靶基因座的DNA分子中。

实施方案335.实施方案334的方法，其中RT模板位于向导RNA的3'端、向导RNA的5'端或向导RNA的分子内位置。

实施方案336.实施方案334的方法，其中期望的核苷酸变化包括转换、颠换、插入、或缺失、或其任何组合。

实施方案337.实施方案334的方法，其中期望的核苷酸变化包括选自下组的转换：(a)T至C；(b)A至G；(c)C至T；和(d)G至A。

实施方案338.实施方案334的方法，其中期望的核苷酸变化包括选自下组的颠换：(a)T至A；(b)T至G；(c)C至G；(d)C至A；(e)A至T；(f)A至C；(g)G至C；和(h)G至T。

实施方案339.实施方案334的方法，其中期望的核苷酸变化包括改变(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A：T碱基对，(10)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

实施方案340.多核苷酸，其编码实施方案243至259中任一项的PEgRNA。

实施方案341.载体，其包含实施方案340的多核苷酸。

实施方案342.细胞，其包含实施方案341的载体。

实施方案343.实施方案213的融合蛋白，其中聚合酶为易错逆转录酶。

实施方案344.通过靶标引发的逆转录在靶基因座处诱变DNA分子的方法，所述方法包括：(a)使靶基因座处的DNA分子与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和易错逆转录酶的融合蛋白，和(ii)包含含有期望的核苷酸变化的RT模板的向导RNA；(b)进行RT模板的靶标引发的逆转录以产生诱变的单链DNA；以及(c)通过DNA修复和/或复制过程将诱变的单链DNA掺入靶基因座处的DNA分子中。

实施方案345.任何前面实施方案的方法，其中融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案346.任何前面实施方案的方法，其中napDNAbp是Cas9切口酶(nCas9)。

实施方案347.实施方案344的方法，其中napDNAbp包含SEQ ID NO:18-25的氨基酸序列。

实施方案348.实施方案344的方法，其中向导RNA包含SEQ ID NO:222。

实施方案349.实施方案344的方法，其中(b)进行靶标引发的逆转录的步骤包括在靶基因座处产生3'端引物结合序列，其能够通过与向导RNA的引物结合位点退火引发逆转录。

实施方案350.利用包含健康数目的重复三核苷酸的健康序列置换靶DNA分子中的三核苷酸重复扩增突变的方法，所述方法包括：(a)使靶基因座处的DNA分子与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的融合蛋白，和(ii)包含含有置换序列和引物结合位点的DNA合成模板的PEgRNA；(b)进行引导编辑以生成包含置换序列的单链DNA；以及(c)通过DNA修复和/或复制过程将单链DNA掺入靶基因座处的DNA分子中。

实施方案351.实施方案350的方法，其中融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案352.实施方案350的方法，其中napDNAbp是Cas9切口酶(nCas9)。

实施方案353.实施方案350的方法，其中napDNAbp包含SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487的氨基酸序列。

实施方案354.实施方案350的方法，其中向导RNA包含SEQ ID NO:222。

实施方案355.实施方案350的方法，其中步骤(b)进行引导编辑的步骤包括在靶基因座处产生3'端引物结合序列，其能够通过与向导RNA的引物结合位点退火引发聚合酶。

实施方案356.实施方案350的方法，其中三核苷酸重复扩增突变与亨廷顿氏病、脆性X综合征或弗里德赖希氏共济失调相关。

实施方案357.实施方案350的方法，其中三核苷酸重复扩增突变包含CAG三联体的重复单元。

实施方案358.实施方案350的方法，其中三核苷酸重复扩增突变包含GAA三联体的重复单元。

实施方案359.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装功能部分的方法，所述方法包括：(a)使靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含编码功能部分的DNA合成模板的PEgRNA；(b)使编码功能部分的单链DNA序列聚合；以及(c)通过DNA修复和/或复制过程在靶核苷酸序列处掺入单链DNA序列代替相应的内源性链，其中所述方法产生编码包含感兴趣的蛋白和功能部分的融合蛋白的重组靶核苷酸序列。

实施方案360.实施方案359的方法，其中功能部分是肽标签。

实施方案361.实施方案360的方法，其中肽标签是亲和标签、增溶标签、层析标签、表位或免疫表位标签、或荧光标签。

实施方案362.实施方案360的方法，其中肽标签选自：AviTag(SEQI编号：245)；C-标签(SEQ ID NO:246)；钙调蛋白标签(SEQ ID NO:247)；聚谷氨酸标签(SEQ ID NO:248)；E-tag(SEQ ID NO:249)；FLAG-标签(SEQ ID NO:2)；HA-标签(SEQ ID NO:5)；His-标签(SEQID NO:252-262)；Myc-标签(SEQ ID NO:6)；NE-标签(SEQ ID NO:264)；Rho1D4-标签(SEQID NO:265)；S-标签(SEQ ID NO:266)；SBP-标签(SEQ ID NO:267)；Softag-1(SEQ ID NO:268)；Softag-2(SEQ ID NO:269)；Spot-标签(SEQ ID NO:270)；Strep-标签(SEQ ID NO:271)；TC标签(SEQ ID NO:272)；Ty标签(SEQ ID NO:273)；V5标签(SEQ ID NO:3)；VSV-标签(SEQ ID NO:275)；和Xpress标签(SEQ ID NO:276)。

实施方案363.实施方案360的方法，其中肽标签选自：AU1表位(SEQ ID NO:278)；AU5表位(SEQ ID NO:279)；噬菌体T7表位(T7-标签)(SEQ ID NO:280)；蓝舌病毒标签(B-标签)(SEQ ID NO:281)；E2表位(SEQ ID NO:282)；组氨酸亲和标签(HAT)(SEQ ID NO:283)；HSV表位(SEQ ID NO:284)；聚精氨酸(Arg-标签)(SEQ ID NO:285)；聚天冬氨酸(Asp-tag)(SEQ ID NO:286)；聚苯丙氨酸(Phe-标签)(SEQ ID NO:287)；S1-标签(SEQ ID NO:288)；S-标签(SEQ ID NO:266)；和VSV-G(SEQ ID NO:275)。

实施方案364.实施方案359的方法，其中功能部分是免疫表位。

实施方案365.实施方案364的方法，其中免疫表位选自：破伤风类毒素(SEQ IDNO:396)；白喉毒素突变体CRM197(SEQ ID NO:398)；流行性腮腺炎免疫表位1(SEQ ID NO:400)；流行性腮腺炎免疫表位2(SEQ ID NO:402)；流行性腮腺炎免疫表位3(SEQ ID NO:404)；风疹病毒(SEQ ID NO:406)；血凝素(SEQ ID NO:408)；神经氨酸酶(SEQ ID NO:410)；TAP1(SEQ ID NO:412)；TAP2(SEQ ID NO:414)；针对HLA I类的血凝素表位(SEQ ID NO:416)；针对HLA I类的神经氨酸酶表位(SEQ ID NO:418)；针对HLA II类的血凝素表位(SEQID NO:420)；针对HLA II类的神经氨酸酶表位(SEQ ID NO:422)；结合HLA I类和II类的H5N1血凝素表位(SEQ ID NO:424)；结合HLA I类和II类的H5N1神经氨酸酶表位(SEQ IDNO:426)。

实施方案366.实施方案359的方法，其中功能部分改变感兴趣的蛋白的定位。

实施方案367.实施方案359的方法，其中功能部分是使得感兴趣的蛋白的降解速率改变的降解标签。

实施方案368.实施方案367的方法，其中降解标签导致消除带标签的蛋白。

实施方案369.实施方案359的方法，其中功能部分是小分子结合结构域。

实施方案370.实施方案359的方法，其中小分子结合结构域是SEQ ID NO:488的FKBP12。

实施方案371.实施方案359的方法，其中小分子结合结构域是SEQ ID NO:489的FKBP12-F36V。

实施方案372.实施方案359的方法，其中小分子结合结构域是SEQ ID NO:490和493-494的亲环蛋白。

实施方案373.实施方案359的方法，其中小分子结合结构域安装在两个或更多个感兴趣的蛋白中。

实施方案374.实施方案373的方法，其中两个或更多个感兴趣的蛋白在与小分子接触时可二聚化。

实施方案375.实施方案369的方法，其中小分子是选自组1的实施方案163中公开的那些化合物的小分子的二聚体。

实施方案376.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装免疫表位的方法，所述方法包括：(a)使靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含编码功能部分的编辑模板的PEgRNA；(b)使编码免疫表位的单链DNA序列聚合；以及(c)通过DNA修复和/或复制过程在靶核苷酸序列处掺入单链DNA序列代替相应的内源性链，其中所述方法产生编码包含感兴趣的蛋白和免疫表位的融合蛋白的重组靶核苷酸序列。

实施方案377.实施方案376的方法，其中免疫表位选自：破伤风类毒素(SEQ IDNO:396)；白喉毒素突变体CRM197(SEQ ID NO:398)；流行性腮腺炎免疫表位1(SEQ ID NO:400)；流行性腮腺炎免疫表位2(SEQ ID NO:402)；流行性腮腺炎免疫表位3(SEQ ID NO:404)；风疹病毒(SEQ ID NO:406)；血凝素(SEQ ID NO:408)；神经氨酸酶(SEQ ID NO:410)；TAP1(SEQ ID NO:412)；TAP2(SEQ ID NO:414)；针对HLA I类的血凝素表位(SEQ ID NO:416)；针对HLA I类的神经氨酸酶表位(SEQ ID NO:418)；针对HLA II类的血凝素表位(SEQID NO:420)；针对HLA II类的神经氨酸酶表位(SEQ ID NO:422)；结合HLA I类和II类的H5N1血凝素表位(SEQ ID NO:424)；结合HLA I类和II类的H5N1神经氨酸酶表位(SEQ IDNO:426)。

实施方案378.实施方案376的方法，其中融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案379.实施方案376的方法，其中napDNAbp是Cas9切口酶(nCas9)。

实施方案380.实施方案376的方法，其中napDNAbp包含SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487的氨基酸序列。

实施方案381.实施方案376的方法，其中PEgRNA包含SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、364348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777。

实施方案382.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装小分子二聚化结构域的方法，所述方法包括：(a)使靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含编码小分子二聚化结构域的编辑模板的PEgRNA；(b)使编码免疫表位的单链DNA序列聚合；以及(c)通过DNA修复和/或复制过程在靶核苷酸序列处掺入单链DNA序列代替相应的内源性链，其中所述方法产生编码包含感兴趣的蛋白和小分子二聚化结构域的融合蛋白的重组靶核苷酸序列。

实施方案383.实施方案382的方法，其还包括对第二感兴趣的蛋白实施该方法。

实施方案384.实施方案383的方法，其中第一感兴趣的蛋白和第二感兴趣的蛋白在与所述蛋白的每个上的二聚化结构域结合的小分子存在下二聚化。

实施方案385.实施方案382的方法，其中小分子结合结构域是SEQ ID NO:488的FKBP12。

实施方案386.实施方案382的方法，其中小分子结合结构域是SEQ ID NO:489的FKBP12-F36V。

实施方案387.实施方案382的方法，其中小分子结合结构域是SEQ ID NO:490和493-494的亲环蛋白。

实施方案388.实施方案382的方法，其中小分子是选自组1的实施方案163中公开的那些化合物的小分子的二聚体。

实施方案389.实施方案382的方法，其中融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案390.实施方案382的方法，其中napDNAbp是Cas9切口酶(nCas9)。

实施方案391.实施方案382的方法，其中napDNAbp包含SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487的氨基酸序列。

实施方案392.实施方案382的方法，其中PEgRNA包含SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、364348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777。

实施方案393.使用引导编辑在蛋白上安装肽标签或表位的方法，其包括：使编码蛋白的靶核苷酸序列与引导编辑器构建体接触，该引导编辑器构建体被配置为在其中插入编码肽标签的第二核苷酸序列以产生重组核苷酸序列，使得肽标签和蛋白作为融合蛋白由重组核苷酸序列表达。

实施方案394.实施方案383的方法，其中肽标签用于蛋白的纯化和/或检测。

实施方案395.实施方案383的方法，其中肽标签是聚组氨酸(如，HHHHHH)(SEQ IDNO:252-262)、FLAG(如，DYKDDDDK)(SEQ ID NO:2)，V5(如，GKPIPNPLLGLDST)(SEQ ID NO:3)、GCN4、HA(如，YPYDVPDYA)(SEQ ID NO:5)、Myc(如，EQKLISEED)(SEQ ID NO:6)或GST。

实施方案396.实施方案383的方法，其中肽标签具有选自SEQ ID NO:1-6、245-249、252-262、264-273、275-276、281、278-288和622的氨基酸序列。

实施方案397.实施方案383的方法，其中肽标签通过接头与蛋白融合。

实施方案398.实施方案383的方法，其中融合蛋白具有以下结构：[蛋白]-[肽标签]或[肽标签]-[蛋白]，其中“]-[”表示任选的接头。

实施方案399.实施方案383的方法，其中接头具有SEQ ID NO:127、165-176、446、453和767-769的氨基酸序列。

实施方案400.实施方案383的方法，其中引导编辑器构建体包含PEgRNA，所述PEgRNA包含SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777的核苷酸序列。

实施方案401.实施方案383的方法，其中PEgRNA包含间隔区、gRNA核心和延伸臂，其中间隔区与靶核苷酸序列互补，并且延伸臂包含编码肽标签的逆转录酶模板。

实施方案402.实施方案383的方法，其中PEgRNA包含间隔区、gRNA核心和延伸臂，其中间隔区与靶核苷酸序列互补，并且延伸臂包含编码肽标签的逆转录酶模板。

实施方案403.通过引导编辑在由靶核苷酸序列编码的PRNP中安装一个或多个保护性突变来预防或阻止朊病毒病进展的方法，所述方法包括：(a)使靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含编码功能部分的编辑模板的PEgRNA；(b)使编码保护性突变的单链DNA序列聚合；以及(c)通过DNA修复和/或复制过程在靶核苷酸序列处掺入单链DNA序列代替相应的内源性链，其中所述方法产生编码包含保护性突变且对错误折叠具有抗性的PRNP的重组靶核苷酸序列。

实施方案404.实施方案403的方法，其中朊病毒病是人类朊病毒病。

实施方案405.实施方案403的方法，其中朊病毒病是动物朊病毒病。

实施方案406.实施方案404的方法，其中朊病毒病是克雅氏病(CJD)、变异型克雅氏病(vCJD)、杰茨曼-斯脱司勒-史茵克综合征、致死性家族性失眠症或库鲁病。

实施方案407.实施方案403的方法，其中朊病毒病是牛海绵状脑病(BSE或“疯牛病”)、慢性消耗性疾病(CWD)、羊瘙痒症、传染性水貂脑病、猫海绵状脑病和有蹄类海绵状脑病。

实施方案408.实施方案403的方法，其中野生型PRNP氨基酸序列是SEQ ID NO:291-292。

实施方案409.实施方案403的方法，其中该方法产生选自SEQ ID NO:293-309、311-323的经修饰的PRNP氨基酸序列，其中所述经修饰的PRNP蛋白对错误折叠具有抗性。

实施方案410.实施方案403的方法，其中融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案411.实施方案403的方法，其中napDNAbp是Cas9切口酶(nCas9)。

实施方案412.实施方案403的方法，其中napDNAbp包含氨基酸序列SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467，和482-487。

实施方案413.实施方案403的方法，其中PEgRNA包含SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777。

实施方案414.通过引导编辑在由靶核苷酸序列编码的感兴趣的RNA中安装核糖核苷酸基序或标签的方法，所述方法包括：(a)使靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含编码核糖核苷酸基序或标签的编辑模板的PEgRNA；(b)使编码核糖核苷酸基序或标签的单链DNA序列聚合；以及(c)通过DNA修复和/或复制过程在靶核苷酸序列处掺入单链DNA序列代替相应的内源性链，其中所述方法产生编码包含核糖核苷酸基序或标签的经修饰的感兴趣的RNA的重组靶核苷酸序列。

实施方案415.实施方案414的方法，其中核糖核苷酸基序或标签为检测部分。

实施方案416.实施方案414的方法，其中核糖核苷酸基序或标签影响感兴趣的RNA的表达水平。

实施方案417.实施方案414的方法，其中核糖核苷酸基序或标签影响感兴趣的RNA的转运或亚细胞定位。

实施方案418.实施方案414的方法，其中核糖核苷酸基序或标签选自：SV40 1型、SV40 2型、SV40 3型、hGH、BGH、rbGlob、TK、MALAT1ENE-mascRNA、KSHVPANENE、Smbox/U1snRNA框、U1snRNA3'框、tRNA-赖氨酸、broccoli适体、spinach适体、mango适体、HDV核酶和m6A。

实施方案419.实施方案414的方法，其中PEgRNA包含SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、364348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777。

实施方案420.实施方案414的方法，其中融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案421.实施方案414的方法，其中napDNAbp是Cas9切口酶(nCas9)。

实施方案422.实施方案414的方法，其中napDNAbp包含氨基酸序列SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487。

实施方案423.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装或删除功能部分的方法，所述方法包括：(a)使靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含编码功能部分或其删除的编辑模板的PEgRNA；(b)使编码功能部分或其删除的单链DNA序列聚合；以及(c)通过DNA修复和/或复制过程在靶核苷酸序列处掺入单链DNA序列代替相应的内源性链，其中所述方法产生重组靶核苷酸序列，其编码包含感兴趣的蛋白和功能部分或去除感兴趣的蛋白或功能部分的经修饰的蛋白，其中功能部分改变蛋白的修饰状态或定位状态。

实施方案424.实施方案423的方法，其中功能部分改变感兴趣的蛋白的磷酸化、泛素化、糖基化、脂化、羟基化、甲基化、乙酰化、巴豆酰化、或SUMO化状态。

实施方案425.融合蛋白，其包含核酸可编程DNA结合蛋白(napDNAbp)结构域和包含RNA依赖性DNA聚合酶活性的结构域。

实施方案426.实施方案425的融合蛋白，其中融合蛋白能够在引导编辑向导RNA(PEgRNA)的存在下进行引导编辑以在靶序列中安装期望的核苷酸变化。

实施方案427.实施方案425的融合蛋白，其中napDNAbp结构域具有切口酶活性。

实施方案428.实施方案425的融合蛋白，其中napDNAbp结构域是Cas9蛋白或其变体。

实施方案429.实施方案425的融合蛋白，其中napDNAbp结构域是核酸酶活性Cas9、核酸酶死亡Cas9(dCas9)或Cas9切口酶(nCas9)。

实施方案430.实施方案425的融合蛋白，其中napDNAbp结构域是Cas9切口酶(nCas9)。

实施方案431.实施方案425的融合蛋白，其中napDNAbp结构域选自：Cas9、Cas12e、Cas12d、Cas12a、Cas12b1、Cas13a、Cas12c和Argonaute蛋白，并且任选地具有切口酶活性。

实施方案432.实施方案425的融合蛋白，其中包含RNA依赖性DNA聚合酶活性的结构域为逆转录酶，所述逆转录酶包含SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741、和766中的任一氨基酸序列。

实施方案433.实施方案425的融合蛋白，其中包含RNA依赖性DNA聚合酶活性的结构域为逆转录酶，所述逆转录酶包含与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741、和766中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列，并且任选地其中包含RNA依赖性DNA聚合酶的结构域为易错的。

实施方案434.实施方案425的融合蛋白，其中包含RNA依赖性DNA聚合酶活性的结构域是来自逆转录病毒或逆转录转座子的天然存在的逆转录酶。

实施方案435.实施方案425的融合蛋白，其中融合蛋白与PEgRNA复合时能够结合靶DNA序列。

实施方案436.实施方案435的融合蛋白，其中靶DNA序列包含靶链和互补的非靶链。

实施方案437.实施方案435的融合蛋白，其中与PEgRNA复合的融合蛋白的结合形成R环。

实施方案438.实施方案437的融合蛋白，其中R-环包含(i)包含PEgRNA和靶链的RNA-DNA杂合体，和(ii)互补的非靶链。

实施方案439.实施方案437的融合蛋白，其中对靶链或互补的非靶链产生切口以形成具有游离3'端的引发序列。

实施方案440.实施方案439的融合蛋白，其中切口位点在靶链的PAM序列的上游。

实施方案441.实施方案439的融合蛋白，其中切口位点在非靶链的PAM序列的上游。

实施方案442.实施方案439的融合蛋白，其中切口位点相对于PAM序列5'端的-1、-2、-3、-4、-5、-6、-7、-8或-9。

实施方案443.实施方案426的融合蛋白，其中PEgRNA包含向导RNA和至少一个核酸延伸臂。

实施方案444.实施方案443的融合蛋白，其中延伸臂位于向导RNA的5'或3'端、或向导RNA的分子内位置。

实施方案445.实施方案443的融合蛋白，其中延伸臂包含(i)包含期望的核苷酸变化的DNA合成模板序列，和(ii)引物结合位点。

实施方案446.实施方案445的融合蛋白，其中DNA合成模板序列编码与邻近切口位点的内源性DNA序列互补的单链DNA瓣，其中单链DNA瓣包含期望的核苷酸变化。

实施方案447.实施方案443的融合蛋白，其中延伸臂为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸、至少26个核苷酸、至少27个核苷酸、至少28个核苷酸、至少29个核苷酸、至少30个核苷酸、至少31个核苷酸、至少32个核苷酸、至少33个核苷酸、至少34个核苷酸、至少35个核苷酸、至少36个核苷酸、至少37个核苷酸、至少38个核苷酸、至少39个核苷酸、至少40个核苷酸、至少41核核苷酸、至少42个核苷酸、至少43个核苷酸、至少44个核苷酸、至少45个核苷酸、至少46个核苷酸、至少47个核苷酸、至少48个核苷酸、至少49个核苷酸、或至少50个核苷酸。

实施方案448.实施方案443的融合蛋白，其中单链DNA瓣与邻近切口位点的内源性DNA序列杂交，从而在靶链中安装期望的核苷酸变化。

实施方案449.实施方案443的融合蛋白，其中单链DNA瓣置换邻近切口位点且具有游离5'端的内源性DNA序列。

实施方案450.实施方案446的融合蛋白，其中具有5'端的内源性DNA序列被细胞切除。

实施方案451.实施方案446的融合蛋白，其中具有5'端的内源性DNA序列被瓣内切核酸酶切除。

实施方案452.实施方案448的融合蛋白，其中单链DNA瓣的细胞修复在非靶链中掺入期望的核苷酸变化，从而形成期望的产物。

实施方案453.实施方案449的融合蛋白，其中将期望的核苷酸变化安装在PAM序列的约-4至+10，或PAM序列的约-10至+20，或PAM序列的约-20至+40，或PAM序列的约-30至+100的编辑窗口中。

实施方案454.实施方案449的融合蛋白，其中将期望的核苷酸变化安装在切口位点下游至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、或100个核苷酸。

实施方案455.实施方案425的融合蛋白，其中napDNAbp包含SEQ ID NO:2的氨基酸序列，或与SEQ ID NO:18的氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案456.实施方案425的融合蛋白，其中napDNAbp包含与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案457.前述实施方案中任一项的融合蛋白，其中融合蛋白包含结构NH2-[napDNAbp]-[包含RNA依赖性DNA聚合酶活性的结构域]-COOH；或NH2-[包含RNA依赖性DNA聚合酶活性的结构域]-[napDNAbp]-COOH，其中“]-[”的每个情况表示存在任选的接头序列。

实施方案458.实施方案457的融合蛋白，其中接头序列包含SEQ ID NO:127、165-176、446、453和767-769的氨基酸序列。

实施方案459.实施方案425的融合蛋白，其中期望的核苷酸变化是单核苷酸变化、一个或多个核苷酸的插入、或一个或多个核苷酸的缺失。

实施方案460.实施方案459的融合蛋白，其中插入或缺失为至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少21个、至少22个、至少23个、至少24个、至少25个、至少26个、至少27个、至少28个、至少29个、至少30个、至少31个、至少32个、至少33个、至少34个、至少35个、至少36个、至少37个、至少38个、至少39个、至少40个、至少41个、至少42个、至少43个、至少44个、至少45个、至少46个、至少47个、至少48个、至少49个、或至少50个。

实施方案461.复合物，其包含实施方案425至460中任一项的融合蛋白和PEgRNA，其中PEgRNA将融合蛋白引导至靶DNA序列进行引导编辑。

实施方案462.实施方案461的复合物，其中PEgRNA包含向导RNA和位于向导RNA的3'或5'端或向导RNA的分子内位置的核酸延伸臂。

实施方案463.实施方案462的复合物，其中PEgRNA能够结合napDNAbp并将napDNAbp引导至靶DNA序列。

实施方案464.实施方案463的复合物，其中靶DNA序列包含靶链和互补的非靶链，其中向导RNA与靶链杂交形成RNA-DNA杂合体和R-环。

实施方案465.实施方案464的复合物，其中至少一个核酸延伸臂包含(i)DNA合成模板，和(ii)引物结合位点。

实施方案466.实施方案464的复合物，其中PEgRNA包含SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、34344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777的核苷酸序列，或与SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、34344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777中的任一序列具有至少85％、至少90％、或至少95％、或至少98％、或至少99％序列同一性的核苷酸序列。

实施方案467.实施方案465的复合物，其中DNA合成模板包含与内源性DNA靶标至少80％、或85％、或90％、或95％、或99％相同的核苷酸序列。

实施方案468.实施方案465的复合物，其中引物结合位点与切割的DNA的游离3'端杂交。

实施方案469.实施方案461的复合物，其中napDNAbp是Cas9切口酶。

实施方案470.实施方案461的复合物，其中napDNAbp包含SEQ ID NO:18的氨基酸序列，或与SEQ ID NO:18具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案471.实施方案461的复合物，其中napDNAbp包含与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案472.实施方案461的复合物，其中PEgRNA包含向导RNA和位于向导RNA的3'或5'端或向导RNA的分子内位置的核酸延伸臂。

实施方案473.实施方案465的复合物，其中DNA合成模板包含与内源性DNA靶标至少80％、或85％、或90％、或95％、或99％相同的核苷酸序列。

实施方案474.实施方案465的复合物，其中引物结合位点与切割的DNA的游离3'端杂交。

实施方案475.实施方案462的复合物，其中PEgRNA还包含至少一个选自下组的附加结构：接头、茎环、发夹、趾环、适体或RNA蛋白募集结构域。

实施方案476.多核苷酸，其编码实施方案425至461中任一项的融合蛋白。

实施方案477.多核苷酸，其编码上述实施方案中任一项的PEgRNA。

实施方案478.载体，其包含实施方案476的多核苷酸，其中融合蛋白的表达受启动子的控制。

实施方案479.载体，其包含实施方案477的多核苷酸，其中PEgRNA的表达受启动子的控制。

实施方案480.实施方案479的载体，其中启动子为U6启动子。

实施方案481.实施方案479的载体，其中启动子为CMV启动子。

实施方案482.实施方案480的载体，其中工程化改造PEgRNA以去除延伸臂中的一个或多个重复的T簇来提高U6启动子的转录效率。

实施方案483.实施方案482的载体，其中去除的一个或多个重复的T簇包含至少3个T、至少4个T、至少5个T、至少6个T、至少7个T、至少8个T、至少9个T、至少10个T、至少11个T、至少12个T、至少13个T、至少14个T、至少15个T、至少16个T、至少17个T、至少18个T、至少19个T、或至少20个T。

实施方案484.细胞，其包含实施方案425至460中任一项的融合蛋白和与融合蛋白的napDNAbp结合的PEgRNA。

实施方案485.细胞，其包含实施方案461至475中任一项的复合物。

实施方案486.药物组合物，其包含：(i)实施方案425至460中任一项的融合蛋白、实施方案461至475的复合物、实施方案476至477的多核苷酸、或实施方案478至483的载体；和(ii)药学上可接受的赋形剂。

实施方案487.药物组合物，其包含：(i)实施方案461至475的复合物，(ii)以反式提供的聚合酶；和(iii)药学上可接受的赋形剂。

实施方案488.用于引导编辑的试剂盒，其包括：(i)编码实施方案425至460中任一项的融合蛋白的核酸分子；和(ii)编码能够将融合蛋白引导至靶DNA位点的PEgRNA的核酸分子，其中(i)和(ii)的核酸分子可包含在单个DNA构建体或分开的DNA构建体中。

实施方案489.实施方案488的试剂盒，其中(i)的核酸分子还包含驱动融合蛋白表达的启动子。

实施方案490.实施方案488的试剂盒，其中(ii)的核酸分子还包含驱动PEgRNA表达的启动子。

实施方案491.实施方案490的试剂盒，其中启动子是U6启动子。

实施方案492.实施方案490的试剂盒，其中启动子是CMV启动子。

实施方案493.实施方案457的融合蛋白，其中接头序列包含SEQ ID NO:174(1xSGGS)、3888(2xSGGS)、3889(3xSGGS)、3890(1xXTEN)、3891(1xEAAAK)、3892(2xEAAAK)、和3893(3xEAAAK)的氨基酸序列。

组B.PE向导和设计方法

实施方案1.PEgRNA，其包含向导RNA和至少一个包含DNA合成模板的核酸延伸臂。

实施方案2.实施方案1的PEgRNA，其中核酸延伸臂位于向导RNA的3'或5'端，或向导RNA的分子内位置，并且其中核酸延伸臂为DNA或RNA。

实施方案3.实施方案1的PEgRNA，其中PEgRNA能够结合napDNAbp并将napDNAbp引导至靶DNA序列。

实施方案4.实施方案3的PEgRNA，其中靶DNA序列包含靶链和互补的非靶链。

实施方案5.实施方案3的PEgRNA，其中向导RNA与靶链杂交形成RNA-DNA杂合体和R-环。

实施方案6.实施方案1的PEgRNA，其中至少一个核酸延伸臂还包含引物结合位点。

实施方案7.实施方案1的PEgRNA，其中核酸延伸臂为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸、至少26个核苷酸、至少27个核苷酸、至少28个核苷酸、至少29个核苷酸、至少30个核苷酸、至少31个核苷酸、至少32个核苷酸、至少33个核苷酸、至少34个核苷酸、至少35个核苷酸、至少36个核苷酸、至少37个核苷酸、至少38个核苷酸、至少39个核苷酸、至少40个核苷酸、至少41个核苷酸、至少42个核苷酸、至少43个核苷酸、至少44个核苷酸、至少45个核苷酸、至少46个核苷酸、至少47个核苷酸、至少48个核苷酸、至少49个核苷酸、或至少50个核苷酸。

实施方案8.实施方案1的PEgRNA，其中DNA合成模板的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、或至少15个核苷酸。

实施方案9.实施方案6的PEgRNA，其中引物结合位点的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、或至少15个核苷酸。

实施方案10.实施方案1的PEgRNA，其还包含至少一种选自下组的附加结构：tRNA、接头、茎环、发夹、趾环、适体或RNA-蛋白募集结构域。

实施方案11.实施方案1的PEgRNA，其中DNA合成模板编码与邻近切口位点的内源性DNA序列互补的单链DNA瓣，其中单链DNA瓣包含期望的核苷酸变化。

实施方案12.实施方案11的PEgRNA，其中单链DNA瓣置换被有切口的靶DNA序列中具有5'端的内源性单链DNA，并且其中内源性单链DNA紧邻切口位点的下游。

实施方案13.实施方案11的PEgRNA，其中具有游离5'端的内源性单链DNA被细胞切除。

实施方案14.实施方案13的PEgRNA，其中单链DNA瓣的细胞修复导致安装期望的核苷酸变化，从而形成期望的产物。

实施方案15.实施方案1的PEgRNA，其包含SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777的核苷酸序列，或与SEQ ID NOs:101-104、181-183、223-244、277、325-334、336、338、340、342、344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777中的任一序列具有至少85％、至少90％、或至少95％、或至少98％、或至少99％序列同一性的核苷酸序列。

实施方案16.实施方案1的PEgRNA，其中DNA合成模板包含与内源性DNA靶标至少80％、或85％、或90％、或95％、或99％相同的核苷酸序列。

实施方案17.实施方案6的PEgRNA，其中引物结合位点与切割的DNA的游离3'端杂交。

实施方案18.实施方案10的PEgRNA，其中至少一个附加结构位于PEgRNA的3'或5'端。

实施方案19.实施方案10的PEgRNA，其中接头包含选自SEQ ID NO:127、165-176、446、453和767-769的核苷酸序列。

实施方案20.实施方案10的PEgRNA，其中茎环包含选自本文所述茎环的核苷酸序列。

实施方案21.实施方案10的PEgRNA，其中发夹包含选自本文所述发夹的核苷酸序列。

实施方案22.实施方案10的PEgRNA，其中趾环包含选自本文所述趾环的核苷酸序列。

实施方案23.实施方案10的PEgRNA，其中适体包含选自本文所述适体的核苷酸序列。

实施方案24.实施方案10的PEgRNA，其中RNA-蛋白募集结构域包含选自本文所述RNA-蛋白募集结构域的核苷酸序列。

实施方案25.设计用于引导编辑以在靶核苷酸序列中安装期望的核苷酸变化的PEgRNA的方法，其中所述PEgRNA包含间隔区、gRNA核心和延伸臂，并且其中所述延伸臂包含引物结合位点和DNA合成模板，所述方法包括：

(i)在靶核苷酸序列中选择期望的靶编辑位点；

(ii)获得靶编辑位点上游和下游的背景核苷酸序列；

(iii)在背景核苷酸序列中定位推定的原间隔区邻近基序(PAM)位置，其邻近期望的靶编辑位置；

(iv)确定各个推定的PAM位点的相应切口位点；

(v)设计间隔区；

(vi)设计gRNA核心；

(vii)设计延伸臂；和

(viii)通过连接间隔区、gRNA核心和延伸臂来构建完整的PEgRNA。

实施方案26.实施方案25的方法，其中步骤(i)选择期望的靶编辑位点包括选择致病性突变。

实施方式27.实施方案26的方法，其中致病性突变与选自下组的疾病相关：癌症、自身免疫性疾病、神经系统疾病、皮肤病、呼吸系统疾病和心脏病。

实施方案28.实施方案25的方法，其中步骤(ii)获得靶编辑位点上游和下游的背景核苷酸序列包括获得包含期望的靶编辑位点的区域的约50-55碱基对(bp)、约55-60bp、约60-65bp、约65-70bp、约70-75bp、约75-80bp、约80-85bp、约85-90bp、约90-95bp、约95-100bp、约100-105bp、约105-110bp、约110-125bp、约125-130bp、约130-135bp、约135-140bp、约140-145bp、约145-150bp、约1550-111bp、约155-160bp、约160-165bp、约165-170bp、约170-175bp、约175-180bp、约180-185bp、约185-190bp、约190-195bp、约195-200bp、约200-205bp、约205-210bp、约210-215bp、约215-220bp、约220-225bp、约225-230bp、约230-235bp、约-240bp、约240-245bp、或约245-250bp。

实施方案29.实施方案28的方法，其中期望的靶编辑位点定位于与背景核苷酸序列的每一端大约等距的位置。

实施方案30.实施方案25的方法，其中步骤(iii)中推定的PAM位点邻近期望的靶编辑位置。

实施方案31.实施方案25的方法，其中步骤(iii)中推定的PAM位点包括与位于距靶编辑位置少于30个核苷酸或距靶编辑位置少于29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、或2个核苷酸的位点处的切口位点相关的那些。

实施方案32.实施方案25的方法，其中步骤(iii)中推定的PAM位点包括与位于距靶编辑位置多于30个核苷酸或距靶编辑位置多于31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、82、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、或100个核苷酸的位点处的切口位点相关的那些。

实施方案33.实施方案25的方法，其中步骤(iii)中推定的PAM位点与结合所述PAM位点的一个或相应napDNAbp相关。

实施方案34.实施方案33的方法，推定的PAM位点及其对应的napDNAbp选自以下中的任一个：(a)SEQ ID NO:18-25和87-88的SpCas9和NGG；(b)SpVQRnCas9；和(c)NGAN。

实施方案35.实施方案25的方法，其中步骤(v)中设计间隔区包括确定与每个推定的PAM相关的原间隔区的互补核苷酸序列。

实施方案36.实施方案25的方法，其中步骤(vi)中设计gRNA核心包括在每个推定的PAM背景中，选择能够结合与每个所述推定的PAM相关的napDNAbp的gRNA核心序列。

实施方案37.实施方案25的方法，其中步骤(vii)中设计延伸臂包括设计(a)包含感兴趣的编辑的DNA合成模板，和(b)引物结合位点。

实施方案38.实施方案37的方法，其中设计引物结合位点包括(a)确定靶核苷酸序列的含PAM链的DNA引物，其中DNA引物的3'端是与PAM位点相关的切口位点上游的第一个核苷酸，和(b)设计DNA引物的互补序列，其中所述互补序列形成引物结合位点。

实施方案39.实施方案38的方法，其中引物结合位点的长度为8至15个核苷酸。

实施方案40.实施方案38的方法，其中如果DNA引物包含约40-60％GC含量，则引物结合位点为12至13个核苷酸。

实施方案41.实施方案38的方法，其中如果DNA引物包含小于约40％GC含量，则引物结合位点为14至15个核苷酸。

实施方案42.实施方案38的方法，其中如果DNA引物包含大于约60％GC含量，则引物结合位点为8至11个核苷酸。

实施方案43.引导编辑的方法，其包括使靶DNA序列与实施方案1至24中任一项的PEgRNA和引导编辑器融合蛋白接触，其中引导编辑器融合蛋白包含napDNAbp和具有RNA依赖性DNA聚合酶活性的结构域。

实施方案44.实施方案43的方法，其中napDNAbp具有切口酶活性。

实施方案45.如实施方案43的方法，其中napDNAbp是Cas9蛋白或其变体。

实施方案46.实施方案43的方法，其中napDNAbp是核酸酶活性Cas9、核酸酶死亡Cas9(dCas9)、或Cas9切口酶(nCas9)。

实施方案47.实施方案43的方法，其中napDNAbp是Cas9切口酶(nCas9)。

实施方案48.实施方案43的方法，其中napDNAbp选自：Cas9、Cas12e、Cas12d、Cas12a、Cas12b1、Cas13a、Cas12c和Argonaute蛋白，并且任选地具有切口酶活性。

实施方案49.实施方案43的方法，其中包含RNA依赖性DNA聚合酶活性的结构域是逆转录酶，所述逆转录酶包含SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741、和766中的任一氨基酸序列。

实施方案50.实施方案43的方法，其中包含RNA依赖性DNA聚合酶活性的结构域是逆转录酶，所述逆转录酶包含与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案51.实施方案43的方法，其中包含RNA依赖性DNA聚合酶活性的结构域是来自逆转录病毒或逆转录转座子的天然存在的逆转录酶。

组C.PE复合物

实施方案1.用于引导编辑的复合物，其包含：

(i)包含核酸可编程DNA结合蛋白(napDNAbp)和包含RNA依赖性DNA聚合酶活性的结构域的融合蛋白；和

(ii)引导编辑向导RNA(PEgRNA)。

实施方案2.实施方案1的复合物，其中融合蛋白能够在引导编辑向导RNA(PEgRNA)存在下进行引导编辑，以在靶序列中安装期望的核苷酸变化。

实施方案3.实施方案1的复合物，其中napDNAbp具有切口酶活性。

实施方案4.实施方案1的复合物，其中napDNAbp是Cas9蛋白或其变体。

实施方案5.实施方案1的复合物，其中napDNAbp是核酸酶活性Cas9、核酸酶死亡Cas9(dCas9)、或Cas9切口酶(nCas9)。

实施方案6.实施方案1的复合物，其中napDNAbp是Cas9切口酶(nCas9)。

实施方案7.实施方案1的复合物，其中napDNAbp选自：Cas9、Cas12e、Cas12d、Cas12a、Cas12b1、Cas13a、Cas12c和Argonaute蛋白，并且任选地具有切口酶活性。

实施方案8.实施方案1的复合物，其中包含RNA依赖性DNA聚合酶活性的结构域是逆转录酶，所述逆转录酶包含SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741、和766中的任一氨基酸序列。

实施方案9.实施方案1的复合物，其中包含RNA依赖性DNA聚合酶活性的结构域是逆转录酶，所述逆转录酶包含与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案10.实施方案1的复合物，其中包含RNA依赖性DNA聚合酶活性的结构域是来自逆转录病毒或逆转录转座子的天然存在的逆转录酶。

实施方案11.实施方案1的复合物，其中融合蛋白与PEgRNA复合时能够结合靶DNA序列。

实施方案12.实施方案1的复合物，其中PEgRNA包含向导RNA和至少一个包含DNA合成模板的核酸延伸臂。

实施方案13.实施方案12的复合物，其中核酸延伸臂位于向导RNA的3'或5'端，或向导RNA的分子内位置，并且其中核酸延伸臂为DNA或RNA。

实施方案14.实施方案12的复合物，其中PEgRNA能够结合napDNAbp并将napDNAbp引导至靶DNA序列。

实施方案15.实施方案14的复合物，其中靶DNA序列包含靶链和互补的非靶链。

实施方案16.实施方案12的复合物，其中向导RNA与靶链杂交形成RNA-DNA杂合体和R-环。

实施方案17.实施方案12的复合物，其中至少一个核酸延伸臂还包含引物结合位点。

实施方案18.实施方案12的复合物，其中核酸延伸臂为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸、至少26个核苷酸、至少27个核苷酸、至少28个核苷酸、至少29个核苷酸、至少30个核苷酸、至少31个核苷酸、至少32个核苷酸、至少33个核苷酸、至少34个核苷酸、至少35个核苷酸、至少36个核苷酸、至少37个核苷酸、至少38个核苷酸、至少39个核苷酸、至少40个核苷酸、至少41核苷酸、至少42个核苷酸、至少43个核苷酸、至少44个核苷酸、至少45个核苷酸、至少46个核苷酸、至少47个核苷酸、至少48个核苷酸、至少49个核苷酸、或至少50个核苷酸。

实施方案19.实施方案12的复合物，其中DNA合成模板的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、或至少15个核苷酸。

实施方案20.实施方案17的复合物，其中引物结合位点的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、或至少15个核苷酸。

实施方案21.实施方案12的复合物，其中PEgRNA还包含至少一个选自下组的附加结构：接头、茎环、发夹、趾环、适体或RNA-蛋白募集结构域。

实施方案22.实施方案12的复合物，其中DNA合成模板编码与邻近切口位点的内源性DNA序列互补的单链DNA瓣，其中单链DNA瓣包含期望的核苷酸变化。

实施方案23.实施方案22的复合物，其中单链DNA瓣置换被切开的靶DNA序列中具有5'端的内源性单链DNA，并且其中内源性单链DNA紧邻切口位点的下游。

实施方案24.实施方案23的复合物，其中具有游离5'端的内源性单链DNA被细胞切除。

实施方案25.实施方案23的复合物，其中单链DNA瓣的细胞修复导致安装期望的核苷酸变化，从而形成期望的产物。

实施方案26.实施方案12的复合物，其中PEgRNA包含SEQ ID NO:18-36的核苷酸序列，或与SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777中的任一序列具有至少85％、或至少90％、或至少95％、至少98％、或至少99％序列同一性的核苷酸序列。

实施方案27.实施方案12的复合物，其中DNA合成模板包含与内源性DNA靶标至少80％、或85％、或90％、或95％、或99％相同的核苷酸序列。

实施方案28.实施方案17的复合物，其中引物结合位点与切割的DNA的游离3'端杂交。

实施方案29.实施方案21的复合物，其中至少一个附加结构位于PEgRNA的3'或5'端。

实施方案30.实施方案29的复合物，其中接头包含选自SEQ ID NO:127、165-176、446、453和767-769的核苷酸序列。

实施方案31.实施方案29的复合物，其中茎环包含选自本文所述茎环的核苷酸序列。

实施方案32.实施方案29的复合物，其中发夹包含选自本文所述发夹的核苷酸序列。

实施方案33.实施方案29的复合物，其中趾环包含选自本文所述趾环的核苷酸序列。

实施方案34.实施方案29的复合物，其中适体包含选自本文所述适体的核苷酸序列。

实施方案35.实施方案29的复合物，其中RNA-蛋白募集结构域包含选自本文所述RNA-蛋白募集结构域的核苷酸序列。

实施方案36.实施方案1的复合物，其中靶DNA序列包含靶链和互补的非靶链。

实施方案37.实施方案36的复合物，其中R-环包含(i)包含PEgRNA和靶链的RNA-DNA杂合体，和(ii)互补的非靶链。

实施方案38.实施方案37的复合物，其中对靶链或互补的非靶链产生切口以形成具有游离3'端的引发序列。

实施方案39.实施方案38的复合物，其中切口位点在靶链的PAM序列的上游。

实施方案40.实施方案38的复合物，其中切口位点在非靶链的PAM序列的上游。

实施方案41.实施方案38的复合物，其中切口位点相对于PAM序列5'端-1、-2、-3、-4、-5、-6、-7、-8或-9。

实施方案42.实施方案22的复合物，其中单链DNA瓣与邻近切口位点的内源性DNA序列杂交，从而在靶链中安装期望的核苷酸变化。

实施方案43.实施方案22的复合物，其中单链DNA瓣置换邻近切口位点且具有游离5'端的内源性DNA序列。

实施方案44.实施方案22的复合物，其中具有5'端的内源性DNA序列被细胞切除。

实施方案45.实施方案44的复合物，其中具有5'端的内源性DNA序列被瓣内切核酸酶切除。

实施方案46.实施方案43的复合物，其中单链DNA瓣的细胞修复在非靶链中掺入期望的核苷酸变化，从而形成期望的产物。

实施方案47.实施方案46的复合物，其中将期望的核苷酸变化安装在PAM序列的约-4至+10、或PAM序列的约-10至+20，或PAM序列的约-20至+40，或PAM序列的约-30至+100的编辑窗口中。

实施方案48.实施方案47的复合物，其中将期望的核苷酸变化安装在切口位点的下游至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、54、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、89、89、91、92、93、94、95、96、97、98、99、或100个核苷酸。

实施方案49.前述实施方案中任一项的复合物，其中融合蛋白包含结构NH2-[napDNAbp]-[包含RNA依赖性DNA聚合酶活性的结构域]-COOH；或NH2-[包含RNA依赖性DNA聚合酶活性的结构域]-[napDNAbp]-COOH，其中“]-[”的每个情况表示存在任选的接头序列。

实施方案50.实施方案49的复合物，其中接头序列包含SEQ ID NO:127、165-176、446、453和767-769的氨基酸序列。

实施方案51.实施方案1的复合物，其中融合蛋白还包含连接napDNAbp和包含RNA依赖性DNA聚合酶活性的结构域的接头。

实施方案52.实施方案51的复合物，其中接头序列包含SEQ ID NO.3887(1xSGGS)、3888(2xSGGS)、3889(3xSGGS)、3890(1xXTEN)、3891(1xEAAAK)、3892(2xEAAAK)和3893(3xEAAAK)的氨基酸序列。

组D.用于校正突变的PE方法

实施方案1.在双链DNA序列中安装期望的核苷酸变化的方法，所述方法包括：使所述双链DNA序列与包含融合蛋白和PEgRNA的复合物接触，其中所述融合蛋白包含napDNAbp和聚合酶，其中所述PEgRNA包含含有所述期望的核苷酸变化的DNA合成模板和引物结合位点；

从而对所述双链DNA序列产生切口，由此产生具有3'端的游离单链DNA；

从而使所述游离单链DNA的3'端与所述引物结合位点杂交，由此引发所述聚合酶；

从而从与所述引物结合位点杂交的3'端聚合DNA链，由此产生包含所述期望的核苷酸变化且与所述DNA合成模板互补的单链DNA瓣；

从而利用所述单链DNA瓣置换邻近切割位点的内源性DNA链，由此在所述双链DNA序列中安装所述期望的核苷酸变化。

实施方案2.实施方案1的方法，其中置换内源性DNA链包括：(i)将所述单链DNA瓣与所述邻近切割位点的内源性DNA链杂交以产生序列错配；(ii)切除内源性DNA链；以及(iii)修复所述错配以形成在两条DNA链中包含所述期望的核苷酸变化的所述期望的产物。

实施方案3.实施方案1的方法，其中所述期望的核苷酸变化是单核苷酸取代、缺失或插入。

实施方案4.实施方案3的方法，其中所述单核苷酸取代是转换或颠换。

实施方案5.实施方案1的方法，其中所述期望的核苷酸变化是(1)G至T取代，(2)G至A取代，(3)G至C取代，(4)T至G取代，(5)T至A取代，(6)T至C取代，(7)C至G取代，(8)C至T取代，(9)C至A取代，(10)A至T取代，(11)A至G取代，或(12)A至C取代。

实施方案6.实施方案1的方法，其中所述期望的核苷酸变化转换(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A:T碱基对，(10)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

实施方案7.实施方案1的方法，其中所述期望的核苷酸变化是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸的插入或缺失。

实施方案8.实施方案1的方法，其中所述期望的核苷酸变化校正疾病相关基因。

实施方案9.实施方案8的方法，其中所述疾病相关基因与选自下组的单基因病症相关：腺苷脱氨酶(ADA)缺乏症；α-1抗胰蛋白酶缺乏症；囊性纤维化症；杜氏肌营养不良症；半乳糖血症；血色素沉积症；亨廷顿氏病；槭糖尿病；马凡氏综合征；1型神经纤维瘤病；先天性厚甲症；苯丙酮尿症；重度联合免疫缺陷；镰状细胞性贫血；史-李-欧(Smith-Lemli-Opitz)综合征；三核苷酸重复病症；朊病毒病；和泰-萨二氏病。

实施方案10.实施方案8的方法，其中所述疾病相关基因与选自下组的多基因病症相关：心脏病；高血压；阿尔茨海默氏病；关节炎；糖尿病；癌症；和肥胖症。

实施方案11.实施方案1的方法，其中所述napDNAbp是核酸酶死亡Cas9(dCas9)、Cas9切口酶(nCas9)、或核酸酶活性Cas9。

实施方案12.实施方案1的方法，其中所述napDNAbp包含SEQ ID NO:18的氨基酸序列。

实施方案13.实施方案1的方法，其中所述napDNAbp包含与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案14.实施方案1的方法，其中所述聚合酶是逆转录酶，所述逆转录酶包含SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列。

实施方案15.实施方案1的方法，其中所述聚合酶是逆转录酶，所述逆转录酶包含与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案16.实施方案1的方法，其中所述PEgRNA在所述向导RNA的3'或5'端或分子内位置处包含核酸延伸臂，其中所述延伸臂包含所述DNA合成模板序列和所述引物结合位点。

实施方案17.实施方案16的方法，其中所述延伸臂的长度为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、或至少25个核苷酸。

实施方案18.实施方案1的方法，其中所述PEgRNA具有选自SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777的核苷酸序列。

实施方案19.在靶基因座处的DNA分子核苷酸序列中引入一个或多个变化的方法，其包括：使所述DNA分子与核酸可编程DNA结合蛋白(napDNAbp)和将所述napDNAbp靶向到所述靶基因座的PEgRNA接触，其中所述PEgRNA包含含有至少一个期望的核苷酸变化和引物结合位点的逆转录酶(RT)模板序列；

从而在所述靶基因座处的DNA链中形成暴露的3'端；

从而使所述暴露的3'端与所述引物结合位点杂交以引发逆转录；

从而通过逆转录酶基于所述RT模板序列合成包含所述至少一个期望的核苷酸变化的单链DNA瓣；

从而将所述至少一个期望的核苷酸变化掺入相应的内源性DNA中，由此在所述靶基因座处的DNA分子的核苷酸序列中引入一个或多个变化。

实施方案20.实施方案19的方法，其中所述核苷酸序列中的所述一个或多个变化包括转换。

实施方案21.实施方案19的方法，其中所述转换选自下组：(a)T至C；(b)A至G；(c)C至T；和(d)G至A。

实施方案22.实施方案19的方法，其中所述核苷酸序列中的所述一个或多个变化包括颠换。

实施方案23.实施方案22的方法，其中所述颠换选自下组：(a)T至A；(b)T至G；(c)C至G；(d)C至A；(e)A至T；(f)A至C；(g)G至C；和(h)G至T。

实施方案24.实施方案19的方法，其中所述核苷酸序列中的所述一个或多个变化包括改变(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A:T碱基对，(9)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

实施方案25.实施方案19的方法，其中所述核苷酸序列中的所述一个或多个变化包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸的插入或缺失。

实施方案26.实施方案19的方法，其中所述核苷酸序列中的所述一个或多个变化包括对疾病相关基因的校正。

实施方案27.实施方案26的方法，其中疾病相关基因与选自下组的单基因病症相关：腺苷脱氨酶(ADA)缺乏症；α-1抗胰蛋白酶缺乏症；囊性纤维化症；杜氏肌营养不良症；半乳糖血症；血色素沉积症；亨廷顿氏病；槭糖尿病；马凡氏综合征；1型神经纤维瘤病；先天性厚甲症；苯丙酮尿症；重度联合免疫缺陷；镰状细胞性贫血；史-李-欧综合征；三核苷酸重复病症；朊病毒病；和泰-萨二氏病。

实施方案28.实施方案26的方法，其中所述疾病相关基因与选自下组的多基因病症相关：心脏病；高血压；阿尔茨海默氏病；关节炎；糖尿病；癌症；和肥胖症。

实施方案29.实施方案19的方法，其中所述napDNAbp是核酸酶活性Cas9或其变体。

实施方案30.实施方案19的方法，其中所述napDNAbp是核酸酶无活性Cas9(dCas9)、或Cas9切口酶(nCas9)、或其变体。

实施方案31.实施方案19的方法，其中所述napDNAbp包含SEQ ID NO:18的氨基酸序列。

实施方案32.实施方案19的方法，其中所述napDNAbp包含与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

实施方案33.实施方案19的方法，其中以反式引入所述逆转录酶。

实施方案34.实施方案19的方法，其中所述napDNAbp包含与逆转录酶的融合物。

实施方案35.实施方案19的方法，其中所述逆转录酶包含SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列。

实施方案36.实施方案19的方法，其中所述逆转录酶包含与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案37.实施方案19的方法，其中在所述靶基因座处的DNA链中形成暴露的3'端的步骤包括利用核酸酶对DNA链产生切口。

实施方案38.实施方案37的方法，其中所述核酸酶为napDNAbp，作为napDNAbp的融合结构域提供，或以反式提供。

实施方案39.实施方案19的方法，其中在所述靶基因座处的DNA链中形成暴露的3'端的步骤包括使所述DNA链与化学试剂接触。

实施方案40.实施方案19的方法，其中在所述靶基因座处的DNA链中形成暴露的3'端的步骤包括引入复制错误。

实施方案41.实施方案19的方法，其中使所述DNA分子与所述napDNAbp和所述向导RNA接触的步骤形成R-环。

实施方案42.实施方案41的方法，其中形成所述暴露的3'端的所述DNA链位于所述R环中。

实施方案43.实施方案19的方法，其中所述PEgRNA包含含有所述逆转录酶(RT)模板序列和所述引物结合位点的延伸臂。

实施方案44.实施方案43的方法，其中所述延伸臂位于所述向导RNA的3'端、所述向导RNA的5'端或所述向导RNA中的分子内位置处。

实施方案45.实施方案19的方法，其中所述PEgRNA还包含至少一个选自下组的附加结构：接头、茎环、发夹、趾环、适体或RNA-蛋白募集结构域。

实施方案46.实施方案19的方法，其中所述PEgRNA还包含同源臂。

实施方案47.实施方案19的方法，其中所述RT模板序列与相应的内源性DNA同源。

实施方案48.通过靶标引发的逆转录在靶基因座处的DNA分子核苷酸序列中引入一个或多个变化的方法，所述方法包括：(a)使所述靶基因座处的DNA分子与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的融合蛋白，和(ii)包含含有期望的核苷酸变化的RT模板的向导RNA；

从而进行所述RT模板的靶标引发的逆转录以生成包含所述期望的核苷酸变化的单链DNA；

从而通过DNA修复和/或复制过程将所述期望的核苷酸变化掺入所述靶基因座处的DNA分子中。

实施方案49.实施方案48的方法，其中所述RT模板位于所述向导RNA的3'端、所述向导RNA的5'端、或所述向导RNA中的分子内位置处。

实施方案50.实施方案48的方法，其中所述期望的核苷酸变化包括转换、颠换、插入、或缺失、或其任何组合。

实施方案51.实施方案48的方法，其中所述期望的核苷酸变化包括选自下组的转换：(a)T至C；(b)A至G；(c)C至T；和(d)G至A。

实施方案52.实施方案48的方法，其中所述期望的核苷酸变化包括选自下组的颠换：(a)T至A；(b)T至G；(c)C至G；(d)C至A；(e)A至T；(f)A至C；(g)G至C；和(h)G至T。

实施方案53.实施方案48的方法，其中所述期望的核苷酸变化包括改变(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A:T碱基对，(10)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

实施方案54.利用包含健康数目的重复三核苷酸的健康序列置换靶DNA分子中的三核苷酸重复扩增突变的方法，所述方法包括：(a)使所述靶基因座处的所述DNA分子与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的融合蛋白，和(ii)包含含有置换序列的DNA合成模板和引物结合位点的PEgRNA；(b)进行引导编辑以生成包含所述置换序列的单链DNA；以及(c)通过DNA修复和/或复制过程将所述单链DNA掺入所述靶位点处的所述DNA分子中。

实施方案55.实施方案54的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案56.实施方案54的方法，其中所述napDNAbp是Cas9切口酶(nCas9)。

实施方案57.实施方案54的方法，其中所述napDNAbp包含SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487的氨基酸序列。

实施方案58.实施方案54的方法，其中所述向导RNA包含SEQ ID NO:222。

实施方案59.实施方案54的方法，其中(b)进行引导编辑的步骤包括在所述靶基因座处产生3'端引物结合序列，其能够通过与所述向导RNA上的所述引物结合位点退火引发聚合酶。

实施方案60.实施方案54的方法，其中所述三核苷酸重复扩增突变与亨廷顿氏病、脆性X综合征或弗里德赖希氏共济失调相关。

实施方案61.实施方案54的方法，其中所述三核苷酸重复扩增突变包含CAG三联体的重复单元。

实施方案62.实施方案54的方法，其中所述三核苷酸重复扩增突变包含GAA三联体的重复单元。

实施方案63.通过靶标引发的逆转录在靶基因座处的DNA分子核苷酸序列中引入一个或多个变化的方法，所述方法包括：(a)使所述靶基因座处的所述DNA分子与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和逆转录酶的融合蛋白，和(ii)包含含有期望的核苷酸变化的RT模板的向导RNA；

从而进行RT模板的靶标引发的逆转录以产生包含所述期望的核苷酸变化的单链DNA；

从而通过DNA修复和/或复制过程将所述期望的核苷酸变化掺入所述靶基因座处的所述DNA分子中。

实施方案64.实施方案63的方法，其中所述RT模板位于所述向导RNA的3'端、所述向导RNA的5'端、或所述向导RNA中的分子内位置处。

实施方案65.实施方案63的方法，其中所述期望的核苷酸变化包括转换、颠换、插入、或缺失、或其任何组合。

实施方案66.实施方案63的方法，其中所述期望的核苷酸变化包括选自下组的转换：(a)T至C；(b)A至G；(c)C至T；和(d)G至A。

实施方案67.实施方案63的方法，其中所述期望的核苷酸变化包括选自下组的颠换：(a)T至A；(b)T至G；(c)C至G；(d)C至A；(e)A至T；(f)A至C；(g)G至C；和(h)G至T。

实施方案68.实施方案63的方法，其中所述期望的核苷酸变化包括改变(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A:T碱基对，(10)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

实施方案69.通过经由引导编辑将一个或多个保护性突变安装到由靶核苷酸序列编码的PRNP中来预防或阻止朊病毒病进展的方法，所述方法包括：(a)使所述靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含编码功能部分的编辑模板的PEgRNA；

从而使编码所述保护性突变的单链DNA序列聚合；

从而通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入所述单链DNA序列代替相应的内源性链；

其中所述方法产生编码包含保护性突变且对错误折叠具有抗性的PRNP的重组靶核苷酸序列。

实施方案70.实施方案69的方法，其中所述朊病毒病是人类朊病毒病。

实施方案71.实施方案69的方法，其中所述朊病毒病是动物朊病毒病。

实施方案72.实施方案69的方法，其中所述朊病毒病是克雅氏病(CJD)、变异型克雅氏病(vCJD)、杰茨曼-斯脱司勒-史茵克(Gerstmann-Straussler-Scheinker)综合征、致死性家族性失眠症、或库鲁病。

实施方案73.实施方案69的方法，其中所述朊病毒病是牛海绵状脑病(BSE或“疯牛病”)、慢性消耗性疾病(CWD)、羊瘙痒症、传染性水貂脑病、猫海绵状脑病和有蹄类海绵状脑病。

实施方案74.实施方案69的方法，其中野生型PRNP氨基酸序列为SEQ ID NO:291-292。

实施方案75.实施方案69的方法，其中所述方法产生选自SEQ ID NO:293-309、311-323的经修饰的PRNP氨基酸序列，其中所述经修饰的PRNP蛋白对错误折叠具有抗性。

实施方案76.实施方案69的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案77.实施方案69的方法，其中所述napDNAbp是Cas9切口酶(nCas9)。

实施方案78.实施方案69的方法，其中所述napDNAbp包含SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487的氨基酸序列。

实施方案79.实施方案69的方法，其中所述PEgRNA包含SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、3444、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777。

实施方案80.通过经由引导编辑校正靶核苷酸序列中细胞周期蛋白依赖性激酶样5基因(CDKL5)中的突变来治疗CDKL5缺乏病症的方法，所述方法包括：(a)使所述靶核苷酸接触以下：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含校正所述CDKL5中的突变的编辑模板的PEgRNA；

从而使编码所述编辑的单链DNA序列聚合；

其中所述方法产生编码经修复的CDKL5基因的重组靶核苷酸序列。

实施方案81.实施方案80的方法，其中所述CDKL5中的突变是1412delA。

组E.用于修饰蛋白结构/功能和/或诱变的PE方法

实施方案1.通过引导编辑在靶基因座处诱变DNA分子的方法，所述方法包括：(a)使所述靶基因座处的所述DNA分子与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和易错聚合物(如，易错逆转录酶)的融合蛋白，和(ii)包含含有期望的核苷酸变化的编辑模板的向导RNA；从而使由编辑模板提供模板的单链DNA聚合；以及通过DNA修复和/或复制过程将单链DNA掺入靶基因座处的DNA分子中。

实施方案2.前面实施方案中任一项的方法，其中融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案3.前面实施方案中任一项的方法，其中napDNAbp是Cas9切口酶(nCas9)。

实施方案4.实施方案1的方法，其中napDNAbp包含SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487的氨基酸序列。

实施方案5.实施方案1的方法，其中向导RNA包含SEQ ID NO:222。

实施方案6.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装免疫表位的方法，所述方法包括：(a)使靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含编码功能部分的编辑模板的PEgRNA；

从而使编码免疫表位的单链DNA序列聚合；

从而通过DNA修复和/或复制过程在靶核苷酸序列处掺入单链DNA序列代替相应的内源性链；

其中所述方法产生编码包含感兴趣的蛋白和免疫表位的融合蛋白的重组靶核苷酸序列。

实施方案7.实施方案6的方法，其中免疫表位选自：破伤风类毒素(SEQ ID NO:396)；白喉毒素突变体CRM197(SEQ ID NO:398)；流行性腮腺炎免疫表位1(SEQ ID NO:400)；流行性腮腺炎免疫表位2(SEQ ID NO:402)；流行性腮腺炎免疫表位3(SEQ ID NO:404)；风疹病毒(SEQ ID NO:406)；血凝素(SEQ ID NO:408)；神经氨酸酶(SEQ ID NO:410)；TAP1(SEQ ID NO:412)；TAP2(SEQ ID NO:414)；针对HLA I类的血凝素表位(SEQ ID NO:416)；针对HLA I类的神经氨酸酶表位(SEQ ID NO:418)；针对HLA II类的血凝素表位(SEQID NO:420)；针对HLA II类的神经氨酸酶表位(SEQ ID NO:422)；结合HLA I类和II类的H5N1血凝素表位(SEQ ID NO:424)；结合HLA I类和II类的H5N1神经氨酸酶表位(SEQ IDNO:426)。

实施方案8.实施方案6的方法，其中融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案9.实施方案6的方法，其中napDNAbp是Cas9切口酶(nCas9)。

实施方案10.实施方案6的方法，其中napDNAbp包含SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487的氨基酸序列。

实施方案11.实施方案6的方法，其中PEgRNA包含SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、36,3、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777。

实施方案12.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装小分子二聚化结构域的方法，所述方法包括：(a)使靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含编码小分子二聚化结构域的编辑模板的PEgRNA；

从而使编码免疫表位的单链DNA序列聚合；

其中所述方法产生编码包含感兴趣的蛋白和小分子二聚化结构域的融合蛋白的经修饰的靶核苷酸序列。

实施方案13.实施方案12的方法，其还包括对第二感兴趣的蛋白实施该方法。

实施方案14.实施方案13的方法，其中第一感兴趣的蛋白和第二感兴趣的蛋白在与所述蛋白的每个上的二聚化结构域结合的小分子存在下二聚化。

实施方案15.实施方案12的方法，其中小分子结合结构域是SEQ ID NO:488的FKBP12。

实施方案16.实施方案12的方法，其中小分子结合结构域是SEQ ID NO:489的FKBP12-F36V。

实施方案17.实施方案12的方法，其中小分子结合结构域是SEQ ID NO:490和493-494的亲环蛋白。

实施方案18.实施方案12的方法，其中小分子是如本文所述小分子的二聚体。

实施方案19.实施方案12的方法，其中融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案20.实施方案12的方法，其中napDNAbp是Cas9切口酶(nCas9)。

实施方案21.实施方案12的方法，其中napDNAbp包含SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487的氨基酸序列。

实施方案22.实施方案12的方法，其中PEgRNA包含SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、3444、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777。

实施方案23.利用引导编辑在蛋白上安装肽标签或表位的方法，其包括：使编码蛋白的靶核苷酸序列与引导编辑器构建体接触，该引导编辑器构建体被配置为在其中插入编码肽标签的第二核苷酸序列以产生重组核苷酸序列，使得肽标签和蛋白作为融合蛋白由重组核苷酸序列表达。

实施方案24.实施方案23的方法，其中肽标签用于蛋白的纯化和/或检测。

实施方案25.实施方案23的方法，其中肽标签是聚组氨酸(如，HHHHHH)(SEQ IDNO:252-262)、FLAG(如，DYKDDDDK)(SEQ ID NO:2)，V5(如，GKPIPNPLLGLDST)(SEQ ID NO:3)、GCN4、HA(如，YPYDVPDYA)(SEQ ID NO:5)、Myc(如，EQKLISEED)(SEQ ID NO:6)或GST。

实施方案26.实施方案23的方法，其中肽标签具有选自SEQ ID NO:1-6、245-249、252-262、264-273、275-276、281、278-288和622的氨基酸序列。

实施方案27.实施方案23的方法，其中肽标签通过接头与蛋白融合。

实施方案28.实施方案23的方法，其中融合蛋白具有以下结构：[蛋白]-[肽标签]或[肽标签]-[蛋白]，其中“]-[”表示任选的接头。

实施方案29.实施方案23的方法，其中接头具有SEQ ID NO:127、165-176、446、453和767-769的氨基酸序列.

实施方案30.实施方案23的方法，其中引导编辑器构建体包含PEgRNA，PEgRNA包含SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777的核苷酸序列。

实施方案31.实施方案23的方法，其中PEgRNA包含间隔区、gRNA核心和延伸臂，其中间隔区与靶核苷酸序列互补，并且延伸臂包含编码肽标签的逆转录酶模板。

实施方案32.实施方案23的方法，其中PEgRNA包含间隔区、gRNA核心和延伸臂，其中间隔区与靶核苷酸序列互补，并且延伸臂包含编码肽标签的逆转录酶模板。

实施方案33.通过引导编辑在由靶核苷酸序列编码的感兴趣的蛋白中安装或删除功能部分的方法，所述方法包括：(a)使靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含编码功能部分或其删除的编辑模板的PEgRNA；(b)使编码功能部分或其删除的单链DNA序列聚合；(c)通过DNA修复和/或复制过程在靶核苷酸序列处掺入单链DNA序列代替相应的内源性链，其中所述方法产生编码包含感兴趣的蛋白和功能部分或其去除的经修饰的蛋白的重组靶核苷酸序列，其中功能部分改变蛋白的修饰状态或定位状态。

实施方案34.实施方案33的方法，其中功能部分改变感兴趣的蛋白的磷酸化、泛素化、糖基化、脂化、羟基化、甲基化、乙酰化、巴豆酰化、或SUMO化状态。

组F.PE递送方法和组合物

实施方案1.多肽，其包含引导编辑器融合蛋白的N-端半部或C-端半部。

实施方案2.实施方案1的多肽，其中引导编辑器融合蛋白包含核酸可编程DNA结合蛋白(napDNAbp)结构域和聚合酶结构域。

实施方案3.实施方案1的多肽，其中引导编辑器融合蛋白能够在引导编辑向导RNA(PEgRNA)存在下进行引导编辑。

实施方案4.实施方案2的多肽，其中napDNAbp是Cas9蛋白或其变体。

实施方案5.实施方案2的多肽，其中napDNAbp是具有切口酶活性的核酸酶。

实施方案6.实施方案2的多肽，其中napDNAbp是核酸酶活性Cas9、核酸酶死亡Cas9(dCas9)、或Cas9切口酶(nCas9)。

实施方案7.实施方案2的多肽，其中napDNAbp选自：Cas9、Cas12e、Cas12d、Cas12a、Cas12b1、Cas13a、Cas12c和Argonaute蛋白，并且任选地具有切口酶活性。

实施方案8.实施方案1的多肽，其中多肽通过在断裂位点处断裂引导编辑器融合蛋白而形成。

实施方案9.实施方案8的多肽，其中断裂位点是napDNAbp结构域中的肽键。

实施方案10.实施方案8的多肽，其中断裂位点是聚合酶结构域中的肽键。

实施方案11.实施方案8的多肽，其中断裂位点是napDNAbp结构域和聚合酶结构域之间的接头中的肽键。

实施方案12.实施方案9的多肽，其中断裂位点是在SEQ ID NO:18(经典SpCas9)的残基1和2、2和3、3和4、4和5、5和6、6和7、7和8、8和9、9和10、10和11、11和12、12和13、13和14、14和15、16和17、17和18、18和19、19和20、20和21、21和22、22和23、23和24、24和25、25和26、26和27、27和28、28和29、29和30、30和31、31和32、32和33、33和34、34和35、35和36、36和37、37和38、38和39、39和40、40和41、41和42、42和43、43和44、44和45、45和46、46和47、47和48、48和49、49和50之间或残基50-100、100-150、150-200、200-250、250-300、300-350、350-400、400-450、450-500、500-600、600-700、700-800、800-900、900-1000、1000-1100、1100-1200、1200-1300、或1300-1368之间的任何两个残基之间，或在SpCas9同源物或SEQ ID NO:18的等同物的任何两个等同氨基酸残基之间的肽键。

实施方案13.实施方案9的多肽，其中断裂位点为在SEQ ID NO:89(经典逆转录酶，M-MLV RT)的残基1和2、2和3、3和4、4和5、5和6、6和7、7和8、8和9、9和10、10和11、11和12、12和13、13和14、14和15、16和17、17和18、18和19、19和20、20和21、21和22、22和23、23和24、24和25、25和26、26和27、27和28、28和29、29和30、30和31、31和32、32和33、33和34、34和35、35和36、36和37、37和38、38和39、39和40、40和41、41和42、42和43、43和44、44和45、45和46、46和47、47和48、48和49、49和50之间，或残基50-100、100-150、150-200、200-250、250-300、300-350、350-400、400-450、450-500、500-600、600-667之间的任何两个残基之间，或在逆转录酶同源物或SEQ ID NO:89的等同物的任何两个等同氨基酸残基之间的肽键。

实施方案14.实施方案1的多肽，其中多肽为引导编辑器融合蛋白的N端半部。

实施方案15.实施方案1的多肽，其中多肽为引导编辑器融合蛋白的C端半部。

实施方案16.核苷酸序列，其编码实施方案1至15中任一项的多肽和任选的PEgRNA。

实施方案17.病毒基因组，其包含编码实施方案1至15中任一项的多肽和任选的PEgRNA的核苷酸序列。

实施方案18.实施方案17的病毒基因组，其中核苷酸序列还包含适合于表达实施方案1至15中任一项的多肽的启动子序列。

实施方案19.实施方案17的病毒基因组，其中核苷酸序列还包含编码PEgRNA的序列。

实施方案20.病毒颗粒，其包含含有编码实施方案1至15中任一项的多肽和任选的PEgRNA的核苷酸序列的基因组。

实施方案21.实施方案20的病毒颗粒，其中病毒颗粒是腺病毒颗粒、腺相关病毒颗粒、或慢病毒颗粒。

实施方案22.实施方案20的病毒颗粒，其中由基因组编码的多肽为引导编辑器融合蛋白的N端半部。

实施方案23.实施方案20的病毒颗粒，其中由基因组编码的多肽为引导编辑器融合蛋白的C端半部。

实施方案24.药物组合物，其包含实施方案20至23中任一项的病毒颗粒和药物赋形剂。

实施方案25.药物组合物，其包含实施方案22的病毒颗粒(编码N端半部)和药物赋形剂。

实施方案26.药物组合物，其包含实施方案23的病毒颗粒(编码C端半部)和药物赋形剂。

实施方案27.核糖核蛋白(RNP)复合物，其包含编码实施方案1至15中任一项的多肽和任选的PEgRNA的核苷酸序列。

实施方案28.实施方案27的核糖核蛋白(RNP)复合物，其中由基因组编码的多肽为引导编辑器融合蛋白的N端半部。

实施方案29.实施方案27的核糖核蛋白(RNP)复合物，其中由基因组编码的多肽为引导编辑器融合蛋白的C端半部。

实施方案30.药物组合物，其包含实施方案27至29中任一项的核糖核蛋白(RNP)复合物和药物赋形剂。

实施方案31.药物组合物，其包含实施方案28的核糖核蛋白(RNP)复合物(编码N端半部)和药物赋形剂。

实施方案32.药物组合物，其包含实施方案29的核糖核蛋白(RNP)复合物(编码C端半部)和药物赋形剂。

实施方案33.药物组合物，其包含第一AAV颗粒和第二AAV颗粒，其中第一AAV载体表达引导编辑器融合蛋白的N端半部，第二AAV载体表达引导编辑器融合蛋白的C端半部，其中N端半部和C端半部在细胞内结合以重新组成引导编辑器。

实施方案34.实施方案33的药物组合物，其中第一或第二AAV颗粒还表达将重新组成的引导编辑器靶向靶DNA位点的PEgRNA。

实施方案35.实施方案33的药物组合物，其中引导编辑器融合蛋白包含核酸可编程DNA结合蛋白(napDNAbp)结构域和聚合酶结构域。

实施方案36.实施方案33的药物组合物，其中引导编辑器融合蛋白能够在引导编辑向导RNA(PEgRNA)存在下进行引导编辑。

实施方案37.实施方案35的药物组合物，其中napDNAbp是Cas9蛋白或其变体。

实施方案38.实施方案35的药物组合物，其中napDNAbp是具有切口酶活性的核酸酶。

实施方案39.实施方案35的药物组合物，其中napDNAbp是核酸酶活性Cas9、核酸酶死亡Cas9(dCas9)、或Cas9切口酶(nCas9)。

实施方案40.实施方案35的药物组合物，其中napDNAbp选自：Cas9、Cas12e、Cas12d、Cas12a、Cas12b1、Cas13a、Cas12c和Argonaute蛋白，并且任选地具有切口酶活性。

实施方案41.实施方案33的药物组合物，其中N端半部和C端半部通过在断裂位点处断裂引导编辑器融合蛋白而形成。

实施方案42.实施方案41的药物组合物，其中断裂位点为napDNAbp结构域中的肽键。

实施方案43.实施方案41的药物组合物，其中断裂位点为聚合酶结构域中的肽键。

实施方案44.实施方案41的药物组合物，其中断裂位点为接头中的肽键。

实施方案45.实施方案41的药物组合物，其中断裂位点为在SEQ ID NO:18(经典SpCas9)的残基1和2、2和3、3和4、4和5、5和6、6和7、7和8、8和9、9和10、10和11、11和12、12和13、13和14、14和15、16和17、17和18、18和19、19和20、20和21、21和22、22和23、23和24、24和25、25和26、26和27、27和28、28和29、29和30、30和31、31和32、32和33、33和34、34和35、35和36、36和37、37和38、38和39、39和40、40和41、41和42、42和43、43和44、44和45、45和46、46和47、47和48、48和49、49和50之间，或残基50-100、100-150、150-200、200-250、250-300、300-350、350-400、400-450、450-500、500-600、600-700、700-800、800-900、900-1000、1000-1100、1100-1200、1200-1300、或1300-1368之间的任何两个残基之间，或SpCas9同源物或SEQ ID NO:18的等同物的任何两个等同氨基酸残基之间的肽键。

实施方案46.实施方案41的药物组合物，其中断裂位点为在SEQ ID NO:89(经典逆转录酶，M-MLV RT)的残基1和2、2和3、3和4、4和5、5和6、6和7、7和8、8和9、9和10、10和11、11和12、12和13、13和14、14和15、16和17、17和18、18和19、19和20、20和21、21和22、22和23、23和24、24和25、25和26、26和27、27和28、28和29、29和30、30和31、31和32、32和33、33和34、34和35、35和36、36和37、37和38、38和39、39和40、40和41、41和42、42和43、43和44、44和45、45和46、46和47、47和48、48和49、49和50之间，或残基50-100、100-150、150-200、200-250、250-300、300-350、350-400、400-450、450-500、500-600、600-667之间的任何两个残基之间，或在逆转录酶同源物或SEQ ID NO:89的等同物的任何两个等同氨基酸残基之间的肽键。

实施方案47.实施方案33的药物组合物，其中引导编辑器融合蛋白的N端半部具有编码如本文所述的N端引导编辑器融合蛋白的氨基酸序列。

实施方案48.实施方案33的药物组合物，其中引导编辑器融合蛋白的C端半部具有编码如本文所述的N端引导编辑器融合蛋白的氨基酸序列。

实施方案49.将引导编辑器融合蛋白递送至细胞的方法，其包括利用第一AAV颗粒和第二AAV颗粒转染细胞，其中第一AAV载体表达引导编辑器融合蛋白的N端半部，第二AAV载体表达引导编辑器融合蛋白的C端半部，其中N端半部和C端半部在细胞内结合以重新组成引导编辑器融合蛋白。

实施方案50.实施方案49的方法，其中第一或第二AAV颗粒还表达将重新组成的引导编辑器靶向靶DNA位点的PEgRNA。

实施方案51.实施方案49的方法，其中引导编辑器融合蛋白包含核酸可编程DNA结合蛋白(napDNAbp)结构域和聚合酶结构域。

实施方案52.实施方案49的方法，其中引导编辑器融合蛋白能够在引导编辑向导RNA(PEgRNA)存在下进行引导编辑。

实施方案53.实施方案51的方法，其中napDNAbp是Cas9蛋白或其变体。

实施方案54.实施方案53的方法，其中napDNAbp是具有切口酶活性的核酸酶。

实施方案55.实施方案53的方法，其中napDNAbp是核酸酶活性Cas9、核酸酶死亡Cas9(dCas9)、或Cas9切口酶(nCas9)。

实施方案56.实施方案53的方法，其中napDNAbp选自：Cas9、Cas12e、Cas12d、Cas12a、Cas12b1、Cas13a、Cas12c和Argonaute蛋白，并且任选地具有切口酶活性。

实施方案57.实施方案49的方法，其中N端半部和C端半部通过在断裂位点处断裂引导编辑器融合蛋白而形成。

实施方案58.实施方案57的方法，其中断裂位点为napDNAbp结构域中的肽键。

实施方案59.实施方案57的方法，其中断裂位点为聚合酶结构域中的肽键。

实施方案60.实施方案57的方法，其中断裂位点为接头中的肽键。

实施方案61.实施方案57的方法，其中断裂位点为在SEQ ID NO:18(经典SpCas9)的残基1和2、2和3、3和4、4和5、5和6、6和7、7和8、8和9、9和10、10和11、11和12、12和13、13和14、14和15、16和17、17和18、18和19、19和20、20和21、21和22、22和23、23和24、24和25、25和26、26和27、27和28、28和29、29和30、30和31、31和32、32和33、33和34、34和35、35和36、36和37、37和38、38和39、39和40、40和41、41和42、42和43、43和44、44和45、45和46、46和47、47和48、48和49、49和50之间，或残基50-100、100-150、150-200、200-250、250-300、300-350、350-400、400-450、450-500、500-600、600-700、700-800、800-900、900-1000、1000-1100、1100-1200、1200-1300、或1300-1368之间的任何两个残基之间，或SpCas9同源物或SEQ IDNO:18的等同物的任何两个等同氨基酸残基之间的肽键。

实施方案62.实施方案57的药物组合物，其中断裂位点为在SEQ ID NO:89(经典逆转录酶，M-MLV RT)的残基1和2、2和3、3和4、4和5、5和6、6和7、7和8、8和9、9和10、10和11、11和12、12和13、13和14、14和15、16和17、17和18、18和19、19和20、20和21、21和22、22和23、23和24、24和25、25和26、26和27、27和28、28和29、29和30、30和31、31和32、32和33、33和34、34和35、35和36、36和37、37和38、38和39、39和40、40和41、41和42、42和43、43和44、44和45、45和46、46和47、47和48、48和49、49和50之间，或残基50-100、100-150、150-200、200-250、250-300、300-350、350-400、400-450、450-500、500-600、600-667之间的任何两个残基之间，或逆转录酶同源物或SEQ ID NO:89的等同物的任何两个等同氨基酸残基之间的肽键。

实施方案63.实施方案49的方法，其中引导编辑器融合蛋白的N端半部具有编码本文所述的N端引导编辑器融合蛋白的氨基酸序列。

实施方案64.实施方案49的方法，其中引导编辑器融合蛋白的C端半部具有编码本文所述的C端引导编辑融合蛋白的氨基酸序列。

实施方案65.实施方案49的方法，其中第一AAV颗粒包含重组AAV基因组，该重组AAV基因组包含编码第一引导编辑器组件的核苷酸序列。

实施方案66.实施方案49的方法，其中第二AAV颗粒包含重组AAV基因组，该重组AAV基因组包含编码第二引导编辑器组件的核苷酸序列。

实施方案67.实施方案49的方法，其中转染步骤在体内进行。

实施方案68.实施方案49的方法，其中转染步骤离体进行。

实施方案69.实施方案50的方法，其中靶DNA位点是疾病相关基因。

实施方案70.实施方案69的方法，其中疾病相关基因与选自下组的单基因病症相关：腺苷脱氨酶(ADA)缺乏症；α-1抗胰蛋白酶缺乏症；囊性纤维化症；杜氏肌营养不良症；半乳糖血症；血色素沉积症；亨廷顿氏病；槭糖尿病；马凡氏综合征；1型神经纤维瘤病；先天性厚甲症；苯丙酮尿症；重度联合免疫缺陷；镰状细胞性贫血；史-李-欧综合征；三核苷酸重复病症；朊病毒病；和泰-萨二氏病。

实施方案71.实施方案69的方法，其中疾病相关基因与选自下组的多基因病症相关：心脏病；高血压；阿尔茨海默氏病；关节炎；糖尿病；癌症；和肥胖症。

实施方案72.实施方案51的方法，其中可编程DNA结合蛋白(napDNAbp)结构域。

实施方案73.实施方案51的方法，其中聚合酶结构域为逆转录酶。

实施方案74.实施方案73的方法，其中逆转录酶包含SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741、和766中的任一氨基酸序列。

实施方案75.实施方案73的方法，其中逆转录酶包含与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

实施方案76.实施方案73的方法，其中napDNAbp包含SEQ ID NO:18的氨基酸序列。

实施方案77.实施方案73的方法，其中napDNAbp包含与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案78.实施方案8的多肽，其中断裂位点位于SEQ ID NO:18的1023和1024之间，或与SEQ ID NO:18具有至少85％、至少90％、至少95％、至少99％、或至少99.5％序列同一性的氨基酸序列中的相应位点。

组G.用于修饰RNA结构/功能的PE方法

实施方案1.通过引导编辑在由靶核苷酸序列编码的感兴趣的RNA中安装核糖核苷酸基序或标签的方法，所述方法包括：(a)使所述靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含编码所述核糖核苷酸基序或标签的编辑模板的PEgRNA；从而使编码所述核糖核苷酸基序或标签的单链DNA序列聚合；以及通过DNA修复和/或复制过程在所述靶核苷酸序列处掺入单链DNA序列代替相应的内源性链，其中所述方法产生包含所述核糖核苷酸基序或标签的编码经修饰的感兴趣的RNA的靶核苷酸序列。

实施方案2.实施方案1的方法，其中核糖核苷酸基序或标签为检测部分。

实施方案3.实施方案1的方法，其中所述核糖核苷酸基序或标签影响所述感兴趣的RNA的表达水平。

实施方案4.实施方案1的方法，其中所述核糖核苷酸基序或标签影响所述感兴趣的RNA的转运或亚细胞定位。

实施方案5.实施方案1的方法，其中所述核糖核苷酸基序或标签选自下组：SV40 1型、SV40 2型、SV40 3型、hGH、BGH、rbGlob、TK、MALAT1ENE-mascRNA、KSHV PAN ENE、Smbox/U1 snRNA框、U1 snRNA 3'框、tRNA-赖氨酸、broccoli适体、spinach适体、mango适体、HDV核酶和m6A。

实施方案6.实施方案1的方法，其中所述PEgRNA包含SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、3644、3348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777(见表)。

实施方案7.实施方案1的方法，其中所述融合蛋白包含PE1、PE2或PE3的氨基酸序列。

实施方案8.实施方案1的方法，其中所述napDNAbp是Cas9切口酶(nCas9)。

实施方案9.实施方案1的方法，其中所述napDNAbp包含SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487的氨基酸序列。

组H.用于制备基因文库的PE方法

实施方案1.通过引导编辑构建编程的突变基因文库的方法，所述方法包括：

(a)使各自包含一个或多个靶基因座的靶核苷酸序列文库与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器，和(ii)包含含有相对于一个或多个靶基因座具有至少一个基因变化的序列的编辑模板的PEgRNA；

从而使由所述编辑模板提供模板的单链DNA序列聚合；以及

通过DNA修复和/或复制过程将所述单链DNA序列掺入代替一个或多个靶基因座，从而将所述至少一个基因变化掺入所述文库的靶核苷酸序列的靶基因座中。

实施方案2.实施方案1的方法，其中所述文库为质粒文库。

实施方案3.实施方案1的方法，其中所述文库为噬菌体文库。

实施方案4.实施方案1的方法，其中所述一个或多个靶基因座包含编码蛋白的区域。

实施方案5.实施方案1的方法，其中所述一个或多个靶基因座包含编码蛋白的二级结构基序的区域。

实施方案6.实施方案5的方法，其中所述二级结构基序为α螺旋。

实施方案7.实施方案5的方法，其中所述二级结构基序为β折叠。

实施方案8.实施方案1的方法，其中所述napDNAbp是Cas9蛋白或其变体。

实施方案9.根据实施方案1的方法，其中所述napDNAbp是具有切口酶活性的核酸酶。

实施方案10.实施方案1的方法，其中所述napDNAbp是核酸酶活性Cas9、核酸酶死亡Cas9(dCas9)、或Cas9切口酶(nCas9)。

实施方案11.实施方案1的方法，其中所述napDNAbp包含SEQ ID NO:18的氨基酸序列。

实施方案12.实施方案1的方法，其中所述napDNAbp包含与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案13.实施方案1的方法，其中所述聚合酶结构域是逆转录酶。

实施方案14.实施方案13的方法，其中所述逆转录酶包含SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741、和766中的任一氨基酸序列。

实施方案15.实施方案14的方法，其中所述逆转录酶包含与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

实施方案16.实施方案1的方法，其中所述编辑模板中的至少一个基因变化为插入。

实施方案17.如实施方案1的方法，其中所述编辑模板中的至少一个基因变化为缺失。

实施方案18.如实施方案1的方法，其中所述编辑模板中的至少一个基因变化为替换。

实施方案19.实施方案1的方法，其中所述至少一个基因变化为插入一个或多个密码子。

实施方案20.实施方案1的方法，其中所述至少一个基因变化为缺失一个或多个密码子。

实施方案21.实施方案1的方法，其中所述至少一个基因变化为插入终止密码子。

实施方案22.实施方案1的方法，其中所述至少一个基因变化是非终止密码子转化为终止密码子。

实施方案23.实施方案1的方法，其中所述方法在文库的各靶核苷酸序列中至少2、或3、或4、或5、或6、或7、或8、或9、或10、或10至100、或100至200、或200至300、或300至400、或400至500个靶基因座处同时进行。

实施方案24.实施方案1的方法，其中所述方法在PACE或PANCE进化期间进行，并且其中将至少一个基因变化掺入所述文库的靶核苷酸序列的靶基因座的每个情况还安装新的靶序列。

组I.用于脱靶检测的PE方法

实施方案1.通过引导编辑器评估脱靶编辑的方法，所述方法包括：

(a)使具有编辑位点的靶核苷酸序列与以下接触：(i)包含核酸可编程DNA结合蛋白(napDNAbp)和聚合酶的引导编辑器融合蛋白，和(ii)包含编码可检测序列的DNA合成模板的PEgRNA；

其中所述PEgRNA与所述融合蛋白复合并将所述融合蛋白引导至编辑位点并且在存在时引导至一个或多个脱靶位点；

并且其中所述引导编辑器融合蛋白将所述可检测序列安装在所述编辑位点处，并且在存在时安装在所述一个或多个脱靶位点处；

(b)确定所述编辑位点和所述一个或多个脱靶位点的核苷酸序列。

实施方案2.实施方案1的方法，其中所述靶核苷酸序列为基因组。

实施方案3.实施方案1的方法，其中接触步骤在体外。

实施方案4.实施方案1的方法，其中接触步骤在体内。

实施方案5.实施方案1的方法，其中所述编辑位点是疾病相关基因中的突变。

实施方案6.实施方案5的方法，其中所述突变是单碱基替换、插入、缺失、或倒置。

实施方案7.实施方案1的方法，其中所述疾病相关基因与选自下组的单基因病症相关：腺苷脱氨酶(ADA)缺乏症；α-1抗胰蛋白酶缺乏症；囊性纤维化症；杜氏肌营养不良症；半乳糖血症；血色素沉积症；亨廷顿氏病；槭糖尿病；马凡氏综合征；1型神经纤维瘤病；先天性厚甲症；苯丙酮尿症；重度联合免疫缺陷；镰状细胞性贫血；史-李-欧综合征；和泰-萨二氏病。

实施方案8.实施方案1的方法，其中所述疾病相关基因与选自下组的多基因病症相关：心脏病；高血压；阿尔茨海默氏病；关节炎；糖尿病；癌症；和肥胖症。

实施方案9.实施方案1的方法，其中所述融合蛋白具有SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777的氨基酸序列，或与SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

实施方案10.实施方案1的方法，其中所述napDNAbp是Cas9、Cas12e、Cas12d、Cas12a、Cas12b1、Cas13a、Cas12c或Argonaute蛋白，或Cas9、Cas12e、Cas12d、Cas12c、Cas12a、Cas12b1或Argonaute蛋白的变体。

实施方案11.实施方案1的方法，其中所述napDNAbp是Cas9或其变体。

实施方案12.实施方案1的方法，其中所述napDNAbp是核酸酶活性Cas9、核酸酶死亡Cas9(dCas9)、或Cas9切口酶(nCas9)。

实施方案13.实施方案1的方法，其中所述napDNAbp是Cas9切口酶(nCas9)。

实施方案14.实施方案1的方法，其中所述napDNAbp包含SEQ ID NO:18的氨基酸序列，或与SEQ ID NO:18具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案15.实施方案1的方法，其中所述napDNAbp是SpCas9野生型或其变体，其为SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487中的任一氨基酸序列或与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487中的任一序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案16.实施方案1的方法，其中所述napDNAbp是SpCas9直向同源物。

实施方案17.实施方案1的方法，其中所述napDNAbp是SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487中的任一氨基酸序列，或与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487中的任一序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案18.实施方案1的方法，其中所述napDNAbp包含与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467和482-487中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案19.实施方案1的方法，其中所述聚合酶包含RNA依赖性DNA聚合酶活性。

实施方案20.实施方案1的方法，其中所述聚合酶为逆转录酶。

实施方案21.实施方案1的方法，其中所述逆转录酶为天然存在的野生型逆转录酶，所述逆转录酶具有SEQ ID NO:89中的任一氨基酸序列或具有与SEQ ID NO:89中的任一序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案22.实施方案1的方法，其中所述逆转录酶为变体逆转录酶，其具有SEQID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741、和766中的任一氨基酸序列，或与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741、和766中的任一序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案23.实施方案1的方法，其中所述逆转录酶包含SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741、和766中的任一氨基酸序列。

实施方案24.实施方案1的方法，其中所述逆转录酶包含与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741、和766中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案25.实施方案1的方法，其中所述可检测序列为至少1个、或至少2个、或至少3个、或至少4个、或至少5个、或至少6个、或至少7个、或至少8个、或至少9个、或至少10个、或至少11个、或至少12个、或至少13个、或至少14个、或至少15个、或至少16个、或至少17个、或至少18个、或至少19个、或至少20个、或至少21个、或至少22个、或至少23个、或至少24个、或至少25个、或至少26个、或至少27个、或至少28个、或至少29个、或至少30个、或至少31个、或至少32个、或至少33个、或至少34个、或至少35个、或至少40个、或至少50个、或至少60个、或至少70个、或至少80个、或至少90个、或至少100个核碱基插入。

实施方案26.实施方案1的方法，其中所述可检测序列为至少1个、或至少2个、或至少3个、或至少4个、或至少5个、或至少6个、或至少7个、或至少8个、或至少9个、或至少10个、或至少11个、或至少12个、或至少13个、或至少14个、或至少15个、或至少16个、或至少17个、或至少18个、或至少19个、或至少20个、或至少21个、或至少22个、或至少23个、或至少24个、或至少25个、或至少26个、或至少27个、或至少28个、或至少29个、或至少30个、或至少31个、或至少32个、或至少33个、或至少34个、或至少35个、或至少40个、或至少50个、或至少60个、或至少70个、或至少80个、或至少90个、或至少100个核碱基缺失。

实施方案27.实施方案1的方法，其中所述可检测序列为核碱基取代。

实施方案28.实施方案1的方法，其中所述可检测序列为转换突变。

实施方案29.实施方案1的方法，其中所述可检测序列为颠换突变。

实施方案30.实施方案1的方法，其中所述可检测序列为选自下组的单核苷酸取代：(1)G至T取代，(2)G至A取代，(3)G到C取代，(4)T至G取代，(5)T至A取代，(6)T至C取代，(7)C到G取代，(8)C至T取代，(9)C至A取代，(10)A至T取代，(11)A至G取代，和(12)A至C取代。

实施方案31.实施方案1的方法，其中所述可检测序列为单核苷酸取代，其转换(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A:T碱基对，(10)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

实施方案32.实施方案1的方法，其中所述可检测序列是条形码序列。

实施方案33.实施方案1的方法，其中(d)确定中靶位点和脱靶位点处的核苷酸序列的步骤包括(i)使所述靶核苷酸序列片段化以形成片段，(ii)将衔接子序列附着至所述片段的末端；(iii)使用一对引物PCR扩增扩增子，其中一条引物与片段一端处附着的衔接子序列退火，并且另一条引物与通过引导编辑插入所述片段内的衔接子序列退火，和(iv)测序所述扩增子以确定所述编辑的位置。

组J.用于细胞数据记录的PE方法

实施方案1.通过引导编辑记录细胞事件的方法，所述方法包括：(A)将一个或多个构建体引入细胞，所述构建体编码：(i)包含napDNAbp和RNA依赖性DNA聚合酶的引导编辑器融合蛋白，和(ii)PEgRNA，其中所述融合蛋白和/或所述PEgRNA的表达由细胞事件的发生诱导，并且表达所述融合蛋白和/或所述PEgRNA时导致细胞基因组中靶编辑位点的引导编辑，以引入可检测序列，和(B)鉴定所述可检测序列，从而确定所述细胞事件的发生。

实施方案2.实施方案1的方法，其中步骤(A)的引导编辑同时引入新的靶编辑位点，使得所述细胞事件的记录可迭代发生。

实施方案3.实施方案1的方法，其中所述PEgRNA包含编码所述可检测序列的编辑模板。

实施方案4.实施方案3的方法，其中所述编辑模板还编码新的靶编辑位点。

实施方案5.实施方案1的方法，其中所述可检测序列为至少1个、或至少2个、或至少3个、或至少4个、或至少5个、或至少6个、或至少7个、或至少8个、或至少9个、或至少10个、或至少11个、或至少12个、或至少13个、或至少14个、或至少15个、或至少16个、或至少17个、或至少18个、或至少19个、或至少20个、或至少21个、或至少22个、或至少23个、或至少24个、或至少25个、或至少26个、或至少27个、或至少28个、或至少29个、或至少30个、或至少31个、或至少32个、或至少33个、或至少34个、或至少35个、或至少40个、或至少50个、或至少60个、或至少70个、或至少80个、或至少90个、或至少100个核碱基的插入。

实施方案6.实施方案1的方法，其中可检测序列为至少1个、或至少2个、或至少3个、或至少4个、或至少5个、或至少6个、或至少7个、或至少8个、或至少9个、或至少10个、或至少11个、或至少12个、或至少13个、或至少14个、或至少15个、或至少16个、或至少17个、或至少18个、或至少19个、或至少20个、或至少21个、或至少22个、或至少23个、或至少24个、或至少25个、或至少26个、或至少27个、或至少28个、或至少29个、或至少30个、或至少31个、或至少32个、或至少33个、或至少34个、或至少35个、或至少40个、或至少50个、或至少60个、或至少70个、或至少80个、或至少90个、或至少100个核碱基的缺失。

实施方案7.实施方案1的方法，其中所述可检测序列为核碱基取代。

实施方案8.实施方案1的方法，其中所述可检测序列为转换突变。

实施方案9.实施方案1的方法，其中所述可检测序列为颠换突变。

实施方案10.实施方案1的方法，其中所述可检测序列为单核苷酸取代，其中单核苷酸取代为(1)G至T取代，(2)G至A取代，(3)G至C取代，(4)T至G取代，(5)T至A取代，(6)T至C取代，(7)C至G取代，(8)C至T取代，(9)C至A取代，(10)A至T取代，(11)A至G取代，或(12)A至C取代。

实施方案11.实施方案1的方法，其中所述可检测序列为单核苷酸取代，其转换(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A:T碱基对，(10)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

实施方案12.实施方案1的方法，其中所述可检测序列是条形码序列。

实施方案13.实施方案1的方法，其中由于每次发生细胞事件的所述可检测序列的迭代插入，所述可检测序列的长度随时间增加。

实施方案14.实施方案1的方法，其中所述检测步骤包括测序所述经编辑的靶位点或所述经编辑的靶位点的扩增子。

实施方案15.实施方案1的方法，其中所述napDNAbp是Cas9、Cas12e、Cas12d、Cas12a、Cas12b1、Cas13a、Cas12c或Argonaute蛋白，或者Cas9、Cas12e、Cas12d、Cas12a、Cas12b1、Cas13a、Cas12c或Argonaute蛋白的变体。

实施方案16.实施方案1的方法，其中所述napDNAbp是Cas9或其变体。

实施方案17.实施方案1的方法，其中所述napDNAbp是核酸酶活性Cas9、核酸酶死亡Cas9(dCas9)、或Cas9切口酶(nCas9)。

实施方案18.实施方案1的方法，其中所述napDNAbp是Cas9切口酶(nCas9)。

实施方案19.实施方案1的方法，其中所述napDNAbp包含SEQ ID NO:2的氨基酸序列，或与SEQ ID NO:18具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案20.实施方案1的方法，其中所述napDNAbp是SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487的氨基酸序列，或与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487中的任一序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案21.实施方案1的方法，其中所述napDNAbp是SpCas9直向同源物。

实施方案22.实施方案1的方法，其中所述napDNAbp是SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487中的任一氨基酸序列，或与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487中的任一序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案23.实施方案1的方法，其中所述RNA依赖性DNA聚合酶为逆转录酶。

实施方案24.实施方案23的方法，其中所述逆转录酶为天然存在的野生型逆转录酶，其具有SEQ ID NO:89中的任一氨基酸序列或与SEQ ID NO:89中的任一序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

实施方案25.实施方案23的方法，其中所述逆转录酶为变体逆转录酶，其具有SEQID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741、和766中的任一氨基酸序列，或与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

实施方案26.实施方案1的方法，其中所述融合蛋白包含SEQ ID NO:123和134(PE1、PE2)中的任一氨基酸序列，或与SEQ ID NO:123和134(PE1、PE2)中的任一序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案27.实施方案1的方法，其中所述编码引导编辑器融合蛋白和/或PEgRNA的一个或多个构建体还包含细胞事件发生时可诱导的一个或多个启动子。

实施方案28.实施方案1的方法，其中所述细胞事件由所述细胞接收的刺激物标记。

实施方案29.实施方案28的方法，其中所述刺激物为小分子、蛋白、肽、氨基酸、代谢物、无机分子、有机金属分子、有机分子、药物或候选药物、糖、脂质、金属、核酸、内源性或外源性信号级联激活过程中产生的分子、光、热、声音、压力、机械应力、剪切应力、或病毒、或其他微生物、pH值变化、或氧化/还原状态变化。

实施方案30.使用引导编辑记录细胞事件的细胞数据记录质粒，其包括：

i.融合蛋白，其包含(a)编码核酸可编程DNA结合蛋白(napDNAbp)的核酸序列和(b)RNA依赖性DNA聚合酶，所述所述融合蛋白与第一启动子可操作地连接；

ii.编码与第二启动子可操作地连接的引导编辑器向导RNA(PEgRNA)的核酸序列，其中所述PEgRNA与靶序列互补；和

iii.复制起点；

其中至少一个启动子为诱导型启动子，并且其中PEgRNA在足以诱导PEgRNA表达和napDNAbp表达以中靶编辑位点安装可检测序列的条件下与napDNAbp结合。

实施方案31.实施方案30的细胞数据记录质粒，其中所述诱导型启动子由细胞事件诱导。

实施方案32.实施方案30的细胞数据记录质粒，其中所述细胞事件由细胞接收的刺激物标记。

实施方案33.实施方案32的细胞数据记录质粒，其中所述刺激物是小分子、蛋白、肽、氨基酸、代谢物、无机分子、有机金属分子、有机分子、药物或候选药物、糖、脂质、金属、核酸、内源性或外源性信号级联激活过程中产生的分子、光、热、声音、压力、机械应力、剪切应力、病毒、或其他微生物、pH值变化、或氧化/还原状态变化。

实施方案34.实施方案30的细胞数据记录质粒，其中所述第一和第二启动子相同。

实施方案35.实施方案30的细胞数据记录质粒，其中所述第一和第二启动子不同。

实施方案36.实施方案30的细胞数据记录质粒，其中所述至少一个诱导型启动子为脱水四环素诱导型启动子、IPTG诱导型启动子、鼠李糖诱导型启动子、或阿拉伯糖诱导型启动子。

实施方案37.实施方案30的细胞数据记录质粒，其中所述第一或第二启动子为组成型启动子。

实施方案38.实施方案37的细胞数据记录质粒，其中所述组成型启动子为Lac启动子、巨细胞病毒(CMV)启动子、组成型RNA聚合酶III启动子或UBC启动子。

实施方案39.实施方案30的细胞数据记录质粒，其中所述复制起点包含pSC101、pMB1、pBR322、ColE1或p15A复制起点序列。

实施方案40.实施方案30的细胞数据记录质粒，其中所述PEgRNA包含编码可检测序列的编辑模板。

实施方案41.实施方案40的细胞数据记录质粒，其中所述编辑模板还编码新的靶编辑位点。

实施方案42.实施方案30的细胞数据记录质粒，其中所述可检测序列为至少1个、或至少2个、或至少3个、或至少4个、或至少5个、或至少6个、或至少7个、或至少8个、或至少9个、或至少10个、或至少11个、或至少12个、或至少13个、或至少14个、或至少15个、或至少16个、或至少17个、或至少18个、或至少19个、或至少20个、或至少21个、或至少22个、或至少23个、或至少24个、或至少25个、或至少26个、或至少27个、或至少28个、或至少29个、或至少30个、或至少31个、或至少32个、或至少33个、或至少34个、或至少35个、或至少40个、或至少50个、或至少60个、或至少70个、或至少80个、或至少90个、或至少100个核碱基的插入。

实施方案43.实施方案30的细胞数据记录质粒，其中所述可检测序列为至少1个、或至少2个、或至少3个、或至少4个、或至少5个、或至少6个、或至少7个、或至少8个、或至少9个、或至少10个、或至少11个、或至少12个、或至少13个、或至少14个、或至少15个、或至少16个、或至少17个、或至少18个、或至少19个、或至少20个、或至少21个、或至少22个、或至少23个、或至少24个、或至少25个、或至少26个、或至少27个、或至少28个、或至少29个、或至少30个、或至少31个、或至少32个、或至少33个、或至少34个、或至少35个、或至少40个、或至少50个、或至少60个、或至少70个、或至少80个、或至少90个、或至少100个核碱基的缺失。

实施方案44.实施方案30的细胞数据记录质粒，其中所述可检测序列为核碱基取代。

实施方案45.实施方案30的细胞数据记录质粒，其中所述可检测序列为转换突变。

实施方案46.实施方案30的细胞数据记录质粒，其中所述可检测序列为颠换突变。

实施方案47.实施方案30的细胞数据记录质粒，其中所述可检测序列为单核苷酸取代，其中所述单核苷酸取代为(1)G至T取代，(2)G至A取代，(3)G至C取代，(4)T至G取代，(5)T至A取代，(6)T至C取代，(7)C至G取代，(8)C至T取代，(9)C至A取代，(10)A至T取代，(11)A至G取代，或(12)A至C取代。

实施方案48.实施方案30的细胞数据记录质粒，其中所述可检测序列为单核苷酸取代，其转换(1)G:C碱基对至T:A碱基对，(2)G:C碱基对至A:T碱基对，(3)G:C碱基对至C:G碱基对，(4)T:A碱基对至G:C碱基对，(5)T:A碱基对至A:T碱基对，(6)T:A碱基对至C:G碱基对，(7)C:G碱基对至G:C碱基对，(8)C:G碱基对至T:A碱基对，(9)C:G碱基对至A:T碱基对，(10)A:T碱基对至T:A碱基对，(11)A:T碱基对至G:C碱基对，或(12)A:T碱基对至C:G碱基对。

实施方案49.实施方案30的细胞数据记录质粒，其中所述可检测序列为条形码序列。

实施方案50.实施方案30的细胞数据记录质粒，其中由于每次发生细胞事件的可检测序列的迭代插入，所述可检测序列的长度随时间增加。

实施方案51.实施方案30的细胞数据记录质粒，其中检测步骤包括测序所述经编辑的靶位点或经编辑的靶位点的扩增子。

实施方案52.实施方案30的细胞数据记录质粒，其中所述napDNAbp是Cas9、Cas12e、Cas12d、Cas12a、Cas12b1、Cas13a、Cas12c或Argonaute蛋白，或者Cas9、Cas12e、Cas12a、Cas12a、Cas1b、Cas1b、Cas13a、Cas12c或Argonaute蛋白的变体。

实施方案53.实施方案30的细胞数据记录质粒，其中所述napDNAbp是Cas9或其变体。

实施方案54.实施方案30的细胞数据记录质粒，其中napDNAbp是核酸酶活性Cas9、核酸酶死亡Cas9(dCas9)、或Cas9切口酶(nCas9)。

实施方案55.实施方案30的细胞数据记录质粒，其中所述napDNAbp是Cas9切口酶(nCas9)。

实施方案56.实施方案30的细胞数据记录质粒，其中所述napDNAbp包含SEQ IDNO:18的氨基酸序列，或与SEQ ID NO:18具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案57.实施方案30的细胞数据记录质粒，其中所述napDNAbp是SpCas9野生型或其变体，其为SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487中的任一氨基酸序列，或与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487中的任一序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案58.实施方案30的细胞数据记录质粒，其中所述napDNAbp是SpCas9直向同源物。

实施方案59.实施方案30的细胞数据记录质粒，其中所述napDNAbp是SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487中的任一氨基酸序列，或与SEQ ID NO:18-88、126、130、137、141、147、153、157、445、460、467、和482-487中的任一序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案60.实施方案30的细胞数据记录质粒，其中所述RNA依赖性DNA聚合酶为逆转录酶。

实施方案61.实施方案30的细胞数据记录质粒，其中所述逆转录酶为天然存在的野生型逆转录酶，所述逆转录酶具有SEQ ID NO:89中的任一氨基酸序列，或与SEQ ID NO:89中的任一序列具有至少80％、85％、90％、95％、98％或99％序列同一性的氨基酸序列。

实施方案62.实施方案30的细胞数据记录质粒，其中所述逆转录酶为变体逆转录酶，其具有SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741、和766中的任一氨基酸序列，或与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741、和766中的任一序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案63.实施方案30的细胞数据记录质粒，其中所述融合蛋白包含SEQ IDNO:123和134(PE1、PE2)中的任一氨基酸序列，或与SEQ ID NO:123和134(PE1、PE2)中的任一序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

实施方案64.用于细胞的试剂盒，所述细胞包含实施方案30至63中任一项的细胞数据记录质粒。

实施方案65.实施方案64的试剂盒，其中所述细胞为原核细胞。

实施方案66.实施方案64的试剂盒，其中所述细胞为真核细胞。

实施方案67.细胞，其包含实施方案30至63中任一项的细胞数据记录质粒。

实施方案68.实施方案67的细胞，其中所述细胞为原核细胞。

实施方案69.实施方案67的细胞，其中所述细胞为真核细胞。

实施方案70.实施方案69的细胞，其中所述真核细胞为哺乳动物细胞。

实施方案71.实施方案70的细胞，其中所述哺乳动物细胞为人细胞。

实施方案72.通过引导编辑记录细胞事件的方法，所述方法包括：(A)将实施方案30至63中任一项的细胞数据记录质粒引入细胞中，其中所述融合蛋白和/或所述PEgRNA由细胞事件的发生诱导，其中所述融合蛋白和/或所述PEgRNA的表达导致细胞基因组中的靶编辑位点的引导编辑，以引入所述可检测序列，和(B)鉴定可检测序列，从而鉴定所述细胞事件的发生。

实施方案73.实施方案72的方法，其中步骤(A)的引入通过转染或电穿孔进行。

等同物和范围

除非上下文中有相反说明或以其他方式明显看出，冠词如“一个”、“一种”和“所述”可表示一个或多于一个。除非上下文中有相反说明或以其他方式明显看出，如果一个、多于一个或所有的组成员存在于、被用于或以其他方式与给定的产品或方法相关，则认为在组的一个或多个成员之间包括“或”的实施方案或描述是满足的。本发明包括这样的实施方案，其中该组中的一个成员正好存在于、被用于或以其他方式与给定的产品或方法相关。本发明包括这样的实施方案，其中多于一个或所有的组成员存在于、被用于或以其他方式与给定的产品或方法相关。

此外，本公开涵盖所有变化、组合和排列，其中将来自一个或多个所列权利要求的一个或多个限制、元素、条款和描述性术语引入另一个权利要求中。例如，从属于另一个权利要求的任何权利要求可修改为包括在从属于同一基本权利要求的任何其他权利要求中存在的一个或多个限制。在元素以列表形式呈现的情况下，例如，以马库什组形式，还公开了元素的每个亚组，并且可从组中去除任何元素。应当理解，一般而言，在本发明或本发明的方面被称为包括特定要素和/或特征的情况下，本公开的某些实施方案或本公开的方面包括或基本上包括这样的元素和/或特征。为简单起见，这些实施方案并未在本文中具体阐述。还应当注意，术语“包括”和“包含”旨在是开放的并且允许包括额外的元素或步骤。在给出范围的地方包括端点。此外，除非根据上下文和本领域普通技术人员的理解另有说明或以其他方式明显看出，表示为范围的值可推定本发明的不同实施方案中所述范围内的任何特定值或子范围，至范围下限单位的十分之一，除非上下文另有明确规定。

本申请涉及各种已授权的专利、公开的专利申请、期刊文章和其他出版物，所有这些都通过引用并入本文。如果任何并入的参考文献与本说明书之间存在冲突，则以本说明书为准。此外，属于现有技术的本发明的任何特定实施方案可以明确地排除在任何一个或多个实施方案之外。因为这样的实施方案被认为是本领域普通技术人员已知的，所以即使在本文中没有明确阐述排除，它们也可被排除。可出于任何原因将本发明的任何特定实施方案排除在任何实施方案之外，无论是否与现有技术的存在有关。

本领域技术人员将认识到或能够仅使用常规实验来确定本文描述的特定实施方案的许多等效物。本文描述的本实施方案的范围不旨在限于上述描述，而是如所附实施方案中所阐述。本领域普通技术人员将理解，在不脱离本发明的精神或范围的情况下，可对本说明进行各种改变和修改，如以下实施方案中所定义。

Claims

1.用于引导编辑(prime editing)的复合物，其包含：

(i)融合蛋白，所述融合蛋白包含核酸可编程DNA结合蛋白(napDNAbp)和包含RNA依赖性DNA聚合酶活性的结构域；和

(ii)引导编辑向导RNA(PEgRNA)。

2.如权利要求1所述的复合物，其中所述融合蛋白能够在所述引导编辑向导RNA(PEgRNA)存在下进行引导编辑以在靶序列中安装期望的核苷酸变化。

3.如权利要求11所述的复合物，其中所述napDNAbp具有切口酶活性。

4.如权利要求1所述的复合物，其中所述napDNAbp是Cas9蛋白或其变体。

5.如权利要求1所述的复合物，其中所述napDNAbp是核酸酶活性Cas9、无核酸酶活性Cas9(dCas9)、或Cas9切口酶(nCas9)。

6.如权利要求1所述的复合物，其中所述napDNAbp是Cas9切口酶(nCas9)。

7.如权利要求1所述的复合物，其中所述napDNAbp选自下组：Cas9、Cas12e、Cas12d、Cas12a、Cas12b1、Cas13a、Cas12c和Argonaute蛋白，并且任选地具有切口酶活性。

8.如权利要求1所述的复合物，其中所述包含RNA依赖性DNA聚合酶活性的结构域是逆转录酶，所述逆转录酶包含SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列。

9.如权利要求1所述的复合物，其中所述包含RNA依赖性DNA聚合酶活性的结构域是逆转录酶，所述逆转录酶包含与SEQ ID NO:89-100、105-122、128-129、132、139、143、149、154、159、235、454、471、516、662、700、701-716、739-741和766中的任一氨基酸序列具有至少80％、85％、90％、95％、98％、或99％序列同一性的氨基酸序列。

10.如权利要求1所述的复合物，其中所述包含RNA依赖性DNA聚合酶活性的结构域是来自逆转录病毒或逆转录转座子的天然存在的逆转录酶。

11.如权利要求1所述的复合物，其中所述融合蛋白与PEgRNA复合时能够结合靶DNA序列。

12.如权利要求1所述的复合物，其中所述PEgRNA包含向导RNA和包含DNA合成模板的至少一个核酸延伸臂。

13.如权利要求12所述的复合物，其中所述核酸延伸臂位于所述向导RNA的3'或5'末端处、或所述向导RNA中的分子内位置处，并且其中所述核酸延伸臂是DNA或RNA。

14.如权利要求12所述的复合物，其中所述PEgRNA能够结合napDNAbp并将所述napDNAbp引导至靶DNA序列。

15.如权利要求14所述的复合物，其中所述靶DNA序列包含靶链和互补的非靶链。

16.如权利要求12所述的复合物，其中所述向导RNA与所述靶链杂交形成RNA-DNA杂合体和R-环。

17.如权利要求12所述的复合物，其中所述至少一个核酸延伸臂还包含引物结合位点。

18.如权利要求12所述的复合物，其中所述核酸延伸臂为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸、至少26个核苷酸、至少27个核苷酸、至少28个核苷酸、至少29个核苷酸、至少30个核苷酸、至少31个核苷酸、至少32个核苷酸、至少33个核苷酸、至少34个核苷酸、至少35个核苷酸、至少36个核苷酸、至少37个核苷酸、至少38个核苷酸、至少39个核苷酸、至少40个核苷酸、至少41个核苷酸、至少42个核苷酸、至少43个核苷酸、至少44个核苷酸、至少45个核苷酸、至少46个核苷酸、至少47个核苷酸、至少48个核苷酸、至少49个核苷酸、或至少50个核苷酸。

19.如权利要求12所述的复合物，其中所述DNA合成模板的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、或至少15个核苷酸。

20.如权利要求17所述的复合物，其中所述引物结合位点的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、或至少15个核苷酸。

21.如权利要求12所述的复合物，其中所述PEgRNA还包含至少一个选自下组的另外的结构：接头、茎环、发夹、趾环(toeloop)、适体或RNA-蛋白募集结构域。

22.如权利要求12所述的复合物，其中所述DNA合成模板编码与邻近切口位点的内源性DNA序列互补的单链DNA瓣(flap)，其中所述单链DNA瓣包含期望的核苷酸变化。

23.如权利要求22所述的复合物，其中所述单链DNA瓣置换已产生切口的靶DNA序列中具有5'末端的内源性单链DNA，并且其中所述内源性单链DNA在所述切口位点的紧邻下游。

24.如权利要求23所述的复合物，其中细胞切除所述具有游离5'末端的内源性单链DNA。

25.如权利要求23所述的复合物，其中所述单链DNA瓣的细胞修复导致安装所述期望的核苷酸变化，从而形成期望的产物。

26.如权利要求12所述的复合物，其中所述PEgRNA包含SEQ ID NO:18-36的核苷酸序列，或与SEQ ID NO:101-104、181-183、223-244、277、325-334、336、338、340、342、344、346、348、350、352、354、356、358、360、362、364、366、368、499-505、735-761、776-777中的任一项具有至少85％、或至少90％、或至少95％、或至少98％、或至少99％序列同一性的核苷酸序列。

27.如权利要求12所述的复合物，其中所述DNA合成模板包含与所述内源性DNA靶标至少80％、或85％、或90％、或95％、或99％相同的核苷酸序列。

28.如权利要求17所述的复合物，其中所述引物结合位点与切割DNA的游离3'末端杂交。

29.如权利要求21所述的复合物，其中所述至少一个另外的结构位于所述PEgRNA的3'或5'末端。

30.如权利要求29所述的复合物，其中所述接头包含选自SEQ ID NO:127、165-176、446、453和767-769的核苷酸序列。

31.如权利要求29所述的复合物，其中所述茎环包含选自本文所述茎环的核苷酸序列。

32.如权利要求29所述的复合物，其中所述发夹包含选自本文所述发夹的核苷酸序列。

33.如权利要求29所述的复合物，其中所述趾环包含选自本文所述趾环的核苷酸序列。

34.如权利要求29所述的复合物，其中所述适体包含选自本文所述适体的核苷酸序列。

35.如权利要求29所述的复合物，其中所述RNA-蛋白募集结构域包含选自本文所述RNA-蛋白募集结构域的核苷酸序列。

36.如权利要求1所述的复合物，其中所述靶DNA序列包含靶链和互补的非靶链。

37.如权利要求36所述的复合物，其中所述R-环包含(i)包含所述PEgRNA和所述靶链的RNA-DNA杂合体，和(ii)所述互补的非靶链。

38.如权利要求37所述的复合物，其中对所述靶链或所述互补的非靶链产生切口以形成具有游离3'末端的引发序列。

39.如权利要求38所述的复合物，其中所述切口位点在所述靶链上的PAM序列的上游。

40.如权利要求38所述的复合物，其中所述切口位点在所述非靶链上的PAM序列的上游。

41.如权利要求38所述的复合物，其中所述切口位点相对于所述PAM序列的5'末端位于-1、-2、-3、-4、-5、-6、-7、-8或-9。

42.如权利要求22所述的复合物，其中所述单链DNA瓣与邻近所述切口位点的内源性DNA序列杂交，从而在所述靶链中安装所述期望的核苷酸变化。

43.如权利要求22所述的复合物，其中所述单链DNA瓣置换邻近所述切口位点且具有游离5'末端的内源性DNA序列。

44.如权利要求22所述的复合物，其中细胞切除所述具有5'末端的内源性DNA序列。

45.如权利要求44所述的复合物，其中瓣核酸内切酶(flap endonuclease)切除所述具有5'末端的内源性DNA序列。

46.如权利要求43所述的复合物，其中所述单链DNA瓣的细胞修复在所述非靶链中掺入所述期望的核苷酸变化，从而形成期望的产物。

47.如权利要求46所述的复合物，其中所述期望的核苷酸变化安装在所述PAM序列的约-4至+10之间、或所述PAM序列的约-10至+20之间、或所述PAM序列的约-20至+40之间，或所述PAM序列的约-30至+100之间的编辑窗口中。

48.如权利要求47所述的复合物，其中所述期望的核苷酸变化安装在所述切口位点下游至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、76、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、21、93、94、95、96、97、98、99或100个核苷酸处。

49.前述权利要求中任一项所述的复合物，其中所述融合蛋白包含结构NH₂-[napDNAbp]-[包含RNA依赖性DNA聚合酶活性的结构域]-COOH；或NH₂-[包含RNA依赖性DNA聚合酶活性的结构域]-[napDNAbp]-COOH，其中每个“]-[”情况表示存在任选的接头序列。

50.如权利要求49所述的复合物，其中所述接头序列包含SEQ ID NO:127、165-176、446、453和767-769的氨基酸序列。

51.如权利要求1所述的复合物，其中所述融合蛋白还包含连接所述napDNAbp和所述包含RNA依赖性DNA聚合酶活性的结构域的接头。

52.如权利要求51所述的复合物，其中所述接头序列包含SEQ ID NO:3887(1x SGGS)、3888(2x SGGS)、3889(3x SGGS)、3890(1x XTEN)、3891(1x EAAAK)、3892(2x EAAAK)和3893(3x EAAAK)的氨基酸序列。