CN116497067A

CN116497067A - 治疗血红素病变的组合物和方法

Info

Publication number: CN116497067A
Application number: CN202310301894.7A
Authority: CN
Inventors: I·斯雷梅克; N·戈代尔利; Y·于; B·蔡澈; D·A·玻恩; S-J·李; M·帕克
Original assignee: Bim Medical Co ltd
Current assignee: Bim Medical Co ltd
Priority date: 2019-02-13
Filing date: 2020-02-13
Publication date: 2023-07-28
Also published as: WO2020168133A1; AU2020223060A1; AU2023201773A1; CA3236512A1; AU2020223060B2; ZA202104676B; CN114096666A; US11752202B2; US20230128472A1; AU2023204605B2; US11142760B2; AU2023201773B2; US20220235347A1; US12016908B2; CA3128755A1; ZA202207394B; EP3924481A1; US20210261955A1; BR112021013605A2; US11344609B2

Abstract

本发明涉及治疗血红素病变的组合物和方法。本发明的特征在于编辑与如镰状细胞病(SCD)的血红素病变相关的有害突变的组合物与方法。在特定实施方案中，本发明提供一种采用具有空前水平(例如，>60至70％)的效率的称为“ABE8”的经修饰的腺苷碱基编辑器在β珠蛋白多核苷酸中修正突变的方法。

Description

治疗血红素病变的组合物和方法

本发明是中国专利申请号为202080028554.6，发明名称为“治疗血红素病变的组合物和方法”，国际申请日为2020年2月13日的进入中国的PCT专利申请的分案申请。

相关申请的交叉文献

本申请为国际PCT申请，其主张2019年2月13日申请的美国临时申请号62/805,271；2019年2月13日申请的62/805,277；2019年5月23日申请的62/852,224；2019年5月23日申请的62/852,228；2019年11月6日申请的62/931,722；2019年11月6日申请的62/931,747；2019年11月27日申请的62/941,569；及2020年1月27日申请的62/966,526的优先权及权益，其等内容均以全文引用方式并入本文中。

引用的参考文献

本说明书中述及的所有公开案、专利案及专利申请案均以引用方式并入，所述引用程度就如同已明确及个别地指出各个公开案、专利案或专利申请案以引用的方式并入一般。没有任何其指示时，本说明书中述及的公开案、专利案及专利申请案的内容仍以全文引用方式并入本文中。

技术领域

本发明涉及一种治疗血红素病变的组合物和方法。

背景技术

镰状细胞病(SCD)为一种影响血红素的疾患，红血球细胞中的分子传递氧气到全身的细胞。患有此疾患的人具有非典型血红素分子，其使红血球细胞变形成镰刀状或新月形。镰状细胞病(SCD)的临床征状归因于间歇性发作的微血管闭塞，导致组织缺血/再灌流伤害及慢性溶血。血管闭塞事件是和缺血/再灌流伤害组织有关，造成疼痛及影响任何器官系统的急性或慢性伤害。经常影响到骨骼/骨髓、脾脏、肝脏、脑、肺、肾脏、及关节。

SCD为一种遗传疾患，其特征在于出现至少一个血红素S对偶基因(HbS；于HBB中p.Glu6Val)及第二个HBB致病性变体，造成异常血红素聚合化。HbS/S(HBB中的同型合子p.Glu6Val)占美国SCD的60％至70％。罹患SCD的男性和女性的预期寿命仅分别42岁和48岁。目前的治疗方法着重在处理疾病症状。极需要一种方法来编辑造成SCD及其他血红素病变的遗传突变。

发明内容

如下文所述，本发明的特征在于编辑和镰状细胞病(SCD)关联的有害突变的组合物和方法。特定实施方案中，本发明提供使用一种具有空前效能程度(例如：>60至70％)的称为“ABE8”的经修饰的腺苷脱氨酶碱基编辑器，来校正SCD突变。

一项实施例中，本发明的特征在于一种编辑包含镰状细胞病关联单核苷酸多态性(SNP)的β珠蛋白多核苷酸的方法，所述方法包括由β珠蛋白多核苷酸和一个或多个向导RNA及包含多核苷酸可编程DNA结合结构域和至少一个碱基编辑器结构域的融合蛋白接触，所述碱基编辑器结构域为腺苷脱氨酶变体，所述腺苷脱氨酶变体包含在MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD中氨基酸位置82和/或166的修改，其中，向导RNA靶向碱基编辑器去执行修改镰状细胞病相关的SNP。

另一实施例中，本发明的特征在于一种编辑包含镰状细胞病相关的单核苷酸多态性(SNP)的β珠蛋白(HBB)多核苷酸的方法，所述方法包括由β珠蛋白多核苷酸和一个或多个向导RNA及包含多核苷酸可编程DNA结合结构域及至少一个包含腺苷脱氨酶变体的碱基编辑器结构域的融合蛋白接触，所述多核苷酸可编程DNA结合结构域包含下列序列：

其中粗体序列是指示由Cas9衍生的序列，斜体序列代表连接子序列，及底线序列代表二分核定位序列，

所述腺苷脱氨酶变体包含在MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFR MPRQVFNAQKKAQSSTD中氨基酸位置82和/或166的修改。

另一实施例中，本发明的特征在于一种碱基编辑系统，其包含前述任何实施例或本文所说明其他实施例的融合蛋白及包含选自CUUCUCCACAGGAGUCAGAU；ACUUCUCCACAGGAGUCAGAU；及GACUUCUCCACAGGAGUCAGAU的核酸序列的向导RNA。一项实施方案中，gRNA进一步包含核酸序列GUUUUUGUACUCUCAAGAUUUAAGUAACUGUACAACGAAACUUACACAGUUACUUAAAUCUUGCAGAAGCUACAAAGAUAAGGCUUCAUGCCGAAAUCAA CACCCUGUCAUUUUAUGGCAGGGUG。另一项实施方案中，gRNA包含选自

CUUCUCCACAGGAGUCAGAUGUUUUUGUACUCUCAAGAUUUAAGUAACUGUACAACGAAACUUACACAGUUACUUAAAUCUUGCAGAAGCUACAAAGAUAAGGCUUCAUGCCGAAAUCAACACCCUGUCAUUUUAUGGCAGGGUG；

ACUUCUCCACAGGAGUCAGAUGUUUUUGUACUCUCAAGAUUUAAGUA ACUGUACAACGAAACUUACACAGUUACUUAAAUCUUGCAGAAGCUACAAA GAUAAGGCUUCAUGCCGAAAUCAACACCCUGUCAUUUUAUGGCAGGGUG；及

GACUUCUCCACAGGAGUCAGAUGUUUUUGUACUCUCAAGAUUUAAGUAACUGUACAACGAAACUUACACAGUUACUUAAAUCUUGCAGAAGCUACAAAGAUAAGGCUUCAUGCCGAAAUCAACACCCUGUCAUUUUAUGGCAGGGUG的核酸序列。

另一实施例中，本发明的特征在于一种细胞，其制成是在该细胞或其祖细胞中引进：碱基编辑器、编码碱基编辑器的多核苷酸至所述细胞中，其中，所述碱基编辑器包含多核苷酸可编程DNA结合结构域及本文所述任何实施例中说明的腺苷脱氨酶结构域；及一个或多个靶向碱基编辑器去执行镰状细胞病相关的SNP的A·T至G·C修改的向导多核苷酸。一项实施方案中，所制成的细胞为造血干细胞、造血祖细胞、原红细胞、红血球母细胞、网织红细胞、或红血球。另一项实施方案中，细胞或其祖细胞为造血干细胞、造血祖细胞、原红细胞、或红血球母细胞。另一项实施方案中，造血干细胞为CD34⁺细胞。另一项实施方案中，细胞是来自患有镰状细胞病的个体。另一项实施方案中，细胞为哺乳动物细胞或人类细胞。

另一实施例中，本发明的特征在于一种治疗个体的镰状细胞病的方法，其包括对所述个体施用本文详述本发明任何先前实施例或任何其他实施例的细胞。一项实施方案中，细胞是个体的自体细胞。另一项实施方案中，细胞是个体的异体细胞。

另一实施例中，本发明提供一种本文详述本发明任何前述实施例或任何其他实施例的单离细胞或由所述细胞繁殖或扩增的细胞族群。

另一实施例中，本发明提供一种制造红血球细胞或其祖细胞的方法，其涉及在包含镰状细胞病相关的SNP的红血球祖细胞中，引进碱基编辑器或编码碱基编辑器的多核苷酸，其中碱基编辑器包含多核苷酸可编程核苷酸结合性结构域及前述任何实施例所说明的腺苷脱氨酶变体结构域；及一或多个向导多核苷酸，其中所述一或多个向导多核苷酸靶向碱基编辑器去执行镰状细胞病相关的SNP的A·T至G·C修改；及由红血球祖细胞分化成红血球。一项实施方案中，所述方法涉及由红血球祖细胞分化成一或多种造血干细胞、造血祖细胞、原红细胞、红血球母细胞、网织红细胞、或红血球。一项实施方案中，所述方法涉及的红血球祖细胞为CD34⁺细胞。另一项实施方案中，红血球祖细胞是得自患有镰状细胞病的个体。另一项实施方案中，红血球祖细胞为哺乳动物细胞或人类细胞。另一项实施方案中，镰状细胞病相关的SNP的A·T至G·C修改，使HBB多肽中的缬氨酸改变成丙氨酸。另一项实施方案中，镰状细胞病相关的SNP造成在氨基酸位置6具有缬氨酸的HBB多肽的表达。另一项实施方案中，镰状细胞病相关的SNP以缬氨酸取代谷氨酸。另一项实施方案中，选择细胞，使镰状细胞病相关的SNP的A·T至G·C修改。另一项实施方案中，多核苷酸可编程DNA结合结构域包含经修饰的金黄色葡萄球菌(Staphylococcus aureus)Cas9(SaCas9)、嗜热链球菌(Streptococcus thermophilus)1Cas9(St1Cas9)、经修饰的化脓性链球菌(Streptococcuspyogenes)Cas9(SpCas9)、或其变体。

本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，腺苷脱氨酶变体包含在氨基酸位置82及166的修改。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，腺苷脱氨酶变体包含V82S修改。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，腺苷脱氨酶变体包含T166R修改。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，腺苷脱氨酶变体包含V82S及T166R修改。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，腺苷脱氨酶变体进一步包含一个或多个下列修改：Y147T、Y147R、Q154S、Y123H、及Q154R。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，腺苷脱氨酶变体包含选自Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；或I76Y+V82S+Y123H+Y147R+Q154R的修改的组合。上文记述实施例的实施方案中，腺苷脱氨酶变体包含Y147R+Q154R+Y123H。上文记述实施例的实施方案中，腺苷脱氨酶变体包含Y147R+Q154R+I76Y。上文记述实施例的实施方案中，腺苷脱氨酶变体包含Y147R+Q154R+T166R。上文记述实施例的实施方案中，腺苷脱氨酶变体包含Y147T+Q154R。上文记述实施例的实施方案中，腺苷脱氨酶变体包含Y147T+Q154S。上文记述实施例的实施方案中，腺苷脱氨酶变体包含Y147R+Q154S。上文记述实施例的实施方案中，腺苷脱氨酶变体包含V82S+Q154S。上文记述实施例的实施方案中，腺苷脱氨酶变体包含V82S+Y147R。上文记述实施例的实施方案中，腺苷脱氨酶变体包含V82S+Q154R。上文记述实施例的实施方案中，腺苷脱氨酶变体包含V82S+Y123H。上文记述实施例的实施方案中，腺苷脱氨酶变体包含I76Y+V82S。上文记述实施例的实施方案中，腺苷脱氨酶变体包含V82S+Y123H+Y147T。上文记述实施例的实施方案中，腺苷脱氨酶变体包含V82S+Y123H+Y147R。上文记述实施例的实施方案中，腺苷脱氨酶变体包含V82S+Y123H+Q154R。上文记述实施例的实施方案中，腺苷脱氨酶变体包含Y123H+Y147R+Q154R+I76Y。上文记述实施例的实施方案中，腺苷脱氨酶变体包含V82S+Y123H+Y147R+Q154R。上文记述实施例的实施方案中，腺苷脱氨酶变体包含I76Y+V82S+Y123H+Y147R+Q154R。上述实施例的其他实施方案中，腺苷脱氨酶变体包含选自由149、150、151、152、153、154、155、156、及157所组成群组的残基开始的C末端缺失。

本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，细胞为体内(in vivo)或体外(ex vivo)。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，镰状细胞病相关的SNP的A·T至G·C修改会改变HBB多肽中的缬氨酸成为丙氨酸。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，镰状细胞病相关的SNP造成在氨基酸位置6具有缬氨酸的HBB多肽的表达。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，镰状细胞病相关的SNP以缬氨酸取代谷氨酸。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，镰状细胞病相关的SNP的A·T至G·C修改造成在氨基酸位置6具有丙氨酸的HBB多肽的表达。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，镰状细胞病相关的SNP的A·T至G·C修改以丙氨酸取代谷氨酸。

本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，多核苷酸可编程DNA结合结构域为经修饰的金黄色葡萄球菌(Staphylococcus aureus)Cas9(SaCas9)、嗜热链球菌(Streptococcus thermophilus)1Cas9(St1Cas9)、经修饰的化脓性链球菌(Streptococcus pyogenes)Cas9(SpCas9)、或其变体。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，多核苷酸可编程DNA结合结构域包含具有经改变的原间隔相邻基序(PAM)特异性或对非G PAM具有特异性的SpCas9的变体。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，经改变的PAM具有针对核酸序列5’-NGC-3’的特异性。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，经修饰的SpCas9包含氨基酸取代D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E、及T1337R，或其对应氨基酸取代。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，多核苷酸可编程DNA结合结构域为核酸酶失活或切口酶变体。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，切口酶变体包含氨基酸取代D10A或其对应氨基酸取代。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，碱基编辑器进一步包含锌指结构域。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，锌指结构域包含辨识螺旋序列RNEHLEV、QSTTLKR、及RTEHLAR或辨识螺旋序列RGEHLRQ、QSGTLKR、及RNDKLVP。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，锌指结构域为一或多个zf1ra或zf1rb。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，腺苷脱氨酶结构域可以在去氧核糖核酸(DNA)的腺嘌呤上脱氨。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，所述一或多个向导RNA包含CRISPR RNA(crRNA)及反式编码的(trans-encoded)小RNA(tracrRNA)，其中crRNA包含和包含镰状细胞病相关的SNP的HBB核酸序列互补的核酸序列。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，碱基编辑器是和单一向导RNA(sgRNA)复合，所述sgRNA所包含的核酸序列则和包含镰状细胞病相关的SNP的HBB核酸序列互补。本文所说明本发明上述任何实施例或任何其他实施例的各种不同实施方案中，镰状细胞病相关的SNP的A·T至G·C修改使HBB多肽中的缬氨酸改变成丙氨酸。另一项实施方案中，镰状细胞病相关的SNP造成在氨基酸位置6具有缬氨酸的HBB多肽的表达。另一项实施方案中，镰状细胞病相关的SNP以缬氨酸取代谷氨酸。另一项实施方案中，镰状细胞病相关的SNP的A·T至G·C修改造成在氨基酸位置6具有丙氨酸的HBB多肽的表达。另一项实施方案中，镰状细胞病相关的SNP的A·T至G·C修改使丙氨酸取代谷氨酸。另一项实施方案中，选择细胞，使镰状细胞病相关的SNP的A·T至G·C修改。另一项实施方案中，多核苷酸可编程DNA结合结构域为经修饰的金黄色葡萄球菌(Staphylococcus aureus)Cas9(SaCas9)、嗜热链球菌(Streptococcus thermophilus)1Cas9(St1Cas9)、经修饰的化脓性链球菌(Streptococcus pyogenes)Cas9(SpCas9)、或其变体。

一项实施例中，提供一种治疗个体的镰状细胞病(SCD)的方法，其中所述方法包括对个体施用融合蛋白，其包含插入Cas9或Cas12多肽内的腺苷脱氨酶变体，或其编码融合蛋白的多核苷酸；及一或多个向导多核苷酸，其靶向所述融合蛋白去执行SCD相关的单核苷酸多态性(SNP)的A·T至G·C修改，由此治疗个体的SCD。

另一实施例中，提供一种治疗个体镰状细胞病(SCD)的方法，其中所述方法包括对个体施用腺苷碱基编辑器8(ABE8)、或编码所述碱基编辑器的多核苷酸，其中ABE8包含插入Cas9或Cas12多肽内的腺苷脱氨酶变体；及一或多个向导多核苷酸，其靶向ABE8去执行SCD相关的SNP的A·T至G·C修改，由此治疗个体的SCD。

如上所记述方法的一项实施方案中，ABE8是选自：ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m、ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d、或ABE8.24-d。如上所记述方法的一项实施方案中，腺苷脱氨酶变体包含如下氨基酸序列：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTA HAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGS LMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD，及其中氨基酸序列包含至少一个修改。一项实施方案中，腺苷脱氨酶变体包含氨基酸位置82和/或166的修改。一项实施方案中，至少一个修改包含:V82S、T166R、Y147T、Y147R、Q154S、Y123H、和/或Q154R。

如上所记述方法的一项实施方案中，腺苷脱氨酶变体包含下列一种修改组合：Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；及I76Y+V82S+Y123H+Y147R+Q154R。如上所记述方法的一项实施方案中，腺苷脱氨酶变体为TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23、或TadA*8.24。一项实施方案中，腺苷脱氨酶变体包含选自由149、150、151、152、153、154、155、156、及157所组成群组的残基开始的C末端缺失。一项实施方案中，腺苷脱氨酶变体为包含TadA*8腺苷脱氨酶变体结构域的腺苷脱氨酶单体。一项实施方案中，腺苷脱氨酶变体为包含野生型腺苷脱氨酶结构域和TadA*8腺苷脱氨酶变体结构域的腺苷脱氨酶异源二聚体。一项实施方案中，腺苷脱氨酶变体为包含TadA结构域和TadA*8腺苷脱氨酶变体结构域的腺苷脱氨酶异源二聚体。

如上所记述方法的一项实施方案中，SCD相关的SNP位在β珠蛋白(HBB)基因。如上所记述方法的一项实施方案中，SNP造成在氨基酸位置6具有缬氨酸的HBB多肽的表达。如上所记述方法的一项实施方案中，SNP以缬氨酸取代谷氨酸。如上所记述方法的一项实施方案中，在SNP的A·T至G·C修改，使HBB多肽中的缬氨酸改变成丙氨酸。如上所记述方法的一项实施方案中，在SNP的A·T至G·C修改，造成在氨基酸位置6具有丙氨酸的HBB多肽的表达。如上所记述方法的一项实施方案中，在SNP的A·T至G·C修改使丙氨酸取代谷氨酸。

如上所记述方法的一项实施方案中，腺苷脱氨酶变体是插入Cas9或Cas12多肽的柔性环圈(flexible loop)、α螺旋区、非结构化部份、或溶剂可触及部份。如上所记述方法的一项实施方案中，腺苷脱氨酶变体是侧接Cas9或Cas12多肽的N末端片段及C末端片段。如上所记述方法的一项实施方案中，融合蛋白或ABE8包含结构式NH₂-[Cas9或Cas12多肽的N末端片段]-[腺苷脱氨酶变体]-[Cas9或Cas12多肽的C末端片段]-COOH，其中各例的“]-[“为视需要的连接子。一项实施方案中，N末端片段的C末端或C末端片段的N末端包含Cas9或Cas12多肽的一部份柔性环圈。一项实施方案中，当腺苷脱氨酶变体对靶核碱基进行脱氨时，柔性环圈包含邻近靶核碱基的氨基酸。

如上所记述方法的一项实施方案中，所述方法进一步包括对个体施用向导核酸序列，以对SCD相关的SNP靶核碱基实行脱氨。一项实施方案中，SNP靶核碱基的脱氨使所述靶核碱基被非野生型核碱基置换，及其中靶核碱基的脱氨缓解镰状细胞病的症状。一项实施方案中，镰状细胞病相关的SNP的脱氨使丙氨酸取代谷氨酸。

如上所记述方法的一项实施方案中，靶核碱基为距离靶多核苷酸序列中PAM序列1-20个核碱基。一项实施方案中，靶核碱基在PAM序列上游2-12个核碱基。如上所记述方法的一项实施方案中，Cas9或Cas12多肽的N末端片段或C末端片段是结合靶多核苷酸序列。某些实施方案中，N末端片段或C末端片段包含RuvC结构域；N末端片段或C末端片段包含HNH结构域；N末端片段和C末端片段均不包含HNH结构域；或N末端片段和C末端片段均不包含RuvC结构域。一项实施方案中，Cas9或Cas12多肽包含部份或完全缺失一个或多个结构化结构域，及其中脱氨酶是嵌插在Cas9或Cas12多肽的部份或完全缺失位置。某些实施方案中，所述缺失是在RuvC结构域内；所述缺失是在HNH结构域内；或所述缺失是桥接RuvC结构域和C末端结构域。

如上所记述方法的一项实施方案中，融合蛋白或ABE8包含Cas9多肽。一项实施方案中，Cas9多肽为化脓性链球菌(Streptococcus pyogenes)Cas9(SpCas9)、金黄色葡萄球菌(Staphylococcus aureus)Cas9(SaCas9)、嗜热链球菌(Streptococcus thermophilus)1Cas9(St1Cas9)、或其变体。一项实施方案中，Cas9多肽包含下列氨基酸序列(Cas9参考序列)：

(单一底线：HNH结构域；双重底线：RuvC结构域；(Cas9参考序列)、或其对应区。某些实施方案中，Cas9多肽包含缺失氨基酸1017-1069(其是依Cas9多肽参考序列中编号)，或其对应氨基酸；Cas9多肽包含缺失氨基酸792-872(其是依Cas9多肽参考序列中编号)，或其对应氨基酸；或Cas9多肽包含缺失氨基酸792-906(其是依Cas9多肽参考序列中编号)，或其对应氨基酸。如上所记述方法的一项实施方案中，腺苷脱氨酶变体是插入Cas9多肽的柔性环圈内。一项实施方案中，柔性环圈包含选自由在位置530-537、569-579、686-691、768-793、943-947、1002-1040、1052-1077、1232-1248、及1298-1300(其是依Cas9参考序列的编号)的氨基酸所组成群组的区域，或其对应氨基酸位置。

如上所记述方法的一项实施方案中，脱氨酶变体是插入以下氨基酸位置之间：768-769、791-792、792-793、1015-1016、1022-1023、1026-1027、1029-1030、1040-1041、1052-1053、1054-1055、1067-1068、1068-1069、1247-1248、或1248-1249(其是依Cas9参考序列的编号)，或其对应氨基酸位置。如上所记述方法的一项实施方案中，脱氨酶变体是插入以下氨基酸位置之间：768-769、792-793、1022-1023、1026-1027、1040-1041、1068-1069、或1247-1248(其是依Cas9参考序列的编号)，或其对应氨基酸位置。如上所记述方法的一项实施方案中，脱氨酶变体是插入以下氨基酸位置之间：1016-1017、1023-1024、1029-1030、1040-1041、1069-1070、或1247-1248(其是依Cas9参考序列的编号)，或其对应氨基酸位置。如上所记述方法的一项实施方案中，腺苷脱氨酶变体是插入表14A所指示Cas9多肽内的基因座。一项实施方案中，N末端片段包含Cas9参考序列的氨基酸残基1-529、538-568、580-685、692-942、948-1001、1026-1051、1078-1231、和/或1248-1297，或其对应残基。一项实施方案中，C末端片段包含Cas9参考序列的氨基酸残基1301-1368、1248-1297、1078-1231、1026-1051、948-1001、692-942、580-685、和/或538-568，或其对应残基。

如上所记述方法的一项实施方案中，Cas9多肽为经修饰的Cas9且对经改变的PAM或非G PAM具有特异性。如上所记述方法的一项实施方案中，Cas9多肽为切口酶或其中Cas9多肽为核酸酶失活。如上所记述方法的一项实施方案中，Cas9多肽为经修饰的SpCas9多肽。一项实施方案中，经修饰的SpCas9多肽，其包括氨基酸取代D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E、及T1337R(SpCas9-MQKFRAER)，且其对经改变的PAM 5’-NGC-3’具有特异性。

如上所记述方法的另一项实施方案中，融合蛋白或ABE8包含Cas12多肽。一项实施方案中，腺苷脱氨酶变体是插入Cas12多肽内。一项实施方案中，Cas12多肽为Cas12a、Cas12b、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、或Cas12i。一项实施方案中，腺苷脱氨酶变体是插入以下氨基酸位置之间：a)BhCas12b的153-154、255-256、306-307、980-981、1019-1020、534-535、604-605、或344-345，或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、或Cas12i的对应氨基酸残基之间；b)BvCas12b的147和148、248和249、299和300、991和992、或1031和1032，或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、或Cas12i的对应氨基酸残基之间；或c)AaCas12b的157和158、258和259、310和311、1008和1009、或1044和1045，、或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、或Cas12i的对应氨基酸残基之间。一项实施方案中，腺苷脱氨酶变体是插入表14B所指示Cas12多肽中的基因座。一项实施方案中，Cas12多肽为Cas12b。一项实施方案中，Cas12多肽包含BhCas12b结构域、BvCas12b结构域、或AACas12b结构域。

如上所记述方法的一项实施方案中，向导RNA包含CRISPR RNA(crRNA)及反式激活crRNA(trans-activating crRNA)(tracrRNA)。如上所记述方法的一项实施方案中，个体为哺乳动物或人类。

另一实施例中，提供一种药物组合物，其包含含有任何一种如上所记述方法、实施例及实施方案的融合蛋白的碱基编辑系统，及药学上可接受的载体、溶媒、或赋形剂。一项实施方案中，药物组合物进一步包含向导RNA，其包含选自由CUUCUCCACAGGAGUCAGAU；ACUUCUCCACAGGAGUCAGAU；及GACUUCUCCACAGGAGUCAGAU。一项实施方案中，gRNA进一步包含核酸序列GUUUUUGUACUCUCAAGAUUUAAGUAACUGUACAACGAAACUUACACAGUUACUUAAAUC UUGCAGAAGCUACAAAGAUAAGGCUUCAUGCCGAAAUCAACACCCUGUCAUUUUAUGGCA GGGUG所组成群组的核酸序列。一项实施方案中，gRNA包含选自CUUCUCCACAGGAGUCAGAUGUUUUUGUACUCUCAAGAUUUAAGUAACUGUACAACGAAA CUUACACAGUUACUUAAAUCUUGCAGAAGCUACAAAGAUAAGGCUUCAUGCCGAAAUCAACACCCUGUCAUUUUAUGGCAGGGUG；

ACUUCUCCACAGGAGUCAGAUGUUUUUGUACUCUCAAGAUUUAAGUAACUGUACAA CGAAACUUACACAGUUACUUAAAUCUUGCAGAAGCUACAAAGAUAAGGCUUCAUGCCGAAAUCAACACCCUGUCAUUUUAUGGCAGGGUG；及

GACUUCUCCACAGGAGUCAGAUGUUUUUGUACUCUCAAGAUUUAAGUAACUGUACA ACGAAACUUACACAGUUACUUAAAUCUUGCAGAAGCUACAAAGAUAAGGCUUCAUGCCGAAAUCAACACCCUGUCAUUUUAUGGCAGGGUG的核酸序列。

一项实施例中，提供一种药物组合物，其包含碱基编辑器或编码碱基编辑器的多核苷酸，其中碱基编辑器包含任何一种如上所记述方法、实施例及实施方案中说明的多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域；及一个或多个向导多核苷酸，其靶向碱基编辑器去执行镰状细胞病相关的SNP的A·T至G·C修改；及药学上可接受的载体、溶媒或赋形剂。

另一实施例中，提供一种药物组合物，其包含如上所记述实施例及实施方案的细胞，及药学上可接受的载体、溶媒或赋形剂。

另一实施例中，提供一种套组，其包含含有任何一种如上所记述方法、实施例及实施方案的融合蛋白的碱基编辑系统。一项实施方案中，所述套组进一步包含向导RNA，其包含选自由CUUCUCCACAGGAGUCAGAU；ACUUCUCCACAGGAGUCAGAU；及GACUUCUCCACAGGAGUCAGAU所组成群组的核酸序列。

另一实施例中，提供一种套组，其包含碱基编辑器或编码碱基编辑器的多核苷酸，其中碱基编辑器包含任何一种如上所记述方法、实施例及实施方案所说明的多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域；及一个或多个向导多核苷酸，其靶向碱基编辑器去执行镰状细胞病相关的SNP的A·T至G·C修改。

另一实施例中，提供一种套组，其包含任何一种如上所记述实施例及实施方案的细胞。一项套组的实施方案中，所述套组进一步包含附有使用说明书的包装插页。

一项实施例中，本文提供一种碱基编辑器系统，其包含多核苷酸可编程DNA结合结构域和至少一个包含腺苷脱氨酶变体的碱基编辑器结构域，所述变体包含在以下序列氨基酸位置82或166的修改：MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEI MALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDV LHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD；及向导RNA，其中所述向导RNA靶向碱基编辑器去执行修改α-1抗胰蛋白酶缺陷相关的SNP。有些实施方案中，腺苷脱氨酶变体包含V82S修改和/或T166R修改。有些实施方案中，腺苷脱氨酶变体进一步包含一个或多个下列修改：Y147T、Y147R、Q154S、Y123H、及Q154R。有些实施方案中，碱基编辑器结构域包含腺苷脱氨酶异源二聚体，其包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体。有些实施方案中，腺苷脱氨酶变体为截短的TadA8，其相对于全长TadA8失去1、2、3、4、5、66、7、8、9、10、11、12、13、14、15、6、17、18、19、或20个N末端氨基酸残基。有些实施方案中，腺苷脱氨酶变体为截短的TadA8，其相对于全长TadA8失去1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19、或20个C末端氨基酸残基。有些实施方案中，多核苷酸可编程DNA结合结构域为经修饰的金黄色葡萄球菌(Staphylococcus aureus)Cas9(SaCas9)、嗜热链球菌(Streptococcusthermophilus)1Cas9(St1Cas9)、经修饰的化脓性链球菌(Streptococcus pyogenes)Cas9(SpCas9)、或其变体。有些实施方案中，多核苷酸可编程DNA结合结构域为具有修改的原间隔相邻基序(PAM)特异性或对非G PAM具有特异性的SpCas9变体。有些实施方案中，多核苷酸可编程DNA结合结构域为核酸酶失活Cas9。有些实施方案中，多核苷酸可编程DNA结合结构域为Cas9切口酶。

一项实施例中，本文提供一种碱基编辑器系统，其包含一个或多个向导RNA及融合蛋白，后者包含含有下列序列的多核苷酸可编程DNA结合结构域：

EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFMQPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAKFLQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPRAFKYFDTTIARKEYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDGGSGGSGGSGGSGGSGGSGGMDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQR KFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEGADKRTADGSEFESPKKKRKV*，其中粗体序列是指示由Cas9衍生的序列，斜体序列代表连接子序列，及底线序列代表二分核定位序列；及至少一个碱基编辑器结构域，其包含的腺苷脱氨酶变体含有在以下序列氨基酸位置82和/或166的修改：MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEI MALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDV LHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD；及其中所述一或多个向导RNA靶向碱基编辑器去执行修改α-1抗胰蛋白酶缺陷相关的SNP。

一项实施例中，提供一种细胞，其包含任何一种如上记述的碱基编辑器系统。有些实施方案中，细胞为人类细胞或哺乳动物细胞。有些实施方案中，细胞为体外、体内、或试管内(in vitro)。

本文的说明及实例是例示说明本发明实施方案。通常理解，本发明不限于本文说明的特定实施方案，且可能变化。彼等本领域技术人员通常理解，本发明有许多种变化及修饰，均涵盖在其范围内。

本发明提供一种编辑和镰状细胞病(SCD)相关的的突变的组合物和方法。本发明所定义组合物和物品的单离或制造是和下文所提供实例相关。本发明其他特色和优点将可从详细说明及权利要求中了解。除非另有其他说明，否则本文所揭示有些实施方案的操作是采用习知的免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因体学及重组DNA技术，其等是本领域范围内。参见例如：Sambrook和Green的第4版MolecularCloning:A Laboratory Manual(2012)；一系列Current Protocols in MolecularBiology(F.M.Ausubel等人编辑)；一系列Methods In Enzymology(Academic Press,Inc.),PCR 2:A Practical Approach(M.J.MacPherson,B.D.Hames和G.R.Taylor编辑(1995))；Harlow和Lane编辑(1988)Antibodies,A Laboratory Manual,and Culture ofAnimal Cells:A Manual of Basic Technique and Specialized Applications，第6版(R.I.Freshney编辑(2010))。

本文所提供章节标题仅供组织结构的目的，无意构成所说明主题的限制。

虽然本发明各种不同特色可在单一实施方案内容中说明，但所述等特色亦可分开提供或依任何合适组合提供。反的，虽然为了阐明而在本文的分开实施方案中说明本发明，但本发明亦可在单一实施方案中执行。本文所采用章节标题仅供组织的目的，无意构成所述标的的限制。

本发明的特征是特别说明于附录的权利要求中。参考下文详细说明中所例举采用本发明原理的实施方案，及依据下文的附图说明，将可更了解本发明的特征和优点。

定义

下列定义是补充相关技艺中的彼等定义并和目前申请案相关，并无意带入任何相关或不相关案例，例如：任何共同拥有的专利案或申请案。虽然类似或等同彼等本文所说明的任何方法和材料均可用于操作本发明的试验，但本文仍将说明较佳材料和方法。因此，本文所采用术语仅供说明特定实施方案，并无意限制。

除非另有定义，否则本文所采用所有技术和科学术语均具有熟悉本发明所属领域技术人员通常理解的含义。下列参考文献提供本领域技术人员有关本发明所采用许多术语的一般定义：Singleton等人，Dictionary of Microbiology and Molecular Biology(第2版1994)；The Cambridge Dictionary of Science and Technology(Walker编辑，1988)；The Glossary of Genetics，第5版，R.Rieger等人(编辑)，Springer Verlag(1991)；及Hale&Marham,The Harper Collins Dictionary of Biology(1991)。

本申请案中，所采用的单数包括复数，除非另有明确说明。应注意，本说明书所采用的单数型“一(a)”、“一(an)”、和“所述(the)”包括复数的相关物，除非另有清楚说明。本申请案中，“或”的用法意指“和/或”，除非另有其他说明，且通常理解为涵括性。此外，术语“包括(including)”及其他型式如“include”、“includes”、和“included”的用法没有限制。

本说明书和权利要求所采用用语“包含(comprising)”(及任何包含(comprising)型式，如“comprise”和“comprises”)、“具有(having)”(及任何具有(having)型式，如“have”和“has”)、“包括(including)”(及任何包括(including)型式，如“includes”和“include”)或“包含(containing)”(及任何包含(containing)型式，如：“contains”和“contain”)均为涵括性或开放性，不排除额外、未摘录元素、或方法步骤。本说明书所讨论任何实施方案考虑采用本发明任何方法或组合物执行，反之亦然。此外，本发明组合物可用于达成本发明方法。

术语“约(about)”或“约略(approximately)”意指针对本领域技术人员所测定特定数值在可接受的误差范围内，有一部份会随量测或测定数值的方式而定，亦即受量测系统限制。例如：依据相关技艺的操作，“约”可意指在1或超过1的标准偏差内。或者，“约”可意指指定数值的最多20％、最多10％、最多5％、或最多1％的范围。或者，特别针对生物系统或过程，所述术语可意指某数量级内，如：指定数值的5倍内或2倍内。若申请案和权利要求说明特定数值时，除非另有其他说明，否则应假设所述术语“约”意指在特定数值的可接受误差范围内。

通常理解本文所提供范围是所述范围内所有数值的速记法。例如：1至50的范围通常理解包括由1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、或50所组成数字群中的任何数字、数字组合、或小范围。

本说明书所提及“有些实施方案”、“一实施方案”、“一项实施方案”或“其他实施方案”意指和实施方案相关所说明特定特色、结构、或特征是包括在本发明至少有些实施方案中，但不一定在本发明所有实施方案中。

“腺苷脱氨酶”意指可以催化腺嘌呤或腺苷的水解性脱氨的多肽或其片段。有些实施方案中，脱氨酶或脱氨酶结构域为催化腺苷的水解性脱氨形成肌苷或由去氧腺苷形成去氧肌苷的腺苷脱氨酶。有些实施方案中，腺苷脱氨酶催化去氧核糖核酸(DNA)的腺嘌呤或腺苷的水解性脱氨。本文所提供腺苷脱氨酶(例如：工程化腺苷脱氨酶、演化的腺苷脱氨酶)可能来自任何生物体，如：细菌。有些实施方案中，腺苷脱氨酶包含下列序列中的修改：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD

(亦称为TadA*7.10)。

有些实施方案中，TadA*7.10包含至少一个修改。有些实施方案中，TadA*7.10包含在氨基酸82和/或166的修改。特定实施方案中，上文所提及序列的变体包含一个或多个下列修改：Y147T、Y147R、Q154S、Y123H、V82S、T166R、和/或Q154R。其他实施方案中，TadA7.10序列的变体包含选自Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；及I76Y+V82S+Y123H+Y147R+Q154R的修改的组合。

其他实施方案中，本发明提供包括缺失的腺苷脱氨酶变体，例如：TadA*8，其包含在残基149、150、151、152、153、154、155、156、或157开始的C末端缺失。其他实施方案中，腺苷脱氨酶变体为TadA(例如：TadA*8)单体，其包含一个或多个下列修改：Y147T、Y147R、Q154S、Y123H、V82S、T166R、和/或Q154R。其他实施方案中，腺苷脱氨酶变体为包含选自Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；及I76Y+V82S+Y123H+Y147R+Q154R的修改的组合的单体。

又其他实施方案中，腺苷脱氨酶变体为均二聚体，其包含两个腺苷脱氨酶结构域(例如：TadA*8)，各具有一个或多个下列修改：Y147T、Y147R、Q154S、Y123H、V82S、T166R、和/或Q154R。其他实施方案中，腺苷脱氨酶变体为均二聚体，其包含两个腺苷脱氨酶结构域(例如：TadA*8)，各包含选自由Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；及I76Y+V82S+Y123H+Y147R+Q154R所组成群组的修改的组合。

其他实施方案中，腺苷脱氨酶变体为异源二聚体，其包含野生型TadA腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如：TadA*8)，其包含一个或多个下列修改：Y147T、Y147R、Q154S、Y123H、V82S、T166R、和/或Q154R。其他实施方案中，腺苷脱氨酶变体为异源二聚体，其包含野生型TadA腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如：TadA*8)，其包含选自Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；及I76Y+V82S+Y123H+Y147R+Q154R的修改的组合。

其他实施方案中，腺苷脱氨酶变体为异源二聚体，其包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如：TadA*8)，其包含一个或多个下列修改：Y147T、Y147R、Q154S、Y123H、V82S、T166R、和/或Q154R。其他实施方案中，腺苷脱氨酶变体为异源二聚体，其包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如：TadA*8)，其包含下列修改组合：Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；或I76Y+V82S+Y123H+Y147R+Q154R。

一项实施方案中，腺苷脱氨酶为TadA*8，其包含或基本上其组成为具有腺苷脱氨酶活性的下列序列或其片段：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。

有些实施方案中，TadA*8已截短。有些实施方案中，截短的TadA*8相对于全长TadA*8失去1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19、或20个N末端氨基酸残基。有些实施方案中，截短的TadA*8相对于全长TadA*8失去1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19、或20个C末端氨基酸残基。有些实施方案中，腺苷脱氨酶变体为全长TadA*8。

特定实施方案中，腺苷脱氨酶异源二聚体包含TadA*8结构域和选自由下列腺苷脱氨酶结构域的其中之一：

金黄色葡萄球菌(Staphylococcus aureus)(S.aureus)TadA：

MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRETLQQPTAHAEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMSRIPRVVYGADDPKGGCSGSLMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFKNLRANKKSTN

枯草芽孢杆菌(Bacillus subtilis)(B.subtilis)TadA：

MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQRSIAHAEMLVIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKGGCSGTLMNLLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRKKKKAARKNLSE

鼠伤寒沙门氏菌(Salmonella typhimurium)(S.typhimurium)TadA：

MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAMVHSRIGRVVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV

腐败希瓦氏菌(Shewanella putrefaciens)(S.putrefaciens)TadA：

MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHDPTAHAEILCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEKTGAAGTVVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQQGIE

流感嗜血杆菌(Haemophilus influenzae)F3031(H.influenzae)TadA：

MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGEGWNLSIVQSDPTΑΗAEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHSRIKRLVFGASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLSTFFQKRREEKKIEKALLKSLSDK

新月形杆菌(Caulobacter crescentus)(C.crescentus)TadA：

MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNGPIAAHDPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRVVFGADDPKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI

硫还原地杆菌(Geobacter sulfurreducens)(G.sulfurreducens)TadA：

MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNLREGSNDPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERVVFGCYDPKGGAAGSLYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKAKATPALFIDERKVPPEP

TadA*7.10

“腺苷脱氨酶碱基编辑器8(ABE8)多肽”意指如本文定义及/或说明的碱基编辑器(BE)，其包含腺苷脱氨酶变体，其包含在下列参考序列的氨基酸位置82和/或166的修改：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTA HAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGS LMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD。有些实施方案中，ABE8包含相对于参考序列的其他修改。

“腺苷脱氨酶碱基编辑器8(ABE8)多核苷酸”意指编码ABE8多肽的多核苷酸(多核苷酸序列)。

“投药”在本文中是指提供一个或多个本文说明的组合物给患者或个体。例如且不限于：例如：注射的组合物投药法可采用静脉内(i.v.)注射、皮下(s.c.)注射、皮内(i.d.)注射、腹膜内(i.p.)注射、或肌内(i.m.)注射。可采用一或多种此等途径。非经肠式投药法可为例如：快速推注法或长时间点滴输注。或者或同时，可采用经口途径施用。

“剂(agent)”意指任何小分子化学化合物、抗体、核酸分子、或多肽、或其片段。

“修改(alteration)”意指改变(例如：提高或降低)基因或多肽的结构、表达程度或活性，其是采用标准技艺已知的方法检测，如：本文说明的彼等方法。本文所采用的修改包括改变多核苷酸或多肽序列或改变表达程度，如：改变25％、改变40％、改变50％、或更多。

“缓解(alteration)”意指降低、压制、减弱、消除、遏止、或稳定疾病的发展或演进。

“类似物(analog)”意指不一样但具有类似功能或结构化特色的分子。例如：多核苷酸或多肽类似物保留对应天然多核苷酸或多肽的生物活性，但相对于天然发生的多核苷酸或多肽，具有某些加强类似物的功能的修饰。此等修饰可以提高类似物对DNA的亲合性、效能、特异性、蛋白酶或核酸酶抗性、膜通透性、和/或半衰期，不会改变例如：配体结合性。类似物可能包括非天然核苷酸或氨基酸。

“碱基编辑器(BE)”或“核碱基编辑器(NBE)”意指会和多核苷酸结合且具有核碱基修饰活性的剂。各种不同实施方案中，碱基编辑器包含核碱基修饰多肽(例如：脱氨酶)及核酸可编程核苷酸结合结构域，并连结向导多核苷酸(例如：向导RNA)。各种不同实施方案中，所述剂为生物分子复合物，其包含具有碱基编辑活性的蛋白质结构域，亦即可以修饰核酸分子(例如：DNA)内碱基(例如：A、T、C、G、或U)的结构域。有些实施方案中，多核苷酸可编程DNA结合结构域是融合或连接脱氨酶结构域。一项实施方案中，所述剂为包含具有碱基编辑活性的结构域的融合蛋白。另一项实施方案中，具有碱基编辑活性的蛋白质结构域是连接向导RNA(例如：经由向导RNA上的RNA结合基序及和脱氨酶融合的RNA结合结构域)。有些实施方案中，具有碱基编辑活性的结构域可以在核酸分子内的碱基进行脱氨。有些实施方案中，碱基编辑器可以在DNA分子内的一个或多个碱基进行脱氨。有些实施方案中，碱基编辑器可以在DNA内的腺苷(A)进行脱氨。有些实施方案中，碱基编辑器为腺苷碱基编辑器(ABE)。

有些实施方案中，碱基编辑器的产生(例如：ABE8)是选殖腺苷脱氨酶变体(例如：TadA*8)至包括环状排列Cas9(例如：spCAS9或saCAS9)及二分核定位序列的骨架中。环状排列Cas9是本领域已知的，且说明于例如：Oakes等人，Cell 176,254–267,2019。下列环状排列实例中，粗体序列是指示由Cas9衍生的序列，斜体序列代表连接子序列，及底线序列代表二分核定位序列。

CP5(具有MSP“NGC＝Pam变体，带有突变规律Cas9如：NGG”PID＝蛋白质交互作用结构域及“D10A”切口酶)：

有些实施方案中，ABE8是选自：来自下文表6至9、13、或14的碱基编辑器。有些实施方案中，ABE8包含从TadA演化的腺苷脱氨酶变体。有些实施方案中，ABE8的腺苷脱氨酶变体为说明于下文表7、9、13或14的TadA*8变体。有些实施方案中，腺苷脱氨酶变体为TadA*7.10变体(例如：TadA*8)，其包含选自由Y147T、Y147R、Q154S、Y123H、V82S、T166R、和/或Q154R所组成群组的一个或多个修改。各种不同实施方案中，ABE8包含TadA*7.10变体(例如：TadA*8)和选自由Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；及I76Y+V82S+Y123H+Y147R+Q154R所组成群组的修改的组合。有些实施方案中，ABE8为单体构建体。有些实施方案中，ABE8为异源二聚体构建体。有些实施方案中，ABE8包含序列：

有些实施方案中，多核苷酸可编程DNA结合结构域为CRISPR相关的(例如：Cas或Cpf1)酶。有些实施方案中，碱基编辑器为和脱氨酶结构域融合的催化性灭活Cas9(dCas9)。有些实施方案中，碱基编辑器为和脱氨酶结构域融合的Cas9切口酶(nCas9)。碱基编辑器的详细内容说明于国际PCT申请号PCT/2017/045381(WO 2018/027078)及PCT/US2016/058344(WO 2017/070632)，其等内容已分别以全文引用方式并入本文中。亦参见Komor,A.C.等人的“Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016)；Gaudelli,N.M.等人的“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017)；Komor,A.C.等人的“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)，及Rees,H.A.等人的“Base editing:precision chemistry on the genome andtranscriptome of living cells.”Nat Rev Genet.2018Dec；19(12):770-788.doi:10.1038/s41576-018-0059-1，其完整内容已以引用方式并入本文中。

例如：本文所说明碱基编辑组合物、系统及方法所使用的腺嘌呤碱基编辑器(ABE)具有如下文所提供核酸序列(8877个碱基对)(Addgene,Watertown,MA.；Gaudelli NM等人的Nature.2017Nov23；551(7681):464-471.doi:10.1038/nature24644；Koblan LW等人的Nat Biotechnol.2018Oct；36(9):843-846.doi:10.1038/nbt.4172.)。亦涵括和ABE核酸序列具有至少95％或更高一致性的多核苷酸序列。

ATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACAT

GACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGG

TTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTG

ACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCC

ATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGT

CAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACCATGAAACGGACA

GCCGACGGAAGCGAGTTCGAGTCACCAAAGAAGAAGCGGAAAGTCTCTGAAGTCGAGTTTAGCCACGAGT

ATTGGATGAGGCACGCACTGACCCTGGCAAAGCGAGCATGGGATGAAAGAGAAGTCCCCGTGGGCGCCGT

GCTGGTGCACAACAATAGAGTGATCGGAGAGGGATGGAACAGGCCAATCGGCCGCCACGACCCTACCGCA

CACGCAGAGATCATGGCACTGAGGCAGGGAGGCCTGGTCATGCAGAATTACCGCCTGATCGATGCCACCC

TGTATGTGACACTGGAGCCATGCGTGATGTGCGCAGGAGCAATGATCCACAGCAGGATCGGAAGAGTGGT

GTTCGGAGCACGGGACGCCAAGACCGGCGCAGCAGGCTCCCTGATGGATGTGCTGCACCACCCCGGCATG

AACCACCGGGTGGAGATCACAGAGGGAATCCTGGCAGACGAGTGCGCCGCCCTGCTGAGCGATTTCTTTA

GAATGCGGAGACAGGAGATCAAGGCCCAGAAGAAGGCACAGAGCTCCACCGACTCTGGAGGATCTAGCGG

AGGATCCTCTGGAAGCGAGACACCAGGCACAAGCGAGTCCGCCACACCAGAGAGCTCCGGCGGCTCCTCC

GGAGGATCCTCTGAGGTGGAGTTTTCCCACGAGTACTGGATGAGACATGCCCTGACCCTGGCCAAGAGGG

CACGCGATGAGAGGGAGGTGCCTGTGGGAGCCGTGCTGGTGCTGAACAATAGAGTGATCGGCGAGGGCTG

GAACAGAGCCATCGGCCTGCACGACCCAACAGCCCATGCCGAAATTATGGCCCTGAGACAGGGCGGCCTG

GTCATGCAGAACTACAGACTGATTGACGCCACCCTGTACGTGACATTCGAGCCTTGCGTGATGTGCGCCG

GCGCCATGATCCACTCTAGGATCGGCCGCGTGGTGTTTGGCGTGAGGAACGCAAAAACCGGCGCCGCAGG

CTCCCTGATGGACGTGCTGCACTACCCCGGCATGAATCACCGCGTCGAAATTACCGAGGGAATCCTGGCA

GATGAATGTGCCGCCCTGCTGTGCTATTTCTTTCGGATGCCTAGACAGGTGTTCAATGCTCAGAAGAAGG

CCCAGAGCTCCACCGACTCCGGAGGATCTAGCGGAGGCTCCTCTGGCTCTGAGACACCTGGCACAAGCGA

GAGCGCAACACCTGAAAGCAGCGGGGGCAGCAGCGGGGGGTCAGACAAGAAGTACAGCATCGGCCTGGCC

ATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGG

TGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGA

AACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGC

TATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGT

CCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGC

CTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGAC

CTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACC

TGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGA

GGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGA

CGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCC

TGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAG

CAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTT

CTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCA

AGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGC

TCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCC

GGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGG

ACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAA

CGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTAC

CCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCC

CTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAA

CTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAG

AACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGC

TGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGC

CATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAG

AAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACAT

ACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGA

AGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCC

CACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCC

GGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGG

CTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAA

GCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTA

AGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGA

GAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGA

ATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACA

CCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGA

ACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGAC

TCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAG

AGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTT

CGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAG

CTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACG

ACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCG

GAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAAC

GCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACA

AGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTT

CTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGG

CCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGC

GGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAA

AGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAG

TACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGT

CCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAA

TCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAG

TACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAA

ACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGG

CTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATC

GAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCT

ACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAA

TCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAA

GAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTC

AGCTGGGAGGTGACTCTGGCGGCTCAAAAAGAACCGCCGACGGCAGCGAATTCGAGCCCAAGAAGAAGAG

GAAAGTCTAACCGGTCATCATCACCATCACCATTGAGTTTAAACCCGCTGATCAGCCTCGACTGTGCCTT

CTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCAC

TGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGT

GGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGATGCGGTGGGCT

CTATGGCTTCTGAGGCGGAAAGAACCAGCTGGGGCTCGATACCGTCGACCTCTAGCTAGAGCTTGGCGTA

ATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGA

AGCATAAAGTGTAAAGCCTAGGGTGCCTAATGAGTGAGCTAACTCACATTAATTGCGTTGCGCTCACTGC

CCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGG

TTTGCGTATTGGGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGA

GCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAACA

TGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCT

CCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAA

AGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGAT

ACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTC

GGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTA

TCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTA

ACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTA

CACTAGAAGAACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGC

TCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCA

GAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACACTCAGTGGAACGAAAACTC

ACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGA

AGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGG

CACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTAC

GATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACCCACGCTCACCGGCTCCA

GATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCT

CCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGT

TGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCC

CAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGA

TCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTAC

TGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGT

ATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAA

AAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAG

TTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGA

GCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATAC

TCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATG

TATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATTTCCCCGAAAAGTGCCACCTGACGTCGACGGA

TCGGGAGATCGATCTCCCGATCCCCTAGGGTCGACTCTCAGTACAATCTGCTCTGATGCCGCATAGTTAA

GCCAGTATCTGCTCCCTGCTTGTGTGTTGGAGGTCGCTGAGTAGTGCGCGAGCAAAATTTAAGCTACAAC

AAGGCAAGGCTTGACCGACAATTGCATGAAGAATCTGCTTAGGGTTAGGCGTTTTGCGCTGCTTCGCGAT

GTACGGGCCAGATATACGCGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCAT

TAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCC

CAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCAT

TGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATC

“碱基编辑活性”意指以化学作用改变多核苷酸内的碱基。一项实施方案中，由第一碱基转换成第二碱基。一项实施方案中，碱基编辑活性为腺苷或腺嘌呤脱氨酶活性，例如：转换A·T至G·C。有些实施方案中，碱基编辑活性是采用编辑效能来分析。碱基编辑效能可采用任何合适方式量测，例如：采用桑格(sanger)定序法或次世代定序法。有些实施方案中，碱基编辑效能是量测具有由碱基编辑器所实行核碱基转换的总定序读段百分比，例如：具有靶A.T碱基对转换成G.C碱基对的总定序读段百分比。有些实施方案中，当在一群细胞中进行碱基编辑时，碱基编辑效能是量测具有由碱基编辑器所实行核碱基转换的总细胞百分比。

术语“碱基编辑器系统”是指编辑靶核苷酸序列的核碱基的系统。各种不同实施方案中，碱基编辑器系统包含(1)多核苷酸可编程核苷酸结合结构域(例如：Cas9)；(2)脱氨酶结构域(例如：腺苷脱氨酶)，对所述核碱基进行脱氨；及(3)一个或多个向导多核苷酸(例如：向导RNA)。有些实施方案中，多核苷酸可编程核苷酸结合结构域为多核苷酸可编程DNA结合结构域。有些实施方案中，碱基编辑器为腺嘌呤或腺苷碱基编辑器(ABE)。有些实施方案中，碱基编辑器系统为ABE8。

有些实施方案中，碱基编辑器系统可能包含超过一个碱基编辑组份。例如：碱基编辑器系统可包括超过一种脱氨酶。有些实施方案中，碱基编辑器系统可包括一或多种腺苷脱氨酶。有些实施方案中，可利用单一向导多核苷酸让不同脱氨酶靶向靶核酸序列。有些实施方案中，可利用一对向导多核苷酸让不同脱氨酶靶向靶核酸序列。

碱基编辑器系统的脱氨酶结构域及多核苷酸可编程核苷酸结合组份可以利用共价或非共价、或相联法和其交互作用的任何组合彼此相联。例如：有些实施方案中，脱氨酶结构域可利用多核苷酸可编程核苷酸结合结构域靶向靶核苷酸序列。有些实施方案中，多核苷酸可编程核苷酸结合结构域可和脱氨酶结构域融合或连接。有些实施方案中，多核苷酸可编程核苷酸结合结构域可通过和脱氨酶结构域非共价交互作用或和脱氨酶结构域相联，而让脱氨酶结构域靶向靶核苷酸序列。例如：有些实施方案中，脱氨酶结构域可包含额外异源性部份或结构域，其可以和作为多核苷酸可编程核苷酸结合结构域的一部份的额外异源性部份或结构域交互作用、相联、或可以形成复合物。有些实施方案中，所述额外异源性部份可和多肽结合、交互作用、相联、或形成复合物。有些实施方案中，所述额外异源性部份可和多核苷酸结合、交互作用、相联、或形成复合物。有些实施方案中，所述额外异源性部份可和向导多核苷酸结合。有些实施方案中，所述额外异源性部份可和多肽连接子结合。有些实施方案中，所述额外异源性部份可和多核苷酸连接子结合。所述额外异源性部份可为蛋白质结构域。有些实施方案中，所述额外异源性部份可为K同源(K Homology)(KH)结构域、MS2外套蛋白质结构域、PP7外套蛋白质结构域、SfMu Com外套蛋白质结构域、无菌α基序、端粒酶Ku结合基序及Ku蛋白质、端粒酶Sm7结合基序及Sm7蛋白质、或RNA辨识基序。

碱基编辑器系统可进一步包含向导多核苷酸组份。应了解，碱基编辑器系统的组份可能透过共价键、非共价交互作用、或其相联和交互作用的任何组合彼此相联。有些实施方案中，脱氨酶结构域可以通过向导多核苷酸靶向靶核苷酸序列。例如：有些实施方案中，脱氨酶结构域可以包含额外异源性部份或结构域(例如：多核苷酸结合结构域，如：RNA或DNA结合性蛋白质)，其可以和向导多核苷酸的一部份或节段(例如：多核苷酸基序)交互作用、相联、或可以形成复合物。有些实施方案中，所述额外异源性部份或结构域(例如：多核苷酸结合结构域，如：RNA或DNA结合性蛋白质)可以和脱氨酶结构域融合或连接。有些实施方案中，所述额外异源性部份可能可和多肽结合、交互作用、相联、或形成复合物。有些实施方案中，所述额外异源性部份可能可和多核苷酸结合、交互作用、相联、或形成复合物。有些实施方案中，所述额外异源性部份可能可和向导多核苷酸结合。有些实施方案中，所述额外异源性部份可能可和多肽连接子结合。有些实施方案中，所述额外异源性部份可能可和多核苷酸连接子结合。所述额外异源性部份可为蛋白质结构域。有些实施方案中，所述额外异源性部份可为K同源(KH)结构域、MS2外套蛋白质结构域、PP7外套蛋白质结构域、SfMu Com外套蛋白质结构域、无菌α基序、端粒酶Ku结合基序及Ku蛋白质、端粒酶Sm7结合基序及Sm7蛋白质、或RNA辨识基序。

有些实施方案中，碱基编辑器系统可进一步包含碱基切除修复(BER)组份的抑制剂。应了解，碱基编辑器系统的组份可能透过共价键、非共价交互作用、或其相联及交互作用的任何组合彼此相联。BER组份的抑制剂可以包含BER抑制剂。有些实施方案中，BER的抑制剂可为尿嘧啶DNA醣苷酶抑制剂(UGI)。有些实施方案中，BER的抑制剂可为肌苷BER抑制剂。有些实施方案中，BER的抑制剂可以通过多核苷酸可编程核苷酸结合结构域靶向靶核苷酸序列。有些实施方案中，多核苷酸可编程核苷酸结合结构域可以和BER的抑制剂融合或连接。有些实施方案中，多核苷酸可编程核苷酸结合结构域可以和脱氨酶结构域及BER的抑制剂融合或连接。有些实施方案中，多核苷酸可编程核苷酸结合结构域可以通过和BER的抑制剂非共价交互作用或相联，让BER的抑制剂靶向靶核苷酸序列。例如：有些实施方案中，BER的抑制剂组份可包含可以和作为多核苷酸可编程核苷酸结合结构域的一部份的额外异源性部份或结构域交互作用、相联、或可以形成复合物的额外异源性部份或结构域。

有些实施方案中，BER的抑制剂可以通过向导多核苷酸靶向靶核苷酸序列。例如：有些实施方案中，BER的抑制剂可包含可以和向导多核苷酸的一部份或节段(例如：多核苷酸基序)交互作用、相联、或可以形成复合物的额外异源性部份或结构域(例如：多核苷酸结合结构域，如：RNA或DNA结合性蛋白质)。有些实施方案中，向导多核苷酸的额外异源性部份或结构域(例如：多核苷酸结合结构域，如：RNA或DNA结合性蛋白质)可和BER的抑制剂融合或连接。有些实施方案中，所述额外异源性部份可能可以和多核苷酸结合、交互作用、相联、或形成复合物。有些实施方案中，所述额外异源性部份可能可以和向导多核苷酸结合。有些实施方案中，所述额外异源性部份可能可以和多肽连接子结合。有些实施方案中，所述额外异源性部份可能可以和多核苷酸连接子结合。所述额外异源性部份可为蛋白质结构域。有些实施方案中，所述额外异源性部份可为K同源(KH)结构域、MS2外套蛋白质结构域、PP7外套蛋白质结构域、SfMu Com外套蛋白质结构域、无菌α基序、端粒酶Ku结合基序及Ku蛋白质、端粒酶Sm7结合基序及Sm7蛋白质、或RNA辨识基序。

“β-珠蛋白(HBB)蛋白质”意指和NCBI登录号NP_000509具有至少约95％氨基酸序列一致性的多肽或其片段。特定实施方案中，β-珠蛋白蛋白质包含相对于下列参考序列的一个或多个修改。一项特定实施方案中，镰状细胞病相关的β-珠蛋白蛋白质包含E6V(亦称为E7V)突变。β-珠蛋白氨基酸序列实例提供如下。

“HBB多核苷酸”意指编码β-珠蛋白蛋白质或其片段的核酸分子。HBB多核苷酸实例的序列可以从NCBI登录号NM_000518取得，提供如下：

术语“Cas9”或“Cas9结构域”是指RNA-向导核酸酶，其包含Cas9蛋白质、或其片段(例如：包含Cas9的活性、失活、或部份活性DNA裂解结构域、和/或Cas9的gRNA结合结构域的蛋白质)。Cas9核酸酶有时候亦称为Casn1核酸酶或CRISPR(规律间隔成簇短回文重复序列(clustered regularly interspaced short palindromic repeat))-相关的核酸酶。CRISPR为后天性免疫系统，其提供保护对抗可动遗传因子(mobile genetic elements)(病毒、转位因子(transposable elements)及接合质粒)。CRISPR簇包含间隔子、和前述可动因子互补的序列、及靶侵袭性核酸。CRISPR簇经过转录及加工成为CRISPR RNA(crRNA)。在第II型CRISPR系统中，pre-crRNA的修正加工需要反式编码的(trans-encoded)小RNA(tracrRNA)、内因性核糖核酸酶3(rnc)及Cas9蛋白质。tracrRNA是作为核糖核酸酶3-协助pre-crRNA加工的向导子。随后，Cas9/crRNA/tracrRNA以内切核酸分解方式裂解和间隔子互补的线性或环状dsDNA靶。不和crRNA互补的靶链先被内切核酸分解方式切割。然后再以外切核酸分解方式修剪3′-5′。天然界的DNA-结合和裂解通常需要蛋白质及两种RNA。然而，单一向导RNA(“sgRNA”或简称“gNRA”)可经过工程化，以便将crRNA和tracrRNA两种实施例并入单一RNA物种中。参见例如：Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,DoudnaJ.A.,Charpentier E.Science 337:816-821(2012)，其完整内容已以引用方式并入本文中。Cas9辨识CRISPR重复序列中的短基序(PAM或原间隔相邻基序)，以协助分辨自体及非自体。Cas9核酸酶序列及结构是本领域技术人员习知(参见例如：“Complete genomesequence of an M1 strain of Streptococcus pyogenes.”Ferretti等人，J.J.,McShanW.M.,Ajdic D.J.,Savic D.J.,Savic G.,Lyon K.,Primeaux C.,Sezate S.,SuvorovA.N.,Kenton S.,Lai H.S.,Lin S.P.,Qian Y.,Jia H.G.,Najar F.Z.,Ren Q.,Zhu H.,Song L.,White J.,Yuan X.,Clifton S.W.,Roe B.A.,McLaughlin R.E.,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001)；“CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III.”Deltcheva E.,Chylinski K.,SharmaC.M.,Gonzales K.,Chao Y.,Pirzada Z.A.,Eckert M.R.,Vogel J.,Charpentier E.,Nature 471:602-607(2011)；及“A programmable dual-RNA-guided DNA endonucleasein adaptive bacterial immunity.”Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,Doudna J.A.,Charpentier E.Science337:816-821(2012)，其等完整内容已分别以引用方式并入本文中)。Cas9直是同源基因已说明于各种不同物种，包括(但不限于)：化脓性链球菌(S.pyogenes)及嗜热链球菌(S.thermophilus)。其他合适的Cas9核酸酶及序列由彼等本领域技术人员依据本发明即可了解，且此等Cas9核酸酶及序列包括来自Chylinski、Rhun、和Charpentier的“The tracrRNA and Cas9families of type II CRISPR-Cas immunitysystems”(2013)RNA Biology 10:5,726-737所揭示生物体及基因座的Cas9序列；其等完整内容已以引用方式并入本文中。

Cas9实例之一为化脓性链球菌(Streptococcus pyogenes)Cas9(spCas9)，其氨基酸序列提供如下：

(单一底线：HNH结构域；双重底线：RuvC结构域)

核酸酶失活Cas9蛋白质可以交换改称为“dCas9”蛋白质(核酸酶-“灭活”Cas9)或催化性失活Cas9。已知产生具有失活DNA裂解结构域的Cas9蛋白质(或其片段)的方法(参见例如：Jinek等人，Science.337:816-821(2012)；Qi等人，“Repurposing CRISPR as anRNA-Guided Platform for Sequence-Specific Control of Gene Expression”(2013)Cell.28；152(5):1173-83，其等完整内容已分别以引用方式并入本文中)。例如：已知Cas9的DNA裂解结构域包括两个子结构域：HNH核酸酶子结构域和RuvC1子结构域。HNH子结构域裂解和gRNA互补的链，而RuvC1子结构域裂解非互补链。此等子结构域内的突变会静默Cas9的核酸酶活性。例如：突变D10A及H840A会使化脓性链球菌(S.pyogenes)Cas9的核酸酶活性完全失活(Jinek等人，Science.337:816-821(2012)；Qi等人，Cell.28；152(5):1173-83(2013))。有些实施方案中，Cas9核酸酶具有失活(例如：无活性)DNA裂解结构域，亦即Cas9为切口酶，称为“nCas9”蛋白质(针对“切口酶”Cas9)。

有些实施方案中，提供一种包含Cas9的片段的蛋白质。例如：有些实施方案中，蛋白质包含两种Cas9结构域其中之一：(1)Cas9的gRNA结合结构域；或(2)Cas9的DNA裂解结构域。有些实施方案中，包含Cas9或其片段的蛋白质称为“Cas9变体”。Cas9变体和Cas9或其片段有共通同源性。例如：Cas9变体是和野生型Cas9至少约70％一致、至少约80％一致、至少约90％一致、至少约95％一致、至少约96％一致、至少约97％一致、至少约98％一致、至少约99％一致、至少约99.5％一致、或至少约99.9％一致。有些实施方案中，相较于野生型Cas9，Cas9变体可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个氨基酸改变。有些实施方案中，Cas9变体包含Cas9的片段(例如：gRNA结合结构域或DNA-裂解结构域)，因此所述片段是和野生型Cas9的对应片段为至少约70％一致、至少约80％一致、至少约90％一致、至少约95％一致、至少约96％一致、至少约97％一致、至少约98％一致、至少约99％一致、至少约99.5％一致、或至少约99.9％一致。有些实施方案中，所述片段为对应野生型Cas9的氨基酸长度的至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％一致、至少96％、至少97％、至少98％、至少99％、或至少99.5％。

有些实施方案中，所述片段为至少100个氨基酸长度。有些实施方案中，所述片段为至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250、或至少1300个氨基酸长度。有些实施方案中，野生型Cas9对应于来自化脓性链球菌(Streptococcus pyogenes)的Cas9(NCBI参考序列：NC_017053.1，核苷酸及氨基酸序列如下)：

ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGATTATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGGCAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGCAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAATCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTAGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGA

AGAGAAATGGCTTGTTTGGGAATCTCATTGCTTTGTCATTGGGATTGACC

CCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCT

TTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTG

GAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCT

ATTTTACTTTCAGATATCCTAAGAGTAAATAGTGAAATAACTAAGGCTCC

CCTATCAGCTTCAATGATTAAGCGCTACGATGAACATCATCAAGACTTGA

CTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAA

ATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGG

AGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAA

TGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTG

CGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTT

GGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTT

TAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCT

TATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGAC

TCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCG

ATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGAT

AAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGA

GTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAGG

GAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTT

GATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGA

AGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAG

TTGAAGATAGATTTAATGCTTCATTAGGCGCCTACCATGATTTGCTAAAA

ATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTT

AGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGGGATGATTG

AGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAA

CAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATT

GATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTT

TGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGAT

GATAGTTTGACATTTAAAGAAGATATTCAAAAAGCACAGGTGTCTGGACA

AGGCCATAGTTTACATGAACAGATTGCTAACTTAGCTGGCAGTCCTGCTA

TTAAAAAAGGTATTTTACAGACTGTAAAAATTGTTGATGAACTGGTCAAA

GTAATGGGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAA

TCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAA

TCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCT

GTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTACA

AAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAA

GTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCATTAAAGACGAT

TCAATAGACAATAAGGTACTAACGCGTTCTGATAAAAATCGTGGTAAATC

GGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGA

GACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTA

ACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTAT

CAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAA

TTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATT

CGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCG

AAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATG

CCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAA

TATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGA

TGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCG

CAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATT

ACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGG

GGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGC

GCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTA

CAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGA

CAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTT

TTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAA

AAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCAC

AATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAG

CTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAA

TATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGC

CGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGA

ATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAA

GATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGA

TGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAG

ATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAA

CCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAA

TCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTA

AACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAA

TCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGG

TGACTGA

(单一底线：HNH结构域；双重底线：RuvC结构域)

有些实施方案中，野生型Cas9对应于下列或包含下列核苷酸和/或氨基酸序列：

ATGGATAAAAAGTATTCTATTGGTTTAGACATCGGCACTAATTCCGTTGGATGGGCTGTCATAACCGATGAATACAAAGTACCTTCAAAGAAATTTAAGGTGTTGGGGAACACAGACCGTCATTCGATTAAAAAGAATCTTATCGGTGCCCTCCTATTCGATAGTGGCGAAACGGCAGAGGCGACTCGCCTGAAACG

AACCGCTCGGAGAAGGTATACACGTCGCAAGAACCGAATATGTTACTTAC

AAGAAATTTTTAGCAATGAGATGGCCAAAGTTGACGATTCTTTCTTTCAC

CGTTTGGAAGAGTCCTTCCTTGTCGAAGAGGACAAGAAACATGAACGGCA

CCCCATCTTTGGAAACATAGTAGATGAGGTGGCATATCATGAAAAGTACC

CAACGATTTATCACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCG

GACCTGAGGTTAATCTACTTGGCTCTTGCCCATATGATAAAGTTCCGTGG

GCACTTTCTCATTGAGGGTGATCTAAATCCGGACAACTCGGATGTCGACA

AACTGTTCATCCAGTTAGTACAAACCTATAATCAGTTGTTTGAAGAGAAC

CCTATAAATGCAAGTGGCGTGGATGCGAAGGCTATTCTTAGCGCCCGCCT

CTCTAAATCCCGACGGCTAGAAAACCTGATCGCACAATTACCCGGAGAGA

AGAAAAATGGGTTGTTCGGTAACCTTATAGCGCTCTCACTAGGCCTGACA

CCAAATTTTAAGTCGAACTTCGACTTAGCTGAAGATGCCAAATTGCAGCT

TAGTAAGGACACGTACGATGACGATCTCGACAATCTACTGGCACAAATTG

GAGATCAGTATGCGGACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCA

ATCCTCCTATCTGACATACTGAGAGTTAATACTGAGATTACCAAGGCGCC

GTTATCCGCTTCAATGATCAAAAGGTACGATGAACATCACCAAGACTTGA

CACTTCTCAAGGCCCTAGTCCGTCAGCAACTGCCTGAGAAATATAAGGAA

ATATTCTTTGATCAGTCGAAAAACGGGTACGCAGGTTATATTGACGGCGG

AGCGAGTCAAGAGGAATTCTACAAGTTTATCAAACCCATATTAGAGAAGA

TGGATGGGACGGAAGAGTTGCTTGTAAAACTCAATCGCGAAGATCTACTG

CGAAAGCAGCGGACTTTCGACAACGGTAGCATTCCACATCAAATCCACTT

AGGCGAATTGCATGCTATACTTAGAAGGCAGGAGGATTTTTATCCGTTCC

TCAAAGACAATCGTGAAAAGATTGAGAAAATCCTAACCTTTCGCATACCT

TACTATGTGGGACCCCTGGCCCGAGGGAACTCTCGGTTCGCATGGATGAC

AAGAAAGTCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCG

ATAAAGGTGCGTCAGCTCAATCGTTCATCGAGAGGATGACCAACTTTGAC

AAGAATTTACCGAACGAAAAAGTATTGCCTAAGCACAGTTTACTTTACGA

GTATTTCACAGTGTACAATGAACTCACGAAAGTTAAGTATGTCACTGAGG

GCATGCGTAAACCCGCCTTTCTAAGCGGAGAACAGAAGAAAGCAATAGTA

GATCTGTTATTCAAGACCAACCGCAAAGTGACAGTTAAGCAATTGAAAGA

GGACTACTTTAAGAAAATTGAATGCTTCGATTCTGTCGAGATCTCCGGGG

TAGAAGATCGATTTAATGCGTCACTTGGTACGTATCATGACCTCCTAAAG

ATAATTAAAGATAAGGACTTCCTGGATAACGAAGAGAATGAAGATATCTT

AGAAGATATAGTGTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTG

AGGAAAGACTAAAAACATACGCTCACCTGTTCGACGATAAGGTTATGAAA

CAGTTAAAGAGGCGTCGCTATACGGGCTGGGGACGATTGTCGCGGAAACT

TATCAACGGGATAAGAGACAAGCAAAGTGGTAAAACTATTCTCGATTTTC

TAAAGAGCGACGGCTTCGCCAATAGGAACTTTATGCAGCTGATCCATGAT

GACTCTTTAACCTTCAAAGAGGATATACAAAAGGCACAGGTTTCCGGACA

AGGGGACTCATTGCACGAACATATTGCGAATCTTGCTGGTTCGCCAGCCA

TCAAAAAGGGCATACTCCAGACAGTCAAAGTAGTGGATGAGCTAGTTAAG

GTCATGGGACGTCACAAACCGGAAAACATTGTAATCGAGATGGCACGCGA

AAATCAAACGACTCAGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGA

GAATAGAAGAGGGTATTAAAGAACTGGGCAGCCAGATCTTAAAGGAGCAT

CCTGTGGAAAATACCCAATTGCAGAACGAGAAACTTTACCTCTATTACCT

ACAAAATGGAAGGGACATGTATGTTGATCAGGAACTGGACATAAACCGTT

TATCTGATTACGACGTCGATCACATTGTACCCCAATCCTTTTTGAAGGAC

GATTCAATCGACAATAAAGTGCTTACACGCTCGGATAAGAACCGAGGGAA

AAGTGACAATGTTCCAAGCGAGGAAGTCGTAAAGAAAATGAAGAACTATT

GGCGGCAGCTCCTAAATGCGAAACTGATAACGCAAAGAAAGTTCGATAAC

TTAACTAAAGCTGAGAGGGGTGGCTTGTCTGAACTTGACAAGGCCGGATT

TATTAAACGTCAGCTCGTGGAAACCCGCCAAATCACAAAGCATGTTGCAC

AGATACTAGATTCCCGAATGAATACGAAATACGACGAGAACGATAAGCTG

ATTCGGGAAGTCAAAGTAATCACTTTAAAGTCAAAATTGGTGTCGGACTT

CAGAAAGGATTTTCAATTCTATAAAGTTAGGGAGATAAATAACTACCACC

ATGCGCACGACGCTTATCTTAATGCCGTCGTAGGGACCGCACTCATTAAG

AAATACCCGAAGCTAGAAAGTGAGTTTGTGTATGGTGATTACAAAGTTTA

TGACGTCCGTAAGATGATCGCGAAAAGCGAACAGGAGATAGGCAAGGCTA

CAGCCAAATACTTCTTTTATTCTAACATTATGAATTTCTTTAAGACGGAA

ATCACTCTGGCAAACGGAGAGATACGCAAACGACCTTTAATTGAAACCAA

TGGGGAGACAGGTGAAATCGTATGGGATAAGGGCCGGGACTTCGCGACGG

TGAGAAAAGTTTTGTCCATGCCCCAAGTCAACATAGTAAAGAAAACTGAG

GTGCAGACCGGAGGGTTTTCAAAGGAATCGATTCTTCCAAAAAGGAATAG

TGATAAGCTCATCGCTCGTAAAAAGGACTGGGACCCGAAAAAGTACGGTG

GCTTCGATAGCCCTACAGTTGCCTATTCTGTCCTAGTAGTGGCAAAAGTT

GAGAAGGGAAAATCCAAGAAACTGAAGTCAGTCAAAGAATTATTGGGGAT

AACGATTATGGAGCGCTCGTCTTTTGAAAAGAACCCCATCGACTTCCTTG

AGGCGAAAGGTTACAAGGAAGTAAAAAAGGATCTCATAATTAAACTACCA

AAGTATAGTCTGTTTGAGTTAGAAAATGGCCGAAAACGGATGTTGGCTAG

CGCCGGAGAGCTTCAAAAGGGGAACGAACTCGCACTACCGTCTAAATACG

TGAATTTCCTGTATTTAGCGTCCCATTACGAGAAGTTGAAAGGTTCACCT

GAAGATAACGAACAGAAGCAACTTTTTGTTGAGCAGCACAAACATTATCT

CGACGAAATCATAGAGCAAATTTCGGAATTCAGTAAGAGAGTCATCCTAG

CTGATGCCAATCTGGACAAAGTATTAAGCGCATACAACAAGCACAGGGAT

AAACCCATACGTGAGCAGGCGGAAAATATTATCCATTTGTTTACTCTTAC

CAACCTCGGCGCTCCAGCCGCATTCAAGTATTTTGACACAACGATAGATC

GCAAACGATACACTTCTACCAAGGAGGTGCTAGACGCGACACTGATTCAC

CAATCCATCACGGGATTATATGAAACTCGGATAGATTTGTCACAGCTTGG

GGGTGACGGATCCCCCAAGAAGAAGAGGAAAGTCTCGAGCGACTACAAAG

ACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGAT

GACAAGGCTGCAGGA

(单一底线：HNH结构域；双重底线：RuvC结构域)

有些实施方案中，野生型Cas9对应于来自化脓性链球菌(Streptococcuspyogenes)的Cas9(NCBI参考序列：NC_002737.2(核苷酸序列如下)；及Uniprot参考序列：Q99ZW2(氨基酸序列如下)：

ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTT

TAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCT

TATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGAC

TCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCG

ATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGAT

AAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGA

GTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAG

GAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTT

GATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGA

AGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAG

TTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAA

ATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTT

AGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTG

AGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAA

CAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATT

GATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTT

TGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGAT

GATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACA

AGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTA

TTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAA

GTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGA

AAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAAC

GAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCAT

CCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCT

CCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTT

TAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGAC

GATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAA

ATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATT

GGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAAT

TTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTT

TATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCAC

AAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTT

ATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTT

CCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATC

ATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAG

AAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTA

TGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAA

CCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAA

ATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAA

TGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAG

TGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAA

GTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTC

GGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTG

GTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTG

GAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGAT

CACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAG

AAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCT

AAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAG

TGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATG

TGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCA

GAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTT

AGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAG

CAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGAC

AAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGAC

GAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATC

GTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCAT

CAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGG

AGGTGACTGA

(SEQ ID NO:1。单一底线：HNH结构域；双重底线：RuvC结构域)。

有些实施方案中，Cas9是指来自以下的Cas9：溃疡棒状杆菌(Corynebacteriumulcerans)(NCBI Refs:NC_015683.1,NC_017317.1)；白喉棒状杆菌(Corynebacteriumdiphtheria)(NCBI Refs:NC_016782.1,NC_016786.1)；栖蚜蝇螺原体(Spiroplasmasyrphidicola)(NCBI Ref:NC_021284.1)；中间型普雷沃氏菌(Prevotella intermedia)(NCBI Ref:NC_017861.1)；中国台湾螺原体(Spiroplasma taiwanense,China)(NCBI Ref:NC_021846.1)；海豚链球菌(Streptococcus iniae)(NCBI Ref:NC_021314.1)；含羞草伯克霍尔德氏菌(Belliella baltica)(NCBI Ref:NC_018010.1)；扭曲冷弯曲菌(Psychroflexus torquis)I(NCBI Ref:NC_018721.1)；嗜热链球菌(Streptococcusthermophilus)(NCBI Ref:YP_820832.1)、无害李斯特菌(Listeria innocua)(NCBI Ref:NP_472073.1)、空肠曲杆菌(Campylobacter jejuni)(NCBI Ref:YP_002344900.1)或脑膜炎双球菌(Neisseria meningitidis)(NCBI Ref:YP_002342100.1)或来自任何其他生物体的Cas9。

有些实施方案中，Cas9为脑膜炎双球菌(Neisseria meningitidis)Cas9(NmeCas9)或其变体。有些实施方案中，NmeCas9对NNNNGAYW PAM具有特异性，其中Y为C或T及W为A或T。有些实施方案中，NmeCas9对NNNNGYTT PAM具有特异性，其中Y为C或T。有些实施方案中，NmeCas9对NNNNGTCT PAM具有特异性。有些实施方案中，NmeCas9为Nme1 Cas9。有些实施方案中，NmeCas9对NNNNGATT PAM、NNNNCCTA PAM、NNNNCCTC PAM、NNNNCCTT PAM、NNNNCCTG PAM、NNNNCCGT PAM、NNNNCCGGPAM、NNNNCCCA PAM、NNNNCCCT PAM、NNNNCCCC PAM、NNNNCCAT PAM、NNNNCCAG PAM、NNNNCCAT PAM、或NNNGATT PAM具有特异性。有些实施方案中，Nme1Cas9对NNNNGATT PAM、NNNNCCTA PAM、NNNNCCTC PAM、NNNNCCTT PAM、或NNNNCCTGPAM具有特异性。有些实施方案中，NmeCas9对CAA PAM、CAAA PAM、或CCA PAM具有特异性。有些实施方案中，NmeCas9为Nme2 Cas9。有些实施方案中，NmeCas9对NNNNCC(N4CC)PAM具有特异性，其中N为A、G、C、或T任何一种。有些实施方案中，NmeCas9对NNNNCCGT PAM、NNNNCCGGPAM、NNNNCCCA PAM、NNNNCCCT PAM、NNNNCCCC PAM、NNNNCCAT PAM、NNNNCCAG PAM、NNNNCCAT PAM、或NNNGATT PAM具有特异性。有些实施方案中，NmeCas9为Nme3Cas9。有些实施方案中，NmeCas9对NNNNCAAA PAM、NNNNCC PAM、或NNNNCNNN PAM具有特异性。有些实施方案中，针对Nme1、Nme2或Nme3的PAM-交互作用结构域分别为N₄GAT、N₄CC、及N₄CAAA。其他NmeCas9的特征及PAM序列说明于Edraki等人的A Compact,High-Accuracy Cas9 with aDinucleotide PAM for In Vivo Genome Editing,Mol.Cell.(2019)73(4):714-726，其内容已以全文引用方式并入本文中。

脑膜炎双球菌(Neisseria meningitidis)Cas9蛋白质实例之一，Nme1Cas9，(NCBI参考：WP_002235162.1；II型CRISPR RNA-向导内切核酸酶Cas9)具有下列氨基酸序列：

脑膜炎双球菌(Neisseria meningitidis)Cas9蛋白质的另一个实例，Nme2Cas9，(NCBI参考：WP_002230835；第II型CRISPR RNA-向导内切核酸酶Cas9)具有下列氨基酸序列：

有些实施方案中，dCas9对应于或包含一部份或全部的具有一个或多个使Cas9核酸酶活性失活的突变的Cas9氨基酸序列。例如：有些实施方案中，dCas9结构域包含D10A和H840A突变或于另一种Cas9中的对应突变。有些实施方案中，dCas9包含dCas9的氨基酸序列(D10A及H840A)：

(单一底线：HNH结构域；双重底线：RuvC结构域)。

有些实施方案中，Cas9结构域包含D10A突变，而位置840的残基仍在上文所提供氨基酸序列中或在本文所提供任何氨基酸序列的对应位置上保留组氨酸。

其他实施方案中，提供具有D10A及H840A以外的突变的dCas9变体，其例如：造成核酸酶失活Cas9(dCas9)。此等突变例如：在D10及H840包括其他氨基酸取代，或在Cas9的核酸酶结构域内包括其他取代(例如：在HNH核酸酶子结构域和/或RuvC1子结构域中的取代)。有些实施方案中，提供dCas9的变体或同源物，其等为至少约70％一致、至少约80％一致、至少约90％一致、至少约95％一致、至少约98％一致、至少约99％一致、至少约99.5％一致、或至少约99.9％一致。有些实施方案中，提供的dCas9的变体具有较短或较长的氨基酸序列，其是相差约5个氨基酸、相差约10个氨基酸、相差约15个氨基酸、相差约20个氨基酸、相差约25个氨基酸、相差约30个氨基酸、相差约40个氨基酸、相差约50个氨基酸、相差约75个氨基酸、相差约100个或更多个氨基酸。

有些实施方案中，本文提供的Cas9融合蛋白包含Cas9蛋白质的全长氨基酸序列，例如：本文所提供Cas9序列之一。然而其他实施方案中，本文所提供融合蛋白不包含全长Cas9序列，但仅包含其一个或多个片段。本文提供合适的Cas9结构域及Cas9片段的氨基酸序列实例，且彼等本领域技术人员将了解Cas9结构域及片段的额外合适序列。

应理解，额外Cas9蛋白质(例如：核酸酶灭活Cas9(dCas9)、Cas9切口酶(nCas9)、或核酸酶活性Cas9)，包括其变体及同源物，均在本发明范围内。Cas9蛋白质实例包括(但不限于)彼等如下文提供者。有些实施方案中，Cas9蛋白质为核酸酶灭活Cas9(dCas9)。有些实施方案中，Cas9蛋白质为Cas9切口酶(nCas9)。有些实施方案中，Cas9蛋白质为核酸酶活性Cas9。

催化性失活Cas9(dCas9)实例：

DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKE HPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

催化性Cas9切口酶(nCas9)实例：

DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKT EVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

催化性活性Cas9实例：

DKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD。

有些实施方案中，Cas9是指来自古细菌(例如：纳古菌(nanoarchaea))的Cas9，其属于单细胞原核微生物域及单细胞原核微生物界。有些实施方案中，Cas9是指CasX或CasY，其已说明于例如：Burstein等人，“New CRISPR-Cas Systems from uncultivatedmicrobes.”Cell Res.2017Feb 21.doi:10.1038/cr.2017.21，其完整内容已以引用方式并入本文中。使用总体基因体学分箱方式(genome-resolved metagenomics)，已判别许多CRISPR-Cas系统，包括在生命的古菌域中第一个报告的Cas9。此多样的Cas9蛋白质已出现在很少研究的纳古菌，其是活性CRISPR-Cas系统的一部份。在细菌中，发现两个过去未知系统，CRISPR-CasX和CRISPR-CasY，其等是目前已发现的最扎实的系统。有些实施方案中，Cas9是指CasX，或CasX的变体。有些实施方案中，Cas9是指CasY，或CasY的变体。应了解，可采用其他RNA-向导DNA结合性蛋白质作为核酸可编程DNA结合性蛋白质(napDNAbp)，且属于本发明范围。

有些实施方案中，Cas9为对经改变的PAM序列具有特异性的Cas9变体。有些实施方案中，额外Cas9变体及PAM序列说明于Miller等人，Continuous evolution of SpCas9variants compatible with non-G PAMs.Nat Biotechnol(2020),doi.org/10.1038/s41587-020-0412-8，其完整内容已以引用方式并入本文中。有些实施方案中，Cas9变体不要求特定PAM。有些实施方案中，Cas9变体，例如：SpCas9变体对NRNH PAM具有特异性，其中R为A或G及H为A、C、或T。有些实施方案中，SpCas9变体对PAM序列AAA、TAA、CAA、GAA、TAT、GAT、或CAC具有特异性。有些实施方案中，SpCas9变体包含在位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1218、1219、1221、1249、1256、1264、1290、1318、1317、1320、1321、1323、1332、1333、1335、1337、或1339(相对于以上参考序列编号)，或其对应位置的氨基酸取代。

(单一底线：HNH结构域；双重底线：RuvC结构域)。

有些实施方案中，SpCas9变体包含在位置1114、1135、1218、1219、1221、1249、1320、1321、1323、1332、1333、1335、或1337(相对于上述参考序列编号)，或其对应位置的氨基酸取代。有些实施方案中，SpCas9变体包含在位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1219、1221、1256、1264、1290、1318、1317、1320、1323、1333(相对于上述参考序列编号)，或其对应位置的氨基酸取代。有些实施方案中，SpCas9变体包含在位置1114、1131、1135、1150、1156、1180、1191、1218、1219、1221、1227、1249、1253、1286、1293、1320、1321、1332、1335、1339(相对于上述参考序列编号)，或其对应位置的氨基酸取代。有些实施方案中，SpCas9变体包含在位置1114、1127、1135、1180、1207、1219、1234、1286、1301、1332、1335、1337、1338、1349(相对于上述参考序列编号)的氨基酸取代。SpCas9变体的氨基酸取代及PAM特异性实例示于下表A-D及图49。

表A

表B

表C

表D

特定实施方案中，适用于本发明方法的napDNAbp包括相关技艺习知的环状排列且说明于例如：Oakes等人，Cell 176,254–267,2019。一种环状排列实例如下，其中粗体序列是指示由Cas9衍生的序列，斜体序列代表连接子序列，及底线序列代表二分核定位序列，

可纳入碱基编辑器中的多核苷酸可编程核苷酸结合结构域的非限制性实例包括CRISPR蛋白质衍生结构域、限制核酸酶、大范围核酸酶(meganuclease)、TAL核酸酶(TALEN)、及锌指核酸酶(ZFN).。

有些实施方案中，任何本文所提供融合蛋白的核酸可编程DNA结合性蛋白质(napDNAbp)可为CasX或CasY蛋白质。有些实施方案中，napDNAbp为CasX蛋白质。有些实施方案中，napDNAbp为CasY蛋白质。有些实施方案中，napDNAbp包含和天然CasX或CasY蛋白质为至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致的氨基酸序列。有些实施方案中，napDNAbp为天然CasX或CasY蛋白质。有些实施方案中，napDNAbp包含的氨基酸序列是和本文说明的任何CasX或CasY蛋白质为至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致。应理解，根据本发明亦可采用来自其他细菌物种的Cas12b/C2c1、CasX及CasY。

Cas12b/C2c1(uniprot.org/uniprot/T0D7A2#2)

sp|T0D7A2|C2C1_ALIAG CRISPR-相关的内切核酸酶C2c1 OS＝酸土脂环酸芽孢杆菌(Alicyclobacillus acidoterrestris)(菌株ATCC 49025/DSM 3922/CIP 106132/NCIMB13137/GD3B)GN＝c2c1 PE＝1SV＝1

MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECDKTAEECKAELLERLRARQVENGHRGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKEKAETRKSADRTADVLRALADFGLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGQEYAKLVEQKNRFEQKNFVGQEHLVHLVNQLQQDMKEASPGLESKEQTAHYVTGRALRGSDKVFEKWGKLAPDAPFDLYDAEIKNVQRRNTRRFGSHDLFAKLAEPEYQALWREDASFLTRYAVYNSILRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGERRHAIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLPRDPNEPIALYFRDYGAEQHFTGEFGGAKIQCRRDQLAHMHRRRGARDVYLNVSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSKGRVPFFFPIKGNDNLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPVDAANHMTPDWREAFENELQKLKSLHGICSDKEWMDAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELINQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCTQEHNPEPFPWWLNKFVVEHTLDACPLRADDLIPTGEGEIFVSPFSAEEGDFHQIHADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDGELVLIPRLTGKRTADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKLSEEEAELLVEADEAREKSVVLMRDPSGIINRGNWTRQKEFWSMVNQRIEGYLVKQIRSRVPLQDSACENTGDI

CasX(uniprot.org/uniprot/F0NN87；uniprot.org/uniprot/F0NH53)

>tr|F0NN87|F0NN87_SULIH CRISPR-相关的Casx蛋白质OS＝冰岛硫化叶菌(Sulfolobus islandicus)(菌株HVE10/4)GN＝SiH_0402 PE＝4 SV＝1

MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYEFGRSPGMVERTRRVKLEVEPHYLIIAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVRIYTISDAVGQNPTTINGGFSIDLTKLLEKRYLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG

>tr|F0NH53|F0NH53_SULIR CRISPR相关的蛋白质，Casx OS＝冰岛硫化叶菌(Sulfolobus islandicus)(菌株REY15A)GN＝SiRe_0771 PE＝4 SV＝1

MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYKFGRSPGMVERTRRVKLEVEPHYLIMAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVSIYTISDAVGQNPTTINGGFSIDLTKLLEKRDLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG

δ-变形菌(Deltaproteobacteria)CasX

MEKRINKIRKKLSADNATKPVSRSGPMKTLLVRVMTDDLKKRLEKRRKKPEVMPQVISNNAANNLRMLLDDYTKMKEAILQVYWQEFKDDHVGLMCKFAQPASKKIDQNKLKPEMDEKGNLTTAGFACSQCGQPLFVYKLEQVSEKGKAYTNYFGRCNVAEHEKLILLAQLKPVKDSDEAVTYSLGKFGQRALDFYSIHVTKESTHPVKPLAQIAGNRYASGPVGKALSDACMGTIASFLSKYQDIIIEHQKVVKGNQKRLESLRELAGKENLEYPSVTLPPQPHTKEGVDAYNEVIARVRMWVNLNLWQKLKLSRDDAKPLLRLKGFPSFPVVERRENEVDWWNTINEVKKLIDAKRDMGRVFWSGVTAEKRNTILEGYNYLPNENDHKKREGSLENPKKPAKRQFGDLLLYLEKKYAGDWGKVFDEAWERIDKKIAGLTSHIEREEARNAEDAQSKAVLTDWLRAKASFVLERLKEMDEKEFYACEIQLQKWYGDLRGNPFAVEAENRVVDISGFSIGSDGHSIQYRNLLAWKYLENGKREFYLLMNYGKKGRIRFTDGTDIKKSGKWQGLLYGGGKAKVIDLTFDPDDEQLIILPLAFGTRQGREFIWNDLLSLETGLIKLANGRVIEKTIYNKKIGRDEPALFVALTFERREVVDPSNIKPVNLIGVARGENIPAVIALTDPEGCPLPEFKDSSGGPTDILRIGEGYKEKQRAIQAAKEVEQRRAGGYSRKFASKSRNLADDMVRNSARDLFYHAVTHDAVLVFANLSRGFGRQGKRTFMTERQYTKMEDWLTAKLAYEGLTSKTYLSKTLAQYTSKTCSNCGFTITYADMDVMLVRLKKTSDGWATTLNNKELKAEYQITYYNRYKRQTVEKELSAELDRLSEESGNNDISKWTKGRRDEALFLLKKRFSHRPVQEQFVCLDCGHEVHAAEQAALNIARSWLFLNSNSTEFKSYKSGKQPFVGAWQAFYKRRLKEVWKPNA

CasY(ncbi.nlm.nih.gov/protein/APG80656.1)

>APG80656.1 CRISPR-相关的蛋白质CasY[未培养的俭菌总门群(Parcubacteria)细菌]

MSKRHPRISGVKGYRLHAQRLEYTGKSGAMRTIKYPLYSSPSGGRTVPREIVSAINDDYVGLYGLSNFDDLYNAEKRNEEKVYSVLDFWYDCVQYGAVFSYTAPGLLKNVAEVRGGSYELTKTLKGSHLYDELQIDKVIKFLNKKEISRANGSLDKLKKDIIDCFKAEYRERHKDQCNKLADDIKNAKKDAGASLGE RQKKLFRDFFGISEQSENDKPSFTNPLNLTCCLLPFDTVNNNRNRGEVLFNKLKEYAQKLDKNEGSLEMWEYIGIGNSGTAFSNFLGEGFLGRLRENKITELKKAMMDITDAWRGQEQEEELEKRLRILAALTIKLREPKFDNHWGGYRSDINGKLSSWLQNYINQTVKIKEDLKGHKKDLKKAKEMINRFGESDTKEEAVVSSLLESIEKIVPDDSADDEKPDIPAIAIYRRFLSDGRLTLNRFVQREDVQEALIKERLEAEKKKKPKKRKKKSDAEDEKETIDFKELFPHLAKPLKLVPNFYGDSKRELYKKYKNAAIYTDALWKAVEKIYKSAFSSSLKNSFFDTDFDKDFFIKRLQKIFSVYRRFNTDKWKPIVKNSFAPYCDIVSLAENEVLYKPKQSRSRKSAAIDKNRVRLPSTENIAKAGIALARELSVAGFDWKDLLKKEEHEEYIDLIELHKTALALLLAVTETQLDISALDFVENGTVKDFMKTRDGNLVLEGRFLEMFSQSIVFSELRGLAGLMSRKEFITRSAIQTMNGKQAELLYIPHEFQSAKITTPKEMSRAFLDLAPAEFATSLEPESLSEKSLLKLKQMRYYPHYFGYELTRTGQGIDGGVAENALRLEKSPVKKREIKCKQYKTLGRGQNKIVLYVRSSYYQTQFLEWFLHRPKNVQTDVAVSGSFLIDEKKVKTRWNYDALTVALEPVSGSERVFVSQPFTIFPEKSAEEEGQRYLGIDIGEYGIAYTALEITGDSAKILDQNFISDPQLKTLREEVKGLKLDQRRGTFAMPSTKIARIRESLVHSLRNRIHHLALKHKAKIVYELEVSRFEEGKQKIKKVYATLKKADVYSEIDADKNLQTTVWGKLAVASEISASYTSQFCGACKKLWRAEMQVDETITTQELIGTVRVIKGGTLIDAIKDFMRPPIFDENDTPFPKYRDFCDKHHISKKMRGNSCLFICPFCRANADADIQASQTIALLRYVKEEKKVEDYFERFRKLKNIKVLGQMKKI

术语“保守性氨基酸取代”或“保守性突变”是指一个氨基酸被另一个具有共通性质的氨基酸置换。一种界定个别氨基酸之间共通性质的功能性方式为分析同源生物体的对应蛋白质之间氨基酸改变的标准化频率(Schulz,G.E.和Schirmer,R.H.的Principles ofProtein Structure,Springer-Verlag,New York(1979))。依据此等分析，可以界定氨基酸群组，群组内的氨基酸可以彼此优先交换，因此其等彼此之间对整体蛋白质结构的影响最相近(Schulz,G.E.和Schirmer,R.H.，如上述文献)。保守性突变的非限制性实例包括氨基酸的氨基酸取代，例如：以离氨酸取代精氨酸及反之亦然，因此可以维持正电荷；以谷氨酸取代天冬氨酸及反之亦然，因此可以维持负电荷；以丝氨酸取代苏氨酸，因此可以维持游离–OH；及以麸酰氨酸取代天冬酰氨酸，因此可以维持游离–NH₂。

在本文中交换使用的术语“编码序列”或“蛋白质编码序列”是指编码蛋白质的多核苷酸的节段。所述区或序列被起始字码子界定在接近5’端，及被终止码子界定在接受3’端。编码序列亦可称为开放读码框。

本文所采用术语“脱氨酶”或“脱氨酶结构域”是指催化脱氨反应的蛋白质或酶。有些实施方案中，脱氨酶为腺苷脱氨酶，其催化腺嘌呤的水解性脱氨，形成次黄嘌呤。有些实施方案中，脱氨酶为腺苷脱氨酶，其催化腺苷或腺嘌呤(A)的水解性脱氨，形成肌苷(I)。有些实施方案中，脱氨酶或脱氨酶结构域为腺苷脱氨酶，其催化腺苷或去氧腺苷的水解性脱氨，分别形成肌苷或去氧肌苷。有些实施方案中，腺苷脱氨酶催化去氧核糖核酸(DNA)中的腺苷进行水解性脱氨。本文提供的腺苷脱氨酶(例如：工程化腺苷脱氨酶，演化的腺苷脱氨酶)可以来自任何生物体，如：细菌。有些实施方案中，腺苷脱氨酶是来自细菌，如：大肠杆菌(Escherichia coli)、金黄色葡萄球菌(Staphylococcus aureus)、鼠伤寒沙门氏菌(Salmonella typhimurium)、腐败希瓦氏菌(Shewanella putrefaciens)、流感嗜血杆菌(Haemophilus influenzae)、或新月形杆菌(Caulobacter crescentus)。

有些实施方案中，腺苷脱氨酶为TadA脱氨酶。有些实施方案中，TadA脱氨酶为TadA变体。有些实施方案中，TadA变体为TadA*8。有些实施方案中，脱氨酶或脱氨酶结构域为来自生物体如：人类、黑猩猩、大猩猩、猴、牛、狗、大鼠、或小鼠的天然脱氨酶的变体。有些实施方案中，脱氨酶或脱氨酶结构域不是天然发生。例如：有些实施方案中，脱氨酶或脱氨酶结构域是和天然发生的脱氨酶为至少50％、至少55％、至少60％、至少65％、至少70％、至少75％至少80％、至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、或至少99.9％一致。例如：脱氨酶结构域说明于国际PCT申请案案号PCT/2017/045381(WO 2018/027078)及PCT/US2016/058344(WO 2017/070632)，其等内容已分别以全文引用方式并入本文中。亦参见Komor,A.C.等人的“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016)；Gaudelli,N.M.等人的“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017)；Komor,A.C.等人的“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017))；及Rees,H.A.等人的“Base editing:precision chemistry on the genome andtranscriptome of living cells.”Nat Rev Genet.2018Dec；19(12):770-788.doi:10.1038/s41576-018-0059-1，其等完整内容已以引用方式并入本文中。

“检测”是指判别待检测分析物的存在、不存在或数量。一项实施方案中，检测多核苷酸或多肽中的序列修改。另一项实施方案中，检测插入/缺失(indel)的存在。

“可检测标记”意指所述组合物在连接所关注分子时，可以利用显微镜、光化学、生物化学、免疫化学、或化学方式检测所述分子。例如：适用的标记包括放射活性同位素、磁珠、金属珠、胶体粒子、萤光染剂、高电子密度试剂、酵素(例如：如常用于ELISA者)、生物素、地高辛配基(digoxigenin)、或半抗原。

“疾病”意指任何伤害或干扰细胞、组织、或器官正常功能的病症或疾患。一项实施方案中，疾病为SCD。一项实施方案中，疾病为β-地中海型贫血。

本文所采用术语“有效量”是指生物活性剂足以引发所需生物反应时的量。用于操作本发明来治疗疾病时所采用活性化合物(群)有效量会随投药方式、个体的年龄、体重、及一般健康来变化。最终将由参和的医师或兽医师决定适当用量及剂量疗程。此等量则称为“有效”量。特定实施方案中，有效量为本发明碱基编辑器系统(例如：包含可编程DNA结合性蛋白质、核碱基编辑器和gRNA的融合蛋白)足以修改细胞中SCD突变，以达成医疗效能(例如：降低或控制个体的SCD或其症候或症状)时的量。此等医疗效力不一定需要充份修改组织或器官的所有细胞的SCD，但仅组织或器官胞中的约1％、5％、10％、25％、50％、75％或更多细胞。一项实施方案中，有效量足以缓解一或多种SCD症候，此等症候包括贫血及缺血。

“片段”意指多肽或核酸分子的一部份。此部份包含参考核酸分子或多肽总长的至少约10％、20％、30％、40％、50％、60％、70％、80％、或90％。片段可包含10、20、30、40、50、60、70、80、90、或100、200、300、400、500、600、700、800、900、或1000个核苷酸或氨基酸。

“向导RNA”或“gRNA”意指可特异性针对靶序列并可和多核苷酸可编程核苷酸结合结构域蛋白质(例如：Cas9或Cpf1)形成复合物的多核苷酸。一项实施方案中，向导多核苷酸为向导RNA(gRNA)。gRNA可呈两个或更多个RNA的复合物，或呈单一RNA分子。呈单一RNA分子的gRNA可称为单一向导RNA(sgRNA)，但“gRNA”可和呈单一分子或呈两个或更多个分子的复合物而称为向导RNA交换使用。通常，呈单一RNA物种的gRNA包含两个结构域：(1)和靶核酸有共通同源性的结构域(例如：并主导Cas9复合物和靶结合)；及(2)会结合Cas9蛋白质的结构域。有些实施方案中，结构域(2)对应于已知为tracrRNA的序列，且包含茎-环结构。例如：有些实施方案中，结构域(2)是和Jinek等人，Science 337:816-821(2012)提供的tracrRNA一致或同源，其完整揭示内容已以引用方式并入本文中。其他gRNA实例(例如：彼等包括结构域2者)可以参见美国临时专利申请案U.S.S.N.61/874,682，2013年9月6日申请，标题“Switchable Cas9 Nucleases and Uses Thereof”；及美国临时专利申请案U.S.S.N.61/874,746，2013年9月6日申请，标题“Delivery System For Functional Nucleases”，其等完整揭示内容已分别以引用方式并入本文中。有些实施方案中，gRNA包含两个或更多个结构域(1)及(2)，并可称为“延长gRNA”。延长gRNA将会结合两个或更多个Cas9蛋白质，及在本文所说明两个或更多个独立区中结合靶核酸。gRNA包含补充靶位点的核苷酸序列，其介导核酸酶/RNA复合物和所述靶位点的结合，提供核酸酶：RNA复合物的序列特异性。彼等本领域技术人员通常理解，RNA多核苷酸序列，例如：gRNA序列，包括核碱基尿嘧啶(U)，是一种嘧啶衍生物，而非包括在DNA多核苷酸序列中的核碱基胸腺嘧啶(T)。在RNA中，尿嘧啶是和腺嘌呤进行碱基配对，并在DNA转录期间置换胸腺嘧啶。

“Hb G-Makassar”或“Makassar”是指人类β-血红素变体，人类血红素(Hb)G-Makassar变体或突变(HB Makassar变体)，其为无症状的天然变体(E6A)血红素。Hb G-Makassar首次在印尼发现(Mohamad,A.S.等人，2018,Hematol.Rep.,10(3):7210(doi:10.4081/hr.2018.7210)。在进行电泳时，Hb G-Makassar移动性较慢。Makassarβ-血红素变体在β-6或A3位置具有解剖学上的异常，其中麸氨酰基残基通常被丙氨酰基残基置换。编码β-珠蛋白亚单位的基因中单一氨基酸β-6麸氨酰基被取代成缬氨酸，将会造成镰状细胞病。例行制程，如：等电点聚焦法、利用阳离子交换的血红素电泳分离法、高效液相层析法(HPLC)、及乙酸纤维素电泳均无法分离Hb G-Makassar和HbS珠蛋白型，因为在采用此等方法分析时，已发现其等具有相同性质。结果无法正确判别Hb G-Makassar和HbS，并被本领域技术人员彼此混淆，因而造成对镰状细胞病(SCD)的误判。

“杂交”意指氢键结，其可为互补核碱基之间的华生-克里克(Watson-Crick)、胡斯坦(Hoogsteen)或反向胡斯坦氢键结。例如：腺嘌呤及胸腺嘧啶为透过形成氢键配对的互补核碱基。

术语“碱基修复的抑制剂”或“IBR”是指可以抑制核酸修复酶活性，例如：碱基切除修复(BER)酶的蛋白质。有些实施方案中，IBR为肌苷碱基切除修复的抑制剂。此等碱基修复的抑制剂实例包括APE1、Endo III、Endo IV、Endo V、Endo VIII、Fpg、hOGGl、hNEILl、T7Endol、T4PDG、UDG、hSMUGl、及hAAG的抑制剂。有些实施方案中，IBR为Endo V或hAAG的抑制剂。有些实施方案中，IBR为催化性失活EndoV或催化性失活hAAG。有些实施方案中，碱基修复抑制剂为Endo V或hAAG的抑制剂。有些实施方案中，碱基修复抑制剂为催化性失活EndoV或催化性失活hAAG。

有些实施方案中，碱基修复抑制剂为尿嘧啶醣苷酶抑制剂(UGI)。UGI是指可以抑制尿嘧啶-DNA醣苷酶碱基切除修复酶的蛋白质。有些实施方案中，UGI结构域包含野生型UGI或野生型UGI的片段。有些实施方案中，本文提供的UGI蛋白质包括UGI的片段及和UGI或UGI片段同源的蛋白质。有些实施方案中，碱基修复抑制剂为肌苷碱基切除修复的抑制剂。有些实施方案中，碱基修复抑制剂为“催化性失活肌苷特异性核酸酶”或“灭活肌苷特异性核酸酶”。在不受任何特定理论限制下，催化性失活肌苷醣苷酶(例如：烷基腺嘌呤醣苷酶(AAG))可以结合肌苷，但不会产生无碱基位点或排除肌苷，由此在立体上封阻新形成的肌苷部份体免于DNA损伤/修复机转。有些实施方案中，催化性失活肌苷特异性核酸酶可以结合核酸中的肌苷，但不会裂解核酸。催化性失活肌苷特异性核酸酶的非限制性实例包括催化性失活烷基腺苷醣苷酶(AAG核酸酶)，例如：来自人类，及催化性失活内切核酸酶V(EndoV核酸酶)，例如：来自大肠杆菌(E.coli)。有些实施方案中，催化性失活AAG核酸酶包含E125Q突变或在另一种AAG核酸酶中的对应突变。

“提高”意指正向改变至少10％、25％、50％、75％、或100％。

“内含肽(内含肽)“为在称为蛋白质剪接的过程中，可以自我切除及利用肽键接合其余片段(外显肽)的蛋白质的片段。内含肽亦称为“蛋白质内含子”。内含肽自我切除及接合其余蛋白质部份的过程在本文中称为“蛋白质剪接”或“内含肽-介导蛋白质剪接”。有些实施方案中，前体蛋白质内含肽(在内含肽-介导蛋白质剪接的前的包含内含肽的蛋白质)来自两个基因。此等内含肽在本文中称为分割内含肽(split intein)(例如：分割内含肽-N及分割内含肽-C)。例如：在蓝绿菌(cyanobacteria)中，DnaE(是DNA聚合酶III的催化性亚单位)是由两个分开基因dnaE-n和dnaE-c编码。由dnaE-n基因编码的内含肽在本文中称为“内含肽-N”。由dnaE-c基因编码的内含肽在本文中称为“内含肽-C”。

亦可采用其他内含肽系统。例如：基于dnaE内含肽的合成性内含肽：Cfa-N(例如：分割内含肽-N)和Cfa-C(例如：分割内含肽-C)的成对内含肽已有说明(例如：Stevens等人，J Am Chem Soc.2016Feb.24；138(7):2162-5，已以引用方式并入本文中)。根据本发明可使用的成对内含肽的非限制性实例包括：Cfa DnaE内含肽、Ssp GyrB内含肽、Ssp DnaX内含肽、Ter DnaE3内含肽、Ter ThyX内含肽、Rma DnaB内含肽及Cne Prp8内含肽(例如：如说明于美国专利案案号8,394,604，其已以引用的方式并入本文中)。

提供内含肽的核苷酸及氨基酸序列实例。

DnaE内含肽-N DNA：

TGCCTGTCATACGAAACCGAGATACTGACAGTAGAATATGGCCTTCTGCCAATCGGGAAGATTGTGGAGAAACGGATAGAATGCACAGTTTACTCTGTCGATAACAATGGTAACATTTATACTCAGCCAGTTGCCCAGTGGCACGACCGGGGAGAGCAGGAAGTATTCGAATACTGTCTGGAGGATGGAAGTCTCATTAGGGCCACTAAGGACCACAAATTTATGACAGTCGATGGCCAGATGCTGCCTATAGACGAAATCTTTGAGCGAGAGTTGGACCTCATGCGAGTTGACAACCTTCCTAAT

DnaE内含肽-N蛋白质:

CLSYETEILTVEYGLLPIGKIVEKRIECTVYSVDNNGNIYTQPVAQWHDRGEQEVFEYCLEDGSLIRATKDHKFMTVDGQMLPIDEIFERELDLMRVDNLPN

DnaE内含肽-C DNA:

ATGATCAAGATAGCTACAAGGAAGTATCTTGGCAAACAAAACGTTTATGATATTGGAGTCGAAAGAGATCACAACTTTGCTCTGAAGAACGGATTCATAGCTTCTAAT

内含肽-C：MIKIATRKYLGKQNVYDIGVERDHNFALKNGFIASN

Cfa-N DNA：

TGCCTGTCTTATGATACCGAGATACTTACCGTTGAATATGGCTTCTTGCCTATTGGAAAGATTGTCGAAGAGAGAATTGAATGCACAGTATATACTGTAGACAAGAATGGTTTCGTTTACACACAGCCCATTGCTCAATGGCACAATCGCGGCGAACAAGAAGTATTTGAGTACTGTCTCGAGGATGGAAGCATCATACGAGCAACTAAAGATCATAAATTCATGACCACTGACGGGCAGATGTTGCCAATAGATGAGATATTCGAGCGGGGCTTGGATCTCAAACAAGTGGATGGATTGCCA

Cfa-N蛋白质：

CLSYDTEILTVEYGFLPIGKIVEERIECTVYTVDKNGFVYTQPIAQWHNRGEQEVFEYCLEDGSIIRATKDHKFMTTDGQMLPIDEIFERGLDLKQVDGLP

Cfa-C DNA：

ATGAAGAGGACTGCCGATGGATCAGAGTTTGAATCTCCCAAGAAGAAGAGGAAAGTAAAGATAATATCTCGAAAAAGTCTTGGTACCCAAAATGTCTATGATATTGGAGTGGAGAAAGATCACAACTTCCTTCTCAAGAACGGTCTCGTAGCCAGCAAC

Cfa-C蛋白质：

MKRTADGSEFESPKKKRKVKIISRKSLGTQNVYDIGVEKDHNFLLKN GLVASN

内含肽-N和内含肽-C可能分别和分割Cas9的N末端部份及分割Cas9的C末端部份融合，供接合分割Cas9的N末端部份和分割Cas9的C末端部份。例如：有些实施方案中，内含肽-N是和分割Cas9的N末端部份的C末端融合，亦即形成结构式N--[分割Cas9的N末端部份]-[内含肽-N]--C。有些实施方案中，内含肽-C是和分割Cas9的C末端部份的N末端融合，亦即形成结构式N-[内含肽-C]--[分割Cas9的C末端部份]-C。接合内含肽所要融合的蛋白质(例如：分割Cas9)的内含肽-介导蛋白质剪接的机转为本领域已知的，例如：说明于Shah等人，Chem Sci.2014；5(1):446-461，其已以引用的方式并入本文中。设计及使用内含肽的方法是本领域已知的且说明于例如：WO2014004336、WO2017132580、US20150344549、及US20180127780，其等内容已分别以全文引用方式并入本文中。

术语“单离”、“纯化”、或“生物上纯的”是指从组份中排除各种不同程度通常天然伴随出现的材料。“单离”代表从原始来源或环境的分离程度。“纯化”代表高于单离的分离程度。“纯化”或“生物上纯的”蛋白质是充份排除其他材料，以使任何杂质无法实质影响蛋白质的生物性质或导致其他不良后果。亦即本发明核酸或肽当由重组DNA技术产生时，若实质上没有细胞材料、病毒材料、或培养基，或当由化学合成时没有化学前体或其他化学物质，则本发明核酸或肽是已纯化。纯度和同源性通常采用分析化学技术决定，例如：聚丙烯酰氨凝胶电泳或高效液相层析法。术语“纯化”可代表核酸或蛋白质在电泳凝胶上产生基本上单一条带。可经过例如：磷酸化或醣基化修饰的蛋白质，不同修饰可产生不同的单离蛋白质，可以分离纯化。

“单离的多核苷酸”意指侧接基因的核酸(例如：DNA)已排除衍生本发明核酸分子的生物体的天然基因体中的基因。因此所述术语包括例如：已纳入载体中；纳入自主性复制质粒或病毒中；或纳入原核生物或真核生物的基因体DNA中的重组DNA；或其等和其他序列呈彼此分别独立的分开分子(例如：由PCR或限制内切核酸酶消解产生的cDNA或基因体或cDNA片段)。此外，所述术语包括由DNA分子转录的RNA分子，及成为编码额外多肽序列的杂交基因一部份的重组DNA。

“单离的多肽”意指已从天然伴随的组份中分离的本发明多肽。通常，当多肽已排除至少60％重量比的天然相联的蛋白质及天然有机分子时，则是已单离。较佳是所述剂为至少75％，更佳是至少90％，及最佳是至少99％重量比的本发明多肽。本发明的单离多肽可以通过例如：从天然来源萃取、由编码此等多肽的重组核酸的表达；或由化学合成蛋白质制得。可采用任何适当方法，例如：管柱层析法、聚丙烯酰氨凝胶电泳、或HPLC分析法测定纯度。

本文所采用术语“连接子”可指共价连接子(例如：共价键)、非价连接子、化学基团、或连接两个分子或部份体的分子，例如：蛋白质复合物或核糖核蛋白复合物的两个组份，或融合蛋白的两个结构域，如，例如：多核苷酸可编程DNA结合结构域(例如：dCas9)及脱氨酶结构域(例如：腺苷脱氨酶、或腺苷脱氨酶及胞苷脱氨酶，例如：说明于PCT/US19/44935)。连接子可接合碱基编辑器系统的不同组份或组份的不同部份。例如：有些实施方案中，连接子可以接合多核苷酸可编程核苷酸结合结构域的向导多核苷酸结合结构域和脱氨酶的催化性结构域。有些实施方案中，连接子可接合CRISPR多肽和脱氨酶。有些实施方案中，连接子可接合Cas9和脱氨酶。有些实施方案中，连接子可接合dCas9和脱氨酶。有些实施方案中，连接子可接合nCas9和脱氨酶。有些实施方案中，连接子可接合向导多核苷酸和脱氨酶。有些实施方案中，连接子可接合碱基编辑器系统的脱氨组份和多核苷酸可编程核苷酸结合组份。有些实施方案中，连接子可接合碱基编辑器系统的脱氨组份的RNA-结合性部份和多核苷酸可编程核苷酸结合组份。有些实施方案中，连接子可接合碱基编辑器系统的脱氨组份的RNA-结合性部份和多核苷酸可编程核苷酸结合组份的RNA-结合性部份。连接子可以位在两个基团、分子、或其他部份体之间或和其等侧接，经由共价键或非共价交互作用彼此连结，因此连结此二者。有些实施方案中，连接子可为有机分子、基团、聚合物、或化学部份体。有些实施方案中，连接子可为多核苷酸。有些实施方案中，连接子可为DNA连接子。有些实施方案中，连接子可为RNA连接子。有些实施方案中，连接子可包含可以结合配体的适体。有些实施方案中，配体可为碳水化合物、肽、蛋白质、或核酸。有些实施方案中，连接子可包含衍生自核糖开关(riboswitch)的适体。衍生所述适体的核糖开关可以选自茶碱核糖开关、硫氨素焦磷酸(TPP)核糖开关、腺苷钴氨素(AdoCbl)核糖开关、S-腺苷甲硫氨酸(SAM)核糖开关、SAH核糖开关、黄素单核苷酸(FMN)核糖开关、四氢叶酸核糖开关、离氨酸核糖开关、甘氨酸核糖开关、嘌呤核糖开关、GlmS核糖开关、或Q核苷前体(pre-queosine 1)(PreQ1)核糖开关。有些实施方案中，连接子可包含和多肽或蛋白质结构域(如：多肽配体)结合的适体。有些实施方案中，多肽配体可为K同源(KH)结构域、MS2外套蛋白质结构域、PP7外套蛋白质结构域、SfMu Com外套蛋白质结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白质、端粒酶Sm7结合基序和Sm7蛋白质、或RNA辨识基序。有些实施方案中，多肽配体可为碱基编辑器系统组份的一部份。例如：核碱基编辑组份可包含脱氨酶结构域和RNA辨识基序。

有些实施方案中，连接子可为一个氨基酸或复数个氨基酸(例如：肽或蛋白质)。有些实施方案中，连接子可为约5-100个氨基酸的长度，例如：约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、20-30、30-40、40-50、50-60、60-70、70-80、80-90、或90-100个氨基酸的长度。有些实施方案中，连接子可为约100-150、150-200、200-250、250-300、300-350、350-400、400-450、或450-500个氨基酸的长度。亦考虑较长或较短的连接子。

有些实施方案中，连接子接合RNA-可编程核酸酶的gRNA结合结构域(包括Cas9核酸酶结构域)和核酸编辑蛋白质(例如：腺苷脱氨酶)的催化性结构域。有些实施方案中，连接子接合dCas9和核酸编辑蛋白质。例如：连接子位在两个基团、分子或其他部份体之间或和其等侧接，并利用共价键彼此连结，因此连结此二者。有些实施方案中，连接子为一个氨基酸或复数个氨基酸(例如：肽或蛋白质)。有些实施方案中，连接子为有机分子、基团、聚合物、或化学部份体。有些实施方案中，连接子为5-200个氨基酸的长度，例如：5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、35、45、50、55、60、60、65、70、70、75、80、85、90、90、95、100、101、102、103、104、105、110、120、130、140、150、160、175、180、190、或200个氨基酸的长度。亦考虑较长或较短的连接子。

有些实施方案中，核碱基编辑器的结构域是利用包含以下氨基酸序列的连接子融合：SGGSSGSETPGTSESATPESSGGS，SGGSSGGSSGSETPGTSESATPESSGGSSGGS，或GGSGGSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSP TSTEEGTSTE PSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATSGGSGGS。

有些实施方案中，核碱基编辑器的结构域是利用包含氨基酸序列SGSETPGTSESATPES的连接子融合，其亦可称为XTEN连接子。有些实施方案中，连接子包含氨基酸序列SGGS。有些实施方案中，连接子包含(SGGS)_n、(GGGS)_n、(GGGGS)_n、(G)_n、(EAAAK)_n、(GGS)_n、SGSETPGTSESATPES、或(XP)_n基序，或此等的任何组合，其中n分别独立为1至30之间的整数，及其中X为任何氨基酸。有些实施方案中，n为1、2、3、4、5、6、7、8、9、10、11、12、13、14、或15。

有些实施方案中，连接子为24个氨基酸的长度。有些实施方案中，连接子包含氨基酸序列SGGSSGGSSGSETPGTSESATPES。有些实施方案中，连接子为40个氨基酸的长度。有些实施方案中，连接子包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGS。有些实施方案中，连接子为64个氨基酸的长度。有些实施方案中，连接子包含氨基酸序列

SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGSSGSETPGTSESATPESSGGS SGGS。有些实施方案中，连接子为92个氨基酸的长度。有些实施方案中，连接子包含氨基酸序列PGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSA PGTSTEPSEGSAPGTSESATPESGPGSEPATS。

“标记物”意指在和疾病或疾患相关的的表达程度或活性上具有修改的任何蛋白质或多核苷酸。

本文所采用术语“突变”是指在例如：核酸或氨基酸序列的序列内的残基经另一个残基取代，或经缺失或在序列内嵌插一个或多个残基。本文说明突变时，通常先指明原始残基，接着为所述残基在所述序列内的位置，然后指明新取代的残基。本文所提供制造氨基酸取代(突变)的各种不同方法是本领域已知的，并提供于例如：Green和Sambrook的Molecular Cloning:A Laboratory Manual(第4版，Cold Spring Harbor LaboratoryPress,Cold Spring Harbor,N.Y.(2012))。有些实施方案中，本发明的碱基编辑器可以在核酸(例如：个体基因体内的核酸)中有效产生“预期突变(intended mutation)”，如：点突变，不会产生显著数量的非预期突变，如：非预期点突变。有些实施方案中，预期突变为由和向导多核苷酸(例如：gRNA)结合的特异性碱基编辑器(例如：腺苷碱基编辑器)产生的突变，其明确设计产生预期突变。

通常，于序列(例如：本文说明的氨基酸序列)中制造或判别的突变是依据和参考(或野生型)序列，亦即不包含突变的序列的关是来编号。本领域技术人员很容易了解如何测定氨基酸和核酸序列中相对于参考序列的突变位置。

术语“非保守性突变”涉及不同群组之间的氨基酸取代，例如：由离氨酸取代色氨酸，或由苯基丙氨酸取代丝氨酸，等等。此例中，非保守性氨基酸取代较佳是不会干扰或抑制功能性变体的生物活性。非保守性氨基酸取代可以加强功能性变体的生物活性，使得功能性变体的生物活性比野生型蛋白质提高。

术语“核定位序列”、“核定位讯号”、或“NLS”是指促进蛋白质输入至细胞核内的氨基酸序列。核定位序列是本领域已知的，说明于例如：Plank等人，2000年11月23日申请的国际PCT申请案PCT/EP2000/011690，于2001年5月31日公告为WO/2001/038547，其等有关核定位序列实例的揭示内容已以引用方式全文并入本文中。其他实施方案中，NLS为例如：由Koblan等人在Nature Biotech.2018，doi:10.1038/nbt.4172中说明的优化NLS。有些实施方案中，NLS包含氨基酸序列KRTADGSEFESPKKKRKV、KRPAATKKAGQAKKKK、KKTELQTTNAENKTKKL、KRGINDRNFWRGENGRKTR、RKSGKIAAIVVKRPRK、PKKKRKV、或MDSLLMNRRKFLYQFKNVRWAKGRRETYLC。

本文所采用术语“核酸”和“核酸分子”是指包含核碱基和酸性部份体(例如：核苷、核苷酸、或核苷酸聚合物)的化合物。通常，聚合性核酸(例如：包含3个或更多个核苷酸的核酸分子)为线性分子，其中相邻核苷酸利用磷酸二酯链结彼此连接。有些实施方案中，“核酸”是指个别核酸残基(例如：核苷酸和/或核苷)。有些实施方案中，“核酸”是指包含三个或更多个个别核苷酸残基的寡核苷酸链。本文所采用术语“寡核苷酸”和“多核苷酸”可以交换使用，是指核苷酸的聚合物(例如：一条至少三个核苷酸)。有些实施方案中，“核酸”包括RNA及单链和/或双链DNA。在例如：基因体、转录本、mRNA、tRNA、rRNA、siRNA、snRNA、质粒、黏质粒、染色体、染色单体、或其他天然发生的核酸分子的背景下，核酸可为天然发生。另一方面，核酸分子可为非天然发生的分子，例如：重组DNA或RNA、人造染色体、工程化基因体、或其片段、或合成性DNA、RNA、DNA/RNA杂交体，或包括非天然发生的核苷酸或核苷。此外，术语“核酸”、“DNA”、“RNA”、和/或类似术语包括核酸类似物，例如：具有非磷酸二酯主干的类似物。核酸可从天然来源纯化，使用重组表达系统制造，及可视需要纯化、化学合成，等等。若适当时，例如：以化学合成的分子为例，核酸可包含核苷类似物，如：具有化学修饰碱基或糖，及主干修饰的类似物。核酸序列是呈5′至3′的方向，除非另有其他说明。有些实施方案中，核酸为或包含天然核苷(例如：腺苷、胸苷、鸟苷、胞苷、尿苷、去氧腺苷、去氧胸苷、去氧鸟苷、及去氧胞苷)；核苷类似物(例如：2-氨基腺苷、2-硫代胸苷、肌苷、吡咯并-嘧啶、3-甲基腺苷、5-甲基胞苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基-尿苷、C5-丙炔基-胞苷、C5-甲基胞苷、2-氨基腺苷、7-去氮杂腺苷、7-去氮杂鸟苷、8-侧氧基腺苷、8-侧氧基鸟苷、O(6)-甲基鸟嘌呤、及2硫代胞苷)；经化学修饰碱基；经生物修饰碱基(例如：甲基化碱基)；嵌在中间的碱基；经修饰糖类(2′-例如：氟核糖、核糖、2′-去氧核糖、阿拉伯糖、及己糖)；及/或经修饰磷酸酯基(例如：硫代磷酸酯及5′-N-亚氨基磷酸酯链结)。

术语“核酸可编程DNA结合性蛋白质”或“napDNAbp”可和“多核苷酸可编程核苷酸结合结构域”交换使用，是指和核酸(例如：DNA或RNA)相联的蛋白质，如：向导napDNAbp至特异性核酸序列的向导核酸或向导多核苷酸(例如：gRNA)。有些实施方案中，多核苷酸可编程核苷酸结合结构域为多核苷酸可编程DNA结合结构域。有些实施方案中，多核苷酸可编程核苷酸结合结构域为多核苷酸可编程RNA结合结构域。有些实施方案中，多核苷酸可编程核苷酸结合结构域为Cas9蛋白质。Cas9蛋白质可和向导Cas9蛋白质至和所述向导RNA互补的特异性DNA序列的向导RNA相联。有些实施方案中，napDNAbp为Cas9结构域，例如：核酸酶活性Cas9、Cas9切口酶(nCas9)、或核酸酶失活Cas9(dCas9)。核酸可编程DNA结合性蛋白质的非限制性实例包括Cas9(例如：dCas9及nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、及Cas12i。Cas酶的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(亦称为Csn1或Csx12)、Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csx11、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、第II型Cas效应蛋白质、第V型Cas效应蛋白质、第VI型Cas效应蛋白质、CARF、DinG、其同源物、或其经修饰或工程化型；其他核酸可编程DNA结合性蛋白质虽然可能未明确列在本发明中，但亦在本发明范围内。参见例如：Makarova等人“Classificationand Nomenclature of CRISPR-Cas Systems:Where from Here？“CRISPR J.2018Oct；1:325-336.doi:10.1089/crispr.2018.0033；Yan等人“Functionally diverse type VCRISPR-Cas systems“Science.2019Jan 4；363(6422):88-91.doi:10.1126/science.aav7271，其等完整内容已分别以引用方式并入本文中。

在本文中交换使用的术语“核碱基”、“含氮碱基”或“碱基”是指形成核苷的含氮生物化合物，其进而成为核苷酸的组份。核碱基形成碱基对及一个堆迭在另一个上的能力直接形成长链螺旋结构，如：核糖核酸(RNA)及去氧核糖核酸(DNA)。五种核碱基–腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)、及尿嘧啶(U)–称为原始或典型。腺嘌呤及鸟嘌呤是衍生自嘌呤，及胞嘧啶、尿嘧啶、和胸腺嘧啶是衍生自嘧啶。DNA及RNA亦可包含其他经修饰(非原始)碱基。经修饰核碱基的非限制性实例包括次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤、5,6-二氢尿嘧啶、5-甲基胞嘧啶(m5C)、及5-羟甲基胞嘧啶。次黄嘌呤和黄嘌呤可透过存在的突变原产生，此二者均透过脱氨产生(以羰基置换氨基)。次黄嘌呤可由腺嘌呤经过修饰。黄嘌呤可由鸟嘌呤经过修饰。尿嘧啶可来自胞嘧啶的脱氨。“核苷”是由核碱基和五碳糖(核糖或去氧核糖)组成。核苷实例包括腺苷、鸟苷、尿苷、胞苷、5-甲基尿苷(m5U)、去氧腺苷、去氧鸟苷、胸苷、去氧尿苷、及去氧胞苷。具有经修饰核碱基的核苷实例包括肌苷(I)、黄苷(X)、7-甲基鸟苷(m7G)、二氢尿苷(D)、5-甲基胞苷(m5C)、及假尿苷(Ψ)。“核苷酸”是由核碱基、五碳糖(核糖或去氧核糖)、和至少一个磷酸酯基组成。

本文所采用术语“核碱基编辑结构域”或“核碱基编辑蛋白质”是指催化RNA或DNA中核碱基修饰的蛋白质或酶，如：胞嘧啶(或胞苷)形成尿嘧啶(或尿苷)或胸腺嘧啶(或胸苷)，及腺嘌呤(或腺苷)形成次黄嘌呤(或肌苷)的脱氨，及添加及插入非模板核苷酸。有些实施方案中，核碱基编辑结构域为脱氨酶结构域(例如：腺嘌呤脱氨酶或腺苷脱氨酶；或胞苷脱氨酶或胞嘧啶脱氨酶)。有些实施方案中，核碱基编辑结构域为超过一个脱氨酶结构域(例如：腺嘌呤脱氨酶、或腺苷脱氨酶、及胞苷或胞嘧啶脱氨酶，例如：如说明于PCT/US19/44935)。有些实施方案中，核碱基编辑结构域可为天然发生的核碱基编辑结构域。有些实施方案中，核碱基编辑结构域可为来自天然发生的核碱基编辑结构域的工程化或演化的核碱基编辑结构域。核碱基编辑结构域来自任何生物体，如：细菌、人类、黑猩猩、大猩猩、猴、乳牛、狗、大鼠、或小鼠。

本文在如“取得剂”中所采用“取得”包括合成、购买、产生、制备、或其他获得剂的方式。

本文所采用“患者”或“个体”是指经诊断罹患、患有、处于患有或发展风险、易感、或疑似患有或发展疾病或疾患的哺乳动物个体或个体。有些实施方案中，术语“患者”是指发展出疾病或疾患的可能性高于平均值的哺乳动物个体。患者实例可为人类、非人类灵长类、猫、狗、猪、牛、猫、马、骆驼、羊驼、山羊、绵羊、囓齿类(例如：小鼠、兔、大鼠、或天竺鼠)及其他可因本文所揭示疗法而受益的哺乳动物。人类患者实例可为男性和/或女性。

“有此需要的患者”或“有此需要的个体”在本文中是指经诊断罹患、处于风险或患有、先前已判断患有、或疑似患有疾病或疾患的患者。

数据“致病性突变”、“致病性变体”、“导致疾病的突变”、“导致疾病的变体”、“有害突变”、或“素因性突变”是指提高个体对某种疾病或疾患的易感性或素因性的遗传修改或突变。有些实施方案中，致病性突变在由基因编码的蛋白质中，包含至少一种野生型氨基酸被至少一种致病性氨基酸取代。

术语“蛋白质”、“肽”、“多肽”及其文法同等物是在本文中交换使用，且是指氨基酸残基利用肽(酰氨)键连接在一起的聚合物。所述等术语是指蛋白质、肽、或任何大小、结构、或功能的多肽。通常，蛋白质、肽、或多肽的长度为至少三个氨基酸。蛋白质、肽、或多肽是指个别蛋白质或蛋白质的集合。蛋白质、肽、或多肽中一个或多个氨基酸可经过修饰，例如：添加化学实体，如：碳水化合物基团、羟基、磷酸酯基、法尼基(farnesyl group)、异法尼基、脂肪酸基团、供接合、官能化、或其他修饰，等等的连接子。蛋白质、肽、或多肽亦可为单一分子或可为多分子复合物。蛋白质、肽、或多肽可为仅天然发生蛋白质或肽的片段。蛋白质、肽、或多肽可为天然发生、重组、或合成，或其任何组合。本文所采用术语“融合蛋白”是指包含来自至少两种不同蛋白质的蛋白质结构域的杂交多肽。其中一种蛋白质可以位在所述融合蛋白的氨基-末端(N末端)部份或在羧基-末端(C末端)蛋白质，因此分别形成氨基-末端融合蛋白或羧基-末端融合蛋白。蛋白质可以包含不同结构域，例如：核酸结合结构域(例如：Cas9的gRNA结合结构域，其指挥蛋白质结合至靶位点)及核酸裂解结构域、或核酸编辑蛋白质的催化性结构域。有些实施方案中，蛋白质包含蛋白质性部份，例如：构成核酸结合结构域的氨基酸序列，及有机化合物，例如：可作为核酸裂解剂的化合物。有些实施方案中，蛋白质为含核酸或和核酸(例如：RNA或DNA)相联的复合物。本文所提供任何蛋白质可采用相关技艺习知的任何方法制造。例如：本文所提供蛋白质可通过重组蛋白质表达及纯化后产生，其尤其适合包含肽连接子的融合蛋白。重组蛋白质表达及纯化的方法是习知者，及包括彼等说明于Green及Sambrook的Molecular Cloning:A Laboratory Manual(第4版，ColdSpring Harbor Laboratory Press,Cold Spring Harbor,N.Y.(2012))，其完整内容已以引用方式并入本文中。

本文所揭示多肽和蛋白质(包括其功能性部份及功能性变体)可改包含合成性氨基酸置换一个或多个天然发生氨基酸。此等合成性氨基酸是本领域已知的，且包括例如：氨基环己烷羧酸、正白氨酸、α-氨基正癸酸、高碳丝氨酸、S-乙酰基氨基甲基-办胱氨酸、反式-3-及反式-4-羟基脯氨酸、4-氨基苯基丙氨酸、4-硝基苯基丙氨酸、4-氯苯基丙氨酸、4-羧基苯基丙氨酸、β-苯基丝氨酸、β-羟基苯基丙氨酸、苯基甘氨酸、α-萘基丙氨酸、环己基丙氨酸、环己基甘氨酸、吲哚啉-2-羧酸、1,2,3,4-四氢异喹啉-3-羧酸、氨基丙二酸、氨基丙二酸单酰氨、N’-苯甲基-N’-甲基-离氨酸、N’,N’-二苯甲基-离氨酸、6-羟基离氨酸、鸟氨酸、α-氨基环戊烷羧酸、α-氨基环己烷羧酸、α-氨基环庚烷羧酸、α-(2-氨基-2-降冰片烷)-羧酸、α,γ-二氨基丁酸、α,β-二氨基丙酸、高碳苯基丙氨酸、及α-第三丁基甘氨酸。多肽和蛋白质可和多肽构建体的一个或多个氨基酸的转译后修饰相联。转译后修饰的非限制性实例包括磷酸化、酰化(包括乙酰化和甲酰化)、糖基化(包括N-连接及O-连接)、酰氨化、羟基化、烷基化(包括甲基化及乙基化)、泛素化、添加吡咯啶酮羧酸、形成二硫桥键、硫酸化、豆蔻酰基化、棕榈酰基化、异戊二烯化、法尼基化、香叶基化、糖基磷脂酰肌醇化、硫辛酸化及碘化。

本文在蛋白质或核酸的背景下所采用术语“重组”是指不会天然发生的蛋白质或核酸，但为人类工程化产物。例如：有些实施方案中，重组蛋白质或核酸分子包含的氨基酸或核苷酸序列是包含至少一个、至少两个、至少三个、至少四个、至少五个、至少六个、或至少七个相对于任何天然发生序列的突变。

“降低”意指负向修改至少10％、25％、50％、75％、或100％。

“参考物”意指标题或对照条件。一项实施方案中，参考物为野生型或健康细胞。其他实施方案及没有限制下，参考物为未经过试验条件的未处理细胞、或经过安慰剂或生理食盐水、介质、缓冲液、和/或不带有所关注多核苷酸的对照载体处理的细胞。

“参考序列”是用为序列比对基础的指定序列。参考序列可为特定序列的子集或全部；例如：全长cDNA或基因序列的一节段、或完整cDNA或基因序列。针对多肽，参考多肽序列的长度通常为至少约16个氨基酸、至少约20个氨基酸，更佳为至少约25个氨基酸，及甚至更佳为约35个氨基酸、约50个氨基酸、或约100个氨基酸。针对核酸，参考核酸序列的长度通常为至少约50个核苷酸、至少约60个核苷酸、至少约75核苷酸、及约100个核苷酸、或约300个核苷酸或其附近或其之间任何整数。有些实施方案中，参考序列为所关注蛋白质的野生型序列。其他实施方案中，参考序列为编码野生型蛋白质的多核苷酸序列。

术语“RNA-可编程核酸酶”及“RNA-向导核酸酶”是和一个或多个不为裂解靶的RNA一起使用(例如：结合或相联)。有些实施方案中，当和RNA复合时，所述RNA-可编程核酸酶可称为核酸酶：RNA复合物。通常，结合的RNA称为向导RNA(gRNA)。gRNA可呈两个或更多个RNA的复合物，或呈单一RNA分子。呈单一RNA分子的gRNA可称为单一-向导RNA(sgRNA)，但“gRNA”可和呈单一分子或呈两个或更多个分子复合物而称为向导RNA交换使用。通常，呈单一RNA物种的gRNA包含两个结构域：(1)和靶核酸有共通同源性(例如：并主导Cas9复合物结合至靶)的结构域；及(2)会和Cas9蛋白质结合的结构域。有些实施方案中，结构域(2)对应于已知为tracrRNA的序列，且包含茎-环结构。例如：有些实施方案中，结构域(2)是和Jinek等人的Science337:816-821(2012)所提供的tracrRNA一致或同源，其完整内容已以引用方式并入本文中。其他gRNA实例(例如：彼等包括结构域2者)可参见2013年9月6日申请的美国临时专利申请案U.S.S.N.61/874,682，标题“Switchable Cas9 Nucleases and UsesThereof”，及2013年9月6日申请的美国临时专利申请案U.S.S.N.61/874,746，标题“Delivery System For Functional Nucleases”，其等完整内容已分别以引用方式并入本文中。有些实施方案中，gRNA包含两个或更多个结构域(1)和(2)，及可称为“延长gRNA”。例如：延长gRNA将会例如：结合两个或更多个Cas9蛋白质并在两个或更多个独立区结合靶核酸，如本文所说明。gRNA包含补充靶位点的核苷酸序列，其介导核酸酶/RNA复合物和所述靶位点的结合，提供核酸酶：RNA复合物的序列特异性。

有些实施方案中，RNA-可编程核酸酶为(CRISPR-相关的系统)Cas9内切核酸酶，例如：来自化脓性链球菌(Streptococcus pyogenes)的Cas9(Csnl)(参见例如：“Completegenome sequence of an Ml strain of Streptococcus pyogenes”，Ferretti J.J.,McShan W.M.,Ajdic D.J.,Savic D.J.,Savic G.,Lyon K.,Primeaux C,Sezate S.,Suvorov A.N.,Kenton S.,Lai H.S.,Lin S.P.,Qian Y.,Jia H.G.,Najar F.Z.,Ren Q.,Zhu H.,Song L.,White J.,Yuan X.,Clifton S.W.,Roe B.A.,McLaughlin R.E.,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001)；“CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III”，Deltcheva E.,Chylinski K.,SharmaCM.,Gonzales K.,Chao Y.,Pirzada Z.A.,Eckert M.R.,Vogel J.,Charpentier E.,Nature 471:602-607(2011)。

由于RNA-可编程核酸酶(例如：Cas9)利用RNA：DNA杂交法来靶向DNA裂解位点，因此此等蛋白质原则上可以被向导RNA指定的任何序列靶向。使用RNA-可编程核酸酶，如：Cas9进行位点特异性裂解(例如：以修饰基因体)的方法是本领域已知的(参见例如：Cong,L.等人，Multiplex genome engineering using CRISPR/Cas systems.Science339,819-823(2013)；Mali,P.等人，RNA-guided human genome engineering via Cas9.Science339,823-826(2013)；Hwang,W.Y.等人，Efficient genome editing in zebrafish usinga CRISPR-Cas system.Naturebiotechnology 31,227-229(2013)；Jinek,M.等人，RNA-programmed genome editing in human cells.eLife 2,e00471(2013)；Dicarlo,J.E.等人，Genome engineering in Saccharomyces cerevisiae using CRISPR-Cassystems.Nucleic acids research(2013)；Jiang,W.等人，RNA-guided editing ofbacterial genomes using CRISPR-Cas systems.Naturebiotechnology 31,233-239(2013)；其等完整内容已分别以引用方式并入本文中)。

术语“单核苷酸多态性(SNP)”为发生在基因体中特定位置的单一核苷酸的变化，其中每种变化在族群中出现达有些显著程度(例如：>1％)。例如：在人类基因体中特定碱基位置，C核苷酸可以出现在大多数个体中，但少数个体中的所述位置则被A占据。此表示在此特定位置有SNP，两个可能的核苷酸变化C或A则称为此位置的对偶基因。SNP即为对疾病感受性的基本差异。患病的严重度及我们的身体对治疗的反应亦为遗传变化的表征。SNP可以落在基因编码区内、非基因编码区内、或在基因间区内(基因之间的区内)。有些实施方案中，因为遗传字码简并，编码序列内的SNP不一定会改变所制造蛋白质的氨基酸序列。编码区内的SNP有两种：同义和非同义SNP。同义SNP不会影响蛋白质序列，而非同义SNP会改变蛋白质的氨基酸序列。非同义SNP有两种：错义和无义。不在蛋白质编码区的SNP仍会影响基因剪接、转录因子结合、信使者RNA降解、或非编码RNA的序列。受到这种SNP影响的基因表达称为eSNP(表达SNP)且可在所述基因的上游或下游。单一核苷酸变体(SNV)为单一核苷酸的变化，没有任何频率限制并可以来自身体细胞。身体单一核苷酸变化亦可称为单一核苷酸修改。

“特异性结合”意指会辨识及结合本发明多肽和/或核酸分子，但实质上无法辨识及结合样本(例如：生物样本)中其他分子的核酸分子、多肽、或其复合物(例如：核酸可编程DNA结合结构域和向导核酸)、化合物、或分子。

适用于本发明方法的核酸分子包括编码本发明多肽或其片段的任何核酸分子。此等核酸分子不需要和内因性核酸序列为100％一致，但通常具有实质一致性。和内因性序列具有“实质一致性”的多核苷酸通常可以和双链核酸分子的至少一链杂交。适用于本发明方法的核酸分子包括编码本发明多肽或其片段的任何核酸分子。此等核酸分子不需要和内因性核酸序列为100％，但通常具有实质一致性。对内因性序列具有“实质一致性”的多核苷酸通常可以和双链核酸分子的至少一链杂交。“杂交”意指在互补多核苷酸序列(例如：本文说明的基因)、或其部份之间，在各种不同严苛条件下，配对形成双链分子(参见例如：Wahl,G.M.及S.L.Berger(1987)Methods Enzymol.152:399；Kimmel,A.R.(1987)MethodsEnzymol.152:507)。

例如：严苛盐浓度通常低于约750mM NaCl及75mM柠檬酸三钠，较佳低于约500mMNaCl及50mM柠檬酸三钠，及更佳低于约250mM NaCl及25mM柠檬酸三钠。可在没有有机溶剂(例如：甲酰氨)下，得到低严苛性杂交法，而高严苛性杂交法则可在至少约35％甲酰氨的存在下达成，及更佳为至少约50％甲酰氨。严苛温度条件通常包括至少约30℃的温度，更佳为至少约37℃，及最佳为至少约42℃。变化的其他参数，如：杂交时间、清洁剂(例如：十二烷基硫酸钠(SDS))浓度、及载体DNA的纳入或排除均是彼等本领域技术人员习知。各种不同严苛性程度可依需要组合此等各种不同条件来达成。其中一项实施方案的杂交法是在30℃下，在750mM NaCl、75mM柠檬酸三钠、及1％ SDS中进行。另一项实施方案中，杂交法将在37℃下，在500mM NaCl、50mM柠檬酸三钠、1％ SDS、35％甲酰氨、及100μg/ml变性鲑鱼精子DNA(ssDNA)中进行。另一项实施方案中，杂交法将在42℃下，在250mM NaCl、25mM柠檬酸三钠、1％ SDS、50％甲酰氨、及200μg/ml ssDNA中进行。适用于此等条件的变化是本领域技术人员通常理解者。

对大多数用途，杂交法之后的洗涤步骤亦随严苛性变化。洗涤严苛性条件可以由盐浓度及温度来界定。如上述，可以通过降低盐浓度或提高温度来提升洗涤严苛性。例如：洗涤步骤的严苛盐浓度较佳是低于约30mM NaCl及3mM柠檬酸三钠，及最佳是低于约15mMNaCl及1.5mM柠檬酸三钠。洗涤步骤的严苛温度条件一般包括至少约25℃，更佳为至少约42℃，及甚至更佳为至少约68℃。一项实施方案中，洗涤步骤将在25℃下，在30mM NaCl、3mM柠檬酸三钠、及0.1％ SDS中进行。更佳实施方案中，洗涤步骤将在42℃下，在15mM NaCl、1.5mM柠檬酸三钠、及0.1％ SDS中进行。更佳实施方案中，洗涤步骤将在68℃下，在15mMNaCl、1.5mM柠檬酸三钠、及0.1％ SDS中进行。此等条件的其他变化是本领域技术人员容易了解者。杂交温度是彼等本领域技术人员习知且说明于例如：Benton和Davis(Science196:180,1977)；Grunstein和Hogness(Proc.Natl.Acad.Sci.,USA 72:3961,1975)；Ausubel等人(Current Protocols in Molecular Biology,Wiley Interscience,NewYork,2001)；Berger和Kimmel(Guide to Molecular Cloning Techniques,1987,AcademicPress,New York)；及Sambrook等人，Molecular Cloning:A Laboratory Manual,ColdSpring Harbor Laboratory Press,New York。

“分割”意指分成两个或更多个片段。

“分割Cas9蛋白质”或“分割Cas9”是指Cas9蛋白质是呈由两个分开的核苷酸序列编码的N末端片段和C末端片段提供。对应于Cas9蛋白质的N末端部份及C末端部份的多肽可剪接成“再组成”Cas9蛋白质。特定实施方案中，Cas9蛋白质在蛋白质无序区内分成两个片段，例如：说明于Nishimasu等人，Cell,Volume 156,Issue 5,pp.935-949,2014；或说明于Jiang等人(2016)Science 351:867-871.PDB file:5F9R，其等内容已分别以引用方式并入本文中。有些实施方案中，蛋白质在SpCas9的约氨基酸A292-G364、F445-K483、或E565-T637之间的区域内的任何C、T、A、或S，或在任何其他Cas9、Cas9变体(例如：nCas9、dCas9)、或其他napDNAbp的对应位置内分成两个片段。有些实施方案中，蛋白质在SpCas9 T310、T313、A456、S469、或C574分成两个片段。有些实施方案中，蛋白质分成两个片段的过程称为“分割”蛋白质。

其他实施方案中，Cas9蛋白质的N末端部份包含化脓性链球菌(S.pyogenes)Cas9野生型(SpCas9)的氨基酸1-573或1-637(NCBI参考序列：NC_002737.2，Uniprot参考序列：Q99ZW2)、或其对应位置/突变，及Cas9蛋白质的C末端部份包含SpCas9野生型的部份氨基酸574-1368或638-1368。

分割Cas9的C末端部份和分割Cas9的N末端部份接合，形成完整Cas9蛋白质。有些实施方案中，Cas9蛋白质的C末端部份始于Cas9蛋白质的N末端部份终点。因此，有些实施方案中，分割Cas9的C末端部份包含spCas9的氨基酸(551-651)-1368部份。“(551-651)-1368”意指始于氨基酸551-651(涵括)之间的氨基酸及止于氨基酸1368。例如：分割Cas9的C末端部份可包含spCas9的任何一部份氨基酸551-1368、552-1368、553-1368、554-1368、555-1368、556-1368、557-1368、558-1368、559-1368、560-1368、561-1368、562-1368、563-1368、564-1368、565-1368、566-1368、567-1368、568-1368、569-1368、570-1368、571-1368、572-1368、573-1368、574-1368、575-1368、576-1368、577-1368、578-1368、579-1368、580-1368、581-1368、582-1368、583-1368、584-1368、585-1368、586-1368、587-1368、588-1368、589-1368、590-1368、591-1368、592-1368、593-1368、594-1368、595-1368、596-1368、597-1368、598-1368、599-1368、600-1368、601-1368、602-1368、603-1368、604-1368、605-1368、606-1368、607-1368、608-1368、609-1368、610-1368、611-1368、612-1368、613-1368、614-1368、615-1368、616-1368、617-1368、618-1368、619-1368、620-1368、621-1368、622-1368、623-1368、624-1368、625-1368、626-1368、627-1368、628-1368、629-1368、630-1368、631-1368、632-1368、633-1368、634-1368、635-1368、636-1368、637-1368、638-1368、639-1368、640-1368、641-1368、642-1368、643-1368、644-1368、645-1368、646-1368、647-1368、648-1368、649-1368、650-1368、或651-1368。有些实施方案中，分割Cas9蛋白质的C末端部份包含SpCas9的一部份氨基酸574-1368或638-1368。

“个体”意指哺乳动物，包括(但不限于)：人类或非人类哺乳动物，如：牛、马、犬、羊、或猫。个体包括牲畜、饲养来提供劳力及提供消费品，如：食物的家畜动物，包括(但不限于)：牛、山羊、鸡、马、猪、兔、及绵羊。

“实质上一致”意指所述多肽或核酸分子和参考氨基酸序列(例如：本文说明的任何一种氨基酸序列)或核酸序列(例如：本文说明的任何一种核酸序列)具有至少50％一致性。一项实施方案中，此等序列和用于比对的序列，在氨基酸阶段或核酸上为至少60％、80％或85％、90％、95％或甚至99％一致。

序列一致性通常使用序列分析软体量测(例如：Sequence Analysis SoftwarePackage of the Genetics Computer Group,University of Wisconsin BiotechnologyCenter,1710University Avenue,Madison,Wis.53705，BLAST、BESTFIT、GAP、或PILEUP/PRETTYBOX程式)。此等软体通过指定和各种不同取代、缺失、及/或其他修饰的同源性程度来匹配相同或类似的序列。保守性取代通常包括下列群组的取代：甘氨酸、丙氨酸；缬氨酸、异白氨酸、白氨酸；天冬氨酸、谷氨酸、天冬酰氨酸、麸酰氨酸；丝氨酸、苏氨酸；离氨酸、精氨酸；及苯基丙氨酸、酪氨酸。测定一致性的方法实例可采用BLAST程式，由e^-3至e^-100之间的机率得分来指示高相关性的序列。例如：采用COBALT时，使用下列参数：

a)排比参数：空位罚分-11、-1，及末端空位罚分-5、-1，

b)CDD参数：采用RPS BLAST开启；Blast E-值0.003；搜寻保守氨基酸位置及开启重复计算，及

c)查询丛集参数：采用查询丛集开启；字元大小4；最大丛集距离0.8；一般字母。

采用EMBOSS针头，例如：依下列参数：

a)矩阵：BLOSUM62；

b)空位开头(GAP OPEN)：10；

c)空位延长(GAP EXTEND)：0.5；

d)输出格式：一对；

e)末端空位罚分：无；

f)末端空位开头(END GAP OPEN)：10；及

g)末端空位延长(END GAP EXTEND)：0.5。

术语“靶位点”是指经核碱基编辑器修饰的核酸分子内的序列。一项实施方案中，靶位点是经过脱氨酶或包含脱氨酶(例如：腺嘌呤脱氨酶)的融合蛋白脱氨。

本文所采用术语“治疗(treat、treating)”“处理”及类似术语是指降低或缓解和其相关的的疾病、疾患和/或症状或得到所需药理和/或生理效应。通常理解，虽然不排除，但治疗疾病或病症并不要求完全消除和其相关的的疾病、疾患和/或症状。有些实施方案中，所述效应为医疗性，亦即在没有限制下，所述效应为部份或完全减低、消除、废除、减轻、缓和、降低疾病及/或由归因于疾病的症状的严重度或治愈。有些实施方案中，所述效应为预防性，亦即所述效应保护或预防疾病或病症的发生或复发。因此，本发明方法包括施用医疗有效量的本文所说明组合物。有些实施方案中，所述疾病或疾患为镰状细胞病(SCD)或β-地中海型贫血。

“尿嘧啶醣苷酶抑制剂”或“UGI”意指抑制尿嘧啶-切除修复系统的剂。一项实施方案中，所述剂为会和宿主尿嘧啶-DNA醣苷酶结合并防止尿嘧啶残基从DNA中脱离的蛋白质或其片段。一项实施方案中，UGI为可以抑制尿嘧啶-DNA醣苷酶碱基-切除修复酶的蛋白质、其片段、或结构域。有些实施方案中，UGI结构域包含野生型UGI或其经修饰型。有些实施方案中，UGI结构域包含如下所例举氨基酸序列的片段。有些实施方案中，UGI片段包含的氨基酸序列包含如下所例举UGI序列的至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或100％。有些实施方案中，UGI包含和如下所例举UGI氨基酸序列或其片段为同源性的氨基酸序列。有些实施方案中，UGI、或其一部份是和如下所示野生型UGI或UGI序列、或其部份为至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.5％、至少99.9％、或100％一致。一项UGI实例包含下列氨基酸序列：

>splP14739IUNGI_BPPB2尿嘧啶-DNA醣苷酶抑制剂

MTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAY DESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKML。

术语“载体”是指将核酸序列引入细胞中的方式，其产生转形细胞。载体包括质粒、转位子、噬菌体、病毒、脂质粒及游离基因。“表达载体”为包含预期在接受者细胞中表达的核苷酸序列的核酸序列。表达载体可包括促进和/或促成所引入序列表达的额外核酸序列，如：起始、终止、加强子、启动子、及分泌序列。

本文所提供任何组合物或方法可以和本文所提供一个或多个任何其他组合物及方法组合。

DNA编辑法已成为利用修正致病性突变，在遗传阶段上修饰疾病的可行方法。直到最近，所有DNA编辑平台均有在指定基因体位点诱发DNA双链断裂(DSB)的功能，且随内因性DNA修复途径而定，依半随机方式来决定产物结果，产生遗传产物的复杂族群。虽然可以透过同源基因向导修复(HDR)途径达成精确的由使用者界定的修复结果，但在医疗上相关的细胞型态中，仍有许多挑战阻挡使用HDR的高效能修复。实际上，此途径相对于竞争且容易出错的非同源性末端接合途径不够有效能。此外，HDR极严格限于细胞周期的G1及S期，阻止有丝分裂后的细胞中DSB的精确修复。因此，已证实很难或不可能以使用者界定的可编程方式，在此等族群中以高效能修改基因体序列。

附图说明

图1A-图1C描绘质粒。图1A为编码TadA7.10-dCas9碱基编辑器的表达载体。图1B为包含编码赋和氯霉素(chloramphenicol)抗性(CamR)及奇霉素(spectinomycin)抗性(SpectR)的蛋白质的核酸分子的质粒。所述质粒亦包含被两个点突变废除的卡那霉素(kanamycin)抗性基因。图1C为包含编码赋和氯霉素抗性(CamR)及奇霉素抗性(SpectR)的蛋白质的核酸分子的质粒。所述质粒亦包含被三个点突变废除的卡那霉素抗性基因。

图2出示经过图1所描绘的表达载体转导的细菌群落影像，其包括缺陷的卡那霉素抗性基因。包含ABE7.10变体的载体是采用容易出错的PCR产生。针对卡那霉素抗性，使用渐增浓度的卡那霉素选择表达此等“演化”ABE7.10变体的细菌细胞。表达ABE7.10变体且具有腺苷脱氨酶活性的细菌可以修正引入卡那霉素抗性基因中的突变，由此恢复卡那霉素抗性。选择卡那霉素抗性细胞供进一步分析。

图3A及图3B说明血红素亚单位γ(HGB1)基因座调节区的编辑，所述基因座是上调胎儿血红素的医疗性相关位点。图3A为HGB1基因的调节区中一部份的附图。图3B定量表15所列的腺苷脱氨酶变体的效能及特异性。编辑法是在HEK293T细胞的血红素亚单位γ1(HGB1)基因座上分析，所述基因座是上调胎儿血红素的医疗性相关位点。上图出示HGB1基因调节序列的靶区中的核苷酸残基。A5、A8、A9、及A11代表HGB1中的已编辑腺苷残基。

图4说明包含会辨识非典型PAM序列的dCas9的腺苷碱基编辑器的相对有效性。上图出示血红素亚单位的编码序列。下图为证实使用不同长度的向导RNA的腺苷脱氨酶变体碱基编辑器的效能。

图5为说明ABE8的效能及特异性的附图。定量在预期靶核苷酸及非预期靶核苷酸(旁观者)的编辑百分比。

图6为说明ABE8的效能及特异性的附图。定量在预期靶核苷酸及非预期靶核苷酸(旁观者)的编辑百分比。

图7A-图7C描绘初代细胞中和A·T至G·C的转换及表型结果的图解及长条图。图7A出示位在染色体11的胚胎、胎儿、和成人珠蛋白基因的图解，并指示HBG1/2HPFH位点，单一碱基编辑器在此位点引进双螺旋编辑。图7B为出示CD34+细胞中的DNA编辑效能的图解。其出示来自两位分开供体的经过ABE处理的CD34+细胞中，在-198HBG1/2启动子位点的A·T至G·C转换。在处理后48小时及144小时进行NGS分析。-198HBG1/2靶序列如下：其中A7为粗体及下加双重线。针对A₇画出A·T至G·C的百分比。图7C为反映衍生自ABE-编辑细胞的红血球中γ-珠蛋白/α-珠蛋白表达百分比的附图。图7C出示所形成γ-珠蛋白的百分比，为相对于α-珠蛋白的比例。所出示图7B及图7C的数值是来自两位经过ABE处理及红血球分化后的不同供体。如图7B所观察，在-198HBG1/2启动子靶位点的ABE8编辑效能比较早时间点(48hr)高2-3倍。如图7C所观察，CD34+细胞中的ABE8编辑使分化的红血球中所形成γ-珠蛋白提高约1.4倍。例如：ABE8.13-d碱基编辑器造成55％γ-珠蛋白/α-珠蛋白表达。

图8A及图8B描绘CD34+细胞在HBG1/2上游的-198启动子位点经过ABE8处理的A·T至G·C转换。图8A为描绘来自两位供体的CD34+细胞，在编辑器处理后48及144h，ABE8的A至G的编辑频率的热图，其中供体2为镰状细胞病的杂合子。图8B为代表仅包含A7编辑或合并(A7+A8)编辑的总定序读段分布的图解。

图9为描绘CD34+细胞在γ-珠蛋白启动子的-198位点经过ABE8处理的插入/缺失(INDEL)频率的热图。出示在48h及144h时间点，来自两位供体的频率。在本文所说明HBG1/2-198启动子靶位点，完全的A·T至G·C转换，创造出10nt的聚-G长条。由于此等均聚物的操作经常增加PCR-及定序法所诱发误差的比例，因此在此位点观察到提高的插入/缺失(INDEL)频率。

图10出示未处理的分化CD34+细胞(供体1)的超高效液相层析法(UHPLC)UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。

图11描绘经过ABE7.10-m处理的分化CD34+细胞(供体1)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。

图12描绘经过ABE7.10-d处理的分化CD34+细胞(供体1)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。

图13描绘经过ABE8.8-m处理的分化CD34+细胞(供体1)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。

图14描绘经过ABE8.8-d处理的分化CD34+细胞(供体1)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。

图15描绘经过ABE8.13-m处理的分化CD34+细胞(供体1)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。

图16描绘经过ABE8.13-d处理的分化CD34+细胞(供体1)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。

图17描绘经过ABE8.17-m处理的分化CD34+细胞(供体1)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。

图18描绘经过ABE8.17-d处理的分化CD34+细胞(供体1)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。

图19描绘经过ABE8.20-m处理的分化CD34+细胞(供体1)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。

图20描绘经过ABE8.20-d处理的分化CD34+细胞(供体1)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。

图21描绘未处理的分化CD34+细胞(供体2)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。注：供体2为镰状细胞病的杂合子。

图22描绘经过ABE7.10-m处理的分化CD34+细胞(供体2)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。注：供体2为镰状细胞病的杂合子。

图23描绘经过ABE7.10-d处理的分化CD34+细胞(供体2)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。注：供体2为镰状细胞病的杂合子。

图24描绘经过ABE8.8-m处理的分化CD34+细胞(供体2)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。注：供体2为镰状细胞病的杂合子。

图25描绘经过ABE8.8-d处理的分化CD34+细胞(供体2)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。注：供体2为镰状细胞病的杂合子。

图26描绘经过ABE8.13-m处理的分化CD34+细胞(供体2)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。注：供体2为镰状细胞病的杂合子。

图27描绘经过ABE8.13-d处理的分化CD34+细胞(供体2)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。注：供体2为镰状细胞病的杂合子。

图28描绘经过ABE8.17-m处理的分化CD34+细胞(供体1)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。

图29描绘经过ABE8.17-d处理的分化CD34+细胞(供体2)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。注：供体2为镰状细胞病的杂合子。

图30A及图30B描绘经过ABE8处理的分化CD34+细胞的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。图30A描绘经过ABE8.20-m处理的分化CD34+细胞(供体2)的UHPLCUV-Vis轨迹(220nm)及珠蛋白链阶段的积分。注：供体2为镰状细胞病的杂合子。图30B描绘经过ABE8.20-d处理的分化CD34+细胞(供体2)的UHPLC UV-Vis轨迹(220nm)及珠蛋白链阶段的积分。注：供体2为镰状细胞病的杂合子。

图31A-图31E描绘使用ABE8.8在两个独立位点编辑，于红血球分化后第11天去核的前，达到90％编辑，及于红血球分化后第18天，达约60％γ珠蛋白，超过α珠蛋白或总β家族珠蛋白。图31A为描绘2位健康供体在2个独立实验中的平均ABE8.8编辑的图解。编辑效能是采用区分HBG1和HBG2的引子量测。图31B为描绘1位健康供体在2个独立实验中的平均值的图解。编辑效能是采用同时辨识HBG1和HBG2的引子量测。图31C为描绘ABE8.8在具有杂合子E6V突变的供体中的编辑的图解。图31D及图31E为描绘ABE8.8编辑细胞中的γ珠蛋白增加的图解。

图32A及图32B描绘使用ABE变体修正镰状细胞突变的编辑百分比。图32A为描绘在SCD患者纤维母细胞中，筛选具有约70％编辑的不同编辑器变体的图解。图32B为描绘来自健康供体的CD34细胞经过先导ABE变体编辑的图解，其靶向留在编辑窗口内相邻脯氨酸中的同义突变A13，并作为编辑SCD突变的代理。ABE8变体出示在代理A13的平均编辑频率为约40％。

图33A及图33B描绘RNA扩增子定序法，在和ABE治疗相关的的RNA中检测细胞A-形成-I的编辑。出示个别数据点，误差长条代表n＝3个分别独立在不同日期进行的生物重复分析的标准偏差s.d.。图33A为描绘核心ABE 8构建体相较于ABE7及Cas9(D10A)切口酶对照组在靶RNA扩增子中的A-形成-I编辑频率的图解。图33B为描绘具有已报告可以改良RNA脱靶编辑的突变的ABE8在靶RNA扩增子中的A-形成-I编辑频率的图解。

图34A及图34B出示和SCD CD34+细胞的编辑相关的图解及UPHLC层析轨迹。取来自SCD患者的CD34+细胞，接受ABE8.8 mRNA及sgRNA(HBG1/2，50nM)使用电穿孔法转染。已编辑的细胞于试管内分化成红血球细胞。采用次世代基因体定序法(Next-Genome Sequencing)(NGS)量测在HBG1/2启动子的编辑率。如图34A所示，在分化后48小时观察到由ABE8.8碱基编辑器编辑16.5％，及在分化后第14天观察到编辑89.2％。图34B出示在分化后48小时及第14天旁观者编辑瓦解。

图35A-图35D出示珠蛋白阶段的UPHLC层析轨迹及依图34A及图34B的说明经过编辑的SCD CD34+细胞中HbF上调及HbS下调的功能显示相关的图解。已编辑的SCD CD34+细胞分化成红血球细胞，及于分化后第18天分析珠蛋白阶段。图35A出示的轨迹显示从未编辑的SCD CD34+细胞分化的红血球细胞的珠蛋白阶段。图35B出示的轨迹显示从已编辑的SCDCD34+细胞分化的红血球细胞的珠蛋白阶段。图35C显示，相较于未编辑的细胞，在从已编辑的SCD CD34+细胞分化的红血球细胞中检测到63.2％的γ珠蛋白阶段。图35D显示，相较于未编辑的细胞，从已编辑的SCD CD34+细胞分化的S珠蛋白从86％降至32.9％。上调胎儿血红素为一种有利于治疗SCD及乙型地中海型贫血的手段。

图36A-图36C显示和产生用于编辑非典型Cas9 NGG PAM序列的ABE编辑器的变体有关的丝带结构(ribbon structure)、靶序列、及图解。设计一种包含经修饰的SpCas9(其包括MQKFRAER氨基酸取代及对本文所说明的经改变的PAM 5’-NGC-3’具有特异性)的ABE碱基编辑器(图36A)，可以靶向ABE的编辑窗口内的镰状对偶基因(“靶A”)，如图36B所示，由此提供在靶位点中直接编辑此位置的能力，此位置是通常采用传统spCas9无法到达者。图36C出示包含MQKFRAER氨基酸取代的变体编辑器的碱基编辑活性的图解，其可以辨识靶位点及转换核碱基A至核碱基T(A·T)，达成所需的修正Val->Ala。x-轴上绘示的各变体，“Pro→Pro”代表最左边长条；“Val→Ala”代表中间长条；及“Ser→Pro”代表最右边长条。

图37出示和产生额外腺苷脱氨酶变体相关的图解、靶位点序列及表格，其中已排除和TadA的连接子，并置于较接近Cas9复合物。此等变体在编辑表达镰状对偶基因靶位点的模型细胞株(HEK293T)上具有提高的效能。术语“ISLAY”或“IBE”是指已将TadA腺苷脱氨酶插入Cas9序列内的碱基编辑器，例如：ISLAY1 V1015、ISLAY2 I1022、ISLAY3 I1029、ISLAY4 E1040、ISLAY5 E1058、ISLAY6 G1347、ISLAY7E1054、ISLAY8 E1026及ISLAY9 Q768，如下文表14A所示。在附图右边，出示核酸序列中的靶位点、PAM位点及对应氨基酸序列。表中“Cp5”(MSP552)是指骨架中的ABE8，其包括环状排列Cas9，具有如下氨基酸序列及说明于下文中。

MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYSTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFMQPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAKFLQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPRAFKYFDTTIARKEYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDGGSGGSGGSGGSGGSGGSGGMDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNA KLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEGADKRTADGSEFESPKKKRKV

用于实验的20nt向导sgRNA(1000ng)，spCas9-MQKFRAER，对NGC PAM具有特异性，依三重复用于转形HEK293T细胞(2x10⁵个细胞/孔)。

图38及图39出示不同腺苷脱氨酶ISLAY变体的图解，其证实提高靶位点的编辑(如图37所示)。中图所出示的图解是和具有和TadA结构域的连接子的其他ABE编辑器(ABE7.10)的比较。

图40出示在表达SCD靶位点的CD34+细胞中达成的碱基编辑百分比，及表格显示已编辑的核酸及氨基酸改变。来自杂合子镰状性状患者的CD34+细胞是经过ABE编辑器处理，并量测靶位点(9G)的编辑，亦即转换核碱基A至核碱基T，以达成所需的修正Val>Ala。CD34+细胞在电穿孔后96小时，变体ABE编辑器对镰状细胞对偶基因达成编辑超过50％。此点仍然维持到细胞于试管内分化成红血球细胞(IVD)后，因为在红血球分化后12天，在分化的红血球细胞(镰状性状的杂合子)中显示超过60％编辑。评估编辑器_nM mRNA_[sgRNA]:[mRNA]_时间点(Editor_nM mRNA_[sgRNA]:[mRNA]_Timepoint)的图解是采用21nt gRNA。

图41A及图41B出示和已编辑的杂合子HbS(镰状细胞中的β-珠蛋白)分化红血球细胞中独特β-珠蛋白物种的检测相关的高效液相层析法(UHPLC)层析轨迹及LC-MS结果。在此等试验及分析的前，相关技艺的操作者通常无法采用传统方法成功地从HbS镰状珠蛋白变体中区分及分离HbG Makassar变体珠蛋白。本文发展一种UHPLC方法，并用在来自SCD患者的已使用本文所说明ABE8编辑器编辑的细胞(例如：CD34+细胞)中区分这两种不同珠蛋白变体。来自杂合子HbSS样本的CD34+细胞在编辑后，可使用UHPLC，依据分子量检测对应于彼等具有Val→Ala取代的不同β珠蛋白(Hb)变体(图41A)。由液相层析法-质谱仪(LC-MS)分析的编辑波峰显示指示独立的新的β珠蛋白变体(Makassar变体)的带电荷套膜(chargeenvelope)(图41B)。

图42出示针对带有HbS珠蛋白变体的碱基编辑SCD样本的碱基编辑器和sgRNA序列的表格，以达成修正HbG Makassar变体珠蛋白。将ABE8突变引至先导编辑器候选物中，并分析不同长度的sgRNA(21nt、20nt、19nt原型间隔子)，以检测是否改善中靶的编辑，同时降低潜在有害的1G编辑(Ser10Pro的转换)。以粗体/斜体/底线表示的“A”核苷酸是指出镰状取代。sgRNA/原型间隔子序列中的小写字母指出经过2′-O-甲基化的核碱基。sgRNA/原型间隔子序列中的小写字母“s”是指示硫代磷酸酯。

图43A及图43B出示在CD34+细胞(杂合子镰状细胞性状样本)的9G靶位点(或9G及其他位点)经过不同ABE编辑器在电穿孔后48h(图43A)或在试管内的分化红血球细胞(杂合子镰状性状样本)在分化7天后(图43B)的总编辑百分比的长条图。虽然额外突变不会大幅改善中靶编辑，但有4个编辑器证实可比拟的中靶编辑效能。20nt sgRNA长度可以达成较低的不期望的1G旁观者编辑。此等图解中，评估编辑器_sgRNA nt(Editor_sgRNA nt)或编辑器_100nM mRNA_μM sgRNA(Editor_100nM mRNA_μM sgRNA)(20nt)。在试管内红血球分化全程均维持接近80％的编辑。

图44A及图44B出示显示和同型合子SCD(HbSS)样本中HbS的位置9G的总碱基编辑相关的已编辑核酸序列及对应氨基酸序列转换的长条图和表格。细胞是得自SCD(HbSS)患者的全血(非动员)样本，且经过使用ABE变体碱基编辑器进行碱基编辑。图44A：取CD34+细胞(～200,000个细胞，同型合子SCD样本)使用50nM ABE变体编辑器(MSP619(ISLAY5))，依100：1的比例(2μg mRNA，4.1μg sgRNA(21nt))进行电穿孔。ABE变体碱基编辑器在电穿孔后第7天，在细胞的位置9G达成约65％编辑，及在电穿孔后第14天，在位置9G达成约60％编辑。图44B：取CD34+细胞(～200,000个细胞，同型合子SCD样本)使用30nM ABE变体编辑器(MSP616(ISLAY2))，依200：1的比例(1.3μg mRNA，4.95μg sgRNA(21nt))进行电穿孔。ABE变体碱基编辑器在电穿孔后第7天及第14天，在红血球细胞的位置9G达成至少约50％编辑。

图45出示UHPLC分析后的UHPLC层析轨迹，其在得自SCD患者样本的同型合子HbSS细胞中，使用ABE变体碱基编辑器进行碱基编辑后，显示清楚地分离及区分HbS型和HbGMakassar变体型。

图46A及图46B出示和在已编辑的杂合子HbS(镰状细胞中的β-珠蛋白)分化红血球细胞中检测独立的β-珠蛋白物种有关的UHPLC层析轨迹及LC-MS结果。如图41A及图41B的说明，采用UHPLC区分这两种不同珠蛋白变体。在已编辑的杂合子HbSS样本中，对应于彼等具有Val→Ala取代的不同β珠蛋白(Hb)变体可以依据分子量检测(图46A)。LC-MS轨迹的编辑波峰显示指出新的β珠蛋白变体的带电荷套膜(图46B)。

图47出示经过碱基编辑(“HbSS–已编辑”)或未经过碱基编辑(“HbSS–未编辑”)的HbSS(SCD)样本的UHPLC层析轨迹及LC-MS结果。如上图和中图UHPLC层析图所示，依据UHPLC的溶离时间差异，HbG Makassar珠蛋白变体在第9.81分钟即和HbS(SCD)珠蛋白型(10.03min)分开。其他珠蛋白型容易区分。下图LC-MS，珠蛋白的Makassar HbG变体和HbS型具有不同且可区分的特征。类似图41A、图41B、图45、图46A及图46B出示的结果，来自经过本文所说明ABE变体碱基编辑器编辑的SCD(HbSS)红血球细胞样本的细胞的UHPLC及LC-MS分析清楚地判别及分离样本中的HbG Makassar变体和HbS(SCD)珠蛋白变体，因此提供判别真正的SCD(HbS)患者及减少或预防误诊反而呈现HbG Makassar珠蛋白变体SCD(HbSS)患者的有利工具。

图48A-图48C出示代表UHPLC层析数据的波峰下相对面积的长条图。采用波峰下面积来定量已采用本发明ABE变体进行碱基编辑的同型合子SCD样本中的不同β-珠蛋白变体含量总变化(碱基编辑器MSP619，50nM mRNA，5000nM sgRNA(21nt))。所出示的结果认为，HbS变体珠蛋白的转换程度和无症状HbG-Makassar珠蛋白呈正相关性。

图49为描绘可接近NRNN PAM区间内所有可能PAM的Cas9变体的表格。仅列出要求在其PAM中辨识三种或更少种指定核苷酸的Cas9变体。非G PAM变体包括SpCas9-NRRH、SpCas9-NRTH、及SpCas9-NRCH。(Miller,S.M.等人，Continuous evolution of SpCas9variants compatible with non-G PAMs,Nat.Biotechnol.(2020),(//doi.org/10.1038/s41587-020-0412-8)，其等内容已以全文引用方式并入本文中。

具体实施方式

如下文所述，本发明的特征在于修改镰状细胞病(SCD)相关的突变的组合物及方法。有些实施方案中，所述编辑修正有害突变，使得已编辑的多核苷酸可以和野生型参考多核苷酸序列区分。另一项实施方案中，所述编辑修改有害突变，使得已编辑的多核苷酸包含良性突变。

HBB基因编辑

如本文所述，本发明组合物和方法适用且有利于用在治疗镰状细胞病(SCD)，其是由HBB基因所编码β-珠蛋白蛋白质中第6个氨基酸的Glu→Val突变所引起。尽管目前的基因编辑领域已有许多发展，但仍然无法精准地修正有病的HBB基因回复Val→Glu，且目前仍无法利用CRISPR/Cas核酸酶或CRISPR/Cas碱基编辑方法达成。

使用CRISPR/Cas核酸酶方法，以HBB基因置换受影响的核苷酸的基因体编辑需要裂解基因体DNA。然而，基因体DNA的裂解会提高产生碱基插入/缺失的风险，有可能导致非预期及不期望的结果，包括产生提早形成终止密码子，改变密码子读码框，等等。此外，在β-珠蛋白基因座产生双链断裂有潜力透过重组事件根本修改基因座。β-珠蛋白基因座包含和另一个-5’-ε-；Gγ-；Aγ-；δ-；及β-珠蛋白-3’具有序列一致性的珠蛋白基因丛集。由于β-珠蛋白基因座的结构，使得基因座内的双链断裂的重组修复有可能造成穿插在珠蛋白基因之间，例如：δ-和β-珠蛋白基因之间的序列的基因流失。

非预期性修改基因座亦带有导致地中海型贫血的风险。CRISPR/Cas碱基编辑法亦可保证其等具有在核碱基阶段产生精准修改的能力。然而，精准修正Val→Glu(GTG→GAG)需要一种T·A至A·T倒转编辑器，其是目前已知尚不存在。此外，CRISPR/Cas碱基编辑的特异性部份归因于当CRISPR/Cas结合至DNA时由所形成R-环圈创造的可编辑核苷酸的有限窗口。因此，CRISPR/Cas靶向必需发生在或接近镰状细胞位点，以便让碱基编辑成为可能，且在窗口内的最适化编辑可能有额外序列的要求。CRISPR/Cas靶向的其中一项要求为存在侧接被靶向位点的原间隔相邻基序(PAM)。例如：许多种碱基编辑器是基于SpCas9，其需要NGGPAM。即使假说认为T·A可能倒转成为A·T，但这种SpCas9碱基编辑器没有会将靶“A”放置在所需位置的NGG PAM的存在。虽然已发现或产生许多扩大收集可取得的PAM的新的CRISPR/Cas蛋白质，但对PAM的需求仍成为主导CRISPR/Cas碱基编辑器至基因体中任何位置的特定核苷酸的能力的限制因素。

本发明至少部份基于本文说明的数项发现，其解决了前述挑战，提供了治疗镰状细胞贫血的基因体编辑法。一项实施例中，本发明是部份基于以丙氨酸置换氨基酸位置6会导致镰状细胞病的缬氨酸的能力，由此产生不会产生镰状细胞表型的Hb变体(HbMakassar)。虽然没有T·A至A·T的倒转碱基编辑器即不可能精准修正(GTG→GAG)。但本文进行的试验已发现，使用A·T形成G·C的碱基编辑器(ABE)，可以产生Val→Ala(GTG→GCG)置换(亦即Hb Makassar变体)。此点是部份通过开发本文所提供新颖碱基编辑器及新颖碱基编辑策略来达成。例如：新颖ABE碱基编辑器(亦即具有腺苷脱氨酶结构域)是利用侧接序列(例如：PAM序列；锌指结合序列)，供在镰状细胞靶位点达最适化碱基编辑。

因此，本发明包括在β-珠蛋白蛋白质的镰状细胞病变体(镰状HbS；E6V)的第6个氨基酸的密码子中，碱基编辑胸苷(T)形成胞苷(C)的组合物和方法，由此由丙氨酸取代此氨基酸位置的缬氨酸(V6A)。由丙氨酸取代HbS位置6的缬氨酸，产生没有镰状细胞表型(例如：没有如同在致病性变体HbS中聚合化的可能性)的β-珠蛋白蛋白质变体。因此，本发明组合物和方法适用于治疗镰状细胞病(SCD)。

核碱基编辑器

本文揭示一种碱基编辑器或核碱基编辑器，供编辑、修饰或修改多核苷酸(例如：HBB多核苷酸)的靶核苷酸序列。本文说明一种包含多核苷酸可编程核苷酸结合结构域及核碱基编辑结构域(例如：腺苷脱氨酶)的核碱基编辑器或碱基编辑器。多核苷酸可编程核苷酸结合结构域当和已结合的向导多核苷酸(例如：gRNA)接合时，可以特异性结合至靶多核苷酸序列(亦即经由已结合的向导核酸的碱基和靶多核苷酸序列的碱基之间的互补碱基配对)，由此让碱基编辑器锁定需要编辑的靶核酸序列。有些实施方案中，靶多核苷酸序列包含单链DNA或双链DNA。有些实施方案中，靶多核苷酸序列包含RNA。有些实施方案中，靶多核苷酸序列包含DNA-RNA杂交物。

多核苷酸可编程核苷酸结合结构域

应了解，多核苷酸可编程核苷酸结合结构域亦可包括会和RNA结合的核酸可编程蛋白质。例如：多核苷酸可编程核苷酸结合结构域可和将多核苷酸可编程核苷酸结合结构域向导至RNA的核酸相联。其他核酸可编程DNA结合性蛋白质亦在本发明范围内，但未在本发明内明确列出。

碱基编辑器的多核苷酸可编程核苷酸结合结构域本身可包含一个或多个结构域。例如：多核苷酸可编程核苷酸结合结构域可包含一个或多个核酸酶结构域。有些实施方案中，多核苷酸可编程核苷酸结合结构域的核酸酶结构域可包含内切核酸酶或外切核酸酶。本文术语“外切核酸酶”是指可以从游离终端消解核酸(例如：RNA或DNA)的蛋白质或多肽，及术语“内切核酸酶”是指可以催化(例如：裂解)核酸(例如：DNA或RNA)中内部区的蛋白质或多肽。有些实施方案中，内切核酸酶可以裂解双链核酸的单链。有些实施方案中，内切核酸酶可以裂解双链核酸分子的两链。有些实施方案中，多核苷酸可编程核苷酸结合结构域可为去氧核糖核酸酶。有些实施方案中，多核苷酸可编程核苷酸结合结构域可为核糖核酸酶。

有些实施方案中，多核苷酸可编程核苷酸结合结构域的核酸酶结构域可以切割靶多核苷酸的零(zero)链、一链、或两链。有些实施方案中，多核苷酸可编程核苷酸结合结构域可包含切口酶结构域。本文术语“切口酶”是指包含核酸酶结构域的多核苷酸可编程核苷酸结合结构域，其可仅裂解双螺旋核酸分子(例如：DNA)两链中的一链。有些实施方案中，切口酶可以通过一个或多个突变引至活性多核苷酸可编程核苷酸结合结构域中，而衍生自多核苷酸可编程核苷酸结合结构域的完整催化活性(例如：天然)型。例如：若多核苷酸可编程核苷酸结合结构域包含衍生自Cas9的切口酶结构域时，所述Cas9-衍生的切口酶结构域可包括D10A突变及位置840的组氨酸。此等例子中，残基H840保留催化活性，并由此裂解核酸双螺旋的单链。另一项实例中，Cas9-衍生的切口酶结构域可包含H840A突变，而位置10的氨基酸残基仍保留为D。有些实施方案中，切口酶可通过移除切口酶活性不需要的所有或部份核酸酶结构域，而衍生自多核苷酸可编程核苷酸结合结构域的完整催化活性(例如：天然)型。例如：若多核苷酸可编程核苷酸结合结构域包含衍生自Cas9的切口酶结构域时，所述Cas9-衍生的切口酶结构域可包含缺失所有或部份RuvC结构域或HNH结构域。

催化性活性Cas9实例的氨基酸序列如下：

MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNL

IGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSF

FHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTD

KADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFE

ENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLG

LTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLS

DAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKY

KEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNRED

LLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFR

IPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTN

FDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKA

IVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDL

LKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKV

MKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLI

HDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDEL

VKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILK

EHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFL

KDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKF

DNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDEND

KLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTAL

IKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFK

TEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKK

TEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVA

KVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIK

LPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKG

SPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKH

RDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATL

IHQSITGLYETRIDLSQLGGD。

包含含有切口酶结构域的多核苷酸可编程核苷酸结合结构域的碱基编辑器因此可以在特异性多核苷酸靶序列(例如：由结合的向导核酸的互补序列决定)上产生单链DNA断裂(切口)。有些实施方案中，被包含切口酶结构域(例如：Cas9衍生的切口酶结构域)的碱基编辑器裂解的核酸双螺旋靶多核苷酸序列的一链为不会被碱基编辑器编辑的一链(亦即被碱基编辑器裂解的所述链是和包含要编辑的碱基的一链相反)。其他实施方案中，包含切口酶结构域(例如：Cas9衍生的切口酶结构域)的碱基编辑器可以裂解DNA分子中被靶向编辑的一链。这种情况下，不被靶向的一链不会被裂解。

本文亦提供一种碱基编辑器，其包含催化性灭活(亦即无法裂解靶多核苷酸序列)的多核苷酸可编程核苷酸结合结构域。本文术语“催化性灭活”和“核酸酶灭活”可交换使用，是指多核苷酸可编程核苷酸结合结构域具有一个或多个突变和/或缺失，造成其没有能力裂解核酸的一链。有些实施方案中，催化性灭活的多核苷酸可编程核苷酸结合结构域碱基编辑器因一个或多个核酸酶结构域中的特异性点突变，而缺少核酸酶活性。例如：以包含Cas9结构域的碱基编辑器为例，Cas9可包含D10A突变和H840A突变二者。此等突变使两个核酸酶结构域均失活，由此造成丧失核酸酶活性。其他实施方案中，催化性灭活的多核苷酸可编程核苷酸结合结构域可包含一个或多个缺失所有或一部份催化性结构域(例如：RuvC1和/或HNH结构域)。其他实施方案中，催化性灭活的多核苷酸可编程核苷酸结合结构域包含点突变(例如：D10A或H840A)及缺失所有或部份核酸酶结构域。

本文亦考虑可以从先前的功能型多核苷酸可编程核苷酸结合结构域产生催化性灭活的多核苷酸可编程核苷酸结合结构域的突变。例如：以催化性灭活Cas9(“dCas9”)为例，提供具有D10A及H840A以外的突变的变体，其造成核酸酶失活的Cas9。此等突变，例如：包括在D10及H840的其他氨基酸取代、或在Cas9的核酸酶结构域内的其他取代(例如：在HNH核酸酶子结构域和/或RuvC1子结构域的取代)。其他合适核酸酶-失活dCas9结构域是彼等本领域技术人员依据本发明技术人员，且是在本发明范围内。此等其他合适核酸酶-失活Cas9结构域实例包括(但不限于)：D10A/H840A、D10A/D839A/H840A、及D10A/D839A/H840A/N863A突变体结构域(参见例如：Prashant等人，CAS9 transcriptional activators fortarget specificity screening and paired nickases for cooperative genomeengineering.Nature Biotechnology.2013；31(9):833-838，其等完整内容已以引用方式并入本文中)。

可纳入碱基编辑器中的多核苷酸可编程核苷酸结合结构域的非限制性实例包括CRISPR蛋白质衍生的结构域、限制核酸酶、大范围核酸酶(meganuclease)、TAL核酸酶(TALEN)、及锌指核酸酶(ZFN)。有些实施方案中，碱基编辑器包含多核苷酸可编程核苷酸结合结构域，其包含天然或经修饰蛋白质或其部份，其等是通过已结合的向导核酸，可以在核酸的CRISPR(亦即规律间隔成簇短回文重复序列(Clustered Regularly InterspacedShort Palindromic Repeats)所介导修饰的期间结合至核酸序列。此等蛋白质于本文中称为“CRISPR蛋白质”。因此，本文揭示一种包含多核苷酸可编程核苷酸结合结构域的碱基编辑器，所述结构域包含所有或一部份CRISPR蛋白质(亦即碱基编辑器包含所有或一部份CRISPR蛋白质作为结构域，亦称为碱基编辑器的“CRISPR蛋白质衍生结构域”)。纳入碱基编辑器中的CRISPR蛋白质衍生结构域可以相较于野生型或天然型CRISPR蛋白质经过修饰。例如：如下说明的CRISPR蛋白质衍生结构域可相对于野生型或天然型CRISPR蛋白质，包含一个或多个突变、插入、缺失、重排和/或重组。

CRISPR为后天性免疫系统，其提供保护对抗可动遗传因子(病毒、转位因子及接合质粒)。CRISPR簇包含间隔子、和前述可动因子互补的序列、及靶侵袭性核酸。CRISPR簇经过转录及加工成CRISPR RNA(crRNA)。第II型CRISPR系统中，pre-crRNA的修正加工需要反式编码的(trans-encoded)小RNA(tracrRNA)、内因性核糖核酸酶3(rnc)及Cas9蛋白质。tracrRNA作为核糖核酸酶3协助pre-crRNA加工的向导子。随后，Cas9/crRNA/tracrRNA以内切核酸分解方式裂解和间隔子互补的线性或环状dsDN靶。先以内切核酸分解方式切割不和crRNA互补的靶链，然后以外切核酸分解方式修剪3′-5′。自然界中，DNA-结合和裂解通常需要蛋白质及两种RNA。然而，单一向导RNA(“sgRNA”或简称“gNRA”)可经过工程化，以便纳入crRNA和tracrRNA两种实施例至单一RNA物种中。参见例如：Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,Doudna J.A.,Charpentier E.Science337:816-821(2012)，其完整内容已以引用方式并入本文。Cas9辨识CRISPR重复序列中的短基序(PAM或原间隔相邻基序)，以协助区分其自体和非自体。

有些实施方案中，本文说明的方法可以利用工程化Cas蛋白质。向导RNA(gRNA)为短的合成RNA，是由Cas-结合性所必要的骨架序列及由使用者界定的～20个核苷酸间隔子所构成，由所述间隔子指定所要修饰的基因体靶。因此，本领域技术人员可以改变Cas蛋白质特异性的基因体靶，其是部份由gRNA靶向序列对基因体靶相较于对其余基因体的特异性程度来决定。

有些实施方案中，gRNA骨架序列如下：GUUUUAGAGC UAGAAAUAGC AAGUUAAAAUAAGGCUAGUC CGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU。

有些实施方案中，纳入碱基编辑器中的CRISPR蛋白质衍生结构域为内切核酸酶(例如：去氧核糖核酸酶或核糖核酸酶)，其当和已结合的向导核酸连结时，可以结合靶多核苷酸。有些实施方案中，纳入碱基编辑器中的CRISPR蛋白质衍生结构域为切口酶，其当和已结合的向导核酸连结时，可以结合靶多核苷酸。有些实施方案中，纳入碱基编辑器中的CRISPR蛋白质衍生结构域为催化性灭活结构域，其当和已结合的向导核酸连结时，可以结合靶多核苷酸。有些实施方案中，被碱基编辑器的CRISPR蛋白质衍生结构域结合的靶多核苷酸为DNA。有些实施方案中，被碱基编辑器的CRISPR蛋白质衍生结构域结合的靶多核苷酸为RNA。

本文可采用的Cas蛋白质包括第1类和第2类，Cas蛋白质的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas9(亦称为Csn1或Csx12)、Cas10、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、及Cas12i、CARF、DinG、其同源物、或其修饰型。未修饰CRISPR酶可以具有DNA裂解活性，如：Cas9，其有两个功能性内切核酸酶结构域：RuvC和HNH。CRISPR酶可以主导裂解靶序列，如：靶序列内和/或靶序列的补体内的一链或两链。例如：CRISPR酶可以主导裂解靶序列中从第一个或最后一个核苷酸开始约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500、或更多个碱基对内的一链或两链。

可以使用编码已相对于对应野生型酶发生突变的CRISPR酶的载体，因此所述突变的CRISPR酶缺少裂解所述包含靶序列的靶多核苷酸的一链或两链的能力。Cas9可指和野生型Cas9多肽实例(例如：来自化脓性链球菌(S.pyogenes)的Cas9)具有至少或至少约50％、60％、70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、或100％序列一致性及/或序列同源性的多肽。Cas9可指和野生型Cas9多肽实例(例如：来自化脓性链球菌(S.pyogenes))具有至多或至多约50％、60％、70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、或100％序列一致性和/或序列同源性的多肽。Cas9可指Cas9蛋白质的野生型或修饰型，其可包含氨基酸改变，如：缺失、插入、取代、变体、突变、融合、嵌合、或其任何组合。

有些实施方案中，碱基编辑器的CRISPR蛋白质衍生结构域可包括来自以下各項的Cas9的全部或一部份：溃疡棒状杆菌(Corynebacterium ulcerans)(NCBI Refs:NC_015683.1,NC_017317.1)；白喉棒状杆菌(Corynebacteriumdiphtheria)(NCBI Refs:NC_016782.1,NC_016786.1)；食蚜螺原体(Spiroplasma syrphidicola)(NCBI Ref:NC_021284.1)；中间普雷沃氏菌(Prevotella intermedia)(NCBI Ref:NC_017861.1)；中国台湾螺原体(Spiroplasma taiwanense,China)(NCBI Ref:NC_021846.1)；鱼型链球菌(Streptococcus iniae)(NCBI Ref:NC_021314.1)；波罗的海贝尔氏菌(Belliellabaltica)(NCBI Ref:NC_018010.1)；扭曲冷弯曲菌(Psychroflexus torquis)(NCBI Ref:NC_018721.1)；嗜热链球菌(Streptococcus thermophilus)(NCBI Ref:YP_820832.1)；无害李斯特菌(Listeria innocua)(NCBI Ref:NP_472073.1)；空肠曲杆菌(Campylobacterjejuni)(NCBI Ref:YP_002344900.1)；脑膜炎双球菌(Neisseria meningitidis)(NCBIRef:YP_002342100.1),化脓性链球菌(Streptococcus pyogenes)、或金黄色葡萄球菌(Staphylococcus aureus)。

核碱基编辑器的Cas9结构域

Cas9核酸酶序列及结构是彼等本领域技术人员习知者(参见例如：“Completegenome sequence of an Ml strain of Streptococcus pyogenes.”Ferretti等人，J.J.,McShan W.M.,Ajdic D.J.,Savic D.J.,Savic G.,Lyon K.,Primeaux C,Sezate S.,Suvorov A.N.,Kenton S.,Lai H.S.,Lin S.P.,Qian Y.,Jia H.G.,Najar F.Z.,Ren Q.,Zhu H.,Song L.,White J.,Yuan X.,Clifton S.W.,Roe B.A.,McLaughlin R.E.,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001)；“CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III.”Deltcheva E.,Chylinski K.,SharmaC.M.,Gonzales K.,Chao Y.,Pirzada Z.A.,Eckert M.R.,Vogel J.,Charpentier E.,Nature 471:602-607(2011)；及“A programmable dual-RNA-guided DNA endonucleasein adaptive bacterial immunity.”Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,Doudna J.A.,Charpentier E.Science 337:816-821(2012)，其等完整内容已分别以引用方式并入本文中)。Cas9直是同源基因已说明于各种不同物种，包括(但不限于)：化脓性链球菌(S.pyogenes)及嗜热链球菌(S.thermophilus)。其他合适的Cas9核酸酶及序列是彼等本领域技术人员依据本发明即了解者，且此等Cas9核酸酶及序列包括来自Chylinski、Rhun和Charpentier于“The tracrRNA and Cas9families of type II CRISPR-Cas immunitysystems”(2013)RNA Biology 10:5,726-737中所揭示生物体及基因座的Cas9序列；其完整内容已以引用方式并入本文中。

有些实施方案中，核酸可编程DNA结合性蛋白质(napDNAbp)为Cas9结构域。本文提供Cas9结构域的非限制性实例。Cas9结构域可为核酸酶活性Cas9结构域、核酸酶失活Cas9结构域(dCas9)、或Cas9切口酶(nCas9)。有些实施方案中，Cas9结构域为核酸酶活性结构域。例如：Cas9结构域可为可切割双螺旋核酸的两链(例如：双螺旋DNA分子的两链)的Cas9结构域。有些实施方案中，Cas9结构域包含本文所示任何一种氨基酸序列。有些实施方案中，Cas9结构域包含和本文所示任一氨基酸序列为至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致的氨基酸序列。有些实施方案中，Cas9结构域包含的氨基酸序列相较于本文所示任一氨基酸序列，具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或以上或更多个突变。有些实施方案中，Cas9结构域包含的氨基酸序列相较于本文所示任一氨基酸序列，具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100、或至少1200个一致的连续氨基酸残基。

有些实施方案中，提供包含Cas9的片段的蛋白质。例如：有些实施方案中，蛋白质包含两个Cas9结构域其中一个：(1)Cas9的gRNA结合结构域；或(2)Cas9的DNA裂解结构域。有些实施方案中，包含Cas9或其片段的蛋白质称为“Cas9变体”。Cas9变体和Cas9或其片段有共通同源性。例如：Cas9变体和野生型Cas9为至少约70％一致、至少约80％一致、至少约90％一致、至少约95％一致、至少约96％一致、至少约97％一致、至少约98％一致、至少约99％一致、至少约99.5％一致、或至少约99.9％一致。有些实施方案中，Cas9变体相较于野生型Cas9可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个氨基酸改变。有些实施方案中，Cas9变体包含Cas9的片段(例如：gRNA结合结构域或DNA-裂解结构域)，因此所述片段和野生型Cas9的对应片段为至少约70％一致、至少约80％一致、至少约90％一致、至少约95％一致、至少约96％一致、至少约97％一致、至少约98％一致、至少约99％一致、至少约99.5％一致、或至少约99.9％一致。有些实施方案中，所述片段为对应野生型Cas9的至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％一致、至少96％、至少97％、至少98％、至少99％、或至少99.5％氨基酸长度。有些实施方案中，所述片段为至少100个氨基酸的长度。有些实施方案中，所述片段为至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250、或至少1300个氨基酸的长度。

有些实施方案中，本文提供的Cas9融合蛋白包含Cas9蛋白质的全长氨基酸序列，例如：本文所提供的其中一种Cas9序列。然而其他实施方案中，本文提供的融合蛋白不包含全长Cas9序列，仅包含其一或多个片段。本文提供合适Cas9结构域及Cas9片段的氨基酸序列实例，彼等本领域技术人员通常理解其他合适的Cas9结构域及片段的序列。

Cas9蛋白质可和向导RNA相联，其向导Cas9蛋白质至已和向导RNA互补的特异性DNA序列。有些实施方案中，多核苷酸可编程核苷酸结合结构域为Cas9结构域，例如：核酸酶活性Cas9、Cas9切口酶(nCas9)、或核酸酶失活Cas9(dCas9)。核酸可编程DNA结合性蛋白质实例包括(但不限于)：Cas9(例如：dCas9及nCas9)、CasX、CasY、Cpf1、Cas12b/C2C1、及Cas12c/C2C3。

有些实施方案中，野生型Cas9对应于来自化脓性链球菌(Streptococcuspyogenes)的Cas9(NCBI参考序列：NC_017053.1，核苷酸及氨基酸序列如下)：

ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGATTATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGGCAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCA

TCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATC

CAACTATCTATCATCTGCGAAAAAAATTGGCAGATTCTACTGATAAAGCG

GATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGG

TCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACA

AACTATTTATCCAGTTGGTACAAATCTACAATCAATTATTTGAAGAAAAC

CCTATTAACGCAAGTAGAGTAGATGCTAAAGCGATTCTTTCTGCACGATT

GAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGA

AGAGAAATGGCTTGTTTGGGAATCTCATTGCTTTGTCATTGGGATTGACC

CCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCT

TTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTG

GAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCT

ATTTTACTTTCAGATATCCTAAGAGTAAATAGTGAAATAACTAAGGCTCC

CCTATCAGCTTCAATGATTAAGCGCTACGATGAACATCATCAAGACTTGA

CTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAA

ATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGG

AGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAA

TGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTG

CGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTT

GGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTT

TAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCT

TATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGAC

TCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCG

ATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGAT

AAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGA

GTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAGG

GAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTT

GATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGA

AGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAG

TTGAAGATAGATTTAATGCTTCATTAGGCGCCTACCATGATTTGCTAAAA

ATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTT

AGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGGGATGATTG

AGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAA

CAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATT

GATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTT

TGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGAT

GATAGTTTGACATTTAAAGAAGATATTCAAAAAGCACAGGTGTCTGGACA

AGGCCATAGTTTACATGAACAGATTGCTAACTTAGCTGGCAGTCCTGCTA

TTAAAAAAGGTATTTTACAGACTGTAAAAATTGTTGATGAACTGGTCAAA

GTAATGGGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAA

TCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAA

TCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCT

GTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTACA

AAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAA

GTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCATTAAAGACGAT

TCAATAGACAATAAGGTACTAACGCGTTCTGATAAAAATCGTGGTAAATC

GGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGA

GACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTA

ACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTAT

CAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAA

TTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATT

CGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCG

AAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATG

CCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAA

TATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGA

TGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCG

CAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATT

ACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGG

GGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGC

GCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTA

CAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGA

CAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTT

TTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAA

AAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCAC

AATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAG

CTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAA

TATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGC

CGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGA

ATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAA

GATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGA

TGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAG

ATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAA

CCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAA

TCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTA

AACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAA

TCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGG

TGACTGA

(单一底线：HNH结构域；双重底线：RuvC结构域)

有些实施方案中，野生型Cas9对应于、或包含下列核苷酸和/或氨基酸序列：

ATGGATAAAAAGTATTCTATTGGTTTAGACATCGGCACTAATTCCGTTGGATGGGCTGTCATAACCGATGAATACAAAGTACCTTCAAAGAAATTTAAGGTGTTGGGGAACACAGACCGTCATTCGATTAAAAAGAATCTTATCGGTGCCCTCCTATTCGATAGTGGCGAAACGGCAGAGGCGACTCGCCTGAAACGAACCGCTCGGAGAAGGTATACACGTCGCAAGAACCGAATATGTTACTTACAAGAAATTTTTAGCAATGAGATGGCCAAAGTTGACGATTCTTTCTTTCACCGTTTGGAAGAGTCCTTCCTTGTCGAAGAGGACAAGAAACATGAACGGCACCCCATCTTTGGAAACATAGTAGATGAGGTGGCATATCATGAAAAGTACCCAACGATTTATCACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCGGACCTGAGGTTAATCTACTTGGCTCTTGCCCATATGATAAAGTTCCGTGGGCACTTTCTCATTGAGGGTGATCTAAATCCGGACAACTCGGATGTCGACAAACTGTTCATCCAGTTAGTACAAACCTATAATCAGTTGTTTGAAGAGAACCCTATAAATGCAAGTGGCGTGGATGCGAAGGCTATTCTTAGCGCCCGCCTCTCTAAATCCCGACGGCTAGAAAACCTGATCGCACAATTACCCGGAGAGAAGAAAAATGGGTTGTTCGGTAACCTTATAGCGCTCTCACTAGGCCTGACACCAAATTTTAAGTCGAACTTCGACTTAGCTGAAGATGCCAAATTGCAGCTTAGTAAGGACACGTACGATGACGATCTCGACAATCTACTGGCACAAATTGGAGATCAGTATGCGGACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCAATCCTCCTATCTGACATACTGAGAGTTAATACTGAGATTACCAAGGCGCCGTTATCCGCTTCAATGATCAAAAGGTACGATGAACATCACCAAGACTTGACACTTCTCAAGGCCCTAGTCCGTCAGCAACTGCCTGAGAAATATAAGGAAATATTCTTTGATCAGTCGAAAAACGGGTACGCAGGTTATATTGACGGCGGAGCGAGTCAAGAGGAATTCTACAAGTTTATCAAACCCATATTAGAGAAGATGGATGGGACGGAAGAGTTGCTTGTAAAACTCAATCGCGAAGATCTACTGCGAAAGCAGCGGACTTTCGACAACGGTAGCATTCCACATCAAATCCACTTAGGCGAATTGCATGCTATACTTAGAAGGCAGGAGGATTTTTATCCGTTCCTCAAAGACAATCGTGAAAAGATTGAGAAAATCCTAACCTTTCGCATACCTTACTATGTGGGACCCCTGGCCCGAGGGAACTCTCGGTTCGCATGGATGACAAGAAAGTCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCGATAAAGGTGCGTCAGCTCAATCGTTCATCGAGAGGATGACCAACTTTGACAAGAATTTACCGAACGAAAAAGTATTGCCTAAGCACAGTTTACTTTACGAGTATTTCACAGTGTACAATGAACTCACGAAAGTTAAGTATGTCACTGAGGGCATGCGTAAACCCGCCTTTCTAAGCGGAGAACAGAAGAAAGCAATAGTA

GATCTGTTATTCAAGACCAACCGCAAAGTGACAGTTAAGCAATTGAAAGA

GGACTACTTTAAGAAAATTGAATGCTTCGATTCTGTCGAGATCTCCGGGG

TAGAAGATCGATTTAATGCGTCACTTGGTACGTATCATGACCTCCTAAAG

ATAATTAAAGATAAGGACTTCCTGGATAACGAAGAGAATGAAGATATCTT

AGAAGATATAGTGTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTG

AGGAAAGACTAAAAACATACGCTCACCTGTTCGACGATAAGGTTATGAAA

CAGTTAAAGAGGCGTCGCTATACGGGCTGGGGACGATTGTCGCGGAAACT

TATCAACGGGATAAGAGACAAGCAAAGTGGTAAAACTATTCTCGATTTTC

TAAAGAGCGACGGCTTCGCCAATAGGAACTTTATGCAGCTGATCCATGAT

GACTCTTTAACCTTCAAAGAGGATATACAAAAGGCACAGGTTTCCGGACA

AGGGGACTCATTGCACGAACATATTGCGAATCTTGCTGGTTCGCCAGCCA

TCAAAAAGGGCATACTCCAGACAGTCAAAGTAGTGGATGAGCTAGTTAAG

GTCATGGGACGTCACAAACCGGAAAACATTGTAATCGAGATGGCACGCGA

AAATCAAACGACTCAGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGA

GAATAGAAGAGGGTATTAAAGAACTGGGCAGCCAGATCTTAAAGGAGCAT

CCTGTGGAAAATACCCAATTGCAGAACGAGAAACTTTACCTCTATTACCT

ACAAAATGGAAGGGACATGTATGTTGATCAGGAACTGGACATAAACCGTT

TATCTGATTACGACGTCGATCACATTGTACCCCAATCCTTTTTGAAGGAC

GATTCAATCGACAATAAAGTGCTTACACGCTCGGATAAGAACCGAGGGAA

AAGTGACAATGTTCCAAGCGAGGAAGTCGTAAAGAAAATGAAGAACTATT

GGCGGCAGCTCCTAAATGCGAAACTGATAACGCAAAGAAAGTTCGATAAC

TTAACTAAAGCTGAGAGGGGTGGCTTGTCTGAACTTGACAAGGCCGGATT

TATTAAACGTCAGCTCGTGGAAACCCGCCAAATCACAAAGCATGTTGCAC

AGATACTAGATTCCCGAATGAATACGAAATACGACGAGAACGATAAGCTG

ATTCGGGAAGTCAAAGTAATCACTTTAAAGTCAAAATTGGTGTCGGACTT

CAGAAAGGATTTTCAATTCTATAAAGTTAGGGAGATAAATAACTACCACC

ATGCGCACGACGCTTATCTTAATGCCGTCGTAGGGACCGCACTCATTAAG

AAATACCCGAAGCTAGAAAGTGAGTTTGTGTATGGTGATTACAAAGTTTA

TGACGTCCGTAAGATGATCGCGAAAAGCGAACAGGAGATAGGCAAGGCTA

CAGCCAAATACTTCTTTTATTCTAACATTATGAATTTCTTTAAGACGGAA

ATCACTCTGGCAAACGGAGAGATACGCAAACGACCTTTAATTGAAACCAA

TGGGGAGACAGGTGAAATCGTATGGGATAAGGGCCGGGACTTCGCGACGG

TGAGAAAAGTTTTGTCCATGCCCCAAGTCAACATAGTAAAGAAAACTGAG

GTGCAGACCGGAGGGTTTTCAAAGGAATCGATTCTTCCAAAAAGGAATAG

TGATAAGCTCATCGCTCGTAAAAAGGACTGGGACCCGAAAAAGTACGGTG

GCTTCGATAGCCCTACAGTTGCCTATTCTGTCCTAGTAGTGGCAAAAGTT

GAGAAGGGAAAATCCAAGAAACTGAAGTCAGTCAAAGAATTATTGGGGAT

AACGATTATGGAGCGCTCGTCTTTTGAAAAGAACCCCATCGACTTCCTTG

AGGCGAAAGGTTACAAGGAAGTAAAAAAGGATCTCATAATTAAACTACCA

AAGTATAGTCTGTTTGAGTTAGAAAATGGCCGAAAACGGATGTTGGCTAG

CGCCGGAGAGCTTCAAAAGGGGAACGAACTCGCACTACCGTCTAAATACG

TGAATTTCCTGTATTTAGCGTCCCATTACGAGAAGTTGAAAGGTTCACCT

GAAGATAACGAACAGAAGCAACTTTTTGTTGAGCAGCACAAACATTATCT

CGACGAAATCATAGAGCAAATTTCGGAATTCAGTAAGAGAGTCATCCTAG

CTGATGCCAATCTGGACAAAGTATTAAGCGCATACAACAAGCACAGGGAT

AAACCCATACGTGAGCAGGCGGAAAATATTATCCATTTGTTTACTCTTAC

CAACCTCGGCGCTCCAGCCGCATTCAAGTATTTTGACACAACGATAGATC

GCAAACGATACACTTCTACCAAGGAGGTGCTAGACGCGACACTGATTCAC

CAATCCATCACGGGATTATATGAAACTCGGATAGATTTGTCACAGCTTGG

GGGTGACGGATCCCCCAAGAAGAAGAGGAAAGTCTCGAGCGACTACAAAG

ACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGAT

GACAAGGCTGCAGGA

(单一底线：HNH结构域；双重底线：RuvC结构域)

有些实施方案中，野生型Cas9对应于自化脓性链球菌(Streptococcus pyogenes)的Cas9(NCBI参考序列：NC_002737.2(核苷酸序列如下)；及Uniprot参考序列：Q99ZW2(氨基酸序列如下)：

ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGA

CTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAA

ATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGG

AGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAA

TGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTG

CGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTT

GGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTT

TAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCT

TATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGAC

TCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCG

ATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGAT

AAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGA

GTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAG

GAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTT

GATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGA

AGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAG

TTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAA

ATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTT

AGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTG

AGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAA

CAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATT

GATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTT

TGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGAT

GATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACA

AGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTA

TTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAA

GTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGA

AAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAAC

GAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCAT

CCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCT

CCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTT

TAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGAC

GATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAA

ATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATT

GGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAAT

TTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTT

TATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCAC

AAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTT

ATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTT

CCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATC

ATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAG

AAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTA

TGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAA

CCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAA

ATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAA

TGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAG

TGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAA

GTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTC

GGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTG

GTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTG

GAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGAT

CACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAG

AAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCT

AAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAG

TGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATG

TGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCA

GAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTT

AGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAG

CAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGAC

AAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGAC

GAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATC

GTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCAT

CAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGG

AGGTGACTGA

(单一底线：HNH结构域；双重底线：RuvC结构域)

有些实施方案中，Cas9是指来自以下各項的Cas9：溃疡棒状杆菌(Corynebacterium ulcerans)(NCBI Refs:NC_015683.1,NC_017317.1)；白喉棒状杆菌(Corynebacterium diphtheria)(NCBI Refs:NC_016782.1,NC_016786.1)；食蚜螺原体(Spiroplasma syrphidicola)(NCBI Ref:NC_021284.1)；中间普雷沃氏菌(Prevotellaintermedia)(NCBI Ref:NC_017861.1)；中国台湾螺原体(Spiroplasma taiwanense,China)(NCBI Ref:NC_021846.1)；鱼型链球菌(Streptococcus iniae)(NCBI Ref:NC_021314.1)；波罗的海贝尔氏菌(Belliella baltica)(NCBI Ref:NC_018010.1)；扭曲冷弯曲菌(Psychroflexus torquis)I(NCBI Ref:NC_018721.1)；嗜热链球菌(Streptococcusthermophilus)(NCBI Ref:YP_820832.1)、无害李斯特菌(Listeria innocua)(NCBI Ref:NP_472073.1)、空肠曲杆菌(Campylobacter jejuni)(NCBI Ref:YP_002344900.1)或脑膜炎双球菌(Neisseria.meningitidis)(NCBI Ref:YP_002342100.1)或来自任何其他生物体的Cas9。

应了解，额外Cas9蛋白质(例如：核酸酶灭活Cas9(dCas9)、Cas9切口酶(nCas9)、或核酸酶活性Cas9)，包括其变体和同源物，均在本发明范围内。Cas9蛋白质实例包括(但不限于)：彼等下文提供者。有些实施方案中，Cas9蛋白质为核酸酶灭活Cas9(dCas9)。有些实施方案中，Cas9蛋白质为Cas9切口酶(nCas9)。有些实施方案中，Cas9蛋白质为核酸酶活性Cas9。

有些实施方案中，Cas9结构域为核酸酶失活Cas9结构域(dCas9)。例如：dCas9结构域可能结合至双螺旋核酸分子(例如：经由gRNA分子)，不会裂解双螺旋核酸分子的任一链。有些实施方案中，核酸酶失活dCas9结构域包含本文所示氨基酸序列的D10X突变及H840X突变，或本文所提供任何氨基酸序列的对应突变，其中X为任何氨基酸改变。有些实施方案中，核酸酶失活dCas9结构域包含本文所示氨基酸序列的D10A突变及H840A突变，或本文所提供任何氨基酸序列的对应突变。其中一项实例，核酸酶失活Cas9结构域包含选殖载体pPlatTET-gRNA2(登录号BAV54124)所示的氨基酸序列。

催化性失活Cas9(dCas9)实例的氨基酸序列如下：MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

(参见例如：Qi等人，“Repurposing CRISPR as an RNA-guided platform forsequence-specific control of gene expression.”Cell.2013；152(5):1173-83，其完整内容已以引用方式并入本文中)。

其他合适核酸酶失活dCas9结构域是彼等本领域技术人员依据本发明技术人员，且是在本发明范围内。此等其他合适核酸酶失活Cas9结构域实例包括(但不限于)：D10A/H840A、D10A/D839A/H840A、及D10A/D839A/H840A/N863A突变体结构域(参见例如：Prashant等人，CAS9 transcriptional activators for target specificity screening andpaired nickases for cooperative genome engineering.Nature Biotechnology.2013；31(9):833-838，其完整内容已以引用方式并入本文中)。

有些实施方案中，Cas9核酸酶具有失活(例如：经过灭活)DNA裂解结构域，亦即Cas9为切口酶，称为“nCas9”蛋白质(针对“切口酶”Cas9)。核酸酶失活Cas9蛋白质可和“dCas9”蛋白质(针对核酸酶-“灭活”Cas9)或催化性失活Cas9交换使用。产生具有失活DNA裂解结构域的Cas9蛋白质(或其片段)的方法是已知者(参见例如：Jinek等人，Science.337:816-821(2012)；Qi等人，“Repurposing CRISPR as an RNA-GuidedPlatform for Sequence-Specific Control of Gene Expression”(2013)Cell.28；152(5):1173-83，其等内容已分别以全文引用方式并入本文中)。例如：已知Cas9的DNA裂解结构域包括两个子结构域，HNH核酸酶子结构域及RuvC1子结构域。HNH子结构域裂解gRNA的互补链，而RuvC1子结构域裂解非互补链。此等子结构域内的突变可以静默Cas9的核酸酶活性。例如：突变D10A及H840A使化脓性链球菌(S.pyogenes)Cas9的核酸酶活性完全失活(Jinek等人，Science.337:816-821(2012)；Qi等人，Cell.28；152(5):1173-83(2013))。

有些实施方案中，dCas9结构域包含和本文所提供任何一种dCas9结构域为至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致的氨基酸序列。有些实施方案中，Cas9结构域包含的氨基酸序列相较于本文所示任一氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或以上或更多个突变。有些实施方案中，Cas9结构域包含的氨基酸序列相较于本文所示任何一种氨基酸序列具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100、或至少1200个一致的连续氨基酸残基。

有些实施方案中，dCas9对应于、或包含具有使Cas9核酸酶活性失活的一个或多个突变的Cas9氨基酸序列的一部份或全部。例如：有些实施方案中，dCas9结构域包含D10A和H840A突变或在另一种Cas9中的对应突变。

有些实施方案中，dCas9包含dCas9的氨基酸序列(D10A及H840A)：

(单一底线：HNH结构域；双重底线：RuvC结构域)。

有些实施方案中，Cas9结构域包含D10A突变，而位置840的残基在上文提供的氨基酸序列，或在本文所提供任何氨基酸序列的对应位置保留组氨酸。

其他实施方案中，提供具有D10A及H840A以外的突变的dCas9变体，其例如：造成核酸酶失活Cas9(dCas9)。此等突变例如：包括在D10及H840的其他氨基酸取代、或在Cas9的核酸酶结构域内的其他取代(例如：在HNH核酸酶子结构域和/或RuvC1子结构域中的取代)。有些实施方案中，所提供dCas9的变体或同源物为至少约70％一致、至少约80％一致、至少约90％一致、至少约95％一致、至少约98％一致、至少约99％一致、至少约99.5％一致、或至少约99.9％一致。有些实施方案中，所提供dCas9的变体具有较短或较长的氨基酸序列，相差约5个氨基酸、相差约10个氨基酸、相差约15个氨基酸、相差约20个氨基酸、相差约25个氨基酸、相差约30个氨基酸、相差约40个氨基酸、相差约50个氨基酸、相差约75个氨基酸、相差约100个或更多个氨基酸。

有些实施方案中，Cas9结构域为Cas9切口酶。Cas9切口酶可为可以仅裂解双螺旋核酸分子(例如：双螺旋DNA分子)中一链的Cas9蛋白质。有些实施方案中，Cas9切口酶裂解双螺旋核酸分子的靶链，意指Cas9切口酶所裂解的链是和已结合至Cas9的gRNA(例如：sgRNA)呈碱基配对(互补)。有些实施方案中，Cas9切口酶包含D10A突变且在位置840具有组氨酸。有些实施方案中，Cas9切口酶裂解双螺旋核酸分子的非靶、非碱基编辑链，意指Cas9切口酶裂解的链不会和已结合至Cas9的gRNA(例如：sgRNA)呈碱基配对。有些实施方案中，Cas9切口酶包含H840A突变，且在位置10具有天冬氨酸残基、或对应突变。有些实施方案中，Cas9切口酶包含和本文所提供任何一个Cas9切口酶为至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致的氨基酸序列。其他合适的Cas9切口酶是本领域技术人员依据本发明技术人员，且是在本发明范围内。

催化性Cas9切口酶(nCas9)实例的氨基酸序列如下：

MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNL

IGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSF

FHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTD

KADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFE

ENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLG

LTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLS

DAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKY

KEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNRED

LLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFR

IPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTN

FDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKA

IVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDL

LKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKV

MKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLI

HDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDEL

VKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILK

EHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFL

KDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKF

DNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDEND

KLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTAL

IKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFK

TEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKK

TEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVA

KVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIK

LPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKG

SPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKH

RDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATL

IHQSITGLYETRIDLSQLGGD

有些实施方案中，Cas9是指来自古细菌(例如：纳古菌(nanoarchaea))的Cas9，其属于单细胞原核微生物域及单细胞原核微生物界。有些实施方案中，可编程核苷酸结合性蛋白质可为CasX或CasY蛋白质，其已说明于例如：Burstein等人，“New CRISPR-Cassystems from uncultivated microbes.”Cell Res.2017Feb 21.doi:10.1038/cr.2017.21，其完整内容已以引用方式并入本文中。使用总体基因体学分箱方式(genome-resolved metagenomics)判别许多CRISPR-Cas系统，包括在生命的古菌域首次报告的Cas9。此多样Cas9蛋白质已出现在少人研究的纳古细菌，成为活性CRISPR-Cas系统的一部份。已在细菌中发现两种过去未知的系统：CRISPR-CasX和CRISPR-CasY，其等是目前所发现最扎实的系统。有些实施方案中，在本文说明的碱基编辑器系统中，Cas9被CasX、或CasX的变体置换。有些实施方案中，在本文说明的碱基编辑器系统中，Cas9被CasY、或CasY的变体置换。应了解，可采用其他RNA-向导的DNA结合性蛋白质作为核酸可编程DNA结合性蛋白质(napDNAbp)，且在本发明范围内。

有些实施方案中，本文所提供任何融合蛋白的核酸可编程DNA结合性蛋白质(napDNAbp)可为CasX或CasY蛋白质。有些实施方案中，napDNAbp为CasX蛋白质。有些实施方案中，napDNAbp为CasY蛋白质。有些实施方案中，napDNAbp包含和天然CasX或CasY蛋白质为至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致的氨基酸序列。有些实施方案中，可编程核苷酸结合性蛋白质为天然CasX或CasY蛋白质。有些实施方案中，可编程核苷酸结合性蛋白质包含和本文所说明任何CasX或CasY蛋白质为至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致的氨基酸序列。应了解，根据本发明亦可采用来自其他细菌物种的CasX及CasY。

一项例举的CasX((uniprot.org/uniprot/F0NN87；uniprot.org/uniprot/F0NH53)

tr|F0NN87|F0NN87_SULIHCRISPR-associatedCasx protein OS＝冰岛硫化叶菌(Sulfolobus islandicus)(菌株HVE10/4)GN＝SiH_0402PE＝4SV＝1)氨基酸序列如下：

MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYK

IAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCY

NFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYEFGRSPGMVERTRRV

KLEVEPHYLIIAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQN

VNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVRIYTISDAVGQNPTTI

NGGFSIDLTKLLEKRYLLSERLEAIARNALSISSNMRERYIVLANYIYEY

LTG SKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGE。

一项例举的CasX(>tr|F0NH53|F0NH53_SULIR CRISPR相关的蛋白质，Casx OS＝冰岛硫化叶菌(Sulfolobus islandicus)(菌株REY15A)GN＝SiRe_0771PE＝4SV＝1)氨基酸序列如下：

MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYK

IAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCY

NFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYKFGRSPGMVERTRRV

KLEVEPHYLIMAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQN

VNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVSIYTISDAVGQNPTTI

NGGFSIDLTKLLEKRDLLSERLEAIARNALSISSNMRERYIVLANYIYEY

LTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGE。

δ-变形菌(Deltaproteobacteria)CasX

MEKRINKIRKKLSADNATKPVSRSGPMKTLLVRVMTDDLKKRLEKRRKKPEVMPQVISNNAANNLRMLLDDYTKMKEAILQVYWQEFKDDHVGLMCKFAQPASKKIDQNKLKPEMDEKGNLTTAGFACSQCGQPLFVYKLEQVSEKGKAYTNYFGRCNVAEHEKLILLAQLKPVKDSDEAVTYSLGKFGQRALDFYSIHVTKESTHPVKPLAQIAGNRYASGPVGKALSDACMGTIASFLSKYQDIIIEHQKVVKGNQKRLESLRELAGKENLEYPSVTLPPQPHTKEGVDfAYNEVIARVRMWVNLNLWQKLKLSRDDAKPLLRLKGFPSFPVVERRENEVDWWNTINEVKKLIDAKRDMGRVFWSGVTAEKRNTILEGYNYLPNENDHKKREGSLENPKKPAKRQFGDLLLYLEKKYAGDWGKVFDEAWERIDKKIAGLTSHIEREEARNAEDAQSKAVLTDWLRAKASFVLERLKEMDEKEFYACEIQLQKWYGDLRGNPFAVEAENRVVDISGFSIGSDGHSIQYRNLLAWKYLENGKREFYLLMNYGKKGRIRFTDGTDIKKSGKWQGLLYGGGKAKVIDLTFDPDDEQLIILPLAFGTRQGREFIWNDLLSLETGLIKLANGRVIEKTIYNKKIGRDEPALFVALTFERREVVDPSNIKPVNLIGVARGENIPAVIALTDPEGCPLPEFKDSSGGPTDILRIGEGYKEKQRAIQAAKEVEQRRAGGYSRKFASKSRNLADDMVRNSARDLFYHAVTHDAVLVFANLSRGFGRQGKRTFMTERQYTKMEDWLTAKLAYEGLTSKTYLSKTLAQYTSKTCSNCGFTITYADMDVMLVRLKKTSDGWATTLNNKELKAEYQITYYNRYKRQTVEKELSAELDRLSEESGNNDISKWTKGRRDEALFLLKKRFSHRPVQEQFVCLDCGHEVHAAEQAALNIARSWLFLNSNSTEFKSYKSGKQPFVGAWQAFYKRRLKEVWKPNA

一项例举的CasY((ncbi.nlm.nih.gov/protein/APG80656.1)>APG80656.1CRISPR-相关的蛋白质CasY[未培养的俭菌总门群(Parcubacteria)细菌])氨基酸序列如下：

MSKRHPRISGVKGYRLHAQRLEYTGKSGAMRTIKYPLYSSPSGGRTVPREIVSAIN

DDYVGLYGLSNFDDLYNAEKRNEEKVYSVLDFWYDCVQYGAVFSYTAPGLLKNVAEVRGG

SYELTKTLKGSHLYDELQIDKVIKFLNKKEISRANGSLDKLKKDIIDCFKAEYRERHKDQ

CNKLADDIKNAKKDAGASLGERQKKLFRDFFGISEQSENDKPSFTNPLNLTCCLLPFDTV

NNNRNRGEVLFNKLKEYAQKLDKNEGSLEMWEYIGIGNSGTAFSNFLGEGFLGRLRENKI

TELKKAMMDITDAWRGQEQEEELEKRLRILAALTIKLREPKFDNHWGGYRSDINGKLSSW

LQNYINQTVKIKEDLKGHKKDLKKAKEMINRFGESDTKEEAVVSSLLESIEKIVPDDSAD

DEKPDIPAIAIYRRFLSDGRLTLNRFVQREDVQEALIKERLEAEKKKKPKKRKKKSDAED

EKETIDFKELFPHLAKPLKLVPNFYGDSKRELYKKYKNAAIYTDALWKAVEKIYKSAFSS

SLKNSFFDTDFDKDFFIKRLQKIFSVYRRFNTDKWKPIVKNSFAPYCDIVSLAENEVLYK

PKQSRSRKSAAIDKNRVRLPSTENIAKAGIALARELSVAGFDWKDLLKKEEHEEYIDLIE

LHKTALALLLAVTETQLDISALDFVENGTVKDFMKTRDGNLVLEGRFLEMFSQSIVFSEL

RGLAGLMSRKEFITRSAIQTMNGKQAELLYIPHEFQSAKITTPKEMSRAFLDLAPAEFAT

SLEPESLSEKSLLKLKQMRYYPHYFGYELTRTGQGIDGGVAENALRLEKSPVKKREIKCK

QYKTLGRGQNKIVLYVRSSYYQTQFLEWFLHRPKNVQTDVAVSGSFLIDEKKVKTRWNYD

ALTVALEPVSGSERVFVSQPFTIFPEKSAEEEGQRYLGIDIGEYGIAYTALEITGDSAKI

LDQNFISDPQLKTLREEVKGLKLDQRRGTFAMPSTKIARIRESLVHSLRNRIHHLALKHK

AKIVYELEVSRFEEGKQKIKKVYATLKKADVYSEIDADKNLQTTVWGKLAVASEISASYT

SQFCGACKKLWRAEMQVDETITTQELIGTVRVIKGGTLIDAIKDFMRPPIFDENDTPFPK

YRDFCDKHHISKKMRGNSCLFICPFCRANADADIQASQTIALLRYVKEEKKVEDYFERFR

KLKNIKVLGQMKKI。

Cas9核酸酶有两个功能性内切核酸酶结构域：RuvC和HNH。Cas9当和靶结合时，出现构形变化，让核酸酶结构域的位置可以裂解靶DNA的相反链。Cas9-介导DNA裂解的最后结果为在靶DNA内(PAM序列上游～3-4个核苷酸)的双链断裂(DSB)。所得DSB再被以下两种一般修复途径之一进行修复：(1)有效但容易出错的非同源性末端接合(NHEJ)途径；或(2)效能较低但保真度高的同源基因向导修复(HDR)途径。

非同源性末端接合(NHEJ)和/或同源基因向导修复(HDR)的“效能”可采用任何合宜方法计算。例如：有些实施方案中，效能是以成功HDR的百分比表示。例如：可采用surveyor nuclease分析法来产生裂解产物，并采用产物对受质的比例来计算百分比。例如：可采用测量师核酸酶分析法，直接裂解包含由成功HDR的结果所产生包含新整合的限制酶序列的DNA。越多受质被裂解表示HDR百分比越高(HDR的效能越高)。一项例示实例中，可采用下列公式计算HDR的比例(百分比)[(裂解产物)/(受质加裂解产物)](例如：(b+c)/(a+b+c)，其中“a”为DNA受质的条带密度，及“b”和“c”为裂解产物)。

有些实施方案中，效能可依成功NHEJ的百分比表示。例如：可采用T7内切核酸酶I分析法来产生裂解产物，及采用产物对受质的比例来计算NHEJ的百分比。T7内切核酸酶I裂解由野生型和突变体DNA链杂交产生的错配杂双螺旋DNA(NHEJ在原始断裂位点产生小的随机插入或缺失(indel))。裂解越多表示NHEJ百分比越高(NHEJ的效能越高)。一项例示实例中，可采用下列公式计算NHEJ的比例(百分比)：(1-(1-(b+c)/(a+b+c))^1/2)×100，其中“a”为DNA受质的条带密度，及“b”和“c”为裂解产物(Ran等人，Cell.2013Sep.12；154(6):1380-9；and Ran等人.,Nat Protoc.2013Nov.；8(11):2281–2308)。

NHEJ修复途径为最活跃的修复机转，经常在DSB位点引起小的核苷酸插入或缺失。NHEJ-介导DSB修复的随机度具有重要的实际影响，因为表达Cas9和gRNA或向导多核苷酸的细胞族群会造成分岐化突变。大多数例子中，NHEJ在靶DNA中产生小的插入或缺失，造成氨基酸缺失、插入、或移码突变，造成在靶基因的开放读码框(ORF)内提早形成终止密码子。理想的最终结果为在靶基因内的功能丧失型突变。

虽然NHEJ-介导DSB修复经常瓦解基因的开放读码框，因此可使用同源基因向导修复(HDR)来产生特异性核苷酸改变，其范围从单一核苷酸改变成大型嵌段，如：添加萤光团或标签。为了利用HDR进行基因编辑，可由包含所需序列的DNA修复模板传递至具有gRNA(群)及Cas9或Cas9切口酶的细胞型态。修复模板可包含所需编辑及紧接在靶上游及下游的额外同源性序列(称为左同源臂和右同源臂)。各同源臂的长度可随所要引进的改变大小而定，嵌段越大需要越长同源臂。修复模板可为单链寡核苷酸、双链寡核苷酸、或双链DNA质粒。即使在表达Cas9、gRNA和外因性修复模板的细胞中，HDR的效能通常仍低(<10％的经修饰对偶基因)。HDR的效能可通过细胞同步化加强，因为HDR在细胞周期的S期和G2期期间发生。涉及NHEJ的化学性或遗传性抑制基因亦可提高HDR频率。

有些实施方案中，Cas9为经修饰的Cas9。指定的gRNA靶向序列可在具有部份同源性的整个基因体中具有额外位点。此等位点称为脱靶点，必需在设计gRNA时加以考虑。除了优化gRNA设计外，亦可透过对Cas9的修饰来提高CRISPR特异性。Cas9透过组合两种核酸酶结构域，RuvC和HNH的活性，产生双链断裂(DSB)。Cas9切口酶(是SpCas9的D10A突变体)保留一个核酸酶结构域，并产生DNA切口，而非DSB。切口酶系统亦可组合HDR-介导的基因编辑，供进行特异性基因编辑。

有些实施方案中，Cas9为变体Cas9蛋白质。变体Cas9多肽具有的氨基酸序列在相较于野生型Cas9蛋白质的氨基酸序列时，差异在于一个氨基酸(例如：具有缺失、插入、取代、融合)。有些例子中，变体Cas9多肽具有的氨基酸改变(例如：缺失、插入、或取代)会降低Cas9多肽的核酸酶活性。例如：有些例子中，变体Cas9多肽具有低于50％、低于40％、低于30％、低于20％、低于10％、低于5％、或低于1％的对应野生型Cas9蛋白质的核酸酶活性。有些实施方案中，变体Cas9蛋白质没有实质核酸酶活性。当个体Cas9蛋白质为没有实质核酸酶活性的变体Cas9蛋白质时，其可称为“dCas9”。

有些实施方案中，变体Cas9蛋白质具有降低的核酸酶活性。例如：变体Cas9蛋白质具有低于约20％、低于约15％、低于约10％、低于约5％、低于约1％、或低于约0.1％的野生型Cas9蛋白质(例如：野生型Cas9蛋白质)的内切核酸酶活性。

有些实施方案中，变体Cas9蛋白质可裂解向导靶序列的互补链，但裂解双链向导靶序列的非互补的能力已降低。例如：变体Cas9蛋白质可具有会降低RuvC结构域功能的突变(氨基酸取代)。作为非限制性实例，有些实施方案中，变体Cas9蛋白质具有D10A(位置10天冬氨酸成为丙氨酸氨基酸)，因此可以裂解双链向导靶序列的互补链，但裂解双链向导靶序列的非互补链的能力已降低(因此当变体Cas9蛋白质裂解双链靶核酸时，会造成单链断裂(SSB)，而非双链断裂(DSB))(参见例如：Jinek等人，Science.2012Aug.17；337(6096):816-21)。

有些实施方案中，变体Cas9蛋白质可裂解双链向导靶序列的非互补链，但裂解向导靶序列的互补链的能力已降低。例如：变体Cas9蛋白质可具有降低HNH结构域(RuvC/HNH/RuvC结构域基序)功能的突变(氨基酸取代)。作为非限制性实例，有些实施方案中，变体Cas9蛋白质具有H840A(位置840组氨酸成为丙氨酸氨基酸)突变，因此可裂解向导靶序列的非互补链，但裂解向导靶序列的互补链的能力已降低(因此当变体Cas9蛋白质裂解双链向导靶序列时，会产生SSB而非DSB)。此等Cas9蛋白质裂解向导靶序列(例如：单链向导靶序列)的能力已降低，但保留和向导靶序列(例如：单链向导靶序列)结合的能力。

有些实施方案中，变体Cas9蛋白质裂解双链靶DNA的互补链和非互补链二者的能力已降低。作为非限制性实例，有些实施方案中，变体Cas9蛋白质带有D10A和H840A突变二者，因此所述多肽裂解双链靶DNA的互补链和非互补链二者的能力已降低。此等Cas9蛋白质裂解靶DNA(例如：单链靶DNA)的能力已降低，但保留和靶DNA(例如：单链靶DNA)结合的能力。

作为另一项非限制性实例，有些实施方案中，变体Cas9蛋白质带有W476A及W1126A突变，因此所述多肽裂解靶DNA的能力已降低。此等Cas9蛋白质裂解靶DNA(例如：单链靶DNA)的能力已降低，但保留和靶DNA(例如：单链靶DNA)结合的能力。

作为另一项非限制性实例，有些实施方案中，变体Cas9蛋白质带有P475A、W476A、N477A、D1125A、W1126A、及D1127A突变，因此所述多肽裂解靶DNA的能力已降低。此等Cas9蛋白质裂解靶DNA(例如：单链靶DNA)的能力已降低，但保留和靶DNA(例如：单链靶DNA)结合的能力。

作为另一项非限制性实例，有些实施方案中，变体Cas9蛋白质带有H840A、W476A、及W1126A突变，因此所述多肽裂解靶DNA的能力已降低。此等Cas9蛋白质裂解靶DNA(例如：单链靶DNA)的能力已降低，但保留和靶DNA(例如：单链靶DNA)结合的能力。作为另一项非限制性实例，有些实施方案中，变体Cas9蛋白质带有H840A、D10A、W476A、及W1126A突变，因此所述多肽裂解靶DNA的能力已降低。此等Cas9蛋白质裂解靶DNA(例如：单链靶DNA)的能力已降低，但保留和靶DNA(例如：单链靶DNA)结合的能力。有些实施方案中，变体Cas9已在Cas9HNH结构域的位置840恢复催化性His残基(A840H)。

作为另一项非限制性实例，有些实施方案中，变体Cas9蛋白质带有H840A、P475A、W476A、N477A、D1125A、W1126A、及D1127A突变，因此所述多肽裂解靶DNA的能力已降低。此等Cas9蛋白质裂解靶DNA(例如：单链靶DNA)的能力已降低，但保留和靶DNA(例如：单链靶DNA)结合的能力。作为另一项非限制性实例，有些实施方案中，变体Cas9蛋白质带有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A、及D1127A突变，因此所述多肽裂解靶DNA的能力已降低。此等Cas9蛋白质裂解靶DNA(例如：单链靶DNA)的能力已降低，但保留和靶DNA(例如：单链靶DNA)结合的能力。有些实施方案中，当变体Cas9蛋白质带有W476A及W1126A突变或当变体Cas9蛋白质带有P475A、W476A、N477A、D1125A、W1126A、及D1127A突变时，所述变体Cas9蛋白质不会和PAM序列有效结合。因此，有些例子中，当在结合的方法中使用此等变体Cas9蛋白质时，所述方法不需要PAM序列。换言的，有些实施方案中，当在结合的方法中使用此等变体Cas9蛋白质时，所述方法可包括向导RNA，但所述方法可以在没有PAM序列下进行(因此结合特异性是由向导RNA的靶向节段提供)。其他残基可以突变，以达成上述效果(亦即使使一个或另一个核酸酶部份失活)。作为非限制性实例，残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986、和/或A987可经改变(亦即取代)。此外，丙氨酸取代以外的突变亦合适。

有些实施方案中，变体Cas9蛋白质具有降低的催化性活性(例如：当Cas9蛋白质具有D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986、和/或A987突变，例如：D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A、和/或D986A时)，变体Cas9蛋白质仍然会依位点特异性方式和靶DNA结合(因为其仍然通过向导RNA来向导至靶DNA序列)。只要其仍保留和向导RNA交互作用的能力。

有些实施方案中，变体Cas蛋白质可为spCas9、spCas9-VRQR、spCas9-VRER、xCas9(sp)、saCas9、saCas9-KKH、spCas9-MQKSER、spCas9-LRKIQK、或spCas9-LRVSQL。

有些实施方案中，采用包括氨基酸取代D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E、及T1337R(SpCas9-MQKFRAER)且对经改变的PAM 5’-NGC-3’具有特异性的经修饰的SpCas9。

化脓性链球菌(S.pyogenes)Cas9的替代物可包括来自在哺乳动物细胞中展现裂解活性的Cpf1家族的RNA-向导内切核酸酶。来自普雷沃氏菌(Prevotella)及弗朗西斯氏菌(Francisella)1的CRISPR(CRISPR/Cpf1)为类似CRISPR/Cas9系统的DNA-编辑技术。Cpf1为第II类CRISPR/Cas系统的RNA-向导内切核酸酶。此后天免疫机转出现在普雷沃氏菌(Prevotella)及弗朗西斯氏菌(Francisella)细菌中。Cpf1基因是和CRISPR基因座相联，编码内切核酸酶，会利用向导RNA找到病毒DNA并裂解。Cpf1为比Cas9小且较简单的内切核酸酶，其克服有些CRISPR/Cas9系统限制。不同于Cas9核酸酶，Cpf1-介导的DNA裂解的结果为具有一个短的3′突出段的双链断裂。Cpf1的交错裂解模式可以打开方向性基因转运的可能性，其类似传统的限制酶选殖法，可以提高基因编辑效能。如同上述Cas9变体及直是同源物，Cpf1亦可使被CRISPR靶向的位点数量扩张至缺少SpCas9偏好的NGG PAM位点的AT-富集区或AT-富集基因体。Cpf1基因座包含混合α/β结构域，RuvC-I，后面接着螺旋区，RuvC-II和锌指样结构域。Cpf1蛋白质具有类似Cas9的RuvC结构域的RuvC-样内切核酸酶结构域。此外，Cpf1没有HNH内切核酸酶结构域，及Cpf1的N末端没有Cas9的α-螺旋辨识叶。Cpf1CRISPR-Cas结构域构造显示Cpf1具独特功能性，归于第2类V型CRISPR系统。Cpf1基因座编码的Cas1、Cas2及Cas4蛋白质相较于第II型系统更类似I型及III型。功能性Cpf1不需要反式激活CRISPR RNA(tracrRNA)，因此仅需要CRISPR(crRNA)。此点有利于基因体编辑，因为Cpf1不仅比Cas9小，而且亦具有较小sgRNA分子(约Cas9的核苷酸数量的一半)。和被Cas9靶向的G-富集PAM相反，Cpf1-crRNA复合物通过判别原间隔相邻基序5’-YTN-3’来裂解靶DNA或RNA。判别PAM后，Cpf1引进一个含4或5个核苷酸的突出段的黏端样DNA双链断裂。

核碱基编辑器的Cas12结构域

通常，微生物CRISPR-Cas系统分成第1类和第2类系统。第1类系统具有多重亚单位效应复合物，而第2类系统具有单一蛋白质效应子。例如：Cas9及Cpf1为第2类效应子，尽管型态不同(分别为II型及V型)。除了Cpf1外，第2类V型CRISPR-Cas系统亦包含Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、及Cas12i)。参见例如：Shmakov等人，“Discovery and Functional Characterization of Diverse Class2CRISPR Cas Systems”Mol.Cell,2015Nov.5；60(3):385-397；Makarova等人，“Classification and Nomenclature of CRISPR-Cas Systems:Where from Here？”CRISPR Journal,2018,1(5):325-336；及Yan等人，“Functionally Diverse Type VCRISPR-Cas Systems”Science,2019Jan.4；363:88-91；其等完整内容已分别以引用方式并入本文中。V型Cas蛋白质包含RuvC(或RuvC-样)内切核酸酶结构域。虽然成熟CRISPR RNA(crRNA)的制造通常不依赖tracrRNA，但例如：Cas12b/C2c1，则需要tracrRNA来制造crRNA。Cas12b/C2c1依赖crRNA和tracrRNA二者来裂解DNA。

本发明考虑的核酸可编程DNA结合性蛋白质包括归于第2类V型的Cas蛋白质(Cas12蛋白质)。Cas第2类V型蛋白质的非限制性实例包括Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、及Cas12i、其同源物、或其修饰型。本文所采用Cas12蛋白质亦可称为Cas12核酸酶、Cas12结构域、或Cas12蛋白质结构域。有些实施方案中，本发明Cas12蛋白质包含穿插内部融合蛋白结构域(如：脱氨酶结构域)的氨基酸序列。

有些实施方案中，Cas12结构域为核酸酶失活Cas12结构域或Cas12切口酶。有些实施方案中，Cas12结构域为核酸酶活性结构域。例如：Cas12结构域可为切割双螺旋核酸(例如：双螺旋DNA分子)中一链的Cas12结构域。有些实施方案中，Cas12结构域包含本文所示的任何一种氨基酸序列。有些实施方案中，Cas12结构域包含和本文所示任何一种氨基酸序列为至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致的氨基酸序列。有些实施方案中，Cas12结构域包含的氨基酸序列相较于本文所示任何一种氨基酸序列，具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个突变。有些实施方案中，Cas12结构域包含的氨基酸序列相较于本文所示任何一种氨基酸序列具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100、或至少1200个一致的连续氨基酸残基。

有些实施方案中，提供包含Cas12的片段的蛋白质。例如：有些实施方案中，蛋白质包含一或两个Cas12结构域：(1)Cas12的gRNA结合结构域；或(2)Cas12的DNA裂解结构域。有些实施方案中，包含Cas12或其片段的蛋白质因此称为“Cas12变体”。Cas12变体和Cas12或其片段有共通同源性。例如：Cas12变体是和野生型Cas12为至少约70％一致、至少约80％一致、至少约90％一致、至少约95％一致、至少约96％一致、至少约97％一致、至少约98％一致、至少约99％一致、至少约99.5％一致、或至少约99.9％一致。有些实施方案中，Cas12变体相较于野生型Cas12，可能具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个氨基酸改变。有些实施方案中，Cas12变体包含Cas12的片段(例如：gRNA结合结构域或DNA裂解结构域)，因此所述片段是和野生型Cas12的对应片段为至少约70％一致、至少约80％一致、至少约90％一致、至少约95％一致、至少约96％一致、至少约97％一致、至少约98％一致、至少约99％一致、至少约99.5％一致、或至少约99.9％一致。有些实施方案中，所述片段为对应野生型Cas12氨基酸长度的至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％一致、至少96％、至少97％、至少98％、至少99％、或至少99.5％。有些实施方案中，所述片段为至少100个氨基酸的长度。有些实施方案中，所述片段为至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250、或至少1300个氨基酸的长度。

有些实施方案中，Cas12对应于或包含具有一个或多个修改Cas12核酸酶活性的突变的Cas12氨基酸序列的一部份或全部。此等突变例如：包括Cas12的RuvC核酸酶结构域内的氨基酸取代。有些实施方案中，提供的Cas12的变体或同源物是和野生型Cas12为至少约70％一致、至少约80％一致、至少约90％一致、至少约95％一致、至少约98％一致、至少约99％一致、至少约99.5％一致、或至少约99.9％一致。有些实施方案中，所提供的Cas12变体具有较短或较长的氨基酸序列，相差约5个氨基酸、相差约10个氨基酸、相差约15个氨基酸、相差约20个氨基酸、相差约25个氨基酸、相差约30个氨基酸、相差约40个氨基酸、相差约50个氨基酸、相差约75个氨基酸、相差约100个或更多个氨基酸。

有些实施方案中，本文提供的Cas12融合蛋白包含Cas12蛋白质的全长氨基酸序列，例如：本文所提供的其中一种Cas12序列。然而其他实施方案中，本文所提供的融合蛋白不包含全长Cas12序列，而仅包含其一或多个片段。本文所提供合适Cas12结构域的氨基酸序列实例及其他合适的Cas12结构域序列及片段是彼等本领域技术人员通常理解者。

通常，第2类V型Cas蛋白质具有单一功能性RuvC内切核酸酶结构域(参见例如：Chen等人，“CRISPR-Cas12a target binding unleashes indiscriminate single-stranded DNase activity.”Science 360:436-439(2018))。有些例子中，Cas12蛋白质为Cas12b蛋白质的变体。(参见Strecker等人，Nature Communications,2019,10(1):Art.No.:212)。一项实施方案中，变体Cas12多肽的氨基酸序列当相较于野生型Cas12蛋白质的氨基酸序列时，具有1、2、3、4、5或更多个氨基酸差异(例如：具有缺失、插入、取代、融合)。有些例子中，变体Cas12多肽具有的氨基酸改变(例如：缺失、插入、或取代)会降低Cas12多肽的活性。例如：有些例子中，变体Cas12为低于50％、低于40％、低于30％、低于20％、低于10％、低于5％、或低于1％的对应野生型Cas12b蛋白质的切口酶活性的Cas12b多肽。有些例子中，变体Cas12b蛋白质没有实质切口酶活性。

有些例子中，变体Cas12b蛋白质具有降低的切口酶活性。例如：变体Cas12b蛋白质具有低于约20％、低于约15％、低于约10％、低于约5％、低于约1％、或低于约0.1％野生型Cas12b蛋白质的切口酶活性。

有些实施方案中，Cas12蛋白质包括来自在哺乳动物细胞中展现活性的Cas12a/Cpf1家族的RNA-向导内切核酸酶。来自普雷沃氏菌(Prevotella)及弗朗西斯氏菌(Francisella)1(CRISPR/Cpf1)的CRISPR为类似CRISPR/Cas9系统的DNA编辑技术。Cpf1为第II类CRISPR/Cas系统的RNA-向导内切核酸酶。此后天免疫机转出现在普雷沃氏菌(Prevotella)及弗朗西斯氏菌(Francisella)细菌。Cpf1基因是和CRISPR基因座相联，编码内切核酸酶，其利用向导RNA找到病毒DNA并裂解。Cpf1为比Cas9小且较简单的内切核酸酶，其克服有些CRISPR/Cas9系统限制。不同于Cas9核酸酶，Cpf1-介导DNA裂解的结果为具有一个短的3′突出段的双链断裂。Cpf1的交错裂解模式可以打开方向性基因转运的可能性，其类似传统的限制酶选殖法，可以提高基因编辑效能。如同上述Cas9变体及直是同源物，Cpf1亦可扩张可让CRISPR靶向缺乏SpCas9偏好的NGG PAM位点的AT-富集区或AT-富集基因体的位点数量。Cpf1基因座包含混合α/β结构域、后面接着螺旋区的RuvC-I、RuvC-II及锌指样结构域。Cpf1蛋白质具有类似Cas9的RuvC结构域的RuvC-样内切核酸酶结构域。此外，不同于Cas9，Cpf1没有HNH内切核酸酶结构域，及Cpf1的N末端没有Cas9的α-螺旋辨识叶。Cpf1CRISPR-Cas结构域构造显示Cpf1具独特功能性，归于第2类V型CRISPR系统。Cpf1基因座编码的Cas1、Cas2及Cas4蛋白质相较于第II型系统更类似I型及III型。功能性Cpf1不需要反式激活CRISPR RNA(tracrRNA)，因此仅需要CRISPR(crRNA)。此点有利于基因体编辑，因为Cpf1不仅比Cas9小，而且亦具有较小sgRNA分子(约Cas9的核苷酸数量的一半)。和Cas9靶向G-富集PAM相反，Cpf1-crRNA复合物通过判别原间隔相邻基序5’-YTN-3’或5’-TTTN-3’来裂解靶DNA或RNA。判别PAM后，Cpf1引进一个含4或5个核苷酸的突出段的黏端样DNA双链断裂。

有些本发明实施例中，可使用编码已在对应野生型酶上产生突变的CRISPR酶的载体，因此所述突变的CRISPR酶缺乏裂解包含靶序列的靶多核苷酸的一链或两链。Cas12可指和例举的野生型Cas12多肽(例如：来自外村尚芽孢杆菌(Bacillus hisashii)的Cas12)为至少或至少约50％、60％、70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、或100％序列一致性和/或序列同源性的肽。Cas12可指和例举的野生型Cas12多肽(例如：来自外村尚芽孢杆菌(Bacillus hisashii)(BhCas12b)、芽孢杆菌属(Bacillus sp.)V3-13(BvCas12b)、及酸性脂环酸芽孢杆菌(Alicyclobacillus acidiphilus)(AaCas12b)的多肽)为至多或至多约50％、60％、70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、或100％序列一致性和/或序列同源性的多肽。Cas12可指Cas12蛋白质的野生型或修饰型，其可包含氨基酸改变，如：缺失、插入、取代、变体、突变、融合、嵌合、或其任何组合。

核酸可编程DNA结合性蛋白质

有些本发明实施例提供包含可作为核酸可编程DNA结合性蛋白质的结构域的融合蛋白，其可用于向导诸如：碱基编辑器的蛋白质到特异性核酸(例如：DNA或RNA)序列。特定实施方案中，融合蛋白包含核酸可编程DNA结合性蛋白质结构域及脱氨酶结构域。核酸可编程DNA结合性蛋白质的非限制性实例包括Cas9(例如：dCas9及nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、及Cas12i。Cas酶的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(亦称为Csn1或Csx12)、Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csx11、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、II型Cas效应蛋白质、V型Cas效应蛋白质、VI型Cas效应蛋白质、CARF、DinG、其同源物、或其修饰型或工程化型。其他核酸可编程DNA结合性蛋白质亦在本发明范围内，但其等可能未明确列示于本揭示内容中。参见例如：Makarova等人，“Classification and Nomenclature of CRISPR-Cas Systems:Where from Here？”CRISPR J.2018Oct；1:325-336.doi:10.1089/crispr.2018.0033；Yan等人，“Functionallydiverse type V CRISPR-Cas systems”Science.2019Jan 4；363(6422):88-91.doi:10.1126/science.aav7271，其等内容已分别以全文引用方式并入本文中。

具有不同于Cas9的PAM特异性的核酸可编程DNA-结合性蛋白质实例之一为来自普雷沃氏菌(Prevotella)及弗朗西斯氏菌(Francisella)1(Cpf1)的规律间隔成簇短回文重复序列(clustered regularly interspaced short palindromic repeat)。类似Cas9，Cpf1亦为第2类CRISPR效应子。已显示Cpf1介导可靠的DNA干扰性，具有不同于Cas9的特色。Cpf1为缺乏tracrRNA的单一RNA-向导内切核酸酶，其利用T-富集的原间隔相邻基序(TTN、TTTN、或YTN)。此外，Cpf1经由交错DNA双链断裂来裂解DNA。16种Cpf1-f家族蛋白质中，有两种来自氨基酸球菌属(Acidaminococcus)及毛螺菌科(Lachnospiraceae)的酶在人类细胞中显示具有有效能的基因体-编辑活性。Cpf1蛋白质是本领域已知的且过去已有说明，例如：Yamano等人，“Crystal structure of Cpf1 in complex with guide RNA and targetDNA.“Cell(165)2016,p.949-962；其完整内容已以引用方式并入本文中。

适用于本组合物和方法者为用为向导核苷酸序列可编程DNA-结合性蛋白质结构域的核酸酶失活Cpf1(dCpf1)变体。Cpf1蛋白质具有类似Cas9的RuvC结构域的RuvC-样内切核酸酶结构域，但没有HNH内切核酸酶结构域，且Cpf1的N末端没有Cas9的α-螺旋辨识叶。其出示于Zetsche等人，Cell,163,759-771,2015(其内容已以引用方式并入本文中)，Cpf1的RuvC-样结构域负责裂解两条DNA链，及RuvC-样结构域的失活会使Cpf1核酸酶活性失活。例如：在新弗朗西斯菌(Francisella novicida)Cpf1中对应于D917A、E1006A、或D1255A的突变会使Cpf1核酸酶活性失活。有些实施方案中，本发明dCpf1包含对应于D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A、或D917A/E1006A/D1255A的突变。严了解，任何使Cpf1的RuvC结构域失活的突变，例如：取代突变、缺失、或插入，均可的根据本发明使用。

有些实施方案中，本文所提供任何融合蛋白的核酸可编程DNA结合性蛋白质(napDNAbp)可为Cpf1蛋白质。有些实施方案中，Cpf1蛋白质Cpf1切口酶(nCpf1)。有些实施方案中，Cpf1蛋白质为核酸酶失活Cpf1(dCpf1)。有些实施方案中，Cpf1、nCpf1、或dCpf1包含和本文所揭示Cpf1序列为至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致的氨基酸序列。有些实施方案中，dCpf1包含和本文所揭示Cpf1序列为至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致的氨基酸序列，且包含对应于D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A、或D917A/E1006A/D1255A的突变。应了解，根据本发明亦可使用来自其他细菌物种的Cpf1。

野生型新弗朗西斯菌(Francisella novicida)Cpf1(D917、E1006、和D1255为粗体及底线)：

新弗朗西斯菌(Francisella novicida)Cpf1 D917A(A917、E1006、及D1255为粗体及底线)：

新弗朗西斯菌(Francisella novicida)Cpf1 E1006A(D917、A1006、及D1255为粗体及底线)：

新弗朗西斯菌(Francisella novicida)Cpf1 D1255A(D917、E1006、及A1255为粗体及底线)

新弗朗西斯菌(Francisella novicida)Cpf1 D917A/E1006A(A917、A1006、及D1255为粗体及底线)：

新弗朗西斯菌(Francisella novicida)Cpf1 D917A/D1255A(A917、E1006、及A1255为粗体及底线)：

新弗朗西斯菌(Francisella novicida)Cpf1 E1006A/D1255A(D917、A1006、及A1255为粗体及底线)：

新弗朗西斯菌(Francisella novicida)Cpf1D917A/E1006A/D1255A(A917、A1006、及A1255为粗体及底线)：

有些实施方案中，存在于融合蛋白中的一个Cas9结构域可被PAM序列不需要的向导核苷酸序列可编程DNA-结合性蛋白质结构域置换。

有些实施方案中，Cas9结构域为来自金黄色葡萄球菌(Staphylococcus aureus)的Cas9结构域(SaCas9)。有些实施方案中，SaCas9结构域为核酸酶活性SaCas9、核酸酶失活SaCas9(SaCas9d)、或SaCas9切口酶(SaCas9n)。有些实施方案中，SaCas9包含N579A突变，或在本文所提供任何氨基酸序列的对应突变。

有些实施方案中，SaCas9结构域、SaCas9d结构域、或SaCas9n结构域可以结合至具有非典型PAM的核酸序列。有些实施方案中，SaCas9结构域、SaCas9d结构域、或the SaCas9n结构域可以结合至具有NNGRRT或NNGRRT PAM序列的核酸序列。有些实施方案中，SaCas9结构域包含一个或多个E781X、N967X、及R1014X突变，或在本文所提供任何氨基酸序列中的对应突变，其中X为任何氨基酸。有些实施方案中，SaCas9结构域包含一个或多个E781K、N967K、及R1014H突变，或在本文所提供任何氨基酸序列中的一个或多个对应突变。有些实施方案中，SaCas9结构域包含E781K、N967K、或R1014H突变，或在本文所提供任何氨基酸序列中的对应突变。

SaCas9序列实例：

上述以底线及粗体表示的残基N579可以突变(例如：形成A579)，产生SaCas9切口酶。

SaCas9n序列实例：

可从N579突变产生SaCas9切口酶的上述残基A579是以底线及粗体表示。

SaKKH Cas9实例：

可以从N579突变产生SaCas9切口酶的上述残基A579是以底线及粗体表示。可以从E781、N967、及R1014突变产生SaKKH Cas9的残基K781、K967、及H1014是以底线及斜体表示。

有些实施方案中，napDNAbp为环状排列。下列序列中，纯文字代表腺苷脱氨酶序列，粗体序列是指示由Cas9衍生的序列，斜体序列代表连接子序列，及底线序列代表二分核定位序列。

CP5(具有MSP“NGC”PID及“D10A”切口酶)：

有些实施方案中，核酸可编程DNA结合性蛋白质(napDNAbp)为微生物CRISPR-Cas系统的单一效应子。微生物CRISPR-Cas系统的单一效应子包括(但不限于)：Cas9、Cpf1、Cas12b/C2c1、及Cas12c/C2c3。通常，微生物CRISPR-Cas系统分成第1类和第2类系统。第1类系统具有多重亚单位效应复合物，而第2类系统具有单一蛋白质效应子。例如：Cas9及Cpf1为第2类效应子。除了Cas9及Cpf1外，Shmakov等人已于“Discovery and FunctionalCharacterization of Diverse Class 2CRISPR Cas Systems”,Mol.Cell,2015Nov.5；60(3):385-397说明三种不同的第2类CRISPR-Cas系统(Cas12b/C2c1、及Cas12c/C2c3)，其完整内容已以引用方式并入本文中。其中两个系统Cas12b/C2c1和Cas12c/C2c3的效应子包含和Cpf1有关的RuvC-样内切核酸酶结构域。第三个系统包含具有两个预测HEPN RNase结构域的效应子。成熟CRISPR RNA的制造不依赖tracrRNA，此点不同于由Cas12b/C2c1制造的CRISPR RNA。Cas12b/C2c1依赖CRISPR RNA和tracrRNA二者来裂解DNA。

酸土脂环酸芽孢杆菌(Alicyclobaccillus acidoterrastris)Cas12b/C2c1(AacC2c1)的结晶结构已说明于和嵌合的单一分子向导RNA(sgRNA)的复合物中。参见例如：Liu等人，“C2c1-sgRNA Complex Structure Reveals RNA-Guided DNA CleavageMechanism”,Mol.Cell,2017Jan.19；65(2):310-322，其完整内容已以引用方式并入本文中。亦在和靶DNA结合的酸土脂环酸芽孢杆菌(Alicyclobaccillus acidoterrastris)C2c1中报告所述结晶结构，是呈三元复合物。参见例如：Yang等人，“PAM-dependent Target DNARecognition and Cleavage by C2C1 CRISPR-Cas endonuclease”,Cell,2016Dec.15；167(7):1814-1828，其完整内容已以引用方式并入本文中。AacC2c1的催化性组份构形，二者均具有靶及非靶DNA链，已分别独立被捕捉放置在单一RuvC催化性凹袋内，由Cas12b/C2c1-介导的裂解造成靶DNA的交错七个核苷酸断裂。比较Cas12b/C2c1三元复合物和先前判别的Cas9和Cpf1对应物的结构，证实CRISPR-Cas9系统所采用机转的多样化。

有些实施方案中，本文所提供任何融合蛋白的核酸可编程DNA结合性蛋白质(napDNAbp)可为Cas12b/C2c1、或Cas12c/C2c3蛋白质。有些实施方案中，napDNAbp为Cas12b/C2c1蛋白质。有些实施方案中，napDNAbp为Cas12c/C2c3蛋白质。有些实施方案中，napDNAbp包含和天然Cas12b/C2c1或Cas12c/C2c3蛋白质为至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致的氨基酸序列。有些实施方案中，napDNAbp为天然Cas12b/C2c1或Cas12c/C2c3蛋白质。有些实施方案中，napDNAbp包含和本文所提供任何一种napDNAbp序列为至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致的氨基酸序列。应理解，根据本发明亦可采用来自其他细菌物种的Cas12b/C2c1或Cas12c/C2c3。

Cas12b/C2c1((uniprot.org/uniprot/T0D7A2#2)sp|T0D7A2|

C2C1_ALIAG CRISPR-相关的内切核酸酶C2c1 OS＝酸土脂环酸芽孢杆菌(Alicyclobacillus acido-terrestris)(菌株ATCC 49025/DSM 3922/CIP 106132/NCIMB13137/GD3B)GN＝c2c1 PE＝1SV＝1)氨基酸序列如下：

MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQENLYRRSPNGD

GEQECDKTAEECKAELLERLRARQVENGHRGPAGSDDELLQLARQLYELLVPQAIGAKGD

AQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKEKAETRKSADRTA

DVLRALADFGLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQ

RVGQEYAKLVEQKNRFEQKNFVGQEHLVHLVNQLQQDMKEASPGLESKEQTAHYVTGRAL

RGSDKVFEKWGKLAPDAPFDLYDAEIKNVQRRNTRRFGSHDLFAKLAEPEYQALWREDAS

FLTRYAVYNSILRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGERRH

AIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLPRDPNEPIALYFRDYGAEQHFTGEF

GGAKIQCRRDQLAHMHRRRGARDVYLNVSVRVQSQSEARGERRPPYAAVFRLVGDNHRAF

VHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSKG

RVPFFFPIKGNDNLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLV

RCGSEDVGRRERSWAKLIEQPVDAANHMTPDWREAFENELQKLKSLHGICSDKEWMDAVY

ESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSF

FGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDERGKGKWV

AKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELINQAQVHDLLVGTMYAA

FSSRFDARTGAPGIRCRRVPARCTQEHNPEPFPWWLNKFVVEHTLDACPLRADDLIPTGE

GEIFVSPFSAEEGDFHQIHADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDGELVLIPRL

TGKRTADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKLSEEEAELLVEADEAREKSVV

LMRDPSGIINRGNWTRQKEFWSMVNQRIEGYLVKQIRSRVPLQDSACENTGDI

BhCas12b(外村尚芽孢杆菌(Bacillus hisashii))NCBI参考序列：WP_095142515

MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKK

有些实施方案中，Cas12b为BvCas12B。有些实施方案中，Cas12b包含氨基酸取代S893R、K846R、及E837G，其是依下文所提供BvCas12b氨基酸序列实例编号。

BvCas12b(芽孢杆菌属(Bacillus sp.)V3-13)NCBI参考序列：WP_101661451.1：

MAIRSIKLKMKTNSGTDSIYLRKALWRTHQLINEGIAYYMNLLTLYRQEAIGDKTKEAYQAELINIIRNQQRNNGSSEEHGSDQEILALLRQLYELIIPSSIGESGDANQLGNKFLYPLVDPNSQSGKGTSNAGRKPRWKRLKEEGNPDWELEKKKDEERKAKDPTVKIFDNLNKYGLLPLFPLFTNIQKDIEWLPLGKRQSVRKWDKDMFIQAIERLLSWESWNRRVADEYKQLKEKTESYYKEHLTGGEEWIEKIRKFEKERNMELEKNAFAPNDGYFITSRQIRGWDRVYEKWSKLPESASPEELWKVVAEQQNKMSEGFGDPKVFSFLANRENRDIWRGHSERIYHIAAYNGLQKKLSRTKEQATFTLPDAIEHPLWIRYESPGGTNLNLFKLEEKQKKNYYVTLSKIIWPSEEKWIEKENIEIPLAPSIQFNRQIKLKQHVKGKQEISFSDYSSRISLDGVLGGSRIQFNRKYIKNHKELLGEGDIGPVFFNLVVDVAPLQETRNGRLQSPIGKALKVISSDFSKVIDYKPKELMDWMNTGSASNSFGVASLLEGMRVMSIDMGQRTSASVSIFEVVKELPKDQEQKLFYSINDTELFAIHKRSFLLNLPGEVVTKNNKQQRQERRKKRQFVRSQIRMLANVLRLETKKTPDERKKAIHKLMEIVQSYDSWTASQKEVWEKELNLLTNMAAFNDEIWKESLVELHHRIEPYVGQIVSKWRKGLSEGRKNLAGISMWNIDELEDTRRLLISWSKRSRTPGEANRIETDEPFGSSLLQHIQNVKDDRLKQMANLIIMTALGFKYDKEEKDRYKRWKETYPACQIILFENLNRYLFNLDRSRRENSRLMKWAHRSIPRTVSMQGEMFGLQVGDVRSEYSSRFHAKTGAPGIRCHALTEEDLKAGSNTLKRLIEDGFINESELAYLKKGDIIPSQGGELFVTLSKRYKKDSDNNELTVIHADINAAQNLQKRFWQQNSEVYRVPCQLARMGEDKLYIPKSQTETIKKYFGKGSFVKNNTEQEVYKWEKSEKMKIKTDTTFDLQDLDGFEDISKTIELAQEQQKKYLTMFRDPSGYFFNNETWRPQKEYWSIVNNIIKSCLKKKILSNKVEL

向导多核苷酸

一项实施方案中，向导多核苷酸为向导RNA。RNA/Cas复合物可协助“向导”Cas蛋白质至靶DNA。Cas9/crRNA/tracrRNA以内切核酸分解方式裂解和间隔子互补的线性或环状dsDN靶。先以内切核酸分解方式切割不和crRNA互补的靶链，然后以外切核酸分解方式修剪3′-5′。自然界中，DNA-结合和裂解通常需要蛋白质及两种RNA。然而，单一向导RNA(“sgRNA”或简称“gNRA”)可经过工程化，以便纳入crRNA和tracrRNA两种实施例至单一RNA物种中。参见例如：Jinek M.等人，Science 337:816-821(2012)，其完整内容已以引用方式并入本文中。Cas9辨识CRISPR重复序列中的短基序(PAM或原间隔相邻基序)，以协助区分其自体和非自体。Cas9核酸酶序列及结构是彼等本领域技术人员习知者(参见例如：“Complete genomesequence of an M1 strain of Streptococcus pyogenes.”Ferretti,J.J.等人，Natl.Acad.Sci.U.S.A.98:4658-4663(2001)；“CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III.”Deltcheva E.等人，Nature 471:602-607(2011)；及“Programmable dual-RNA-guided DNA endonuclease in adaptivebacterial immunity.”Jinek M.等人,Science 337:816-821(2012)，其等完整内容已分别以引用方式并入本文中)。Cas9直是同源基因已说明于各种不同物种，包括(但不限于)：化脓性链球菌(S.pyogenes)及嗜热链球菌(S.thermophilus)。其他合适的Cas9核酸酶及序列是彼等本领域技术人员依据本发明即了解者，且此等Cas9核酸酶及序列包括来自Chylinski、Rhun、及Charpentier，“The tracrRNA and Cas9 families of type IICRISPR-Cas immunity systems”(2013)RNA Biology 10:5,726-737所揭示生物体和基因座的Cas9序列；其完整内容已以引用方式并入本文中。有些实施方案中，Cas9核酸酶具有失活(例如：灭活)的DNA裂解结构域，亦即Cas9为切口酶。

有些实施方案中，向导多核苷酸为至少一种单一向导RNA(“sgRNA”或“gNRA”)。有些实施方案中，向导多核苷酸为至少一种tracrRNA。有些实施方案中，向导多核苷酸不需要PAM序列来向导多核苷酸可编程DNA-结合性结构域(例如：Cas9或Cpf1)至靶核苷酸序列。

本文所揭示碱基编辑器的多核苷酸可编程核苷酸结合结构域(例如：CRISPR衍生结构域)可通过和向导多核苷酸相联而辨识靶多核苷酸序列。向导多核苷酸(例如：gRNA)通常为单链，且可经过编程，而和多核苷酸的靶序列进行位点特异性结合(亦即经由互补碱基配对)，由此主导已和向导核酸连结的碱基编辑器至靶序列。向导多核苷酸可为DNA。向导多核苷酸可为RNA。有些实施方案中，向导多核苷酸包含天然核苷酸(例如：腺苷)。有些实施方案中，向导多核苷酸包含非天然(或非自然)核苷酸(例如：肽核酸或核苷酸类似物)。有些实施方案中，向导核酸序列的靶向区的长度可为至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、或30个核苷酸。向导核酸的靶向区可为介于10-30个核苷酸的长度、或介于15-25个核苷酸的长度、或介于15-20个核苷酸的长度。

有些实施方案中，向导多核苷酸包含两个或更多个个别多核苷酸，其等可经由例如：互补碱基配对(例如：双重向导多核苷酸)彼此交互作用。例如：向导多核苷酸可包含CRISPR RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)。例如：向导多核苷酸可包含一个或多个反式激活CRISPR RNA(tracrRNA)。

II型CRISPR系统中，核酸通过CRISPR蛋白质(例如：Cas9)的靶向通常需要第一RNA分子(crRNA)(其包含辨识靶序列的序列)和第二RNA分子(trRNA)(其包含会形成骨架区来稳定向导RNA-CRISPR蛋白质复合物的重复序列)之间的互补碱基配对。此等双重向导RNA系统可以用为向导多核苷酸，来主导本文所揭示碱基编辑器至靶多核苷酸序列。

有些实施方案中，本文所提供碱基编辑器利用单一向导多核苷酸(例如：gRNA)。有些实施方案中，本文所提供碱基编辑器利用双重向导多核苷酸(例如：双重gRNAs)。有些实施方案中，本文所提供碱基编辑器利用一个或多个向导多核苷酸(例如：多重gRNA)。有些实施方案中，单一向导多核苷酸是用于本文所说明不同碱基编辑器。例如：单一向导多核苷酸可以用于腺苷碱基编辑器、或腺苷碱基编辑器和胞苷碱基编辑器，例如：如PCT/US19/44935的说明。

其他实施方案中，向导多核苷酸可在单一分子中同时包含核酸的多核苷酸靶向部份及核酸的骨架部份(亦即单一-分子向导核酸)。例如：单一-分子向导多核苷酸可为单一向导RNA(sgRNA或gRNA)。本文术语向导多核苷酸序列考虑使用可和碱基编辑器交互作用并主导至靶多核苷酸序列的任何单一、双重、或多重-分子核酸。

通常，向导多核苷酸(例如：crRNA/trRNA复合物或gRNA)包含“聚核苷-靶向节段”，其包括可以辨识及结合靶多核苷酸序列的序列，及“蛋白质结合性节段”，其稳定碱基编辑器的多核苷酸可编程核苷酸结合结构域组份内的向导多核苷酸。有些实施方案中，向导多核苷酸的多核苷酸靶向节段会辨识及结合DNA多核苷酸，由此促进DNA中碱基的编辑。其他例子中，向导多核苷酸的多核苷酸靶向节段会辨识及结合RNA多核苷酸，由此促进RNA中碱基的编辑。本文的“节段”是指分子的一段或一区，例如：向导多核苷酸中一段连续核苷酸。节段亦可指复合物的一区/段，因此所述节段可包含超过一个分子的一区。例如：若向导多核苷酸包含多重核酸分子时，蛋白质结合性节段可以包括多重分开分子的全部或一部份，例如：沿着互补区杂交。有些实施方案中，包含两个分开分子的DNA-靶向性RNA的蛋白质结合性节段可以包含(i)100个碱基对长度的第一RNA分子的碱基对40-75；及(ii)50个碱基对长度的第二RNA分子的碱基对10-25。除非在特定内容中另有明确定义，否则“节段”的定义不限制碱基对的特定总数量，不限制来自指定RNA分子的碱基对的任何特定数量、不限制复合物内分开分子的特定数量，且可包括RNA分子中任何总长度的一区，及可包括和其他分子互补的一区。

向导RNA或向导多核苷酸可包含两个或更多个RNA，例如：CRISPR RNA(crRNA)及反式激活crRNA(tracrRNA)。向导RNA或向导多核苷酸有时候可包含单链RNA、或由crRNA及tracrRNA的一部份(例如：功能部份)融合形成的单一向导RNA(sgRNA)。向导RNA或向导多核苷酸亦可为包含crRNA和tracrRNA的双重RNA。此外，crRNA可和靶DNA杂交。

如上文所讨论，向导RNA或向导多核苷酸可为表达产物。例如：编码向导RNA的DNA可以为包含编码向导RNA的序列的载体。向导RNA或向导多核苷酸可通过使用已单离的向导RNA或包含编码向导RNA的序列及启动子的质粒DNA转染细胞而转移至细胞内。向导RNA或向导多核苷酸亦可利用其他方式转移至细胞内，如：利用病毒介导基因传递法。

向导RNA或向导多核苷酸可以单离。例如：向导RNA可呈单离RNA的型式转染至细胞或生物体中。向导RNA可使用相关技艺上已知的任何试管内转录系统，采用试管内转录法制备。向导RNA可呈单离RNA的型式，而非包含编码向导RNA的序列的质粒型式转移至细胞中。

向导RNA或向导多核苷酸可包含三区：第一区在5’端，可和染色体序列中的靶位点互补；第二内部区，可形成茎环结构，及第三3’区，可为单链。各向导RNA的第一区亦可以不同，因此各向导RNA向导融合蛋白至特定靶位点。此外，所有向导RNA中的各向导RNA的第二及第三区可以相同。

向导RNA或向导多核苷酸的第一区可和染色体序列中靶位点的序列互补，因此向导RNA的第一区可以和靶位点碱基配对。有些实施方案中，向导RNA的第一区可包含10个或约10个核苷酸至25个核苷酸(亦即10个核苷酸至25个核苷酸；或约10个核苷酸至约25个核苷酸；或10个核苷酸至约25个核苷酸；或约10个核苷酸至25个核苷酸)或更多个。例如：染色体序列中向导RNA的第一区和靶位点之间的碱基配对区的长度可为或可约10、11、12、13、14、15、16、17、18、19、20、22、23、24、25个、或更多个核苷酸。有时候，向导RNA的第一区的长度可为或可约19、20、或21个核苷酸。

向导RNA或向导多核苷酸亦可包含形成二级结构的第二区。例如：由向导RNA形成的二级结构可包含茎(或发夹)及环。环和茎的长度可以变化。例如：环的长度范围可从3或约3至10个核苷酸，及茎的长度范围可从6或约6至20个碱基对。茎可包含一个或多个含1至10或约10个核苷酸的凸起。第二区组总长度的范围可从16或约16至60个核苷酸。例如：环的长度可为4或约4个核苷酸及茎可为12或约12个碱基对。

向导RNA或向导多核苷酸亦可包含在3'端的第三区，其基本上可为单链。例如：第三区有时候不和所关注细胞中任何染色体序列互补，且有时候不和其余向导RNA互补。此外，第三区的长度可以变化。第三区的长度可以超过或超过约4个核苷酸。例如：第三区的长度可以从5或约5至60个核苷酸。

向导RNA或向导多核苷酸可靶向基因靶的任何外显子或内含子。有些实施方案中，向导序列可靶向基因的外显子1或2；其他例子中，向导序列可靶向基因的外显子3或4。组合物可包含全部靶向相同外显子的多重向导RNA，或有些实施方案中，多重向导RNA可靶向不同外显子。可以靶向基因的外显子和内含子。

向导RNA或向导多核苷酸可靶向20个或约20个核苷酸的核酸序列。靶核酸可以少于或少于约20个核苷酸。靶核酸的长度可为至少或至少约5、10、15、16、17、18、19、20、21、22、23、24、25、30、或1-100个之间任何数量的核苷酸。靶核酸的长度可为至多或至多约5、10、15、16、17、18、19、20、21、22、23、24、25、30、40、50个、或1-100个之间任何数量的核苷酸。靶核酸序列可为或可约20个紧接PAM的第一个核苷酸5’的碱基。向导RNA可靶向核酸序列。靶核酸可为至少或至少约1-10、1-20、1-30、1-40、1-50、1-60、1-70、1-80、1-90、或1-100个核苷酸。

向导多核苷酸，例如：向导RNA，可以指可以和另一个核酸杂交的核酸，例如：细胞的基因体中的靶核酸或原型间隔子。向导多核苷酸可为RNA。向导多核苷酸可为DNA。向导多核苷酸可经过编程或设计，以序列位点特异性方式结合至核酸。向导多核苷酸可包含多核苷酸链且可称单一向导多核苷酸。向导多核苷酸可包含两个多核苷酸链，且可称为双重向导多核苷酸。向导RNA可呈RNA分子引进细胞或胚胎中。例如：RNA分子可于试管内转录及/或可以化学合成。RNA可由合成性DNA分子转录，例如：基因片段。然后将向导RNA呈RNA分子引进细胞或胚胎中。向导RNA亦可呈非RNA核酸分子，例如：DNA分子，引进细胞或胚胎中。例如：编码向导RNA的DNA依可操纵方式连接至启动子控制序列，于所关注细胞或胚胎中表达向导RNA。RNA编码序列是依可操纵方式连接至被RNA聚合酶III(Pol III)辨识的启动子序列。可用于表达向导RNA的质粒载体包括(但不限于)：px330载体及px333载体。有些实施方案中，质粒载体(例如：px333载体)可包含至少两个编码向导RNA的DNA序列。

选择、设计及验证向导多核苷酸，例如：向导RNA及靶向序列的方法已说明于本文中且是彼等本领域技术人员习知。例如：为了让核碱基编辑器系统的脱氨酶结构域(例如：AID结构域)中受质可能的混乱配对(promiscuity)影响最小化，可以使可能被无意中靶向而脱氨的残基(例如：可能留在靶核酸基因座内的ssDNA上的脱靶C残基)数量最小化。此外，可利用软体工具优化对应于靶核酸序列的gRNA，例如：使在整个基因体的总脱靶活性最小化。例如：使用化脓性链球菌(S.pyogenes)Cas9选择各可能靶向结构域时，可在整个基因体中判别所有脱靶序列(前述选择的PAM，例如：NAG或NGG)，其包含至多某个数量(例如：1、2、3、4、5、6、7、8、9、或10个)错配碱基对。可以判别和靶位点互补的gRNA的第一区，并可依据其预测的脱靶总分，将所有第一区(例如：crRNA)排序；排在最上面的靶向结构域代表彼等可能具有最大中靶活性及最小脱靶活性。可采用本领域已知的及/或本文所说明方法，分析靶向gRNA候选物的功能。

作为非限制性实例，Cas9所使用向导RNA的crRNA中靶DNA杂交序列可以使用DNA序列搜寻演算法判别。gRNA设计可以使用如：Bae S.,Park J.,&Kim J.-S.Cas-OFFinder:Afast and versatile algorithm that searches for potential off-target sites ofCas9 RNA-guided endonucleases.Bioinformatics 30,1473-1475(2014)中说明的公开工具cas-offinder客制gRNA设计软体进行。在计算其等全基因体脱靶倾向后，由此软体计算向导序列的得分。通常，针对长度范围为17至24的向导序列，从完美配对到7个错配均视为配对范围。一旦由电脑计算决定脱靶位点，即为各向导序列计算总分，并利用网页界面，以表格方式总结输出。除了判别邻接PAM序列的可能靶位点以外，所述软体亦可判别和所选定靶位点相差1、2、3个或超过3个核苷酸的所有PAM相邻序列。可以取得靶核酸序列的基因体DNA序列，例如：靶基因，并利用可以公开取得的工具，例如：RepeatMasker程式，筛选重复元素。RepeatMasker搜寻所输入DNA序列的重复元素及复杂性低的一区。输出则详细注释存在于指定查询序列中的重复序列。

继判别后，向导RNA(例如：crRNA)的第一区可以依据其和靶位点的距离、其直是同源性及5’核苷酸的存在来分级排序，以和相关的PAM序列高度相配(close match)(例如：在包含相关PAM(例如：化脓性链球菌(S.pyogenes)的NGG PAM、金黄色葡萄球菌(S.aureus)的NNGRRT或NNGRRV PAM的人类基因体中，依据高度相配性判别的5′G)。本文所采用，正交性是指人类基因体中包含最少量和靶序列错配的序列数量。“高度正交性”或“良好正交性”可例如：指20nt靶向结构域，其在人类基因体中，除了预期的靶外，没有相同序列，亦在靶序列中没有任何包含一个或两个错配的序列。可以选择具有良好正交性的靶向结构域，使脱靶DNA裂解最小化。

有些实施方案中，可采用报导子系统检测碱基编辑活性及测试向导多核苷酸候选物。有些实施方案中，报导子系统可包含基于报导子基因的分析法，其中碱基编辑活性造成报导子基因的表达。例如：报导子系统可包括包含已去活的起始字码子的报导子基因，例如：在模板链上，由3'-TAC-5'形成3'-CAC-5'的突变。当靶C经过成功脱氨时，对应mRNA将会转录成5'-AUG-3'，而非5'-GUG-3'，让报导子基因可以转译。合适的报导子基因是彼等本领域技术人员通常理解者。报导子基因的非限制性实例包括编码以下各項的基因：绿色萤光蛋白质(GFP)、红色萤光蛋白质(RFP)、萤光素酶、分泌的碱性磷酸酶(SEAP)，或任何其他可检测到其表达且是彼等本领域技术人员通常理解的基因。报导子系统可用于测试许多不同gRNA，例如：以便决定哪(几)个残基和各脱氨酶所靶向靶DNA序列相关。亦可采用靶向非模板链的sgRNA来测试，以便分析特定碱基编辑蛋白质，例如：Cas9脱氨酶融合蛋白的脱靶效应。有些实施方案中，可以设计此等gRNA，以使突变的起始密码子不会和gRNA碱基配对。向导多核苷酸可包含标准核糖核苷酸、经修饰核糖核苷酸(例如：假尿苷)、核糖核苷酸异构物、和/或核糖核苷酸类似物。有些实施方案中，向导多核苷酸可包含至少一个可检测标签。所述可检测标签可为萤光团(例如：FAM、TMR、Cy3、Cy5、德克萨斯红(Texas Red)、奥勒岗绿(Oregon Green)、Alexa Fluors、Halo标签、或合适的萤光染剂)、检测标签(例如：生物素、地高辛配基(digoxigenin)、及类似物)、量子点、或黄金粒子。

向导多核苷酸可以化学合成、酵素合成、或其组合。例如：向导RNA可以采用基于亚氨基磷酸酯的标准固相合成法合成。或者，向导RNA可以于试管内，利用编码向导RNA的DNA以可操纵方式连接至被噬菌体RNA聚合酶辨识的启动子控制序列来合成。合适的噬菌体启动子序列实例包括T7、T3、SP6启动子序列、或其变化。在向导RNA包含两个分开分子(例如：crRNA和tracrRNA)的实施方案中，crRNA可以化学合成，及tracrRNA可以酵素合成。

有些实施方案中，碱基编辑器系统可包含多重向导多核苷酸，例如：gRNA。例如：gRNA可以靶向一个或多个包含在碱基编辑器系统中的靶基因座(例如：至少1个gRNA、至少2个gRNA、至少5个gRNA、至少10个gRNA、至少20个gRNA、至少30个g RNA、至少50个gRNA)。所述多重gRNA序列可以串接排列，且较佳是分隔一个正向重复序列。

编码向导RNA或向导多核苷酸的DNA序列亦可为载体的一部份。此外，载体可包含额外的表达控制序列(例如：加强子序列、Kozak序列、聚腺苷酸化序列、转录终止序列，等等)、可选择标记物序列(例如：GFP或抗生素抗性基因，如：嘌呤霉素(puromycin))、复制起点，及类似物。编码向导RNA的DNA分子亦可为线性。编码向导RNA或向导多核苷酸的DNA分子亦可为环状。

有些实施方案中，一个或多个碱基编辑器系统的组份可以由DNA序列编码。此等DNA序列可以共同或分开引进表达系统中，例如：细胞中。例如：编码多核苷酸可编程核苷酸结合结构域的DNA序列及向导RNA可以引进细胞中，各DNA序列可以为分开分子的一部份(例如：一个包含多核苷酸可编程核苷酸结合结构域编码序列的载体及第二个包含向导RNA编码序列的载体)或同时为同一个分子的一部份(例如：一个包含多核苷酸可编程核苷酸结合结构域和向导RNA二者的编码(及调节)序列的载体)。

向导多核苷酸可以包含一个或多个修饰，以提供具有新颖或加强特色的核酸。向导多核苷酸可以包含核酸亲和性标签。向导多核苷酸可以包含合成性核苷酸、合成性核苷酸类似物、核苷酸衍生物、和/或经修饰核苷酸。

有些实施方案中，gRNA或向导多核苷酸可包含修饰。可以在gRNA或向导多核苷酸的任何位置进行修饰。可以在单一gRNA或向导多核苷酸上进行超过一个修饰。gRNA或向导多核苷酸可以在修饰后进行品质管制。有些实施方案中，品质管制包括PAGE、HPLC、MS、或其任何组合。

gRNA或向导多核苷酸的修饰可为取代、插入、缺失、化学修饰、物理修饰、稳定化、纯化、或其任何组合。

gRNA或向导多核苷酸亦可经过以下修饰：5’腺苷酸化、5’鸟苷-三磷酸封端、5’N7-甲基鸟苷-三磷酸封端、5’三磷酸封端、3’磷酸化、3’硫代磷酸化、5’磷酸化、5’硫代磷酸化、Cis-Syn胸苷二聚体、三聚体、C12间隔子、C3间隔子、C6间隔子、d间隔子、PC间隔子、r间隔子、间隔子18、间隔子9、3’-3’修饰、5’-5’修饰、无碱基、吖啶、偶氮苯、生物素、生物素BB、生物素TEG、胆固醇基TEG、去硫生物素TEG、DNP TEG、DNP-X、DOTA、dT-生物素、双重生物素、PC生物素、补骨脂素C2、补骨脂素C6、TINA、3’DABCYL、萤光淬灭剂(black hole quencher)1、萤光淬灭剂2、DABCYL SE、dT-DABCYL、IRDye QC-1、QSY-21、QSY-35、QSY-7、QSY-9、羧基连接子、硫醇连接子、2’-去氧核糖核苷类似物嘌呤、2’-去氧核糖核苷类似物嘧啶、核糖核苷类似物、2’-O-甲基核糖核苷类似物、经糖修饰的类似物、摇摆/通用碱基、萤光染剂标签、2’-氟RNA、2’-O-甲基RNA、甲基膦酸酯、磷酸二酯DNA、磷酸二酯RNA、硫代磷酸酯DNA、硫代磷酸酯RNA、UNA、假尿苷-5’-三磷酸酯、5’-甲基胞苷-5’-三磷酸酯、或其任何组合。

有些实施方案中，修饰为永久性。其他例子中，修饰为短暂性。有些实施方案中，在gRNA或向导多核苷酸进行多重修饰。gRNA或向导多核苷酸修饰可以修改核苷酸的物化性质，如：其构形、极性、疏水性、化学反应性、碱基配对交互作用、或其任何组合。

PAM序列可为相关技艺习知的任何PAM序列。合适的PAM序列包括(但不限于)：NGG、NGA、NGC、NGN、NGT、NGCG、NGAG、NGAN、NGNG、NGCN、NGCG、NGTN、NNGRRT、NNNRRT、NNGRR(N)、TTTV、TYCV、TYCV、TATV、NNNNGATT、NNAGAAW、或NAAAAC。Y为嘧啶；N为任何核苷酸碱基；W为A或T。

修饰亦可为硫代磷酸酯取代。有些实施方案中，天然磷酸二酯键可以受到细胞核酸酶快速降解；及使用硫代磷酸酯(PS)键取代修饰核苷酸间链结可以较稳定对抗细胞降解的水解作用。修饰可以提高gRNA或向导多核苷酸的稳定性。修饰亦可加强生物活性。有些实施方案中，由硫代磷酸酯加强的RNA gRNA可抑制RNase A、RNase T1、小牛血清核酸酶、或其任何组合。此等性质可以让PS-RNA gRNA的用法用在极可能在体内或试管内曝露到核酸酶的用途中。例如：硫代磷酸酯(PS)键可以引进gRNA的5’-或3'-端最后3-5个核苷酸之间，其可抑制外切核酸酶降解。有些实施方案中，硫代磷酸酯键可以加在整个gRNA上，减少被内切核酸酶攻击。

原间隔相邻基序

术语“原间隔相邻基序(PAM)”或PAM-样基序是指在CRISPR细菌后天性免疫系统中，紧接在Cas9核酸酶所靶向DNA序列之后的2-6个碱基对的DNA序列。有些实施方案中，PAM可为5’PAM(亦即位在原型间隔子5’端的上游)。其他实施方案中，PAM可为3’PAM(亦即位在原型间隔子5’端的下游)。

PAM序列是靶结合所必需，但确实的序列依Cas蛋白质型态而定。

本文所提供碱基编辑器可包含CRISPR蛋白质衍生结构域，其可以结合包含典型或非典型原间隔相邻基序(PAM)序列的核苷酸序列。PAM位点为邻近靶多核苷酸序列的核苷酸序列。有些本发明实施例提供包含具有不同PAM特异性的CRISPR蛋白质的全部或一部份的碱基编辑器。例如：通常Cas9蛋白质，如：来自化脓性链球菌(S.pyogenes)的Cas9(spCas9)需要典型NGG PAM序列来结合特定核酸区，其中“NGG”的“N”为腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)、或胞嘧啶(C)、及G为鸟嘌呤。PAM可以为CRISPR蛋白质-特异性，且可在包含不同CRISPR蛋白质衍生结构域的不同碱基编辑器之间有差异。PAM可为靶序列的5’或3’。PAM可为靶序列的上游或下游。PAM的长度可为1、2、3、4、5、6、7、8、9、10个或更多个核苷酸。PAM的长度经常在2-6个核苷酸之间。数种PAM变体说明于下表1。

表1.Cas9蛋白质和对应PAM序列

变体	PAM
		spCas9	NGG
spCas9-VRQR	NGA
		spCas9-VRER	NGCG
xCas9(sp)	NGN
		saCas9	NNGRRT
saCas9-KKH	NNNRRT
		spCas9-MQKSER	NGCG
spCas9-MQKSER	NGCN
		spCas9-LRKIQK	NGTN
spCas9-LRVSQK	NGTN
		spCas9-LRVSQL	NGTN
spCas9-MQKFRAER	NGC
		Cpf1	5’(TTTV)
SpyMac	5’-NAA-3’

有些实施方案中，PAM为NGC。有些实施方案中，NGC PAM是被Cas9变体辨识。有些实施方案中，NGC PAM变体包括选自D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E、及T1337R(统称为“MQKFRAER”)的一或多个氨基酸取代。

有些实施方案中，PAM为NGT。有些实施方案中，NGT PAM是被Cas9变体辨识。有些实施方案中，透过在一个或多个残基1335、1337、1135、1136、1218、和/或1219的靶向突变，产生NGT PAM变体。有些实施方案中，透过在一个或多个残基1219、1335、1337、1218的靶向突变，创造NGT PAM变体。有些实施方案中，透过在一个或多个残基1135、1136、1218、1219、及1335的靶向突变，创造NGT PAM变体。有些实施方案中，NGT PAM变体是选自下表2和表3所示的一组靶向突变。

表2：在残基1219、1335、1337、1218的NGT PAM变体突变

变体	E1219V	R1335Q	T1337	G1218
					1	F	V	T
2	F	V	R
					3	F	V	Q
4	F	V	L
					5	F	V	T	R
6	F	V	R	R
					7	F	V	Q	R
8	F	V	L	R
					9	L	L	T
10	L	L	R
					11	L	L	Q
12	L	L	L
					13	F	I	T
14	F	I	R
					15	F	I	Q
16	F	I	L
					17	F	G	C
18	H	L	N
					19	F	G	C	A
20	H	L	N	V
					21	L	A	W
22	L	A	F
					23	L	A	Y
24	I	A	W
					25	I	A	F
26	I	A	Y

表3：在残基1135、1136、1218、1219、及1335的NGT PAM变体突变

变体	D1135L	S1136R	G1218S	E1219V	R1335Q
						27	G
28	V
						29	I
30		A
						31		W
32		H
						33		K
34			K
						35			R
36			Q
						37			T
38			N
						39				I
40				A
						41				N
42				Q
						43				G
44				L
						45				S
46				T
						47					L
48					I
						49					V
50					N
						51					S
52					T
						53					F
54					Y

55	N1286Q	I1331F

有些实施方案中，NGT PAM变体是选自表2和3的变体5、7、28、31、或36。有些实施方案中，变体具有改良的NGT PAM辨识。

有些实施方案中，NGT PAM变体在残基1219、1335、1337、和/或1218具有突变。有些实施方案中，从下表4所提供变体中选择具有改良辨识力突变的NGT PAM变体。

表4：在残基1219、1335、1337、及1218的NGT PAM变体突变

变体	E1219V	R1335Q	T1337	G1218
					1	F	V	T
2	F	V	R
					3	F	V	Q
4	F	V	L
					5	F	V	T	R
6	F	V	R	R
					7	F	V	Q	R
8	F	V	L	R

有些实施方案中，对NGT PAM具有特异性的碱基编辑器可由下表5A所提供产生。

表5A.NGT PAM变体

有些实施方案中，NGTN变体为变体1。有些实施方案中，NGTN变体为变体2。有些实施方案中，NGTN变体为变体3。有些实施方案中，NGTN变体为变体4。有些实施方案中，NGTN变体为变体5。有些实施方案中，NGTN变体为变体6。

有些实施方案中，Cas9结构域为来自化脓性链球菌(Streptococcus pyogenes)的Cas9结构域(SpCas9)。有些实施方案中，SpCas9结构域为核酸酶活性SpCas9、核酸酶失活SpCas9(SpCas9d)、或SpCas9切口酶(SpCas9n)。有些实施方案中，SpCas9包含D10X突变，或在本文所提供任何氨基酸序列中的对应突变，其中X为D除外的任何氨基酸。有些实施方案中，SpCas9包含D10A突变，或在本文所提供任何氨基酸序列中的对应突变。有些实施方案中，SpCas9结构域、SpCas9d结构域、或SpCas9n结构域可结合至具有非典型PAM的核酸序列。有些实施方案中，SpCas9结构域、SpCas9d结构域、或SpCas9n结构域可结合至具有NGG、NGA、或NGCG PAM序列的核酸序列。

有些实施方案中，Cas9结构域为来自化脓性链球菌(Streptococcus pyogenes)(SpCas9)的Cas9结构域。有些实施方案中，SpCas9结构域为核酸酶活性SpCas9、核酸酶失活SpCas9(SpCas9d)、或SpCas9切口酶(SpCas9n)。有些实施方案中，SpCas9包含D9X突变，或在本文所提供任何氨基酸序列中的对应突变，其中X为D除外的任何氨基酸。有些实施方案中，SpCas9包含D9A突变，或在本文所提供任何氨基酸序列中的对应突变。有些实施方案中，SpCas9结构域、SpCas9d结构域、或SpCas9n结构域可结合至具有非典型PAM的核酸序列。有些实施方案中，SpCas9结构域、SpCas9d结构域、或SpCas9n结构域可结合至具有NGG、NGA、或NGCG PAM序列的核酸序列。有些实施方案中，SpCas9结构域包含一个或多个D1135X、R1335X、及T1337X突变，或在本文所提供任何氨基酸序列中的对应突变，其中X为任何氨基酸。有些实施方案中，SpCas9结构域包含一个或多个D1135E、R1335Q、及T1337R突变，或在本文所提供任何氨基酸序列中的对应突变。有些实施方案中，SpCas9结构域包含D1135E、R1335Q、及T1337R突变，或在本文所提供任何氨基酸序列中的对应突变。有些实施方案中，SpCas9结构域包含一个或多个D1135X、R1335X、及T1337X突变，或在本文所提供任何氨基酸序列中的对应突变，其中X为任何氨基酸。有些实施方案中，SpCas9结构域包含一个或多个D1135V、R1335Q、及T1337R突变，或在本文所提供任何氨基酸序列中的对应突变。有些实施方案中，SpCas9结构域包含D1135V、R1335Q、及T1337R突变，或在本文所提供任何氨基酸序列中的对应突变。有些实施方案中，SpCas9结构域包含一个或多个D1135X、G1218X、R1335X、及T1337X突变，或在本文所提供任何氨基酸序列中的对应突变，其中X为任何氨基酸。有些实施方案中，SpCas9结构域包含一个或多个D1135V、G1218R、R1335Q、T1337R突变，或在本文所提供任何氨基酸序列中的对应突变。有些实施方案中，SpCas9结构域包含D1135V、G1218R、R1335Q、及T1337R突变，或在本文所提供任何氨基酸序列中的对应突变。

有些实施方案中，Cas9为对经改变的PAM序列具有特异性的Cas9变体。有些实施方案中，其他Cas9变体及PAM序列说明于Miller等人，Continuous evolution of SpCas9variants compatible with non-G PAMs.Nat Biotechnol(2020).https://doi.org/10.1038/s41587-020-0412-8，其完整内容已以引用方式并入本文中。有些实施方案中，Cas9变体没有特异性PAM需求。有些实施方案中，Cas9变体，例如：SpCas9变体对NRNH PAM具有特异性，其中R为A或G及H为A、C、或T。有些实施方案中，SpCas9变体对PAM序列AAA、TAA、CAA、GAA、TAT、GAT、或CAC具有特异性。有些实施方案中，SpCas9变体包含在依SEQ ID NO：1编号位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1218、1219、1221、1249、1256、1264、1290、1318、1317、1320、1321、1323、1332、1333、1335、1337、或1339或其对应位置的氨基酸取代。有些实施方案中，SpCas9变体包含在依SEQ ID NO：1编号位置1114、1135、1218、1219、1221、1249、1320、1321、1323、1332、1333、1335、或1337或其对应位置的氨基酸取代。有些实施方案中，SpCas9变体包含在依SEQ ID NO：1编号位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1219、1221、1256、1264、1290、1318、1317、1320、1323、1333或其对应位置的氨基酸取代。有些实施方案中，SpCas9变体包含在依SEQ ID NO：1编号位置1114、1131、1135、1150、1156、1180、1191、1218、1219、1221、1227、1249、1253、1286、1293、1320、1321、1332、1335、1339或其对应位置的氨基酸取代。有些实施方案中，SpCas9变体包含在依SEQ ID NO：1编号位置1114、1127、1135、1180、1207、1219、1234、1286、1301、1332、1335、1337、1338、1349或其对应位置的氨基酸取代。SpCas9变体的氨基酸取代及PAM特异性实例示于下表5B、5C、5D、及5E。

表5B.

表5C.

表5D.

表5E.

有些实施方案中，本文所提供任何融合蛋白的Cas9结构域包含和本文所说明Cas9多肽为至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致的氨基酸序列。有些实施方案中，本文所提供任何融合蛋白的Cas9结构域包含本文所说明任何Cas9多肽的氨基酸序列。有些实施方案中，本文所提供任何融合蛋白的Cas9结构域是由本文所说明任何Cas9多肽的氨基酸序列组成。

有些实例中，被本文所揭示碱基编辑器的CRISPR蛋白质衍生结构域辨识的PAM是在分开的寡核苷酸上提供给细胞中编码所述碱基编辑器的嵌段(例如：AAV嵌段)。此等实施方案中，在分开的寡核苷酸上提供的PAM可以裂解原本无法裂解的靶序列，因为同一个多核苷酸上没有相邻PAM作为靶序列。

一项实施方案中，可使用化脓性链球菌(S.pyogenes)Cas9(SpCas9)作为基因体工程化的CRISPR内切核酸酶。然而，可使用其他。有些实施方案中，可使用不同内切核酸酶来靶向某些基因体靶。有些实施方案中，可使用具有非-NGG PAM序列的合成性SpCas9衍生的变体。此外，已判别来自各种不同物种的其他Cas9直是同源物，且此等“非-SpCas9”可以结合亦适用于本发明的多种不同PAM序列。例如：SpCas9的相当大尺寸(约4kb的编码序列)会产生带有SpCas9 cDNA而无法于细胞中有效表达的质粒。反的，金黄色葡萄球菌(Staphylococcus aureus)Cas9(SaCas9)的编码序列比SpCas9短约1仟个碱基，可能让其于细胞中有效地表达。类似SpCas9，SaCas9内切核酸酶可于试管内的哺乳动物细胞中及于小鼠的体内修饰靶基因。有些实施方案中，Cas蛋白质可靶向不同PAM序列。有些实施方案中，靶基因可以邻接例如：Cas9 PAM，5’-NGG。其他实施方案中，其他Cas9直是同源基因可具有不同PAM需求。例如：其他诸如：彼等嗜热链球菌(S.thermophilus)的PAM(CRISPR1的5’-NNAGAA及CRISPR3的5’-NGGNG)及脑膜炎双球菌(Neisseria meningitidis)(5’-NNNNGATT)的PAM亦可出现邻接靶基因。

有些实施方案中，针对化脓性链球菌(S.pyogenes)系统，靶基因序列可以在5’-NGG PAM的前(亦即5’-NGG PAM的5’)，且20-nt向导RNA序列可以和相反链进行碱基配对，以介导和PAM相邻的Cas9裂解。有些实施方案中，相邻切口可在PAM上游3个或约3个碱基对。有些实施方案中，相邻切口可在PAM上游10个或约10个碱基对。有些实施方案中，相邻切口可在PAM上游0-20或约0-20个碱基对。例如：相邻切口可在PAM上游邻接1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、或30个碱基对。相邻切口亦可在PAM下游1至30个碱基对。可和PAM序列结合的SpCas9蛋白质实例的序列如下：

PAM-结合性SpCas9实例的氨基酸序列如下：

MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNL

IGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSF

FHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTD

KADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFE

ENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLG

LTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLS

DAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKY

KEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNRED

LLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFR

IPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTN

FDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKA

IVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDL

LKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKV

MKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLI

HDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDEL

VKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILK

EHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFL

KDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKF

DNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDEND

KLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTAL

IKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFK

TEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKK

TEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVA

KVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIK

LPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKG

SPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKH

RDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATL

IHQSITGLYETRIDLSQLGGD

PAM-结合性SpCas9n实例的氨基酸序列如下：

MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDEND KLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

PAM-结合性SpEQR Cas9实例的氨基酸序列如下：

上述序列中，可从D1134、R1335、及T1336突变产生SpEQR Cas9的残基E1134、Q1334、和R1336是以底线及粗体表示。

PAM-结合性SpVQR Cas9实例的氨基酸序列如下：

上述序列中，可以从D1134、R1335、及T1336突变产生SpVQR Cas9的残基V1134、Q1334、和R1336是以底线及粗体表示。

PAM-结合性SpVRER Cas9实例的氨基酸序列如下：

上述序列中，可以从D1134、G1217、R1335、及T1336突变产生SpVRER Cas9的残基V1134、R1217、Q1334、和R1336是以底线及粗体表示。

有些实施方案中，工程化SpCas9变体可以辨识侧接3′H的原间隔相邻基序(PAM)序列(非G PAM)(参见表A-D及图49)。有些实施方案中，SpCas9变体辨识NRNH PAM(其中R为A或G及H为C或T)。有些实施方案中，非G PAM为NRRH、NRTH、或NRCH。此等变体透过噬菌体辅助非连续演化系统(phage-assisted non-continuous evolution)(PANCE)演化，例如：说明于Miller,S.M.等人，Continuous evolution of SpCas9 variants compatible with non-GPAMs,Nat.Biotechnol.(2020),(//doi.org/10.1038/s41587-020-0412-8)，其等内容已以全文引用方式并入本文中。

有些实施方案中，Cas9结构域为重组Cas9结构域。有些实施方案中，重组Cas9结构域为SpyMacCas9结构域。有些实施方案中，SpyMacCas9结构域为核酸酶活性SpyMacCas9、核酸酶失活SpyMacCas9(SpyMacCas9d)、或SpyMacCas9切口酶(SpyMacCas9n)。有些实施方案中，SaCas9结构域、SaCas9d结构域、或SaCas9n结构域可结合至具有非典型PAM的核酸序列。有些实施方案中，SpyMacCas9结构域、SpCas9d结构域、或SpCas9n结构域可结合至具有NAAPAM序列的核酸序列。

带有原始5’-NAAN-3’PAM特异性的猕猴链球菌(Streptococcus macacae)的SpyCas9的Cas9 A同源物实例的序列是本领域已知的，说明于例如：Jakimo等人，(www.biorxiv.org/content/biorxiv/

early/2018/09/27/429654.full.pdf)，并提供如下。

SpyMacCas9

MDKKYSIGLDIGTNSVGWAVITDDYKVPSKKFKVLGNTDRHSIKKNL

IGALLFGSGETAE

ATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLV

EEDKKHERHPIFG

NIVDEVAYHEKYPTIYHLRKKLADSTDKADLRLIYLALAHMIKFRGH

FLIEGDLNPDNSD

VDKLFIQLVQIYNQLFEENPINASRVDAKAILSARLSKSRRLENLIA

QLPGEKRNGLFGN

LIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI

LLSDILRVNSEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYA

GYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELH

AILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEE

VVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFL

SGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGAYHDLLKI

IKDKDFLDNEENEDILEDIVLTLTLFEDRGMIEERLKTYAHLFDDKVMKQLKRRRYTGWG

RLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGHSL

HEQIANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRERM

KRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHI

VPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLT

KAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSK

LVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKM

IAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFA

TVRKVLSMPQVNIVKKTEIQTVGQNGGLFDDNPKSPLEVTPSKLVPLKKELNPKKYGGYQ

KPTTAYPVLLITDTKQLIPISVMNKKQFEQNPVKFLRDRGYQQVGKNDFIKLPKYTLVDI

GDGIKRLWASSKEIHKGNQLVVSKKSQILLYHAHHLDSDLSNDYLQNHNQQFDVLFNEII

SFSKKCKLGKEHIQKIENVYSNKKNSASIEELAESFIKLLGFTQLGATSPFNFLGVKLNQ

KQYKGKKDYILPCTEGTLIRQSITGLYETRVDLSKIGED。

有些实施方案中，变体Cas9蛋白质带有H840A、P475A、W476A、N477A、D1125A、W1126A、及D1218A突变，使得所述多肽裂解靶DNA或RNA的能力已降低。此等Cas9蛋白质裂解靶DNA(例如：单链靶DNA)的能力已降低，但保留和靶DNA(例如：单链靶DNA)结合的能力。作为另一项非限制性实例，有些实施方案中，变体Cas9蛋白质带有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A、及D1218A突变，使得所述多肽裂解靶DNA的能力已降低。此等Cas9蛋白质裂解靶DNA(例如：单链靶DNA)的能力已降低，但保留和靶DNA(例如：单链靶DNA)结合的能力。有些实施方案中，当变体Cas9蛋白质带有W476A及W1126A突变或当变体Cas9蛋白质带有P475A、W476A、N477A、D1125A、W1126A、及D1218A突变时，变体Cas9蛋白质不会有效地结合至PAM序列。因此，有些此等例子中，当在结合方法中使用此等变体Cas9蛋白质时，所述方法不需要PAM序列。换言的，有些实施方案中，当在结合的方法中使用此等变体Cas9蛋白质时，所述方法可包括向导RNA，但所述方法可以在没有PAM序列下进行(因此结合特异性是由向导RNA的靶向节段提供)。其他残基可以突变，以达成上述效果(亦即使一个或另一个核酸酶部份失活)。作为非限制性实例，残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986、和/或A987可经改变(亦即取代)。此外，丙氨酸取代以外的突变亦合适。

有些实施方案中，碱基编辑器的CRISPR蛋白质衍生结构域可包含具有典型PAM序列(NGG)的Cas9蛋白质的全部或一部份。其他实施方案中，碱基编辑器的Cas9衍生结构域可利用非典型PAM序列。此等序列已说明于相关技艺中且是本领域技术人员习知。例如：会和非典型PAM序列结合的Cas9结构域已说明于Kleinstiver,B.P.等人的“EngineeredCRISPR-Cas9 nucleases with altered PAM specificities”Nature523,481-485(2015)；及Kleinstiver,B.P.等人的“Broadening the targeting range of Staphylococcusaureus CRISPR-Cas9 by modifying PAM recognition”Nature Biotechnology 33,1293-1298(2015)；其等完整内容已分别以引用方式并入本文中。

具有降低PAM排他性的Cas9结构域

通常，Cas9蛋白质，如：来自化脓性链球菌(S.pyogenes)的Cas9(spCas9)需要典型NGG PAM序列来结合特定核酸区，其中“NGG”中的“N”为腺苷(A)、胸苷(T)、或胞嘧啶(C)，及G为鸟苷。其可能限制在基因体内编辑所需碱基的能力。有些实施方案中，本文所提供碱基编辑融合蛋白可能需要置于精准位置，例如：包含在PAM上游的靶碱基区。参见例如：Komor,A.C.等人的“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature533,420-424(2016)，其完整内容已以引用方式并入本文中。因此，有些实施方案中，本文所提供任何融合蛋白可包含可以结合不含典型(例如：NGG)PAM序列的核苷酸序列的Cas9结构域。会和非典型PAM序列结合的Cas9结构域已说明于相关技艺且是本领域技术人员习知。例如：和非典型PAM序列结合的Cas9结构域已说明于Kleinstiver,B.P.等人的“Engineered CRISPR-Cas9 nucleases with altered PAMspecificities”Nature 523,481-485(2015)；及Kleinstiver,B.P.等人的“Broadeningthe targeting range of Staphylococcus aureus CRISPR-Cas9 by modifying PAMrecognition”Nature Biotechnology 33,1293-1298(2015)；其等完整内容已分别以引用方式并入本文中。

高保真度Cas9结构域

有些本发明实施例提供高保真度Cas9结构域。有些实施方案中，高保真度Cas9结构域为工程化Cas9结构域，其包含一个或多个相较于对应野生型Cas9结构域会降低Cas9结构域和DNA的糖-磷酸酯主干之间的静电交互作用的突变。在不希望受到任何特定理论限制下，具有降低和DNA的糖-磷酸酯主干之间的静电交互作用的高保真度Cas9结构域可能具有较低脱靶效应。有些实施方案中，Cas9结构域(例如：野生型Cas9结构域)包含一个或多个会降低Cas9结构域和DNA的糖-磷酸酯主干之间相联性的突变。有些实施方案中，Cas9结构域包含一个或多个会使Cas9结构域和DNA的糖-磷酸酯主干之间相联性降低至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、或至少70％的突变。

有些实施方案中，本文所提供任何Cas9融合蛋白包含一个或多个N497X、R661X、Q695X、和/或Q926X突变，或在本文所提供任何氨基酸序列中的对应突变，其中X为任何氨基酸。有些实施方案中，本文所提供任何Cas9融合蛋白包含一个或多个N497A、R661A、Q695A、和/或Q926A突变，或在本文所提供任何氨基酸序列中的对应突变。有些实施方案中，Cas9结构域包含D10A突变，或在本文所提供任何氨基酸序列中的对应突变。具有高保真度的Cas9结构域是本领域已知的及是本领域技术人员通常理解。例如：具有高保真度的Cas9结构域已说明于Kleinstiver,B.P.等人“High-fidelity CRISPR-Cas9 nucleases with nodetectable genome-wide off-target effects.”Nature 529,490-495(2016)；及Slaymaker,I.M.等人“Rationally engineered Cas9 nucleases with improvedspecificity.”Science 351,84-88(2015)；其等完整内容已分别以引用方式并入本文中。

有些实施方案中，经修饰的Cas9为高保真度Cas9酶。有些实施方案中，高保真度Cas9酶为SpCas9(K855A)、eSpCas9(1.1)、SpCas9-HF1、或超精确度Cas9变体(HypaCas9)。经修饰的Cas9eSpCas9(1.1)包含丙氨酸取代，其会弱化HNH/RuvC沟(groove)和非靶DNA链之间的交互作用，防止链分离及切割在脱靶位点。同样地，SpCas9-HF1透过丙氨酸取代瓦解Cas9和DNA磷酸酯主干交互作用，降低脱靶编辑。HypaCas9在REC3结构域中包含会提高Cas9校对及靶识别的突变(SpCas9

N692A/M694A/Q695A/H698A)。所有三种高保真度酶均产生比野生型Cas9减少的脱靶编辑。下文提供一种高保真度Cas9实例。

相对于Cas9的高保真度Cas9结构域突变是以粗体及底线表示：

包含核定位序列(NLS)的融合蛋白

有些实施方案中，本文所提供的融合蛋白进一步包含一个或多个(例如：2、3、4、5个)核靶向序列，例如：核定位序列(NLS)。一项实施方案中，采用二分NLS。有些实施方案中，NLS包含促进包含NLS的蛋白质输入细胞核中(例如：经由核转运)的氨基酸序列。有些实施方案中，本文所提供任何融合蛋白进一步包含核定位序列(NLS)。有些实施方案中，NLS是融合至融合蛋白的N末端。有些实施方案中，NLS是融合至融合蛋白的C末端。有些实施方案中，NLS是融合至Cas9结构域的N末端。有些实施方案中，NLS是融合至nCas9结构域或dCas9结构域的C末端。有些实施方案中，NLS是融合至脱氨酶的N末端。有些实施方案中，NLS是融合至脱氨酶的C末端。有些实施方案中，NLS是经由一个或多个连接子融合至融合蛋白。有些实施方案中，NLS不使用连接子即融合至融合蛋白。有些实施方案中，NLS包含本文所提供或所提及任何一个NLS序列的氨基酸序列。其他核定位序列是本领域已知的且是本领域技术人员通常理解者。例如：NLS序列说明于Plank等人，PCT/EP2000/011690，其有关核定位序列实例的揭示内容已以引用方式并入本文中。有些实施方案中，NLS包含氨基酸序列PKKKRKVEGADKRTADGSEFESPKKKRKV、KRTADGSEFESPKKKRKV、KRPAATKKAGQAKKKK、KKTELQTTNAENKTKKL、KRGINDRNFWRGENGRKTR、RKSGKIAAIVVKRPRKPKKKRKV、或MDSLLMNRRKFLYQFKNVRWAKGRRETYLC。

有些实施方案中，NLS存在于连接子中或NLS是侧接连接子，例如：本文说明的连接子。有些实施方案中，N末端或C末端NLS为二分NLS。二分NLS包含两个碱性氨基酸丛集，其等通过相当短之间隔子序列分隔(因此二分二分，而由单一部分构成的NLS则不是)。核质素(nucleoplasmin)的NLS，KR[PAATKKAGQA]KKKK是常见二分讯号的原型：两个碱性氨基酸丛集，以约10个氨基酸之间隔子分隔。二分NLS实例的序列如下：

PKKKRKVEGADKRTADGSEFESPKKKRKV

有些实施方案中，本发明融合蛋白不包含连接子序列。有些实施方案中，在一个或多个结构域或蛋白质之间出现连接子序列。

应了解，本发明融合蛋白可包含一个或多个其他特色。例如：有些实施方案中，融合蛋白可包含抑制剂、细胞质定位序列、输出序列(如：核输出序列)、或其他定位序列，及适用于溶解、纯化、或检测融合蛋白的序列标签。本文提供的合适蛋白质标签包括(但不限于)：生物素羧酸酶载体蛋白质(BCCP)标签、myc-标签、调钙素-标签、FLAG-标签、血球凝集素(HA)-标签、聚组氨酸标签(亦称为组氨酸标签或His-标签)、麦芽糖结合性蛋白质(MBP)-标签、nus-标签、谷胱甘肽-S-转移酶(GST)-标签、绿色萤光蛋白质(GFP)-标签、硫氧还蛋白-标签、S-标签、Softag标签(例如：Softag 1、Softag 3)、strep-标签、生物素连接酶标签、FlAsH标签、V5标签、及SBP-标签。其他合适序列是彼等本领域技术人员通常理解者。有些实施方案中，融合蛋白包含一个或多个His标签。

可使用编码包含一个或多个核定位序列(NLS)的CRISPR酶的载体。例如：可以使用或使用约1、2、3、4、5、6、7、8、9、10个NLS。CRISPR酶可在或接近氨基末端包含NLS，在或接近羧基末端包含约或超过约1、2、3、4、5、6、7、8、9、10个NLS、或此等的任何组合(例如：在氨基末端的一个或多个NLS及在羧基末端的一个或多个NLS)。当出现超过一个NLS时，每一个可以分别独立选择，因此单一NLS可以出现在超过一个复本中及/或和其他NLS组合出现在一个或多个复本中。

所述方法采用的CRISPR酶可以包含约6个NLS。当从N-或C末端沿着多肽链，最接近NLS的氨基酸为约50个氨基酸以内时，例如：在1、2、3、4、5、10、15、20、25、30、40、或50个氨基酸内时，NLS即视为接近N-或C末端。

核碱基编辑结构域

本文说明一种碱基编辑器，其包含包括多核苷酸可编程核苷酸结合结构域及核碱基编辑结构域(例如：脱氨酶结构域)的融合蛋白。所述碱基编辑器可以经过编程，通过和可以辨识靶序列的向导多核苷酸的交互作用，在靶多核苷酸序列中编辑一个或多个碱基。一旦已辨识靶序列，碱基编辑器即锚定在发生编辑的多核苷酸上，碱基编辑器的脱氨酶结构域组份即可编辑靶碱基。

有些实施方案中，核碱基编辑结构域包括脱氨酶结构域。如本文特别说明，脱氨酶结构域包括腺苷脱氨酶。有些实施方案中，术语“腺嘌呤脱氨酶”和“腺苷脱氨酶”可以交换使用。有关核碱基编辑蛋白质的详细内容说明于国际PCT申请案案号PCT/2017/045381(WO2018/027078)及PCT/US2016/058344(WO2017/070632)，其等内容已分别以全文引用方式并入本文中。亦参见Komor,A.C.等人的“Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016)；Gaudelli,N.M.等人的“Programmable base editing of A·T to G·C in genomic DNAwithout DNA cleavage”Nature 551,464-471(2017)；及Komor,A.C.等人的“Improvedbase excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity”ScienceAdvances3:eaao4774(2017)，其等完整内容已以引用方式并入本文中。

A至G编辑

有些实施方案中，本文说明的碱基编辑器可包含包括腺苷脱氨酶的脱氨酶结构域。碱基编辑器的此等腺苷脱氨酶结构域可以通过使腺嘌呤(A)脱氨形成具有鸟嘌呤(G)的碱基配对性质的肌苷(I)，促进(A)核碱基编辑成(G)核碱基。腺苷脱氨酶可以使去氧核糖核酸(DNA)中去氧腺苷残基的腺嘌呤脱氨(亦即脱除一个氨基)。

有些实施方案中，本文提供的核碱基编辑器可以由一个或多个蛋白质结构域共同融合制成，由此产生融合蛋白。某些实施方案中，本文所提供的融合蛋白包含改良融合蛋白的碱基编辑活性(例如：效能、选择性、及特异性)的一个或多个特色。例如：本文所提供融合蛋白可包含会降低核酸酶活性的Cas9结构域。有些实施方案中，本文所提供融合蛋白可具有没有核酸酶活性的Cas9结构域(dCas9)、或切割双螺旋DNA分子中一链的Cas9结构域，称为Cas9切口酶(nCas9)。在不希望受到任何特定理论的限制下，催化性残基(例如：H840)的存在维持了Cas9裂解包含和靶A相反的T的未编辑(例如：未脱氨)链的活性。Cas9的催化性残基的突变(例如：D10至A10)阻止包含靶A残基的编辑链被裂解。此等Cas9变体可以依据gRNA-界定的靶序列，在特定位置产生单链DNA断裂(切口)，造成修复未编辑链，最后造成未编辑链上的T改变成C。有些实施方案中，A-形成-G的碱基编辑器进一步包含肌苷碱基切除修复的抑制剂，例如：尿嘧啶醣苷酶抑制剂(UGI)结构域或催化性失活肌苷特异性核酸酶。在不希望受到任何特定理论的限制下，UGI结构域或催化性失活肌苷特异性核酸酶可抑制或防止脱氨的腺苷残基(例如：肌苷)的碱基切除修复，其可改良碱基编辑器的活性或效能。

包含腺苷脱氨酶的碱基编辑器可以作用在任何多核苷酸上，包括DNA、RNA及DNA-RNA杂交物。某些实施方案中，包含腺苷脱氨酶的碱基编辑器可以使包含RNA的多核苷酸的靶A脱氨。例如：碱基编辑器可以包含可使RNA多核苷酸和/或DNA-RNA杂交多核苷酸的靶A脱氨的腺苷脱氨酶结构域。一项实施方案中，纳入碱基编辑器中的腺苷脱氨酶包含作用在RNA(ADAR，例如：ADAR1或ADAR2)的全部或一部份腺苷脱氨酶。另一项实施方案中，纳入碱基编辑器中的腺苷脱氨酶包含作用在tRNA(ADAT)的全部或一部份腺苷脱氨酶。包含腺苷脱氨酶结构域的碱基编辑器亦可使DNA多核苷酸的A核碱基脱氨。一项实施方案中，碱基编辑器的腺嘌呤脱氨酶结构域包含全部或一部份ADAT，其包含一个或多个容许ADAT使DNA中靶A脱氨的突变。例如：碱基编辑器可包含来自大肠杆菌(Escherichia coli)的全部或一部份ADAT(EcTadA)，其包含一个或多个下列突变：D108N、A106V、D147Y、E155V、L84F、H123Y、I156F，或在另一种腺苷脱氨酶中的对应突变。

腺苷脱氨酶可以衍生自任何合适的生物体(例如：大肠杆菌(E.coli))。有些实施方案中，腺嘌呤脱氨酶为天然腺苷脱氨酶，其包括对应于本文所提供任何突变的一个或多个突变(例如：ecTadA中的突变)。在任何同源性蛋白质中的对应残基可以通过例如：序列排比及决定同源性残基来判别。因此可在任何天然腺苷脱氨酶(例如：和ecTadA具有同源性)中产生对应于本文所说明任何突变(例如：在ecTadA中判别的任何突变)的突变。

腺苷脱氨酶

有些实施方案中，本文提供的腺苷脱氨酶可以使腺嘌呤脱氨。有些实施方案中，本文所提供腺苷脱氨酶可以使DNA中去氧腺苷残基的腺嘌呤脱氨。有些实施方案中，腺嘌呤脱氨酶为包括一个或多个对应于本文所提供任何突变(例如：ecTadA中的突变)的突变的天然腺苷脱氨酶。本领域技术人员将可例如：通过序列排比及决定同源性残基，判别任何同源性蛋白质中的对应残基。因此，本领域技术人员可在任何天然腺苷脱氨酶(例如：和ecTadA具有同源性)产生对应于本文所说明任何突变(例如：在ecTadA中判别的突变)的突变。有些实施方案中，腺苷脱氨酶是来自原核生物。有些实施方案中，腺苷脱氨酶是来自细菌。有些实施方案中，腺苷脱氨酶是来自大肠杆菌(Escherichia coli)、金黄色葡萄球菌(Staphylococcus aureus)、伤寒沙门氏菌(Salmonella typhi)、腐败希瓦氏菌(Shewanella putrefaciens)、流感嗜血杆菌(Haemophilus influenzae)、新月形杆菌(Caulobacter crescentus)、或枯草芽孢杆菌(Bacillus subtilis)。有些实施方案中，腺苷脱氨酶是来自大肠杆菌(E.coli)。

本发明提供已提高效能(>50-60％)及特异性的腺苷脱氨酶变体。特定言的，本文说明的腺苷脱氨酶变体更容易在多核苷酸内编辑所需碱基，且较不容易编辑无预期修改的碱基(亦即“旁观者(bystanders)”)。

特定实施方案中，TadA为PCT/US2017/045381(WO 2018/027078)中说明的任何一种TadA，其内容已以全文引用方式并入本文中。

有些实施方案中，本发明核碱基编辑器为在下列序列中包含修改的腺苷脱氨酶变体：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTA HAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGS LMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(亦称为TadA*7.10)。

特定实施方案中，融合蛋白包含单一(例如：呈单体提供)TadA*8变体。有些实施方案中，TadA*8是连接至Cas9切口酶。有些实施方案中，本发明融合蛋白包含野生型TadA(TadA(wt))连接至TadA*8变体的异源二聚体。其他实施方案中，本发明融合蛋白包含TadA*7.10连接至TadA*8变体的异源二聚体。有些实施方案中，碱基编辑器为包含TadA*8变体单体的ABE8。有些实施方案中，碱基编辑器为包含TadA*8变体和TadA(wt)的异源二聚体的ABE8。有些实施方案中，碱基编辑器为包含TadA*8变体和TadA*7.10的异源二聚体的ABE8。有些实施方案中，碱基编辑器为包含TadA*8变体的异源二聚体的ABE8。有些实施方案中，TadA*8变体是选自表7。有些实施方案中，ABE8是选自表7。其相关序列如下：

野生型TadA(TadA(wt))或“TadA参考序列”

MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD

TadA*7.10:

MSEVEFSHEYW MRHALTLAKR ARDEREVPVG AVLVLNNRVI GEGWNRAIGL HDPTAHAEIMALRQGGLVMQ NYRLIDATLY VTFEPCVMCA GAMIHSRIGR VVFGVRNAKT GAAGSLMDVL HYPGMNHRVEITEGILADEC AALLCYFFRM PRQVFNAQKK AQSSTD

有些实施方案中，腺苷脱氨酶包含和本文所提供任何腺苷脱氨酶中所示任何一种氨基酸序列为至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致的氨基酸序列。应理解，本文所提供腺苷脱氨酶可包括一个或多个突变(例如：本文所提供任何突变)。本发明提供具有某些一致性百分比加上本文所说明任何突变或其组合的任何脱氨酶结构域。有些实施方案中，腺苷脱氨酶包含的氨基酸序列相较于参考序列、或本文所提供任何腺苷脱氨酶具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个、或更多个突变。有些实施方案中，腺苷脱氨酶包含的氨基酸序列相较于相关技艺习知或本文说明的任何一种氨基酸序列具有至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160、或至少170个一致的连续氨基酸残基。

有些实施方案中，TadA脱氨酶为全长大肠杆菌(E.coli)TadA脱氨酶。例如：某些实施方案中，腺苷脱氨酶包含氨基酸序列：

MRRAFITGVFFLSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSST。

然而应了解，其他适用于本申请案的腺苷脱氨酶是本领域技术人员通常理解者，且均在本发明范围内。例如：腺苷脱氨酶可为作用在tRNA上的腺苷脱氨酶的同源物(ADAT)。在无限制下，例举的AD AT同源物的氨基酸序列包括下列：

金黄色葡萄球菌(Staphylococcus aureus)TadA：

MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNL RETLQQPTAHAEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMS

RIPRVVYGADDPKGGCSGS

LMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFKNLRANKKSTN

枯草芽孢杆菌(Bacillus subtilis)TadA：

鼠伤寒沙门氏菌(Salmonella typhimurium)(S.typhimurium)TadA：

腐败希瓦氏菌(Shewanella putrefaciens)(S.putrefaciens)TadA：

流感嗜血杆菌(Haemophilus influenzae)F3031(H.influenzae)TadA：

新月形杆菌(Caulobacter crescentus)(C.crescentus)TadA：

硫还原地杆菌(Geobacter sulfurreducens)(G.sulfurreducens)TadA：

一项大肠杆菌(E.coli)TadA(ecTadA)的实施方案包括下列：

有些实施方案中，腺苷脱氨酶是来自原核生物。有些实施方案中，腺苷脱氨酶是来自细菌。有些实施方案中，腺苷脱氨酶是来自大肠杆菌(Escherichia coli)、金黄色葡萄球菌(Staphylococcus aureus)、伤寒沙门氏菌(Salmonella typhi)、腐败希瓦氏菌(Shewanella putrefaciens)、流感嗜血杆菌(Haemophilus influenzae)、新月形杆菌(Caulobacter crescentus)、或枯草芽孢杆菌(Bacillus subtilis)。有些实施方案中，腺苷脱氨酶是来自大肠杆菌(E.coli)。

一项实施方案中，本发明融合蛋白包含野生型TadA连接至TadA7.10，其再连接至Cas9切口酶。特定实施方案中，融合蛋白包含单一TadA7.10结构域(例如：呈单体提供)。其他实施方案中，ABE7.10编辑器包含TadA7.10及TadA(wt)，其等可以形成异源二聚体。

有些实施方案中，腺苷脱氨酶包含和本文所提供任何腺苷脱氨酶中所示任何一种氨基酸序列为至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致的氨基酸序列。应理解，本文所提供腺苷脱氨酶可包括一个或多个突变(例如：本文所提供任何突变)。本发明提供具有某些一致性百分比加上本文所说明任何突变或其组合的任何脱氨酶结构域。有些实施方案中，腺苷脱氨酶包含的氨基酸序列相较于参考序列、或本文所提供任何腺苷脱氨酶具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、或更多个突变。有些实施方案中，腺苷脱氨酶包含的氨基酸序列相较于相关技艺习知或本文所说明任何一种氨基酸序列，具有至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160、或至少170个一致的连续氨基酸残基。

应了解，本文所提供任何突变(例如：依据TadA参考序列)可以引进腺苷脱氨酶中，如：大肠杆菌(E.coli)TadA(ecTadA)、金黄色葡萄球菌(S.aureus)TadA(saTadA)、或其他腺苷脱氨酶(例如：细菌腺苷脱氨酶)。本领域技术人员通常理解，其他脱氨酶可能进行类似排比，以判别可进行本文所提供突变的同源性氨基酸残基。因此，在TadA参考序列中判别的任何突变可以在其他具有同源性氨基酸残基的腺苷脱氨酶(例如：ecTada)中进行。应理解，本文所提供任何突变可以在TadA参考序列或另一种腺苷脱氨酶中个别进行或依任何组合进行。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的D108X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含D108G、D108N、D108V、D108A、或D108Y突变，或在另一种腺苷脱氨酶中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的A106X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的A106V突变，或在另一种腺苷脱氨酶(例如：野生型TadA或ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的E155X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X的存在指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的E155D、E155G、或E155V突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的D147X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X的存在指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的D147Y突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的A106X、E155X、或D147X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含E155D、E155G、或E155V突变。有些实施方案中，腺苷脱氨酶包含D147Y。

例如：腺苷脱氨酶可包含在TadA参考序列中的D108N、A106V、E155V、和/或D147Y突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的下列突变群组(突变群组是以“；”分隔)，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变：D108N及A106V；D108N及E155V；D108N及D147Y；A106V及E155V；A106V及D147Y；E155V及D147Y；D108N、A106V、及E155V；D108N、A106V、及D147Y；D108N、E155V、和D147Y；A106V、E155V、及D 147Y；及D108N、A106V、E155V、和D147Y。然而应了解，本文提供的任何对应突变组合均可于腺苷脱氨酶(例如：ecTadA)上进行。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个或多个H8X、T17X、L18X、W23X、L34X、W45X、R51X、A56X、E59X、E85X、M94X、I95X、V102X、F104X、A106X、R107X、D108X、K110X、M118X、N127X、A138X、F149X、M151X、R153X、Q154X、I156X、和/或K157X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的一个或多个对应突变，其中X的存在是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个或多个H8Y、T17S、L18E、W23L、L34S、W45L、R51H、A56E、或A56S、E59G、E85K、或E85G、M94L、I95L、V102A、F104L、A106V、R107C、或R107H、或R107P、D108G、或D108N、或D108V、或D108A、或D108Y、K110I、M118K、N127S、A138V、F149Y、M151V、R153C、Q154L、I156D、和/或K157R突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的一个或多个对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个或多个H8X、D108X、和/或N127X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的一个或多个对应突变，其中X是指示存在的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个或多个H8Y、D108N、和/或N127S突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的一个或多个对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个或多个H8X、R26X、M61X、L68X、M70X、A106X、D108X、A109X、N127X、D147X、R152X、Q154X、E155X、K161X、Q163X、和/或T166X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的一个或多个对应突变，其中X是指示存在不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个或多个H8Y、R26W、M61I、L68Q、M70V、A106T、D108N、A109T、N127S、D147Y、R152C、Q154H或Q154R、E155G或E155V或E155D、K161Q、Q163H、和/或T166P突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的一个或多个对应突变。

有些实施方案中，腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个、或六个选自由H8X、D108X、N127X、D147X、R152X、及Q154X所组成群组的突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变或多个突变，其中X是指示存在不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个、五个、六个、七个、或八个选自由H8X、M61X、M70X、D108X、N127X、Q154X、E155X、及Q163X所组成群组的突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变或多个突变，其中X是指示存在不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个、或五个选自由H8X、D108X、N127X、E155X、及T166X所组成群组的突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变或多个突变，其中X是指示存在不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。

有些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个、或六个选自由H8X、A106X、D108X所组成群组的突变，在另一种腺苷脱氨酶中的突变或多个突变，其中X是指示存在不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个、六个、七个、或八个选自由H8X、R26X、L68X、D108X、N127X、D147X、及E155X所组成群组的突变、或在另一种腺苷脱氨酶中的对应突变或多个突变，其中X是指示存在不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个、或五个选自由H8X、D108X、A109X、N127X、及E155X所组成群组的突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变或多个突变，其中X是指示存在不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个、五个、或六个选自由H8Y、D108N、N127S、D147Y、R152C、及Q154H所组成群组的突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变或多个突变。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个、五个、六个、七个、或八个选自由H8Y、M61I、M70V、D108N、N127S、Q154R、E155G及Q163H所组成群组的突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变或多个突变。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个、或五个选自由H8Y、D108N、N127S、E155V、及T166P所组成群组的突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变或多个突变。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个、五个、或六个选自由：H8Y、A106T、D108N、N127S、E155D、及K161Q所组成群组的突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变或多个突变。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个、五个、六个、七个、或八个选自由H8Y、R26W、L68Q、D108N、N127S、D147Y、及E155V所组成群组的突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变或多个突变。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个、或五个选自由H8Y、D108N、A109T、N127S、及E155G所组成群组的突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变或多个突变。

本文所提供任何突变及任何额外突变(例如：依据ecTadA氨基酸序列)可以纳入任何其他腺苷脱氨酶中。本文所提供任何突变可以个别或依任何组合，在TadA参考序列或另一种腺苷脱氨酶(例如：ecTadA)中进行。

有关A至G核碱基编辑蛋白质的详细内容说明于国际PCT申请案No.PCT/2017/045381(WO2018/027078)及Gaudelli,N.M.等人的“Programmable base editing of A·Tto G·C in genomic DNA without DNA cleavage”Nature,551,464-471(2017)，其完整内容已以引用方式并入本文中。

有些实施方案中，腺苷脱氨酶包含在另一种腺苷脱氨酶(例如：ecTadA)中的一个或多个对应突变。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的D108N、D108G、或D108V突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的A106V及D108N突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的R107C及D108N突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的H8Y、D108N、N127S、D147Y、及Q154H突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的H8Y、D108N、N127S、D147Y、及E155V突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的D108N、D147Y、及E155V突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的H8Y、D108N、及N127S突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的A106V、D108N、D147Y及E155V突变，在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个或多个S2X、H8X、I49X、L84X、H123X、N127X、I156X和/或K160X突变，或在另一种腺苷脱氨酶中的一个或多个对应突变，其中X的存在是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个或多个S2A、H8Y、I49F、L84F、H123Y、N127S、I156F和/或K160S突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的一个或多个对应突变。

有些实施方案中，腺苷脱氨酶包含L84X突变腺苷脱氨酶，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的L84F突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的H123X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的H123Y突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的I156X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的I156F突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个、五个、六个、或七个选自由L84X、A106X、D108X、H123X、D147X、E155X、及I156X所组成群组的突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变或多个突变，其中X是指示存在不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个、五个、或六个选自由S2X、I49X、A106X、D108X、D147X、及E155X所组成群组的突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变或多个突变，其中X是指示存在不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个、或五个选自由H8X、A106X、D108X、N127X、及K160X所组成群组的突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变或多个突变，其中X是指示存在不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个、五个、六个、或七个选自由L84F、A106V、D108N、H123Y、D147Y、E155V、及I156F所组成群组的突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变或多个突变。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个、五个、或六个选自由S2A、I49F、A106V、D108N、D147Y、及E155V所组成群组的突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个、两个、三个、四个、或五个选自由H8Y、A106T、D108N、N127S、及K160S所组成群组的突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变或多个突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个或多个E25X、R26X、R107X、A142X、和/或A143X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的一个或多个对应突变，其中X的存在是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个或多个E25M、E25D、E25A、E25R、E25V、E25S、E25Y、R26G、R26N、R26Q、R26C、R26L、R26K、R107P、R107K、R107A、R107N、R107W、R107H、R107S、A142N、A142D、A142G、A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的一个或多个对应突变。有些实施方案中，腺苷脱氨酶包含对应于TadA参考序列的一个或多个本文所说明突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的一个或多个对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的E25X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的E25M、E25D、E25A、E25R、E25V、E25S、或E25Y突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的R26X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的R26G、R26N、R26Q、R26C、R26L、或R26K突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的R107X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的R107P、R107K、R107A、R107N、R107W、R107H、或R107S突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的A142X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的A142N、A142D、A142G突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的A143X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个或多个H36X、N37X、P48X、I49X、R51X、M70X、N72X、D77X、E134X、S146X、Q154X、K157X、和/或K161X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的一个或多个对应突变，其中X的存在是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的一个或多个H36L、N37T、N37S、P48T、P48L、I49V、R51H、R51L、M70L、N72S、D77G、E134G、S146R、S146C、Q154H、K157N、和/或K161T突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的一个或多个对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的H36X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的H36L突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的N37X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的N37T、或N37S突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的P48X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的P48T、或P48L突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的R51X突变，或在另一种腺苷脱氨酶中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的R51H、或R51L突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的S146X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的S146R、或S146C突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的K157X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的K157N突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的P48X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的P48S、P48T、或P48A突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的A142X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的A142N突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的W23X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的W23R、或W23L突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的R152X突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变，其中X是指不同于野生型腺苷脱氨酶中对应氨基酸的任何氨基酸。有些实施方案中，腺苷脱氨酶包含在TadA参考序列中的R152P、或R52H突变，或在另一种腺苷脱氨酶(例如：ecTadA)中的对应突变。

一项实施方案中，腺苷脱氨酶包含突变H36L、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、E155V、I156F、及K157N。有些实施方案中，腺苷脱氨酶包含相对于TadA参考序列的下列突变组合，其中组合的各突变是以“_”分隔，且每个突变组合是在括号之间：

(A106V_D108N)，

(R107C_D108N)，

(H8Y_D108N_N127S_D147Y_Q154H)，

(H8Y_D108N_N127S_D147Y_E155V)，

(D108N_D147Y_E155V)，

(H8Y_D108N_N127S)，

(H8Y_D108N_N127S_D147Y_Q154H)，

(A106V_D108N_D147Y_E155V)，

(D108Q_D147Y_E155V)，

(D108M_D147Y_E155V)，

(D108L_D147Y_E155V)，

(D108K_D147Y_E155V)，

(D108I_D147Y_E155V)，

(D108F_D147Y_E155V)，

(A106V_D108N_D147Y)，

(A106V_D108M_D147Y_E155V)，

(E59A_A106V_D108N_D147Y_E155V)，

(E59A cat dead_A106V_D108N_D147Y_E155V)，

(L84F_A106V_D108N_H123Y_D147Y_E155V_I156Y)，

(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)，

(D103A_D104N)，

(G22P_D103A_D104N)，

(D103A_D104N_S138A)，

(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F)，

(E25G_R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F)，(E25D_R26G_L84F_A106V_R107K_D108N_H123Y_A142N_A143G_D147Y_E155V_I156F)，

(R26Q_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)，

(E25M_R26G_L84F_A106V_R107P_D108N_H123Y_A142N_A143D_D147Y_E155V

_I156F)，

(R26C_L84F_A106V_R107H_D108N_H123Y_A142N_D147Y_E155V_I156F)，

(L84F_A106V_D108N_H123Y_A142N_A143L_D147Y_E155V_I156F)，

(R26G_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)，

(E25A_R26G_L84F_A106V_R107N_D108N_H123Y_A142N_A143E_D147Y_E155V_I156F)，

(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F)，

(A106V_D108N_A142N_D147Y_E155V)，

(R26G_A106V_D108N_A142N_D147Y_E155V)，

(E25D_R26G_A106V_R107K_D108N_A142N_A143G_D147Y_E155V)，

(R26G_A106V_D108N_R107H_A142N_A143D_D147Y_E155V)，

(E25D_R26G_A106V_D108N_A142N_D147Y_E155V)，

(A106V_R107K_D108N_A142N_D147Y_E155V)，

(A106V_D108N_A142N_A143G_D147Y_E155V)，

(A106V_D108N_A142N_A143L_D147Y_E155V)，

(H36L_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)，

(N37T_P48T_M70L_L84F_A106V_D108N_H123Y_D147Y_I49V_E155V_I156F)，

(N37S_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K161T)，

(H36L_L84F_A106V_D108N_H123Y_D147Y_Q154H_E155V_I156F)，

(N72S_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F)，

(H36L_P48L_L84F_A106V_D108N_H123Y_E134G_D147Y_E155V_I156F)，

(H36L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N)，(H36L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F)，

(L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T)，

(N37S_R51H_D77G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)，

(R51L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N)，

(D24G_Q71R_L84F_H96L_A106V_D108N_H123Y_D147Y_E155V_I156F_K160E)，

(H36L_G67V_L84F_A106V_D108N_H123Y_S146T_D147Y_E155V_I156F)，

(Q71L_L84F_A106V_D108N_H123Y_L137M_A143E_D147Y_E155V_I156F)，

(E25G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L)，

(L84F_A91T_F104I_A106V_D108N_H123Y_D147Y_E155V_I156F)，

(N72D_L84F_A106V_D108N_H123Y_G125A_D147Y_E155V_I156F)，

(P48S_L84F_S97C_A106V_D108N_H123Y_D147Y_E155V_I156F)，

(W23G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)，

(D24G_P48L_Q71R_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L)，

(L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)，

(H36L_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N)，(N37S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_K161T)，

(L84F_A106V_D108N_D147Y_E155V_I156F)，

(R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K161T)，

(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K161T)，

(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E_K161T)，

(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E)，

(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)，

(R74A_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)，

(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)，

(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)，

(L84F_R98Q_A106V_D108N_H123Y_D147Y_E155V_I156F)，

(L84F_A106V_D108N_H123Y_R129Q_D147Y_E155V_I156F)，

(P48S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)，

(P48S_A142N)，

(P48T_I49V_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_L157N)，

(P48T_I49V_A142N)，

(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)，

(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F

(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)，

(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N)，

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)，

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N)，

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F_K157N)，

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)，

(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)，

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T)，

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152H_E155V_I156F_K157N)，

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)，

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)，

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_E155V_I156F_K157N)，

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_R152P_E155V_I156F_K157N)，

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T)，

(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)，

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_R152P_E155V_I156F_K157N)。

某些实施方案中，本文所提供融合蛋白包含一个或多个改良融合蛋白的碱基编辑活性的特色。例如：本文所提供任何融合蛋白可包含已降低核酸酶活性的Cas9结构域。有些实施方案中，本文所提供任何融合蛋白可具有没有核酸酶活性的Cas9结构域(dCas9)、或切割双螺旋DNA分子中一链的Cas9结构域，称为Cas9切口酶(nCas9)。

有些实施方案中，腺苷脱氨酶为TadA*7.10。有些实施方案中，TadA*7.10包含至少一个修改。特定实施方案中，TadA*7.10包含一个或多个对TadA*7.10的下列修改或额外修改：Y147T、Y147R、Q154S、Y123H、V82S、T166R、及Q154R。修改Y123H在本文中亦称为H123H(TadA*7.10中的修改H123Y回复成Y123H(wt))。其他实施方案中，TadA*7.10包含选自：Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；及I76Y+V82S+Y123H+Y147R+Q154R的修饰的组合。特定实施方案中，腺苷脱氨酶变体包含在残基149、150、151、152、153、154、155、156、及157开始的C末端缺失。

其他实施方案中，本发明碱基编辑器为包含腺苷脱氨酶变体(例如：TadA*8)的单体，其相对于TadA7.10或TadA参考序列包含一个或多个下列修改：Y147T、Y147R、Q154S、Y123H、V82S、T166R、和/或Q154R。其他实施方案中，腺苷脱氨酶变体(TadA*8)为单体，其包含选自Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；及I76Y+V82S+Y123H+Y147R+Q154R的修饰的组合。其他实施方案中，碱基编辑器为异源二聚体，其包含野生型腺苷脱氨酶和腺苷脱氨酶变体(例如：TadA*8)，其相对于TadA7.10或TadA参考序列，包含一个或多个下列修改Y147T、Y147R、Q154S、Y123H、V82S、T166R、和/或Q154R。其他实施方案中，碱基编辑器为异源二聚体，其包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如：TadA*8)，其包含选自Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；及I76Y+V82S+Y123H+Y147R+Q154R的修饰的组合。

一项实施方案中，腺苷脱氨酶为TadA*8，其包含或基本上其组成为下列序列或其具有腺苷脱氨酶活性的片段：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD

有些实施方案中，TadA*8已截短。有些实施方案中，截短的TadA*8相对于全长TadA*8，失去1、2、3、4、5、66、7、8、9、10、11、12、13、14、15、6、17、18、19、或20个N末端氨基酸残基。有些实施方案中，截短的TadA*8相对于全长TadA*8，失去1、2、3、4、5、66、7、8、9、10、11、12、13、14、15、6、17、18、19、或20个C末端氨基酸残基。有些实施方案中，腺苷脱氨酶变体为全长TadA*8。

有些实施方案中，TadA*8为TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23、TadA*8.24。

一项实施方案中，本发明融合蛋白包含野生型TadA连接至本文说明的腺苷脱氨酶变体(例如：TadA*8)，其是连接至Cas9切口酶。特定实施方案中，融合蛋白包含单一TadA*8结构域(例如：呈单体提供)。其他实施方案中，碱基编辑器包含TadA*8及TadA(wt)，其等可以形成异源二聚体。例举的序列如下：

TadA(wt)，“TadA参考序列”:

TadA*7.10:

TadA*8:

有些实施方案中，腺苷脱氨酶包含和本文所提供任何腺苷脱氨酶中所示任何一种氨基酸序列为至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致的氨基酸序列。应理解，本文所提供腺苷脱氨酶可包括一个或多个突变(例如：本文所提供任何突变)。本发明提供具有某些一致性百分比加上本文所说明任何突变或其组合的任何脱氨酶结构域。有些实施方案中，腺苷脱氨酶包含的氨基酸序列相较于参考序列，或本文所提供任何腺苷脱氨酶具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个、或更多个突变。有些实施方案中，腺苷脱氨酶包含的氨基酸序列相较于相关技艺习知或本文所说明任何一种氨基酸序列具有至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160、或至少170个一致的连续氨基酸残基。

特定实施方案中，TadA*8在下列以粗体表示的任何位置中包含一个或多个突变。其他实施方案中，TadA*8在以底线表示的任何位置中包含一个或多个突变:

例如：TadA*8相对于TadA7.10或wtTadA、或其对应序列，包含修改氨基酸位置82和/或166(例如：V82S、T166R)，单独或和下列任何一个或多个组合：Y147T、Y147R、Q154S、Y123H、和/或Q154R。特定实施方案中，修改组合是选自由：Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；及I76Y+V82S+Y123H+Y147R+Q154R所组成群组。

有些实施方案中，腺苷脱氨酶为TadA*8，其包含或基本上其组成为下列序列或其具有腺苷脱氨酶活性的片段：

MSEVEFSHEY WMRHALTLAK RARDEREVPV GAVLVLNNRV IGEGWNRAIG LHDPTAHAEIMALRQGGLVM QNYRLIDATL YVTFEPCVMC AGAMIHSRIG

RVVFGVRNAK TGAAGSLMDV LHYPGMNHRV EITEGILADE CAALLCTFFR

MPRQVFNAQK KAQSSTD

一项实施方案中，本发明融合蛋白包含野生型TadA连接至本文说明的腺苷脱氨酶变体(例如：TadA*8)，其连接至Cas9切口酶。特定实施方案中，融合蛋白包含单一TadA*8结构域(例如：呈单体提供)。其他实施方案中，碱基编辑器包含TadA*8及TadA(wt)，其等可形成异源二聚体。

额外结构域

本文说明的碱基编辑器可包括协助促进多核苷酸的核碱基的核碱基编辑、修饰或修改的任何结构域。有些实施方案中，碱基编辑器包含多核苷酸可编程核苷酸结合结构域(例如：Cas9)、核碱基编辑结构域(例如：脱氨酶结构域)、和一个或多个额外结构域。有些实施方案中，所述额外结构域可以促进碱基编辑器的酵素性或催化性功能、碱基编辑器的结合功能、或作为可能干扰所需碱基编辑结果的细胞机转(例如：酶)的抑制剂。有些实施方案中，碱基编辑器可包含核酸酶、切口酶、重组酶、脱氨酶、甲基转移酶、甲基化酶、乙酰化酶、乙酰基转移酶、转录激活剂、或转录压剂结构域。

有些实施方案中，碱基编辑器可包含尿嘧啶醣苷酶抑制剂(UGI)结构域。有些实施方案中，对出现U：G杂双螺旋DNA产生的细胞DNA修复反应是细胞中核碱基编辑效能下降的原因。此等实施方案中，尿嘧啶DNA醣苷酶(UDG)可以从细胞DNA中催化脱除U，其可先从碱基切除修复(BER)开始，主要造成U：G对逆转成C：G对。此等实施方案中，可以在包含会结合单链、封阻已编辑的碱基、抑制UGI、抑制BER、保护已编辑的碱基、及/或促进修复未编辑链的一个或多个结构域的碱基编辑器中抑制BER。因此，本发明考虑包含UGI结构域的碱基编辑器融合蛋白。

有些实施方案中，碱基编辑器包含所有或一部份双链断裂(DSB)结合性蛋白质作为结构域。例如：DSB结合性蛋白质可包括细菌噬菌体Mu的Gam蛋白质，其可结合至DSB的末端，加以保护免于被降解。参见Komor,A.C.等人的“Improved base excision repairinhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editorswith higher efficiency and product purity”Science Advances3:eaao4774(2017)，其完整内容已以引用方式并入本文中。

此外，有些实施方案中，Gam蛋白质可以和碱基编辑器的N末端融合。有些实施方案中，Gam蛋白质可以和碱基编辑器的C末端融合。细菌噬菌体Mu的Gam蛋白质可以和双链断裂(DSB)末端结合，并加以保护免于被降解。有些实施方案中，使用Gam和DSB的游离端结合，可以在碱基编辑过程期间减少形成插入/缺失(indel)。有些实施方案中，174-残基Gam蛋白质是和碱基编辑器的N末端融合。参见Komor,A.C.等人的“Improved base excision repairinhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editorswith higher efficiency and product purity”Science Advances3:eaao4774(2017)。有些实施方案中，突变或多个突变可改变碱基编辑器结构域相对于野生型结构域的长度。例如：在至少一个结构域中缺失至少一个氨基酸可缩短碱基编辑器的长度。另一个例子中，相对于野生型结构域，所述突变或多个突变不会改变结构域的长度。例如：任何结构域中的取代(群)不会改变碱基编辑器的长度。

有些实施方案中，碱基编辑器可包含所有或一部份核酸聚合酶(NAP)作为结构域。例如：碱基编辑器可包含所有或一部份真核生物NAP。有些实施方案中，纳入碱基编辑器中的NAP或其一部份为DNA聚合酶。有些实施方案中，纳入碱基编辑器中的NAP或其一部份具有跨损伤(translesion)聚合酶活性。有些实施方案中，纳入碱基编辑器中的NAP或其一部份为跨损伤DNA聚合酶。有些实施方案中，纳入碱基编辑器中的NAP或其一部份为Rev7、Rev1复合物、聚合酶ι、聚合酶κ、或聚合酶η。有些实施方案中，纳入碱基编辑器中的NAP或其一部份为真核生物聚合酶α、β、γ、δ、ε、γ、η、ι、κ、λ、μ、或ν组份。有些实施方案中，纳入碱基编辑器中的NAP或其一部份包含和核酸聚合酶(例如：跨损伤DNA聚合酶)至少75％、80％、85％、90％、95％、96％、97％、98％、99％、或99.5％一致的氨基酸序列。

碱基编辑器系统

本文所提供碱基编辑器系统的用法包含以下步骤：(a)由个体的多核苷酸的靶核苷酸序列(例如：双链或单链DNA或RNA)和包含核碱基编辑器(例如：腺苷碱基编辑器)及向导聚核酸(例如：gRNA)的碱基编辑器系统接触，其中靶核苷酸序列包含靶核碱基对；(b)诱导所述靶区的链分离；(c)转换靶区单链中所述靶核碱基对的第一核碱基成为第二核碱基；及(d)切割所述靶区不超过一链，其中和第一核碱基的碱基互补的第三核碱基被和第二核碱基互补的第四核碱基置换。应了解，有些实施方案中，省略步骤(b)。有些实施方案中，所述靶核碱基对为在一或多个基因中的复数个核碱基对。有些实施方案中，本文所提供碱基编辑器系统可以在一或多个基因中的复数个核碱基对中进行多重(multiplex)编辑。有些实施方案中，所述复数个核碱基对位在同一个基因中。有些实施方案中，所述复数个核碱基对位在一或多个基因中，其中至少一个基因位在不同基因座上。

有些实施方案中，由切割单链(切口链)和向导核酸杂交。有些实施方案中，切割单链是和包含第一核碱基的链相反。有些实施方案中，碱基编辑器包含Cas9结构域。有些实施方案中，第一碱基为腺嘌呤，及第二碱基不为G、C、A、或T。有些实施方案中，第二碱基为肌苷。

本文所提供碱基编辑系统提供一种基因体编辑的新方法，其使用包含催化性缺陷的化脓性链球菌(Streptococcus pyogenes)Cas9、腺苷脱氨酶、及碱基切除修复的抑制剂的融合蛋白，在DNA中诱发可编程的单一核苷酸(C→T或A→G)改变，不会产生双链DNA断裂，不需要供体DNA模板，且不会诱发过量随机插入和缺失。

本文提供使用碱基编辑器系统编辑核碱基的系统、组合物、和方法。有些实施方案中，碱基编辑器系统包含(1)碱基编辑器(BE)，其包含多核苷酸可编程核苷酸结合结构域及核碱基编辑结构域(例如：脱氨酶结构域)，供编辑核碱基；及(2)向导多核苷酸(例如：向导RNA)，其是和多核苷酸可编程核苷酸结合结构域连结。有些实施方案中，碱基编辑器系统包含腺苷碱基编辑器(ABE)。有些实施方案中，多核苷酸可编程核苷酸结合结构域为多核苷酸可编程DNA结合结构域。有些实施方案中，多核苷酸可编程核苷酸结合结构域为多核苷酸可编程RNA结合结构域。有些实施方案中，核碱基编辑结构域为脱氨酶结构域。有些实施方案中，脱氨酶结构域可为腺嘌呤脱氨酶或腺苷脱氨酶。有些实施方案中，腺苷碱基编辑器可使DNA中的腺嘌呤脱氨。有些实施方案中，ABE包含演化的TadA变体。

核碱基编辑蛋白质的详细内容说明于国际PCT申请案案号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344

(WO2017/070632)，其等内容已分别以全文引用方式并入本文中。亦参见Komor,A.C.等人的“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016)；Gaudelli,N.M.等人的“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017)；及Komor,A.C.等人的“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields

C:G-to-T:A base editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)，其等完整内容已以引用方式并入本文中。

有些实施方案中，可利用单一向导多核苷酸，让脱氨酶靶向靶核酸序列。有些实施方案中，可利用单一一对向导多核苷酸让不同脱氨酶靶向靶核酸序列。

碱基编辑器系统的核碱基组份及多核苷酸可编程核苷酸结合组份可以利用共价或非共价作用彼此相联。例如：有些实施方案中，脱氨酶结构域可通过多核苷酸可编程核苷酸结合结构域靶向靶核苷酸序列。有些实施方案中，多核苷酸可编程核苷酸结合结构域可以融合或连接至脱氨酶结构域。有些实施方案中，多核苷酸可编程核苷酸结合结构域可以利用非共价作用和脱氨酶结构域交互作用或相联，让脱氨酶结构域靶向靶核苷酸序列。例如：有些实施方案中，核碱基编辑组份，例如：脱氨酶组份，可以包含可以和作为多核苷酸可编程核苷酸结合结构域中一部份的额外异源性部份或结构域交互作用、相联、或可以形成复合物的额外异源性部份或结构域。有些实施方案中，所述额外异源性部份可能可以和多肽结合、交互作用、相联、或形成复合物。有些实施方案中，所述额外异源性部份可能可以和多核苷酸结合、交互作用、相联、或形成复合物。有些实施方案中，所述额外异源性部份可能可以和向导多核苷酸结合。有些实施方案中，所述额外异源性部份可能可以和多肽连接子结合。有些实施方案中，所述额外异源性部份可能可以和多核苷酸连接子结合。所述额外异源性部份可为蛋白质结构域。有些实施方案中，所述额外异源性部份可为K同源(KH)结构域、MS2外套蛋白质结构域、PP7外套蛋白质结构域、SfMu Com外套蛋白质结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白质、端粒酶Sm7结合基序和Sm7蛋白质、或RNA辨识基序。

碱基编辑器系统可进一步包含向导多核苷酸组份。应了解，碱基编辑器系统的组份可能透过共价键、非共价交互作用、或其相联和交互作用的任何组合彼此相联。有些实施方案中，脱氨酶结构域可以通过向导多核苷酸靶向靶核苷酸序列。例如：有些实施方案中，碱基编辑器系统的核碱基编辑组份，例如：脱氨酶组份，可包含可以和向导多核苷酸的一部份或节段(例如：多核苷酸基序)交互作用、相联、或可以形成复合物的额外异源性部份或结构域(例如：多核苷酸结合结构域，如：RNA或DNA结合性蛋白质)。有些实施方案中，所述额外异源性部份或结构域(例如：多核苷酸结合结构域，如：RNA或DNA结合性蛋白质)可以和脱氨酶结构域融合或连接。有些实施方案中，所述额外异源性部份可能可以和多肽结合、交互作用、相联、或形成复合物。有些实施方案中，所述额外异源性部份可能可以和多核苷酸结合、交互作用、相联、或形成复合物。有些实施方案中，所述额外异源性部份可能可以和向导多核苷酸结合。有些实施方案中，所述额外异源性部份可能可以和多肽连接子结合。有些实施方案中，所述额外异源性部份可能可以和多核苷酸连接子结合。所述额外异源性部份可为蛋白质结构域。有些实施方案中，所述额外异源性部份可为K同源(KH)结构域、MS2外套蛋白质结构域、PP7外套蛋白质结构域、SfMu Com外套蛋白质结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白质、端粒酶Sm7结合基序和Sm7蛋白质、或RNA辨识基序。

有些实施方案中，碱基编辑器系统可进一步包含碱基切除修复(BER)组份的抑制剂。应了解，所述碱基编辑器系统的组份可能透过共价键、非共价交互作用、或其相联和交互作用的任何组合彼此相联。BER的抑制剂组份可包含碱基切除修复抑制剂。有些实施方案中，碱基切除修复的抑制剂可为尿嘧啶DNA醣苷酶抑制剂(UGI)。有些实施方案中，碱基切除修复的抑制剂可为肌苷碱基切除修复抑制剂。有些实施方案中，碱基切除修复的抑制剂可通过多核苷酸可编程核苷酸结合结构域靶向靶核苷酸序列。有些实施方案中，多核苷酸可编程核苷酸结合结构域可以和碱基切除修复的抑制剂融合或连接。有些实施方案中，多核苷酸可编程核苷酸结合结构域可以和脱氨酶结构域及碱基切除修复的抑制剂融合或连接。有些实施方案中，多核苷酸可编程核苷酸结合结构域可通过和碱基切除修复的抑制剂依非共价交互作用或相联，而使碱基切除修复的抑制剂靶向靶核苷酸序列。例如：有些实施方案中，碱基切除修复组份的抑制剂可包含额外异源性部份或结构域，其可以和作为多核苷酸可编程核苷酸结合结构域的一部份的额外异源性部份或结构域交互作用、相联、或可以形成复合物。有些实施方案中，碱基切除修复的抑制剂可以通过向导多核苷酸靶向靶核苷酸序列。例如：有些实施方案中，碱基切除修复的抑制剂可包含可以和向导多核苷酸的部份或节段(例如：多核苷酸基序)交互作用、相联、或可以形成复合物的额外异源性部份或结构域(例如：多核苷酸结合结构域，如：RNA或DNA结合性蛋白质)。有些实施方案中，向导多核苷酸的额外异源性部份或结构域(例如：多核苷酸结合结构域，如：RNA或DNA结合性蛋白质)可以和碱基切除修复的抑制剂融合或连接。有些实施方案中，所述额外异源性部份可能可以和多核苷酸结合、交互作用、相联、或形成复合物。有些实施方案中，所述额外异源性部份可能可以和向导多核苷酸结合。有些实施方案中，所述额外异源性部份可能可以和多肽连接子结合。有些实施方案中，所述额外异源性部份可能可以和多核苷酸连接子结合。所述额外异源性部份可为蛋白质结构域。有些实施方案中，所述额外异源性部份可为K同源(KH)结构域、MS2外套蛋白质结构域、PP7外套蛋白质结构域、SfMu Com外套蛋白质结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白质、端粒酶Sm7结合基序和Sm7蛋白质、或RNA辨识基序。

有些实施方案中，碱基编辑器抑制所编辑链的碱基切除修复(BER)。有些实施方案中，碱基编辑器保护或结合未编辑链。有些实施方案中，碱基编辑器包含UGI活性。有些实施方案中，碱基编辑器包含催化性失活肌苷-特异性核酸酶。有些实施方案中，碱基编辑器包含切口酶活性。有些实施方案中，预期编辑的碱基对在PAM位点的上游。有些实施方案中，预期编辑的碱基对在PAM位点上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。有些实施方案中，预期编辑的碱基对在PAM位点下游。有些实施方案中，预期编辑的碱基对在PAM位点下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。

有些实施方案中，所述方法不需要典型(例如：NGG)PAM位点。有些实施方案中，核碱基编辑器包含连接子或间隔子。有些实施方案中，连接子或间隔子为1-25个氨基酸的长度。有些实施方案中，连接子或间隔子为5-20个氨基酸的长度。有些实施方案中，连接子或间隔子为10、11、12、13、14、15、16、17、18、19、或20个氨基酸的长度。

有些实施方案中，本文所提供碱基编辑融合蛋白必需位在精准位置，例如：其中靶碱基置于界定区内(例如：“脱氨窗口”)。有些实施方案中，靶可在4个碱基区内。有些实施方案中，此等界定靶区可在PAM上游约15个碱基。参见Komor,A.C.等人的“Programmableediting of a target base in genomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016)；Gaudelli,N.M.等人的“Programmable base editing of A·T to G·C in genomic DNA without DNA cleavage”Nature 551,464-471(2017)；及Komor,A.C.等人的“Improved base excision repair inhibition and bacteriophageMu Gam protein yields C:G-to-T:A base editors with higher efficiency andproduct purity”Science Advances3:eaao4774(2017)，其等完整内容已以引用方式并入本文中。

有些实施方案中，靶区包含靶窗口，其中靶窗口包含靶核碱基对。有些实施方案中，靶窗口包含1-10个核苷酸。有些实施方案中，靶窗口为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸的长度。有些实施方案中，预期编辑的碱基对在靶窗口内。有些实施方案中，靶窗口包含预期编辑的碱基对。

有些实施方案中，所述方法是使用本文提供的任何碱基编辑器进行。

有些实施方案中，靶窗口为脱氨窗口。脱氨窗口可以界定在让碱基编辑器作用且使靶核苷酸脱氨的一区。有些实施方案中，脱氨窗口在2、3、4、5、6、7、8、9、或10个碱基区内。有些实施方案中，脱氨窗口为PAM上游5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、或25个碱基。

本发明碱基编辑器可包含促进靶多核苷酸序列的编辑的任何结构域、特色或氨基酸序列。例如：有些实施方案中，碱基编辑器包含核定位序列(NLS)。有些实施方案中，碱基编辑器的NLS位在脱氨酶结构域和多核苷酸可编程核苷酸结合结构域之间。有些实施方案中，碱基编辑器的NLS位在多核苷酸可编程核苷酸结合结构域的C末端。

其他可出现在本文所揭示碱基编辑器中的例举特征为定位序列，如：细胞质定位序列、输出序列(如：核输出序列)、或其他定位序列，及适用于溶解、纯化、或检测融合蛋白的序列标签。本文所提供合适蛋白质标签包括(但不限于)：生物素羧酸酶载体蛋白质(BCCP)标签、myc-标签、调钙素-标签、FLAG-标签、血球凝集素(HA)-标签、聚组氨酸标签(亦称为组氨酸标签或His-标签)、麦芽糖结合性蛋白质(MBP)-标签、nus-标签、谷胱甘肽-S-转移酶(GST)-标签、绿色萤光蛋白质(GFP)-标签、硫氧还蛋白-标签、S-标签、Softag标签(例如：Softag1、Softag 3)、strep-标签、生物素连接酶标签、FlAsH标签、V5标签、和SBP-标签。其他合适的序列是彼等本领域技术人员通常理解者。有些实施方案中，融合蛋白包含一个或多个His标签。

可包括在融合蛋白中的蛋白质结构域的非限制性实例包括脱氨酶结构域(例如：腺苷脱氨酶)、尿嘧啶醣苷酶抑制剂(UGI)结构域、抗原决定基标签、和报导子基因序列。

抗原决定基标签的非限制性实例包括组氨酸(His)标签、V5标签、FLAG标签、流感血球凝集素(HA)标签、Myc标签、VSV-G标签、和硫氧还蛋白(Trx)标签。报导子基因实例包括(但不限于)：谷胱甘肽-5-转移酶(GST)、辣根过氧化酶(HRP)、氯霉素乙酰基转移酶(CAT)、β-半乳糖苷酶、β-葡萄醣醛酸酶、萤光素酶、绿色萤光蛋白质(GFP)、HcRed、DsRed、青色萤光蛋白质(CFP)、黄色萤光蛋白质(YFP)、和自体萤光蛋白质包括蓝色萤光蛋白质(BFP)。其他蛋白质序列可包括会结合DNA分子或结合其他细胞分子的氨基酸序列，包括(但不限于)：麦芽糖结合性蛋白质(MBP)、S-tag、Lex A DNA结合结构域(DBD)融合物、GAL4 DNA结合结构域融合物、和单纯疱疹病毒(HSV)BP16蛋白质融合物。

有些实施方案中，腺苷碱基编辑器(ABE)可以使DNA中的腺嘌呤脱氨。有些实施方案中，ABE是由天然或工程化大肠杆菌(E.coli)TadA、人类ADAR2、小鼠ADA、或人类ADAT2置换BE3的APOBEC1组份而产生。有些实施方案中，ABE包含演化的TadA变体。有些实施方案中，ABE为ABE 1.2(TadA*-XTEN-nCas9-NLS)。有些实施方案中，TadA*包含A106V及D108N突变。

有些实施方案中，ABE为第二代ABE。有些实施方案中，ABE为ABE2.1，其包含在TadA*中的额外突变D147Y及E155V(TadA*2.1)。有些实施方案中，ABE为ABE2.2，由ABE2.1融合至催化性失活型人类烷基腺嘌呤DNA醣苷酶(具有E125Q突变的AAG)。有些实施方案中，ABE为ABE2.3，由ABE2.1融合至催化性失活型大肠杆菌(E.coli)Endo V(经过D35A突变而失活)。有些实施方案中，ABE为ABE2.6，其具有的连接子长度为ABE2.1中连接子的两倍(32个氨基酸，

(SGGS)₂-XTEN-(SGGS)₂)。有些实施方案中，ABE为ABE2.7，其为利用额外野生型TadA单体是链的ABE2.1。有些实施方案中，ABE为ABE2.8，其为利用额外TadA*2.1单体是链的ABE2.1。有些实施方案中，ABE为ABE2.9，其为演化的TadA(TadA*2.1)和ABE2.1的N末端的定向融合物。有些实施方案中，ABE为ABE2.10，其野生型TadA和ABE2.1的N末端的定向融合物。有些实施方案中，ABE为ABE2.11，其为在TadA*单体N末端具有失活E59A突变的ABE2.9。有些实施方案中，ABE为ABE2.12，其为在内部TadA*单体中具有失活E59A突变的ABE2.9。

有些实施方案中，ABE为第三代ABE。有些实施方案中，ABE为ABE3.1，其为具有三个额外TadA突变(L84F、H123Y、和I156F)的ABE2.3。

有些实施方案中，ABE为第四代ABE。有些实施方案中，ABE为ABE4.3，其为具有额外TadA突变A142N(TadA*4.3)的ABE3.1。

有些实施方案中，ABE为第五代ABE。有些实施方案中，ABE为ABE5.1，其是来自存活纯是(H36L、R51L、S146C、和K157N)的共通突变组输入至ABE3.1中而产生。有些实施方案中，ABE为ABE5.3，其具有包含野生型大肠杆菌(E.coli)TadA融合至内部演化的TadA*的杂二聚构建体。有些实施方案中，ABE为ABE5.2、ABE5.4、ABE5.5、ABE5.6、ABE5.7、ABE5.8、ABE5.9、ABE5.10、ABE5.11、ABE5.12、ABE5.13、或ABE5.14，如下表6所示。有些实施方案中，ABE为第六代ABE。有些实施方案中，ABE为ABE6.1、ABE6.2、ABE6.3、ABE6.4、ABE6.5、或ABE6.6，如下表6所示。有些实施方案中，ABE为第七代ABE。有些实施方案中，ABE为ABE7.1、ABE7.2、ABE7.3、ABE7.4、ABE7.5、ABE7.6、ABE7.7、ABE7.8、ABE 7.9、或ABE7.10，如下表6所示。

表6.ABE的基因型

有些实施方案中，碱基编辑器为第八代ABE(ABE8)。有些实施方案中，ABE8包含TadA*8变体。有些实施方案中，ABE8具有包含TadA*8变体的单体构建体(“ABE8.x-m”)。有些实施方案中，ABE8为ABE8.1-m，其具有单体构建体，其包含具有Y147T突变的TadA*7.10(TadA*8.1)。有些实施方案中，ABE8为ABE8.2-m，其具有单体构建体，其包含具有Y147R突变的TadA*7.10(TadA*8.2)。有些实施方案中，ABE8为ABE8.3-m，其具有单体构建体，其包含具有Q154S突变的TadA*7.10(TadA*8.3)。有些实施方案中，ABE8为ABE8.4-m，其具有单体构建体，其包含具有Y123H突变的TadA*7.10(TadA*8.4)。有些实施方案中，ABE8为ABE8.5-m，其具有单体构建体，其包含具有V82S突变的TadA*7.10(TadA*8.5)。有些实施方案中，ABE8为ABE8.6-m，其具有单体构建体，其包含具有T166R突变的TadA*7.10(TadA*8.6)。有些实施方案中，ABE8为ABE8.7-m，其具有单体构建体，其包含具有Q154R突变的TadA*7.10(TadA*8.7)。有些实施方案中，ABE8为ABE8.8-m，其具有单体构建体，其包含具有Y147R、Q154R、和Y123H突变的TadA*7.10(TadA*8.8)。有些实施方案中，ABE8为ABE8.9-m，其具有单体构建体，其包含具有Y147R、Q154R及I76Y突变的TadA*7.10(TadA*8.9)。有些实施方案中，ABE8为ABE8.10-m，其具有单体构建体，其包含具有Y147R、Q154R、和T166R突变的TadA*7.10(TadA*8.10)。有些实施方案中，ABE8为ABE8.11-m，其具有单体构建体，其包含具有Y147T及Q154R突变的TadA*7.10(TadA*8.11)。有些实施方案中，ABE8为ABE8.12-m，其具有单体构建体，其包含具有Y147T及Q154S突变的TadA*7.10(TadA*8.12)。有些实施方案中，ABE8为ABE8.13-m，其具有单体构建体，其包含具有Y123H(由H123Y回复Y123H)、Y147R、Q154R及I76Y突变的TadA*7.10(TadA*8.13)。有些实施方案中，ABE8为ABE8.14-m，其具有单体构建体，其包含具有I76Y及V82S突变的TadA*7.10(TadA*8.14)。有些实施方案中，ABE8为ABE8.15-m，其具有单体构建体，其包含具有V82S及Y147R突变的TadA*7.10(TadA*8.15)。有些实施方案中，ABE8为ABE8.16-m，其具有单体构建体，其包含具有V82S、Y123H(由H123Y回复Y123H)及Y147R突变的TadA*7.10(TadA*8.16)。有些实施方案中，ABE8为ABE8.17-m，其具有单体构建体，其包含具有V82S及Q154R突变的TadA*7.10(TadA*8.17)。有些实施方案中，ABE8为ABE8.18-m，其具有单体构建体，其包含具有V82S、Y123H(由H123Y回复Y123H)及Q154R突变的TadA*7.10(TadA*8.18)。有些实施方案中，ABE8为ABE8.19-m，其具有单体构建体，其包含具有V82S、Y123H(由H123Y回复Y123H)、Y147R及Q154R突变的TadA*7.10(TadA*8.19)。有些实施方案中，ABE8为ABE8.20-m，其具有单体构建体，其包含具有I76Y、V82S、Y123H(由H123Y回复Y123H)、Y147R及Q154R突变的TadA*7.10(TadA*8.20)。有些实施方案中，ABE8为ABE8.21-m，其具有单体构建体，其包含具有Y147R及Q154S突变的TadA*7.10(TadA*8.21)。有些实施方案中，ABE8为ABE8.22-m，其具有单体构建体，其包含具有V82S及Q154S突变的TadA*7.10(TadA*8.22)。有些实施方案中，ABE8为ABE8.23-m，其具有单体构建体，其包含具有V82S及Y123H(由H123Y回复Y123H)突变的TadA*7.10(TadA*8.23)。有些实施方案中，ABE8为ABE8.24-m，其具有单体构建体，其包含具有V82S、Y123H(由H123Y回复Y123H)、和Y147T突变的TadA*7.10(TadA*8.24)。

有些实施方案中，ABE8具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至TadA*8变体(“ABE8.x-d”)。有些实施方案中，ABE8为ABE8.1-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有Y147T突变的TadA*7.10(TadA*8.1)。有些实施方案中，ABE8为ABE8.2-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有Y147R突变的TadA*7.10(TadA*8.2)。有些实施方案中，ABE8为ABE8.3-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有Q154S突变的TadA*7.10(TadA*8.3)。有些实施方案中，ABE8为ABE8.4-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有Y123H突变的TadA*7.10(TadA*8.4)。有些实施方案中，ABE8为ABE8.5-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有V82S突变的TadA*7.10(TadA*8.5)。有些实施方案中，ABE8为ABE8.6-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有T166R突变的TadA*7.10(TadA*8.6)。有些实施方案中，ABE8为ABE8.7-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有Q154R突变的TadA*7.10(TadA*8.7)。有些实施方案中，ABE8为ABE8.8-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有Y147R、Q154R、和Y123H突变的TadA*7.10(TadA*8.8)。有些实施方案中，ABE8为ABE8.9-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有Y147R、Q154R及I76Y突变的TadA*7.10(TadA*8.9)。有些实施方案中，ABE8为ABE8.10-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有Y147R、Q154R、和T166R突变的TadA*7.10(TadA*8.10)。有些实施方案中，ABE8为ABE8.11-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有Y147T及Q154R突变的TadA*7.10(TadA*8.11)。有些实施方案中，ABE8为ABE8.12-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有Y147T及Q154S突变的TadA*7.10(TadA*8.12)。有些实施方案中，ABE8为ABE8.13-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有Y123H(由H123Y回复Y123H)、Y147R、Q154R及I76Y突变的TadA*7.10(TadA*8.13)。有些实施方案中，ABE8为ABE8.14-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有I76Y及V82S突变的TadA*7.10(TadA*8.14)。有些实施方案中，ABE8为ABE8.15-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有V82S及Y147R突变的TadA*7.10(TadA*8.15)。有些实施方案中，ABE8为ABE8.16-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有V82S、Y123H(由H123Y回复Y123H)及Y147R突变的TadA*7.10(TadA*8.16)。有些实施方案中，ABE8为ABE8.17-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有V82S及Q154R突变的TadA*7.10(TadA*8.17)。有些实施方案中，ABE8为ABE8.18-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有V82S、Y123H(由H123Y回复Y123H)及Q154R突变的TadA*7.10(TadA*8.18)。有些实施方案中，ABE8为ABE8.19-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有V82S、Y123H(由H123Y回复Y123H)、Y147R及Q154R突变的TadA*7.10(TadA*8.19)。有些实施方案中，ABE8为ABE8.20-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有I76Y、V82S、Y123H(由H123Y回复Y123H)、Y147R及Q154R突变的TadA*7.10(TadA*8.20)。有些实施方案中，ABE8为ABE8.21-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有Y147R及Q154S突变的TadA*7.10(TadA*8.21)。有些实施方案中，ABE8为ABE8.22-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有V82S及Q154S突变的TadA*7.10(TadA*8.22)。有些实施方案中，ABE8为ABE8.23-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有V82S及Y123H(由H123Y回复Y123H)突变的TadA*7.10(TadA*8.23)。有些实施方案中，ABE8为ABE8.24-d，其具有杂二聚构建体，其包含野生型大肠杆菌(E.coli)TadA融合至具有V82S、Y123H(由H123Y回复Y123H)、和Y147T突变的TadA*7.10(TadA*8.24)。

有些实施方案中，ABE8具有杂二聚构建体，其包含TadA*7.10融合至TadA*8变体(“ABE8.x-7”)。有些实施方案中有些实施方案中，ABE8为ABE8.1-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有Y147T突变的TadA*7.10(TadA*8.1)。有些实施方案中，ABE8为ABE8.2-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有Y147R突变的TadA*7.10(TadA*8.2)。有些实施方案中，ABE8为ABE8.3-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有Q154S突变的TadA*7.10(TadA*8.3)。有些实施方案中，ABE8为ABE8.4-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有Y123H突变的TadA*7.10(TadA*8.4)。有些实施方案中，ABE8为ABE8.5-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有V82S突变的TadA*7.10(TadA*8.5)。有些实施方案中，ABE8为ABE8.6-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有T166R突变的TadA*7.10(TadA*8.6)。有些实施方案中，ABE8为ABE8.7-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有Q154R突变的TadA*7.10(TadA*8.7)。有些实施方案中，ABE8为ABE8.8-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有Y147R、Q154R、和Y123H突变的TadA*7.10(TadA*8.8)。有些实施方案中，ABE8为ABE8.9-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有Y147R、Q154R及I76Y突变的TadA*7.10(TadA*8.9)。有些实施方案中，ABE8为ABE8.10-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有Y147R、Q154R、和T166R突变的TadA*7.10(TadA*8.10)。有些实施方案中，ABE8为ABE8.11-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有Y147T及Q154R突变的TadA*7.10(TadA*8.11)。有些实施方案中，ABE8为ABE8.12-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有Y147T及Q154S突变的TadA*7.10(TadA*8.12)。有些实施方案中，ABE8为ABE8.13-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有Y123H(由H123Y回复Y123H)、Y147R、Q154R及I76Y突变的TadA*7.10(TadA*8.13)。有些实施方案中，ABE8为ABE8.14-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有I76Y及V82S突变的TadA*7.10(TadA*8.14)。有些实施方案中，ABE8为ABE8.15-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有V82S及Y147R突变的TadA*7.10(TadA*8.15)。有些实施方案中，ABE8为ABE8.16-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有V82S、Y123H(由H123Y回复Y123H)及Y147R突变的TadA*7.10(TadA*8.16)。有些实施方案中，ABE8为ABE8.17-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有V82S及Q154R突变的TadA*7.10(TadA*8.17)。有些实施方案中，ABE8为ABE8.18-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有V82S、Y123H(由H123Y回复Y123H)及Q154R突变的TadA*7.10(TadA*8.18)。有些实施方案中，ABE8为ABE8.19-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有V82S、Y123H(由H123Y回复Y123H)、Y147R及Q154R突变的TadA*7.10(TadA*8.19)。有些实施方案中，ABE8为ABE8.20-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有I76Y、V82S、Y123H(由H123Y回复Y123H)、Y147R及Q154R突变的TadA*7.10(TadA*8.20)。有些实施方案中，ABE8为ABE8.21-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有Y147R及Q154S突变的TadA*7.10(TadA*8.21)。有些实施方案中，ABE8为ABE8.22-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有V82S及Q154S突变的TadA*7.10(TadA*8.22)。有些实施方案中，ABE8为ABE8.23-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有V82S及Y123H(由H123Y回复Y123H)突变的TadA*7.10(TadA*8.23)。有些实施方案中，ABE8为ABE8.24-7，其具有杂二聚构建体，其包含TadA*7.10融合至具有V82S、Y123H(由H123Y回复Y123H)、和Y147T突变的TadA*7.10(TadA*8.24)。

有些实施方案中，ABE为ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m、ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d、或ABE8.24-d，如下表7所示。

表7：碱基编辑器–ABE8

有些实施方案中，碱基编辑器(例如：ABE8)的产生是选殖腺苷脱氨酶变体(例如：TadA*8)至包括环状排列Cas9(例如：CP5或CP6)及二分核定位序列的骨架中。有些实施方案中，碱基编辑器(例如：ABE7.9、ABE7.10、或ABE8)为NGC PAM CP5变体(化脓链球菌(S.pyrogenes)Cas9或spVRQR Cas9)。有些实施方案中，碱基编辑器(例如：ABE7.9、ABE7.10、或ABE8)为AGA PAM CP5变体(化脓链球菌(S.pyrogenes)Cas9或spVRQR Cas9)。有些实施方案中，碱基编辑器(例如：ABE7.9、ABE7.10、或ABE8)为NGC PAM CP6变体(化脓链球菌(S.pyrogenes)Cas9或spVRQR Cas9)。有些实施方案中，碱基编辑器(例如：ABE7.9、ABE7.10、或ABE8)为AGA PAM CP6变体(化脓链球菌(S.pyrogenes)Cas9或spVRQR Cas9)。

有些实施方案中，ABE具有下表8所示的基因型。

表8.ABE的基因型

23

26

36

37

48

49

51

72

84

87

105

108

123

125

142

145

147

152

155

156

157

161

ABE7.9

L

R

L

N

A

L

N

F

S

V

N

Y

G

N

C

Y

P

V

F

N

K

ABE7.10

R

L

N

A

L

N

F

S

V

N

Y

G

A

C

Y

P

V

F

N

K

如下表9所示，说明40种ABE8的基因型。其指示在ABE的演化大肠杆菌(E.coli)TadA部份中的残基位置。当不同于ABE7.10突变时，即出示ABE8中改变的突变。有些实施方案中，ABE具有下表9呈现的其中一种基因型。

表9.演化TadA的残基一致性

有些实施方案中，碱基编辑器为ABE8.1，其包含或基本上其组成为下列序列或其具有腺苷脱氨酶活性的片段：

ABE8.1_Y147T_CP5_NGC PAM_单体

上述序列中，纯文字代表腺苷脱氨酶序列，粗体序列是指示由Cas9衍生的序列，斜体序列代表连接子序列，及底线序列代表二分核定位序列。

pNMG-B335 ABE8.1_Y147T_CP5_NGC PAM_单体

有些实施方案中，碱基编辑器为ABE8.14，其包含或基本上其组成为下列序列或其具有腺苷脱氨酶活性的片段：

pNMG-357_ABE8.14，具有NGC PAM CP5

有些实施方案中，碱基编辑器为ABE8.8-m，其包含或基本上其组成为下列序列或其具有腺苷脱氨酶活性的片段：

ABE8.8-m

上述序列中，纯文字代表腺苷脱氨酶序列，粗体序列是指示由Cas9衍生的序列，斜体序列代表连接子序列，底线序列代表二分核定位序列，及双重底线序列是指示突变。

有些实施方案中，碱基编辑器为ABE8.8-d，其包含或基本上其组成为下列序列或其具有腺苷脱氨酶活性的片段：

ABE8.8-d

有些实施方案中，碱基编辑器为ABE8.13-m，其包含或基本上其组成为下列序列或其具有腺苷脱氨酶活性的片段：

ABE8.13-m

有些实施方案中，碱基编辑器为ABE8.13-d，其包含或基本上其组成为下列序列或其具有腺苷脱氨酶活性的片段：ABE8.13-d

有些实施方案中，碱基编辑器为ABE8.17-m，其包含或基本上其组成为下列序列或其具有腺苷脱氨酶活性的片段：

ABE8.17-m

有些实施方案中，碱基编辑器为ABE8.17-d，其包含或基本上其组成为下列序列或其具有腺苷脱氨酶活性的片段：

ABE8.17-d

有些实施方案中，碱基编辑器为ABE8.20-m，其包含或基本上其组成为下列序列或其具有腺苷脱氨酶活性的片段：

ABE8.20-m

有些实施方案中，碱基编辑器为ABE8.20-d，其包含或基本上其组成为下列序列或其具有腺苷脱氨酶活性的片段：

ABE8.20-d

有些实施方案中，本发明ABE8是选自下列序列：

01.单ABE8.1_bpNLS+Y147T

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV

02.单ABE8.1_bpNLS+Y147R

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCRFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL LAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV

03.单ABE8.1_bpNLS+Q154S

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRSVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDL LRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV

04.单ABE8.1_bpNLS+Y123H

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYF TVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV

05.单ABE8.1_bpNLS+V82S

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYSTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKT YAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV

06.单ABE8.1_bpNLS+T166R

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSRDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPEN IVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV

07.单ABE8.1_bpNLS+Q154R

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKK MKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV

08.单ABE8.1_bpNLS+Y147R_Q154R_Y123H

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALI KKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV

09.单ABE8.1_bpNLS+Y147R_Q154R_I76Y

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDK LIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV

10.单ABE8.1_bpNLS+Y147R_Q154R_T166R

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSRDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV

11.单ABE8.1_bpNLS+Y147T_Q154R

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYET RIDLSQLGGDEGADKRTADGSEFESPKKKRKV

12.单ABE8.1_bpNLS+Y147T_Q154S

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRSVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV

13.单ABE8.1_bpNLS+H123Y123H_Y147R_Q154R_I76Y

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV

14.单ABE8.1_bpNLS+V82S+Q154R

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTA HAEIMALRQGGLVMQNYRLIDATLYSTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV

有些实施方案中，碱基编辑器为一种融合蛋白，其包含多核苷酸可编程核苷酸结合结构域(例如：Cas9衍生的结构域)融合至核碱基编辑结构域(例如：全部或一部份脱氨酶结构域)。某些实施方案中，本文所提供的融合蛋白包含一个或多个改良融合蛋白的碱基编辑活性的特色。例如：本文所提供任何融合蛋白可包含具有降低的核酸酶活性的Cas9结构域。有些实施方案中，本文所提供任何融合蛋白可具有没有核酸酶活性的Cas9结构域(dCas9)、或切割双螺旋DNA分子中一链的Cas9结构域，称为Cas9切口酶(nCas9)。

有些实施方案中，碱基编辑器进一步包含含有所有或一部份尿嘧啶醣苷酶抑制剂(UGI)的结构域。有些实施方案中，碱基编辑器包含含有所有或一部份尿嘧啶结合性蛋白质(UBP)，如：尿嘧啶DNA醣苷酶(UDG)的结构域。有些实施方案中，碱基编辑器包含含有所有或一部份核酸聚合酶的结构域。有些实施方案中，纳入碱基编辑器中的核酸聚合酶或其一部份为跨损伤DNA聚合酶。

有些实施方案中，碱基编辑器的结构域可以包含多重结构域。例如：包含衍生自Cas9的多核苷酸可编程核苷酸结合结构域的碱基编辑器可包含对应于野生型或天然Cas9的REC叶及NUC叶的REC叶和NUC叶。另一项实例中，碱基编辑器可包含一个或多个RuvCI结构域、BH结构域、REC1结构域、REC2结构域、RuvCII结构域、L1结构域、HNH结构域、L2结构域、RuvCIII结构域、WED结构域、TOPO结构域或CTD结构域。有些实施方案中，碱基编辑器的一个或多个结构域包含相对于包含所述结构域的多肽的野生型的突变(例如：取代、插入、缺失)。例如：多核苷酸可编程DNA结合结构域的HNH结构域可包含H840A取代。另一项实例中，多核苷酸可编程DNA结合结构域的RuvCI结构域可包含D10A取代。

本文所揭示碱基编辑器的不同结构域(例如：相邻结构域)可以利用或不利用一个或多个连接子结构域(例如：XTEN连接子结构域)彼此相连。有些实施方案中，连接子结构域可为键结(例如：共价键)、化学基、或连接两个分子或部份体(例如：融合蛋白的两个结构域，如，例如：第一结构域(例如：Cas9衍生的结构域)和第二结构域(例如：腺苷脱氨酶结构域))的分子。有些实施方案中，连接子为共价键(例如：碳-碳键、二硫键、碳-杂原子键，等等)。某些实施方案中，连接子为酰氨链结的碳氮键。某些实施方案中，连接子为环状或无环、经取代或未经取代、分支或未分支的脂是或杂脂是连接子。某些实施方案中，连接子为聚合性(例如：聚乙烯、聚乙二醇、聚酰氨、聚酯，等等)。某些实施方案中，连接子包含氨基烷酸的单体、二聚体、或聚合物。有些实施方案中，连接子包含氨基烷酸(例如：甘氨酸、乙烷酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸，等等)。有些实施方案中，连接子包含氨基己酸(Ahx)的单体、二聚体、或聚合物。某些实施方案中，连接子是基于碳环状部份体(例如：环戊烷、环己烷)。其他实施方案中，连接子包含聚乙二醇部份体(PEG)。某些实施方案中，连接子包含芳基或杂芳基部份体。某些实施方案中，连接子是基于苯基环。连接子可包括促进来自肽的亲核物(例如：硫醇、氨基)附接至连接子的官能化部份体。任何亲电子物均可用为连接子的一部份。例举的亲电子物包括(但不限于)：活化酯、活化酰氨、麦可受体(Michael acceptors)、烷基卤化物、芳基卤化物、酰基卤化物、和异硫氰酸酯。有些实施方案中，连接子接合RNA可编程核酸酶的gRNA结合结构域(包括Cas9核酸酶结构域)和核酸编辑蛋白质的催化性结构域。有些实施方案中，连接子接合dCas9和第二结构域(例如：UGI，等等)。

通常，连接子位在两个基团、分子、或其他部份体之间或和其侧接，并利用共价键彼此连结，因而连结此二者。有些实施方案中，连接子为氨基酸或复数个氨基酸(例如：肽或蛋白质)。有些实施方案中，连接子为有机分子、基团、聚合物、或化学部份体。有些实施方案中，连接子的长度为2-100个氨基酸，例如：2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80-90、90-100、100-150、或150-200个氨基酸的长度。有些实施方案中，连接子的长度为约3至约104个(例如：5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、或100个)氨基酸。亦考虑更长或更短的连接子。有些实施方案中，连接子结构域包含氨基酸序列SGSETPGTSESATPES，其亦可称为XTEN连接子。可采用任何方法来连接融合蛋白结构域(例如：范围从呈(SGGS)n、(GGGS)n、(GGGGS)n、和(G)n型式的极具可挠性连接子至呈(EAAAK)n、(GGS)n、SGSETPGTSESATPES型式的较刚硬连接子(参见例如：Guilinger JP、Thompson DB、Liu DR.的Fusion of catalytically inactiveCas9 to FokI nuclease improves the specificity of genome modification.Nat.Biotechnol.2014；32(6):577-82；其完整内容已以引用方式并入本文中)、或(XP)_n基序)，以便达成最适合核碱基编辑器活性的最佳长度。有些实施方案中，n为1、2、3、4、5、6、7、8、9、10、11、12、13、14、或15。有些实施方案中，连接子包含(GGS)_n基序，其中n为1、3、或7。有些实施方案中，本文所提供融合蛋白的Cas9结构域是利用包含氨基酸序列SGSETPGTSESATPES的连接子融合。有些实施方案中，连接子包含复数个脯氨酸残基，且长度是5-21、5-14、5-9、5-7个氨基酸，例如：PAPAP、PAPAPA、PAPAPAP、PAPAPAPA、P(AP)₄、P(AP)₇、P(AP)₁₀(参见例如：Tan J、Zhang F、Karcher D、Bock R.的Engineering of high-precision base editorsfor site-specific single nucleotide replacement.Nat Commun.2019Jan 25；10(1):439；其完整内容已以引用方式并入本文中)。此等富集脯氨酸的连接子亦称为“刚硬”连接子。

本发明融合蛋白包含核酸编辑结构域。有些实施方案中，脱氨酶为腺苷脱氨酶。有些实施方案中，脱氨酶为脊椎动物脱氨酶。有些实施方案中，脱氨酶为无脊椎动物脱氨酶。有些实施方案中，脱氨酶为人类、黑猩猩、大猩猩、猴、乳牛、狗、大鼠、或小鼠脱氨酶。有些实施方案中，脱氨酶为人类脱氨酶。有些实施方案中，脱氨酶为大鼠脱氨酶。

连接子

某些实施方案中，连接子可用于连接本发明任何肽或肽结构域。连接子可以为简单的共价键，或其可为许多原子长度的聚合性连接子。某些实施方案中，连接子为多肽或基于氨基酸。其他实施方案中，连接子不为肽样。某些实施方案中，连接子为共价键(例如：碳-碳键、二硫键、碳-杂原子键，等等)。某些实施方案中，连接子为酰氨链结的碳氮键。某些实施方案中，连接子为环状或无环、经取代或未经取代、分支或未分支的脂是或杂脂是连接子。某些实施方案中，连接子为聚合性(例如：聚乙烯、聚乙二醇、聚酰氨、聚酯，等等)。某些实施方案中，连接子包含氨基烷酸的单体、二聚体、或聚合物。有些实施方案中，连接子包含氨基烷酸(例如：甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸，等等)。有些实施方案中，连接子包含氨基己酸(Ahx)的单体、二聚体、或聚合物。某些实施方案中，连接子是基于碳环状部份体(例如：环戊烷、环己烷)。其他实施方案中，连接子包含聚乙二醇部份体(PEG)。其他实施方案中，连接子包含氨基酸。某些实施方案中，连接子包含肽。某些实施方案中，连接子包含芳基或杂芳基部份体。某些实施方案中，连接子是基于苯基环。连接子可包括促进来自肽的亲核物(例如：硫醇、氨基)附接至连接子的官能化部份体。任何亲电子物均可用为连接子的一部份。例举的亲电子物包括(但不限于)：活化酯、活化酰氨、麦可受体(Michael acceptors)、烷基卤化物、芳基卤化物、酰基卤化物、和异硫氰酸酯。

有些实施方案中，连接子为氨基酸或复数个氨基酸(例如：肽或蛋白质)。有些实施方案中，连接子为键(例如：共价键)、有机分子、基团、聚合物、或化学部份体。有些实施方案中，连接子的长度为约3至约104个(例如：5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、或100个)氨基酸。

有些实施方案中，腺苷脱氨酶及napDNAbp是利用长度为4、16、32、或104个氨基酸的连接子融合。有些实施方案中，连接子的长度为约3至约104个氨基酸。有些实施方案中，本文所提供任何融合蛋白包含腺苷脱氨酶及Cas9结构域，其利用连接子彼此融合。可在脱氨酶结构域(例如：工程化ecTadA)和Cas9结构域之间使用各种不同长度及可挠性的连接子(例如：范围从呈(GGGS)_n、(GGGGS)_n、和(G)_n型式的极具可挠性连接子至呈(EAAAK)_n、(SGGS)_n、SGSETPGTSESATPES型式的较刚硬连接子(参见例如：Guilinger JP、Thompson DB、Liu DR.的Fusion of catalytically inactive Cas9 to FokI nuclease improves thespecificity of genome modification.Nat.Biotechnol.2014；32(6):577-82；其完整内容已以引用方式并入本文中)及(XP)_n)，以便达成最适合核碱基编辑器活性的最佳长度。有些实施方案中，n为1、2、3、4、5、6、7、8、9、10、11、12、13、14、或15。有些实施方案中，连接子包含(GGS)_n基序，其中n为1、3、或7。有些实施方案中，腺苷脱氨酶和本文所提供任何融合蛋白的Cas9结构域是利用包含氨基酸序列SGSETPGTSESATPES的连接子(例如：XTEN连接子)融合。

具有向导RNA的Cas9复合物

有些本发明实施例提供包含本文所提供任何融合蛋白和向导RNA(例如：靶向SCD突变的向导序列)的复合物。可采用任何方法来连接融合蛋白结构域(例如：范围从呈(GGGS)_n、(GGGGS)_n、和(G)_n型式的极具可挠性连接子至呈(EAAAK)_n、(SGGS)_n、SGSETPGTSESATPES型式的较刚硬连接子(参见例如：Guilinger JP、Thompson DB、Liu DR.的Fusion of catalytically inactive Cas9 to FokI nuclease improves thespecificity of genome modification.Nat.Biotechnol.2014；32(6):577-82；其完整内容已以引用方式并入本文中)及(XP)_n)，以便达成最适合核碱基编辑器活性的最佳长度。有些实施方案中，n为1、2、3、4、5、6、7、8、9、10、11、12、13、14、或15。有些实施方案中，连接子包含(GGS)_n基序，其中n为1、3、或7。有些实施方案中，本文所提供融合蛋白的Cas9结构域是利用包含氨基酸序列SGSETPGTSESATPES的连接子融合。

有些实施方案中，向导核酸(例如：向导RNA)的长度为15-100个核苷酸，且包含和靶序列互补的至少10个连续核苷酸序列。有些实施方案中，向导RNA的长度为15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、或50个核苷酸。有些实施方案中，向导RNA包含和靶序列互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、或40个连续核苷酸的序列。有些实施方案中，靶序列为DNA序列。有些实施方案中，靶序列为细菌、酵母、真菌、昆虫、植物、或动物的基因体中的序列。有些实施方案中，靶序列为人类基因体中的序列。有些实施方案中，靶序列的3’端是紧邻典型PAM序列(NGG)。有些实施方案中，靶序列的3’端是紧邻非典型PAM序列(例如：表1所列的序列或5’NAA-3’)。有些实施方案中，向导核酸(例如：向导RNA)是和镰状细胞病(SCD)相关的序列互补。

有些本发明实施例提供使用本文所提供融合蛋白或复合物的方法。例如：有些本发明实施例提供的方法包括由DNA分子和本文所提供任何融合蛋白、及和至少一种向导RNA接触，其中向导RNA的长度为约15-100个核苷酸且包含和靶序列互补的至少10个连续核苷酸的序列。有些实施方案中，靶序列的3’端是紧邻AGC、GAG、TTT、GTG、或CAA序列。有些实施方案中，靶序列的3’端是紧邻NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN、或5’(TTTV)序列。

通常理解，各序列中特定位置或残基的编号是依特定蛋白质及所采用编号系统而定。可能随例如：成熟蛋白质的前体及成熟蛋白质本身而有不同编号，且物种和物种之间的序列差异可能影响编号。本领域技术人员采用相关技艺习知的方法即可判别任何同源性蛋白质及各编码核酸中的各残基，例如：采用序列排比及决定同源性残基。

彼等本领域技术人员通常理解，为了让本文所揭示任何融合蛋白靶向靶位点，例如：包含所要编辑的突变的位点，通常必需由融合蛋白和向导RNA共同表达。如本文中其他内容更详细说明，向导RNA通常包含让Cas9结合的tracrRNA框架，及对Cas9：核酸编辑酶/结构域融合蛋白赋和序列特异性的向导序列。或者，向导RNA和tracrRNA可以呈两个核酸分子分开提供。有些实施方案中，向导RNA包含一个结构，其中向导序列包含和靶序列互补的序列。向导序列的长度通常为20个核苷酸。适合让Cas9：核酸编辑酶/结构域融合蛋白靶向特定基因体靶位点的向导RNA的序列是彼等本领域技术人员依据本发明即了解者。此等合适的向导RNA序列通常包含和所要编辑的靶核苷酸上游或下游50个核苷酸内的核酸序列互补的向导序列。本文提供有些适合让所提供任何融合蛋白靶向特定靶序列的向导RNA序列实例。

具有向导RNA的Cas12复合物

有些本发明实施例提供包含本文所提供任何融合蛋白、和向导RNA(例如：靶向要编辑的靶多核苷酸的向导序列)的复合物。

有些实施方案中，向导核酸(例如：向导RNA)的长度为15-100个核苷酸，且包含和靶序列互补的至少10个连续核苷酸序列。有些实施方案中，向导RNA的长度为15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、或50个核苷酸。有些实施方案中，向导RNA包含和和靶序列互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、或40个连续核苷酸的序列。有些实施方案中，靶序列为DNA序列。有些实施方案中，靶序列为细菌、酵母、真菌、昆虫、植物、或动物的基因体中的序列。有些实施方案中，靶序列为人类基因体中的序列。有些实施方案中，靶序列的3’端是紧邻典型PAM序列。有些实施方案中，靶序列的3’端是紧邻非典型PAM序列。

有些本发明实施例提供使用本文所提供融合蛋白或复合物的方法。例如：有些本发明实施例提供的方法包括由DNA分子和本文所提供任何融合蛋白、及和至少一种向导RNA接触，其中向导RNA的长度为约15-100个核苷酸且包含和靶序列互补的至少10个连续核苷酸序列。有些实施方案中，各靶序列的3’端是紧邻例如：TTN、DTTN、GTTN、ATTN、ATTC、DTTNT、WTTN、HATY、TTTN、TTTV、TTTC、TG、RTR、或YTN PAM位点。

彼等本领域技术人员通常理解，为了让本文所揭示任何融合蛋白靶向靶位点，例如：包含所要编辑的突变的位点，通常必需由融合蛋白和向导RNA共同表达。如本文中其他内容更详细说明，向导RNA通常包含让Cas12结合的tracrRNA框架，及对Cas12：核酸编辑酶/结构域融合蛋白赋和序列特异性的向导序列。或者，向导RNA和tracrRNA可以呈两个核酸分子分开提供。有些实施方案中，向导RNA包含一个结构，其中向导序列包含和靶序列互补的序列。向导序列的长度通常为20个核苷酸。适合让Cas12：核酸编辑酶/结构域融合蛋白靶向特定基因体靶位点的向导RNA的序列是彼等本领域技术人员依据本发明即了解者。此等合适向导RNA序列通常包含和所要编辑的靶核苷酸上游或下游50个核苷酸内的核酸序列互补的向导序列。本文提供有些适合让所提供任何融合蛋白靶向特定靶序列的向导RNA序列实例。

本文所揭示碱基编辑器的结构域可依任何顺序排列，只要脱氨酶结构域在Cas12蛋白质中内化即可。包含含有例如：Cas12结构域及脱氨酶结构域的融合蛋白的碱基编辑器的非限制性实例可如下排列：

NH2-[Cas12结构域]-连接子1-[ABE8]-连接子2-[Cas12结构域]-COOH；

NH2-[Cas12结构域]-连接子1-[ABE8]-[Cas12结构域]-COOH；

NH2-[Cas12结构域]-[ABE8]-连接子2-[Cas12结构域]-COOH；

NH2-[Cas12结构域]-[ABE8]-[Cas12结构域]-COOH；

NH2-[Cas12结构域]-连接子1-[ABE8]-连接子2-[Cas12结构域]-[肌苷BER抑制剂]-COOH；

NH2-[Cas12结构域]-连接子1-[ABE8]-[Cas12结构域]-[肌苷BER抑制剂]-COOH；

NH2-[Cas12结构域]-[ABE8]-连接子2-[Cas12结构域]-[肌苷BER抑制剂]-COOH；；

NH2-[Cas12结构域]-[ABE8]-[Cas12结构域]-[肌苷BER抑制剂]-COOH；

NH2-[肌苷BER抑制剂]-[Cas12结构域]-连接子1-[ABE8]-连接子2-[Cas12结构域]-COOH；

NH2-[肌苷BER抑制剂]-[Cas12结构域]-连接子1-[ABE8]-[Cas12结构域]-COOH；

NH2-[肌苷BER抑制剂]-[Cas12结构域]-[ABE8]-连接子2-[Cas12结构域]-COOH；

NH2-[肌苷BER抑制剂]NH2-[Cas12结构域]-[ABE8]-[Cas12结构域]-COOH；

此外有些例子中，Gam蛋白质可以和碱基编辑器的N末端融合。有些实施方案中，Gam蛋白质可以和碱基编辑器的C末端融合。细菌噬菌体Mu的Gam蛋白质可以和双链断裂(DSB)末端结合，并加以保护免于被降解。有些实施方案中，使用Gam和DSB的游离端结合，可以在碱基编辑过程期间减少形成插入/缺失。有些实施方案中，174-残基Gam蛋白质是和碱基编辑器的N末端融合。参见Komor,A.C.等人的“Improved base excision repairinhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editorswith higher efficiency and product purity”Science Advances 3:eaao4774(2017)。有些例子中，突变或多个突变可改变碱基编辑器结构域相对于野生型结构域的长度。例如：在至少一个结构域中缺失至少一个氨基酸可缩短碱基编辑器的长度。另一个例子中，相对于野生型结构域，所述突变或多个突变不会改变结构域。例如：任何结构域中的取代(群)不会改变碱基编辑器的长度。

有些实施方案中，本文所提供碱基编辑融合蛋白必需位在精准位置，例如：其中靶碱基置于界定区内(例如：“脱氨窗口”)。有些例子中，靶可在4个碱基区内。有些例子中，此等界定靶区可在PAM上游约15个碱基。参见Komor,A.C.等人的“Programmable editing ofa target base in genomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016)；Gaudelli,N.M.等人的“Programmable base editing of A·T to G·Cin genomic DNA without DNA cleavage”Nature 551,464-471(2017)；及Komor,A.C.等人的“Improved base excision repair inhibition and bacteriophage Mu Gam proteinyields C:G-to-T:A base editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)，其等完整内容已以引用方式并入本文中。

界定靶区可为脱氨窗口。脱氨窗口可以界定在让碱基编辑器作用且使靶核苷酸脱氨的一区。有些实施方案中，脱氨窗口在2、3、4、5、6、7、8、9、或10个碱基区内。有些实施方案中，脱氨窗口在PAM上游5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、或25个碱基。

本发明碱基编辑器可包含促进靶多核苷酸序列的编辑的任何结构域、特色或氨基酸序列。例如：有些实施方案中，碱基编辑器包含核定位序列(NLS)。有些实施方案中，碱基编辑器的NLS位在脱氨酶结构域和napDNAbp结构域之间。有些实施方案中，碱基编辑器的NLS位在napDNAbp结构域的C末端。

包括在融合蛋白中的蛋白质结构域可为异源性功能结构域。可包括在融合蛋白中的蛋白质结构域的非限制性实例包括脱氨酶结构域(例如：腺苷脱氨酶)、尿嘧啶醣苷酶抑制剂(UGI)结构域、抗原决定基标签、和报导子基因序列。蛋白质结构域可为异源性功能结构域，例如：具有一个或多个下列活性：转录激活活性、转录表达活性、转录释放因子活性、基因静默活性、染色质修饰活性、表观遗传修饰活性、组织蛋白修饰活性、RNA裂解活性、及核酸结合活性。此等异源性功能结构域可赋和功能活性，如：修饰和靶DNA相联的靶多肽(例如：组织蛋白、DNA结合性蛋白质，等等)，造成例如：组织蛋白甲基化、组织蛋白乙酰化、组织蛋白泛素化，等等。其他赋和的功能和/或活性包括转座酶活性、整合酶活性、重组酶活性、连接酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、去腺苷酸化活性、SUMO基化活性、去SUMO基化活性、或上述的任何组合。

结构域可以利用抗原决定基标签、报导子蛋白质、其他结合结构域检测或标记。抗原决定基标签的非限制性实例包括组氨酸(His)标签、V5标签、FLAG标签、流感血球凝集素(HA)标签、Myc标签、VSV-G标签、和硫氧还蛋白(Trx)标签。报导子基因实例包括(但不限于)：谷胱甘肽-5-转移酶(GST)、辣根过氧化酶(HRP)、氯霉素乙酰基转移酶(CAT)、β-半乳糖苷酶、β-葡萄醣醛酸酶、萤光素酶、绿色萤光蛋白质(GFP)、HcRed、DsRed、青色萤光蛋白质(CFP)、黄色萤光蛋白质(YFP)、和自体萤光蛋白质包括蓝色萤光蛋白质(BFP)。其他蛋白质序列可包括会结合DNA分子或结合其他细胞分子的氨基酸序列，包括(但不限于)：麦芽糖结合性蛋白质(MBP)、S-tag、Lex A DNA结合结构域(DBD)融合物、GAL4 DNA结合结构域融合物、和单纯疱疹病毒(HSV)BP16蛋白质融合物。

有些实施方案中，BhCas12b向导多核苷酸具有下列序列(其中在实际的gRNA中，T被尿苷(U)置换)：

BhCas12b sgRNA骨架(底线)+20nt至23nt向导序列(以N_n表示)

5’GTTCTGTCTTTTGGTCAGGACAACCGTCTAGCTATAAGTGCTGCAGGGTGTGA GAAACTCCTATT GCTGGACGATGTCTCTTACGAGGCATTAGCACNNNNNNNNNNNNNNNN NNNN-3’

有些实施方案中，BvCas12b及AaCas12b向导多核苷酸具有下列序列(其中在实际的gRNA中，T被尿苷(U)置换)：

BvCas12b sgRNA骨架(底线)+20nt至23nt向导序列(以N_n表示)

5’GACCTATAGGGTCAATGAATCTGTGCGTGTGCCATAAGTAATTAAAAATTACC CACCACAGGAGC ACCTGAAAACAGGTGCTTGGCACNNNNNNNNNNNNNNNNNNNN-3’

AaCas12b sgRNA骨架(底线)+20nt至23nt向导序列(以N_n表示)

5’GTCTAAAGGACAGAATTTTTCAACGGGTGTGCCAATGGCCACTTTCCAGGTGG CAAAGCCCGTTG AACTTCTCAAAAAGAACGATCTGAGAAGTGGCACNNNNNNNNNNNNNN NNNNNN-3’

使用包含腺苷脱氨酶变体和Cas9结构域的融合蛋白的方法

有些本发明实施例提供使用本文所提供融合蛋白或复合物的方法。例如：有些本发明实施例提供的方法包括由编码HBG突变型的DNA分子和本文所提供任何融合蛋白、及和至少一种向导RNA接触，其中向导RNA的长度为约15-100个核苷酸且包含和靶序列互补的至少10个连续核苷酸序列。有些实施方案中，靶序列的3’端是紧邻典型PAM序列(NGG)。有些实施方案中，靶序列的3’端不会紧邻典型PAM序列(NGG)。有些实施方案中，靶序列的3’端是紧邻AGC、GAG、TTT、GTG、或CAA序列。有些实施方案中，靶序列的3’端是紧邻NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN、或5’(TTTV)序列。

彼等本领域技术人员通常理解，为了让本文所揭示包含Cas9结构域和腺苷脱氨酶变体(例如：ABE8)的任何融合蛋白靶向靶位点，例如：包含所要编辑的突变的位点，通常必需由融合蛋白和向导RNA(例如：sgRNA)共同表达。如本文中其他内容更详细说明，向导RNA通常包含让Cas9结合的tracrRNA框架，及对Cas9：核酸编辑酶/结构域融合蛋白赋和序列特异性的向导序列。或者，向导RNA和tracrRNA可以呈两个核酸分子分开提供。有些实施方案中，向导RNA包含一个结构，其中向导序列包含和靶序列互补的序列。向导序列的长度通常为20个核苷酸。适合让Cas9：核酸编辑酶/结构域融合蛋白靶向特定基因体靶位点的向导RNA序列是彼等本领域技术人员依据本发明即了解者。此等合适的向导RNA序列通常包含和所要编辑的靶核苷酸上游或下游50个核苷酸内的核酸序列互补的向导序列。本文提供有些适合让所提供任何融合蛋白靶向特定靶序列的向导RNA序列实例。

碱基编辑器效能

CRISPR-Cas9核酸酶已广泛用于介导靶基因体编辑。在大多数基因体编辑应用中，Cas9会和向导多核苷酸(例如：单一向导RNA(sgRNA))形成复合物，及在sgRNA序列针对的靶位点诱发双链DNA断裂(DSB)。细胞主要透过非同源性末端接合(NHEJ)修复途径对此DSB产生反应，造成导致移码突变而瓦解基因的随机插入或缺失(indel)。在和侧接DSB的序列具有高度同源性的供体DNA模板的存在下，可以透过称为同源基因向导修复(HDR)的替代途径达成基因修正。可惜在大多数非微扰条件下，HDR无效能，需依赖细胞状态及细胞型态，及被较大频率的插入/缺失主导。由于大多数已知和人类疾病相关的的遗传变异为点突变，需要可以更有效且清楚地制造精准点突变的方法。本文所提供碱基编辑系统提供一种在不会产生双链DNA断裂、不需要供体DNA模板、及不会诱发过量随机插入和缺失下，提供基因体编辑的新方式。

本发明融合蛋白有利地修饰编码包含突变的H的特定核苷酸碱基，不会产生显著比例的插入/缺失。本文所采用“插入/缺失(indel)”是指核苷酸碱基在核酸内的插入或缺失。此等插入或缺失可在基因的编码区内造成移框突变。有些实施方案中，需要产生有效修饰(例如：突变)核酸内特定核苷酸的碱基编辑器，不会在核酸内产生大量插入或缺失(亦即插入/缺失)。某些实施方案中，本文所提供任何碱基编辑器可以产生比例高于插入/缺失的预期修饰(例如：突变)。

有些实施方案中，本文所提供任何碱基编辑器系统造成靶多核苷酸序列形成的插入/缺失低于50％、低于40％、低于30％、低于20％、低于19％、低于18％、低于17％、低于16％、低于15％、低于14％、低于13％、低于12％、低于11％、低于10％、低于9％、低于8％、低于7％、低于6％、低于5％、低于4％、低于3％、低于2％、低于1％、低于0.9％、低于0.8％、低于0.7％、低于0.6％、低于0.5％、低于0.4％、低于0.3％、低于0.2％、低于0.1％、低于0.09％、低于0.08％、低于0.07％、低于0.06％、低于0.05％、低于0.04％、低于0.03％、低于0.02％、或低于0.01％。

有些本发明实施例是基于辨识本文所提供任何可以在核酸(例如：个体基因体的核酸)内有效地产生预期突变，如：点突变，不会产生显著数量非预期突变，如：非预期点突变的碱基编辑器。有些实施方案中，本文所提供任何碱基编辑器可以产生至少0.01％预期突变(亦即至少0.01％碱基编辑效能)。有些实施方案中，本文所提供任何碱基编辑器可以产生至少0.01％、1％、2％、3％、4％、5％、10％、15％、20％、25％、30％、40％、45％、50％、60％、70％、80％、90％、95％、或99％预期突变。

有些实施方案中，本文所提供碱基编辑器可以产生的预期突变对插入/缺失的比例大于1：1。有些实施方案中，本文所提供碱基编辑器可以产生的预期突变对插入/缺失的比例为至少1.5：1、至少2：1、至少2.5：1、至少3：1、至少3.5：1、至少4：1、至少4.5：1、至少5：1、至少5.5：1、至少6：1、至少6.5：1、至少7：1、至少7.5：1、至少8：1、至少10：1、至少12：1、至少15：1、至少20：1、至少25：1、至少30：1、至少40：1、至少50：1、至少100：1、至少200：1、至少300：1、至少400：1、至少500：1、至少600：1、至少700：1、至少800：1、至少900：1、或至少1000：1、或更高。

预期突变及插入/缺失的数量可采用任何合适方法决定，例如：说明于国际PCT申请案案号PCT/2017/045381(WO2018/027078)及PCT/US2016/058344(WO2017/070632)；Komor,A.C.等人的“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016)；Gaudelli,N.M.等人的“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017)；及Komor,A.C.等人的“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances3:eaao4774(2017)；其等完整内容已分别以引用方式并入本文中。

有些实施方案中，为了计算插入/缺失频率，扫瞄可以正确匹配至侧接在会发生插入/缺失的窗口两侧的两个10-bp序列的定序读段。若没有定出正确匹配的位置，则从所述分析中排除所述读段。若此插入/缺失窗口的长度正确匹配参考序列时，则所述读段归类为不含插入/缺失。若所述插入/缺失窗口比参考序列长或短两个或更多个碱基时，则所述定序读段分别归类于插入或缺失。有些实施方案中，本文所提供碱基编辑器可以限制核酸区内插入/缺失的形成。有些实施方案中，所述区位在被碱基编辑器靶向的核苷酸或在被碱基编辑器靶向的核苷酸的2、3、4、5、6、7、8、9、或10个核苷酸区内。

在靶核苷酸区形成的插入/缺失数量可随核酸(例如：细胞基因体内的核酸)曝露到碱基编辑器的时间量而定。有些实施方案中，插入/缺失的数量或比例是在靶核苷酸序列(例如：细胞基因体内的核酸)曝露到碱基编辑器至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天、或至少14天后决定。应了解，如本文所述碱基编辑器的特征可以应用在本文所提供任何融合蛋白、或使用本文所提供融合蛋白的方法。

有些实施方案中，本文所提供碱基编辑器可以限制核酸区内插入/缺失的形成。有些实施方案中，所述区位在被碱基编辑器靶向的核苷酸或在被碱基编辑器靶向的核苷酸的2、3、4、5、6、7、8、9、或10个核苷酸区内。有些实施方案中，本文所提供任何碱基编辑器可以限制在核酸区内形成的插入/缺失低于1％、低于1.5％、低于2％、低于2.5％、低于3％、低于3.5％、低于4％、低于4.5％、低于5％、低于6％、低于7％、低于8％、低于9％、低于10％、低于12％、低于15％、或低于20％。在核酸区内插入/缺失的形成可随核酸(例如：细胞基因体内的核酸)曝露到碱基编辑器的时间量而定。有些实施方案中，插入/缺失的任何数量或比例是在核酸(例如：细胞基因体内的核酸)曝露到碱基编辑器至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天、或至少14天后决定。

有些本发明实施例是基于辨识本文所提供任何可以在核酸(例如：个体基因体的核酸)内有效地产生预期突变，不会产生显著数量非预期突变的碱基编辑器。有些实施方案中，预期突变是指所述突变是由已结合至gRNA的特定碱基编辑器产生，其明确设计用于修改或修正HBG突变。有些实施方案中，本文所提供任何碱基编辑器可以产生的预期突变对非预期突变(例如：预期突变：非预期突变)的比例大于1：1。有些实施方案中，本文所提供任何碱基编辑器可以产生的预期突变对非预期突变的比例为至少1.5：1、至少2：1、至少2.5：1、至少3：1、至少3.5：1、至少4：1、至少4.5：1、至少5：1、至少5.5：1、至少6：1、至少6.5：1、至少7：1、至少7.5：1、至少8：1、至少10：1、至少12：1、至少15：1、至少20：1、至少25：1、至少30：1、至少40：1、至少50：1、至少100：1、至少150：1、至少200：1、至少250：1、至少500：1、或至少1000：1、或更高。应了解，本文所说明碱基编辑器的特征可以应用在本文所提供任何融合蛋白、或使用本文所提供融合蛋白的方法。

多重编辑(multiplex editing)

有些实施方案中，本文提供的碱基编辑器系统可以在一或多个基因中的复数个核碱基对上进行多重基因编辑。有些实施方案中，所述复数个核碱基对位在同一个基因中。有些实施方案中，所述复数个核碱基对位在一个或多个基因上，其中至少一个基因位在不同基因座。有些实施方案中，多重基因编辑可包含一或多个向导多核苷酸。有些实施方案中，多重基因编辑可包含一个或多个碱基编辑器系统。有些实施方案中，多重基因编辑可包含一个或多个具有单一向导多核苷酸的碱基编辑器系统。有些实施方案中，多重基因编辑可包含一个或多个具有复数个向导多核苷酸的碱基编辑器系统。有些实施方案中，多重基因编辑可包含一个或多个具有单一碱基编辑器系统的向导多核苷酸。有些实施方案中，多重基因编辑可包含至少一个不需要PAM序列即可靶向结合至靶多核苷酸序列的向导多核苷酸。有些实施方案中，多重基因编辑可包含至少一个需要PAM序列使其靶向结合至靶多核苷酸序列的向导多核苷酸。有些实施方案中，多重基因编辑可包含至少一个不需要PAM序列即可靶向结合至靶多核苷酸序列的向导多核苷酸和至少一个需要PAM序列使其靶向结合至靶多核苷酸序列的向导多核苷酸的混合物。应了解，使用本文所说明任何碱基编辑器的多重基因编辑的特征可应用在使用本文所提供任何碱基编辑器的方法的任何组合。亦应了解，使用本文所说明任何碱基编辑器的多重基因编辑可包括依序编辑复数个核碱基对。

有些实施方案中，复数个核碱基对在一个以上的基因中。有些实施方案中，复数个核碱基对在同一个基因中。有些实施方案中，在一个以上的基因中的至少一个基因位在不同基因座上。

有些实施方案中，所述编辑是编辑至少一个蛋白质编码区中的复数个核碱基对。有些实施方案中，所述编辑是编辑至少一个蛋白质非编码区中的复数个核碱基对。有些实施方案中，所述编辑是编辑至少一个蛋白质编码区和至少一个蛋白质非编码区中的复数个核碱基对。

有些实施方案中，所述编辑是和一或多个向导多核苷酸连结。有些实施方案中，碱基编辑器系统可包含一个或多个碱基编辑器系统。有些实施方案中，碱基编辑器系统可包含一个或多个和单一向导多核苷酸连结的碱基编辑器系统。有些实施方案中，碱基编辑器系统可包含一个或多个和复数个向导多核苷酸连结的碱基编辑器系统。有些实施方案中，所述编辑是和一个或多个具有单一碱基编辑器系统的向导多核苷酸连结。有些实施方案中，所述编辑是和至少一个不需要PAM序列即可靶向结合至靶多核苷酸序列的向导多核苷酸连结。有些实施方案中，所述编辑是和至少一个需要PAM序列使其靶向结合至靶多核苷酸序列的向导多核苷酸连结。有些实施方案中，所述编辑是和至少一个不需要PAM序列即可靶向结合至靶多核苷酸序列的向导多核苷酸和至少一个需要PAM序列使其靶向结合至靶多核苷酸序列的向导多核苷酸的混合物连结。应了解，使用本文所说明任何碱基编辑器的多重基因编辑的特征可应用在使用本文所提供任何碱基编辑器的方法的任何组合。亦应了解，所述编辑可包括依序编辑复数个核碱基对。

用于治疗镰状细胞病的基因编辑的介绍

例举的向导RNA间隔子序列和核碱基改变提供于下表10。

编辑核酸的方法

有些本发明实施例提供编辑核酸的方法。有些实施方案中，所述方法为编辑编码HBG(例如：双链DNA序列的碱基对)的核酸分子的核碱基的方法。有些实施方案中，所述方法包含步骤：a)由核酸(例如：双链DNA序列)的靶区和包含碱基编辑器及向导核酸(例如：gRNA)的复合物接触，b)诱发所述靶区的链分离，c)转换靶区单链中所述靶核碱基对的第一核碱基形成第二核碱基，及d)使用nCas9切割所述靶区不超过一链，其中和第一核碱基的碱基互补的第三核碱基被和第二核碱基互补的第四核碱基置换。有些实施方案中，所述方法造成核酸中形成的插入/缺失低于20％。应了解，有些实施方案中，省略步骤b。有些实施方案中，所述方法造成形成的插入/缺失低于19％、18％、16％、14％、12％、10％、8％、6％、4％、2％、1％、0.5％、0.2％、或低于0.1％。有些实施方案中，所述方法进一步包含以和第四核碱基互补的第五核碱基置换第二核碱基，由此产生预期编辑碱基对(例如：G·C至A·T)。有些实施方案中，已编辑至少5％预期碱基对。有些实施方案中，已编辑至少10％、15％、20％、25％、30％、35％、40％、45％、或50％预期碱基对。

有些实施方案中，靶核苷酸中预期产物和非预期产物的比例为至少2：1、5：1、10：1、20：1、30：1、40：1、50：1、60：1、70：1、80：1、90：1、100：1、或200：1、或更高。有些实施方案中，预期突变和形成插入/缺失的比例大于约1：1、10：1、50：1、100：1、500：1、或1000：1、或更高。有些实施方案中，切割单链(切口链)是和向导核酸杂交。有些实施方案中，切割单链是和包含第一核碱基的链相反。有些实施方案中，碱基编辑器包含dCas9结构域。有些实施方案中，碱基编辑器保护或结合未编辑链。有些实施方案中，预期编辑碱基对在PAM位点上游。有些实施方案中，预期编辑碱基对是PAM位点上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。有些实施方案中，预期编辑碱基对在PAM位点下游。有些实施方案中，预期编辑碱基对是PAM位点下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。有些实施方案中，所述方法不需要典型(例如：NGG)PAM位点。有些实施方案中，核碱基编辑器包含连接子。有些实施方案中，连接子的长度为1-25个氨基酸。有些实施方案中，连接子的长度为5-20个氨基酸。有些实施方案中，连接子的长度为10、11、12、13、14、15、16、17、18、19、或20个氨基酸。一项实施方案中，连接子的长度为32个氨基酸。另一项实施方案中，“长连接子”为至少约60个氨基酸的长度。其他实施方案中，连接子的长度为约3-100个氨基酸。有些实施方案中，靶区包含靶窗口，其中靶窗口包含靶核碱基对。有些实施方案中，靶窗口包含1-10个核苷酸。有些实施方案中，靶窗口的长度为1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-2、或1个核苷酸。有些实施方案中，靶窗口的长度为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。有些实施方案中，预期编辑碱基对在靶窗口内。有些实施方案中，靶窗口包含预期编辑碱基对。有些实施方案中，所述方法是采用本文所提供任何碱基编辑器执行。

有些实施方案中，本发明提供编辑核苷酸(例如：编码HBG的基因中的SNP)的方法。有些实施方案中，本发明提供一种编辑双链DNA序列的核碱基对的方法。有些实施方案中，所述方法包含a)由双链DNA序列的靶区和包含碱基编辑器及向导核酸(例如：gRNA)的复合物接触，其中靶区包含靶核碱基对，b)诱发所述靶区的链分离，c)转换靶区单链中所述靶核碱基对的第一核碱基成为第二核碱基，d)切割所述靶区不超过一链，其中和第一核碱基的碱基互补的第三核碱基被和第二核碱基互补的第四核碱基置换，及第二核碱基被和第四核碱基互补的第五核碱基置换，由此产生预期编辑碱基对，其中产生预期编辑碱基对(intended edited base pair)的效能为至少5％。应了解，有些实施方案中，省略步骤b。有些实施方案中，已编辑至少5％预期碱基对。有些实施方案中，已编辑至少10％、15％、20％、25％、30％、35％、40％、45％、或50％预期碱基对。有些实施方案中，所述方法形成的插入/缺失低于19％、18％、16％、14％、12％、10％、8％、6％、4％、2％、1％、0.5％、0.2％、或低于0.1％。有些实施方案中，靶核苷酸上的预期产物(intended product)和非预期产物(unintended products)的比例为至少2：1、5：1、10：1、20：1、30：1、40：1、50：1、60：1、70：1、80：1、90：1、100：1、或200：1、或更高。有些实施方案中，预期突变(intended mutation)和形成插入/缺失的比例大于1：1、10：1、50：1、100：1、500：1、或1000：1、或更高。有些实施方案中，切割单链是和向导核酸杂交。有些实施方案中，切割单链是和包含第一核碱基的链相反。有些实施方案中，预期编辑碱基对在PAM位点上游。有些实施方案中，预期编辑碱基对是PAM位点上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。有些实施方案中，预期编辑碱基对在PAM位点下游。有些实施方案中，预期编辑碱基对是PAM位点下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。有些实施方案中，所述方法不需要典型(例如：NGG)PAM位点。有些实施方案中，连接子的长度为1至25个氨基酸。有些实施方案中，连接子的长度为5至20个氨基酸。有些实施方案中，连接子的长度为10、11、12、13、14、15、16、17、18、19、或20个氨基酸。有些实施方案中，靶区包含靶窗口，其中靶窗口包含靶核碱基对。有些实施方案中，靶窗口包含1-10个核苷酸。有些实施方案中，靶窗口的长度为1至9、1至8、1至7、1至6、1至5、1至4、1至3、1至2、或1个核苷酸。有些实施方案中，靶窗口的长度为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。有些实施方案中，预期编辑碱基对发生在靶窗口内。有些实施方案中，靶窗口包含预期编辑碱基对。有些实施方案中，核碱基编辑器为本文所提供任何一种碱基编辑器。

融合蛋白在宿主细胞中的表达

本发明包含腺苷脱氨酶变体的融合蛋白实际上可以在任何所关注的宿主细胞，包括(但不限于)：细菌、酵母、真菌、昆虫、植物、和动物细胞上，使用本领域技术人员已知的例行方法表达。例如：通过依据cDNA序列设计适合CDS上游及下游的引子，可选殖编码本发明腺苷脱氨酶的DNA。选殖的DNA可以直接、或在需要时经过限制酶消解后、或在添加合适连接子及/或核定位讯号后，和编码碱基编辑系统的一个或多个额外组份的DNA黏接。碱基编辑系统于宿主细胞中转译形成复合物。

编码本文所说明蛋白质结构域的DNA可以由化学合成DNA取得，或采用PCR方法及吉布森组装法(Gibson Assembly Method)，连结已合成的部份重迭的寡DNA短链，构筑编码其全度的DNA。采用化学合成法或组合PCR方法或吉布森组装法构筑全长DNA的优点在于所使用的密码子可以依据接受DNA引进的宿主，于CDS全长中设计。在表达异源性DNA时，期望可以通过其DNA序列转换成极常用在宿主生物体中的字码子来提高蛋白质表达程度。密码子在所采用宿主中的使用频率数据，可采用例如：揭示在Kazusa DNA Research Institute网页的遗传密码使用频率资料库(http://www.kazusa.or.jp/codon/index.html)或出示可能提及各宿主中密码子使用频率的文献。参考所得数据及要引进的DNA序列，在彼等用在DNA序列中的密码子中，在宿主中显示使用频率低的密码子可转换成编码相同氨基酸且显示高使用频率的密码子。

可以制造包含编码核酸序列辨识模组的DNA和/或核酸碱基转换酶的载体，例如：于合适表达载体中链结DNA至启动子下游。

可使用的表达载体为大肠杆菌(Escherichia coli)衍生的质粒(例如：pBR322、pBR325、pUC12、pUC13)；枯草芽孢杆菌(Bacillus subtilis)衍生的质粒(例如：pUB110、pTP5、pC194)；酵母衍生的质粒(例如：pSH19、pSH15)；昆虫细胞表达质粒(例如：pFast-Bac)；动物细胞表达质粒(例如：pA1-11、pXT1、pRc/CMV、pRc/RSV、pcDNAI/Neo)；细菌噬菌体，如：λ噬菌体及类似物；昆虫病毒载体，如：杆状病毒及类似物(例如：BmNPV、AcNPV)；动物病毒载体，如：反转录病毒、痘疮病毒、腺病毒及类似物，等等。

可使用的启动子为任何适合所使用宿主的基因表达的启动子。使用DSB的惯用方法中，由于宿主细胞的存活率有时候会因毒性而大幅下降，因此需要通过使用诱导性启动子开始诱导，以提高细胞数量。然而，由于亦可通过表现本发明核酸修饰酶复合物来提供充份细胞增生，因此亦未限制使用组成性启动子。

例如：当宿主为动物细胞时，使用SR.α.启动子、SV40启动子、LTR启动子、CMV(巨细胞病毒)启动子、RSV(劳斯肉瘤病毒(Rous sarcoma virus))启动子、MoMuLV(莫洛尼小鼠白血病病毒(Moloney mouse leukemia virus))LTR、HSV-TK(单纯疱疹病毒胸苷激酶)启动子及类似物。其中以CMV启动子、SR.α.启动子及类似物较佳。

当宿主为大肠杆菌(Escherichia coli)时，以trp启动子、lac启动子、recA启动子、λ.P.sub.L启动子、lpp启动子、T7启动子及类似物较佳。

当宿主为芽孢杆菌(Bacillus)属时，以SPO1启动子、SPO2启动子、penP启动子及类似物较佳。

当宿主为酵母时，以Gal1/10启动子、PHO5启动子、PGK启动子、GAP启动子、ADH启动子及类似物较佳。

当宿主为昆虫细胞，以多角体蛋白启动子、P10启动子及类似物较佳。

当宿主为植物细胞时，以CaMV35S启动子、CaMV19S启动子、NOS启动子及类似物较佳。

除了彼等上述以外，可依需要使用的表达载体为包含加强子、剪接讯号、终结子、聚A加成讯号、选择标记物(如：抗药性基因)、营养缺陷互补基因及类似物、复制起点及类似物者。

编码本文所说明蛋白质结构域的RNA可以通过例如：于本身已知的体外转录系统中使用载体转录成mRNA来制备，所述载体是编码作为模板的编码上述核酸序列辨识模组和/或核酸碱基转换酶的DNA。

本发明融合蛋白可于细胞内表达，其是将包含编码核酸序列辨识模组和/或核酸碱基转换酶的DNA的表达载体引进宿主细胞中，并培养宿主细胞。

可使用的宿主为埃希氏菌(Escherichia)属、杆菌(Bacillus)属、酵母、昆虫细胞、昆虫、动物细胞及类似物。

可使用的埃希氏菌(Escherichia)属为大肠杆菌(Escherichia coli)K12.cndot.DH1[Proc.Natl.Acad.Sci.USA,60,160(1968)]、大肠杆菌(Escherichia coli)JM103[Nucleic Acids Research,9,309(1981)]、大肠杆菌(Escherichia coli)JA221[Journal of Molecular Biology,120,517(1978)]、大肠杆菌(Escherichia coli)HB101[Journal of Molecular Biology,41,459(1969)]、大肠杆菌(Escherichia coli)C600[Genetics,39,440(1954)]及类似物。

可使用的杆菌(Bacillus)属为枯草芽孢杆菌(Bacillus subtilis)M1114[Gene,24,255(1983)]、枯草芽孢杆菌(Bacillus subtilis)207-21[Journal of Biochemistry,95,87(1984)]及类似物。

可使用的酵母为酿酒酵母(Saccharomyces cerevisiae)AH22、AH22R.sup.-、NA87-11A、DKD-5D、20B-12、粟酒裂殖酵母(Schizosaccharomyces pombe)NCYC1913、NCYC2036、巴斯德毕赤酵母(Pichia pastoris)KM71及类似物。

当病毒为AcNPV时，使用以下昆虫细胞：卷心白菜秋行军虫幼虫衍生的确立细胞株(秋行军虫(Spodoptera frugiperda)细胞；Sf细胞)、衍生自粉纹夜蛾(Trichoplusia ni)中肠的MG1细胞、衍生自粉纹夜蛾(Trichoplusia ni)虫卵的High Five.TM.细胞、甘蓝夜蛾(Mamestra brassicae)衍生的细胞、竹潜甲(Estigmena acrea)衍生的细胞及类似物。当病毒为BmNPV时，使用家蚕(Bombyx mori)衍生的确立细胞株的细胞(家蚕(Bombyx mori)N细胞；BmN细胞)及类似物作为昆虫细胞。使用的Sf细胞为例如：Sf9细胞(ATCC CRL1711)、Sf21细胞[以上全部：In Vivo,13,213-217(1977)]及类似物。

所使用的昆虫为例如：家蚕(Bombyx mori)、果蝇(Drosophila)、蟋蟀的幼虫及类似物[Nature,315,592(1985)]。

所使用的动物细胞为以下细胞株，如：猴COS-7细胞、猴Vero细胞、中国仓鼠卵巢(CHO)细胞、dhfr基因-缺陷CHO细胞、小鼠L细胞、小鼠AtT-20细胞、小鼠骨髓瘤细胞、大鼠GH3细胞、人类FL细胞及类似物、多能干细胞(如：人类和其他哺乳动物的iPS细胞、ES细胞及类似物)，及由各种不同组织制备的初代培养细胞。此外亦可使用斑马鱼胚胎、爪蟾(Xenopus)卵母细胞及类似物。

所使用植物细胞为由各种不同植物(例如：诸如稻、小麦、玉米及类似物的谷粒，诸如番茄、胡瓜、茄子及类似物的产物作物，诸如康乃馨、洋桔梗(Eustoma russellianum)及类似物的园艺作物，诸如烟草、阿拉伯芥(arabidopsis thaliana)及类似物的实验作物，及类似物))制备的悬浮培养细胞、愈合组织、原生质粒、叶节段、根节段及类似物。

所有上述宿主细胞可为单套(单倍体)、或多倍体(例如：二倍体、三倍体、四倍体及类似物)。惯用的引进突变方法中，原则上将突变引进仅一个同源性染色体中，以产生杂基因型。因此，除非发生显性突变，否则不会表达所需表型，而同型接合性所需要的劳力及时间并不合宜。反的，依据本发明，由于可将突变引进基因体中同源性染色体的任何对偶基因中，因此即使在隐性突变的情况下，仍可在单一世代中表达所需表型，此点极有用，因为可以解决惯用方法的问题。

表达载体可以依据宿主种类，采用已知方法引进(例如：溶菌酶法、适格法(competent method)、PEG法、CaCl₂共同沉淀法、电穿孔法、微注射法、粒子枪法、脂染法、农杆菌(Agrobacterium)方法及类似方法)。

大肠杆菌(Escherichia coli)可依据例如：Proc.Natl.Acad.Sci.USA,69,2110(1972),Gene,17,107(1982)说明的方法及类似方法转形。

杆菌(Bacillus)属可依据例如：Molecular&General Genetics,168,111(1979)说明的方法及类似方法引进载体中。

酵母可依据例如：Methods in Enzymology,194,182-187(1991),Proc.Natl.Acad.Sci.USA,75,1929(1978)说明的方法及类似方法引进载体中。

昆虫细胞和昆虫可依据例如：Bio/Technology,6,47-55(1988)说明的方法及类似方法引进载体中。

动物细胞可依据例如：Cell Engineering additional volume 8,New CellEngineering Experiment Protocol,263-267(1995)(Shujunsha出版)及Virology,52,456(1973)说明的方法引进载体中。

已引进载体的细胞可依据已知方法，根据宿主种类培养。

例如：当培养大肠杆菌(Escherichia coli)或杆菌(Bacillus)属时，较佳以液态培养基作为培养物的培养基使用。培养基较佳包含转形物生长必要的碳源、氮源、无机物质及类似物。碳源实例包括葡萄糖、糊精、可溶性淀粉、蔗糖及类似物；氮源实例包括无机或有机物质，如：铵盐、硝酸盐、玉米浆、蛋白胨、酪蛋白、肉抽出物、大豆饼、马铃薯抽出物及类似物；及无机物质实例包括氯化钙、磷酸二氢钠、氯化镁及类似物。培养基可包含酵母抽出物、维生素、生长促进因子及类似物。培养基的pH较佳约5至约8。

培养大肠杆菌(Escherichia coli)的培养基较佳为例如：包含葡萄糖、酪蛋氨基酸(casamino acid)的M9培养基[Journal of Experiments in Molecular Genetics,431-433,Cold Spring Harbor Laboratory,New York 1972]。若必要时，可添加例如，诸如：3.β.-吲哚基丙烯酸的剂至培养基中，以确保启动子的有效功能。大肠杆菌(Escherichiacoli)通常在约15-约43℃下培养。若必要时，可以进行通气及搅拌。

杆菌(Bacillus)属通常在约30-约40℃下培养。若必要时，可以进行通气及搅拌。

培养酵母的培养基实例包括博克最基本培养基(Burkholder minimum medium)[Proc.Natl.Acad.Sci.USA,77,4505(1980)]、包含0.5％酪蛋氨基酸的SD培养基[Proc.Natl.Acad.Sci.USA,81,5330(1984)]及类似物。培养基的pH较佳约5至约8。通常在约20℃-约35℃下进行培养。若必要时，可以进行通气及搅拌。

培养昆虫细胞或昆虫的培养基是使用例如：适当时包含诸如：失活10％牛血清及类似物等添加剂的葛瑞斯昆虫培养基(Grace's Insect Medium)[Nature,195,788(1962)]及类似物。培养基的pH较佳约6.2至约6.4。通常在约27℃下进行培养。若必要时，可以进行通气及搅拌。

培养动物细胞的培养基是使用例如：包含约5-约20％胎牛血清的最基本培养基(minimum essential medium)(MEM)[Science,122,501(1952)]、杜氏改良伊格氏培养基(Dulbecco's modified Eagle medium)(DMEM)[Virology,8,396(1959)]、RPMI 1640培养基[The Journal of the American Medical Association,199,519(1967)]、199培养基[Proceeding of the Society for the Biological Medicine,73,1(1950)]及类似物。培养基的pH较佳为约6至约8。通常在约30℃至约40℃下进行培养。若必要时，可以进行通气及搅拌。

培养植物细胞的培养基是使用例如：MS培养基、LS培养基、B5培养基及类似物。培养基的pH较佳约5至约8。通常在约20℃至约30℃下进行培养。若必要时，可以进行通气及搅拌。

当使用较高等真核生物细胞，如：动物细胞、昆虫细胞、植物细胞及类似物作为宿主细胞时，将编码本发明碱基编辑系统(例如：包含腺苷脱氨酶变体)的DNA在可诱发启动子(例如：金属硫蛋白启动子(由重金属离子诱发)、热休克蛋白质启动子(由热休克诱发)、Tet-ON/Tet-OFF系统启动子(由添加或排除四环素(tetracycline)或其衍生物诱发)、类固醇反应性启动子(由类固醇激素或其衍生物诱发)，等等)的调节下引进宿主细胞中，在适当阶段添加诱导物质至培养基(或从培养基中排出)，以诱发核酸-修饰酶复合物的表达，进行培养一段指定时间，以便进行碱基编辑，将突变引进靶基因中，可以实现碱基编辑系统的短暂表达。

诸如：大肠杆菌(Escherichia coli)及类似物的原核生物细胞可利用可诱发启动子。可诱发启动子实例包括(但不限于)：lac启动子(由IPTG诱发)、cspA启动子(由冷休克诱发)、araBAD启动子(由阿拉伯糖诱发)及类似物。

或者，当使用诸如：动物细胞、昆虫细胞、植物细胞及类似物等较高等真核生物细胞作为宿主细胞时，亦可利用上述诱发性启动子作为载体排除机转。亦即，在载体上加载可在宿主细胞中运作的复制起点，及编码复制所必需蛋白质的核酸(例如：用于动物细胞的SV40大T抗原、oriP及EBNA-1，等等)，编码所述蛋白质的核酸的表达受到上述可诱发启动子调节。结果，虽然载体可在诱发物质的存下自主性复制，但当排除诱发物质时，则无法自主性复制，所述载体将随着细胞分裂自然衰退(在Tet-OFF系统载体中添加四环素及去氧羟四环素(doxycycline)即无法进行自主复制)。

传递系统

核碱基编辑器及gRNA的基于核酸传递法

编码根据本发明核碱基编辑器的核酸可以采用相关技艺习知方法或如本文所述施用个体或传递至试管内细胞(例如：造血干细胞、造血细胞、胚胎干细胞、诱导的多能干细胞(iPSC)、类器官、及体内细胞(例如：骨髓))。一项实施方案中，核碱基编辑器选择性传递至细胞(例如：造血细胞或其祖细胞、造血干细胞、和/或诱导的多能干细胞)。其他实施方案中，编码核碱基编辑器的核酸是传递至在β-珠蛋白基因HBB中包含突变(例如：HbS)的造血细胞或祖细胞、造血干细胞、和/或诱导的多能干细胞。此等细胞可用于分析HBB编辑的功能性效应。一项实施方案中，于红血球细胞中检测修改HBB的效应，其中正常红血球细胞形态即指示功能性HBB的存在。一项实施方案中，核碱基编辑器可利用例如：载体(例如：病毒或非病毒载体)、基于非载体方法(例如：采用裸DNA、DNA复合物、脂质奈米粒子)、或其组合传递。

编码核碱基编辑器的核酸可以呈裸DNA或RNA直接传递至细胞(例如：造血细胞或其祖细胞、造血干细胞、和/或诱导的多能干细胞)，例如：利用转染或电穿孔法，或可和促进被靶细胞吸收的分子(例如：N-乙酰基半乳糖氨)接合。亦可使用诸如本文所说明载体的核酸载体。

核酸载体可包含一个或多个编码本文所说明融合蛋白的结构域的序列。载体亦可包含编码讯号肽(例如：用于核定位、核仁定位、或粒线体定位)的序列，和编码蛋白质的序列相联(例如：插入或融合)。一项实例中，核酸载体可包括Cas9编码序列(其包括一个或多个核定位序列，例如：来自SV40的核定位序列)、和腺苷脱氨酶变体(例如：ABE8)。

核酸载体亦可包括任何合适数量的调节/控制元素，例如：启动子、加强子、内含子、聚腺苷酸化、讯号、Kozak共通序列、或内部核糖体进入位点(IRES)。此等元素是本领域已知的。适合造血细胞的启动子可包括IFNβ或CD45。

根据本发明核酸载体包括重组病毒载体。例举的病毒载体已说明于本文中。亦可使用相关技艺习知的其他病毒载体。此外，可使用病毒粒子来传递呈核酸和/或肽型的基因体编辑系统组份。例如：“空”病毒粒子可组装成包含任何合适运载材料。病毒载体及病毒粒子亦可工程化，以纳入靶向配体，来修改靶组织特异性。

除了病毒载体外，可使用非病毒载体来传递编码根据本发明基因体编辑系统的核酸。一类重要的非病毒核酸载体为奈米粒子，其可为有机或无机。奈米粒子是本领域已知的。任何合适的奈米粒子设计均可用于传递基因体编辑系统组份或编码此等组份的核酸。例如：有机(例如：脂质和/或聚合物)奈米粒子在本发明某些实施方案中适用为传递溶媒。用于奈米粒子调配物及/或基因转移的脂质实例示于下表11。

表11

表12列举用于基因转移和/或奈米粒子调配物的聚合物实例。

表12

表13综述传递编码本文所说明融合蛋白的多核苷酸的方法。

表13

另一实施例中，可通过传递核糖核蛋白(RNP)至细胞，达成传递编码诸如，例如：核酸结合性蛋白质(如，例如：Cas9或其变体)的组份的基因体编辑系统组份或核酸及靶向所关注基因体核酸序列的gRNA。RNP包含核酸结合性蛋白质，例如：Cas9，和靶向gRNA形成复合物。RNP可以使用已知方法，如：电穿孔法、核染法、或阳离子性脂质介导的方法，传递至细胞，例如：如Zuris,J.A.等人，2015,Nat.Biotechnology,33(1):73-80的说明。RNP有利于用在CRISPR碱基编辑系统，特别针对有转染困难的细胞，如：初代细胞。此外，RNP亦可减轻可能在细胞中发生的蛋白质表达困难，尤其当可能用在CRISPR质粒中但无法良好表达的真核生物启动子，例如：CMV或EF1A。使用RNP的优点在于不需要传递外来DNA至细胞中。此外，由于包含核酸结合性蛋白质和gRNA复合物的RNP会随时间降解，因此使用RNP有限制脱靶效应的潜力。依类似基于质粒技术的方式，可使用RNP传递结合性蛋白质(例如：Cas9变体)及主导同源基因向导修复(HDR)。

用于驱动编码核酸分子表达的碱基编辑器的启动子可包括AAV ITR。其有利于消除对额外启动子元素的需求，可以吸收载体中的空间。可随意利用额外空间来驱动额外元素的表达，如：向导核酸或可选择标记物。ITR活性相当弱，因此可用于降低因所选核酸酶过度表达的可能毒性。

任何合适启动子均可用于驱动碱基编辑器及若适当时，向导核酸的表达。针对普遍的表达，可使用的启动子包括CMV、CAG、CBh、PGK、SV40、铁蛋白重链或轻链，等等。针对脑或其他CNS细胞表达，合适启动子可包括：针对所有神经元的SynapsinI、针对兴奋性神经元的CaMKIIα、针对GABA激导性神经元的GAD67或GAD65或VGAT，等等。适合肝细胞表达的启动子包括白蛋白启动子。适合肺细胞表达的启动子可包括SP-B。适合内皮细胞的启动子可包括ICAM。适合造血细胞的启动子可包括IFNβ或CD45。适合成骨细胞的启动子可包括OG-2。

有些实施方案中，本发明碱基编辑器的尺寸小到足以让分开的启动子驱动碱基编辑器及在同一个核酸分子内的可相容向导核酸的表达。例如：载体或病毒载体可包含以可操纵方式连接编码碱基编辑器的核酸的第一启动子及以可操纵方式连接向导核酸的第二启动子。

用于驱动向导核酸表达的启动子可包括：Pol III启动子，如：U6或H1。使用Pol II启动子及内含子匣来表达gRNA腺相关的病毒(Adeno Associated Virus)(AAV)。

有些实施例中，本发明是有关靶向HBB突变的核碱基编辑器使用例如：病毒载体的病毒传递法。例举的病毒载体包括反转录病毒载体(例如：莫洛尼小鼠白血病病毒(Maloneymouse leukemia virus)，MML-V)、腺病毒载体(例如：AD100)、慢病毒载体(基于HIV及FIV的载体)、疱疹病毒载体(例如：HSV-2)、及腺相关的病毒载体。

病毒载体

因此本文所说明碱基编辑器可以利用病毒载体传递。有些实施方案中，本文所揭示碱基编辑器可以在含在病毒载体中的核酸上编码。有些实施方案中，碱基编辑器系统的一个或多个组份可以在一个或多个病毒载体上编码。例如：碱基编辑器和向导核酸可以在单一病毒载体上编码。其他例子中，碱基编辑器和向导核酸是在不同病毒载体上编码。不论任何例子，碱基编辑器和向导核酸均可分别以可操纵方式连接启动子和终结子。在病毒载体上编码的组份组合可由所选择病毒载体的运载尺寸限制决定。

使用基于RNA或DNA病毒的系统来传递碱基编辑器是利用让病毒靶向培养物或宿主中特定细胞及病毒酬载运送至核或宿主细胞基因体的高度演化过程的优势。病毒载体可以直接施用培养物中的细胞、患者(体内)，或其等可用在试管内处理细胞，且可视需要施用经修饰的细胞给患者(体外)。常用的基于病毒系统可包括供基因转移的反转录病毒、慢病毒、腺病毒、腺相关的及单纯疱疹病毒载体。可能利用反转录病毒、慢病毒、及腺相关的病毒基因转移方法整合至宿主基因体中，经常造成所插入转基因的长期表达。此外，已在许多不同细胞型态及靶组织中观察到高度转导效能。

病毒载体可包括慢病毒(例如：基于HIV及FIV的载体)、腺病毒(例如：AD100)、反转录病毒(例如：莫洛尼小鼠白血病病毒(Maloney mouse leukemia virus)，MML-V)、疱疹病毒载体(例如：HSV-2)、及腺相关的病毒(AAV)，或其他质粒或病毒载体型态，特定言的使用来自以下的调配物和剂量，例如：美国专利案案号8,454,972(腺病毒的调配物、剂量)、美国专利案案号8,404,658(AAV的调配物、剂型)及美国专利案案号5,846,946(DNA质粒的调配物、剂型)及来自临床试验和涉及慢病毒、AAV及腺病毒的临床试验的相关公开文献。例如：针对AAV的投药途径、调配物及剂量可依美国专利案案号8,454,972及涉及AAV的临床试验的说明。针对腺病毒的投药途径、调配物及剂量可依美国专利案案号8,404,658及涉及腺病毒的临床试验的说明。传递质粒的投药途径、调配物及剂量可依美国专利案案号5,846,946及涉及质粒的临床试验的说明。剂量可以依据或外插至平均70kg个体(例如：男性成人)，并随患者、个体、哺乳动物的不同体重及物种调整。投药频率是医学或兽医学操作者(例如：医师、兽医师)，依一般因素决定，包括患者或个体的年龄、性别、一般健康、其他条件，及需要解决的特别病症或症状。病毒载体可以注射至所关注组织中。针对细胞型态特异性碱基编辑，可利用细胞型态特异性启动子驱动碱基编辑器及可视需要选用的向导核酸的表达。

可以通过纳入外来套膜蛋白质，修改反转录病毒的向性，扩张靶细胞的潜在靶族群。慢病毒载体为可以转导或感染未分裂细胞的反转录病毒载体，且通常产生高病毒效价。因此反转录病毒基因转移系统的选择是依靶组织而定。反转录病毒载体是由顺式作用长末端重复序列构成，其包装容量最多6-10kb外来序列。最少量的顺式作用LTR即足以供载体复制及包装，然后可用于整合医药性基因至靶细胞中，提供永久的转基因表达。广泛使用的反转录病毒载体包括彼等基于鼠类白血病病毒(murine leukemia virus)(MuLV)、长臂类人猿白血病病毒(gibbon ape leukemia virus)(GaLV)、猴类免疫缺陷病毒(Simianimmunodeficiency virus)(SIV)、人类免疫缺陷病毒(human immuno deficiency virus)(HIV)、及其组合者(参见例如：Buchscher等人，J.Virol.66:2731-2739(1992)；Johann等人，J.Virol.66：1635-1640(1992)；Sommnerfelt等人，Virol.176:58-59(1990)；Wilson等人，J.Virol.63:2374-2378(1989)；Miller等人，J.Virol.65:2220-2224(1991)；PCT/US94/05700)。

反转录病毒载体，尤指慢病毒载体可能需要长度小于指定长度的多核苷酸序列，以便有效整合至靶细胞中。例如：长度超过9kb的反转录病毒载体会使病毒效价低于彼等尺寸较小者。有些实施例中，本发明碱基编辑器的尺寸足以有效包装及利用反转录病毒载体传递至靶细胞中。有些实施方案中，即使当和向导核酸和/或可被靶向的核酸酶系统的其他组份一起表达时，碱基编辑器的尺寸应容许有效包装及传递。

在以短暂表达为较佳的应用中，可使用基于腺病毒的系统。基于腺病毒的载体可以在许多细胞型态中具有极高转导效能，且不需要细胞分裂。使用此等载体，已得到高度效价及表达程度。此载体可在相对简单的系统中大量制造。亦可使用腺相关的病毒(“AAV”)载体，来转导具有靶核酸的细胞，例如：于试管内产生核酸及肽，及供体内和体外基因疗法程序(参见例如：West等人，Virology 160:38-47(1987)；美国专利案案号4,797,368；WO 93/24641；Kotin，Human Gene Therapy5:793-801(1994)；Muzyczka,J.Clin.Invest.94：1351(1994)。重组AAV载体的构筑法说明于许多文献，包括美国专利案案号5,173,414；Tratschin等人，Mol.Cell.Biol.5:3251-3260(1985)；Tratschin等人的Mol.Cell.Biol.4:2072-2081(1984)；Hermonat&Muzyczka,PNAS 81:6466-6470(1984)；及Samulski等人，J.Virol.63:03822-3828(1989)。

AAV为一种属于小病毒科的小型单链DNA依赖性病毒。4.7kb野生型(wt)AAV基因体是由两个分别编码四个复制蛋白质及三个衣壳蛋白质的基因组成，其利用145-bp反向末端重复序列(ITR)侧接任一侧。病毒体是由三个衣壳蛋白质Vp1、Vp2、和Vp3组成，是从相同开放读码框，但从不同剪接(Vp1)及交替转译起始位点(分别为Vp2及Vp3)，依1：1：10比例产生。Vp3为病毒体中含量最多的亚单位，且在界定病毒向性的细胞表面上参和受体辨识。已在Vp1的独特N末端判别在病毒感染力上运作的磷脂酶结构域。

类似wt AAV，重组AAV(rAAV)利用顺式作用的145-bp ITR来侧接载体转基因匣，提供最多4.5kb供包装外来DNA。继感染之后，rAAV利用呈游离基因存在的环状头接尾串联体，不需要整合至宿主基因体中即可表达本发明融合蛋白并持续。虽然，有许多于试管内及体内成功使用此系统的rAAV实例，但当基因的编码序列的长度大小等于或大于wt AAV基因体时，有限的包装容量已限制AAV-所介导基因传递的使用。

病毒载体可以依据用途来选择。例如：针对体内基因传递，AAV比其他病毒载体有利。有些实施方案中，AAV的毒性低，其可能归因于其纯化法不需要可能激活免疫反应的细胞粒子超离心过程。有些实施方案中，AAV造成插入诱变的机率低，因为其不会整合至宿主基因体中。腺病毒常用于疫苗，因为其等可诱发强力免疫原反应。病毒载体的包装容量会限制可包装至载体中的碱基编辑器大小。

AAV具有的包装容量为约4.5Kb或4.75Kb，包括两个145个碱基反向末端重复序列(ITR)。此意指所揭示的碱基编辑器及启动子和转录终止子适合进入单一病毒载体中。超过4.5或4.75Kb的构建体会造成显著减少的病毒产量。例如：SpCas9相当大，基因本身即超过4.1Kb，使得其很难包装至AAV中。因此，本发明实施方案包括利用比惯用碱基编辑器更短的所揭示碱基编辑器。有些实例中，碱基编辑器小于4kb。所揭示碱基编辑器可以小于4.5kb、4.4kb、4.3kb、4.2kb、4.1kb、4kb、3.9kb、3.8kb、3.7kb、3.6kb、3.5kb、3.4kb、3.3kb、3.2kb、3.1kb、3kb、2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2kb、或1.5kb。有些实施方案中，所揭示碱基编辑器的长度为4.5kb或更小。

AAV可为AAV1、AAV2、AAV5或其任何组合。可以依据所要靶向的细胞选择AAV型态；例如：可以选择AAV血清型1、2、5或杂交衣壳AAV1、AAV2、AAV5或其任何组合来靶向脑或神经元细胞；及可以选择AAV4来靶向心脏组织。AAV8适用于传递至肝脏。和此等细胞有关的某些AAV血清型的列表可参见Grimm,D.等人的J.Virol.82:5887-5911(2008)。

慢病毒为有能力在有丝分裂细胞及有丝分裂后细胞二者中感染及表达其等基因的复合反转录病毒。最广为人知的慢病毒为人类免疫缺陷病毒(HIV)，其利用其他病毒的套膜醣蛋白来靶向很大范围的细胞型态。

慢病毒制法如下。在选殖pCasES10(其包含慢病毒转移质粒主干)后，取低次传代(p＝5)的HEK293FT接种在T-75烧瓶中达50％汇合度后，当天在含10％胎牛血清且没有抗生素的DMEM中转染。20小时后，将培养基换成OptiMEM(无血清)培养基，4小时后进行转染。细胞使用10μg慢病毒转移质粒(pCasES10)及下列包装质粒转染：5μg pMD2.G(VSV-g假型)、和7.5μg psPAX2(gag/pol/rev/tat)。于含阳离子性脂质传递剂(50ul脂染氨(Lipofectamine)2000及100ul Plus试剂)的4mL OptiMEM中进行转染。6小时后，培养基换成没有抗生素的含10％胎牛血清的DMEM。此等方法在细胞培养期间使用血清，但以无血清方法较佳。

慢病毒可依下列方法纯化。在48小时后收集病毒上清液。上清液先通过0.45μm低蛋白质结合度(PVDF)滤器来清除碎片及过滤。然后于超离心机中，在24,000rpm下离心2小时。病毒集结块再悬浮于4℃的50μl DMEM中一夜。然后分等份分装且立即在-80℃下冷冻。

另一项实施方案中，亦考虑基于马传染性贫血病毒(equine infectious anemiavirus)(EIAV)的极小非灵长类慢病毒载体。另一项实施方案中，考虑经由视网膜下注射传递一种表达血管抑制性蛋白质内皮抑素(endostatin)及血管抑制素(angiostatin)的基于马传染性贫血慢病毒基因疗法的载体另一项实施方案中，考虑使用自我失活的慢病毒载体。

系统的任何RNA，例如：向导RNA或编码碱基编辑器的mRNA均可呈RNA型式传递。编码碱基编辑器的mRNA可以使用试管内转录法产生。例如：核酸酶mRNA可以使用包含下列元素的PCR匣合成：T7启动子、可视需要选用的kozak序列(GCCACC)、核酸酶序列、和3’UTR(如：来自β珠珠蛋白-聚A尾的3’UTR)。所述匣可用于T7聚合酶的转录。亦可使用来自依序包含T7启动子、序列“GG”、和向导多核苷酸序列的匣于试管内的转录法来转录向导多核苷酸(例如：gRNA)。

为了加强表达及降低可能的毒性，编码碱基编辑器的序列及/或向导核酸可以例如：使用假-U或5-甲基-C进行修饰，以包括一个或多个经修饰核苷。

AAV载体的包装容量小，若传递的基因数量超过此大小及/或使用大的生理调节元素即成为挑战。要解决此等挑战可以例如：由要传递的蛋白质(群)分成两个或更多个片段，其中N末端片段是融合至切开的内含肽-N，及C末端片段是融合至切开的内含肽-C。此等片段随后包装至两个或更多个AAV载体中。本文所采用“内含肽”是指黏接侧接的N末端和C末端外显肽(例如：要接合的片段)的自我剪接蛋白质内含子(例如：肽)。某些用于接合异源性蛋白质片段的内含肽用法已说明于例如：Wood等人，J.Biol.Chem.289(21)；14512-9(2014)。例如：当融合至分开的蛋白质片段时，内含肽IntN及IntC彼此辨识，自行剪接分开及同时黏接侧接的所要融合的蛋白质片段的N-和C末端外显肽，由此从两个蛋白质片段重新构成全长蛋白质。其他合适内含肽是本领域技术人员通常理解者。

本发明融合蛋白的片段可以有长度变化。有些实施方案中，蛋白质片段的长度范围为2个氨基酸至约1000个氨基酸。有些实施方案中，蛋白质片段的长度范围为约5个氨基酸至约500个氨基酸。有些实施方案中，蛋白质片段的长度范围为约20个氨基酸至约200个氨基酸。有些实施方案中，蛋白质片段的长度范围为约10个氨基酸至约100个氨基酸。其他合适的蛋白质片段长度是本领域技术人员通常理解者。

一项实施方案中，由大型转基因表达匣切成分开的两半(5′及3′端、或头和尾)，产生双重AAV载体，其中将每一个半匣包装至单一AAV载体(<5kb)中。当同一个细胞被两个双重AAV载体共同转染时，然后接着：(1)在5′和3′基因体之间的同源性重组(HR)(双重AAV重迭载体)；(2)5′及3′基因体的ITR-介导的尾-对-头因组连环(concatemer)(双重AAV反式-剪接载体)；或(3)这两种机转的组合(双重AAV杂交载体)，即达成重新组装全长转基因表达匣。于体内使用双重AAV载体，造成表达全长蛋白质。双重AAV载体平台的用法代表可供大小>4.7kb的转基因的有效且可行的基因转移策略。

内含肽

有些实施方案中，核酸酶(例如：Cas9)的一部份或片段是融合至内含肽。所述核酸酶可以融合至内含肽的N末端或C末端。有些实施方案中，融合蛋白的一部份或片段是融合至内含肽并融合至AAV衣壳蛋白质。内含肽、核酸酶及衣壳蛋白质可以依任何排列共同融合(例如：核酸酶-内含肽-衣壳、内含肽-核酸酶-衣壳、衣壳-内含肽-核酸酶，等等)。有些实施方案中，内含肽的N末端是融合至融合蛋白的C末端，及内含肽的C末端是融合至AAV衣壳蛋白质的N末端。内含肽(插入蛋白质)为出现在许多种不同生物体中的自我加工结构域，其进行的过程称为蛋白质剪接。蛋白质剪接为多重步骤的生化反应，由肽键的裂解及形成二者构成。虽然蛋白质剪接的内因性受质为出现在含内含肽生物体中的蛋白质，但内含肽亦可用于化学上操作几乎任何多肽主干。

在蛋白质剪接中，内含肽通过裂解两个肽键，而自行切除前体多肽，通过形成新的肽键来黏接侧接的外显肽(外部蛋白质)序列。此重新排列发生在转译后(或可能共同转译时)。内含肽所介导的蛋白质剪接是自发性发生，仅需要内含肽结构域的折迭。

约5％内含肽为切开的内含肽，其等经过转录及转译成两个分开的多肽，N-内含肽及C-内含肽，分别融合至一个外显肽。在转译时，内含肽片段会自发性及非共价性组装至典型内含肽结构中，以进行反式蛋白质剪接。蛋白质剪接的机转需要一是列酰基-转移反应，造成内含肽-外显肽接合处的两个肽键裂解，并在N-和C-外显肽之间形成新的肽键。此过程是由激活接合N-外显肽和内含肽的N末端的肽键来启动。几乎所有内含肽均在其N末端具有半胱氨酸或丝氨酸，其侵入C末端N-外显肽残基的羰基态碳。由保守的苏氨酸及组氨酸(称为TXXH基序)促成此N至O/S酰基位移，连同常见的天冬氨酸，造成形成线性(硫)酯中间物。然后，此中间物再经过第一C-外显肽残基(+1)(其为半胱氨酸、丝氨酸、或苏氨酸)的亲核性攻击进行反式-(硫)酯化。所产生分支(硫)酯中间物则透过内含肽中高度保守的C末端天冬酰氨酸的独特转形：环化解析。此过程是由组氨酸(出现在高度保守的HNF基序中)及倒数第二个组氨酸促成，且可能亦及涉及天冬氨酸。此琥珀酰亚氨形成反应从反应性复合物中切除内含肽，留下透过非肽链结附接的外显肽。此结构以不依赖内含肽的方式快速重新排列成稳定肽键。

有些实施方案中，碱基编辑器(例如：ABE、CBE)的N末端片段是融合至切开的内含肽-N，及C末端片段是融合至切开的内含肽-C。此等片段随后包装至两个或更多个AAV载体中。以某些内含肽接合异源性蛋白质片段的用法已说明于例如：Wood等人，J.Biol.Chem.289(21)；14512-9(2014)。例如：当融合至分开的蛋白质片段时，内含肽IntN和IntC会彼此辨识，自行剪接分开及同时黏接侧接的所要融合的蛋白质片段的N-和C末端外显肽，由此从两个蛋白质片段重新构成全长蛋白质。其他合适内含肽是本领域技术人员通常理解者。

有些实施方案中，ABE在SpCas9所选定区的Ala、Ser、Thr、或Cys残基切成N-及C末端片段。对应于环圈区的此等区可由Cas9结晶结构分析判别。各片段的N末端是融合至内含肽-N，及各片段的C末端是融合至内含肽C氨基酸位置S303、T310、T313、S355、A456、S460、A463、T466、S469、T472、T474、C574、S577、A589、和S590，在以下序列中以粗体字母表示。

使用核碱基编辑器靶向HBB突变

如本文所述评估核碱基编辑器靶向HBB突变的适合性。一项实施方案中，由所关注单一细胞(例如：包含HBB突变的造血细胞或其祖细胞、造血干细胞、和/或诱导的多能干细胞)经过碱基编辑系统及少量编码报导子(例如：GFP)的载体一起转导。此等细胞可以为永生人类细胞株，如：293T、K562或U20S。或者，可使用初代细胞(例如：人类)。此等细胞可和最终细胞靶相关。

可使用病毒载体进行传递。一项实施方案中，可使用脂质转染法(如：脂染氨(Lipofectamine)或Fugene)或利用电穿孔法进行转染。转染后，可利用萤光显微镜测定GFP的表达，或利用流式细胞计确认转染的一致性及高转染度。此等初步转染可包含不同核碱基编辑器来决定哪一种编辑器组合可以产生最大活性。

如本文所述分析核碱基编辑器的活性，亦即采用细胞基因体的定序法来检测靶序列中的修改。针对桑格定序法，是选殖纯化的PCR扩增子至质粒主干中，转形，迷你制备(miniprepped)及使用单一引子定序。亦可采用次世代定序技术进行定序。当使用次世代定序法时，扩增子可为300-500bp，以不对称方式放置预期切割位点。继PCR之后，可以在扩增子末端添加次世代定序衔接子及条码(例如：Illumina多工定序(Illumina multiplex)衔接子及索引)，例如：用于高通量定序法(例如：Illumina MiSeq)。

可选择在初次试验中诱发最大靶特异性修改程度的融合蛋白进一步评估。

特定实施方案中，使用核碱基编辑器靶向所关注多核苷酸。一项实施方案中，本发明核碱基编辑器是和用于靶向细胞基因体内HBB突变的向导RNA连结，传递至细胞(例如：造血细胞或其祖细胞、造血干细胞、和/或诱导的多能干细胞)，由此修改HBB突变。

所述系统可包含一个或多个不同载体。一项实施例中，碱基编辑器已优化密码子，供表达所需细胞型态，较佳为真核生物细胞，较佳为哺乳动物细胞或人类细胞。

通常，密码子优化是指一种由原始序列的至少一个密码子(例如：约或超过约1、2、3、4、5、10、15、20、25、50个、或更多个密码子)被所关注宿主细胞的基因较常或最常使用，同时仍维持所述原始氨基酸序列的密码子置换，来修饰核酸序列，以加强在所述宿主细胞中表达的过程。各种不同物种对特定氨基酸的某些密码子具有特别偏好。密码子偏好(密码子在生物体之间的用法差异)经常和信使RNA(mRNA)的转译效能相关，进而咸信特别依赖所要转译密码子的性质及特定转移RNA(tRNA)分子的可利用性。所选择tRNA于细胞中的优势通常反映最常用在肽合成法中的密码子。因此，可以依据密码子优化，订制可以在指定生物体中达最优基因表达的基因。密码子用法表格很容易取得，例如：来自www.kazusa.orjp/codon/(2002年7月9日造访)的“Codon Usage Database”，此等表格可依许多方式撷用。参见Nakamura,Y.等人“Codon usage tabulated from the international DNA sequencedatabases:status for the year 2000”Nucl.Acids Res.28:292(2000)。亦可采用电脑演算法，为特定序列进行密码子优化，以在特定宿主细胞中表达，如：Gene Forge(Aptagen；Jacobus,Pa.)。有些实施方案中，在编码工程化核酸酶的序列中的一个或多个密码子(例如：1、2、3、4、5、10、15、20、25、50、或更多个、或所有密码子)对应于特定氨基酸最常用的密码子。

通常使用包装细胞来形成可以感染宿主细胞的病毒粒子。此等细胞包括包装腺病毒的293细胞，及包装反转录病毒的psi.2细胞或PA317细胞。基因疗法采用的病毒载体通常由核酸载体包装至病毒粒子中制成细胞株来产生。载体通常包含包装所需要的最小病毒序列，随后整合至宿主中，再以要表达的多核苷酸(群)的表达匣置换其他病毒序列。失去的病毒功能通常由包装细胞株转运供应。例如：基因疗法所采用AAV载体通常仅处理来自AAV基因体的ITR序列，其是包装及整合至宿主基因体中时所必需。病毒DNA可以包装在细胞株中，其包含编码其他AAV基因的助手质粒，亦即rep及cap，但缺少ITR序列。所述细胞株亦可被作为助手的腺病毒感染。助手病毒可以促进AAV载体复制及由助手质粒表达AAV基因。有些例子中的助手质粒的包装量不显著，因为缺少ITR序列。可以通过例如：热处理来减少腺病毒污染，因为腺病毒比AAV更敏感。

药物组合物

本发明其他实施例是有关一种药物组合物，其包含本文所说明任何碱基编辑器、融合蛋白、或融合蛋白-向导多核苷酸复合物。本文所采用术语“药物组合物”是指调配用于药物用途的组合物。有些实施方案中，药物组合物进一步包含药学上可接受的载体。有些实施方案中，药物组合物包含额外剂(例如：供特异性传递、延长半衰期、或其他医疗性化合物)。

本文所采用术语“药学上可接受的载体”意指涉及携带或转运化合物从一个身体位点(例如：传递位点)至另一个位点(例如：器官、组织或身体的一部份)的药学上可接受的材料、组合物或溶媒，如：液态或固态填料、稀释剂、赋形剂、制造助剂(例如：润滑剂、滑石、硬脂酸镁、-钙、或-锌、或硬脂酸)、或溶剂囊封材料。药学上可接受的载体是在可和调配物中其他成份相容且对个体的组织无害(例如：生理上可相容、无菌、生理pH，等等)的意义上为“可接受”。

可作为药学上可接受的载体的材料的有些非限制性实例包括：(1)糖类，如：乳糖、葡萄糖、及蔗糖；(2)淀粉，如：玉米淀粉和马铃薯淀粉；(3)纤维素，和其衍生物，如：羧甲基纤维素钠、甲基纤维素、乙基纤维素、微晶纤维素及乙酸纤维素；(4)黄芪胶粉末；(5)麦芽；(6)明胶；(7)润滑剂，如：硬脂酸镁、月桂基硫酸钠及滑石；(8)赋形剂，如：可可脂及栓剂用蜡；(9)油类，如：花生油、棉籽油、红花油、芝麻油、橄榄油、玉米油、及大豆油；(10)二醇类，如：丙二醇；(11)多元醇类，如：甘油、山梨糖醇、甘露糖醇及聚乙二醇(PEG)；(12)酯类，如：油酸乙酯和月桂酸乙酯；(13)洋菜；(14)缓冲剂，如：氢氧化镁及氢氧化铝；(15)藻酸；(16)无热原水；(17)等渗生理食盐水；(18)林格氏溶液(Ringer's solution)；(19)乙醇；(20)pH缓冲液；(21)聚酯、聚碳酸酯和/或聚酸酐；(22)填充剂，如：多肽和氨基酸；(23)血清醇，如：乙醇；及(23)其他用在药物调配物上的无毒性可相容物质。湿化剂、着色剂、释离剂、包衣剂、甜味剂、调味剂、香料剂、防腐剂、及抗氧化剂亦可存在于调配物中。诸如：“赋形剂”、“载体”、“药学上可接受的载体”、“溶媒”或类似术语可以在本文中交换使用。

药物组合物可包含一或多种pH缓冲化合物，以使调配物的pH维持在反映生理pH的预定程度上，如：在约5.0至约8.0的范围内。用在水性液体调配物中的pH缓冲化合物可为氨基酸或氨基酸的混合物，如：组氨酸或诸如：组氨酸和甘氨酸的氨基酸混合物。或者，pH缓冲化合物较佳为维持调配物的pH在如：约5.0至约8.0的预定程度范围内的剂，且其不会和钙离子螯合。此等pH缓冲化合物的例示性实例包括(但不限于)咪唑及乙酸根离子。pH缓冲化合物可呈适合维持调配物pH在预定程度时的任何用量。

药物组合物亦可包含一或多种渗透调控剂，亦即调控调配物的渗透性质(例如：张力、渗透性、和/或渗透压)至接受者个体的血流及血液细胞可接受程度的剂。渗透调控剂可为不会和钙离子螯合的剂。渗透调控剂可为彼等本领域技术人员何已知或可取得用于调控调配物渗透性质的任何化合物。本领域技术人员可以实验决定指定的渗透调控剂用在本发明调配物中的适宜性。合适的渗透调控剂型态的例示性实例包括(但不限于)：盐类，如：氯化钠及乙酸钠；糖类，如：蔗糖、右旋糖、和甘露糖醇；氨基酸，如：甘氨酸；及其中一或多种剂和/剂型态的混合物。渗透调控剂(群)可呈足以调控调配物渗透性质的任何浓度存在。

有些实施方案中，药物组合物是调配成供传递给个体，例如：供基因编辑。适合施用本文所说明药物组合物的途径包括(但不限于)：表面局部、皮下、穿皮、皮内、病灶内、关节内、腹膜内、膀胱内、经黏膜、牙龈、牙内、耳蜗内、经鼓膜、器官内、硬脊膜外、鞘内、肌内、静脉内、血管内、骨内、眼周、肿瘤内、颅内、及脑室内投药。

有些实施方案中，本文所说明药物组合物是局部投药至所需部位(例如：肿瘤部位)。有些实施方案中，本文所说明药物组合物是利用注射法、利用导管、利用栓剂、或利用植入物施用个体，植入物可为多孔、非多孔、或凝胶状材料，包括膜，如：硅胶膜、或纤维。

其他实施方案中，本文所说明药物组合物是以控制释放系统传递。一项实施方案中，可使用帮浦(参见例如：Langer,1990,Science 249:1527-1533；Sefton,1989,CRCCrit.Ref.Biomed.Eng.14:201；Buchwald等人，1980,Surgery 88:507；Saudek等人，1989,N.Engl.J.Med.321:574)。另一项实施方案中，可使用聚合性材料(参见例如：MedicalApplications of Controlled Release(Langer and Wise eds.,CRC Press,Boca Raton,Fla.,1974)；Controlled Drug Bioavailability,Drug Product Design andPerformance(Smolen和Ball编辑，Wiley,New York,1984)；Ranger及Peppas,1983,Macromol.Sci.Rev.Macromol.Chem.23:61。亦参见Levy等人，1985,Science 228:190；During等人，1989,Ann.Neurol.25:351；Howard et ah,1989,J.Neurosurg.71:105.)。其他控制释放系统已讨论于例如：上述Langer文献中。

有些实施方案中，药物组合物是依据例行制程调配成适合经静脉内或皮下施用个体，例如：人类的组合物。有些实施方案中，供注射投药的药物组合物为使用无菌等渗液作为溶解剂及用于缓解注射部位疼痛的局部麻醉剂(如：利多卡因(lignocaine))的溶液。通常，成份是分开或混合在一起呈单位剂型提供，例如：于气密容器中的冻干粉末或无水浓缩物，如：指示活性剂含量的安瓿或药囊。若采用输注施用药物时，其可使用包含医药等级无菌水或生理食盐水的输液瓶配送。若药物组合物采用注射投药时，可提供注射用无菌水或生理食盐水安瓿，以便在投药前先混合成份。

供全身投药的药物组合物可为液体，例如：无菌生理食盐水、乳酸化林格氏(Ringer's)或汉氏(Hank's)溶液。此外，药物组合物可呈固态型式，及于临前再溶解或悬浮。亦考虑使用冻干型。药物组合物可以包含在脂质粒子或囊胞内，如：脂质粒或微晶体，其等亦适合非经肠式投药。粒子可为任何合适的结构，如：单层或多层，只要在其中包含组合物即可。化合物是囊封在包含融合脂质二油酰基磷脂酰基乙醇氨(DOPE)、低量(5-10mol％)阳离子性脂质的“稳定化质粒-脂质粒子”(SPLP)中，及透过聚乙二醇(PEG)包衣稳定化(Zhang Y.P.等人，Gene Ther.1999,6:1438-47)。带正电价的脂质，如：N-[l-(2,3-二油酰基氧)丙基]-N,N,N-三甲基-铵甲基硫酸盐，或“DOTAP”特别适合此等粒子及囊胞。此等脂质粒子的制法是习知者。参见例如：U.S.Patent Nos.4,880,635；4,906,477；4,911,928；4,917,951；4,920,016；及4,921,757；其等内容已分别以引用方式并入本文中。

本文所说明药物组合物可以施用或包装成例如：单位剂量。本发明药物组合物提及术语“单位剂量”时，是指呈适合个体的单位剂量的物理性分离单位，各单位包含经过计算可以产生所需医疗效能的预定量活性材料和所需稀释剂，亦即载体、或溶媒组合。

此外，药物组合物可呈药物套组提供，其包含(a)容器，其包含呈冻干型的本发明化合物，及(b)第二容器，其包含药学上可接受的稀释剂(例如：用于再组成或稀释本发明冻干化合物的无菌稀释剂。此等容器(群)可视需要附带由政府机关核发的通知书，规范药物或生物产品的制造、用途或销售，所述通知书反映由所述机关核准制造、使用或销售供人类投药。

另一实施例中，包括一种制造物品，其包含适用于治疗上述疾病的材料。有些实施方案中，制造物品包含容器及标示。合适的容器包括例如：瓶子、小瓶、针筒、和试管。容器可由各种不同材料形成，如：玻璃或塑胶。有些实施方案中，容器容纳有效治疗本文所说明疾病的组合物，且可具有无菌出入孔。例如：容器可为静脉内用溶液袋或具有可供皮下注射针头穿刺的瓶塞的小瓶。组合物中的活性剂为本发明化合物。有些实施方案中，由容器上或和容器相联的标示指示所述组合物是用于治疗所选疾病。所述制造物品可以进一步包含第二容器，其包含药学上可接受的缓冲剂，如：磷酸盐缓冲生理食盐水、林格氏溶液、或右旋糖溶液。其可进一步包括从商业或使用观点有需求的其他材料，包括其他缓冲剂、稀释剂、过滤器、针头、针筒、及附有使用说明的包装插页。

有些实施方案中，提供本文所说明任何融合蛋白、gRNA、和/或复合物作为药物组合物的一部份。有些实施方案中，药物组合物包含本文所提供任何融合蛋白。有些实施方案中，药物组合物包含本文所提供任何复合物。有些实施方案中，药物组合物包含核糖核蛋白复合物，其包含RNA-向导核酸酶(例如：Cas9)，会和gRNA及阳离子性脂质形成复合物。有些实施方案中，药物组合物包含gRNA、核酸可编程DNA结合性蛋白质、阳离子性脂质、及药学上可接受的赋形剂。药物组合物可视需要包含一或多种额外医疗活性物质。

有些实施方案中，本文所提供组合物是施用个体，例如：人类个体，以在个体中进行靶基因体修饰。有些实施方案中，细胞是得自个体且和本文所提供任何药物组合物接触。有些实施方案中，细胞是从个体分离，并于体外和药物组合物，然后再引进个体中，可视需要在细胞中已进行或检测到所需基因体修饰后再引进。传递包含核酸酶的药物组合物的方法是已知且说明于例如：美国专利案案号6,453,242；6,503,717；6,534,261；6,599,692；6,607,882；6,689,558；6,824,978；6,933,113；6,979,539；7,013,219；及7,163,824，所有其等内容已以全文引用方式并入本文中。虽然本文所提供药物组合物的说明原则上和适合施用人类的药物组合物有关，但本领域技术人员通常理解，此等组合物通常适合施用所有种类的动物或生物体，例如：供兽医学用途。

通常理解，适合施用人类的药物组合物可以修改成适合施用各种不同动物的组合物，且习此相关技艺的兽医学药理师，若需要时仅需任何例行实验即可设计及/或执行此等修改。考虑接受施用药物组合物的个体包括(但不限于)：人类和/或其他灵长类；哺乳动物、家畜动物、宠物、及商业上相关的哺乳动物，如：牛、猪、马、绵羊、猫、狗、小鼠、和/或大鼠；及/或鸟类，包括商业上相关的鸟类，如：鸡、鸭、鹅、和/或火鸡。

本文所说明药物组合物的调配物可依任何已知方法或药理学技艺发展的方法制备。通常，此等制备方法包括的步骤为由活性成份(群)和赋形剂及/或一或多种其他附属成份组合，然后若必要及/或需要时，成型及/或包装产品成为所需单剂量或多剂量单位。药物调配物可以额外包含药学上可接受的赋形剂，其用于本文中者包括任何及所有适合所需特定剂型的溶剂、匀散介质、稀释剂、或其他液态溶媒、匀散或悬浮助剂、表面活性剂、等渗剂、增稠剂、或乳化剂、防腐剂、固体结合剂、润滑剂及类似物。Remington’s The Science andPractice of Pharmacy，第21版，A.R.Gennaro(Lippincott,Williams&Wilkins,Baltimore,MD,2006；其内容已以全文引用方式并入本文中)揭示用于调配药物组合物的各种不同赋形剂及其制备的已知技术。有关其他适合制造包含核酸酶的药物组合物的方法、试剂、赋形剂及溶剂亦参见PCT申请案PCT/US2010/055131(公告案号WO2011/053982A8，2010年11月2日申请)，其内容已以全文引用方式并入本文中。

除非有任何惯用赋形剂介质无法和物质其衍生物相容，如：以有害方式和药物组合物中任何其他组份(群)产生任何不期望的生物效应或其他交互作用，否则本发明范围内均会考虑其用法。

如上述组合物可以施用有效量。有效量将随投药模式、所治疗特定病症、及所希望结果而定。其亦可能依病症阶段、个体的年龄和身体条件、若有任何并行疗法时的疗法性质、及医学操作者习知的类似因素而定。医疗用途的足量是达成所需医学结果时的量。

有些实施方案中，根据本发明组合物可用于治疗任何不同疾病、疾患、和/或病症。有些实施方案中，组合物可用于治疗SCD及其症状。

套组

本发明各种不同实施例提供一种包含碱基编辑器系统的套组。一项实施方案中，所述套组包含核酸构建体，其包含编码核碱基编辑器融合蛋白的核苷酸序列。所述融合蛋白包含脱氨酶(例如：腺苷脱氨酶)及核酸可编程DNA结合性蛋白质(napDNAbp)。有些实施方案中，所述套组包含至少一个可以靶向HBB的向导RNA。有些实施方案中，所述套组包含核酸构建体，其包含编码至少一个可以靶向HBB的向导RNA的核苷酸序列。

有些实施方案中，所述套组提供使用套组来编辑一个或多个突变(例如：HBB中突变)的说明书。所述说明书通常包括有关使用套组来编辑核酸分子的资讯。其他实施方案中，说明书包括下列至少一项：注意事项；警语；临床试验；及/或参考文献。说明书可以直接印在容器上(当有容器时)，或呈标示加在容器上，或呈分开的纸张、小册、卡片、或折页提供在容器内或和容器一起提供。其他实施方案中，套组可包含呈标示或分开插页(包装插页)的说明书，提供合适的操作参数。再另一项实施方案中，套组可包含一个或多个容器，内附适当的阳性和阴性对照物或对照样本，作为检测、校正、或正规化的标准物使用。套组可以进一步包含第二容器，其包含药学上可接受的缓冲剂，如：(无菌)磷酸盐缓冲生理食盐水、林格氏溶液、或右旋糖溶液。其可进一步包括从商业及使用者观点所需要的其他材料，包括其他缓冲剂、稀释剂、过滤器、针头、针筒、及附有使用说明书的包装插页。

带有内部插入的融合蛋白

本文提供的融合蛋白包含融合至核酸可编程核酸结合性蛋白质的异源性多肽，例如：napDNAbp。异源性多肽可以为非天然存在的多肽或为野生型napDNAbp多肽序列。异源性多肽可以融合至napDNAbp，在napDNAbp的C末端、napDNAbp的N末端、或插入napDNAbp的内部位置。有些实施方案中，异源性多肽是插入napDNAbp的内部位置。

有些实施方案中，异源性多肽为脱氨酶或其功能片段。例如：融合蛋白可包含侧接Cas9或Cas12(例如：Cas12b/C2c1)多肽的N末端片段和C末端片段的脱氨酶。融合蛋白中脱氨酶可为腺苷脱氨酶。有些实施方案中，腺苷脱氨酶为TadA(例如：TadA7.10或TadA*8)。有些实施方案中，TadA为TadA*8。如本文所述TadA序列(例如：TadA7.10或TadA*8)为适合上述融合蛋白的脱氨酶。

脱氨酶可为环状排列脱氨酶。例如：脱氨酶可为环状排列腺苷脱氨酶。有些实施方案中，脱氨酶为环状排列TadA，在TadA参考序列编号氨基酸残基116为环状排列。有些实施方案中，脱氨酶为环状排列TadA，在TadA参考序列编号氨基酸残基136为环状排列。有些实施方案中，脱氨酶为环状排列TadA，在TadA参考序列编号氨基酸残基65为环状排列。

融合蛋白可包含超过一个脱氨酶。融合蛋白可包含例如：1、2、3、4、5个或更多个脱氨酶。有些实施方案中，融合蛋白包含一个脱氨酶。有些实施方案中，融合蛋白包含两个脱氨酶。融合蛋白中两个或更多个脱氨酶可为腺苷脱氨酶、胞苷脱氨酶、或其组合，例如：如PCT/US19/44935中的说明。所述两个或更多个脱氨酶可为均二聚体。所述两个或更多个脱氨酶可为异源二聚体。所述两个或更多个脱氨酶可以串联插入napDNAbp中。有些实施方案中，所述两个或更多个脱氨酶可以不在napDNAbp中串联。

有些实施方案中，融合蛋白中的napDNAbp为Cas9多肽或其片段。Cas9多肽可为变体Cas9多肽。有些实施方案中，Cas9多肽为Cas9切口酶(nCas9)多肽或其片段。有些实施方案中，Cas9多肽为核酸酶灭活Cas9(dCas9)多肽或其片段。融合蛋白中的Cas9多肽可为全长Cas9多肽。有些例子中，融合蛋白中的Cas9多肽可能不为全长Cas9多肽。Cas9多肽可以截短，例如：在相对于天然Cas9蛋白质的N末端或C末端。Cas9多肽可为环状排列的Cas9蛋白质。Cas9多肽可为Cas9多肽的仍可结合靶多核苷酸及向导核酸序列的片段、一部份、或结构域。

有些实施方案中，Cas9多肽为化脓性链球菌(Streptococcus pyogenes)Cas9(SpCas9)、金黄色葡萄球菌(Staphylococcus aureus)Cas9(SaCas9)、嗜热链球菌(Streptococcus thermophilus)1Cas9(St1Cas9)、或其片段或变体。

融合蛋白的Cas9多肽可包含和天然Cas9多肽为至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致的氨基酸序列。

融合蛋白的Cas9多肽可包含和下文所示Cas9氨基酸序列(以下称为“Cas9参考序列”)为至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致的氨基酸序列：

(单一底线：HNH结构域；双重底线：RuvC结构域)

有些实施方案中，融合蛋白中的napDNAbp为Cas12多肽，例如：Cas12b/C2c1、或其片段。Cas12多肽可为变体Cas12多肽。

异源性多肽(例如：脱氨酶)可以插入napDNAbp(例如：Cas9或Cas12(例如：Cas12b/C2c1))中合适位置，例如：使得napDNAbp保留其结合靶多核苷酸及向导核酸的能力。脱氨酶(例如：腺苷脱氨酶)可以插入napDNAbp内，不会破坏脱氨酶(例如：碱基编辑活性)或napDNAbp的功能(例如：和靶核酸及向导核酸结合的能力)。脱氨酶(例如：腺苷脱氨酶)可以插入napDNAbp中，在例如：无序区或包含出现在晶体学试验中的高温因子或B-因子的一区。本发明可以在不破坏结构或功能下，使用次序较低、无序、或无结构的蛋白质区，例如：溶剂曝露区及环圈。脱氨酶(例如：腺苷脱氨酶)可插入napDNAbp中的柔性环圈区或溶剂曝露区。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入Cas9或Cas12b/C2c1多肽的柔性环圈中。

有些实施方案中，脱氨酶(例如：腺苷脱氨酶)的插入位置是由Cas9多肽的结晶结构的B-因子分析法决定。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入Cas9多肽中包含高于平均B-因子(例如：B-因子高于总蛋白质或包含无序区的蛋白质结构域)的一区。B-因子或温度因子可以指示原子从其平均位置的波动(例如：随温度变化的原子振动或晶格内的静态无序的结果)。主干原子的高B-因子(例如：高于平均B-因子)可以指示具有相对高度局部移动的一区。这一区可用于嵌插脱氨酶，不会破坏结构或功能。脱氨酶(例如：腺苷脱氨酶)可以插入在具有Cα原子的残基位置，其B-因子比蛋白质的平均B-因子高50％、60％、70％、80％、90％、100％、110％、120％、130％、140％、150％、160％、170％、180％、190％、200％、或超过200％。脱氨酶(例如：腺苷脱氨酶)可以插入在具有Cα原子的残基位置，其B-因子比包含所述残基的Cas9蛋白质结构域的平均B-因子高50％、60％、70％、80％、90％、100％、110％、120％、130％、140％、150％、160％、170％、180％、190％、200％或超过200％。包含高于平均B-因子的Cas9多肽位置可包括例如：残基768、792、1052、1015、1022、1026、1029、1067、1040、1054、1068、1246、1247、和1248(其是依上述Cas9参考序列中编号)。包含高于平均B-因子的Cas9多肽区可包括例如：残基792-872、792-906、和2-791(其是依上述Cas9参考序列中编号)。

异源性多肽(例如：脱氨酶)可以插入napDNAbp中位在选自由768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247、和1248(其是依上述Cas9参考序列中编号)所组成群组的氨基酸残基，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，异源性多肽是插入以下氨基酸位置之间：768-769、791-792、792-793、1015-1016、1022-1023、1026-1027、1029-1030、1040-1041、1052-1053、1054-1055、1067-1068、1068-1069、1247-1248、或1248-1249(其是依上述Cas9参考序列中编号)或其对应氨基酸位置。有些实施方案中，异源性多肽是插入以下氨基酸位置之间：769-770、792-793、793-794、1016-1017、1023-1024、1027-1028、1030-1031、1041-1042、1053-1054、1055-1056、1068-1069、1069-1070、1248-1249、或1249-1250(其是依上述Cas9参考序列中编号)或其对应氨基酸位置。有些实施方案中，异源性多肽置换选自由768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247、和1248(其是依上述Cas9参考序列中编号)所组成群组的氨基酸残基，或在另一种Cas9多肽中的对应氨基酸残基。应了解，在和插入位置相关提及的上述Cas9参考序列是供例示说明的目的。本文所讨论插入不限于上述Cas9参考序列的Cas9多肽序列，但包括在变体Cas9多肽(例如：Cas9切口酶(nCas9)、核酸酶灭活Cas9(dCas9)、缺少核酸酶结构域的Cas9变体、截短的Cas9、或缺少部份或完整HNH结构域的Cas9结构域)中的对应位置。

异源性多肽(例如：脱氨酶)可以插入napDNAbp中，在选自由768、792、1022、1026、1040、1068、和1247(其是依上述Cas9参考序列中编号)所组成群组的氨基酸残基，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，异源性多肽是插入以下氨基酸位置之间：768-769、792-793、1022-1023、1026-1027、1029-1030、1040-1041、1068-1069、或1247-1248(其是依上述Cas9参考序列中编号)或其对应氨基酸位置。有些实施方案中，异源性多肽是插入以下氨基酸位置之间：769-770、793-794、1023-1024、1027-1028、1030-1031、1041-1042、1069-1070、或1248-1249(其是依上述Cas9参考序列中编号)或其对应氨基酸位置。有些实施方案中，异源性多肽置换选自由768、792、1022、1026、1040、1068、和1247(其是依上述Cas9参考序列中编号)所组成群组的氨基酸残基，或在另一种Cas9多肽中的对应氨基酸残基。

异源性多肽(例如：脱氨酶)可插入napDNAbp中，在如本文所述的氨基酸残基，或在另一种Cas9多肽中的对应氨基酸残基。一项实施方案中，异源性多肽(例如：脱氨酶)可插入napDNAbp中，在选自由1002、1003、1025、1052-1056、1242-1247、1061-1077、943-947、686-691、569-578、530-539、和1060-1077(其是依上述Cas9参考序列中编号)所组成群组的氨基酸残基，或在另一种Cas9多肽中的对应氨基酸残基。脱氨酶(例如：腺苷脱氨酶)可插入在残基的N末端或C末端或置换所述残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在残基的C末端。

有些实施方案中，腺苷脱氨酶(例如：TadA)是插入在选自由1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052、和1246(其是依上述Cas9参考序列中编号)所组成群组的氨基酸残基，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，腺苷脱氨酶(例如：TadA)是插入以置换残基792-872、792-906、或2-791(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，腺苷脱氨酶是插入在选自由1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052、和1246(其是依上述Cas9参考序列中编号)所组成群组的氨基酸的N末端，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，腺苷脱氨酶是插入在选自由1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052、和1246(其是依上述Cas9参考序列中编号)所组成群组的氨基酸的C末端，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，腺苷脱氨酶是插入以置换选自由1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052、和1246(其是依上述Cas9参考序列中编号)所组成群组的氨基酸，或在另一种Cas9多肽中的对应氨基酸残基。

有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基768(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基768的N末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基768的C末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入以置换氨基酸残基768(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。

有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基791或是插入在氨基酸残基792(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基791的N末端或是插入在氨基酸792的N末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸791的C末端或是插入在氨基酸792的N末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入以置换氨基酸791、或是插入以置换氨基酸792(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。

有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1016(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1016的N末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1016的C末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入以置换氨基酸残基1016(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。

有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1022、或是插入在氨基酸残基1023(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1022的N末端或是插入在氨基酸残基1023的N末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1022的C末端或是插入在氨基酸残基1023的C末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入以置换氨基酸残基1022、或是插入以置换氨基酸残基1023(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。

有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1026、或是插入在氨基酸残基1029(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1026的N末端或是插入在氨基酸残基1029的N末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1026的C末端或是插入在氨基酸残基1029的C末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入以置换氨基酸残基1026、或是插入以置换氨基酸残基1029(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。

有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1040(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1040的N末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1040的C末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入以置换氨基酸残基1040(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。

有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1052、或是插入在氨基酸残基1054(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1052的N末端或是插入在氨基酸残基1054的N末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1052的C末端或是插入在氨基酸残基1054的C末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入以置换氨基酸残基1052、或是插入以置换氨基酸残基1054(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。

有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1067、或是插入在氨基酸残基1068、或是插入在氨基酸残基1069(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1067的N末端或是插入在氨基酸残基1068的N末端或是插入在氨基酸残基1069的N末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1067的C末端或是插入在氨基酸残基1068的C末端或是插入在氨基酸残基1069的C末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入以置换氨基酸残基1067、或是插入以置换氨基酸残基1068、或是插入以置换氨基酸残基1069(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。

有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1246、或是插入在氨基酸残基1247、或是插入在氨基酸残基1248(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1246的N末端或是插入在氨基酸残基1247的N末端或是插入在氨基酸残基1248的N末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入在氨基酸残基1246的C末端或是插入在氨基酸残基1247的C末端或是插入在氨基酸残基1248的C末端(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，脱氨酶(例如：腺苷脱氨酶)是插入以置换氨基酸残基1246、或是插入以置换氨基酸残基1247、或是插入以置换氨基酸残基1248(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。

有些实施方案中，异源性多肽(例如：脱氨酶)是插入Cas9多肽的柔性环圈内。柔性环圈部份可选自由530-537、569-570、686-691、943-947、1002-1025、1052-1077、1232-1247、或1298-1300(其是依上述Cas9参考序列中编号)所组成群组，或在另一种Cas9多肽中的对应氨基酸残基。柔性环圈部份可选自由1-529、538-568、580-685、692-942、948-1001、1026-1051、1078-1231、或1248-1297(其是依上述Cas9参考序列中编号)所组成群组，或在另一种Cas9多肽中的对应氨基酸残基。

异源性多肽(例如：腺嘌呤脱氨酶)可以插入对应于以下氨基酸残基的Cas9多肽区：1017-1069、1242-1247、1052-1056、1060-1077、1002–1003、943-947、530-537、568-579、686-691、1242-1247、1298–1300、1066-1077、1052-1056、或1060-1077(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。

异源性多肽(例如：腺嘌呤脱氨酶)可以插入以置换Cas9多肽的缺失区。所述缺失区可对应于Cas9多肽的N末端或C末端部份。有些实施方案中，所述缺失区对应于残基792-872(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，所述缺失区对应于残基792-906(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，所述缺失区对应于残基2-791(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。有些实施方案中，所述缺失区对应于残基1017-1069(其是依上述Cas9参考序列中编号)，或其对应氨基酸残基。

例举的内部融合碱基编辑器提供于下表14A，且亦说明于PCT/US20/16285中。

表14A：在Cas9蛋白质中的嵌插基因座

BE ID	修饰	其他ID
			IBE001	Cas9 TadA插入1015	ISLAY01
IBE002	Cas9 TadA插入1022	ISLAY02
			IBE003	Cas9 TadA插入1029	ISLAY03
IBE004	Cas9 TadA插入1040	ISLAY04
			IBE005	Cas9 TadA插入1068	ISLAY05
IBE006	Cas9 TadA插入1247	ISLAY06
			IBE007	Cas9 TadA插入1054	ISLAY07
IBE008	Cas9 TadA插入1026	ISLAY08
			IBE009	Cas9 TadA插入768	ISLAY09
IBE020	δHNH TadA 792	ISLAY20
			IBE021	N末端融合单一TadA螺旋截短的165-端	ISLAY21
IBE029	TadA-环状排列116插入1067	ISLAY29
			IBE031	TadA-环状排列136插入1248	ISLAY31
IBE032	TadA-环状排列136插入1052	ISLAY32
			IBE035	δ792-872TadA插入	ISLAY35
IBE036	δ792-906TadA插入	ISLAY36
			IBE043	TadA-环状排列65插入1246	ISLAY43
IBE044	TadA插入C末端截短2791	ISLAY44

异源性多肽(例如：脱氨酶)可以插入Cas9多肽的结构性或功能性结构域。异源性多肽(例如：脱氨酶)可以插入Cas9多肽的两个结构性或功能性结构域之间。异源性多肽(例如：脱氨酶)可以插入以置换Cas9多肽的结构性或功能性结构域，例如：在从Cas9多肽缺失结构域之后。Cas9多肽的结构性或功能性结构域可包括例如：RuvC I、RuvC II、RuvC III、Rec1、Rec2、PI、或HNH。

有些实施方案中，Cas9多肽缺少选自由RuvC I、RuvC II、RuvC III、Rec1、Rec2、PI、或HNH结构域所组成群组的一个或多个结构域。有些实施方案中，Cas9多肽缺少核酸酶结构域。有些实施方案中，Cas9多肽缺少HNH结构域。有些实施方案中，Cas9多肽缺少一部份HNH结构域，因此所述Cas9多肽已降低或废除HNH活性。

有些实施方案中，Cas9多肽包含缺失核酸酶结构域，及以脱氨酶插入以置换所述核酸酶结构域。有些实施方案中，HNH结构域已缺失，及以脱氨酶插入其位置。有些实施方案中，一个或多个RuvC结构域已缺失，及以脱氨酶插入其位置。

包含异源性多肽的融合蛋白可以侧接napDNAbp的N末端和C末端片段。有些实施方案中，融合蛋白包含侧接Cas9多肽的N末端片段和C末端片段的脱氨酶。N末端片段或C末端片段可以结合靶多核苷酸序列。N末端片段的C末端或C末端片段的N末端可包含Cas9多肽的一部份柔性环圈。N末端片段的C末端或C末端片段的N末端可包含Cas9多肽的一部份α-螺旋结构。N末端片段或C末端片段可包含DNA结合结构域。所述N末端片段或C末端片段可包含RuvC结构域。N末端片段或C末端片段可包含HNH结构域。有些实施方案中，N末端片段和C末端片段均不包含HNH结构域。

有些实施方案中，当融合蛋白使靶核碱基脱氨时，N末端Cas9片段的C末端包含邻近靶核碱基的氨基酸。有些实施方案中，当融合蛋白使靶核碱基脱氨时，C末端Cas9片段的N末端包含邻近靶核碱基的氨基酸。不同脱氨酶的嵌插位置可以不同，以便邻近靶核碱基和N末端Cas9片段的C末端或C末端Cas9片段的N末端的氨基酸之间。例如：ABE的嵌插位置可在选自由1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052、和1246(其是依上述Cas9参考序列中编号)所组成群组的氨基酸残基，或在另一种Cas9多肽中的对应氨基酸残基。

融合蛋白的N末端Cas9片段(亦即侧接融合蛋白中脱氨酶的N末端Cas9片段)可包含Cas9多肽的N末端。融合蛋白的N末端Cas9片段可包含的长度为至少约：100、200、300、400、500、600、700、800、900、1000、1100、1200、或1300个氨基酸。融合蛋白的N末端Cas9片段可包含对应于下列氨基酸残基的序列：1-56、1-95、1-200、1-300、1-400、1-500、1-600、1-700、1-718、1-765、1-780、1-906、1-918、或1-1100(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。N末端Cas9片段可包含和下列氨基酸残基：1-56、1-95、1-200、1-300、1-400、1-500、1-600、1-700、1-718、1-765、1-780、1-906、1-918、或1-1100(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基为至少：85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％序列一致性的序列。

融合蛋白的C末端Cas9片段(亦即侧接融合蛋白脱氨酶的C末端Cas9片段)可包含Cas9多肽的C末端。融合蛋白的C末端Cas9片段可包含的长度为至少约：100、200、300、400、500、600、700、800、900、1000、1100、1200、或1300个氨基酸。融合蛋白的C末端Cas9片段可包含对应于下列氨基酸残基的序列：1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368、或56-1368(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基。N末端Cas9片段可包含和下列氨基酸残基：1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368、或56-1368(其是依上述Cas9参考序列中编号)，或在另一种Cas9多肽中的对应氨基酸残基具有至少：85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％序列一致性的序列。

融合蛋白的N末端Cas9片段和C末端Cas9片段的总和不一定对应于全长的天然Cas9多肽序列，例如：上述Cas9参考序列所示。

本文所说明融合蛋白可以达成靶向脱氨，并降低对非靶位点(例如：脱靶位点)的脱氨，因而降低基因体广泛的虚假脱氨。本文所说明融合蛋白可以达成靶向脱氨，并降低对非靶位点的旁观者脱氨。不需要的脱氨或脱靶脱氨可以相较于例如：包含脱氨酶融合至Cas9多肽的N末端或C末端的末端融合蛋白降低至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、或至少99％。不需要的脱氨或脱靶脱氨可以相较于例如：包含脱氨酶融合至Cas9多肽的N末端或C末端的末端融合蛋白降低至少1倍、至少2倍、至少3倍、至少4倍、至少5倍、至少10倍、至少15倍、至少20倍、至少30倍、至少40倍、至少50倍、至少60倍、至少70倍、至少80倍、至少90fold、或至少100倍。

有些实施方案中，融合蛋白的脱氨酶(例如：腺苷脱氨酶)使R-环圈范围内的不超过两个核碱基进行脱氨。有些实施方案中，融合蛋白的脱氨酶使R-环圈范围内的不超过三个核碱基进行脱氨。有些实施方案中，融合蛋白的脱氨酶使R-环圈范围内的不超过2、3、4、5、6、7、8、9、或10个核碱基进行脱氨。R-环圈为三链核酸结构，包括DNA：RNA杂交、DNA：DNA或RNA：RNA互补结构，并和单链DNA相联。本文所采用的R-环圈可在靶多核苷酸和CRISPR复合物或碱基编辑复合物接触时形成，其中一部份向导多核苷酸，例如：向导RNA，会和一部份靶多核苷酸，例如：靶DNA杂交，并置换。有些实施方案中，R-环圈包含间隔子序列和靶DNA互补序列的杂交区。R-环圈区的长度可为约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、或50个核碱基对。有些实施方案中，R-环圈区的长度为约20个核碱基对。应理解，本文所采用R-环圈区不限于会和向导多核苷酸杂交的靶DNA链。例如：在R-环圈区内靶核碱基的编辑可以为包含向导RNA的互补链的DNA链，或可为向导RNA的互补链的相反DNA链。有些实施方案中，在R-环圈中一区的编辑包括编辑非互补链(原型间隔子链)上的核碱基形成靶DNA序列的向导RNA。

本文所说明融合蛋白可以在不同于典型碱基编辑的编辑窗口上进行靶脱氨。有些实施方案中，靶核碱基是在靶多核苷酸序列中PAM序列上游约1至约20个碱基。有些实施方案中，靶核碱基是在靶多核苷酸序列中PAM序列上游约2至约12个碱基。有些实施方案中，靶核碱基是和PAM序列距离或在其上游约1至9个碱基对、约2至10个碱基对、约3至11个碱基对、约4至12个碱基对、约5至13个碱基对、约6至14个碱基对、约7至15个碱基对、约8至16个碱基对、约9至17个碱基对、约10至18个碱基对、约11至19个碱基对、约12至20个碱基对、约1至7个碱基对、约2至8个碱基对、约3至9个碱基对、约4至10个碱基对、约5至11个碱基对、约6至12个碱基对、约7至13个碱基对、约8至14个碱基对、约9至15个碱基对、约10至16个碱基对、约11至17个碱基对、约12至18个碱基对、约13至19个碱基对、约14至20个碱基对、约1至5个碱基对、约2至6个碱基对、约3至7个碱基对、约4至8个碱基对、约5至9个碱基对、约6至10个碱基对、约7至11个碱基对、约8至12个碱基对、约9至13个碱基对、约10至14个碱基对、约11至15个碱基对、约12至16个碱基对、约13至17个碱基对、约14至18个碱基对、约15至19个碱基对、约16至20个碱基对、约1至3个碱基对、约2至4个碱基对、约3至5个碱基对、约4至6个碱基对、约5至7个碱基对、约6至8个碱基对、约7至9个碱基对、约8至10个碱基对、约9至11个碱基对、约10至12个碱基对、约11至13个碱基对、约12至14个碱基对、约13至15个碱基对、约14至16个碱基对、约15至17个碱基对、约16至18个碱基对、约17至19个碱基对、约18至20个碱基对。有些实施方案中，靶核碱基是和PAM序列距离或在其上游约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、或更多个碱基对。有些实施方案中，靶核碱基是在PAM序列上游约1、2、3、4、5、6、7、8、或9个碱基对。有些实施方案中，靶核碱基是在PAM序列上游约2、3、4、或6个碱基对。

融合蛋白可包含超过一个异源性多肽。例如：融合蛋白可额外包含一个或多个UGI结构域和/或一个或多个核定位讯号。两个或更多个异源性结构域可以串联插入。两个或更多个异源性结构域的插入位置可以使其等不在NapDNAbp中呈串联。

融合蛋白可包含在脱氨酶和napDNAbp多肽之间的连接子。连接子可为肽或非-肽连接子。例如：连接子可为XTEN、(GGGS)n、(GGGGS)n、(G)n、(EAAAK)n、(GGS)n、SGSETPGTSESATPES。有些实施方案中，融合蛋白包含在N末端Cas9片段和脱氨酶之间的连接子。有些实施方案中，融合蛋白包含在C末端Cas9片段和脱氨酶之间的连接子。有些实施方案中，napDNAbp的N末端和C末端片段利用连接子连结成脱氨酶。有些实施方案中，N末端和C末端片段没有连接子即接合成的脱氨酶结构域。有些实施方案中，融合蛋白包含在N末端Cas9片段和脱氨酶之间的连接子，但不包含在C末端Cas9片段和脱氨酶之间的连接子。有些实施方案中，融合蛋白包含在C末端Cas9片段和脱氨酶之间的连接子，但不包含在N末端Cas9片段和脱氨酶之间的连接子。

其他实施方案中，Cas12多肽的N-或C末端片段包含核酸可编程DNA结合结构域或RuvC结构域。其他实施方案中，融合蛋白包含在Cas12多肽和催化性结构域之间的连接子。其他实施方案中，连接子的氨基酸序列为GGSGGS或GSSGSETPGTSESATPESSG。其他实施方案中，连接子为刚硬连接子。上述实施例的其他实施方案中，连接子是由以下编码：GGAGGCTCTGGAGGAAGC或GGCTCTTCTGGATCTGAAACACCTGGCACAAGCGAGAGCGCCACCCCTGAGAGCTCTGGC。

包含Cas9或Cas12多肽的N-及C末端片段的异源性催化性结构域的融合蛋白亦适用于如本文所述方法中的碱基编辑。包含Cas9或Cas12及一个或多个脱氨酶结构域，例如：腺苷脱氨酶、或包含侧接Cas9或Cas12序列的腺苷脱氨酶结构域的融合蛋白亦适用于以高度特异性及效能进行靶序列的碱基编辑。一项实施方案中，嵌合Cas9或Cas12融合蛋白包含插入Cas12多肽内的异源性催化性结构域。

各种不同实施方案中，催化性结构域具有DNA修饰活性(例如：脱氨酶活性)，如：腺苷脱氨酶活性。有些实施方案中，腺苷脱氨酶为TadA(例如：TadA7.10)。有些实施方案中，TadA为TadA*8。其他实施方案中，融合蛋白包含一个或多个催化性结构域。其他实施方案中，一个或多个催化性结构域中至少一个是插入Cas12多肽内或是在Cas12 N末端或C末端融合。其他实施方案中，一个或多个催化性结构域中至少一个是插入Cas12多肽的环圈、α螺旋区、非结构化部份、或溶剂可触及部份内。其他实施方案中，Cas12多肽为Cas12a、Cas12b、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、或Cas12i。其他实施方案中，Cas12多肽具有和外村尚芽孢杆菌(Bacillus hisashii)Cas12b、热嗜淀粉芽孢杆菌(Bacillusthermoamylovorans)Cas12b、芽孢杆菌(Bacillus sp.)V3-13 Cas12b、或酸性脂环酸芽孢杆菌(Alicyclobacillus acidiphilus)Cas12b至少约85％氨基酸序列一致性。其他实施方案中，Cas12多肽具有和外村尚芽孢杆菌(Bacillus hisashii)Cas12b、热嗜淀粉芽孢杆菌(Bacillus thermoamylovorans)Cas12b、芽孢杆菌(Bacillus sp.)V3-13 Cas12b、或酸性脂环酸芽孢杆菌(Alicyclobacillus acidiphilus)Cas12b至少约90％氨基酸序列一致性。其他实施方案中，Cas12多肽具有和外村尚芽孢杆菌(Bacillus hisashii)Cas12b、热嗜淀粉芽孢杆菌(Bacillus thermoamylovorans)Cas12b、芽孢杆菌属(Bacillus sp.)V3-13Cas12b、或酸性脂环酸芽孢杆菌(Alicyclobacillus acidiphilus)Cas12b至少约95％氨基酸序列一致性。其他实施方案中，Cas12多肽包含或基本上组成外村尚芽孢杆菌(Bacillushisashii)Cas12b、热嗜淀粉芽孢杆菌(Bacillus thermoamylovorans)Cas12b、芽孢杆菌属(Bacillus sp.)V3-13Cas12b、或酸性脂环酸芽孢杆菌(Alicyclobacillus acidiphilus)Cas12b的片段。

其他实施方案中，催化性结构域是插入BhCas12b的以下氨基酸位置之间：153-154、255-256、306-307、980-981、1019-1020、534-535、604-605、或344-345或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、或Cas12i的对应氨基酸残基。其他实施方案中，催化性结构域是插入BhCas12b的氨基酸P153和S154之间。其他实施方案中，催化性结构域是插入BhCas12b的氨基酸K255和E256之间。其他实施方案中，催化性结构域是插入BhCas12b的氨基酸D980和G981之间。其他实施方案中，催化性结构域是插入BhCas12b的氨基酸K1019和L1020之间。其他实施方案中，催化性结构域是插入BhCas12b的氨基酸F534和P535之间。其他实施方案中，催化性结构域是插入BhCas12b的氨基酸K604和G605之间。其他实施方案中，催化性结构域是插入BhCas12b的氨基酸H344和F345之间。其他实施方案中，催化性结构域是插入BvCas12b的以下氨基酸位置之间：147和148、248和249、299和300、991和992、或1031和1032或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、或Cas12i的对应氨基酸残基。其他实施方案中，催化性结构域是插入BvCas12b的氨基酸P147和D148之间。其他实施方案中，催化性结构域是插入BvCas12b的氨基酸G248和G249之间。其他实施方案中，催化性结构域是插入BvCas12b的氨基酸P299和E300之间。其他实施方案中，催化性结构域是插入BvCas12b的氨基酸G991和E992之间。其他实施方案中，催化性结构域是插入BvCas12b的氨基酸K1031和M1032之间。其他实施方案中，催化性结构域是插入AaCas12b的以下氨基酸位置之间：157和158、258和259、310和311、1008和1009、或1044和1045或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、或Cas12i的对应氨基酸残基。其他实施方案中，催化性结构域是插入AaCas12b的氨基酸P157和G158之间。其他实施方案中，催化性结构域是插入AaCas12b的氨基酸V258和G259之间。其他实施方案中，催化性结构域是插入AaCas12b的氨基酸D310和P311之间。其他实施方案中，催化性结构域是插入AaCas12b的氨基酸G1008和E1009之间。其他实施方案中，催化性结构域是插入AaCas12b的氨基酸G1044和K1045之间。

其他实施方案中，融合蛋白包含核定位讯号(例如：二分核定位讯号)。其他实施方案中，核定位讯号的氨基酸序列为MAPKKKRKVGIHGVPAA。上述实施例的其他实施方案中，核定位讯号是由下列序列编码：

ATGGCCCCAAAGAAGAAGCGGAAGGTCGGTATCCACGGAGTCCCAGCAGCC。其他实施方案中，Cas12b多肽包含会静默RuvC结构域的催化性活性的突变。其他实施方案中，Cas12b多肽包含D574A、D829A和/或D952A突变。其他实施方案中，融合蛋白进一步包含标签(例如：流感血球凝集素标签)。

有些实施方案中，融合蛋白包含具有内部融合核碱基编辑结构域(例如：全部或一部份脱氨酶结构域，例如：腺苷脱氨酶结构域)的napDNAbp结构域(例如：Cas12衍生的结构域)。有些实施方案中，napDNAbp为Cas12b。有些实施方案中，碱基编辑器包含具有插入在下表14B所提供基因座的内部融合TadA*8结构域的Cas12结构域(例如：BhCas12b结构域、BvCas12b结构域、或AACas12b结构域)。

表14B：Cas12b蛋白质中的嵌插基因座

BhCas12b	嵌插位点	插入aa之间
			位置1	153	PS
位置2	255	KE
			位置3	306	DE
位置4	980	DG
			位置5	1019	KL
位置6	534	FP
			位置7	604	KG
位置8	344	HF

BvCas12b	嵌插位点	插入aa之间
			位置1	147	PD
位置2	248	GG
			位置3	299	PE
位置4	991	GE
			位置5	1031	KM

			AaCas12b	嵌插位点	插入aa之间
位置1	157	PG
			位置2	258	VG
位置3	310	DP
			位置4	1008	GE
位置5	1044	GK

在非限制性实例中，腺苷脱氨酶(例如：ABE8.13)可以插入BhCas12b中，产生有效编辑核酸序列(如：包含镰状细胞病(SCD)相关的单核苷酸多态性(SNP)的核酸序列)的融合蛋白(例如：ABE8.13-BhCas12b)。一项实施方案中，所述核酸序列编码HBB多肽。

亦在非限制性实例下，融合蛋白说明于美国临时申请案案号62/852,228及62/852,224，其等内容已以全文引用方式并入本文中。

除非另有说明，否则本发明的操作法采用分子生物学(包括重组技术)、微生物学、细胞生物学、生物化学、及免疫学的惯用技术，其等是本领域技术人员的范围内。此等技术将完整说明于文献中，如：“Molecular Cloning:A Laboratory Manual”，第二版(Sambrook,1989)；“Oligonucleotide Synthesis”(Gait,1984)；“Animal Cell Culture”(Freshney,1987)；“Methods in Enzymology”“Handbook of Experimental Immunology”(Weir,1996)；“Gene Transfer Vectors for Mammalian Cells”(Miller及Calos,1987)；“Current Protocols in Molecular Biology”(Ausubel,1987)；“PCR:The PolymeraseChain Reaction”,(Mullis,1994)；“Current Protocols in Immunology”(Coligan,1991)。此等技术适用于生产本发明多核苷酸和多肽，因此可考虑用于制造及操作本发明。特别适用于特定实施方案的技术将可由下列章节中的讨论了解。

出示下列实例，为彼等本领域技术人员提供完整揭示内容及说明如何制造及使用本发明分析法、筛选法、及医疗方法，并无意限制本发明者的发明范围。

实例

实例1：提高编辑效能的腺苷碱基编辑器

包括Tad7.10-dCas9融合蛋白的碱基编辑系统可以编辑靶多核苷酸，效能约10-20％，但其用途可能受到要求更高效能的用途的限制。在致力判别具有提高效能及特异性的腺嘌呤碱基编辑器时，由包含腺苷脱氨酶TadA 7.10的构建体经过容易出错的PCR诱变，接着选殖至邻接编码dCas9的核酸序列、核酸可编程DNA结合性蛋白质的表达载体中(图1A)。所述包含腺苷脱氨酶变体的表达载体则和编码氯霉素抗性(CamR)及奇霉素抗性(SpectR)且具有经过两个点突变而无功能的卡那霉素抗性基因(第7轮演化策略)的选择质粒共同转形至适格细菌细胞中(图1B)。选择细胞以恢复卡那霉素抗性，可由其读出腺苷脱氨酶活性。在后续几轮选择中，由表达载体和编码氯霉素抗性(CamR)及奇霉素抗性(SpectR)且具有经过三个点突变而无功能的卡那霉素抗性基因(第8轮演化策略)的质粒共同转形至适格细胞中(图1C)。

失活卡那霉素抗性基因核酸序列提供如下：

上述序列中，小写代表卡那霉素抗性启动子区，粗体序列是指示被靶向的失活部份(Q4*及W15*)，斜体序列代表被靶向的卡那霉素抗性基因失活位点(D208N)，及底线序列代表PAM序列。

再次，取细胞涂布在一是列逐渐提高卡那霉素浓度的琼脂盘上。如图2所示，具有有效碱基编辑活性的腺苷脱氨酶变体可以修正出现在卡那霉素抗性基因中的突变，并选择供进一步分析。在细菌细胞中显示有效碱基编辑的腺苷脱氨酶变体碱基编辑器说明于表14。产生编码包含所选择腺苷脱氨酶变体的碱基编辑器的哺乳动物表达载体。

采用包含E6V(亦称为E7V)突变的表达镰状细胞病相关的β-珠蛋白蛋白质的Hek293T细胞来测试腺苷脱氨酶变体的编辑效能(图3A及3B)。此等称为“Hek293T/HBBE6V”细胞的细胞使用表达碱基编辑系统的慢病毒载体进行转导，所述碱基编辑系统则包括包含表15所列ABE8的融合蛋白。ABE8的产生是选殖腺苷脱氨酶变体至包括环状排列Cas9及二分核定位序列的骨架中。环状排列Cas9是本领域已知的，且说明于例如：Oakes等人，Cell176,254–267,2019。此等序列提供于下文中。

上调胎儿血红素为克服镰状细胞病的医疗手段。图3A出示上调胎儿血红素的医疗相关位点。在残基5及8编辑腺苷可以显著降低BCL11A结合，由此提高胎儿血红素的表达。提及图3A，ABE8具有的碱基编辑活性比碱基编辑器ABE7.10高约2–3倍。

表15：新颖腺嘌呤碱基编辑器ABE8

质粒ID	说明	功能
			280	ABE8.1	单体_TadA*7.10+Y147T
281	ABE8.2	单体_TadA*7.10+Y147R
			282	ABE8.3	单体_TadA*7.10+Q154S
283	ABE8.4	单体_TadA*7.10+Y123H
			284	ABE8.5	单体_TadA*7.10+V82S
285	ABE8.6	单体_TadA*7.10+T166R
			286	ABE8.7	单体_TadA*7.10+Q154R
287	ABE8.8	单体_Y147R_Q154R_Y123H
			288	ABE8.9	单体_Y147R_Q154R_I76Y
289	ABE8.10	单体_Y147R_Q154R_T166R
			290	ABE8.11	单体_Y147T_Q154R
291	ABE8.12	单体_Y147T_Q154S
			292	ABE8.13	单体_H123Y123H_Y147R_Q154R_I76Y
293	ABE8.14	异源二聚体_TadA*7.10+Y147T
			294	ABE8.15	异源二聚体_TadA*7.10+Y147R
295	ABE8.16	异源二聚体_TadA*7.10+Q154S
			296	ABE8.17	异源二聚体_TadA*7.10+Y123H
297	ABE8.18	异源二聚体_TadA*7.10+V82S
			298	ABE8.19	异源二聚体_TadA*7.10+T166R
299	ABE8.20	异源二聚体_TadA*7.10+Q154R
			300	ABE8.21	异源二聚体_Y147R_Q154R_Y123H
301	ABE8.22	异源二聚体_Y147R_Q154R_I76Y
			302	ABE8.23	异源二聚体_Y147R_Q154R_T166R
303	ABE8.24	异源二聚体_Y147T_Q154R
			304	ABE8.25	异源二聚体_Y147T_Q154S

提及图4，由ABE8和靶向编码HBB E6V的多核苷酸的18、19、20、21、或22个核苷酸的向导RNA一起引进Hek293T/HBBE6V细胞中。当融合至环状排列(Cp)-Cas9时，ABE8编辑器显示提高的编辑效能。共测试40种不同ABE8构建体(表16)及三种ABE7.10构建体在Hek293T/HBBE6V细胞中的编辑活性。所例举构建体的序列如下。为了评估编辑特异性，监测靶和非预期或旁观者突变(图5)。密码子5中腺苷的非预期编辑已静默。然而，密码子9的非预期编辑造成丝氨酸形成脯氨酸的突变。再度提及图5，相较于ABE7.10编辑器，多种ABE8显示提高的编辑效能及特异性，且没有任何编辑器具有造成丝氨酸形成脯氨酸错义突变的显著旁观者编辑。

进一步在包含镰状细胞突变的纤维母细胞中分析所选择ABE8和ABE7.10对照物。如图6所示，ABE8编辑器具有比ABE7.10提高的碱基编辑活性。ABE8.18显示约70％效能。所选择ABE8编辑器亦展现空前的特异性。重点是所有ABE8编辑器形成的平均插入/缺失(INDEL)低于0.1％。

表16：

实例2：供治疗血液疾患的腺嘌呤碱基编辑器

镰状细胞病(SCD)影响美国约100,000位患者。同时带有SCD突变及造成胎儿血红素持续症(HPFH)突变二者的个体通常因持续性胎儿血红素(HbF)程度不会出现镰状细胞病变。越高的HbF含量是和罹患血液疾病的个体受益的程度越大呈相关性，如：降低疾病症状及改善总体健康。HGB启动子中-198位置的T形成C的突变会因干扰和γ-珠蛋白抑制子蛋白质，如：BCL11A的结合而造成HPFH。

在人类造血干细胞(HSC)中评估ABE8构建体。在投药给患者的前先于体外操纵及/或编辑HSC为一种治疗血液疾患的可靠细胞疗法。过去曾证实ABE可在HBG1/2的启动子区的-198位置引进T形成C的取代(Gaudelli,N.M.等人，Programmable base editing of A*Tto G*C in genomic DNA without DNA cleavage.Nature 551,464-471,doi:10.1038/nature24644(2017))。此天然对偶基因产生遗传性胎儿血红素持续症(HPFH)，造成γ-珠蛋白含量提高直到成年，会缓解出现在镰状细胞病及β-地中海型贫血中的β-珠蛋白缺陷(Wienert,B.等人，KLF1 drives the expression of fetal hemoglobin in BritishHPFH.Blood 130,803-807,doi:10.1182/blood-2017-02-767400(2017))。以再现HPFH表型及评估ABE8的临床相关性为目标，从两位供体单离CD34+造血干细胞，使用编码ABE8编辑器的mRNA转染，及以末端经修饰的sgRNA置换原型间隔子内位置7的靶A。

在-198HBG1/2启动子靶位点的平均ABE8编辑效能比在早期时间点(48h)的ABE7.10构建体高2-3倍，且比在晚期时间(144h)的ABE7.10高1.3-2倍(图7B；图8A及图8B；图9)。图7A图解显示HBG1/2启动子靶位点。图7C出示在CD34+细胞中的ABE8编辑使分化的红血球形成的γ-珠蛋白提高约1.4倍(ABE8.13-d造成表达55％γ-珠蛋白/α-珠蛋白)。此等动力学差异对体外疗法很重要，因为在施用细胞疗法的前，必需保持在最基本的细胞培养。

其次，采用UPLC定量ABE处理及红血球分化后的γ-珠蛋白蛋白质产量(图10-图30)。当和模拟组细胞比较时，衍生自ABE8处理组的红血球观察到γ-珠蛋白/α-珠蛋白表达％平均提高3.5倍，及当和ABE7.10-m/d达到的程度相比，观察到ABE8.13-d提高1.4倍(图7B)。

进一步于图37、图40、图43A、图43B、图44A及图44B中证实ABE8编辑器的编辑效能及中靶编辑(例如：在镰状细胞(HbS)对偶基因的核苷酸位置9G)。

预估需要≥20％ HbF才能缓解镰状细胞病状，且β-地中海型贫血患者很可能需要甚至更高的基本量(参见例如：Canver,M.C.&Orkin,S.H.Customizing the genome astherapy for the beta-hemoglobinopathies.Blood 127,2536-2545,doi:10.1182/blood-2016-01-678128(2016)；Fitzhugh,C.D.等人，Blood,130,1946-1948,doi：10.1182/blood-2017-03-772392(2017))。继ABE8处理之后观察到γ-珠蛋白含量已超过此HbF临限值。

总言之，ABE8在γ-珠蛋白基因HBG1和HBG2的启动子再度创造一个天然遗传性胎儿血红素持续症(HPFH)对偶基因，在人类CD34+细胞培养物中达成高达60％的编辑效能及在分化的红血球中达成对应上调γ珠蛋白表达(图34A、图34B、图35A-图35C)。

实例3：治疗镰状细胞病和乙型地中海型贫血(β-地中海型贫血)的互补碱基编辑法

镰状细胞病(SCD)及乙型地中海型贫血为β珠蛋白的制造及功能的疾患，造成严重贫血及在多重器官系统造成严重疾病并发症。透过上调胎儿血红素(HbF)或修正β珠蛋白基因而工程化的自体移植造血干细胞具有降低β血红素病变患者的疾病负担的潜力。碱基编辑为最近发展的技术，其可以精准修饰基因体，不需引进双链DNA断裂。

利用胞嘧啶及腺嘌呤碱基编辑器(ABE)全面筛选γ珠蛋白基因启动子，判别会压制HbF的修改。判别出三区显著上调HbF，最有效的核苷酸残基转换是由出现在遗传性胎儿血红素持续症(HPFH)患者中的天然变异所支持。ABE已经发展成在HBG1及HBG2(HBG1/2)启动子内的关键调节基序上，在核苷酸转换后显著提高HbF含量。CD34+造血干细胞及祖细胞细胞(HSPC)是依临床规格纯化，及使用设计在于保留自我更新容量的过程进行编辑。在两个独立位点使用不同ABE的编辑达到94百分比，并由UPLC测得高达63百分比γ珠蛋白的结果(图31A-图31E)。依据HPFH及非介入性疗法的临床观察到HbF剂量越高和疾病越轻的相关性，所观察到的HbF含量应可保护大多数SCD及β-地中海型贫血患者(Ngo等人，2011Brit JHem,Vol.156(2):259-264；Musallam等人，2012Blood)。因此，本文说明的HPFH方法中，采用碱基编辑，在瓦解抑制子结合并提高胎儿血红素(HbF)表达的两种γ珠蛋白基因(HBG1及HBG2)的调节区中重新创造单一碱基改变。天然带有此等变体的乙型地中海型贫血或镰状细胞病患者经常没有症状或经历较温和型疾病。来自健康供体及镰状性状供体的CD34+细胞在碱基编辑后，于试管内进行红血球分化，造成HbF含量超过60％，预期具临床相关性。

HbG-Makassar

直接修正SCD的Glu6Val突变已成为最近设计用在SCD族群中的遗传疗法的目标。目前碱基编辑技术尚无法转换彼等在镰状β珠珠蛋白中的A-T倒转所造成的突变；然而，ABE变体已经设计用于辨识及编辑缬氨酸的相反链腺嘌呤残基。此造成缬氨酸转换成丙氨酸，并产生天然变体，称为Hb G-Makassar。在此位置具有丙氨酸的β珠蛋白不会形成聚合物，且Hb G-Makassar患者是无症状，其等具有正常血液参数及红血球细胞型态。

ABE碱基编辑器，如：本文说明的ABE8(参见例如：表7、表14及图36A-图36C；图37-图39)是用于直接转换镰状细胞病致病性点突变(E6V)成为无症状天然变体(E6A)，亦称为Hb G-Makassar。带有Hb G-Makassar变体的个体没有聚合化物(镰刀型)，且无症状。SCD患者纤维母细胞使用此等ABE变体编辑，使靶腺嘌呤的转换达到70百分比(图32A)。来自健康供体的CD34+细胞再使用先导ABE变体编辑，靶向留在编辑窗口内相邻脯氨酸上的同义突变，并代理(proxy)编辑SCD突变。平均编辑频率为40百分比(图32B)。此外，在电穿孔后96小时，在位置9G达到超过50％的碱基编辑(图40、图43A及图43B；及

图44A及图44B)。在异体移植设定中，在此等阶段记录的供体骨髓性嵌合体超过20百分比，其是逆转镰状表型所必需(Fitzhugh等人，2017Blood)。

使用如本文所述包含腺苷脱氨酶变体(例如：ABE8)的碱基编辑器对HbS靶位点进行碱基编辑后，使用来自SCD患者样本(同型合子或杂合子HbSS样本)细胞(CD34+)，并采用UHPLC分析已编辑的样本，清楚描绘来自HbS珠蛋白变体的Hb-G-Makassar变体珠蛋白的独特波峰(图41A、图45、图46A及图47)，其是由细胞中造成镰状细胞病的点突变(E6V)直接转换成无症状天然变体(E6A)的结果。依据所编辑杂合子样本的分子量，对应于Val→Ala取代的不同β珠蛋白(Hb)变体可采用UHPLC区分。编辑波峰的LC-MS分析亦显示独特β珠蛋白变体的存在(图41B、图46B及图47)。UHPLC及LC-MS分析法检测从突变株HbS镰状细胞点突变(E6V)编辑成无症状Hb G-Makassar变体(E6A)，因此证实成功编辑致病性镰状细胞变体(HbS)形成无症状且无致病性的Hb G-Makassar变体。

HPFH编辑试验中，合适的gRNA序列(5′至3′)是由下列序列代表：

mCsmUsmUsGACCAAUAGCCUUGACAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUsmUsmUsmU

上述序列中，修饰如下：“mC”为2'-O-甲基胞苷；“mU”为2'-O-甲基尿苷；及“s”是指示硫代磷酸酯的位置。通常理解，修饰的代码不是标准。因此，分开的代码通常用于Makassar及HPFH sgRNA向导序列。或者，采用和Makassar序列相同命名的HPFH序列如下：

csususGACCAAUAGCCUUGACAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUsususu

靶序列，包括已编辑碱基5及8(粗体)及PAM：

实例4：在SCD CD34+细胞中减少HbS及上调HbF

由来自SCD患者的CD34+细胞使用电穿孔法，经过ABE8.8 mRNA及sgRNA(HBG1/2，50nM)转染。已编辑细胞于试管内内分化成红血球细胞。采用次世代基因体定序法(NGS)测定在HBG1/2启动子的编辑率。在分化后48小时，观察到ABE8.8碱基编辑器为16.5％编辑，及在分化后第14天测定到89.2％编辑(图34A)。亦在分化后48小时及第14天显示已瓦解旁观者编辑(图34B)。

于经过编辑的SCD CD34+细胞中的HbF上调及HbS下调的功能性读出结果示于图35A-图35D。于分化后第18天分析已编辑的SCD CD34+细胞分化成红血球细胞及珠蛋白的含量。采用UHPLC分析从未编辑的SCD CD34+细胞分化的红血球细胞中的珠蛋白含量。图35B出示从已编辑的SCD CD34+细胞分化的红血球细胞中的珠蛋白含量。相对于未编辑细胞，在从已编辑的SCD CD34+细胞分化的红血球细胞中检测到63.2％γ珠蛋白含量(图35C)。相对于未编辑细胞，从已编辑的SCD CD34+细胞分化的S珠蛋白从86％降至32.9％(图35D)。上调胎儿血红素为有利于治疗SCD及乙型地中海型贫血的方法。

实例5：材料和方法

一般方法：

所有选殖法均经由USER酶(New England Biolabs)选殖方法进行(参见Geu-Flores等人，USER fusion:a rapid and efficient method for simultaneous fusionand cloning of multiple PCR products.Nucleic Acids Res 35,e55,doi:10.1093/nar/gkm106(2007))，及用于PCR扩增的模板是购买细菌或哺乳动物密码子优化基因片段(GeneArt)。取所创造的载体转形至Mach T1^R适格细胞(ThermoFisher Scientific)中，并维持在-80℃长期储存。此操作所采用所有引子均购自Integrated DNA Technologies，并使用Phusion U DNA Polymerase Green MultiPlex PCR Master Mix(ThermoFisher)或Q5Hot Start High-Fidelity 2x Master Mix(New England Biolabs)进行PCRS。此操作所采用所有质粒是从50mL Mach1培养物，使用ZymoPURE质粒Midiprep(Zymo ResearchCorporation)新鲜制备，其涉及排除内毒素的制程。所有分析、转染、和PCR反应均使用分子生物学等级的Hyclone水(GE Healthcare Life Sciences)，以确保排除DNAse活性。

用于Hek293T哺乳动物细胞转染的sgRNA的氨基酸序列提供于下表17。20-nt靶原型间隔子是以粗体表示。当靶DNA序列不以“G”起始时，则在引子的5’端添加“G”，因为已确立人类U6启动子的转录起始位点以“G”较佳(参见Cong,L.等人，Multiplex genomeengineering using CRISPR/Cas systems.Science 339,819-823,doi：10.1126/science.1231143(2013))。采用前述pFYF sgRNA质粒作为PCR扩增的模板。

表17：用于Hek293T哺乳动物细胞转染的sgRNA的序列

sgRNA骨架序列如下：

化脓性链球菌(S.pyogenes):

GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC

金黄色葡萄球菌(S.aureus):

GUUUUAGUACUCUGUAAUGAAAAUUACAGAAUCUACUAAAACAAGGC AAAAUGCCGUGUUUAUCUCGUCAACUUGUUGGCGAGA

用于定向演化的输入细菌TadA*集合库的产生

TadA*8.0集合库的设计是编码TadA*7.10开放读码框中各氨基酸位置的所有20种氨基酸(Gaudelli,N.M.等人，Programmable base editing of A*T to G*C in genomicDNA without DNA cleavage.Nature551,464-471,doi:10.1038/nature24644(2017))。各TadA*8.0集合库成员包含约1-2个新编码突变，并经过化学合成，是购自Ranomics Inc(Toronto,Canada)。TadA*8.0集合库利用Phusion U Green MultiPlex PCR Master Mix进行PCR扩增，及利用USER组装已优化供进行ABE定向演化的细菌载体中(Gaudelli,N.M.等人，Programmable base editing of A*T to G*C in genomic DNA without DNAcleavage.Nature 551,464-471,doi:10.1038/nature24644(2017))。

TadA变体的细菌演化

由包含TadA*8集合库的ABE依过去文献说明进行定向演化(Gaudelli,N.M.等人，Programmable base editing of A*T to G*C in genomic DNA without DNAcleavage.Nature 551,464-471,doi:10.1038/nature24644(2017))，其中有下列变化：i)使用大肠杆菌(E.coli)10β(New England Biolabs)作为演化宿主；及ii)在卡那霉素上存活需依赖修正三个遗传失活组份(例如：其存活需要逆转卡那霉素中两个终止突变及一个活性位点突变)。卡那霉素抗性基因序列包含针对ABE8演化的选择突变。选出的质粒和编辑器于10β宿主细胞中共同培养一夜后，取集合库培养物涂布在2xYT-洋菜培养基上(补充质粒维持性抗生素及提高选择抗生素卡那霉素的浓度)(64-512μg/mL)。让细菌生长1天，及在富集后，取存活纯是的TadA*8部份进行桑格定序。然后将已判别的所关注TadA*8突变通过USER组装法引进哺乳动物表达载体。

一般HEK293T及RPMI-8226哺乳动物培养条件

细胞在37℃下使用5％ CO₂培养。由HEK293T细胞[CLBTx013，美国菌种保存中心(American Type Culture Collection)(ATCC)]于含10％(v/v)胎牛血清(A31606-02,Thermo Fisher Scientific)的杜氏改良伊格氏培养基加Glutamax(10566-016,ThermoFisher Scientific)中培养。取RPMI-8226(CCL-155,ATCC)细胞于含10％(v/v)胎牛血清(Gibco)的RPMI-1640培养基(Gibco)中培养，从供应商取得后，测试细胞的霉浆菌反应为阴性。

Hek293T质粒转染及gDNA萃取

取HEK293T细胞接种在经过聚-D-离氨酸处理的48-孔BioCoat盘(Corning)上，密度35,000个细胞/孔，在涂布18-24小时后转染。使用NucleoCounter NC-200(Chemometec)计算细胞数。在此等细胞中添加于Opti-MEM减血清培养基(ThermoFisher Scientific)中稀释至12.5μL总体积的750ng碱基编辑器或核酸酶对照物、250ng sgRNA、和10ng GFP-max质粒(Lonza)。所述溶液和含1.5μL脂染氨2000(Lipofectamine 2000)(ThermoFisher)的11μL Opti-MEM减血清培养基合并，留置室温下15min。整个25μL混合物转移到预先接种的Hek293T细胞，培养约120h。培养后，吸出培养基，使用250μL 1x PBS溶液(ThermoFisherScientific)洗涤细胞，及添加100μL新鲜制备的溶胞缓冲液(100mM Tris-HCl，pH 7.0，0.05％ SDS，25μg/mL蛋白酶K(Thermo Fisher Scientific))。取含溶胞缓冲液的转染盘于37℃下培养1小时，混合物转移至96-孔PCR盘中，于80℃下加热30min。

ABE构造及ABE8构建体的DNA和RNA脱靶编辑分析

在转染前16至20小时，取HEK293T细胞涂布在已涂布聚-D-离氨酸的48-孔盘(Corning)上，密度为每孔30,000个细胞含于没有抗生素的DMEM+Glutamax培养基(ThermoFisher Scientific)中。取750ng切口酶或碱基编辑器表达质粒DNA和250ng sgRNA表达质粒DNA于15μl OPTIMEM+Glutamax中合并。其再和每孔包含1.5μl脂染氨2000及8.5μlOPTIMEM+Glutamax的10μl脂质混合物合并。在转染后3天收集细胞，及采集DNA或RNA。进行DNA分析时，细胞于1X PBS中洗涤一次后，于100μl QuickExtract^TM缓冲液(Lucigen)中，依据制造商的指示溶解细胞。依据制造商的指示，使用MagMAX^TMmirVana^TM总RNA单离套组(MagMAX^TMmirVana^TMTotal RNA Isolation Kit)(Thermo Fisher Scientific)及KingFisher^TMFlex Purification系统采集RNA。

靶向RNA定序法主要依过去文献说明进行(参见Rees,H.A.等人，Analysis andminimization of cellular RNA editing by DNA adenine base editors.Sci Adv 5,eaax5717,doi:10.1126/sciadv.aax5717(2019))。cDNA是由单离的RNA，采用SuperScriptIV One-Step RT-PCR系统，使用EZDnase(Thermo Fisher Scientific)，依据制造商的指示制备。采用下列程式：58℃历时12min；98℃历时2min；接续为随扩增子变化的PCR循环：针对CTNNB1及IP90：32个如下循环[98℃历时10sec；60℃历时10sec；72℃历时30sec]，及针对RSL1D1的35个如下循环[98℃历时10sec；58℃历时10sec；72℃历时30sec]。没有使用样本同时进行的RT对照组。合并RT-PCR后，采用上述Illumina Miseq记录扩增子条码及定序。从每个扩增子中前向引子末端后第一个碱基开始的各扩增子中第一段125nt是和参考序列排比，并用于分析各扩增子中A-形成-I的平均及最大频率(图33A及图33B)。

采用下表18所列过去公开的引子进行脱靶DNA定序法(参见Komor,A.C.等人，Programmable editing of a target base in genomic DNA without double-strandedDNA cleavage.Nature 533,420-424,doi:10.1038/nature17946(2016)；Rees,H.A.等人，Analysis and minimization of cellular RNA editing by DNA adenine baseeditors.Sci Adv 5,eaax5717,doi:10.1126/sciadv.aax5717(2019))，其是使用两步骤PCR及条码方法来制备样本，使用上述Illumina Miseq定序仪定序。

表18：用于扩增基因体位点的HTS引子：

用于CD34+细胞的ABE编辑器的mRNA制造所有腺嘌呤碱基编辑器mRNA均采用下列合成法产生。选殖编辑器至编码dT7启动子的质粒中，接续为5’UTR、Kozak序列、ORF、和3’UTR。dT7启动子在T7启动子内带有去活化点突变，防止从环状质粒转录。此质粒为PCR反应的模板(Q5 Hot Start 2X Master Mix)，其中前向引子修正T7启动子内的SNP，及反向引子在3’UTR上附加一个聚A尾。所得PCR产物于Zymo Research 25μg DCC管柱上纯化，用为后续试管内转录的mRNA模板。依据使用手册使用NEB HiScribe High-Yield套组，但全部改用N1-甲基-假尿苷取代尿苷，及使用CleanCap AG(Trilink)进行共同转录封端。通过氯化锂沉淀法来净化反应。用于扩增的引子可参见表18。

本文采用的Cas9 mRNA是购自Trilink(CleanCap Cas9 mRNA 5moU)，而用于全基因体定序实验的CBE mRNA则是自家制造产生。

表19：用于ABE8 T7试管内转录反应的引子

CD34+细胞制备

取得动员的周边血液(Mobilized peripheral blood)并富集人类CD34+HSPC，分装成单次使用等份冷冻(HemaCare,M001F-GCSF/MOZ-2)。CD34+细胞解冻，加至包含1％Glutamax(Gibco)、100ng/mL TPO(Peprotech)、SCF(Peprotech)及Flt-3(Peprotech)的X-VIVO 10(Lonza)中，及先培养48小时后再进行电穿孔。

CD34+细胞的电穿孔法

解冻后48小时，细胞离心排除X-VIVO 10培养基，及于含0.1％ HSA(AkronBiotechnologies)的MaxCyte缓冲液(HyClone)中洗涤。细胞随后再悬浮于冷的MaxCyte缓冲液中，每mL含1,250,000个细胞，及分成多个20μL等份。依实验条件分装ABE mRNA(0.15μM)及-198HBG1/2sgRNA(4.05μM)，并于MaxCyte缓冲液中提高至总体积5μL。添加20μL细胞至5μL RNA混合物中，共3组，加载至OC25x3 MaxCyte电穿孔样本管的各槽中。充电后，从各槽收集25μL，置入24-孔无处理组织培养盘的孔中心。细胞于培养箱(37℃，5％ CO₂)中恢复20分钟。恢复20分钟后，添加包含1％ Glutamax、100ng/mL TPO、SCF及Flt-3的X-VIVO 10培养基至细胞中，浓度为每mL含1,000,000个细胞。细胞随后再置于培养箱(37℃，5％ CO₂)中，进一步恢复48小时。

ABE电穿孔后的红血球分化

电穿孔恢复后48h(培养第0天)，细胞离心，移至含5％人类血清、330μg/mL运铁蛋白(Sigma)、10μg/mL人类胰岛素(Sigma)、2U/mL肝素钠(Sigma)、3U/mL EPO(Peprotech)、100ng/mL SCF(Peprotech)、5μg/mL IL3及50μM氢可体松(hydrocortisone)(Sigma)的“第1期”IMDM培养基(ATCC)中，每mL含20,000个细胞。培养第4天，在细胞中添加4x体积相同培养基。第7天，细胞离心，及移至包含5％人类血清(Sigma)、330μg/mL运铁蛋白、10μg/mL人类胰岛素、2U/mL肝素钠、3U/mL EPO及100ng/mL SCF的“第2期”IMDM培养基中，每mL含200,000个细胞。第11天，细胞离心，及移至包含5％人类血清(Sigma)、330μg/mL运铁蛋白、10μg/mL人类胰岛素、2U/mL肝素钠、及3U/mL EPO的“第3期”IMDM培养基中，每mL含1,000,000个细胞。第14天，细胞离心，再悬浮于和第11天所使用的相同培养基中，但每mL含5,000,000个细胞。第18天时，分化的红血球细胞分成500,000个细胞等份收集，使用500μL DPBS(Gibco)洗涤，在进行UHPLC的前先于-80℃下冷冻24小时。

制备供UHPLC分析的红血球细胞样本

取冷冻的红血球细胞集结块于室温下解冻。使用ACK溶胞缓冲液稀释集结块至终浓度5x 10⁴个细胞/μL。利用吸管混合样本，于室温下培养5min。样本随后于-80℃下冷冻5min，让其解冻，先使用吸管混合后，再于6,700g下离心10min。小心移除上清液(不干扰细胞碎片集结块)，移至新的培养盘，在其中使用超纯水稀释10倍，供UHPLC分析。

超高效液相层析(UHPLC)分析

使用组态为二元帮浦及UV检测仪的UHPLC系统(Thermo Fisher Scientific,Vanquish Horizon)进行逆相分离珠蛋白链。依序采用Waters AQUITY Peptide BEH C18VanGuard前导管柱(2.1x 5mm，1.7μm珠，孔径)和ACQUITY Peptide BEH C18Column(2.1x 150mm，1.7μm珠，孔径)(Waters Corp)，以管柱温度60℃进行分离。使用0.1％三氟乙酸(TFA)的水溶液(A)及0.08％ TFA的乙腈溶液(B)，在流速0.25mL/min下溶离。在使用线性梯度40-52％B 0-10min；52-40％B10-10.5min；及40％B至12min时，达成分离珠蛋白链。样本注射体积为10μL。在整个分析期间，收集波长220nm及资料传输率5Hz下的UV光谱。利用血红素标准物的LC/MS分析确认珠蛋白链身份。

CD34+细胞的基因体DNA萃取

继ABE电穿孔法之后(例如：48h后)，取一份细胞于包含1％Glutamax(Gibco)、100ng/mL TPO(Peprotech)、SCF(Peprotech)及Flt-3(Peprotech)的X-VIVO 10培养基(Lonza)中培养。培养48h及144h后，收集100,000个细胞，及离心。添加50μL Quick Extract(Lucigen)至细胞结块中，细胞混合物移至96-孔PCR盘(Bio-Rad)中。溶胞物于65℃下加热15分钟后，于98℃下10分钟。细胞溶胞物存放在-20℃下。

其他实施方案

由上述说明通常理解，本文说明的本发明可以配合各种不同用法和条件进行变化及修饰。此等实施方案亦在下列权利要求内。

本文的任何变数定义中所撷用元素列表包括作为单一元素或所列元素的组合(或小组合)的变数定义。本文所撷用实施方案包括呈任何单一实施方案的实施方案或和其任何其他实施方案或一部份的组合的实施方案。

本说明书述及的所有公开案、专利案、和专利申请案均已以引用方式并入本文中。所述引用的程度就如同已明确及个别地指出各个公开案、专利案或专利申请案以引用的方式并入一般。若没有任何指示，本说明书述及的所有公开案、专利案、和专利申请案的内容均已以全文引用方式并入本文中。

Claims

1.一种在细胞中编辑血红蛋白亚基γ1和/或2(HBG1/2)启动子的体外方法，所述方法包括使所述细胞与指导RNA和包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域的融合蛋白接触，其中，所述腺苷脱氨酶结构域在以下氨基酸序列的氨基酸位置147包含精氨酸(R)或苏氨酸(T)，其中，所述腺苷脱氨酶结构域与SEQ ID NO：2的氨基酸序列具有至少95％的序列同一性，其中，所述指导RNA靶向所述融合蛋白，以实现细胞中HBG1/2启动子的核碱基的脱氨基。

2.根据权利要求1所述的方法，其中，所述腺苷脱氨酶结构域在所述氨基酸序列的氨基酸位置147包含精氨酸(R)。

3.根据权利要求1所述的方法，其中，所述腺苷脱氨酶结构域还包含以下改变中的一者或多者：Q154S、Y123H和Q154R。

4.根据权利要求1所述的方法，其中，所述腺苷脱氨酶结构域包含选自由以下所组成群组的改变的组合：

Y147T和Q154R；

Y147T和Q154S；

Y147R和Q154S8；

Y147R、V82S和Q154S；

Y147T、V82S和Q154S；

V82S和Y147R；

Y147R、V82S和Q154R；

Y147T、V82S和Q154R；

Y147R、V82S和Y123H:

Y147T、V82S和Y123H；

Y147R、I76Y和V82S；

Y147T、I76Y和V82S；

V82S、Y123H和Y147T；

V82S、Y123H和Y147R；

Y147R、V82S、Y123H和Q1S54R；

Y147T、V82S、Y123H和Q154R；

Y147R、Q154R和Y123H；

Y147R、Q154R和I76Y；

Y147R、Q154R和T166R；

Y123H、Y147R、Q154R和I76Y；

V82S、Y123H、Y147R和Q154R；和

I76Y、V82S、Y123H、Y147R和Q154R。

5.根据权利要求1所述的方法，其中，所述腺苷脱氨酶结构域包含Y147R、Q154R和Y123H。

6.根据权利要求1所述的方法，其中，所述融合蛋白包含含有野生型腺苷脱氨酶结构域和权利要求1所述的腺苷脱氨酶结构域的异二聚体。

7.根据权利要求1所述的方法，其中，所述核碱基的脱氨作用在所述血红蛋白亚基γ1和/或2(HBG1/2)启动子中产生10-nt的多聚G序列。

8.根据权利要求1所述的方法，其中，所述核碱基的脱氨作用破坏阻遏物与血红蛋白亚基γ1和/或2(HBG1/2)启动子的结合。

9.根据权利要求1所述的方法，其中，所述核碱基的脱氨作用影响γ珠蛋白表达的增加。

10.根据权利要求1所述的方法，其中，所述多核苷酸可编程DNA结合结构域包含Cas9结构域。

11.根据权利要求10所述的方法，其中，所述Cas9结构域包含死亡Cas9(dCas9)或切口酶Cas9(nCas9)。

12.根据权利要求11所述的方法，其中，所述Cas9结构域有能力使可编程DNA结合，并且选自由化脓性链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)和嗜热链球菌Cas9(St1Cas9)所组成的群组。

13.根据权利要求11所述的方法，其中，所述Cas9结构域包含与SEQ ID NO：1的氨基酸序列具有至少85％氨基酸序列同一性的氨基酸序列。

14.根据权利要求1所述的方法，其中，所述融合蛋白选自ABE8.1-m、ABE8.2-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.15-m、ABE8.16-m、ABE8.20-m、ABE.21-m、ABE8.24-m、ABE8.1-d、ABE8.2-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.15-d、ABE8.16-d、ABE8.20-d、ABE.21-d和ABE8.24-d。

15.根据权利要求1所述的方法，其中，相对于包含SEQ ID NO:17的氨基酸序列的全长TadA8，所述腺苷脱氨酶结构域包含含有1、2、3、4、5、6、7或8个N末端或C末端氨基酸残基缺失的截短TadA8。

16.根据权利要求1所述的方法，其中，所述多核苷酸可编程DNA结合结构域包含SEQ IDNO：3的氨基酸序列。

17.一种产生红细胞或其祖细胞的体外方法，包括：

(a)引入红细胞祖细胞：

(i)融合蛋白或编码所述融合蛋白的多核苷酸，其中，所述融合蛋白包含权利要求1所述的融合蛋白，和

(ii)一种或多种指导多核苷酸，其中，所述一种或多种指导多核苷酸靶向所述融合蛋白，以实现所述血红蛋白亚基γ1和/或2(HBG1/2)启动子区域的核碱基的从A*T到G*C的改变；和

(b)将所述红细胞祖细胞分化成红细胞。

18.一种在细胞中编辑血红蛋白亚基γ1和/或2(HBG1/2)启动子的体外方法，所述方法包括使所述细胞与指导RNA和融合蛋白接触，所述融合蛋白包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域，其中，所述腺苷脱氨酶结构域包含以下氨基酸序列的氨基酸位置147的精氨酸(R)或苏氨酸(T)，其中，所述腺苷脱氨酶结构域与SEQ ID NO：2的氨基酸序列具有至少90％的序列同一性，其中，所述指导RNA靶向所述融合蛋白，以实现细胞中所述HBG1/2启动子的核碱基的脱氨作用，其中，所述方法包括在所述HBG1/2启动子的位置-198引入从A*T到G*C的改变。

19.根据权利要求18所述的方法，其中，所述腺苷脱氨酶结构域在所述氨基酸序列的氨基酸位置147包含精氨酸(R)。

20.根据权利要求18所述的方法，其中，所述腺苷脱氨酶结构域进一步包含以下改变中的一者或多者：Q154S、Y123H和Q154R。

21.根据权利要求18所述的方法，其中，所述腺苷脱氨酶结构域包含选自由以下所组成群组的改变的组合：

Y147T和Q154R；

Y147T和Q154S；

Y147R和Q154S8；

Y147R、V82S和Q154S；

Y147T、V82S和Q154S；

V82S和Y147R；

Y147R、V82S和Q154R；

Y147T、V82S和Q154R；

Y147R、V82S和Y123H:

Y147T、V82S和Y123H；

Y147R、I76Y和V825；

Y147T、I76Y和V82S；

V82S、Y123H和Y147T；

V82S、Y123H和Y147R；

Y147R、V82S、Y123H和Q1S54R；

Y147T、V82S、Y123H和Q154R；

Y147R、Q154R和Y123H；

Y147R、Q154R和I76Y；

Y147R、Q154R和T166R；

Y123H、Y147R、Q154R和I76Y；

V82S、Y123H、Y147R和Q154R；和

I76Y、V82S、Y123H、Y147R和Q154R。

22.根据权利要求18所述的方法，其中，所述腺苷脱氨酶结构域包含Y147R、Q154R和Y123H。

23.根据权利要求18所述的方法，其中，所述融合蛋白包含含有野生型腺苷脱氨酶结构域和权利要求18所述的腺苷脱氨酶结构域的异二聚体。

24.根据权利要求18所述的方法，其中，所述核碱基的脱氨作用在血红蛋白亚基γ1和/或2(HBG1/2)启动子中产生10-nt的多聚G序列。

25.根据权利要求18所述的方法，其中，所述核碱基的脱氨作用破坏阻遏物与血红蛋白亚基γ1和/或2(HBG1/2)启动子的结合。

26.根据权利要求18所述的方法，其中，所述核碱基的脱氨作用导致γ珠蛋白表达增加。

27.根据权利要求18所述的方法，其中，所述多核苷酸可编程DNA结合结构域包含Cas9结构域。

28.根据权利要求27所述的方法，其中，所述Cas9结构域包含死亡Cas9(dCas9)或切口酶Cas9(nCas9)。

29.根据权利要求28所述的方法，其中，所述Cas9结构域有能力使可编程DNA结合，并且选自由化脓性链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)和嗜热链球菌Cas9(St1Cas9)所组成的群组。

30.根据权利要求28所述的方法，其中，所述Cas9结构域包含与SEQ ID NO：1的氨基酸序列具有至少85％氨基酸序列同一性的氨基酸序列。

31.根据权利要求18所述的方法，其中，所述融合蛋白选自ABE8.1-m、ABE8.2-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.15-m、ABE8.16-m、ABE8.20-m、ABE.21-m、ABE8.24-m、ABE8.1-d、ABE8.2-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.15-d、ABE8.16-d、ABE8.20-d、ABE.21-d和ABE8.24-d。

32.根据权利要求18所述的方法，其中，相对于包含SEQ ID NO:17的氨基酸序列的全长TadA8，所述腺苷脱氨酶结构域包含含有1、2、3、4、5、6、7或8个N末端或C末端氨基酸残基缺失的截短TadA8。

33.根据权利要求18所述的方法，其中，所述多核苷酸可编程DNA结合结构域包含SEQID NO：3的氨基酸序列。

34.一种产生红细胞或其祖细胞的体外方法，包括：

(a)引入红细胞祖细胞：

(i)融合蛋白或编码所述融合蛋白的多核苷酸，其中，所述融合蛋白包含权利要求18所述的融合蛋白，和

(ii)一种或多种指导多核苷酸，其中，所述一种或多种指导多核苷酸靶向所述融合蛋白，以实现血红蛋白亚基γ1和/或2(HBG1/2)启动子区域的核碱基的从A*T到G*C的改变；和

(b)将所述红细胞祖细胞分化成红细胞。