CN116113692A

CN116113692A - 用于植入碱基编辑细胞的组合物和方法

Info

Publication number: CN116113692A
Application number: CN202180028355.XA
Authority: CN
Inventors: S·史密斯; D·勒瓦瑟; J·叶恩
Original assignee: Bim Medical Co ltd
Current assignee: Bim Medical Co ltd
Priority date: 2020-02-13
Filing date: 2021-02-12
Publication date: 2023-05-12
Also published as: EP4103704A4; US20230242884A1; CA3170326A1; BR112022015969A2; WO2021163587A1; EP4103704A1; AU2021218811A1

Abstract

本发明提供了包含具有增加的效率的新型腺苷碱基编辑器(例如，ABE8)的组合物，和使用这些腺苷脱氨酶变体来编辑靶序列的方法，以及使用它们用植入来治疗遗传病症或疾患(例如，镰状细胞病)的方法。

Description

用于植入碱基编辑细胞的组合物和方法

技术领域

相关申请的交叉引用

本申请要求于2020年2月13日提交的临时申请号62/976,239的优先权和权益，所述申请的全部内容以引用的方式整体并入本文。

序列表

本申请含有序列表，所述序列表已以ASCII格式以电子方式提交并且以引用的方式整体并入本文。2021年2月12日创建的所述ASCII拷贝名为180802-043701PCT_SL.txt并且大小为2,097,152字节。

背景技术

核酸序列的靶向编辑，例如基因组DNA的靶向切割或靶向修饰，是基因功能研究的一种极具前景的方法，并且还有可能为人类遗传疾病提供新的治疗方法。目前可用的碱基编辑器包括将靶C·G碱基对转化为T·A的胞嘧啶碱基编辑器(例如，BE4)，和将A·T转化为G·C的腺嘌呤碱基编辑器(例如，ABE7.10)。本领域需要改进的核酸靶向编辑以用于治疗特定疾病，诸如用于治疗遗传病症的植入，例如导致造血疾病或病症的遗传病症，诸如镰状细胞病(SCD)。目前的治疗方法集中在控制疾病的症状上。迫切需要用于编辑引起镰状细胞病(SCD)的遗传突变的方法。

发明内容

如下所述，本发明的特征在于涉及使用具有提高的效率的腺嘌呤碱基编辑器(ABE)例如ABE8.8的组合物和方法，以及使用包含腺苷脱氨酶变体的碱基编辑器来编辑靶序列的方法。如本文进一步描述的，当将此类碱基编辑器引入(例如，通过电穿孔)造血干细胞、造血祖细胞及其后代时，提供活的和稳健的碱基编辑供体细胞，其表现出干细胞表型和活性，并且这证明成功植入到体内小鼠模型中的动物骨髓中。本文方法中描述和使用的碱基编辑(“编辑的”)细胞在植入后长期(例如，至少8周或至少16周)维持高水平的碱基编辑和功能。

在一个方面，本发明的特征在于一种在患有血红蛋白病的受试者中植入核碱基编辑的造血干细胞或其祖细胞的方法。所述方法包括：(a)使造血干细胞或其祖细胞在体外与向导RNA和含有多核苷酸可编程DNA结合结构域和脱氨酶结构域的碱基编辑器或编码所述碱基编辑器的多核苷酸接触，其中所述向导RNA靶向所述多核苷酸可编程DNA结合结构域以诱导靶血红蛋白(HBB)基因或HBG1/2的启动子区域中的核碱基变化，从而获得核碱基编辑的造血干细胞或其祖细胞；并且其中所述核碱基编辑的造血干细胞或其祖细胞在从供体收集后48小时内与所述gRNA和所述碱基编辑器接触；和(b)向受试者施用有效量的所述核碱基编辑的造血干细胞或其祖细胞，以在施用后获得所述核碱基编辑的造血干细胞或其祖细胞在所述受试者组织中的植入。在实施方案中，所述核碱基编辑的造血干细胞或其祖细胞包括从收集自供体的多形核血细胞(PBMC)富集的CD34⁺细胞。

在一个方面，本发明的特征在于一种在患有血红蛋白病的受试者中植入核碱基编辑的造血干细胞或其祖细胞的方法。所述方法包括：(a)使造血干细胞或其祖细胞在体外与向导RNA和含有多核苷酸可编程DNA结合结构域和脱氨酶结构域的碱基编辑器或编码所述碱基编辑器的多核苷酸接触，其中所述向导RNA靶向所述多核苷酸可编程DNA结合结构域以诱导靶血红蛋白(HBB)基因或HBG1/2的启动子区域中的核碱基变化，从而获得核碱基编辑的造血干细胞或其祖细胞；和(b)向受试者施用有效量的所述核碱基编辑的造血干细胞或其祖细胞，以在施用后获得所述核碱基编辑的造血干细胞或其祖细胞在所述受试者组织中的植入。

在一个方面，本发明的特征在于一种治疗受试者的血红蛋白病的方法。所述方法包括：(a)使造血干细胞或其祖细胞在体外与向导RNA和含有多核苷酸可编程DNA结合结构域和脱氨酶结构域的碱基编辑器或编码所述碱基编辑器的多核苷酸接触，其中所述向导RNA靶向所述多核苷酸可编程DNA结合结构域以诱导靶血红蛋白(HBB)基因或HBG1/2的启动子区域中靶血红蛋白(HBB)基因中的核碱基变化，从而获得核碱基编辑的造血干细胞或其祖细胞；和(b)向受试者施用有效量的所述核碱基编辑的造血干细胞或其祖细胞，以在施用后获得所述核碱基编辑的造血干细胞或其祖细胞在所述受试者组织中的植入。

在一个方面，本发明的特征在于一种在患有血红蛋白病的受试者中植入核碱基编辑的造血干细胞或其祖细胞的方法。所述方法包括：(a)使造血干细胞或其祖细胞在体外与向导RNA和含有多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域的腺苷碱基编辑器或编码所述碱基编辑器的多核苷酸接触，所述腺苷脱氨酶结构域含有与序列MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:3)具有至少85％序列同一性的氨基酸序列，并且含有改变Y123H、Y147R和Q154R，其中所述腺苷脱氨酶结构域催化腺嘌呤或腺苷的水解脱氨，并且其中所述向导RNA靶向所述多核苷酸可编程DNA结合结构域以诱导靶血红蛋白(HBB)基因或HBG1/2的启动子区域中的A到G核碱基变化，从而获得核碱基编辑的造血干细胞或其祖细胞；和(b)向受试者施用有效量的所述核碱基编辑的造血干细胞或其祖细胞，以在施用后获得所述核碱基编辑的造血干细胞或其祖细胞在所述受试者组织中的植入。

在一个方面，本发明的特征在于一种治疗受试者的血红蛋白病的方法。所述方法包括：(a)使造血干细胞或其祖细胞在体外与向导RNA和含有多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域的腺苷碱基编辑器或编码所述碱基编辑器的多核苷酸接触，所述腺苷脱氨酶结构域含有与MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:3)具有至少85％序列同一性的氨基酸序列，并且含有改变Y123H、Y147R和Q154R，其中所述腺苷脱氨酶结构域催化腺嘌呤或腺苷的水解脱氨，并且其中所述向导RNA靶向所述多核苷酸可编程DNA结合结构域以诱导靶血红蛋白(HBB)基因或HBG1/2的启动子区域中的A到G核碱基变化，从而获得核碱基编辑的造血干细胞或其祖细胞；和(b)向受试者施用有效量的所述核碱基编辑的造血干细胞或其祖细胞，以在施用后获得所述核碱基编辑的造血干细胞或其祖细胞在所述受试者组织中的植入。

在一个方面，本发明的特征在于一种在患有血红蛋白病的受试者中植入编辑的造血干细胞或其祖细胞的方法。所述方法包括：(a)使造血干细胞或其祖细胞在体外与向导RNA和含有氨基酸序列的碱基编辑器或编码所述碱基编辑器的多核苷酸接触，所述氨基酸序列与以下两个氨基酸序列之一具有至少80％的序列同一性：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQ ID NO:258)，和MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQ ID NO:259)，其中所述向导RNA靶向所述多核苷酸可编程DNA结合结构域，以诱导HBG1/2的启动子区域中的A到G核碱基变化，从而获得编辑的造血干细胞或其祖细胞；和(b)向受试者施用有效量的所述核碱基编辑的造血干细胞或其祖细胞，以在施用后获得所述核碱基编辑的造血干细胞或其祖细胞在所述受试者组织中的植入。

在一个方面，本发明的特征在于一种治疗受试者的血红蛋白病的方法。所述方法包括：(a)使造血干细胞或其祖细胞在体外与向导RNA和含有氨基酸序列的碱基编辑器或编码所述碱基编辑器的多核苷酸接触，所述氨基酸序列与以下两个氨基酸序列之一具有至少80％的序列同一性：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQ ID NO:258)，和MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQ ID NO:259)，其中所述向导RNA靶向所述多核苷酸可编程DNA结合结构域，以诱导靶血红蛋白(HBB)基因或HBG1/2的启动子区域中的A到G核碱基变化，从而获得编辑的造血干细胞或其祖细胞；和(b)向受试者施用有效量的所述核碱基编辑的造血干细胞或其祖细胞，以在施用后获得所述核碱基编辑的造血干细胞或其祖细胞在所述受试者组织中的植入。

在一个方面，本发明的特征在于一种用于上述任一方面的方法的试剂盒，其中所述试剂盒含有向导RNA和编码碱基编辑器的多核苷酸。

在上述任一方面和/或其实施方案中，所述核碱基变化是A到G核碱基变化。

在上述任一方面和/或其实施方案中，所述脱氨酶结构域是腺苷脱氨酶结构域并与序列MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:3)共享至少85％的序列同一性，并且所述腺苷脱氨酶结构域能够催化腺嘌呤或腺苷的水解脱氨。在实施方案中，所述腺苷脱氨酶结构域含有以下改变中的一个或多个：Y123H、Q154S和Q154R。在实施方案中，所述腺苷脱氨酶结构域含有以下改变中的一个或多个：Y147T、Y147R、Q154S、Y123H和Q154R。在实施方案中，所述腺苷脱氨酶结构域含有选自以下一个或多个改变的组合：Y147R、Q154R和Y123H；Y147R、Q154R和I76Y；Y147R、Q154R和T166R；Y147T和Q154R；Y147T和Q154S；以及Y123H、Y147R、Q154R和I76Y。在实施方案中，所述腺苷脱氨酶结构域含有改变Y147R、Q154R和Y123H。在实施方案中，所述腺苷脱氨酶结构域在位置82或166处含有改变。在实施方案中，所述在位置82处的改变是V82S。在实施方案中，所述在位置166处的改变是T166R。在实施方案中，所述腺苷脱氨酶结构域在位置166和82处含有改变。在实施方案中，所述腺苷脱氨酶结构域与所述序列具有至少90％的序列同一性。

在上述任一方面和/或其实施方案中，所述脱氨酶结构域是TadA*8变体。在上述任一方面和/或其实施方案中，所述TadA*8变体选自以下一个或多个：TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12和TadA*8.13。在上述任一方面和/或其实施方案中，所述碱基编辑器是选自以下一个或多个的ABE8碱基编辑器：ABE8.1、ABE8.2、ABE8.3、ABE8.4、ABE8.5、ABE8.6、ABE8.7、ABE8.8、ABE8.9、ABE8.10、ABE8.11、ABE8.12和ABE8.13。

在上述任一方面和/或其实施方案中，所述碱基编辑器还含有野生型腺苷脱氨酶结构域。

在上述任一方面和/或其实施方案中，所述多核苷酸可编程DNA结合结构域是Cas9。在实施方案中，所述Cas9是SpCas9、SaCas9或其变体。

在上述任一方面和/或其实施方案中，所述多核苷酸可编程DNA结合结构域含有修饰的Cas9，其具有改变的原型间隔区相邻基序(PAM)特异性。在实施方案中，所述Cas9对选自以下NGG、NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN和NGC中的一种或多种的PAM序列具有特异性，其中N是A、G、C或T，其中R是A或G。

在上述任一方面和/或其实施方案中，所述多核苷酸可编程DNA结合结构域无核酸酶活性。在上述任一方面和/或其实施方案中，所述多核苷酸可编程DNA结合结构域是切口酶。在上述任一方面和/或其实施方案中，所述多核苷酸可编程DNA结合结构域含有改变D10A和/或H840A。在上述任一方面和/或其实施方案中，所述多核苷酸可编程DNA结合结构域含有改变D10A。

在上述任一方面和/或其实施方案中，所述脱氨酶结构域含有腺苷脱氨酶单体。在上述任一方面和/或其实施方案中，所述脱氨酶结构域含有腺苷脱氨酶二聚体。

在上述任一方面和/或其实施方案中，在向所述受试者施用所述细胞后约1周、2周、3周、4周、5周、6周、7周或8周或更多周时，在所述受试者中测量所述核碱基编辑的造血干细胞或其祖细胞的植入效率。在上述任一方面和/或其实施方案中，在向所述受试者施用所述细胞后至少8周时，在所述受试者中测量所述核碱基编辑的造血干细胞或其祖细胞的植入效率。在上述任一方面和/或其实施方案中，在向所述受试者施用所述细胞后至少16周时，在所述受试者中测量所述核碱基编辑的造血干细胞或其祖细胞的植入效率。在实施方案中，所测量的植入效率为至少约20％。在实施方案中，所测量的植入效率为至少约30％。在实施方案中，所测量的植入效率为至少约40％。在实施方案中，所测量的植入效率为至少约50％。

在上述任一方面和/或其实施方案中，(b)中至少约50％的所述造血细胞或其祖细胞是活的。在上述任一方面和/或其实施方案中，(b)中至少30％的所述造血细胞或其祖细胞含有核碱基变化。在上述任一方面和/或其实施方案中，(b)中至少50％的所述造血细胞或其祖细胞含有核碱基变化。在上述任一方面和/或其实施方案中，(b)中至少60％的所述造血细胞或其祖细胞含有核碱基变化。在上述任一方面和/或其实施方案中，(b)中至少70％的所述造血细胞或其祖细胞含有核碱基变化。

在上述任一方面和/或其实施方案中，所述造血细胞或其祖细胞分离自或来源于所述受试者。

在上述任一方面和/或其实施方案中，所述造血干细胞或其祖细胞含有与镰状细胞病(SCD)相关的单核苷酸多态性(SNP)。在实施方案中，与SCD相关的SNP导致由所述HBB基因编码的血红蛋白β单元中的E6V取代。在上述任一方面和/或其实施方案中，所述核碱基变化导致由所述HBB基因编码的血红蛋白β单元中的E6A取代。

在上述任一方面和/或其实施方案中，至少30％的所述造血干细胞或其祖细胞在植入后保留碱基编辑活性。在上述任一方面和/或其实施方案中，至少50％的所述造血干细胞或其祖细胞在植入后保留碱基编辑活性。在上述任一方面和/或其实施方案中，至少60％的所述造血干细胞或其祖细胞在植入后保留碱基编辑活性。在上述任一方面和/或其实施方案中，至少70％的所述造血干细胞或其祖细胞在植入后保留碱基编辑活性。在上述任一方面和/或其实施方案中，至少80％的所述造血干细胞或其祖细胞在植入后保留碱基编辑活性。在上述任一方面和/或其实施方案中，至少90％的所述造血干细胞或其祖细胞在植入后保留碱基编辑活性。

在上述任一方面和/或其实施方案中，所述造血细胞或其祖细胞在施用后保留分化能力。在上述任一方面和/或其实施方案中，所述造血细胞或其祖细胞能够产生红细胞。在上述任一方面和/或其实施方案中，编码所述碱基编辑器的所述多核苷酸含有mRNA或者是mRNA。

在上述任一方面和/或其实施方案中，所述造血干细胞或其祖细胞与至少约1nM的编码所述碱基编辑器的mRNA接触。在上述任一方面和/或其实施方案中，所述造血干细胞或其祖细胞与至少约3nM的编码所述碱基编辑器的RNA接触。在上述任一方面和/或其实施方案中，所述造血干细胞或其祖细胞与至少约10nM的编码所述碱基编辑器的RNA接触。在上述任一方面和/或其实施方案中，所述造血干细胞或其祖细胞与至少约30nM的编码所述碱基编辑器的RNA接触。在上述任一方面和/或其实施方案中，所述造血干细胞或其祖细胞与至少约50nM的编码所述碱基编辑器的RNA接触。在上述任一方面和/或其实施方案中，所述造血干细胞或其祖细胞与至少约3000nM的所述gRNA接触。

在上述任一方面和/或其实施方案中，相对于接受未编辑的造血干细胞或其祖细胞的对照受试者中的水平，植入后所述受试者中的胎儿血红蛋白(HbF)水平增加。在上述任一方面和/或其实施方案中，相对于接受未编辑的造血干细胞或其祖细胞的对照受试者中的水平，所述受试者中的胎儿血红蛋白(HbF)水平增加至少约20％。在上述任一方面和/或其实施方案中，相对于接受未编辑的造血干细胞或其祖细胞的对照受试者中的HbS表达，植入后所述受试者中的所述受试者中的HbS表达降低。在上述任一方面和/或其实施方案中，相对于接受未编辑的造血干细胞或其祖细胞的对照受试者中的HbS表达，所述受试者中的HbS表达降低至少约20％。

在上述任一方面和/或其实施方案中，所述核碱基编辑的造血干细胞或其祖细胞表达CD34(例如，为CD34⁺)。在上述任一方面和/或其实施方案中，所述核碱基编辑的造血干细胞或其祖细胞表达CD34、CD45、CD19和GlyA中的一个或多个。在上述任一方面和/或其实施方案中，所述核碱基编辑的造血干细胞或其祖细胞是GlyA⁺。

在上述任一方面和/或其实施方案中，所述核碱基编辑的造血干细胞或其祖细胞表达胎儿血红蛋白(HbF)。

在上述任一方面和/或其实施方案中，所述造血干细胞或其祖细胞是人类造血干细胞或其祖细胞。在上述任一方面和/或其实施方案中，所述受试者是哺乳动物。在上述任一方面和/或其实施方案中，所述受试者是人类。

在上述任一方面和/或其实施方案中，所述受试者患有镰状细胞病(SCD)、地中海贫血症和/或贫血。在上述任一方面和/或其实施方案中，所述受试者患有SCD。

在上述任一方面和/或其实施方案中，所述核碱基编辑的造血干细胞或其祖细胞是所述受试者自体的。

在上述任一方面和/或其实施方案中，所述核碱基编辑的造血干细胞或其祖细胞在施用之前未富集。在上述任一方面和/或其实施方案中，所述核碱基编辑的造血干细胞或其祖细胞在施用之前富集。

在上述任一方面和/或其实施方案中，所述核碱基变化消除、破坏或减少HBG1/2启动子区域中的BCL11A结合。在上述任一方面和/或其实施方案中，所述核碱基变化位于HBG1/2启动子区域中选自-114、-117、-175和-198的位置。在上述任一方面和/或其实施方案中，所述核碱基变化与HBG1/2的表达增加相关。

在上述任一方面和/或其实施方案中，所述核碱基变化与所述造血干细胞或其祖细胞中血红蛋白γ亚基水平的增加相关。在上述任一方面和/或其实施方案中，HbF蛋白在所述受试者中的表达水平在施用后升高。在上述任一方面和/或其实施方案中，所述施用导致所述受试者中HbF的表达持续至少8周。在上述任一方面和/或其实施方案中，所述施用导致所述受试者中HbF的表达持续至少16周。

在上述任一方面和/或其实施方案中，所述施用减少或改善了所述受试者中与镰状细胞病相关的症状。在上述任一方面和/或其实施方案中，由所述造血细胞或其祖细胞产生的红细胞表现出减少的镰状化。

在上述任一方面和/或其实施方案中，在所述受试者的组织中施用后至少16周，至少50％的编辑保留。在上述任一方面和/或其实施方案中，在所述受试者的组织中施用后16周时，至少80％的编辑保留。

在上述任一方面和/或其实施方案中，施用进行多次。在上述任一方面和/或其实施方案中，以至少约一个月的间隔进行多次施用。

在上述任一方面和/或其实施方案中，所述向导RNA含有选自表1中列出的SEQ IDNO:130-155的核苷酸序列。在上述任一方面和/或其实施方案中，所述gRNA含有或者是所述序列，所述序列从5'至3'为：

GACCAAUAGCCUUGACAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCU，对应于SEQ ID NO:129的碱基4-97。在上述任一方面和/或其实施方案中，所述向导RNA含有或者是所述核苷酸序列，所述核苷酸序列从5'至3'为：

csususGACCAAUAGCCUUGACAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUsususu(SEQ ID NO:129)，其中小写字母表示2'-O-甲基化核碱基，并且“s”表示硫代磷酸酯(SEQ ID NO:129)。在上述任一方面和/或其实施方案中，所述向导RNA含有或者是以下任一所述核苷酸序列：

5'-gsascsUUCUCCACAGGAGUCAGGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUsususu-3'(SEQ ID NO:126)、

5'-ascsusUCUCCACAGGAGUCAGGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUsususu-3'(SEQ ID NO:127)和

5'-csususCUCCACAGGAGUCAGGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUsususu-3'(SEQ ID NO:128)，其中小写字母表示2'-O-甲基化核碱基，并且“s”表示硫代磷酸酯。

在上述任一方面和/或其实施方案中，所述施用与在所述受试者骨髓中至少50％的细胞中表达的血红蛋白亚基γ相关。在上述任一方面和/或其实施方案中，所述施用与在所述受试者骨髓中至少60％的细胞中表达的血红蛋白亚基γ相关。

在上述任一方面和/或其实施方案中，所述方法还包括在施用所述造血干细胞或其祖细胞之前耗尽所述受试者中的一种或多种淋巴谱系细胞。

在上述任一方面和/或其实施方案中，所述造血干细胞或其祖细胞是富集的CD34⁺细胞，并且所述CD34⁺细胞在从供体收集或分离PBMC后少于24小时从供体外周血单核细胞(PBMC)富集。在上述任一方面和/或其实施方案中，所述造血干细胞或其祖细胞是富集的CD34⁺细胞，并且所述CD34⁺细胞在从供体收集或分离PBMC后少于48小时从供体外周血单核细胞(PBMC)富集。在上述任一方面和/或其实施方案中，所述造血干细胞或其祖细胞在从供体收集或分离后冷冻保存。

在上述任一方面和/或其实施方案中，所述gRNA和/或编码所述碱基编辑器的所述多核苷酸含有2'-O-甲基核苷酸修饰。在上述任一方面和/或其实施方案中，所述2'-O-甲基核苷酸修饰布置在所述gRNA和/或编码所述碱基编辑器的所述多核苷酸的3'或5'端。在上述任一方面和/或其实施方案中，所述gRNA和/或编码所述碱基编辑器的所述多核苷酸含有硫代磷酸酯核苷酸间键。

在上述任一方面和/或其实施方案中，所述造血干细胞或其祖细胞与编码所述碱基编辑器的所述多核苷酸接触。在上述任一方面和/或其实施方案中，所述碱基编辑器作为在所述造血干细胞或其祖细胞中表达的多核苷酸递送。

在上述任一方面和/或其实施方案中，所述核碱基编辑的造血干细胞或其祖细胞的植入在所述受试者中维持至少8周。在上述任一方面和/或其实施方案中，所述核碱基编辑的造血干细胞或其祖细胞的植入在所述受试者中维持至少16周。在上述任一方面和/或其实施方案中，所述核碱基编辑的造血干细胞或其祖细胞在从供体收集后24小时内与所述gRNA和所述碱基编辑器接触。

在上述任一方面和/或其实施方案中，所述碱基编辑器与以下两个序列之一共享至少90％的序列同一性：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQ ID NO:258)，和MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQ ID NO:259)。

在上述任一方面和/或其实施方案中，所述碱基编辑器与以下两个序列之一共享至少95％的序列同一性：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQ ID NO:258)，和MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGISPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQID NO:259)。

本文的描述和实施例详细说明了本公开的实施方案。应理解，本公开不限于本文描述的特定实施方案，因而可以不同。本领域技术人员将认识到，存在涵盖在本公开的范围内的对本公开内容的许多变化和修改。

虽然可以在单一实施方案的上下文中描述本公开的各种特征，但是也可以单独地或以任何合适的组合来提供这些特征。相反，尽管为了清楚起见，本公开可以在单独的实施方案的上下文中进行描述，但是本公开也可以在单个实施方案中实施。本文所用的章节标题仅用于组织目的而不视为限制所述主题。

本公开的特征在所附权利要求中具体说明。通过参考以下阐述了说明性实施方案的详细描述(其中使用了本公开的原理)以及根据如下文所述的附图，将获得对本公开的特征和优点的更好理解。

定义

除非另外定义，否则本文所用的所有技术和科学术语均具有由本发明所属领域的技术人员通常所理解的含义。以下参考文献为技术人员提供本发明中使用的许多术语的一般定义：Singleton等人,Dictionary of Microbiology and Molecular Biology(第2版1994)；The Cambridge Dictionary of Science and Technology(Walker编辑,1988)；TheGlossary of Genetics,第5版,R.Rieger等人(编辑),Springer Verlag(1991)；以及Hale&Marham,The Harper Collins Dictionary of Biology(1991)。除非另外详细说明，否则如本文所用的以下术语具有它们下文所述的含义。

如本文所用，术语“植入(engraftment/engrafting)”是指将施用给受试者(例如受体)的细胞以及细胞的前体和后代并入受试者的组织或器官中的过程。在一个实施方案中，组织是骨髓。在实施方案中，细胞是造血干细胞(HSC)、造血干细胞的祖细胞或骨髓细胞。在实施方案中，施用、引入或移植到受体中的用于植入的细胞穿过血流并回到游离骨髓(BM)壁龛，所述游离骨髓壁龛为它们的存活、增殖和新血细胞(包括血红细胞(红细胞)、血白细胞(白细胞，诸如单核细胞、巨噬细胞和中性粒细胞)和血小板)的产生提供最佳条件。

“植入效率”是指在施用(例如，移植)到受体受试者后，并入组织(例如，骨髓)或器官中的细胞(例如，供体细胞)的分数或百分比。在实施方案中，植入效率在向受试者施用细胞后的1周、2周、3周、4周、5周、6周、7周、8周、9周、10周、11周、12周、13周、14周、15周、16周、17周、18周、19周或20周测量。这种并入的细胞构成了施用于受试者的细胞(和/或向受试者施用细胞后的所述细胞子代)。例如，施用于受试者并包含核碱基变化的供体造血干细胞(HSC)(即，“编辑的”或“核碱基编辑的”细胞)的植入效率可以表示为受试者组织(例如，骨髓)中包含核碱基变化和/或所施用的HSC的后代细胞的供体细胞的百分比。可以通过在重复的时间段内测量全血细胞计数(和评估血细胞谱系和表型)来监测植入效率。施用于受试者的细胞及其后代的计数随时间增加表示植入正在发生或已经发生。在一个实施方案中，植入的HSC、造血干细胞的祖细胞或骨髓细胞是核碱基编辑的。在一个实施方案中，核碱基编辑诱导HBG1/2多核苷酸的启动子区域中的A到G核碱基变化。通常，植入到受体受试者的组织或器官中的细胞或核碱基编辑的细胞，例如HSC、造血干细胞的祖细胞或骨髓细胞也称为“供体”细胞。在一个实施方案中，细胞获得自供体受试者。

如本文所用，镰状细胞病(SCD)是指影响血红蛋白的一组病症，血红蛋白是红细胞中将氧递送至全身细胞的分子。患有这种病症的个体具有非典型血红蛋白分子，其可以使血红细胞变形为镰刀形或新月形。SCD影响β珠蛋白功能，并且可能导致严重贫血和进行性多器官衰竭。镰状细胞病(SCD)的临床表现源于导致组织缺血/复灌损伤和慢性溶血的微血管闭塞的间歇性发作。血管闭塞事件与导致疼痛的缺血/复灌对组织的损害和影响任何器官系统的急性或慢性损伤有关。骨/髓、脾、肝、脑、肺、肾和关节经常受到影响。SCD是一种遗传病症，其特征是存在至少一个血红蛋白S等位基因(HbS；HbB中的p.Glu6Val)和导致异常血红蛋白聚合的第二HbB致病性变异。HbS/S(HbB中的纯合p.Glu6Val)占美国镰状细胞病(SCD)的60％-70％。患有镰状细胞病(SCD)的男性和女性的预期寿命分别仅为42岁和48岁。

“β-珠蛋白(HbB)蛋白”是指具有与NCBI登录号NP_000509至少约95％氨基酸序列同一性的多肽或其片段。在特定实施方案中，β-珠蛋白包含相对于以下参考序列的一个或多个改变。在一个特定实施方案中，与镰状细胞病相关的β-珠蛋白包含E6V(也称为E7V)突变。

“HbB多核苷酸”是指编码β-珠蛋白或其片段的核酸分子。下面提供了可在NCBI登录号NM_000518获得的示例性HbB多核苷酸的序列：

下面提供了示例性血红蛋白亚基β多肽序列：

VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH(SEQ ID NO:2)。

“腺苷脱氨酶”是指能够催化腺嘌呤或腺苷水解脱氨的多肽或其片段。在一些实施方案中，脱氨酶或脱氨酶结构域是催化腺苷水解脱氨为肌苷或脱氧腺苷水解脱氢为脱氧肌苷的腺苷脱氨酶。在一些实施方案中，腺苷脱氨酶催化脱氧核糖核酸(DNA)中的腺嘌呤或腺苷的水解脱氨。本文提供的腺苷脱氨酶(例如工程化的腺苷脱氨酶、进化的腺苷脱氨酶)可以来自任何生物体，诸如细菌。

“腺苷脱氨酶碱基编辑器8(ABE8)多肽”或“ABE8”是指如本文定义的碱基编辑器，其包含在以下参考序列的氨基酸位置82和/或166处包含改变的腺苷脱氨酶变体：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:3)。

在一些实施方案中，如本文所述，ABE8包含相对于参考序列的进一步改变。

“腺苷脱氨酶碱基编辑器8(ABE8)多核苷酸”是指编码ABE8的多核苷酸。

“施用”在本文中是指向患者或受试者提供本文所述的一种或多种组合物。

“剂”是指任何小分子化合物、抗体、核酸分子或多肽或其片段。

“改变”是指分析物、基因或多肽的水平、结构或活性的变化(增加或减少)，如通过标准的本领域已知方法(诸如本文所述的那些方法)所检测的。如本文所用，改变包括表达水平10％的变化、25％的变化、40％的变化和表达水平50％或更大的变化。在一些实施方案中，改变包括核碱基或氨基酸的插入、缺失或取代。

“改善”是指减少、抑制、减弱、缩减、阻止或稳定疾病的发展或进展，所述疾病诸如血红蛋白病、镰状细胞病或地中海贫血，其为遗传性血液病症，其中血红细胞含有低于正常值的血红蛋白，因此导致血液携带的氧气减少。地中海贫血可能引起贫血。

“类似物”是指不相同但具有类似功能或结构特征的分子。例如，多肽类似物保留了对应天然存在的多肽的生物活性，同时相对于天然存在的多肽具有增强类似物功能的某些生化修饰。这种生化修饰可以增加类似物的蛋白酶抗性、膜透性或半衰期，而不改变例如配体结合。类似物可以包括非天然氨基酸。

“碱基编辑器(BE)”或“核碱基编辑器多肽(NBE)”是指结合多核苷酸并具有核碱基修饰活性的剂。在各种实施方案中，碱基编辑器包含核碱基修饰多肽(例如脱氨酶)和与向导多核苷酸(例如向导RNA(gRNA))结合的多核苷酸可编程核苷酸结合结构域(例如Cas9或Cpf1)。碱基编辑器的代表性核酸和蛋白质序列提供于序列表中，为SEQ ID NO:4-13。

“碱基编辑活性”是指发生作用以化学改变多核苷酸内的碱基。在一个实施方案中，将第一个碱基转化为第二个碱基。在一个实施方案中，碱基编辑活性是胞苷脱氨酶活性，例如，将靶C·G转化为T·A。在另一个实施方案中，碱基编辑活性是腺苷或腺嘌呤脱氨酶活性，例如，将A·T转化为G·C。

术语“碱基编辑器系统”是指用于编辑靶核苷酸序列的核碱基的分子间复合物。在各种实施方案中，碱基编辑器(BE)系统包含(1)用于使靶核苷酸序列中的核碱基脱氨基的多核苷酸可编程核苷酸结合结构域、脱氨酶结构域(例如胞苷脱氨酶或腺苷脱氨酶)；和(2)一种或多种与多核苷酸可编程核苷酸结合结构域结合的向导多核苷酸(例如向导RNA)。在各种实施方案中，碱基编辑器(BE)系统包含选自腺苷脱氨酶或胞苷脱氨酶的核碱基编辑器结构域，和具有核酸序列特异性结合活性的结构域。在一些实施方案中，碱基编辑器系统包含(1)碱基编辑器(BE)，其包含用于使靶核苷酸序列中的一个或多个核碱基脱氨基的多核苷酸可编程DNA结合结构域和脱氨酶结构域；(2)一种或多种与多核苷酸可编程DNA结合结构域结合的向导RNA。在一些实施方案中，多核苷酸可编程核苷酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中，碱基编辑器是胞苷碱基编辑器(CBE)。在一些实施方案中，碱基编辑器是腺嘌呤或腺苷碱基编辑器(ABE)。在一些实施方案中，碱基编辑器是腺嘌呤或腺苷碱基编辑器(ABE)或胞苷碱基编辑器(CBE)。

“碱基编辑活性”是指发生作用以化学改变多核苷酸内的碱基。在一个实施方案中，将第一个碱基转化为第二个碱基。在一个实施方案中，碱基编辑活性是胞苷脱氨酶活性，例如，将靶C·G转化为T·A。在另一个实施方案中，碱基编辑活性是腺苷脱氨酶活性，例如，将A·T转化为G·C。

术语“Cas9”或“Cas9结构域”是指RNA引导的核酸酶，其包含Cas9蛋白或其片段(例如，包含Cas9的活性、无活性或部分活性的DNA切割结构域和/或Cas9的gRNA结合结构域的蛋白质)。Cas9核酸酶有时也称为casnl核酸酶或CRISPR(成簇的规律间隔的短回文重复序列)相关核酸酶。

术语“保守氨基酸取代”或“保守突变”是指一种氨基酸被另一种具有共同特性的氨基酸取代。定义单个氨基酸之间共同特性的一种功能途径是分析同源生物体的对应蛋白质之间氨基酸变化的归一化频率(Schulz,G.E.和Schirmer,R.H.,Principles of ProteinStructure,Springer-Verlag,New York(1979))。根据这样的分析，可以定义氨基酸组，其中组内的氨基酸优先彼此交换，因此在它们对整体蛋白质结构的影响方面彼此最相似(Schulz,G.E.和Schirmer,R.H.，同上)。保守突变的非限制性实例包括氨基酸的氨基酸取代，例如赖氨酸取代精氨酸，反之亦然，使得可以保持正电荷；谷氨酸取代天冬氨酸，反之亦然，使得可以保持负电荷；丝氨酸取代苏氨酸，使得可以保持游离-OH；以及谷氨酰胺取代天冬酰胺，使得可以保持游离-NH₂。

如本文可互换使用的术语“编码序列”或“蛋白质编码序列”是指编码蛋白质的多核苷酸片段。编码序列也可以称为开放阅读框。所述区域或序列在更靠近5'端处以起始密码子为界，并且在更靠近3'端处以终止密码子为界。对本文所述的碱基编辑器有用的终止密码子包括以下：

如本文所用，术语“调理(condition/conditioning)”是指患者准备接受含有造血干细胞的移植物的过程。这样的程序促进了造血干细胞移植物的植入(例如，根据在调理程序和后续造血干细胞移植后从患者分离的血液样品中的活造血干细胞数量的持续增加推断)。根据本文所述的方法，可以通过向患者施用能够结合由造血干细胞表达的抗原诸如CD117、CXCR4、CD135、CD90、CD45和/或CD34的抗体或其抗原结合片段来使患者得到调理以进行造血干细胞移植治疗。预计这种抗体通过补体介导的细胞毒性和抗体依赖性细胞介导的细胞毒性起作用。如本文所述，移植的细胞已经过编辑，使得抗体不再结合抗原(例如，CD117、CXCR4、CD135、CD90、CD45和/或CD34)。对需要造血干细胞移植治疗的患者施用能够结合一种或多种抗原(例如，CD117、CXCR4、CD135、CD90、CD45、CD34)的抗体、其抗原结合片段、药物-抗体缀合物或表达嵌合抗原受体的T细胞(CAR-T)可以促进造血干细胞移植物的植入，例如，通过选择性消耗内源性造血干细胞，从而创造由外源性造血干细胞移植物填充的空缺。

“胞苷脱氨酶”是指能够催化将氨基转化为羰基的脱氨基反应的多肽或其片段。在一个实施方案中，胞苷脱氨酶将胞嘧啶转化为尿嘧啶或将5-甲基胞嘧啶转化为胸腺嘧啶。PmCDA1(SEQ ID NO:14和15)来源于海七鳃鳗(Petromyzon marinus)(海七鳃鳗胞嘧啶脱氨酶1，“PmCDA1”)、AID(活化诱导的胞苷脱氨酶；AICDA)。示例性AID多肽序列在序列表中提供为SEQ ID NO:16-28和20-23，其来源于哺乳动物(例如，人、猪、牛、马、猴等)。示例性APOBEC胞苷脱氨酶多肽序列在序列表中提供为SEQ ID NO:24-64。另外的示例性胞苷脱氨酶(CDA)序列在序列表中提供为SEQ ID NO:19和65-68。其他示例性胞苷脱氨酶序列，包括APOBEC多肽序列，在序列表中提供为SEQ ID NO:291-413。

如本文所用，术语“脱氨酶”或“脱氨酶结构域”是指催化脱氨反应的蛋白质或酶。

“检测”是指鉴定待检测分析物的存在、不存在或量。在一个实施方案中，检测多核苷酸或多肽中的序列改变。在另一个实施方案中，检测插入缺失的存在。

“可检测标记”是指一种组合物，当其与关注的分子连接时使后者可通过光谱、光化学、生物化学、免疫化学或化学手段检测。例如，有用的标记包括放射性同位素、磁珠、金属珠、胶体颗粒、荧光染料、电子致密试剂、酶(例如，酶联免疫吸附测定(ELISA)中常用的)、生物素、地高辛或半抗原。

“疾病”是指损害或干扰细胞、组织或器官的正常功能的任何疾患或病症。示例性疾病包括血红蛋白病(例如，镰状细胞病)。

“有效量”是指相对于未治疗的患者或未患疾病的个体(即，健康个体)而言改善疾病症状所需的剂或活性化合物(例如，如本文所述的碱基编辑器)的量，或者是足以引发所需生物反应的剂或活性化合物的量。用于实践本发明以治疗疾病的活性化合物的有效量根据施用方式、受试者的年龄、体重和一般健康状况而变化。最终，主治医师或兽医将决定适当的量和剂量方案。此量称为“有效”量。在一个实施方案中，有效量是足以在细胞(例如，体外或体内细胞)中引入关注基因的改变的本发明碱基编辑器的量。在一个实施方案中，有效量是实现治疗效果所需的碱基编辑器的量。这种治疗效果不需要足以改变受试者、组织或器官的所有细胞中的致病基因，而只需要改变存在于受试者、组织或器官中细胞的约1％、5％、10％、25％、50％、75％或更多。在一个实施方案中，有效量足以改善疾病的一种或多种症状。

术语“核酸外切酶”是指能够从游离端消化核酸(例如，RNA或DNA)的蛋白质或多肽。

术语“核酸内切酶”是指能够催化(例如切割)核酸(例如DNA或RNA)内部区域的蛋白质或多肽。

“片段”是指多肽或核酸分子的一部分。这部分含有参考核酸分子或多肽全长的至少约10％、20％、30％、40％、50％、60％、70％、80％或90％。片段可以含有10、20、30、40、50、60、70、80、90或100、200、300、400、500、600、700、800、900或1000个核苷酸或氨基酸。

“向导RNA”或“gRNA”是指多核苷酸或多核苷酸复合物，其对靶序列具有特异性并且可以与多核苷酸可编程核苷酸结合结构域蛋白(例如，Cas9或Cpf1)形成复合物。在一个实施方案中，向导多核苷酸是向导RNA(gRNA)。gRNA可以作为两个或多个RNA的复合物存在，或作为单个RNA分子存在。

如本文所用，术语“造血干细胞”(“HSC”)是指具有自我更新和分化成含有不同谱系的成熟血细胞的多潜能能力的未成熟血细胞，包括但不限于粒细胞(例如，早幼粒细胞、中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞)、红细胞(例如，网织红细胞、红细胞)、血小板(例如，巨核细胞、产生血小板的巨核细胞、血小板)、单核细胞(例如，单核细胞、巨噬细胞)、树突状细胞、小胶质细胞、破骨细胞和淋巴细胞(例如，NK细胞、B细胞和T细胞)。这种细胞可以包括CD34⁺细胞，其为表达CD34细胞表面标记的未成熟细胞(或HSC)。CD34是人类HSC的标志物，并且人类骨髓(BM)细胞的集落形成活性存在于CD34+部分。在人类中，CD34⁺细胞被认为包括具有如上定义的干细胞特性的细胞亚群，而在小鼠中，HSC是CD34^-。在一个实施方案中，使用富集的CD34+BM细胞的移植研究表示在此部分内存在具有长期BM重构能力的HSC。此外，HSC还指长期再增殖HSC(LT-HSC)和短期再增殖HSC(ST-HSC)。LT-HSC和ST-HSC根据功能潜力和细胞表面标志物表达进行区分。例如，人类HSC是CD34⁺、CD38^-、CD45RA^-、CD90⁺、CD49F⁺和lin^-(对成熟谱系标志物(包括CD2、CD3、CD4、CD7、CD8、CD10、CD1 1B、CD19、CD20、CD56、CD235A)呈阴性)。在小鼠中，骨髓LT-HSC是CD34^-、SCA-1⁺、C-kit⁺、CD135^-、Slamfl/CD150⁺、CD48^-和lin-(对成熟谱系标志物(包括Ter119、CD11b、Gr1、CD3、CD4、CD8、B220、IL7ra)呈阴性)，而ST-HSC是CD34⁺、SCA-1⁺、C-kit⁺、CD135^-、Slamfl/CD150⁺和lin^-(对成熟谱系标志物(包括Ter119、CD1 1b、Gr1、CD3、CD4、CD8、B220、IL7ra)呈阴性)。此外，在稳态条件下，ST-HSC比LT-HSC静止性更低，增殖性更强。然而，LT-HSC具有更大的自我更新潜力(即它们可以在整个成年期存活，并且可以通过连续的受体连续移植)，而ST-HSC具有有限的自我更新(即它们只能存活一段有限的时间，并且不具备连续移植潜力)。这些HSC中的任何一种都可以用于本文所述的方法中。ST-HSC特别有用，因为它们可高度增殖，因此可以更快地产生分化的子代。

如本文所用，术语“造血干细胞功能潜力”是指造血干细胞的功能特性，其包括1)多潜能性(指分化成多种不同血细胞谱系的能力，所述谱系包括但不限于粒细胞(例如，早幼粒细胞、中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞)、红细胞(例如，网织红细胞、红细胞)、血小板(例如，巨核细胞、产生血小板的巨核细胞、血小板)、单核细胞(例如，单核细胞、巨噬细胞)、树突细胞、小胶质细胞、破骨细胞和淋巴细胞(例如NK细胞、B细胞和T细胞)；2)自我更新(指造血干细胞产生与母细胞具有同等潜力的子细胞的能力，并且这种能力还可以在个体的生命周期中反复发生而不会耗尽)；以及3)造血干细胞或其子代被重新引入移植受体的能力，然后它们回到造血干细胞壁龛并重新建立生产性和持续性造血。

“杂交”意指互补核碱基之间的氢键合，所述氢键合可以是Watson-Crick、Hoogsteen或反向Hoogsteen氢键合。例如，腺嘌呤与胸腺嘧啶是通过形成氢键配对的互补核碱基。

“增加”是指至少5％、10％、25％、50％、75％或100％的阳性改变。这些值之间的百分比涵盖在此术语中。

术语“碱基修复抑制剂(inhibitor of base repair/base repair inhibitor)”、“IBR”或它们的语法等同物是指能够抑制核酸修复酶(例如碱基切除修复酶)活性的蛋白质。

“内含肽”是蛋白质片段，其能够自切割并在称为蛋白质剪接的过程中将剩余的片段(外显肽)与肽键连接起来。

术语“分离的”、“纯化的”或“生物纯的”是指在不同程度上与在其天然状态下发现的通常伴随其的组分分离的物质。“分离”表示与原始来源或周围环境的分离程度。“纯化”表示高于分离的分离程度。“纯化的”或“生物纯的”蛋白质充分不含其他物质，使得任何杂质不会实质性地影响蛋白质的生物学特性或导致其他不利后果。也就是说，如果当本发明的核酸和肽通过重组DNA技术产生时基本上不含细胞物质、病毒物质或培养基，或者在化学合成时基本上不含化学前体或其他化学物质，则所述核酸或肽是纯化的。纯度和均匀性通常使用分析化学技术例如聚丙烯酰胺凝胶电泳或高效液相色谱法确定。术语“纯化的”可以表示核酸或蛋白质在电泳凝胶中基本上产生一条带。对于可以进行修饰(例如磷酸化或糖基化)的蛋白质，不同的修饰可能会产生不同的分离的蛋白质，这些蛋白质可以单独纯化。

“分离的多核苷酸”是指不含在本发明的核酸分子所来源的生物体的天然存在的基因组中位于所述基因侧翼的基因的核酸(例如DNA)。因此，此术语包括，例如，重组DNA，其被并入载体中；被并入自主复制质粒或病毒中；或被并入原核生物或真核生物的基因组DNA中；或以独立于其他序列的单独分子(例如，通过PCR或限制性核酸内切酶消化产生的cDNA或基因组或cDNA片段)的形式存在。此外，此术语包括从DNA分子以及编码另外的多肽序列的杂交基因的一部分的重组DNA转录的RNA分子。

“分离的多肽”是指本发明的已经从天然伴随它的组分中分离出来的多肽。通常，当多肽按重量不含至少60％与其天然缔合的蛋白质和天然存在的有机分子时，多肽是分离的。优选地，制备物按重量计占本发明的多肽的至少75％，更优选地占至少90％并且最优选地占至少99％。本发明的分离的多肽可以例如通过从天然来源中提取、通过表达编码这一多肽重组核酸或通过化学合成蛋白质来获得。可以通过任何适当的方法(例如柱色谱、聚丙烯酰胺凝胶电泳或通过HPLC分析)测量纯度。

“CD117(C-kit；SCFR)多肽”是指具有与GenBank登录号NP_000213提供的氨基酸序列至少约95％氨基酸序列同一性的结合抗CD117抗体的多肽或其片段。在一些实施方案中，CD117多肽或其片段具有SCF信号活性。示例性CD117多肽序列如下：

＞NP_000213.1肥大/干细胞生长因子受体Kit异构体1前体[智人]

MRGARGAWDFLCVLLLLLRVQTGSSQPSVSPGEPSPPSIHPGKSDLIVRVGDEIRLLCTDPGFVKWTFEILDETNENKQNEWITEKAEATNTGKYTCTNKHGLSNSIYVFVRDPAKLFLVDRSLYGKEDNDTLVRCPLTDPEVTNYSLKGCQGKPLPKDLRFIPDPKAGIMIKSVKRAYHRLCLHCSVDQEGKSVLSEKFILKVRPAFKAVPVVSVSKASYLLREGEEFTVTCTIKDVSSSVYSTWKRENSQTKLQEKYNSWHHGDFNYERQATLTISSARVNDSGVFMCYANNTFGSANVTTTLEVVDKGFINIFPMINTTVFVNDGENVDLIVEYEAFPKPEHQQWIYMNRTFTDKWEDYPKSENESNIRYVSELHLTRLKGTEGGTYTFLVSNSDVNAAIAFNVYVNTKPEILTYDRLVNGMLQCVAAGFPEPTIDWYFCPGTEQRCSASVLPVDVQTLNSSGPPFGKLVVQSSIDSSAFKHNGTVECKAYNDVGKTSAYFNFAFKGNNKEQIHPHTLFTPLLIGFVIVAGMMCIIVMILTYKYLQKPMYEVQWKVVEEINGNNYVYIDPTQLPYDHKWEFPRNRLSFGKTLGAGAFGKVVEATAYGLIKSDAAMTVAVKMLKPSAHLTEREALMSELKVLSYLGNHMNIVNLLGACTIGGPTLVITEYCCYGDLLNFLRRKRDSFICSKQEDHAEAALYKNLLHSKESSCSDSTNEYMDMKPGVSYVVPTKADKRRSVRIGSYIERDVTPAIMEDDELALDLEDLLSFSYQVAKGMAFLASKNCIHRDLAARNILLTHGRITKICDFGLARDIKNDSNYVVKGNARLPVKWMAPESIFNCVYTFESDVWSYGIFLWELFSLGSSPYPGMPVDSKFYKMIKEGFRMLSPEHAPAEMYDIMKTCWDADPLKRPTFKQIVQLIEKQISESTNHIYSNLANCSPNRQKPVVDHSVRINSVGSTASSSQPLLVHDDV(SEQID NO:69)。

“CD117多核苷酸”是指编码CD117多肽的核酸分子。示例性CD117多核苷酸序列如下：

＞NM_000222.2智人KIT原癌基因、受体酪氨酸激酶(KIT)、转录变体1、mRNA

TCTGGGGGCTCGGCTTTGCCGCGCTCGCTGCACTTGGGCGAGAGCTGGAACGTGGACCAGAGCTCGGATCCCATCGCAGCTACCGCGATGAGAGGCGCTCGCGGCGCCTGGGATTTTCTCTGCGTTCTGCTCCTACTGCTTCGCGTCCAGACAGGCTCTTCTCAACCATCTGTGAGTCCAGGGGAACCGTCTCCACCATCCATCCATCCAGGAAAATCAGACTTAATAGTCCGCGTGGGCGACGAGATTAGGCTGTTATGCACTGATCCGGGCTTTGTCAAATGGACTTTTGAGATCCTGGATGAAACGAATGAGAATAAGCAGAATGAATGGATCACGGAAAAGGCAGAAGCCACCAACACCGGCAAATACACGTGCACCAACAAACACGGCTTAAGCAATTCCATTTATGTGTTTGTTAGAGATCCTGCCAAGCTTTTCCTTGTTGACCGCTCCTTGTATGGGAAAGAAGACAACGACACGCTGGTCCGCTGTCCTCTCACAGACCCAGAAGTGACCAATTATTCCCTCAAGGGGTGCCAGGGGAAGCCTCTTCCCAAGGACTTGAGGTTTATTCCTGACCCCAAGGCGGGCATCATGATCAAAAGTGTGAAACGCGCCTACCATCGGCTCTGTCTGCATTGTTCTGTGGACCAGGAGGGCAAGTCAGTGCTGTCGGAAAAATTCATCCTGAAAGTGAGGCCAGCCTTCAAAGCTGTGCCTGTTGTGTCTGTGTCCAAAGCAAGCTATCTTCTTAGGGAAGGGGAAGAATTCACAGTGACGTGCACAATAAAAGATGTGTCTAGTTCTGTGTACTCAACGTGGAAAAGAGAAAACAGTCAGACTAAACTACAGGAGAAATATAATAGCTGGCATCACGGTGACTTCAATTATGAACGTCAGGCAACGTTGACTATCAGTTCAGCGAGAGTTAATGATTCTGGAGTGTTCATGTGTTATGCCAATAATACTTTTGGATCAGCAAATGTCACAACAACCTTGGAAGTAGTAGATAAAGGATTCATTAATATCTTCCCCATGATAAACACTACAGTATTTGTAAACGATGGAGAAAATGTAGATTTGATTGTTGAATATGAAGCATTCCCCAAACCTGAACACCAGCAGTGGATCTATATGAACAGAACCTTCACTGATAAATGGGAAGATTATCCCAAGTCTGAGAATGAAAGTAATATCAGATACGTAAGTGAACTTCATCTAACGAGATTAAAAGGCACCGAAGGAGGCACTTACACATTCCTAGTGTCCAATTCTGACGTCAATGCTGCCATAGCATTTAATGTTTATGTGAATACAAAACCAGAAATCCTGACTTACGACAGGCTCGTGAATGGCATGCTCCAATGTGTGGCAGCAGGATTCCCAGAGCCCACAATAGATTGGTATTTTTGTCCAGGAACTGAGCAGAGATGCTCTGCTTCTGTACTGCCAGTGGATGTGCAGACACTAAACTCATCTGGGCCACCGTTTGGAAAGCTAGTGGTTCAGAGTTCTATAGATTCTAGTGCATTCAAGCACAATGGCACGGTTGAATGTAAGGCTTACAACGATGTGGGCAAGACTTCTGCCTATTTTAACTTTGCATTTAAAGGTAACAACAAAGAGCAAATCCATCCCCACACCCTGTTCACTCCTTTGCTGATTGGTTTCGTAATCGTAGCTGGCATGATGTGCATTATTGTGATGATTCTGACCTACAAATATTTACAGAAACCCATGTATGAAGTACAGTGGAAGGTTGTTGAGGAGATAAATGGAAACAATTATGTTTACATAGACCCAACACAACTTCCTTATGATCACAAATGGGAGTTTCCCAGAAACAGGCTGAGTTTTGGGAAAACCCTGGGTGCTGGAGCTTTCGGGAAGGTTGTTGAGGCAACTGCTTATGGCTTAATTAAGTCAGATGCGGCCATGACTGTCGCTGTAAAGATGCTCAAGCCGAGTGCCCATTTGACAGAACGGGAAGCCCTCATGTCTGAACTCAAAGTCCTGAGTTACCTTGGTAATCACATGAATATTGTGAATCTACTTGGAGCCTGCACCATTGGAGGGCCCACCCTGGTCATTACAGAATATTGTTGCTATGGTGATCTTTTGAATTTTTTGAGAAGAAAACGTGATTCATTTATTTGTTCAAAGCAGGAAGATCATGCAGAAGCTGCACTTTATAAGAATCTTCTGCATTCAAAGGAGTCTTCCTGCAGCGATAGTACTAATGAGTACATGGACATGAAACCTGGAGTTTCTTATGTTGTCCCAACCAAGGCCGACAAAAGGAGATCTGTGAGAATAGGCTCATACATAGAAAGAGATGTGACTCCCGCCATCATGGAGGATGACGAGTTGGCCCTAGACTTAGAAGACTTGCTGAGCTTTTCTTACCAGGTGGCAAAGGGCATGGCTTTCCTCGCCTCCAAGAATTGTATTCACAGAGACTTGGCAGCCAGAAATATCCTCCTTACTCATGGTCGGATCACAAAGATTTGTGATTTTGGTCTAGCCAGAGACATCAAGAATGATTCTAATTATGTGGTTAAAGGAAACGCTCGACTACCTGTGAAGTGGATGGCACCTGAAAGCATTTTCAACTGTGTATACACGTTTGAAAGTGACGTCTGGTCCTATGGGATTTTTCTTTGGGAGCTGTTCTCTTTAGGAAGCAGCCCCTATCCTGGAATGCCGGTCGATTCTAAGTTCTACAAGATGATCAAGGAAGGCTTCCGGATGCTCAGCCCTGAACACGCACCTGCTGAAATGTATGACATAATGAAGACTTGCTGGGATGCAGATCCCCTAAAAAGACCAACATTCAAGCAAATTGTTCAGCTAATTGAGAAGCAGATTTCAGAGAGCACCAATCATATTTACTCCAACTTAGCAAACTGCAGCCCCAACCGACAGAAGCCCGTGGTAGACCATTCTGTGCGGATCAATTCTGTCGGCAGCACCGCTTCCTCCTCCCAGCCTCTGCTTGTGCACGACGATGTCTGAGCAGAATCAGTGTTTGGGTCACCCCTCCAGGAATGATCTCTTCTTTTGGCTTCCATGATGGTTATTTTCTTTTCTTTCAACTTGCATCCAACTCCAGGATAGTGGGCACCCCACTGCAATCCTGTCTTTCTGAGCACACTTTAGTGGCCGATGATTTTTGTCATCAGCCACCATCCTATTGCAAAGGTTCCAACTGTATATATTCCCAATAGCAACGTAGCTTCTACCATGAACAGAAAACATTCTGATTTGGAAAAAGAGAGGGAGGTATGGACTGGGGGCCAGAGTCCTTTCCAAGGCTTCTCCAATTCTGCCCAAAAATATGGTTGATAGTTTACCTGAATAAATGGTAGTAATCACAGTTGGCCTTCAGAACCATCCATAGTAGTATGATGATACAAGATTAGAAGCTGAAAACCTAAGTCCTTTATGTGGAAAACAGAACATCATTAGAACAAAGGACAGAGTATGAACACCTGGGCTTAAGAAATCTAGTATTTCATGCTGGGAATGAGACATAGGCCATGAAAAAAATGATCCCCAAGTGTGAACAAAAGATGCTCTTCTGTGGACCACTGCATGAGCTTTTATACTACCGACCTGGTTTTTAAATAGAGTTTGCTATTAGAGCATTGAATTGGAGAGAAGGCCTCCCTAGCCAGCACTTGTATATACGCATCTATAAATTGTCCGTGTTCATACATTTGAGGGGAAAACACCATAAGGTTTCGTTTCTGTATACAACCCTGGCATTATGTCCACTGTGTATAGAAGTAGATTAAGAGCCATATAAGTTTGAAGGAAACAGTTAATACCATTTTTTAAGGAAACAATATAACCACAAAGCACAGTTTGAACAAAATCTCCTCTTTTAGCTGATGAACTTATTCTGTAGATTCTGTGGAACAAGCCTATCAGCTTCAGAATGGCATTGTACTCAATGGATTTGATGCTGTTTGACAAAGTTACTGATTCACTGCATGGCTCCCACAGGAGTGGGAAAACACTGCCATCTTAGTTTGGATTCTTATGTAGCAGGAAATAAAGTATAGGTTTAGCCTCCTTCGCAGGCATGTCCTGGACACCGGGCCAGTATCTATATATGTGTATGTACGTTTGTATGTGTGTAGACAAATATTTGGAGGGGTATTTTTGCCCTGAGTCCAAGAGGGTCCTTTAGTACCTGAAAAGTAACTTGGCTTTCATTATTAGTACTGCTCTTGTTTCTTTTCACATAGCTGTCTAGAGTAGCTTACCAGAAGCTTCCATAGTGGTGCAGAGGAAGTGGAAGGCATCAGTCCCTATGTATTTGCAGTTCACCTGCACTTAAGGCACTCTGTTATTTAGACTCATCTTACTGTACCTGTTCCTTAGACCTTCCATAATGCTACTGTCTCACTGAAACATTTAAATTTTACCCTTTAGACTGTAGCCTGGATATTATTCTTGTAGTTTACCTCTTTAAAAACAAAACAAAACAAAACAAAAAACTCCCCTTCCTCACTGCCCAATATAAAAGGCAAATGTGTACATGGCAGAGTTTGTGTGTTGTCTTGAAAGATTCAGGTATGTTGCCTTTATGGTTTCCCCCTTCTACATTTCTTAGACTACATTTAGAGAACTGTGGCCGTTATCTGGAAGTAACCATTTGCACTGGAGTTCTATGCTCTCGCACCTTTCCAAAGTTAACAGATTTTGGGGTTGTGTTGTCACCCAAGAGATTGTTGTTTGCCATACTTTGTCTGAAAAATTCCTTTGTGTTTCTATTGACTTCAATGATAGTAAGAAAAGTGGTTGTTAGTTATAGATGTCTAGGTACTTCAGGGGCACTTCATTGAGAGTTTTGTCTTGGATATTCTTGAAAGTTTATATTTTTATAATTTTTTCTTACATCAGATGTTTCTTTGCAGTGGCTTAATGTTTGAAATTATTTTGTGGCTTTTTTTGTAAATATTGAAATGTAGCAATAATGTCTTTTGAATATTCCCAAGCCCATGAGTCCTTGAAAATATTTTTTATATATACAGTAACTTTATGTGTAAATACATAAGCGGCGTAAGTTTAAAGGATGTTGGTGTTCCACGTGTTTTATTCCTGTATGTTGTCCAATTGTTGACAGTTCTGAAGAATTCTAATAAAATGTACATATATAAATCAAAAAAAAAAAAAAAA(SEQ ID NO:70)。

“C-X-C趋化因子受体4型(CXCR4)多肽”是指具有与GenBank登录号NP_001008540提供的氨基酸序列至少约95％氨基酸序列同一性的结合抗CXCR4抗体的多肽或其片段。示例性CXCR4多肽序列如下：

＞NP_001008540.1C-X-C趋化因子受体4型异构体a[智人]

MSIPLPLLQIYTSDNYTEEMGSGDYDSMKEPCFREENANFNKIFLPTIYSIIFLTGIVGNGLVILVMGYQKKLRSMTDKYRLHLSVADLLFVITLPFWAVDAVANWYFGNFLCKAVHVIYTVNLYSSVLILAFISLDRYLAIVHATNSQRPRKLLAEKVVYVGVWIPALLLTIPDFIFANVSEADDRYICDRFYPNDLWVVVFQFQHIMVGLILPGIVILSCYCIIISKLSHSKGHQKRKALKTTVILILAFFACWLPYYIGISIDSFILLEIIKQGCEFENTVHKWISITEALAFFHCCLNPILYAFLGAKFKTSAQHALTSVSRGSSLKILSKGKRGGHSSVSTESESSSFHSS(SEQ ID NO:71)。

“CXCR4多核苷酸”是指编码CXCR4多肽的核酸分子。示例性CXCR4多核苷酸序列如下：

＞NM_003467.2智人C-X-C基序趋化因子受体4(CXCR4)，转录变体2，mRNA

AACTTCAGTTTGTTGGCTGCGGCAGCAGGTAGCAAAGTGACGCCGAGGGCCTGAGTGCTCCAGTAGCCACCGCATCTGGAGAACCAGCGGTTACCATGGAGGGGATCAGTATATACACTTCAGATAACTACACCGAGGAAATGGGCTCAGGGGACTATGACTCCATGAAGGAACCCTGTTTCCGTGAAGAAAATGCTAATTTCAATAAAATCTTCCTGCCCACCATCTACTCCATCATCTTCTTAACTGGCATTGTGGGCAATGGATTGGTCATCCTGGTCATGGGTTACCAGAAGAAACTGAGAAGCATGACGGACAAGTACAGGCTGCACCTGTCAGTGGCCGACCTCCTCTTTGTCATCACGCTTCCCTTCTGGGCAGTTGATGCCGTGGCAAACTGGTACTTTGGGAACTTCCTATGCAAGGCAGTCCATGTCATCTACACAGTCAACCTCTACAGCAGTGTCCTCATCCTGGCCTTCATCAGTCTGGACCGCTACCTGGCCATCGTCCACGCCACCAACAGTCAGAGGCCAAGGAAGCTGTTGGCTGAAAAGGTGGTCTATGTTGGCGTCTGGATCCCTGCCCTCCTGCTGACTATTCCCGACTTCATCTTTGCCAACGTCAGTGAGGCAGATGACAGATATATCTGTGACCGCTTCTACCCCAATGACTTGTGGGTGGTTGTGTTCCAGTTTCAGCACATCATGGTTGGCCTTATCCTGCCTGGTATTGTCATCCTGTCCTGCTATTGCATTATCATCTCCAAGCTGTCACACTCCAAGGGCCACCAGAAGCGCAAGGCCCTCAAGACCACAGTCATCCTCATCCTGGCTTTCTTCGCCTGTTGGCTGCCTTACTACATTGGGATCAGCATCGACTCCTTCATCCTCCTGGAAATCATCAAGCAAGGGTGTGAGTTTGAGAACACTGTGCACAAGTGGATTTCCATCACCGAGGCCCTAGCTTTCTTCCACTGTTGTCTGAACCCCATCCTCTATGCTTTCCTTGGAGCCAAATTTAAAACCTCTGCCCAGCACGCACTCACCTCTGTGAGCAGAGGGTCCAGCCTCAAGATCCTCTCCAAAGGAAAGCGAGGTGGACATTCATCTGTTTCCACTGAGTCTGAGTCTTCAAGTTTTCACTCCAGCTAACACAGATGTAAAAGACTTTTTTTTATACGATAAATAACTTTTTTTTAAGTTACACATTTTTCAGATATAAAAGACTGACCAATATTGTACAGTTTTTATTGCTTGTTGGATTTTTGTCTTGTGTTTCTTTAGTTTTTGTGAAGTTTAATTGACTTATTTATATAAATTTTTTTTGTTTCATATTGATGTGTGTCTAGGCAGGACCTGTGGCCAAGTTCTTAGTTGCTGTATGTCTCGTGGTAGGACTGTAGAAAAGGGAACTGAACATTCCAGAGCGTGTAGTGAATCACGTAAAGCTAGAAATGATCCCCAGCTGTTTATGCATAGATAATCTCTCCATTCCCGTGGAACGTTTTTCCTGTTCTTAAGACGTGATTTTGCTGTAGAAGATGGCACTTATAACCAAAGCCCAAAGTGGTATAGAAATGCTGGTTTTTCAGTTTTCAGGAGTGGGTTGATTTCAGCACCTACAGTGTACAGTCTTGTATTAAGTTGTTAATAAAAGTACATGTTAAACTTAAAAAAAAAAAAAAAAAA(SEQ ID NO:72)。

“CD135多肽”是指具有与GenBank登录号NP_004110提供的氨基酸序列至少约95％氨基酸序列同一性的结合抗CD135抗体的多肽或其片段。示例性CD135多肽序列如下：

＞NP_004110.2受体型酪氨酸蛋白激酶FLT3前体[智人]

MPALARDGGQLPLLVVFSAMIFGTITNQDLPVIKCVLINHKNNDSSVGKSSSYPMVSESPEDLGCALRPQSSGTVYEAAAVEVDVSASITLQVLVDAPGNISCLWVFKHSSLNCQPHFDLQNRGVVSMVILKMTETQAGEYLLFIQSEATNYTILFTVSIRNTLLYTLRRPYFRKMENQDALVCISESVPEPIVEWVLCDSQGESCKEESPAVVKKEEKVLHELFGTDIRCCARNELGRECTRLFTIDLNQTPQTTLPQLFLKVGEPLWIRCKAVHVNHGFGLTWELENKALEEGNYFEMSTYSTNRTMIRILFAFVSSVARNDTGYYTCSSSKHPSQSALVTIVEKGFINATNSSEDYEIDQYEEFCFSVRFKAYPQIRCTWTFSRKSFPCEQKGLDNGYSISKFCNHKHQPGEYIFHAENDDAQFTKMFTLNIRRKPQVLAEASASQASCFSDGYPLPSWTWKKCSDKSPNCTEEITEGVWNRKANRKVFGQWVSSSTLNMSEAIKGFLVKCCAYNSLGTSCETILLNSPGPFPFIQDNISFYATIGVCLLFIVVLTLLICHKYKKQFRYESQLQMVQVTGSSDNEYFYVDFREYEYDLKWEFPRENLEFGKVLGSGAFGKVMNATAYGISKTGVSIQVAVKMLKEKADSSEREALMSELKMMTQLGSHENIVNLLGACTLSGPIYLIFEYCCYGDLLNYLRSKREKFHRTWTEIFKEHNFSFYPTFQSHPNSSMPGSREVQIHPDSDQISGLHGNSFHSEDEIEYENQKRLEEEEDLNVLTFEDLLCFAYQVAKGMEFLEFKSCVHRDLAARNVLVTHGKVVKICDFGLARDIMSDSNYVVRGNARLPVKWMAPESLFEGIYTIKSDVWSYGILLWEIFSLGVNPYPGIPVDANFYKLIQNGFKMDQPFYATEEIYIIMQSCWAFDSRKRPSFPNLTSFLGCQLADAEEAMYQNVDGRVSECPHTYQNRRPFSREMDLGLLSPQAQVEDS(SEQ ID NO:73)。

“CD135多核苷酸”是指编码CD135多肽的核酸分子。示例性CD135多核苷酸序列如下：

＞NM_004119.2智人fms相关酪氨酸激酶3(FLT3)，转录变体1，mRNA

ACCTGCAGCGCGAGGCGCGCCGCTCCAGGCGGCATCGCAGGGCTGGGCCGGCGCGGCCTGGGGACCCCGGGCTCCGGAGGCCATGCCGGCGTTGGCGCGCGACGGCGGCCAGCTGCCGCTGCTCGTTGTTTTTTCTGCAATGATATTTGGGACTATTACAAATCAAGATCTGCCTGTGATCAAGTGTGTTTTAATCAATCATAAGAACAATGATTCATCAGTGGGGAAGTCATCATCATATCCCATGGTATCAGAATCCCCGGAAGACCTCGGGTGTGCGTTGAGACCCCAGAGCTCAGGGACAGTGTACGAAGCTGCCGCTGTGGAAGTGGATGTATCTGCTTCCATCACACTGCAAGTGCTGGTCGACGCCCCAGGGAACATTTCCTGTCTCTGGGTCTTTAAGCACAGCTCCCTGAATTGCCAGCCACATTTTGATTTACAAAACAGAGGAGTTGTTTCCATGGTCATTTTGAAAATGACAGAAACCCAAGCTGGAGAATACCTACTTTTTATTCAGAGTGAAGCTACCAATTACACAATATTGTTTACAGTGAGTATAAGAAATACCCTGCTTTACACATTAAGAAGACCTTACTTTAGAAAAATGGAAAACCAGGACGCCCTGGTCTGCATATCTGAGAGCGTTCCAGAGCCGATCGTGGAATGGGTGCTTTGCGATTCACAGGGGGAAAGCTGTAAAGAAGAAAGTCCAGCTGTTGTTAAAAAGGAGGAAAAAGTGCTTCATGAATTATTTGGGACGGACATAAGGTGCTGTGCCAGAAATGAACTGGGCAGGGAATGCACCAGGCTGTTCACAATAGATCTAAATCAAACTCCTCAGACCACATTGCCACAATTATTTCTTAAAGTAGGGGAACCCTTATGGATAAGGTGCAAAGCTGTTCATGTGAACCATGGATTCGGGCTCACCTGGGAATTAGAAAACAAAGCACTCGAGGAGGGCAACTACTTTGAGATGAGTACCTATTCAACAAACAGAACTATGATACGGATTCTGTTTGCTTTTGTATCATCAGTGGCAAGAAACGACACCGGATACTACACTTGTTCCTCTTCAAAGCATCCCAGTCAATCAGCTTTGGTTACCATCGTAGAAAAGGGATTTATAAATGCTACCAATTCAAGTGAAGATTATGAAATTGACCAATATGAAGAGTTTTGTTTTTCTGTCAGGTTTAAAGCCTACCCACAAATCAGATGTACGTGGACCTTCTCTCGAAAATCATTTCCTTGTGAGCAAAAGGGTCTTGATAACGGATACAGCATATCCAAGTTTTGCAATCATAAGCACCAGCCAGGAGAATATATATTCCATGCAGAAAATGATGATGCCCAATTTACCAAAATGTTCACGCTGAATATAAGAAGGAAACCTCAAGTGCTCGCAGAAGCATCGGCAAGTCAGGCGTCCTGTTTCTCGGATGGATACCCATTACCATCTTGGACCTGGAAGAAGTGTTCAGACAAGTCTCCCAACTGCACAGAAGAGATCACAGAAGGAGTCTGGAATAGAAAGGCTAACAGAAAAGTGTTTGGACAGTGGGTGTCGAGCAGTACTCTAAACATGAGTGAAGCCATAAAAGGGTTCCTGGTCAAGTGCTGTGCATACAATTCCCTTGGCACATCTTGTGAGACGATCCTTTTAAACTCTCCAGGCCCCTTCCCTTTCATCCAAGACAACATCTCATTCTATGCAACAATTGGTGTTTGTCTCCTCTTCATTGTCGTTTTAACCCTGCTAATTTGTCACAAGTACAAAAAGCAATTTAGGTATGAAAGCCAGCTACAGATGGTACAGGTGACCGGCTCCTCAGATAATGAGTACTTCTACGTTGATTTCAGAGAATATGAATATGATCTCAAATGGGAGTTTCCAAGAGAAAATTTAGAGTTTGGGAAGGTACTAGGATCAGGTGCTTTTGGAAAAGTGATGAACGCAACAGCTTATGGAATTAGCAAAACAGGAGTCTCAATCCAGGTTGCCGTCAAAATGCTGAAAGAAAAAGCAGACAGCTCTGAAAGAGAGGCACTCATGTCAGAACTCAAGATGATGACCCAGCTGGGAAGCCACGAGAATATTGTGAACCTGCTGGGGGCGTGCACACTGTCAGGACCAATTTACTTGATTTTTGAATACTGTTGCTATGGTGATCTTCTCAACTATCTAAGAAGTAAAAGAGAAAAATTTCACAGGACTTGGACAGAGATTTTCAAGGAACACAATTTCAGTTTTTACCCCACTTTCCAATCACATCCAAATTCCAGCATGCCTGGTTCAAGAGAAGTTCAGATACACCCGGACTCGGATCAAATCTCAGGGCTTCATGGGAATTCATTTCACTCTGAAGATGAAATTGAATATGAAAACCAAAAAAGGCTGGAAGAAGAGGAGGACTTGAATGTGCTTACATTTGAAGATCTTCTTTGCTTTGCATATCAAGTTGCCAAAGGAATGGAATTTCTGGAATTTAAGTCGTGTGTTCACAGAGACCTGGCCGCCAGGAACGTGCTTGTCACCCACGGGAAAGTGGTGAAGATATGTGACTTTGGATTGGCTCGAGATATCATGAGTGATTCCAACTATGTTGTCAGGGGCAATGCCCGTCTGCCTGTAAAATGGATGGCCCCCGAAAGCCTGTTTGAAGGCATCTACACCATTAAGAGTGATGTCTGGTCATATGGAATATTACTGTGGGAAATCTTCTCACTTGGTGTGAATCCTTACCCTGGCATTCCGGTTGATGCTAACTTCTACAAACTGATTCAAAATGGATTTAAAATGGATCAGCCATTTTATGCTACAGAAGAAATATACATTATAATGCAATCCTGCTGGGCTTTTGACTCAAGGAAACGGCCATCCTTCCCTAATTTGACTTCGTTTTTAGGATGTCAGCTGGCAGATGCAGAAGAAGCGATGTATCAGAATGTGGATGGCCGTGTTTCGGAATGTCCTCACACCTACCAAAACAGGCGACCTTTCAGCAGAGAGATGGATTTGGGGCTACTCTCTCCGCAGGCTCAGGTCGAAGATTCGTAGAGGAACAATTTAGTTTTAAGGACTTCATCCCTCCACCTATCCCTAACAGGCTGTAGATTACCAAAACAAGATTAATTTCATCACTAAAAGAAAATCTATTATCAACTGCTGCTTCACCAGACTTTTCTCTAGAAGCTGTCTGCGTTTACTCTTGTTTTCAAAGGGACTTTTGTAAAATCAAATCATCCTGTCACAAGGCAGGAGGAGCTGATAATGAACTTTATTGGAGCATTGATCTGCATCCAAGGCCTTCTCAGGCTGGCTTGAGTGAATTGTGTACCTGAAGTACAGTATATTCTTGTAAATACATAAAACAAAAGCATTTTGCTAAGGAGAAGCTAATATGATTTTTTAAGTCTATGTTTTAAAATAATATGTAAATTTTTCAGCTATTTAGTGATATATTTTATGGGTGGGAATAAAATTTCTACTACAGAATTGCCCATTATTGAATTATTTACATGGTATAATTAGGGCAAGTCTTAACTGGAGTTCACGAACCCCCTGAAATTGTGCACCCATAGCCACCTACACATTCCTTCCAGAGCACGTGTGCTTTTACCCCAAGATACAAGGAATGTGTAGGCAGCTATGGTTGTCACAGCCTAAGATTTCTGCAACAACAGGGGTTGTATTGGGGGAAGTTTATAATGAATAGGTGTTCTACCATAAAGAGTAATACATCACCTAGACACTTTGGCGGCCTTCCCAGACTCAGGGCCAGTCAGAAGTAACATGGAGGATTAGTATTTTCAATAAAGTTACTCTTGTCCCCACAAAAAAA(SEQ ID NO:74)。

“CD90多肽”是指具有与GenBank登录号NP_001298089提供的氨基酸序列至少约95％氨基酸序列同一性的结合抗CD90抗体的多肽或其片段。示例性CD90多肽序列如下：

＞NP_001298089.1thy-1膜糖蛋白异构体1前蛋白原[智人]

MNLAISIALLLTVLQVSRGQKVTSLTACLVDQSLRLDCRHENTSSSPIQYEFSLTRETKKHVLFGTVGVPEHTYRSRTNFTSKYNMKVLYLSAFTSKDEGTYTCALHHSGHSPPISSQNVTVLRDKLVKCEGISLLAQNTSWLLLLLLSLSLLQATDFMSL(SEQ ID NO:75)。

“CD90多核苷酸”是指编码CD90多肽的核酸分子。示例性CD90多核苷酸序列如下：

＞NM_006288.5智人Thy-1细胞表面抗原(THY1)，转录变体1，mRNA

AGCAACCGGAGGCGGCGGCGCGTCTGGAGGAGGCTGCAGCAGCGGAAGACCCCAGTCCAGATCCAGGACTGAGATCCCAGAACCATGAACCTGGCCATCAGCATCGCTCTCCTGCTAACAGTCTTGCAGGTCTCCCGAGGGCAGAAGGTGACCAGCCTAACGGCCTGCCTAGTGGACCAGAGCCTTCGTCTGGACTGCCGCCATGAGAATACCAGCAGTTCACCCATCCAGTACGAGTTCAGCCTGACCCGTGAGACAAAGAAGCACGTGCTCTTTGGCACTGTGGGGGTGCCTGAGCACACATACCGCTCCCGAACCAACTTCACCAGCAAATACAACATGAAGGTCCTCTACTTATCCGCCTTCACTAGCAAGGACGAGGGCACCTACACGTGTGCACTCCACCACTCTGGCCATTCCCCACCCATCTCCTCCCAGAACGTCACAGTGCTCAGAGACAAACTGGTCAAGTGTGAGGGCATCAGCCTGCTGGCTCAGAACACCTCGTGGCTGCTGCTGCTCCTGCTCTCCCTCTCCCTCCTCCAGGCCACGGATTTCATGTCCCTGTGACTGGTGGGGCCCATGGAGGAGACAGGAAGCCTCAAGTTCCAGTGCAGAGATCCTACTTCTCTGAGTCAGCTGACCCCCTCCCCCCAATCCCTCAAACCTTGAGGAGAAGTGGGGACCCCACCCCTCATCAGGAGTTCCAGTGCTGCATGCGATTATCTACCCACGTCCACGCGGCCACCTCACCCTCTCCGCACACCTCTGGCTGTCTTTTTGTACTTTTTGTTCCAGAGCTGCTTCTGTCTGGTTTATTTAGGTTTTATCCTTCCTTTTCTTTGAGAGTTCGTGAAGAGGGAAGCCAGGATTGGGGACCTGATGGAGAGTGAGAGCATGTGAGGGGTAGTGGGATGGTGGGGTACCAGCCACTGGAGGGGTCATCCTTGCCCATCGGGACCAGAAACCTGGGAGAGACTTGGATGAGGAGTGGTTGGGCTGTGCCTGGGCCTAGCACGGACATGGTCTGTCCTGACAGCACTCCTCGGCAGGCATGGCTGGTGCCTGAAGACCCCAGATGTGAGGGCACCACCAAGAATTTGTGGCCTACCTTGTGAGGGAGAGAACTGAGCATCTCCAGCATTCTCAGCCACAACCAAAAAAAAATAAAAAGGGCAGCCCTCCTTACCACTGTGGAAGTCCCTCAGAGGCCTTGGGGCATGACCCAGTGAAGATGCAGGTTTGACCAGGAAAGCAGCGCTAGTGGAGGGTTGGAGAAGGAGGTAAAGGATGAGGGTTCATCATCCCTCCCTGCCTAAGGAAGCTAAAAGCATGGCCCTGCTGCCCCTCCCTGCCTCCACCCACAGTGGAGAGGGCTACAAAGGAGGACAAGACCCTCTCAGGCTGTCCCAAGCTCCCAAGAGCTTCCAGAGCTCTGACCCACAGCCTCCAAGTCAGGTGGGGTGGAGTCCCAGAGCTGCACAGGGTTTGGCCCAAGTTTCTAAGGGAGGCACTTCCTCCCCTCGCCCATCAGTGCCAGCCCCTGCTGGCTGGTGCCTGAGCCCCTCAGACAGCCCCCTGCCCCGCAGGCCTGCCTTCTCAGGGACTTCTGCGGGGCCTGAGGCAAGCCATGGAGTGAGACCCAGGAGCCGGACACTTCTCAGGAAATGGCTTTTCCCAACCCCCAGCCCCCACCCGGTGGTTCTTCCTGTTCTGTGACTGTGTATAGTGCCACCACAGCTTATGGCATCTCATTGAGGACAAAGAAAACTGCACAATAAAACCAAGCCTCTGGAATCTGTCCTCGTGTCCACCTGGCCTTCGCTCCTCCAGCAGTGCCTGCCTGCCCCCGCTTCGCTGGGGTCTCCACGGGTGAGGCTGGGGAACGCCACCTCTTCCTCTTCCCTGACTTCTCCCCAACCACTTAGTAGCAACGCTACCCCAGGGGCTAATGACTGCACACTGGGCTTCTTTTCAGAATGACCCTAACGAGACACATTTGCCCAAATAAACGAACATCCCATGTCTGCTGACTCACCTGGCTGGAACAACATGCTTACTGCCAACATGTGGGCCGAACCACATGGCCCTGGCTCTGGAATGCACAAGTGGCTTTGCGTGAATCTGCGCTAAGCTATGCAGTCTGCTTTTTCTTCTCAGCTCTGGTAGTTCTTCAGAAATGTACCCTCCAGGCACATCCACTATTGCGAGGGTGAGCACGAAGGGTGGGAGATGCCCATGTCCTCAAGGCATCACTTCCTAAATCCAAAAGCATCGGCAGGAGAAAGGACTGGGGACAAATACTGTCCCTTCGGGAGTAGGGAGGGAACACTGAGGCCCATCCCTGGCTCCTTCCCTAAAAGTAGAGTAAAATGGAAGCGAGCATCCTGGGATTGGGGGCAAGAGGGGGACCGCAGGGTAGCTGTGGGTTCCAACTGCTGTCAGAGTCAGAGAGGCAGCCCCAAGCCAGCCTCCCTGCTTTGCCAGGGAATTTGGGGGAGGAAGGTGACAGCTGCCCAGAGGCTGACTCATCTGATATTTAGCACTGGGTAGGATGATTGTTTCTGAGCATTTTTCTTAAAGGCCTCAGATCTAAATTATGCCACCGGCTCCCACTCTTGCTACCTCCCGTCAACTTCTCTGCCTTGCCTTCCACCCCTGTAGTTACCATACACAGAGGAGGAGGAGCTGTCCTTGTCCCAGGTTGGGAGGCTGACAACCCCTTAGCAAGATGCTGCCAGCCCAGAGCTCTCCAAGGGGAGGAACACCCCTGAGACTCAGGCCCCTCTCCTTCAGCCCTGCTTGGGCTGCAAGCGCCGTGCCAAGGAAAGGCATCTTGGTGAGAAGAGCTGCTGTGGGGGAAGGGAGATCAAATGCCAGAGAAATGTGGGGTGCCCCACCCTCAGGATAGTAAAAGAGTATGGAGGTATTTCTGGAAGGAAATGAGCGGCACTGTGTGAAGCCTCGCACCTGTGTGACACTTCCTATGGGGTCTTTGTCACACTCTAGTACTATGTCCCTGAAGAGTTTAGCAGCCACACTCTTAGAAGGGTGCTGGGAGATGGTGTTGCCCTCTGCAGCCATGTTTAGGGGAGCGGAACCTGAGGCCCACAGTGGGTGAGATTAGCTCAAGAAGCCACAGAGGCCACCAGAGGGCCACGGACTTCGGAAAGGAGAAGAGAAGAACAGGGCATCAGGCCTCACAACGCAAACCTACCCAGAGATGGGCACAGTGGCTCATGCCTGTAATCCCACCACTTTGGGAAGAGGCGGATCGCTTGAGGTCAGGAGTTCGAGACTAGCCTCGAAACCCTATCTCTACTAAAAATACAAAAATTAGCCAGGCATGGTGGCCTGCGCCTGTAATCCCAGCTACTCAGGAGGCTGAGGCAGGAGAATCACTTGAACCCGGGAGGCGGAGGTTGCAGTGAGCCAAGATTGCACCACTGCACTCCAGCCTGGGAGATAGAGTGAGACTCCATCTCAAAAAAATAAAAAATAAAATAAACCTACCCGGAATGACCATGCTGAGGACTGGGAGCCCGCAGACTTTCAGCCACAGGCCGCGACAGCCGTGGGTCCCTCCCTGGTCAAGTCAGCAGGCCTTGTGGAGGCTGTGGGGTATCTGTGGTGACTCAGGTAATTATAGAGGGCTGGCCCCCAGCCCTGGTTCCTGTACACATGCCCCAACCCCATCCCCATCCACTCCCTCGCCAGTCCTAACCTCTTTCCTGGGTCCCCCCCCTTCAGCACCTAAGTCCATACCTAGGGCCGTGGAATTCCCGCTCAAGAGCAACAGAAGCCCCTCTCTGCACCCCCATTTCTGGACTGGATTGTCCACTGAGACGCGCAATGTCTGCATCTCTGACATCTAGAGGCTTCCTCGGGAAGGGCATGGGGATCTCCGTGAGATGTGGGGACTTTCACTGGCCAACCAAGAAATCTACACAGCGTCCGGGGACCTGTGACACACATCCCTCCCGCCTCCTCAACCTGATGTCCCTCTCTGAATCTGCAGCTTTCGTGCTGTGAAGGTGTCTTTACATGTGAAACAAACAAACCCAAGTCAAGAGTAAATCATCTCATTTACTAGTGAGAAAATGTTGGAGCTGGAGTCCTTCAGAGAGTCCTGGCCAGGCAAGAGGGCCATCAGCTCTCTTCTGCTCAACAGGGGCTCTCAGCCTCAGGACACTCTCAGGCCTGGAATGTCCCCAACACACTCAAGGAGAAACATGTCCTGTGCAGACCCACAGGAGGCATCTTTGCCCGGCACAAGGAAGAGCTGGGGTCAGTGGGACCTGTAGATGTAGACACATCATATGGAGGGTGGGTAGGACCAATGTGGCAGCTTCATGGAGGCCAAGTGTGGCTCTGCACCAGGAAGGGGCTGTGATGGCTGGAGGTGCCCAGCAGTGCAGGCGGGGAGTGCCTGGCAGTGGCGTGGCCAGGTGGAGGCCACCTGTCAAGTTTGCAATAAAGCAGTTTCCTGAATTTGGTGAGAA(SEQ ID NO:76)。

“CD45多肽”是指具有与GenBank登录号NP_001254727提供的氨基酸序列至少约95％氨基酸序列同一性的结合抗CD45抗体的多肽或其片段。示例性CD45多肽序列如下：

＞NP_001254727.1受体型酪氨酸-蛋白质磷酸酶C异构体5前体[智人]

MTMYLWLKLLAFGFAFLDTEVFVTGQSPTPSPTGHLQAEEQGSQSKSPNLKSREADSSAFSWWPKAREPLTNHWSKSKSPKAEELGV(SEQ ID NO:77)。

“CD45多核苷酸”是指编码CD45多肽的核酸分子。示例性CD45多核苷酸序列如下：

＞NM_001267798.2智人蛋白质酪氨酸磷酸酶受体C型(PTPRC)，转录变体5，mRNA

GACATCATCACCTAGCAGTTCATGCAGCTAGCAAGTGGTTTGTTCTTAGGGTAACAGAGGAGGAAATTGTTCCTCGTCTGATAAGACAACAGTGGAGAAAGGACGCATGCTGTTTCTTAGGGACACGGCTGACTTCCAGATATGACCATGTATTTGTGGCTTAAACTCTTGGCATTTGGCTTTGCCTTTCTGGACACAGAAGTATTTGTGACAGGGCAAAGCCCAACACCTTCCCCCACTGGCCATCTGCAAGCTGAGGAGCAAGGAAGCCAATCCAAGTCACCAAACCTCAAAAGTAGGGAAGCTGACAGTTCAGCCTTCAGTTGGTGGCCAAAGGCCCGAGAGCCCCTCACAAACCACTGGAGTAAGTCCAAGAGTCCAAAAGCTGAGGAACTTGGAGTCTGATGTTCAAGAGCAGGAAGCAGCCAGCACGAGAGAAAGATGAAGACCAGAAGACTCAGCAAGCTCACTTCTCCTACCTTCTTGTGCCTGCTTTTTCTAGCCGTGCTGGCAGTTGCTTGGATGATGCCCACTCATATTGGGTGGGGGTGGGGGGGTTGGGGAGGGTCTGCCTCCCCCAGTCCACTGACTCAAATGTTAATCTCCCTTGGCAATACGCTCACAGGCACACCCAGGAACAATACTTTGCATCCTTCAATCCAATCAAGTTGACACTCAATATTAACCATCAAATACTATTATAAGGAGAATGTTGCATGATTTTCCTTCTAGTCTGTTTGTAATTCACATCTAATGAAAGAGTGAGAGTGGACGATAAAGGGAACTTGTTGAAACATTTCTCTCAAAGCAAAAGGGATCATTGGAAGCAGGCAGACACCAGAATTGGTTTAACCTAAAAATAACAAATTAATAATTATCAAGTCTATAATGATGACAGTGACTTAATGTGAATAGAAAGAATTCTAAACTCTCTCCTTCCTTCCTCCCTCCCTTCTTTCCTACTTTCTTTCCACTCCCTTTCTCCCACCCCCTTTTCTTTTCCTTTCTTTTCTCCCACCCTCTCTCCCTCCCTTTCTTTTATTCAATGCATAGTAGTTGAAAAAATCTAAAGTTAGACCTGATTTTACACTGAAGACTAGAGGTAGTTACTATCCTATTACTGTACTTAGTTGGCTATGCTGGCATGTCATTATGGGTAAAAGTTTGATGGATTTATTTGTGAGTTATTTGGTTATGAAAATCTAGAGATTGAAGTTTTTCATTAGAAAATAACACACATAACAAGTCTATGATCATTTTGCATTTCTGTAATCACAGAATAGTTCTGCAATATTTCATGTATATTGGAATTGAAGTTCAATTGAATTTTATCTGTATTTAGTAAAAATTAACTTTAGCTTTGATACTAATGAATAAAGCTGGGTTTTTTATTTA(SEQ ID NO:78)。

“CD34多肽”是指具有与GenBank登录号NP_001020280提供的氨基酸序列至少约95％氨基酸序列同一性的结合抗CD34抗体的多肽或其片段。示例性CD34多肽序列如下：

＞NP_001020280.1造血祖细胞抗原CD34异构体前体[智人]

MLVRRGARAGPRMPRGWTALCLLSLLPSGFMSLDNNGTATPELPTQGTFSNVSTNVSYQETTTPSTLGSTSLHPVSQHGNEATTNITETTVKFTSTSVITSVYGNTNSSVQSQTSVISTVFTTPANVSTPETTLKPSLSPGNVSDLSTTSTSLATSPTKPYTSSSPILSDIKAEIKCSGIREVKLTQGICLEQNKTSSCAEFKKDRGEGLARVLCGEEQADADAGAQVCSLLLAQSEVRPQCLLLVLANRTEISSKLQLMKKHQSDLKKLGILDFTEQDVASHQSYSQKTLIALVTSGALLAVLGITGYFLMNRRSWSPTGERLGEDPYYTENGGGQGYSSGPGTSPEAQGKASVNRGAQENGTGQATSRNGHSARQHVVADTEL(SEQ ID NO:79)。

“CD34多核苷酸”是指编码CD34多肽的核酸分子。示例性CD34多核苷酸序列如下：

＞NM_001025109.2智人CD34分子(CD34)，转录变体1，mRNA

AGTGTCTTCCACTCGGTGCGTCTCTCTAGGAGCCGCGCGGGAAGGATGCTGGTCCGCAGGGGCGCGCGCGCAGGGCCCAGGATGCCGCGGGGCTGGACCGCGCTTTGCTTGCTGAGTTTGCTGCCTTCTGGGTTCATGAGTCTTGACAACAACGGTACTGCTACCCCAGAGTTACCTACCCAGGGAACATTTTCAAATGTTTCTACAAATGTATCCTACCAAGAAACTACAACACCTAGTACCCTTGGAAGTACCAGCCTGCACCCTGTGTCTCAACATGGCAATGAGGCCACAACAAACATCACAGAAACGACAGTCAAATTCACATCTACCTCTGTGATAACCTCAGTTTATGGAAACACAAACTCTTCTGTCCAGTCACAGACCTCTGTAATCAGCACAGTGTTCACCACCCCAGCCAACGTTTCAACTCCAGAGACAACCTTGAAGCCTAGCCTGTCACCTGGAAATGTTTCAGACCTTTCAACCACTAGCACTAGCCTTGCAACATCTCCCACTAAACCCTATACATCATCTTCTCCTATCCTAAGTGACATCAAGGCAGAAATCAAATGTTCAGGCATCAGAGAAGTGAAATTGACTCAGGGCATCTGCCTGGAGCAAAATAAGACCTCCAGCTGTGCGGAGTTTAAGAAGGACAGGGGAGAGGGCCTGGCCCGAGTGCTGTGTGGGGAGGAGCAGGCTGATGCTGATGCTGGGGCCCAGGTATGCTCCCTGCTCCTTGCCCAGTCTGAGGTGAGGCCTCAGTGTCTACTGCTGGTCTTGGCCAACAGAACAGAAATTTCCAGCAAACTCCAACTTATGAAAAAGCACCAATCTGACCTGAAAAAGCTGGGGATCCTAGATTTCACTGAGCAAGATGTTGCAAGCCACCAGAGCTATTCCCAAAAGACCCTGATTGCACTGGTCACCTCGGGAGCCCTGCTGGCTGTCTTGGGCATCACTGGCTATTTCCTGATGAATCGCCGCAGCTGGAGCCCCACAGGAGAAAGGCTGGGCGAAGACCCTTATTACACGGAAAACGGTGGAGGCCAGGGCTATAGCTCAGGACCTGGGACCTCCCCTGAGGCTCAGGGAAAGGCCAGTGTGAACCGAGGGGCTCAGGAAAACGGGACCGGCCAGGCCACCTCCAGAAACGGCCATTCAGCAAGACAACACGTGGTGGCTGATACCGAATTGTGACTCGGCTAGGTGGGGCAAGGCTGGGCAGTGTCCGAGAGAGCACCCCTCTCTGCATCTGACCACGTGCTACCCCCATGCTGGAGGTGACATCTCTTACGCCCAACCCTTCCCCACTGCACACACCTCAGAGGCTGTTCTTGGGGCCCTACACCTTGAGGAGGGGCAGGTAAACTCCTGTCCTTTACACATTCGGCTCCCTGGAGCCAGACTCTGGTCTTCTTTGGGTAAACGTGTGACGGGGGAAAGCCAAGGTCTGGAGAAGCTCCCAGGAACAATCGATGGCCTTGCAGCACTCACACAGGACCCCCTTCCCCTACCCCCTCCTCTCTGCCGCAATACAGGAACCCCCAGGGGAAAGATGAGCTTTTCTAGGCTACAATTTTCTCCCAGGAAGCTTTGATTTTTACCGTTTCTTCCCTGTATTTTCTTTCTCTACTTTGAGGAAACCAAAGTAACCTTTTGCACCTGCTCTCTTGTAATGATATAGCCAGAAAAACGTGTTGCCTTGAACCACTTCCCTCATCTCTCCTCCAAGACACTGTGGACTTGGTCACCAGCTCCTCCCTTGTTCTCTAAGTTCCACTGAGCTCCATGTGCCCCCTCTACCATTTGCAGAGTCCTGCACAGTTTTCTGGCTGGAGCCTAGAACAGGCCTCCCAAGTTTTAGGACAAACAGCTCAGTTCTAGTCTCTCTGGGGCCACACAGAAACTCTTTTTGGGCTCCTTTTTCTCCCTCTGGATCAAAGTAGGCAGGACCATGGGACCAGGTCTTGGAGCTGAGCCTCTCACCTGTACTCTTCCGAAAAATCCTCTTCCTCTGAGGCTGGATCCTAGCCTTATCCTCTGATCTCCATGGCTTCCTCCTCCCTCCTGCCGACTCCTGGGTTGAGCTGTTGCCTCAGTCCCCCAACAGATGCTTTTCTGTCTCTGCCTCCCTCACCCTGAGCCCCTTCCTTGCTCTGCACCCCCATATGGTCATAGCCCAGATCAGCTCCTAACCCTTATCACCAGCTGCCTCTTCTGTGGGTGACCCAGGTCCTTGTTTGCTGTTGATTTCTTTCCAGAGGGGTTGAGCAGGGATCCTGGTTTCAATGACGGTTGGAAATAGAAATTTCCAGAGAAGAGAGTATTGGGTAGATATTTTTTCTGAATACAAAGTGATGTGTTTAAATACTGCAATTAAAGTGATACTGAAACACATCTGTTATGTGACTCTGTCTTAGCTGGGTGTGTCTGCATGCAAGAGTGACACCCTCCATTAGACCTAGCTAGACTGTGCAGTGATGTGGTGGGGAGGACCAGCCAGGGAAGAGGGAGCACCTCAGCAGACACAGGCACCAGCCAGGATGCTAAGGACCTTTAGCCAAGTCTGCCAACTATTCTCCTCCATGGGGAGAGGAAACATCCATTTCCAGTGGTAGAAAGGCAGACCCGAATGTACCAGGGAGCTTCCAAATGGAGGGTGGTATGTTGGGTTCTTAGGAGCTGTACCCTTCATGAACACCCTTCTGAGAAGAGGAGCATGCTGATCACTGCTGCAAAATATGCAAAACAAAGGGAAGGGGCAATGTCCTGTGCACCCTTTATTATCAGGCCACCCCCCTCCCCAGCCCCCCAGGTCAGAGTAGACACAGTGAAGGACTATGTGGGGACTGTTGTTCTAGAGACCTGGCAGCCAACTCAGGGAGGGGGCTGGTTTCCACCCTCAAGATTAAGACAGCAGCCTAATTAAAAAAAAAATCTGTAAGCATGTACCTCCCCCCAGCTTCCAAAACAACCCCCACCCCACCCCTACCAGGCCATAGGAAGTTGGGGAGGGAGTGCTGAGGAGCTCCAGGAAACACTCCCAAGTGTGTCGACAGTGGCAGAGGCAGTTGGGGCCAAACAAAGGTTGATTCTTCCATTCTTATCTCCATAAAGCCAGACCTTTCCCTTCAGCACTCCTCCACCCCCATCTCCTTCTTGCTTTTCTCCAACTCCTCTAATCATAGGTTCTTCCCTAGGACAGAGGGGAGGCGAAATGATGAGGTTCAGAGTCTTCCCTCAAAGGCGATGGCTGCCTTGAGGGTTGGAGCAAAGGATGATGAGCAAAAGACGATGGTAATCAGTAGGGAAGTCCAGCCCACTTGCATCTAGTTGCACATCTTGCCTTGAGAGTAATCCAGTGAGGGTCTGTCCCAGCTAGGACATCAAGTAGGAGGGGTGGGTTCAGGGTTCAGATTCCTAGGAAATATGGGAGGAGAGGAAAAGGCAACTTGGATGCACCTCCAGCTTCAGGCCTAGCAACCTGCAATGCATCTCACCCTGAGTTTGCTGGAATGTGTATGTATGCTTTGGGAGGAAGGGCTGTGTGTGTATTGCGGGGTGGGGTGGGGCAGCTGGTTCCCTCTGACAGCTGGACAGCTTGCCCTGAAGAATTTGCCTGCTTTCTGGAAAAATCCAACTTTCCCACCGTGGGCCTGAGCGTCCTGGTACAGCAATGGCGCCACCTGCTGGCCTTATTGAGGTCCTACTGCTCAGCCTCAGCTCAATCGCCTCCATGTTGGGCTTCTCTCCCTGGCTGCCCCACCCTCTAGTCCAATTTCTCTTGTACACAAAGCTCATATAACTATAGAACGTCACTGTTGAAGAGAACTTTAAAGATACATTTAATTAAACTCCCTTATGGTATAGTTAAAGACAAACTAAGGCTCAGAGAAGGGAGGTGGCTTGCCCAATCACCCAGAATTCCAAAGTCCTGAATCTGTAGTTTTCCCTTCCATCATATCATCCTACTCTTCTGCCGAGTCCTCCGTGTTACTCCAGTTGGATGTCATGAAGCCAGTGTGGCAGTGTGAAGATAGGTTTGGGACTTCACTTCTGGAGCATTTCATCAACATAAGCTATCCTAGGCCTGGCCAGCCAAGCAGGTCCTGGAGGAGCCCCAGGACAAAGATCACAGGAGGCCATGAGGTTCGGCTTCTTCGGCGCCCACAGTGAGCCCAGGAAAATTAGCTGTAGGGTATTACACTGTTGACTATGGAGAGCATATCTGGAATTATCTTCAGCCAGATTTTCATCTGAATGGATAAATGGGAATACCATCTAAGTCCAGATAAATAGATCACTTCCATCTCATCCCTTCTAGGTAGATTAATCCCACACTTCCTCTTCACACAAAACCAGTAATAGGTCATCGATTTTGTGCAACAGGATGCTGCTTCTCTTCCTAAAGCCCCCATCGAAGAGGCTTCCAGCCACCATTCAATCATTCATCAAGTCTTATGATGTGCCAGACACTGCGCGAAATGTGCCAGAACATCTGTTATGTGCCAGACACTGTTCTTGAGACTGGGGATACAGCAAACACTCATGAAGCTTATAATTCTAGCAGAAGAGGACAGTAAACAATGTCATCTCAGTAAGTATATACATGTGTTTTCAGGATTGAGAGCTATGAAAAACATAAAATATATTGAGAATAATGGTTGGTATTTTACATATGGTGGTTACTTTTAGAAAAATAACAGTGGAGAGCACAGCTTCACTTGAATGAAGTGGAGAAGCAGGTTGTATGCCAAGCTGGGAGAGATTATCCCACACAGGGGAAAGGACAAGTGCAAAGCCCTATGATGAAAAGCTGCCAAGTGCAGAAAGCCTCAGATGGCAGGGGGCAAGATGGCCATGAGGTTGTGTCAGTGAGTGGGGGTGGGGAGAGGCAGGAGGTCAGACTACATGGGGCCTTTTTAGTTGTAGATTGGGAAGCCACTGGAGGGTTTTGAGCAGAGAAGTCATATCATCTGCTTTATGTTTTAAAAGGATCATGCTGGCTGCTGAGTAGAGAATAGAGGTTGAGGGATAAGAAAGTAGAAGGAGACCGTAGCAAGAAGAACGATCATGGCTGGGAGCAGGTGATCATATTGGCAGTGATGAGATCAAGCAGAATTCAAAAAGTGGTTTCAAAGTAGAGGTAACAGGACTTGCTCAGTCTATTTATTTCTTCAAATAATAATCATATTTACAATGATAGTAGCTAACAGTTTTTGAGTGCTTACTGTATGAAAATTGAGATATGGTGCCAATATTTAAATAGCATATTTTACTTAACATTCACAGAAACCCTGTGAAGTAGGTTCTATTATCTCAGAAAAAGAAACTGAAACTCAGAGAATAACAAGGGACTGTGTTACGTGCACAGTGGCAGAGGCAAAGATGAATAGGATGTGAGTTTATTTGAACCCCAAATGTTTAAATCTTGGGGATAATACAACACACATTTAAACAAAGAAGCAAGAAAAAAAATGCACAACAGAAAGTGAGAAATAACACGAGGAAAGACTAAATGAAGTGCTTTGTATCTAGATGTGGGCAGGACCCTTTCCAGCTGAGAAGATCTGAGACTGGGTCATGAACAGGTGGTTTCTGAGTGGGTCCTGTAAAAATGAATACGATTTTGATGATAGTAATGAGTAAGGACATTTGAGACTGATAGAAGAGTACATACAATATGTAGTGATGGGGAAAGATAAGGTACTGTCAAAGGACAATGTGTTTTCTGGTATGACAGAGAAGTAGAATGTGTTAAGGGAAGCCGAGTACCAGAAAGATCCGGGTGTCACAGTTTGTGTAGGGTGTTTAAAGCTAAACCACAGAGTTTAATTTTATCCAATAGAAGAGGAGCCACAGAAGAGTTTCCATTTATTCATTAATTTATTCATTTATTCAAAAAATATTTGAGTGCTTATTATAAGCCAGGTACTATGCCAGGCACCTGGGATAAGACATAGTCCCTTCTGTCAAGTCTTTACATTGGGTGGATGTGGGAGGGACAGATGACAGAACAATATGCATTGAGTGTAAGTGCTATGGTATAGGAAGCTCTGAGTGGGAGGGGCATGGAAGCCGTGGAAGACCATGGAAGGCTTCCCAGGAGAAGTGACGTCTGGACTGATCCTTTGGTCAAGCAGGAGTTAAAGAGGAGAAAAGGAGAGATATGGGTGTTCCCGAGAGAGGAAGAAGCCTTGTCCCAGGAGCAAAGTGAGGGTGATTGTTCCAGAAATGTGAGTGATTCTTTTAAGGCTCAAGCAAAGCATGTGATTCTTCTTTATACCTTCTATTTCTTTGCTGAGTGTTTCTGTTCTTTTGTTTCAAGCATGCTGCAATTGCTCATTAAAGCATGTTTATGATGGCTGTCTGTTTTAAAATTCTTGTCAGATGGTTTCAACATCTTTATCATCTCAATGTTGGCATCTGTTAATGGTTTTTTCTCAATCAAATTGAGATTTTCCTGGTTCTTGGTATTACCAGTGATTTTAATTGCATCTGGAAATTTGGGATTTATGTTGAAAGACTGGATCTTATTGAAAGATTCTGTTTAGCACCCCTCCTTTGATACCACACTGGTGGGTCCAGGTTCCCCATTCAGCTGTTGACACCTTCAGGGCAGAGAGGTGGGATGGGGTGAAGGGGGTACCTCATTATTGCTGGCCCAGGTTAGAAGTTCAGGCTTCCCAGTAGATCTCTGCTGATACCACCCTGGTGCCATGTCATTCCTTGAGTCCAAAAGTCCCTCCCAATTCTGCCTTCTTCTCTCTACATATCGGAGTCTCCCTATGTTTGACTTATATATAATGTCCAGGGTTTTTAGAGTTAGTTAACAGGAGGCATAAGAAAAAGTGTGTCCACTCCATCTTGTCTGGAACTGGAAGTTCAAGTCGAATATAAGAGAGAGGAGAGGAAATTACAAGCCATGAGACTGGAGAGTTAGGCAGGTTCTACACCAGCTATTCTCAAAGCCCTCTTACACTCTTAAAAATTTAGAACTTCAAAGAGCTTTTGATTTTGAAAGTTACATCTATCAATTATTACTGTTTCAAAAATTAAAATTGAGAAAATTTTATTTATTAATTTGTTTAAAAATAACAATAATTATTCAATTACATGATAATGTAAGTAATGCTTTTCTTAATGAAAAATAATTATATTTTCCAAAACAAAAACAATTAGGAAAAAGAGTGTCATTGTTTTAGACTTTGGTAAATCTCTCTAATATCTGGCTGAAGAGAAGAATGCTGATTCTTTTTTTTTTTTTTTTTTTTTGAGACGGAGTCTCGCTCTGTCACCCAGGCTGGAGTGTAGTGGTGTGATCTCGGCTCACTGCAAGCTCTGCCTCCCGGGTTCACGCCATTCTCCTGCCTCAGCCTCCCAAGTAGCTGGGACTACAGGCACCCGCCACCACGCCCGGCTAATTTTTTTGTATTTTTAGTAGAGATGGGGTTTCACCGTGTTAGCCAGGCTGGTCTCGATCTCCTGACCTCATGATCCACCCACCTCAGCCTCCCAAAGCGCTGGGATTACAGGTGTGAGACACCGCGCCCAGCCCCCGAATGCTGATTCTTTTATCTGCTTCTGTATTCAATCTGTTGTGATATGATGGGTAGCCTCTGAAACACTCCACTGTATACTTGTGAAAGAATGAATGTGAAAAAGGAAAATAGATTTGTAGTATTATTATTCAAATTGTTTTGACCTCAGAGACCACTTGGAAATGTTTTAGGGAACCCCCAGAGGACCTTGGATCATGCTTTGAGAACCGCGGCTCTAGATATGTTACTATTTCAGTAGCATCTAAGTACATGTGGCTGCTGAGCACTTGTAATGTGGCTAGTGCAAATGAGAGACAGGACTTCCAGCTATATGTAATTTAATAAACTCAAATTTAAAAACTGGAACCTCATAAAATGTTTTGTTGTTGTTGTTAAACATGACCTTATAGTTTTGGTAGGAA(SEQIDNO:80)。

“干细胞因子(SCF)多肽”是指具有与GenBank登录号NP_000890提供的氨基酸序列至少约95％氨基酸序列同一性的在造血中起作用的多肽或其片段。在一些实施方案中，SCF多肽或其片段结合CD117。示例性SCF多肽序列如下：

＞NP_000890.1kit配体异构体b前体[智人]

MKKTQTWILTCIYLQLLLFNPLVKTEGICRNRVTNNVKDVTKLVANLPKDYMITLKYVPGMDVLPSHCWISEMVVQLSDSLTDLLDKFSNISEGLSNYSIIDKLVNIVDDLVECVKENSSKDLKKSFKSPEPRLFTPEEFFRIFNRSIDAFKDFVVASETSDCVVSSTLSPEKDSRVSVTKPFMLPPVAASSLRNDSSSSNRKAKNPPGDSSLHWAAMALPALFSLIIGFAFGALYWKKRQPSLTRAVENIQINEEDNEISMLQEKEREFQEV(SEQ ID NO:81)。

“SCF多核苷酸”是指编码SCF多肽的核酸分子。示例性SCF多核苷酸序列如下：

＞NM_003994.5智人KIT配体(KITLG)，转录变体a，mRNA

GGGCTTCGCTCGCCGCCTCGCGCCGAGACTAGAAGCGCTGCGGGAAGCAGGGACAGTGGAGAGGGCGCTGCGCTCGGGCTACCCAATGCGTGGACTATCTGCCGCCGCTGTTCGTGCAATATGCTGGAGCTCCAGAACAGCTAAACGGAGTCGCCACACCACTGTTTGTGCTGGATCGCAGCGCTGCCTTTCCTTATGAAGAAGACACAAACTTGGATTCTCACTTGCATTTATCTTCAGCTGCTCCTATTTAATCCTCTCGTCAAAACTGAAGGGATCTGCAGGAATCGTGTGACTAATAATGTAAAAGACGTCACTAAATTGGTGGCAAATCTTCCAAAAGACTACATGATAACCCTCAAATATGTCCCCGGGATGGATGTTTTGCCAAGTCATTGTTGGATAAGCGAGATGGTAGTACAATTGTCAGACAGCTTGACTGATCTTCTGGACAAGTTTTCAAATATTTCTGAAGGCTTGAGTAATTATTCCATCATAGACAAACTTGTGAATATAGTGGATGACCTTGTGGAGTGCGTGAAAGAAAACTCATCTAAGGATCTAAAAAAATCATTCAAGAGCCCAGAACCCAGGCTCTTTACTCCTGAAGAATTCTTTAGAATTTTTAATAGATCCATTGATGCCTTCAAGGACTTTGTAGTGGCATCTGAAACTAGTGATTGTGTGGTTTCTTCAACATTAAGTCCTGAGAAAGGGAAGGCCAAAAATCCCCCTGGAGACTCCAGCCTACACTGGGCAGCCATGGCATTGCCAGCATTGTTTTCTCTTATAATTGGCTTTGCTTTTGGAGCCTTATACTGGAAGAAGAGACAGCCAAGTCTTACAAGGGCAGTTGAAAATATACAAATTAATGAAGAGGATAATGAGATAAGTATGTTGCAAGAGAAAGAGAGAGAGTTTCAAGAAGTGTAATTGTGGCTTGTATCAACACTGTTACTTTCGTACATTGGCTGGTAACAGTTCATGTTTGCTTCATAAATGAAGCAGCTTTAAACAAATTCATATTCTGTCTGGAGTGACAGACCACATCTTTATCTGTTCTTGCTACCCATGACTTTATATGGATGATTCAGAAATTGGAACAGAATGTTTTACTGTGAAACTGGCACTGAATTAATCATCTATAAAGAAGAACTTGCATGGAGCAGGACTCTATTTTAAGGACTGCGGGACTTGGGTCTCATTTAGAACTTGCAGCTGATGTTGGAAGAGAAAGCACGTGTCTCAGACTGCATGTACCATTTGCATGGCTCCAGAAATGTCTAAATGCTGAAAAAACACCTAGCTTTATTCTTCAGATACAAACTGCAGCCTGTAGTTATCCTGGTCTCTGCAAGTAGATTTCAGCTTGGATAGTGAGGGTAACAATTTTTCTCAAAGGGATCTGGAAAAAATGTTTAAAACTCAGTAGTGTCAGCCACTGTACAGTGTAGAAAGCAGTGGGAACTGTGATTGGATTTGGCAACATGTCAGCTTTATAGTTGCCGATTAGTGATATGGGTCTGATTTCGATCTCTTCCTGATGTAAACCATGCTCACCCATATCCCACTATACAAATGCAAATGGTTGCCTGGTTCCATTTATGCAAGGGAGCCAGTACTGAATTATGCCTTGGCAGAGGGGAGACTCCAAAAGAGTCATCGCAGGAAGAAGTTAAGAACACTGAACATCAGAACAGTCTGCCAAGAAGGACATTGGCATCCTGGGAAAGTCCGCCTTTTCCCTTGACCACTATAGGGTGTATAAATCGTGTTTGCAAAATGTGTTATGATGTGTTTATATTCTAAAACTATTACAGAGCTATGTAAAGGGACTTAGGAGAAAATGCTGAATGTAAGATGGTCCCATTTCAATTTCCACCATGGGAGAGCCTAAAAATAAATTATGACATTTAGTATCTAAGGTTAGAAAACCACGCCCACATGCTAATATGGGTGTTGAAAACTAGGTTACTTATAATGCAAGGAATCAGGAAACTTTAGTTATTTATAGTATAATCACCATTATCTGTTTAAAGGATCCATTTAGTTAAAATCGGGCACTCTATATTCATTAAGGTTTATGAATTAAAAAGAAAGCTTTATGTAGTTATGCATGTCAGTTTGCTATTTAAAATGTGTGACAGTGTTTGTCATATTAAGAGTGAATTTGGCAGGAATTCCCAAGATGGACATTGTGCTTTTAAACTAGAACTTGTAAGACATTATGTGAATATCCCTTGCCAATTTTTTTTATAATAAGAAAACATCTGACTAAAGTCAAAGAATGATTTCTTATGGTTTATTTTGATGAAAGTTCTTTTAACATGTCTTGAATGTACACATAAAGGAATCCAAAGCTTTCCATTCTAACTTAATCTTTGTGATAACATTATTGCCATGTTCTACAACCGTAAGATGACAGTTTTCAATGTAGTGACACAAAAGGGCATGAAAAACTAACTGCTAGCTTTCCTTTCATTTCAAAAGTCCAAGAATTTCTAGTATATTTGGATTTTAGCTTCTGTTCAAAGCAAATCCAGATGCAACTCCAGTAAGTGGCCTTTGCTCTTTTTTGTACCAAAGAGCCCAGATGATTCCTACAGTCCCTTTCTTCTCTAACATGCTGTGGTTCCTTAAATATGAGTAATTTCTCTAAGATATAACCCAGGTGCTTTGAGAAGCTGCATTAAGGTGTTCAGGCCCTCAGATATCACATGGTACACTTGATTAGTAATAAAACCAGAGATCAATTTAAATTGCTGATAGGTCCTGTCTCAGTGTGTGGCATTGACTGTTTTCAGGAAAATAGATACAGATTAATATGAGTTATGCGTGTAGGTTGTGTATAGATTGAGAAGATAGATACTTCTCAATCTAGTAGTTTGATTTATTTAACCAATGGTTTCAGTTTGCTTGAGCATATGAAAATCCTGCTTAATGTGCTTAAGAGTATAATAAATGTGTACTTTTGTCCTCAAACCTAGTAGCTGGGTTTTAACACTCATGGACATGGTCTTAATCAATGGAGTTAAATAAACAAATTCAGCAAGTTATTAAATCTGACATGGTAGGAGAGGGGAGATGTGTCCTGCTTATTAAATGTGTTGGTCCATTGAAAGTTACATGGATTGCCAATTTTTAAAACACTAAAGTTGAATAAAATGCATGAACAATAGAAAAATGCTGAACATTATTTTGGATGCTAGCTGCTTGGACATTAACTGTGTTATTTCTGCTTTGAGATGAAAATATATATTTATCTTTGCTTATTTTATCCCAGATGTGTTCTGAATATCCTTCTTCATAAATCATGGAAAACTCACTGCTGAGATAGTAAACCATGAAATCGCCTTTTCAGTTGGTGCCATGTATCTGACAGTTCCATCTTGGAAGGTTTCAAAATTACCTTTTAAAATGATCTCAGAAGTCTGTAGATTCTCAATGATACTGAAAGCTTTGCACCTCTTTGGTAGAAACCAGGTCTATTTAGAAAATGGCTTTATGATAAATGTTGCCTCCTGAGTGATAATGAAGTGTTCCTGGATATTGTATTGTAATTTAATGTGCTTACCACACTGCCACATTTTAATGAGTCAGAGAAAAATTAATTTTTCTTCAATACAATAATAGAACAAGTAGCCTATTCTCTTAAAAAGTATGTGAAAAGAAAATTATGAAAAAATATGCATACCTAATGAAGTATTGGTTTTAGTAAGAATTAAATACATTTCATTGAGCTTTAAAGTACTTTGGAGAAACTTTGGGGCACGTTTTCCTACTCTAATTCAACTAAAGTTATAAATAAAGAGAAAAACTCATTCAGAAATCATGGATTTTAAAAATATTTTACTGCAGCCAAGTTTTCATTTCAAAATGTAATTTCAGTTTGGAGCTTTTAGGCATTATGTATATTTAAAAAATATATTCTTCAAAAATGCATTTTGGCATGGTGGGATGGATGTTGCAAAAGATATCCGGAGCCTCCAGTCTGTCATTAACTGATATGGTAAATCACCTCTCTTCTTTGGGTCTCAATTTTTTATTTATCTATATGGTAAACTCAGAGATCACTCCTTAGGGGTGAGTCCTATTGCAATATGACCGACAAAGAAGACAAAATAGCATTGAAACTAACCCATACAAAATATCCAACTCTGGATTCTGTGAATAAGTATCTTGACCATAAAAAGTCATTGCTGTTCTTGTTTCTAATGTAAATAGTGTCCATTAGTAAAAGTGAAATTCAGTCTTAAGTAGGGTGAATTGGATCACCATTTACACAAGAGATGGCTTTTTCCTTTGCTTGAATAAACATTTTGGATCACCTCCAAAGAATGAAAACCAGTAGTACGTTTTAGTCATATTAGTCAGGATGAGAAACTATAAGATGTGTGTAACATTTGGAAATGCACCAAAGTGAGCGTTTAAATCTTCTCATTTTATTGAAAACTAAGAGCAGAAAATGTAAAATGCTCATGAAGGTTTTGAATGCCAAAAGATATTTTAGAATCAATTTATAAAGGGGTAATTCATTAATTACACTTTAAAATTGGAAAGTGGGATAAGAAATCTAAAGTAAACCAGCTTATCTTTGAAACAATATTATTTTGAAATTGGCTTTAAAATAAAACCATTCAGATTGAAATTCTAATTAGCTCATTTGTGGAGTTTGATCACACAATTCATAATGTTGCTGCTTTCCATTAACTAGTCTTGAAATGCCTTTGTTTGTAAAAATAAAATAATGGTACTTTCATTTTATAACAAGGTGTTTTTTTCAAGAAATAATCCATGCTAAAATGGATATTTGTGATCCTGAAATGTTTACTAAGCATTGTAAATTTATTTATAACTGCCATCTCCAACTACATCCTTATGATGTTTTTAACAATAAAATTAAAACAACTGTTAAACTAAAAACCACACCGTTTTCCAGTACTTGATCTCTGAGCTACAATACTCACTAAATATAATTTTCCAATCAAAATATTCTATTCTATATTCTAAGGGTTAATATGTGATTATAGTGTCCACTTGCCACCATTTTTTTAAATCAATGGACTTGAAAAGTATTAATTTAGATGGATGCGCAGATATACCCTCAGTTCAGTCATAGATTGGAGTTTGCATATAATAATGTAAATGTATGTCGACACTATTCTAAATAGTTCTATTATGACTGAAATTTAATTAAATAAAAAAGGTTGTAAAATGTGATGTGTATGTGTATATACTGTATGTGTACTTTTTAAAATAGGTGTATGTCCCAACCCTTTTTTATACAGGTTTGAATTTAAAATTACATGATATATACATATACTTTATTGTTCTAAATAAAGAATTTTATGCACTCTCAAAAAAAAAAAAAAAAAA(SEQ ID NO:82)。

如本文所用，术语“接头”是指连接两个部分的分子。在一个实施方案中，术语“接头”是指共价接头(例如，共价键)或非共价接头。

“望加锡(Makassar)”或“Hb G-望加锡”是指人类β-血红蛋白变体，即G-望加锡变体或突变(HB望加锡变体)的人类血红蛋白(Hb)，其为无症状的、天然存在的变体(E6A)血红蛋白。Hb G-望加锡最早是在印度尼西亚鉴定的(Mohamad,A.S.等人,2018,Hematol.Rep.,10(3):7210(doi:10.4081/hr.2018.7210)。进行电泳时，Hb G-望加锡迁移率较低。望加锡β-血红蛋白变体在β-6或A3位置具有解剖异常，其中谷氨酰残基通常被丙氨酰残基替代。将编码β-珠蛋白亚基β-6谷氨酰的基因中的单个氨基酸取代为缬氨酸将导致镰状细胞病。常规程序，诸如等电聚焦、通过阳离子交换高效液相色谱(HPLC)和醋酸纤维素电泳进行的血红蛋白电泳分离，不能分离Hb G-望加锡和HbS珠蛋白形式，因为它们在通过这些方法进行分析时被发现具有相同的特性。因此，Hb G-望加锡和HbS被本领域技术人员错误地鉴定和彼此误认，从而导致镰状细胞病(SCD)的误诊。在一个实施方案中，导致镰状细胞病的氨基酸位置6的缬氨酸被丙氨酸替换，从而生成不生成镰状细胞表型的Hb变体(Hb望加锡)。在一些实施方案中，可以使用A·T至G·C碱基编辑器(ABE)生成Val至Ala(

至

)的替换(即Hb望加锡变体)。

因此，本发明包括用于将β-珠蛋白的镰状细胞病变体(Sickle HbS；E6V)的第六个氨基酸的密码子中的胸苷(T)碱基编辑为胞苷(C)的组合物和方法，从而在此氨基酸位置用丙氨酸取代缬氨酸(V6A)。在HbS的位置6用丙氨酸取代缬氨酸生成没有镰状细胞表型的β-珠蛋白变体(例如，不像致病性变体HbS那样具有聚合的潜力)。因此，本发明的组合物和方法可用于治疗镰状细胞病(SCD)。

“标志物”是指在表达水平或活性方面具有与疾病或病症(例如像镰状细胞病(SCD)、地中海贫血、贫血、血红蛋白C病、血红蛋白S-C疾病或其他涉及血红蛋白异常或异常产生或结构的血红蛋白病)相关的改变的任何蛋白质或多核苷酸。

如本文所用，术语“突变”是指序列(例如核酸或氨基酸序列)内的残基被另一残基取代，或序列内一个或多个残基的缺失或插入。本文通常通过鉴定原始残基，然后是残基在序列内的位置以及新取代残基的身份来描述突变。用于进行本文提供的氨基酸取代(突变)的各种方法在本领域中是众所周知的，并且由例如Green和Sambrook，Molecular Cloning：A Laboratory Manual(第4版,Cold Spring Harbor Laboratory Press,Cold SpringHarbor,N.Y.(2012))提供。

术语“单核苷酸多态性(SNP)”是发生在基因组特定位置的单个核苷酸的变异，其中每种变异在群体中以一定程度存在(例如，＞1％)。例如，在人类基因组的特定碱基位置，核苷酸C可以出现在大多数个体中，但在少数个体中，此位置被A占据。这意味着在此特定位置存在SNP，并且两种可能的核苷酸变异(C或A)被称为此位置的等位基因。SNP是疾病易感性差异的基础。疾病的严重程度和我们的身体对治疗的反应方式也是遗传变异的表现。SNP可以落入基因的编码区、基因的非编码区或基因间区(基因之间的区域)。在一些实施方案中，由于遗传密码的简并性，编码序列内的SNP不一定改变所产生的蛋白质的氨基酸序列。编码区的SNP有两种类型：同义和非同义SNP。同义SNP不影响蛋白质序列，而非同义SNP改变蛋白质的氨基酸序列。非同义SNP有两种类型：错义和无义。不在蛋白质编码区的SNP仍然可以影响基因剪接、转录因子结合、信使RNA降解或非编码RNA的序列。受此类SNP影响的基因表达称为eSNP(表达SNP)，并且其可以位于基因的上游或下游。单核苷酸变体(SNV)是单个核苷酸的变异，没有任何频率限制，并且可以在体细胞中出现。体细胞单核苷酸变异也可以称为单核苷酸改变。

如本文所用，术语“核酸”和“核酸分子”是指包含核碱基和酸性部分的化合物，例如核苷、核苷酸或核苷酸的聚合物。通常，聚合核酸例如包含三个或更多个核苷酸的核酸分子是线性分子，其中相邻的核苷酸通过磷酸二酯键相互连接。在一些实施方案中，“核酸”是指单个核酸残基(例如核苷酸和/或核苷)。在一些实施方案中，“核酸”是指包含三个或更多个单个核苷酸残基的寡核苷酸链。如本文所用，术语“寡核苷酸”和“多核苷酸”可以互换使用以指代核苷酸的聚合物(例如，至少三个核苷酸的链)。在一些实施方案中，“核酸”涵盖RNA以及单链和/或双链DNA。核酸可以是天然存在的，例如，在基因组、转录物、mRNA、tRNA、rRNA、siRNA、snRNA、质粒、粘粒、染色体、染色单体或其他天然存在的核酸分子的情况下。另一方面，核酸分子可以是非天然存在的分子，例如重组DNA或RNA、人工染色体、工程化基因组或其片段，或合成DNA、RNA、DNA/RNA杂交体，或包括非天然存在的核苷酸或核苷。此外，术语“核酸”、“DNA”、“RNA”和/或类似术语包括核酸类似物，例如不具有磷酸二酯主链的类似物。核酸可以从天然来源纯化，使用重组表达系统产生并且任选地纯化、化学合成等。在适当的情况下，例如在化学合成分子的情况下，核酸可以包括核苷类似物，诸如具有化学修饰的碱基或糖和主链修饰的类似物。除非另有说明，否则核酸序列以5’到3’方向展现。在一些实施方案中，核酸是或包含天然核苷(例如腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷和脱氧胞苷)；核苷类似物(例如，2-氨基腺苷、2-硫胸苷、肌苷、吡咯并嘧啶、3-甲基腺苷、5-甲基胞苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基-尿苷、C5-丙炔基-胞苷、C5-甲基胞苷、2-氨基腺苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧腺苷、8-氧鸟苷、O(6)-甲基鸟嘌呤和2-硫胞苷)；化学修饰的碱基；生物修饰的碱基(例如，甲基化碱基)；插入碱基；修饰的糖(例如，2’-氟核糖、核糖、2’-脱氧核糖、阿拉伯糖和己糖)；和/或修饰的磷酸酯基(例如，硫代磷酸酯和5’-N-亚磷酰胺键)。

术语“核定位序列”、“核定位信号”或“NLS”是指促进蛋白质输入细胞核的氨基酸序列。核定位序列在本领域中是已知的并且描述于例如Plank等人提交于2000年11月23日，2001年5月31日出版为WO/2001/038547的国际PCT申请PCT/EP2000/011690，其内容以引用方式并入本文，因为它们公开了示例性核定位序列。在其他实施方案中，NLS是优化的NLS，例如通过Koblan等人,Nature Biotech.2018doi:10.1038/nbt.4172描述。在一些实施方案中，NLS包含氨基酸序列KRTADGSEFESPKKKRKV(SEQ ID NO:83)、KRPAATKKAGQAKKKK(SEQ IDNO:84)、KKTELQTTNAENKTKKL(SEQ ID NO:85)、KRGINDRNFWRGENGRKTR(SEQ ID NO:86)、RKSGKIAAIVVKRPRK(SEQ ID NO:87)、PKKKRKV(SEQ ID NO:88)或MDSLLMNRRKFLYQFKNVRWAKGRRETYLC(SEQ ID NO:89)。

本文可互换使用的术语“核碱基”、“含氮碱基”或“碱基”是指形成核苷的含氮生物化合物，核苷又是核苷酸的组分。核碱基形成碱基对和彼此堆叠的能力直接导致长链螺旋结构，诸如核糖核酸(RNA)和脱氧核糖核酸(DNA)。五个核碱基——腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)——被称为主要的或规范的。腺嘌呤和鸟嘌呤来源于嘌呤，并且胞嘧啶、尿嘧啶和胸腺嘧啶来源于嘧啶。DNA和RNA还可以含有其他修饰的(非主要)碱基。非限制性示例性修饰核碱基可以包括次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤、5,6-二氢尿嘧啶、5-甲基胞嘧啶(m5C)和5-氢甲基胞嘧啶。次黄嘌呤和黄嘌呤可以通过诱变剂的存在，两者都通过脱氨基作用(用羰基替换胺基)产生。次黄嘌呤可以由腺嘌呤经修饰而得。黄嘌呤可以由鸟嘌呤经修饰而得。尿嘧啶可以由胞嘧啶脱氨基而得。“核苷”由一个核碱基和一个五碳糖(核糖或脱氧核糖)组成。核苷的实例包括腺苷、鸟苷、尿苷、胞苷、5-甲基尿苷(m5U)、脱氧腺苷、脱氧鸟苷、胸苷、脱氧尿苷和脱氧胞苷。具有修饰的核碱基的核苷的实例包括肌苷(I)、黄苷(X)、7-甲基鸟苷(m7G)、二氢尿苷(D)、5-甲基胞苷(m5C)和假尿苷(Ψ)。“核苷酸”由一个核碱基、一个五碳糖(核糖或脱氧核糖)和至少一个磷酸基团组成。

如本文所用，术语“核酸”和“核酸分子”是指包含核碱基和酸性部分的化合物，例如核苷、核苷酸或核苷酸的聚合物。

如本文所用，术语“寡核苷酸”和“多核苷酸”可以互换使用以指代核苷酸的聚合物。

术语“核酸可编程DNA结合蛋白”或“napDNAbp”可以与“多核苷酸可编程核苷酸结合结构域”互换使用，以指代与核酸(例如，DNA或RNA)缔合的蛋白质，所述核酸诸如将napDNAbp导向特定核酸序列的向导核酸或向导多核苷酸(例如，gRNA)。在一些实施方案中，多核苷酸可编程核苷酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中，多核苷酸可编程核苷酸结合结构域是多核苷酸可编程RNA结合结构域。在一些实施方案中，多核苷酸可编程核苷酸结合结构域是Cas9蛋白。Cas9蛋白可以与将Cas9蛋白导向与向导RNA互补的特定DNA序列的向导RNA缔合。在一些实施方案中，napDNAbp是Cas9结构域，例如有核酸酶活性的Cas9、Cas9切口酶(nCas9)或无核酸酶活性的Cas9(dCas9)。核酸可编程DNA结合蛋白的非限制性实例包括Cas9(例如，dCas9和nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i和Cas12j/CasΦ(Cas12j/Casphi)。Cas酶的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(也称为Csn1Csx12)、Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Cas12j/CasΦ、Cpf1、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csx11、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、II型Cas效应蛋白、V型Cas效应蛋白、VI型Cas效应蛋白、CARF、DinG、其同系物或其经修饰的或工程化的版本。其他核酸可编程DNA结合蛋白也在本公开的范围内，尽管它们可能未在本公开中具体列出。参见，例如，Makarova等人“Classification and Nomenclatureof CRISPR-Cas Systems:Where from Here？”CRISPR J.2018Oct；1:325-336.doi:10.1089/crispr.2018.0033；Yan等人,“Functionally diverse type V CRISPR-Cassystems”Science.2019 Jan 4；363(6422):88-91.doi:10.1126/science.aav7271，每一个的全部内容以引用方式并入本文。示例性核酸可编程DNA结合蛋白和编码核酸可编程DNA结合蛋白的核酸序列在序列表中提供为SEQ ID NO:90-123和158。

如本文所用，术语“核碱基编辑结构域”或“核碱基编辑蛋白”是指可以催化RNA或DNA中的核碱基修饰(诸如胞嘧啶(或胞苷)至尿嘧啶(或尿苷)或胸腺嘧啶(或胸苷)和腺嘌呤(或腺苷)至次黄嘌呤(或肌苷)的脱氨基作用，以及非模板化的核苷酸添加和插入)的蛋白质或酶。在一些实施方案中，核碱基编辑结构域是脱氨酶结构域(例如，腺嘌呤脱氨酶、腺苷脱氨酶；胞苷脱氨酶或胞嘧啶脱氨酶)。

如本文所用，如“获得剂”中的“获得”包括合成、生成、产生、分离、购买或以其他方式获取剂。

如本文所用，“患者”或“受试者”是指哺乳动物受试者或个体，其被诊断患有、有风险患有或患上、易患有或患上或被怀疑患有或患上疾病或病症。在一些实施方案中，术语“患者”是指具有高于患上疾病或病症的平均可能性的哺乳动物受试者。示例性患者可以是人类、非人类灵长类动物、猫、狗、猪、牛、马、骆驼、美洲驼、山羊、绵羊、啮齿动物(例如，小鼠、兔子、大鼠或豚鼠)和其他可以受益于本文公开的治疗的哺乳动物。示例性人类患者可以是男性和/或女性。

“有需要的患者”或“有需要的受试者”在本文中是指被诊断患有、有风险或患有、预先确定患有或被怀疑患有疾病或病症的患者。

术语“致病突变(pathogenic mutation)”、“致病变异(pathogenic variant)”、“致病突变(disease causing mutation)”、“致病变异(disease causing variant)”、“有害突变”或“易感突变”是指增加个体对某种疾病或病症的易感性或倾向性的基因改变或突变。在一些实施方案中，致病突变包括由基因编码的蛋白质中的至少一个致病氨基酸取代的至少一个野生型氨基酸。

术语“蛋白质”和“肽”和“多肽”和它们的语法等同物在本文中可以互换使用，并且是指通过肽(酰胺)键连接的氨基酸残基的聚合物。蛋白质、肽或多肽可以是天然存在的、重组的或合成的，或它们的任何组合。

如本文所用，术语“融合蛋白”是指包含来自至少两个不同蛋白质的蛋白质结构域的杂交多肽。

如本文在蛋白质或核酸的上下文中使用的术语“重组体”是指不存在于自然界中而是人类工程产物的蛋白质或核酸。例如，在一些实施方案中，重组蛋白质或核酸分子包含氨基酸或核苷酸序列，所述氨基酸或核苷酸序列包含至少一个、至少两个、至少三个、至少四个、至少五个、至少六个或至少七个与任何自然存在的序列相比的突变。

“减少”是指至少10％、25％、50％、75％或100％的阴性改变。

“参考”是指标准或对照条件。在一个实施方案中，参考是野生型或健康细胞。在其他实施方案中并且非限制性地，参考是未经处理的细胞，其未经受测试条件处理，或经受安慰剂或生理盐水、培养基、缓冲液和/或不含关注的多核苷酸的对照载体处理。在一些实施方案中，参考是尚未施用治疗的受试者。在一些实施方案中，参考是尚未施用本发明的组合物的受试者。在一些实施方案中，参考是尚未施用本发明的细胞的受试者。

“参考序列”是定义的用作序列比较基础的序列。参考序列可以是指定序列的子集或全部；例如，全长cDNA或基因序列的片段，或完整的cDNA或基因序列。对于多肽，参考多肽序列的长度通常为至少约16个氨基酸、至少约20个氨基酸、至少约25个氨基酸、约35个氨基酸、约50个氨基酸或约100个氨基酸。对于核酸，参考核酸序列的长度通常为至少约50个核苷酸、至少约60个核苷酸、至少约75个核苷酸、约100个核苷酸或约300个核苷酸或它们附近或它们之间的任何整数。在一些实施方案中，参考序列是蛋白质或关注的多肽的野生型或天然存在的序列。在其他实施方案中，参考序列是编码野生型或天然存在的蛋白质或多核苷酸的多核苷酸序列。在一些实施方案中，参考序列可以是非突变或正常序列。

术语“RNA可编程核酸酶”和“RNA引导的核酸酶”与一种或多种不是切割靶标的RNA一起使用(例如，结合或缔合)。在一些实施方案中，当与RNA形成复合物时，RNA可编程核酸酶可以被称为核酸酶：RNA复合物。通常，结合的RNA被称为向导RNA(gRNA)。在一些实施方案中，RNA可编程核酸酶是(CRISPR相关系统)Cas9核酸内切酶，例如来自化脓性链球菌(Streptococcus pyogenes)的Cas9(Csnl)。

术语“单核苷酸多态性(SNP)”是发生在基因组特定位置的单个核苷酸的变异，其中每种变异在群体中以一定程度存在(例如，＞1％)。

“特异性结合”是指识别和结合本发明的多肽和/或核酸分子但基本上不识别和结合样品例如生物样品中的其他分子的核酸分子、多肽、多肽/多核苷酸复合物、化合物或分子。

“基本上同一”是指多肽或核酸分子表现出与参考氨基酸序列至少50％的同一性。在一个实施方案中，参考序列是野生型氨基酸或核酸序列。在另一个实施方案中，参考序列是本文所述的任何一种氨基酸或核酸序列。在一个实施方案中，这样的序列与用于比较的序列在氨基酸水平或核酸水平上至少有60％、80％、85％、90％、95％甚至99％的同一性。

序列同一性通常使用序列分析软件(例如，Sequence Analysis SoftwarePackage of the Genetics Computer Group,University of Wisconsin BiotechnologyCenter,1710University Avenue,Madison,Wis.53705,BLAST,BESTFIT,GAP或PILEUP/PRETTYBOX程序)测量。这类软件通过将同源程度分配给各种替换、缺失和/或其他修改。这类软件通过对各种替换、删除和/或其他修饰分配同源程度来匹配相同或类似的序列。保守取代通常包括以下组内的取代：甘氨酸、丙氨酸；缬氨酸、异亮氨酸、亮氨酸；天冬氨酸、谷氨酸、天冬酰胺、谷氨酰胺；丝氨酸、苏氨酸；赖氨酸、精氨酸；以及苯丙氨酸、酪氨酸。在确定同一性程度的示例性方法中，可以使用BLAST程序，其中e^-3与e^-100之间的概率评分指示密切相关的序列。

例如，COBALT与以下参数一起使用：

a)比对参数：空位罚分-11、-1和末端空位罚分-5、-1，

b)CDD参数：使用RPS BLAST(on)；Blast E值0.003；查找保守列并重新计算(on)，以及

c)查询聚类参数：使用查询聚类(on)；字长(Word Size)4；最大聚类距离0.8；常规字符(Alphabet Regular)。

例如，EMBOSS Needle与以下参数一起使用：

a)矩阵：BLOSUM62；

b)空位开放(GAP OPEN)：10；

c)空位扩展(GAP EXTEND)：0.5；

d)输出格式(OUTPUT FORMAT)：配对(pair)；

e)末端空位罚分(END GAP PENALTY)：假(false)；

f)末端空位开放(END GAP OPEN)：10；以及

g)末端空位扩展(END GAP EXTEND)：0.5。

可用于本发明方法的核酸分子包括编码本发明的多肽或其片段的任何核酸分子。此类核酸分子不需要与内源核酸序列100％同一，但通常会表现出实质上的同一性。与内源序列具有“实质同一性”的多核苷酸通常能够与双链核酸分子的至少一条链杂交。可用于本发明方法的核酸分子包括编码本发明的多肽或其片段的任何核酸分子。此类核酸分子不需要与内源核酸序列100％同一，但通常会表现出实质上的同一性。与内源序列具有“实质同一性”的多核苷酸通常能够与双链核酸分子的至少一条链杂交。“杂交”是指在各种严格性条件下配对以在互补多核苷酸序列(例如本文所述的基因)或其部分之间形成双链分子。(参见，例如，Wahl，G.M.和S.L.Berger(1987)Methods Enzymol.152:399；Kimmel,A.R.(1987)Methods Enzymol.152:507)。

例如，严格的盐浓度一般小于约750mM NaCl和75mM柠檬酸三钠，优选地小于约500mM NaCl和50mM柠檬酸三钠，并且更优选地小于约250mM NaCl和25mM柠檬酸三钠。低严格性杂交可以在不存在有机溶剂例如甲酰胺的情况下获得，而高严格性杂交可以在存在至少约35％甲酰胺，并且更优选地至少约50％甲酰胺的情况下获得。严格的温度条件一般包括至少约30℃、更优选地至少约37℃，并且最优选地至少约42℃的温度。不同的另外的参数，诸如杂交时间、洗涤剂(例如十二烷基硫酸钠(SDS))的浓度，以及包含或排除载剂DNA对于本领域技术人员来说是众所周知的。通过根据需要组合这些不同的条件来实现不同级别的严格性。在一个优选的实施方案中，杂交将在30℃在750mM NaCl、75mM柠檬酸三钠和1％SDS中发生。在一个更优选的实施方案中，杂交将在37℃在500mM NaCl、50mM柠檬酸三钠、1％ SDS、35％甲酰胺和100μg/ml变性鲑鱼精DNA(ssDNA)中发生。在一个最优选的实施方案中，杂交将在42℃在250mM NaCl、25mM柠檬酸三钠、1％SDS、50％甲酰胺和200μg/ml ssDNA中发生。这些条件的有用变化对于本领域技术人员来说将是显而易见的。

对于大多数应用，杂交后的洗涤步骤的严格性也会不同。洗涤严格性条件可以通过盐浓度和温度来定义。如上所述，可以通过降低盐浓度或通过提高温度来增加洗涤严格性。例如，洗涤步骤的严格盐浓度优选地小于约30mM NaCl和3mM柠檬酸三钠，并且最优选地小于约15mM NaCl和1.5mM柠檬酸三钠。洗涤步骤的严格温度条件一般包括至少约25℃、更优选地至少约42℃、甚至更优选地至少约68℃的温度。在一个实施方案中，洗涤步骤将在25℃在30mM NaCl、3mM柠檬酸三钠和0.1％ SDS中发生。在另一个实施方案中，洗涤步骤将在42℃在15mM NaCl、1.5mM柠檬酸三钠和0.1％ SDS中发生。在一个更优选的实施方案中，洗涤步骤将在68℃在15mM NaCl、1.5mM柠檬酸三钠和0.1％ SDS中发生。这些条件的另外的变化对于本领域技术人员来说将是显而易见的。杂交技术对于本领域技术人员来说是众所周知的，并且描述于例如Benton和Davis(Science 196:180,1977)；Grunstein和Hogness(Proc.Natl.Acad.Sci.,USA 72:3961,1975)；Ausubel等人(Current Protocols inMolecular Biology,Wiley Interscience,New York,2001)；Berger和Kimmel(Guide toMolecular Cloning Techniques,1987,Academic Press,New York)；以及Sambrook等人,Molecular Cloning:A Laboratory Manual,Cold Spring Harbor Laboratory Press,NewYork。

“分裂”是指分成两个或更多个片段。

“分裂的Cas9蛋白”或“分裂的Cas9”是指提供为由两个单独的核苷酸序列编码的N端片段和C端片段的Cas9蛋白。对应于Cas9蛋白的N端部分和C端部分的多肽可以剪接形成“重构的”Cas9蛋白。

术语“靶位点”是指被脱氨酶(例如胞苷或腺嘌呤脱氨酶)或包含脱氨酶的融合蛋白(例如，dCas9-腺苷脱氨酶融合蛋白或本文公开的碱基编辑器)脱氨基的核酸分子内的序列。在实施方案中，融合蛋白包含ABE8。在一个实施方案中，融合蛋白包含ABE8.8。

如本文所使用，术语“治疗(treat/treating/treatment等)”是指减少或改善病症和/或与其相关的症状或获得所需药理和/或生理效应。应当理解，虽然不排除，但治疗病症或疾患不需要完全消除与其相关的病症、疾患或症状。在一些实施方案中，所述效应是治疗性的，即(但不限于)，所述效应部分或完全减少、减弱、消除、减轻、缓解、降低疾病的强度或治愈疾病和/或疾病引起的不良症状。在一些实施方案中，所述效应是预防性的，即所述效应保护或防止疾病或疾患的发生或复发。为此，目前公开的方法包括施用治疗有效量的如本文所述的组合物。

“尿嘧啶糖基化酶抑制剂”或“UGI”是指抑制尿嘧啶切除修复系统的剂。包含胞苷脱氨酶的碱基编辑器将胞嘧啶转化为尿嘧啶，然后通过DNA复制或修复将其转化为胸腺嘧啶。在碱基编辑器中包括尿嘧啶DNA糖基化酶(UGI)的抑制剂可以防止将U变回C的碱基切除修复。示例性UGI包含如下氨基酸序列：＞splP14739IUNGI_BPPB2尿嘧啶-DNA糖基化酶抑制剂

MTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKML(SEQ ID NO:124)。

本文提供的范围应理解为所述范围内的所有值的简写。例如，1至50的范围应理解为包括来自由1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50组成的组的任何数字、数字组合或子范围。

在本文任何变量定义中的化学基团清单的引述包括所述变量作为任何单一基团或所列基团的组合的定义。本文对变量或方面的实施方案的引述包括作为任何单一实施方案或与任何其它实施方案或其部分组合的实施方案。

所有术语都应像它们被本领域技术人员理解的那样被理解。除非另有定义，否则本文使用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常所理解的相同的含义。

在本申请中，除非另外明确说明，否则使用单数包括复数。必须注意，除非上下文另外清楚指明，否则如本说明书中所用，单数形式“一个/种(a/an)”和“所述(the)”包括多个指代物。在本申请中，除非另外说明，否则使用“或”意指“和/或”。此外，术语“包括(including)”以及其它形式，诸如“包括(include)”、“包括(includes)”和“包括(included)”的使用不受限制。

如本说明书和权利要求中所用，词“包含(comprising)”(以及包含(comprising)的任何形式，诸如“包含(comprise)”和“包含(comprises)”)、“具有(having)”(以及具有(having)的任何形式，诸如“具有(have)”和“具有(has)”)、“包括(including)”(以及包括(including)的任何形式，诸如“包括(includes)”和“包括(include)”)，或“含有(containing)”(以及含有(containing)的任何形式，诸如“含有(contains)”和“含有(contain)”)为包括性的或开放式的并且不排除另外的、未提及的要素或方法步骤。可以设想本说明书中讨论的任何实施方案可以以本公开的任何方法或组合物实现，并且反之亦然。此外，本公开的组合物可以用于实现本公开的方法。

术语“约”或“大约”意指由本领域普通技术人员测定的特定值处于可接受的误差范围内，所述误差范围部分取决于所述值的测量或测定方式，即测量系统的限制。例如，根据本领域的实践，“约”可以意指在1个或超过1个标准偏差内。可替代地，“约”可以意指给定值的至多20％、至多10％、至多5％或至多1％的范围。可替代地，特别是关于生物系统或方法，所述术语可以意指在一个数量级以内，例如在5倍以内、在2倍以内。当特定值在申请和权利要求书中描述时，除非另外说明，否则应假定术语“约”意指在特定值的可接受误差范围内。

在本说明书中提及“一些实施方案”、“一个实施方案(an embodiment/oneembodiment)”或“其他实施方案”意指结合所述实施方案描述的特定特征、结构或特性包括在本发明的至少一些实施方案但不一定是所有实施方案中。

附图说明

图1描绘了含有编码腺苷脱氨酶(例如TadA tRNA脱氨酶)和Cas9蛋白(例如dCas9)和gRNA的质粒，如在哺乳动物细胞中的ABE核碱基编辑中使用的。

图2是描绘示例性研究设计工作流程的示意图，所述工作流程涉及人类CD34+细胞的电穿孔(EP)以植入到小鼠中用于概念验证实验。如示意图所示，研究设计包括以下程序：解冻细胞；在细胞培养烧瓶(或板或锥形管)中培养细胞2天；EP缓冲液交换并洗涤细胞；对细胞进行电穿孔，例如用编码ABE碱基编辑器的mRNA和gRNA；37℃下EP孵育20分钟；在细胞培养烧瓶(或板或锥形管)中培养细胞2天；冷冻保存细胞；并将细胞植入小鼠模型中。

图3A和3B是柱状图。图3A显示了来自两个供体(供体1、供体2)的使用ABE 8.8(50nM)、ABE 8.8(20nM)和ABE 7.10(50nM)腺苷核碱基编辑系统的A→G(A→G％)编辑的CD34⁺细胞的百分比。图3B显示了电穿孔后(EP)后48小时时编辑的细胞的活力占总编辑的细胞的百分比(％)。在显示的柱状图组中，最左边的柱(基线处)表示未编辑的细胞；左起第二柱表示用50nM ABE8.8处理的细胞；左起第三柱表示用20nM ABE8.8处理的细胞；并且左起第四柱表示用50nM ABE7.10处理的细胞。

图4A和4B是柱状图。图4A(来自供体1的细胞)和图4B(来自供体2的细胞)呈现显示在注射(植入)后指定时期小鼠骨髓(BM)中hCD45⁺细胞占总CD45⁺细胞的百分比(％)的数据。指定的小鼠组接受未编辑的细胞和所示使用ABE 8.8(50nM)、ABE 8.8(20nM)或ABE 7.10(50nM)ABE核碱基编辑系统编辑的hCD34⁺细胞。在显示的柱状图组中，最左边的柱组表示未编辑的细胞；左起第二组柱表示用50nM ABE8.8处理的细胞；左起第三组柱表示用20nMABE8.8处理的细胞；并且左起第四组柱表示用50nM ABE7.10处理的细胞。

图5Ai、5Aii和5B至5E是柱状图。图5Ai和5Ai i呈现显示在指定的植入小鼠组中，在注射(In)时、注射后8周和16周时，小鼠骨髓中的A→G％编辑的细胞的数据。使用ABE 8.8(50nM)、ABE 8.8(20nM)和ABE 7.10(50nM)ABE核碱基编辑系统编辑处理的(编辑的)hCD34⁺细胞。图5B(来自供体1的细胞)和5C(来自供体1的细胞)呈现了注射后(用药)16周时指定小鼠组的分选细胞群体的结果。使用流式细胞术进行分选。CD34⁺细胞进一步以Lin 34和GlyA标志物进行分选。图5D和5E显示在注射编辑的供体细胞后16周时植入小鼠中γ珠蛋白的表达水平的结果。(图5D-来自供体1细胞的受体的结果；图5E-来自供体2细胞的受体的结果)。n＝3-6只小鼠/组。在图5Ai至5C中，最左边的柱组表示未编辑的细胞(基线)；左起第二组柱表示用50nM ABE8.8处理的细胞；左起第三组柱表示用20nM ABE8.8处理的细胞；并且左起第四组柱表示用50nM ABE7.10处理的细胞。在图5D和5E中，最左边的柱表示未编辑的细胞；左起第二根柱表示用50nM ABE8.8处理的细胞；左起第三根柱表示用20nM ABE8.8处理的细胞；并且左起第四根柱表示用50nM ABE7.10处理的细胞。

图6A至6C是柱状图，其呈现了在来自单个健康供体的人类CD34⁺细胞植入NOD.Cg-Kit^W-41J Tyr⁺Prkdc^scid Il2rg^tm1Wjl/ThomJ(NBSGW)小鼠骨髓后16周时收集的数据(N＝6(嵌合和编辑)，N＝5(诱导))。图6A是柱状图，其比较植入的编辑或未编辑的CD34⁺细胞的百分比。图6B是显示碱基编辑效率的柱状图。图6C是显示编辑和未编辑的细胞中γ珠蛋白的表达水平的柱状图。

图7A至7B呈现关于来自镰状细胞病(SCD)患者的使用电穿孔用ABE8.8 mRNA和sgRNA转染的CD34⁺细胞的柱状图和堆叠柱状图。图7A是显示在电穿孔后48小时和14天时编辑的细胞的百分比的堆叠柱状图。图7B是显示在指定时间点包含在每个指定细胞群体内的不同编辑(包括旁观者编辑)的堆叠柱状图。

图8A至8D是关于分化为红细胞的编辑的镰状细胞病(SCD)-CD34⁺细胞在分化后第18天时分析的珠蛋白水平的曲线图和柱状图。图8A和8B是显示对应于鉴定的珠蛋白多肽的峰的曲线图。图8C是显示编辑的细胞中γ珠蛋白(对应于HbF水平)表达中的变化百分比的柱状图，并且图8D是显示了编辑的细胞中S珠蛋白的同时减少百分比的柱状图。在柱状图中，最左边的柱表示未编辑的细胞，最右边的柱表示碱基编辑的细胞。图8C的y轴反映γ/(γ+S+Δ)*100并且图8D的y轴反映S/(γ+S+Δ)*100。

图9A至9C呈现示意图和柱状图。图9A描绘了在本文实施例5中描述的研究中使用的实验设计和处理条件。图9B和9C显示了证明NBSGW小鼠(NBSGW小鼠模型)中长期(16周)植入和HBG1/2基因启动子碱基编辑保留的柱状图和结果。图9B显示骨髓(BM)中的％hCD45+/(hCD45+mCD45+)人类细胞嵌合体。图9C显示大量BM细胞中的％HBG1/2启动子碱基编辑。对于图中的柱组，最左边的柱表示未编辑的细胞；左起第二根柱表示用1nM ABE mRNA(MRNA288)+3000nM gRNA处理的细胞；左起第三根柱表示用3nM ABE mRNA(MRNA288)+3000nM gRNA处理的细胞；左起第四根柱表示用10nM ABE mRNA(MRNA288)+3000nM gRNA处理的细胞；左起第五根柱表示用30nM ABE mRNA(MRNA288)+3000nM gRNA处理的细胞；左起第六根柱表示用10nM ABE mRNA(批号R34)+3000nM gRNA处理的细胞；并且左起第七根柱表示用10nM ABE mRNA(批号R34)+3000nM gRNA处理的细胞。实验中，ABE mRNA是ABE8.8mRNA，并且gRNA是HBG1/2 gRNA。ABE8.8编码mRNA，MRNA288(由CRO生产)；ABE8.8编码mRNA，批号R34(研究级)；和试验级HBG1/2 gRNA(GMP样gRNA)如实施例5中所述。图9C中提供的图例应用于图9B和9C。

图10A至10D呈现了证明HBG1/2基因启动子编辑的人类干细胞(HSC)在NBSGW小鼠(NBSGW小鼠模型)中显示出长期、多谱系(例如，红细胞、骨髓、淋巴)造血重构的柱状图。在柱状图中，最左边的柱表示未编辑的细胞；左起第二根柱表示用1nM ABE mRNA(MRNA288)+3000nM gRNA处理的细胞；左起第三根柱表示用3nM ABE mRNA(MRNA288)+3000nM gRNA处理的细胞；左起第四根柱表示用10nM ABE mRNA(MRNA288)+3000nM gRNA处理的细胞；左起第五根柱表示用30nM ABE mRNA(MRNA288)+3000nM gRNA处理的细胞；左起第六根柱表示用10nM ABE mRNA(批号R34)+3000nM gRNA处理的细胞；并且左起第七根柱表示用10nM ABEmRNA(批号R34)+3000nM gRNA处理的细胞。实验中，ABE mRNA是ABE8.8 mRNA，并且gRNA是HBG1/2 gRNA。图10B右侧的图例应用于图10A至10D。

图11呈现了显示证明在使用碱基编辑器(ABE mRNA)和gRNA的细胞电穿孔后16周时，在NBSGW小鼠中的长期人类造血、多谱系重构的结果的条形图。评估了人类造血细胞亚群中的HBG1/2启动子碱基编辑的百分比(％)。在图中，最左边的一系列的5根柱(即，大量BM、CD15+、CD19+、Lin-CD34+、BlyA+)表示未编辑的细胞；左起第二系列的5根柱表示用1nMABE mRNA(MRNA288)+3000nM gRNA处理的细胞；左起第三系列的5根柱表示用3nM ABE mRNA(MRNA288)+3000nM gRNA处理的细胞；左起第四系列的5根柱表示用10nM ABE mRNA(MRNA288)+3000nM gRNA处理的细胞；左起第五系列的5根柱表示用30nM ABE mRNA(MRNA288)+3000nM gRNA处理的细胞；左起第六系列的5根柱表示用10nM ABE mRNA(批号R34)+3000nM gRNA处理的细胞；并且左起第七系列的5根柱表示用10nM ABE mRNA(批号R34)+3000nM gRNA处理的细胞。实验中，ABE mRNA是ABE8.8 mRNA，并且gRNA是HBG1/2gRNA。

图12A和12B呈现了证明HBG1/2基因启动子碱基编辑在NBSGW小鼠中植入后长期(16周)维持升高的γ珠蛋白(gamma globin/γ-globin)水平的柱状图。在图12A中，评估了16周时大量BM细胞中的％HBG1/2启动子碱基编辑。在图12B中，评估了流式细胞术分选的BM衍生的人类红细胞中的％γ珠蛋白水平。所示柱状图中表示的细胞处理与上文针对图10A至D描述的那些相同。实验中，ABE mRNA是ABE8.8 mRNA，并且gRNA是HBG1/2 gRNA。图12B右侧的图例应用于图12A和12B。

图13A和13B呈现了证明长期植入和HBG1/2基因启动子碱基编辑在辐照的NSG(irrNSG)小鼠中保留的柱状图。图13A显示骨髓(BM)中的％hCD45+/(hCD45+mCD45+)人类细胞嵌合体。图13B显示大量BM细胞中的％HBG1/2启动子碱基编辑。图中所示的柱状图和柱状图组表示如上文针对图9B和9C所述的细胞处理。实验中，ABE mRNA是ABE8.8 mRNA，并且gRNA是HBG1/2 gRNA。图13B右侧的图例应用于图13A和13B。

图14A至14C呈现了证明HBG1/2基因启动子编辑的HPSC在irrNSG小鼠中表现出长期、多谱系(例如，红细胞、骨髓、淋巴)的造血重构的柱状图。显示的是人类祖干细胞(HSPC)，(图14A)；人类骨髓细胞(图14B)和人类淋巴细胞(图14C)。图中的柱状图表示如上所述(例如在图10A至10D中)的细胞处理。实验中，ABE mRNA是ABE8.8 mRNA，并且gRNA是HBG1/2 gRNA。图14C右侧的图例应用于图14A至14C。

图15呈现了显示在16周时，NBSGW小鼠和irrNSG小鼠中评估的大量BM细胞中的％HBG1/2启动子碱基编辑的柱状图。图15显示了具有可比性的HBG1/2基因启动子碱基编辑在NBSGW小鼠和irrNSG小鼠中长期(16周)保留，这是通过对从小鼠获得的大量骨髓(BM)细胞的分析确定的。图中的柱状图表示如上文所述(例如对于图13A和13B)的细胞处理。实验中，ABE mRNA是ABE8.8 mRNA，并且gRNA是HBG1/2 gRNA。

图16呈现了使用NBSGW小鼠模型并包括供体细胞(HPSC)的二次植入组分(16周+8周)的长期植入研究的结果的示意图和柱状图。最左边的图显示给药后16周+8周时植入小鼠中的人类细胞嵌合体的百分比(hCD45+/(hCD45+mCD45+))；中间的图显示给药后16周+8周时植入小鼠中的％LIN-hCD34+细胞；最右边的图显示给药后16+8周时植入的小鼠中评估的骨髓细胞的％碱基编辑(A→G)。在每个柱状图中，最左边的柱表示用于植入NBSGW小鼠的未编辑的HPSC；中间的柱表示使用小规模电穿孔(OC-400)电穿孔的用于植入NBSGW小鼠的碱基编辑的HPSC；并且最右边的柱表示使用大规模电穿孔(CL1.1)电穿孔的用于植入NBSGW小鼠的碱基编辑的HPSC。实验中，ABE mRNA是ABE8.8 mRNA，并且gRNA是HBG1/2 gRNA。

图17A和17B呈现了显示在NBSGW小鼠模型(实施例5)中的剂量滴定研究期间进行的ABE8.8给药后13周时人类骨髓(BM)细胞嵌合体(hCD45+/(hCD45+mCD45+))评估(图17A)和BM细胞中的碱基编辑百分比(图17B)的柱状图。平均值+/-SEM：13周时N＝1；8周时N＝3；0周时N＝1。对于图中所示的柱状图或柱状图组，最左边的柱表示用10nM ABE8.8 mRNA(R34)+3000nM gRNA处理的细胞；最右边的柱表示用30nM mRNA(288)+3000nM gRNA处理的细胞。实验中，ABE mRNA是ABE8.8 mRNA，并且gRNA是HBG1/2 gRNA。

图18A和18B呈现了显示通过对冷冻保存后新鲜解冻的供体细胞进行的流式细胞术分析测定的细胞凋亡/细胞活力的图。结果显示了24小时分离和48+小时分离时相比于对照PBMC的活细胞、死细胞和凋亡CD34+细胞的百分比，如实施例5中所述。还显示了活细胞、死细胞和凋亡CD34+细胞在使用凋亡检测试剂盒生成，并通过流式细胞术和针对7-AAD和膜联蛋白V的抗体试剂评估的图上的位置。

图19A至19C呈现了显示细胞凋亡/细胞活力的评估；细胞凋亡的测量；以及供体CD34+细胞的谱系分析的结果的流式细胞术图。图19A显示了通过对24小时分离和48+小时分离时的“Pre-EP”CD34+细胞样品进行的流式细胞术分析确定的细胞凋亡/细胞活力，如实施例5中所述。细胞在冷冻保存后解冻后培养48+小时(图19A)。图19B显示了通过对24小时分离和48+小时分离时不同组“EP后”CD34+细胞样品进行的流式细胞术分析确定的细胞凋亡测量(未编辑的细胞相比于碱基编辑的CD34+细胞)，如实施例5所述。图19C显示了使用对所分析的谱系标志物具有特异性的抗体试剂在电穿孔后24小时中对新鲜解冻的供体细胞进行的谱系分析的流式细胞术结果。SSC-A纵坐标值增量为50k，范围从0到250k；CD15纵坐标值和CD34和CD19横坐标值的范围为0到10⁵，呈对数变化。

图20A和20B显示了呈现评估未编辑的和碱基编辑的细胞中的细胞活力百分比和碱基编辑(A到G)百分比的结果的柱状图。图20A中的柱状图显示了在电穿孔前(EP前)和电穿孔后24、48和72小时时的细胞活力，如实施例6中所述。图20B中的柱状图显示了在指定时间段在碱基编辑的移植细胞中实现的碱基编辑百分比。对于图20A和20B中所示的柱状图或柱状图组，最左边的柱表示在48+小时预富集(48+小时Pre-Enrich)后收集的未编辑的细胞；左起第二根柱表示使用小规模OC-400细胞电穿孔盒电穿孔并如所示处理(48+小时Pre-Enrich)的碱基编辑的细胞；左起第三根柱表示在24小时预富集(24小时Pre-Enrich)后收集的未编辑的细胞；左起第四根柱表示使用小规模OC-400细胞电穿孔筒电穿孔的碱基编辑的细胞(24小时Pre-Enrich)；并且最右边的柱表示使用大规模CL1.1细胞电穿孔盒电穿孔的编辑的细胞(24小时Pre-Enrich)。未编辑的和碱基编辑的细胞的“24小时或48+小时预富集”是指从供体分离血液样品(PBMC)和在样品中富集CD34+细胞之间的时间段，如本文实施例6中所述。图20B右侧的图例应用于图20A和20B。

图21A和21B呈现了柱状图和描绘细胞生长曲线的图。21A中所示柱状图表示解冻后去核细胞的百分比(DAPI-/NucRed-％)。柱状图表示的细胞的处理条件沿图21A的横坐标显示。图21B中的图呈现了解冻后在指定日期评估的“理论总细胞”。对于图21A和21B，平均值+/-SEM；N＝3。

图22A和22B显示了呈现评估γ珠蛋白诱导(γ/β样)量的结果和在未编辑的或碱基编辑的细胞中检测到的集落数量(CFU)的柱状图。图22A显示了由未编辑的细胞在所示的预富集条件下和由碱基编辑的细胞经受所示的小规模或大规模电穿孔以及预富集条件(平均值+/-SEM；N＝3)下产生或表达的γ珠蛋白诱导(γ/β样)量。图22B显示了由未编辑的细胞在所示的预富集条件下或由碱基编辑的细胞经受所示的小规模(OC400)或大规模(CL1.1)电穿孔以及预富集条件(平均值+/-SEM；N＝2)产生的所示类型(BFU-E、CFU-GM和CFU-GEMM)的集落数量。

图23A和23B显示了呈现在用未编辑的或碱基编辑的供体CD34+细胞后8周时评估小鼠骨髓(BM)中的人类供体细胞嵌合体和动物中的碱基编辑百分比(A至G)的结果的柱状图。图23A显示了在小鼠接受(移植)未编辑的或碱基编辑的CD34+细胞给药后8周时评估的小鼠骨髓(BM)中的人类供体细胞嵌合体的百分比(hCD45+/(hCD45++mCD45+))，所述CD34+细胞已在小规模(OC400)或大规模(CL1.1)电穿孔条件下电穿孔并经受24或48+小时预富集条件。图23B显示了在向动物施用/移植后8周(8周时，n＝3)在x轴(输入；大量BM；CD34+/LIN-；和全血)上显示的细胞材料中碱基编辑(A到G)的百分比。图中的柱和柱组表示如针对图20A和20B所描述的细胞和条件。

图24A至24D显示了呈现在用未编辑的或碱基编辑的供体CD34+细胞给药后8周和16周时评估小鼠骨髓(BM)中地人类供体细胞嵌合体、动物中的hCD15+细胞百分比、GlyA+细胞百分比和人类CD34+细胞百分比的结果的柱状图。图24A显示了在小鼠接受(移植)未编辑的或碱基编辑的CD34+细胞后16周时检测到的小鼠骨髓(BM)中的人类供体细胞嵌合体的百分比(hCD45+/(hCD45++mCD45+))，所述CD34+细胞已在小规模(OC400)或大规模(CL1.1)电穿孔下电穿孔并经受24或48+小时预富集条件。图24B显示了在小鼠接受(移植)未编辑的或碱基编辑的CD34+细胞后8周时在小鼠中检测到的hCD15+细胞的百分比，所述CD34+细胞已在小规模(OC400)或大规模(CL1.1)电穿孔条件下电穿孔并经受24或48+小时预富集条件。图24C显示了在小鼠接受(移植)未编辑的或碱基编辑的CD34+细胞后16周时在小鼠中检测到的GlyA+细胞的百分比，所述CD34+细胞已在小规模(OC400)或大规模(CL1.1)电穿孔条件下电穿孔并经受24或48+小时预富集条件。图24D显示了在小鼠接受(移植)未编辑的或碱基编辑的CD34+细胞后16周时在小鼠中检测到的hCD34+细胞的百分比(hCD34+/hCD45+细胞)，所述CD34+细胞已在小规模(OC400)或大规模(CL1.1)电穿孔条件下电穿孔并经受24或48+小时预富集条件。图24A至24D的图中的柱状图和柱状图组表示如上所述的细胞和条件(平均值+/-SEM，n＝4-5)。

图25A至25C显示了呈现在给药嵌合体后8周和16周时评估在向动物施用的未编辑的和碱基编辑的细胞中的碱基编辑和珠蛋白再活化的结果的柱状图。图25A显示了在小鼠接受(移植)未编辑的或碱基编辑的CD34+细胞给药后8周和16周时评估的小鼠骨髓(BM)中的人类供体细胞嵌合体的百分比(hCD45+/(hCD45++mCD45+))，所述CD34+细胞已在小规模(OC400)或大规模(CL1.1)电穿孔条件下电穿孔并经受24或48+小时预富集条件。图25B显示了在8周和16周时碱基编辑的百分比，如在所述未编辑的细胞和碱基编辑的细胞中评估的。图25C显示了在动物中给药后16周时所述未编辑的细胞和碱基编辑的细胞中的γ/β样胎儿珠蛋白再激活的百分比。在图25A至C中，柱状图或柱状图组表示如针对上图所述的细胞和条件(例如，最左边的柱或柱组中最左边的条表示未编辑的细胞(48+小时)；左起第二根柱或柱组中左起第二根柱表示编辑的细胞(48+小时，OC-400)；左起第三根柱或柱组中左起第三根柱表示未编辑的细胞(24小时)；左起第四根柱或柱组中左起第四根柱表示编辑的细胞(24小时，OC-400)；并且左起第五根柱或柱组中左起第五根柱表示编辑的细胞(24小时，CL1.1))。

图26呈现了证明如在将未编辑的或碱基编辑的细胞给药至动物后16周评估的具有所示表型和谱系(即，GlyA+、CD15+、CD19+、LIN-CD34+、BM)的细胞亚群中的碱基编辑百分比的柱状图组。最左边的一组柱表示在用未编辑的CD34+细胞(CD34+细胞在收集人类供体血液样品后24小时时分离(“24小时”))移植动物后16周时检测到的细胞亚群中的％碱基编辑。中间的一组柱表示在用碱基编辑的经受小规模电穿孔(OC-400)的CD34+细胞(CD34+细胞在收集人类供体血液样品后24小时时分离(“24小时”))移植动物后16周时检测到的细胞亚群中的％碱基编辑。最右边的一组柱表示在用碱基编辑的经受大规模电穿孔(CL1.1)的CD34+细胞(CD34+细胞在收集人类供体血液样品后24小时时分离(“24小时”))移植动物后16周时检测到的细胞亚群中的％碱基编辑。

图27呈现了用于编辑HBG1/2基因座的靶位点的示意图。图中，从上到下的序列为SEQ ID NO:289和290。

具体实施方式

本发明的特征在于含有新型腺嘌呤碱基编辑器(例如，ABE8)的组合物，所述碱基编辑器具有提高的效率和使用所述组合物在核酸分子内的靶位点处生成修饰的方法，特别是用于治疗血红蛋白病，诸如镰状细胞病(SCD)、贫血、地中海贫血等。

镰状细胞病(SCD)是一种影响β珠蛋白功能的单基因病症，其导致严重贫血和进行性多器官衰竭。镰状细胞病(SCD)的一种有希望的治疗方法是胎儿血红蛋白(HbF)的重新表达，这在患有遗传性胎儿血红蛋白持续存在综合征(HPFH)的个体中自然发生。高水平的HbF有时是β-珠蛋白基因缺失或HbF基因启动子中点突变的结果。镰状细胞病(SCD)患者在人类γ珠蛋白基因启动子HBG1和HBG2(HBG1/2)中具有天然遗传变异，显示出升高的HbF水平并且通常遭受显著较少的镰状细胞病(SCD)并发症。

本文的特征在于用修饰的细胞(例如如本文所述的碱基编辑器系统修饰的(例如碱基编辑的)造血细胞)进行长期植入治疗的组合物和方法。例如，单核苷酸多态性(SNP)可以在用于植入的造血干细胞或祖细胞(HSPC)(例如人类CD34⁺细胞)中编辑，以生成所需的治疗和/或表型。在一些实施方案中，碱基编辑的人类CD34⁺细胞(供体细胞)被植入到患有镰状细胞病的受体中以治疗SCD。碱基编辑修饰可以校正与镰状细胞病(SCD)相关的突变，或者可以产生一种或多种核碱基修饰以改善镰状细胞病(SCD)症状。在一些实施方案中，修饰的人类CD34⁺造血干细胞/祖细胞(HSPC)被引入(例如，植入)有需要的受试者以生成HbF的增加的和/或持续的表达。在一些实施方案中，碱基编辑的人类CD34⁺细胞被引入(例如，植入)有需要的受试者以治疗镰状细胞病(SCD)。在一些实施方案中，修饰的人CD34⁺造血干细胞/祖细胞(HSPC)被引入(例如，植入)有需要的受试者以重建HPFH表型(作为镰状细胞病(SCD)的治疗)。

在一个方面，本公开提供了具有改进的碱基编辑功能的核碱基编辑器和碱基编辑器系统，其生成高百分比核碱基编辑的细胞，这些细胞在递送或施用给受试者后植入到受试者体内。在引入受试者后，这些碱基编辑的细胞被移植并履行其作为移植骨髓细胞的功能。在某些实施方案中，本文提供的碱基编辑器系统以增加的编辑效率、减少的脱靶效应、减少的插入缺失形成、减少的旁观者修饰、减少的伪修饰或其组合实现在单个靶核碱基处的编辑。

HBG1/2基因座处的碱基编辑

在一些实施方案中，靶向编辑血红蛋白基因或其调节元件的腺苷碱基编辑系统提供了碱基的编辑细胞，所述细胞有利于在有需要的受试者(例如患有血红蛋白病诸如镰状细胞病或地中海贫血的受试者)中的移植和植入。在一些实施方案中，这些方法为编辑HSPC中的人类HBG1/2基因启动子做准备。在一些实施方案中，用于编辑血红蛋白基因或其调节亚基的方法相对于目前可用的用于基因编辑和用于生成适合和有益于移植和植入的碱基编辑细胞的方法是一种改进的方法。在一些实施方案中，本文提供的用于编辑血红蛋白基因或其调节亚基的腺苷碱基编辑系统具有以下优点中的一个或多个，或两个或更多个的组合：更高的编辑效率；更高的保真度和显著更少的脱靶编辑事件；更高的编辑细胞存活率；更高的体外编辑细胞持久性；更高的体内编辑细胞存活率和持久性；更高的植入潜力；更高的分化为红细胞生成谱系的能力；更高的体外增殖能力；更高的体内增殖能力，更高的HbF表达；以及与先前报道的或现有的碱基编辑系统相比，更高的缺陷珠蛋白基因表达(诸如HbS)的降低程度。在实施方案中，HbF的较高表达补偿受试者的血红蛋白缺乏。在实施方案中，血红蛋白缺乏症是α地中海贫血或β地中海贫血。地中海贫血是以血红蛋白产生减少为特征的血液病症。地中海贫血症通常与受试者中的缺乏α和/或β珠蛋白的产生有关。

在一个方面，本公开提供了一种用于在患有镰状细胞病(SCD)的受试者的具有长期植入潜力的HSPC中编辑人类HBG1/2基因启动子的方法。图27说明了用于编辑人类HBG1/2基因启动子的靶序列。在实施方案中，编辑人类HBG1/2基因启动子破坏和/或消除了启动子区域中BCL11A的结合。在实施方案中，编辑HBG1/2基因启动子与HBG1/2基因的去抑制有关。在实施方案中，编辑HBG1/2基因启动子消除、破坏或减少HBG1/2基因的启动子区域中的BCL11A结合。在实施方案中，编辑人类HBG1/2基因导致相对于HBG1/2基因的规范转录起始位点的-144位置处的核碱基变化。在一个实施方案中，本公开提供了一种用于在患有镰状细胞病(SCD)的受试者的具有长期植入潜力的HSPC中使用改进的腺苷碱基编辑系统(ABE)编辑人类HBG1/2基因启动子的方法。在一些实施方案中，本公开中并入了针对改进的腺苷碱基编辑系统的若干改进，所述改进的腺苷碱基编辑系统靶向编辑血红蛋白基因或其调节亚基，例如像编辑HSPC中的人类HBG1/2基因启动子。

HbB基因编辑

在一个方面，本文所述的方法可用于HbB基因编辑。特别地，本发明的组合物和方法可用于治疗镰状细胞病(SCD)，其由HbB基因编码的β-珠蛋白的第六个氨基酸处的Glu至Val突变引起。尽管迄今为止在基因编辑领域中取得了许多进展，但精确校正病变的HbB基因以将Val复原为Glu仍然难以捉摸，并且目前使用CRISPR/Cas核酸酶或CRISPR/Cas碱基编辑方法都无法实现。

使用CRISPR/Cas核酸酶方法对HbB基因进行基因组编辑以替换受影响的核苷酸需要切割基因组DNA。然而，切割基因组DNA带来增加的生成碱基插入/缺失(插入缺失(indel))的风险，有可能导致意想不到的和不良的后果，包括生成提前终止密码子、改变密码子阅读框等。此外，在β珠蛋白(β-珠蛋白)基因座处生成双链断裂有可能通过重组事件彻底改变基因座。β-珠蛋白基因座含有一组彼此具有序列同一性的珠蛋白基因。由于β-珠蛋白基因座的结构，基因座内双链断裂的重组修复有可能导致珠蛋白基因之间(例如γ-珠蛋白和β-珠蛋白基因之间)的插入序列的基因丢失。对基因座的意想不到的改变也带有导致地中海贫血的风险。CRISPR/Cas碱基编辑方法很有希望，因为它们能够在核碱基水平上生成精确的改变。然而，

的精确校正需要T·A至A·T转换编辑器，已知目前不存在。

此外，CRISPR/Cas碱基编辑的特异性部分是由于CRISPR/Cas与DNA结合后R环形成产生的可编辑核苷酸的有限窗口。因此，CRISPR/Cas靶向必须发生在镰状细胞位点或其附近使得能够进行碱基编辑，并且可能存在窗口内最佳编辑的另外的序列要求。CRISPR/Cas靶向的一个要求是在靶向位点侧翼存在原型间隔区相邻基序(PAM)。例如，许多碱基编辑器都基于需要NGG PAM的SpCas9。即使假设T·A至A·T转换是可能的，也不存在将靶标“A”放置在此类SpCas9碱基编辑器的所需位置的NGG PAM。虽然发现或生成了很多扩展可用PAM集合的新CRISPR/Cas蛋白，但PAM需求仍然是将CRISPR/Cas碱基编辑器导向基因组中任何位点处的特定核苷酸的能力的限制因素。

本发明至少部分地基于本文所述的若干发现，这些发现为提供用于治疗镰状细胞性贫血的基因组编辑方法解决了前述挑战。在一个方面，本发明部分基于用丙氨酸替换在氨基酸位置6处的导致镰状细胞病的缬氨酸的能力，从而生成不生成镰状细胞表型的Hb变体(Hb望加锡)。尽管精确校正

在没有T·A至A·T转换碱基编辑器的情况下不可能实现，但本文进行的研究发现，

替换(即Hb望加锡变体)可以使用A·T至G·C碱基编辑器(腺嘌呤碱基编辑器或ABE)生成。如本文所提供的，这部分是通过开发新的碱基编辑器和新的碱基编辑策略来实现的。例如，新型ABE碱基编辑器(即，具有腺苷脱氨酶结构域)利用侧翼序列(例如PAM序列；锌指结合序列)来实现在镰状细胞靶位点进行最佳碱基编辑。

因此，本发明包括用于将β-珠蛋白的镰状细胞病变体(Sickle HbS；E6V)的第六个氨基酸的密码子中的胸苷(T)碱基编辑为胞苷(C)的组合物和方法，从而在此氨基酸位置用β-珠蛋白的位置6处的氨基酸取代缬氨酸(V6A或E6A)。在HbS的位置6用丙氨酸取代缬氨酸生成没有镰状细胞表型的β-珠蛋白变体(例如，不像致病性变体HbS那样具有聚合的潜力)。因此，本发明的组合物和方法可用于治疗镰状细胞病(SCD)。

在一些实施方案中，本公开中并入了针对改进的腺苷碱基编辑系统的若干改进，所述改进的腺苷碱基编辑系统靶向编辑血红蛋白基因或其调节亚基。在一些实施方案中，所述方法为编辑人类HbB基因而提供，以产生替代镰状HbS的Hb望加锡(E6A)变体；E6V。在一些实施方案中，改进可用于HbB编辑的造血干细胞的植入。

在一些实施方案中，靶多核苷酸(DNA)序列编码蛋白质(例如，HbB)，并且基因编辑在多核苷酸(DNA)序列的密码子中，并导致由与野生型密码子相比的突变密码子编码的氨基酸的改变。在一些实施方案中，突变体A的脱氨基作用导致由突变密码子编码的氨基酸的变化。在一些实施方案中，突变体C的脱氨基作用导致由突变密码子编码的氨基酸的变化。

向导RNA(gRNA)序列

为了产生上述基因编辑，从受试者收集造血干细胞/祖细胞(HSPC)并且与向导RNA和核碱基编辑器多肽接触，所述多肽包含核酸可编程DNA结合蛋白(napDNAbp)和胞苷脱氨酶或腺苷脱氨酶。在一些实施方案中，同时编辑多个靶位点。在一些实施方案中，同时编辑多个靶位点包括使HSPC与两个或更多个gRNA接触。在实施方案中，HSPC与多个不同的gRNA接触，每个gRNA靶向不同的序列。向导RNA可以为单向导或双向导。在一些实施方案中，待编辑的细胞与至少一种核酸(其中至少一种核酸编码一种向导RNA，或两种或更多种向导RNA)和包含核酸可编程DNA结合蛋白(napDNAbp)和脱氨酶(例如腺苷或胞苷脱氨酶)的核碱基编辑多肽接触。在一些实施方案中，gRNA包含核苷酸类似物。这些核苷酸类似物可以通过细胞过程抑制gRNA的降解。用于HBG1/2启动子的碱基编辑的示例性靶序列是CTTGACCAATAGCCTTGACAAGG-3'(SEQ ID NO:125)，其中AGG是PAM序列(参见图27)。

在一些实施方案中，本文提供的向导RNA指导碱基编辑器实现HbB基因中的核碱基取代，从而用HbB基因编码的血红蛋白β亚基中的E6A取代替换E6V突变。在一些实施方案中，HbB基因包含与镰状细胞病相关的一个或多个突变或SNP，例如导致E6V氨基酸突变的GAG-GTG取代。靶向HbB基因的示例性向导RNA序列包含核酸序列

5'-ascsusUCUCCACAGGAGUCAGGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUsususu-3'(SEQ ID NO:127)或

5'-csususCUCCACAGGAGUCAGGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUsususu-3'(SEQ ID NO:128)，其中小写字母表示2’-O-甲基化核碱基，并且“s”表示硫代磷酸酯。

在一些实施方案中，本文提供的向导RNA指导碱基编辑器实现HBG1/2基因启动子区域中的核碱基取代，从而产生增强的或延长的血红蛋白γ亚基的表达和增加的HbF水平。靶向HBG1/2基因启动子区域的示例性向导RNA是核酸序列

5'-csususGACCAAUAGCCUUGACAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUsususu-3'(SEQ ID NO:129)，其中小写字母表示2'-O-甲基化核碱基，“s”表示硫代磷酸酯。

示例性向导RNA间隔区序列和核碱基变化提供于下方表1中。

在一些实施方案中，本文提供的任何融合蛋白可以具有不具有核酸酶活性的Cas9结构域(dCas9)，或切割双链DNA分子的一条链的Cas9结构域(称为Cas9切口酶(nCas9))。不受任何特定理论的束缚，催化残基(例如，H840)的存在保持Cas9的活性以切割与靶核碱基相对的未编辑(例如，未甲基化)链。催化残基(例如，D10至A10)的突变阻止了含有靶A残基的编辑链的切割。此类Cas9变体可以根据gRNA定义的靶序列在特定位置产生单链DNA断裂(切口)，从而修复未编辑链，最终导致未编辑链上的核碱基发生变化。

本发明的碱基编辑器可以用于体外或体内DNA的靶向编辑。在非限制性实施例中，本发明的碱基编辑器用于产生突变细胞或动物，用于校正离体细胞中(诸如从受试者获得的随后重新引入相同或另一个受试者的细胞中)的遗传缺陷，或用于体内引入靶向突变(例如，校正遗传缺陷或在疾病相关基因中引入G至A或T至C突变的失活突变)。

核碱基编辑器

在本文所述的方法和组合物中有用的是编辑、修饰或改变多核苷酸的靶核苷酸序列的核碱基编辑器。本文所述的核碱基编辑器通常包含多核苷酸可编程核苷酸结合结构域和核碱基编辑域(例如，腺苷脱氨酶或胞苷脱氨酶)。当与结合的向导多核苷酸(例如，gRNA)结合时，多核苷酸可编程核苷酸结合结构域可以特异性结合靶多核苷酸序列，从而将碱基编辑器定位到需要被编辑的靶核酸序列。

多核苷酸可编程核苷酸结合结构域

多核苷酸可编程核苷酸结合结构域结合多核苷酸(例如，RNA、DNA)。碱基编辑器的多核苷酸可编程核苷酸结合结构域本身可以包含一个或多个结构域(例如，一个或多个核酸酶结构域)。在一些实施方案中，多核苷酸可编程核苷酸结合结构域的核酸酶结构域可以包含核酸内切酶或核酸外切酶。核酸内切酶可以切割双链核酸的单链或双链核酸分子的两条链。在一些实施方案中，多核苷酸可编程核苷酸结合结构域的核酸酶结构域可以切割靶多核苷酸的零条、一条或两条链。

可并入碱基编辑器的多核苷酸可编程核苷酸结合结构域的非限制性实例包括CRISPR蛋白衍生结构域、限制性核酸酶、大范围核酸酶、TAL核酸酶(TALEN)和锌指核酸酶(ZFN)。在一些实施方案中，碱基编辑器包含多核苷酸可编程核苷酸结合结构域，所述多核苷酸可编程核苷酸结合结构域包含天然或修饰的蛋白质或其部分，其通过结合的向导核酸能够在核酸的CRISPR(即，成簇的规律间隔的短回文重复序列)介导的修饰期间结合核酸序列。这种蛋白质在本文中被称为“CRISPR蛋白质”。因此，本文公开了一种碱基编辑器，所述碱基编辑器包含包含全部或部分CRISPR蛋白(即，包含作为结构域的全部或部分CRISPR蛋白的碱基编辑器，也称为碱基编辑器的“CRISPR蛋白衍生结构域”)的多核苷酸可编程核苷酸结合结构域。与CRISPR蛋白的野生型或天然版本相比，并入碱基编辑器的CRISPR蛋白衍生结构域可以被修饰。例如，如下所述，CRISPR蛋白衍生结构域可以包含相对于CRISPR蛋白的野生型或天然版本的一个或多个突变、插入、缺失、重排和/或重组。

本文可用的Cas蛋白包括1类和2类。Cas蛋白的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas9(也称为Csn1或Csx12)、Cas10、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、Cas12a/Cpf1、Cas12b/C2c1(例如SEQ ID NO:156)、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i和Cas12j/CasΦ、CARF、DinG、其同系物或其经修饰版本。CRISPR酶可以指导一条或两条链在靶序列处，诸如靶序列内和/或靶序列的互补序列内裂解。例如，CRISPR酶可以指导一条或两条链在距靶序列的第一个或最后一个核苷酸约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500个或更多个碱基对内裂解。

可使用编码相对于相应的野生型酶突变的CRISPR酶的载体，其使得突变的CRISPR酶缺乏切割含有靶序列的靶多核苷酸的一条或两条链的能力。Cas蛋白(例如，Cas9、Cas12)或Cas结构域(例如，Cas9、Cas12)可以指与野生型示例性Cas多肽或Cas结构域具有至少或至少约50％、60％、70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％序列同一性和/或的序列同源性的多肽或结构域。Cas(例如，Cas9、Cas12)可以指Cas蛋白的野生型或修饰形式，其可以包括氨基酸变化，诸如缺失、插入、取代、变体、突变、融合、嵌合体或其任何组合。

在一些实施方案中，碱基编辑器的CRISPR蛋白衍生结构域可以包括来自以下的全部或部分Cas9：溃疡棒状杆菌(NCBI Refs:NC_015683.1,NC_017317.1)；白喉棒状杆菌(NCBI Refs:NC_016782.1,NC_016786.1)；梅毒螺旋体(Spiroplasma syrphidicola)(NCBIRef:NC_021284.1)；中间普氏菌(NCBI Ref:NC_017861.1)；台湾螺原体(NCBI Ref:NC_021846.1)；海豚链球菌(NCBI Ref:NC_021314.1)；波罗的海贝尔氏菌(NCBI Ref:NC_018010.1)；扭曲冷弯曲菌(Psychroflexus torquis)(NCBI Ref:NC_018721.1)；嗜热链球菌(NCBI Ref:YP_820832.1)；无害李斯特菌(NCBI Ref:NP_472073.1)；空肠弯曲杆菌(NCBIRef:YP_002344900.1)；脑膜炎奈瑟菌(NCBI Ref:YP_002342100.1)、化脓性链球菌或金黄色葡萄球菌。

Cas9核酸酶序列和结构是本领域技术人员熟知的(参见，例如，“Complete genomesequence of an Ml strain of Streptococcus pyogenes.”Ferretti等人，Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001)；“CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III.”Deltcheva E.等人,Nature 471:602-607(2011)；和“A programmable dual-RNA-guided DNA endonuclease in adaptivebacterial immunity.”Jinek M.等人,Science 337:816-821(2012)，其中的每一个的全部内容以引用方式并入本文)。Cas9直向同源物已在各种物种中描述，包括但不限于酿脓链球菌和嗜热链球菌。基于本公开，另外的合适的Cas9核酸酶和序列对于本领域技术人员将是显而易见的，并且此类Cas9核酸酶和序列包括来自公开于Chylinski、Rhun和Charpentier,“The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems”(2013)RNA Biology 10:5,726-737中的生物体和基因座的Cas9序列；所述文献的全部内容以引用方式并入本文。

高保真Cas9结构域

本公开的一些方面提供了高保真Cas9结构域。高保真Cas9结构域在本领域中是已知的并且描述于例如，Kleintiver,B.P.等人“High-fidelity CRISPR-Cas9 nucleaseswith no detectable genome-wide off-target effects.”Nature 529,490-495(2016)；和Slaymaker,I.M.等人“Rationally engineered Cas9 nucleases with improvedspecificity.”Science 351,84-88(2015)；上述文献每一个的全部内容以引用方式并入本文。示例性高保真Cas9结构域在序列表中提供为SEQ ID NO:157。在一些实施方案中，高保真Cas9结构域是工程化的Cas9结构域，其包含相对于相应的野生型Cas9结构域而言减少Cas9结构域和DNA的糖-磷酸骨架之间的静电相互作用的一个或多个突变。与DNA的糖-磷酸骨架的静电相互作用减少的高保真Cas9结构域具有较少的脱靶效应。在一些实施方案中，Cas9结构域(例如，野生型Cas9结构域(SEQ ID NO:93和158))包含减少Cas9结构域和DNA的糖-磷酸骨架之间的关联的一个或多个突变。在一些实施方案中，Cas9结构域包含一个或多个突变，所述突变将Cas9结构域和DNA的糖-磷酸骨架之间的关联减少至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％或至少70％。

在一些实施方案中，本文提供的任何Cas9融合蛋白包含D10A、N497X、R661X、Q695X和/或Q926X突变，或本文提供的任何氨基酸序列中的相应突变中的一个或多个，其中X是任何氨基酸。在一些实施方案中，高保真Cas9酶是SpCas9(K855A)、eSpCas9(1.1)、SpCas9-HF1或超精确Cas9变体(HypaCas9)。在一些实施方案中，修饰的Cas9eSpCas9(1.1)含有丙氨酸取代，其削弱了HNH/RuvC槽和非靶DNA链之间的相互作用，防止链分离并且在脱靶位点切割。类似地，SpCas9-HF1通过破坏Cas9和DNA磷酸骨架相互作用的丙氨酸取代来减少脱靶编辑。HypaCas9在REC3结构域中含有突变(SpCas9 N692A/M694A/Q695A/H698A)，其增加Cas9校对和靶识别。与野生型Cas9相比，所有三种高保真酶产生更少的脱靶编辑。

排他性减小的Cas9结构域

通常，Cas9蛋白(诸如来自酿脓链球菌的Cas9(spCas9))需要“原型间隔区相邻基序(PAM)”或PAM样基序，其是紧接在被CRISPR细菌适应性免疫系统中的Cas9核酸酶的靶向DNA序列之后的2-6个碱基对的DNA序列。NGG PAM序列的存在是结合特定核酸区域所必需的，其中“NGG”中的“N”是腺苷(A)、胸苷(T)或胞嘧啶(C)，并且G是鸟苷。这可能会限制在基因组中编辑所需碱基的能力。在一些实施方案中，本文提供的碱基编辑融合蛋白可能需要放置在精确位置，例如包含位于PAM上游的靶碱基的区域。参见例如Komor,A.C.等人,“Programmable editing of a target base in genomic DNA without double-strandedDNA cleavage”Nature 533,420-424(2016)，其全部内容以引用方式并入本文。能够结合PAM序列的spCas9蛋白的示例性多肽序列在序列表中提供为SEQ ID NO:158-161。因此，在一些实施方案中，本文提供的任何融合蛋白都可以含有Cas9结构域，所述结构域是能够结合不含规范(例如NGG)PAM序列的核苷酸序列。与非规范PAM序列结合的Cas9结构域已在本领域中进行了描述，并且对于本领域技术人员来说是显而易见的。例如，结合非规范PAM序列的Cas9结构域已描述于Kleintiver,B.P.等人,“Engineered CRISPR-Cas9 nucleaseswith altered PAM specificities”Nature 523,481-485(2015)；和Kleintiver,B.P.等人,“Broadening the targeting range of Staphylococcus aureus CRISPR-Cas9 bymodifying PAM recognition”Nature Biotechnology 33,1293-1298(2015)中；每一个的全部内容以引用方式并入本文。

切口酶

在一些实施方案中，多核苷酸可编程核苷酸结合结构域可以包含切口酶结构域。在本文中，术语“切口酶”是指包含核酸酶结构域的多核苷酸可编程核苷酸结合结构域，所述核酸酶结构域能够仅切割双链核酸分子(例如，DNA)中两条链中的一条链。在一些实施方案中，切口酶可以通过将一个或多个突变引入活性多核苷酸可编程核苷酸结合结构域中而衍生自多核苷酸可编程核苷酸结合结构域的完全催化活性(例如，天然)形式。例如，当多核苷酸可编程核苷酸结合结构域包含衍生自Cas9的切口酶结构域时，Cas9衍生的切口酶结构域在位置840处可以包含D10A突变和组氨酸。在这样的实施方案中，残基H840保留催化活性并因此可以切割核酸双链体的单链。在另一个实施例中，Cas9衍生的切口酶结构域可以包含H840A突变，而位置10的氨基酸残基仍然是D。在一些实施方案中，切口酶可以通过去除切口酶活性不需要的核酸酶结构域的全部或部分而衍生自多核苷酸可编程核苷酸结合结构域的完全催化活性(例如，天然)形式。例如，在多核苷酸可编程核苷酸结合结构域包含衍生自Cas9的切口酶结构域的情况下，Cas9衍生的切口酶结构域可以包含全部或部分RuvC结构域或HNH结构域的缺失。

在一些实施方案中，野生型Cas9对应于或包含以下氨基酸序列：

(单下划线：HNH结构域；双下划线：RuvC结构域)。

在整个公开中，在将多肽序列并入碱基编辑器和/或融合蛋白的一些实施方案中，省略了多肽序列(例如，上方紧接提供的野生型Cas9序列)的初始甲硫氨酸。

在一些实施方案中，被包含切口酶结构域(例如，Cas9衍生的切口酶结构域、Cas12衍生的切口酶结构域)的碱基编辑器切割的核酸双链体靶多核苷酸序列的链是未被碱基编辑器编辑的链(即，被碱基编辑器切割的链与包含待编辑的碱基的链相反)。在其他实施方案中，包含切口酶结构域(例如，Cas9衍生的切口酶结构域、Cas12衍生的切口酶结构域)的碱基编辑器可以切割被靶向用于编辑的DNA分子的链。在这样的实施方案中，非靶向链不被切割。

在一些实施方案中，Cas9核酸酶具有无活性(例如，失活的)DNA切割结构域，即，Cas9是切口酶，被称为“nCas9”蛋白(对于“切口酶”Cas9)。Cas9切口酶可以是能够仅切割双链核酸分子(例如，双链DNA分子)的一条链的Cas9蛋白。在一些实施方案中，Cas9切口酶切割双链核酸分子的靶链，意味着Cas9切口酶切割与结合至Cas9的gRNA(例如，sgRNA)碱基配对(互补)的链。在一些实施方案中，Cas9切口酶包含D10A突变并且在位置840处具有组氨酸。在一些实施方案中，Cas9切口酶切割双链核酸分子的非靶、非碱基编辑的链，意味着Cas9切口酶切割与结合至Cas9的gRNA(例如，sgRNA)非碱基配对的链。在一些实施方案中，Cas9切口酶包含H840A突变并且在位置10处具有天冬氨酸残基，或相应的突变。在一些实施方案中，Cas9切口酶包含与本文提供的任何一种Cas9切口酶至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。基于本公开和本领域知识，另外的合适的Cas9切口酶对于本领域技术人员将是显而易见的，并且在本公开的范围内。

示例性催化活性Cas9切口酶(nCas9)的氨基酸序列如下：

MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD(SEQ ID NO:94)

Cas9核酸酶具有两个功能性核酸内切酶结构域：RuvC和HNH。Cas9在定位核酸酶结构域的靶结合时经历构象变化，以切割靶标DNA的相反链。Cas9介导的DNA切割的最终结果是靶DNA(PAM序列上游约3-4个核苷酸)内的双链断裂(DSB)。然后通过两种一般修复途径之一修复所得DSB：(1)有效但容易出错的非同源末端连接(NHEJ)途径；或(2)效率较低但高保真的同源定向修复(HDR)途径。

非同源末端连接(NHEJ)和/或同源定向修复(HDR)的“效率”可以通过任何方便的方法计算。例如，在一些实施方案中，效率可以用成功的HDR的百分比来表示。例如，surveyor核酸酶测定可以用于产生切割产物，并且产物与底物的比率可以用于计算百分比。例如，作为成功的HDR的结果，可以使用直接切割含有新整合的限制性序列的DNA的surveyor核酸酶。更多切割的底物表示更高百分比的HDR(更高的HDR效率)。作为说明性实施例，可以使用以下等式[(切割产物)/(底物加切割产物)](例如，(b+c)/(a+b+c),其中“a”是DNA底物的谱带强度，并且“b”和“c”是切割产物)计算HDR的分数(百分比)。

在一些实施方案中，效率可以以成功的NHEJ的百分比来表示。例如，T7核酸内切酶I测定可以用于产生切割产物，并且产物与底物的比率可以用于计算NHEJ百分比。T7核酸内切酶I切割由野生型和突变DNA链杂交产生的错配异源双链DNA(NHEJ在原始断裂的位点产生小的随机插入或缺失(插入缺失))。更多的切割表示更高百分比的NHEJ(更高的NHEJ效率)。作为说明性实施例，可以使用以下等式(1-(1-(b+c)/(a+b+c))^1/2)×100计算NHEJ的分数(百分比)，其中“a”是DNA底物的谱带强度，并且“b”和“c”是切割产物(Ran等人,Cell.2013 Sep.12；154(6):1380-9；和Ran等人,Nat Protoc.2013 Nov.；8(11):2281–2308)。

NHEJ修复途径是活性最强的修复机制，并且它经常在DSB位点导致小的核苷酸插入或缺失(插入缺失)。NHEJ介导的DSB修复的随机性具有重要的实际意义，因为表达Cas9和gRNA或向导多核苷酸的细胞群体可以导致多种突变。在大多数实施方案中，NHEJ在靶DNA中产生小的插入缺失，导致氨基酸缺失、插入或移码突变，从而导致靶基因的开放阅读框(ORF)内的提前终止密码子。理想的最终结果是靶基因内的功能丧失突变。

虽然NHEJ介导的DSB修复通常会破坏基因的开放阅读框，但同源定向修复(HDR)可以用于产生特定的核苷酸变化，其范围从单个核苷酸变化到大的插入如添加荧光团或标签。

为了利用HDR进行基因编辑，可以使用一种或多种gRNA和Cas9或Cas9切口酶将含有所需序列的DNA修复模板递送到关注的细胞类型中。修复模板可以含有所需的编辑以及紧邻靶标上游和下游的另外的同源序列(称为左同源臂和右同源臂)。每个同源臂的长度可以取决于引入的变化的大小，较大的插入需要更长的同源臂。修复模板可以是单链寡核苷酸、双链寡核苷酸或双链DNA质粒。HDR的效率普遍较低(＜10％的修饰等位基因)，即使在表达Cas9、gRNA和外源修复模板的细胞中也是如此。HDR的效率可以通过同步细胞来增强，因为HDR发生在细胞周期的S期和G2期。参与NHEJ的化学或遗传抑制基因也可以增加HDR频率。

在一些实施方案中，Cas9是修饰的Cas9。给定的gRNA靶向序列可以在存在部分同源性的整个基因组中具有另外的位点。这些位点称为脱靶位点，并且在设计gRNA时需要考虑。除了优化gRNA设计，还可以通过对Cas9的修饰来增加CRISPR的特异性。Cas9通过两个核酸酶结构域RuvC和HNH的组合活性产生双链断裂(DSB)。Cas9切口酶(SpCas9的D10A突变体)保留一个核酸酶结构域并且产生DNA切口而不是DSB。切口酶系统还可以与HDR介导的基因编辑相结合，以进行特定的基因编辑。

催化失活的核酸酶

本文还提供了碱基编辑器，其包含催化失活(即，不能切割靶多核苷酸序列)的多核苷酸可编程核苷酸结合结构域。在本文中，术语“催化失活”和“核酸酶失活”可以互换使用，指具有导致其不能切割核酸链的一个或多个突变和/或缺失的多核苷酸可编程核苷酸结合结构域。在一些实施方案中，催化失活的多核苷酸可编程核苷酸结合结构域碱基编辑器可能由于一个或多个核酸酶结构域中的特定点突变而缺乏核酸酶活性。例如，在碱基编辑器包含Cas9结构域的情况下，Cas9可以包含D10A突变和H840A突变。此类突变使两个核酸酶结构域失活，从而导致核酸酶活性丧失。在其他实施方案中，催化失活的多核苷酸可编程核苷酸结合结构域可以包含全部或部分催化结构域(例如，RuvC1和/或HNH结构域)的一个或多个缺失。在其他实施方案中，催化失活的多核苷酸可编程核苷酸结合结构域包含点突变(例如，D10A或H840A)以及全部或部分核酸酶结构域的缺失。dCas9结构域在本领域中是已知的并且描述于例如Qi等人,“Repurposing CRISPR as an RNA-guided platform forsequence-specific control of gene expression.”Cell.2013；152(5):1173-83，其全部内容以引用方式并入本文。

基于本公开和本领域知识，另外的合适的无核酸酶活性的dCas9结构域对于本领域技术人员将是显而易见的，并且在本公开的范围内。此类另外的示例性合适的无核酸酶活性的Cas9结构域包括但不限于D10A/H840A、D10A/D839A/H840A和D10A/D839A/H840A/N863A突变结构域(参见，例如，Prashant等人,CAS9 transcriptional activators fortarget specificity screening and paired nickases for cooperative genomeengineering.Nature Biotechnology.2013；31(9):833-838，其全部内容以引用方式并入本文)。

在一些实施方案中，dCas9对应于或包含部分或全部具有一个或多个使Cas9核酸酶活性失活的突变的Cas9氨基酸序列。在一些实施方案中，无核酸酶活性的dCas9结构域包含本文说明的氨基酸序列的D10X突变和H840X突变，或本文提供的任何氨基酸序列中的相应突变，其中X是任何氨基酸变化。在一些实施方案中，无核酸酶活性的dCas9结构域包含本文说明的氨基酸序列的D10A突变和H840A突变，或本文提供的任何氨基酸序列中的相应突变，其中X是任何氨基酸变化。在一些实施方案中，无核酸酶活性的Cas9结构域包含克隆载体pPlatTET-gRNA2(登录号BAV54124)中说明的氨基酸序列。

在一些实施方案中，变体Cas9蛋白可以切割向导靶序列的互补链，但切割双链向导靶序列的非互补链的能力减小。例如，变体Cas9蛋白可以具有减小RuvC结构域的功能的突变(氨基酸取代)。作为非限制性实例，在一些实施方案中，变体Cas9蛋白具有D10A(氨基酸位置10处的天冬氨酸变为丙氨酸)，因此可以切割双链向导靶序列的互补链，但切割双链向导靶序列的非互补链的能力减小(因此当变体Cas9蛋白切割双链靶核酸时导致单链断裂(SSB)而不是双链断裂(DSB))(参见，例如Jinek等人,Science.2012年8月17日；337(6096):816-21)。

在一些实施方案中，变体Cas9蛋白可以切割双链向导靶序列的非互补链，但切割向导靶序列的互补链的能力减小。例如，变体Cas9蛋白可以具有减小HNH结构域(RuvC/HNH/RuvC结构域基序)的功能的突变(氨基酸取代)。作为非限制性实例，在一些实施方案中，变体Cas9蛋白具有H840A(氨基酸位置840处的组氨酸变为丙氨酸)突变，因此可以切割向导靶序列的非互补链，但切割向导靶序列的互补链的能力减小(因此当变体Cas9蛋白切割双链向导靶序列时导致SSB而不是DSB)。此类Cas9蛋白切割向导靶序列(例如，单链向导靶序列)的能力减小，但保留了结合向导靶序列(例如，单链向导靶序列)的能力。

作为另一个非限制性实例，在一些实施方案中，变体Cas9蛋白具有W476A和W1126A突变，使得多肽切割靶DNA的能力减小。此类Cas9蛋白切割靶DNA(例如，单链靶DNA)的能力减小，但保留了结合靶DNA(例如，单链靶DNA)的能力。

作为另一个非限制性实例，在一些实施方案中，变体Cas9蛋白具有P475A、W476A、N477A、D1125A、W1126A和D1127A突变，使得多肽切割靶DNA的能力减小。此类Cas9蛋白切割靶DNA(例如，单链靶DNA)的能力减小，但保留了结合靶DNA(例如，单链靶DNA)的能力。

作为另一个非限制性实例，在一些实施方案中，变体Cas9蛋白具有H840A、W476A和W1126A突变，使得多肽切割靶DNA的能力减小。此类Cas9蛋白切割靶DNA(例如，单链靶DNA)的能力减小，但保留了结合靶DNA(例如，单链靶DNA)的能力。作为另一个非限制性实例，在一些实施方案中，变体Cas9蛋白具有H840A、D10A、W476A和W1126A突变，使得多肽切割靶DNA的能力减小。此类Cas9蛋白切割靶DNA(例如，单链靶DNA)的能力减小，但保留了结合靶DNA(例如，单链靶DNA)的能力。在一些实施方案中，变体Cas9已恢复Cas9 HNH结构域(A840H)中位置840处的催化His残基。

作为另一个非限制性实例，在一些实施方案中，变体Cas9蛋白具有H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变，使得多肽切割靶DNA的能力减小。此类Cas9蛋白切割靶DNA(例如，单链靶DNA)的能力减小，但保留了结合靶DNA(例如，单链靶DNA)的能力。作为另一个非限制性实例，在一些实施方案中，变体Cas9蛋白具有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变，使得多肽切割靶DNA的能力减小。此类Cas9蛋白切割靶DNA(例如，单链靶DNA)的能力减小，但保留了结合靶DNA(例如，单链靶DNA)的能力。在一些实施方案中，当变体Cas9蛋白具有W476A和W1126A突变或当变体Cas9蛋白具有P475A、W476A、N477A、D1125A、W1126A和D1127A突变时，变体Cas9蛋白不能有效地结合PAM序列。因此，在一些此类实施方案中，当此类变体Cas9蛋白用于结合的方法时，所述方法不需要PAM序列。换言之，在一些实施方案中，当此类变体Cas9蛋白用于结合的方法时，所述方法可以包括向导RNA，但是此方法可以在不存在PAM序列的情况下进行(并且因此由向导RNA的靶向片段提供结合的特异性)。可以使其它残基突变以实现以上作用(即，使一个或另一个核酸酶部分失活)。作为非限制性实例，残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987可以被改变(即，取代)。同样，除了丙氨酸取代以外的突变也是合适的。

具有减小的催化活性(例如，当Cas9蛋白具有D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987突变，例如D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A和/或D986A时)的变体Cas9蛋白的一些实施方案中，变体Cas9蛋白仍可以以位点特异性方式结合靶DNA(因为它仍被向导DNA导向靶DNA序列)，只要所述变体Cas9蛋白保留了与向导RNA相互作用的能力。

在一些实施方案中，变体Cas蛋白可以是spCas9、spCas9-VRQR、spCas9-VRER、xCas9(sp)、saCas9、saCas9-KKH、spCas9-MQKSER、spCas9-LRKIQK或spCas9-LRVSQL。

在一些实施方案中，Cas9结构域是来自金黄色葡萄球菌的Cas9结构域(SaCas9)。在一些实施方案中，SaCas9结构域是核酸酶活性SaCas9、无核酸酶活性的SaCas9(SaCas9d)或SaCas9切口酶(SaCas9n)。在一些实施方案中，SaCas9包含N579A突变，或在随同提交的序列表中提供的任何Cas9或SaCas9氨基酸序列中的相应突变。

在一些实施方案中，SaCas9结构域、SaCas9d结构域或SaCas9n结构域可以结合具有非规范PAM的核酸序列。在一些实施方案中，SaCas9结构域、SaCas9d结构域或SaCas9n结构域可以结合具有NNGRRT或NNGRRV PAM序列的核酸序列。在一些实施方案中，SaCas9结构域包含E781X、N967X和R1014X突变或本文提供的任何氨基酸序列中的相应突变中的一个或多个，其中X是任何氨基酸。在一些实施方案中，SaCas9结构域包含E781K、N967K和R1014H突变中的一个或多个，或本文提供的任何氨基酸序列中的相应突变中的一个或多个。在一些实施方案中，SaCas9结构域包含E781K、N967K和R1014H突变或本文提供的任何氨基酸序列中的相应突变。

在一些实施方案中，融合蛋白中存在的Cas9结构域之一可以被对PAM序列没有要求的向导核苷酸序列可编程DNA结合蛋白结构域替换。在一些实施方案中，Cas9是SaCas9。SaCas9的残基A579可以从N579突变而得以产生SaCas9切口酶。残基K781、K967和H1014可以从E781、N967和R1014突变而得以产生SaKKH Cas9。

在一些实施方案中，使用包括氨基酸取代D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(SpCas9-MQKFRAER)并且对改变的PAM5'-NGC-3'具有特异性的修饰的SpCas9。

酿脓链球菌Cas9的替代方案可以包括来自在哺乳动物细胞中显示切割活性的Cpf1家族的RNA引导的核酸内切酶。来自普氏菌和弗朗西斯氏菌属1的CRISPR(CRISPR/Cpf1)是类似于CRISPR/Cas9系统的DNA编辑技术。Cpf1是II类CRISPR/Cas系统的RNA引导的核酸内切酶。这种获得性免疫机制存在于普氏菌和弗朗西斯氏菌属的细菌中。Cpf1基因与CRISPR基因座相关，编码使用向导RNA以寻找和切割病毒DNA的核酸内切酶。Cpf1是比Cas9更小、更简单的核酸内切酶，克服了一些CRISPR/Cas9系统限制。与Cas9核酸酶不同，Cpf1介导的DNA切割的结果是具有短3'悬突的双链断裂。Cpf1的交错切割模式可以开辟定向基因转移的可能性，类似于传统的限制酶克隆，这可以提高基因编辑的效率。与上述Cas9变体和直向同源物一样，Cpf1也可以将可以被CRISPR靶向的位点数量扩展至缺乏SpCas9所偏爱的NGG PAM位点的富含AT的区域或富含AT的基因组。Cpf1基因座含有混合α/β结构域、RuvC-I(后跟螺旋区域)、RuvC-II和锌指样结构域。Cpf1蛋白具有与Cas9的RuvC结构域类似的RuvC样核酸内切酶结构域。

此外，与Cas9不同，Cpf1没有HNH核酸内切酶结构域，并且Cpf1的N端没有Cas9的α-螺旋识别叶。Cpf1 CRISPR-Cas结构域架构显示Cpf1在功能上是独特的，被归类为2类V型CRISPR系统。Cpf1基因座编码Cas1、Cas2和Cas4蛋白，所述蛋白相比于II型系统更类似I型和III型系统。功能性Cpf1不需要反式激活CRISPR RNA(tracrRNA)，因此，只需要CRISPR(crRNA)。这有利于基因组编辑，因为Cpf1不仅比Cas9小，而且它具有更小的sgRNA分子(大约是Cas9的核苷酸的一半)。与Cas9靶向的富含G的PAM相比，Cpf1-crRNA复合物通过鉴定原型间隔区相邻基序5'-YTN-3'或5'-TTN-3'来切割靶DNA或RNA。在鉴定出PAM后，Cpf1引入了具有4或5个核苷酸悬突的粘性末端样DNA双链断裂。

在一些实施方案中，Cas9是对改变的PAM序列具有特异性的Cas9变体。在一些实施方案中，另外的Cas9变体和PAM序列描述于Miller,S.M.等人Continuous evolution ofSpCas9 variants compatible with non-G PAMs,Nat.Biotechnol.(2020)，其全部内容以引用方式并入本文。在一些实施方案中，Cas9变体没有特定的PAM要求。在一些实施方案中，Cas9变体例如SpCas9变体对NRNH PAM具有特异性，其中R是A或G并且H是A、C或T。在一些实施方案中，SpCas9变体对PAM序列AAA、TAA、CAA、GAA、TAT、GAT或CAC具有特异性。在一些实施方案中，SpCas9变体包含在位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1218、1219、1221、1249、1256、1264、1290、1318、1317、1320、1321、1323、1332、1333、1335、1337或1339或其相应位置处的氨基酸取代。在一些实施方案中，SpCas9变体包含在位置1114、1135、1218、1219、1221、1249、1320、1321、1323、1332、1333、1335或1337或其相应位置处的氨基酸取代。在一些实施方案中，SpCas9变体包含在位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1219、1221、1256、1264、1290、1318、1317、1320、1323、1333或其相应位置处的氨基酸取代。在一些实施方案中，SpCas9变体包含在位置1114、1131、1135、1150、1156、1180、1191、1218、1219、1221、1227、1249、1253、1286、1293、1320、1321、1332、1335、1339或其相应位置处的氨基酸取代。在一些实施方案中，SpCas9变体包含在位置1114、1127、1135、1180、1207、1219、1234、1286、1301、1332、1335、1337、1338或1349或其相应位置处的氨基酸取代。SpCas9变体的示例性氨基酸取代和PAM特异性显示在表2A至表2B和表3中。

表2A SpCas9变体

表2B

表2C

表3

在一些实施方案中，核酸可编程DNA结合蛋白(napDNAbp)是微生物CRISPR-Cas系统的单效应子。微生物CRISPR-Cas系统的单效应子包括但不限于Cas9、Cpf1、Cas12b/C2c1和Cas12c/C2c3。通常，微生物CRISPR-Cas系统分为1类和2类系统。1类系统具有多亚基效应子复合物，而2类系统具有单蛋白质效应子。例如，Cas9和Cpf1是2类效应子。除了Cas9和Cpf1，三种不同的2类CRISPR-Cas系统(Cas12b/C2c1和Cas12c/C2c3)已经描述于Shmakov等人,“Discovery and Functional Characterization of Diverse Class 2 CRISPR CasSystems”,Mol.Cell,2015 Nov.5；60(3):385-397，其全部内容以引用方式并入本文。两个系统的效应子Cas12b/C2c1和Cas12c/C2c3含有与Cpf1相关的RuvC样核酸内切酶结构域。第三个系统含有具有两个预测的HEPN RNA酶结构域的效应子。成熟CRISPR RNA的产生不依赖于tracrRNA，与通过Cas12b/C2c1产生CRISPR RNA不同。Cas12b/C2c1依赖于用于DNA切割的CRISPR RNA和tracrRNA。

在一些实施方案中，napDNAbp是环状置换物(例如，SEQ ID NO:163)。

据报道，酸土脂环酸芽孢杆菌(Alicyclobaccillus acidoterrastris)Cas12b/C2c1(AacC2c1)的晶体结构与嵌合单分子向导RNA(sgRNA)复合。参见例如，Liu等人,“C2c1-sgRNA Complex Structure Reveals RNA-Guided DNA Cleavage Mechanism”,Mol.Cell,2017 Jan.19；65(2):310-322，其全部内容以引用方式并入本文。还报道了与靶DNA结合为三元复合物的酸土脂环酸芽孢杆菌(Alicyclobacillus acidoterrestris)C2c1中的晶体结构。参见例如，Yang等人,“PAM-dependent Target DNA Recognition and Cleavage byC2C1 CRISPR-Cas endonuclease”,Cell,2016 Dec.15；167(7):1814-1828，其全部内容以引用方式并入本文。AacC2c1的具有催化能力的构象(具有靶DNA链和非靶DNA链)已被独立捕获，定位在单个RuvC催化口袋内，具有Cas12b/C2c1介导的导致靶DNA的交错的7个核苷酸断裂的切割。Cas12b/C2c1三元复合物和先前鉴定的Cas9和Cpf1对应物之间的结构比较证明了CRISPR-Cas9系统使用的机制的多样性。

在一些实施方案中，本文提供的任何融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)可以是Cas12b/C2c1或Cas12c/C2c3蛋白质。在一些实施方案中，napDNAbp是Cas12b/C2c1蛋白质。在一些实施方案中，napDNAbp是Cas12c/C2c3蛋白质。在一些实施方案中，napDNAbp包含与天然存在的Cas12b/C2c1或Cas12c/C2c3蛋白至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。在一些实施方案中，napDNAbp是天然存在的Cas12b/C2c1或者Cas12c/C2c3蛋白。在一些实施方案中，napDNAbp包含与本文提供的napDNAbp序列中的任何一个至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。应当理解，根据本公开也可以使用来自其他菌种的Cas12b/C2c1或Cas12c/C2c3。

在一些实施方案中，napDNAbp是指Cas12c。在一些实施方案中，Cas12c蛋白是Cas12c1(SEQ ID NO:164)或Cas12c1的变体。在一些实施方案中，Cas12蛋白是Cas12c2(SEQID NO:165)或Cas12c2的变体。在一些实施方案中，Cas12蛋白是来自嗜油菌属(Oleiphilus)sp.HI0009(即，OspCas12c；SEQ ID NO:166)的Cas12c蛋白或OspCas12c的变体。这些Cas12c分子已描述于Yan等人,“Functionally Diverse Type V CRISPR-CasSystems,”Science,2019 Jan.4；363:88-91；其全部内容以引用方式并入本文。在一些实施方案中，napDNAbp包含与天然存在的Cas12c1、Cas12c2或OspCas12c蛋白至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。在一些实施方案中，napDNAbp是天然存在的Cas12c1、Cas12c2或OspCas12c蛋白。在一些实施方案中，napDNAbp包含与本文提供的任何Cas12c1、Cas12c2或OspCas12c蛋白至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。应当理解，根据本公开也可以使用来自其他菌种的Cas12c1、Cas12c2或OspCas12c。

在一些实施方案中，napDNAbp是指Cas12g、Cas12h或Cas12i，它们已描述于例如Yan等人,“Functionally Diverse Type VCRISPR-Cas Systems,”Science,2019 Jan.4；363:88-91；每一个的全部内容均以引用方式并入本文。示例性Cas12g、Cas12h和Cas12i多肽序列在序列表中提供为SEQ ID NO:167-170。通过聚合超过10垓字节的序列数据，鉴定了V型Cas蛋白的新分类，这些分类与先前表征的V类蛋白(包括Cas12g、Cas12h和Cas12i)表现出弱类似性。在一些实施方案中，Cas12蛋白是Cas12g或Cas12g的变体。在一些实施方案中，Cas12蛋白是Cas12h或Cas12h的变体。在一些实施方案中，Cas12蛋白是Cas12i或Cas12i的变体。应当理解，其他RNA引导的DNA结合蛋白可以用作napDNAbp，并且在本公开的范围内。在一些实施方案中，napDNAbp包含与天然存在的Cas12g、Cas12h或Cas12i蛋白至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。在一些实施方案中，napDNAbp是天然存在的Cas12g、Cas12h或Cas12i蛋白。在一些实施方案中，napDNAbp包含与本文提供的任何Cas12g、Cas12h或Cas12i蛋白至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。应当理解，根据本公开也可以使用来自其他菌种的Cas12g、Cas12h或Cas12i。在一些实施方案中，Cas12i是Cas12i1或Cas12i2。

在一些实施方案中，本文提供的任何融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)可以是或Cas12j/CasΦ蛋白。Cas12j/CasΦ描述于Pausch等人,“CRISPR-CasΦfrom huge phages is a hypercompact genome editor,”Science,17 July 2020,Vol.369,Issue 6501,pp.333-337，其以引用方式全文并入本文。在一些实施方案中，napDNAbp包含与Cas12j/CasΦ蛋白至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。在一些实施方案中，napDNAbp是天然存在的Cas12j/CasΦ蛋白。在一些实施方案中，napDNAbp是无核酸酶活性的(“失活的”)Cas12j/CasΦ蛋白。应当理解，根据本公开也可以使用来自其他菌种的Cas12j/CasΦ。

具有内部插入的融合蛋白

本文提供了包含与核酸可编程核酸结合蛋白(例如，napDNAbp)融合的异源多肽的融合蛋白。异源多肽可以是在天然或野生型napDNAbp多肽序列中未发现的多肽。异源多肽可以在napDNAbp的C端、napDNAbp的N端融合到napDNAbp，或插入到napDNAbp的内部位置。在一些实施方案中，异源多肽是脱氨酶(例如胞苷或腺苷脱氨酶)或其功能片段。例如，融合蛋白可以包含侧翼为Cas9或Cas12(例如，Cas12b/C2c1)多肽的N端片段和C端片段的脱氨酶。在一些实施方案中，胞苷脱氨酶是APOBEC脱氨酶(例如APOBEC1)。在一些实施方案中，腺苷脱氨酶是TadA(例如，TadA*7.10或者TadA*8)。在一些实施方案中，TadA是TadA*8或TadA*9。如本文所述的TadA序列(例如，TadA7.10或TadA*8)是适用于上述融合蛋白的脱氨酶。

在一些实施方案中，融合蛋白包括以下结构：

NH2-[napDNAbp的N端片段]-[脱氨酶]-[napDNAbp的C端片段]-COOH；

NH2-[Cas9的N端片段]-[腺苷脱氨酶]-[Cas9的C端片段]-COOH；

NH2-[Cas12的N端片段]-[腺苷脱氨酶]-[Cas12的C端片段]-COOH；

NH2-[Cas9的N端片段]-[胞苷脱氨酶]-[Cas9的C端片段]-COOH；

NH2-[Cas12的N端片段]-[胞苷脱氨酶]-[Cas12的C端片段]-COOH；

其中每个实例的“]-[“是任选的接头。

脱氨酶可以是环状置换脱氨酶。例如，脱氨酶可以是环状置换腺苷脱氨酶。在一些实施方案中，脱氨酶是环状置换物TadA，在TadA参考序列中编号的氨基酸残基116、136或65处环状置换。

融合蛋白可以包含多于一种脱氨酶。融合蛋白可以包含例如1种、2种、3种、4种、5种或更多种脱氨酶。在一些实施方案中，融合蛋白包含一种或两种脱氨酶。融合蛋白中的两种或更多种脱氨酶可以是腺苷脱氨酶、胞苷脱氨酶或其组合。两种或更多种脱氨酶可以是同二聚体或异二聚体。两种或更多种脱氨酶可以串联插入到napDNAbp中。在一些实施方案中，两种或更多种脱氨酶在napDNAbp中可以不串联。

在一些实施方案中，融合蛋白中的napDNAbp是Cas9多肽或其片段。Cas9多肽可以是变体Cas9多肽。在一些实施方案中，Cas9多肽是Cas9切口酶(nCas9)多肽或其片段。在一些实施方案中，Cas9多肽是核酸酶失活的Cas9(dCas9)多肽或其片段。融合蛋白中的Cas9多肽可以是全长Cas9多肽。在一些情况下，融合蛋白中的Cas9多肽可以不是全长Cas9多肽。Cas9多肽可以例如在相对于天然存在的Cas9蛋白的N端或C端被截断。Cas9多肽可以是环状置换的Cas9蛋白。Cas9多肽可以是仍然能够结合靶多核苷酸和向导核酸序列的Cas9多肽的片段、部分或结构域。

在一些实施方案中，Cas9多肽是酿脓链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)或本文所述的任何Cas9多肽的片段或变体。

在一些实施方案中，融合蛋白包含插入Cas9内的腺苷脱氨酶结构域和胞苷脱氨酶结构域。在一些实施方案中，腺苷脱氨酶融合在Cas9内，并且胞苷脱氨酶融合至C端。在一些实施方案中，腺苷脱氨酶融合在Cas9内，并且胞苷脱氨酶融合至N端。在一些实施方案中，胞苷脱氨酶融合在Cas9内，并且腺苷脱氨酶融合至C端。在一些实施方案中，胞苷脱氨酶融合在Cas9内，并且腺苷脱氨酶融合至N端。

具有腺苷脱氨酶和胞苷脱氨酶和Cas9的融合蛋白的示例性结构提供如下：

NH2-[Cas9(腺苷脱氨酶)]-[胞苷脱氨酶]-COOH；

NH2-[胞苷脱氨酶]-[Cas9(腺苷脱氨酶)]-COOH；

NH2-[Cas9(胞苷脱氨酶)]-[腺苷脱氨酶]-COOH；或

NH2-[腺苷脱氨酶]-[Cas9(胞苷脱氨酶)]-COOH。

在一些实施方案中，上方通用架构中使用的“-”表示存在任选的接头。

在各种实施方案中，催化结构域具有DNA修饰活性(例如脱氨酶活性)，诸如腺苷脱氨酶活性。在一些实施方案中，腺苷脱氨酶是TadA(例如，TadA*7.10)。在一些实施方案中，TadA是TadA*8。在一些实施方案中，TadA*8融合在Cas9内，并且胞苷脱氨酶融合至C端。在一些实施方案中，TadA*8融合在Cas9内，并且胞苷脱氨酶融合至N端。在一些实施方案中，胞苷脱氨酶融合在Cas9内，并且TadA*8融合至C端。在一些实施方案中，胞苷脱氨酶融合在Cas9内，并且TadA*8融合至N端。具有TadA*8和胞苷脱氨酶和Cas9的融合蛋白的示例性结构提供如下：

NH2-[Cas9(TadA*8)]-[胞苷脱氨酶]-COOH；

NH2-[胞苷脱氨酶]-[Cas9(TadA*8)]-COOH；

NH2-[Cas9(胞苷脱氨酶)]-[TadA*8]-COOH；或

NH2-[TadA*8]-[Cas9(胞苷脱氨酶)]-COOH。

异源多肽(例如，脱氨酶)可以插入到napDNAbp(例如，Cas9或Cas12(例如，Cas12b/C2c1))的合适的位置，例如，使得napDNAbp保留其结合靶多核苷酸和向导核酸的能力。脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以插入到napDNAbp中而不损害脱氨酶的功能(例如，碱基编辑活性)或napDNAbp的功能(例如，结合靶核酸和向导核酸的能力)。脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以插入到napDNAbp中的例如晶体学研究所示的无序区域或包含高温因子或B因子的区域处。不太有序、无序或非结构化的蛋白质区域，例如溶剂暴露区域和环，可以用于插入而不损害结构或功能。脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)可以插入napDNAbp中的柔性环区域或溶剂暴露区域。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入Cas9的柔性环或Cas12b/C2c1多肽中。

在一些实施方案中，通过Cas9多肽的晶体结构的B因子分析来确定脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)的插入位置。在一些实施方案中，将脱氨酶(例如腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入包含高于平均水平的B因子(例如，相比于包含无序区域的总蛋白或蛋白质结构域更高的B因子)的Cas9多肽区域中。B因子或温度因子可以指示原子相对于其平均位置的波动(例如，由于晶格中的温度依赖性原子振动或静态无序)。主链原子的高B因子(例如，高于平均B因子)可以指示具有相对高局部迁移率的区域。此区域可以用于插入脱氨酶而不损害结构或功能。脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以插入到具有具有Cα原子的残基的位置，所述Cα原子的B因子比总蛋白质的平均B因子多50％、60％、70％、80％、90％、100％、110％、120％、130％、140％、150％、160％、170％、180％、190％、200％或高于200％。脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以插入到具有具有Cα原子的残基的位置，所述Cα原子的B因子比包含残基的Cas9蛋白结构域的平均B因子多50％、60％、70％、80％、90％、100％、110％、120％、130％、140％、150％、160％、170％、180％、190％、200％或高于200％。包含高于平均水平的B因子的Cas9多肽的位置可以包括例如在Cas9参考序列中编号的残基768、792、1052、1015、1022、1026、1029、1067、1040、1054、1068、1246、1247和1248。包含高于平均水平的B因子的Cas9多肽区域可以包括例如在Cas9参考序列(SEQ ID NO:158)中编号的残基792-872、792-906和2-791。

异源多肽(例如，脱氨酶)可以插入到napDNAbp中的氨基酸残基处，所述氨基酸残基选自由以下组成的组：在Cas9参考序列中编号的768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247和1248，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，异源多肽插入到Cas9参考序列中编号的氨基酸位置768-769、791-792、792-793、1015-1016、1022-1023、1026-1027、1029-1030、1040-1041、1052-1053、1054-1055、1067-1068、1068-1069、1247-1248或1248-1249或其相应氨基酸位置之间。在一些实施方案中，异源多肽插入到Cas9参考序列中编号的氨基酸位置769-770、792-793、793-794、1016-1017、1023-1024、1027-1028、1030-1031、1041-1042、1053-1054、1055-1056、1068-1069、1069-1070、1248-1249或1249-1250或其相应氨基酸位置之间。在一些实施方案中，异源多肽替代选自由以下组成的组的氨基酸残基：在Cas9参考序列中编号的768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247和1248，或另一Cas9多肽中的相应氨基酸残基。应当理解，对Cas9参考序列关于插入位置的引用出于说明性目的。如本文所讨论的插入不限于Cas9参考序列的Cas9多肽序列，而是包括在变体Cas9多肽(例如Cas9切口酶(nCas9)、核酸酶失活的Cas9(dCas9)、缺少核酸酶结构域的Cas9变体、截断的Cas9或缺少部分或完整HNH结构域的Cas9结构域)中的相应位置的插入。

异源多肽(例如，脱氨酶)可以插入到napDNAbp中的氨基酸残基处，所述氨基酸残基选自由以下组成的组：在Cas9参考序列中编号的768、792、1022、1026、1040、1068和1247，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，异源多肽插入到Cas9参考序列中编号的氨基酸位置768-769、792-793、1022-1023、1026-1027、1029-1030、1040-1041、1068-1069或1247-1248或其相应氨基酸位置之间。在一些实施方案中，异源多肽插入到Cas9参考序列中编号的氨基酸位置769-770、793-794、1023-1024、1027-1028、1030-1031、1041-1042、1069-1070或1248-1249或其相应氨基酸位置之间。在一些实施方案中，异源多肽替代选自由以下组成的组的氨基酸残基：在Cas9参考序列中编号的768、792、1022、1026、1040、1068和1247，或另一Cas9多肽中的相应氨基酸残基。

异源多肽(例如，脱氨酶)可以插入到如本文所述的napDNAbp中的氨基酸残基处，或另一Cas9多肽中的相应氨基酸残基处。在一个实施方案中，异源多肽(例如-脱氨酶)可以插入到napDNAbp中的氨基酸残基处，所述氨基酸残基选自由以下组成的组：在Cas9参考序列中编号的1002、1003、1025、1052-1056、1242-1247、1061-1077、943-947、686-691、569-578、530-539和1060-1077，或另一Cas9多肽中的相应氨基酸残基。脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以插入残基的N端或C端或替换残基。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入残基的C端。

在一些实施方案中，将腺苷脱氨酶(例如，TadA)插入到氨基酸残基处，所述氨基酸残基选自由以下组成的组：在Cas9参考序列中编号的1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，插入腺苷脱氨酶(例如，TadA)替换在Cas9参考序列中编号的残基792-872、792-906或2-791，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，将腺苷脱氨酶插入氨基酸的N端，所述氨基酸选自由以下组成的组：在Cas9参考序列中编号的1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，将腺苷脱氨酶插入氨基酸的C端，所述氨基酸选自由以下组成的组：在Cas9参考序列中编号的1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，插入腺苷脱氨酶以替换氨基酸，所述氨基酸选自由以下组成的组：在Cas9参考序列中编号的1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将胞苷脱氨酶(例如，APOBEC1)插入到氨基酸残基处，所述氨基酸残基选自由以下组成的组：在Cas9参考序列中编号的1016、1023、1029、1040、1069和1247，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，将胞苷脱氨酶插入氨基酸的N端，所述氨基酸选自由以下组成的组：在Cas9参考序列中编号的1016、1023、1029、1040、1069和1247，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，将胞苷脱氨酶插入氨基酸的C端，所述氨基酸选自由以下组成的组：在Cas9参考序列中编号的1016、1023、1029、1040、1069和1247，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，插入胞苷脱氨酶以替换氨基酸，所述氨基酸选自由以下组成的组：在Cas9参考序列中编号的1016、1023、1029、1040、1069和1247，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基768处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基768的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基768的C端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在Cas9参考序列中编号的氨基酸残基768，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基791或氨基酸残基792处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基791的N端或氨基酸792的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸791的C端或氨基酸792的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在Cas9参考序列中编号的氨基酸791或氨基酸792，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1016处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1016的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1016的C端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在Cas9参考序列中编号的氨基酸残基1016，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1022或氨基酸残基1023处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1022的N端或氨基酸残基1023的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1022的C端或氨基酸残基1023的C端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在Cas9参考序列中编号的氨基酸残基1022或氨基酸残基1023，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1026或氨基酸残基1029处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1026的N端或氨基酸残基1029的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1026的C端或氨基酸残基1029的C端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在Cas9参考序列中编号的氨基酸残基1026或氨基酸残基1029，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1040处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1040的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1040的C端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在Cas9参考序列中编号的氨基酸残基1040，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1052或氨基酸残基1054处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1052的N端或氨基酸残基1054的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1052的C端或氨基酸残基1054的C端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在Cas9参考序列中编号的氨基酸残基1052或氨基酸残基1054，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1067或氨基酸残基1068或氨基酸残基1069处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1067的N端或氨基酸残基1068的N端或氨基酸残基1069的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1067的C端或氨基酸残基1068的C端或氨基酸残基1069的C端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在Cas9参考序列中编号的氨基酸残基1067或氨基酸残基1068或氨基酸残基1069，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1246或氨基酸残基1247或氨基酸残基1248处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1246的N端或氨基酸残基1247的N端或氨基酸残基1248的N端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，将脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在Cas9参考序列中编号的氨基酸残基1246的C端或氨基酸残基1247的C端或氨基酸残基1248的C端处，或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中，插入脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)以替换在Cas9参考序列中编号的氨基酸残基1246或氨基酸残基1247或氨基酸残基1248，或另一Cas9多肽中的相应氨基酸残基。

在一些实施方案中，异源多肽(例如，脱氨酶)插入到Cas9多肽的柔性环中。柔性环部分可以选自由以下组成的组：在Cas9参考序列中编号的530-537、569-570、686-691、943-947、1002-1025、1052-1077、1232-1247或1298-1300，或另一Cas9多肽中的相应氨基酸残基。柔性环部分可以选自由以下组成的组：在Cas9参考序列中编号的1-529、538-568、580-685、692-942、948-1001、1026-1051、1078-1231或1248-1297，或另一Cas9多肽中的相应氨基酸残基。

可以将异源多肽(例如，腺嘌呤脱氨酶)插入对应于以下氨基酸残基的Cas9多肽区域：在Cas9参考序列中编号的1017-1069、1242-1247、1052-1056、1060-1077、1002-1003、943-947、530-537、568-579、686-691、1242-1247、1298–1300、1066-1077、1052-1056或1060-1077，或另一Cas9多肽中的相应氨基酸残基。

可以插入异源多肽(例如腺嘌呤脱氨酶)以替换Cas9多肽的缺失区域。缺失的区域可以对应于Cas9多肽的N端或C端部分。在一些实施方案中，缺失区域对应于在Cas9参考序列中编号的残基792-872，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，缺失区域对应于在Cas9参考序列中编号的残基792-906，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，缺失区域对应于在Cas9参考序列中编号的残基2-791，或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中，缺失区域对应于在Cas9参考序列中编号的残基1017-1069，或其对应的氨基酸残基。

示例性内部融合碱基编辑器提供于下方表4中：

表4：Cas9蛋白中的插入基因座

BE ID	修饰	其他ID
			IBE001	Cas9 TadA ins 1015	ISLAY01
IBE002	Cas9 TadA ins 1022	ISLAY02
			IBE003	Cas9 TadA ins 1029	ISLAY03
IBE004	Cas9 TadA ins 1040	ISLAY04
			IBE005	Cas9 TadA ins 1068	ISLAY05
IBE006	Cas9 TadA ins 1247	ISLAY06
			IBE007	Cas9 TadA ins 1054	ISLAY07
IBE008	Cas9 TadA ins 1026	ISLAY08
			IBE009	Cas9 TadA ins 768	ISLAY09
IBE020	δHNH TadA 792	ISLAY20
			IBE021	N端融合单TadA螺旋截断165末端	ISLAY21
IBE029	TadA-环状置换116 ins1067	ISLAY29
			IBE031	TadA-环状置换136 ins1248	ISLAY31
IBE032	TadA-环状置换136ins 1052	ISLAY32
			IBE035	δ792-872 TadA ins	ISLAY35
IBE036	δ792-906 TadA ins	ISLAY36
			IBE043	TadA-环状置换65 ins1246	ISLAY43
IBE044	TadA ins C端截断2 791	ISLAY44

可以将异源多肽(例如，脱氨酶)插入到Cas9多肽的结构性或功能性结构域内。可以将异源多肽(例如，脱氨酶)插入到Cas9多肽的两个结构性或功能性结构域之间。可以插入异源多肽(例如脱氨酶)以替换Cas9多肽的结构性或功能性结构域，例如在从Cas9多肽删除结构域之后。Cas9多肽的结构性或功能性结构域可以包括例如RuvC I、RuvC II、RuvCIII、Rec1、Rec2、PI或HNH。

在一些实施方案中，Cas9多肽不含一个或多个选自由以下组成的组的结构域：RuvC I、RuvC II、RuvC III、Rec1、Rec2、PI或HNH结构域。在一些实施方案中，Cas9多肽不含核酸酶结构域。在一些实施方案中，Cas9多肽不含HNH结构域。在一些实施方案中，Cas9多肽不含部分HNH结构域，使得Cas9多肽具有减小的或消除的HNH活性。在一些实施方案中，Cas9多肽包含核酸酶结构域的缺失，并且插入脱氨酶以替换核酸酶结构域。在一些实施方案中，删除HNH结构域并且在其位置插入脱氨酶。在一些实施方案中，删除一个或多个RuvC结构域并且在其位置插入脱氨酶。

包含异源多肽的融合蛋白的侧翼可以是napDNAbp的N端和C端片段。在一些实施方案中，融合蛋白包含侧翼为Cas9多肽的N端片段和C端片段的脱氨酶。N端片段或C端片段可以结合靶多核苷酸序列。N端片段的C端或C端片段的N端可以包含Cas9多肽的柔性环的一部分。N端片段的C端或C端片段的N端可以包含Cas9多肽的α-螺旋结构的一部分。N端片段或C端片段可以包含DNA结合结构域。N端片段或C端片段可以包含RuvC结构域。N端片段或C端片段可以包含HNH结构域。在一些实施方案中，N端片段和C端片段都不包含HNH结构域。

在一些实施方案中，N端Cas9片段的C端包含当融合蛋白使靶核碱基脱氨基时接近靶核碱基的氨基酸。在一些实施方案中，C端Cas9片段的N端包含当融合蛋白使靶核碱基脱氨基时接近靶核碱基的氨基酸。不同脱氨酶的插入位置可以不同，以使靶核碱基与N端Cas9片段的C端或C端Cas9片段的N端中的氨基酸接近。例如，脱氨酶的插入位置可以是选自由以下氨基酸残基组成的组：在Cas9参考序列中编号的1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246，或另一Cas9多肽中的相应氨基酸残基。

融合蛋白的N端Cas9片段(即融合蛋白中脱氨酶侧翼的N端Cas9片段)可以包含Cas9多肽的N端。融合蛋白的N端Cas9片段可以包含至少约100个、200个、300个、400个、500个、600个、700个、800个、900个、1000个、1100个、1200个或1300个氨基酸的长度。融合蛋白的N端Cas9片段可以包含对应于以下氨基酸残基的序列：在Cas9参考序列中编号的1-56、1-95、1-200、1-300、1-400、1-500、1-600、1-700、1-718、1-765、1-780、1-906、1-918或1-1100，或另一Cas9多肽中的相应氨基酸残基。N端Cas9片段可以包含与以下氨基酸残基：在Cas9参考序列中编号的1-56、1-95、1-200、1-300、1-400、1-500、1-600、1-700、1-718、1-765、1-780、1-906、1-918或1-1100或另一Cas9多肽中的相应氨基酸残基包含至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％序列同一性的序列。

融合蛋白的C端Cas9片段(即融合蛋白中脱氨酶侧翼的C端Cas9片段)可以包含Cas9多肽的C端。融合蛋白的C端Cas9片段可以包含至少约100个、200个、300个、400个、500个、600个、700个、800个、900个、1000个、1100个、1200个或1300个氨基酸的长度。融合蛋白的C端Cas9片段可以包含对应于以下氨基酸残基的序列：在Cas9参考序列中编号的1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368或56-1368，或另一Cas9多肽中的相应氨基酸残基。N端Cas9片段可以包含与以下氨基酸残基：在Cas9参考序列中编号的1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368或56-1368或另一Cas9多肽中的相应氨基酸残基包含至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％序列同一性的序列。

融合蛋白的N端Cas9片段和C端Cas9片段合在一起可能不对应于全长天然存在的Cas9多肽序列，例如，如在Cas9参考序列中说明的。

本文所述的融合蛋白可以实现靶向脱氨基，同时减少非靶位点(例如脱靶位点)的脱氨基，诸如减少全基因组的假脱氨基。本文所述的融合蛋白可以实现靶向脱氨基，同时减少非靶位点的旁观者脱氨基。与例如包含与Cas9多肽的N端或C端融合的脱氨酶的末端融合蛋白相比，不需要的脱氨基或脱靶脱氨基可以减少至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％或至少99％。与例如包含与Cas9多肽的N端或C端融合的脱氨酶的末端融合蛋白相比，不需要的脱氨基或脱靶脱氨基可以减少至少一倍、至少二倍、至少三倍、至少四倍、至少五倍、至少十倍、至少十五倍、至少二十倍、至少三十倍、至少四十倍、至少五十倍、至少60倍、至少70倍、至少80倍、至少90倍或至少一百倍。

在一些实施方案中，融合蛋白的脱氨酶(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)使R环范围内的不超过两个核碱基脱氨基。在一些实施方案中，融合蛋白的脱氨酶使R环范围内的不超过三个核碱基脱氨基。在一些实施方案中，融合蛋白的脱氨酶使R环范围内的不超过2个、3个、4个、5个、6个、7个、8个、9个或10个核碱基脱氨基。R环是包含DNA:RNA杂交、DNA:DNA或RNA:RNA互补结构并与单链DNA缔合的三链核酸结构。如本文所用，当靶多核苷酸与CRISPR复合物或碱基编辑复合物接触时可以形成R环，其中向导多核苷酸(例如向导RNA)的一部分与靶多核苷酸的一部分杂交并用靶多核苷酸(例如靶DNA)的一部分置换。在一些实施方案中，R环包含间隔区序列和靶DNA互补序列的杂交区域。R环区域的长度可以是约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核碱基对。在一些实施方案中，R环区域的长度为约20个核碱基对。应当理解，如本文所用，R环区域不限于与向导多核苷酸杂交的靶DNA链。例如，R环区域内的靶核碱基的编辑可以针对包含向导RNA互补链的DNA链，或者可以针对作为向导RNA互补链的相反链的DNA链。在一些实施方案中，R环中的编辑包括将非互补链(原型间隔链)上的核碱基编辑为靶DNA序列中的向导RNA。

本文所述的融合蛋白可以在不同于规范碱基编辑的编辑窗口中实现靶标脱氨基。在一些实施方案中，靶核碱基位于靶多核苷酸序列中PAM序列上游约1至约20个碱基处。在一些实施方案中，靶核碱基位于靶多核苷酸序列中PAM序列上游约2至约12个碱基处。在一些实施方案中，靶核碱基在远离PAM序列或PAM序列上游约1至9个碱基对、约2至10个碱基对、约3至11个碱基对、约4至12个碱基对、约5至13个碱基对、约6至14个碱基对、约7至15个碱基对、约8至16个碱基对、约9至17个碱基对、约10至18个碱基对、约11至19个碱基对、约12至20个碱基对、约1至7个碱基对、约2至8个碱基对、约3至9个碱基对、约4至10个碱基对、约5至11个碱基对、约6至12个碱基对、约7至13个碱基对、约8至14个碱基对、约9至15个碱基对、约10至16个碱基对、约11至17个碱基对、约12至18个碱基对、约13至19个碱基对、约14至20个碱基对、约1至5个碱基对、约2至6个碱基对、约3至7个碱基对、约4至8个碱基对、约5至9个碱基对、约6至10个碱基对、约7至11个碱基对、约8至12个碱基对、约9至13个碱基对、约10至14个碱基对、约11至15个碱基对、约12至16个碱基对、约13至17个碱基对、约14至18个碱基对、约15至19个碱基对、约16至20个碱基对、约1至3个碱基对、约2至4个碱基对、约3至5个碱基对、约4至6个碱基对、约5至7个碱基对、约6至8个碱基对、约7至9个碱基对、约8至10个碱基对、约9至11个碱基对、约10至12个碱基对、约11至13个碱基对、约12至14个碱基对、约13至15个碱基对、约14至16个碱基对、约15至17个碱基对、约16至18个碱基对、约17至19个碱基对、约18至20个碱基对。在一些实施方案中，靶核碱基在远离PAM序列或PAM序列上游1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个或更多个碱基对。在一些实施方案中，靶核碱基在PAM序列上游约1个、2个、3个、4个、5个、6个、7个、8个或9个碱基对处。在一些实施方案中，靶核碱基在PAM序列上游约2个、3个、4个或6个碱基对处。

融合蛋白可以包含多于一种异源多肽。例如，融合蛋白可以另外包含一个或多个UGI结构域和/或一种或多种核定位信号。两个或更多个异源结构域可以串联插入。两个或更多个异源结构域可以插入到使得它们在NapDNAbp中不串联的位置。

融合蛋白可以在脱氨酶和napDNAbp多肽之间包含接头。接头可以是肽或非肽接头。例如，接头可以是XTEN、(GGGS)n(SEQ ID NO:171)、(GGGGS)n(SEQ ID NO:172)、(G)n、(EAAAK)n(SEQ ID NO:173)、(GGS)n、SGSETPGTSESATPES(SEQ ID NO:174)。在一些实施方案中，融合蛋白在N端Cas9片段和脱氨酶之间包含接头。在一些实施方案中，融合蛋白在C端Cas9片段和脱氨酶之间包含接头。在一些实施方案中，napDNAbp的N端和C端片段在有接头的情况下与脱氨酶连接。在一些实施方案中，N端和C端片段在没有接头的情况下与脱氨酶结构域连接。在一些实施方案中，融合蛋白在N端Cas9片段和脱氨酶之间包含接头，但在C端Cas9片段和脱氨酶之间不包含接头。在一些实施方案中，融合蛋白在C端Cas9片段和脱氨酶之间包含接头，但在N端Cas9片段和脱氨酶之间不包含接头。

在一些实施方案中，融合蛋白中的napDNAbp是Cas12多肽(例如，Cas12b/C2c1)或其片段。Cas12多肽可以是变体Cas12多肽。在其他实施方案中，Cas12多肽的N端或C端片段包含核酸可编程DNA结合结构域或RuvC结构域。在其他实施方案中，融合蛋白在Cas12多肽和催化结构域之间含有接头。在其他实施方案中，接头的氨基酸序列是GGSGGS(SEQ ID NO:175)或GSSGSETPGTSESATPESSG(SEQ ID NO:176)。在其他实施方案中，接头是刚性接头。在上述方面的其他实施方案中，接头由GGAGGCTCTGGAGGAAGC(SEQ ID NO:177)或GGCTCTTCTGGATCTGAAACACCTGGCACAAGCGAGAGCGCCACCCCTGAGAGCTCTGGC(SEQ ID NO:178)编码。

包含侧接有Cas12多肽的N-和C-末端片段的异源催化结构域的融合蛋白对如本文所述方法中的碱基编辑也是有用的。包含Cas12和一个或多个脱氨酶结构域(例如腺苷脱氨酶)或包含侧接有Cas12序列的腺苷脱氨酶结构域的融合蛋白对于靶序列的高度特异性和有效的碱基编辑也是有用的。在一个实施方案中，嵌合Cas12融合蛋白含有插入Cas12多肽内的异源催化结构域(例如，腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)。在一些实施方案中，融合蛋白包含插入Cas12内的腺苷脱氨酶结构域和胞苷脱氨酶结构域。在一些实施方案中，腺苷脱氨酶融合在Cas12内，并且胞苷脱氨酶融合至C端。在一些实施方案中，腺苷脱氨酶融合在Cas12内，并且胞苷脱氨酶融合至N端。在一些实施方案中，胞苷脱氨酶融合在Cas12内，并且腺苷脱氨酶融合至C端。在一些实施方案中，胞苷脱氨酶融合在Cas12内，并且腺苷脱氨酶融合至N端。具有腺苷脱氨酶和胞苷脱氨酶和Cas12的融合蛋白的示例性结构提供如下：

NH2-[Cas12(腺苷脱氨酶)]-[胞苷脱氨酶]-COOH；

NH2-[胞苷脱氨酶]-[Cas12(腺苷脱氨酶)]-COOH；

NH2-[Cas12(胞苷脱氨酶)]-[腺苷脱氨酶]-COOH；或

NH2-[腺苷脱氨酶]-[Cas12(胞苷脱氨酶)]-COOH；

在各种实施方案中，催化结构域具有DNA修饰活性(例如脱氨酶活性)，诸如腺苷脱氨酶活性。在一些实施方案中，腺苷脱氨酶是TadA(例如，TadA*7.10)。在一些实施方案中，TadA是TadA*8。在一些实施方案中，TadA*8融合在Cas12内，并且胞苷脱氨酶融合至C端。在一些实施方案中，TadA*8融合在Cas12内，并且胞苷脱氨酶融合至N端。在一些实施方案中，胞苷脱氨酶融合在Cas12内，并且TadA*8融合至C端。在一些实施方案中，胞苷脱氨酶融合在Cas12内，并且TadA*8融合至N端。具有TadA*8和胞苷脱氨酶和Cas12的融合蛋白的示例性结构提供如下：

N-[Cas12(TadA*8)]-[胞苷脱氨酶]-C；

N-[胞苷脱氨酶]-[Cas12(TadA*8)]-C；

N-[Cas12(胞苷脱氨酶)]-[TadA*8]-C；或

N-[TadA*8]-[Cas12(胞苷脱氨酶)]-C。

在其他实施方案中，融合蛋白含有一个或多个催化结构域。在其他实施方案中，一个或多个催化结构域中的至少一个被插入Cas12多肽内或融合在Cas12 N端或C端。在其他实施方案中，一个或多个催化结构域中的至少一个插入Cas12多肽的环、α螺旋区、非结构化部分或溶剂可及部分内。在其他实施方案中，Cas12多肽是Cas12a、Cas12b、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ。在其他实施方案中，Cas12多肽与外村尚芽孢杆菌(Bacillus hisashii)Cas12b、嗜热淀粉芽孢杆菌(Bacillusthermoamylovorans)Cas12b、芽孢杆菌属V3-13 Cas12b，或嗜酸脂环杆菌(Alicyclobacillus acidiphilu)Cas12b(SEQ ID NO:179)具有至少约85％的氨基酸序列同一性。在其他实施方案中，Cas12多肽与外村尚芽孢杆菌Cas12b(SEQ ID NO:180)、嗜热淀粉芽孢杆菌Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸脂环杆菌Cas12b具有至少约90％的氨基酸序列同一性。在其他实施方案中，Cas12多肽与外村尚芽孢杆菌Cas12b、嗜热淀粉芽孢杆菌Cas12b(SEQ ID NO:181)、芽孢杆菌属V3-13 Cas12b(SEQ ID NO:182)或嗜酸脂环杆菌Cas12b有至少约95％的氨基酸序列同一性。在其他实施方案中，Cas12多肽含有或基本上由以下组成：外村尚芽孢杆菌Cas12b、嗜热淀粉芽孢杆菌Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸脂环杆菌Cas12b的片段。在实施方案中，Cas12多肽含有BvCas12b(V4)，其在一些实施方案中表达为5'mRNA Cap---5'UTR---bhCas12b---停止序列---3'UTR---120polyA尾(SEQID NO:183-185)。

在其他实施方案中，催化结构域插入到BhCas12b或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ的相应氨基酸残基的位置153-154、255-256、306-307、980-981、1019-1020、534-535、604-605或344-345之间。在其他实施方案中，催化结构域插入到BhCas12b的氨基酸P153和S154之间。在其他实施方案中，催化结构域插入到BhCas12b的氨基酸K255和E256之间。在其他实施方案中，催化结构域插入到BhCas12b的氨基酸D980和G981之间。在其他实施方案中，催化结构域插入到BhCas12b的氨基酸K1019和L1020之间。在其他实施方案中，催化结构域插入到BhCas12b的氨基酸F534和P535之间。在其他实施方案中，催化结构域插入到BhCas12b的氨基酸K604和G605之间。在其他实施方案中，催化结构域插入到BhCas12b的氨基酸H344和F345之间。在其他实施方案中，催化结构域插入到BvCas12b或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ的相应氨基酸残基的位置147和148、248和249、299和300、991和992或1031和1032之间。在其他实施方案中，催化结构域插入到BvCas12b的氨基酸P147和D148之间。在其他实施方案中，催化结构域插入到BvCas12b的氨基酸G248和G249之间。在其他实施方案中，催化结构域插入到BvCas12b的氨基酸P299和E300之间。在其他实施方案中，催化结构域插入到BvCas12b的氨基酸G991和E992之间。在其他实施方案中，催化结构域插入到BvCas12b的氨基酸K1031和M1032之间。在其他实施方案中，催化结构域插入到AaCas12b或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h、Cas12i或Cas12j/CasΦ的相应氨基酸残基的位置157和158、258和259、310和311、1008和1009或1044和1045之间。在其他实施方案中，催化结构域插入到AaCas12b的氨基酸P157和G158之间。在其他实施方案中，催化结构域插入到AaCas12b的氨基酸V258和G259之间。在其他实施方案中，催化结构域插入到AaCas12b的氨基酸D310和P311之间。在其他实施方案中，催化结构域插入到AaCas12b的氨基酸G1008和E1009之间。在其他实施方案中，催化结构域插入到AaCas12b的氨基酸G1044和K1045之间。

在其他实施方案中，融合蛋白含有核定位信号(例如，二分核定位信号)。在其他实施方案中，核定位信号的氨基酸序列是MAPKKKRKVGIHGVPAA(SEQ ID NO:186)。在上述方面的其他实施方案中，核定位信号由以下序列编码：

ATGGCCCCAAAGAAGAAGCGGAAGGTCGGTATCCACGGAGTCCCAGCAGCC(SEQ ID NO:187)。在其他实施方案中，Cas12b多肽含有沉默RuvC结构域的催化活性的突变。在其他实施方案中，Cas12b多肽含有D574A、D829A和/或D952A突变。在其他实施方案中，融合蛋白还含有标签(例如，流感血凝素标签)。

在一些实施方案中，融合蛋白包含具有内部融合的核碱基编辑结构域(例如，全部或部分脱氨酶结构域，例如腺苷脱氨酶结构域)的napDNAbp结构域(例如，Cas12衍生的结构域)。在一些实施方案中，napDNAbp是Cas12b。在一些实施方案中，碱基编辑器包含BhCas12b结构域，所述结构域具有插入到下表5中提供的基因座处的内部融合的TadA*8结构域。

表5：Cas12b蛋白中的插入基因座

作为非限制性实例，腺苷脱氨酶(例如，TadA*8.13)可以插入BhCas12b以产生有效编辑核酸序列的融合蛋白(例如，TadA*8.13-BhCas12b)。

在一些实施方案中，本文所述的碱基编辑系统是具有插入Cas9的TadA的ABE。具有插入Cas9的TadA的有关ABE的多肽序列在所附序列表中提供为SEQ ID NO:188-233。

在一些实施方案中，生成腺苷脱氨酶碱基编辑器以将TadA或其变体插入Cas9多肽中鉴定的位置。

示例性但非限制性的融合蛋白描述于国际PCT申请号PCT/US2020/016285和美国临时申请号62/852,228和62/852,224中，其内容以引用方式整体并入本文。

A到G的编辑

在一些实施方案中，本文所述的碱基编辑器包含腺苷脱氨酶结构域。碱基编辑器的这种腺苷脱氨酶结构域可以通过将A脱氨基形成肌苷(I)来促进将腺嘌呤(A)核碱基编辑为鸟嘌呤(G)核碱基，所述肌苷(I)表现出G的碱基配对特性。腺苷脱氨酶能够使脱氧核糖核酸(DNA)中的脱氧腺苷残基的腺嘌呤脱氨基(即，去除胺基)。在一些实施方案中，A到G碱基编辑器还包含肌苷碱基切除修复抑制剂，例如，尿嘧啶糖基化酶抑制剂(UGI)结构域或无催化活性的肌苷特异性核酸酶。不受任何特定理论的束缚，UGI结构域或无催化活性的肌苷特异性核酸酶可以抑制或阻止脱氨基腺苷残基(例如肌苷)的碱基切除修复，这可以提高碱基编辑器的活性或效率。

包含腺苷脱氨酶的碱基编辑器可以作用于任何多核苷酸，包括DNA、RNA和DNA-RNA杂交体。在某些实施方案中，包含腺苷脱氨酶的碱基编辑器可以使包含RNA的多核苷酸的靶A脱氨基。例如，碱基编辑器可以包含能够使RNA多核苷酸和/或DNA-RNA杂交多核苷酸的靶A脱氨基的腺苷脱氨酶结构域。在一个实施方案中，并入碱基编辑器的腺苷脱氨酶包含作用于RNA(ADAR，例如ADAR1或ADAR2)或tRNA(ADAT)的全部或部分腺苷脱氨酶。包含腺苷脱氨酶结构域的碱基编辑器也能够使DNA多核苷酸的A核碱基脱氨基。在一个实施方案中，碱基编辑器的腺苷脱氨酶结构域包含全部或部分ADAT，所述ADAT包含允许ADAT将DNA中的靶A脱氨基的一个或多个突变。例如，碱基编辑器可以包含全部或部分来自大肠杆菌的ADAT(EcTadA)，其包含以下突变中的一个或多个：D108N、A106V、D147Y、E155V、L84F、H123Y、I156F，或在另一个腺苷脱氨酶中的相应突变。示例性ADAT同系物多肽序列在序列表中提供为SEQ ID NO:234-241。

腺苷脱氨酶可以来源于任何合适的生物体(例如，大肠杆菌)。在一些实施方案中，腺苷脱氨酶来自原核生物。在一些实施方案中，腺苷脱氨酶来自细菌。在一些实施方案中，腺苷脱氨酶来自大肠杆菌、金黄色葡萄球菌、伤寒沙门氏菌、腐败希瓦氏菌、流感嗜血杆菌、新月柄杆菌或枯草芽孢杆菌。在一些实施方案中，腺苷脱氨酶来自大肠杆菌。在一些实施方案中，腺嘌呤脱氨酶是天然存在的腺苷脱氨酶，其包括对应于本文提供的任何突变(例如，ecTadA中的突变)的一个或多个突变。任何同源蛋白质中的相应残基可以通过例如序列比对和同源残基的确定来鉴定。可以相应地产生对应于本文描述的任何突变(例如，在ecTadA中鉴定的任何突变)的任何天然存在的腺苷脱氨酶(例如，与ecTadA具有同源性)中的突变。

在一些实施方案中，腺苷脱氨酶包含与本文提供的任何腺苷脱氨酶中说明的氨基酸序列中的任何一个至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％同一的氨基酸序列。应当理解，本文提供的腺苷脱氨酶可以包括一个或多个突变(例如，本文提供的任何突变)。本公开提供了本文所述的具有一定百分比同一性的任何脱氨酶结构域加上任何突变或其组合。在一些实施方案中，腺苷脱氨酶包含与本文提供的参考序列或任何腺苷脱氨酶相比具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、21个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个或更多个突变的氨基酸序列。在一些实施方案中，腺苷脱氨酶包含与本领域已知或本文描述的任何一种氨基酸序列相比具有至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少110个、至少120个、至少130个、至少140个、至少150个、至少160个或至少170个相同的连续氨基酸残基的氨基酸序列。

应当理解，本文提供的任何突变(例如，基于TadA参考序列)可以被引入其他腺苷脱氨酶，诸如大肠杆菌TadA(ecTadA)、金黄色葡萄球菌TadA(saTadA)或其他腺苷脱氨酶(例如，细菌腺苷脱氨酶)。对本领域技术人员显而易见的是，可以类似地比对另外的脱氨酶以鉴定可以如本文提供的那样突变的同源氨基酸残基。因此，在TadA参考序列中鉴定的任何突变都可以在具有同源氨基酸残基的其他腺苷脱氨酶(例如，ecTada)中出现。还应理解，本文提供的任何突变可以单独或以任何组合在TadA参考序列或另一腺苷脱氨酶中出现。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的D108X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的D108G、D108N、D108V、D108A或D108Y突变，或另一腺苷脱氨酶中的相应突变。然而，应当理解，可以类似地比对额外的脱氨酶以鉴定可以如本文提供的那样突变的同源氨基酸残基。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A106X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A106V突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的E155X突变，或另一腺苷脱氨酶中的相应突变，其中存在X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的E155D、E155G或E155V突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的D147X突变，或另一腺苷脱氨酶中的相应突变，其中存在X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的D147Y突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A106X、E155X或D147X突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含E155D、E155G或E155V突变。在一些实施方案中，腺苷脱氨酶包含D147Y。

还应理解，本文提供的任何突变可以单独或以任何组合在ecTadA或另一腺苷脱氨酶中出现。例如，腺苷脱氨酶可以含有TadA参考序列中的D108N、A106V、E155V和/或D147Y突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的以下突变组(突变组由“；”分隔)，或另一腺苷脱氨酶中的相应突变：D108N和A106V；D108N和E155V；D108N和D147Y；A106V和E155V；A106V和D147Y；E155V和D147Y；D108N、A106V和E155V；D108N、A106V和D147Y；D108N、E155V和D147Y；A106V、E155V、D147Y；以及D108N、A106V、E155V和D147Y。然而，应当理解，本文提供的相应突变的任何组合可以在腺苷脱氨酶(例如，ecTadA)中出现。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8X、T17X、L18X、W23X、L34X、W45X、R51X、A56X、E59X、E85X、M94X、I95X、V102X、F104X、A106X、R107X、D108X、K110X、M118X、N127X、A138X、F149X、M151X、R153X、Q154X、I156X和/或K157X突变，或另一腺苷脱氨酶中的一个或多个相应突变，其中存在X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8Y、T17S、L18E、W23L、L34S、W45L、R51H、A56E，或A56S、E59G、E85K，或E85G、M94L、I95L、V102A、F104L、A106V、R107C，或R107H，或R107P，D108G，或D108N，或D108V，或D108A，或D108Y、K110I、M118K、N127S、A138V、F149Y、M151V、R153C、Q154L、I156D和/或K157R突变中的一个或多个，或另一腺苷脱氨酶中的一个或多个相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8X、D108X和/或N127X突变中的一个或多个，或另一腺苷脱氨酶中的一个或多个相应突变，其中X表示存在任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8Y、D108N或N127S突变中的一个或多个，或另一腺苷脱氨酶中的一个或多个相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8X、R26X、M61X、L68X、M70X、A106X、D108X、A109X、N127X、D147X、R152X、Q154X、E155X、K161X、Q163X和/或T166X突变中的一个或多个，或另一种腺苷脱氨酶中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8Y、R26W、M61I、L68Q、M70V、A106T、D108N、A109T、N127S、D147Y、R152C、Q154H或Q154R、E155G或E155V或E155D、K161Q、Q163H和/或T166P突变中的一个或多个，或另一腺苷脱氨酶中的一个或多个相应突变。

在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个或六个选自由TadA参考序列中的H8X、D108X、N127X、D147X、R152X和Q154X组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个、六个、七个或八个选自由TadA参考序列中的H8X、M61X、M70X、D108X、N127X、Q154X、E155X和Q163X组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个或五个选自由TadA参考序列中的H8X、D108X、N127X、E155X和T166X组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。

在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个或六个选自由H8X、A106X和D108X组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个、六个、七个或八个选自由H8X、R26X、L68X、D108X、N127X、D147X和E155X组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。

在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个、六个或七个选自由TadA参考序列中的H8X、R126X、L68X、D108X、N127X、D147X和E155X组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个或五个选自由TadA参考序列中的H8X、D108X、A109X、N127X和E155X组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。

在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个或六个选自由TadA参考序列中的H8Y、D108N、N127S、D147Y、R152C和Q154H组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个、六个、七个或八个选自由TadA参考序列中的H8Y、M61I、M70V、D108N、N127S、Q154R、E155G和Q163H组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个或五个选自由TadA参考序列中的H8Y、D108N、N127S、E155V和T166P组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个或六个选自由TadA参考序列中的H8Y、A106T、D108N、N127S、E155D和K161Q组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个、六个、七个或八个选自由TadA参考序列中的H8Y、R26W、L68Q、D108N、N127S、D147Y和E155V组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个或五个选自由TadA参考序列中的H8Y、D108N、A109T、N127S和E155G组成的组的突变，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变。

在一些实施方案中，腺苷脱氨酶包含另一种腺苷脱氨酶中的一个或多个或一个或多个相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的D108N、D108G或D108V突变，或另一腺苷脱氨酶中的相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A106V和D108N突变，或另一腺苷脱氨酶中的相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R107C和D108N突变，或另一腺苷脱氨酶中的相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8Y、D108N、N127S、D147Y和Q154H突变，或另一腺苷脱氨酶中的相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8Y、D108N、N127S、D147Y和E155V突变，或另一腺苷脱氨酶中的相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的D108N、D147Y和E155V突变，或另一腺苷脱氨酶中的相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H8Y、D108N和N127S突变，或另一腺苷脱氨酶中的相应突变。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A106V、D108N、D147Y和E155V突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的S2X、H8X、I49X、L84X、H123X、N127X、I156X和/或K160X突变中的一个或多个，或另一种腺苷脱氨酶中的一个或多个相应突变，其中存在X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的S2A、H8Y、I49F、L84F、H123Y、N127S、I156F和/或K160S突变中的一个或多个，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变。

在一些实施方案中，腺苷脱氨酶包括L84X突变腺苷脱氨酶，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的L84F突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H123X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H123Y突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的I156X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的I156F突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个、六个或七个选自由TadA参考序列中的L84X、A106X、D108X、H123X、D147X、E155X和I156X组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个或六个选自由TadA参考序列中的S2X、I49X、A106X、D108X、D147X和E155X组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个或五个选自由TadA参考序列中的H8X、A106X、D108X、N127X和K160X组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变，其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。

在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个、六个或七个选自由TadA参考序列中的L84F、A106V、D108N、H123Y、D147Y、E155V和I156F组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变。在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个、五个或六个选自由TadA参考序列中的S2A、I49F、A106V、D108N、D147Y和E155V组成的组的突变。

在一些实施方案中，腺苷脱氨酶包含一个、两个、三个、四个或五个选自由TadA参考序列中的H8Y、A106T、D108N、N127S和K160S组成的组的突变，或另一腺苷脱氨酶中的一个或多个相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的E25X、R26X、R107X、A142X和/或A143X突变中的一个或多个，或另一腺苷脱氨酶中的一个或多个相应突变，其中存在X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的E25M、E25D、E25A、E25R、E25V、E25S、E25Y、R26G、R26N、R26Q、R26C、R26L、R26K、R107P、R107K、R107A、R107N、R107W、R107H、R107S、A142N、A142D、A142G、A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变中的一个或多个，或另一种腺苷脱氨酶中的一个或多个相应突变。在一些实施方案中，腺苷脱氨酶包含一个或多个本文所述的对应于TadA参考序列的突变，或另一腺苷脱氨酶中的一个或多个相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的E25X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的E25M、E25D、E25A、E25R、E25V、E25S或E25Y突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R26X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R26G、R26N、R26Q、R26C、R26L或R26K突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R107X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R107P、R107K、R107A、R107N、R107W、R107H或R107S突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A142X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A142N、A142D、A142G突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A143X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变，或另一腺苷脱氨酶(例如，ecTadA)中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H36X、N37X、P48X、I49X、R51X、M70X、N72X、D77X、E134X、S146X、Q154X、K157X和/或K161X突变中的一个或多个，或另一腺苷脱氨酶中的一个或多个相应突变，其中存在X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H36L、N37T、N37S、P48T、P48L、I49V、R51H、R51L、M70L、N72S、D77G、E134G、S146R、S146C、Q154H、K157N和/或K161T突变中的一个或多个，或另一腺苷脱氨酶(例如，ecTadA)中的一个或多个相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H36X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的H36L突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的N37X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的N37T或N37S突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的P48X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的P48T或P48L突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R51X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R51H或R51L突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的S146X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的S146R或S146C突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的K157X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的K157N突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的P48X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的P48S、P48T或P48A突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A142X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的A142N突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的W23X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的W23R或W23L突变，或另一腺苷脱氨酶中的相应突变。

在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R152X突变，或另一腺苷脱氨酶中的相应突变，其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中，腺苷脱氨酶包含TadA参考序列中的R152P或R52H突变，或另一腺苷脱氨酶中的相应突变。

在一个实施方案中，腺苷脱氨酶可以包含突变H36L、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、E155V、I156F和K157N。在一些实施方案中，腺苷脱氨酶包含以下相对于TadA参考序列的突变组合，其中组合的每个突变由“_”分隔，并且每个突变组合都在括号之间：

(A106V_D108N)、

(R107C_D108N)、

(H8Y_D108N_N127S_D147Y_Q154H)、

(H8Y_D108N_N127S_D147Y_E155V)、

(D108N_D147Y_E155V)、

(H8Y_D108N_N127S)、

(H8Y_D108N_N127S_D147Y_Q154H)、

(A106V_D108N_D147Y_E155V)、

(D108Q_D147Y_E155V)、

(D108M_D147Y_E155V)、

(D108L_D147Y_E155V)、

(D108K_D147Y_E155V)、

(D108I_D147Y_E155V)、

(D108F_D147Y_E155V)、

(A106V_D108N_D147Y)、

(A106V_D108M_D147Y_E155V)、

(E59A_A106V_D108N_D147Y_E155V)、

(E59A cat失活_A106V_D108N_D147Y_E155V)、

(L84F_A106V_D108N_H123Y_D147Y_E155V_I156Y)、

(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(D103A_D104N)、

(G22P_D103A_D104N)、

(D103A_D104N_S138A)、

(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F)、

(E25G_R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F)、

(E25D_R26G_L84F_A106V_R107K_D108N_H123Y_A142N_A143G_D147Y_E155V_I156F)、

(R26Q_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)、

(E25M_R26G_L84F_A106V_R107P_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F)、

(R26C_L84F_A106V_R107H_D108N_H123Y_A142N_D147Y_E155V_I156F)、

(L84F_A106V_D108N_H123Y_A142N_A143L_D147Y_E155V_I156F)、

(R26G_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)、

(E25A_R26G_L84F_A106V_R107N_D108N_H123Y_A142N_A143E_D147Y_E155V_I156F)、

(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F)、

(A106V_D108N_A142N_D147Y_E155V)、

(R26G_A106V_D108N_A142N_D147Y_E155V)、

(E25D_R26G_A106V_R107K_D108N_A142N_A143G_D147Y_E155V)、

(R26G_A106V_D108N_R107H_A142N_A143D_D147Y_E155V)、

(E25D_R26G_A106V_D108N_A142N_D147Y_E155V)、

(A106V_R107K_D108N_A142N_D147Y_E155V)、

(A106V_D108N_A142N_A143G_D147Y_E155V)、

(A106V_D108N_A142N_A143L_D147Y_E155V)、

(H36L_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、

(N37T_P48T_M70L_L84F_A106V_D108N_H123Y_D147Y_I49V_E155V_I156F)、

(N37S_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K161T)、

(H36L_L84F_A106V_D108N_H123Y_D147Y_Q154H_E155V_I156F)、

(N72S_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F)、

(H36L_P48L_L84F_A106V_D108N_H123Y_E134G_D147Y_E155V_I156F)、

(H36L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N)、

(H36L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F)、

(L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T)、

(N37S_R51H_D77G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(R51L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N)、

(D24G_Q71R_L84F_H96L_A106V_D108N_H123Y_D147Y_E155V_I156F_K160E)、

(H36L_G67V_L84F_A106V_D108N_H123Y_S146T_D147Y_E155V_I156F)、

(Q71L_L84F_A106V_D108N_H123Y_L137M_A143E_D147Y_E155V_I156F)、

(E25G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L)、

(L84F_A91T_F104I_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(N72D_L84F_A106V_D108N_H123Y_G125A_D147Y_E155V_I156F)、

(P48S_L84F_S97C_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(W23G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(D24G_P48L_Q71R_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L)、

(L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)、

(H36L_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N)、

(N37S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_K161T)、

(L84F_A106V_D108N_D147Y_E155V_I156F)、

(R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K161T)、

(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K161T)、

(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E_K161T)、

(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E)、

(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(R74A_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(L84F_R98Q_A106V_D108N_H123Y_D147Y_E155V_I156F)、

(L84F_A106V_D108N_H123Y_R129Q_D147Y_E155V_I156F)、

(P48S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)、

(P48S_A142N)、

(P48T_I49V_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_L157N)、

(P48T_I49V_A142N)、

(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、

(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F)、

(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、

(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N)、

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N)、

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F_K157N)、

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、

(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T)、

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152H_E155V_I156F_K157N)、

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)、

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)、

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_E155V_I156F_K157N)、

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_R152P_E155V_I156F_K157N)、

(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T)、

(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)、

(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_R152P_E155V_I156F_K157N)。

在一些实施方案中，TadA脱氨酶是TadA变体。在一些实施方案中，TadA变体是TadA*7.10。在特定实施方案中，融合蛋白包含单个TadA*7.10结构域(例如，作为单体提供)。在其他实施方案中，融合蛋白包含TadA*7.10和TadA(wt)，它们能够形成异二聚体。在一个实施方案中，本发明的融合蛋白包含与TadA*7.10连接的野生型TadA，TadA*7.10与Cas9切口酶连接。

在一些实施方案中，TadA*7.10包含至少一个改变。在一些实施方案中，腺苷脱氨酶包含以下序列中的改变：

TadA*7.10

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:3)

在一些实施方案中，TadA*7.10包含氨基酸82和/或166处的改变。在特定实施方案中，TadA*7.10包含以下改变中的一个或多个：Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R。在其他实施方案中，TadA*7.10的变体包含选自下组的改变的组合：Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；以及I76Y+V82S+Y123H+Y147R+Q154R。

在一些实施方案中，腺苷脱氨酶变体(例如，TadA*8)包含缺失。在一些实施方案中，腺苷脱氨酶变体包含C端的缺失。在特定实施方案中，腺苷脱氨酶变体包含相对于TadA*7.10(TadA参考序列)从残基149、150、151、152、153、154、155、156和157开始的C端缺失，或另一个TadA中的相应突变。

在其他实施方案中，腺苷脱氨酶变体(例如，TadA*8)是单体，其包含相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R，或另一个TadA中的相应突变。在其他实施方案中，腺苷脱氨酶变体(TadA*8)是单体，其包含选自下组相对于TadA*7.10(TadA参考序列)的改变的组合：Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；以及I76Y+V82S+Y123H+Y147R+Q154R，或另一个TadA中的相应突变。

在其他实施方案中，腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域(例如，TadA*8)的同二聚体，所述腺苷脱氨酶结构域各自具有相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R，或另一个TadA中的相应突变。在其他实施方案中，腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域(例如，TadA*8)的同二聚体，所述腺苷脱氨酶结构域各自具有选自下组相对于TadA*7.10(TadA参考序列)的改变的组合：Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；以及I76Y+V82S+Y123H+Y147R+Q154R，或另一个TadA中的相应突变。

在其他实施方案中，腺苷脱氨酶变体是野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如，TadA*8)的异二聚体，所述腺苷脱氨酶变体结构域包含相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R，或另一个TadA中的相应突变。在其他实施方案中，腺苷脱氨酶变体是野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如，TadA*8)的异二聚体，所述腺苷脱氨酶变体结构域包含选自下组相对于TadA*7.10(TadA参考序列)的改变的组合：Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；以及I76Y+V82S+Y123H+Y147R+Q154R，或另一个TadA中的相应突变。

在其他实施方案中，腺苷脱氨酶变体是TadA*7.10结构域和腺苷脱氨酶变体结构域(例如，TadA*8)的异二聚体，所述腺苷脱氨酶变体结构域包含相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R，或另一个TadA中的相应突变。在其他实施方案中，腺苷脱氨酶变体是TadA*7.10结构域和腺苷脱氨酶变体结构域(例如，TadA*8)的异二聚体，所述腺苷脱氨酶变体结构域包含选自下组相对于TadA*7.10(TadA参考序列)的改变的组合：Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；以及I76Y+V82S+Y123H+Y147R+Q154R，或另一个TadA中的相应突变。

在特定实施方案中，腺苷脱氨酶异二聚体包含TadA*8结构域和腺苷脱氨酶结构域，其选自金黄色葡萄球菌(S.aureus)TadA、枯草芽孢杆菌(B.subtilis)TadA、鼠伤寒沙门氏菌(S.typhimurium)TadA、腐败希瓦氏菌(S.putrefaciens)TadA、流感嗜血杆菌F3031(H.influenzae)TadA、新月柄杆菌(C.crescentus)TadA、硫还原地杆菌(G.sulfurreducens)TadA，或TadA*7.10。

在一些实施方案中，腺苷脱氨酶是TadA*8。在一个实施方案中，腺苷脱氨酶是TadA*8，其包含以下具有腺苷脱氨酶活性的序列或其片段，或基本上由所述序列或其片段组成：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:242)。

在一些实施方案中，TadA*8被截断。在一些实施方案中，截断的TadA*8相对于全长TadA*8丢失1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、6个、17个、18个、19或20个N端氨基酸。在一些实施方案中，截断的TadA*8相对于全长TadA*8丢失1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、6个、17个、18个、19个或20个C端氨基酸残基。在一些实施方案中，腺苷脱氨酶变体是全长TadA*8。

在一些实施方案中，TadA*8是TadA*8.1,TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23或TadA*8.24。

在其他实施方案中，本公开的碱基编辑器包含腺苷脱氨酶变体(例如，TadA*8)单体，所述单体包含相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：R26C、V88A、A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和/或D167N，或另一个TadA中的相应突变。在其他实施方案中，腺苷脱氨酶变体(TadA*8)单体包含选自下组相对于TadA*7.10(TadA参考序列)的改变的组合：R26C+A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N；V88A+A109S+T111R+D119N+H122N+F149Y+T166I+D167N；R26C+A109S+T111R+D119N+H122N+F149Y+T166I+D167N；V88A+T111R+D119N+F149Y；以及A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N，或另一个TadA中的相应突变。

在其他实施方案中，碱基编辑器包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如，TadA*8)的异二聚体，所述腺苷脱氨酶变体结构域包含相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：R26C、V88A、A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和/或D167N，或另一个TadA中的相应突变。在其他实施方案中，碱基编辑器包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如，TadA*8)的异二聚体，所述腺苷脱氨酶变体结构域包含选自下组相对于TadA*7.10(TadA参考序列)的改变的组合：R26C+A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N；V88A+A109S+T111R+D119N+H122N+F149Y+T166I+D167N；R26C+A109S+T111R+D119N+H122N+F149Y+T166I+D167N；V88A+T111R+D119N+F149Y；以及A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N，或另一个TadA中的相应突变。

在其他实施方案中，碱基编辑器包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如，TadA*8)的异二聚体，所述腺苷脱氨酶变体结构域包含相对于TadA*7.10(TadA参考序列)的以下改变中的一个或多个：R26C、V88A、A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和/或D167N，或另一个TadA中的相应突变。在其他实施方案中，碱基编辑器包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如，TadA*8)的异二聚体，所述腺苷脱氨酶变体结构域包含选自下组相对于TadA*7.10(TadA参考序列)的改变的组合：R26C+A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N；V88A+A109S+T111R+D119N+H122N+F149Y+T166I+D167N；R26C+A109S+T111R+D119N+H122N+F149Y+T166I+D167N；V88A+T111R+D119N+F149Y；以及A109S+T111R+D119N+H122N+Y147D+F149Y+T166I+D167N，或另一个TadA中的相应突变。

在一些实施方案中，TadA*8是如表6所示的变体。表6显示了TadA氨基酸序列中的某些氨基酸位置编号以及TadA-7.10腺苷脱氨酶中这些位置中存在的氨基酸。表6还显示了在噬菌体辅助非连续进化(PANCE)和噬菌体辅助连续进化(PACE)后TadA变体中相对于TadA-7.10的氨基酸变化，如M.Richter等人,2020,Nature Biotechnology,doi.org/10.1038/s41587-020-0453-z中所述，其全部内容以引用方式并入本文。在一些实施方案中，TadA*8是TadA*8a、TadA*8b、TadA*8c、TadA*8d或TadA*8e。在一些实施方案中，TadA*8是TadA*8e。

表6.选择TadA*8变体

在一个实施方案中，本发明的融合蛋白包含与本文所述的腺苷脱氨酶变体(例如，TadA*8)连接的野生型TadA，所述腺苷脱氨酶变体与Cas9切口酶连接。在特定实施方案中，融合蛋白包含单个TadA*8结构域(例如，作为单体提供)。在其他实施方案中，融合蛋白包含TadA*8和TadA(wt)，它们能够形成异二聚体。

在特定实施方案中，TadA*8包含在以下粗体显示的任何位置的一个或多个突变。在其他实施方案中，TadA*8包含在下划线显示的任何位置的一个或多个突变：

例如，TadA*8包含氨基酸位置82和/或166处相对于TadA*7.10(TadA参考序列)的单独改变(例如，V82S、T166R)或与以下Y147T、Y147R、Q154S、Y123H和/或Q154R中的任何一个或多个组合的改变，或另一个TadA中的相应突变。在特定实施方案中，相对于TadA*7.10(TadA参考序列)，改变的组合选自下组：Y147T+Q154R；Y147T+Q154S；Y147R+Q154S；V82S+Q154S；V82S+Y147R；V82S+Q154R；V82S+Y123H；I76Y+V82S；V82S+Y123H+Y147T；V82S+Y123H+Y147R；V82S+Y123H+Q154R；Y147R+Q154R+Y123H；Y147R+Q154R+I76Y；Y147R+Q154R+T166R；Y123H+Y147R+Q154R+I76Y；V82S+Y123H+Y147R+Q154R；以及I76Y+V82S+Y123H+Y147R+Q154R，或另一个TadA中的相应突变。

在一个实施方案中，本发明的融合蛋白包含与本文所述的腺苷脱氨酶变体(例如，TadA*8)连接的野生型TadA，所述腺苷脱氨酶变体与Cas9切口酶连接。在特定实施方案中，融合蛋白包含单个TadA*8结构域(例如，作为单体提供)。在其他实施方案中，碱基编辑器包含TadA*8和TadA(wt)，它们能够形成异二聚体。

在特定实施方案中，融合蛋白包含单个(例如，作为单体提供)TadA*8。在一些实施例中，TadA*8与Cas9切口酶连接。在一些实施方案中，本发明的融合蛋白包含作为与TadA*8连接的野生型TadA(TadA(wt))的异二聚体。在其他实施方案中，本发明的融合蛋白包含作为与TadA*8连接的TadA*7.10的异源二聚体。在一些实施方案中，碱基编辑器是ABE8，其包含TadA*8变体单体。在一些实施方案中，碱基编辑器是ABE8，其包含TadA*8和TadA(wt)的异二聚体。在一些实施方案中，碱基编辑器是ABE8，其包含TadA*8和TadA*7.10的异二聚体。在一些实施方案中，碱基编辑器是ABE8，其包含TadA*8的异二聚体。在一些实施方案中，TadA*8选自表6、12或13。在一些实施方案中，ABE8选自表12、13或15。

在一些实施方案中，腺苷脱氨酶是TadA*9变体。在一些实施方案中，腺苷脱氨酶是TadA*9变体，其选自下述变体并且参考以下序列(称为TadA*7.10)：

在一些实施方案中，腺苷脱氨酶包含以下改变中的一个或多个：R21N、R23H、E25F、N38G、L51W、P54C、M70V、Q71M、N72K、Y73S、V82T、M94V、P124W、T133K、D139L、D139M、C146R和A158K。一个或多个改变在上面的序列中以下划线和粗体显示。

在一些实施方案中，腺苷脱氨酶包含以下改变组合中的一种或多种：V82S+Q154R+Y147R；V82S+Q154R+Y123H；V82S+Q154R+Y147R+Y123H；Q154R+Y147R+Y123H+I76Y+V82S；V82S+I76Y；V82S+Y147R；V82S+Y147R+Y123H；V82S+Q154R+Y123H；Q154R+Y147R+Y123H+I76Y；V82S+Y147R；V82S+Y147R+Y123H；V82S+Q154R+Y123H；V82S+Q154R+Y147R；V82S+Q154R+Y147R；Q154R+Y147R+Y123H+I76Y；Q154R+Y147R+Y123H+I76Y+V82S；I76Y_V82S_Y123H_Y147R_Q154R；Y147R+Q154R+H123H；以及V82S+Q154R。

在一些实施方案中，腺苷脱氨酶包含以下改变组合中的一种或多种：E25F+V82S+Y123H、T133K+Y147R+Q154R；E25F+V82S+Y123H+Y147R+Q154R；L51W+V82S+Y123H+C146R+Y147R+Q154R；Y73S+V82S+Y123H+Y147R+Q154R；P54C+V82S+Y123H+Y147R+Q154R；N38G+V82T+Y123H+Y147R+Q154R；N72K+V82S+Y123H+D139L+Y147R+Q154R；E25F+V82S+Y123H+D139M+Y147R+Q154R；Q71M+V82S+Y123H+Y147R+Q154R；E25F+V82S+Y123H+T133K+Y147R+Q154R；E25F+V82S+Y123H+Y147R+Q154R；V82S+Y123H+P124W+Y147R+Q154R；L51W+V82S+Y123H+C146R+Y147R+Q154R；P54C+V82S+Y123H+Y147R+Q154R；Y73S+V82S+Y123H+Y147R+Q154R；N38G+V82T+Y123H+Y147R+Q154R；R23H+V82S+Y123H+Y147R+Q154R；R21N+V82S+Y123H+Y147R+Q154R；V82S+Y123H+Y147R+Q154R+A158K；N72K+V82S+Y123H+D139L+Y147R+Q154R；E25F+V82S+Y123H+D139M+Y147R+Q154R；以及M70V+V82S+M94V+Y123H+Y147R+Q154R。

在一些实施方案中，腺苷脱氨酶包含以下改变组合中的一种或多种：Q71M+V82S+Y123H+Y147R+Q154R；E25F+I76Y+V82S+Y123H+Y147R+Q154R；I76Y+V82T+Y123H+Y147R+Q154R；N38G+I76Y+V82S+Y123H+Y147R+Q154R；R23H+I76Y+V82S+Y123H+Y147R+Q154R；P54C+I76Y+V82S+Y123H+Y147R+Q154R；R21N+I76Y+V82S+Y123H+Y147R+Q154R；I76Y+V82S+Y123H+D139M+Y147R+Q154R；Y73S+I76Y+V82S+Y123H+Y147R+Q154R；E25F+I76Y+V82S+Y123H+Y147R+Q154R；I76Y+V82T+Y123H+Y147R+Q154R；N38G+I76Y+V82S+Y123H+Y147R+Q154R；R23H+I76Y+V82S+Y123H+Y147R+Q154R；P54C+I76Y+V82S+Y123H+Y147R+Q154R；R21N+I76Y+V82S+Y123H+Y147R+Q154R；I76Y+V82S+Y123H+D139M+Y147R+Q154R；Y73S+I76Y+V82S+Y123H+Y147R+Q154R；以及V82S+Q154R；N72K_V82S+Y123H+Y147R+Q154R；Q71M_V82S+Y123H+Y147R+Q154R；V82S+Y123H+T133K+Y147R+Q154R；V82S+Y123H+T133K+Y147R+Q154R+A158K；M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R；N72K_V82S+Y123H+Y147R+Q154R；Q71M_V82S+Y123H+Y147R+Q154R；M70V+V82S+M94V+Y123H+Y147R+Q154R；V82S+Y123H+T133K+Y147R+Q154R；V82S+Y123H+T133K+Y147R+Q154R+A158K；以及M70V+Q71M+N72K+V82S+Y123H+Y147R+Q154R。在一些实施方案中，腺苷脱氨酶表达为单体。在其他实施方案中，腺苷脱氨酶表达为异二聚体。在一些实施方案中，脱氨酶或其他多肽序列不含甲硫氨酸，例如当被包含为融合蛋白的组分时。这可以改变位置的编号。然而，本领域技术人员将理解此类相应突变指相同的突变，例如，Y73S和Y72S以及D139M和D138M。

在一些实施方案中，TadA*9变体包含如本文所述的表16中所述的改变。在一些实施方案中，TadA*9变体是单体。在一些实施方案中，TadA*9变体是具有野生型TadA腺苷脱氨酶的异二聚体。在一些实施方案中，TadA*9变体是具有另一个TadA变体(例如，TadA*8、TadA*9)的异二聚体。TadA*9腺苷脱氨酶的另外的细节描述于国际PCT申请号PCT/2020/049975中，其以引用方式整体并入本文。

本文提供的任何突变和任何另外的突变(例如，基于ecTadA氨基酸序列)可以被引入任何另外的腺苷脱氨酶中。本文提供的任何突变可以单独或以任何组合在TadA参考序列或另一种腺苷脱氨酶(例如，ecTadA)中出现。

A到G核碱基编辑蛋白的细节描述于国际PCT申请号PCT/2017/045381(WO2018/027078)和Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C ingenomic DNA without DNA cleavage”Nature,551,464-471(2017)，其全部内容以引用方式并入本文。

向导多核苷酸

当与结合的向导多核苷酸(例如，gRNA)结合时，多核苷酸可编程核苷酸结合结构域可以特异性结合靶多核苷酸序列(即，通过结合的向导核酸的碱基和靶多核苷酸序列的碱基之间的互补碱基配对)，从而将碱基编辑器定位到需要被编辑的靶核酸序列。在一些实施方案中，靶多核苷酸序列包括单链DNA或双链DNA。在一些实施方案中，靶多核苷酸序列包括RNA。在一些实施方案中，靶多核苷酸序列包括DNA-RNA杂交体。

CRISPR是适应性免疫系统，提供针对移动遗传因子(病毒、转座因子和接合质粒)的保护。CRISPR簇含有间隔区、与先行移动元件互补的序列和靶入侵核酸。CRISPR簇被转录并加工成CRISPR RNA(crRNA)。在II型CRISPR系统中，正确处理pre-crRNA需要反式编码的小RNA(tracrRNA)、内源性核糖核酸酶3(rnc)和Cas9蛋白。tracrRNA作为核糖核酸酶3辅助处理pre-crRNA的向导。随后，Cas9/crRNA/tracrRNA核酸内切切割与间隔区互补的线性或环状dsDNA靶标。与crRNA不互补的靶链首先被核酸内切切割，然后被3’-5’核酸外切修剪。在自然界中，DNA结合和切割通常需要蛋白质和两种RNA。然而，可以对单向导RNA(“sgRNA”，或简称“gNRA”)进行工程化改造，以将crRNA和tracrRNA的各个方面并入单个RNA物种中。参见例如Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,Doudna J.A.,CharpentierE.Science 337:816-821(2012)，其全部内容以引用方式并入本文。Cas9识别CRISPR重复序列中的一个短基序(PAM或原型间隔区相邻基序)，以帮助区分自身与非自身。参见例如，“Complete genome sequence of an M1 strain of Streptococcus pyogenes”Ferretti,J.J.等人,Natl.Acad.Sci.U.S.A.98:4658-4663(2001)；“CRISPR RNA maturation bytrans-encoded small RNA and host factor RNase III.”Deltcheva E.等人,Nature471:602-607(2011)；以及“Programmable dual-RNA-guided DNA endonuclease inadaptive bacterial immunity.”Jinek M.et al,Science 337:816-821(2012)，其中的每一个的全部内容都以引用方式并入本文。

PAM序列可以是本领域已知的任何PAM序列。合适的PAM序列包括但不限于NGG、NGA、NGC、NGN、NGT、NGCG、NGAG、NGAN、NGNG、NGCN、NGCG、NGTN、NNGRRT、NNNRRT、NNGRR(N)、TTTV、TYCV、TYCV、TATV、NNNNGATT、NNAGAAW或NAAAAC。Y是嘧啶；N是任何核苷酸碱基；W是A或T。

在一个实施方案中，本文所述的向导多核苷酸可以是RNA或DNA。在一个实施方案中，向导多核苷酸是gRNA。RNA/Cas复合物可以协助将Cas蛋白“引导”到靶DNA。Cas9/crRNA/tracrRNA核酸内切切割与间隔区互补的线性或环状dsDNA靶标。与crRNA不互补的靶链首先被核酸内切切割，然后被3’-5’核酸外切修剪。在自然界中，DNA结合和切割通常需要蛋白质和两种RNA。然而，可以对单向导RNA(“sgRNA”，或简称“gNRA”)进行工程化改造，以将crRNA和tracrRNA的各个方面并入单个RNA物种中。参见例如Jinek M.等人,Science 337:816-821(2012),其全部内容以引用方式并入本文。

在一些实施方案中，向导多核苷酸是至少一个单向导RNA(“sgRNA”或“gNRA”)。在一些实施方案中，向导多核苷酸包含两个或更多个单独的多核苷酸，它们可以通过例如互补碱基配对(例如，双向导多核苷酸、双gRNA)彼此相互作用。例如，向导多核苷酸可以包含CRISPR RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)或可以包含一种或多种反式激活CRISPR RNA(tracrRNA)。

在一些实施方案中，向导多核苷酸是至少一种tracrRNA。在一些实施方案中，向导多核苷酸不需要PAM序列来将多核苷酸可编程DNA结合结构域(例如，Cas9或Cpf1)引导至靶核苷酸序列。

向导多核苷酸可以包含天然的或非天然的(non-natural/unnatural)核苷酸(例如，肽核酸或核苷酸类似物)。在一些情况下，向导核酸序列的靶区域的长度可以是至少15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个或30个核苷酸。向导核酸的靶区域的长度可以在10-30个核苷酸之间，或在15-25个核苷酸之间，或在15-20个核苷酸之间。

在一些实施方案中，本文提供的碱基编辑器利用一个或多个向导多核苷酸(例如，多个gRNA)。在一些实施方案中，单向导多核苷酸用于本文所述的不同碱基编辑器。例如，单向导多核苷酸可以用于胞苷碱基编辑器和腺苷碱基编辑器。

在一些实施方案中，本文所述的方法可以利用工程化Cas蛋白。向导RNA(gRNA)是短合成RNA，其由Cas结合所必需的支架序列和使用者定义的约20个核苷酸的间隔区组成，所述间隔区定义了要修饰的基因组靶标。示例性gRNA支架序列在序列表中提供为SEQ IDNO:90和243-252。因此，熟练的技术人员可以改变Cas蛋白特异性的基因组靶标，部分取决于与基因组的其余部分相比，gRNA靶向序列对基因组靶标的特异性。

在其他实施方案中，向导多核苷酸可以在单个分子(即，单分子向导核酸)中包含核酸的多核苷酸靶向部分和核酸的支架部分。例如，单分子向导多核苷酸可以是单向导RNA(sgRNA或gRNA)。在本文中，术语向导多核苷酸序列涵盖能够与靶多核苷酸序列相互作用并将碱基编辑器导向靶多核苷酸序列的任何单分子、双分子或多分子核酸。

通常，向导多核苷酸(例如，crRNA/trRNA复合物或gRNA)包含包含能够识别并结合靶多核苷酸序列的序列的“多核苷酸靶向片段”，以及在碱基编辑器的多核苷酸可编程核苷酸结合结构域组分内稳定向导多核苷酸的“蛋白质结合片段”。在一些实施方案中，向导多核苷酸的多核苷酸靶向片段识别并结合DNA多核苷酸，从而促进DNA中碱基的编辑。在其他情况下，向导多核苷酸的多核苷酸靶向片段识别并结合RNA多核苷酸，从而促进RNA中碱基的编辑。在本文中，“片段”是指分子的部分或区域，例如，向导多核苷酸中的一段连续的核苷酸。片段还可以指复合物的区域/部分，使得片段可以包含多于一个分子的区域。例如，在向导多核苷酸包含多个核酸分子的情况下，其蛋白质结合片段可以包含例如沿着互补区域杂交的多个单独分子的全部或一部分。在一些实施方案中，包含两个单独分子的靶向DNA的RNA的蛋白质结合片段可以包含(i)长度为100个碱基对的第一RNA分子的碱基对40-75；和(ii)长度为50个碱基对的第二RNA分子的碱基对10-25。除非另外在特定背景下确切地定义，否则“片段”的定义不限于特定数目的总碱基对，不限于来自给定RNA分子的任何具体数目的碱基对，不限于复合物内的具体数目的单独分子，并且可以包括具有任何总长度的RNA分子的区域并且可以包括与其他分子具有互补性的区域。

向导多核苷酸可以化学合成、酶促合成或其组合合成。例如，可以使用标准的基于亚磷酰胺的固相合成方法合成gRNA。或者，可以通过将编码gRNA的DNA可操作地连接到由噬菌体RNA聚合酶识别的启动子控制序列来体外合成gRNA。合适的噬菌体启动子序列的实例包括T7、T3、SP6启动子序列或其变体。在gRNA包含两个单独分子(例如，crRNA和tracrRNA)的实施方案中，crRNA可以是化学合成的并且tracrRNA可以是酶促合成的。

gRNA分子可以体外转录。

向导多核苷酸可以例如通过编码gRNA的DNA(例如，包含编码gRNA的序列的DNA载体)来表达。gRNA可以单独编码，或与编码的碱基编辑器一起编码。这样的DNA序列可以一起或单独引入表达系统，例如细胞。例如，可以将编码多核苷酸可编程核苷酸结合结构域和gRNA的DNA序列引入细胞中，每个DNA序列可以是单独分子的一部分(例如，含有多核苷酸可编程核苷酸结合结构域编码序列的载体和含有gRNA编码序列的第二载体),或两者可以是同一分子的一部分(例如，含有多核苷酸可编程核苷酸结合结构域和gRNA两者的编码(和调节)序列的载体)。RNA可以从合成的DNA分子(例如，

基因片段)转录。

gRNA或向导多核苷酸可以包含三个区域：可以与染色体序列中的靶位点互补的5'端的第一区域，可以形成茎环结构的第二内部区域，以及可以是单链的第三3'区域。每个gRNA的第一区域也可以不同，使得每个gRNA将融合蛋白导向特定靶位点。此外，每个gRNA的第二和第三区域在所有gRNA中可以是相同的。

gRNA或向导多核苷酸的第一区域可以与染色体序列中靶位点处的序列互补，使得gRNA的第一区域可以与靶位点碱基配对。在一些情况下，gRNA的第一区域可以包含10个或约10个核苷酸至25个核苷酸(即，10个核苷酸至个核苷酸；或约10个核苷酸至约25个核苷酸；或10个核苷酸至约25个核苷酸；或约10个核苷酸至25个核苷酸)或更多。例如，gRNA的第一区域和染色体序列中的靶位点之间的碱基配对区域的长度可以是或可以是约10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、22个、23个、24个、25个或更多个核苷酸。有时，gRNA的第一区域的长度可以是或可以是约19个、20个或21个核苷酸。

gRNA或向导多核苷酸还可以包含形成二级结构的第二区域。例如，由gRNA形成的二级结构可以包含茎(或发夹)和环。环和茎的长度可以变化。例如，环的长度可以在约3至约10个核苷酸的范围内，并且茎的长度可以在约6至约20个碱基对的范围内。茎可以包含1至约10个或约10个核苷酸的一个或多个凸起。第二区域的总长度可以在16或约16至60个核苷酸长度的范围内。例如，环的长度可以是或可以是约4个核苷酸，并且茎可以是或可以是约12个碱基对。

gRNA或向导多核苷酸还可以在3'端包含第三区域，所述第三区域基本上可以是单链的。例如，第三区域有时与关注的细胞中的任何染色体序列不互补，并且有时与gRNA的其余部分不互补。此外，第三区域的长度可以变化。第三区域的长度可以多于4个或多于约4个核苷酸。例如，第三区域的长度可以在5或约5至60个核苷酸的范围内。

gRNA或向导多核苷酸可以靶向基因靶标的任何外显肽或内含肽。在某些情况下，向导可以靶向基因的外显肽1或2；在其他情况下，向导可以靶向基因的外显肽3或4。在一些实施方案中，组合物包含全部靶向相同外显肽的多个gRNA或靶向不同外显肽的多个gRNA。可以靶向基因的外显肽和/或内含肽。

gRNA或向导多核苷酸可以靶向约20个核苷酸或少于约20个核苷酸(例如，至少约5个、10个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、30个核苷酸)或约1-100个之间任何数量的核苷酸(例如，5个、10个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、30个、40个、50个、60个、70个、80个、90个、100个)的核酸序列。靶核酸序列可以是紧邻PAM的第一个核苷酸的5'的20个碱基或可以是紧邻PAM的第一个核苷酸的5'的约20个碱基。gRNA可以靶向核酸序列。靶核酸可以是至少或至少约1-10个、1-20个、1-30个、1-40个、1-50个、1-60个、1-70个、1-80个、1-90或1-100个核苷酸。

用于选择、设计和验证向导多核苷酸例如gRNA和靶向序列的方法在本文中描述并且为本领域技术人员所知。例如，为了最小化核碱基编辑器系统中脱氨酶结构域(例如，AID结构域)的潜在底物混乱的影响，可能无意中被靶向以脱氨基的残基(例如，靶核酸基因座内的单链DNA上的可能潜在的脱靶C残基)的数量可以被最小化。此外，软件工具可以用于优化对应于靶核酸序列的gRNA，例如，用于最小化整个基因组的总脱靶活性。例如，对于使用酿脓链球菌Cas9的每个可能的靶向结构域选择，可以在整个基因组中鉴定所有脱靶序列(在选择的PAM之前，例如NAG或NGG)，所述基因组含有多达一定数量(例如，1、2、3、4、5、6、7、8、9或10)的错配的碱基对。可以鉴定与靶位点互补的gRNA的第一区域，并且可以根据其总预测脱靶分数对所有第一区域(例如，crRNA)排序；排名靠前的靶结构域表示那些可能具有最大靶上和最小脱靶活性的结构域。可以通过使用本领域已知的方法和/或如本文说明对候选靶向gRNA进行功能评估。

作为非限制性实例，gRNA的crRNA中用于与Cas9一起使用的靶DNA杂交序列可以使用DNA序列搜索算法来鉴定。gRNA设计使用基于公共工具Cas-OFFinder的自定义gRNA设计软件进行，如Bae S.,Park J.,&Kim J.-S.Cas-OFFinder:A fast and versatilealgorithm that searches for potential off-target sites of Cas9 RNA-guidedendonucleases.Bioinformatics 30,1473-1475(2014)中所述。此软件在计算向导全基因组脱靶倾向后对其进行评分。对于长度在17至24范围内的向导，通常会考虑从完全匹配到7个错配的匹配。一旦计算确定脱靶位点，就会为每个向导计算总分，并使用Web界面以表格输出形式进行汇总。除了鉴定与PAM序列相邻的潜在靶位点外，所述软件还鉴定与选定靶位点相差1个、2个、3个或超过3个核苷酸的所有PAM相邻序列。可以获得靶核酸序列(例如，靶基因)的基因组DNA序列，并且使用公开可用的工具(例如RepeatMasker程序)可以筛选重复元件。RepeatMasker在输入DNA序列中搜索重复元件和低复杂性区域。输出是给定查询序列中存在的重复序列的详细注释。

鉴定后，gRNA的第一区域，例如crRNA，基于它们与靶位点的距离、它们的正交性以及与相关PAM序列紧密匹配的5'核苷酸(例如，基于含有相关PAM的人类基因组中密切匹配的鉴定的5'G，例如，酿脓链球菌的NGG PAM、金黄色葡萄球菌的NNGRRT或NNGRRV PAM)的存在进行分级。如本文所用，正交性是指人类基因组中含有与靶序列最少的错配数量的序列的数量。例如，“高水平正交性”或“良好正交性”是指在人类基因组中除预期靶标外没有相同序列的20-mer靶向结构域，或指在靶序列中含有一个或两个错配的任何序列。可以选择具有良好正交性的靶向结构域以最小化脱靶DNA切割。

然后gRNA可以作为RNA分子或非RNA核酸分子(例如，DNA分子)被引入细胞或胚胎中。在一个实施方案中，编码gRNA的DNA能够可操作地连接至启动子控制序列，以用于在关注的细胞或胚胎中表达所述gRNA。RNA编码序列能够可操作地连接至由RNA聚合酶III(PolIII)识别的启动子序列。可用于表达gRNA的质粒载体包括但不限于px330载体和px333载体。在一些情况下，质粒载体(例如，px333载体)可以包含至少两个编码gRNA的DNA序列。此外，载体可以包含另外的表达控制序列(例如，增强子序列、科扎克(Kozak)序列、聚腺苷酸化序列、转录终止序列等)、选择性标志物序列(例如，GFP或抗生素抗性基因诸如嘌呤霉素)、复制起点等。编码gRNA的DNA分子还可以是线性的。编码gRNA或向导多核苷酸的DNA分子还可以是环状的。

在一些实施方案中，报告系统用于检测碱基编辑活性和测试候选向导多核苷酸。在一些实施方案中，报告系统包括基于报告基因的测定，其中碱基编辑活性导致报告基因的表达。例如，报告系统可以包括包含灭活起始密码子的报告基因，例如，模板链上从3'-TAC-5'到3'-CAC-5'的突变。在靶C成功脱氨基后，相应的mRNA将被转录为5'-AUG-3'而不是5'-GUG-3'，从而实现报告基因的翻译。合适的报告基因对于本领域技术人员将是显而易见的。报告基因的非限制性实例包括编码绿色荧光蛋白(GFP)、红色荧光蛋白(RFP)、萤光素酶、分泌型碱性磷酸酶(SEAP)的基因，或者其表达对于本领域技术人员来说是可检测的和显而易见的任何其他基因。报告系统可以用于测试许多不同的gRNA，例如，用于确定相应脱氨酶将靶向关于靶DNA序列的哪些残基。还可以测试靶向非模板链的sgRNA，以评估特定碱基编辑蛋白(例如Cas9脱氨酶融合蛋白)的脱靶效应。在一些实施方案中，可以设计这样的gRNA，使得突变的起始密码子不会与gRNA碱基配对。向导多核苷酸可以包括标准核糖核苷酸、修饰的核糖核苷酸(例如，假尿苷)、核糖核苷酸异构体和/或核糖核苷酸类似物。在一些实施方案中，向导多核苷酸可以包含至少一种可检测标记。可检测标记可以是荧光团(例如，FAM、TMR、Cy3、Cy5、Texas Red、Oregon Green、Alexa Fluors、Halo标签或合适的荧光染料)、检测标签(例如，生物素、地高辛等)、量子点或金粒子。

在一些实施方案中，碱基编辑器系统可以包含多个向导多核苷酸，例如gRNA。例如，gRNA可以靶向一个或多个包含在碱基编辑器系统中的靶基因座(例如，至少1个gRNA、至少2个gRNA、至少5个gRNA、至少10个gRNA、至少20个gRNA、至少30个g RNA、至少50个gRNA)。多个gRNA序列可以串联排列并且优选地通过直接重复分开。

向导多核苷酸可以包含一种或多种修饰以提供具有新的或增强的特征的核酸。向导多核苷酸可以包含核酸亲和标签。向导多核苷酸可以包含合成核苷酸、合成核苷酸类似物、核苷酸衍生物和/或修饰的核苷酸。

在一些情况下，gRNA或向导多核苷酸可以包括修饰。可以在gRNA或向导多核苷酸的任何位置进行修饰。可以对单个gRNA或向导多核苷酸进行超过一种修饰。gRNA或向导多核苷酸可以在修饰后进行质量控制。在一些情况下，质量控制可以包括PAGE、HPLC、MS或其任何组合。

gRNA或向导多核苷酸的修饰可以是取代、插入、缺失、化学修饰、物理修饰、稳定化、纯化或其任何组合。

gRNA或向导多核苷酸也可以被以下修饰：5'腺苷酸、5'鸟苷-三磷酸帽、5'N7-甲基鸟苷-三磷酸帽、5'三磷酸帽、3'磷酸、3'硫代磷酸、5'磷酸、5'硫代磷酸、Cis-Syn胸苷二聚体、三聚体、C12间隔区、C3间隔区、C6间隔区、dSpacer、PC间隔区、rSpacer、间隔区18、间隔区9、3'-3'修饰、5'-5'修饰、脱碱基、吖啶、偶氮苯、生物素、生物素BB、生物素TEG、胆固醇TEG、脱硫生物素TEG、DNP TEG、DNP-X、DOTA、dT-生物素、双生物素、PC生物素、补骨脂素C2、补骨脂素C6、TINA、3'DABCYL、黑洞淬灭剂1、黑洞淬灭剂2、DABCYL SE、dT-DABCYL、IRDyeQC-1、QSY-21、QSY-35、QSY-7、QSY-9、羧基接头、硫醇接头、2'-脱氧核糖核苷类似物嘌呤、2'-脱氧核糖核苷类似物嘧啶、核糖核苷类似物、2'-O-甲基核糖核苷类似物、糖修饰类似物、摇摆/通用碱基、荧光染料标记、2'-氟RNA、2'-O-甲基RNA、甲基膦酸盐、磷酸二酯DNA、磷酸二酯RNA、硫代磷酸酯DNA、硫代磷酸酯RNA、UNA、假尿苷-5'-三磷酸、5'-甲基胞苷-5'-三磷酸盐，或其任何组合。

在一些情况下，修饰是永久性的。在其他情况下，修饰是瞬时的。在一些情况下，对gRNA或向导多核苷酸进行多种修饰。gRNA或向导多核苷酸修饰可以改变核苷酸的物理化学特性，诸如它们的构象、极性、疏水性、化学反应性、碱基配对相互作用或其任何组合。

通过用分离的gRNA或包含编码向导RNA的序列和启动子的质粒DNA转染细胞，可以将向导多核苷酸转移至细胞中。gRNA或向导多核苷酸也可以通过其他方式转移到细胞中，诸如使用病毒介导的基因递送。可以分离gRNA或向导多核苷酸。例如，gRNA可以以分离的RNA的形式转染到细胞或生物体中。可以使用本领域已知的任何体外转录系统通过体外转录制备gRNA。gRNA可以以分离的RNA的形式而不是以包含gRNA编码序列的质粒的形式转移到细胞中。

修饰也可以是硫代磷酸酯取代物。在一些情况下，天然磷酸二酯键可以易于被细胞核酸酶快速降解；并且使用硫代磷酸酯(PS)键取代物的核苷酸间键联的修饰对于通过细胞降解水解可以更稳定。修饰可以增加gRNA或向导多核苷酸的稳定性。修饰还可以增强生物活性。在一些情况下，硫代磷酸酯增强的RNA gRNA可以抑制RNA酶A、RNA酶T1、小牛血清核酸酶或其任何组合。这些特性可以允许PS-RNA gRNA用于在体内或体外暴露于核酸酶的可能性较高的应用中。例如，可以在gRNA的5'或‘'端的最后3-5个核苷酸之间引入硫代磷酸酯(PS)键，其可以抑制核酸外切酶降解。在一些情况下，可以在整个gRNA中添加硫代磷酸酯键以减少核酸内切酶的攻击。

在一些实施方案中，设计向导RNA以破坏剪接位点(即，剪接受体(SA)或剪接供体(SD))。在一些实施方案中，设计向导RNA使得碱基编辑导致提前终止密码子。

原型间隔区相邻基序

术语“原型间隔区相邻基序(PAM)”或PAM样基序是指紧随CRISPR细菌适应性免疫系统中Cas9核酸酶靶向的DNA序列的2-6个碱基对DNA序列。在一些实施方案中，PAM可以是5'PAM(即，位于原型间隔区5'端的上游)。在其他实施方案中，PAM可以是3'PAM(即，位于原型间隔区5'端的下游)。PAM序列对于靶标结合至关重要，但确切的序列取决于Cas蛋白的类型。PAM序列可以是本领域已知的任何PAM序列。合适的PAM序列包括但不限于NGG、NGA、NGC、NGN、NGT、NGTT、NGCG、NGAG、NGAN、NGNG、NGCN、NGCG、NGTN、NNGRRT、NNNRRT、NNGRR(N)、TTTV、TYCV、TYCV、TATV、NNNNGATT、NNAGAAW或NAAAAC。Y是嘧啶；N是任何核苷酸碱基；W是A或T。

本文提供的碱基编辑器可以包含CRISPR蛋白衍生结构域，所述结构域能够结合含有规范或非规范原型间隔区相邻基序(PAM)序列的核苷酸序列。PAM位点是接近靶多核苷酸序列的核苷酸序列。本公开的一些方面提供了碱基编辑器，其包含具有不同PAM特异性的CRISPR蛋白的全部或部分。

例如，Cas9蛋白，诸如来自酿脓链球菌的Cas9(spCas9)，通常需要规范的NGG PAM序列来结合特定的核酸区域，其中“NGG”中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C)，并且G是鸟嘌呤。PAM可以是CRISPR蛋白质特异性的，并且在包含不同CRISPR蛋白质衍生结构域的不同碱基编辑器之间可以不同。PAM可以是靶序列的5'或3'。PAM可以位于靶序列的上游或下游。PAM的长度可以是1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个核苷酸。通常，PAM的长度在2-6个核苷酸之间。

在一些实施方案中，PAM是“NRN”PAM，其中“NRN”中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C)，并且R是腺嘌呤(A)或鸟嘌呤(G)；或PAM为“NYN”PAM，其中NYN中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C)，并且Y是胞苷(C)或胸腺嘧啶(T)，例如，如R.T.Walton等人,2020,Science,10.1126/science.aba8853(2020)中描述，其全部内容以引用方式并入本文。

下面的表7中描述了几种PAM变体。

表7.Cas9蛋白和相应的PAM序列

变体	PAM
		spCas9	NGG
spCas9-VRQR	NGA
		spCas9-VRER	NGCG
xCas9(sp)	NGN
		saCas9	NNGRRT
saCas9-KKH	NNNRRT
		spCas9-MQKSER	NGCG
spCas9-MQKSER	NGCN
		spCas9-LRKIQK	NGTN
spCas9-LRVSQK	NGTN
		spCas9-LRVSQL	NGTN
spCas9-MQKFRAER	NGC
		Cpf1	5'(TTTV)
SpyMac	5'-NAA-3'

在一些实施方案中，PAM是NGC。在一些实施方案中，NGC PAM被Cas9变体识别。在一些实施方案中，NGC PAM变体包含一个或多个选自D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(统称为“MQKFRAER”)的氨基酸取代。

在一些实施方案中，PAM是NGT。在一些实施方案中，NGT PAM被Cas9变体识别。在一些实施方案中，NGT PAM变体是通过在一个或多个残基1335、1337、1135、1136、1218和/或1219处的靶向突变产生的。在一些实施方案中，NGT PAM变体是通过在一个或多个残基1219、1335、1337、1218处的靶向突变产生的。在一些实施方案中，NGT PAM变体是通过在一个或多个残基1135、1136、1218、1219和或1335处的靶向突变产生的。在一些实施方案中，NGT PAM变体选自下表8A和8B中提供的靶向突变组。

表8A：在残基1219、1335、1337、1218处的NGT PAM变体突变

变体	E1219V	R1335Q	T1337	G1218
					1	F	V	T
2	F	V	R
					3	F	V	Q
4	F	V	L
					5	F	V	T	R
6	F	V	R	R
					7	F	V	Q	R
8	F	V	L	R
					9	L	L	T
10	L	L	R
					11	L	L	Q
12	L	L	L
					13	F	I	T
14	F	I	R
					15	F	I	Q
16	F	I	L
					17	F	G	C
18	H	L	N
					19	F	G	C	A
20	H	L	N	V
					21	L	A	W
22	L	A	F
					23	L	A	Y
24	I	A	W
					25	I	A	F
26	I	A	Y

表8B：在残基1135、1136、1218、1219和1335处的NGT PAM变体突变

在一些实施方案中，NGT PAM变体选自表8A和表8B中的变体5、7、28、31或36。在一些实施方案中，变体具有改进的NGT PAM识别。

在一些实施方案中，NGT PAM变体在残基1219、1335、1337和/或1218处具有突变。在一些实施方案中，NGT PAM变体是从下表9中提供的变体中选择的具有改进识别的突变。

表9：在残基1219、1335、1337和1218处的NGT PAM变体突变

在一些实施方案中，NGT PAM选自下表10中提供的变体。

表10.NGT PAM变体

在一些实施方案中，NGTN变体是变体1。在一些实施方案中，NGTN变体是变体2。在一些实施方案中，NGTN变体是变体3。在一些实施方案中，NGTN变体是变体4。在一些实施方案中，NGTN变体是变体5。在一些实施方案中，NGTN变体是变体6。

在一些实施方案中，Cas9结构域是来自酿脓链球菌的Cas9结构域(SpCas9)。在一些实施方案中，SpCas9结构域是核酸酶活性SpCas9、无核酸酶活性的SpCas9(SpCas9d)或SpCas9切口酶(SpCas9n)。在一些实施方案中，SpCas9包含D9X突变，或本文提供的任何氨基酸序列中的相应突变，其中X是除D之外的任何氨基酸。在一些实施方案中，SpCas9包含D9A突变，或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中，SpCas9结构域、SpCas9d结构域或SpCas9n结构域可以结合具有非规范PAM的核酸序列。在一些实施方案中，SpCas9结构域、SpCas9d结构域或SpCas9n结构域可以结合具有NGG、NGA或NGCG PAM序列的核酸序列。

在一些实施方案中，SpCas9结构域包含D1135X、R1335X和T1337X突变或本文提供的任何氨基酸序列中的相应突变中的一个或多个，其中X是任何氨基酸。在一些实施方案中，SpCas9结构域包含D1135E、R1335Q和T1337R突变或本文提供的任何氨基酸序列中的相应突变中的一个或多个。在一些实施方案中，SpCas9结构域包含D1135E、R1335Q和T1337R突变或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中，SpCas9结构域包含D1135X、R1335X和T1337X突变或本文提供的任何氨基酸序列中的相应突变中的一个或多个，其中X是任何氨基酸。在一些实施方案中，SpCas9结构域包含D1135V、R1335Q和T1337R突变或本文提供的任何氨基酸序列中的相应突变中的一个或多个。在一些实施方案中，SpCas9结构域包含D1135V、R1335Q和T1337R突变或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中，SpCas9结构域包含D1135X、G1218X、R1335X和T1337X突变或本文提供的任何氨基酸序列中的相应突变中的一个或多个，其中X是任何氨基酸。在一些实施方案中，SpCas9结构域包含D1135V、G1218R、R1335Q和T1337R突变或本文提供的任何氨基酸序列中的相应突变中的一个或多个。在一些实施方案中，SpCas9结构域包含D1135V、G1218R、R1335Q和T1337R突变或本文提供的任何氨基酸序列中的相应突变。

在一些实施例中，可将由本文公开的碱基编辑器的CRISPR蛋白衍生结构域识别的PAM提供到细胞的编码碱基编辑器的插入物(例如，AAV插入物)的单独寡核苷酸上。在这样的实施方案中，提供单独寡核苷酸上的PAM可以允许切割否则将不能被切割的靶序列，因为在与靶序列相同的多核苷酸上不存在相邻的PAM。

在一个实施方案中，酿脓链球菌Cas9(SpCas9)可以用作用于基因组工程化的CRISPR核酸内切酶。然而，也可以使用其他的。在一些实施方案中，可以使用不同的核酸内切酶来靶向某些基因组靶标。在一些实施方案中，可以使用具有非NGG PAM序列的合成SpCas9衍生变体。此外，已经鉴定了来自不同物种的另外的Cas9直向同源物，并且这些“非SpCas9”可以结合也可以用于本公开的多种PAM序列。例如，相对较大的SpCas9(大约4kb编码序列)可以导致携带不能在细胞中有效表达的SpCas9 cDNA的质粒。相反，金黄色葡萄球菌Cas9(SaCas9)的编码序列比SpCas9短大约1千碱基，可能使其能够在细胞中有效表达。与SpCas9类似，SaCas9核酸内切酶能够体外修饰哺乳动物细胞中的靶基因和体内修饰小鼠中的靶基因。在一些实施方案中，Cas蛋白可以靶向不同的PAM序列。在一些实施方案中，靶基因可以与例如Cas9PAM、5'-NGG相邻。在其他实施方案中，其他Cas9直向同源物可以具有不同的PAM需求。例如，其他PAM，诸如嗜热链球菌(CRISPR1的5'-NNAGAA和CRISPR3的5'-NGGNG)和脑膜炎奈瑟菌(5'-NNNNGATT)的PAM，也可以与靶基因相邻。

在一些实施方案中，对于酿脓链球菌系统，靶基因序列可以在5'-NGG PAM之前(即，5'至)，并且20-nt的向导RNA序列可以与相反链碱基配对以介导与PAM相邻的Cas9切割。在一些实施方案中，相邻的切口可以是PAM上游的3个或约3个碱基对。在一些实施方案中，相邻的切口可以是PAM上游的10个或约10个碱基对。在一些实施方案中，相邻的切口可以是PAM上游的0-20个或约0-20个碱基对。例如，相邻切口可以在PAM上游1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个或30个碱基对旁。相邻的切口也可以在PAM下游1到30个碱基对。能够结合PAM序列的示例性SpCas9蛋白的序列如下。

在一些实施方案中，工程化SpCas9变体能够识别侧翼为3'H(非G PAM)的原型间隔区相邻基序(PAM)序列(参见表2A-2B和3)。在一些实施方案中，SpCas9变体识别NRNH PAM(其中R是A或G并且H是A、C或T)。在一些实施方案中，非G PAM是NRRH、NRTH或NRCH(参见例如Miller,S.M.等人Continuous evolution of SpCas9 variants compatible with non-GPAMs,Nat.Biotechnol.(2020)，其内容以引用方式整体并入本文)。

在一些实施方案中，Cas9结构域是重组Cas9结构域。在一些实施方案中，重组Cas9结构域是SpyMacCas9结构域。在一些实施方案中，SpyMacCas9结构域是核酸酶活性SpyMacCas9、无核酸酶活性的SpyMacCas9(SpyMacCas9d)或SpyMacCas9切口酶(SpyMacCas9n)。在一些实施方案中，SaCas9结构域、SaCas9d结构域或SaCas9n结构域可以结合具有非规范PAM的核酸序列。在一些实施方案中，SpyMacCas9结构域、SpCas9d结构域或SpCas9n结构域可以结合具有NAA PAM序列的核酸序列。

猕猴链球菌(Streptococcus macacae)中具有天然5'-NAAN-3'PAM特异性的SpyCas9的示例性Cas9 A同源物的序列是本领域已知的并且由Jakimo等人描述(www.biorxiv.org/content/biorxiv/early/2018/09/27/429654.full.pdf)，并且提供为SEQ ID NO:162。

在一些实施方案中，变体Cas9蛋白具有H840A、P475A、W476A、N477A、D1125A、W1126A和D1218A突变，使得多肽切割靶DNA或RNA的能力减小。此类Cas9蛋白切割靶DNA(例如，单链靶DNA)的能力减小，但保留了结合靶DNA(例如，单链靶DNA)的能力。作为另一个非限制性实例，在一些实施方案中，变体Cas9蛋白具有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A和D1218A突变，使得多肽切割靶DNA的能力减小。此类Cas9蛋白切割靶DNA(例如，单链靶DNA)的能力减小，但保留了结合靶DNA(例如，单链靶DNA)的能力。在一些实施方案中，当变体Cas9蛋白具有W476A和W1126A突变或当变体Cas9蛋白具有P475A、W476A、N477A、D1125A、W1126A和D1218A突变时，变体Cas9蛋白不能有效地结合PAM序列。因此，在一些此类情况下，当此类变体Cas9蛋白用于结合的方法时，所述方法不需要PAM序列。换言之，在一些实施方案中，当此类变体Cas9蛋白用于结合的方法时，所述方法可以包括向导RNA，但是此方法可以在不存在PAM序列的情况下进行(并且因此由向导RNA的靶向片段提供结合的特异性)。可以使其它残基突变以实现以上作用(即，使一个或另一个核酸酶部分失活)。作为非限制性实例，残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987可以被改变(即，取代)。同样，除了丙氨酸取代以外的突变也是合适的。

在一些实施方案中，碱基编辑器的CRISPR蛋白衍生结构域可以包含具有规范PAM序列(NGG)的Cas9蛋白的全部或部分。在其他实施方案中，碱基编辑器的Cas9衍生结构域可以采用非规范PAM序列。此类序列已在本领域中描述并且对本领域技术人员来说是显而易见的。例如，结合非规范PAM序列的Cas9结构域已描述于Kleintiver,B.P.等人,“Engineered CRISPR-Cas9 nucleases with altered PAM specificities”Nature 523,481-485(2015)；和Kleintiver,B.P.等人,“Broadening the targeting range ofStaphylococcus aureus CRISPR-Cas9 by modifying PAM recognition”NatureBiotechnology33,1293-1298(2015)；R.T.Walton等人“Unconstrained genome targetingwith near-PAMless engineered CRISPR-Cas9 variants”Science 10.1126/science.aba8853(2020)；Hu等人“Evolved Cas9 variants with broad PAMcompatibility and high DNA specificity,”Nature,2018 Apr.5,556(7699),57-63；Miller等人,“Continuous evolution of SpCas9 variants compatible with non-GPAMs”Nat.Biotechnol.,2020 Apr；38(4):471-481；每一个的全部内容以引用方式并入本文。

包含NapDNAbp和胞苷脱氨酶和/或腺苷脱氨酶的融合蛋白

本公开的一些方面提供了包含Cas9结构域或其他核酸可编程DNA结合蛋白(例如，Cas12)和一个或多个胞苷脱氨酶或腺苷脱氨酶结构域的融合蛋白。应当理解，Cas9结构域可以是本文提供的任何Cas9结构域或Cas9蛋白(例如，dCas9或nCas9)。在一些实施方案中，本文提供的任何Cas9结构域或Cas9蛋白(例如，dCas9或nCas9)可以与本文提供的任何胞苷脱氨酶和/或腺苷脱氨酶融合。本文公开的碱基编辑器的结构域可以以任何顺序排列。

在一些实施方案中，融合蛋白包含以下结构域A-C、A-D或A-E：

NH₂-[A-B-C]-COOH；

NH₂-[A-B-C-D]-COOH；或

NH₂-[A-B-C-D-E]-COOH；

其中A和C或A、C和E各自包含以下一项或多项：

腺苷脱氨酶结构域或其活性片段，

胞苷脱氨酶结构域或其活性片段，并且

其中B或B和D各自包含一个或多个具有核酸序列特异性结合活性的结构域。

在一些实施方案中，融合蛋白包含以下结构：

NH₂-[A_n-B_o-C_n]-COOH；

NH₂-[A_n-B_o-C_n-D_o]-COOH；或

NH₂-[A_n-B_o-C_p-D_o-E_q]-COOH；

其中A和C或A、C和E各自包含以下一项或多项：

腺苷脱氨酶结构域或其活性片段，

胞苷脱氨酶结构域或其活性片段，并且

其中n是整数：1、2、3、4或5，其中p是整数：0、1、2、3、4或5；其中q是整数0、1、2、3、4，或5；并且其中B或B和D各自包含具有核酸序列特异性结合活性的结构域；其中o是整数：1、2、3、4或5。

例如但不限于，在一些实施方案中，融合蛋白包含以下结构：

NH2-[腺苷脱氨酶]-[Cas9结构域]-COOH；

NH2-[Cas9结构域]-[腺苷脱氨酶]-COOH；

NH2-[胞苷脱氨酶]-[Cas9结构域]-COOH；

NH2-[Cas9结构域]-[胞苷脱氨酶]-COOH；

NH2-[胞苷脱氨酶]-[Cas9结构域]-[腺苷脱氨酶]-COOH；

NH2-[腺苷脱氨酶]-[Cas9结构域]-[胞苷脱氨酶]-COOH；

NH2-[腺苷脱氨酶]-[胞苷脱氨酶]-[Cas9结构域]-COOH；

NH2-[胞苷脱氨酶]-[腺苷脱氨酶]-[Cas9结构域]-COOH；

NH2-[Cas9结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-COOH；或

NH2-[Cas9结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-COOH。

在一些实施方案中，本文提供的任何Cas12结构域或Cas12蛋白可以与本文提供的任何胞苷或腺苷脱氨酶融合。例如但不限于，在一些实施方案中，融合蛋白包含以下结构：

NH2-[腺苷脱氨酶]-[Cas12结构域]-COOH；

NH2-[Cas12结构域]-[腺苷脱氨酶]-COOH；

NH2-[胞苷脱氨酶]-[Cas12结构域]-COOH；

NH2-[Cas12结构域]-[胞苷脱氨酶]-COOH；

NH2-[胞苷脱氨酶]-[Cas12结构域]-[腺苷脱氨酶]-COOH；

NH2-[腺苷脱氨酶]-[Cas12结构域]-[胞苷脱氨酶]-COOH；

NH2-[腺苷脱氨酶]-[胞苷脱氨酶]-[Cas12结构域]-COOH；

NH2-[胞苷脱氨酶]-[腺苷脱氨酶]-[Cas12结构域]-COOH；

NH2-[Cas12结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-COOH；或

NH2-[Cas12结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-COOH。

在一些实施方案中，腺苷脱氨酶是TadA*8。示例性融合蛋白结构包括以下：

NH2-[TadA*8]-[Cas9结构域]-COOH；

NH2-[Cas9结构域]-[TadA*8]-COOH；

NH2-[TadA*8]-[Cas12结构域]-COOH；或

NH2-[Cas12结构域]-[TadA*8]-COOH。

在一些实施方案中，融合蛋白的腺苷脱氨酶包括TadA*8和胞苷脱氨酶和/或腺苷脱氨酶。在一些实施方案中，TadA*8是TadA*8.1,TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23或TadA*8.24。

示例性融合蛋白结构包括以下：

NH2-[TadA*8]-[Cas9/Cas12]-[腺苷脱氨酶]-COOH；

NH2-[腺苷脱氨酶]-[Cas9/Cas12]-[TadA*8]-COOH；

NH2-[TadA*8]-[Cas9/Cas12]-[胞苷脱氨酶]-COOH；或

NH2-[胞苷脱氨酶]-[Cas9/Cas12]-[TadA*8]-COOH。

在一些实施方案中，融合蛋白的腺苷脱氨酶包括TadA*9和胞苷脱氨酶和/或腺苷脱氨酶。示例性融合蛋白结构包括以下：

NH2-[TadA*9]-[Cas9/Cas12]-[腺苷脱氨酶]-COOH；

NH2-[腺苷脱氨酶]-[Cas9/Cas12]-[TadA*9]-COOH；

NH2-[TadA*9]-[Cas9/Cas12]-[胞苷脱氨酶]-COOH；或

NH2-[胞苷脱氨酶]-[Cas9/Cas12]-[TadA*9]-COOH。

在一些实施方案中，融合蛋白可以包含侧翼为Cas9或Cas12多肽的N端片段和C端片段的脱氨酶。在一些实施方案中，融合蛋白可以包含侧翼为Cas9或Cas12多肽的N端片段和C端片段的胞苷脱氨酶。在一些实施方案中，融合蛋白可以包含侧翼为Cas9或Cas 12多肽的N端片段和C端片段的腺苷脱氨酶。

在一些实施方案中，包含胞苷脱氨酶或腺苷脱氨酶和napDNAbp(例如，Cas9或Cas12结构域)的融合蛋白不包含接头序列。在一些实施方案中，接头存在于胞苷或腺苷脱氨酶与napDNAbp之间。在一些实施方案中，上方通用架构中使用的“-”表示存在任选的接头。在一些实施方案中，胞苷或腺苷脱氨酶和napDNAbp通过本文提供的任何接头融合。例如，在一些实施方案中，胞苷或腺苷脱氨酶和napDNAbp通过本文提供的任何接头融合。

应当理解，本公开的融合蛋白可以包含一个或多个另外的特征。例如，在一些实施方案中，融合蛋白可以包含抑制剂、细胞质定位序列、输出序列(诸如核输出序列)或其他定位序列，以及可用于溶解、纯化或检测融合蛋白的序列标签。本文提供的合适的蛋白质标签包括但不限于生物素羧化酶载剂蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血凝素(HA)标签、多组氨酸标签(也称为组氨酸标签或His标签)、麦芽糖结合蛋白(MBP)标签、nus标签、谷胱甘肽-S-转移酶(GST)标签、绿色荧光蛋白(GFP)标签、硫氧还蛋白标签、S标签、Softag(例如，Softag 1、Softag 3)、链球菌标签、生物素连接酶标签、FlAsH标签、V5标签和SBP标签。另外的合适的序列对于本领域技术人员将是显而易见的。在一些实施方案中，融合蛋白包含一个或多个His标签。

示例性但非限制性融合蛋白描述于国际PCT申请号PCT/2017/044935、PCT/US2019/044935和PCT/US2020/016288，其中的每一个都以引用方式整体并入本文。

包含核定位序列(NLS)的融合蛋白

在一些实施方案中，本文提供的融合蛋白还包含一个或多个(例如2个、3个、4个、5个)核靶向序列，例如核定位序列(NLS)。在一个实施方案中，使用二分NLS。在一些实施方案中，NLS包含有助于将蛋白质(包含NLS)输入细胞核(例如，通过核转运)的氨基酸序列。在一些实施方案中，NLS与融合蛋白的N端或C端融合。在一些实施方案中，NLS融合到nCas9结构域或dCas9结构域的C端或N端。在一些实施方案中，NLS融合到Cas12结构域的N端或C端。在一些实施方案中，NLS融合到胞苷或腺苷脱氨酶的N端或C端。在一些实施方案中，NLS通过一个或多个接头与融合蛋白融合。在一些实施方案中，NLS在没有接头的情况下与融合蛋白融合。在一些实施方案中，NLS包含本文提供或引用的任何一种NLS序列的氨基酸序列。另外的核定位序列在本领域中是已知的并且对于技术人员来说是显而易见的。例如，NLS序列描述于Plank等人,PCT/EP2000/011690，其内容以引用方式并入本文，因为其公开了示例性核定位序列。在一些实施方案中，NLS包含氨基酸序列PKKKRKVEGADKRTADGSEFESPKKKRKV(SEQ IDNO:253)、KRTADGSEFESPKKKRKV(SEQ ID NO:83)、KRPAATKKAGQAKKKK(SEQ ID NO:84)、KKTELQTTNAENKTKKL(SEQ ID NO:85)、KRGINDRNFWRGENGRKTR(SEQ ID NO:86)、RKSGKIAAIVVKRPRKPKKKRKV(SEQ ID NO:254)，或MDSLLMNRRKFLYQFKNVRWAKGRRETYLC(SEQID NO:89)。

在一些实施方案中，包含胞苷或腺苷脱氨酶、Cas9结构域和NLS的融合蛋白不包含接头序列。在一些实施方案中，存在在一个或多个结构域或蛋白质(例如，胞苷或腺苷脱氨酶、Cas9结构域或NLS)之间的接头序列。在一些实施方案中，接头存在于胞苷脱氨酶和腺苷脱氨酶与napDNAbp之间。在一些实施方案中，下方通用架构中使用的“-”表示存在任选的接头。在一些实施方案中，胞苷脱氨酶和腺苷脱氨酶和napDNAbp通过本文提供的任何接头融合。例如，在一些实施方案中，胞苷脱氨酶和腺苷脱氨酶和napDNAbp通过本文提供的任何接头融合。

在一些实施方案中，具有胞苷或腺苷脱氨酶和napDNAbp(例如，Cas9或Cas12)的示例性napDNAbp(例如，Cas9或Cas12)融合蛋白结构域的一般结构包含以下结构中的任何一种，其中NLS是核定位序列(例如，本文提供的任何NLS)，NH₂是融合蛋白的N端，COOH是融合蛋白的C端：

NH₂-NLS-[胞苷脱氨酶]-[napDNAbp结构域]-COOH；

NH₂-NLS[napDNAbp结构域]-[胞苷脱氨酶]-COOH；

NH₂-[胞苷脱氨酶]-[napDNAbp结构域]-NLS-COOH；

NH₂-[napDNAbp结构域]-[胞苷脱氨酶]-NLS-COOH；

NH₂-NLS-[腺苷脱氨酶]-[napDNAbp结构域]-COOH；

NH₂-NLS[napDNAbp结构域]-[腺苷脱氨酶]-COOH；

NH₂-[腺苷脱氨酶]-[napDNAbp结构域]-NLS-COOH；

NH₂-[napDNAbp结构域]-[腺苷脱氨酶]-NLS-COOH；

NH₂-NLS-[胞苷脱氨酶]-[napDNAbp结构域]-[腺苷脱氨酶]-COOH；

NH₂-NLS-[腺苷脱氨酶]-[napDNAbp结构域]-[胞苷脱氨酶]-COOH；

NH₂-NLS-[腺苷脱氨酶][胞苷脱氨酶]-[napDNAbp结构域]-COOH；

NH₂-NLS-[胞苷脱氨酶]-[腺苷脱氨酶]-[napDNAbp结构域]-COOH；

NH₂-NLS-[napDNAbp结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-COOH；

NH₂-NLS-[napDNAbp结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-COOH；

NH₂-[胞苷脱氨酶]-[napDNAbp结构域]-[腺苷脱氨酶]-NLS-COOH；

NH₂-[腺苷脱氨酶]-[napDNAbp结构域]-[胞苷脱氨酶]-NLS-COOH；

NH₂-[腺苷脱氨酶][胞苷脱氨酶]-[napDNAbp结构域]-NLS-COOH；

NH₂-[胞苷脱氨酶]-[腺苷脱氨酶]-[napDNAbp结构域]-NLS-COOH；

NH₂-[napDNAbp结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-NLS-COOH；或

NH₂-[napDNAbp结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-NLS-COOH。在一些实施方案中，NLS存在于接头或侧接接头的NLS中，例如本文所述。二分NLS包含两个碱性氨基酸簇，它们由相对较短的间隔区序列分隔(因此二分-2个部分，而单组分NLS不是)。核质蛋白的NLS，KR[PAATKKAGQA]KKKK(SEQ ID NO:84)，是普遍存在的二分信号的原型：两个碱性氨基酸簇，由约10个氨基酸的间隔区分隔。示例性二分NLS的序列如下：

PKKKRKVEGADKRTADGSEFESPKKKRKV(SEQ ID NO:253)。

可以使用编码包含一个或多个核定位序列(NLS)的CRISPR酶的载体。例如，可以使用或使用约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个NLS。CRISPR酶可以在氨基端处或附近包含NLS，在羧基端处或附近包含约或多于约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个NLS，或其任何组合(例如，在氨基端的一个或多个NLS和在羧基端的一个或多个NLS)。当存在多于一个NLS时，每个NLS可以独立于其他NLS选择，使得单个NLS可以存在于多于一个拷贝中和/或与一个或多个其他NLS组合存在于一个或多个拷贝中。

所述方法中使用的CRISPR酶可以包含约6个NLS。当离NLS最近的氨基酸在距N端或C端的多肽链约50个氨基酸范围内(例如，在1个、2个、3个、4个、5个、10个、15个、20个、25个、30个、40个或50个氨基酸范围内)时，NLS被认为靠近N端或C端。

另外的结构域

本文所述的碱基编辑器可以包括有助于促进多核苷酸的核碱基的核碱基编辑、修饰或改变的任何结构域。在一些实施方案中，碱基编辑器包含多核苷酸可编程核苷酸结合结构域(例如，Cas9)、核碱基编辑结构域(例如，脱氨酶结构域)和一个或多个另外的结构域。在一些实施方案中，另外的结构域可以促进碱基编辑器的酶或催化功能、碱基编辑器的结合功能，或者是可能干扰所需碱基编辑结果的细胞机制的抑制剂(例如，酶)。在一些实施方案中，碱基编辑器可以包含核酸酶、切口酶、重组酶、脱氨酶、甲基转移酶、甲基化酶、乙酰化酶、乙酰转移酶、转录激活因子或转录抑制因子结构域。

在一些实施方案中，碱基编辑器可以包含尿嘧啶糖基化酶抑制剂(UGI)结构域。在一些实施方案中，对存在U:G异源双链DNA的细胞DNA修复反应可以导致细胞中核碱基编辑效率的降低。在这样的实施方案中，尿嘧啶DNA糖基化酶(UDG)可以催化从细胞中的DNA中去除U，这可以启动碱基切除修复(BER)，主要导致U:G对逆转为C:G对。在这样的实施方案中，可以在包含一个或多个结构域的碱基编辑器中抑制BER，所述结构域结合单链、阻断编辑的碱基、抑制UGI、抑制BER、保护编辑的碱基和/或促进未编辑链的修复。因此，本公开考虑了包含UGI结构域的碱基编辑器融合蛋白。

在一些实施方案中，碱基编辑器包含作为结构域的全部或部分双链断裂(DSB)结合蛋白。例如，DSB结合蛋白可以包括噬菌体Mu的Gam蛋白，所述Gam蛋白可以结合到DSB的末端并且可以保护它们免于降解。参见Komor,A.C.,等人,See Komor,A.C.,et al.,“Improved base excision repair inhibition and bacteriophage Mu Gam proteinyields C:G-to-T:A base editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)，其全部内容以引用方式并入本文。

此外，在一些实施方案中，Gam蛋白可以融合到碱基编辑器的N端。在一些实施方案中，Gam蛋白可以融合到碱基编辑器的C端。噬菌体Mu的Gam蛋白可以结合到双链断裂(DSB)的末端并保护它们免于降解。在一些实施方案中，使用Gam结合DSB的自由端可以减少碱基编辑过程中的插入缺失形成。在一些实施方案中，174个残基的Gam蛋白融合到碱基编辑器的N端。参见Komor,A.C.,等人,“Improved baseexcision repair inhibition andbacteriophage Mu Gam proteinyields C:G-to-T:A base editors with higherefficiency and product purity”Science Advances 3:eaao4774(2017)。在一些实施方案中，一个或多个突变可以改变碱基编辑器结构域相对于野生型结构域的长度。例如，至少一个结构域中的至少一个氨基酸的缺失可以减少碱基编辑器的长度。在另一种情况下，一个或多个突变不会改变结构域相对于野生型结构域的长度。例如，任何结构域中的取代都不会改变碱基编辑器的长度。

此类碱基编辑器的非限制性示例(其中所有结构域的长度与野生型结构域相同)可以包括：

NH2-[核碱基编辑结构域]-接头1-[APOBEC1]-接头2-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-接头1-[APOBEC1]-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-[APOBEC1]-接头2-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-[APOBEC1]-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-接头1-[APOBEC1]-接头2-[核碱基编辑结构域]-[UGI]-COOH；

NH2-[核碱基编辑结构域]-接头1-[APOBEC1]-[核碱基编辑结构域]-[UGI]-COOH；

NH2-[核碱基编辑结构域]-[APOBEC1]-接头2-[核碱基编辑结构域]-[UGI]-COOH；

NH2-[核碱基编辑结构域]-[APOBEC1]-[核碱基编辑结构域]-[UGI]-COOH；

NH2-[UGI]-[核碱基编辑结构域]-接头1-[APOBEC1]-接头2-[核碱基编辑结构域]-COOH；

NH2-[UGI]-[核碱基编辑结构域]-接头1-[APOBEC1]-[核碱基编辑结构域]-COOH；

NH2-[UGI]-[核碱基编辑结构域]-[APOBEC1]-接头2-[核碱基编辑结构域]-COOH；或

NH2-[UGI]-[核碱基编辑结构域]-[APOBEC1]-[核碱基编辑结构域]-COOH。

碱基编辑器系统

本文提供了用于使用碱基编辑器系统编辑核碱基的系统、组合物和方法。在一些实施方案中，碱基编辑器系统包含(1)碱基编辑器(BE)，其包含多核苷酸可编程核苷酸结合结构域和用于编辑核碱基的核碱基编辑结构域(例如脱氨酶结构域)；和(2)与多核苷酸可编程核苷酸结合结构域结合的向导多核苷酸(例如，向导RNA)。在一些实施方案中，碱基编辑器系统是胞苷碱基编辑器(CBE)或腺苷碱基编辑器(ABE)。在一些实施方案中，多核苷酸可编程核苷酸结合结构域是多核苷酸可编程DNA或RNA结合结构域。在一些实施方案中，核碱基编辑结构域是脱氨酶结构域。在一些实施方案中，脱氨酶结构域可以是胞苷脱氨酶或胞嘧啶脱氨酶。在一些实施方案中，脱氨酶结构域可以是腺嘌呤脱氨酶或腺苷脱氨酶。在一些实施方案中，腺苷碱基编辑器可以使DNA中的腺嘌呤脱氨基。在一些实施方案中，碱基编辑器能够使DNA中的胞苷脱氨基。

在一些实施方案中，如本文提供的碱基编辑系统提供了基因组编辑的新方法，所述方法使用含有催化缺陷的酿脓链球菌Cas9、脱氨酶(例如，胞苷或腺苷脱氨酶)和碱基切除修复抑制剂的融合蛋白诱导DNA中可编程的单核苷酸(C→T或A→G)变化而不会产生双链DNA断裂，不需要供体DNA模板，并且不会诱导过多的随机插入和缺失。

核碱基编辑蛋白的细节描述于国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)，其中的每一个都以引用方式整体并入本文。另外参见Komor,A.C.等人,“Programmable editing of a target base in genomic DNAwithout double-stranded DNA cleavage”Nature 533,420-424(2016)；Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017)；和Komor,A.C.等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)，其全部内容以引用方式并入本文。

本文提供的碱基编辑器系统的使用包括以下步骤：(a)使受试者的多核苷酸(例如双链或单链DNA或RNA)的靶核苷酸序列与包含核碱基编辑器(例如，腺苷碱基编辑器或胞苷碱基编辑器)和向导多核酸(例如gRNA)的碱基编辑器系统接触，其中所述靶核苷酸序列包含靶向核碱基对；(b)诱导所述靶区域的链分离；(c)将靶区域单链中的所述靶核碱基对的第一核碱基转化为第二核碱基；和(d)切割不超过一条所述靶区域的链，其中与第一核碱基互补的第三核碱基被与第二核碱基互补的第四核碱基替换。应当理解，在一些实施方案中，步骤(b)被省略。在一些实施方案中，所述靶向核碱基对是一个或多个基因中的多个核碱基对。在一些实施方案中，本文提供的碱基编辑器系统能够对一个或多个基因中的多个核碱基对进行多重编辑。在一些实施方案中，多个核碱基对位于同一基因中。在一些实施方案中，多个核碱基对位于一个或多个基因中，其中至少一个基因位于不同的基因座中。

在一些实施方案中，切口单链(切口链)与向导核酸杂交。在一些实施方案中，切口单链与包含第一核碱基的链相反。在一些实施方案中，碱基编辑器包含Cas9结构域。在一些实施方案中，第一碱基是腺嘌呤，并且第二碱基不是G、C、A或T。在一些实施方案中，第二碱基是肌苷。

在一些实施方案中，可以利用单向导多核苷酸使脱氨酶靶向靶核酸序列。在一些实施方案中，可以利用一对向导多核苷酸使不同的脱氨酶靶向靶核酸序列。

碱基编辑器系统的核碱基组分和多核苷酸可编程核苷酸结合组分可以彼此共价或非共价缔合。例如，在一些实施方案中，脱氨酶结构域可以通过多核苷酸可编程核苷酸结合结构域靶向靶核苷酸序列。在一些实施方案中，多核苷酸可编程核苷酸结合结构域可以与脱氨酶结构域融合或连接。在一些实施方案中，多核苷酸可编程核苷酸结合结构域可以通过与脱氨酶结构域非共价相互作用或缔合将脱氨酶结构域靶向靶核苷酸序列。例如，在一些实施方案中，核碱基编辑组分，例如脱氨酶组分可以包含另外的异源部分或结构域，所述异源部分或结构域能够与是多核苷酸可编程核苷酸结合结构域的一部分的另外的异源部分或结构域相互作用、缔合或能够与其形成复合物。在一些实施方案中，另外的异源部分可能能够与多肽结合、相互作用、缔合或与多肽形成复合物。在一些实施方案中，另外的异源部分可能能够与多核苷酸结合、相互作用、缔合或与多肽形成复合物。在一些实施方案中，另外的异源部分可能能够结合指导多核苷酸。在一些实施方案中，另外的异源部分可能能够结合指导多肽接头。在一些实施方案中，另外的异源部分可能能够结合指导多核苷酸接头。另外的异源部分可以是蛋白质结构域。在一些实施方案中，另外的异源部分可以是K同源性(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、不育α基序、端粒酶Ku结合基序和Ku蛋白、端粒酶Sm7结合基序和Sm7蛋白，或RNA识别基序。

碱基编辑器系统还可以包括向导多核苷酸组分。应当理解，碱基编辑器系统的组分可以通过共价键、非共价相互作用或其缔合和相互作用的任何组合相互缔合。在一些实施方案中，脱氨酶结构域可以通过向导多核苷酸靶向靶核苷酸序列。例如，在一些实施方案中，碱基编辑器系统的核碱基编辑组分，例如脱氨酶组分，可以包含能够与向导多核苷酸的部分或片段(例如，多核苷酸基序)相互作用、缔合或能够与向导多核苷酸的部分或片段形成复合物的另外的异源部分或结构域(例如，多核苷酸结合结构域诸如RNA或DNA结合蛋白)。在一些实施方案中，另外的异源部分或结构域(例如，多核苷酸结合结构域，诸如RNA或DNA结合蛋白)可以与脱氨酶结构域融合或连接。在一些实施方案中，另外的异源部分可能能够与多肽结合、相互作用、缔合或与多肽形成复合物。在一些实施方案中，另外的异源部分可能能够与多核苷酸结合、相互作用、缔合或与多肽形成复合物。在一些实施方案中，另外的异源部分可能能够结合指导多核苷酸。在一些实施方案中，另外的异源部分可能能够结合指导多肽接头。在一些实施方案中，另外的异源部分可能能够结合指导多核苷酸接头。另外的异源部分可以是蛋白质结构域。在一些实施方案中，另外的异源部分可以是K同源性(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、不育α基序、端粒酶Ku结合基序和Ku蛋白、端粒酶Sm7结合基序和Sm7蛋白，或RNA识别基序。

在一些实施方案中，碱基编辑器系统还可以包含碱基切除修复(BER)组分的抑制剂。应当理解，碱基编辑器系统的组分可以通过共价键、非共价相互作用或其缔合和相互作用的任何组合相互缔合。BER组分的抑制剂可以包括碱基切除修复抑制剂。在一些实施方案中，碱基切除修复抑制剂可以是尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方案中，碱基切除修复抑制剂可以是肌苷碱基切除修复抑制剂。在一些实施方案中，碱基切除修复抑制剂可以通过多核苷酸可编程核苷酸结合结构域靶向靶核苷酸序列。在一些实施方案中，多核苷酸可编程核苷酸结合结构域可以与碱基切除修复抑制剂融合或连接。在一些实施方案中，多核苷酸可编程核苷酸结合结构域可以与脱氨酶结构域和碱基切除修复抑制剂融合或连接。在一些实施方案中，多核苷酸可编程核苷酸结合结构域可以通过与碱基切除修复抑制剂非共价相互作用或缔合使碱基切除修复抑制剂靶向靶核苷酸序列。例如，在一些实施方案中，碱基切除修复抑制剂组分可以包含另外的异源部分或结构域，所述异源部分或结构域能够与另外的异源部分或结构域相互作用、缔合或能够与另外的异源部分或结构域形成复合物，所述另外的异源部分或结构域是多核苷酸可编程核苷酸结合结构域的一部分。在一些实施方案中，碱基切除修复抑制剂可以通过向导多核苷酸靶向靶核苷酸序列。例如，在一些实施方案中，碱基切除修复抑制剂可以包含能够与向导多核苷酸的部分或片段(例如，多核苷酸基序)相互作用、缔合或能够与向导多核苷酸的部分或片段形成复合物的另外的异源部分或结构域(例如，多核苷酸结合结构域诸如RNA或DNA结合蛋白)。在一些实施方案中，向导多核苷酸的另外的异源部分或结构域(例如，多核苷酸结合结构域，诸如RNA或DNA结合蛋白)可以与碱基切除修复抑制剂融合或连接。在一些实施方案中，另外的异源部分可能能够与多核苷酸结合、相互作用、缔合或与多肽形成复合物。在一些实施方案中，另外的异源部分可能能够结合指导多核苷酸。在一些实施方案中，另外的异源部分可能能够结合指导多肽接头。在一些实施方案中，另外的异源部分可能能够结合指导多核苷酸接头。另外的异源部分可以是蛋白质结构域。在一些实施方案中，另外的异源部分可以是K同源性(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、不育α基序、端粒酶Ku结合基序和Ku蛋白、端粒酶Sm7结合基序和Sm7蛋白，或RNA识别基序。

在一些实施方案中，碱基编辑器抑制编辑链的碱基切除修复(BER)。在一些实施方案中，碱基编辑器保护或结合未编辑链。在一些实施方案中，碱基编辑器包括UGI活性。在一些实施方案中，碱基编辑器包含无催化活性的肌苷特异性核酸酶。在一些实施方案中，碱基编辑器包括切口酶活性。在一些实施方案中，碱基对的预期编辑在PAM位点的上游。在一些实施方案中，碱基对的预期编辑在PAM位点上游1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸处。在一些实施方案中，碱基对的预期编辑在PAM位点的下游。在一些实施方案中，碱基对的预期编辑在PAM位点下游1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸处。

在一些实施方案中，此方法不需要规范(例如，NGG)PAM位点。在一些实施方案中，核碱基编辑器包含接头或间隔区。在一些实施方案中，接头或间隔区的长度为1-25个氨基酸。在一些实施方案中，接头或间隔区的长度为5-20个氨基酸。在一些实施方案中，接头或间隔区的长度为10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个氨基酸。

在一些实施方案中，本文提供的碱基编辑融合蛋白需要定位在精确位置，例如，其中靶碱基被放置在限定区域(例如，“脱氨窗口”)内。在一些实施方案中，靶标可以在4个碱基区域内。在一些实施方案中，此限定靶区域可以在PAM上游大约15个碱基处。参见Komor,A.C.等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016)；Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017)；和Komor,A.C.等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)，其全部内容以引用方式并入本文。

在一些实施方案中，靶区域包含靶窗口，其中所述靶窗口包含靶核碱基对。在一些实施方案中，靶窗口包含1-10个核苷酸。在一些实施方案中，靶窗口长度为1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。在一些实施方案中，碱基对的预期编辑在靶窗口内。在一些实施方案中，靶窗口包括碱基对的预期编辑。在一些实施方案中，使用本文提供的任何碱基编辑器来执行此方法。在一些实施方案中，靶窗口是脱氨窗口。脱氨窗口可以是碱基编辑器作用于靶核苷酸并使靶核苷酸脱氨基的限定区域。在一些实施方案中，脱氨窗口在2个、3个、4个、5个、6个、7个、8个、9个或10个碱基区域内。在一些实施方案中，脱氨窗口在PAM上游5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个或25个碱基处。

本公开的碱基编辑器可以包含促进靶多核苷酸序列的编辑的任何结构域、特征或氨基酸序列。例如，在一些实施方案中，碱基编辑器包含核定位序列(NLS)。在一些实施方案中，碱基编辑器的NLS位于脱氨酶结构域和多核苷酸可编程核苷酸结合结构域之间。在一些实施方案中，碱基编辑器的NLS位于多核苷酸可编程核苷酸结合结构域的C端。

可以存在于如本文公开的碱基编辑器中的其他示例性特征是定位序列，诸如细胞质定位序列、输出序列(诸如核输出序列)，或其他定位序列，以及可用于溶解、纯化或检测融合蛋白的序列标签。本文提供的合适的蛋白质标签包括但不限于生物素羧化酶载剂蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血凝素(HA)标签、多组氨酸标签(也称为组氨酸标签或His标签)、麦芽糖结合蛋白(MBP)标签、nus标签、谷胱甘肽-S-转移酶(GST)标签、绿色荧光蛋白(GFP)标签、硫氧还蛋白标签、S标签、Softag(例如，Softag 1、Softag 3)、链球菌标签、生物素连接酶标签、FlAsH标签、V5标签和SBP标签.另外的合适的序列对于本领域技术人员将是显而易见的。在一些实施方案中，融合蛋白包含一个或多个His标签。

在一些实施方案中，非限制性示例性胞苷碱基编辑器(CBE)包括BE1(APOBEC1-XTEN-dCas9)、BE2(APOBEC1-XTEN-dCas9-UGI)、BE3(APOBEC1-XTEN-dCas9(A840H)-UGI)、BE3-Gam、saBE3、saBE4-Gam、BE4、BE4-Gam、saBE4或saB4E-Gam。BE4将APOBEC1-Cas9n(D10A)接头扩展到32个氨基酸，将Cas9n-UGI接头扩展到9个氨基酸，并且将UGI的第二个拷贝附加到构建体的C端，并将另一个9个氨基酸的接头附加到单个碱基编辑器构建体中。碱基编辑器saBE3和saBE4将酿脓链球菌Cas9n(D10A)替换为较小的金黄色葡萄球菌Cas9n(D10A)。BE3-Gam、saBE3-Gam、BE4-Gam和saBE4-Gam具有通过16个氨基酸的XTEN接头与BE3、saBE3、BE4和saBE4的N端融合的174个Gam蛋白残基。

在一些实施方案中，腺苷碱基编辑器(ABE)可以使DNA中的腺嘌呤脱氨基。在一些实施方案中，ABE是通过用天然的或工程化的大肠杆菌TadA、人类ADAR2、小鼠ADA或人类ADAT2替换BE3的APOBEC1组分而产生的。在一些实施方案中，ABE包含进化的TadA变体。在一些实施方案中，ABE是ABE1.2(TadA*-XTEN-nCas9-NLS)。在一些实施方案中，TadA*包含A106V和D108N突变。

在一些实施方案中，ABE是第二代ABE。在一些实施方案中，ABE是ABE2.1，其在TadA*(TadA*2.1)中包含另外的突变D147Y和E155V。在一些实施方案中，ABE是与无催化活性形式的人类烷基腺嘌呤DNA糖基化酶(具有E125Q突变的AAG)融合的ABE2.2、ABE2.1。在一些实施方案中，ABE是与无催化活性形式的大肠杆菌Endo V(因D35A突变而失活)融合的ABE2.3、ABE2.1。在一些实施方案中，ABE是ABE2.6，其具有长度为ABE2.1中的接头的两倍(32个氨基酸，(SGGS)₂(SEQ IDNO:255)-XTEN-(SGGS)₂(SEQ ID NO:255))的接头。在一些实施方案中，ABE是ABE2.7，其是与另外的野生型TadA单体相连的ABE2.1。在一些实施方案中，ABE是ABE2.8，其是与另外的TadA*2.1单体相连的ABE2.1。在一些实施方案中，ABE是ABE2.9，其是进化的TadA(TadA*2.1)与ABE2.1的N端的直接融合。在一些实施方案中，ABE是ABE2.10，其是野生型TadA与ABE2.1的N端的直接融合。在一些实施方案中，ABE是ABE2.11，其是在TadA*单体的N端具有失活E59A突变的ABE2.9。在一些实施方案中，ABE是ABE2.12，其是在内部TadA*单体中具有失活E59A突变的ABE2.9。

在一些实施方案中，ABE是第三代ABE。在一些实施方案中，ABE是ABE3.1，其是具有三个另外的TadA突变(L84F、H123Y和I156F)的ABE2.3。

在一些实施方案中，ABE是第四代ABE。在一些实施方案中，ABE是ABE4.3，其是具有另外的TadA突变A142N(TadA*4.3)的ABE3.1。

在一些实施方案中，ABE是第五代ABE。在一些实施方案中，ABE是ABE5.1，其是通过将来自存活克隆的一组共有突变(H36L、R51L、S146C和K157N)导入ABE3.1而产生的。在一些实施方案中，ABE是ABE5.3，其具有含有与内部进化的TadA*融合的野生型大肠杆菌TadA的异二聚体构建体。在一些实施方案中，ABE是ABE5.2、ABE5.4、ABE5.5、ABE5.6、ABE5.7、ABE5.8、ABE5.9、ABE5.10、ABE5.11、ABE5.12、ABE5.13或ABE5.14，如下表11所示。在一些实施方案中，ABE是第六代ABE。在一些实施方案中，ABE是ABE6.1、ABE6.2、ABE6.3、ABE6.4、ABE6.5或ABE6.6，如下表11所示。在一些实施方案中，ABE是第七代ABE。在一些实施方案中，ABE是ABE7.1、ABE7.2、ABE7.3、ABE7.4、ABE7.5、ABE7.6、ABE7.7、ABE7.8、ABE7.9或ABE7.10，如如下表11所示。

表11.ABE的基因型

在一些实施方案中，碱基编辑器是第八代ABE(ABE8)。在一些实施方案中，ABE8含有TadA*8变体。在一些实施方案中，ABE8具有含有TadA*8变体的单体构建体(“ABE8.x-m”)。在一些实施方案中，ABE8是具有单体构建体的ABE8.1-m，所述单体构建体含有具有Y147T突变的TadA*7.10(TadA*8.1)。在一些实施方案中，ABE8是具有单体构建体的ABE8.2-m，所述单体构建体含有具有Y147R突变的TadA*7.10(TadA*8.2)。在一些实施方案中，ABE8是具有单体构建体的ABE8.3-m，所述单体构建体含有具有Q154S突变的TadA*7.10(TadA*8.3)。在一些实施方案中，ABE8是具有单体构建体的ABE8.4-m，所述单体构建体含有具有Y123H突变的TadA*7.10(TadA*8.4)。在一些实施方案中，ABE8是具有单体构建体的ABE8.5-m，所述单体构建体含有具有V82S突变的TadA*7.10(TadA*8.5)。在一些实施方案中，ABE8是具有单体构建体的ABE8.6-m，所述单体构建体含有具有T166R突变的TadA*7.10(TadA*8.6)。在一些实施方案中，ABE8是具有单体构建体的ABE8.7-m，所述单体构建体含有具有Q154R突变的TadA*7.10(TadA*8.7)。在一些实施方案中，ABE8是具有单体构建体的ABE8.8-m，所述单体构建体含有具有Y147R、Q154R和Y123H突变的TadA*7.10(TadA*8.8)。在一些实施方案中，ABE8是具有单体构建体的ABE8.9-m，所述单体构建体含有具有Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.9)。在一些实施方案中，ABE8是具有单体构建体的ABE8.10-m，所述单体构建体含有具有Y147R、Q154R和T166R突变的TadA*7.10(TadA*8.10)。在一些实施方案中，ABE8是具有单体构建体的ABE8.11-m，所述单体构建体含有具有Y147T和Q154R突变的TadA*7.10(TadA*8.11)。在一些实施方案中，ABE8是具有单体构建体的ABE8.12-m，所述单体构建体含有具有Y147T和Q154S突变的TadA*7.10(TadA*8.12)。

在一些实施方案中，ABE8是具有单体构建体的ABE8.13-m，所述单体构建体含有具有Y123H(从H123Y复原的Y123H)、Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.13)。在一些实施方案中，ABE8是具有单体构建体的ABE8.14-m，所述单体构建体含有具有I76Y和V82S突变的TadA*7.10(TadA*8.14)。在一些实施方案中，ABE8是具有单体构建体的ABE8.15-m，所述单体构建体含有具有V82S和Y147R突变的TadA*7.10(TadA*8.15)。在一些实施方案中，ABE8是具有单体构建体的ABE8.16-m，所述单体构建体含有具有V82S、Y123H(从H123Y复原的Y123H)和Y147R突变的TadA*7.10(TadA*8.16)。在一些实施方案中，ABE8是具有单体构建体的ABE8.17-m，所述单体构建体含有具有V82S和Q154R突变的TadA*7.10(TadA*8.17)。在一些实施方案中，ABE8是具有单体构建体的ABE8.18-m，所述单体构建体含有具有V82S、Y123H(从H123Y复原的Y123H)和Q154R突变的TadA*7.10(TadA*8.18)。在一些实施方案中，ABE8是具有单体构建体的ABE8.19-m，所述单体构建体含有具有V82S、Y123H(从H123Y复原的Y123H)、Y147R和Q154R突变的TadA*7.10(TadA*8.19)。在一些实施方案中，ABE8是具有单体构建体的ABE8.20-m，所述单体构建体含有具有I76Y、V82S、Y123H(从H123Y复原的Y123H)、Y147R和Q154R突变的TadA*7.10(TadA*8.20)。在一些实施方案中，ABE8是具有单体构建体的ABE8.21-m，所述单体构建体含有具有Y147R和Q154S突变的TadA*7.10(TadA*8.21)。在一些实施方案中，ABE8是具有单体构建体的ABE8.22-m，所述单体构建体含有具有V82S和Q154S突变的TadA*7.10(TadA*8.22)。在一些实施方案中，ABE8是具有单体构建体的ABE8.23-m，所述单体构建体含有具有V82S和Y123H(从H123Y复原的Y123H)突变的TadA*7.10(TadA*8.23)。在一些实施方案中，ABE8是具有单体构建体的ABE8.24-m，所述单体构建体含有具有V82S、Y123H(从H123Y复原的Y123H)和Y147T突变的TadA*7.10(TadA*8.24)。

在一些实施方案中，ABE8具有含有与TadA*8变体融合的野生型大肠杆菌TadA的异二聚体构建体(“ABE8.x-d”)。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.1-d，所述异二聚体构建体含有与具有Y147T突变的TadA*7.10(TadA*8.1)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.2-d，所述异二聚体构建体含有与具有Y147R突变的TadA*7.10(TadA*8.2)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.3-d，所述异二聚体构建体含有与具有Q154S突变的TadA*7.10(TadA*8.3)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.4-d，所述异二聚体构建体含有与具有Y123H突变的TadA*7.10(TadA*8.4)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.5-d，所述异二聚体构建体含有与具有V82S突变的TadA*7.10(TadA*8.5)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.6-d，所述异二聚体构建体含有与具有T166R突变的TadA*7.10(TadA*8.6)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.7-d，所述异二聚体构建体含有与具有Q154R突变的TadA*7.10(TadA*8.7)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.8-d，所述异二聚体构建体含有与具有Y147R、Q154R和Y123H突变的TadA*7.10(TadA*8.8)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.9-d，所述异二聚体构建体含有与具有Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.9)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.10-d，所述异二聚体构建体含有与具有Y147R、Q154R和T166R突变的TadA*7.10(TadA*8.10)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.11-d，所述异二聚体构建体含有与具有Y147T和Q154R突变的TadA*7.10(TadA*8.11)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.12-d，所述异二聚体构建体含有与具有Y147T和Q154S突变的TadA*7.10(TadA*8.12)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.13-d，所述异二聚体构建体含有与具有Y123H(从H123Y复原的Y123H)、Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.13)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.14-d，所述异二聚体构建体含有与具有I76Y和V82S突变的TadA*7.10(TadA*8.14)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.15-d，所述异二聚体构建体含有与具有V82S和Y147R突变的TadA*7.10(TadA*8.15)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.16-d，所述异二聚体构建体含有与具有V82S、Y123H(从H123Y复原的Y123H)和Y147R突变的TadA*7.10(TadA*8.16)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.17-d，所述异二聚体构建体含有与具有V82S和Q154R突变的TadA*7.10(TadA*8.17)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.18-d，所述异二聚体构建体含有与具有V82S、Y123H(从H123Y复原的Y123H)和Q154R突变的TadA*7.10(TadA*8.18)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.19-d，所述异二聚体构建体含有与具有V82S、Y123H(从H123Y复原的Y123H)、Y147R和Q154R突变的TadA*7.10(TadA*8.19)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.20-d，所述异二聚体构建体含有与具有I76Y、V82S、Y123H(从H123Y复原的Y123H)、Y147R和Q154R突变的TadA*7.10(TadA*8.20)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.21-d，所述异二聚体构建体含有与具有Y147R和Q154S突变的TadA*7.10(TadA*8.21)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.22-d，所述异二聚体构建体含有与具有V82S和Q154S突变的TadA*7.10(TadA*8.22)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.23-d，所述异二聚体构建体含有与具有V82S和Y123H(从H123Y复原的Y123H)突变的TadA*7.10(TadA*8.23)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.24-d，所述异二聚体构建体含有与具有V82S、Y123H(从H123Y复原的Y123H)和Y147T突变的TadA*7.10(TadA*8.24)融合的野生型大肠杆菌TadA。

在一些实施方案中，ABE8具有含有与TadA*8变体融合的TadA*7.10的异二聚体构建体(“ABE8.x-7”)。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.1-7，所述异二聚体构建体含有与具有Y147T突变的TadA*7.10(TadA*8.1)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.2-7，所述异二聚体构建体含有与具有Y147R突变的TadA*7.10(TadA*8.2)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.3-7，所述异二聚体构建体含有与具有Q154S突变的TadA*7.10(TadA*8.3)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.4-7，所述异二聚体构建体含有与具有Y123H突变的TadA*7.10(TadA*8.4)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.5-7，所述异二聚体构建体含有与具有V82S突变的TadA*7.10(TadA*8.5)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.6-7，所述异二聚体构建体含有与具有T166R突变的TadA*7.10(TadA*8.6)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.7-7，所述异二聚体构建体含有与具有Q154R突变的TadA*7.10(TadA*8.7)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.8-7，所述异二聚体构建体含有与具有Y147R、Q154R和Y123H突变的TadA*7.10(TadA*8.8)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.9-7，所述异二聚体构建体含有与具有Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.9)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.10-7，所述异二聚体构建体含有与具有Y147R、Q154R和T166R突变的TadA*7.10(TadA*8.10)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.11-7，所述异二聚体构建体含有与具有Y147T和Q154R突变的TadA*7.10(TadA*8.11)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.12-7，所述异二聚体构建体含有与具有Y147T和Q154S突变的TadA*7.10(TadA*8.12)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.13-7，所述异二聚体构建体含有与具有Y123H(从H123Y复原的Y123H)、Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.13)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.14-7，所述异二聚体构建体含有与具有I76Y和V82S突变的TadA*7.10(TadA*8.14)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.15-7，所述异二聚体构建体含有与具有V82S和Y147R突变的TadA*7.10(TadA*8.15)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.16-7，所述异二聚体构建体含有与具有V82S、Y123H(从H123Y复原的Y123H)和Y147R突变的TadA*7.10(TadA*8.16)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.17-7，所述异二聚体构建体含有与具有V82S和Q154R突变的TadA*7.10(TadA*8.17)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.18-7，所述异二聚体构建体含有与具有V82S、Y123H(从H123Y复原的Y123H)和Q154R突变的TadA*7.10(TadA*8.18)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.19-7，所述异二聚体构建体含有与具有V82S、Y123H(从H123Y复原的Y123H)、Y147R和Q154R突变的TadA*7.10(TadA*8.19)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.20-7，所述异二聚体构建体含有与具有I76Y、V82S、Y123H(从H123Y复原的Y123H)、Y147R和Q154R突变的TadA*7.10(TadA*8.20)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.21-7，所述异二聚体构建体含有与具有Y147R和Q154S突变的TadA*7.10(TadA*8.21)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.22-7，所述异二聚体构建体含有与具有V82S和Q154S突变的TadA*7.10(TadA*8.22)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.23-7，所述异二聚体构建体含有与具有V82S和Y123H(从H123Y复原的Y123H)突变的TadA*7.10(TadA*8.23)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8.24-7，所述异二聚体构建体含有与具有V82S、Y123H(从H123Y复原的Y123H)和Y147T突变的TadA*7.10(TadA*8.24)融合的TadA*7.10。

在一些实施方案中，ABE是ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m、ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d或ABE8.24-d，如下表12所示。在表12中，“单体”表示包含单个TadA*7.10的ABE，所述TadA*7.10包含指定的改变，并且“异二聚体”表示包含与大肠杆菌TadA腺苷脱氨酶融合的TadA*7.10的ABE，所述TadA*7.10包含指定的改变。

表12：腺苷脱氨酶碱基编辑器8(ABE8)变体。

在一些实施方案中，ABE8是具有单体构建体的ABE8a-m，所述单体构建体含有具有R26C、A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10(TadA*8a)。在一些实施方案中，ABE8是具有单体构建体的ABE8b-m，所述单体构建体含有具有V88A、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10(TadA*8b)。在一些实施方案中，ABE8是具有单体构建体的ABE8c-m，所述单体构建体含有具有R26C、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10(TadA*8c)。在一些实施方案中，ABE8是具有单体构建体的ABE8d-m，所述单体构建体含有具有V88A、T111R、D119N和F149Y突变的TadA*7.10(TadA*8d)。在一些实施方案中，ABE8是具有单体构建体的ABE8e-m，所述单体构建体含有具有A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10(TadA*8e)。

在一些实施方案中，ABE8是具有异二聚体构建体的ABE8a-d，所述异二聚体构建体含有与具有R26C、A109S、T111R、D119、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10(TadA*8a)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8b-d，所述异二聚体构建体含有与具有V88A、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10(TadA*8b)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8c-d，所述异二聚体构建体含有与具有R26C、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10(TadA*8c)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8d-d，所述异二聚体构建体含有与具有V88A、T111R、D119N和F149Y突变的TadA*7.10(TadA*8d)融合的野生型大肠杆菌TadA。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8e-d，所述异二聚体构建体含有与具有A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10(TadA*8e)融合的野生型大肠杆菌TadA。

在一些实施方案中，ABE8是具有异二聚体构建体的ABE8a-7，所述异二聚体构建体含有与具有R26C、A109S、T111R、D119、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10(TadA*8a)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8b-7，所述异二聚体构建体含有与具有V88A、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10(TadA*8b)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8c-7，所述异二聚体构建体含有与具有R26C、A109S、T111R、D119N、H122N、F149Y、T166I和D167N突变的TadA*7.10(TadA*8c)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8d-7，所述异二聚体构建体含有与具有V88A、T111R、D119N和F149Y突变的TadA*7.10(TadA*8d)融合的TadA*7.10。在一些实施方案中，ABE8是具有异二聚体构建体的ABE8e-7，所述异二聚体构建体含有与具有A109S、T111R、D119N、H122N、Y147D、F149Y、T166I和D167N突变的TadA*7.10(TadA*8e)融合的TadA*7.10。

在一些实施方案中，ABE是ABE8a-m、ABE8b-m、ABE8c-m、ABE8d-m、ABE8e-m、ABE8a-d、ABE8b-d、ABE8c-d、ABE8d-d或ABE8e-d，如下表13所示。在一些实施方案中，ABE是ABE8e-m或ABE8e-d。当ABE8e与除SpCas9以外的Cas同源物(例如SaCas9、SaCas9-KKH、Cas12a同源物，例如LbCas12a、enAs-Cas12a、SpCas9-NG和环状置换的CP1028-SpCas9和CP1041-SpCas9)一起使用时显示出高效的腺嘌呤碱基编辑活性和低插入缺失形成。除了表13中显示的ABE8e突变外，通过将V106W取代引入到TadA结构域中减少了脱靶RNA和DNA编辑(如描述于M.Richter等人,2020,Nature Biotechnology,doi.org/10.1038/s41587-020-0453-z，其全部内容以引用方式并入本文)。

表13：另外的腺苷脱氨酶碱基编辑器8变体

在一些实施方案中，碱基编辑器(例如，ABE8)通过将腺苷脱氨酶变体(例如，TadA*8)克隆到包括环状置换Cas9(例如，CP5或CP6)和二分核定位序列的支架中而产生。在一些实施方案中，碱基编辑器(例如，ABE7.9、ABE7.10或ABE8)是NGC PAM CP5变体(酿脓链球菌Cas9或spVRQR Cas9)。在一些实施方案中，碱基编辑器(例如，ABE7.9、ABE7.10或ABE8)是AGA PAM CP5变体(酿脓链球菌Cas9或spVRQR Cas9)。在一些实施方案中，碱基编辑器(例如，ABE7.9、ABE7.10或ABE8)是NGC PAM CP6变体(酿脓链球菌Cas9或spVRQR Cas9)。在一些实施方案中，碱基编辑器(例如，ABE7.9、ABE7.10或ABE8)是AGA PAM CP6变体(酿脓链球菌Cas9或spVRQR Cas9)。

在一些实施方案中，ABE具有如下表14中所示的基因型。

表14.ABE的基因型

23

26

36

37

48

49

51

72

84

87

105

108

123

125

142

145

147

152

155

156

157

161

ABE7.9

L

R

L

N

A

L

N

F

S

V

N

Y

G

N

C

Y

P

V

F

N

K

ABE7.10

R

L

N

A

L

N

F

S

V

N

Y

G

A

C

Y

P

V

F

N

K

如下表15所示，描述了40个ABE8的基因型。表示了ABE的进化的大肠杆菌TadA部分中的残基位置。当与ABE7.10突变不同时，显示了ABE8中的突变变化。在一些实施方案中，ABE具有如下表15中所示的ABE之一的基因型。

表15.进化的TadA中的残基身份

在一些实施方案中，碱基编辑器是ABE8.1，其包含或基本上由以下具有腺苷脱氨酶活性的序列或其片段组成：

ABE8.1_Y147T_CP5_NGC PAM_单体

上述序列中，纯文本表示腺苷脱氨酶序列，粗体序列表示衍生自Cas9的序列，斜体序列表示接头序列，并且加下划线的序列表示二分核定位序列。其他ABE8序列提供于所附的序列表中(SEQ ID NO:257-279)。

在一些实施方案中，碱基编辑器是第九代ABE(ABE9)。在一些实施方案中，ABE9含有TadA*9变体。ABE9碱基编辑器包含腺苷脱氨酶变体，所述变体包含含有如本文所述的相对于ABE 7*10参考序列含有改变的氨基酸序列。示例性ABE9变体列于表16中。ABE9碱基编辑器的细节描述于国际PCT申请号PCT/2020/049975，其以引用方式整体并入本文。在表16中，“单体”表示包含单个TadA*7.10的ABE，所述TadA*7.10包含指定的改变，并且“异二聚体”表示包含与大肠杆菌TadA腺苷脱氨酶融合的TadA*7.10的ABE，所述TadA*7.10包含指定的改变。

表16.腺苷脱氨酶碱基编辑器9(ABE9)变体。

在一些实施方案中，碱基编辑器包含包含全部或部分尿嘧啶糖基化酶抑制剂(UGI)的结构域。在一些实施方案中，碱基编辑器包含包含全部或部分核酸聚合酶的结构域。在一些实施方案中，碱基编辑器可以包含作为结构域的全部或部分核酸聚合酶(NAP)。例如，碱基编辑器可以包含全部或部分真核生物NAP。在一些实施方案中，并入碱基编辑器的NAP或其部分是DNA聚合酶。在一些实施方案中，并入碱基编辑器的NAP或其部分具有跨损伤聚合酶活性。在一些实施方案中，并入碱基编辑器的NAP或其部分是跨损伤DNA聚合酶。在一些实施方案中，并入碱基编辑器的NAP或其部分是Rev7、Rev1复合物、聚合酶ι、聚合酶κ或聚合酶η。在一些实施方案中，并入碱基编辑器的NAP或其部分是真核聚合酶α、β、γ、δ、ε、γ、η、ι、κ、λ、μ或ν组分。在一些实施方案中，并入碱基编辑器的NAP或其部分包含与核酸聚合酶(例如，跨损伤DNA聚合酶)至少75％、80％、85％、90％、95％、96％、97％、98％、99％或99.5％同一的氨基酸序列。在一些实施方案中，并入碱基编辑器的核酸聚合酶或其部分是跨损伤DNA聚合酶。

在一些实施方案中，碱基编辑器的结构域可以包含多个结构域。例如，包含衍生自Cas9的多核苷酸可编程核苷酸结合结构域的碱基编辑器可以包含对应于野生型或天然Cas9的REC叶和NUC叶的REC叶和NUC叶。在结构上，Cas9包含两叶，α螺旋识别叶(REC)和核酸酶叶(NUC)。REC由三个α螺旋结构域(REC1和REC2)组成，并且与任何其他已知蛋白质没有结构类似性。REC1形成细长的α螺旋结构，其包含25个α螺旋和两个β片层；REC2插入到REC1内，采用六聚螺旋束结构。NUC叶包含核酸酶结构域RuvCs、HNH和C端结构域(CTD)。Cas9的REC叶和NUC叶折叠以在其界面处呈现带正电荷的凹槽，所述凹槽容纳带负电荷的sgRNA:靶DNA异源双链体(Nishimasu H.等人,2014,Cell 156:935-49；Jiang,F.等人,2017,Ann.Rev.Biophysics,46(1):505-529)。sgRNA-DNA复合物结合在两叶之间的界面上。

在另一个实例中，碱基编辑器可以包含RuvCI结构域、BH结构域(连接REC和NUC叶的桥螺旋结构域)、REC1结构域、REC2域、RuvCII结构域、L1结构域、HNH结构域、L2结构域、RuvCIII结构域、WED结构域、TOPO结构域或CTD结构域中的一个或多个。在一些实施方案中，碱基编辑器的一个或多个结构域包含相对于包含所述结构域的多肽的野生型形式的突变(例如，取代、插入、缺失)。例如，多核苷酸可编程DNA结合结构域的HNH结构域可以包含H840A取代。在另一个实例中，多核苷酸可编程DNA结合结构域的RuvCI域可以包含D10A取代。

本文公开的碱基编辑器的不同结构域(例如，相邻结构域)可以在使用或不使用一个或多个接头结构域(例如，XTEN接头结构域)的情况下彼此连接。在一些实施方案中，接头结构域可以是键(例如，共价键)、化学基团或连接两个分子或部分(例如融合蛋白的两个结构域，例如像第一结构域(例如，Cas9衍生结构域)和第二结构域(例如，腺苷脱氨酶结构域或胞苷脱氨酶结构域))的分子。在一些实施方案中，接头是共价键(例如，碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中，接头是酰胺键的碳氮键。在某些实施方案中，接头是环状或无环、取代或未取代、支链或非支链的脂族或杂脂族接头。在某些实施方案中，接头是聚合的(例如，聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中，接头包含氨基链烷酸的单体、二聚体或聚合物。在一些实施方案中，接头包含氨基链烷酸(例如，甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在一些实施方案中，接头包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中，接头基于碳环部分(例如，环戊烷、环己烷)。在其他实施方案中，接头包含聚乙二醇部分(PEG)。在某些实施方案中，接头包含芳基或杂芳基部分。在某些实施方案中，接头基于苯环。接头可以包含功能化部分以促进亲核物质(例如，硫醇、氨基)从肽连接到接头。任何亲电试剂都可以用作接头的一部分。示例性亲电试剂包括但不限于活化酯、活化酰胺、迈克尔受体、卤代烷、芳基卤、酰卤和异硫氰酸酯。在一些实施方案中，接头连接RNA可编程核酸酶的gRNA结合结构域，包括Cas9核酸酶结构域和核酸编辑蛋白的催化结构域。在一些实施方案中，接头连接dCas9和第二结构域(例如，UGI等)。

接头

在某些实施方案中，接头可以用于连接本发明的任何肽或肽结构域。接头可以像共价键一样简单，或者它可以是长度为许多原子的聚合接头。在某些实施方案中，接头是多肽或基于氨基酸。在其他实施方案中，接头不是肽样的。在某些实施方案中，接头是共价键(例如，碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中，接头是酰胺键的碳-氮键。在某些实施方案中，接头是环状或无环、取代或未取代、支链或非支链的脂族或杂脂族接头。在某些实施方案中，接头是聚合的(例如，聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中，接头包含氨基链烷酸的单体、二聚体或聚合物。在某些实施方案中，接头包含氨基链烷酸(例如，甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在某些实施方案中，接头包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中，接头基于碳环部分(例如，环戊烷、环己烷)。在其他实施方案中，接头包含聚乙二醇部分(PEG)。在其他实施方案中，接头包含氨基酸。在某些实施方案中，接头包含肽。在某些实施方案中，接头包含芳基或杂芳基部分。在某些实施方案中，接头基于苯环。接头可以包含功能化部分以促进亲核物质(例如，硫醇、氨基)从肽连接到接头。任何亲电试剂都可以用作接头的一部分。示例性亲电试剂包括但不限于活化酯、活化酰胺、迈克尔受体、卤代烷、芳基卤、酰卤和异硫氰酸酯。

通常，接头位于两个基团、分子或其他部分之间或侧翼为两个基团、分子或其他部分，并通过共价键连接到每一个，从而将两者连接起来。在一些实施方案中，接头是一个氨基酸或多个氨基酸(例如，肽或蛋白质)。在一些实施方案中，接头是有机分子、基团、聚合物或化学部分。在一些实施方案中，接头长度为2-100个氨基酸，例如长度为2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、30-35个、35-40个、40-45个、45-50个、50-60个、60-70个、70-80个、80-90个、90-100个、100-150个或150-200个氨基酸。在一些实施方案中，接头长度为约3个至约104个(例如，5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个或100个)氨基酸。也考虑了更长或更短的接头。

在一些实施方案中，本文提供的任何融合蛋白包含通过接头彼此融合的胞苷或腺苷脱氨酶和Cas9结构域。可以使用胞苷或腺苷脱氨酶与Cas9结构域之间的各种接头长度和柔性(例如，范围从非常柔性的接头形式(GGGS)n(SEQ ID NO:171)、(GGGGS)n(SEQ ID NO:172)和(G)n到更刚性的接头形式(EAAAK)n(SEQ ID NO:173)、(SGGS)n(SEQ ID NO:280)、SGSETPGTSESATPES(SEQ ID NO:174)(参见，例如，Guilinger JP等人，Fusion ofcatalytically inactive Cas9 to FokI nuclease improves the specificity ofgenome modification.Nat.Biotechnol.2014；32(6):577-82；全部内容以引用方式并入本文)和(XP)n)以获得胞苷或腺苷脱氨酶核碱基编辑器的最佳活性长度。在一些实施方案中，n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中，接头包含(GGS)n基序，其中n是1、3或7。在一些实施方案中，本文提供的任何融合蛋白的胞苷脱氨酶或腺苷脱氨酶和Cas9结构域通过包含氨基酸序列SGSETPGTSESATPES(SEQ ID NO:174)的接头(也可称为XTEN接头)融合。在一些实施方案中，接头包含多个脯氨酸残基并且长度为5-21个、5-14个、5-9个、5-7个氨基酸，例如PAPAP(SEQ ID NO:281)、PAPAPA(SEQ ID NO:282)、PAPAPAP(SEQID NO:283)、PAPAPAPA(SEQ ID NO:284)、P(AP)4(SEQ ID NO:285)、P(AP)7(SEQ ID NO:286)、P(AP)10(SEQ ID NO:287)(参见，例如Tan J,Zhang F,Karcher D,BockR.Engineering of high-precision base editors for site-specific singlenucleotide replacement.Nat Commun.2019 Jan 25；10(1):439；全部内容以引用方式并入本文)。这种富含脯氨酸的接头也称为“刚性”接头。

在另一个实施方案中，碱基编辑器系统包含与脱氨酶(DNA脱氨酶)例如腺苷或胞苷脱氨酶非共价相互作用的组分(蛋白质)，并将腺苷或胞苷脱氨酶瞬时吸引至靶多核苷酸序列中的靶核碱基以进行特定编辑，具有最小的或减少的旁观者或靶相邻效应。这种涉及脱氨酶相互作用蛋白的非共价系统和方法用于将DNA脱氨酶吸引到特定的基因组靶核碱基，并解耦靶上和靶相邻编辑事件，从而增强更精确的单碱基取代突变的实现。在一个实施方案中，脱氨酶相互作用蛋白与脱氨酶(例如，腺苷脱氨酶或胞苷脱氨酶)结合，而不阻断或干扰脱氨酶的活性(催化)位点与靶核碱基(例如，分别为腺苷或胞苷)接合。诸如，称为“MagnEdit”的系统包括与Cas9和gRNA复合物相连的相互作用蛋白，并且可以吸引共表达的腺苷或胞苷脱氨酶(外源性或内源性)以编辑特定的基因组靶位点，并描述于McCann,J.等人,2020,“MagnEdit–interacting factors that recruit DNA-editing enzymes tosingle base targets,”Life-Science-Alliance,第3卷,第4期(e201900606),(doi10.26508/Isa.201900606)，其内容以引用方式整体并入本文。在一个实施方案中，DNA脱氨酶是如本文所述的腺苷脱氨酶变体(例如，TadA*8)。

在另一个实施方案中，称为“Suntag”的系统包括用于将碱基编辑器的蛋白质(例如，腺苷脱氨酶或胞苷脱氨酶)组分或其多个拷贝聚集到多核苷酸靶位点，以实现在此位点具有减少的相邻靶编辑的碱基编辑的非共价相互作用组分，例如，描述于Tanenbaum,M.E.等人,“Aprotein tagging system for signal amplification in gene expression andfluorescence imaging,”Cell.2014 October 23；159(3):635–646.doi:10.1016/j.cell.2014.09.039；和Huang,Y.-H.等人,2017,“DNA epigenome editing usingCRISPR-Cas SunTag-directed DNMT3A,”Genome Biol 18:176.doi:10.1186/s13059-017-1306-z，其中每一个的内容都以引用方式整体并入本文。在一个实施方案中，DNA脱氨酶是如本文所述的腺苷脱氨酶变体(例如，TadA*8)。

具有向导RNA的核酸可编程DNA结合蛋白

本文提供了用于细胞中碱基编辑的组合物和方法。本文还提供了组合物，其包含向导多核酸序列，例如向导RNA序列，或如本文提供的2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个或更多个向导RNA的组合。在一些实施方案中，如本文提供的用于碱基编辑的组合物还包含编码碱基编辑器，例如C-碱基编辑器或A-碱基编辑器的多核苷酸。例如，用于碱基编辑的组合物可以包含编码BE、BE4、ABE和所提供的一种或多种向导RNA的组合的mRNA序列。用于碱基编辑的组合物可以包含碱基编辑多肽和本文提供的任何向导RNA中的一种或多种的组合。这种组合物可以用于通过不同的递送途径(例如电穿孔、核转染、病毒转导或转染)在细胞中实现碱基编辑。在一些实施方案中，用于碱基编辑的组合物包含本文提供的用于电穿孔(EP)的编码碱基编辑器的mRNA序列和一种或多种向导RNA序列的组合。

本公开的一些方面提供了复合物，所述复合物包含本文提供的任何融合蛋白，以及与融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)结构域(例如，Cas9(例如，dCas9、核酸酶活性Cas9，或Cas9切口酶)或Cas12)结合的向导RNA。这些复合物也称为核糖核蛋白(RNP)。在一些实施方案中，向导核酸(例如，向导RNA)为15-100个核苷酸长，并且包含与靶序列互补的至少10个连续核苷酸的序列。在一些实施方案中，向导RNA为15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49或50个核苷酸长。在一些实施方案中，向导RNA包含15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个或40个与靶序列互补的连续核苷酸的序列。在一些实施方案中，靶序列是DNA序列。在一些实施方案中，靶序列是RNA序列。在一些实施方案中，靶序列是细菌、酵母、真菌、昆虫、植物或动物的基因组中的序列。在一些实施方案中，靶序列是人类基因组中的序列。在一些实施方案中，靶序列的3'末端紧邻规范PAM序列(NGG)。在一些实施方案中，靶序列的3'末端紧邻非规范PAM序列(例如，表7中列出的序列或5'-NAA-3')。在一些实施方案中，向导核酸(例如，向导RNA)与关注的基因(例如，与疾病或病症相关的基因)中的序列互补。

本公开的一些方面提供了使用本文提供的融合蛋白或复合物的方法。例如，本公开的一些方面提供的方法包括使DNA分子与本文提供的任何融合蛋白和至少一种向导RNA接触，其中向导RNA为约15-100个核苷酸长并且包含与靶序列互补的至少10个连续核苷酸的序列。在一些实施方案中，靶序列的3'末端紧邻AGC、GAG、TTT、GTG或CAA序列。在一些实施方案中，靶序列的3'末端紧邻NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN或5'(TTTV)序列。在一些实施方案中，靶序列的3'末端紧邻例如TTN、DTTN、GTTN、ATTN、ATTC、DTTNT、WTTN、HATY、TTTN、TTTV、TTTC、TG、RTR或YTN PAM位点。

应当理解，各个序列中特定位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号可能不同，例如，成熟蛋白质的前体和成熟蛋白质本身的编号不同，并且物种之间的序列差异可能会影响编号。本领域技术人员将能够通过本领域熟知的方法，例如通过序列比对和同源残基的测定，鉴定任何同源蛋白质和相应编码核酸中的相应残基。

对本领域技术人员显而易见的是，为了使本文公开的任何融合蛋白靶向靶位点，例如包含待编辑的突变的位点，通常需要将融合蛋白与向导RNA一起共表达。如本文别处更详细解释，向导RNA通常包含允许napDNAbp(例如，Cas9或Cas12)结合的tracrRNA框架和向导序列，其赋予napDNAbp:核酸编辑酶/结构域融合蛋白序列特异性。或者，可以单独提供向导RNA和tracrRNA，作为两个核酸分子。在一些实施方案中，向导RNA包含一种结构，其中向导序列包含与靶序列互补的序列。向导序列通常为20个核苷酸长。基于本公开，用于将napDNAbp:核酸编辑酶/结构域靶向特定基因组靶位点的合适的向导RNA的序列对于本领域技术人员是显而易见的。这种合适的向导RNA序列通常包含与待编辑的靶核苷酸上游或下游50个核苷酸内的核酸序列互补的向导序列。本文提供了一些示例性向导RNA序列，这些向导RNA序列适用于将任何所提供的融合蛋白靶向特定的靶序列。

预计sgRNA的不同部分会形成与Cas9(例如，SpyCas9)和/或DNA靶标相互作用的各种特征。已在指导Cas9核酸内切酶活性的天然crRNA:tracrRNA双链体和单导向RNA(sgRNA)内识别出六个保守模块(参见Briner等人,Guide RNA Functional Modules Direct Cas9Activity and Orthogonality Mol Cell.2014 Oct 23；56(2):333-339)。这六个模块包括负责DNA靶向的间隔区、由CRISPR重复:tracrRNA双链体形成的上位茎、凸起、下位茎、连接、来自tracrRNA 3'末端的发夹。上位茎和下位茎主要通过与磷酸骨架的序列非依赖性相互作用与Cas9相互作用。在一些实施方案中，上位茎是可有可无的。在一些实施方案中，下位茎基部的保守尿嘧啶核苷酸序列是可有可无的。凸起参与与Cas9的Rec1结构域的特定侧链相互作用。U44的核碱基与Tyr 325和His 328的侧链相互作用，而G43与Tyr 329相互作用。连接形成sgRNA:Cas9相互作用的核心，并且位于sgRNA与Cas9和靶DNA之间的交叉点。A51和A52的核碱基与Phe1105的侧链相互作用；U56与Arg 457和Asn 459相互作用；U59的核碱基插入由Arg 74、Asn 77、Pro 475、Leu 455、Phe 446和Ile 448的侧链限定的疏水口袋中；C60与Leu 455、Ala 456和Asn 459相互作用，并且C61与Arg 70的侧链相互作用，Arg 70的侧链又与C15相互作用。在一些实施方案中，这些突变中的一个或多个在凸起和/或Cas9(例如spyCas9)的sgRNA的连接中进行以优化sgRNA:Cas9相互作用。

此外，tracrRNA连接和发夹对Cas9配对至关重要，并且可以互换以跨越分离不同Cas9蛋白的正交障碍，这有助于进一步利用正交Cas9蛋白。在一些实施方案中，连接和发夹互换以靶向正交Cas9蛋白。在一些实施方案中，sgRNA被免除上位茎、发夹1和/或下位茎的序列灵活性以设计更紧凑和构象稳定的向导RNA。在一些实施方案中，使用具有各种嵌合向导的单个Cas9或通过同时使用具有不同嵌合sgRNA组合的正交系统对模块进行修饰以优化多重编辑。关于向导功能性模块及其方法的细节描述于例如，Briner等人,Guide RNAFunctional Modules Direct Cas9 Activity and Orthogonality Mol Cell.2014 Oct23；56(2):333-339，其内容以引用方式整体并入本文。

本文公开的碱基编辑器的结构域可以以任何顺序排列。包含包含例如，多核苷酸可编程核苷酸结合结构域(例如，Cas9或Cas12)和脱氨酶结构域(例如，胞苷或腺苷脱氨酶)的融合蛋白的碱基编辑器的非限制性实例可以排列如下：

NH2-[核碱基编辑结构域]-接头1-[核碱基编辑结构域]-COOH；

NH2-[脱氨酶]-接头1-[核碱基编辑结构域]-COOH；

NH2-[脱氨酶]-接头1-[核碱基编辑结构域]-接头2-[UGI]-COOH；

NH2-[脱氨酶]-接头1-[核碱基编辑结构域]-COOH；

NH2-[腺苷脱氨酶]-接头1-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-[脱氨酶]-COOH；

NH2-[脱氨酶]-[核碱基编辑结构域]-[肌苷BER抑制剂]-COOH；

NH2-[脱氨酶]-[肌苷BER抑制剂]-[核碱基编辑结构域]-COOH；

NH2-[肌苷BER抑制剂]-[脱氨酶]-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-[脱氨酶]-[肌苷BER抑制剂]-COOH；

NH2-[核碱基编辑结构域]-[肌苷BER抑制剂]-[脱氨酶]-COOH；

NH2-[肌苷BER抑制剂]-[核碱基编辑结构域]-[脱氨酶]-COOH；

NH2-[核碱基编辑结构域]-接头1-[脱氨酶]-接头2-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-接头1-[脱氨酶]-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-[脱氨酶]-接头2-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-[脱氨酶]-[核碱基编辑结构域]-COOH；

NH2-[核碱基编辑结构域]-接头1-[脱氨酶]-接头2-[核碱基编辑结构域]-[肌苷BER抑制剂]-COOH；

NH2-[核碱基编辑结构域]-接头1-[脱氨酶]-[核碱基编辑结构域]-[肌苷BER抑制剂]-COOH；

NH2-[核碱基编辑结构域]-[脱氨酶]-接头2-[核碱基编辑结构域]-[肌苷BER抑制剂]-COOH；

NH2-[核碱基编辑结构域]-[脱氨酶]-[核碱基编辑结构域]-[肌苷BER抑制剂]-COOH；

NH2-[肌苷BER抑制剂]-[核碱基编辑结构域]-接头1-[脱氨酶]-接头2-[核碱基编辑结构域]-COOH；

NH2-[肌苷BER抑制剂]-[核碱基编辑结构域]-接头1-[脱氨酶]-[核碱基编辑结构域]-COOH；

NH2-[肌苷BER抑制剂]-[核碱基编辑结构域]-[脱氨酶]-接头2-[核碱基编辑结构域]-COOH；或

NH2-[肌苷BER抑制剂]NH2-[核碱基编辑结构域]-[脱氨酶]-[核碱基编辑结构域]-COOH。

限定的靶区域可以是脱氨窗口。脱氨窗口可以是碱基编辑器作用于靶核苷酸并使靶核苷酸脱氨基的限定区域。在一些实施方案中，脱氨窗口在2个、3个、4个、5个、6个、7个、8个、9个或10个碱基区域内。在一些实施方案中，脱氨窗口在PAM上游5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个或25个碱基处。

本公开的碱基编辑器可以包含促进靶多核苷酸序列的编辑的任何结构域、特征或氨基酸序列。例如，在一些实施方案中，碱基编辑器包含核定位序列(NLS)。在一些实施方案中，碱基编辑器的NLS位于脱氨酶结构域和napDNAbp结构域之间。在一些实施方案中，碱基编辑器的NLS位于napDNAbp结构域的C端。

可以包含在融合蛋白中的蛋白质结构域的非限制性实例包括脱氨酶结构域(例如，腺苷脱氨酶或胞苷脱氨酶)、尿嘧啶糖基化酶抑制剂(UGI)结构域、表位标签、报告基因序列和/或具有本文所述的一种或多种活性的蛋白质结构域。

可以用表位标签、报告蛋白、其他结合结构域检测或标记结构域。表位标签的非限制性实例包括组氨酸(His)标签、V5标签、FLAG标签、流感血凝素(HA)标签、Myc标签、VSV-G标签和硫氧还蛋白(Trx)标签。报告基因的实例包括但不限于谷胱甘肽-5-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)β-半乳糖苷酶、β-葡萄糖醛酸酶、荧光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和自体荧光蛋白，包括蓝色荧光蛋白(BFP)。另外的蛋白质序列可以包括结合DNA分子或结合其他细胞分子的氨基酸序列，包括但不限于麦芽糖结合蛋白(MBP)、S标签、Lex A DNA结合结构域(DBD)融合体、GAL4 DNA结合结构域融合体和单纯疱疹病毒(HSV)BP16蛋白融合体。

使用包含胞苷或腺苷脱氨酶和Cas9结构域的融合蛋白的方法

本公开的一些方面提供了使用本文提供的融合蛋白或复合物的方法。例如，本公开的一些方面提供的方法包括使DNA分子与本文提供的任何融合蛋白以及与本文所述的至少一种向导RNA接触。

在一些实施方案中，本发明的融合蛋白用于编辑关注的靶基因。具体而言，本文所述的胞苷脱氨酶或腺苷脱氨酶核碱基编辑器能够在靶序列内进行多个突变。这些突变可能会影响靶标的功能。例如，当使用胞苷脱氨酶或腺苷脱氨酶核碱基编辑器靶向调节区时，调节区的功能被改变并且下游蛋白质的表达减少或消除。

对本领域技术人员显而易见的是，为了使本文公开的包含Cas9结构域和胞苷或腺苷脱氨酶的任何融合蛋白靶向靶位点，例如包含待编辑的突变的位点，通常需要将融合蛋白与向导RNA一起共表达。如本文别处更详细解释，向导RNA通常包含允许Cas9结合的tracrRNA框架和向导序列，其赋予Cas9:核酸编辑酶/结构域融合蛋白序列特异性。或者，可以单独提供向导RNA和tracrRNA，作为两个核酸分子。在一些实施方案中，向导RNA包含一种结构，其中向导序列包含与靶序列互补的序列。向导序列通常为20个核苷酸长。基于本公开，用于将Cas9:核酸编辑酶/结构域靶向特定基因组靶位点的合适的向导RNA的序列对于本领域技术人员是显而易见的。这种合适的向导RNA序列通常包含与待编辑的靶核苷酸上游或下游50个核苷酸内的核酸序列互补的向导序列。本文提供了一些示例性向导RNA序列，这些向导RNA序列适用于将任何所提供的融合蛋白靶向特定的靶序列。

碱基编辑器效率

在一些实施方案中，本文提供的方法的目的是改变基因和/或通过基因编辑的基因产物。本文提供的核碱基编辑蛋白可以用于体外或体内基于基因编辑的人类治疗。本领域技术人员将理解，本文提供的核碱基编辑蛋白，例如，包含多核苷酸可编程核苷酸结合结构域(例如，Cas9)和核碱基编辑结构域(例如，腺苷脱氨酶结构域或胞苷脱氨酶结构域)的融合蛋白可以用于编辑核苷酸从A到G或C到T。

有利地，本文提供的碱基编辑系统提供基因组编辑而不产生双链DNA断裂，不需要供体DNA模板，并且不会像CRISPR可能那样诱导过量的随机插入和缺失。在一些实施方案中，本公开提供了碱基编辑器，其在核酸(例如，受试者基因组内的核酸)中有效地产生预期突变，诸如终止密码子，而不产生大量的非预期突变，诸如非预期的点突变。在一些实施方案中，预期突变是由与向导多核苷酸(例如，gRNA)结合的特定碱基编辑器(例如，腺苷碱基编辑器或胞苷碱基编辑器)产生的突变，所述碱基编辑器被专门设计以产生预期突变。在一些实施方案中，预期突变在与靶抗原相关的基因中，所述靶抗原与疾病或病症例如血红蛋白病(例如镰状细胞病)相关。在一些实施方案中，预期突变是与靶抗原相关的基因中的腺嘌呤(A)到鸟嘌呤(G)点突变(例如，SNP)，所述靶抗原与疾病或病症例如血红蛋白病(例如镰状细胞病)相关。在一些实施方案中，预期突变是基因的编码区或非编码区(例如，调节区或元件)内的腺嘌呤(A)到鸟嘌呤(G)点突变。在一些实施方案中，预期突变是与靶抗原相关的基因中的胞嘧啶(C)到胸腺嘧啶(T)点突变(例如，SNP)，所述靶抗原与疾病或病症例如血红蛋白病(例如镰状细胞病)相关。在一些实施方案中，预期突变是基因的编码区或非编码区(例如，调节区或元件)内的胞嘧啶(C)到胸腺嘧啶(T)点突变。在一些实施方案中，预期突变是产生终止密码子(例如基因编码区内的提前终止密码子)的点突变。在一些实施方案中，预期突变是消除终止密码子的突变。

本发明的碱基编辑器有利地修饰编码蛋白质的特定核苷酸碱基而不产生显著比例的插入缺失。如本文所用，“插入缺失”是指核苷酸碱基在核酸内的插入或缺失。这种插入或缺失可以导致基因编码区内的框移突变。在一些实施方案中，需要产生有效修饰(例如，突变)核酸内的特定核苷酸而不在核酸中产生大量插入或缺失(即，插入缺失)的碱基编辑器。在一些实施方案中，需要产生有效修饰(例如，突变或甲基化)核酸内的特定核苷酸而不在核酸中产生大量插入或缺失(即，插入缺失)的碱基编辑器。在某些实施方案中，本文提供的任何碱基编辑器可以产生相对于插入缺失更大比例的预期修饰(例如，甲基化)。在某些实施方案中，本文提供的任何碱基编辑器可以产生相对于插入缺失更大比例的预期修饰(例如，突变)。

在一些实施方案中，本文提供的碱基编辑器能够产生大于1:1的预期突变与插入缺失比率(即，预期点突变:非预期点突变)。在一些实施方案中，本文提供的碱基编辑器能够产生至少1.5:1、至少2:1、至少2.5:1、至少3:1、至少3.5:1、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少10:1、至少12:1、至少15:1、至少20:1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少200:1、至少300:1、至少400:1、至少500:1、至少600:1、至少700:1、至少800:1、至少900:1，或至少1000:1或更大的预期突变与插入缺失比率。可以使用任何合适的方法确定预期突变和插入缺失的数量。

在一些实施方案中，本文提供的碱基编辑器可以限制核酸区域中插入缺失的形成。在一些实施方案中，所述区域位于碱基编辑器靶向的核苷酸处或碱基编辑器靶向的核苷酸的2、3、4、5、6、7、8、9或10个核苷酸内的区域。在一些实施方案中，本文提供的任何碱基编辑器可以将核酸区域处插入缺失的形成限制为小于1％、小于1.5％、小于2％、小于2.5％、小于3％、小于3.5％、小于4％、小于4.5％、小于5％、小于6％、小于7％、小于8％、小于9％、小于10％、小于12％、小于15％，或小于20％。在核酸区域形成的插入缺失的数量可以取决于核酸(例如，细胞基因组内的核酸)暴露于碱基编辑器的时间量。在一些实施方案中，在将核酸(例如，细胞基因组内的核酸)暴露于碱基编辑器至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天后确定插入缺失的数量或比例。

本公开的一些方面基于以下认识：本文提供的任何碱基编辑器能够有效地在核酸(例如，受试者基因组内的核酸)中产生预期突变，而不会产生大量非预期突变(例如，伪脱靶编辑或旁观者编辑)。在一些实施方案中，预期突变是由与gRNA结合的特定碱基编辑器产生的突变，所述碱基编辑器被专门设计以产生预期突变。在一些实施方案中，预期突变是产生终止密码子(例如基因编码区内的提前终止密码子)的突变。在一些实施方案中，预期突变是消除终止密码子的突变。在一些实施方案中，预期突变是改变基因剪接的突变。在一些实施方案中，预期突变是改变基因的调节序列(例如基因启动子或基因阻遏物)的突变。在一些实施方案中，本文提供的任何碱基编辑器能够产生大于1:1的预期突变与非预期突变比率(例如，预期突变:非预期突变)。在一些实施方案中，本文提供的任何碱基编辑器能够产生至少1.5:1、至少2:1、至少2.5:1、至少3:1、至少3.5:1、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少10:1、至少12:1、至少15:1、至少20:1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少150:1、至少200:1、至少250:1、至少500:1或至少1000:1或更大的预期突变与非预期突变比率。应当理解，本文所述的碱基编辑器的特征可以应用于任何融合蛋白，或本文提供的使用所述融合蛋白的方法。

碱基编辑通常被称为“修饰”，诸如遗传修饰、基因修饰和核酸序列的修饰，并且基于所述修饰是碱基编辑修饰的上下文可以清楚地理解。因此，碱基编辑修饰是核苷酸碱基水平的修饰(例如由于在整个公开中讨论的脱氨酶活性)，然后其导致基因序列的变化，并且可能影响基因产物。因此，本质上，本文所述的基因编辑修饰可以导致基因结构上和/或功能上的修饰，其中基因产物的表达可以被修饰，例如基因的表达被敲除；或相反，被增强，或在一些情况下，基因功能或活性可以被修饰。使用本文公开的方法，碱基编辑效率可以确定为进行碱基编辑的基因的敲低效率，其中碱基编辑旨在敲低基因的表达。敲低水平可以通过确定表达水平来定量验证，所述表达水平通过以下确定：任何检测测定，诸如蛋白质表达水平测定，例如流式细胞术；用于检测RNA表达的测定，诸如定量RT-PCR、RNA印迹分析，或任何其他合适的测定诸如焦磷酸法测序；并且可以通过核苷酸测序反应进行定性验证。

在一些实施方案中，修饰(例如单碱基编辑)导致基因靶向表达降低至少10％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少10％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少20％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少30％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少40％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少50％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少60％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少70％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少80％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少90％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少91％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少92％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少93％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少94％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少95％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少96％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少97％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少98％。在一些实施方案中，碱基编辑效率可以导致基因靶向表达降低至少99％。在一些实施方案中，碱基编辑效率可以导致被靶向的基因的敲除(基因表达的100％敲低)。

在一些实施方案中，本文提供的任何碱基编辑器系统导致在靶多核苷酸序列中少于50％、少于40％、少于30％、少于20％、少于19％、少于18％、少于17％、少于16％、少于15％、少于14％、少于13％、少于12％、少于11％、少于10％、少于9％、少于8％、少于7％、少于6％、少于5％、少于4％、少于3％、少于2％、少于1％、少于0.9％、少于0.8％、少于0.7％、少于0.6％、少于0.5％、少于0.4％、少于0.3％、少于0.2％、少于0.1％、少于0.09％、少于0.08％、少于0.07％、少于0.06％、少于0.05％、少于0.04％、少于0.03％、少于0.02％或少于0.01％的插入缺失形成。

在一些实施方案中，靶向修饰(例如单碱基编辑)用于同时靶向至少4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个或50个不同的内源序列，用于使用不同的向导RNA进行碱基编辑。在一些实施方案中，靶向修饰(例如单碱基编辑)用于连续靶向至少4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个或更多个不同的内源序列，用于使用不同的向导RNA进行碱基编辑。

本公开的一些方面基于以下认识：本文提供的任何碱基编辑器能够在核酸(例如，受试者基因组内的核酸)中有效地产生预期突变诸如点突变，而不会产生大量非预期突变诸如非预期点突变(即，旁观者突变)。在一些实施方案中，本文提供的任何碱基编辑器能够产生至少0.01％的预期突变(即，至少0.01％的碱基编辑效率)。在一些实施方案中，本文提供的任何碱基编辑器能够产生至少0.01％、1％、2％,3％、4％、5％、10％、15％、20％、25％、30％、40％、45％、50％、60％、70％、80％、90％、95％或99％的预期突变。

在一些实施方案中，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑器系统导致在靶多核苷酸序列中少于50％、少于40％、少于30％、少于20％、少于19％、少于18％、少于17％、少于16％、少于15％、少于14％、少于13％、少于12％、少于11％、少于10％、少于9％、少于8％、少于7％、少于6％、少于5％、少于4％、少于3％、少于2％、少于1％、少于0.9％、少于0.8％、少于0.7％、少于0.6％、少于0.5％、少于0.4％、少于0.3％、少于0.2％、少于0.1％、少于0.09％、少于0.08％、少于0.07％、少于0.06％、少于0.05％、少于0.04％、少于0.03％、少于0.02％或少于0.01％的插入缺失形成。在一些实施方案中，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑器系统导致在靶多核苷酸序列中少于0.8％的插入缺失形成。在一些实施方案中，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑器系统导致在靶多核苷酸序列中至多0.8％的插入缺失形成。在一些实施方案中，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑器系统导致在靶多核苷酸序列中少于0.3％的插入缺失形成。在一些实施方案中，与包含ABE7碱基编辑器之一的碱基编辑器系统相比，所述的包含ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中较低的插入缺失形成。在一些实施方案中，与包含ABE7.10的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶多核苷酸序列中较低的插入缺失形成。

在一些实施方案中，与包含ABE7碱基编辑器之一的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的碱基编辑器系统的插入缺失频率降低。在一些实施方案中，与包含ABE7碱基编辑器之一的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑器系统的插入缺失频率降低至少0.01％、至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或至少95％。在一些实施方案中，与包含ABE7.10的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的碱基编辑器系统的插入缺失频率降低至少0.01％、至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或至少95％。

本发明提供了具有增加的效率和特异性的腺苷脱氨酶变体(例如，ABE8变体)。具体而言，本文所述的腺苷脱氨酶变体更有可能编辑多核苷酸内的所需碱基，并且不太可能编辑非预期改变的碱基(例如，“旁观者”)。

在一些实施方案中，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑系统的旁观者编辑或突变减少。在一些实施方案中，非预期编辑或突变是旁观者突变或旁观者编辑，例如，在靶核苷酸序列的靶目标窗口中的非预期或非靶位置中的靶碱基(例如，A或C)的碱基编辑。在一些实施方案中，与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑系统的旁观者编辑或突变减少。在一些实施方案中，与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的碱基编辑器系统的旁观者编辑或突变减少至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或至少99％。在一些实施方案中，与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑系统的旁观者编辑或突变已减少至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍。

在一些实施方案中，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑系统的伪编辑或减少。在一些实施方案中，非预期编辑或突变是伪突变或伪编辑，例如基因组的非预期或非靶区域中的靶碱基(例如，A或C)的非特异性编辑或向导独立编辑。在一些实施方案中，与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑系统的伪编辑减少。在一些实施方案中，与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的碱基编辑器系统的伪编辑减少至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或至少99％。在一些实施方案中，与包含ABE7碱基编辑器(例如ABE7.10)的碱基编辑器系统相比，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑系统的伪编辑已减少至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍。

在一些实施方案中，本文所述的任何ABE8碱基编辑器变体具有至少0.01％、至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或至少95％或至少99％的碱基编辑效率。在一些实施方案中，碱基编辑效率可以通过计算细胞群体中编辑的核碱基的百分比来测量。在一些实施方案中，本文所述的任何ABE8碱基编辑器变体具有通过细胞群体中编辑的核碱基测量的至少0.01％、至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或至少95％或至少99％的碱基编辑效率。

在一些实施方案中，与ABE7碱基编辑器相比，本文所述的任何ABE8碱基编辑器变体具有更高的碱基编辑效率。在一些实施方案中，与ABE7碱基编辑器(例如ABE7.10)相比，本文所述的任何ABE8碱基编辑器变体具有升高至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少99％、至少100％、至少105％、至少110％、至少115％、至少120％、至少125％、至少130％、至少135％、至少140％、至少145％、至少150％、至少155％、至少160％、至少165％、至少170％、至少175％、至少180％、至少185％、至少190％、至少195％、至少200％、至少210％、至少220％、至少230％、至少240％、至少250％、至少260％、至少270％、至少280％、至少290％、至少300％、至少310％、至少320％、至少330％、至少340％、至少350％、至少360％、至少370％、至少380％、至少390％、至少400％、至少450％或至少500％的碱基编辑效率。

在一些实施方案中，与ABE7碱基编辑器(例如ABE7.10)相比，本文所述的任何ABE8碱基编辑器变体具有升高至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2倍、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍的碱基编辑效率。

在一些实施方案中，本文所述的任何ABE8碱基编辑器变体具有至少0.01％、至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或至少95％或至少99％的中靶碱基编辑效率。在一些实施方案中，本文所述的任何ABE8碱基编辑器变体具有通过细胞群体中编辑的靶核碱基测量的至少0.01％、至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％或至少95％或至少99％的中靶碱基编辑效率。

在一些实施方案中，与ABE7碱基编辑器相比，本文所述的任何ABE8碱基编辑器变体具有更高的中靶碱基编辑效率。在一些实施方案中，与ABE7碱基编辑器(例如ABE7.10)相比，本文所述的任何ABE8碱基编辑器变体具有升高至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少99％、至少100％、至少105％、至少110％、至少115％、至少120％、至少125％、至少130％、至少135％、至少140％、至少145％、至少150％、至少155％、至少160％、至少165％、至少170％、至少175％、至少180％、至少185％、至少190％、至少195％、至少200％、至少210％、至少220％、至少230％、至少240％、至少250％、至少260％、至少270％、至少280％、至少290％、至少300％、至少310％、至少320％、至少330％、至少340％、至少350％、至少360％、至少370％、至少380％、至少390％、至少400％、至少450％或至少500％的中靶碱基编辑效率。

在一些实施方案中，与ABE7碱基编辑器(例如ABE7.10)相比，本文所述的任何ABE8碱基编辑器变体具有升高至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2倍、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍的中靶碱基编辑效率。

本文所述的ABE8碱基编辑器变体可以通过质粒、载体、LNP复合物或mRNA递送至宿主细胞。在一些实施方案中，本文所述的任何ABE8碱基编辑器变体作为mRNA递送至宿主细胞。在一些实施方案中，通过基于核酸的递送系统(例如，mRNA)递送的ABE8碱基编辑器具有通过编辑的核碱基测量的至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或至少99％的中靶编辑效率。在一些实施方案中，与通过质粒或载体系统递送的ABE8碱基编辑器相比，由mRNA系统递送的ABE8碱基编辑器具有更高的碱基编辑效率。在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少99％、至少100％、至少105％、至少110％、至少115％、至少120％、至少125％、至少130％、至少135％、至少140％、至少145％、至少150％、至少155％、至少160％、至少165％、至少170％、至少175％、至少180％、至少185％、至少190％、至少195％、至少200％、至少210％、至少220％、至少230％、至少240％、至少250％、至少260％、至少270％、至少280％、至少290％、至少300％、至少310％、至少320％、至少330％、至少340％、至少350％、至少360％、至少370％、至少380％、至少390％、至少400％、至少450％或至少500％的中靶编辑效率。在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有升高至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2倍、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍的中靶编辑效率。

在一些实施方案中，本文所述的包含ABE8碱基编辑器变体之一的任何碱基编辑器系统导致在靶多核苷酸序列中少于50％、少于40％、少于30％、少于20％、少于19％、少于18％、少于17％、少于16％、少于15％、少于14％、少于13％、少于12％、少于11％、少于10％、少于9％、少于8％、少于7％、少于6％、少于5％、少于4％、少于3％、少于2％、少于1％、少于0.9％、少于0.8％、少于0.7％、少于0.6％、少于0.5％、少于0.4％、少于0.3％、少于0.2％、少于0.1％、少于0.09％、少于0.08％、少于0.07％、少于0.06％、少于0.05％、少于0.04％、少于0.03％、少于0.02％或少于0.01％的脱靶编辑。

在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有较低的引导脱靶编辑效率。在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有降低至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或至少99％的引导脱靶编辑效率。在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有降低至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍的引导脱靶编辑效率。在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有降低至少约2.2倍的引导脱靶编辑效率。

在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有较低的引导非依赖性脱靶编辑效率。在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有降低至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或至少99％的引导非依赖性脱靶编辑效率。在一些实施方案中，与通过质粒和载体系统递送时相比，本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有降低至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少5.0倍、至少10.0倍、至少20.0倍、至少50.0倍、至少70.0倍、至少100.0倍、至少120.0倍、至少130.0倍、至少150.0倍的引导非依赖性编辑效率。在一些实施方案中，与通过质粒或载体系统递送时相比，本文所述的ABE8碱基编辑器变体在通过mRNA系统递送时具有降低134.0倍的引导非依赖性编辑效率(例如，伪RNA脱氨作用)。在一些实施方案中，本文所述的ABE8碱基编辑器变体不增加整个基因组的引导非依赖性突变率。

在一些实施方案中，单个基因递送事件(例如，通过转导、转染、电穿孔或任何其他方法)可以用于靶向细胞基因组内5个序列的碱基编辑。在一些实施方案中，单个基因递送事件可以用于靶向细胞基因组内6个序列的碱基编辑。在一些实施方案中，单个基因递送事件可以用于靶向细胞基因组内7个序列的碱基编辑。在一些实施方案中，单个电穿孔事件可以用于靶向细胞基因组内8个序列的碱基编辑。在一些实施方案中，单个基因递送事件可以用于靶向细胞基因组内9个序列的碱基编辑。在一些实施方案中，单个基因递送事件可以用于靶向细胞基因组内10个序列的碱基编辑。在一些实施方案中，单个基因递送事件可以用于靶向细胞基因组内20个序列的碱基编辑。在一些实施方案中，单个基因递送事件可以用于靶向细胞基因组内30个序列的碱基编辑。在一些实施方案中，单个基因递送事件可以用于靶向细胞基因组内40个序列的碱基编辑。在一些实施方案中，单个基因递送事件可以用于靶向细胞基因组内50个序列的碱基编辑。

在一些实施方案中，本文所述的方法，例如碱基编辑方法具有最小化到没有的脱靶效应。

在一些实施方案中，本文所述的碱基编辑方法导致至少50％的细胞群体已被成功编辑(即，已成功工程化改造的细胞)。在一些实施方案中，本文所述的碱基编辑方法导致至少55％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致至少60％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致至少65％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致至少70％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致至少75％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致至少80％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致至少85％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致至少90％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致至少95％的细胞群体已被成功编辑。在一些实施方案中，本文所述的碱基编辑方法导致约91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的细胞群体已被成功编辑。

在一些实施方案中，碱基编辑干预后的活细胞回收率大于碱基编辑事件发生时的起始细胞群体的至少60％、70％、80％、90％。在一些实施方案中，如上所述的活细胞回收率为约70％。在一些实施方案中，如上所述的活细胞回收率为约75％。在一些实施方案中，如上所述的活细胞回收率为约80％。在一些实施方案中，如上所述的活细胞回收率为约85％。在一些实施方案中，如上所述的活细胞回收率为碱基编辑事件发生时的群体中的细胞的约90％，或约91％、92％、93％、94％、95％、96％、97％、98％，或99％，或100％。

在一些实施方案中，工程化细胞群体可以在体外进一步扩增约2倍、约3倍、约4倍、约5倍、约6倍、约7倍、约8倍、约9倍、约10倍、约15倍、约20倍、约25倍、约30倍、约35倍、约40倍、约45倍、约50倍或约100倍。

可以使用任何合适的方法来确定预期突变和插入缺失的数量，所述方法例如，描述于国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)；Komor,A.C.等人,“Programmable editing of a target base in genomic DNAwithout double-stranded DNA cleavage”Nature 533,420-424(2016)；Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017)；和Komor,A.C等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abaseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)；其全部内容以引用方式并入本文。

在一些实施方案中，为了计算插入缺失频率，扫描测序读取以对位于可以出现插入缺失的窗口两侧的两个10-bp序列进行精确匹配。如果没有定位到精确匹配，则从分析中排除读取。如果此插入缺失窗口的长度与参考序列精确匹配，则读取被分类为不包含插入缺失。如果插入缺失窗口比参考序列长或短两个或更多个碱基，则测序读取分别被分类为插入或缺失。在一些实施方案中，本文提供的碱基编辑器可以限制核酸区域中插入缺失的形成。在一些实施方案中，所述区域位于碱基编辑器靶向的核苷酸处或碱基编辑器靶向的核苷酸的2、3、4、5、6、7、8、9或10个核苷酸内的区域。

在靶核苷酸区域形成的插入缺失的数量可以取决于核酸(例如，细胞基因组内的核酸)暴露于碱基编辑器的时间量。在一些实施方案中，在将核酸靶核苷酸序列(例如，细胞基因组内的核酸)暴露于碱基编辑器至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天后确定插入缺失的数量或比例。应当理解，如本文所述的碱基编辑器的特征可以应用于任何融合蛋白，或本文提供的使用所述融合蛋白的方法。

碱基编辑器效率的细节描述于国际PCT申请号PCT/2017/045381(WO 2018/027078)和PCT/US2016/058344(WO 2017/070632)，其中的每一个都以引用方式整体并入本文。另外参见Komor,A.C.等人,“Programmable editing of a target base in genomicDNA without double-stranded DNA cleavage”Nature 533,420-424(2016)；Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C in genomic DNA withoutDNA cleavage”Nature 551,464-471(2017)；和Komor,A.C.等人,“Improved baseexcision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abase editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)，其全部内容以引用方式并入本文。在一些实施方案中，使用本文提供的方法编辑一个或多个基因中的多个核碱基对导致形成至少一种预期突变。在一些实施方案中，所述至少一种预期突变结果的所述形成导致基因正常功能的破坏。在一些实施方案中，所述至少一种预期突变结果的所述形成减少或消除了由所述基因编码的蛋白质的表达。应当理解，可以使用本文提供的任何方法或方法的组合来完成多重编辑。

多重编辑

在一些实施方案中，本文提供的碱基编辑器系统能够对一个或多个基因中的多个核碱基对进行多重编辑。在一些实施方案中，多个核碱基对位于同一基因或一个或多个基因中，其中至少一个基因位于不同的基因座中。在一些实施方案中，多重编辑可以包括一个或多个向导多核苷酸。在一些实施方案中，多重编辑可以包括一个或多个碱基编辑器系统。在一些实施方案中，多重编辑可以包括一个或多个碱基编辑器系统，其具有单向导多核苷酸或多向导多核苷酸。在一些实施方案中，多重编辑可以包括一个或多个向导多核苷酸和单碱基编辑器系统。在一些实施方案中，多重编辑可以包括至少一个向导多核苷酸，所述向导多核苷酸需要或不需要PAM序列以靶向结合靶多核苷酸序列。在一些实施方案中，多重编辑可以包括至少一个不需要PAM序列以靶向结合靶多核苷酸序列的向导多核苷酸和至少一个需要PAM序列以靶向结合靶多核苷酸序列的向导多核苷酸的混合体。应当理解，使用如本文所述的任何碱基编辑器的多重编辑的特征可以应用于使用本文提供的任何碱基编辑器的方法的任何组合。还应当理解，使用如本文所述的任何碱基编辑器的多重编辑可以包括多个核碱基对的连续编辑。

在一些实施方案中，多个核碱基对在一个或多个基因中。在一些实施方案中，多个核碱基对在同一基因中。在一些实施方案中，一个或多个基因中的至少一个基因位于不同的基因座中。

在一些实施方案中，编辑是编辑至少一个蛋白质编码区、至少一个蛋白质非编码区或至少一个蛋白质编码区和至少一个蛋白质非编码区中的多个核碱基对。

在一些实施方案中，编辑与一个或多个向导多核苷酸结合。在一些实施方案中，碱基编辑器系统可以包含一个或多个碱基编辑器系统。在一些实施方案中，碱基编辑器系统可以包含一个或多个与单向导多核苷酸或多向导多核苷酸结合的碱基编辑器系统。在一些实施方案中，编辑与一个或多个向导多核苷酸和单个碱基编辑器系统结合。在一些实施方案中，编辑与至少一个不需要PAM序列以靶向结合靶多核苷酸序列的向导多核苷酸，或与至少一个需要PAM序列以靶向结合靶多核苷酸序列的向导多核苷酸，或与至少一个不需要PAM序列以靶向结合靶多核苷酸序列的向导多核苷酸和至少一个需要PAM序列以靶向结合靶多核苷酸序列的向导多核苷酸的混合体结合。应当理解，使用如本文所述的任何碱基编辑器的多重编辑的特征可以应用于使用本文提供的任何碱基编辑器的方法的任何组合。还应当理解，编辑可以包括多个核碱基对的连续编辑。

在一些实施方案中，能够对一个或多个基因中的多个核碱基对进行多重编辑的碱基编辑器系统包含ABE7、ABE8和/或ABE9碱基编辑器之一。在一些实施方案中，与包含ABE7碱基编辑器之一的能够多重编辑的碱基编辑器系统相比，包含本文所述的ABE8碱基编辑器变体之一的能够多重编辑的碱基编辑器系统具有更高的多重编辑效率。在一些实施方案中，与包含ABE7碱基编辑器之一的能够多重编辑的碱基编辑器系统相比，包含本文所述的ABE8碱基编辑器变体之一的能够多重编辑的碱基编辑器系统具有升高至少1％、至少2％、至少3％、至少4％、至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少99％、至少100％、至少105％、至少110％、至少115％、至少120％、至少125％、至少130％、至少135％、至少140％、至少145％、至少150％、至少155％、至少160％、至少165％、至少170％、至少175％、至少180％、至少185％、至少190％、至少195％、至少200％、至少210％、至少220％、至少230％、至少240％、至少250％、至少260％、至少270％、至少280％、至少290％、至少300％、至少310％、至少320％、至少330％、至少340％、至少350％、至少360％、至少370％、至少380％、至少390％、至少400％、至少450％或至少500％的多重编辑效率。在一些实施方案中，与包含ABE7碱基编辑器之一的能够多重编辑的碱基编辑器系统相比，包含本文所述的ABE8碱基编辑器变体之一的能够多重编辑的碱基编辑器系统具有升高至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2倍、至少3.3倍、至少3.4倍、至少3.5倍、至少4.0倍、至少4.5倍、至少5.0倍、至少5.5倍或至少6.0倍的多重编辑效率。

融合蛋白在宿主细胞中的表达

包含腺苷脱氨酶变体的本发明的融合蛋白可以使用技术人员已知的常规方法在几乎任何关注的宿主细胞(包括但不限于细菌、酵母、真菌、昆虫、植物和动物细胞)中表达。例如，编码本发明的腺苷脱氨酶的DNA可以通过根据cDNA序列设计合适的CDS上游和下游引物来克隆。克隆的DNA可以直接，或在需要时经限制性酶消化后，或在添加合适的接头和/或核定位信号后，与编码碱基编辑系统的一个或多个另外的组分的DNA连接。碱基编辑系统在宿主细胞中翻译以形成复合物。

编码本文所述的蛋白结构域的DNA可以通过化学合成DNA，或通过利用PCR方法和Gibson组装方法连接合成的部分重叠的寡DNA短链来构建编码其全长的DNA获得。通过化学合成，或PCR方法或Gibson组装方法的组合构建全长DNA的优点是可以根据引入DNA的宿主将待使用的密码子设计成CDS全长。在异源DNA的表达中，通过将其DNA序列转化为宿主生物体中高频率使用的密码子，预计蛋白质表达水平会增加。例如，作为待使用的宿主中密码子使用频率的数据，可以使用Kazusa DNA Research Institute主页上公开的遗传密码使用频率数据库(http://www.kazusa.or.jp/codon/index.html)，或者可以参考显示每个宿主中密码子使用频率的文件。通过参考获得的数据和要引入的DNA序列，可以将用于DNA序列的密码子中在宿主中显示低使用频率的密码子转换为编码相同氨基酸并显示高使用频率的密码子。

可以例如通过将DNA连接到合适的表达载体中的启动子下游来产生含有编码核酸序列识别模块的DNA的表达载体和/或核酸碱基转化酶。

作为表达载体，来源于大肠杆菌的质粒(例如，pBR322、pBR325、pUC12、pUC13)；来源于枯草芽孢杆菌的质粒(例如，pUB110、pTP5、pC194)；来源于酵母的质粒(例如，pSH19、pSH15)；昆虫细胞表达质粒(例如，pFast-Bac)；动物细胞表达质粒(例如，pA1-11、pXT1、pRc/CMV、pRc/RSV、pcDNAI/Neo)；噬菌体，诸如λ噬菌体等；昆虫病毒载体，诸如杆状病毒等(例如，BmNPV、AcNPV)；动物病毒载体，诸如逆转录病毒、牛痘病毒、腺病毒等被使用。

关于待使用的启动子，可以使用适合用于基因表达的宿主的任何启动子。在使用双链断裂的常规方法中，因为宿主细胞的存活率有时会因毒性而显著降低，所以希望通过使用诱导性启动子在诱导开始时增加细胞数量。然而，因为通过表达本发明的核酸修饰酶复合物也可以提供足够的细胞增殖，所以可以不受限制地使用组成型启动子。

例如，当宿主是动物细胞时，可以使用SR.α启动子、SV40启动子、LTR启动子、巨细胞病毒(CMV)启动子、劳斯肉瘤病毒(RSV)启动子、莫洛尼小鼠白血病病毒(MoMuLV)、LTR、单纯疱疹病毒胸苷激酶(HSV-TK)启动子等。其中，CMV启动子、SR.α启动子等是优选的。

当宿主是大肠杆菌时，可以使用trp启动子、lac启动子、recA启动子、lamda.P.sub.L启动子、lpp启动子、T7启动子等。

当宿主属于芽孢杆菌属时，可以使用SPO1启动子、SPO2启动子、penP启动子等。

当宿主是酵母时，可以使用Gal1/10启动子、PHO5启动子、PGK启动子、GAP启动子、ADH启动子等。

当宿主是昆虫细胞时，可以使用多角体蛋白启动子、P10启动子等。

当宿主是植物细胞时，可以使用CaMV35S启动子、CaMV19S启动子、NOS启动子等。

本发明中使用的表达载体，除以上提及的以外还可以包括增强子、剪接信号、终止子、polyA添加信号、选择标志物(诸如耐药基因、营养缺陷型互补基因等)，可以使用复制起点等。

编码本文所述的蛋白质结构域的RNA可以通过例如体外转录编码本文公开的任何融合蛋白的核酸序列来制备。

本发明的融合蛋白可以通过将包含编码融合蛋白的核酸序列的表达载体引入细胞中而在细胞内表达。

关注的宿主细胞包括但不限于细菌、酵母、真菌、昆虫、植物和动物细胞。例如，宿主细胞可能包含来自大肠杆菌属的细菌，诸如大肠杆菌K12.cndot.DH1[Proc.Natl.Acad.Sci.USA,60,160(1968)]、大肠杆菌JM103[Nucleic Acids Research,9,309(1981)]、大肠杆菌JA221[Journal of Molecular Biology,120,517(1978)]、大肠杆菌HB101[Journal of Molecular Biology,41,459(1969)]、大肠杆菌C600[Genetics,39,440(1954)]等。

宿主细胞可以包含来自芽孢杆菌属的细菌，例如枯草芽孢杆菌M1114[Gene,24,255(1983)]、枯草芽孢杆菌207-21[Journal of Biochemistry,95,87(1984)]等。

宿主细胞可以是酵母细胞。酵母细胞的实例包括酿酒酵母(Saccharomycescerevisiae)AH22、AH22R.sup.-、NA87-11A、DKD-5D、20B-12、粟酒裂殖酵母(Schizosaccharomyces pombe)NCYC1913、NCYC2036、毕赤酵母(Pichia pastoris)KM71等。

当病毒递送方法利用病毒AcNPV时，可以使用来源于甘蓝夜蛾幼虫的建立系的细胞(草地贪夜蛾细胞；Sf细胞)、来源于甘蓝尺蠖(Trichoplusia ni)中肠的MG1细胞、来源于甘蓝尺蠖卵巢的High Five^TM细胞、来源于大丽花夜盗蛾的细胞、来源于盐泽灯蛾(Estigmena acrea)的细胞等。当病毒是BmNPV时，使用来源于家蚕的建立系的细胞(家蚕N细胞；BmN细胞)等。例如，作为Sf细胞，Sf9细胞(ATCC CRL1711)、Sf21细胞[以上所有，体内,13，213-217(1977)]等被使用。

昆虫可以是任何昆虫，例如家蚕、果蝇、蟋蟀等的幼虫[Nature,315,592(1985)]。

本发明考虑的动物细胞包括但不限于细胞系，诸如猴COS-7细胞、猴Vero细胞、中国仓鼠卵巢(CHO)细胞、dhfr基因缺陷型CHO细胞、小鼠L细胞、小鼠AtT-20细胞、小鼠骨髓瘤细胞、大鼠GH3细胞、人类FL细胞等；多能干细胞诸如iPS细胞、来源于人类和其他哺乳动物的ES细胞，以及从各种组织制备的原代培养细胞。此外，还可以使用斑马鱼胚胎、非洲爪蟾卵母细胞等。

本发明还考虑植物细胞。可以使用植物细胞，植物细胞包括但不限于由各种植物(例如，谷物诸如水稻、小麦、玉米等；产品作物诸如番茄、黄瓜、茄子等；园林植物诸如康乃馨、洋桔梗等；以及其他植物诸如烟草、拟南芥等)制备的悬浮培养细胞、愈伤组织、原生质体、叶节、根段等。

上述所有宿主细胞可以是单倍体(一倍体)，或多倍体(例如二倍体、三倍体、四倍体等)。使用常规方法，原则上，仅引入一条同源染色体的突变会产生异源细胞。因此，除非突变是显性的，否则不会表达所需表型。对于隐性突变，由于劳动和时间要求，获得纯合细胞可能不方便。相比之下，根据本发明，因为可以将突变引入基因组中同源染色体上的任何等位基因，所以即使在隐性突变的情况下也可以在单代中表达所需的表型，从而解决与常规诱变方法相关的问题。

表达载体可以根据宿主的种类通过已知方法(例如溶菌酶法、感受态法、PEG法、CaCl₂共沉淀法、电穿孔、显微注射、粒子枪法、脂质体转染、农杆菌介导的递送等)引入。

大肠杆菌可以根据描述于例如Proc.Natl.Acad.Sci.USA,69,2110(1972),Gene,17,107(1982)的方法进行转化。

可以根据描述于例如Molecular&General Genetics,168,111(1979)的方法将芽孢杆菌属引入载体中。

可以根据描述于例如Methods in Enzymology,194,182-187(1991),Proc.Natl.Acad.Sci.USA,75,1929(1978)的方法将酵母引入载体中。

可以根据描述于例如Bio/Technology,6,47-55(1988)的方法将昆虫细胞和昆虫引入载体中。

可以根据描述于例如Cell Engineering附加卷8,New Cell EngineeringExperiment Protocol,263-267(1995)(由Shujunsha出版)，和Virology,52,456(1973)的方法将载体引入动物细胞。

包含载体的细胞可以根据宿主的种类按照已知的方法进行培养。例如，当培养大肠杆菌或芽孢杆菌属时，优选液体培养基作为用于培养的培养基。培养基优选地含有转化体生长必需的碳源、氮源、无机物等。碳源的实例包括葡萄糖、糊精、可溶性淀粉、蔗糖等；氮源的实例包括无机物或有机物，诸如铵盐、硝酸盐、玉米浆、蛋白胨、酪蛋白、肉提取物、大豆饼、马铃薯提取物等；并且无机物的实例包括氯化钙、磷酸二氢钠、氯化镁等。培养基可以含有酵母提取物、维生素、生长促进因子等。培养基的pH值优选为约5约8。

例如，作为用于培养大肠杆菌的培养基，优选含有葡萄糖、酪蛋白氨基酸的M9培养基[Journal of Experiments in Molecular Genetics,431-433,Cold Spring HarborLaboratory,New York 1972]。例如，在有需要的情况下，可以将试剂诸如3β-吲哚基丙烯酸添加到培养基中以确保启动子的有效功能。大肠杆菌通常在约15至约43℃下培养。必要时可以进行曝气和搅拌。

芽孢杆菌属通常在约30至约40℃下培养。必要时可以进行曝气和搅拌。

用于培养酵母的培养基的实例包括伯克霍尔德(Burkholder)基本培养基[Proc.Natl.Acad.Sci.USA,77,4505(1980)]、含有0.5％酪蛋白氨基酸的SD培养基[Proc.Natl.Acad.Sci.USA,81,5330(1984)]等。培养基的pH优选为约5至约8。培养通常在约20℃至约35℃下进行。必要时可以进行曝气和搅拌。

例如，作为用于培养昆虫细胞或昆虫的培养基，含有适当的诸如灭活的10％牛血清等的添加剂等的格雷斯(Grace's)昆虫培养基[Nature,195,788(1962)]被使用。培养基的pH优选为约6.2至约6.4。培养通常在约27℃下进行。必要时可以进行曝气和搅拌。

例如，作为用于培养动物细胞的培养基，含有约5至约20％胎牛血清的最低基本培养基(MEM)[Science,122,501(1952)]、杜比柯(Dulbecco)改良Eagle培养基(DMEM)[Virology,8,396(1959)]、RPMI 1640培养基[The Journal of the American MedicalAssociation,199,519(1967)]、199培养基[Proceeding of the Society for theBiological Medicine,73,1(1950)]等被使用。培养基的pH优选为约6至约8。培养通常在约30℃至约40℃下进行。必要时可以进行曝气和搅拌。

例如，作为用于培养植物细胞的培养基，MS培养基、LS培养基、B5培养基等被使用。培养基的pH优选为约5至约8。培养通常在约20℃至约30℃下进行。必要时可以进行曝气和搅拌。

当高等真核细胞诸如动物细胞、昆虫细胞、植物细胞等用作宿主细胞时，在诱导型启动子(例如，金属硫蛋白启动子(由重金属离子诱导)、热休克蛋白启动子(由热休克诱导)、Tet-ON/Tet-OFF系统启动子(由添加或去除四环素或其衍生物诱导)、类固醇响应型启动子(由类固醇激素或其衍生物诱导)等)的调节下将编码本发明的碱基编辑系统(例如，包括腺苷脱氨酶变体)的DNA引入宿主细胞中,在适当的阶段将诱导物质添加到培养基(或从培养基移除)以诱导核酸修饰酶复合物的表达，培养给定的时间以进行碱基编辑并将突变引入靶基因，可以实现碱基编辑系统的瞬时表达。

原核细胞诸如大肠杆菌等的可以利用诱导型启动子。诱导型启动子的实例包括但不限于lac启动子(由IPTG诱导)、cspA启动子(由冷休克诱导)、araBAD启动子(由阿拉伯糖诱导)等。

或者，当高等真核细胞诸如动物细胞、昆虫细胞、植物细胞等用作宿主细胞时，上述诱导型启动子也可以用作载体去除机制。即，载体装配有在宿主细胞中起作用的复制起点，和编码编码由上述诱导型启动子调节的蛋白质的核酸表达的复制所必需的蛋白质的核酸(例如，动物细胞的SV40和大T抗原、oriP和EBNA-1等)。因此，虽然载体在诱导物质存在的情况下可以自主复制，但当除去诱导物质时，不能进行自主复制，并且载体随着细胞分裂自然脱落(通过添加Tet-OFF系统载体中的四环素和强力霉素不能进行自主复制)。

递送

如本文所述评估靶向靶序列中一个或多个核苷酸(例如，血红蛋白β亚基(HbB)基因或HbG1/2基因的启动子区域)的核碱基编辑器的适用性。在一个实施方案中，用编码本文所述的碱基编辑系统的一个或多个核酸分子连同少量编码报告分子(例如，GFP)的载体来转染、转导或以其他方式修饰单个关注的细胞。这些细胞可以是本领域已知的任何细胞系，包括。或者，可以使用原代细胞(例如，人类)。细胞也可以是从受试者或个体，诸如从组织活检、手术、血液、血浆、血清或其他生物流体中获得的造血干细胞/和祖细胞(HSPC)。这样的细胞可能与最终的细胞靶标有关。在实施方案中，HSPC细胞是人类CD34⁺造血干细胞/祖细胞(HSPC)。

可以使用病毒载体进行递送。在一个实施方案中，可以使用脂质体转染(诸如脂质转染胺或Fugene)或通过电穿孔进行转染。转染后，报告基因(例如，GFP)的表达可以通过荧光显微镜或流式细胞术来确定，以确认一致和高水平的转染。这些初步转染可以包括不同的核碱基编辑器，以确定哪些编辑器组合具有最大活性。所述系统可以包括一种或多种不同的载体。在一个实施方案中，碱基编辑器被密码子优化以表达所需的细胞类型，优先真核细胞，优选哺乳动物细胞或人类细胞。

如本文所述评估核碱基编辑器的活性，即通过对细胞的基因组进行测序以检测靶序列中的改变。对于桑格(Sanger)测序，将纯化的PCR扩增子克隆到质粒骨架中，转化、小规模制备并用单一引物进行测序。也可以使用下一代测序(NGS)技术进行测序。使用下一代测序时，扩增子可能为300-500bp，预期的切口位点不对称放置。在PCR之后，可以将下一代测序衔接子和条形码(例如，Illumina多重衔接子和索引)添加到扩增子的末端，例如用于高通量测序(例如，在Illumina MiSeq上)。可以选择在初始测试中诱导最大水平的靶特异性改变的融合蛋白用于进一步评估。

在特定实施方案中，核碱基编辑器用于靶向关注的多核苷酸。在一个实施方案中，本发明的核碱基编辑器与一个或多个向导RNA一起被递送至细胞(例如，造血干细胞/和祖细胞(HSPC))，所述向导RNA用于靶向细胞基因组内的一个或多个关注的核酸序列，从而改变一个或多个靶基因(例如，造血干细胞/和祖细胞(HSPC))。在一些实施方案中，碱基编辑器被一个或多个向导RNA靶向以将一种或多种编辑引入到一个或多个关注的靶序列(例如，血红蛋白β亚基(HbB)基因或HBG1/2基因的启动子区域)。在一些实施方案中，对一个或多个关注的基因的序列的一种或多种编辑降低或消除宿主细胞(例如，造血干细胞/和祖细胞(HSPC))中由所述基因编码的蛋白质的表达。在一些实施方案中，由一个或多个关注的靶序列(例如，血红蛋白β亚基(HbB)基因或HBG1/2基因的启动子区域)编码的一种或多种蛋白质的表达在宿主细胞(例如，造血干细胞/祖细胞(HSPC))中被完全敲除或消除。

在一些实施方案中，宿主细胞是哺乳动物细胞。在一些实施方案中，宿主细胞为人类细胞。

碱基编辑器系统基于核酸的递送

可以将编码根据本发明的碱基编辑器系统的核酸分子通过本领域已知的方法或如本文所述的方法体外或体内施用于受试者或递送到细胞中。例如，可以通过载体(例如，病毒或非病毒载体)，或通过裸DNA、DNA复合物、脂质纳米颗粒或前述组分的组合递送包含脱氨酶(例如，胞苷或腺嘌呤脱氨酶)的碱基编辑器系统。

系统的任何RNA，例如向导RNA或碱基编辑器编码mRNA，都可以以RNA的形式递送。可以使用体外转录生成碱基编辑器编码mRNA。例如，可以使用含有以下元件的PCR盒合成核酸酶mRNA，所述PCR盒含有以下元件：T7启动子、任选的科扎克(kozak)序列(GCCACC)、核酸酶序列和3'UTR，诸如来自β珠蛋白-polyA尾的3'UTR。所述盒可以用于T7聚合酶的转录。向导多核苷酸(例如，gRNA)也可以使用体外转录从含有T7启动子的盒中转录，随后是序列“GG”和向导多核苷酸序列。

为了增强表达并降低可能的毒性(例如免疫原性)，碱基编辑器编码序列和/或向导核酸可以被修饰以包含一个或多个经修饰的核苷，例如使用伪-U或5-甲基-C。在一些实施方案中，碱基编辑器编码序列和/或向导核酸含有一个或多个化学修饰的核碱基，诸如2'-O-甲基(2'-OMe)、2'-脱氧(2'-H)、2'-O-C1-3烷基-O-C1-3烷基诸如2'-甲氧基乙基(“2'-MOE”)、2'-氟(“2'-F”)、2'-氨基(“2'-NH2”)、2'-阿拉伯糖基(“2'-arabino"”)核苷酸、2'-F-阿拉伯糖基(“2'-F-arabino”)核苷酸、2'-锁核酸(“LNA”)核苷酸、2'-非锁核酸(“ULNA”)核苷酸、L形式的糖(“L-糖”)、4'-硫代核糖核苷酸或如本文所述的任何化学修饰。在一些实施方案中，碱基编辑器编码序列和/或向导核酸含有核苷酸间键合修饰，诸如硫代磷酸酯“P(S)”(P(S))、磷酸羧酸酯(P(CH2)nCOOR)诸如膦酰乙酸酯“PACE”(P(CH2COO-))、硫代膦酸羧酸酯((S)P(CH2)nCOOR)诸如硫代膦酰乙酸酯“thioPACE”((S)P(CH2)nCOO-))、烷基膦酸酯(P(C1-3烷基)诸如甲基膦酸酯-P(CH3)、硼烷膦酸酯(P(BH3))和二硫代磷酸酯(P(S)2)。在一些实施方案中，碱基编辑器编码序列和/或向导核酸含有核碱基化学修饰，诸如2-硫尿嘧啶(“2-thioU”)、2-硫胞嘧啶(“2-thioC”)、4-硫尿嘧啶(“4-thioU”)、6-硫鸟嘌呤(“6-thioG”)、2-氨基腺嘌呤(“2-aminoA”)、2-氨基嘌呤、假尿嘧啶、次黄嘌呤、7-去氮鸟嘌呤、7-去氮-8-氮鸟嘌呤、7-去氮腺嘌呤、7-去氮-8-氮腺嘌呤、5-甲基胞嘧啶(“5-甲基C”)、5-甲基尿嘧啶(“5-甲基U”)、5-羟甲基胞嘧啶、5-羟甲基尿嘧啶、5,6-脱氢尿嘧啶、5-丙炔基胞嘧啶、5-丙炔基尿嘧啶、5-乙炔基胞嘧啶、5-乙炔基尿嘧啶、5-烯丙基尿嘧啶(“5-allylU”)、5-烯丙基胞嘧啶(“5-allylC”)、5-氨基烯丙基尿嘧啶(“5-氨基烯丙基U”)、5-氨基烯丙基胞嘧啶(“5-氨基烯丙基C”)、脱碱基核苷酸、Z碱基、P碱基、非结构化核酸(“UNA”)、异鸟嘌呤(“isoG”)、异胞嘧啶(“isoC”)。在一些实施方案中，碱基编辑器编码序列和/或向导核酸在核苷酸糖、核碱基、磷酸二酯键和/或核苷酸磷酸酯上含有一个或多个同位素修饰。这种修饰包括包含15N、13C、14C、氘、3H、32P、125I、131I原子或其他原子或其元素中的一个或多个的核苷酸。在各种实施方案中，修饰的核碱基降低毒性(例如，免疫原性)和/或碱基编辑器编码序列和/或向导核酸(例如，mRNA)的稳定性(例如，增加血清半衰期)。

纳米颗粒(可以是有机或无机的)可以用于递送碱基编辑器系统或其组分。纳米粒子在本领域中是众所周知的，并且任何合适的纳米粒子都可以用于递送碱基编辑器系统或其组分，或编码这些组分的核酸分子。在一个实施例中，有机(例如，脂质和/或聚合物)纳米颗粒在本公开的某些实施方案中适合用作递送载体。用于纳米颗粒制剂和/或基因转移的示例性脂质，示于表17(下文)中。

表17

表18列出了用于基因转移和/或纳米颗粒制剂的示例性聚合物。

表18

表19总结了编码本文所述融合蛋白的多核苷酸的递送方法。

表19

在另一个方面，碱基编辑系统组分或编码此类组分的核酸(例如，多核苷酸可编程核苷酸结合结构域(例如，Cas9)，例如像Cas9或其变体，以及靶向关注的核酸序列的gRNA)的递送，可以通过向细胞递送核糖核蛋白(RNP)来完成。一般来说，核糖核蛋白(RNP)是核糖核酸和RNA结合蛋白的复合物。RNP包含与靶向gRNA复合的多核苷酸可编程核苷酸结合结构域(例如，Cas9)。本文所述的RNP或多核苷酸可以使用已知方法(诸如电穿孔、核转染或阳离子脂质介导的方法)递送至细胞，例如，如Zuris,J.A.等人,2015,Nat.Biotechnology,33(1):73-80所报道，其以引用方式整体并入本文。RNP有利于在CRISPR碱基编辑系统中使用，特别是对于难以转染的细胞，诸如原代细胞。此外，RNP还可以缓解细胞中蛋白质表达可能出现的困难，尤其是当可以用于CRISPR质粒的真核启动子(例如，CMV或EF1A)未良好表达时。有利地，RNP的使用不需要将外源DNA递送到细胞中。此外，因为包含核酸结合蛋白和gRNA复合物的RNP会随着时间降解，所以RNP的使用有可能限制脱靶效应。以类似于基于质粒的技术的方式，RNP可以用于递送结合蛋白(例如，Cas9变体)和指导同源定向修复(HDR)。

例如，编码碱基编辑器系统的核酸分子作为裸DNA或RNA，通过转染或电穿孔的方式可以直接递送至细胞(例如，造血干细胞/祖细胞)，或者可以与促进靶细胞摄取的分子(例如，N-乙酰半乳糖胺)缀合。也可以使用编码碱基编辑器系统和/或它们的组分的载体。在特定实施方案中，多核苷酸(例如编码碱基编辑器系统或其功能组分的mRNA)可以与一种或多种如本文所述的向导RNA共电穿孔。

核酸载体可以包含一个或多个编码本文所述融合蛋白结构域的序列。载体还可以编码与核定位信号、核仁定位信号或线粒体定位信号可操作地连接的碱基编辑系统器的蛋白质组分。作为一个实例，载体可以包含Cas9编码序列，其包含一种或多种核定位序列(例如，来自SV40的核定位序列)，以及一种或多种脱氨酶。

载体还可以包含任何合适数量的调节/控制元件，例如启动子、增强子、内含肽、聚腺苷酸化信号、科扎克(Kozak)共有序列或内部核糖体进入位点(IRES)。这些元件在本领域中是众所周知的。

根据本公开的载体包括重组病毒载体。示例性病毒载体如上文所说明。也可以使用本领域已知的其他病毒载体。此外，病毒颗粒可以用于以核酸和/或蛋白质形式递送碱基编辑器系统组分。例如，可以组装“空”病毒颗粒以含有碱基编辑器系统或组分作为货物。病毒载体和病毒颗粒也可以被工程化以掺入靶向配体来改变靶组织特异性。

本文所述的载体可以包括驱动碱基编辑器系统或其组件的表达的调节元件。这种载体包括具有反向长末端重复序列的腺相关病毒(AAV ITR)。使用AAV-ITR可以有利于消除对会占用载体中的空间的另外的启动子元件的需要。释放的另外的空间可以用于驱动另外的元件(诸如向导核酸或选择性标志物)的表达。ITR活性可以用于降低由于过度表达而导致的可能毒性。

可以使用任何合适的启动子来驱动碱基编辑系统或其组分以及(在适当情况下)向导核酸的表达。对于普遍表达，启动子包括CMV、CAG、CBh、PGK、SV40、铁蛋白重链或轻链。对于脑或其他CNS细胞表达，合适的启动子包括：所有神经元的SynapsinI、兴奋性神经元的CaMKIIα、GABA能神经元的GAD67或GAD65或VGAT。对于肝细胞表达，合适的启动子包括白蛋白启动子。对于肺细胞表达，合适的启动子包括SP-B。对于内皮细胞，合适的启动子包括ICAM。对于造血细胞表达，合适的启动子包括IFNβ或CD45。对于成骨细胞表达，合适的启动子可以包括OG-2。

在一些实施方案中，本公开的碱基编辑器系统具有足够小的尺寸以允许单独的启动子驱动碱基编辑器和相容的向导核酸在相同核酸分子内的表达。例如，载体或病毒载体可以包含与编码碱基编辑器的核酸可操作地连接的第一启动子和与向导核酸可操作地连接的第二启动子。

用于驱动向导核酸表达的启动子可以包括：Pol III启动子，诸如使用Pol II启动子和内含肽盒表达gRNA腺相关病毒(AAV)的U6或H1。

在特定实施方案中，本发明的融合蛋白由存在于病毒载体(例如，腺相关病毒(AAV)、AAV3、AAV3b、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAVrh8、AAV10及其变体)或任何病毒载体的合适衣壳蛋白中的多核苷酸编码。因此，在一些方面，本公开涉及融合蛋白的病毒递送。病毒载体的实例包括逆转录病毒载体(例如，莫洛尼(Maloney)鼠白血病病毒，MML-V)、腺病毒载体(例如，AD100)、慢病毒载体(基于HIV和FIV的载体)、疱疹病毒载体(例如，HSV-2)。

在一些方面，本文所述的用于编辑细胞中特定基因的方法可以用于遗传修饰细胞(例如，造血干细胞/祖细胞(HSPC))。

病毒载体

因此，本文所述的碱基编辑器可以与病毒载体一起递送。在一些实施方案中，本文公开的碱基编辑器可以在包含在病毒载体中的核酸上编码。在一些实施方案中，碱基编辑器系统的一个或多个组分可以在一个或多个病毒载体上编码。例如，碱基编辑器和向导核酸可以在单个病毒载体上编码。在其他实施方案中，碱基编辑器和向导核酸在不同的病毒载体上编码。在任一情况下，碱基编辑器和向导核酸可以各自可操作地连接到启动子和终止子。在病毒载体上编码的组分的组合可以通过所选病毒载体的货物大小限制来确定。

使用基于RNA或DNA病毒的系统来递送碱基编辑器利用了使病毒靶向培养或宿主中的特定细胞，并将病毒有效载荷运输到核或宿主细胞基因组的高度进化过程。病毒载体可以直接向培养、患者中的细胞施用(体内)，或病毒载体可以用于体外处理细胞，并且修饰的细胞可以任选地向患者施用(离体)。基于病毒的常规系统可以包括用于基因转移的逆转录病毒、慢病毒、腺病毒、腺相关和单纯疱疹病毒载体。用逆转录病毒、慢病毒和腺相关病毒基因转移方法使宿主基因组中的整合成为可能，常常导致插入的转基因长期表达。此外，已在许多不同细胞类型和靶组织中观察到高转导效率。

病毒载体可以包括慢病毒(例如，基于HIV和FIV的载体)、腺病毒(例如，AD100)、逆转录病毒(例如，莫洛尼鼠白血病病毒、MML-V)、疱疹病毒载体(例如，HSV-2)和腺相关病毒(AAV)或其他质粒或病毒载体类型，特别是使用来自例如美国专利号8,454,972(腺病毒的配方、剂量)、美国专利号8,404,658(AAV的配方、剂量)和美国专利号5,846,946(DNA质粒的配方、剂量)以及来自涉及慢病毒、AAV和腺病毒的临床试验相关临床试验和出版物的配方和剂量。例如，对于AAV，施用途径、配方和剂量可以如美国专利号8,454,972和涉及AAV的临床试验中那样。对于腺病毒，施用途径、配方和剂量可以如美国专利号8,404,658和涉及腺病毒的临床试验中那样。对于质粒递送，施用途径、配方和剂量可以如美国专利号5,846,946和涉及质粒的临床研究中那样。剂量可以基于或外推到平均70kg的个体(例如，男性成年人类)，并且可以针对不同体重和物种的患者、受试者、哺乳动物进行调整。施用频率在医疗或兽医从业者(例如，医生、兽医)的权力范围内，取决于通常的因素，包括患者或受试者的年龄、性别、一般健康状况、其他疾患以及所解决的特定疾患或症状。病毒载体可以注射到关注的组织中。对于细胞类型特异性碱基编辑，碱基编辑器和任选的向导核酸的表达可以由细胞类型特异性启动子驱动。

逆转录病毒的趋向性可以通过掺入外来包膜蛋白质、扩增靶细胞的潜在靶群体来改变。慢病毒载体是能够转导或感染非分裂细胞并且通常产生高病毒效价的逆转录病毒载体。因此，逆转录病毒基因转移系统的选择将取决于靶组织。逆转录病毒载体包含封装能力高达6-10kb外来序列的顺式作用长末端重复序列。最小顺式作用LTR就足以用于载体的复制和封装，其接着用于将治疗基因整合至靶细胞中以提供持久的转基因表达。广泛使用的逆转录病毒载体包括基于鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猿免疫缺陷病毒(SIV)、人类免疫缺陷病毒(HIV)及其组合的那些载体(参见，例如，Buchscher等人,J.Virol.66:2731-2739(1992)；Johann等人,J.Virol.66:1635-1640(1992)；Sommnerfelt等人,Virol.176:58-59(1990)；Wilson等人,J.Virol.63:2374-2378(1989)；Miller等人,J.Virol.65:2220-2224(1991)；PCT/US94/05700)。

逆转录病毒载体，尤其是慢病毒载体，可能需要小于给定长度的多核苷酸序列以有效整合到靶细胞中。例如，与较小尺寸的逆转录病毒载体相比，长度大于9kb的逆转录病毒载体会导致低病毒滴度。在一些方面，本公开的碱基编辑器具有足够的大小，以便能够通过逆转录病毒载体有效地封装和递送到靶细胞中。在一些实施方案中，碱基编辑器的大小使得即使在与向导核酸和/或可靶向核酸酶系统的其他组分一起表达时也允许有效封装和递送。

封装细胞通常用于形成能够感染宿主细胞的病毒粒子。这种细胞包括封装腺病毒的293细胞，以及封装逆转录病毒的ψ2细胞或PA317细胞。用于基因疗法的病毒载体通常由生产细胞系产生，所述细胞系将核酸载体封装至病毒颗粒中。载体通常含有封装并随后整合至宿主中所需要的最小病毒序列，其他病毒序列由待表达的一个或多个多核苷酸的表达盒替换。缺失的病毒功能通常由封装细胞系以反式提供。例如，用于基因疗法的腺相关病毒(“AAV”)载体通常只具有来自AAV基因组的ITR序列，所述序列为封装并整合至宿主基因组中所需要。病毒DNA可以封装于细胞系中，其含有编码其他AAV基因，即rep和cap的辅助质粒，但是缺少ITR序列。细胞系也可以作为辅助感染腺病毒。辅助病毒可以促进AAV载体的复制以及AAV基因从辅助质粒的表达。在一些情况下，由于缺乏ITR序列，辅助质粒未大量封装。腺病毒的污染可以通过例如热处理来减少，与AAV相比，腺病毒对于热处理更敏感。

在优选瞬时表达的应用中，可以使用基于腺病毒的系统。基于腺病毒的载体能够在许多细胞类型中具有极高转导效率并且不需要细胞分裂。用这种载体已获得高效价和表达水平。此载体可以在相对简单的系统中大量产生。腺相关病毒(“AAV”)载体还可以用于向细胞转导靶核酸，例如，在体外产生核酸和肽，和体内和离体基因治疗程序中(参见，例如，West等人,Virology 160:38-47(1987)；美国专利号4,797,368；WO 93/24641；Kotin,HumanGene Therapy 5:793-801(1994)；Muzyczka,J.Clin.Invest.94:1351(1994)。许多出版物中描述了重组AAV载体的构建，包括美国专利号5,173,414；Tratschin等人,Mol.Cell.Biol.5:3251-3260(1985)；Tratschin等人,Mol.Cell.Biol.4:2072-2081(1984)；；Hermonat&Muzyczka,PNAS81:6466-6470(1984)；和Samulski等人,J.Virol.63:03822-3828(1989)。

AAV是一种小型的单链DNA依赖性病毒，属于细小病毒科。4.7kb野生型(wt)AAV基因组由两个基因组成，这两个基因分别编码四种复制蛋白和三种衣壳蛋白，并且任一端上侧接有145-bp反向末端重复序列(ITR)。病毒体由三种衣壳蛋白Vp1、Vp2和Vp3组成，所述衣壳蛋白以1:1:10的比率从相同开放阅读框产生，但从差异剪接(Vp1)和替代翻译起始位点(分别Vp2和Vp3)产生。Vp3是病毒粒子中最丰富的亚基，并且参与细胞表面的受体识别，从而定义了病毒的趋向性。已在Vp1的独特N端鉴定了一个在病毒感染中起作用的磷脂酶结构域。

与wt AAV类似，重组AAV(rAAV)利用顺式作用的145-bp ITR来侧接载体转基因盒，提供高达4.5kb的外源DNA封装。感染后，rAAV可以表达本发明的融合蛋白，并且通过以环状头对尾多联体形式附加存在以继续存在而不整合到宿主基因组中。尽管在体外和体内使用此系统的rAAV成功的实例很多，但当基因编码序列的长度等于或大于wt AAV基因组的尺寸时，有限封装容量限制了AAV介导的根因递送的使用。

可以基于应用选择病毒载体。例如，对于体内基因递送，AAV可能优于其他病毒载体。在一些实施方案中，AAV允许低毒性，这可能是由于纯化方法不需要可以活化免疫反应的细胞颗粒超离心。在一些实施方案中，AAV允许引起插入诱变的低可能性，因为它不整合到宿主基因组中。腺病毒通常用作疫苗，因为它们引起强烈的免疫原性反应。病毒载体的封装容量可以限制可以封装到载体中的碱基编辑器的大小。

AAV的封装容量约为4.5Kb或4.75Kb，包括两个145个碱基的反向末端重复序列(ITR)。这意味着公开的碱基编辑器以及启动子和转录终止子可以装配到单个病毒载体中。大于4.5或4.75Kb的构建体可以导致病毒产量显著降低。例如，SpCas9相当大，基因本身超过4.1Kb，使得其很难包装到AAV中。因此，本公开的实施方案包括使用长度比常规碱基编辑器短的公开的碱基编辑器。在一些实施例中，碱基编辑器小于4kb。公开的碱基编辑器可以小于4.5kb、4.4kb、4.3kb、4.2kb、4.1kb、4kb、3.9kb、3.8kb、3.7kb、3.6kb、3.5kb、3.4kb、3.3kb、3.2kb、3.1kb、3kb、2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2kb或1.5kb。在一些实施方案中，公开的碱基编辑器的长度为4.5kb或更小。

AAV可以是AAV1、AAV2、AAV5或其任何组合。可以根据要靶向的细胞选择AAV的类型；例如，可以选择AAV血清型1、2、5或杂交衣壳AAV1、AAV2、AAV5或其任何组合用于靶向脑或神经元细胞；并且可以选择AAV4用于靶向心脏组织。AAV8可以用于递送至肝脏。关于这些细胞的某些AAV血清型的列表可以见于Grimm,D.等人,J.Virol.82:5887-5911(2008))。

在一些实施方案中，慢病毒载体用于用编码碱基编辑器系统的多核苷酸转导关注的细胞。慢病毒是复杂的逆转录病毒，其具有在有丝分裂和有丝分裂后细胞中感染和表达其基因的能力。最常见的慢病毒是人类免疫缺陷病毒(HIV)，其使用其他病毒的包膜糖蛋白靶向广泛的细胞类型。

慢病毒可以如下制备。克隆pCasES10(含有慢病毒转移质粒骨架)后，低通路(p＝5)的HEK293FT在具有10％胎牛血清并且没有抗生素的DMEM中进行转染的前一天被接种到T-75烧瓶中至50％汇合度。20小时后，将培养基更换为OptiMEM(无血清)培养基，并且在4小时后进行转染。用10μg慢病毒转移质粒(pCasES10)和以下封装质粒转染细胞：5μg的pMD2.G(VSV-g假型)和7.5μg的psPAX2(gag/pol/rev/tat)。可以在4mL OptiMEM中使用阳离子脂质递送剂(50μl脂质转染胺2000和100μl Plus试剂)进行转染。6小时后，将培养基更换为具有10％胎牛血清的无抗生素DMEM。这些方法在细胞培养中使用血清，但优选无血清方法。

慢病毒可以如下纯化。48小时后收获病毒上清液。首先清除上清液中的碎片并通过0.45μm低蛋白结合(PVDF)过滤器过滤。然后将它们在超速离心机中以24,000rpm的速度旋转2小时。病毒颗粒在4℃下在50μl的DMEM中重悬过夜。然后将它们等分并立即在-80℃下冷冻。

在另一个实施方案中，还考虑了基于马传染性贫血病毒(EIAV)的最小非灵长类慢病毒载体。在另一个实施方案中，

是一种基于马传染性贫血病毒的表达血管抑制蛋白内皮抑素和血管抑素的慢病毒基因治疗载体，其预期通过视网膜下注射递送。在另一个实施方案中，考虑使用自灭活慢病毒载体。

AAV载体的小型封装能力使得许多超过这个大小的基因的递送和/或使用大型生理调节元件具有挑战性。例如，可以通过将待递送的一个或多个蛋白质分裂成两个或多个片段来解决这些挑战，其中N端片段与分裂的内含肽-N融合，C端片段与分裂的内含肽-C融合。然后将这些片段封装成两个或更多个AAV载体。如本文所用，“内含肽”是指连接侧翼N端和C端外显肽(例如，待连接的片段)的自剪接蛋白内含肽(例如，肽)。用于连接异源蛋白质片段的某些内含肽的用途描述于例如，Wood等人,J.Biol.Chem.289(21)；14512-9(2014)。例如，当融合以分离蛋白质片段时，内含肽IntN和IntC相互识别，将自身剪接并同时连接它们所融合的蛋白质片段的侧翼N端和C端外显肽，从而由两个蛋白质片段重构全长蛋白质。其他合适的内含肽对于本领域技术人员将是显而易见的。

本发明的融合蛋白片段的长度可以不同。在一些实施方案中，蛋白质片段的长度范围为2个氨基酸至约1000个氨基酸。在一些实施方案中，蛋白质片段的长度范围为约5个氨基酸至约500个氨基酸。在一些实施方案中，蛋白质片段的长度范围为约20个氨基酸至约200个氨基酸。在一些实施方案中，蛋白质片段的长度范围为约10个氨基酸至约100个氨基酸。其他长度的合适蛋白质片段对于本领域技术人员将是显而易见的。

在一个实施方案中，双AAV载体是通过将一个大的转基因表达盒分裂成单独的两半(5'和3'末端，或头部和尾部)来产生的，其中所述盒的每一半被封装在单个AAV载体中(＜5kb)。然后两个双AAV载体共感染同一细胞后，实现全长转基因表达盒的重新组装，之后进行：(1)5'和3'基因组之间的同源重组(HR)(双AAV重叠载体)；(2)ITR介导的5'和3'基因组的尾对头串联(双AAV反式剪接载体)；或(3)这两种机制的组合(双AAV杂交载体)。体内使用双AAV载体导致全长蛋白质的表达。双AAV载体平台的使用表示了针对尺寸＞4.7kb的转基因的有效且可行的基因转移策略。

内含肽

内含肽(插入蛋白)是存在于多种不同生物体中的自动加工结构域，它们执行称为蛋白质剪接的过程。蛋白质剪接是一个多步骤的生物化学反应，包括肽键的切割和形成。虽然蛋白质剪接的内源性底物是存在于含有内含肽的生物体中的蛋白质，但内含肽也可以用于化学处理几乎任何多肽骨架。

在蛋白质剪接中，内含肽通过切割两个肽键将自身从前体多肽中切除，从而通过形成新的肽键连接侧翼外显肽(外部蛋白质)序列。这种重排发生在翻译后(或可能是共翻译)。内含肽介导的蛋白质剪接自发发生，只需要折叠内含肽结构域。

约5％的内含肽是分裂的内含肽，它们被转录和翻译为两个单独的多肽，即N-内含肽和C-内含肽，每一个都与一个外显肽融合。翻译后，内含肽片段自发地且非共价地组装成规范的内含肽结构，以进行蛋白质反式剪接。蛋白质剪接的机制需要一系列酰基转移反应，所述反应导致内含肽-外显肽连接处的两个肽键断裂，并在N-外显肽和C-外显肽之间形成新的肽键。这个过程是通过激活连接N-外显肽和外显肽的N端的肽键来启动的。几乎所有内含肽在其N端都具有半胱氨酸或丝氨酸，它们攻击C端N-外显肽残基的羰基碳。保守的苏氨酸和组氨酸(称为TXXH基序(SEQ ID NO:288))以及常见的天冬氨酸促进了这一N到O/S酰基转变，这导致形成线性(硫)酯中间体。接下来，此中间体通过第一个C-外显肽残基(+1)的亲核攻击进行反式(硫)酯化，所述残基是半胱氨酸、丝氨酸或苏氨酸。所得支链(硫)酯中间体通过独特的转化被分解：内含肽高度保守的C端天冬酰胺环化。此过程由组氨酸(存在于高度保守的HNF基序中)和倒数第二个组氨酸促进，并且还可能包括天冬氨酸。这种琥珀酰亚胺形成反应从反应性复合物中切除内含肽，并留下通过非肽键连接的外含肽。这种结构以内含肽非依赖性的方式迅速重排成稳定的肽键。

在一些实施方案中，核酸酶(例如，Cas9)的部分或片段与内含肽融合。核酸酶可以融合到内含肽的N端或C端。在一些实施方案中，融合蛋白的部分或片段与内含肽融合并与AAV衣壳蛋白融合。内含肽、核酸酶和衣壳蛋白可以以任何排列(例如，核酸酶-内含肽-衣壳、内含肽-核酸酶-衣壳、衣壳-内含肽-核酸酶等)融合在一起。在一些实施方案中，碱基编辑器(例如，ABE、CBE)的N端片段与分裂的内含肽-N融合，并且C端片段与分裂的内含肽-C融合。然后将这些片段封装成两个或更多个AAV载体。在一些实施方案中，内含肽的N端与融合蛋白的C端融合，并且内含肽的C端与AAV衣壳蛋白的N端融合。

在一个实施方案中，内含肽用于连接移植到AAV衣壳蛋白上的胞苷或腺苷脱氨酶碱基编辑器蛋白的片段或部分。用于连接异源蛋白质片段的某些内含肽的用途描述于例如，Wood等人,J.Biol.Chem.289(21)；14512-9(2014)。例如，当融合以分离蛋白质片段时，内含肽IntN和IntC相互识别，将自身剪接并同时连接它们所融合的蛋白质片段的侧翼N端和C端外显肽，从而由两个蛋白质片段重构全长蛋白质。其他合适的内含肽对于本领域技术人员将是显而易见的。

在一些实施方案中，ABE在SpCas9的选定区域内的Ala、Ser、Thr或Cys残基处分裂成N端子和C端片段。这些区域对应于Cas9晶体结构分析鉴定的环区域。

在氨基酸位置S303、T310、T313、S355、A456、S460、A463、T466、S469、T472、T474、C574、S577、A589和S590处，每个片段的N端与内含肽-N融合，并且每个片段的C端与内含肽-C融合，在下面的序列(称为“Cas9参考序列”)中用大写字母表示。

药物组合物

在一些方面，本发明提供药物组合物，其包含本文所述的任何遗传修饰细胞、碱基编辑器、融合蛋白或融合蛋白-向导多核苷酸复合物。

本发明的药物组合物可以根据已知技术制备。参见，例如，Remington,TheScience And Practice of Pharmacy(第21版2005)。通常，细胞或其群体在施用或储存之前与合适的载剂混合，并且在一些实施方案中，药物组合物还包含药学上可接受的载剂。合适的药学上可接受的载剂通常包括惰性物质，所述惰性物质有助于将药物组合物施用于受试者，有助于将药物组合物加工成可递送的制剂，或有助于在施用前储存药物组合物。药学上可接受的载剂可以包括可以稳定、优化或以其他方式改变制剂的形式、稠度、粘度、pH、药代动力学、溶解度的剂。这样的试剂包括缓冲剂、润湿剂、乳化剂、稀释剂、包封剂和皮肤渗透促进剂。例如，载剂可以包括但不限于盐水、缓冲盐水、右旋糖、精氨酸、蔗糖、水、甘油、乙醇、山梨醇、葡聚糖、羧甲基纤维素钠及其组合。

可以用作药学上可接受的载剂的物质的一些非限制性实例包括：(1)糖，诸如乳糖、葡萄糖和蔗糖；(2)淀粉，诸如玉米淀粉和土豆淀粉；(3)纤维素和其衍生物，诸如羧甲基纤维素钠、甲基纤维素、乙基纤维素、微晶纤维素和乙酸纤维素；(4)粉末状黄蓍胶；(5)麦芽；(6)明胶；(7)润滑剂，诸如硬脂酸镁、月桂基磺酸钠和滑石；(8)赋形剂，诸如可可油和栓剂蜡；(9)油，诸如花生油、棉籽油、红花油、芝麻油、橄榄油、玉米油和大豆油；(10)二醇，诸如丙二醇；(11)多元醇，诸如甘油、山梨醇、甘露醇和聚乙二醇(PEG)；(12)酯，诸如油酸乙酯和月桂酸乙酯；(13)琼脂；(14)缓冲剂，诸如氢氧化镁和氢氧化铝；(15)藻酸；(16)不含热原的水；(17)等渗盐水；(18)林格氏液(Ringer'ssolution)；(19)乙醇；(20)pH缓冲溶液；(21)聚酯、聚碳酸酯和/或聚酐；(22)填充剂，诸如多肽和氨基酸；(23)血清醇，诸如乙醇；以及(23)药物制剂中采用的其他无毒相容物质。制剂中还可以存在润湿剂、着色剂、脱模剂、涂层剂、甜味剂、矫味剂、芳香剂、防腐剂和抗氧化剂。

药物组合物可以包含一种或多种pH缓冲化合物以将制剂的pH维持在反映生理pH的预定水平，诸如在约5.0至约8.0的范围内。用于水性液体制剂的pH缓冲化合物可以是氨基酸或氨基酸混合物，诸如组氨酸或氨基酸(诸如组氨酸和甘氨酸)混合物。或者，pH缓冲化合物优选为将制剂的pH维持在预定水平(诸如在约5.0至约8.0的范围内)，并且不螯合钙离子的剂。这种pH缓冲化合物的说明性实例包括但不限于咪唑和乙酸根离子。pH缓冲化合物可以以适合将制剂的pH维持在预定水平的任何量存在。

药物组合物还可以含有一种或多种渗透调节剂，即将制剂的渗透特性(例如，张力、渗透度和/或渗透压)调节到受体个体的血流和血细胞可以接受的水平。渗透调节剂可以是不螯合钙离子的剂。渗透调节剂可以是本领域技术人员已知或可获得的调节制剂的渗透特性的任何化合物。本领域技术人员可以凭经验确定给定渗透调节剂在本发明制剂中的适用性。合适的渗透调节剂类型的说明性实例包括但不限于：盐类，诸如氯化钠和乙酸钠；糖类，诸如蔗糖、右旋糖和甘露醇；氨基酸，诸如甘氨酸；以及一种或多种这些剂和/或剂型的混合物。一种或多种渗透调节剂可以以足以调节制剂的渗透特性的任何浓度存在。

除了修饰的细胞或其群体和载剂之外，本发明的药物组合物还可以包括至少一种用于治疗疾病的另外的治疗剂。例如，本文所述的药物组合物的一些实施方案还包括化疗剂。在一些实施方案中，药物组合物还包含细胞因子肽或编码细胞因子肽的核酸序列。在一些实施方案中，包含细胞或其群体的药物组合物可以与另外的治疗剂分开施用。

关于本发明的基因修饰细胞的治疗用途的一个考虑因素是实现最佳或令人满意的效果所必需的细胞数量。待施用的细胞数量可以因治疗对象而异。在一个实施方案中，将10⁴至10¹⁰、10⁵至10⁹或10⁶至10⁸个本发明的遗传修饰细胞施用于人类受试者。在一些实施方案中，将至少约1x10e8、2x10e8、3x10⁸、4x10e8和5x10e8个本发明的遗传修饰细胞施用于人类受试者。确定精确的有效剂量可以基于每个个体受试者的因素，包括他们的体型、年龄、性别、体重和疾患。本领域技术人员可以从本公开和本领域知识容易地判定剂量。

技术人员可以容易地确定在组合物中的并且在本发明的方法中要施用的细胞的数量和任选的添加剂、载体和/或载剂和将在本发明的方法中给药。通常，添加剂(除细胞外)存在于磷酸盐缓冲盐水中的0.001至50％(重量)溶液中，并且活性成分以微克到毫克的数量级存在，诸如约0.0001到约5重量％，优选约0.0001至约1重量％，还更优选约0.0001至约0.05重量％或约0.001至约20重量％，优选约0.01至约10重量％，并且还更优选约0.05至约5重量％。当然，对于要向动物或人类施用的任何组合物，以及对于任何特定的施用方法，因此优选确定：毒性，诸如通过在合适的动物模型(例如，啮齿动物诸如老鼠)中确定致死剂量(LD)和LD₅₀；以及组合物的剂量、其中组分的浓度和组合物的施用时间，这会引起合适的反应。这种确定不需要根据本领域技术人员的知识、本公开和本文引用的文件进行过度实验。并且，无需过度实验即可判定连续给药的时间。

在一些实施方案中，药物组合物被配制用于递送至受试者。施用本文所述药物组合物的合适途径包括但不限于：局部、皮下、透皮、真皮内、病灶内、关节内、腹膜内、膀胱内、经粘膜、牙龈、牙内、耳蜗内、经鼓膜、器官内、硬膜外、鞘内、肌肉内、静脉内、血管内、骨内、眼周、瘤内、脑内和脑室内施用。

在一些实施方案中，将本文所述的药物组合物局部施用至患病部位。在一些实施方案中，本文所述的药物组合物通过注射、通过导管、通过栓剂或通过植入物施用于受试者，所述植入物是多孔、无孔或凝胶状材料，包括膜，诸如唾液膜或纤维。

在其他实施方案中，本文所述的药物组合物在控释系统中递送。在一个实施方案中，可以使用泵(参见，例如，Langer,1990,Science249:1527-1533；Sefton,1989,CRCCrit.Ref.Biomed.Eng.14:201；Buchwald等人,1980,Surgery 88:507；Saudek等人,1989,N.Engl.J.Med.321:574)。在另一个实施方案中，可以使用聚合物材料。(参见，例如，Medical Applications of Controlled Release(Langer和Wise编,CRC Press,BocaRaton,Fla.,1974)；Controlled Drug Bioavailability,Drug Product Design andPerformance(Smolen和Ball编,Wiley,New York,1984)；Ranger和Peppas,1983,Macromol.Sci.Rev.Macromol.Chem.23:61。还可参见Levy等人,1985,Science 228:190；During等人,1989,Ann.Neurol.25:351；Howard等人,1989,J.Neurosurg.71:105。讨论了其他控释系统，例如在Langer中，同上。

在一些实施方案中，根据常规程序将药物组合物配制成适于静脉内或皮下施用至受试者(诸如人类)的组合物。在一些实施方案中，用于注射施用的药物组合物是无菌等渗溶液，用作增溶剂和局部麻醉剂，诸如减轻注射部位疼痛的利多卡因。一般来说，所述成分单独或混合在一起以单位剂型(例如作为干燥冻干粉末或无水浓缩物)提供于指示活性剂的量的密闭容器(诸如安瓿或药囊)中。当药物待通过输注施用时，所述组合物可以用含有无菌药用级水或盐水的输注瓶来分配。在药物组合物通过注射施用时，可以提供注射用无菌水或盐水的安瓿以使得成分可以在施用之前被混合。

用于全身施用的药物组合物可以是液体，例如无菌盐水、乳酸林格氏(Ringer's)液或汉克氏(Hank's)液。此外，药物组合物可以是固体形式并在使用之前即刻再溶解或悬浮。还考虑了冻干形式。药物组合物可以包含在脂质颗粒或囊泡中，诸如脂质体或微晶，其也适用于胃肠外施用。颗粒可以具有任何合适的结构，诸如单层或多层，只要其中含有组合物即可。化合物可以被包埋在“稳定的质粒脂质颗粒”(SPLP)中，所述颗粒含有融合脂质二油酰磷脂酰乙醇胺(DOPE)(低水平的(5-10mol％)阳离子脂质)，并通过聚乙二醇(PEG)包被而稳定(Zhang Y.P.等人,Gene Ther.1999,6:1438-47)。带正电荷的脂质，诸如N-[l-(2,3-二油酰氧基)丙基]-N,N,N-三甲基-甲基硫酸铵，或“DOTAP”对于此类颗粒和囊泡是特别优选的。这种脂质颗粒的制备是众所周知的。参见，例如，美国专利号4,880,635、4,906,477、4,911,928、4,917,951、4,920,016、4,921,757；每一个都以引用方式并入本文。

例如，本文所述的药物组合物可以以单位剂量施用或封装。术语“单位剂量”在提及本公开治疗组合物使用时，是指适合作为用于受试者的单位剂量的物理上离散的单位，每个单位含有经计算产生所需治疗效果的预定量的活性物质以及所需要的稀释剂；即，载剂或媒介物。

此外，药物组合物可以作为药物试剂盒提供，所述试剂盒包含(a)含有冻干形式的本发明化合物的容器和(b)含有药学上可接受的稀释剂(例如，用于重构或稀释本发明的冻干化合物无菌的稀释剂)的第二容器。任选地，与此类容器相伴的可以是由管制医药或生物产品的制造、使用或销售的政府机构开具的呈表格形式的报告书，所述报告书反映由制造、使用或销售的机构核准供人施用。

在另一方面，包括含有用于治疗上述疾病的材料的制品。在一些实施方案中，制品包括容器和标签。适合容器包括例如瓶、小瓶、注射器和试管。所述容器可以由诸如玻璃或塑料的各种材料制成。在一些实施方案中，所述容器容纳有效治疗本文所述疾病的组合物并且可以具有无菌入口。例如，所述容器可以是具有皮下注射针可刺穿的塞子的静脉溶液袋或小瓶。组合物中的活性剂是本发明的化合物。在一些实施方案中，容器上或与容器相关的标签表明组合物用于治疗选择的疾病。制品还可以包括第二容器，其包含药学上可接受的缓冲剂诸如磷酸盐缓冲盐水、林格氏液及右旋糖溶液。其还可以包括从商业和使用者观点来说所需的其他材料，包括其它缓冲剂、稀释剂、过滤器、针、注射器以及带有使用说明的药品说明书。

在一些实施方案中，任何融合蛋白、gRNA和/或本文所述的复合物作为药物组合物的一部分提供。在一些实施方案中，药物组合物包含本文提供的任何融合蛋白。在一些实施方案中，药物组合物包含本文提供的任何复合物。在一些实施方案中，药物组合物包含核糖核蛋白复合物，所述复合物包含与gRNA和阳离子脂质形成复合物的RNA引导的核酸酶(例如，Cas9)。在一些实施方案中，药物组合物包含gRNA、核酸可编程DNA结合蛋白、阳离子脂质和药学上可接受的赋形剂。药物组合物可以任选地包含一种或多种另外的治疗活性物质。

在一些实施方案中，将本文提供的组合物施用于受试者，例如施用于人类受试者，以在受试者内实现靶向基因组修饰。在一些实施方案中，细胞获得自受试者并与本文提供的任何药物组合物接触。在一些实施方案中，从受试者取出并离体与药物组合物接触的细胞被重新引入受试者，任选地在细胞中已实现或检测到所需的基因组修饰之后。递送包含核酸酶的药物组合物的方法是已知的，并且描述于例如美国专利号6,453,242、6,503,717、6,534,261、6,599,692、6,607,882、6,689,558、6,824,978、6,933,113、6,979,539、7,013,219和7,163,824，所有这些的公开内容以引用方式整体并入本文。虽然本文提供的药物组合物的描述主要针对适合向人类施用的药物组合物，但是技术人员将理解此类组合物通常适合向所有种类的动物或生物体施用，例如，用于兽医使用。

对适合向人类施用的药物组合物进行修饰以使所述组合物适合向各种动物施用是众所周知的，并且普通兽医药理学家可以设计和/或仅通过普通实验(如果有的话)进行此类修改。所想到的向其施用药物组合物的受试者包括但不限于人类和/或其他灵长类动物；哺乳动物，家养动物、宠物和商业上相关的哺乳动物诸如牛、猪、马、绵羊、猫、犬、小鼠和/或大鼠；和/或鸟类，包括商业上相关的鸟类，诸如鸡、鸭、鹅和/或火鸡。

本文所述的药物组合物的制剂可以通过药理学领域中已知的或以后开发的任何方法来制备。一般来说，此类制备方法包括以下步骤：使活性成分与赋形剂和/或一种或多种其他辅助成分缔合，并且然后如果必要和/或需要，使产品成形和/或包装为所需的单剂量或多剂量单位。药物制剂可以另外包含如本文所使用的药学上可接受的赋形剂，包括适合于所需的特定剂型的任何和所有溶剂、分散介质、稀释剂或其它液体媒介物、分散或悬浮助剂、表面活性剂、等渗剂、增稠剂或乳化剂、防腐剂、固体粘合剂、润滑剂等。Remington的The Science and Practice of Pharmacy,第21版,A.R.Gennaro(Lippincott,Williams&Wilkins,Baltimore,MD,2006；其以引用方式整体并入本文)公开了用于配制药物组合物的各种赋形剂和用于其制备的已知技术。还可参见PCT申请PCT/US2010/055131(公开号WO2011/053982 A8，提交于2010年11月2日)，其以引用方式整体并入本文，以获得用于生产包含核酸酶的药物组合物的另外的合适的方法、试剂、赋形剂和溶剂。

除了诸如通过产生任何不需要的生物效应或另外以有害的方式与药物组合物的任何其它组分相互作用而与物质或其衍生物不相容的任何常规赋形剂介质以外，所述赋形剂的使用被考虑在本公开的范围内。

如上所述的组合物可以以有效量给药。有效量将取决于施用方式、所治疗的具体疾患和所需结果。它还可能取决于疾患的阶段、受试者的年龄和身体状况、同时治疗的性质(如果有的话)以及医生熟知的类似因素。对于治疗应用，其量足以达到医学上所需的结果。

在一些实施方案中，根据本公开的组合物可以用于治疗多种疾病、病症和/或疾患中的任一个。

治疗方法

本发明的一些方面提供了治疗有需要的受试者的方法，所述方法包括向有需要的受试者施用有效治疗量的如本文所述的药物组合物。更具体地，治疗方法包括向有需要的受试者施用一种或多种药物组合物，所述药物组合物包含一种或多种具有至少一种编辑的基因的细胞。在其他实施方案中，本发明的方法包括表达能够靶向编码至少一种多肽的核酸分子的碱基编辑多肽和一个或多个向导RNA，或将所述碱基编辑多肽和所述向导RNA引入细胞中。

本文提供了涉及或含有修饰的细胞(例如用于植入目的的碱基编辑的祖细胞或干细胞)的方法和组合物。本文提供的碱基编辑器系统可以用于在祖细胞或干细胞中的靶多核苷酸(例如，靶基因或其调节元件)中产生修饰。在一些实施方案中，碱基编辑在祖细胞或干细胞群体中进行。在一些实施方案中，靶基因或其调节元件可以包含与遗传疾患、病症或疾病相关的突变或SNP。在一些实施方案中，本文提供的碱基编辑器系统能够实现校正与遗传疾患、病症或疾病相关的突变的单个核碱基修饰。在一些实施方案中，本文提供的碱基编辑器系统能够实现单个核碱基修饰，所述修饰不会将与遗传疾患、病症或疾病相关的突变或SNP复原为野生型核碱基，而是用另一种改善遗传疾患、病症或疾病的至少一种症状的核碱基替代突变或SNP。在一些实施方案中，本文提供的碱基编辑器系统能够实现单个核碱基修饰，所述修饰不会将与遗传疾患、病症或疾病相关的突变或SNP复原为野生型，而是将核碱基修饰引入改善遗传疾患、病症或疾病的至少一种症状的基因组中的其他地方。一方面，本文提供了碱基编辑器系统和使同一系统产生允许在有需要的受试者中长期植入修饰细胞的方法。当干细胞是静止细胞(非循环)，即为不分裂的细胞时，或当干细胞循环，即为分裂的细胞时，可以对靶细胞(例如，干细胞)进行遗传操纵。此外，可以将修饰的干细胞引入受试者以植入到所需的一个或多个组织中。当具有基因修饰的造血祖细胞谱系的细胞被引入受试者时，细胞需要归巢到所需的组织中、被稳定、能够增殖、能够分化成细胞谱系并保留基因修饰，并保留为了使基因操纵的造血祖细胞在基因治疗中有用的长时间的功能活性。

在一些实施方案中，本文提供的方法的目的是通过基因编辑恢复功能失调的基因的功能。在一些实施方案中，通过引入预期突变来恢复功能失调的基因的功能。在一些实施方案中，本文提供的方法可以用于破坏基因产物的正常功能。本文提供的核碱基编辑蛋白可以被验证用于基于基因编辑的体外人类治疗，例如，通过校正人类细胞培养物中的疾病相关突变。技术人员将理解，本文提供的核碱基编辑蛋白，例如，包含napDNAbp结构域(例如，Cas12)和核碱基编辑结构域(例如，腺苷脱氨酶结构域或胞苷脱氨酶结构域)的融合蛋白可以用于校正任何A到G或C到T的单点突变。在第一种情况下，突变体A到I的脱氨基作用校正了突变，而在后一种情况下，与突变体T碱基配对的A的脱氨基作用之后进行了一轮复制，校正了突变。

本文提供了在造血干细胞中进行基因编辑的方法，例如，在腺苷碱基编辑的血红蛋白基因或其调节区(诸如启动子区)，其中基因编辑的造血干细胞表现出以下一种或多种：更高的编辑效率；更高的保真度和显著更少的脱靶编辑事件；更高的编辑细胞存活率；更高的体外编辑细胞持久性；更高的体内编辑细胞存活率和持久性；更高的植入潜力；更高的分化为红细胞生成谱系的能力；更高的体外增殖能力；更高的体内增殖能力，更高的HbF表达；以及与先前报道的或现有的碱基编辑系统相比，更高的缺陷珠蛋白基因表达(诸如HbS)的降低程度。在一些实施方案中，本文提供的腺苷碱基编辑系统中的改进与以下优点中的至少一个相关：更高的编辑效率；更高的保真度和显著降低的或更少的脱靶编辑事件；更高的编辑细胞存活率；更高的体外编辑细胞持久性；更高的体内编辑细胞存活率和持久性；更高的植入潜力；更高的分化为红细胞生成谱系的能力；更高的体外增殖能力；更高的体内增殖能力，更高的HbF表达；以及与先前报道的或现有的碱基编辑系统相比，更高的缺陷珠蛋白基因表达(诸如HbS)的降低程度。

在一个方面，本文提供了用于将编辑的细胞群体植入到有需要的受试者中的方法。植入的细胞可以是自体或异体细胞。在一些实施方案中，用于植入的细胞是异体细胞。在一些实施方案中，用于植入的细胞获得自供体。在一些实施方案中，供体是健康供体，或组织相容性与受试者匹配的供体。在一些实施方案中，细胞从受试者分离。在一些实施方案中，用于编辑的靶细胞或细胞群体从受试者分离。在一些实施方案中，用于编辑的靶细胞或细胞群体来源于除受试者之外的供体。在一些实施方案中，使靶细胞或细胞群体与本文提供的碱基编辑器系统接触以产生所需的核碱基修饰。例如，可以从患有镰状细胞病(SCD)的患者中分离造血干细胞群体，并对其进行碱基编辑以进行植入。从患者分离的细胞可以包含与遗传疾病、病症或疾患相关的突变或SNP，其可以通过碱基编辑来校正或改善。在一些实施方案中，至少约10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％或99％的与碱基编辑器系统接触的细胞群体包含所需的核碱基修饰。在一些实施方案中，所述群体中编辑的细胞的百分比比用包含野生型脱氨酶的碱基编辑器系统编辑的群体中编辑的细胞的百分比高至少约10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％、100％、110％、120％、130％、140％、150％、200％、250％、300％或350％。在一些实施方案中，用ABE8碱基编辑器编辑的群体中编辑的细胞的百分比比用ABE7.10编辑的群体中编辑的细胞的百分比高至少约10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％、99％、100％、110％、120％、130％、140％、150％、200％、250％、300％或350％。在一些实施方案中，细胞群体中使用ABE8的编辑效率比使用包含野生型脱氨酶的碱基编辑器获得的编辑效率高至少约1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55或60倍。在一些实施方案中，细胞群体中使用ABE8的编辑效率比使用包含ABE7.10的碱基编辑器获得的编辑效率高至少约1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55或60倍。在一些实施方案中，至少约10％、20％、30％、40％、50％、60％、70％、80％、90％、95％或99％的编辑的细胞群体保留活力。在一些实施方案中，细胞群体中使用ABE8的编辑效率比使用包含ABE7.10的碱基编辑器获得的编辑效率高至少约1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55或60倍。在一些实施方案中，至少约10％、20％、30％、40％、50％、60％、70％、80％、90％、95％或99％的编辑的细胞群体保留分化能力。在一些实施方案中，使造血细胞或造血细胞群体与本文提供的碱基编辑系统(例如，ABE8系统)接触以实现校正突变或改善突变的至少一种有害效应的核碱基修饰。例如，HBG1/2的启动子区域的核碱基修饰可以增加血红蛋白γ亚基的表达和/或HbF蛋白的表达，从而补偿至少一种镰状细胞病(SCD)的有害效应。在一些实施方案中，与没有碱基编辑的对照细胞相比，造血细胞中血红蛋白γ亚基的表达增加了至少约1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55或60倍。在一些实施方案中，与没有碱基编辑的对照细胞群体相比，造血细胞群体中血红蛋白γ亚基的表达增加了至少约1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55或60倍。在一些实施方案中，与血红蛋白γ亚基的植入前水平相比，植入有具有碱基编辑的造血细胞或造血细胞群体的受试者中的血红蛋白γ亚基的表达增加了至少约1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55或60倍。在一些实施方案中，与对照细胞群相比，碱基编辑的造血细胞群体中的镰状化减少至少约10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％或95％，其中镰状化通过表现出镰状化表型的细胞的百分比来测量。在一些实施方案中，与受试者中HbF的植入前水平相比，植入有具有碱基编辑的造血细胞或造血细胞群体的受试者中的HbF蛋白的表达增加了至少约1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55或60倍。在一些实施方案中，受试者是哺乳动物。在一些实施方案中，受试者是人类、非人类灵长动物、猫、犬、猪、牛、马、骆驼、美洲驼、山羊、绵羊、啮齿动物、小鼠、大鼠、兔子、豚鼠或任何其他合适的哺乳动物。

用于植入的碱基编辑的细胞可以是任何类型的合适细胞。在一些实施方案中，用于植入的一个或多个碱基编辑的细胞是造血干细胞、共同髓系祖细胞、原成红细胞、成红细胞、网织红细胞或红细胞。

在一些实施方案中，受试者接受用于长期植入的碱基编辑的细胞或碱基编辑的细胞群体，例如造血干细胞群体。在一些实施方案中，一种或多种淋巴谱系细胞在植入前被耗尽。植入可以针对一个或多个特定组织或器官，例如血液或骨髓。

在一些实施方案中，受试者(例如，人类受试者)在移植和植入碱基编辑的细胞之前接受调理方案进行准备。在一些实施方案中，移植物是自体的(例如，从受试者获得或衍生)。在一些实施方案中，移植物是异体的(例如，从供体获得或衍生)。根据移植的类型，可以使用清髓性或非清髓性调理。清髓性调理导致骨髓消融，并且可以包括化学试剂、辐射或其组合(例如，环磷酰胺与全身辐照)。用于调理的化学剂包括但不限于白消安、丁四醇磺酯、环磷酰胺、氟达拉滨(fludarabine)等。非清髓性调理使用较低剂量的化学剂和辐射。非清髓性调理可以包括使用靶向和消除造血干细胞的抗体和抗体药物缀合物。

如本文提供的具有高编辑效率的编辑的细胞群体可能不需要富集以植入受试者。在一些实施方案中，碱基编辑的细胞或细胞群在植入后保留分化的能力。在一些实施方案中，碱基编辑的细胞或细胞群体至少在植入后约1周、2周、3周、4周、5周、6周、7周、8周、9周、10周、11周、12周、13周、14周、15周、16周、17周、18周、19周、20周、6个月、7个月、8个月、9个月、10个月、11个月、12个月、1.5年、2年、2.5年、3年、3.5年或4年保留分化的能力。在一些实施方案中，植入有碱基编辑的细胞的组织或器官在植入后保留由碱基编辑器系统实现的核碱基修饰。在一些实施方案中，植入有碱基编辑的细胞的组织或器官在植入的细胞或细胞群体分化后保留由碱基编辑器系统实现的核碱基修饰。在一些实施方案中，至少约1％、2％、5％、7％、10％、15％、20％、30％，或40％，或50％、60％、70％、80％、90％或更多植入有碱基编辑的细胞或细胞群体的组织或器官中的细胞在植入后保留核碱基修饰。在一些实施方案中，至少约1％、2％、5％、7％、10％、15％、20％、30％，或40％，或50％、60％、70％、80％、90％或更多植入有碱基编辑的细胞或细胞群体的组织或器官中的细胞在植入的细胞或细胞群体分化后保留核碱基修饰。在一些实施方案中，至少约1％、2％、5％、7％、10％、15％、20％、30％，或40％，或50％、60％、70％、80％、90％或更多的移植有碱基编辑的细胞或细胞群体的组织或器官中的细胞在植入后至少约1周、2周、3周、4周、5周、6周、7周、8周、9周、10周、11周、12周、13周、14周、15周、16周、17周、18周、19周、20周、6个月、7个月、8个月、9个月、10个月、11个月、12个月、1.5年、2年、2.5年、3年、3.5年或4年保留核碱基修饰。在一些实施方案中，与先前报道的或使用现有碱基编辑系统的方法或组合物相比，本文提供的方法和组合物导致至少10％、至少20％、至少30％，或40％，或50％、60％、70％、80％、90％或更多的碱基编辑的造血细胞的植入效率的提高。在一些实施方案中，通过本文所述的方法产生的ABE编辑的造血细胞比通过ABE7.10产生的ABE编辑的造血细胞的植入效率高至少2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、15倍、20倍、25倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍或至少100倍或更多。

在一个实施方案中，向受试者施用至少0.1×105个细胞、至少0.5×105个细胞、至少1×10⁵个细胞、至少5×10⁵个细胞、至少1×10⁶个细胞、至少0.5×10⁷个细胞，、至少1×10⁷个细胞、至少0.5×10⁸个细胞、至少1×10⁸个细胞、至少0.5×10⁹个细胞、至少1×10⁹个细胞、至少2×109个细胞、至少3×109个细胞、至少4×109个细胞、至少5×109个细胞，或至少1×10¹⁰个细胞。在特定实施方案中，约1×107个细胞至约1×109个细胞、约2×107个细胞至约0.9×109个细胞、约3×107细胞至约0.8×109个细胞、约4×107个细胞至约0.7×10⁹个细胞、约5×10⁷个细胞至约0.6×10⁹个细胞，或约5×10⁷个细胞至约0.5×10⁹个细胞被施用于受试者。

在一个实施方案中，向受试者施用至少0.1×10⁴个细胞/kg体重、至少0.5×10⁴个细胞/kg体重、至少1×10⁴个细胞/kg体重、至少5×10⁴个细胞/kg体重、至少1×10⁵个细胞/kg体重、至少0.5×10⁶个细胞/kg体重、至少1×10⁶个细胞/kg体重、至少0.5×10⁷个细胞/kg体重、至少1×10⁷个细胞/kg体重、至少0.5×10⁸个细胞/kg体重、至少1×10⁸个细胞/kg体重、至少2×10⁸个细胞/kg体重、至少3×10⁸个细胞/kg体重、至少4×10⁸个细胞/kg体重、至少5×108个细胞/kg体重，或至少1×10⁹个细胞/kg体重。在特定实施方案中，约1×10⁶个细胞/kg体重至约1×10⁸个细胞/kg体重、约2×10⁶个细胞/kg体重至约0.9×10⁸个细胞/kg体重、约3×106个细胞/kg体重至约0.8×10⁸个细胞/kg体重、约4×106个细胞/kg体重至约0.7×10⁸个细胞/kg体重、约5×10⁶个细胞/kg体重至约0.6×10⁸个细胞/kg体重，或约5×10⁶个细胞/kg体重至约0.5×108个细胞/kg体重被施用于受试者。

本领域普通技术人员将认识到，可能需要多次施用特定实施方案中考虑的药物组合物以实现所需的治疗。例如，可以在1周、2周、3周、1个月、2个月、3个月、4个月、5个月、6个月、1年、2年、5年、10年或更长时间的跨度内向受试者施用组合物1次、2次、3次、4次、5次、6次、7次、8次、9次或10次或更多次。在任何此类方法中，所述方法可以包括向受试者施用有效量的编辑的细胞或碱基编辑器系统或编码此类系统的多核苷酸。在任何此类方法中，所述方法可以包括每天施用一个或多个剂量的有效量的编辑的细胞。在任何此类方法中，所述方法可以包括每天施用两个或更多个剂量的有效量的经修饰的细胞。在任何此类方法中，所述方法可以包括每天施用三个或更多个剂量的有效量的编辑的细胞。在任何此类方法中，所述方法可以包括每周施用一个或多个剂量的有效量的编辑的细胞。在任何此类方法中，所述方法可以包括每周施用两个或更多个剂量的有效量的编辑的细胞。在任何此类方法中，所述方法可以包括每周施用三个或更多个剂量的有效量的编辑的细胞。在任何此类方法中，所述方法可以包括每月施用一个或多个剂量的有效量的编辑的细胞。在任何此类方法中，所述方法可以包括每月施用两个或更多个剂量的有效量的编辑的细胞。在任何此类方法中，所述方法可以包括每月施用三个或更多个剂量的有效量的编辑的细胞。

本文考虑的药物组合物的施用可以使用常规技术进行，包括但不限于输注、输液或胃肠外施用。在一些实施方案中，胃肠外施用包括血管内、静脉内、肌内、动脉内、鞘内、瘤内、皮内、腹膜内、经气管、皮下、表皮下、关节内、包膜下、蛛网膜下和胸骨内输注或注射。

在一些实施方案中，本文所述的组合物(例如，编辑的细胞、碱基编辑器系统)以每千克人类受试者体重约0.5-30mg的剂量施用。在另一个实施方案中，施用的组合物的量为每千克人类受试者体重约0.5-20mg。在另一个实施方案中，施用的组合物的量为每千克人类受试者体重约0.5-10mg。在另一个实施方案中，施用的组合物的量为每千克人类受试者体重约0.04mg、约0.08mg、约0.16mg、约0.32mg、约0.64mg、约1.25mg、约1.28mg、约1.92mg、约2.5mg、约3.56mg、约3.75mg、约5.0mg、约7.12mg、约7.5mg、约10mg、约14.24mg、约15mg、约20mg或约30mg。在另一个实施方案中，施用的组合物的量为每千克人类受试者体重约1.92mg、约3.75mg、约7.5mg、约15.0mg或约30.0mg，并且每周施用组合物两次。在另一个实施方案中，施用的组合物的量为每千克人类受试者体重约1.28mg、约2.56mg、约5.0mg、约10mg或约20mg，并且每周施用组合物两次。在另一个实施方案中，施用的组合物的量为每千克人类受试者体重约1.92mg、约3.75mg、约7.5mg、约15.0mg或约30.0mg，并且每周施用组合物一次。在另一个实施方案中，施用的组合物的量为每千克人类受试者体重约1.28mg、约2.56mg、约5.0mg、约10mg或约20mg，并且每周施用组合物一次。在另一个实施方案中，施用的组合物的量为每千克人类受试者体重约1.92mg、约3.75mg、约7.5mg、约15.0mg或约30.0mg，并且每天施用组合物一次，在七天的时间段内施用三次、五次或七次。在另一个实施方案中，每天一次静脉内施用组合物，在七天的时间段内施用七次。在另一个实施方案中，施用的组合物的量为每千克人类受试者体重约1.28mg、约2.56mg、约5.0mg、约10mg或约20mg，并且每天施用组合物一次，在七天的时间段内施用三次、五次或七次。在另一个实施方案中，每天一次静脉内施用组合物，在七天的时间段内施用七次。

在一些实施方案中，在0.25h(小时)、0.5h、1h、2h、3h、4h、5h、6h、7h、8h、9h、10h、11h或12h的时间段内施用组合物。在另一个实施方案中，在0.25-2h的时间段内施用组合物。在另一个实施方案中，在1h的时间段内逐渐施用组合物。在另一个实施方案中，在2h的时间段内逐渐施用组合物。

在一个实施方案中，本发明提供了一种监测治疗进展的方法。所述方法包括以下步骤：确定患有或易患疾病、病症或其症状的受试者中的诊断标志物(Marker)(例如，与疾病或疾患相关的SNP)或诊断测量(例如，筛选、测定)的水平，其中已向受试者施用足以治疗疾病或其症状的治疗量的本文的组合物。在所述方法中确定的Marker水平可以与健康的正常对照中或其他患病患者中的已知Marker水平进行比较，以建立受试者的疾病状态。在优选实施方案中，所述受试者中的第二Marker水平是在迟于确定第一水平的时间点处确定的，并且将两个水平进行比较以监测疾病过程或所述治疗的功效。在某些优选实施方案中，所述受试者中的Marker的治疗前水平是在根据本发明开始治疗之前确定的；然后Marker的这一治疗前水平可以与治疗开始之后所述受试者中的Marker水平进行比较，以确定治疗功效。

在一些实施方案中，细胞获得自受试者并与如本文提供的药物组合物接触。在一些实施方案中，从受试者取出并离体与药物组合物接触的细胞被重新引入受试者，任选地在细胞中已实现或检测到所需的基因组修饰之后。递送包含核酸酶的药物组合物的方法描述于例如美国专利号6,453,242、6,503,717、6,534,261、6,599,692、6,607,882、6,689,558、6,824,978、6,933,113、6,979,539、7,013,219和7,163,824，所有这些的公开内容以引用方式整体并入本文。虽然本文提供的药物组合物的描述主要针对适合向人类施用的药物组合物，但是技术人员将理解，此类组合物通常适合向所有种类的动物或生物体施用，例如，用于兽医使用。

个体受试者的反应可以表征为完全反应、部分反应或稳定的疾病。在一些实施方案中，反应是部分反应(PR)。在一些实施方案中，反应是完全反应(CR)。在一些实施方案中，反应导致受试者的无进展生存期(例如，稳定的疾病)。在一些实施方案中，与如果未用化合物治疗的人类受试者的预期生存时间相比，治疗导致人类受试者的生存时间增加。在一些实施方案中，待用所述方法治疗的人类受试者是儿童(例如，0-18岁)。在其他实施方案中，待用所述方法治疗的人类受试者是成年人(例如，18岁以上)。

此类融合蛋白可以用于体外DNA的靶向编辑，例如，用于产生突变细胞或动物；用于引入靶向突变，例如，用于校正离体细胞中(例如，从受试者获得的细胞中)的遗传缺陷，所述细胞随后被重新引入同一个或另一个受试者；以及用于体内引入靶向突变，例如遗传缺陷的校正或在疾病相关基因中引入G到A或T到C的失活突变，可以使用本文提供的核碱基编辑器处理突变。

试剂盒

本发明提供了用于治疗受试者的血红蛋白病(例如，镰状细胞病)的试剂盒。在一些实施方案中，试剂盒还包括碱基编辑器系统或编码碱基编辑器系统的多核苷酸，其中碱基编辑器多肽系统包含核酸可编程DNA结合蛋白(napDNAbp)、脱氨酶和向导RNA。在一些实施方案中，napDNAbp是Cas9或Cas12。在一些实施方案中，编码碱基编辑器的多核苷酸是mRNA序列。在一些实施方案中，脱氨酶是胞苷脱氨酶或腺苷脱氨酶。在一些实施方案中，试剂盒包括编辑的细胞和关于关于使用此类细胞的说明。

试剂盒还可以包括使用碱基编辑器系统和/或编辑的细胞的书面说明。在其他实施方案中，说明书包括以下至少一项：注意事项；警告；临床研究；和/或参考文献。说明书可以直接打印在容器上(当存在时)，或作为标签贴在容器上，或作为单独的纸张、小册子、卡片或容器中或随容器提供的文件夹。在进一步的实施方案中，试剂盒可以包括合适操作参数的标签或单独插页(包装插页)形式的说明书。在又一个实施方案中，试剂盒可以包括一个或多个容器，所述容器具有适当的用作检测、校准或规范化的标准的阳性和阴性对照或对照样品。试剂盒还可以包括第二容器，所述第二容器包括药学上可接受的缓冲液，诸如(无菌)磷酸盐缓冲盐水、林格氏液或右旋糖溶液。其还可以包括从商业和使用者观点来说所需的其他材料，包括其它缓冲剂、稀释剂、过滤器、针、注射器以及带有使用说明的药品说明书。

除非另有说明，否则本发明的实践采用分子生物学(包括重组技术)、微生物学、细胞生物学、生物化学和免疫学的常规技术，这些技术完全在技术人员的技术范围内。这些技术在文献中得到了充分的解释，诸如"Molecular Cloning:A Laboratory Manual",第二版(Sambrook,1989)；"Oligonucleotide Synthesis"(Gait,1984)；"Animal Cell Culture"(Freshney,1987)；"Methods in Enzymology""Handbook of Experimental Immunology"(Weir,1996)；"Gene Transfer Vectors for Mammalian Cells"(Miller和Calos,1987)；"Current Protocols in Molecular Biology"(Ausubel,1987)；"PCR:The PolymeraseChain Reaction",(Mullis,1994)；"Current Protocols in Immunology"(Coligan,1991)。这些技术适用于本发明的多核苷酸和多肽的生产，因此可以在制造和实践本发明时考虑。用于特定实施方案的特别有用的技术将在以下部分中讨论。

提出下列实施例以为普通技术人员提供如何制造并使用本发明的测定、筛选和治疗方法的完整公开和描述，但不意图限制发明人所认为的发明范围。

实施例

实施例1：NOD.Cg-Kit^W-41J Tyr⁺Prkdc^scid Il2rg^tm1Wjl/ThomJ(NBSGW)小鼠植入方案

这一实施例描述了使用植入NBSGW小鼠模型的人类细胞的植入方案。具体而言，雌性NOD.Cg-Kit^W-41J Tyr⁺Prkdc^scid Il2rg^tm1Wjl/ThomJ(NBSGW)小鼠(Stock 026622,JacksonLaboratories)在6-7周龄时通过尾静脉移植了人类CD34⁺造血干细胞或祖细胞(HSPC)，每只小鼠大约移植了100万(1x10⁶)个活细胞。NBSGW小鼠支持人类造血干细胞在没有辐照的情况下植入，并且适合异种移植使用。当与未辐照的经植入的NSG小鼠相比，异种移植NBSGW小鼠在外周血、骨髓和脾脏中表现出增强的人类造血嵌合体，嵌合体水平与经辐照的NSG(irrNSG)小鼠中的嵌合体水平类似。

在移植后的第8周和第16周或第18周通过流式细胞术评估骨髓中的人类嵌合体。从骨髓获得的一部分细胞被离心并储存在-20℃下用于DNA提取和深度测序。对于流式细胞术，首先将细胞与抗Fc阻断抗体(目录号422302和101320；BioLegend)一起孵育15分钟，然后与抗人类CD45(hCD45)和抗小鼠CD45(mCD45)抗体一起孵育。骨髓中人类嵌合体的百分比定义为[hCD45⁺/(hCD45⁺+mCD45⁺)]*100。

实施例2:人类CD34⁺细胞中的碱基编辑器基因编辑

在此实施例中，将ABE(作为mRNA被递送)转染到人类CD34⁺细胞中，然后测量细胞活力和编辑效率。如实施例1所述，将转染的细胞冷冻保存用于小鼠植入研究。图1表示产生用于电穿孔的哺乳动物载体的示例性程序，所述哺乳动物载体含有编码腺苷脱氨酶碱基编辑器(ABE)(例如，ABE8.8)的多核苷酸。图2提供了电穿孔CD34⁺细胞并制备所述细胞用于小鼠植入的工作流程的概述。在此实施例中，细胞被编辑以诱导HBG1/2的启动子-198位置处的A＞G核碱基变化，这导致HbF、γ珠蛋白基因产物的表达增加。

电穿孔细胞的制备和程序

细胞解冻

为了制备细胞用于电穿孔，从健康G-CSF/Plerixafor动员人类供体的外周血(PB)中分离出人类CD34⁺细胞并冷冻保存。在电穿孔当天，对于每个供体，从液氮中取出含有11x20e6个细胞/mL的小瓶并置于干冰上。然后将小瓶放在ThawStar细胞解冻装置上，并在细胞解冻后立即从装置中取出。将细胞悬液(1mL)与4℃下不含庆大霉素或苯酚红的X-Vivo10细胞培养基(Lonza Pharma and Research,Basel,Switzerland)混合，然后将细胞转移到锥形管(15mL)中(每1mL细胞悬液8mL细胞培养基)。将细胞悬液在15mL锥形管中在环境温度下以300x g轻轻离心10分钟。从离心的细胞中吸出培养基，并且另外重复离心过程一分钟。对每个冷冻细胞等分试样重复上述过程。接下来将细胞沉淀重悬于预热(37℃)的培养基(含有1X谷氨酸盐和100ng/mL TPO、100ng/mL SCF以及100ng/mL Flt-3L的Lonza X-Vivo10培养基，细胞浓度大约为1x10e6个细胞/mL)中。如果如上处理多个冷冻等分试样，则将离心的细胞沉淀汇集在培养基中。将重悬的细胞转移到非组织培养物处理的T-75烧瓶中，细胞浓度大约为1x10e6个细胞/mL。对来自每个供体的多个小瓶重复此过程，并将对应于每个供体的细胞分别汇集并重悬于37℃的培养基中。

电穿孔程序

重悬在细胞培养基中的细胞(或汇集的细胞)和用于电穿孔的mRNA保持在冰上。使用MaxCyte流式电穿孔仪(Gaithersburg,MD)进行电穿孔。用于MaxCyte仪的细胞盒也预冷至-20℃。就在电穿孔之前，对细胞进行计数；用上述37℃培养基冲洗每个培养瓶(或细胞培养板)。

例如，来自不同供体的细胞计数结果如下：

供体#1，D328644-1

计数：1.3e6个活细胞/mL(1.3x10e6个活细胞/mL)

95.8％活力

体积＝160mL

总细胞数＝208e6(2.08x10e8个活细胞/mL)

供体#2，D327579-1

计数：1.34e6个活细胞/mL(1.34x10e6个活细胞/mL)

95.2％活力

体积＝160mL

总细胞数＝214.4e6(2.144x10e8个活细胞/mL)

对于用于小体积细胞(400μL)的MaxCyte OC 400电穿孔盒，进行电穿孔的细胞的细胞浓度为100x10e6个细胞/mL。为了制备用于电穿孔的细胞，将细胞在4℃下以300x g离心10分钟，吸出上清液，将细胞悬浮在细胞培养基中并再次在4℃下以300x g离心一分钟。离心后，除去剩余的上清液，并且将细胞重悬于4℃的含有0.1％ HSA(10mL)的MaxCyte EP-缓冲液中并计数(例如，在NC-200细胞计数装置(ChemoMetec A/S,Allerod,Denmark)上)。细胞计数结果如下：

供体#1，D328644-1

计数#1：1.52e6细胞/mL(1.52x10e6个活细胞/mL)

98.7％活力

体积＝150mL

计数#2：1.49e6细胞/mL(1.49x10e6个活细胞/mL)

97.5％活力

体积＝150mL

总细胞数(平均值)＝225.75e6(约2.26x10e8个活细胞/mL)

供体#2，D327579-1

计数#1：1.42e6个活细胞/mL(1.42x10e6个活细胞/mL)

96.6％活力

体积＝150mL

计数#2：1.45e6个活细胞/mL(1.45x10e6个活细胞/mL)

98.2％活力

体积＝150mL

总细胞数(平均值)＝215.25e6(约2.15x10e8个活细胞/mL)

对于每次电穿孔，将细胞悬浮液在4℃下以300x g离心10分钟。吸出上清液；将细胞重悬并再次在4℃下以300x g离心1分钟。去除上清液，并且基于下表20将细胞重悬于4℃的MaxCyte EP缓冲液中，这提供用于转染细胞的电穿孔组合物(含有4℃的MaxCyte EP缓冲液)。在表20中，HBG1/2向导RNA(gRNA)，即“g1”的核苷酸序列如下：

5'-csususGACCAAUAGCCUUGACAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUsususu-3'(SEQ ID NO:129)。在g1 gRNA序列中，A、G、U、C表示RNA核苷酸；a、g、u、c表示2'-O-甲基核苷酸；并且s表示硫代磷酸酯。

重悬细胞的等分试样用于制备表20中所示的电穿孔组合物(组)。在电穿孔前15分钟，将编码碱基编辑器的mRNA(例如，ABE8.8或ABE7.10)和gRNA组合在一起并保持在冰上。将保持在冰上的细胞悬液添加到gRNA/mRNA组合中。移取混合物(例如，3次)，并将细胞悬液转移到预冷在储存在-20℃的珠中的MaxCyte OC-400筒中。然后立即使用MaxCyte GT系统开始电穿孔过程。电穿孔后，将筒置于无菌BSC中，并且在不接触筒壁或不用培养基或缓冲液冲洗筒的情况下取出细胞悬液。将电穿孔的细胞悬液置于未处理的6孔组织培养板的中间，并将板置于37℃/5％ CO₂的培养箱20分钟。这种孵育有利于在电穿孔细胞中实现更高水平的碱基编辑，而不会对细胞活力产生不利影响。将十(10)mL预热的37℃培养基(含有1X谷氨酸盐和100ng/mL TPO、100ng/mL SCF以及100ng/mL Flt-3L的X-Vivo培养基)添加到细胞悬液中，并培养细胞72小时。此后，在电穿孔后24、48和72小时收集100,000个细胞用于第二代基因组测序(NGS)分析。使用NC-200细胞计数器装置在24、48和72小时对细胞悬液进行计数，以确定活细胞的数量和细胞活力。大多数细胞在电穿孔后48小时冷冻保存。

表20

示例性细胞计数示于表21：

表21：示例性细胞计数。

图3A呈现了使用ABE7.10和ABE 8.8碱基编辑器系统，以在电穿孔反应中指定的RNA浓度编辑的供体细胞中测量的编辑效率。如图3A所示，20nM和50nM的ABE 8.8在两种供体中均显示出高编辑效率。在电穿孔后48小时，所有细胞都显示出大于90％的活力(图3B)。

实施例3.人类ABE编辑细胞在小鼠中的植入效率

此实施例提供了将来自两个供体的ABE编辑的人类CD34⁺细胞通过尾静脉注射植入雌性NOD.Cg-Kit^W-41J Tyr⁺Prkdc^scidIl2rg^tm1Wjl/ThomJ小鼠(NBSGW)的代表性结果。使用与实施例1中所述相同的植入方案。在注射后8周和16周测量供体1细胞(图4A)和供体2细胞(图4B)的人类嵌合体的百分比(即，植入骨髓中(“植入”)的供体人类BM细胞的百分比)。观察到高百分比的人类细胞(编辑的和未编辑的)的植入，并且与未编辑的对照相比，编辑的细胞显示出类似水平的嵌合体。这表明编辑的供体细胞在体内长时间具有高度活力。图5Ai和图5Aii通过证明A→G编辑的细胞在骨髓中的发生率随时间增加，在时间进程研究中证明了ABE编辑的细胞在体内的增殖。在注射(In)时，两种剂量的ABE 8.8均导致小鼠骨髓(BM)中编辑的细胞的百分比高于使用ABE 7.10时。在注射后8周和16周检查时，所有细胞都高效增殖。使用50nM RNA用ABE 8.8电穿孔的细胞比使用20nM RNA用ABE 8.8电穿孔的细胞具有稍高的植入效率，并且相对于ABE 7.10转导的细胞，ABE 8.8转染的两个细胞群体在所有评估时间点都显示出更高的植入效率。

在16周和18周，ABE 8.8(50和20nM剂量)编辑的细胞显示出相对于ABE7.10编辑的细胞更高的编辑效率(图5B和图5C)。通过流式细胞术分选细胞以表达LIN-hCD34⁺和GlyA⁺。

在移植后16或18周后，对GlyA⁺细胞进行分选并通过超高效液相色谱(UHPLC)测量珠蛋白水平。图5D和5E分别显示了16周和18周时γ珠蛋白的表达水平。在图5D和5E中，表达水平以总β样蛋白的百分比表示。在给药后16或18周，在两个供体中都注意到了γ珠蛋白的高表达水平。使用量为50nM的ABE 8.8RNA转录的细胞显示出比使用量为50nM的ABE7.10RNA转录的细胞更高的表达水平，表明ABE8.8编辑系统比ABE 7.10编辑系统有显著改进。

为了进一步评估含有使用ABE8.8编辑系统编辑的HBG1/2基因启动子的细胞的长期植入潜力和HbF产生能力，使用ABE8.8编辑系统编辑来自健康个体的hCD34⁺细胞。然后将细胞导入用于植入的NOD.Cg-Kit^W-41J Tyr⁺Prkdc^scid Il2rg^tm1Wjl/ThomJ(NBSGW)小鼠骨髓并在16周后测量。如图6A所示，对未编辑的和碱基编辑的hCD34⁺细胞的植入进行了评估。已编辑的和未编辑的细胞的类似植入效率表明，对HBG1/2基因启动子的编辑使得毒性被最小化至无。此观察结果与上述实验所描述的观察结果一致。ABE8.8编辑系统显示出高碱基编辑效率(图6B)。超过80％的CD34⁺细胞具有A＞G编辑。含有编辑的HBG1/2启动子区的细胞显示出γ珠蛋白的高表达水平(图6C)，表达为γ珠蛋白相对于γ和β血红蛋白总和的百分比。

实施例4.获得自镰状细胞病(SCD)患者的人类ABE编辑细胞的体外测试的分化和持续效率：

在此实施例中，从镰状细胞病患者获得的CD34⁺细胞通过电穿孔用ABE8.8 mRNA和sgRNA转染。体外生长的细胞的时间进程研究证明了所述细胞的活力和增殖，以及高碱基编辑效率(图7A和7B)。值得注意的是，在分化后48小时观察到16.5％的编辑，并且在分化后14天，观察到令人印象深刻的89.2％的经编辑细胞水平(图7A所示)。测量旁观者编辑的故障，如图7B所示，并揭示高度编辑特异性。

编辑的镰状细胞病(SCD)CD34⁺细胞分化为类红细胞，并在分化后第18天通过UHPLC分析细胞中珠蛋白的水平(图8A和8B)。检测到63.2％的γ珠蛋白水平并且S珠蛋白水平从86％降低到32.9％(图8C和8D)。

实施例5.使用不同剂量编码ABE 8.8的mRNA的植入研究

使用编码ABE 8.8的mRNA和HBG1/2 gRNA进行剂量滴定研究，所述编码ABE 8.8的mRNA和HBG1/2 gRNA通过电穿孔(EP)被引入人类造血细胞，例如CD34+细胞(“供体细胞”)。具体而言，细胞中HBG1/2基因启动子的碱基编辑在具有不同浓度(剂量)的ABE8.8 mRNA和HBG1/2 gRNA的粒细胞集落刺激因子(GCSF)+普乐沙福动员(“接种动员”)的外周血(PB)CD34+人类干细胞祖细胞(HSPC)电穿孔后评估。浓度增加的ABE8.8 mRNA(1nM至30nM)与固定浓度(3000nM)的靶向导RNA(HBG1/2a gRNA)一起使用。研究中比较了两种ABE8.8材料，研究规模(大规模)的编码ABE8.8的mRNA(批号R34)和由合同研究组织(CRO)制备的编码ABE8.8的mRNA(MRNA288；TriLink)。图9A提供了研究的实验设计。简而言之，种子动员的CD34⁺HSPC(10⁸个细胞/mL)进行电穿孔(EP)以将ABE8.8和HBG1/2 gRNA引入细胞，并且在EP后48小时进行细胞活力和NGS分析。使用ABE8.8和HBG1/2a gRNA的HBG1/2基因启动子的碱基编辑在细胞中评估。细胞的处理条件包括使用1、3、10或30nM的mRNA(MRNA288)+3000nMgRNA(试验级)或使用10nM mRNA(MRNA288与批号R34)+3000nM gRNA(试验级与R&D级)。试验级gRNA是指可能被认为与“良好生产规范”(GMP)级别的材料非常接近的材料。gRNA(HBG1/2)，或“g1”如上文实施例2中所述。“MRNA407”是“批号R34”材料的替代名称。

此研究还包括例如通过尾静脉静脉注射(也称为“移植”)将供体即碱基编辑的人类CD34+HSPC引入两种不同的小鼠模型即未辐照的NBSGW小鼠模型和经辐照的NSG(irrNSG)小鼠模型。NBSGW小鼠模型提供了一种体内动物系统，所述系统允许在移植后进行高百分比的细胞植入，并且不会导致动物贫血。NBSGW和irrNSG小鼠模型用于评估与未编辑(对照)细胞相比，所述HBG1/2基因启动子碱基编辑的人类干细胞(HSC)的植入能力。

未辐照的NBSGW小鼠模型用于进一步评估ABE8.8 mRNA的剂量滴定后，CD34⁺HSPC(和这些细胞的祖细胞)中实现的碱基编辑水平，并确定mRNA(MRNA288)材料在植入后是否随时间与mRNA材料(批号R34)表现类似。经辐照的NSG(irrNSG)小鼠模型用于评估碱基编辑的HSC的碱基适应性。此外，这两种小鼠模型用于评估人类HSC是否具有分化成各种造血谱系并在体内保持长期碱基编辑的能力。具体而言，NBSGW小鼠模型用于通过UHPLC分析评估NBSGW骨髓来源的人类红细胞中的γ珠蛋白(gamma globin/γglobin)诱导。irrNSG小鼠模型用于评估体内多谱系造血重构。如图9A所示，在IV注射细胞后8周进行骨髓(BM)分析，并且在16周(长期植入)进行BM和红细胞分型和γ珠蛋白(gamma globin/γglobin)分析。

研究中使用的实验方案和材料总结在下表22中。

表22

简而言之，对于这项研究，并如表22所示，将G+P动员的CD34+细胞(HemaCare)解冻并在X-Vivo10培养基加细胞因子(Lonza Pharma and Biotech,Basel,Switzerland)中进行2+2天培养。使用MaxCyte ATx流式电穿孔仪(HSC-3程序；OC-400处理部件)对细胞进行碱基编辑(处理-编辑)。对于NBSGW小鼠模型，研究了总共56只NBSGW小鼠。在8周(8周取出)和16周(16周取出)时，通过流式细胞术和NGS分析(n＝3-4只/组，用于细胞分选)分别分析21只小鼠和35只小鼠的骨髓(BM)。对于irrNSG小鼠模型，研究了总共56只irrNSG小鼠。在8周(8周取出)和16周(16周取出)时，通过流式细胞术和NGS分析(n＝3-4只/组，用于细胞分选)分别分析21只小鼠和35只小鼠的骨髓(BM)细胞。

图9B和9C显示了NBSGW小鼠中的长期(16周)植入和HBG1/2基因启动子碱基编辑保留。结果证明从移植后16周的HBG1/2启动子碱基编辑和未编辑的小鼠治疗组得到的骨髓(BM)样品中获得类似人类细胞嵌合(＞90％)。此外，HBG1/2基因启动子碱基编辑在具有增加的ABE8.8mRNA剂量的大量BM细胞中达到＞88％。图10A至10D证明HBG1/2基因启动子碱基编辑的人类干细胞(HSC)在NBSGW小鼠(NBSGW小鼠模型)中表现出长期(16周)多谱系造血重构。进行流式细胞术分析以鉴定所示人类祖干细胞(HSPC)、人类红细胞、人类骨髓细胞和人类淋巴细胞上的表型标志物(％不同类型的细胞)。图11证明了在16周时NBSGW小鼠中的长期人类造血、多谱系重构。显示了分析的各种人类造血细胞亚群的碱基编辑百分比以及电穿孔的ABE mRNA和gRNA的量。显示了获得的HBG1/2基因启动子碱基编辑的量与在移植后16周分选的人类HSPC(Lin-CD34+)、人骨髓(CD15+)、人淋巴(CD19+)和人类红细胞(GlyA+)中类似。图12A和12B显示的结果证明HBG1/2基因启动子碱基编辑在NBSGW小鼠中植入后长期(16周)维持升高的γ-珠蛋白水平。如图12A和B所示，HBG1/2基因启动子A到G碱基编辑在移植后16周时的大量骨髓细胞样品中达到＞88％。此外，与未编辑的BM来源的红细胞(＜0.3％)相比，＞53％的γ珠蛋白(gamma globin/γ-globin)水平在分选的、碱基编辑的、骨髓来源的人类红细胞中表达。在这些实验中，平均标准误差(SEM)的范围为0.001到0.022。

在辐照的NSG(irrNSG)小鼠中比较了使用未编辑和碱基编辑的供体细胞进行移植和植入。与未编辑的细胞相比，用ABE8.8 mRNA和HBG1/2 gRNA通过电穿孔转染的编辑的细胞的随着时间的推移(例如至少16周)保留碱基编辑功能。碱基编辑的供体细胞稳健且功能强大，并成功地在两种小鼠模型(即，如本文所述的NBSGW和irrNSG小鼠模型)中体内植入。如图13A和13B所证明，长期植入和HBG1/2基因启动子碱基编辑保留在辐照的NSG(irrNSG)小鼠中。人类细胞嵌合体在移植后16周时(即，长期植入)的HBG1/2启动子碱基编辑和未编辑处理组的BM样品中具有可比性(图13A)。HBG1/2基因启动子碱基编辑在具有增加剂量的ABE8.8 mRNA的大量BM细胞中达到＞85％(图13B)。图14A至14C呈现了证明HBG1/2基因启动子编辑的HSC在irrNSG小鼠模型中的irrNSG小鼠中也显示出长期的多谱系造血重建的结果。图15显示了具有可比性的HBG1/2基因启动子碱基编辑在NBSGW和irrNSG小鼠中长期保留(16周)。如图15中所观察到的，在从移植后16周时的NBSGW(30nM:88.3±0.6％)小鼠和irrNSG(30nM:85.1±3.7％)小鼠获得的大量骨髓(BM)细胞中检测到类似的HBG1/2基因启动子碱基编辑水平。

对于如本实施例中所述的HBG1/2基因启动子碱基编辑的mRNA编码的ABE8.8(ABE8.8 mRNA)的剂量滴定研究结果证明在剂量为1nM至30nM的mRNA(MRNA288)滴定后，保留了＞85-88％的中靶碱基编辑。使用编码被评估的ABE碱基编辑器的mRNA，在来自NBSGW和irrNSG小鼠的大量骨髓细胞中实现了类似的碱基编辑水平、人类嵌合体和多谱系人类造血细胞重构。此外，与在未编辑的细胞中评估的γ-球蛋白诱导百分比(＜0.3％)相比，使用30nM ABE8.8 mRNA剂量的中靶碱基编辑导致NBSGW骨髓来源的人红细胞中＞53％的体内γ珠蛋白(γ球蛋白)诱导。此外，对于任何测试的ABE8.8 mRNA剂量、使用的mRNA材料(GMP样与R&D级)或测试的小鼠模型(NBSGW和irrNSG)，与大量骨髓细胞中所达到的水平(16周)相比，在分析的各种分选的骨髓来源的造血细胞亚群中在体内实现了类似的中靶碱基编辑水平，因此表明HSC中的HBG1/2基因启动子碱基编辑在体内长期维持。

图16呈现了显示包括二次植入组分的进一步长期植入研究的示意图。所述研究使用如上所述的NBSGW小鼠模型。小鼠移植有用ABE mRNA和电穿孔的PB-CD34⁺细胞(1x10⁶个细胞)，并且在移植后8周和16周时对获得自植入小鼠骨髓细胞进行gRNA细胞标志物表型和％碱基编辑分析。16周后，再次给小鼠注射骨髓细胞(5x10⁶个细胞)，并且在第二次注射后8周时分析骨髓表型和％碱基编辑。图16显示了给药后16+8周时获得自小鼠的BM细胞的嵌合体、表型分析和％碱基编辑分析的图，并且证明了LIN-hCD34+细胞的％在未编辑组和碱基编辑组之间是一致的，并且碱基编辑在二次植入中持续存在。值得注意的是，对于如本文所述的将细胞二次移植到小鼠中，动物不需要消融程序(例如，用白消安处理)来实现碱基编辑的供体细胞的植入。图17A和17B显示了在剂量滴定研究的第13周时，来自移植小鼠的评估的细胞中人类BM嵌合体(hCD45+/(hCD45++mCD45+))和碱基编辑百分比的结果。

实施例6.体内移植、电穿孔和移植研究之前的碱基编辑的CD34+细胞的表征

在上述实施例的小鼠模型中引入和植入受体动物之前，通过流式细胞术方法使用特异性标记的抗蛋白标志物抗体评估供体人类CD34+细胞的凋亡的表达、谱系和表型蛋白抗原标志物。评估的谱系和分型标志物包括凋亡标志物膜联蛋白V和7-ADD。评估的抗原标志物包括hCD45、mCD45、CD3、CD235a、CD19、CD34、CD15、CD33和DAPI，并且评估的分型抗原标志物包括hCD45、mCD45、CD45RA、CD90、CD34、CD15、CD38和DAPI。

为进行分析，从一名31岁的男性高加索供体中收集PBMC并冷冻保存。在从供体收集细胞(PBMC)的时间到从收集的PBMC富集CD34+细胞(例如，使用血浆分离置换法)的时间为24小时(“24小时分离”)时，以及从供体收集细胞的时间到富集CD34+细胞的时间为48+小时(“48+小时分离”)时，在新鲜解冻的供体细胞样品中测量细胞凋亡(使用7-AAD和膜联蛋白V标志物)。将供体细胞凋亡的评估与作为对照的外周血单核细胞(PBMC)的评估进行比较(图18A和18B)。在24小时分离时评估的凋亡供体CD34+细胞数量为6.75x10e8个CD34⁺细胞；在48+小时分离时评估的凋亡CD34+细胞数量为1.60x10e9个CD34⁺细胞。发现24小时分离时分析的CD34+细胞群体含有96.3％的活细胞；发现48+小时分离时分析的CD34+细胞群体含有96.7％的活细胞。不受理论束缚，供体CD34+细胞被认为是干细胞或干细胞样细胞，其具有干细胞特性并且具有分化成其他造血细胞谱系的潜力。细胞凋亡检测试剂盒(BioLegend，目录#640926)用于膜联蛋白V标志物分析。图18C以图像显示了在使用BioLegend试剂盒进行流式细胞术分析后，活细胞(图的左下象限)、死细胞(图的右上象限)和凋亡细胞(图的右下象限)的位置。

如在本文的实施例中使用并且如在附图中所反映的，24小时分离或预富集是指从供体收集供体细胞(PBMC)到从收集的PBMC分离或富集CD34+细胞(例如，使用血浆分离置换法)的时间之间的24小时时间段(“24小时分离”或“24小时预富集”)，并且48+小时分离或预富集是指从供体收集供体细胞(PBMC)到从收集的PMBC分离或富集CD34+细胞的时间之间的48+小时时间段(“48+小时分离”或“48+小时预富集”)。这些时间段通常反映供体细胞(外周血细胞或PBMC)在分离或富集CD34+细胞(即，人类干细胞或干细胞样细胞)以用编码碱基编辑器(例如，ABE诸如ABE8.8)的mRNA和HBG1/2 gRNA进行电穿孔之前在体外的时间量。供体细胞在电穿孔和碱基编辑之前的冷冻保存和细胞解冻不会对编辑的细胞在移植后植入到体内小鼠模型中的能力产生不利影响。

在细胞电泳前(“EP前”)和电泳后(“EP后”)还测量了CD34+细胞中的细胞凋亡。图19A显示了对“EP前”样品进行的细胞凋亡分析的结果，其中细胞在冷冻保存后的解冻后培养了48+小时。图19B显示了通过对在24小时或48+小时富集的不同组“EP后”CD34+细胞样品(未编辑的和碱基编辑的CD34+细胞)进行的流式细胞术分析确定的细胞凋亡的测量值。图19C显示了使用对所分析的谱系标志物具有特异性的抗体试剂在电穿孔后24小时对新鲜解冻的供体细胞进行谱系分析的流式细胞术结果。

小规模和大规模电穿孔系统都用于碱基编辑研究。对于小规模电穿孔，使用OC-400(总体积400μL)细胞电穿孔筒；对于大规模电穿孔，使用CL1.1细胞电穿孔筒(总体积3mL)。流式电穿孔是使用MaxCyte仪与小型和大型筒一起进行的。为获得最佳的碱基编辑效率、细胞活力和碱基编辑保留时间，CD34+细胞应在从供体收集并冷冻保存后24至48+小时进行电穿孔。

以举例的方式，在用ABE8.8 mRNA和HBG1/2 gRNA电穿孔的CD34+细胞中导致碱基编辑保留至少16周的大规模过程包括以下：使用冷冻保存的细胞作为起始材料，含有glutamax添加剂的Lonza X-vivo 10作为细胞培养基；如本文所述，在电穿孔后培养细胞48+小时；用于使用MaxCyte仪器进行流式电穿孔的OC-400电穿孔筒(预冷)或CL1.1电穿孔筒(环境温度)；细胞培养/细胞转移容器(vessel/container)，其为烧瓶、培养板或锥形细胞培养管(50mL)；37℃的电穿孔细胞电穿孔后孵育温度；以及如上文所述的涉及多次离心和在4℃下洗涤的电穿孔前细胞过程。

基于图2的研究设计进行细胞电穿孔、移植和植入研究。下面的表23呈现了研究参数。

表23

NBSGW小鼠模型用于注射/移植碱基编辑的CD34⁺人类细胞和随后的研究中的植入。在注射后8周和16周收集和评估移植的细胞。在8周时的评估，进行BM FACS(谱系和造血干细胞(HSC)分型)、大量BM和血液NGS、分选Lin^-CD34+细胞、NGS并培养细胞。在16周时的收集，进行BM FACS(谱系和造血干细胞(HSC)分型)、大量BM和血细胞NGS、基于(hCD15+hCD19⁺、hCD34⁺和GlyA⁺)细胞标志物的细胞分选、来自第3、4和5组的二次植入、细胞培养和CFU分析以及GlyA+的UPLC。图20A显示了在电穿孔前(EP前)和电穿孔后24、48和72小时的细胞活力。图20B显示了在指定时间段内移植细胞中碱基编辑的百分比。图21A显示了解冻细胞后的去核细胞的百分比(DAPI-/NucRed-％)。图21B显示了细胞解冻后在第0-14天的生长曲线。结果证明，未编辑的细胞和使用小规模或大规模电穿孔的编辑的细胞，以及解冻后24和48+小时预富集的未编辑的或碱基编辑的细胞，都显示出几乎相同的去核和细胞生长。

γ珠蛋白表达的诱导在小规模电穿孔和48+或24小时预富集后的碱基编辑的细胞中和在大规模电穿孔和24小时预富集后的碱基编辑的细胞中被证明是类似的(约60％)(图22A)。发现由解冻的未编辑的CD34+细胞和经历小规模或大规模电穿孔和24或48+小时预富集处理的碱基编辑的CD34+细胞形成的细胞集落数量(集落形成单位(CFU))是类似的(图22B)。此外，不同的特定集落形成单位细胞类型的数量在上述组中也非常类似，所述集落形成单位即，CFU，诸如红系爆式形成单位(BFU-E)细胞，其为最早的红系特异性前体细胞；CFU-GM，即粒细胞-巨噬细胞祖细胞，其为成单核细胞和成髓细胞的前体；和CFU-GEMM(“集落形成单位-粒细胞、红细胞、单核细胞、巨核细胞”)，其为产生骨髓细胞的集落形成单位。CFU-GEMM细胞是骨髓细胞的寡势祖细胞；因此，它们也被称为普通骨髓祖细胞或骨髓干细胞。红细胞、白细胞和血小板来源于CFU-GEMM。

研究结果显示，在给动物用药未编辑的或碱基编辑的CD34+细胞后8周，小鼠骨髓(BM)中人类细胞嵌合体的百分比(hCD45+/(hCD45++mCD45+)在不同细胞处理组之间是高的(图23A)。正如所观察到的，在小规模(OC400)或大规模(CL1.1)电穿孔条件下电穿孔并经受24或48+小时预富集条件的碱基编辑的CD34+细胞显示出类似的嵌合体百分比。移植后8周评估的输入、大量BM、CD34+/LIN-和全血中碱基编辑(A到G)的百分比与在小规模和大规模条件下电穿孔的碱基编辑的CD34+细胞(24小时预富集)中的百分比类似(图23B)。图24A至24D证明在给药未编辑的或碱基编辑的供体CD34+细胞后8周和16周时，在动物中检测到小鼠骨髓(BM)、hCD15+细胞、GlyA+细胞和CD34+人类细胞中类似百分比的人类供体细胞嵌合体，与电穿孔类型或分离/富集CD34+细胞的时间无关。植入16周后对嵌合体、碱基编辑百分比和胎儿珠蛋白再激活的评估确定了类似的结果(图25A至25C)。植入的碱基编辑的细胞显示胎儿血红蛋白(HbF)上调。

在向动物给药未编辑的或碱基编辑的细胞后16周时评估的不同细胞表型和谱系亚群(即，GlyA+、CD15+、CD19+、LIN-CD34、BM)中的碱基编辑百分比，对于移植有经受了小规模电穿孔(OC-400)的碱基编辑的CD34+细胞(从收集人类供体血液样品的时间开始24小时后分离的CD34+细胞，“24小时”)的动物和对于移植有经受了大规模电穿孔(CL1.1)的碱基编辑的CD34+细胞(从收集人类供体血液样品的时间开始24小时后分离的CD34+细胞，“24小时”)的动物被确定为高(大约80％或更高)。(图26)。在移植使用小规模或大规模电穿孔过程电穿孔的碱基编辑的CD34+细胞后16周时，在每种细胞亚型中检测到类似量的碱基编辑，其中CD34+细胞从收集人类供体血液样品的时间开始24小时后分离，“24小时”。

本实施例中描述的研究结果证明，细胞，即在血浆分离置换法后24小时内分离的CD34+细胞，植入到动物并保留碱基编辑水平至移植后至少16周。植入血浆分离置换法后48+小时分离的CD34+细胞，但在移植后16周内不保留编辑水平(例如，图23B和25B)。血浆分离置换法后24小时γ/β样的百分比(％)水平组被确定在治疗范围内。分别使用小规模和大规模电穿孔方法OC-400和CL1.1进行电穿孔的CD34+细胞的碱基编辑水平与保留在移植后16周时的NBSGW小鼠(NBSGW小鼠模型)中类似。

如上述实施例中所述，碱基编辑的移植的供体细胞成功植入受体动物(例如，NBSGW小鼠模型)中，并在动物体内维持至少16周或更长的长期时间。使用编辑的供体细胞(例如，CD34+细胞)实现在动物中的植入，所述细胞使用小规模和大规模电穿孔步骤并且使用编码碱基编辑器(例如，含有腺苷脱氨酶的碱基编辑器，ABE8.8)的mRNA以及向导RNA(例如HBG1/2 gRNA(g1))进行电穿孔。长期植入和碱基编辑(至少16周或更长时间)得到证明。使用转染有编码腺苷碱基编辑器(例如，ABE8/8)的mRNA和本文所述的长期植入研究中的gRNA(g1)的植入的编辑的供体细胞没有检测到已知脱靶效应。此外，用于移植和植入的碱基编辑的细胞在动物中提供更高水平的功效和更好的安全性，因为细胞内的碱基编辑功能不涉及双链DNA断裂。不受理论束缚，如本文所述用于碱基编辑和移植的CD34+细胞(供体细胞)为移植和植入提供了更高质量和更稳健的起始细胞群体，因为CD34+细胞从供体PBMC富集并在电穿孔、碱基编辑和体内移植之前相对较短的时间内(例如在从供体收集和血浆分离置换细胞后24或48+小时的时间段)用ABE(例如ABE8.8)mRNA和gRNA电穿孔。此外，本文的细胞和方法提供了更高产量的活的、碱基编辑的供体细胞，其维持干细胞样特性和功能活性。相比于通常涉及使用不同核酸酶的其他类型基因编辑技术诱导DNA链断裂并导致更多的脱靶编辑效应，使用本文描述的碱基编辑器和编辑技术进行碱基编辑的细胞被证明非常适合体内移植和长期植入。

实施例7.植入方法

使用健康的5至7周龄雌性NBSGW小鼠(库存号026622，Jackson Laboratory)进行体内动物研究。涉及动物的程序由Charles River CRADL Facility的实验动物管理和使用委员会(IACUC)审查和批准(IACUC协议CR-0071)，并遵守动物福利法条例(9CFR)、美国公共卫生署人道管理和使用实验动物政策、实验动物管理与使用指南的所有适用部分，以及USDA动物福利法中说明的标准。

根据研究设计，雌性NBSGW小鼠被随机分组。第0天，在通过尾静脉接受500μL的单次静脉(IV)注射测试制品(1x10e6个编辑的hCD34⁺HSPC)或对照细胞(1x10e6未编辑的hCD34⁺HSPC)前，将小鼠称重。移植后，每天观察小鼠的一般健康状况，并在整个研究过程中定期称重。

在每个研究设计的最终时间点处死小鼠。为了收获骨髓样品，将处死小鼠的股骨、胫骨和骨盆骨收集到IMDM/10％ FBS中。冲洗并使用70μm尼龙过滤器过滤总骨髓。将所得骨髓细胞沉淀储存在冰上直至使用。

其它实施方案

根据上文描述，将显而易知的是可以对本文所述的本发明作出变化和修改以使其适于各种用途和条件。所述实施方案也在以下权利要求书的范围内。

在对本文变量的任何定义中叙述一列要素包括将那个变量定义为任何单一要素或所列要素的组合(或亚组合)。在本文中叙述实施方案包括那个实施方案呈任何单一实施方案形式或与任何其它实施方案或其部分组合。

本说明书中提及的所有专利和公开以引用方式并入本文，程度如同明确地且个别地指示各独立专利和公开以引用方式并入一般。

Claims

1.一种在患有血红蛋白病的受试者中植入核碱基编辑的造血干细胞或其祖细胞的方法，所述方法包括：

(a)使造血干细胞或其祖细胞在体外与向导RNA和包含多核苷酸可编程DNA结合结构域和脱氨酶结构域的碱基编辑器或编码所述碱基编辑器的多核苷酸接触，其中所述向导RNA靶向所述多核苷酸可编程DNA结合结构域以诱导靶血红蛋白(HBB)基因或HBG1/2的启动子区域中的核碱基变化，从而获得核碱基编辑的造血干细胞或其祖细胞；并且其中所述核碱基编辑的造血干细胞或其祖细胞在从供体收集后48小时内与所述gRNA和所述碱基编辑器接触；和

(b)向受试者施用有效量的所述核碱基编辑的造血干细胞或其祖细胞，以在施用后获得所述核碱基编辑的造血干细胞或其祖细胞在所述受试者组织中的植入。

2.如权利要求1所述的方法，其中所述核碱基编辑的造血干细胞或其祖细胞包括从收集自供体的多形核血细胞(PBMC)富集的CD34⁺细胞。

3.一种在患有血红蛋白病的受试者中植入核碱基编辑的造血干细胞或其祖细胞的方法，所述方法包括：

(a)使造血干细胞或其祖细胞在体外与向导RNA和包含多核苷酸可编程DNA结合结构域和脱氨酶结构域的碱基编辑器或编码所述碱基编辑器的多核苷酸接触，其中所述向导RNA靶向所述多核苷酸可编程DNA结合结构域以诱导靶血红蛋白(HBB)基因或HBG1/2的启动子区域中的核碱基变化，从而获得核碱基编辑的造血干细胞或其祖细胞；和

4.一种治疗受试者的血红蛋白病的方法，所述方法包括：

(a)使造血干细胞或其祖细胞在体外与向导RNA和包含多核苷酸可编程DNA结合结构域和脱氨酶结构域的碱基编辑器或编码所述碱基编辑器的多核苷酸接触，其中所述向导RNA靶向所述多核苷酸可编程DNA结合结构域以诱导靶血红蛋白(HBB)基因或HBG1/2的启动子区域中靶血红蛋白(HBB)基因中的核碱基变化，从而获得核碱基编辑的造血干细胞或其祖细胞；和

5.如权利要求1至4中任一项所述的方法，其中所述核碱基变化是A到G核碱基变化。

6.如权利要求1至5中任一项所述的方法，其中所述脱氨酶结构域是腺苷脱氨酶结构域并与序列MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:3)共享至少85％的序列同一性，并且其中所述腺苷脱氨酶结构域能够催化腺嘌呤或腺苷的水解脱氨。

7.如权利要求6所述的方法，其中所述腺苷脱氨酶结构域包含以下改变中的一个或多个：Y123H、Q154S和Q154R。

8.如权利要求6或权利要求7所述的方法，其中所述腺苷脱氨酶结构域包含以下改变中的一个或多个：Y147T、Y147R、Q154S、Y123H和Q154R。

9.如权利要求6至8中任一项所述的方法，其中所述腺苷脱氨酶结构域包含选自由以下组成的组的改变的组合：

Y147R、Q154R和Y123H；

Y147R、Q154R和I76Y；

Y147R、Q154R和T166R；

Y147T和Q154R；Y147T和Q154S；以及

Y123H、Y147R、Q154R和I76Y。

10.如权利要求6至9中任一项所述的方法，其中所述腺苷脱氨酶结构域包含改变Y147R、Q154R和Y123H。

11.如权利要求1至10中任一项所述的方法，其中所述脱氨酶结构域是TadA*8变体。

12.如权利要求11所述的方法，其中所述TadA*8变体选自由以下组成的组：TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12和TadA*8.13。

13.如权利要求1至12中任一项所述的方法，其中所述碱基编辑器是选自由以下组成的组的ABE8碱基编辑器：ABE8.1、ABE8.2、ABE8.3、ABE8.4、ABE8.5、ABE8.6、ABE8.7、ABE8.8、ABE8.9、ABE8.10、ABE8.11、ABE8.12和ABE8.13。

14.一种在患有血红蛋白病的受试者中植入核碱基编辑的造血干细胞或其祖细胞的方法，所述方法包括：

(a)使造血干细胞或其祖细胞在体外与向导RNA和包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域的腺苷碱基编辑器或编码所述碱基编辑器的多核苷酸接触，所述腺苷脱氨酶结构域包含与序列MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:3)具有至少85％序列同一性的氨基酸序列，并且包含改变Y123H、Y147R和Q154R，其中所述腺苷脱氨酶结构域催化腺嘌呤或腺苷的水解脱氨，并且其中所述向导RNA靶向所述多核苷酸可编程DNA结合结构域以诱导靶血红蛋白(HBB)基因或HBG1/2的启动子区域中的A到G核碱基变化，从而获得核碱基编辑的造血干细胞或其祖细胞；和

15.一种治疗受试者的血红蛋白病的方法，所述方法包括：

(a)使造血干细胞或其祖细胞在体外与向导RNA和包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域的腺苷碱基编辑器或编码所述碱基编辑器的多核苷酸接触，所述腺苷脱氨酶结构域包含与MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(SEQ ID NO:3)具有至少85％序列同一性的氨基酸序列，并且包含改变Y123H、Y147R和Q154R，其中所述腺苷脱氨酶结构域催化腺嘌呤或腺苷的水解脱氨，并且其中所述向导RNA靶向所述多核苷酸可编程DNA结合结构域以诱导靶血红蛋白(HBB)基因或HBG1/2的启动子区域中的A到G核碱基变化，从而获得核碱基编辑的造血干细胞或其祖细胞；和

16.如权利要求6至15中任一项所述的方法，其中所述腺苷脱氨酶结构域包含在位置82或166处的改变。

17.如权利要求16所述的方法，其中所述在位置82处的改变是V82S。

18.如权利要求16或权利要求17所述的方法，其中所述在位置166处的改变是T166R。

19.如权利要求6至18中任一项所述的方法，其中所述腺苷脱氨酶结构域包含在位置166和82处的改变。

20.如权利要求6至19中任一项所述的方法，其中所述脱氨酶结构域与所述序列具有至少90％的序列同一性。

21.如权利要求7至20中任一项所述的方法，其中所述碱基编辑器还包含野生型腺苷脱氨酶结构域。

22.如权利要求1至21中任一项所述的方法，其中所述多核苷酸可编程DNA结合结构域是Cas9。

23.如权利要求22所述的方法，其中所述Cas9是SpCas9、SaCas9或其变体。

24.如权利要求1至23中任一项所述的方法，其中所述多核苷酸可编程DNA结合结构域包含具有改变的原型间隔区相邻基序(PAM)特异性的修饰的Cas9。

25.如权利要求24所述的方法，其中所述Cas9具有对选自由NGG、NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN和NGC组成的组的PAM序列的特异性，其中N是A、G、C或T并且其中R是A或G。

26.如权利要求1至25中任一项所述的方法，其中所述多核苷酸可编程DNA结合结构域无核酸酶活性。

27.如权利要求1至25中任一项所述的方法，其中所述多核苷酸可编程DNA结合结构域是切口酶。

28.如权利要求26或权利要求27所述的方法，其中所述多核苷酸可编程DNA结合结构域包含改变D10A和/或H840A。

29.如权利要求28所述的方法，其中所述多核苷酸可编程DNA结合结构域包含改变D10A。

30.如权利要求1至29中任一项所述的方法，其中所述脱氨酶结构域包含腺苷脱氨酶单体。

31.如权利要求1至30中任一项所述的方法，其中所述脱氨酶结构域包含腺苷脱氨酶二聚体。

32.一种在患有血红蛋白病的受试者中植入编辑的造血干细胞或其祖细胞的方法，所述方法包括：

(a)使造血干细胞或其祖细胞在体外与向导RNA和包含氨基酸序列的碱基编辑器或编码所述碱基编辑器的多核苷酸接触，所述氨基酸序列与以下两个氨基酸序列之一具有至少80％的序列同一性：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQID NO:258)，和MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQ ID NO:259)，其中所述向导RNA靶向所述多核苷酸可编程DNA结合结构域，以诱导HBG1/2的启动子区域中的A到G核碱基变化，从而获得编辑的造血干细胞或其祖细胞；

33.一种治疗受试者的血红蛋白病的方法，所述方法包括：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQID NO:258)，和MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQ ID NO:259)，其中所述向导RNA靶向所述多核苷酸可编程DNA结合结构域，以诱导靶血红蛋白(HBB)基因或HBG1/2的启动子区域中的A到G核碱基变化，从而获得编辑的造血干细胞或其祖细胞；

34.如权利要求1至33中任一项所述的方法，其中在向所述受试者施用所述细胞后约1周、2周、3周、4周、5周、6周、7周或8周或更多周时，在所述受试者中测量所述核碱基编辑的造血干细胞或其祖细胞的植入效率。

35.如权利要求1至34中任一项所述的方法，其中在向所述受试者施用所述细胞后至少8周，在所述受试者中测量所述核碱基编辑的造血干细胞或其祖细胞的植入效率。

36.如权利要求1至35中任一项所述的方法，其中在向所述受试者施用所述细胞后至少16周，在所述受试者中测量所述核碱基编辑的造血干细胞或其祖细胞的植入效率。

37.如权利要求34至36中任一项所述的方法，其中所测量的植入效率为至少约20％。

38.如权利要求34至37中任一项所述的方法，其中所测量的植入效率为至少约30％。

39.如权利要求34至38中任一项所述的方法，其中所测量的植入效率为至少约40％。

40.如权利要求34至39中任一项所述的方法，其中所测量的植入效率为至少约50％。

41.如权利要求1至40中任一项所述的方法，其中(b)中至少约50％的所述造血细胞或其祖细胞是活的。

42.如权利要求1至41中任一项所述的方法，其中(b)中至少30％的所述造血细胞或其祖细胞包含核碱基变化。

43.如权利要求1至42中任一项所述的方法，其中(b)中至少50％的所述造血细胞或其祖细胞包含核碱基变化。

44.如权利要求1至43中任一项所述的方法，其中(b)中至少60％的所述造血细胞或其祖细胞包含核碱基变化。

45.如权利要求1至44中任一项所述的方法，其中(b)中至少70％的所述造血细胞或其祖细胞包含核碱基变化。

46.如权利要求1至45中任一项所述的方法，其中所述造血细胞或其祖细胞分离自或来源于所述受试者。

47.如权利要求1至46中任一项所述的方法，其中所述造血干细胞或其祖细胞包含与镰状细胞病(SCD)相关的单核苷酸多态性(SNP)。

48.如权利要求47所述的方法，其中所述与SCD相关的SNP导致由所述HBB基因编码的血红蛋白β单元中的E6V取代。

49.如权利要求1至48中任一项所述的方法，其中至少30％的所述造血干细胞或其祖细胞在植入后保留碱基编辑活性。

50.如权利要求1至49中任一项所述的方法，其中至少50％的所述造血干细胞或其祖细胞在植入后保留碱基编辑活性。

51.如权利要求1至50中任一项所述的方法，其中至少60％的所述造血干细胞或其祖细胞在植入后保留碱基编辑活性。

52.如权利要求1至51中任一项所述的方法，其中至少70％的所述造血干细胞或其祖细胞在植入后保留碱基编辑活性。

53.如权利要求1至52中任一项所述的方法，其中至少80％的所述造血干细胞或其祖细胞在植入后保留碱基编辑活性。

54.如权利要求1至53中任一项所述的方法，其中至少90％的所述造血干细胞或其祖细胞在植入后保留碱基编辑活性。

55.如权利要求1至54中任一项所述的方法，其中所述核碱基改变导致由所述HBB基因编码的血红蛋白β单元中的E6A取代。

56.如权利要求1至55中任一项所述的方法，其中所述造血细胞或其祖细胞在施用后保留分化能力。

57.如权利要求1至56中任一项所述的方法，其中所述造血细胞或其祖细胞能够产生红细胞。

58.如权利要求1至57中任一项所述的方法，其中所述编码碱基编辑器的多核苷酸包括mRNA或者是mRNA。

59.如权利要求1至58中任一项所述的方法，其中所述造血干细胞或其祖细胞与至少约1nM的编码所述碱基编辑器的mRNA接触。

60.如权利要求1至59中任一项所述的方法，其中所述造血干细胞或其祖细胞与至少约3nM的编码所述碱基编辑器的RNA接触。

61.如权利要求1至60中任一项所述的方法，其中所述造血干细胞或其祖细胞与至少约10nM的编码所述碱基编辑器的RNA接触。

62.如权利要求1至61中任一项所述的方法，其中所述造血干细胞或其祖细胞与至少约30nM的编码所述碱基编辑器的RNA接触。

63.如权利要求1至62中任一项所述的方法，其中所述造血干细胞或其祖细胞与至少约50nM的编码所述碱基编辑器的RNA接触。

64.如权利要求1至63中任一项所述的方法，其中所述造血干细胞或其祖细胞与至少约3000nM的所述gRNA接触。

65.如权利要求1至64中任一项所述的方法，其中相对于接受未编辑的造血干细胞或其祖细胞的对照受试者中的水平，植入后所述受试者中的胎儿血红蛋白(HbF)水平增加。

66.如权利要求1至65中任一项所述的方法，其中相对于接受未编辑的造血干细胞或其祖细胞的对照受试者中的水平，所述受试者中的胎儿血红蛋白(HbF)水平增加至少约20％。

67.如权利要求1至66中任一项所述的方法，其中相对于接受未编辑的造血干细胞或其祖细胞的对照受试者中的HbS表达，植入后所述受试者中的所述受试者中的HbS表达降低。

68.如权利要求1至67中任一项所述的方法，其中相对于接受未编辑的造血干细胞或其祖细胞的对照受试者中的HbS表达，所述受试者中的HbS表达降低至少约20％。

69.如权利要求1至68中任一项所述的方法，其中所述核碱基编辑的造血干细胞或其祖细胞表达CD34。

70.如权利要求1至69中任一项所述的方法，其中所述核碱基编辑的造血干细胞或其祖细胞表达CD34、CD45、CD19和GlyA中的一个或多个。

71.如权利要求1至70中任一项所述的方法，其中所述核碱基编辑的造血干细胞或其祖细胞表达HbF。

72.如权利要求1至71中任一项所述的方法，其中所述造血干细胞或其祖细胞是人类造血干细胞或其祖细胞。

73.如权利要求1至72中任一项所述的方法，其中所述受试者是哺乳动物。

74.如权利要求1至73中任一项所述的方法，其中所述受试者是人类。

75.如权利要求1至74中任一项所述的方法，其中所述核碱基编辑的造血干细胞或其祖细胞是GlyA⁺。

76.如权利要求1至75中任一项所述的方法，其中所述受试者患有镰状细胞病(SCD)、地中海贫血症和/或贫血。

77.如权利要求76所述的方法，其中所述受试者患有SCD。

78.如权利要求1至77中任一项所述的方法，其中所述核碱基编辑的造血干细胞或其祖细胞是所述受试者自体的。

79.如权利要求3至68和70至78中任一项所述的方法，其中所述核碱基编辑的造血干细胞或其祖细胞在施用之前未富集。

80.如权利要求1至79中任一项所述的方法，其中所述核碱基编辑的造血干细胞或其祖细胞在施用之前富集。

81.如权利要求1至80中任一项所述的方法，其中所述核碱基变化消除、破坏或减少HBG1/2启动子区域中的BCL11A结合。

82.如权利要求1至81中任一项所述的方法，其中所述核碱基变化位于HBG1/2启动子区域中选自-114、-117、-175和-198的位置。

83.如权利要求1至82中任一项所述的方法，其中所述核碱基变化与HBG1/2的表达增加相关。

84.如权利要求1至83中任一项所述的方法，其中所述核碱基变化与所述造血干细胞或其祖细胞中血红蛋白γ亚基水平的增加相关。

85.如权利要求1至84中任一项所述的方法，其中HbF蛋白在所述受试者中的表达水平在施用后升高。

86.如权利要求1至85中任一项所述的方法，其中所述施用导致所述受试者中HbF的表达持续至少8周。

87.如权利要求1至86中任一项所述的方法，其中所述施用导致所述受试者中HbF的表达持续至少16周。

88.如权利要求1至87中任一项所述的方法，其中所述施用减少或改善了所述受试者中与镰状细胞病相关的症状。

89.如权利要求1至88中任一项所述的方法，其中由所述造血细胞或其祖细胞产生的红细胞表现出减少的镰状化。

90.如权利要求1至89中任一项所述的方法，其中在所述受试者的组织中施用后至少16周，至少50％的编辑保留。

91.如权利要求1至90中任一项所述的方法，其中在所述受试者的组织中施用后16周，至少80％的编辑保留。

92.如权利要求1至91中任一项所述的方法，其中施用进行多次。

93.如权利要求1至92中任一项所述的方法，其中以至少约一个月的间隔进行多次施用。

94.如权利要求1至93中任一项所述的方法，其中所述向导RNA包含选自表1中列出的SEQ ID NO:130-155的核苷酸序列。

95.如权利要求1至93中任一项所述的方法，其中所述gRNA包含所述序列或由其组成，所述序列从5'至3'为：GACCAAUAGCCUUGACAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCU，对应于SEQ ID NO:129的碱基4-97。

96.如权利要求1至93中任一项所述的方法，其中所述向导RNA包含所述核苷酸序列或由其组成，所述核苷酸序列从5'至3'为：csususGACCAAUAGCCUUGACAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUsususu(SEQ ID NO:129)，其中小写字母表示2'-O-甲基化核碱基，并且“s”表示硫代磷酸酯(SEQ ID NO:129)。

97.如权利要求1至93中任一项所述的方法，其中所述向导RNA包含所述核苷酸序列或由其组成，所述核苷酸序列为以下任一序列：5'-gsascsUUCUCCACAGGAGUCAGGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUsususu-3'(SEQ ID NO:126)、5'-ascsusUCUCCACAGGAGUCAGGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUsususu-3'(SEQ ID NO:127)和5'-csususCUCCACAGGAGUCAGGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUsususu-3'(SEQ ID NO:128)，其中小写字母表示2’-O-甲基化核碱基，并且“s”表示硫代磷酸酯。

98.如权利要求1至97中任一项所述的方法，其中所述施用与在所述受试者骨髓中至少50％的细胞中表达的血红蛋白亚基γ相关。

99.如权利要求1至98中任一项所述的方法，其中所述施用与在所述受试者骨髓中至少60％的细胞中表达的血红蛋白亚基γ相关。

100.如权利要求1至99中任一项所述的方法，其还包括在施用所述造血干细胞或其祖细胞之前耗尽所述受试者中的一种或多种淋巴谱系细胞。

101.如权利要求3至68和70至100中任一项所述的方法，其中所述造血干细胞或其祖细胞是富集的CD34⁺细胞，并且其中所述CD34⁺细胞在从供体收集或分离PBMC后少于48小时从供体外周血单核细胞(PBMC)富集。

102.如权利要求1至101中任一项所述的方法，其中所述造血干细胞或其祖细胞在从供体收集或分离后被冷冻保存。

103.如权利要求1至102中任一项所述的方法，其中所述gRNA和/或编码所述碱基编辑器的所述多核苷酸包含2'-O-甲基核苷酸修饰。

104.如权利要求103所述的方法，其中所述2'-O-甲基核苷酸修饰布置在所述gRNA和/或编码所述碱基编辑器的所述多核苷酸的3'或5'端。

105.如权利要求1至104中任一项所述的方法，其中所述gRNA和/或编码所述碱基编辑器的所述多核苷酸包含硫代磷酸酯核苷酸间键。

106.如权利要求1至105中任一项所述的方法，其中所述造血干细胞或其祖细胞与编码所述碱基编辑器的所述多核苷酸接触。

107.如权利要求1至106中任一项所述的方法，其中所述碱基编辑器作为在所述造血干细胞或其祖细胞中表达的多核苷酸递送。

108.如权利要求1至107中任一项所述的方法，其中所述核碱基编辑的造血干细胞或其祖细胞的植入在受试者中维持至少8周。

109.如权利要求1至108中任一项所述的方法，其中所述核碱基编辑的造血干细胞或其祖细胞的植入在受试者中维持至少16周。

110.如权利要求1至109中任一项所述的方法，其中所述核碱基编辑的造血干细胞或其祖细胞在从供体收集后24小时内与所述gRNA和所述碱基编辑器接触。

111.如权利要求32至110中任一项所述的方法，其中所述碱基编辑器与以下两个序列之一共享至少90％的序列同一性：

MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQID NO:258)，和MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV(SEQ ID NO:259)。

112.如权利要求32至111中任一项所述的方法，其中所述碱基编辑器与以下两个序列之一共享至少95％的序列同一性：

113.如权利要求3至68和70至112中任一项所述的方法，其中所述造血干细胞或其祖细胞是富集的CD34⁺细胞，并且其中所述CD34⁺细胞在从供体收集或分离PBMC后少于24小时从供体外周血单核细胞(PBMC)富集。

114.一种用于权利要求1至113中任一项所述的方法中的试剂盒，其中所述试剂盒包括所述向导RNA和编码所述碱基编辑器的多核苷酸。