CN116656676A

CN116656676A - 一对用于编辑人pcsk9核酸序列的辅助引导rna/引导rna

Info

Publication number: CN116656676A
Application number: CN202211043562.5A
Authority: CN
Inventors: 陈佳; 杨贝; 杨力; 黄行许; 王丽洁
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2019-02-02
Filing date: 2020-02-03
Publication date: 2023-08-29
Also published as: KR20210126042A; EP3918083A4; JP2022526695A; AU2020214090B2; CA3128283A1; CN116286802A; EP3918083A1; CN116355966A; CN113661248B; WO2020156575A1; US20230094769A1; AU2022287550A1; US11384353B2; US11840685B2; BR112021015092A2; US20240026342A1; AU2020214090A1; SG11202108303SA; US20220064626A1; CN113661248A

Abstract

本发明提供了一对用于编辑人PCSK9核酸序列的辅助引导RNA/引导RNA。所述引导RNA特异性地靶向PCSK9核酸上的第一位点，以使碱基编辑能够将非终止密码子转化为终止密码子，并且其中所述辅助引导RNA特异性地靶向离第一位点20至100个碱基的PCSK9核酸上的第二位点。所述一对用于编辑人PCSK9核酸序列的辅助引导RNA/引导RNA的编辑效率大大提高。

Description

一对用于编辑人PCSK9核酸序列的辅助引导RNA/引导RNA

技术领域

本发明涉及基因工程领域，具体涉及一对用于编辑人PCSK9核酸序列的辅助引导RNA/引导RNA。

背景技术

基因组编辑是一种基因工程，利用工程核酸酶(分子剪刀)将DNA插入、删除或替换到活生物体的基因组中。利用基因组编辑工具对细胞和活生物体的基因组进行遗传操作在生命科学研究、生物技术/农业技术开发以及最重要的药物/临床创新中有着广泛的应用。例如，基因组编辑可用于纠正遗传疾病背后的驱动突变，从而彻底治愈活生物体中的这些疾病。基因组编辑还可用于工程改造农作物基因组，提高农作物产量，赋予农作物抗环境污染或病原体感染的能力。此外，通过精确的基因组编辑进行微生物基因组转化对可再生生物能源的开发具有重要意义。

CRISPR/Cas(成簇的规则间隔的短回文重复序列/CRISPR相关蛋白)系统因其无与伦比的编辑效率、便捷性和在活生物体中的潜在应用，自诞生以来一直是最强大的基因组编辑工具。在引导RNA(gRNA)的引导下，Cas核酸酶可以在各种细胞(细胞系和来自活生物体的细胞)的靶基因组位点产生DNA双链断裂(DSBs)。这些DSBs随后被内源性DNA修复系统修复，可用于进行所需的基因组编辑。

一般而言，DSBs可激活两种主要的DNA修复途径：非同源末端连接(NHEJ)和同源导向修复(HDR)。NHEJ可在DSBs周围的基因组DNA区域引入随机插入/缺失(indels)，导致开放阅读框(ORF)移位，最终导致基因失活。相反，当HDR被触发时，靶位点的基因组DNA序列可以通过同源重组机制被外源供体DNA模板的序列替代，从而导致遗传突变的纠正。然而，HDR介导的基因纠正的实际效率较低(通常<5％)，因为同源重组的发生具有细胞类型特异性和细胞周期依赖性，并且NHEJ比HDR更频繁地被触发。因此，HDR相对较低的效率限制了CRISPR/Cas基因组编辑工具在精确基因治疗(疾病驱动的基因纠正)领域的翻译。

最近开发的碱基编辑器(BE)，它将CRISPR/Cas系统与APOBEC(载脂蛋白B mRNA编辑酶，催化性多肽样)AID(活化诱导的胞苷脱氨酶)家族相结合，极大地提高了CRISPR/Cas介导的基因校正的效率。通过与Cas9切割酶(nCas9)或催化失活的Cpf1(dCpf1，也称为dCas12a)融合，APOBEC/AID家族成员的胞嘧啶(C)脱氨活性可以有目的地导向基因组中的靶碱基，并在这些碱基上催化C至胸腺嘧啶(T)替代。

然而，由于APOBEC/AID家族成员可在单链DNA(ssDNA)区域诱导C-to-T碱基替换突变，当前碱基编辑系统的特异性受到损害，从而限制了其应用，例如，使用BEs恢复导致人类疾病的T-to-C突变用于治疗目的。因此，创建能够特异性编辑靶区域胞嘧啶，但不会在其他ssDNA区域引起C-to-T突变的新型BEs是可取的。这种新型的BEs将使我们能够在各种活生物体中进行更特异的碱基编辑。重要的是，此类BEs的高特异性将促进潜在的临床转化，尤其是在涉及恢复疾病相关的T-to-C突变的基因治疗中。

发明内容

在一些实施方案中，本发明提供了对基因组编辑有用的碱基编辑器，其可减少或避免现有碱基编辑器共有的脱靶突变。在某些实施方案中，核碱基脱氨酶抑制剂和参与基因组编辑的核碱基脱氨酶可裂解地融合。在存在核碱基脱氨酶抑制剂的情况下，核碱基脱氨酶不能(不太能)与核苷酸分子反应。在目标编辑位置，核碱基脱氨酶抑制剂被裂解并释放出完全活性的核碱基脱氨酶，然后可根据需要进行编辑。

因此，在一个实施方案中，提供了一种融合蛋白，其包括：包含核碱基脱氨酶或其催化结构域的第一片段，包含核碱基脱氨酶抑制剂的第二片段，以及在第一片段和第二片段之间的蛋白酶切割位点。

在一些实施方案中，所述核碱基脱氨酶为腺苷脱氨酶。在一些实施方案中，腺苷脱氨酶选自由tRNA特异性腺苷脱氨酶(TadA)、tRNA特异性1腺苷脱氨酶(ADAT1)、tRNA特异性腺苷脱氨酶2(ADAT2)、tRNA特异性腺苷脱氨酶3(ADAT3)、RNA特异性腺苷脱氨酶B1(ADARB1)、RNA特异性腺苷脱氨酶B2(ADARB2)、腺苷一磷酸脱氨酶1(AMPD1)、腺苷一磷酸脱氨酶2(AMPD2)、腺苷一磷酸脱氨酶3(AMPD3)、腺苷脱氨酶(ADA)、腺苷脱氨酶2(ADA2)、腺苷脱氨酶类似物(ADAL)、含腺苷脱氨酶结构域1(ADAD1)，含腺苷脱氨酶结构域2(ADAD2)，RNA特异性腺苷脱氨酶(ADAR)和RNA特异性腺苷脱氨酶B1(ADARB1)组成的组。

在一些实施方案中，核碱基脱氨酶为胞苷脱氨酶。在一些实施方案中，胞苷脱氨酶选自由APOBEC3B(A3B)、APOBEC3C(A3C)、APOBEC3D(A3D)、APOBEC3F(A3F)、APOBEC3G(A3G)、APOBEC3H(A3H)、APOBEC1(A1)、APOBEC3(A3)、APOBEC2(A2)、APOBEC4(A4)和AICDA(AID)组成的组。在一些实施方案中，胞苷脱氨酶为人或小鼠胞苷脱氨酶。在一些实施方案中，催化结构域为小鼠A3胞苷脱氨酶结构域1(CDA1)或人A3B胞苷脱氨酶结构域2(CDA2)。

在一些实施方案中，所述核碱基脱氨酶抑制剂为核碱基脱氨酶的抑制结构域。在一些实施方案中，核碱基脱氨酶抑制剂为胞苷脱氨酶的抑制结构域。在一些实施方案中，所述核碱基脱氨酶抑制剂为腺苷脱氨酶的抑制结构域。在一些实施方案中，所述核碱基脱氨酶抑制剂包含选自SEQ ID NO:1-2和表1和表2(SEQ ID NO:48-135)的氨基酸序列，或选自与SEQ ID NO:1-2和表1和表2中任一氨基酸序列至少具有85％同一性的氨基酸序列。在一些实施方案中，所述核碱基脱氨酶抑制剂包含如SEQ ID NO:1所示的氨基酸序列、SEQ IDNO:1的氨基酸残基AA76-AA149或SEQ ID NO:2的氨基酸序列。

在一些实施方案中，第一片段还包含成簇的规则间隔的短回文重复序列(CRISPR)相关(Cas)蛋白。在一些实施方案中，Cas蛋白选自SpCas9、FnCas 9、St1Cas9、St3Cas9、NmCas9、SaCas9、AsCpf1、LbCpf1、FnCpf1、VOR SpCas9、EQR SpCas 9、VRER SpCas9、SpCas9-NG、xSpCas9、RHA FnCas9、KKH SaCas9、NmeCas9、StCas9、CjCas9、AsCpf1、FnCpf1、SsCpf1、PcCpf1、BpCpf1、CmtCpf1、LiCpf1、PmCpf1、Pb3310Cpf1、Pb4417Cpf1、BsCpf1、EeCpf1、BhCas12b、AkCas12b、EbCas12b、LsCas12b、RfCas13d、LwaCas13a、PspCas13b、PguCas13b和RanCas13b组成的组。

在一些实施方案中，蛋白酶切割位点为选自由TuMV蛋白酶、PPV蛋白酶、PVY蛋白酶、ZIKV蛋白酶和WNV蛋白酶组成的组中的蛋白酶。

在一些实施方案中，蛋白酶切割位点为自切割位点。在一些实施方案中，蛋白酶切割位点为TEV蛋白酶切割位点。在一些实施方案中，所述融合蛋白还包含第三片段，所述第三片段包含TEV蛋白酶或其一片段。在一些实施方案中，第三片段包含单独不能切割TEV蛋白酶切割位点的TEV蛋白酶片段。

在另一个实施方案中，还提供了一种融合蛋白，其包括：包含胞苷脱氨酶或其催化结构域的第一片段，成簇的规则间隔的短回文重复序列(CRISPR)相关(Cas)蛋白，和第一TEV蛋白酶片段，包含胞苷脱氨酶抑制剂的第二片段，和在第一片段和第二片段之间的TEV蛋白酶切割位点，其中第一TEV蛋白酶片段单独不能切割TEV蛋白酶切割位点。

在一些实施方案中，融合蛋白还包含尿嘧啶糖基化酶抑制剂(UGI)。在一些实施方案中，胞苷脱氨酶抑制剂、TEV蛋白酶切割位点、胞苷脱氨酶或其催化结构域、Cas蛋白和第一TEV蛋白酶片段从N-末端排列到C-末端。在一些实施方案中，第一个TEV蛋白酶片段为TEV蛋白酶的N-末端结构域(SEQ ID NO:3)或C-末端结构域(SEQ ID NO:4)。在一些实施方案中，TEV蛋白酶切割位点具有SEQ ID NO:5的氨基酸序列。

在一个实施方案中，还提供了一种在细胞中靶位点进行基因组编辑的方法，包括向细胞引入：(a)本公开的融合蛋白，(b)靶向靶位点的引导RNA或靶向靶位点的crRNA和tracrRNA，并且还包含标签序列，和(c)与能够结合标签序列的RNA识别肽偶联的第二TEV蛋白酶片段。

在一些实施方案中，一个或多个分子通过编码该分子的多核苷酸导入细胞。在一些实施方案中，当相互作用时，第一TEV蛋白酶片段和第二TEV蛋白酶片段能够切割TEV蛋白酶切割位点。在一些实施方案中，第二TEV蛋白酶片段与RNA识别肽融合。

在一些实施方案中，标签序列包含MS2序列(SEQ ID NO:16)。在一些实施方案中，RNA识别肽包含MS2外壳蛋白(MCP，SEQ ID NO:22)。在一些实施方案中，标签序列包含PP7序列(SEQ ID NO:18)且RNA识别肽包含PP7外壳蛋白(PCP，SEQ ID NO:23)；或标签序列包含boxB序列(SEQ ID NO:20)且RNA识别肽包含boxB外壳蛋白(N22p，SEQ ID NO:24)。

在一个实施方案中，还提供了用于进行基因编辑的试剂盒或包装，其包含：(a)本公开的融合蛋白，和(b)与能够结合RNA序列的RNA识别肽偶联的第二TEV蛋白酶片段。

另一个实施方案提供了一种融合蛋白，其包括：包含第一胞苷脱氨酶或其催化结构域的第一片段，和包含第二胞苷脱氨酶的抑制结构域的第二片段，其中所述第一胞苷脱氨酶与所述第二胞苷脱氨酶相同或不同。

在另一个实施方案中，提供了包含第一片段的融合蛋白，所述第一片段包含：核碱基脱氨酶或其催化结构域、核碱基脱氨酶抑制剂、第一RNA识别肽、以及核碱基脱氨酶或其催化结构域与核碱基脱氨酶抑制剂之间的TEV蛋白酶切割位点。

在一些实施方案中，所述融合蛋白还包含第二片段，其包含：单独不能切割TEV蛋白酶切割位点的TEV蛋白酶片段，和第二RNA识别肽。在一些实施方案中，融合蛋白还包含第一片段和第二片段之间的自切割位点。

在一些实施方案中，所述融合蛋白还包含第三片段，所述第三片段包含第二TEV蛋白酶片段，其中所述第一TEV蛋白酶片段能在存在所述第二TEV蛋白酶片段的情况下切割所述TEV蛋白酶位点。在一些实施方案中，融合蛋白还包含在第二片段和第三片段之间的第二自切割位点，并且当切割第二自切割位点时，融合蛋白释放未与任何RNA识别肽融合的第二TEV蛋白酶片段。

在一个实施方案中，还提供了一种双引导RNA系统，其包括：靶向单引导RNA，其包含与第一PAM位点附近的靶核酸序列具有序列互补性的第一间隔子；辅助单引导RNA，其包含与第二PAM位点附近的第二核酸序列具有序列互补性的第二间隔子；成簇的规则间隔的短回文重复序列(CRISPR)相关(Cas)蛋白；以及核碱基脱氨酶，其中所述第二PAM位点距第一PAM位点为34至91个碱基。在一些实施方案中，第二间隔子的长度为8-15个碱基。在一些实施方案中，第二间隔子的长度为9-12个碱基。

在一个实施方案中，提供了包含支架的引导RNA，所述支架从5’至3’方向包括第一茎环部分、第二茎环部分、第三茎环部分和第四茎环部分，其中所述第三茎环包括五个碱基对。在另一个实施方案中，本公开提供了一种引导RNA，其包含通过在45和55位碱基之间引入碱基对而衍生自SEQ ID NO:31的支架。在一些实施方案中，所述支架包含选自由SEQ IDNO:32-43组成的组中的序列。在一些实施方案中，引导RNA的长度为至少100或120个核苷酸。

另一个实施方案提供了一种在细胞中靶位点进行遗传编辑的方法，该方法包括向细胞导入：第一病毒颗粒，其包封编码成簇的规则间隔的短回文重复序列(CRISPR)相关(Cas)蛋白的第一构建体，和第二病毒颗粒，其包封编码与RNA识别肽融合的逆转录酶的第二构建体。

在一些实施方案中，第二构建体进一步编码包含RNA识别肽结合的RNA识别位点的引导RNA。在一些实施方案中，Cas蛋白为SpCas9-NG(SEQ ID NO:46)或xSpCas9(SEQ ID NO:47)。

本公开还提供了编码融合蛋白的多核苷酸、包括所述多核苷酸的构建体、所述多核苷酸或其构建体的细胞、以及任何上述物质的组合物，且无限制。

附图说明

图1A-C：当前Bes在Sa-SITE31 ssDNA区域引起的非预期碱基替换。1A：图解说明SaD10A切割酶和Sa-sgSITE31共同表达以触发Sa-sgSITE31靶位上ssDNA区形成的示意图。1B：图解说明表达Sa-sgSITE31的质粒和表达SaD10A切割酶的质粒与表达BE3的质粒、表达hA3A-BE3的质粒或空载体共转染的示意图。1C：由BE3和hA3A-BE3引起的未固定碱基取代。虚线框表示Sa-sgSITE31靶位点的未固定碱基替换位置。

图2A-C：当前Bes在Sa-SITE 42ssDNA区域引起的非预期碱基替换。2A：图解说明SaD10A切割酶和Sa-sgSITE42共同表达以触发Sa-sgSITE42靶位上ssDNA区形成的示意图。2B：图解说明表达Sa-sgSITE42的质粒和表达SaD10A切割酶的质粒与表达BE3的质粒、表达hA3A-BE3的质粒或空载体共转染的示意图。2C：由BE3和hA3A-BE3引起的未连接碱基取代。虚线框表示Sa-sgSITE42靶位点的未固定碱基替换的位置。

图3A-C：当前Bes在Sa-F1 ssDNA区导致的非预期碱基替换。3A：说明SaD10A切割酶和Sa-sgF1共同表达触发Sa-sgF1靶位ssDNA区形成的示意图。3B：示意图说明了表达Sa-sgF1的质粒和表达SaD10A切割酶的质粒与表达BE3的质粒、表达hA3A-BE3的质粒或空载体的共转染。3C：由BE3和hA3A-BE3引起的未连接的碱基替换。虚线框表示Sa-sgF1靶位点的未固定碱基替换的位置。

图4A-C：mA3CDA2抑制TET1区的C-to-T碱基编辑活性。4A：mA3、rA1和A3A中CDA结构域示意图。4B：表达sgTET1的质粒与表达mA3-BE3的质粒、表达mA3CDA1-BE3的质粒、表达mA3rev-BE3的质粒、表达mA3rev-2A-BE3的质粒、表达BE3的质粒、表达mA3CDA2-BE3的质粒、表达mA3CDA2-2A-BE3的质粒、表达hA3A-BE3的质粒、表达mA3CDA2-hA3A-BE3的质粒或表达mA3CDA2-2A-hA3A-BE3的质粒共转染示意图。4C：mA3CDA2抑制mA3CDA1-BE3、BE3和hA3A-BE3的C-to-T编辑活性。虚线框表示sgTET1目标位点的C-to-T碱基编辑位置。

图5A-C：mA3CDA2抑制RNF2区域的C-to-T碱基编辑活性。5A：mA3、rA1和hA3A中CDA结构域示意图。5B：表达sgRNF2的质粒与表达mA3-BE3的质粒、表达mA3CDA1-BE3的质粒、表达mA3rev-BE3的质粒、表达mA3rev-2A-BE3的质粒、表达BE3的质粒、表达mA3CDA2-BE3的质粒、表达mA3CDA2-2A-BE3的质粒、表达hA3A-BE3的质粒、表达mA3CDA2-hA3A-BE3的质粒或表达mA3CDA2-2A-hA3-BE3的质粒共转染示意图。5C：mA3CDA2抑制mA3CDA1-BE3、BE3和hA3A-BE3的C-to-T编辑活性。虚线框表示sgRNF2目标位点的C-to-T碱基编辑位置。

图6A-C：mA3CDA2抑制SITE3区域的C-to-T碱基编辑活性。6A：mA3、rA1和A3A中CDA结构域示意图。6B：表达sgSITE3的质粒与表达mA3-BE3的质粒、表达mA3CDA1-BE3的质粒、表达mA3rev-BE3的质粒、表达mA3rev-2A-BE3的质粒、表达BE3的质粒、表达mA3CDA2-BE3的质粒、表达mA3CDA2-2A-BE3的质粒、表达hA3A-BE3的质粒、表达mA3CDA2-hA3A-BE3的质粒或表达mA3CDA2-2A-hA3A-BE3的质粒共转染示意图。6C：mA3CDA2抑制mA3CDA1-BE3、BE3和hA3A-BE3的C-to-T编辑活性。虚线框表示sgSITE3目标位点的C-to-T碱基编辑位置。

图7A-C：hA3BCDA1抑制TET1区的C-to-T碱基编辑活性。7A：hA3B中CDA结构域示意图。7B：表达sgTET1的质粒与表达hA3B-BE3的质粒、表达hA3BCDA2-BE3的质粒或表达hA3B-2A-BE3的质粒共转染示意图。7C：hA3BCDA1抑制hA3BCDA2-BE3的C-to-T编辑活性。虚线框表示sgTET1目标位点的C-to-T碱基编辑位置。

图8A-C：hA3BCDA1抑制RNF2区域的C-to-T碱基编辑活性。8A：hA3B中CDA结构域区域示意图。8B：表达sgRNF2的质粒与表达hA3B-BE3的质粒、表达hA3BCDA2-BE3的质粒或表达hA3B-2A-BE3的质粒共转染示意图。8C：hA3BCDA1抑制hA3BCDA2-BE3的C-to-T编辑活性。虚线框表示sgRNF2目标位点的C-to-T碱基编辑位置。

图9A-C：hA3BCDA 1抑制SITE3区域的C-to-T碱基编辑活性。9A：hA3B中CDA结构域示意图。9B：表达sgSITE3的质粒与表达hA3B-BE3的质粒、表达hA3BCDA2-BE3的质粒或表达hA3B-2A-BE3的质粒共转染示意图。9C：hA3BCDA1抑制hA3BCDA2-BE3的C-to-T编辑活性。虚线框表示sgSITE3目标位点的C-to-T碱基编辑位置。

图10A-C：通过检查碱基编辑效率映射FANCF区域的mA3分裂位点。10A：显示mA3中两个CDA结构域区域和用于裂解mA3的位点(AA196/AA197、AA207/AA208、AA215/AA216、AA229/AA230、AA237/AA238)的示意图。10B：表达sgFANCF的质粒与表达mA3rev-BE3-196的质粒、表达mA3rev-2A-BE3-196的质粒、表达mA3rev-BE3的质粒、表达mA3rev-2A-BE3的质粒、表达mA3rev-BE3-215的质粒、表达mA3rev-2A-BE3-215的质粒、表达mA3rev-BE3-229的质粒、表达mA3rev-2A-BE3-229的质粒、表达mA3rev-BE3-237的质粒或表达mA3rev-2A-BE3-237的质粒共转染示意图。10C：从AA196/AA197到AA237/AA238的拆分位点通常保持C-to-T编辑效率。虚线框表示sgFANCF目标位点的C-to-T碱基编辑位置。

图11A-C：通过检查碱基编辑效率映射SITE2区域的mA3的分裂位点。11A：显示mA3中两个CDA结构域区域和用于裂解mA3的位点(AA196/AA197、AA207/AA208、AA215/AA216、AA229/AA230、AA237/AA238)的示意图。11B：图解说明共转染表达sgSITE2的质粒与表达mA3rev-BE3-196的质粒、表达mA3rev-2A-BE3-196的质粒、表达mA3rev-BE3的质粒、表达mA3rev-2A-BE3的质粒、表达mA3rev-BE3-215的质粒、表达mA3rev-2A-BE3-215的质粒、表达mA3rev-BE3-229的质粒、表达mA3rev-2A-BE3-229的质粒、表达mA3rev-BE3-237的质粒或表达mA3rev-2A-BE3-237的质粒共转染示意图。11C：从AA196/AA197到AA237/AA238的分裂位点通常保持C-to-T编辑效率。虚线框表示sgSITE2目标位点的C-to-T碱基编辑位置。

图12A-C：通过检查碱基编辑效率在SITE4区域映射mA3的分裂位点。12A：显示mA3中两个CDA结构域区域和用于裂解mA3的位点(AA196/AA197、AA207/AA208、AA215/AA216、AA229/AA230、AA237/AA238)的示意图。12B：表达sgSITE4的质粒与表达mA3rev-BE3-196的质粒、表达mA3rev-2A-BE3-196的质粒、表达mA3rev-BE3的质粒、表达mA3rev-2A-BE3的质粒、表达mA3rev-BE3-215的质粒、表达mA3rev-2A-BE3-215的质粒、表达mA3rev-BE3-229的质粒、表达mA3rev-2A-BE3-229的质粒、表达mA3rev-BE3-237的质粒或表达mA3rev-2A-BE3-237的质粒共转染示意图。12C：从AA196/AA197到AA237/AA238的分裂位点通常保持C-to-T编辑效率。虚线框表示sgSITE4目标位点的C-to-T碱基编辑位置。

图13A-B：在FANCF区域中映射包含碱基编辑抑制效应的mA3最小区域。13A：表达sgFANCF的质粒与表达mA3rev-BE3-237的质粒、表达mA3rev-BE3-237-Del-255的质粒、表达mA3rev-BE3-237-Del-285的质粒或表达mA3rev-BE3-237-Del-333的质粒共转染示意图。13B：mA3的AA334至AA429区域含有碱基编辑抑制效应。虚线框表示sgFANCF目标位点的C-to-T碱基编辑位置。

图14A-B：在SITE2区域中映射包含碱基编辑抑制效应的mA3的最小区域映。14A：表达sgSITE2的质粒与表达mA3rev-BE3-237的质粒、表达mA3rev-BE3-237-Del-255的质粒、表达mA3rev-BE3-237-Del-285的质粒或表达mA3rev-BE3-237-Del-333的质粒共转染示意图。14B：mA3的AA334至AA429区域含有碱基编辑抑制效应。虚线框表示sgSITE2目标位点的C-to-T碱基编辑位置。

图15A-B：在SITE4区域中映射包含碱基编辑抑制效应的mA3的最小区域。15A：表达sgSITE4的质粒与表达mA3rev-BE3-237的质粒、表达mA3rev-BE3-237-Del-255的质粒、表达mA3rev-BE3-237-Del-285的质粒或表达mA3rev-BE3-237-Del-333的质粒共转染示意图。15B：mA3的AA334至AA429区域含有碱基编辑抑制效应。虚线框表示sgSITE4目标位点的C-to-T碱基编辑位置。

图16A-B：BEsafe和BE3或hA3A-BE3工作过程示意图。16A：BEsafe在靶位点诱导C-to-T碱基编辑，避免在非相关ssDNA区域引起突变。16B：BE3或hA3A-BE3在靶位点诱导C-to-T碱基编辑，但在非相关ssDNA区域引起C-to-T突变。

图17A-D：非相关Sa-SITE31 ssDNA区域和TET1靶位点的hA3A-BE3和BEsafe比较。17A：示意图显示SaD10A切割酶和Sa-sgSITE31共同表达，从而触发Sa-sgSITE31靶位上ssDNA区的形成。17B：表达Sa-sgSITE31的质粒和表达SaD10A切割酶的质粒与表达hA3A-BE3的质粒和表达sgTET1的质粒、与表达BEsafe的质粒和表达MS2-sgTET1和MCP-TEVc的质粒或与表达MCP-TEVc的质粒和表达MS2-sgTET1和BEsafe的质粒共转染的示意图。17C：比较非相关Sa-SITE31 ssDNA区域由hA3A-BE3和BEsafe触发的未固定的C-to-T突变频率。虚线框表示Sa-sgSITE31靶位点的未固定碱基替换位置。17D：比较TET1位点的hA3A-BE3和BEsafe的碱基编辑效率。虚线框表示sgTET1目标位点的C-to-T碱基编辑位置。

图18A-D：非相关Sa-SITE32 ssDNA区域和RNF2靶位点的hA3A-BE3和BEsafe比较。18A：示意图显示SaD10A切割酶和Sa-sgSITE32共同表达，从而触发Sa-sgSITE32靶位上ssDNA区的形成。18B：表达Sa-sgSITE32的质粒和表达SaD10A切割酶的质粒与表达hA3A-BE3的质粒和表达sgRNF2的质粒、与表达BEsafe的质粒和表达MS2-sgRNF2和MCP-TEVc的质粒或与表达MCP-TEVc的质粒和表达MS2-sgRNF2和BEsafe的质粒共转染示意图。18C：比较非相关Sa-SITE32 ssDNA区域由hA3A-BE3和BEsafe触发的意外的C-to-T突变频率。虚线框表示Sa-sgSITE32靶位点的未固定碱基替换位置。18D：比较RNF2位点的hA3A-BE3和BEsafe的碱基编辑效率。虚线框表示sgRNF2目标位点的C-to-T碱基编辑位置。

图19A-D：非相关Sa-F1 ssDNA区域和SITE3靶位点的hA3A-BE3和BEsafe比较。19A：说明SaD10A切割酶和Sa-sgF1共同表达触发Sa-sgF1靶位ssDNA区形成的示意图。19B：图解说明表达Sa-sgF1的质粒和表达SaD10A切割酶的质粒与表达hA3A-BE3的质粒和表达sgSITE3的质粒、与表达BEsafe的质粒和表达MS2-sgSITE3和MCP-TEVc的质粒或与表达MCP-TEVc的质粒和表达MS2-sgSITE3和BEsafe的质粒共转染的示意图。19C：比较非相关Sa-F1ssDNA区域中由hA3A-BE3和BEsafe触发的意外的C-to-T突变频率。虚线框表示Sa-sgF1靶位点的未固定碱基取代的位置。19D：比较SITE3位点的hA3A-BE3和BEsafe的碱基编辑效率。虚线框表示sgSITE3目标位点的C-to-T碱基编辑位置。

图20a-f：胞苷脱氨酶抑制剂的鉴定。20a：示意图显示了具有单或双CDA结构域(左)的APOBEC家族成员和由一个或两个双结构域APOBEC的CDA构建的配对碱基编辑器(右)。20b：由一个代表性基因组位点上的指示BEs诱导的编辑频率。20c：归一化编辑频率的统计分析，将含单个CDA的BEs诱导的频率设置为100％。由(b)所示的26个可编辑的胞嘧啶位点进行的三个独立实验中，n＝78。20d：示意图显示了不同胞苷脱氨酶抑制剂(CDI)与mA3CDA1-nSPCas9-BE N-末端的结合。20e：由一个代表性基因组位点上的指示BEs诱导的编辑频率。20f：归一化编辑频率的统计分析，将无CDI的BEs诱导的频率设置为100％。在(e)所示的19个可编辑胞嘧啶位点进行的三个独立实验中，n＝57。(b)、(e)中表示的平均值±标准差来自三个独立实验。NT：表示未转染对照。(c)、(f)中P值，使用单尾t检验。显示了中位值和四分位数间的范围(IQR)。

图21a-f：mA3CDI的缀合减少了在sgRNA非依赖性OTss位点的非预期碱基编辑。21a：示意图表明，BE3诱导C-to-T突变，但与CDI缀合的iBE1在与sgRNA无关的OTss位点保持休眠状态。21b：比较nSaCas9生成的SSB触发的ssDNA区域由BE3和iBE1诱导的C-to-T编辑频率。21c：对(b)所示四个ssDNA位点的归一化累积编辑频率进行统计分析，将BE3的诱导设置为100％。三个独立实验中n＝12。21d：示意图显示，sgRNA介导的CDI裂解恢复了靶位点iBE的编辑活性。21e：BE3和iBE1在靶位点诱导的C-to-T编辑频率比较。21f：对(e)所示四个靶位归一化累积编辑频率进行统计分析，将BE3的诱导设定为100％。来自三个独立实验中n＝12。(c)、(f)中表示的平均值±标准差来自三个独立实验。(d)、(g)中的P值，使用单尾t检验。显示了中位值和四分位数间的范围(IQR)。

图22a-e：neSpCas9减少了OTsg位点对iBE1的非预期编辑。22a：示意图说明iBE1而非iBE2在与sgRNAs部分互补的OTsg位点诱导C-to-T编辑。22b：由iBE1和靶向特异性增强的iBE在指定OTsg位点诱导的C-to-T编辑频率的比较。22c：对(b)中使用的两种sgRNAs在OTsg位点的归一化累积编辑频率进行统计分析，将iBE1诱导的频率设置为100％。三个独立实验中n＝6。22d：由iBE1与靶位上靶向特异性增强的iBE诱导的C-to-T编辑频率的比较。22e：对(d)所示六个靶位的归一化累积编辑频率进行统计分析，将iBE1诱导的频率设置为100％。三个独立实验中n＝18。(b)、(d)中表示的平均值±标准差来自三个独立实验。(c)、(e)中的P值，使用单尾t检验。显示了中位值和四分位数间的范围(IQR)。

图23a-e：hA3A-BE3和iBE2诱导的碱基编辑比较。23a：在代表性OTss、OTsg和靶位点比较由hA3A-BE3和iBE2诱导的C-to-T编辑频率。23b-c：对(a)中使用的三种sgRNAs的OTss、OTsg(b)和靶(c)位点的归一化累积编辑频率进行统计分析，将由hA3A-BE3诱导的sgRNAs设置为100％。三个独立实验中n＝9。23d：对(a)中使用的三种sgRNAs的OTss和OTsg位点的目标编辑频率与总编辑频率的归一化比率进行统计分析，将由hA3A-BE3诱导的频率设置为1。三个独立实验中n＝9。23e：示意图显示，iBE2在靶位点诱导特异性碱基编辑，但在OTss或OTsg位点不诱导，而hA3A-BE3在靶位点以及OTss和OTsg位点均诱导碱基编辑。(a)中表示的平均值±标准差来自三个独立实验。(b-d)中的P值，使用单尾t检验。显示了中位值和IQR。

图24A-B：说明isplitBE和常规基础编辑器工作过程的示意图。24A：isplitBE仅在靶位点诱导C-to-T碱基编辑，避免在非相关非靶ssDNA区(OTss)或与sgRNA间隔区(OTsg)序列相似的非靶位点引起突变。24B：BE3或hA3A-BE3在靶位点诱导C-to-T碱基编辑，但在OTss和OTsg区域引起C-to-T突变。

图25：图解说明在靶位点去除胞苷脱氨酶抑制剂(mA3CDA2)的不同策略的示意图。

图26A-B：由nCas9(D10A)、APOBEC胞苷脱氨酶、胞苷脱氨酶抑制剂(CDI)、尿嘧啶DNA糖基化酶抑制剂(UGI)和TEV蛋白酶的不同组合诱导的EMX1-ON、Sa-SITE31-OTss和EMX1-OTsg位点的C-to-T编辑。26A：图解说明，表达Sa-sgSITE31的质粒和表达SaD10A切割酶的质粒与指定的表达各种碱基编辑的十对质粒共转染的示意图。26B：EMX1-ON、Sa-SITE31-OTss和EMX1-OTsg位点编辑效率的比较。isplitBE-rA1(第9对)在ON位点诱导了大量编辑，但在OTss或OTsg位点未诱导编辑。

图27A-B：由nCas9(D10A)、APOBEC胞苷脱氨酶、胞苷脱氨酶抑制剂(CDI)、尿嘧啶DNA糖基化酶抑制剂(UGI)和TEV蛋白酶的不同组合诱导的FANCF-ON、Sa-VEGFA-7-OTss和FANCF-OTsg位点的C-to-T编辑。27A：显示表达Sa-sgVEGFA-7的质粒和表达SaD10A切割酶的质粒与指定的表达各种碱基编辑器的十对质粒共转染的示意图。27B：FANCF-ON、Sa-VEGFA-7-OTss和FANCF-OTsg位点编辑效率的比较。isplitBE-rA1(第9对)在ON位点诱导了大量编辑，但在OTss或OTsg位点未诱导编辑。

图28A-B：由nCas9(D10A)、APOBEC胞苷脱氨酶、胞苷脱氨酶抑制剂(CDI)、尿嘧啶DNA糖基化酶抑制剂(UGI)和TEV蛋白酶的不同组合诱导的V1B-ON、Sa-SITE42-OTss和V1B-OTsg位点的C-to-T编辑。28A：图解说明，表达Sa-sgSITE42的质粒和表达SaD10A切割酶的质粒与指定的表达各种碱基编辑器的十对质粒共转染的示意图。28B：V1B-ON、Sa-SITE42-OTss和V1B-OTsg位点编辑效率的比较。isplitBE-rA1(第9对)在ON位点诱导了大量编辑，但在OTss或OTsg位点未诱导编辑。

图29A-C：辅助sgRNA(hsgRNA)和sgRNA之间的距离对碱基编辑效率的影响。29A：显示在DNTET1、EMX1和FANCF位点的hsgRNA和sgRNA之间距离的示意图。29B：由指定的sgRNAs和hsgRNAs诱导的碱基编辑频率。29C：hsgRNA和sgRNA之间距离的影响总结。从hsgRNA的PAM到sgRNA的PAM，最佳碱基编辑效率的距离范围为-91到-34bp。

图30A-C：hsgRNA间隔区长度对碱基编辑效率的影响。30A：示意图显示了在DNEMX1、FANCF和V1A位点，sgRNA和具有不同间隔区长度的hsgRNA共转染。30B：由指定的sgRNA和hsgRNA在hsgRNA和sgRNA的靶位点诱导的碱基编辑频率。30C：hsgRNA间隔区长度影响的统计学分析。使用带有10-bp间隔区的hsgRNA大大降低了hsgRNA靶位点的编辑效率，但保持了sgRNA靶位点的编辑效率。

图31：isplitBE-rA1和BE3编辑效率的比较。由指定的碱基编辑在不同的靶位点诱发的编辑频率。

图32A-C：isplitBE-rA1和BE3诱导的全基因组C-to-T突变比较。32A：野生型293FT细胞和APOBEC3敲除293FT细胞(293FT-A3KO)中的mRNA表达水平。32B：用于确定碱基编辑诱导的全基因组C-to-T突变的程序示意图。32C：靶上编辑效率(左)以及由Cas9、BE3、hA3A-BE3-Y130F(Y130F)和ispletbe-rA1诱导的全基因组C-to-T突变数。

图33A-C：isplitBE-mA3、BE3和hA3A-BE3-Y130F(Y130F)诱导的转录组范围C-to-U突变比较。33A：由Cas9、BE3、hA3A-BE3-Y130F(Y130F)和isplitBE-mA3诱导的转录组范围C-to-U突变数。33B：由Cas9、BE3、hA3A-BE3-Y130F(Y130F)和isplitBE-mA3诱导的RNA C-to-U编辑频率。33C：由BE3复制1和isplitBE-mA3复制1诱导的RNA C-to-U编辑的分布。

图34A-D：人PCSK9基因中isplitBE-mA3诱导的终止密码子。34A：示意图说明sgRNA和hsgRNA与isplitBE-mA3和nCas9共转染的示意图。34B-34D：isplitBE-mA3在指定位点诱导的编辑效率。

图35A-B：mA3CDA2对腺嘌呤碱基编辑(ABE)编辑效率的抑制作用。35A：说明sgRNA和ABE是否与mA3CDA2融合的共转染示意图。35B：RNF2和FANCF位点指定的ABE诱导的编辑效率。

图36A-G：通过操纵主要编辑引导RNA(pegRNA)增强的主要编辑。36A：说明改变RNA碱基对以增加增强型pegRNA(epegRNA)茎稳定性的示意图。36B：图解说明PE2、切割sgRNA与pegRNA或epegRNA-GC共转染的示意图。36C-36D：用pegRNA和epegRNA-GC诱导的主编辑效率比较。36E：显示改变RNA碱基对以增加增强型pegRNA(epegRNA)茎稳定性的示意图。36F：示意图显示了PE2、切割sgRNA与pegRNA或epegRNA-CG共转染。36G：用pegRNA和epegRNA-CG诱导的主编辑效率的比较。

图37A-B：使用含有不同Cas9蛋白的PEs的主编辑系统。37A：pegRNA、切割sgRNA与PE2-NG或xPE2共转染示意图。37B：PE2-NG和xPE2诱导的主辑效率。

图38A-C：分裂主要编辑(分裂-PE)系统。38A：PE和分裂PE系统工作过程示意图。38B：说明PE和分裂-PE系统共转染的示意图。38C：EMX1位点PE和分裂-PE系统诱导的编辑效率。

图39A-C：mA3CDA2核心区与其他胞苷脱氨酶结构域的比对。

图40A-D：hA3BCDA1与其他胞苷脱氨酶结构域的比对。

具体实施方式

应当指出，术语“一个”实体指一个或多个该实体；例如，“抗体”被理解为代表一个或多个抗体。因此，术语“一个”、“一个或多个”和“至少一个”在本文中可以互换使用。

如本文所用，术语“多肽”旨在包括单数“多肽”以及复数“多肽”，并且指由通过酰胺键(也称为肽键)线性连接的单体(氨基酸)组成的分子。术语“多肽”指由两个或多个氨基酸组成的任何一条或多条链，而不是指特定长度的产物。因此，肽、二肽、三肽、寡肽、“蛋白质”、“氨基酸链”或用于指代两个或两个以上氨基酸的链的任何其他术语均包含在“多肽”的定义内，且术语“多肽”可用于替代这些术语中的任一者或与这些术语可互换地使用。术语“多肽”还意指多肽的表达后修饰的产物，包括但不限于糖基化、乙酰化、磷酸化、酰胺化、通过已知保护/阻断基团的衍生化、蛋白水解裂解或通过非天然存在的氨基酸的修饰。多肽可以来源于天然生物来源或通过重组技术产生，但不一定翻译自指定的核酸序列。它可以以任何方式产生，包括通过化学合成。

“同源性”或“同一性”或“相似性”指两种肽之间或两种核酸分子之间的序列相似性。同源性可以通过比较每个序列中的位置来确定，为了比较的目的，可以对这些位置进行比对。当比较序列中的某个位置被相同的碱基或氨基酸占据时，则这些分子在该位置上是同源的。序列之间的同源性程度为序列所共有的匹配或同源位置数量的函数。“不相关的”或“非同源的”序列与本公开的序列具有小于40％的同一性，但优选小于25％的同一性。

多核苷酸或多核苷酸区域(或多肽或多肽区域)与另一序列具有一定百分比(例如，60％、65％、70％、75％、80％、85％、90％、95％、98％或99％)的“序列同一性”意味着，当比对时，在比较两个序列时碱基(或氨基酸)的百分比是相同的。这种比对和同源性百分比或序列同一性可以使用本领域已知的软件程序测定，例如，Ausubel等人(2007)在分子生物学现代方法中所述的软件程序。优选地，默认参数用于比对。一种比对程序为BLAST，其使用默认参数。

术语“等同的核酸或多核苷酸”是指具有与该核酸或其互补物的核苷酸序列具有一定程度同源性或序列同一性的核苷酸序列的核酸。双链核酸的同源物旨在包括具有与之或与其互补物具有一定程度同源性的核苷酸序列的核酸。一方面，核酸的同源物能够与核酸或其互补物杂交。同样，“等效多肽”是指与参考多肽的氨基酸序列具有一定程度同源性或序列同一性的多肽。在某些方面下，序列同一性为至少约70％、75％、80％、85％、90％、95％、98％或99％。在某些方面，与参考多肽或多核苷酸相比，等效多肽或多核苷酸具有一个、两个、三个、四个或五个添加、缺失、取代及其组合。在某些方面下，等效序列保留了参考序列的活性(如：表位结合)或结构(如：盐桥)。

当应用于多核苷酸时，术语“编码”是指如果处于其天然状态或当通过本领域技术人员熟知的方法操作时，其可以被转录和/或翻译以产生多肽和/或其片段的mRNA，则被称为“编码”多肽的多核苷酸。反义链是这种核酸的互补序列，编码序列可以从中推导出来。

使用核碱基脱氨酶抑制剂减少随机插入和缺失

如实验实施例和图1-3所示，目前常用的碱基编辑序列BE3和hA3A-BE3在脱靶单链DNA区域诱导C-to-T突变。

然而，令人惊奇地发现，在mA3-BE3中使用小鼠APOBEC3(mA3)(图4B、5B和6B)通常不会在测试的靶位点诱导C-to-T编辑(图4C、5C和6C)。mA3有两个胞苷脱氨酶(CDA)结构域，即CDA1和CDA2(图4A，5A和6A)。当从全长mA3中去除CDA2结构域时，所得碱基编辑子mA3CDA1-BE3(图4B、5B和6B)诱导实质上的C-to-T编辑(图4C、5C和6C)。这些结果表明，mA3-CDA2结构域为碱基编辑的抑制剂。

同样令人惊讶的是，mA3-CDA2结构域不仅可以抑制mA3-CDA1的碱基编辑活性，它还可以抑制其他碱基脱氨酶。例如，当mA3-CDA2与三种活性BEs(mA3CD1-BE3、BE3和hA3A-BE3)的N-末端融合时，融合蛋白mA3rev-BE3、mA3-CDA2-BE3和mA3-CDA2-hA3A-BE3(图4B、5B和6B)的碱基编辑效率明显降低(图4C、5C和6C)。

此外，从融合蛋白中切割mA3-CDA2恢复了碱基编辑效率(图4C、5C和6C)，表明对mA3-CDA2的抑制与其与BEs的共价连接有关。

与mA3一样，人APOBEC3B(hA3B)也有两个胞苷脱氨酶(CDA)结构域，即CDA1和CDA2(图7A、8A和9A)。在hA3B-BE3中整合全长hA3B(图7B、8B和9B)，仅在三个受试靶位点诱导了相对低水平的C-to-T编辑(图7C、8C和9C)。然而，通过删除hA3B-CDA1结构域产生的hA3B-CDA2-BE3(图7B、8B和9B)诱导了更高的C-to-T编辑(图7C、8C和9C)。这些结果表明，hA3B-CDA1为另一种碱基编辑抑制剂，对hA3B-CDA1的抑制与其与BEs的共价连接有关。

使用mA3-CDA2和hA3B-CDA1的序列，本发明人能够在蛋白质数据库中鉴定其他的核碱基脱氨酶抑制剂/结构域。表1显示了与mA3-CDA2核心序列具有显著序列同源性的44个蛋白质/结构域(图39)，表2显示了与hA3B-CDA1具有显著序列同源性的43个蛋白质/结构域(图40)。所有这些蛋白质和结构域，以及它们的变体和等同物，被认为具有核碱基脱氨酶抑制活性。

融合蛋白

基于这些令人惊讶和期望的发现，设计了一种融合蛋白，其可用于产生具有改进的碱基编辑特异性和效率的碱基编辑器。在一个实施方案中，本公开提供了一种融合蛋白，其包括含有核碱基脱氨酶或其催化结构域的第一片段、含有核碱基脱氨酶抑制剂的第二片段以及在第一片段和第二片段之间的蛋白酶切割位点。

整合入这种融合蛋白的碱基编辑器具有降低的编辑能力或甚至失去编辑能力，因此，减少或避免脱靶突变。一旦蛋白酶切割位点被切割，并且核碱基脱氨酶抑制剂在靶位点从融合蛋白中释放，那么在靶位点的碱基编辑器将能够有效地编辑靶位点。

本文使用的术语“核碱基脱氨酶”是指催化核碱基如胞苷、脱氧胞苷、腺苷和脱氧腺苷的水解脱氨的一组酶。核碱基脱氨酶的非限制性实例包括胞苷脱氨酶和腺苷脱氨酶。

“胞苷脱氨酶”指可催化胞苷和脱氧胞苷的不可逆水解脱氨，使它们分别成为尿苷和脱氧尿苷的酶。胞苷脱氨酶维持细胞嘧啶库。胞苷脱氨酶的一个家族为APOBEC(“载脂蛋白B mRNA编辑酶，催化多肽样”)。这个家族的成员为C-to-U编辑酶。一些APOBEC家族成员具有两个结构域，APOBEC样蛋白的一个结构域为催化结构域，另一个结构域为假催化结构域。更具体地说，催化结构域为锌依赖性胞苷脱氨酶结构域，对胞苷脱氨很重要。由APOBEC-1进行的RNA编辑需要同二聚化，并且该复合物与RNA结合蛋白相互作用形成编辑体。

APOBEC蛋白的非限制性实例包括APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4和活化诱导型(胞苷)脱氨酶(AID)。

APOBEC蛋白的各种突变体也是已知的，它们为碱基编辑带来了不同的编辑特征。例如，对于人APOBEC3A的某些突变体(如：W98Y、Y130F、Y132D、W104A、D131Y和P134Y)在编辑效率或编辑窗口方面甚至优于野生型人APOBEC3A。因此，术语APOBEC及其每个家族成员还包括与相应的野生型APOBEC蛋白或催化结构域具有一定程度(例如，70％、75％、80％、85％、90％、95％、98％、99％)序列同一性并保持胞苷脱氨基活性的变异体和突变体。这些变异体和突变体可以通过氨基酸添加、缺失和/或取代来获得。在一些实施方案中，这种取代为保守取代。

“腺苷脱氨酶”，也被称为腺苷氨基水解酶，或ADA，为一种参与嘌呤代谢的酶(EC3.5.4.4)。它为食物中腺苷分解和组织中核酸周转所必需的。

腺苷脱氨酶的非限制性实例包括tRNA特异性腺苷脱氨酶(TadA)、tRNA特异性腺苷脱氨酶1(ADAT1)、tRNA特异性腺苷脱氨酶2(ADAT2)、tRNA特异性腺苷脱氨酶3(ADAT3)、RNA特异性腺苷脱氨酶B1(ADARB1)、RNA特异性腺苷脱氨酶B2(ADARB2)、腺苷一磷酸脱氨酶1(AMPD1)、腺苷一磷酸脱氨酶2(AMPD2)、腺苷一磷酸脱氨酶3(AMPD3)、腺苷脱氨酶(ADA)、腺苷脱氨酶2(ADA2)、腺苷脱氨酶类似物(ADAL)、含腺苷脱氨酶结构域1(ADAD1)，含腺苷脱氨酶结构域2(ADAD2)，RNA特异性腺苷脱氨酶(ADAR)和RNA特异性腺苷脱氨酶B1(ADARB1)。

一些核碱基脱氨酶具有单一的催化结构域，而其他的也具有其他结构域，例如，本发明人目前发现的抑制结构域。因此，在一些实施方案中，第一片段仅包括催化结构域，如：mA3-CDA1和hA3B-CDA2。在一些实施方案中，第一片段包括催化结构域的至少一个催化核心。例如，如实验实施例中所表明的，当mA3-CDA1在残基196/197处被截短时，CDA1结构域仍然保持相当大的编辑效率(图10C、11C和12C)。

本公开测试了两种核碱基脱氨酶抑制剂mA3-CDA2和hA3B-CDA1，它们为相应的核碱基脱氨酶的抑制结构域。在蛋白质数据库中也鉴定了其他核苷碱基脱氨酶抑制剂和抑制结构域(见表1和表2)。它们的生物等价物(例如，具有至少约80％、85％、90％、95％、97％、98％、99％、99.5％的序列同一性，或具有一个、两个或三个氨基酸添加/缺失/取代，并且具有核碱基脱氨酶抑制剂活性)也可以用本领域已知的方法制备，例如，保守的氨基酸取代。因此，“核碱基脱氨酶抑制剂”是指抑制核碱基脱氨酶的脱氨酶活性的蛋白质或蛋白质结构域。在一些实施方案中，第二片段包括抑制蛋白/结构域的至少一个抑制核心。例如，如实验实施例所示，当mA3-CDA2保留残基334-429时，CDA2仍然具有碱基编辑的抑制作用(图13B、14B和15B)。

在一些实施方案中，融合蛋白进一步包括成簇的规则间隔的短回文重复序列(CRISPR)相关(Cas)蛋白，选择性的在第一个片段中，紧邻核碱基脱氨酶或其催化结构域。

术语“Cas蛋白”或“成簇的规则间隔短回文重复序列(CRISPR)相关(Cas)蛋白”是指与化脓性链球菌以及其他细菌中的CRISPR(成簇的规则间隔的短回文重复序列)适应性免疫系统相关的RNA引导的DNA内切酶。Cas蛋白包括Cas9蛋白、Cas12a(Cpf1)蛋白、Cas12b(前称为C2c1)蛋白、Cas13蛋白和各种工程对应物。Cas蛋白的示例包括：SpCas9、FnCas9、St1Cas9、St3Cas9、NmCas9、SaCas9、AsCpf1、LbCpf1、FnCpf1、VQR SpCas9、EQR SpCas9、VRERSpCas9、SpCas9-NG、xSpCas9、RHA FnCas9、KKH SaCas9、NmeCas9、StCas9、CjCas9、AsCpf1、FnCpf1、SsCpf1、PcCpf1、BpCpf1、CmtCpf1、LiCpf1、PmCpf1、Pb3310Cpf1、Pb4417Cpf1、BsCpf1、EeCpf1、BhCas12b、AkCas12b、EbCas12b、LsCas12b、RfCas13d、LwaCas13a、PspCas13b、PguCas13b、RanCas13b以及表A中列出的蛋白。

表A：Cas蛋白示例

第一片段和第二片段之间的蛋白酶切割位点可以是任何蛋白酶的任何已知的蛋白酶切割位点(肽)。蛋白酶的非限制性实例包括：TEV蛋白酶、TuMV蛋白酶、PPV蛋白酶、PVY蛋白酶、ZIKV蛋白酶和WNV蛋白酶。表B中提供了示例蛋白酶的蛋白序列及其相应的切割位点。

表B：示例序列

/>

在一些实施方案中，蛋白酶切割位点为自切割肽，例如2A肽。“2A肽”是18-22个氨基酸长度的病毒寡肽，其在真核细胞中通过翻译介导多肽的“切割”。名称“2A”是指病毒基因组的特定区域，不同的病毒2A通常以其来源的病毒命名。第一个发现2A病毒的为F2A病毒(口蹄疫病毒)，随后还鉴定了E2A病毒(马鼻炎A病毒)、P2A病毒(猪捷申病毒-1 2A)和T2A病毒(东亚西亚病毒2A，thosea asigna virus 2A)。SEQ ID NO:26-28中提供了2A肽的一些非限制性实例。

在一些实施方案中，蛋白酶切割位点为TEV蛋白酶的切割位点(例如，SEQ ID NO:5)。在一些实施方案中，所述融合蛋白还包含第三片段，所述第三片段包含TEV蛋白酶或其片段。在一些实施方案中，融合蛋白中的TEV蛋白酶片段不具有活性，即不能够单独切割TEV切割位点。然而，在存在TEV蛋白酶的剩余部分时，该片段将能够进行切割。如下文进一步描述的，这种排列提供了对基础编辑能力的附加控制和灵活性。TEV片段可以是TEV N-末端结构域(例如，SEQ ID NO：3)或TEV C-末端结构域(例如，SEQ ID NO:4)。

可以对碎片进行各种排列。从N端到C端，非限制性示例包括：

(1)第一片段(如：催化结构域)—蛋白酶切割位点—第二片段(如：抑制结构域)；

(2)第一片段(如：催化结构域和Cas蛋白)—蛋白酶切割位点—第二片段(如：抑制结构域)；

(3)第一片段(如催化结构域、Cas蛋白和TEV N-末端结构域)—蛋白酶切割位点(如：TEV切割位点)—第二片段(如：抑制结构域)；

(4)第二片段(如：抑制结构域)—蛋白酶切割位点(如：TEV切割位点)—第一片段(如：催化结构域、Cas蛋白和TEV N-末端结构域)；和

(5)第二片段(如：抑制结构域)—蛋白酶切割位点(如：TEV切割位点)—第一片段(例如，Cas蛋白、催化结构域和TEV C-末端结构域)。

在一些实施方案中，提供了包含第一片段和第二片段的融合蛋白，所述第一片段包含第一核碱基脱氨酶(如：胞苷脱氨酶)或其催化结构域，所述第二片段包含第二核碱基脱氨酶的抑制结构域，其中所述第一核碱基脱氨酶不同于所述第二核碱基脱氨酶。在一些实施方案中，第一和第二核碱基脱氨酶各自独立地选自人和小鼠APOBEC3B(A3B)、APOBEC3C(A3C)、APOBEC3D(A3D)、APOBEC3F(A3F)、APOBEC3G(A3G)、APOBEC3H(A3H)、APOBEC1(A1)、APOBEC3(A3)、APOBEC2(A2)、APOBEC4(A4)和AICDA(AID)。

融合蛋白可能包括其他片段，如：尿嘧啶DNA糖基化酶抑制剂(UGI)和核定位序列(NLS)。

可从枯草芽孢杆菌噬菌体PBS1制备的“尿嘧啶糖基化酶抑制剂”(UGI)为一种抑制大肠杆菌尿嘧啶-DNA糖基化酶(UDG)和来自其他物种的UDG的小蛋白(9.5kDa)。通过UDG:UGI以1:1化学计量比与可逆蛋白结合致使UDG抑制。UGI能够解离UDG-DNA复合物。在芽孢杆菌噬菌体AR9(YP_009283008.1)中发现了UGI的非限制性实例。在一些实施方案中，UGI包含SEQ ID NO:25的氨基酸序列或与SEQ ID NO:25具有至少70％、75％、80％、85％、90％或95％的序列同一性，并保留了尿嘧啶糖基化酶的抑制活性。

在一些实施方案中，融合蛋白可以包含一个或多个核定位序列(NLS)。

“核定位信号或序列”(NLS)为一种氨基酸序列，其标记通过核转运导入细胞核的蛋白质。通常，该信号由一个或多个暴露于蛋白质表面的带正电荷的赖氨酸或精氨酸的短序列组成。不同的核定位蛋白可能共享相同的NLS。NLS具有与核输出信号(NES)相反的功能，其靶向核外的蛋白质。NLS的一个非限制性实列为内部SV40核定位序列(iNLS)。

在一些实施方案中，任选地在融合蛋白中的每个片段之间提供肽接头。在一些实施方案中，肽接头具有1至100个氨基酸残基(或3-20，4-15，不受限制)。在一些实施方案中，肽接头的至少10％、20％、30％、40％、50％、60％、70％、80％或90％的氨基酸残基为选自由丙氨酸、甘氨酸、半胱氨酸和丝氨酸组成的组中的氨基酸残基。

对于本公开的任何融合蛋白，还提供了其生物学等价物。在一些实施方案中，生物等价物与参考融合蛋白具有至少约70％、75％、80％、85％、90％、95％、98％或99％的序列同一性。优选地，生物等价物保留了参考融合蛋白的所需活性。在一些实施方案中，通过包括其组合的一个、两个、三个、四个、五个或更多个氨基酸添加、缺失、取代来获得生物等效物。在一些实施方案中，取代为保守的氨基酸取代。

“保守氨基酸替代”是指氨基酸残基被具有相似侧链的氨基酸残基所取代。具有相似侧链的氨基酸残基家族已在本领域中被定义，包括：碱性侧链(如：赖氨酸、精氨酸、组氨酸)、酸性侧链(如：天冬氨酸、谷氨酸)、不带电荷的极性侧链(如：甘氨酸、天冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、酪氨酸、半胱氨酸)、非极性侧链(如：丙氨酸、缬氨酸、亮氨酸、异亮氨酸、脯氨酸、苯丙氨酸、蛋氨酸、色氨酸)、β-支链侧链(如：苏氨酸、缬氨酸、异亮氨酸)和芳族侧链(如：酪氨酸、苯丙氨酸、色氨酸、组氨酸)。因此，免疫球蛋白多肽中的非必需氨基酸残基优选被来自相同侧链家族的另一个氨基酸残基取代。在另一个实施方案中，氨基酸序列可以被结构相似的序列取代，该序列在侧链家族成员的顺序和/或组成上不同。

下表提供了保守氨基酸替代的非限制性实例，其中相似性得分为0或更高得分表示两个氨基酸之间存在保守替代。

表C：氨基酸相似度矩阵

	C	G	P	S	A	T	D	E	N	Q	H	K	R	V	M	I	L	F	Y	W
																					W	-8	-7	-6	-2	-6	-5	-7	-7	-4	-5	-3	-3	2	-6	-4	-5	-2	0	0	17
Y	0	-5	-5	-3	-3	-3	-4	-4	-2	-4	0	-4	-5	-2	-2	-1	-1	7	10
																					F	-4	-5	-5	-3	-4	-3	-6	-5	-4	-5	-2	-5	-4	-1	0	1	2	9
L	-6	-4	-3	-3	-2	-2	-4	-3	-3	-2	-2	-3	-3	2	4	2	6
																					I	-2	-3	-2	-1	-1	0	-2	-2	-2	-2	-2	-2	-2	4	2	5
M	-5	-3	-2	-2	-1	-1	-3	-2	0	-1	-2	0	0	2	6
																					V	-2	-1	-1	-1	0	0	-2	-2	-2	-2	-2	-2	-2	4
R	-4	-3	0	0	-2	-1	-1	-1	0	1	2	3	6
																					K	-5	-2	-1	0	-1	0	0	0	1	1	0	5
H	-3	-2	0	-1	-1	-1	1	1	2	3	6
																					Q	-5	-1	0	-1	0	-1	2	2	1	4
N	-4	0	-1	1	0	0	2	1	2
																					E	-5	0	-1	0	0	0	3	4
D	-5	1	-1	0	0	0	4
																					T	-2	0	0	1	1	3
A	-2	1	1	1	2
																					S	0	1	1	1
P	-3	-1	6
																					G	-3	5
C	12

表D：保守氨基酸取代

氨基酸	替换为
		丙氨酸	D-Ala、Gly、Aib、β-Ala、L-Cys、D-Cys
精氨酸	D-Arg、Lys、D-Lys、Orn D-Orn
		天冬酰胺	D-Asn、Asp、D-Asp、Glu、D-Glu Gln、D-Gln
天冬氨酸	D-Asp、D-Asn、Asn、Glu、D-Glu、Gln、D-Gln
		半胱氨酸	D-Cys、S-Me-Cys、Met、D-Met、Thr、D-Thr、L-Ser、D-Ser
谷氨酰胺	D-Gln、Asn、D-Asn、Glu、D-Glu、Asp、D-Asp
		谷氨酸	D-Glu、D-Asp、Asp、Asn、D-Asn、Gln、D-Gln
甘氨酸	Ala、D-Ala、Pro、D-Pro、Aib、β-Ala
		异亮氨酸	D-Ile、Val、D-Val、Leu、D-Leu、Met、D-Met
亮氨酸	Val、D-Val、Met、D-Met、D-Ile、D-Leu、Ile
		赖氨酸	D-Lys、Arg、D-Arg、Orn、D-Orn
蛋氨酸	D-Met、S-Me-Cys、le、D-Ile、Leu、D-Leu、Val、D-Val
		苯丙氨酸	D-Phe、Tyr、D-Tyr、His、D-His、Trp、D-Trp
脯氨酸	D-Pro
		丝氨酸	D-Ser、Thr、D-Thr、allo-Thr、L-Cys、D-Cys
苏氨酸	D-Thr、Ser、D-Ser、allo-Thr、Met、D-Met、Val、D-Val
		酪氨酸	D-Tyr、Phe、D-Phe、His、D-His、Trp、D-Trp
缬氨酸	D-Val、Leu、D-Leu、Ile、D-Ile、Met、D-Met

融合蛋白的靶向激活

本发明还提供了组合物和方法，其中本发明的融合蛋白包括核碱基脱氨酶或其催化结构域和抑制剂，在需要其活性的地方被激活。该技术如图16所示。

在一个说明性构型中，融合蛋白(A)包括：(a)包含核碱基脱氨酶(如：胞苷脱氨酶)或其催化结构域的第一片段、有选择地具有成簇的规则间隔的短回文重复序列(CRISPR)相关(Cas)蛋白和第一TEV蛋白酶片段，(b)包含核碱基脱氨酶抑制剂的第二片段，和(c)在第一片段和第二片段之间的TEV蛋白酶切割位点。在一些实施方案中，其中第一TEV蛋白酶片段单独不能切割TEV蛋白酶切割位点。

当融合蛋白在体外或体内用于在细胞中进行基因编辑时，可以引入另外两种分子。在一个实例中，一个分子(B)为单引导RNA(sgRNA)，其进一步整合了可被RNA识别肽识别的标签序列。或者，该sgRNA可以被靶向靶位点的crRNA和CRISPR RNA(crRNA)单独替代或与反式激活CRISPR RNA(tracrRNA)联合替代。标签序列和相应的RNA识别肽的实例包括MS2/MS2外壳蛋白(MCP)、PP7/PP7外壳蛋白(PCP)和boxB/boxB外壳蛋白(N22p)，其序列见表B。分子(B)或可作为编码RNA分子的DNA序列。

在一些实施方案中，另一个附加分子(C)包括与RNA识别肽(如：MCP、PCP、N22p)偶联的第二TEV蛋白酶片段。在一些实施方案中，当第一TEV片段和第二TEV片段一起存在时，能够切割TEV蛋白酶位点。

这种共存可由分子(C)通过标签序列-RNA识别蛋白相互作用与分子(B)结合而触发。同时，融合蛋白(A)和分子(B)都将出现在目标基因组位点，用于基因编辑。因此，分子(B)将融合蛋白(A)和分子(C)中的TEV蛋白酶片段结合在一起，由此激活TEV蛋白酶，从而从融合蛋白中去除核碱基脱氨酶抑制剂并激活碱基编辑器。可以容易地理解，这种激活仅发生在靶基因组位点，而不发生在非靶单链DNA区域。因此，碱基编辑不会发生在sgRNA不结合的单链DNA区域(如图17-19所示)。

“引导RNA”为与互补的靶DNA序列结合的非编码短RNA序列。引导RNA首先与Cas酶结合，gRNA序列通过配对将复合物引导至DNA上的特定位置，在该位置Cas通过切割靶DNA链实现其内切酶活性。“单引导RNA”，通常简称为“引导RNA”，是指合成的或表达的单一引导RNA(sgRNA)，它由作为单一构建体的crRNA和tracrRNA组成。tracrRNA部分负责Cas核酸内切酶活性，crRNA部分与靶特异性DNA区域结合。因此，反式激活RNA(tracrRNA，或支架区)和crRNA为两个关键成分并通过四环连接形成sgRNA。

引导RNA的支架本身具有茎环结构，并与内切核酸酶连接。典型的支架具有如图36A(上)所示的结构，其从5’端到3’端包括：(a)重复区、(b)四环、(c)与重复区至少部分互补的抗重复序列、(d)茎环1、(e)接头、(f)茎环2和(g)茎环3。该支架序列通常是保守的，但是茎环1和茎环3中的环可以具有不同的序列。更重要的是，四环和茎环2的环可以被更长的序列完全取代。此处可插入RNA标签(如：MS2、PP7、boxB)等序列，以便通过相应的识别肽进行识别。示例支架序列如下所示。

表E：sgRNA支架序列示例

参照这些示例性支架序列，位置1-12的片段(如：GUUUUAGAGCUA，SEQ ID NO：197；GUUUGAGAGCUA，SEQ ID NO：198)表示重复区域，其与反重复序列形成约8-12个碱基对，包括位置17-30(如：UAGCAAGUUAAAAU，SEQ ID NO：199)。它们之间的GAAA环(SEQ ID NO：200)为四环。如SEQ ID NO：17所示，整个循环可以用MS2序列代替。茎环1大致包括位置31-39，并包括一个小环(如：UA、AU、AA或UU，不限)。茎环1在茎中通常有3-4个碱基对。茎环2包括位置48-61(如：AACUUGAAAAAGUG，SEQ ID NO：201)，通常包括茎中的4个碱基对，以及可完全替换的GAAA(SEQ ID NO：200)环。其余，位置62-76(如：GCACCGAGUCGGUGC，SEQ ID NO：202；GCACCGAUUCGGUGC，SEQ ID NO：203)构成茎环3，其通常包括茎中的4个碱基对。小环(本例中为U和G)可以是任何核苷酸。

因此，该支架的序列可以表示为：GUUUNAGAGCUAX₁ UAGCAAGUUNAAAUAA GGCNNGUCCGUUAUCAACUUX₂ AAGUGGCACCGANUCGGUGC(SEQ ID NO：31)，其中N表示任何碱基，X1和X2表示任何长度为2-50个碱基的核苷酸序列。术语“引导RNA”和“单引导RNA”包括插入RNA中一个或多个环的额外序列，如MS2、PP7和boxB。

在本公开中提供了核碱基脱氨酶、催化结构域、核碱基脱氨酶抑制剂和Cas蛋白的各种实施方案和实例。例如，碱基脱氨酶可以是胞苷脱氨酶和腺苷脱氨酶。胞苷脱氨酶的非限制性实例包括APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4和活化诱导型(胞苷)脱氨酶。

腺苷脱氨酶的非限制性实例包括tRNA特异性腺苷脱氨酶(TadA)、tRNA特异性腺苷脱氨酶1(ADAT1)、tRNA特异性腺苷脱氨酶2(ADAT2)、tRNA特异性3腺苷脱氨酶(ADAT3)、RNA特异性腺苷脱氨酶B1(ADARB1)、RNA特异性腺苷脱氨酶B2(ADARB2)、腺苷一磷酸脱氨酶1(AMPD1)、腺苷一磷酸脱氨酶2(AMPD2)、腺苷一磷酸脱氨酶3(AMPD3)、腺苷脱氨酶(ADA)、腺苷脱氨酶2(ADA2)、腺苷脱氨酶类似物(ADAL)、含腺苷脱氨酶结构域1(ADAD1)，含腺苷脱氨酶结构域2(ADAD2)，RNA特异性腺苷脱氨酶(ADAR)和RNA特异性腺苷脱氨酶B1(ADARB1)。

Cas蛋白示例包括SpCas9、FnCas9、St1Cas9、St3Cas9、NmCas9、SaCas9、AsCpf1、LbCpf1、FnCpf1、VQR SpCas9、EQR SpCas9、VRER SpCas9、RHA FnCas9和KKH SaCas9以及表A中列出的蛋白。

融合蛋白可包括其他片段，如：尿嘧啶DNA糖基化酶抑制剂(UGI)和核定位序列(NLS)，在此将分别讨论这些片段。

本公开中描述的碱基编辑和碱基编辑方法可用于在各种真核生物的基因组中进行高特异性和高效率的碱基编辑。

本公开提供了组合物和方法。这些组合物包括有效量的融合蛋白和可接受的载体。在一些实施方案中，所述组合物还包括与靶DNA具有互补性的引导RNA。这种组合可用于样本的碱基编辑。

融合蛋白和组合物可用于碱基编辑。在一个实施方案中，提供了一种编辑靶多核苷酸的方法，包括使本公开的融合蛋白以及与靶多核苷酸具有至少部分序列互补性的引导RNA与靶多核苷酸接触，该编辑包括靶多核苷酸中胞嘧啶(C)的脱氨基。

在一个实施方案中，提供了编辑样品中核酸序列上的胞嘧啶的方法。在一些实施方案中，该方法需要使样品接触本公开的融合蛋白或编码该融合蛋白的多核苷酸。在一些实施方案中，进一步添加的是合适的引导RNA。熟练的技术人员很容易获得引导RNA的设计。

融合蛋白(和引导RNA)与靶多核苷酸之间的接触可以是体外的，尤其是在细胞培养中。当接触是离体或体内时，融合蛋白可表现出临床/治疗意义。体内接触可以是对受试者施用，例如：人、动物、酵母、植物、细菌、病毒，但不限于此。

诱导和分裂碱基编辑器的构型

已测试了构建体的各种构型，以实施诱导和分裂碱基编辑器(isplitBE)的设计(图24)。在测试的构型中(图25)，实施例3的第9对碱基表现出优异的编辑效率和最小化的脱靶编辑(特异性大大提高)。第9对碱基采用双sgRNA系统，其中辅助sgRNA(hsgRNA)用于靶向主靶位点附近的位点。这种双重靶向提高了特异性(图32-33)。

在第9对碱基构型(图25-28)中，仅当两种sgRNA均与靶序列结合时，才释放核碱基脱氨酶抑制剂，确保核碱基脱氨酶不会在非靶位点编辑。第9对碱基构型包括6个不同的分子，其可以例如由两个独立的构建体产生(图26A和34A)。

第一个分子可以仅包括Cas蛋白，其具有适合包装在普通载体AAV中的大小。第二种分子包括核碱基脱氨酶(如：APOBEC)、核碱基脱氨酶抑制剂(如：mA3-CDA2)和RNA识别肽(如：MCP)。在核碱基脱氨酶和核碱基脱氨酶抑制剂之间插入蛋白酶切割位点(如：TEV位点)，这样可以在适当的时间/位置去除核碱基脱氨酶抑制剂。任选地，第二分子还包括UGI。

第三个分子为蛋白酶的非活性部分(如：TEVc)与不同RNA识别肽(如：N22p)融合的融合体。第四个分子为独立的TEVn，其与第一部分结合，以发挥蛋白酶活性，从而除去第二个分子中核碱基脱氨酶抑制剂。

第五个分子为辅助sgRNA，其包含可被第二分子中的RNA识别肽识别的RNA识别位点(如：MS2)。第六种分子为规则的sgRNA，其含有可被第三分子中的RNA识别肽识别的RNA识别位点(如：boxB)。

hsgRNA和sgRNA都将结合基因组(或RNA)中的正确靶位点，并且每一个都向结合位点募集一个Cas蛋白。hsgRNA还会通过MS2-MCP结合来募集第二分子，而sgRNA会通过与boxB-N22p结合来募集第三分子。因此，第三分子的TEVc与TEV位点接触。由于独立的TEVn存在于整个细胞中，因此它也可以存在于此，这确保了TEVc具有活性，并从第二分子中的核碱基脱氨酶上裂解核碱基脱氨酶抑制剂，从而激活核碱基脱氨酶。

进一步发现，hsgRNA结合位点与常规sgRNA结合位点之间的最佳距离为34-91bp(从PAM到PAM)，其中hsgRNA位于上游。

此外，尽管为了在目的位点编辑常规sgRNA，需要hsgRNA和常规sgRNA的适当结合，但在目的位点编辑hsgRNA是不可取的。本发明发现，当hsgRNA的间隔区长度(间隔区为靶互补区)为8-15个碱基时，这样的hsgRNA仍然足以提供双重识别以确保结合特异性，但大大减少了hsgRNA靶位点的编辑。

因此，根据本公开的一个实施方案，提供了包括第一片段的融合蛋白，所述第一片段包含：核碱基脱氨酶或其催化结构域、核碱基脱氨酶抑制剂、第一RNA识别肽、以及核碱基脱氨酶或其催化结构域与核碱基脱氨酶抑制剂之间的TEV蛋白酶切割位点。

在一些实施方案中，所述融合蛋白还包括第二片段，所述第二片段包含：单独不能切割TEV蛋白酶切割位点的TEV蛋白酶片段，和第二RNA识别肽。在一些实施方案中，融合蛋白还包含第一片段和第二片段之间的自切割位点。

在一些实施方案中，所述融合蛋白还包括第三片段，所述第三片段包含第二TEV蛋白酶片段，其中所述第一TEV蛋白酶片段能够在存在所述第二TEV蛋白酶片段的情况下切割所述TEV蛋白酶位点。在一些实施方案中，所述融合蛋白还包含在第二片段和第三片段之间的第二自切割位点，并且当切割第二自切割位点时，融合蛋白释放未与任何RNA识别肽融合的第二TEV蛋白酶片段。

在一个实施方案中，还提供了一种双引导RNA系统，其包括：包含与接近第一PAM位点的靶核酸序列具有序列互补性的第一间隔子的靶向单引导RNA、包含与接近第二PAM位点的第二核酸序列具有序列互补性的第二间隔子的辅助单引导RNA，成簇的规则间隔的短回文重复序列(CRISPR)相关(Cas)蛋白和核碱基脱氨酶。

在一些实施方案中，第二个PAM位点位于距第二个PAM位点150个碱基以内，或备选地位于140、130、120、110、100、95、94、93、92、91、90、89、88、87、86、85、84、83、82、81、80、75或70个碱基以内。在一些实施方案中，第二个PAM位点位于第一个PAM的至少10个碱基处，或者至少位于15、20、25、30、31、32、33、34、35、36、37、38、39、40、45、50、55或60个碱基处。在一些实施例中，第二PAM位点在第一PAM位点的上游。在一些实施例中，第二PAM位点位于第一PAM位点的下游。在一些实施方案中，所述距离为20-100、25-95、30-95、34-95、34-91、34-90、35-90、40-90、40-84、45-85或50-80个碱基，没有限制。

在一些实施方案中，第二(辅助)间隔子的长度为8-15个碱基。在一些实施方案中，第二间隔子为8-14、8-13、8-12、8-11、8-10、9-15、9-14、9-13、9-12、9-11、9-10、10-15、10-14、10-13、10-12、10-11、11-15、11-14、11-13、11-12、12-15、12-14、12-13或13-15个碱基长度。相比之下，第一个间隔子的长度至少为16、17、18或19个碱基。

在此，还描述了各种“分裂”碱基编辑系统，它们允许将Cas蛋白和核碱基脱氨酶包装到单独的递送载体中(如：AAV)。

在一些实施方案中，提供了可介导有效编辑以在PCSK9基因中产生早期终止密码子的常规sgRNA和hsgRNA对，其可具有临床益处。基于这些发现，已经为sgRNA和hsgRNA选择了将非终止密码子转化为终止密码子的合适靶位点。以C-to-T/U编辑为例，非终止密码子可以是CAG、CAA或CGA。

表4中举例了此类靶位点。很容易理解，表4中的序列用于显示靶的位置。然而，实际的sgRNA和hsgRNA不需要与整个序列结合。事实上，例如hsgRNA，如上所述8-15个核苷酸的结合就足够了。因此，hsgRNA上的间隔序列可以与表4所示的任何子序列互补，甚至与它们重叠。sgRNA也是如此，优选的间隔区长度为18-24个核苷酸，不受限制。

在一个实施方案中，提供了用于编辑人PCSK9核酸序列的一对辅助引导RNA/引导RNA，其中所述引导RNA特异性地靶向PCSK9核酸上的第一位点，以使碱基编辑能够将非终止密码子转化为终止密码子，而所述辅助引导RNA特异性地靶向离第一位点20至100个碱基的PCSK9核酸上的第二位点。在一些实施方案中，第二位点距第一位点约20-100、25-95、30-95、34-95、34-91、34-90、35-90、40-90、40-84、45-85或50-80个碱基。

在一些实施方案中，hsgRNA具有长度为8-15个碱基的间隔区。在一些实施方案中，间隔子为8-14、8-13、8-12、8-11、8-10、9-15、9-14、9-13、9-12、9-11、9-10、10-15、10-14、10-13、10-12、10-11、11-15、11-14、11-13、11-12、12-15、12-14、12-13或13-15个碱基长度。在一些实施方案中，sgRNA具有长度为至少16、17、18或19个碱基的间隔子。

sgRNA/hsgRNA的间隔序列很容易设计。例如，对于表4中所示的每个靶位点，间隔子可以是所需长度的互补序列(即：与SEQ ID NO:166-180或181-195中任一子序列互补)。结合位点对的具体实例包括但不限于SEQ ID NO:166和181、SEQ ID NO:167和182、SEQ IDNO:168和183、SEQ ID NO:169和184、SEQ ID NO:170和185、SEQ ID NO:171和186、SEQ IDNO:172和187、SEQ ID NO:173和188、SEQ ID NO:174和189、SEQ ID NO:175和190、SEQ IDNO:176和191、SEQ ID NO:177和192、SEQ ID NO:178和193、SEQ ID NO:179和194以及SEQID NO:180和195。

还设计并测试了示例sgRNA/hsgRNA的序列。见表3。此外，还提供了编码辅助引导RNA和引导RNA的多核苷酸序列。

利用这些sgRNA/hsgRNA序列对，可以实施使细胞中的PSCK9基因失活的方法。在一些实施方案中，该方法需要使细胞与本公开的一对辅助引导RNA和引导RNA、成簇的规则间隔的短回文重复序列(CRISPR)相关(Cas)蛋白和核碱基脱氨酶接触。在本公开中进一步描述了这些元件中的每一个。

增强的主要编辑

在一些实施方案中，还提供了改进的主要编辑系统。尤其是，所提供的某些主要编辑引导RNA(pegRNA)分子具有改进的稳定性。这些pegRNA含有一个支架，与常规的引导RNA相比，该支架具有一个附加的碱基对(见图36A和36E)。在模板上使用标准支架(SEQ ID NO:31)，改进的支架或具有SEQ ID NO:32-43中任一序列。

如上所述，典型的引导RNA支架从5’端到3’端具有以下结构，包括：(a)重复区、(b)四环、(c)与重复区至少部分互补的抗重复序列、(d)茎环1、(e)接头、(f)茎环2和(g)茎环3。换而言之，该支架包括4个茎环。第三个茎环(从5'到3')也被称为“茎环2”，在常规设计中包括4个碱基对。在新的设计中，这个茎环具有5个碱基对。

在一个实施方案中，提供了包含支架的引导RNA，所述支架从5’至3’方向包括第一茎环部分、第二茎环部分、第三茎环部分和第四茎环部分，其中所述的第三茎环包括其中的五个碱基对。

该支架的序列可表示为：GUUUNAGAGCUAX₁ UAGCAAGUUNAAAUAAGGCNN GUCCGUUAUCAACUUX₂ AAGUGGCACCGANUCGGUGC(SEQ ID NO:31)，其中N表示任意碱基，X1和X2表示任意长度为2-50个碱基(或2-40、3-40、4-40、4-30、2-30、4-20个碱基)的核苷酸序列。因此，在一些实施方案中，根据SEQ ID NO:31中的位置，碱基对包括位置45和55之间的碱基对。在一些实施方案中，所述支架与SEQ ID NO:31具有至少75％、80％、85％、90％、95％、96％、97％、98％或99％的序列同一性，并且包括在第三茎环中的给定碱基对。

因此，在一个实施方案中，提供了一种引导RNA，其包含通过在45位和55位的碱基之间引入碱基对而衍生自SEQ ID NO:31的支架，并且允许任选一个、两个、三个、四个或五个碱基的添加、缺失、取代或其组合，只要其保持茎环结构或支架/引导RNA功能性。在一些实施方案中，所述支架包含选自由SEQ ID NO:32-43组成的组中的序列。在一些实施方案中，引导RNA的长度为至少100个核苷酸，或105、110、115、120、125、130、140或150个核苷酸。在一些实施方案中，引导RNA还包括间隔子(如：8-25个核苷酸)、逆转录酶模板和/或引物结合位点。

在一些实施方案中，还提供了改进的主要编辑器蛋白。在一个实施方案中，主要编辑器包括通过接头连接的Cas蛋白和逆转录酶，所述接头被测试以优化主要编辑器的性能。在一个实施方案中，主要编辑器包含SEQ ID NO:44所示的氨基酸序列。在一个实施方案中，主要编辑器包含SEQ ID NO:45所示的氨基酸序列。这两个主要编辑都经过测试，显示出卓越的编辑效率和特异性。

此处，还描述了各种“分裂”主要编辑系统，这些系统允许将Cas蛋白和逆转录酶包装到单独的递送载体中(如：AAV)。

利用分裂主要编辑系统，还提供了在细胞靶位点进行基因编辑的方法。在一些实施方案中，所述方法需要向细胞引入第一病毒颗粒和第二病毒颗粒，所述第一病毒颗粒包封编码成簇的规则间隔的短回文重复序列(CRISPR)相关(Cas)蛋白的第一构建体；所述第二病毒颗粒包封编码与RNA识别肽融合的逆转录酶的第二构建体。在一些实施方案中，该第二构建体进一步编码包含与RNA识别肽结合的RNA识别位点的引导RNA。

在一些实施方案中，第二构建体进一步编码包含与RNA识别肽结合的RNA识别位点的引导RNA。在一些实施方案中，Cas蛋白选自由SpCas9、FnCas9、St1Cas9、St3Cas9、NmCas9、SaCas9、AsCpf1、LbCpf1、FnCpf1、VQR SpCas9、EQR SpCas9、VRER SpCas9、SpCas9-NG、xSpCas9、RHA FnCas9、KKH SaCas9、NmeCas9、StCas9、CjCas9、AsCpf1、FnCpf1、SsCpf1、PcCpf1、BpCpf1、CmtCpf1、LiCpf1、PmCpf1、Pb3310Cpf1、Pb4417Cpf1、BsCpf1、EeCpf1、BhCas12b、AkCas12b、EbCas12b、LsCas12b、RfCas13d、LwaCas13a、PspCas13b、PguCas13b和RanCas13b组成的组。在一些实施方案中，Cas蛋白为SpCas9-NG或xSpCas9。

逆转录酶的非限制性实例包括人类免疫缺陷病毒(HIV)逆转录酶、莫洛尼鼠白血病病毒(MMLV)逆转录酶和禽成髓细胞病病毒(AMV)逆转录酶。

实施例

实施例1：具有可减少脱靶编辑活性的融合碱基编辑器

除非特别指出，实施例中提到的单引导RNA(sgRNA)和碱基编辑器(BEs)是针对SpCas9的，例如：针对SaCas9的sgRNA(Sa-sgRNA)。为了测试目前的碱基编辑系统是否能在ssDNA区域诱导C-to-T突变，我们使用SaD10A切割酶和Sa-sgRNA来断裂DNA单链(SSB)，这可以触发末端衰退，从而产生ssDNA区域。(图1A、2A和3A)。我们将SaD10A、Sa-sgRNA(Sa-sgSITE31、Sa-sgSITE42和Sa-sgF1)与两种已发表的BEs，即：BE3和hA3A-BE3或空载体(图1B、2B和3B)共转染，并测定由SaD10A触发的ssDNA区域周围的突变。在三个测试位点(Sa-SITE31、Sa-SITE42和Sa-F1)，BE3或hA3A-BE3的表达诱导了C-to-T突变，而空载体的表达没有诱导突变(图1C、2C和3C)。这些结果表明，现有的含有催化活性胞苷脱氨酶的碱基编辑器确实会在非相关ssDNA区域引起非预期突变(图1、2和3)。

为了抑制非相关位点，即：ssDNA区域的胞苷脱氨酶的活性，我们建议将碱基编辑器与碱基编辑抑制剂融合。小鼠APOBEC3(mA3)包含两个胞苷脱氨酶(CDA)结构域(CDA1和CDA2，图4A，5A和6A)，使用mA3-BE3中全长的mA3(图4B，5B和6B)在三个测试靶位点没有诱导C-to-T编辑(图4C，5C和6C)。然而，通过从mA3-BE3(图4B、5B和6B)中删除mA3CDA2而产生的mA3CDA1-BE3诱导了大量的C-to-T编辑(图4C、5C和6C)。这些结果表明，mA3CDA2为一种天然的碱基编辑抑制剂。因此，我们在三种活性BEs，即：mA3CDA1-BE3、BE3和hA3A-BE3的N-末端添加了mA3CDA2，以生成mA3rev-BE3、mA3CDA2-BE3和mA3CDA2-hA3A-BE3(图4B、5B和6B)。如我们所预期的，在N-末端添加mA3CDA2后明显降低了碱基编辑效率(图4C，5C和6C)。

接下来，我们考虑切割mA3CDA2是否能恢复碱基编辑效率。将2A自切割肽插入mA3CDA2与BE在mA3rev-BE3、mA3CDA2-BE3和mA3CDA2-hA3A-BE3中的其余部分之间，从而生成mA3rev-2A-BE3、mA3CDA2-2A-BE3和mA3CDA2-2A-hA3A-BE3(图4B、5B和6B)。相应地，在mA3rev-2A-BE3、mA3CDA2-2A-BE3和mA3CDA2-2A-hA3A-BE3中的碱基编辑效率被恢复(图4C、5C和6C)，表明对mA3CDA2的抑制取决于其与BEs的共价连接。我们还在蛋白数据库中搜索了与mA3CDA2核心序列相似的结构域，发现至少有44种蛋白具有相似的结构域(表1)。

人APOBEC3B(hA3B)还包含了两个胞苷脱氨酶(CDA)结构域(CDA1和CDA2，图7A、8A和9A)，且使用hA3B-BE3(图7B、8B和9B)中全长的hA3B在三个测试靶位点(图7C、8C和9C)仅诱导了相对低水平的C-to-T编辑。然而，通过从hA3B-BE3(图7B、8B和9B)中删除hA3BCDA1而生成的hA3BCDA2-BE3诱导了更高的C-to-T编辑(图7C、8C和9C)。此外，将2A自切割肽插入到hA3BCDA1和hA3BCDA2之间以生成hA3B-2A-BE3(图7B、8B和9B)，其可诱导比hA3B-BE3更高的C-to-T编辑效率(图7C、8C和9C)。这些结果表明，hA3BCDA1为另一种碱基编辑抑制剂，且其对hA3BCDA1的抑制作用取决于其与BEs的共价连接。我们还在蛋白数据库中搜索了与hA3BCDA1相似的结构域，发现至少有43种蛋白具有相似的结构域(表2)。

接下来，我们计划使用mA3来开发新型BEs。两种BEs，mA3rev-BE3和mA3rev-2A-BE3，是通过在氨基酸(AA)207和AA208之间裂解mA3而得到的，然后我们确定在哪里裂解mA3CDA2可以保持最高的编辑效率(图10A、11A和12A)。由于mA3CD A1在氨基酸(AA)154处结束，mA3CDA2从AA238处开始，我们在AA196/AA197、AA215/AA216、AA229/AA230和AA237/AA238处裂解mA3CDA2，生成mA3rev-BE3-196、mA3rev-2A-BE3-196、mA3rev-BE3-215、mA3rev-2A-BE3-215、mA3rev-BE3-229、mA3rev-2A-BE3-229、mA3rev-BE3-237和mA3rev-2A-BE3-237(图10B、11B和12B)。尽管在AA207/AA208和AA215/AA216处的mA3裂解保持了最高的编辑效率，但结果也表明，从AA196/AA197到AA237/AA238的裂解位点通常保持了相当高的编辑效率(图10C、11C和12C)。

此外，我们试图确定具有碱基编辑抑制作用的mA3的最小区域。我们删除了mA3rev-BE-237中mA3CDA2的各种N-末端部分，以开发mA3rev-BE-237-Del-255、mA3rev-BE-237-Del-285和mA3rev-BE-237-Del-333，其含有分别作为碱基编辑抑制剂的mA3的AA256-AA429、AA286-AA429和AA334-AA429部分(图13A、14A和15A)。通过与包含mA3的AA238-AA429部分的mA3rev-BE-237比较，mA3rev-BE-237-Del-255、mA3rev-BE-237-Del-285和mA3rev-BE-237-Del-333显示了相似的编辑效率(图13B、14B和15B)。这些结果表明，mA3的AA334-AA429部分仍然具有碱基编辑的抑制作用。

为了开发不会在非相关ssDNA区域引起C-to-T突变的碱基编辑器，我们用mA3rev-2A-BE3中TEV蛋白酶的切割位点替换了2A自切割位点，然后用另一个TEV切割位点将TEV蛋白酶(TEVn)的N-末端部分融合到mA3rev-2A-BE3的C-末端[Gray等人，2010，Cell，doi:10.1016/j.Cell.2010.07.014]。新开发的BE被命名为BEsafe。此外，我们在sgRNA中插入一个MS2环，生成MS2-sgRNA[Ma等人，2016，Nature Biotechnology，doi:10.1038/nbt.3526]，然后将蛋白酶(TEVc)的C-末端部分和能够与MS2环结合的MS2外壳蛋白(MCP)融合(图16A)。当BEsafe、MS2-sgRNA和MCP-TEVc共表达时，BEsafe中融合的TEVn和MS2-sgRNA可招募的MCP-TEVc的TEVc会缔合并恢复靶位点的蛋白酶活性。随后在TEV位点的裂解会将mA3CDA2和TEVn从BEsafe的N-和C-末端移除，所得mA3CDA1-BE3可在靶位点诱导有效的碱基编辑(图16A)。相反，因为mA3CDA1的胞苷脱氨酶活性受到mA3CDA2的抑制，所以BEsafe不会在非相关ssDNA区域诱导C-to-T突变(图16B)。

然后，我们比较了BEsafe和hA3A-BE3在靶位点和非相关ssDNA区域的表现(图17、18和19)。我们将表达Sa-sgRNA和SaD10A的质粒，其可在Sa-sgRNA靶位点引发ssDNA形成(图17A、18A和19A)，与hA3A-BE3表达质粒和sgRNA表达质粒、BEsafe表达质粒和表达MS2-sgRNA与MCP-TEVc的质粒或MCP-TEVc表达质粒和表达MS2-sgRNA和BEsafe的质粒(图17B、18B和19B)共转染。我们检测了非相关ssDNA区(Sa-sgRNA靶位，与SpCas 9的靶位正交)的C-to-T突变频率(图17C、18C和19C)，以及衍生于SpCas 9的hA3A-BE3和BEsafe在sgRNA靶位点的碱基编辑效率(图17D、18D和19D)。我们发现，BEsafe在非相关ssDNA区域(Sa-sgRNA靶位点)未引起任何C-to-T突变，但hA3A-BE3引起明显的突变(图17C、18C和19C)。在sgRNA靶位点，BEsafe诱导的碱基编辑与hA3A-BE3相当，而来自单个质粒的MS2-sgRNA和BEsafe的表达比仅来自一个质粒的BEsafe的表达产生更高的碱基编辑效率(图17D、18D、和19D)。

本发明中描述的碱基编辑器和碱基编辑方法可以应用于在各种真核生物的基因组中进行高特异性和高效率的碱基编辑。

首次建立了碱基编辑系统，以避免在非相关ssDNA区域引起C-to-T突变以及在靶位点诱导有效的碱基编辑。本发明中公开的BEsafe碱基编辑系统和相应的方法可用于进行高度特异性的碱基编辑，这是目前现有的BEs无法实现的，因为目前的BEs中的胞苷脱氨酶可在非相关ssDNA区域引起非预期突变。重要的是，该BEsafe碱基编辑系统的高特异性和高效性将促进潜在的临床翻译，尤其是在涉及恢复疾病相关突变的基因治疗中。

表1：mA3CDA2核心序列相关域

/>

表2：hA3BCDA1相关域

/>

实施例2：抑制剂偶联碱基编辑器的进一步评估

本实施例开发了一种有效的方法，其展示了碱基编辑器(BEs)的APOBEC部分以不依赖sgRNA的方式直接诱导了脱靶单链DNA(OTss)位点的突变。通过检测一系列具有两个胞苷脱氨酶(CDA)结构域的APOBEC蛋白，我们鉴定到某些双结构域APOBEC的无催化活性的CDA结构域具有胞苷脱氨酶抑制剂(CDI)的功能。利用这一发现和裂解TEV蛋白酶的方案，开发了一种通过sgRNA引导CDI切割的诱导碱基编辑器(iBE)，其将nSpCas9-BE和CDI与TEV切割位点联系起来。在不依赖sgRNA的OTss位点，iBE1由于与CDI共价连接而保持休眠状态状态。而在靶位点，iBE1被CDI的sgRNA引导的TEV切割激活，导致有效的碱基编辑。通过使用“增强特异性”的SpCas9切割酶，进一步开发了iBE2，以减少非预期的OTsg突变。由于其最小的脱靶效应和可靠的靶位点编辑效率，iBE的编辑特异性显著高于先前报道的BEs。因此，本实施例中描述的iBE系统为现有碱基编辑系统的特异性提供了一个新的监控机制，并确保了其在抗脱靶突变中的应用。

方法

细胞培养和转染

将来自ATCC的HEK293FT细胞保存在DMEM(10566，Gibco/Thermo FisherScientific)+10％ FBS(16000-044，Gibco/Thermo Fisher Scientific)中，并定期检测以排除支原体污染。

为了在基因组DNA中进行碱基编辑，将HEK293FT细胞接种到24孔板中，密度为1.1×10⁵/孔，并用250μl无血清Opti-MEM转染，该无血清Opti-MEM含有5.35μl LIPOFECTAMINELTX(Life，Invitrogen)、2.14μl LIPOFECTAMINE plus(Life，Invitrogen)、1μg pCMV-BE3(或hA3B-BE3、hA3BCDA2-nSpCas9-BE、hA3D-BE3、hA3DCDA2-nSpCas9-BE、hA3F-BE3、hA3FCDA2-nSpCas9-BE、hA3G-BE3、hA3GCDA2-nSpCas9-BE、mA3-BE3、mA3CDA1-nSpCas9-BE、mA3CDA2-mA3CDA1-nSpCas9-BE、hA3FCDA1-mA3CDA1-nSpCas9-BE、hA3BCDA1-mA3CDA1-nSpCas9-BE、mA3CDA2-rA1-nSpCas9-BE、hA3FCDA1-rA1-nSpCas9-BE、hA3BCDA1-rA1-nSpCas9-BE、hA3A-BE3、mA3CDA2-hA3A-nSpCas9-BE、hA3FCDA1-hA3A-nSpCas9-BE、hA3BCDA1-hA3A-nSpCas9-BE、mA3CDA2F1-mA3CDA1-nSpCas9-BE、mA3CDA2F2-mA3CDA1-nSpCas9-BE、mA3CDA2F3-mA3CDA1-nSpCas9-BE、mA3CDAI-T2A-mA3CDA1-nSpCas9-BE、EGFP-mA3CDA1-nSpCas9-BE、EGFP-T2A-mA3CDA1-nSpCas9-BE、mA3CDAI-T2A-rA1-nSpCas9-BE、EGFP-rA1-nSpCas9-BE、EGFP-T2A-rA1-nSpCas9-BE、mA3CDAI-T2A-hA3A-nSpCas9-BE、EGFP-hA3A-nSpCas9-BE、EGFP-T2A-hA3A-nSpCas9-BE、pCMV-dSpCas9、iBE1、iBE2、mA3CDAI-TS-mA3CDA1-nSpCas9HF1-BE-NTEV或mA3CDAI-TS-mA3CDA1-nHypaSpCas9-BE-NTEV)表达载体，0.64μg不含或含0.5μg Sa-sg-SaD10A表达载体的sgRNA表达载体。24小时后，向培养基中加入终浓度为4μg/ml的嘌呤霉素(ant-pr-1，InvivoGen)。48小时后，使用QuickExtract^TM DNA溶液(QE09050，Epicentre)从细胞中提取基因组DNA，用于后续测序分析。

DNA文库制备和测序

目标基因组序列通过高保真DNA聚合酶PrimeStar HS(Clonetech)进行PCR扩增，引物组位于所检查的sgRNA目标位点的侧翼。使用TruSeq ChIP样本制备试剂盒(Illumina)制备了索引DNA文库，并做了少量修改。简而言之，通过Covaris S220对从基因组DNA区域扩增的PCR产物进行片段化。然后，使用TruSeq ChIP样本制备试剂盒(Illumina)对片段化的DNA进行PCR扩增。使用Qubit High-Sensitivity DNA试剂盒(Invitrogen)定量后，使用中国上海CAS-MPG Partner Institute for computed Biology Omics Core的IlluminaHiseq X10(2×150)或NextSeq 500(2×150)将不同标签的PCR产物混合在一起进行深度测序。由FastQC评估原始读取质量。对于成对端测序列，仅使用R1读数。修剪序列两端Phred质量分数低于30的接头序列和读取序列。然后使用BWA-MEM算法(BWA v0.7.17)将修剪后的读数映射到目标序列。与samtools(v1.9)叠加后，进一步计算碱基置换。

碱基替代计算

在检测的sgRNA靶位点的每个位置选择碱基替换，这些位点至少有1000个独立的读码，仅在靶碱基编辑位点观察到明显的碱基替换。碱基替换频率的计算方法是用碱基替换读数除以总读数。对于每种sgRNA，通过将所有编辑位点的C-to-T碱基替换频率之和除以sgRNA靶位点周围50-bp区域(从上游8个核苷酸到靶位点，到下游19个核苷酸到PAM位点)的indel频率，计算出C-to-T碱基替换indel的比率。

结果

将天然胞苷脱氨酶或体外进化的腺苷脱氨酶与CRISPR-Cas9融合的胞嘧啶或腺嘌呤碱基编辑器(CBE/BEs或ABEs)被开发出来，以高效诱导靶向C-to-T或腺嘌呤至鸟嘌呤(A-to-G)转化。由于BEs使用催化失活的Cas9(dCas9)蛋白或Cas9切割酶(nCas9)引导其与基因组DNA的结合，预期在与sgRNA部分互补的OTsg位点诱导非预期的碱基替换。在这种情况下，在BEs中使用高保真Cas9可以减少这些OTsg突变。同时，由于游离APOBEC可在单链DNA(ssDNA)区域诱发非预期的C-to-T突变，BEs的APOBEC部分可直接在OTss位点引发非预期突变。换句话说，BEs诱导的脱靶突变也可能发生在OTss位点，与sgRNA的引导无关；然而，由于缺乏定量和可再现的检测方法，OTss突变未被证实。

本实施例建立了一种通过共表达金黄色葡萄球菌和化脓性链球菌Cas9直系同源物(CESSCO)来定量评估BE诱导的OTss突变的有效方法。在CESSCO中，nSaCas9/Sa-sgRNA对的表达在特定基因组位点产生DNA单链断裂(SSBs)，并以可编程方式导致基因组ssDNA区的形成。同时，在无sgRNA(以下sgRNA指Sp-sgRNA)的情况下共表达的BE3被用于检测在nSaCas9/Sa-sgRNA引入的SSB周围产生的ssDNA区域，单独使用BE3是否可以诱导与sgRNA无关的C-to-T碱基替换。对nSaCas9/Sa-sgRNA靶向的基因组区域进行深度测序后，清楚地表明OTss位点的C-to-T突变是由含BE3的大鼠APOBEC1(rA1)诱导的，而不是在没有sgRNA的情况下由dSpCas9诱导的，这证实了OTss突变是由BEs的APOBEC部分以不依赖sgRNA的方式引起的。

然后，本实施例试图通过利用适于高度特异性BE构建的APOBEC家族成员来减少OTss突变。大多数常用的BEs是由单结构域APOBECs构建的，如：BE3中的rA1，但不是由双结构域APOBECs构建的。通常，在含有两个CDA结构域的APOBECs中，一个具有催化活性，而另一个无催化活性，其对胞苷脱氨活性起调节作用，因此，可能适合构建OTss效应降低的高特异性BEs。为了尝试这种可能性，我们构建并比较了十对BEs的C-to-T编辑效率，这些BEs具有一个催化活性的CDA结构域或五个双结构域APOBECs的两个CDA结构域(图20a)，即：人APOBEC3B(hA3B)、人APOBEC3D(hA3D)、人APOBEC3F(hA3F)、人APOBEC3G(hA3G)和小鼠APOBEC3(mA3)。

如图20b、c所示，用含有两个CDA结构域的某些APOBECs(hA3B、hA3F和mA3)构建的BEs诱导的编辑效率显著低于仅含有活性CDA结构域的配对BEs。这一结果表明，来自这些双结构域的APOBECs，即：hA3B、hA3F和mA3的无催化活性的CDA结构域对其相应的活性CDA结构域表现出抑制功能。

为了检测抑制功能是否是普遍的，我们将mA3、hA3F或hA3B的无催化活性的CDA结构域分别共价连接到mA3CDA1-nSpCas9-BE(图20d)和其他两种常用的BE，即：BE3和hA3A-BE3的N-末端。所有这些无催化活性的CDA结构域对所有测试的BEs均表现出广谱抑制作用，其中mA3的CDA2(mA3CDA2)的抑制作用最强(图20e和f)。详细的图谱分析进一步显示，mA3CDA2的残基282-355表现出与全长mA3CDA2相似的抑制效应。总之，这些结果表明，某些双结构域APOBECs的催化非活性结构域确实对胞苷脱氨酶活性表现出普遍的抑制作用，因此我们将其定义为胞苷脱氨酶抑制剂(CDI)。

接下来，我们试图测试将mA3CDI(mA3CDA2)从共价连接的BEs上裂解是否能恢复其碱基编辑能力。我们使用自裂解肽(T2A)将mA3CDI和mA3CDA1-nSpCas9-BE连接起来进行检测。mA3CDI自裂解后，mA3CDI-T2A-mA3CDA1-nSpCas9-BE的编辑效率恢复至与EGFP-mA3CDA1-nSpCas9-BE或EGFP-T2A-mA3CDA1-nSpCas9-BE相似的水平，比不可裂解的mA3CDI融合的BE高约10倍。来自BE3和hA3A-BE3的mA3CDI的自裂解也提高了它们的编辑效率，尽管程度不同。

这些结果为开发用于低OTss突变的精确碱基编辑的iBE系统提供了重要的依据。iBE1是通过使用TEV蛋白酶切割位点(TS)连接三个关键模块构建的，即：mA3CDI、mA3CDA1-nSpCas9-BE和TEV蛋白酶的N-末端(NTEV)(图21a)。理论上，由于CDI的共价键，iBE1在其APOBEC部分结合OTss位点时保持休眠状态(图21a)。值得注意的是，NTEV本身是无活性的，仅在招募C-末端(CTEV)时形成功能性TEV蛋白酶。因此，iBE1可由其CRISPR-Cas部分引导，以在sgRNA诱导的功能性TEV蛋白酶组装切割CDI的靶位点上进行有效的碱基编辑(图21d)。

在细胞中表达后，如预期的那样，iBE1在sgRNA非依赖性OTss区域中保持休眠状态(图21b)，并且与BE3相比，诱导了低得多(～20％)的C-to-T突变水平(图21c)。在靶位点，与RNA结合蛋白(MCP)融合的CTEV可被与MS2融合的sgRNA募集(图21d)，这导致从iBE1中去除mA3CDI，因此能够进行有效的碱基编辑。在多个基因组位点上比较由BE3和iBE1诱导的靶上编辑效率(图21e)表明，iBE1诱导靶上碱基编辑的水平与BE3相似(图21f，BE3的～80％)。本例表明，我们开发的iBE系统，通过操纵CDI在OTss突变被抑制的靶位点催化有效的碱基编辑。

由于已知Cas9可在与sgRNA具有部分序列互补性的OTsg位点诱导非预期的编辑，我们旨在通过用具有改进的靶向特异性的工程化版本替换iBE1中未修饰的nSpCas9来进一步减少OTsg突变(图22a)。我们测试了nSpCas9的三种工程版本，即：nSpCas9、neSpCas9HF1和nHypaSpCas9，发现使用这些靶向特异性改进的Cas9蛋白中的任一种都会大大减少OTsg突变(图22b和c)。同时，neSpCas9的使用并未影响靶上编辑效率，而另两种版本的使用降低了靶上编辑效率(图22d和e)。在这种情况下，我们将nSpCas9替换为neSpCas9以构建iBE2。

作为一种早期开发的BE，BE3的编辑效率在一定条件下受到限制，后来又开发了其他编辑效率更高的BE，如：AncBE4max或hA3A-BE3。在各种情况下，hA3A-BE3是一种高度活跃的BE，因此我们将iBE2的编辑效率和特异性与hA3A-BE3进行了比较(图23a)。虽然iBE2的平均靶上编辑频率约为hA3A-BE3的50％(图23a和c)，但iBE2在OTss和OTsg位点诱导的C-to-T突变接近基线水平，而hA3A-BE3在这些靶位点诱导了大量的突变(图23a和b)。总之，iBE2的平均编辑特异性比hA3A-BE3高～40倍(图23d)。

在本实施例中，我们首先开发了一种有效的方法(CESSCO)来定量评估sgRNA非依赖性的OTss突变，并确认具有规则APOBEC-nCas9骨架的BEs确实以sgRNA非依赖性的方式诱导了OTss突变(图21a、21b、23a和23b)。与我们的发现一致，近期的全基因组测序研究也显示，BE3在小鼠和水稻植株中诱导了大量的脱靶突变，推测也是以sgRNA非依赖性的方式。重要的是，我们利用CDIs的发现开发了IBE，由于CDI的共价连接，iBEs在OTss位点保持休眠状态，但在靶位点可被sgRNA介导的CDI切割激活(图21a和d)。iBEs在sgRNA非依赖性的ssDNA区域诱导了显著低水平的非预期突变，同时有效地进行了靶上编辑(图21b、c、e和f)。

通过用特异性改进的enSpCas9替代nSpCas9，开发了高特异性iBE2，以进一步减少OTsg位点的非预期编辑(图22和23e)。iBE系统与具有不同Cas部分的BEs和性能得到改进的工程版的BEs兼容，且不改变已构建BEs的特性，如：编辑窗口。此外，由于APOBEC家族成员众多，未来可能还会鉴定出其他CDIs，这将进一步丰富CDI-偶联iBE系统的研究内容。由于编辑精准度和效率对碱基编辑器都至关重要，尤其是在它们的治疗应用中，因此，我们开发的iBE系统将为现有碱基编辑系统的特异性带来一个新的监控机制，并确保其应用免受脱靶突变的影响。

实施例3：诱导和分裂碱基编辑器的不同构型的测试

本实施例测试了用于实施诱导和裂解的碱基编辑器(isplitBE)系统的分子的许多不同构型。

与图24B所示的常规BEs相比，图24A显示了isplitBE的工作流程。在图示的isplitBE系统中，nCas9-D10A结构封装在AAV载体中。典型的AAV载体的容量为4.7kb，nCas9构建体的长度约为4.7kb。另一种AVV载体可以包装用于编码的核酸(全长约4.4kb)：(a)融合蛋白，其包括MCP、UGI、APOBEC、TEV识别位点(TEV位点)和mA3CDA2；(b)具有TEVc和N22p的融合蛋白；(c)一种独立的TEVn，(d)一种带有MS2标签的辅助sgRNA(hsgRNA)以及(e)另一种带有boxB标签的sgRNA。

在靶位点(ON，左下分支)，hsgRNA和sgRNA均与靶DNA上的两个相邻位点结合，含MCP和N22p的融合蛋白分别与hsgRNA和sgRNA的MS2标签和boxB标签结合。由于TEVc(存在游离TEVn)和TEV位点的接近性，TEVc/TEVn会裂解TEV位点，将mA3CDA2从APOBEC中去除。没有附带的mA3CDA2，APOBEC可以高效地进行所需的编辑。

在脱靶位点，可能是非特异性结合位点(OTss，下中分支)或仅结合一种引导RNA的位点，TEVc/TEVn复合物不被含TEV位点的融合蛋白募集，因此，APOBEC不能被激活。与之相反，在常规BE系统中(图24B)，APOBEC已经是活性的，并且每当它被募集到单链核苷酸序列时就可以引起C-to-T编辑。

制备并测试了10种不同的构型(对1-10)，如图25所示。例如，如图26A所示，配对1包括两个构建体，第一个包含与nCas9-D10A(spD10A)融合的rA1，以及UGI和NLS；第二个包含靶向EMX1的sgRNA。第2对与第1对相似，但rA1被hA3A替换。第3对也类似，使用突变hA3A代替(Y130F)。

在第4对中，rA1蛋白和nCas9蛋白被置于不同的构建体上。rA1进一步与可识别辅助sgRNA上的MS2标签的MCP蛋白融合。在第5对中，mA3CDA2通过TEV识别位点(黑色实心框)进一步与rA1融合。在第6对中，TEV蛋白通过自切割位点2A进一步与rA1-mA3CDA2融合体融合。2A的自切割将TEV从融合蛋白中释放。

第7对与第6对的不同之处在于将TEV融合到N22p蛋白上，该蛋白将识别sgRNA上的boxB标签。在第8对中，TEV蛋白被分成TEVn和TEVc，由2A自切割位点分开。在第9对中，只有TEVc与N22p融合，而TEVn不含任何RNA标签结合蛋白。在第10对中，辅助sgRNA靶向GFP，而不是附近的位点。

图26A中设计的构建体用于靶位点EMX1-ON的C-to-T编辑，还检测了Sa-SITE31-OTss和EMX1-OTsg位点的脱靶编辑。测试结果如图26B所示。ispritbe-rA1(第9对)在靶位点诱导了大量编辑，但在OTss或OTsg位点未诱导编辑。

同样，在FANCF-ON、Sa-VEGF-7-OTss和FANCF-OTsg位点测试了所有这些构型(见图27A中的示意图)。图27B显示了在FANCF-ON、Sa-VEGFA-7-OTss和FANCF-OTsg位点不同碱基编辑器的编辑效率比较。同样，isplitBE-rA1(第9对)在靶位点诱导了大量编辑，但在OTss或OTsg位点未诱导编辑。

对V1B-ON、Sa-SITE42-OTss和V1B-OTsg位点进行了进一步检测(见图28A中的示意图)。再次，如图28B所示，isplitBE-rA1(第9对)在靶位点诱导了大量编辑，但在OTss或OTsg位点没有编辑。

实施例4：isplitBE系统中参数的调整

在10个测试构型中，第9对在编辑特异性方面表现最佳。第9对使用两个sgRNA，一个辅助sgRNA(hsgRNA)和一个常规sgRNA。sgRNA的双重用途进一步增强了特异性，因为它要求两个靶位点彼此接近。

在本实施例的第一次测定中，评估了两个靶位点之间的最佳距离。图29A所示示意图显示了DNTET1、EMX1和FANCF位点的hsgRNA和sgRNA之间的距离。图29B显示了，由指定的sgRNAs和hsgRNAs诱导的碱基编辑频率。图29C的总结显示了，hsgRNA和sgRNA之间的距离的影响。根据总结，最佳碱基编辑效率的最佳距离范围是从hsgRNA的PAM到sgRNA的PAM之间为-91到-34bp。

第二种方法测试了hsgRNA间隔子长度对碱基编辑效率和精确度的影响。图30A所示的示意图，说明了在DNEMX1、FANCF和V1A位点，sgRNA和具有不同间隔子长度的hsgRNAs的共转染。图30B显示了，由指定的sgRNA和hsgRNAs在hsgRNA和sgRNA的靶位点诱导的碱基编辑频率。图30C中的统计分析显示了，hsgRNA间隔子长度的影响。如图所示，使用带有10-nt间隔子的hsgRNA大大降低了hsgRNA靶位点的编辑效率，但保持了sgRNA靶位点的编辑效率。因此，辅助sgRNA序列中9-15nt的间隔子可以是确保sgRNA靶位点有效编辑的一个很好的范围，同时可最大限度地减少hsgRNA靶位点的编辑。

实施例5：全基因组和全转录组评估

将isplitBE系统的总体效率与常规BE3进行了比较。结果示于图31(在不同的靶位点由指定的碱基编辑器诱导的编辑频率)。即使当isplitBE的特异性大大提高时，也没有明显的效率损失。

正常细胞由于其内源性APOBEC3活性而具有基线水平的C-to-T突变。为了更准确地测量脱靶C-to-T突变，使用了APOBEC3敲除293FT细胞系(293FT-A3KO)。图32A显示，野生型293FT细胞和APOBEC3敲除293FT细胞中的mRNA表达水平。图32B为确定碱基编辑器诱导的全基因组C-to-T突变的程序示意图，检测结果见图32C(靶位编辑效率(左)和Cas9、BE3、hA3A-BE3-Y130F(Y130F)和isplitBE-rA1诱导的全基因组C-to-T突变数)。BE3和Y130F都有相当高的脱靶编辑率，但isplitBE-rA1的脱靶编辑率接近基线值(仅Cas9)。

接着，本实施例比较了由isplitBE-mA3、BE3和hA3A-BE3-Y130F(Y130F)诱导的转录组范围的C-to-U突变。由Cas9、BE3、hA3A-BE3-Y130F(Y130F)和isplitBE-mA3诱导的转录组范围C-to-T(U)突变数见图33A。图33B显示了由Cas9、BE3、hA3A-BE3-Y130F(Y130F)和isplitBE-mA3诱导的RNA C-to-U编辑频率。图33C显示了由BE3复制1和isplitBE-mA3复制1诱导的RNA C-to-U编辑的分布。同样，isplitBE诱导的C-to-U编辑比BE3低得多。

实施例6：PCSK9敲除

前蛋白转化酶枯草杆菌素/kexin9型(PCSK9)为一种由人类1号染色体上的PCSK9基因编码的酶。它为激活其他蛋白质的前蛋白转化酶家族的第9个成员。PCSK9在首次合成时是无活性的，因为一段肽链阻断了它们的活性；前蛋白转化酶去除该部分以激活酶。PCSK9基因包含与冠状动脉疾病风险增加相关的27个位点之一。

PCSK9在许多组织和细胞类型中普遍表达。PCSK9与低密度脂蛋白颗粒(LDL)受体结合，LDL通常在细胞外液中每颗粒转运3000至6000个脂肪分子(包括胆固醇)。在肝脏和其他细胞膜上的LDL受体(LDLR)结合并启动LDL颗粒从细胞外液到细胞的摄入，从而降低LDL颗粒浓度。如果PCSK9被阻断，会有更多的LDLRs被回收并出现于细胞表面，以去除细胞外液中的LDL颗粒。因此，阻断PCSK9可降低血液中低密度脂蛋白颗粒的浓度。

本实施例测试了使用本技术通过碱基编辑引入终止密码子来灭活PCSK9的方法。表3所示为所用sgRNA/hsgRNA的序列。表4所示为PCSK9上的靶位点。

测定了人PCSK9基因通过碱基编辑产生的终止密码子数目。图34A为说明sgRNA和hsgRNAs与isplitBE-mA3和nCas9共转染的示意图。图34B-D显示了由isplitBE-mA3在指定位点诱导的编辑效率。这些结果证明了该方法的高效性和特异性。

表3：PCSK9基因中常规的sgRNA和hsgRNA支架及靶位点

/>

表4：PCSK9基因的靶位点

名字	顺序	SEQ ID NO：
			hsgCAG2	GAGGTTGCCTGGCACCTACGTGG	166
hsgCAG3	GAGACCCACCTCTCGCAGTCAGA	167
			hsgCAG4	GCCCCATGTCGACTACATCGAGG	168
hsgCAG7	ATGGTCACCGACTTCGAGAATGT	169
			hsgCAG8	ACCTTGGCTTTGTTCCTCCCAGG	170
hsgCAG9	GGCTTTGTTCCTCCCAGGCCTGG	171
			hsgCAG10	GTGGTGCTGCTGCCCCTGGCGGG	172
hsgCAG11	TGCTGCTGCCCCTGGCGGGTGGG	173
			hsgCAG12	ACCCACCTCCTCACCTTTCCAGG	174
hsgCAG14	AGCGACTGCAGCACCTGCTTTGT	175
			hsgCAG15	AACGCTTTTGGGGGTGAGGGTGT	176
hsgCAG16	CCACACAGCTCCACCAGCTGAGG	177
			hsgCAG17	CACTGGGAGGTGGAGGACCTTGG	178
hsgCAG18	CCCACAAGCCGCCTGTGCTGAGG	179
			hsgCAG19	AGGTCTGGAATGCAAAGTCAAGG	180
sgCAG2	CTCTCGCAGTCAGAGCGCACTGC	181
			sgCAG3	CAGGCCCAGGCTGCCCGCCGGGG	182
sgCAG4	TCTTTGCCCAGAGCATCCCGTGG	183
			sgCAG7	CACAGACAGGTAAGCACGGCCGT	184
sgCAG8	AAGCCAGCTGGTCCAGCCTGTGG	185
			sgCAG9	GGTCCAGCCTGTGGGGCCACTGG	186
sgCAG10	CGCCTGCCAGCGCCTGGCGAGGG	187
			sgCAG11	TGCCAGCGCCTGGCGAGGGCTGG	188
sgCAG12	AAGACCAGCCGGTGACCCTGGGG	189
			sgCAG14	ATCACAGGCTGCTGCCCACGTGG	190
sgCAG15	CTACCCCAGGCCAACTGCAGCGT	191
			sgCAG16	CAACAGGGCCACGTCCTCACAGG	192
sgCAG17	AGGTCAGCCCAACCAGTGCGTGG	193
			sgCAG18	CCAACCAGTGCGTGGGCCACAGG	194
sgCAG19	CCCCTCAGGAGCAGGTGAAGAGG	195

实施例7：腺嘌呤碱基编辑器中isplitBE设计的适用性

本实施例确认了诱导和裂解碱基编辑器(isplitBE)的设计在其他类型的碱基编辑器中的适用性。所用抑制剂为mA3CDA2，编辑器为腺嘌呤碱基编辑器(ABE)。

说明与mA3CDA2(或不作为对照)融合的sgRNA和ABE共转染的示意图如图35A所示。在RNF2和FANCF位点指定的ABEs诱导的编辑效率如图35B所示。mA3CDA2与ABE连接后，编辑效率比单独使用ABE时有所下降。当mA3CDA2被2A裂解后，ABE的编辑效率恢复，验证了ABE的isplitBE方法。

实施例8：增强的主要编辑

传统的碱基编辑器仅限于碱基转换，而非碱基颠换、插入或缺失。最近，提出了一种引物编辑系统，该系统通过将Cas9切割酶与逆转录酶(RTase)偶联来使用引物编辑器(PE)。PE系统可以写入几乎任何预期变化的基因组，包括所有类型的碱基替换、小indels及其组合。然而，PE系统的整体效率和特异性仍然有限。

在第一项分析中，本实施例测试了引物编辑引导RNA(pegRNA)的新设计。常规上，每个引导RNA包括一个支架。常用的支架序列为：GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQ ID NO:29)。另一个例子为：GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCAUGUCCGUUAUCAACUUGAAAAAGUGGCACCGAUUCGGUGC(SEQIDNO:30)。一个更通用的共有序列为：GUUUNAGAGCUAX ₁UAGCAAGUUNAAAUAAGGCNNGUCCGUUAUCAACUUX₂AAGUGGCACCGANUCGGUGC(SEQ ID NO:31)，其中N表示任何碱基，X1和X2表示长度为2-50个碱基的任何核苷酸序列。

由于其内部互补序列，预计该支架将形成二级结构(如图36A所示，SEQ ID NO:30)。碱基编辑器中使用的典型sgRNA的长度约为96nt，其中包括一个长度约为20nt并与靶位点结合的间隔子。在pegRNA中，逆转录模板和引物结合位点被进一步添加到支架的3’端。令人惊讶的是，本文发现原始支架在pegRNA环境中不够稳定。

因此制备了新的支架，其在位置48(如：SEQ ID NO:30中的A)和61(如：SEQ ID NO:30中的G)之间形成新的配对。在图36A和36E所示的实施例中，新的支架具有G和C或C和G代替(SEQ ID NO:36和37)。下表5中显示了该突变支架和其他示例突变支架。

表5：引导RNA支架序列

/>

对于PE2，如图36B和36F所示制备了用于检测常规pegRNA的构建体和新设计的增强型pegRNA(epegRNA)，检测结果如图36C-36D和36G所示。pegRNA和epegRNA诱导的主要编辑效率的比较。epegRNA的茎稳定性大大提高，总体上显示出比pegRNA高得多的编辑效率。

同样，根据图37A中的示意图，进行了pegRNA、切割sgRNA与PE2-NG(SEQ ID NO：132)或xPE2(SEQ ID NO：133)的共转染，以测试TGATG缺失的编辑效率。结果见图37B。PE2-NG拥有可识别松弛的NG PAMs的工程版Cas9(参见，如：Nishimasu等人，Science 361，1259-62(2018))。xPE2具有工程版的Cas9，可识别松弛的NG、GAA和GAT PAMs(参见如：Hu等人，Nature 556，57-63(2018))。PE2-NG(SEQ ID ID NO:44)、xPE2(SEQ ID NO：45)、SpCas9-NG(SEQ ID NO:46)和xSpCas9(SEQ ID NO:47)的序列见下表6。

表6：Cas和PE序列

/>

一个完整的主要编辑器需要一个比AAV载体能容纳更大的构造(大约11kb)。因此，设计并测试了Split PE系统。图38A的左侧显示了原始的PE系统，右侧显示了新设计的Split PE系统，其中切割酶和RTase被包装到不同的AAV颗粒中。RTase与RNA结合蛋白MCP融合，而pegRNA包含结合位点MS2。当被摄取到细胞中时，RTase可被pegRNA通过MS2-MCP结合而募集，并与切割酶接触。

图38B中说明了共转染系统的实例，图38C显示了EMX1位点的测试结果。

***

现有公开内容的范围不受所描述的特定实施例的限制，所述特定实施例旨在作为本公开内容的各个方面的单个说明，并且功能等同的任何组合物或方法都在本公开内容的范围内。对于本领域技术人员显而易见的是，在不脱离现有公开的精神或范围的情况下，可以对现有公开的方法和组合物进行各种修改和变化。因此，现有公开旨在覆盖本公开的修改和变化，只要它们落入所附权利要求及其等同物的范围内。

本说明书中提及的所有出版物和专利申请都以引用的方式并入本文，其程度如同每一个单独的出版物或专利申请都被具体地和单独地指明以引用的方式并入本文一样。

Claims

1.一对用于编辑人PCSK9核酸序列的辅助引导RNA/引导RNA，其中所述引导RNA特异性地靶向PCSK9核酸上的第一位点，以使碱基编辑能够将非终止密码子转化为终止密码子，并且其中所述辅助引导RNA特异性地靶向离第一位点20至100个碱基的PCSK9核酸上的第二位点。

2.根据权利要求1所述的一对辅助引导RNA/引导RNA，其中所述非终止密码子是CAG、CAA或CGA。

3.根据权利要求1所述的一对辅助引导RNA/引导RNA，其中所述辅助引导RNA特异性结合长度为7-23个核苷酸的序列。

4.根据权利要求1所述的一对辅助引导RNA/引导RNA，其中所述辅助引导RNA特异性结合长度为8-15个核苷酸的序列。

5.根据权利要求3所述的一对辅助引导RNA/引导RNA，其中所述辅助引导RNA特异性结合所述第二位点内的序列，并且所述引导RNA特异性结合所述第一位点内的序列。

6.根据权利要求5所述的一对辅助引导RNA/引导RNA，其中所述第二位点包括如SEQ IDNO:166-180中任一所示的序列。

7.根据权利要求5所述的一对辅助引导RNA/引导RNA，其中所述第二位点和所述第一位点分别包含以下序列：

SEQ ID NO:166和181；

SEQ ID NO:167和182；

SEQ ID NO:168和183；

SEQ ID NO:169和184；

SEQ ID NO:170和185；

SEQ ID NO:171和186；

SEQ ID NO:172和187；

SEQ ID NO:173和188；

SEQ ID NO:174和189；

SEQ ID NO:175和190；

SEQ ID NO:176和191；

SEQ ID NO:177和192；

SEQ ID NO:178和193；

SEQ ID NO:179和194；或者

SEQ ID NO:180和195。

8.编码权利要求1至7任一项中所述的辅助引导RNA和引导RNA的一个或多个多核苷酸序列。

9.一种使细胞中的PSCK9基因失活的体外方法，包括使所述细胞与权利要求1至7中任一项所述的一对辅助引导RNA和引导RNA、成簇的规则间隔的短回文重复序列(CRISPR)相关(Cas)蛋白和核碱基脱氨酶接触。

10.根据权利要求1至7中任一项所述的一对辅助引导RNA和引导RNA在制备用于使细胞中的PSCK9基因失活的用途。

11.根据权利要求8所述的一个或多个多核苷酸序列在制备用于使细胞中的PSCK9基因失活的用途。

12.根据权利要求11所述的用途，其中所述的一个或多个多核苷酸序列进一步编码成簇的规则间隔的短回文重复序列(CRISPR)相关(Cas)蛋白和核碱基脱氨酶。