CN115704015A

CN115704015A - 基于腺嘌呤和胞嘧啶双碱基编辑器的靶向诱变系统

Info

Publication number: CN115704015A
Application number: CN202110925521.8A
Authority: CN
Inventors: 何客彰; 丁胜; 秦丹莹; 马天骅
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2023-02-17

Abstract

本发明涉及基于腺嘌呤和胞嘧啶双碱基编辑器的靶向诱变系统，该诱变系统具有更强的诱变活性，且能够在A、T、C和G四种碱基上引入各种不同种类的突变，在定向进化蛋白和/或治疗遗传性疾病方面具有很好的应用前景。

Description

基于腺嘌呤和胞嘧啶双碱基编辑器的靶向诱变系统

技术领域

本发明涉及基于腺嘌呤和胞嘧啶双碱基编辑器的靶向诱变系统以及使用该诱变系统定向进化蛋白或治疗遗传性疾病的方法等。

背景技术

CRISPR–Cas9已经被用来在多种生物体内靶向突变、修饰、及调控(Cong,L.etal.Multiplex genome engineering using CRISPR/Cas systems.Science,339,819-823(2013)；Liu,P.,Chen,M.,Liu,Y.,Qi,L.S.&Ding,S.CRISPR-Based Chromatin Remodelingof the Endogenous Oct4 or Sox2 Locus Enables Reprogramming toPluripotency.Cell Stem Cell,22,252-261.e254(2018)；Ran,F.A.et al.Doublenicking by RNA-guided CRISPR Cas9 for enhanced genome editingspecificity.Cell,154,1380-1389(2013)；Jinek,M.et al.A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity.Science,337,816-821(2012))。尤其重要的是CRISPR–Cas9和脱氨酶联用可达到碱基编辑器的功能。现已有CBE和ABE两类碱基编辑器,可分别将sgRNA靶向区域一定范围内的C改为T或将A改为G(Komor,A.C.,Kim,Y.B.,Packer,M.S.,Zuris,J.A.&Liu,D.R.Programmable editing of a targetbase in genomic DNA without double-stranded DNA cleavage.Nature,533,420-424(2016)；Gaudelli,N.M.et al.Programmable base editing of A*T to G*C in genomicDNA without DNA cleavage.Nature 551,464-471(2017))。第一代胞嘧啶碱基编辑器由大鼠来源的胞嘧啶脱氨酶rAPOBEC1和无切割活性的dCas9融合而成，dCas9在sgRNA的指导下结合到DNA上并暴露出单链DNA，进而胞嘧啶脱氨酶将单链DNA上一定范围内的胞嘧啶脱氨成尿嘧啶，最后通过细胞内的DNA修复或复制系统将尿嘧啶转变成胸腺嘧啶，从而实现胞嘧啶到胸腺嘧啶的转换。由于细胞内的尿嘧啶DNA糖基化酶(uracil DNA glycosylase,UDG)会切除DNA中的尿嘧啶，因而第一代胞嘧啶碱基编辑器的效率较低。通过融合尿嘧啶DNA糖基化酶抑制肽(uracil DNA glycosylase inhibitor,UGI)来抑制细胞内的尿嘧啶DNA糖基化酶而形成了效率更高的第二代胞嘧啶碱基编辑器。进一步将dCas9换成具有单链切割活性的nCas9后，利用细胞内的修复特性开发出更为高效的第三代胞嘧啶碱基编辑器(Komor,A.C.,Kim,Y.B.,Packer,M.S.,Zuris,J.A.&Liu,D.R.Programmable editing of a targetbase in genomic DNA without double-stranded DNA cleavage.Nature,533,420-424(2016))。后续又有不同的实验室通过更换不同的胞嘧啶脱氨酶来获得了不同活性的胞嘧啶碱基编辑器(Ma,Y.et al.Targeted AID-mediated mutagenesis(TAM)enablesefficient genomic diversification in mammalian cells.Nat Methods 13,1029-1035(2016)；Nishida,K.et al.Targeted nucleotide editing using hybrid prokaryoticand vertebrate adaptive immune systems.Science 353,aaf8729-aaf8729(2016))。David R.Liu实验室以大肠杆菌来源的RNA腺嘌呤脱氨酶(Escherichia coli TadA，ecTadA)为基础蛋白进化出能使单链DNA中的腺嘌呤脱氨的单链DNA腺嘌呤脱氨酶TadA-TadA*。基于和胞嘧啶碱基编辑器相似的原理，用腺嘌呤脱氨酶替换胞嘧啶碱基编辑器中的胞嘧啶脱氨酶，得到了能使sgRNA靶向序列一定范围内的腺嘌呤转换成鸟嘌呤的腺嘌呤碱基编辑器(Gaudelli,N.M.et al.Programmable base editing of A*T to G*C ingenomic DNA without DNA cleavage.Nature 551,464-471(2017))。

将无切割活性的Cas9(dCas9)与胞嘧啶脱氨酶联用，在多个sgRNA的指导下可使靶向基因位点多样化，然而，多样化的位点仅限于C。另外，由于用到的组件是dCas9而不是常规碱基编辑器中的nCas9，因此没有发挥出完整碱基编辑器的效率，使得突变率较低。但如果仅简单的将dCas9换成nCas9时发现会引入大量的Indels(插入和删除)，而非碱基改变(Hess,G.T.et al.Directed evolution using dCas9-targeted somatic hypermutationin mammalian cells.Nat Methods，13,1036-1042(2016)；Ma,Y.et al.Targeted AID-mediated mutagenesis(TAM)enables efficient genomic diversification inmammalian cells.Nat Methods，13,1029-1035(2016))。将两类碱基编辑器的各个组件重新组合，产生了能同时在靶向位点内实现A>G和C>T的双碱基编辑器，但其A>G的功能受损(Li,C.et al.Targeted,random mutagenesis of plant genes with dual cytosine andadenine base editors.Nat Biotechnol，(2020))。

本发明旨在解决现有技术中存在的上述问题。

发明简述

本发明提供具有高诱变活性且能引发靶向范围内任意碱基之间发生转变的基于腺嘌呤和胞嘧啶双碱基编辑器的靶向诱变系统。

本发明一个方面涉及一种双碱基编辑器，其包含：Cas9核酸酶或其编码核酸序列、腺嘌呤脱氨酶或其编码核酸序列、和胞嘧啶脱氨酶或其编码核酸序列。

根据前述本发明的双碱基编辑器，其进一步包含核定位信号(NLS)序列或其编码核酸序列，和/或包含或不包含UGI组件或其编码核酸序列。

根据前述本发明的双碱基编辑器，其进一步包含引导多核苷酸或其编码核酸序列。

根据前述本发明的双碱基编辑器，其中所述Cas9核酸酶、腺嘌呤脱氨酶、胞嘧啶脱氨酶、UGI组件(如果存在的话)、核定位信号(NLS)和引导多核苷酸的编码核酸序列中的二者或多者通过连接序列或其编码核酸序列连接。

根据前述本发明的双碱基编辑器，其中该双碱基编辑器中各组成部分即Cas9核酸酶、腺嘌呤脱氨酶、胞嘧啶脱氨酶、UGI组件(如果存在的话)、核定位信号(NLS)和引导多核苷酸的编码核酸序列中的一个或多个分别位于一个或多个载体中。

根据前述本发明的双碱基编辑器，其中该双碱基编辑器中Cas9核酸酶、腺嘌呤脱氨酶、胞嘧啶脱氨酶、UGI组件(如果存在的话)、核定位信号(NLS)位于一个载体中，引导多核苷酸的编码核酸序列位于另一个载体中。

根据前述本发明的双碱基编辑器，其中所述引导多核苷酸为一个或多个，例如，至少2个、至少5个、至少10个、至少20个、至少30个、至少50个，该多个引导多核苷酸可串接排列，优选通过重复序列分开。

根据前述本发明的双碱基编辑器，其中所述多个引导多核苷酸置于单个启动子例如置于RNA聚合酶II启动子的控制之下。

根据前述本发明的双碱基编辑器，其中所述引导多核苷酸靶向双链目标DNA的两条链或其中一条链。

根据前述本发明的的双碱基编辑器，其中所述双碱基编辑器包含dCas9或其编码核酸序列，且其中所述引导多核苷酸或其编码核酸序列靶向双链目标DNA的两条链。

根据前述本发明的双碱基编辑器，其中所述Cas9核酸酶为无活性的Cas9核酸酶即dCas9，或者为Cas9切口酶即nCas9。

根据前述本发明的双碱基编辑器，其中所述腺嘌呤脱氨酶的编码核酸序列为SEQID NO:1中第1263-2354位的TadA-TadA*序列或与其具有至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致性的序列，所述Cas9核酸酶的编码核酸序列为SEQ ID NO:1中第2451-6551位的nCas9序列或与其具有至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致性的序列，所述胞嘧啶脱氨酶的编码核酸序列为SEQ ID NO:1中第6711-7337位的PmCDA1序列或与其具有至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致性的序列，所述UGI组件的编码核酸序列为SEQ IDNO:1中第7368-7895位的序列或与其具有至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致性的序列。

根据前述本发明的双碱基编辑器，其核酸序列为SEQ ID NO:1，或者为SEQ ID NO:1编码的氨基酸序列。

根据前述本发明的双碱基编辑器，其中该双碱基编辑器通过将SEQ ID NO:1中对应于PmCDA1的序列替换为SEQ ID NO:10的AncAPOBEC1或与其具有至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致性的序列而得到。

根据前述本发明的双碱基编辑器，其中该双碱基编辑器通过前述双碱基编辑器中对应于AncAPOBEC1和TadA-TadA*的序列互换而得到。

根据前述本发明的双碱基编辑器，其中该双碱基编辑器通过将前述双碱基编辑器中对应于AncAPOBEC1和TadA-TadA*的序列分别组装成单碱基编辑器，并以不同可读框的形式组合到同一质粒内而得到。

根据前述本发明的双碱基编辑器，其中该双碱基编辑器通过用SEQ ID NO:9的dCas9或与其具有至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致性的序列替换本发明前述的双碱基编辑器中的nCas9的序列而得到。

本发明的另一个方面涉及一种载体，其包含前述根据本发明的双碱基编辑器中包含的引导多核苷酸的编码核酸序列和/或前述根据本发明的双碱基编辑器中包含的除引导多核苷酸的编码核酸序列之外的双碱基编辑器的其它组件的编码核酸序列。

本发明的又一个方面涉及一种工具细胞，该工具细胞中转染了前述根据本发明的双碱基编辑器或前述根据本发明的载体。

根据前述本发明的工具细胞，其为HEK293T细胞或mESC细胞，可选地，所述mESC细胞敲除了AP酶Apex1。

本发明的再一个方面涉及一种用于靶向诱变蛋白质的靶向诱变系统，该靶向诱变系统包含前述根据本发明的双碱基编辑器或前述根据本发明的载体，其中所述靶向诱变系统中包含的引导多核苷酸靶向待诱变蛋白质编码序列的目标区域。

本发明的还一个方面涉及一种靶向诱变蛋白质的方法，该方法包括前述根据本发明的的双碱基编辑器或前述根据本发明的载体，或前述根据本发明的工具细胞，或前述根据本发明的靶向诱变系统，其中所述双碱基编辑器、载体、工具细胞或靶向诱变系统中包含的引导多核苷酸靶向待诱变蛋白质编码序列的目标区域。

根据前述本发明的靶向诱变蛋白质的方法，其用于定向进化蛋白。

本发明的又一个方面涉及一种用于诱变或定向进化蛋白质的试剂盒，其包含：(1)前述根据本发明的双碱基编辑器或其编码核酸序列或前述根据本发明的载体，或前述根据本发明的工具细胞，或前述根据本发明的靶向诱变系统。

本发明的基于腺嘌呤和胞嘧啶双碱基编辑器的靶向诱变系统相对于已有诱变系统具有更强的诱变活性，且能够在A、T、C和G 4种碱基上引入突变，并能以不同的比例转换成其他任何一种碱基。由此，在定向进化蛋白比如诱变产生高亲和力抗体等方面具有很好的应用前景。

附图说明

图1.建立双碱基编辑器依赖的靶向诱变系统

a.重新组合两类碱基编辑器的各个组件来构建不同形式的双碱基编辑器，以挑选出活性最佳的一种；

b.TMBEs多样化靶向区域的原理，将sgRNA都设置在同一条DNA链上，假设nCas9在DNA一条链的多个位点产生切刻后，互补的单链DNA将会被暴露出来，其内的A和C可分别作为腺嘌呤脱氨酶和胞嘧啶脱氨酶的底物而分别被脱氨成I和U，接着通过DNA修复或复制机制来引入突变，且不会因为切割了双链DNA而造成双链断裂；

c.不同碱基编辑器在靶向范围内引发的碱基替换频率分布。

在每个位点上的替换频率等于这个位点上的突变数/覆盖数。黑色的小箭头代表sgRNA。每个点代表一个核苷酸。数据为3个独立重复实验的平均值±标准差。

图2.将多个sgRNA都设置在同一条DNA链上并利用nCas9切刻非编辑链能高效的实现靶向诱变并避免大量的双链断裂

a.b.在11个sgRNA(多sgRNA表达载体2，One)的指导下靶向EGFP的一条DNA链或21个sgRNA(多sgRNA表达载体4，Two)的指导下靶向EGFP的两条DNA链，TMBEs-1d和TMBEs-1引发的突变频率(a)和Indel率(b)。

数据为3个独立重复实验的平均值±标准差。****代表双尾t test检验时P<0.0001。

图3.建立sgRNA表达系统并检测其功能

a.将具有Csy4识别位点的sgRNA串联在Csy4的3’UTR处，转录翻译之后，Csy4将串联的sgRNA切割成单个的sgRNA。

b.腺嘌呤碱基编辑器(ABEmax)和胞嘧啶碱基编辑器(AncBE4max)均能适用多sgRNA表达系统，分别将靶向范围内的A编辑成G、C编辑成T。

图4.不同碱基编辑器在靶向范围内引发的碱基替换频率分布。

图5.双碱基编辑器在HEK293T细胞内多个不同位点实现A>G和C>G的改变

a.TMBEs-1在15个不同位点编辑效率的热谱图。每个小图中左边的字母代表相应的sgRNA序列,最后3个字母代表PAM序列。每个小图的第一列代表正靶时的编辑效率，第二列为脱靶时的编辑效率，第三列为未处理组。数据为3个独立重复实验的平均值。

b-e.TMBEs-1在15个靶向位点中对A和C的编辑效率(横坐标代表碱基所在的位置，PAM序列计为第21-23位)和突变的分布。数据为3个独立重复实验的平均值。

图6.扩展A和C上的突变种类

a.C被脱氨成U后可能的结果:U被读取成T；U被细胞内的尿嘧啶糖基化酶切割后形成无碱基位点(AP)进而被随机读取成A、T、C或G；U被细胞内的尿嘧啶糖基化酶切除后形成无碱基位点，AP再被细胞内的AP酶切除而引入Indels。

b,c.在4个sgRNA的指导下靶向同一条DNA链，TMBEs-1与TMBEs-1B在A和C上引发的突变分布及Indel率。

d.敲除内源性主要的AP酶Apex1能减少TMBEs-1B引发的Indel。

e.f.在11个sgRNA的指导下靶向EGFP的同一条DNA链，TMBEs-1B和TMBEs-1引发的突变频率、突变分布。数据为3个独立重复实验的平均值±标准差。**代表双尾t test检验时p<0.01，****代表P<0.0001。

图7.TMBEs-1B和TMBEs-1诱变细胞内源基因

a-c.在11个sgRNA的指导下靶向Mecp2同一条DNA链，TMBEs-1B和TMBEs-1引发的突变频率(a)、突变分布(b)及Indel率(c)。数据为3个独立重复实验的平均值±标准差。**代表双尾t test检验时p<0.01。

图8.检测TMBEs-1B和TMBEs-1诱变特性与诱变时间的关系

a,b.TMBEs-1B和TMBEs-1引发的突变率与时间的关系；

c,d.在3-15天的检测时间里TMBEs-1B和TMBEs-1引发突变的分布；

e.TMBEs-1B和TMBEs-1产生突变组合率(突变组合数/read数)与诱变时间的关系；f.TMBEs-1B和TMBEs-1产生Indel率与诱变时间的关系；

g.TMBEs-1B和TMBEs-1在均一突变率时突变组合数的比较。

数据为2个独立重复实验的平均值±标准差。*代表双尾t test检验时p<0.05。在e图中计算TMBEs-1B突变组合率时剔除了部分测序质量较差的样本。

图9.进一步扩展突变到A、T、C和G四种碱基上

a.用无切割活性的dCas9替换TMBEs-1B和TMBEs-1内的nCas9得到TMBEs-1Bd和TMBEs-1d。

b.在sgRNA靶向DNA两条链的情况下，TMBEs-1Bd和TMBEs-1d引发的突变率。

c,e.TMBEs-1Bd和TMBEs-1d引发的突变率与时间的关系；

d,f.在3-15天的检测时间里TMBEs-1Bd和TMBEs-1d引发突变的分布。

g.TMBEs-1Bd和TMBEs-1诱变7天时引发的Indels。

图b和图g中的数据为3个独立重复实验的平均值±标准差。其他数据为2个独立重复实验的平均值±标准差。

图10.诱变HEK293T细胞内的DNA拓扑异构酶1，获得抗Topotecan的突变体

图11.定向进化EGFP，获得荧光强度增强的EGFP(SA)

a.将等量且过量的包含EGFP和EGFP(SA)的质粒转染入HEK293T细胞24小时后通过流式细胞仪分析绿色荧光的强度。EGFP和EGFP(SA)荧光强度的峰值分别为5K和14K，即EGFP(SA)的绿色荧光强于EGFP的荧光。

b.在BL21大肠杆菌中诱导表达EGFP和EGFP(SA),相等量菌液的绿色荧光(激发光488nm，发射光510nm)。

c.EGFP和EGFP(SA)的激发光谱

d.EGFP和EGFP(SA)的发射光谱

e.在BL21大肠杆菌中诱导表达EGFP和EGFP(SA),相等量的菌液在峰值为470nm蓝光下的直观图。

发明详述

定义

除非另有说明，否则本文中使用的术语具有与发明所属领域的普通技术人员所一般了解的相同定义。文中使用的术语仅是为了描述特定实施方案，而非意图限制本发明的范围。

如在本文中使用，术语“核酸”及“核酸分子”是指化合物，其包含碱基及酸性部分，例如核苷、核苷酸、或核苷酸的聚合物。如在本文中所用，术语“寡核苷酸”、“多核苷酸”可互换使用来指称核苷酸的聚合物(例如，至少三个核苷酸)。在一些实施方案中，“核酸”涵盖RNA以及单链DNA及/或双链DNA。在一些实施方案中，RNA为与Cas9系统相关的RNA。例如，RNA可以是CRISPR RNA(crRNA)、反式小分子RNA(tracrRNA)、单引导RNA(sgRNA)、或引导RNA(gRNA)。

术语“融合蛋白”是指包含来自至少两个不同蛋白质的蛋白质结构域的杂交多肽。一个蛋白质可位于融合蛋白的氨基端(N端)或在羧基端(C端)，因而分别生成氨基端融合蛋白或羧基端融合蛋白。蛋白质可包含不同结构域，例如，核酸结合结构域(例如，引导蛋白质结合到目标位点的Cas9的gRNA结合结构域)及核酸裂解结构域，或核酸编辑蛋白的催化结构域。在一些实施方案中，蛋白质包含含蛋白质部分，例如，组成核酸结合结构域的氨基酸序列，及有机化合物，例如能作为核酸分裂剂的化合物。在一些实施方案中，蛋白质与核酸例如RNA或DNA复合或相关。本文中提供的任何蛋白质可通过业界已知的任何方法制造。例如，本文中提供的蛋白质可通过重组蛋白质表达与纯化制造，其是特别适用于包含肽连接序列的融合蛋白。重组蛋白质表达与纯化方法为众所周知，包括由Green and Sambrook,分子克隆化：实验室手册(4th ed.,Cold Spring Harbor Laboratory Press,Cold SpringHarbor,N.Y.(2012))描述者，全文以引用方式纳入本说明书的揭示。

术语“重组”是指不出现在自然界，但属人类工程处理产物的蛋白质或核酸。例如，在一些实施方案中，重组蛋白质或核酸分子包含，比较任何天然序列，含有至少一个、至少两个、至少三个、至少四个、至少五个、至少六个、或至少七个突变的氨基酸或核苷酸序列。

术语“编码序列”或“蛋白质编码序列”在本文中互换使用，指针对蛋白质编码的多核苷酸区段。

术语“片段”表示多肽或核酸分子的一部分。此部分含有较佳地参考核酸分子或多肽全长的至少10％、20％、30％、40％、50％、60％、70％、80％、或90％。一个片段可含有10、20、30、40、50、60、70、80、90、或100、200、300、400、500、600、700、800、900、或1000个核苷酸或氨基酸。

如在本文中使用，术语“突变”是指序列，例如核酸序列或氨基酸序列内部的一个残基被另一个残基取代，或序列内部的一个或多个残基的缺失或插入。典型地，本文中突变是通过表征原残基，接着为该序列内部的残基位置，及通过新取代残基的表征加以描述。做出本文提供的氨基酸取代(突变)的各种方法是众所周知的，例如Green and Sambrook,分子克隆化：实验室手册(Molecular Cloning:A Laboratory Manual)(4th ed.,ColdSpring Harbor Laboratory Press,Cold Spring Harbor,N.Y.(2012))所记载的。在一些实施方案中，本文碱基编辑器能在核酸(例如，个体的基因组内部的核酸)有效地生成“计划中的突变”，诸如点突变，而不会生成显著数目的非计划中的突变，诸如非计划中的点突变。在一些实施方案中，计划中的突变为由结合至引导多核苷酸(例如，gRNA)(其是特别设计以生成计划中的突变)的特定碱基编辑器(例如，胞嘧啶碱基编辑器或腺嘌呤碱基编辑器)生成的突变。通常，序列中的突变相对于参考(或野生型)序列(亦即，不含突变的序列)加以编号。本领域技术人员容易了解如何相对于参考序列，确定氨基酸序列及核酸序列中的突变位置。

术语“保守性氨基酸取代”或“保守性突变”是指一个氨基酸由具有相同性质的另一氨基酸置换。界定个别氨基酸间的相同性质的功能性方式是分析同源有机体的相应蛋白质间的氨基酸变化的标准化频率(Schulz,G.E.and Schirmer,R.H.,蛋白质结构原理(Principles of Protein Structur)e,Springer Verlag,New York(1979))。根据此等分析，可界定氨基酸组，对其中一组内的氨基酸进行置换，因此对总体蛋白质结构的影响彼此最相似(Schulz,G.E.and Schirmer,R.H.,supra)。保守性突变的非限制性实例包括氨基酸取代，例如，赖氨酸取代精氨酸，及反之亦然，以致于能维持正电荷；谷氨酸取代天冬氨酸，及反之亦然，以致于能维持负电荷；丝氨酸取代苏氨酸，使得能维持自由态OH；及谷氨酰胺取代天冬酰胺，使得能维持自由态NH₂。

术语“目标位点”是指通过碱基编辑器修饰的核酸分子内部的一序列。在一个实施方案中，目标位点是通过脱氨酶或包含脱氨酶(例如，胞嘧啶脱氨酶或腺嘌呤脱氨酶)的融合蛋白脱氨。

术语“碱基”或“含氮碱基”在本文文中互换使用，指示含氮生物化合物，其生成核苷，其又转而为核苷酸的组成部分。核苷的例子包括腺嘌呤、鸟嘌呤、尿嘧啶、胞嘧啶、5-甲基尿嘧啶(m5U)、去氧腺嘌呤、去氧鸟嘌呤、胸腺嘌呤、去氧尿嘧啶、及去氧胞嘧啶。具有修饰碱基的核苷的实例包括肌苷(I)、黄苷(X)、7-甲基鸟嘌呤(m7G)、二氢尿嘧啶(D)、5-甲基胞嘧啶(m5C)。

如在本文中使用，术语“脱氨酶”或“脱氨酶结构域”是指催化脱氨反应的蛋白质或酶。在一些实施方案中，脱氨酶或脱氨酶结构域为胞嘧啶脱氨酶，其分别催化胞嘧啶或去氧胞嘧啶的水解脱氨成尿嘧啶或去氧尿嘧啶。在一个实施方案中，胞嘧啶脱氨酶将5-甲基胞嘧啶转换成胸腺嘧啶。衍生自八目鳗(Petromyzon marinus)的八目鳗胞嘧啶脱氨酶1即PmCDA1、衍生自哺乳类动物的AID(活化诱导胞嘧啶脱氨酶，AICDA)、以及APOBEC是胞嘧啶脱氨酶的实例。在一些实施方案中，脱氨酶为腺嘌呤脱氨酶，其催化腺嘌呤的水解脱氨成次黄嘌呤。在一些实施方案中，脱氨酶或脱氨酶结构域非天然存在于自然界。例如，在一些实施方案中，脱氨酶或脱氨酶结构域与天然存在的脱氨酶至少50％，至少55％，至少60％，至少65％，至少70％，至少75％，至少80％，至少85％，至少90％，至少91％，至少92％，至少93％，至少94％，至少95％，至少96％，至少97％，至少98％，至少99％，至少99.1％，至少99.2％，至少99.3％，至少99.4％，至少99.5％，至少99.6％，至少99.7％，至少99.8％，或至少99.9％相同。

本文中术语“Cas9蛋白”或“Cas9核酸酶”或“Cas9”可互换使用，指一种由RNA所引导的核酸酶，其通过RNA:DNA杂交来靶向DNA位点，故原则上，该核酸酶能被靶向到由引导RNA所确定的任何序列。当与目标结合时切断目标DNA的互补链。Cas9介导的DNA断裂的最终结果为目标DNA(PAM序列上游约3-4个核苷酸)内部的双链断裂(DSB)。然后，DSB通过两种通用修复路径之一修复：(1)有效但易错的非同源性末端接合(NHEJ)路径，或(2)不太有效但高度保真的同源重组修复(HDR)路径。已知Cas9的DNA裂解结构域包括两个亚结构域，HNH核酸酶亚结构域及RuvC1亚结构域。HNH亚结构域切断gRNA的互补链，而RuvC1亚结构域切断非互补链。此等亚结构域内部的突变可抑制Cas9的活性。因此，在一些实施方案中，Cas9或Cas9结构域可以具有活性、失活、或部分失活的DNA裂解结构域，和/或gRNA结合结构域。例如，nCas9(Cas9切口酶)是一种能够引起单链断裂和BER修复(一种不会引起突变的修复)的Cas9变体，其只能断裂双链核酸分子(例如，DNA)中两条链中的一条链而不再导致DNA双链断裂和NHEJ修复；无活性的Cas9蛋白可互换称作“dCas9”蛋白，其不具有断裂DNA链的活性。生成不具有或部分具有DNA裂解活性的Cas9蛋白(或其片段)的方法是已知的。

在一些实施方案中，Cas9或Cas9结构域包含氨基酸序列，其与如本文阐明的氨基酸序列中的任一者为至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％相同。在一些实施方案中，Cas9或Cas9结构域包含氨基酸序列，其与本文阐明的氨基酸序列中的任一者相比具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或以上或以上个突变。在一些实施方案中，Cas9或Cas9结构域包含氨基酸序列，其与本文阐明的氨基酸序列中的任一者相比具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100、或至少1200个相同的相邻氨基酸残基。

术语“引导多核苷酸”是指一种多核苷酸，其针对目标序列具专一性，且能与核酸酶(例如，Cas9)形成复合物。在一个实施方案中，引导多核苷酸为引导RNA。如本文中使用，术语“引导RNA(gRNA)”及其文法同义词可指称针对目标DNA具专一性，且能与Cas蛋白形成复合物的RNA。RNA/Cas复合物可协助引导Cas蛋白到目标DNA。Cas9/crRNA/tracrRNA以核酸内切方式切断与间隔序列互补的线性或环状目标dsDNA。与crRNA不互补的目标链首先通过核酸内切方式切割，然后通过核酸外切方式从3’到5’修饰。在一些实施方案中，引导多核苷酸为至少一个单引导RNA(“sgRNA”或“gRNA”)。在一些实施方案中，引导多核苷酸为至少一个tracrRNA。典型地，呈单一RNA存在的gRNA包含两个结构域：(1)与目标核酸共享同源性的结构域(引导Cas9复合物结合至目标)；及(2)结合Cas9蛋白的结构域。在一些实施方案中，结构域(2)对应到称作tracrRNA的序列，其包含茎环结构。在一些实施方案中，结构域(2)与tracrRNA相同或同源。在一些实施方案中，gRNA包含结构域(1)和结构域(2)中的二者或更多，可称作“扩展的gRNA”。例如，扩展的gRNA将在二个或多个区域结合二个或更多个Cas9蛋白和目标核酸。gRNA包含与目标位点互补的核苷酸序列，其介导核酸酶/RNA复合物结合到目标位点，提供核酸酶:RNA复合物的序列特异性。自然界中，DNA结合与切断典型地要求蛋白质及两种RNA。Cas9识别CRISPR重复序列中的短基序(PAM或间隔序列前体临近基序)以辅助区别自身相对于非自身。

引导RNA或引导多核苷酸可以是表达产物。例如，编码引导RNA的DNA可以是包含编码引导RNA序列的载体。引导RNA或引导多核苷酸可通过以分离的引导RNA或包含编码引导RNA的序列的质粒DNA和启动子转染细胞，而转移入该细胞内。引导RNA或引导多核苷酸也能以其它方式转移入细胞内，诸如利用病毒介导的基因递送。引导多核苷酸可以是化学合成、酶学合成、或其组合。

术语“碱基编辑器(Base Editor)”表示包含能对核酸序列(例如，DNA或RNA)内部的碱基(例如，A、T、C、G、或U)做修饰的多肽的试剂。在若干实施方案中，碱基编辑器为胞嘧啶碱基编辑器(CBE)。在若干实施方案中，碱基编辑器为腺嘌呤碱基编辑器(ABE)。在若干实施方案中，碱基编辑器包含融合到脱氨酶结构域(例如，腺嘌呤脱氨酶或胞嘧啶脱氨酶)的Cas9蛋白。在若干实施方案中，碱基编辑器包含融合到脱氨酶结构域的催化死亡Cas9(dCas9)。在若干实施方案中，碱基编辑器包含融合到脱氨酶结构域的Cas9切口酶(nCas9)。在若干实施方案中，碱基编辑器包含融合到脱氨酶结构域的碱基切除修复(BER)抑制剂。在若干实施方案中，碱基切除修复抑制剂为尿嘧啶DNA糖基化抑制剂(UGI)。

术语“碱基编辑器系统”是指编辑目标核苷酸序列的碱基的系统。在一些实施方案中，碱基编辑器系统包含(1)碱基编辑器(BE)，其包含Cas9核酸酶或其编码核酸序列及用于将碱基脱氨的脱氨酶结构域；及(2)引导多核苷酸(例如，引导RNA)连同Cas9核酸酶或其编码核酸序列。在一些实施方案中，碱基编辑器系统可包含多于一个碱基编辑组件。例如，碱基编辑器系统可包含多于一个脱氨酶。在一些实施方案中，核酸酶碱基编辑器系统可包括一个或多个胞嘧啶脱氨酶及/或一个或多个腺嘌呤脱氨酶。

术语“碱基编辑活性”表示化学变更多核苷酸内部的碱基的作用。在一个实施方案中，碱基编辑活性为胞嘧啶脱氨酶活性，例如将目标C-G转换成T-A。在另一个实施方案中，碱基编辑活性为腺嘌呤脱氨酶活性，例如将目标A-T转换成G-C。

在一些实施方案中，碱基编辑器系统可包含多个引导多核苷酸，例如gRNA。例如，gRNA可靶向到碱基编辑器系统中所包含的一个或多个目标基因座(例如，至少1个gRNA、至少2个gRNA、至少5个gRNA、至少10个gRNA、至少20个gRNA、至少30个g RNA、至少50个gRNA)。多个gRNA序列可串接排列，且较佳地通过重复序列分开。编码引导RNA或引导多核苷酸的DNA序列也可以是载体的一部分。载体可包含额外的表达控制序列(例如，增强子序列、多腺嘌呤化序列、转录终止序列等)、可选择标记序列(例如，GFP或抗生素抗性基因，诸如嘌呤霉素(puromycin))、复制起点等。编码引导RNA的DNA序列可以是线性的也可以是环状。在一些实施方案中，核酸酶Cas9或Cas9结构域与一个或多个gRNA一起使用。

在一些实施方案中，碱基编辑器系统的一个或多个组件可通过DNA序列编码。此等DNA序列可一起或分开地被导入表达系统例如细胞内。例如，各组件的编码序列可以分别位于不同的载体中，也可以位于同一个载体中。

术语“间隔序列前体临近基序(PAM)”或PAM基序是指，于CRISPR细菌性适应性免疫系统中，由Cas9核酸酶所靶向的DNA序列，紧接其后的2 6碱基对DNA序列。在一些实施方案中，PAM可以是5’PAM(亦即，位于前体间隔序列的5’端上游)。于其它实施方案中，PAM可以是3’PAM(亦即，位于前体间隔序列的5’端下游)。PAM序列乃目标结合所必需，但确切序列取决于Cas蛋白的类型。本文中提供的碱基编辑器可包含CRISPR蛋白质衍生域，其能结合含有典范或非典范间隔序列前体临近基序(PAM)序列的核苷酸序列。PAM位点为邻近目标多核苷酸序列的核苷酸序列。本文的若干态样提供碱基编辑器，其包含具有不同PAM特异性的CRISPR蛋白质的全部或部分。例如，典型地Cas9蛋白，诸如得自化脓性链球菌的Cas9(spCas9)，需要典范NGG PAM序列来结合特定核酸区，于其中NGG中的N为腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)、或胞嘧啶(C)，及G为鸟嘌呤。PAM可以是CRISPR蛋白质专一性，且在包含不同CRISPR蛋白质衍生域的不同碱基编辑器间可以不同。PAM可以是目标序列的5’或3’。PAM可以是目标序列的上游或下游。PAM可以是1、2、3、4、5、6、7、8、9、10或以上的核苷酸长度。经常PAM的长度在2至6个核苷酸间。

术语“核酸外切酶”是指能够从游离端消化核酸(例如，RNA或DNA)的蛋白质或多肽。术语“核酸内切酶”是指能够催化(例如，断裂)核酸(例如，DNA或RNA)从内部断裂的蛋白质或多肽。在一些实施方案中，核酸内切酶能切断双链核酸的单链。在一些实施方案中，核酸内切酶能切断双链核酸分子的两条链。

术语“核定位序列”、“核定位信号”、或“NLS”是指促进蛋白质输入细胞核的氨基酸序列。核定位序列是本领域已知的，例如描述于，Plank等人国际PCT申请案PCT/EP2000/011690，提申日期2000年11月23日，2001年5月31日公告为WO/2001/038547。包含核定位序列(NLS)的融合蛋白可使用编码包含一个或多个核定位序列(NLS)的CRISPR酶的载体。例如，可使用或可使用约1、2、3、4、5、6、7、8、9、10个NLS。CRISPR酶可于或接近氨基端包含NLS，于或接近羧基端包含约或多于约1、2、3、4、5、6、7、8、9、10NLS，或其任何组合(例如，一个或多个NLS在氨基端，及一个或多个NLS在羧基端)。当存在有多于一个NLS时，各自可互不相干独立选择，使得单一NLS可以多于一个拷贝存在，及/或组合一个或多个其它NLS以多于一个拷贝存在。该方法中使用的CRISPR酶可包含约6个NLS。当最靠近NLS的氨基酸是在沿多肽链距N端或C端约50氨基酸以内，例如，1、2、3、4、5、10、15、20、25、30、40、或50氨基酸以内时，该NLS被视为靠近N端或C端。

术语“碱基切除修复抑制剂”是指能抑制核酸修复酶(例如碱基切除修复酶)活性的蛋白质。碱基切除修复(BER)抑制剂的非限制性实施例包括APE1、Endo III、Endo IV、Endo V、Endo VIII、Fpg、hOGGl、hNEILl、T7 Endol、T4PDG、UDG、hSMUGl、及hAAG的抑制剂。在一些实施方案中，碱基切除修复抑制剂为尿嘧啶糖基化酶抑制剂(UGI)。UGI是指能抑制尿嘧啶DNA糖基化酶碱基切除修复酶的蛋白质。在一些实施方案中，UGI结构域包含野生型UGI或其片段。在一些实施方案中，碱基切除修复抑制剂为肌苷碱基切除修复抑制剂。

在一些实施方案中，碱基编辑器系统进一步包含碱基切除修复抑制剂组件。碱基编辑器系统的组件可通过共价键、非共价交互作用、或其关联与交互作用的任何组合而彼此相关。在一些实施方案中，碱基切除修复抑制剂能靶向到目标核苷酸序列。在一些实施方案中，核酸酶融合或链接到碱基切除修复抑制剂。在一些实施方案中，核酸酶融合或链接到脱氨酶结构域及碱基切除修复抑制剂。在一些实施方案中，碱基切除修复抑制剂能通过引导多核苷酸靶向到目标核苷酸序列。例如，在一些实施方案中，碱基切除修复抑制剂可包含额外异源部分或结构域(例如，多核苷酸结合结构域，诸如RNA或DNA结合蛋白)，其能与引导多核苷酸的一部分或一区段(例如，多核苷酸基序)交互作用、相关、或能与其生成复合物。在一些实施方案中，该引导多核苷酸的额外异源部分或结构域(例如，多核苷酸结合结构域，诸如RNA或DNA结合蛋白)能融合或链接到碱基切除修复抑制剂。在一些实施方案中，额外异源部分能结合至多肽连接序列。在一些实施方案中，额外异源部分能结合至连接序列。

如在本文中使用，术语“连接序列”可指共价连接序列(例如，共价键)、非共价连接序列、化学基团、或链接两个分子或部分的分子，例如蛋白质复合物或核糖核酸复合物的两个组分、或融合蛋白的两个结构域。连接序列能连接碱基编辑器系统的不同组件或组件的不同部分。例如，在一些实施方案中，连接序列能连接CRISPR多肽与脱氨酶。在一些实施方案中，连接序列能连接Cas9与脱氨酶。在一些实施方案中，连接序列能连接dCas9与脱氨酶。在一些实施方案中，连接序列能连接nCas9与脱氨酶。连接序列可位于两个基团、分子、或其它部分之间，或侧翼有两个基团、分子、或其它部分，且通过共价键或非共价交互作用彼此连结。在一些实施方案中，连接序列可以是多核苷酸。在一些实施方案中，连接序列可以是DNA连接序列。在一些实施方案中，多肽连接序列可以是碱基编辑器系统组件的一部分。例如，碱基编辑组件可包含脱氨酶结构域及RNA识别基序。

在一些实施方案中，连接序列可以是肽或蛋白质。在一些实施方案中，连接序列可以是长度约5100个氨基酸，例如，长度约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、20-30、30-40、40-50、50-60、60-70、70-80、80-90、或90-100个氨基酸。在一些实施方案中，连接序列可以是长度约100-150、150-200、200-250、250-300、300-350、350-400、400-450、或450-500个氨基酸。预期也涵盖更长的或更短的连接序列。在一些实施方案中，连接序列包含多个脯氨酸残基，长5-21、5-14、5-9、5-7个氨基酸，例如，PAPAP、PAPAPA、PAPAPAP、PAPAPAPA、P(AP)4、P(AP)7、P(AP)10。此等富含脯氨酸的连接序列又称“刚性”连接序列。在一些实施方案中，碱基编辑器的各结构域是通过连接序列融合的。

在一些实施方案中，可以使用报告系统来检测碱基编辑活性，和测试候选引导多核苷酸。在一些实施方案中，报告系统可包含基于报告基因的分析试验，其中碱基编辑活性导致报告基因的表达。报告基因的非限制性实施例包括基因，其编码绿色荧光蛋白(GFP)、红色荧光蛋白(RFP)、虫荧光素酶、分泌碱性磷酸酶(SEAP)的基因，或任何其它基因。报告系统可被使用来测试许多不同的gRNA，以便判定相对于目标DNA序列，脱氨酶将靶向哪(些)个残基。在一些实施方案中，引导多核苷酸可包含至少一个可检测标记。可检测标记可以是荧光基团(例如，FAM、TMR、Cy3、Cy5、德州红(Texas Red)、俄勒冈绿(Oregon Green)、AlexaFluors、Halo标签、或合适的荧光染料)、检测标签(例如，生物素、地高辛等)、量子粒、或金粒子。

根据本文揭示编码碱基编辑器的核酸，可通过业界已知的或如本文描述的方法，给予个体或于试管内递送入细胞内。在一个实施方案中，碱基编辑器被选择性地递送到肝、肺、或任何其它器官的细胞及其祖细胞。于特定实施方案中，已进行编辑的细胞能被使用来分析试验基因编辑对编码蛋白质功能的功能效应。在一个实施方案中，碱基编辑器可通过例如载体(例如，病毒性或非病毒载体)、基于非载体的方法(例如，使用裸DNA、DNA复合物、脂质奈米粒子)或其组合递送。编码碱基编辑器的核酸可呈裸DNA或裸RNA直接递送到肝、肺、或任何其它器官的细胞，例如利用转染或电泳递送；或可连接到促进由目标细胞吸收的分子(例如，N乙酰半乳糖氨)。也可使用核酸载体，诸如本文描述的载体。

本发明的碱基编辑器可用于疾病相关的基因及等位基因中的点突变的校正，从而应用于治疗学和基础研究。这种情况下，导致蛋白质突变失活的位点特异性突变残基、或抑制蛋白质功能的突变可被用于消除或抑制蛋白质功能。本发明提供患有点突变相关的或由其引发的疾病的个体的治疗方法，该点突变能通过本文中提供的碱基编辑器系统加以校正。例如，在一些实施方案中，提供一种方法，其包含对患有此种疾病，例如由基因突变所引发的疾病的个体给予有效量的碱基编辑器(例如，腺嘌呤脱氨酶碱基编辑器或胞嘧啶脱氨酶碱基编辑器)，其将失活突变导入疾病相关的基因中。在一些实施方案中，该病为增生性疾病。在一些实施方案中，该病为遗传性疾病。在一些实施方案中，该病为肿瘤疾病。在一些实施方案中，该病为代谢疾病。

本发明的碱基编辑器还可用于进化蛋白，通过向蛋白质引入突变，从而改变蛋白质的功能或改善蛋白质原有的功能。

术语“有效量”表示相较于未经治疗的病人，改善疾病症状需要的试剂或活性化合物(例如，如本文描述的碱基编辑器)的用量。本发明中用来治疗性治疗疾病的有效量的活性化合物的有效量因给药方式、个体年龄、体重、及一般健康状况而异。最终，临床医师或兽医师将判定适当用法用量。此用量称作“有效”用量。在一个实施方案中，有效量为足够于细胞(例如，细胞活体外或活体内)中导入基因改变的本发明的碱基编辑器的用量。

术语“患者”或“个体”或“受试者”是指被确诊患有、带有罹患或发展出疾病或病症的风险、或怀疑罹患或发展出疾病或病症的哺乳类个体或个人。在一些实施方案中，术语“病人”表示带有比发展出疾病或病症的平均机率更高机率的哺乳类个体。病人的实例可以是人、非人灵长类、猫、犬、猪、牛、猫、马、骆驼、羊驼、山羊、绵羊、啮齿类(例如，小鼠、兔、大鼠、或天竺鼠)及能从本文揭示的疗法获益的其它哺乳类。

具体实施方式

下面结合实施例对本发明作进一步的详细描述，该实施例仅用于说明本发明，而不应视为限定本发明的范围。在不偏离本发明基础上所做的修改或改进，均属于本发明的保护范围。如无特殊说明，下述实施例所用的实验方法，均为常规方法；所用的试剂、材料均可从商业途径得到。

实施例

实施例1构建基于双碱基编辑器的靶向诱变系统

发明人以腺嘌呤碱基编辑器和胞嘧啶碱基编辑器(Komor,A.C.,Kim,Y.B.,Packer,M.S.,Zuris,J.A.&Liu,D.R.Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage.Nature 533,420-424(2016)；Gaudelli,N.M.et al.Programmable base editing of A*T to G*C in genomic DNAwithout DNA cleavage.Nature 551,464-471(2017)；Nishida,K.et al.Targetednucleotide editing using hybrid prokaryotic and vertebrate adaptive immunesystems.Science 353,aaf8729-aaf8729(2016)；Koblan,L.W.et al.Improving cytidineand adenine base editors by expression optimization and ancestralreconstruction.Nat Biotechnol 36,843-846(2018))为基础构建了多种形式的双碱基编辑器，命名为TMBEs(Targeted Mutagenesis system based on Base Editors)，作为进一步改进以获得具有高诱变活性的双碱基编辑器的基础。其中这些TMBEs的构建均使用NEBuilder HiFi DNA Assembly Master Mix(NEB#E2621X)，具体构建过程依照产品说明书。

所构建的碱基编辑器TMBEs-1的序列如SEQ ID NO:1所示，其中SEQ ID NO:1中第1-1179位为EF-1-alpha promoter，第1206-1262位为bpNLS，第1263-2354位为TadA-TadA*，第2355-2450位为linker，第2451-6551位为nCas9，第6552-6614位为bpNLS，第6615-6710位为linker，第6711-7337位为PmCDA1，第7368-7895位为2*UGI，第7896-7958位为bpNLS。替换TMBEs-1中的PmCDA1为AncAPOBEC1(SEQ ID NO:10)得TMBEs-3；将TMBEs-3中的AncAPOBEC1和TadA-TadA*交换位置得TMBEs-2；将AncBE4max和ABEmax(Koblan,L.W.et al.Improvingcytidine and adenine base editors by expression optimization and ancestralreconstruction.Nat Biotechnol 36,843-846(2018))以不同可读框的形式组合到同一质粒内得到TMBEs-4(图1a)。

在本发明所构建的基于双碱基编辑器的靶向诱变系统中(其中TMBEs-1d参见实施例7)，将多个sgRNA都设置在同一条DNA链上，并利用nCas9切刻非编辑链，本发明证明如此设置能高效的实现靶向诱变并避免了大量的双链断裂(图1b，图2a,b)。

实施例2多sgRNA表达载体的构建

Pseudomonas aeruginosa内的Csy4 RNA酶可以在细菌内处理CRISPR衍生的RNA(Haurwitz,R.E.,Jinek,M.,Wiedenheft,B.,Zhou,K.&Doudna,J.A.Sequence-andstructure-specific RNA processing by a CRISPR endonuclease.Science 329,1355-1358(2010))，因此发明人利用Csy4构建以单个RNA聚合酶II启动子表达多个sgRNA的系统(图3a)。其中使用NEB Golden Gate Assembly Kit(BsaI-HFv2)(NEB#E1601)并依照其产品说明书构建了可表达4条sgRNA的多sgRNA表达载体1(其中用SEQ ID NO:3替换SEQ ID NO:2中的Golden Gate site而得到，SEQ ID NO:3中第1-20、117-136、233-252、349-368位序列为Protospacer序列即靶向序列，其余序列为具有Csy4 site的gRNA scaffold序列)，所用多sgRNA表达载体骨架的序列为SEQ ID NO:2(第832-849位为Golden Gate site)。

将AncBE4max与ABEmax中的碱基编辑器和多sgRNA表达载体1共转染入HEK293T细胞内。具体转染方法如下：提前一天接种适量的细胞使得转染时细胞密度约为70％，转染前1小时更换新鲜的培养基。使用

3000Reagent(Thermo Fisher Scientific,L3000)依照产品说明书进行转染。转染后12小时更换新鲜的培养基，再进行后续的培养与实验。

共转染至HEK293T细胞内2天后利用流式细胞仪分选出含绿色荧光的细胞(表征成功转入质粒)，继续培养分选后的细胞到第7天，再对靶向区域进行桑格测序。培养条件：5％二氧化碳，37℃，基础培养基(DMEM(Invitrogen)加10％FBS(Invitrogen))。

实验表明：借助Cys4元件，单个RNA聚合酶II启动子可表达多个sgRNA，并用于碱基编辑(图3b,本实验中所有多sgRNA都使用该系统表达)。

实施例3双碱基编辑器的诱变活性

将多sgRNA表达载体1和PB转座酶载体(System Biosciences，PB210PA-1)共转染入mESC(R1小鼠胚胎干细胞，ATCC)中构建了一株稳定表达4条sgRNA的mESC细胞系。将实施例1构建的各种双碱基编辑器按照实施例2的方法转染到此细胞系内，2天后利用流式细胞仪分选出含绿色荧光的细胞(表征成功转入质粒)，继续培养分选后的细胞到第7天，再对靶向区域进行高通量扩增子测序。

其中细胞培养条件为：5％二氧化碳，37℃，小鼠胚胎干细胞培养基(Knock Out-DMEM(Invitrogen)加15％FBS(Invitrogen)、1％GlutaMAXTM、1％NEAA、0.1mM 2-mercaptoethanol(Sigma Aldrich)、10ng/ml leukemia inhibitory factor(LIF,Millipore)、3mM CHIR99021(Selleck)和1mM PD0325901(Selleck))。

高通量扩增子测序的具体过程如下：

获取诱变后的基因组DNA后，通过两步PCR法构建高通量测序文库。所有的PCR均以500-1000ng DNA为模板，在50ul体系中完成。

对于第一轮PCR，根据靶向区域的序列设计特异性引物。特异性引物除了能结合目标区序列外，在5’端还含有部分接头序列(正向：5’-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG-3’；反向：5’-GTCTCGTGGGCTCGGAG ATGTGTATAAGAGACAG-3’)。PCR扩增约26个循环后，使用Ampure Beads(Beckman Coulter)参考产品说明书进行纯化回收，除了一点不同之处：每次使用相对于样品0.8倍体积的Ampure Beads，这能有利于去除没有反应的引物。

第二轮PCR将使Illumina测序接头和index整合入扩增子中，使用以下引物对第一轮PCR产物进行低循环数的扩增(正向：5’-AATGATACGGCGACCACCGAGATCTACACNNNNNNNNTCGTCGGCAGCGTC-3’；反向：5’-CAAGCAGAAGACGGCATACGAGATNNNNNNNNGTCTCGTGGGCTCGG-3’，NNNNNNNN代表Illumina indexs)。以10ul的第一轮PCR产物为模板，扩增6个循环后和第一轮PCR一样使用Ampure Beads(Beckman Coulter)纯化回收，回收产物进行PE250高通量测序。

测序返回的数据先使用fastp软件去除reads质量分数低于Q30的reads，并将双端250bp的reads根据重叠区融合成一条序列。使用samtools去除非特异的reads，再使用fastqc软件完成前期数据准备和质检。使用bwa软件对参考序列建立索引，并对质检好的序列进行比对，使用samtools软件产生比对后的数据，再使用python脚本统计分析出靶向区域内的突变率及多样性。

实验结果表明，不同形式的TMBEs均具备较强的诱变活性，但诱变的种类差异很大。直接将腺嘌呤脱氨酶TadA-TadA*和胞嘧啶脱氨酶AncAPOBEC1与nCas9融合(TMBEs-2，TMBEs-3)能较好地发挥胞嘧啶碱基编辑器的功能，但腺嘌呤碱基编辑器的功能却严重受损(图4,mutation rates<10^-1)。采用不同的可读框来表达两种碱基编辑器(TMBEs-4)或者使用PmCDA1胞嘧啶脱氨酶而非AncAPOBEC1胞嘧啶脱氨酶(TMBEs-1)可以比较完整地表现出双碱基编辑器的特性(图1c,图4)。TMBEs-1、TMBEs-4能同时高效地诱变A和C(mutation rates>10^-1)。

TMBEs-1具有更简略的结构，发明人因此选择TMBEs-1用于后续的实验。

实施例4双碱基编辑器在人内源基因组的编辑效率

为了进一步验证前面获得的双碱基编辑器的功能，发明人将具有不同sgRNA(参见表1)的TMBEs-1转染到HEK293T细胞内分别来靶向15个不同的内源位点。

过程如下：将具有相应sgRNA的双碱基编辑器按照实施例2所述的方法转染入HEK293T细胞内，2天后利用流式细胞仪分选出含绿色荧光的细胞(表征成功转入质粒)，继续培养分选后的细胞到第7天，再对靶向区域进行如实施例2的高通量扩增子测序。培养条件：5％二氧化碳，37℃，基础培养基。

TMBEs-1在所有的靶向基因位点里都引发了A>G(最大值，70.6％)和C>T(最大值，81.6％)的编辑，且靶向范围内的T和G没有发生可检测到的改变，带有SEQ ID NO:8的脱靶sgRNA的TMBEs-1(将SEQ ID NO:8插入到TMBEs-1载体中形成的可同时表达TMBEs-1和单个sgRNA(脱靶sgRNA)的载体TMBEs-1-U6-sgRNA)也没有引起可检测到的突变(图5a)，说明获得的双碱基编辑器能靶向特异地编辑A和C。在被检测的15个靶向位点中，TMBEs-1诱导的A和C的突变主要分别发生在4-8和1-7的位置，在第11-14的位置也会出现一小部分的C改变(图5b,c)，这相对于ABEmax和Target-AID(Nishida,K.et al.Targeted nucleotideediting using hybrid prokaryotic and vertebrate adaptive immunesystems.Science 353,aaf8729-aaf8729(2016))的活性窗口没有太大的改变(将PAM计为21-23)。TMBEs-1引发的突变中99.63％的A突变成G，94.14％的C突变成T(图5d,e)。

表1：Protospacer序列

DDB2-1	aatattcaagcagcaggcac	GRIN2B-1	ggcattgctgtcatcctcgt
				DDB2-2	ctcgcgcaggaggctgcagc	GRIN2B-2	tgacagcaatgccaatgctg
FANCF-1	tggaggcaagagggcggctt	GRIN2B-3	ttccgacgaggtggccatca
				FANCF-2	cgctccagagccgtgcgaat	GRIN2B-4	tgaccggaagatccaggggg
FES	ccagctgctgccttgcctcc	DYRK1A-1	gccaaacataagtgaccaac
				EMX1-1	caaacggcagaagctggagg	DYRK1A-2	tcagcaacctctaactaacc
EMX1-2	tgagtccgagcagaagaaga	DYRK1A-3	ggtcactgtactgatgtgaa
				EMX1-3	agggctcccatcacatcaac

实施例5改进双碱基编辑器以诱发多样性的突变

如实施例3和实施例4所验证的，尽管所述TMBEs-1具有较好的可编程性、特异性和较高效的编辑功能，但主要引发C>T和A>G的突变类型。为了进一步增大突变的多样性，发明人尝试通过操控细胞内的DNA修复途径来增大突变的多样性。根据已有文献，C被脱氨成U后可能的结果:U被读取成T；U被细胞内的尿嘧啶糖基化酶切割后形成无碱基位点(AP)进而被随机读取成A、T、C或G；U被细胞内的尿嘧啶糖基化酶切除后形成无碱基位点，AP再被细胞内的AP酶切除而引入Indels(图6a)。移除TMBEs-1内的UGI组件来产生TMBEs-1B可促进移除U以生成更多的AP。因此，发明人将TMBEs-1中的UGI组件移除，以测试所获得的双碱基编辑器(称为TMBEs-1B)是否能增加突变的多样性。

将TMBEs-1B和TMBEs-1转染到稳定表达4条sgRNA(同实施例3，使用多sgRNA表达载体1)的mESC细胞内，2天后利用流式细胞仪分选出含绿色荧光的细胞(表征成功转入质粒)，继续培养分选后的细胞到第7天，再对靶向区域进行高通量扩增子测序。培养条件：5％二氧化碳，37℃，小鼠胚胎干细胞培养基。

高通量扩增子测序发现，尽管TMBEs-1B相比TMBEs-1引入了大量的Indels(图6c)，但确实增加了C>G和C>A的突变类型(图6b)。

接下来为了减少Indels的发生，发明人将TMBEs-1B和TMBEs-1分别稳定转入到mESC细胞和mESC-Apex1(通过本领域熟知的方法敲除了AP酶Apex1的mESC细胞系)中，获得了两种用于诱变的工具细胞。将靶向EGFP的可表达11条sgRNA的多sgRNA表达载体2(用SEQID NO:4替换SEQ ID NO:2中的Golden Gate site而得到，SEQ ID NO:4中第1-20、117-136、233-252、349-368、465-484、581-600、697-716、813-832、929-948、1045-1064、1161-1180位序列为Protospacer序列即靶向序列，其余序列为具有Csy4 site的gRNA scaffold序列)和PB转座酶载体(System Biosciences，PB210PA-1)共转染到上述细胞中，加入终浓度1ug/ml的Puromycin筛选2天以确保质粒进入细胞，再换成含0.5ug/ml Puromycin的培养基继续培养到第7天，并对靶向区域进行高通量扩增子测序。

培养条件：5％二氧化碳，37℃，小鼠胚胎干细胞培养基。

高通量扩增子测序结果表明，尽管没有完全消除Indels，但敲除Apex1减少了TMBEs-1B引发的Indels，(图6d)。TMBEs-1B和TMBEs-1均能在靶向位点高效地引入突变(图6e)，且TMBEs-1B相对于TMBEs-1增加了C>G和C>A的突变类型(图6f)，此外，TMBEs-1B还在A位点增加了A>C和A>T的改变(图6f)。

为进一步确认TMBEs-1B在mESC-Apex1中的诱变特性，发明人用靶向Mecp2的同一条链的多sgRNA表达载体5(用SEQ ID NO:7替换SEQ ID NO:2中的Golden Gate site而得到，SEQ ID NO:7中第1-20、117-136、233-253、350-369、466-485、582-601、698-717、814-833、930-949、1046-1065、1162-1181位序列为Protospacer序列即靶向序列，其余序列为具有Csy4 site的gRNA scaffold序列)表达11个sgRNA来靶向诱变细胞内源的Mecp2基因。实验过程如下：将TMBEs-1B和TMBEs-1分别稳定转入到mESC-Apex1和mESC细胞中，获得两种用于诱变的工具细胞，将靶向Mecp2的多sgRNA表达载体5和PB转座酶载体共转染到上述细胞中，加入终浓度1ug/ml的Puromycin筛选2天以确保质粒进入细胞，再换成含0.5ug/mlPuromycin的培养基继续培养到第7天，并对靶向区域进行高通量扩增子测序。培养条件：5％二氧化碳，37℃，小鼠胚胎干细胞培养基。

和前面结果相一致，尽管增加了少量的Indels(如图7c)，但TMBEs-1B相对于TMBEs-1能在A和C上引发更多的突变种类(如图7a,b)。

因此，发明人通过如此操纵细胞内DNA修复机制(去除UGI，敲除Apex1)，成功地扩大了在A和C上突变的多样性。

实施例6诱变时间对双碱基编辑器诱变特性的影响

为了确定最佳的诱变时长，发明人检测了3到15天内TMBEs-1B和TMBEs-1诱变的特征。将TMBEs-1B和TMBEs-1分别稳定转入到mESC-Apex1和mESC细胞中，获得两种用于诱变的工具细胞。将靶向EGFP的多sgRNA表达载体2和PB转座酶载体(System Biosciences，PB210PA-1)共转染到上述细胞中，加入终浓度1ug/ml的Puromycin筛选2天以确保质粒进入细胞，再换成含0.5ug/ml Puromycin的培养基继续培养到第15天，从第3天开始每两天进行一次取样，并对靶向区域进行高通量扩增子测序。培养条件：5％二氧化碳，37℃，小鼠胚胎干细胞培养基。

TMBEs-1B和TMBEs-1诱导的突变率、产生的突变组合率和引发的Indel率都先随着诱变时长的增大而增大，诱变第7天时达到最大值(TMBEs-1B：突变率3.02x10^-3，突变组合率4.23％，Indel率27.95％；TMBEs-1：突变率2.99x10^-2，突变组合率13.48％，Indel率9.01％)。再继续延长诱变时间，突变率、突变组合率和Indel率反而会减小(图8a,b,e,f)。该检测也进一步验证了前述的结果，即在所有时间检测点中TMBEs-1B相对于TMBEs-1均增加了C和A的突变类型(图8c,d)，且TMBEs-1B还在所有检测点中都引发了少量T和G的突变(图8a,c)。因为TMBEs-1B诱导的突变率比TMBEs-1的要小，相应的TMBEs-1B产生的突变组合率也小于TMBEs-1产生的突变组合率(图8e)，但因为TMBEs-1B能引发更多的突变种类(图8c,d)，在突变率一致的情况下TMBEs-1B能产生更多的突变组合(图8g)。

实施例7进一步扩展突变类型

由于所有的sgRNA都设置在同一条DNA链上，因此，尽管TMBEs-1B能在T和G上引入少量的突变，但TMBEs-1B和TMBEs-1引入的突变主要还是在A和C上。为了进一步扩大突变范围，使靶向范围内的所有碱基都能发生突变，发明人尝试用无切割活性的dCas9(SEQ IDNO:9)替换TMBEs-1B和TMBEs-1中的nCas9，分别得到TMBEs-1Bd和TMBEs-1d(图9a)。发明人设计了可以表达21条sgRNA的多sgRNA表达载体4(用SEQ ID NO:6替换SEQ ID NO:2中的Golden Gate site而得到，SEQ ID NO:6中第1-20、117-136、233-252、349-368、465-484、581-600、697-716、813-832、929-948、1045-1064、1161-1180、1317-1336、1433-1452、1549-1568、1665-1684、1781-1800、1897-1916、2013-2032、2129-2148、2245-2263、2360-2379位序列为Protospacer序列即靶向序列，其余序列为具有Csy4 site的gRNA scaffold序列)来靶向EGFP的两条DNA链，TMBEs-1Bd和TMBEs-1d都能在A、T、C和G 4种碱基上引入突变(图9b)。

为了进一步了解TMBEs-1Bd和TMBEs-1d诱变特性与诱变时间的关系，发明人检测了3到15天内TMBEs-1Bd和TMBEs-1d诱变的特征。具体过程为：将TMBEs-1Bd和TMBEs-1d分别稳定转入到mESC-Apex1和mESC细胞中，获得两种用于诱变的工具细胞。将靶向EGFP的多sgRNA表达载体4和PB转座酶载体共转染到上述细胞中，加入终浓度1ug/ml的Puromycin筛选2天以确保质粒进入细胞，再换成含0.5ug/ml Puromycin的培养基继续培养到第15天，从第3天开始每两天进行一次取样，并对靶向区域进行高通量扩增子测序。培养条件：5％二氧化碳，37℃，小鼠胚胎干细胞培养基。

结果表明：TMBEs-1Bd突变率随着诱变时间的延长先增大再变小，在第7天时达到最大值1.89x10^-3(图9c)，而TMBEs-1d突变率在第11天时达到最大值4.66x10^-3，继续延长诱变时间突变率也不再变小(图9e)。发明人推测其原因是TMBEs-1d引发更少的DNA断裂(图9g)，因而处于诱变中的细胞相对于没有在被诱变的细胞不会明显降低生存能力。TMBEs-1Bd和TMBEs-1d均能在A、T、C和G 4种碱基上引入突变(图9c,e)，并能以不同的比例转换成其他任何一种碱基(图9d,f)。

综上所述，发明人获得了TMBEs-1B、TMBEs-1、TMBEs-1Bd和TMBEs-1d四种具有不同突变谱的诱变系统。

实施例8使用TMBEs获得抗性突变体

前述证实了本发明获得了具有不同突变谱的诱变系统，发明人随后以DNA拓扑异构酶1(DNA topoisomerase I，Top1)基因为例，测试了这些诱变系统用于诱变产生Topotecan耐药性DNA拓扑异构酶1基因突变体的能力。真核生物内的DNA拓扑异构酶I是临床上抗癌药物Topotecan及其类似物Camptothecin等的特异靶点，Topotecan结合到Top1上后能稳定Top1-DNA复合物，导致双链断裂并最终导致细胞死亡。

发明人构建了表达11条sgRNA的多sgRNA表达载体3(用SEQ ID NO:5替换SEQ IDNO:2中的Golden Gate site而得到，SEQ ID NO:5中第1-20、117-136、233-252、349-368、465-484、581-600、697-716、813-832、929-948、1045-1064、1161-1180位序列为Protospacer序列即靶向序列，其余序列为具有Csy4 site的gRNA scaffold序列，所述11条sgRNA靶向TOP1同一条链)来靶向已报道抗Topotecan突变的周围，并把该多sgRNA表达载体和TMBEs-1、TMBEs-1B载体共转染入HEK293T细胞中，加入终浓度1ug/ml的Puromycin筛选3天以确保质粒进入细胞。更换成正常培养基培养到第7天，加入终浓度为50nM TopotecanHCl进行筛选直到阴性对照组中无细胞存活且诱变组中获得了抗性突变体，挑取抗性突变体单克隆单独扩大培养。向抗性突变体中加入50nM Topotecan HCl或50nM Camptothecin进一步验证其抗药性。并通过PCR扩增出突变体内DNA拓扑异构酶1基因，通过桑格测序确认DNA拓扑异构酶1被突变。培养条件：5％二氧化碳，37℃，基础培养基。

获得了上百个抗性突变体克隆，并挑取了6个克隆对其内的DNA拓扑异构酶1进行测序验证，这6个克隆共包含4种突变组合(m1、m2、m3和m4)(图10)。将这些抗性突变体重新培养再加入Camptothecin后发现m1、m2和m3对Camptothecin具有抗性，m4却对Camptothecin敏感(图10)。

该研究结果证实本发明的TMBEs的确能够诱变产生相应的耐药突变体。提前对这些耐药突变体进行研究，当临床上抗性突变体出现后就能及时提供可行的治疗方案。另外，本发明的研究结果也表明，就算是同一靶点的药物作用于同一突变体时效果也可能会不同，提示对抗性突变体提前进行归类，有助于进行精准医疗。

实施例9使用TMBEs定向进化蛋白

在定向进化蛋白时，通常将目的蛋白的功能和荧光或吸附性相偶联。然而依赖于荧光或吸附性的筛选方法常常很低效繁琐，使得很多诱变方法难以进行下去。为了检测TMBEs是否也适用于这些不可选择的表型，发明人以EGFP为例尝试使用TMBEs来产生一些新的荧光蛋白。

发明人将前述构建的靶向EGFP的多sgRNA表达载体2和多sgRNA表达载体4分别转入组成性表达TMBEs(TMBEs-1、TMBEs-1d和TMBEs-1B、TMBEs-1Bd)的mESC和mESC-Apex1细胞，加入终浓度1ug/ml的Puromycin筛选3天以确保质粒进入细胞，再换成新鲜无抗培养基继续培养。诱变7天后，用流式细胞仪分选出所有含有与EGFP光谱不同或荧光强度增强的荧光细胞。扩大培养这些细胞后再进行第二次的分选。将第二次分选得到的细胞单独扩大培养，扩增出相应的基因，并进行后续的验证。培养条件：5％二氧化碳，37℃，小鼠胚胎干细胞培养基。

经过2轮连续的分选后，发明人获得了由EGFP突变而来的蓝色荧光蛋白(暂未显示)，和荧光增强的EGFP(SA)(第72位丝氨酸转变为丙氨酸的EGFP突变体)(图11a,b,e)。EGFP(SA)相对于EGFP的激发光和发射光分别大约红移了6nm和2nm(图11c,d)，调整激发光和发射光能进一步提升EGFP(SA)的荧光强度。EGFP(SA)将更加适用于标记低水平表达的蛋白。

综上所述，本发明提出的基于腺嘌呤和胞嘧啶双碱基编辑器的靶向诱变系统具有很强的诱变活性，在定向进化蛋白比如诱变抗体的可变区产生高亲和力抗体等方面具有很好的应用前景。

Claims

1.一种双碱基编辑器，其包含：Cas9核酸酶或其编码核酸序列、腺嘌呤脱氨酶或其编码核酸序列、和胞嘧啶脱氨酶或其编码核酸序列。

2.根据权利要求1的双碱基编辑器，其进一步包含核定位信号(NLS)序列或其编码核酸序列，和/或包含或不包含UGI组件或其编码核酸序列。

3.根据权利要求2的双碱基编辑器，其进一步包含引导多核苷酸或其编码核酸序列。

4.根据权利要求3的双碱基编辑器，其中所述Cas9核酸酶、腺嘌呤脱氨酶、胞嘧啶脱氨酶、UGI组件(如果存在的话)、核定位信号(NLS)和引导多核苷酸的编码核酸序列中的二者或多者通过连接序列或其编码核酸序列连接。

5.根据权利要求3的双碱基编辑器，其中该双碱基编辑器中各组成部分即Cas9核酸酶、腺嘌呤脱氨酶、胞嘧啶脱氨酶、UGI组件(如果存在的话)、核定位信号(NLS)和引导多核苷酸的编码核酸序列中的一个或多个分别位于一个或多个载体中。

6.根据权利要求5的双碱基编辑器，其中该双碱基编辑器中Cas9核酸酶、腺嘌呤脱氨酶、胞嘧啶脱氨酶、UGI组件(如果存在的话)、核定位信号(NLS)位于一个载体中，引导多核苷酸的编码核酸序列位于另一个载体中。

7.根据权利要求3的双碱基编辑器，其中所述引导多核苷酸为一个或多个，例如，至少2个、至少5个、至少10个、至少20个、至少30个、至少50个，该多个引导多核苷酸可串接排列，优选通过重复序列分开。

8.根据权利要求7的双碱基编辑器，其中所述多个引导多核苷酸置于单个启动子例如置于RNA聚合酶II启动子的控制之下。

9.根据权利要求7或8的双碱基编辑器，其中所述引导多核苷酸靶向双链目标DNA的两条链或其中一条链。

10.根据权利要求9的双碱基编辑器，其中所述双碱基编辑器包含dCas9或其编码核酸序列，且其中所述引导多核苷酸或其编码核酸序列靶向双链目标DNA的两条链。

11.根据权利要求1-8任一项的双碱基编辑器，其中所述Cas9核酸酶为无活性的Cas9核酸酶即dCas9，或者为Cas9切口酶即nCas9。

12.根据权利要求1-8任一项的双碱基编辑器，其中所述腺嘌呤脱氨酶的编码核酸序列为SEQ ID NO:1中第1263-2354位的TadA-TadA*序列或与其具有至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致性的序列，所述Cas9核酸酶的编码核酸序列为SEQ ID NO:1中第2451-6551位的nCas9序列或与其具有至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致性的序列，所述胞嘧啶脱氨酶的编码核酸序列为SEQ ID NO:1中第6711-7337位的PmCDA1序列或与其具有至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致性的序列，所述UGI组件的编码核酸序列为SEQ IDNO:1中第7368-7895位的序列或与其具有至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致性的序列。

13.根据权利要求12的双碱基编辑器，其核酸序列为SEQ ID NO:1，或者为SEQ ID NO:1编码的氨基酸序列。

14.根据权利要求13的双碱基编辑器，其中该双碱基编辑器通过将SEQ ID NO:1中对应于PmCDA1的序列替换为SEQ ID NO:10的AncAPOBEC1或与其具有至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致性的序列而得到。

15.根据权利要求14的双碱基编辑器，其中该双碱基编辑器通过将权利要求14的双碱基编辑器中对应于AncAPOBEC1和TadA-TadA*的序列互换而得到。

16.根据权利要求14的双碱基编辑器，其中该双碱基编辑器通过将权利要求14的双碱基编辑器中对应于AncAPOBEC1和TadA-TadA*的序列分别组装成单碱基编辑器，并以不同可读框的形式组合到同一质粒内而得到。

17.根据权利要求13-16任一项的双碱基编辑器，其中该双碱基编辑器通过用SEQ IDNO:9的dCas9或与其具有至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％一致性的序列替换权利要求13-16中任一项的双碱基编辑器中的nCas9的序列而得到。

18.一种载体，其包含权利要求1-17的双碱基编辑器中包含的引导多核苷酸的编码核酸序列和/或权利要求1-17的双碱基编辑器中包含的除引导多核苷酸的编码核酸序列之外的双碱基编辑器的其它组件的编码核酸序列。

19.一种工具细胞，该工具细胞中转染了权利要求1-17任一项所述的双碱基编辑器或权利要求18的载体。

20.根据权利要求19的工具细胞，其为HEK293T细胞或mESC细胞，可选地，所述mESC细胞敲除了AP酶Apex1。

21.一种用于靶向诱变蛋白质的靶向诱变系统，该靶向诱变系统包含权利要求1-17任一项所述的双碱基编辑器或权利要求18的载体，其中所述靶向诱变系统中包含的引导多核苷酸靶向待诱导蛋白质编码序列的目标区域。

22.一种靶向诱变蛋白质的方法，该方法包括使用权利要求1-17任一项所述的双碱基编辑器或权利要求12的载体，或权利要求19或20的工具细胞，或权利要求21的靶向诱变系统，其中所述双碱基编辑器、载体、工具细胞或靶向诱变系统中包含的引导多核苷酸靶向待诱导蛋白质编码序列的目标区域。

23.根据权利要求22所述的靶向诱变蛋白质的方法，其用于定向进化蛋白。

24.一种用于诱变或定向进化蛋白质的试剂盒，其包含：(1)权利要求1-17任一项的双碱基编辑器或其编码核酸序列或权利要求18的载体，或权利要求19或20的工具细胞，或权利要求21的靶向诱变系统。