CN116355885A

CN116355885A - 脱氨酶突变体及基于脱氨酶突变体构建的碱基编辑器

Info

Publication number: CN116355885A
Application number: CN202111623313.9A
Authority: CN
Inventors: 程田林; 张淑倩; 邱佳怡; 陈金龙
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2023-06-30

Abstract

本发明属于基因编辑技术领域，涉及脱氨酶突变体及基于脱氨酶突变体构建的碱基编辑器。本发明开发了新的胞苷脱氨酶突变体，通过将胞苷脱氨酶突变体融合于SpCas9为代表的突变型核酸酶的不同位点，得到的新融合蛋白能对位于前间隔序列不同位置的胞嘧啶实现有效的C‑T碱基突变。通过所述方法获得的融合蛋白，其Cas非依赖的DNA脱靶效应接近本底水平，且具有多样化的编辑活性窗口。本发明的碱基编辑器具有非常低水平的DNA/RNA脱靶效应，且活性窗口多样化，可实现更广范围、更精细且安全性更高的C‑T单碱基替换，能有效拓宽单碱基编辑工具的应用，具有很高的应用价值。

Description

脱氨酶突变体及基于脱氨酶突变体构建的碱基编辑器

技术领域

本发明涉及基因编辑技术领域，尤其是涉及脱氨酶突变体及基于脱氨酶突变体构建的碱基编辑器。

背景技术

CRISPR/Cas9为代表的新型基因编辑技术在编辑效率方面具有优势，有效推动了基因编辑技术的发展和进步。2016年以来，研究者以CRISPR/Cas9、CRISPR/Cas12a(Cpf1)、CRISPR/Cas12f为基础，已经开发出多种DNA碱基编辑工具，可在基因组水平实现高效精准的点突变，且此过程中不会产生DNA双链断裂。目前碱基编辑器主要有两种：胞嘧啶碱基编辑器(CBE，可介导C·G--T·A突变)和腺嘌呤碱基编辑器(ABE，可介导A·T--G·C突变)。其中，CBE是将特定的胞嘧啶核苷脱氨酶(cytidine deaminase)与突变型核酸酶(如携带有D10A或突变的spCas9，称为nspCas9；或是功能失活型Cas12a或Cas12f，称为dCas12a或dCas12f)以及尿嘧啶糖基化酶抑制因子(UGI)融合，得到的融合蛋白可在sgRNA的引导下，介导C·G--T·A突变。

现有CBE工具中的脱氨酶多属于胞嘧啶核苷脱氨酶(cytidine deaminase)家族，胞嘧啶核苷脱氨酶本身对单链DNA(ssDNA)有高亲和性，这导致多数CBE工具存在Cas非依赖的DNA脱靶效应，因此有很大的安全隐患。虽然研究者采用多种策略对CBE工具进行优化，但依然缺少在RNA/DNA脱靶效应以及编辑窗口/精度等多个方面进行协同优化的CBE工具。完成RNA/DNA脱靶效应优化的CBE工具的活性窗口非常局限，极大的限制了CBE的应用前景(Nat Biotechnol,2020.38(5):620-628；Nat Commun,2020.11(1):2052；Nat Methods,2020.17(6):600-604)。

发明内容

为开发具有低水平RNA/DNA脱靶效应且多样化活性窗口的CBE工具，本发明的提供脱氨酶突变体及基于脱氨酶突变体构建的碱基编辑器。

本发明通过开发筛选新的胞苷脱氨酶突变体，将胞苷脱氨酶突变体融合于nSpCas9为代表的突变型核酸酶的不同位点(N-末端、C-末端和内部插入位点)，得到的新融合蛋白，即为碱基编辑器CBE。

本发明开发出的碱基编辑器CBE用于DNA水平特定位点特定碱基的突变，可有效实现C-T单碱基替换，而且Cas非依赖的DNA脱靶效应和RNA脱靶效应均处于低水平甚至被清除。根据在nSpCas9中融合位点的不同，新构建的碱基编辑器还具有不同的活性窗口。本发明能有效拓宽单碱基编辑工具的应用。

本发明的目的可以通过以下技术方案来实现：

本发明首先提供一种胞苷脱氨酶突变体，为基于APOBEC3A蛋白进行的以下突变中的一种或几种的组合，所述APOBEC3A蛋白的氨基酸序列如SEQ ID NO.1所示：

Y130F、N57G、D133G、STA13Del、GI-Del、RL1、N57G与RL1组合、D133G与RL1组合，

其中，Y130F指将APOBEC3A蛋白的第130位氨基酸位点由氨基酸Y突变为F，N57G指将APOBEC3A蛋白的第57位氨基酸位点由氨基酸N突变为G、D133G指将APOBEC3A蛋白的第133位氨基酸位点由氨基酸D突变为G；

STA13Del是指删除1-13位氨基酸；

GI-Del是指删除RL1区域第25-26位氨基酸；

RL1是指将APOBEC3A蛋白的氨基酸序列第25-26位氨基酸替换为APOBEC3G的氨基酸序列EPWVR。

在本发明的一个实施方式中，所述胞苷脱氨酶突变体优选为基于APOBEC3A蛋白进行的N57G和RL1突变的组合，或，D133G和RL1突变的组合。

这些胞苷脱氨酶突变体为具有C-T单碱基编辑活性且低水平Cas非依赖的DNA脱靶效应的胞苷脱氨酶突变体。

本发明还提供一种碱基编辑器CBE，所述碱基编辑器CBE为将所述胞苷脱氨酶突变体融合于突变型核酸酶的不同位点，得到的新融合蛋白。

在本发明的一个实施方式中，所述突变型核酸酶选自nSpCas9或其突变体，其中nSpCas9的氨基酸序列如SEQ ID NO.2所示。

在本发明的一个实施方式中，所述碱基编辑器CBE为将所述胞苷脱氨酶突变体的5’和3’分别添加NLS序列和linker序列后，再融合于突变型核酸酶的不同位点，得到的新融合蛋白。

在本发明的一个实施方式中，所述突变型核酸酶的不同位点包括突变型核酸酶的N-末端、C末端或内部融合位点。

在本发明的一个实施方式中，所述突变型核酸酶选自nSpCas9时，nSpCas9的C末端有额外的link序列，link序列如SEQ ID NO.5所示。

在本发明的一个实施方式中，所述突变型核酸酶选自nSpCas9时，nSpCas9内部融合位点选择为nSpCas9的第203，312，535，770，793，801，895，905，919，1010，1029，1047-1064和1249位点。

在本发明的一个实施方式中，所述碱基编辑器CBE选择为

nSpCas9的第535或770或801或895或905或919或1010或1029或1249位点融合A3A-(N57G)-RL1获得的CBE-internal-A3A-(N57G)-RL1变体，其中，A3A-(N57G)-RL1表示基于APOBEC3A蛋白进行的N57G和RL1突变的组合，或，

nSpCas9的第535或770或793或801或895或919或1010位点融合NL-A3A-(N57G)-RL1获得的CBE-internal-A3A-(N57G)-RL1变体，其中，NL-A3A-(N57G)-RL1表示A3A-(N57G)-RL1的5’和3’分别添加NLS序列和linker序列后获得的NLS-A3A-(N57G)-RL1-linker，氨基酸序列如SEQ ID NO.6所示。

本发明还提供所述碱基编辑器CBE的构建方法，包括以下步骤：

将所述胞苷脱氨酶突变体融合于突变型核酸酶的不同位点，构建所述碱基编辑器CBE，

优选的，将胞苷脱氨酶突变体5’和3’分别添加NLS序列和linker序列后，融合于突变型核酸酶的不同位点，构建所述碱基编辑器CBE。

本发明还提供所述碱基编辑器CBE的应用，所述碱基编辑器CBE介导C·G--T·A突变，用于DNA水平特定位点特定碱基的突变。

本发明还提供一种多核苷酸，编码所述胞苷脱氨酶突变体或编码所述碱基编辑器CBE。

本发明还提供一种载体，含有所述的多核苷酸。

本发明还提供一种宿主细胞，含所述碱基编辑器CBE，或含有所述载体。

本发明第还提供一种试剂盒，包含用于构建所述胞苷脱氨酶突变体或所述碱基编辑器CBE的试剂。

与现有技术相比，本发明开发了胞苷脱氨酶突变体，通过将胞苷脱氨酶突变体融合于SpCas9为代表的突变型核酸酶的不同位点，得到新的融合蛋白，该融合蛋白作为CBE工具，能对位于前间隔序列不同位置的胞嘧啶实现有效的C-T碱基突变。通过所述方法获得的融合蛋白，其Cas非依赖的DNA脱靶效应接近本底水平，且具有多样化的编辑活性窗口。本发明的碱基编辑器具有非常低水平的DNA/RNA脱靶效应，且活性窗口多样化，可实现更广范围、更精细且安全性更高的C-T单碱基替换，能有效拓宽单碱基编辑工具的应用，具有很高的应用价值。

本发明方法实现了RNA/DNA脱靶效应以及编辑窗口等多个方面进行协同优化。

附图说明

图1.不同CBE变体的C-T点突变活性筛选。人源APOBEC3A不同突变体融合于nSpCas9蛋白的N-末端、C末端构建的CBE变体的碱基编辑特征。利用sanger测序分析碱基编辑特征，检测碱基编辑特征所用的sgRNA为sgA(a)和sgB(b)。每组n＝1。

图2.不同CBE变体的Cas非依赖型DNA脱靶效应检测。人源APOBEC3A不同突变体融合于nSpCas9蛋白的N-末端、C末端构建的CBE变体的Cas非依赖型DNA脱靶效应。采用R-loop实验检测Cas非依赖型DNA脱靶效应，利用sanger测序分析碱基编辑特征。所选位点为sasgRNA-5(a)和sasgRNA-6(b)。每组n＝1。

图3.胞苷脱氨酶突变体A3A-(N57G)-RL1为基础的各类CBE变体的碱基编辑特性。A3A-(N57G)-RL1融合于nSpCas9内部的不同位点，获得CBE-internal-A3A-(N57G)-RL1变体。利用sanger测序分析碱基编辑特征，检测碱基编辑特征所用的sgRNA为sgA(a)和sg-H4(b)。每组n＝1。

图4.胞苷脱氨酶突变体NL-A3A-(N57G)-RL1为基础的各类CBE变体的碱基编辑特性。NL-A3A-(N57G)-RL1融合于nSpCas9内部的不同位点，获得CBE-internal-NL-A3A-(N57G)-RL1变体。利用sanger测序分析碱基编辑特征，检测碱基编辑特征所用的sgRNA为sgA(a)和sg-H4(b)。每组n＝1。

图5.胞苷脱氨酶突变体A3A-(N57G)-RL1为基础的各类CBE变体的的Cas非依赖型DNA脱靶效应检测。A3A-(N57G)-RL1融合于nSpCas9内部的不同位点，获得CBE-internal-A3A-(N57G)-RL1变体。采用R-loop实验检测Cas非依赖型DNA脱靶效应，利用sanger测序分析碱基编辑特征，利用sanger测序分析碱基编辑特征。所选位点为sasgRNA-5(a)和sasgRNA-6(b)。每组n＝1。

图6.胞苷脱氨酶突变体NL-A3A-(N57G)-RL1为基础的各类CBE变体的的Cas非依赖型DNA脱靶效应检测。NL-A3A-(N57G)-RL1融合于nSpCas9内部的不同位点，获得CBE-internal-NL-A3A-(N57G)-RL1变体。采用R-loop实验检测Cas非依赖型DNA脱靶效应，利用sanger测序分析碱基编辑特征，利用sanger测序分析碱基编辑特征。所选位点为sasgRNA-5(a)和sasgRNA-6(b)。每组n＝1。

图7.优选CBE变体介导C-T编辑的活性窗口。选择6种sgRNA分别与各优选CBE变体共转染HEK293T细胞系，通过高通量扩增子测序分析碱基编辑的活性窗口。每组n＝3个生物学重复。

图8.优选CBE变体介导C-T编辑的碱基偏好性。选择6种sgRNA分别与各优选CBE变体共转染HEK293T细胞系，通过高通量扩增子测序分析碱基编辑的碱基偏好性。每组n＝3个生物学重复。

图9.全基因组测序分析优选CBE变体在DNA水平的脱靶效应。分别对C-T&G-A类型的SNVs(a)和总SNVs(b)进行统计分析。

图10.优选CBE变体的Cas非依赖的DNA脱靶效应。通过R-loop实验和高通量扩增子测序对优选CBE变体的Cas非依赖的DNA脱靶效应进行分析。R-loop1～6分别对应sasgRNA1～6。n＝3个生物学重复。

图10中，R-loop 1～6中，从左到右依次为N-A3A-(N57G)-RL1-BE、535-A3A-(N57G)-RL1-BE、770-A3A-(N57G)-RL1-BE、801-A3A-(N57G)-RL1-BE、905-A3A-(N57G)-RL1-BE、1010-A3A-(N57G)-RL1-BE、1029-A3A-(N57G)-RL1-BE、1047-1064-A3A-(N57G)-RL1-BE、1249-A3A-(N57G)-RL1-BE、535-NL-A3A-(N57G)-RL1-BE。

图11.优选CBE变体的RNA水平脱靶效应。通过RNA-seq实验对优选CBE变体的RNA脱靶效应进行分析。n＝4个生物学重复。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例1胞苷脱氨酶突变体及融合蛋白的构建

人源细胞基因组中扩增基因APOBEC3A开放阅读框(ORF)(其中，APOBEC3A蛋白的氨基酸序列如SEQ ID NO.1所示)。合成人源密码子优化的SV40NLS-linker-nSpCas9-nucleoplasmin NLS，其中nSpCas9(D10A)的氨基酸序列如SEQ ID NO.2所示，SV-40-NLS的氨基酸序列如SEQ ID NO.3所示，Nucleoplasmin NLS的氨基酸序列如SEQ ID NO.4所示。

为筛选具有C-T单碱基编辑活性且低水平Cas非依赖的DNA脱靶效应的胞苷脱氨酶突变体，首先将APOBEC3A蛋白(简称为A3A)融合于nSpCas9蛋白的N-末端、C末端(C末端有额外的link序列(SEQ ID NO.5))，构建N-A3A-BE和C-A3A-BE，其中N-A3A-BE表示将A3A融合于nSpCas9蛋白的N-末端，C-A3A-BE表示将A3A融合于nSpCas9蛋白的C末端(C末端有额外的link序列(SEQ ID NO.5))。在此基础上，A3A蛋白中引入不同突变，获得一系列胞苷脱氨酶突变体为基础的CBE变体。

本实施例中利用2A肽段共表达融合蛋白与绿色荧光蛋白EGFP，用以指示融合蛋白的表达情况，并用于后续的流式细胞分选。

本实施例中还构建sgRNA表达载体，在表达特定sgRNA的同时表达UGI-2A-mCherry。UGI可以抑制尿嘧啶糖基化酶的活性，提高C-T突变效率，红色荧光蛋白mCherry用于指示载体表达情况，可用于后续的流式细胞分选。

表1 nspCas9融合位点

实施例2检测不同CBE变体的C-T点突变活性和Cas非依赖的DNA脱靶效应

本实施例中，根据APOBEC3A的结构及已报道的研究成果，在N-A3A-BE和C-A3A-BE中分别引入Y130F、N57G、D133G、STA13Del(删除1-13位氨基酸)、GI-Del(删除RL1区域第25-26位氨基酸，其中，RL1区域就是第25-26氨基酸，是从氨基酸序列1的第一位起数的)、RL1(将RL1区域第25-26位氨基酸替换为APOBEC3G的RL1氨基酸序列EPWVR)、N57G与RL1组合、D133G与RL1组合，分析不同突变及组合对N-A3A-BE和C-A3A-BE碱基编辑活性的影响。

以上表述中，Y130F表示将APOBEC3A蛋白的氨基酸的第130位氨基酸位点由氨基酸Y突变为F，其他做类似解释。

为评估N-A3A-BE和C-A3A-BE及其突变体碱基编辑活性的改变，将N-A3A-BE和C-A3A-BE及其突变体(通过2A-EGFP元件同时表达EGFP)与单向导RNA(sgRNA)(sgRNA同时表达尿嘧啶糖基化酶抑制因子UGI和2A-mCherry)共转染至培养的293T细胞。细胞培养72小时后，通过FACS收集同时表达EGFP和mCherry的双阳性细胞。

本实施例中使用的sgRNA为sgA(序列为TGCCCCTCCCTCCCTGGCCC)和sgB(序列为AGAGCCCCCCCTCAAAGAGA)。

收集的细胞抽提基因组，使用可特异性扩增sgA和sgB位点信息的引物进行定向PCR。PCR产物通过sanger测序验证N-A3A-BE和C-A3A-BE及其突变体的碱基编辑活性改变。

结果显示，N-A3A-BE和C-A3A-BE及其突变体均在至少一种sgRNA位点处有明显的C-T碱基编辑活性(图1a-b)。除N-A3A-(N57G)-BE和C-A3A-(N57G)-RL1-BE外，其余CBE变体在sgA和sgB两个位点均有明显的C-T碱基编辑活性(图1a-b)。

上面，N-A3A-(N57G)-BE表示在N-A3A-BE中引入N57G突变，即对APOBEC3A蛋白进行N57G突变处理。C-A3A-(N57G)-RL1-BE表示在C-A3A-BE中引入(N57G)-RL1突变的组合，即对APOBEC3A蛋白进行N57G突变以及RL1(将RL1区域第25-26位氨基酸替换为APOBEC3G的RL1氨基酸序列EPWVR)突变处理。

DNA水平的脱靶效应(Cas非依赖型脱靶效应)通过R-Loop实验进行分析。其基本原理是，dSaCas9与靶向基因组特定位点(位点X)的sasgRNA(sasgRNA-X)在细胞中共表达，会在位点X处诱导形成单链DNA(ssDNA)区域；此时，细胞内共表达的碱基编辑器(ABE或CBE)因其自身对ssDNA的亲和力，便可能结合ssDNA并介导C·G--T·A(CBE)或A·T--G·C(ABE)突变。

人源HEK293T细胞系复苏培养后以30％-50％密度铺12孔平板，24小时后采用脂质体共转染碱基编辑器的各优选表达载体(通过2A-EGFP元件同时表达EGFP)和失活型SaCas9(dSaCas9)-sasgRNA共表达载体(同时表达红色荧光蛋白)，培养72小时后胰酶消化收取细胞，流式细胞分选双阳性细胞，通过裂解液裂解细胞提取基因组，之后针对sasgRNA位点设计引物进行定向扩增，扩增产物经sanger测序，进行数据分析了解sasgRNA位点处的C-T突变频率。为初步评估N-A3A-BE和C-A3A-BE及其突变体的Cas非依赖的DNA脱靶效应，研究中共选取2种不同的sasgRNA脱靶位点(sasgRNA-5：TCTGCTTCTCCAGCCCTGGC；sasgRNA-6：GATGTTCCAATCAGTACGCA)用于在DNA水平的脱靶效应分析(Cas非依赖型脱靶效应)。

结果显示，N-A3A-(N57G)-RL1-BE、C-A3A-(N57G)-RL1-BE和N-A3A-(D133G)-RL1-BE在sasgRNA-5和sasgRNA-6两位点处无明显的C-T碱基编辑活性(图2a-b)。由此可知胞苷脱氨酶突变体A3A-(N57G)-RL1诱导Cas非依赖型脱靶效应的风险低，因此后续选择A3A-(N57G)-RL1融合在nSpCas9内部不同位点(表一)，构建一系列CBE变体，进一步分析其碱基编辑活性和Cas非依赖型脱靶效应。

类似的，N-A3A-(D133G)-RL1-BE表示在N-A3A-BE中引入D133G(N57G)-RL1突变的组合，即对APOBEC3A蛋白进行D133G突变以及RL1(将RL1区域第25-26位氨基酸替换为APOBEC3G的RL1氨基酸序列EPWVR)突变处理。

本文中，所以类似N-A3A-(D133G)-RL1-BE的表述中，在A3A和BE之间的内容，例如(D133G)-RL1均是指N-A3A-BE中对APOBEC3A蛋白进行D133G突变以及RL1突变组合，以下内容中涉及类似表述，不再一一进行解释，本领域技术人员基于本申请的描述能够理解相关含义。

实施例3胞苷脱氨酶突变体A3A-(N57G)-RL1为基础构建的CBE变体的C-T点突变活性和Cas非依赖的DNA脱靶效应

考虑到蛋白接头(linker)或能改善内部融合后融合蛋白的构象，申请人在A3A-(N57G)-RL1的5’和3’分别添加NLS序列和linker序列获得NLS-A3A-(N57G)-RL1-linker(简称为NL-A3A-(N57G)-RL1，SEQ ID NO.6)，将A3A-(N57G)-RL1或NL-A3A-(N57G)-RL1分别置于nSpCas9多个内部融合的位点，获得CBE-internal-A3A-(N57G)-RL1和CBE-internal-NL-A3A-(N57G)-RL1变体。

为评估CBE-internal-A3A-(N57G)-RL1和CBE-internal-NL-A3A-(N57G)-RL1变体碱基编辑活性的改变，将CBE-internal-A3A-(N57G)-RL1和CBE-internal-NL-A3A-(N57G)-RL1变体(通过2A-EGFP元件同时表达EGFP)与单向导RNA(sgRNA)(sgRNA同时表达尿嘧啶糖基化酶抑制因子UGI和2A-mCherry)共转染至培养的293T细胞。细胞培养72小时后，通过FACS收集同时表达EGFP和mCherry的双阳性细胞。本实施例中使用的sgRNA为sgA(序列为TGCCCCTCCCTCCCTGGCCC)和sg-H4(序列为GGCACTGCGGCTGGAGGTGG)。

收集的细胞抽提基因组，使用可特异性扩增sgA和sg-H4位点信息的引物进行定向PCR。PCR产物通过sanger测序验证CBE-internal-A3A-(N57G)-RL1和CBE-internal-NL-A3A-(N57G)-RL1变体的碱基编辑活性改变。

结果显示，CBE-internal-A3A-(N57G)-RL1系列变体中，nSpCas9的第535，770，801，895，905，1010，1029，1047-1064和1249位点融合A3A-(N57G)-RL1获得的CBE-internal-A3A-(N57G)-RL1变体在至少一种sgRNA位点处有明显的C-T碱基编辑活性(图3a-b)。CBE-internal-NL-A3A-(N57G)-RL1系列变体中，nSpCas9的第203，535，770，793，801，895，905，919，1010，1029，1047-1064和1249位点融合NL-A3A-(N57G)-RL1获得的CBE-internal-NL-A3A-(N57G)-RL1变体在至少一种sgRNA位点处有明显的C-T碱基编辑活性(图4a-b)。

人源HEK293T细胞系复苏培养后以30％-50％密度铺12孔平板，24小时后采用脂质体共转染碱基编辑器的各优选表达载体(通过2A-EGFP元件同时表达EGFP)和失活型SaCas9(dSaCas9)-sasgRNA共表达载体(同时表达红色荧光蛋白)，培养72小时后胰酶消化收取细胞，流式细胞分选双阳性细胞，通过裂解液裂解细胞提取基因组，之后针对sasgRNA位点设计引物进行定向扩增，扩增产物经sanger测序，进行数据分析了解sasgRNA位点处的C-T突变频率。为初步评估CBE-internal-A3A-(N57G)-RL1和CBE-internal-NL-A3A-(N57G)-RL1变体的Cas非依赖的DNA脱靶效应，研究中共选取2种不同的sasgRNA脱靶位点(sasgRNA-5：TCTGCTTCTCCAGCCCTGGC；sasgRNA-6：GATGTTCCAATCAGTACGCA)用于在DNA水平的脱靶效应分析(Cas非依赖型脱靶效应)。

结果显示，CBE-internal-A3A-(N57G)-RL1变体中，除203/312/793/1047-1064-A3A-(N57G)-RL1-BE外，其余535/770/801/895/905/919/1010/1029/1249-A3A-(N57G)-RL1-BE在sasgRNA-5和sasgRNA-6两位点处无明显的C-T碱基编辑活性(图5a-b)。

CBE-internal-NL-A3A-(N57G)-RL1变体中，除203/312/905/1029/1047-1064/1249-NL-A3A-(N57G)-RL1-BE外，其余535/770/793/801/895/919/1010-NL-A3A-(N57G)-RL1-BE在sasgRNA-5和sasgRNA-6两位点处无明显的C-T碱基编辑活性(图6a-b)。

以上表述中，203/312/793/1047-1064-A3A-(N57G)-RL1-BE表示nSpCas9的第203或312或793或1047-1064位点融合A3A-(N57G)-RL1获得的CBE-internal-A3A-(N57G)-RL1变体，535/770/801/895/905/919/1010/1029/1249-A3A-(N57G)-RL1-BE表示nSpCas9的第535或770或801或895或905或919或1010或1029或1249位点融合A3A-(N57G)-RL1获得的CBE-internal-A3A-(N57G)-RL1变体，535/770/793/801/895/919/1010-NL-A3A-(N57G)-RL1-BE表示nSpCas9的第535或770或793或801或895或919或1010位点融合NL-A3A-(N57G)-RL1获得的CBE-internal-A3A-(N57G)-RL1变体。

实施例4优选碱基编辑器CBE变体的活性窗口和碱基偏好性

本实施例中，优选N-A3A-(N57G)-RL1-BE、535-A3A-(N57G)-RL1-BE、770-A3A-(N57G)-RL1-BE、801-A3A-(N57G)-RL1-BE、905-A3A-(N57G)-RL1-BE、1010-A3A-(N57G)-RL1-BE、1029-A3A-(N57G)-RL1-BE、1047-1064-A3A-(N57G)-RL1-BE、1249-A3A-(N57G)-RL1-BE和535-NL-A3A-(N57G)-RL1-BE，分析其活性窗口和碱基偏好性。

为系统分析碱基编辑器的活性窗口和碱基偏好性，选择6种sgRNA(S18序列：ACACACACACTTAGAATCTG；HEK4序列：GGCACTGCGGCTGGAGGTGG；EMX序列：GAGTCCGAGCAGAAGAAGAA；MSKC序列：CGTCGCCGATCTTCACAGGG；sgB序列：AGAGCCCCCCCTCAAAGAGA；UBE3A序列：GTACAGTTAGTACTCAGCAG)开展相关研究。将优选的CBE变体(通过2A-EGFP元件同时表达EGFP)与单向导RNA(sgRNA)(sgRNA同时表达尿嘧啶糖基化酶抑制因子UGI和2A-mCherry)共转染至培养的293T细胞。细胞培养72小时后，细胞培养72小时后，通过FACS收集同时表达EGFP和mCherry的双阳性细胞。

收集好的细胞抽提基因组，使用可特异性扩增目标sgRNA位点信息的引物进行定向PCR。PCR产物通过扩增子测序，以分析优选碱基编辑器的活性窗口和碱基偏好性(n＝3次生物学重复)。

结果显示，N-A3A-(N57G)-RL1-BE的活性窗口为(C4-C7，在C4-C8范围内均有一定活性)；535-A3A-(N57G)-RL1-BE的活性窗口为(C6-C9)；770-A3A-(N57G)-RL1-BE的活性窗口为(C5-C15，在C4-C16范围内均有一定活性)；801-A3A-(N57G)-RL1-BE的活性窗口为(C6-C15，在C5-C16范围内均有一定活性)；905-A3A-(N57G)-RL1-BE的活性窗口为(C7-C15，在C5-C16范围内均有一定活性)；1010-A3A-(N57G)-RL1-BE的活性窗口为(C6-C9，在C4-C15范围内均有一定活性)；1029-A3A-(N57G)-RL1-BE的活性窗口为(C6-C11，在C4-C15范围内均有一定活性)；1047-1064-A3A-(N57G)-RL1-BE的活性窗口为(C5-C11，在C3-C11范围内均有一定活性)；1249-A3A-(N57G)-RL1-BE的活性窗口为(C8-C15，在C5-C15范围内均有一定活性)；535-NL-A3A-(N57G)-RL1-BE的活性窗口为(C6-C10，C15，在C4-C15范围内均有一定活性)(图7)。

此外，CBE变体的活性呈现出一定的碱基偏好性，N-A3A-(N57G)-RL1-BE对不同碱基位点的偏好性为：偏好CC(下划线为编辑位点)。535-A3A-(N57G)-RL1-BE对不同碱基位点的偏好性为：偏好CC和CC(下划线为编辑位点)。770-A3A-(N57G)-RL1-BE对不同碱基位点的偏好性为：CG≈CA>CT≈CC，AC≈GC>TC≈CC(下划线为编辑位点)。801-A3A-(N57G)-RL1-BE对不同碱基位点的偏好性为：偏好CG，GC≈TC≈CC>AC。905-A3A-(N57G)-RL1-BE对不同碱基位点的偏好性为：TC≈CC>AC≈GC。1010-A3A-(N57G)-RL1-BE对不同碱基位点的偏好性为：CG≈CC>CA≈CT，TC≈CC>GC≈AC(下划线为编辑位点)。1029-A3A-(N57G)-RL1-BE对不同碱基位点的偏好性为：CA>CG≈CC≈CT(下划线为编辑位点)。1047-1064-A3A-(N57G)-RL1-BE对不同碱基位点的偏好性为：对TC有一定的偏好性。1249-A3A-(N57G)-RL1-BE对不同碱基位点的偏好性为：CA≈CT≈CG>CC，TC≈GC≈AC>CC(下划线为编辑位点)。535-NL-A3A-(N57G)-RL1-BE对不同碱基位点的偏好性为：对CG和GC有一定偏好性(图8)。

实施例5优选碱基编辑器CBE变体在DNA水平的脱靶效应(全基因组测序分析)

本实施例中，优选N-A3A-(N57G)-RL1-BE(167)、535-A3A-(N57G)-RL1-BE(46)和535-NL-A3A-(N57G)-RL1-BE(57)，以及N-A3A-(Y130F)-BE、N-A3A-(D133G)-BE、535-A3A-(Y130F)-BE，通过全基因组测序分析其在DNA水平的脱靶效应。

将优选的CBE变体(通过2A-EGFP元件同时表达EGFP)与单向导RNA(sgRNA)(sgRNA同时表达尿嘧啶糖基化酶抑制因子UGI和2A-嘌呤霉素抗性基因)共转染至培养的293T细胞。细胞培养24-48小时后，加入嘌呤霉素持续处理2-3天，挑选单细胞克隆至96孔板中。单细胞克隆扩增成功后转移至12孔板继续培养。细胞数量扩增成功后抽提基因组，使用可特异性扩增目标sgRNA位点信息的引物进行定向PCR。Sanger测序分析目标位点的碱基编辑情况，发生C-T碱基编辑细胞的基因组进行全基因组测序和SNVs分析。本研究中选用的sgRNA序列为sg-RNF(序列信息：GTCATCTTAGTCATTACCTG)。

进行全基因组测序的样本数：nCas9(D10A)(n＝3)；N-A3A-(N57G)-RL1-BE(n＝3)、535-A3A-(N57G)-RL1-BE(n＝1)和535-NL-A3A-(N57G)-RL1-BE(n＝1)，以及N-A3A-(Y130F)-BE(n＝1)、N-A3A-(D133G)-BE(n＝1)、535-A3A-(Y130F)-BE(n＝1)。

全基因组测序分析显示，与nCas9(D10A)相比，N-A3A-(N57G)-RL1-BE的总SNVs数量相当，但C>T&G>A的SNVs数量略有降低。535-A3A-(N57G)-RL1-BE和535-NL-A3A-(N57G)-RL1-BE的总SNVs数量以及C>T&G>A的SNVs数量与N-A3A-(N57G)-RL1-BE相似。N-A3A-(Y130F)-BE(n＝1)、N-A3A-(D133G)-BE(n＝1)、535-A3A-(Y130F)-BE(n＝1)的总SNVs以及C>T&G>A的SNVs数量均高于nCas9(D10A)。以上结果表明，胞苷脱氨酶突变体A3A-(N57G)-RL1为基础构建的CBE变体在DNA水平的脱靶效应处于低水平，且几乎无Cas非依赖的DNA脱靶效应(图9)。

实施例6优选碱基编辑器CBE变体的Cas非依赖的DNA脱靶效应(R-loop实验验证)

本实施例中，优选N-A3A-(N57G)-RL1-BE、535-A3A-(N57G)-RL1-BE、770-A3A-(N57G)-RL1-BE、801-A3A-(N57G)-RL1-BE、905-A3A-(N57G)-RL1-BE、1010-A3A-(N57G)-RL1-BE、1029-A3A-(N57G)-RL1-BE、1047-1064-A3A-(N57G)-RL1-BE、1249-A3A-(N57G)-RL1-BE和535-NL-A3A-(N57G)-RL1-BE，利用R-loop实验分析其Cas非依赖的DNA脱靶效应。

DNA水平的脱靶效应(Cas非依赖型脱靶效应)通过R-Loop实验进行分析[8]。其基本原理是，dSaCas9与靶向基因组特定位点(位点X)的sasgRNA(sasgRNA-X)在细胞中共表达，会在位点X处诱导形成单链DNA(ssDNA)区域；此时，细胞内共表达的碱基编辑器(ABE或CBE)因其自身对ssDNA的亲和力，便可能结合ssDNA并介导C·G--T·A(CBE)或A·T--G·C(ABE)突变。

人源HEK293T细胞系复苏培养后以30％-50％密度铺12孔平板，24小时后采用脂质体共转染碱基编辑器的各优选表达载体(通过2A-EGFP元件同时表达EGFP)和失活型SaCas9(dSaCas9)-sasgRNA共表达载体(同时表达红色荧光蛋白)，培养72小时后胰酶消化收取细胞，流式细胞分选双阳性细胞，通过裂解液裂解细胞提取基因组，之后针对sasgRNA位点设计引物进行定向扩增，扩增产物经sanger测序，进行数据分析了解sasgRNA位点处的C-T突变频率。为初步评估CBE-internal-A3A-(N57G)-RL1和CBE-internal-NL-A3A-(N57G)-RL1变体的Cas非依赖的DNA脱靶效应，研究中共选取6种不同的sasgRNA脱靶位点(sasgRNA-1：TGGTAGACAGCATGTGTCCTA；sasgRNA-2：ATTTACAGCCTGGCCTTTGGGG；sasgRNA-3：TGTCAGGTAATGTGCTAAACA；sasgRNA-4：GTGGAGGAGGGTGCATGGGGT；sasgRNA-5：TCTGCTTCTCCAGCCCTGGC；sasgRNA-6：GATGTTCCAATCAGTACGCA)用于在DNA水平的脱靶效应分析(Cas非依赖型脱靶效应)。

结果显示，仅N-A3A-(N57G)-RL1-BE、801-A3A-(N57G)-RL1-BE和535-NL-A3A-(N57G)-RL1-BE在部分位点(sasgRNA-4和sasgRNA-6)有较明显的C-T突变，且三种CBE变体的C-T突变率相当(图10)。结合全基因组测序数据结果可知，A3A-(N57G)-RL1为基础的CBE变体的Cas非依赖的DNA脱靶效应可忽略不计。

实施例7优选碱基编辑器CBE变体在RNA水平的脱靶效应分析

本实施例中，优选N-A3A-(N57G)-RL1-BE、535-A3A-(N57G)-RL1-BE、770-A3A-(N57G)-RL1-BE、801-A3A-(N57G)-RL1-BE、905-A3A-(N57G)-RL1-BE、1010-A3A-(N57G)-RL1-BE、1249-A3A-(N57G)-RL1-BE和535-NL-A3A-(N57G)-RL1-BE，利用RNA-seq分析RNA水平的脱靶效应。

为评估各优选工具在RNA水平的脱靶效应，将各优选表达载体(通过2A-EGFP元件同时表达EGFP)与单向导RNA(sgRNA)(sgRNA同时表达尿嘧啶糖基化酶抑制因子UGI和2A-puromycin)共转染至培养的293T细胞。转染后24小时加入嘌呤霉素筛选阳性细胞。嘌呤霉素处理48小时后，收集细胞提取总RNA进行RNA-seq实验。本方案使用的sgRNA为sg-NC(无靶向sgRNA)(n＝4次生物学重复)。

RNA编辑是指在mRNA水平上改变遗传信息的过程。具体来说，它指的是mRNA分子中核苷酸的缺失、插入或化学修饰。这种修饰影响基因的表达，不同氨基酸的产生和开放阅读框的形成。在哺乳动物细胞中，主要存在两类RNA编辑，分别为A-I编辑和C-U编辑。这种RNA编辑是由RNA依赖的腺嘌呤脱氨酶介导的。

C-U编辑结果的分析显示，除1010-A3A-(N57G)-RL1-BE和1249-A3A-(N57G)-RL1-BE有明显增加外，其余各CBE变体与阴性对照组(nCas9+sgRNA)类似。1010-A3A-(N57G)-RL1-BE和1249-A3A-(N57G)-RL1-BE组发生C-T编辑的位点数量也处在低水平：1010-A3A-(N57G)-RL1-BE组的C-T编辑位点数量<200，1249-A3A-(N57G)-RL1-BE组的C-T编辑位点数量<100(图11)。

上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使用发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

序列表

<110> 复旦大学

<120> 脱氨酶突变体及基于脱氨酶突变体构建的碱基编辑器

<160> 6

<170> SIPOSequenceListing 1.0

<210> 1

<211> 201

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 1

Met Glu Ala Ser Pro Ala Ser Gly Pro Arg His Leu Met Asp Pro His

1 5 10 15

Ile Phe Thr Ser Asn Phe Asn Asn Gly Ile Gly Arg His Lys Thr Tyr

20 25 30

Leu Cys Tyr Glu Val Glu Arg Leu Asp Asn Gly Thr Ser Val Lys Met

35 40 45

Asp Gln His Arg Gly Phe Leu His Asn Gln Ala Lys Asn Leu Leu Cys

50 55 60

Gly Phe Tyr Gly Arg His Ala Glu Leu Arg Phe Leu Asp Leu Val Pro

65 70 75 80

Ser Leu Gln Leu Asp Pro Ala Gln Ile Tyr Arg Val Thr Trp Phe Ile

85 90 95

Ser Trp Ser Pro Cys Phe Ser Trp Gly Cys Ala Gly Glu Val Arg Ala

100 105 110

Phe Leu Gln Glu Asn Thr His Val Arg Leu Arg Ile Phe Ala Ala Arg

115 120 125

Ile Tyr Asp Tyr Asp Pro Leu Tyr Lys Glu Ala Leu Gln Met Leu Arg

130 135 140

Asp Ala Gly Ala Gln Val Ser Ile Met Thr Tyr Asp Glu Phe Lys His

145 150 155 160

Cys Trp Asp Thr Phe Val Asp His Gln Gly Cys Pro Phe Gln Pro Trp

165 170 175

Asp Gly Leu Asp Glu His Ser Gln Ala Leu Ser Gly Arg Leu Arg Ala

180 185 190

Ile Leu Gln Asn Gln Gly Asn Ser Arg

195 200

<210> 2

<211> 1368

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 2

Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val

1 5 10 15

Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe

20 25 30

Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile

35 40 45

Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu

50 55 60

Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys

65 70 75 80

Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser

85 90 95

Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys

100 105 110

His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr

115 120 125

His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp

130 135 140

Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His

145 150 155 160

Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro

165 170 175

Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr

180 185 190

Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala

195 200 205

Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn

210 215 220

Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn

225 230 235 240

Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe

245 250 255

Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp

260 265 270

Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp

275 280 285

Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp

290 295 300

Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser

305 310 315 320

Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys

325 330 335

Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe

340 345 350

Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser

355 360 365

Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp

370 375 380

Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg

385 390 395 400

Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu

405 410 415

Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe

420 425 430

Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile

435 440 445

Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp

450 455 460

Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu

465 470 475 480

Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr

485 490 495

Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser

500 505 510

Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys

515 520 525

Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln

530 535 540

Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr

545 550 555 560

Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp

565 570 575

Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly

580 585 590

Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp

595 600 605

Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr

610 615 620

Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala

625 630 635 640

His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr

645 650 655

Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp

660 665 670

Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe

675 680 685

Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe

690 695 700

Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu

705 710 715 720

His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly

725 730 735

Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly

740 745 750

Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln

755 760 765

Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile

770 775 780

Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro

785 790 795 800

Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu

805 810 815

Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg

820 825 830

Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys

835 840 845

Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg

850 855 860

Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys

865 870 875 880

Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys

885 890 895

Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp

900 905 910

Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr

915 920 925

Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp

930 935 940

Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser

945 950 955 960

Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg

965 970 975

Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val

980 985 990

Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe

995 1000 1005

Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys

1010 1015 1020

Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser

1025 1030 1035 1040

Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu

1045 1050 1055

Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile

1060 1065 1070

Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser

1075 1080 1085

Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly

1090 1095 1100

Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile

1105 1110 1115 1120

Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser

1125 1130 1135

Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly

1140 1145 1150

Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile

1155 1160 1165

Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala

1170 1175 1180

Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys

1185 1190 1195 1200

Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser

1205 1210 1215

Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr

1220 1225 1230

Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser

1235 1240 1245

Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His

1250 1255 1260

Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val

1265 1270 1275 1280

Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys

1285 1290 1295

His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu

1300 1305 1310

Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp

1315 1320 1325

Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp

1330 1335 1340

Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile

1345 1350 1355 1360

Asp Leu Ser Gln Leu Gly Gly Asp

1365

<210> 3

<211> 15

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 3

Pro Lys Lys Lys Arg Lys Val Gly Ile His Gly Val Pro Ala Ala

1 5 10 15

<210> 4

<211> 16

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 4

Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys

1 5 10 15

<210> 5

<211> 95

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 5

Glu Leu Gly Gly Gly Gly Thr Gly Gly Gly Gly Ser Ala Glu Tyr Val

1 5 10 15

Arg Ala Leu Phe Asp Phe Asn Gly Asn Asp Glu Glu Asp Leu Pro Phe

20 25 30

Lys Lys Gly Asp Ile Leu Arg Ile Arg Asp Lys Pro Glu Glu Gln Trp

35 40 45

Trp Asn Ala Glu Asp Ser Glu Gly Lys Arg Gly Met Ile Leu Val Pro

50 55 60

Tyr Val Glu Lys Tyr Ser Gly Asp Tyr Lys Asp His Asp Gly Asp Tyr

65 70 75 80

Lys Asp His Asp Ile Asp Tyr Lys Asp Asp Asp Asp Lys Glu Phe

85 90 95

<210> 6

<211> 250

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 6

Ser Gly Ser Pro Lys Lys Lys Arg Lys Val Gly Ser Glu Ala Arg Glu

1 5 10 15

Ala Ser Pro Ala Ser Gly Pro Arg His Leu Met Asp Pro His Ile Phe

20 25 30

Thr Ser Asn Phe Asn Asn Glu Pro Trp Val Arg Gly Arg His Lys Thr

35 40 45

Tyr Leu Cys Tyr Glu Val Glu Arg Leu Asp Asn Gly Thr Ser Val Lys

50 55 60

Met Asp Gln His Arg Gly Phe Leu His Gly Gln Ala Lys Asn Leu Leu

65 70 75 80

Cys Gly Phe Tyr Gly Arg His Ala Glu Leu Arg Phe Leu Asp Leu Val

85 90 95

Pro Ser Leu Gln Leu Asp Pro Ala Gln Ile Tyr Arg Val Thr Trp Phe

100 105 110

Ile Ser Trp Ser Pro Cys Phe Ser Trp Gly Cys Ala Gly Glu Val Arg

115 120 125

Ala Phe Leu Gln Glu Asn Thr His Val Arg Leu Arg Ile Phe Ala Ala

130 135 140

Arg Ile Tyr Asp Tyr Asp Pro Leu Tyr Lys Glu Ala Leu Gln Met Leu

145 150 155 160

Arg Asp Ala Gly Ala Gln Val Ser Ile Met Thr Tyr Asp Glu Phe Lys

165 170 175

His Cys Trp Asp Thr Phe Val Asp His Gln Gly Cys Pro Phe Gln Pro

180 185 190

Trp Asp Gly Leu Asp Glu His Ser Gln Ala Leu Ser Gly Arg Leu Arg

195 200 205

Ala Ile Leu Gln Asn Gln Gly Asn Ala Ser Ser Gly Gly Ser Ser Gly

210 215 220

Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro

225 230 235 240

Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser

245 250

Claims

1.一种胞苷脱氨酶突变体，其特征在于，为基于APOBEC3A蛋白进行的以下突变中的一种或几种的组合，所述APOBEC3A蛋白的氨基酸序列如SEQ ID NO.1所示：

STA13Del是指删除1-13位氨基酸；

GI-Del是指删除RL1区域第25-26位氨基酸；

2.一种碱基编辑器CBE，其特征在于，所述碱基编辑器CBE为将权利要求1所述胞苷脱氨酶突变体融合于突变型核酸酶的不同位点，得到的新融合蛋白。

3.根据权利要求2所述的一种碱基编辑器CBE，其特征在于，所述碱基编辑器CBE为将权利要求1所述所述胞苷脱氨酶突变体的5’和3’分别添加NLS序列和linker序列后，再融合于突变型核酸酶的不同位点，得到的新融合蛋白。

4.根据权利要求2所述的一种碱基编辑器CBE，其特征在于，所述突变型核酸酶的不同位点包括突变型核酸酶的N-末端、C末端或内部融合位点。

5.根据权利要求2所述的一种碱基编辑器CBE，其特征在于，所述突变型核酸酶选自nSpCas9或其突变体，其中nSpCas9的氨基酸序列如SEQ ID NO.2所示。

6.根据权利要求5所述的一种碱基编辑器CBE，其特征在于，所述突变型核酸酶选自nSpCas9时，nSpCas9的C末端有额外的link序列，link序列如SEQ ID NO.5所示；

所述突变型核酸酶选自nSpCas9时，nSpCas9内部融合位点选择为nSpCas9的第203，312，535，770，793，801，895，905，919，1010，1029，1047-1064或1249位点。

7.根据权利要求2所述的一种碱基编辑器CBE，其特征在于，所述碱基编辑器CBE选择为：

8.一种多核苷酸，其特征在于，编码权利要求1所述胞苷脱氨酶突变体或编码权利要求2所述碱基编辑器CBE。

9.一种载体，其特征在于，含有权利要求8所述的多核苷酸。

10.一种宿主细胞，其特征在于，含利要求2所述碱基编辑器CBE，或含有权利要求9所述载体。

11.一种试剂盒，其特征在于，包含用于构建权利要求1所述胞苷脱氨酶突变体或权利要求2所述碱基编辑器CBE的试剂。