CN111778233A

CN111778233A - 一种新型的单碱基编辑技术及其应用

Info

Publication number: CN111778233A
Application number: CN201910272959.3A
Authority: CN
Inventors: 杨辉; 周昌阳
Original assignee: Center for Excellence in Brain Science and Intelligence Technology Chinese Academy of Sciences
Current assignee: Huida Shanghai Biotechnology Co ltd
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2020-10-16
Anticipated expiration: 2039-04-04
Also published as: CN111778233B

Abstract

本发明提供了一种新型的单碱基编辑技术及其应用。具体地，本发明提供了一种基因编辑酶，其特征在于，所述基因编辑酶的结构如式I所示：Z1‑L1‑Z2‑L2‑Z3‑L3‑Z4 (I)其中，Z1为腺嘌呤脱氨酶TadA的氨基酸序列；Z2为TadA*酶的氨基酸序列；并且所述Z1和/或Z2具有对应于SEQ ID NO:1所示序列的第147位和/或148位的F残基的突变；Z3为Cas9核酸酶的编码序列；L1、L2和L3各自独立地为任选的连接肽序列；Z4为无或核定位信号元件(NLS)；并且各“‑”独立地为肽键。本发明还提供了一种基因单碱基定点编辑的方法。本发明方法的DNA编辑精确度高，并且可显著降低RNA脱靶效应。

Description

一种新型的单碱基编辑技术及其应用

技术领域

本发明涉及生物技术领域，具体地，涉及一种新型的单碱基编辑技术及其应用。

背景技术

自2013年以来，以CRISPR/Cas9为代表的新一代基因编辑技术进入生物学领域的各个实验，正改变着传统的基因操作手段。

近年来开发的DNA碱基编辑方法能够在基因组DNA中直接产生精确的点突变，而不会产生双链断裂(DSB)。已经报道了两类基础编辑器：胞嘧啶碱基编辑器(CBE，C至T和G至A)和腺嘌呤碱基编辑器(ABE，A至G，T 至C)。然而，其应用还存在关键问题，即脱靶效应。

以前的研究主要集中在评估基因组DNA中的脱靶突变。最近的研究结果表明，CBE而非ABEs在基因编辑的过程中诱导大量的脱靶单核苷酸突变，强调了开发更高保真性单碱基编辑工具的必要性。除了DNA靶向活性外，常用的单碱基编辑系统可能会对RNA进行突变。例如，发现与CBE相关的胞嘧啶脱氨酶APOBEC1既能靶向DNA又能靶向RNA，并且发现与ABE相关的腺嘌呤脱氨酶TadA也能诱导RNA上的位点特异性肌苷形成。然而，DNA碱基编辑介导的RNA靶向活性尚未在之前进行过研究。研究表明，胞嘧啶碱基编辑器BE3和腺嘌呤碱基编辑器ABE7.10都产生了数万个脱靶RNA单核苷酸变异 (SNV)，而没有碱基编辑的细胞仅表现出几百个SNV。

目前，已有的DNA碱基编辑方法中，DNA编辑的精确度并不高，即基因编辑窗口过大。哈佛大学的David Liu实验室开发的ABE7.10能够编辑sgRNA 靶向序列的第三到第八个碱基，如果需要编辑的目的碱基旁边还有其他碱基会被非特异性地编辑。

因此，本领域迫切需要开发一种精确度高、显著降低RNA脱靶效应，并且能保持有效的DNA靶向活性的单碱基编辑技术。

发明内容

本发明的目的就是提供一种精确度高、显著降低RNA脱靶效应，并且能保持有效的DNA靶向活性的单碱基编辑技术。

在本发明的第一方面，提供一种腺嘌呤脱氨酶TadA的突变蛋白，所述的突变蛋白为非天然蛋白，并且所述突变蛋白在腺嘌呤脱氨酶TadA的选自下组的一个或多个氨基酸发生突变：

第147位苯丙氨酸(F)和第148位苯丙氨酸(F)；

其中，所述第147位和第148位是对应于如SEQ ID NO:1所示的序列的第147位和第148位。

在另一优选例中，所述的腺嘌呤脱氨酶TadA来源于选自下组的物种：大肠杆菌(E.coli)、超嗜热菌(A.aeolicus)、枯草芽孢杆菌(B.subtilis)、酵母CDD1。

在另一优选例中，所述突变蛋白具有催化腺嘌呤水解脱氨基生成次黄嘌呤的活性。

在另一优选例中，所述的腺嘌呤脱氨酶TadA包括TadA*酶和野生型TadA酶。

在另一优选例中，所述的腺嘌呤脱氨酶TadA为TadA*酶。

在另一优选例中，所述的野生型TadA酶的氨基酸序列如SEQ ID NO:1所示。

在另一优选例中，所述的TadA*酶的氨基酸序列如SEQ ID NO:2所示。

在另一优选例中，所述第147位苯丙氨酸(F)突变为非苯丙氨酸的氨基酸残基。

在另一优选例中，所述第147位苯丙氨酸突变为：丙氨酸(A)、甘氨酸(G)、精氨酸(R)、天冬氨酸(D)、半胱氨酸(C)、谷氨酰胺(Q)、谷氨酸(E)、甘氨酸(G)、组氨酸(H)、异亮氨酸(I)、亮氨酸(L)、赖氨酸(K)、蛋氨酸(M)、丝氨酸(S)、脯氨酸(P)、苏氨酸(T)、色氨酸(W)、酪氨酸 (Y)，或者缬氨酸(V)。

在另一优选例中，所述第147位苯丙氨酸突变为：亮氨酸(L)、缬氨酸(V)、异亮氨酸(I)、丙氨酸(A)，或者酪氨酸(Y)。

在另一优选例中，所述第148位苯丙氨酸(F)突变为非苯丙氨酸的氨基酸残基。

在另一优选例中，所述第148位苯丙氨酸突变为：丙氨酸(A)、甘氨酸(G)、精氨酸(R)、天冬氨酸(D)、半胱氨酸(C)、谷氨酰胺(Q)、谷氨酸(E)、甘氨酸(G)、组氨酸(H)、异亮氨酸(I)、亮氨酸(L)、赖氨酸(K)、蛋氨酸(M)、丝氨酸(S)、脯氨酸(P)、苏氨酸(T)、色氨酸(W)、酪氨酸 (Y)，或者缬氨酸(V)。

在另一优选例中，所述第148位苯丙氨酸突变为：亮氨酸(L)、缬氨酸(V)、异亮氨酸(I)、丙氨酸(A)，或者酪氨酸(Y)。

在另一优选例中，所述的突变蛋白除所述突变(如147位和148位氨基酸)外，其余的氨基酸序列与SEQ ID NO.:1所示的序列相同或基本相同。

在另一优选例中，所述的基本相同是至多有50个(较佳地为1-20个，更佳地为 1-10个、更佳地1-5个)氨基酸不相同，其中，所述的不相同包括氨基酸的取代、缺失或添加，且所述的突变蛋白仍具有催化腺嘌呤水解脱氨基生成次黄嘌呤的活性。

在另一优选例中，所述腺嘌呤脱氨酶TadA为野生型TadA酶时，突变蛋白的氨基酸序列如SEQ ID NO:3所示。

在另一优选例中，所述腺嘌呤脱氨酶TadA为TadA*酶时，突变蛋白的氨基酸序列如SEQ ID NO:4所示。

在另一优选例中，所述突变蛋白的氨基酸序列与SEQ ID NO：3或SEQ ID NO: 4所示序列的同源性至少为80％，较佳地至少为85％或90％，更佳地至少为95％，最佳地至少为98％，且同源性≤166/167或99.4％。

在本发明的第二方面，提供了一种基因编辑酶，所述基因编辑酶的结构如式I 所示：

Z1-L1-Z2-L2-Z3-L3-Z4 (I)

其中，

Z1为腺嘌呤脱氨酶TadA的氨基酸序列；

Z2为TadA*酶的氨基酸序列；

并且所述Z1和/或Z2为如本发明第一方面所述的突变蛋白的氨基酸序列；

Z3为Cas9核酸酶的编码序列；

L1、L2和L3各自独立地为任选的连接肽序列；

Z4为无或核定位信号元件(NLS)；

并且各“-”独立地为肽键。

在另一优选例中，所述Z1具有野生型TadA酶的氨基酸序列。

在另一优选例中，所述Z1具有F147A和/或F148A突变的野生型TadA酶的氨基酸序列。

在另一优选例中，所述Z1为具有F147A和/或F148A突变的野生型TadA酶。

在另一优选例中，所述Z1的氨基酸序列如SEQ ID NO:3所示。

在另一优选例中，所述Z2具有TadA*酶的氨基酸序列。

在另一优选例中，所述Z2具有F147A和/或F148A突变的TadA*酶的氨基酸序列。

在另一优选例中，所述Z2为具有F147A和/或F148A突变的TadA*酶。

在另一优选例中，所述Z2的氨基酸序列如SEQ ID NO:4所示。

在另一优选例中，所述L1的氨基酸序列如SEQ ID NO:5所示。

在另一优选例中，所述L1的氨基酸序列与如SEQ ID NO:5所示的氨基酸序列相同或基本相同。

在另一优选例中，所述L2的氨基酸序列如SEQ ID NO:6所示。

在另一优选例中，所述L2的氨基酸序列与如SEQ ID NO:6所示的氨基酸序列相同或基本相同。

在另一优选例中，所述L3的氨基酸序列如SEQ ID NO:7所示。

在另一优选例中，所述L3的氨基酸序列与如SEQ ID NO:7所示的氨基酸序列相同或基本相同。

在另一优选例中，所述Z3中，所述Cas9核酸酶的来源选自下组：酿脓链球菌(Streptococcuspyogenes)、葡萄球菌(Staphylococcus aureus)、酿脓链球菌突变体，或者金黄色葡萄球菌突变体。

在另一优选例中，所述Z3中，所述Cas9核酸酶可以替换为Cpf1核酸酶，所述 Cpf1核酸酶的来源选自下组：酸性氨基球菌(Acidaminococcus)、毛螺菌科(Lachnospiraceae)、酸性氨基球菌突变体、毛螺菌科突变体。

在另一优选例中，所述Z3的氨基酸序列如SEQ ID NO:8所示。

在另一优选例中，所述Z3的氨基酸序列与如SEQ ID NO:8所示的氨基酸序列相同或基本相同。

在另一优选例中，所述Z4的氨基酸序列如SEQ ID NO:9所示。

在另一优选例中，所述Z4的氨基酸序列与如SEQ ID NO:9所示的氨基酸序列相同或基本相同。

在另一优选例中，所述的基本相同是至多有50个(较佳地为1-20个，更佳地为 1-10个、更佳地1-5个，最佳地为1-3个)氨基酸不相同，其中，所述的不相同包括氨基酸的取代、缺失或添加。

在另一优选例中，所述的基本相同是氨基酸序列与相应氨基酸序列的序列同一性至少为70％、至少为75％、至少为80％、至少为85％、至少为86％、至少为87％、至少为88％、至少为89％、至少为90％、至少为91％、至少为92％、至少为93％、至少为94％、至少为95％、至少为96％、至少为97％、至少为98％，或者至少为99％。

在另一优选例中，所述基因编辑酶的氨基酸序列如SEQ ID NO:10所示。

在本发明的第三方面，提供了一种多核苷酸，所述的多核苷酸编码如本发明第二方面所述的基因编辑酶。

在另一优选例中，所述多核苷酸选自下组：

(a)编码如SEQ ID NO:10所示氨基酸序列的多核苷酸；

(b)核苷酸序列与(a)所述多核苷酸序列的序列同一性≥95％(较佳地≥98％) 的多核苷酸；

(c)与(a)和(b)中任一所述的多核苷酸互补的多核苷酸。

在另一优选例中，所述的如本发明第二方面所述的基因编辑酶的ORF的侧翼还额外含有选自下组的辅助元件：信号肽、分泌肽、标签序列(如6His)、或其组合。

在另一优选例中，所述信号肽为核定位序列。

在另一优选例中，所述的多核苷酸选自下组：DNA序列、RNA序列、或其组合。

在本发明的第四方面，提供了一种载体，所述的载体含有如本发明第三方面所述的多核苷酸。

在另一优选例中，所述载体包括表达载体、穿梭载体、整合载体。

在本发明的第五方面，提供了一种宿主细胞，所述的宿主细胞含有如本发明第四方面所述的载体，或其基因组中整合有如本发明第三方面所述的多核苷酸。

在另一优选例中，所述宿主为原核细胞或真核细胞。

在另一优选例中，所述原核细胞包括：大肠杆菌。

在另一优选例中，所述真核细胞选自下组：酵母细胞、植物细胞、哺乳动物细胞、人细胞(如HEK293T细胞)，或其组合。

在本发明的第六方面，提供了一种基因单碱基定点编辑的方法，包括步骤：

(i)提供一细胞以及第一载体和第二载体，其中所述第一载体含有如本发明第二方面所述的基因编辑酶的表达盒，并且所述第二载体含有表达sgRNA的表达盒；

(ii)用所述的第一载体和第二载体感染所述的细胞，从而在所述细胞内进行单碱基定点编辑。

在另一优选例中，其中，所述第一载体中含有第一核苷酸构建物，所述第一核酸构建物具有5’-3’(5’至3’)的式II结构：

P1-X1-L4-X2 (II)

其中，P1为第一启动子序列；

X1为编码本发明第二方面所述的基因编辑酶的核苷酸序列；

L4为无或连接序列；

X2为polyA序列；

并且，各“-”独立地为键或核苷酸连接序列。

在另一优选例中，所述的第一启动子选自下组：CMV启动子、CAG启动子、 PGK启动子、EF1α启动子，EFS启动子，或其组合。

在另一优选例中，所述第一启动子序列为CMV启动子。

在另一优选例中，所述连接序列的长度为30-120nt，较佳地，48-96nt，并且优选为3的倍数。

在另一优选例中，所述第一载体、第二载体可以相同，可以不同。

在另一优选例中，所述第一载体和第二载体可以为同一载体。

在另一优选例中，所述第一载体和/或第二载体还含有表达筛选标记的表达盒。

在另一优选例中，所述筛选标记选自下组：绿色荧光蛋白、黄色荧光蛋白、红色荧光蛋白、蓝色荧光蛋白，或其组合。

在另一优选例中，所述的方法是非诊断和非治疗性的。

在另一优选例中，所述的细胞来自以下物种：人、非人哺乳动物、家禽、植物、或微生物。

在另一优选例中，所述的非人哺乳动物包括啮齿动物(如小鼠、大鼠、兔)、牛、猪、羊、马、狗、猫、非人灵长动物(如猴)。

在另一优选例中，所述的细胞选自下组：体细胞、干细胞、生殖细胞、非分裂细胞或其组合。

在另一优选例中，所述的细胞选自下组：肾细胞、上皮细胞、内皮细胞，神经细胞或其组合。

在另一优选例中，用所述方法基因编辑时，编辑窗口是sgRNA靶向的20个碱基序列的第4个到第7个碱基，其中第5个碱基的编辑效率最高，往两侧分布式显著降低，而非突变的ABE7.10编辑系统的编辑窗口相对本方法更宽，编辑窗口位第3 个氨基酸到第9个氨基酸，第5个碱基的编辑效率最高，往两侧分布成逐渐降低的趋势。

在本发明的第七方面，提供了一种试剂盒，所述试剂盒包括：

(a1)第一容器，以及位于所述第一容器中的第一载体，所述所述第一载体含有如本发明第二方面所述的基因编辑酶的表达盒。

在另一优选例中，所述试剂盒还包括：

(a2)第二容器，以及位于所述第二容器中的第二载体，所述第二载体含有表达sgRNA的表达盒。

在另一优选例中，所述第一容器和第二容器可以是相同的容器，可以是不同的容器。

在另一优选例中，所述试剂盒还含有说明书，所述说明书中记载了如下说明：将第一载体和第二载体感染细胞，从而在所述细胞内进行基因单碱基定点编辑的方法。

应理解，在本发明范围内中，本发明的上述各技术特征和在下文(如实施例) 中具体描述的各技术特征之间都可以互相组合，从而构成新的或优选的技术方案。限于篇幅，在此不再一一累述。

附图说明

图1显示了各单碱基编辑系统的脱靶RNA SNV结果。

A：实验设计方案。

B：WT(n＝3个重复)、GFP(n＝3)、APOBEC1(n＝3个重复)、BE3(n＝3 个重复)和BE3-位点3(n＝2次重复)的DNA靶向效率。注意，APOBEC1是BE3 的胞嘧啶脱氨酶。

C：WT、GFP、APOBEC1、BE3和BE3-RNF2的DNA靶向效率。每组n＝3 重复。

D：WT、GFP、TadA-TadA*、ABE7.10和ABE7.10-位点1的DNA靶向效率。每组n＝3个重复。注意，TadA-TadA*(野生型TadA酶-进化的TadA异二聚体)是ABE7.10的腺嘌呤脱氨酶，并且改进的TadA由TadA*表示。

E：WT、GFP、TadA-TadA*、ABE7.10和ABE7.10-位点2的DNA靶向效率。每组n＝3个重复。

F、G：BE3和ABE7.10组的脱靶RNA SNV的比较。

H：GFP、BE3和ABE7.10的人染色体上脱靶RNA SNV的代表性分布。染色体用不同的颜色表示。GFP组作为所有比较的对照。所有值均表示为平均值±SEM *p<0.05，**p<0.01，***p<0.001，非配对t检验。

图2显示了脱靶RNA SNV的表征。

A：GFP(n＝6个重复)、APOBEC1(n＝3个重复)、BE3(n＝3个重复)、 BE3-位点3(n＝2个重复)和BE3-RNF2(n＝3次重复)的G>A和C>U突变的比例。

B：GFP(n＝6个重复)、TadA-TadA*(n＝3个重复)、ABE7.10(n＝3个重复)、ABE7.10-位点1(n＝3次重复)和ABE7.10-位点2(n＝3次重复)的A>G 和U>C突变的比例。

C：各组突变类型的分布。数字表示所有突变中某种突变的百分比。

D：BE3和ABE7.10组中任何两个样品之间的共享RNA SNV的比率。通过两个样品之间的重叠RNA SNV的数量除以该行中RNA SNV的数量来计算每个细胞中的比例。

E：ABE7.10诱导的非同义突变位于癌基因和癌基因上具有最高编辑率的肿瘤抑制因子。基因名称用蓝色表示，氨基酸突变用红色表示，单核苷酸转换用绿色表示。GFP组作为所有比较的对照。所有值均表示为平均值±SEM。*p<0.05， **p<0.01，***p<0.001，非配对t检验。

图3显示了用碱基编辑器转染的细胞的单细胞RNA SNV分析结果。

A：通过单细胞RNA测序方法分析的SNV图。

B：来自单细胞RNA-seq数据的单个细胞中ABE、BE3或GFP的表达模式。

C：在GFP-(n＝15个细胞)、BE3-位点3-(n＝4个细胞)和ABE7.10-位点 1-(n＝9个细胞)处理的单个细胞中检测到的脱靶RNA SNV的数量。

D：G>A和C>U突变的比例。

E：GFP(n＝15细胞)、BE3-位点3(n＝4细胞)和ABE7.10-位点1(n＝9个细胞)的A>G和U>C突变的比例。

F：每个细胞中突变类型的分布。数字表示所有突变中某种突变的百分比。

G、H：同一组中任意两个样本之间共享SNV的比率。每个单元中的比例通过两个样本之间的重叠SNV的数量除以该行中的样本来计算。

I：发生在至少3个ABE7.10编辑的单细胞中的位于癌症相关基因上的SNV 的编辑率。GFP组作为所有比较的对照。所有值均表示为平均值±SEM。*p<0.05， **p<0.01，***p<0.001，非配对t检验。

图4显示了通过合理设计脱氨酶消除脱靶RNA SNV的结果。

A：BE3和ABE7.10变体的示意图。所有脱氨酶突变均在BE3/ABE7.10背景下进行。点突变由红线表示。

B：GFP(n＝3个重复)、BE3-位点3(n＝2个重复)，BE3(hA3A)-位点3 (n＝3个重复)和BE3(W90A)-位点3(n＝3个重复)的靶向效率。

C：BE3-位点3处理组中脱靶RNA SNV的比较。

D：GFP、ABE7.10-位点1、ABE7.10(D53G)-位点1和ABE7.10(F148A) -位点1组的靶向效率。每组n＝3个重复。

E：ABE7.10处理组中脱靶RNA SNV的比较。

F：比较ABE7.10和ABE7.10(F148A)在四个不同位点上的编辑效率。每组 n＝3个重复。

G：代表性的编辑位点显示ABE7.10(F148A)缩小了编辑窗口的宽度。所有值均表示为平均值±SEM。*p<0.05，**p<0.01，***p<0.001，非配对t检验。

图5显示了质粒的示意图。

图6显示了染色体上脱靶RNA SNV的代表性分布。

A：APOBEC1、BE3-位点3、BE3-RNF2；B：TadA-TadA*、ABE7.10-位点1 和ABE7.10-位点2

图7显示了所有组的每个重复的突变类型的分布。数字表示所有突变中某种类型突变的百分比。

A：GFP组的每个重复的突变类型的分布。

B：具有或不具有sgRNA的APOBEC1和BE3组的每个重复的突变类型的分布。

C：具有或不具有sgRNA的TadA-TadA*和ABE7.10组的每个重复的突变类型的分布。

图8显示了在所有BE3和ABE7.10转染组中，含有重叠的脱靶RNA SNV的基因显著高于随机模拟基因。通过双侧Student t'检验计算P值。

图9显示了相邻的脱靶RNA SNV序列和靶序列之间的相似性

图10显示了编辑位于癌基因和肿瘤抑制基因上的BE3诱导的非同义突变的速率。单核苷酸转换用绿色表示，氨基酸突变用红色表示，基因名称用蓝色表示。

图11显示了编辑位于癌基因和肿瘤抑制基因上的ABE7.10诱导的非同义突变的比率。单核苷酸转换用绿色表示，氨基酸突变用红色表示，基因名称用蓝色表示。

图12显示了仅在RNA中检测到脱靶RNA SNV，而不是DNA。Sanger测序色谱图显示仅在两个排名最高的癌基因TOPRS和CSDE1的RNA中观察到U至C 突变。

图13显示了转染载体在单细胞中的表达水平。在所有测序的单细胞中定量 GFP、APOBEC1和TadA-TadA*的表达水平。阈值由蓝色虚线表示。GFP、BE3 和ABE7.10的log2(FPKM+1)的阈值分别为0.3、1和0.3。包括表达水平高于阈值的细胞用于进一步分析。

图14显示了所有单细胞的突变类型分布。

A：GFP转染的单细胞(n＝16个细胞)的突变类型的分布。

B：BE3位点3转染的单细胞(n＝31个细胞)的突变类型的分布。表达水平高于阈值的APOBEC1的细胞包括在红色方块中。

C：ABE7.10-位点1-转染的单细胞(n＝28个细胞)的突变类型的分布。具有高于阈值的表达水平TadA-TadA*的细胞包括在红色方块中。该数字表示所有突变中某种突变的百分比。SC代表单细胞。

图15显示了所有单个细胞的脱靶RNA SNV在人染色体上的分布，其表达水平高于阈值。

A：GFP转染的单细胞(n＝15)在人染色体上的脱靶RNA SNV的分布。

B：BE3位点3转染的单细胞(n＝4)在人染色体上的脱靶RNA SNV的分布。

C：ABE7.10-位点1-转染的单细胞(n＝9)的人染色体上脱靶RNA SNV的分布。

图16显示了位于单细胞中癌基因和肿瘤抑制基因上的BE3诱导的非同义突变的编辑率。单核苷酸转换用绿色表示，氨基酸突变用红色表示，基因名称用蓝色表示。

图17显示了位于单细胞中的癌基因和肿瘤抑制基因上的ABE7.10诱导的非同义突变的编辑率。单核苷酸转换用绿色表示，氨基酸突变用红色表示，基因名称用蓝色表示。

图18显示了工程化BE3和ABE7.10变体的人染色体上脱靶RNA SNV的代表性分布。

图19显示了BE3和ABE7.10的工程化变体的突变类型的平均分布，每组n＝3。

图20显示了BE3和ABE7.10的工程化变体的每个样品的突变类型的分布。

图21显示了在BE3和ABE7.10的工程化变体中任何两个样品之间的共享 RNA SNV的比率。通过两个样品之间的重叠RNA SNV的数量除以该行中RNA SNV的数量来计算每个细胞中的比例。

图22显示了对ABE7.10(n＝3)和ABE7.10^F148A(n＝3)之间编辑窗口的宽度的比较。

图23显示了多个物种中的TadA酶的同源性。

具体实施方式

本发明人经过广泛而深入的研究，经过大量的筛选，首次意外地发现，分别将腺嘌呤碱基编辑器ABE相关的腺嘌呤脱氨酶(TadA-TadA*)中的TadA 片段和TadA*片段的第148位的氨基酸残基F分别突变为A(即 TadA^F148A-TadA*^F148A)以后，可以在维持有效的DNA靶向活性的情况下，使其基因编辑窗口显著变窄，即可以显著提高其基因编辑的精确性；并且，实验证明，在具有此突变(即TadA^F148A-TadA*^F148A)的基因编辑系统中，RNA的脱靶效应被大大减少。在此基础上完成了本发明。

术语

如本文所用，术语“碱基突变”指核苷酸序列的某一位置处发生碱基的替换(substitution)、插入(insertion)和/或缺失(deletion)。

如本文所用，术语“碱基替换”指核苷酸序列的某一位置处的碱基突变为另一不同的碱基，比如A突变为G。

如本文所用，“筛选标记基因”指转基因过程中用来筛选转基因细胞或转基因动物的基因，可用于本申请的筛选标记基因没有特别限制，包括转基因领域常用的各种筛选标记基因，代表性例子包括(但并不限于)：荧光素蛋白、或荧光素酶(如萤火虫荧光素酶、海肾荧光素酶)、绿色荧光蛋白、黄色荧光蛋白、红色荧光蛋白、或其组合。

如本文所用，术语“Cas蛋白”指一种核酸酶。一种优选的Cas蛋白是Cas9 蛋白。典型的Cas9蛋白包括(但并不限于)：来源于葡萄球菌(Staphylococcus aureus)的Cas9。在本发明中，所述的Cas9蛋白还可以被Cpf1核酸酶替换，所述Cpf1核酸酶的来源选自下组：酸性氨基球菌(Acidaminococcus)、毛螺菌科 (Lachnospiraceae)、酸性氨基球菌突变体、毛螺菌科突变体。

腺嘌呤脱氨酶TadA

TadA是的原核RNA编辑酶。

TadA酶具有腺嘌呤脱氨酶的活性，能够将腺嘌呤(Adenosine,A)脱氨基化成为次黄嘌呤(Inosine,I)。重组TadA蛋白形成同源二聚体，通过在tRNA Arg-2的摆动位置使腺苷残基脱氨来产生肌苷。

如图23所示，在多个物种中，TadA均具有较高的同源性。例如，大肠杆菌tadA显示与酵母tRNA脱氨酶亚基Tad2p的序列相似性。

在多个物种中，尤其在对应于本发明SEQ ID NO:1所示序列的第148位，具有高度保守的氨基酸残基。

如本文所用，术语“TadA7.10”、“TadA*”可互换使用，是指一种在本发明所述的野生型TadA酶的氨基酸序列的基础上的突变体，突变的氨基酸残基包括 W23R、H36L、P48A、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、 R152P、E155V、I156F和K157N。

相应地，术语“ABE7.10”、“TadA-TadA*”可互换使用，是指氨基酸序列中，包含了未经本发明所述的突变的野生型TadA酶和TadA*酶的氨基酸序列的蛋白。

在本发明的一个实施方式中，所述的野生型TadA酶具有如SEQ ID NO:1所示的氨基酸序列，所述的TadA*酶具有如SEQ ID NO:2所示的氨基酸序列。

本发明基因编辑酶及其编码核酸

如本文所用，术语“基因编辑酶”、“本发明基因编辑酶”、“本发明 TadA^F148A-TadA*^F148A”、“ABE7.10^F148A”可互换使用，是指本发明第二方面所述的具有式I结构的基因编辑酶：

Z1-L1-Z2-L2-Z3-L3-Z4 (I)

其中，

Z1为腺嘌呤脱氨酶TadA的氨基酸序列；

Z2为TadA*酶的氨基酸序列；

Z3为Cas9核酸酶的编码序列；

L1、L2和L3各自独立地为任选的连接肽序列；

Z4为无或核定位信号元件(NLS)；

并且各“-”独立地为肽键。

在一个优选的实施方式中，所述Z1的氨基酸序列为在SEQ ID NO:1所示氨基酸序列的基础上，在第148位发生F148A突变的氨基酸序列。

在一个优选的实施方式中，所述Z2的氨基酸序列为在SEQ ID NO:2所示氨基酸序列的基础上，在第148位发生F148A突变的氨基酸序列。

在一个优选的实施方式中，所述Z3的氨基酸序列如SEQ ID NO:8所示。

在本发明的一个实施方式中，所述的L1、L2和L3各自独立地具有选自下组的氨基酸序列：GGS、(GGS)₂、(GGS)₃、(GGS)₄、(GGS)₅、(GGS)₆、(GGS)₇，或其组合。

在一个优选的实施方式中，所述L1的氨基酸序列为 SGGSSGGSSGSETPGTSESATPESSGGSSGGS(SEQ ID NO:5)；所述L2的氨基酸序列为SGGSSGGSSGSETPGTSESATPESSGGSSGGSGS(SEQ ID NO:6)；所述L3的氨基酸序列为SGGS(SEQ ID NO:7)。

在一个优选地实施方式中，所述Z4为核定位信号元件(NLS)，氨基酸序列为PKKKRKV(SEQ ID NO:9)。

在本发明的一个优选的实施方式中，本发明基因编辑酶的一种典型的氨基酸序列如SEQ ID NO:10所示。

本发明还包括与本发明的SEQ ID NO：10所示序列具有50％或以上(优选 60％以上，70％以上，80％以上，更优选90％以上，更优选95％以上，最优选 98％以上，如99％)同源性的具有相同或相似功能的多肽或蛋白。

所述“相同或相似功能”主要是指：“催化腺嘌呤水解脱氨基生成次黄嘌呤的活性”。

应理解，本发明基因编辑酶中的氨基酸编号基于SEQ ID NO.:10作出，当某一具体基因编辑酶与SEQ ID NO.:10所示序列的同源性达到80％或以上时，基因编辑酶的氨基酸编号可能会有相对于SEQ ID NO.:10的氨基酸编号的错位，如向氨基酸的N末端或C末端错位1-5位，而采用本领域常规的序列比对技术，本领域技术人员通常可以理解这样的错位是在合理范围内的，且不应当由于氨基酸编号的错位而使同源性达80％(如90％、95％、98％)的、具有相同或相似产生基因编辑酶催化活性的突变体不在本发明基因编辑酶的范围内。

本发明基因编辑酶是合成蛋白或重组蛋白，即可以是化学合成的产物，或使用重组技术从原核或真核宿主(例如，细菌、酵母、植物)中产生。根据重组生产方案所用的宿主，本发明的基因编辑酶可以是糖基化的，或可以是非糖基化的。本发明的基因编辑酶还可包括或不包括起始的甲硫氨酸残基。

本发明还包括所述基因编辑酶的片段、衍生物和类似物。如本文所用，术语“片段”、“衍生物”和“类似物”是指基本上保持所述基因编辑酶相同的生物学功能或活性的蛋白。

本发明的基因编辑酶片段、衍生物或类似物可以是(i)有一个或多个保守或非保守性氨基酸残基(优选保守性氨基酸残基)被取代的基因编辑酶，而这样的取代的氨基酸残基可以是也可以不是由遗传密码编码的，或(ii)在一个或多个氨基酸残基中具有取代基团的基因编辑酶，或(iii)成熟基因编辑酶与另一个化合物(比如延长基因编辑酶半衰期的化合物，例如聚乙二醇)融合所形成的基因编辑酶，或(iv)附加的氨基酸序列融合到此基因编辑酶序列而形成的基因编辑酶 (如前导序列或分泌序列或用来纯化此基因编辑酶的序列或蛋白原序列，或与抗原IgG片段的形成的融合蛋白)。根据本文的教导，这些片段、衍生物和类似物属于本领域熟练技术人员公知的范围。本发明中，保守性替换的氨基酸最好根据表I进行氨基酸替换而产生。

表I

此外，还可以对本发明基因编辑酶进行修饰。修饰(通常不改变一级结构) 形式包括：体内或体外的基因编辑酶的化学衍生形式如乙酰化或羧基化。修饰还包括糖基化，如那些在基因编辑酶的合成和加工中或进一步加工步骤中进行糖基化修饰而产生的基因编辑酶。这种修饰可以通过将基因编辑酶暴露于进行糖基化的酶(如哺乳动物的糖基化酶或去糖基化酶)而完成。修饰形式还包括具有磷酸化氨基酸残基(如磷酸酪氨酸，磷酸丝氨酸，磷酸苏氨酸)的序列。还包括被修饰从而提高了其抗蛋白水解性能或优化了溶解性能的基因编辑酶。

术语“编码基因编辑酶的多核苷酸”可以是包括编码本发明基因编辑酶的多核苷酸，也可以是还包括附加编码和/或非编码序列的多核苷酸。

本发明还涉及上述多核苷酸的变异体，其编码与本发明有相同的氨基酸序列的多肽或基因编辑酶的片段、类似物和衍生物。这些核苷酸变异体包括取代变异体、缺失变异体和插入变异体。如本领域所知的，等位变异体是一个多核苷酸的替换形式，它可能是一个或多个核苷酸的取代、缺失或插入，但不会从实质上改变其编码的基因编辑酶的功能。

本发明还涉及与上述的序列杂交且两个序列之间具有至少50％，较佳地至少70％，更佳地至少80％相同性的多核苷酸。本发明特别涉及在严格条件(或严紧条件)下与本发明所述多核苷酸可杂交的多核苷酸。在本发明中，“严格条件” 是指：(1)在较低离子强度和较高温度下的杂交和洗脱，如0.2×SSC，0.1％SDS， 60℃；或(2)杂交时加有变性剂，如50％(v/v)甲酰胺，0.1％小牛血清/0.1％Ficoll， 42℃等；或(3)仅在两条序列之间的相同性至少在90％以上，更好是95％以上时才发生杂交。

本发明的基因编辑酶和多核苷酸优选以分离的形式提供，更佳地，被纯化至均质。

本发明多核苷酸全长序列通常可以通过PCR扩增法、重组法或人工合成的方法获得。对于PCR扩增法，可根据本发明所公开的有关核苷酸序列，尤其是开放阅读框序列来设计引物，并用市售的cDNA库或按本领域技术人员已知的常规方法所制备的cDNA库作为模板，扩增而得有关序列。当序列较长时，常常需要进行两次或多次PCR扩增，然后再将各次扩增出的片段按正确次序拼接在一起。

一旦获得了有关的序列，就可以用重组法来大批量地获得有关序列。这通常是将其克隆入载体，再转入细胞，然后通过常规方法从增殖后的宿主细胞中分离得到有关序列。

此外，还可用人工合成的方法来合成有关序列，尤其是片段长度较短时。通常，通过先合成多个小片段，然后再进行连接可获得序列很长的片段。

目前，已经可以完全通过化学合成来得到编码本发明蛋白(或其片段，或其衍生物)的DNA序列。然后可将该DNA序列引入本领域中已知的各种现有的 DNA分子(或如载体)和细胞中。此外，还可通过化学合成将突变引入本发明蛋白序列中。

应用PCR技术扩增DNA/RNA的方法被优选用于获得本发明的多核苷酸。特别是很难从文库中得到全长的cDNA时，可优选使用RACE法(RACE-cDNA 末端快速扩增法)，用于PCR的引物可根据本文所公开的本发明的序列信息适当地选择，并可用常规方法合成。可用常规方法如通过凝胶电泳分离和纯化扩增的DNA/RNA片段。

本发明方法

在本发明中，还提供了一种基因单碱基定点编辑的方法，包括步骤：

P1-X1-L4-X2 (II)

其中，

P1为第一启动子序列；

X1为编码本发明第二方面所述的基因编辑酶的核苷酸序列；

L4为无或连接序列；

X2为polyA序列；

并且，各“-”独立地为键或核苷酸连接序列。

其中，所述的第一启动子选自下组：CMV启动子、CAG启动子、PGK启动子、 EF1α启动子，EFS启动子，或其组合。在一个优选的实施方式中，所述第一启动子序列为CMV启动子。

在本发明的一个实施方式中，所述连接序列的长度为30-120nt，较佳地， 48-96nt，并且优选为3的倍数。

在所述的方法中，所述第一载体、第二载体可以相同，可以不同。在一个优选的实施方式中，所述的第一载体和第二载体可以为同一载体。

优选地，所述第一载体和/或第二载体还含有表达筛选标记的表达盒。所述的筛选标记选自下组：绿色荧光蛋白、黄色荧光蛋白、红色荧光蛋白、蓝色荧光蛋白，或其组合。

在本发明的一个实施方式中，所述的方法是非诊断和非治疗性的。

在本发明的方法中，所述的细胞来自以下物种：人、非人哺乳动物、家禽、植物、或微生物。其中，所述的非人哺乳动物包括啮齿动物(如小鼠、大鼠、兔)、牛、猪、羊、马、狗、猫、非人灵长动物(如猴)。

在本发明的一个实施方式中，所述的细胞选自下组：体细胞、干细胞、生殖细胞、非分裂细胞或其组合。优选地，所述的细胞选自下组：肾细胞、上皮细胞、内皮细胞，神经细胞或其组合。

在本发明中，用所述方法基因编辑时，编辑窗口是sgRNA靶向的20个碱基序列的第4个到第7个碱基，其中第5个碱基的编辑效率最高，往两侧分布式显著降低，而非突变的ABE7.10编辑系统的编辑窗口相对本方法更宽，编辑窗口位第3个氨基酸到第9个氨基酸，第5个碱基的编辑效率最高，往两侧分布成逐渐降低的趋势。

本发明的主要优点包括：

1)减小了单碱基编辑系统ABE的编辑窗口，大大提高了单碱基编辑的精确性。用本发明方法基因编辑时，编辑窗口是sgRNA靶向的20个碱基序列的第4 个到第7个碱基，其中第5个碱基的编辑效率最高，往两侧分布式显著降低，而非突变的ABE7.10编辑系统的编辑窗口相对本方法更宽，编辑窗口位第3个氨基酸到第9个氨基酸，第5个碱基的编辑效率最高，往两侧分布成逐渐降低的趋势。

2)几乎消除了单碱基编辑系统ABE在RNA水平上产生的点突变，大大提高了单碱基编辑系统ABE的特异性。

3)ABE7.10^F148A几乎维持了ABE7.10的编辑活性，在目的编辑位点中保持一致的活性。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件，例如Sambrook等人，分子克隆：实验室手册(New York:Cold Spring HarborLaboratorypress,1989)中所述的条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数是重量百分比和重量份数。

如无特别说明，实施例所用的材料和试剂均为市售产品。

方法和材料

瞬时转染和测序

根据标准方案使用NEBuilder HiFi DNA Assembly Master Mix(New EnglandBiolabs)构建质粒。将293T细胞接种在10cm培养皿中，并在补充有10％FBS (ThermoFisher Scientific)和青霉素/链霉素的Dulbecco改良Eagle培养基(DMEM， ThermoFisher Scientific)中于37℃、5％CO₂下培养。使用Lipofectamine 3000 (Thermo FisherScientific)用30μg质粒转染细胞。转染三天后，用0.05％胰蛋白酶(Thermo FisherScientific)消化细胞并制备用于FACS。分选GFP阳性细胞并保存在DMEM或Trizol(Ambion)中以确定DNA碱基编辑或RNA-seq。为了确定DNA碱基编辑的效率，使用一步小鼠基因分型试剂盒(Vazyme)裂解细胞，随后使用Hi-TOM或使用EditR 1.0.8定量的Sanger测序进行深度测序。对于 RNA-seq，收集～500000个细胞并根据标准方案提取RNA，然后转化为cDNA，其用于高通量RNA-seq。

通过RNA测序进行RNA编辑分析

使用Illumina Hiseq以125x的平均覆盖度进行高通量mRNA测序(RNA-seq)。FastQC(v0.11.3)和Trimmomatic(v0.36)用于质量控制。使用STAR(v2.5.2b) 以2遍模式将合格的读数映射到参考基因组(Ensemble GRCh38)，其参数由 ENCODE项目实施。然后应用Picard工具(v2.3.0)对映射的BAM文件的重复项进行排序和标记。精制的BAM文件分别使用来自GATK(v3.5)的 SplitNCigarReads，IndelRealigner，BaseRecalibrator和HaplotypeCaller工具进行分割读取、跨越剪接点、局部重新排列、基础重新校准和变体调用。为了确定具有高可信度的变体，过滤至少5个SNV的簇，这些SNV在35个碱基的窗口内，并且保留了基因质量得分>25的变体，映射质量得分>20，Fisher Strand值(FS>30.0)、Qual By深度值(QD<2.0)和测序深度>20。

在野生型293T细胞中发现的任何可靠变体被认为是SNP并且从GFP和碱基编辑器转染的组中过滤出用于脱靶分析。编辑率计算为突变读数的数量除以每个位点的测序深度。为了分析每个脱靶的预测变异效应，使用变异效应预测器(VEP， v94)和GRCh38数据库进行变体注释。

单细胞全长RNA-seq的文库构建

在FACS后手动挑取单个人293T细胞，裂解并使用Smart-seq2方案进行cDNA 合成。然后如前所述扩增并片段化单细胞cDNA(2,3)。构建测序文库(New England Biolabs)，质量检查并在Illumina HiSeq X-Ten平台(Novogene)上用配对末端150-bp 读数测序。

处理单细胞RNA-seq数据

首先修剪单细胞RNA-seq数据的原始读数并与GRCh38人转录组(STAR v2.5.2b)比对。在去重复后，使用GATK软件(v3.5)鉴定来自个体细胞的RNA SNV。在DP≥20.0，FS≤30.0和QD≥2.0的单细胞中检测到的那些SNV被保留用于下游分析。

统计分析

所有值均显示为平均值+/-SEM。未配对Student's t检验(双尾)用于比较，p <0.05被认为具有统计学意义。

实施例1：对各种单碱基编辑系统进行脱靶RNA SNV检测

在本实施例中，为了评估基因编辑在RNA水平上的脱靶效应，将CBE、 BE3(APOBEC1-nCas9-UGI)或ABE、ABE7.10(TadA-TadA*-nCas9)，以及GFP和有或没有单指导RNA(sgRNA)转染至培养的293T细胞。温育72 小时后，通过FACS收集表达GFP的细胞，然后通过RNA-seq分析。将每一组的实验结果与野生型(WT，未转染的)样品相比，在每个转染组中调用RNA SNV(图1A)。

9组转染细胞包括表达GFP、APOBEC1、BE3、具有“位点3”sgRNA的BE3、具有“RNF2”sgRNA的BE3、TadA-TadA*、ABE7.10、具有“位点1”sgRNA的 ABE7.10、具有“位点2”sgRNA的ABE7.10的细胞(图5)。

首先，使用靶向深度测序验证了这些293T细胞中BE3和ABE7.10的DNA 编辑的高靶向效率，结果如图1B至1E所示。

接下来，在这些样品上以125x的平均深度进行RNA-seq(每组两次或三次重复)。在每个重复中分别从RNA-seq数据中调用RNA SNV，过滤掉在任何WT细胞中鉴定的那些。

结果如图1F至1H、图6所示。在GFP转染的细胞中发现742+/-113(SEM， n＝6)RNASNV。令人惊讶的是，在表达APOBEC1、不含sgRNA的BE3、具有位点3或RNF2sgRNA的BE3(为仅表达GFP细胞中的5-40倍)中具有更多数量的RNA SNV。类似地，在表达TadA-TadA*、不含sgRNA的ABE7.10 或具有位点1或位点2sgRNA的ABE7.10的细胞中也发现了大量RNA SNV(5-10倍)。

有趣的是，在本实施例中发现，APOBEC1或TadA-TadA*的转染诱导了比其他转染组更高量的RNA SNV，这意味着CBE或ABE处理的细胞中SNV的增加可能是由脱氨酶APOBEC1或TadA的过表达引起的。

实施例2：脱靶RNA SNV的表征

在本实施例中，对各单碱基编辑系统进行了脱靶RNA SNV的表征。

结果如图2和图7-12所示。

值得注意的是，在BE3处理的细胞中鉴定的几乎100％的RNA SNV是从 G到A或从C到U的突变，显着高于GFP转染的细胞(如图2A和2C以及图 7)。这种突变偏差与APOBEC1本身相同，表明这些突变不是自发的，而是由 BE3或APOBEC1诱导的。

相应地，95％的ABE7.10诱导的突变是A至G或U至C，与ABE7.10的作用一致(如图2B和2C以及图7)。

从结果中，还可以注意到GFP组也对A到G和U到C突变表现出一些偏差(如图2C)，这可能是由于先天突变偏好。

在BE3-或ABE7.10-转染组的任何两个样品中，分别观察到27.7+/-3.6％或51.0+/-3.3％的重叠，并且这些重叠的SNV在具有高表达的基因中显著富集 (图2D和图8)。然而，没有脱靶位点与预测的脱靶突变重叠，并且在脱靶和靶序列之间未观察到相似性(图2D和图9)。

因此，CBE和ABE诱导的脱靶RNA SNV分别是sgRNA非依赖性的并且分别由APOBEC1和TadA-TadA*的过表达引起。

有趣的是，在本实施例中，观察到ABE7.10分别在癌基因和肿瘤抑制基因中诱导了56和12个非同义RNA SNV，其中许多显示编辑率高于40％并通过 Sanger测序验证，提高了对致癌风险的担忧DNA碱基编辑(如图2E、图10 至12)。

实施例3：用单碱基编辑系统转染的细胞的单细胞RNA SNV分析

在本实施例中，在四组细胞(WT、GFP、BE3-位点3和ABE7.10-位点1) 上进行单细胞RNA-seq测序，以避免由于群体平均而导致的随机脱靶信号丢失。

结果如图3和图13-17所示。

平均而言，通过约6.07百万个测序读数在每个单细胞中检测到10,932个 RefSeq基因，结果如图3B所示。选取具有高表达水平的指定脱氨酶的细胞用于进一步分析，结果图13所示。并且，在表达基础编辑的那些细胞中观察到严重的RNA脱靶和类似的突变模式(如图3C至3F和图14和15)。

有趣的是，任何BE3或ABE7.10编辑细胞共享的脱靶位点百分比(4.5+/- 1.0％)远低于细胞群(40.8+/-3.7％)，这表明BE3-或ABE7.10诱导的脱靶 SNV基本上是随机的和sgRNA非依赖性的(如图3G和3H)。值得注意的是，在单细胞中的一些癌基因和肿瘤抑制因子中检测到的非同义突变的编辑率高于从细胞群观察到的编辑率(如图3I、图16和17)。

实施例4：通过合理设计脱氨酶消除脱靶RNA

在本实施例中，为了进一步探索可能消除碱基编辑的RNA脱靶活性的实验方法，本发明人研究了去稳定APOBEC1和TadA对RNA结合的潜在影响。

具体地，测试了用hA3A替换APOBEC1是否可以消除BE3的RNA脱靶活性(如图4A)。

结果如图4和图18-22所示。

实际上，与BE3(APOBEC1)转染的细胞相比，BE3(hA3A)转染的293T 细胞显示出显着降低的脱靶RNA SNV，同时保持高的靶向DNA编辑效率(图 4B和4C，图18)。

在另一种方法中，向APOBEC1的预测RNA结合域引入了点突变W90A，并发现虽然BE3(W90A)消除了RNA脱靶效应，但BE3的靶向DNA编辑活性(W90A)基本上不存在(图4B和4C，图18)。

在本实施例中，对于ABE的改造，本发明人将D53G或F148A引入ABE7.10 的TadA和TadA*(图4A)。

有趣的是，发现ABE7.10^D53G和ABE7.10^F148A都保持了高DNA靶向效率，并且ABE7.10^F148A显示完全没有RNA脱靶效应，结果如图4D和4E、图18所示。此外，ABE7.10^F148A转染细胞中剩余的SNV与仅用GFP转染的细胞中的水平相近(如图19至21)。在本实施例中，还进一步证实，ABE7.10^F148A的 DNA靶向活性在另外四个位点上与ABE7.10的相似(如图4F)。

特别值得注意的是，在本实施例中，ABE7.10^F148A的编辑窗口显着缩小，结果图4G和图22所示。这表明DNA碱基编辑的精确度提高。

因此，本发明中工程化改造的ABE7.10^F148A具有较大的应用前景。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

序列表

<110> 中国科学院上海生命科学研究院

<120> 一种新型的单碱基编辑技术及其应用

<130> P2019-0470

<160> 10

<170> SIPOSequenceListing 1.0

<210> 1

<211> 167

<212> PRT

<213> 人工序列(artificial sequence)

<400> 1

Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu

1 5 10 15

Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala

20 25 30

Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro

35 40 45

Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg

50 55 60

Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu

65 70 75 80

Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His

85 90 95

Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly

100 105 110

Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His

115 120 125

Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu

130 135 140

Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys

145 150 155 160

Lys Ala Gln Ser Ser Thr Asp

165

<210> 2

<211> 166

<212> PRT

<213> 人工序列(artificial sequence)

<400> 2

Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu Thr

1 5 10 15

Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala Val

20 25 30

Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala Ile

35 40 45

Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln

50 55 60

Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu Tyr

65 70 75 80

Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ser

85 90 95

Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly Ala

100 105 110

Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His Arg

115 120 125

Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu Leu

130 135 140

Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys Lys

145 150 155 160

Ala Gln Ser Ser Thr Asp

165

<210> 3

<211> 167

<212> PRT

<213> 人工序列(artificial sequence)

<400> 3

Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu

1 5 10 15

Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala

20 25 30

Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro

35 40 45

Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg

50 55 60

Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu

65 70 75 80

Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His

85 90 95

Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly

100 105 110

Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His

115 120 125

Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu

130 135 140

Leu Ser Asp Phe Ala Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys

145 150 155 160

Lys Ala Gln Ser Ser Thr Asp

165

<210> 4

<211> 166

<212> PRT

<213> 人工序列(artificial sequence)

<400> 4

Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu Thr

1 5 10 15

Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala Val

20 25 30

Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala Ile

35 40 45

Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln

50 55 60

Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu Tyr

65 70 75 80

Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ser

85 90 95

Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly Ala

100 105 110

Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His Arg

115 120 125

Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu Leu

130 135 140

Cys Tyr Phe Ala Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys Lys

145 150 155 160

Ala Gln Ser Ser Thr Asp

165

<210> 5

<211> 32

<212> PRT

<213> 人工序列(artificial sequence)

<400> 5

Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr

1 5 10 15

Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser

20 25 30

<210> 6

<211> 34

<212> PRT

<213> 人工序列(artificial sequence)

<400> 6

Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr

1 5 10 15

Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser

20 25 30

Gly Ser

<210> 7

<211> 4

<212> PRT

<213> 人工序列(artificial sequence)

<400> 7

Ser Gly Gly Ser

1

<210> 8

<211> 1367

<212> PRT

<213> 人工序列(artificial sequence)

<400> 8

Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val Gly

1 5 10 15

Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys

20 25 30

Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly

35 40 45

Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys

50 55 60

Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr

65 70 75 80

Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe

85 90 95

Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His

100 105 110

Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His

115 120 125

Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser

130 135 140

Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met

145 150 155 160

Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp

165 170 175

Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn

180 185 190

Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys

195 200 205

Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu

210 215 220

Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu

225 230 235 240

Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp

245 250 255

Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp

260 265 270

Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu

275 280 285

Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile

290 295 300

Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met

305 310 315 320

Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala

325 330 335

Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp

340 345 350

Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln

355 360 365

Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly

370 375 380

Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys

385 390 395 400

Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly

405 410 415

Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu

420 425 430

Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro

435 440 445

Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met

450 455 460

Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val

465 470 475 480

Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn

485 490 495

Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu

500 505 510

Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr

515 520 525

Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys

530 535 540

Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val

545 550 555 560

Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser

565 570 575

Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr

580 585 590

Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn

595 600 605

Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu

610 615 620

Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His

625 630 635 640

Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr

645 650 655

Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys

660 665 670

Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala

675 680 685

Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys

690 695 700

Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His

705 710 715 720

Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile

725 730 735

Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg

740 745 750

His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr

755 760 765

Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu

770 775 780

Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val

785 790 795 800

Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln

805 810 815

Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu

820 825 830

Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp

835 840 845

Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly

850 855 860

Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn

865 870 875 880

Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe

885 890 895

Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys

900 905 910

Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys

915 920 925

His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu

930 935 940

Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys

945 950 955 960

Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu

965 970 975

Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val

980 985 990

Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val

995 1000 1005

Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser

1010 1015 1020

Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn

1025 1030 1035 1040

Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile

1045 1050 1055

Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val

1060 1065 1070

Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met

1075 1080 1085

Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly Phe

1090 1095 1100

Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala

1105 1110 1115 1120

Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro

1125 1130 1135

Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys

1140 1145 1150

Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met

1155 1160 1165

Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys

1170 1175 1180

Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr

1185 1190 1195 1200

Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala

1205 1210 1215

Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val

1220 1225 1230

Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro

1235 1240 1245

Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His Tyr

1250 1255 1260

Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile

1265 1270 1275 1280

Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His

1285 1290 1295

Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe

1300 1305 1310

Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp Thr

1315 1320 1325

Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp Ala

1330 1335 1340

Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp

1345 1350 1355 1360

Leu Ser Gln Leu Gly Gly Asp

1365

<210> 9

<211> 7

<212> PRT

<213> 人工序列(artificial sequence)

<400> 9

Pro Lys Lys Lys Arg Lys Val

1 5

<210> 10

<211> 1777

<212> PRT

<213> 人工序列(artificial sequence)

<400> 10

Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu

1 5 10 15

Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala

20 25 30

Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro

35 40 45

Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg

50 55 60

Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu

65 70 75 80

Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His

85 90 95

Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly

100 105 110

Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His

115 120 125

Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu

130 135 140

Leu Ser Asp Phe Ala Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys

145 150 155 160

Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser

165 170 175

Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser

180 185 190

Gly Gly Ser Ser Gly Gly Ser Ser Glu Val Glu Phe Ser His Glu Tyr

195 200 205

Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg

210 215 220

Glu Val Pro Val Gly Ala Val Leu Val Leu Asn Asn Arg Val Ile Gly

225 230 235 240

Glu Gly Trp Asn Arg Ala Ile Gly Leu His Asp Pro Thr Ala His Ala

245 250 255

Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val Met Gln Asn Tyr Arg

260 265 270

Leu Ile Asp Ala Thr Leu Tyr Val Thr Phe Glu Pro Cys Val Met Cys

275 280 285

Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg Val Val Phe Gly Val

290 295 300

Arg Asn Ala Lys Thr Gly Ala Ala Gly Ser Leu Met Asp Val Leu His

305 310 315 320

Tyr Pro Gly Met Asn His Arg Val Glu Ile Thr Glu Gly Ile Leu Ala

325 330 335

Asp Glu Cys Ala Ala Leu Leu Cys Tyr Phe Ala Arg Met Pro Arg Gln

340 345 350

Val Phe Asn Ala Gln Lys Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly

355 360 365

Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser

370 375 380

Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser Gly Ser Asp

385 390 395 400

Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val Gly Trp

405 410 415

Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys Val

420 425 430

Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly Ala

435 440 445

Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys Arg

450 455 460

Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu

465 470 475 480

Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe Phe

485 490 495

His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His Glu

500 505 510

Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His Glu

515 520 525

Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser Thr

530 535 540

Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met Ile

545 550 555 560

Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn

565 570 575

Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln

580 585 590

Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys Ala

595 600 605

Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile

610 615 620

Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile

625 630 635 640

Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu

645 650 655

Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp

660 665 670

Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe

675 680 685

Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu

690 695 700

Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile

705 710 715 720

Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala Leu

725 730 735

Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln

740 745 750

Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu

755 760 765

Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr

770 775 780

Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln

785 790 795 800

Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly Glu

805 810 815

Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys

820 825 830

Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr

835 840 845

Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr

850 855 860

Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val Val

865 870 875 880

Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn Phe

885 890 895

Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu

900 905 910

Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val

915 920 925

Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys

930 935 940

Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys

945 950 955 960

Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val

965 970 975

Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr

980 985 990

His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu

995 1000 1005

Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu Phe

1010 1015 1020

Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His Leu

1025 1030 1035 1040

Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr Gly

1045 1050 1055

Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys Gln

1060 1065 1070

Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala Asn

1075 1080 1085

Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys Glu

1090 1095 1100

Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His Glu

1105 1110 1115 1120

His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile Leu

1125 1130 1135

Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg His

1140 1145 1150

Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr

1155 1160 1165

Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu Glu

1170 1175 1180

Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val Glu

1185 1190 1195 1200

Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn

1205 1210 1215

Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser

1220 1225 1230

Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp Asp

1235 1240 1245

Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys

1250 1255 1260

Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr

1265 1270 1275 1280

Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe Asp

1285 1290 1295

Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys Ala

1300 1305 1310

Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His

1315 1320 1325

Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu Asn

1330 1335 1340

Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys Leu

1345 1350 1355 1360

Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu Ile

1365 1370 1375

Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val Gly

1380 1385 1390

Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr

1395 1400 1405

Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu

1410 1415 1420

Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile

1425 1430 1435 1440

Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg

1445 1450 1455

Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp

1460 1465 1470

Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met Pro

1475 1480 1485

Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly Phe Ser

1490 1495 1500

Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg

1505 1510 1515 1520

Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr

1525 1530 1535

Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser

1540 1545 1550

Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu

1555 1560 1565

Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly

1570 1575 1580

Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser

1585 1590 1595 1600

Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly

1605 1610 1615

Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn

1620 1625 1630

Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu

1635 1640 1645

Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu

1650 1655 1660

Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu

1665 1670 1675 1680

Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg

1685 1690 1695

Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr

1700 1705 1710

Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp Thr Thr

1715 1720 1725

Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp Ala Thr

1730 1735 1740

Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu

1745 1750 1755 1760

Ser Gln Leu Gly Gly Asp Ser Gly Gly Ser Pro Lys Lys Lys Arg Lys

1765 1770 1775

Val

Claims

1.一种腺嘌呤脱氨酶TadA的突变蛋白，其特征在于，所述的突变蛋白为非天然蛋白，并且所述突变蛋白在腺嘌呤脱氨酶TadA的选自下组的一个或多个氨基酸发生突变：

第147位苯丙氨酸(F)和第148位苯丙氨酸(F)；

2.如权利要求1所述的突变蛋白，其特征在于，所述突变蛋白具有催化腺嘌呤水解脱氨基生成次黄嘌呤的活性。

3.如权利要求1所述的突变蛋白，其特征在于，所述的腺嘌呤脱氨酶TadA包括TadA*酶和野生型TadA酶。

4.一种基因编辑酶，其特征在于，所述基因编辑酶的结构如式I所示：

Z1-L1-Z2-L2-Z3-L3-Z4 (I)

其中，

Z1为腺嘌呤脱氨酶TadA的氨基酸序列；

Z2为TadA*酶的氨基酸序列；

并且所述Z1和/或Z2为如权利要求1所述的突变蛋白的氨基酸序列；

Z3为Cas9核酸酶的编码序列；

L1、L2和L3各自独立地为任选的连接肽序列；

Z4为无或核定位信号元件(NLS)；

并且各“-”独立地为肽键。

5.如权利要求4所述的基因编辑梅，其特征在于，所述基因编辑酶的氨基酸序列如SEQID NO:10所示。

6.一种多核苷酸，其特征在于，所述的多核苷酸编码如权利要求4所述的基因编辑酶。

7.一种载体，其特征在于，所述的载体含有如权利要求6所述的多核苷酸。

8.一种宿主细胞，其特征在于，所述的宿主细胞含有如权利要求7所述的载体，或其基因组中整合有如权利要求6所述的多核苷酸。

9.一种基因单碱基定点编辑的方法，其特征在于，包括步骤：

(i)提供一细胞以及第一载体和第二载体，其中所述第一载体含有如权利要求2所述的基因编辑酶的表达盒，并且所述第二载体含有表达sgRNA的表达盒；

10.一种试剂盒，其特征在于，所述试剂盒包括：

(a1)第一容器，以及位于所述第一容器中的第一载体，所述所述第一载体含有如权利要求2所述的基因编辑酶的表达盒。