CN111778233A - 一种新型的单碱基编辑技术及其应用 - Google Patents

一种新型的单碱基编辑技术及其应用 Download PDF

Info

Publication number
CN111778233A
CN111778233A CN201910272959.3A CN201910272959A CN111778233A CN 111778233 A CN111778233 A CN 111778233A CN 201910272959 A CN201910272959 A CN 201910272959A CN 111778233 A CN111778233 A CN 111778233A
Authority
CN
China
Prior art keywords
leu
lys
glu
ala
gly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910272959.3A
Other languages
English (en)
Other versions
CN111778233B (zh
Inventor
杨辉
周昌阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huida Shanghai Biotechnology Co ltd
Original Assignee
Center for Excellence in Brain Science and Intelligence Technology Chinese Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Center for Excellence in Brain Science and Intelligence Technology Chinese Academy of Sciences filed Critical Center for Excellence in Brain Science and Intelligence Technology Chinese Academy of Sciences
Priority to CN201910272959.3A priority Critical patent/CN111778233B/zh
Publication of CN111778233A publication Critical patent/CN111778233A/zh
Application granted granted Critical
Publication of CN111778233B publication Critical patent/CN111778233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/78Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N5/00Undifferentiated human, animal or plant cells, e.g. cell lines; Tissues; Cultivation or maintenance thereof; Culture media therefor
    • C12N5/06Animal cells or tissues; Human cells or tissues
    • C12N5/0602Vertebrate cells
    • C12N5/0634Cells from the blood or the immune system
    • C12N5/0636T lymphocytes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04002Adenine deaminase (3.5.4.2)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2510/00Genetically modified cells

Abstract

本发明提供了一种新型的单碱基编辑技术及其应用。具体地,本发明提供了一种基因编辑酶,其特征在于,所述基因编辑酶的结构如式I所示:Z1‑L1‑Z2‑L2‑Z3‑L3‑Z4 (I)其中,Z1为腺嘌呤脱氨酶TadA的氨基酸序列;Z2为TadA*酶的氨基酸序列;并且所述Z1和/或Z2具有对应于SEQ ID NO:1所示序列的第147位和/或148位的F残基的突变;Z3为Cas9核酸酶的编码序列;L1、L2和L3各自独立地为任选的连接肽序列;Z4为无或核定位信号元件(NLS);并且各“‑”独立地为肽键。本发明还提供了一种基因单碱基定点编辑的方法。本发明方法的DNA编辑精确度高,并且可显著降低RNA脱靶效应。

Description

一种新型的单碱基编辑技术及其应用
技术领域
本发明涉及生物技术领域,具体地,涉及一种新型的单碱基编辑技术及其应 用。
背景技术
自2013年以来,以CRISPR/Cas9为代表的新一代基因编辑技术进入生物 学领域的各个实验,正改变着传统的基因操作手段。
近年来开发的DNA碱基编辑方法能够在基因组DNA中直接产生精确的点 突变,而不会产生双链断裂(DSB)。已经报道了两类基础编辑器:胞嘧啶碱 基编辑器(CBE,C至T和G至A)和腺嘌呤碱基编辑器(ABE,A至G,T 至C)。然而,其应用还存在关键问题,即脱靶效应。
以前的研究主要集中在评估基因组DNA中的脱靶突变。最近的研究结果 表明,CBE而非ABEs在基因编辑的过程中诱导大量的脱靶单核苷酸突变,强 调了开发更高保真性单碱基编辑工具的必要性。除了DNA靶向活性外,常用 的单碱基编辑系统可能会对RNA进行突变。例如,发现与CBE相关的胞嘧啶 脱氨酶APOBEC1既能靶向DNA又能靶向RNA,并且发现与ABE相关的腺嘌 呤脱氨酶TadA也能诱导RNA上的位点特异性肌苷形成。然而,DNA碱基编 辑介导的RNA靶向活性尚未在之前进行过研究。研究表明,胞嘧啶碱基编辑 器BE3和腺嘌呤碱基编辑器ABE7.10都产生了数万个脱靶RNA单核苷酸变异 (SNV),而没有碱基编辑的细胞仅表现出几百个SNV。
目前,已有的DNA碱基编辑方法中,DNA编辑的精确度并不高,即基因 编辑窗口过大。哈佛大学的David Liu实验室开发的ABE7.10能够编辑sgRNA 靶向序列的第三到第八个碱基,如果需要编辑的目的碱基旁边还有其他碱基会 被非特异性地编辑。
因此,本领域迫切需要开发一种精确度高、显著降低RNA脱靶效应,并 且能保持有效的DNA靶向活性的单碱基编辑技术。
发明内容
本发明的目的就是提供一种精确度高、显著降低RNA脱靶效应,并且能 保持有效的DNA靶向活性的单碱基编辑技术。
在本发明的第一方面,提供一种腺嘌呤脱氨酶TadA的突变蛋白,所述的突变 蛋白为非天然蛋白,并且所述突变蛋白在腺嘌呤脱氨酶TadA的选自下组的一个或 多个氨基酸发生突变:
第147位苯丙氨酸(F)和第148位苯丙氨酸(F);
其中,所述第147位和第148位是对应于如SEQ ID NO:1所示的序列的第147位 和第148位。
在另一优选例中,所述的腺嘌呤脱氨酶TadA来源于选自下组的物种:大肠杆 菌(E.coli)、超嗜热菌(A.aeolicus)、枯草芽孢杆菌(B.subtilis)、酵母CDD1。
在另一优选例中,所述突变蛋白具有催化腺嘌呤水解脱氨基生成次黄嘌呤的 活性。
在另一优选例中,所述的腺嘌呤脱氨酶TadA包括TadA*酶和野生型TadA酶。
在另一优选例中,所述的腺嘌呤脱氨酶TadA为TadA*酶。
在另一优选例中,所述的野生型TadA酶的氨基酸序列如SEQ ID NO:1所示。
在另一优选例中,所述的TadA*酶的氨基酸序列如SEQ ID NO:2所示。
在另一优选例中,所述第147位苯丙氨酸(F)突变为非苯丙氨酸的氨基酸残 基。
在另一优选例中,所述第147位苯丙氨酸突变为:丙氨酸(A)、甘氨酸(G)、 精氨酸(R)、天冬氨酸(D)、半胱氨酸(C)、谷氨酰胺(Q)、谷氨酸(E)、 甘氨酸(G)、组氨酸(H)、异亮氨酸(I)、亮氨酸(L)、赖氨酸(K)、蛋 氨酸(M)、丝氨酸(S)、脯氨酸(P)、苏氨酸(T)、色氨酸(W)、酪氨酸 (Y),或者缬氨酸(V)。
在另一优选例中,所述第147位苯丙氨酸突变为:亮氨酸(L)、缬氨酸(V)、 异亮氨酸(I)、丙氨酸(A),或者酪氨酸(Y)。
在另一优选例中,所述第148位苯丙氨酸(F)突变为非苯丙氨酸的氨基酸残 基。
在另一优选例中,所述第148位苯丙氨酸突变为:丙氨酸(A)、甘氨酸(G)、 精氨酸(R)、天冬氨酸(D)、半胱氨酸(C)、谷氨酰胺(Q)、谷氨酸(E)、 甘氨酸(G)、组氨酸(H)、异亮氨酸(I)、亮氨酸(L)、赖氨酸(K)、蛋 氨酸(M)、丝氨酸(S)、脯氨酸(P)、苏氨酸(T)、色氨酸(W)、酪氨酸 (Y),或者缬氨酸(V)。
在另一优选例中,所述第148位苯丙氨酸突变为:亮氨酸(L)、缬氨酸(V)、 异亮氨酸(I)、丙氨酸(A),或者酪氨酸(Y)。
在另一优选例中,所述的突变蛋白除所述突变(如147位和148位氨基酸)外,其 余的氨基酸序列与SEQ ID NO.:1所示的序列相同或基本相同。
在另一优选例中,所述的基本相同是至多有50个(较佳地为1-20个,更佳地为 1-10个、更佳地1-5个)氨基酸不相同,其中,所述的不相同包括氨基酸的取代、缺 失或添加,且所述的突变蛋白仍具有催化腺嘌呤水解脱氨基生成次黄嘌呤的活性。
在另一优选例中,所述腺嘌呤脱氨酶TadA为野生型TadA酶时,突变蛋白的氨 基酸序列如SEQ ID NO:3所示。
在另一优选例中,所述腺嘌呤脱氨酶TadA为TadA*酶时,突变蛋白的氨基酸 序列如SEQ ID NO:4所示。
在另一优选例中,所述突变蛋白的氨基酸序列与SEQ ID NO:3或SEQ ID NO: 4所示序列的同源性至少为80%,较佳地至少为85%或90%,更佳地至少为95%,最 佳地至少为98%,且同源性≤166/167或99.4%。
在本发明的第二方面,提供了一种基因编辑酶,所述基因编辑酶的结构如式I 所示:
Z1-L1-Z2-L2-Z3-L3-Z4 (I)
其中,
Z1为腺嘌呤脱氨酶TadA的氨基酸序列;
Z2为TadA*酶的氨基酸序列;
并且所述Z1和/或Z2为如本发明第一方面所述的突变蛋白的氨基酸序列;
Z3为Cas9核酸酶的编码序列;
L1、L2和L3各自独立地为任选的连接肽序列;
Z4为无或核定位信号元件(NLS);
并且各“-”独立地为肽键。
在另一优选例中,所述Z1具有野生型TadA酶的氨基酸序列。
在另一优选例中,所述Z1具有F147A和/或F148A突变的野生型TadA酶的氨基 酸序列。
在另一优选例中,所述Z1为具有F147A和/或F148A突变的野生型TadA酶。
在另一优选例中,所述Z1的氨基酸序列如SEQ ID NO:3所示。
在另一优选例中,所述Z2具有TadA*酶的氨基酸序列。
在另一优选例中,所述Z2具有F147A和/或F148A突变的TadA*酶的氨基酸序 列。
在另一优选例中,所述Z2为具有F147A和/或F148A突变的TadA*酶。
在另一优选例中,所述Z2的氨基酸序列如SEQ ID NO:4所示。
在另一优选例中,所述L1的氨基酸序列如SEQ ID NO:5所示。
在另一优选例中,所述L1的氨基酸序列与如SEQ ID NO:5所示的氨基酸序列 相同或基本相同。
在另一优选例中,所述L2的氨基酸序列如SEQ ID NO:6所示。
在另一优选例中,所述L2的氨基酸序列与如SEQ ID NO:6所示的氨基酸序列 相同或基本相同。
在另一优选例中,所述L3的氨基酸序列如SEQ ID NO:7所示。
在另一优选例中,所述L3的氨基酸序列与如SEQ ID NO:7所示的氨基酸序列 相同或基本相同。
在另一优选例中,所述Z3中,所述Cas9核酸酶的来源选自下组:酿脓链球菌(Streptococcuspyogenes)、葡萄球菌(Staphylococcus aureus)、酿脓链球菌突变体,或者金黄色葡萄球菌突变体。
在另一优选例中,所述Z3中,所述Cas9核酸酶可以替换为Cpf1核酸酶,所述 Cpf1核酸酶的来源选自下组:酸性氨基球菌(Acidaminococcus)、毛螺菌科(Lachnospiraceae)、酸性氨基球菌突变体、毛螺菌科突变体。
在另一优选例中,所述Z3的氨基酸序列如SEQ ID NO:8所示。
在另一优选例中,所述Z3的氨基酸序列与如SEQ ID NO:8所示的氨基酸序列 相同或基本相同。
在另一优选例中,所述Z4的氨基酸序列如SEQ ID NO:9所示。
在另一优选例中,所述Z4的氨基酸序列与如SEQ ID NO:9所示的氨基酸序列 相同或基本相同。
在另一优选例中,所述的基本相同是至多有50个(较佳地为1-20个,更佳地为 1-10个、更佳地1-5个,最佳地为1-3个)氨基酸不相同,其中,所述的不相同包括氨 基酸的取代、缺失或添加。
在另一优选例中,所述的基本相同是氨基酸序列与相应氨基酸序列的序列同 一性至少为70%、至少为75%、至少为80%、至少为85%、至少为86%、至少为87%、 至少为88%、至少为89%、至少为90%、至少为91%、至少为92%、至少为93%、至 少为94%、至少为95%、至少为96%、至少为97%、至少为98%,或者至少为99%。
在另一优选例中,所述基因编辑酶的氨基酸序列如SEQ ID NO:10所示。
在本发明的第三方面,提供了一种多核苷酸,所述的多核苷酸编码如本发明 第二方面所述的基因编辑酶。
在另一优选例中,所述多核苷酸选自下组:
(a)编码如SEQ ID NO:10所示氨基酸序列的多核苷酸;
(b)核苷酸序列与(a)所述多核苷酸序列的序列同一性≥95%(较佳地≥98%) 的多核苷酸;
(c)与(a)和(b)中任一所述的多核苷酸互补的多核苷酸。
在另一优选例中,所述的如本发明第二方面所述的基因编辑酶的ORF的侧翼 还额外含有选自下组的辅助元件:信号肽、分泌肽、标签序列(如6His)、或其组合。
在另一优选例中,所述信号肽为核定位序列。
在另一优选例中,所述的多核苷酸选自下组:DNA序列、RNA序列、或其组 合。
在本发明的第四方面,提供了一种载体,所述的载体含有如本发明第三方面 所述的多核苷酸。
在另一优选例中,所述载体包括表达载体、穿梭载体、整合载体。
在本发明的第五方面,提供了一种宿主细胞,所述的宿主细胞含有如本发明 第四方面所述的载体,或其基因组中整合有如本发明第三方面所述的多核苷酸。
在另一优选例中,所述宿主为原核细胞或真核细胞。
在另一优选例中,所述原核细胞包括:大肠杆菌。
在另一优选例中,所述真核细胞选自下组:酵母细胞、植物细胞、哺乳动物 细胞、人细胞(如HEK293T细胞),或其组合。
在本发明的第六方面,提供了一种基因单碱基定点编辑的方法,包括步骤:
(i)提供一细胞以及第一载体和第二载体,其中所述第一载体含有如本发明第 二方面所述的基因编辑酶的表达盒,并且所述第二载体含有表达sgRNA的表达盒;
(ii)用所述的第一载体和第二载体感染所述的细胞,从而在所述细胞内进行单碱基定点编辑。
在另一优选例中,其中,所述第一载体中含有第一核苷酸构建物,所述第一 核酸构建物具有5’-3’(5’至3’)的式II结构:
P1-X1-L4-X2 (II)
其中,P1为第一启动子序列;
X1为编码本发明第二方面所述的基因编辑酶的核苷酸序列;
L4为无或连接序列;
X2为polyA序列;
并且,各“-”独立地为键或核苷酸连接序列。
在另一优选例中,所述的第一启动子选自下组:CMV启动子、CAG启动子、 PGK启动子、EF1α启动子,EFS启动子,或其组合。
在另一优选例中,所述第一启动子序列为CMV启动子。
在另一优选例中,所述连接序列的长度为30-120nt,较佳地,48-96nt,并且优 选为3的倍数。
在另一优选例中,所述第一载体、第二载体可以相同,可以不同。
在另一优选例中,所述第一载体和第二载体可以为同一载体。
在另一优选例中,所述第一载体和/或第二载体还含有表达筛选标记的表达盒。
在另一优选例中,所述筛选标记选自下组:绿色荧光蛋白、黄色荧光蛋白、 红色荧光蛋白、蓝色荧光蛋白,或其组合。
在另一优选例中,所述的方法是非诊断和非治疗性的。
在另一优选例中,所述的细胞来自以下物种:人、非人哺乳动物、家禽、植 物、或微生物。
在另一优选例中,所述的非人哺乳动物包括啮齿动物(如小鼠、大鼠、兔)、牛、 猪、羊、马、狗、猫、非人灵长动物(如猴)。
在另一优选例中,所述的细胞选自下组:体细胞、干细胞、生殖细胞、非分 裂细胞或其组合。
在另一优选例中,所述的细胞选自下组:肾细胞、上皮细胞、内皮细胞,神 经细胞或其组合。
在另一优选例中,用所述方法基因编辑时,编辑窗口是sgRNA靶向的20个碱 基序列的第4个到第7个碱基,其中第5个碱基的编辑效率最高,往两侧分布式显著 降低,而非突变的ABE7.10编辑系统的编辑窗口相对本方法更宽,编辑窗口位第3 个氨基酸到第9个氨基酸,第5个碱基的编辑效率最高,往两侧分布成逐渐降低的趋 势。
在本发明的第七方面,提供了一种试剂盒,所述试剂盒包括:
(a1)第一容器,以及位于所述第一容器中的第一载体,所述所述第一载体含 有如本发明第二方面所述的基因编辑酶的表达盒。
在另一优选例中,所述试剂盒还包括:
(a2)第二容器,以及位于所述第二容器中的第二载体,所述第二载体含有表 达sgRNA的表达盒。
在另一优选例中,所述第一载体和/或第二载体还含有表达筛选标记的表达盒。
在另一优选例中,所述第一容器和第二容器可以是相同的容器,可以是不同 的容器。
在另一优选例中,所述试剂盒还含有说明书,所述说明书中记载了如下说明: 将第一载体和第二载体感染细胞,从而在所述细胞内进行基因单碱基定点编辑的方 法。
应理解,在本发明范围内中,本发明的上述各技术特征和在下文(如实施例) 中具体描述的各技术特征之间都可以互相组合,从而构成新的或优选的技术方案。 限于篇幅,在此不再一一累述。
附图说明
图1显示了各单碱基编辑系统的脱靶RNA SNV结果。
A:实验设计方案。
B:WT(n=3个重复)、GFP(n=3)、APOBEC1(n=3个重复)、BE3(n=3 个重复)和BE3-位点3(n=2次重复)的DNA靶向效率。注意,APOBEC1是BE3 的胞嘧啶脱氨酶。
C:WT、GFP、APOBEC1、BE3和BE3-RNF2的DNA靶向效率。每组n=3 重复。
D:WT、GFP、TadA-TadA*、ABE7.10和ABE7.10-位点1的DNA靶向效 率。每组n=3个重复。注意,TadA-TadA*(野生型TadA酶-进化的TadA异二聚 体)是ABE7.10的腺嘌呤脱氨酶,并且改进的TadA由TadA*表示。
E:WT、GFP、TadA-TadA*、ABE7.10和ABE7.10-位点2的DNA靶向效 率。每组n=3个重复。
F、G:BE3和ABE7.10组的脱靶RNA SNV的比较。
H:GFP、BE3和ABE7.10的人染色体上脱靶RNA SNV的代表性分布。染色 体用不同的颜色表示。GFP组作为所有比较的对照。所有值均表示为平均值±SEM *p<0.05,**p<0.01,***p<0.001,非配对t检验。
图2显示了脱靶RNA SNV的表征。
A:GFP(n=6个重复)、APOBEC1(n=3个重复)、BE3(n=3个重复)、 BE3-位点3(n=2个重复)和BE3-RNF2(n=3次重复)的G>A和C>U突变的比 例。
B:GFP(n=6个重复)、TadA-TadA*(n=3个重复)、ABE7.10(n=3个重 复)、ABE7.10-位点1(n=3次重复)和ABE7.10-位点2(n=3次重复)的A>G 和U>C突变的比例。
C:各组突变类型的分布。数字表示所有突变中某种突变的百分比。
D:BE3和ABE7.10组中任何两个样品之间的共享RNA SNV的比率。通过两 个样品之间的重叠RNA SNV的数量除以该行中RNA SNV的数量来计算每个细胞 中的比例。
E:ABE7.10诱导的非同义突变位于癌基因和癌基因上具有最高编辑率的肿瘤 抑制因子。基因名称用蓝色表示,氨基酸突变用红色表示,单核苷酸转换用绿色表 示。GFP组作为所有比较的对照。所有值均表示为平均值±SEM。*p<0.05, **p<0.01,***p<0.001,非配对t检验。
图3显示了用碱基编辑器转染的细胞的单细胞RNA SNV分析结果。
A:通过单细胞RNA测序方法分析的SNV图。
B:来自单细胞RNA-seq数据的单个细胞中ABE、BE3或GFP的表达模式。
C:在GFP-(n=15个细胞)、BE3-位点3-(n=4个细胞)和ABE7.10-位点 1-(n=9个细胞)处理的单个细胞中检测到的脱靶RNA SNV的数量。
D:G>A和C>U突变的比例。
E:GFP(n=15细胞)、BE3-位点3(n=4细胞)和ABE7.10-位点1(n=9个 细胞)的A>G和U>C突变的比例。
F:每个细胞中突变类型的分布。数字表示所有突变中某种突变的百分比。
G、H:同一组中任意两个样本之间共享SNV的比率。每个单元中的比例通 过两个样本之间的重叠SNV的数量除以该行中的样本来计算。
I:发生在至少3个ABE7.10编辑的单细胞中的位于癌症相关基因上的SNV 的编辑率。GFP组作为所有比较的对照。所有值均表示为平均值±SEM。*p<0.05, **p<0.01,***p<0.001,非配对t检验。
图4显示了通过合理设计脱氨酶消除脱靶RNA SNV的结果。
A:BE3和ABE7.10变体的示意图。所有脱氨酶突变均在BE3/ABE7.10背景 下进行。点突变由红线表示。
B:GFP(n=3个重复)、BE3-位点3(n=2个重复),BE3(hA3A)-位点3 (n=3个重复)和BE3(W90A)-位点3(n=3个重复)的靶向效率。
C:BE3-位点3处理组中脱靶RNA SNV的比较。
D:GFP、ABE7.10-位点1、ABE7.10(D53G)-位点1和ABE7.10(F148A) -位点1组的靶向效率。每组n=3个重复。
E:ABE7.10处理组中脱靶RNA SNV的比较。
F:比较ABE7.10和ABE7.10(F148A)在四个不同位点上的编辑效率。每组 n=3个重复。
G:代表性的编辑位点显示ABE7.10(F148A)缩小了编辑窗口的宽度。所有 值均表示为平均值±SEM。*p<0.05,**p<0.01,***p<0.001,非配对t检验。
图5显示了质粒的示意图。
图6显示了染色体上脱靶RNA SNV的代表性分布。
A:APOBEC1、BE3-位点3、BE3-RNF2;B:TadA-TadA*、ABE7.10-位点1 和ABE7.10-位点2
图7显示了所有组的每个重复的突变类型的分布。数字表示所有突变中某种 类型突变的百分比。
A:GFP组的每个重复的突变类型的分布。
B:具有或不具有sgRNA的APOBEC1和BE3组的每个重复的突变类型的分 布。
C:具有或不具有sgRNA的TadA-TadA*和ABE7.10组的每个重复的突变类 型的分布。
图8显示了在所有BE3和ABE7.10转染组中,含有重叠的脱靶RNA SNV的 基因显著高于随机模拟基因。通过双侧Student t'检验计算P值。
图9显示了相邻的脱靶RNA SNV序列和靶序列之间的相似性
图10显示了编辑位于癌基因和肿瘤抑制基因上的BE3诱导的非同义突变的速 率。单核苷酸转换用绿色表示,氨基酸突变用红色表示,基因名称用蓝色表示。
图11显示了编辑位于癌基因和肿瘤抑制基因上的ABE7.10诱导的非同义突变 的比率。单核苷酸转换用绿色表示,氨基酸突变用红色表示,基因名称用蓝色表示。
图12显示了仅在RNA中检测到脱靶RNA SNV,而不是DNA。Sanger测序 色谱图显示仅在两个排名最高的癌基因TOPRS和CSDE1的RNA中观察到U至C 突变。
图13显示了转染载体在单细胞中的表达水平。在所有测序的单细胞中定量 GFP、APOBEC1和TadA-TadA*的表达水平。阈值由蓝色虚线表示。GFP、BE3 和ABE7.10的log2(FPKM+1)的阈值分别为0.3、1和0.3。包括表达水平高于 阈值的细胞用于进一步分析。
图14显示了所有单细胞的突变类型分布。
A:GFP转染的单细胞(n=16个细胞)的突变类型的分布。
B:BE3位点3转染的单细胞(n=31个细胞)的突变类型的分布。表达水平 高于阈值的APOBEC1的细胞包括在红色方块中。
C:ABE7.10-位点1-转染的单细胞(n=28个细胞)的突变类型的分布。具有 高于阈值的表达水平TadA-TadA*的细胞包括在红色方块中。该数字表示所有突变 中某种突变的百分比。SC代表单细胞。
图15显示了所有单个细胞的脱靶RNA SNV在人染色体上的分布,其表达水 平高于阈值。
A:GFP转染的单细胞(n=15)在人染色体上的脱靶RNA SNV的分布。
B:BE3位点3转染的单细胞(n=4)在人染色体上的脱靶RNA SNV的分布。
C:ABE7.10-位点1-转染的单细胞(n=9)的人染色体上脱靶RNA SNV的分 布。
图16显示了位于单细胞中癌基因和肿瘤抑制基因上的BE3诱导的非同义突变 的编辑率。单核苷酸转换用绿色表示,氨基酸突变用红色表示,基因名称用蓝色表 示。
图17显示了位于单细胞中的癌基因和肿瘤抑制基因上的ABE7.10诱导的非同 义突变的编辑率。单核苷酸转换用绿色表示,氨基酸突变用红色表示,基因名称用 蓝色表示。
图18显示了工程化BE3和ABE7.10变体的人染色体上脱靶RNA SNV的代 表性分布。
图19显示了BE3和ABE7.10的工程化变体的突变类型的平均分布,每组n=3。
图20显示了BE3和ABE7.10的工程化变体的每个样品的突变类型的分布。
图21显示了在BE3和ABE7.10的工程化变体中任何两个样品之间的共享 RNA SNV的比率。通过两个样品之间的重叠RNA SNV的数量除以该行中RNA SNV的数量来计算每个细胞中的比例。
图22显示了对ABE7.10(n=3)和ABE7.10F148A(n=3)之间编辑窗口的宽度 的比较。
图23显示了多个物种中的TadA酶的同源性。
具体实施方式
本发明人经过广泛而深入的研究,经过大量的筛选,首次意外地发现,分 别将腺嘌呤碱基编辑器ABE相关的腺嘌呤脱氨酶(TadA-TadA*)中的TadA 片段和TadA*片段的第148位的氨基酸残基F分别突变为A(即 TadAF148A-TadA*F148A)以后,可以在维持有效的DNA靶向活性的情况下,使 其基因编辑窗口显著变窄,即可以显著提高其基因编辑的精确性;并且,实验 证明,在具有此突变(即TadAF148A-TadA*F148A)的基因编辑系统中,RNA的 脱靶效应被大大减少。在此基础上完成了本发明。
术语
如本文所用,术语“碱基突变”指核苷酸序列的某一位置处发生碱基的替 换(substitution)、插入(insertion)和/或缺失(deletion)。
如本文所用,术语“碱基替换”指核苷酸序列的某一位置处的碱基突变为 另一不同的碱基,比如A突变为G。
如本文所用,“筛选标记基因”指转基因过程中用来筛选转基因细胞或转 基因动物的基因,可用于本申请的筛选标记基因没有特别限制,包括转基因领 域常用的各种筛选标记基因,代表性例子包括(但并不限于):荧光素蛋白、或 荧光素酶(如萤火虫荧光素酶、海肾荧光素酶)、绿色荧光蛋白、黄色荧光蛋白、 红色荧光蛋白、或其组合。
如本文所用,术语“Cas蛋白”指一种核酸酶。一种优选的Cas蛋白是Cas9 蛋白。典型的Cas9蛋白包括(但并不限于):来源于葡萄球菌(Staphylococcus aureus)的Cas9。在本发明中,所述的Cas9蛋白还可以被Cpf1核酸酶替换,所 述Cpf1核酸酶的来源选自下组:酸性氨基球菌(Acidaminococcus)、毛螺菌科 (Lachnospiraceae)、酸性氨基球菌突变体、毛螺菌科突变体。
腺嘌呤脱氨酶TadA
TadA是的原核RNA编辑酶。
TadA酶具有腺嘌呤脱氨酶的活性,能够将腺嘌呤(Adenosine,A)脱氨基 化成为次黄嘌呤(Inosine,I)。重组TadA蛋白形成同源二聚体,通过在tRNA Arg-2的摆动位置使腺苷残基脱氨来产生肌苷。
如图23所示,在多个物种中,TadA均具有较高的同源性。例如,大肠杆 菌tadA显示与酵母tRNA脱氨酶亚基Tad2p的序列相似性。
在多个物种中,尤其在对应于本发明SEQ ID NO:1所示序列的第148位, 具有高度保守的氨基酸残基。
如本文所用,术语“TadA7.10”、“TadA*”可互换使用,是指一种在本发明 所述的野生型TadA酶的氨基酸序列的基础上的突变体,突变的氨基酸残基包括 W23R、H36L、P48A、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、 R152P、E155V、I156F和K157N。
相应地,术语“ABE7.10”、“TadA-TadA*”可互换使用,是指氨基酸序列 中,包含了未经本发明所述的突变的野生型TadA酶和TadA*酶的氨基酸序列的蛋 白。
在本发明的一个实施方式中,所述的野生型TadA酶具有如SEQ ID NO:1所 示的氨基酸序列,所述的TadA*酶具有如SEQ ID NO:2所示的氨基酸序列。
本发明基因编辑酶及其编码核酸
如本文所用,术语“基因编辑酶”、“本发明基因编辑酶”、“本发明 TadAF148A-TadA*F148A”、“ABE7.10F148A”可互换使用,是指本发明第二方面所 述的具有式I结构的基因编辑酶:
Z1-L1-Z2-L2-Z3-L3-Z4 (I)
其中,
Z1为腺嘌呤脱氨酶TadA的氨基酸序列;
Z2为TadA*酶的氨基酸序列;
并且所述Z1和/或Z2为如本发明第一方面所述的突变蛋白的氨基酸序列;
Z3为Cas9核酸酶的编码序列;
L1、L2和L3各自独立地为任选的连接肽序列;
Z4为无或核定位信号元件(NLS);
并且各“-”独立地为肽键。
在一个优选的实施方式中,所述Z1的氨基酸序列为在SEQ ID NO:1所示氨基 酸序列的基础上,在第148位发生F148A突变的氨基酸序列。
在一个优选的实施方式中,所述Z2的氨基酸序列为在SEQ ID NO:2所示氨基 酸序列的基础上,在第148位发生F148A突变的氨基酸序列。
在一个优选的实施方式中,所述Z3的氨基酸序列如SEQ ID NO:8所示。
在本发明的一个实施方式中,所述的L1、L2和L3各自独立地具有选自下组的 氨基酸序列:GGS、(GGS)2、(GGS)3、(GGS)4、(GGS)5、(GGS)6、(GGS)7,或其组 合。
在一个优选的实施方式中,所述L1的氨基酸序列为 SGGSSGGSSGSETPGTSESATPESSGGSSGGS(SEQ ID NO:5);所述L2的氨基酸 序列为SGGSSGGSSGSETPGTSESATPESSGGSSGGSGS(SEQ ID NO:6);所述L3的氨基酸序列为SGGS(SEQ ID NO:7)。
在一个优选地实施方式中,所述Z4为核定位信号元件(NLS),氨基酸序列为PKKKRKV(SEQ ID NO:9)。
在本发明的一个优选的实施方式中,本发明基因编辑酶的一种典型的氨基酸序列如SEQ ID NO:10所示。
本发明还包括与本发明的SEQ ID NO:10所示序列具有50%或以上(优选 60%以上,70%以上,80%以上,更优选90%以上,更优选95%以上,最优选 98%以上,如99%)同源性的具有相同或相似功能的多肽或蛋白。
所述“相同或相似功能”主要是指:“催化腺嘌呤水解脱氨基生成次黄嘌呤 的活性”。
应理解,本发明基因编辑酶中的氨基酸编号基于SEQ ID NO.:10作出,当 某一具体基因编辑酶与SEQ ID NO.:10所示序列的同源性达到80%或以上时, 基因编辑酶的氨基酸编号可能会有相对于SEQ ID NO.:10的氨基酸编号的错 位,如向氨基酸的N末端或C末端错位1-5位,而采用本领域常规的序列比对 技术,本领域技术人员通常可以理解这样的错位是在合理范围内的,且不应当 由于氨基酸编号的错位而使同源性达80%(如90%、95%、98%)的、具有相同或 相似产生基因编辑酶催化活性的突变体不在本发明基因编辑酶的范围内。
本发明基因编辑酶是合成蛋白或重组蛋白,即可以是化学合成的产物,或 使用重组技术从原核或真核宿主(例如,细菌、酵母、植物)中产生。根据重组 生产方案所用的宿主,本发明的基因编辑酶可以是糖基化的,或可以是非糖基 化的。本发明的基因编辑酶还可包括或不包括起始的甲硫氨酸残基。
本发明还包括所述基因编辑酶的片段、衍生物和类似物。如本文所用,术 语“片段”、“衍生物”和“类似物”是指基本上保持所述基因编辑酶相同的 生物学功能或活性的蛋白。
本发明的基因编辑酶片段、衍生物或类似物可以是(i)有一个或多个保守或 非保守性氨基酸残基(优选保守性氨基酸残基)被取代的基因编辑酶,而这样的 取代的氨基酸残基可以是也可以不是由遗传密码编码的,或(ii)在一个或多个氨 基酸残基中具有取代基团的基因编辑酶,或(iii)成熟基因编辑酶与另一个化合 物(比如延长基因编辑酶半衰期的化合物,例如聚乙二醇)融合所形成的基因编 辑酶,或(iv)附加的氨基酸序列融合到此基因编辑酶序列而形成的基因编辑酶 (如前导序列或分泌序列或用来纯化此基因编辑酶的序列或蛋白原序列,或与抗 原IgG片段的形成的融合蛋白)。根据本文的教导,这些片段、衍生物和类似物 属于本领域熟练技术人员公知的范围。本发明中,保守性替换的氨基酸最好根 据表I进行氨基酸替换而产生。
表I
Figure BDA0002019011950000171
Figure BDA0002019011950000181
此外,还可以对本发明基因编辑酶进行修饰。修饰(通常不改变一级结构) 形式包括:体内或体外的基因编辑酶的化学衍生形式如乙酰化或羧基化。修饰 还包括糖基化,如那些在基因编辑酶的合成和加工中或进一步加工步骤中进行 糖基化修饰而产生的基因编辑酶。这种修饰可以通过将基因编辑酶暴露于进行 糖基化的酶(如哺乳动物的糖基化酶或去糖基化酶)而完成。修饰形式还包括具 有磷酸化氨基酸残基(如磷酸酪氨酸,磷酸丝氨酸,磷酸苏氨酸)的序列。还包 括被修饰从而提高了其抗蛋白水解性能或优化了溶解性能的基因编辑酶。
术语“编码基因编辑酶的多核苷酸”可以是包括编码本发明基因编辑酶的 多核苷酸,也可以是还包括附加编码和/或非编码序列的多核苷酸。
本发明还涉及上述多核苷酸的变异体,其编码与本发明有相同的氨基酸序 列的多肽或基因编辑酶的片段、类似物和衍生物。这些核苷酸变异体包括取代 变异体、缺失变异体和插入变异体。如本领域所知的,等位变异体是一个多核 苷酸的替换形式,它可能是一个或多个核苷酸的取代、缺失或插入,但不会从 实质上改变其编码的基因编辑酶的功能。
本发明还涉及与上述的序列杂交且两个序列之间具有至少50%,较佳地至 少70%,更佳地至少80%相同性的多核苷酸。本发明特别涉及在严格条件(或严 紧条件)下与本发明所述多核苷酸可杂交的多核苷酸。在本发明中,“严格条件” 是指:(1)在较低离子强度和较高温度下的杂交和洗脱,如0.2×SSC,0.1%SDS, 60℃;或(2)杂交时加有变性剂,如50%(v/v)甲酰胺,0.1%小牛血清/0.1%Ficoll, 42℃等;或(3)仅在两条序列之间的相同性至少在90%以上,更好是95%以上时 才发生杂交。
本发明的基因编辑酶和多核苷酸优选以分离的形式提供,更佳地,被纯化 至均质。
本发明多核苷酸全长序列通常可以通过PCR扩增法、重组法或人工合成的 方法获得。对于PCR扩增法,可根据本发明所公开的有关核苷酸序列,尤其是 开放阅读框序列来设计引物,并用市售的cDNA库或按本领域技术人员已知的 常规方法所制备的cDNA库作为模板,扩增而得有关序列。当序列较长时,常 常需要进行两次或多次PCR扩增,然后再将各次扩增出的片段按正确次序拼接 在一起。
一旦获得了有关的序列,就可以用重组法来大批量地获得有关序列。这通 常是将其克隆入载体,再转入细胞,然后通过常规方法从增殖后的宿主细胞中 分离得到有关序列。
此外,还可用人工合成的方法来合成有关序列,尤其是片段长度较短时。 通常,通过先合成多个小片段,然后再进行连接可获得序列很长的片段。
目前,已经可以完全通过化学合成来得到编码本发明蛋白(或其片段,或其 衍生物)的DNA序列。然后可将该DNA序列引入本领域中已知的各种现有的 DNA分子(或如载体)和细胞中。此外,还可通过化学合成将突变引入本发明蛋 白序列中。
应用PCR技术扩增DNA/RNA的方法被优选用于获得本发明的多核苷酸。 特别是很难从文库中得到全长的cDNA时,可优选使用RACE法(RACE-cDNA 末端快速扩增法),用于PCR的引物可根据本文所公开的本发明的序列信息适 当地选择,并可用常规方法合成。可用常规方法如通过凝胶电泳分离和纯化扩 增的DNA/RNA片段。
本发明方法
在本发明中,还提供了一种基因单碱基定点编辑的方法,包括步骤:
(i)提供一细胞以及第一载体和第二载体,其中所述第一载体含有如本发明第 二方面所述的基因编辑酶的表达盒,并且所述第二载体含有表达sgRNA的表达盒;
(ii)用所述的第一载体和第二载体感染所述的细胞,从而在所述细胞内进行单碱基定点编辑。
在另一优选例中,其中,所述第一载体中含有第一核苷酸构建物,所述第一 核酸构建物具有5’-3’(5’至3’)的式II结构:
P1-X1-L4-X2 (II)
其中,
P1为第一启动子序列;
X1为编码本发明第二方面所述的基因编辑酶的核苷酸序列;
L4为无或连接序列;
X2为polyA序列;
并且,各“-”独立地为键或核苷酸连接序列。
其中,所述的第一启动子选自下组:CMV启动子、CAG启动子、PGK启动子、 EF1α启动子,EFS启动子,或其组合。在一个优选的实施方式中,所述第一启动 子序列为CMV启动子。
在本发明的一个实施方式中,所述连接序列的长度为30-120nt,较佳地, 48-96nt,并且优选为3的倍数。
在所述的方法中,所述第一载体、第二载体可以相同,可以不同。在一个优 选的实施方式中,所述的第一载体和第二载体可以为同一载体。
优选地,所述第一载体和/或第二载体还含有表达筛选标记的表达盒。所述的 筛选标记选自下组:绿色荧光蛋白、黄色荧光蛋白、红色荧光蛋白、蓝色荧光蛋白, 或其组合。
在本发明的一个实施方式中,所述的方法是非诊断和非治疗性的。
在本发明的方法中,所述的细胞来自以下物种:人、非人哺乳动物、家禽、 植物、或微生物。其中,所述的非人哺乳动物包括啮齿动物(如小鼠、大鼠、兔)、 牛、猪、羊、马、狗、猫、非人灵长动物(如猴)。
在本发明的一个实施方式中,所述的细胞选自下组:体细胞、干细胞、生殖 细胞、非分裂细胞或其组合。优选地,所述的细胞选自下组:肾细胞、上皮细胞、 内皮细胞,神经细胞或其组合。
在本发明中,用所述方法基因编辑时,编辑窗口是sgRNA靶向的20个碱基序 列的第4个到第7个碱基,其中第5个碱基的编辑效率最高,往两侧分布式显著降低, 而非突变的ABE7.10编辑系统的编辑窗口相对本方法更宽,编辑窗口位第3个氨基 酸到第9个氨基酸,第5个碱基的编辑效率最高,往两侧分布成逐渐降低的趋势。
本发明的主要优点包括:
1)减小了单碱基编辑系统ABE的编辑窗口,大大提高了单碱基编辑的精 确性。用本发明方法基因编辑时,编辑窗口是sgRNA靶向的20个碱基序列的第4 个到第7个碱基,其中第5个碱基的编辑效率最高,往两侧分布式显著降低,而非 突变的ABE7.10编辑系统的编辑窗口相对本方法更宽,编辑窗口位第3个氨基酸 到第9个氨基酸,第5个碱基的编辑效率最高,往两侧分布成逐渐降低的趋势。
2)几乎消除了单碱基编辑系统ABE在RNA水平上产生的点突变,大大 提高了单碱基编辑系统ABE的特异性。
3)ABE7.10F148A几乎维持了ABE7.10的编辑活性,在目的编辑位点中保 持一致的活性。
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本 发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常 按照常规条件,例如Sambrook等人,分子克隆:实验室手册(New York:Cold Spring HarborLaboratorypress,1989)中所述的条件,或按照制造厂商所建议的条件。除非 另外说明,否则百分比和份数是重量百分比和重量份数。
如无特别说明,实施例所用的材料和试剂均为市售产品。
方法和材料
瞬时转染和测序
根据标准方案使用NEBuilder HiFi DNA Assembly Master Mix(New EnglandBiolabs)构建质粒。将293T细胞接种在10cm培养皿中,并在补充有10%FBS (ThermoFisher Scientific)和青霉素/链霉素的Dulbecco改良Eagle培养基(DMEM, ThermoFisher Scientific)中于37℃、5%CO2下培养。使用Lipofectamine 3000 (Thermo FisherScientific)用30μg质粒转染细胞。转染三天后,用0.05%胰蛋白 酶(Thermo FisherScientific)消化细胞并制备用于FACS。分选GFP阳性细胞并 保存在DMEM或Trizol(Ambion)中以确定DNA碱基编辑或RNA-seq。为了确 定DNA碱基编辑的效率,使用一步小鼠基因分型试剂盒(Vazyme)裂解细胞,随 后使用Hi-TOM或使用EditR 1.0.8定量的Sanger测序进行深度测序。对于 RNA-seq,收集~500000个细胞并根据标准方案提取RNA,然后转化为cDNA,其 用于高通量RNA-seq。
通过RNA测序进行RNA编辑分析
使用Illumina Hiseq以125x的平均覆盖度进行高通量mRNA测序(RNA-seq)。FastQC(v0.11.3)和Trimmomatic(v0.36)用于质量控制。使用STAR(v2.5.2b) 以2遍模式将合格的读数映射到参考基因组(Ensemble GRCh38),其参数由 ENCODE项目实施。然后应用Picard工具(v2.3.0)对映射的BAM文件的重复项 进行排序和标记。精制的BAM文件分别使用来自GATK(v3.5)的 SplitNCigarReads,IndelRealigner,BaseRecalibrator和HaplotypeCaller工具进行分 割读取、跨越剪接点、局部重新排列、基础重新校准和变体调用。为了确定具有高 可信度的变体,过滤至少5个SNV的簇,这些SNV在35个碱基的窗口内,并且 保留了基因质量得分>25的变体,映射质量得分>20,Fisher Strand值(FS>30.0)、Qual By深度值(QD<2.0)和测序深度>20。
在野生型293T细胞中发现的任何可靠变体被认为是SNP并且从GFP和碱基 编辑器转染的组中过滤出用于脱靶分析。编辑率计算为突变读数的数量除以每个位 点的测序深度。为了分析每个脱靶的预测变异效应,使用变异效应预测器(VEP, v94)和GRCh38数据库进行变体注释。
单细胞全长RNA-seq的文库构建
在FACS后手动挑取单个人293T细胞,裂解并使用Smart-seq2方案进行cDNA 合成。然后如前所述扩增并片段化单细胞cDNA(2,3)。构建测序文库(New England Biolabs),质量检查并在Illumina HiSeq X-Ten平台(Novogene)上用配对末端150-bp 读数测序。
处理单细胞RNA-seq数据
首先修剪单细胞RNA-seq数据的原始读数并与GRCh38人转录组(STAR v2.5.2b)比对。在去重复后,使用GATK软件(v3.5)鉴定来自个体细胞的RNA SNV。 在DP≥20.0,FS≤30.0和QD≥2.0的单细胞中检测到的那些SNV被保留用于下游分 析。
统计分析
所有值均显示为平均值+/-SEM。未配对Student's t检验(双尾)用于比较,p <0.05被认为具有统计学意义。
实施例1:对各种单碱基编辑系统进行脱靶RNA SNV检测
在本实施例中,为了评估基因编辑在RNA水平上的脱靶效应,将CBE、 BE3(APOBEC1-nCas9-UGI)或ABE、ABE7.10(TadA-TadA*-nCas9),以 及GFP和有或没有单指导RNA(sgRNA)转染至培养的293T细胞。温育72 小时后,通过FACS收集表达GFP的细胞,然后通过RNA-seq分析。将每一 组的实验结果与野生型(WT,未转染的)样品相比,在每个转染组中调用RNA SNV(图1A)。
9组转染细胞包括表达GFP、APOBEC1、BE3、具有“位点3”sgRNA的BE3、 具有“RNF2”sgRNA的BE3、TadA-TadA*、ABE7.10、具有“位点1”sgRNA的 ABE7.10、具有“位点2”sgRNA的ABE7.10的细胞(图5)。
首先,使用靶向深度测序验证了这些293T细胞中BE3和ABE7.10的DNA 编辑的高靶向效率,结果如图1B至1E所示。
接下来,在这些样品上以125x的平均深度进行RNA-seq(每组两次或三 次重复)。在每个重复中分别从RNA-seq数据中调用RNA SNV,过滤掉在任 何WT细胞中鉴定的那些。
结果如图1F至1H、图6所示。在GFP转染的细胞中发现742+/-113(SEM, n=6)RNASNV。令人惊讶的是,在表达APOBEC1、不含sgRNA的BE3、具 有位点3或RNF2sgRNA的BE3(为仅表达GFP细胞中的5-40倍)中具有更 多数量的RNA SNV。类似地,在表达TadA-TadA*、不含sgRNA的ABE7.10 或具有位点1或位点2sgRNA的ABE7.10的细胞中也发现了大量RNA SNV(5-10倍)。
有趣的是,在本实施例中发现,APOBEC1或TadA-TadA*的转染诱导了比 其他转染组更高量的RNA SNV,这意味着CBE或ABE处理的细胞中SNV的 增加可能是由脱氨酶APOBEC1或TadA的过表达引起的。
实施例2:脱靶RNA SNV的表征
在本实施例中,对各单碱基编辑系统进行了脱靶RNA SNV的表征。
结果如图2和图7-12所示。
值得注意的是,在BE3处理的细胞中鉴定的几乎100%的RNA SNV是从 G到A或从C到U的突变,显着高于GFP转染的细胞(如图2A和2C以及图 7)。这种突变偏差与APOBEC1本身相同,表明这些突变不是自发的,而是由 BE3或APOBEC1诱导的。
相应地,95%的ABE7.10诱导的突变是A至G或U至C,与ABE7.10的 作用一致(如图2B和2C以及图7)。
从结果中,还可以注意到GFP组也对A到G和U到C突变表现出一些偏 差(如图2C),这可能是由于先天突变偏好。
在BE3-或ABE7.10-转染组的任何两个样品中,分别观察到27.7+/-3.6% 或51.0+/-3.3%的重叠,并且这些重叠的SNV在具有高表达的基因中显著富集 (图2D和图8)。然而,没有脱靶位点与预测的脱靶突变重叠,并且在脱靶和 靶序列之间未观察到相似性(图2D和图9)。
因此,CBE和ABE诱导的脱靶RNA SNV分别是sgRNA非依赖性的并且 分别由APOBEC1和TadA-TadA*的过表达引起。
有趣的是,在本实施例中,观察到ABE7.10分别在癌基因和肿瘤抑制基因 中诱导了56和12个非同义RNA SNV,其中许多显示编辑率高于40%并通过 Sanger测序验证,提高了对致癌风险的担忧DNA碱基编辑(如图2E、图10 至12)。
实施例3:用单碱基编辑系统转染的细胞的单细胞RNA SNV分析
在本实施例中,在四组细胞(WT、GFP、BE3-位点3和ABE7.10-位点1) 上进行单细胞RNA-seq测序,以避免由于群体平均而导致的随机脱靶信号丢 失。
结果如图3和图13-17所示。
平均而言,通过约6.07百万个测序读数在每个单细胞中检测到10,932个 RefSeq基因,结果如图3B所示。选取具有高表达水平的指定脱氨酶的细胞用 于进一步分析,结果图13所示。并且,在表达基础编辑的那些细胞中观察到 严重的RNA脱靶和类似的突变模式(如图3C至3F和图14和15)。
有趣的是,任何BE3或ABE7.10编辑细胞共享的脱靶位点百分比(4.5+/- 1.0%)远低于细胞群(40.8+/-3.7%),这表明BE3-或ABE7.10诱导的脱靶 SNV基本上是随机的和sgRNA非依赖性的(如图3G和3H)。值得注意的是, 在单细胞中的一些癌基因和肿瘤抑制因子中检测到的非同义突变的编辑率高 于从细胞群观察到的编辑率(如图3I、图16和17)。
实施例4:通过合理设计脱氨酶消除脱靶RNA
在本实施例中,为了进一步探索可能消除碱基编辑的RNA脱靶活性的实 验方法,本发明人研究了去稳定APOBEC1和TadA对RNA结合的潜在影响。
具体地,测试了用hA3A替换APOBEC1是否可以消除BE3的RNA脱靶 活性(如图4A)。
结果如图4和图18-22所示。
实际上,与BE3(APOBEC1)转染的细胞相比,BE3(hA3A)转染的293T 细胞显示出显着降低的脱靶RNA SNV,同时保持高的靶向DNA编辑效率(图 4B和4C,图18)。
在另一种方法中,向APOBEC1的预测RNA结合域引入了点突变W90A, 并发现虽然BE3(W90A)消除了RNA脱靶效应,但BE3的靶向DNA编辑活 性(W90A)基本上不存在(图4B和4C,图18)。
在本实施例中,对于ABE的改造,本发明人将D53G或F148A引入ABE7.10 的TadA和TadA*(图4A)。
有趣的是,发现ABE7.10D53G和ABE7.10F148A都保持了高DNA靶向效率, 并且ABE7.10F148A显示完全没有RNA脱靶效应,结果如图4D和4E、图18所 示。此外,ABE7.10F148A转染细胞中剩余的SNV与仅用GFP转染的细胞中的 水平相近(如图19至21)。在本实施例中,还进一步证实,ABE7.10F148A的 DNA靶向活性在另外四个位点上与ABE7.10的相似(如图4F)。
特别值得注意的是,在本实施例中,ABE7.10F148A的编辑窗口显着缩小, 结果图4G和图22所示。这表明DNA碱基编辑的精确度提高。
因此,本发明中工程化改造的ABE7.10F148A具有较大的应用前景。
在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献 被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后, 本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申 请所附权利要求书所限定的范围。
序列表
<110> 中国科学院上海生命科学研究院
<120> 一种新型的单碱基编辑技术及其应用
<130> P2019-0470
<160> 10
<170> SIPOSequenceListing 1.0
<210> 1
<211> 167
<212> PRT
<213> 人工序列(artificial sequence)
<400> 1
Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu
1 5 10 15
Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala
20 25 30
Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro
35 40 45
Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg
50 55 60
Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu
65 70 75 80
Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His
85 90 95
Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly
100 105 110
Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His
115 120 125
Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu
130 135 140
Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys
145 150 155 160
Lys Ala Gln Ser Ser Thr Asp
165
<210> 2
<211> 166
<212> PRT
<213> 人工序列(artificial sequence)
<400> 2
Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu Thr
1 5 10 15
Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala Val
20 25 30
Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala Ile
35 40 45
Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln
50 55 60
Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu Tyr
65 70 75 80
Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ser
85 90 95
Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly Ala
100 105 110
Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His Arg
115 120 125
Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu Leu
130 135 140
Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys Lys
145 150 155 160
Ala Gln Ser Ser Thr Asp
165
<210> 3
<211> 167
<212> PRT
<213> 人工序列(artificial sequence)
<400> 3
Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu
1 5 10 15
Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala
20 25 30
Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro
35 40 45
Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg
50 55 60
Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu
65 70 75 80
Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His
85 90 95
Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly
100 105 110
Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His
115 120 125
Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu
130 135 140
Leu Ser Asp Phe Ala Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys
145 150 155 160
Lys Ala Gln Ser Ser Thr Asp
165
<210> 4
<211> 166
<212> PRT
<213> 人工序列(artificial sequence)
<400> 4
Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu Thr
1 5 10 15
Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala Val
20 25 30
Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala Ile
35 40 45
Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln
50 55 60
Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu Tyr
65 70 75 80
Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ser
85 90 95
Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly Ala
100 105 110
Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His Arg
115 120 125
Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu Leu
130 135 140
Cys Tyr Phe Ala Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys Lys
145 150 155 160
Ala Gln Ser Ser Thr Asp
165
<210> 5
<211> 32
<212> PRT
<213> 人工序列(artificial sequence)
<400> 5
Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr
1 5 10 15
Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser
20 25 30
<210> 6
<211> 34
<212> PRT
<213> 人工序列(artificial sequence)
<400> 6
Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr
1 5 10 15
Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser
20 25 30
Gly Ser
<210> 7
<211> 4
<212> PRT
<213> 人工序列(artificial sequence)
<400> 7
Ser Gly Gly Ser
1
<210> 8
<211> 1367
<212> PRT
<213> 人工序列(artificial sequence)
<400> 8
Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val Gly
1 5 10 15
Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys
20 25 30
Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly
35 40 45
Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys
50 55 60
Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr
65 70 75 80
Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe
85 90 95
Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His
100 105 110
Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His
115 120 125
Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser
130 135 140
Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met
145 150 155 160
Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp
165 170 175
Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn
180 185 190
Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys
195 200 205
Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu
210 215 220
Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu
225 230 235 240
Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp
245 250 255
Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp
260 265 270
Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu
275 280 285
Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile
290 295 300
Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met
305 310 315 320
Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala
325 330 335
Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp
340 345 350
Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln
355 360 365
Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly
370 375 380
Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys
385 390 395 400
Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly
405 410 415
Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu
420 425 430
Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro
435 440 445
Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met
450 455 460
Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val
465 470 475 480
Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn
485 490 495
Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu
500 505 510
Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr
515 520 525
Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys
530 535 540
Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val
545 550 555 560
Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser
565 570 575
Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr
580 585 590
Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn
595 600 605
Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu
610 615 620
Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His
625 630 635 640
Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr
645 650 655
Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys
660 665 670
Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala
675 680 685
Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys
690 695 700
Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His
705 710 715 720
Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile
725 730 735
Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg
740 745 750
His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr
755 760 765
Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu
770 775 780
Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val
785 790 795 800
Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln
805 810 815
Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu
820 825 830
Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp
835 840 845
Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly
850 855 860
Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn
865 870 875 880
Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe
885 890 895
Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys
900 905 910
Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys
915 920 925
His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu
930 935 940
Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys
945 950 955 960
Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu
965 970 975
Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val
980 985 990
Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val
995 1000 1005
Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser
1010 1015 1020
Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn
1025 1030 1035 1040
Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile
1045 1050 1055
Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val
1060 1065 1070
Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met
1075 1080 1085
Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly Phe
1090 1095 1100
Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala
1105 1110 1115 1120
Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro
1125 1130 1135
Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys
1140 1145 1150
Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met
1155 1160 1165
Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys
1170 1175 1180
Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr
1185 1190 1195 1200
Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala
1205 1210 1215
Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro
1235 1240 1245
Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His Tyr
1250 1255 1260
Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile
1265 1270 1275 1280
Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His
1285 1290 1295
Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe
1300 1305 1310
Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp Thr
1315 1320 1325
Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp Ala
1330 1335 1340
Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp
1345 1350 1355 1360
Leu Ser Gln Leu Gly Gly Asp
1365
<210> 9
<211> 7
<212> PRT
<213> 人工序列(artificial sequence)
<400> 9
Pro Lys Lys Lys Arg Lys Val
1 5
<210> 10
<211> 1777
<212> PRT
<213> 人工序列(artificial sequence)
<400> 10
Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu
1 5 10 15
Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala
20 25 30
Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro
35 40 45
Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg
50 55 60
Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu
65 70 75 80
Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His
85 90 95
Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly
100 105 110
Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His
115 120 125
Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu
130 135 140
Leu Ser Asp Phe Ala Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys
145 150 155 160
Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser
165 170 175
Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser
180 185 190
Gly Gly Ser Ser Gly Gly Ser Ser Glu Val Glu Phe Ser His Glu Tyr
195 200 205
Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg
210 215 220
Glu Val Pro Val Gly Ala Val Leu Val Leu Asn Asn Arg Val Ile Gly
225 230 235 240
Glu Gly Trp Asn Arg Ala Ile Gly Leu His Asp Pro Thr Ala His Ala
245 250 255
Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val Met Gln Asn Tyr Arg
260 265 270
Leu Ile Asp Ala Thr Leu Tyr Val Thr Phe Glu Pro Cys Val Met Cys
275 280 285
Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg Val Val Phe Gly Val
290 295 300
Arg Asn Ala Lys Thr Gly Ala Ala Gly Ser Leu Met Asp Val Leu His
305 310 315 320
Tyr Pro Gly Met Asn His Arg Val Glu Ile Thr Glu Gly Ile Leu Ala
325 330 335
Asp Glu Cys Ala Ala Leu Leu Cys Tyr Phe Ala Arg Met Pro Arg Gln
340 345 350
Val Phe Asn Ala Gln Lys Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly
355 360 365
Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser
370 375 380
Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser Gly Ser Asp
385 390 395 400
Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val Gly Trp
405 410 415
Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys Val
420 425 430
Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly Ala
435 440 445
Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys Arg
450 455 460
Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu
465 470 475 480
Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe Phe
485 490 495
His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His Glu
500 505 510
Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His Glu
515 520 525
Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser Thr
530 535 540
Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met Ile
545 550 555 560
Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn
565 570 575
Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln
580 585 590
Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys Ala
595 600 605
Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile
610 615 620
Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile
625 630 635 640
Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu
645 650 655
Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp
660 665 670
Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe
675 680 685
Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu
690 695 700
Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile
705 710 715 720
Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala Leu
725 730 735
Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln
740 745 750
Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu
755 760 765
Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr
770 775 780
Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln
785 790 795 800
Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly Glu
805 810 815
Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys
820 825 830
Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr
835 840 845
Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr
850 855 860
Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val Val
865 870 875 880
Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn Phe
885 890 895
Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu
900 905 910
Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val
915 920 925
Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys
930 935 940
Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys
945 950 955 960
Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val
965 970 975
Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr
980 985 990
His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu
995 1000 1005
Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu Phe
1010 1015 1020
Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His Leu
1025 1030 1035 1040
Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr Gly
1045 1050 1055
Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys Gln
1060 1065 1070
Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala Asn
1075 1080 1085
Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys Glu
1090 1095 1100
Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His Glu
1105 1110 1115 1120
His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile Leu
1125 1130 1135
Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg His
1140 1145 1150
Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr
1155 1160 1165
Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu Glu
1170 1175 1180
Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val Glu
1185 1190 1195 1200
Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn
1205 1210 1215
Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser
1220 1225 1230
Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp Asp
1235 1240 1245
Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys
1250 1255 1260
Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr
1265 1270 1275 1280
Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe Asp
1285 1290 1295
Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys Ala
1300 1305 1310
Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His
1315 1320 1325
Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu Asn
1330 1335 1340
Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys Leu
1345 1350 1355 1360
Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu Ile
1365 1370 1375
Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val Gly
1380 1385 1390
Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr
1395 1400 1405
Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu
1410 1415 1420
Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile
1425 1430 1435 1440
Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg
1445 1450 1455
Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp
1460 1465 1470
Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met Pro
1475 1480 1485
Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly Phe Ser
1490 1495 1500
Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg
1505 1510 1515 1520
Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr
1525 1530 1535
Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser
1540 1545 1550
Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu
1555 1560 1565
Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly
1570 1575 1580
Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser
1585 1590 1595 1600
Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1605 1610 1615
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn
1620 1625 1630
Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu
1635 1640 1645
Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu
1650 1655 1660
Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu
1665 1670 1675 1680
Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg
1685 1690 1695
Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr
1700 1705 1710
Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp Thr Thr
1715 1720 1725
Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp Ala Thr
1730 1735 1740
Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu
1745 1750 1755 1760
Ser Gln Leu Gly Gly Asp Ser Gly Gly Ser Pro Lys Lys Lys Arg Lys
1765 1770 1775
Val

Claims (10)

1.一种腺嘌呤脱氨酶TadA的突变蛋白,其特征在于,所述的突变蛋白为非天然蛋白,并且所述突变蛋白在腺嘌呤脱氨酶TadA的选自下组的一个或多个氨基酸发生突变:
第147位苯丙氨酸(F)和第148位苯丙氨酸(F);
其中,所述第147位和第148位是对应于如SEQ ID NO:1所示的序列的第147位和第148位。
2.如权利要求1所述的突变蛋白,其特征在于,所述突变蛋白具有催化腺嘌呤水解脱氨基生成次黄嘌呤的活性。
3.如权利要求1所述的突变蛋白,其特征在于,所述的腺嘌呤脱氨酶TadA包括TadA*酶和野生型TadA酶。
4.一种基因编辑酶,其特征在于,所述基因编辑酶的结构如式I所示:
Z1-L1-Z2-L2-Z3-L3-Z4 (I)
其中,
Z1为腺嘌呤脱氨酶TadA的氨基酸序列;
Z2为TadA*酶的氨基酸序列;
并且所述Z1和/或Z2为如权利要求1所述的突变蛋白的氨基酸序列;
Z3为Cas9核酸酶的编码序列;
L1、L2和L3各自独立地为任选的连接肽序列;
Z4为无或核定位信号元件(NLS);
并且各“-”独立地为肽键。
5.如权利要求4所述的基因编辑梅,其特征在于,所述基因编辑酶的氨基酸序列如SEQID NO:10所示。
6.一种多核苷酸,其特征在于,所述的多核苷酸编码如权利要求4所述的基因编辑酶。
7.一种载体,其特征在于,所述的载体含有如权利要求6所述的多核苷酸。
8.一种宿主细胞,其特征在于,所述的宿主细胞含有如权利要求7所述的载体,或其基因组中整合有如权利要求6所述的多核苷酸。
9.一种基因单碱基定点编辑的方法,其特征在于,包括步骤:
(i)提供一细胞以及第一载体和第二载体,其中所述第一载体含有如权利要求2所述的基因编辑酶的表达盒,并且所述第二载体含有表达sgRNA的表达盒;
(ii)用所述的第一载体和第二载体感染所述的细胞,从而在所述细胞内进行单碱基定点编辑。
10.一种试剂盒,其特征在于,所述试剂盒包括:
(a1)第一容器,以及位于所述第一容器中的第一载体,所述所述第一载体含有如权利要求2所述的基因编辑酶的表达盒。
CN201910272959.3A 2019-04-04 2019-04-04 一种新型的单碱基编辑技术及其应用 Active CN111778233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910272959.3A CN111778233B (zh) 2019-04-04 2019-04-04 一种新型的单碱基编辑技术及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910272959.3A CN111778233B (zh) 2019-04-04 2019-04-04 一种新型的单碱基编辑技术及其应用

Publications (2)

Publication Number Publication Date
CN111778233A true CN111778233A (zh) 2020-10-16
CN111778233B CN111778233B (zh) 2023-11-21

Family

ID=72755038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910272959.3A Active CN111778233B (zh) 2019-04-04 2019-04-04 一种新型的单碱基编辑技术及其应用

Country Status (1)

Country Link
CN (1) CN111778233B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113774085A (zh) * 2021-08-20 2021-12-10 中国科学院广州生物医药与健康研究院 一种单碱基编辑工具TaC9-ABE及其应用
CN114045277A (zh) * 2021-10-21 2022-02-15 复旦大学 碱基编辑器及其构建方法与应用
CN114606227A (zh) * 2022-02-22 2022-06-10 复旦大学 高精度腺嘌呤碱基编辑器及其应用
CN114634923A (zh) * 2022-04-07 2022-06-17 尧唐(上海)生物科技有限公司 腺苷脱氨酶、碱基编辑器融合蛋白、碱基编辑器系统及用途

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018117746A1 (ko) * 2016-12-23 2018-06-28 기초과학연구원 동물 배아의 염기 교정용 조성물 및 염기 교정 방법
CN109295186A (zh) * 2018-09-30 2019-02-01 中山大学 一种基于全基因组测序检测腺嘌呤单碱基编辑系统脱靶效应的方法及其在基因编辑中的应用
CN109306361A (zh) * 2018-02-11 2019-02-05 华东师范大学 一种新的a/t到g/c碱基定点转换的基因编辑系统
CN109517841A (zh) * 2018-12-05 2019-03-26 华东师范大学 一种用于核苷酸序列修饰的组合物、方法与应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018117746A1 (ko) * 2016-12-23 2018-06-28 기초과학연구원 동물 배아의 염기 교정용 조성물 및 염기 교정 방법
US20200385753A1 (en) * 2016-12-23 2020-12-10 Institute For Basic Science Composition for base editing for animal embryo and base editing method
CN109306361A (zh) * 2018-02-11 2019-02-05 华东师范大学 一种新的a/t到g/c碱基定点转换的基因编辑系统
CN109295186A (zh) * 2018-09-30 2019-02-01 中山大学 一种基于全基因组测序检测腺嘌呤单碱基编辑系统脱靶效应的方法及其在基因编辑中的应用
CN109517841A (zh) * 2018-12-05 2019-03-26 华东师范大学 一种用于核苷酸序列修饰的组合物、方法与应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张爱霞;赵宇;安静;罗影;陈志国;: "基于CRISPR/Cas9系统的单碱基基因编辑技术及其在医药研究中的应用", 中国药理学与毒理学杂志, no. 07, pages 507 - 514 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113774085A (zh) * 2021-08-20 2021-12-10 中国科学院广州生物医药与健康研究院 一种单碱基编辑工具TaC9-ABE及其应用
CN113774085B (zh) * 2021-08-20 2023-08-15 中国科学院广州生物医药与健康研究院 一种单碱基编辑工具TaC9-ABE及其应用
CN114045277A (zh) * 2021-10-21 2022-02-15 复旦大学 碱基编辑器及其构建方法与应用
CN114606227A (zh) * 2022-02-22 2022-06-10 复旦大学 高精度腺嘌呤碱基编辑器及其应用
CN114606227B (zh) * 2022-02-22 2024-03-08 复旦大学 高精度腺嘌呤碱基编辑器及其应用
CN114634923A (zh) * 2022-04-07 2022-06-17 尧唐(上海)生物科技有限公司 腺苷脱氨酶、碱基编辑器融合蛋白、碱基编辑器系统及用途
CN114634923B (zh) * 2022-04-07 2024-02-23 尧唐(上海)生物科技有限公司 腺苷脱氨酶、碱基编辑器融合蛋白、碱基编辑器系统及用途

Also Published As

Publication number Publication date
CN111778233B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN112048497B (zh) 一种新型的单碱基编辑技术及其应用
CN111778233B (zh) 一种新型的单碱基编辑技术及其应用
Cao et al. Construction of BAC‐based physical map and analysis of chromosome rearrangement in Chinese hamster ovary cell lines
EP3536796A1 (en) Gene knockout method
CN111742051A (zh) 延伸的单向导rna及其用途
KR20170027743A (ko) 표적화된 좌를 변형시키는 방법 및 조성물
US7771714B2 (en) Medium comprising chicken leukemia inhibitory factor (LIF)
EP3487998B1 (en) Compositions and methods for identifying rna binding polypeptide targets
WO2020173150A1 (zh) 单碱基编辑导致非靶向单核苷酸变异及避免该变异的高特异性无脱靶单碱基基因编辑工具
US20230265404A1 (en) Engineered mad7 directed endonuclease
KR20220151175A (ko) 킬로베이스 스케일에서 rna-가이드된 게놈 재조합
US11946163B2 (en) Methods for measuring and improving CRISPR reagent function
US20230058352A1 (en) High Fidelity SpCas9 Nucleases for Genome Modification
Omasa et al. Bacterial artificial chromosome library for genome‐wide analysis of Chinese hamster ovary cells
EP3953470A1 (en) Compositions and methods for improved gene editing
WO2022206352A1 (zh) 一种引导编辑工具、融合rna及其用途
EP3666898A1 (en) Gene knockout method
WO2020199200A1 (zh) 一种新型的单碱基编辑技术及其应用
CN115703842A (zh) 高效率高精度的胞嘧啶c到鸟嘌呤g转变的碱基编辑器
CN105695509B (zh) 一种获得高纯度心肌细胞的方法
US20120309011A1 (en) Targeting of modifying enzymes for protein evolution
US20230313205A1 (en) Fusion protein and use thereof in base editing
Tevelev et al. A genetic off‐target event in a site‐specific integration cell line expressing monoclonal antibody has no impact on commercial suitability
Remus et al. The state of DNA methylation in the promoter regions of the human red cell membrane protein (band 3, protein 4.2, and β‐spectrin) genes
CN115725652A (zh) 一种实现多碱基编辑的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20210623

Address after: Room 1002, unit 1, building 7, 160 basheng Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201203

Applicant after: Huida (Shanghai) Biotechnology Co.,Ltd.

Address before: 200031 No. 320, Yueyang Road, Shanghai, Xuhui District

Applicant before: Center for excellence and innovation of brain science and intelligent technology, Chinese Academy of Sciences

TA01 Transfer of patent application right
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant