CN115703842A - 高效率高精度的胞嘧啶c到鸟嘌呤g转变的碱基编辑器 - Google Patents

高效率高精度的胞嘧啶c到鸟嘌呤g转变的碱基编辑器 Download PDF

Info

Publication number
CN115703842A
CN115703842A CN202110914211.6A CN202110914211A CN115703842A CN 115703842 A CN115703842 A CN 115703842A CN 202110914211 A CN202110914211 A CN 202110914211A CN 115703842 A CN115703842 A CN 115703842A
Authority
CN
China
Prior art keywords
dna
editing
sequence
base editor
artificial sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110914211.6A
Other languages
English (en)
Inventor
左二伟
孙怡迪
袁堂龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Center for Excellence in Brain Science and Intelligence Technology Chinese Academy of Sciences
Agricultural Genomics Institute at Shenzhen of CAAS
Original Assignee
Center for Excellence in Brain Science and Intelligence Technology Chinese Academy of Sciences
Agricultural Genomics Institute at Shenzhen of CAAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Center for Excellence in Brain Science and Intelligence Technology Chinese Academy of Sciences, Agricultural Genomics Institute at Shenzhen of CAAS filed Critical Center for Excellence in Brain Science and Intelligence Technology Chinese Academy of Sciences
Priority to CN202110914211.6A priority Critical patent/CN115703842A/zh
Publication of CN115703842A publication Critical patent/CN115703842A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供了一种高效率高精度的胞嘧啶C到鸟嘌呤G转变的碱基编辑器。本发明建立了一种新型的C‑to‑G碱基编辑器,与已有的C‑to‑G碱基编辑器相比,本发明的编辑器的靶向编辑效率和编辑精度均得以显著性提高,并且具有编辑产物的产品纯度高,编辑窗口窄,脱靶效应低的特点。

Description

高效率高精度的胞嘧啶C到鸟嘌呤G转变的碱基编辑器
技术领域
本发明属于生物技术领域,具体而言,主要为胞嘧啶C到鸟嘌呤G转变的碱基编辑器。
背景技术
随着现代生命科学的发展,为满足遗传学、分子生物学、发育生物学及医学等学科快速发展,在细胞、胚胎,甚至体内,基因组特定位点进行操作是科学家面临的重大挑战。近年来发现了一系列的核酸酶,极大促进了基因编辑技术(Gene editing)的发展,主要包括三类核酸酶系统,即锌指核酸酶、TALENs、CRISPR/Cas系统。
腺苷和胞苷脱氨酶介导的腺嘌呤和胞苷脱氨是哺乳动物和植物中最常见的碱基编辑机制。其中,腺苷脱氨酶介导RNA中的腺嘌呤(A)脱氨成次黄嘌呤(I),在转录翻译过程中I被识别成鸟嘌呤(G),从而实现A>G的转变。胞苷脱氨酶则介导DNA或者RNA中胞嘧啶(C)脱氨成尿嘧啶(U),尿嘧啶(U)在DNA中被聚合酶识别成胸腺嘧啶(T),实现C>T的转变。腺苷和胞苷脱氨酶在生物过程中都表现出其生理功能,如免疫,发育,应激反应等。此外,通过与CRISPR效应子融合,CRISPR效应子作为锚,脱氨酶为催化剂创建了单碱基编辑器家族,提高了精准编辑DNA或RNA序列中的特定碱基的能力。例如,将APOBEC1或APOBEC3与Cas9融合,创建了C>T的单碱基DNA编辑器。ADAR脱氨酶家族和已被修饰的ADAR与CRISPR-Cas13s融合,创建了A>I和C>U转换的单碱基RNA编辑器。
C>G(C-to-G)碱基转换的碱基编辑器此前是本领域设计的难点,直至2020年,研究者才开发出可介导C>G碱基转换的单碱基编辑工具CGBEs。Broad研究所的刘如谦团队陆续报道了可以在不产生双链断裂的情况下,实现胞嘧啶C到胸腺嘧啶T转变的C-to-G碱基编辑器(CBEs)和腺嘌呤A到鸟嘌呤G转变的腺嘌呤碱基编辑器(ABEs)。然而,这些BEs不能安装C到G或A到T转化,这类突变设计40%的人类致病点突变。2020年两篇报道表明,将CBE的尿嘧啶-DNA糖基化酶抑制剂(UGI)被尿嘧啶-DNA糖基化酶(UNG)取代形成新一代编辑器CGBEs,从而实现胞嘧啶C到鸟嘌呤G的转换。
目前这些研究存在的问题在于一方面的测试的位点较少,未阐明靶位点两侧序列对编辑效果影响,另一方面没有深入探究CGBEs的脱靶效应。此外,由于目前CGBEs工具的研究仍处于起步阶段,其靶向编辑的效率以及编辑的精度也亟待进一步地提高。
发明内容
在生物研究和应用中,单核苷酸的精确改变是基因编辑的一个强有力的方法。本发明的目的在于提供高效率高精度的胞嘧啶C到鸟嘌呤G转变的碱基编辑
在本发明的第一方面,提供一种提高C-to-G碱基编辑器靶向编辑效率和编辑精度的方法,包括:改造C-to-G碱基编辑器,使其包括操作性顺序连接的以下元件:核定位信号-尿嘧啶N-糖基化酶(UNG)-胞嘧啶脱氨酶-Cas酶-核定位信号;其中,所述的尿嘧啶N-糖基化酶是线虫来源的尿嘧啶N-糖基化酶,或为大肠杆菌来源的尿嘧啶N-糖基化酶。
在一个或多个实施方式中,所述的胞嘧啶脱氨酶包括选自下组的酶:APOBEC1,且其第90位突变为Tyr(Y)和第126位突变为Glu(E);APOBEC3A或其CTD域;或,APOBEC3G或其CTD域。
在一个或多个实施方式中,所述的Cas9酶包括选自下组的酶:Cas9n,Cas9n-NG,xCas9n,Cas9;较佳地为Cas9n-NG。
在一个或多个实施方式中,所述尿嘧啶N-糖基化酶与胞嘧啶脱氨酶之间通过接头连接;较佳地,尿嘧啶N-糖基化酶与胞嘧啶脱氨酶之间通过SEQ ID NO:3所示序列(32AA,SGGSSGGSSGSETPGTSESATPESSGGSSGGS)的接头连接。
在一个或多个实施方式中,所述胞嘧啶脱氨酶与Cas酶之间通过接头连接;较佳地,胞嘧啶脱氨酶与Cas酶之间通过SEQ ID NO:4所示序列(16AA,SGSETPGTSESATPES)的接头连接。
在一个或多个实施方式中,所述核定位序列的氨基端还包括标签序列,较佳地所述标签为Flag标签;更佳地为3xFlag标签,其氨基酸序列如SEQ ID NO:5所示(DYKDHDGDYKDHDIDYKDDDDK)。
在一个或多个实施方式中,所述的线虫来源的尿嘧啶N-糖基化酶的氨基酸序列如SEQ ID NO:1所示或其活性结构域,或其保守性变异多肽。
在一个或多个实施方式中,所述的大肠杆菌来源的尿嘧啶N-糖基化酶的氨基酸序列如SEQ ID NO:2所示或其活性结构域,或其保守性变异多肽。
在一个或多个实施方式中,所述核定位信号的氨基酸序列如SEQ ID NO:6所示(PKKKRKV)。
在一个或多个实施方式中,所述的各个元件形成了融合多肽/融合蛋白。
在一个或多个实施方式中,所述的各个元件之间直接连接,或还进一步包括接头(连接序列)。
在一个或多个实施方式中,所述的操作性顺序连接为从N端至C端的连接。
在一个或多个实施方式中,所述的尿嘧啶N-糖基化酶优选应用线虫来源的尿嘧啶N-糖基化酶。
在一个或多个实施方式中,所述线虫来源或大肠杆菌来源的尿嘧啶N-糖基化酶保守性变异多肽包括:(1)由SEQ ID NO:1或SEQ ID NO:2所示序列的多肽经过一个或多个(如1-20个,较佳地1-10个;更佳地1-5个;更佳地1-3个)氨基酸残基的取代、缺失或添加而形成的,且具有SEQ ID NO:1或SEQ ID NO:2所示序列的多肽的功能的多肽;(2)氨基酸序列与SEQ ID NO:1或SEQ ID NO:2所示序列的多肽有80%以上(较佳地85%以上;更佳地90%以上;更佳地95%以上;更佳地98%以上;更佳地99%以上)相同性,且具有SEQ ID NO:1或SEQID NO:2所示序列的多肽的功能的多肽;或(3)在SEQ ID NO:1或SEQ ID NO:2所示序列的多肽的N或C末端添加标签序列,或添加信号肽序列后形成的多肽。
在一个或多个实施方式中,所述的提高C-to-G碱基编辑器靶向编辑效率和编辑精度包括:提高编辑产物的产品纯度(也即:C到A和C到T编辑量大幅减少),促进编辑窗口变窄,降低脱靶效应;较佳地,所述的提高C-to-G碱基编辑器靶向编辑效率和编辑精度包括选自:(a)显著提高C-to-G碱基编辑器靶向于三碱基motif“WCW”的机率(偏好性);较佳地,其中所述胞嘧啶脱氨酶为APOBEC1,且其第90位突变为Tyr(Y)和第126位突变为Glu(E);(b)显著提高C-to-G碱基编辑器靶向于三碱基motif“TCW”的机率(偏好性);较佳地,其中所述胞嘧啶脱氨酶为APOBEC3A;或(c)显著提高C-to-G碱基编辑器靶向于三碱基motif“CCN”的机率(偏好性);较佳地,其中所述胞嘧啶脱氨酶为APOBEC3G;更佳地,目标位点包含3个或更多连续的C;所述三碱基中,W代表A或T,N代表A、T、C或G。
在一个或多个实施方式中,(a)中,W为A时,优选以线虫来源的UNG制备C-to-G碱基编辑器(cOPTI-CGBE)。
在本发明的另一方面,提供一种C-to-G碱基编辑器(具有靶向编辑效率和编辑精度高的特点),其包括操作性顺序连接的以下元件:核定位信号-尿嘧啶N-糖基化酶(UNG)-胞嘧啶脱氨酶-Cas酶-核定位信号;其中,所述的尿嘧啶N-糖基化酶是线虫来源的尿嘧啶N-糖基化酶,或为大肠杆菌来源的尿嘧啶N-糖基化酶。
在本发明的另一方面,提供分离的多核苷酸或含有该多核苷酸的重组表达载体;其中,所述多核苷酸编码前面任一所述的C-to-G碱基编辑器。
在本发明的另一方面,提供一种遗传工程化的宿主细胞,它含有前面所述的重组表达载体,或基因组中整合有前面所述的分离的多核苷酸。
在本发明的另一方面,提供前面任一所述的C-to-G碱基编辑器的用途,用于进行C-to-G的基因编辑(包括主要目的为C-to-G的基因编辑),提高C-to-G碱基编辑器靶向编辑效率和编辑精度。
在本发明的另一方面,提供前面任一所述的C-to-G碱基编辑器的用途,用于制备进行C-to-G的基因编辑(包括主要目的为C-to-G的基因编辑)、提高C-to-G碱基编辑器靶向编辑效率和编辑精度的试剂或试剂盒。
在一个或多个实施方式中,所述的C-to-G碱基编辑器用于基因编辑的用途为针对非活体的体外方法。
在一个或多个实施方式中,所述的C-to-G碱基编辑器用于基因编辑的用途所针对的对象不会发展为活体生物。
在一个或多个实施方式中,所述的C-to-G碱基编辑器用于基因编辑的用途为细胞水平的方法,包括单细胞、双细胞或多细胞。
在一个或多个实施方式中,所述的C-to-G碱基编辑器用于基因编辑的用途为不以疾病诊断为直接目的的用途。
在本发明的另一方面,提供一种进行C-to-G的基因编辑(包括主要目的为C-to-G的基因编辑)的方法,包括以前面任一所述的C-to-G碱基编辑器介导基因编辑;较佳地,将编码所述的C-to-G碱基编辑器的核酸序列以及gRNA/sgRNA共同注射受体,从而进行基因编辑;较佳地,所述的受体包括:体细胞或生殖细胞;较佳地,所述的生殖细胞包括胚胎细胞或受精卵。
在一个或多个实施方式中,所述基因编辑的方法为针对非活体的体外方法。
在一个或多个实施方式中,所述基因编辑的方法所针对的对象不会发展为活体生物。
在一个或多个实施方式中,所述基因编辑的方法为细胞水平的方法,包括单细胞、双细胞或多细胞。
在一个或多个实施方式中,所述基因编辑的方法为不以疾病诊断为直接目的的用途。
在本发明的另一方面,提供一种用于进行基因编辑的试剂或试剂盒,其中含有前面任一所述的C-to-G碱基编辑器;或,含有所述的分离的多核苷酸;或,含有该多核苷酸的重组表达载体。
本发明的其它方面由于本文的公开内容,对本领域的技术人员而言是显而易见的。
附图说明
图1a,CGBEs的结构示意图。
图1b,含有不同UNG组成的CGBEs在34个内源性位点的编辑效率(图中,数字越低表示与对照相比,显著性差异越大,后同)。
图1c,优化CGBEs在34个内源性位点的编辑效率。
图1d,CGBEs在34个内源性位点不同位置C的编辑效率。
图2a、CGBEs在34个内源性位点的编辑效率。
图2b、CGBEs在34个内源性位点不同位置C的编辑效率。
图2c、CGBEs在34个内源性位点的C到G的编辑效率与C到A或T的比值。
图2d、CGBEs在34个内源性位点插入或者缺失的比例。
图2e、PE2、PE3、CGBEs在不同位点的编辑效率。
图2f、PE2、PE3、CGBEs在不同位点的插入或缺失的比例。
图3a、全基因组范围内单核苷酸突变数目。
图3b、全基因组范围内单核苷酸突变类型。
图3c、转录组范围内单核苷酸突变数目。
图3d、转录组范围内单核苷酸突变类型。
图3e、预测位点的编辑效率。
图4a、靶位点上游碱基类型对C到G编辑效率影响。
图4b、靶位点下游碱基类型对C到G编辑效率影响。
图4c、靶位点上游碱基类型对C到A或T编辑效率影响。
图4d、靶位点下游碱基类型对C到A或T编辑效率影响。
图4e、靶位点上下游碱基类型对C到G,A或T编辑效率影响。
图4f、靶位点上下游碱基类型对插入或者缺失比例影响。
图5a、eA3A-OPTI-CGBEs示意图。
图5b、eA3A-OPTI-CGBEs在不同位置靶标C的编辑效率。
图5c、靶位点上游碱基类型对C到G,A或T编辑效率影响。
图5d、靶位点下游碱基类型对C到G,A或T编辑效率影响。
图5e、靶位点上下游碱基类型对C到G编辑效率影响。
图5f、靶位点上下游碱基类型对插入或者缺失比例影响。
图6a、hA3G-OPTI-CGBEs与hA3G-CTD-OPTI-CGBEs示意图。
图6b、在不同位置靶标C的C到G编辑效率。
图6c、靶位点上游碱基类型对C到G,A或T编辑效率影响。
图6d、靶位点下游碱基类型对C到G,A或T编辑效率影响。
图6e、靶位点上下游碱基类型对C到G编辑效率影响。
图6f、靶位点上下游碱基类型对插入或者缺失比例影响。
图6g、靶位点多个C时,在不用位置C的C到G编辑效率。
图7a、识别NG PAM的不同OPTI-CGBEs-NG示意图。
图7b、靶位点C到G,A或T编辑效率影响。
图7c、靶位点插入或者缺失比例。
图8a、文库水平靶位置上下游碱基对OPTI-CGBEs的C到G编辑效率。
图8b、文库水平靶位置上下游碱基对eA3A-OPTI-CGBEs的C到G编辑效率。
图8c、文库水平靶位置上下游碱基对hA3G-OPTI-CGBEs的C到G编辑效率。
图8d、文库水平靶位置上下游碱基对hA3G-CTD-OPTI-CGBEs的C到G编辑效率。
图9、文库水平靶位置上下游碱基对所有OPTI-CGBEs的C到G编辑效率。
图10a、受精卵时期即两细胞注射方案。
图10b、受精卵时期囊赔率。
图10c、胚胎中三个位点的编辑效率对比。
图10d、Sanger测序结果。
图10e、胚胎注射小鼠及后代。
具体实施方式
本发明人致力于提高胞嘧啶C到鸟嘌呤G转变的碱基编辑器的效率以及精度的提高,经过深入的研究、分析、优化选择和实验,建立了一种新型的C-to-G碱基编辑器,与已有的C-to-G碱基编辑器相比,本发明的编辑器的靶向编辑效率和编辑精度均得以显著性提高,并且具有编辑产物的产品纯度高,编辑窗口窄,脱靶效应低的特点。
术语
如本文所用,术语“C-to-G碱基编辑器”、“CGBE”、“CGBEs”可互换使用,均是指进行胞嘧啶C到鸟嘌呤G转变的碱基编辑器。
如本文所用,术语“保守性变异多肽”是指基本上保持所述多肽相同的生物学功能或活性的多肽。所述的“保守性变异多肽”可以是(i)有一个或多个保守或非保守性氨基酸残基(优选保守性氨基酸残基)被取代的多肽,而这样的取代的氨基酸残基可以是也可以不是由遗传密码编码的,或(ii)在一个或多个氨基酸残基中具有取代基团的多肽,或(iii)成熟多肽与另一个化合物(比如延长多肽半衰期的化合物,例如聚乙二醇)融合所形成的多肽,或(iv)附加的氨基酸序列融合到此多肽序列而形成的多肽(如前导序列或分泌序列或用来纯化此多肽的序列或蛋白原序列,或与抗原IgG片段的形成的融合蛋白)。根据本文的教导,这些片段、衍生物和类似物属于本领域熟练技术人员公知的范围。
如本文所用,术语“变体”或“突变体”是指与参照序列相比,通过一个或多个氨基酸的插入、缺失或取代使氨基酸序列发生变化但保留至少一种生物活性的肽或多肽。本文任一实施方案所述的突变体包括与参照序列(如本文所述的SEQ ID NO:2或4)具有至少80%,优选至少85%,优选至少90%,优选至少95%,优选至少97%的序列相同性并保留参照序列的生物学活性(如作为糖基转移酶)的氨基酸序列。可采用例如NCBI的BLASTp计算两条比对的序列之间的序列相同性。突变体还包括在参照序列的氨基酸序列中具有一个或多个突变(插入、缺失或取代)、同时仍保留参照序列生物学活性的氨基酸序列。所述多个突变通常指1-20个以内,例如1-15个、1-10个、1-8个、1-5个或1-3个。取代优选是保守性取代。例如,在本领域中,用性能相近或相似的氨基酸进行保守性取代时,通常不会改变蛋白质或多肽的功能。“性能相近或相似的氨基酸”包括例如,具有相似侧链的氨基酸残基的家族,这些家族包括具有碱性侧链的氨基酸(例如赖氨酸、精氨酸、组氨酸)、具有酸性侧链的氨基酸(例如天冬氨酸、谷氨酸)、具有不带电荷的极性侧链的氨基酸(例如甘氨酸、天冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、酪氨酸、半胱氨酸)、具有非极性侧链的氨基酸(例如丙氨酸、缬氨酸、亮氨酸、异亮氨酸脯氨酸、苯丙氨酸、甲硫氨酸、色氨酸)、具有β-分支侧链的氨基酸(例如苏氨酸、缬氨酸、异亮氨酸)和具有芳香侧链的氨基酸(例如酪氨酸、苯丙氨酸、色氨酸、组氨酸)。因此,在本发明多肽中用来自同一侧链类的另一氨基酸残基替换一个或几个位点,将不会在实质上影响其活性。
如本文所用,所述的“操作性相连”或“可操作地连于”指这样一种状况,即线性DNA序列的某些部分能够调节或控制同一线性DNA序列其它部分的活性。例如,如果启动子控制序列的转录,那么它就是可操作地连于编码序列。“操作性顺序连接(相连)”是指各个元件的连接按照一定的次序,例如从氨基酸至羧基端。
如本文所用,“接头”指连接两个分子或部分,例如融合蛋白的两个域,例如Cas9酶和脱氨酶的化学基团或分子。在一些连接方式中,接头位于两个基团、分子或其他部分之间或侧翼,并且通过共价键连接两者。在一些实施方案中,接头是氨基酸或多个氨基酸(例如肽或蛋白质)。在一些实施方案中,接头是有机分子、基团、聚合物或化学部分。接头的长度以及类型,可以根据需要来进行设计。
如本文所用,“突变”指序列(例如核酸或氨基酸序列)内的残基用另一个残基取代或序列内一个或多个残基的变为另一种残基,或发生缺失或插入。本发明的编辑器中,希望尽可能多地产生“C-to-G”的突变,提高其编辑的纯度,而减少或不发生其它碱基的突变。
如本文所用,“插入/缺失”指核酸内的核苷酸碱基的插入或缺失(Indels)。此类插入或缺失可以导致基因编码区内的移码突变。在一些实施方案中,Indels被作为考察碱基编辑器的一项指标,期望产生有效修饰(例如突变或脱氨基化)核酸内的特定核苷酸而不在核酸中产生大量插入或缺失(即插入/缺失)的碱基编辑器。
如本文所用,引导RNA(gRNA)可以作为两种或更多种RNA的复合物存在,或作为单一RNA分子存在。作为单一RNA分子存在的gRNA可以称为单一引导RNA(sgRNA),尽管“gRNA”可互换使用以指作为单分子或作为两个或更多个分子的复合物存在的引导RNA。典型地,作为单一RNA种类存在的gRNA包含两个域:(1)与靶核酸共享同源性(例如并且指导Cas9复合物与靶物结合)的域;和(2)结合Cas9蛋白的域。
C-to-G碱基编辑器
本发明所述的C-to-G碱基编辑器中,包括操作性顺序连接的以下元件:核定位信号-尿嘧啶N-糖基化酶(UNG)-胞嘧啶脱氨酶-Cas酶-核定位信号。
尿嘧啶N-糖基化酶(UNG)
所述的C-to-G碱基编辑器中包括UNG。UNG酶的作用原理是选择性水解断裂含有dU的双链或单链DNA中的尿嘧啶糖苷键,形成的有缺失碱基的DNA链。也即,所述UNG可在由胞嘧啶脱氨酶形成的尿嘧啶碱基位点脱去尿嘧啶,建立无嘌呤/无嘧啶(AP)位点,DNA损伤位点诱导启动DNA修复,从而实现碱基的转变。
尽管很多物种中均包括UNG,但本发明人研究中发现,当被应用于与其它功能性分子融合形成C-to-G碱基编辑器时,不同物种来源的UNG会存在非常显著的效果差异。经过大样本量的研究分析,本发明人选择到优化的UNG,排除了效果不理想的UNG。
因此,作为本发明的优选方式,所述的UNG是线虫来源的UNG,或为大肠杆菌来源的UNG,或其活性结构域,或其保守性变异多肽;最为优选地,所述的UNG是线虫来源的UNG,或其活性结构域,或其保守性变异多肽。本发明人发现,这种优化选择可极为显著地提高靶位点胞嘧啶C到鸟嘌呤G的转换。
胞嘧啶(胞苷)脱氨酶
本发明所述的C-to-G碱基编辑器中,包括胞嘧啶脱氨酶。本发明中,“脱氨酶”指催化脱氨基化反应的蛋白质或酶,优选地,所述的脱氨酶是胞嘧啶(胞苷)脱氨酶,催化胞苷或脱氧胞苷水解脱氨基化为尿苷或脱氧尿苷。在一些实施方案中,脱氨酶是胞苷脱氨酶的结构域(如CTD域)。
本领域中对于胞嘧啶脱氨酶已有一些研究,提出了多种胞嘧啶脱氨酶。本发明中,所述胞嘧啶脱氨酶包括APOBEC1或其同源物。所述APOBEC1同源物包括与APOBEC1发挥相同或接近功能的酶,或与APOBEC1具有基本上相同或基本上接近的结构域的酶,或与APOBEC1来自不同的物种但在各自物种中发挥同样作用的酶。例如,所述的APOBEC1同源物包括选自下组的酶:APOBEC3G,APOBECA3A。
作为本发明的优选方式,本发明优选应用一种经改造的胞嘧啶脱氨酶,该胞嘧啶脱氨酶中相应于APOBEC1第90位Trp(W)和第126位Arg(R)的氨基酸存在突变,且该胞嘧啶脱氨酶与核定位序列连接。较佳地,所述的突变为所述胞嘧啶脱氨酶的相应于APOBEC1第90位Trp突变为Tyr(Y);和/或,第126位Arg突变为Glu(E)。
在本发明的优选方式中,在所述的胞嘧啶脱氨酶与核定位序列之间,还通过连接序列连接,所述的连接序列可以是任何不影响两者的功能的连接序列,例如可以是标签序列或一些本领域已知的柔性连接序列。合适的标签可以被用于本发明中。例如,所述的标签可以是FLAG,HA,HA1,c-Myc,Poly-His,Poly-Arg,Strep-TagII,AU1,EE,T7,4A6,ε,B,gE或Ty1。
Cas酶
本发明中,所述的Cas酶是RNA引导的核酸酶。利用Cas酶例如Cas9进行位点特异性切割(例如,修饰基因组)的方法是本领域已知的。在一些实施方案中,Cas9域是来自酿脓链球菌的Cas9域(SpCas9)。在优选的实施方案中,所述的Cas9酶为SpCas9切口酶(SpCas9n)。
本发明的经改造的碱基编辑器中,所述的UNG、胞嘧啶脱氨酶、Cas酶可以是重组蛋白、天然蛋白、合成蛋白,优选重组蛋白。本发明的蛋白可以是天然纯化的产物,或是化学合成的产物,或使用重组技术从原核或真核宿主(例如,细菌、酵母、高等植物、昆虫和哺乳动物细胞)中产生。
本发明还包括所述UNG、胞嘧啶脱氨酶或Cas酶(也即为本发明中经选择优化或经改造的酶)的片段、衍生物和类似物。如本文所用,术语“片段”、“衍生物”和“类似物”是指基本上保持本发明的经选择优化或经改造的酶相同的生物学功能或活性的蛋白。本发明的蛋白片段、衍生物或类似物可以是(i)有一个或多个保守或非保守性氨基酸残基(优选保守性氨基酸残基)被取代的蛋白,而这样的取代的氨基酸残基可以是也可以不是由遗传密码编码的,或(ii)在一个或多个氨基酸残基中具有取代基团的蛋白,或(iii)附加的氨基酸序列融合到此蛋白序列而形成的蛋白(如前导序列或分泌序列或用来纯化此蛋白的序列或蛋白原序列,或融合蛋白)。根据本文的定义这些片段、衍生物和类似物属于本领域熟练技术人员公知的范围。然而,在一些实施方式中,所述的经选择优化或经改造的酶及其片段、衍生物和类似物的氨基酸序列中,存在本发明中所指定的突变,有需要时这些突变的位点是保守的。
在本发明中,术语“经选择优化或经改造的酶”还包括(但并不限于):若干个(通常为1-20个,更佳地1-10个,还更佳如1-8个、1-5个、1-3个、或1-2个)氨基酸的缺失、插入和/或取代,以及在C末端和/或N末端添加或缺失一个或数个(通常为20个以内,较佳地为10个以内,更佳地为5个以内)氨基酸。例如,在本领域中,用性能相近或相似的氨基酸进行取代时,通常不会改变蛋白质的功能。又比如,在C末端和/或N末端添加一个或数个氨基酸通常也不会改变蛋白质的功能。该术语还包括经选择优化或经改造的酶的活性片段和活性衍生物。然而,在一些实施方式中,所述的经选择优化或经改造的酶及其片段、衍生物和类似物的氨基酸序列中,存在本发明中所指定的突变,有需要时这些突变的位点是保守的。
在本发明中,术语“经选择优化或经改造的酶”还包括(但并不限于):与所述的经选择优化或经改造的酶的氨基酸序列具有80%以上,较佳地85%以上,更佳地90%以上,进一步更佳地95%以上,如98%以上、99%以上序列相同性的保留其蛋白活性的衍生的蛋白。同样地,在一些实施方式中,这些衍生的蛋白中,所述的经选择优化或经改造的酶及其片段、衍生物和类似物的氨基酸序列中,存在本发明中所指定的突变,有需要时这些突变的位点是保守的。
本发明还提供了编码本发明经选择优化或经改造的酶或其保守性变异蛋白的多核苷酸序列。
本发明的多核苷酸可以是DNA形式或RNA形式。DNA形式包括cDNA、基因组DNA或人工合成的DNA。DNA可以是单链的或是双链的。DNA可以是编码链或非编码链。
编码所述突变体的成熟蛋白的多核苷酸包括:只编码成熟蛋白的编码序列;成熟蛋白的编码序列和各种附加编码序列;成熟蛋白的编码序列(和任选的附加编码序列)以及非编码序列。
“编码蛋白的多核苷酸”可以是包括编码此蛋白的多核苷酸,也可以是还包括附加编码和/或非编码序列的多核苷酸。
本发明的经选择优化或经改造的酶核苷酸全长序列或其片段通常可以用PCR扩增法、重组法或人工合成的方法获得。对于PCR扩增法,可根据本发明所公开的有关核苷酸序列,尤其是开放阅读框序列来设计引物,并用市售的cDNA库或按本领域技术人员已知的常规方法所制备的cDNA库作为模板,扩增而得有关序列。当序列较长时,常常需要进行两次或多次PCR扩增,然后再将各次扩增出的片段按正确次序拼接在一起。
一旦获得了有关的序列,就可以用重组法来大批量地获得有关序列。这通常是将其克隆入载体,再转入细胞,然后通过常规方法从增殖后的宿主细胞中分离得到有关序列。
此外,还可用人工合成的方法来合成有关序列,尤其是片段长度较短时。通常,通过先合成多个小片段,然后再进行连接可获得序列很长的片段。目前,已经可以完全通过化学合成来得到编码本发明蛋白(或其片段,或其衍生物)的DNA序列。然后可将该DNA序列引入本领域中已知的各种现有的DNA分子(或如载体)和细胞中。此外,还可通过化学合成将突变引入本发明蛋白序列中。
本发明也涉及包含本发明的多核苷酸的载体,以及用本发明的载体或经选择优化或经改造的酶编码序列经基因工程产生的宿主细胞,以及经重组技术产生本发明所述蛋白的方法。
通过常规的重组DNA技术,可利用本发明的多聚核苷酸序列来表达或生产重组的经选择优化或经改造的酶。一般来说有以下步骤:(1).用本发明的编码经选择优化或经改造的酶的多核苷酸,或用含有该多核苷酸的重组表达载体转化或转导合适的宿主细胞;(2).在合适的培养基中培养的宿主细胞;(3).从培养基或细胞中分离、纯化蛋白质。
本发明中,所述经选择优化或经改造的酶多核苷酸序列或所述C-to-G碱基编辑器多核苷酸序列可插入到重组表达载体中。术语“重组表达载体”指本领域熟知的细菌质粒、噬菌体、酵母质粒、植物细胞病毒、哺乳动物细胞病毒或其他载体。总之,只要能在宿主体内复制和稳定,多种质粒和载体都可以用。表达载体的一个重要特征是通常含有复制起点、启动子、标记基因和翻译控制元件。作为本发明的优选方式,所述的表达载体是适用于碱基编辑器的引入以及在胞内表达的表达载体,例如但不限于pCMV载体。
本领域的技术人员熟知的方法能用于构建含有所述经选择优化或经改造的酶多核苷酸序列或所述C-to-G碱基编辑器多核苷酸序列和合适的转录/翻译控制信号的表达载体。这些方法包括体外重组DNA技术、DNA合成技术、体内重组技术等。所述的DNA序列可有效连接到表达载体中的适当启动子上,以指导mRNA合成。表达载体还包括翻译起始用的核糖体结合位点和转录终止子。表达载体优选地包含一个或多个选择性标记基因,以提供用于选择转化的宿主细胞的表型性状。
包含上述的适当DNA序列以及适当启动子或者控制序列的载体,可以用于转化适当的宿主细胞后受体细胞。
基因编辑的方法及应用
本发明还提供了进行基因编辑的方法,包括以本发明所述的C-to-G碱基编辑器介导基因编辑。除了采用本发明所述的C-to-G碱基编辑器进行基因编辑以外,其它方面的基因编辑试剂可以运用本领域已知的,例如gRNA(或sgRNA)可以采用本领域已知的方式进行设计。
本发明中,适用的基因编辑的对象没有特别的限制,可以是体细胞或生殖细胞,可以是动物细胞或人细胞。
尽管C-to-G碱基编辑器(CGBEs)作为强大的基因编辑器有着广阔的前景,但DNA和RNA的脱靶效应、编辑产物的纯度低、编辑窗口过宽、编辑的精度低等问题限制了其在科学和医学上的应用。在本发明的具体实施方式中,本发明人详细筛选了多种来源的酶、结合适当的突变,并通过测定编辑效率、编辑产物纯度等方法来加以衡量,采用GOTI和RNA-Seq分别分析了DNA和RNA的脱靶效应。结果显示:
(a)所述的CGBEs中,线虫来源的cUNG-CGBE以及大肠杆菌来源的eUNG-CGBE显著提高靶位点胞嘧啶C到鸟嘌呤G的转换;线虫来源的cUNG-CGBE的效果尤其优异;
(b)基于eUNG-CGBE,Apobec1,进行W90Y、R126E突变(YE1),获得YE1-cUNG-CGBE或YE1-eUNG-CGBE后,C到A和C到T编辑量大幅减少,相应产物纯度明显提高;线虫来源的cUNG-CGBE的效果尤其优异;
(c)基于YE1-cUNG-CGBE或YE1-eUNG-CGBE,氨基端添加FNLS后,进一步获得FNLS-YE1-cUNG-CGBE或FNLS-YE1-eUNG-CGBE后,呈现了更高的整体编辑效率;线虫来源的cUNG-CGBE的效果尤其优异;
(d)基于FNLS-YE1-cUNG/eUNG-CGBE,YE1与cUNG换位置,从而获得主要元件包括FNLS-cUNG/eUNG-Apobec1(YE1)-Cas9n-NLS的编辑器,此时,C-to-G编辑效率进一步提高、编辑产物的产品纯度显著提高(C到G转换比例显著增加)、编辑窗口显著变窄;线虫来源的cUNG-CGBE的效果尤其优异。
本发明不仅在靶向编辑的编辑效率、编辑产物纯度的提高上获得了卓著的技术效果,以及将靶向编辑时的插入缺失突变(indels)降到很低的水平;而且,本发明人通过多方案的改造,还优化了适应于靶基因多种motif构造的编辑器,这有利于编辑精度的进一步优化和提高。
作为本发明的一种实施方式,所述的CGBEs碱基编辑器中,所述胞嘧啶脱氨酶为APOBEC1,且其第90位突变为Tyr(Y)和第126位突变为Glu(E);这一编辑器具有靶向于三碱基motif“WCW”偏好性(W代表A或T),这有利于缩小基因编辑的窗口。
作为本发明的一种实施方式,所述的CGBEs碱基编辑器中,所述胞嘧啶脱氨酶为APOBEC3A,这一编辑器具有靶向于三碱基motif“TCW”的偏好性,这有利于缩小基因编辑的窗口。
作为本发明的一种实施方式,所述的CGBEs碱基编辑器中,所述胞嘧啶脱氨酶为APOBEC3G,这一编辑器具有靶向于三碱基motif“CCN”的偏好性(N代表A、T、C或G),这有利于缩小基因编辑的窗口。
多种Cas9酶可被应用于本发明的方法中,本发明中也建立了含有多种Cas酶的编辑器,并进行了效果分析。作为本发明的优选方式,运用Cas9n-NG和spGn,其编辑效率高于xCas9n。
动物水平的研究结果也已表明,本发明优化的编辑编辑器是一种对于哺乳动物胚胎基因组有效的碱基编辑工具。
本发明还提供了用于进行本发明的基因编辑操作的试剂或试剂盒,其中含有本发明所述的C-to-G碱基编辑器;或其中含有所述的分离的多核苷酸或含有该多核苷酸的重组表达载体。
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件如J.萨姆布鲁克等编著,分子克隆实验指南,第三版,科学出版社,2002中所述的条件,或按照制造厂商所建议的条件。
实施例1、CGBEs效率优化及脱靶研究
1、CGBEs的优化改造
现有的pCMV-BE3(Addgene plasmid#73021)骨架质粒,包括脱氨酶rApobec1、nCas9(Cas9n)及尿嘧啶DNA糖基化酶抑制剂(UGI)(羧基端设计有NLS和PolyA),并在pCMV-BE3上添加CMV-mCherry作为阳性筛选标记。
针对现有CGBEs编辑器存在的问题,本发明人对其进行效率的优化,首先通过对比不同物种来源的尿嘧啶-DNA糖基化酶(UNG)替代UGI(图1a),分别来源于人(hUNG,NC_000012.12)、大肠杆菌(eUNG,NC_000913.3)、线虫(cUNG,SEQ ID NO:1)、小鼠(mUNG,NC_000071.7),替换pCMV-BE3中的尿嘧啶DNA糖基化酶抑制剂(UGI)。所用到的构建体如表1和图1a。
表1
Figure BDA0003205057220000121
Figure BDA0003205057220000131
其中,线虫来源的UNG(cUNG)的氨基酸序列如下(SEQ ID NO:1):
MSKTVRIPDMFLKASAASKRKSASNTENIPEKVPAGNENQEVKKMKLQAPEPTEILLKSLLTGESWSKLLEEEFKKGYISKIEKFLNSEVNKGKQVFPPPTQIFTTFNLLPFDEISVVIIGQDPYHDDNQAHGLSFSVQKGVKPPPSLKNIYKELESDIEGFKRPDHGNLLGWTRQGVFMLNATLTVRAHEANSHAKIGWQTFTDTVIRIISRQSEKPIVFLLWGGFAHKKEELIDTKKHVVIKTAHPSPLSARKWWGCKCFSKCNTELENSGRNPINWADL
大肠杆菌来源的尿嘧啶N-糖基化酶的氨基酸序列如下(SEQ ID NO:2):
MANELTWHDVLAEEKQQPYFLNTLQTVASERQSGVTIYPPQKDVFNAFRFTELGDVKVVILGQDPYHGPGQAHGLAFSVRPGIAIPPSLLNMYKELENTIPGFTRPNHGYLESWARQGVLLLNTVLTVRAGQAHSHASLGWETFTDKVISLINQHREGVVFLLWGSHAQKKGAIIDKQRHHVLKAPHPSPLSAHRGFFGCNHFVLANQWLEQRGETPIDWMPVLPAESE
在HEK293T细胞中转染含有不同UNG来源的CGBEs和靶向34个内源性位点的gRNA,转染48小时后分选转染阳性细胞,利用引物进行PCR扩增、测序(根据靶位点两侧序列设计正向引物和反向引物的),统计靶位点中发生C-to-G突变的reads数与总的reads数相除;34个内源性位点、gRNA如表2。结果发现,来源于大肠杆菌UNG(eUNG-CGBE)和线虫的UNG(cUNG-CGBE)能够显著提高靶位点胞嘧啶C到鸟嘌呤G的转换(图1b,eUNG-CGBE,12.5%,cUNG-CGBE,14.8%)。可见,cUNG为各个UNG中效果最为理想的。
表2
Figure BDA0003205057220000132
Figure BDA0003205057220000141
为防止由脱氨酶rApobec1诱导产生随机的DNA脱靶和RNA脱靶,本发明人将rApobec1的第90位的色氨酸W突变为酪氨酸Y,第126位的精氨酸R突变为谷氨酸E,获得YE1-eUNG-CGBE与YE1-cUNG-CGBE,如表3和图1a。
表3
YE1-eUNG-CGBE 基于eUNG-CGBE,rApobec1发生W90Y、R126E突变
YE1-cUNG-CGBE 基于cUNG-CGBE,rApobec1发生W90Y、R126E突变
HEK293T细胞分别转染YE1-eUNG-CGBE与YE1-cUNG-CGBE和靶向34个内源性位点的gRNA,转染48小时后分选转染阳性细胞,分别统计靶位点中发生C-to-G/A/T突变的reads数与总的reads数相除。
结果如图1c,YE1-eUNG-CGBE和YE1-cUNG-CGBE编辑后C到A和C到T编辑量大幅减少,相应产物纯度明显提高。
为了进一步提高YE1-eUNG-CGBE及YE1-cUNG-CGBE的编辑效率,本发明人在融合蛋白的N端添加Flag标签以及核定位信号肽,并密码子优化。FNLS:3xFlag标签以及NLS核定位序列(PKKKRKV),构建体如表4和图1a。
表4
FNLS-YE1-eUNG-CGBE 基于YE1-eUNG-CGBE,氨基端添加FNLS
FNLS-YE1-cUNG-CGBE 基于YE1-cUNG-CGBE,氨基端添加FNLS
其中3xFlag标签,NLS核定位序列及密码子优化的nCas9序列参照pCMV-YE1-FNLS-BE3(Addgene Plasmid#154005)。
结果显示(图1c),与YE1-eUNG-CGBE相比,HEK293T细胞中变体(FNLS-YE1-eUNG-CGBE)有效实现了更高的整体编辑效率(后者为前者的2倍)。
进一步地,本发明人将eUNG融合到CGBE的N端(FNLS-eUNG-YE1-CGBE)而不是原C端位置,结构域位置发生改变。构建体如表5和图1a。
表5
Figure BDA0003205057220000142
结果显示(图1c),FNLS-eUNG-YE1-CGBE的这种位置的变化使编辑效率进一步提高(平均22.7%)。同样地,在N端携带cUNG的FNLS-cUNG-YE1-CGBE也显著提高了C到G编辑效率(29.6%;图1b)。cUNG诱导的C-to-G的编辑效率明显高于eUNG。
同时,本发明测定了各个改造后的构建体的C-to-G编辑产物的产品纯度,分别统计靶位点中发生C-to-G/A/T突变的reads数与总的reads数相除。如图1c,FNLS-eUNG-YE1-CGBE和FNLS-cUNG-YE1-CGBE的C-to-G编辑产物的产品纯度也得到显著提高。其中,带有cUNG的构建体在效果上进一步高于带有eUNG的构建体。
此外,本发明人还测定了各个改造后的构建体的编辑窗口。分别统计gRNA上每一个C突变成G的效率(其中PAM位于21-23)。
结果如图1d,FNLS-eUNG-YE1-CGBE和FNLS-cUNG-YE1-CGBE的编辑窗口变窄,位于gRNA的4-7(PAM位于21-23)有高的编辑效率。
2、优化改造的CGBEs与已报导CGBE1的比较
将本发明人的优化得到的CGBEs突变体FNLS-eUNG-YE1-CGBE和FNLS-cUNG-YE1-CGBE与已经发表的CGBE1(Addgene plasmid#140252)进行比较。C-to-G编辑效率的计算方法、编辑窗口的测定、编辑产物纯度测定如前述。
结果表明,经优化的CGBEs显示出显著更高的C-to-G编辑效率(图2a)。优化的CGBEs在编辑窗口中的位置5和6(其中PAM位于21-23)显示了更高的编辑效率(图2b)。此外,与CGBE1相比,FNLS-eUNG-YE1-CGBE和FNLS-cUNG-YE1-CGBE产生的编辑产物纯度更高,并且C到G转换与其他编辑产物的比例显著增加(图2c)。
本发明人也计算了CGBEs的插入缺失(indel)突变频率,测定方法为:发生插入或者缺失突变的reads与总reads相除。结果显示,FNLS-cUNG-YE1-CGBE的indel频率同时显著降低(图2d)。
此外,将优化的CGBEs与先导编辑器PE2(Addgene plasmid#132775)和PE3进行了比较。实验中测试了6个不同的靶点(EMX1 site 2,FANCF site 1,HEK293 site 1,HEK293site 2,HEK293 site 3,RNF2 site 1),发现PE2和PE3的效率远远低于优化的CGBEs(图2e),PE3还诱导了更高频率的插入及缺失(indel)突变(图2f)。
3、优化改造的CGBEs的脱靶效应测定
本发明人应用了GOTI和RNA-seq等脱靶研究方法来评估FNLS-eUNG-YE1-CGBE和FNLS-cUNG-YE1-CGBE潜在的DNA和RNA脱靶效应。所检测的位点信息如表6,其中OT1~OT7分别为预测脱靶位点。检测时,利用引物(根据靶位点两侧序列设计内部正向引物和内部反向引物)进行PCR扩增、测序。
结果如图3a,在CGBE编辑的小鼠胚胎中单核苷酸变异SNV的数目与本底SNV水平相似,远低于BE3组。此外,在CGBE组中没有观察到突变偏好(图3b),这表明优化的CGBE突变体在DNA水平上没有引起可检测的脱靶效应。另一方面,经FNLS-eUNG-YE1-CGBE或FNLS-cUNG-YE1-CGBE不会引起RNA SNVs数量增加,也没有突变偏好,这表明优化的CGBE突变体没有引起RNA脱靶效应(图3c-d)。
此外,本发明人的也发现在Cas-OFFinder预测的gRNA依赖的脱靶位点未找到明显的sgRNA依赖的脱靶(图3e)。
表6
Figure BDA0003205057220000151
Figure BDA0003205057220000161
总之,这些结果显示,FNLS-eUNG-YE1-CGBE和FNLS-cUNG-YE1-CGBE,以下分别称为eOPTI-CGBE和cOPTI-CGBE,能在低脱靶效应的情况下实现高的C-to-G转换效率。
实施例2、内源基因研究OPTI-CGBEs的靶向序列偏好性
如前所述,本发明人评估了34个目标位点的编辑效果。然而,当本发明人对eOPTI-CGBE成功编辑位点的序列上下游序列分析时,检测到明显包含3个碱基motif(“WCW”;W代表A或T)的偏好性,而不增加其他产物的编辑(图4a-d)。统计的产物为ACN、CCN、GCN、TCN、NCA、NCC、NCG、NCT(其中“N”表示任何碱基A、T、G或C,中间位置的“C”为“C-to-G”的靶位置)。
在cOPTI-CGBE中也发现一个非常类似的偏好性,但是W为T的优先性高于A(图4a-d)。
接下来,为验证分析结果,本发明人测试OPTI-CGBEs在20个包含“WCW”motif(表7)的编辑效果。检测时,利用引物(根据靶位点两侧序列设计正向引物和反向引物)进行PCR扩增、测序。
结果发现,靶向位于“WCW”motif的胞嘧啶C,eOPTI-CGBE编辑效率显著高于不含该motif的靶Cs((30.2%vs 9.5%;图4e)。cOPTI-CGBE编辑效率也有类似的提高(34.0%vs12.1%;图4e)。并且对“WCW”靶位点的对比分析也显示,eOPTI-CGBE和cOPTI-CGBE的编辑后产物纯度明显提高,而C到A和C到T编辑比例幅减少,诱导插入频率均大幅降低(eOPTI-CGBE:22.6%降低到12.6%;cOPTI-CGBE:11.7%down to 5.6%)(图4e-f)。相比较而言,cOPTI-CGBE诱导产生的诱导插入频率明显低于eOPTI-CGBE,可见选择cUNG来建立本发明的碱基编辑器具有优势。
因此,eOPTI-CGBE和cOPTI-CGBE在靶向带有“WCW”motif的位点时,可以达到很高的对靶C-to-G编辑效率,并且产品纯度高。
表7
On-target site gRNA序列 SEQ ID NO:
EMX1 site 8 aagtctctctcttaatgacacgg 81
EMX1 site 9 gcgttcagggcctgggagcctgg 82
EMX1 site 10 gtctttcttaacgtattgagagg 83
EMX1 site 11 caaactcaaccacttcctgttgg 84
EMX1 site 12 aggacttctctttggctccctgg 85
EMX1 site 13 tctagactcaacccactagatgg 86
EMX1 site 14 attcacagaaacctccctagagg 87
EMX1 site 15 ttgatcaatgtggaactcactgg 88
EMX1 site 16 tgctgtctgggccacatgcaggg 89
EMX1 site 17 cctgactgatggagggagagggg 90
DNMT3B site 6 aatttcttgaatccaggaggcgg 91
DNMT3B site 7 atagtctacatttatagtgctgg 92
DNMT3B site 8 atcacagacatgggtatgccagg 93
DNMT3B site 9 taaacatgtgttaaggatcctgg 94
DNMT3B site 10 ggctctgatcttcatcccctcgg 95
DNMT3B site 11 gggatcatgggacagatgggagg 96
DNMT3B site 12 tcttttctcaatagaacaaatgg 97
DNMT3B site 13 cctgacagggtggatgagccagg 98
DNMT3B site 14 ttagtcacttgcctactgtcagg 99
DNMT3B site 15 tgcctactggttaaaggacctgg 100
实施例3、OPTI-CGBEs突变体
为进一步扩展OPTI-CGBEs应用范围,本发明人进一步检测了其他脱氨酶的序列偏好性,以便确定在CGBE编辑器的靶向范围。
本发明人探索了3种不同的脱氨基酶模块:一个偏好“TCN”motif的人源APOBEC3A脱氨酶(来自Addgene Plasmid#131315)和偏好富含C序列两个人源APOBEC3G脱氨酶(来自Addgene Plasmid#163636),如图5a、图6a以及表8。
表8
Figure BDA0003205057220000171
Figure BDA0003205057220000181
采用如前所述的测定方法,本发明人首先分析了这些CGBE编辑器在34个靶点(表2)的编辑效率和活性窗口。结果显示,这些新的CGBE也显示了一个缩小的编辑窗口,类似于eOPTI-CGBE和cOPTI-CGBE(图5b)。这些CGBE编辑器在不同位置靶标C的C到G编辑效率如图6b。
此外,eA3A-eOPTI-CGBE和eA3A-cOPTI-CGBE对“TCW”motif有明显的偏好,其中W为A或T,这与cOPTI-CGBE的motif偏好一致(图5c-f)。
与rAPOBEC1和APOBEC3A的motif偏好性不同,本发明人发现由大肠杆菌UNG构建的APOBEC3G的两个变体(hA3G-eOPTI-CGBE和hA3G-CTD-eOPTI-CGBE)对“CCN”基序有显著的偏好(图6c-f)。另外测试26个包含CCN motif的gRNA(表9);检测时,利用引物(根据靶位点两侧序列设计内部正向引物和内部反向引物)进行PCR扩增、测序。结果显示,与非CCN motif的靶位点相比,CCN motif的靶位点的编辑效率显著提高(图6e)。
本发明人发现,以线虫UNG(替换此前的eUNG或cUNG)构建的hA3G-cOPTI-CGBE和hA3G-CTD-cOPTI-CGBE也有类似的结果(图6c-f)。此外,当目标位点包含3个或更多连续的C时,含有eUNG或cUNG的APOBEC3G变体的C-G转换效率高,尤以cUNG最高(图6g)。
表9
On-target site On-target序列 SEQ ID NO:
EMX1 site 18 gctgcccctacacccttcccagg 101
EMX1 site 19 tggcccctgtgccctgcagatgg 102
EMX1 site 20 ttacccagttctctgggagcagg 103
EMX1 site 21 tcctccccaaggggggcctctgg 104
EMX1 site 22 cctcccagattatgcatgagagg 105
EMX1 site 23 ggccccagtggctgctctggggg 106
EMX1 site 24 ggagcccttcttcttctgctcgg 107
EMX1 site 25 gctcccatcacatcaaccggtgg 108
EMX1 site 26 cactccctggccaggctttgggg 109
EMX1 site 27 accaccccaggctctggggctgg 110
EMX1 site 28 gtaccccaccccaggctcccagg 111
EMX1 site 29 tgtcccacttgtcaggatgaagg 112
DNMT3B site 16 catccctgacccagagaacccgg 113
DNMT3B site 17 catccctacctagccagatgggg 114
DNMT3B site 18 gcatccctggctgggtagatagg 115
DNMT3B site 19 cacaccctgtaaacagcaaatgg 116
DNMT3B site 20 gcatccctacttcacagatgggg 117
DNMT3B site 21 gggccctgtggggtggatgtggg 118
DNMT3B site 22 agctccctattcccatgcctagg 119
DNMT3B site 23 ttgccctggaagcagcacacagg 120
DNMT3B site 24 tcacccaggctggaatgcagtgg 121
EMX1 site 30 ctccccattggcctgcttcgtgg 122
EMX1 site 31 ttgcccaccctagtcattggagg 123
HEK293site 6 ctgcccaatatgtaaaataacgg 124
HEK293site 7 cttcccaagtgagaagccagtgg 125
FANCF site 6 caacccaaatgcctttctgaagg 126
为了进一步拓宽C到G编辑的靶向范围,本发明人还通过Cas9n-NG(AddgenePlasmid#138566)、spG(Addgene Plasmid#140001)n或xCas9n(Addgene Plasmid#138565)替换掉Cas9n构建了6个能够识别“NG”PAM的CGBE-NGs编辑器(表10和图7a)。
表10
eOPTI-CGBE-Cas9n-NG 基于eOPTI-CGBE,Cas9n替换为Cas9n-NG
eOPTI-CGBE-spGn 基于eOPTI-CGBE,Cas9n替换为spGn
eOPTI-CGBE-xCas9n 基于eOPTI-CGBE,Cas9n替换为xCas9n
cOPTI-CGBE-Cas9n-NG 基于cOPTI-CGBE,Cas9n替换为Cas9n-NG
cOPTI-CGBE-spGn 基于cOPTI-CGBE,Cas9n替换为spGn
cOPTI-CGBE-xCas9n 基于cOPTI-CGBE,Cas9n替换为xCas9n
测试20个NG PAM的gRNA(表11)。
表11
On-target site On-target序列 SEQ ID NO:
EMX1 site 32 caaacaagggcagatggcgcag 127
EMX1 site 33 aagttctggcaagaggggactg 128
EMX1 site 34 agaggactgcctgggaagggtg 129
EMX1 site 35 aaccatctgcagggcacagggg 130
EMX1 site 36 tctttctgaggcctgccctcag 131
EMX1 site 37 ccaactgcagctgtgcagacgg 132
EMX1 site 38 cagcacatttaaaagcaagtgg 133
EMX1 site 39 aatgttctggggacacttgcag 134
EMX1 site 40 aaccatcttcagcgttggcagg 135
EMX1 site 41 ggttctttacttggctttgcag 136
DNMT3B site 25 cagacagggtttcaccatgttg 137
DNMT3B site 26 aagttctgggattacagtcatg 138
DNMT3B site 27 gcatttctgatcagagagcctg 139
DNMT3B site 28 gacgtcagggaagcccgtactg 140
DNMT3B site 29 tgtttctgtgtggagtgcctgg 141
DNMT3B site 30 ctgttacatgtgtctcccgcag 142
DNMT3B site 31 gctgtcatggcgtcctgcggcg 143
DNMT3B site 32 gggttcattcactccctccttg 144
DNMT3B site 33 gattttcaggggcctgatgaag 145
DNMT3B site 34 gccttctgagttagcagagctg 146
结果如图7b-c,Cas9n-NG和spGn的编辑效率高于xCas9n版本,而Cas9n-NG的indel频率低于spGn版本。因此,Cas9n-NG是具有NG PAMs的站点进行C到G编辑的最佳版本。
实施例4、文库水平研究OPTI-CGBEs序列偏好性
本发明人进行了大规模的筛选,以评估OPTI-CGBEs序列偏好性。使用了配对的sgRNA库(来自Wellcome Sanger研究所的Leopold Parts博士),其中包含41,388个克隆寡核苷酸,每个寡核苷酸都包含一个20nt的sgRNA序列及其靶向序列。用含有配对sgRNA文库的慢病毒载体感染HEK293T细胞,然后用编码8个OPTI-CGBEs中的一个质粒转染。然后进行深度测序,以评估编辑结果,并探讨序列背景对编辑效率的影响。对于目标Cs跨越原间隔体4-7个位置且覆盖面积超过100X的位点。本发明人发现,文库序列的基序偏好与上述检测的内源性位点的基序偏好基本一致:eOPTI-CGBE和cOPTI-CGBE偏好“WCW”motif,eA3A-OPTI-CGBEs偏好“TCW”motif位点,融合APOBEC3G及APOBEC3G-CTD的OPTI-CGBEs首选“CCN”motif(图8a-d)。
接下来,本发明人使用配对sgRNA库(来自Wellcome Sanger研究所的LeopoldParts博士)中的训练数据集(80%随机抽样)建立逻辑回归模型来学习基序偏好。然后用库的剩余20%对模型进行测试,并显示出良好的性能。学习的参数通过序列标识显示,显示了eOPTI-CGBE(WCW)、cOPTI-CGBE(TCW)、eA3A-OPTI-CGBEs(TCW)和hA3G-OPTI-CGBEs(CCN)的motif偏好(图9)。
实施例5、OPTI-CGBEs在小鼠胚胎中应用
本发明人获得了在不同序列环境下具有较高的C-G碱基编辑效率和无脱靶效应的CGBE变体,然后将OPTI-CGBEs应用在小鼠胚胎中基因组DNA编辑,针对的靶基因及其gRNA序列如表12。
将编码eOPTI-CGBE或cOPTI-CGBE的mRNA与三个靶向Tyr基因的gRNA中的一个一起注射到受精卵中(图10a)。胚胎发育没有受到注射的有害影响(图10b)。
表12
gRNA序列(5’-3’) SEQ ID NO:
Tyr-A tcagtctatgtcatccccac 147
Tyr-B acatctacgacctctttgta 148
Tyr-C gtgtcaagggacacactgct 149
本发明人首先发现,两种OPTI-CGBE在Tyr基因(NC_000073.7)的三个靶点上都实现了较高的C到G碱基转化效率(图10c,eOPTI-CGBE:30.4%,12.9%及5.2%,cOPTI-CGBE:33.2%,22.1%及12.5%)。
本发明人在胚胎发育二细胞期中OPTI-CGBEs介导的碱基编辑,与之前的研究结果一致,在二细胞阶段对所有三个Tyr靶位点进行了注射后,OPTI-CGBEs的C-to-G转化效率明显提高(图10c;eOPTI-CGBE:41.1%,25.2%及11.0%,cOPTI-CGBE:36.4%,30.5%及12.3%)。通过Sanger测序进一步得到了验证胚胎注射的效果(图10d)。
在Tyr基因上引入了一个终止密码子,导致了C57BL/6J小鼠的白化表型。本发明人在注入受精卵或胚胎二细胞时期注射eOPTI-CGBE mRNA和sgRNA-Tyr-C,将胚胎移植到受体母亲体内,并跟踪幼鼠的毛发颜色表型。本发明人发现,与合子注入胚胎相比,来自两细胞时期注射的幼鼠在Tyr基因上也显示出更高的C到G编辑率。此外,来自受精卵注射胚胎的幼鼠大多有野生型黑色毛发和一小部分黑白嵌合毛发,而来自两个细胞注射胚胎的幼鼠大多有更大比例的嵌合毛发和小比例的均匀白色毛发。嵌合毛发雌性和雄性生交配后得到的后代中有超过50%的白色毛发,没有嵌合毛色的后代(图10e)。
这些结果表明,本发明中优化的OPTI-CGBEs是一种对于哺乳动物胚胎基因组有效的碱基编辑工具。
在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
序列表
<110> 中国农业科学院深圳农业基因组研究所
<120> 高效率高精度的胞嘧啶C到鸟嘌呤G转变的碱基编辑器
<130> 216297
<160> 149
<170> SIPOSequenceListing 1.0
<210> 1
<211> 282
<212> PRT
<213> C. elegans
<400> 1
Met Ser Lys Thr Val Arg Ile Pro Asp Met Phe Leu Lys Ala Ser Ala
1 5 10 15
Ala Ser Lys Arg Lys Ser Ala Ser Asn Thr Glu Asn Ile Pro Glu Lys
20 25 30
Val Pro Ala Gly Asn Glu Asn Gln Glu Val Lys Lys Met Lys Leu Gln
35 40 45
Ala Pro Glu Pro Thr Glu Ile Leu Leu Lys Ser Leu Leu Thr Gly Glu
50 55 60
Ser Trp Ser Lys Leu Leu Glu Glu Glu Phe Lys Lys Gly Tyr Ile Ser
65 70 75 80
Lys Ile Glu Lys Phe Leu Asn Ser Glu Val Asn Lys Gly Lys Gln Val
85 90 95
Phe Pro Pro Pro Thr Gln Ile Phe Thr Thr Phe Asn Leu Leu Pro Phe
100 105 110
Asp Glu Ile Ser Val Val Ile Ile Gly Gln Asp Pro Tyr His Asp Asp
115 120 125
Asn Gln Ala His Gly Leu Ser Phe Ser Val Gln Lys Gly Val Lys Pro
130 135 140
Pro Pro Ser Leu Lys Asn Ile Tyr Lys Glu Leu Glu Ser Asp Ile Glu
145 150 155 160
Gly Phe Lys Arg Pro Asp His Gly Asn Leu Leu Gly Trp Thr Arg Gln
165 170 175
Gly Val Phe Met Leu Asn Ala Thr Leu Thr Val Arg Ala His Glu Ala
180 185 190
Asn Ser His Ala Lys Ile Gly Trp Gln Thr Phe Thr Asp Thr Val Ile
195 200 205
Arg Ile Ile Ser Arg Gln Ser Glu Lys Pro Ile Val Phe Leu Leu Trp
210 215 220
Gly Gly Phe Ala His Lys Lys Glu Glu Leu Ile Asp Thr Lys Lys His
225 230 235 240
Val Val Ile Lys Thr Ala His Pro Ser Pro Leu Ser Ala Arg Lys Trp
245 250 255
Trp Gly Cys Lys Cys Phe Ser Lys Cys Asn Thr Glu Leu Glu Asn Ser
260 265 270
Gly Arg Asn Pro Ile Asn Trp Ala Asp Leu
275 280
<210> 2
<211> 229
<212> PRT
<213> E.coli
<400> 2
Met Ala Asn Glu Leu Thr Trp His Asp Val Leu Ala Glu Glu Lys Gln
1 5 10 15
Gln Pro Tyr Phe Leu Asn Thr Leu Gln Thr Val Ala Ser Glu Arg Gln
20 25 30
Ser Gly Val Thr Ile Tyr Pro Pro Gln Lys Asp Val Phe Asn Ala Phe
35 40 45
Arg Phe Thr Glu Leu Gly Asp Val Lys Val Val Ile Leu Gly Gln Asp
50 55 60
Pro Tyr His Gly Pro Gly Gln Ala His Gly Leu Ala Phe Ser Val Arg
65 70 75 80
Pro Gly Ile Ala Ile Pro Pro Ser Leu Leu Asn Met Tyr Lys Glu Leu
85 90 95
Glu Asn Thr Ile Pro Gly Phe Thr Arg Pro Asn His Gly Tyr Leu Glu
100 105 110
Ser Trp Ala Arg Gln Gly Val Leu Leu Leu Asn Thr Val Leu Thr Val
115 120 125
Arg Ala Gly Gln Ala His Ser His Ala Ser Leu Gly Trp Glu Thr Phe
130 135 140
Thr Asp Lys Val Ile Ser Leu Ile Asn Gln His Arg Glu Gly Val Val
145 150 155 160
Phe Leu Leu Trp Gly Ser His Ala Gln Lys Lys Gly Ala Ile Ile Asp
165 170 175
Lys Gln Arg His His Val Leu Lys Ala Pro His Pro Ser Pro Leu Ser
180 185 190
Ala His Arg Gly Phe Phe Gly Cys Asn His Phe Val Leu Ala Asn Gln
195 200 205
Trp Leu Glu Gln Arg Gly Glu Thr Pro Ile Asp Trp Met Pro Val Leu
210 215 220
Pro Ala Glu Ser Glu
225
<210> 3
<211> 32
<212> PRT
<213> Artificial Sequence
<400> 3
Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr
1 5 10 15
Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser
20 25 30
<210> 4
<211> 16
<212> PRT
<213> Artificial Sequence
<400> 4
Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser
1 5 10 15
<210> 5
<211> 22
<212> PRT
<213> Artificial Sequence
<400> 5
Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp His Asp Ile Asp Tyr
1 5 10 15
Lys Asp Asp Asp Asp Lys
20
<210> 6
<211> 7
<212> PRT
<213> Artificial Sequence
<400> 6
Pro Lys Lys Lys Arg Lys Val
1 5
<210> 7
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 7
tgcccctccc tccctggccc agg 23
<210> 8
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 8
agagcccccc ctcaaagaga ggg 23
<210> 9
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 9
gagtccgagc agaagaagaa ggg 23
<210> 10
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 10
ggaatccctt ctgcagcacc tgg 23
<210> 11
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 11
gaacacaaag catagactgc ggg 23
<210> 12
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 12
ggcccagact gagcacgtga tgg 23
<210> 13
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 13
ggcactgcgg ctggaggtgg ggg 23
<210> 14
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 14
gtcatcttag tcattacctg agg 23
<210> 15
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 15
gtattcacct gaaagtgtgc agg 23
<210> 16
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 16
ggcactcggg ggcgagagga ggg 23
<210> 17
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 17
gcgtgacttc cacatgagcg tgg 23
<210> 18
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 18
gactcaccca ggagtgcgtt agg 23
<210> 19
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 19
gagctcactg aacgctggca tgg 23
<210> 20
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 20
gttagaccca tgggagcagc tgg 23
<210> 21
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 21
agagcctgat gggaagactg agg 23
<210> 22
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 22
gtagcctcag tcttcccatc agg 23
<210> 23
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 23
aagtcctcct actactgccc tgg 23
<210> 24
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 24
agtctccaca caggtgctgt tgg 23
<210> 25
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 25
tgtcccccat cctgccccag agg 23
<210> 26
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 26
tcacctgggc cagggaggga ggg 23
<210> 27
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 27
gggaccccgc caccgtgcgc cgg 23
<210> 28
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 28
cgccgtctcc aaggtgaaag cgg 23
<210> 29
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 29
acgcctctct gcaatgctat tgg 23
<210> 30
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 30
gacgccctct ggaggaagca ggg 23
<210> 31
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 31
cagctcctgc accgggatac tgg 23
<210> 32
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 32
ctgacctgca ttctctcccc tgg 23
<210> 33
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 33
aggcccaggg gagagaatgc agg 23
<210> 34
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 34
gaagccagta gagctcaaag tgg 23
<210> 35
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 35
tgccgtctct ctcctgagtc cgg 23
<210> 36
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 36
gctccttctc tgagtggtaa agg 23
<210> 37
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 37
aagttcgcta atcccggaac tgg 23
<210> 38
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 38
cgtcgccgat cttcacaggg tgg 23
<210> 39
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 39
gtaacgagct gcatccccga ggg 23
<210> 40
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 40
ggggctcaac atcggaagag ggg 23
<210> 41
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 41
gagtccgagc agaagaagaa ggg 23
<210> 42
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 42
gagttagagc agaagaagaa agg 23
<210> 43
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 43
gagtctaagc agaagaagaa gag 23
<210> 44
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 44
gagtcctagc aggagaagaa gag 23
<210> 45
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 45
gagtccggga aggagaagaa agg 23
<210> 46
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 46
aagtccgagg agaggaagaa agg 23
<210> 47
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 47
gaatccaagc aggagaagaa gga 23
<210> 48
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 48
acgtctgagc agaagaagaa tgg 23
<210> 49
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 49
ggaatccctt ctgcagcacc tgg 23
<210> 50
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 50
ggaaccccgt ctgcagcacc agg 23
<210> 51
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 51
ggagtccctc ctacagcacc agg 23
<210> 52
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 52
agaggcccct ctgcagcacc agg 23
<210> 53
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 53
accatccctc ctgcagcacc agg 23
<210> 54
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 54
tgaatcccat ctccagcacc agg 23
<210> 55
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 55
ggagtccctc ctacagcacc agg 23
<210> 56
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 56
ggagtccctc ctgcagcacc tga 23
<210> 57
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 57
gaacacaaag catagactgc ggg 23
<210> 58
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 58
gaacacaatg catagattgc cgg 23
<210> 59
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 59
aaacataaag catagactgc aaa 23
<210> 60
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 60
tcagggtgag catagactgc cgg 23
<210> 61
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 61
tgaagtgttg catagactgc agg 23
<210> 62
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 62
ggagagagag catagactgc tgg 23
<210> 63
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 63
ccaaacaaaa catagactgc tgg 23
<210> 64
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 64
ccaaacaaaa catagactgc tgg 23
<210> 65
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 65
cacccagact gagcacgtgc tgg 23
<210> 66
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 66
agctcagact gagcaagtga ggg 23
<210> 67
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 67
agaccagact gagcaagaga ggg 23
<210> 68
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 68
gagccagaat gagcacgtga ggg 23
<210> 69
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 69
caggaagctg gagcacgtga ggg 23
<210> 70
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 70
aaggctgagg gagcacgtga agg 23
<210> 71
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 71
gtcaggggaa gagcacgtga cgg 23
<210> 72
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 72
gttgtgaact gagcacgtga ggg 23
<210> 73
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 73
atatttgctg gagcacgtga agg 23
<210> 74
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 74
ggcactgcgg ctggaggtgg ggg 23
<210> 75
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 75
tgcactgcgg ccggaggagg tgg 23
<210> 76
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 76
ggctctgcgg ctggaggggg tgg 23
<210> 77
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 77
agcagtgcgg ctagaggtgg tgg 23
<210> 78
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 78
ggcactgggg ctgggggagg ggg 23
<210> 79
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 79
gtggctggag gtggaggtgg ggg 23
<210> 80
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 80
gagggaaggg ctggaggtgg agg 23
<210> 81
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 81
aagtctctct cttaatgaca cgg 23
<210> 82
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 82
gcgttcaggg cctgggagcc tgg 23
<210> 83
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 83
gtctttctta acgtattgag agg 23
<210> 84
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 84
caaactcaac cacttcctgt tgg 23
<210> 85
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 85
aggacttctc tttggctccc tgg 23
<210> 86
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 86
tctagactca acccactaga tgg 23
<210> 87
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 87
attcacagaa acctccctag agg 23
<210> 88
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 88
ttgatcaatg tggaactcac tgg 23
<210> 89
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 89
tgctgtctgg gccacatgca ggg 23
<210> 90
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 90
cctgactgat ggagggagag ggg 23
<210> 91
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 91
aatttcttga atccaggagg cgg 23
<210> 92
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 92
atagtctaca tttatagtgc tgg 23
<210> 93
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 93
atcacagaca tgggtatgcc agg 23
<210> 94
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 94
taaacatgtg ttaaggatcc tgg 23
<210> 95
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 95
ggctctgatc ttcatcccct cgg 23
<210> 96
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 96
gggatcatgg gacagatggg agg 23
<210> 97
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 97
tcttttctca atagaacaaa tgg 23
<210> 98
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 98
cctgacaggg tggatgagcc agg 23
<210> 99
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 99
ttagtcactt gcctactgtc agg 23
<210> 100
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 100
tgcctactgg ttaaaggacc tgg 23
<210> 101
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 101
gctgccccta cacccttccc agg 23
<210> 102
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 102
tggcccctgt gccctgcaga tgg 23
<210> 103
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 103
ttacccagtt ctctgggagc agg 23
<210> 104
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 104
tcctccccaa ggggggcctc tgg 23
<210> 105
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 105
cctcccagat tatgcatgag agg 23
<210> 106
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 106
ggccccagtg gctgctctgg ggg 23
<210> 107
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 107
ggagcccttc ttcttctgct cgg 23
<210> 108
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 108
gctcccatca catcaaccgg tgg 23
<210> 109
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 109
cactccctgg ccaggctttg ggg 23
<210> 110
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 110
accaccccag gctctggggc tgg 23
<210> 111
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 111
gtaccccacc ccaggctccc agg 23
<210> 112
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 112
tgtcccactt gtcaggatga agg 23
<210> 113
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 113
catccctgac ccagagaacc cgg 23
<210> 114
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 114
catccctacc tagccagatg ggg 23
<210> 115
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 115
gcatccctgg ctgggtagat agg 23
<210> 116
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 116
cacaccctgt aaacagcaaa tgg 23
<210> 117
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 117
gcatccctac ttcacagatg ggg 23
<210> 118
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 118
gggccctgtg gggtggatgt ggg 23
<210> 119
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 119
agctccctat tcccatgcct agg 23
<210> 120
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 120
ttgccctgga agcagcacac agg 23
<210> 121
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 121
tcacccaggc tggaatgcag tgg 23
<210> 122
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 122
ctccccattg gcctgcttcg tgg 23
<210> 123
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 123
ttgcccaccc tagtcattgg agg 23
<210> 124
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 124
ctgcccaata tgtaaaataa cgg 23
<210> 125
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 125
cttcccaagt gagaagccag tgg 23
<210> 126
<211> 23
<212> DNA
<213> Artificial Sequence
<400> 126
caacccaaat gcctttctga agg 23
<210> 127
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 127
caaacaaggg cagatggcgc ag 22
<210> 128
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 128
aagttctggc aagaggggac tg 22
<210> 129
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 129
agaggactgc ctgggaaggg tg 22
<210> 130
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 130
aaccatctgc agggcacagg gg 22
<210> 131
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 131
tctttctgag gcctgccctc ag 22
<210> 132
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 132
ccaactgcag ctgtgcagac gg 22
<210> 133
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 133
cagcacattt aaaagcaagt gg 22
<210> 134
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 134
aatgttctgg ggacacttgc ag 22
<210> 135
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 135
aaccatcttc agcgttggca gg 22
<210> 136
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 136
ggttctttac ttggctttgc ag 22
<210> 137
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 137
cagacagggt ttcaccatgt tg 22
<210> 138
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 138
aagttctggg attacagtca tg 22
<210> 139
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 139
gcatttctga tcagagagcc tg 22
<210> 140
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 140
gacgtcaggg aagcccgtac tg 22
<210> 141
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 141
tgtttctgtg tggagtgcct gg 22
<210> 142
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 142
ctgttacatg tgtctcccgc ag 22
<210> 143
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 143
gctgtcatgg cgtcctgcgg cg 22
<210> 144
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 144
gggttcattc actccctcct tg 22
<210> 145
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 145
gattttcagg ggcctgatga ag 22
<210> 146
<211> 22
<212> DNA
<213> Artificial Sequence
<400> 146
gccttctgag ttagcagagc tg 22
<210> 147
<211> 20
<212> DNA
<213> Artificial Sequence
<400> 147
tcagtctatg tcatccccac 20
<210> 148
<211> 20
<212> DNA
<213> Artificial Sequence
<400> 148
acatctacga cctctttgta 20
<210> 149
<211> 20
<212> DNA
<213> Artificial Sequence
<400> 149
gtgtcaaggg acacactgct 20

Claims (10)

1.一种提高C-to-G碱基编辑器靶向编辑效率和编辑精度的方法,其特征在于,所述方法包括:改造C-to-G碱基编辑器,使其包括操作性顺序连接的以下元件:核定位信号-尿嘧啶N-糖基化酶-胞嘧啶脱氨酶-Cas酶-核定位信号;
其中,所述的尿嘧啶N-糖基化酶是线虫来源的尿嘧啶N-糖基化酶,或为大肠杆菌来源的尿嘧啶N-糖基化酶。
2.如权利要求1所述的方法,其特征在于,所述的胞嘧啶脱氨酶包括选自下组的酶:APOBEC1,且其第90位突变为Tyr和第126位突变为Glu;APOBEC3A或其CTD域;或,APOBEC3G或其CTD域;和/或
所述的Cas9酶包括选自下组的酶:Cas9n,Cas9n-NG,xCas9n,Cas9;较佳地为Cas9n-NG;和/或
所述尿嘧啶N-糖基化酶与胞嘧啶脱氨酶之间通过接头连接;较佳地,尿嘧啶N-糖基化酶与胞嘧啶脱氨酶之间通过SEQ ID NO:3所示序列的接头连接;和/或
所述胞嘧啶脱氨酶与Cas酶之间通过接头连接;较佳地,胞嘧啶脱氨酶与Cas酶之间通过SEQ ID NO:4所示序列的接头连接;和/或
所述核定位序列的氨基端还包括标签序列,较佳地所述标签为Flag标签;更佳地为3xFlag标签,其氨基酸序列如SEQ ID NO:5所示;和/或
所述的线虫来源的尿嘧啶N-糖基化酶的氨基酸序列如SEQ ID NO:1所示或其活性结构域,或其保守性变异多肽;和/或
所述的大肠杆菌来源的尿嘧啶N-糖基化酶的氨基酸序列如SEQ ID NO:2所示或其活性结构域,或其保守性变异多肽;和/或
所述核定位信号的氨基酸序列如SEQ ID NO:6所示。
3.如权利要求1所述的方法,其特征在于,所述的提高C-to-G碱基编辑器靶向编辑效率和编辑精度包括:提高编辑产物的产品纯度,促进编辑窗口变窄,降低脱靶效应;较佳地,所述的提高C-to-G碱基编辑器靶向编辑效率和编辑精度包括选自:
(a)提高C-to-G碱基编辑器靶向于三碱基motif“WCW”的机率;较佳地,其中所述胞嘧啶脱氨酶为APOBEC1,且其第90位突变为Tyr和第126位突变为Glu;
(b)提高C-to-G碱基编辑器靶向于三碱基motif“TCW”的机率;较佳地,其中所述胞嘧啶脱氨酶为APOBEC3A;或
(c)提高C-to-G碱基编辑器靶向于三碱基motif“CCN”的机率;较佳地,其中所述胞嘧啶脱氨酶为APOBEC3G;更佳地,目标位点包含3个或更多连续的C;
所述三碱基中,W代表A或T,N代表A、T、C或G。
4.一种C-to-G碱基编辑器,其特征在于,其包括操作性顺序连接的以下元件:核定位信号-尿嘧啶N-糖基化酶-胞嘧啶脱氨酶-Cas酶-核定位信号;其中,所述的尿嘧啶N-糖基化酶是线虫来源的尿嘧啶N-糖基化酶,或为大肠杆菌来源的尿嘧啶N-糖基化酶。
5.如权利要求4所述的C-to-G碱基编辑器,其特征在于,所述的胞嘧啶脱氨酶包括选自下组的酶:APOBEC1,且其第90位突变为Tyr和第126位突变为Glu;APOBEC3A或其CTD域;或,APOBEC3G或其CTD域;和/或
所述的Cas9酶包括选自下组的酶:Cas9n,Cas9n-NG,xCas9n,Cas9;较佳地为Cas9n-NG;和/或
所述尿嘧啶N-糖基化酶与胞嘧啶脱氨酶之间通过接头连接;较佳地,尿嘧啶N-糖基化酶与胞嘧啶脱氨酶之间通过SEQ ID NO:3所示序列的接头连接;和/或
所述胞嘧啶脱氨酶与Cas酶之间通过接头连接;较佳地,胞嘧啶脱氨酶与Cas酶之间通过SEQ ID NO:4所示序列的接头连接;和/或
所述核定位序列的氨基端还包括标签序列,较佳地所述标签为Flag标签;更佳地为3xFlag标签,其氨基酸序列如SEQ ID NO:5所示;和/或
所述的线虫来源的尿嘧啶N-糖基化酶的氨基酸序列如SEQ ID NO:1所示或其活性结构域,或其保守性变异多肽;和/或
所述的大肠杆菌来源的尿嘧啶N-糖基化酶的氨基酸序列如SEQ ID NO:2所示或其活性结构域,或其保守性变异多肽;和/或
所述核定位信号的氨基酸序列如SEQ ID NO:6所示。
6.分离的多核苷酸或含有该多核苷酸的重组表达载体;其中,所述多核苷酸编码权利要求4-5任一所述的C-to-G碱基编辑器。
7.一种遗传工程化的宿主细胞,它含有权利要求6所述的重组表达载体,或基因组中整合有权利要求6所述的分离的多核苷酸。
8.权利要求4-5任一所述的C-to-G碱基编辑器的用途,用于进行C-to-G基因编辑,提高C-to-G碱基编辑器靶向编辑效率和编辑精度;或
用于制备进行C-to-G的基因编辑、提高C-to-G碱基编辑器靶向编辑效率和编辑精度的试剂或试剂盒。
9.一种进行C-to-G的基因编辑的方法,包括以权利要求4-5任一所述的C-to-G碱基编辑器介导基因编辑;较佳地,将编码所述的C-to-G碱基编辑器的核酸序列以及gRNA/sgRNA共同注射受体,从而进行基因编辑;较佳地,所述的受体包括:体细胞或生殖细胞;较佳地,所述的生殖细胞包括胚胎细胞或受精卵。
10.一种用于进行C-to-G的基因编辑的试剂或试剂盒,其中含有权利要求4-5任一所述的C-to-G碱基编辑器;或
其中含有权利要求6所述的分离的多核苷酸;或
其中含有该多核苷酸的重组表达载体。
CN202110914211.6A 2021-08-10 2021-08-10 高效率高精度的胞嘧啶c到鸟嘌呤g转变的碱基编辑器 Pending CN115703842A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110914211.6A CN115703842A (zh) 2021-08-10 2021-08-10 高效率高精度的胞嘧啶c到鸟嘌呤g转变的碱基编辑器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110914211.6A CN115703842A (zh) 2021-08-10 2021-08-10 高效率高精度的胞嘧啶c到鸟嘌呤g转变的碱基编辑器

Publications (1)

Publication Number Publication Date
CN115703842A true CN115703842A (zh) 2023-02-17

Family

ID=85179542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110914211.6A Pending CN115703842A (zh) 2021-08-10 2021-08-10 高效率高精度的胞嘧啶c到鸟嘌呤g转变的碱基编辑器

Country Status (1)

Country Link
CN (1) CN115703842A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116731984A (zh) * 2023-07-24 2023-09-12 合肥戬谷生物科技有限公司 一种基于TadA8e突变体实现碱基颠换的编辑工具及应用

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116731984A (zh) * 2023-07-24 2023-09-12 合肥戬谷生物科技有限公司 一种基于TadA8e突变体实现碱基颠换的编辑工具及应用

Similar Documents

Publication Publication Date Title
JP7075170B2 (ja) 延長された単一ガイドrna及びその用途
KR101906491B1 (ko) F. novicida 유래 Cas9을 포함하는 유전체 교정용 조성물
JP2022043042A (ja) 遺伝子編集用のcas多様体
US20240117330A1 (en) Enzymes with ruvc domains
AU2021231074B2 (en) Class II, type V CRISPR systems
KR20200121782A (ko) 아데노신 염기 편집제의 용도
CN109804066A (zh) 可编程cas9-重组酶融合蛋白及其用途
US10982200B2 (en) Enzymes with RuvC domains
WO2019042284A1 (en) FUSION PROTEINS FOR ENHANCED PRECISION IN THE BASIC EDITION
CN106795521A (zh) 用于修饰所靶向基因座的方法和组合物
CN113373130A (zh) Cas12蛋白、含有Cas12蛋白的基因编辑系统及应用
CN110526993B (zh) 一种用于基因编辑的核酸构建物
CN110300802A (zh) 用于动物胚胎碱基编辑的组合物和碱基编辑方法
CN109312329B (zh) 提高基因组序列修饰技术中的突变导入效率的方法、及其使用的分子复合体
CN114410609B (zh) 一种活性提高的Cas蛋白以及应用
KR20210042130A (ko) Acidaminococcus sp. cpf1의 dna 절단 활성을 향상시키는 신규한 돌연변이
CN112266420A (zh) 一种植物高效胞嘧啶单碱基编辑器及其构建与应用
CA3228222A1 (en) Class ii, type v crispr systems
CN115703842A (zh) 高效率高精度的胞嘧啶c到鸟嘌呤g转变的碱基编辑器
CN113249362B (zh) 经改造的胞嘧啶碱基编辑器及其应用
US20220220460A1 (en) Enzymes with ruvc domains
EP4130257A9 (en) Improved cytosine base editing system
CN114686456A (zh) 基于双分子脱氨酶互补的碱基编辑系统及其应用
JP2024501892A (ja) 新規の核酸誘導型ヌクレアーゼ
US20050053989A1 (en) Libraries of recombinant chimeric proteins

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination