CN111065647A - 用于提高碱基编辑精度的融合蛋白 - Google Patents

用于提高碱基编辑精度的融合蛋白 Download PDF

Info

Publication number
CN111065647A
CN111065647A CN201880056915.0A CN201880056915A CN111065647A CN 111065647 A CN111065647 A CN 111065647A CN 201880056915 A CN201880056915 A CN 201880056915A CN 111065647 A CN111065647 A CN 111065647A
Authority
CN
China
Prior art keywords
leu
lys
glu
ile
ser
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880056915.0A
Other languages
English (en)
Other versions
CN111065647B (zh
Inventor
陈佳
黄行许
杨力
杨贝
李潇飒
王滢
刘亚京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ShanghaiTech University
Original Assignee
ShanghaiTech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ShanghaiTech University filed Critical ShanghaiTech University
Priority to CN202410663572.1A priority Critical patent/CN118420784A/zh
Publication of CN111065647A publication Critical patent/CN111065647A/zh
Application granted granted Critical
Publication of CN111065647B publication Critical patent/CN111065647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • C07K14/32Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria from Bacillus (G)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/78Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04005Cytidine deaminase (3.5.4.5)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • C07K2319/09Fusion polypeptide containing a localisation/targetting motif containing a nuclear localisation signal
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Medicinal Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Plant Pathology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了包含胞苷和无催化活性形式的毛螺旋菌(Lachnospiraceae bacterium)Cpf1(LbCpf1)的碱基编辑器。与基于Cas9的碱基编辑器相比,该新的碱基编辑器大大提高了编辑效率和保真度,并且具有不同的编辑窗口。

Description

用于提高碱基编辑精度的融合蛋白
背景技术
可用于从遗传学角度操作细胞和活生物体基因组的基因组编辑在生命科学研究、生物技术、农业技术发展以及药物和临床开发中具有广泛的应用价值。例如,基因组编辑可用于纠正遗传疾病中的驱动突变,从而完全治愈活生物体中的这些疾病。CRISPR/Cas(成簇的规律间隔的短回文重复序列/CRISPR相关蛋白)系统已成为最强大的基因组编辑工具,得益于其无与伦比的编辑效率、便利性以及在生物体中的潜在应用前景。由向导RNA(gRNA)引导Cas核酸酶,使其可以在各种细胞(细胞系和源自活生物体的细胞)的靶基因组位点产生DNA双链断裂(DSB)。然后通过内源性DNA修复系统修复这些DSB,可将其用于执行所需的基因组编辑。
通常,DSB可以激活两种主要的DNA修复途径,即非同源末端连接(NHEJ)和同源定向修复(HDR)。NHEJ可以在DSB周围的基因组DNA区域中引入随机插入/缺失(indels),从而导致开放阅读框(ORF)移位并最终导致基因失活。相反地,当触发HDR时,靶位点的基因组DNA序列可以通过同源重组机制被外源供体DNA模板序列所取代,从而可以纠正基因突变。
近期发明了将CRISPR/Cas系统与APOBEC(载脂蛋白B mRNA编辑酶催化多肽样)胞苷脱氨酶家族整合的碱基编辑器(BE),该编辑器极大地提高了CRISPR/Cas9介导的基因纠正的效率。通过与Cas9切口酶(nCas9)融合,大鼠APOBEC1(rA1)的胞嘧啶(C)脱氨基活性可以被定向到基因组中的靶碱基,并在这些碱基处催化C转化为胸腺嘧啶(T)的过程。
但是,在当前最活跃的碱基编辑器中,依赖于Cas9切口酶作为脱氨酶融合伴侣,会导致不必要的插入/缺失和非C到T的碱基取代的频率增加,并将编辑限制在富含G/C的前间区序列邻近基序(PAM)序列。
发明概述
在一些实施方案中,本公开提供了可用于基因组编辑的碱基编辑器,其将无催化活性的毛螺旋菌(Lachnospiraceae bacterium)Cpf1(dLbCpf1)与胞苷脱氨酶进行组合。这样的碱基编辑器识别人类细胞中富含T的PAM序列,并且以高的效率将C转换为T,同时插入/缺失、非C到T取代和脱靶编辑的水平低。这些都是与基于Cas9的碱基编辑器相比的重大改进。此外,除了APOBEC1(A1)之外,当LbCpf1与APOBEC3(A3或APOBEC3A)融合时,还可以取得更高的编辑效率。除了大大提高编辑效率和精度外,基于LbCpf1的碱基编辑器还具有与基于Cas9的碱基编辑器不同的编辑窗口。本发明中另一个有趣的发现是,游离的尿嘧啶DNA糖基化酶抑制剂(UGI)结构域的存在可以进一步提高碱基编辑的效率和保真度。
因此,本公开的一个实施方案提供了包含第一片段和第二片段的融合蛋白,所述第一片段包含胞苷脱氨酶,所述第二片段包含无催化活性的毛螺旋菌(Lachnospiraceaebacterium)Cpf1(dLbCpf1)。
在一些实施方案中,胞苷脱氨酶是载脂蛋白B mRNA编辑酶催化多肽样(APOBEC)蛋白。在一些实施方案中,APOBEC蛋白选自由APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4和活化诱导的(胞苷)脱氨酶组成的群组。在一个实施方案中,APOBEC蛋白是APOBEC1。在一个实施方案中,APOBEC1蛋白包含W90Y或R126E突变,或其组合。在一些实施方案中,APOBEC蛋白是APOBEC3A。在一些实施方案中,APOBEC3A蛋白具有一种或多种选自W104A、Y130F、D131Y、D31E和/或Y132D突变的突变;组合突变的例子包括Y130F-D131E-Y132D、Y130F-D131Y-Y132D。
在一些实施方案中,融合蛋白还包含一个或多个尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方案中,融合蛋白包含至少两个UGI。
在一些实施方案中,至少一个UGI通过蛋白酶割切位点与第一片段和第二片段分开。在一些实施方案中,蛋白酶切割位点是自剪切肽。
在一些实施方案中,融合蛋白进一步包含一个或多个核定位序列(NLS)。在一些实施方案中,至少一个iNLS位于第二片段和第一UGI之间。在一些实施方案中,至少两个iNLS位于第二片段和第一UGI之间。在一些实施方案中,至少一个NLS位于第一片段和第二片段的N末端。
在一些实施方案中,至少一个NLS位于第一片段和第二片段的C末端。在一些实施方案中,融合蛋白从N末端到C末端包含:第一NLS、第一片段、第二片段、第二NLS、第一UGI、第三NLS、自剪切肽和第二UGI。在一些实施方案中,融合蛋白还包含第四NLS,所述第四NLS在第二片段和第一UGI之间。在一些实施方案中,融合蛋白还包含在第二自剪切肽和第三UGI,所述第二自剪切肽位于所述第二UGI的N末端。
在一个实施方案中,还提供了一种编辑样品中核酸序列上的胞嘧啶的方法,其包括使样品与合适的指导RNA(gRNA)和本发明的融合蛋白或编码该融合蛋白的多核苷酸接触。
在一些实施方案中,胞嘧啶在核酸序列上的前间区序列邻近基序(PAM)序列从3’端计的第6位和第22位核苷酸之间。在一些实施方案中,胞苷脱氨酶是APOBEC3A。在一些实施方案中,APOBEC3A蛋白具有一种或多种选自W104A、Y130F、D131Y、D31E和/或Y132D突变的突变;组合突变的例子包括Y130F-D131E-Y132D、Y130F-D131Y-Y132D。
在一些实施方案中,胞嘧啶在核酸序列上的前间区序列邻近基序(PAM)序列从3’端计的第8位和第13位核苷酸之间。在一些实施方案中,胞苷脱氨酶是APOBEC1蛋白。在一些实施方案中,胞嘧啶在PAM序列从3’端计的第10位和第12位核苷酸之间。在一些实施方案中,胞苷脱氨酶是包含W90Y或R126E突变或其组合的APOBEC1蛋白。
在一些实施方案中,PAM序列是富含T的PAM序列。在一些实施方案中,该方法进一步包括使样品与未融合至Cas蛋白的UGI或编码该UGI的多核苷酸接触。
在另一个实施方案中,提供了一种融合蛋白,其包括:含有胞苷脱氨酶的第一片段,含有Cas蛋白的第二片段,和通过蛋白酶切割位点与所述第一片段和所述第二片段分开的尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方案中,蛋白酶切割位点是自剪切肽。在一些实施方案中,融合蛋白还包含通过第二蛋白酶切割位点与所述第一片段和所述第二片段分开的第二UGI。在一些实施方案中,融合蛋白还包含通过第三蛋白酶切割位点与第二UGI分开的第三UGI。在一些实施方案中,Cas蛋白是Cas9或Cpf1。
非限制性地,本发明还提供了编码本发明融合蛋白的多核苷酸、包含多核苷酸的构建体,包含多核苷酸或该构建体的细胞以及包含以上任何一种的组合物。
附图说明
图1,a-b。dCpf1-BE介导的碱基编辑。(a)在所示间隔区中的每个胞嘧啶上测定dCpf1-BE诱导的碱基编辑频率。dCpf1-BE在G(阴影)后的胞嘧啶上显示出低效率的C到T转换的碱基编辑。胞嘧啶的计数以PAM位置附近的碱基为位置1。(b)比较基于dCpf1和基于Cas9的BE介导的碱基编辑。在不同条件下,在指定的基因组靶位点分别确定了所示胞嘧啶的C到T转换的编辑频率、胞嘧啶取代率和插入/缺失频率。图中显示了dCpf1-BE和Cas9-BE的靶位点序列和编辑窗口。NT为未转染。星号表示在未转染的293FT细胞中被检测的RUNX1位点的异常高的碱基插入/缺失频率(或扩增、测序、比对人为假象(alignmentartifact))。平均值±s.d.来自三次独立的实验。
图2,a-h。dCpf1-BE的改进。(a)使dCpf1-BE中的APOBEC1突变以缩小编辑窗口。在不同条件下,在指定的基因组靶位点分别确定每个胞嘧啶的C到T转换的编辑频率。图中显示了dCpf1-BE的靶位点序列和缩小的编辑窗口。主要编辑位点(C10-C12)为橙色,次要编辑位点(C1-C9和C13-C23)为绿色。(b)在指定的基因组靶位点确定主要编辑位点与次要编辑位点的比率。(c)对主要编辑位点与次要编辑位点的标准化比率进行统计分析,将dCpf1-BE诱导的比率设为100%。dCpf1-BE-YE诱导的主要编辑位点与次要编辑位点的比率明显更高。图中显示了中位数、四分位数间距(IQR)和1.5×IQR。n=来自3次独立实验的15个独立样本。(d-g)添加游离的UGI可提高dCpf1-BEs诱导的编辑结果的纯度。不同条件下指定编辑位置胞嘧啶取代率(d,f)和统计分析(e,g)。(e,g)为:与dCpf1-BE和dCpf1-BE-YE相比,dCpf1-eBE和dCpf1-eBE-YE诱导的C到T转换的编辑结果明显更纯。图中显示了中位数和IQR。n=来自3次独立实验的9个独立样本。(h)基于Cas9和基于dCpf1的BE的概括。左侧示意图显示了Cas9-BE/sgRNA/靶标DNA和dCpf1-BE/crRNA/靶标DNA的复合物。右侧列出了基于Cas9和基于dCpf1的BE系统中的相关功能。基于DYRK1A、FANCF和RUNX1靶位点的碱基编辑进行比较。(a,b)平均值±s.d.来自三次独立的实验。(c,e,g)P值,单尾Student’s T检验。
图3,a-c。在游离穿梭载体系统中,dLbCpf1-BE0诱导了C到T转换的碱基编辑,但dAsCpf1-BE0却没有。(a)为说明确定游离穿梭载体中dLbCpf1-BE0或dAsCpf1-BE0诱导的碱基编辑的程序的示意图。(b)包含由dAsCpf1-BE0或dLbCpf1-BE0诱导的突变的穿梭载体的大肠杆菌菌落数。(c)确定指定的胞嘧啶上C到T转换的编辑频率。胞嘧啶的计数以PAM位置附近的碱基为位置1。根据(b)中的数据计算频率。平均值±s.d.来自3次独立的实验。
图4,a-b。crRNA间隔区长度对编辑效率的影响。(a)包含由dCpf1-BE0和不同长度的crRNA诱导的突变穿梭载体的菌落数。(b)在游离穿梭载体中所示的胞嘧啶上确定了由dCpf1-BE0和不同长度的crRNA诱导的C到T转换的编辑频率。间隔区长度在19到27个nt之间的crRNA在大多数编辑位置显示出相似的碱基编辑效率。根据(a)中的数据计算频率。平均值±s.d.来自3次独立的实验。
图5,a-e。dCpf1和UGI之间的内部NLS(iNLS)对于dCpf1-BE0诱导的碱基编辑很重要。(a)为dCpf1-BE0和dCpf1-BE0ΔiNLS的表达载体的设计示意图。(b)在用dCpf1-BE0(蓝色)或dCpf1-BE0ΔiNLS(绿色)处理后,在不同的基因组靶位点分别确定了指定的胞嘧啶的C到T转换的编辑频率。(c)归一化在基因组DNA中dCpf1-BE0和dCpf1-BE0ΔiNLS诱导的C到T转换的编辑频率,将dCpf1-BE0诱导的频率设置为100%。(d)对归一化的C到T转换的编辑频率的统计分析。与dCpf1-BE0ΔiNLS相比,dCpf1-BE0诱导的C到T转换的编辑频率更高。P值,单尾Student’s T检验。图中显示了中位数、四分位数间距(IQR)和1.5×IQR。n=来自3次独立实验的54个独立样本。(e)在基因组DNA中的指定基因座处确定插入/缺失频率。293FT细胞经过dCpf1-BE0处理(蓝色)、dCpf1-BE0ΔiNLS处理(绿色)或未转染处理(灰色),然后进行深度测序。星号表示在未转染的293FT细胞中被检测的RUNX1位点的异常高的碱基插入/缺失频率(或扩增、测序、比对人为假象)。平均值±s.d.来自3次独立的实验。
图6,a-e。额外的N末端NLS增强了dCpf1-BE在基因组DNA中的碱基编辑效率。(a)说明dCpf1-BE0和dCpf1-BE表达载体的设计示意图。(b)在不同的基因组靶点分别确定了所示胞嘧啶的C到T转换的编辑频率。将293FT细胞用dCpf1-BE0处理(蓝色)、dCpf1-BE处理(紫色)或未转染(灰色)处理,之后进行深度测序。(c)归一化dCpf1-BE0和dCpf1-BE在基因组DNA中诱导的C到T转换的编辑频率,将dCpf1-BE0诱导的频率设置为100%。(d)对归一化的C到T转换的编辑频率的统计分析。与dCpf1-BE0相比,dCpf1-BE诱导的C到T转换的编辑频率更高。P值,单尾Student’s T检验。图中显示了中位数IQR和1.5×IQR。n=来自3次独立实验的54个独立样本。(e)在不同条件下,在基因组DNA中指定的基因座处确定插入/缺失频率。星号表示未转染的293FT细胞中被检测的RUNX1位点异常高的碱基插入/缺失频率(或扩增、测序、比对人为假象)。平均值±s.d.来自3次独立的实验。
图7,a-d。dCpf1-BE诱导的碱基编辑的特征。(a)为指定的14个crRNA在间隔区的每个胞嘧啶的碱基编辑频率汇总。这些数据表明,主要编辑窗口的范围是间隔区域中的位置8到13。(b)在不同条件下,在基因组DNA中指定的基因座处确定插入/缺失频率。将293FT细胞用dCpf1-BE处理(紫色)或未转染处理(灰色),之后进行深度测序。星号表示在未转染的293FT细胞中被检测的RUNX1位点的异常高的碱基插入/缺失频率(或扩增、测序、比对人为假象)。平均值±s.d.来自3次独立的实验。(c)在指定的胞嘧啶上单独确定由dCpf1-BE诱导的胞嘧啶取代率。(d)统计分析表明,dCpf1-BE诱导的碱基编辑结果的C到T的转换率显著高于nCas9-BE3诱导的结果。图中显示了中位数和IQR。P值,单尾Student’s T检验。n=来自3次独立实验的42个独立样本。
图8,a-c。在U2OS细胞中dCpf1-BE诱导了碱基编辑。(a)在指定的基因组靶位点分别确定指定胞嘧啶的C到T转换的编辑频率。用dCpf1-BE处理(紫色)处理U2OS细胞或不转染(灰色)U2OS细胞,之后进行深度测序。(b)在不同条件下,在基因组DNA中指定的基因座处确定插入/缺失频率。星号表示未转染的U2OS细胞中被检测的RUNX1位点异常高的碱基插入/缺失频率(或扩增、测序、比对人为假象)。(c)在指定的胞嘧啶上单独确定由dCpf1-BE诱导的胞嘧啶取代率。(a,b)平均值±s.d.来自3次独立的实验。
图9,a-b。在预测的脱靶位点测定dCpf1-BE诱导的碱基编辑。(a)指定crRNA的靶位点和脱靶位点的序列。胞嘧啶的计数以PAM位置附近的碱基为位置1。(b)在指定的靶位点、脱靶位点分别确定指定的胞嘧啶的C到T转换的编辑频率。将293FT细胞用dCpf1-BE处理(紫色)处理或不进行转染(灰色),之后进行深度测序。平均值±s.d.来自3次独立的实验。
图10,a-b。在间隔区以外的区域中未检测到大量的C到T的转换编辑。(a)为示意图,显示了PAM区域、PAM上游的20个nt区域和间隔区下游的20个nt区域。(b)在指定位点分别确定在间隔区以外的指定胞嘧啶的C到T转换的编辑频率。将293FT细胞用dCpf1-BE处理(紫色)或作未转染处理(灰色),之后进行深度测序。平均值±s.d.来自3次独立的实验。
图11,当间隔区中有多个胞嘧啶时,dCpf1-BE引起多个C到T转换的编辑。确定不同的基因组靶位点上指定的胞嘧啶处dCpf1-BE诱导的单个和多个C到T转换的编辑频率。深度测序的数据与图1a中的相同。平均值±s.d.来自3次独立的实验。
图12,a-e。大鼠APOBEC1(rA1)中的W90Y和R126E突变体缩小碱基编辑窗口至3个nt。(a)说明dCpf1-BE、dCpf1-BE-YE和dCpf1-BE-YEE表达载体设计的示意图。(b)dCpf1-BE(紫色)和dCpf1-BE-YE(洋红色)诱导的主要编辑位点与次要编辑位点的归一化比率,将dCpf1-BE诱导的比率设为100%。(c)dCpf1-BE和dCpf1-BE-YE诱导的单个和多个C到T的转换率。(d)统计分析表明,dCpf1-BE-YE诱导的单个C到T的转换率明显高于dCpf1-BE诱导的单个C到T的转换率。P值,单尾Student’s T检验。图中显示了中位数和IQR。n=来自3次独立实验的15个独立样本。(e)在转染dCpf1-BE(紫色)、转染dCpf1-BE-YE(品红色)、转染dCpf1-BE-YEE(黄色)或未转染(灰色)的293FT细胞的指定基因组位点确定插入/缺失频率。星号表示在未转染的293FT细胞中被检测的RUNX1位点的异常高的碱基插入/缺失频率(或扩增、测序、比对人为假象)。(b,e)平均值±s.d.来自3次独立的实验。
图13,a-f。三拷贝2A-UGI序列的融合基本上不影响编辑效率,也没有诱导可检测到的插入/缺失形成。(a)说明dCpf1-BE和dCpf1-eBE表达载体设计的示意图。(b)在基因组DNA的指定位置确定由dCpf1-BE(紫色)和dCpf1-eBE(绿色)诱导的碱基编辑频率。(c)在指定的基因组位点确定插入/缺失频率。将293FT细胞用dCpf1-BE处理(紫色)、dCpf1-eBE处理(绿色)或不进行转染(灰色),之后进行深度测序。(d)说明dCpf1-BE-YE和dCpf1-eBE-YE的表达载体设计的示意图。(e)在基因组DNA的指定位置确定由dCpf1-BE-YE(品红色)和dCpf1-eBE-YE(棕色)诱导的碱基编辑频率。(f)在指定的基因组上确定插入/缺失频率。将293FT细胞用dCpf1-BE-YE处理(品红色)、dCpf1-eBE-YE处理(棕色)或不转染(灰色),之后进行深度测序。星号表示在未转染的293FT细胞中被检测的RUNX1位点的异常高的碱基插入/缺失频率(或扩增、测序、比对人为假象)。平均值±s.d.来自3次独立的实验。
图14,A-B。(A)说明Cpf1-BE和Cpf1-A3-BE表达载体设计的示意图。(B)在基因组DNA的指定位点确定了Cpf1-A3-BE和Cpf1-BE诱导的碱基编辑效率。Cpf1-A3-BE的碱基编辑效率高于Cpf1-BE(在DYRK1A位点上的位置7和10,在RUNX1位点上位置7、8和10)。
图15为Cpf1-A3-BE的编辑窗口。Cpf1-A3-BE的编辑窗口从被测试的前间隔区域中的位置6到22。
图16,A-R。增强的碱基编辑系统。(A-I)通过在293FT细胞中共表达BE3和来自不同载体的UGI来增强碱基编辑。说明sgRNA、BE3和UGI表达载体(A)设计的示意图。在指定的基因组位点针对指定的条件分别确定插入/缺失频率(B)、在sgRNA靶标区域指定位置的C到T转换的编辑频率(D)、所需C到T转换的编辑与不需要的插入/缺失的比率(F)以及C到T、C到A和C到G的取代率(H),并作图如下:橙色代表BE3,淡蓝色代表BE+低水平UGI,蓝色代表BE3+中水平UGI,深蓝色代表BE3+高水平UGI,黑色代表dCas9。图中指示了sgFANCF、sgSite2和sgRNF2靶区域中已编辑的Cs的位置,将距PAM远端的碱基作为位置1。统计分析突出显示了BE3(橙色)和BE3+高UGI(深蓝色)之间在插入/缺失频率(C)、在sgRNA靶区域内指定位置的C到T转换的编辑频率(E)、所需C到T转换的编辑与不想要的插入/缺失的比率(G)以及C到T转换的取代率(I)的显著差异。(J-R)通过在293FT细胞中的eBE-S1和eBE-S3增强碱基编辑。说明sgRNA、BE3、eBE-S1和eBE-S3表达载体设计的示意图(J)。在指定的基因组位点分别确定BE3(橙色)、eBE-S1(淡青色)和eBE-S3(青色)的插入/缺失频率(K)、C到T转换的编辑频率(M)、所需C到T转换的编辑与不想要的插入/缺失的比率(O)以及C到T、C到A和C到G的取代率(Q)。图中标出了在sgEMX1、sgFANCF、sgSite2、sgSite4和sgRNF2靶区域中编辑的Cs的位置,将距PAM旁边的碱基作为位置1。统计分析突出显示了BE3(橙色)和eBE-S3(青色)之间在插入/缺失频率(L)、C到T转换的编辑频率(N)、所需C到T转换的编辑与不需要的插入/缺失的比率(P),以及C到T转换的取代率(R)的显著差异。(B、D、F、K、M和O)误差线(±),3次重复的标准偏差。(C、E、G、I、L、N、P和R)P值,单尾Student’s T检验。
发明详述
定义
应当注意的是,术语“一种”实体是指一种或多种该实体,例如“一种抗体”应当被理解为一种或多种抗体,因此,术语“一种”(或“一个”)、“一种或多种”和“至少一种”可以在本文中互换使用。
在本发明中,术语“多肽”旨在涵盖单数的“多肽”以及复数的“多肽”,并且是指由通过酰胺键(也称为肽键)线性连接的单体(氨基酸)组成的分子。术语“多肽”是指两个或更多个氨基酸的任何单条链或多条链,并且不涉及产物的特定长度。因此,“多肽”的定义中包括肽、二肽、三肽、寡肽、“蛋白质”、“氨基酸链”或用于指两个或多个氨基酸链的任何其他术语,并且术语“多肽”可以用来代替上述任何一个术语,或者与上述任何一个术语交替使用。术语“多肽”也旨在指多肽表达后修饰的产物,包括但不限于糖基化、乙酰化、磷酸化、酰胺化、通过已知的保护/封闭基团衍生化、蛋白水解切割或非天然发生的氨基酸修饰。多肽可以源自天然生物来源或通过重组技术产生,但其不必从指定的核酸序列翻译所得。它可能以包括化学合成的任何方式产生。
在本发明中,术语“重组”涉及多肽或多核苷酸,意指非天然存在的多肽或多核苷酸的形式,其非限制性实施例可以通过组合通常并不同时存在的多核苷酸或多肽来产生。
“同源性”或“同一性”或“相似性”是指两个肽之间或两个核酸分子之间的序列相似性。可以通过比较每个序列中可以比对的位置来确定同源性。当被比较的序列中的位置被相同的碱基或氨基酸占据时,则分子在该位置是同源的。序列之间的同源程度是由序列共有的匹配或同源位置的数目组成的一个函数。术语“不相关的”或“非同源的”序列表示与本发明公开的序列之一有小于40%的同一性,但优选小于25%的同一性。
多核苷酸或多核苷酸区域(或多肽或多肽区域)与另一序列具有一定百分比(例如,60%、65%、70%、75%、80%、85%、90%、95%、98%或者99%)的“序列同一性”是指当序列比对时,所比较的两个序列中该百分比的碱基(或氨基酸)相同。该比对和同源性百分比或序列同一性可以使用本领域已知的软件程序,比如Ausubel et al.eds.(2007)Current Protocols in Molecular Biology中所述的软件程序来确定。优选使用默认参数进行比对。其中一种比对程序是使用默认参数的BLAST。
术语“等价的核酸或多核苷酸”是指具有与核酸或其互补序列的核苷酸序列具有一定程度的同源性或序列同一性的核苷酸序列的核酸。双链核酸的同源物意指包括具有与其或其互补序列具有一定同源性的核苷酸序列的核酸。一方面,核酸的同源物能够与核酸或其互补序列杂交。同样地,“等价的多肽”是指与参考多肽的氨基酸序列具有一定同源性或序列同一性的多肽。在某些方面,序列同一性为至少约70%、75%、80%、85%、90%、95%、98%或99%。在某些方面,与参考的多肽或多核苷酸相比,等价的多肽或多核苷酸具有1、2、3、4或5个添加、缺失、取代及其组合。在某些方面,等价的序列保留参考序列的活性(例如表位结合)或结构(例如盐桥)。
杂交反应可以在不同的“严谨性”条件下进行。通常在约40℃条件下,在约10×SSC或相同等离子强度/温度的溶液中进行低严谨的杂交反应。通常在约50℃条件下,在约6×SSC中进行中度严谨的杂交反应,通常在约60℃条件下,在约1×SSC中进行高度严谨的杂交反应。杂交反应也可以在本领域技术人员熟知的“生理条件”下进行。生理条件的非限制性实施例指在细胞中通常存在的温度、离子强度、pH和Mg2+浓度。
多核苷酸由四个核苷酸碱基的特定序列组成:腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)、和当多核苷酸是RNA时用于置换胸腺嘧啶的尿嘧啶(U)。因此,术语“多核苷酸序列”是多核苷酸分子的字母表示。该字母表示可以被输入到具有中央处理单元的计算机中的数据库中,并用于生物信息学应用,例如用于功能基因组学和同源性搜索。术语“多态性”是指多种形式的基因或其部分的共存,具有至少两种不同形式(即两种不同的核苷酸序列)的基因的一部分被称为“基因的多态性区域”。多态性区域可以是单核苷酸,在不同的等位基因中其具有不同的同一性。
术语“多核苷酸”和“寡核苷酸”可互换使用,是指无论是脱氧核糖核苷酸还是核糖核苷酸或其类似物的任何长度的核苷酸的聚合形式。多核苷酸可以具有任何三维结构并且可以执行已知或未知的任何功能。以下是非限制性的多核苷酸的实施例:基因或基因片段(例如探针、引物、EST或SAGE标签)、外显子、内含子、信使RNA(mRNA)、转运RNA、核糖体RNA、核糖酶、cDNA、dsRNA、siRNA、miRNA、重组多核苷酸、分支的多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的分离的RNA、核酸探针和引物。多核苷酸可以包含修饰的核苷酸,例如甲基化的核苷酸和核苷酸类似物。如果存在该修饰,则对核苷酸的结构修饰可以在组装多核苷酸之前或之后进行。核苷酸的序列可以被非核苷酸组分中断。聚合后可以进一步修饰多核苷酸,例如通过与标记组分缀合。这个术语也指双链和单链分子。除另有说明或要求外,本公开的任何多核苷酸的实施例包括双链形式和已知或预测构成双链形式的两种可互补单链形式中的每一种。
术语“编码”应用于多核苷酸时,是指被称为“编码”多肽的多核苷酸,如果在其天然状态或当通过本领域技术人员公知的方法操作时,其可以被转录和/或翻译以产生多肽和/或其片段的mRNA。反义链是这种核酸的互补序列,其编码序列可以从中推导出来。
融合蛋白
如实施例1所示,通过将大鼠胞苷脱氨酶APOBEC1融合到无催化活性形式的毛螺旋菌(Lachnospiraceae bacterium)Cpf1(LbCpf1)中,开发了一种基于CRISPR-Cpf1的碱基编辑器。该碱基编辑器识别人类细胞中富含T的PAM序列,并以高的效率将C转换为T,同时插入/缺失、非C到T取代和脱靶编辑的效率低。这些都是与基于Cas9的碱基编辑器相比的重大改进。此外,除了APOBEC1(A1)外,当LbCpf1与APOBEC3(A3或APOBEC3A)融合时,可以实现更高的编辑效率。
除了大大提高了编辑效率和精度外,基于LbCpf1的碱基编辑器在编辑窗口方面还与基于Cas9的碱基编辑器有所不同。通常,基于Cas9的碱基编辑器的编辑窗口是从位置4到位置8,观察到的基于Cpf1的碱基编辑器的编辑窗口是从位置8到位置13(Cpf1-A1碱基编辑器)以及从位置6到位置22(Cpf1-A3碱基编辑器)。当Cpf1与APOBEC突变体(例如,具有W90Y和R126E突变的A1)融合时,可以将编辑窗口缩小到位置10到位置12,从而提供了用于更精确地针对位置进行编辑的工具。
本公开中的另一个有趣的发现是,游离尿嘧啶DNA糖基化酶抑制剂(UGI)结构域的存在可以进一步提高碱基编辑的效率和保真度。UGI已被用作碱基编辑器中的融合部分,通常将其置于碱基编辑器的C端。但是,添加游离的UGI带来的额外好处是令人惊讶和预料不到的。为了方便和良好的控制,在本公开的一个实施方案中,通过包含蛋白酶切割位点的接头将UGI与碱基编辑器融合,从而使得在表达时产生游离的UGI。
本公开的另一个有趣的发现是,在碱基编辑器中添加更多的内部SV40核定位序列(iNLS)可以进一步提高编辑效率。可以将一个、两个或多个iNLS插入Cpf1或Cas9与UGI之间。在一些实施方案中,可以将iNLS添加至胞苷脱氨酶和Cpf1或Cas9的N末端或C末端侧。
因此,本公开的一个实施方案提供了一种融合蛋白,其包括:含有胞苷脱氨酶的第一片段,和含有无催化活性的毛螺旋菌(Lachnospiraceae bacterium)Cpf1(dLbCpf1)的第二片段。
“胞苷脱氨酶”是指分别催化胞苷和脱氧胞苷不可逆水解为尿苷和脱氧尿苷的酶。胞苷脱氨酶维持细胞内的嘧啶存储。胞苷脱氨基酶家族是APOBEC(“载脂蛋白B mRNA编辑酶,催化多肽样”)。该家族的成员是C到U转换的编辑酶。APOBEC样蛋白的N末端结构域是催化结构域,而C末端结构域是伪催化结构域。更具体地,该催化结构域是锌依赖性胞苷脱氨酶结构域,并且对于胞苷脱氨是重要的。通过APOBEC-1进行RNA编辑需要同二聚体作用,该复合物与RNA结合蛋白相互作用形成编辑体。
APOBEC蛋白的非限制性实例包括APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4和激活诱导的(胞苷)脱氨酶。
已知APOBEC蛋白质的各种突变体为碱基编辑器带来了不同的编辑特征。例如,对于人类APOBEC3A而言,其某些突变体(例如Y130F、Y132D、W104A和D131Y)的编辑效率甚至超过野生型的人类APOBEC3A。因此,术语APOBEC及其每个家族成员也涵盖与相应的野生型APOBEC蛋白序列具有一定程度同一性(例如70%、75%、80%、85%、90%、95%、98%、99%)的变体和突变体,并且保留了胞苷脱氨活性。变体和突变体可以通过氨基酸的添加、缺失和/或取代衍生。在一些实施方案中,此类取代是保守取代。
毛螺旋菌(Lachnospiraceae bacterium)Cpf1(LbCpf1)是一大组Cpf1蛋白中的其中一种。Cpf1是一种Cas蛋白。术语“Cas蛋白”或“成簇的规律间隔的短回文重复序列(Cas)蛋白”是指化脓性链球菌(Streptococcus pyogenes)以及其他细菌中与CRISPR(成簇的规律间隔的短回文重复序列)自适应免疫系统相关的RNA引导的DNA核酸内切酶。Cas蛋白包括Cas9蛋白、Cas12a(Cpf1)蛋白、Cas13蛋白和各种工程改造的对应物。下表提供了示例性的Cas蛋白。
表A.示例性Cas蛋白
Figure BDA0002397505430000111
Figure BDA0002397505430000121
在一些实施方案中,融合蛋白包括:含有APOBEC1蛋白的第一片段和含有无催化活性的LbCpf1的第二片段。在一些实施方案中,融合蛋白包括:含有APOBEC1蛋白的第一片段和含有无催化活性LbCpf1的第二片段。在一些实施方案中,融合蛋白包括:含有APOBEC3A蛋白的第一片段和含有无催化活性的LbCpf1的第二片段。在一些实施方案中,融合蛋白包括:含有APOBEC3A蛋白的第一片段和含有无催化活性的LbCpf1的第二片段。
在一些实施方案中,胞苷脱氨酶是人蛋白。在一些实施方案中,胞苷脱氨酶是大鼠蛋白。在一些实施方案中,胞苷脱氨酶是小鼠蛋白。在一些实施方案中,胞苷脱氨酶包括一个、两个或三个氨基酸取代,同时保留胞苷脱氨酶活性(例如具有W90Y和/或R126E突变的APOBEC1)。
融合蛋白可以包括其他片段,例如尿嘧啶DNA糖基化酶抑制剂(UGI)和核定位序列(NLS)。
可以从枯草芽孢杆菌噬菌体PBS1中制备得到的“尿嘧啶糖基化酶抑制剂”(UGI)是一种小蛋白(9.5kDa),其可以抑制大肠杆菌尿嘧啶-DNA糖基化酶(UDG)以及其他物种的UDG。UDG的抑制是通过可逆的蛋白质结合(以1:1UGD:UGI化学计量比进行)发生的。UGI能够解离UDG-DNA复合物。在芽孢杆菌噬菌体AR9(YP_009283008.1)中发现了UGI的非限制性实例。在一些实施方案中,UGI包含如SEQ ID NO:8所示的氨基酸序列或与SEQ ID NO:8具有至少70%、75%、80%、85%、90%或95%同一性的序列并保留尿嘧啶糖基化酶抑制活性。
在一些实施方案中,将UGI置于胞苷脱氨酶-Cpf1部分的C末端侧。在一些实施方案中,融合蛋白包含至少两个UGI。在一些实施方案中,至少一个UGI通过蛋白酶切割位点与脱氨酶-Cpf1部分分开。因此在表达后,UGI可能会从融合蛋白上切割下来成为独立的蛋白,与脱氨酶-Cpf1部分分开。如实施例2所示,这种游离的UGI(即未与脱氨酶-Cpf1融合蛋白融合的UGI蛋白)可以进一步提高碱基编辑器的效率和特异性。在一些实施方案中,融合蛋白包括至少两个这样的切割位点分离的UGI单元。
在一些实施方案中,蛋白酶切割位点是自剪切肽,例如2A肽。“2A肽”是18-22个氨基酸长度的病毒寡肽,其在真核细胞的翻译过程中介导多肽的“切割”。名称“2A”是指病毒基因组的特定区域,通常以其源自的病毒来命名不同的病毒2A。最早发现的2A是F2A(口蹄疫病毒),其后还鉴定了E2A(马甲鼻炎病毒)、P2A(猪破伤风病毒1 2A)和T2A(胸海蛇病毒2A)。SEQ ID NO:9-11中提供了2A肽的一些非限制性实例。
在一些实施方案中,融合蛋白可包括一个或多个核定位序列(NLS)。
“核定位信号或序列”(NLS)是标记通过核转运输入到细胞核中的蛋白质的一种氨基酸序列。通常,该信号由暴露于蛋白质表面的一个或多个带正电荷的赖氨酸或精氨酸的短序列组成。不同的核定位蛋白可能共享相同的NLS。NLS具有与核输出信号(NES)相反的功能,后者将蛋白质靶向于核外。NLS的非限制性实例是内部SV40核定位序列(iNLS)。在一些实施方案中,NLS包含如SEQ ID NO:7所示的氨基酸序列或与SEQ ID NO:7具有至少70%、75%、80%、85%、90%或95%同一性的序列,并保留了核定位活性。
在一些实施方案中,至少一个NLS位于第一片段和第二片段(胞苷脱氨酶-Cpf1部分)的C末端,例如,在第二片段(包括Cpf1)和UGI之间。在一些实施方案中,至少两个NLS位于第二片段和UGI之间。在一些实施方案中,至少三个NLS位于第二片段和UGI之间。在一些实施方案中,至少一个NLS位于第一片段和第二片段(胞苷脱氨酶-Cpf1部分)的N末端。
融合蛋白中组分排列的非限制性实例,从N端至C端包括,(a)NLS,胞苷脱氨酶,Cpf1,NLS,UGI,NLS,2A和UGI;(b)NLS,胞苷脱氨酶,Cpf1,NLS,NLS,UGI,NLS,2A和UGI;(c)NLS,胞苷脱氨酶,Cpf1,NLS,UGI,NLS,2A,UGI,2A和UGI;(d)NLS,胞苷脱氨酶,Cpf1,NLS,UGI,NLS,2A,UGI,2A,UGI,2A和UGI。
在一些实施方案中,任选地在融合蛋白中的每个片段之间提供肽接头。在一些实施方案中,肽接头具有1-100个(或3-20个、4-15个,无限制)氨基酸残基。在一些实施方案中,肽接头的氨基酸残基的至少10%、20%、30%、40%、50%、60%、70%、80%或90%是选自由丙氨酸、甘氨酸、半胱氨酸和丝氨酸组成的群组的氨基酸残基。
表1.示例性序列
Figure BDA0002397505430000131
Figure BDA0002397505430000141
Figure BDA0002397505430000151
对于本发明的任何融合蛋白,还提供了其生物等效物。在一些实施方案中,生物等效物与参考的融合蛋白具有至少约70%、75%、80%、85%、90%、95%、98%或99%的序列同一性。优选地,生物等效物保留了参考融合蛋白的期望活性。在一些实施方案中,生物等效物通过包括1个、2个、3个、4个、5个或更多个氨基酸的添加、缺失、取代或其组合而衍生。在一些实施方案中,该取代是保守氨基酸取代。
“保守性氨基酸取代”是指其中氨基酸残基被具有相似侧链的氨基酸残基置换。本领域已经定义了具有相似侧链的氨基酸家族,包括碱性侧链(例如赖氨酸、精氨酸、组氨酸)、酸性侧链(例如天冬氨酸、谷氨酸)、不带电荷的极性侧链(例如甘氨酸、天冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、酪氨酸、半胱氨酸)、非极性侧链(例如丙氨酸、缬氨酸、亮氨酸、异亮氨酸、脯氨酸、苯丙氨酸、甲硫氨酸、色氨酸)、β-分支侧链(例如苏氨酸、缬氨酸、异亮氨酸)和芳族侧链(例如酪氨酸、苯丙氨酸、色氨酸、组氨酸)。因此,优选将免疫球蛋白多肽中的非必需氨基酸残基置换为来自同一侧链家族的另一种氨基酸残基。在另一个实施方案中,一串氨基酸可以用结构相似的串代替,该串在侧链家族成员的顺序和/或组成上不同。
下表中提供了保守的氨基酸取代的非限制性实施例,其中0或更高的类似得分表明了两个氨基酸之间的保守的可取代性。
表B氨基酸相似性矩阵
C G P S A T D E N Q H K R V M I L F Y W
W -8 -7 -6 -2 -6 -5 -7 -7 -4 -5 -3 -3 2 -6 -4 -5 -2 0 0 17
Y 0 -5 -5 -3 -3 -3 -4 -4 -2 -4 0 -4 -5 -2 -2 -1 -1 7 10
F -4 -5 -5 -3 -4 -3 -6 -5 -4 -5 -2 -5 -4 -1 0 1 2 9
L -6 -4 -3 -3 -2 -2 -4 -3 -3 -2 -2 -3 -3 2 4 2 6
I -2 -3 -2 -1 -1 0 -2 -2 -2 -2 -2 -2 -2 4 2 5
M -5 -3 -2 -2 -1 -1 -3 -2 0 -1 -2 0 0 2 6
V -2 -1 -1 -1 0 0 -2 -2 -2 -2 -2 -2 -2 4
R -4 -3 0 0 -2 -1 -1 -1 0 1 2 3 6
K -5 -2 -1 0 -1 0 0 0 1 1 0 5
H -3 -2 0 -1 -1 -1 1 1 2 3 6
Q -5 -1 0 -1 0 -1 2 2 1 4
N -4 0 -1 1 0 0 2 1 2
E -5 0 -1 0 0 0 3 4
D -5 1 -1 0 0 0 4
T -2 0 0 1 1 3
A -2 1 1 1 2
S 0 1 1 1
P -3 -1 6
G -3 5
C 12
表C保守的氨基酸取代
Figure BDA0002397505430000161
Figure BDA0002397505430000171
融合蛋白的用途
如本发明所提供的,胞苷脱氨酶-LbCpf1融合蛋白是一种高效、高保真的碱基编辑器。因此,这种碱基编辑器可用于生物样品中有效的基因组编辑。此外,鉴于胞苷脱氨酶-LbCpf1碱基编辑器具有不同的编辑窗口,并且采用了与基于Cas9的系统中不同的PAM序列,因此这些新的碱基编辑器是对Cas9系统的扩充。
本公开提供了组合物和方法。这种组合物包含有效量的融合蛋白和可接受的载体。在一些实施方案中,所述组合物还包含与靶DNA具有所需互补性的指导RNA。这样的组合物可以用于样本中的碱基编辑。
融合蛋白及其组合物可用于碱基编辑。在一个实施方案中提供了一种用于编辑靶多核苷酸的方法,该方法包括将本公开的靶多核苷酸融合蛋白和与靶多核苷酸具有至少部分序列互补性的指导RNA与该靶多核苷酸接触,其中所述编辑包括将靶多核苷酸中胞嘧啶(C)脱氨基。
在一个实施方案中,提供了一种编辑样品中核酸序列上的胞嘧啶的方法。在一些实施方案中,该方法需要使样品接触本公开的融合蛋白或编码该融合蛋白的多核苷酸。在一些实施方案中,进一步添加合适的指导RNA。指导RNA的设计是技术人员容易获得的。
在一些实施方案中,胞嘧啶在核酸序列上的前间区序列邻近基序(PAM)序列3’端的第8位和第13位核苷酸之间。用于该编辑窗口的胞苷脱氨酶可以是APOBEC1。在一些实施方案中,胞嘧啶在PAM序列3’端的第10位和第12位核苷酸位置之间。为了缩小编辑范围,可能需要突变的APOBEC1蛋白(例如,具有W90Y和R126E突变的APOBEC1蛋白)。
在一些实施方案中,胞嘧啶在核酸序列上前间区序列邻近基序(PAM)序列3’端的第6位和第22位核苷酸位置之间。用于该编辑窗口的胞苷脱氨酶可以是APOBEC3。在一些实施方案中,编辑窗口更窄。为了缩小编辑范围,可能需要突变的APOBEC3A蛋白(例如,带有W104A、Y130F、D131Y、D31E和/或Y132D突变的APOBEC3A蛋白;组合突变的示例包括Y130F-D131E-Y132D、Y130F-D131Y-Y132D;参见SEQ ID NO:12-17)。
在一些实施方案中,PAM序列是富含T的PAM序列。在一些实施方案中,还添加了不与Cas蛋白融合的游离UGI、或编码该游离UGI的多核苷酸。
融合蛋白(和指导RNA)与靶多核苷酸之间的接触可以在体外,特别是在细胞培养物中。当接触是离体或在体内时,融合蛋白可表现出临床的/治疗的意义。体内接触可以不受限制地施用于活的受试者,例如人、动物、酵母、植物、细菌、病毒。
游离的UGI和使用
本公开的发现是,游离尿嘧啶DNA糖基化酶抑制剂(UGI)结构域的存在可以进一步提高碱基编辑的效率和保真度。
在一个实施方案中,提供了一种编辑靶多核苷酸的方法,其包括使碱基编辑器和未与Cas蛋白融合的UGI与靶多核苷酸接触。在一些实施方案中,进一步添加合适的指导RNA。指导RNA的设计是本领域技术人员容易获得的。
本发明还提供了一种融合蛋白,所述融合蛋白包括:含有胞苷脱氨酶的第一片段,含有Cas蛋白的第二片段,以及通过蛋白酶切割位点与所述第一片段和所述第二片段分开的尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方案中,蛋白酶切割位点是自剪切肽,例如A2肽。在一些实施方案中,融合蛋白还包括通过第二蛋白酶切割位点连接的第二UGI。在一些实施方案中,融合蛋白还包括通过第三蛋白酶切割位点连接的第三UGI。
以上描述了各种胞苷脱氨酶和Cas蛋白。在一些实施方案中,胞苷脱氨酶选自由APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4和激活诱导的(胞苷)组成的群组。在一些实施方案中,Cas蛋白是Cas9或Cpf1。
在一个实施方案中,提供了一种编辑样品中核酸序列的方法。在一些实施方案中,该方法需要使样品接触本公开的融合蛋白或编码该融合蛋白的多核苷酸。在一些实施例中,进一步添加合适的指导RNA。
本发明还提供了组合物和方法。此类组合物包含有效量的融合蛋白和可接受的载体。在一些实施方案中,所述组合物还包含与靶DNA具有所需互补性的指导RNA。这样的组合物可以用于样本中的碱基编辑。
融合蛋白(和指导RNA)与靶多核苷酸之间的接触可以在体外,特别是在细胞培养物中。当该接触是离体的或在体内时,融合蛋白可表现出临床/治疗意义。体内接触可以不限制于施用在活的受试者,例如人、动物、酵母、植物、细菌、病毒。
具体实施方式
实施例1:融合蛋白能够精确编辑人类基因组中富含A/T的区域中的单个碱基
CRISPR-Cas9碱基编辑器(BE)的靶向范围局限在富含G/C的PAM序列。为了克服这一局限性,该实施例通过将大鼠胞苷脱氨酶APOBEC1与毛螺旋菌(Lachnospiraceaebacterium)Cpf1的无催化活性形式融合,开发了一种基于CRISPR-Cpf1的碱基编辑器。该碱基编辑器识别人细胞中富含T的PAM序列,并将其中的C转换为T,且插入/缺失、非C到T的取代和脱靶编辑的水平很低。
方法与材料
质粒构建
pST1374-Lb-Cpf1-NLS为商业合成。使用两个引物对(LB_D971A_F/LB_R4635)(LB_D971A_R/LB_F2096)扩增含D832A的片段LbCpf1-D832A。接着使用两个引物对(LB_E1006A_F/LB_E1006A_R)(LB_D1225A_F/LB_D1225A_R)引入突变E925A和D1148A。使用质粒重组试剂盒
Figure BDA0002397505430000191
(Vazyme,C112-02)将含有D832A、E925A和D1148A的dLbCpf1克隆到PstI和ApaI线性化的pST1374-LbCpf1-NLS中,以产生dLbCpf1表达质粒pST1374-dLbCpf1-NLS。使用两个引物对(LB_BE3_F1/LB_BE3_R1)(LB_BE3_F2/CPF_BE3_fu_R2)扩增dLbCpf1-SV40NLS-UGI片段,将其克隆到SmaI和PmeI线性化的pCMV-BE3中以产生dLbCpf1-BE0(dCpf1-BE0)表达载体pCMV-Apobec1-XTEN-dLbCpf1(D832A/E925A/D1148A)-SV40NLS-SGGS-UGI-SV40NLS。
pST1374-As-Cpf1-NLS为商业合成。使用两个引物对(AS_D917A_F/AS_R4871)(AS_D917A_R/AS_F2155)扩增含D908A的片段AsCpf1-D908A。然后使用两个引物对(AS_E1006A_F/AS_E1006A_R)(As_D1225A_F/As_D1225A_R)引入突变E993A和D1235A。将含有D908A、E993A和D1235A的片段dAsCpf1克隆到PstI和ApaI线性化的pST1374-AsCpf1-NLS,以产生dAsCpf1表达质粒pST1374-dAsCpf1-NLS。使用两个引物对(As_BE3_F1/As_BE3_R1)(As_BE3_F2/CPF_BE3_fu_R2)扩增dAsCpf1-SV40 NLS-UGI片段,将其克隆到SmaI和PmeI线性化的pCMV-BE3中以产生dAscpf1-A0表达载体pCMV-Apobec1-XTEN-dAsCpf1(D908A/E993A/D1235A)-SV40NLS-SGGS-UGI-SV40NLS。
将寡核苷酸(L079_LbCpf1scaffold_for/L080_LbCpf1scaffold_rev,L081_AsCpf1scaffold_for/L082_AsCpf1scaffold_rev)退火并连接到BsaI和EcoRI线性化的pGL3-U6-sgRNA-PGK-puromycin(addgene,51133),以产生Lb-crRNA和As-crRNA表达载体pLb-Cpf1-pGL3-U6-sgRNA和pAs-Cpf1-pGL3-U6-sgRNA。
将寡核苷酸supF_Cpf1_sg1_FOR/supF_Cpf1_sg1_REV,supF_Cpf1_sg2_FOR/supF_Cpf1_sg2_REV,supF_Cpf1_sg3_FOR/supF_Cpf1_sg3_REV或其他具有不同长度的寡核苷酸对退火并连接到BsaI线性化的pLb-Cpf1-pGL3-U6-sgRNA或pAs-Cpf1-pGL3-U6-sgRNA,以产生穿梭载体pSP189中靶向SupF基因的Lb-crRNA或As-crRNA的表达载体。
使用两个引物对(LB_BE3_F1/LB_R)(UGI_F/CPF_BE3_fu_R2)扩增dLbCpf1-SGGS-UGI片段,将其克隆到SmaI和PmeI线性化的dLbCpf1-BE0(dCpf1-BE0)表达载体中以产生dLbCpf1-BE0ΔiNLS表达载体pCMV-Apobec1-XTEN-dLbCpf1(D832A/E925A/D1148A)-SGGS-UGI-SV40NLS。
使用引物对(1xNLS_pcrF/1xNLS_pcrR)从pCMV-BE3中扩增出片段NLS-Apobec1,并将跑胶纯化后的NLS-Apobec1片段连接至SmaI和NotI线性化的dCpf1-BE0表达载体,以产生dCpf1-BE表达载体pCMV-SV40NLS-Apobec1-XTEN-dLbCpf1(D832A/E925A/D1148A)-SV40NLS-SGGS-UGI-SV40NLS。
使用两个引物对(APOBEC_W90Y_F1/1xNLS_pcrR)(1xNLS_pcrF/APOBEC_W90Y_R1)扩增含W90Y的片段APOBEC-Y。使用两个引物对(APOBEC_R126E_F/APOBEC_R126E_R)(APOBEC_R132E_F/APOBEC_R132E_R)引入突变R126E和R132E。将APOBEC-YE和APOBEC-YEE片段分别连接到NotI和SmaI线性化的dCpf1-BE表达载体中,以产生dCpf1-BE-YE和dCpf1-BE-YEE表达载体pCMV-SV40NLS-Apobec1(W90Y/R126E)-XTEN-dLbCpf1(D832A/E925A/D1148A)-SV40NLS-SGGS-UGI-SV40NLS和pCMV-SV40NLS-Apobec1(W90Y/R126E/R132E)-XTEN-dLbCpf1(D832A/E925A/D1148A)-SV40NLS-SGGS-UGI-SV40NLS。
使用引物对(LB_F2096/BE8.1_PmeI_ApaI_R)将ApaI位点引入dCpf1-BE表达载体中以产生pCMV-dCpf1-BE-ApaI。使用引物对(ApaI_1T2AUGI_F/PmeI_3T2AUGI_R)从商业合成的DNA片段3×2A-UGI中扩增3×2A-UGI片段,并将3×2A-UGI片段连接到PmeI和ApaI线性化的pCMV-dCpf1-BE-ApaI,以产生dCpf1-eBE表达载体pCMV-SV40NLS-Apobec1-XTEN-dLbCpf1(D832A/E925A/D1148A)-SV40NLS-SGGS-UGI-SV40NLS-T2A-UGI-SV40NLS-P2A-UGI-SV40NLS-T2A-UGI-SV40NLS。将Apobec1-YE片段连接到NotI和SmaI线性化的dCpf1-eBE表达载体中,以产生dCpf1-eBE-YE表达载体pCMV-SV40NLS-Apobec1(W90Y/R126E)-XTEN-dLbCpf1(D832A/E925A/D1148A)-SV40NLS-SGGS-UGI-SV40NLS-T2A-UGI-SV40NLS-P2A-UGI-SV40NLS-T2A-UGI-SV40NLS。
将寡核苷酸hCDKN2A_cpf1_sg1_FOR/hCDKN2A_cpf1_sg1_REV退火并连接到BsaI线性化的pLb-Cpf1-pGL3-U6-sgRNA中,以产生crCDKN2A表达载体pcrCDKN2A。将寡核苷酸hCDKN2A_cpfsp_sg1_FOR/hCDKN2A_cpfsp_sg1_REV退火并连接到BsaI线性化的pGL3-U6-sgRNA-PGK-puromycin(嘌呤霉素)中,以产生sgCDKN2A表达载体psgCDKN2A。通过相同的方式构建其他crRNA和sgRNA表达载体。
细胞培养和转染
购自ATCC的293FT和U2OS培养在DMEM(10566,Gibco/Thermo Fisher Scientific)+10%FBS(16000-044,Gibco/Thermo Fisher Scientific)中,并经过检测以排除有支原体污染。
为了在游离的穿梭载体中进行碱基编辑,将293FT细胞以每孔5×105的密度铺在6孔板中,并用500μl不含血清的Opti-MEM转染,所述Opti-MEM中含有4μlLIPOFECTAMINELTX(Life,Invitrogen)、2μlLIPOFECTAMINE plus(Life,Invitrogen)、1μgdLbCpf1-BE0表达载体(或dAsCpf1-BE0表达载体)、0.5μgcrRNA表达质粒和0.5μg穿梭载体pSP189。48小时后,用TIANprep Mini质粒试剂盒(DP103-A,TIANGEN)从细胞中提取质粒。
为了在基因组DNA中进行碱基编辑,将293FT和U2OS细胞以每孔2×105的密度铺到24孔板中,并用500μl不含血清的Opti-MEM转染,所述Opti-MEM中含有5.04μlLIPOFECTAMINE LTX(Life,Invitrogen)、1.68μlLIPOFECTAMINE plus(Life,Invitrogen)、1μgdCpf1-BE0表达载体(dCpf1-BE0ΔiNLS,dCpf1-BE,dCpf1-BE-YE,dCpf1-BE-YEE,dCpf1-eBE,dCpf1-eBE-YE表达载体或pCMV-BE2,pCMV-BE3)和0.68μgcrRNA或sgRNA表达质粒。72小时后,用QuickExtractTM DNA提取溶液(QE09050,Epicentre)从细胞中提取基因组DNA。
蓝/白菌落筛选
从转染的细胞中提取的质粒用DpnI消化(去除未复制的输入质粒),并转化到大肠杆菌MBM7070(lacZuag_amber)中,使其在含有50μg/ml卡那霉素、1mM IPTG和0.03%Bluo-gal(Invitrogen/Life Technologies,纽约州格兰德岛)的LB平板上生长,37℃过夜,然后在室温下放置一天(以最大程度地改善颜色)。为了确定突变谱,随机选择白色菌落用于Sanger测序。
DNA文库的制备和测序
靶基因组位点通过高保真DNA聚合酶PrimeSTAR HS(Clonetech)进行PCR扩增,其引物侧翼于每个检测的sgRNA靶位点。通过使用TruSeqChIP样品制备试剂盒(Illumina)进行了一些小修改,制备索引的DNA文库。简而言之,从基因组DNA区域扩增的PCR产物通过Covaris S220进行片段化处理。然后使用TruSeqChIP样品制备试剂盒(Illumina)PCR扩增片段化的DNA。用Qubit高灵敏度DNA试剂盒(Invitrogen)定量后,将具有不同标签的PCR产物汇集在一起,通过中国上海CAS-MPG计算生物学合作伙伴研究所量化生物学平台(OmicsCore)的Illumina Hiseq 2500(2x150)或Hiseq X-10(2x150)进行深度测序。原始读数的质量通过FastQC(www.bioinformatics.babraham.ac.uk/projects/fastqc/,v0.11.4)进行评估。对于配对的末端测序,仅使用R1读数。剪切两端具有Phred质量值低于28的接头序列和读段序列。然后使用BWA-MEM算法(BWA v0.7.9a)将剪切的读段映射到靶序列。将其与samtools(v0.1.18)合并在一起后,进一步计算出插入/缺失和碱基取代。
插入/缺失频率计算
对于Cpf1,根据PAM位点(55bp),在从上游3个核苷酸到下游48个核苷酸的比对区域估计插入/缺失。对于Cas9,根据PAM位点(50bp),在从上游8个核苷酸到靶位点到下游19个核苷酸的比对区域中估计插入/缺失。随后通过将包含至少一个插入和/或缺失的核苷酸的读段除以同一区域的所有映射读段来计算插入/缺失频率。
碱基取代计算
在所检测的sgRNA(或crRNA)靶位点的每个位置挑选出碱基取代,这些位点至少映射了1,000个独立的读数,并且仅在靶碱基编辑位点观察到了明显的碱基取代。通过将碱基取代读数除以总读数来计算碱基取代频率。
统计分析
该项研究中通过单尾Student's T-检验计算得出P值。
结果
Cpf1(Cas12a)是某些方面与Cas9不同的另一种Cas蛋白。本实施例检测了两个不同的Cpf1进行碱基编辑的能力。
大鼠APOBEC1与无催化活性的氨基酸球菌(Acidaminococcussp)Cpf1(dAsCpf1)或无催化活性的毛螺旋菌(Lachnospiraceae bacterium)Cpf1(dLbCpf1)以及尿嘧啶DNA糖基化酶抑制剂(UGI)融合,以生成两种基于dCpf1的碱基编辑器(BE):dAsCpf1-BE0和dLbCpf1-BE0(图3a)。该实施例首先在大肠杆菌质粒衍生的游离型穿梭载体报告系统中测试了它们的编辑潜力(图3a),该系统已被证明是探测人类细胞中碱基取代的灵敏工具。dLbCpf1-BE0在靶区域诱导了高水平的C到T转换的碱基编辑(单胞嘧啶的编辑频率范围为44%至74%),而dAsCpf1-BE0在相似条件下未显示可检测的碱基编辑(图3b,3c)。因此,本实施例中在本研究的其余部分中使用dLbCpf1-BE,并且为简单起见,将它们称为dCpf1-BE。本发明发现间隔区范围为19个nt至27个nt的crRNA显示出相似的编辑频率(图4)。
接着,该实施例分析了dCpf1-BE0在哺乳动物细胞的内源性基因组位点的性能。dCpf1-BE0还可以在靶基因组位点诱导碱基编辑,从而产生6%-37%的C到T转换的编辑频率(平均为20%,计算每个靶标中单胞嘧啶的最高编辑频率,参见图5a和5b)。dCpf1和UGI之间的内部SV40核定位序列(iNLS)的删除显著降低了碱基编辑效率(图5b-5d,将dCpf1-BE0ΔiNLS与dCpf1-BE0比较)。具有N末端SV40NLS额外拷贝的dCpf1-BE在所有测试的基因组基因座上均提高了碱基编辑效率(图6a-6d,P=3×10-11)。
为了总体上评估其功效,该实施例在具有TTTV PAM序列的12个靶位点和具有TTTTPAM序列的3个靶位点上测试了dCpf1-BE(图1a)。在具有TTTV PAM序列的12个靶位点中,dCpf1-BE在10个位点上诱导了碱基编辑(最高的单C到T转换频率范围为11%-46%,平均为22%)并且在2个位点上诱导了无效的碱基编辑(频率低于5%,平均为3%)。在具有TTTTPAM序列的位点上,dCpf1-BE诱导的效率相对较低(两个位点的编辑频率为~10%,而另一个位点的编辑检测不到)。同时,dCpf1-BE的主要编辑窗口从位置8到13,将PAM旁边的碱基计数为位置1(图7a),并且dCpf1-BE在鸟苷之后的胞嘧啶上几乎不引起C到T转换的碱基编辑(图1a)。值得注意的是,由于在dCpf1-BE中使用了dCpf1,通常不会诱导不想要的插入/缺失,并且在检测位点实现了高比例的C到T的转换(图5e、6e、7b和7c)。同样地,dCpf1-BE在另一个人类细胞系U2OS中所有受检测的部位均诱导碱基编辑(单个C到T转换的最高频率范围为10%-33%,平均为20%),且没有不需要的插入/缺失和非C到T的取代(图8)。
此外,该实施例检测了由dCpf1-BE诱导的在八个crRNA上的40个预测OT位点(每个crRNA五个OT位点)可能的OT碱基编辑,并且发现在一个crRNA上的三个位点有OT碱基编辑(图9)。最后,通过分析间隔序列外的44个nt区域,该实施例很少能够检测到C到T碱基的转换(图10)。
接下来,该实施例比较了在dCpf1-BE(位置8-13)和Cas9-BE(位置4-8)的编辑窗口重叠的8个靶位置上,dCpf1-BE的编辑效率与不同Cas9-BE的编辑效率。如图1b所示,dCpf1-BE通常在14个可编辑的胞嘧啶上诱导的编辑频率比dCas9-BE2高,并且在14个可编辑的胞嘧啶中的5个达到或超过nCas9-BE3诱导的编辑水平(图1b,C到T转换的编辑频率)。同时,不能排除的是,与nCas9-BE3相比,NLS数量的增加以及dCpf1和UGI之间更长的连接子均有助于dCpf1-BE的性能。在其他9个常见可编辑的胞嘧啶上,dCpf1-BE诱导的碱基编辑水平低于基于nCas9的BE3(图1b)。值得注意的是,在所有情况下,dCpf1-BE诱导的插入/缺失和非C到T的取代都少于nCas9-BE3(图1b和图7d,P=5×10-10)。
为了进一步缩小dCpf1-BE的6个nt编辑窗口(图7a的位置8至13)并减少多个C到T的碱基转换(图11),此实施例在APOBEC结构域处引入了突变(W90Y和R126E)进入(图12a)。在五分之四的测试基因组位点中,dCpf1-BE-YE在其高度偏好的编辑位置(主要编辑位点,位置10至12,图2a)保留了约30%至90%的原始编辑效率,但显示出在间隔区中其他位置(次要编辑位点,位置1至9和13-23,图2a)上大大降低的编辑效率,这导致了主要编辑位点与次要编辑位点的比率增加(图2b)。在被归一化为dCpf1-BE之后(图12b),由dCpf1-BE-YE诱导的主要编辑位点与次要编辑位点的比率增加了约2至3倍(图2c,P=0.0005)。当在编辑窗口中有两个或更多个胞嘧啶时,dCpf1-BE-YE还产生了高于dCpf1-BE的单个C到T的转换率(图12c,12d)。带有第三个突变(R132E)的dCpf1-BE-YEE将所有编辑位置的碱基编辑频率降低到了接近背景水平(图2a)。与dCpf1-BE相似,dCpf1-BE-YE和dCpf1-BE-YEE几乎都不引起不想要的插入/缺失(图12e)。总体而言,dCpf1-BE-YE可以将碱基编辑特定地缩小为3个nt窗口(位置10至12)。
dCpf1-BE诱导的非C到T的取代少于由nCas9-BE3诱导的取代(图1b),但在某些编辑位点上仍值得关注(DYRK1A-C10,FANCF-C10和RUNX1-C10,图1b,胞嘧啶取代率)。如实施例2中所示,共表达额外的UGI蛋白可以显著减少这些非预期的非C到T的取代。因此,该实施例将三个拷贝的自剪切肽2A(2A)-UGI序列添加到dCpf1-BE编码区的3’末端以构建dCpf1-eBE(图13a)。在dCpf1-eBE介导的编辑中抑制了非C到T取代的形成(图2d)。从而导致C到T取代率进一步增加(图2e,P=0.0002),而编辑效率基本上保持不变(将dCpf1-eBE与dCpf1-BE进行比较,图13b)。同样地,在dCpf1-eBE-YE介导的碱基编辑中,C到T的转换率也有所增加(图2f,2g,P=0.007和图13d),而对编辑效率的影响很小(图13e)。一致地是,dCpf1-eBE和dCpf1-eBE-YE在所有检测的基因组基因座上都几乎未诱导能够检测到的插入/缺失(图13c,13f)。
在另一个实验中,将dCpf1与APOBEC3(A3)融合以产生dCpf1-A3-BE编辑器(图14A)。与基于Cpf1-A1的编辑器一样,此Cpf1-A3融合编辑器与基于Cas9的编辑器相比,大大提高了编辑频率(图14B)。Cpf1-A3-BE的编辑窗口是从位置6到22(图15)。本发明人最近发现,突变W104A、Y130F、D131Y、D131E和Y132D可以缩小A3的编辑窗口,这与在A1中检测的突变一致。
总之,此实施例开发了一系列基于CRISPR-Cpf1的BE,可以以极低水平的插入/缺失形成和非C到T的取代(图2h)执行靶碱基编辑,并有助于在富含A/T的区域进行碱基编辑。
实施例2:通过共表达游离尿嘧啶DNA糖基化酶抑制剂来增强碱基编辑
与前期的BE(BE1和BE2)相比,最新的BE3通过用Cas9切口酶(nCas9)代替无催化作用的Cas9(dCas9)实现了更高的碱基编辑频率。由于BE在不引入DNA双链断裂(DSB)的情况下实现基因校正,因此在碱基编辑中排除了通过非同源末端连接(NHEJ)从DSB转换而来的不需要的插入/缺失。然而,在BE3介导的碱基编辑中仍然观察到不可忽略的插入/缺失水平(~4%-12%)。另外还观察到不需要的非C到T取代(即C到A取代或C到G取代),并且C到A/C到G取代的频率可能与在某些检测过的案例中从C到T取代的频率一样高。不需要的插入/缺失和C到A/C到G取代的存在损害了碱基编辑结果的保真度。
尽管在BE3中UGI与nCas9融合,但在报道的研究中仍然可以观察到插入/缺失。预期额外的UGI活性对于进一步提高BE3介导的碱基编辑的效率和保真度可能是有用的。然后,该实施例中将UGI与BE3反式共表达。在293FT细胞中将UGI与sgRNA/BE3反式共转染后(图16A),该实施例应用深度测序以确定在三个sgRNA靶位点的插入/缺失和碱基取代频率。与单独的BE3相比,反式共表达BE3和UGI明显降低了插入/缺失频率(图16B和16C,P<10-6)并提高了靶碱基处的C到T转换的编辑频率(图16D和16E,P<10-5)。具体地,UGI的表达水平与C到T转换的编辑与插入/缺失的比率呈正相关(图16F)。当存在高水平的游离UGI时,所需碱基编辑与不需要的插入/缺失的比率增加了约6倍(图16G,P<10-4)。同时,在大多数检测的案例中,游离UGI的表达也抑制了不必要的C到A/C到G的取代,从而导致C到T较于C到A/C到G的取代显著增加(图16H和16I,P<10-6)。应注意生物学复孔之间的变化不是微不足道的(图16B、16D和16F,标准差以误差线表示),这可以通过复孔之间的转染效率不同来解释。为了排除不同生物复孔之间转染效率的影响,本实施例将BE3/UGI共表达中诱导的插入/缺失频率、C到T转换的编辑频率和插入与缺失的比率根据平行对照的BE3测试中诱导的那些数值进行归一化。在BE3/UGI共表达中观察到的碱基编辑效果始终优于BE3。此外,统计分析表明,高水平的游离UGI所带来的改善效果非常显著(图16C,16E和16G),P值均在10-6-10-4的范围内。这些结果表明,额外的游离UGI可以减少单链NTS上AP位点的形成,从而抑制不需要的插入/缺失和C到A/C到G取代的产生,并同时增加所需的C到T转换的编辑。
接着,本实施例试图通过使用单个载体与2A-UGI序列的一个(eBE-S1)或三个(eBE-S3)拷贝共同表达BE3,来更方便地建立增强型BE(eBE)(图16J)。在与五个靶向不同基因组基因座的sgRNA一起转染到293FT细胞后,这两个eBE都显示出比原始BE3更低的插入/缺失频率和更高的C到T转换的编辑频率(图16K和16M)。具有三个拷贝的2A-UGI和最高水平的UGI表达的eBE-S3表现出最强大和最显著的作用(图16K-16N,P<10-8-10-4)。一致地是,当使用任何一种eBE时,C到T转换的编辑与插入/缺失的比率均得到提高(图16O和16P,eBE-S3的P<10-4)。此外,eBE还可抑制C到A/C到G的取代,eBE-S3诱导的C到T转换率比C到A/C到G的转换率显著增加(图16Q和16R,P<10-9)。值得注意的是,即使存在大量的游离UGI,nCas9融合的UGI结构域对于实现高保真的碱基编辑仍然非常重要。
接着,本实施例测试了在另一种细胞系HeLa中共同表达BE3和游离UGI的作用。与BE3相比,从单独的或相同的载体中共表达游离UGI均可诱导显著的更低的插入/缺失频率、更高的C到T转换的编辑频率、更高的C到T转换的编辑与插入/缺失的比率、以及更高的超过C到A/C到G转换率的C到T转换率。综上所述,这些结果表明我们增强的碱基编辑系统可以提高碱基编辑的效率和结果保真度,从而在单碱基水平上实现更准确的基因编辑。
综上所述,此实施例通过将BE3与游离UGI一起共表达,开发了一种增强的碱基编辑系统。增强的碱基编辑系统不仅抑制了不需要的插入/缺失的形成,而且还提高了C到T转换的编辑频率,从而提高了碱基编辑的保真度和效率。在诸如BE的治疗相关的应用等情况下,编辑的“纯度”是一种被追求的。因此,该发现提供了一种进一步改善BE以便得到纯度更高的编辑结果的方法。鉴于最近开发了利用具有改变的PAM的nCas9的新BE,因此这种增强的碱基编辑策略也可以用于提高这些新出现的BE的保真度和效率。
本发明的范围并不受所述旨在作为各个方面的单个说明的具体实施例的限制,并且在功能上等同的任何组合物或方法均在本发明的保护范围内。对本领域的技术人员来说显而易见的是,在不脱离本发明的精神或范围的情况下,可以对本发明的方法和组合物进行各种修改和变化。因此,落入本发明所附的权利要求及其等同物范围内的修改和变化均属于本发明保护范围。
本发明中提及的所有出版物和专利申请通过引用结合于此,其程度相当于每个单独的出版物或专利申请被具体地和单独地指示通过引用结合于此。
SEQUENCE LISTING
<110> 上海科技大学
<120> 用于提高碱基编辑精度的融合蛋白
<130> P20110519CP
<160> 17
<170> PatentIn version 3.5
<210> 1
<211> 229
<212> PRT
<213> Artificial Sequence
<220>
<223> 合成的
<400> 1
Met Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu Arg Arg
1 5 10 15
Arg Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg Glu Leu
20 25 30
Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly Arg His
35 40 45
Ser Ile Trp Arg His Thr Ser Gln Asn Thr Asn Lys His Val Glu Val
50 55 60
Asn Phe Ile Glu Lys Phe Thr Thr Glu Arg Tyr Phe Cys Pro Asn Thr
65 70 75 80
Arg Cys Ser Ile Thr Trp Phe Leu Ser Trp Ser Pro Cys Gly Glu Cys
85 90 95
Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg Tyr Pro His Val Thr Leu
100 105 110
Phe Ile Tyr Ile Ala Arg Leu Tyr His His Ala Asp Pro Arg Asn Arg
115 120 125
Gln Gly Leu Arg Asp Leu Ile Ser Ser Gly Val Thr Ile Gln Ile Met
130 135 140
Thr Glu Gln Glu Ser Gly Tyr Cys Trp Arg Asn Phe Val Asn Tyr Ser
145 150 155 160
Pro Ser Asn Glu Ala His Trp Pro Arg Tyr Pro His Leu Trp Val Arg
165 170 175
Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro Pro Cys
180 185 190
Leu Asn Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe Thr Ile
195 200 205
Ala Leu Gln Ser Cys His Tyr Gln Arg Leu Pro Pro His Ile Leu Trp
210 215 220
Ala Thr Gly Leu Lys
225
<210> 2
<211> 229
<212> PRT
<213> Artificial Sequence
<220>
<223> 合成的
<400> 2
Met Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu Arg Arg
1 5 10 15
Arg Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg Glu Leu
20 25 30
Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly Arg His
35 40 45
Ser Ile Trp Arg His Thr Ser Gln Asn Thr Asn Lys His Val Glu Val
50 55 60
Asn Phe Ile Glu Lys Phe Thr Thr Glu Arg Tyr Phe Cys Pro Asn Thr
65 70 75 80
Arg Cys Ser Ile Thr Trp Phe Leu Ser Tyr Ser Pro Cys Gly Glu Cys
85 90 95
Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg Tyr Pro His Val Thr Leu
100 105 110
Phe Ile Tyr Ile Ala Arg Leu Tyr His His Ala Asp Pro Glu Asn Arg
115 120 125
Gln Gly Leu Arg Asp Leu Ile Ser Ser Gly Val Thr Ile Gln Ile Met
130 135 140
Thr Glu Gln Glu Ser Gly Tyr Cys Trp Arg Asn Phe Val Asn Tyr Ser
145 150 155 160
Pro Ser Asn Glu Ala His Trp Pro Arg Tyr Pro His Leu Trp Val Arg
165 170 175
Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro Pro Cys
180 185 190
Leu Asn Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe Thr Ile
195 200 205
Ala Leu Gln Ser Cys His Tyr Gln Arg Leu Pro Pro His Ile Leu Trp
210 215 220
Ala Thr Gly Leu Lys
225
<210> 3
<211> 229
<212> PRT
<213> Artificial Sequence
<220>
<223> 合成的
<400> 3
Met Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu Arg Arg
1 5 10 15
Arg Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg Glu Leu
20 25 30
Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly Arg His
35 40 45
Ser Ile Trp Arg His Thr Ser Gln Asn Thr Asn Lys His Val Glu Val
50 55 60
Asn Phe Ile Glu Lys Phe Thr Thr Glu Arg Tyr Phe Cys Pro Asn Thr
65 70 75 80
Arg Cys Ser Ile Thr Trp Phe Leu Ser Tyr Ser Pro Cys Gly Glu Cys
85 90 95
Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg Tyr Pro His Val Thr Leu
100 105 110
Phe Ile Tyr Ile Ala Arg Leu Tyr His His Ala Asp Pro Glu Asn Arg
115 120 125
Gln Gly Leu Glu Asp Leu Ile Ser Ser Gly Val Thr Ile Gln Ile Met
130 135 140
Thr Glu Gln Glu Ser Gly Tyr Cys Trp Arg Asn Phe Val Asn Tyr Ser
145 150 155 160
Pro Ser Asn Glu Ala His Trp Pro Arg Tyr Pro His Leu Trp Val Arg
165 170 175
Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro Pro Cys
180 185 190
Leu Asn Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe Thr Ile
195 200 205
Ala Leu Gln Ser Cys His Tyr Gln Arg Leu Pro Pro His Ile Leu Trp
210 215 220
Ala Thr Gly Leu Lys
225
<210> 4
<211> 199
<212> PRT
<213> Artificial Sequence
<220>
<223> 合成的
<400> 4
Met Glu Ala Ser Pro Ala Ser Gly Pro Arg His Leu Met Asp Pro His
1 5 10 15
Ile Phe Thr Ser Asn Phe Asn Asn Gly Ile Gly Arg His Lys Thr Tyr
20 25 30
Leu Cys Tyr Glu Val Glu Arg Leu Asp Asn Gly Thr Ser Val Lys Met
35 40 45
Asp Gln His Arg Gly Phe Leu His Asn Gln Ala Lys Asn Leu Leu Cys
50 55 60
Gly Phe Tyr Gly Arg His Ala Glu Leu Arg Phe Leu Asp Leu Val Pro
65 70 75 80
Ser Leu Gln Leu Asp Pro Ala Gln Ile Tyr Arg Val Thr Trp Phe Ile
85 90 95
Ser Trp Ser Pro Cys Phe Ser Trp Gly Cys Ala Gly Glu Val Arg Ala
100 105 110
Phe Leu Gln Glu Asn Thr His Val Arg Leu Arg Ile Phe Ala Ala Arg
115 120 125
Ile Tyr Asp Tyr Asp Pro Leu Tyr Lys Glu Ala Leu Gln Met Leu Arg
130 135 140
Asp Ala Gly Ala Gln Val Ser Ile Met Thr Tyr Asp Glu Phe Lys His
145 150 155 160
Cys Trp Asp Thr Phe Val Asp His Gln Gly Cys Pro Phe Gln Pro Trp
165 170 175
Asp Gly Leu Asp Glu His Ser Gln Ala Leu Ser Gly Arg Leu Arg Ala
180 185 190
Ile Leu Gln Asn Gln Gly Asn
195
<210> 5
<211> 1237
<212> PRT
<213> Artificial Sequence
<220>
<223> 合成的
<400> 5
Met Ser Lys Leu Glu Lys Phe Thr Asn Cys Tyr Ser Leu Ser Lys Thr
1 5 10 15
Leu Arg Phe Lys Ala Ile Pro Val Gly Lys Thr Gln Glu Asn Ile Asp
20 25 30
Asn Lys Arg Leu Leu Val Glu Asp Glu Lys Arg Ala Glu Asp Tyr Lys
35 40 45
Gly Val Lys Lys Leu Leu Asp Arg Tyr Tyr Leu Ser Phe Ile Asn Asp
50 55 60
Val Leu His Ser Ile Lys Leu Lys Asn Leu Asn Asn Tyr Ile Ser Leu
65 70 75 80
Phe Arg Lys Lys Thr Arg Thr Glu Lys Glu Asn Lys Glu Leu Glu Asn
85 90 95
Leu Glu Ile Asn Leu Arg Lys Glu Ile Ala Lys Ala Phe Lys Gly Asn
100 105 110
Glu Gly Tyr Lys Ser Leu Phe Lys Lys Asp Ile Ile Glu Thr Ile Leu
115 120 125
Pro Glu Phe Leu Asp Asp Lys Asp Glu Ile Ala Leu Val Asn Ser Phe
130 135 140
Asn Gly Phe Thr Thr Ala Phe Thr Gly Phe Phe Asp Asn Arg Glu Asn
145 150 155 160
Met Phe Ser Glu Glu Ala Lys Ser Thr Ser Ile Ala Phe Arg Cys Ile
165 170 175
Asn Glu Asn Leu Thr Arg Tyr Ile Ser Asn Met Asp Ile Phe Glu Lys
180 185 190
Val Asp Ala Ile Phe Asp Lys His Glu Val Gln Glu Ile Lys Glu Lys
195 200 205
Ile Leu Asn Ser Asp Tyr Asp Val Glu Asp Phe Phe Glu Gly Glu Phe
210 215 220
Phe Asn Phe Val Leu Thr Gln Glu Gly Ile Asp Val Tyr Asn Ala Ile
225 230 235 240
Ile Gly Gly Phe Val Thr Glu Ser Gly Glu Lys Ile Lys Gly Leu Asn
245 250 255
Glu Tyr Ile Asn Leu Tyr Asn Gln Lys Thr Lys Gln Lys Leu Pro Lys
260 265 270
Phe Lys Pro Leu Tyr Lys Gln Val Leu Ser Asp Arg Glu Ser Leu Ser
275 280 285
Phe Tyr Gly Glu Gly Tyr Thr Ser Asp Glu Glu Val Leu Glu Val Phe
290 295 300
Arg Asn Thr Leu Asn Lys Asn Ser Glu Ile Phe Ser Ser Ile Lys Lys
305 310 315 320
Leu Glu Lys Leu Phe Lys Asn Phe Asp Glu Tyr Ser Ser Ala Gly Ile
325 330 335
Phe Val Lys Asn Gly Pro Ala Ile Ser Thr Ile Ser Lys Asp Ile Phe
340 345 350
Gly Glu Trp Asn Val Ile Arg Asp Lys Trp Asn Ala Glu Tyr Asp Asp
355 360 365
Ile His Leu Lys Lys Lys Ala Val Val Thr Glu Lys Tyr Glu Asp Asp
370 375 380
Arg Arg Lys Ser Phe Lys Lys Ile Gly Ser Phe Ser Leu Glu Gln Leu
385 390 395 400
Gln Glu Tyr Ala Asp Ala Asp Leu Ser Val Val Glu Lys Leu Lys Glu
405 410 415
Ile Ile Ile Gln Lys Val Asp Glu Ile Tyr Lys Val Tyr Gly Ser Ser
420 425 430
Glu Lys Leu Phe Asp Ala Asp Phe Val Leu Glu Lys Ser Leu Lys Lys
435 440 445
Asn Asp Ala Val Val Ala Ile Met Lys Asp Leu Leu Asp Ser Val Lys
450 455 460
Ser Phe Glu Asn Tyr Ile Lys Ala Phe Phe Gly Glu Gly Lys Glu Thr
465 470 475 480
Asn Arg Asp Glu Ser Phe Tyr Gly Asp Phe Val Leu Ala Tyr Asp Ile
485 490 495
Leu Leu Lys Val Asp His Ile Tyr Asp Ala Ile Arg Asn Tyr Val Thr
500 505 510
Gln Lys Pro Tyr Ser Lys Asp Lys Phe Lys Leu Tyr Phe Gln Asn Pro
515 520 525
Gln Phe Met Gly Gly Trp Asp Lys Asp Lys Glu Thr Asp Tyr Arg Ala
530 535 540
Thr Ile Leu Arg Tyr Gly Ser Lys Tyr Tyr Leu Ala Ile Met Asp Lys
545 550 555 560
Lys Tyr Ala Lys Cys Leu Gln Lys Ile Asp Lys Asp Asp Val Asn Gly
565 570 575
Asn Tyr Glu Lys Ile Asn Tyr Lys Leu Leu Pro Gly Pro Asn Lys Met
580 585 590
Leu Pro Lys Val Phe Phe Ser Lys Lys Trp Met Ala Tyr Tyr Asn Pro
595 600 605
Ser Glu Asp Ile Gln Lys Ile Tyr Lys Asn Gly Thr Phe Lys Lys Gly
610 615 620
Asp Met Phe Asn Leu Asn Asp Cys His Lys Leu Ile Asp Phe Phe Lys
625 630 635 640
Asp Ser Ile Ser Arg Tyr Pro Lys Trp Ser Asn Ala Tyr Asp Phe Asn
645 650 655
Phe Ser Glu Thr Glu Lys Tyr Lys Asp Ile Ala Gly Phe Tyr Arg Glu
660 665 670
Val Glu Glu Gln Gly Tyr Lys Val Ser Phe Glu Ser Ala Ser Lys Lys
675 680 685
Glu Val Asp Lys Leu Val Glu Glu Gly Lys Leu Tyr Met Phe Gln Ile
690 695 700
Tyr Asn Lys Asp Phe Ser Asp Lys Ser His Gly Thr Pro Asn Leu His
705 710 715 720
Thr Met Tyr Phe Lys Leu Leu Phe Asp Glu Asn Asn His Gly Gln Ile
725 730 735
Arg Leu Ser Gly Gly Ala Glu Leu Phe Met Arg Arg Ala Ser Leu Lys
740 745 750
Lys Glu Glu Leu Val Val His Pro Ala Asn Ser Pro Ile Ala Asn Lys
755 760 765
Asn Pro Asp Asn Pro Lys Lys Thr Thr Thr Leu Ser Tyr Asp Val Tyr
770 775 780
Lys Asp Lys Arg Phe Ser Glu Asp Gln Tyr Glu Leu His Ile Pro Ile
785 790 795 800
Ala Ile Asn Lys Cys Pro Lys Asn Ile Phe Lys Ile Asn Thr Glu Val
805 810 815
Arg Val Leu Leu Lys His Asp Asp Asn Pro Tyr Val Ile Gly Ile Ala
820 825 830
Arg Gly Glu Arg Asn Leu Leu Tyr Ile Val Val Val Asp Gly Lys Gly
835 840 845
Asn Ile Val Glu Gln Tyr Ser Leu Asn Glu Ile Ile Asn Asn Phe Asn
850 855 860
Gly Ile Arg Ile Lys Thr Asp Tyr His Ser Leu Leu Asp Lys Lys Glu
865 870 875 880
Lys Glu Arg Phe Glu Ala Arg Gln Asn Trp Thr Ser Ile Glu Asn Ile
885 890 895
Lys Glu Leu Lys Ala Gly Tyr Ile Ser Gln Val Val His Lys Ile Cys
900 905 910
Glu Leu Val Glu Lys Tyr Asp Ala Val Ile Ala Leu Ala Asp Leu Asn
915 920 925
Ser Gly Phe Lys Asn Ser Arg Val Lys Val Glu Lys Gln Val Tyr Gln
930 935 940
Lys Phe Glu Lys Met Leu Ile Asp Lys Leu Asn Tyr Met Val Asp Lys
945 950 955 960
Lys Ser Asn Pro Cys Ala Thr Gly Gly Ala Leu Lys Gly Tyr Gln Ile
965 970 975
Thr Asn Lys Phe Glu Ser Phe Lys Ser Met Ser Thr Gln Asn Gly Phe
980 985 990
Ile Phe Tyr Ile Pro Ala Trp Leu Thr Ser Lys Ile Asp Pro Ser Thr
995 1000 1005
Gly Phe Val Asn Leu Leu Lys Thr Lys Tyr Thr Ser Ile Ala Asp
1010 1015 1020
Ser Lys Lys Phe Ile Ser Ser Phe Asp Arg Ile Met Tyr Val Pro
1025 1030 1035
Glu Glu Asp Leu Phe Glu Phe Ala Leu Asp Tyr Lys Asn Phe Ser
1040 1045 1050
Arg Thr Asp Ala Asp Tyr Ile Lys Lys Trp Lys Leu Tyr Ser Tyr
1055 1060 1065
Gly Asn Arg Ile Arg Ile Phe Arg Asn Pro Lys Lys Asn Asn Val
1070 1075 1080
Phe Asp Trp Glu Glu Val Cys Leu Thr Ser Ala Tyr Lys Glu Leu
1085 1090 1095
Phe Asn Lys Tyr Gly Ile Asn Tyr Gln Gln Gly Asp Ile Arg Ala
1100 1105 1110
Leu Leu Cys Glu Gln Ser Asp Lys Ala Phe Tyr Ser Ser Phe Met
1115 1120 1125
Ala Leu Met Ser Leu Met Leu Gln Met Arg Asn Ser Ile Thr Gly
1130 1135 1140
Arg Thr Asp Val Ala Phe Leu Ile Ser Pro Val Lys Asn Ser Asp
1145 1150 1155
Gly Ile Phe Tyr Asp Ser Arg Asn Tyr Glu Ala Gln Glu Asn Ala
1160 1165 1170
Ile Leu Pro Lys Asn Ala Asp Ala Asn Gly Ala Tyr Asn Ile Ala
1175 1180 1185
Arg Lys Val Leu Trp Ala Ile Gly Gln Phe Lys Lys Ala Glu Asp
1190 1195 1200
Glu Lys Leu Asp Lys Val Lys Ile Ala Ile Ser Asn Lys Glu Trp
1205 1210 1215
Leu Glu Tyr Ala Gln Thr Ser Val Lys His Gly Ser Pro Lys Lys
1220 1225 1230
Lys Arg Lys Val
1235
<210> 6
<211> 1316
<212> PRT
<213> Artificial Sequence
<220>
<223> 合成的
<400> 6
Met Thr Gln Phe Glu Gly Phe Thr Asn Leu Tyr Gln Val Ser Lys Thr
1 5 10 15
Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Lys His Ile Gln
20 25 30
Glu Gln Gly Phe Ile Glu Glu Asp Lys Ala Arg Asn Asp His Tyr Lys
35 40 45
Glu Leu Lys Pro Ile Ile Asp Arg Ile Tyr Lys Thr Tyr Ala Asp Gln
50 55 60
Cys Leu Gln Leu Val Gln Leu Asp Trp Glu Asn Leu Ser Ala Ala Ile
65 70 75 80
Asp Ser Tyr Arg Lys Glu Lys Thr Glu Glu Thr Arg Asn Ala Leu Ile
85 90 95
Glu Glu Gln Ala Thr Tyr Arg Asn Ala Ile His Asp Tyr Phe Ile Gly
100 105 110
Arg Thr Asp Asn Leu Thr Asp Ala Ile Asn Lys Arg His Ala Glu Ile
115 120 125
Tyr Lys Gly Leu Phe Lys Ala Glu Leu Phe Asn Gly Lys Val Leu Lys
130 135 140
Gln Leu Gly Thr Val Thr Thr Thr Glu His Glu Asn Ala Leu Leu Arg
145 150 155 160
Ser Phe Asp Lys Phe Thr Thr Tyr Phe Ser Gly Phe Tyr Glu Asn Arg
165 170 175
Lys Asn Val Phe Ser Ala Glu Asp Ile Ser Thr Ala Ile Pro His Arg
180 185 190
Ile Val Gln Asp Asn Phe Pro Lys Phe Lys Glu Asn Cys His Ile Phe
195 200 205
Thr Arg Leu Ile Thr Ala Val Pro Ser Leu Arg Glu His Phe Glu Asn
210 215 220
Val Lys Lys Ala Ile Gly Ile Phe Val Ser Thr Ser Ile Glu Glu Val
225 230 235 240
Phe Ser Phe Pro Phe Tyr Asn Gln Leu Leu Thr Gln Thr Gln Ile Asp
245 250 255
Leu Tyr Asn Gln Leu Leu Gly Gly Ile Ser Arg Glu Ala Gly Thr Glu
260 265 270
Lys Ile Lys Gly Leu Asn Glu Val Leu Asn Leu Ala Ile Gln Lys Asn
275 280 285
Asp Glu Thr Ala His Ile Ile Ala Ser Leu Pro His Arg Phe Ile Pro
290 295 300
Leu Phe Lys Gln Ile Leu Ser Asp Arg Asn Thr Leu Ser Phe Ile Leu
305 310 315 320
Glu Glu Phe Lys Ser Asp Glu Glu Val Ile Gln Ser Phe Cys Lys Tyr
325 330 335
Lys Thr Leu Leu Arg Asn Glu Asn Val Leu Glu Thr Ala Glu Ala Leu
340 345 350
Phe Asn Glu Leu Asn Ser Ile Asp Leu Thr His Ile Phe Ile Ser His
355 360 365
Lys Lys Leu Glu Thr Ile Ser Ser Ala Leu Cys Asp His Trp Asp Thr
370 375 380
Leu Arg Asn Ala Leu Tyr Glu Arg Arg Ile Ser Glu Leu Thr Gly Lys
385 390 395 400
Ile Thr Lys Ser Ala Lys Glu Lys Val Gln Arg Ser Leu Lys His Glu
405 410 415
Asp Ile Asn Leu Gln Glu Ile Ile Ser Ala Ala Gly Lys Glu Leu Ser
420 425 430
Glu Ala Phe Lys Gln Lys Thr Ser Glu Ile Leu Ser His Ala His Ala
435 440 445
Ala Leu Asp Gln Pro Leu Pro Thr Thr Leu Lys Lys Gln Glu Glu Lys
450 455 460
Glu Ile Leu Lys Ser Gln Leu Asp Ser Leu Leu Gly Leu Tyr His Leu
465 470 475 480
Leu Asp Trp Phe Ala Val Asp Glu Ser Asn Glu Val Asp Pro Glu Phe
485 490 495
Ser Ala Arg Leu Thr Gly Ile Lys Leu Glu Met Glu Pro Ser Leu Ser
500 505 510
Phe Tyr Asn Lys Ala Arg Asn Tyr Ala Thr Lys Lys Pro Tyr Ser Val
515 520 525
Glu Lys Phe Lys Leu Asn Phe Gln Met Pro Thr Leu Ala Ser Gly Trp
530 535 540
Asp Val Asn Lys Glu Lys Asn Asn Gly Ala Ile Leu Phe Val Lys Asn
545 550 555 560
Gly Leu Tyr Tyr Leu Gly Ile Met Pro Lys Gln Lys Gly Arg Tyr Lys
565 570 575
Ala Leu Ser Phe Glu Pro Thr Glu Lys Thr Ser Glu Gly Phe Asp Lys
580 585 590
Met Tyr Tyr Asp Tyr Phe Pro Asp Ala Ala Lys Met Ile Pro Lys Cys
595 600 605
Ser Thr Gln Leu Lys Ala Val Thr Ala His Phe Gln Thr His Thr Thr
610 615 620
Pro Ile Leu Leu Ser Asn Asn Phe Ile Glu Pro Leu Glu Ile Thr Lys
625 630 635 640
Glu Ile Tyr Asp Leu Asn Asn Pro Glu Lys Glu Pro Lys Lys Phe Gln
645 650 655
Thr Ala Tyr Ala Lys Lys Thr Gly Asp Gln Lys Gly Tyr Arg Glu Ala
660 665 670
Leu Cys Lys Trp Ile Asp Phe Thr Arg Asp Phe Leu Ser Lys Tyr Thr
675 680 685
Lys Thr Thr Ser Ile Asp Leu Ser Ser Leu Arg Pro Ser Ser Gln Tyr
690 695 700
Lys Asp Leu Gly Glu Tyr Tyr Ala Glu Leu Asn Pro Leu Leu Tyr His
705 710 715 720
Ile Ser Phe Gln Arg Ile Ala Glu Lys Glu Ile Met Asp Ala Val Glu
725 730 735
Thr Gly Lys Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ala Lys
740 745 750
Gly His His Gly Lys Pro Asn Leu His Thr Leu Tyr Trp Thr Gly Leu
755 760 765
Phe Ser Pro Glu Asn Leu Ala Lys Thr Ser Ile Lys Leu Asn Gly Gln
770 775 780
Ala Glu Leu Phe Tyr Arg Pro Lys Ser Arg Met Lys Arg Met Ala His
785 790 795 800
Arg Leu Gly Glu Lys Met Leu Asn Lys Lys Leu Lys Asp Gln Lys Thr
805 810 815
Pro Ile Pro Asp Thr Leu Tyr Gln Glu Leu Tyr Asp Tyr Val Asn His
820 825 830
Arg Leu Ser His Asp Leu Ser Asp Glu Ala Arg Ala Leu Leu Pro Asn
835 840 845
Val Ile Thr Lys Glu Val Ser His Glu Ile Ile Lys Asp Arg Arg Phe
850 855 860
Thr Ser Asp Lys Phe Phe Phe His Val Pro Ile Thr Leu Asn Tyr Gln
865 870 875 880
Ala Ala Asn Ser Pro Ser Lys Phe Asn Gln Arg Val Asn Ala Tyr Leu
885 890 895
Lys Glu His Pro Glu Thr Pro Ile Ile Gly Ile Ala Arg Gly Glu Arg
900 905 910
Asn Leu Ile Tyr Ile Thr Val Ile Asp Ser Thr Gly Lys Ile Leu Glu
915 920 925
Gln Arg Ser Leu Asn Thr Ile Gln Gln Phe Asp Tyr Gln Lys Lys Leu
930 935 940
Asp Asn Arg Glu Lys Glu Arg Val Ala Ala Arg Gln Ala Trp Ser Val
945 950 955 960
Val Gly Thr Ile Lys Asp Leu Lys Gln Gly Tyr Leu Ser Gln Val Ile
965 970 975
His Glu Ile Val Asp Leu Met Ile His Tyr Gln Ala Val Val Val Leu
980 985 990
Ala Asn Leu Asn Phe Gly Phe Lys Ser Lys Arg Thr Gly Ile Ala Glu
995 1000 1005
Lys Ala Val Tyr Gln Gln Phe Glu Lys Met Leu Ile Asp Lys Leu
1010 1015 1020
Asn Cys Leu Val Leu Lys Asp Tyr Pro Ala Glu Lys Val Gly Gly
1025 1030 1035
Val Leu Asn Pro Tyr Gln Leu Thr Asp Gln Phe Thr Ser Phe Ala
1040 1045 1050
Lys Met Gly Thr Gln Ser Gly Phe Leu Phe Tyr Val Pro Ala Pro
1055 1060 1065
Tyr Thr Ser Lys Ile Asp Pro Leu Thr Gly Phe Val Asp Pro Phe
1070 1075 1080
Val Trp Lys Thr Ile Lys Asn His Glu Ser Arg Lys His Phe Leu
1085 1090 1095
Glu Gly Phe Asp Phe Leu His Tyr Asp Val Lys Thr Gly Asp Phe
1100 1105 1110
Ile Leu His Phe Lys Met Asn Arg Asn Leu Ser Phe Gln Arg Gly
1115 1120 1125
Leu Pro Gly Phe Met Pro Ala Trp Asp Ile Val Phe Glu Lys Asn
1130 1135 1140
Glu Thr Gln Phe Asp Ala Lys Gly Thr Pro Phe Ile Ala Gly Lys
1145 1150 1155
Arg Ile Val Pro Val Ile Glu Asn His Arg Phe Thr Gly Arg Tyr
1160 1165 1170
Arg Asp Leu Tyr Pro Ala Asn Glu Leu Ile Ala Leu Leu Glu Glu
1175 1180 1185
Lys Gly Ile Val Phe Arg Asp Gly Ser Asn Ile Leu Pro Lys Leu
1190 1195 1200
Leu Glu Asn Asp Asp Ser His Ala Ile Asp Thr Met Val Ala Leu
1205 1210 1215
Ile Arg Ser Val Leu Gln Met Arg Asn Ser Asn Ala Ala Thr Gly
1220 1225 1230
Glu Ala Tyr Ile Asn Ser Pro Val Arg Asp Leu Asn Gly Val Cys
1235 1240 1245
Phe Asp Ser Arg Phe Gln Asn Pro Glu Trp Pro Met Asp Ala Asp
1250 1255 1260
Ala Asn Gly Ala Tyr His Ile Ala Leu Lys Gly Gln Leu Leu Leu
1265 1270 1275
Asn His Leu Lys Glu Ser Lys Asp Leu Lys Leu Gln Asn Gly Ile
1280 1285 1290
Ser Asn Gln Asp Trp Leu Ala Tyr Ile Gln Glu Leu Arg Asn Gly
1295 1300 1305
Ser Pro Lys Lys Lys Arg Lys Val
1310 1315
<210> 7
<211> 7
<212> PRT
<213> Artificial Sequence
<220>
<223> 合成的
<400> 7
Pro Lys Lys Lys Arg Lys Val
1 5
<210> 8
<211> 83
<212> PRT
<213> Artificial Sequence
<220>
<223> 合成的
<400> 8
Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu Val
1 5 10 15
Ile Gln Glu Ser Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val Ile
20 25 30
Gly Asn Lys Pro Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp Glu
35 40 45
Ser Thr Asp Glu Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu Tyr
50 55 60
Lys Pro Trp Ala Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys Ile
65 70 75 80
Lys Met Leu
<210> 9
<211> 22
<212> PRT
<213> Artificial Sequence
<220>
<223> 合成的
<400> 9
Gly Ser Gly Ala Thr Asn Phe Ser Leu Leu Lys Gln Ala Gly Asp Val
1 5 10 15
Glu Glu Asn Pro Gly Pro
20
<210> 10
<211> 23
<212> PRT
<213> Artificial Sequence
<220>
<223> 合成的
<400> 10
Gly Ser Gly Gln Cys Thr Asn Tyr Ala Leu Leu Lys Leu Ala Gly Asp
1 5 10 15
Val Glu Ser Asn Pro Gly Pro
20
<210> 11
<211> 23
<212> PRT
<213> Artificial Sequence
<220>
<223> 合成的
<400> 11
Gly Ser Gly Gln Cys Thr Asn Tyr Ala Leu Leu Lys Leu Ala Gly Asp
1 5 10 15
Val Glu Ser Asn Pro Gly Pro
20
<210> 12
<211> 199
<212> PRT
<213> Artificial Sequence
<220>
<223> 合成的
<400> 12
Met Glu Ala Ser Pro Ala Ser Gly Pro Arg His Leu Met Asp Pro His
1 5 10 15
Ile Phe Thr Ser Asn Phe Asn Asn Gly Ile Gly Arg His Lys Thr Tyr
20 25 30
Leu Cys Tyr Glu Val Glu Arg Leu Asp Asn Gly Thr Ser Val Lys Met
35 40 45
Asp Gln His Arg Gly Phe Leu His Asn Gln Ala Lys Asn Leu Leu Cys
50 55 60
Gly Phe Tyr Gly Arg His Ala Glu Leu Arg Phe Leu Asp Leu Val Pro
65 70 75 80
Ser Leu Gln Leu Asp Pro Ala Gln Ile Tyr Arg Val Thr Trp Phe Ile
85 90 95
Ser Trp Ser Pro Cys Phe Ser Trp Gly Cys Ala Gly Glu Val Arg Ala
100 105 110
Phe Leu Gln Glu Asn Thr His Val Arg Leu Arg Ile Phe Ala Ala Arg
115 120 125
Ile Phe Asp Tyr Asp Pro Leu Tyr Lys Glu Ala Leu Gln Met Leu Arg
130 135 140
Asp Ala Gly Ala Gln Val Ser Ile Met Thr Tyr Asp Glu Phe Lys His
145 150 155 160
Cys Trp Asp Thr Phe Val Asp His Gln Gly Cys Pro Phe Gln Pro Trp
165 170 175
Asp Gly Leu Asp Glu His Ser Gln Ala Leu Ser Gly Arg Leu Arg Ala
180 185 190
Ile Leu Gln Asn Gln Gly Asn
195
<210> 13
<211> 199
<212> PRT
<213> Artificial Sequence
<220>
<223> 合成的
<400> 13
Met Glu Ala Ser Pro Ala Ser Gly Pro Arg His Leu Met Asp Pro His
1 5 10 15
Ile Phe Thr Ser Asn Phe Asn Asn Gly Ile Gly Arg His Lys Thr Tyr
20 25 30
Leu Cys Tyr Glu Val Glu Arg Leu Asp Asn Gly Thr Ser Val Lys Met
35 40 45
Asp Gln His Arg Gly Phe Leu His Asn Gln Ala Lys Asn Leu Leu Cys
50 55 60
Gly Phe Tyr Gly Arg His Ala Glu Leu Arg Phe Leu Asp Leu Val Pro
65 70 75 80
Ser Leu Gln Leu Asp Pro Ala Gln Ile Tyr Arg Val Thr Trp Phe Ile
85 90 95
Ser Trp Ser Pro Cys Phe Ser Trp Gly Cys Ala Gly Glu Val Arg Ala
100 105 110
Phe Leu Gln Glu Asn Thr His Val Arg Leu Arg Ile Phe Ala Ala Arg
115 120 125
Ile Tyr Asp Asp Asp Pro Leu Tyr Lys Glu Ala Leu Gln Met Leu Arg
130 135 140
Asp Ala Gly Ala Gln Val Ser Ile Met Thr Tyr Asp Glu Phe Lys His
145 150 155 160
Cys Trp Asp Thr Phe Val Asp His Gln Gly Cys Pro Phe Gln Pro Trp
165 170 175
Asp Gly Leu Asp Glu His Ser Gln Ala Leu Ser Gly Arg Leu Arg Ala
180 185 190
Ile Leu Gln Asn Gln Gly Asn
195
<210> 14
<211> 199
<212> PRT
<213> Artificial Sequence
<220>
<223> 合成的
<400> 14
Met Glu Ala Ser Pro Ala Ser Gly Pro Arg His Leu Met Asp Pro His
1 5 10 15
Ile Phe Thr Ser Asn Phe Asn Asn Gly Ile Gly Arg His Lys Thr Tyr
20 25 30
Leu Cys Tyr Glu Val Glu Arg Leu Asp Asn Gly Thr Ser Val Lys Met
35 40 45
Asp Gln His Arg Gly Phe Leu His Asn Gln Ala Lys Asn Leu Leu Cys
50 55 60
Gly Phe Tyr Gly Arg His Ala Glu Leu Arg Phe Leu Asp Leu Val Pro
65 70 75 80
Ser Leu Gln Leu Asp Pro Ala Gln Ile Tyr Arg Val Thr Trp Phe Ile
85 90 95
Ser Trp Ser Pro Cys Phe Ser Ala Gly Cys Ala Gly Glu Val Arg Ala
100 105 110
Phe Leu Gln Glu Asn Thr His Val Arg Leu Arg Ile Phe Ala Ala Arg
115 120 125
Ile Tyr Asp Tyr Asp Pro Leu Tyr Lys Glu Ala Leu Gln Met Leu Arg
130 135 140
Asp Ala Gly Ala Gln Val Ser Ile Met Thr Tyr Asp Glu Phe Lys His
145 150 155 160
Cys Trp Asp Thr Phe Val Asp His Gln Gly Cys Pro Phe Gln Pro Trp
165 170 175
Asp Gly Leu Asp Glu His Ser Gln Ala Leu Ser Gly Arg Leu Arg Ala
180 185 190
Ile Leu Gln Asn Gln Gly Asn
195
<210> 15
<211> 199
<212> PRT
<213> Artificial Sequence
<220>
<223> 合成的
<400> 15
Met Glu Ala Ser Pro Ala Ser Gly Pro Arg His Leu Met Asp Pro His
1 5 10 15
Ile Phe Thr Ser Asn Phe Asn Asn Gly Ile Gly Arg His Lys Thr Tyr
20 25 30
Leu Cys Tyr Glu Val Glu Arg Leu Asp Asn Gly Thr Ser Val Lys Met
35 40 45
Asp Gln His Arg Gly Phe Leu His Asn Gln Ala Lys Asn Leu Leu Cys
50 55 60
Gly Phe Tyr Gly Arg His Ala Glu Leu Arg Phe Leu Asp Leu Val Pro
65 70 75 80
Ser Leu Gln Leu Asp Pro Ala Gln Ile Tyr Arg Val Thr Trp Phe Ile
85 90 95
Ser Trp Ser Pro Cys Phe Ser Trp Gly Cys Ala Gly Glu Val Arg Ala
100 105 110
Phe Leu Gln Glu Asn Thr His Val Arg Leu Arg Ile Phe Ala Ala Arg
115 120 125
Ile Tyr Tyr Tyr Asp Pro Leu Tyr Lys Glu Ala Leu Gln Met Leu Arg
130 135 140
Asp Ala Gly Ala Gln Val Ser Ile Met Thr Tyr Asp Glu Phe Lys His
145 150 155 160
Cys Trp Asp Thr Phe Val Asp His Gln Gly Cys Pro Phe Gln Pro Trp
165 170 175
Asp Gly Leu Asp Glu His Ser Gln Ala Leu Ser Gly Arg Leu Arg Ala
180 185 190
Ile Leu Gln Asn Gln Gly Asn
195
<210> 16
<211> 199
<212> PRT
<213> Artificial Sequence
<220>
<223> 合成的
<400> 16
Met Glu Ala Ser Pro Ala Ser Gly Pro Arg His Leu Met Asp Pro His
1 5 10 15
Ile Phe Thr Ser Asn Phe Asn Asn Gly Ile Gly Arg His Lys Thr Tyr
20 25 30
Leu Cys Tyr Glu Val Glu Arg Leu Asp Asn Gly Thr Ser Val Lys Met
35 40 45
Asp Gln His Arg Gly Phe Leu His Asn Gln Ala Lys Asn Leu Leu Cys
50 55 60
Gly Phe Tyr Gly Arg His Ala Glu Leu Arg Phe Leu Asp Leu Val Pro
65 70 75 80
Ser Leu Gln Leu Asp Pro Ala Gln Ile Tyr Arg Val Thr Trp Phe Ile
85 90 95
Ser Trp Ser Pro Cys Phe Ser Trp Gly Cys Ala Gly Glu Val Arg Ala
100 105 110
Phe Leu Gln Glu Asn Thr His Val Arg Leu Arg Ile Phe Ala Ala Arg
115 120 125
Ile Phe Glu Asp Asp Pro Leu Tyr Lys Glu Ala Leu Gln Met Leu Arg
130 135 140
Asp Ala Gly Ala Gln Val Ser Ile Met Thr Tyr Asp Glu Phe Lys His
145 150 155 160
Cys Trp Asp Thr Phe Val Asp His Gln Gly Cys Pro Phe Gln Pro Trp
165 170 175
Asp Gly Leu Asp Glu His Ser Gln Ala Leu Ser Gly Arg Leu Arg Ala
180 185 190
Ile Leu Gln Asn Gln Gly Asn
195
<210> 17
<211> 199
<212> PRT
<213> Artificial Sequence
<220>
<223> 合成的
<400> 17
Met Glu Ala Ser Pro Ala Ser Gly Pro Arg His Leu Met Asp Pro His
1 5 10 15
Ile Phe Thr Ser Asn Phe Asn Asn Gly Ile Gly Arg His Lys Thr Tyr
20 25 30
Leu Cys Tyr Glu Val Glu Arg Leu Asp Asn Gly Thr Ser Val Lys Met
35 40 45
Asp Gln His Arg Gly Phe Leu His Asn Gln Ala Lys Asn Leu Leu Cys
50 55 60
Gly Phe Tyr Gly Arg His Ala Glu Leu Arg Phe Leu Asp Leu Val Pro
65 70 75 80
Ser Leu Gln Leu Asp Pro Ala Gln Ile Tyr Arg Val Thr Trp Phe Ile
85 90 95
Ser Trp Ser Pro Cys Phe Ser Trp Gly Cys Ala Gly Glu Val Arg Ala
100 105 110
Phe Leu Gln Glu Asn Thr His Val Arg Leu Arg Ile Phe Ala Ala Arg
115 120 125
Ile Phe Tyr Asp Asp Pro Leu Tyr Lys Glu Ala Leu Gln Met Leu Arg
130 135 140
Asp Ala Gly Ala Gln Val Ser Ile Met Thr Tyr Asp Glu Phe Lys His
145 150 155 160
Cys Trp Asp Thr Phe Val Asp His Gln Gly Cys Pro Phe Gln Pro Trp
165 170 175
Asp Gly Leu Asp Glu His Ser Gln Ala Leu Ser Gly Arg Leu Arg Ala
180 185 190
Ile Leu Gln Asn Gln Gly Asn
195

Claims (32)

1.一种融合蛋白,其包含第一片段和第二片段,所述第一片段包含胞苷脱氨酶,所述第二片段包含无催化活性的毛螺旋菌(Lachnospiraceae bacterium)Cpf1(dLbCpf1)。
2.如权利要求1所述的融合蛋白,其特征在于,所述胞苷脱氨酶为载脂蛋白B mRNA编辑酶催化多肽样(APOBEC)蛋白。
3.如权利要求2所述的融合蛋白,其特征在于,所述APOBEC蛋白选自由APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4和活化诱导的(胞苷)脱氨酶组成的群组。
4.如权利要求3所述的融合蛋白,其特征在于,所述APOBEC蛋白是APOBEC1。
5.如权利要求4所述的融合蛋白,其特征在于,所述APOBEC1蛋白包含突变W90Y或R126E,或其组合。
6.如权利要求3所述的融合蛋白,其特征在于,所述APOBEC蛋白是APOBEC3A。
7.如权利要求1-6中任一项所述的融合蛋白,其进一步包含一个或多个尿嘧啶DNA糖基化酶抑制剂(UGI)。
8.如权利要求7所述的融合蛋白,其包含至少两个UGI。
9.如权利要求8所述的融合蛋白,其特征在于,至少一个UGI通过蛋白酶切割位点与所述第一片段和所述第二片段分开。
10.如权利要求9所述的融合蛋白,其特征在于,所述蛋白酶切割位点为自剪切肽。
11.如权利要求1-10中任一项所述的融合蛋白,其进一步包含一个或多个核定位序列(NLS)。
12.如权利要求11所述的融合蛋白,其特征在于,至少一个iNLS位于所述第二片段和第一UGI之间。
13.如权利要求11所述的融合蛋白,其特征在于,至少两个iNLS位于所述第二片段和第一UGI之间。
14.如权利要求11-13中任一项所述的融合蛋白,其特征在于,至少一个NLS位于所述第一片段和所述第二片段的N末端。
15.如权利要求11-14中任一项所述的融合蛋白,其特征在于,至少一个NLS位于所述第一片段和所述第二片段的C末端。
16.如权利要求1所述的融合蛋白,从N末端到C末端,其包含:第一NLS、所述第一片段、所述第二片段、第二NLS、第一UGI、第三NLS、自剪切肽和第二UGI。
17.如权利要求16所述的融合蛋白,其进一步包含第四NLS,所述第四NLS在所述第二片段和所述第一UGI之间。
18.如权利要求17所述的融合蛋白,其进一步包含第二自剪切肽和第三UGI,所述第二自剪切肽位于所述第二UGI的N末端。
19.一种编辑样品核酸序列上的胞嘧啶的方法,其包括使所述样品与合适的指导RNA和如权利要求1-18中任一项所述的融合蛋白或编码所述融合蛋白的多核苷酸接触。
20.如权利要求19所述的方法,其特征在于,所述胞嘧啶位于所述核酸序列上从前间区序列邻近基序(PAM)序列3’端计的第6位和第22位核苷酸之间。
21.如权利要求20所述的方法,其特征在于,所述胞苷脱氨酶是APOBEC3。
22.如权利要求19所述的方法,其特征在于,所述胞嘧啶位于所述核酸序列上从前间区序列邻近基序(PAM)序列3’端计的第8位和第13位核苷酸之间。
23.如权利要求22所述的方法,其特征在于,所述胞苷脱氨酶是APOBEC1蛋白。
24.如权利要求22所述的方法,其特征在于,所述胞嘧啶位于所述PAM序列从3’端计的第10位和第12位核苷酸之间。
25.如权利要求24所述的方法,其特征在于,所述胞苷脱氨酶是包含W90Y或R126E突变,或其组合的APOBEC1蛋白。
26.如权利要求19-25中任一项所述的方法,其特征在于,所述PAM序列是富含T的PAM序列。
27.如权利要求19-26中任一项所述的方法,其进一步包括使所述样品与未融合至Cas蛋白的UGI或编码所述UGI的多核苷酸接触。
28.一种融合蛋白,其包括:含有胞苷脱氨酶的第一片段,含有Cas蛋白的第二片段,以及通过蛋白酶切割位点与所述第一片段和所述第二片段分开的尿嘧啶DNA糖基化酶抑制剂(UGI)。
29.如权利要求28所述的融合蛋白,其特征在于,所述蛋白酶切割位点是自剪切肽。
30.如权利要求28或29所述的融合蛋白,其进一步包含通过第二蛋白酶切割位点与所述第一片段和所述第二片段分开的第二UGI。
31.如权利要求30所述的融合蛋白,其还包含通过第三蛋白酶切割位点与所述第二UGI分开的第三UGI。
32.如权利要求28-31中任一项所述的融合蛋白,其特征在于,所述Cas蛋白是Cas9或Cpf1。
CN201880056915.0A 2017-09-01 2018-08-28 用于提高碱基编辑精度的融合蛋白 Active CN111065647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410663572.1A CN118420784A (zh) 2017-09-01 2018-08-28 用于提高碱基编辑精度的融合蛋白

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/CN2017/100131 WO2019041296A1 (zh) 2017-09-01 2017-09-01 一种碱基编辑系统及方法
CNPCT/CN2017/100131 2017-09-01
PCT/CN2018/102750 WO2019042284A1 (en) 2017-09-01 2018-08-28 FUSION PROTEINS FOR ENHANCED PRECISION IN THE BASIC EDITION

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202410663572.1A Division CN118420784A (zh) 2017-09-01 2018-08-28 用于提高碱基编辑精度的融合蛋白

Publications (2)

Publication Number Publication Date
CN111065647A true CN111065647A (zh) 2020-04-24
CN111065647B CN111065647B (zh) 2024-06-11

Family

ID=65525851

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202410663572.1A Pending CN118420784A (zh) 2017-09-01 2018-08-28 用于提高碱基编辑精度的融合蛋白
CN201880056915.0A Active CN111065647B (zh) 2017-09-01 2018-08-28 用于提高碱基编辑精度的融合蛋白

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202410663572.1A Pending CN118420784A (zh) 2017-09-01 2018-08-28 用于提高碱基编辑精度的融合蛋白

Country Status (4)

Country Link
US (1) US20200354729A1 (zh)
EP (1) EP3676287A4 (zh)
CN (2) CN118420784A (zh)
WO (2) WO2019041296A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111394337A (zh) * 2019-11-15 2020-07-10 武汉大学 II类V型CRISPR蛋白Lb2Cas12a及其在基因编辑的应用
CN112266420A (zh) * 2020-10-30 2021-01-26 华南农业大学 一种植物高效胞嘧啶单碱基编辑器及其构建与应用
CN113717961A (zh) * 2021-09-10 2021-11-30 四川大学 一种融合蛋白及其多核苷酸、碱基编辑器及其在药物制备中的应用
CN114836459A (zh) * 2022-03-17 2022-08-02 江南大学 一种胞嘧啶碱基编辑系统及其应用

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11946040B2 (en) 2019-02-04 2024-04-02 The General Hospital Corporation Adenine DNA base editor variants with reduced off-target RNA editing
CN110804628B (zh) * 2019-02-28 2023-05-12 中国科学院脑科学与智能技术卓越创新中心 高特异性无脱靶单碱基基因编辑工具
CN110117621B (zh) * 2019-05-24 2021-07-16 青岛农业大学 一种碱基编辑器及其制备方法和应用
CN112048497B (zh) * 2019-06-06 2023-11-03 辉大(上海)生物科技有限公司 一种新型的单碱基编辑技术及其应用
EP3987021A4 (en) * 2019-07-19 2024-05-15 Pairwise Plants Services, Inc. OPTIMIZED PROTEIN LINKERS AND METHODS OF USE
US20220411777A1 (en) * 2019-08-30 2022-12-29 The General Hospital Corporation C-to-G Transversion DNA Base Editors
WO2021056302A1 (en) * 2019-09-26 2021-04-01 Syngenta Crop Protection Ag Methods and compositions for dna base editing
GB2605514A (en) * 2019-10-11 2022-10-05 Univ Leland Stanford Junior Recombinant polypeptides for regulatable cellular localization
CN114867852A (zh) * 2019-10-30 2022-08-05 成对植物服务股份有限公司 V型crispr-cas碱基编辑器及其使用方法
CN110964741B (zh) * 2019-12-20 2022-03-01 北京市农林科学院 一种核定位信号fnb及其在提高碱基编辑效率中的应用
WO2021155607A1 (zh) * 2020-02-07 2021-08-12 辉大(上海)生物科技有限公司 经改造的胞嘧啶碱基编辑器及其应用
US20230313234A1 (en) * 2020-03-04 2023-10-05 Suzhou Qi Biodesign Biotechnology Company Limited Improved cytosine base editing system
IL297761A (en) 2020-05-08 2022-12-01 Broad Inst Inc Methods and compositions for simultaneously editing two helices of a designated double-helix nucleotide sequence
CN114058607B (zh) * 2020-07-31 2024-02-27 上海科技大学 一种用于c到u碱基编辑的融合蛋白及其制备方法和应用
IT202000028688A1 (it) 2020-11-27 2022-05-27 Consiglio Nazionale Ricerche Varianti della citidina deaminasi per l’editazione di basi
KR20230129996A (ko) * 2020-12-11 2023-09-11 인텔리아 테라퓨틱스, 인크. 탈아미노화를 포함하는 게놈 편집을 위한 폴리뉴클레오타이드,조성물 및 방법
CN113073094B (zh) * 2021-03-29 2023-03-28 中山大学 基于胞苷脱氨酶LjCDA1L1_4a及其突变体的单碱基突变系统
WO2023196572A1 (en) * 2022-04-07 2023-10-12 Illumina Singapore Pte. Ltd. Altered cytidine deaminases and methods of use
WO2024040083A1 (en) * 2022-08-16 2024-02-22 The Broad Institute, Inc. Evolved cytosine deaminases and methods of editing dna using same

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017037304A2 (en) * 2016-07-28 2017-03-09 Dsm Ip Assets B.V. An assembly system for a eukaryotic cell
WO2017070632A2 (en) * 2015-10-23 2017-04-27 President And Fellows Of Harvard College Nucleobase editors and uses thereof
WO2017096328A1 (en) * 2015-12-04 2017-06-08 Caribou Biosciences, Inc. Engineered nucleic-acid targeting nucleic acids
CN106916852A (zh) * 2017-04-13 2017-07-04 上海科技大学 一种碱基编辑系统及其构建和应用方法
CN110799525A (zh) * 2017-04-21 2020-02-14 通用医疗公司 具有改变的PAM特异性的CPF1(CAS12a)的变体

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150166982A1 (en) * 2013-12-12 2015-06-18 President And Fellows Of Harvard College Methods for correcting pi3k point mutations
WO2017015015A1 (en) * 2015-07-17 2017-01-26 Emory University Crispr-associated protein from francisella and uses related thereto
US9896696B2 (en) * 2016-02-15 2018-02-20 Benson Hill Biosystems, Inc. Compositions and methods for modifying genomes
EP3445848A1 (en) * 2016-04-19 2019-02-27 The Broad Institute, Inc. Novel crispr enzymes and systems
CN105907785B (zh) * 2016-05-05 2020-02-07 苏州吉玛基因股份有限公司 化学合成的crRNA用于CRISPR/Cpf1系统在基因编辑中的应用
WO2018010516A1 (zh) * 2016-07-13 2018-01-18 陈奇涵 一种基因组dna特异性编辑方法和应用
CN106282228A (zh) * 2016-08-19 2017-01-04 苏州兰希亚生物科技有限公司 一种基因点突变修复的方法
US11542509B2 (en) * 2016-08-24 2023-01-03 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
WO2018119359A1 (en) * 2016-12-23 2018-06-28 President And Fellows Of Harvard College Editing of ccr5 receptor gene to protect against hiv infection
WO2019161783A1 (en) * 2018-02-23 2019-08-29 Shanghaitech University Fusion proteins for base editing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017070632A2 (en) * 2015-10-23 2017-04-27 President And Fellows Of Harvard College Nucleobase editors and uses thereof
WO2017070633A2 (en) * 2015-10-23 2017-04-27 President And Fellows Of Harvard College Evolved cas9 proteins for gene editing
WO2017096328A1 (en) * 2015-12-04 2017-06-08 Caribou Biosciences, Inc. Engineered nucleic-acid targeting nucleic acids
WO2017037304A2 (en) * 2016-07-28 2017-03-09 Dsm Ip Assets B.V. An assembly system for a eukaryotic cell
CN106916852A (zh) * 2017-04-13 2017-07-04 上海科技大学 一种碱基编辑系统及其构建和应用方法
CN110799525A (zh) * 2017-04-21 2020-02-14 通用医疗公司 具有改变的PAM特异性的CPF1(CAS12a)的变体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SEONG KEUN KIM等: "Efficient Transcriptional Gene Repression by Type V-A CRISPR-Cpf1 from Eubacterium eligens", 《ACS SYNTH BIOL》 *
SEONG KEUN KIM等: "Efficient Transcriptional Gene Repression by Type V-A CRISPR-Cpf1 from Eubacterium eligens", 《ACS SYNTH BIOL》, vol. 6, no. 7, 11 April 2017 (2017-04-11), pages 1273 - 1282, XP055674525, DOI: 10.1021/acssynbio.6b00368 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111394337A (zh) * 2019-11-15 2020-07-10 武汉大学 II类V型CRISPR蛋白Lb2Cas12a及其在基因编辑的应用
CN112266420A (zh) * 2020-10-30 2021-01-26 华南农业大学 一种植物高效胞嘧啶单碱基编辑器及其构建与应用
CN112266420B (zh) * 2020-10-30 2022-08-09 华南农业大学 一种植物高效胞嘧啶单碱基编辑器及其构建与应用
CN113717961A (zh) * 2021-09-10 2021-11-30 四川大学 一种融合蛋白及其多核苷酸、碱基编辑器及其在药物制备中的应用
CN113717961B (zh) * 2021-09-10 2023-05-05 成都赛恩吉诺生物科技有限公司 一种融合蛋白及其多核苷酸、碱基编辑器及其在药物制备中的应用
CN114836459A (zh) * 2022-03-17 2022-08-02 江南大学 一种胞嘧啶碱基编辑系统及其应用
CN114836459B (zh) * 2022-03-17 2024-01-26 江南大学 一种胞嘧啶碱基编辑系统及其应用

Also Published As

Publication number Publication date
WO2019042284A1 (en) 2019-03-07
US20200354729A1 (en) 2020-11-12
CN118420784A (zh) 2024-08-02
EP3676287A4 (en) 2021-07-21
WO2019041296A1 (zh) 2019-03-07
EP3676287A1 (en) 2020-07-08
CN111065647B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
CN111065647B (zh) 用于提高碱基编辑精度的融合蛋白
US11840685B2 (en) Inhibition of unintended mutations in gene editing
US20220290115A1 (en) High efficiency base editors comprising gam
US12133884B2 (en) Methods of substituting pathogenic amino acids using programmable base editor systems
US20220307003A1 (en) Adenine base editors with reduced off-target effects
WO2019161783A1 (en) Fusion proteins for base editing
KR20180069898A (ko) 핵염기 편집제 및 그의 용도
KR20200121782A (ko) 아데노신 염기 편집제의 용도
JP2022533673A (ja) プログラム可能塩基エディターシステムを用いた一塩基多型編集法
KR20210042130A (ko) Acidaminococcus sp. cpf1의 dna 절단 활성을 향상시키는 신규한 돌연변이
CA3152861A1 (en) Compositions and methods for editing a mutation to permit transcription or expression
US20210355475A1 (en) Optimized base editors enable efficient editing in cells, organoids and mice
EP3974525A2 (en) Single base substitution protein, and composition comprising same
US20240309404A1 (en) Base editing enzymes
KR20180128864A (ko) 매칭된 5&#39; 뉴클레오타이드를 포함하는 가이드 rna를 포함하는 유전자 교정용 조성물 및 이를 이용한 유전자 교정 방법
WO2021189110A1 (en) Dna altering proteins and uses therefor
WO2024197086A1 (en) Improved methods and compositions for crispr interference and activation
CA3225808A1 (en) Context-specific adenine base editors and uses thereof
WO2024077247A1 (en) Base editing methods and compositions for treating triplet repeat disorders
CN117321198A (zh) 用于基因疗法的重组狂犬病病毒
CN110959040A (zh) 具有改进的精度和特异性的碱基编辑器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40018020

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TG01 Patent term adjustment
TG01 Patent term adjustment