CN112266418A - 改进的基因组编辑系统及其应用 - Google Patents

改进的基因组编辑系统及其应用 Download PDF

Info

Publication number
CN112266418A
CN112266418A CN201910611416.XA CN201910611416A CN112266418A CN 112266418 A CN112266418 A CN 112266418A CN 201910611416 A CN201910611416 A CN 201910611416A CN 112266418 A CN112266418 A CN 112266418A
Authority
CN
China
Prior art keywords
leu
asp
ala
lys
glu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910611416.XA
Other languages
English (en)
Inventor
邱金龙
刘关稳
尹康权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Microbiology of CAS
Original Assignee
Institute of Microbiology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Microbiology of CAS filed Critical Institute of Microbiology of CAS
Priority to CN201910611416.XA priority Critical patent/CN112266418A/zh
Priority to PCT/CN2020/100664 priority patent/WO2021004456A1/zh
Publication of CN112266418A publication Critical patent/CN112266418A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K19/00Hybrid peptides, i.e. peptides covalently bound to nucleic acids, or non-covalently bound protein-protein complexes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8201Methods for introducing genetic material into plant cells, e.g. DNA, RNA, stable or transient incorporation, tissue culture methods adapted for transformation
    • C12N15/8213Targeted insertion of genes into the plant genome by homologous recombination
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N5/00Undifferentiated human, animal or plant cells, e.g. cell lines; Tissues; Cultivation or maintenance thereof; Culture media therefor
    • C12N5/10Cells modified by introduction of foreign genetic material
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/70Fusion polypeptide containing domain for protein-protein interaction
    • C07K2319/71Fusion polypeptide containing domain for protein-protein interaction containing domain for transcriptional activaation, e.g. VP16

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Cell Biology (AREA)
  • Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Breeding Of Plants And Reproduction By Means Of Culturing (AREA)

Abstract

本发明提供一种基因组编辑融合多肽,其包含CRISPR核酸酶结构域和转录激活结构域。本发明还提供编码所述多肽的多核苷酸或表达构建体,以及包含所述多肽、多核苷酸和/或构建体的基因组系统。本发明还提供用所述基因组编辑系统编辑细胞基因组的方法。

Description

改进的基因组编辑系统及其应用
发明领域
本发明涉及基因组编辑领域。具体而言,本发明涉及改进的基因组编辑系统及其应用。更具体而言,本发明提供一种基因组编辑融合多肽,其包含CRISPR核酸酶结构域和转录激活结构域。本发明还提供编码所述多肽的多核苷酸或表达构建体,以及包含所述多肽、多核苷酸和/或构建体的基因组系统。本发明还提供用所述基因组编辑系统编辑细胞基因组的方法。
背景技术
CRISPR/Cas9系统已广泛和成功地用于多种真核物种的基因组工程。然而,在动物和植物细胞中,不同基因组位点的编辑效率差异很大。某些位点的低CRISPR/Cas9编辑效率限制了体内靶标的可用性,从而限制了进一步的应用。
与原核DNA不同,真核基因组DNA缠绕在组蛋白周围,并进一步压缩形成可能阻碍Cas9与其靶标结合的高阶染色质结构。在哺乳动物细胞中催化失活的Cas9(dCas9)的结合位点的全基因组作图显示结合位点富集于开放的染色质区域。此外,在人类细胞中,CRISPR/Cas9在开放的染色质区域中诱导产生更多的插入和缺失(插入缺失,indel)。体外和体内实验已经证明,Cas9结合和切割受到染色质的基本单元核小体的抑制。与此相同的是,在HEK293T,HeLa和人成纤维细胞中,Cas9介导的基因组编辑在常染色质区域中比异染色质区域更有效。有趣的是,染色质结构对CRISPR/Cas9的脱靶活性具有更显著的抑制作用。相反,在斑马鱼中未发现染色质可及性影响CRISPR/Cas9活性。染色质可及性是否影响植物细胞中的Cas9编辑尚不清楚。
有一些研究尝试改变局部可及性以改善体内Cas9活性。proxy-CRISPR策略使用额外的催化失活的SpCas9(dCas9)在临近的位置结合。这使得目标位点对于FnCas9、CjCas9、NcCas9和FnCpf1是可及的,从而提高了编辑效率。然而,该方法依赖于SpCas9可及的基因组,并且需要两种不同CRISPR-Cas系统的共表达,这不可避免地增加了载体大小和体内应用的难度。
最近,一种称为CRISPR-chrom的方法,其中Cas9直系同源物与染色质调节肽(CMP)融合,显著提高了Cas9编辑效率,特别是在不应性位点。CMP是内源蛋白的截短形式,目前尚不清楚它们的过表达是否具有显性负面作用。
本领域需要提供进一步的方法,改进真核生物,特别是植物基因组DNA的可及性以提高编辑效率。
发明内容
一方面,本发明提供一种基因组编辑融合多肽,其包含CRISPR核酸酶结构域和转录激活结构域。
另一方面,本发明还提供一种分离的多核苷酸,其编码本发明的基因组编辑融合多肽。
另一方面,本发明还提供一种表达载体,其包含本发明的多核苷酸。
另一方面,本发明还提供一种宿主细胞,其包含本发明的多核苷酸或表达载体。
另一方面,本发明还提供一种基因组编辑系统,其包含以下i)至v)中至少一项:
i)本发明的基因组编辑融合多肽和向导RNA;
ii)本发明的表达构建体,和向导RNA;
iii)本发明的基因组编辑融合多肽,和包含编码向导RNA的核苷酸序列的表达构建体;
iv)本发明的表达构建体,和包含编码向导RNA的核苷酸序列的表达构建体;
v)包含本发明的多核苷酸和编码向导RNA的核苷酸序列的表达构建体。
在一些实施方案中,本发明的基因组编辑系统还包含或编码dsgRNA,其靶向的位点与所述sgRNA靶向的位点相距30-300bp,优选40-270bp,最优选115-120bp。
另一方面,本发明还提供一种宿主细胞,其包含本发明的多核苷酸或表达载体或本发明的基因组编辑系统。
另一方面,本发明还提供一种对细胞进行遗传修饰的方法,包括将本发明的基因组编辑系统引入细胞,优选植物细胞。
附图说明
图1显示染色质可及性对水稻Cas9基因组编辑效率的影响。图1a总结了在70个靶位点的CRISPR/Cas9介导的突变数和染色质可及性。通过PCR/RE在再生的T0水稻植物上测量诱变效率。每个靶位点的可及性是从Zhang et al.,2012生成的水稻DNase I超敏(DH)位点的高分辨率图谱中获得的。图1b显示在原生质体中检测的20个水稻基因中的40个目标位点的indel频率。在每个基因中通过独立的sgRNA靶向两个位点。通过对靶向扩增子进行测序来测量indel频率。数据来自三组独立的生物学重复(n=3),并显示为平均值±s.e.m.。图1c总结了图1b中40个目标位点的插入频率和染色质状态。通过双尾Mann-Whitney检验计算P值。**P<0.01,***P<0.001。
图2显示水稻中Cas9编辑在开放染色质区域比在封闭染色质区域更有效。a分别成对比较了在开放和封闭染色质区域中sgRNA靶向位点的indel频率。通过对靶向扩增子进行测序,测量水稻原生质体中的indel频率。数据来自三组独立的生物学重复(n=3),并显示为平均值±s.e.m.。b总结了a中的Cas9编辑效率。通过双尾Mann-Whitney检验计算P值,*P<0.05。c显示Cas9在无染色质状态下对所有10个靶位点的切割相同。将含有相应靶位点的PCR产物与Cas9核糖核蛋白(RNP)复合物一起温育,并在琼脂糖凝胶上观察和测量。数据来自三个独立的生物学重复(n=3),并显示为平均值±s.e.m.。d显示在10个靶位点生成的indel模式。所有实验重复三次,结果相似。
图3显示将合成的转录激活结构域与Cas9融合提高了其编辑效率。a是转录激活结构域与Cas9的融合物(Cas9-TV)结构的示意图。b显示在水稻原生质体中的20个靶点由Cas9和Cas9-TV诱导的indel频率。未处理的原生质体样品用作对照。数据来自三组独立的生物学重复(n=3),并显示为平均值±s.e.m.。c显示Cas9和Cas9-TV在20个靶位点诱导的indel频率。d显示Cas9和Cas9-TV诱导的开放染色质区域靶位点的插入频率。e显示Cas9和Cas9-TV在封闭染色质区域靶位点诱导的indel频率。P值由双尾Mann-Whitney检验计算。*P<0.05,***P<0.001。
图4显示dsgRNA的近端靶向增强了Cas9-TV编辑。a显示在水稻原生质体中的20个靶位点处的Cas9/sgRNA,Cas9-TV/sgRNA和Cas9-TV/sgRNA-dsgRNA的indel频率。未处理的原生质体样品用作对照。通过对靶向扩增子进行测序来测量indel频率。数据来自三组独立的生物学重复(n=3),并显示为平均值±s.e.m.。b显示相对于Cas9/sgRNA,在10个靶位点处Cas9-TV/sgRNA和Cas9-TV/sgRNA-dsgRNA诱导的indel频率的倍数变化。c显示开放染色质区域中indel频率倍数变化。d显示封闭染色质区域中靶位点的indel频率倍数变化的总结。P值由双尾Mann-Whitney检验计算。***P<0.001,****P<0.0001。
图5显示近端dsgRNA的位置对Cas9-TV编辑的影响。基于sgRNA和dsgRNA靶位点之间的核苷酸计算距离。通过对水稻原生质体中的靶向扩增子进行测序来测量indel频率。未处理的原生质体样品用作对照。数据来自三组独立的生物学重复(n=3),并显示为平均值±s.e.m.。
图6通过近端dsgRNA靶向增加Cas9编辑效率。A显示在水稻原生质体中的20个靶位点由Cas9/sgRNA和Cas9/sgRNA-dsgRNA诱导的的indel频率。未处理的原生质体样品用作对照。通过对靶向扩增子进行测序来测量indel频率。数据来自三组独立的生物学重复(n=3),并显示为平均值±s.e.m.。b显示20个靶位点的indel频率。C显示在开放染色质中的靶位点诱导的indel频率。D显示在封闭染色质中的靶位点的indel频率。通过双尾Mann-Whitney检验计算P值。***p<0.001,****p<0.0001。
图7显示近端dsgRNA的位置对Cas9编辑活性的影响。dsgRNA靶位点和Cas9-TV靶位点彼此分开以bp表示的距离,分别用数字表示。未处理的原生质体样品用作对照。通过对靶向扩增子进行测序来测量indel频率。数据来自三组独立的生物学重复(n=3),并显示为平均值±s.e.m.。
图8显示Cas9-TV和近端dsgRNA改变局部染色质可及性。用Cas9/sgRNA和Cas9-TV/sgRNA-dsgRNA分别转染水稻原生质体,并通过微量样品DNase I测定分析靶位点周围的局部染色质可及性。通过实时PCR定量完整基因组DNA的级分。对于每个位点,将Cas9/sgRNA处理的样品中的完整基因组DNA的相对量设定为一个单位。误差棒表示三次重复的SD。
图9比较了Cas9/sgRNA、Cas9-TV/sgRNA和Cas9-TV/sgRNA-dsgRNA的脱靶活性。通过对水稻原生质体中的靶向扩增子进行测序来测量indel频率。未处理的原生质体样品用作对照。数据来自三组独立的生物学重复(n=3),并显示为平均值±s.e.m.。
图10显示Cas9和Cas9-TV在靶位点诱导的indel模式。该图显示了三个独立实验之一的代表性结果。所有三个实验给出了类似的结果。
图11显示通过Cas9/sgRNA、Cas9/sgRNA-dsgRNA和Cas9-TV/sgRNA-dsgRNA在指定的靶位点处产生的indel模式。此图显示了三个独立实验之一的代表性结果,这三个实验产生了类似的结果。
图12显示dsgRNA不在靶位点诱导插入缺失。将dsgRNA分别与Cas9或Cas9-TV共转化到水稻原生质体中。通过对靶向扩增子进行测序来测量indel频率。未处理的原生质体样品用作对照。数据来自三组独立的生物学重复(n=3),并显示为平均值±s.e.m.。
图13显示针对LOC_Os11g08760的部分基因组DNA序列的sgRNA和dsgRNA靶位点。
发明详述
一、定义
在本发明中,除非另有说明,否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且,本文中所用的蛋白质和核酸化学、分子生物学、细胞和组织培养、微生物学、免疫学相关术语和实验室操作步骤均为相应领域内广泛使用的术语和常规步骤。例如,本发明中使用的标准重组DNA和分子克隆技术为本领域技术人员熟知,并且在如下文献中有更全面的描述:Sambrook,J.,Fritsch,E.F.和Maniatis,T.,MolecularCloning:A Laboratory Manual;Cold Spring Harbor Laboratory Press:Cold SpringHarbor,1989(简称为“Sambrook”)。同时,为了更好地理解本发明,下面提供相关术语的定义和解释。
如本文所用,术语“CRISPR核酸酶”通常指在天然存在的CRISPR系统中存在的核酸酶,以及其修饰形式、其变体、其催化活性片段等。该术语涵盖基于CRISPR系统的能够在细胞内实现基因靶向(例如基因编辑、基因靶向调控等)的任何效应蛋白。
“CRISPR核酸酶”的实例包括Cas9核酸酶或其变体。所述Cas9核酸酶可以是来自不同物种的Cas9核酸酶,例如来自化脓链球菌(S.pyogenes)的spCas9或衍生自金黄色葡萄球菌(S.aureus)的SaCas9。“Cas9核酸酶”和“Cas9”在本文中可互换使用,指的是包括Cas9蛋白或其片段(例如包含Cas9的活性DNA切割结构域和/或Cas9的gRNA结合结构域的蛋白)的RNA指导的核酸酶。Cas9是CRISPR/Cas(成簇的规律间隔的短回文重复序列及其相关系统)基因组编辑系统的组分,能在向导RNA的指导下靶向并切割DNA靶序列形成DNA双链断裂(DSB)。
“CRISPR核酸酶”的实例还可以包括Cpf1核酸酶或其变体例如高特异性变体。所述Cpf1核酸酶可以是来自不同物种的Cpf1核酸酶,例如来自Francisella novicida U112、Acidaminococcus sp.BV3L6和Lachnospiraceae bacterium ND2006的Cpf1核酸酶。
如本文所用,“转录激活结构域(TAD)”一般是转录因子中的结构域,其含有其他蛋白质如转录辅调节蛋白的结合位点。TAD一般根据氨基酸组成分类,这些氨基酸可以是对活性至关重要的氨基酸,也可以是TAD中最丰富的氨基酸。转录激活结构域一般分为酸性激活结构域、富谷氨酰胺结构域、富脯氨酸结构域和富异亮氨酸结构域。
如本文所用,“gRNA”和“向导RNA”可互换使用,指的是能够与CRISPR核酸酶形成复合物并由于与靶序列具有一定互补性而能够将所述复合物靶向靶序列的RNA分子。例如,在基于Cas9的基因编辑系统中,gRNA通常由部分互补形成复合物的crRNA和tracrRNA分子构成,其中crRNA包含与靶序列具有足够互补性以便与该靶序列杂交并且指导CRISPR复合物(Cas9+crRNA+tracrRNA)与该靶序列序列特异性地结合的序列。然而,本领域已知可以设计单向导RNA(sgRNA),其同时包含crRNA和tracrRNA的特征。而在基于Cpf1的基因组编辑系统中,gRNA通常仅由成熟crRNA分子构成,其中crRNA包含的序列与靶序列具有足够相同性以便与靶序列的互补序列杂交并且指导复合物(Cpf1+crRNA)与该靶序列序列特异性结合。基于所使用的CRISPR核酸酶和待编辑的靶序列设计合适的gRNA序列属于本领域技术人员的能力范围内。
“dead sgRNA”或“dsgRNA”是指可以将Cas9引导至靶位点而不诱导双链断裂(DSB)的sgRNA,其仅仅具有14或15bp的间隔区序列(靶序列)。
如本文所用,“染色质”是指间期细胞核内由DNA、组蛋白、非组蛋白及少量RNA组成的线性复合结构,是间期细胞遗传物质存在的形式。在有丝分裂或减数分裂过程中,真核细胞的染色质聚缩而成棒状结构的染色体。在染色质中,易于结合其他蛋白质(如核酸酶、转座酶、修饰酶等)的DNA区域称为“开放(open)染色质区域”;而难于结合其他蛋白质的DNA区域称为“封闭(closed)染色质区域”。
如本文所用,“基因组”不仅涵盖存在于细胞核中的染色体DNA,而且还包括存在于细胞的亚细胞组分(如线粒体、质体)中的细胞器DNA。
如本文所用,“细胞”包括适于基因组编辑的任何生物体的细胞。生物体的实例包括但不限于,哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫;家禽如鸡、鸭、鹅;植物包括单子叶植物和双子叶植物,例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥等。
“经遗传修饰的生物体”或“经遗传修饰的细胞”意指在其基因组内包含外源多核苷酸或修饰的基因或表达调控序列的生物体或细胞。例如外源多核苷酸能够稳定地整合进生物体或细胞的基因组中,并遗传连续的世代。外源多核苷酸可单独地或作为重组DNA构建体的部分整合进基因组中。修饰的基因或表达调控序列为在生物体或细胞基因组中所述序列包含单个或多个脱氧核苷酸取代、缺失和添加。
针对序列而言的“外源”意指来自外来物种的序列,或者如果来自相同物种,则指通过蓄意的人为干预而从其天然形式发生了组成和/或基因座的显著改变的序列。
“多核苷酸”、“核酸序列”、“核苷酸序列”或“核酸片段”可互换使用并且是单链或双链RNA或DNA聚合物,任选地可含有合成的、非天然的或改变的核苷酸碱基。核苷酸通过如下它们的单个字母名称来指代:“A”为腺苷或脱氧腺苷(分别对应RNA或DNA),“C”表示胞苷或脱氧胞苷,“G”表示鸟苷或脱氧鸟苷,“U”表示尿苷,“T”表示脱氧胸苷,“R”表示嘌呤(A或G),“Y”表示嘧啶(C或T),“K”表示G或T,“H”表示A或C或T,“I”表示肌苷,并且“N”表示任何核苷酸。
“多肽”、“肽”、和“蛋白质”在本发明中可互换使用,指氨基酸残基的聚合物。该术语适用于其中一个或多个氨基酸残基是相应的天然存在的氨基酸的人工化学类似物的氨基酸聚合物,以及适用于天然存在的氨基酸聚合物。术语“多肽”、“肽”、“氨基酸序列”和“蛋白质”还可包括修饰形式,包括但不限于糖基化、脂质连接、硫酸盐化、谷氨酸残基的γ羧化、羟化和ADP-核糖基化。
如本发明所用,“表达构建体”是指适于感兴趣的核苷酸序列在生物体中表达的载体如重组载体。“表达”指功能产物的产生。例如,核苷酸序列的表达可指核苷酸序列的转录(如转录生成mRNA或功能RNA)和/或RNA翻译成前体或成熟蛋白质。
本发明的“表达构建体”可以是线性的核酸片段、环状质粒、病毒载体,或者,在一些实施方式中,可以是能够翻译的RNA(如mRNA)。
本发明的“表达构建体”可包含不同来源的调控序列和感兴趣的核苷酸序列,或相同来源但以不同于通常天然存在的方式排列的调控序列和感兴趣的核苷酸序列。
“调控序列”和“调控元件”可互换使用,指位于编码序列的上游(5'非编码序列)、中间或下游(3'非编码序列),并且影响相关编码序列的转录、RNA加工或稳定性或者翻译的核苷酸序列。调控序列可包括但不限于启动子、翻译前导序列、内含子和多腺苷酸化识别序列。
“启动子”指能够控制另一核酸片段转录的核酸片段。在本发明的一些实施方案中,启动子是能够控制细胞中基因转录的启动子,无论其是否来源于所述细胞。启动子可以是组成型启动子或组织特异性启动子或发育调控启动子或诱导型启动子。
“组成型启动子”指一般将引起基因在多数细胞类型中在多数情况下表达的启动子。“组织特异性启动子”和“组织优选启动子”可互换使用,并且指主要但非必须专一地在一种组织或器官中表达,而且也可在一种特定细胞或细胞型中表达的启动子。“发育调控启动子”指其活性由发育事件决定的启动子。“诱导型启动子”响应内源性或外源性刺激(环境、激素、化学信号等)而选择性表达可操纵连接的DNA序列。
如本文中所用,术语“可操作地连接”指调控元件(例如但不限于,启动子序列、转录终止序列等)与核酸序列(例如,编码序列或开放读码框)连接,使得核苷酸序列的转录被所述转录调控元件控制和调节。用于将调控元件区域可操作地连接于核酸分子的技术为本领域已知的。
将核酸分子(例如质粒、线性核酸片段、RNA等)或蛋白质“导入”生物体是指用所述核酸或蛋白质转化生物体细胞,使得所述核酸或蛋白质在细胞中能够发挥功能。本发明所用的“转化”包括稳定转化和瞬时转化。“稳定转化”指将外源核苷酸序列导入基因组中,导致外源基因稳定遗传。一旦稳定转化,外源核酸序列稳定地整合进所述生物体和其任何连续世代的基因组中。“瞬时转化”指将核酸分子或蛋白质导入细胞中,执行功能而没有外源基因稳定遗传。瞬时转化中,外源核酸序列不整合进基因组中。
二、基因组编辑融合多肽
本发明提供一种基因组编辑融合多肽,其包含CRISPR核酸酶结构域和转录激活结构域。
本发明所述的CRISPR核酸酶可以是能够实现基因组编辑的任何CRISPR核酸酶。在一些实施方案中,所述CRISPR核酸酶是Cas9或其活性片段,例如来自化脓链球菌的Cas9(SpCas9)、来自金黄色葡萄球菌的Cas9(SaCas9)、来自Francisella novicida的Cas9(FnCas9)、来自空肠弧菌(Campylobacter jejuni)的Cas9(CjCas9)和来自灰色奈瑟氏菌(Neisseria cinerea)的Cas9(NcCas9)。在一些实施方案中,所述CRISPR核酸酶是Cpf1或其活性片段,例如来自Francisella novicida U112的Cpf1(FnCpf1)、氨基球菌属物种(Acidaminococcus sp.)BV3L6的Cpf1和毛罗科菌(Lachnospiraceae bacterium)ND2006的Cpf1(LbCpf1)。
本发明中所用的转录激活结构域(TAD)没有特别限制,只要其能够实现打开染色质的功能。在一些实施方案中,所述转录激活结构域(TAD)包含酸性激活结构域、富谷氨酰胺结构域、富脯氨酸结构域、富异亮氨酸结构域和其任何组合。所述酸性激活结构域富含天冬氨酸和谷氨酸,包括但不限于来自酵母的Gal4、Oaf1、Leu3、Rtg3、Pho4、Gln3、Gcn4的TAD和来自哺乳动物的p53、NFAT、NF-κB和VP16的TAD。所述富谷氨酰胺结构域含有多个类似于“QQQXXXQQQ”重复序列,包括但不限于来自POU2F1(Oct1)、POU2F2(Oct2)和Sp1的TAD。所述富脯氨酸结构域含有类似“PPPXXXPPP”的重复序列,包括但不限于来自c-jun、AP2和Oct-2的TAD。所述富异亮氨酸结构域含有重复序列“IIXXII”,例如,来自NTF-1的TAD。
在一些实施方案中,所述转录激活结构域包含1、2、3、4、5、6、7、8、9、10个或更多个拷贝的相同或不同的TAD。在一些实施方案中,所述转录激活结构域包含一或多个VP16-TAD。在一些实施方案中,所述转录激活结构域包含一或多个转录激活因子样效应子的TAD(TALE-TAD)。在一些实施方案中,所述转录激活结构域包含一或多个VP16-TAD以及一或多个转录激活因子样效应子的TAD(TALE-TAD)。优选地,所述转录激活结构域包含8个拷贝的VP16-TAD和6个拷贝的TALE-TAD。优选地,所述转录激活结构域包含SEQ ID NO:1的氨基酸序列。优选地,所述转录激活结构域由SEQ ID NO:1的氨基酸组成。
在本发明的多肽中,所述转录激活结构域与所述CRISPR核酸酶结构域可以直接或间接融合。在一些实施方案中,所述转录激活结构域与所述CRISPR核酸酶结构域直接融合。在一些实施方案中,所述转录激活结构域与所述CRISPR核酸酶结构域可以间接融合,例如通过接头连接。所述接头可以是长1-50个(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或20-25个、25-50个)或更多个氨基酸、无二级以上结构的非功能性氨基酸序列。例如,所述接头可以是柔性接头,例如GGGGS、GS、GAP、(GGGGS)x 3、GGS和(GGS)x7等。
在本发明的多肽中,所述转录激活结构域位于所述CRISPR核酸酶结构域的N末端或C末端。在一些实施方案中,所述转录激活结构域与所述CRISPR核酸酶结构域的N末端融合。在一些实施方案中,所述转录激活结构域与所述CRISPR核酸酶结构域的C末端融合。
在一些实施方案中,所述多肽还包含核定位序列(NLS)。一般而言,所述多肽中的一个或多个NLS应具有足够的强度,以便在植物细胞的核中驱动所述多肽以可实现其基因组编辑功能的量积聚。一般而言,核定位活性的强度由所述多肽中NLS的数目、位置、所使用的一个或多个特定的NLS、或这些因素的组合决定。
在本发明的一些实施方案中,本发明的多肽的NLS可以位于N端和/或C端。在本发明的一些实施方案中,本发明的多肽的NLS可以位于所述转录激活结构域与所述CRISPR核酸酶结构域之间。在一些实施方案中,所述多肽包含约1、2、3、4、5、6、7、8、9、10个或更多个NLS。在一些实施方案中,所述多肽包含在或接近于N端的约1、2、3、4、5、6、7、8、9、10个或更多个NLS。在一些实施方案中,所述多肽包含在或接近于C端约1、2、3、4、5、6、7、8、9、10个或更多个NLS。在一些实施方案中,所述多肽包含这些的组合,如包含在N端的一个或多个NLS以及在C端的一个或多个NLS。当存在多于一个NLS时,每一个可以被选择为不依赖于其他NLS。在本发明的一些优选实施方式中,所述多肽包含至少2个NLS,例如所述至少2个NLS位于C端。在一些优选的实施方案中,所述NLS位于所述多肽的C末端。在一些优选的实施方案中,所述多肽包含至少3个NLS。在更优选的实施方案中,所述多肽在C末端包含至少3个NLS。在一些优选的实施方案中,所述多肽在N末端和/或在所述转录激活结构域与所述CRISPR核酸酶结构域之间不包含NLS。
一般而言,NLS由暴露于蛋白表面上的带正电的赖氨酸或精氨酸的一个或多个短序列组成,但其他类型的NLS也是已知的。NLS的非限制性实例包括:KKRKV(核苷酸序列5’-AAGAAGAGAAAGGTC-3’)、PKKKRKV(核苷酸序列5’-CCCAAGAAGAAGAGGAAGGTG-3’或CCAAAGAAGAAGAGGAAGGTT),或SGGSPKKKRKV(核苷酸序列5’-TCGGGGGGGAGCCCAAAGAAGAAGCGGAAGGTG-3’)。
在优选的实施方案中,所述多肽包含两个核定位序列,优选地,其中一个核定位序列位于所述CRISPR核酸酶或其活性片段的N末端,一个核定位序列位于CRISPR核酸酶结构域或其活性片段的C末端与所述转录激活结构域的N末端之间。
在优选的实施方案中,本发明的多肽包含SEQ ID NO:2的氨基酸序列。更优选的,所述多肽由SEQ ID NO:2的氨基酸组成。
本发明还提供编码本发明的多肽的分离的多核苷酸。在一些实施方案中,所述多核苷酸包含SEQ ID NO:3的核苷酸序列或其简并变体。优选地,所述多核苷酸由SEQ ID NO:3的核苷酸序列或其简并变体组成。
为了获得有效表达,在一些实施方案中,针对所编辑的生物体,例如植物,对所述多核苷酸进行密码子优化。
密码子优化是指通过用在宿主细胞的基因中更频繁地或者最频繁地使用的密码子代替天然序列的至少一个密码子(例如约或多于约1、2、3、4、5、10、15、20、25、50个或更多个密码子同时维持该天然氨基酸序列而修饰核酸序列以便增强在感兴趣宿主细胞中的表达的方法。不同的物种对于特定氨基酸的某些密码子展示出特定的偏好。密码子偏好性(在生物之间的密码子使用的差异)经常与信使RNA(mRNA)的翻译效率相关,而该翻译效率则被认为依赖于被翻译的密码子的性质和特定的转运RNA(tRNA)分子的可用性。细胞内选定的tRNA的优势一般反映了最频繁用于肽合成的密码子。因此,可以将基因定制为基于密码子优化在给定生物中的最佳基因表达。密码子利用率表可以容易地获得,例如在www.kazusa.orjp/codon/上可获得的密码子使用数据库(“Codon Usage Database”)中,并且这些表可以通过不同的方式调整适用。参见,Nakamura Y.等,“Codon usage tabulatedfrom the international DNA sequence databases:status for theyear2000.Nucl.Acids Res.,28:292(2000)。
三、改进的基因组编辑系统
本发明提供一种改进的基因组编辑系统,其包含以下i)至v)中至少一项:
i)本发明的基因组编辑融合多肽和向导RNA;
ii)编码本发明的基因组编辑融合多肽的表达构建体,和向导RNA;
iii)本发明的基因组编辑融合多肽,和包含编码向导RNA的核苷酸序列的表达构建体;
iv)编码本发明的基因组编辑融合多肽的表达构建体,和包含编码向导RNA的核苷酸序列的表达构建体;
v)包含本发明的多核苷酸和编码向导RNA的核苷酸序列的表达构建体。
在一些实施方案中,其中所述向导RNA是sgRNA,优选地所述sgRNA靶向封闭染色质区域。根据给定的靶序列构建合适的sgRNA的方法是本领域已知的。例如,可参见文献:Wang,Y.et al.Simultaneous editing of three homoeoalleles in hexaploid breadwheat confers heritable resistance to powdery mildew.Nat.Biotechnol.32,947-951(2014);Shan,Q.et al.Targeted genome modification of crop plants using aCRISPR-Cas system.Nat.Biotechnol.31,686-688(2013);Liang,Z.et al.Targetedmutagenesis in Zea mays using TALENs and the CRISPR/Cas system.J GenetGenomics.41,63–68(2014)。
可以被CRISPR核酸酶和向导RNA复合物识别并靶向的靶序列的设计属于本领域普通技术人员的技能范围。一般而言,靶序列是与向导RNA中包含的大约20个核苷酸的引导序列互补的序列,且3’末端紧邻前间区序列邻近基序(protospacer adjacent motif)(PAM)。
在一个示例性的实施方案中,本发明的向导RNA的scaffold序列如SEQ ID NO:4所示。
在一些实施方案中,本发明的CRISPR系统还包含或编码dsgRNA,其靶向的位点与所述sgRNA靶向的位点相距30-300bp,优选40-270bp,最优选115-120bp。在一些实施方案中,所述dsgRNA仅包含14或15个核苷酸的引导序列。也就是说,所述dsgRNA仅靶向14或15个核苷酸的靶序列。这样的dsgRNA能够将CRISPR核酸酶靶向其靶序列,然而并不能引起切割。
在一些实施方案中,本发明的CRISPR系统包含以上ii)至v)的至少一项。在一些实施方案中,编码本发明的多肽的核苷酸序列和/或编码向导RNA的核苷酸序列与表达调控序列,优选植物表达调控序列,如启动子可操作地连接。
本发明可使用的启动子的实例包括但不限于:花椰菜花叶病毒35S启动子(Odellet al.(1985)Nature 313:810-812)、玉米Ubi-1启动子、小麦U6启动子、水稻U3启动子、玉米U3启动子、水稻肌动蛋白启动子、TrpPro5启动子(美国专利申请No.10/377,318;2005年3月16日提请)、pEMU启动子(Last et al.(1991)Theor.Appl.Genet.81:581-588)、MAS启动子(Velten et al.(1984)EMBO J.3:2723-2730)、玉米H3组蛋白启动子(Lepetit et al.(1992)Mol.Gen.Genet.231:276-285和Atanassova et al.(1992)Plant J.2(3):291-300)和欧洲油菜(Brassica napus)ALS3(PCT申请WO 97/41228)启动子。可用于本发明的启动子还包含Moore et al.(2006)Plant J.45(4):651-683中综述的常用组织特异性启动子。
在一个示例性的实施方案中,本发明的构建体包含水稻U3启动子,其包含SEQ IDNO:5所示的核苷酸序列。
四、对细胞进行遗传修饰的方法
在另一方面,本发明提供了一种对细胞进行遗传修饰的方法,包括将本发明的基因组编辑系统导入所述细胞。
可以被CRISPR核酸酶和向导RNA复合物识别并靶向的靶序列的设计属于本领域普通技术人员的技能范围。一般而言,靶序列是与向导RNA中包含的大约20个核苷酸的引导序列互补的序列,且3’末端紧邻前间区序列邻近基序(protospacer adjacent motif)(PAM)。
在本发明中,待进行修饰的靶序列可以位于基因组的任何位置,例如位于功能基因如蛋白编码基因内,或者例如可以位于基因表达调控区如启动子区或增强子区,从而实现对所述基因功能修饰或对基因表达的修饰。优选地,所述靶序列位于封闭染色质区域。
可以通过T7EI、PCR/RE或测序方法检测所述细胞靶序列中的取代、缺失和/或添加。
在本发明的方法中,所述基因组编辑系统可以通过本领域技术人员熟知的各种方法导入细胞。
可用于将本发明的基因组编辑系统导入细胞的方法包括但不限于:磷酸钙转染、原生质融合、电穿孔、脂质体转染、微注射、病毒感染(如杆状病毒、痘苗病毒、腺病毒和其他病毒)、基因枪法、PEG介导的原生质体转化、土壤农杆菌介导的转化。
可以通过本发明的方法进行基因组编辑的细胞可以来自例如,哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫;家禽如鸡、鸭、鹅;植物,包括单子叶植物和双子叶植物,例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥等。优选地,所述细胞是植物细胞,例如水稻细胞。
在一些实施方式中,本发明的方法在体外进行。例如,所述细胞是分离的细胞。在另一些实施方式中,本发明的方法还可以在体内进行。例如,所述细胞是生物体内的细胞,可以通过例如病毒介导的方法将本发明的系统体内导入所述细胞。在一些实施方式中,所述细胞是生殖细胞。在一些实施方式中,所述细胞是体细胞。
在另一方面,本发明还提供经遗传修饰的生物体,其包含通过本发明的方法产生的经遗传修饰的细胞。
所述生物体包括但不限于哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫;家禽如鸡、鸭、鹅;植物,包括单子叶植物和双子叶植物,例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥等。优选地,所述生物体是植物,优选水稻。
实施例
实施例1、方法
质粒构建
VP64(4个拷贝的VP16-TAD)和2TAL(2个拷贝的TALE-TAD)的编码序列针对水稻(Oryza sativa)进行密码子优化,并合成(分别如SEQ ID NO:6和SEQ ID NO:7所示)(GenScript,南京,中国)。通过重叠PCR将VP64编码序列与Cas9的3'末端融合,并在Cas9和VP64之间引入Avr II位点。将Cas9-VP64融合基因克隆到pJIT163中以产生p163-Cas9-VP64。然后将1个拷贝的VP64和3拷贝的2TAL片段依次插入p163-Cas9-VP64的AvrII位点以产生p163-Cas9-TV,其中Cas9-TV的序列如SEQ ID NO:3的核苷酸所述。如前所述,将不同的sgRNA引入pOsU3-sgRNA(参见Shan et al.(2014).Genome editing in rice and wheatusing the CRISPR/Cas system.Nat Protoc 9,2395-2410)。如先前报道的那样构建sgRNA-dsgRNA共表达质粒(参见Xing et al.,(2014).A CRISPR/Cas9 toolkit formultiplex genome editing in plants.BMC Plant Biol 14,327)。
DNase-seq数据分析
从NCBI的Gene Expression Omnibus(GEO)获得之前报道的水稻幼苗(GSE26610)的DNase-seq数据(参见Zhang et al.,(2012).High-resolution mapping of openchromatin in the rice genome.Genome Res 22,151-162)。将DNase-seq数据加载到水稻注释项目数据库(RAP-DB)的Gbrowse(Gbrowse of the rice annotation projectdatabase)中,观察目标位点的染色质状态。
原生质体转染
使用水稻栽培种“Nipponbare”的两周龄幼苗来分离原生质体。按照标准方案(参见Shan et al.(2014).Genome editing in rice and wheat using the CRISPR/Cassystem.Nat Protoc 9,2395-2410)进行原生质体分离和转染。通过PEG介导的转染将质粒(每种构建体10μg)转染到原生质体中。
植物基因组DNA的提取
将经转染的原生质体在28℃温育。48小时后,收集原生质体,用CTAB法提取基因组DNA(参见Murray&Thompson,(1980).Rapid isolation of high molecular weight plantDNA.Nucleic Acids Res 8,4321-4325)。
靶向区域的PCR扩增和二代测序
从原生质体中提取的基因组DNA用作PCR模板。在第一轮PCR中,使用特异性引物扩增CRISPR靶位点侧翼的基因组区域。在第二轮中,使用引物扩增150-250bp PCR产物,以将正向和反向barcode引入第一轮PCR产物中。合并等量的最终PCR产物并使用IlluminaNextSeq 500平台通过配对末端读取测序进行测序(GENEWIZ,中国苏州)。检测sgRNA靶位点的插入缺失。每个扩增子的测序重复三次,使用来自三个独立原生质体样品的基因组DNA。
Cas9 RNP的体外切割
如先前报道的那样,通过Cas9 RNP进行体外切割(参见Liang et al.,(2017).Efficient DNA-free genome editing of bread wheat using CRISPR/Cas9ribonucleoprotein complexes.Nat Commun 8,14261)。使用特异性引物通过PCR扩增靶DNA序列,然后纯化并以无RNase的水洗脱。将Cas9蛋白(1μg)和sgRNA(1μg)预混合,与靶DNA(200ng)在37℃温育1h。然后将产物在2%琼脂糖凝胶上分离,并使用Image J软件测量条带强度以计算Cas9切割活性。
检测染色质可及性
如先前报道的那样进行微量样品DNase I消化测定(参见Lu et al.(2016).Establishing Chromatin Regulatory Landscape during Mouse PreimplantationDevelopment.Cell 165,1375-1388)。将转染的原生质体在28℃下培养24小时。将4×105转染的水原生质体样品重悬于45μL裂解缓冲液(10mM Tris-HCl[pH 7.5],10mM NaCl,3mMMgCl2,0.1%Triton X-100)中,在冰上温育5min,然后加入DNase I(1000U/ml,Sigma,AMPD1-1KT)至最终浓度为2U/mL。将样品在37℃下再温育5分钟,然后加入含有1U蛋白酶K的50μL终止缓冲液(10mM Tris-HCl[pH 7.5],10mM NaCl,0.15%SDS,10mM EDTA)终止反应。在55℃下温育1小时。通过酚-氯仿法(参见Sambrook&Russell,(2006).Purification ofnucleic acids by extraction with Phenol:Chloroform.CSH Protoc 2006:pdb.prot4455)从每个样品提取基因组DNA,并通过实时qPCR(SYBR Premix Ex TaqTM II,Takara)进行分析。
检测脱靶突变
通过在线工具CRISPR-P(参见Liu et al.,(2017).CRISPR-P 2.0:An ImprovedCRISPR-Cas9 Tool for Genome Editing in Plants.Mol Plant 10,530-532)预测sgRNA24、28、34和38的潜在脱靶位点。设计用于这些位点的基因座特异性引物以产生约150至250bp的PCR产物。在第一轮PCR中,使用特异性引物扩增位于靶上和靶外位点侧翼的基因组区域。将得到的PCR产物用作第二轮PCR的模板,将条形码(code)添加到PCR产物的每一端。然后将PCR产物以相等的量合并用于二代测序。检查目标和潜在的脱靶位点的插入缺失。每个扩增子的测序重复三次,使用来自三个独立原生质体样品的基因组DNA。
实施例2、Cas9基因组编辑在水稻的开放染色质区域中更有效
使用CRISPR-Cas9系统用70个sgRNA编辑了41个水稻基因(表2)。通过农杆菌转化将Cas9和各种sgRNA转化到水稻愈伤组织中。通过PCR/RE分析再生的T0植物中的编辑,并通过Sanger测序确认。CRISPR-Cas9在各种靶位点诱导的indel频率变化很大(表1)。
表1、在水稻T0植物中由CRISPR/Cas9在不同基因组位点诱导的诱变效率
Figure BDA0002122371170000131
Figure BDA0002122371170000141
Figure BDA0002122371170000151
Figure BDA0002122371170000161
然后分析了indel频率是否与染色质可及性相关。开放染色质是DNase I敏感的(DH),可以使用水稻基因组的综合DNase I敏感性数据。使用这些数据,发现在测试的目标位点,Cas9诱导的插入缺失的频率在DH位点显著更高(图1a),表明水稻中的CRISPR-Cas9活性受染色质开放性的影响。为了确认染色质结构影响水稻中的Cas9编辑,基于水稻开放染色质图测试了开放和封闭染色质区域中的另外20个基因。为每个基因设计两个sgRNA,一个靶向启动子,另一个靶向外显子(表2)。
表2、所选择的40个靶位点的信息
Figure BDA0002122371170000171
Figure BDA0002122371170000181
将Cas9和这些sgRNA中的每一个转化到水稻原生质体中,并通过靶向的深度测序测量所有40个靶位点的插入缺失频率(图1b)。结果证实,开放染色质区域中的编辑效率高于封闭染色质区域(图1c)。
为了排除间隔区序列组成对编辑效率的可能影响,用开放和封闭染色质区域的序列鉴定了五个独立的间隔区(sgRNA A~E)(表3)。
表3、所选择的sgRNA每个靶向具有相反染色质状态的两个基因组位点。
Figure BDA0002122371170000191
这些位点的indel频率成对比较显示,开放染色质区域的Cas9活性高于封闭染色质区域的Cas9活性高达13.4倍,而不同sgRNA诱导的indel频率变化很大(图2a,2b)。有趣的是,当体外靶向PCR产物或无染色质DNA时,Cas9能够对所有这些靶位点进行几乎相同的编辑(图2c)。此外,在成对的目标位点产生的插入缺失模式是相似的(图2d)。总之,这些结果表明,水稻细胞中CRISPR-Cas9基因组编辑在开放染色质区域比在封闭染色质区域更有效。
实施例3、与合成的转录激活结构域融合增加Cas9在水稻中的编辑活性
合成的转录激活结构域(此后称为TV)含有6个拷贝的TALE(转录激活因子样效应子)-TAD(转录激活域)和8个拷贝的VP16,融合到Cas9的C末端。生成Cas9-TV(图3a)。用靶向不同染色质区域的20个sgRNA(表3)在水稻原生质体中研究Cas9-TV的基因组编辑效率。
结果显示,Cas9和Cas9-TV诱导的靶位点的插入缺失频率分别为1.95%~29.56%和3.81%~44.85%(图3b),Cas9-TV的基因组编辑效率在所有测试的位点都高于Cas9(图3c)。平均而言,Cas9-TV诱导的插入缺失频率在开放和封闭染色质区域中分别是Cas9的1.87倍和1.44倍(图3d,3e)。
还发现Cas9-TV和Cas9生成的插入缺失模式相似(图10)。这些数据表明Cas9-TV体内编辑活性在开放和封闭染色质区域的靶位点处增加。
实施例4、使用dsgRNA进行近端靶向改进基因组编辑
使用水稻基因组中的20个sgRNA靶向位点(表2)并设计了靶向每个附近的近端位点的dsgRNA(表4)。
表4、所选定的sgRNA和其对应的近端dsgRNA靶向的位置
sgRNA<sup>a</sup> dsgRNA靶向序列<sup>b</sup> 距离<sup>c</sup>
sgRNA2 GACATCATCTGGCAGGG 50bp
sgRNA 4 TGCAGGCTTCACGACGG 32bp
sgRNA 6 TGACCTGATGCCCAAGG 55bp
sgRNA 8 GCGCTGGTGCTTGCTGG 57bp
sgRNA 10 CTTCGCGCGCTCCATGG 35bp
sgRNA 12 GGCGTGGGCAAGAGCGG 39bp
sgRNA 14 TACAAGCTCAAGCTCGG 50bp
sgRNA 16 GGACCTTGGACTCGAGG 55bp
sgRNA 18 ACCTGATTGGGTGAAGG 60bp
sgRNA 20 TATGGTAGCGAGCGTGG 68bp
sgRNA 22 AACAGCTAGGCTCTTGG 39bp
sgRNA 24 ACTGCAGGCGCTGCAGG 59bp
sgRNA 26 ACTCATCGGTGTGTAGG 92bp
sgRNA 28 GTTGATGGACGAGGTGG 61bp
sgRNA 30 AGCAGCACGTGCCTCGG 62bp
sgRNA 32 GGCCAACTGAACGACGG 56bp
sgRNA 34 GGCCACGTCGCTCGCGG 55bp
sgRNA 36 CCGATGCAGCCCACCGG 66bp
sgRNA 38 GCGCATTAGACCAAGGG 83bp
sgRNA 40 GGCGCGACCAACCACGG 40bp
a,sgRNA与表2相同;b,14nt向导序列+PAM;c,dsgRNA靶向位点和sgRNA靶向位点之间的距离以bp表示。
sgRNA靶向位点和dsgRNA结合位点之间的距离范围为32至92bp。与单独使用sgRNA相比,dsgRNA与sgRNA组合与Cas9-TV或Cas9一起转化到水稻原生质体中时,近端dsgRNA提高了所有靶位点编辑的效率(图4a)。平均而言,Cas9-TV与近端dsgRNA组合获得的插入缺失频率比Cas9-TV高1.5倍,比Cas9高2.5倍(图4b)。
此外,在dsgRNA靶向位点未检测到插入缺失(图12)。
近端dsgRNA在开放和封闭染色质区域中促进Cas9-TV编辑(图4c,d),并且不影响Cas9-TV诱导的插入缺失的模式(图11)。
为了优化近端dsgRNA靶向,靶向sgRNA34的PAM序列的任一侧的位点设计了dsgRNA1、2、6和dsgRNA 3、4、5(表5)(图13)。
表5、dsgRNA靶向序列和其到sgRNA34靶向位点的距离
Figure BDA0002122371170000211
a,14nt向导序列+PAM;b,dsgRNA靶向位点和sgRNA靶向位点之间的距离以bp表示。
dsgRNA和sgRNA结合位点的距离范围为47至266bp(图5)。将每个dsgRNA或dsgRNA对与Cas9-TV和相应的sgRNA共转化到水稻原生质体中,并通过靶向深度测序测量插入缺失频率。
结果显示,所有dsgRNA增强编辑,但靶向位于切割位点117bp位点的dsgRNA4具有最大效果(图5)。结果还显示,dsgRNA相对于PAM的位置(下游与上游)不会显著影响编辑效率(图5)。
此外,使用dsgRNA对而不是单个dsgRNA不会进一步增加Cas9-TV介导的编辑(图5)。Cas9介导的编辑获得了类似的结果(图7)。
实施例5、Cas9-TV与近端dsgRNA一起增加染色质可及性
使用DNase I消化分析测定了位点26、28和34处的染色质可及性以确定Cas9-TV和dsgRNA的结合是否会改变靶区域的染色质结构。结果显示,Cas9-TV加dsgRNA明显增加了每个位点的染色质可及性(图8)。这些结果表明Cas9-TV/dsgRNA能够增加体内靶位点的染色质可及性。
实施例6、TV和近端dsgRNA均未增加Cas9的脱靶活性
通过使用sgRNA 24、28、34和38对目标和非靶位点的靶向扩增子进行测序来检测插入缺失频率,检测Cas9-TV和Cas9-TV/dsgRNA的脱靶效应。
对于sgRNA 24和28分别鉴定了具有2至4个错配的可能的三个脱靶(OT)位点,针对sgRNA 38鉴定了4个脱靶位点,针对sgRNA 34鉴定了5个脱靶位点(表6)。
表6、对于四个sgRNA在水稻基因组中鉴定的潜在的脱靶位点
靶位点 序列<sup>a</sup> 靶基因基因座
位点24 ACGGCCGCCTCCGTACGCCGCGG LOC_Os04g18650
OT24-1 ACGGCCGC<u>T</u>TCCG<u>C</u>ACGCCGCGG LOC_Os03g05590
OT24-2 <u>C</u>CG<u>CT</u>CGCC<u>C</u>CCGTACGCCGCGG LOC_Os06g11400
OT24-3 <u>G</u>CGGCCGC<u>GG</u>CCGTACGC<u>T</u>GGGG LOC_Os01g73410
位点28 GTCTTTGGACGTAGCCATGGTGG LOC_Os04g12220
OT28-1 GTCTTTG<u>C</u>AC<u>A</u>TAGCCATGGCGG LOC_Os05g04110
OT28-2 GTCTTT<u>T</u>GA<u>T</u>G<u>C</u>AGC<u>A</u>ATGGAGG LOC_Os01g56140
OT28-3 GT<u>T</u>TTTGGAC<u>T</u>TAGCCA<u>A</u>GGAGG LOC_Os04g57390
位点34 AGACATCGTCACCAAGGCGCAGG LOC_Os11g08760
OT34-1 <u>C</u>GAC<u>GC</u>CG<u>A</u>CACCAAGGCGCTGG LOC_Os04g56110
OT34-2 <u>G</u>GAC<u>G</u>TCCTC<u>G</u>CCAAGGCGCAGG LOC_Os09g38050
OT34-3 <u>G</u>GACATCGTC<u>GT</u>C<u>G</u>AGGCGCTGG LOC_Os04g32010
OT34-4 <u>C</u>GAC<u>G</u>TCGT<u>G</u>ACCAAGG<u>T</u>GCCGG LOC_Os11g04940
OT34-5 AG<u>T</u>CATCCTCA<u>A</u>CAAGGC<u>C</u>CAGG LOC_Os02g14059
位点38 TGGGTAATGGTGATATCCCATGG LOC_Os09g24280
OT38-1 T<u>A</u>GGT<u>G</u>ATG<u>A</u>TGATAT<u>A</u>CCAAGG LOC_Os12g29220
OT38-2 T<u>A</u>GGTA<u>G</u>T<u>T</u>GTGATATC<u>A</u>CAGGG LOC_Os12g39430
OT38-3 TGGGT<u>G</u>ATG<u>A</u>TGATATCC<u>AT</u>CGG LOC_Os03g37411
OT38-4 T<u>AT</u>GT<u>G</u>ATGGTGATATCC<u>T</u>ACGG LOC_Os12g40790
a错配碱基以下划线显示,PAM继续以粗体显示。
在所有目标位置,Cas9-TV都具有比Cas9更高的中靶(on target)活性(图9)。
另一方面,在sgRNA24的OT24-2位点和sgRNA34的OT34-1位点,Cas9,Cas9-TV和Cas9-TV/dsgRNA以频率相似诱导插入缺失。在sgRNA24的位点OT24-1和OT24-3,sgRNA28的位点OT28-2和OT28-2,sgRNA34的位点OT34-2、OT34-3、OT34-4和OT34-5,以及sgRNA38的所有脱靶位点,所有核酸酶都没有诱导显著数量的插入缺失。令人惊讶的是,在OT28-3位点,Cas9-TV和Cas9-TV/dsgRNA诱导的插入缺失频率低于Cas9诱导的频率(图9)。
这些结果表明,TV和近端dsgRNA的组合不会改变Cas9的脱靶活性。
序列表
<110> 中国科学院微生物研究所
<120> 改进的基因组编辑系统及其应用
<130> I2019TC3380CB
<160> 7
<170> PatentIn version 3.5
<210> 1
<211> 450
<212> PRT
<213> Artificial Sequence
<220>
<223> Fusion protein
<400> 1
Gly Gly Ser Gly Gly Leu Leu Asp Pro Gly Thr Pro Met Asp Ala Asp
1 5 10 15
Leu Val Ala Ser Ser Thr Val Val Trp Glu Gln Asp Ala Asp Pro Phe
20 25 30
Ala Gly Thr Ala Asp Asp Phe Pro Ala Phe Asn Glu Glu Glu Leu Ala
35 40 45
Trp Leu Met Glu Leu Leu Pro Gln Gly Gly Ser Gly Gly Leu Leu Asp
50 55 60
Pro Gly Thr Pro Met Asp Ala Asp Leu Val Ala Ser Ser Thr Val Val
65 70 75 80
Trp Glu Gln Asp Ala Asp Pro Phe Ala Gly Thr Ala Asp Asp Phe Pro
85 90 95
Ala Phe Asn Glu Glu Glu Leu Ala Trp Leu Met Glu Leu Leu Pro Gln
100 105 110
Ala Arg Gly Gly Ser Gly Gly Leu Leu Asp Pro Gly Thr Pro Met Asp
115 120 125
Ala Asp Leu Val Ala Ser Ser Thr Val Val Trp Glu Gln Asp Ala Asp
130 135 140
Pro Phe Ala Gly Thr Ala Asp Asp Phe Pro Ala Phe Asn Glu Glu Glu
145 150 155 160
Leu Ala Trp Leu Met Glu Leu Leu Pro Gln Gly Gly Ser Gly Gly Leu
165 170 175
Leu Asp Pro Gly Thr Pro Met Asp Ala Asp Leu Val Ala Ser Ser Thr
180 185 190
Val Val Trp Glu Gln Asp Ala Asp Pro Phe Ala Gly Thr Ala Asp Asp
195 200 205
Phe Pro Ala Phe Asn Glu Glu Glu Leu Ala Trp Leu Met Glu Leu Leu
210 215 220
Pro Gln Ala Arg Gly Gly Ser Gly Gly Leu Leu Asp Pro Gly Thr Pro
225 230 235 240
Met Asp Ala Asp Leu Val Ala Ser Ser Thr Val Val Trp Glu Gln Asp
245 250 255
Ala Asp Pro Phe Ala Gly Thr Ala Asp Asp Phe Pro Ala Phe Asn Glu
260 265 270
Glu Glu Leu Ala Trp Leu Met Glu Leu Leu Pro Gln Gly Gly Ser Gly
275 280 285
Gly Leu Leu Asp Pro Gly Thr Pro Met Asp Ala Asp Leu Val Ala Ser
290 295 300
Ser Thr Val Val Trp Glu Gln Asp Ala Asp Pro Phe Ala Gly Thr Ala
305 310 315 320
Asp Asp Phe Pro Ala Phe Asn Glu Glu Glu Leu Ala Trp Leu Met Glu
325 330 335
Leu Leu Pro Gln Ala Arg Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu
340 345 350
Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp Met Leu
355 360 365
Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp
370 375 380
Ala Leu Asp Asp Phe Asp Leu Asp Met Leu Ala Arg Gly Ser Asp Ala
385 390 395 400
Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp
405 410 415
Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu
420 425 430
Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp Met Leu
435 440 445
Ala Arg
450
<210> 2
<211> 1853
<212> PRT
<213> Artificial Sequence
<220>
<223> Fusion protein
<400> 2
Met Ala Pro Lys Lys Lys Arg Lys Val Gly Ile His Gly Val Pro Ala
1 5 10 15
Ala Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser
20 25 30
Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys
35 40 45
Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu
50 55 60
Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg
65 70 75 80
Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile
85 90 95
Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp
100 105 110
Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys
115 120 125
Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala
130 135 140
Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val
145 150 155 160
Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala
165 170 175
His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn
180 185 190
Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr
195 200 205
Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp
210 215 220
Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu
225 230 235 240
Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly
245 250 255
Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn
260 265 270
Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr
275 280 285
Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala
290 295 300
Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser
305 310 315 320
Asp Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala
325 330 335
Ser Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu
340 345 350
Lys Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe
355 360 365
Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala
370 375 380
Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met
385 390 395 400
Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu
405 410 415
Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His
420 425 430
Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro
435 440 445
Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg
450 455 460
Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala
465 470 475 480
Trp Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu
485 490 495
Glu Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met
500 505 510
Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His
515 520 525
Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val
530 535 540
Lys Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu
545 550 555 560
Gln Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val
565 570 575
Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe
580 585 590
Asp Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu
595 600 605
Gly Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu
610 615 620
Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu
625 630 635 640
Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr
645 650 655
Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg
660 665 670
Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg
675 680 685
Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly
690 695 700
Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr
705 710 715 720
Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser
725 730 735
Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys
740 745 750
Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met
755 760 765
Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn
770 775 780
Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg
785 790 795 800
Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His
805 810 815
Pro Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr
820 825 830
Leu Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn
835 840 845
Arg Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu
850 855 860
Lys Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn
865 870 875 880
Arg Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met
885 890 895
Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg
900 905 910
Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu
915 920 925
Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile
930 935 940
Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr
945 950 955 960
Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys
965 970 975
Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val
980 985 990
Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala
995 1000 1005
Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser
1010 1015 1020
Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met
1025 1030 1035
Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr
1040 1045 1050
Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr
1055 1060 1065
Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn
1070 1075 1080
Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala
1085 1090 1095
Thr Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys
1100 1105 1110
Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu
1115 1120 1125
Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp
1130 1135 1140
Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr
1145 1150 1155
Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys
1160 1165 1170
Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg
1175 1180 1185
Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly
1190 1195 1200
Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr
1205 1210 1215
Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser
1220 1225 1230
Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys
1235 1240 1245
Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys
1250 1255 1260
Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln
1265 1270 1275
His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe
1280 1285 1290
Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu
1295 1300 1305
Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala
1310 1315 1320
Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro
1325 1330 1335
Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr
1340 1345 1350
Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser
1355 1360 1365
Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly
1370 1375 1380
Gly Asp Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys
1385 1390 1395
Lys Lys Lys Pro Arg Gly Gly Ser Gly Gly Leu Leu Asp Pro Gly
1400 1405 1410
Thr Pro Met Asp Ala Asp Leu Val Ala Ser Ser Thr Val Val Trp
1415 1420 1425
Glu Gln Asp Ala Asp Pro Phe Ala Gly Thr Ala Asp Asp Phe Pro
1430 1435 1440
Ala Phe Asn Glu Glu Glu Leu Ala Trp Leu Met Glu Leu Leu Pro
1445 1450 1455
Gln Gly Gly Ser Gly Gly Leu Leu Asp Pro Gly Thr Pro Met Asp
1460 1465 1470
Ala Asp Leu Val Ala Ser Ser Thr Val Val Trp Glu Gln Asp Ala
1475 1480 1485
Asp Pro Phe Ala Gly Thr Ala Asp Asp Phe Pro Ala Phe Asn Glu
1490 1495 1500
Glu Glu Leu Ala Trp Leu Met Glu Leu Leu Pro Gln Ala Arg Gly
1505 1510 1515
Gly Ser Gly Gly Leu Leu Asp Pro Gly Thr Pro Met Asp Ala Asp
1520 1525 1530
Leu Val Ala Ser Ser Thr Val Val Trp Glu Gln Asp Ala Asp Pro
1535 1540 1545
Phe Ala Gly Thr Ala Asp Asp Phe Pro Ala Phe Asn Glu Glu Glu
1550 1555 1560
Leu Ala Trp Leu Met Glu Leu Leu Pro Gln Gly Gly Ser Gly Gly
1565 1570 1575
Leu Leu Asp Pro Gly Thr Pro Met Asp Ala Asp Leu Val Ala Ser
1580 1585 1590
Ser Thr Val Val Trp Glu Gln Asp Ala Asp Pro Phe Ala Gly Thr
1595 1600 1605
Ala Asp Asp Phe Pro Ala Phe Asn Glu Glu Glu Leu Ala Trp Leu
1610 1615 1620
Met Glu Leu Leu Pro Gln Ala Arg Gly Gly Ser Gly Gly Leu Leu
1625 1630 1635
Asp Pro Gly Thr Pro Met Asp Ala Asp Leu Val Ala Ser Ser Thr
1640 1645 1650
Val Val Trp Glu Gln Asp Ala Asp Pro Phe Ala Gly Thr Ala Asp
1655 1660 1665
Asp Phe Pro Ala Phe Asn Glu Glu Glu Leu Ala Trp Leu Met Glu
1670 1675 1680
Leu Leu Pro Gln Gly Gly Ser Gly Gly Leu Leu Asp Pro Gly Thr
1685 1690 1695
Pro Met Asp Ala Asp Leu Val Ala Ser Ser Thr Val Val Trp Glu
1700 1705 1710
Gln Asp Ala Asp Pro Phe Ala Gly Thr Ala Asp Asp Phe Pro Ala
1715 1720 1725
Phe Asn Glu Glu Glu Leu Ala Trp Leu Met Glu Leu Leu Pro Gln
1730 1735 1740
Ala Arg Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp Met Leu
1745 1750 1755
Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser
1760 1765 1770
Asp Ala Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala
1775 1780 1785
Leu Asp Asp Phe Asp Leu Asp Met Leu Ala Arg Gly Ser Asp Ala
1790 1795 1800
Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp
1805 1810 1815
Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe
1820 1825 1830
Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu
1835 1840 1845
Asp Met Leu Ala Arg
1850
<210> 3
<211> 5562
<212> DNA
<213> Artificial Sequence
<220>
<223> Fusion protein coding sequence
<400> 3
atggccccta agaagaagag aaaggtcggt attcacggcg ttcctgcggc gatggacaag 60
aagtatagta ttggtctgga cattgggacg aattccgttg gctgggccgt gatcaccgat 120
gagtacaagg tcccttccaa gaagtttaag gttctgggga acaccgatcg gcacagcatc 180
aagaagaatc tcattggagc cctcctgttc gactcaggcg agaccgccga agcaacaagg 240
ctcaagagaa ccgcaaggag acggtataca agaaggaaga ataggatctg ctacctgcag 300
gagattttca gcaacgaaat ggcgaaggtg gacgattcgt tctttcatag attggaggag 360
agtttcctcg tcgaggaaga taagaagcac gagaggcatc ctatctttgg caacattgtc 420
gacgaggttg cctatcacga aaagtacccc acaatctatc atctgcggaa gaagcttgtg 480
gactcgactg ataaggcgga ccttagattg atctacctcg ctctggcaca catgattaag 540
ttcaggggcc attttctgat cgagggggat cttaacccgg acaatagcga tgtggacaag 600
ttgttcatcc agctcgtcca aacctacaat cagctctttg aggaaaaccc aattaatgct 660
tcaggcgtcg acgccaaggc gatcctgtct gcacgccttt caaagtctcg ccggcttgag 720
aacttgatcg ctcaactccc gggcgaaaag aagaacggct tgttcgggaa tctcattgca 780
ctttcgttgg ggctcacacc aaacttcaag agtaattttg atctcgctga ggacgcaaag 840
ctgcagcttt ccaaggacac ttatgacgat gacctggata accttttggc ccaaatcggc 900
gatcagtacg cggacttgtt cctcgccgcg aagaatttgt cggacgcgat cctcctgagt 960
gatattctcc gcgtgaacac cgagattaca aaggccccgc tctcggcgag tatgatcaag 1020
cgctatgacg agcaccatca ggatctgacc cttttgaagg ctttggtccg gcagcaactc 1080
ccagagaagt acaaggaaat cttctttgat caatccaaga acggctacgc tggttatatt 1140
gacggcgggg catcgcagga ggaattctac aagtttatca agccaattct ggagaagatg 1200
gatggcacag aggaactcct ggtgaagctc aatagggagg accttttgcg gaagcaaaga 1260
actttcgata acggcagcat ccctcaccag attcatctcg gggagctgca cgccatcctg 1320
agaaggcagg aagacttcta cccctttctt aaggataacc gggagaagat cgaaaagatt 1380
ctgacgttca gaattccgta ctatgtcgga ccactcgccc ggggtaattc cagatttgcg 1440
tggatgacca gaaagagcga ggaaaccatc acaccttgga acttcgagga agtggtcgat 1500
aagggcgctt ccgcacagag cttcattgag cgcatgacaa attttgacaa gaacctgcct 1560
aatgagaagg tccttcccaa gcattccctc ctgtacgagt atttcactgt ttataacgaa 1620
ctcacgaagg tgaagtatgt gaccgaggga atgcgcaagc ccgccttcct gagcggcgag 1680
caaaagaagg cgatcgtgga ccttttgttt aagaccaatc ggaaggtcac agttaagcag 1740
ctcaaggagg actacttcaa gaagattgaa tgcttcgatt ccgttgagat cagcggcgtg 1800
gaagacaggt ttaacgcgtc actggggact taccacgatc tcctgaagat cattaaggat 1860
aaggacttct tggacaacga ggaaaatgag gatatcctcg aagacattgt cctgactctt 1920
acgttgtttg aggataggga aatgatcgag gaacgcttga agacgtatgc ccatctcttc 1980
gatgacaagg ttatgaagca gctcaagaga agaagataca ccggatgggg aaggctgtcc 2040
cgcaagctta tcaatggcat tagagacaag caatcaggga agacaatcct tgactttttg 2100
aagtctgatg gcttcgcgaa caggaatttt atgcagctga ttcacgatga ctcacttact 2160
ttcaaggagg atatccagaa ggctcaagtg tcgggacaag gtgacagtct gcacgagcat 2220
atcgccaacc ttgcgggatc tcctgcaatc aagaagggta ttctgcagac agtcaaggtt 2280
gtggatgagc ttgtgaaggt catgggacgg cataagcccg agaacatcgt tattgagatg 2340
gccagagaaa atcagaccac acaaaagggt cagaagaact cgagggagcg catgaagcgc 2400
atcgaggaag gcattaagga gctggggagt cagatcctta aggagcaccc ggtggaaaac 2460
acgcagttgc aaaatgagaa gctctatctg tactatctgc aaaatggcag ggatatgtat 2520
gtggaccagg agttggatat taaccgcctc tcggattacg acgtcgatca tatcgttcct 2580
cagtccttcc ttaaggatga cagcattgac aataaggttc tcaccaggtc cgacaagaac 2640
cgcgggaagt ccgataatgt gcccagcgag gaagtcgtta agaagatgaa gaactactgg 2700
aggcaacttt tgaatgccaa gttgatcaca cagaggaagt ttgataacct cactaaggcc 2760
gagcgcggag gtctcagcga actggacaag gcgggcttca ttaagcggca actggttgag 2820
actagacaga tcacgaagca cgtggcgcag attctcgatt cacgcatgaa cacgaagtac 2880
gatgagaatg acaagctgat ccgggaagtg aaggtcatca ccttgaagtc aaagctcgtt 2940
tctgacttca ggaaggattt ccaattttat aaggtgcgcg agatcaacaa ttatcaccat 3000
gctcatgacg catacctcaa cgctgtggtc ggaacagcat tgattaagaa gtacccgaag 3060
ctcgagtccg aattcgtgta cggtgactat aaggtttacg atgtgcgcaa gatgatcgcc 3120
aagtcagagc aggaaattgg caaggccact gcgaagtatt tcttttactc taacattatg 3180
aatttcttta agactgagat cacgctggct aatggcgaaa tccggaagag accacttatt 3240
gagaccaacg gcgagacagg ggaaatcgtg tgggacaagg ggagggattt cgccacagtc 3300
cgcaaggttc tctctatgcc tcaagtgaat attgtcaaga agactgaagt ccagacgggc 3360
gggttctcaa aggaatctat tctgcccaag cggaactcgg ataagcttat cgccagaaag 3420
aaggactggg acccgaagaa gtatggaggt ttcgactcac caacggtggc ttactctgtc 3480
ctggttgtgg caaaggtgga gaagggaaag tcaaagaagc tcaagtctgt caaggagctc 3540
ctgggtatca ccattatgga gaggtccagc ttcgaaaaga atccgatcga ttttctcgag 3600
gcgaagggat ataaggaagt gaagaaggac ctgatcatta agcttccaaa gtacagtctt 3660
ttcgagttgg aaaacggcag gaagcgcatg ttggcttccg caggagagct ccagaagggt 3720
aacgagcttg ctttgccgtc caagtatgtg aacttcctct atctggcatc ccactacgag 3780
aagctcaagg gcagcccaga ggataacgaa cagaagcaac tgtttgtgga gcaacacaag 3840
cattatcttg acgagatcat tgaacagatt tcggagttca gtaagcgcgt catcctcgcc 3900
gacgcgaatt tggataaggt tctctcagcc tacaacaagc accgggacaa gcctatcaga 3960
gagcaggcgg aaaatatcat tcatctcttc accctgacaa accttggggc tcccgctgca 4020
ttcaagtatt ttgacactac gattgatcgg aagagataca cttctacgaa ggaggtgctg 4080
gatgcaaccc ttatccacca atcgattact ggcctctacg agacgcggat cgacttgagt 4140
cagctcgggg gggataagag accagcggca accaagaagg caggacaagc gaagaagaag 4200
aagcctaggg gcggaagcgg cggcctcctg gacccaggaa ccccgatgga cgccgatctc 4260
gtggcgtcca gcacagtggt ctgggagcag gatgcggatc cattcgcggg aaccgcggac 4320
gatttcccag ccttcaacga ggaggagctg gcctggctga tggagctcct gccacagggc 4380
ggctcaggcg gcctcctgga tcctggaaca ccgatggacg cggatctcgt ggcctcatct 4440
accgtcgtct gggagcagga cgccgatcct ttcgccggca cagcggacga tttcccggcc 4500
ttcaatgagg aggagctcgc gtggctgatg gagctgctcc cacaggctag gggcggaagc 4560
ggcggcctcc tggacccagg aaccccgatg gacgccgatc tcgtggcgtc cagcacagtg 4620
gtctgggagc aggatgcgga tccattcgcg ggaaccgcgg acgatttccc agccttcaac 4680
gaggaggagc tggcctggct gatggagctc ctgccacagg gcggctcagg cggcctcctg 4740
gatcctggaa caccgatgga cgcggatctc gtggcctcat ctaccgtcgt ctgggagcag 4800
gacgccgatc ctttcgccgg cacagcggac gatttcccgg ccttcaatga ggaggagctc 4860
gcgtggctga tggagctgct cccacaggct aggggcggaa gcggcggcct cctggaccca 4920
ggaaccccga tggacgccga tctcgtggcg tccagcacag tggtctggga gcaggatgcg 4980
gatccattcg cgggaaccgc ggacgatttc ccagccttca acgaggagga gctggcctgg 5040
ctgatggagc tcctgccaca gggcggctca ggcggcctcc tggatcctgg aacaccgatg 5100
gacgcggatc tcgtggcctc atctaccgtc gtctgggagc aggacgccga tcctttcgcc 5160
ggcacagcgg acgatttccc ggccttcaat gaggaggagc tcgcgtggct gatggagctg 5220
ctcccacagg ctaggggctc agacgccctg gatgatttcg acctcgatat gctgggctca 5280
gatgccctgg acgactttga cctcgacatg ctcggctctg acgcgctcga cgactttgac 5340
ctcgatatgc tcggttccga tgccctggac gacttcgacc tcgacatgct cgctaggggc 5400
tcagacgccc tggatgattt cgacctcgat atgctgggct cagatgccct ggacgacttt 5460
gacctcgaca tgctcggctc tgacgcgctc gacgactttg acctcgatat gctcggttcc 5520
gatgccctgg acgacttcga cctcgacatg ctcgctaggt ag 5562
<210> 4
<211> 83
<212> DNA
<213> Artificial Sequence
<220>
<223> sgRNA scaffold
<400> 4
gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60
ggcaccgagt cggtgctttt ttt 83
<210> 5
<211> 381
<212> DNA
<213> Oryza sativa
<400> 5
aaggaatctt taaacatacg aacagatcac ttaaagttct tctgaagcaa cttaaagtta 60
tcaggcatgc atggatcttg gaggaatcag atgtgcagtc agggaccata gcacaagaca 120
ggcgtcttct actggtgcta ccagcaaatg ctggaagccg ggaacactgg gtacgtcgga 180
aaccacgtga tgtgaagaag taagataaac tgtaggagaa aagcatttcg tagtgggcca 240
tgaagccttt caggacatgt attgcagtat gggccggccc attacgcaat tggacgacaa 300
caaagactag tattagtacc acctcggcta tccacataga tcaaagctga tttaaaagag 360
ttgtgcagat gatccgtggc a 381
<210> 6
<211> 168
<212> DNA
<213> Artificial Sequence
<220>
<223> VP64-CO
<400> 6
cctaggggct cagacgccct ggatgatttc gacctcgata tgctgggctc agatgccctg 60
gacgactttg acctcgacat gctcggctct gacgcgctcg acgactttga cctcgatatg 120
ctcggttccg atgccctgga cgacttcgac ctcgacatgc tcgctagc 168
<210> 7
<211> 348
<212> DNA
<213> Artificial Sequence
<220>
<223> 2TAL
<400> 7
cctaggggcg gaagcggcgg cctcctggac ccaggaaccc cgatggacgc cgatctcgtg 60
gcgtccagca cagtggtctg ggagcaggat gcggatccat tcgcgggaac cgcggacgat 120
ttcccagcct tcaacgagga ggagctggcc tggctgatgg agctcctgcc acagggcggc 180
tcaggcggcc tcctggatcc tggaacaccg atggacgcgg atctcgtggc ctcatctacc 240
gtcgtctggg agcaggacgc cgatcctttc gccggcacag cggacgattt cccggccttc 300
aatgaggagg agctcgcgtg gctgatggag ctgctcccac aggctagc 348

Claims (10)

1.一种基因组编辑融合多肽,包含CRISPR核酸酶结构域和转录激活结构域(TAD),优选地,所述转录激活结构域与所述CRISPR核酸酶结构域的C末端融合。
2.权利要求1的基因组编辑融合多肽,其中所述CRISPR核酸酶是Cas9或Cpf1。
3.权利要求1或2的基因组编辑融合多肽,其中所述转录激活结构域包含一或多个VP16-TAD。
4.权利要求1-3任一项的基因组编辑融合多肽,其中所述转录激活结构域包含一或多个TALE-TAD。
5.权利要求1-4任一项的基因组编辑融合多肽,其中所述转录激活结构域包含SEQ IDNO:1的氨基酸序列。
6.权利要求1-5任一项的基因组编辑融合多肽,还包含一或多个核定位序列,优选两个,优选地,其中一个核定位序列位于所述CRISPR核酸酶结构域的N末端,一个核定位序列位于CRISPR核酸酶结构域的C末端与所述转录激活结构域的N末端之间。
7.一种改进的基因组编辑系统,其包含以下i)至v)中至少一项:
i)权利要求1-6任一项的基因组编辑融合多肽和向导RNA;
ii)包含编码权利要求1-6任一项的基因组编辑融合多肽的多核苷酸的表达构建体,和向导RNA;
iii)权利要求1-6任一项的基因组编辑融合多肽,和包含编码向导RNA的核苷酸序列的表达构建体;
iv)包含编码权利要求1-6任一项的基因组编辑融合多肽的多核苷酸的表达构建体,和包含编码向导RNA的核苷酸序列的表达构建体;
v)包含编码权利要求1-6任一项的基因组编辑融合多肽的多核苷酸和编码向导RNA的核苷酸序列的表达构建体。
8.权利要求7的基因组编辑系统,其中所述向导RNA是sgRNA,优选地所述sgRNA靶向封闭染色质区域。
9.权利要求8的基因组编辑系统,还包含或编码dsgRNA,其靶向的位点与所述sgRNA靶向的位点相距30-300bp,优选40-270bp,最优选115-120bp。
10.一种对细胞进行遗传修饰的方法,包括将权利要求7-9任一项的基因组编辑系统引入细胞,优选植物细胞。
CN201910611416.XA 2019-07-08 2019-07-08 改进的基因组编辑系统及其应用 Pending CN112266418A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910611416.XA CN112266418A (zh) 2019-07-08 2019-07-08 改进的基因组编辑系统及其应用
PCT/CN2020/100664 WO2021004456A1 (zh) 2019-07-08 2020-07-07 改进的基因组编辑系统及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910611416.XA CN112266418A (zh) 2019-07-08 2019-07-08 改进的基因组编辑系统及其应用

Publications (1)

Publication Number Publication Date
CN112266418A true CN112266418A (zh) 2021-01-26

Family

ID=74114361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910611416.XA Pending CN112266418A (zh) 2019-07-08 2019-07-08 改进的基因组编辑系统及其应用

Country Status (2)

Country Link
CN (1) CN112266418A (zh)
WO (1) WO2021004456A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114438127A (zh) * 2022-03-02 2022-05-06 苏州科锐迈德生物医药科技有限公司 一种重组核酸分子及其在制备环状rna中的应用
CN114686456A (zh) * 2022-05-10 2022-07-01 中山大学 基于双分子脱氨酶互补的碱基编辑系统及其应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105658805A (zh) * 2013-06-05 2016-06-08 杜克大学 Rna指导的基因编辑和基因调节
CN107722125A (zh) * 2017-09-28 2018-02-23 中山大学 一种高效的人工转录激活因子dCas9‑TV及其编码基因与应用
CN107794272A (zh) * 2016-09-06 2018-03-13 中国科学院上海生命科学研究院 一种高特异性的crispr基因组编辑体系
CN108070611A (zh) * 2016-11-14 2018-05-25 中国科学院遗传与发育生物学研究所 植物碱基编辑方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2018218280A1 (en) * 2017-02-07 2019-08-29 The Regents Of The University Of California Gene therapy for haploinsufficiency
WO2019040650A1 (en) * 2017-08-23 2019-02-28 The General Hospital Corporation GENETICALLY MODIFIED CRISPR-CAS9 NUCLEASES HAVING MODIFIED PAM SPECIFICITY

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105658805A (zh) * 2013-06-05 2016-06-08 杜克大学 Rna指导的基因编辑和基因调节
CN107794272A (zh) * 2016-09-06 2018-03-13 中国科学院上海生命科学研究院 一种高特异性的crispr基因组编辑体系
CN108070611A (zh) * 2016-11-14 2018-05-25 中国科学院遗传与发育生物学研究所 植物碱基编辑方法
CN107722125A (zh) * 2017-09-28 2018-02-23 中山大学 一种高效的人工转录激活因子dCas9‑TV及其编码基因与应用

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114438127A (zh) * 2022-03-02 2022-05-06 苏州科锐迈德生物医药科技有限公司 一种重组核酸分子及其在制备环状rna中的应用
CN114438127B (zh) * 2022-03-02 2024-03-19 苏州科锐迈德生物医药科技有限公司 一种重组核酸分子及其在制备环状rna中的应用
CN114686456A (zh) * 2022-05-10 2022-07-01 中山大学 基于双分子脱氨酶互补的碱基编辑系统及其应用
CN114686456B (zh) * 2022-05-10 2023-02-17 中山大学 基于双分子脱氨酶互补的碱基编辑系统及其应用

Also Published As

Publication number Publication date
WO2021004456A1 (zh) 2021-01-14

Similar Documents

Publication Publication Date Title
JP6960438B2 (ja) 特定のゲノム遺伝子座へのゲノムおよびエピゲノム調節タンパク質のrna誘導型標的化
JP6715419B2 (ja) カンピロバクター・ジェジュニcrispr/casシステムに由来するrgenを使用したゲノム編集
JP7100057B2 (ja) ゲノム編集のためのシステム及び方法
JP2020103295A (ja) Cas9ターゲッティングをガイドする配列に関する方法および組成物
KR20190059966A (ko) S. 피오게네스 cas9 돌연변이 유전자 및 이에 의해 암호화되는 폴리펩티드
KR20180042394A (ko) 조작된 crispr-cas9 뉴클레아제
JP7138712B2 (ja) ゲノム編集のためのシステム及び方法
JP7361109B2 (ja) C2c1ヌクレアーゼに基づくゲノム編集のためのシステムおよび方法
CN114008207A (zh) 改进的基因编辑系统
CN112266418A (zh) 改进的基因组编辑系统及其应用
KR20240055073A (ko) 클래스 ii, v형 crispr 시스템
JP5210530B2 (ja) RrhJ1I制限・修飾酵素およびその遺伝子
CN109735516B (zh) 受核苷酸片段引导具有特异核酸内切酶活性的piwi蛋白
WO2021226369A1 (en) Enzymes with ruvc domains
JPH1057082A (ja) 大腸菌中で制限エンドヌクレアーゼSapIをクローニング及び産生する方法
CN113025597B (zh) 改进的基因组编辑系统
CN113025597A (zh) 改进的基因组编辑系统
Class et al. Patent application title: NEW COMPACT SCAFFOLD OF CAS9 IN THE TYPE II CRISPR SYSTEM Inventors: Philippe Duchateau (Draveil, FR) Philippe Duchateau (Draveil, FR) Claudia Bertonati (Paris, FR)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination