CN112266418A

CN112266418A - 改进的基因组编辑系统及其应用

Info

Publication number: CN112266418A
Application number: CN201910611416.XA
Authority: CN
Inventors: 邱金龙; 刘关稳; 尹康权
Original assignee: Institute of Microbiology of CAS
Current assignee: Institute of Microbiology of CAS
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2021-01-26
Also published as: WO2021004456A1

Abstract

本发明提供一种基因组编辑融合多肽，其包含CRISPR核酸酶结构域和转录激活结构域。本发明还提供编码所述多肽的多核苷酸或表达构建体，以及包含所述多肽、多核苷酸和/或构建体的基因组系统。本发明还提供用所述基因组编辑系统编辑细胞基因组的方法。

Description

改进的基因组编辑系统及其应用

发明领域

本发明涉及基因组编辑领域。具体而言，本发明涉及改进的基因组编辑系统及其应用。更具体而言，本发明提供一种基因组编辑融合多肽，其包含CRISPR核酸酶结构域和转录激活结构域。本发明还提供编码所述多肽的多核苷酸或表达构建体，以及包含所述多肽、多核苷酸和/或构建体的基因组系统。本发明还提供用所述基因组编辑系统编辑细胞基因组的方法。

背景技术

CRISPR/Cas9系统已广泛和成功地用于多种真核物种的基因组工程。然而，在动物和植物细胞中，不同基因组位点的编辑效率差异很大。某些位点的低CRISPR/Cas9编辑效率限制了体内靶标的可用性，从而限制了进一步的应用。

与原核DNA不同，真核基因组DNA缠绕在组蛋白周围，并进一步压缩形成可能阻碍Cas9与其靶标结合的高阶染色质结构。在哺乳动物细胞中催化失活的Cas9(dCas9)的结合位点的全基因组作图显示结合位点富集于开放的染色质区域。此外，在人类细胞中，CRISPR/Cas9在开放的染色质区域中诱导产生更多的插入和缺失(插入缺失，indel)。体外和体内实验已经证明，Cas9结合和切割受到染色质的基本单元核小体的抑制。与此相同的是，在HEK293T，HeLa和人成纤维细胞中，Cas9介导的基因组编辑在常染色质区域中比异染色质区域更有效。有趣的是，染色质结构对CRISPR/Cas9的脱靶活性具有更显著的抑制作用。相反，在斑马鱼中未发现染色质可及性影响CRISPR/Cas9活性。染色质可及性是否影响植物细胞中的Cas9编辑尚不清楚。

有一些研究尝试改变局部可及性以改善体内Cas9活性。proxy-CRISPR策略使用额外的催化失活的SpCas9(dCas9)在临近的位置结合。这使得目标位点对于FnCas9、CjCas9、NcCas9和FnCpf1是可及的，从而提高了编辑效率。然而，该方法依赖于SpCas9可及的基因组，并且需要两种不同CRISPR-Cas系统的共表达，这不可避免地增加了载体大小和体内应用的难度。

最近，一种称为CRISPR-chrom的方法，其中Cas9直系同源物与染色质调节肽(CMP)融合，显著提高了Cas9编辑效率，特别是在不应性位点。CMP是内源蛋白的截短形式，目前尚不清楚它们的过表达是否具有显性负面作用。

本领域需要提供进一步的方法，改进真核生物，特别是植物基因组DNA的可及性以提高编辑效率。

发明内容

一方面，本发明提供一种基因组编辑融合多肽，其包含CRISPR核酸酶结构域和转录激活结构域。

另一方面，本发明还提供一种分离的多核苷酸，其编码本发明的基因组编辑融合多肽。

另一方面，本发明还提供一种表达载体，其包含本发明的多核苷酸。

另一方面，本发明还提供一种宿主细胞，其包含本发明的多核苷酸或表达载体。

另一方面，本发明还提供一种基因组编辑系统，其包含以下i)至v)中至少一项：

i)本发明的基因组编辑融合多肽和向导RNA；

ii)本发明的表达构建体，和向导RNA；

iii)本发明的基因组编辑融合多肽，和包含编码向导RNA的核苷酸序列的表达构建体；

iv)本发明的表达构建体，和包含编码向导RNA的核苷酸序列的表达构建体；

v)包含本发明的多核苷酸和编码向导RNA的核苷酸序列的表达构建体。

在一些实施方案中，本发明的基因组编辑系统还包含或编码dsgRNA，其靶向的位点与所述sgRNA靶向的位点相距30-300bp，优选40-270bp，最优选115-120bp。

另一方面，本发明还提供一种宿主细胞，其包含本发明的多核苷酸或表达载体或本发明的基因组编辑系统。

另一方面，本发明还提供一种对细胞进行遗传修饰的方法，包括将本发明的基因组编辑系统引入细胞，优选植物细胞。

附图说明

图1显示染色质可及性对水稻Cas9基因组编辑效率的影响。图1a总结了在70个靶位点的CRISPR/Cas9介导的突变数和染色质可及性。通过PCR/RE在再生的T0水稻植物上测量诱变效率。每个靶位点的可及性是从Zhang et al.,2012生成的水稻DNase I超敏(DH)位点的高分辨率图谱中获得的。图1b显示在原生质体中检测的20个水稻基因中的40个目标位点的indel频率。在每个基因中通过独立的sgRNA靶向两个位点。通过对靶向扩增子进行测序来测量indel频率。数据来自三组独立的生物学重复(n＝3)，并显示为平均值±s.e.m.。图1c总结了图1b中40个目标位点的插入频率和染色质状态。通过双尾Mann-Whitney检验计算P值。**P<0.01，***P<0.001。

图2显示水稻中Cas9编辑在开放染色质区域比在封闭染色质区域更有效。a分别成对比较了在开放和封闭染色质区域中sgRNA靶向位点的indel频率。通过对靶向扩增子进行测序，测量水稻原生质体中的indel频率。数据来自三组独立的生物学重复(n＝3)，并显示为平均值±s.e.m.。b总结了a中的Cas9编辑效率。通过双尾Mann-Whitney检验计算P值，*P<0.05。c显示Cas9在无染色质状态下对所有10个靶位点的切割相同。将含有相应靶位点的PCR产物与Cas9核糖核蛋白(RNP)复合物一起温育，并在琼脂糖凝胶上观察和测量。数据来自三个独立的生物学重复(n＝3)，并显示为平均值±s.e.m.。d显示在10个靶位点生成的indel模式。所有实验重复三次，结果相似。

图3显示将合成的转录激活结构域与Cas9融合提高了其编辑效率。a是转录激活结构域与Cas9的融合物(Cas9-TV)结构的示意图。b显示在水稻原生质体中的20个靶点由Cas9和Cas9-TV诱导的indel频率。未处理的原生质体样品用作对照。数据来自三组独立的生物学重复(n＝3)，并显示为平均值±s.e.m.。c显示Cas9和Cas9-TV在20个靶位点诱导的indel频率。d显示Cas9和Cas9-TV诱导的开放染色质区域靶位点的插入频率。e显示Cas9和Cas9-TV在封闭染色质区域靶位点诱导的indel频率。P值由双尾Mann-Whitney检验计算。*P<0.05，***P<0.001。

图4显示dsgRNA的近端靶向增强了Cas9-TV编辑。a显示在水稻原生质体中的20个靶位点处的Cas9/sgRNA，Cas9-TV/sgRNA和Cas9-TV/sgRNA-dsgRNA的indel频率。未处理的原生质体样品用作对照。通过对靶向扩增子进行测序来测量indel频率。数据来自三组独立的生物学重复(n＝3)，并显示为平均值±s.e.m.。b显示相对于Cas9/sgRNA，在10个靶位点处Cas9-TV/sgRNA和Cas9-TV/sgRNA-dsgRNA诱导的indel频率的倍数变化。c显示开放染色质区域中indel频率倍数变化。d显示封闭染色质区域中靶位点的indel频率倍数变化的总结。P值由双尾Mann-Whitney检验计算。***P<0.001，****P<0.0001。

图5显示近端dsgRNA的位置对Cas9-TV编辑的影响。基于sgRNA和dsgRNA靶位点之间的核苷酸计算距离。通过对水稻原生质体中的靶向扩增子进行测序来测量indel频率。未处理的原生质体样品用作对照。数据来自三组独立的生物学重复(n＝3)，并显示为平均值±s.e.m.。

图6通过近端dsgRNA靶向增加Cas9编辑效率。A显示在水稻原生质体中的20个靶位点由Cas9/sgRNA和Cas9/sgRNA-dsgRNA诱导的的indel频率。未处理的原生质体样品用作对照。通过对靶向扩增子进行测序来测量indel频率。数据来自三组独立的生物学重复(n＝3)，并显示为平均值±s.e.m.。b显示20个靶位点的indel频率。C显示在开放染色质中的靶位点诱导的indel频率。D显示在封闭染色质中的靶位点的indel频率。通过双尾Mann-Whitney检验计算P值。***p<0.001，****p<0.0001。

图7显示近端dsgRNA的位置对Cas9编辑活性的影响。dsgRNA靶位点和Cas9-TV靶位点彼此分开以bp表示的距离，分别用数字表示。未处理的原生质体样品用作对照。通过对靶向扩增子进行测序来测量indel频率。数据来自三组独立的生物学重复(n＝3)，并显示为平均值±s.e.m.。

图8显示Cas9-TV和近端dsgRNA改变局部染色质可及性。用Cas9/sgRNA和Cas9-TV/sgRNA-dsgRNA分别转染水稻原生质体，并通过微量样品DNase I测定分析靶位点周围的局部染色质可及性。通过实时PCR定量完整基因组DNA的级分。对于每个位点，将Cas9/sgRNA处理的样品中的完整基因组DNA的相对量设定为一个单位。误差棒表示三次重复的SD。

图9比较了Cas9/sgRNA、Cas9-TV/sgRNA和Cas9-TV/sgRNA-dsgRNA的脱靶活性。通过对水稻原生质体中的靶向扩增子进行测序来测量indel频率。未处理的原生质体样品用作对照。数据来自三组独立的生物学重复(n＝3)，并显示为平均值±s.e.m.。

图10显示Cas9和Cas9-TV在靶位点诱导的indel模式。该图显示了三个独立实验之一的代表性结果。所有三个实验给出了类似的结果。

图11显示通过Cas9/sgRNA、Cas9/sgRNA-dsgRNA和Cas9-TV/sgRNA-dsgRNA在指定的靶位点处产生的indel模式。此图显示了三个独立实验之一的代表性结果，这三个实验产生了类似的结果。

图12显示dsgRNA不在靶位点诱导插入缺失。将dsgRNA分别与Cas9或Cas9-TV共转化到水稻原生质体中。通过对靶向扩增子进行测序来测量indel频率。未处理的原生质体样品用作对照。数据来自三组独立的生物学重复(n＝3)，并显示为平均值±s.e.m.。

图13显示针对LOC_Os11g08760的部分基因组DNA序列的sgRNA和dsgRNA靶位点。

发明详述

一、定义

在本发明中，除非另有说明，否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且，本文中所用的蛋白质和核酸化学、分子生物学、细胞和组织培养、微生物学、免疫学相关术语和实验室操作步骤均为相应领域内广泛使用的术语和常规步骤。例如，本发明中使用的标准重组DNA和分子克隆技术为本领域技术人员熟知，并且在如下文献中有更全面的描述：Sambrook，J.，Fritsch，E.F.和Maniatis，T.，MolecularCloning：A Laboratory Manual；Cold Spring Harbor Laboratory Press：Cold SpringHarbor，1989(简称为“Sambrook”)。同时，为了更好地理解本发明，下面提供相关术语的定义和解释。

如本文所用，术语“CRISPR核酸酶”通常指在天然存在的CRISPR系统中存在的核酸酶，以及其修饰形式、其变体、其催化活性片段等。该术语涵盖基于CRISPR系统的能够在细胞内实现基因靶向(例如基因编辑、基因靶向调控等)的任何效应蛋白。

“CRISPR核酸酶”的实例包括Cas9核酸酶或其变体。所述Cas9核酸酶可以是来自不同物种的Cas9核酸酶，例如来自化脓链球菌(S.pyogenes)的spCas9或衍生自金黄色葡萄球菌(S.aureus)的SaCas9。“Cas9核酸酶”和“Cas9”在本文中可互换使用，指的是包括Cas9蛋白或其片段(例如包含Cas9的活性DNA切割结构域和/或Cas9的gRNA结合结构域的蛋白)的RNA指导的核酸酶。Cas9是CRISPR/Cas(成簇的规律间隔的短回文重复序列及其相关系统)基因组编辑系统的组分，能在向导RNA的指导下靶向并切割DNA靶序列形成DNA双链断裂(DSB)。

“CRISPR核酸酶”的实例还可以包括Cpf1核酸酶或其变体例如高特异性变体。所述Cpf1核酸酶可以是来自不同物种的Cpf1核酸酶，例如来自Francisella novicida U112、Acidaminococcus sp.BV3L6和Lachnospiraceae bacterium ND2006的Cpf1核酸酶。

如本文所用，“转录激活结构域(TAD)”一般是转录因子中的结构域，其含有其他蛋白质如转录辅调节蛋白的结合位点。TAD一般根据氨基酸组成分类，这些氨基酸可以是对活性至关重要的氨基酸，也可以是TAD中最丰富的氨基酸。转录激活结构域一般分为酸性激活结构域、富谷氨酰胺结构域、富脯氨酸结构域和富异亮氨酸结构域。

如本文所用，“gRNA”和“向导RNA”可互换使用，指的是能够与CRISPR核酸酶形成复合物并由于与靶序列具有一定互补性而能够将所述复合物靶向靶序列的RNA分子。例如，在基于Cas9的基因编辑系统中，gRNA通常由部分互补形成复合物的crRNA和tracrRNA分子构成，其中crRNA包含与靶序列具有足够互补性以便与该靶序列杂交并且指导CRISPR复合物(Cas9+crRNA+tracrRNA)与该靶序列序列特异性地结合的序列。然而，本领域已知可以设计单向导RNA(sgRNA)，其同时包含crRNA和tracrRNA的特征。而在基于Cpf1的基因组编辑系统中，gRNA通常仅由成熟crRNA分子构成，其中crRNA包含的序列与靶序列具有足够相同性以便与靶序列的互补序列杂交并且指导复合物(Cpf1+crRNA)与该靶序列序列特异性结合。基于所使用的CRISPR核酸酶和待编辑的靶序列设计合适的gRNA序列属于本领域技术人员的能力范围内。

“dead sgRNA”或“dsgRNA”是指可以将Cas9引导至靶位点而不诱导双链断裂(DSB)的sgRNA，其仅仅具有14或15bp的间隔区序列(靶序列)。

如本文所用，“染色质”是指间期细胞核内由DNA、组蛋白、非组蛋白及少量RNA组成的线性复合结构，是间期细胞遗传物质存在的形式。在有丝分裂或减数分裂过程中，真核细胞的染色质聚缩而成棒状结构的染色体。在染色质中，易于结合其他蛋白质(如核酸酶、转座酶、修饰酶等)的DNA区域称为“开放(open)染色质区域”；而难于结合其他蛋白质的DNA区域称为“封闭(closed)染色质区域”。

如本文所用，“基因组”不仅涵盖存在于细胞核中的染色体DNA，而且还包括存在于细胞的亚细胞组分(如线粒体、质体)中的细胞器DNA。

如本文所用，“细胞”包括适于基因组编辑的任何生物体的细胞。生物体的实例包括但不限于，哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫；家禽如鸡、鸭、鹅；植物包括单子叶植物和双子叶植物，例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥等。

“经遗传修饰的生物体”或“经遗传修饰的细胞”意指在其基因组内包含外源多核苷酸或修饰的基因或表达调控序列的生物体或细胞。例如外源多核苷酸能够稳定地整合进生物体或细胞的基因组中，并遗传连续的世代。外源多核苷酸可单独地或作为重组DNA构建体的部分整合进基因组中。修饰的基因或表达调控序列为在生物体或细胞基因组中所述序列包含单个或多个脱氧核苷酸取代、缺失和添加。

针对序列而言的“外源”意指来自外来物种的序列，或者如果来自相同物种，则指通过蓄意的人为干预而从其天然形式发生了组成和/或基因座的显著改变的序列。

“多核苷酸”、“核酸序列”、“核苷酸序列”或“核酸片段”可互换使用并且是单链或双链RNA或DNA聚合物，任选地可含有合成的、非天然的或改变的核苷酸碱基。核苷酸通过如下它们的单个字母名称来指代：“A”为腺苷或脱氧腺苷(分别对应RNA或DNA)，“C”表示胞苷或脱氧胞苷，“G”表示鸟苷或脱氧鸟苷，“U”表示尿苷，“T”表示脱氧胸苷，“R”表示嘌呤(A或G)，“Y”表示嘧啶(C或T)，“K”表示G或T，“H”表示A或C或T，“I”表示肌苷，并且“N”表示任何核苷酸。

“多肽”、“肽”、和“蛋白质”在本发明中可互换使用，指氨基酸残基的聚合物。该术语适用于其中一个或多个氨基酸残基是相应的天然存在的氨基酸的人工化学类似物的氨基酸聚合物，以及适用于天然存在的氨基酸聚合物。术语“多肽”、“肽”、“氨基酸序列”和“蛋白质”还可包括修饰形式，包括但不限于糖基化、脂质连接、硫酸盐化、谷氨酸残基的γ羧化、羟化和ADP-核糖基化。

如本发明所用，“表达构建体”是指适于感兴趣的核苷酸序列在生物体中表达的载体如重组载体。“表达”指功能产物的产生。例如，核苷酸序列的表达可指核苷酸序列的转录(如转录生成mRNA或功能RNA)和/或RNA翻译成前体或成熟蛋白质。

本发明的“表达构建体”可以是线性的核酸片段、环状质粒、病毒载体，或者，在一些实施方式中，可以是能够翻译的RNA(如mRNA)。

本发明的“表达构建体”可包含不同来源的调控序列和感兴趣的核苷酸序列，或相同来源但以不同于通常天然存在的方式排列的调控序列和感兴趣的核苷酸序列。

“调控序列”和“调控元件”可互换使用，指位于编码序列的上游(5'非编码序列)、中间或下游(3'非编码序列)，并且影响相关编码序列的转录、RNA加工或稳定性或者翻译的核苷酸序列。调控序列可包括但不限于启动子、翻译前导序列、内含子和多腺苷酸化识别序列。

“启动子”指能够控制另一核酸片段转录的核酸片段。在本发明的一些实施方案中，启动子是能够控制细胞中基因转录的启动子，无论其是否来源于所述细胞。启动子可以是组成型启动子或组织特异性启动子或发育调控启动子或诱导型启动子。

“组成型启动子”指一般将引起基因在多数细胞类型中在多数情况下表达的启动子。“组织特异性启动子”和“组织优选启动子”可互换使用，并且指主要但非必须专一地在一种组织或器官中表达，而且也可在一种特定细胞或细胞型中表达的启动子。“发育调控启动子”指其活性由发育事件决定的启动子。“诱导型启动子”响应内源性或外源性刺激(环境、激素、化学信号等)而选择性表达可操纵连接的DNA序列。

如本文中所用，术语“可操作地连接”指调控元件(例如但不限于，启动子序列、转录终止序列等)与核酸序列(例如，编码序列或开放读码框)连接，使得核苷酸序列的转录被所述转录调控元件控制和调节。用于将调控元件区域可操作地连接于核酸分子的技术为本领域已知的。

将核酸分子(例如质粒、线性核酸片段、RNA等)或蛋白质“导入”生物体是指用所述核酸或蛋白质转化生物体细胞，使得所述核酸或蛋白质在细胞中能够发挥功能。本发明所用的“转化”包括稳定转化和瞬时转化。“稳定转化”指将外源核苷酸序列导入基因组中，导致外源基因稳定遗传。一旦稳定转化，外源核酸序列稳定地整合进所述生物体和其任何连续世代的基因组中。“瞬时转化”指将核酸分子或蛋白质导入细胞中，执行功能而没有外源基因稳定遗传。瞬时转化中，外源核酸序列不整合进基因组中。

二、基因组编辑融合多肽

本发明提供一种基因组编辑融合多肽，其包含CRISPR核酸酶结构域和转录激活结构域。

本发明所述的CRISPR核酸酶可以是能够实现基因组编辑的任何CRISPR核酸酶。在一些实施方案中，所述CRISPR核酸酶是Cas9或其活性片段，例如来自化脓链球菌的Cas9(SpCas9)、来自金黄色葡萄球菌的Cas9(SaCas9)、来自Francisella novicida的Cas9(FnCas9)、来自空肠弧菌(Campylobacter jejuni)的Cas9(CjCas9)和来自灰色奈瑟氏菌(Neisseria cinerea)的Cas9(NcCas9)。在一些实施方案中，所述CRISPR核酸酶是Cpf1或其活性片段，例如来自Francisella novicida U112的Cpf1(FnCpf1)、氨基球菌属物种(Acidaminococcus sp.)BV3L6的Cpf1和毛罗科菌(Lachnospiraceae bacterium)ND2006的Cpf1(LbCpf1)。

本发明中所用的转录激活结构域(TAD)没有特别限制，只要其能够实现打开染色质的功能。在一些实施方案中，所述转录激活结构域(TAD)包含酸性激活结构域、富谷氨酰胺结构域、富脯氨酸结构域、富异亮氨酸结构域和其任何组合。所述酸性激活结构域富含天冬氨酸和谷氨酸，包括但不限于来自酵母的Gal4、Oaf1、Leu3、Rtg3、Pho4、Gln3、Gcn4的TAD和来自哺乳动物的p53、NFAT、NF-κB和VP16的TAD。所述富谷氨酰胺结构域含有多个类似于“QQQXXXQQQ”重复序列，包括但不限于来自POU2F1(Oct1)、POU2F2(Oct2)和Sp1的TAD。所述富脯氨酸结构域含有类似“PPPXXXPPP”的重复序列，包括但不限于来自c-jun、AP2和Oct-2的TAD。所述富异亮氨酸结构域含有重复序列“IIXXII”，例如，来自NTF-1的TAD。

在一些实施方案中，所述转录激活结构域包含1、2、3、4、5、6、7、8、9、10个或更多个拷贝的相同或不同的TAD。在一些实施方案中，所述转录激活结构域包含一或多个VP16-TAD。在一些实施方案中，所述转录激活结构域包含一或多个转录激活因子样效应子的TAD(TALE-TAD)。在一些实施方案中，所述转录激活结构域包含一或多个VP16-TAD以及一或多个转录激活因子样效应子的TAD(TALE-TAD)。优选地，所述转录激活结构域包含8个拷贝的VP16-TAD和6个拷贝的TALE-TAD。优选地，所述转录激活结构域包含SEQ ID NO:1的氨基酸序列。优选地，所述转录激活结构域由SEQ ID NO:1的氨基酸组成。

在本发明的多肽中，所述转录激活结构域与所述CRISPR核酸酶结构域可以直接或间接融合。在一些实施方案中，所述转录激活结构域与所述CRISPR核酸酶结构域直接融合。在一些实施方案中，所述转录激活结构域与所述CRISPR核酸酶结构域可以间接融合，例如通过接头连接。所述接头可以是长1-50个(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或20-25个、25-50个)或更多个氨基酸、无二级以上结构的非功能性氨基酸序列。例如，所述接头可以是柔性接头，例如GGGGS、GS、GAP、(GGGGS)x 3、GGS和(GGS)x7等。

在本发明的多肽中，所述转录激活结构域位于所述CRISPR核酸酶结构域的N末端或C末端。在一些实施方案中，所述转录激活结构域与所述CRISPR核酸酶结构域的N末端融合。在一些实施方案中，所述转录激活结构域与所述CRISPR核酸酶结构域的C末端融合。

在一些实施方案中，所述多肽还包含核定位序列(NLS)。一般而言，所述多肽中的一个或多个NLS应具有足够的强度，以便在植物细胞的核中驱动所述多肽以可实现其基因组编辑功能的量积聚。一般而言，核定位活性的强度由所述多肽中NLS的数目、位置、所使用的一个或多个特定的NLS、或这些因素的组合决定。

在本发明的一些实施方案中，本发明的多肽的NLS可以位于N端和/或C端。在本发明的一些实施方案中，本发明的多肽的NLS可以位于所述转录激活结构域与所述CRISPR核酸酶结构域之间。在一些实施方案中，所述多肽包含约1、2、3、4、5、6、7、8、9、10个或更多个NLS。在一些实施方案中，所述多肽包含在或接近于N端的约1、2、3、4、5、6、7、8、9、10个或更多个NLS。在一些实施方案中，所述多肽包含在或接近于C端约1、2、3、4、5、6、7、8、9、10个或更多个NLS。在一些实施方案中，所述多肽包含这些的组合，如包含在N端的一个或多个NLS以及在C端的一个或多个NLS。当存在多于一个NLS时，每一个可以被选择为不依赖于其他NLS。在本发明的一些优选实施方式中，所述多肽包含至少2个NLS，例如所述至少2个NLS位于C端。在一些优选的实施方案中，所述NLS位于所述多肽的C末端。在一些优选的实施方案中，所述多肽包含至少3个NLS。在更优选的实施方案中，所述多肽在C末端包含至少3个NLS。在一些优选的实施方案中，所述多肽在N末端和/或在所述转录激活结构域与所述CRISPR核酸酶结构域之间不包含NLS。

一般而言，NLS由暴露于蛋白表面上的带正电的赖氨酸或精氨酸的一个或多个短序列组成，但其他类型的NLS也是已知的。NLS的非限制性实例包括：KKRKV(核苷酸序列5’-AAGAAGAGAAAGGTC-3’)、PKKKRKV(核苷酸序列5’-CCCAAGAAGAAGAGGAAGGTG-3’或CCAAAGAAGAAGAGGAAGGTT)，或SGGSPKKKRKV(核苷酸序列5’-TCGGGGGGGAGCCCAAAGAAGAAGCGGAAGGTG-3’)。

在优选的实施方案中，所述多肽包含两个核定位序列，优选地，其中一个核定位序列位于所述CRISPR核酸酶或其活性片段的N末端，一个核定位序列位于CRISPR核酸酶结构域或其活性片段的C末端与所述转录激活结构域的N末端之间。

在优选的实施方案中，本发明的多肽包含SEQ ID NO:2的氨基酸序列。更优选的，所述多肽由SEQ ID NO:2的氨基酸组成。

本发明还提供编码本发明的多肽的分离的多核苷酸。在一些实施方案中，所述多核苷酸包含SEQ ID NO:3的核苷酸序列或其简并变体。优选地，所述多核苷酸由SEQ ID NO:3的核苷酸序列或其简并变体组成。

为了获得有效表达，在一些实施方案中，针对所编辑的生物体，例如植物，对所述多核苷酸进行密码子优化。

密码子优化是指通过用在宿主细胞的基因中更频繁地或者最频繁地使用的密码子代替天然序列的至少一个密码子(例如约或多于约1、2、3、4、5、10、15、20、25、50个或更多个密码子同时维持该天然氨基酸序列而修饰核酸序列以便增强在感兴趣宿主细胞中的表达的方法。不同的物种对于特定氨基酸的某些密码子展示出特定的偏好。密码子偏好性(在生物之间的密码子使用的差异)经常与信使RNA(mRNA)的翻译效率相关，而该翻译效率则被认为依赖于被翻译的密码子的性质和特定的转运RNA(tRNA)分子的可用性。细胞内选定的tRNA的优势一般反映了最频繁用于肽合成的密码子。因此，可以将基因定制为基于密码子优化在给定生物中的最佳基因表达。密码子利用率表可以容易地获得，例如在www.kazusa.orjp/codon/上可获得的密码子使用数据库(“Codon Usage Database”)中，并且这些表可以通过不同的方式调整适用。参见，Nakamura Y.等，“Codon usage tabulatedfrom the international DNA sequence databases:status for theyear2000.Nucl.Acids Res.，28:292(2000)。

三、改进的基因组编辑系统

本发明提供一种改进的基因组编辑系统，其包含以下i)至v)中至少一项：

i)本发明的基因组编辑融合多肽和向导RNA；

ii)编码本发明的基因组编辑融合多肽的表达构建体，和向导RNA；

iv)编码本发明的基因组编辑融合多肽的表达构建体，和包含编码向导RNA的核苷酸序列的表达构建体；

在一些实施方案中，其中所述向导RNA是sgRNA，优选地所述sgRNA靶向封闭染色质区域。根据给定的靶序列构建合适的sgRNA的方法是本领域已知的。例如，可参见文献：Wang,Y.et al.Simultaneous editing of three homoeoalleles in hexaploid breadwheat confers heritable resistance to powdery mildew.Nat.Biotechnol.32,947-951(2014)；Shan,Q.et al.Targeted genome modification of crop plants using aCRISPR-Cas system.Nat.Biotechnol.31,686-688(2013)；Liang,Z.et al.Targetedmutagenesis in Zea mays using TALENs and the CRISPR/Cas system.J GenetGenomics.41,63–68(2014)。

可以被CRISPR核酸酶和向导RNA复合物识别并靶向的靶序列的设计属于本领域普通技术人员的技能范围。一般而言，靶序列是与向导RNA中包含的大约20个核苷酸的引导序列互补的序列，且3’末端紧邻前间区序列邻近基序(protospacer adjacent motif)(PAM)。

在一个示例性的实施方案中，本发明的向导RNA的scaffold序列如SEQ ID NO:4所示。

在一些实施方案中，本发明的CRISPR系统还包含或编码dsgRNA，其靶向的位点与所述sgRNA靶向的位点相距30-300bp，优选40-270bp，最优选115-120bp。在一些实施方案中，所述dsgRNA仅包含14或15个核苷酸的引导序列。也就是说，所述dsgRNA仅靶向14或15个核苷酸的靶序列。这样的dsgRNA能够将CRISPR核酸酶靶向其靶序列，然而并不能引起切割。

在一些实施方案中，本发明的CRISPR系统包含以上ii)至v)的至少一项。在一些实施方案中，编码本发明的多肽的核苷酸序列和/或编码向导RNA的核苷酸序列与表达调控序列，优选植物表达调控序列，如启动子可操作地连接。

本发明可使用的启动子的实例包括但不限于：花椰菜花叶病毒35S启动子(Odellet al.(1985)Nature 313:810-812)、玉米Ubi-1启动子、小麦U6启动子、水稻U3启动子、玉米U3启动子、水稻肌动蛋白启动子、TrpPro5启动子(美国专利申请No.10/377,318；2005年3月16日提请)、pEMU启动子(Last et al.(1991)Theor.Appl.Genet.81:581-588)、MAS启动子(Velten et al.(1984)EMBO J.3:2723-2730)、玉米H3组蛋白启动子(Lepetit et al.(1992)Mol.Gen.Genet.231:276-285和Atanassova et al.(1992)Plant J.2(3):291-300)和欧洲油菜(Brassica napus)ALS3(PCT申请WO 97/41228)启动子。可用于本发明的启动子还包含Moore et al.(2006)Plant J.45(4):651-683中综述的常用组织特异性启动子。

在一个示例性的实施方案中，本发明的构建体包含水稻U3启动子，其包含SEQ IDNO:5所示的核苷酸序列。

四、对细胞进行遗传修饰的方法

在另一方面，本发明提供了一种对细胞进行遗传修饰的方法，包括将本发明的基因组编辑系统导入所述细胞。

在本发明中，待进行修饰的靶序列可以位于基因组的任何位置，例如位于功能基因如蛋白编码基因内，或者例如可以位于基因表达调控区如启动子区或增强子区，从而实现对所述基因功能修饰或对基因表达的修饰。优选地，所述靶序列位于封闭染色质区域。

可以通过T7EI、PCR/RE或测序方法检测所述细胞靶序列中的取代、缺失和/或添加。

在本发明的方法中，所述基因组编辑系统可以通过本领域技术人员熟知的各种方法导入细胞。

可用于将本发明的基因组编辑系统导入细胞的方法包括但不限于：磷酸钙转染、原生质融合、电穿孔、脂质体转染、微注射、病毒感染(如杆状病毒、痘苗病毒、腺病毒和其他病毒)、基因枪法、PEG介导的原生质体转化、土壤农杆菌介导的转化。

可以通过本发明的方法进行基因组编辑的细胞可以来自例如，哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫；家禽如鸡、鸭、鹅；植物，包括单子叶植物和双子叶植物，例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥等。优选地，所述细胞是植物细胞，例如水稻细胞。

在一些实施方式中，本发明的方法在体外进行。例如，所述细胞是分离的细胞。在另一些实施方式中，本发明的方法还可以在体内进行。例如，所述细胞是生物体内的细胞，可以通过例如病毒介导的方法将本发明的系统体内导入所述细胞。在一些实施方式中，所述细胞是生殖细胞。在一些实施方式中，所述细胞是体细胞。

在另一方面，本发明还提供经遗传修饰的生物体，其包含通过本发明的方法产生的经遗传修饰的细胞。

所述生物体包括但不限于哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫；家禽如鸡、鸭、鹅；植物，包括单子叶植物和双子叶植物，例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥等。优选地，所述生物体是植物，优选水稻。

实施例

实施例1、方法

质粒构建

VP64(4个拷贝的VP16-TAD)和2TAL(2个拷贝的TALE-TAD)的编码序列针对水稻(Oryza sativa)进行密码子优化，并合成(分别如SEQ ID NO:6和SEQ ID NO:7所示)(GenScript，南京，中国)。通过重叠PCR将VP64编码序列与Cas9的3'末端融合，并在Cas9和VP64之间引入Avr II位点。将Cas9-VP64融合基因克隆到pJIT163中以产生p163-Cas9-VP64。然后将1个拷贝的VP64和3拷贝的2TAL片段依次插入p163-Cas9-VP64的AvrII位点以产生p163-Cas9-TV，其中Cas9-TV的序列如SEQ ID NO:3的核苷酸所述。如前所述，将不同的sgRNA引入pOsU3-sgRNA(参见Shan et al.(2014).Genome editing in rice and wheatusing the CRISPR/Cas system.Nat Protoc 9,2395-2410)。如先前报道的那样构建sgRNA-dsgRNA共表达质粒(参见Xing et al.,(2014).A CRISPR/Cas9 toolkit formultiplex genome editing in plants.BMC Plant Biol 14,327)。

DNase-seq数据分析

从NCBI的Gene Expression Omnibus(GEO)获得之前报道的水稻幼苗(GSE26610)的DNase-seq数据(参见Zhang et al.,(2012).High-resolution mapping of openchromatin in the rice genome.Genome Res 22,151-162)。将DNase-seq数据加载到水稻注释项目数据库(RAP-DB)的Gbrowse(Gbrowse of the rice annotation projectdatabase)中，观察目标位点的染色质状态。

原生质体转染

使用水稻栽培种“Nipponbare”的两周龄幼苗来分离原生质体。按照标准方案(参见Shan et al.(2014).Genome editing in rice and wheat using the CRISPR/Cassystem.Nat Protoc 9,2395-2410)进行原生质体分离和转染。通过PEG介导的转染将质粒(每种构建体10μg)转染到原生质体中。

植物基因组DNA的提取

将经转染的原生质体在28℃温育。48小时后，收集原生质体，用CTAB法提取基因组DNA(参见Murray&Thompson,(1980).Rapid isolation of high molecular weight plantDNA.Nucleic Acids Res 8,4321-4325)。

靶向区域的PCR扩增和二代测序

从原生质体中提取的基因组DNA用作PCR模板。在第一轮PCR中，使用特异性引物扩增CRISPR靶位点侧翼的基因组区域。在第二轮中，使用引物扩增150-250bp PCR产物，以将正向和反向barcode引入第一轮PCR产物中。合并等量的最终PCR产物并使用IlluminaNextSeq 500平台通过配对末端读取测序进行测序(GENEWIZ，中国苏州)。检测sgRNA靶位点的插入缺失。每个扩增子的测序重复三次，使用来自三个独立原生质体样品的基因组DNA。

Cas9 RNP的体外切割

如先前报道的那样，通过Cas9 RNP进行体外切割(参见Liang et al.,(2017).Efficient DNA-free genome editing of bread wheat using CRISPR/Cas9ribonucleoprotein complexes.Nat Commun 8,14261)。使用特异性引物通过PCR扩增靶DNA序列，然后纯化并以无RNase的水洗脱。将Cas9蛋白(1μg)和sgRNA(1μg)预混合，与靶DNA(200ng)在37℃温育1h。然后将产物在2％琼脂糖凝胶上分离，并使用Image J软件测量条带强度以计算Cas9切割活性。

检测染色质可及性

如先前报道的那样进行微量样品DNase I消化测定(参见Lu et al.(2016).Establishing Chromatin Regulatory Landscape during Mouse PreimplantationDevelopment.Cell 165,1375-1388)。将转染的原生质体在28℃下培养24小时。将4×10⁵转染的水原生质体样品重悬于45μL裂解缓冲液(10mM Tris-HCl[pH 7.5]，10mM NaCl，3mMMgCl₂,0.1％Triton X-100)中，在冰上温育5min，然后加入DNase I(1000U/ml，Sigma，AMPD1-1KT)至最终浓度为2U/mL。将样品在37℃下再温育5分钟，然后加入含有1U蛋白酶K的50μL终止缓冲液(10mM Tris-HCl[pH 7.5]，10mM NaCl，0.15％SDS，10mM EDTA)终止反应。在55℃下温育1小时。通过酚-氯仿法(参见Sambrook&Russell,(2006).Purification ofnucleic acids by extraction with Phenol:Chloroform.CSH Protoc 2006:pdb.prot4455)从每个样品提取基因组DNA，并通过实时qPCR(SYBR Premix Ex TaqTM II，Takara)进行分析。

检测脱靶突变

通过在线工具CRISPR-P(参见Liu et al.,(2017).CRISPR-P 2.0:An ImprovedCRISPR-Cas9 Tool for Genome Editing in Plants.Mol Plant 10,530-532)预测sgRNA24、28、34和38的潜在脱靶位点。设计用于这些位点的基因座特异性引物以产生约150至250bp的PCR产物。在第一轮PCR中，使用特异性引物扩增位于靶上和靶外位点侧翼的基因组区域。将得到的PCR产物用作第二轮PCR的模板，将条形码(code)添加到PCR产物的每一端。然后将PCR产物以相等的量合并用于二代测序。检查目标和潜在的脱靶位点的插入缺失。每个扩增子的测序重复三次，使用来自三个独立原生质体样品的基因组DNA。

实施例2、Cas9基因组编辑在水稻的开放染色质区域中更有效

使用CRISPR-Cas9系统用70个sgRNA编辑了41个水稻基因(表2)。通过农杆菌转化将Cas9和各种sgRNA转化到水稻愈伤组织中。通过PCR/RE分析再生的T0植物中的编辑，并通过Sanger测序确认。CRISPR-Cas9在各种靶位点诱导的indel频率变化很大(表1)。

表1、在水稻T0植物中由CRISPR/Cas9在不同基因组位点诱导的诱变效率

然后分析了indel频率是否与染色质可及性相关。开放染色质是DNase I敏感的(DH)，可以使用水稻基因组的综合DNase I敏感性数据。使用这些数据，发现在测试的目标位点，Cas9诱导的插入缺失的频率在DH位点显著更高(图1a)，表明水稻中的CRISPR-Cas9活性受染色质开放性的影响。为了确认染色质结构影响水稻中的Cas9编辑，基于水稻开放染色质图测试了开放和封闭染色质区域中的另外20个基因。为每个基因设计两个sgRNA，一个靶向启动子，另一个靶向外显子(表2)。

表2、所选择的40个靶位点的信息

将Cas9和这些sgRNA中的每一个转化到水稻原生质体中，并通过靶向的深度测序测量所有40个靶位点的插入缺失频率(图1b)。结果证实，开放染色质区域中的编辑效率高于封闭染色质区域(图1c)。

为了排除间隔区序列组成对编辑效率的可能影响，用开放和封闭染色质区域的序列鉴定了五个独立的间隔区(sgRNA A～E)(表3)。

表3、所选择的sgRNA每个靶向具有相反染色质状态的两个基因组位点。

这些位点的indel频率成对比较显示，开放染色质区域的Cas9活性高于封闭染色质区域的Cas9活性高达13.4倍，而不同sgRNA诱导的indel频率变化很大(图2a，2b)。有趣的是，当体外靶向PCR产物或无染色质DNA时，Cas9能够对所有这些靶位点进行几乎相同的编辑(图2c)。此外，在成对的目标位点产生的插入缺失模式是相似的(图2d)。总之，这些结果表明，水稻细胞中CRISPR-Cas9基因组编辑在开放染色质区域比在封闭染色质区域更有效。

实施例3、与合成的转录激活结构域融合增加Cas9在水稻中的编辑活性

合成的转录激活结构域(此后称为TV)含有6个拷贝的TALE(转录激活因子样效应子)-TAD(转录激活域)和8个拷贝的VP16，融合到Cas9的C末端。生成Cas9-TV(图3a)。用靶向不同染色质区域的20个sgRNA(表3)在水稻原生质体中研究Cas9-TV的基因组编辑效率。

结果显示，Cas9和Cas9-TV诱导的靶位点的插入缺失频率分别为1.95％～29.56％和3.81％～44.85％(图3b)，Cas9-TV的基因组编辑效率在所有测试的位点都高于Cas9(图3c)。平均而言，Cas9-TV诱导的插入缺失频率在开放和封闭染色质区域中分别是Cas9的1.87倍和1.44倍(图3d，3e)。

还发现Cas9-TV和Cas9生成的插入缺失模式相似(图10)。这些数据表明Cas9-TV体内编辑活性在开放和封闭染色质区域的靶位点处增加。

实施例4、使用dsgRNA进行近端靶向改进基因组编辑

使用水稻基因组中的20个sgRNA靶向位点(表2)并设计了靶向每个附近的近端位点的dsgRNA(表4)。

表4、所选定的sgRNA和其对应的近端dsgRNA靶向的位置

sgRNA<sup>a</sup>	dsgRNA靶向序列<sup>b</sup>	距离<sup>c</sup>
			sgRNA2	GACATCATCTGGCAGGG	50bp
sgRNA 4	TGCAGGCTTCACGACGG	32bp
			sgRNA 6	TGACCTGATGCCCAAGG	55bp
sgRNA 8	GCGCTGGTGCTTGCTGG	57bp
			sgRNA 10	CTTCGCGCGCTCCATGG	35bp
sgRNA 12	GGCGTGGGCAAGAGCGG	39bp
			sgRNA 14	TACAAGCTCAAGCTCGG	50bp
sgRNA 16	GGACCTTGGACTCGAGG	55bp
			sgRNA 18	ACCTGATTGGGTGAAGG	60bp
sgRNA 20	TATGGTAGCGAGCGTGG	68bp
			sgRNA 22	AACAGCTAGGCTCTTGG	39bp
sgRNA 24	ACTGCAGGCGCTGCAGG	59bp
			sgRNA 26	ACTCATCGGTGTGTAGG	92bp
sgRNA 28	GTTGATGGACGAGGTGG	61bp
			sgRNA 30	AGCAGCACGTGCCTCGG	62bp
sgRNA 32	GGCCAACTGAACGACGG	56bp
			sgRNA 34	GGCCACGTCGCTCGCGG	55bp
sgRNA 36	CCGATGCAGCCCACCGG	66bp
			sgRNA 38	GCGCATTAGACCAAGGG	83bp
sgRNA 40	GGCGCGACCAACCACGG	40bp

a,sgRNA与表2相同；b,14nt向导序列+PAM；c,dsgRNA靶向位点和sgRNA靶向位点之间的距离以bp表示。

sgRNA靶向位点和dsgRNA结合位点之间的距离范围为32至92bp。与单独使用sgRNA相比，dsgRNA与sgRNA组合与Cas9-TV或Cas9一起转化到水稻原生质体中时，近端dsgRNA提高了所有靶位点编辑的效率(图4a)。平均而言，Cas9-TV与近端dsgRNA组合获得的插入缺失频率比Cas9-TV高1.5倍，比Cas9高2.5倍(图4b)。

此外，在dsgRNA靶向位点未检测到插入缺失(图12)。

近端dsgRNA在开放和封闭染色质区域中促进Cas9-TV编辑(图4c，d)，并且不影响Cas9-TV诱导的插入缺失的模式(图11)。

为了优化近端dsgRNA靶向，靶向sgRNA34的PAM序列的任一侧的位点设计了dsgRNA1、2、6和dsgRNA 3、4、5(表5)(图13)。

表5、dsgRNA靶向序列和其到sgRNA34靶向位点的距离

a,14nt向导序列+PAM；b,dsgRNA靶向位点和sgRNA靶向位点之间的距离以bp表示。

dsgRNA和sgRNA结合位点的距离范围为47至266bp(图5)。将每个dsgRNA或dsgRNA对与Cas9-TV和相应的sgRNA共转化到水稻原生质体中，并通过靶向深度测序测量插入缺失频率。

结果显示，所有dsgRNA增强编辑，但靶向位于切割位点117bp位点的dsgRNA4具有最大效果(图5)。结果还显示，dsgRNA相对于PAM的位置(下游与上游)不会显著影响编辑效率(图5)。

此外，使用dsgRNA对而不是单个dsgRNA不会进一步增加Cas9-TV介导的编辑(图5)。Cas9介导的编辑获得了类似的结果(图7)。

实施例5、Cas9-TV与近端dsgRNA一起增加染色质可及性

使用DNase I消化分析测定了位点26、28和34处的染色质可及性以确定Cas9-TV和dsgRNA的结合是否会改变靶区域的染色质结构。结果显示，Cas9-TV加dsgRNA明显增加了每个位点的染色质可及性(图8)。这些结果表明Cas9-TV/dsgRNA能够增加体内靶位点的染色质可及性。

实施例6、TV和近端dsgRNA均未增加Cas9的脱靶活性

通过使用sgRNA 24、28、34和38对目标和非靶位点的靶向扩增子进行测序来检测插入缺失频率，检测Cas9-TV和Cas9-TV/dsgRNA的脱靶效应。

对于sgRNA 24和28分别鉴定了具有2至4个错配的可能的三个脱靶(OT)位点，针对sgRNA 38鉴定了4个脱靶位点，针对sgRNA 34鉴定了5个脱靶位点(表6)。

表6、对于四个sgRNA在水稻基因组中鉴定的潜在的脱靶位点

靶位点	序列<sup>a</sup>	靶基因基因座
			位点24	ACGGCCGCCTCCGTACGCCGCGG	LOC_Os04g18650
OT24-1	ACGGCCGC<u>T</u>TCCG<u>C</u>ACGCCGCGG	LOC_Os03g05590
			OT24-2	<u>C</u>CG<u>CT</u>CGCC<u>C</u>CCGTACGCCGCGG	LOC_Os06g11400
OT24-3	<u>G</u>CGGCCGC<u>GG</u>CCGTACGC<u>T</u>GGGG	LOC_Os01g73410
			位点28	GTCTTTGGACGTAGCCATGGTGG	LOC_Os04g12220
OT28-1	GTCTTTG<u>C</u>AC<u>A</u>TAGCCATGGCGG	LOC_Os05g04110
			OT28-2	GTCTTT<u>T</u>GA<u>T</u>G<u>C</u>AGC<u>A</u>ATGGAGG	LOC_Os01g56140
OT28-3	GT<u>T</u>TTTGGAC<u>T</u>TAGCCA<u>A</u>GGAGG	LOC_Os04g57390
			位点34	AGACATCGTCACCAAGGCGCAGG	LOC_Os11g08760
OT34-1	<u>C</u>GAC<u>GC</u>CG<u>A</u>CACCAAGGCGCTGG	LOC_Os04g56110
			OT34-2	<u>G</u>GAC<u>G</u>TCCTC<u>G</u>CCAAGGCGCAGG	LOC_Os09g38050
OT34-3	<u>G</u>GACATCGTC<u>GT</u>C<u>G</u>AGGCGCTGG	LOC_Os04g32010
			OT34-4	<u>C</u>GAC<u>G</u>TCGT<u>G</u>ACCAAGG<u>T</u>GCCGG	LOC_Os11g04940
OT34-5	AG<u>T</u>CATCCTCA<u>A</u>CAAGGC<u>C</u>CAGG	LOC_Os02g14059
			位点38	TGGGTAATGGTGATATCCCATGG	LOC_Os09g24280
OT38-1	T<u>A</u>GGT<u>G</u>ATG<u>A</u>TGATAT<u>A</u>CCAAGG	LOC_Os12g29220
			OT38-2	T<u>A</u>GGTA<u>G</u>T<u>T</u>GTGATATC<u>A</u>CAGGG	LOC_Os12g39430
OT38-3	TGGGT<u>G</u>ATG<u>A</u>TGATATCC<u>AT</u>CGG	LOC_Os03g37411
			OT38-4	T<u>AT</u>GT<u>G</u>ATGGTGATATCC<u>T</u>ACGG	LOC_Os12g40790

^a错配碱基以下划线显示，PAM继续以粗体显示。

在所有目标位置，Cas9-TV都具有比Cas9更高的中靶(on target)活性(图9)。

另一方面，在sgRNA24的OT24-2位点和sgRNA34的OT34-1位点，Cas9，Cas9-TV和Cas9-TV/dsgRNA以频率相似诱导插入缺失。在sgRNA24的位点OT24-1和OT24-3，sgRNA28的位点OT28-2和OT28-2，sgRNA34的位点OT34-2、OT34-3、OT34-4和OT34-5，以及sgRNA38的所有脱靶位点，所有核酸酶都没有诱导显著数量的插入缺失。令人惊讶的是，在OT28-3位点，Cas9-TV和Cas9-TV/dsgRNA诱导的插入缺失频率低于Cas9诱导的频率(图9)。

这些结果表明，TV和近端dsgRNA的组合不会改变Cas9的脱靶活性。

序列表

<110> 中国科学院微生物研究所

<120> 改进的基因组编辑系统及其应用

<130> I2019TC3380CB

<160> 7

<170> PatentIn version 3.5

<210> 1

<211> 450

<212> PRT

<213> Artificial Sequence

<220>

<223> Fusion protein

<400> 1

Gly Gly Ser Gly Gly Leu Leu Asp Pro Gly Thr Pro Met Asp Ala Asp

1 5 10 15

Leu Val Ala Ser Ser Thr Val Val Trp Glu Gln Asp Ala Asp Pro Phe

20 25 30

Ala Gly Thr Ala Asp Asp Phe Pro Ala Phe Asn Glu Glu Glu Leu Ala

35 40 45

Trp Leu Met Glu Leu Leu Pro Gln Gly Gly Ser Gly Gly Leu Leu Asp

50 55 60

Pro Gly Thr Pro Met Asp Ala Asp Leu Val Ala Ser Ser Thr Val Val

65 70 75 80

Trp Glu Gln Asp Ala Asp Pro Phe Ala Gly Thr Ala Asp Asp Phe Pro

85 90 95

Ala Phe Asn Glu Glu Glu Leu Ala Trp Leu Met Glu Leu Leu Pro Gln

100 105 110

Ala Arg Gly Gly Ser Gly Gly Leu Leu Asp Pro Gly Thr Pro Met Asp

115 120 125

Ala Asp Leu Val Ala Ser Ser Thr Val Val Trp Glu Gln Asp Ala Asp

130 135 140

Pro Phe Ala Gly Thr Ala Asp Asp Phe Pro Ala Phe Asn Glu Glu Glu

145 150 155 160

Leu Ala Trp Leu Met Glu Leu Leu Pro Gln Gly Gly Ser Gly Gly Leu

165 170 175

Leu Asp Pro Gly Thr Pro Met Asp Ala Asp Leu Val Ala Ser Ser Thr

180 185 190

Val Val Trp Glu Gln Asp Ala Asp Pro Phe Ala Gly Thr Ala Asp Asp

195 200 205

Phe Pro Ala Phe Asn Glu Glu Glu Leu Ala Trp Leu Met Glu Leu Leu

210 215 220

Pro Gln Ala Arg Gly Gly Ser Gly Gly Leu Leu Asp Pro Gly Thr Pro

225 230 235 240

Met Asp Ala Asp Leu Val Ala Ser Ser Thr Val Val Trp Glu Gln Asp

245 250 255

Ala Asp Pro Phe Ala Gly Thr Ala Asp Asp Phe Pro Ala Phe Asn Glu

260 265 270

Glu Glu Leu Ala Trp Leu Met Glu Leu Leu Pro Gln Gly Gly Ser Gly

275 280 285

Gly Leu Leu Asp Pro Gly Thr Pro Met Asp Ala Asp Leu Val Ala Ser

290 295 300

Ser Thr Val Val Trp Glu Gln Asp Ala Asp Pro Phe Ala Gly Thr Ala

305 310 315 320

Asp Asp Phe Pro Ala Phe Asn Glu Glu Glu Leu Ala Trp Leu Met Glu

325 330 335

Leu Leu Pro Gln Ala Arg Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu

340 345 350

Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp Met Leu

355 360 365

Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp

370 375 380

Ala Leu Asp Asp Phe Asp Leu Asp Met Leu Ala Arg Gly Ser Asp Ala

385 390 395 400

Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp

405 410 415

Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu

420 425 430

Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp Met Leu

435 440 445

Ala Arg

450

<210> 2

<211> 1853

<212> PRT

<213> Artificial Sequence

<220>

<223> Fusion protein

<400> 2

Met Ala Pro Lys Lys Lys Arg Lys Val Gly Ile His Gly Val Pro Ala

1 5 10 15

Ala Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser

20 25 30

Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys

35 40 45

Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu

50 55 60

Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg

65 70 75 80

Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile

85 90 95

Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp

100 105 110

Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys

115 120 125

Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala

130 135 140

Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val

145 150 155 160

Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala

165 170 175

His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn

180 185 190

Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr

195 200 205

Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp

210 215 220

Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu

225 230 235 240

Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly

245 250 255

Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn

260 265 270

Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr

275 280 285

Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala

290 295 300

Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser

305 310 315 320

Asp Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala

325 330 335

Ser Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu

340 345 350

Lys Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe

355 360 365

Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala

370 375 380

Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met

385 390 395 400

Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu

405 410 415

Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His

420 425 430

Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro

435 440 445

Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg

450 455 460

Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala

465 470 475 480

Trp Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu

485 490 495

Glu Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met

500 505 510

Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His

515 520 525

Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val

530 535 540

Lys Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu

545 550 555 560

Gln Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val

565 570 575

Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe

580 585 590

Asp Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu

595 600 605

Gly Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu

610 615 620

Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu

625 630 635 640

Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr

645 650 655

Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg

660 665 670

Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg

675 680 685

Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly

690 695 700

Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr

705 710 715 720

Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser

725 730 735

Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys

740 745 750

Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met

755 760 765

Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn

770 775 780

Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg

785 790 795 800

Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His

805 810 815

Pro Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr

820 825 830

Leu Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn

835 840 845

Arg Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu

850 855 860

Lys Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn

865 870 875 880

Arg Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met

885 890 895

Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg

900 905 910

Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu

915 920 925

Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile

930 935 940

Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr

945 950 955 960

Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys

965 970 975

Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val

980 985 990

Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala

995 1000 1005

Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser

1010 1015 1020

Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met

1025 1030 1035

Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr

1040 1045 1050

Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr

1055 1060 1065

Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn

1070 1075 1080

Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala

1085 1090 1095

Thr Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys

1100 1105 1110

Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu

1115 1120 1125

Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp

1130 1135 1140

Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr

1145 1150 1155

Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys

1160 1165 1170

Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg

1175 1180 1185

Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly

1190 1195 1200

Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr

1205 1210 1215

Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser

1220 1225 1230

Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys

1235 1240 1245

Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys

1250 1255 1260

Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln

1265 1270 1275

His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe

1280 1285 1290

Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu

1295 1300 1305

Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala

1310 1315 1320

Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro

1325 1330 1335

Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr

1340 1345 1350

Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser

1355 1360 1365

Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly

1370 1375 1380

Gly Asp Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys

1385 1390 1395

Lys Lys Lys Pro Arg Gly Gly Ser Gly Gly Leu Leu Asp Pro Gly

1400 1405 1410

Thr Pro Met Asp Ala Asp Leu Val Ala Ser Ser Thr Val Val Trp

1415 1420 1425

Glu Gln Asp Ala Asp Pro Phe Ala Gly Thr Ala Asp Asp Phe Pro

1430 1435 1440

Ala Phe Asn Glu Glu Glu Leu Ala Trp Leu Met Glu Leu Leu Pro

1445 1450 1455

Gln Gly Gly Ser Gly Gly Leu Leu Asp Pro Gly Thr Pro Met Asp

1460 1465 1470

Ala Asp Leu Val Ala Ser Ser Thr Val Val Trp Glu Gln Asp Ala

1475 1480 1485

Asp Pro Phe Ala Gly Thr Ala Asp Asp Phe Pro Ala Phe Asn Glu

1490 1495 1500

Glu Glu Leu Ala Trp Leu Met Glu Leu Leu Pro Gln Ala Arg Gly

1505 1510 1515

Gly Ser Gly Gly Leu Leu Asp Pro Gly Thr Pro Met Asp Ala Asp

1520 1525 1530

Leu Val Ala Ser Ser Thr Val Val Trp Glu Gln Asp Ala Asp Pro

1535 1540 1545

Phe Ala Gly Thr Ala Asp Asp Phe Pro Ala Phe Asn Glu Glu Glu

1550 1555 1560

Leu Ala Trp Leu Met Glu Leu Leu Pro Gln Gly Gly Ser Gly Gly

1565 1570 1575

Leu Leu Asp Pro Gly Thr Pro Met Asp Ala Asp Leu Val Ala Ser

1580 1585 1590

Ser Thr Val Val Trp Glu Gln Asp Ala Asp Pro Phe Ala Gly Thr

1595 1600 1605

Ala Asp Asp Phe Pro Ala Phe Asn Glu Glu Glu Leu Ala Trp Leu

1610 1615 1620

Met Glu Leu Leu Pro Gln Ala Arg Gly Gly Ser Gly Gly Leu Leu

1625 1630 1635

Asp Pro Gly Thr Pro Met Asp Ala Asp Leu Val Ala Ser Ser Thr

1640 1645 1650

Val Val Trp Glu Gln Asp Ala Asp Pro Phe Ala Gly Thr Ala Asp

1655 1660 1665

Asp Phe Pro Ala Phe Asn Glu Glu Glu Leu Ala Trp Leu Met Glu

1670 1675 1680

Leu Leu Pro Gln Gly Gly Ser Gly Gly Leu Leu Asp Pro Gly Thr

1685 1690 1695

Pro Met Asp Ala Asp Leu Val Ala Ser Ser Thr Val Val Trp Glu

1700 1705 1710

Gln Asp Ala Asp Pro Phe Ala Gly Thr Ala Asp Asp Phe Pro Ala

1715 1720 1725

Phe Asn Glu Glu Glu Leu Ala Trp Leu Met Glu Leu Leu Pro Gln

1730 1735 1740

Ala Arg Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp Met Leu

1745 1750 1755

Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser

1760 1765 1770

Asp Ala Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala

1775 1780 1785

Leu Asp Asp Phe Asp Leu Asp Met Leu Ala Arg Gly Ser Asp Ala

1790 1795 1800

Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp

1805 1810 1815

Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe

1820 1825 1830

Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu

1835 1840 1845

Asp Met Leu Ala Arg

1850

<210> 3

<211> 5562

<212> DNA

<213> Artificial Sequence

<220>

<223> Fusion protein coding sequence

<400> 3

atggccccta agaagaagag aaaggtcggt attcacggcg ttcctgcggc gatggacaag 60

aagtatagta ttggtctgga cattgggacg aattccgttg gctgggccgt gatcaccgat 120

gagtacaagg tcccttccaa gaagtttaag gttctgggga acaccgatcg gcacagcatc 180

aagaagaatc tcattggagc cctcctgttc gactcaggcg agaccgccga agcaacaagg 240

ctcaagagaa ccgcaaggag acggtataca agaaggaaga ataggatctg ctacctgcag 300

gagattttca gcaacgaaat ggcgaaggtg gacgattcgt tctttcatag attggaggag 360

agtttcctcg tcgaggaaga taagaagcac gagaggcatc ctatctttgg caacattgtc 420

gacgaggttg cctatcacga aaagtacccc acaatctatc atctgcggaa gaagcttgtg 480

gactcgactg ataaggcgga ccttagattg atctacctcg ctctggcaca catgattaag 540

ttcaggggcc attttctgat cgagggggat cttaacccgg acaatagcga tgtggacaag 600

ttgttcatcc agctcgtcca aacctacaat cagctctttg aggaaaaccc aattaatgct 660

tcaggcgtcg acgccaaggc gatcctgtct gcacgccttt caaagtctcg ccggcttgag 720

aacttgatcg ctcaactccc gggcgaaaag aagaacggct tgttcgggaa tctcattgca 780

ctttcgttgg ggctcacacc aaacttcaag agtaattttg atctcgctga ggacgcaaag 840

ctgcagcttt ccaaggacac ttatgacgat gacctggata accttttggc ccaaatcggc 900

gatcagtacg cggacttgtt cctcgccgcg aagaatttgt cggacgcgat cctcctgagt 960

gatattctcc gcgtgaacac cgagattaca aaggccccgc tctcggcgag tatgatcaag 1020

cgctatgacg agcaccatca ggatctgacc cttttgaagg ctttggtccg gcagcaactc 1080

ccagagaagt acaaggaaat cttctttgat caatccaaga acggctacgc tggttatatt 1140

gacggcgggg catcgcagga ggaattctac aagtttatca agccaattct ggagaagatg 1200

gatggcacag aggaactcct ggtgaagctc aatagggagg accttttgcg gaagcaaaga 1260

actttcgata acggcagcat ccctcaccag attcatctcg gggagctgca cgccatcctg 1320

agaaggcagg aagacttcta cccctttctt aaggataacc gggagaagat cgaaaagatt 1380

ctgacgttca gaattccgta ctatgtcgga ccactcgccc ggggtaattc cagatttgcg 1440

tggatgacca gaaagagcga ggaaaccatc acaccttgga acttcgagga agtggtcgat 1500

aagggcgctt ccgcacagag cttcattgag cgcatgacaa attttgacaa gaacctgcct 1560

aatgagaagg tccttcccaa gcattccctc ctgtacgagt atttcactgt ttataacgaa 1620

ctcacgaagg tgaagtatgt gaccgaggga atgcgcaagc ccgccttcct gagcggcgag 1680

caaaagaagg cgatcgtgga ccttttgttt aagaccaatc ggaaggtcac agttaagcag 1740

ctcaaggagg actacttcaa gaagattgaa tgcttcgatt ccgttgagat cagcggcgtg 1800

gaagacaggt ttaacgcgtc actggggact taccacgatc tcctgaagat cattaaggat 1860

aaggacttct tggacaacga ggaaaatgag gatatcctcg aagacattgt cctgactctt 1920

acgttgtttg aggataggga aatgatcgag gaacgcttga agacgtatgc ccatctcttc 1980

gatgacaagg ttatgaagca gctcaagaga agaagataca ccggatgggg aaggctgtcc 2040

cgcaagctta tcaatggcat tagagacaag caatcaggga agacaatcct tgactttttg 2100

aagtctgatg gcttcgcgaa caggaatttt atgcagctga ttcacgatga ctcacttact 2160

ttcaaggagg atatccagaa ggctcaagtg tcgggacaag gtgacagtct gcacgagcat 2220

atcgccaacc ttgcgggatc tcctgcaatc aagaagggta ttctgcagac agtcaaggtt 2280

gtggatgagc ttgtgaaggt catgggacgg cataagcccg agaacatcgt tattgagatg 2340

gccagagaaa atcagaccac acaaaagggt cagaagaact cgagggagcg catgaagcgc 2400

atcgaggaag gcattaagga gctggggagt cagatcctta aggagcaccc ggtggaaaac 2460

acgcagttgc aaaatgagaa gctctatctg tactatctgc aaaatggcag ggatatgtat 2520

gtggaccagg agttggatat taaccgcctc tcggattacg acgtcgatca tatcgttcct 2580

cagtccttcc ttaaggatga cagcattgac aataaggttc tcaccaggtc cgacaagaac 2640

cgcgggaagt ccgataatgt gcccagcgag gaagtcgtta agaagatgaa gaactactgg 2700

aggcaacttt tgaatgccaa gttgatcaca cagaggaagt ttgataacct cactaaggcc 2760

gagcgcggag gtctcagcga actggacaag gcgggcttca ttaagcggca actggttgag 2820

actagacaga tcacgaagca cgtggcgcag attctcgatt cacgcatgaa cacgaagtac 2880

gatgagaatg acaagctgat ccgggaagtg aaggtcatca ccttgaagtc aaagctcgtt 2940

tctgacttca ggaaggattt ccaattttat aaggtgcgcg agatcaacaa ttatcaccat 3000

gctcatgacg catacctcaa cgctgtggtc ggaacagcat tgattaagaa gtacccgaag 3060

ctcgagtccg aattcgtgta cggtgactat aaggtttacg atgtgcgcaa gatgatcgcc 3120

aagtcagagc aggaaattgg caaggccact gcgaagtatt tcttttactc taacattatg 3180

aatttcttta agactgagat cacgctggct aatggcgaaa tccggaagag accacttatt 3240

gagaccaacg gcgagacagg ggaaatcgtg tgggacaagg ggagggattt cgccacagtc 3300

cgcaaggttc tctctatgcc tcaagtgaat attgtcaaga agactgaagt ccagacgggc 3360

gggttctcaa aggaatctat tctgcccaag cggaactcgg ataagcttat cgccagaaag 3420

aaggactggg acccgaagaa gtatggaggt ttcgactcac caacggtggc ttactctgtc 3480

ctggttgtgg caaaggtgga gaagggaaag tcaaagaagc tcaagtctgt caaggagctc 3540

ctgggtatca ccattatgga gaggtccagc ttcgaaaaga atccgatcga ttttctcgag 3600

gcgaagggat ataaggaagt gaagaaggac ctgatcatta agcttccaaa gtacagtctt 3660

ttcgagttgg aaaacggcag gaagcgcatg ttggcttccg caggagagct ccagaagggt 3720

aacgagcttg ctttgccgtc caagtatgtg aacttcctct atctggcatc ccactacgag 3780

aagctcaagg gcagcccaga ggataacgaa cagaagcaac tgtttgtgga gcaacacaag 3840

cattatcttg acgagatcat tgaacagatt tcggagttca gtaagcgcgt catcctcgcc 3900

gacgcgaatt tggataaggt tctctcagcc tacaacaagc accgggacaa gcctatcaga 3960

gagcaggcgg aaaatatcat tcatctcttc accctgacaa accttggggc tcccgctgca 4020

ttcaagtatt ttgacactac gattgatcgg aagagataca cttctacgaa ggaggtgctg 4080

gatgcaaccc ttatccacca atcgattact ggcctctacg agacgcggat cgacttgagt 4140

cagctcgggg gggataagag accagcggca accaagaagg caggacaagc gaagaagaag 4200

aagcctaggg gcggaagcgg cggcctcctg gacccaggaa ccccgatgga cgccgatctc 4260

gtggcgtcca gcacagtggt ctgggagcag gatgcggatc cattcgcggg aaccgcggac 4320

gatttcccag ccttcaacga ggaggagctg gcctggctga tggagctcct gccacagggc 4380

ggctcaggcg gcctcctgga tcctggaaca ccgatggacg cggatctcgt ggcctcatct 4440

accgtcgtct gggagcagga cgccgatcct ttcgccggca cagcggacga tttcccggcc 4500

ttcaatgagg aggagctcgc gtggctgatg gagctgctcc cacaggctag gggcggaagc 4560

ggcggcctcc tggacccagg aaccccgatg gacgccgatc tcgtggcgtc cagcacagtg 4620

gtctgggagc aggatgcgga tccattcgcg ggaaccgcgg acgatttccc agccttcaac 4680

gaggaggagc tggcctggct gatggagctc ctgccacagg gcggctcagg cggcctcctg 4740

gatcctggaa caccgatgga cgcggatctc gtggcctcat ctaccgtcgt ctgggagcag 4800

gacgccgatc ctttcgccgg cacagcggac gatttcccgg ccttcaatga ggaggagctc 4860

gcgtggctga tggagctgct cccacaggct aggggcggaa gcggcggcct cctggaccca 4920

ggaaccccga tggacgccga tctcgtggcg tccagcacag tggtctggga gcaggatgcg 4980

gatccattcg cgggaaccgc ggacgatttc ccagccttca acgaggagga gctggcctgg 5040

ctgatggagc tcctgccaca gggcggctca ggcggcctcc tggatcctgg aacaccgatg 5100

gacgcggatc tcgtggcctc atctaccgtc gtctgggagc aggacgccga tcctttcgcc 5160

ggcacagcgg acgatttccc ggccttcaat gaggaggagc tcgcgtggct gatggagctg 5220

ctcccacagg ctaggggctc agacgccctg gatgatttcg acctcgatat gctgggctca 5280

gatgccctgg acgactttga cctcgacatg ctcggctctg acgcgctcga cgactttgac 5340

ctcgatatgc tcggttccga tgccctggac gacttcgacc tcgacatgct cgctaggggc 5400

tcagacgccc tggatgattt cgacctcgat atgctgggct cagatgccct ggacgacttt 5460

gacctcgaca tgctcggctc tgacgcgctc gacgactttg acctcgatat gctcggttcc 5520

gatgccctgg acgacttcga cctcgacatg ctcgctaggt ag 5562

<210> 4

<211> 83

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA scaffold

<400> 4

gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60

ggcaccgagt cggtgctttt ttt 83

<210> 5

<211> 381

<212> DNA

<213> Oryza sativa

<400> 5

aaggaatctt taaacatacg aacagatcac ttaaagttct tctgaagcaa cttaaagtta 60

tcaggcatgc atggatcttg gaggaatcag atgtgcagtc agggaccata gcacaagaca 120

ggcgtcttct actggtgcta ccagcaaatg ctggaagccg ggaacactgg gtacgtcgga 180

aaccacgtga tgtgaagaag taagataaac tgtaggagaa aagcatttcg tagtgggcca 240

tgaagccttt caggacatgt attgcagtat gggccggccc attacgcaat tggacgacaa 300

caaagactag tattagtacc acctcggcta tccacataga tcaaagctga tttaaaagag 360

ttgtgcagat gatccgtggc a 381

<210> 6

<211> 168

<212> DNA

<213> Artificial Sequence

<220>

<223> VP64-CO

<400> 6

cctaggggct cagacgccct ggatgatttc gacctcgata tgctgggctc agatgccctg 60

gacgactttg acctcgacat gctcggctct gacgcgctcg acgactttga cctcgatatg 120

ctcggttccg atgccctgga cgacttcgac ctcgacatgc tcgctagc 168

<210> 7

<211> 348

<212> DNA

<213> Artificial Sequence

<220>

<223> 2TAL

<400> 7

cctaggggcg gaagcggcgg cctcctggac ccaggaaccc cgatggacgc cgatctcgtg 60

gcgtccagca cagtggtctg ggagcaggat gcggatccat tcgcgggaac cgcggacgat 120

ttcccagcct tcaacgagga ggagctggcc tggctgatgg agctcctgcc acagggcggc 180

tcaggcggcc tcctggatcc tggaacaccg atggacgcgg atctcgtggc ctcatctacc 240

gtcgtctggg agcaggacgc cgatcctttc gccggcacag cggacgattt cccggccttc 300

aatgaggagg agctcgcgtg gctgatggag ctgctcccac aggctagc 348

Claims

1.一种基因组编辑融合多肽，包含CRISPR核酸酶结构域和转录激活结构域(TAD)，优选地，所述转录激活结构域与所述CRISPR核酸酶结构域的C末端融合。

2.权利要求1的基因组编辑融合多肽，其中所述CRISPR核酸酶是Cas9或Cpf1。

3.权利要求1或2的基因组编辑融合多肽，其中所述转录激活结构域包含一或多个VP16-TAD。

4.权利要求1-3任一项的基因组编辑融合多肽，其中所述转录激活结构域包含一或多个TALE-TAD。

5.权利要求1-4任一项的基因组编辑融合多肽，其中所述转录激活结构域包含SEQ IDNO:1的氨基酸序列。

6.权利要求1-5任一项的基因组编辑融合多肽，还包含一或多个核定位序列，优选两个，优选地，其中一个核定位序列位于所述CRISPR核酸酶结构域的N末端，一个核定位序列位于CRISPR核酸酶结构域的C末端与所述转录激活结构域的N末端之间。

7.一种改进的基因组编辑系统，其包含以下i)至v)中至少一项：

i)权利要求1-6任一项的基因组编辑融合多肽和向导RNA；

ii)包含编码权利要求1-6任一项的基因组编辑融合多肽的多核苷酸的表达构建体，和向导RNA；

iii)权利要求1-6任一项的基因组编辑融合多肽，和包含编码向导RNA的核苷酸序列的表达构建体；

iv)包含编码权利要求1-6任一项的基因组编辑融合多肽的多核苷酸的表达构建体，和包含编码向导RNA的核苷酸序列的表达构建体；

v)包含编码权利要求1-6任一项的基因组编辑融合多肽的多核苷酸和编码向导RNA的核苷酸序列的表达构建体。

8.权利要求7的基因组编辑系统，其中所述向导RNA是sgRNA，优选地所述sgRNA靶向封闭染色质区域。

9.权利要求8的基因组编辑系统，还包含或编码dsgRNA，其靶向的位点与所述sgRNA靶向的位点相距30-300bp，优选40-270bp，最优选115-120bp。

10.一种对细胞进行遗传修饰的方法，包括将权利要求7-9任一项的基因组编辑系统引入细胞，优选植物细胞。