CN111247247A

CN111247247A - 使用核苷酸靶识别的靶序列特异性改变技术

Info

Publication number: CN111247247A
Application number: CN201880068289.7A
Authority: CN
Inventors: 刑部敬史; 刑部祐里子
Original assignee: University of Tokushima NUC
Current assignee: University of Tokushima NUC
Priority date: 2017-08-21
Filing date: 2018-08-20
Publication date: 2020-06-05
Also published as: KR20200039775A; AU2018321021B2; JP2022009293A; EP3674404A4; KR102626503B1; SG11202001471SA; EP3674404A1; JP7017259B2; WO2019039417A1; JP7054283B2; NZ762361A; AU2018321021A1; IL272688A; MX2020001998A; US20210363520A1; JPWO2019039417A1; CA3073372A1; BR112020003439A2

Abstract

提供了用于靶向靶核苷酸序列的方法。该方法包括将以下引入细胞内：（i）CRISPR I‑D型相关蛋白Cas5d、Cas6d和Cas7d，或者编码这些蛋白质的核酸；以及（ii）引导RNA或编码所述引导RNA的DNA，所述引导RNA包括与所述靶核苷酸序列互补的序列、以及在所述互补序列之前和之后的衍生自CRISPR基因座的共同重复序列。

Description

使用核苷酸靶识别的靶序列特异性改变技术

技术领域

本发明涉及用于靶向靶核苷酸序列的方法、用于特异性改变靶核苷酸序列的方法和用于抑制靶基因表达的方法，其中利用CRISPR（规律成簇间隔短回文重复）I-D型系统的核苷酸靶识别，以及涉及在所述方法中使用的包含Cas（CRISPR相关）蛋白和引导RNA的复合物。

背景技术

细菌和古细菌具有CRISPR系统作为针对病毒和异源外源质粒的适应性免疫系统。CRISPR系统使用与入侵的DNA序列互补的低分子RNA（称为引导RNA或gRNA），以促进靶外源DNA的靶向和降解。此时，需要与gRNA结合以形成复合物的Cas蛋白。CRISPR系统包括I型、II型、III型和V型系统。在任何系统中，Cas蛋白-gRNA复合物作用于靶序列，以引起病毒和外源质粒的干扰。在II型和V型系统中，干扰机制涉及通过整合蛋白在靶蛋白上的DNA双链断裂，所述整合蛋白具有保留gRNA结合的蛋白质结构域和RuvC样DNA切割蛋白质结构域。对于III型系统，已在体外和体内证实与II型系统不同，干扰由通过5至8种Cas蛋白和gRNA的复合物切割靶RNA序列引起。

近年来，已开发了使用CRISPR II型和V型系统的基因组编辑技术，其中Cas9和Cpf1用作Cas蛋白。Cas9和Cpf1需要在靶序列的附近由约2至5个核苷酸组成的序列，其被称为前间区序列邻近基序（PAM）序列，以便识别靶DNA。已在体外和体内证实，Cas9-gRNA复合物和Cpf1-gRNA复合物是序列特异性RNA引导的核酸内切酶，其在PAM序列附近的靶位点处引起DNA双链断裂。

另一方面，关于CRISPR I型系统，已在来自各种细菌的基因组序列中鉴定出多个亚型，并且亚型已命名为I-A、I-B、I-C、I-D、I-E、I-F和I-U型。在这些亚型中，衍生自大肠杆菌（Escherichia coli）的I-E型系统已得到最多研究，并且已证实由六种Cas蛋白（Cas3、Cse1、Cse2、Cas7、Cas5、Cas6e）和gRNA组成的复合物促进靶DNA序列的降解。然而，对于除了亚型（I-C型）的其它亚型，几乎没有阐明对于干扰效应所需的Cas蛋白组分、gRNA序列、决定靶DNA的PAM序列等。另外，作为使用衍生自CRISPR I型系统的Cas蛋白的技术，已报道了用于抑制靶基因表达的方法，其包括使用编码衍生自CRISPR I型系统的Cas蛋白的重组核酸分子（专利文献1），以及用于改变靶核酸的方法，其包括使用衍生自CRISPR I型系统的Cas蛋白与其它蛋白的复合物（专利文献2和专利文献3）。然而，从未报道通过衍生自CRISPR I型系统的RNA引导的核酸内切酶，用于切割和改变靶DNA分子的双链的技术。

引用列表

专利文献

专利文献1：WO2015/155686

专利文献2：JP-A 2015-503535

专利文献3：WO2017/043573

发明概述

技术问题

在常规的CRISPR II型和V型系统中，待用于靶向的RNA分子限于决定靶特异性的约2至5个核苷酸的PAM序列之前或之后的约20个核苷酸的RNA分子。因此，常规的CRISPR II型和V型系统具有以下问题：存在其中不能设计靶的基因座，以及可能切割相似的序列。需要开发不具有该问题的新型靶向系统和新型RNA引导的核酸内切酶。

问题的解决方案

为了解决上述问题，本发明人进行深入研究。结果令人惊讶的是，从CRISPR I-D型中发现了新型靶向系统和新型RNA引导的内切核酸酶，其靶向比基因组编辑技术中常规使用的CRISPR II型或V型RNA引导的内切核酸酶的靶序列更长的序列，然后发现该新型靶向系统和RNA引导的核酸内切酶可以用于基因组编辑技术中，用于允许对靶核苷酸序列的改变。因此，完成了本发明。

即，本发明提供了：

[1]一种用于靶向靶核苷酸序列的方法，所述方法包括将以下引入细胞内：

（i）CRISPR I-D型相关蛋白Cas5d、Cas6d和Cas7d，或者编码该蛋白质的核酸，和

（ii）引导RNA或编码引导RNA的DNA，所述引导RNA包含与靶核苷酸序列互补的序列、以及在互补序列之前和之后的衍生自CRISPR基因座的共同重复序列；

[2]一种用于改变靶核苷酸序列的方法，所述方法包括将以下引入细胞内：

（i）CRISPR I-D型相关蛋白Cas3d、Cas5d、Cas6d、Cas7d和Cas10d，或者编码该蛋白质的核酸，和

[3]一种用于抑制靶基因表达的方法，所述方法包括将以下引入细胞内：

（i）CRISPR I-D型相关蛋白Cas5d、Cas6d和Cas7d或者编码该蛋白的核酸，和

（ii）引导RNA或编码引导RNA的DNA，所述引导RNA包含与靶基因序列的至少一部分互补的序列、以及在互补序列之前和之后的衍生自CRISPR基因座的共同重复序列；

[4]根据[1]至[3]中任一项的方法，其中所述引导RNA包含与靶核苷酸序列互补的由20至50个核苷酸组成的序列；

[5]根据[2]或[4]的方法，其进一步包括将供体多核苷酸引入细胞内；

[6]根据[2]、[4]和[5]中任一项的方法，其中所述改变是核苷酸缺失、插入或取代；

[7]根据[1]至[6]中任一项的方法，其中所述Cas5d将5'-GTH-3'（H ＝ A、C或T）识别为前间区序列邻近基序（PAM）序列；

[8]一种复合物，其包含：

（i）CRISPR I-D型相关蛋白Cas5d、Cas6d和Cas7d，和

（ii）引导RNA，其包含与靶核苷酸序列互补的序列、以及在互补序列之前和之后的衍生自CRISPR基因座的共同重复序列；

[9]根据[8]的复合物，其进一步包含Cas3d和Cas10d；

[10]根据[8]或[9]的复合物，其中所述引导RNA包含与靶核苷酸序列互补的由20至50个核苷酸组成的序列；

[11]一种表达载体，其包含：

（i）编码CRISPR I-D型相关蛋白Cas5d、Cas6d和Cas7d的核酸，和

（ii）编码引导RNA的DNA，所述引导RNA包含与靶核苷酸序列互补的序列、以及在互补序列之前和之后的衍生自CRISPR基因座的共同重复序列；

[12]根据[11]的表达载体，其进一步包含编码Cas3d和Cas10d的核酸；

[13]一种DNA分子，其编码根据[8]至[10]中任一项的复合物；

[14]以下用于靶向靶核苷酸序列的用途

[15]以下用于改变靶核苷酸序列的用途

[16]以下用于抑制靶基因表达的用途

（i）CRISPR I-D型相关蛋白Cas5d、Cas6d和Cas7d或者编码该蛋白质的核酸，和

[17]根据[14]至[16]中任一项的用途，其中所述引导RNA包含与靶核苷酸序列互补的由20至50个核苷酸组成的序列；

[18]根据[15]或[17]的用途，其中所述改变是核苷酸缺失、插入或取代；

[19]根据[14]至[18]中任一项的用途，其中所述Cas5d将5'-GTH-3'（H ＝ A、C或T）识别为前间区序列邻近基序（PAM）序列；

[20]包含以下的复合物用于靶向靶核苷酸序列的用途：

（i）CRISPR I-D型相关蛋白Cas5d、Cas6d和Cas7d，和

[21]包含以下的复合物用于改变靶核苷酸序列的用途：

（i）CRISPR I-D型相关蛋白Cas3d、Cas5d、Cas6d、Cas7d和Cas10d，和

[22]包含以下的复合物用于抑制靶基因表达的用途：

（i）CRISPR I-D型相关蛋白Cas5d、Cas6d和Cas7d，和

（ii）引导RNA，其包含与靶基因序列的至少一部分互补的序列、以及在互补序列之前和之后的衍生自CRISPR基因座的共同重复序列；和

[23]根据[20]至[22]中任一项的用途，其中所述引导RNA包含与靶核苷酸序列互补的由20至50个核苷酸组成的序列。

发明效果

CRISPR I-D型（下文也称为“TiD”）系统的PAM序列与CRISPR II型系统和V型系统的PAM序列不同。因此，根据本发明，CRISPR I-D型的Cas蛋白的使用使得能够靶向基因座，所述基因座无法通过使用CRISPR II型或V型RNA引导的核酸内切酶的常规基因组编辑技术靶向。此外，本发明的CRISPR I-D型衍生的RNA引导的核酸内切酶的PAM序列比CRISPR II型和V型的PAM序列更频繁地在一些生物的基因组序列上发现。因此，根据本发明，能够靶向比利用CRISPR II型和V型系统的常规基因组编辑技术更大数目的基因序列。此外，本发明人发现，CRISPR I-D型系统中的gRNA可以靶向长度为30个核苷酸或更长的靶序列。另一方面，CRISPR II型或V型系统中的gRNA可以靶向长度为约20个核苷酸的序列。因此，本发明的CRISPR I-D型系统显示比常规技术更稳定的结合特性和靶特异性。

因此，根据本发明，能够实现突变等位基因的生成，通过转录激活和失活的基因表达控制，以及在不能通过常规技术靶向的基因区域上通过DNA修饰/组蛋白修饰蛋白质结构域的靶向的表观基因组改变。

附图简述

图1概述了本发明的CRISPR I-D型系统的组分，以及对靶序列的靶向和切割模式。

图2显示了用于大肠杆菌基因组编辑的TiD表达载体：a）pEcTiD2质粒的结构；b）pEcTiD3质粒的结构，Pro：J23108合成启动子，t1：终止子序列STOP767，RBS：核糖体结合序列，t2：终止子序列STOP768（1），t3：终止子序列TOP768（2），t7：T7终止子序列，7d：衍生自铜绿微囊藻（Microcystis aeruginosa）（下文缩写为“Ma”）的Cas7d，6d：MaCas6d，5d：MaCas5d，3d：MaCas3d，10d：MaCas10d，T7 pro：T7启动子，crRNA：TiD衍生的CRISPR重复序列，Cm：氯霉素抗性基因，p15A ori：p15A质粒衍生的复制起点。

图3显示了pMW_ccdB和pMW_ccdB-PAM文库质粒的结构：a）pMW_ccdB的结构，t2：rrnB2终止子序列，t1：rrnB1终止子序列，PAM：前间区序列邻近基序序列，T7 pro：T7启动子，ccdB：ccdB基因，Km：卡那霉素抗性基因，pSC101 ori：pSC101质粒衍生的复制起点；b）pMW_ccdB-PAM质粒文库的靶序列，其中将4个随机核苷酸插入NNNN位点内，以获得PAM序列筛选文库质粒，带框区域指示T7启动子，有下划线的序列指示TiD靶序列，并且大写字母指示ccdB基因座。

图4显示了用于植物基因组编辑的TiD表达载体：a）pEgPTiD1质粒的结构；b）用于植物的crRNA表达盒的结构；c）pEgPTiD2质粒的结构，RB：右边界序列，LB：左边界序列，2x35S：2x花椰菜花叶病毒35S基因启动子和翻译增强子Ω序列，3d：具有编码2xNLS（核定位信号）的序列的MaCas3d，10d：具有2xNLS的MaCas10d，7d：具有2xNLS的MaCas7d，6d：具有2xNLS的MaCas6d，5d：具有2xNLS的MaCas5d，2A（1）-（4）：自切割肽2A序列（1）-（4），Ter：拟南芥属热休克蛋白18.2 kDa基因终止子，Km：卡那霉素抗性基因表达盒，U6-26：拟南芥属U6snRNA-26基因启动子，crRNA：TiD基因座衍生的CRISPR重复序列。

图5-1显示了使用pEgPTiD2-pds的烟草PDS基因的诱变：a）烟草PDS基因上的靶序列，其中靶序列1选自第三个外显子，且靶序列2选自第六个外显子，下图中所示的靶序列中的带框部分指示PAM序列，且有下划线的部分指示靶序列；b）通过农杆菌渗入法引入pEgPTiD2-pds和GFP表达二元载体，其中携带pEgPTiD2-pds（1）或pEgPTiD-pds（2）的农杆菌和携带GFP表达二元质粒的农杆菌通过农杆菌渗入法被感染，并且切下其中观察到GFP表达的叶盘，并用于PDS突变引入的分析。

图5-2显示了使用pEgPTiD2-pds的烟草PDS基因的定点诱变：c）通过Cel-1测定分析PDS突变引入，其中基因组DNA由其中在图5-b）中观察到GFP表达的叶盘制备，并且通过Cel-1测定分析突变的存在或不存在。三角形标记物指示通过Cel-1核酸酶切割的突变的PDS基因片段。

图6显示了使用pEgPTiD2-iaa9的番茄IAA9基因诱变：a）番茄IAA9基因上的靶序列，其中靶序列1选自第二个外显子，下图中所示的靶序列中的带框部分指示PAM序列，并且有下划线的部分指示靶序列；b）通过农杆菌属（Agrobacterium）方法将pEgPTiD2-iaa9引入番茄叶盘内，以获得转化的愈伤组织细胞；c）通过PCR-RFLP的突变分析，其中通过PCR从基因组DNA中扩增含有IAA9靶序列的区域，所述基因组DNA由pEgPTiD2-iaa9引入其内的转化的愈伤组织细胞制备，并且通过使用AccI的PCR-RFLP执行突变分析。空心三角形指示野生型衍生的AccI切割片段，并且空心三角形上方的三角形指示未经历AccI切割的突变片段。

图7显示了通过在引入pEcTiD2-iaa9的愈伤组织中的测序的突变分析。上部序列显示了野生型IAA9序列，并且加下划线的部分指示靶序列。带框序列指示PAM序列。其中发生突变的位点由插入符号或连字符显示。连字符指示核苷酸缺失。

图8显示了在引入pEcTiD2-iaa9的再生植物中的突变分析：a）通过PCR-RFLP的突变分析，其中空心三角形指示野生型衍生的AccI切割片段，并且空心三角形上方的三角形指示未经历AccI切割的突变片段；以及b）引入突变的番茄植物的照片，其显示了由于IAA9基因破坏的真叶形态异常。

图9显示了使用HEK293细胞系的基因组编辑的实验方案。

图10显示了通过异源双链体迁移率分析的突变分析的结果。从细胞的基因组中检测到被认为衍生自突变序列的片段（黑键符号），在所述细胞内引入含有EMX1基因的靶1的序列和TiD基因的crRNA。

图11显示了通过异源双链体迁移率分析的突变分析的结果。从细胞的基因组中检测到被认为衍生自突变序列的片段（黑键符号），在所述细胞内引入含有EMX1基因的靶2的序列和TiD基因的crRNA。

图12显示了突变序列的测序分析。黑色背景中的白色字母指示由TiD识别的PAM（前间区序列邻近序列）。带框序列指示靶序列。连字符（-）指示核苷酸缺失。黑色粗体小写字母字符指示核苷酸插入。在每个序列的右侧，显示了体细胞突变效率（其中观察到突变序列的克隆数目/分析的克隆总数目）。

图13显示了突变序列的测序分析。黑色背景中的白色字母指示由TiD识别的PAM（前间区序列邻近序列）。带框序列指示靶序列。连字符（-）指示核苷酸缺失。黑色粗体小写字母字符指示核苷酸插入。在每个序列的右侧，显示了体细胞突变效率（其中观察到突变序列的克隆数目/分析的克隆总数目）。

用于实施本发明的方式

本发明提供了利用CRISPR I-D型系统的基因组编辑技术。具体地，在CRISPR I-D型Cas蛋白中，在本发明中使用Cas3d、Cas5d、Cas6d、Cas7d和Cas10d。在本发明中，发现CRISPR I-D型系统包括包含Cas5d、Cas6d和Cas7d的靶识别模块，以及包含Cas3d和Cas10d的多核苷酸切割模块。

具体地，本发明的作用原理如下。

包含以下的复合物：

1）对于靶核苷酸序列的靶向（下文也称为“靶向”）是必需的gRNA，其包含与靶核苷酸序列互补的序列和存在于CRISPR I-D型基因座中的共同重复序列，

2）Cas5d，其识别存在于靶核苷酸序列附近的PAM序列，

3）Cas7d，其与1）的gRNA结合，并且对于靶核苷酸序列的靶向是必需的，和

4）Cas6d，其执行1）的gRNA的加工，以及

5）包含Cas10d和Cas3d的复合物，所述Cas10d与包含1）至4）的复合物相互作用并执行靶核苷酸序列的重塑，所述Cas3d执行多核苷酸的降解，

被提供给细胞，并且在该细胞中执行

6）通过包含1）至4）的复合物靶向靶核苷酸序列，即，

7）通过包含成熟gRNA以及2）和3）的复合物靶向靶核苷酸序列，所述成熟gRNA通过经由4）的Cas6d加工1）的gRNA获得，

并且

8）通过5）的复合物切割靶核苷酸序列上的多核苷酸。

因此，本发明提供了用于靶向靶核苷酸序列的方法（下文也称为“本发明的靶序列靶向方法”）、用于改变靶核苷酸序列的方法（下文称为“本发明的靶序列改变方法”）、以及用于抑制靶基因表达的方法（下文也称为“本发明的靶基因表达抑制方法”），其中CRISPRI-D型系统用于方法中。此外，本发明提供了包含CRISPR I-D型相关的Cas蛋白和gRNA的复合物（下文也称为“本发明的复合物”）、以及包含编码复合物的核酸分子的载体，其在本发明的上述方法中使用。

（1）细胞

在本发明中，细胞可以是原核细胞或真核细胞，并无特别限制。细胞的实例包括细菌、古细菌、酵母、植物细胞、昆虫细胞和动物细胞（例如人细胞、非人细胞、非哺乳动物脊椎动物细胞、无脊椎动物细胞等）。

（2）RNA引导的核酸内切酶和Cas蛋白

在本发明中，“RNA引导的核酸内切酶”意指包含至少一个核酸酶结构域以及与gRNA结合的至少一个结构域的核酸内切酶，其被gRNA引导至靶核苷酸序列（或靶核苷酸位点）。用于本发明中的RNA引导的核酸内切酶是衍生自CRISPR I-D型的RNA引导的核酸内切酶，并且包含CRISPR I-D型相关蛋白Cas3d、Cas5d、Cas6d、Cas7d和Cas10d。在本发明中，发现Cas5d、Cas6d和Cas7d构成促成靶识别的“靶识别模块”，并且Cas3d和Cas10d构成促成多核苷酸的切割的“多核苷酸切割模块”。具体地，用于本发明中的RNA引导的核酸内切酶包括包含Cas5d、Cas6d和Cas7d的靶识别模块、以及包含Cas3d和Cas10d的多核苷酸切割模块。

本发明中使用的Cas3d、Cas5d、Cas6d、Cas7d和Cas10d可以衍生自任何细菌或古细菌。细菌和古细菌的实例包括铜绿微囊藻、阿拉伯糖醋盐杆菌（Acetohalobium arabaticum）、Ammonifex degensii、柱胞鱼腥藻（Anabaena cylindrica）、多变鱼腥藻（Anabaena variabilis）、产乳酸乙酸热解纤维素菌（Caldicellulosiruptor lactoaceticus）、Caldilinea aerophila、Clostridium algicarnis、Crinalium epipsammum、蓝丝菌属物种（Cyanothece Sp.）、静水筒孢藻（Cylindrospermum stagnale）、Haloquadratum walsbyi、湖渊盐红菌（Halorubrum lacusprofundi）、Methanocaldococcus vulcanius、亨氏甲烷螺菌（Methanospirillum hungatei）、亚洲嗜盐无色菌（Natrialba asiatica）、Natronomonas pharaonis、点形念珠藻（Nostoc punctiforme）、Phormidesmis priestleyi、尖细颤藻（Oscillatoria acuminata）、Picrophilus torridus、嗜热螺旋体（Spirochaeta thermophila）、Stanieria cyanosphaera、酸热硫化叶菌（Sulfolobus acidocaldarius）、冰岛硫化叶菌（Sulfolobus islandicus）、集胞藻属物种（Synechocystis Sp.）、Thermacetogenium phaeum、Thermofilum pendens等。Cas蛋白的氨基酸序列和核苷酸序列信息可从公共数据库，例如NCBI GenBank获得。另外，还可以通过使用BLAST程序，从通过宏基因组分析等等获得的微生物基因组数据中获得来自新微生物物种的序列。在基于氨基酸序列信息，选择用于在核酸引入其内的宿主细胞中的翻译的最佳密码子之后，可以例如通过化学合成等等来构建编码Cas蛋白的核酸。宿主细胞中频繁使用的密码子的使用能够增加蛋白质的表达水平。例如，可以基于氨基酸序列信息化学合成Cas蛋白，或者通过经由适当的载体将编码Cas蛋白的核酸引入细胞内而在细胞中产生Cas蛋白等等。Cas3d、Cas5d、Cas6d、Cas7d和Cas10d的每种Cas蛋白可以是突变型Cas蛋白，只要它保留了如本发明的作用原理中所述的每种Cas蛋白的功能。

（3）引导RNA

在本发明中，引导RNA（gRNA）是这样的分子，其与靶识别模块（Cas5d、Cas6d和Cas7d）形成复合物，以连同这些Cas蛋白一起靶向靶核苷酸序列。在本发明中，gRNA与靶识别模块的Cas7d结合。在本发明中，gRNA与包含Cas5d、Cas6d和Cas7d的复合物结合，以将复合物引导至靶核苷酸序列。例如，gRNA与RNA引导的核酸内切酶的靶识别模块结合，以将RNA引导的核酸内切酶引导至靶核苷酸序列。当靶识别模块作为融合蛋白的一部分而不是RNA引导的核酸内切酶存在时，gRNA与靶识别模块结合，以将融合蛋白引导至靶核苷酸序列。

gRNA包含与靶序列互补的序列，使得可以在gRNA与靶核苷酸序列之间形成碱基对，以及在互补序列之前和之后（在其5'末端侧和3'末端侧处）的衍生自CRISPR I-D型基因座的共同重复序列。gRNA的共同重复序列部分可能具有至少一个发夹结构。例如，置于与靶核苷酸序列互补的序列的5’末端侧处的共同重复序列部分可以具有发夹结构，并且置于与靶核苷酸序列互补的序列的3’末端侧处的共同重复序列部分可以是单链的。在本发明中，gRNA优选具有发夹结构。

通过使用串联重复搜索程序，可以从与I-D型基因群邻近的gRNA基因序列区域中找到衍生自CRISPR I-D型基因座的共同重复序列。gRNA中包含的共同重复序列的核苷酸长度并无特别限制，只要gRNA与靶识别模块相互作用以靶向靶核苷酸序列。例如，在与靶核苷酸序列互补的序列之前和之后的各共同重复序列可以具有约10至70个核苷酸的长度，例如30至50个核苷酸的长度。

gRNA可以含有由约10至70个核苷酸组成的序列，其与靶核苷酸序列互补。gRNA中包含的与靶核苷酸序列互补的序列优选为由20至50个核苷酸组成的序列，更优选为由25至45个核苷酸组成的序列，更优选为由30至40个核苷酸组成的序列，或甚至更优选为由32至37个核苷酸组成的序列，例如由32个核苷酸、33个核苷酸、34个核苷酸、35个核苷酸、36个核苷酸或37个核苷酸组成的序列。随着可以靶向的靶序列越长，通过gRNA的靶识别的序列特异性越大地增加。另外，随着可以靶向的靶序列越长，在gRNA与靶序列之间形成的碱基对的Tm值就越高，且因此靶识别的稳定性越大地增加。由于可以通过关于常规基因组编辑技术中使用的RNA引导的核酸内切酶（例如Cas9和Cpf1）的gRNA靶向的序列长度为约20至24个核苷酸的长度，因此与常规方法相比，本发明在序列特异性和稳定性方面是极佳的。

（4）靶核苷酸序列

在本发明中，靶核苷酸序列（如本文使用的，也称为“靶序列”）是任何核酸序列，并无特别限制，只要它是位于前间区序列邻近基序（PAM）附近的序列。靶核苷酸序列可以是双链DNA序列、单链DNA序列或RNA序列。DNA的实例包括真核核基因组DNA、线粒体DNA、质体DNA、原核基因组DNA、噬菌体DNA和质粒DNA。在本发明中，靶核苷酸序列优选是基因组上的双链DNA。如本文使用的，短语“在……附近”既包括与位置邻接又包括与位置接近。如本文使用的，“附近”既包括邻接又包括邻近。

用于CRISPR系统的靶识别的PAM序列取决于CRISPR系统的类型而变。在本发明中，发现由CRISPR I-D型系统利用的PAM序列是5'-GTH-3'（H ＝ A、C或T）（实施例1）。优选地，选择位于PAM序列的3'下游侧附近的序列作为靶核苷酸序列。例如，靶核苷酸序列可以是位于PAM序列附近，并且存在于靶基因的内含子、编码区、非编码区或控制区中的序列。靶基因可以是任何基因并且任选地选择。

关于常规基因组编辑技术中使用的Cas9和Cpf1的PAM序列分别为5'-NGG-3'（N =A、C、G或T）和5'-TTTV-3'（V = A、C或G）。将关于TiD的PAM序列的出现频率（即CRISPR系统的候选靶数目）与关于高等植物的基因组序列中Cas9和Cpf1的PAM序列的出现频率进行比较。结果，发现关于TiD的PAM序列的出现频率最高，并且TiD具有比使用Cas9和Cpf1的常规基因组编辑技术更大数目的靶（表1）。

[表1]

（5）本发明的靶向靶序列的方法

本发明的靶向靶序列的方法的特征在于将靶识别模块（Cas5d、Cas6d和Cas7d）和gRNA引入细胞内。具体地，本发明的靶序列靶向方法的特征在于将以下引入细胞内：（i）Cas5d、Cas6d和Cas7d，或者编码这些蛋白质的核酸，以及（ii）gRNA或编码gRNA的DNA。本发明的靶序列靶向方法可以在体外或体内执行。

在本发明的靶向靶序列的方法中，可以将靶识别模块作为包含Cas5d、Cas6d和Cas7d的分离的复合物引入细胞内，或者可以将Cas5d、Cas6d和Cas7d各自作为分离的单一蛋白质引入细胞内。在本发明的靶序列靶向方法中，靶识别模块也可以作为编码Cas蛋白Cas5d、Cas6d和Cas7d的核酸引入细胞内。核酸的实例包括RNA例如mRNA和DNA。

编码Cas蛋白的DNA可以包含在例如载体中。DNA序列优选可操作地连接至调节序列，例如启动子或终止子。当靶识别模块引入其内的细胞是真核细胞时，优选将核定位信号序列加入编码Cas蛋白的DNA中。编码Cas蛋白Cas5d、Cas6d和Cas7d的两种或更多种或所有DNA可以包含在单一载体中，或可以包含在分开的载体中。载体的数目以及由待掺入每种载体内的DNA编码的Cas蛋白的种类和组合并无限制。当在单一载体中包含编码Cas蛋白的两种或更多种DNA时，DNA序列可以例如经由编码自切割肽的序列彼此连接，以便被多顺反子表达。编码Cas蛋白的两种或更多种DNA可以以任何次序连接。

可以将gRNA作为RNA或编码gRNA的DNA引入细胞内。编码gRNA的DNA可以包含在例如载体中。DNA序列优选可操作地连接至调节序列，例如启动子或终止子。

编码Cas蛋白的DNA和编码gRNA的DNA可以包含在同一载体中，或可以包含在分开的载体中。例如，编码Cas5d、Cas6d和Cas7d的一种或多种或所有DNA以及编码gRNA的DNA可以包含在单一载体中。

调节序列例如启动子或终止子和核定位信号序列是本领域已知的，并且可以取决于其中靶识别模块和gRNA引入其内的细胞衍生自其的生物物种适当地选择。用于引入的载体可以取决于其中载体引入其内的细胞衍生自其的生物物种适当地选择，并无特别限制。载体的实例包括质粒载体、病毒载体、噬菌粒、粘粒、人工/微型染色体和转座子。

可以通过本领域已知的各种手段将靶识别模块和gRNA引入细胞内。此类手段的实例包括转染，例如磷酸钙介导的转染、电穿孔、脂质体转染等，病毒转导，脂转染，基因枪，显微注射，农杆菌属方法，农杆菌渗入法和PEG-钙法。

靶识别模块和gRNA可以同时或序贯地引入细胞内。构成靶识别模块的Cas5d、Cas6d和Cas7d，或者编码这些Cas蛋白的核酸可以同时或序贯地引入细胞内。例如，在体外或体内合成的Cas蛋白Cas5d、Cas6d和Cas7d，以及在体外或体内合成的gRNA，可以在体外进行温育以形成复合物，并且可以将该复合物引入细胞内。

在引入靶识别模块和gRNA后，在合适的条件下培养细胞用于靶核苷酸序列的靶向。然后在合适的条件下培养细胞用于细胞生长和维持。培养条件可以适合于其中靶识别模块和gRNA引入其内的细胞衍生自其的生物物种，并且可以由本领域技术人员例如基于已知的细胞培养技术适当地确定。

根据本发明的靶向靶序列的方法，gRNA与靶识别模块的Cas7d结合，以形成靶识别模块和gRNA的复合物。同时，gRNA与靶核苷酸序列形成碱基对。靶识别模块通过识别存在于靶核苷酸序列附近的PAM序列，以序列特异性的方式靶向靶核苷酸序列。在本发明的靶序列靶向方法中，可以将Cas10d进一步引入细胞内。

（6）本发明的靶向靶序列的方法

本发明的靶序列改变方法的特征在于将RNA引导的核酸内切酶和gRNA引入细胞内。具体地，本发明的靶序列改变方法的特征在于将以下引入细胞内：（i）Cas3d、Cas5d、Cas6d、Cas7d和Cas10d，或者编码该蛋白质的核酸，以及（ii）gRNA或编码gRNA的DNA。本发明的靶序列改变方法包括用多核苷酸切割模块切割由本发明的靶序列靶向方法靶向的核苷酸序列。本发明的靶序列改变方法可以在体外或体内执行。在本发明中，改变包括一个或多个核苷酸的缺失、插入和取代，及其组合。

在本发明的改变靶序列的方法中，除RNA引导的核酸内切酶和gRNA之外，还可以将供体多核苷酸引入细胞内。供体多核苷酸包含至少一个供体序列，其含有期望引入靶位点内的改变。除供体序列之外，供体多核苷酸还可以包含在供体序列的两个末端处，与靶序列的上游和下游序列具有高度同源性的序列（优选与靶序列的上游和下游序列基本上相同的序列）。供体多核苷酸可以是单链或双链DNA。供体多核苷酸可以由本领域技术人员基于本领域已知的技术适当地设计。

当在本发明的改变靶序列的方法中不存在供体多核苷酸时，可以通过非同源末端连接（NHEJ）来修复靶核苷酸序列中的切割。已知NHEJ是易错的，并且在切割修复期间可能发生一个或多个核苷酸的缺失、插入或取代，或其组合。因此，可以在靶序列位点处改变序列，并且从而诱导移码或不成熟的终止密码子，以失活或敲除由靶序列区域编码的基因的表达。

当供体多核苷酸存在于本发明的改变靶序列的方法中时，将供体多核苷酸的供体序列插入靶序列位点内，或通过切割的靶核苷酸序列的同源重组修复（HDR）替换靶序列位点。结果，将期望的改变引入靶序列位点内。

可以将RNA引导的核酸内切酶作为包含Cas5d、Cas6d、Cas7d、Cas3d和Cas10d的分离的复合物引入细胞内，或者可以将Cas5d、Cas6d、Cas7d、Cas3d和Cas10d各自作为分离的单一蛋白质引入细胞内。RNA引导的核酸内切酶也可以作为编码Cas蛋白Cas5d、Cas6d、Cas7d、Cas3d和Cas10d的核酸引入细胞内。核酸的实例包括RNA例如mRNA和DNA。

编码Cas蛋白的DNA可以包含在例如载体中，并且DNA序列优选可操作地连接至调节序列，例如启动子或终止子。当RNA引导的核酸内切酶引入其内的细胞是真核细胞时，优选将核定位信号序列加入编码Cas蛋白的DNA中。编码Cas蛋白Cas3d、Cas5d、Cas6d、Cas7d和Cas10d的两种或更多种或所有DNA可以包含在单一载体中，或可以包含在分开的载体中。载体的数目以及由待掺入每种载体内的DNA编码的Cas蛋白的种类和组合并无限制。当在单一载体中包含编码Cas蛋白的两种或更多种DNA时，DNA序列可以例如经由编码自切割肽的序列彼此连接，以便被多顺反子表达。编码Cas蛋白的两种或更多种DNA可以以任何次序连接。

编码Cas蛋白的DNA和编码gRNA的DNA可以包含在同一载体中，或可以包含在分开的载体中。例如，编码Cas3d、Cas5d、Cas6d、Cas7d和Cas10d的一种或多种或所有DNA以及编码gRNA的DNA可以包含在单一载体中。

调节序列例如启动子或终止子和核定位信号序列是本领域已知的，并且可以取决于RAN引导的核酸内切酶和gRNA引入其内的细胞的种类适当地选择。用于引入的载体可以取决于载体引入其内的细胞的种类适当地选择，并无特别限制。载体的实例包括质粒载体、病毒载体、噬菌粒、粘粒、人工/微型染色体和转座子。

可以通过本领域已知的各种手段将RNA引导的核酸内切酶、gRNA和供体多核苷酸引入细胞内。此类手段的实例包括转染，例如磷酸钙介导的转染、电穿孔、脂质体转染等，病毒转导，脂转染，基因枪，显微注射，农杆菌属方法，农杆菌渗入法和PEG-钙法。

RNA引导的核酸内切酶、gRNA和供体多核苷酸可以同时或序贯地引入细胞内。构成RNA引导的核酸内切酶的Cas3d、Cas5d、Cas6d、Cas7d和Cas10d，或者编码这些Cas蛋白的核酸可以同时或序贯地引入细胞内。

在引入RNA引导的核酸内切酶和gRNA或RNA引导的核酸内切酶、gRNA和供体多核苷酸后，在合适的条件下培养细胞用于在靶序列位点处的切割。然后在合适的条件下培养细胞用于细胞生长和维持。培养条件可以适合于RNA引导的内切核酸酶和gRNA或RNA引导的内切核酸酶、gRNA和供体多核苷酸引入其内的细胞所来源的生物物种，并且可以由本领域技术人员例如基于已知的细胞培养技术适当地确定。

根据本发明的改变靶序列的方法，gRNA与靶核苷酸序列形成碱基对，并且同时，gRNA与RNA引导的核酸内切酶的靶识别模块相互作用，以将RNA引导的核酸内切酶引导至靶序列位点。然后，RNA引导的核酸内切酶的切割模块在靶序列位点处切割该序列。当切割的序列被修复时，靶序列被改变。例如，本发明的改变靶序列的方法可以用于改变基因组上的靶核苷酸序列。通过本发明的改变靶序列的方法切割基因组上的双链DNA，然后在靶位点处改变。

（7）本发明的靶基因抑制的方法

本发明的靶基因表达抑制方法的特征在于将靶识别模块（Cas5d、Cas6d和Cas7d）和gRNA引入细胞内。具体地，本发明的靶基因抑制的方法的特征在于将以下引入细胞内：（i）Cas5d、Cas6d和Cas7d，或者编码该蛋白质的核酸，以及（ii）gRNA或编码gRNA的DNA。在本发明的靶基因抑制的方法中，选择靶基因序列的至少一部分作为靶核苷酸序列，并且使用含有与靶序列互补的序列的gRNA。本发明的靶基因抑制的方法包括：当通过本发明的靶基因抑制的方法靶向靶核苷酸序列时，通过靶识别模块和gRNA的复合物与靶序列的结合，抑制含有靶序列的基因的表达。本发明的靶基因抑制的方法可以在体外或体内执行。根据本发明的靶基因抑制的方法，尽管靶基因序列未被切割，但含有靶序列的基因区域的功能或基因的表达通过靶识别模块和gRNA的复合物与靶核苷酸序列的结合而被抑制。

靶识别模块和gRNA，用于将其引入细胞内的方法，在引入时和在引入后的细胞培养等等如“（5）本发明的靶向靶序列的方法”中所述。在本发明的靶基因抑制的方法中，可以将Cas10d进一步引入细胞内。

（8）本发明的复合物

本发明的复合物包含CRISPR I-D型Cas蛋白和gRNA。本发明特别提供了包含靶识别模块和gRNA的复合物，以及包含RNA引导的核酸内切酶和gRNA的复合物。更具体地，提供了包含Cas5d、Cas6d、Cas7d和gRNA的复合物，以及包含Cas5d、Cas6d、Cas7d、Cas3d、Cas10d和gRNA的复合物。另外，提供了编码复合物的DNA分子。本发明的复合物可以用于本发明的改变靶序列的方法，靶基因抑制的方法和靶向靶序列的方法中。通过将包含RNA引导的核酸内切酶（包含Cas5d、Cas6d、Cas7d、Cas3d和Cas10d的复合物）和gRNA的复合物引入细胞内，以允许该复合物在细胞中起作用，可以改变细胞的基因组上的靶序列。另外，通过将包含靶识别模块（包含Cas5d、Cas6d和Cas7d的复合物）和gRNA的复合物引入细胞内，以允许该复合物在细胞中起作用，可以靶向细胞中的靶序列，并且可以抑制由靶序列区域编码的基因的表达。包含靶识别模块和gRNA的复合物可以进一步含有Cas10d。

本发明的复合物可以通过常规方法在体外或体内生产。例如，可以将编码构成RNA引导的核酸内切酶或靶识别模块的Cas蛋白的核酸、以及gRNA或编码gRNA的DNA引入细胞内，以允许复合物在细胞中形成。

本发明的复合物的实例包括但不限于包含以下的复合物：来自铜绿微囊藻的Cas5d（SEQ ID NO：1）、Cas6d（SEQ ID NO：2）和Cas7d（SEQ ID NO：3），以及由通过GUUCCAAUUAAUCUUAAGCCCUAUUAGGGAUUGAAACNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGUUCCAAUUAAUCUUAAGCCCUAUUAGGGAUUGAAAC（SEQ ID NO：6；N是构成与靶核苷酸序列互补的序列的任何核苷酸）显示的序列组成的gRNA；以及包含以下的复合物：来自铜绿微囊藻的Cas5d（SEQ IDNO：1）、Cas6d（SEQ ID NO：2）、Cas7d（SEQ ID NO：3）、Cas3d（SEQ ID NO：4）和Cas10d（SEQ IDNO：5），以及由通过GUUCCAAUUAAUCUUAAGCCCUAUUAGGGAUUGAAACNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGUUCCAAUUAAUCUUAAGCCCUAUUAGGGAUUGAAAC（SEQ ID NO：6；N是构成与靶核苷酸序列互补的序列的任何核苷酸）显示的序列组成的gRNA。在gRNA序列中，N的数目可以在10至70，优选20至50，更优选25至45，再更优选30至40，且再更优选32至37的范围内变化。

（9）本发明的表达载体

本发明进一步提供了表达载体，其含有编码包含Cas3d、Cas5d、Cas6d、Cas7d和Cas10d的RNA引导的核酸内切酶的核酸，以及编码gRNA的DNA，所述gRNA包含与靶序列互补的序列和在靶序列之前和之后的衍生自CRISPR基因座的共同重复序列；以及表达载体，其包含编码CRISPR I-D型相关蛋白Cas5d、Cas6d和Cas7d的核酸，以及编码gRNA的DNA，所述gRNA包含与靶序列互补的序列和在靶序列之前和之后的衍生自CRISPR基因座的共同重复序列。

本发明的载体是用于将Cas蛋白和gRNA引入细胞内的载体，如“（5）本发明的靶序列靶向方法”、“（6）本发明的靶序列改变方法”和“（7）本发明的靶基因表达抑制方法”中所述。在载体引入细胞内之后，Cas蛋白和gRNA在细胞中表达。本发明的载体还可以是其中包含在gRNA中的靶序列替换为含有限制性位点的任何序列的载体。在将所需的靶核苷酸序列掺入限制性位点内之后，使用此类载体。任何序列可以是例如在CRISPR I-D型基因座上存在的间隔区序列或间隔区序列的一部分。

（10）包含本发明的靶识别模块的融合蛋白

本发明进一步提供了包含靶识别模块和功能性多肽的融合蛋白。当将融合蛋白和gRNA引入细胞内时，通过靶识别模块和gRNA的作用，将融合蛋白引导至细胞中的靶核苷酸序列或靶基因，并且通过功能性多肽的作用改变或修饰靶核苷酸序列或靶基因。因此，本发明进一步提供了用于改变或修饰靶核苷酸序列或靶基因的方法，其包括将融合蛋白和gRNA引入细胞内。此外，本发明提供了包含融合蛋白和gRNA的复合物。

功能性多肽是显示出对靶序列的任何功能的多肽，并且是除Cas3d和Cas10d外的多肽。功能性多肽的实例包括但不限于限制性酶、转录因子、DNA甲基化酶、组蛋白乙酰化酶、荧光蛋白；多核苷酸切割模块，例如限制性酶的核苷酸切割模块；基因表达调节模块，例如转录因子的转录激活模块和转录阻遏模块；以及表观基因组修饰模块，例如DNA甲基化酶的甲基化模块和组蛋白乙酰化酶的组蛋白乙酰化模块。荧光蛋白的实例是GFP。例如，以与本发明的改变靶序列的方法相同的方式，通过将包含靶识别模块和多核苷酸切割模块的融合蛋白连同gRNA一起引入细胞内，可以改变靶序列。例如，通过将包含靶识别模块和基因表达调节模块或表观基因组修饰模块的融合蛋白连同gRNA一起引入细胞内，可以修饰靶序列以调节靶基因的表达。例如，通过将包含靶识别模块和荧光蛋白的融合蛋白连同gRNA一起引入细胞内，可以荧光标记靶序列的附近。

下文显示了本发明的实施例。然而，本发明并不限于所述实施例。

实施例

作为一个实施方案，克隆并随后使用了衍生自CRISPR I-D型（下文也称为“TiD”）基因座（其衍生自铜绿微囊藻）的一组基因（Cas3d、Cas5d、Cas6d、Cas7d、Cas10d）。对于实施例中的DNA序列的加工和构建，使用了人工基因化学合成、PCR、限制性酶处理、连接或吉布森组装法。另外，Sanger法或下一代测序法用于测定核苷酸序列。

实施例1. 大肠杆菌中的基因组编辑

在本实施例中，证实了本发明的技术在典型的细菌模型生物大肠杆菌中有效地起作用。

（1）TiD基因表达质粒的构建

克隆了衍生自铜绿微囊藻（下文也称为“铜绿微囊藻（M. aeruginosa）”）的CRISPR I-D型基因座（下文也称为“TiD基因座”）的基因群。基于衍生自来自铜绿微囊藻的TiD基因座的Cas5d、Cas6d、Cas7d、Cas3d和Cas10d的氨基酸序列信息，人工化学合成了编码每种Cas蛋白的大肠杆菌密码子优化的序列（SEQ ID NO：7至11）。包含在每个Cas蛋白编码基因上游的J23108合成启动子（SEQ ID NO：12）或合成核糖体结合序列（SEQ ID NO：13）、以及在每个Cas蛋白编码基因下游的终止子序列（SEQ ID NO：14至17）的DNA片段，连接到质粒载体pACYC184（由Nippon gene制造）内，以构建pEcTiD1。另外，提取存在于来自铜绿微囊藻的CRISPR I-D型基因座附近的CRISPR重复序列（crRNA，SEQ ID NO：18），并且合成含有在T7启动子（SEQ ID NO：19）的控制下的CRISPR重复序列的crRNA表达盒（SEQ ID NO：20）。crRNA表达盒含有大肠杆菌ccdB基因的启动子区序列，其为本实施例中的靶序列。将crRNA表达盒序列掺入pEcTiD1内，以构建pEcTiD2（图2a）。此外，含有Cas5d、Cas6d和Cas7d基因表达盒的pEcTiD3被构建为TiD表达质粒载体，用于基因组编辑而无需DNA双链断裂（图2b）。表2中显示了本实施例中使用的启动子、终止子、CRISPR重复序列和crRNA表达盒序列。

[表2]

（2）前间区序列邻近基序（PAM）文库的构建

在本实施例中，使用了合成的ccdB基因盒（SEQ ID NO：21）（表3），其中作为靶DNA，将T7启动子序列连接到大肠杆菌ccdB基因的上游。TiD的靶序列是包含ccdB基因上游的T7启动子区的35个核苷酸的序列。将合成的ccdB基因盒连接至质粒载体pMW219（由Nippon gene制造）中的多克隆位点，以构建pMW_ccdB1（图3a）。

CRISPR系统识别位于靶序列附近的前间区序列邻近基序（PAM）序列，并且经由gRNA与靶序列结合。由于本实施例中使用的铜绿微囊藻TiD的PAM序列是未知的，因此构建了用于测定铜绿微囊藻TiD的PAM序列的PAM序列文库质粒。通过使用人工化学DNA合成和PCR，将随机的四核苷酸序列引入pMW_ccdB1的T7启动子的上游（图3b）。将构建的pMW_ccdB-PAM文库质粒引入保留CcdB抗性的ccdb抗性大肠杆菌细胞系（由Thermo FisherScientific制造）内，然后制备质粒。

[表3]

（3）铜绿微囊藻TiD系统中的PAM序列的测定

关于TiD的PAM序列通过使用pEcTiD3-T7进行测定，所述pEcTiD3-T7已在pMW_ccdB-PAM文库质粒上插入与T7启动子区互补的35个核苷酸的序列。将pEcTiD3-T7引入大肠杆菌BL21AI菌株（由Thermo Fisher Scientific制造）内，以获得用于ccdB基因基因组编辑的大肠杆菌宿主菌株。BL21AI [pEcTiD3-T7]菌株表达对于靶序列识别所需的Cas5d、Cas6d和Cas7d蛋白。Cas5d/Cas6d/Cas7d-crRNA复合物识别与适当的PAM序列邻近的靶序列，并且与靶序列结合以抑制T7启动子（其为靶序列）的功能，尽管它不切割靶序列。

在补充阿拉伯糖的培养基中诱导通过引入BL21AI菌株内的pMW-ccdB-PAM的ccdB表达，并且杀死不具有CcdB抗性的BL21AI细胞。当将pMW_ccdB-PAM文库质粒引入BL21AI细胞（TiD表达质粒已预先引入其内）内时，由pEcTiD3质粒表达的Cas5d/Cas6d/Cas7-crRNA结合具有待由TiD识别的适当PAM序列的pMW_ccdB-PAM文库质粒的T7启动子，从而抑制CcdB蛋白的产生，并且因此大肠杆菌细胞可以生长。由生长的大肠杆菌菌落制备pMW_ccdB-PAM文库质粒，并且通过测序分析PAM序列，以测定铜绿微囊藻TiD的PAM序列。

通过化学感受态细胞方法，将大量制备的pMW_ccdB-PAM文库质粒引入BL21AI[pEcTiD3-T7]菌株内。在含有25 mg/L氯霉素、25 mg/L卡那霉素和1%葡萄糖的LB琼脂培养基上，选择保留pMW_ccdB-PAM文库质粒和pEcTiD3-T7的BL21AI细胞。从因此获得的大肠杆菌菌落中，收集约1 × 10⁷个菌落，用不含抗生素和葡萄糖的LB液体培养基洗涤几次，然后以1 × 10⁶个细胞/mL悬浮于含有1%阿拉伯糖的LB液体培养基中。悬浮液在37ºC下伴随振荡培养2小时，以通过阿拉伯糖诱导在T7启动子的控制下的crRNA和ccdB表达。然后，200 μL悬浮液在含有25 mg/L氯霉素、25 mg/L卡那霉素和1%阿拉伯糖的LB琼脂培养基上进行划线培养。在37ºC下培养过夜后，收集细菌菌落。从因此收集的约500个菌落中，制备它们的质粒，并且使PAM序列的附近经受测序分析。在TiD表达质粒的存在下拯救的pMW_ccdB-PAM文库质粒的PAM序列含有序列5'-NGTH-3'（N = A、C、G或T；H = A、C或T）。PAM序列的使用频率对于NGTA为28%，对于NGTC为33%，且对于NGTT为38%。因此，发现由TiD利用的PAM序列是5'-GTH-3'（H ＝ A、C或T）。

（4）大肠杆菌中的基因组编辑

构建了质粒pMW_ccdB-PAMgta、pMW_ccdB-PAMgtc和pMW_ccdB-PAMgtt，其含有使用pEcTiD3-T7和pMW_ccdB-PAM文库质粒测定的三种类型的PAM序列，并且连同pEcTiD2-I7一起引入BL21AI菌株内。在含有25 mg/L氯霉素、25 mg/L卡那霉素和1%葡萄糖的LB琼脂培养基上，选择保留pMW_ccdB-PAMgta/pEcTiD2-T7、pMW_ccdB-PAMgtc/pEcTiD2-T7和pMW_ccdB-PAMgtt/pEcTiD2-T7的BL21AI细胞，然后通过测序分析发现含有引入各细菌细胞内的质粒。随后，保留正确质粒的BL21AI细胞在含有25 mg/L氯霉素、25 mg/L卡那霉素和1%阿拉伯糖的LB琼脂培养基上进行划线培养，然后在37ºC下培养过夜。结果，所有细菌细胞都不生长，其很可能由在Cas3d和Cas10d的存在下质粒DNA上的双链DNA断裂引起。

实施例2. 高等植物中的基因组编辑

在本实施例中，作为高等真核生物中的基因组编辑的一个实施方案，证实了本发明的技术在本塞姆氏烟草（Nicotiana benthamiana）和番茄（Solanum lycopersicum）中有效地起作用。

（1）用于在高等植物细胞中的TiD基因表达的二元载体的构建

根据拟南芥属和烟草中的频率，基于衍生自铜绿微囊藻的TiD基因座的Cas5d、Cas6d、Cas7d、Cas3d和Cas10d的氨基酸序列信息，人工化学合成了编码每种Cas蛋白的双子叶植物密码子优化序列。制备了DNA片段，其包含核定位信号序列（SEQ ID NO：22，SEQ ID NO：23），其含有在Cas蛋白编码基因各自的5'上游串联排列的两个核定位信号；以及在Cas蛋白编码基因之间的自切割肽2A序列（SEQ ID NO：24-28）。包含串联排列的两个花椰菜花叶病毒35S基因启动子的启动子序列（2 × 35S启动子；SEQ ID NO：29）和翻译增强子Ω序列，与经由2A肽序列彼此融合的五个TiD基因片段的5'上游连接，并且拟南芥属热休克蛋白18.2 kDa基因终止子序列（SEQ ID NO：30）与经由2A肽序列彼此融合的五个TiD基因片段的3'下游连接，并且从而制备了TiD基因表达盒。将TiD基因表达盒克隆到二元质粒载体pCAMBIA2300内，以构建pEgPTiD1（图4a）。对于用于植物的crRNA表达盒，人工化学合成了DNA（SEQ IDNO：31），其中在两个crRNA序列之间放置含有两个限制性酶BsaI位点的间隔区序列，使得35个核苷酸的任何序列可以连接到BsaI位点内。拟南芥属U6 snRNA-26基因启动子序列（SEQID NO：32）在crRNA表达盒序列的5'上游处连接，而聚T序列在crRNA表达盒序列的3'下游处连接（图4b）。用于植物的crRNA表达盒连接到pEgPTidD1的RB序列和2 × 35S启动子之间，以构建pEgPTiD2，其用作用于植物基因组编辑的TiD基因表达二元质粒载体（图4c）。核定位序列在pEgPTidD1和pEgPTidD2内与其连接的编码每种Cas蛋白的双子叶植物密码子优化序列显示于SEQ ID NOs：33至37中。表4中显示了本实施例中使用的核定位信号序列、自切割肽2A序列、启动子、终止子和crRNA表达盒序列。

[表4-1]

[表4-2]

（2）本塞姆氏烟草中的基因组编辑

在烟草的实施例中，选择八氢番茄红素去饱和酶（PDS）基因作为用于引入突变的靶序列（图5-1a）。从烟草PDS基因的第三个外显子中选择靶序列1（靶1，SEQ ID NO：38），并且将靶1的人工化学合成的DNA连接到用于植物的crRNA表达盒内，以构建pEgPTiD2-pds（1）。类似地，从第六个外显子中选择靶序列2（靶2，SEQ ID NO：39），并且将靶2的人工化学合成的DNA连接到用于植物的crRNA表达盒内，以构建pEgPTiD2-pds（2）。将因此构建的二元载体引入根癌农杆菌（Agrobacterium tumefaciens）菌株GV2260内。通过农杆菌渗入法执行靶向烟草PDS的TiD表达载体引入烟草细胞内。保留pEgPTiD2-pds（1）或pEgPTidD2-pds（2）的农杆菌属细胞和保留GFP表达二元载体的农杆菌属细胞分开进行培养，然后共感染本塞姆氏烟草的真叶（图5-1b）。在共感染后三天，基因组DNA由叶盘中发出GFP荧光的区域制备，然后用作模板以PCR扩增含有靶序列的300-500 bp PDS基因片段。PCR扩增的片段用于Cel-1测定，以分析是否将突变引入PDS基因内。作为对照，使用仅GFP表达二元载体引入其内的烟草叶盘。当仅引入GFP表达载体时，在PDS基因上未观察到突变。相比之下，当同时引入pEgPTiD2-pds和GFP表达载体时，在PDS基因的每个靶序列上观察到突变的引入（图5-2c）。表5中显示了靶序列1和2。

[表5]

（3）番茄中的基因组编辑

在番茄的实施例中，选择Aux/IAA转录因子IAA9基因作为用于引入突变的靶序列（图6a）。从番茄IAA9基因的第二个外显子中选择靶序列1（SEQ ID NO：40）（表6），并且将靶1的人工化学合成的DNA连接到用于植物的crRNA表达盒内，以构建pEgPTiD2-iaa9。将构建的二元载体引入根癌农杆菌菌株GV2260内。使用来自番茄子叶的叶盘，通过农杆菌属方法，执行靶向番茄IAA9基因的TiD表达载体引入番茄细胞内。在含有100 mg/L卡那霉素和1.5 mg/Lt-玉米素的MS固化培养基上培养用农杆菌属共接种的叶盘，以获得其中发生了在pEgPTiD2-iaa9上的T-DNA区域的基因引入的愈伤组织（图6b）。关于限制性酶AccI的识别序列存在于IAA9的靶序列中。当突变由于通过TiD的基因组编辑而引入时，AccI识别位点消失。因此，执行使用AccI的PCR限制性酶长度多态性（RFLP）分析，以分析在IAA9的靶序列上发生的突变。基因组DNA由获得的转化的愈伤组织制备，并且用作模板以PCR扩增含有IAA9的靶序列的大约300个碱基的区域。PCR片段用AccI进行消化。发现来自pEgPTiD2-iaa9引入其内的愈伤组织培养物的PCR片段含有由于IAA9靶序列中的突变引入而未被AccI消化的序列（图6c）。测定来自pEgPTiD2-iaa9引入其内的愈伤组织的PCR片段的核苷酸序列。结果，发现1至4个核苷酸的核苷酸缺失紧在PAM序列之后引入到IAA9的靶序列上（图7）。

pEgPTiD2-iaa9引入其内的愈伤组织在含有100 mg/L卡那霉素和1.0 mg/L t-玉米素的MS固化培养基上进一步培养，以获得转化和再生的枝条。基因组DNA由再生的枝条制备，并且用作模板，以执行用AccI的PCR-RFLP分析。如图8a中所示，观察到未被AccI切割的PCR片段。换言之，获得了在其内IAA9靶序列几乎100%突变的转化和再生的枝条。在14个转化和再生的枝条中，13个枝条显示了与图8a中所示相同的结果。在这些再生的植物中，真叶是单叶状的，其是由IAA9缺乏引起的表型之一。因此，显示了可以通过使用TiD的基因组编辑以高效率引入突变。

[表6]

实施例3. 高等动物中的基因组编辑

在本实施例中，作为高等动物中的基因组编辑的一个实施方案，证实了本发明的技术在人胚肾细胞衍生的细胞系HEK293中有效地起作用。

（1）用于在高等动物细胞中的TiD基因表达的载体的构建

基于衍生自来自铜绿微囊藻的TiD基因座的Cas5d、Cas6d、Cas7d、Cas3d和Cas10d的氨基酸序列信息，人工化学合成了编码每种Cas蛋白的基因序列。制备了DNA片段，其包含核定位信号序列（SEQ ID NO：22，SEQ ID NO：23），其含有在Cas蛋白编码基因各自的5'上游串联排列的两个核定位信号；以及在Cas蛋白编码基因之间的自切割肽2A序列（SEQ ID NO：24-28）。巨细胞病毒增强子+鸡β-肌动蛋白基因启动子杂合序列（CBh启动子；SEQ ID NO：41）在经由2A肽序列彼此融合的五个TiD基因片段的5'上游处连接，并且牛生长激素基因终止子序列（bGH终止子；SEQ ID NO：42）在经由2A肽序列彼此融合的五个TiD基因片段的3'下游处连接，并且从而制备了TiD基因表达盒。将TiD基因表达盒连接到pCR8TOPO载体（由ThermoFisher Scientific制造）内，以构建pCR_hTiD。对于crRNA表达盒，人工化学合成了DNA（SEQID NO：31），其中在两个crRNA序列之间放置含有两个限制性酶BsaI位点的间隔区序列，使得可以连接35个核苷酸的任何序列。作为表达控制序列的人U6 snRNA基因启动子序列（SEQID NO：43）在crRNA表达盒的5'上游处连接，而聚T序列在crRNA表达盒序列的3'下游处连接。将具有人U6 snRNA基因启动子和聚T序列的crRNA表达盒连接到pCR8TOPO载体（由Thermo Fisher Scientific制造）内，以构建pCR_crRNA。在pCR_hTiD中具有核定位信号的编码每种Cas蛋白的序列显示为SEQ ID NO：33-37。表7中显示了CBh启动子、bGH终止子和人U6 snRNA基因启动子序列。

[表7]

（2）培养的动物细胞中的基因组编辑

在培养的动物细胞的实施例中，使用人胚肾细胞衍生的细胞系（HEK293细胞系），并且选择EMX1基因作为用于引入突变的靶序列。在EMX1基因中选择靶1（SEQ ID NO：44）和靶2（SEQ ID NO：45）作为靶序列，并且将靶1和2的人工化学合成的DNA连接到用于在上文（1）中制备的培养的人细胞的crRNA表达盒内，以构建含有靶1的pUC_crRNA-T1和含有靶2的pUC_crRNA-T2。构建的质粒在大肠杆菌菌株HST08（由Takara Bio Inc.制造）中进行扩增，然后使用PureYield（注册商标）Plasmid Miniprep System（由Promega Corp.制造）进行纯化。在纯化的质粒中，通过转染将pCR_hTiD和pUC_crRNA-T1的混合物或pCR_hTiD和pUC_crRNA-T2的混合物引入HEK293细胞内。在质粒载体引入后三天，收集细胞，并且使用Blood & CellCulture DNA Mini Kit（由Qiagen制造）由其制备基因组DNA。使用因此制备的基因组DNA作为模板，通过PCR扩增包含靶1或靶2的基因组序列区，并且使用自动电泳仪MultiNA（由Shimadzu Corporation制造），通过异源双链体迁移率分析执行突变分析。进一步地，将扩增的PCR片段克隆到pNEB193载体（由New England Biolab制造）内，并且通过测序分析鉴定突变序列。基于“其中观察到突变序列的克隆数目/分析的克隆总数目”来计算体细胞突变效率。质粒未引入其内或者pCR_hTiD、pUC_crRNA-T1或pUC_crRNA-T2已单独引入其内的细胞系用作对照，以相同的方式执行突变分析。关于使用HEK293细胞系的基因组编辑的实验方案显示于图9中。

图10和图11显示了当用pCR_hTiD和pUC_crRNA-T1的混合物或pCR_hTiD和pUC_crRNA-T2的混合物转染HEK293细胞系时，或者当未用质粒转染HEK293细胞系（对照）时，获得的实验结果。如图10和图11中所示，在用pCR_hTiD和pUC_crRNA-T1的混合物或pCR_hTiD和pUC_crRNA-T2的混合物转染的HEK293细胞系中，检测到指示在靶序列上引入的突变的峰。另一方面，在作为对照的质粒并未引入其内的细胞系中，未检测到指示突变引入的峰。类似于质粒并未引入其内的细胞系，在pCR_hTiD、pUC_crRNA-T1或pUC_crRNA-T2已单独引入其内的细胞系中，未检测到指示突变引入的峰。

然后，将其中通过异源双链体迁移率分析检测到指示突变引入的峰的序列样品克隆到质粒载体内，并且通过测序进行分析。结果，如图12和图13中所示，发现在靶1和靶2上引入了缺失和/或插入突变。

[表8]

工业适用性

根据本发明，能够靶向通过使用CRISPR II型或V型衍生的RNA引导的核酸内切酶的常规基因组编辑技术不能靶向的基因序列。具体地，根据本发明，能够生成突变等位基因，通过转录激活和失活控制基因表达，并且在不能通过常规技术靶向的基因区域上通过DNA修饰/组蛋白修饰蛋白质结构域的靶向实现表观基因组改变。

序列表自由文本

SEQ ID NO：1；铜绿微囊藻Cas5d氨基酸序列

SEQ ID NO：2；铜绿微囊藻Cas6d氨基酸序列

SEQ ID NO：3；铜绿微囊藻Cas7d氨基酸序列

SEQ ID NO：4；铜绿微囊藻Cas3d氨基酸序列

SEQ ID NO：5；铜绿微囊藻Cas10d氨基酸序列

SEQ ID NO：6；含有直接重复（37b）和间隔区（35b的N）的TiDcrRNA。N是构成关于靶核苷酸序列的互补序列的任何核苷酸

SEQ ID NO：7；用于在大肠杆菌中表达的Cas5d核苷酸序列

SEQ ID NO：8；用于在大肠杆菌中表达的Cas6d核苷酸序列

SEQ ID NO：9；用于在大肠杆菌中表达的Cas7d核苷酸序列

SEQ ID NO：10；用于在大肠杆菌中表达的Cas3d核苷酸序列

SEQ ID NO：11；用于在大肠杆菌中表达的Cas10d核苷酸序列

SEQ ID NO：12；J23108合成启动子

SEQ ID NO：13；核糖体结合序列

SEQ ID NO：14；终止子序列STOP767

SEQ ID NO：15；终止子序列STOP768（1）

SEQ ID NO：16；终止子序列TOP768（2）

SEQ ID NO：17；T7终止子序列

SEQ ID NO：18；CRISPR重复序列

SEQ ID NO：19；T7启动子序列

SEQ ID NO：20；crRNA表达盒

SEQ ID NO：21；合成cccdB基因表达盒

SEQ ID NO：22；核定位信号（NLS）氨基酸序列

SEQ ID NO：23；NLS核苷酸序列

SEQ ID NO：24；自切割肽2A氨基酸序列

SEQ ID NO：25；自切割肽2A（1）编码序列

SEQ ID NO：26；自切割肽2A（2）编码序列

SEQ ID NO：27；自切割肽2A（3）编码序列

SEQ ID NO：28；自切割肽2A（4）编码序列

SEQ ID NO：29；2 x花椰菜花叶病毒35S基因启动子+Ω序列

SEQ ID NO：30；拟南芥属休克蛋白18.2kDa基因终止子

SEQ ID NO：31；crRNA表达盒

SEQ ID NO：32；拟南芥属U6 snRNA-26基因启动子序列

SEQ ID NO：33；2xNLS + Cas5d

SEQ ID NO：34；2xNLS + Cas6d

SEQ ID NO：35；2xNLS + Cas7d

SEQ ID NO：36；2xNLS + Cas3d

SEQ ID NO：37；2xNLS + Cas10d

SEQ ID NO：38；烟草PDS基因上的靶序列1

SEQ ID NO：39；烟草PDS基因上的靶序列2

SEQ ID NO：40；番茄IAA9基因上的靶序列

SEQ ID NO：41；巨细胞病毒增强子+通用鸡β-肌动蛋白基因杂合启动子

SEQ ID NO：42；牛衍生的生长激素基因终止子序列

SEQ ID NO：43；人U6 snRNA基因启动子

SEQ ID NO：44；人EMX1基因上的靶1序列

SEQ ID NO：45；人EMX1基因上的靶2序列。

Claims

1. 一种用于靶向靶核苷酸序列的方法，所述方法包括将以下引入细胞内：

（ii）引导RNA或编码引导RNA的DNA，所述引导RNA包含与靶核苷酸序列互补的序列、以及在互补序列之前和之后的衍生自CRISPR基因座的共同重复序列。

2. 一种用于改变靶核苷酸序列的方法，所述方法包括将以下引入细胞内：

3. 一种用于抑制靶基因表达的方法，所述方法包括将以下引入细胞内：

（ii）引导RNA或编码引导RNA的DNA，所述引导RNA包含与靶基因序列的至少一部分互补的序列、以及在互补序列之前和之后的衍生自CRISPR基因座的共同重复序列。

4.根据权利要求1至3中任一项的方法，其中所述引导RNA包含与靶核苷酸序列互补的由20至50个核苷酸组成的序列。

5.根据权利要求2或4的方法，其进一步包括将供体多核苷酸引入细胞内。

6.根据权利要求2、4和5中任一项的方法，其中所述改变是核苷酸缺失、插入或取代。

7. 根据权利要求1至6中任一项的方法，其中所述Cas5d将5'-GTH-3'（H ＝ A、C或T）识别为前间区序列邻近基序（PAM）序列。

8. 一种复合物，其包含：

（i）CRISPR I-D型相关蛋白Cas5d、Cas6d和Cas7d，和

（ii）引导RNA，其包含与靶核苷酸序列互补的序列、以及在互补序列之前和之后的衍生自CRISPR基因座的共同重复序列。

9.根据权利要求8的复合物，其进一步包含Cas3d和Cas10d。

10.根据权利要求8或9的复合物，其中所述引导RNA包含与靶核苷酸序列互补的由20至50个核苷酸组成的序列。

11. 一种表达载体，其包含：

（i）编码CRISPR I-D型相关蛋白Cas5d、Cas6d和Cas7d的核酸，和

（ii）编码引导RNA的DNA，所述引导RNA包含与靶核苷酸序列互补的序列、以及在互补序列之前和之后的衍生自CRISPR基因座的共同重复序列。

12.根据权利要求11的表达载体，其进一步包含编码Cas3d和Cas10d的核酸。

13.一种DNA分子，其编码根据权利要求8至10中任一项的复合物。