CN114934031A

CN114934031A - 新型Cas效应蛋白、基因编辑系统及用途

Info

Publication number: CN114934031A
Application number: CN202210576535.8A
Authority: CN
Inventors: 梁峻彬; 黄连成; 徐辉; 孙阳; 彭志琴; 司凯威; 皇甫德胜
Original assignee: Zhejiang Xunzhi Biotechnology Co ltd; Guangzhou Ruifeng Biotechnology Co ltd
Current assignee: Zhejiang Xunzhi Biotechnology Co ltd; Guangzhou Ruifeng Biotechnology Co ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-08-23
Anticipated expiration: 2042-05-25
Also published as: WO2023227028A1; CN114934031B

Abstract

本发明提供了一种新型Cas效应蛋白、基因编辑系统及用途。所述Cas效应蛋白为CasRfg.3及其相似蛋白。本发明的CasRfg.3蛋白(又称为Ca2)比目前常用的SpCas9蛋白具有相对短的氨基酸序列长度，可被轻易包装入小容量基因治疗载体中，对应于独特的PAM序列。同时，其靶向编辑靶核酸序列的特异性好，且其对于温度适应性好，耐受的温度范围宽，适应高温条件，例如至少可在25℃～55℃实现针对靶核酸的切割或修饰功能。本发明的新型Cas效应蛋白在基因疗法等方面具有重要的应用价值。

Description

新型Cas效应蛋白、基因编辑系统及用途

技术领域

本发明属于基因编辑领域，更具体地，本发明涉及新型Cas效应蛋白、基因编辑系统及用途。

背景技术

CRISPR-CAS系统可分为两大类：第1类CRISPR-CAS系统利用多种Cas蛋白组成的复合物来降解外源核酸，第2类则利用单个的大Cas效应蛋白来降解外源核酸。第1类CRISPR-CAS系统又可分为I、III、IV型，第2类可分为II、V、VI类型，以上6个类型还可细分为至少19个亚型。大多数CRISPR-CAS系统具有Cas1蛋白。许多原核生物同时具有多个CRISPR-CAS系统，表明这些CRISPR-CAS系统相互之间可共存，而且可能共享某些组件。

Cas9是最早从酿脓链球菌中发现的最具代表性的Cas蛋白之一，它属于2类家族的II型。来源于化脓性链球菌(Streptococcus pyogenes)的SpCas9是目前最常用的Cas9。Cas9是一种DNA核酸内切酶，由一个与靶DNA序列互补的crRNA小分子、一个单独的反式激活CRISPR RNA(tracrRNA)共同激活。crRNA由一个负责使蛋白质与crRNA结合的同向重复(DR)序列与一个间隔区序列（指导序列）组成。间隔区序列可以被人工设计为与任何核酸靶序列形成互补的序列。通过这种方式，CRISPR系统可以通过人工设计crRNA的间隔区序列来靶向DNA或RNA靶标。crRNA可与tracrRNA融合，形成单分子向导RNA(sgRNA)以更好地发挥作用。sgRNA与Cas9结合后会与其靶DNA结合，并引导Cas9对靶DNA进行结合或切割。

目前对于开发可在多种实验条件下应用于遗传研究和基因组编辑领域中的具有改进的序列特异性核酸检测、裂解和调节的试剂仍存在持续的需求。

现有的序列特异性基因组编辑工具(包括Cas9)无法做到在所有条件或生物体中使用。例如，序列特异性核酸酶一般对热敏感，并且因此不适用于在严格嗜热微生物中使用。严格嗜热微生物指其能够在41-122℃之间生长，并且能够在45-80℃的温度范围中最佳生长的微生物。例如，在工业发酵中使用的微生物，再比如在较高温度进行体外应用的微生物。

迄今为止，来源于酿脓链球菌的SpCas9以及来源于金黄色葡萄球菌的SaCas9是用于基因组工程的最良好表征和最广泛使用的Cas9。有报道称SpCas9在≥42℃时即无活性，而SaCas9在≥36℃时即成为未折叠的失活状态。

SpCas9尺寸较大，为1368aa，成为限制其应用的重要因素。有复旦大学学者将SpCas9截短至1248aa，保留了一定程度的活性，但其尺寸仍然偏大，难以与gRNA编码序列一起包装进腺相关病毒(AAV)中。

此外，现有的Cas蛋白在所能选择的基因编辑靶点方面还有限制(例如受限于PAM序列的多样性还不够)。

发明内容

本发明的目的在于提供新型Cas效应蛋白、基因编辑系统及用途。

在本发明的第一方面，提供一种CRISPR-CAS复合物，其包括：

(1) Cas9蛋白；和

(2) 向导RNA；

其中，所述Cas9蛋白具有选自以下(a)-(f)中任一项的特征或所述特征的任意组合：

(a) 分离自厚壁菌门(firmicutes)厌氧弧菌属(Anaerovibrio sp.)的菌株；

(b) 包含SEQ ID NO:1所示多肽，包含SEQ ID NO:1所示多肽的保守性变异多肽或同源物，为SEQ ID NO:1所示多肽，或者为SEQ ID NO:1所示多肽的保守性变异多肽或同源物；

(c) 其序列中包含RuvC结构域和HNH结构域；

(d) 能与向导RNA形成复合物，能在向导RNA引导下结合靶核酸，或能在向导RNA引导下切割或修饰靶核酸；

(e) 识别的PAM序列为5’-DDRGDNN-3’，其中D为A、G或T，R为A或G，N为A、C、G或T；或

(f) 在25℃～55℃能发挥(d)中任一项功能。

在一种或多种实施方式中，所述Cas9蛋白包括选自下组的多肽：

(i) SEQ ID NO: 1所示氨基酸序列的多肽；

(ii)与SEQ ID NO:1所示多肽有至少90%(较佳地至少92%；更佳地至少94%；更佳至少95%，如至少96%、98%、99%或99.5%)序列同一性的多肽；

(iii)将(i)的多肽的氨基酸序列经过一个或多个(如1-60个，较佳地1-50个，更佳地1-40个，更佳地1-30个，更佳地1-20个，更佳地1-15个，更佳地1-10个，更佳地1-5个，更佳地1-3个或1-2个)氨基酸残基的取代、缺失或添加而形成的，且具有(i)多肽的功能的多肽；

(iv) (i)～(iii)任一所述多肽的片段，其包含RuvC结构域、HNH结构域或结合靶核酸序列的结构域，且具有(i)多肽的功能；或

(v) (i)～(iv)任一所述多肽的N或C末端添加包括(但不限于)标签序列、定位序列(如核定位序列)，或在其N或C末端添加信号肽序列后形成的多肽。

在一种或多种实施方式中，所述多肽中，其RuvC结构域序列是保守的。

在一种或多种实施方式中，所述多肽中，其HNH结构域序列是保守的。

在一种或多种实施方式中，所述Cas9蛋白为Cas9-nickase，所述Cas9-nickase为所述Cas9蛋白的变体，所述Cas9-nickase在向导RNA引导下能与靶核酸序列结合并切割靶核酸的单链；较佳地，相应于SEQ ID NO:1所示多肽，其D10、E520、H603、N626、H749或D752位点发生突变。

在一种或多种实施方式中，所述Cas9蛋白为dCas9(dead Cas9)，所述dCas9为所述Cas9蛋白的变体，其包含失活的RuvC结构域和失活的HNH结构域、或其核酸切割功能降低或丧失，其在向导RNA引导下能与靶核酸序列结合；较佳地，相应于SEQ ID NO:1所示多肽，其D10、E520、H603、N626、H749或D752位点发生突变。

在一种或多种实施方式中，所述向导RNA包含指导序列、同向重复序列(DR序列)和反式激活crRNA(trans-activating crRNA，tracrRNA)序列，所述指导序列与靶序列互补，所述tracrRNA可与Cas9蛋白和DR序列相互作用。

在一种或多种实施方式中，所述tracrRNA与DR序列连接成为向导RNA的骨架序列，所述骨架序列的长度范围为≤190nt，还可以为≤100nt、≤110nt、≤120nt、≤130nt、≤140nt、≤150nt、≤160nt、≤170nt或≤180nt。

在一种或多种实施方式中，所述指导序列的长度范围为10nt-60nt，还可以为10nt-50nt、10nt-40nt、10nt-30nt、15nt-60nt、15nt-50nt、15nt-40nt或15nt-30nt。

在一种或多种实施方式中，所述向导RNA包含茎环(发夹)结构；较佳地，所述向导RNA包含≤3个茎环(发夹)结构；更佳地，所述向导RNA包括如图18的含茎环 1、茎环2、茎环3、凸起1、双链体1的骨架。

在一种或多种实施方式中，茎环1的茎部具有8～35对(如10、12、14、16、18、20、22、24、26、28、30、32对)碱基对；或茎环2的茎部具有4～12对(如5、6、7、8、9、10、11对)碱基对；或茎环3的茎部具有3～10对(如4、5、6、7、8、9对)碱基对；或双链体1具有4～11对(如5、6、7、8、9、10对)碱基对；或凸起1具有2-8个(如4、6个)非互补碱基；或茎环1的环部具有4～12个(如5、6、7、8、9、10、11、12个)非互补碱基；或茎环2的环部具有2～10个(如3、4、5、6、7、8、9个)非互补碱基；或茎环3的环部具有6～20个(如7、8、9、10、12、15、18、19个)非互补碱基。

在一种或多种实施方式中，所述茎环结构包括含茎环1、茎环2、茎环3、凸起1、双链体1的骨架，可选地还可包括其它茎环结构或片段。

在一种或多种实施方式中，所述向导RNA具有SEQ ID NO: 3所示的核苷酸序列或其截短体；较佳地，所述截短体具有SEQ ID NO: 4-7所示的核苷酸序列。

在一种或多种实施方式中，编码所述向导RNA的DNA被包含在表达载体中。

在一种或多种实施方式中，所述复合物(复合体)包括组合、组合物或混合物。

在一种或多种实施方式中，所述Cas9蛋白在25℃～55℃能发挥以下任一项功能：与向导RNA形成复合物，在向导RNA引导下结合靶核酸，在向导RNA引导下切割或修饰靶核酸。

在一种或多种实施方式中，所述Cas9蛋白识别的PAM序列为5’-DDRGDNN-3’，其中D为A、G或T，R为A或G，N为A、C、G或T。

在本发明的另一方面，提供一种分离的Cas9蛋白，所述Cas9蛋白具有选自以下(a)-(f)中任一项的特征或所述特征的任意组合：

(a) 分离自厚壁菌门(firmicutes) 厌氧弧菌属(Anaerovibrio sp.)的菌株；

(c) 其序列中包含RuvC结构域和HNH结构域；

(f) 在25℃～55℃能发挥(d)中任一项功能。

(i) SEQ ID NO: 1所示氨基酸序列的多肽；

(iv) (i)～(iii)任一所述多肽的片段，其包含RuvC结构域、HNH结构域及结合靶核酸序列的结构域，且具有(i)多肽的功能；或

在一种或多种实施方式中，所述Cas9蛋白为Cas9-nickase，所述Cas9-nickase为所述Cas9蛋白的变体，其在向导RNA引导下能与靶核酸序列结合并切割靶核酸的单链；较佳地，相应于SEQ ID NO:1所示多肽，其D10、E520、H603、N626、H749或D752位点发生突变。

在本发明的另一方面，提供一种融合蛋白，其包含：前面任一所述的Cas9蛋白，以及与之融合的异源功能结构域。

在一种或多种实施方式中，所述异源功能结构域在所述Cas9蛋白的N端、C端或内部进行融合。

在一种或多种实施方式中，所述异源功能结构域任选自：报告蛋白或检测标记、定位信号、脱氨酶、DNA结合域、表位标签、转录激活域、转录抑制域、核酸酶、甲基化酶、脱甲基酶、组蛋白去乙酰化酶(HDAC)、DNA或RNA 连接酶，或以上任意的组合。

在一种或多种实施方式中，述异源功能结构域任选自：腺苷脱氨酶，胞苷脱氨酶，碱基切除修复抑制剂，核定位信号(NLS)，核输出信号(NES)，或以上任意的组合。

在一种或多种实施方式中，所述异源功能结构域与所述Cas9蛋白之间还包括接头。

在本发明的另一方面，提供一种缀合物，所述缀合物包含：前面任一所述的Cas9蛋白，以及与之缀合的异源功能部分。

在一种或多种实施方式中，所述异源功能部分缀合于所述Cas9蛋白的N端、C端或内部。

在一种或多种实施方式中，所述异源功能部分任选自：报告蛋白或检测标记、定位信号、脱氨酶、DNA结合域、表位标签、转录激活域、转录抑制域、核酸酶、甲基化酶、脱甲基酶、组蛋白去乙酰化酶(HDAC)、DNA或RNA 连接酶、功能性化学分子，或以上任意的组合。

在一种或多种实施方式中，所述异源功能部分任选自：腺苷脱氨酶，胞苷脱氨酶(AID)，碱基切除修复抑制剂，核定位信号(NLS)，核输出信号(NES)，或以上任意的组合。

在一种或多种实施方式中，所述异源功能部分与所述Cas9蛋白之间还包括接头序列。

在本发明的另一方面，提供一种向导RNA，其引导前面任一所述的Cas9蛋白结合至靶序列，所述向导RNA包含指导序列、同向重复序列(DR序列)和反式激活crRNA(trans-activating crRNA，tracrRNA)序列，所述指导序列与靶序列互补，所述tracrRNA可与所述Cas9蛋白和DR序列相互作用。

在一种或多种实施方式中，所述tracrRNA与DR序列连接成为gRNA的骨架序列，所述骨架序列的长度范围为20nt-190nt。

在一种或多种实施方式中，所述的向导RNA包含茎环(发夹)结构；

在一种或多种实施方式中，所述向导RNA包含≤3个茎环(发夹)结构；

在一种或多种实施方式中，所述茎环结构包括如图18的含茎环1、茎环2、茎环 3、凸起1、双链体1的骨架。

在本发明的另一方面，提供分离的多核苷酸，其编码权前面任一所述的Cas9蛋白、前面任一所述的融合蛋白或前面任一所述的缀合物的蛋白质部分。

在一种或多种实施方式中，所述的多核苷酸为天然序列或为密码子优化的序列。

在一种或多种实施方式中，所述Cas9蛋白的多核苷酸具有SEQ ID NO: 2所示的核苷酸序列，或与其简并的序列。

在本发明的另一方面，提供一种重组载体，它含有(a)前面所述的多核苷酸，(b)编码前面任一所述向导RNA的多核苷酸，或(a)与(b)的组合。

在一种或多种实施方式中，所述多核苷酸还与启动子、增强子和/或终止子可操作地连接。

在一种或多种实施方式中，所述启动子包括：组成型启动子、诱导型启动子、广谱表达型启动子或组织特异性启动子。

在一种或多种实施方式中，该载体包括：病毒载体或非病毒载体；较佳地，所述载体包括(但不限于)：慢病毒载体、腺病毒载体、腺相关病毒载体(AAV)、逆转录病毒载体、噬菌体载体或单纯疱疹病毒(HSV)载体。

在本发明的另一方面，提供一种重组细胞，它含有前面任一所述的重组载体。

在一种或多种实施方式中，所述的重组细胞包括真核细胞或原核细胞。

在一种或多种实施方式中，所述真核细胞包括(但不限于)：哺乳动物细胞(非人类哺乳动物细胞、人类细胞)、植物细胞、真菌细胞(如酵母)或昆虫细胞。

在一种或多种实施方式中，所述原核细胞包括(但不限于)：大肠杆菌、枯草杆菌、沙门氏菌、梭菌或链霉菌。

在本发明的另一方面，提供一种制备前面任一所述的Cas9蛋白、任一所述的融合蛋白或任一所述的缀合物的蛋白部分的方法，包括：培养所述的重组细胞，从培养物中分离出所述的Cas9蛋白、融合蛋白或缀合物的蛋白部分。

在本发明的另一方面，提供前面任一所述的Cas9蛋白、任一所述的融合蛋白或任一所述的缀合物或任一所述CRISPR-CAS复合物的用途，用于结合、切割或修饰靶核酸序列，或用于制备结合、切割或修饰靶核酸序列的试剂。

在一种或多种实施方式中，所述Cas9蛋白、融合蛋白或缀合物与向导RNA形成复合物，针对靶核酸序列的特定位点进行核酸序列结合、切割或修饰；较佳地，所述靶核酸序列的特定位点附近包括PAM序列：5’-DDRGDNN-3’，其中D为A、G或T，R为A或G，N为A、C、G或T。

在一种或多种实施方式中，所述Cas9蛋白为Cas9核酸酶，其用于切割靶核酸序列，或用于制备切割靶核酸序列的试剂。

在一种或多种实施方式中，所述Cas9蛋白为Cas9-nickase，其用于结合或切割靶核酸序列，或用于制备结合或切割靶核酸序列的试剂。

在一种或多种实施方式中，所述Cas9蛋白为dCas9，其用于调控靶核酸的转录激活或转录抑制，或用于制备调控靶核酸的转录激活或转录抑制的试剂。

在一种或多种实施方式中，所述靶核酸在细胞内；较佳地，所述靶核酸为：疾病相关的核酸(靶点)，动植物性状相关的核酸(靶点)。

在一种或多种实施方式中，所述靶核酸为DNA或RNA。

在本发明的另一方面，提供一种递送系统，其包含：递送载体；以及，前面任一所述的Cas9蛋白、任一所述的融合蛋白、任一所述的缀合物、任一所述的CRISPR-CAS复合物或任一所述的载体；较佳地，所述递送载体包括(但不限于)：纳米颗粒、脂质体、细胞外囊泡。

在本发明的另一方面，提供一种结合、切割或修饰靶核酸的方法，所述方法包括：使得前面任一所述的CRISPR-CAS复合物结合至靶核酸、切割靶核酸或修饰靶核酸。

在一种或多种实施方式中，通过直接引入的方式将所述的CRISPR-CAS复合物(蛋白+向导RNA)引入细胞，结合至靶核酸；较佳地，将CRISPR-CAS复合物中Cas9蛋白处理(包括注射)细胞或藉由穿膜肽引入细胞，将CRISPR-CAS复合物中的向导RNA处理(包括注射)细胞。

在一种或多种实施方式中，将编码所述CRISPR-CAS复合物的多核苷酸或含有该多核苷酸的表达构建体(如表达载体)转化细胞，在细胞内表达并形成所述CRISPR-CAS复合物(蛋白+向导RNA)，结合至靶核酸。

在一种或多种实施方式中，所述靶核酸为真核DNA或真核RNA。

在一种或多种实施方式中，所述真核DNA或真核RNA包括(但不限于)：非人类哺乳动物DNA或RNA、非人类灵长类DNA或RNA、人类DNA或RNA、植物DNA或RNA、昆虫DNA或RNA、鸟类DNA或RNA、爬行动物DNA或RNA、啮齿动物 DNA或RNA、鱼类DNA或RNA、蠕虫/线虫DNA或RNA、酵母DNA或RNA等。

在一种或多种实施方式中，所述Cas9-nickase或dCas9靶向的靶序列位于启动子区。

在一种或多种实施方式中，所述方法在25℃～55℃进行。

在本发明的另一方面，提供一种检测待测样品中靶核酸存在情况的方法，包括使得前面任一所述的CRISPR-CAS复合物与靶核酸结合；所述CRISPR-CAS复合物包括：前面任一所述的融合蛋白或任一所述的缀合物；所述融合蛋白或缀合物含有Cas9蛋白且含有可检测标记；其中当CRISPR-CAS复合物与靶核酸结合时，含有Cas9蛋白的融合蛋白或缀合物结合、切割或修饰靶核酸，通过观测可检测标记的存在情况来分析待测样品中靶核酸存在情况；较佳地，所述可检测标记如荧光基团、显色剂、显影剂或放射性同位素。

在本发明的另一方面，提供一种组合物，其包括：前面任一所述的Cas9蛋白、任一所述的融合蛋白、任一所述的缀合物、任一所述的CRISPR-CAS复合物、任一所述的载体或所述的递送系统。

在一种或多种实施方式中，所述组合物为药物组合物。

在一种或多种实施方式中，较佳地所述组合物中还包括：生理学或药学上可接受的药学载体。

在本发明的另一方面，提供一种试剂盒或药盒，其中包括：前面任一所述的Cas9蛋白、任一所述的融合蛋白、任一所述的缀合物、任一所述的CRISPR-CAS复合物、任一所述的载体、所述的递送系统，或所述的组合物。

以上内容即为对本发明的总体描述，以下单独部分将对本发明的各个方面进行更详细的描述。然而，对本发明的描述应作如下理解：为了简化和减少冗余，本发明的某些实施方案仅在一个部分进行描述，或仅在权利要求或实施例中描述。因此，还应作如下理解：除非特别声明否认或组合形式不当，本发明的任何一个实施方案，包括仅在一个方面、一个部分或仅在权利要求或实施例中描述的实施方案，都可以与本发明中所述任何其它实施方案进行组合。

附图说明

图1、CasRfg.3蛋白的结构域分布。

图2、CasRfg.3蛋白识别PAM序列。

图3、CasRfg.3-N2-Target质粒载体图谱。

图4、CasRfg.3-N4-Target质粒载体图谱。

图5、CasRfg.3-N2切割产物电泳图，切割断裂片段长度为1589bp/1605bp。

图6、CasRfg.3-N4切割产物电泳图，切割断裂片段长度为1582bp/1580bp。

图7、CasRfg.3-N2切割片段测序结果。

图8、CasRfg.3-N4切割片段测序结果。

图9、CasRfg.3-N2在多次重复试验中可稳定地切割。

图10、CasRfg.3在不同温度的切割效果。

图11A-图11G、RNAfold预测的不同骨架序列的二级结构。

图12、骨架序列不同的截短sgRNA切割同一底物的结果。

图13A、sgRNA(CasRfg.3-sgRNA-全长)切割包含不同PAM的Ca2-N2底物。

图13B、sgRNA(tracSL2-1+2-全长)切割包含不同PAM的Ca2-N2底物。

图14、含不同长度指导序列的gRNA的切割活性。

图15、CasRfg.3、SaCas9和SpCas9的多序列比对，用于识别CasRfg.3的催化残基。

图16、用于表达Ca9-89重组蛋白的pXC09-89-GFPgRNA质粒图谱。

图17A-图17C、CBE-Ca2-LacZgRNA02单碱基编辑大肠杆菌β-半乳糖苷酶基因的测序峰图。图17B、17C示出了编辑后各碱基位置A、T、C或G所占比例。

图18、向导RNA的含茎环1、茎环2、茎环3、凸起1、双链体1的骨架结构。

具体实施方式

本发明人经过深入的研究筛选，提供一种新型Cas效应蛋白，称为CasRfg.3(又称为Ca2)。本发明的CasRfg.3蛋白比目前常用的SpCas9蛋白具有相对短的氨基酸序列长度，可被轻易包装入小容量基因治疗载体中，例如AAV载体。同时，其靶向编辑靶核酸序列特异性好，且其对于温度适应性好，耐受的温度范围宽，适应高温条件，例如可在25℃～55℃实现针对靶核酸的结合、切割或修饰功能。本发明的新型Cas效应蛋白在基因疗法等方面具有重要的应用价值。

术语

如本文所用，“CasRfg.3效应蛋白”、“CasRfg.3”、“Ca2”可互换使用。“Cas9蛋白”可包括“Cas9核酸酶”或基于该Cas9核酸酶改造的Cas9-nickase(Cas9n)或dCas9。

如本文所用，“Cas9核酸酶”一般指核酸酶结构域未完全失活的Cas9蛋白，非限制性实例例如野生型Cas9，例如未完全失活的Cas9(例如保留野生型Cas9的核酸酶活性的99%以上、95%以上、90%以上、80%以上、70%以上、60%以上、50%、40%以上、30%以上、20%以上、10%以上的Cas9突变体)。

如本文所用，术语“切割”(cleavage/cleaving)是指使多核苷酸的核糖基磷酸二酯主链中的共价键(例如共价磷酸二酯键)断裂，包括但不限于：使单链多核苷酸断裂，使含两条互补单链的双链多核苷酸的任一条单链断裂，使含两条互补单链的双链多核苷酸的两条单链都断裂。

如本文所用，术语“修饰”定义为包括以下的一种或多种：核酸碱基置换，核酸碱基缺失，核酸碱基插入，将核酸甲基化，将核酸去甲基化，和将核酸碱基去胺基化。

如本文所用，术语“gRNA”、“向导RNA”、“引导RNA”、“sgRNA”、“guide RNA”通常可互换使用。

如本文所用，术语“同向重复序列”与“DR序列”可互换使用。

如本文所用，术语“反式激活crRNA”、“反式激活CRISPR RNA”与“tracrRNA”可互换使用。

如本文所用，术语“RuvC结构域”与“RuvC核酸酶结构域”可互换使用，术语“HNH结构域”与“HNH核酸酶结构域”可互换使用。

如本文所用，术语“靶核酸”，是指含有靶序列的多核苷酸。靶核酸可以包含任何多核苷酸，如DNA(靶DNA)或RNA(靶RNA)。“靶核酸”是指gRNA引导Cas9蛋白到达、进行靶向或修饰的核酸。术语“靶核酸”可以是对细胞(例如，真核细胞)而言任何内源或外源的多核苷酸。例如，“靶核酸”可以是一种存在于真核细胞中的多核苷酸，也可以是一个编码基因产物(例如，蛋白质)的序列(或其一部分)或一个非编码序列(或其一部分)。在某些情况下，“靶核酸”可以包括一个或多个疾病相关基因和多核苷酸以及信号传导生化途径相关基因和多核苷酸。“疾病相关”基因或多核苷酸是指与非疾病对照的组织或细胞相比，在来源于疾病(例如遗传病、慢性病、传染病或癌症等)影响的组织的细胞中以异常水平或以异常形式产生转录或翻译产物的任何基因或多核苷酸。在某些情况下，所述靶核酸为DNA。在某些情况下，所述靶核酸为整个染色体DNA分子。所述靶核酸可以是任何目标核酸(包括DNA或RNA)分子，包括天然存在的核酸分子与工程化RNA分子。

如本文中使用的，术语“靶序列”是指靶核酸分子中的一小段序列，其可与gRNA分子的指导序列互补(完全互补或部分互补)或杂交。靶序列的长度经常为数十bp，例如，可以为约10bp、约20bp、约30bp、约40bp、约50bp、约60bp。

如本文所用，所述“特异指导序列”也称为“指导序列”，是向导RNA中的一段序列，其能将CRISPR-CAS复合物引导至靶核酸序列并发生特异性结合，该特异指导序列与靶核酸中的靶序列互补(部分互补或完全互补)和/或杂交。

测量Cas9蛋白、缀合物或融合蛋白与靶核酸的结合的方法是本领域已知的，包括但不限于染色质免疫沉淀测定、凝胶迁移率变动测定、报告蛋白或报告基因产物测定、微孔板捕获和检测测定。类似地，测量靶核酸的切割或修饰的方法在本领域中是已知的。

如本文所用，术语“序列同一性”(identity或percent identity)用于指两个多肽之间或两个核酸之间序列的匹配情况。通常，在将两个序列比对以产生最大序列同一性时进行比较。这样的比对可通过使用已公开和可商购的比对算法和程序，诸如但不限于ClustalΩ、MAFFT、Probcons、T-Coffee、Probalign、BLAST，本领域的普通技术人员可合理选择使用。本领域技术人员能确定用于比对序列的适宜参数，例如包括对所比较序列全长实现较优比对或最佳对比所需要的任何算法。

如本文所用，术语“保守性变异多肽”是指基本上保持野生型的多肽(如本发明中为分离自厚壁菌门(firmicutes) 厌氧弧菌属(Anaerovibrio sp.)的菌株的CasRfg.3)相同的生物学功能或活性的多肽。所述的“保守性变异多肽”可以是(i)有一个或多个保守或非保守性氨基酸残基(优选保守性氨基酸残基)被取代的多肽，而这样的取代的氨基酸残基可以是也可以不是由遗传密码编码的，或(ii)在一个或多个氨基酸残基中具有取代基团的多肽，或(iii)成熟多肽与另一个化合物(比如延长多肽半衰期的化合物，例如聚乙二醇)融合所形成的多肽，或(iv)附加的氨基酸序列融合到此多肽序列而形成的多肽(如前导序列或分泌序列或用来纯化此多肽的序列或蛋白原序列，或与抗原IgG片段的形成的融合蛋白)。根据本文的教导，这些片段、衍生物和类似物属于本领域熟练技术人员公知的范围。在更具体的方式中，所述“保守性变异多肽”可以指与SEQ ID NO: 1所示的氨基酸序列相比，有至多100个，较佳地至多80个，较佳地至多60个，较佳地至多50个，更佳地至多30个，更佳地至多20个，更佳地至多10个或5个氨基酸被性质相似或相近的氨基酸所替换而形成的多肽。所述“保守性变异多肽”基本上保持与本发明的Cas9蛋白相同的生物学功能或活性。

如本文所用，“突变”指序列(例如核酸或氨基酸序列)内的残基用另一个残基取代或序列内一个或多个残基的变为另一种残基，或发生缺失或插入。

如本文所用，“插入/缺失”指核酸内的核苷酸碱基的插入或缺失。此类插入或缺失可能可以导致基因编码区内的移码突变。

如本文所用，术语“变体”或“突变体”是指与参照序列相比，通过一个或多个氨基酸的插入、缺失或取代使氨基酸序列发生变化但保留至少一种生物活性的肽或多肽。本文任一实施方案所述的变体包括与参照序列(如本文所述的SEQ ID NO:1)具有至少90%，较佳地至少92%；更佳地至少94%；更佳至少95%，如至少96%、98%、99%或99.5%的序列相同性(同一性)并保留参照序列的生物学活性(如作为核酸酶)的氨基酸序列。可采用例如NCBI的BLASTp计算两条比对的序列之间的序列相同性。突变体还包括在参照序列的氨基酸序列中具有一个或多个突变(插入、缺失或取代)、同时仍保留参照序列生物学活性的氨基酸序列。所述一个或多个通常指1-60个，较佳地1-50个，更佳地1-40个，更佳地1-30个，更佳地1-20个，更佳地1-15个，更佳地1-10个，更佳地1-5个，更佳地1-3个或1-2。所述取代优选是保守性取代。例如，在本领域中，用性质相似或相近的氨基酸进行保守性取代时，通常不会改变蛋白质或多肽的功能。“性质相似或相近的氨基酸”包括例如，具有相似侧链的氨基酸残基的家族，这些家族包括具有碱性侧链的氨基酸(例如赖氨酸、精氨酸、组氨酸)、具有酸性侧链的氨基酸(例如天冬氨酸、谷氨酸)、具有不带电荷的极性侧链的氨基酸(例如甘氨酸、天冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、酪氨酸、半胱氨酸)、具有非极性侧链的氨基酸(例如丙氨酸、缬氨酸、亮氨酸、异亮氨酸脯氨酸、苯丙氨酸、甲硫氨酸、色氨酸)、具有β-分支侧链的氨基酸(例如苏氨酸、缬氨酸、异亮氨酸)和具有芳香侧链的氨基酸(例如酪氨酸、苯丙氨酸、色氨酸、组氨酸)。因此，在本发明多肽中用来自同一侧链类的另一氨基酸残基替换一个或几个位点，将不会在实质上影响其活性。

所述“被性质相似或相近的氨基酸所替换”可定义为侧链性质相似的氨基酸之间的取代。因此，所述取代可以是，例如(1)芳香族氨基酸之间的取代(Phe、Trp、Tyr)、(2)非极性脂肪族氨基酸(Gly、Ala、Val、Leu、Met、Ile、Pro)之间的取代、(3)不带电极性氨基酸(Ser、Thr、Cys、Asn、Gln)之间的取代、(4)碱性氨基酸(Lys、Arg、His)之间的取代，或(5)酸性氨基酸(Asp、Glu)之间的取代。

如本文所用，所述“可操作地连接”指这样一种状况，即DNA序列的某些部分能够调节或控制同一DNA序列其它部分的活性。例如，如果启动子控制蛋白编码序列的转录，那么它就是可操作地连接于编码序列。

如本文所用，“接头”指连接两个分子或部分，例如融合蛋白的两个域，例如Cas9酶和脱氨酶的化学基团或分子。在一些连接方式中，接头位于两个基团、分子或其他部分之间或侧翼，并且通过共价键连接两者。在一些实施方案中，接头是氨基酸或多个氨基酸(例如肽或蛋白质)。在一些实施方案中，接头是有机分子、基团、聚合物或化学部分。接头的长度以及类型，可以根据需要来进行设计。

如本文所用，“功能性化学分子”指的是既不是氨基酸、也不是肽的化学分子。例如包括(但不限于)：荧光基团、显色剂、显影剂或放射性同位素。

分离的Cas9蛋白

本发明提供了一种分离的Cas9蛋白。

在一些实施方式中，所述Cas9蛋白任选自：

具有核酸酶活性的Cas9核酸酶；

由所述Cas9核酸酶改造的Cas9-nickase(Cas9n)或dCas9；或

含有该所述Cas9核酸酶、Cas9-nickase或dCas9的融合蛋白或缀合物。

在一些实施方式中，所述Cas9蛋白具有选自以下(a)-(f)中任一项的特征或所述特征的任意组合：

(c) 其序列中包含RuvC结构域和HNH结构域；

(d) 能与向导RNA形成复合物，能在向导RNA引导下结合靶核酸，能在向导RNA引导下切割靶核酸，或能在向导RNA引导下修饰靶核酸；

(e) PAM序列为5’-DDRGDNN-3’，其中D为A、G或T，R为A或G，N为A、C、G或T；或

(f) 在25℃～55℃能发挥(d)中任一项功能。

在一些实施方式中，所述Cas9蛋白分离自厚壁菌门(firmicutes) 厌氧弧菌属(Anaerovibrio sp.)的菌株。在一些实施方式中，所述Cas9蛋白分离自具有与 NCBI数据库中编号为GCA_902786545.1所示基因组ANI(平均核苷酸同一性)值≥95%基因组的物种。在一些实施方式中，所述Cas9蛋白分离自具有与NCBI数据库中编号RUG13183的分离株基因组ANI值≥95%基因组的物种。

“平均核苷酸同一性(average nucleotide identity，ANI)”是一种在核酸水平上评价两个基因组之间所有直系同源蛋白编码基因的相似性的指标，对于细菌/古细菌一般以阈值ANI=95%来作为判断是否为同一物种的依据(Richter M， Rosselló-Móra R.Shifting the genomic gold standard for the prokaryotic species definition.Proc Natl Acad Sci USA. 2009 Nov 10;106(45):19126-31)，因此，本发明以上述阈值进行界定，认为与上述基因组ANI值≥95%的物种均为同一物种，来源于其的Cas9蛋白与本发明要求保护的蛋白具有同源性，功能相似，属于本发明的范围。

在一些实施方式中，所述Cas9蛋白包括选自下组的多肽：

(i) SEQ ID NO: 1所示氨基酸序列的多肽；

在一些实施方式中，所述Cas9蛋白序列中包含RuvC核酸酶结构域和HNH核酸酶结构域。其中，HNH核酸酶结构域剪切指导序列的互补链，RuvC核酸酶结构域剪切非互补链，可特异性产生双链断裂(DSB)。

在一些实施方式中，所述Cas9核酸酶包含PI(PAM interaction)结构域。

在一些实施方式中，可将所述Cas9蛋白(包括但不限于CasRfg.3蛋白)中一个或多个氨基酸残基(如催化残基)突变，调节其结合、切割或修饰靶核酸的活性。Cas9通过两个核酸酶结构域RuvC和HNH来产生双链断裂，而进一步可通过对关键残基进行突变，来形成Cas9-nickase(Cas9切刻酶，Cas9n)，使得RuvC结构域和HNH结构域中的一个失活，Cas9-nickase在向导RNA引导下能与靶核酸序列结合并切割靶核酸(如靶DNA)的单链。从而，靶核酸序列待切割/修饰区需要两个正确识别的Cas9n分子，才能产生双链断裂，这与野生型Cas9核酸酶相比，可实现特异性的增强。

在一些实施方式中，可将所述Cas9蛋白(包括但不限于CasRfg.3蛋白)中一个或多个氨基酸残基(如催化残基)突变，使得所述其作为Cas9核酸酶完全或部分丧失在向导RNA引导下的核酸酶活性，例如使得RuvC结构域和HNH结构域同时失活。这样的变化的蛋白，称为dead Cas9(dCas9)。dCas9尽管降低或丧失了核酸酶的活性、不进行靶核酸的切割，但是其仍然可以靠近和结合至靶核酸，可进行对靶核酸的转录激活或转录抑制。在一些实施方式中，dCas9序列中包含失活或降低活性的RuvC结构域，和失活或降低活性的HNH结构域；在一些实施方式中，可通过修饰来降低核酸酶活性，如相比野生型蛋白质核酸酶至少失活50%、60%、70%、80%、90%、95%、97%或100%。核酸酶活性可以通过本领域已知的几种方法来降低，例如将突变引入蛋白质的核酸酶(催化)结构域。在一些实施方式中，发现了一些核酸酶活性的催化残基，而且这些酸残基可以被不同的氨基酸残基(例甘氨酸或丙氨酸)取代以降低核酸酶活性。在一些实施方式中，上述氨基酸取代是保守氨基酸取代(保守性替换，Conservative Replacement或Conservative Substitution)。在一些实施方式中，上述氨基酸取代是非保守氨基酸取代。

本申请将标题为“Crystal Structure of Staphylococcus aureus Cas9”的文献(http://dx.doi.org/10.1016/j.cell.2015.08.007)引用至本文中。该文献详细研究了SaCas9的晶体结构，并与SpCas9序列进行了比对；另外还识别了SaCas9和SpCas9的催化残基(例如该文献的图S3)，SaCas9的催化残基包括D10、E477、H557、N580、H701、D704残基。

发明人利用在线的MAFFT v7.504 程序(E-INS-i 算法，其他为默认参数设置)，将CasRfg.3(又称为Ca2)蛋白与SaCas9和SpCas9进行多序列比对(如图15所示)，在上述SaCas9的催化残基的对应位置，识别出CasRfg.3的催化残基分别为D10、E520、H603、N626、H749、D752残基。因此通过对CasRfg.3的上述任意一个或多个催化残基进行突变，可以得到dead CasRfg.3或CasRfg.3 nickase。对于本申请的其他Cas9蛋白(例如CasRfg.3的保守性变异多肽或同源物)，也可以参照此方法识别确定，得到相应的dCas9或Cas9 nickase。

在一些实施方式中，所述Cas9蛋白与脱氨酶结构域融合形成单碱基编辑器，可对靶核酸特定位点的碱基进行编辑。例如与腺苷脱氨酶融合后得到单碱基编辑器，可将A·T碱基对转变为G·C碱基对。例如与胞嘧啶脱氨酶融合后得到单碱基编辑器，可将C·G碱基对转变为T·A碱基对。

在一些实施方式中，所述Cas9-nickase为所述Cas9核酸酶的变体，其包含失活的RuvC结构域或失活的HNH结构域，其在向导RNA引导下能与靶核酸序列结合并切割靶核酸(例如靶DNA)的单链。在一些实施方式中，所述Cas9-nickase相应于SEQ ID NO:1所示多肽的D10、E520、H603、N626、H749、或D752位点发生突变(一个或多个位点发生突变)。在一些实施方式中，所述Cas9-nickase与脱氨酶结构域融合形成单碱基编辑器，可对靶核酸特定位点的碱基进行编辑。例如与腺苷脱氨酶融合后得到单碱基编辑器，可将A·T碱基对转变为G·C碱基对。例如与胞嘧啶脱氨酶融合后得到单碱基编辑器，可将C·G碱基对转变为T·A碱基对。

在一些实施方式中，所述dCas9为所述Cas9核酸酶的变体，其包含失活的RuvC结构域和失活的HNH结构域、或其核酸切割功能降低或丧失，其在向导RNA引导下能与靶核酸序列结合。在一些实施方式中，所述dCas9相应于SEQ ID NO:1所示多肽的D10、E520、H603、N626、H749、或D752位点发生突变(一个或多个位点发生突变)。在一些实施方式中，所述Cas9-nickase与脱氨酶结构域融合形成单碱基编辑器，可对靶核酸特定位点的碱基进行编辑。例如与腺苷脱氨酶融合后得到单碱基编辑器，可将A·T碱基对转变为G·C碱基对。例如与胞嘧啶脱氨酶融合后得到单碱基编辑器，可将C·G碱基对转变为T·A碱基对。

在一些实施方式中，本发明提供了CasRfg.3蛋白、其保守性变异多肽或同源物，或还包含另一个共价或非共价连接的其它蛋白质或多肽或其它分子(例如检测试剂或药物/化学部分)。此类其它蛋白质/多肽/其它分子可以通过如化学偶联、基因融合或其它非共价连接(如生物素-链霉亲和素结合)进行连接。此类衍生蛋白质不影响原始蛋白质的功能，如与本发明中向导RNA结合形成复合物的能力以及在向导RNA引导下能够在特定位点结合、切割或修饰靶核酸。

在一些实施方式中，可以不使用全长的所述Cas9蛋白，例如不使用全长的CasRfg.3蛋白(SEQ ID NO: 1)、其保守性变异多肽或同源物，而是使用它们的功能片段。所述“功能片段”指的是SEQ ID NO: 1多肽、其保守性变异多肽或同源物的片段或其衍生物，它的序列短于全长序列。所述功能片段中的缺失残基可以在N末端、C末端和/或内部。所述功能片段保留了至少一部分SEQ ID NO: 1多肽的功能。非限制性示例例如可以仅使用所述CasRfg.3蛋白的RuvC结构域、HNH结构域或PI结构域。例如可以使用CasRfg.3蛋白的RuvC结构域和HNH结构域。

在一些实施方式中，可在所述Cas9蛋白内部插入其他结构域，仍能维持原Cas9蛋白的一些功能，例如其与向导RNA形成复合物、靶向至靶核酸、结合靶核酸、切割靶核酸、或修饰靶核酸的能力。例如可在所述Cas9蛋白内部插入脱氨酶结构域、转录激活域(例如VP64或VPR)、转录抑制域(例如KRAB或SID部分)、或核酸酶结构域(如FokI)等等。这些改造过的蛋白也都在本发明保护范围内。

在一些实施方式中，CasRfg.3蛋白、其保守性变异多肽或同源物可以不是天然存在的，例如可能与天然存在的序列相比有至少一个氨基酸的差异。

在一些实施方式中，所述Cas9蛋白可与本发明中向导RNA形成复合物。

在一些实施方式中，所述Cas9蛋白可在本发明中向导RNA引导下结合靶核酸。

在一些实施方式中，所述Cas9蛋白可在本发明中向导RNA引导下切割或修饰靶核酸。

在一些实施方式中，所述Cas9蛋白可在本发明中向导RNA引导下用于调控靶核酸的转录激活或转录抑制。

在一些实施方式中，所述Cas9蛋白可与本发明中向导RNA组合用于调控靶核酸的转录激活或转录抑制。

在一些实施方式中，所述Cas9蛋白可在25℃～55℃范围内：

与本发明中向导RNA形成复合物；

在本发明中向导RNA引导下结合靶核酸；

在本发明中向导RNA引导下切割或修饰靶核酸；或

与本发明中向导RNA组合用于调控靶核酸的转录激活或转录抑制。

进一步地，所述温度范围可以为35℃-55℃。再进一步地，所述温度为37℃-55℃、40℃-55℃、45℃-55℃或50℃-55℃。

在一些实施方式中，所述Cas9蛋白(包括但不限于CasRfg.3)识别的PAM序列为5’-DDRGDNN-3’(D为A、G或T；R为A或G；N为A、C、G或T)。进一步地，在一些实施方式中，所述Cas9蛋白(包括但不限于CasRfg.3)对应的PAM序列选自：5’-ATAGGCT-3’、5’-AAGGCT-3’、5’-AGGGTCG-3’、5’-GAGGTCC-3’、5’-TTGGGCT-3’、5’-TGGGGTA-3’、5’-TGGGGGC-3’、5’-GGGGGGA-3’、5’-AGAGGAT-3’、5’-AGGGTCC-3’、5’-ATAGGGA-3’、5’-GTAGAAT-3’、5’-GGGGAAG-3’、5’-TAAGGTT-3’、5’-TGGGTAG-3’、5’-GGGGGAT-3’。

在一些实施方式中，所述Cas9蛋白(包括但不限于CasRfg.3)不具有实质性/可检测的附加核酸酶活性(如DNA酶/RNA酶活性)。此处“附加的核酸酶活性”是指非特异性核酸酶活性。例如，包含Cas9蛋白的复合物通过与靶核酸(例如靶DNA)结合被激活后，会发生构象变化，进而导致所述复合物充当一个非特异性核酸酶，对附近核酸分子(例如DNA或RNA分子)进行裂解和/或降解(即“附加”的效应)。

缀合物

本发明提供了一种缀合物，所述缀合物包含：本发明所述Cas9蛋白，以及与之缀合的异源功能部分。

在一些实施方式中，所述Cas9蛋白为具有核酸酶活性的Cas9核酸酶(包括但不限于未发生突变的野生型Cas9蛋白，例如CasRfg.3蛋白)、Cas9-nickase(Cas9n，nCas9)、dCas9、或其衍生物或功能片段，且所述Cas9蛋白可与一个或多个异源功能部分缀合。这些异源功能部分可以具有各种活性，例如甲基化酶活性、脱甲基酶活性、脱氨酶活性、转录激活活性、转录抑制活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性、DNA切割活性、核酸结合活性、碱基编辑活性，以及切换活性(如光诱导)。

所述异源功能部分可包括但不限于：定位信号(例如核定位信号NLS、核输出信号NES)、报告蛋白或报告基因产物(例如GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、标记或检测标记(如FITC或DAPI这种荧光染料)、靶向部分、DNA结合域(例如MBP、Lex A DBD、Gal4 DBD)、抗原决定簇标签(例如Hismyc、V5、FLAG、HA、VSV-G、Trx等)、转录激活域(例如VP64或VPR)、转录抑制域(例如KRAB或SID部分)、核酸酶(如FokI)、脱氨酶或脱氨基域(例如ADAR1，ADAR2，APOBEC，AID或TAD)、碱基切除修复抑制剂(如尿嘧啶-DNA糖基化酶抑制剂(UGI))、甲基化酶、脱甲基酶、转录释放因子、HDAC、ssRNA裂解活性域、dsRNA裂解活性域、ssDNA裂解活性域、dsDNA裂解活性域、DNA或RNA连接酶、功能性化学分子，或以上任意的组合。

例如，所述缀合物可以包括一个或多个NLS，此类NLS可以在所述Cas9蛋白的N端、C端和/或内部。

在一些实施方式中，所述缀合可以是共价键连接或非共价键连接。

在一些实施方式中，所述缀合可以是通过接头连接，即所述异源功能部分与所述Cas9蛋白之间还包括接头，所述异源功能部分、接头、Cas9蛋白之间通过共价键或非共价键进行连接。所述接头的非限制性示例包括氨基酸、肽、氨基酸衍生物(例如Ahx、β-Ala、GABA或Ava)或PEG等。

通常，异源功能部分的缀合不影响原始蛋白的功能，例如与本发明中向导RNA结合形成复合物的能力，或在向导RNA引导下能够在特定位点结合或切割靶核酸的能力。

在一些实施方式中，所述缀合物可与本发明中向导RNA形成复合物。

在一些实施方式中，所述缀合物可在本发明中向导RNA引导下结合靶核酸。例如可与NLS缀合，在NLS引导下进入真核细胞的细胞核内与靶核酸结合。

在一些实施方式中，所述缀合物可在本发明中向导RNA引导下切割或修饰靶核酸。例如本发明Cas9蛋白可与NLS缀合，在NLS引导下进入真核细胞的细胞核内切割靶核酸，之后借助细胞内的NHEJ或HDR修复机制还可以继续修饰靶核酸(例如导致靶核酸的碱基插入/删除[indel])。例如本发明Cas9蛋白(例如Cas9-nickase)可与脱氨酶缀合，或者与脱氨酶和尿嘧啶-DNA糖基化酶抑制剂(UGI)缀合，构建得到包含本发明Cas9蛋白的单碱基编辑器，所述单碱基编辑器还可以缀合有NLS。所述单碱基编辑器可以在本发明中向导RNA引导下修饰靶核酸(例如进行核酸碱基置换)。

在一些实施方式中，所述缀合物可与向导RNA组合用于调控靶核酸的转录激活或转录抑制。例如本发明Cas9蛋白(例如dCas9)可与转录激活域(例如VP64或VPR)或转录抑制域(例如KRAB或SID部分)缀合，然后与向导RNA(例如靶向目的基因的启动子区或增强子区)组合用于调控靶核酸的转录激活或转录抑制。

在一些实施方式中，所述缀合物可在25℃～55℃范围内：

与本发明中向导RNA形成复合物；

在本发明中向导RNA引导下结合靶核酸；

在本发明中向导RNA引导下切割或修饰靶核酸；或

在一些实施方式中，所述缀合物识别的PAM序列为5’-DDRGDNN-3’(D为A、G或T；R为A或G；N为A、C、G或T)。进一步地，在一些实施方式中，所述缀合物对应的PAM序列选自：5’-ATAGGCT-3’、5’-AAGGCT-3’、5’-AGGGTCG-3’、5’-GAGGTCC-3’、5’-TTGGGCT-3’、5’-TGGGGTA-3’、5’-TGGGGGC-3’、5’-GGGGGGA-3’、5’-AGAGGAT-3’、5’-AGGGTCC-3’、5’-ATAGGGA-3’、5’-GTAGAAT-3’、5’-GGGGAAG-3’、5’-TAAGGTT-3’、5’-TGGGTAG-3’、5’-GGGGGAT-3’。

融合蛋白

本发明提供了一种融合蛋白，所述融合蛋白包含：前文任一项所述的Cas9蛋白，以及与之融合的异源功能结构域。

在一些实施方式中，所述Cas9蛋白为具有核酸酶活性的Cas9核酸酶(包括但不限于未发生突变的野生型Cas9蛋白[例如CasRfg.3蛋白]，以及所述野生型Cas9蛋白的活性突变体)、Cas9-nickase(Cas9n，nCas9)、dCas9、或其衍生物或功能片段，且所述Cas9蛋白可与一个或多个异源功能结构域融合或缔合(例如通过融合蛋白、接头肽等)。这些功能域可以具有各种活性，例如甲基化酶活性、脱甲基酶活性、脱氨酶活性、转录激活活性、转录抑制活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性、DNA切割活性、核酸结合活性、碱基编辑活性，以及切换活性(如光诱导)。

所述异源功能结构域可包括但不限于：定位信号(例如核定位信号NLS、核输出信号NES)、报告蛋白或报告基因产物(例如GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、标记或检测标记(如FITC或DAPI这种荧光染料)、靶向部分、DNA结合域(例如MBP、Lex A DBD、Gal4 DBD)、抗原决定簇标签(例如Hismyc、V5、FLAG、HA、VSV-G、Trx等)、转录激活域(例如VP64或VPR)、转录抑制域(例如KRAB或SID部分)、核酸酶(如FokI)、脱氨酶或脱氨基域(例如ADAR1，ADAR2，APOBEC，AID或TAD)、碱基切除修复抑制剂(如尿嘧啶-DNA糖基化酶抑制剂(UGI))、甲基化酶、脱甲基酶、转录释放因子、HDAC、ssRNA裂解活性域、dsRNA裂解活性域、ssDNA裂解活性域、dsDNA裂解活性域、DNA或RNA连接酶，或以上任意的组合。

在一些实施方式中，所述Cas9蛋白为具有核酸酶活性的Cas9核酸酶(包括但不限于未发生突变的野生型Cas9蛋白[例如CasRfg.3蛋白]，以及所述野生型Cas9蛋白的活性突变体)。所述Cas9核酸酶与脱氨酶结构域融合形成单碱基编辑器，可对靶核酸特定位点的碱基进行编辑。例如与腺苷脱氨酶融合后得到单碱基编辑器，可将A·T碱基对转变为G·C碱基对。例如与胞嘧啶脱氨酶融合后得到单碱基编辑器，可将C·G碱基对转变为T·A碱基对。

在一些实施方式中，所述Cas9蛋白为Cas9-nickase，其包含失活的RuvC结构域或失活的HNH结构域，其在向导RNA引导下能与靶核酸序列结合并切割靶核酸(例如靶DNA)的单链。在一些实施方式中，所述Cas9-nickase相应于SEQ ID NO:1所示多肽的D10、E520、H603、N626、H749、或D752位点发生突变。在一些实施方式中，所述Cas9-nickase与脱氨酶结构域融合形成单碱基编辑器，可对靶核酸特定位点的碱基进行编辑。例如与腺苷脱氨酶融合后得到单碱基编辑器，可将A·T碱基对转变为G·C碱基对。例如与胞嘧啶脱氨酶融合后得到单碱基编辑器，可将C·G碱基对转变为T·A碱基对。

在一些实施方式中，所述Cas9蛋白为dCas9，其包含失活的RuvC结构域和失活的HNH结构域、或其核酸切割功能降低或丧失，其在向导RNA引导下能与靶核酸序列结合。在一些实施方式中，所述dCas9相应于SEQ ID NO:1所示多肽的D10、E520、H603、N626、H749、或D752位点发生突变。在一些实施方式中，所述Cas9-nickase与脱氨酶结构域融合形成单碱基编辑器，可对靶核酸特定位点的碱基进行编辑。例如与腺苷脱氨酶融合后得到单碱基编辑器，可将A·T碱基对转变为G·C碱基对。例如与胞嘧啶脱氨酶融合后得到单碱基编辑器，可将C·G碱基对转变为T·A碱基对。

在一些实施方式中，存在多个(例如2、3、4、5、6、7、8或更多个)相同或不同的功能域。例如，所述融合蛋白可以包括一个或多个NLS，例如1个、2个、3个、4个、5个或更多个NLS，例如≥1个、≥2个、≥3个或≥4个NLS。此类NLS可以位于Cas9蛋白的N端、C端、或内部。

在一些实施方式中，所述异源功能结构域与所述Cas9蛋白之间还包括接头，所述异源功能结构域、接头、Cas9蛋白之间通过共价键或非共价键进行连接。所述接头的非限制性示例包括氨基酸、肽、氨基酸衍生物(例如Ahx、β-Ala、GABA或Ava)等。在一些实施方式中，所述功能域与一个接头序列(如柔性接头序列或刚性接头序列)缔合或融合。

在一些实施方式中，融合异源功能结构域后不影响原始Cas9蛋白的功能，例如与本发明中向导RNA结合形成复合物的能力，以及在向导RNA引导下能够在特定位点结合或切割靶核酸的能力。

所述一个或多个功能域在Cas9蛋白上的位置。这种位置可以使得所述功能域有正确的空间定向，从而对靶标产生附带的功能效应。例如，如果所述功能结构域是转录激活子(如VP16、VP64或p65)，转录激活子则被放置于能够影响靶标转录的空间定向上。同理，一个转录抑制子会被放置于能够影响靶标转录的定位上，一个核酸酶(如Fok1)会被放置于能够切割或部分切割靶标的定位上。在一些实施方式中，所述功能结构域位于Cas9蛋白的N端。在一些实施方式中，所述功能结构域位于Cas9蛋白的C端。在一些实施方式中，所述功能结构域位于Cas9蛋白的N端和C端。在一些实施方式中，所述的dCas9/nCas9经过修饰，修饰后的该dCas9/nCas9在N端包含第一功能域并在C端包含第二功能域。

在一些实施方式中，所述融合蛋白可与本发明中向导RNA形成复合物。

在一些实施方式中，所述融合蛋白可在本发明中向导RNA引导下结合靶核酸。例如可与NLS融合，在NLS引导下进入真核细胞的细胞核内与靶核酸结合。

在一些实施方式中，所述融合蛋白可在本发明中向导RNA引导下切割或修饰靶核酸。例如本发明Cas9蛋白可与NLS融合，在NLS引导下进入真核细胞的细胞核内切割靶核酸，之后借助细胞内的NHEJ或HDR修复机制还可以继续修饰靶核酸(例如导致靶核酸的碱基插入/删除[indel])。例如本发明Cas9蛋白(例如Cas9-nickase)可与脱氨酶融合，或者与脱氨酶和尿嘧啶-DNA糖基化酶抑制剂(UGI)融合，构建得到包含本发明Cas9蛋白的单碱基编辑器，所述单碱基编辑器还可以融合有NLS。所述单碱基编辑器可以在本发明中向导RNA引导下修饰靶核酸(例如进行核酸碱基置换)。

在一些实施方式中，所述融合蛋白可与向导RNA组合用于调控靶核酸的转录激活或转录抑制。例如本发明Cas9蛋白(例如dCas9)可与转录激活域(例如VP64或VPR)或转录抑制域(例如KRAB或SID部分)融合，然后与向导RNA(例如靶向目的基因的启动子区或增强子区)组合用于调控靶核酸的转录激活或转录抑制。

在一些实施方式中，所述融合蛋白可在25℃～55℃范围内：

与本发明中向导RNA形成复合物；

在本发明中向导RNA引导下结合靶核酸；

在本发明中向导RNA引导下切割或修饰靶核酸；或

在一些实施方式中，所述融合蛋白识别的PAM序列为5’-DDRGDNN-3’(D为A、G或T；R为A或G；N为A、C、G或T)。进一步地，在一些实施方式中，所述融合蛋白对应的PAM序列选自：5’-ATAGGCT-3’、5’-AAGGCT-3’、5’-AGGGTCG-3’、5’-GAGGTCC-3’、5’-TTGGGCT-3’、5’-TGGGGTA-3’、5’-TGGGGGC-3’、5’-GGGGGGA-3’、5’-AGAGGAT-3’、5’-AGGGTCC-3’、5’-ATAGGGA-3’、5’-GTAGAAT-3’、5’-GGGGAAG-3’、5’-TAAGGTT-3’、5’-TGGGTAG-3’、5’-GGGGGAT-3’。

CRISPR-CAS复合物

本发明也提供一种CRISPR-CAS复合物，其包括：

(1) 本发明所述的任意Cas9蛋白；和

(2) 向导RNA。

在一些实施方式中，所述Cas9蛋白为具有核酸酶活性的Cas9核酸酶，或由该Cas9核酸酶改造的Cas9-nickase(Cas9n)或dCas9，或含有该Cas9核酸酶、Cas9-nickase或dCas9的融合蛋白或缀合物。

(c) 其序列中包含RuvC结构域和HNH结构域；

(f) 在25℃～55℃能发挥(d)中任一项功能。

本发明的CRISPR-CAS复合物可用于多种应用，如运用于基于基因编辑的治疗，因为CasRfg.3蛋白要显著小于本领域的许多Cas9蛋白，因此编码CasRfg.3蛋白、其保守性变异多肽或其同源物的核酸及它们的引导RNA编码序列更适宜于被包装到有大小限制的递送系统中(如AAV载体)。

向导RNA

本发明还提供了一种向导RNA，能与本发明Cas9蛋白相互作用或形成复合物，或者能引导本发明Cas9蛋白结合至靶核酸，或能引导本发明Cas9蛋白切割或修饰靶核酸，或能与本发明Cas9蛋白组合用于调控靶核酸的转录激活或转录抑制。

在一些实施方式中，所述向导RNA包含指导序列、同向重复序列(DR序列)。

在一些实施方式中，所述向导RNA包含指导序列、同向重复序列(DR序列)和反式激活crRNA(trans-activating crRNA，tracrRNA)序列。

所述指导序列与靶核酸上的靶序列相互作用、结合、互补(部分互补或完全互补)或杂交；或者所述指导序列将Cas9-向导RNA复合物引导至靶核酸序列并发生特异性结合。所述tracrRNA可与所述Cas9蛋白相互作用或结合，所述tracrRNA可与所述DR序列互补(部分互补或完全互补)、相互作用或结合。

在一些实施方式中，本文所述的CRISPR系统含有向导RNA。所述的CRISPR系统可包括一或多个向导RNA (例如1～12个；具体地如1、2、3、4、5、6、7、8或更多个RNA向导)。

在一些实施方式中，所述DR序列连接至所述指导序列的3’末端，例如通过共价键连接。

DR序列与指导序列合称为crRNA。所述tracrRNA与crRNA可以共价连接。在一些实施方式中，所述tracrRNA与DR序列连接成为gRNA的骨架序列，例如通过嵌入1个、2个、3个、4个、5个、6个或更多个核苷酸而将tracrRNA与DR序列连接起来。进而形成单分子gRNA。从5’到3’末端依次排列顺序为：指导序列→DR序列→tracrRNA序列。

所述骨架序列的长度范围为20nt-190nt。

优选地，在一些实施方式中，所述crRNA、tracrRNA或骨架序列能够形成茎-环结构(stem-loop)。

在一些实施方式中，所述骨架序列能够形成1个、2个、3个、4个、5个、6个或更多个茎-环结构。在一些实施方式中，所述骨架序列能够形成1个、2个或3个茎-环结构。在一些实施方式中，所述骨架序列能够形成≥1个、≥2个或≥3个茎-环结构。在一些实施方式中，所述骨架序列能够形成≤1个、≤2个或≤3个茎-环结构。

在一些实施方式中，所述骨架序列能够形成茎-环结构，核心结构可如图18所示。

在一些实施方式中，所述骨架序列从5’端到3’端依次包含双链体、凸起、茎环1。在一些实施方式中，所述骨架序列从5’端到3’端依次包含双链体、凸起、茎环1、可选的连接序列、茎环2。在一些实施方式中，所述骨架序列从5’端到3’端依次包含双链体、凸起、茎环1、可选的连接序列1、茎环2、可选的连接序列2、茎环3。

在一些实施方式中，所述骨架序列的长度为≥20nt、≥30nt、≥40nt、≥50nt、≥60nt、≥70nt、≥80nt、≥90nt、≥100nt、≥110nt、≥120nt、≥130nt、≥140nt、≥150nt或≥160nt。在一些实施方式中，所述骨架序列的长度为≤100nt、≤110nt、≤120nt、≤130nt、≤140nt、≤150nt、≤160nt、≤170nt、≤180nt或≤190nt。所述nt意指核苷酸。

在一些实施方式中，所述骨架序列的长度范围为20nt-190nt、20nt-160nt、20nt-140nt、20nt-120nt、20nt-110nt、20nt-100nt、40nt-160nt、40nt-140nt、40nt-120nt、40nt-110nt、40nt-100nt、60nt-160nt、60nt-140nt、60nt-120nt、60nt-110nt、60nt-100nt、80nt-160nt、80nt-140nt、80nt-120nt、80nt-110nt、80nt-100nt、100nt-160nt、100nt-140nt或100nt-120nt。

在一些实施方式中，所述指导序列的长度范围为10nt-60nt、10nt-50nt、10nt-40nt、10nt-30nt、15nt-60nt、15nt-50nt、15nt-40nt、15nt-30nt。

在一些实施方式中，所述指导序列的长度范围为16nt-30nt。在一些实施方式中，所述指导序列的长度范围为18nt-25nt。在一些实施方式中，所述指导序列的长度范围为20nt-24nt。在一些实施方式中，所述指导序列的长度为16nt、17nt、18nt、19nt、20nt、21nt、22nt、23nt、24nt、25nt、26nt、27nt、28nt、29nt或30nt。

在一些实施方式中，所述向导RNA具有SEQ ID NO: 3所示的核苷酸序列或其截短体。在一些实施方式中，所述截短体具有SEQ ID NO: 4-7所示的核苷酸序列。

本发明所用的“同向重复序列”(DR序列)可以指所述CRISPR基因座中的DNA编码序列，当描述为RNA水平时，每个T应理解为代表一个U。

为减少脱靶相互作用，如为了减少特异指导序列与低互补性靶序列的相互作用，可以在CRISPR系统引入突变，使CRISPR系统能够区分靶序列和脱靶序列，这些靶序列和脱靶序列有大于80%、85%、90%或95%的互补性。在一些实施方式中，这种互补程度是80%-95%，如约83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93 %、94%或95%(例如，可以区分一个有18个核苷酸的靶标与一个有1、2或3个错配的18个核苷酸的脱靶标)。因此，在一些实施方式中，一种特异指导序列与其对应的靶序列的互补程度大于94.5%、95%、95.5%、96%、96.5%、97%、97.5%、98%、98.5%、99 %、99.5%或99.9%。在一些实施方式中，互补程度为100%。

在本领域中已知，有足够的互补性能够发挥作用则不需要完全互补性。可以通过引入错配来调节切割效率，例如引入一种或多种错配，如在特异指导序列和靶序列之间引入1或2个错配。若一个错配(如双错配)位于越靠近中心的位置(即不在3’或5’末端)，对切割效率的影响越大。因此，可以将错配引入沿着该特异指导序列的位置来调节切割效率。例如，如果期望实现少于100%的靶标切割，则可以将1或2个特异指导序列与靶序列之间的错配引入间隔序列中。

化学修饰可被引入到所述向导RNA的磷酸骨架、糖和/或碱基。骨干修饰(如硫代磷酸酯)修饰磷酸主链上的电荷，并帮助寡核苷酸的递送和核酸酶抗性(参见如Eckstein，Nucl. Acid Ther., 24, pp. 374-387, 2014)；糖的修饰，例如2’-O-甲基(2’-OMe)、2’-F、锁核酸(LNA)的修饰，可增强碱基配对和核酸酶抗性(参见如Allerson，J. Med. Chem.48.4: 901-904, 2005)，糖的修饰还可包括2’-脱氧修饰。经化学修饰的碱基，例如2-硫尿苷或N6-甲基腺苷，可以使得碱基配对变强或变弱(参见如，Bramsen，Front. Genet., 2012Aug. 20; 3:154)。此外，向导RNA可以在5’和/或3’末端与各种功能部分缀合，包括荧光染料、聚乙二醇或蛋白质。向导RNA的5’端可有额外的核苷酸与指导序列相连接，非限制性示例例如5’末端可以包含2个附加的鸟嘌呤核苷酸，用于提高靶向特异性。

在一些实施方式中，用2’-OMe修饰向导RNA，可以提高核酸酶抗性，从而改变Watson-Crick碱基配对的结合能。此外，2’-OMe修饰可影响寡核苷酸与细胞中转染试剂、蛋白质或与其它任何分子的相互作用。这些修饰的效果可经实证检验获得。

在一些实施方式中，所述向导RNA包含一种或多种硫代磷酸酯修饰。在一些实施方式中，为增强碱基配对和/或增加核酸酶抗性，所述向导RNA包括一种或多种锁核酸。在一些实施方式中，所述向导RNA的一个或多个核糖核苷酸可被脱氧核糖核苷酸替代。

多核苷酸

本发明还提供了分离的多核苷酸，其编码前文任意所述的Cas9蛋白、所述的融合蛋白、所述的缀合物的蛋白质部分。

在一些实施方式中，所述分离的多核苷酸包含：(i)SEQ ID NO：2所示核苷酸序列；(ii)与SEQ ID NO：2相比有一个或多个核苷酸缺失、添加和/或取代；(iii)与SEQ ID NO：2相比具有至少40%、至少50%、至少60%、至少70%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%序列同一性的一种多核苷酸；(iv)一种多核苷酸，在严格条件下可与(i)-(iii)的多核苷酸中的任何一种或其互补序列杂交；(v)(i)-(iii)的任何多核苷酸的互补序列。上述多核苷酸序列的简并的序列也是可用的。

在一些实施方式中，所述的多核苷酸为天然序列、突变序列或为密码子优化的序列。

在一些实施方式中，多核苷酸被进行了密码子优化以在原核生物中表达。在一些实施方式中，多核苷酸被进行了密码子优化以在真核生物如人类或人类细胞中表达。

在一些实施方式中，所述核酸是一种合成核酸。在一些实施方式中，所述核酸是一个DNA分子。在一些实施方式中，所述核酸是一个RNA分子(如编码所述Cas9蛋白、其衍生物或其功能片段的mRNA分子)。在一些实施方式中，上述mRNA被加帽、聚腺苷酸化、被5-甲基胞嘧啶核苷取代、被伪尿苷取代，或以上任意组合。

在一些实施方式中，所述核酸(如DNA)被可操作地连接至调节元件(如启动子)，以便控制核酸的表达。在一些实施方式中，上述启动子可以是组成型启动子。在一些实施方式中，上述启动子可以是诱导型启动子。在一些实施方式中，上述启动子可以是细胞特异性启动子。在一些实施方式中，上述启动子可以是生物体特异性启动子。

合适的启动子可以是本领域已知的启动子，包括如pol I启动子、pol II启动子、pol III启动子、T7启动子、U6启动子、H1启动子、逆转录病毒劳斯肉瘤病毒LTR启动子、巨细胞病毒(CMV)启动子、SV40启动子、二氢叶酸还原酶启动子和β-肌动蛋白启动子。例如，U6启动子可用于调节本文所述向导RNA分子表达。

在一些实施方式中，所述一种或多种核酸存在于一个载体中(如病毒载体或噬菌体)。该载体可以是一个克隆载体或表达载体。该载体可以是一个质粒、噬菌粒、粘粒等。该载体可以包括一种或多种调节元件，让这种载体得以在目的细胞(例如细菌细胞或哺乳动物细胞)中复制。在一些实施方式中，该载体含有一个核酸，该核酸编码本文所述的CRISPR关联(Cas)系统一个单个组分。在一些实施方式中，该载体包括多个核酸，每个核酸编码本文所述的CRISPR关联(Cas)系统的一个组分。

重组载体

本发明还提供了一种重组载体，它含有(a)前述的任意的多核苷酸序列，或含有(b)编码前述任意向导RNA的多核苷酸，或含有(a)与(b)的组合。

在一些实施方式中，所述多核苷酸还与启动子、增强子和/或终止子可操作地连接。在一些实施方式中，所述启动子包括：组成型启动子、诱导型启动子、广谱表达型启动子或组织特异性启动子。

在一些实施方式中，所述重组载体包括：病毒载体或非病毒载体；较佳地，所述载体包括(但不限于)：质粒、慢病毒载体、腺病毒载体、腺相关病毒载体(AAV)、逆转录病毒载体、噬菌体载体或单纯疱疹病毒(HSV)载体。

重组细胞

本发明还提供了一种重组细胞，它含有前述的重组载体。

在一些实施方式中，所述重组载体会表达本发明的Cas9蛋白和向导RNA，进而靶向、结合、切割或修饰细胞的一种或多种核酸(包括DNA或RNA)分子。例如，这种修饰可以增加DNA的转录、翻译或表达。在其它实施方案中，这种修饰可降低DNA的转录、翻译或表达。

在一种或多种实施方式中，所述真核细胞包括(但不限于)：哺乳动物细胞(非人类哺乳动物细胞、人类细胞)、植物细胞、真菌细胞(如酵母)或昆虫细胞。在一种或多种实施方式中，所述原核细胞包括(但不限于)：大肠杆菌、枯草杆菌、沙门氏菌、梭菌或链霉菌。

在一些实施方式中，所述细胞是真核细胞，例如哺乳动物细胞，包括人类细胞(例如人类原代细胞或已建立的人类细胞系)。在一些实施方式中，所述细胞为非人类哺乳动物细胞，例如来自非人类灵长类动物(如猴子)、奶牛/公牛/家牛、绵羊、山羊、猪、马、狗、猫、啮齿动物(如兔子、小、大鼠、仓鼠)等。在一些实施方式中，所述细胞来自鱼(如鲑鱼)、鸟(如禽鸟，包括小鸡、鸭、鹅)、爬行动物、贝类(如牡蛎、蛤、龙虾、虾)、昆虫、蠕虫、酵母等。在一些实施方式中，所述细胞来自植物，如单子叶植物或双子叶植物。在一些实施方式中，上述植物是粮食作物，例如大麦、木薯、棉花、花生、玉米、小米、油棕果、土豆、豆类、油菜籽或低芥酸菜子、大米、黑麦、高粱、大豆、甘蔗、糖甜菜、向日葵和小麦。在一些实施方式中，上述植物是谷物(大麦、玉米、小米、大米、黑麦、高粱和小麦)。在一些实施方式中，上述植物是块茎(木薯和土豆)。在一些实施方式中，上述植物是糖料作物(甜菜和甘蔗)。在一些实施方式中，上述植物是含油作物(大豆、花生、油菜籽或低芥酸菜子、向日葵和油棕果)。在一些实施方式中，上述植物是纤维作物(棉花)。在一些实施方式中，上述植物是树(如桃树或油桃树、苹果或梨树、坚果树(如杏仁或核桃树或开心果树)或柑橘属树(例如橙子、葡萄柚或柠檬树 )、草、蔬菜、水果或藻类。在一些实施方式中，上述植物是茄属植物；芸苔属(Brassica)植物；莴苣属(Lactuca)植物；菠菜属(Spinacia)植物；辣椒属(Capsicum)植物；棉花、烟草、芦笋、胡萝卜、卷心菜、西兰花、花椰菜、番茄、茄子、胡椒、生菜、菠菜、草莓、蓝莓、覆盆子、黑莓、葡萄、咖啡、可可等。

在一个相关方面，本文提供了经修饰的细胞或其后代，修饰方法是本发明中使用所述CRISPR系统的方法。

在一些实施方式中，所述细胞在体外、体内或离体进行修饰。

在一些实施方式中，所述细胞是干细胞。

在一些实施方式中，所述细胞是胚胎干细胞。较佳地，所述胚胎干细胞为未经过体内发育的受精14天以内的人类胚胎分离或者获取干细胞技术。较佳地，所述胚胎干细胞为已建系的、传代的胚胎干细胞，或为商品化的胚胎干细胞。

制备方法

本发明还提供了一种制备前述Cas9蛋白、融合蛋白、或缀合物的蛋白部分的方法，包括：培养携带有编码这些蛋白的多核苷酸的重组细胞，从培养物中分离出所述的Cas9蛋白、融合蛋白或缀合物的蛋白部分。

递送系统

本发明还提供了一种递送系统，其包含：

(a)递送载体；以及

(b)CRISPR系统或其任何组分，包括(但不限于)前述的Cas9蛋白、融合蛋白、缀合物、CRISPR-CAS复合物、或重组载体。

所述递送载体将所述CRISPR系统或其任何组分递送至靶核酸。

在一些实施方式中，所述递送载体包括(但不限于)：纳米颗粒、脂质体、细胞外囊泡、质粒、病毒载体。如使用腺相关病毒(即AAV)、慢病毒、腺病毒、逆转录病毒载体、其它病毒载体，或以上载体的组合。递送方法包括(但不限于)电穿孔、脂质转染、显微注射、转染、超声处理、基因枪等。

靶核酸可以位于真核细胞内、原核细胞内、或动物(如人)体内。在一些实施方式中，将载体(如质粒或病毒载体)递送至动物体的目标组织，是通过例如肌内注射、静脉内施用、透皮施用、鼻内施用、口服施用或粘膜施用等方式。这种递送可以是单剂量或多剂量的。本领域专业人员应理解，本文所述的递送实际剂量，会根据多种因素而可能产生很大的变化，所述因素如载体的选择、靶细胞、生物体、组织、待治疗对象的总体情况、施用途径、施用模式等。如要应用于细菌中，可以利用一个噬菌体，将对所述CRISPR系统中任何组分进行编码的核酸递送至细菌内。

在一些实施方式中，所述递送是通过质粒完成。剂量可以是能够引起应答的足够数量的质粒。

在一些实施方式中，所述递送是通过纳米颗粒或细胞外囊泡(例如外泌体、微囊泡和凋亡小体)完成的。

在一些实施方式中，通过细胞穿透肽(CPP)将所述CRISPR系统或其任何组分引入细胞。在一些实施方式中，一个细胞穿透肽与所述CRISPR系统或其任何组分连接，或混合后递送。

CRISPR系统的应用

本发明还提供了关于本发明所述的Cas9蛋白、融合蛋白、缀合物、和CRISPR-CAS复合物的用途，用于结合、切割或修饰靶核酸序列，或用于制备结合、切割或修饰靶核酸序列的试剂。

在一些实施方式中，所述Cas9蛋白、融合蛋白或缀合物与向导RNA形成复合物，针对靶核酸序列的特定位点、靶序列、或靶序列附近的核苷酸序列进行核酸序列结合、切割或修饰。在一些实施方式中，所述靶核酸序列的特定位点附近包括PAM序列：5’-DDRGDNN-3’，其中D为A、G或T，R为A或G，N为A、C、G或T。

在一些实施方式中，所述Cas9蛋白为Cas9核酸酶、Cas9-nickase或dCas9，其：

用于结合靶核酸序列；

用于制备结合靶核酸序列的试剂；

用于切割靶核酸序列；

用于制备切割靶核酸序列的试剂；

用于修饰靶核酸序列，例如使靶DNA的碱基被置换，例如将所述Cas9与腺苷脱氨酶融合后得到单碱基编辑器(可将靶核酸特定位点的A·T碱基对转变为G·C碱基对)，或与胞嘧啶脱氨酶融合后得到单碱基编辑器(可将靶核酸特定位点的C·G碱基对转变为T·A碱基对)；或

用于制备修饰靶核酸序列的试剂。

在一些实施方式中，所述Cas9蛋白与转录激活域或转录抑制域融合后用于调控靶核酸的转录激活或转录抑制，或所述Cas9蛋白用于制备调控靶核酸的转录激活或转录抑制的试剂。

在一些实施方式中，所述靶核酸在细胞内(例如真核细胞或原核细胞，非限制性示例例如哺乳动物细胞，例如人细胞)。在一些实施方式中，所述靶核酸为：疾病相关的核酸(靶点)，动植物性状相关的核酸(靶点)。在一些实施方式中，所述靶核酸为DNA或RNA。

在一些实施方式中，所述结合、切割或修饰靶核酸序列包括修饰多种细胞类型中的靶多核苷酸或靶核酸(例如删除、插入、转运、失活或活化)。所述结合、切割或修饰靶核酸序列包括：各种疾病(如遗传性疾病)的治疗、DNA/RNA检测、核酸跟踪与标记、控制干扰RNA或miRNA、检测循环肿瘤DNA、药物筛选、疾病诊断和预后等方面。

在一些实施方式中，所述结合、切割或修饰靶核酸序列包括多种与DNA相关的应用，例如调节基因表达，降解DNA分子，抑制DNA表达，筛选DNA或DNA产物，确定lincRNA或非编码RNA的功能，诱导细胞休眠，诱导细胞周期停滞，减少细胞生长和/或细胞增殖，诱导细胞无反应，诱导细胞凋亡，诱导细胞坏死，诱导细胞死亡和/或诱导程序性细胞死亡。应理解，本领域在此前的发展中，已经发现了很多基因/蛋白调控(如抑制)靶点与人畜/植物疾病、动植物性状等等具有相关性，基于发明所建立的CRISPR系统对于此类靶点的改造均是可用的。

在不同的实施方案中，本文所述的方法可以在体外，体内或离体进行。

例如，可以将前述的Cas9蛋白、融合蛋白、缀合物、CRISPR-CAS复合物、重组载体、递送系统、或细胞等用于一个患有疾病或病症(例如遗传病、慢性病、癌症等等)的受试者，或用于制备针对性的药物，或调节基因表达，或用于改变患者的基因序列(例如碱基插入、删除、替换)，或用以靶向和诱导处于患病状态的细胞(例如癌细胞或被感染因子感染的细胞)的死亡。例如在一些实施方式中，本文所述的CRISPR系统可用于靶向并诱导癌细胞中的细胞死亡，所述癌细胞来自患有：血液系统肿瘤，消化系统肿瘤，妇科及生殖系统肿瘤，神经系统肿瘤，泌尿系统肿瘤或其他系统肿瘤的受试者。

在一些实施方式中，所述Cas9蛋白、融合蛋白、缀合物、和CRISPR-CAS复合物可被引入一个细胞中，使得该细胞和/或其后代改变一种或多种细胞产物，如细胞信号通路蛋白、代谢物、抗体、淀粉、乙醇或任何其它想要改变的产物。这种细胞及其后代包括在本发明的范围内。

在一些实施方式中，所述结合、切割或修饰靶核酸序列包括：在农林业领域，帮助植物(尤其是林木、经济作物等)抵御疾病，种植出性状更优的植物；用于帮助植物增强抗逆性(包括但不限于抗热性、抗旱性、抗冷性、抗毒性)，植物抗热性和抗旱性的增强有利于抵御气候变化的影响如全球变暖导致的干旱；用于帮助植物优化株型性状，例如抵抗倒伏。

在一些实施方式中，所述结合、切割或修饰靶核酸序列包括：在农药学领域，例如针对一些对植物有威胁的昆虫，已知一些具有广谱性虫生真菌(如绿疆菌、白僵菌等)能够抑制此类昆虫，可以运用本发明的系统来增加此类虫生真菌抑制昆虫的能力。

在一些实施方式中，所述结合、切割或修饰靶核酸序列包括：用于调节动植物的营养组成，例如动物的脂肪/脂肪酸组成，植物的淀粉组成等等，从而优化人类的食品质量或优化工业产品质量。

在一些实施方式中，所述结合、切割或修饰靶核酸序列包括：检测待测样品中靶核酸存在情况，例如检测样品中是否存在特定病毒(如新冠病毒、HBV、HIV)。

结合、切割或修饰靶核酸的方法

本发明还提供了一种结合、切割或修饰靶核酸的方法，所述方法包括：使得前述的CRISPR-CAS复合物结合至靶核酸、切割靶核酸或修饰靶核酸；或使得前述的Cas9蛋白、缀合物或融合蛋白与前述的向导RNA一起结合至靶核酸、切割靶核酸或修饰靶核酸。

在一些实施方式中，所述CRISPR-CAS复合物中，所述Cas9蛋白为Cas9核酸酶，其结合至靶核酸，或结合并切割靶核酸的双链；或

所述Cas9蛋白为Cas9-nickase，其结合至靶核酸后，切割靶核酸的单链；或

所述Cas9蛋白为dCas9，其结合至靶核酸后，调控靶核酸的转录激活或转录抑制。

在一些实施方式中，所述靶核酸在细胞内。在一些实施方式中，所述靶核酸为：疾病相关的核酸(靶点)，动植物性状相关的核酸(靶点)。在一些实施方式中，所述靶核酸为DNA或RNA。在一种或多种实施方式中，所述靶核酸为真核DNA或真核RNA。在一种或多种实施方式中，所述真核DNA或真核RNA包括(但不限于)：非人类哺乳动物DNA或RNA、非人类灵长类DNA或RNA、人类DNA或RNA、植物DNA或RNA、昆虫DNA或RNA、鸟类DNA或RNA、爬行动物DNA或RNA、啮齿动物 DNA或RNA、鱼类DNA或RNA、蠕虫/线虫DNA或RNA、酵母DNA或RNA等。

在一些实施方式中，通过直接引入的方式将所述的CRISPR-CAS复合物(蛋白+向导RNA)引入细胞，结合至靶核酸。在一些实施方式中，将CRISPR-CAS复合物中Cas9蛋白处理(包括注射)细胞或藉由穿膜肽引入细胞，将CRISPR-CAS复合物中的向导RNA处理(包括注射)细胞。在一些实施方式中，将编码所述CRISPR-CAS复合物的多核苷酸或含有该多核苷酸的表达构建体(如表达载体)转化细胞，在细胞内表达并形成所述CRISPR-CAS复合物(蛋白+向导RNA)，结合至靶核酸。

在一些实施方式中，所述CRISPR-CAS复合物中所述Cas9蛋白为Cas9核酸酶，其用于结合、切割或修饰靶核酸。

在一些实施方式中，所述CRISPR-CAS复合物中所述Cas9蛋白为Cas9-nickase，其用于结合、切割或修饰靶核酸(如切割靶DNA的单链)，或与腺苷脱氨酶融合后用于将靶核酸特定位点的A·T碱基对转变为G·C碱基对，或与胞嘧啶脱氨酶融合后用于将靶核酸特定位点的C·G碱基对转变为T·A碱基对。

在一些实施方式中，所述CRISPR-CAS复合物中所述Cas9蛋白为dCas9，所述dCas9与转录激活域或转录抑制域融合后用于调控靶核酸的转录激活或转录抑制，或与腺苷脱氨酶融合后用于将靶核酸特定位点的A·T碱基对转变为G·C碱基对，或与胞嘧啶脱氨酶融合后用于将靶核酸特定位点的C·G碱基对转变为T·A碱基对。

在一些实施方式中，所述Cas9-nickase或dCas9靶向的靶序列位于启动子区。

在一些实施方式中，所述方法在25℃～55℃进行。

用于核酸检测

本发明还提供了一种检测待测样品中靶核酸存在情况的方法，其包括：使得前述的CRISPR-CAS复合物与靶核酸接触或结合，或使得前述的Cas9蛋白和前述的向导RNA一起与靶核酸接触或结合。

在一些实施方式中，所述CRISPR-CAS复合物包括：前述的Cas9蛋白、融合蛋白或缀合物。

在一些实施方式中，所述融合蛋白或缀合物含有可检测标记。在一些实施方式中，当CRISPR-CAS复合物与靶核酸接触或结合时，含有Cas9蛋白序列的融合蛋白或缀合物切割或修饰靶核酸，通过观测可检测标记的存在情况来分析待测样品中靶核酸存在情况。在一些实施方式中，所述可检测标记如荧光基团、显色剂、显影剂或放射性同位素。

组合物或药物组合物

本发明还提供了一种组合物，其包括：前述的Cas9蛋白、融合蛋白、缀合物、CRISPR-CAS复合物、载体或递送系统。

在一些实施方式中，所述组合物为药物组合物。

在一些实施方式中，所述组合物中还包括：生理学或药学上可接受的药学载体。

试剂盒

本发明提供一种试剂盒，所述试剂盒包含了本文所述CRISPR系统或其任何组分，所述CRISPR系统或其任何组分包括：前述的Cas9蛋白、融合蛋白、缀合物、CRISPR-CAS复合物、载体、递送系统，或组合物。

在一些实施方式中，该试剂盒还包括了如何使用其中组分的说明书，和/或如何与在别处获得的其它组分组合使用的说明书。

在一些实施方式中，该试剂盒还包含一个或多个核苷酸，这些核苷酸有些可响应将RNA编码序列插入一个载体的核苷酸，而上述编码序列在操作上可以连接至该载体中一个或多个控制元件。

在一些实施方式中，该试剂盒还包含一种或多种缓冲液，这种缓冲液可用于溶解任何组分，和/或为一种或多种组分提供合适的反应条件。所述缓冲剂可包括一种或多种以下缓冲剂：PBS、HEPES、Tris、MOPS、Na₂CO₃、NaHCO₃、NaB或以上任意组合。在一些实施方式中，上述反应条件包括适当的pH值，例如一个碱性pH值。在一些实施方式中，所述pH值在7-10之间。

在一些实施方式中，该试剂盒中任何一种或多种组分可以存储在合适的容器中。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件如J.萨姆布鲁克等编著，分子克隆实验指南，第三版，科学出版社中所述的条件，或按照制造厂商所建议的条件。

以下实施例中所称的sgRNA对应于上文中的向导RNA(gRNA)。

实施例1、CasRfg.3蛋白的筛选

本发明人经过广泛的研究筛选以及实验验证，从大量的候选蛋白中筛选到一种新的Cas9核酸酶(称为CasRfg.3或Ca2)。这一新的Cas9核酸酶的序列显著不同于已知的Cas9核酸酶。

CasRfg.3蛋白的基因组序列来源如表1所示。

表1、CasRfg.3蛋白的基因组序列的来源

CasRfg.3蛋白的序列如下所示(SEQ ID NO: 1，1046 aa)：

MKRKIGIGLDVGIGSVGFAVLSYDKVYDARIEQVGVRLFDSGEEPKTKVSKNQGRRQYRAGRRLIRRRYHRKERAKRFIERIGLLSADKIKEWQEVNGNQNIYYVRFRGLSEKLTPQEIADCVIHFCNHRGYREFYEDDVADEKEAGKIKTALSRFDEKMAAGKYVSVADMILHDNEFSTNTQFPDFHNHKGDDDEKYFLIKRAALRDELRAILRKQQEFYEQLTEHNIDFLCDDIVFVQRDFEDGPGDKTDKKRKFMGFLDSIGCCMFYKEEVRGYRSTVIADIYSLVNGLSKMMYVDSTTGEITFLPEAADKIIDFALKNASITEKDIKEILKKYNLTLIKAEKLEENIPQTIKTLKILKKILDDSGYSYDELIKEEQFDFDRPSKLHELCSLLASNITPKRRRKALEKAGWNKALQEQTRRIHFGGTSNVCYRYMLEAIDAFRHGELYGNFQARRNKEQLTDEAENTEKVRLLPPFTKEMDEDVVKNVVVFKAINETRKIINALIGKYGSPAYINIEVADELGHSIE T RRKMTKANNEKMKKKEAISTKLVELGLRKEGEVSGKDIARYRLWEQQDGIDLYTGENIPEADVLSGQYDIDHIIPFS LILDDTLNNKVLTGMGSNRQAKSNKAPREYLSDKAELEFIKRVNILLKKKIISKKKYKYLMVKNLRDSKLLDEWKSR NINDTRYISRFLVNYLNNMLLFNSDKKKNVYAINGAITSKMRKLWLNKRTWGTPEKNRENNLHHAADAIVIANLTPA AVELASDNLKLQNIFRQNGKRVTEEYDNYLDKAVRKMEKYYHLNEELAKNLLVRKDRIPSMVRSLREETDKRLVDTSLEEFNMVTPEAFRKNLEQYYNDSDFVASIQMPLVSYKQSKRFSGSFTKDNPIKKKDKEDSSSVKMDSLGNENILDAKSYYCLEVYSTKDNKTALRGLRYVDFKLKNKKMFINVPNPDNYDKHIMYLFKNDYIVVYNKKGEERIKGYYTGIKNIKANRFYLISNNDAVRKDFTLSKDDTIKKYHIDILGQIGGEVKCSAPFLSITEKE

经鉴定，上述蛋白中，第1-52(Ruvc_I)、473-530(Ruvc_II)、686-834(Ruvc_III)位氨基酸残基(下划线部分)为RuvC核酸酶结构域；第531-685位氨基酸残基(斜体部分)为HNH核酸酶结构域。其中，HNH核酸酶结构域剪切互补链， RuvC核酸酶结构域剪切非互补链，特异性产生双链断裂(DSB)。

CasRfg.3蛋白的结构域分布如图1所示。

上述CasRfg.3蛋白的天然(野生型)DNA编码序列如下所示(SEQ ID NO: 2，3141bp)：

atgaaaagaaaaattggaatcgggttggatgttggtataggttctgtaggttttgctgtattgtcgtatgataaggtatatgatgcccgtatcgaacaggtaggggtccggctttttgattctggggaagaacccaaaacaaaagtcagtaagaaccaggggagacggcaatatagggctggtcgtagattgattcggcgtagataccatcgtaaagagcgggcaaagagatttattgagcggataggtttattaagtgcggacaaaattaaagaatggcaggaagtaaatggcaatcagaatatttactatgtgagatttaggggattgtcggaaaagctcaccccacaagaaattgccgattgcgttatccatttttgcaaccatagaggttatcgtgaattctatgaagatgatgttgcggatgaaaaggaagctggcaagataaagaccgccctatccagatttgatgaaaaaatggcagctggtaagtatgtatccgttgccgatatgattttgcatgataatgaattttctacaaacacccagtttccagatttccataatcataaaggtgatgacgacgaaaaatattttcttattaaacgggcagcgttaagggatgaacttagggcaatactccggaagcaacaggaattctatgaacagttgacggaacataatattgatttcttatgtgacgacatagtttttgttcagcgggattttgaggatggacccggggataaaactgataaaaagcgtaagtttatgggttttttggatagcataggctgctgtatgttttataaggaagaagttagaggctataggtccacagtaattgcagatatttattccttggtaaacggtttgtccaagatgatgtatgttgacagcaccactggtgaaataacatttttaccggaagctgctgacaaaattattgattttgccctaaaaaatgcatccattactgaaaaagatatcaaagaaatactgaagaaatacaatttgacccttataaaggctgaaaagctagaggaaaacataccgcagactataaagactctgaagatattgaaaaagatattggatgatagtgggtatagttatgatgaattgatcaaggaagaacaatttgattttgataggccatccaaactccatgaattatgtagtttgttagccagcaatattaccccaaaacgcagaagaaaagcattggaaaaagctggctggaataaagcattgcaagaacaaaccaggagaatacactttggtggaacatcaaatgtatgctatcgctacatgctagaagctattgatgccttcagacatggtgaattatatggtaatttccaagcccgacgaaataaggaacagcttacagatgaagcagaaaatacggagaaggtaagattattaccaccgttcacaaaagaaatggatgaagatgtggtaaagaatgtagtggttttcaaggcaatcaatgaaacccgcaagataatcaatgcccttataggcaagtacggttcgccggcatatatcaatattgaggtggctgatgaactggggcacagtattgaaaccaggcggaaaatgaccaaagccaacaacgaaaaaatgaaaaaaaaggaggctattagtacaaagctggttgaactgggacttcgtaaagagggggaagtatctggtaaagatatagcgcgttatcgtctatgggagcagcaggatgggatagatttatatacgggggaaaatattccagaagcggatgtgctgagtgggcaatatgatattgatcacattatcccattttcgctgatattggatgataccctaaataataaggtactgactggtatggggagcaatcgtcaggcaaaatccaataaagctcctagagaatatttatctgataaggctgaattggagtttataaagagagtaaatatcttactgaagaaaaaaataatctcaaagaaaaagtacaagtacttgatggtaaagaaccttcgtgacagtaaactgctggatgagtggaagtcaagaaatattaacgacaccagatatataagtcgttttttagtgaactatctaaataatatgttgctatttaacagcgataaaaagaaaaatgtatatgcaatcaatggtgccattacatccaaaatgcgaaaactgtggcttaataagcgaacctggggaactccggaaaagaacagggaaaataatttgcatcatgcagctgatgctatagttattgccaatcttactccagctgcagtggaactggccagtgataaccttaaactccagaatattttccgtcaaaatggcaagcgagtgacggaggaatatgataattatcttgataaggcagttcgcaagatggagaagtattatcacttaaatgaagaattggccaagaatctgctggtacgaaaggatcgtattccatccatggtaaggtcattgcgggaggaaacggataagagattggtggatacaagtcttgaggaattcaatatggttacaccagaagcattccgcaaaaatctagagcagtattataatgactctgattttgttgcttccatacagatgccgttggtatcctataagcagtccaagcggttttctggaagctttactaaggataatcctataaagaaaaaagataaagaagactcatcaagtgtaaaaatggactctttaggcaatgaaaatattttggatgccaaatcgtattactgtttggaggtgtattccacaaaagataataagacggctttgcgcggccttaggtatgttgattttaaattgaaaaacaaaaagatgtttatcaatgttcctaatccagataattatgataagcatattatgtatttgtttaagaatgattatattgtggtgtacaacaaaaaaggagaggaaagaattaaaggttattatacaggaataaaaaacatcaaagctaatagattttatttgataagtaacaatgatgcggtgcgaaaagattttacattatctaaagatgatactataaaaaaatatcacattgatattcttgggcaaattggtggtgaggtaaaatgttccgctccattcttgtcaataacggagaaagaataa

CasRfg.3蛋白经密码子优化的DNA编码序列如下所示(SEQ ID NO: 10)：

atgaagagaaagatcggcatcggcctggacgtgggcatcggcagcgtgggcttcgccgtgctgagctacgacaaggtgtacgacgccagaatcgagcaggtgggcgtgagactgttcgacagcggcgaggagcccaagaccaaggtgagcaagaaccagggcagaagacagtacagagccggcagaagactgatcagaagaagataccacagaaaggagagagccaagagattcatcgagagaatcggcctgctgagcgccgacaagatcaaggagtggcaggaggtgaacggcaaccagaacatctactacgtgagattcagaggcctgagcgagaagctgaccccccaggagatcgccgactgcgtgatccacttctgcaaccacagaggctacagagagttctacgaggacgacgtggccgacgagaaggaggccggcaagatcaagaccgccctgagcagattcgacgagaagatggccgccggcaagtacgtgagcgtggccgacatgatcctgcacgacaacgagttcagcaccaacacccagttccccgacttccacaaccacaagggcgacgacgacgagaagtacttcctgatcaagagagccgccctgagagacgagctgagagccatcctgagaaagcagcaggagttctacgagcagctgaccgagcacaacatcgacttcctgtgcgacgacatcgtgttcgtgcagagagacttcgaggacggccccggcgacaagaccgacaagaagagaaagttcatgggcttcctggacagcatcggctgctgcatgttctacaaggaggaggtgagaggctacagaagcaccgtgatcgccgacatctacagcctggtgaacggcctgagcaagatgatgtacgtggacagcaccaccggcgagatcaccttcctgcccgaggccgccgacaagatcatcgacttcgccctgaagaacgccagcatcaccgagaaggacatcaaggagatcctgaagaagtacaacctgaccctgatcaaggccgagaagctggaggagaacatcccccagaccatcaagaccctgaagatcctgaagaagatcctggacgacagcggctacagctacgacgagctgatcaaggaggagcagttcgacttcgacagacccagcaagctgcacgagctgtgcagcctgctggccagcaacatcacccccaagagaagaagaaaggccctggagaaggccggctggaacaaggccctgcaggagcagaccagaagaatccacttcggcggcaccagcaacgtgtgctacagatacatgctggaggccatcgacgccttcagacacggcgagctgtacggcaacttccaggccagaagaaacaaggagcagctgaccgacgaggccgagaacaccgagaaggtgagactgctgccccccttcaccaaggagatggacgaggacgtggtgaagaacgtggtggtgttcaaggccatcaacgagacaagaaagatcatcaacgccctgatcggcaagtacggcagccccgcctacatcaacatcgaggtggccgacgagctgggccacagcatcgagacaagaagaaagatgaccaaggccaacaacgagaagatgaagaagaaggaggccatcagcaccaagctggtggagctgggcctgagaaaggagggcgaggtgagcggcaaggacatcgccagatacagactgtgggagcagcaggacggcatcgacctgtacaccggcgagaacatccccgaggccgacgtgctgagcggccagtacgacatcgaccacatcatccccttcagcctgatcctggacgacaccctgaacaacaaggtgctgaccggcatgggcagcaacagacaggccaagagcaacaaggcccccagagagtacctgagcgacaaggccgagctggagttcatcaagagagtgaacatcctgctgaagaagaagatcatcagcaagaagaagtacaagtacctgatggtgaagaacctgagagacagcaagctgctggacgagtggaagagcagaaacatcaacgacaccagatacatcagcagattcctggtgaactacctgaacaacatgctgctgttcaacagcgacaagaagaagaacgtgtacgccatcaacggcgccatcaccagcaagatgagaaagctgtggctgaacaagagaacctggggcacccccgagaagaacagagagaacaacctgcaccacgccgccgacgccatcgtgatcgccaacctgacccccgccgccgtggagctggccagcgacaacctgaagctgcagaacatcttcagacagaacggcaagagagtgaccgaggagtacgacaactacctggacaaggccgtgagaaagatggagaagtactaccacctgaacgaggagctggccaagaacctgctggtgagaaaggacagaatccccagcatggtgagaagcctgagagaggagacagacaagagactggtggacaccagcctggaggagttcaacatggtgacccccgaggccttcagaaagaacctggagcagtactacaacgacagcgacttcgtggccagcatccagatgcccctggtgagctacaagcagagcaagagattcagcggcagcttcaccaaggacaaccccatcaagaagaaggacaaggaggacagcagcagcgtgaagatggacagcctgggcaacgagaacatcctggacgccaagagctactactgcctggaggtgtacagcaccaaggacaacaagaccgccctgagaggcctgagatacgtggacttcaagctgaagaacaagaagatgttcatcaacgtgcccaaccccgacaactacgacaagcacatcatgtacctgttcaagaacgactacatcgtggtgtacaacaagaagggcgaggagagaatcaagggctactacaccggcatcaagaacatcaaggccaacagattctacctgatcagcaacaacgacgccgtgagaaaggacttcaccctgagcaaggacgacaccatcaagaagtaccacatcgacatcctgggccagatcggcggcgaggtgaagtgcagcgcccccttcctgagcatcaccgagaaggag

根据表1中细菌基因组序列，提示CasRfg.3蛋白对应的crRNA的DR序列、tracrRNA序列分别如下：

DR序列(SEQ ID NO: 11)：

guuuuaguucuauguuggauauugauaaacugauac；

tracrRNA序列(SEQ ID NO: 12)：

uugucaguuuaucaauauccaacaauaguucuaagauaaggccuuaugugccguaggguauagcgguaucccgaacaauuccgcugcuuugaguauuaagcugcuacaucauguagcagc。

实施例2、CasRfg.3蛋白的制备

1、载体构建

pET28a载体质粒经BamHI和XhoI双酶切后，琼脂糖凝胶电泳切胶回收线性化的载体，将用常规方法制备得到的编码CasRfg.3蛋白的DNA序列通过同源重组的方式插入到载体pET28a的克隆区，目的是构建重组载体CasRfg.3-pET28a。反应液转化Stbl3感受态，涂布硫酸卡那霉素抗性的LB平板，37℃过夜培养后，挑取克隆测序鉴定。构建好的重组载体CasRfg.3-pET28a的序列如SEQ ID NO: 13。

序列正确的阳性克隆挑取单克隆过夜培养，提取质粒后转化表达菌株Rosetta(DE3)，涂布硫酸卡那霉素抗性的LB平板，37℃过夜培养。

2、蛋白表达

挑取单克隆接种至5ml硫酸卡那霉素抗性的LB培养液，37℃过夜培养。

以1:100比例转接种500ml 硫酸卡那霉素抗性的LB培养液中，以220rpm的转速，37℃培养至OD 0.6，加IPTG至终浓度0.2mM，16℃诱导24h。

15ml PBS漂洗菌体后离心收集菌体，加裂解缓冲液超声破碎，10,000g离心30min获得含重组蛋白的上清液，上清经过0.45μm滤膜过滤后即可上柱纯化。

3、蛋白纯化

CasRfg.3重组蛋白氨基酸数目1135aa(其中CasRfg.3蛋白自身的氨基酸序列为1046aa)，架构为His tag-NLS-CasRfg.3-SV40 NLS-nucleoplasmin NLS。以N端的6个His作为纯化标签，通过IMAC (Ni Sepharose 6 Fast Flow,CYTIVA)纯化，以及离子交换层析(cytiva HiTrap^TM Q FF)和分子筛层析(cytiva Superdex^TM 200 Increase 10/300 GL)纯化CasRfg.3重组蛋白，纯化的重组蛋白经过SDS-PAGE电泳可见呈一条带。

实施例3、确定CasRfg.3蛋白PAM序列

本实施例中，将包含有特异指导序列的sgRNA(single guide RNA)以及实施例2纯化的CasRfg.3重组蛋白混合，对体外切割底物(包含间隔序列和7nt随机序列)进行切割，37℃孵育后纯化，建库，进行NGS测序、分析CasRfg.3的PAM序列，具体步骤如下：

A. CasRfg.3蛋白体外切割底物

CasRfg.3蛋白体外切割底物序列为(SEQ ID NO: 14)：

ggagttcagacgtgtgctcttccgatctcagcacaaaaggaaactcaccctaactgtaaagtaattgtgtgttttgagactataaatatgcatgcgagaaaagccttgtttgccaccatgGAACGGCTCGGAGATCATCATTGCGNNNNNNNgtgagcaagggcgaggagctgttcaccggggtggtgcccatcctggtcgagctggacggcgacgtaaacggccacaagttcagcgtgtccggcagatcggaagagcacacgtctgaactcc

序列中N代表A、T、C、G任意一种。

使用常规的PCR扩增方法制备得到含上述序列的双链DNA，作为体外切割底物。

取切割底物至测序公司进行PCR-Free文库构建及NGS测序，针对7nt随机序列组成的PAM库进行复杂度和丰度的分析，结果如下：

A、T、G、C 4种碱基组成基本一致；同时7nt随机序列组成的PAM库包含不同组合数为4^7=16384种，100%被检测到。PAM库复杂度和丰度合格。

B. 与CasRfg.3联合的sgRNA的制备

在含有T7 RNA转录酶、四种三磷酸核糖核苷酸以及带T7启动子的DNA模板体系中37℃体外转录合成包含特异指导序列的sgRNA(CasRfg.3-sgRNA)，转录产物用Ribo™RNAmax-T7体外转录试剂盒的纯化试剂进行纯化。sgRNA序列如下(SEQ ID NO: 15)：

5’-GAACGGCUCGGAGAUCAUCAUUGCGguuuuaguucuauguuggauauugauaaacugauacgaaauugucaguuuaucaauauccaacaauaguucuaagauaaggccuuaugugccguaggguauagcgguaucccgaacaauuccgcugcuuugaguauuaagcugcuacaucauguagcagc-3’；

大写碱基即为sgRNA的特异指导序列。

C. NGS建库及PAM分析

配制包含CasRfg.3蛋白、sgRNA、体外切割底物和缓冲液的反应体系，37℃反应3h，75℃ 15 min)。如表2。

表2

切割后的片段通过连接反应将包含有生物素标记的接头Adapter1添加至缺口末端。添加生物素标记接头的切割产物与链霉亲和素标记的磁珠(Beads)进行特异结合，从而被特异性纯化，再通过PCR放大特异纯化的片段进行NGS测序。

NGS建库具体步骤如下：

a.向反应产物添加68.16ul SPRISelect Beads(Beckman COULTER,B23318) 混匀，室温放置5min，将产物移至磁力架吸附5min, 移取上清至新的1.5ml管; 再添加34.08ul SPRISelect Beads(Beckman COULTER,B23318) 混匀，室温放置5min，将产物移至磁力架吸附5min, 弃去上清，利用85%乙醇洗涤2次，室温放置10min 风干，添加50ul ddH₂O洗脱。

b.按照表3体系进行产物补平以及加dA-tailing(NEB, E6053L), 37℃ 30min。

表3. Ca2切割产物添加dA-tailing

c.按照表4体系添加Adapter 1(上游引物：5’Biosg/gttgacatgctggattgagacttcctacactc tttccctacacgacgctcttccgatc*t(SEQ ID NO: 16)和下游引物：gatcggaagagcgtcgtgtagggaaaga gtgtaggaagtctcaatccagcatgtcaac(SEQ ID NO: 17)退火获得，20℃ 30min，16℃过夜反应。

表4. 添加Adapter 1反应体系

上述反应产物过夜反应后，利用SPRISelect Beads进行纯化。

d.利用链霉亲和素标记的磁珠 Dynabeads® M-280 Streptavidin(Invitrogen,11206D)进行产物纯化。

e.Recover PCR

设计表5的引物，按照表6体系以及表7的反应程序利用Q5® Hot Start High-Fidelty 2x Master Mix (NEB, M0494L)进行Recover PCR。

表5. Recover PCR引物

表6. Recover PCR反应体系

表7. Recover PCR反应程序

f.Recover PCR产物移至磁力架，吸附5min，将上清移至新的1.5ml离心管，取 3ulRecovery PCR 产物，添加148.5ul ddH₂O稀释。

g.Index PCR

选用表8的引物，按照表9体系以及表10的反应程序进行Index PCR。

表8. Index PCR引物

表9. Index PCR反应体系

表10. Index PCR反应程序

h.Index PCR 产物添加0.7x SPRISelect Beads进行产物纯化，添加38ul ddH₂O进行洗脱，利用Qubit进行浓度测定浓度为22.4ng/ul，符合送测要求，送NGS测序；

i.对NGS结果进行分析：通过NGS测序，参考文献(A compact Cas9 ortholog fromStaphylococcus Auricularis (SauriCas9) expands the DNA targeting scope. PLoSbiology, 2020,18(3), e3000686.)方法用WebLogo软件分析，得到如图2所示的CasRfg.3的PAM序列。

因此，CasRfg.3的PAM序列包括：5’-DDRGDNN-3’(D为A、G或T；R为A或G；N为A、C、G或T)。具体地，PAM序列包括：5’-ATAGGCT-3’、5’-AAGGCT-3’、5’-AGGGTCG-3’、5’-GAGGTCC-3’、5’-TTGGGCT-3’、5’-TGGGGTA-3’、5’-TGGGGGC-3’、5’-GGGGGGA-3’、5’-AGAGGAT-3’、5’-AGGGTCC-3’、5’-ATAGGGA-3’、5’-GTAGAAT-3’、5’-GGGGAAG-3’、5’-TAAGGTT-3’、5’-TGGGTAG-3’。

CasRfg.3独特的PAM拓展了可选的靶序列范围。

实施例4、根据PAM分析结果选取人类基因组中靶核酸序列进行切割验证

根据上述实施例3确定的CasRfg.3蛋白PAM序列在人类基因组中选取与分析出的PAM序列一致的靶序列进行切割活性验证，具体步骤如下：

A、切割底物扩增

根据分析出的PAM序列，从人类基因组中选取PAM序列分别为TTGGTCT和GAGGTCG的两个不同的片段CasRfg.3-N2和CasRfg.3-N4进行切割测试。

1、片段CasRfg.3-N2和CasRfg.3-N4序列信息

>CasRfg.3-N2 序列(SEQ ID NO: 22)：

gaatgggctatttctaagcacggcaggtaccgtcttccccttcccccgccaacacagctggcccaggacaagaaggtgcagagacaaacagggggcaccctgcctgtcctgctaggaactgcaaggcagcgtgccgcacacgctgcctgggccaatgccacccaggccaggagagggtttggggccagacaccagcccatacccaagggtcccaggggatgtggggagaaggggaatccaccttttccttccctcccacctcccaaATAACACACAGACAGCTCTGTTGGTCTgagaatgatggacatttagacactggcgccaggtttgcgcctgaccggcgccacgcaggggtgggcggagcaaagacacacaggtgggctacaggtgtcacacggcaccagccagggcccggggtggctggggtgaggatgggtgtttggccagtgaccaggagtcaggtcaagtccaggtggtcagtgccaggggctccaggaggggagggcagtgccataaccctcctggtgtccag

>CasRfg.3-N4 序列(SEQ ID NO: 23)：

ggcactgtgccctccagattcctcagagcctggtgccaggtgcacctccccagccctctcagcccctgagctctgccaccctgcccgggcttctgcccttgggtcctggcctctcagggtctcctcagctctgcaaggaggggctgggagcaggtcccaggctagcagtgggctggaggcctcctgtgtggtctctacctgtccatgCCGAGGGGTCACCTCTGGGTGAGGTCGcacccacccccctcacggggctgctttgccagaaggtctgttcccctcatggcctctgctactctttacacttagttcttcccaggaagggcccggtggctgcagataatgtttcccatctgtggagccttcaagggctgggcccatgaggattctgctcccagcttgctcttcctctccagcctgcacccaccaggccccagaatcctgaggatggagctgctcctgtcccctgaggtggtctaaacctctggggaggcactgga

大写碱基区域对应靶序列；下划线碱基为PAM序列。

2、载体构建

扩增CasRfg.3-N2和CasRfg.3-N4序列片段，与pEASY®-Blunt Zero Cloning(全式金，CB501)载体进行连接，连接产物热激转化至大肠杆菌2T1感受态(易锦生物，CC007)。转化至2T1感受态的连接产物进行测序验证。

构建好的CasRfg.3-N2-Target质粒如图3和SEQ ID NO: 24；CasRfg.3-N4-Target质粒如图4和SEQ ID NO: 25。

构建好的CasRfg.3-N2-Target质粒和CasRfg.3-N4-Target质粒利用XmnI(NEB，R0194)进行酶切线性化，线性化体系如表11。

表11

按照上述体系37℃反应完成后利用Wizard® SV Gel and PCR Clean-Up System(Progema，A9282)进行产物纯化，并用Nanodrop测定浓度。

B、CasRfg.3-N2对应 sgRNA和CasRfg.3-N4对应sgRNA的体外转录

根据CasRfg.3-N2以及CasRfg.3-N4靶序列设计2个sgRNA并进行体外转录，CasRfg.3-N2和CasRfg.3-N4对应的sgRNA序列如下：

CasRfg.3-N2-sgRNA序列(SEQ ID NO: 26)：

5’-AUAACACACAGACAGCUCUGguuuuaguucuauguuggauauugauaaacugauacgaaauugucaguuuaucaauauccaacaauaguucuaagauaaggccuuaugugccguaggguauagcgguaucccgaacaauuccgcugcuuugaguauuaagcugcuacaucauguagcagc-3’

CasRfg.3-N4-sgRNA序列(SEQ ID NO: 27)：

5’-ccgaggggucaccucuggguguuuuaguucuauguuggauauugauaaacugauacgaaauugucaguuuaucaauauccaacaauaguucuaagauaaggccuuaugugccguaggguauagcgguaucccgaacaauuccgcugcuuugaguauuaagcugcuacaucauguagcagc-3’

大写字母为指导序列。

转录产物用Ribo™ RNAmax-T7 体外转录试剂盒提供的纯化试剂进行纯化，Nanodrop测定RNA浓度备用。

C、体外切割实验

按照表12和表13的切割体系配制反应体系，37℃切割，75℃灭活。

表12、CasRfg.3-N2体外切割反应体系

表13、CasRfg.3-N4体外切割反应体系

切割产物添加6uL上样缓冲液，取30 uL电泳检测，检查切割效果，电泳结果见图5，图6。结果显示，CasRfg.3蛋白具备gRNA指导的核酸酶活性，切割效率高。

将切割下的片段胶回收后测序，测序结果见图7，图8。可见具有切割活性，且可看出其切割位点。

实施例5、CasRfg.3蛋白切割稳定性实验

按照表14配制反应体系，37℃下重复测试切割效果。

表14、CasRfg.3-N2体外切割反应体系

75℃灭活后，产物添加6uL上样缓冲液，取30uL电泳检测，结果见图9，表明在多次实验中可稳定地裂解DNA。

实施例6、CasRfg.3蛋白不同温度切割效果

按照表15配制反应体系，分别于25℃、30℃、34.9℃、37℃、39.9℃、45.4℃、50℃、55℃切割相同时间；75 ℃灭活。

表15、CasRfg.3-N2体外切割反应体系

切割产物分别添加6uL上样缓冲液，取30uL电泳检测，检查切割效果，电泳图见图10。从25℃到55℃均检测到切割活性，且在约35℃-55℃时活性更高，在约50℃时达到最佳切割活性。

实施例7、sgRNA骨架序列的改造

前述实施例已验证通过连接CasRfg.3对应的天然DR序列和tracrRNA序列得到的单分子的sgRNA具有活性，其骨架序列为下述CasRfg.3-sgRNA-骨架。

>CasRfg.3-sgRNA-骨架(SEQ ID NO: 3，160nt；将天然DR序列和tracrRNA序列连接成sgRNA骨架；图11A)：

5’-GUUUUAGUUCUAUGUUGGAUAUUGAUAAACUGAUACGAAAUUGUCAGUUUAUCAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUGCUUUGAGUAUUAAGCUGCUACAUCAUGUAGCAGC-3’

发明人对CasRfg.3-sgRNA-骨架的序列进行部分删除以及截短，从而获得了保留活性的、更短的、易于化学合成的sgRNA。具体设计的截短的骨架序列如下(SEQ ID NO: 4-9)：

>tracSL2(SEQ ID NO: 4，126nt；删除茎环4和片段1；图11B)：

5’-GUUUUAGUUCUAUGUUGGAUAUUGAUAAACUGAUACGAAAUUGUCAGUUUAUCAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG-3’

>tracSL2-1(SEQ ID NO: 5，112nt；删除茎环4和片段1，缩短茎环1；图11C)：

5’-GUUUUAGUUCUAUGUUGGAUAUUGAUAAAGAAAUUUAUCAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG-3’

>tracSL2-2(SEQ ID NO: 6，114nt；删除茎环4和片段1，缩短茎环1；图11D)：

5’-GUUUUAGUUCUAUGUUGGAUAUUCUGAUACGAAAUUGUCAGAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG-3’

>tracSL2-1+2(SEQ ID NO: 7，100nt；删除茎环4和片段1，进一步缩短茎环1；图11E)：

5’-GUUUUAGUUCUAUGUUGGAUAUUGAAAAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG-3’

>trac1-05(SEQ ID NO: 8，108nt；图11F)：

5’-GUUUUAGUUGUUGGAUAUUGAUAAACUGAUACGAAAUUGUCAGUUUAUCAAUAUCCAACAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG-3’

>trac2-05(SEQ ID NO: 9，105nt；图11G)：

5’-GUUUUAGUUGGAUAUUGAUAAACUGAUACGAAAUUGUCAGUUUAUCAAUAUCCAACAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG-3’

使用RNAfold预测了上述骨架序列的二级结构，如图11A-G所示。

将指导序列(5’-auaacacacagacagcucug-3’ (SEQ ID NO: 24))分别连接至上述骨架序列的5’端，得到sgRNA全长序列。体外转录得到这些全长sgRNA，采用与前述实施例类似的方法，分别与Cut Buffer、实施例2的CasRfg.3蛋白和实施例4制备的CasRfg.3-N2-Target线性化质粒混合后进行切割，电泳检测切割效果。

结果如图12所示，以CasRfg.3-sgRNA-骨架截短后的tracSL2、tracSL2-1、tracSL2-2、tracSL2-1+2为骨架组成的全长gRNA保留切割活性。

CasRfg.3-sgRNA-骨架中的茎环4和片段1是可删除片段；茎环1可缩短，例如其茎部分可被截短而不影响复合物的切割活性。

实施例8、不同的具体PAM的测试

CasRfg.3蛋白PAM为5’-DDRGDNN-3’，设计简并引物构建含CasRfg.3-N2对应间隔序列(spacer)及不同的具体PAM序列的切割底物，用于测试不同PAM情况下切割活性。

a. 切割底物PCR扩增

扩增引物如表16。

表16、扩增引物

将表中引物进行稀释至10 pmol/μl，备用；其中以Blunt-PR1+Ca2PAMs-PF2、

Ca2PAMs-PR2+Blunt-PF1这2组引物针对CasRfg.3-N2-Target质粒进行PCR扩增，分别获得片段F1和F2，两个片段通过Gibson反应克隆至pEASY-Blunt-Zero载体(全式金CB501-01)，涂布Amp平板，然后挑取不同阳性克隆送测序，获得含CasRfg.3-N2对应间隔序列及具体PAM序列的不同克隆。

b. 不同PAM底物活性测试

上述不同PAM的质粒各取5ug利用XmnI线性化后75℃ 15min热失活XmnI，然后取5ul热失活产物作为切割底物，分别使用如下sgRNA进行切割实验：

>tracSL2-1+2-全长(其中小写字母为指导序列) (SEQ ID NO: 32)

auaacacacagacagcucugGUUUUAGUUCUAUGUUGGAUAUUGAAAAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG

>CasRfg.3-sgRNA-全长(其中小写字母为指导序列) (SEQ ID NO: 33)

auaacacacagacagcucugGUUUUAGUUCUAUGUUGGAUAUUGAUAAACUGAUACGAAAUUGUCAGUUUAUCAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUGCUUUGAGUAUUAAGCUGCUACAUCAUGUAGCAGC

CasRfg.3-N2不同PAM体外切割反应体系如表17。

表 17

37℃反应，切割产物添加5ul Loading Buffer，取15ul电泳检测。

结果如图13A和图13B所示，CRISPR-CasRfg.3系统可识别多种PAM，包括表18所示。

表 18

5’-ataggct-3’	5’-agggtcg-3’	5’-aaggct-3’	5’-gaggtcc-3’	5’-ttgggct-3’
					5’-tggggta-3’	5’-tgggggc-3’	5’-gggggga-3’	5’-agaggat-3’	5’-agggtcc-3’
5’-ataggga-3’	5’-gtagaat-3’	5’-ggggaag-3’	5’-taaggtt-3’	5’-tgggtag-3’

实施例9、指导序列长度对切割活性的影响

本发明人利用截短的gRNA骨架，构建指导序列20nt-24nt的sgRNA，进行切割活性测试。

体外转录得到含不同长度指导序列的sgRNA，序列如下：

>20nt 指导序列(SEQ ID NO: 34)：

ataacacacagacagctctgGUUUUAGUUCUAUGUUGGAUAUUGAAAAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG

>21nt 指导序列(SEQ ID NO: 35)：

aataacacacagacagctctgGUUUUAGUUCUAUGUUGGAUAUUGAAAAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG

>22nt 指导序列(SEQ ID NO: 36)：

aaataacacacagacagctctgGUUUUAGUUCUAUGUUGGAUAUUGAAAAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG

>23nt 指导序列(SEQ ID NO: 37)：

caaataacacacagacagctctgGUUUUAGUUCUAUGUUGGAUAUUGAAAAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG

>24nt 指导序列(SEQ ID NO: 38)：

ccaaataacacacagacagctctgGUUUUAGUUCUAUGUUGGAUAUUGAAAAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUG

将上述sgRNA分别与Cut Buffer、实施例2表达的CasRfg.3蛋白和实施例4制备的CasRfg.3-N2-Target线性化质粒混合。37℃反应30min，取15ul切割产物，添加3ul LoadingBuffer混匀后电泳检测切割效果，切割产物电泳。

结果如图14所示，指导序列长度为20nt-24nt时，CasRfg.3均有切割活性，且在22nt时活性最强。

实施例10、NCBI公开的特定的相似蛋白未检出DNA切割活性

NCBI公开了相似蛋白(Reference Sequence: WP_085022725.1)，注释为Cas9核酸酶，发明人将此蛋白命名为Ca9-89，其氨基酸序列为(SEQ ID NO: 39)：

MKRKVGFGLDVGIGSVGFAVLSYDKVYDARIEQVGVRLFDSGEEVKNHKRASKNQGRRQYRSGRRLIRRRYHRKERAKRFIERIGLLSAAKIKEWQEVNGNQNIYSIRFRGLSEKLTPEEIADCVIHFCNHRGYREFYEDDVDEKEAGKIKTALFRFDEKMTEGKYVSVADMILHDKEFATDTQFPNFHNHKNDDEEKYFLIKRAALRDELRAILQKQQEYYKQLTDQNIAFLCDEIVFVQRDFEDGPGDKNDKNRKFMGFLDTIGCCMFYKEELRGFRSTVIADIYSLVNGLSQMMYVDSTTGEITFLPEAADDIIEFALKNASITEKDIKKILEKYNLTLIKAEKLEENIPQTIKTLKVLKKVLDASGYSYDELIQEEQFDFDKPSKLHELCNLLASNITPKRRRKALEKAGWNKDFQAQTKRIHFGGTSNVCYRYMLEAIDAFRHGELYGNFQARRKQEQLTDEAENTERVKLLPPFTKEMDEDVVKNVVVFKAINETRKIINALIGKYGSPAYINIEVADELGHSIETRRKMTKANNDNMKKKEAIGAKLVELGLRKEGEVSGKDIARYRLWEQQNGIDLYTGNNIPEADVLSGQYDVDHIIPFSLILDDTLNNKVLTGMGSNRQAKSNTAPREYLSDKAEAEFIKRVNVLLKKKISKKKYQYLMVKNLRDSKLLNEWKSRNINDTRYISRFLANYLNNTLIFNSDKKKNVYAINGAITSRMRKMWLNKKTWGNPEKNRENNLHHAADAIVIANLTPAAVELASDNLKLQNIFRQNGKRVTEEYENYLDRAVRKIEKYYHFNPELAKKLLVSKDRIPSMVRLLREETDKRLVDPSLEEFKMVTPESFRQNLEQYYNDPEFVASIQMPLVSYKQSKRFSGSFTKDKPIKKKEREDSSTVKIDSLGNENILDAKSYYCLEVYSTKDNKTALRGLRYVDFKLKDKKMFITVPNPENYGKHIMYLFKNDYIVVYNKKGEEKARGFYSSVKAITRDQLYLKDNNTNVDIIFTIKKDDTVKKYHIDILGQIGGEIKCSAPFLSITEKE。

NCBI同时公开了该蛋白来源细菌的基因组序列，发明人据此分析其DR序列为(SEQID NO: 40)：

5’-GTTTTAGTTCTATGTTGGATATTGATAAACTGATA-3’；

tracrRNA序列为(SEQ ID NO: 41)：

5’-TTGTCAGTTTATCAATATCCAACAATAGTTCTAAGATAAGGCCTTATGTGCCGTAGGGTATAGCGGTATCCCGAACAATTCCGCTCCTTTGTTCATTAAGCTGCTACATTATGTAGCGGCTTTT-3’。

常规方法制备得到质粒载体pXC09-89-GFPgRNA(SEQ ID NO: 42)，其含有Ca9-89重组蛋白编码序列以及对应sgRNA（使用本领域常用的GAAA连接序列将DR序列和tracrRNA序列连接成为sgRNA骨架）编码序列。质粒图谱如图16所示。

将pXC09-89-GFPgRNA质粒利用Lip2000转染293T细胞，转染48h后利用Western及IP细胞裂解液(碧云天P0013)进行裂解，离心5min后取上清，0.45μm滤膜过滤，通过heparin柱(cytiva HiTrap^TM Heparin HP)纯化，然后离子交换层析(cytiva HiTrap^TM Q FF)和分子筛层析(cytiva Superdex^TM 200 Increase 10/300 GL)纯化，纯化的Ca9-89重组蛋白经过SDS-PAGE电泳可见呈一条带。

通过体外转录获得Ca9-89对应的sgRNA。

>Ca9-89sgRNA序列(SEQ ID NO: 43)：

GAACGGCUCGGAGAUCAUCAUUGCGGUUUUAGUUCUAUGUUGGAUAUUGAUAAACUGAUAGAAAUUGUCAGUUUAUCAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUCCUUUGUUCAUUAAGCUGCUACAUUAUGUAGCGGC

使用实施例3的方法，将上述Ca9-89重组蛋白与sgRNA、10xCut Buffer以及实施例3的体外切割底物一起进行体外切割反应。37℃反应3h；75℃ 15 min。采用与实施例3相同的方法，将假定的切割后的片段通过连接反应将包含有生物素标记的接头Adapter1添加至缺口末端，添加生物素标记接头的假定的切割产物与链霉亲和素标记的磁珠(Beads)进行特异结合，从而被特异性纯化，再通过PCR放大特异纯化的片段，经测定浓度仅为0.355ng/ul，无法满足NGS测序要求，这也说明Ca9-89蛋白无DNA切割活性或活性很弱。因此，本发明的CasRfg.3蛋白取得了预料不到的技术效果。

实施例11、Ca2融合蛋白的单碱基编辑活性检测

A. Ca2蛋白单碱基编辑系统克隆构建

大肠杆菌BL21菌株中包含有β-半乳糖苷酶基因，通过NCBI检索获得BL21-Gold(DE3)pLysS AG菌株的基因组序列，GenBank号CP001665.1，经过序列分析查找获得β-半乳糖苷酶基因ECBD_3313序列，设计符合Ca2蛋白PAM序列的靶向该基因的sgRNA。同时基于BL21(DE3)pLysS感受态细胞(上海唯地生物，CAT#: EC1003)，通过PCR扩增，测序验证ECBD_3313序列的正确性，PCR验证引物、最终验证的ECBD_3313序列、设计的sgRNA序列如下：

PCR验证引物序列：

引物LacZKO-PF1：ACGCCATCAAAAATAATTCGCGTC(SEQ ID NO: 44)

引物LacZKO-PR1：CCGACTGGAAAGCGGGCAGTG(SEQ ID NO: 45)

PCR扩增后，测序得到的ECBD_3313序列：

>ECBD_3313(SEQ ID NO: 46)：

atgaccatgattacggattcactggccgtcgttttacaacgtcgtgactgggaaaaccctggcgttacccaacttaatcgccttgcagcacatccccctttcgccagctggcgtaatagcgaagaggcccgcaccgatcgcccttcccaacagttgcgcagcctgaatggcgaatggcgctttgcctggtttccggcaccagaagcggtgccggaaagctggctggagtgcgatcttcctgaggccgatactgtcgtcgtcccctcaaactggcagatgcacggttacgatgcgcccatctacaccaacgtgacctatcccattacggtcaatccgccgtttgttcccacggagaatccgacgggttgttactcgctcacatttaatgttgatgaaagctggctacaggaaggccagacgcgaattatttttgatggcgt

sgRNA序列(SEQ ID NO: 47)：

5’-uauuacgccagcuggcgaaaGUUUUAGUUCUAUGUUGGAUAUUGAUAAACUGAUACGAAAUUGUCAGUUUAUCAAUAUCCAACAAUAGUUCUAAGAUAAGGCCUUAUGUGCCGUAGGGUAUAGCGGUAUCCCGAACAAUUCCGCUGCUUUGAGUAUUAAGCUGCUACAUCAUGUAGCAGC-3’

(其中uauuacgccagcuggcgaaa(SEQ ID NO: 48)为指导序列，指导序列在ECBD_3313中紧邻的PAM序列为5’-gggggat-3’)

在Ca2蛋白的N端和C端分别融合脱氨酶(APOBEC-1 Domain)以及尿嘧啶DNA糖基化酶抑制剂(UGI Domain)，得到APOBEC-1-Ca2-UGI融合蛋白(SEQ ID NO: 49)。

利用分子生物学方法构建上述APOBEC-1-Ca2-UGI融合蛋白针对大肠杆菌β-半乳糖苷酶基因的单碱基编辑载体，获得质粒CBE-Ca2-LacZgRNA02(SEQ ID NO: 50)，用lacUV5 promoter驱动融合蛋白表达，同时利用J23119 promoter驱动sgRNA表达。

B. 单碱基编辑检测

CBE-Ca2-LacZgRNA02质粒热击转化BL21(DE3)pLysS感受态细胞(上海唯地生物，CAT#: EC1003)，热击转化后添加无抗性的LB培养基，孵育培养2h，涂布Amp平板，过夜培养后挑取单克隆(菌斑1和菌斑2)接种至包含浓度为100μg/ml氨苄青霉素的LB培养基中培养4h，利用引物引物LacZKO-PF1和引物LacZKO-PR1以及高保真的PCR酶(易锦生物UltraHiPF^TMDNA Polymerase Kit，CAT#: PC019)对培养的菌液进行PCR扩增，将PCR产物送至测序公司进行一代测序(图17A)，针对sgRNA靶点分析C突变为T的情况，分析Ca2融合蛋白的单碱基编辑活性。

上述测序结果显示Ca2融合蛋白可以将sgRNA靶点中的C突变为T，导致测序峰图中出现A+G的套峰，证明了Ca2融合蛋白的单碱基编辑活性。在菌斑1和菌斑2中G→A的突变效率较高，分别可达59%、63%，如图17B和图17C，其中图17B对应菌斑1，图17C对应菌斑2。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。同时，在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。

序列表

<110> 广州瑞风生物科技有限公司

浙江迅识生物科技有限公司

<120> 新型Cas效应蛋白、基因编辑系统及用途

<130> 219584

<160> 50

<170> SIPOSequenceListing 1.0

<210> 1

<211> 1046

<212> PRT

<213> 厚壁菌门(firmicutes)

<400> 1

Met Lys Arg Lys Ile Gly Ile Gly Leu Asp Val Gly Ile Gly Ser Val

1 5 10 15

Gly Phe Ala Val Leu Ser Tyr Asp Lys Val Tyr Asp Ala Arg Ile Glu

20 25 30

Gln Val Gly Val Arg Leu Phe Asp Ser Gly Glu Glu Pro Lys Thr Lys

35 40 45

Val Ser Lys Asn Gln Gly Arg Arg Gln Tyr Arg Ala Gly Arg Arg Leu

50 55 60

Ile Arg Arg Arg Tyr His Arg Lys Glu Arg Ala Lys Arg Phe Ile Glu

65 70 75 80

Arg Ile Gly Leu Leu Ser Ala Asp Lys Ile Lys Glu Trp Gln Glu Val

85 90 95

Asn Gly Asn Gln Asn Ile Tyr Tyr Val Arg Phe Arg Gly Leu Ser Glu

100 105 110

Lys Leu Thr Pro Gln Glu Ile Ala Asp Cys Val Ile His Phe Cys Asn

115 120 125

His Arg Gly Tyr Arg Glu Phe Tyr Glu Asp Asp Val Ala Asp Glu Lys

130 135 140

Glu Ala Gly Lys Ile Lys Thr Ala Leu Ser Arg Phe Asp Glu Lys Met

145 150 155 160

Ala Ala Gly Lys Tyr Val Ser Val Ala Asp Met Ile Leu His Asp Asn

165 170 175

Glu Phe Ser Thr Asn Thr Gln Phe Pro Asp Phe His Asn His Lys Gly

180 185 190

Asp Asp Asp Glu Lys Tyr Phe Leu Ile Lys Arg Ala Ala Leu Arg Asp

195 200 205

Glu Leu Arg Ala Ile Leu Arg Lys Gln Gln Glu Phe Tyr Glu Gln Leu

210 215 220

Thr Glu His Asn Ile Asp Phe Leu Cys Asp Asp Ile Val Phe Val Gln

225 230 235 240

Arg Asp Phe Glu Asp Gly Pro Gly Asp Lys Thr Asp Lys Lys Arg Lys

245 250 255

Phe Met Gly Phe Leu Asp Ser Ile Gly Cys Cys Met Phe Tyr Lys Glu

260 265 270

Glu Val Arg Gly Tyr Arg Ser Thr Val Ile Ala Asp Ile Tyr Ser Leu

275 280 285

Val Asn Gly Leu Ser Lys Met Met Tyr Val Asp Ser Thr Thr Gly Glu

290 295 300

Ile Thr Phe Leu Pro Glu Ala Ala Asp Lys Ile Ile Asp Phe Ala Leu

305 310 315 320

Lys Asn Ala Ser Ile Thr Glu Lys Asp Ile Lys Glu Ile Leu Lys Lys

325 330 335

Tyr Asn Leu Thr Leu Ile Lys Ala Glu Lys Leu Glu Glu Asn Ile Pro

340 345 350

Gln Thr Ile Lys Thr Leu Lys Ile Leu Lys Lys Ile Leu Asp Asp Ser

355 360 365

Gly Tyr Ser Tyr Asp Glu Leu Ile Lys Glu Glu Gln Phe Asp Phe Asp

370 375 380

Arg Pro Ser Lys Leu His Glu Leu Cys Ser Leu Leu Ala Ser Asn Ile

385 390 395 400

Thr Pro Lys Arg Arg Arg Lys Ala Leu Glu Lys Ala Gly Trp Asn Lys

405 410 415

Ala Leu Gln Glu Gln Thr Arg Arg Ile His Phe Gly Gly Thr Ser Asn

420 425 430

Val Cys Tyr Arg Tyr Met Leu Glu Ala Ile Asp Ala Phe Arg His Gly

435 440 445

Glu Leu Tyr Gly Asn Phe Gln Ala Arg Arg Asn Lys Glu Gln Leu Thr

450 455 460

Asp Glu Ala Glu Asn Thr Glu Lys Val Arg Leu Leu Pro Pro Phe Thr

465 470 475 480

Lys Glu Met Asp Glu Asp Val Val Lys Asn Val Val Val Phe Lys Ala

485 490 495

Ile Asn Glu Thr Arg Lys Ile Ile Asn Ala Leu Ile Gly Lys Tyr Gly

500 505 510

Ser Pro Ala Tyr Ile Asn Ile Glu Val Ala Asp Glu Leu Gly His Ser

515 520 525

Ile Glu Thr Arg Arg Lys Met Thr Lys Ala Asn Asn Glu Lys Met Lys

530 535 540

Lys Lys Glu Ala Ile Ser Thr Lys Leu Val Glu Leu Gly Leu Arg Lys

545 550 555 560

Glu Gly Glu Val Ser Gly Lys Asp Ile Ala Arg Tyr Arg Leu Trp Glu

565 570 575

Gln Gln Asp Gly Ile Asp Leu Tyr Thr Gly Glu Asn Ile Pro Glu Ala

580 585 590

Asp Val Leu Ser Gly Gln Tyr Asp Ile Asp His Ile Ile Pro Phe Ser

595 600 605

Leu Ile Leu Asp Asp Thr Leu Asn Asn Lys Val Leu Thr Gly Met Gly

610 615 620

Ser Asn Arg Gln Ala Lys Ser Asn Lys Ala Pro Arg Glu Tyr Leu Ser

625 630 635 640

Asp Lys Ala Glu Leu Glu Phe Ile Lys Arg Val Asn Ile Leu Leu Lys

645 650 655

Lys Lys Ile Ile Ser Lys Lys Lys Tyr Lys Tyr Leu Met Val Lys Asn

660 665 670

Leu Arg Asp Ser Lys Leu Leu Asp Glu Trp Lys Ser Arg Asn Ile Asn

675 680 685

Asp Thr Arg Tyr Ile Ser Arg Phe Leu Val Asn Tyr Leu Asn Asn Met

690 695 700

Leu Leu Phe Asn Ser Asp Lys Lys Lys Asn Val Tyr Ala Ile Asn Gly

705 710 715 720

Ala Ile Thr Ser Lys Met Arg Lys Leu Trp Leu Asn Lys Arg Thr Trp

725 730 735

Gly Thr Pro Glu Lys Asn Arg Glu Asn Asn Leu His His Ala Ala Asp

740 745 750

Ala Ile Val Ile Ala Asn Leu Thr Pro Ala Ala Val Glu Leu Ala Ser

755 760 765

Asp Asn Leu Lys Leu Gln Asn Ile Phe Arg Gln Asn Gly Lys Arg Val

770 775 780

Thr Glu Glu Tyr Asp Asn Tyr Leu Asp Lys Ala Val Arg Lys Met Glu

785 790 795 800

Lys Tyr Tyr His Leu Asn Glu Glu Leu Ala Lys Asn Leu Leu Val Arg

805 810 815

Lys Asp Arg Ile Pro Ser Met Val Arg Ser Leu Arg Glu Glu Thr Asp

820 825 830

Lys Arg Leu Val Asp Thr Ser Leu Glu Glu Phe Asn Met Val Thr Pro

835 840 845

Glu Ala Phe Arg Lys Asn Leu Glu Gln Tyr Tyr Asn Asp Ser Asp Phe

850 855 860

Val Ala Ser Ile Gln Met Pro Leu Val Ser Tyr Lys Gln Ser Lys Arg

865 870 875 880

Phe Ser Gly Ser Phe Thr Lys Asp Asn Pro Ile Lys Lys Lys Asp Lys

885 890 895

Glu Asp Ser Ser Ser Val Lys Met Asp Ser Leu Gly Asn Glu Asn Ile

900 905 910

Leu Asp Ala Lys Ser Tyr Tyr Cys Leu Glu Val Tyr Ser Thr Lys Asp

915 920 925

Asn Lys Thr Ala Leu Arg Gly Leu Arg Tyr Val Asp Phe Lys Leu Lys

930 935 940

Asn Lys Lys Met Phe Ile Asn Val Pro Asn Pro Asp Asn Tyr Asp Lys

945 950 955 960

His Ile Met Tyr Leu Phe Lys Asn Asp Tyr Ile Val Val Tyr Asn Lys

965 970 975

Lys Gly Glu Glu Arg Ile Lys Gly Tyr Tyr Thr Gly Ile Lys Asn Ile

980 985 990

Lys Ala Asn Arg Phe Tyr Leu Ile Ser Asn Asn Asp Ala Val Arg Lys

995 1000 1005

Asp Phe Thr Leu Ser Lys Asp Asp Thr Ile Lys Lys Tyr His Ile Asp

1010 1015 1020

Ile Leu Gly Gln Ile Gly Gly Glu Val Lys Cys Ser Ala Pro Phe Leu

1025 1030 1035 1040

Ser Ile Thr Glu Lys Glu

1045

<210> 2

<211> 3141

<212> DNA

<213> 厚壁菌门(firmicutes)

<400> 2

atgaaaagaa aaattggaat cgggttggat gttggtatag gttctgtagg ttttgctgta 60

ttgtcgtatg ataaggtata tgatgcccgt atcgaacagg taggggtccg gctttttgat 120

tctggggaag aacccaaaac aaaagtcagt aagaaccagg ggagacggca atatagggct 180

ggtcgtagat tgattcggcg tagataccat cgtaaagagc gggcaaagag atttattgag 240

cggataggtt tattaagtgc ggacaaaatt aaagaatggc aggaagtaaa tggcaatcag 300

aatatttact atgtgagatt taggggattg tcggaaaagc tcaccccaca agaaattgcc 360

gattgcgtta tccatttttg caaccataga ggttatcgtg aattctatga agatgatgtt 420

gcggatgaaa aggaagctgg caagataaag accgccctat ccagatttga tgaaaaaatg 480

gcagctggta agtatgtatc cgttgccgat atgattttgc atgataatga attttctaca 540

aacacccagt ttccagattt ccataatcat aaaggtgatg acgacgaaaa atattttctt 600

attaaacggg cagcgttaag ggatgaactt agggcaatac tccggaagca acaggaattc 660

tatgaacagt tgacggaaca taatattgat ttcttatgtg acgacatagt ttttgttcag 720

cgggattttg aggatggacc cggggataaa actgataaaa agcgtaagtt tatgggtttt 780

ttggatagca taggctgctg tatgttttat aaggaagaag ttagaggcta taggtccaca 840

gtaattgcag atatttattc cttggtaaac ggtttgtcca agatgatgta tgttgacagc 900

accactggtg aaataacatt tttaccggaa gctgctgaca aaattattga ttttgcccta 960

aaaaatgcat ccattactga aaaagatatc aaagaaatac tgaagaaata caatttgacc 1020

cttataaagg ctgaaaagct agaggaaaac ataccgcaga ctataaagac tctgaagata 1080

ttgaaaaaga tattggatga tagtgggtat agttatgatg aattgatcaa ggaagaacaa 1140

tttgattttg ataggccatc caaactccat gaattatgta gtttgttagc cagcaatatt 1200

accccaaaac gcagaagaaa agcattggaa aaagctggct ggaataaagc attgcaagaa 1260

caaaccagga gaatacactt tggtggaaca tcaaatgtat gctatcgcta catgctagaa 1320

gctattgatg ccttcagaca tggtgaatta tatggtaatt tccaagcccg acgaaataag 1380

gaacagctta cagatgaagc agaaaatacg gagaaggtaa gattattacc accgttcaca 1440

aaagaaatgg atgaagatgt ggtaaagaat gtagtggttt tcaaggcaat caatgaaacc 1500

cgcaagataa tcaatgccct tataggcaag tacggttcgc cggcatatat caatattgag 1560

gtggctgatg aactggggca cagtattgaa accaggcgga aaatgaccaa agccaacaac 1620

gaaaaaatga aaaaaaagga ggctattagt acaaagctgg ttgaactggg acttcgtaaa 1680

gagggggaag tatctggtaa agatatagcg cgttatcgtc tatgggagca gcaggatggg 1740

atagatttat atacggggga aaatattcca gaagcggatg tgctgagtgg gcaatatgat 1800

attgatcaca ttatcccatt ttcgctgata ttggatgata ccctaaataa taaggtactg 1860

actggtatgg ggagcaatcg tcaggcaaaa tccaataaag ctcctagaga atatttatct 1920

gataaggctg aattggagtt tataaagaga gtaaatatct tactgaagaa aaaaataatc 1980

tcaaagaaaa agtacaagta cttgatggta aagaaccttc gtgacagtaa actgctggat 2040

gagtggaagt caagaaatat taacgacacc agatatataa gtcgtttttt agtgaactat 2100

ctaaataata tgttgctatt taacagcgat aaaaagaaaa atgtatatgc aatcaatggt 2160

gccattacat ccaaaatgcg aaaactgtgg cttaataagc gaacctgggg aactccggaa 2220

aagaacaggg aaaataattt gcatcatgca gctgatgcta tagttattgc caatcttact 2280

ccagctgcag tggaactggc cagtgataac cttaaactcc agaatatttt ccgtcaaaat 2340

ggcaagcgag tgacggagga atatgataat tatcttgata aggcagttcg caagatggag 2400

aagtattatc acttaaatga agaattggcc aagaatctgc tggtacgaaa ggatcgtatt 2460

ccatccatgg taaggtcatt gcgggaggaa acggataaga gattggtgga tacaagtctt 2520

gaggaattca atatggttac accagaagca ttccgcaaaa atctagagca gtattataat 2580

gactctgatt ttgttgcttc catacagatg ccgttggtat cctataagca gtccaagcgg 2640

ttttctggaa gctttactaa ggataatcct ataaagaaaa aagataaaga agactcatca 2700

agtgtaaaaa tggactcttt aggcaatgaa aatattttgg atgccaaatc gtattactgt 2760

ttggaggtgt attccacaaa agataataag acggctttgc gcggccttag gtatgttgat 2820

tttaaattga aaaacaaaaa gatgtttatc aatgttccta atccagataa ttatgataag 2880

catattatgt atttgtttaa gaatgattat attgtggtgt acaacaaaaa aggagaggaa 2940

agaattaaag gttattatac aggaataaaa aacatcaaag ctaatagatt ttatttgata 3000

agtaacaatg atgcggtgcg aaaagatttt acattatcta aagatgatac tataaaaaaa 3060

tatcacattg atattcttgg gcaaattggt ggtgaggtaa aatgttccgc tccattcttg 3120

tcaataacgg agaaagaata a 3141

<210> 3

<211> 160

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(160)

<223> sgRNA骨架

<400> 3

guuuuaguuc uauguuggau auugauaaac ugauacgaaa uugucaguuu aucaauaucc 60

aacaauaguu cuaagauaag gccuuaugug ccguagggua uagcgguauc ccgaacaauu 120

ccgcugcuuu gaguauuaag cugcuacauc auguagcagc 160

<210> 4

<211> 126

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(126)

<223> 截短的骨架序列

<400> 4

guuuuaguuc uauguuggau auugauaaac ugauacgaaa uugucaguuu aucaauaucc 60

aacaauaguu cuaagauaag gccuuaugug ccguagggua uagcgguauc ccgaacaauu 120

ccgcug 126

<210> 5

<211> 112

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> allele

<222> (1)..(112)

<223> 截短的骨架序列

<400> 5

guuuuaguuc uauguuggau auugauaaag aaauuuauca auauccaaca auaguucuaa 60

gauaaggccu uaugugccgu aggguauagc gguaucccga acaauuccgc ug 112

<210> 6

<211> 114

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(114)

<223> 截短的骨架序列

<400> 6

guuuuaguuc uauguuggau auucugauac gaaauuguca gaauauccaa caauaguucu 60

aagauaaggc cuuaugugcc guaggguaua gcgguauccc gaacaauucc gcug 114

<210> 7

<211> 100

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(100)

<223> 截短的骨架序列

<400> 7

guuuuaguuc uauguuggau auugaaaaau auccaacaau aguucuaaga uaaggccuua 60

ugugccguag gguauagcgg uaucccgaac aauuccgcug 100

<210> 8

<211> 108

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(108)

<223> 截短的骨架序列

<400> 8

guuuuaguug uuggauauug auaaacugau acgaaauugu caguuuauca auauccaaca 60

aggccuuaug ugccguaggg uauagcggua ucccgaacaa uuccgcug 108

<210> 9

<211> 105

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(105)

<223> guuuuaguuggauauugauaaacugauacgaaauugucaguuuaucaauauccaacaaggccuuaugugccguaggguauagcgguaucccgaacaauuccgcug

<400> 9

guuuuaguug gauauugaua aacugauacg aaauugucag uuuaucaaua uccaacaagg 60

ccuuaugugc cguaggguau agcgguaucc cgaacaauuc cgcug 105

<210> 10

<211> 3138

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(3138)

<223> CasRfg.3蛋白经密码子优化的DNA编码序列

<400> 10

atgaagagaa agatcggcat cggcctggac gtgggcatcg gcagcgtggg cttcgccgtg 60

ctgagctacg acaaggtgta cgacgccaga atcgagcagg tgggcgtgag actgttcgac 120

agcggcgagg agcccaagac caaggtgagc aagaaccagg gcagaagaca gtacagagcc 180

ggcagaagac tgatcagaag aagataccac agaaaggaga gagccaagag attcatcgag 240

agaatcggcc tgctgagcgc cgacaagatc aaggagtggc aggaggtgaa cggcaaccag 300

aacatctact acgtgagatt cagaggcctg agcgagaagc tgacccccca ggagatcgcc 360

gactgcgtga tccacttctg caaccacaga ggctacagag agttctacga ggacgacgtg 420

gccgacgaga aggaggccgg caagatcaag accgccctga gcagattcga cgagaagatg 480

gccgccggca agtacgtgag cgtggccgac atgatcctgc acgacaacga gttcagcacc 540

aacacccagt tccccgactt ccacaaccac aagggcgacg acgacgagaa gtacttcctg 600

atcaagagag ccgccctgag agacgagctg agagccatcc tgagaaagca gcaggagttc 660

tacgagcagc tgaccgagca caacatcgac ttcctgtgcg acgacatcgt gttcgtgcag 720

agagacttcg aggacggccc cggcgacaag accgacaaga agagaaagtt catgggcttc 780

ctggacagca tcggctgctg catgttctac aaggaggagg tgagaggcta cagaagcacc 840

gtgatcgccg acatctacag cctggtgaac ggcctgagca agatgatgta cgtggacagc 900

accaccggcg agatcacctt cctgcccgag gccgccgaca agatcatcga cttcgccctg 960

aagaacgcca gcatcaccga gaaggacatc aaggagatcc tgaagaagta caacctgacc 1020

ctgatcaagg ccgagaagct ggaggagaac atcccccaga ccatcaagac cctgaagatc 1080

ctgaagaaga tcctggacga cagcggctac agctacgacg agctgatcaa ggaggagcag 1140

ttcgacttcg acagacccag caagctgcac gagctgtgca gcctgctggc cagcaacatc 1200

acccccaaga gaagaagaaa ggccctggag aaggccggct ggaacaaggc cctgcaggag 1260

cagaccagaa gaatccactt cggcggcacc agcaacgtgt gctacagata catgctggag 1320

gccatcgacg ccttcagaca cggcgagctg tacggcaact tccaggccag aagaaacaag 1380

gagcagctga ccgacgaggc cgagaacacc gagaaggtga gactgctgcc ccccttcacc 1440

aaggagatgg acgaggacgt ggtgaagaac gtggtggtgt tcaaggccat caacgagaca 1500

agaaagatca tcaacgccct gatcggcaag tacggcagcc ccgcctacat caacatcgag 1560

gtggccgacg agctgggcca cagcatcgag acaagaagaa agatgaccaa ggccaacaac 1620

gagaagatga agaagaagga ggccatcagc accaagctgg tggagctggg cctgagaaag 1680

gagggcgagg tgagcggcaa ggacatcgcc agatacagac tgtgggagca gcaggacggc 1740

atcgacctgt acaccggcga gaacatcccc gaggccgacg tgctgagcgg ccagtacgac 1800

atcgaccaca tcatcccctt cagcctgatc ctggacgaca ccctgaacaa caaggtgctg 1860

accggcatgg gcagcaacag acaggccaag agcaacaagg cccccagaga gtacctgagc 1920

gacaaggccg agctggagtt catcaagaga gtgaacatcc tgctgaagaa gaagatcatc 1980

agcaagaaga agtacaagta cctgatggtg aagaacctga gagacagcaa gctgctggac 2040

gagtggaaga gcagaaacat caacgacacc agatacatca gcagattcct ggtgaactac 2100

ctgaacaaca tgctgctgtt caacagcgac aagaagaaga acgtgtacgc catcaacggc 2160

gccatcacca gcaagatgag aaagctgtgg ctgaacaaga gaacctgggg cacccccgag 2220

aagaacagag agaacaacct gcaccacgcc gccgacgcca tcgtgatcgc caacctgacc 2280

cccgccgccg tggagctggc cagcgacaac ctgaagctgc agaacatctt cagacagaac 2340

ggcaagagag tgaccgagga gtacgacaac tacctggaca aggccgtgag aaagatggag 2400

aagtactacc acctgaacga ggagctggcc aagaacctgc tggtgagaaa ggacagaatc 2460

cccagcatgg tgagaagcct gagagaggag acagacaaga gactggtgga caccagcctg 2520

gaggagttca acatggtgac ccccgaggcc ttcagaaaga acctggagca gtactacaac 2580

gacagcgact tcgtggccag catccagatg cccctggtga gctacaagca gagcaagaga 2640

ttcagcggca gcttcaccaa ggacaacccc atcaagaaga aggacaagga ggacagcagc 2700

agcgtgaaga tggacagcct gggcaacgag aacatcctgg acgccaagag ctactactgc 2760

ctggaggtgt acagcaccaa ggacaacaag accgccctga gaggcctgag atacgtggac 2820

ttcaagctga agaacaagaa gatgttcatc aacgtgccca accccgacaa ctacgacaag 2880

cacatcatgt acctgttcaa gaacgactac atcgtggtgt acaacaagaa gggcgaggag 2940

agaatcaagg gctactacac cggcatcaag aacatcaagg ccaacagatt ctacctgatc 3000

agcaacaacg acgccgtgag aaaggacttc accctgagca aggacgacac catcaagaag 3060

taccacatcg acatcctggg ccagatcggc ggcgaggtga agtgcagcgc ccccttcctg 3120

agcatcaccg agaaggag 3138

<210> 11

<211> 36

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(36)

<223> DR序列

<400> 11

guuuuaguuc uauguuggau auugauaaac ugauac 36

<210> 12

<211> 120

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(120)

<223> tracrRNA序列

<400> 12

uugucaguuu aucaauaucc aacaauaguu cuaagauaag gccuuaugug ccguagggua 60

uagcgguauc ccgaacaauu ccgcugcuuu gaguauuaag cugcuacauc auguagcagc 120

<210> 13

<211> 8641

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(8641)

<223> CasRfg.3-pET28a载体序列

<400> 13

tggcgaatgg gacgcgccct gtagcggcgc attaagcgcg gcgggtgtgg tggttacgcg 60

cagcgtgacc gctacacttg ccagcgccct agcgcccgct cctttcgctt tcttcccttc 120

ctttctcgcc acgttcgccg gctttccccg tcaagctcta aatcgggggc tccctttagg 180

gttccgattt agtgctttac ggcacctcga ccccaaaaaa cttgattagg gtgatggttc 240

acgtagtggg ccatcgccct gatagacggt ttttcgccct ttgacgttgg agtccacgtt 300

ctttaatagt ggactcttgt tccaaactgg aacaacactc aaccctatct cggtctattc 360

ttttgattta taagggattt tgccgatttc ggcctattgg ttaaaaaatg agctgattta 420

acaaaaattt aacgcgaatt ttaacaaaat attaacgttt acaatttcag gtggcacttt 480

tcggggaaat gtgcgcggaa cccctatttg tttatttttc taaatacatt caaatatgta 540

tccgctcatg aattaattct tagaaaaact catcgagcat caaatgaaac tgcaatttat 600

tcatatcagg attatcaata ccatattttt gaaaaagccg tttctgtaat gaaggagaaa 660

actcaccgag gcagttccat aggatggcaa gatcctggta tcggtctgcg attccgactc 720

gtccaacatc aatacaacct attaatttcc cctcgtcaaa aataaggtta tcaagtgaga 780

aatcaccatg agtgacgact gaatccggtg agaatggcaa aagtttatgc atttctttcc 840

agacttgttc aacaggccag ccattacgct cgtcatcaaa atcactcgca tcaaccaaac 900

cgttattcat tcgtgattgc gcctgagcga gacgaaatac gcgatcgctg ttaaaaggac 960

aattacaaac aggaatcgaa tgcaaccggc gcaggaacac tgccagcgca tcaacaatat 1020

tttcacctga atcaggatat tcttctaata cctggaatgc tgttttcccg gggatcgcag 1080

tggtgagtaa ccatgcatca tcaggagtac ggataaaatg cttgatggtc ggaagaggca 1140

taaattccgt cagccagttt agtctgacca tctcatctgt aacatcattg gcaacgctac 1200

ctttgccatg tttcagaaac aactctggcg catcgggctt cccatacaat cgatagattg 1260

tcgcacctga ttgcccgaca ttatcgcgag cccatttata cccatataaa tcagcatcca 1320

tgttggaatt taatcgcggc ctagagcaag acgtttcccg ttgaatatgg ctcataacac 1380

cccttgtatt actgtttatg taagcagaca gttttattgt tcatgaccaa aatcccttaa 1440

cgtgagtttt cgttccactg agcgtcagac cccgtagaaa agatcaaagg atcttcttga 1500

gatccttttt ttctgcgcgt aatctgctgc ttgcaaacaa aaaaaccacc gctaccagcg 1560

gtggtttgtt tgccggatca agagctacca actctttttc cgaaggtaac tggcttcagc 1620

agagcgcaga taccaaatac tgtccttcta gtgtagccgt agttaggcca ccacttcaag 1680

aactctgtag caccgcctac atacctcgct ctgctaatcc tgttaccagt ggctgctgcc 1740

agtggcgata agtcgtgtct taccgggttg gactcaagac gatagttacc ggataaggcg 1800

cagcggtcgg gctgaacggg gggttcgtgc acacagccca gcttggagcg aacgacctac 1860

accgaactga gatacctaca gcgtgagcta tgagaaagcg ccacgcttcc cgaagggaga 1920

aaggcggaca ggtatccggt aagcggcagg gtcggaacag gagagcgcac gagggagctt 1980

ccagggggaa acgcctggta tctttatagt cctgtcgggt ttcgccacct ctgacttgag 2040

cgtcgatttt tgtgatgctc gtcagggggg cggagcctat ggaaaaacgc cagcaacgcg 2100

gcctttttac ggttcctggc cttttgctgg ccttttgctc acatgttctt tcctgcgtta 2160

tcccctgatt ctgtggataa ccgtattacc gcctttgagt gagctgatac cgctcgccgc 2220

agccgaacga ccgagcgcag cgagtcagtg agcgaggaag cggaagagcg cctgatgcgg 2280

tattttctcc ttacgcatct gtgcggtatt tcacaccgca tatatggtgc actctcagta 2340

caatctgctc tgatgccgca tagttaagcc agtatacact ccgctatcgc tacgtgactg 2400

ggtcatggct gcgccccgac acccgccaac acccgctgac gcgccctgac gggcttgtct 2460

gctcccggca tccgcttaca gacaagctgt gaccgtctcc gggagctgca tgtgtcagag 2520

gttttcaccg tcatcaccga aacgcgcgag gcagctgcgg taaagctcat cagcgtggtc 2580

gtgaagcgat tcacagatgt ctgcctgttc atccgcgtcc agctcgttga gtttctccag 2640

aagcgttaat gtctggcttc tgataaagcg ggccatgtta agggcggttt tttcctgttt 2700

ggtcactgat gcctccgtgt aagggggatt tctgttcatg ggggtaatga taccgatgaa 2760

acgagagagg atgctcacga tacgggttac tgatgatgaa catgcccggt tactggaacg 2820

ttgtgagggt aaacaactgg cggtatggat gcggcgggac cagagaaaaa tcactcaggg 2880

tcaatgccag cgcttcgtta atacagatgt aggtgttcca cagggtagcc agcagcatcc 2940

tgcgatgcag atccggaaca taatggtgca gggcgctgac ttccgcgttt ccagacttta 3000

cgaaacacgg aaaccgaaga ccattcatgt tgttgctcag gtcgcagacg ttttgcagca 3060

gcagtcgctt cacgttcgct cgcgtatcgg tgattcattc tgctaaccag taaggcaacc 3120

ccgccagcct agccgggtcc tcaacgacag gagcacgatc atgcgcaccc gtggggccgc 3180

catgccggcg ataatggcct gcttctcgcc gaaacgtttg gtggcgggac cagtgacgaa 3240

ggcttgagcg agggcgtgca agattccgaa taccgcaagc gacaggccga tcatcgtcgc 3300

gctccagcga aagcggtcct cgccgaaaat gacccagagc gctgccggca cctgtcctac 3360

gagttgcatg ataaagaaga cagtcataag tgcggcgacg atagtcatgc cccgcgccca 3420

ccggaaggag ctgactgggt tgaaggctct caagggcatc ggtcgagatc ccggtgccta 3480

atgagtgagc taacttacat taattgcgtt gcgctcactg cccgctttcc agtcgggaaa 3540

cctgtcgtgc cagctgcatt aatgaatcgg ccaacgcgcg gggagaggcg gtttgcgtat 3600

tgggcgccag ggtggttttt cttttcacca gtgagacggg caacagctga ttgcccttca 3660

ccgcctggcc ctgagagagt tgcagcaagc ggtccacgct ggtttgcccc agcaggcgaa 3720

aatcctgttt gatggtggtt aacggcggga tataacatga gctgtcttcg gtatcgtcgt 3780

atcccactac cgagatatcc gcaccaacgc gcagcccgga ctcggtaatg gcgcgcattg 3840

cgcccagcgc catctgatcg ttggcaacca gcatcgcagt gggaacgatg ccctcattca 3900

gcatttgcat ggtttgttga aaaccggaca tggcactcca gtcgccttcc cgttccgcta 3960

tcggctgaat ttgattgcga gtgagatatt tatgccagcc agccagacgc agacgcgccg 4020

agacagaact taatgggccc gctaacagcg cgatttgctg gtgacccaat gcgaccagat 4080

gctccacgcc cagtcgcgta ccgtcttcat gggagaaaat aatactgttg atgggtgtct 4140

ggtcagagac atcaagaaat aacgccggaa cattagtgca ggcagcttcc acagcaatgg 4200

catcctggtc atccagcgga tagttaatga tcagcccact gacgcgttgc gcgagaagat 4260

tgtgcaccgc cgctttacag gcttcgacgc cgcttcgttc taccatcgac accaccacgc 4320

tggcacccag ttgatcggcg cgagatttaa tcgccgcgac aatttgcgac ggcgcgtgca 4380

gggccagact ggaggtggca acgccaatca gcaacgactg tttgcccgcc agttgttgtg 4440

ccacgcggtt gggaatgtaa ttcagctccg ccatcgccgc ttccactttt tcccgcgttt 4500

tcgcagaaac gtggctggcc tggttcacca cgcgggaaac ggtctgataa gagacaccgg 4560

catactctgc gacatcgtat aacgttactg gtttcacatt caccaccctg aattgactct 4620

cttccgggcg ctatcatgcc ataccgcgaa aggttttgcg ccattcgatg gtgtccggga 4680

tctcgacgct ctcccttatg cgactcctgc attaggaagc agcccagtag taggttgagg 4740

ccgttgagca ccgccgccgc aaggaatggt gcatgcaagg agatggcgcc caacagtccc 4800

ccggccacgg ggcctgccac catacccacg ccgaaacaag cgctcatgag cccgaagtgg 4860

cgagcccgat cttccccatc ggtgatgtcg gcgatatagg cgccagcaac cgcacctgtg 4920

gcgccggtga tgccggccac gatgcgtccg gcgtagagga tcgagatctc gatcccgcga 4980

aattaatacg actcactata ggggaattgt gagcggataa caattcccct ctagaaataa 5040

ttttgtttaa ctttaagaag gagatatacc atgggcagca gccatcatca tcatcatcac 5100

agcagcggcc tggtgccgcg cggcagccat atggctagca tgactggtgg acagcaaatg 5160

ggtcgcggat ccccggcagc taagaaaaag aaactggatg gcagcgtcga catgaagaga 5220

aagatcggca tcggcctgga cgtgggcatc ggcagcgtgg gcttcgccgt gctgagctac 5280

gacaaggtgt acgacgccag aatcgagcag gtgggcgtga gactgttcga cagcggcgag 5340

gagcccaaga ccaaggtgag caagaaccag ggcagaagac agtacagagc cggcagaaga 5400

ctgatcagaa gaagatacca cagaaaggag agagccaaga gattcatcga gagaatcggc 5460

ctgctgagcg ccgacaagat caaggagtgg caggaggtga acggcaacca gaacatctac 5520

tacgtgagat tcagaggcct gagcgagaag ctgacccccc aggagatcgc cgactgcgtg 5580

atccacttct gcaaccacag aggctacaga gagttctacg aggacgacgt ggccgacgag 5640

aaggaggccg gcaagatcaa gaccgccctg agcagattcg acgagaagat ggccgccggc 5700

aagtacgtga gcgtggccga catgatcctg cacgacaacg agttcagcac caacacccag 5760

ttccccgact tccacaacca caagggcgac gacgacgaga agtacttcct gatcaagaga 5820

gccgccctga gagacgagct gagagccatc ctgagaaagc agcaggagtt ctacgagcag 5880

ctgaccgagc acaacatcga cttcctgtgc gacgacatcg tgttcgtgca gagagacttc 5940

gaggacggcc ccggcgacaa gaccgacaag aagagaaagt tcatgggctt cctggacagc 6000

atcggctgct gcatgttcta caaggaggag gtgagaggct acagaagcac cgtgatcgcc 6060

gacatctaca gcctggtgaa cggcctgagc aagatgatgt acgtggacag caccaccggc 6120

gagatcacct tcctgcccga ggccgccgac aagatcatcg acttcgccct gaagaacgcc 6180

agcatcaccg agaaggacat caaggagatc ctgaagaagt acaacctgac cctgatcaag 6240

gccgagaagc tggaggagaa catcccccag accatcaaga ccctgaagat cctgaagaag 6300

atcctggacg acagcggcta cagctacgac gagctgatca aggaggagca gttcgacttc 6360

gacagaccca gcaagctgca cgagctgtgc agcctgctgg ccagcaacat cacccccaag 6420

agaagaagaa aggccctgga gaaggccggc tggaacaagg ccctgcagga gcagaccaga 6480

agaatccact tcggcggcac cagcaacgtg tgctacagat acatgctgga ggccatcgac 6540

gccttcagac acggcgagct gtacggcaac ttccaggcca gaagaaacaa ggagcagctg 6600

accgacgagg ccgagaacac cgagaaggtg agactgctgc cccccttcac caaggagatg 6660

gacgaggacg tggtgaagaa cgtggtggtg ttcaaggcca tcaacgagac aagaaagatc 6720

atcaacgccc tgatcggcaa gtacggcagc cccgcctaca tcaacatcga ggtggccgac 6780

gagctgggcc acagcatcga gacaagaaga aagatgacca aggccaacaa cgagaagatg 6840

aagaagaagg aggccatcag caccaagctg gtggagctgg gcctgagaaa ggagggcgag 6900

gtgagcggca aggacatcgc cagatacaga ctgtgggagc agcaggacgg catcgacctg 6960

tacaccggcg agaacatccc cgaggccgac gtgctgagcg gccagtacga catcgaccac 7020

atcatcccct tcagcctgat cctggacgac accctgaaca acaaggtgct gaccggcatg 7080

ggcagcaaca gacaggccaa gagcaacaag gcccccagag agtacctgag cgacaaggcc 7140

gagctggagt tcatcaagag agtgaacatc ctgctgaaga agaagatcat cagcaagaag 7200

aagtacaagt acctgatggt gaagaacctg agagacagca agctgctgga cgagtggaag 7260

agcagaaaca tcaacgacac cagatacatc agcagattcc tggtgaacta cctgaacaac 7320

atgctgctgt tcaacagcga caagaagaag aacgtgtacg ccatcaacgg cgccatcacc 7380

agcaagatga gaaagctgtg gctgaacaag agaacctggg gcacccccga gaagaacaga 7440

gagaacaacc tgcaccacgc cgccgacgcc atcgtgatcg ccaacctgac ccccgccgcc 7500

gtggagctgg ccagcgacaa cctgaagctg cagaacatct tcagacagaa cggcaagaga 7560

gtgaccgagg agtacgacaa ctacctggac aaggccgtga gaaagatgga gaagtactac 7620

cacctgaacg aggagctggc caagaacctg ctggtgagaa aggacagaat ccccagcatg 7680

gtgagaagcc tgagagagga gacagacaag agactggtgg acaccagcct ggaggagttc 7740

aacatggtga cccccgaggc cttcagaaag aacctggagc agtactacaa cgacagcgac 7800

ttcgtggcca gcatccagat gcccctggtg agctacaagc agagcaagag attcagcggc 7860

agcttcacca aggacaaccc catcaagaag aaggacaagg aggacagcag cagcgtgaag 7920

atggacagcc tgggcaacga gaacatcctg gacgccaaga gctactactg cctggaggtg 7980

tacagcacca aggacaacaa gaccgccctg agaggcctga gatacgtgga cttcaagctg 8040

aagaacaaga agatgttcat caacgtgccc aaccccgaca actacgacaa gcacatcatg 8100

tacctgttca agaacgacta catcgtggtg tacaacaaga agggcgagga gagaatcaag 8160

ggctactaca ccggcatcaa gaacatcaag gccaacagat tctacctgat cagcaacaac 8220

gacgccgtga gaaaggactt caccctgagc aaggacgaca ccatcaagaa gtaccacatc 8280

gacatcctgg gccagatcgg cggcgaggtg aagtgcagcg cccccttcct gagcatcacc 8340

gagaaggaga caggcggcgg ccccggcggc ggcgccgccg ccggcagcgg cagccctaag 8400

aaaaaacgaa aagttggcag cggaagcaaa aggccggcgg ccacgaaaaa ggccggccag 8460

gcaaaaaaga aaaagtaact cgagcaccac caccaccacc actgagatcc ggctgctaac 8520

aaagcccgaa aggaagctga gttggctgct gccaccgctg agcaataact agcataaccc 8580

cttggggcct ctaaacgggt cttgaggggt tttttgctga aaggaggaac tatatccgga 8640

t 8641

<210> 14

<211> 273

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(273)

<223> CasRfg.3蛋白体外切割底物序列

<400> 14

ggagttcaga cgtgtgctct tccgatctca gcacaaaagg aaactcaccc taactgtaaa 60

gtaattgtgt gttttgagac tataaatatg catgcgagaa aagccttgtt tgccaccatg 120

gaacggctcg gagatcatca ttgcgnnnnn nngtgagcaa gggcgaggag ctgttcaccg 180

gggtggtgcc catcctggtc gagctggacg gcgacgtaaa cggccacaag ttcagcgtgt 240

ccggcagatc ggaagagcac acgtctgaac tcc 273

<210> 15

<211> 185

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(185)

<223> sgRNA序列

<400> 15

gaacggcucg gagaucauca uugcgguuuu aguucuaugu uggauauuga uaaacugaua 60

cgaaauuguc aguuuaucaa uauccaacaa uaguucuaag auaaggccuu augugccgua 120

ggguauagcg guaucccgaa caauuccgcu gcuuugagua uuaagcugcu acaucaugua 180

gcagc 185

<210> 16

<211> 59

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(59)

<223> 引物

<400> 16

gttgacatgc tggattgaga cttcctacac tctttcccta cacgacgctc ttccgatct 59

<210> 17

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(58)

<223> 引物

<400> 17

gatcggaaga gcgtcgtgta gggaaagagt gtaggaagtc tcaatccagc atgtcaac 58

<210> 18

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(19)

<223> 引物

<400> 18

ggagttcaga cgtgtgctc 19

<210> 19

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(24)

<223> 引物

<400> 19

gttgacatgc tggattgaga cttc 24

<210> 20

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(58)

<223> 引物

<400> 20

aatgatacgg cgaccaccga gatctacact atagcctaca ctctttccct acacgacg 58

<210> 21

<211> 57

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(57)

<223> 引物

<400> 21

caagcagaag acggcatacg agatcgagta atgtgactgg agttcagacg tgtgctc 57

<210> 22

<211> 532

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(532)

<223> CasRfg.3-N2 序列

<400> 22

gaatgggcta tttctaagca cggcaggtac cgtcttcccc ttcccccgcc aacacagctg 60

gcccaggaca agaaggtgca gagacaaaca gggggcaccc tgcctgtcct gctaggaact 120

gcaaggcagc gtgccgcaca cgctgcctgg gccaatgcca cccaggccag gagagggttt 180

ggggccagac accagcccat acccaagggt cccaggggat gtggggagaa ggggaatcca 240

ccttttcctt ccctcccacc tcccaaataa cacacagaca gctctgttgg tctgagaatg 300

atggacattt agacactggc gccaggtttg cgcctgaccg gcgccacgca ggggtgggcg 360

gagcaaagac acacaggtgg gctacaggtg tcacacggca ccagccaggg cccggggtgg 420

ctggggtgag gatgggtgtt tggccagtga ccaggagtca ggtcaagtcc aggtggtcag 480

tgccaggggc tccaggaggg gagggcagtg ccataaccct cctggtgtcc ag 532

<210> 23

<211> 500

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(500)

<223> CasRfg.3-N4 序列

<400> 23

ggcactgtgc cctccagatt cctcagagcc tggtgccagg tgcacctccc cagccctctc 60

agcccctgag ctctgccacc ctgcccgggc ttctgccctt gggtcctggc ctctcagggt 120

ctcctcagct ctgcaaggag gggctgggag caggtcccag gctagcagtg ggctggaggc 180

ctcctgtgtg gtctctacct gtccatgccg aggggtcacc tctgggtgag gtcgcaccca 240

cccccctcac ggggctgctt tgccagaagg tctgttcccc tcatggcctc tgctactctt 300

tacacttagt tcttcccagg aagggcccgg tggctgcaga taatgtttcc catctgtgga 360

gccttcaagg gctgggccca tgaggattct gctcccagct tgctcttcct ctccagcctg 420

cacccaccag gccccagaat cctgaggatg gagctgctcc tgtcccctga ggtggtctaa 480

acctctgggg aggcactgga 500

<210> 24

<211> 3194

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> allele

<222> (1)..(3194)

<223> CasRfg.3-N2-Target质粒

<400> 24

agcgcccaat acgcaaaccg cctctccccg cgcgttggcc gattcattaa tgcagctggc 60

acgacaggtt tcccgactgg aaagcgggca gtgagcgcaa cgcaattaat gtgagttagc 120

tcactcatta ggcaccccag gctttacact ttatgcttcc ggctcgtatg ttgtgtggaa 180

ttgtgagcgg ataacaattt cacacaggaa acagctatga ccatgattac gccaagctca 240

gaattaaccc tcactaaagg gactagtcca gggatctgga caccaggagg gttatggcac 300

tgccctcccc tcctggagcc cctggcactg accacctgga cttgacctga ctcctggtca 360

ctggccaaac acccatcctc accccagcca ccccgggccc tggctggtgc cgtgtgacac 420

ctgtagccca cctgtgtgtc tttgctccgc ccacccctgc gtggcgccgg tcaggcgcaa 480

acctggcgcc agtgtctaaa tgtccatcat tctcagacca acagagctgt ctgtgtgtta 540

tttgggaggt gggagggaag gaaaaggtgg attccccttc tccccacatc ccctgggacc 600

cttgggtatg ggctggtgtc tggccccaaa ccctctcctg gcctgggtgg cattggccca 660

ggcagcgtgt gcggcacgct gccttgcagt tcctagcagg acaggcaggg tgccccctgt 720

ttgtctctgc accttcttgt cctgggccag ctgtgttggc gggggaaggg gaagacggta 780

cctgccgtgc ttagaaatag cccattcatc ctgggctaaa ttcaattcgc cctatagtga 840

gtcgtattac aattcactgg ccgtcgtttt acaacgtcgt gactgggaaa accctggcgt 900

tacccaactt aatcgccttg cagcacatcc ccctttcgcc agctggcgta atagcgaaga 960

ggcccgcacc gatcgccctt cccaacagtt gcgcagccta tacgtacggc agtttaaggt 1020

ttacacctat aaaagagaga gccgttatcg tctgtttgtg gatgtacaga gtgatattat 1080

tgacacgccg gggcgacgga tggtgatccc cctggccagt gcacgtctgc tgtcagataa 1140

agtctcccgt gaactttacc cggtggtgca tatcggggat gaaagctggc gcatgatgac 1200

caccgatatg gccagtgtgc cggtctccgt tatcggggaa gaagtggctg atctcagcca 1260

ccgcgaaaat gacatcaaaa acgccattaa cctgatgttc tggggaatat aaggcgcgcc 1320

acattcaaat atgtatccgc tcatgagatt atcaaaaagg atcttcacct agatcctttt 1380

aaattaaaaa tgaagtttta aatcaatcta aagtatatat gagtaaactt ggtctgacag 1440

ttaccaatgc ttaatcagtg aggcacctat ctcagcgatc tgtctatttc gttcatccat 1500

agttgcctga ctccccgtcg tgtagataac tacgatacgg gagggcttac catctggccc 1560

cagtgctgca atgataccgc gagacccacg ctcaccggct ccagatttat cagcaataaa 1620

ccagccagcc ggaagggccg agcgcagaag tggtcctgca actttatccg cctccatcca 1680

gtctattaat tgttgccggg aagctagagt aagtagttcg ccagttaata gtttgcgcaa 1740

cgttgttgcc attgctacag gcatcgtggt gtcacgctcg tcgtttggta tggcttcatt 1800

cagctccggt tcccaacgat caaggcgagt tacatgatcc cccatgttgt gcaaaaaagc 1860

ggttagctcc ttcggtcctc cgatcgttgt cagaagtaag ttggccgcag tgttatcact 1920

catggttatg gcagcactgc ataattctct tactgtcatg ccatccgtaa gatgcttttc 1980

tgtgactggt gagtactcaa ccaagtcatt ctgagaatag tgtatgcggc gaccgagttg 2040

ctcttgcccg gcgtcaatac gggataatac cgcgccacat agcagaactt taaaagtgct 2100

catcattgga aaacgttctt cggggcgaaa actctcaagg atcttaccgc tgttgagatc 2160

cagttcgatg taacccactc gtgcacccaa ctgatcttca gcatctttta ctttcaccag 2220

cgtttctggg tgagcaaaaa caggaaggca aaatgccgca aaaaagggaa taagggcgac 2280

acggaaatgt tgaatactca tactcttcct ttttcaatat tattgaagca tttatcaggg 2340

ttattgtctc atgaccaaaa tcccttaacg tgagttttcg ttccactgag cgtcagaccc 2400

cgtagaaaag atcaaaggat cttcttgaga tccttttttt ctgcgcgtaa tctgctgctt 2460

gcaaacaaaa aaaccaccgc taccagcggt ggtttgtttg ccggatcaag agctaccaac 2520

tctttttccg aaggtaactg gcttcagcag agcgcagata ccaaatactg ttcttctagt 2580

gtagccgtag ttaggccacc acttcaagaa ctctgtagca ccgcctacat acctcgctct 2640

gctaatcctg ttaccagtgg ctgctgccag tggcgataag tcgtgtctta ccgggttgga 2700

ctcaagacga tagttaccgg ataaggcgca gcggtcgggc tgaacggggg gttcgtgcac 2760

acagcccagc ttggagcgaa cgacctacac cgaactgaga tacctacagc gtgagctatg 2820

agaaagcgcc acgcttcccg aagggagaaa ggcggacagg tatccggtaa gcggcagggt 2880

cggaacagga gagcgcacga gggagcttcc agggggaaac gcctggtatc tttatagtcc 2940

tgtcgggttt cgccacctct gacttgagcg tcgatttttg tgatgctcgt caggggggcg 3000

gagcctatgg aaaaacgcca gcaacgcggc ctttttacgg ttcctggcct tttgctggcc 3060

ttttgctcac atgttctttc ctgcgttatc ccctgattct gtggataacc gtattaccgc 3120

ctttgagtga gctgataccg ctcgccgcag ccgaacgacc gagcgcagcg agtcagtgag 3180

cgaggaagcg gaag 3194

<210> 25

<211> 3162

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(3162)

<223> CasRfg.3-N4-Target质粒

<400> 25

agcgcccaat acgcaaaccg cctctccccg cgcgttggcc gattcattaa tgcagctggc 60

acgacaggtt tcccgactgg aaagcgggca gtgagcgcaa cgcaattaat gtgagttagc 120

tcactcatta ggcaccccag gctttacact ttatgcttcc ggctcgtatg ttgtgtggaa 180

ttgtgagcgg ataacaattt cacacaggaa acagctatga ccatgattac gccaagctca 240

gaattaaccc tcactaaagg gactagtcca gggatggcac tgtgccctcc agattcctca 300

gagcctggtg ccaggtgcac ctccccagcc ctctcagccc ctgagctctg ccaccctgcc 360

cgggcttctg cccttgggtc ctggcctctc agggtctcct cagctctgca aggaggggct 420

gggagcaggt cccaggctag cagtgggctg gaggcctcct gtgtggtctc tacctgtcca 480

tgccgagggg tcacctctgg gtgaggtcgc acccaccccc ctcacggggc tgctttgcca 540

gaaggtctgt tcccctcatg gcctctgcta ctctttacac ttagttcttc ccaggaaggg 600

cccggtggct gcagataatg tttcccatct gtggagcctt caagggctgg gcccatgagg 660

attctgctcc cagcttgctc ttcctctcca gcctgcaccc accaggcccc agaatcctga 720

ggatggagct gctcctgtcc cctgaggtgg tctaaacctc tggggaggca ctggaatcct 780

gggctaaatt caattcgccc tatagtgagt cgtattacaa ttcactggcc gtcgttttac 840

aacgtcgtga ctgggaaaac cctggcgtta cccaacttaa tcgccttgca gcacatcccc 900

ctttcgccag ctggcgtaat agcgaagagg cccgcaccga tcgcccttcc caacagttgc 960

gcagcctata cgtacggcag tttaaggttt acacctataa aagagagagc cgttatcgtc 1020

tgtttgtgga tgtacagagt gatattattg acacgccggg gcgacggatg gtgatccccc 1080

tggccagtgc acgtctgctg tcagataaag tctcccgtga actttacccg gtggtgcata 1140

tcggggatga aagctggcgc atgatgacca ccgatatggc cagtgtgccg gtctccgtta 1200

tcggggaaga agtggctgat ctcagccacc gcgaaaatga catcaaaaac gccattaacc 1260

tgatgttctg gggaatataa ggcgcgccac attcaaatat gtatccgctc atgagattat 1320

caaaaaggat cttcacctag atccttttaa attaaaaatg aagttttaaa tcaatctaaa 1380

gtatatatga gtaaacttgg tctgacagtt accaatgctt aatcagtgag gcacctatct 1440

cagcgatctg tctatttcgt tcatccatag ttgcctgact ccccgtcgtg tagataacta 1500

cgatacggga gggcttacca tctggcccca gtgctgcaat gataccgcga gacccacgct 1560

caccggctcc agatttatca gcaataaacc agccagccgg aagggccgag cgcagaagtg 1620

gtcctgcaac tttatccgcc tccatccagt ctattaattg ttgccgggaa gctagagtaa 1680

gtagttcgcc agttaatagt ttgcgcaacg ttgttgccat tgctacaggc atcgtggtgt 1740

cacgctcgtc gtttggtatg gcttcattca gctccggttc ccaacgatca aggcgagtta 1800

catgatcccc catgttgtgc aaaaaagcgg ttagctcctt cggtcctccg atcgttgtca 1860

gaagtaagtt ggccgcagtg ttatcactca tggttatggc agcactgcat aattctctta 1920

ctgtcatgcc atccgtaaga tgcttttctg tgactggtga gtactcaacc aagtcattct 1980

gagaatagtg tatgcggcga ccgagttgct cttgcccggc gtcaatacgg gataataccg 2040

cgccacatag cagaacttta aaagtgctca tcattggaaa acgttcttcg gggcgaaaac 2100

tctcaaggat cttaccgctg ttgagatcca gttcgatgta acccactcgt gcacccaact 2160

gatcttcagc atcttttact ttcaccagcg tttctgggtg agcaaaaaca ggaaggcaaa 2220

atgccgcaaa aaagggaata agggcgacac ggaaatgttg aatactcata ctcttccttt 2280

ttcaatatta ttgaagcatt tatcagggtt attgtctcat gaccaaaatc ccttaacgtg 2340

agttttcgtt ccactgagcg tcagaccccg tagaaaagat caaaggatct tcttgagatc 2400

ctttttttct gcgcgtaatc tgctgcttgc aaacaaaaaa accaccgcta ccagcggtgg 2460

tttgtttgcc ggatcaagag ctaccaactc tttttccgaa ggtaactggc ttcagcagag 2520

cgcagatacc aaatactgtt cttctagtgt agccgtagtt aggccaccac ttcaagaact 2580

ctgtagcacc gcctacatac ctcgctctgc taatcctgtt accagtggct gctgccagtg 2640

gcgataagtc gtgtcttacc gggttggact caagacgata gttaccggat aaggcgcagc 2700

ggtcgggctg aacggggggt tcgtgcacac agcccagctt ggagcgaacg acctacaccg 2760

aactgagata cctacagcgt gagctatgag aaagcgccac gcttcccgaa gggagaaagg 2820

cggacaggta tccggtaagc ggcagggtcg gaacaggaga gcgcacgagg gagcttccag 2880

ggggaaacgc ctggtatctt tatagtcctg tcgggtttcg ccacctctga cttgagcgtc 2940

gatttttgtg atgctcgtca ggggggcgga gcctatggaa aaacgccagc aacgcggcct 3000

ttttacggtt cctggccttt tgctggcctt ttgctcacat gttctttcct gcgttatccc 3060

ctgattctgt ggataaccgt attaccgcct ttgagtgagc tgataccgct cgccgcagcc 3120

gaacgaccga gcgcagcgag tcagtgagcg aggaagcgga ag 3162

<210> 26

<211> 180

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(180)

<223> CasRfg.3-N2-sgRNA序列

<400> 26

auaacacaca gacagcucug guuuuaguuc uauguuggau auugauaaac ugauacgaaa 60

uugucaguuu aucaauaucc aacaauaguu cuaagauaag gccuuaugug ccguagggua 120

uagcgguauc ccgaacaauu ccgcugcuuu gaguauuaag cugcuacauc auguagcagc 180

<210> 27

<211> 180

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(180)

<223> CasRfg.3-N4-sgRNA序列

<400> 27

ccgagggguc accucugggu guuuuaguuc uauguuggau auugauaaac ugauacgaaa 60

uugucaguuu aucaauaucc aacaauaguu cuaagauaag gccuuaugug ccguagggua 120

uagcgguauc ccgaacaauu ccgcugcuuu gaguauuaag cugcuacauc auguagcagc 180

<210> 28

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(28)

<223> 引物

<400> 28

atagggcgaa ttgaatttag cccaggat 28

<210> 29

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(27)

<223> 引物

<400> 29

cagagctgtc tgtgtgttat ttgggag 27

<210> 30

<211> 59

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(59)

<223> 引物

<400> 30

tcccaaataa cacacagaca gctctgddrg dnngagaatg atggacattt agacactgg 59

<210> 31

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(28)

<223> 引物

<400> 31

ccctcactaa agggactagt ccagggat 28

<210> 32

<211> 120

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(120)

<223> sgRNA

<400> 32

auaacacaca gacagcucug guuuuaguuc uauguuggau auugaaaaau auccaacaau 60

aguucuaaga uaaggccuua ugugccguag gguauagcgg uaucccgaac aauuccgcug 120

<210> 33

<211> 180

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(33)

<223> sgRNA

<400> 33

auaacacaca gacagcucug guuuuaguuc uauguuggau auugauaaac ugauacgaaa 60

uugucaguuu aucaauaucc aacaauaguu cuaagauaag gccuuaugug ccguagggua 120

uagcgguauc ccgaacaauu ccgcugcuuu gaguauuaag cugcuacauc auguagcagc 180

<210> 34

<211> 120

<212> DNA/RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(120)

<223> sgRNA

<400> 34

ataacacaca gacagctctg guuuuaguuc uauguuggau auugaaaaau auccaacaau 60

aguucuaaga uaaggccuua ugugccguag gguauagcgg uaucccgaac aauuccgcug 120

<210> 35

<211> 121

<212> DNA/RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(121)

<223> sgRNA

<400> 35

aataacacac agacagctct gguuuuaguu cuauguugga uauugaaaaa uauccaacaa 60

uaguucuaag auaaggccuu augugccgua ggguauagcg guaucccgaa caauuccgcu 120

g 121

<210> 36

<211> 122

<212> DNA/RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(122)

<223> sgRNA

<400> 36

aaataacaca cagacagctc tgguuuuagu ucuauguugg auauugaaaa auauccaaca 60

auaguucuaa gauaaggccu uaugugccgu aggguauagc gguaucccga acaauuccgc 120

ug 122

<210> 37

<211> 123

<212> DNA/RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(123)

<223> sgRNA

<400> 37

caaataacac acagacagct ctgguuuuag uucuauguug gauauugaaa aauauccaac 60

aauaguucua agauaaggcc uuaugugccg uaggguauag cgguaucccg aacaauuccg 120

cug 123

<210> 38

<211> 124

<212> DNA/RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(124)

<223> sgRNA

<400> 38

ccaaataaca cacagacagc tctgguuuua guucuauguu ggauauugaa aaauauccaa 60

caauaguucu aagauaaggc cuuaugugcc guaggguaua gcgguauccc gaacaauucc 120

gcug 124

<210> 39

<211> 1046

<212> PRT

<213> 厌氧弧菌属(Anaerovibrio)

<400> 39

Met Lys Arg Lys Val Gly Phe Gly Leu Asp Val Gly Ile Gly Ser Val

1 5 10 15

Gly Phe Ala Val Leu Ser Tyr Asp Lys Val Tyr Asp Ala Arg Ile Glu

20 25 30

Gln Val Gly Val Arg Leu Phe Asp Ser Gly Glu Glu Val Lys Asn His

35 40 45

Lys Arg Ala Ser Lys Asn Gln Gly Arg Arg Gln Tyr Arg Ser Gly Arg

50 55 60

Arg Leu Ile Arg Arg Arg Tyr His Arg Lys Glu Arg Ala Lys Arg Phe

65 70 75 80

Ile Glu Arg Ile Gly Leu Leu Ser Ala Ala Lys Ile Lys Glu Trp Gln

85 90 95

Glu Val Asn Gly Asn Gln Asn Ile Tyr Ser Ile Arg Phe Arg Gly Leu

100 105 110

Ser Glu Lys Leu Thr Pro Glu Glu Ile Ala Asp Cys Val Ile His Phe

115 120 125

Cys Asn His Arg Gly Tyr Arg Glu Phe Tyr Glu Asp Asp Val Asp Glu

130 135 140

Lys Glu Ala Gly Lys Ile Lys Thr Ala Leu Phe Arg Phe Asp Glu Lys

145 150 155 160

Met Thr Glu Gly Lys Tyr Val Ser Val Ala Asp Met Ile Leu His Asp

165 170 175

Lys Glu Phe Ala Thr Asp Thr Gln Phe Pro Asn Phe His Asn His Lys

180 185 190

Asn Asp Asp Glu Glu Lys Tyr Phe Leu Ile Lys Arg Ala Ala Leu Arg

195 200 205

Asp Glu Leu Arg Ala Ile Leu Gln Lys Gln Gln Glu Tyr Tyr Lys Gln

210 215 220

Leu Thr Asp Gln Asn Ile Ala Phe Leu Cys Asp Glu Ile Val Phe Val

225 230 235 240

Gln Arg Asp Phe Glu Asp Gly Pro Gly Asp Lys Asn Asp Lys Asn Arg

245 250 255

Lys Phe Met Gly Phe Leu Asp Thr Ile Gly Cys Cys Met Phe Tyr Lys

260 265 270

Glu Glu Leu Arg Gly Phe Arg Ser Thr Val Ile Ala Asp Ile Tyr Ser

275 280 285

Leu Val Asn Gly Leu Ser Gln Met Met Tyr Val Asp Ser Thr Thr Gly

290 295 300

Glu Ile Thr Phe Leu Pro Glu Ala Ala Asp Asp Ile Ile Glu Phe Ala

305 310 315 320

Leu Lys Asn Ala Ser Ile Thr Glu Lys Asp Ile Lys Lys Ile Leu Glu

325 330 335

Lys Tyr Asn Leu Thr Leu Ile Lys Ala Glu Lys Leu Glu Glu Asn Ile

340 345 350

Pro Gln Thr Ile Lys Thr Leu Lys Val Leu Lys Lys Val Leu Asp Ala

355 360 365

Ser Gly Tyr Ser Tyr Asp Glu Leu Ile Gln Glu Glu Gln Phe Asp Phe

370 375 380

Asp Lys Pro Ser Lys Leu His Glu Leu Cys Asn Leu Leu Ala Ser Asn

385 390 395 400

Ile Thr Pro Lys Arg Arg Arg Lys Ala Leu Glu Lys Ala Gly Trp Asn

405 410 415

Lys Asp Phe Gln Ala Gln Thr Lys Arg Ile His Phe Gly Gly Thr Ser

420 425 430

Asn Val Cys Tyr Arg Tyr Met Leu Glu Ala Ile Asp Ala Phe Arg His

435 440 445

Gly Glu Leu Tyr Gly Asn Phe Gln Ala Arg Arg Lys Gln Glu Gln Leu

450 455 460

Thr Asp Glu Ala Glu Asn Thr Glu Arg Val Lys Leu Leu Pro Pro Phe

465 470 475 480

Thr Lys Glu Met Asp Glu Asp Val Val Lys Asn Val Val Val Phe Lys

485 490 495

Ala Ile Asn Glu Thr Arg Lys Ile Ile Asn Ala Leu Ile Gly Lys Tyr

500 505 510

Gly Ser Pro Ala Tyr Ile Asn Ile Glu Val Ala Asp Glu Leu Gly His

515 520 525

Ser Ile Glu Thr Arg Arg Lys Met Thr Lys Ala Asn Asn Asp Asn Met

530 535 540

Lys Lys Lys Glu Ala Ile Gly Ala Lys Leu Val Glu Leu Gly Leu Arg

545 550 555 560

Lys Glu Gly Glu Val Ser Gly Lys Asp Ile Ala Arg Tyr Arg Leu Trp

565 570 575

Glu Gln Gln Asn Gly Ile Asp Leu Tyr Thr Gly Asn Asn Ile Pro Glu

580 585 590

Ala Asp Val Leu Ser Gly Gln Tyr Asp Val Asp His Ile Ile Pro Phe

595 600 605

Ser Leu Ile Leu Asp Asp Thr Leu Asn Asn Lys Val Leu Thr Gly Met

610 615 620

Gly Ser Asn Arg Gln Ala Lys Ser Asn Thr Ala Pro Arg Glu Tyr Leu

625 630 635 640

Ser Asp Lys Ala Glu Ala Glu Phe Ile Lys Arg Val Asn Val Leu Leu

645 650 655

Lys Lys Lys Ile Ser Lys Lys Lys Tyr Gln Tyr Leu Met Val Lys Asn

660 665 670

Leu Arg Asp Ser Lys Leu Leu Asn Glu Trp Lys Ser Arg Asn Ile Asn

675 680 685

Asp Thr Arg Tyr Ile Ser Arg Phe Leu Ala Asn Tyr Leu Asn Asn Thr

690 695 700

Leu Ile Phe Asn Ser Asp Lys Lys Lys Asn Val Tyr Ala Ile Asn Gly

705 710 715 720

Ala Ile Thr Ser Arg Met Arg Lys Met Trp Leu Asn Lys Lys Thr Trp

725 730 735

Gly Asn Pro Glu Lys Asn Arg Glu Asn Asn Leu His His Ala Ala Asp

740 745 750

Ala Ile Val Ile Ala Asn Leu Thr Pro Ala Ala Val Glu Leu Ala Ser

755 760 765

Asp Asn Leu Lys Leu Gln Asn Ile Phe Arg Gln Asn Gly Lys Arg Val

770 775 780

Thr Glu Glu Tyr Glu Asn Tyr Leu Asp Arg Ala Val Arg Lys Ile Glu

785 790 795 800

Lys Tyr Tyr His Phe Asn Pro Glu Leu Ala Lys Lys Leu Leu Val Ser

805 810 815

Lys Asp Arg Ile Pro Ser Met Val Arg Leu Leu Arg Glu Glu Thr Asp

820 825 830

Lys Arg Leu Val Asp Pro Ser Leu Glu Glu Phe Lys Met Val Thr Pro

835 840 845

Glu Ser Phe Arg Gln Asn Leu Glu Gln Tyr Tyr Asn Asp Pro Glu Phe

850 855 860

Val Ala Ser Ile Gln Met Pro Leu Val Ser Tyr Lys Gln Ser Lys Arg

865 870 875 880

Phe Ser Gly Ser Phe Thr Lys Asp Lys Pro Ile Lys Lys Lys Glu Arg

885 890 895

Glu Asp Ser Ser Thr Val Lys Ile Asp Ser Leu Gly Asn Glu Asn Ile

900 905 910

Leu Asp Ala Lys Ser Tyr Tyr Cys Leu Glu Val Tyr Ser Thr Lys Asp

915 920 925

Asn Lys Thr Ala Leu Arg Gly Leu Arg Tyr Val Asp Phe Lys Leu Lys

930 935 940

Asp Lys Lys Met Phe Ile Thr Val Pro Asn Pro Glu Asn Tyr Gly Lys

945 950 955 960

His Ile Met Tyr Leu Phe Lys Asn Asp Tyr Ile Val Val Tyr Asn Lys

965 970 975

Lys Gly Glu Glu Lys Ala Arg Gly Phe Tyr Ser Ser Val Lys Ala Ile

980 985 990

Thr Arg Asp Gln Leu Tyr Leu Lys Asp Asn Asn Thr Asn Val Asp Ile

995 1000 1005

Ile Phe Thr Ile Lys Lys Asp Asp Thr Val Lys Lys Tyr His Ile Asp

1010 1015 1020

Ile Leu Gly Gln Ile Gly Gly Glu Ile Lys Cys Ser Ala Pro Phe Leu

1025 1030 1035 1040

Ser Ile Thr Glu Lys Glu

1045

<210> 40

<211> 35

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(35)

<223> DR序列

<400> 40

gttttagttc tatgttggat attgataaac tgata 35

<210> 41

<211> 124

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(124)

<223> tracrRNA序列

<400> 41

ttgtcagttt atcaatatcc aacaatagtt ctaagataag gccttatgtg ccgtagggta 60

tagcggtatc ccgaacaatt ccgctccttt gttcattaag ctgctacatt atgtagcggc 120

tttt 124

<210> 42

<211> 7381

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(7381)

<223> pXC09-89-GFPgRNA

<400> 42

cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcgtcg ggcgaccttt 60

ggtcgcccgg cctcagtgag cgagcgagcg cgcagagagg gagtggccaa ctccatcact 120

aggggttcct gcggcctcta gactcgaggc gttgacattg attattgact agttattaat 180

agtaatcaat tacggggtca ttagttcata gcccatatat ggagttccgc gttacataac 240

ttacggtaaa tggcccgcct ggctgaccgc ccaacgaccc ccgcccattg acgtcaataa 300

tgacgtatgt tcccatagta acgccaatag ggactttcca ttgacgtcaa tgggtggagt 360

atttacggta aactgcccac ttggcagtac atcaagtgta tcatatgcca agtacgcccc 420

ctattgacgt caatgacggt aaatggcccg cctggcatta tgcccagtac atgaccttat 480

gggactttcc tacttggcag tacatctacg tattagtcat cgctattacc atggtgatgc 540

ggttttggca gtacatcaat gggcgtggat agcggtttga ctcacgggga tttccaagtc 600

tccaccccat tgacgtcaat gggagtttgt tttggcacca aaatcaacgg gactttccaa 660

aatgtcgtaa caactccgcc ccattgacgc aaatgggcgg taggcgtgta cggtgggagg 720

tctatataag cagagctctc tggctaacta ccggtgccac catgccggca gctaagaaaa 780

agaaactgga tggcagcgtc gacatgaaga gaaaggtggg cttcggcctg gacgtgggca 840

tcggcagcgt gggcttcgcc gtgctgagct acgacaaggt gtacgacgct agaatcgagc 900

aagtgggcgt gagactgttc gacagcggcg aagaggtgaa gaaccacaag agagctagca 960

agaaccaagg ccggagacag tacagaagcg gccggagact gatcagacgg agataccaca 1020

gaaaggagag agccaagaga ttcatcgaga gaatcggcct gctgagcgcc gccaagatca 1080

aggagtggca agaggtgaac ggcaatcaga acatctacag catcagattc agaggcctga 1140

gcgagaagct gacccccgag gagatcgccg actgcgtgat ccacttctgc aaccacagag 1200

gctacagaga gttctacgag gacgacgtgg acgagaagga ggccggcaag atcaagaccg 1260

ccctgttcag attcgacgag aagatgaccg agggcaagta cgtgagcgtg gccgacatga 1320

tcctgcacga caaggagttc gccaccgaca cacagttccc caacttccac aaccacaaga 1380

acgacgacga ggagaagtac ttcctgatca agagagccgc cctgagagac gaactgagag 1440

ccatcctgca gaagcagcaa gagtactaca agcagctgac cgatcagaac atcgccttcc 1500

tgtgcgacga gatcgtgttc gtgcagagag acttcgagga cggccccggc gacaagaacg 1560

acaagaacag aaagttcatg ggcttcctgg acaccatcgg ctgctgcatg ttctacaagg 1620

aggagctgag aggcttcaga agcaccgtga tcgccgacat ctacagcctg gtgaacggcc 1680

tgagccaaat gatgtacgtg gacagcacca ccggcgagat caccttcctg cccgaggccg 1740

ccgacgacat catcgagttc gccctgaaga acgctagcat cacagaaaag gacatcaaga 1800

agatcctgga gaagtacaac ctgaccctga tcaaggccga gaagctggag gagaacatcc 1860

ctcagaccat caagaccctg aaggtgctga agaaggtgct ggacgctagc ggctacagct 1920

acgacgagct gatccaagag gagcagttcg acttcgacaa gcctagcaag ctgcacgagc 1980

tgtgcaacct gctggctagc aacatcaccc ctaagagacg gagaaaggcc ctggagaagg 2040

ccggctggaa caaggacttc caagctcaga ccaagagaat ccacttcggc ggcacaagca 2100

acgtgtgcta cagatacatg ctggaggcca tcgacgcctt cagacacggc gagctgtacg 2160

gcaacttcca agctagaaga aagcaagagc agctgaccga cgaggccgag aacaccgaga 2220

gagtgaagct gctgcccccc ttcacaaagg agatggacga ggacgtggtg aagaacgtgg 2280

tcgtgttcaa ggccatcaac gagacaagaa agatcatcaa cgccctgatc ggcaagtacg 2340

gcagccccgc ctacatcaac atcgaggtgg ccgacgagct gggccacagc atcgagacaa 2400

gaagaaagat gaccaaggcc aacaacgaca acatgaagaa aaaggaggct atcggcgcca 2460

agctggtgga gctgggcctg agaaaggagg gcgaggtgag cggcaaggac atcgctagat 2520

acagactgtg ggagcagcag aacggcatcg acctgtacac cggcaacaac atccccgagg 2580

ccgacgtgct gagcgggcag tacgacgtgg accacatcat ccccttcagc ctgatcctgg 2640

acgacaccct gaacaacaag gtgctgaccg gcatgggcag caacagacaa gccaagagca 2700

acaccgcccc tagagagtac ctgagcgaca aggccgaggc cgagttcatc aagagagtga 2760

acgtgctgct gaagaaaaag atcagcaaga aaaagtatca gtacctgatg gtgaagaacc 2820

tgagagacag caagctgctg aacgagtgga agagcagaaa catcaacgac acaagataca 2880

tcagcagatt cctggccaac tacctgaaca acaccctgat cttcaacagc gacaagaaaa 2940

agaacgtgta cgccatcaac ggcgccatca caagcagaat gagaaagatg tggctgaaca 3000

aaaagacctg gggcaacccc gagaagaaca gagagaacaa cctgcaccac gccgccgatg 3060

ccatcgtgat cgccaacctg acccccgccg ccgtggagct ggctagcgac aacctgaagc 3120

tgcagaacat cttccggcag aacgggaaaa gagtgaccga ggagtacgag aactacctgg 3180

acagagccgt gagaaagatc gagaagtact accacttcaa ccccgagctg gccaagaagc 3240

tgctggtgag caaggacaga atccctagca tggtgagact gctgagagag gaaaccgaca 3300

agagactggt ggaccctagc ctggaggagt tcaagatggt gacccccgag agcttcagac 3360

agaacctgga gcagtactac aacgaccccg agttcgtggc tagcattcag atgcccctgg 3420

tgagctacaa gcagagcaag agattcagcg gcagcttcac caaggacaag cccatcaaga 3480

aaaaggagag agaggacagc agcaccgtga agatcgacag cctgggcaac gagaacatcc 3540

tggacgccaa gagctactac tgcctggagg tgtacagcac aaaagacaac aaaaccgctc 3600

tgcggggcct gagatacgtg gacttcaagc tgaaggacaa gaagatgttc atcaccgtgc 3660

ccaaccccga gaattatggc aagcacatca tgtacctgtt caagaacgac tacatcgtgg 3720

tgtacaacaa gaagggcgag gagaaggcta gaggcttcta cagcagcgtg aaggccatca 3780

caagagatca gctgtacctg aaggacaaca acaccaacgt ggacatcatc ttcaccatca 3840

agaaggacga caccgtgaag aagtaccaca ttgacatcct ggggcagatc ggcggcgaga 3900

tcaagtgcag cgcccccttc ctgagcatca ccgagaagga gacaggcggc ggccccggcg 3960

gcggcgccgc cgccggcagc ggcagcccta agaaaaaacg aaaagttggc agcggaagca 4020

aaaggccggc ggccacgaaa aaggccggcc aggcaaaaaa gaaaaagctc gagtacccat 4080

acgatgttcc agattacgct tgagaattcc ccttgagcat ctgacttctg gctaataaag 4140

gaaatttatt ttcattgcaa tagtgtgttg gaattttttg tgtctctcag gtaccaaaaa 4200

aagccgctac ataatgtagc agcttaatga acaaaggagc ggaattgttc gggataccgc 4260

tataccctac ggcacataag gccttatctt agaactattg ttggatattg ataaactgac 4320

aatttctatc agtttatcaa tatccaacat agaactaaaa ccgcaatgat gatctccgag 4380

ccgttcggtg tttcgtcctt tccacaagat atataaagcc aagaaatcga aatactttca 4440

agttacggta agcatatgat agtccatttt aaaacataat tttaaaactg caaactaccc 4500

aagaaattat tactttctac gtcacgtatt ttgtactaat atctttgtgt ttacagtcaa 4560

attaattcca attatctctc taacagcctt gtatcgtata tgcaaatatg aaggaatcat 4620

gggaaatagg ccctcgcggc cgcaggaacc cctagtgatg gagttggcca ctccctctct 4680

gcgcgctcgc tcgctcactg aggccgggcg accaaaggtc gcccgacgcc cgggctttgc 4740

ccgggcggcc tcagtgagcg agcgagcgcg cagctgcctg caggggcgcc tgatgcggta 4800

ttttctcctt acgcatctgt gcggtatttc acaccgcata cgtcaaagca accatagtac 4860

gcgccctgta gcggcgcatt aagcgcggcg ggtgtggtgg ttacgcgcag cgtgaccgct 4920

acacttgcca gcgccttagc gcccgctcct ttcgctttct tcccttcctt tctcgccacg 4980

ttcgccggct ttccccgtca agctctaaat cgggggctcc ctttagggtt ccgatttagt 5040

gctttacggc acctcgaccc caaaaaactt gatttgggtg atggttcacg tagtgggcca 5100

tcgccctgat agacggtttt tcgccctttg acgttggagt ccacgttctt taatagtgga 5160

ctcttgttcc aaactggaac aacactcaac tctatctcgg gctattcttt tgatttataa 5220

gggattttgc cgatttcggt ctattggtta aaaaatgagc tgatttaaca aaaatttaac 5280

gcgaatttta acaaaatatt aacgtttaca attttatggt gcactctcag tacaatctgc 5340

tctgatgccg catagttaag ccagccccga cacccgccaa cacccgctga cgcgccctga 5400

cgggcttgtc tgctcccggc atccgcttac agacaagctg tgaccgtctc cgggagctgc 5460

atgtgtcaga ggttttcacc gtcatcaccg aaacgcgcga gacgaaaggg cctcgtgata 5520

cgcctatttt tataggttaa tgtcatgata ataatggttt cttagacgtc aggtggcact 5580

tttcggggaa atgtgcgcgg aacccctatt tgtttatttt tctaaataca ttcaaatatg 5640

tatccgctca tgagacaata accctgataa atgcttcaat aatattgaaa aaggaagagt 5700

atgagtattc aacatttccg tgtcgccctt attccctttt ttgcggcatt ttgccttcct 5760

gtttttgctc acccagaaac gctggtgaaa gtaaaagatg ctgaagatca gttgggtgca 5820

cgagtgggtt acatcgaact ggatctcaac agcggtaaga tccttgagag ttttcgcccc 5880

gaagaacgtt ttccaatgat gagcactttt aaagttctgc tatgtggcgc ggtattatcc 5940

cgtattgacg ccgggcaaga gcaactcggt cgccgcatac actattctca gaatgacttg 6000

gttgagtact caccagtcac agaaaagcat cttacggatg gcatgacagt aagagaatta 6060

tgcagtgctg ccataaccat gagtgataac actgcggcca acttacttct gacaacgatc 6120

ggaggaccga aggagctaac cgcttttttg cacaacatgg gggatcatgt aactcgcctt 6180

gatcgttggg aaccggagct gaatgaagcc ataccaaacg acgagcgtga caccacgatg 6240

cctgtagcaa tggcaacaac gttgcgcaaa ctattaactg gcgaactact tactctagct 6300

tcccggcaac aattaataga ctggatggag gcggataaag ttgcaggacc acttctgcgc 6360

tcggcccttc cggctggctg gtttattgct gataaatctg gagccggtga gcgtggaagc 6420

cgcggtatca ttgcagcact ggggccagat ggtaagccct cccgtatcgt agttatctac 6480

acgacgggga gtcaggcaac tatggatgaa cgaaatagac agatcgctga gataggtgcc 6540

tcactgatta agcattggta actgtcagac caagtttact catatatact ttagattgat 6600

ttaaaacttc atttttaatt taaaaggatc taggtgaaga tcctttttga taatctcatg 6660

accaaaatcc cttaacgtga gttttcgttc cactgagcgt cagaccccgt agaaaagatc 6720

aaaggatctt cttgagatcc tttttttctg cgcgtaatct gctgcttgca aacaaaaaaa 6780

ccaccgctac cagcggtggt ttgtttgccg gatcaagagc taccaactct ttttccgaag 6840

gtaactggct tcagcagagc gcagatacca aatactgttc ttctagtgta gccgtagtta 6900

ggccaccact tcaagaactc tgtagcaccg cctacatacc tcgctctgct aatcctgtta 6960

ccagtggctg ctgccagtgg cgataagtcg tgtcttaccg ggttggactc aagacgatag 7020

ttaccggata aggcgcagcg gtcgggctga acggggggtt cgtgcacaca gcccagcttg 7080

gagcgaacga cctacaccga actgagatac ctacagcgtg agctatgaga aagcgccacg 7140

cttcccgaag ggagaaaggc ggacaggtat ccggtaagcg gcagggtcgg aacaggagag 7200

cgcacgaggg agcttccagg gggaaacgcc tggtatcttt atagtcctgt cgggtttcgc 7260

cacctctgac ttgagcgtcg atttttgtga tgctcgtcag gggggcggag cctatggaaa 7320

aacgccagca acgcggcctt tttacggttc ctggcctttt gctggccttt tgctcacatg 7380

t 7381

<210> 43

<211> 184

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(184)

<223> Ca9-89sgRNA序列

<400> 43

gaacggcucg gagaucauca uugcgguuuu aguucuaugu uggauauuga uaaacugaua 60

gaaauuguca guuuaucaau auccaacaau aguucuaaga uaaggccuua ugugccguag 120

gguauagcgg uaucccgaac aauuccgcuc cuuuguucau uaagcugcua cauuauguag 180

cggc 184

<210> 44

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(19)

<223> 引物

<400> 44

acgccacaaa aaaacgcgc 19

<210> 45

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(21)

<223> 引物

<400> 45

ccgactggaa agcgggcagt g 21

<210> 46

<211> 440

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(440)

<223> ECBD_3313

<400> 46

atgaccatga ttacggattc actggccgtc gttttacaac gtcgtgactg ggaaaaccct 60

ggcgttaccc aacttaatcg ccttgcagca catccccctt tcgccagctg gcgtaatagc 120

gaagaggccc gcaccgatcg cccttcccaa cagttgcgca gcctgaatgg cgaatggcgc 180

tttgcctggt ttccggcacc agaagcggtg ccggaaagct ggctggagtg cgatcttcct 240

gaggccgata ctgtcgtcgt cccctcaaac tggcagatgc acggttacga tgcgcccatc 300

tacaccaacg tgacctatcc cattacggtc aatccgccgt ttgttcccac ggagaatccg 360

acgggttgtt actcgctcac atttaatgtt gatgaaagct ggctacagga aggccagacg 420

cgaattattt ttgatggcgt 440

<210> 47

<211> 180

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(180)

<223> sgRNA序列

<400> 47

uauuacgcca gcuggcgaaa guuuuaguuc uauguuggau auugauaaac ugauacgaaa 60

uugucaguuu aucaauaucc aacaauaguu cuaagauaag gccuuaugug ccguagggua 120

uagcgguauc ccgaacaauu ccgcugcuuu gaguauuaag cugcuacauc auguagcagc 180

<210> 48

<211> 20

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(20)

<223> 指导序列

<400> 48

uauuacgcca gcuggcgaaa 20

<210> 49

<211> 1569

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<221> PEPTIDE

<222> (1)..(1569)

<223> APOBEC-1-Ca2-UGI融合蛋白序列

<400> 49

Met Lys Arg Thr Ala Asp Gly Ser Glu Phe Glu Ser Pro Lys Lys Lys

1 5 10 15

Arg Lys Val Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu

20 25 30

Arg Arg Arg Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg

35 40 45

Glu Leu Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly

50 55 60

Arg His Ser Ile Trp Arg His Thr Ser Gln Asn Thr Asn Lys His Val

65 70 75 80

Glu Val Asn Phe Ile Glu Lys Phe Thr Thr Glu Arg Tyr Phe Cys Pro

85 90 95

Asn Thr Arg Cys Ser Ile Thr Trp Phe Leu Ser Trp Ser Pro Cys Gly

100 105 110

Glu Cys Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg Tyr Pro His Val

115 120 125

Thr Leu Phe Ile Tyr Ile Ala Arg Leu Tyr His His Ala Asp Pro Arg

130 135 140

Asn Arg Gln Gly Leu Arg Asp Leu Ile Ser Ser Gly Val Thr Ile Gln

145 150 155 160

Ile Met Thr Glu Gln Glu Ser Gly Tyr Cys Trp Arg Asn Phe Val Asn

165 170 175

Tyr Ser Pro Ser Asn Glu Ala His Trp Pro Arg Tyr Pro His Leu Trp

180 185 190

Val Arg Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro

195 200 205

Pro Cys Leu Asn Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe

210 215 220

Thr Ile Ala Leu Gln Ser Cys His Tyr Gln Arg Leu Pro Pro His Ile

225 230 235 240

Leu Trp Ala Thr Gly Leu Lys Ser Gly Gly Ser Ser Gly Gly Ser Ser

245 250 255

Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser

260 265 270

Gly Gly Ser Ser Gly Gly Ser Val Asp Lys Arg Lys Ile Gly Ile Gly

275 280 285

Leu Asp Val Gly Ile Gly Ser Val Gly Phe Ala Val Leu Ser Tyr Asp

290 295 300

Lys Val Tyr Asp Ala Arg Ile Glu Gln Val Gly Val Arg Leu Phe Asp

305 310 315 320

Ser Gly Glu Glu Pro Lys Thr Lys Val Ser Lys Asn Gln Gly Arg Arg

325 330 335

Gln Tyr Arg Ala Gly Arg Arg Leu Ile Arg Arg Arg Tyr His Arg Lys

340 345 350

Glu Arg Ala Lys Arg Phe Ile Glu Arg Ile Gly Leu Leu Ser Ala Asp

355 360 365

Lys Ile Lys Glu Trp Gln Glu Val Asn Gly Asn Gln Asn Ile Tyr Tyr

370 375 380

Val Arg Phe Arg Gly Leu Ser Glu Lys Leu Thr Pro Gln Glu Ile Ala

385 390 395 400

Asp Cys Val Ile His Phe Cys Asn His Arg Gly Tyr Arg Glu Phe Tyr

405 410 415

Glu Asp Asp Val Ala Asp Glu Lys Glu Ala Gly Lys Ile Lys Thr Ala

420 425 430

Leu Ser Arg Phe Asp Glu Lys Met Ala Ala Gly Lys Tyr Val Ser Val

435 440 445

Ala Asp Met Ile Leu His Asp Asn Glu Phe Ser Thr Asn Thr Gln Phe

450 455 460

Pro Asp Phe His Asn His Lys Gly Asp Asp Asp Glu Lys Tyr Phe Leu

465 470 475 480

Ile Lys Arg Ala Ala Leu Arg Asp Glu Leu Arg Ala Ile Leu Arg Lys

485 490 495

Gln Gln Glu Phe Tyr Glu Gln Leu Thr Glu His Asn Ile Asp Phe Leu

500 505 510

Cys Asp Asp Ile Val Phe Val Gln Arg Asp Phe Glu Asp Gly Pro Gly

515 520 525

Asp Lys Thr Asp Lys Lys Arg Lys Phe Met Gly Phe Leu Asp Ser Ile

530 535 540

Gly Cys Cys Met Phe Tyr Lys Glu Glu Val Arg Gly Tyr Arg Ser Thr

545 550 555 560

Val Ile Ala Asp Ile Tyr Ser Leu Val Asn Gly Leu Ser Lys Met Met

565 570 575

Tyr Val Asp Ser Thr Thr Gly Glu Ile Thr Phe Leu Pro Glu Ala Ala

580 585 590

Asp Lys Ile Ile Asp Phe Ala Leu Lys Asn Ala Ser Ile Thr Glu Lys

595 600 605

Asp Ile Lys Glu Ile Leu Lys Lys Tyr Asn Leu Thr Leu Ile Lys Ala

610 615 620

Glu Lys Leu Glu Glu Asn Ile Pro Gln Thr Ile Lys Thr Leu Lys Ile

625 630 635 640

Leu Lys Lys Ile Leu Asp Asp Ser Gly Tyr Ser Tyr Asp Glu Leu Ile

645 650 655

Lys Glu Glu Gln Phe Asp Phe Asp Arg Pro Ser Lys Leu His Glu Leu

660 665 670

Cys Ser Leu Leu Ala Ser Asn Ile Thr Pro Lys Arg Arg Arg Lys Ala

675 680 685

Leu Glu Lys Ala Gly Trp Asn Lys Ala Leu Gln Glu Gln Thr Arg Arg

690 695 700

Ile His Phe Gly Gly Thr Ser Asn Val Cys Tyr Arg Tyr Met Leu Glu

705 710 715 720

Ala Ile Asp Ala Phe Arg His Gly Glu Leu Tyr Gly Asn Phe Gln Ala

725 730 735

Arg Arg Asn Lys Glu Gln Leu Thr Asp Glu Ala Glu Asn Thr Glu Lys

740 745 750

Val Arg Leu Leu Pro Pro Phe Thr Lys Glu Met Asp Glu Asp Val Val

755 760 765

Lys Asn Val Val Val Phe Lys Ala Ile Asn Glu Thr Arg Lys Ile Ile

770 775 780

Asn Ala Leu Ile Gly Lys Tyr Gly Ser Pro Ala Tyr Ile Asn Ile Glu

785 790 795 800

Val Ala Asp Glu Leu Gly His Ser Ile Glu Thr Arg Arg Lys Met Thr

805 810 815

Lys Ala Asn Asn Glu Lys Met Lys Lys Lys Glu Ala Ile Ser Thr Lys

820 825 830

Leu Val Glu Leu Gly Leu Arg Lys Glu Gly Glu Val Ser Gly Lys Asp

835 840 845

Ile Ala Arg Tyr Arg Leu Trp Glu Gln Gln Asp Gly Ile Asp Leu Tyr

850 855 860

Thr Gly Glu Asn Ile Pro Glu Ala Asp Val Leu Ser Gly Gln Tyr Asp

865 870 875 880

Ile Asp His Ile Ile Pro Phe Ser Leu Ile Leu Asp Asp Thr Leu Asn

885 890 895

Asn Lys Val Leu Thr Gly Met Gly Ser Asn Arg Gln Ala Lys Ser Asn

900 905 910

Lys Ala Pro Arg Glu Tyr Leu Ser Asp Lys Ala Glu Leu Glu Phe Ile

915 920 925

Lys Arg Val Asn Ile Leu Leu Lys Lys Lys Ile Ile Ser Lys Lys Lys

930 935 940

Tyr Lys Tyr Leu Met Val Lys Asn Leu Arg Asp Ser Lys Leu Leu Asp

945 950 955 960

Glu Trp Lys Ser Arg Asn Ile Asn Asp Thr Arg Tyr Ile Ser Arg Phe

965 970 975

Leu Val Asn Tyr Leu Asn Asn Met Leu Leu Phe Asn Ser Asp Lys Lys

980 985 990

Lys Asn Val Tyr Ala Ile Asn Gly Ala Ile Thr Ser Lys Met Arg Lys

995 1000 1005

Leu Trp Leu Asn Lys Arg Thr Trp Gly Thr Pro Glu Lys Asn Arg Glu

1010 1015 1020

Asn Asn Leu His His Ala Ala Asp Ala Ile Val Ile Ala Asn Leu Thr

1025 1030 1035 1040

Pro Ala Ala Val Glu Leu Ala Ser Asp Asn Leu Lys Leu Gln Asn Ile

1045 1050 1055

Phe Arg Gln Asn Gly Lys Arg Val Thr Glu Glu Tyr Asp Asn Tyr Leu

1060 1065 1070

Asp Lys Ala Val Arg Lys Met Glu Lys Tyr Tyr His Leu Asn Glu Glu

1075 1080 1085

Leu Ala Lys Asn Leu Leu Val Arg Lys Asp Arg Ile Pro Ser Met Val

1090 1095 1100

Arg Ser Leu Arg Glu Glu Thr Asp Lys Arg Leu Val Asp Thr Ser Leu

1105 1110 1115 1120

Glu Glu Phe Asn Met Val Thr Pro Glu Ala Phe Arg Lys Asn Leu Glu

1125 1130 1135

Gln Tyr Tyr Asn Asp Ser Asp Phe Val Ala Ser Ile Gln Met Pro Leu

1140 1145 1150

Val Ser Tyr Lys Gln Ser Lys Arg Phe Ser Gly Ser Phe Thr Lys Asp

1155 1160 1165

Asn Pro Ile Lys Lys Lys Asp Lys Glu Asp Ser Ser Ser Val Lys Met

1170 1175 1180

Asp Ser Leu Gly Asn Glu Asn Ile Leu Asp Ala Lys Ser Tyr Tyr Cys

1185 1190 1195 1200

Leu Glu Val Tyr Ser Thr Lys Asp Asn Lys Thr Ala Leu Arg Gly Leu

1205 1210 1215

Arg Tyr Val Asp Phe Lys Leu Lys Asn Lys Lys Met Phe Ile Asn Val

1220 1225 1230

Pro Asn Pro Asp Asn Tyr Asp Lys His Ile Met Tyr Leu Phe Lys Asn

1235 1240 1245

Asp Tyr Ile Val Val Tyr Asn Lys Lys Gly Glu Glu Arg Ile Lys Gly

1250 1255 1260

Tyr Tyr Thr Gly Ile Lys Asn Ile Lys Ala Asn Arg Phe Tyr Leu Ile

1265 1270 1275 1280

Ser Asn Asn Asp Ala Val Arg Lys Asp Phe Thr Leu Ser Lys Asp Asp

1285 1290 1295

Thr Ile Lys Lys Tyr His Ile Asp Ile Leu Gly Gln Ile Gly Gly Glu

1300 1305 1310

Val Lys Cys Ser Ala Pro Phe Leu Ser Ile Thr Glu Lys Glu Ser Gly

1315 1320 1325

Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Thr Asn

1330 1335 1340

Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu Val Ile Gln

1345 1350 1355 1360

Glu Ser Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val Ile Gly Asn

1365 1370 1375

Lys Pro Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp Glu Ser Thr

1380 1385 1390

Asp Glu Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu Tyr Lys Pro

1395 1400 1405

Trp Ala Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys Ile Lys Met

1410 1415 1420

Leu Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Thr Asn Leu Ser Asp

1425 1430 1435 1440

Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu Val Ile Gln Glu Ser Ile

1445 1450 1455

Leu Met Leu Pro Glu Glu Val Glu Glu Val Ile Gly Asn Lys Pro Glu

1460 1465 1470

Ser Asp Ile Leu Val His Thr Ala Tyr Asp Glu Ser Thr Asp Glu Asn

1475 1480 1485

Val Met Leu Leu Thr Ser Asp Ala Pro Glu Tyr Lys Pro Trp Ala Leu

1490 1495 1500

Val Ile Gln Asp Ser Asn Gly Glu Asn Lys Ile Lys Met Leu Ser Gly

1505 1510 1515 1520

Gly Ser Lys Arg Thr Ala Asp Gly Ser Glu Phe Pro Lys Lys Lys Arg

1525 1530 1535

Lys Val Gly Ser Gly Ser Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly

1540 1545 1550

Gln Ala Lys Lys Lys Lys Leu Glu Tyr Pro Tyr Asp Val Pro Asp Tyr

1555 1560 1565

Ala

<210> 50

<211> 7730

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(7730)

<223> 质粒CBE-Ca2-LacZgRNA02

<400> 50

catgattcct tcatatttgc atatacgagc ggccgccata gtacgcgccc tgtagcggcg 60

cattaagcgc ggcgggtgtg gtggttacgc gcagcgtgac cgctacactt gccagcgcct 120

tagcgcccgc tcctttcgct ttcttccctt cctttctcgc cacgttcgcc ggctttcccc 180

gtcaagctct aaatcggggg ctccctttag ggttccgatt tagtgcttta cggcacctcg 240

accccaaaaa acttgatttg ggtgatggtt cacgtagtgg gccatcgccc tgatagacgg 300

tttttcgccc tttgacgttg gagtccacgt tctttaatag tggactcttg ttccaaactg 360

gaacaacact caactctatc tcgggctatt cttttgattt ataagggatt ttgccgattt 420

cggtctattg gttaaaaaat gagctgattt aacaaaaatt taacgcgaat tttaacaaaa 480

tattaacgtt tacaatttta tggtgcactc tcagtacaat ctgctctgat gccgcatagt 540

taagccagcc ccgacacccg ccaacacccg ctgacgcgcc ctgacgggct tgtctgctcc 600

cggcatccgc ttacagacaa gctgtgaccg tctccgggag ctgcatgtgt cagaggtttt 660

caccgtcatc accgaaacgc gcgagacgaa agggcctcgt gatacgccta tttttatagg 720

ttaatgtcat gataataatg gtttcttaga cgtcaggtgg cacttttcgg ggaaatgtgc 780

gcggaacccc tatttgttta tttttctaaa tacattcaaa tatgtatccg ctcatgagac 840

aataaccctg ataaatgctt caataatatt gaaaaaggaa gagtatgagt attcaacatt 900

tccgtgtcgc ccttattccc ttttttgcgg cattttgcct tcctgttttt gctcacccag 960

aaacgctggt gaaagtaaaa gatgctgaag atcagttggg tgcacgagtg ggttacatcg 1020

aactggatct caacagcggt aagatccttg agagttttcg ccccgaagaa cgttttccaa 1080

tgatgagcac ttttaaagtt ctgctatgtg gcgcggtatt atcccgtatt gacgccgggc 1140

aagagcaact cggtcgccgc atacactatt ctcagaatga cttggttgag tactcaccag 1200

tcacagaaaa gcatcttacg gatggcatga cagtaagaga attatgcagt gctgccataa 1260

ccatgagtga taacactgcg gccaacttac ttctgacaac gatcggagga ccgaaggagc 1320

taaccgcttt tttgcacaac atgggggatc atgtaactcg ccttgatcgt tgggaaccgg 1380

agctgaatga agccatacca aacgacgagc gtgacaccac gatgcctgta gcaatggcaa 1440

caacgttgcg caaactatta actggcgaac tacttactct agcttcccgg caacaattaa 1500

tagactggat ggaggcggat aaagttgcag gaccacttct gcgctcggcc cttccggctg 1560

gctggtttat tgctgataaa tctggagccg gtgagcgtgg aagccgcggt atcattgcag 1620

cactggggcc agatggtaag ccctcccgta tcgtagttat ctacacgacg gggagtcagg 1680

caactatgga tgaacgaaat agacagatcg ctgagatagg tgcctcactg attaagcatt 1740

ggtaactgtc agaccaagtt tactcatata tactttagat tgatttaaaa cttcattttt 1800

aatttaaaag gatctaggtg aagatccttt ttgataatct catgaccaaa atcccttaac 1860

gtgagttttc gttccactga gcgtcagacc ccgtagaaaa gatcaaagga tcttcttgag 1920

atcctttttt tctgcgcgta atctgctgct tgcaaacaaa aaaaccaccg ctaccagcgg 1980

tggtttgttt gccggatcaa gagctaccaa ctctttttcc gaaggtaact ggcttcagca 2040

gagcgcagat accaaatact gttcttctag tgtagccgta gttaggccac cacttcaaga 2100

actctgtagc accgcctaca tacctcgctc tgctaatcct gttaccagtg gctgctgcca 2160

gtggcgataa gtcgtgtctt accgggttgg actcaagacg atagttaccg gataaggcgc 2220

agcggtcggg ctgaacgggg ggttcgtgca cacagcccag cttggagcga acgacctaca 2280

ccgaactgag atacctacag cgtgagctat gagaaagcgc cacgcttccc gaagggagaa 2340

aggcggacag gtatccggta agcggcaggg tcggaacagg agagcgcacg agggagcttc 2400

cagggggaaa cgcctggtat ctttatagtc ctgtcgggtt tcgccacctc tgacttgagc 2460

gtcgattttt gtgatgctcg tcaggggggc ggagcctatg gaaaaacgcc agcaacgcgg 2520

cctttttacg gttcctggcc ttttgctggc cttttgctca catgtcaatt gacattgatt 2580

attgactagt ccgggtttac actttatgct tccggctcgt ataatgtgtg gattttgagt 2640

taggatctaa agaggagaaa accggtgcca ccatgaaacg gacagccgac ggaagcgagt 2700

tcgagtcacc aaagaagaag cggaaagtct cctcagagac tgggcctgtc gccgtcgatc 2760

caaccctgcg ccgccggatt gaacctcacg agtttgaagt gttctttgac ccccgggagc 2820

tgagaaagga gacatgcctg ctgtacgaga tcaactgggg aggcaggcac tccatctgga 2880

ggcacacctc tcagaacaca aataagcacg tggaggtgaa cttcatcgag aagtttacca 2940

cagagcggta cttctgcccc aataccagat gtagcatcac atggtttctg agctggtccc 3000

cttgcggaga gtgtagcagg gccatcaccg agttcctgtc cagatatcca cacgtgacac 3060

tgtttatcta catcgccagg ctgtatcacc acgcagaccc aaggaatagg cagggcctgc 3120

gcgatctgat cagctccggc gtgaccatcc agatcatgac agagcaggag tccggctact 3180

gctggcggaa cttcgtgaat tattctccta gcaacgaggc ccactggcct aggtacccac 3240

acctgtgggt gcgcctgtac gtgctggagc tgtattgcat catcctgggc ctgccccctt 3300

gtctgaatat cctgcggaga aagcagcccc agctgacctt ctttacaatc gccctgcagt 3360

cttgtcacta tcagaggctg ccaccccaca tcctgtgggc cacaggcctg aagtctggag 3420

gatctagcgg aggatcctct ggcagcgaga caccaggaac aagcgagtca gcaacaccag 3480

agagcagtgg cggcagcagc ggcggcagcg tcgacaagag aaagatcggc atcggcctgg 3540

acgtgggcat cggcagcgtg ggcttcgccg tgctgagcta cgacaaggtg tacgacgcca 3600

gaatcgagca ggtgggcgtg agactgttcg acagcggcga ggagcccaag accaaggtga 3660

gcaagaacca gggcagaaga cagtacagag ccggcagaag actgatcaga agaagatacc 3720

acagaaagga gagagccaaa agattcatcg agagaatcgg cctgctgagc gccgacaaga 3780

tcaaggagtg gcaggaggtg aacggcaacc agaacatcta ctacgtgaga ttcagaggcc 3840

tgagcgagaa gctgaccccc caggagatcg ccgactgcgt gatccacttc tgcaaccaca 3900

gaggctacag agagttctac gaggacgacg tggccgacga gaaggaggcc ggcaagatca 3960

agaccgccct gagcagattc gacgagaaga tggccgccgg caagtacgtg agcgtggccg 4020

acatgatcct gcacgacaac gagttcagca ccaacaccca gttccccgac ttccacaacc 4080

acaagggcga cgacgacgag aagtacttcc tgatcaagag agccgccctg agagacgagc 4140

tgagagccat cctgagaaag cagcaggagt tctacgagca gctgaccgag cacaacatcg 4200

acttcctgtg cgacgacatc gtgttcgtgc agagagactt cgaggacggc cccggcgaca 4260

agaccgacaa gaagagaaag ttcatgggct tcctggacag catcggctgc tgcatgttct 4320

acaaggagga ggtgagaggc tacagaagca ccgtgatcgc cgacatctac agcctggtga 4380

acggcctgag caagatgatg tacgtggaca gcaccaccgg cgagatcacc ttcctgcccg 4440

aggccgccga caagatcatc gacttcgccc tgaagaacgc cagcatcacc gagaaggaca 4500

tcaaggagat cctgaagaag tacaacctga ccctgatcaa ggccgagaag ctggaggaga 4560

acatccccca gaccatcaag accctgaaga tcctgaagaa gatcctggac gacagcggct 4620

acagctacga cgagctgatc aaggaggagc agttcgactt cgacagaccc agcaagctgc 4680

acgagctgtg cagcctgctg gccagcaaca tcacccccaa gagaagaaga aaggccctgg 4740

agaaggccgg ctggaacaag gccctgcagg agcagaccag aagaatccac ttcggcggca 4800

ccagcaacgt gtgctacaga tacatgctgg aggccatcga cgccttcaga cacggcgagc 4860

tgtacggcaa cttccaggcc agaagaaaca aggagcagct gaccgacgag gccgagaaca 4920

ccgagaaggt gagactgctg ccccccttca ccaaggagat ggacgaggac gtggtgaaga 4980

acgtggtggt gttcaaggcc atcaacgaga caagaaagat catcaacgcc ctgatcggca 5040

agtacggcag ccccgcctac atcaacatcg aggtggccga cgagctgggc cacagcatcg 5100

agacaagaag aaagatgacc aaggccaaca acgagaagat gaagaagaag gaggccatca 5160

gcaccaagct ggtggagctg ggcctgagaa aggagggcga ggtgagcggc aaggacatcg 5220

ccagatacag actgtgggag cagcaggacg gcatcgacct gtacaccggc gagaacatcc 5280

ccgaggccga cgtgctgagc ggccagtacg acatcgacca catcatcccc ttcagcctga 5340

tcctggacga caccctgaac aacaaggtgc tgaccggcat gggcagcaac agacaggcca 5400

agagcaacaa ggcccccaga gagtacctga gcgacaaggc cgagctggag ttcatcaaga 5460

gagtgaacat cctgctgaag aagaagatca tcagcaagaa gaagtacaag tacctgatgg 5520

tgaagaacct gagagacagc aagctgctgg acgagtggaa gagcagaaac atcaacgaca 5580

ccagatacat cagcagattc ctggtgaact acctgaacaa catgctgctg ttcaacagcg 5640

acaagaagaa gaacgtgtac gccatcaacg gcgccatcac cagcaagatg agaaagctgt 5700

ggctgaacaa gagaacctgg ggcacccccg agaagaacag agagaacaac ctgcaccacg 5760

ccgccgacgc catcgtgatc gccaacctga cccccgccgc cgtggagctg gccagcgaca 5820

acctgaagct gcagaacatc ttcagacaga acggcaagag agtgaccgag gagtacgaca 5880

actacctgga caaggccgtg agaaagatgg agaagtacta ccacctgaac gaggagctgg 5940

ccaagaacct gctggtgaga aaggacagaa tccccagcat ggtgagaagc ctgagagagg 6000

agacagacaa gagactggtg gacaccagcc tggaggagtt caacatggtg acccccgagg 6060

ccttcagaaa gaacctggag cagtactaca acgacagcga cttcgtggcc agcatccaga 6120

tgcccctggt gagctacaag cagagcaaga gattcagcgg cagcttcacc aaggacaacc 6180

ccatcaagaa gaaggacaag gaggacagca gcagcgtgaa gatggacagc ctgggcaacg 6240

agaacatcct ggacgccaag agctactact gcctggaggt gtacagcacc aaggacaaca 6300

agaccgccct gagaggcctg agatacgtgg acttcaagct gaagaacaag aagatgttca 6360

tcaacgtgcc caaccccgac aactacgaca agcacatcat gtacctgttc aagaacgact 6420

acatcgtggt gtacaacaag aagggcgagg agagaatcaa gggctactac accggcatca 6480

agaacatcaa ggccaacaga ttctacctga tcagcaacaa cgacgccgtg agaaaggact 6540

tcaccctgag caaggacgac accatcaaga agtaccacat cgacatcctg ggccagatcg 6600

gcggcgaggt gaagtgcagc gcccccttcc tgagcatcac cgagaaggag agcggcggga 6660

gcggcgggag cggcgggagc ggcgggagcg gggggagcac taatctgagc gacatcattg 6720

agaaggagac tgggaaacag ctggtcattc aggagtccat cctgatgctg cctgaggagg 6780

tggaggaagt gatcggcaac aagccagagt ctgacatcct ggtgcacacc gcctacgacg 6840

agtccacaga tgagaatgtg atgctgctga cctctgacgc ccccgagtat aagccttggg 6900

ccctggtcat ccaggattct aacggcgaga ataagatcaa gatgctgagc ggaggatccg 6960

gaggatctgg aggcagcacc aacctgtctg acatcatcga gaaggagaca ggcaagcagc 7020

tggtcatcca ggagagcatc ctgatgctgc ccgaagaagt cgaagaagtg atcggaaaca 7080

agcctgagag cgatatcctg gtccataccg cctacgacga gagtaccgac gaaaatgtga 7140

tgctgctgac atccgacgcc ccagagtata agccctgggc tctggtcatc caggattcca 7200

acggagagaa caaaatcaaa atgctgtctg gcggctcaaa aagaaccgcc gacggcagcg 7260

aatttcctaa gaaaaaacga aaagttggca gcggaagcaa aaggccggcg gccacgaaaa 7320

aggccggcca ggcaaaaaag aaaaagctcg agtacccata cgatgttcca gattacgctt 7380

gagaattcta gaataacctg aggtaccgtt aacaaataaa acgaaaggct cagtcgaaag 7440

actgggcctt tcgttttatc tgttgtttgc ggtgaacgct ctcgtcgact tgacagctag 7500

ctcagtccta ggtataatac tagttattac gccagctggc gaaagtttta gttctatgtt 7560

ggatattgat aaactgatac gaaattgtca gtttatcaat atccaacaat agttctaaga 7620

taaggcctta tgtgccgtag ggtatagcgg tatcccgaac aattccgctg ctttgagtat 7680

taagctgcta catcatgtag cagctttttt ctcgaggttt aaacagatct 7730

Claims

1.一种CRISPR-CAS复合物，其包括：

(1) Cas9蛋白；和

(2) 向导RNA；

(a) 分离自厚壁菌门(firmicutes)厌氧弧菌属(Anaerovibriosp.)的菌株；

(c) 其序列中包含RuvC结构域和HNH结构域；

(f) 在25℃～55℃能发挥(d)中任一项功能。

2.如权利要求1所述的CRISPR-CAS复合物，其特征在于，所述Cas9蛋白包括选自下组的多肽：

(i) SEQ ID NO: 1所示氨基酸序列的多肽；

(ii)与SEQ ID NO:1所示多肽有至少90%序列同一性的多肽；

(iii)将(i)的多肽的氨基酸序列经过一个或多个氨基酸残基的取代、缺失或添加而形成的，且具有(i)多肽的功能的多肽；

(v) (i)～(iv)任一所述多肽的N或C末端添加包括标签序列、定位序列，或在其N或C末端添加信号肽序列后形成的多肽。

3.如权利要求1所述的CRISPR-CAS复合物，其特征在于，所述Cas9蛋白为Cas9-nickase，所述Cas9-nickase为所述Cas9蛋白的变体，所述Cas9-nickase在向导RNA引导下能与靶核酸序列结合并切割靶核酸的单链。

4.如权利要求1所述的CRISPR-CAS复合物，其特征在于，所述Cas9蛋白为dCas9，所述dCas9为所述Cas9蛋白的变体，其包含失活的RuvC结构域和失活的HNH结构域、或其核酸切割功能降低或丧失，其在向导RNA引导下能与靶核酸序列结合。

5.如权利要求1所述的CRISPR-CAS复合物，其特征在于，所述向导RNA包含指导序列、同向重复序列和tracrRNA序列，所述指导序列与靶序列互补，所述tracrRNA可与Cas9蛋白和同向重复序列相互作用。

6.如权利要求5所述的CRISPR-CAS复合物，所述tracrRNA与同向重复序列连接成为向导RNA的骨架序列，所述骨架序列的长度范围为≤190nt、≤100nt、≤110nt、≤120nt、≤130nt、≤140nt、≤150nt、≤160nt、≤170nt或≤180nt。

7.如权利要求5所述的CRISPR-CAS复合物，所述向导RNA包含≤3个茎环结构。

8.如权利要求7所述的CRISPR-CAS复合物，其特征在于，所述向导RNA具有SEQ ID NO:3所示的核苷酸序列或其截短体。

9.如权利要求1所述的CRISPR-CAS复合物，其特征在于，所述Cas9蛋白在25℃～55℃能发挥以下任一项功能：与向导RNA形成复合物，在向导RNA引导下结合靶核酸或在向导RNA引导下切割或修饰靶核酸。

10.如权利要求1所述的CRISPR-CAS复合物，其特征在于，所述Cas9蛋白识别的PAM序列为5’-DDRGDNN-3’，其中D为A、G或T，R为A或G，N为A、C、G或T。

11.一种分离的Cas9蛋白，所述Cas9蛋白具有选自以下(a)-(f)中任一项的特征或所述特征的任意组合：

(a) 分离自厚壁菌门(firmicutes) 厌氧弧菌属(Anaerovibriosp.)的菌株；

(c) 其序列中包含RuvC结构域和HNH结构域；

(f) 在25℃～55℃能发挥(d)中任一项功能。

12.如权利要求11所述的Cas9蛋白，其特征在于，所述Cas9蛋白包括选自下组的多肽：

(i) SEQ ID NO: 1所示氨基酸序列的多肽；

(ii)与SEQ ID NO:1所示多肽有至少90%序列同一性的多肽；

13.如权利要求11所述的Cas9蛋白，其特征在于，所述Cas9蛋白为Cas9-nickase，所述Cas9-nickase为所述Cas9蛋白的变体，其在向导RNA引导下能与靶核酸序列结合并切割靶核酸的单链。

14.如权利要求11所述的Cas9蛋白，其特征在于，所述Cas9蛋白为dCas9，所述dCas9为所述Cas9蛋白的变体，其包含失活的RuvC结构域和失活的HNH结构域、或其核酸切割功能降低或丧失，其在向导RNA引导下能与靶核酸序列结合。

15.如权利要求11所述的Cas9蛋白，其特征在于，所述向导RNA包含指导序列、同向重复序列和tracrRNA序列，所述指导序列与靶序列互补，所述tracrRNA可与Cas9蛋白和DR序列相互作用。

16.如权利要求11所述的Cas9蛋白，其特征在于，所述向导RNA包含≤3个茎环结构。

17.如权利要求11所述的Cas9蛋白，其特征在于，所述Cas9蛋白在25℃～55℃能发挥以下任一项功能：与向导RNA形成复合物，在向导RNA引导下结合靶核酸或在向导RNA引导下切割或修饰靶核酸。

18.如权利要求11所述的Cas9蛋白，其特征在于，所述Cas9蛋白识别的PAM序列为5’-DDRGDNN-3’，其中D为A、G或T，R为A或G，N为A、C、G或T。

19.一种融合蛋白，其特征在于，所述融合蛋白包含：权利要求11～18任一所述的Cas9蛋白，以及与之融合的异源功能结构域。

20.如权利要求19所述的融合蛋白，其特征在于，所述异源功能结构域在所述Cas9蛋白的N端、C端或内部进行融合。

21.如权利要求19所述的融合蛋白，其特征在于，所述异源功能结构域任选自：报告蛋白或检测标记、定位信号、脱氨酶、DNA结合域、表位标签、转录激活域、转录抑制域、核酸酶、甲基化酶、脱甲基酶、组蛋白去乙酰化酶、DNA或RNA 连接酶，或以上任意的组合。

22.如权利要求19所述的融合蛋白，其特征在于，所述异源功能结构域任选自：腺苷脱氨酶，胞苷脱氨酶，碱基切除修复抑制剂，核定位信号，核输出信号，或以上任意的组合。

23.如权利要求19所述的融合蛋白，其特征在于，所述异源功能结构域与所述Cas9蛋白之间还包括接头。

24.一种缀合物，其特征在于，所述缀合物包含：权利要求11～18任一所述的Cas9蛋白，以及与之缀合的异源功能部分。

25.如权利要求24所述的缀合物，其特征在于，所述异源功能部分缀合于所述Cas9蛋白的N端、C端或内部。

26.如权利要求24所述的缀合物，其特征在于，所述异源功能部分任选自：报告蛋白或检测标记、定位信号、脱氨酶、DNA结合域、表位标签、转录激活域、转录抑制域、核酸酶、甲基化酶、脱甲基酶、组蛋白去乙酰化酶、DNA或RNA 连接酶、功能性化学分子，或以上任意的组合。

27.一种向导RNA，其引导权利要求11～18任一所述的Cas9蛋白结合至靶序列，所述向导RNA包含指导序列、同向重复序列和tracrRNA序列，所述指导序列与靶序列互补，所述tracrRNA可与所述Cas9蛋白和同向重复序列相互作用。

28.如权利要求27所述的向导RNA，所述tracrRNA与同向重复序列连接成为gRNA的骨架序列，所述骨架序列的长度范围为20nt-190nt。

29.如权利要求27所述的向导RNA，其包含≤3个茎环结构。

30.如权利要求27所述的向导RNA，其特征在于，茎环1的茎部具有8～35对碱基对；或茎环2的茎部具有4～12对碱基对；或茎环3的茎部具有3～10对碱基对；或双链体1具有4～11对碱基对；或凸起1具有2-8个非互补碱基；或茎环1的环部具有4～12个非互补碱基；或茎环2的环部具有2～10个非互补碱基；或茎环3的环部具有6～20个非互补碱基。

31.如权利要求27所述的向导RNA，其特征在于，所述向导RNA具有SEQ ID NO: 3所示的核苷酸序列或其截短体。

32.分离的多核苷酸，其编码权利要求11～18任一所述的Cas9蛋白、权利要求19～23任一所述的融合蛋白或权利要求24～26任一所述的缀合物的蛋白质部分。

33.如权利要求32所述的多核苷酸，其特征在于，所述Cas9蛋白的多核苷酸具有SEQ IDNO: 2所示的核苷酸序列，或与其简并的序列。

34.一种重组载体，它含有

(a)权利要求32或33所述的多核苷酸，

(b)编码权利要求27～31任一所述向导RNA的多核苷酸，或

(a)与(b)的组合。

35.如权利要求34所述的重组载体，其特征在于，所述多核苷酸还与启动子、增强子和/或终止子可操作地连接。

36.如权利要求34所述的重组载体，其特征在于，该载体包括：病毒载体或非病毒载体。

37.一种重组细胞，它含有权利要求34～36任一所述的重组载体。

38.一种制备权利要求11～18任一所述的Cas9蛋白、权利要求19～23任一所述的融合蛋白或权利要求24～26任一所述的缀合物的蛋白部分的方法，包括：培养权利要求37所述的重组细胞，从培养物中分离出所述的Cas9蛋白、融合蛋白或缀合物的蛋白部分。

39.权利要求11～18任一所述的Cas9蛋白、权利要求19～23任一所述的融合蛋白或权利要求24～26任一所述的缀合物或权利要求1～10任一所述CRISPR-CAS复合物的用途，用于结合、切割或修饰靶核酸序列，或用于制备结合、切割或修饰靶核酸序列的试剂。

40.如权利要求39所述的用途，其特征在于，所述Cas9蛋白、融合蛋白或缀合物与向导RNA形成复合物，针对靶核酸序列的特定位点进行核酸序列结合、切割或修饰。

41.如权利要求39所述的用途，其特征在于，所述Cas9蛋白为Cas9核酸酶，其用于切割靶核酸序列，或用于制备切割靶核酸序列的试剂；或

所述Cas9蛋白为Cas9-nickase，其用于结合或切割靶核酸序列，或用于制备结合或切割靶核酸序列的试剂；或

所述Cas9蛋白为dCas9，其用于调控靶核酸的转录激活或转录抑制，或用于制备调控靶核酸的转录激活或转录抑制的试剂。

42.如权利要求39所述的用途，其特征在于，所述靶核酸在细胞内。

43.一种递送系统，其特征在于，其包含：递送载体；以及，权利要求11～18任一所述的Cas9蛋白、权利要求19～23任一所述的融合蛋白或权利要求24～26任一所述的缀合物、权利要求1～10任一所述的CRISPR-CAS复合物或权利要求34～36任一所述的载体。

44.一种结合、切割或修饰靶核酸的方法，其特征在于，所述方法包括：使得权利要求1～10任一所述的CRISPR-CAS复合物结合至靶核酸、切割靶核酸或修饰靶核酸。

45.如权利要求44所述的方法，其特征在于，所述靶核酸在细胞内。

46.如权利要求44所述的方法，其特征在于，通过直接引入的方式将所述的CRISPR-CAS复合物引入细胞，结合至靶核酸；或

将编码所述CRISPR-CAS复合物的多核苷酸或含有该多核苷酸的表达构建体转化细胞，在细胞内表达并形成所述CRISPR-CAS复合物，结合至靶核酸。

47.如权利要求44所述的方法，其特征在于，所述方法在25℃～55℃进行。

48.一种检测待测样品中靶核酸存在情况的方法，其特征在于，包括使得权利要求1～10任一所述的CRISPR-CAS复合物与靶核酸结合；所述CRISPR-CAS复合物包括：权利要求19～23任一所述的融合蛋白或权利要求24～26任一所述的缀合物；所述融合蛋白或缀合物含有Cas9蛋白且含有可检测标记；其中当CRISPR-CAS复合物与靶核酸结合时，含有Cas9蛋白的融合蛋白或缀合物结合、切割或修饰靶核酸，通过观测可检测标记的存在情况来分析待测样品中靶核酸存在情况。

49.一种组合物，其特征在于，其包括：权利要求11～18任一所述的Cas9蛋白、权利要求19～23任一所述的融合蛋白、权利要求24～26任一所述的缀合物、权利要求1～10任一所述的CRISPR-CAS复合物、权利要求34～36任一所述的载体或权利要求43所述的递送系统。

50.一种试剂盒或药盒，其特征在于，其中包括：权利要求11～18任一所述的Cas9蛋白、权利要求19～23任一所述的融合蛋白、权利要求24～26任一所述的缀合物、权利要求1～10任一所述的CRISPR-CAS复合物、权利要求34～36任一所述的载体、权利要求43所述的递送系统，或权利要求49所述的组合物。