CN107522787A

CN107522787A - 在细胞内产生点突变的融合蛋白、其制备及用途

Info

Publication number: CN107522787A
Application number: CN201710451424.3A
Authority: CN
Inventors: 常兴
Original assignee: Shanghai Institutes for Biological Sciences SIBS of CAS
Current assignee: Shanghai Institutes for Biological Sciences SIBS of CAS
Priority date: 2016-06-15
Filing date: 2017-06-15
Publication date: 2017-12-29
Also published as: WO2017215619A1; CN114380922A

Abstract

本发明涉及在细胞内产生点突变的融合蛋白、其制备及用途。具体而言，本发明提供的融合蛋白含有胞嘧啶脱氨酶和核酸酶活性缺失、保留了解旋酶活性的Cas酶，或由胞嘧啶脱氨酶和核酸酶活性缺失、保留了解旋酶活性的Cas酶形成。本发明还涉及所述融合蛋白的编码序列，含所述编码序列的多核苷酸序列，含所述多核苷酸序列的核酸构建物，相应的宿主细胞，在细胞内产生点突变的方法，以及试剂盒等。采用本发明，能实现定点突变的同时，在特定的基因区获得高的突变效率和多种突变组合。

Description

在细胞内产生点突变的融合蛋白、其制备及用途

技术领域

本发明涉及在细胞内产生点突变的融合蛋白、其制备及用途。

背景技术

基因型与表型间存在密切关系。自然界中，自发突变会引起基因型的改变，从而产生多种表型。实验室中，仍然通过突变，使基因多样化，产生多种表型，从而筛选出功能突变体，研究基因与功能的相关，获得功能更强的蛋白质。自然界中，自发突变频率极低。常见生物中，人类基因组的自发突变率为5.0×10^-10，小鼠基因组自发突变率为1.8×10^-10，大肠杆菌基因组的自发突变率为5.4×10^-10，HIV的自发突变率为3×10^-5，随着生物基因组的减小，生物体的自发突变频率增高〔Holmes E C.The comparative genomics of viralemergence[J].Proceedings of the National Academy of Sciences,2010,107(4):1742-1746〕。但这种低水平的基因突变频率不能产生足够数量的表型，用以研究基因、表型与功能的关系。

为了提高基因突变频率，实验室现有手段主要分体内突变方法和体外突变方法。体内点突变方法：1.物理方法：紫外辐射，突变频率为1×10^-10〔Packer M S,Liu DR.Methods for the directed evolution of proteins[J].Nature Reviews Genetics,2015〕。2.化学方法：ENU是一种烷化剂，将乙基转移到DNA的氧和氮原子上，引起错配，碱基置换或者缺失，突变频率为1-1.5×10^-5〔FILBY.ZEBRAFISH:METHODS ANDPROTOCOLS.METHODS IN MOLECULAR BIOLOGY‐By G.J.Lieschke,A.C Oates andK.Kawakami.[J].Journal of Fish Biology,2010,76(7):1874-1876〕。虽然ENU易于获得，但它对光、热、PH都很敏感，限制了它的应用。这两种方法均可以通过剂量改变其突变频率，但引起的点突变是随机的，突变频率低，突变图谱不均一，对生物体有害〔Guénet JL.Chemical mutagenesis of the mouse genome:an overview[J].Genetica,2004,122(1):9-24〕。3.生物方法：转座子，染色体DNA上可自主复制和位移的基本单位，可引起插入突变，可以通过基因的插入导致基因敲除，基因激活，并可以通过选择不同载体来选择不同的插入位点，但其突变亲率比ENU低，在每一细胞周期中，只能发生3×10^-5插入事件，并且需要host同时表达转座酶来完成转座〔Kitada K,Ishishita S,Tosaka K,etal.Transposon-tagged mutagenesis in the rat.[J].Nature Methods,2007,4(2):131-133〕。

而在免疫系统，生发中心的B细胞，可以通过体细胞高频突变产生多样性抗体，抵抗病原的入侵〔Odegard V H,Schatz D G.Targeting of somatic hypermutation.[J].Nature Reviews Immunology,2006,6(8):573-583〕。体细胞高频突变指的是免疫球蛋白重轻链可变区的非模板点突变，与B细胞亲和成熟有关〔Odegard V H等，同前〕。而介导这一过程重要的酶是激活诱导的胞嘧啶脱氨酶(activation induced cytosine deaminase，AID)。AID是一种胞嘧啶脱氨酶，属于APOBEC家族，一种RNA编辑酶家族：N端有核定位信号，C端有核输出信号，其催化结构域为APOBEC家族所共有〔Zhenming X,Hong Z,Pone E J,etal.Immunoglobulin class-switch DNA recombination:induction,targeting andbeyond.[J].Nature Reviews Immunology,2012,12(7):517-31〕。一般认为N端结构为SHM所必须。AID的表达局限于生发中心的B细胞，其发挥点突变功能是有条件的，必须作用于单链的DNA,并且具有序列偏好性，hotspot结构域为RGYW〔Kiyotsugu Y,Il-Mi O,TomonoriE,et al.AID Enzyme-Induced Hypermutation in an Actively Transcribed Gene inFibroblasts[J].Science,2002,296(5575):2033-2036〕。R代表A/G，Y代表C/T，W代表A/T，可见AID发挥功能与DNA的一级结构有关。首先将单链DNA上的胞嘧啶脱氨基变为U,形成U-G错配，如果U-G未修复，在DNA复制过程中会形成C-T G-A的转换突变。此外，U可被UNG(尿嘧啶DNA糖苷酶)切除，形成无嘧啶位点，将四种碱基随机参入〔Odegard V H等，同前〕。以上过程产生的点突变对于体细胞高频突变意义重大，可以产生多样性的抗体。但其在体内引起的点突变频率为1×10^-4-1×10^-3，且位点具有随机性〔Masatoshi A,Nesreen H,Andre S,et al.Accumulation of the FACT complex,as well as histone H3.3,serves as atarget marker for somatic hypermutation.[J].Proceedings of the NationalAcademy of Sciences of the United States of America,2013,110(19):7784-7789〕，仍无法满足实验筛选突变体所需。

发明内容

本文第一方面提供一种融合蛋白，所述融合蛋白含有胞嘧啶脱氨酶和核酸酶活性缺失、保留了解旋酶活性的Cas酶。

在一个或多个实施方案中，所述融合蛋白由胞嘧啶脱氨酶和核酸酶活性缺失、保留了解旋酶活性的Cas酶形成。

在一个或多个实施方案中，所述Cas酶选自：Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(也称为Csn1和Csx12)、Cas10、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4、其同源物或其修饰形式。

在一个或多个实施方案中，所述Cas酶的核酸酶活性部分缺失，使得所述Cas酶仅能造成DNA单链断裂；或所述Cas酶的核酸酶活性全部缺失，能引起DNA双链断裂。

在一个或多个实施方案中，所述Cas酶为Cas9酶，选自：来自化脓链球菌的Cas9(SpCas9)、来自金黄色葡萄球菌的Cas9(SaCas9)，以及来自嗜热链球菌的Cas9(St1Cas9)。

在一个或多个实施方案中，所述Cas酶为Cas9酶，该酶的两个核酸内切酶催化结构域RuvC1和/或HNH发生突变，导致该酶核酸酶活性缺失、保留了解旋酶活性。

在一个或多个实施方案中，所述Cas9酶的RuvC1和HNH都发生突变，导致该酶核酸酶活性缺失、保留了解旋酶活。

在一个或多个实施方案中，所述Cas9酶的第10个氨基酸天冬酰胺突变为丙氨酸或其它氨基酸，第841位氨基酸组氨酸突变为丙氨酸或其它氨基酸。

在一个或多个实施方案中，所述Cas9酶的氨基酸序列如SEQ ID NO:2第42－1452所示，或如SEQ ID NO:72第42-1419位氨基酸残基所示。

在一个或多个实施方案中，所述胞嘧啶脱氨酶为全长胞嘧啶脱氨酶或其片段，其中所述片段至少包括胞嘧啶脱氨酶的NLS结构域、催化结构域和APOBEC样结构域。

在一个或多个实施方案中，所述胞嘧啶脱氨酶在第10位、82位和156位氨基酸残基发生取代突变。

在一个或多个实施方案中，所述取代突变为K10E、T82I和E156G。

在一个或多个实施方案中，所述片段至少包含AID的第9－182位氨基酸残基，例如至少包含AID第1－182位氨基酸残基。

在一个或多个实施方案中，所述胞嘧啶脱氨酶的氨基酸序列如SEQ ID NO:2第1457－1654位氨基酸所示，或如SEQ ID NO:68第1447-1629位氨基酸残基所示。

在一个或多个实施方案中，所述片段至少包含SEQ ID NO:2的第1465－1638位氨基酸残基，例如至少包含SEQ ID NO:2第1457－1638位氨基酸残基。

在一个或多个实施方案中，所述片段由第1－182位氨基酸残基组成，由第1－186位氨基酸残基组成，或由第1－190位氨基酸残基组成。

在一个或多个实施方案中，所述融合蛋白还包含以下序列中的一种或多种：接头，核定位序列，以及为了构建融合蛋白、促进重组蛋白的表达、获得自动分泌到宿主细胞外的重组蛋白、或利于重组蛋白的纯化而引入的氨基酸残基或氨基酸序列。

在一个或多个实施方案中，所述融合蛋白的氨基酸序列如SEQ ID NO:2、4、66、68、70或72所示，或如SEQ ID NO:2第26－1654位氨基酸所示，或如SEQ ID NO:4第26－1638位所示，或如SEQ ID NO:68第26－1629位氨基酸所示，或如SEQ ID NO:70第26－1629位氨基酸所示，或如SEQ ID NO:72第26－1638位氨基酸所示。

本文第二方面提供一种多核苷酸序列，选自：

(1)编码本文第一方面所述的融合蛋白的多核苷酸序列；和

(2)(1)所述序列的互补序列。

本发明第三方面提供核酸构建物，所述核酸构建物含有本文第二方面所述的多核苷酸序列。

在一个或多个实施方案中，所述核酸构建物是表达载体，用于在宿主细胞中表达本文所述的融合蛋白。

本发明第四方面提供一种宿主细胞，所述宿主细胞含有本文所述的融合蛋白、其编码序列或核酸构建物。

本文第五方面提供一种在细胞内产生点突变的方法，所述方法包括在所述细胞中表达本文所述的融合蛋白和sgRNA的步骤。

在一个或多个实施方案中，所述方法包括将本文所述的融合蛋白或其表达载体和sgRNA或其表达载体转入所述细胞内，然后筛选获得所需要的突变核酸序列的步骤。

在一个或多个实施方案中，所述sgRNA包括靶标结合区和Cas蛋白识别区，所述靶标结合区能特异性结合待突变的核酸序列，所述Cas蛋白识别区能被所述融合蛋白中的Cas酶识别并结合。

在一个或多个实施方案中，所述sgRNA的靶标结合区与待突变的核酸序列的模板链特异性结合，模板链上sgRNA结合区域的对侧区紧邻该Cas蛋白所识别的前间区序列邻近基序，或隔开10个以内的碱基。

在一个或多个实施方案中，所述待突变的基因编码功能蛋白。

在一个或多个实施方案中，所述功能蛋白包括疾病的发生、发展和转移中涉及的蛋白，细胞分化、增殖与凋亡中涉及的蛋白，参与新陈代谢的蛋白，发育相关的蛋白，以及各种药物靶点等等。

在一个或多个实施方案中，所述功能蛋白选自：抗体、酶、脂蛋白、激素类蛋白、运输和贮存蛋白、运动蛋白、受体蛋白、和膜蛋白。

本发明第六方面提供一种试剂盒，所述试剂盒含有本文所述的融合蛋白、多核苷酸序列或核酸构建物。

本发明第七方面提供本文所述的融合蛋白、多核苷酸序列或核酸构建物在在细胞内产生点突变中的应用，或在制备用于在细胞内产生点突变的组合物或试剂盒中的应用。

附图说明

图1：A和C分别为PCR扩增出的AID(泳道1)及AIDX片段(泳道1)；B为pEntr11-dCas9-AID质粒琼脂糖凝胶图，其中1道为pEntr11空载质粒，2道为pEntr11-dCas9质粒，3-7道为pEntr11-dCas9-AID质粒；D为pEntr11-dCas9-AIDX质粒菌液PCR结果，扩增出的片段是AIDX。D中1-5泳道分别代表5个不同的阳性克隆，6号是空载质粒，作为阴性对照。

图2：A，1道和2道分别为PCR扩增出的dCas9-AID及dCas9-AIDX片段；B，酶切MO91空载质粒，其中1道为BglⅡ单酶切，2道为MO91空载质粒，3道为BglⅡ和XhoⅠ双酶切；C，MO91-dCas9-AIDX质粒菌液PCR结果，扩增出的片段是AIDX；D，MO91-dCas9-AID质粒菌液PCR结果，扩增出的片段是AID。

图3：A，1道为PCR扩增出的3*flag+NLS片段，2道及3道分别为BglⅡ单酶切MO91-dCas9-AID质粒和MO91-dCas9-AIDX质粒，4道为MO91-dCas9-AID质粒对照；B，1-4道为MO91-dCas9(3*flag,NLS)-AID质粒，5道为MO91-dCas9-AID质粒，6-9道为MO91-dCas9(3*flag,NLS)-AIDX质粒。

图4：EGFP报告子的序列，终止密码子以粗体表示。设计的sgRNA用箭头表示。

图5：报告质粒的模式示意图。

图6：流式检测报告细胞系。三条曲线从左到右分别表示未染色对照、报告子阴性细胞和报告子阳性细胞的Thy1.1表达水平。

图7：dCas9-AID，dCas9-AIDX,AID和AIDX点突变效率在报告细胞中的比较。

图8：dCas9-AID点突变效率在报告细胞中的优化。A，dCas9-AID诱导GFP表达；B，不同AID变体的示意图以及其诱导点突变的效率；C，dCas9-AIDX诱导点突变需要AID的胞嘧啶脱氨酶活性。

图9：dCas9-AIDX和AID对EGFP和cMyc基因造成的点突变频率分布。

图10：dCas9-AIDX将C和G碱基随机突变为其他三种碱基。A，碱基突变类型的统计；B，dCas9-AIDX诱导点突变的机制。

图11：UGI提高dCas9-AIDX系统的碱基置换频率，揭示dCas9-AIDX在基因上的作用轨迹，并使碱基突变方向更加单一化。

图12：dCas9-AIDX不仅可以对外源性基因起作用，同时可以作用于内源性基因。

图13：AID的结构功能域。

图14：将dCas9-AIDX应用于K562BCR-ABL基因的Gleevec耐药性筛选的实验过程(a)及结果(b-d)。

图15：TAM(靶向胞嘧啶脱氨酶AID介导基因突变技术)突变抗HEL-IgG1可变区的氨基酸。

图16：TAM诱导抗HEL-IgG1可变区的碱基突变(上图)，且可重复地诱导IgG1CDR的碱基突变(下图)。

图17：突变后的抗体对HEL的亲和力增强了10倍以上。

图18：nCas9-AIDX在细菌中的表达结果。方框框出的条带为nCas9-AIDX融合蛋白的条带。

图19：不同融合蛋白的功能测试结果。对每一组数据，从左到右三根柱子依次代表MO91-AIDX-XTEN-dCas9、MO91-dCas9-XTEN-AIDX和MO91-dCas9-AIDX的结果。

图20：不同融合蛋白的功能测试结果。对每一组数据，从左到右三根柱子依次代表MO91-dCas9-AIDX、MO91-dCas9-XTEN-AIDX(K10E T82I E156G)和MO91-dCas9-XTEN-AIDX的结果。

图21：nCas9-AIDX融合蛋白的功能验证结果。

具体实施方式

本文涉及核酸酶活性缺失的Cas蛋白与胞嘧啶脱氨酶AID或其突变体的融合蛋白。在sgRNA的指引下，所述融合蛋白被招募到特定的DNA序列，AID或其突变体对胞嘧啶脱氨基，产生尿嘧啶，而后在DNA修复过程中，被随机突变成其它碱基，从而在实现定点突变的同时获得高的突变效率。

关于Cas/sgRNA的内容，除本文下文所述外，还可参见CN 201380049665.5和CN201380072752.2，本文将其全部内容以引用的方式纳入本文。

Cas蛋白

CRISPR(Clustered Regularly Interspaced Short Palindromic Repeats)是细菌抵御病毒侵袭或躲避哺乳动物免疫反应的基因编辑系统。该系统经过改造和优化，目前已被广泛应用在体外生化反应、细胞与个体的基因编辑中。

通常，具有核酸内切酶活性的Cas蛋白与其特异性识别的sgRNA形成的复合物通过sgRNA的配对区与靶标DNA中的模板链进行互补配对，由Cas在特定位置将双链DNA切断。应理解，本文中，“Cas蛋白”与“Cas酶”可互换使用。

本文利用Cas/sgRNA的上述特性，即利用sgRNA与靶标的特异性结合而将Cas定位到期望的位置，在该位置由融合蛋白中的AID或其突变体对胞嘧啶脱氨基。适用于本发明的核酸酶活性部分或完全缺失，尤其是核酸内切酶活性部分或完全缺失、但保留了解旋酶活性的Cas蛋白可以衍生自本领域周知的各种Cas蛋白及其变异体，包括但不限于Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(也称为Csn1和Csx12)、Cas10、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4、其同源物或其修饰形式。

在一些实施方案中，使用核酸酶活性缺失的Cas9酶和其特异性识别的单链sgRNA。Cas9酶可以是来自不同物种的Cas9酶，包括但不限于来自化脓链球菌的Cas9(SpCas9)、来自金黄色葡萄球菌的Cas9(SaCas9)，以及来自嗜热链球菌的Cas9(St1Cas9)等。可以使用Cas9酶的各种变体，只要该Cas9酶能特异性识别它的sgRNA，并缺失核酸酶活性即可。

可采用本领域周知的方法制备核酸酶活性缺失的Cas蛋白，这些方法包括但不限于使Cas蛋白中核酸内切酶的整个催化结构域缺失或使该结构域中的一个或数个氨基酸发生突变，从而产生核酸酶活性缺失的Cas蛋白。突变可以是一个或数个(例如2个以上、3个以上、4个以上、5个以上、10个以上，至整个催化结构域)氨基酸残基的缺失或取代，或一个或数个新氨基酸残基(例如1个以上、2个以上、3个以上、4个以上、5个以上、10个以上，或者1～10个、1～15个不等)的插入。可采用本领域常规的方法进行上述结构域的缺失或氨基酸残基的突变，以及检测突变后的Cas蛋白是否还具有核酸酶活性。例如，对于Cas9，可将它的两个核酸内切酶催化结构域RuvC1和HNH分别突变，例如将该酶的第10个氨基酸(位于RuvC1结构域中)天冬酰胺突变为丙氨酸或其它氨基酸，将第841位氨基酸(位于HNH结构域中)组氨酸突变为丙氨酸或其它氨基酸。这两处突变使Cas9失去核酸内切酶活性。优选的是，Cas酶完全无核酸酶活性。在一个或多个实施方案中，本文使用的无核酸酶活性的Cas9酶的氨基酸序列如SEQ ID NO:2第42－1452所示。在其他实施方案中，本文使用的Cas酶部分缺失核酸酶活性，即该Cas酶可引起DNA单链断裂。这类Cas酶的代表性例子可如SEQ ID NO:72第42-1419位氨基酸残基所示。

Cas/sgRNA复合物行使功能需要在DNA的非模板链(3’到5’)有前间区序列邻近基序(protospacer adjacent motif，PAM)。不同Cas酶，其对应的PAM并不完全相同。例如，针对SpCas9的PAM通常是NGG；针对SaCas9酶的PAM通常是NNGRR；针对St1Cas9酶的PAM通常是NNAGAA；其中，N为A、C、T或G，R为G或A。

在某些优选的实施方式中，针对SaCas9酶的PAM是NNGRRT。在某些优选的实施方式中，针对SpCas9的PAM是TGG。

sgRNA

sgRNA通常包括两部分：靶标结合区和Cas蛋白识别区。靶标结合区与Cas蛋白识别区通常以5’到3’的方向连接。

靶标结合区的长度通常为15～25个碱基，更通常为18～22个碱基，如20个碱基。靶标结合区与DNA的模板链特异性结合，从而将融合蛋白招募到预定位点。通常，DNA模板链上sgRNA结合区域的对侧区紧邻PAM，或者隔开数个碱基(例如10个以内，或8个以内，或5个以内)。因此，在设计sgRNA时，通常先根据所用的Cas酶确定该酶的PAM，然后在DNA的非模板链上寻找可作为PAM的位点，之后将该非模板链(3’到5’)PAM位点下游紧邻该PAM位点或与该PAM位点隔开10个以内(例如8个以内、5个以内等)的长15～25个碱基、更通常长18～22个碱基的片段作为sgRNA的靶标结合区的序列。

sgRNA的Cas蛋白识别区则根据所使用的Cas蛋白而确定，这为本领域所技术人员所掌握。

因此，本文的sgRNA的靶标结合区的序列为含所选Cas酶识别的PAM位点的DNA链下游紧邻该PAM位点或与该PAM位点隔开10个以内(例如8个以内、5个以内等)的长15～25个碱基、更通常长18～22个碱基的片段；其Cas蛋白识别区为所选Cas酶所特异性识别。

可采用本领域常规的方法制备sgRNA，例如，采用常规的化学合成方法合成。sgRNA也可经由表达载体转入细胞，在细胞内表达出该sgRNA。可采用本领域周知的方法构建sgRNA的表达载体。

激活诱导的胞嘧啶脱氨酶(AID)

AID是一种胞嘧啶脱氨酶，属于APOBEC家族，一种RNA编辑酶家族：N端有核定位信号，C端有核输出信号，其催化结构域为APOBEC家族所共有。一般认为N端结构为体细胞超变(SHM)所必须。AID的功能是对胞嘧啶脱氨基，将胞嘧啶变成尿嘧啶，随后的DNA修复可以将尿嘧啶变成其它碱基。应理解的是，本领域周知的胞嘧啶脱氨酶或其保留了对胞嘧啶脱氨基、将胞嘧啶变成尿嘧啶的生物学活性的片段或突变体均可用于本文。

如图14显示了AID的结构功能域。其中氨基酸9－26为核定位(NLS)结构域，尤其是氨基酸13－26参与了DNA的结合，氨基酸56－94为催化结构域，氨基酸109－182为APOBEC样结构域，氨基酸193－198为核输出(NES)结构域，氨基酸39－42与连环蛋白样蛋白1(CTNNBL1)相互作用，氨基酸113－123是hotspot识别环。

本文可使用AID的全长序列(如SEQ ID NO:2第1457－1654位氨基酸所示)，也可使用AID的片段。优选的是，所述片段至少包括NLS结构域、催化结构域和APOBEC样结构域。因此，在某些实施方案中，所述片段至少包含AID第9－182位氨基酸残基(即SEQ ID NO:2第1465－1638位氨基酸残基)。在其他实施方案中，所述片段至少包含AID第1－182位氨基酸残基(即SEQ ID NO:2第1457－1638位氨基酸残基)。例如，在某些实施方案中，本文使用的AID片段由第1－182位氨基酸残基组成，由第1－186位氨基酸残基组成，或由第1－190位氨基酸残基组成。因此，在某些实施方案中，本文使用的AID片段由SEQ ID NO:2第1457－1638位氨基酸残基、SEQ ID NO:2第1457－1642位氨基酸残基，或由SEQ ID NO:2第1457－1646位氨基酸残组成。

本文还可使用AID的保留了其胞嘧啶脱氨酶活的变体。例如，这样的变体相当于AID的野生型序列可具有1－10个，如1－8个，1－5个或1－3个氨基酸变异，包括氨基酸的缺失、取代和突变。优选的是，这些氨基酸变异不发生在上述NLS结构域、催化结构域和APOBEC样结构域内，或即便发生在这些结构域内也不影响到这些结构域原本的生物学功能。例如，优选的是，这些变异不发生在AID氨基酸序列的第24、27、38、56、58、87、90、112、140等位置上。在某些实施方案中，这些变异也不发生在氨基酸39－42、氨基酸113－123之内。因此，例如，变异可发生在氨基酸1－8、氨基酸28－37、氨基酸43－55和/或氨基酸183－198之中。在某些实施方案中，变异发生在第10、82和156位。例如，在第10、82和156位发生取代突变，这类取代突变可以是K10E、T82I和E156G。在这些实施方案中，示例性的AID突变体的氨基酸序列含有如SEQ ID NO:68第1447-1629位所示的氨基酸序列，或由如SEQ ID NO:68第1447-1629位所示的氨基酸残基组成。

融合蛋白

本文提供融合蛋白，其含有Cas酶与AID。本文的融合蛋白，Cas酶通常在融合蛋白氨基酸序列的N端，AID在C端。在某些实施方案中，本文提供主要由Cas酶和AID形成的融合蛋白。应理解的是，本文所述的“主要由……形成”的融合蛋白或类似表述并不意指融合蛋白仅包括Cas酶和AID，该限定应理解为融合蛋白可仅包括Cas酶和AID，或还可含有其他不影响到该融合蛋白中的Cas酶的靶向作用及AID突变靶序列的功能的部分，包括但不限于各种接头序列、核定位序列以及如下文所述因基因克隆操作、和/或为了构建融合蛋白、促进重组蛋白的表达、获得自动分泌到宿主细胞外的重组蛋白、或利于重组蛋白的检测和/或纯化等而在融合蛋白中引入的氨基酸序列。

Cas酶可通过接头与AID融合。接头可以是3～25个残基的肽，例如3～15、5～15、10～20个残基的肽。肽接头的适合的实例是本领域中公知的。通常，接头含有一个或多个前后重复的基序，该基序通常含有Gly和/或Ser。例如，该基序可以是SGGS、GSSGS、GGGS、GGGGS、SSSSG、GSGSA和GGSGG。优选地，该基序在接头序列中是相邻的，在重复之间没有插入氨基酸残基。接头序列可以包含1、2、3、4或5个重复基序组成。在某些实施方案中，接头序列是多甘氨酸接头序列。接头序列中甘氨酸的数量无特别限制，通常为2～20个，例如2～15、2～10、2～8个。除甘氨酸和丝氨酸来，接头中还可含有其它已知的氨基酸残基，例如丙氨酸(A)、亮氨酸(L)、苏氨酸(T)、谷氨酸(E)、苯丙氨酸(F)、精氨酸(R)、谷氨酰胺(Q)等。在某些实施方案中，接头序列为XTEN，其氨基酸序列如SEQ ID NO:66第183-198位氨基酸残基所示。

作为例子，接头可由以下氨基酸序列组成：G(SGGGG)₂SGGGLGSTEF(SEQ ID NO:21)、RSTSGLGGGS(GGGGS)₂G(SEQ ID NO:22)、QLTSGLGGGS(GGGGS)₂G(SEQ ID NO:23)、GGGS(SEQ ID NO:24)、GGGGS(SEQ ID NO:25)、SSSSG(SEQ ID NO:26)、GSGSA(SEQ ID NO:27)、GGSGGGGGGSGGGGSGGGGS(SEQ ID NO:28)、SSSSGSSSSGSSSSG(SEQ ID NO:29)、GSGSAGSGSAGSGSA(SEQ ID NO:30)、GGSGGGGSGGGGSGG(SEQ ID NO:31)、SEQ ID NO:72第1420-1456位氨基酸残基等。

应理解，在基因克隆操作中，常常需要设计合适的酶切位点，这势必在所表达的氨基酸序列末端引入了一个或多个不相干的残基，而这并不影响目的序列的活性。为了构建融合蛋白、促进重组蛋白的表达、获得自动分泌到宿主细胞外的重组蛋白、或利于重组蛋白的纯化，常常需要将一些氨基酸添加至重组蛋白的N-末端、C-末端或该蛋白内的其它合适区域内，例如，包括但不限于，适合的接头肽、信号肽、前导肽、末端延伸等。因此，本文融合蛋白的氨基端或羧基端还可含有一个或多个多肽片段，作为蛋白标签。任何合适的标签都可以用于本文。例如，所述的标签可以是FLAG(DYKDDDDK，SEQ ID NO:32)，HA，HA1，c-Myc，Poly-His，Poly-Arg，Strep-TagII，AU1，EE，T7，4A6，ε，B，gE以及Ty1。这些标签可用于对蛋白进行纯化。

本文的融合蛋白还可含有核定位序列(NLS)。可使用本领域周知的各种来源和各种氨基酸组成的核定位序列。这类核定位序列包括但不限于：SV40病毒大T抗原的NLS，其具有氨基酸序列PKKKRKV(SEQ ID NO:33)；来自核质蛋白的NLS，例如，具有序列KRPAATKKAGQAKKKK(SEQ ID NO:34)的核质蛋白二分NLS；来自c-myc的NLS，其具有氨基酸序列PAAKRVKLD(SEQ ID NO:35)或RQRRNELKRSP(SEQ ID NO:36)；来自hRNPA1M9的NLS，其具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:37)；来自输入蛋白-α的IBB结构域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:38)；肌瘤T蛋白的序列VSRKRPRP(SEQ ID NO:39)和PPKKARED(SEQ ID NO:40)；小鼠c-ablIV的序列SALIKKKKKMAP(SEQ ID NO:41)；流感病毒NS1的序列DRLRR(SEQ ID NO:42)和PKQKKRK(SEQID NO:43)；肝炎病毒δ抗原的序列RKLKKKIKKL(SEQ ID NO:44)；小鼠Mx1蛋白的序列REKKKFLKRR(SEQ ID NO:45)；人聚(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK(SEQID NO:46)；以及类固醇激素受体(人)糖皮质激素的序列RKCLQAGMNLEARKTKK(SEQ ID NO:47)；等。在某些具体实施方案中，本文使用SEQ ID NO:2第26－33位氨基酸残基所示的序列作为NLS。NLS可位于融合蛋白的N端、C端；也可位于融合蛋白序列中，例如位于融合蛋白中Cas9酶的N端和/或C端，或位于融合蛋白中的AID的N端和/或C端。

可以通过任何适合的技术检测本发明融合蛋白在细胞核中的积聚。例如，可将检测标记融合到Cas酶上，使得在与检测细胞核的位置的手段(例如，对于细胞核特异的染料，如DAPI)相结合时融合蛋白在细胞内的位置可以被可视化。在某些实施方案中，本文使用3*flag作为标记，该肽段序列可如SEQ ID NO:2第1－23位氨基酸残基所示。应理解，通常，若存在标记序列时，标记序列通常在融合蛋白的N端。标记序列与NLS之间可直接连接，也可通过适当的接头序列连接。NLS序列可直接与Cas酶或AID连接，也可通过适当的接头序列与Cas酶或AID连接。

因此，在某些实施方案中，本文的融合蛋白由Cas酶和AID组成。在其它实施方案中，本文的融合蛋白由Cas酶通过接头与AID连接而成。在某些实施方案中，本文的融合蛋白NLS、Cas酶、AID以及Cas酶和AID之间的任选的接头序列组成。在某些具体实施方案中，融合蛋白中的Cas酶是前文所述的Cas9酶。在某些具体实施方案中，融合蛋白中的AID的氨基酸序列如SEQ ID NO:2第1457－1654位氨基酸残基所示。在其它具体实施方案中，融合蛋白中的AID的氨基酸序列如SEQ ID NO:4第1457－1646位氨基酸残基所示。在其它具体实施方案中，融合蛋白中的AID的氨基酸序列如SEQ ID NO:68第1447-1629位氨基酸残基所示。

在某些实施方案中，本文的融合蛋白的氨基酸序列如SEQ ID NO:2、4、66、68、70或72所示，或如SEQ ID NO:2第26－1654位氨基酸所示，或如SEQ ID NO:4第26－1638位所示，或如SEQ ID NO:68第26－1629位氨基酸所示，或如SEQ ID NO:70第26－1629位氨基酸所示，或如SEQ ID NO:72第26－1638位氨基酸所示。

多核苷酸序列、宿主和蛋白表达

本文包括编码本文融合蛋白的的多核苷酸序列。本文的多核苷酸可以是DNA形式或RNA形式。DNA形式包括cDNA、基因组DNA或人工合成的DNA。DNA可以是单链的或是双链的。DNA可以是编码链或非编码链。

本文所述的核苷酸序列通常可以用PCR扩增法获得。具体而言，可根据本文所公开的核苷酸序列，尤其是开放阅读框序列来设计引物，并用市售的cDNA库或按本领域技术人员已知的常规方法所制备的cDNA库作为模板，扩增而得有关序列。当序列较长时，常常需要进行两次或多次PCR扩增，然后再将各次扩增出的片段按正确次序拼接在一起。例如，在某些实施方案中，编码本文所述融合蛋白的多核苷酸序列如SEQ ID NO:1、3、65、67、79或71所示，或如SEQ ID NO:1第73－4965位碱基所示，或如SEQ ID NO:3第73－4917位碱基所示，或如SEQ ID NO:67第76－4890位碱基所示，或如SEQ ID NO:70第76－4890位碱基所示，或如SEQ ID NO:72第76－4917位碱基所示。

本文也包括包含所述多核苷酸的核酸构建物。该核酸构建物含有本文所述的融合蛋白的编码序列，以及与这些序列操作性连接的一个或多个调控序列。本发明所述的融合蛋白的编码序列可以多种方式被操作以保证所述蛋白的表达。在将核酸构建物插入载体之前可根据表达载体的不同或要求而对核酸构建物进行操作。利用重组DNA方法来改变多核苷酸序列的技术是本领域已知的。

调控序列可以是合适的启动子序列。启动子序列通常与待表达蛋白的编码序列操作性连接。启动子可以是在所选择的宿主细胞中显示转录活性的任何核苷酸序列，包括突变的、截短的和杂合启动子，并且可以从编码与该宿主细胞同源或异源的胞外或胞内多肽的基因获得。

调控序列也可以是合适的转录终止子序列，由宿主细胞识别以终止转录的序列。终止子序列与编码该多肽的核苷酸序列的3’末端操作性连接。在选择的宿主细胞中有功能的任何终止子都可用于本发明。

调控序列也可以是合适的前导序列，对宿主细胞翻译重要的mRNA的非翻译区。前导序列与编码该多肽的核苷酸序列的5′末端可操作连接。在选择的宿主细胞中有功能的任何终止子都可用于本发明。

在某些实施方案中，所述核酸构建物是载体。例如，可将本文的多核苷酸序列插入到重组表达载体中。术语“重组表达载体”指本领域熟知的细菌质粒、噬菌体、酵母质粒、植物细胞病毒、哺乳动物细胞病毒如腺病毒、逆转录病毒或其它载体。只要能在宿主体内复制和稳定，任何质粒和载体都可以用。表达载体的一个重要特征是通常含有复制起点、启动子、标记基因和翻译控制元件。表达载体还可包括翻译起始用的核糖体结合位点和转录终止子。本文所述的多核苷酸序列可操作性地连接到表达载体中的适当启动子上，以经由该启动子指导mRNA合成。这些启动子的代表性例子有：大肠杆菌的lac或trp启动子；λ噬菌体PL启动子；真核启动子包括CMV立即早期启动子、HSV胸苷激酶启动子、早期和晚期SV40启动子、反转录病毒的LTRs和其它一些已知的可控制基因在原核或真核细胞或其病毒中表达的启动子。标记基因可用于提供用于选择转化的宿主细胞的表型性状，包括但不限于真核细胞培养用的二氢叶酸还原酶、新霉素抗性以及绿色荧光蛋白(GFP)，或用于大肠杆菌的四环素或氨苄青霉素抗性。当本文所述的多核苷酸在高等真核细胞中表达时，如果在载体中插入增强子序列，则将会使转录得到增强。增强子是DNA的顺式作用因子，通常大约有10到300个碱基对，作用于启动子以增强基因的转录。

本领域一般技术人员清楚如何选择适当的载体、启动子、增强子和宿主细胞。可采用本领域技术人员熟知的方法构建含本文所述的多核苷酸序列和合适的转录/翻译控制信号的表达载体。这些方法包括体外重组DNA技术、DNA合成技术、体内重组技术等。

可将本文所述的载体转化适当的宿主细胞，以使其能够表达本文所述的融合蛋白。宿主细胞可以是原核细胞，如细菌细胞；或是低等真核细胞，如酵母细胞；丝状真菌细胞、或是高等真核细胞，如哺乳动物细胞。宿主细胞还可以是植物细胞。宿主细胞的代表性例子有：大肠杆菌；链霉菌属；鼠伤寒沙门氏菌的细菌细胞；真菌细胞如酵母、丝状真菌；植物细胞；果蝇S2或Sf9的昆虫细胞；CHO、COS、293细胞、或Bowes黑素瘤细胞的动物细胞等。除用于表达融合蛋白的细胞外，其它的含本文所述多核苷酸序列或载体以及sgRNA或其表达载体的细胞，例如用于制备点突变蛋白的细胞，也在本文所述的宿主细胞的范围之内。

用重组DNA转化宿主细胞可用本领域技术人员熟知的常规技术进行。当宿主为原核生物如大肠杆菌时，能吸收DNA的感受态细胞可在指数生长期后收获，用CaCl₂法处理，所用的步骤在本领域众所周知。另一种方法是使用MgCl₂。如果需要，转化也可用电穿孔的方法进行。当宿主是真核生物，可选用如下的DNA转染方法：磷酸钙共沉淀法，常规机械方法如显微注射、电穿孔、脂质体包装等。

转化宿主细胞后，获得的转化子可以用常规方法培养，以允许其表达本文所述的融合蛋白。根据所用的宿主细胞，培养中所用的培养基可选自各种常规培养基。可利用本领域已知的各种分离方法分离和纯化本文的重组融合蛋白。这些方法是本领域技术人员所熟知的，包括但并不限于：常规的复性处理、用蛋白沉淀剂处理(盐析方法)、离心、渗透破菌、超处理、超离心、分子筛层析(凝胶过滤)、吸附层析、离子交换层析、高效液相层析(HPLC)和其它各种液相层析技术及这些方法的结合。

因此，本文也包括含本文所述融合蛋白、其编码序列或表达载体和任选的sgRNA或其表达载体的宿主细胞。这种宿主细胞可组成型表达本文所述的融合蛋白，也可在一定的诱导条件下表达本文所述的融合蛋白。如何使宿主细胞组成型表达或在诱导条件下表达本发明融合蛋白的方法是本领域周知的。例如，在某些实施方案中，使用诱导型启动子构建本发明的表达载体，从而实现融合蛋白的诱导表达。

组合物、试剂盒

本文的融合蛋白、其编码序列或表达载体，和/和sgRNA、其编码序列或表达载体可以组合物的形式提供。例如，组合物可含有本文的融合蛋白和sgRNA或sgRNA的表达载体，或可含有本文融合蛋白的表达载体和sgRNA或sgRNA的表达载体。在组合物中，融合蛋白或其表达载体、或sgRNA或其表达载体可以混合物的形式提供，或者可单独包装。组合物可以是溶液的形式，也可以是冻干形式。

组合物可提供在试剂盒中。因此，本文提供含有本文所述组合物的试剂盒。或者，本文也提供一种试剂盒，该试剂盒含有本文的融合蛋白和sgRNA或sgRNA的表达载体，或含有本文融合蛋白的表达载体和sgRNA或sgRNA的表达载体。试剂盒中，融合蛋白或其表达载体、或sgRNA或其表达载体可独立包装，或以混合物的形式提供。试剂盒中还可包括例如用于将所述融合蛋白或其表达载体和/或sgRNA或其表达载体转入细胞的试剂，以及指导技术人员进行所述转入的说明书。或者，试剂盒还可包括指导技术人员采用试剂盒所含成分实施本文所述的各种方法和用途的说明书。试剂盒中还包括其它的试剂，例如用于PCR的试剂等。

方法和用途

本文第三方面提供一种在细胞内产生点突变的方法，所述方法包括在所述细胞内表达本文所述的融合蛋白和sgRNA的步骤。在某些实施方案中，将本发明的融合蛋白或其表达载体和sgRNA或其表达载体转入所述细胞内。在细胞组成型表达本文所述融合蛋白的情况下，可仅将相应的sgRNA或其表达载体转入细胞中。在细胞诱导型表达本文所述融合蛋白的情况下，在转入sgRNA之后，还可用诱导剂孵育细胞，或对细胞施与相应的诱导措施(例如光照)。可采用常规的转染方法将所述融合蛋白或其表达载体和/或sgRNA或其表达载体转入细胞中。例如，在某些实施方案中，转染时，首先制备质粒DNA-脂质体复合物，然后将该质粒DNA-脂质体复合物和相应的sgRNA共同转染细胞。获得产生了点突变的细胞之后，可在适于该细胞生长并表达所需蛋白的条件下培育该细胞，并通过各种常规方法(例如高通量方法)分离、分析所产生的突变体。

因此，本文所述的在细胞内产生点突变的方法也可用于产生突变体文库，然后利用常规的技术手段对文库中的突变体进行分离和筛选，获得具有所需生物学功能的突变体。因此，本发明也提供一种构建突变体文库的方法，所述方法包括在所述细胞内表达本文所述的融合蛋白和sgRNA的步骤。

可针对同一待突变位点设计一种或多种sgRNA。当设计多种sgRNA时，所设计的多种sgRNA的靶标结合区不同，但具有相同的Cas蛋白识别区。然后可将该一种或多种sgRNA与相应的融合蛋白一同转入细胞中。

细胞可以是任意感兴趣的细胞，包括原核细胞和真核细胞，例如植物细胞、动物细胞、微生物细胞等。尤其优选的是动物细胞，例如哺乳动物细胞、啮齿类动物细胞，包括人、马、牛、羊、鼠、兔等等。微生物细胞包括本领域周知的来自各种微生物种类的细胞，尤其是那些具有医疗研究价值、生产价值(例如燃料如乙醇的生产、蛋白质生产、油脂如DHA生产)的微生物种类的细胞。细胞还可以是各种器官来源的细胞，例如来自人肝脏、肾脏、皮肤等处的细胞。细胞还可以是目前在售的各种成熟的细胞系，例如293细胞、COS细胞。在某些实施方案中，细胞是来自健康个体的细胞；在其他实施方案中，细胞是来自患病个体的患病组织的细胞，例如来自炎症组织的细胞、肿瘤细胞，诱导型多能干细胞等。细胞还可以是经基因工程改造过，以使其具有某种特定功能(例如生产感兴趣的蛋白)或产生感兴趣的表型的细胞。换言之，待突变的基因或核酸序列对于该细胞而言可以是天然就存在于该细胞内的(内源性)基因或核酸序列，也可以是外来转入的(外源性的)基因或核酸序列。外来转入的基因或核酸序列可整合入细胞的基因组序列中，也可独立于基因组之外并稳定表达。

针对不同的细胞，可采用已知技术设计表达本文融合蛋白和sgRNA的表达载体，以使这些表达载体适于在该细胞中表达。例如，可在表达载体中提供利于在该细胞中启动表达的启动子以及其他相关的调控序列。这些都可由技术人员根据实际情况加以选择和实施。

期待产生点突变的核酸序列可以是任何感兴趣的核酸序列，例如基因序列，尤其是各种与疾病相关，或与各种感兴趣的蛋白质的生产相关，或各种与感兴趣的生物学功能相关的基因或核酸序列。这类感兴趣的基因或核酸序列包括但不限于编码各种功能蛋白的核酸序列。本文中，功能蛋白指能够完成生物体的生理功能的蛋白质，包括催化蛋白、运输蛋白、免疫蛋白和调节蛋白等。在某些具体实施方式中，所述功能蛋白包括但不限于：疾病的发生、发展和转移中涉及的蛋白，细胞分化、增殖与凋亡中涉及的蛋白，参与新陈代谢的蛋白，发育相关的蛋白，以及各种药物靶点等等。例如，功能蛋白可以是抗体、酶、脂蛋白、激素类蛋白、运输和贮存蛋白、运动蛋白、受体蛋白、膜蛋白等。因此，可利用本文所述的融合蛋白、多核苷酸、核酸构建物、细胞和方法等构建突变体文库，并进一步筛选获得具有新功能或更强功能的蛋白质，例如抗体、酶或其它功能蛋白等。

利用本文所述的方法可在感兴趣的核酸序列上产生随机突变，或在感兴趣核酸序列的特定位点上产生突变。对于前者，可根据所用Cas酶寻找模板链上的PAM位点，以该PAM位点下游紧邻该PAM位点或与该PAM位点隔开10个以内(如8个以内、5个以内或3个以内)的长15～25个碱基、更通常长18～22个碱基的片段作为sgRNA的靶标识别区设计该Cas酶识别的sgRNA。对于后者，可在该特定位点附近寻找可作为PAM的位点，根据该PAM选择能识别该PAM的Cas酶，并依本文所述设计、制备含该Cas酶的本发明融合蛋白以及相应的sgRNA。

本文的方法可以是体外方法，也可以是体内方法。当体内实施时，可采用本领域周知的手段将本文的融合蛋白或其表达载体和sgRNA或其表达载体转入实验对象体内，如相应的组织细胞内，并通过观察动物表型变化筛选出感兴趣的功能变体。应理解，体内实验时，实验对象可以是各种非人动物，尤其是本领域惯常采用的各种非人模式生物。体内实验也应满足伦理要求。

下文将以具体实施例的方式阐述本发明。应理解，这些实施例仅仅是示例性的，而非限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件如Sambrook&Russell所著的Molecular Cloning:A Laboratory Manual(分子克隆实验指南第三版)中所述的条件，或按照制造厂商所建议的条件。除非另行定义，文中所使用的所有专业与科学用语与本领域熟练人员所熟悉的意义相同。此外，任何与所记载内容相似或均等的方法及材料皆可应用于本发明中。文中所述的较佳实施方法与材料仅作示范之用。

实施例1：pEntr11-dCas9-AID质粒和pEntr11-dCas9-AIDX质粒的构建

1、以A20细胞株〔购买于中国科学院典型培养物保藏委员会细胞库〕RNA反转录出的cDNA为模板，利用SEQ ID NO:5和6所示引物及SEQ ID NO:5和7所示引物分别扩增出AID全长序列和AIDX片段(从第183位氨基酸残基起截短)(见图1，A和C)；

2、构建pEntr11-dCas9-TET1CD质粒：

(1)利用PCR从dCas9质粒(Addgene)扩增出dCas9目的基因片段；

(2)利用限制性内切酶BamHⅠ和NcoⅠ对dCas9目的基因片段及pEntr11质粒(Invitrogen)酶切，回收上述片段；

(3)将酶切后的dCas9片段及pEntr11载体连接，然后将连接产物转化到TOP10感受态细胞中；

(4)挑选阳性克隆，抽提质粒并送测序验证，至此完成了pEntr11-dCas9质粒的构建；

(5)利用PCR扩增出TET1CD目的基因片段；

(6)利用限制性内切酶BamHⅠ和XhoⅠ对pEntr11-dCas9质粒酶切，并回收片段；

(7)利用Gibson Assembly方法将TET1CD克隆到pEntr11-dCas9质粒中，至此完成了pEntr11-dCas9-TET1CD质粒的构建；

3、利用限制性内切酶BamHⅠ和XhoⅠ对pEntr11-dCas9-TET1CD质粒、AID、AIDX片段进行酶切，然后回收pEntr11-dCas9载体及AID、AIDX片段；

4、分别将酶切后的AID、AIDX片段与pEntr11-dCas9载体连接，然后将连接产物转化到TOP10感受态细胞中；

5、挑选阳性克隆，抽提质粒并送测序验证，至此完成了pEntr11-dCas9-AID及pEntr11-dCas9-AIDX质粒的构建(图1，B和D)。

实施例2：MO91-dCas9-AID质粒和MO91-dCas9-AIDX质粒的构建

1、利用SEQ ID NO:8和9所示引物从pEntr11-dCas9-AID质粒和pEntr11-dCas9-AIDX质粒扩增出dCas9-AID片段和dCas9-AIDX片段(图2，A)；

2、利用限制性内切酶BglⅡ和XhoⅠ对MO91质粒(Addgene Plasmid#19755)及AID、AIDX片段进行酶切，然后回收载体、AID片段和AIDX片段(图2，B)；

3、分别将酶切后的AID片段、AIDX片段与MO91载体连接，然后将连接产物转化到Stbl3感受态细胞中；

4、挑选阳性克隆，抽提质粒并送测序验证，至此完成了MO91-dCas9-AID及MO91-dCas9-AIDX质粒的构建(图2，C和D)。

实施例3：MO91-dCas9(3*flag,NLS)-AID质粒和MO91-dCas9(3*flag,NLS)-AIDX质粒的构建

以pCW-Cas9质粒(武汉淼灵生物科技有限公司)为模板，设计引物PCR扩增出3*flag+NLS片段，利用Gibson Assembly方法将3*flag+NLS片段分别克隆到MO91-dCas9-AID质粒和MO91-dCas9-AIDX质粒的dCas9N端，构建得到MO91-dCas9(3*flag,NLS)-AID质粒和MO91-dCas9(3*flag,NLS)-AIDX质粒(图3)。

实施例4：建立指示AID点突变效率的有效的报告系统

在基因组水平造成的点突变水平需要通过简单直观的方法检测，本发明主要采用流式分析技术在蛋白水平间接检测点突变水平。EGFP基因中人为插入终止密码子(TAG)，EGFP无法正常表达。当本文的融合蛋白作用于EGFP基因中的终止密码子时，使终止密码子点突变，使EGFP基因突变正常表达。因此，EGFP表达水平越高，点突变的效率越高。

本实施例将含终止密码子的EGFP基因(序列如图4所示)插入到MO405-thy1.1质粒(Addgene)中，MSCV启动基因表达。使用该质粒包毒感染293T，具体包括：

1、铺板293T，包毒时细胞密度达到90％；

2、24h后包毒，包毒方法和转染一样；

3、包毒后24h换液；

4、包毒后24h，第一次收毒，加入聚凝胺1ug/ml，800g，90min，6-8h后换液；

5、包毒后48h,第二次收毒，加入聚凝胺1ug/ml，800g，90min，6-8h后换液；

6、待细胞长到足够数量后，流式染色(PE-thy1.1)，分选th1.1阳性细胞作为报告细胞。结果如图6所示。报告细胞的模式示意图显示在图5中。

实施例5：sgRNA的制备

1、寻找20bp的靶标序列。如果该20bp的靶标序列的起始碱基不是G，需将一个G加到其5’端以使其能被RNA聚合酶III U6启动子有效转录。需注意的是该靶标序列不能含有XhoI或NheI的识别位点。

2、将sgRNA克隆到pLX(Addgene 50662)中，获得pLX sgRNA。需如下4个引物，其中R1和F2是sgRNA特异性的：

F1：AAACTCGAGTGTACAAAAAAGCAGGCTTTAAAG(SEQ ID NO:10)

R1：rc(GN₁₉)GGTGTTTCGTCCTTTCC(SEQ ID NO:11)

F2：GN₁₉GTTTTAGAGCTAGAAATAGCAA(SEQ ID NO:12)

R2：AAAGCTAGCTAATGCCAACTTTGTACAAGAAAGCTG(SEQ ID NO:13)

其中，GN₁₉＝新的靶标序列，rc(GN₁₉)＝新靶标序列的反向互补序列。

3、分别使用F1+R1和F2+R2扩增pLX sgRNA；

4、凝胶纯化两次扩增获得的产物，合并，用于F1+R2进行第三次PCR；

5、使用NheI和XhoI消化步骤4进行的PCR获得的产物；和

6、连接和转化，从而制备得到sgRNA的表达载体。

四条sgRNA的靶标结合区的碱基序列如下所示：

GCATGCCCGAAGGCTACGTCC(SEQ ID NO:14)；

GCAACTAGTATACCCGCGCCG(SEQ ID NO:15)；

GCCTCGAACTTCACCTCGGCG(SEQ ID NO:16)；

GTCAGCTCGATGCGGTTCACC(SEQ ID NO:17)。

实施例6：CRISPR-Cas9提高AID点突变效率

培养实施例4所构建的报告细胞至70－90％的汇合度时进行转染。转染时，首先制备质粒DNA-脂质体复合物，包括将四倍量的2000试剂稀释在培养基中，分别将MO91-dCas9(3*flag,NLS)-AID质粒或MO91-dCas9(3*flag,NLS)-AIDX质粒稀释在培养基中，然后将稀释的质粒分别加到稀释的2000试剂中(1：1)孵育30分钟。之后将该质粒DNA-脂质体复合物和实施例5制备的针对EGFP终止密码子的4个sgRNA共同转染实施例4所构建的报告细胞。作为对照，仅用所述质粒DNA-脂质体复合物转染实施例4所构建的报告细胞。加嘌呤霉素2ug/ml和杀稻瘟菌素20ug/ml进行培育，筛选3d，分别在转染后第4天和第7天流式分析EGFP表达水平。

结果如图7所示，AID与AIDX的％EGFP+分别为0.14％和0.30％，而dCas9-AID+sgRNA和dCas9-AIDX+sgRNA的％EGFP+分别为2.14％和4.36％。

结果表明，将AID或AIDX与dCas9融合，在sgRNA的导向作用下，会使AID在sgRNA的靶向作用下，在AID的点突变功能局限在特异的部位，同时提高其作用浓度，提高其突变效率。

实施例7：CRISPR-Cas9提高AID点突变效率及优化

采用与实施例6相同的方法，在实施例4构建的报告细胞中共转sgRNA和dCas9-AID的表达载体。其中sgRNA分两组，一组是针对AAVS1的对照sgRNA，其靶标结合区分别如下：GATTCCCAGGGCCGGTTAATG(SEQ ID NO:18)；GTCCCCTCCACCCCACAGTG(SEQ ID NO:19)；和GGGGCCACTAGGGACAGGAT(SEQ ID NO:20)。另外一组是针对EGFP的sgRNA组(SEQ ID NO:14-17)。同时设置对照组在报告细胞中单转AID。对照sgRNA的表达载体如实施例5所述方法构建。

在转染后第8天测FACS，AID组的EGFP％+只有0.13％，而dCas9-AID+sgRNA组的EGFP％+达到2.1％(图8，A)，EGFP％+有了16倍提高。为了进一步优化dCas9-AID系统的效率，将dCas9与不同的AID突变体融合：AID-FL(全长)，AID-CD(仅含催化结构域)，P182X(从第183位氨基酸残基起截短)，R186X(从第187位氨基酸残基起截短)，R190X(从第191位氨基酸残基起截短)。在报告细胞中共转各dCas9-AID表达载体和sgRNA，其中dCas9-R186X的效率最高(图8，B和C)。因此采用dCas9-R186X进行实施例8－13的试验，在这些实施例中，将dCas9-R186X简称为dCas9-AIDX。

为了证明在dCas9-AID体系中确实是由AID与dCas9融合后，才使整个系统具有碱基置换功能，在报告细胞中分别共转Cas9，dCas9，dCas9-AIDX的功能突变体〔R186X(E58Q)〕，dCas9-AIDX和sgRNA，只有dcas9-AIDX和sgRNA组具有EGFP％+，而其他组均为0(图8，C)。也就证明确实是由AID与dCas9融合后，才使整个系统具有碱基置换功能。

实施例8：CRISPR-Cas9将AID点突变功能局限在sgRNA靶向部位

为研究CRISPR-Cas9是否能将AID点突变功能局限在sgRNA靶向部位，以实施例4构建的报告系统的基因组DNA为模板，对含终止密码子的EGFP进行PCR，构建文库，并将cMyc作为对照基因，进行Miseq测序。结果如图9所示。由报告细胞的测序结果可知，Miseq虽然测序通量高，滤去低质量的读数(reads)后，但仍有测序基底突变频率，EGFP为0.25％，cMyc为0.15％。但即使有基底水平干扰，仍可观察到dCas9-AIDX+sgRNA组的EGFP基因点突变频率明显高于AIDX组，同样证明CRISPR-Cas9提高AID点突变效率。并且这些高频突变位点主要集中在sgRNA的靶向位点，而在cMyc基因中几乎没有发生点突变。证明dCas9与AID融合之后，sgRNA将dCas9-AID靶向到sgRNA的靶向位点，使AID只会对sgRNA的靶向位点发挥作用，产生点突变，而不会对其他基因位点造成很大改变；并且能够大幅提高点突变频率。

实施例9：dCas9-AIDX将C和G碱基随机突变为其他三种碱基

AIDX本身会将C突变为T，将G突变为A。将dCas9与AIDX融合之后，与AIDX组对比，C和G的突变方向变得更加均一化。

同时AID本身的作用是依赖于hotspot基序的WRCY(W代表A/T，R代表A/C，Y代表C/T)，其中最偏好的基序是AGCT。而将dCas9与AIDX融合之后，这种基序的偏好性会明显消失。因此本发明人提出一种假设，正常情况下，AID会将胞嘧啶脱氨基，形成尿嘧啶，通过DNA复制修复，将这种u-g错配保留，发生C到T、G到A的突变，另外可以通过碱基切除修复方式，将U碱基切除，随即插入四种碱基。所以dCas9与AID的融合很有可能抑制DNA复制这条途径，促进碱基切除修复，使突变方向更加均一化(图10，b)。

此外，对Miseq数据进行统计分析，AIDX和dCas9-AIDX+sgRNA组在EGFP上的造成点突变类型基本上与报道一致，C和G碱基突变占主要部分，A和T所占比例较少。并且G主要突变向T，C突变向A。但在dCas9-AIDX组，G突变向T和C的比例增加，C突变向G或A的比例增加。因此，dCas9-AIDX可以产生更均一的突变类型(图10，a)。

实施例10：UGI提高dCas9-AIDX系统的碱基置换频率，揭示dCas9-AIDX在基因上的作用轨迹，并使碱基突变方向更加单一化。

UGI是UNG的抑制剂，是一种噬菌体蛋白，当噬菌体入侵大肠杆菌时，可以保护自身的基因组免受宿主UNG的修复(图11，a)。在报告细胞中共转三种质粒，分别表达dCas9-AIDX、单条sgRNA(靶标结合区为GCCTCGAACTTCACCTCGGCG，SEQ ID NO:16)和UGI(蛋白序列：UniProtKB-P14739)，用以提高在整个体系中单条sgRNA的突变效率。结果显示，最高点突变效率有10倍提高(图11，b)。

除此之外，加入UGI后，整个体系的突变方向更加单一，C到T，G到A。同时统计了dCas9-AIDX的作用轨迹，整个体系在PAM序列前后造成的突变频率。图11(c)是根据针对EGFP位点设计的4个sgRNA的数据进行的统计。都是以PAM序列中NGG中的N为第一位碱基。其上游为-，下游为+，两组数据的统计结果一致，都是对PAM的上游20bp也就是在原型间隔序列区域造成突变，而且突变最高点是在PAM的-12/-13位。UGI可以增加AID的整体突变频率，但会使碱基置换的比例增加，转换比例减少(图11，d)。

实施例11：dCas9-AIDX不仅可以对外源性基因起作用，同时可以作用于内源性基因。以上的实验均是在报告细胞中进行，本实施例选用内源性基因AAVS1作为靶标位点，设计3个sgRNA(SEQ ID NO:18-20)，在293T中共转表达dCas9-AID和针对AAVS1的三个sgRNA的载体(如实施例7所述)。

结果如图12所示。dCas9-AID系统同样可以对内源性基因AAVS1产生碱基置换，并且这种突变也是集中在sgRNA靶标位点。

实施例12：将dCas9-AIDX应用于K562BCR-ABL基因的Gleevec耐药性筛选

K562是来源于慢性髓样白血病人的白血病细胞系。在这种细胞中存在着一种染色体，叫做ph染色体。该染色体是由第9号和第22号染色体的长臂转座而成。第9号染色体上的ABL基因含有酪氨酸激酶活性中心，在正常状态下处于低活性状态，而当转座到BCR基因座中后，会具有很高的活性。会引起一系列信号转导，引发癌症，因此BCR-ABL是一种原癌基因，常用的药物就是Gleevec(格列卫，活性成分是甲磺酸依马替尼)，其主要作用机制是gleevec可以竞争性与ABL结合ATP，从而使ABL基因处于低活性。但在病人样本中发现在酪氨酸激酶活性结构域中，会发生点突变，如T315I，使结构域失去结合gleevec的能力，产生gleevec耐药性。除此之外，其它位点的碱基置换也会导致Gleevec耐药性。可以使用dCas9-AIDX系统来筛选Gleevec耐药性位点及具体突变类型，作为设计下一代抑制剂的基础。

首先，为了获得稳定表达dCas9-AIDX的K562细胞，我们利用目的质粒MSCV-dCas9-AID-P182X-IRES-Thy1.1与病毒包装质粒pcl-10A1共同转染293T细胞。在六孔板的一孔中提前12-24小时铺好1x10⁶的293T细胞，并用2ml无抗10％FBS的DMEM培养过夜，次日待细胞长至80％密度时，转染3ug目的质粒和1ug病毒包装质粒，以及10ul转染试剂LIPO2000。转染24小时后用2ml有抗培液培养，分别在48小时、72小时收集病毒。收集好的病毒立即1000rpm离心5分钟去除细胞碎片，取上清加入2ul 10mg/ml Polybrene感染1x10⁵的K562细胞，37℃、900g转速甩板90分钟。感染后4小时离心细胞，取沉淀用有抗培液培养。经过两天连续感染后的K562细胞需要再继续培养两天，再利用流式染色，将表达Thy1.1表面分子的细胞标记为PE⁺(抗体1:200稀释)，并利用单细胞分选技术获得两块96孔板PE-Thy1.1⁺的K562单细胞。经过两周的培养，收集由各个单细胞克隆产生的细胞群的RNA，分别进行RT-qPCR实验。其中dCas9-AIDX表达最高的细胞株用以进行后续对Gleevec耐药性位点及突变类型的筛选。

同时，为了筛选出Gleevec耐药性的位点，我们针对ABL基因第六号外显子Exon6所在基因组区域进行了sgRNA的设计。共设计了16个sgRNA(靶标区序列分别如SEQ ID NO:49-64所示)，其中6个靶向到与外显子Exon6相邻的内含子区域，10个直接靶向到Exon6区域，并覆盖了83％的外显子序列。由于T315I的突变已被公认为是造成Gleevec耐药性的最主要突变之一，我们设计的sgRNA中有且仅有1个能够覆盖到T315I突变的位点(944C)，能够作为阳性对照。同时，我们针对与Gleevec耐药性无关的AAVS1基因的基因组序列设计了3个sgRNA作为阴性对照(靶标区序列如SEQ ID NO:18-20所示)。这些sgRNA序列都是通过化学合成，利用BamH1和HindIII双酶切，最终被克隆于携带H1启动子的pSUPER-sgRNA载体中。我们利用苯酚氯仿-乙醇沉降法对等量混合的16个Exon6的sgRNA质粒或3个AAVS1的sgRNA质粒进行沉降，使混合质粒的最终浓度在1.5ug/ul以上。随后，将稳定表达dCas9-AIDX的K562细胞株分别用ABL-Exon6、AAVS1混合好的sgRNA库进行电转，仪器使用美国Life Technology公司Neo电转仪。电转前12-24小时，先以无抗10％FBS的IMDM培养液培养K562细胞，电转当天以1000V电压、单脉冲、50ms电击时间为条件，对两份1.2x10⁶的K562细胞分别转染8ug等量混合的ABL-Exon6或AAVS1的sgRNA。由于pSUPER-sgRNA质粒载体携带有嘌呤霉素抗性基因，故在转染后24小时，加入2ug/ml嘌呤霉素对表达sgRNA的细胞进行筛选。嘌呤霉素处理48小时后撤去，K562细胞继续扩大培养。转染后第六天收集2x10⁵的细胞DNA和RNA进行高通量测序并作为Input对照，将其余细胞分成两份，分别用10uM Gleevec药物或与其等体积的DMSO处理。每三天进行一次Ficoll，除去死亡细胞，直到细胞数低于2x10⁴时为止。在Gleevec药物处理下，转染进AAVS1sgRNA的对照组细胞在7-10天左右基本全部死亡，而转染进ABL-Exon6sgRNA的实验组细胞能够继续增殖。在转染后第36-40天左右，实验组细胞增殖到10⁷数量级(图14，b)。同时收集Gleevec处理和DMSO处理的细胞的DNA和RNA，进行高通量测序分析。测序结果表明，在30％的细胞中有T315I的突变，而此突变是已知的在病人中发现的耐药性突变，除此之外，还发现多个未报道过的点突变(图14，c和d)。

实施例13：将dCas9-AIDX应用于体外提高抗体的亲和力和特异性

抗体可以特异性的识别抗原，作为治疗多种疾病的药物蛋白。抗体的亲和力与其在体内生发中心产生的体细胞突变成正比，一般而言，高亲和力的抗体都具有多个体细胞高频突变。因此，可以使用dCas9-AIDX来针对抗体基因进行突变，筛选亲和力更强或具有其它特征(如特异性更好等)的抗体。

使用方案如下，在293T细胞表面稳定表达抗体分子，而后针对抗体基因，设计sgRNA，和dCas9-AIDX同时转染293T细胞，而后进行细胞表面的染色，染色越强的细胞，其突变的抗体分子具有更强的亲和力。

本实施例采用Invitrogen公司的稳定表达一个lacZ-ZeocinTM融合基因座的Flp-In^TM-293细胞。首先合成低亲和力的抗鸡卵溶菌酶(HEL)的小鼠IgG1抗体(K_D＝2.78E-09M)的cDNA序列，并连接上H2Kk蛋白跨膜区序列的编码序列，以在抗体末端加入H2Kk蛋白的跨膜区序列，将所得DNA序列克隆如pcDNA5/FRT/GOI载体(Life Science Technology,USA)中。将该载体转入Flp-In^TM-293细胞中，利用该Flp-In^TM-293细胞所含的Flp-In^TM系统将含Flp重组靶位点的该IgG1编码序列通过Flp重组酶整合到lacZ-ZeocinTM融合基因座上。没有整合成功的细胞能够表达抗Zeocin的蛋白；而整合成功后，抗Zeocin的蛋白由于缺少起始密码子ATG而不能表达，但能够表达抗潮霉素的蛋白。因此，利用潮霉素抗生素来筛选出IgG1整合成功的293细胞，在这类细胞中，每个细胞只表达一个拷贝的抗HEL-IgG1基因。

接着，分别针对IgG1重链和轻链的各3个CDRs选择16个合适的PAM序列设计如下所示的sgRNA(SEQ ID NO:73-88)，使每个重链或轻链的CDR至少有2条sgRNA覆盖：

IgH

CDR1_1:TCCCTCACCTGTTCTGTCAC(SEQ ID NO:73)；

CDR1_2:GCTCCAGTAATCACTGGTGA(SEQ ID NO:74)；

CDR1_3:GATCCAGCTCCAGTAATCAC(SEQ ID NO:75)；

CDR1_4：GTGATTACTGGAGCTGGATC(SEQ ID NO:76)；

CDR2_1:ATGGGGTACGTAAGCTACAG(SEQ ID NO:77)；

CDR2_2：GAGATTCGACTTTTGAGAGA(SEQ ID NO:78)；

CDR3_1:TATTACTGTGCAAACTGGGA(SEQ ID NO:79)；

CDR3_2:CAAACTGGGACGGTGATTAC(SEQ ID NO:80)；

CDR3_3:GACGGTGATTACTGGGGCCA(SEQ ID NO:81)；

IgL

CDR1_1:GTTGTTGCCAATACTTTGGC(SEQ ID NO:82)；

CDR1_2:ATAGCGTCAGTCTTTCCTGC(SEQ ID NO:83)；

CDR1_3:GTATTGGCAACAACCTACAC(SEQ ID NO:84)；

CDR2_1:AGGGGATCCCAGAGATGGAC(SEQ ID NO:85)；

CDR2_2:TATGCTTCCCAGTCCATCTC(SEQ ID NO:86)；

CDR3_1:TCTGTCAACAGAGTAACAGC(SEQ ID NO:87)；

CDR3_2:GTCCCCCCTCCGAACGTGTA(SEQ ID NO:88)。

然后将sgRNA序列克隆到pSUPER-puro质粒载体(Addgene)中。将实施例3构建的MO91-dCas9(3*flag,NLS)-AIDX质粒和sgRNA库(即16个sgRNA按等量混合在一起)或对照基因AAVS1的sgRNA共转染到前文获得的表达IgG1的293细胞中，经过嘌呤霉素和杀稻瘟菌素抗生素筛杀后，于转染后第7天进行PE抗小鼠IgG和Alex647-HEL表面染色后进行流式分选，分选出IgG强度不变而和HEL抗原结合增加的细胞。经培养增殖后，首先对DNA上的突变进行高通量测序分析，其结果和本文对ABL基因或GFP基因的突变基本一致(图15)。dCas9-AIDX诱导了抗HEL IgG1可变区的碱基突变并可重复地诱导IgG1CDR的碱基突变(图16)。

而后，用PE抗小鼠IgG1和647-HEL表面染色在流式细胞仪上检测突变后的细胞，发现一小群细胞的IgG1表达不变而和HEL结合增加。而后对这群细胞进行流式分选，分选扩增后，和突变前的细胞进行比较，发现突变后的抗体对HEL的亲和力增强了10倍以上(图17)。

然后收取适量细胞抽取基因组DNA进行测序，发现其亲和力增加的主要原因是由轻链的52位的甘氨酸突变为天冬氨酸(碱基为GGT改变为GAT，图15)。

实施例14：其它融合蛋白的制备

1、质粒的构建

(1)利用基因合成合成XTEN接头序列；

(2)利用限制性内切酶对实施例2构建获得的MO91-dCas9-AIDX质粒进行酶切，回收载体、AIDX片段和dCas9片段；

(3)分别将酶切后的AIDX片段、dCas9片段、XTEN接头序列与MO91载体连接，然后将连接产物转化到Stbl3感受态细胞中；

(4)挑选阳性克隆，抽提质粒并送测序验证，至此完成了MO91-dCas9-XTEN-AIDX质粒的构建；

可参照上述步骤以及实施例1和2的方法构建质粒MO91-AIDX-XTEN-dCas9，MO91-dCas9-XTEN-AIDX(K10E T82I E156G)以及MO91-nCas9-AIDX。

在需要克隆入3*flag和/或NLS片段时，可参照实施例3的方法在上述质粒中克隆入3*flag和/或NLS片段，获得分别表达SEQ ID NO:66、68、70和72所示融合蛋白的质粒。这些融合蛋白中的AIDX为从第183位氨基酸残基起截短的AID片段或其突变体。

2、重组蛋白的表达和纯化

(1)按常规方法构建质粒pET-nCas9-AIDX-6His，然后用该质粒转化大肠杆菌BL21STAR-感受态细胞；

(2)将所得表达菌株在含有100μg/ml卡那霉素的LB培养基中在37℃下生长过夜。将细胞以1:100稀释到2xYT培养基中，并在37℃下生长至OD 600＝～0.6。培养物在2小时内冷却至4℃，加入IPTG 0.5mM，诱导蛋白表达～16h；

(3)通过在4000g离心15分钟收集细胞，并重悬于裂解缓冲液中；

(4)细胞用细胞破碎剂(Union)在800巴下裂解5分钟，离心后分离裂解物上清15分钟；

(5)将裂解物在4℃下与Ni-NTA(1ml浆液/L细菌)(DP101，TransGen)一起温育1小时以捕获His-标记的融合蛋白；将树脂转移到柱中，用冷洗涤缓冲液(使用考马斯G250不能观察到颜色变化的程度)广泛洗涤；

(6)His标记的融合蛋白在洗脱缓冲液中洗脱，并通过超滤(Amicon-Millipore，100kDa分子量截留)浓缩至1ml总体积；

(7)将蛋白质在缓冲液A中稀释至20ml，并加载到Hi-Trap SP柱(29051324，GEHealthcare)上并用100mM-1M NaCl梯度洗脱；

(8)将含有nCas9-AIDX的洗脱级分浓缩至约1ml，并通过使用Superdex 20010/300GL柱(17517501，GE医疗)；

(9)将洗脱的蛋白质浓缩至约3mg/ml，在液氮中快速冷冻并储存在-80℃。

在细菌中诱导nCas9-AIDX表达的电泳图谱见图18。

3、不同融合蛋白的功能测试

采用与实施例10相同的方法测试本实施例不同融合蛋白的功能。结果如图19－21所示。

序列表

<110> 中国科学院上海生命科学研究院

<120> 在细胞内产生点突变的融合蛋白、其制备及用途

<130> 162593Z1

<160> 95

<170> PatentIn version 3.3

<210> 1

<211> 4989

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：dCas9-AID的编码序列

<400> 1

atggactata aggaccacga cggagactac aaggatcatg atattgatta caaagacgat 60

gacgataaga tggccccaaa gaagaagcgg aaggtcggta tccacggagt cccagcagct 120

accatggaca agaagtattc tatcggactg gccatcggga ctaatagcgt cgggtgggcc 180

gtgatcactg acgagtacaa ggtgccctct aagaagttca aggtgctcgg gaacaccgac 240

cggcattcca tcaagaaaaa tctgatcgga gctctcctct ttgattcagg ggagaccgct 300

gaagcaaccc gcctcaagcg gactgctaga cggcggtaca ccaggaggaa gaaccggatt 360

tgttaccttc aagagatatt ctccaacgaa atggcaaagg tcgacgacag cttcttccat 420

aggctggaag aatcattcct cgtggaagag gataagaagc atgaacggca tcccatcttc 480

ggtaatatcg tcgacgaggt ggcctatcac gagaaatacc caaccatcta ccatcttcgc 540

aaaaagctgg tggactcaac cgacaaggca gacctccggc ttatctacct ggccctggcc 600

cacatgatca agttcagagg ccacttcctg atcgagggcg acctcaatcc tgacaatagc 660

gatgtggata aactgttcat ccagctggtg cagacttaca accagctctt tgaagagaac 720

cccatcaatg caagcggagt cgatgccaag gccattctgt cagcccggct gtcaaagagc 780

cgcagacttg agaatcttat cgctcagctg ccgggtgaaa agaaaaatgg actgttcggg 840

aacctgattg ctctttcact tgggctgact cccaatttca agtctaattt cgacctggca 900

gaggatgcca agctgcaact gtccaaggac acctatgatg acgatctcga caacctcctg 960

gcccagatcg gtgaccaata cgccgacctt ttccttgctg ctaagaatct ttctgacgcc 1020

atcctgctgt ctgacattct ccgcgtgaac actgaaatca ccaaggcccc tctttcagct 1080

tcaatgatta agcggtatga tgagcaccac caggacctga ccctgcttaa ggcactcgtc 1140

cggcagcagc ttccggagaa gtacaaggaa atcttctttg accagtcaaa gaatggatac 1200

gccggctaca tcgacggagg tgcctcccaa gaggaatttt ataagtttat caaacctatc 1260

cttgagaaga tggacggcac cgaagagctc ctcgtgaaac tgaatcggga ggatctgctg 1320

cggaagcagc gcactttcga caatgggagc attccccacc agatccatct tggggagctt 1380

cacgccatcc ttcggcgcca agaggacttc tacccctttc ttaaggacaa cagggagaag 1440

attgagaaaa ttctcacttt ccgcatcccc tactacgtgg gacccctcgc cagaggaaat 1500

agccggtttg cttggatgac cagaaagtca gaagaaacta tcactccctg gaacttcgaa 1560

gaggtggtgg acaagggagc cagcgctcag tcattcatcg aacggatgac taacttcgat 1620

aagaacctcc ccaatgagaa ggtcctgccg aaacattccc tgctctacga gtactttacc 1680

gtgtacaacg agctgaccaa ggtgaaatat gtcaccgaag ggatgaggaa gcccgcattc 1740

ctgtcaggcg aacaaaagaa ggcaattgtg gaccttctgt tcaagaccaa tagaaaggtg 1800

accgtgaagc agctgaagga ggactatttc aagaaaattg aatgcttcga ctctgtggag 1860

attagcgggg tcgaagatcg gttcaacgca agcctgggta cctaccatga tctgcttaag 1920

atcatcaagg acaaggattt tctggacaat gaggagaacg aggacatcct tgaggacatt 1980

gtcctgactc tcactctgtt cgaggaccgg gaaatgatcg aggagaggct taagacctac 2040

gcccatctgt tcgacgataa agtgatgaag caacttaaac ggagaagata taccggatgg 2100

ggacgcctta gccgcaaact catcaacgga atccgggaca aacagagcgg aaagaccatt 2160

cttgatttcc ttaagagcga cggattcgct aatcgcaact tcatgcaact tatccatgat 2220

gattccctga cctttaagga ggacatccag aaggcccaag tgtctggaca aggtgactca 2280

ctgcacgagc atatcgcaaa tctggctggt tcacccgcta ttaagaaggg tattctccag 2340

accgtgaaag tcgtggacga gctggtcaag gtgatgggtc gccataaacc agagaacatt 2400

gtcatcgaga tggccaggga aaaccagact acccagaagg gacagaagaa cagcagggag 2460

cggatgaaaa gaattgagga agggattaag gagctcgggt cacagatcct taaagagcac 2520

ccggtggaaa acacccagct tcagaatgag aagctctatc tgtactacct tcaaaatgga 2580

cgcgatatgt atgtggacca agagcttgat atcaacaggc tctcagacta cgacgtggac 2640

gccatcgtcc ctcagagctt cctcaaagac gactcaattg acaataaggt gctgactcgc 2700

tcagacaaga accggggaaa gtcagataac gtgccctcag aggaagtcgt gaaaaagatg 2760

aagaactatt ggcgccagct tctgaacgca aagctgatca ctcagcggaa gttcgacaat 2820

ctcactaagg ctgagagggg cggactgagc gaactggaca aagcaggatt cattaaacgg 2880

caacttgtgg agactcggca gattactaaa catgtcgccc aaatccttga ctcacgcatg 2940

aataccaagt acgacgaaaa cgacaaactt atccgcgagg tgaaggtgat taccctgaag 3000

tccaagctgg tcagcgattt cagaaaggac tttcaattct acaaagtgcg ggagatcaat 3060

aactatcatc atgctcatga cgcatatctg aatgccgtgg tgggaaccgc cctgatcaag 3120

aagtacccaa agctggaaag cgagttcgtg tacggagact acaaggtcta cgacgtgcgc 3180

aagatgattg ccaaatctga gcaggagatc ggaaaggcca ccgcaaagta cttcttctac 3240

agcaacatca tgaatttctt caagaccgaa atcacccttg caaacggtga gatccggaag 3300

aggccgctca tcgagactaa tggggagact ggcgaaatcg tgtgggacaa gggcagagat 3360

ttcgctaccg tgcgcaaagt gctttctatg cctcaagtga acatcgtgaa gaaaaccgag 3420

gtgcaaaccg gaggcttttc taaggaatca atcctcccca agcgcaactc cgacaagctc 3480

attgcaagga agaaggattg ggaccctaag aagtacggcg gattcgattc accaactgtg 3540

gcttattctg tcctggtcgt ggctaaggtg gaaaaaggaa agtctaagaa gctcaagagc 3600

gtgaaggaac tgctgggtat caccattatg gagcgcagct ccttcgagaa gaacccaatt 3660

gactttctcg aagccaaagg ttacaaggaa gtcaagaagg accttatcat caagctccca 3720

aagtatagcc tgttcgaact ggagaatggg cggaagcgga tgctcgcctc cgctggcgaa 3780

cttcagaagg gtaatgagct ggctctcccc tccaagtacg tgaatttcct ctaccttgca 3840

agccattacg agaagctgaa ggggagcccc gaggacaacg agcaaaagca actgtttgtg 3900

gagcagcata agcattatct ggacgagatc attgagcaga tttccgagtt ttctaaacgc 3960

gtcattctcg ctgatgccaa cctcgataaa gtccttagcg catacaataa gcacagagac 4020

aaaccaattc gggagcaggc tgagaatatc atccacctgt tcaccctcac caatcttggt 4080

gcccctgccg cattcaagta cttcgacacc accatcgacc ggaaacgcta tacctccacc 4140

aaagaagtgc tggacgccac cctcatccac cagagcatca ccggacttta cgaaactcgg 4200

attgacctct cacagctcgg aggggatgag ggagctccca agaaaaagcg caaggtaggt 4260

agttccggat ctccgaaaaa gaaacgcaaa gttggtagtg atgctttaga cgattttgac 4320

ttagatatgc ttggttcaga cgcgttagac gacttcggtg gaggatccat ggacagcctc 4380

ttgatgaacc ggaggaagtt tctttaccaa ttcaaaaatg tccgctgggc taagggtcgg 4440

cgtgagacct acctgtgcta cgtagtgaag aggcgtgaca gtgctacatc cttttcactg 4500

gactttggtt atcttcgcaa taagaacggc tgccacgtgg aattgctctt cctccgctac 4560

atctcggact gggacctaga ccctggccgc tgctaccgcg tcacctggtt cacctcctgg 4620

agcccctgct acgactgtgc ccgacatgtg gccgactttc tgcgagggaa ccccaacctc 4680

agtctgagga tcttcaccgc gcgcctctac ttctgtgagg accgcaaggc tgagcccgag 4740

gggctgcggc ggctgcaccg cgccggggtg caaatagcca tcatgacctt caaagattat 4800

ttttactgct ggaatacttt tgtagaaaac catgaaagaa ctttcaaagc ctgggaaggg 4860

ctgcatgaaa attcagttcg tctctccaga cagcttcggc gcatcctttt gcccctgtat 4920

gaggttgatg acttacgaga cgcatttcgt acttggggac gtgattacaa agacgatgac 4980

gataagtga 4989

<210> 2

<211> 1662

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：dCas9-AID的氨基酸序列

<400> 2

Met Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp His Asp Ile Asp

1 5 10 15

Tyr Lys Asp Asp Asp Asp Lys Met Ala Pro Lys Lys Lys Arg Lys Val

20 25 30

Gly Ile His Gly Val Pro Ala Ala Thr Met Asp Lys Lys Tyr Ser Ile

35 40 45

Gly Leu Ala Ile Gly Thr Asn Ser Val Gly Trp Ala Val Ile Thr Asp

50 55 60

Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly Asn Thr Asp

65 70 75 80

Arg His Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser

85 90 95

Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg

100 105 110

Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser

115 120 125

Asn Glu Met Ala Lys Val Asp Asp Ser Phe Phe His Arg Leu Glu Glu

130 135 140

Ser Phe Leu Val Glu Glu Asp Lys Lys His Glu Arg His Pro Ile Phe

145 150 155 160

Gly Asn Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr Pro Thr Ile

165 170 175

Tyr His Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys Ala Asp Leu

180 185 190

Arg Leu Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe Arg Gly His

195 200 205

Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp Val Asp Lys

210 215 220

Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn

225 230 235 240

Pro Ile Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala Arg

245 250 255

Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly

260 265 270

Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly

275 280 285

Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys

290 295 300

Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu Leu

305 310 315 320

Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala Lys Asn

325 330 335

Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val Asn Thr Glu

340 345 350

Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu

355 360 365

His His Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg Gln Gln Leu

370 375 380

Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn Gly Tyr

385 390 395 400

Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr Lys Phe

405 410 415

Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu Leu Leu Val

420 425 430

Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr Phe Asp Asn

435 440 445

Gly Ser Ile Pro His Gln Ile His Leu Gly Glu Leu His Ala Ile Leu

450 455 460

Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys

465 470 475 480

Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu

485 490 495

Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu

500 505 510

Thr Ile Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser

515 520 525

Ala Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro

530 535 540

Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr

545 550 555 560

Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly Met Arg

565 570 575

Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile Val Asp Leu

580 585 590

Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu Lys Glu Asp

595 600 605

Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile Ser Gly Val

610 615 620

Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp Leu Leu Lys

625 630 635 640

Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn Glu Asp Ile

645 650 655

Leu Glu Asp Ile Val Leu Thr Leu Thr Leu Phe Glu Asp Arg Glu Met

660 665 670

Ile Glu Glu Arg Leu Lys Thr Tyr Ala His Leu Phe Asp Asp Lys Val

675 680 685

Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser

690 695 700

Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile

705 710 715 720

Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln

725 730 735

Leu Ile His Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala

740 745 750

Gln Val Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu

755 760 765

Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val

770 775 780

Val Asp Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile

785 790 795 800

Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys

805 810 815

Asn Ser Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu

820 825 830

Gly Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln

835 840 845

Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr

850 855 860

Val Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp

865 870 875 880

Ala Ile Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys

885 890 895

Val Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val Pro

900 905 910

Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu Leu

915 920 925

Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala

930 935 940

Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg

945 950 955 960

Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu

965 970 975

Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg

980 985 990

Glu Val Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg

995 1000 1005

Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His

1010 1015 1020

His Ala His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu

1025 1030 1035

Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp

1040 1045 1050

Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln

1055 1060 1065

Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile

1070 1075 1080

Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile

1085 1090 1095

Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile

1100 1105 1110

Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu

1115 1120 1125

Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr

1130 1135 1140

Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp

1145 1150 1155

Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly

1160 1165 1170

Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala

1175 1180 1185

Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu

1190 1195 1200

Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn

1205 1210 1215

Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys

1220 1225 1230

Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu

1235 1240 1245

Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys

1250 1255 1260

Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr

1265 1270 1275

Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn

1280 1285 1290

Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp

1295 1300 1305

Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu

1310 1315 1320

Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His

1325 1330 1335

Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu

1340 1345 1350

Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe

1355 1360 1365

Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val

1370 1375 1380

Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu

1385 1390 1395

Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp Glu Gly Ala Pro

1400 1405 1410

Lys Lys Lys Arg Lys Val Gly Ser Ser Gly Ser Pro Lys Lys Lys

1415 1420 1425

Arg Lys Val Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp Met

1430 1435 1440

Leu Gly Ser Asp Ala Leu Asp Asp Phe Gly Gly Gly Ser Met Asp

1445 1450 1455

Ser Leu Leu Met Asn Arg Arg Lys Phe Leu Tyr Gln Phe Lys Asn

1460 1465 1470

Val Arg Trp Ala Lys Gly Arg Arg Glu Thr Tyr Leu Cys Tyr Val

1475 1480 1485

Val Lys Arg Arg Asp Ser Ala Thr Ser Phe Ser Leu Asp Phe Gly

1490 1495 1500

Tyr Leu Arg Asn Lys Asn Gly Cys His Val Glu Leu Leu Phe Leu

1505 1510 1515

Arg Tyr Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg

1520 1525 1530

Val Thr Trp Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg

1535 1540 1545

His Val Ala Asp Phe Leu Arg Gly Asn Pro Asn Leu Ser Leu Arg

1550 1555 1560

Ile Phe Thr Ala Arg Leu Tyr Phe Cys Glu Asp Arg Lys Ala Glu

1565 1570 1575

Pro Glu Gly Leu Arg Arg Leu His Arg Ala Gly Val Gln Ile Ala

1580 1585 1590

Ile Met Thr Phe Lys Asp Tyr Phe Tyr Cys Trp Asn Thr Phe Val

1595 1600 1605

Glu Asn His Glu Arg Thr Phe Lys Ala Trp Glu Gly Leu His Glu

1610 1615 1620

Asn Ser Val Arg Leu Ser Arg Gln Leu Arg Arg Ile Leu Leu Pro

1625 1630 1635

Leu Tyr Glu Val Asp Asp Leu Arg Asp Ala Phe Arg Thr Trp Gly

1640 1645 1650

Arg Asp Tyr Lys Asp Asp Asp Asp Lys

1655 1660

<210> 3

<211> 4941

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：dCas9-AIDX的编码序列

<400> 3

atggactata aggaccacga cggagactac aaggatcatg atattgatta caaagacgat 60

gacgataaga tggccccaaa gaagaagcgg aaggtcggta tccacggagt cccagcagct 120

accatggaca agaagtattc tatcggactg gccatcggga ctaatagcgt cgggtgggcc 180

gtgatcactg acgagtacaa ggtgccctct aagaagttca aggtgctcgg gaacaccgac 240

cggcattcca tcaagaaaaa tctgatcgga gctctcctct ttgattcagg ggagaccgct 300

gaagcaaccc gcctcaagcg gactgctaga cggcggtaca ccaggaggaa gaaccggatt 360

tgttaccttc aagagatatt ctccaacgaa atggcaaagg tcgacgacag cttcttccat 420

aggctggaag aatcattcct cgtggaagag gataagaagc atgaacggca tcccatcttc 480

ggtaatatcg tcgacgaggt ggcctatcac gagaaatacc caaccatcta ccatcttcgc 540

aaaaagctgg tggactcaac cgacaaggca gacctccggc ttatctacct ggccctggcc 600

cacatgatca agttcagagg ccacttcctg atcgagggcg acctcaatcc tgacaatagc 660

gatgtggata aactgttcat ccagctggtg cagacttaca accagctctt tgaagagaac 720

cccatcaatg caagcggagt cgatgccaag gccattctgt cagcccggct gtcaaagagc 780

cgcagacttg agaatcttat cgctcagctg ccgggtgaaa agaaaaatgg actgttcggg 840

aacctgattg ctctttcact tgggctgact cccaatttca agtctaattt cgacctggca 900

gaggatgcca agctgcaact gtccaaggac acctatgatg acgatctcga caacctcctg 960

gcccagatcg gtgaccaata cgccgacctt ttccttgctg ctaagaatct ttctgacgcc 1020

atcctgctgt ctgacattct ccgcgtgaac actgaaatca ccaaggcccc tctttcagct 1080

tcaatgatta agcggtatga tgagcaccac caggacctga ccctgcttaa ggcactcgtc 1140

cggcagcagc ttccggagaa gtacaaggaa atcttctttg accagtcaaa gaatggatac 1200

gccggctaca tcgacggagg tgcctcccaa gaggaatttt ataagtttat caaacctatc 1260

cttgagaaga tggacggcac cgaagagctc ctcgtgaaac tgaatcggga ggatctgctg 1320

cggaagcagc gcactttcga caatgggagc attccccacc agatccatct tggggagctt 1380

cacgccatcc ttcggcgcca agaggacttc tacccctttc ttaaggacaa cagggagaag 1440

attgagaaaa ttctcacttt ccgcatcccc tactacgtgg gacccctcgc cagaggaaat 1500

agccggtttg cttggatgac cagaaagtca gaagaaacta tcactccctg gaacttcgaa 1560

gaggtggtgg acaagggagc cagcgctcag tcattcatcg aacggatgac taacttcgat 1620

aagaacctcc ccaatgagaa ggtcctgccg aaacattccc tgctctacga gtactttacc 1680

gtgtacaacg agctgaccaa ggtgaaatat gtcaccgaag ggatgaggaa gcccgcattc 1740

ctgtcaggcg aacaaaagaa ggcaattgtg gaccttctgt tcaagaccaa tagaaaggtg 1800

accgtgaagc agctgaagga ggactatttc aagaaaattg aatgcttcga ctctgtggag 1860

attagcgggg tcgaagatcg gttcaacgca agcctgggta cctaccatga tctgcttaag 1920

atcatcaagg acaaggattt tctggacaat gaggagaacg aggacatcct tgaggacatt 1980

gtcctgactc tcactctgtt cgaggaccgg gaaatgatcg aggagaggct taagacctac 2040

gcccatctgt tcgacgataa agtgatgaag caacttaaac ggagaagata taccggatgg 2100

ggacgcctta gccgcaaact catcaacgga atccgggaca aacagagcgg aaagaccatt 2160

cttgatttcc ttaagagcga cggattcgct aatcgcaact tcatgcaact tatccatgat 2220

gattccctga cctttaagga ggacatccag aaggcccaag tgtctggaca aggtgactca 2280

ctgcacgagc atatcgcaaa tctggctggt tcacccgcta ttaagaaggg tattctccag 2340

accgtgaaag tcgtggacga gctggtcaag gtgatgggtc gccataaacc agagaacatt 2400

gtcatcgaga tggccaggga aaaccagact acccagaagg gacagaagaa cagcagggag 2460

cggatgaaaa gaattgagga agggattaag gagctcgggt cacagatcct taaagagcac 2520

ccggtggaaa acacccagct tcagaatgag aagctctatc tgtactacct tcaaaatgga 2580

cgcgatatgt atgtggacca agagcttgat atcaacaggc tctcagacta cgacgtggac 2640

gccatcgtcc ctcagagctt cctcaaagac gactcaattg acaataaggt gctgactcgc 2700

tcagacaaga accggggaaa gtcagataac gtgccctcag aggaagtcgt gaaaaagatg 2760

aagaactatt ggcgccagct tctgaacgca aagctgatca ctcagcggaa gttcgacaat 2820

ctcactaagg ctgagagggg cggactgagc gaactggaca aagcaggatt cattaaacgg 2880

caacttgtgg agactcggca gattactaaa catgtcgccc aaatccttga ctcacgcatg 2940

aataccaagt acgacgaaaa cgacaaactt atccgcgagg tgaaggtgat taccctgaag 3000

tccaagctgg tcagcgattt cagaaaggac tttcaattct acaaagtgcg ggagatcaat 3060

aactatcatc atgctcatga cgcatatctg aatgccgtgg tgggaaccgc cctgatcaag 3120

aagtacccaa agctggaaag cgagttcgtg tacggagact acaaggtcta cgacgtgcgc 3180

aagatgattg ccaaatctga gcaggagatc ggaaaggcca ccgcaaagta cttcttctac 3240

agcaacatca tgaatttctt caagaccgaa atcacccttg caaacggtga gatccggaag 3300

aggccgctca tcgagactaa tggggagact ggcgaaatcg tgtgggacaa gggcagagat 3360

ttcgctaccg tgcgcaaagt gctttctatg cctcaagtga acatcgtgaa gaaaaccgag 3420

gtgcaaaccg gaggcttttc taaggaatca atcctcccca agcgcaactc cgacaagctc 3480

attgcaagga agaaggattg ggaccctaag aagtacggcg gattcgattc accaactgtg 3540

gcttattctg tcctggtcgt ggctaaggtg gaaaaaggaa agtctaagaa gctcaagagc 3600

gtgaaggaac tgctgggtat caccattatg gagcgcagct ccttcgagaa gaacccaatt 3660

gactttctcg aagccaaagg ttacaaggaa gtcaagaagg accttatcat caagctccca 3720

aagtatagcc tgttcgaact ggagaatggg cggaagcgga tgctcgcctc cgctggcgaa 3780

cttcagaagg gtaatgagct ggctctcccc tccaagtacg tgaatttcct ctaccttgca 3840

agccattacg agaagctgaa ggggagcccc gaggacaacg agcaaaagca actgtttgtg 3900

gagcagcata agcattatct ggacgagatc attgagcaga tttccgagtt ttctaaacgc 3960

gtcattctcg ctgatgccaa cctcgataaa gtccttagcg catacaataa gcacagagac 4020

aaaccaattc gggagcaggc tgagaatatc atccacctgt tcaccctcac caatcttggt 4080

gcccctgccg cattcaagta cttcgacacc accatcgacc ggaaacgcta tacctccacc 4140

aaagaagtgc tggacgccac cctcatccac cagagcatca ccggacttta cgaaactcgg 4200

attgacctct cacagctcgg aggggatgag ggagctccca agaaaaagcg caaggtaggt 4260

agttccggat ctccgaaaaa gaaacgcaaa gttggtagtg atgctttaga cgattttgac 4320

ttagatatgc ttggttcaga cgcgttagac gacttcggtg gaggatccat ggacagcctc 4380

ttgatgaacc ggaggaagtt tctttaccaa ttcaaaaatg tccgctgggc taagggtcgg 4440

cgtgagacct acctgtgcta cgtagtgaag aggcgtgaca gtgctacatc cttttcactg 4500

gactttggtt atcttcgcaa taagaacggc tgccacgtgg aattgctctt cctccgctac 4560

atctcggact gggacctaga ccctggccgc tgctaccgcg tcacctggtt cacctcctgg 4620

agcccctgct acgactgtgc ccgacatgtg gccgactttc tgcgagggaa ccccaacctc 4680

agtctgagga tcttcaccgc gcgcctctac ttctgtgagg accgcaaggc tgagcccgag 4740

gggctgcggc ggctgcaccg cgccggggtg caaatagcca tcatgacctt caaagattat 4800

ttttactgct ggaatacttt tgtagaaaac catgaaagaa ctttcaaagc ctgggaaggg 4860

ctgcatgaaa attcagttcg tctctccaga cagcttcggc gcatcctttt gcccgattac 4920

aaagacgatg acgataagtg a 4941

<210> 4

<211> 1646

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：dCas9-AIDX的氨基酸序列

<400> 4

Met Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp His Asp Ile Asp

1 5 10 15

Tyr Lys Asp Asp Asp Asp Lys Met Ala Pro Lys Lys Lys Arg Lys Val

20 25 30

Gly Ile His Gly Val Pro Ala Ala Thr Met Asp Lys Lys Tyr Ser Ile

35 40 45

Gly Leu Ala Ile Gly Thr Asn Ser Val Gly Trp Ala Val Ile Thr Asp

50 55 60

Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly Asn Thr Asp

65 70 75 80

Arg His Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser

85 90 95

Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg

100 105 110

Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser

115 120 125

Asn Glu Met Ala Lys Val Asp Asp Ser Phe Phe His Arg Leu Glu Glu

130 135 140

Ser Phe Leu Val Glu Glu Asp Lys Lys His Glu Arg His Pro Ile Phe

145 150 155 160

Gly Asn Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr Pro Thr Ile

165 170 175

Tyr His Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys Ala Asp Leu

180 185 190

Arg Leu Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe Arg Gly His

195 200 205

Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp Val Asp Lys

210 215 220

Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn

225 230 235 240

Pro Ile Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala Arg

245 250 255

Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly

260 265 270

Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly

275 280 285

Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys

290 295 300

Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu Leu

305 310 315 320

Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala Lys Asn

325 330 335

Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val Asn Thr Glu

340 345 350

Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu

355 360 365

His His Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg Gln Gln Leu

370 375 380

Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn Gly Tyr

385 390 395 400

Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr Lys Phe

405 410 415

Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu Leu Leu Val

420 425 430

Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr Phe Asp Asn

435 440 445

Gly Ser Ile Pro His Gln Ile His Leu Gly Glu Leu His Ala Ile Leu

450 455 460

Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys

465 470 475 480

Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu

485 490 495

Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu

500 505 510

Thr Ile Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser

515 520 525

Ala Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro

530 535 540

Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr

545 550 555 560

Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly Met Arg

565 570 575

Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile Val Asp Leu

580 585 590

Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu Lys Glu Asp

595 600 605

Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile Ser Gly Val

610 615 620

Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp Leu Leu Lys

625 630 635 640

Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn Glu Asp Ile

645 650 655

Leu Glu Asp Ile Val Leu Thr Leu Thr Leu Phe Glu Asp Arg Glu Met

660 665 670

Ile Glu Glu Arg Leu Lys Thr Tyr Ala His Leu Phe Asp Asp Lys Val

675 680 685

Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser

690 695 700

Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile

705 710 715 720

Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln

725 730 735

Leu Ile His Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala

740 745 750

Gln Val Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu

755 760 765

Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val

770 775 780

Val Asp Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile

785 790 795 800

Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys

805 810 815

Asn Ser Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu

820 825 830

Gly Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln

835 840 845

Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr

850 855 860

Val Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp

865 870 875 880

Ala Ile Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys

885 890 895

Val Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val Pro

900 905 910

Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu Leu

915 920 925

Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala

930 935 940

Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg

945 950 955 960

Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu

965 970 975

Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg

980 985 990

Glu Val Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg

995 1000 1005

Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His

1010 1015 1020

His Ala His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu

1025 1030 1035

Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp

1040 1045 1050

Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln

1055 1060 1065

Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile

1070 1075 1080

Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile

1085 1090 1095

Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile

1100 1105 1110

Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu

1115 1120 1125

Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr

1130 1135 1140

Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp

1145 1150 1155

Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly

1160 1165 1170

Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala

1175 1180 1185

Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu

1190 1195 1200

Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn

1205 1210 1215

Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys

1220 1225 1230

Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu

1235 1240 1245

Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys

1250 1255 1260

Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr

1265 1270 1275

Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn

1280 1285 1290

Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp

1295 1300 1305

Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu

1310 1315 1320

Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His

1325 1330 1335

Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu

1340 1345 1350

Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe

1355 1360 1365

Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val

1370 1375 1380

Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu

1385 1390 1395

Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp Glu Gly Ala Pro

1400 1405 1410

Lys Lys Lys Arg Lys Val Gly Ser Ser Gly Ser Pro Lys Lys Lys

1415 1420 1425

Arg Lys Val Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp Met

1430 1435 1440

Leu Gly Ser Asp Ala Leu Asp Asp Phe Gly Gly Gly Ser Met Asp

1445 1450 1455

Ser Leu Leu Met Asn Arg Arg Lys Phe Leu Tyr Gln Phe Lys Asn

1460 1465 1470

Val Arg Trp Ala Lys Gly Arg Arg Glu Thr Tyr Leu Cys Tyr Val

1475 1480 1485

Val Lys Arg Arg Asp Ser Ala Thr Ser Phe Ser Leu Asp Phe Gly

1490 1495 1500

Tyr Leu Arg Asn Lys Asn Gly Cys His Val Glu Leu Leu Phe Leu

1505 1510 1515

Arg Tyr Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg

1520 1525 1530

Val Thr Trp Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg

1535 1540 1545

His Val Ala Asp Phe Leu Arg Gly Asn Pro Asn Leu Ser Leu Arg

1550 1555 1560

Ile Phe Thr Ala Arg Leu Tyr Phe Cys Glu Asp Arg Lys Ala Glu

1565 1570 1575

Pro Glu Gly Leu Arg Arg Leu His Arg Ala Gly Val Gln Ile Ala

1580 1585 1590

Ile Met Thr Phe Lys Asp Tyr Phe Tyr Cys Trp Asn Thr Phe Val

1595 1600 1605

Glu Asn His Glu Arg Thr Phe Lys Ala Trp Glu Gly Leu His Glu

1610 1615 1620

Asn Ser Val Arg Leu Ser Arg Gln Leu Arg Arg Ile Leu Leu Pro

1625 1630 1635

Asp Tyr Lys Asp Asp Asp Asp Lys

1640 1645

<210> 5

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：引物

<400> 5

gcggatccat ggacagcctc ttgatgaa 28

<210> 6

<211> 54

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：引物

<400> 6

actcgagtca cttatcgtca tcgtctttgt aatcacgtcc ccaagtacga aatg 54

<210> 7

<211> 55

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：引物

<400> 7

gactcgagtc acttatcgtc atcgtctttg taatcgggca aaaggatgcg ccgaa 55

<210> 8

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：引物

<400> 8

gcagatctac catggacaag aagtattcta tcgg 34

<210> 9

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：引物

<400> 9

gactcgagtc acttatcgtc atcgtctttg taatc 35

<210> 10

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：引物

<400> 10

aaactcgagt gtacaaaaaa gcaggcttta aag 33

<210> 11

<211> 37

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：引物

<220>

<221> misc_feature

<222> (2)..(20)

<223> n为a，c，g或t

<400> 11

gnnnnnnnnn nnnnnnnnnn ggtgtttcgt cctttcc 37

<210> 12

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：引物

<220>

<221> misc_feature

<222> (2)..(20)

<223> n为a，c，g或t

<400> 12

gnnnnnnnnn nnnnnnnnnn gttttagagc tagaaatagc aa 42

<210> 13

<211> 36

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：引物

<400> 13

aaagctagct aatgccaact ttgtacaaga aagctg 36

<210> 14

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 14

gcatgcccga aggctacgtc c 21

<210> 15

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 15

gcaactagta tacccgcgcc g 21

<210> 16

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 16

gcctcgaact tcacctcggc g 21

<210> 17

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 17

gtcagctcga tgcggttcac c 21

<210> 18

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 18

gattcccagg gccggttaat g 21

<210> 19

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 19

gtcccctcca ccccacagtg 20

<210> 20

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 20

ggggccacta gggacaggat 20

<210> 21

<211> 21

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头

<400> 21

Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Leu

1 5 10 15

Gly Ser Thr Glu Phe

20

<210> 22

<211> 21

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头

<400> 22

Arg Ser Thr Ser Gly Leu Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly

1 5 10 15

Gly Gly Gly Ser Gly

20

<210> 23

<211> 21

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头

<400> 23

Gln Leu Thr Ser Gly Leu Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly

1 5 10 15

Gly Gly Gly Ser Gly

20

<210> 24

<211> 4

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头

<400> 24

Gly Gly Gly Ser

1

<210> 25

<211> 5

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头

<400> 25

Gly Gly Gly Gly Ser

1 5

<210> 26

<211> 5

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头

<400> 26

Ser Ser Ser Ser Gly

1 5

<210> 27

<211> 5

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头

<400> 27

Gly Ser Gly Ser Ala

1 5

<210> 28

<211> 20

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头

<400> 28

Gly Gly Ser Gly Gly Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly

1 5 10 15

Gly Gly Gly Ser

20

<210> 29

<211> 15

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头

<400> 29

Ser Ser Ser Ser Gly Ser Ser Ser Ser Gly Ser Ser Ser Ser Gly

1 5 10 15

<210> 30

<211> 15

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头

<400> 30

Gly Ser Gly Ser Ala Gly Ser Gly Ser Ala Gly Ser Gly Ser Ala

1 5 10 15

<210> 31

<211> 15

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头

<400> 31

Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly

1 5 10 15

<210> 32

<211> 8

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：FLAG标签

<400> 32

Asp Tyr Lys Asp Asp Asp Asp Lys

1 5

<210> 33

<211> 7

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：核定位序列

<400> 33

Pro Lys Lys Lys Arg Lys Val

1 5

<210> 34

<211> 16

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：核定位序列

<400> 34

Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys

1 5 10 15

<210> 35

<211> 9

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：核定位序列

<400> 35

Pro Ala Ala Lys Arg Val Lys Leu Asp

1 5

<210> 36

<211> 11

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：核定位序列

<400> 36

Arg Gln Arg Arg Asn Glu Leu Lys Arg Ser Pro

1 5 10

<210> 37

<211> 38

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：核定位序列

<400> 37

Asn Gln Ser Ser Asn Phe Gly Pro Met Lys Gly Gly Asn Phe Gly Gly

1 5 10 15

Arg Ser Ser Gly Pro Tyr Gly Gly Gly Gly Gln Tyr Phe Ala Lys Pro

20 25 30

Arg Asn Gln Gly Gly Tyr

35

<210> 38

<211> 42

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：核定位序列

<400> 38

Arg Met Arg Ile Glx Phe Lys Asn Lys Gly Lys Asp Thr Ala Glu Leu

1 5 10 15

Arg Arg Arg Arg Val Glu Val Ser Val Glu Leu Arg Lys Ala Lys Lys

20 25 30

Asp Glu Gln Ile Leu Lys Arg Arg Asn Val

35 40

<210> 39

<211> 8

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：核定位序列

<400> 39

Val Ser Arg Lys Arg Pro Arg Pro

1 5

<210> 40

<211> 8

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：核定位序列

<400> 40

Pro Pro Lys Lys Ala Arg Glu Asp

1 5

<210> 41

<211> 12

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：核定位序列

<400> 41

Ser Ala Leu Ile Lys Lys Lys Lys Lys Met Ala Pro

1 5 10

<210> 42

<211> 5

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：核定位序列

<400> 42

Asp Arg Leu Arg Arg

1 5

<210> 43

<211> 7

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：核定位序列

<400> 43

Pro Lys Gln Lys Lys Arg Lys

1 5

<210> 44

<211> 10

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：核定位序列

<400> 44

Arg Lys Leu Lys Lys Lys Ile Lys Lys Leu

1 5 10

<210> 45

<211> 10

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：核定位序列

<400> 45

Arg Glu Lys Lys Lys Phe Leu Lys Arg Arg

1 5 10

<210> 46

<211> 20

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：核定位序列

<400> 46

Lys Arg Lys Gly Asp Glu Val Asp Gly Val Asp Glu Val Ala Lys Lys

1 5 10 15

Lys Ser Lys Lys

20

<210> 47

<211> 17

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：核定位序列

<400> 47

Arg Lys Cys Leu Gln Ala Gly Met Asn Leu Glu Ala Arg Lys Thr Lys

1 5 10 15

Lys

<210> 48

<211> 644

<212> DNA

<213> 智人（Homo sapiens）

<400> 48

acaagttcag cgtgtctggc gagggcgagg gcgatgccac ctacggcaag ctgaccctga 60

agttcatctg caccaccggc aagctgcccg tgccctggcc caccctcgtg accaccctga 120

cctacggcgt gcagtgcttc agccgctacc ccgaccacat gaagcagcac gacttcttca 180

agtccgccat gcccgaaggc tacgtccagg agcgcaccat cttcttcaag gacgacggca 240

actagtatac ccgcgccgag gtgaagttcg agggcgacac cctggtgaac cgcatcgagc 300

tgaagggcat cgacttcaag gaggacggca acatcctggg gcacaagctg gagtacaact 360

acaacagcca caacgtctat atcatggccg acaagcagaa gaacggcatc aaggcgaact 420

tcaagatccg ccacaacatc gaggacggca gcgtgcagct cgccgaccac taccagcaga 480

acacccccat cggcgacggc cccgtgctgc tgcccgacaa ccactacctg agcacccagt 540

ccgccctgag caaagacccc aacgagaagc gcgatcacat ggtcctgctg gagttcgtga 600

ccgccgccgg gatcactctc ggcatggacg agctgtacaa gtaa 644

<210> 49

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 49

tagacagttg tttgttcagt 20

<210> 50

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 50

gtcctcgttg tcttgttggc 20

<210> 51

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 51

gttggcaggg gtctgcaccc 20

<210> 52

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 52

tcactgagtt catgacctac 20

<210> 53

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 53

catgacctac gggaacctcc 20

<210> 54

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 54

cctgagggag tgcaaccggc 20

<210> 55

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 55

ccggcaggag gtgaacgccg 20

<210> 56

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 56

cgccgtggtg ctgctgtaca 20

<210> 57

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 57

ctcgtcagcc atggagtacc 20

<210> 58

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 58

aaaaacttca tccacaggta 20

<210> 59

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 59

agcctgcgcc atggagtcac 20

<210> 60

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 60

ggagtcacag ggcgtggagc 20

<210> 61

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 61

acaacgagga cttcaacacg 20

<210> 62

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 62

tcagtgatga tatagaacgg 20

<210> 63

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 63

tgcactccct caggtagtcc 20

<210> 64

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 64

gccctgtgac tccatggcgc 20

<210> 65

<211> 4731

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：AIDX-XTEN-dCas9的编码序列

<400> 65

atggacagcc tcttgatgaa ccggaggaag tttctttacc aattcaaaaa tgtccgctgg 60

gctaagggtc ggcgtgagac ctacctgtgc tacgtagtga agaggcgtga cagtgctaca 120

tccttttcac tggactttgg ttatcttcgc aataagaacg gctgccacgt ggaattgctc 180

ttcctccgct acatctcgga ctgggaccta gaccctggcc gctgctaccg cgtcacctgg 240

ttcacctcct ggagcccctg ctacgactgt gcccgacatg tggccgactt tctgcgaggg 300

aaccccaacc tcagtctgag gatcttcacc gcgcgcctct acttctgtga ggaccgcaag 360

gctgagcccg aggggctgcg gcggctgcac cgcgccgggg tgcaaatagc catcatgacc 420

ttcaaagatt atttttactg ctggaatact tttgtagaaa accatgaaag aactttcaaa 480

gcctgggaag ggctgcatga aaattcagtt cgtctctcca gacagcttcg gcgcatcctt 540

ttgcccagcg gcagcgagac tcccgggacc tcagagtccg ccacacccga aagtgataaa 600

aagtattcta ttggtttagc catcggcact aattccgttg gatgggctgt cataaccgat 660

gaatacaaag taccttcaaa gaaatttaag gtgttgggga acacagaccg tcattcgatt 720

aaaaagaatc ttatcggtgc cctcctattc gatagtggcg aaacggcaga ggcgactcgc 780

ctgaaacgaa ccgctcggag aaggtataca cgtcgcaaga accgaatatg ttacttacaa 840

gaaattttta gcaatgagat ggccaaagtt gacgattctt tctttcaccg tttggaagag 900

tccttccttg tcgaagagga caagaaacat gaacggcacc ccatctttgg aaacatagta 960

gatgaggtgg catatcatga aaagtaccca acgatttatc acctcagaaa aaagctagtt 1020

gactcaactg ataaagcgga cctgaggtta atctacttgg ctcttgccca tatgataaag 1080

ttccgtgggc actttctcat tgagggtgat ctaaatccgg acaactcgga tgtcgacaaa 1140

ctgttcatcc agttagtaca aacctataat cagttgtttg aagagaaccc tataaatgca 1200

agtggcgtgg atgcgaaggc tattcttagc gcccgcctct ctaaatcccg acggctagaa 1260

aacctgatcg cacaattacc cggagagaag aaaaatgggt tgttcggtaa ccttatagcg 1320

ctctcactag gcctgacacc aaattttaag tcgaacttcg acttagctga agatgccaaa 1380

ttgcagctta gtaaggacac gtacgatgac gatctcgaca atctactggc acaaattgga 1440

gatcagtatg cggacttatt tttggctgcc aaaaacctta gcgatgcaat cctcctatct 1500

gacatactga gagttaatac tgagattacc aaggcgccgt tatccgcttc aatgatcaaa 1560

aggtacgatg aacatcacca agacttgaca cttctcaagg ccctagtccg tcagcaactg 1620

cctgagaaat ataaggaaat attctttgat cagtcgaaaa acgggtacgc aggttatatt 1680

gacggcggag cgagtcaaga ggaattctac aagtttatca aacccatatt agagaagatg 1740

gatgggacgg aagagttgct tgtaaaactc aatcgcgaag atctactgcg aaagcagcgg 1800

actttcgaca acggtagcat tccacatcaa atccacttag gcgaattgca tgctatactt 1860

agaaggcagg aggattttta tccgttcctc aaagacaatc gtgaaaagat tgagaaaatc 1920

ctaacctttc gcatacctta ctatgtggga cccctggccc gagggaactc tcggttcgca 1980

tggatgacaa gaaagtccga agaaacgatt actccatgga attttgagga agttgtcgat 2040

aaaggtgcgt cagctcaatc gttcatcgag aggatgacca actttgacaa gaatttaccg 2100

aacgaaaaag tattgcctaa gcacagttta ctttacgagt atttcacagt gtacaatgaa 2160

ctcacgaaag ttaagtatgt cactgagggc atgcgtaaac ccgcctttct aagcggagaa 2220

cagaagaaag caatagtaga tctgttattc aagaccaacc gcaaagtgac agttaagcaa 2280

ttgaaagagg actactttaa gaaaattgaa tgcttcgatt ctgtcgagat ctccggggta 2340

gaagatcgat ttaatgcgtc acttggtacg tatcatgacc tcctaaagat aattaaagat 2400

aaggacttcc tggataacga agagaatgaa gatatcttag aagatatagt gttgactctt 2460

accctctttg aagatcggga aatgattgag gaaagactaa aaacatacgc tcacctgttc 2520

gacgataagg ttatgaaaca gttaaagagg cgtcgctata cgggctgggg acgattgtcg 2580

cggaaactta tcaacgggat aagagacaag caaagtggta aaactattct cgattttcta 2640

aagagcgacg gcttcgccaa taggaacttt atgcagctga tccatgatga ctctttaacc 2700

ttcaaagagg atatacaaaa ggcacaggtt tccggacaag gggactcatt gcacgaacat 2760

attgcgaatc ttgctggttc gccagccatc aaaaagggca tactccagac agtcaaagta 2820

gtggatgagc tagttaaggt catgggacgt cacaaaccgg aaaacattgt aatcgagatg 2880

gcacgcgaaa atcaaacgac tcagaagggg caaaaaaaca gtcgagagcg gatgaagaga 2940

atagaagagg gtattaaaga actgggcagc cagatcttaa aggagcatcc tgtggaaaat 3000

acccaattgc agaacgagaa actttacctc tattacctac aaaatggaag ggacatgtat 3060

gttgatcagg aactggacat aaaccgttta tctgattacg acgtcgatgc cattgtaccc 3120

caatcctttt tgaaggacga ttcaatcgac aataaagtgc ttacacgctc ggataagaac 3180

cgagggaaaa gtgacaatgt tccaagcgag gaagtcgtaa agaaaatgaa gaactattgg 3240

cggcagctcc taaatgcgaa actgataacg caaagaaagt tcgataactt aactaaagct 3300

gagaggggtg gcttgtctga acttgacaag gccggattta ttaaacgtca gctcgtggaa 3360

acccgccaaa tcacaaagca tgttgcacag atactagatt cccgaatgaa tacgaaatac 3420

gacgagaacg ataagctgat tcgggaagtc aaagtaatca ctttaaagtc aaaattggtg 3480

tcggacttca gaaaggattt tcaattctat aaagttaggg agataaataa ctaccaccat 3540

gcgcacgacg cttatcttaa tgccgtcgta gggaccgcac tcattaagaa atacccgaag 3600

ctagaaagtg agtttgtgta tggtgattac aaagtttatg acgtccgtaa gatgatcgcg 3660

aaaagcgaac aggagatagg caaggctaca gccaaatact tcttttattc taacattatg 3720

aatttcttta agacggaaat cactctggca aacggagaga tacgcaaacg acctttaatt 3780

gaaaccaatg gggagacagg tgaaatcgta tgggataagg gccgggactt cgcgacggtg 3840

agaaaagttt tgtccatgcc ccaagtcaac atagtaaaga aaactgaggt gcagaccgga 3900

gggttttcaa aggaatcgat tcttccaaaa aggaatagtg ataagctcat cgctcgtaaa 3960

aaggactggg acccgaaaaa gtacggtggc ttcgatagcc ctacagttgc ctattctgtc 4020

ctagtagtgg caaaagttga gaagggaaaa tccaagaaac tgaagtcagt caaagaatta 4080

ttggggataa cgattatgga gcgctcgtct tttgaaaaga accccatcga cttccttgag 4140

gcgaaaggtt acaaggaagt aaaaaaggat ctcataatta aactaccaaa gtatagtctg 4200

tttgagttag aaaatggccg aaaacggatg ttggctagcg ccggagagct tcaaaagggg 4260

aacgaactcg cactaccgtc taaatacgtg aatttcctgt atttagcgtc ccattacgag 4320

aagttgaaag gttcacctga agataacgaa cagaagcaac tttttgttga gcagcacaaa 4380

cattatctcg acgaaatcat agagcaaatt tcggaattca gtaagagagt catcctagct 4440

gatgccaatc tggacaaagt attaagcgca tacaacaagc acagggataa acccatacgt 4500

gagcaggcgg aaaatattat ccatttgttt actcttacca acctcggcgc tccagccgca 4560

ttcaagtatt ttgacacaac gatagatcgc aaacgataca cttctaccaa ggaggtgcta 4620

gacgcgacac tgattcacca atccatcacg ggattatatg aaactcggat agatttgtca 4680

cagcttgggg gtgactctgg tggttctccc aagaagaaga ggaaagtcta a 4731

<210> 66

<211> 1576

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：AIDX-XTEN-dCas9的氨基酸序列

<400> 66

Met Asp Ser Leu Leu Met Asn Arg Arg Lys Phe Leu Tyr Gln Phe Lys

1 5 10 15

Asn Val Arg Trp Ala Lys Gly Arg Arg Glu Thr Tyr Leu Cys Tyr Val

20 25 30

Val Lys Arg Arg Asp Ser Ala Thr Ser Phe Ser Leu Asp Phe Gly Tyr

35 40 45

Leu Arg Asn Lys Asn Gly Cys His Val Glu Leu Leu Phe Leu Arg Tyr

50 55 60

Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg Val Thr Trp

65 70 75 80

Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg His Val Ala Asp

85 90 95

Phe Leu Arg Gly Asn Pro Asn Leu Ser Leu Arg Ile Phe Thr Ala Arg

100 105 110

Leu Tyr Phe Cys Glu Asp Arg Lys Ala Glu Pro Glu Gly Leu Arg Arg

115 120 125

Leu His Arg Ala Gly Val Gln Ile Ala Ile Met Thr Phe Lys Asp Tyr

130 135 140

Phe Tyr Cys Trp Asn Thr Phe Val Glu Asn His Glu Arg Thr Phe Lys

145 150 155 160

Ala Trp Glu Gly Leu His Glu Asn Ser Val Arg Leu Ser Arg Gln Leu

165 170 175

Arg Arg Ile Leu Leu Pro Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu

180 185 190

Ser Ala Thr Pro Glu Ser Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile

195 200 205

Gly Thr Asn Ser Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val

210 215 220

Pro Ser Lys Lys Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile

225 230 235 240

Lys Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala

245 250 255

Glu Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg

260 265 270

Lys Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala

275 280 285

Lys Val Asp Asp Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val

290 295 300

Glu Glu Asp Lys Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val

305 310 315 320

Asp Glu Val Ala Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg

325 330 335

Lys Lys Leu Val Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr

340 345 350

Leu Ala Leu Ala His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu

355 360 365

Gly Asp Leu Asn Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln

370 375 380

Leu Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala

385 390 395 400

Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser

405 410 415

Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn

420 425 430

Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn

435 440 445

Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser

450 455 460

Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly

465 470 475 480

Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala

485 490 495

Ile Leu Leu Ser Asp Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala

500 505 510

Pro Leu Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu His His Gln Asp

515 520 525

Leu Thr Leu Leu Lys Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr

530 535 540

Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile

545 550 555 560

Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile

565 570 575

Leu Glu Lys Met Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg

580 585 590

Glu Asp Leu Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro

595 600 605

His Gln Ile His Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu

610 615 620

Asp Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile

625 630 635 640

Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn

645 650 655

Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro

660 665 670

Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe

675 680 685

Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val

690 695 700

Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu

705 710 715 720

Leu Thr Lys Val Lys Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe

725 730 735

Leu Ser Gly Glu Gln Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr

740 745 750

Asn Arg Lys Val Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys

755 760 765

Ile Glu Cys Phe Asp Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe

770 775 780

Asn Ala Ser Leu Gly Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp

785 790 795 800

Lys Asp Phe Leu Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile

805 810 815

Val Leu Thr Leu Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg

820 825 830

Leu Lys Thr Tyr Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu

835 840 845

Lys Arg Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile

850 855 860

Asn Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu

865 870 875 880

Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp

885 890 895

Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly

900 905 910

Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro

915 920 925

Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu

930 935 940

Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu Met

945 950 955 960

Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu

965 970 975

Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile

980 985 990

Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu

995 1000 1005

Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr Val Asp Gln

1010 1015 1020

Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp Ala Ile

1025 1030 1035

Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys Val

1040 1045 1050

Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val Pro

1055 1060 1065

Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu

1070 1075 1080

Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr

1085 1090 1095

Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe

1100 1105 1110

Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His Val

1115 1120 1125

Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu Asn

1130 1135 1140

Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys

1145 1150 1155

Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg

1160 1165 1170

Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala

1175 1180 1185

Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser

1190 1195 1200

Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met

1205 1210 1215

Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr

1220 1225 1230

Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr

1235 1240 1245

Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn

1250 1255 1260

Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala

1265 1270 1275

Thr Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys

1280 1285 1290

Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu

1295 1300 1305

Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp

1310 1315 1320

Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr

1325 1330 1335

Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys

1340 1345 1350

Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg

1355 1360 1365

Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly

1370 1375 1380

Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr

1385 1390 1395

Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser

1400 1405 1410

Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys

1415 1420 1425

Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys

1430 1435 1440

Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln

1445 1450 1455

His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe

1460 1465 1470

Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu

1475 1480 1485

Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala

1490 1495 1500

Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro

1505 1510 1515

Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr

1520 1525 1530

Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser

1535 1540 1545

Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly

1550 1555 1560

Gly Asp Ser Gly Gly Ser Pro Lys Lys Lys Arg Lys Val

1565 1570 1575

<210> 67

<211> 4890

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：dCas9-XTEN-AIDX(K10E T82I E156G)的编码序列

<400> 67

atggactata aggaccacga cggagactac aaggatcatg atattgatta caaagacgat 60

gacgataaga tggccccaaa gaagaagcgg aaggtcggta tccacggagt cccagcagct 120

accatggaca agaagtattc tatcggactg gccatcggga ctaatagcgt cgggtgggcc 180

gtgatcactg acgagtacaa ggtgccctct aagaagttca aggtgctcgg gaacaccgac 240

cggcattcca tcaagaaaaa tctgatcgga gctctcctct ttgattcagg ggagaccgct 300

gaagcaaccc gcctcaagcg gactgctaga cggcggtaca ccaggaggaa gaaccggatt 360

tgttaccttc aagagatatt ctccaacgaa atggcaaagg tcgacgacag cttcttccat 420

aggctggaag aatcattcct cgtggaagag gataagaagc atgaacggca tcccatcttc 480

ggtaatatcg tcgacgaggt ggcctatcac gagaaatacc caaccatcta ccatcttcgc 540

aaaaagctgg tggactcaac cgacaaggca gacctccggc ttatctacct ggccctggcc 600

cacatgatca agttcagagg ccacttcctg atcgagggcg acctcaatcc tgacaatagc 660

gatgtggata aactgttcat ccagctggtg cagacttaca accagctctt tgaagagaac 720

cccatcaatg caagcggagt cgatgccaag gccattctgt cagcccggct gtcaaagagc 780

cgcagacttg agaatcttat cgctcagctg ccgggtgaaa agaaaaatgg actgttcggg 840

aacctgattg ctctttcact tgggctgact cccaatttca agtctaattt cgacctggca 900

gaggatgcca agctgcaact gtccaaggac acctatgatg acgatctcga caacctcctg 960

gcccagatcg gtgaccaata cgccgacctt ttccttgctg ctaagaatct ttctgacgcc 1020

atcctgctgt ctgacattct ccgcgtgaac actgaaatca ccaaggcccc tctttcagct 1080

tcaatgatta agcggtatga tgagcaccac caggacctga ccctgcttaa ggcactcgtc 1140

cggcagcagc ttccggagaa gtacaaggaa atcttctttg accagtcaaa gaatggatac 1200

gccggctaca tcgacggagg tgcctcccaa gaggaatttt ataagtttat caaacctatc 1260

cttgagaaga tggacggcac cgaagagctc ctcgtgaaac tgaatcggga ggatctgctg 1320

cggaagcagc gcactttcga caatgggagc attccccacc agatccatct tggggagctt 1380

cacgccatcc ttcggcgcca agaggacttc tacccctttc ttaaggacaa cagggagaag 1440

attgagaaaa ttctcacttt ccgcatcccc tactacgtgg gacccctcgc cagaggaaat 1500

agccggtttg cttggatgac cagaaagtca gaagaaacta tcactccctg gaacttcgaa 1560

gaggtggtgg acaagggagc cagcgctcag tcattcatcg aacggatgac taacttcgat 1620

aagaacctcc ccaatgagaa ggtcctgccg aaacattccc tgctctacga gtactttacc 1680

gtgtacaacg agctgaccaa ggtgaaatat gtcaccgaag ggatgaggaa gcccgcattc 1740

ctgtcaggcg aacaaaagaa ggcaattgtg gaccttctgt tcaagaccaa tagaaaggtg 1800

accgtgaagc agctgaagga ggactatttc aagaaaattg aatgcttcga ctctgtggag 1860

attagcgggg tcgaagatcg gttcaacgca agcctgggta cctaccatga tctgcttaag 1920

atcatcaagg acaaggattt tctggacaat gaggagaaag aggacatcct tgaggacatt 1980

gtcctgactc tcactctgtt cgaggaccgg gaaatgatcg aggagaggct taagacctac 2040

gcccatctgt tcgacgataa agtgatgaag caacttaaac ggagaagata taccggatgg 2100

ggacgcctta gccgcaaact catcaacgga atccgggaca aacagagcgg aaagaccatt 2160

cttgatttcc ttaagagcga cggattcgct aatcgcaact tcatgcaact tatccatgat 2220

gattccctga cctttaagga ggacatccag aaggcccaag tgtctggaca aggtgactca 2280

ctgcacgagc atatcgcaaa tctggctggt tcacccgcta ttaagaaggg tattctccag 2340

accgtgaaag tcgtggacga gctggtcaag gtgatgggtc gccataaacc agagaacatt 2400

gtcatcgaga tggccaggga aaaccagact acccagaagg gacagaagaa cagcagggag 2460

cggatgaaaa gaattgagga agggattaag gagctcgggt cacagatcct taaagagcac 2520

ccggtggaaa acacccagct tcagaatgag aagctctatc tgtactacct tcaaaatgga 2580

cgcgatatgt atgtggacca agagcttgat atcaacaggc tctcagacta cgacgtggac 2640

gccatcgtcc ctcagagctt cctcaaagac gactcaattg acaataaggt gctgactcgc 2700

tcagacaaga accggggaaa gtcagataac gtgccctcag aggaagtcgt gaaaaagatg 2760

aagaactatt ggcgccagct tctgaacgca aagctgatca ctcagcggaa gttcgacaat 2820

ctcactaagg ctgagagggg cggactgagc gaactggaca aagcaggatt cattaaacgg 2880

caacttgtgg agactcggca gattactaaa catgtagccc aaatccttga ctcacgcatg 2940

aataccaagt acgacgaaaa cgacaaactt atccgcgagg tgaaggtgat taccctgaag 3000

tccaagctgg tcagcgattt cagaaaggac tttcaattct acaaagtgcg ggagatcaat 3060

aactatcatc atgctcatga cgcatatctg aatgccgtgg tgggaaccgc cctgatcaag 3120

aagtacccaa agctggaaag cgagttcgtg tacggagact acaaggtcta cgacgtgcgc 3180

aagatgattg ccaaatctga gcaggagatc ggaaaggcca ccgcaaagta cttcttctac 3240

agcaacatca tgaatttctt caagaccgaa atcacccttg caaacggtga gatccggaag 3300

aggccgctca tcgagactaa tggggagact ggcgaaatcg tgtgggacaa gggcagagat 3360

ttcgctaccg tgcgcaaagt gctttctatg cctcaagtga acatcgtgaa gaaaaccgag 3420

gtgcaaaccg gaggcttttc taaggaatca atcctcccca agcgcaactc cgacaagctc 3480

attgcaagga agaaggattg ggaccctaag aagtacggcg gattcgattc accaactgtg 3540

gcttattctg tcctggtcgt ggctaaggtg gaaaaaggaa agtctaagaa gctcaagagc 3600

gtgaaggaac tgctgggtat caccattatg gagcgcagct ccttcgagaa gaacccaatt 3660

gactttctcg aagccaaagg ttacaaggaa gtcaagaagg accttatcat caagctccca 3720

aagtatagcc tgttcgaact ggagaatggg cggaagcgga tgctcgcctc cgctggcgaa 3780

cttcagaagg gtaatgagct ggctctcccc tccaagtacg tgaatttcct ctaccttgca 3840

agccattacg agaagctgaa ggggagcccc gaggacaacg agcaaaagca actgtttgtg 3900

gagcagcata agcattatct ggacgagatc attgagcaga tttccgagtt ttctaaacgc 3960

gtcattctcg ctgatgccaa cctcgataaa gtccttagcg catacaataa gcacagagac 4020

aaaccaattc gggagcaggc tgagaatatc atccacctgt tcaccctcac caatcttggt 4080

gcccctgccg cattcaagta cttcgacacc accatcgacc ggaaacgcta tacctccacc 4140

aaagaagtgc tggacgccac cctcatccac cagagcatca ccggacttta cgaaactcgg 4200

attgacctct cacagctcgg aggggatgag ggagctccca agaaaaagcg caaggtaggt 4260

agttccggat ctccgaaaaa gaaacgcaaa gttagcggca gcgagactcc cgggacctca 4320

gagtccgcca cacccgaaag tatggacagc ctcttgatga accggaggga gtttctttac 4380

caattcaaaa atgtccgctg ggctaagggt cggcgtgaga cctacctgtg ctacgtagtg 4440

aagaggcgtg acagtgctac atccttttca ctggactttg gttatcttcg caataagaac 4500

ggctgccacg tggaattgct cttcctccgc tacatctcgg actgggacct agaccctggc 4560

cgctgctacc gcgtcacctg gttcatctcc tggagcccct gctacgactg tgcccgacat 4620

gtggccgact ttctgcgagg gaaccccaac ctcagtctga ggatcttcac cgcgcgcctc 4680

tacttctgtg aggaccgcaa ggctgagccc gaggggctgc ggcggctgca ccgcgccggg 4740

gtgcaaatag ccatcatgac cttcaaagat tatttttact gctggaatac ttttgtagaa 4800

aaccatggaa gaactttcaa agcctgggaa gggctgcatg aaaattcagt tcgtctctcc 4860

agacagcttc ggcgcatcct tttgccctga 4890

<210> 68

<211> 1629

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：dCas9-XTEN-AIDX(K10E T82I E156G)的氨基酸序列

<400> 68

Met Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp His Asp Ile Asp

1 5 10 15

Tyr Lys Asp Asp Asp Asp Lys Met Ala Pro Lys Lys Lys Arg Lys Val

20 25 30

Gly Ile His Gly Val Pro Ala Ala Thr Met Asp Lys Lys Tyr Ser Ile

35 40 45

Gly Leu Ala Ile Gly Thr Asn Ser Val Gly Trp Ala Val Ile Thr Asp

50 55 60

Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly Asn Thr Asp

65 70 75 80

Arg His Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser

85 90 95

Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg

100 105 110

Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser

115 120 125

Asn Glu Met Ala Lys Val Asp Asp Ser Phe Phe His Arg Leu Glu Glu

130 135 140

Ser Phe Leu Val Glu Glu Asp Lys Lys His Glu Arg His Pro Ile Phe

145 150 155 160

Gly Asn Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr Pro Thr Ile

165 170 175

Tyr His Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys Ala Asp Leu

180 185 190

Arg Leu Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe Arg Gly His

195 200 205

Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp Val Asp Lys

210 215 220

Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn

225 230 235 240

Pro Ile Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala Arg

245 250 255

Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly

260 265 270

Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly

275 280 285

Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys

290 295 300

Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu Leu

305 310 315 320

Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala Lys Asn

325 330 335

Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val Asn Thr Glu

340 345 350

Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu

355 360 365

His His Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg Gln Gln Leu

370 375 380

Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn Gly Tyr

385 390 395 400

Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr Lys Phe

405 410 415

Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu Leu Leu Val

420 425 430

Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr Phe Asp Asn

435 440 445

Gly Ser Ile Pro His Gln Ile His Leu Gly Glu Leu His Ala Ile Leu

450 455 460

Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys

465 470 475 480

Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu

485 490 495

Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu

500 505 510

Thr Ile Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser

515 520 525

Ala Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro

530 535 540

Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr

545 550 555 560

Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly Met Arg

565 570 575

Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile Val Asp Leu

580 585 590

Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu Lys Glu Asp

595 600 605

Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile Ser Gly Val

610 615 620

Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp Leu Leu Lys

625 630 635 640

Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Lys Glu Asp Ile

645 650 655

Leu Glu Asp Ile Val Leu Thr Leu Thr Leu Phe Glu Asp Arg Glu Met

660 665 670

Ile Glu Glu Arg Leu Lys Thr Tyr Ala His Leu Phe Asp Asp Lys Val

675 680 685

Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser

690 695 700

Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile

705 710 715 720

Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln

725 730 735

Leu Ile His Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala

740 745 750

Gln Val Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu

755 760 765

Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val

770 775 780

Val Asp Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile

785 790 795 800

Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys

805 810 815

Asn Ser Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu

820 825 830

Gly Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln

835 840 845

Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr

850 855 860

Val Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp

865 870 875 880

Ala Ile Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys

885 890 895

Val Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val Pro

900 905 910

Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu Leu

915 920 925

Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala

930 935 940

Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg

945 950 955 960

Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu

965 970 975

Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg

980 985 990

Glu Val Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg

995 1000 1005

Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His

1010 1015 1020

His Ala His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu

1025 1030 1035

Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp

1040 1045 1050

Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln

1055 1060 1065

Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile

1070 1075 1080

Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile

1085 1090 1095

Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile

1100 1105 1110

Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu

1115 1120 1125

Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr

1130 1135 1140

Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp

1145 1150 1155

Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly

1160 1165 1170

Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala

1175 1180 1185

Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu

1190 1195 1200

Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn

1205 1210 1215

Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys

1220 1225 1230

Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu

1235 1240 1245

Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys

1250 1255 1260

Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr

1265 1270 1275

Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn

1280 1285 1290

Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp

1295 1300 1305

Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu

1310 1315 1320

Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His

1325 1330 1335

Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu

1340 1345 1350

Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe

1355 1360 1365

Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val

1370 1375 1380

Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu

1385 1390 1395

Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp Glu Gly Ala Pro

1400 1405 1410

Lys Lys Lys Arg Lys Val Gly Ser Ser Gly Ser Pro Lys Lys Lys

1415 1420 1425

Arg Lys Val Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala

1430 1435 1440

Thr Pro Glu Ser Met Asp Ser Leu Leu Met Asn Arg Arg Glu Phe

1445 1450 1455

Leu Tyr Gln Phe Lys Asn Val Arg Trp Ala Lys Gly Arg Arg Glu

1460 1465 1470

Thr Tyr Leu Cys Tyr Val Val Lys Arg Arg Asp Ser Ala Thr Ser

1475 1480 1485

Phe Ser Leu Asp Phe Gly Tyr Leu Arg Asn Lys Asn Gly Cys His

1490 1495 1500

Val Glu Leu Leu Phe Leu Arg Tyr Ile Ser Asp Trp Asp Leu Asp

1505 1510 1515

Pro Gly Arg Cys Tyr Arg Val Thr Trp Phe Ile Ser Trp Ser Pro

1520 1525 1530

Cys Tyr Asp Cys Ala Arg His Val Ala Asp Phe Leu Arg Gly Asn

1535 1540 1545

Pro Asn Leu Ser Leu Arg Ile Phe Thr Ala Arg Leu Tyr Phe Cys

1550 1555 1560

Glu Asp Arg Lys Ala Glu Pro Glu Gly Leu Arg Arg Leu His Arg

1565 1570 1575

Ala Gly Val Gln Ile Ala Ile Met Thr Phe Lys Asp Tyr Phe Tyr

1580 1585 1590

Cys Trp Asn Thr Phe Val Glu Asn His Gly Arg Thr Phe Lys Ala

1595 1600 1605

Trp Glu Gly Leu His Glu Asn Ser Val Arg Leu Ser Arg Gln Leu

1610 1615 1620

Arg Arg Ile Leu Leu Pro

1625

<210> 69

<211> 4890

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：dCas9-XTEN-AIDX的编码序列

<400> 69

atggactata aggaccacga cggagactac aaggatcatg atattgatta caaagacgat 60

gacgataaga tggccccaaa gaagaagcgg aaggtcggta tccacggagt cccagcagct 120

accatggaca agaagtattc tatcggactg gccatcggga ctaatagcgt cgggtgggcc 180

gtgatcactg acgagtacaa ggtgccctct aagaagttca aggtgctcgg gaacaccgac 240

cggcattcca tcaagaaaaa tctgatcgga gctctcctct ttgattcagg ggagaccgct 300

gaagcaaccc gcctcaagcg gactgctaga cggcggtaca ccaggaggaa gaaccggatt 360

tgttaccttc aagagatatt ctccaacgaa atggcaaagg tcgacgacag cttcttccat 420

aggctggaag aatcattcct cgtggaagag gataagaagc atgaacggca tcccatcttc 480

ggtaatatcg tcgacgaggt ggcctatcac gagaaatacc caaccatcta ccatcttcgc 540

aaaaagctgg tggactcaac cgacaaggca gacctccggc ttatctacct ggccctggcc 600

cacatgatca agttcagagg ccacttcctg atcgagggcg acctcaatcc tgacaatagc 660

gatgtggata aactgttcat ccagctggtg cagacttaca accagctctt tgaagagaac 720

cccatcaatg caagcggagt cgatgccaag gccattctgt cagcccggct gtcaaagagc 780

cgcagacttg agaatcttat cgctcagctg ccgggtgaaa agaaaaatgg actgttcggg 840

aacctgattg ctctttcact tgggctgact cccaatttca agtctaattt cgacctggca 900

gaggatgcca agctgcaact gtccaaggac acctatgatg acgatctcga caacctcctg 960

gcccagatcg gtgaccaata cgccgacctt ttccttgctg ctaagaatct ttctgacgcc 1020

atcctgctgt ctgacattct ccgcgtgaac actgaaatca ccaaggcccc tctttcagct 1080

tcaatgatta agcggtatga tgagcaccac caggacctga ccctgcttaa ggcactcgtc 1140

cggcagcagc ttccggagaa gtacaaggaa atcttctttg accagtcaaa gaatggatac 1200

gccggctaca tcgacggagg tgcctcccaa gaggaatttt ataagtttat caaacctatc 1260

cttgagaaga tggacggcac cgaagagctc ctcgtgaaac tgaatcggga ggatctgctg 1320

cggaagcagc gcactttcga caatgggagc attccccacc agatccatct tggggagctt 1380

cacgccatcc ttcggcgcca agaggacttc tacccctttc ttaaggacaa cagggagaag 1440

attgagaaaa ttctcacttt ccgcatcccc tactacgtgg gacccctcgc cagaggaaat 1500

agccggtttg cttggatgac cagaaagtca gaagaaacta tcactccctg gaacttcgaa 1560

gaggtggtgg acaagggagc cagcgctcag tcattcatcg aacggatgac taacttcgat 1620

aagaacctcc ccaatgagaa ggtcctgccg aaacattccc tgctctacga gtactttacc 1680

gtgtacaacg agctgaccaa ggtgaaatat gtcaccgaag ggatgaggaa gcccgcattc 1740

ctgtcaggcg aacaaaagaa ggcaattgtg gaccttctgt tcaagaccaa tagaaaggtg 1800

accgtgaagc agctgaagga ggactatttc aagaaaattg aatgcttcga ctctgtggag 1860

attagcgggg tcgaagatcg gttcaacgca agcctgggta cctaccatga tctgcttaag 1920

atcatcaagg acaaggattt tctggacaat gaggagaaag aggacatcct tgaggacatt 1980

gtcctgactc tcactctgtt cgaggaccgg gaaatgatcg aggagaggct taagacctac 2040

gcccatctgt tcgacgataa agtgatgaag caacttaaac ggagaagata taccggatgg 2100

ggacgcctta gccgcaaact catcaacgga atccgggaca aacagagcgg aaagaccatt 2160

cttgatttcc ttaagagcga cggattcgct aatcgcaact tcatgcaact tatccatgat 2220

gattccctga cctttaagga ggacatccag aaggcccaag tgtctggaca aggtgactca 2280

ctgcacgagc atatcgcaaa tctggctggt tcacccgcta ttaagaaggg tattctccag 2340

accgtgaaag tcgtggacga gctggtcaag gtgatgggtc gccataaacc agagaacatt 2400

gtcatcgaga tggccaggga aaaccagact acccagaagg gacagaagaa cagcagggag 2460

cggatgaaaa gaattgagga agggattaag gagctcgggt cacagatcct taaagagcac 2520

ccggtggaaa acacccagct tcagaatgag aagctctatc tgtactacct tcaaaatgga 2580

cgcgatatgt atgtggacca agagcttgat atcaacaggc tctcagacta cgacgtggac 2640

gccatcgtcc ctcagagctt cctcaaagac gactcaattg acaataaggt gctgactcgc 2700

tcagacaaga accggggaaa gtcagataac gtgccctcag aggaagtcgt gaaaaagatg 2760

aagaactatt ggcgccagct tctgaacgca aagctgatca ctcagcggaa gttcgacaat 2820

ctcactaagg ctgagagggg cggactgagc gaactggaca aagcaggatt cattaaacgg 2880

caacttgtgg agactcggca gattactaaa catgtagccc aaatccttga ctcacgcatg 2940

aataccaagt acgacgaaaa cgacaaactt atccgcgagg tgaaggtgat taccctgaag 3000

tccaagctgg tcagcgattt cagaaaggac tttcaattct acaaagtgcg ggagatcaat 3060

aactatcatc atgctcatga cgcatatctg aatgccgtgg tgggaaccgc cctgatcaag 3120

aagtacccaa agctggaaag cgagttcgtg tacggagact acaaggtcta cgacgtgcgc 3180

aagatgattg ccaaatctga gcaggagatc ggaaaggcca ccgcaaagta cttcttctac 3240

agcaacatca tgaatttctt caagaccgaa atcacccttg caaacggtga gatccggaag 3300

aggccgctca tcgagactaa tggggagact ggcgaaatcg tgtgggacaa gggcagagat 3360

ttcgctaccg tgcgcaaagt gctttctatg cctcaagtga acatcgtgaa gaaaaccgag 3420

gtgcaaaccg gaggcttttc taaggaatca atcctcccca agcgcaactc cgacaagctc 3480

attgcaagga agaaggattg ggaccctaag aagtacggcg gattcgattc accaactgtg 3540

gcttattctg tcctggtcgt ggctaaggtg gaaaaaggaa agtctaagaa gctcaagagc 3600

gtgaaggaac tgctgggtat caccattatg gagcgcagct ccttcgagaa gaacccaatt 3660

gactttctcg aagccaaagg ttacaaggaa gtcaagaagg accttatcat caagctccca 3720

aagtatagcc tgttcgaact ggagaatggg cggaagcgga tgctcgcctc cgctggcgaa 3780

cttcagaagg gtaatgagct ggctctcccc tccaagtacg tgaatttcct ctaccttgca 3840

agccattacg agaagctgaa ggggagcccc gaggacaacg agcaaaagca actgtttgtg 3900

gagcagcata agcattatct ggacgagatc attgagcaga tttccgagtt ttctaaacgc 3960

gtcattctcg ctgatgccaa cctcgataaa gtccttagcg catacaataa gcacagagac 4020

aaaccaattc gggagcaggc tgagaatatc atccacctgt tcaccctcac caatcttggt 4080

gcccctgccg cattcaagta cttcgacacc accatcgacc ggaaacgcta tacctccacc 4140

aaagaagtgc tggacgccac cctcatccac cagagcatca ccggacttta cgaaactcgg 4200

attgacctct cacagctcgg aggggatgag ggagctccca agaaaaagcg caaggtaggt 4260

agttccggat ctccgaaaaa gaaacgcaaa gttagcggca gcgagactcc cgggacctca 4320

gagtccgcca cacccgaaag tatggacagc ctcttgatga accggaggaa gtttctttac 4380

caattcaaaa atgtccgctg ggctaagggt cggcgtgaga cctacctgtg ctacgtagtg 4440

aagaggcgtg acagtgctac atccttttca ctggactttg gttatcttcg caataagaac 4500

ggctgccacg tggaattgct cttcctccgc tacatctcgg actgggacct agaccctggc 4560

cgctgctacc gcgtcacctg gttcacctcc tggagcccct gctacgactg tgcccgacat 4620

gtggccgact ttctgcgagg gaaccccaac ctcagtctga ggatcttcac cgcgcgcctc 4680

tacttctgtg aggaccgcaa ggctgagccc gaggggctgc ggcggctgca ccgcgccggg 4740

gtgcaaatag ccatcatgac cttcaaagat tatttttact gctggaatac ttttgtagaa 4800

aaccatgaaa gaactttcaa agcctgggaa gggctgcatg aaaattcagt tcgtctctcc 4860

agacagcttc ggcgcatcct tttgccctga 4890

<210> 70

<211> 1629

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：dCas9-XTEN-AIDX的氨基酸序列

<400> 70

Met Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp His Asp Ile Asp

1 5 10 15

Tyr Lys Asp Asp Asp Asp Lys Met Ala Pro Lys Lys Lys Arg Lys Val

20 25 30

Gly Ile His Gly Val Pro Ala Ala Thr Met Asp Lys Lys Tyr Ser Ile

35 40 45

Gly Leu Ala Ile Gly Thr Asn Ser Val Gly Trp Ala Val Ile Thr Asp

50 55 60

Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly Asn Thr Asp

65 70 75 80

Arg His Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser

85 90 95

Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg

100 105 110

Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser

115 120 125

Asn Glu Met Ala Lys Val Asp Asp Ser Phe Phe His Arg Leu Glu Glu

130 135 140

Ser Phe Leu Val Glu Glu Asp Lys Lys His Glu Arg His Pro Ile Phe

145 150 155 160

Gly Asn Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr Pro Thr Ile

165 170 175

Tyr His Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys Ala Asp Leu

180 185 190

Arg Leu Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe Arg Gly His

195 200 205

Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp Val Asp Lys

210 215 220

Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn

225 230 235 240

Pro Ile Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala Arg

245 250 255

Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly

260 265 270

Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly

275 280 285

Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys

290 295 300

Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu Leu

305 310 315 320

Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala Lys Asn

325 330 335

Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val Asn Thr Glu

340 345 350

Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu

355 360 365

His His Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg Gln Gln Leu

370 375 380

Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn Gly Tyr

385 390 395 400

Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr Lys Phe

405 410 415

Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu Leu Leu Val

420 425 430

Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr Phe Asp Asn

435 440 445

Gly Ser Ile Pro His Gln Ile His Leu Gly Glu Leu His Ala Ile Leu

450 455 460

Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys

465 470 475 480

Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu

485 490 495

Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu

500 505 510

Thr Ile Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser

515 520 525

Ala Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro

530 535 540

Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr

545 550 555 560

Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly Met Arg

565 570 575

Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile Val Asp Leu

580 585 590

Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu Lys Glu Asp

595 600 605

Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile Ser Gly Val

610 615 620

Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp Leu Leu Lys

625 630 635 640

Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Lys Glu Asp Ile

645 650 655

Leu Glu Asp Ile Val Leu Thr Leu Thr Leu Phe Glu Asp Arg Glu Met

660 665 670

Ile Glu Glu Arg Leu Lys Thr Tyr Ala His Leu Phe Asp Asp Lys Val

675 680 685

Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser

690 695 700

Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile

705 710 715 720

Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln

725 730 735

Leu Ile His Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala

740 745 750

Gln Val Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu

755 760 765

Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val

770 775 780

Val Asp Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile

785 790 795 800

Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys

805 810 815

Asn Ser Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu

820 825 830

Gly Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln

835 840 845

Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr

850 855 860

Val Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp

865 870 875 880

Ala Ile Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys

885 890 895

Val Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val Pro

900 905 910

Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu Leu

915 920 925

Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala

930 935 940

Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg

945 950 955 960

Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu

965 970 975

Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg

980 985 990

Glu Val Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg

995 1000 1005

Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His

1010 1015 1020

His Ala His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu

1025 1030 1035

Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp

1040 1045 1050

Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln

1055 1060 1065

Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile

1070 1075 1080

Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile

1085 1090 1095

Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile

1100 1105 1110

Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu

1115 1120 1125

Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr

1130 1135 1140

Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp

1145 1150 1155

Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly

1160 1165 1170

Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala

1175 1180 1185

Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu

1190 1195 1200

Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn

1205 1210 1215

Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys

1220 1225 1230

Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu

1235 1240 1245

Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys

1250 1255 1260

Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr

1265 1270 1275

Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn

1280 1285 1290

Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp

1295 1300 1305

Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu

1310 1315 1320

Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His

1325 1330 1335

Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu

1340 1345 1350

Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe

1355 1360 1365

Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val

1370 1375 1380

Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu

1385 1390 1395

Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp Glu Gly Ala Pro

1400 1405 1410

Lys Lys Lys Arg Lys Val Gly Ser Ser Gly Ser Pro Lys Lys Lys

1415 1420 1425

Arg Lys Val Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala

1430 1435 1440

Thr Pro Glu Ser Met Asp Ser Leu Leu Met Asn Arg Arg Lys Phe

1445 1450 1455

Leu Tyr Gln Phe Lys Asn Val Arg Trp Ala Lys Gly Arg Arg Glu

1460 1465 1470

Thr Tyr Leu Cys Tyr Val Val Lys Arg Arg Asp Ser Ala Thr Ser

1475 1480 1485

Phe Ser Leu Asp Phe Gly Tyr Leu Arg Asn Lys Asn Gly Cys His

1490 1495 1500

Val Glu Leu Leu Phe Leu Arg Tyr Ile Ser Asp Trp Asp Leu Asp

1505 1510 1515

Pro Gly Arg Cys Tyr Arg Val Thr Trp Phe Thr Ser Trp Ser Pro

1520 1525 1530

Cys Tyr Asp Cys Ala Arg His Val Ala Asp Phe Leu Arg Gly Asn

1535 1540 1545

Pro Asn Leu Ser Leu Arg Ile Phe Thr Ala Arg Leu Tyr Phe Cys

1550 1555 1560

Glu Asp Arg Lys Ala Glu Pro Glu Gly Leu Arg Arg Leu His Arg

1565 1570 1575

Ala Gly Val Gln Ile Ala Ile Met Thr Phe Lys Asp Tyr Phe Tyr

1580 1585 1590

Cys Trp Asn Thr Phe Val Glu Asn His Glu Arg Thr Phe Lys Ala

1595 1600 1605

Trp Glu Gly Leu His Glu Asn Ser Val Arg Leu Ser Arg Gln Leu

1610 1615 1620

Arg Arg Ile Leu Leu Pro

1625

<210> 71

<211> 4917

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：nCas9-AIDX的编码序列

<400> 71

atggactata aggaccacga cggagactac aaggatcatg atattgatta caaagacgat 60

gacgataaga tggccccaaa gaagaagcgg aaggtcggta tccacggagt cccagcagct 120

accatggaca agaagtattc tatcggactg gccatcggga ctaatagcgt cgggtgggcc 180

gtgatcactg acgagtacaa ggtgccctct aagaagttca aggtgctcgg gaacaccgac 240

cggcattcca tcaagaaaaa tctgatcgga gctctcctct ttgattcagg ggagaccgct 300

gaagcaaccc gcctcaagcg gactgctaga cggcggtaca ccaggaggaa gaaccggatt 360

tgttaccttc aagagatatt ctccaacgaa atggcaaagg tcgacgacag cttcttccat 420

aggctggaag aatcattcct cgtggaagag gataagaagc atgaacggca tcccatcttc 480

ggtaatatcg tcgacgaggt ggcctatcac gagaaatacc caaccatcta ccatcttcgc 540

aaaaagctgg tggactcaac cgacaaggca gacctccggc ttatctacct ggccctggcc 600

cacatgatca agttcagagg ccacttcctg atcgagggcg acctcaatcc tgacaatagc 660

gatgtggata aactgttcat ccagctggtg cagacttaca accagctctt tgaagagaac 720

cccatcaatg caagcggagt cgatgccaag gccattctgt cagcccggct gtcaaagagc 780

cgcagacttg agaatcttat cgctcagctg ccgggtgaaa agaaaaatgg actgttcggg 840

aacctgattg ctctttcact tgggctgact cccaatttca agtctaattt cgacctggca 900

gaggatgcca agctgcaact gtccaaggac acctatgatg acgatctcga caacctcctg 960

gcccagatcg gtgaccaata cgccgacctt ttccttgctg ctaagaatct ttctgacgcc 1020

atcctgctgt ctgacattct ccgcgtgaac actgaaatca ccaaggcccc tctttcagct 1080

tcaatgatta agcggtatga tgagcaccac caggacctga ccctgcttaa ggcactcgtc 1140

cggcagcagc ttccggagaa gtacaaggaa atcttctttg accagtcaaa gaatggatac 1200

gccggctaca tcgacggagg tgcctcccaa gaggaatttt ataagtttat caaacctatc 1260

cttgagaaga tggacggcac cgaagagctc ctcgtgaaac tgaatcggga ggatctgctg 1320

cggaagcagc gcactttcga caatgggagc attccccacc agatccatct tggggagctt 1380

cacgccatcc ttcggcgcca agaggacttc tacccctttc ttaaggacaa cagggagaag 1440

attgagaaaa ttctcacttt ccgcatcccc tactacgtgg gacccctcgc cagaggaaat 1500

agccggtttg cttggatgac cagaaagtca gaagaaacta tcactccctg gaacttcgaa 1560

gaggtggtgg acaagggagc cagcgctcag tcattcatcg aacggatgac taacttcgat 1620

aagaacctcc ccaatgagaa ggtcctgccg aaacattccc tgctctacga gtactttacc 1680

gtgtacaacg agctgaccaa ggtgaaatat gtcaccgaag ggatgaggaa gcccgcattc 1740

ctgtcaggcg aacaaaagaa ggcaattgtg gaccttctgt tcaagaccaa tagaaaggtg 1800

accgtgaagc agctgaagga ggactatttc aagaaaattg aatgcttcga ctctgtggag 1860

attagcgggg tcgaagatcg gttcaacgca agcctgggta cctaccatga tctgcttaag 1920

atcatcaagg acaaggattt tctggacaat gaggagaaag aggacatcct tgaggacatt 1980

gtcctgactc tcactctgtt cgaggaccgg gaaatgatcg aggagaggct taagacctac 2040

gcccatctgt tcgacgataa agtgatgaag caacttaaac ggagaagata taccggatgg 2100

ggacgcctta gccgcaaact catcaacgga atccgggaca aacagagcgg aaagaccatt 2160

cttgatttcc ttaagagcga cggattcgct aatcgcaact tcatgcaact tatccatgat 2220

gattccctga cctttaagga ggacatccag aaggcccaag tgtctggaca aggtgactca 2280

ctgcacgagc atatcgcaaa tctggctggt tcacccgcta ttaagaaggg tattctccag 2340

accgtgaaag tcgtggacga gctggtcaag gtgatgggtc gccataaacc agagaacatt 2400

gtcatcgaga tggccaggga aaaccagact acccagaagg gacagaagaa cagcagggag 2460

cggatgaaaa gaattgagga agggattaag gagctcgggt cacagatcct taaagagcac 2520

ccggtggaaa acacccagct tcagaatgag aagctctatc tgtactacct tcaaaatgga 2580

cgcgatatgt atgtggacca agagcttgat atcaacaggc tctcagacta cgacgtggac 2640

catatcgtcc ctcagagctt cctcaaagac gactcaattg acaataaggt gctgactcgc 2700

tcagacaaga accggggaaa gtcagataac gtgccctcag aggaagtcgt gaaaaagatg 2760

aagaactatt ggcgccagct tctgaacgca aagctgatca ctcagcggaa gttcgacaat 2820

ctcactaagg ctgagagggg cggactgagc gaactggaca aagcaggatt cattaaacgg 2880

caacttgtgg agactcggca gattactaaa catgtagccc aaatccttga ctcacgcatg 2940

aataccaagt acgacgaaaa cgacaaactt atccgcgagg tgaaggtgat taccctgaag 3000

tccaagctgg tcagcgattt cagaaaggac tttcaattct acaaagtgcg ggagatcaat 3060

aactatcatc atgctcatga cgcatatctg aatgccgtgg tgggaaccgc cctgatcaag 3120

aagtacccaa agctggaaag cgagttcgtg tacggagact acaaggtcta cgacgtgcgc 3180

aagatgattg ccaaatctga gcaggagatc ggaaaggcca ccgcaaagta cttcttctac 3240

agcaacatca tgaatttctt caagaccgaa atcacccttg caaacggtga gatccggaag 3300

aggccgctca tcgagactaa tggggagact ggcgaaatcg tgtgggacaa gggcagagat 3360

ttcgctaccg tgcgcaaagt gctttctatg cctcaagtga acatcgtgaa gaaaaccgag 3420

gtgcaaaccg gaggcttttc taaggaatca atcctcccca agcgcaactc cgacaagctc 3480

attgcaagga agaaggattg ggaccctaag aagtacggcg gattcgattc accaactgtg 3540

gcttattctg tcctggtcgt ggctaaggtg gaaaaaggaa agtctaagaa gctcaagagc 3600

gtgaaggaac tgctgggtat caccattatg gagcgcagct ccttcgagaa gaacccaatt 3660

gactttctcg aagccaaagg ttacaaggaa gtcaagaagg accttatcat caagctccca 3720

aagtatagcc tgttcgaact ggagaatggg cggaagcgga tgctcgcctc cgctggcgaa 3780

cttcagaagg gtaatgagct ggctctcccc tccaagtacg tgaatttcct ctaccttgca 3840

agccattacg agaagctgaa ggggagcccc gaggacaacg agcaaaagca actgtttgtg 3900

gagcagcata agcattatct ggacgagatc attgagcaga tttccgagtt ttctaaacgc 3960

gtcattctcg ctgatgccaa cctcgataaa gtccttagcg catacaataa gcacagagac 4020

aaaccaattc gggagcaggc tgagaatatc atccacctgt tcaccctcac caatcttggt 4080

gcccctgccg cattcaagta cttcgacacc accatcgacc ggaaacgcta tacctccacc 4140

aaagaagtgc tggacgccac cctcatccac cagagcatca ccggacttta cgaaactcgg 4200

attgacctct cacagctcgg aggggatgag ggagctccca agaaaaagcg caaggtaggt 4260

agttccggat ctccgaaaaa gaaacgcaaa gttggtagtg atgctttaga cgattttgac 4320

ttagatatgc ttggttcaga cgcgttagac gacttcggtg gaggatccat ggacagcctc 4380

ttgatgaacc ggaggaagtt tctttaccaa ttcaaaaatg tccgctgggc taagggtcgg 4440

cgtgagacct acctgtgcta cgtagtgaag aggcgtgaca gtgctacatc cttttcactg 4500

gactttggtt atcttcgcaa taagaacggc tgccacgtgg aattgctctt cctccgctac 4560

atctcggact gggacctaga ccctggccgc tgctaccgcg tcacctggtt cacctcctgg 4620

agcccctgct acgactgtgc ccgacatgtg gccgactttc tgcgagggaa ccccaacctc 4680

agtctgagga tcttcaccgc gcgcctctac ttctgtgagg accgcaaggc tgagcccgag 4740

gggctgcggc ggctgcaccg cgccggggtg caaatagcca tcatgacctt caaagattat 4800

ttttactgct ggaatacttt tgtagaaaac catgaaagaa ctttcaaagc ctgggaaggg 4860

ctgcatgaaa attcagttcg tctctccaga cagcttcggc gcatcctttt gccctga 4917

<210> 72

<211> 1638

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：nCas9-AIDX的氨基酸序列

<400> 72

Met Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp His Asp Ile Asp

1 5 10 15

Tyr Lys Asp Asp Asp Asp Lys Met Ala Pro Lys Lys Lys Arg Lys Val

20 25 30

Gly Ile His Gly Val Pro Ala Ala Thr Met Asp Lys Lys Tyr Ser Ile

35 40 45

Gly Leu Ala Ile Gly Thr Asn Ser Val Gly Trp Ala Val Ile Thr Asp

50 55 60

Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly Asn Thr Asp

65 70 75 80

Arg His Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser

85 90 95

Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg

100 105 110

Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser

115 120 125

Asn Glu Met Ala Lys Val Asp Asp Ser Phe Phe His Arg Leu Glu Glu

130 135 140

Ser Phe Leu Val Glu Glu Asp Lys Lys His Glu Arg His Pro Ile Phe

145 150 155 160

Gly Asn Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr Pro Thr Ile

165 170 175

Tyr His Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys Ala Asp Leu

180 185 190

Arg Leu Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe Arg Gly His

195 200 205

Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp Val Asp Lys

210 215 220

Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn

225 230 235 240

Pro Ile Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala Arg

245 250 255

Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly

260 265 270

Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly

275 280 285

Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys

290 295 300

Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu Leu

305 310 315 320

Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala Lys Asn

325 330 335

Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val Asn Thr Glu

340 345 350

Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu

355 360 365

His His Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg Gln Gln Leu

370 375 380

Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn Gly Tyr

385 390 395 400

Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr Lys Phe

405 410 415

Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu Leu Leu Val

420 425 430

Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr Phe Asp Asn

435 440 445

Gly Ser Ile Pro His Gln Ile His Leu Gly Glu Leu His Ala Ile Leu

450 455 460

Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys

465 470 475 480

Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu

485 490 495

Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu

500 505 510

Thr Ile Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser

515 520 525

Ala Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro

530 535 540

Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr

545 550 555 560

Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly Met Arg

565 570 575

Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile Val Asp Leu

580 585 590

Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu Lys Glu Asp

595 600 605

Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile Ser Gly Val

610 615 620

Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp Leu Leu Lys

625 630 635 640

Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Lys Glu Asp Ile

645 650 655

Leu Glu Asp Ile Val Leu Thr Leu Thr Leu Phe Glu Asp Arg Glu Met

660 665 670

Ile Glu Glu Arg Leu Lys Thr Tyr Ala His Leu Phe Asp Asp Lys Val

675 680 685

Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser

690 695 700

Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile

705 710 715 720

Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln

725 730 735

Leu Ile His Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala

740 745 750

Gln Val Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu

755 760 765

Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val

770 775 780

Val Asp Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile

785 790 795 800

Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys

805 810 815

Asn Ser Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu

820 825 830

Gly Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln

835 840 845

Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr

850 855 860

Val Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp

865 870 875 880

His Ile Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys

885 890 895

Val Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val Pro

900 905 910

Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu Leu

915 920 925

Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala

930 935 940

Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg

945 950 955 960

Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu

965 970 975

Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg

980 985 990

Glu Val Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg

995 1000 1005

Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His

1010 1015 1020

His Ala His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu

1025 1030 1035

Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp

1040 1045 1050

Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln

1055 1060 1065

Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile

1070 1075 1080

Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile

1085 1090 1095

Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile

1100 1105 1110

Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu

1115 1120 1125

Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr

1130 1135 1140

Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp

1145 1150 1155

Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly

1160 1165 1170

Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala

1175 1180 1185

Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu

1190 1195 1200

Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn

1205 1210 1215

Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys

1220 1225 1230

Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu

1235 1240 1245

Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys

1250 1255 1260

Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr

1265 1270 1275

Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn

1280 1285 1290

Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp

1295 1300 1305

Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu

1310 1315 1320

Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His

1325 1330 1335

Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu

1340 1345 1350

Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe

1355 1360 1365

Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val

1370 1375 1380

Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu

1385 1390 1395

Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp Glu Gly Ala Pro

1400 1405 1410

Lys Lys Lys Arg Lys Val Gly Ser Ser Gly Ser Pro Lys Lys Lys

1415 1420 1425

Arg Lys Val Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp Met

1430 1435 1440

Leu Gly Ser Asp Ala Leu Asp Asp Phe Gly Gly Gly Ser Met Asp

1445 1450 1455

Ser Leu Leu Met Asn Arg Arg Lys Phe Leu Tyr Gln Phe Lys Asn

1460 1465 1470

Val Arg Trp Ala Lys Gly Arg Arg Glu Thr Tyr Leu Cys Tyr Val

1475 1480 1485

Val Lys Arg Arg Asp Ser Ala Thr Ser Phe Ser Leu Asp Phe Gly

1490 1495 1500

Tyr Leu Arg Asn Lys Asn Gly Cys His Val Glu Leu Leu Phe Leu

1505 1510 1515

Arg Tyr Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg

1520 1525 1530

Val Thr Trp Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg

1535 1540 1545

His Val Ala Asp Phe Leu Arg Gly Asn Pro Asn Leu Ser Leu Arg

1550 1555 1560

Ile Phe Thr Ala Arg Leu Tyr Phe Cys Glu Asp Arg Lys Ala Glu

1565 1570 1575

Pro Glu Gly Leu Arg Arg Leu His Arg Ala Gly Val Gln Ile Ala

1580 1585 1590

Ile Met Thr Phe Lys Asp Tyr Phe Tyr Cys Trp Asn Thr Phe Val

1595 1600 1605

Glu Asn His Glu Arg Thr Phe Lys Ala Trp Glu Gly Leu His Glu

1610 1615 1620

Asn Ser Val Arg Leu Ser Arg Gln Leu Arg Arg Ile Leu Leu Pro

1625 1630 1635

<210> 73

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 73

tccctcacct gttctgtcac 20

<210> 74

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 74

gctccagtaa tcactggtga 20

<210> 75

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 75

gatccagctc cagtaatcac 20

<210> 76

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 76

gtgattactg gagctggatc 20

<210> 77

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 77

atggggtacg taagctacag 20

<210> 78

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 78

gagattcgac ttttgagaga 20

<210> 79

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 79

tattactgtg caaactggga 20

<210> 80

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 80

caaactggga cggtgattac 20

<210> 81

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 81

gacggtgatt actggggcca 20

<210> 82

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 82

gttgttgcca atactttggc 20

<210> 83

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 83

atagcgtcag tctttcctgc 20

<210> 84

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 84

gtattggcaa caacctacac 20

<210> 85

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 85

aggggatccc agagatggac 20

<210> 86

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 86

tatgcttccc agtccatctc 20

<210> 87

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 87

tctgtcaaca gagtaacagc 20

<210> 88

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：sgRNA的靶标结合区

<400> 88

gtcccccctc cgaacgtgta 20

<210> 89

<211> 4

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头的重复基序

<400> 89

Ser Gly Gly Ser

1

<210> 90

<211> 5

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头的重复基序

<400> 90

Gly Ser Ser Gly Ser

1 5

<210> 91

<211> 4

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头的重复基序

<400> 91

Gly Gly Gly Ser

1

<210> 92

<211> 5

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头的重复基序

<400> 92

Gly Gly Gly Gly Ser

1 5

<210> 93

<211> 5

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头的重复基序

<400> 93

Ser Ser Ser Ser Gly

1 5

<210> 94

<211> 5

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头的重复基序

<400> 94

Gly Ser Gly Ser Ala

1 5

<210> 95

<211> 5

<212> PRT

<213> 人工序列

<220>

<223> 人工序列的描述：接头的重复基序

<400> 95

Gly Gly Ser Gly Gly

1 5

Claims

1.一种融合蛋白，其特征在于，所述融合蛋白含有胞嘧啶脱氨酶和核酸酶活性缺失、保留了解旋酶活性的Cas酶，或由胞嘧啶脱氨酶和核酸酶活性缺失、保留了解旋酶活性的Cas酶形成。

2.如权利要求1所述的融合蛋白，其特征在于，

所述Cas酶的核酸酶活性全部缺失，无DNA双链断裂能力，或部分缺失，仅具有DNA单链断裂能力；和/或

所述Cas酶选自：Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(也称为Csn1和Csx12)、Cas10、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4、其同源物或其修饰形式；优选地，所述Cas酶为Cas9酶，优选选自：来自化脓链球菌的Cas9、来自金黄色葡萄球菌的Cas9，以及来自嗜热链球菌的Cas9；和/或

所述胞嘧啶脱氨酶为全长胞嘧啶脱氨酶、或其保留了酶活的片段或突变体，其中所述片段至少包括胞嘧啶脱氨酶的NLS结构域、催化结构域和APOBEC样结构域；和/或

所述融合蛋白还包含以下序列中的一种或多种：接头，核定位序列，以及为了构建融合蛋白、促进重组蛋白的表达、获得自动分泌到宿主细胞外的重组蛋白、或利于重组蛋白的纯化而引入的氨基酸残基或氨基酸序列。

3.如权利要求2所述的融合蛋白，其特征在于，

所述Cas酶为Cas9酶，该酶的两个核酸内切酶催化结构域RuvC1和/或HNH发生突变，导致该酶核酸酶活性缺失、保留了解旋酶活性；优选地，所述Cas9酶的RuvC1和HNH都发生突变，导致该酶核酸酶活性缺失、保留了解旋酶活；更优选地，所述Cas9酶的第10个氨基酸天冬酰胺突变为丙氨酸或其它氨基酸，第841位氨基酸组氨酸突变为丙氨酸或其它氨基酸；更优选地，所述Cas9酶的氨基酸序列如SEQ ID NO:2第42－1452所示，或如SEQ ID NO:72第42-1419位氨基酸残基所示；和/或

所述胞嘧啶脱氨酶的片段至少包含胞嘧啶脱氨酶的第9－182位氨基酸残基，例如至少包含第1－182位氨基酸；优选地，所述片段由第1－182位氨基酸残基组成，由第1－186位氨基酸残基组成，或由第1－190位氨基酸残基组成；或者，所述胞嘧啶脱氨酶的氨基酸序列如SEQ ID NO:2第1457－1654位氨基酸所示，所述片段至少包含SEQ ID NO:2的第1465－1638位氨基酸残基，例如至少包含SEQ ID NO:2第1457－1638位氨基酸残基，优选地，所述片段由SEQ ID NO:2第1457－1638位氨基酸残基、SEQ ID NO:2第1457－1642位氨基酸残基，或SEQ ID NO:2第1457－1646位氨基酸残组成；所述突变体在第10、82和156位具有取代突变，优选地，所述取代突变是K10E、T82I和E156G，更优选地，所述突变体含有如SEQ ID NO:68第1447-1629位所示的氨基酸序列，或由如SEQ ID NO:68第1447-1629位所示的氨基酸残基组成。

4.如权利要求1所述的融合蛋白，其特征在于，所述融合蛋白的氨基酸序列如SEQ IDNO:2、4、66、68、70或72所示，或如SEQ ID NO:2第26－1654位氨基酸所示，或如SEQ ID NO:4第26－1638位所示，或如SEQ ID NO:68第26－1629位氨基酸所示，或如SEQ ID NO:70第26－1629位氨基酸所示，或如SEQ ID NO:72第26－1638位氨基酸所示。

5.一种多核苷酸序列，选自：

(1)编码权利要求1－4中任一项所述的融合蛋白的多核苷酸序列；和

(2)(1)所述序列的互补序列。

6.一种核酸构建物，所述核酸构建物含有权利要求5所述的多核苷酸序列；优选地，所述核酸构建物是表达载体，用于在宿主细胞中表达本文所述的融合蛋白。

7.一种宿主细胞，所述宿主细胞含有或表达权利要求1－4所述的融合蛋白，或含有权利要求5所述的多核苷酸序列或权利要求6所述的核酸构建物。

8.一种在细胞内产生点突变的方法，其特征在于，所述方法包括在所述细胞中表达权利要求1－4中任一项的融合蛋白和sgRNA的步骤，其中，所述sgRNA包括靶标结合区和Cas蛋白识别区，所述靶标结合区能特异性结合待突变的核酸序列，所述Cas蛋白识别区能被所述融合蛋白中的Cas酶识别并结合。

9.如权利要求8所述的方法，其特征在于，所述方法包括将所述融合蛋白或其表达载体和sgRNA或其表达载体转入所述细胞内，然后筛选获得所需要的突变核酸序列的步骤；和

任选地，所述sgRNA的靶标结合区与待突变的核酸序列的模板链特异性结合，模板链上sgRNA结合区域的对侧区紧邻该Cas蛋白所识别的前间区序列邻近基序，或隔开10个以内的碱基；和

任选地，所述待突变的核酸序列编码功能蛋白，优选地，所述功能蛋白选自：抗体、酶、脂蛋白、激素类蛋白、运输和贮存蛋白、运动蛋白、受体蛋白、和膜蛋白。

10.一种试剂盒，其特征在于，所述试剂盒含有权利要求1－4中任一项所述的融合蛋白、权利要求5所述的多核苷酸序列或权利要求6所述的核酸构建物。