CN105732816B

CN105732816B - 经修饰的级联核糖核蛋白及其用途

Info

Publication number: CN105732816B
Application number: CN201610081216.4A
Authority: CN
Inventors: 斯坦.乔翰.约瑟夫.布朗兹; 约翰.万德奥斯特
Original assignee: Caribou Biosciences Inc
Current assignee: Caribou Biosciences Inc
Priority date: 2011-12-30
Filing date: 2012-12-21
Publication date: 2020-12-25
Anticipated expiration: 2032-12-21
Also published as: CN105732816A; MX364830B; US20160186152A1; EP2798060A1; DK3091072T3; CY1120538T1; CN104321429A; HRP20181150T1; US20160186214A1; US10711257B2; RU2014127702A; CA2862018A1; US10954498B2; GB2512246B; BR112014016228A2; US20200325462A1; GB201605069D0; GB2512246A; HUE039617T2; MX2014007910A

Abstract

一种用于适应性抗病毒防御的成簇规律间隔短回文重复序列(CRISPR)相关复合物(级联)；所述级联蛋白质复合物至少包含CRISPR相关蛋白质亚基Cas7、Cas5和Cas6，其包括至少一个具有额外的氨基酸序列的亚基，该额外的氨基酸序列具有核酸或染色质修饰、可视化、转录激活或转录抑制活性。所述具有额外的活性的级联复合物与RNA分子组合，以产生核糖核蛋白复合物。该RNA分子被选择为与靶序列具有实质互补性。靶向的核糖核蛋白可用作遗传工程工具，在同源重组、非同源末端连接、基因修饰、基因整合、突变修复中用于核酸的精确切割，或用于它们的可视化、转录激活或抑制。与FokI二聚体融合的一对核糖核苷酸可用于在DNA中产生双链断裂，从而以序列特异性的方式促进这些应用。

Description

经修饰的级联核糖核蛋白及其用途

本申请是国际申请日为2012年12月21日、国家申请号为 201280071058.4(国际申请号为PCT/EP2012/076674)、发明名称为“经修饰的级联核糖核蛋白及其用途”的申请的分案申请。

本发明涉及遗传工程领域，更具体地涉及生物体(包括原核生物和真核生物)的基因和/或基因组修饰领域。本发明还涉及制作在基因组分析和遗传修饰方法中使用(无论体内还是体外)的位点特异性工具的方法。本发明更具体地涉及以序列特异性方式识别并关联于核酸序列的核糖核蛋白的领域。

细菌和古细菌具有多种多样的针对侵入性DNA的防御机制。所谓的CRISPR/Cas防御系统通过将质粒和病毒DNA片段整合到宿主染色体上的成簇规律间隔短回文重复序列(CRISPR)的基因座中来提供适应性免疫。病毒或质粒来源的序列，被称为间隔区，由重复的宿主来源的序列彼此隔开。这些重复元件是该免疫系统的遗传记忆，并且每个CRISPR基因座都含有在先前遇到外来遗传元件期间获得的独特“间隔区”序列的多样的所有组成成分(repertoire)。

外来DNA的获得是免疫的第一步，但是保护则需要将CRISPR 转录，并且需要将这些长的转录物加工成短的CRISPR来源的RNA (crRNA)，这些CRISPR来源的RNA各自含有与外来核酸攻击物 (challenger)互补的独特间隔区序列。

除了crRNA，在若干生物体中的遗传实验已表明，获得免疫力的步骤、crRNA生物发生和靶向干扰还需要一组独特的CRISPR相关 (Cas)蛋白质。另外，来自在系统发生上不同的CRISPR系统的Cas蛋白亚组已被证明装配成包括crRNA的大复合物。

最近对CRISPR/Cas系统的多样性的重新评估导致分类为三种不同的类型(Makarova K.等人(2011)Nature Reviews Microbiology-AOP， 2011年5月9日；doi：10.1038/nrmicro2577)，这些类型在cas基因含量上有所不同，并在整个CRISPR防御途径中显现出很大的差异。(本说明书中对CRISPR相关基因采用了Makarova分类和命名法。)CRISPR 基因座的RNA转录物(前crRNA)在I型和III型系统中被CRISPR相关(Cas)内切核糖核酸酶或在II型系统中被RNAase III在重复序列上特异性切割；生成的crRNA被Cas蛋白复合物所利用，作为引导RNA 来检测入侵DNA或RNA的互补序列。靶核酸的切割已在体外针对以尺子锚定机制(ruler-anchored mechanism)切割RNA的强烈火球菌(Pyrococcusfuriosus)III-B型系统得到证实，并且最近在体内针对在互补靶序列(原间隔区(protospacer))上切割DNA的嗜热链球菌 (Streptococcus thermophiles)II型系统得到证实。相比之下，对I型系统而言，CRISPR干扰的机制仍然在很大程度上是未知的。

模式生物体大肠杆菌(Escherichia coli)菌株K12拥有CRISPR/Cas I-E型(之前被称为CRISPR E亚型(Cse))。它含有八个cas基因(cas1、 cas2、cas3和cse1、cse2、cas7、cas5、cas6e)和下游CRISPR(2型重复)。在大肠杆菌K12中，这八个cas基因编码在CRISPR基因座的上游。Cas1 和Cas2似乎不是靶向干扰所需要的，而很有可能参与新靶序列的获得。相比之下，六种Cas蛋白：Cse1、Cse2、Cas3、Cas7、Cas5和Cas6e(之前也分别被称为CasA、CasB、Cas3、CasC/Cse4、CasD和CasE/Cse3) 对于针对λ噬菌体攻击的保护而言是必需的。这些蛋白质中的五种： Cse1、Cse2、Cas7、Cas5和Cas6e(之前分别被称为CasA、CasB、 CasC/Cse4、CasD和CasE/Cse3)与crRNA一起装配以形成被称为级联 (Cascade)的多亚基核糖核蛋白(RNP)。

在大肠杆菌中，级联(Cascade)是一种405kDa的核糖核蛋白复合物，其由化学计量不等的五种功能上必需的Cas蛋白 Cse1₁Cse2₂Cas7₆Cas5₁Cas6e₁(即，按以前的命名法为CasA₁B₂C₆D₁E₁) 以及61-nt CRISPR来源的RNA所组成。级联是专性RNP，其依赖于 crRNA以供复合物装配和稳定性以及入侵核酸序列的鉴别。级联是一种监视复合物，其发现并结合与crRNA的间隔区序列互补的外来核酸。

标题为“Structural basis for CRISPR RNA-guided DNA recognition byCascade”的Jore等人(2011)，Nature Structural&Molecular Biology 18：529-537描述了前crRNA转录物如何被级联的Cas6e亚基所切割，从而导致成熟的61 nt crRNA被CRISPR复合物所保留。crRNA作为引导RNA，用于通过crRNA间隔区与互补的原间隔区之间的碱基配对，级联与双链(ds)DNA分子的序列特异性结合，从而形成所谓的 R-环。已知这是一个ATP非依赖性的过程。

标题为“Small CRISPR RNAs guide antiviral defense in prokaryotes”的Brouns S.J.J.等人(2008)，Science 321：960-964教导了载有crRNA的级联需要Cas3来形成体内噬菌体抗性。

标题为“CRISPR interference：RNA-directed adaptive immunity in bacteriaand archaea”的Marraffini L和Sontheimer E.(2010)，Nature Reviews Genetics 11：181-190是一篇综述文章，其总结了本领域现有技术的知识状态。针对基于CRISPR的应用和技术提出了一些建议，但这主要是在产生用于乳制品行业的驯化细菌的噬菌体抗性株的领域。提出强烈火球菌中crRNP复合物对RNA分子的体外特异性切割还有待于进一步开发。还提出对CRISPR系统的操作是一种可能的在医院中减少抗生素抗性菌株传播的方式。作者强调，将需要进一步的研究工作来探索该技术在这些领域的潜在效用。

名称为“Genetic cluster of strains of Streptococcus thermophilushaving unique rheological properties for dairy fermentation”的 US2011236530A1(Manoury等人)公开了能发酵牛奶从而使其具有高度粘性和弱拉丝性(weakly ropy)的某些嗜热链球菌(S.thermophilus)菌株。公开了限定序列的特定CRISPR基因座。

名称为“Cas6 polypeptides and methods of use”的US2011217739 A1(Terns等人)公开了具有Cas6内切核糖核酸酶活性的多肽。该多肽切割具有Cas6识别域和切割位点的靶RNA多核苷酸。切割可在体外或体内进行。对诸如大肠杆菌或沃氏富盐菌(Haloferaxvolcanii)的微生物进行遗传修饰以使其表达Cas6内切核糖核酸酶活性。

名称为“Bifidobacteria CRISPR sequences”的WO2010054154 (Danisco)公开了在双歧杆菌中发现的各种CRISPR序列，以及它们在制备细菌的遗传改变的菌株中的用途，其中该遗传改变的菌株在其噬菌体抗性特征方面进行了改变。

名称为“Prokaryotic RNAi-like system and methods of use”的US2011189776 A1(Terns等人)描述了在体外或在原核微生物体内灭活靶多核苷酸的方法。该方法使用具有5-10个核苷酸的5′区的 psiRNA，该核苷酸选自来自紧临间隔区上游的CRISPR基因座的重复序列。3′区与靶多核苷酸的一部分实质互补。还描述了在psiRNA和靶多核苷酸的存在下具有内切核酸酶活性的多肽。

名称为“Use of CRISPR associated genes(CAS)”的EP2341149 A1 (Danisco)描述了一个或多个Cas基因如何能用于调节细菌细胞对噬菌体的抗性；特别是在乳制品中提供起子培养物或益生菌培养物的细菌。

名称为“Compositions and methods for downregulating prokaryotic genes”的WO2010075424(The Regents of the University of California) 公开了包含CRISPR阵列的分离的多核苷酸。CRISPR的至少一个间隔区与原核生物的基因互补，从而能够下调该基因的表达；特别是当该基因与生物燃料生产相关时。

名称为“Cultures with improved phage resistance”的WO2008108989(Danisco)公开了选择细菌的噬菌体抗性菌株，以及选择具有与噬菌体RNA的区域有100％同一性的额外的间隔区的菌株。描述了用于乳制品行业的改良的菌株组合以及起子培养物轮换。描述了用作生物防治剂的某些噬菌体。

名称为“Molecular typing and subtyping of Salmonella by identificationof the variable nucleotide sequences of the CRISPR loci”的 WO2009115861(Institut Pasteur)公开了检测和鉴定沙门氏菌属 (Salmonella)细菌的方法，该方法利用了它们包含在CRISPR基因座中的可变核苷酸序列。

名称为“Detection and typing of bacterial strains”的WO2006073445(Danisco)描述了食物产品、膳食补充剂和环境样品中的细菌菌株的检测和分型。通过特定CRISPR核苷酸序列来鉴定乳杆菌属 (Lactobacillus)的菌株。

标题为“Genome editing with engineered zinc finger nucleases”的 UrnovF等人(2010)，Nature 11：636-646是一篇关于锌指核酸酶及其如何已经在一系列模式生物中的反向遗传学领域中发挥作用的综述文章。已经开发了锌指核酸酶，从而使得精确靶向基因组切割成为可能，其后是在随后的修复过程中的基因修饰。然而，锌指核酸酶是通过将一些锌指DNA结合域与DNA切割域融合而产生的。DNA序列特异性是通过串联地偶联若干锌指而实现的，其中每个锌指均识别三核苷酸基序。该技术的显著缺点在于需要为每一个需要进行切割的新 DNA基因座开发新的锌指。这需要蛋白质工程和广泛的筛选，以确保DNA结合的特异性。

在遗传工程和基因组研究领域中，持续需要用于序列/位点特异性核酸检测和/或切割的改进试剂。

本发明人惊奇地发现，某些表达具有解旋酶-核酸酶活性的Cas3 的细菌将Cas3表达为与Cse1的融合体。本发明人还出乎意料地已经能够生产Cse1与其他核酸酶的人工融合体。

本发明人还发现，级联进行的Cas3非依赖性靶DNA识别标记出 DNA以供Cas3切割，并且发现该级联DNA结合受该靶DNA的拓扑学要求支配。

本发明人进一步发现，级联无法结合松弛的靶质粒，但令人惊讶的是级联对具有负超螺旋(nSC)拓扑结构的靶标显现出高亲和性。

因此，在第一方面，本发明提供了一种用于抗病毒防御的成簇规律间隔短回文重复序列(CRISPR)相关复合物(级联)，该级联蛋白复合物或其部分至少包含如下CRISPR相关蛋白质亚基：

-Cas7(或COG 1857)，其具有SEQ ID NO：3的氨基酸序列或与之有至少18％同一性的序列，

-Cas5(或COG1688)，其具有SEQ ID NO：4的氨基酸序列或与之有至少17％同一性的序列，和

-Cas6(或COG 1583)，其具有SEQ ID NO：5的氨基酸序列或与之有至少16％同一性的序列；

并且其中至少一个亚基包括提供核酸或染色质修饰、可视化、转录激活或转录抑制活性的额外的氨基酸序列。

包括具有核酸或染色质修饰、可视化、转录激活或转录抑制活性的额外的氨基酸序列的亚基是可被称为“连接到至少一个功能性部分上的亚基”的一个实例；功能性部分是由所述额外的氨基酸序列组成的多肽或蛋白质。转录激活活性可以是导致期望基因的激活或上调的活性；转录抑制活性导致期望基因的抑制或下调。如下文所进一步描述的，基因的选择是由于具有RNA分子的本发明级联复合物的靶向。

具有核酸或染色质修饰、可视化、转录激活或转录抑制活性的额外的氨基酸序列优选由连续的氨基酸残基形成。这些额外的氨基酸可被视为多肽或蛋白质，其为连续的，并形成所关注的Cas或Cse亚基的一部分。这样的多肽或蛋白质序列优选地通常不是任何Cas或Cse 亚基氨基酸序列的部分。换言之，具有核酸或染色质修饰、可视化、转录激活或转录抑制活性的额外的氯基酸序列可能不同于Cas或Cse 亚基氨基酸序列或其部分，即可能不同于Cas3亚基氨基酸序列或其部分。

根据需要，具有核酸或染色质修饰、可视化、转录激活或转录抑制活性的额外的氨基酸序列可获自或来源于相同的生物体，例如大肠杆菌，作为Cas或Cse亚基。

除以上内容以外和/或可替代地，具有核酸或染色质修饰、可视化、转录激活或转录抑制活性的额外的氨基酸序列可能是与Cas或Cse亚基的氨基酸序列“异源”的。因此，所述额外的氨基酸序列可获自或来源于与Cas和/或Cse亚基所来源或起源的生物体不同的生物体。

本文中，序列同一性可通过在国家生物技术信息中心(National Center forBiotechnology Information)网络服务器上的BLAST和随后的Cobalt多序列比对来确定，在该网络服务器上将所讨论的序列与参考序列(例如，SEQ ID NO：3、4或5)进行比较。可以依据基于 BLOSUM62矩阵的序列相似性百分比，或与给定的参考序列(例如， SEQ ID NO：3、4或5)的同一性百分比来定义氨基酸序列。序列的相似性或同一性涉及在计算与参考序列的保守百分比之前进行最优排列的初始步骤，并反映序列的进化关系的度量。

Cas7可具有与SEQ ID NO：3至少31％的序列相似性；Cas5可具有与SEQ ID NO：4至少26％的序列相似性。Cas6可具有与SEQ ID NO：5至少27％的序列相似性。

对于Cse1/CasA(502个氨基酸)：

>gi|16130667|ref|NP_417240.1|含有CRISP RNA(crRNA)的级联抗病毒复合蛋白[大肠杆菌菌株K-12亚株MG1655]

MNLLIDNWIPVRPRNGGKVQIINLQSLYCSRDQWRLSLPRDDMEL AALALLVCIGQIIAPAKDDVEFRHRIMNPLTEDEFQQLIAPWIDMFY LNHAEHPFMQTKGVKANDVTPMEKLLAGVSGATNCAFVNQPGQ GEALCGGCTAIALFNQANQAPGFGGGFKSGLRGGTPVTTFVRGIDL RSTVLLNVLTLPRLQKQFPNESHTENQPTWIKPIKSNESIPASSIGFV RGLFWQPAHIELCDPIGIGKCSCCGQESNLRYTGFLKEKFTFTVNG LWPHPHSPCLVTVKKGEVEEKFLAFTTSAPSWTQISRVVVDKIIQN ENGNRVAAVVNQFRNIAPQSPLELIMGGYRNNQASILERRHDVLMFNQGWQQYGNVINEIVTVGLGYKTALRKALYTFAEGFKNKDFKG AGVSVHETAERHFYRQSELLIPDVLANVNFSQADEVIADLRDKLH QLCEMLFNQSVAPYAHHPKLISTLALARATLYKHLRELKPQGGPS NG[SEQ ID NO：1]

对于Cse2/CasB(160个氨基酸)：

>gi|16130666|ref|NP_417239.1|含有CRISP RNA(crRNA)的级联抗病毒复合蛋白[大肠杆菌菌株K-12亚株MG1655]

MADEIDAMALYRAWQQLDNGSCAQIRRVSEPDELRDIPAFYRLVQ PFGWENPRHQQALLRMVFCLSAGKNVIRHQDKKSEQTTGISLGRA LANSGRINERRIFQLIRADRTADMVQLRRLLTHAEPVLDWPLMARMLTWWGKRERQQLLEDFVLTTNKNA[SEQ ID NO：2]

对于Cas7/CasC/Cse4(363个氨基酸)：

>gi|16130665|ref|NP_417238.1|含有CRISP RNA(crRNA)的级联抗病毒复合蛋白[大肠杆菌菌株K-12亚株MG1655]

MSNFINIHVLISHSPSCLNRDDMNMQKDAIFGGKRRVRISSQSLKR AMRKSGYYAQNIGESSLRTIHLAQLRDVLRQKLGERFDQKIIDKTL ALLSGKSVDEAEKISADAVTPWVVGEIAWFCEQVAKAEADNLDD KKLLKVLKEDIAAIRVNLQQGVDIALSGRMATSGMMTELGKVDG AMSIAHAITTHQVDSDIDWFTAVDDLQEQGSAHLGTQEFSSGVFY RYANINLAQLQENLGGASREQALEIATHVVHMLATEVPGAKQRTY AAFNPADMVMVNFSDMPLSMANAFEKAVKAKDGFLQPSIQAFNQ YWDRVANGYGLNGAAAQFSLSDVDPITAQVKQMPTLEQLKSWVR NNGEA[SEQ ID NO：3]

对于Cas5/CasD(224个氨基酸)：

>gi|90111483|ref|NP_417237.2|含有CRISP RNA(crRNA)的级联抗病毒复合蛋白[大肠杆菌菌株K-12亚株MG1655]

MRSYLILRLAGPMQAWGQPTFEGTRPTGRFPTRSGLLGLLGACLGI QRDDTSSLQALSESVQFAVRCDELILDDRRVSVTGLRDYHTVLGA REDYRGLKSHETIQTWREYLCDASFTVALWLTPHATMVISELEKA VLKPRYTPYLGRRSCPLTHPLFLGTCQASDPQKALLNYEPVGGDIY SEESVTGHHLKFTARDEPMITLPRQFASREWYVIKGGMDVSQ [SEQ ID NO：4]

对于Cas6e/CasE(199AA)：

>gi|16130663|ref|NP_417236.1|CRISPR RNA前体切割酶；含有 CRISP RNA(crRNA)的级联抗病毒复合蛋白[大肠杆菌菌株K-12亚株 MG1655]

MYLSKVIIARAWSRDLYQLHQGLWHLFPNRPDAARDFLFHVEKR NTPEGCHVLLQSAQMPVSTAVATVIKTKQVEFQLQVGVPLYFRLR ANPIKTILDNQKRLDSKGNIKRCRVPLIKEAEQIAWLQRKLGNAAR VEDVHPISERPQYFSGDGKSGKIQTVCFEGVLTINDAPALIDLVQQG IGPAKSMGCGLLSLAPL[SEQ ID NO：5]

在定义落入本发明范围内的序列变体的范围时，为避免疑问，以下为分别对变异程度的可选限制，将应用于SEQ ID NO：1、2、3、4 或5中的每一个，起始于如依据上述各个同一性百分比所规定的变体的相应最宽范围。因此，变体的范围可包括：至少16％、或至少17％、或至少18％、或至少19％、或至少20％、或至少21％、或至少22％、或至少23％、或至少24％、或至少25％、或至少26％、或至少27％、或至少28％、或至少29％、或至少30％、或至少31％、或至少32％、或至少33％、或至少34％、或至少35％、或至少36％、或至少37％、或至少38％、或至少39％、或至少40％、或至少41％、或至少42％、或至少43％，至少44％、或至少45％、或至少46％、或至少47％、或至少48％、或至少49％、或至少50％、或至少51％、或至少52％、或至少53％、或至少54％、或至少55％、或至少56％、或至少57％、或至少58％、或至少59％、或至少60％、或至少61％、或至少62％、或至少63％、或至少64％、或至少65％、或至少66％、或至少67％、或至少68％、或至少69％、或至少70％、或至少71％，至少72％、或至少73％、或至少74％、或至少75％、或至少76％、或至少77％、或至少78％、或至少79％、或至少80％、或至少81％、或至少82％、或至少83％、或至少84％、或至少85％、或至少86％、或至少87％、或至少88％、或至少89％、或至少90％、或至少91％、或至少92％、或至少93％、或至少94％、或至少95％、或至少96％、或至少97％、或至少98％、或至少99％或100％的氨基酸序列同一性。

本文中，在Cas蛋白亚基的定义中一直使用Makarova等人(2011) 的命名法。Makarova等人的文章在第5页的表2中列出了Cas基因以及它们所属的家族和超家族的名称。本文中，对Cas蛋白或Cse蛋白亚基的引用包括对其一部分由这些亚基构成的家族或超家族的交叉引用。

本文中，本发明的Cas和Cse亚基的参考序列可被定义为编码氨基酸序列的核苷酸序列。例如，针对Cas7的SEQ ID NO：3的氨基酸序列还包括编码该氨基酸序列的所有核酸序列。因此，包含在本发明范围内的Cas7变体包括与参考核酸序列至少具有所限定的氨基酸同一性或相似性百分比的核苷酸序列；以及具有介于该下限与100％之间的所有可能的同一性或相似性百分比的核苷酸序列。

本发明的级联复合物可由从超过一种不同的细菌或古细菌原核生物衍生或修饰得到的亚基组成。并且，来自不同Cas亚型的亚基可以混合。

在一个优选的方面，Cas6亚基为以下SEQ ID NO：17的Cas6e亚基，或为与SEQ IDNO：17有至少16％同一性的序列。

优选的Cas6e亚基的序列为>gi|16130663|ref|NP_417236.1| CRISPR RNA前体切割酶；含有CRISP RNA(crRNA)的级联抗病毒复合蛋白[大肠杆菌菌株K-12亚株MG1655]：

MYLSKVIIARAWSRDLYQLHQGLWHLFPNRPDAARDFLFHVEKR NTPEGCHVLLQSAQMPVSTAVATVIKTKQVEFQLQVGVPLYFRLR ANPIKTILDNQKRLDSKGNIKRCRVPLIKEAEQIAWLQRKLGNAAR VEDVHPISERPQYFSGDGKSGKIQTVCFEGVLTINDAPALIDLVQQG IGPAKSMGCGLLSLAPL[SEQ ID NO：17]

本发明的级联复合物或其部分-其包含至少一个包括具有核酸或染色质修饰、可视化、转录激活或转录抑制活性的额外的氨基酸序列的亚基-可进一步包含具有SEQ IDNO：2的氨基酸序列或与之有至少20％同一性的序列的Cse2(或YgcK样)亚基或其部分。或者，Cse 亚基被限定为与SEQ ID NO：2有至少38％的相似性。任选地，在本发明的蛋白质复合物中，是Cse2亚基包括具有核酸或染色质修饰活性的额外的氨基酸序列。

此外或可替代地，本发明的级联复合物可进一步包含具有SEQ ID NO：1的氨基酸序列或与之有至少9％同一性的序列的Cse1(或YgcL 样)亚基或其部分。任选地，在本发明的蛋白质复合物中，是Cse1亚基包括具有核酸或染色质修饰、可视化、转录激活或转录抑制活性的额外的氨基酸序列。

在优选的实施方案中，本发明的级联复合物为I型CRISPR-Cas 系统蛋白质复合物；更优选为I-E亚型CRISPR-Cas蛋白质复合物，或其可基于I-A型或I-B型复合物。I-C、D或F型复合物是可能的。

在基于大肠杆菌系统的特别优选的实施方案中，亚基可具有以下化学计量：Cse1₁Cse2₂Cas7₆Cas5₁Cas6₁或Cse1₁Cse2₂Cas7₆Cas5₁Cas6e₁。

具有核酸或染色质修饰、可视化、转录激活或转录抑制活性的额外的氨基酸序列可通过在天然或人工蛋白质表达系统中表达而翻译性地融合，或者通过化学合成步骤共价连接到至少一个亚基上；优选地，至少一个功能性部分至少融合或连接到Cse1、Cse2、Cas7、Cas5、 Cas6或Cas6e亚基中至少之一的N末端区域和/或C末端区域上。在特别优选的实施方案中，具有核酸或染色质修饰活性的额外的氨基酸序列融合或连接到Cse1、Cse2或Cas5亚基的N末端或C末端上；更优选地，该连接位于Cse1亚基的N末端、Cse2亚基的N末端或 Cas7亚基的N末端的区域。

具有核酸或染色质修饰、激活、抑制或可视化活性的额外的氨基酸序列可为蛋白质；任选地选自解旋酶、核酸酶、核酸酶-解旋酶、 DNA甲基转移酶(例如，Dam)或DNA脱甲基酶、组蛋白甲基转移酶、组蛋白脱甲基酶、乙酰化酶、脱乙酰酶、磷酸酶、激酶、转录(辅)激活物、RNA聚合酶亚基、转录阻抑物、DNA结合蛋白、DNA结构化蛋白、标志物蛋白、报告蛋白、荧光蛋白、配体结合蛋白(例如，mCherry 或重金属结合蛋白)、信号肽(例如，Tat-信号序列)、亚细胞定位序列(例如，核定位序列)或抗体表位。

所关注的蛋白质可为来自除级联蛋白亚基具有其序列起源的细菌物种以外的物种的异源蛋白质。

当蛋白质为核酸酶时，它可为选自诸如FokI的II型限制性内切核酸酶或其突变体或活性部分中的核酸酶。其他可使用的II型限制性内切核酸酶包括EcoR1、EcoRV、BgII、BamHI、BsgI和BspMI。优选地，本发明的一种蛋白质复合物可与FokI的N末端结构域融合，而本发明的另一种蛋白质复合物可与FokI的C末端结构域融合。随后这两种蛋白质复合物可一起使用，以实现核酸中有利的基因座特异性双链切割，借此，如RNA组分(下文将定义和描述)所指导的，并且由于靶核酸链(下文也将更详细地描述)中所谓的“原间隔区邻近基序”(PAM)序列的存在，遗传物质中切割的位置由使用者来设计和选择。

在一个优选的实施方案中，本发明的蛋白质复合物具有为经修饰的限制性内切核酸酶如FokI的额外的氨基酸序列。该修饰优选地位于催化域中。在优选的实施方案中，经修饰的FokI为与蛋白质复合物的Cse1蛋白融合的KKR Sharkey或ELD Sharkey。在本发明的这些复合物的优选应用中，这些复合物中的两种(KKR Sharkey和ELD Sharkey)可以组合在一起。采用经不同修饰的FokI的蛋白质复合物的异二聚体对在核酸的靶向双链切割中具有特别的优势。若使用同型二聚体，则由于非特异性活性，有可能在非靶位点处具有更多的切割。异二聚体方法有利地提高了材料样品中切割的保真度。

以上所限定和描述的含有具有核酸或染色质修饰、可视化、转录激活或转录抑制活性的额外的氨基酸序列的级联复合物是本发明总体系统的组成部分，其有利地允许使用者采用本文所限定的核酸或染色质修饰、可视化、转录激活或转录抑制实体中的任一个，以预先确定的方式选择需要进行切割、标记或以某种方式进行其他改变(例如，甲基化)的精确遗传基因座。该系统的其他组成部分是RNA分子，其充当将本发明的级联复合物引导至打算进行修饰、切割或标记的DNA 或RNA上的正确基因座的引导物。

优选地，本发明的级联复合物还包含RNA分子，该RNA分子包含与期望的靶核酸序列有至少50％同一性的核糖核苷酸序列，并且其中该蛋白质复合物与RNA分子形成核糖核蛋白复合物。优选地，当 RNA分子与其预期靶核酸序列杂交时，形成核糖核蛋白复合物。当级联-功能性部分组合的必需组分、RNA分子和核酸(DNA或RNA) 在合适的生理条件下(无论是在体内还是在体外)一起存在时，形成核糖核蛋白复合物。不希望受到任何特定理论的束缚，本发明人认为，在dsDNA尤其是负超螺旋DNA的情况下，与dsDNA关联的级联复合物会导致双链的局部解旋，这随后使RNA与一条链关联；然后整个核糖核蛋白复合物沿着DNA链移动，直至到达与该RNA序列的至少一部分实质互补的靶序列，在此位点处在RNA和DNA链之间发生稳定的相互作用，并且功能性部分的功能发挥作用，无论是通过在该基因座处DNA的修饰、核酸酶切割还是标记。

在优选的实施方案中，RNA分子的一部分具有与靶核酸序列至少50％的同一性；更优选与靶序列至少95％的同一性。在更优选的实施方案中，RNA分子的该部分沿其长度与靶DNA序列实质互补；即，只有一个、两个、三个、四个或五个可能连续或不连续的错配。RNA 分子(或其部分)可具有与靶序列至少51％、或至少52％、或至少53％、或至少54％、或至少55％、或至少56％、或至少57％、或至少58％、或至少59％、或至少60％、或至少61％、或至少62％、或至少63％、或至少64％、或至少65％、或至少66％、或至少67％、或至少68％、或至少69％、或至少70％、或至少71％、或至少72％、或至少73％、或至少74％、或至少75％、或至少76％、或至少77％、或至少78％、或至少79％、或至少80％、或至少81％、或至少82％、或至少83％、或至少84％、或至少85％、或至少86％、或至少87％、或至少88％、或至少89％、或至少90％、或至少91％、或至少92％、或至少93％、或至少94％、或至少95％、或至少96％、或至少97％、或至少98％、或至少99％或100％的同一性。

靶核酸可为DNA(ss或ds)或RNA。

在其他优选的实施方案中，RNA分子或其部分具有与靶核酸至少70％的同一性。在这样的同一性水平下，靶核酸优选为dsDNA。

RNA分子将优选地需要对靶核酸序列的高特异性和亲和性。如优选地通过非变性凝胶电泳或者等温滴定量热法、表面等离子体共振或基于荧光的滴定法所确定的，在1pM至1μM、优选1-100nM范围内的解离常数(Kd)是理想的。可使用电泳迁移率变动分析(EMSA)，也称为凝胶阻滞分析(参见Semenova E等人(2011)Proc.Natl.Acad. Sci.USA 108：10098-10103)来确定亲和力。

RNA分子优选地模仿来自大自然的原核生物中被称为CRISPR RNA(crRNA)分子的那些分子。crRNA分子的结构已经确立并在Jore 等人(2011)Nature Structural&Molecular Biology 18：529-537中更详细地解释。简而言之，I-E型成熟crRNA通常为61个核苷酸长，并由8个核苷酸的5’“柄”区、32个核苷酸的“间隔区”序列和形成具有四核苷酸环的发夹的21个核苷酸的3’序列组成。然而，本发明中使用的RNA不是必须要严格设计成天然存在的crRNA的设计，无论是在长度、区域或特异性RNA序列方面。很明显地，本发明中使用的RNA 分子可基于公共数据库中的或新发现的基因序列信息来设计，然后人工制成，例如，全部或部分通过化学合成。本发明的RNA分子还可通过在遗传修饰的细胞或无细胞表达系统中表达的方式来设计和产生，这种选择可包括部分或全部RNA序列的合成。

crRNA的结构和要求也已在Semenova E等人(2011)Proc.Natl. Acad.Sci.USA108：10098-10103中描述。存在所谓的“SEED(种子)”部分，其形成间隔区序列的5’端，并且其5’侧翼为8个核苷酸的5’柄区。Semenova等人(2011)已经发现，SEED序列的所有残基应与靶序列互补，尽管对于第6位的残基而言，错配是可被容忍的。类似地，在设计和制备针对靶基因座的本发明核糖核蛋白复合物的RNA组分 (即序列)时，可应用针对SEED序列的必要的匹配和错配规则。

因此，本发明包括检测和/或定位靶核酸分子中的单碱基改变的方法，其包括：使核酸样品与如上文所述的本发明的核糖核蛋白复合物接触，或与如上文所述的本发明的级联复合物和单独的RNA组分接触，并且其中RNA组分(包括当在核糖核蛋白复合物中时)的序列使得它借助8个核苷酸残基的连续序列中的6位上的单碱基改变来区别正常的等位基因和突变的等位基因。

在本发明的实施方案中，RNA分子可具有在35-75个残基范围内的长度。在优选的实施方案中，与需要的核酸序列互补并用于靶向该核酸序列的RNA部分为32或33个残基的长度。(在天然存在的 crRNA的情况下，其将对应于间隔区部分；如Semenova等人(2011) 的图1所示)。

本发明的核糖核蛋白复合物可另外具有RNA组分，该RNA组分包含位于与核酸靶序列至少有基本互补实质互补性的RNA序列的5’侧的8个残基。(与核酸靶序列至少有基本互补实质互补性的RNA序列将被理解为对应于在crRNA的情况下对应于作为间隔区序列。RNA的5’侧翼序列将被认为与crRNA的5’柄区相对应。这在Semenova 等人(2011)的图1中示出)。

本发明的核糖核蛋白复合物可具有位于RNA序列的3’侧的发夹和四核苷酸环形成序列，该RNA序列与DNA靶序列至少有实质互补性。(在crRNA的情况下，这将对应于如Semenova等人(2011)的图1 中所示的间隔区序列侧翼的3’柄)。

在一些实施方案中，该RNA可为CRISPR RNA(crRNA)。

本发明的级联蛋白和复合物在体外可针对其与RNA引导组分相结合从而在靶核酸(其可为DNA或RNA)的存在下形成核糖核蛋白复合物的活性进行表征。电泳迁移率变动分析(EMSA)可用作针对本发明的复合物与其核酸靶标之间的相互作用的功能分析。基本地，将本发明的级联-功能性部分复合物与核酸靶标混合，通过EMSA或通过功能性部分的特定读取来监测该级联-功能性部分复合物的稳定的相互作用，例如靶DNA在期望的位点处的内切核苷酸切割。这可通过采用具有已知特异性并在靶DNA分子中具有切割位点的市售酶的进一步的限制性片段长度分析来确定。

可使用扫描/原子力显微镜(SFM/AFM)成像来实现在引导RNA的存在下本发明的级联蛋白或复合物与DNA或RNA的结合的可视化，并且这可提供一种针对本发明的功能性复合物的存在的试验。

本发明还提供了一种编码至少一种成簇规律间隔短回文重复序列(CRISPR)相关蛋白质亚基的核酸分子，该蛋白质亚基选自：

a.Cse1亚基，其具有SEQ ID NO：1的氨基酸序列或与之有至少9％同一性的序列；

b.Cse2亚基，其具有SEQ ID NO：2的氨基酸序列或与之有至少 20％同一性的序列；

c.Cas7亚基，其具有SEQ ID NO：3的氨基酸序列或与之有至少 18％同一性的序列；

d.Cas5亚基，其具有SEQ ID NO：4的氨基酸序列或与之有至少 17％同一性的序列；

e.Cas6亚基，其具有SEQ ID NO：5的氨基酸序列或与之有至少 16％同一性的序列；并且

其中至少a、b、c、d或e包括具有核酸或染色质修饰、可视化、转录激活或转录抑制活性的额外的氨基酸序列。

具有核酸或染色质修饰、可视化、转录激活或转录抑制活性的额外的氨基酸序列优选地与CRISPR相关蛋白质亚基融合。

在上文限定的本发明的核酸中，核苷酸序列可以是分别编码SEQ ID NO：1、SEQ IDNO：2、SEQ ID NO：3、SEQ ID NO：4或SEQ ID NO：5 的核苷酸序列，或者在定义其变异序列的范围时，其可以是优选在严格条件下，更优选在极高严格性的条件下，可与该核苷酸序列杂交的序列。各种严格的杂交条件将是本领域熟练的读者所熟悉的。当两个互补核酸分子经历一定量的彼此氢键键合(称为Watson-Crick碱基配对)时，发生核酸分子的杂交。杂交的严格性可根据核酸周围的环境(即化学/物理/生物)条件、温度、杂交方法的性质以及所使用的核酸分子的组成和长度而不同。关于达到特定严格性程度所需的杂交条件的计算在Sambrook等人，Molecular Cloning：A Laboratory Manual(Cold Spring HarborLaboratory Press，Cold Spring Harbor，NY，2001)；以及 Tijssen，LaboratoryTechniques in Biochemistry and Molecular Biology-Hybridization with NucleicAcid Probes，第一部分第二章 (Elsevier，纽约，1993)中描述。T_m是核酸分子的50％的给定链与其互补链杂交时的温度。以下是一组示例性的杂交条件，而非限定性的：

极高严格性(允许享有至少90％同一性的序列杂交)

杂交： 5x SSC，于65℃，16小时

洗涤两次： 2x SSC，于室温(RT)，每次15分钟

洗涤两次： 0.5x SSC，于65℃，每次20分钟

高严格性(允许享有至少80％同一性的序列杂交)

杂交： 5x-6x SSC，于65℃-70℃，16-20小时

洗涤两次： 2x SSC，于RT，每次5-20分钟

洗涤两次： 1x SSC，于55℃-70℃，每次30分钟

低严格性(允许享有至少50％同一性的序列杂交)

杂交： 6x SSC，于RT至55℃，16-20小时

洗涤至少两次： 2x-3x SSC，于RT至55℃，每次20-30分钟。

核酸分子可为分离的核酸分子，并且可为RNA或DNA分子。

所述额外的氨基酸序列可选自解旋酶、核酸酶、核酸酶-解旋酶(例如，Cas3)、DNA甲基转移酶(例如，Dam)、DNA脱甲基酶、组蛋白甲基转移酶、组蛋白脱甲基酶、乙酰化酶、脱乙酰酶、磷酸酶、激酶、转录(辅)激活物、RNA聚合酶亚基、转录阻抑物、DNA结合蛋白、 DNA结构化蛋白、标志物蛋白、报告蛋白、荧光蛋白、配体结合蛋白(例如，mCherry或重金属结合蛋白)、信号肽(例如，Tat-信号序列)、亚细胞定位序列(例如，核定位序列)或抗体表位。所述额外的氨基酸序列可以是或来自从中衍生出相关级联蛋白质亚基的生物体的不同蛋白质。

本发明包括一种包含如上文所限定的核酸分子的表达载体。一种表达载体可含有编码单一级联蛋白质亚基的核苷酸序列，并且还可含有编码额外的氨基酸序列的核苷酸序列，从而在表达时该亚基和额外的序列融合。其他表达载体可包含仅编码不与任何额外的氨基酸序列融合的一种或多种级联蛋白质亚基的核苷酸序列。

具有核酸或染色质修饰活性的额外的氨基酸序列可通过接头多肽与任何级联亚基融合。接头可为多达约60个或多达约100个氨基酸残基的任何长度。优选地，接头具有在10个至60个、更优选10-20 个的范围内的氨基酸数目。氨基酸优选地为极性的和/或小的和/或带电荷的氨基酸(例如，Gln、Ser、Thr、Pro、Ala、Glu、Asp、Lys、Arg、 His、Asn、Cys、Tyr)。接头肽优选地设计成获得融合的功能性部分与级联亚基的正确间隔及定位，其中该部分与该级联亚基融合以允许与靶核苷酸的适当的相互作用。

本发明的表达载体(含有或不含有编码在表达时将与级联蛋白质亚基融合的氨基酸残基的核苷酸序列)可进一步包含编码如上文所限定的RNA分子的序列。因此，这样的表达载体可在合适的宿主中使用，以产生可靶向期望的核苷酸序列的本发明的核糖核蛋白。

相应地，本发明还提供了一种修饰、可视化靶核酸，或激活或抑制靶核酸的转录的方法，该方法包括使核酸与如上文所限定的核糖核蛋白复合物接触。该修饰可通过切割核酸或与之结合来进行。

本发明还包括一种修饰、可视化靶核酸，或激活或抑制靶核酸的转录的方法，该方法包括使核酸接触如上文所限定的级联蛋白质复合物，加上如上文所限定的RNA分子。

按照上述方法，靶核酸的修饰、可视化或其转录的激活或抑制因此可在体外和在无细胞环境中进行；即，该方法作为生化反应进行，不论是游离在溶液中还是是否涉及固相。例如，靶核酸可结合到固相上。

在无细胞环境中，加入靶核酸、级联蛋白质复合物和RNA分子中的每一种的顺序由普通技术人员来选择。这三种组分可同时加入，以任意期望的顺序依次加入，或在不同的时间并以期望的顺序单独加入。因此，将靶核酸和RNA同时加入到反应混合物中，然后将本发明的级联蛋白质复合物随后以具体方法步骤的次序单独地加入是可能的。

靶核酸的修饰、可视化或其转录的激活或抑制可在细胞中原位进行，不论是分离的细胞还是作为多细胞组织、器官或生物体的一部分。因此，在完整组织和器官的情况下以及在生物体的情况下，该方法可在体内进行，或者其可通过将细胞从完整组织、器官或生物体中分离，然后使经核糖核蛋白复合物处理过的细胞返回至其之前的位置或不同的位置来进行，不论是在相同的还是不同的生物体内。因此，该方法将包括同种异体移植、自体移植、同种移植和异种移植。

在这些实施方案中，本发明的核糖核蛋白复合物或级联蛋白质复合物需要适当的向细胞内的递送形式，其将是本领域技术人员所熟知的，包括显微注射，不论是注射到细胞质内还是注射到细胞核内。

并且，在单独存在时，RNA分子需要适当的向细胞内的递送形式，不论是与级联蛋白质复合物同时、分别还是依次地。这样的将 RNA引入细胞的形式是本领域技术人员所熟知的，并且可包括经由常规转染方法的体外或离体递送。可分别使用诸如显微注射和电穿孔等物理方法，以及钙共沉淀和市售的阳离子聚合物和脂质，以及细胞穿透肽、细胞穿透颗粒(基因枪)。例如，病毒可用作递送载体，不论是递送至细胞质和/或细胞核——例如，通过本发明的级联蛋白质复合物或本发明的核糖核蛋白复合物与病毒颗粒的(可逆)融合。可使用病毒递送(例如，腺病毒递送)或土壤杆菌(Agrobacterium)介导的递送。

本发明还包括一种在细胞中修饰、可视化靶核酸、或激活或抑制靶核酸的转录的方法，该方法包括用如上文所述的任何表达载体转染、转化或转导该细胞。转染、转化或转导的方法是本领域技术人员所熟知的类型。在存在一种用于产生本发明的级联复合物的表达的表达载体且当RNA直接加入到细胞的情况下，可使用相同或不同的转染、转化或转导的方法。类似地，当存在一种正用于产生本发明的级联-功能性融合复合物的表达的表达载体且当另一种表达载体正用于通过表达而原位产生RNA时，可使用相同或不同的转染、转化或转导的方法。

在其他实施方案中，将编码本发明的级联复合物的mRNA引入细胞内，以使该级联复合物在细胞中表达。将级联蛋白复合物引导至期望的靶序列的RNA也被引入至该细胞中，不论是与该mRNA同时、分别还是依次地引入，从而在细胞中形成必需的核糖核蛋白复合物。

在上述修饰或可视化靶核酸的方法中，所述额外的氨基酸序列可以是标志物，并且该标志物与靶核酸相关联；优选地，其中该标志物为蛋白质；任选地为荧光蛋白，例如，绿色荧光蛋白(GFP)或黄色荧光蛋白(YFP)或mCherry。不论在体外、离体还是体外，本发明的方法可用于直接可视化核酸分子中的靶基因座，该核酸分子优选为更高阶结构的形式，诸如超螺旋质粒或染色体或诸如mRNA的单链靶核酸。靶基因座的直接可视化可使用电子显微镜检查或荧光显微镜检查。

可以使用其他种类的标签来标记靶核酸，包括有机染料分子、放射性标签和可为小分子的自旋标签。

在上述的本发明方法中，靶核酸为DNA；优选为dsDNA，尽管靶标可为RNA；优选为mRNA。

在用于修饰、可视化靶核酸、激活靶核酸的转录或抑制靶核酸的转录(其中靶核酸为dsDNA)的本发明的方法中，具有核酸或染色质修饰活性的额外的氨基酸序列可为核酸酶或解旋酶-核酸酶，并且该修饰优选为期望的基因座处的单链或双链断裂。采用这种方式，可通过使用级联-功能性部分复合物来使DNA的独特序列特异性切割工程化。最终核糖核蛋白复合物的RNA组分的所选序列为额外的氨基酸序列的作用提供了所需的序列特异性。

因此，本发明还提供了一种使细胞中的dsDNA分子在期望的基因座处进行非同源末端连接，从而从该dsDNA分子中除去至少一部分核苷酸序列，任选地敲除一个基因或多个基因的功能的方法，其中该方法包括采用如上文所述的任何修饰靶核酸的方法来制造双链断裂。

本发明进一步提供了一种将核酸同源重组到细胞中期望的基因座处的dsDNA分子内以修饰存在的核苷酸序列或插入期望的核苷酸序列的方法，其中该方法包括采用如上文所述的任何修饰靶核酸的方法在期望的基因座处产生双链或单链断裂。

本发明因此还提供了一种修饰、激活或抑制生物体中的基因表达的方法，该方法包括根据上文所述的任何方法来修饰靶核酸序列、激活靶核酸序列的转录或抑制靶核酸序列的转录，其中该核酸为 dsDNA，并且该功能性部分选自DNA修饰酶(例如，脱甲基酶或脱乙酰酶)、转录激活物或转录阻抑物。

本发明另外提供了一种修饰、激活或抑制生物体中的基因表达的方法，该方法包括根据上文所述的任何方法来修饰靶核酸序列、激活靶核酸序列的转录或抑制靶核酸序列的转录，其中该核酸为mRNA，并且该功能性部分为核糖核酸酶；任选地选自内切核酸酶、3’外切核酸酶或5’外切核酸酶。

在如上所述的本发明的任何方法中，经受该方法的细胞可以是原核细胞。类似地，该细胞可为以是真核细胞，例如，植物细胞、昆虫细胞、酵母细胞、真菌细胞、哺乳动物细胞或人细胞。当细胞是哺乳动物或人的细胞时，它可以是干细胞(但可能不是任何的人胚胎干细胞)。本发明中使用的这类干细胞优选为分离的干细胞。任选地，按照本发明的任何方法对细胞进行体外转染。

优选地，在本发明的任何方法中，靶核酸具有特定的三级结构，任选地为超螺旋的，更优选地其中该靶核酸为负超螺旋的。有利的是，本发明的核糖核蛋白复合物，不论是在体外产生的，或在细胞内形成的，还是通过细胞的表达机器在细胞内形成的，均可用于靶向以其他方式难以接近的基因座，以便应用期望的组分的功能活性，不论是特异性序列的标注或标记、核酸结构的修饰、基因表达的开启或关闭，还是涉及单链或双链切割、随后插入一个或多个核苷酸残基或盒的靶序列本身的修饰。

本发明还包括一种药物组合物，其包含如上文所述的本发明的级联蛋白质复合物或核糖核蛋白复合物。

本发明进一步包括一种药物组合物，其包含如上文所述的本发明的分离的核酸或表达载体。

还提供了一种试剂盒，其包含如上文所述的本发明的级联蛋白质复合物，以及如上文所述的本发明的RNA分子。

本发明包括一种用作药物的如上文所述的级联蛋白质复合物或核糖核蛋白复合物或核酸或载体。

本发明允许在指定的基因组基因座处物理地改变原核或真核宿主的DNA，或者改变给定基因座处基因的表达模式的多种可能性。可通过分别与合适的级联-亚基融合的功能域如核酸酶、甲基化酶、荧光蛋白、转录激活物或阻抑物，来对宿主基因组DNA进行切割、或甲基化修饰、荧光可视化、转录激活或抑制。此外，级联的RNA 引导的RNA结合能力允许用荧光级联融合蛋白监控活细胞中的RNA 运输，并提供了隔离或破坏宿主mRNA从而对宿主细胞的基因表达水平造成干扰的方法。

在本发明的任何方法中，可通过至少一种以下核苷酸三联体的存在来限定靶核酸，如果是dsDNA则优选如此：5’-CTT-3’、5’-CAT-3’、 5’-CCT-3’或5’-CTC-3’(或者如果靶标为RNA，则为5’-CUU-3’、 5’-CAU-3’、5’-CCU-3’或5’-CTC-3’)。三联体的位置是在与本发明的核糖核蛋白的RNA分子组分杂交的序列相邻的靶链上。三联体标记靶链序列中的位点，在该位点处，与核糖核蛋白的RNA分子组分的在靶标的5’至3’(下游)方向上不发生碱基配对(然而，碱基配对在该位点的靶序列的上游发生，其具有本发明核糖核蛋白的RNA分子组分的RNA序列的优选长度)。在天然I型CRISPR系统的情况下，三联体与被称为“PAM”(原间隔区邻近基序)的序列相对应。对于ssDNA 或ssRNA靶标，三联体之一的存在并非如此必要。

现将参考具体实施例和附图对本发明进行详细的描述，附图中：

图1显示了凝胶移位分析的结果，其中级联结合负超螺旋(nSC) 质粒DNA而不结合松弛的DNA。A)具有J3-级联(含有靶向(J3)crRNA) 的nSC质粒DNA的凝胶移位。将pUC-λ与2倍渐增量的J3-级联混合，pUC-λ：级联摩尔比从1∶0.5直至1∶256摩尔比。第一泳道和最后泳道仅含有pUC-λ。B)具有R44-级联(含有非靶向(R44)cRNA)的如(A) 中所述的凝胶移位。C)具有Nt.BspQI切刻的pUC-λ的如(A)中所述的凝胶移位。D)具有PdmI线性化的pUC-λ的如(A)中所述的凝胶移位。 E)针对游离J3-级联的浓度绘制的与J3-级联结合的pUC-λ分数的拟合给出了特异性结合的解离常数(Kd)。F)针对游离R44-级联的浓度绘制的与R44-级联结合的pUC-λ分数的拟合给出了非特异性结合的解离常数(Kd)。G)使用原间隔区序列中独特的BsmI限制位点，通过限制性分析监测的级联与原间隔区的特异性结合。泳道1和5仅含pUC-λ。泳道2和6含有与级联混合的pUC-λ。泳道3和7含有与级联混合的 pUC-λ，并且随后加入BsmI。泳道4和8含有与BsmI混合的pUC-λ。 H)与级联结合并且随后对质粒的一条链进行Nt.BspQI切割的pUC-λ的凝胶移位。泳道1和6仅含pUC-λ。泳道2和7含有与级联混合的 pUC-λ。泳道3和8含有与级联混合并且随后进行Nt.BspQI切刻的 pUC-λ。泳道4和9含有与级联混合的pUC-λ，接着加入与R-环中的替代链互补的ssDNA探针，随后用Nt.BspQI进行切刻。泳道5和10 含有用Nt.BspQI切刻的pUC-λ。H)与级联结合并且随后对质粒进行 Nt.BspQI切刻的pUC-λ的凝胶移位。泳道1和6仅含pUC-λ。泳道2 和7含有与级联混合的pUC-λ。泳道3和8含有与级联混合并且随后进行Nt.BspQI切割的pUC-λ。泳道4和9含有与级联混合的pUC-λ，接着加入与R-环中的替代链互补的ssDNA探针，随后用Nt.BspQI进行切割。泳道5和10含有用Nt.BspQI切割的pUC-λ。I)与级联结合并且随后对质粒的两条链都进行EcoRI切割的pUC-λ的凝胶移位。泳道1和6仅含pUC-λ。泳道2和7含有与级联混合的pUC-λ。泳道3 和8含有与级联混合并随后进行EcoRI切割的pUC-λ。泳道4和9含有与级联混合的pUC-λ，接着加入与R-环中的替代链互补的ssDNA 探针，并随后用EcoRI进行切割。泳道5和10含有用EcoRI切割的pUC-λ。

图2示出了扫描力显微照片，证明级联如何诱导靶DNA在原间隔区结合时的弯曲。A-P)具有包含靶向(J3)crRNA的J3-级联的nSC 质粒DNA的扫描力显微镜图像。pUC-λ与J3-级联以1∶7的pUC-λ：级联比例混合。每张图像示出了500x 500nm的表面区域。白点对应于级联。

图3示出了BiFC分析如何揭示级联和Cas3在靶标识别后相互作用。A)表达级联ΔCse1和CRISPR 7Tm(其靶向λ噬菌体基因组上的 7个原间隔区)以及Cse1-N155Venus和Cas3-C85Venus融合蛋白的细胞的Venus荧光。B)(A)中的细胞的亮视野图像。C)(A)与(B)的重叠。 D)λ噬菌体感染的细胞的Venus荧光，该细胞表达级联ΔCse1和 CRISPR 7Tm，以及Cse1-N155Venus和Cas3-C85Venus融合蛋白。 E)(G)中的细胞的亮视野图像。F)(G)与(H)的重叠。G)λ噬菌体感染的细胞的Venus荧光，该细胞表达级联ACse1和非靶向CRISPR R44，以及N155Venus和C85Venus蛋白。H)(J)中的细胞的亮视野图像。 I)(J)与(K)的重叠。J)每个菌株的4-7个个体细胞的荧光强度平均值，如使用LSM指示器(Car1 Zeiss)的图谱工具(profile tool)所确定的。

图4示出了CRISPR-干扰期间Cas3核酸酶和解旋酶的活性。A) 用pUC-λ转化表达级联、Cas3突变体和CRISPR J3的感受态BL21-AI 细胞。对每个表达Cas3突变体的菌株描述每微克pUC-λ的菌落形成单位(cfu/μg DNA)。表达野生型(wt)Cas3和crisprj3或crisprr44的细胞分别作为阳性对照和阴性对照。B)携带级联、Cas3突变体和 CRISPR编码质粒以及pUC-λ的BL21-AI细胞在抑制cas基因和 CRISPR表达的条件下生长。当t＝0时，表达被诱导。示出了丢失pUC-λ的细胞随时间推移的百分数，如通过氨苄青霉素敏感细胞与氨苄青霉素抗性细胞的比例所确定的。

图5示出了级联-Cas3融合复合物如何提供体内抗性并具有体外核酸酶活性。A)纯化的级联和级联-Cas3融合复合物的考马斯蓝染色的SDS-PAGE。B)λ噬菌体对表达级联-Cas3融合复合物和靶向(J3) 或非靶向(R44)CRISPR的细胞的成斑率，以及对单独表达级联和Cas3 以及靶向(J3)CRISPR的细胞的成斑率。C)具有J3-级联-Cas3融合复合物的nSC靶质粒的凝胶移位(在不存在二价金属离子的情况下)。 pUC-λ与2倍渐增量的J3-级联-Cas3混合，pUC-λ∶J3-级联-Cas3摩尔比从1∶0.5至高达1∶128摩尔比。第一泳道和最后的泳道仅含有 pUC-λ。D)具有J3-级联-Cas3融合复合物的nSC非靶质粒的凝胶移位电泳(在不存在二价金属离子的情况下)。pUC-p7与2倍渐增量的J3- 级联-Cas3混合，pUC-p7∶J3-级联-Cas3摩尔比从1∶0.5至高达1∶128 摩尔比。第一泳道和最后的泳道仅含有pUC-p7。E)在10mM MgCl₂的存在下，nSC靶质粒(pUC-λ，左)或nSC非靶质粒(pUC-p7，右)与 J3-级联-Cas3的温育。泳道1和7仅含有质粒。F)在2mM ATP的存在下进行的如(E)中所述的试验。G)用突变的J3-级联-Cas3K320N 复合物进行的如(E)中所述的试验。H)在2mM ATP的存在下进行的如(G)中所述的试验。

图6为显示大肠杆菌中CRISPR-干扰I型途径的模型的示意图。

图7为显示本发明的级联-FokI融合实施方案如何被用来创建 FokI二聚体的示意图，该FokI二聚体切割dsDNA以产生平末端作为非同源末端连接或同源重组过程的部分。

图8示出了BiFC分析如何揭示级联和Cas3在靶标识别时相互作用。表达不含Cse1的级联、Cse1-N155Venus和Cas3-C85Venus以及 CRISPR 7Tm(其靶向λ噬菌体基因组上的7个原间隔区)或非靶向 CRISPR R44的细胞的亮视野图像和Venus荧光的重叠。表达CRISPR7Tm的细胞仅在被λ噬菌体感染时是荧光的，而表达CRISPR R44的细胞为非荧光的。高强度的荧光点(细胞外)是由于反光的盐晶体。白色线条对应于10微米。

图9显示了编码CRISPR J3、级联和Cas3(野生型或S483AT485A) 的4个克隆的pUC-λ序列[SEQ ID NO：39-42]，表明它们是携带原间隔区(部分)缺失或携带种子区中的单点突变的逃逸突变体，这解释了为什么不能恢复这些质粒。

图10示出了来自含有I-E型CRISPR/Cas系统的生物体的cas3 基因的序列比对。来自链霉菌(Streptomyces sp.)SPB78(第一序列，登录号：ZP_07272643.1)[SEQ ID NO：43]、灰色链霉菌(Streptomyces griseus)(第二序列，登录号：YP_001825054)[SEQ ID NO：44]和嗜酸细链孢菌(Catenulispora acidiphila)DSM 44928(第三序列，登录号： YP_003114638)[SEQ ID NO：45]中的cas3-cse1基因以及包括来自灰色链霉菌的多肽接头序列的人工大肠杆菌Cas3-Cse1融合蛋白[SEQ ID NO：46]的比对。

图11示出了级联^KKR/ELD核酸酶对的设计，其中对FokI核酸酶结构域进行突变，以致只有由KKR和ELD核酸酶结构域组成的异二聚体和相对的结合位点之间的距离可发生变化，以确定级联核酸酶对之间的最佳距离。

图12是示出了级联-FokI核酸酶对的基因组靶向的示意图。

图13示出了级联-核酸酶复合物的SDS-PAGE凝胶。

图14示出了级联^KKR/ELD对质粒DNA的体外切割试验的电泳凝胶。

图15示出了级联^KKR/ELD的切割模式和频率[SEQ ID NO：47]。

实施例——所用的材料与方法

菌株、基因克隆、质粒和载体

全部使用大肠杆菌BL21-AI和大肠杆菌BL21(DE3)菌株。表1 列出了本研究中使用的所有质粒。之前所述的pWUR408、pWUR480、 pWUR404和pWUR547用来产生Strep-标记IIR44-级联，而 pWUR408、pWUR514和pWUR630用来产生Strep-标记II J3-级联 (Jore等人，(2011)Nature Structural&Molecular Biology 18，529-536； Semenova等人，(2011)Proceedings of the National Academy of Sciences of the United States ofAmerica 108，10098-10103)。pUC-λ (pWUR610)和pUC-p7(pWUR613)已经在别处(Jore等人，2011； Semenova等人，2011)有所描述。C85Venus蛋白由pWUR647编码， pWUR647对应于含有在BamHI和NotI位点之间克隆的合成 GA1070943构建体(表2)(Geneart)的pET52b(Novagen)。N155Venus 蛋白由pWUR648编码，pWUR648对应于含有在NotI和XhoI位点之间克隆的合成GA1070941构建体(表2)(Geneart)的pRSF1b (Novagen)。Cas3-C85Venus融合蛋白由pWUR649编码，pWUR649 对应于含有使用引物BG3186和BG3213(表3)在NcoI和BamHI位点之间扩增的Cas3扩增产物的pWUR647。CasA-N155Venus融合蛋白由pWUR650编码，pWUR650对应于含有使用引物BG3303和BG3212 (表3)在NcoI和BamHI位点之间扩增的CasA扩增产物的pWUR648。 CRISPR 7Tm由pWUR651编码，pWUR651对应于含有在NcoI和KpnI 位点之间克隆的合成GA1068859构建体(表2)(Geneart)的 pACYCDuet-1(Novagen)。编码级联的pWUR400、编码级联ΔCse1的 WUR401和编码Cas3的pWUR397在之前已有描述(Jore等人，2011)。编码Cas3H74A的pWUR652是使用引物BG3093、BG3094(表3)对 pWUR397进行定点诱变而构建的。

表1——所用的质粒

上表中的来源1是Brouns等人(2008)Science 321，960-964。

上表中的来源2是Jore等人(2011)Nature Structural&Molecular Biology 18：529-537。

表2——合成的构建体

GA1070943

ACTGGAAAGCGGGCAGTGAAAGGAAGGCCCATGAGGCCAGTTAATTAAGCGGA TCCTGGCGGCGGCAGCGGCGGCGGCAGCGACAAGCAGAAGAACGGCATCAAGG CGAACTTCAAGATCCGCCACAACATCGAGGACGGCGGCGTGCAGCTCGCCGACC ACTACCAGCAGAACACCCCCATCGGCGACGGCCCCGTGCTGCTGCCCGACAACC ACTACCTGAGCTACCAGTCCGCCCTGAGCAAAGACCCCAACGAGAAGCGCGATC ACATGGTCCTGCTGGAGTTCGTGACCGCCGCCGGGATCACTCTCGGCATGGACGA GCTGTACAAGTAAGCGGCCGCGGCGCGCCTAGGCCTTGACGGCCTTCCTTCAATT CGCCCTATAGTGAG[SEQ ID NO：6]

GA1070941

CACTATAGGGCGAATTGGCGGAAGGCCGTCAAGGCCGCATTTAATTAAGCGGCC GCAGGCGGCGGCAGCGGCGGCGGCAGCATGGTGAGCAAGGGCGAGGAGCTGTT CACCGGGGTGGTGCCCATCCTGGTCGAGCTGGACGGCGACGTAAACGGCCACAA GTTCAGCGTGTCCGGCGAGGGCGAGGGCGATGCCACCTACGGCAAGCTGACCCT GAAGCTCATCTGCACCACCGGCAAGCTGCCCGTGCCCTGGCCCACCCTCGTGACC ACCCTCGGCTACGGCCTGCAGTGCTTCGCCCGCTACCCCGACCACATGAAGCAGC ACGACTTCTTCAAGTCCGCCATGCCCGAAGGCTACGTCCAGGAGCGCACCATCTT CTTCAAGGACGACGGCAACTACAAGACCCGCGCCGAGGTGAAGTTCGAGGGCGA CACCCTGGTGAACCGCATCGAGCTGAAGGGCATCGACTTCAAGGAGGACGGCAA CATCCTGGGGCACAAGCTGGAGTACAACTACAACAGCCACAACGTCTATATCAC GGCCTAACTCGAGGGCGCGCCCTGGGCCTCATGGGCCTTCCGCTCACTGCCCGCT TTCCAG[SEQ ID NO：7]

GA1068859

CACTATAGGGCGAATTGGCGGAAGGCCGTCAAGGCCGCATGAGCTCCATGGAAA CAAAGAATTAGCTGATCTTTAATAATAAGGAAATGTTACATTAAGGTTGGTGGGT TGTTTTTATGGGAAAAAATGCTTTAAGAACAAATGTATACTTTTAGAGAGTTCCC 34CGCGCCAGCGGGGATAAACCGGGCCGATTGAAGGTCCGGTGGATGGCTTAAAAG AGTTCCCCGCGCCAGCGGGGATAAACCGCCGCAGGTACAGCAGGTAGCGCAGAT CATCAAGAGTTCCCCGCGCCAGCGGGGATAAACCGACTTCTCTCCGAAAAGTCA GGACGCTGTGGCAGAGTTCCCCGCGCCAGCGGGGATAAACCGCCTACGCGCTGA ACGCCAGCGGTGTGGTGAATGAGTTCCCCGCGCCAGCGGGGATAAACCGGTGTG GCCATGCACGCCTTTAACGGTGAACTGGAGTTCCCCGCGCCAGCGGGGATAAAC CGCACGAACTCAGCCAGAACGACAAACAAAAGGCGAGTTCCCCGCGCCAGCGG GGATAAACCGGCACCAGTACGCGCCCCACGCTGACGGTTTCTGAGTTCCCCGCGC CAGCGGGGATAAACCGCAGCTCCCATTTTCAAACCCAGGTACCCTGGGCCTCATGGGCCTTCCGCTCACTGCCCGCTTTCCAG[SEQ ID NO：8]

GA1047360

GAGCTCCCGGGCTGACGGTAATAGAGGCACCTACAGGCTCCGGTAAAACGGAAA CAGCGCTGGCCTATGCTTGGAAACTTATTGATCAACAAATTGCGGATAGTGTTAT TTTTGCCCTCCCAACACAAGCTACCGCGAATGCTATGCTTACGAGAATGGAAGCG AGCGCGAGCCACTTATTTTCATCCCCAAATCTTATTCTTGCTCATGGCAATTCACG GTTTAACCACCTCTTTCAATCAATAAAATCACGCGCGATTACTGAACAGGGGCAA GAAGAAGCGTGGGTTCAGTGTTGTCAGTGGTTGTCACAAAGCAATAAGAAAGTG TTTCTTGGGCAAATCGGCGTTTGCACGATTGATCAGGTGTTGATTTCGGTATTGCC AGTTAAACACCGCTTTATCCGTGGTTTGGGAATTGGTAGATCTGTTTTAATTGTTAATGAAGTTCATGCTTACGACACCTATATGAACGGCTTGCTCGAGGCAGTGCTCAA GGCTCAGGCTGATGTGGGAGGGAGTGTTATTCTTCTTTCCGCAACCCTACCAATG AAACAAAAACAGAAGCTTCTGGATACTTATGGTCTGCATACAGATCCAGTGGAA AATAACTCCGCATATCCACTCATTAACTGGCGAGGTGTGAATGGTGCGCAACGTTTTGATCTGCTAGCGGATCCGGTACC[SEQ ID NO：9]

表3——引物

蛋白质的生产和纯化

级联如(Jore等人，2011)所述进行表达和纯化。在整个纯化过程中，含有20mMHEPES pH 7.5、75mM NaCl、1mM DTT、2mM EDTA 的缓冲液用于重悬浮和洗涤。蛋白质的洗脱在含有4mM脱硫生物素的相同缓冲液中进行。级联-Cas3融合复合物以同样的方式表达和纯化，用20mM HEPES pH 7.5、200mM NaCl和1mM DTT进行洗涤步骤，并且在含有4mM脱硫生物素的20mM HEPES pH 7.5、75mM NaCl、1mM DTT中洗脱。

电泳迁移率变动分析

将纯化的级联或级联亚复合物与pUC-λ在含有20mM HEPES pH 7.5、75mM NaCl、1mM DTT、2mM EDTA的缓冲液中混合，并于 37℃温育15分钟。样品在0.8％TAE琼脂糖凝胶上电泳过夜，并用在TAE中1∶10000稀释的SybR safe(Invitrogen)进行后染色30分钟。在补充有5mM MgCl₂的HEPES反应缓冲液中进行BsmI(Fermentas) 或Nt.BspQI(New EnglandBiolabs)切割。

扫描力显微镜检查

将纯化的级联与pUC-λ(以7∶1的比例，250nM级联，35nM DNA) 在含有20mM HEPESpH 7.5、75mM NaCl、0.2mM DTT、0.3mM EDTA的缓冲液中混合，并于37℃温育15分钟。随后，为了制备 AFM样品，将温育的混合物在重蒸馏水中稀释10倍，加入MgCl₂至终浓度为1.2mM。蛋白质-DNA复合物的沉积和成像如前所述(Dame 等人，(2000)Nucleic Acids Res.28：3504-3510)进行。

荧光显微镜检查

携带CRISPR和cas基因编码质粒的BL21-AI细胞，在含有氨苄青霉素(100μg/ml)、卡那霉素(50μg/ml)、链霉素(50μg/ml)和氯霉素 (34μg/ml)的Luria-Bertani液体培养基(LB)中于37℃生长过夜。过夜培养物在新鲜的含有抗生素的LB中1∶100稀释，并于37℃生长1 小时。通过加入L-阿拉伯糖至终浓度为0.2％和加入IPTG至终浓度为 1mM来诱导cas基因和CRISPR的表达1小时。为了感染，将细胞与λ噬菌体以等于4的感染复数(MOI)混合。将细胞涂于聚-L-赖氨酸覆盖的显微镜载玻片上，并使用基于Axiovert倒置显微镜的ZeissLSM510共聚焦激光扫描显微镜进行分析，其中使用40x油浸物镜(1.3 的数值孔径(N.A.))，使用氩激光器作为激发源(514nm)，并于530-600 nm检测。对于所有的测量都将针孔设定为203μm。

pUC-λ转化研究

含有卡那霉素(50μg/ml)、链霉素(50μg/ml)和氯霉素(34μg/ml) 的LB从过夜预接种物接种，并生长至OD₆₀₀为0.3。用0.2％L-阿拉伯糖和1mM IPTG诱导cas基因和CRISPR的表达45分钟。通过4℃离心收集细胞，并通过在含有100mM RbCl₂、50mM MnCl₂、30mM 醋酸钾、10mM CaCl₂和15％甘油的冰冷缓冲液(pH 5.8)中重悬浮使其成为感受态细胞。温育3小时后，收集细胞，并重悬浮于含有10mM MOPS、10mM RbCl、75mM CaCl₂、15％甘油的pH 6.8缓冲液中。通过加入80ng pUC-λ，接着于42℃热激1分钟，并在冰上冷激5 分钟来进行转化。接下来，细胞在LB中于37℃生长45分钟，然后涂布到含有0.2％L-阿拉伯糖、1mM IPTG、氨苄青霉素(100μg/ml)、卡那霉素(50μg/ml)、链霉素(50μg/ml)和氯霉素(34μg/ml)的LB-琼脂平板上。

通过用pUC-λ转化含有cas基因和CRISPR编码质粒的BL21-AI 细胞来分析质粒消除(plasmid curing)，同时细胞在0.2％葡萄糖的存在下生长以抑制T7-聚合酶基因的表达。通过收集细胞并重悬浮于含有 0.2％阿拉伯糖和1mM IPTG的LB中来诱导cas基因和CRISPR的表达。将细胞涂布到或者含有链霉素、卡那霉素和氯霉素(对pUC-λ是非选择性的)或者含有氨苄青霉素、链霉素、卡那霉素和氯霉素(对 pUC-λ是选择性的)的LB-琼脂上。生长过夜后，可从选择性和非选择性平板上的菌落形成单位的比例来计算质粒丢失的百分比。

λ噬菌体感染研究

如(Brouns等人(2008)Science 321，960-964)中所述，使用毒性λ噬菌体(λ_病毒)来检测宿主对噬菌体感染的敏感性。如Brouns等人(2008) 所述，宿主对感染的敏感性以成斑率(含有抗-λCRISPR的菌株与含有非靶向R44CRISPR的菌株的噬菌斑计数比)计算。

实施例1——级联排他性地结合负超螺旋靶DNA

命名为pUC-λ的3kb的pUC19-衍生质粒含有与λ噬菌体J基因的一部分相对应的350bp的DNA片段，该DNA片段被J3-级联(与包含J3间隔区的crRNA相关联的级联)所靶向(Westra等人(2010) Molecular Microbiology 77，1380-1393)。电泳迁移率变动分析显示级联仅对负超螺旋(nSC)靶质粒具有高亲和性。在J3-级联与pUC-λ的摩尔比为6∶1时，所有nSC质粒被级联结合(参见图1A)，而携带非靶向 crRNA R44的级联(R44-级联)在128∶1的摩尔比下显现出非特异性结合(参见图1B)。nSC pUC-λ对于J3-级联的解离常数(Kd)测定为13± 1.4nM(参见图1E)，对于R44-级联的解离常数(Kd)测定为429±152 nM(参见图1F)。

J3-级联无法以可测量的亲和力结合松弛的靶DNA，诸如有切口的(参见图1C)或线性的pUC-λ(参见图1D)，显示级联对具有nSC拓扑结构的较长的DNA底物具有高亲和力。

为将非特异性结合与特异性结合区分开，使用了位于原间隔区内的BsmI限制位点。在R44-级联的存在下将BsmI酶加入pUC-λ产生了线性产物(参见图1G，泳道4)，而在J3-级联的存在下pUC-λ被保护免于BsmI切割(参见图1G，泳道7)，这指示与原间隔区的特异性结合。这表明，级联与nSC质粒中的原间隔区序列的体外序列特异性结合并不需要Cas3。

级联与nSC pUC-λ结合后，用Nt.BspQI产生切口，形成OC拓扑结构。在链产生切口后，级联从质粒中释放出来，这可从不存在迁移率变动看出(参见图1H，比较泳道8与泳道10)。相反，当在DNA 被Nt.BspQI切割之前向该反应中加入与替代链互补的ssDNA探针时，级联仍与其DNA靶标结合(参见图1H，泳道9)。该探针人工地将级联R-环稳定在松弛的靶DNA上。当pUC-λ的两条DNA链在级联结合后都被切割时，获得相似的观察结果(参见图11，泳道8和泳道9)。

实施例2——级联诱导被结合的靶DNA的弯曲

对纯化的级联和pUC-λ之间形成的复合物进行可视化。形成含有单个结合的J3-级联复合物的特异性复合物，而在该试验中在相同的条件下，非特异性R44-级联不产生DNA结合的复合物。发现在所观察的81个DNA分子中有76％结合有J3-级联(参见图2A至图2P)。在这些复合物中，大多数情况下级联在环的顶端被发现(86％)，而仅有小部分在非顶端位置被发现(14％)。这些数据显示，级联结合引起了DNA的弯曲和可能的缠绕，这或许有助于DNA双链体的局部解链。

实施例3——Cas3和Cse1的自然发生的融合：Cas3与级联在原间隔区识别后相互作用

图S3表明，对来自包含I-E型CRISPR/Cas系统的生物体的cas3 基因的序列分析揭示了Cas3和Cse1在链霉菌(Streptomyces sp.) SPB78(登录号：ZP_07272643.1)、灰色链霉菌(登录号：YP_001825054) 和嗜酸细链孢菌DSM 44928(登录号：YP_003114638)中以融合蛋白出现。

实施例4——双分子荧光互补实验(BiFC)显示了级联的Cse1融合蛋白形成部分如何继续与Cas3相互作用。

采用BiFC实验监测在λ噬菌体感染之前和之后体内Cas3与级联之间的相互作用。BiFC实验依赖于诸如黄色荧光蛋白(YFP)的荧光蛋白的非荧光半部在两个半部非常靠近时重新折叠并形成荧光分子的能力。这样，它提供了一种揭示蛋白质-蛋白质相互作用的工具，因为若局部浓度较高，例如，当荧光蛋白的两个半部与相互作用配偶体相融合时，重折叠效率大大增强。Cse1在C-端与Venus的N-端155 个氨基酸融合(Cse1-N155 Venus)，Venus为YFP的改良形式(Nagai 等人(2002)Nature Biotechnology 20，87-90)。Cas3在C-端与Venus 的C-端85个氨基酸融合(Cas3-C85Venus)。

BiFC分析揭示了在不存在侵入DNA时级联不与Cas3相互作用 (图3ABC、图3 （续）和图8)。然而，一旦用λ噬菌体感染，表达级联ΔCsel、 Csel-N155Venus和Cas3-C85Venus的细胞如果共表达抗-λCRISPR 7Tm，则是荧光的(图3DEF、图3 （续）和图8)。当它们共表达非靶向 CRISPR R44时(图3GHI、图3 （续）和图8)，细胞仍然为非荧光的。这表明，在感染期间一旦发生原间隔区识别，则级联和Cas3特异性相互作用，并且在级联-Cas3二元效应复合物中，Cse1和Cas3彼此非常靠近。

这些结果也非常清楚地表明，Cse1与异源蛋白质的融合并不会中断级联和crRNA的核糖核蛋白形成，也不会中断级联和Cas3与靶噬菌体DNA的相互作用，即便当Cas3本身也是融合蛋白时。

实施例5——制备经设计的Cas3-Cse1融合体产生了具有体内功能活性的蛋白质

提供Cas3 DNA切割活性的体外证据需要纯化的活性Cas3。尽管有各种溶解策略，在大肠杆菌BL21中过量产生的Cas3(Howard等人 (2011)Biochem.J.439，85-95)主要存在于无活性聚集体和包涵体中。 Cas3因此作为Cas-Cse1融合蛋白产生，其含有与灰色链霉菌中的Cas3-Cse1融合蛋白的接头相同的接头(参见图10)。当与级联ΔCse1 和CRISPR J3共表达时，融合-复合物是可溶的，并以高纯度获得，具有与级联相同的表观化学计量学性质(图5A)。当检测此复合物提供针对λ噬菌体感染的抗性的功能性时，表达融合-复合物J3-级联-Cas3 的细胞的成斑率(eop)与表达单独蛋白质的细胞的成斑率相同(图5B)。

由于J3-级联-Cas3融合-复合物在体内具有功能，因此使用此复合物进行体外DNA切割试验。当J3-级联-Cas3与pUC-λ在不存在二价金属的情况下温育时，在与针对级联观察到的摩尔比相似的摩尔比时观察到质粒结合(图5C)，而与非靶质粒(pUC-p7，一种与pUC-λ大小相同但缺少原间隔区的pUC19衍生质粒)的特异性结合仅在高摩尔比时发生(图5D)，这表明该复合物的特异性DNA结合也类似于单独的级联的特异性DNA结合。

有趣的是，J3-级联-Cas3融合复合物展示出对nSC靶质粒的镁依赖性内切核酸酶活性。在10mM Mg²⁺的存在下，J3-级联-Cas3使nSC pUC-λ产生切口(图5E，泳道3-7)，但是对于不含靶序列(图5E，泳道 9-13)或具有松弛拓扑结构的底物却未观察到切割。未观察到所得OC 条带的移位，这与之前的如下观察结果一致：级联在切割后自发解离，而不需要ATP-依赖性Cas3解旋酶活性。相反，Cas3的解旋酶活性似乎参与了核酸外切质粒降解。当将镁和ATP都加入到反应中时，发生完全质粒降解(图5H)。

本发明人已发现，单独的级联无法结合松弛DNA上的原间隔区。与此相反，本发明人已发现，级联有效地定位负超螺旋DNA中的靶标，随后通过Cse1亚基募集Cas3。由Cas3HD-核酸酶结构域进行的核酸内切切割导致级联通过超螺旋的丧失而自发地从DNA中释放，从而再动员级联以定位新的靶标。然后进行性地对该靶标进行解旋，并通过Cas3的联合ATP依赖性解旋酶活性和HD-核酸酶活性进行切割，从而导致完全靶DNA降解和侵入物的中和。

参照图6，并且不希望受到任何具体理论的束缚，大肠杆菌中的 CRISPR干扰I型途径的运行机制可能包括：(1)首先，携带crRNA的级联利用邻近的PAM扫描nSC质粒DNA的原间隔区。在此期间是否发生链分离是未知的。(2)通过crRNA和DNA互补链之间的碱基配对实现序列特异性原间隔区结合，从而形成R-环。一旦结合，级联就诱发DNA弯曲。(3)一旦DNA结合，级联的Cse1亚基就募集Cas3。这可通过核酸结合时发生的级联构象变化而实现。(4)Cas3的HD-结构域(较暗的部分)催化R-环的替代链的Mg²⁺依赖性切口产生，从而使靶质粒的拓扑结构从nSC改变为松弛OC。(5a和5b)质粒松弛导致级联的自发解离。同时，Cas3展现出对靶质粒的ATP-依赖性外切核酸酶活性，靶dsDNA解旋需要解旋酶结构域，而连续切割活性需要HD- 核酸酶结构域。(6)Cas3在持续地向前移动、解旋和切割靶dsDNA时以ATP依赖性的方式降解整个质粒。

实施例6——人工Cas-strep标记融合蛋白的制备和级联复合物的装配

使用Jore等人(2011)Nature Structural&Molecular Biology 18： 529-537的补充表3中所列的表达质粒，如Brouns等人(2008)Science 321：960-4(2008)所述生产和纯化级联复合物。常规地用与CasB(或在CasCDE中为CasC)融合的N-端Strep-标记II对级联进行纯化。使用20mM Tris-HCl(pH 8.0)、0.1M NaCl、1mM二硫苏糖醇进行大小排阻色谱分析(Superdex 200HR 10/30(GE))。在大小排阻分析之前，将级联制剂(约0.3mg)与DNase I(Invitrogen)在2.5mM MgCl₂的存在下于37℃温育15分钟。用等体积的苯酚∶氯仿∶异戊醇(25∶24∶1)pH8.0 (Fluka)通过抽提来分离共纯化的核苷酸，然后将其与补充有2.5mMMgCl₂的DNase I(InVitrogen)或者与RNase A(Fermentas)一起于37℃温育10分钟。产生与Strep-标记的氨基酸序列融合的Cas亚基蛋白质。

使用λ噬菌体进行了能表明Strep-标记级联亚基的生物活性的噬菌斑试验，并且如Brouns等人(2008)所述计算成斑率(EOP)。

为了纯化crRNA，使用DNAsep柱50mm×4.6mm内径(I.D.) (Transgenomic，SanJose，CA)，在具有UV_260nm检测器的Agilent 1100 HPLC(Agilent)上通过离子对反相HPLC对样品进行分析。色谱分析通过使用以下缓冲液条件进行：A)0.1M三乙基乙酸胺(TEAA)(pH7.0)(Fluka)；B)含有25％LC MS级乙腈(v/v)的缓冲液A(Fisher)。通过在75℃下注入纯化的完整级联，以1.0ml/min的流速使用从15％缓冲液B开始并在12.5分钟内增至60％缓冲液B的线性梯度，随后在2分钟内线性增至100％缓冲液B，从而获得crRNA。通过将HPLC 纯化的crRNA在终浓度为0.1M的HCl中于4℃温育1小时进行环状磷酸末端的水解。在ESI-MS分析之前，在真空浓缩器(Eppendorf)中将样品浓缩至5-10μl。

使用与在线毛细管液相色谱系统(Ultimate 3000，Dionex，UK)耦联的UHR-TOF质谱仪(maXis)或HCT Ultra PTM Discovery仪器(均来自Bruker Daltonics)，在负模式下进行crRNA的电喷雾电离质谱分析。使用整体式(PS-DVB)毛细管柱进行RNA分离。使用以下缓冲液条件进行色谱分析：C)用三乙胺(TEA)调整至pH 7.0的0.4M 1，1，1，3，3，3，- 六氟-2-丙醇(HFIP，Sigma-Aldrich)和0.1mM TEAA，以及D)含有50％甲醇(v/v)的缓冲液C(Fisher)。以2μl/min的流速，使用20％的缓冲液D，在5分钟内增至40％的缓冲液D，随后在8分钟内线性增至60％的缓冲液D，于50℃下进行RNA分析。

通过非变性(native)质谱法，在5μM的蛋白质浓度下，在0.15M 乙酸铵(pH8.0)中对级联蛋白进行分析。使用截留值为10kDa的离心过滤器(Millipore)，在4℃下通过五个连续浓缩和稀释步骤获得蛋白质制剂。蛋白质从硼硅玻璃毛细管中喷出，并用LCT电喷射飞行时间仪器或改良的四极飞行时间仪器(均来自Waters，UK)进行分析，该仪器均为了在高质量探测中具有最优性能而进行过调整(参见 Tahallah N等人(2001)Rapid Commun MassSpectrom 15：596-601 (2001)和van den Heuvel，R.H.等人Anal Chem 78：7473-83(2006))。单个Cas蛋白的准确质量测量在变性条件下(50％乙腈，50％MQ，0.1％甲酸)获得。通过向喷射溶液中加入2-丙醇至5％(v/v)的终浓度，产生在溶液中的亚复合物。仪器设置如下：针电压～1.2kV，锥电压～175V，源压力9mbar。使用氙气作为在1.5x 10^-2mbar的压力下串联质谱分析的碰撞气。碰撞电压在10-200V之间变化。

使用电泳迁移率变动分析(EMSA)证明级联复合物对靶核酸的功能活性。通过将级联、CasBCDE或CasCDE与1nM标记的核酸在50 mM Tris-Cl pH 7.5、100mM NaCl中温育来进行EMSA。鲑精DNA (Invitrogen)用作竞争剂。在5％聚丙烯酰胺凝胶电泳之前，EMSA反应于37℃温育20-30分钟。将凝胶干燥，使用磷光存储屏和PMI磷光成像仪(Bio-Rad)进行分析。在1-10mM Ca、Mg或Mn离子的存在下检测级联的靶DNA结合活性和切割活性。

DNA靶标是凝胶纯化的长寡核苷酸(Isogen Life Sciences或 Biolegio)，列于Jore等人(2011)的补充表3中。使用γ³²P-ATP (PerkinElmer)和T4激酶(Fermentas)对该寡核苷酸进行末端标记。通过使互补寡核苷酸退火，并使用外切核酸酶I(Fermentas)消化剩余的 ssDNA来制备双链DNA靶标。使用含有α³²P-CTP(PerkinElmer)的T7 Maxiscript或T7Mega Shortscript试剂盒(Ambion)来体外转录标记的RNA靶标，并通过DNase I(Fermentas)消化去除模板。通过使互补 RNA退火，并用RNase T1(Fermentas)消化剩余的ssRNA，随后进行苯酚抽提来制备双链RNA靶标。

使用含有R44原间隔区的质粒pWUR613来进行质粒迁移率变动分析。使用引物BG3297和BG 3298(参见Jore等人(2011)的补充表 3)，从P7噬菌体基因组DNA中PCR扩增含有原间隔区的片段。将质粒(0.4μg)和级联以1∶10的摩尔比在含有5mM Tris-HCl(pH 7.5)和20mM NaCl的缓冲液中混合，并于37℃温育30分钟。然后通过蛋白酶K(Fluka)处理(0.15U，15min，37℃)，随后苯酚/氯仿抽提，来移除级联蛋白。然后用RNaseH(Promega)(2U，1h，37℃)处理 RNA-DNA复合物。

与RNA组分(等同于crRNA)形成级联蛋白复合物或活性亚复合物的Strep-标记-Cas蛋白亚基融合体具有预期的扫描和特异性附着及切割核酸靶标的生物学和功能活性。Cas亚基与荧光染料的氨基酸链的融合体也与RNA组分(等同于crRNA)形成级联复合物和亚复合物，该RNA组分保留了生物学和功能活性，并允许靶核酸序列在例如ds DNA中的位置的可视化。

实施例7——级联-核酸酶对以及体外核酸酶活性的检测

已经通过随机诱变和筛选引入了六个名为“Sharkey”的突变，以改善来自海床黄杆菌(Flavobacterium okeanokoites)限制性内切酶FokI的非特异性核酸酶结构域的核酸酶活性和稳定性(参见Guo，J.等人(2010) J.Mol.Biol.400：96-107)。已经引入了其他降低脱靶切割活性的突变。这通过对ZFN对的FokI二聚体界面处的静电相互作用进行工程化，以产生一个具有带正电荷界面的FokI变体(KKR，E490K，I538K， H537R)和另一个具有带负电荷界面的FokI变体(ELD，Q486E，I499L， N496D)而实现(参见Doyon，Y.等人(2011)NatureMethods 8：74-9)。这些变体中的每一个作为同型二聚体都是催化上无活性的，从而降低了脱靶切割的频率。

级联-核酸酶设计

我们将改良的FokI核酸酶与Cse1的N-末端进行翻译融合，以生成分别为FokI^KKR-Cse1和FokI^ELD-Cse1的Cse1变体。这两个变体与级联亚基(Cse2、Cas7、Cas5和Cas6e)共表达，并且两个不同CRISPR 质粒中的一个具有均一的间隔区。这使级联^KKR复合物装载均一的P7-crRNA，而级联^ELD复合物装载均一的M13 G8-crRNA。如Jore，M.M. 等人(2011)Nat.Struct.Mol.Biol.18(5)：529-536.J所述，使用N-末端 StrepII-标记的Cse2纯化这些复合物。此外，可使用N-末端His-标记的FokI进行额外的纯化步骤，以确保全长且完整的级联-核酸酶融合复合物得到纯化。

本实施例中所用的融合蛋白的核苷酸和氨基酸序列如下：

>FokI-(Sharkey-ELD)-Cse1的核苷酸序列

ATGGCTCAACTGGTTAAAAGCGAACTGGAAGAGAAAAAAAGTGAACTGCGCCAC AAACTGAAATATGTGCCGCATGAATATATCGAGCTGATTGAAATTGCACGTAATC CGACCCAGGATCGTATTCTGGAAATGAAAGTGATGGAATTTTTTATGAAAGTGTA CGGCTATCGCGGTGAACATCTGGGTGGTAGCCGTAAACCGGATGGTGCAATTTAT ACCGTTGGTAGCCCGATTGATTATGGTGTTATTGTTGATACCAAAGCCTATAGCG GTGGTTATAATCTGCCGATTGGTCAGGCAGATGAAATGGAACGTTATGTGGAAG AAAATCAGACCCGTGATAAACATCTGAATCCGAATGAATGGTGGAAAGTTTATC CGAGCAGCGTTACCGAGTTTAAATTCCTGTTTGTTAGCGGTCACTTCAAAGGCAA CTATAAAGCACAGCTGACCCGTCTGAATCATATTACCAATTGTAATGGTGCAGTT CTGAGCGTTGAAGAACTGCTGATTGGTGGTGAAATGATTAAAGCAGGCACCCTG ACCCTGGAAGAAGTTCGTCGCAAATTTAACAATGGCGAAATCAACTTTGCGGAT CCCACCAACCGCGCGAAAGGCCTGGAAGCGGTGAGCGTGGCGAGCatgaatttgct tattgataactggattcctgtacgcccgcgaaacggggggaaagtccaaatcataaatctgcaatcgctatactgcagtagagatcagt ggcgattaagtttgccccgtgacgatatggaactggccgctttagcactgctggtttgcattgggcaaattatcgccccggcaaaagatg acgttgaatttcgacatcgcataatgaatccgctcactgaagatgagtttcaacaactcatcgcgccgtggatagatatgttctaccttaat cacgcagaacatccctttatgcagaccaaaggtgtcaaagcaaatgatgtgactccaatggaaaaactgttggctggggtaagcggcg cgacgaattgtgcatttgtcaatcaaccggggcagggtgaagcattatgtggtggatgcactgcgattgcgttattcaaccaggcgaat caggcaccaggttttggtggtggttttaaaagcggtttacgtggaggaacacctgtaacaacgttcgtacgtgggatcgatcttcgttcaa cggtgttactcaatgtcctcacattacctcgtcttcaaaaacaatttcctaatgaatcacatacggaaaaccaacctacctggattaaacct atcaagtccaatgagtctatacctgcttcgtcaattgggtttgtccgtggtctattctggcaaccagcgcatattgaattatgcgatcccatt gggattggtaaatgttcttgctgtggacaggaaagcaatttgcgttataccggttttcttaaggaaaaatttacctttacagttaatgggctat ggccccatccgcattccccttgtctggtaacagtcaagaaaggggaggttgaggaaaaatttcttgctttcaccacctccgcaccatcat ggacacaaatcagccgagttgtggtagataagattattcaaaatgaaaatggaaatcgcgtggcggcggttgtgaatcaattcagaaat attgcgccgcaaagtcctcttgaattgattatggggggatatcgtaataatcaagcatctattcttgaacggcgtcatgatgtgttgatgttt aatcaggggtggcaacaatacggcaatgtgataaacgaaatagtgactgttggtttgggatataaaacagccttacgcaaggcgttata tacctttgcagaagggtttaaaaataaagacttcaaaggggccggagtctctgttcatgagactgcagaaaggcatttctatcgacagag tgaattattaattcccgatgtactggcgaatgttaatttttcccaggctgatgaggtaatagctgatttacgagacaaacttcatcaattgtgtgaaatgctatttaatcaatctgtagctccctatgcacatcatcctaaattaataagcacattagcgcttgcccgcgccacgctatacaaaca tttacgggagttaaaaccgcaaggagggccatcaaatggctga[SEQ ID NO：18]

>FokI-(Sharkey-ELD)-Cse1的蛋白质序列

MAQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNPTQDRILEMKVMEFFMKVYGY RGEHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMERYVEENQTR DKHLNPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEEL LIGGEMIKAGTLTLEEVRRKFNNGEINFADPTNRAKGLEAVSVASMNLLIDNWIPVRP RNGGKVQIINLQSLYCSRDQWRLSLPRDDMELAALALLVCIGQIIAPAKDDVEFRHRI MNPLTEDEFQQLIAPWIDMFYLNHAEHPFMQTKGVKANDVTPMEKLLAGVSGATN CAFVNQPGQGEALCGGCTAIALFNQANQAPGFGGGFKSGLRGGTPVTTFVRGIDLRS TVLLNVLTLPRLQKQFPNESHTENQPTWIKPIKSNESIPASSIGFVRGLFWQPAHIELC DPIGIGKCSCCGQESNLRYTGFLKEKFTFTVNGLWPHPHSPCLVTVKKGEVEEKFLAFTTSAPSWTQISRVVVDKIIQNENGNRVAAVVNQFRNIAPQSPLELIMGGYRNNQASIL ERRHDVLMFNQGWQQYGNVINEIVTVGLGYKTALRKALYTFAEGFKNKDFKGAGV SVHETAERHFYRQSELLIPDVLANVNFSQADEVIADLRDKLHQLCEMLFNQSVAPYA HHPKLISTLALARATLYKHLRELKPQGGPSNG*[SEQ ID NO：19]

>FokI-(Sharkey-KKR)-Cse1的核苷酸序列

ATGGCTCAACTGGTTAAAAGCGAACTGGAAGAGAAAAAAAGTGAACTGCGCCAC AAACTGAAATATGTGCCGCATGAATATATCGAGCTGATTGAAATTGCACGTAATC CGACCCAGGATCGTATTCTGGAAATGAAAGTGATGGAATTTTTTATGAAAGTGTA CGGCTATCGCGGTGAACATCTGGGTGGTAGCCGTAAACCGGATGGTGCAATTTAT ACCGTTGGTAGCCCGATTGATTATGGTGTTATTGTTGATACCAAAGCCTATAGCG GTGGTTATAATCTGCCGATTGGTCAGGCAGATGAAATGCAGCGTTATGTGAAAG AAAATCAGACCCGCAACAAACATATTAACCCGAATGAATGGTGGAAAGTTTATC CGAGCAGCGTTACCGAGTTTAAATTCCTGTTTGTTAGCGGTCACTTCAAAGGCAA CTATAAAGCACAGCTGACCCGTCTGAATCGTAAAACCAATTGTAATGGTGCAGTT CTGAGCGTTGAAGAACTGCTGATTGGTGGTGAAATGATTAAAGCAGGCACCCTG ACCCTGGAAGAAGTTCGTCGCAAATTTAACAATGGCGAAATCAACTTTGCGGAT CCCACCAACCGCGCGAAAGGCCTGGAAGCGGTGAGCGTGGCGAGCatgaatttgct tattgataactggattcctgtacgcccgcgaaacggggggaaagtccaaatcataaatctgcaatcgctatactgcagtagagatcagt ggcgattaagtttgccccgtgacgatatggaactggccgctttagcactgctggtttgcattgggcaaattatcgccccggcaaaagatg acgttgaatttcgacatcgcataatgaatccgctcactgaagatgagtttcaacaactcatcgcgccgtggatagatatgttctaccttaat cacgcagaacatccctttatgcagaccaaaggtgtcaaagcaaatgatgtgactccaatggaaaaactgttggctggggtaagcggcg cgacgaattgtgcatttgtcaatcaaccggggcagggtgaagcattatgtggtggatgcactgcgattgcgttattcaaccaggcgaat caggcaccaggttttggtggtggttttaaaagcggtttacgtggaggaacacctgtaacaacgttcgtacgtgggatcgatcttcgttcaa cggtgttactcaatgtcctcacattacctcgtcttcaaaaacaatttcctaatgaatcacatacggaaaaccaacctacctggattaaacct atcaagtccaatgagtctatacctgcttcgtcaattgggtttgtccgtggtctattctggcaaccagcgcatattgaattatgcgatcccatt gggattggtaaatgttcttgctgtggacaggaaagcaatttgcgttataccggttttcttaaggaaaaatttacctttacagttaatgggctat ggccccatccgcattccccttgtctggtaacagtcaagaaaggggaggttgaggaaaaatttcttgctttcaccacctccgcaccatcat ggacacaaatcagccgagttgtggtagataagattattcaaaatgaaaatggaaatcgcgtggcggcggttgtgaatcaattcagaaat attgcgccgcaaagtcctcttgaattgattatggggggatatcgtaataatcaagcatctattcttgaacggcgtcatgatgtgttgatgttt aatcaggggtggcaacaatacggcaatgtgataaacgaaatagtgactgttggtttgggatataaaacagccttacgcaaggcgttata tacctttgcagaagggtttaaaaataaagacttcaaaggggccggagtctctgttcatgagactgcagaaaggcatttctatcgacagag tgaattattaattcccgatgtactggcgaatgttaatttttcccaggctgatgaggtaatagctgatttacgagacaaacttcatcaattgtgtgaaatgctatttaatcaatctgtagctccctatgcacatcatcctaaattaataagcacattagcgcttgcccgcgccacgctatacaaaca tttacgggagttaaaaccgcaaggagggccatcaaatggctga[SEQ ID NO：20]

>FokI-(Sharkey-KKR)-Cse1的蛋白质序列

MAQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNPTQDRILEMKVMEFFMKVYGY RGEHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVKENQT RNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNRKTNCNGAVLSVEE LLIGGEMIKAGTLTLEEVRRKFNNGEINFADPTNRAKGLEAVSVASMNLLIDNWIPV RPRNGGKVQIINLQSLYCSRDQWRLSLPRDDMELAALALLVCIGQIIAPAKDDVEFR HRIMNPLTEDEFQQLIAPWIDMFYLNHAEHPFMQTKGVKANDVTPMEKLLAGVSGA TNCAFVNQPGQGEALCGGCTAIALFNQANQAPGFGGGFKSGLRGGTPVTTFVRGIDL RSTVLLNVLTLPRLQKQFPNESHTENQPTWIKPIKSNESIPASSIGFVRGLFWQPAHIEL CDPIGIGKCSCCGQESNLRYTGFLKEKFTFTVNGLWPHPHSPCLVTVKKGEVEEKFL AFTTSAPSWTQISRVVVDKIIQNENGNRVAAVVNQFRNIAPQSPLELIMGGYRNNQA SILERRHDVLMFNQGWQQYGNVINEIVTVGLGYKTALRKALYTFAEGFKNKDFKGA GVSVHETAERHFYRQSELLIPDVLANVNFSQADEVIADLRDKLHQLCEMLFNQSVAP YAHHPKLISTLALARATLYKHLRELKPQGGPSNG*[SEQ ID NO：21]

>His₆-双-单份NLS SV40-FokI-(Sharkey-KKR)-Cse1的核苷酸序列

ATGcatcaccatcatcaccacCCGAAAAAAAAGCGCAAAGTGGATCCGAAGAAAAAACGTAAAG TTGAAGATCCGAAAGACATGGCTCAACTGGTTAAAAGCGAACTGGAAGAGAAAA AAAGTGAACTGCGCCACAAACTGAAATATGTGCCGCATGAATATATCGAGCTGA TTGAAATTGCACGTAATCCGACCCAGGATCGTATTCTGGAAATGAAAGTGATGG AATTTTTTATGAAAGTGTACGGCTATCGCGGTGAACATCTGGGTGGTAGCCGTAA ACCGGATGGTGCAATTTATACCGTTGGTAGCCCGATTGATTATGGTGTTATTGTT GATACCAAAGCCTATAGCGGTGGTTATAATCTGCCGATTGGTCAGGCAGATGAA ATGCAGCGTTATGTGAAAGAAAATCAGACCCGCAACAAACATATTAACCCGAAT GAATGGTGGAAAGTTTATCCGAGCAGCGTTACCGAGTTTAAATTCCTGTTTGTTA GCGGTCACTTCAAAGGCAACTATAAAGCACAGCTGACCCGTCTGAATCGTAAAA CCAATTGTAATGGTGCAGTTCTGAGCGTTGAAGAACTGCTGATTGGTGGTGAAAT GATTAAAGCAGGCACCCTGACCCTGGAAGAAGTTCGTCGCAAATTTAACAATGG CGAAATCAACTTTGCGGATCCCACCAACCGCGCGAAAGGCCTGGAAGCGGTG AGCGTGGCGAGCatgaatttgcttattgataactggattcctgtacgcccgcgaaacggggggaaagtccaaatcataaat ctgcaatcgctatactgcagtagagatcagtggcgattaagtttgccccgtgacgatatggaactggccgctttagcactgctggtttgc attgggcaaattatcgccccggcaaaagatgacgttgaatttcgacatcgcataatgaatccgctcactgaagatgagtttcaacaactc atcgcgccgtggatagatatgttctaccttaatcacgcagaacatccctttatgcagaccaaaggtgtcaaagcaaatgatgtgactcca atggaaaaactgttggctggggtaagcggcgcgacgaattgtgcatttgtcaatcaaccggggcagggtgaagcattatgtggtggat gcactgcgattgcgttattcaaccaggcgaatcaggcaccaggttttggtggtggttttaaaagcggtttacgtggaggaacacctgtaa caacgttcgtacgtgggatcgatcttcgttcaacggtgttactcaatgtcctcacattacctcgtcttcaaaaacaatttcctaatgaatcac atacggaaaaccaacctacctggattaaacctatcaagtccaatgagtctatacctgcttcgtcaattgggtttgtccgtggtctattctgg caaccagcgcatattgaattatgcgatcccattgggattggtaaatgttcttgctgtggacaggaaagcaatttgcgttataccggttttctt aaggaaaaatttacctttacagttaatgggctatggccccatccgcattccccttgtctggtaacagtcaagaaaggggaggttgaggaa aaatttcttgctttcaccacctccgcaccatcatggacacaaatcagccgagttgtggtagataagattattcaaaatgaaaatggaaatc gcgtggcggcggttgtgaatcaattcagaaatattgcgccgcaaagtcctcttgaattgattatggggggatatcgtaataatcaagcatctattcttgaacggcgtcatgatgtgttgatgtttaatcaggggtggcaacaatacggcaatgtgataaacgaaatagtgactgttggtttg ggatataaaacagccttacgcaaggcgttatatacctttgcagaagggtttaaaaataaagacttcaaaggggccggagtctctgttcat gagactgcagaaaggcatttctatcgacagagtgaattattaattcccgatgtactggcgaatgttaatttttcccaggctgatgaggtaat agctgatttacgagacaaacttcatcaattgtgtgaaatgctatttaatcaatctgtagctccctatgcacatcatcctaaattaataagcaca ttagcgcttgcccgcgccacgctatacaaacatttacgggagttaaaaccgcaaggagggccatcaaatggctga[SEQ IDNO：22]

>His₆-双-单份NLS SV40-FokI-(Sharkey-KKR)-Cse1的蛋白质序列

MHHHHHHPKKKRKVDPKKKRKVEDPKDMAQLVKSELEEKKSELRHKLKYVPHEYI ELIEIARNPTQDRILEMKVMEFFMKVYGYRGEHLGGSRKPDGAIYTVGSPIDYGVIVD TKAYSGGYNLPIGQADEMQRYVKENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGH FKGNYKAQLTRLNRKTNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFA DPTNRAKGLEAVSVASMNLLIDNWIPVRPRNGGKVQIINLQSLYCSRDQWRLSLPRD DMELAALALLVCIGQIIAPAKDDVEFRHRIMNPLTEDEFQQLIAPWIDMFYLNHAEHP FMQTKGVKANDVTPMEKLLAGVSGATNCAFVNQPGQGEALCGGCTAIALFNQANQ APGFGGGFKSGLRGGTPVTTFVRGIDLRSTVLLNVLTLPRLQKQFPNESHTENQPTWI KPIKSNESIPASSIGFVRGLFWQPAHIELCDPIGIGKCSCCGQESNLRYTGFLKEKFTFT VNGLWPHPHSPCLVTVKKGEVEEKFLAFTTSAPSWTQISRVVVDKIIQNENGNRVAA VVNQFRNIAPQSPLELIMGGYRNNQASILERRHDVLMFNQGWQQYGNVINEIVTVGL GYKTALRKALYTFAEGFKNKDFKGAGVSVHETAERHFYRQSELLIPDVLANVNFSQ ADEVIADLRDKLHQLCEMLFNQSVAPYAHHPKLISTLALARATLYKHLRELKPQGGPSNG*[SEQ ID NO：23]

>His₆-双-单份NLS SV40-FokI(Sharkey-ELD)-Cse1的核苷酸序列

ATGcatcaccatcatcaccacCCGAAAAAAAAGCGCAAAGTGGATCCGAAGAAAAAACGTAAAG TTGAAGATCCGAAAGACATGGCTCAACTGGTTAAAAGCGAACTGGAAGAGAAAAA AAGTGAACTGCGCCACAAACTGAAATATGTGCCGCATGAATATATCGAGCTGAT TGAAATTGCACGTAATCCGACCCAGGATCGTATTCTGGAAATGAAAGTGATGGA ATTTTTTATGAAAGTGTACGGCTATCGCGGTGAACATCTGGGTGGTAGCCGTAAA CCGGATGGTGCAATTTATACCGTTGGTAGCCCGATTGATTATGGTGTTATTGTTG ATACCAAAGCCTATAGCGGTGGTTATAATCTGCCGATTGGTCAGGCAGATGAAA TGGAACGTTATGTGGAAGAAAATCAGACCCGTGATAAACATCTGAATCCGAATG AATGGTGGAAAGTTTATCCGAGCAGCGTTACCGAGTTTAAATTCCTGTTTGTTAG CGGTCACTTCAAAGGCAACTATAAAGCACAGCTGACCCGTCTGAATCATATTACC AATTGTAATGGTGCAGTTCTGAGCGTTGAAGAACTGCTGATTGGTGGTGAAATGA TTAAAGCAGGCACCCTGACCCTGGAAGAAGTTCGTCGCAAATTTAACAATGGCGAAATCAACTTTGCGGATCCCACCAACCGCGCGAAAGGCCTGGAAGCGGTGAG CGTGGCGAGCatgaatttgcttattgataactggattcctgtacgcccgcgaaacggggggaaagtccaaatcataaatctg caatcgctatactgcagtagagatcagtggcgattaagtttgccccgtgacgatatggaactggccgctttagcactgctggtttgcattgggcaaattatcgccccggcaaaagatgacgttgaatttcgacatcgcataatgaatccgctcactgaagatgagtttcaacaactcatcg cgccgtggatagatatgttctaccttaatcacgcagaacatccctttatgcagaccaaaggtgtcaaagcaaatgatgtgactccaatgg aaaaactgttggctggggtaagcggcgcgacgaattgtgcatttgtcaatcaaccggggcagggtgaagcattatgtggtggatgcac tgcgattgcgttattcaaccaggcgaatcaggcaccaggttttggtggtggttttaaaagcggtttacgtggaggaacacctgtaacaac gttcgtacgtgggatcgatcttcgttcaacggtgttactcaatgtcctcacattacctcgtcttcaaaaacaatttcctaatgaatcacatacggaaaaccaacctacctggattaaacctatcaagtccaatgagtctatacctgcttcgtcaattgggtttgtccgtggtctattctggcaacc agcgcatattgaattatgcgatcccattgggattggtaaatgttcttgctgtggacaggaaagcaatttgcgttataccggttttcttaagga aaaatttacctttacagttaatgggctatggccccatccgcattccccttgtctggtaacagtcaagaaaggggaggttgaggaaaaattt cttgctttcaccacctccgcaccatcatggacacaaatcagccgagttgtggtagataagattattcaaaatgaaaatggaaatcgcgtg gcggcggttgtgaatcaattcagaaatattgcgccgcaaagtcctcttgaattgattatggggggatatcgtaataatcaagcatctattct tgaacggcgtcatgatgtgttgatgtttaatcaggggtggcaacaatacggcaatgtgataaacgaaatagtgactgttggtttgggatat aaaacagccttacgcaaggcgttatatacctttgcagaagggtttaaaaataaagacttcaaaggggccggagtctctgttcatgagact gcagaaaggcatttctatcgacagagtgaattattaattcccgatgtactggcgaatgttaatttttcccaggctgatgaggtaatagctga tttacgagacaaacttcatcaattgtgtgaaatgctatttaatcaatctgtagctccctatgcacatcatcctaaattaataagcacattagcg cttgcccgcgccacgctatacaaacatttacgggagttaaaaccgcaaggagggccatcaaatggctga[SEQ IDNO：24]

>His₆-双-单份NLS SV40-FokI-(Sharkey-ELD)-Cse1的蛋白质序列

MHHHHHHPKKKRKVDPKKKRKVEDPKDMAQLVKSELEEKKSELRHKLKYVPHEYI ELIEIARNPTQDRILEMKVMEFFMKVYGYRGEHLGGSRKPDGAIYTVGSPIDYGVIVD TKAYSGGYNLPIGQADEMERYVEENQTRDKHLNPNEWWKVYPSSVTEFKFLFVSGH FKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFA DPTNRAKGLEAVSVASMNLLIDNWIPVRPRNGGKVQIINLQSLYCSRDQWRLSLPRD DMELAALALLVCIGQIIAPAKDDVEFRHRIMNPLTEDEFQQLIAPWIDMFYLNHAEHP FMQTKGVKANDVTPMEKLLAGVSGATNCAFVNQPGQGEALCGGCTAIALFNQANQ APGFGGGFKSGLRGGTPVTTFVRGIDLRSTVLLNVLTLPRLQKQFPNESHTENQPTWI KPIKSNESIPASSIGFVRGLFWQPAHIELCDPIGIGKCSCCGQESNLRYTGFLKEKFTFT VNGLWPHPHSPCLVTVKKGEVEEKFLAFTTSAPSWTQISRVVVDKIIQNENGNRVAA VVNQFRNIAPQSPLELIMGGYRNNQASILERRHDVLMFNQGWQQYGNVINEIVTVGL GYKTALRKALYTFAEGFKNKDFKGAGVSVHETAERHFYRQSELLIPDVLANVNFSQ ADEVIADLRDKLHQLCEMLFNQSVAPYAHHPKLISTLALARATLYKHLRELKPQGGPSNG*[SEQ ID NO：25]

DNA切割试验

使用人工构建的靶质粒作为底物检测复合物的特异性和活性。该质粒在相对链上含有M13和P7的结合位点，使得两个FokI结构域彼此面对(参见图11)。级联结合位点之间的距离在25至50个碱基对之间以5bp的增量变化。由于级联的结合位点需要其侧翼为四种已知 PAM序列(5′-原间隔区-CTT/CAT/CTC/CCT-3′)中的任意一种，所以此距离范围为几乎任何给定序列提供了足够的设计这样的配对的灵活性。

所使用的靶质粒的序列如下。数字指示M13和P7靶位点之间的距离。原间隔区以粗体示出，PAM以下划线示出：

靶质粒的序列。数字指示M13和P7靶位点之间的距离。(原间隔区为粗体，PAM以下划线标出)

>50bp

gaattcACAACGGTGAGCAAGTCA

CTTGCTTTCGAGCGCTAGCTCTAGAACTAGTCCTCAGCCTAGGCCTCGTTCCGAAG

CATAGGCGGCCTTTAACTCg gatcc[SEQID NO：26]

>45bp

gaattcACAACGGTGAGCAAGTCA

CTTTTCGAGCGCTAGCTCTAGAACTAGTCCTCAGCCTAGGCCTCGTTCAAG

ATAGGCGGCCTTTAACTCggatcc [SEQ IDNO：27]

>40bp

gaattcACAACGGTGAGCAAGTCA

CTTCGAGCGCTAGCTCTAGAACTAGTCCTCAGCCTAGGCCTCGAAG

ATAGGCGGCCTTTAACTCggatcc[SEQ ID NO：28]

>35bp

gaattcACAACGGTGAGCAAGTCA

CTTGCGCTAGCTCTAGAACTAGTCCTCAGCCTAGGCCTAAG

ATAGGCGGCCTTTAACTCggatcc[SEQ ID NO：29]

>30bp

gaattcACAACGGTGAGCAAGTCA

CTTGCTAGCTCTAGAACTAGTCCTCAGCCTAGGAAG

ATAGGCGGCCTTTAACTCggatcc[SEQ ID NO：30]

>25bp

gaattcACAACGGTGAGCAAGTCA

CTTCTCTAGAACTAGTCCTCAGCCTAGGAAG

ATAGGCGGCCTTTAACTCggatcc[SEQ ID NO：31]

靶质粒的切割在琼脂糖凝胶上进行分析，其中负超螺旋(nSC)质粒可以与线性或切口质粒区别开来。通过从琼脂糖凝胶中分离线性切割产物，并用大肠杆菌DNA聚合酶Klenow片段补平FokI切割所留下的凹进3′末端以产生平端，从而确定级联^KKR/ELD对在靶载体中的切割位点。对线性载体进行自身连接、转化、扩增、分离和测序。凹进 3′末端的补平和再连接将导致序列中的代表由FokI切割所留下的突出端的额外核苷酸。通过将序列读取结果与原序列进行比对，可在克隆水平上发现切割位点并对其作图。以下，在补平FokI切割留下的凹进3′末端后掺入到序列内的额外的碱基以下划线标出：

FokI切割

5’CTTGCGCTAGCTCTAGAA

CTAGTCCTCAGCCTAGGCCTAAG 3’

3’GAACGCGATCGAGATCTTGATC AGGAGTCGGATCCGGATTC 5’

3’补平，连接

5’CTTGCGCTAGCTCTAGAACTAG-CTAGTCCTCAGCCTAGGCCTAAG 3’

3’GAACGCGATCGAGATCTTGATC-GATCAGGAGTCGGATCCGGATTC 5’

从上向下读取，以上的5′-3′序列分别为SEQ ID NO：32-35。

人细胞中靶基因座的切割

人CCR5基因编码C-C趋化因子受体5型蛋白质，其作为白细胞表面上人免疫缺陷病毒(HIV)的受体。除了人工GFP基因座之外，利用一对级联^KKR/ELD核酸酶靶向CCR5基因。在CCR5的编码区上选择合适的结合位点对。采用DNA合成(Geneart)来构建两个含有靶向每个结合位点的均一间隔区的单独CRISPR阵列。

所用的人CCR5靶基因的选择和CRISPR设计如下：

>基因组人CCR5序列的一部分，含有整个ORF(位置347-1446)。GGTGGAACAAGATGGATTATCAAGTGTCAAGTCCAATCTATGACATCAATTATTA TACATCGGAGCCCTGCCAAAAAATCAATGTGAAGCAAATCGCAGCCCGCCTCCT GCCTCCGCTCTACTCACTGGTGTTCATCTTTGGTTTTGTGGGCAACATGCTGGTCATCCTCATCCTGATAAACTGCAAAAGGCTGAAGAGCATGACTGACATCTACCTGCT CAACCTGGCCATCTCTGACCTGTTTTTCCTTCTTACTGTCCCCTTCTGGGCTCACT ATGCTGCCGCCCAGTGGGACTTTGGAAATACAATGTGTCAACTCTTGACAGGGCT CTATTTTATAGGCTTCTTCTCTGGAATCTTCTTCATCATCCTCCTGACAATCGATAGGT ACCTGGCTGTCGTCCATGCTGTGTTTGCTTTAAAAGCCAGGACGGTCACCTT TGGGGTGGTGACAAGTGTGATCA CTTGGGTGGTGGCTGTGTTTGCGTCTCTCCCA GGAATCATCTTTACCAGATCTCAAAAAGAAGGTCTTCATTACACCTGCAGCTCTC ATTTTCCATACAGTCAGTATCAATTCTGGAAGAATTTCCAGACATTAAAGATAGT CATCTTGGGGCTGGTCCTGCCGCTGCTTGTCATGGTCATCTGCTACTCGGGAATC CTAAAAACTCTGCTTCGGTGTCGAAATGAGAAGAAGAGGCACAGGGCTGTGAGG CTTATCTTCACCATCATGATTGTTTATTTTCTCTTCTGGGCTCCCTACAACATTGTC CTTCTCCTGAACACCTTCCAGGAATTCTTTGGCCTGAATAATTGCAGTAGCTCTA ACAGGTTGGACCAAGCTATGCAGGTGACAGAGACTCTTGGGATGACGCACTGCT GCATCAACCCCATCATCTATGCCTTTGTCGGGGAGAAGTTCAGAAACTACCTCTT AGTCTTCTTCCAAAAGCACATTGCCAAACGCTTCTGCAAATGCTGTTCTATTTTCC AGCAAGAGGCTCCCGAGCGAGCAAGCTCAGTTTACACCCGATCCACTGGGGAGC AGGAAATATCTGTGGGCTTGTGACACGGACTCAAGTGGGCTGGTGACCCAGTC [SEQ ID NO：36]

Red1/2：所选的靶位点(距离：34bp，PAM 5’-CTT-3’)。“Red 1是上面第一次出现的以下划线标出的序列。Red2是第二个以下划线标出的序列。

>CRISPR阵列red1(斜体＝间隔区，加粗＝重复序列)

ccatggTAATACGACTCACTATAGGGAGAATTAGCTGATCTTTAATAATAAGGAAAT GTTACATTAAGGTTGGTGGGTTGTTTTTATGGGAAAAAATGCTTTAAGAACAAAT GTATACTTTTA

AAAACAAAAGGCTCAGTCGGAAGACTGGGCCTTTTGTTTTAACC CCTTGGGGCCTCTAAACGGGTCTTGAGGGGTTTTTTGggtacc[SEQ ID NO：37]

>CRISPR阵列red2(斜体：间隔区，加粗：重复序列)

AAAACAAAAGGCTCAGTCGGAAGACTGGGCCTTTTGTTTTAACCCC TTGGGGCCTCTAAACGGGTCTTGAGGGGTTTTTTGggtacc[SEQ ID NO：38]

级联^KKR/ELD向人细胞的细胞核内的递送

级联作为多亚基蛋白质-RNA复合物是非常稳定的，并且容易在大肠杆菌中以毫克的量产生。复合物以其从大肠杆菌中纯化得到的完整形式的转染或显微注射用作递送方法(参见图12)。如图12中所示，级联-FokI核酸酶从大肠杆菌中纯化，并包封在蛋白质转染小泡中。然后它们与在细胞质中释放核酸酶的人HepG2细胞的细胞膜融合(步骤2)。然后由促进核孔通道的输入蛋白识别NLS序列(步骤3)。接着，级联^KKR(空心矩形)和级联^ELD(实心矩形)将找到并切割其靶位点(步骤4)，诱导将改变靶位点从而导致所需的变化的DNA修复途径。级联^KKR/ELD核酸酶仅需发挥作用一次，而不需要永久存在于细胞中编码在DNA上。

为将级联递送到人细胞内，使用来自各种来源(包括Pierce、NEB、 Fermentas和Clontech)的蛋白质转染试剂。这些试剂最近已被开发用于抗体的递送，并且在转染广泛的人类细胞系中是有用的，效率最高达90％。转染人HepG2细胞。此外，也转染其他细胞系，包括CHO-K1、 COS-7、HeLa和非胚胎干细胞。

为将级联^KKR/ELD核酸酶对输入细胞核内，将来自猿猴病毒40 (SV40)的大T抗原的串联单份核定位信号(NLS)与FokI的N-末端融合。这确保只有完整的级联^ELD/KKR输入细胞核内。(核孔复合物转位 RNA聚合酶(550kDa)及其他大蛋白质复合物)。作为转化之前的核查，用纯化的复合物和CCR5PCR扩增子在体外检查级联^KKR/ELD核酸酶对的核酸酶活性，以排除转染性的、非生产性的级联^KKR/ELD核酸酶对。

检验师分析(Surveyor assay)

将转染的细胞培养并传代数天。然后通过采用Guschin，D.Y.等人 (2010)MethodsMol.Biol.，649：247-256的检验师分析来评估体内靶 DNA切割的效率。简单来说，靶DNA基因座的PCR扩增子将与未处理细胞的PCR扩增子以1∶1混合。将其加热并使之退火，从而产生已被NHEJ错误地修复的靶位点处的错配。然后用错配核酸酶仅切割错配的DNA分子，当级联^KKR/ELD对靶DNA的切割完成时，产生最多50％的切割。此程序后对经治疗的细胞的靶DNA扩增子进行测序。该试验允许对递送程序的快速评估和优化。

级联-核酸酶对的产生

如上文所述构建级联-核酸酶复合物。使用StrepII-标记的Cse2 亚基从大肠杆菌中亲和纯化产生当与天然级联相比时具有预期化学计量的复合物。参见图13，该图示出了只使用Streptactin纯化24小时后，天然级联(1)、具有P7CrRNA的级联^KKR和具有M13 CrRNA的级联^ELD的化学计量。天然级联(1)中的条带从上到下为：Cse1、Cas7、 Cas5、Cas6e、Cse2。级联^KKR/ELD示出了FokI-Cse1融合带和代表由蛋白水解降解产生的、具有FokI的一小部分的Cse1的另一条带。

除了完整的FokI-Cse1融合蛋白，我们观察到，FokI-Cse1-融合蛋白的部分被蛋白水解切割，生成仅含有接头以及与之连接的一小部分 FokI的Cse1蛋白(如通过质谱法确认的，数据未示出)。在大多数蛋白质分离中，降解的融合蛋白的分数约为40％。分离的蛋白质于-20℃稳定地储存在含有额外的0.1％吐温20和50％甘油的洗脱缓冲液(20 mM HEPES pH7.5，75mM NaCl，1mM DTT，4mM脱硫生物素)中。

在这些储存条件下，已发现该复合物的完整性和活性稳定至少3 周(数据未示出)。

His₆-标记和NLS向级联-核酸酶的引入

修饰级联核酸酶融合设计，以加入核仁定位信号(NLS)，从而使得向真核细胞的细胞核中的转运称为可能。为此，将来自猿猴病毒 SV40的大T-抗原的串联单份NLS(序列：PKKKRKVDPKKKRKV) 与在N-末端前直接为His₆-标记的FokI-Cse1融合蛋白的N-末端翻译性融合。该His₆-标记(序列：MHHHHHH)允许在StrepII纯化之后的额外的Ni²⁺-树脂亲和纯化步骤。这个额外的步骤确保只分离全长级联 -核酸酶，而通过消除不完整的级联复合物与靶位点结合形成非生产性核酸酶对而提高切割效率。

体外切割试验

如上所述，在体外测定级联^KKR/ELD的活性和特异性。图14A示出了原间隔区之间的距离为25-50bp(增量5bp，泳道1-6)的、与级联^KKR/ELD在37℃下温育30分钟的质粒。泳道10包含以其三种可能的拓扑结构存在的靶质粒：最下面的条带表示质粒的最初的、负超螺旋(nSC)形式，中间的条带表示线性化的形式(被XbaI切割)，而上面的条带表示开环(OC)形式(用Nt.BbrCI产生切口后)。泳道7示出了两个结合位点均已去除的质粒的温育(阴性对照)。因此，图14A示出了使用各种靶质粒的典型切割试验，该靶质粒中的结合位点间隔25至50个碱基对(以5bp的增量)(泳道1至6)。这些具有25-50bp距离的质粒与分别携带抗P7和M13crRNA的级联^KKR/ELD一起温育。不含结合位点的质粒作为对照(泳道7)。原始质粒以负超螺旋形式存在(nSC，对照，泳道8)，且带切口的或线性化的产物清晰可辨。经温育，在结合位点间隔30、35和40个碱基对时形成线性切割产物(泳道2、3、 4)。在25、45和50个碱基对的距离(泳道1、5、6)时，该靶质粒似乎被不完全切割，从而产生带切口的形式(OC)。这些结果表明在具有30 至40bp距离的质粒中具有最佳切割，从而对于任何给定的基因座在设计crRNA对时提供了足够的灵活性。更短和更长的距离均导致切口产生活性增加，同时产生更少的DSB。在两个原间隔区已被去除的质粒中存在极低的活性，从而表明靶特异性(泳道7)。

切割条件

为了评估用于切割试验的最佳缓冲液条件，并且为了估计复合物在生理条件下的活性是否是预期的，选择以下两种缓冲液：(1)NEB4 (New England Biolabs，50mM醋酸钾，20mM Tris-醋酸盐，10mM醋酸镁，1mM二硫苏糖醇，pH 7.9)，以及(2)缓冲液O(Fermentas，50mM Tris-HCl，10mM MgCl₂，100mM NaCl，0.1mg/mL BSA，pH 7.5)。在这两种中，推荐NEB4来实现完整的商品FokI酶的最佳活性。由快速筛选选择缓冲液O，以得到良好的活性和特异性(数据未示出)。图14B示出了与不同缓冲液经不同温育时间的温育。泳道1-4已与Fermentas缓冲液O温育(泳道1、2温育15分钟，泳道3、4温育30 分钟)，泳道5、6已与NEB4温育(30分钟)。泳道1、3、5使用具有 35bp间隔的靶质粒，泳道2、4、6使用非靶质粒(无结合位点)。泳道 7、8分别只与级联^KKR或级联^ELD温育(缓冲液O)。泳道9是如(A)中的拓扑结构标志物。泳道10和11示出了在不添加级联时温育的靶质粒和非靶质粒。因此，在图14B中，检测对具有35个碱基对的距离的靶质粒的活性(泳道1、3、5)，以及对非靶对照质粒的活性(泳道2、4、6)。NEB4(泳道5、6)中存在大量的非特异性切口产生和较少的切割，而缓冲液O只在具有大量特异性切割和极少切口产生的靶质粒中显示活性(泳道1-4)。此差异可能是由缓冲液O中的NaCl浓度引起的，较高的离子强度减弱蛋白质-蛋白质相互作用，从而导致较少的非特异性活性。15分钟或30分钟的温育在靶质粒和非靶质粒(分别为泳道 1、2或3、4)中均显示极少的差异。如预期的，只加入一种类型的级联(P7^KKR或M13^ELD)不会导致切割活性(泳道7、8)。本实验表明，由设计的对引起的特异性级联核酸酶活性在NaCl浓度至少为100mM 时出现，该浓度接近于细胞内部的生理盐水浓度(137mM NaCl)。预计级联核酸酶对在体内具有完全活性(在真核细胞中)，虽然显现出可忽略不计的脱靶切割活性。

切割位点

确定具有35bp间隔的靶质粒(pTarget35)中的切割位点。图15显示了测序如何揭示在具有35个碱基对的间隔的靶质粒中的级联^KKR/ELD的上游和下游切割位点。注释有潜在切割位点的pTarget35内的靶区域在图15A)中示出。原间隔区的部分显示为红色和蓝色。B)条图示出了四种不同的切割模式及其在测序克隆内的相对丰度。蓝色条表示所生成的突出端，而各条的左右边界代表左右切割位点(注释参见B)。

图15A示出了pTarget35的原始序列，切割位点从-7到+7编号，其中0位于两个原间隔区(以红色和蓝色表示)的中间。对17个克隆进行测序，它们均显示出在位点0周围切割，从而创建出介于3至5bp 之间的不同的突出端(参见图15B)。4bp的突出端最为丰富(累计88％)，而3bp和5bp的突出端只出现一次(各6％)。切割如预期地精确发生，而没有克隆显现出脱靶切割。

在人细胞中切割靶基因座。

成功地修饰级联^KKR/ELD核酸酶，以使之包含N-末端His6-标记，随后是双重单份核仁定位信号。这些修饰的级联核酸酶融合蛋白与两种合成构建的CRISPR阵列中的任一种共表达，每一种靶向人CCR5 基因中的结合位点。首先，通过检测对含有CCR5基因的此区域的质粒的活性，在体外验证此新核酸酶对的活性。将该核酸酶对转染到人类细胞系，例如，HeLa细胞系中。采用如上所述的检验师分析来评估靶标切割的效率。

序列表

<110> 瓦赫宁根大学

<120> 经修饰的级联核糖核蛋白及其用途

<130> P200547WO

<140> US 14/240,735

<141> 2014-02-24

<150> GB1122458.1

<151> 2011-12-30

<160> 47

<170> PatentIn version 3.5

<210> 1

<211> 502

<212> PRT

<213> 大肠杆菌

<400> 1

Met Asn Leu Leu Ile Asp Asn Trp Ile Pro Val Arg Pro Arg Asn Gly

1 5 10 15

Gly Lys Val Gln Ile Ile Asn Leu Gln Ser Leu Tyr Cys Ser Arg Asp

20 25 30

Gln Trp Arg Leu Ser Leu Pro Arg Asp Asp Met Glu Leu Ala Ala Leu

35 40 45

Ala Leu Leu Val Cys Ile Gly Gln Ile Ile Ala Pro Ala Lys Asp Asp

50 55 60

Val Glu Phe Arg His Arg Ile Met Asn Pro Leu Thr Glu Asp Glu Phe

65 70 75 80

Gln Gln Leu Ile Ala Pro Trp Ile Asp Met Phe Tyr Leu Asn His Ala

85 90 95

Glu His Pro Phe Met Gln Thr Lys Gly Val Lys Ala Asn Asp Val Thr

100 105 110

Pro Met Glu Lys Leu Leu Ala Gly Val Ser Gly Ala Thr Asn Cys Ala

115 120 125

Phe Val Asn Gln Pro Gly Gln Gly Glu Ala Leu Cys Gly Gly Cys Thr

130 135 140

Ala Ile Ala Leu Phe Asn Gln Ala Asn Gln Ala Pro Gly Phe Gly Gly

145 150 155 160

Gly Phe Lys Ser Gly Leu Arg Gly Gly Thr Pro Val Thr Thr Phe Val

165 170 175

Arg Gly Ile Asp Leu Arg Ser Thr Val Leu Leu Asn Val Leu Thr Leu

180 185 190

Pro Arg Leu Gln Lys Gln Phe Pro Asn Glu Ser His Thr Glu Asn Gln

195 200 205

Pro Thr Trp Ile Lys Pro Ile Lys Ser Asn Glu Ser Ile Pro Ala Ser

210 215 220

Ser Ile Gly Phe Val Arg Gly Leu Phe Trp Gln Pro Ala His Ile Glu

225 230 235 240

Leu Cys Asp Pro Ile Gly Ile Gly Lys Cys Ser Cys Cys Gly Gln Glu

245 250 255

Ser Asn Leu Arg Tyr Thr Gly Phe Leu Lys Glu Lys Phe Thr Phe Thr

260 265 270

Val Asn Gly Leu Trp Pro His Pro His Ser Pro Cys Leu Val Thr Val

275 280 285

Lys Lys Gly Glu Val Glu Glu Lys Phe Leu Ala Phe Thr Thr Ser Ala

290 295 300

Pro Ser Trp Thr Gln Ile Ser Arg Val Val Val Asp Lys Ile Ile Gln

305 310 315 320

Asn Glu Asn Gly Asn Arg Val Ala Ala Val Val Asn Gln Phe Arg Asn

325 330 335

Ile Ala Pro Gln Ser Pro Leu Glu Leu Ile Met Gly Gly Tyr Arg Asn

340 345 350

Asn Gln Ala Ser Ile Leu Glu Arg Arg His Asp Val Leu Met Phe Asn

355 360 365

Gln Gly Trp Gln Gln Tyr Gly Asn Val Ile Asn Glu Ile Val Thr Val

370 375 380

Gly Leu Gly Tyr Lys Thr Ala Leu Arg Lys Ala Leu Tyr Thr Phe Ala

385 390 395 400

Glu Gly Phe Lys Asn Lys Asp Phe Lys Gly Ala Gly Val Ser Val His

405 410 415

Glu Thr Ala Glu Arg His Phe Tyr Arg Gln Ser Glu Leu Leu Ile Pro

420 425 430

Asp Val Leu Ala Asn Val Asn Phe Ser Gln Ala Asp Glu Val Ile Ala

435 440 445

Asp Leu Arg Asp Lys Leu His Gln Leu Cys Glu Met Leu Phe Asn Gln

450 455 460

Ser Val Ala Pro Tyr Ala His His Pro Lys Leu Ile Ser Thr Leu Ala

465 470 475 480

Leu Ala Arg Ala Thr Leu Tyr Lys His Leu Arg Glu Leu Lys Pro Gln

485 490 495

Gly Gly Pro Ser Asn Gly

500

<210> 2

<211> 160

<212> PRT

<213> 大肠杆菌

<400> 2

Met Ala Asp Glu Ile Asp Ala Met Ala Leu Tyr Arg Ala Trp Gln Gln

1 5 10 15

Leu Asp Asn Gly Ser Cys Ala Gln Ile Arg Arg Val Ser Glu Pro Asp

20 25 30

Glu Leu Arg Asp Ile Pro Ala Phe Tyr Arg Leu Val Gln Pro Phe Gly

35 40 45

Trp Glu Asn Pro Arg His Gln Gln Ala Leu Leu Arg Met Val Phe Cys

50 55 60

Leu Ser Ala Gly Lys Asn Val Ile Arg His Gln Asp Lys Lys Ser Glu

65 70 75 80

Gln Thr Thr Gly Ile Ser Leu Gly Arg Ala Leu Ala Asn Ser Gly Arg

85 90 95

Ile Asn Glu Arg Arg Ile Phe Gln Leu Ile Arg Ala Asp Arg Thr Ala

100 105 110

Asp Met Val Gln Leu Arg Arg Leu Leu Thr His Ala Glu Pro Val Leu

115 120 125

Asp Trp Pro Leu Met Ala Arg Met Leu Thr Trp Trp Gly Lys Arg Glu

130 135 140

Arg Gln Gln Leu Leu Glu Asp Phe Val Leu Thr Thr Asn Lys Asn Ala

145 150 155 160

<210> 3

<211> 363

<212> PRT

<213> 大肠杆菌

<400> 3

Met Ser Asn Phe Ile Asn Ile His Val Leu Ile Ser His Ser Pro Ser

1 5 10 15

Cys Leu Asn Arg Asp Asp Met Asn Met Gln Lys Asp Ala Ile Phe Gly

20 25 30

Gly Lys Arg Arg Val Arg Ile Ser Ser Gln Ser Leu Lys Arg Ala Met

35 40 45

Arg Lys Ser Gly Tyr Tyr Ala Gln Asn Ile Gly Glu Ser Ser Leu Arg

50 55 60

Thr Ile His Leu Ala Gln Leu Arg Asp Val Leu Arg Gln Lys Leu Gly

65 70 75 80

Glu Arg Phe Asp Gln Lys Ile Ile Asp Lys Thr Leu Ala Leu Leu Ser

85 90 95

Gly Lys Ser Val Asp Glu Ala Glu Lys Ile Ser Ala Asp Ala Val Thr

100 105 110

Pro Trp Val Val Gly Glu Ile Ala Trp Phe Cys Glu Gln Val Ala Lys

115 120 125

Ala Glu Ala Asp Asn Leu Asp Asp Lys Lys Leu Leu Lys Val Leu Lys

130 135 140

Glu Asp Ile Ala Ala Ile Arg Val Asn Leu Gln Gln Gly Val Asp Ile

145 150 155 160

Ala Leu Ser Gly Arg Met Ala Thr Ser Gly Met Met Thr Glu Leu Gly

165 170 175

Lys Val Asp Gly Ala Met Ser Ile Ala His Ala Ile Thr Thr His Gln

180 185 190

Val Asp Ser Asp Ile Asp Trp Phe Thr Ala Val Asp Asp Leu Gln Glu

195 200 205

Gln Gly Ser Ala His Leu Gly Thr Gln Glu Phe Ser Ser Gly Val Phe

210 215 220

Tyr Arg Tyr Ala Asn Ile Asn Leu Ala Gln Leu Gln Glu Asn Leu Gly

225 230 235 240

Gly Ala Ser Arg Glu Gln Ala Leu Glu Ile Ala Thr His Val Val His

245 250 255

Met Leu Ala Thr Glu Val Pro Gly Ala Lys Gln Arg Thr Tyr Ala Ala

260 265 270

Phe Asn Pro Ala Asp Met Val Met Val Asn Phe Ser Asp Met Pro Leu

275 280 285

Ser Met Ala Asn Ala Phe Glu Lys Ala Val Lys Ala Lys Asp Gly Phe

290 295 300

Leu Gln Pro Ser Ile Gln Ala Phe Asn Gln Tyr Trp Asp Arg Val Ala

305 310 315 320

Asn Gly Tyr Gly Leu Asn Gly Ala Ala Ala Gln Phe Ser Leu Ser Asp

325 330 335

Val Asp Pro Ile Thr Ala Gln Val Lys Gln Met Pro Thr Leu Glu Gln

340 345 350

Leu Lys Ser Trp Val Arg Asn Asn Gly Glu Ala

355 360

<210> 4

<211> 224

<212> PRT

<213> 大肠杆菌

<400> 4

Met Arg Ser Tyr Leu Ile Leu Arg Leu Ala Gly Pro Met Gln Ala Trp

1 5 10 15

Gly Gln Pro Thr Phe Glu Gly Thr Arg Pro Thr Gly Arg Phe Pro Thr

20 25 30

Arg Ser Gly Leu Leu Gly Leu Leu Gly Ala Cys Leu Gly Ile Gln Arg

35 40 45

Asp Asp Thr Ser Ser Leu Gln Ala Leu Ser Glu Ser Val Gln Phe Ala

50 55 60

Val Arg Cys Asp Glu Leu Ile Leu Asp Asp Arg Arg Val Ser Val Thr

65 70 75 80

Gly Leu Arg Asp Tyr His Thr Val Leu Gly Ala Arg Glu Asp Tyr Arg

85 90 95

Gly Leu Lys Ser His Glu Thr Ile Gln Thr Trp Arg Glu Tyr Leu Cys

100 105 110

Asp Ala Ser Phe Thr Val Ala Leu Trp Leu Thr Pro His Ala Thr Met

115 120 125

Val Ile Ser Glu Leu Glu Lys Ala Val Leu Lys Pro Arg Tyr Thr Pro

130 135 140

Tyr Leu Gly Arg Arg Ser Cys Pro Leu Thr His Pro Leu Phe Leu Gly

145 150 155 160

Thr Cys Gln Ala Ser Asp Pro Gln Lys Ala Leu Leu Asn Tyr Glu Pro

165 170 175

Val Gly Gly Asp Ile Tyr Ser Glu Glu Ser Val Thr Gly His His Leu

180 185 190

Lys Phe Thr Ala Arg Asp Glu Pro Met Ile Thr Leu Pro Arg Gln Phe

195 200 205

Ala Ser Arg Glu Trp Tyr Val Ile Lys Gly Gly Met Asp Val Ser Gln

210 215 220

<210> 5

<211> 199

<212> PRT

<213> 大肠杆菌

<400> 5

Met Tyr Leu Ser Lys Val Ile Ile Ala Arg Ala Trp Ser Arg Asp Leu

1 5 10 15

Tyr Gln Leu His Gln Gly Leu Trp His Leu Phe Pro Asn Arg Pro Asp

20 25 30

Ala Ala Arg Asp Phe Leu Phe His Val Glu Lys Arg Asn Thr Pro Glu

35 40 45

Gly Cys His Val Leu Leu Gln Ser Ala Gln Met Pro Val Ser Thr Ala

50 55 60

Val Ala Thr Val Ile Lys Thr Lys Gln Val Glu Phe Gln Leu Gln Val

65 70 75 80

Gly Val Pro Leu Tyr Phe Arg Leu Arg Ala Asn Pro Ile Lys Thr Ile

85 90 95

Leu Asp Asn Gln Lys Arg Leu Asp Ser Lys Gly Asn Ile Lys Arg Cys

100 105 110

Arg Val Pro Leu Ile Lys Glu Ala Glu Gln Ile Ala Trp Leu Gln Arg

115 120 125

Lys Leu Gly Asn Ala Ala Arg Val Glu Asp Val His Pro Ile Ser Glu

130 135 140

Arg Pro Gln Tyr Phe Ser Gly Asp Gly Lys Ser Gly Lys Ile Gln Thr

145 150 155 160

Val Cys Phe Glu Gly Val Leu Thr Ile Asn Asp Ala Pro Ala Leu Ile

165 170 175

Asp Leu Val Gln Gln Gly Ile Gly Pro Ala Lys Ser Met Gly Cys Gly

180 185 190

Leu Leu Ser Leu Ala Pro Leu

195

<210> 6

<211> 392

<212> DNA

<213> 人工序列

<220>

<223> GA1070943

<400> 6

actggaaagc gggcagtgaa aggaaggccc atgaggccag ttaattaagc ggatcctggc 60

ggcggcagcg gcggcggcag cgacaagcag aagaacggca tcaaggcgaa cttcaagatc 120

cgccacaaca tcgaggacgg cggcgtgcag ctcgccgacc actaccagca gaacaccccc 180

atcggcgacg gccccgtgct gctgcccgac aaccactacc tgagctacca gtccgccctg 240

agcaaagacc ccaacgagaa gcgcgatcac atggtcctgc tggagttcgt gaccgccgcc 300

gggatcactc tcggcatgga cgagctgtac aagtaagcgg ccgcggcgcg cctaggcctt 360

gacggccttc cttcaattcg ccctatagtg ag 392

<210> 7

<211> 603

<212> DNA

<213> 人工序列

<220>

<223> GA1070941

<400> 7

cactataggg cgaattggcg gaaggccgtc aaggccgcat ttaattaagc ggccgcaggc 60

ggcggcagcg gcggcggcag catggtgagc aagggcgagg agctgttcac cggggtggtg 120

cccatcctgg tcgagctgga cggcgacgta aacggccaca agttcagcgt gtccggcgag 180

ggcgagggcg atgccaccta cggcaagctg accctgaagc tcatctgcac caccggcaag 240

ctgcccgtgc cctggcccac cctcgtgacc accctcggct acggcctgca gtgcttcgcc 300

cgctaccccg accacatgaa gcagcacgac ttcttcaagt ccgccatgcc cgaaggctac 360

gtccaggagc gcaccatctt cttcaaggac gacggcaact acaagacccg cgccgaggtg 420

aagttcgagg gcgacaccct ggtgaaccgc atcgagctga agggcatcga cttcaaggag 480

gacggcaaca tcctggggca caagctggag tacaactaca acagccacaa cgtctatatc 540

acggcctaac tcgagggcgc gccctgggcc tcatgggcct tccgctcact gcccgctttc 600

cag 603

<210> 8

<211> 679

<212> DNA

<213> 人工序列

<220>

<223> GA1068859

<400> 8

cactataggg cgaattggcg gaaggccgtc aaggccgcat gagctccatg gaaacaaaga 60

attagctgat ctttaataat aaggaaatgt tacattaagg ttggtgggtt gtttttatgg 120

gaaaaaatgc tttaagaaca aatgtatact tttagagagt tccccgcgcc agcggggata 180

aaccgggccg attgaaggtc cggtggatgg cttaaaagag ttccccgcgc cagcggggat 240

aaaccgccgc aggtacagca ggtagcgcag atcatcaaga gttccccgcg ccagcgggga 300

taaaccgact tctctccgaa aagtcaggac gctgtggcag agttccccgc gccagcgggg 360

ataaaccgcc tacgcgctga acgccagcgg tgtggtgaat gagttccccg cgccagcggg 420

gataaaccgg tgtggccatg cacgccttta acggtgaact ggagttcccc gcgccagcgg 480

ggataaaccg cacgaactca gccagaacga caaacaaaag gcgagttccc cgcgccagcg 540

gggataaacc ggcaccagta cgcgccccac gctgacggtt tctgagttcc ccgcgccagc 600

ggggataaac cgcagctccc attttcaaac ccaggtaccc tgggcctcat gggccttccg 660

ctcactgccc gctttccag 679

<210> 9

<211> 685

<212> DNA

<213> 人工序列

<220>

<223> GA1047360

<400> 9

gagctcccgg gctgacggta atagaggcac ctacaggctc cggtaaaacg gaaacagcgc 60

tggcctatgc ttggaaactt attgatcaac aaattgcgga tagtgttatt tttgccctcc 120

caacacaagc taccgcgaat gctatgctta cgagaatgga agcgagcgcg agccacttat 180

tttcatcccc aaatcttatt cttgctcatg gcaattcacg gtttaaccac ctctttcaat 240

caataaaatc acgcgcgatt actgaacagg ggcaagaaga agcgtgggtt cagtgttgtc 300

agtggttgtc acaaagcaat aagaaagtgt ttcttgggca aatcggcgtt tgcacgattg 360

atcaggtgtt gatttcggta ttgccagtta aacaccgctt tatccgtggt ttgggaattg 420

gtagatctgt tttaattgtt aatgaagttc atgcttacga cacctatatg aacggcttgc 480

tcgaggcagt gctcaaggct caggctgatg tgggagggag tgttattctt ctttccgcaa 540

ccctaccaat gaaacaaaaa cagaagcttc tggatactta tggtctgcat acagatccag 600

tggaaaataa ctccgcatat ccactcatta actggcgagg tgtgaatggt gcgcaacgtt 660

ttgatctgct agcggatccg gtacc 685

<210> 10

<211> 37

<212> DNA

<213> 人工序列

<220>

<223> 引物 BG3186

<400> 10

atagcgccat ggaacctttt aaatatatat gccatta 37

<210> 11

<211> 41

<212> DNA

<213> 人工序列

<220>

<223> 引物 BG3213

<400> 11

acagtgggat ccgctttggg atttgcaggg atgactctgg t 41

<210> 12

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 引物 BG3303

<400> 12

atagcgtcat gaatttgctt attgataact ggattcctgt acg 43

<210> 13

<211> 44

<212> DNA

<213> 人工序列

<220>

<223> 引物 BG3212

<400> 13

acagtggcgg ccgcgccatt tgatggccct ccttgcggtt ttaa 44

<210> 14

<211> 45

<212> DNA

<213> 人工序列

<220>

<223> 引物 BG3076

<400> 14

cgtatatcaa actttccaat agcatgaaga gcaatgaaaa ataac 45

<210> 15

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 引物 BG3449

<400> 15

atgataccgc gagacccacg ctc 23

<210> 16

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 引物 BG3451

<400> 16

cggataaagt tgcaggacca cttc 24

<210> 17

<211> 199

<212> PRT

<213> 大肠杆菌

<400> 17

Met Tyr Leu Ser Lys Val Ile Ile Ala Arg Ala Trp Ser Arg Asp Leu

1 5 10 15

Tyr Gln Leu His Gln Gly Leu Trp His Leu Phe Pro Asn Arg Pro Asp

20 25 30

Ala Ala Arg Asp Phe Leu Phe His Val Glu Lys Arg Asn Thr Pro Glu

35 40 45

Gly Cys His Val Leu Leu Gln Ser Ala Gln Met Pro Val Ser Thr Ala

50 55 60

Val Ala Thr Val Ile Lys Thr Lys Gln Val Glu Phe Gln Leu Gln Val

65 70 75 80

Gly Val Pro Leu Tyr Phe Arg Leu Arg Ala Asn Pro Ile Lys Thr Ile

85 90 95

Leu Asp Asn Gln Lys Arg Leu Asp Ser Lys Gly Asn Ile Lys Arg Cys

100 105 110

Arg Val Pro Leu Ile Lys Glu Ala Glu Gln Ile Ala Trp Leu Gln Arg

115 120 125

Lys Leu Gly Asn Ala Ala Arg Val Glu Asp Val His Pro Ile Ser Glu

130 135 140

Arg Pro Gln Tyr Phe Ser Gly Asp Gly Lys Ser Gly Lys Ile Gln Thr

145 150 155 160

Val Cys Phe Glu Gly Val Leu Thr Ile Asn Asp Ala Pro Ala Leu Ile

165 170 175

Asp Leu Val Gln Gln Gly Ile Gly Pro Ala Lys Ser Met Gly Cys Gly

180 185 190

Leu Leu Ser Leu Ala Pro Leu

195

<210> 18

<211> 2154

<212> DNA

<213> 人工序列

<220>

<223> 融合蛋白

<400> 18

atggctcaac tggttaaaag cgaactggaa gagaaaaaaa gtgaactgcg ccacaaactg 60

aaatatgtgc cgcatgaata tatcgagctg attgaaattg cacgtaatcc gacccaggat 120

cgtattctgg aaatgaaagt gatggaattt tttatgaaag tgtacggcta tcgcggtgaa 180

catctgggtg gtagccgtaa accggatggt gcaatttata ccgttggtag cccgattgat 240

tatggtgtta ttgttgatac caaagcctat agcggtggtt ataatctgcc gattggtcag 300

gcagatgaaa tggaacgtta tgtggaagaa aatcagaccc gtgataaaca tctgaatccg 360

aatgaatggt ggaaagttta tccgagcagc gttaccgagt ttaaattcct gtttgttagc 420

ggtcacttca aaggcaacta taaagcacag ctgacccgtc tgaatcatat taccaattgt 480

aatggtgcag ttctgagcgt tgaagaactg ctgattggtg gtgaaatgat taaagcaggc 540

accctgaccc tggaagaagt tcgtcgcaaa tttaacaatg gcgaaatcaa ctttgcggat 600

cccaccaacc gcgcgaaagg cctggaagcg gtgagcgtgg cgagcatgaa tttgcttatt 660

gataactgga ttcctgtacg cccgcgaaac ggggggaaag tccaaatcat aaatctgcaa 720

tcgctatact gcagtagaga tcagtggcga ttaagtttgc cccgtgacga tatggaactg 780

gccgctttag cactgctggt ttgcattggg caaattatcg ccccggcaaa agatgacgtt 840

gaatttcgac atcgcataat gaatccgctc actgaagatg agtttcaaca actcatcgcg 900

ccgtggatag atatgttcta ccttaatcac gcagaacatc cctttatgca gaccaaaggt 960

gtcaaagcaa atgatgtgac tccaatggaa aaactgttgg ctggggtaag cggcgcgacg 1020

aattgtgcat ttgtcaatca accggggcag ggtgaagcat tatgtggtgg atgcactgcg 1080

attgcgttat tcaaccaggc gaatcaggca ccaggttttg gtggtggttt taaaagcggt 1140

ttacgtggag gaacacctgt aacaacgttc gtacgtggga tcgatcttcg ttcaacggtg 1200

ttactcaatg tcctcacatt acctcgtctt caaaaacaat ttcctaatga atcacatacg 1260

gaaaaccaac ctacctggat taaacctatc aagtccaatg agtctatacc tgcttcgtca 1320

attgggtttg tccgtggtct attctggcaa ccagcgcata ttgaattatg cgatcccatt 1380

gggattggta aatgttcttg ctgtggacag gaaagcaatt tgcgttatac cggttttctt 1440

aaggaaaaat ttacctttac agttaatggg ctatggcccc atccgcattc cccttgtctg 1500

gtaacagtca agaaagggga ggttgaggaa aaatttcttg ctttcaccac ctccgcacca 1560

tcatggacac aaatcagccg agttgtggta gataagatta ttcaaaatga aaatggaaat 1620

cgcgtggcgg cggttgtgaa tcaattcaga aatattgcgc cgcaaagtcc tcttgaattg 1680

attatggggg gatatcgtaa taatcaagca tctattcttg aacggcgtca tgatgtgttg 1740

atgtttaatc aggggtggca acaatacggc aatgtgataa acgaaatagt gactgttggt 1800

ttgggatata aaacagcctt acgcaaggcg ttatatacct ttgcagaagg gtttaaaaat 1860

aaagacttca aaggggccgg agtctctgtt catgagactg cagaaaggca tttctatcga 1920

cagagtgaat tattaattcc cgatgtactg gcgaatgtta atttttccca ggctgatgag 1980

gtaatagctg atttacgaga caaacttcat caattgtgtg aaatgctatt taatcaatct 2040

gtagctccct atgcacatca tcctaaatta ataagcacat tagcgcttgc ccgcgccacg 2100

ctatacaaac atttacggga gttaaaaccg caaggagggc catcaaatgg ctga 2154

<210> 19

<211> 717

<212> PRT

<213> 人工序列

<220>

<223> 融合蛋白

<400> 19

Met Ala Gln Leu Val Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu Leu

1 5 10 15

Arg His Lys Leu Lys Tyr Val Pro His Glu Tyr Ile Glu Leu Ile Glu

20 25 30

Ile Ala Arg Asn Pro Thr Gln Asp Arg Ile Leu Glu Met Lys Val Met

35 40 45

Glu Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly Glu His Leu Gly Gly

50 55 60

Ser Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile Asp

65 70 75 80

Tyr Gly Val Ile Val Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn Leu

85 90 95

Pro Ile Gly Gln Ala Asp Glu Met Glu Arg Tyr Val Glu Glu Asn Gln

100 105 110

Thr Arg Asp Lys His Leu Asn Pro Asn Glu Trp Trp Lys Val Tyr Pro

115 120 125

Ser Ser Val Thr Glu Phe Lys Phe Leu Phe Val Ser Gly His Phe Lys

130 135 140

Gly Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn His Ile Thr Asn Cys

145 150 155 160

Asn Gly Ala Val Leu Ser Val Glu Glu Leu Leu Ile Gly Gly Glu Met

165 170 175

Ile Lys Ala Gly Thr Leu Thr Leu Glu Glu Val Arg Arg Lys Phe Asn

180 185 190

Asn Gly Glu Ile Asn Phe Ala Asp Pro Thr Asn Arg Ala Lys Gly Leu

195 200 205

Glu Ala Val Ser Val Ala Ser Met Asn Leu Leu Ile Asp Asn Trp Ile

210 215 220

Pro Val Arg Pro Arg Asn Gly Gly Lys Val Gln Ile Ile Asn Leu Gln

225 230 235 240

Ser Leu Tyr Cys Ser Arg Asp Gln Trp Arg Leu Ser Leu Pro Arg Asp

245 250 255

Asp Met Glu Leu Ala Ala Leu Ala Leu Leu Val Cys Ile Gly Gln Ile

260 265 270

Ile Ala Pro Ala Lys Asp Asp Val Glu Phe Arg His Arg Ile Met Asn

275 280 285

Pro Leu Thr Glu Asp Glu Phe Gln Gln Leu Ile Ala Pro Trp Ile Asp

290 295 300

Met Phe Tyr Leu Asn His Ala Glu His Pro Phe Met Gln Thr Lys Gly

305 310 315 320

Val Lys Ala Asn Asp Val Thr Pro Met Glu Lys Leu Leu Ala Gly Val

325 330 335

Ser Gly Ala Thr Asn Cys Ala Phe Val Asn Gln Pro Gly Gln Gly Glu

340 345 350

Ala Leu Cys Gly Gly Cys Thr Ala Ile Ala Leu Phe Asn Gln Ala Asn

355 360 365

Gln Ala Pro Gly Phe Gly Gly Gly Phe Lys Ser Gly Leu Arg Gly Gly

370 375 380

Thr Pro Val Thr Thr Phe Val Arg Gly Ile Asp Leu Arg Ser Thr Val

385 390 395 400

Leu Leu Asn Val Leu Thr Leu Pro Arg Leu Gln Lys Gln Phe Pro Asn

405 410 415

Glu Ser His Thr Glu Asn Gln Pro Thr Trp Ile Lys Pro Ile Lys Ser

420 425 430

Asn Glu Ser Ile Pro Ala Ser Ser Ile Gly Phe Val Arg Gly Leu Phe

435 440 445

Trp Gln Pro Ala His Ile Glu Leu Cys Asp Pro Ile Gly Ile Gly Lys

450 455 460

Cys Ser Cys Cys Gly Gln Glu Ser Asn Leu Arg Tyr Thr Gly Phe Leu

465 470 475 480

Lys Glu Lys Phe Thr Phe Thr Val Asn Gly Leu Trp Pro His Pro His

485 490 495

Ser Pro Cys Leu Val Thr Val Lys Lys Gly Glu Val Glu Glu Lys Phe

500 505 510

Leu Ala Phe Thr Thr Ser Ala Pro Ser Trp Thr Gln Ile Ser Arg Val

515 520 525

Val Val Asp Lys Ile Ile Gln Asn Glu Asn Gly Asn Arg Val Ala Ala

530 535 540

Val Val Asn Gln Phe Arg Asn Ile Ala Pro Gln Ser Pro Leu Glu Leu

545 550 555 560

Ile Met Gly Gly Tyr Arg Asn Asn Gln Ala Ser Ile Leu Glu Arg Arg

565 570 575

His Asp Val Leu Met Phe Asn Gln Gly Trp Gln Gln Tyr Gly Asn Val

580 585 590

Ile Asn Glu Ile Val Thr Val Gly Leu Gly Tyr Lys Thr Ala Leu Arg

595 600 605

Lys Ala Leu Tyr Thr Phe Ala Glu Gly Phe Lys Asn Lys Asp Phe Lys

610 615 620

Gly Ala Gly Val Ser Val His Glu Thr Ala Glu Arg His Phe Tyr Arg

625 630 635 640

Gln Ser Glu Leu Leu Ile Pro Asp Val Leu Ala Asn Val Asn Phe Ser

645 650 655

Gln Ala Asp Glu Val Ile Ala Asp Leu Arg Asp Lys Leu His Gln Leu

660 665 670

Cys Glu Met Leu Phe Asn Gln Ser Val Ala Pro Tyr Ala His His Pro

675 680 685

Lys Leu Ile Ser Thr Leu Ala Leu Ala Arg Ala Thr Leu Tyr Lys His

690 695 700

Leu Arg Glu Leu Lys Pro Gln Gly Gly Pro Ser Asn Gly

705 710 715

<210> 20

<211> 2154

<212> DNA

<213> 人工序列

<220>

<223> 融合蛋白

<400> 20

atggctcaac tggttaaaag cgaactggaa gagaaaaaaa gtgaactgcg ccacaaactg 60

aaatatgtgc cgcatgaata tatcgagctg attgaaattg cacgtaatcc gacccaggat 120

cgtattctgg aaatgaaagt gatggaattt tttatgaaag tgtacggcta tcgcggtgaa 180

catctgggtg gtagccgtaa accggatggt gcaatttata ccgttggtag cccgattgat 240

tatggtgtta ttgttgatac caaagcctat agcggtggtt ataatctgcc gattggtcag 300

gcagatgaaa tgcagcgtta tgtgaaagaa aatcagaccc gcaacaaaca tattaacccg 360

aatgaatggt ggaaagttta tccgagcagc gttaccgagt ttaaattcct gtttgttagc 420

ggtcacttca aaggcaacta taaagcacag ctgacccgtc tgaatcgtaa aaccaattgt 480

aatggtgcag ttctgagcgt tgaagaactg ctgattggtg gtgaaatgat taaagcaggc 540

accctgaccc tggaagaagt tcgtcgcaaa tttaacaatg gcgaaatcaa ctttgcggat 600

cccaccaacc gcgcgaaagg cctggaagcg gtgagcgtgg cgagcatgaa tttgcttatt 660

gataactgga ttcctgtacg cccgcgaaac ggggggaaag tccaaatcat aaatctgcaa 720

tcgctatact gcagtagaga tcagtggcga ttaagtttgc cccgtgacga tatggaactg 780

gccgctttag cactgctggt ttgcattggg caaattatcg ccccggcaaa agatgacgtt 840

gaatttcgac atcgcataat gaatccgctc actgaagatg agtttcaaca actcatcgcg 900

ccgtggatag atatgttcta ccttaatcac gcagaacatc cctttatgca gaccaaaggt 960

gtcaaagcaa atgatgtgac tccaatggaa aaactgttgg ctggggtaag cggcgcgacg 1020

aattgtgcat ttgtcaatca accggggcag ggtgaagcat tatgtggtgg atgcactgcg 1080

attgcgttat tcaaccaggc gaatcaggca ccaggttttg gtggtggttt taaaagcggt 1140

ttacgtggag gaacacctgt aacaacgttc gtacgtggga tcgatcttcg ttcaacggtg 1200

ttactcaatg tcctcacatt acctcgtctt caaaaacaat ttcctaatga atcacatacg 1260

gaaaaccaac ctacctggat taaacctatc aagtccaatg agtctatacc tgcttcgtca 1320

attgggtttg tccgtggtct attctggcaa ccagcgcata ttgaattatg cgatcccatt 1380

gggattggta aatgttcttg ctgtggacag gaaagcaatt tgcgttatac cggttttctt 1440

aaggaaaaat ttacctttac agttaatggg ctatggcccc atccgcattc cccttgtctg 1500

gtaacagtca agaaagggga ggttgaggaa aaatttcttg ctttcaccac ctccgcacca 1560

tcatggacac aaatcagccg agttgtggta gataagatta ttcaaaatga aaatggaaat 1620

cgcgtggcgg cggttgtgaa tcaattcaga aatattgcgc cgcaaagtcc tcttgaattg 1680

attatggggg gatatcgtaa taatcaagca tctattcttg aacggcgtca tgatgtgttg 1740

atgtttaatc aggggtggca acaatacggc aatgtgataa acgaaatagt gactgttggt 1800

ttgggatata aaacagcctt acgcaaggcg ttatatacct ttgcagaagg gtttaaaaat 1860

aaagacttca aaggggccgg agtctctgtt catgagactg cagaaaggca tttctatcga 1920

cagagtgaat tattaattcc cgatgtactg gcgaatgtta atttttccca ggctgatgag 1980

gtaatagctg atttacgaga caaacttcat caattgtgtg aaatgctatt taatcaatct 2040

gtagctccct atgcacatca tcctaaatta ataagcacat tagcgcttgc ccgcgccacg 2100

ctatacaaac atttacggga gttaaaaccg caaggagggc catcaaatgg ctga 2154

<210> 21

<211> 717

<212> PRT

<213> 人工序列

<220>

<223> 融合蛋白

<400> 21

Met Ala Gln Leu Val Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu Leu

1 5 10 15

Arg His Lys Leu Lys Tyr Val Pro His Glu Tyr Ile Glu Leu Ile Glu

20 25 30

Ile Ala Arg Asn Pro Thr Gln Asp Arg Ile Leu Glu Met Lys Val Met

35 40 45

Glu Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly Glu His Leu Gly Gly

50 55 60

Ser Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile Asp

65 70 75 80

Tyr Gly Val Ile Val Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn Leu

85 90 95

Pro Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr Val Lys Glu Asn Gln

100 105 110

Thr Arg Asn Lys His Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr Pro

115 120 125

Ser Ser Val Thr Glu Phe Lys Phe Leu Phe Val Ser Gly His Phe Lys

130 135 140

Gly Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn Arg Lys Thr Asn Cys

145 150 155 160

Asn Gly Ala Val Leu Ser Val Glu Glu Leu Leu Ile Gly Gly Glu Met

165 170 175

Ile Lys Ala Gly Thr Leu Thr Leu Glu Glu Val Arg Arg Lys Phe Asn

180 185 190

Asn Gly Glu Ile Asn Phe Ala Asp Pro Thr Asn Arg Ala Lys Gly Leu

195 200 205

Glu Ala Val Ser Val Ala Ser Met Asn Leu Leu Ile Asp Asn Trp Ile

210 215 220

Pro Val Arg Pro Arg Asn Gly Gly Lys Val Gln Ile Ile Asn Leu Gln

225 230 235 240

Ser Leu Tyr Cys Ser Arg Asp Gln Trp Arg Leu Ser Leu Pro Arg Asp

245 250 255

Asp Met Glu Leu Ala Ala Leu Ala Leu Leu Val Cys Ile Gly Gln Ile

260 265 270

Ile Ala Pro Ala Lys Asp Asp Val Glu Phe Arg His Arg Ile Met Asn

275 280 285

Pro Leu Thr Glu Asp Glu Phe Gln Gln Leu Ile Ala Pro Trp Ile Asp

290 295 300

Met Phe Tyr Leu Asn His Ala Glu His Pro Phe Met Gln Thr Lys Gly

305 310 315 320

Val Lys Ala Asn Asp Val Thr Pro Met Glu Lys Leu Leu Ala Gly Val

325 330 335

Ser Gly Ala Thr Asn Cys Ala Phe Val Asn Gln Pro Gly Gln Gly Glu

340 345 350

Ala Leu Cys Gly Gly Cys Thr Ala Ile Ala Leu Phe Asn Gln Ala Asn

355 360 365

Gln Ala Pro Gly Phe Gly Gly Gly Phe Lys Ser Gly Leu Arg Gly Gly

370 375 380

Thr Pro Val Thr Thr Phe Val Arg Gly Ile Asp Leu Arg Ser Thr Val

385 390 395 400

Leu Leu Asn Val Leu Thr Leu Pro Arg Leu Gln Lys Gln Phe Pro Asn

405 410 415

Glu Ser His Thr Glu Asn Gln Pro Thr Trp Ile Lys Pro Ile Lys Ser

420 425 430

Asn Glu Ser Ile Pro Ala Ser Ser Ile Gly Phe Val Arg Gly Leu Phe

435 440 445

Trp Gln Pro Ala His Ile Glu Leu Cys Asp Pro Ile Gly Ile Gly Lys

450 455 460

Cys Ser Cys Cys Gly Gln Glu Ser Asn Leu Arg Tyr Thr Gly Phe Leu

465 470 475 480

Lys Glu Lys Phe Thr Phe Thr Val Asn Gly Leu Trp Pro His Pro His

485 490 495

Ser Pro Cys Leu Val Thr Val Lys Lys Gly Glu Val Glu Glu Lys Phe

500 505 510

Leu Ala Phe Thr Thr Ser Ala Pro Ser Trp Thr Gln Ile Ser Arg Val

515 520 525

Val Val Asp Lys Ile Ile Gln Asn Glu Asn Gly Asn Arg Val Ala Ala

530 535 540

Val Val Asn Gln Phe Arg Asn Ile Ala Pro Gln Ser Pro Leu Glu Leu

545 550 555 560

Ile Met Gly Gly Tyr Arg Asn Asn Gln Ala Ser Ile Leu Glu Arg Arg

565 570 575

His Asp Val Leu Met Phe Asn Gln Gly Trp Gln Gln Tyr Gly Asn Val

580 585 590

Ile Asn Glu Ile Val Thr Val Gly Leu Gly Tyr Lys Thr Ala Leu Arg

595 600 605

Lys Ala Leu Tyr Thr Phe Ala Glu Gly Phe Lys Asn Lys Asp Phe Lys

610 615 620

Gly Ala Gly Val Ser Val His Glu Thr Ala Glu Arg His Phe Tyr Arg

625 630 635 640

Gln Ser Glu Leu Leu Ile Pro Asp Val Leu Ala Asn Val Asn Phe Ser

645 650 655

Gln Ala Asp Glu Val Ile Ala Asp Leu Arg Asp Lys Leu His Gln Leu

660 665 670

Cys Glu Met Leu Phe Asn Gln Ser Val Ala Pro Tyr Ala His His Pro

675 680 685

Lys Leu Ile Ser Thr Leu Ala Leu Ala Arg Ala Thr Leu Tyr Lys His

690 695 700

Leu Arg Glu Leu Lys Pro Gln Gly Gly Pro Ser Asn Gly

705 710 715

<210> 22

<211> 2235

<212> DNA

<213> 人工序列

<220>

<223> 融合蛋白

<400> 22

atgcatcacc atcatcacca cccgaaaaaa aagcgcaaag tggatccgaa gaaaaaacgt 60

aaagttgaag atccgaaaga catggctcaa ctggttaaaa gcgaactgga agagaaaaaa 120

agtgaactgc gccacaaact gaaatatgtg ccgcatgaat atatcgagct gattgaaatt 180

gcacgtaatc cgacccagga tcgtattctg gaaatgaaag tgatggaatt ttttatgaaa 240

gtgtacggct atcgcggtga acatctgggt ggtagccgta aaccggatgg tgcaatttat 300

accgttggta gcccgattga ttatggtgtt attgttgata ccaaagccta tagcggtggt 360

tataatctgc cgattggtca ggcagatgaa atgcagcgtt atgtgaaaga aaatcagacc 420

cgcaacaaac atattaaccc gaatgaatgg tggaaagttt atccgagcag cgttaccgag 480

tttaaattcc tgtttgttag cggtcacttc aaaggcaact ataaagcaca gctgacccgt 540

ctgaatcgta aaaccaattg taatggtgca gttctgagcg ttgaagaact gctgattggt 600

ggtgaaatga ttaaagcagg caccctgacc ctggaagaag ttcgtcgcaa atttaacaat 660

ggcgaaatca actttgcgga tcccaccaac cgcgcgaaag gcctggaagc ggtgagcgtg 720

gcgagcatga atttgcttat tgataactgg attcctgtac gcccgcgaaa cggggggaaa 780

gtccaaatca taaatctgca atcgctatac tgcagtagag atcagtggcg attaagtttg 840

ccccgtgacg atatggaact ggccgcttta gcactgctgg tttgcattgg gcaaattatc 900

gccccggcaa aagatgacgt tgaatttcga catcgcataa tgaatccgct cactgaagat 960

gagtttcaac aactcatcgc gccgtggata gatatgttct accttaatca cgcagaacat 1020

ccctttatgc agaccaaagg tgtcaaagca aatgatgtga ctccaatgga aaaactgttg 1080

gctggggtaa gcggcgcgac gaattgtgca tttgtcaatc aaccggggca gggtgaagca 1140

ttatgtggtg gatgcactgc gattgcgtta ttcaaccagg cgaatcaggc accaggtttt 1200

ggtggtggtt ttaaaagcgg tttacgtgga ggaacacctg taacaacgtt cgtacgtggg 1260

atcgatcttc gttcaacggt gttactcaat gtcctcacat tacctcgtct tcaaaaacaa 1320

tttcctaatg aatcacatac ggaaaaccaa cctacctgga ttaaacctat caagtccaat 1380

gagtctatac ctgcttcgtc aattgggttt gtccgtggtc tattctggca accagcgcat 1440

attgaattat gcgatcccat tgggattggt aaatgttctt gctgtggaca ggaaagcaat 1500

ttgcgttata ccggttttct taaggaaaaa tttaccttta cagttaatgg gctatggccc 1560

catccgcatt ccccttgtct ggtaacagtc aagaaagggg aggttgagga aaaatttctt 1620

gctttcacca cctccgcacc atcatggaca caaatcagcc gagttgtggt agataagatt 1680

attcaaaatg aaaatggaaa tcgcgtggcg gcggttgtga atcaattcag aaatattgcg 1740

ccgcaaagtc ctcttgaatt gattatgggg ggatatcgta ataatcaagc atctattctt 1800

gaacggcgtc atgatgtgtt gatgtttaat caggggtggc aacaatacgg caatgtgata 1860

aacgaaatag tgactgttgg tttgggatat aaaacagcct tacgcaaggc gttatatacc 1920

tttgcagaag ggtttaaaaa taaagacttc aaaggggccg gagtctctgt tcatgagact 1980

gcagaaaggc atttctatcg acagagtgaa ttattaattc ccgatgtact ggcgaatgtt 2040

aatttttccc aggctgatga ggtaatagct gatttacgag acaaacttca tcaattgtgt 2100

gaaatgctat ttaatcaatc tgtagctccc tatgcacatc atcctaaatt aataagcaca 2160

ttagcgcttg cccgcgccac gctatacaaa catttacggg agttaaaacc gcaaggaggg 2220

ccatcaaatg gctga 2235

<210> 23

<211> 744

<212> PRT

<213> 人工序列

<220>

<223> 融合蛋白

<400> 23

Met His His His His His His Pro Lys Lys Lys Arg Lys Val Asp Pro

1 5 10 15

Lys Lys Lys Arg Lys Val Glu Asp Pro Lys Asp Met Ala Gln Leu Val

20 25 30

Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu Leu Arg His Lys Leu Lys

35 40 45

Tyr Val Pro His Glu Tyr Ile Glu Leu Ile Glu Ile Ala Arg Asn Pro

50 55 60

Thr Gln Asp Arg Ile Leu Glu Met Lys Val Met Glu Phe Phe Met Lys

65 70 75 80

Val Tyr Gly Tyr Arg Gly Glu His Leu Gly Gly Ser Arg Lys Pro Asp

85 90 95

Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile Asp Tyr Gly Val Ile Val

100 105 110

Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn Leu Pro Ile Gly Gln Ala

115 120 125

Asp Glu Met Gln Arg Tyr Val Lys Glu Asn Gln Thr Arg Asn Lys His

130 135 140

Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr Pro Ser Ser Val Thr Glu

145 150 155 160

Phe Lys Phe Leu Phe Val Ser Gly His Phe Lys Gly Asn Tyr Lys Ala

165 170 175

Gln Leu Thr Arg Leu Asn Arg Lys Thr Asn Cys Asn Gly Ala Val Leu

180 185 190

Ser Val Glu Glu Leu Leu Ile Gly Gly Glu Met Ile Lys Ala Gly Thr

195 200 205

Leu Thr Leu Glu Glu Val Arg Arg Lys Phe Asn Asn Gly Glu Ile Asn

210 215 220

Phe Ala Asp Pro Thr Asn Arg Ala Lys Gly Leu Glu Ala Val Ser Val

225 230 235 240

Ala Ser Met Asn Leu Leu Ile Asp Asn Trp Ile Pro Val Arg Pro Arg

245 250 255

Asn Gly Gly Lys Val Gln Ile Ile Asn Leu Gln Ser Leu Tyr Cys Ser

260 265 270

Arg Asp Gln Trp Arg Leu Ser Leu Pro Arg Asp Asp Met Glu Leu Ala

275 280 285

Ala Leu Ala Leu Leu Val Cys Ile Gly Gln Ile Ile Ala Pro Ala Lys

290 295 300

Asp Asp Val Glu Phe Arg His Arg Ile Met Asn Pro Leu Thr Glu Asp

305 310 315 320

Glu Phe Gln Gln Leu Ile Ala Pro Trp Ile Asp Met Phe Tyr Leu Asn

325 330 335

His Ala Glu His Pro Phe Met Gln Thr Lys Gly Val Lys Ala Asn Asp

340 345 350

Val Thr Pro Met Glu Lys Leu Leu Ala Gly Val Ser Gly Ala Thr Asn

355 360 365

Cys Ala Phe Val Asn Gln Pro Gly Gln Gly Glu Ala Leu Cys Gly Gly

370 375 380

Cys Thr Ala Ile Ala Leu Phe Asn Gln Ala Asn Gln Ala Pro Gly Phe

385 390 395 400

Gly Gly Gly Phe Lys Ser Gly Leu Arg Gly Gly Thr Pro Val Thr Thr

405 410 415

Phe Val Arg Gly Ile Asp Leu Arg Ser Thr Val Leu Leu Asn Val Leu

420 425 430

Thr Leu Pro Arg Leu Gln Lys Gln Phe Pro Asn Glu Ser His Thr Glu

435 440 445

Asn Gln Pro Thr Trp Ile Lys Pro Ile Lys Ser Asn Glu Ser Ile Pro

450 455 460

Ala Ser Ser Ile Gly Phe Val Arg Gly Leu Phe Trp Gln Pro Ala His

465 470 475 480

Ile Glu Leu Cys Asp Pro Ile Gly Ile Gly Lys Cys Ser Cys Cys Gly

485 490 495

Gln Glu Ser Asn Leu Arg Tyr Thr Gly Phe Leu Lys Glu Lys Phe Thr

500 505 510

Phe Thr Val Asn Gly Leu Trp Pro His Pro His Ser Pro Cys Leu Val

515 520 525

Thr Val Lys Lys Gly Glu Val Glu Glu Lys Phe Leu Ala Phe Thr Thr

530 535 540

Ser Ala Pro Ser Trp Thr Gln Ile Ser Arg Val Val Val Asp Lys Ile

545 550 555 560

Ile Gln Asn Glu Asn Gly Asn Arg Val Ala Ala Val Val Asn Gln Phe

565 570 575

Arg Asn Ile Ala Pro Gln Ser Pro Leu Glu Leu Ile Met Gly Gly Tyr

580 585 590

Arg Asn Asn Gln Ala Ser Ile Leu Glu Arg Arg His Asp Val Leu Met

595 600 605

Phe Asn Gln Gly Trp Gln Gln Tyr Gly Asn Val Ile Asn Glu Ile Val

610 615 620

Thr Val Gly Leu Gly Tyr Lys Thr Ala Leu Arg Lys Ala Leu Tyr Thr

625 630 635 640

Phe Ala Glu Gly Phe Lys Asn Lys Asp Phe Lys Gly Ala Gly Val Ser

645 650 655

Val His Glu Thr Ala Glu Arg His Phe Tyr Arg Gln Ser Glu Leu Leu

660 665 670

Ile Pro Asp Val Leu Ala Asn Val Asn Phe Ser Gln Ala Asp Glu Val

675 680 685

Ile Ala Asp Leu Arg Asp Lys Leu His Gln Leu Cys Glu Met Leu Phe

690 695 700

Asn Gln Ser Val Ala Pro Tyr Ala His His Pro Lys Leu Ile Ser Thr

705 710 715 720

Leu Ala Leu Ala Arg Ala Thr Leu Tyr Lys His Leu Arg Glu Leu Lys

725 730 735

Pro Gln Gly Gly Pro Ser Asn Gly

740

<210> 24

<211> 2235

<212> DNA

<213> 人工序列

<220>

<223> 融合蛋白

<400> 24

atgcatcacc atcatcacca cccgaaaaaa aagcgcaaag tggatccgaa gaaaaaacgt 60

aaagttgaag atccgaaaga catggctcaa ctggttaaaa gcgaactgga agagaaaaaa 120

agtgaactgc gccacaaact gaaatatgtg ccgcatgaat atatcgagct gattgaaatt 180

gcacgtaatc cgacccagga tcgtattctg gaaatgaaag tgatggaatt ttttatgaaa 240

gtgtacggct atcgcggtga acatctgggt ggtagccgta aaccggatgg tgcaatttat 300

accgttggta gcccgattga ttatggtgtt attgttgata ccaaagccta tagcggtggt 360

tataatctgc cgattggtca ggcagatgaa atggaacgtt atgtggaaga aaatcagacc 420

cgtgataaac atctgaatcc gaatgaatgg tggaaagttt atccgagcag cgttaccgag 480

tttaaattcc tgtttgttag cggtcacttc aaaggcaact ataaagcaca gctgacccgt 540

ctgaatcata ttaccaattg taatggtgca gttctgagcg ttgaagaact gctgattggt 600

ggtgaaatga ttaaagcagg caccctgacc ctggaagaag ttcgtcgcaa atttaacaat 660

ggcgaaatca actttgcgga tcccaccaac cgcgcgaaag gcctggaagc ggtgagcgtg 720

gcgagcatga atttgcttat tgataactgg attcctgtac gcccgcgaaa cggggggaaa 780

gtccaaatca taaatctgca atcgctatac tgcagtagag atcagtggcg attaagtttg 840

ccccgtgacg atatggaact ggccgcttta gcactgctgg tttgcattgg gcaaattatc 900

gccccggcaa aagatgacgt tgaatttcga catcgcataa tgaatccgct cactgaagat 960

gagtttcaac aactcatcgc gccgtggata gatatgttct accttaatca cgcagaacat 1020

ccctttatgc agaccaaagg tgtcaaagca aatgatgtga ctccaatgga aaaactgttg 1080

gctggggtaa gcggcgcgac gaattgtgca tttgtcaatc aaccggggca gggtgaagca 1140

ttatgtggtg gatgcactgc gattgcgtta ttcaaccagg cgaatcaggc accaggtttt 1200

ggtggtggtt ttaaaagcgg tttacgtgga ggaacacctg taacaacgtt cgtacgtggg 1260

atcgatcttc gttcaacggt gttactcaat gtcctcacat tacctcgtct tcaaaaacaa 1320

tttcctaatg aatcacatac ggaaaaccaa cctacctgga ttaaacctat caagtccaat 1380

gagtctatac ctgcttcgtc aattgggttt gtccgtggtc tattctggca accagcgcat 1440

attgaattat gcgatcccat tgggattggt aaatgttctt gctgtggaca ggaaagcaat 1500

ttgcgttata ccggttttct taaggaaaaa tttaccttta cagttaatgg gctatggccc 1560

catccgcatt ccccttgtct ggtaacagtc aagaaagggg aggttgagga aaaatttctt 1620

gctttcacca cctccgcacc atcatggaca caaatcagcc gagttgtggt agataagatt 1680

attcaaaatg aaaatggaaa tcgcgtggcg gcggttgtga atcaattcag aaatattgcg 1740

ccgcaaagtc ctcttgaatt gattatgggg ggatatcgta ataatcaagc atctattctt 1800

gaacggcgtc atgatgtgtt gatgtttaat caggggtggc aacaatacgg caatgtgata 1860

aacgaaatag tgactgttgg tttgggatat aaaacagcct tacgcaaggc gttatatacc 1920

tttgcagaag ggtttaaaaa taaagacttc aaaggggccg gagtctctgt tcatgagact 1980

gcagaaaggc atttctatcg acagagtgaa ttattaattc ccgatgtact ggcgaatgtt 2040

aatttttccc aggctgatga ggtaatagct gatttacgag acaaacttca tcaattgtgt 2100

gaaatgctat ttaatcaatc tgtagctccc tatgcacatc atcctaaatt aataagcaca 2160

ttagcgcttg cccgcgccac gctatacaaa catttacggg agttaaaacc gcaaggaggg 2220

ccatcaaatg gctga 2235

<210> 25

<211> 744

<212> PRT

<213> 人工序列

<220>

<223> 融合蛋白

<400> 25

Met His His His His His His Pro Lys Lys Lys Arg Lys Val Asp Pro

1 5 10 15

Lys Lys Lys Arg Lys Val Glu Asp Pro Lys Asp Met Ala Gln Leu Val

20 25 30

Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu Leu Arg His Lys Leu Lys

35 40 45

Tyr Val Pro His Glu Tyr Ile Glu Leu Ile Glu Ile Ala Arg Asn Pro

50 55 60

Thr Gln Asp Arg Ile Leu Glu Met Lys Val Met Glu Phe Phe Met Lys

65 70 75 80

Val Tyr Gly Tyr Arg Gly Glu His Leu Gly Gly Ser Arg Lys Pro Asp

85 90 95

Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile Asp Tyr Gly Val Ile Val

100 105 110

Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn Leu Pro Ile Gly Gln Ala

115 120 125

Asp Glu Met Glu Arg Tyr Val Glu Glu Asn Gln Thr Arg Asp Lys His

130 135 140

Leu Asn Pro Asn Glu Trp Trp Lys Val Tyr Pro Ser Ser Val Thr Glu

145 150 155 160

Phe Lys Phe Leu Phe Val Ser Gly His Phe Lys Gly Asn Tyr Lys Ala

165 170 175

Gln Leu Thr Arg Leu Asn His Ile Thr Asn Cys Asn Gly Ala Val Leu

180 185 190

Ser Val Glu Glu Leu Leu Ile Gly Gly Glu Met Ile Lys Ala Gly Thr

195 200 205

Leu Thr Leu Glu Glu Val Arg Arg Lys Phe Asn Asn Gly Glu Ile Asn

210 215 220

Phe Ala Asp Pro Thr Asn Arg Ala Lys Gly Leu Glu Ala Val Ser Val

225 230 235 240

Ala Ser Met Asn Leu Leu Ile Asp Asn Trp Ile Pro Val Arg Pro Arg

245 250 255

Asn Gly Gly Lys Val Gln Ile Ile Asn Leu Gln Ser Leu Tyr Cys Ser

260 265 270

Arg Asp Gln Trp Arg Leu Ser Leu Pro Arg Asp Asp Met Glu Leu Ala

275 280 285

Ala Leu Ala Leu Leu Val Cys Ile Gly Gln Ile Ile Ala Pro Ala Lys

290 295 300

Asp Asp Val Glu Phe Arg His Arg Ile Met Asn Pro Leu Thr Glu Asp

305 310 315 320

Glu Phe Gln Gln Leu Ile Ala Pro Trp Ile Asp Met Phe Tyr Leu Asn

325 330 335

His Ala Glu His Pro Phe Met Gln Thr Lys Gly Val Lys Ala Asn Asp

340 345 350

Val Thr Pro Met Glu Lys Leu Leu Ala Gly Val Ser Gly Ala Thr Asn

355 360 365

Cys Ala Phe Val Asn Gln Pro Gly Gln Gly Glu Ala Leu Cys Gly Gly

370 375 380

Cys Thr Ala Ile Ala Leu Phe Asn Gln Ala Asn Gln Ala Pro Gly Phe

385 390 395 400

Gly Gly Gly Phe Lys Ser Gly Leu Arg Gly Gly Thr Pro Val Thr Thr

405 410 415

Phe Val Arg Gly Ile Asp Leu Arg Ser Thr Val Leu Leu Asn Val Leu

420 425 430

Thr Leu Pro Arg Leu Gln Lys Gln Phe Pro Asn Glu Ser His Thr Glu

435 440 445

Asn Gln Pro Thr Trp Ile Lys Pro Ile Lys Ser Asn Glu Ser Ile Pro

450 455 460

Ala Ser Ser Ile Gly Phe Val Arg Gly Leu Phe Trp Gln Pro Ala His

465 470 475 480

Ile Glu Leu Cys Asp Pro Ile Gly Ile Gly Lys Cys Ser Cys Cys Gly

485 490 495

Gln Glu Ser Asn Leu Arg Tyr Thr Gly Phe Leu Lys Glu Lys Phe Thr

500 505 510

Phe Thr Val Asn Gly Leu Trp Pro His Pro His Ser Pro Cys Leu Val

515 520 525

Thr Val Lys Lys Gly Glu Val Glu Glu Lys Phe Leu Ala Phe Thr Thr

530 535 540

Ser Ala Pro Ser Trp Thr Gln Ile Ser Arg Val Val Val Asp Lys Ile

545 550 555 560

Ile Gln Asn Glu Asn Gly Asn Arg Val Ala Ala Val Val Asn Gln Phe

565 570 575

Arg Asn Ile Ala Pro Gln Ser Pro Leu Glu Leu Ile Met Gly Gly Tyr

580 585 590

Arg Asn Asn Gln Ala Ser Ile Leu Glu Arg Arg His Asp Val Leu Met

595 600 605

Phe Asn Gln Gly Trp Gln Gln Tyr Gly Asn Val Ile Asn Glu Ile Val

610 615 620

Thr Val Gly Leu Gly Tyr Lys Thr Ala Leu Arg Lys Ala Leu Tyr Thr

625 630 635 640

Phe Ala Glu Gly Phe Lys Asn Lys Asp Phe Lys Gly Ala Gly Val Ser

645 650 655

Val His Glu Thr Ala Glu Arg His Phe Tyr Arg Gln Ser Glu Leu Leu

660 665 670

Ile Pro Asp Val Leu Ala Asn Val Asn Phe Ser Gln Ala Asp Glu Val

675 680 685

Ile Ala Asp Leu Arg Asp Lys Leu His Gln Leu Cys Glu Met Leu Phe

690 695 700

Asn Gln Ser Val Ala Pro Tyr Ala His His Pro Lys Leu Ile Ser Thr

705 710 715 720

Leu Ala Leu Ala Arg Ala Thr Leu Tyr Lys His Leu Arg Glu Leu Lys

725 730 735

Pro Gln Gly Gly Pro Ser Asn Gly

740

<210> 26

<211> 168

<212> DNA

<213> 人工序列

<220>

<223> 靶质粒

<400> 26

gaattcacaa cggtgagcaa gtcactgttg gcaagccagg atctgaacaa taccgtcttg 60

ctttcgagcg ctagctctag aactagtcct cagcctaggc ctcgttccga agctgtcttt 120

cgctgctgag ggtgacgatc ccgcataggc ggcctttaac tcggatcc 168

<210> 27

<211> 163

<212> DNA

<213> 人工序列

<220>

<223> 靶质粒

<400> 27

gaattcacaa cggtgagcaa gtcactgttg gcaagccagg atctgaacaa taccgtcttt 60

tcgagcgcta gctctagaac tagtcctcag cctaggcctc gttcaagctg tctttcgctg 120

ctgagggtga cgatcccgca taggcggcct ttaactcgga tcc 163

<210> 28

<211> 158

<212> DNA

<213> 人工序列

<220>

<223> 靶质粒

<400> 28

gaattcacaa cggtgagcaa gtcactgttg gcaagccagg atctgaacaa taccgtcttc 60

gagcgctagc tctagaacta gtcctcagcc taggcctcga agctgtcttt cgctgctgag 120

ggtgacgatc ccgcataggc ggcctttaac tcggatcc 158

<210> 29

<211> 153

<212> DNA

<213> 人工序列

<220>

<223> 靶质粒

<400> 29

gaattcacaa cggtgagcaa gtcactgttg gcaagccagg atctgaacaa taccgtcttg 60

cgctagctct agaactagtc ctcagcctag gcctaagctg tctttcgctg ctgagggtga 120

cgatcccgca taggcggcct ttaactcgga tcc 153

<210> 30

<211> 148

<212> DNA

<213> 人工序列

<220>

<223> 靶质粒

<400> 30

gaattcacaa cggtgagcaa gtcactgttg gcaagccagg atctgaacaa taccgtcttg 60

ctagctctag aactagtcct cagcctagga agctgtcttt cgctgctgag ggtgacgatc 120

ccgcataggc ggcctttaac tcggatcc 148

<210> 31

<211> 143

<212> DNA

<213> 人工序列

<220>

<223> 靶质粒

<400> 31

gaattcacaa cggtgagcaa gtcactgttg gcaagccagg atctgaacaa taccgtcttc 60

tctagaacta gtcctcagcc taggaagctg tctttcgctg ctgagggtga cgatcccgca 120

taggcggcct ttaactcgga tcc 143

<210> 32

<211> 41

<212> DNA

<213> 人工序列

<220>

<223> 切割产物

<400> 32

cttgcgctag ctctagaact agtcctcagc ctaggcctaa g 41

<210> 33

<211> 41

<212> DNA

<213> 人工序列

<220>

<223> 切割产物

<400> 33

cttaggccta ggctgaggac tagttctaga gctagcgcaa g 41

<210> 34

<211> 45

<212> DNA

<213> 人工序列

<220>

<223> 补平连接

<400> 34

cttgcgctag ctctagaact agctagtcct cagcctaggc ctaag 45

<210> 35

<211> 45

<212> DNA

<213> 人工序列

<220>

<223> 补平连接

<400> 35

cttaggccta ggctgaggac tagctagttc tagagctagc gcaag 45

<210> 36

<211> 1100

<212> DNA

<213> 智人

<400> 36

ggtggaacaa gatggattat caagtgtcaa gtccaatcta tgacatcaat tattatacat 60

cggagccctg ccaaaaaatc aatgtgaagc aaatcgcagc ccgcctcctg cctccgctct 120

actcactggt gttcatcttt ggttttgtgg gcaacatgct ggtcatcctc atcctgataa 180

actgcaaaag gctgaagagc atgactgaca tctacctgct caacctggcc atctctgacc 240

tgtttttcct tcttactgtc cccttctggg ctcactatgc tgccgcccag tgggactttg 300

gaaatacaat gtgtcaactc ttgacagggc tctattttat aggcttcttc tctggaatct 360

tcttcatcat cctcctgaca atcgataggt acctggctgt cgtccatgct gtgtttgctt 420

taaaagccag gacggtcacc tttggggtgg tgacaagtgt gatcacttgg gtggtggctg 480

tgtttgcgtc tctcccagga atcatcttta ccagatctca aaaagaaggt cttcattaca 540

cctgcagctc tcattttcca tacagtcagt atcaattctg gaagaatttc cagacattaa 600

agatagtcat cttggggctg gtcctgccgc tgcttgtcat ggtcatctgc tactcgggaa 660

tcctaaaaac tctgcttcgg tgtcgaaatg agaagaagag gcacagggct gtgaggctta 720

tcttcaccat catgattgtt tattttctct tctgggctcc ctacaacatt gtccttctcc 780

tgaacacctt ccaggaattc tttggcctga ataattgcag tagctctaac aggttggacc 840

aagctatgca ggtgacagag actcttggga tgacgcactg ctgcatcaac cccatcatct 900

atgcctttgt cggggagaag ttcagaaact acctcttagt cttcttccaa aagcacattg 960

ccaaacgctt ctgcaaatgc tgttctattt tccagcaaga ggctcccgag cgagcaagct 1020

cagtttacac ccgatccact ggggagcagg aaatatctgt gggcttgtga cacggactca 1080

agtgggctgg tgacccagtc 1100

<210> 37

<211> 424

<212> DNA

<213> 人工序列

<220>

<223> CRISPR 阵列 red1

<400> 37

ccatggtaat acgactcact atagggagaa ttagctgatc tttaataata aggaaatgtt 60

acattaaggt tggtgggttg tttttatggg aaaaaatgct ttaagaacaa atgtatactt 120

ttagagagtt ccccgcgcca gcggggataa accgcaaaca cagcatggac gacagccagg 180

tacctagagt tccccgcgcc agcggggata aaccgcaaac acagcatgga cgacagccag 240

gtacctagag ttccccgcgc cagcggggat aaaccgcaaa cacagcatgg acgacagcca 300

ggtacctaga gttccccgcg ccagcgggga taaaccgaaa acaaaaggct cagtcggaag 360

actgggcctt ttgttttaac cccttggggc ctctaaacgg gtcttgaggg gttttttggg 420

tacc 424

<210> 38

<211> 424

<212> DNA

<213> 人工序列

<220>

<223> CRISPR 阵列 red2

<400> 38

ccatggtaat acgactcact atagggagaa ttagctgatc tttaataata aggaaatgtt 60

acattaaggt tggtgggttg tttttatggg aaaaaatgct ttaagaacaa atgtatactt 120

ttagagagtt ccccgcgcca gcggggataa accgtgtgat cacttgggtg gtggctgtgt 180

ttgcgtgagt tccccgcgcc agcggggata aaccgtgtga tcacttgggt ggtggctgtg 240

tttgcgtgag ttccccgcgc cagcggggat aaaccgtgtg atcacttggg tggtggctgt 300

gtttgcgtga gttccccgcg ccagcgggga taaaccgaaa acaaaaggct cagtcggaag 360

actgggcctt ttgttttaac cccttggggc ctctaaacgg gtcttgaggg gttttttggg 420

tacc 424

<210> 39

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 质粒

<400> 39

aaggatgcca gtgataagtg gaatgccatg tgggctgtca aaa 43

<210> 40

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 质粒变体 1

<400> 40

aaggatgcga gtgataagtg gaatgccatg tgggctgtca aaa 43

<210> 41

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 质粒变体 2

<400> 41

gccatgtggg ctgtcaaaa 19

<210> 42

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 质粒变体 3

<400> 42

gaatgccatg tgggctgtca aaa 23

<210> 43

<211> 1604

<212> PRT

<213> 链霉菌 SPB78

<400> 43

Met Pro Asp Gln Leu Asn Ala Pro Thr Pro Leu Gly Asp Arg Leu Thr

1 5 10 15

Gly Ala Val Arg Thr Val Trp Ala Lys His Asp Arg Asp Thr Gly Lys

20 25 30

Trp Leu Pro Leu Trp Arg His Met Thr Asp Ser Ala Ala Val Ala Gly

35 40 45

Leu Leu Trp Asp His Trp Leu Pro Arg Asn Ile Lys Asp Leu Ile Ala

50 55 60

Glu Pro Leu Pro Gly Gly Val Ala Asp Ala Arg Ser Leu Cys Val Trp

65 70 75 80

Leu Ala Gly Thr His Asp Ile Gly Lys Ala Thr Pro Ala Phe Ala Cys

85 90 95

Gln Val Asp Glu Leu Ala Gly Val Met Thr Ala Ala Gly Leu Asp Met

100 105 110

Arg Thr Ser Lys Gln Leu Gly Glu Asp Arg Arg Met Ala Pro His Gly

115 120 125

Leu Ala Gly Gln Val Leu Leu Gln Glu Trp Leu Glu Glu Arg Arg Gly

130 135 140

Trp Thr His Arg Ala Ser Ala Gln Phe Ala Val Val Ala Gly Gly His

145 150 155 160

His Gly Val Pro Pro Asp His Met Gln Leu His Asn Leu Asp Ala His

165 170 175

Pro Glu Leu Leu Arg Thr Gln Gly Leu Ala Glu Ala Gln Trp Arg Ala

180 185 190

Val Gln Asp Glu Leu Leu Asp Ala Cys Ala Leu Val Phe Gly Val Glu

195 200 205

Glu Arg Leu Asp Ala Trp Arg Thr Val Lys Leu Pro Gln Thr Val Gln

210 215 220

Val Leu Leu Thr Ala Thr Val Ile Val Ser Asp Trp Ile Ala Ser Asn

225 230 235 240

Pro Asp Leu Phe Pro Tyr Phe Pro Glu Glu His Pro Arg Glu Glu Ala

245 250 255

Glu Arg Val Ala Ala Ala Trp Gln Gly Leu Leu Leu Pro Ala Pro Trp

260 265 270

Glu Pro Glu Glu Pro Ser Ala Pro Ala Ala Glu Phe Tyr Ala Ser Arg

275 280 285

Phe Ala Leu Pro Pro Gly Ala Val Val Arg Pro Val Gln Glu Gln Ala

290 295 300

Leu Ala Met Ala Arg Asp Met Glu Arg Pro Gly Met Leu Ile Ile Glu

305 310 315 320

Ala Pro Met Gly Glu Gly Lys Thr Glu Ala Ala Leu Ala Val Ala Glu

325 330 335

Val Phe Ala Ala Arg Ser Gly Ala Gly Gly Cys Tyr Val Ala Leu Pro

340 345 350

Thr Met Ala Thr Ser Asn Ala Met Phe Pro Arg Leu Leu Arg Trp Leu

355 360 365

Asp Arg Leu Pro Arg Ala Asp Val Ser Gly Gly Arg Asp His Glu Gln

370 375 380

Arg Ser Val Leu Leu Ala His Ala Lys Ser Ala Leu Gln Glu Asp Tyr

385 390 395 400

Ala Thr Leu Met Arg Glu Ser His Arg Thr Ile Ala Ala Val Asp Ala

405 410 415

Tyr Gly Asp Asp Ser Arg Pro Arg Lys Gly Arg Pro Ala Ala Asp Gly

420 425 430

Val Arg Arg Lys Ala Pro Ala Glu Leu Val Ala His Gln Trp Leu Arg

435 440 445

Gly Arg Lys Lys Gly Leu Leu Ala Ser Phe Ala Val Gly Thr Ile Asp

450 455 460

Gln Leu Leu Met Ala Gly Leu Lys Ser Arg His Leu Ala Leu Arg His

465 470 475 480

Leu Ala Met Ala Gly Lys Val Val Val Ile Asp Glu Val His Ala Tyr

485 490 495

Asp Thr Tyr Met Asn Ala Tyr Leu Asp Arg Val Leu Ala Trp Leu Gly

500 505 510

Glu Tyr Arg Val Pro Val Val Val Leu Ser Ala Thr Leu Pro Ala Arg

515 520 525

Arg Arg Gly Glu Leu Ala Ala Ala Tyr Thr Gly Glu Asp Ala Gln Ala

530 535 540

Leu Thr Glu Ala Thr Gly Tyr Pro Leu Leu Thr Ala Val Val Pro Gly

545 550 555 560

Arg Glu Ala Val Gln Phe Val Ala Ala Ala Ser Gly Arg Gly Ser Asp

565 570 575

Val Leu Leu Glu Lys Leu Asp Asp Asp Asp Glu Ala Leu Ala Asp Arg

580 585 590

Leu Asp Thr Asp Leu Ala Asp Gly Gly Cys Ala Leu Val Val Arg Asn

595 600 605

Thr Val Asp Arg Val Met Asp Thr Ala Ser Val Leu Arg Glu Arg Phe

610 615 620

Gly Ala Asp His Val Thr Val Ala His Ala Arg Phe Val Asp Leu Asp

625 630 635 640

Arg Ala Arg Lys Asp Ser Glu Leu Leu Ala Arg Phe Gly Pro Pro Asp

645 650 655

Pro Asp Gly Gly Ser Pro Gln Arg Pro Arg Asn Ala His Ile Val Val

660 665 670

Ala Ser Gln Val Ala Glu Gln Ser Leu Asp Val Asp Phe Asp Leu Leu

675 680 685

Val Ser Asp Leu Cys Pro Val Asp Leu Leu Leu Gln Arg Met Gly Arg

690 695 700

Leu His Arg His Pro Arg Gly Arg Asp Gln Glu Arg Arg Pro Ala Arg

705 710 715 720

Leu Arg Gln Ala Arg Cys Leu Val Thr Gly Val Gly Trp Asp Thr Ser

725 730 735

Pro Ala Pro Glu Ala Asp Glu Gly Ser Arg Ala Ile Tyr Gly Ala Tyr

740 745 750

Ser Leu Leu Arg Ser Leu Ala Val Leu Ala Pro His Leu Gly Thr Ala

755 760 765

Gly Ala Ala Gly His Pro Leu Arg Leu Pro Glu Asp Ile Ser Pro Leu

770 775 780

Val Arg Arg Ala Tyr Gly Glu Glu Asp Pro Cys Pro Pro Glu Trp Glu

785 790 795 800

Pro Val Leu Ala Pro Ala Arg Asp Lys Tyr Arg Thr Ala Arg Glu Arg

805 810 815

Gln Ser Gln Lys Ala Glu Val Phe Arg Leu Asp Glu Val Arg Lys Ala

820 825 830

Gly Arg Pro Leu Ile Gly Trp Ile Asp Ala Gly Val Gly Asp Ala Asp

835 840 845

Asp Thr Pro Val Gly Arg Ala Gln Val Arg Asp Thr Lys Glu Gly Leu

850 855 860

Glu Val Leu Val Val Arg Arg Arg Ala Asp Gly Ser Leu Cys Thr Leu

865 870 875 880

Pro Trp Leu Asp Lys Gly Arg Gly Gly Leu Glu Leu Pro Val Asp Ala

885 890 895

Val Pro Ser Ala Leu Ala Ala Arg Ala Val Ala Ala Ser Gly Leu Arg

900 905 910

Leu Pro Tyr His Phe Thr Ser Ser Pro Gln Thr Leu Asp Arg Thr Leu

915 920 925

Ala Glu Leu Glu Glu Leu Tyr Val Pro Ala Trp Gln Glu Lys Glu Ser

930 935 940

His Trp Ile Ala Gly Glu Leu Ile Leu Ala Leu Asp Glu Glu Gly Arg

945 950 955 960

Ala Ala Leu Ala Gly Gln Gln Leu Val Tyr Asn Pro Glu Glu Gly Leu

965 970 975

Leu Val Ala Ser Ala Asp Ala Asn Thr Glu Ala Thr Ser Gly Arg Val

980 985 990

Met Asp Gly Lys Pro Ser Ser Ala Gly Asp Gly Lys Pro Gly His Ala

995 1000 1005

Ala Asp Gly Asn Arg Ala Arg Thr Thr Val Gly Gln Ser Pro Ala

1010 1015 1020

Asp Arg Gln Thr His Gln Pro Pro Glu Gly Glu Arg His Pro Val

1025 1030 1035

Pro Pro Ser Ala Ala Pro Pro Pro Ala Arg Pro Ser Phe Asp Leu

1040 1045 1050

Thr Ser Arg Pro Trp Leu Pro Val Leu Leu Lys Asp Gly Ser Glu

1055 1060 1065

Arg Glu Leu Ser Leu Pro Glu Val Phe Asp Gln Ala Arg Asp Ile

1070 1075 1080

Arg Arg Leu Val Gly Asp Leu Pro Thr Gln Asp Phe Ala Leu Thr

1085 1090 1095

Arg Met Leu Leu Ala Leu Leu Tyr Asp Ala Leu Ser Glu Pro Gly

1100 1105 1110

Gly Asp Met Ala Pro Ala Asp Thr Asp Ala Trp Glu Glu Leu Trp

1115 1120 1125

Leu Ser Gln Ser Ala Tyr Ala Ala Pro Val Ala Ala Tyr Leu His

1130 1135 1140

Arg Tyr Arg Glu Arg Phe Asp Leu Leu His Pro Glu Ser Pro Phe

1145 1150 1155

Phe Gln Thr Pro Gly Leu Arg Thr Ala Lys Asn Glu Val Phe Ser

1160 1165 1170

Leu Asn Arg Leu Val Ala Asp Val Pro Asn Gly Asp Pro Phe Phe

1175 1180 1185

Ser Met Arg Arg Pro Gly Val Asp Arg Leu Gly Phe Ala Glu Ala

1190 1195 1200

Ala Arg Trp Leu Val His Ala Gln Ala Tyr Asp Thr Ser Gly Ile

1205 1210 1215

Lys Thr Gly Ala Val Gly Asp Pro Arg Val Lys Ala Gly Lys Gly

1220 1225 1230

Tyr Pro Gln Gly Pro Ala Trp Ala Gly Asn Leu Gly Gly Val Leu

1235 1240 1245

Leu Glu Gly Asp Asn Leu His Glu Thr Leu Leu Leu Asn Leu Ile

1250 1255 1260

Ala Gly Asp Thr Pro Gly Val His Ala Ala Glu Val Asp Arg Pro

1265 1270 1275

Ala Trp Arg Ala Glu Pro Ser Gly Pro Ala Pro Ala Pro Asp Leu

1280 1285 1290

Gly Leu Arg Pro Tyr Gly Leu Arg Asp Leu Tyr Thr Trp Gln Ser

1295 1300 1305

Arg Arg Ile Arg Leu His His Asp Ala Asp Gly Val His Gly Val

1310 1315 1320

Val Leu Ala Tyr Gly Asp Ser Leu Glu Pro His Asn Arg His Gly

1325 1330 1335

His Glu Pro Met Thr Ser Trp Arg Arg Ser Pro Thr Gln Glu Lys

1340 1345 1350

Lys Arg Gln Glu Asn Leu Val Tyr Leu Pro Arg Glu His Asp Pro

1355 1360 1365

Ser Arg Leu Ala Trp Arg Gly Met Asp Gly Leu Leu Ala Gly Arg

1370 1375 1380

Glu Thr Gly Ser Ala Gln Gly Pro Asp Gly Ala Asp Arg Leu Ala

1385 1390 1395

Pro Lys Val Val Gln Trp Ala Ala Gln Leu Thr Thr Glu Gly Leu

1400 1405 1410

Leu Pro Arg Gly Tyr Leu Ile Arg Thr Arg Val Ile Gly Ala Arg

1415 1420 1425

Tyr Gly Thr Gln Gln Ser Val Ile Asp Glu Val Val Asp Asp Gly

1430 1435 1440

Val Leu Met Pro Ala Val Leu Leu His Glu Ala Asp Arg Arg Tyr

1445 1450 1455

Gly Asp Lys Ala Val Asp Ala Leu His Asp Ala Glu Lys Ala Val

1460 1465 1470

Gly Ala Leu Ala Gln Leu Ala Ala Asp Leu Ala Leu Ala Val Gly

1475 1480 1485

Thr Asp Pro Glu Pro Gly Arg Asn Thr Ala Arg Asp Leu Gly Phe

1490 1495 1500

Gly Thr Leu Asp Thr His Tyr Arg Arg Trp Leu Arg Glu Leu Gly

1505 1510 1515

Gly Thr Ser Asp Pro Glu Glu His Arg Asp Arg Trp Lys Gln Glu

1520 1525 1530

Val Arg Arg Leu Val Ala Glu Leu Gly Glu Arg Leu Leu Asp Gly

1535 1540 1545

Ala Gly Pro Ala Ala Trp Glu Gly Arg Leu Val Glu Thr Gly Lys

1550 1555 1560

Gly Thr Arg Trp Leu Asn Asp Ala Ala Ala Glu Leu Arg Phe Arg

1565 1570 1575

Thr Arg Leu Arg Glu Phe Leu Thr Thr Ala Pro Asp Thr Pro Thr

1580 1585 1590

Ser Pro Arg Pro Ala Pro Val Glu Ser Pro Ala

1595 1600

<210> 44

<211> 1559

<212> PRT

<213> 灰色链霉菌(Streptomyces griseus)

<400> 44

Met Ser Asn Thr Pro Met Ser Arg Asp His Pro Glu Ser Leu Ser Ala

1 5 10 15

Tyr Ala Arg Leu Ser Pro Val Ser Arg Thr Ala Trp Gly Lys His Asp

20 25 30

Arg Gln Thr Glu Gln Trp Leu Pro Leu Trp Arg His Met Ala Asp Ser

35 40 45

Ala Ala Val Ala Glu Arg Leu Trp Asp Gln Trp Val Pro Asp Asn Val

50 55 60

Lys Ala Leu Ile Ala Asp Ala Phe Pro Gln Gly Ala Gln Asp Ala Arg

65 70 75 80

Arg Val Ala Val Phe Leu Ala Cys Val His Asp Ile Gly Lys Ala Thr

85 90 95

Pro Ala Phe Ala Cys Gln Val Asp Gly Leu Ala Asp Arg Met Arg Ala

100 105 110

Ala Gly Leu Ser Met Pro Tyr Leu Lys Gln Phe Gly Leu Asp Arg Arg

115 120 125

Met Ala Pro His Gly Leu Ala Gly Gln Leu Leu Leu Gln Glu Trp Leu

130 135 140

Ala Glu Arg Phe Gly Trp Ser Glu Arg Ala Ser Gly Gln Phe Ala Val

145 150 155 160

Val Ala Gly Gly His His Gly Thr Pro Pro Asp His Gln His Ile His

165 170 175

Asp Leu Gly Leu Arg Pro His Leu Leu Arg Thr Ala Gly Glu Ser Gln

180 185 190

Asp Thr Trp Arg Ser Val Gln Asp Glu Leu Met Asp Ala Cys Ala Val

195 200 205

Arg Ala Gly Val Gly Gly Arg Phe Gly Ala Trp Arg Ser Val Arg Leu

210 215 220

Pro Gln Pro Val Gln Val Val Leu Thr Ala Ile Val Ile Val Ser Asp

225 230 235 240

Trp Ile Ala Ser Ser Ser Glu Leu Phe Pro Tyr Asp Pro Ala Ser Trp

245 250 255

Ser Pro Val Gly Pro Glu Gly Glu Gly Arg Arg Leu Thr Ala Ala Trp

260 265 270

Gly Gly Leu Asp Leu Pro Gly Pro Trp Arg Ala Asp Gln Pro Asp Cys

275 280 285

Thr Ala Ala Glu Leu Phe Gly Lys Arg Phe Asp Leu Pro Glu Gly Ala

290 295 300

Gly Val Arg Pro Val Gln Glu Glu Ala Val Arg Val Ala Gln Glu Leu

305 310 315 320

Pro Gly Pro Gly Leu Leu Ile Ile Glu Ala Pro Met Gly Glu Gly Lys

325 330 335

Thr Glu Ala Ala Phe Ala Ala Ala Glu Ile Leu Ala Ala Arg Thr Gly

340 345 350

Ala Gly Gly Cys Leu Val Ala Leu Pro Thr Arg Ala Thr Gly Asp Ala

355 360 365

Met Phe Pro Arg Leu Leu Arg Trp Leu Glu Arg Leu Pro Ser Asp Gly

370 375 380

Pro Arg Ser Val Val Leu Ala His Ala Lys Ala Ala Leu Asn Glu Val

385 390 395 400

Trp Ala Gly Met Thr Lys Ala Asp Arg Arg Lys Ile Thr Ala Val Asp

405 410 415

Leu Asp Ser Gln Val Glu Asp Val Ser Ser Ala Gly Gly Ala Arg Arg

420 425 430

Ala Asn Pro Ala Ser Leu His Ala His Gln Trp Leu Arg Gly Arg Lys

435 440 445

Lys Ala Leu Leu Ser Ser Phe Ala Val Gly Thr Val Asp Gln Val Leu

450 455 460

Phe Ala Gly Leu Lys Ser Arg His Leu Ala Leu Arg His Leu Ala Val

465 470 475 480

Ala Gly Lys Val Val Ile Val Asp Glu Val His Ala Tyr Asp Ala Tyr

485 490 495

Met Ser Ala Tyr Leu Asp Arg Val Leu Glu Trp Leu Ala Ala Tyr Arg

500 505 510

Val Pro Val Val Met Leu Ser Ala Thr Leu Pro Ala His Arg Arg Arg

515 520 525

Glu Leu Ala Ala Ala Tyr Ala Gly Glu Glu Thr Pro Glu Leu Ala Asp

530 535 540

Ala Leu Ala Leu Pro Asp Asp Ala Tyr Pro Leu Ile Thr Ala Val Ala

545 550 555 560

Pro Gly Gly Leu Val Leu Thr Ala Arg Pro Glu Pro Ala Ser Gly Arg

565 570 575

Arg Thr Glu Val Val Leu Glu Arg Leu Gly Asp Gly Pro Ala Leu Leu

580 585 590

Ala Ala Arg Leu Asp Glu Glu Leu Arg Asp Gly Gly Cys Ala Leu Val

595 600 605

Val Arg Asn Thr Val Asp Arg Val Leu Glu Ala Ala Glu His Leu Arg

610 615 620

Ala His Phe Gly Ala Glu Ala Val Thr Val Ala His Ser Arg Phe Val

625 630 635 640

Ala Ala Asp Arg Ala Arg Asn Asp Thr Val Leu Arg Glu Arg Phe Gly

645 650 655

Pro Gly Gly Asp Arg Pro Ala Gly Pro His Ile Val Val Ala Ser Gln

660 665 670

Val Val Glu Gln Ser Leu Asp Ile Asp Phe Asp Leu Leu Val Thr Asp

675 680 685

Leu Ala Pro Val Asp Leu Val Leu Gln Arg Met Gly Arg Leu His Arg

690 695 700

His Pro Arg Thr Arg Pro Pro Arg Leu Ser Arg Ala Arg Cys Leu Ile

705 710 715 720

Thr Gly Val Glu Asp Trp His Ala Glu Arg Pro Val Pro Val Arg Gly

725 730 735

Ser Leu Ala Val Tyr Gln Gly Pro His Thr Leu Leu Arg Ala Leu Ala

740 745 750

Val Leu Gly Pro His Leu Asp Gly Val Pro Leu Val Leu Pro Asp His

755 760 765

Ile Ser Pro Leu Val Gln Ala Ala Tyr Asp Glu Arg Pro Val Gly Pro

770 775 780

Ala His Trp Ala Pro Val Leu Asp Glu Ala Arg Arg Gln Tyr Leu Thr

785 790 795 800

Arg Leu Ala Glu Lys Arg Glu Arg Ala Asp Val Phe Arg Leu Gly Pro

805 810 815

Val Arg Arg Pro Gly Arg Pro Leu Phe Gly Trp Leu Asp Gly Asn Ala

820 825 830

Gly Asp Ala Asp Asp Ser Arg Thr Gly Arg Ala Gln Val Arg Asp Ser

835 840 845

Glu Glu Ser Leu Glu Val Leu Val Val Gln Arg Arg Ala Asp Gly Arg

850 855 860

Leu Thr Thr Val Ser Trp Leu Asp Gly Gly Arg Gly Gly Leu Asp Leu

865 870 875 880

Pro Glu His Ala Pro Pro Pro Pro Arg Ala Ala Glu Val Val Ala Ala

885 890 895

Cys Ala Leu Thr Leu Pro Arg Ser Leu Thr His Pro Gly Val Ile Asp

900 905 910

Arg Thr Ile Ala Glu Leu Glu Arg Phe Val Val Pro Ala Trp Gln Val

915 920 925

Lys Glu Cys Pro Trp Leu Ala Gly Glu Leu Leu Leu Val Leu Asp Glu

930 935 940

Asp Cys Gln Thr Arg Leu Ser Gly Leu Glu Val His Tyr Ser Thr Asp

945 950 955 960

Gln Gly Leu Arg Val Gly Ser Val Gly Thr Arg Ser Thr Asn Arg Ala

965 970 975

Lys Gly Leu Glu Ala Val Ser Val Ala Ser Phe Asp Leu Val Ser Arg

980 985 990

Pro Trp Leu Pro Val Gln Tyr Glu Asp Gly Ala Thr Gly Glu Leu Ser

995 1000 1005

Leu Arg Glu Val Phe Ala Arg Ala Gly Glu Val Arg Arg Leu Val

1010 1015 1020

Gly Asp Leu Pro Thr Gln Glu Leu Ala Leu Leu Arg Leu Leu Leu

1025 1030 1035

Ala Ile Leu Tyr Asp Ala Tyr Asp Glu Ala Pro Gly Arg Ser Gly

1040 1045 1050

Gly Ala Pro Ala Gln Leu Glu Asp Trp Glu Ala Leu Trp Asp Glu

1055 1060 1065

Pro Asp Ser Phe Ala Val Val Ala Gly Tyr Leu Asp Arg His Arg

1070 1075 1080

Asp Arg Phe Asp Leu Leu His Pro Glu Arg Pro Phe Phe Gln Val

1085 1090 1095

Ala Gly Leu His Thr Gln Lys His Glu Val Ala Ser Leu Asn Arg

1100 1105 1110

Ile Val Ala Asp Val Pro Asn Gly Glu Ala Phe Phe Ser Met Arg

1115 1120 1125

Arg Pro Gly Val His Arg Leu Gly Leu Ala Glu Ala Ala Arg Trp

1130 1135 1140

Leu Val His Thr His Ala Tyr Asp Ala Ser Gly Ile Lys Ser Gly

1145 1150 1155

Met Glu Gly Asp Ala Arg Val Lys Gly Gly Lys Val Tyr Pro Gln

1160 1165 1170

Gly Val Gly Trp Val Gly Gly Leu Gly Gly Val Phe Ala Glu Gly

1175 1180 1185

Ala Ser Leu Arg Glu Thr Leu Leu Leu Asn Leu Ile Pro Thr Asp

1190 1195 1200

Glu Asp Ile Leu Thr Ser Glu Pro Lys Ala Asp Leu Pro Val Trp

1205 1210 1215

Arg Arg Glu Thr Pro Pro Gly Pro Gly Val Val Glu Gly Asp Pro

1220 1225 1230

Ser Ala Pro Arg Pro Ala Gly Pro Arg Asp Leu Tyr Thr Trp Gln

1235 1240 1245

Ser Arg Arg Leu Leu Leu His Thr Glu Gly Ser Asp Ala Ile Gly

1250 1255 1260

Val Val Leu Gly Tyr Gly Asp Pro Leu Ser Pro Ala Asn Arg Gln

1265 1270 1275

Lys Thr Glu Pro Met Thr Gly Trp Arg Arg Ser Pro Ala Gln Glu

1280 1285 1290

Lys Lys Leu Gly Arg Pro Leu Val Tyr Leu Pro Arg Gln His Asp

1295 1300 1305

Pro Gly Arg Ala Ala Trp Arg Gly Leu Ala Ser Leu Leu Tyr Pro

1310 1315 1320

Gln Gly Glu Asp Gly Asp Thr Thr Gly Arg Gly Thr Asp Arg Ser

1325 1330 1335

Arg Pro Ala Gly Ile Val Arg Trp Leu Ala Leu Leu Ser Thr Glu

1340 1345 1350

Gly Val Leu Pro Lys Gly Ser Leu Ile Arg Thr Arg Leu Val Gly

1355 1360 1365

Ala Val Tyr Gly Thr Gln Gln Ser Val Val Asp Asp Val Val Asp

1370 1375 1380

Asp Ser Ile Ala Leu Pro Val Val Leu Leu His Gln Asp Arg Arg

1385 1390 1395

Leu His Gly Ala Val Ala Val Asp Ala Val Ala Asp Ala Glu Arg

1400 1405 1410

Ala Val Ser Ala Leu Gly His Leu Ala Gly Asn Leu Ala Arg Ala

1415 1420 1425

Ser Gly Ser Glu Ala Gly Pro Ala Thr Ala Thr Ala Arg Asp Gln

1430 1435 1440

Gly Phe Gly Ala Leu Asp Gly Pro Tyr Arg Arg Trp Leu Val Asp

1445 1450 1455

Leu Ala Glu Asp Thr Asp Leu Glu Arg Ala Arg Ala Ala Trp Arg

1460 1465 1470

Asp Thr Val Arg Leu Val Val Leu Gly Ile Gly Arg Glu Leu Leu

1475 1480 1485

Asp Ala Ala Gly Arg Ala Ala Ala Glu Gly Arg Val Ile Glu Leu

1490 1495 1500

Pro Gly Val Gly Lys Arg Trp Ile Asp Ser Ser Arg Ala Asp Leu

1505 1510 1515

Trp Phe Arg Thr Arg Ile Asn Arg Val Leu Pro Arg Pro Leu Pro

1520 1525 1530

Glu Ala His Ala Pro Thr Ala Asp Ile His Ala Gly His Ala Val

1535 1540 1545

Arg Ala Asp Glu Ala Leu Ser Glu Glu Thr Val

1550 1555

<210> 45

<211> 1540

<212> PRT

<213> 嗜酸细链孢菌(Catenulispora acidiphila)

<400> 45

Met Phe Asn Val Gly Ser Thr Arg Cys Trp Gly Asp Gly Gly Leu Arg

1 5 10 15

Asn Ala Ala Glu Asp Leu Ser Ala Ala Thr Arg Ser Ala Trp Ala Lys

20 25 30

Ser Asp Pro Asp Ser Gly Gln Ser Leu Ser Leu Ile Arg His Leu Ala

35 40 45

Asp Ser Ala Ala Ile Ala Glu His Leu Trp Asp Gln Trp Leu Pro Asp

50 55 60

His Val Lys Ser Leu Ile Ala Glu Gly Leu Pro Glu Gly Leu Val Asp

65 70 75 80

Gly Arg Thr Leu Ala Val Trp Leu Ala Gly Thr His Asp Ile Gly Lys

85 90 95

Leu Thr Pro Ala Phe Ala Cys Gln Cys Glu Pro Leu Ala Gln Ala Met

100 105 110

Arg Glu Cys Gly Leu Asp Met Pro Thr Arg Thr Gln Phe Gly Asp Asp

115 120 125

Arg Arg Val Ala Pro His Gly Leu Ala Gly Gln Val Leu Leu Arg Glu

130 135 140

Trp Leu Met Glu Arg His Gly Trp Ser Gly Arg Ser Ala Asp Ala Phe

145 150 155 160

Thr Val Ile Ala Gly Gly His His Gly Val Pro Pro Ser Tyr Ser Gln

165 170 175

Leu His Asp Leu Asp Ala Tyr Pro Glu Leu Leu Arg Thr Pro Gly Ala

180 185 190

Ser Glu Gly Ile Trp Lys Ser Ser Gln His Glu Leu Leu Asp Ala Cys

195 200 205

Ala Val Met Thr Gly Ala Ser Ser Arg Leu Ala His Trp Arg Gly Leu

210 215 220

Arg Leu Ser Gln Gln Ala Gln Val Leu Leu Thr Gly Leu Val Ile Val

225 230 235 240

Ala Asp Trp Ile Ala Ser Asn Thr Asp Leu Phe Pro Tyr Pro Ala Leu

245 250 255

Gly Thr Gly Glu Ala Ala Ile Asp Pro Gly Lys Arg Val Glu Leu Ala

260 265 270

Trp Arg Gly Leu Glu Leu Pro Ala Pro Trp Ala Pro Lys Tyr Leu Met

275 280 285

Pro Gly Met Gln Gly Leu Leu Ala Ser Arg Phe Gly Leu Pro Ala Asp

290 295 300

Ala Gln Leu Arg Pro Val Gln Gln Met Ala Val Gln Leu Ala Ser Ala

305 310 315 320

Asn Ala Ala Pro Gly Leu Leu Val Ile Glu Ala Pro Met Gly Glu Gly

325 330 335

Lys Thr Glu Ala Ala Leu Leu Ala Ala Glu Ile Leu Ala Ala Arg Ser

340 345 350

Gly Ala Gly Gly Val Phe Leu Ala Leu Pro Thr Gln Ala Thr Ser Asn

355 360 365

Ala Met Phe Ala Arg Val Val Asn Trp Leu Arg Gln Val Pro Arg Glu

370 375 380

Gly Val Ala Ser Val His Leu Ala His Gly Lys Ala Ala Leu Asp Asp

385 390 395 400

Ala Phe Ala Ser Phe Leu Arg Ala Ala Pro Arg Leu Thr Ser Ile Asp

405 410 415

Ala Asp Gly Tyr Ala Gly Glu Ala Asn Val Arg Arg Asp Arg Arg Ala

420 425 430

Gly Ser Ala Asp Met Val Ala His Gln Trp Leu Arg Gly Arg Lys Lys

435 440 445

Gly Ile Leu Ser Pro Phe Val Val Gly Thr Ile Asp Gln Leu Leu Phe

450 455 460

Thr Gly Leu Lys Ser Arg His Leu Ala Leu Arg His Leu Ala Val Ala

465 470 475 480

Gly Lys Val Val Val Ile Asp Glu Val His Ala Tyr Asp Ala Tyr Met

485 490 495

Ser Val Tyr Leu Glu Arg Val Leu Ser Trp Leu Gly Ala Tyr Arg Val

500 505 510

Pro Val Val Leu Leu Ser Ala Thr Leu Pro Ala Asp Arg Arg Gln Ala

515 520 525

Leu Val Glu Ala Tyr Gly Gly Ile Thr Ser Glu Ala Leu Arg Asp Ala

530 535 540

Arg Glu Ala Tyr Pro Val Leu Thr Ala Val Thr Ile Gly Ala Pro Ala

545 550 555 560

Gln Ala Val Gly Thr Glu Pro Ala Glu Gly Arg Arg Val Asp Val Asn

565 570 575

Val Glu Ala Phe Asp Asp Asp Leu Gly Arg Leu Ala Asp Arg Leu Glu

580 585 590

Ala Glu Leu Val Asp Gly Gly Cys Ala Leu Ile Ile Arg Asn Thr Val

595 600 605

Gly Arg Val Leu Gln Thr Ala Gln Gln Leu Arg Glu Arg Phe Gly Ala

610 615 620

Gly Gln Val Thr Val Ala His Ser Arg Phe Ile Asp Leu Asp Arg Ala

625 630 635 640

Arg Lys Asp Ala Asp Leu Leu Ala Arg Phe Gly His Asp Gly Ala Arg

645 650 655

Pro Arg Arg His Ile Val Val Ala Ser Gln Val Ala Glu Gln Ser Leu

660 665 670

Asp Ile Asp Phe Asp Leu Leu Val Thr Asp Leu Ala Pro Ile Asp Leu

675 680 685

Val Leu Gln Arg Met Gly Arg Val His Arg His His Arg Gly Gly Pro

690 695 700

Glu Gln Ser Glu Arg Pro Pro Ser Leu Arg Thr Ala Arg Cys Leu Val

705 710 715 720

Thr Gly Val Asp Trp Ala Gly Ile Pro Ser Ala Pro Ile Ala Gly Ser

725 730 735

Val Ala Val Tyr Gly Leu His Pro Leu Leu Arg Ser Leu Ala Val Leu

740 745 750

Gln Pro Tyr Leu Thr Gly Ser Ala Leu Thr Leu Pro Gly Asp Ile Asn

755 760 765

Pro Leu Val Gln Cys Ala Tyr Ala Gln Ser Phe Val Ala Pro Thr Gly

770 775 780

Trp Gly Glu Ala Met Asp Ala Ala Gln Ala Glu His Met Ala His Ile

785 790 795 800

Val Gln Gln Arg Glu Gly Ala Met Ala Phe Cys Leu Asp Glu Val Arg

805 810 815

Gly Pro Gly Arg Ser Leu Ile Gly Trp Ile Asp Gly Gly Val Gly Asp

820 825 830

Ala Asp Asp Thr Arg Ala Gly Arg Ala Gln Val Arg Asp Ser Pro Glu

835 840 845

Thr Ile Glu Val Leu Val Val Gln Arg Gly Ser Asp Gly Val Leu Arg

850 855 860

Thr Leu Pro Trp Leu Asp Arg Gly Arg Gly Gly Leu Glu Leu Pro Thr

865 870 875 880

Glu Ala Val Pro Pro Pro Arg Ala Ala Arg Ala Ala Ala Ala Ser Ala

885 890 895

Leu Arg Leu Pro Gly Leu Phe Ala Lys Pro Trp Met Phe Asp Arg Val

900 905 910

Leu Arg Glu Leu Glu Arg Glu Tyr His Glu Ala Trp Gln Ala Lys Glu

915 920 925

Ser Ser Trp Leu Gln Gly Glu Leu Leu Leu Val Leu Asp Glu Glu Cys

930 935 940

Arg Thr Val Leu Ala Gly Tyr Glu Leu Ser Tyr Asn Pro Asp Asp Gly

945 950 955 960

Leu Glu Met Val Met Pro Gly Glu Pro His Ala Ala Val Val Arg Asp

965 970 975

Lys Glu Ala Ser Asp Asp Lys Thr Ala Ser Phe Asp Leu Thr Ser Ala

980 985 990

Pro Trp Leu Pro Val Leu Tyr Ala Asp Gly Met Gln Gly Val Leu Ser

995 1000 1005

Leu Arg Asp Val Phe Ala Gln Ser Asn Leu Ile Arg Arg Leu Val

1010 1015 1020

Gly Asp Leu Pro Thr Gln Asp Phe Ala Leu Leu Arg Leu Leu Leu

1025 1030 1035

Ala Val Leu Tyr Asp Ala Val Asp Gly Pro Arg Asp Gly Gln Asp

1040 1045 1050

Trp Glu Asp Leu Trp Thr Ser Asp Asp Pro Phe Ala Ala Val Pro

1055 1060 1065

Ala Tyr Leu Asp Ser His Arg Glu Arg Phe Asp Leu Leu His Pro

1070 1075 1080

Ala Thr Pro Phe Tyr Gln Val Pro Gly Leu Gln Thr Ala Lys Gly

1085 1090 1095

Glu Val Gly Pro Leu Asn Lys Ile Val Ala Asp Val Pro Asp Gly

1100 1105 1110

Asp Pro Phe Leu Thr Met Arg Met Pro Gly Val Glu Gln Leu Ser

1115 1120 1125

Phe Ala Glu Ala Ala Arg Trp Leu Val His Thr Gln Ala Phe Asp

1130 1135 1140

Thr Ser Gly Ile Lys Ser Gly Val Val Gly Asp Pro Lys Ala Val

1145 1150 1155

Asn Gly Lys Arg Tyr Pro Gln Gly Val Ala Trp Leu Gly Asn Leu

1160 1165 1170

Gly Gly Val Phe Ala Glu Gly Asp Thr Leu Arg Gln Thr Leu Leu

1175 1180 1185

Leu Asn Leu Ile Pro Ala Asp Thr Thr Asn Leu Gln Val Thr Ser

1190 1195 1200

Ala Gln Asp Val Pro Ala Trp Arg Gly Thr Asn Gly Arg Ala Gly

1205 1210 1215

Ser Asp His Ala Asp Ala Glu Pro Arg Val Pro Ala Gly Leu Arg

1220 1225 1230

Asp Leu Tyr Thr Trp Gln Ser Arg Arg Ile Arg Leu Glu Tyr Asp

1235 1240 1245

Thr Arg Gly Val Thr Gly Ala Val Leu Thr Tyr Gly Asp Glu Leu

1250 1255 1260

Thr Ala His Asn Lys His Gly Val Glu Pro Met Thr Gly Trp Arg

1265 1270 1275

Arg Ser Lys Pro Gln Glu Lys Lys Leu Gly Leu Ser Thr Val Tyr

1280 1285 1290

Met Pro Gln Gln His Asp Pro Thr Arg Ala Ala Trp Arg Gly Ile

1295 1300 1305

Glu Ser Leu Leu Ala Gly Ser Ala Gly Ser Gly Ser Ser Gln Thr

1310 1315 1320

Gly Glu Pro Ala Ser His Tyr Arg Pro Lys Ile Val Asp Trp Leu

1325 1330 1335

Gly Glu Leu Ala His His Gly Asn Leu Pro Ser Arg Gly Leu Ile

1340 1345 1350

Arg Val Arg Thr Ser Gly Ala Val Tyr Gly Thr Gln Gln Ser Ile

1355 1360 1365

Ile Asp Glu Val Val Ser Asp Glu Leu Thr Met Ala Val Val Leu

1370 1375 1380

Leu His Glu Asp Asp Pro Arg Phe Gly Lys Ala Ala Val Thr Ala

1385 1390 1395

Val Lys Asp Ala Asp Ser Ala Val Ala Ala Leu Gly Asp Leu Ala

1400 1405 1410

Ser Asp Leu Ala Arg Ala Ala Gly Leu Asp Pro Glu Pro Glu Arg

1415 1420 1425

Val Thr Ala Arg Asp Arg Ala Phe Gly Ala Leu Asp Gly Pro Tyr

1430 1435 1440

Arg Arg Trp Leu Leu Asp Leu Gly Asn Ser Thr Asp Pro Ala Ala

1445 1450 1455

Met Arg Ala Val Trp Gln Gly Arg Val Tyr Asp Ile Ile Ala Val

1460 1465 1470

Gln Gly Gln Met Leu Leu Asp Ser Ala Gly Ser Ala Ala Ala Gln

1475 1480 1485

Gly Arg Met Val Lys Thr Thr Arg Gly Glu Arg Trp Met Asp Asp

1490 1495 1500

Ser Leu Ala Asp Leu Tyr Phe Lys Gly Arg Ile Ala Lys Ala Leu

1505 1510 1515

Ser Ser Arg Leu Gly Lys Lys Pro Thr Asp Pro Gly Glu Pro Val

1520 1525 1530

Gly Ile Gln Glu Asp Pro Ala

1535 1540

<210> 46

<211> 1407

<212> PRT

<213> 人工序列

<220>

<223> 融合 Cas3-Cse1

<400> 46

Met Glu Pro Phe Lys Tyr Ile Cys His Tyr Trp Gly Lys Ser Ser Lys

1 5 10 15

Ser Leu Thr Lys Gly Asn Asp Ile His Leu Leu Ile Tyr His Cys Leu

20 25 30

Asp Val Ala Ala Val Ala Asp Cys Trp Trp Asp Gln Ser Val Val Leu

35 40 45

Gln Asn Thr Phe Cys Arg Asn Glu Met Leu Ser Lys Gln Arg Val Lys

50 55 60

Ala Trp Leu Leu Phe Phe Ile Ala Leu His Asp Ile Gly Lys Phe Asp

65 70 75 80

Ile Arg Phe Gln Tyr Lys Ser Ala Glu Ser Trp Leu Lys Leu Asn Pro

85 90 95

Ala Thr Pro Ser Leu Asn Gly Pro Ser Thr Gln Met Cys Arg Lys Phe

100 105 110

Asn His Gly Ala Ala Gly Leu Tyr Trp Phe Asn Gln Asp Ser Leu Ser

115 120 125

Glu Gln Ser Leu Gly Asp Phe Phe Ser Phe Phe Asp Ala Ala Pro His

130 135 140

Pro Tyr Glu Ser Trp Phe Pro Trp Val Glu Ala Val Thr Gly His His

145 150 155 160

Gly Phe Ile Leu His Ser Gln Asp Gln Asp Lys Ser Arg Trp Glu Met

165 170 175

Pro Ala Ser Leu Ala Ser Tyr Ala Ala Gln Asp Lys Gln Ala Arg Glu

180 185 190

Glu Trp Ile Ser Val Leu Glu Ala Leu Phe Leu Thr Pro Ala Gly Leu

195 200 205

Ser Ile Asn Asp Ile Pro Pro Asp Cys Ser Ser Leu Leu Ala Gly Phe

210 215 220

Cys Ser Leu Ala Asp Trp Leu Gly Ser Trp Thr Thr Thr Asn Thr Phe

225 230 235 240

Leu Phe Asn Glu Asp Ala Pro Ser Asp Ile Asn Ala Leu Arg Thr Tyr

245 250 255

Phe Gln Asp Arg Gln Gln Asp Ala Ser Arg Val Leu Glu Leu Ser Gly

260 265 270

Leu Val Ser Asn Lys Arg Cys Tyr Glu Gly Val His Ala Leu Leu Asp

275 280 285

Asn Gly Tyr Gln Pro Arg Gln Leu Gln Val Leu Val Asp Ala Leu Pro

290 295 300

Val Ala Pro Gly Leu Thr Val Ile Glu Ala Pro Thr Gly Ser Gly Lys

305 310 315 320

Thr Glu Thr Ala Leu Ala Tyr Ala Trp Lys Leu Ile Asp Gln Gln Ile

325 330 335

Ala Asp Ser Val Ile Phe Ala Leu Pro Thr Gln Ala Thr Ala Asn Ala

340 345 350

Met Leu Thr Arg Met Glu Ala Ser Ala Ser His Leu Phe Ser Ser Pro

355 360 365

Asn Leu Ile Leu Ala His Gly Asn Ser Arg Phe Asn His Leu Phe Gln

370 375 380

Ser Ile Lys Ser Arg Ala Ile Thr Glu Gln Gly Gln Glu Glu Ala Trp

385 390 395 400

Val Gln Cys Cys Gln Trp Leu Ser Gln Ser Asn Lys Lys Val Phe Leu

405 410 415

Gly Gln Ile Gly Val Cys Thr Ile Asp Gln Val Leu Ile Ser Val Leu

420 425 430

Pro Val Lys His Arg Phe Ile Arg Gly Leu Gly Ile Gly Arg Ser Val

435 440 445

Leu Ile Val Asp Glu Val His Ala Tyr Asp Thr Tyr Met Asn Gly Leu

450 455 460

Leu Glu Ala Val Leu Lys Ala Gln Ala Asp Val Gly Gly Ser Val Ile

465 470 475 480

Leu Leu Ser Ala Thr Leu Pro Met Lys Gln Lys Gln Lys Leu Leu Asp

485 490 495

Thr Tyr Gly Leu His Thr Asp Pro Val Glu Asn Asn Ser Ala Tyr Pro

500 505 510

Leu Ile Asn Trp Arg Gly Val Asn Gly Ala Gln Arg Phe Asp Leu Leu

515 520 525

Ala His Pro Glu Gln Leu Pro Pro Arg Phe Ser Ile Gln Pro Glu Pro

530 535 540

Ile Cys Leu Ala Asp Met Leu Pro Asp Leu Thr Met Leu Glu Arg Met

545 550 555 560

Ile Ala Ala Ala Asn Ala Gly Ala Gln Val Cys Leu Ile Cys Asn Leu

565 570 575

Val Asp Val Ala Gln Val Cys Tyr Gln Arg Leu Lys Glu Leu Asn Asn

580 585 590

Thr Gln Val Asp Ile Asp Leu Phe His Ala Arg Phe Thr Leu Asn Asp

595 600 605

Arg Arg Glu Lys Glu Asn Arg Val Ile Ser Asn Phe Gly Lys Asn Gly

610 615 620

Lys Arg Asn Val Gly Arg Ile Leu Val Ala Thr Gln Val Val Glu Gln

625 630 635 640

Ser Leu Asp Val Asp Phe Asp Trp Leu Ile Thr Gln His Cys Pro Ala

645 650 655

Asp Leu Leu Phe Gln Arg Leu Gly Arg Leu His Arg His His Arg Lys

660 665 670

Tyr Arg Pro Ala Gly Phe Glu Ile Pro Val Ala Thr Ile Leu Leu Pro

675 680 685

Asp Gly Glu Gly Tyr Gly Arg His Glu His Ile Tyr Ser Asn Val Arg

690 695 700

Val Met Trp Arg Thr Gln Gln His Ile Glu Glu Leu Asn Gly Ala Ser

705 710 715 720

Leu Phe Phe Pro Asp Ala Tyr Arg Gln Trp Leu Asp Ser Ile Tyr Asp

725 730 735

Asp Ala Glu Met Asp Glu Pro Glu Trp Val Gly Asn Gly Met Asp Lys

740 745 750

Phe Glu Ser Ala Glu Cys Glu Lys Arg Phe Lys Ala Arg Lys Val Leu

755 760 765

Gln Trp Ala Glu Glu Tyr Ser Leu Gln Asp Asn Asp Glu Thr Ile Leu

770 775 780

Ala Val Thr Arg Asp Gly Glu Met Ser Leu Pro Leu Leu Pro Tyr Val

785 790 795 800

Gln Thr Ser Ser Gly Lys Gln Leu Leu Asp Gly Gln Val Tyr Glu Asp

805 810 815

Leu Ser His Glu Gln Gln Tyr Glu Ala Leu Ala Leu Asn Arg Val Asn

820 825 830

Val Pro Phe Thr Trp Lys Arg Ser Phe Ser Glu Val Val Asp Glu Asp

835 840 845

Gly Leu Leu Trp Leu Glu Gly Lys Gln Asn Leu Asp Gly Trp Val Trp

850 855 860

Gln Gly Asn Ser Ile Val Ile Thr Tyr Thr Gly Asp Glu Gly Met Thr

865 870 875 880

Arg Val Ile Pro Ala Asn Pro Lys Gly Asp Pro Thr Asn Arg Ala Lys

885 890 895

Gly Leu Glu Ala Val Ser Val Ala Ser Met Asn Leu Leu Ile Asp Asn

900 905 910

Trp Ile Pro Val Arg Pro Arg Asn Gly Gly Lys Val Gln Ile Ile Asn

915 920 925

Leu Gln Ser Leu Tyr Cys Ser Arg Asp Gln Trp Arg Leu Ser Leu Pro

930 935 940

Arg Asp Asp Met Glu Leu Ala Ala Leu Ala Leu Leu Val Cys Ile Gly

945 950 955 960

Gln Ile Ile Ala Pro Ala Lys Asp Asp Val Glu Phe Arg His Arg Ile

965 970 975

Met Asn Pro Leu Thr Glu Asp Glu Phe Gln Gln Leu Ile Ala Pro Trp

980 985 990

Ile Asp Met Phe Tyr Leu Asn His Ala Glu His Pro Phe Met Gln Thr

995 1000 1005

Lys Gly Val Lys Ala Asn Asp Val Thr Pro Met Glu Lys Leu Leu

1010 1015 1020

Ala Gly Val Ser Gly Ala Thr Asn Cys Ala Phe Val Asn Gln Pro

1025 1030 1035

Gly Gln Gly Glu Ala Leu Cys Gly Gly Cys Thr Ala Ile Ala Leu

1040 1045 1050

Phe Asn Gln Ala Asn Gln Ala Pro Gly Phe Gly Gly Gly Phe Lys

1055 1060 1065

Ser Gly Leu Arg Gly Gly Thr Pro Val Thr Thr Phe Val Arg Gly

1070 1075 1080

Ile Asp Leu Arg Ser Thr Val Leu Leu Asn Val Leu Thr Leu Pro

1085 1090 1095

Arg Leu Gln Lys Gln Phe Pro Asn Glu Ser His Thr Glu Asn Gln

1100 1105 1110

Pro Thr Trp Ile Lys Pro Ile Lys Ser Asn Glu Ser Ile Pro Ala

1115 1120 1125

Ser Ser Ile Gly Phe Val Arg Gly Leu Phe Trp Gln Pro Ala His

1130 1135 1140

Ile Glu Leu Cys Asp Pro Ile Gly Ile Gly Lys Cys Ser Cys Cys

1145 1150 1155

Gly Gln Glu Ser Asn Leu Arg Tyr Thr Gly Phe Leu Lys Glu Lys

1160 1165 1170

Phe Thr Phe Thr Val Asn Gly Leu Trp Pro His Pro His Ser Pro

1175 1180 1185

Cys Leu Val Thr Val Lys Lys Gly Glu Val Glu Glu Lys Phe Leu

1190 1195 1200

Ala Phe Thr Thr Ser Ala Pro Ser Trp Thr Gln Ile Ser Arg Val

1205 1210 1215

Val Val Asp Lys Ile Ile Gln Asn Glu Asn Gly Asn Arg Val Ala

1220 1225 1230

Ala Val Val Asn Gln Phe Arg Asn Ile Ala Pro Gln Ser Pro Leu

1235 1240 1245

Glu Leu Ile Met Gly Gly Tyr Arg Asn Asn Gln Ala Ser Ile Leu

1250 1255 1260

Glu Arg Arg His Asp Val Leu Met Phe Asn Gln Gly Trp Gln Gln

1265 1270 1275

Tyr Gly Asn Val Ile Asn Glu Ile Val Thr Val Gly Leu Gly Tyr

1280 1285 1290

Lys Thr Ala Leu Arg Lys Ala Leu Tyr Thr Phe Ala Glu Gly Phe

1295 1300 1305

Lys Asn Lys Asp Phe Lys Gly Ala Gly Val Ser Val His Glu Thr

1310 1315 1320

Ala Glu Arg His Phe Tyr Arg Gln Ser Glu Leu Leu Ile Pro Asp

1325 1330 1335

Val Leu Ala Asn Val Asn Phe Ser Gln Ala Asp Glu Val Ile Ala

1340 1345 1350

Asp Leu Arg Asp Lys Leu His Gln Leu Cys Glu Met Leu Phe Asn

1355 1360 1365

Gln Ser Val Ala Pro Tyr Ala His His Pro Lys Leu Ile Ser Thr

1370 1375 1380

Leu Ala Leu Ala Arg Ala Thr Leu Tyr Lys His Leu Arg Glu Leu

1385 1390 1395

Lys Pro Gln Gly Gly Pro Ser Asn Gly

1400 1405

<210> 47

<211> 49

<212> DNA

<213> 人工序列

<220>

<223> 级联序列切割

<400> 47

ccgtcttgcg ctagctctag aactagtcct cagcctaggc ctaagctgt 49

Claims

1.I型成簇规律间隔短回文重复序列(CRISPR)相关Cse1蛋白质亚基和FokI核酸内切酶或经修饰的FokI核酸内切酶的人工融合蛋白，其中所述修饰的FokI核酸内切酶为KKRSharkey或ELD Sharkey。

2.如权利要求1所述的人工融合蛋白，其中所述人工融合蛋白还包含核定位信号。

3.一种核酸分子，其编码权利要求1或2所述的人工融合蛋白。

4.一种表达载体，其包含权利要求3所述的核酸分子。

5.一种级联蛋白质复合物，其包含权利要求1或2所述的人工融合蛋白。

6.一种核糖核蛋白复合物，其包含如权利要求1或2所述的人工融合蛋白和CRISPR RNA(crRNA)分子。

7.如权利要求6所述的核糖核蛋白复合物，其还包含Cas6蛋白质亚基、Cas5蛋白质亚基、Cse2蛋白质亚基和Cas7蛋白质亚基。

8.一种真核细胞，其包含权利要求6或7所述的核糖核蛋白复合物。

9.一种在体外修饰、可视化靶核酸，或激活或抑制靶核酸的转录的方法，其包含使所述的靶核酸与权利要求6或7所述的核糖核蛋白复合物接触。

10.如权利要求9所述的方法，其中所述的修饰的方法为结合和/或切割所述靶核酸。

11.如权利要求9或10所述的方法，其中所述靶核酸为双链DNA(dsDNA)。