CN110358753B

CN110358753B - 基于CjCas9和VPR核心结构域的融合蛋白、相应的DNA靶向激活系统及其应用

Info

Publication number: CN110358753B
Application number: CN201910687464.7A
Authority: CN
Inventors: 荣知立; 林瑛; 张鑫; 彭欣
Original assignee: Southern Medical University
Current assignee: Southern Medical University
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2021-04-06
Anticipated expiration: 2039-07-29
Also published as: CN110358753A

Abstract

本发明公开了一种基于CjCas9和VPR核心结构域的融合蛋白、相应的DNA靶向激活系统及其应用，融合蛋白，包括两个异源多肽结构域，其中一个多肽结构域包含具有转录激活活性的VPR蛋白；另一种多肽结构域包含CjCas9蛋白，所述CjCas9蛋白为dCjCas9亚型、mini‑dCjCas9亚型或CjCas9野生型，所述dCjCas9亚型中含有D8A和H559A单位点氨基酸突变；所述mini‑dCjCas9亚型包含D8A单位点氨基酸突变以及大部分HNH结构域的缺失。一种DNA靶向激活系统，包括上述所述的融合蛋白和至少一种向导RNA，所述向导RNA包含针对目的基因启动子区域设计的一段长度为14bp‑22bp的序列和一段80bp的骨架序列。上述所述的DNA靶向激活系统在进行基因的靶向激活中的应用。本发明提供的DNA靶向激活系统具有体积小特异性高，激活效果强易于合成，成本低等优点。

Description

基于CjCas9和VPR核心结构域的融合蛋白、相应的DNA靶向激活系统及其应用

技术领域

本发明属于生物技术领域，涉及一种基于CjCas9及其突变体和VPR核心结构域的融合蛋白、相应的DNA靶向激活系统及其应用。

背景技术

CRISPR/Cas9系统是目前应用广泛的基因编辑系统，是从细菌和古细菌降解外源DNA的适应性免疫机制改造而来。CRISPR/Cas9系统主要包含两个元件：Cas9蛋白和向导RNA。Cas9蛋白和向导RNA结合后会在向导RNA的引导下对特定位点DNA双链进行切割，从而产生断裂，这比之前的基因编辑方法要简单得多。而近年来，CRISPR/Cas9系统也逐渐应用于基因调节领域。利用失去切割活性的CRISPR/Cas9系统并结合转录激活或者抑制因子，也可以在真核以及原核生物激活或抑制基因的表达，这些使CRISPR系统可能成为下一基因治疗的有利平台。

CjCas9来源于空肠弯曲菌，与其他CRISPR系统相比，它具有以下优势：首先，PAM区不同。CRISPR系统对DNA的靶向受到PAM区的限制，CjCas9的PAM区为NNNVRYAC,不同于SpCas9识别G-rich PAM，Cpf1复合物识别的T-rich PAM序列,这为CRISPR系统的编辑位点提供了更多的选择。其次，特异性不同。相对于SpCas9具有较高的脱靶率，CjCas9具有更高的特异性。更重要的是，大小不同。CjCas9是目前已知的最小的Cas9蛋白，相比于SpCas9有1368个氨基酸，CjCas9只有984个氨基酸，更容易进入组织和细胞，这极大地拓展了CRISPR系统在体内外的应用。

VPR是三种转录激活因子vp64、p65和rta的核心结构域组成的融合蛋白。一方面，它具有这三种转录激活因子的协同作用，使其能在更多的位点实现更好的激活效果。另外一方面，它是由这三种转录激活因子的核心结构域组成的融合蛋白，长度仅325个氨基酸，提高了它的应用范围。

目前，CRISPR/Cas9系统对基因的调控主要应用于体外，而在体内应用较少，其原因有很多，其中最重要的是大部分Cas9蛋白较大，超过了一些包装方法如AAV病毒的包装范围，再结合转录调节系统，更是超过了大部分包装系统的容量，使得调节系统很难传递到体内的组织细胞发挥作用。同时基因调节的效果以及系统的特异性也是其局限因素。在本发明中，将目前体积最小的CjCas9蛋白和三种转录激活因子vp64、p65和rta的核心结构域组成的融合蛋白VPR结合，整个激活系统具有小体积、强激活效果以及高特异性。可以通过一些常用的包装方法如AAV病毒传递至体内，发挥其激活效果。

发明内容

本发明目的在于：针对已有基因激活方法靶向性低，激活效率低，以及系统体积过大难以应用于体内等问题，将目前体积最小的CRISPR/Cas9系统蛋白CjCas9和转录激活因子VPR结合，提供一种体积小、激活效果强以及高特异性的激活系统，可以实现体内外高效的基因激活。

为了实现上述发明目的，本发明提供了一种融合蛋白，包括两个异源多肽结构域，其中一个多肽结构域包含具有转录激活活性的VPR蛋白，所述VPR蛋白由三种转录激活因子vp64、p65、rta的核心结构域组成；另一种多肽结构域包含CjCas9蛋白，所述CjCas9蛋白为dCjCas9亚型、mini-dCjCas9亚型或CjCas9野生型。所述的CjCas9野生型为目前现有的亚型，序列如SEQ ID NO：3中倾斜字体所示；所述dCjCas9亚型是本发明基于CjCas9野生型在D8A和H559A单位点氨基酸突变，使CjCas9野生型无酶切割活性有靶向基因识别特性，序列如SEQ ID NO：1中倾斜字体所示；所述mini-dCjCas9亚型是本发明基于CjCas9野生型在D8A单位点氨基酸突变以及大部分HNH结构域(△495-601氨基酸)的缺失，序列如SEQ ID NO：2中倾斜字体所示。(除了野生型，其他都是之前没有的)。

进一步地，所述VPR与dCjCas9亚型的融合蛋白，其氨基酸序列如SEQ ID NO：1所示，其核苷酸序列如SEQ ID NO：5所示；所述VPR与mini-dCjCas9亚型的融合蛋白，其氨基酸序列如SEQ ID NO：2所示，其核苷酸序列如SEQ ID NO：6所示；所述VPR与CjCas9野生型的融合蛋白，其氨基酸序列如SEQ ID NO：3所示，其核苷酸序列如SEQ ID NO：7所示。

进一步地，本发明基于所述VPR与mini-dCjCas9亚型的融合蛋白，将转录因子VPR中的vp64进行密码子优化，VPR整体缩小27个氨基酸序列，VPR与mini dCjCas9之间的linker缩小33个氨基酸，其氨基酸序列如SEQ ID NO：4所示，其核苷酸序列如SEQ ID NO：8所示。

SEQ ID NO：1

VPR-dCjCas9氨基酸序列(正常字体为VPR；加粗字体为Linker；倾斜字体为dCjCas9)：

SEQ ID NO：2

VPR-mini dCjCas9氨基酸序列(正常字体为VPR；加粗字体为Linker；倾斜字体为minidCjCas9)：

SEQ ID NO：3

VPR-WT CjCas9氨基酸序列(正常字体为VPR；加粗字体为Linker；倾斜字体为WTCjCas9)：

SEQ ID NO：4

VPR-S-Linker-mini dCjCas9-D2 VP64 new氨基酸序列(正常字体为VPR，密码子优化及删减；加粗字体为Linker，已删减；倾斜字体为mini dCjCas9)：

SEQ ID NO：5

VPR-dCjCas9 DNA序列(正常字体为VPR；加粗字体为Linker；倾斜字体为dCjCas9)：

SEQ ID NO：6

VPR-mini dCjCas9 DNA序列(正常字体为VPR；加粗字体为Linker；倾斜字体为minidCjCas9)：

SEQ ID NO：7

VPR-WT CjCas9 DNA序列(正常字体为VPR；加粗字体为Linker；倾斜字体为WTCjCas9)：

SEQ ID NO：8

VPR-S-Linker-mini dCjCas9-D2 VP64 new序列(正常字体为VPR，密码子优化及删减；加粗字体为Linker，已删减；倾斜字体为mini dCjCas9)：

一种表达载体，该表达载体用于表达上述所述的融合蛋白。

进一步地，所述表达载体的启动子为CMV，入核信号为SV40 NLS，VPR蛋白和CjCas9蛋白之间插入一段连接序列linker，序列如SEQ ID NO：1中加粗字体所示。

一种DNA靶向激活系统，包括上述所述的融合蛋白和至少一种向导RNA，所述向导RNA包含针对目的基因启动子区域设计的一段长度为14bp-22bp的序列和一段80bp的骨架序列。

进一步地，VPR与dCjCas9亚型、mini-dCjCas9亚型或CjCas9野生型的融合蛋白均可实现基因的激活，其中VPR与dCjCas9亚型的融合蛋白具有相对更高的激活效率；VPR与mini-dCjCas9亚型的融合蛋白更小，在动物体内应用中具有更好的前景；VPR与CjCas9野生型融合蛋白可利用15bp和22bp的导向gRNA，同时进行基因激活和切割；同时，本发明还基于VPR与mini-dCjCas9亚型的融合蛋白，将转录因子VPR中的vp64进行密码子优化，VPR整体缩小27个氨基酸序列，VPR与mini dCjCas9之间的linker缩小33个氨基酸，使得整个激活系统更小，融合蛋白的表达量更强。

进一步地，所述CjCas9的向导RNA骨架序列包含两种，一种是已知的骨架序列WT向导RNA骨架，其核苷酸序列如SEQ ID NO：9所示；另一种是含有T5A和A24T单位点碱基突变的F向导RNA骨架，其核苷酸序列如SEQ ID NO：10所示。

SEQ ID NO：9

CjCas9向导RNA的WT骨架序列：

Gttttagtccctgaaaagggactaaaataaagagtttgcgggactctgcggggttacaatcccctaaaaccgcttttttt

SEQ ID NO：10

CjCas9向导RNA的F骨架序列(加粗倾斜的字体为突变点)：

进一步地，所述CjCas9的向导RNA骨架序列是含有T5A和A24T单位点碱基突变的F向导RNA骨架。

现有技术中只有利用野生型CjCas9加22bp导向RNA做基因切割，没有人利用CjCas9做过激活。本申请1、把野生型CjCas9突变为dCjCas9，然后与之前有的VPR结合用于激活；2、把野生型CjCas9突变并缩短为mini-dCjCas9，也可以实现激活，同时因为删减质粒更小，体内应用范围更广；3、直接利用野生型CjCas9，发现结合15bp的导向RNA，也可以实现激活，而且还可以结合靶向其他基因22bp的导向，可以实现对一个基因激活的同时实现对其他基因的切割；4、将VPR与mini-dCjCas9的融合蛋白进一步缩减优化，VPR缩小，linker缩小，整个蛋白更小，同时因为对Vp64密码子优化，使得这个融合蛋白翻译效率更高，表达量更强；5、向导RNA骨架序列：WT向导RNA骨架是之前有的，将T5A和A24T单位点碱基突变的F向导RNA骨架是本申请改进的，改进之后激活效果更好。

上述所述的DNA靶向激活系统在进行基因的靶向激活中的应用。

进一步地，所述靶向基因为活体动物基因。本发明提供的DNA靶向激活系统可以高效激活基因的表达，具体包括如下步骤：(1)构建CjCas9和VPR核心结构域的融合蛋白表达载体；(2)构建表达特定向导RNA的载体；(3)将步骤(1)所述融合蛋白表达载体和步骤(2)所述表达特定向导RNA的载体混合，通过脂质体转染试剂聚乙烯亚胺(PEI)共转染到哺乳动物细胞，在细胞内表达的融合蛋白与其向导RNA结合，将转录激活因子VPR靶向目标基因区；(4)48h后提取mRNA，检查目标基因mRNA表达水平；再通过全转录水平mRNA测序，分析靶向激活结果和特异性水平。

与现有技术相比，本发明的优势在于：本发明提供的DNA靶向激活系统具有体积小特异性高，激活效果强易于合成，成本低等优点。因此，本发明方法不仅可以与已有的基因激活方法相互补充，同时因为其独特的优势，更利于动物体内的应用，为CRISPR/Cas9系统的基因治疗、肿瘤治疗等提供了新的应用前景，具有潜在的重要经济价值和意义。

附图说明

图1为pRGEN-CMV-VPR-Linker-dCjCas9的质粒图谱。

图2为pRGEN-CMV-VPR-linker-mini dCjCas9-HNH GSK linker的质粒图谱。

图3为pRGEN-CMV-VPR-linker-CjCas9 WT的质粒图谱。

图4为pRGEN-CMV-VPR-S-Linker-mini dCjCas9-D2 VP64 new的质粒图谱，相比于pRGEN-CMV-VPR-linker-mini dCjCas9-HNH GSK linker，该质粒的vp64进行了密码子优化，VPR整体缩小27个氨基酸序列，VPR与mini dCjCas9之间的linker缩小33氨基酸。

图5为pU6-cj-sgRNA的质粒图谱。

图6为pU6-cj-FsgRNA的质粒图谱。

图7为QPCR检测结果图，显示融合蛋白VPR-dCjCas9可以在293T细胞中靶向激活HBG的表达。

图8为QPCR检测结果图，显示融合蛋白VPR-mini dCjCas9可以在293T细胞中靶向激活HBG的表达。

图9为QPCR检测结果图，显示融合蛋白VPR-WTCjCas9可以在293T细胞中利用15bp导向RNA靶向激活IL1RN的表达。

图10为QPCR检测结果图，显示融合蛋白VPR-S-Linker-mini dCjCas9-D2 VP64new可以在293T细胞中靶向激活HBG的表达。

图11为QPCR检测结果图，与WT向导RNA相比，F骨架的向导RNA可以提高CjCas9的靶向激活效果。

图12为QPCR检测结果图(A)和T7E1检测结果图(B)，显示融合蛋白VPR-WTCjCas9可以利用15bp导向RNA靶向激活IL1RN(A)，同时利用22bp导向RNA靶向切割HBG(B)；Ctr为仅转染融合蛋白VPR-WTCjCas9的载体，H22I15为同时转染融合蛋白VPR-WT CjCas9的载体和22bp的靶向HBG的向导RNA以及15bp的靶向IL1RN的向导RNA。。

图13为为全转录本mRNA测序散点图，结果显示融合蛋白VPR-dCjCas9靶向利用22bp导向RNA靶向激活IL1RN的表达，且具有高特异性(A)；融合蛋白VPR-WT dCjCas9靶向利用15bp导向RNA靶向激活IL1RN的表达，且具有高特异性(B)。I22为22bp的靶向IL1RN的向导RNA，I15为15bp的靶向IL1RN的向导RNA。

图14为CjCas9和VPR融合蛋白介导的基因激活系统的模式图(A)，以及不同亚型CjCas9和VPR融合蛋白的结构示意图(B)。

具体实施方式

为了使本发明的目的、技术方案和有益技术效果更加清晰，以下结合实施例，对本发明进行进一步详细说明。应当理解的是，本发明的实施方式不局限于以下的实施例介绍，实施例的参数、比例等可因地制宜做出选择而对结果并无实质性影响。

实施例1

构建表达dCjCas9蛋白的载体：将购买所得的pRGEN-CMV-CjCas9(89752)质粒用Nco1酶切得到3383bp片段为载体，同时以pRGEN-CMV-CjCas9为模板，进行PCR扩增，PCR1引物序列如下：

F1：GTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGC；(SEQ ID NO：11)

R1：AGCGAAGGCCAGGATTCTGGCCATGATTCGGATCCCAAGCTTG；(SEQ ID NO：12)

PCR2引物序列如下：

F2：GCCAGAATCCTGGCCTTCGCTATCGGCATCAGCAGCATCG；(SEQ ID NO：13)

R2：ACCGGCTGTAGGGGTAGATGGCGTCGATTTCCAGCATCTTCT；(SEQ ID NO：14)

PCR3引物序列如下：

F3：AAGATGCTGGAAATCGACGCCATCTACCCCTACAGCCGGT；(SEQ ID NO：15)

R3：AGCACCTTCAGGGCGAAGTCCATTGTGTAGATGGGCACGGCGTA；(SEQ ID NO：16)

利用Gibson Assembly试剂将上述4个片段进行连接得到pRGEN-CMV-dCjCas9质粒。

酶切体系50ul，具体包括：

载体质粒10ul，限制性内切酶酶1ul，Catsmart buffer(10X)5ul，ddH2O 34ul。反应条件37℃水浴4h，并用0.8％琼脂糖凝胶电泳分析酶切产物，切胶回收相应的条带。

PCR体系50ul，具体包括：

反应体系：模板(浓度为1ng/ul)2.5ul，Q5酶1ul，Q5 buffer(10X)5ul，Q5enhancer 5ul，引物F和R(浓度为10uM)2.5ul，dNTP 4ul，ddH2O 30ul。

反应条件：①98℃:2min，②98℃:30s，③58℃:30s，④72℃:30s，②③④循环40次，⑤72℃5min。

用0.8％琼脂糖凝胶电泳分析PCR产物，切胶回收条带。

Gibson Assembly反应体系10μL，具体包括：

2X Gibson Assembly MIX 3μL，PCR回收产物(所有PCR产物总和)2μL，载体酶切回收产物1μL，反应条件：50℃水浴1h。

将连接产物转化到TOP10大肠杆菌中，涂在含有100μg/mL氨苄青霉素的LB固体平板，37℃培养过夜，然后挑取单个克隆，37℃250rpm摇菌后提取质粒进行DNA测序，由此筛选构建正确的载体质粒。

实施例2

构建表达VPR蛋白的载体：以pBlu2KSP为载体，用kpn1和spe1酶切后得到的载体片段，以pHRdSV40-scFv-GCN4-sfGFP-VP64-GB1-NLS(60904)为模板，进行PCR扩增得到vp64，PCR1引物序列如下：

F1：CTCACTATAGGGCGAATTGGGTACCGATGCTTTAGACGATTTTGA；(SEQ ID NO：17)

R1：CCTCCTCCTCCGCTTCCTCCTAGCATATCTAGATCAAAGT；(SEQ ID NO：18)

以MS2-P65-HSF1_GFP(61423)为模板，进行PCR扩增得到p65，PCR2引物序列如下：

F2：ACTTTGATCTAGATATGCTAGGAGGAAGCGGAGGAGGAGG；(SEQ ID NO：19)

R2：AGGTCGCTGCCGCTGCCAGACCCACTAGAGGAAATCTGT；(SEQ ID NO：20)

以合成的rta序列为模板，进行PCR扩增得到rta，PCR3引物序列如下：

F3：ACAGATTTCCTCTAGTGGGTCTGGCAGCGGCAGCGACCT；(SEQ ID NO：21)

R3：CGGTGGCGGCCGCTCTAGAAAACAGAGATGTGTCGAAGA；(SEQ ID NO：22)

利用Gibson Assembly试剂将上述4个片段进行连接得到pBlu-VPR质粒。

酶切体系、PCR扩增、Gibson Assembly反应体系等具体步骤如实施例1。

实施例3

构建表达融合蛋白VPR-dCjCas9的载体：以pRGEN-CMV-dCjCas9为载体，用Bamh1酶切后得到的载体片段，以pBlu-VPR为模板，进行PCR扩增得到VPR，PCR1引物序列如下：

F1：ATAGGGAGACCCAAGCTTGGGCCACCATGGATGCTTTAGACGATTTTGA；(SEQ ID NO：23)

R1：GGGGAGCCGCTGCCCAGGCTAAACAGAGATGTGTCGAAGA；(SEQ ID NO：24)

以pCAG-dCas9-24xGCN4_v4-NLS-P2A-BFP为模板，进行PCR扩增得到linker序列，PCR2引物序列如下：

F1：TCTTCGACACATCTCTGTTTAGCCTGGGCAGCGGCTCCC；(SEQ ID NO：25)

R1：AGGATTCTGGCCATGATTCGTCCTCCAGAACCTCCACCTC；(SEQ ID NO：26)

利用Gibson Assembly试剂将上述3个片段进行连接得到pRGEN-CMV-VPR-Linker-dCjCas9质粒(如图1所示)。

实施例4

构建表达融合蛋白VPR-mini dCjCas9的载体：以pRGEN-CMV-CjCas9(89752)为载体，用bamh1和Hind111酶切后得到的载体片段，以pRGEN-CMV-VPR-Linker-dCjCas9为模板，进行PCR扩增，PCR1引物序列如下：

F1：CAGTCCGTGGGCGAGTACCTGTACAAAGAGTACTTCCAGA；(SEQ ID NO：27)

R1：TCTTGGTGGGCAGGTTCTTGGCCCGCTGGCTGTGGTT；(SEQ ID NO：28)

PCR2引物序列如下：

F1：ACCACAGCCAGCGGGCCAAGAACCTGCCCACCAAGAAA；(SEQ ID NO：29)

R1：ATCAGGATCAGGGAGTCCTTGTACAGGCTAAAGCAGAAC；(SEQ ID NO：30)

利用Gibson Assembly试剂将上述3个片段进行连接得到pRGEN-CMV-VPR-linker-mini dCjCas9-HNH GSK linker质粒(如图2所示)。

实施例5

构建表达融合蛋白VPR-WTCjCas9的载体：以pRGEN-CMV-VPR-Linker-dCjCas9为载体，用bamh1和Hind111酶切后得到的载体片段，以pRGEN-CMV-VPR-Linker-dCjCas9为模板，进行PCR扩增得到VPR及linker片段，PCR引物序列如下：

F1：ACTCACTATAGGGAGACCCAAGCTTGGGCCACCATGGATG；(SEQ ID NO：31)

R1：AGGATTCTGGCCATGGTTCGTCCTCCAGAACCTCCACCT；(SEQ ID NO：32)

利用Gibson Assembly试剂将上述2个片段进行连接得到pRGEN-CMV-VPR-Linker-WTCjCas9质粒(如图3所示)。

实施例6

构建表达融合蛋白VPR-S-Linker-mini dCjCas9-D2 VP64 new的载体：以pRGEN-CMV-VPR-linker-mini dCjCas9-HNH GSK linker为载体，用bamh1和Hind111酶切后得到的载体片段，以合成的密码子优化的vp64序列为模板，进行PCR扩增得到新的vp64序列，PCR引物序列如下：

F1：GGGTTTGCCGCCAGAACACAGAAGCTTGGGCCACCAT；(SEQ ID NO：33)

R1：ACCATAGTCTGGGCCAGCACGGATCCCACCTTCCTCTTTT；(SEQ ID NO：34)

以pRGEN-CMV-VPR-Linker-dCjCas9为模板，进行PCR扩增得到缩小的p65、rta以及缩小的linker序列，PCR引物序列如下：

F1：AAAAGAGGAAGGTGGGATCCGTGCTGGCCCAGACTATGGT；(SEQ ID NO：35)

R1：GATCCACCCGGACCGTTGGATCCAAACAGAGATGTGTCGAAG；(SEQ ID NO：36)

利用Gibson Assembly试剂将上述3个片段进行连接得到pRGEN-CMV-VPR-S-Linker-mini dCjCas9-D2 VP64 new质粒(如图4所示)。

实施例7

构建pU6-cj-FsgRNA质粒，即包含F骨架序列的向导RNA载体：以pU6-cj-sgRNA(89753)(如图5所示)为载体，用bsmB1和Spe1酶切后得到的载体片段，无模板，进行PCR扩增得到F骨架序列，PCR引物序列如下：

F1:AGGATAGAATTCGATGTCGAAAAAAAAGCGGTTTTAGGGGATTGTAACCCCGCAGAGTCCCGCAAACTCTTTATTT；(SEQ ID NO：37)

R1:GACGAAACACCGGGAGACGGGATCCCGTCTCCGTTTAAGTCCCTGAAAAGGGACTTAAATAAAGAGTTTGCGGGAC；(SEQ ID NO：38)

利用Gibson Assembly试剂将上述2个片段进行连接得到pU6-cj-FsgRNA质粒(如图6所示)。

实施例8

构建靶向基因HBG和IL1RN的向导RNA质粒：分别以pU6-cj-sgRNA，pU6-cj-FsgRNA为载体，用bsmB1酶切后得到的载体片段，用引物合成得到HBG和IL1RN的靶向oliga序列：

HBG 22bp Oligo_F：AAACGGCATAGGTCCAGGATTTTTGA；(SEQ ID NO：39)

HBG 22bp Oligo_R：ACCGTCAAAAATCCTGGACCTATGCC；(SEQ ID NO：40)

IL1RN 22bp Oligo_F：AAACACATGCATGAGCTGGCGGCAGT；(SEQ ID NO：41)

IL1RN 22bp Oligo_R：ACCGACTGCCGCCAGCTCATGCATGT；(SEQ ID NO：42)

IL1RN 15bp Oligo_F：AAACACATGCATGAGCTGG；(SEQ ID NO：43)

IL1RN 15bp Oligo_R：ACCGCCAGCTCATGCATGT；(SEQ ID NO：44)

将对应的正反oliga序列退火后利用T4连接酶与对应的载体连接，即可得到靶向HBG和IL1RN的向导RNA质粒。

酶切体系等具体步骤如实施例1。

两条部分互补配对单链DNA片段合成双链的DNA片段(正反oliga序列退火)。具体步骤如下：

10ul 100uM Oligo-F和10ul 100uM Oligo-R预混于1.5ml EP管中，用烧杯煮沸800ml的蒸馏水，将1.5ml EP管置于沸水中5分钟，取出1.5ml EP管室温放置过夜。

T4连接体系10μL，具体包括：

T4连接酶1μL，10x T4 ligase buffer 1μL，oliga序列退火产物1μL，载体酶切回收产物2μL，ddH₂O 5μL，反应条件：25℃水浴1h。

实施例9

转染细胞，将上述构建好的各种融合蛋白和相应的向导RNA用转染试剂PEI转进HEK293T细胞，48小时后，收取细胞的RNA进行QPCR检测，结果如图7-11所示。(Ctr为仅转染相应的融合蛋白质粒，无向导RNA)其中图7为融合蛋白VPR-dCjCas9和针对HBG的22bp靶向序列与WT骨架形成向导RNA，结果显示融合蛋白VPR-dCjCas9可以在293T细胞中靶向激活HBG的表达；图8为融合蛋白VPR-mini dCjCas9和针对HBG的22bp靶向序列与WT骨架形成向导RNA，结果显示融合蛋白VPR-mini dCjCas9可以在293T细胞中靶向激活HBG的表达；图9为融合蛋白VPR-WTCjCas9和针对IL1RN靶向序列与WT骨架形成的15bp向导RNA，结果显示融合蛋白VPR-WTCjCas9可以在293T细胞中利用15bp导向RNA靶向激活IL1RN的表达；图10为融合蛋白VPR-S-Linker-mini dCjCas9-D2 VP64 new和针对HBG的22bp靶向序列与WT骨架形成向导RNA，结果显示融合蛋白VPR-S-Linker-mini dCjCas9-D2 VP64 new可以在293T细胞中靶向激活HBG的表达；图11为融合蛋白VPR-dCjCas9和针对HBG的22bp靶向序列与WT骨架或者F骨架形成向导RNA，结果显示与WT向导RNA相比，F骨架的向导RNA可以提高CjCas9的靶向激活效果。

其中对于VPR-WT CjCas9融合蛋白系统，用转染试剂PEI将表达融合蛋白VPR-WTCjCas9的载体和22bp的靶向HBG的向导RNA以及15bp的靶向IL1RN的向导RNA同时转入HEK293T细胞，48小时后，将其中一半的细胞收取细胞的RNA进行QPCR检测，并将另一半的细胞用SDS裂解法提取基因组DNA，以基因组DNA为模板进行PCR扩增，进行T7E1检测。结果如图12所示，VPR与WT CjCas9融合蛋白组成的激活系统可以同时实现基因的激活和切割。HBG位点PCR引物如下：

HBG F：TAGCCTTTGCCTTGTTCCGA；(SEQ ID NO：45)

HBG R：ACACGCACATCTTATGTCTTAGAG。(SEQ ID NO：46)

本发明提供的各种VPR与CjCas9融合蛋白组成的激活系统均可在向导RNA的引导下实现靶基因的高效激活。QPCR引物如下：

HBG QPCR F：GCTGAGTGAACTGCACTGTGA；(SEQ ID NO：47)

HBG QPCR R：GAATTCTTTGCCGAAATGGA；(SEQ ID NO：48)

IL1RN QPCR F：GGAATCCATGGAGGGAAGAT；(SEQ ID NO：49)

IL1RN QPCR R：TGTTCTCGCTCAGGTCAGTG；(SEQ ID NO：50)

GAPDH QPCR F：AGAAGGCTGGGGCTCATTTG；(SEQ ID NO：51)

GAPDH QPCR R：AGGGGCCATCCACAGTCTTC。(SEQ ID NO：52)

同时将收取的靶向IL1RN基因的RNA进行全转录组测序，结果如图13所示，结果显示融合蛋白VPR-dCjCas9靶向利用22bp导向RNA靶向激活IL1RN的表达，且具有高特异性(A)；融合蛋白VPR-WT dCjCas9靶向利用15bp导向RNA靶向激活IL1RN的表达，且具有高特异性(B)。本发明提供的VPR与CjCas9融合蛋白组成的激活系统具有强特异性。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

SEQUENCE LISTING

<110> 南方医科大学

<120> 基于CjCas9和VPR核心结构域的融合蛋白、相应的DNA靶向激活系统及其应用

<130> CP11901468C

<160> 52

<170> PatentIn version 3.3

<210> 1

<211> 1378

<212> PRT

<213> 人工序列

<400> 1

Asp Ala Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu

1 5 10 15

Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe

20 25 30

Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp

35 40 45

Met Leu Gly Gly Ser Gly Gly Gly Gly Ser Gly Pro Lys Lys Lys Arg

50 55 60

Lys Val Ala Ala Ala Gly Ser Pro Ser Gly Gln Ile Ser Asn Gln Ala

65 70 75 80

Leu Ala Leu Ala Pro Ser Ser Ala Pro Val Leu Ala Gln Thr Met Val

85 90 95

Pro Ser Ser Ala Met Val Pro Leu Ala Gln Pro Pro Ala Pro Ala Pro

100 105 110

Val Leu Thr Pro Gly Pro Pro Gln Ser Leu Ser Ala Pro Val Pro Lys

115 120 125

Ser Thr Gln Ala Gly Glu Gly Thr Leu Ser Glu Ala Leu Leu His Leu

130 135 140

Gln Phe Asp Ala Asp Glu Asp Leu Gly Ala Leu Leu Gly Asn Ser Thr

145 150 155 160

Asp Pro Gly Val Phe Thr Asp Leu Ala Ser Val Asp Asn Ser Glu Phe

165 170 175

Gln Gln Leu Leu Asn Gln Gly Val Ser Met Ser His Ser Thr Ala Glu

180 185 190

Pro Met Leu Met Glu Tyr Pro Glu Ala Ile Thr Arg Leu Val Thr Gly

195 200 205

Ser Gln Arg Pro Pro Asp Pro Ala Pro Thr Pro Leu Gly Thr Ser Gly

210 215 220

Leu Pro Asn Gly Leu Ser Gly Asp Glu Asp Phe Ser Ser Ile Ala Asp

225 230 235 240

Met Asp Phe Ser Ala Leu Leu Ser Gln Ile Ser Ser Ser Gly Ser Gly

245 250 255

Ser Gly Ser Asp Leu Ser His Pro Pro Pro Arg Gly His Leu Asp Glu

260 265 270

Leu Thr Thr Thr Leu Glu Ser Met Thr Glu Asp Leu Asn Leu Asp Ser

275 280 285

Pro Leu Thr Pro Glu Leu Asn Glu Ile Leu Asp Thr Phe Leu Asn Asp

290 295 300

Glu Cys Leu Leu His Ala Met His Ile Ser Thr Gly Leu Ser Ile Phe

305 310 315 320

Asp Thr Ser Leu Phe Ser Leu Gly Ser Gly Ser Pro Lys Lys Lys Arg

325 330 335

Lys Val Glu Asp Pro Lys Lys Lys Arg Lys Val Asp Gly Ile Gly Ser

340 345 350

Gly Ser Asn Gly Ser Ser Gly Ser Asn Gly Pro Gly Gly Ser Gly Gly

355 360 365

Gly Gly Ser Gly Gly Arg Ile Met Ala Arg Ile Leu Ala Phe Ala Ile

370 375 380

Gly Ile Ser Ser Ile Gly Trp Ala Phe Ser Glu Asn Asp Glu Leu Lys

385 390 395 400

Asp Cys Gly Val Arg Ile Phe Thr Lys Val Glu Asn Pro Lys Thr Gly

405 410 415

Glu Ser Leu Ala Leu Pro Arg Arg Leu Ala Arg Ser Ala Arg Lys Arg

420 425 430

Leu Ala Arg Arg Lys Ala Arg Leu Asn His Leu Lys His Leu Ile Ala

435 440 445

Asn Glu Phe Lys Leu Asn Tyr Glu Asp Tyr Gln Ser Phe Asp Glu Ser

450 455 460

Leu Ala Lys Ala Tyr Lys Gly Ser Leu Ile Ser Pro Tyr Glu Leu Arg

465 470 475 480

Phe Arg Ala Leu Asn Glu Leu Leu Ser Lys Gln Asp Phe Ala Arg Val

485 490 495

Ile Leu His Ile Ala Lys Arg Arg Gly Tyr Asp Asp Ile Lys Asn Ser

500 505 510

Asp Asp Lys Glu Lys Gly Ala Ile Leu Lys Ala Ile Lys Gln Asn Glu

515 520 525

Glu Lys Leu Ala Asn Tyr Gln Ser Val Gly Glu Tyr Leu Tyr Lys Glu

530 535 540

Tyr Phe Gln Lys Phe Lys Glu Asn Ser Lys Glu Phe Thr Asn Val Arg

545 550 555 560

Asn Lys Lys Glu Ser Tyr Glu Arg Cys Ile Ala Gln Ser Phe Leu Lys

565 570 575

Asp Glu Leu Lys Leu Ile Phe Lys Lys Gln Arg Glu Phe Gly Phe Ser

580 585 590

Phe Ser Lys Lys Phe Glu Glu Glu Val Leu Ser Val Ala Phe Tyr Lys

595 600 605

Arg Ala Leu Lys Asp Phe Ser His Leu Val Gly Asn Cys Ser Phe Phe

610 615 620

Thr Asp Glu Lys Arg Ala Pro Lys Asn Ser Pro Leu Ala Phe Met Phe

625 630 635 640

Val Ala Leu Thr Arg Ile Ile Asn Leu Leu Asn Asn Leu Lys Asn Thr

645 650 655

Glu Gly Ile Leu Tyr Thr Lys Asp Asp Leu Asn Ala Leu Leu Asn Glu

660 665 670

Val Leu Lys Asn Gly Thr Leu Thr Tyr Lys Gln Thr Lys Lys Leu Leu

675 680 685

Gly Leu Ser Asp Asp Tyr Glu Phe Lys Gly Glu Lys Gly Thr Tyr Phe

690 695 700

Ile Glu Phe Lys Lys Tyr Lys Glu Phe Ile Lys Ala Leu Gly Glu His

705 710 715 720

Asn Leu Ser Gln Asp Asp Leu Asn Glu Ile Ala Lys Asp Ile Thr Leu

725 730 735

Ile Lys Asp Glu Ile Lys Leu Lys Lys Ala Leu Ala Lys Tyr Asp Leu

740 745 750

Asn Gln Asn Gln Ile Asp Ser Leu Ser Lys Leu Glu Phe Lys Asp His

755 760 765

Leu Asn Ile Ser Phe Lys Ala Leu Lys Leu Val Thr Pro Leu Met Leu

770 775 780

Glu Gly Lys Lys Tyr Asp Glu Ala Cys Asn Glu Leu Asn Leu Lys Val

785 790 795 800

Ala Ile Asn Glu Asp Lys Lys Asp Phe Leu Pro Ala Phe Asn Glu Thr

805 810 815

Tyr Tyr Lys Asp Glu Val Thr Asn Pro Val Val Leu Arg Ala Ile Lys

820 825 830

Glu Tyr Arg Lys Val Leu Asn Ala Leu Leu Lys Lys Tyr Gly Lys Val

835 840 845

His Lys Ile Asn Ile Glu Leu Ala Arg Glu Val Gly Lys Asn His Ser

850 855 860

Gln Arg Ala Lys Ile Glu Lys Glu Gln Asn Glu Asn Tyr Lys Ala Lys

865 870 875 880

Lys Asp Ala Glu Leu Glu Cys Glu Lys Leu Gly Leu Lys Ile Asn Ser

885 890 895

Lys Asn Ile Leu Lys Leu Arg Leu Phe Lys Glu Gln Lys Glu Phe Cys

900 905 910

Ala Tyr Ser Gly Glu Lys Ile Lys Ile Ser Asp Leu Gln Asp Glu Lys

915 920 925

Met Leu Glu Ile Asp Ala Ile Tyr Pro Tyr Ser Arg Ser Phe Asp Asp

930 935 940

Ser Tyr Met Asn Lys Val Leu Val Phe Thr Lys Gln Asn Gln Glu Lys

945 950 955 960

Leu Asn Gln Thr Pro Phe Glu Ala Phe Gly Asn Asp Ser Ala Lys Trp

965 970 975

Gln Lys Ile Glu Val Leu Ala Lys Asn Leu Pro Thr Lys Lys Gln Lys

980 985 990

Arg Ile Leu Asp Lys Asn Tyr Lys Asp Lys Glu Gln Lys Asn Phe Lys

995 1000 1005

Asp Arg Asn Leu Asn Asp Thr Arg Tyr Ile Ala Arg Leu Val Leu

1010 1015 1020

Asn Tyr Thr Lys Asp Tyr Leu Asp Phe Leu Pro Leu Ser Asp Asp

1025 1030 1035

Glu Asn Thr Lys Leu Asn Asp Thr Gln Lys Gly Ser Lys Val His

1040 1045 1050

Val Glu Ala Lys Ser Gly Met Leu Thr Ser Ala Leu Arg His Thr

1055 1060 1065

Trp Gly Phe Ser Ala Lys Asp Arg Asn Asn His Leu His His Ala

1070 1075 1080

Ile Asp Ala Val Ile Ile Ala Tyr Ala Asn Asn Ser Ile Val Lys

1085 1090 1095

Ala Phe Ser Asp Phe Lys Lys Glu Gln Glu Ser Asn Ser Ala Glu

1100 1105 1110

Leu Tyr Ala Lys Lys Ile Ser Glu Leu Asp Tyr Lys Asn Lys Arg

1115 1120 1125

Lys Phe Phe Glu Pro Phe Ser Gly Phe Arg Gln Lys Val Leu Asp

1130 1135 1140

Lys Ile Asp Glu Ile Phe Val Ser Lys Pro Glu Arg Lys Lys Pro

1145 1150 1155

Ser Gly Ala Leu His Glu Glu Thr Phe Arg Lys Glu Glu Glu Phe

1160 1165 1170

Tyr Gln Ser Tyr Gly Gly Lys Glu Gly Val Leu Lys Ala Leu Glu

1175 1180 1185

Leu Gly Lys Ile Arg Lys Val Asn Gly Lys Ile Val Lys Asn Gly

1190 1195 1200

Asp Met Phe Arg Val Asp Ile Phe Lys His Lys Lys Thr Asn Lys

1205 1210 1215

Phe Tyr Ala Val Pro Ile Tyr Thr Met Asp Phe Ala Leu Lys Val

1220 1225 1230

Leu Pro Asn Lys Ala Val Ala Arg Ser Lys Lys Gly Glu Ile Lys

1235 1240 1245

Asp Trp Ile Leu Met Asp Glu Asn Tyr Glu Phe Cys Phe Ser Leu

1250 1255 1260

Tyr Lys Asp Ser Leu Ile Leu Ile Gln Thr Lys Asp Met Gln Glu

1265 1270 1275

Pro Glu Phe Val Tyr Tyr Asn Ala Phe Thr Ser Ser Thr Val Ser

1280 1285 1290

Leu Ile Val Ser Lys His Asp Asn Lys Phe Glu Thr Leu Ser Lys

1295 1300 1305

Asn Gln Lys Ile Leu Phe Lys Asn Ala Asn Glu Lys Glu Val Ile

1310 1315 1320

Ala Lys Ser Ile Gly Ile Gln Asn Leu Lys Val Phe Glu Lys Tyr

1325 1330 1335

Ile Val Ser Ala Leu Gly Glu Val Thr Lys Ala Glu Phe Arg Gln

1340 1345 1350

Arg Glu Asp Phe Lys Lys Ser Gly Pro Pro Lys Lys Lys Arg Lys

1355 1360 1365

Val Tyr Pro Tyr Asp Val Pro Asp Tyr Ala

1370 1375

<210> 2

<211> 1265

<212> PRT

<213> 人工序列

<400> 2

Asp Ala Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu

1 5 10 15

Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe

20 25 30

Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp

35 40 45

Met Leu Gly Gly Ser Gly Gly Gly Gly Ser Gly Pro Lys Lys Lys Arg

50 55 60

Lys Val Ala Ala Ala Gly Ser Pro Ser Gly Gln Ile Ser Asn Gln Ala

65 70 75 80

Leu Ala Leu Ala Pro Ser Ser Ala Pro Val Leu Ala Gln Thr Met Val

85 90 95

Pro Ser Ser Ala Met Val Pro Leu Ala Gln Pro Pro Ala Pro Ala Pro

100 105 110

Val Leu Thr Pro Gly Pro Pro Gln Ser Leu Ser Ala Pro Val Pro Lys

115 120 125

Ser Thr Gln Ala Gly Glu Gly Thr Leu Ser Glu Ala Leu Leu His Leu

130 135 140

Gln Phe Asp Ala Asp Glu Asp Leu Gly Ala Leu Leu Gly Asn Ser Thr

145 150 155 160

Asp Pro Gly Val Phe Thr Asp Leu Ala Ser Val Asp Asn Ser Glu Phe

165 170 175

Gln Gln Leu Leu Asn Gln Gly Val Ser Met Ser His Ser Thr Ala Glu

180 185 190

Pro Met Leu Met Glu Tyr Pro Glu Ala Ile Thr Arg Leu Val Thr Gly

195 200 205

Ser Gln Arg Pro Pro Asp Pro Ala Pro Thr Pro Leu Gly Thr Ser Gly

210 215 220

Leu Pro Asn Gly Leu Ser Gly Asp Glu Asp Phe Ser Ser Ile Ala Asp

225 230 235 240

Met Asp Phe Ser Ala Leu Leu Ser Gln Ile Ser Ser Ser Gly Ser Gly

245 250 255

Ser Gly Ser Asp Leu Ser His Pro Pro Pro Arg Gly His Leu Asp Glu

260 265 270

Leu Thr Thr Thr Leu Glu Ser Met Thr Glu Asp Leu Asn Leu Asp Ser

275 280 285

Pro Leu Thr Pro Glu Leu Asn Glu Ile Leu Asp Thr Phe Leu Asn Asp

290 295 300

Glu Cys Leu Leu His Ala Met His Ile Ser Thr Gly Leu Ser Ile Phe

305 310 315 320

Asp Thr Ser Leu Phe Ser Leu Gly Ser Gly Ser Pro Lys Lys Lys Arg

325 330 335

Lys Val Glu Asp Pro Lys Lys Lys Arg Lys Val Asp Gly Ile Gly Ser

340 345 350

Gly Ser Asn Gly Ser Ser Gly Ser Asn Gly Pro Gly Gly Ser Gly Gly

355 360 365

Gly Gly Ser Gly Gly Arg Ile Met Ala Arg Ile Leu Ala Phe Ala Ile

370 375 380

Gly Ile Ser Ser Ile Gly Trp Ala Phe Ser Glu Asn Asp Glu Leu Lys

385 390 395 400

Asp Cys Gly Val Arg Ile Phe Thr Lys Val Glu Asn Pro Lys Thr Gly

405 410 415

Glu Ser Leu Ala Leu Pro Arg Arg Leu Ala Arg Ser Ala Arg Lys Arg

420 425 430

Leu Ala Arg Arg Lys Ala Arg Leu Asn His Leu Lys His Leu Ile Ala

435 440 445

Asn Glu Phe Lys Leu Asn Tyr Glu Asp Tyr Gln Ser Phe Asp Glu Ser

450 455 460

Leu Ala Lys Ala Tyr Lys Gly Ser Leu Ile Ser Pro Tyr Glu Leu Arg

465 470 475 480

Phe Arg Ala Leu Asn Glu Leu Leu Ser Lys Gln Asp Phe Ala Arg Val

485 490 495

Ile Leu His Ile Ala Lys Arg Arg Gly Tyr Asp Asp Ile Lys Asn Ser

500 505 510

Asp Asp Lys Glu Lys Gly Ala Ile Leu Lys Ala Ile Lys Gln Asn Glu

515 520 525

Glu Lys Leu Ala Asn Tyr Gln Ser Val Gly Glu Tyr Leu Tyr Lys Glu

530 535 540

Tyr Phe Gln Lys Phe Lys Glu Asn Ser Lys Glu Phe Thr Asn Val Arg

545 550 555 560

Asn Lys Lys Glu Ser Tyr Glu Arg Cys Ile Ala Gln Ser Phe Leu Lys

565 570 575

Asp Glu Leu Lys Leu Ile Phe Lys Lys Gln Arg Glu Phe Gly Phe Ser

580 585 590

Phe Ser Lys Lys Phe Glu Glu Glu Val Leu Ser Val Ala Phe Tyr Lys

595 600 605

Arg Ala Leu Lys Asp Phe Ser His Leu Val Gly Asn Cys Ser Phe Phe

610 615 620

Thr Asp Glu Lys Arg Ala Pro Lys Asn Ser Pro Leu Ala Phe Met Phe

625 630 635 640

Val Ala Leu Thr Arg Ile Ile Asn Leu Leu Asn Asn Leu Lys Asn Thr

645 650 655

Glu Gly Ile Leu Tyr Thr Lys Asp Asp Leu Asn Ala Leu Leu Asn Glu

660 665 670

Val Leu Lys Asn Gly Thr Leu Thr Tyr Lys Gln Thr Lys Lys Leu Leu

675 680 685

Gly Leu Ser Asp Asp Tyr Glu Phe Lys Gly Glu Lys Gly Thr Tyr Phe

690 695 700

Ile Glu Phe Lys Lys Tyr Lys Glu Phe Ile Lys Ala Leu Gly Glu His

705 710 715 720

Asn Leu Ser Gln Asp Asp Leu Asn Glu Ile Ala Lys Asp Ile Thr Leu

725 730 735

Ile Lys Asp Glu Ile Lys Leu Lys Lys Ala Leu Ala Lys Tyr Asp Leu

740 745 750

Asn Gln Asn Gln Ile Asp Ser Leu Ser Lys Leu Glu Phe Lys Asp His

755 760 765

Leu Asn Ile Ser Phe Lys Ala Leu Lys Leu Val Thr Pro Leu Met Leu

770 775 780

Glu Gly Lys Lys Tyr Asp Glu Ala Cys Asn Glu Leu Asn Leu Lys Val

785 790 795 800

Ala Ile Asn Glu Asp Lys Lys Asp Phe Leu Pro Ala Phe Asn Glu Thr

805 810 815

Tyr Tyr Lys Asp Glu Val Thr Asn Pro Val Val Leu Arg Ala Ile Lys

820 825 830

Glu Tyr Arg Lys Val Leu Asn Ala Leu Leu Lys Lys Tyr Gly Lys Val

835 840 845

His Lys Ile Asn Ile Glu Leu Ala Arg Glu Val Gly Lys Asn His Ser

850 855 860

Gln Arg Ala Lys Gly Ser Lys Asn Leu Pro Thr Lys Lys Gln Lys Arg

865 870 875 880

Ile Leu Asp Lys Asn Tyr Lys Asp Lys Glu Gln Lys Asn Phe Lys Asp

885 890 895

Arg Asn Leu Asn Asp Thr Arg Tyr Ile Ala Arg Leu Val Leu Asn Tyr

900 905 910

Thr Lys Asp Tyr Leu Asp Phe Leu Pro Leu Ser Asp Asp Glu Asn Thr

915 920 925

Lys Leu Asn Asp Thr Gln Lys Gly Ser Lys Val His Val Glu Ala Lys

930 935 940

Ser Gly Met Leu Thr Ser Ala Leu Arg His Thr Trp Gly Phe Ser Ala

945 950 955 960

Lys Asp Arg Asn Asn His Leu His His Ala Ile Asp Ala Val Ile Ile

965 970 975

Ala Tyr Ala Asn Asn Ser Ile Val Lys Ala Phe Ser Asp Phe Lys Lys

980 985 990

Glu Gln Glu Ser Asn Ser Ala Glu Leu Tyr Ala Lys Lys Ile Ser Glu

995 1000 1005

Leu Asp Tyr Lys Asn Lys Arg Lys Phe Phe Glu Pro Phe Ser Gly

1010 1015 1020

Phe Arg Gln Lys Val Leu Asp Lys Ile Asp Glu Ile Phe Val Ser

1025 1030 1035

Lys Pro Glu Arg Lys Lys Pro Ser Gly Ala Leu His Glu Glu Thr

1040 1045 1050

Phe Arg Lys Glu Glu Glu Phe Tyr Gln Ser Tyr Gly Gly Lys Glu

1055 1060 1065

Gly Val Leu Lys Ala Leu Glu Leu Gly Lys Ile Arg Lys Val Asn

1070 1075 1080

Gly Lys Ile Val Lys Asn Gly Asp Met Phe Arg Val Asp Ile Phe

1085 1090 1095

Lys His Lys Lys Thr Asn Lys Phe Tyr Ala Val Pro Ile Tyr Thr

1100 1105 1110

Met Asp Phe Ala Leu Lys Val Leu Pro Asn Lys Ala Val Ala Arg

1115 1120 1125

Ser Lys Lys Gly Glu Ile Lys Asp Trp Ile Leu Met Asp Glu Asn

1130 1135 1140

Tyr Glu Phe Cys Phe Ser Leu Tyr Lys Asp Ser Leu Ile Leu Ile

1145 1150 1155

Gln Thr Lys Asp Met Gln Glu Pro Glu Phe Val Tyr Tyr Asn Ala

1160 1165 1170

Phe Thr Ser Ser Thr Val Ser Leu Ile Val Ser Lys His Asp Asn

1175 1180 1185

Lys Phe Glu Thr Leu Ser Lys Asn Gln Lys Ile Leu Phe Lys Asn

1190 1195 1200

Ala Asn Glu Lys Glu Val Ile Ala Lys Ser Ile Gly Ile Gln Asn

1205 1210 1215

Leu Lys Val Phe Glu Lys Tyr Ile Val Ser Ala Leu Gly Glu Val

1220 1225 1230

Thr Lys Ala Glu Phe Arg Gln Arg Glu Asp Phe Lys Lys Ser Gly

1235 1240 1245

Pro Pro Lys Lys Lys Arg Lys Val Tyr Pro Tyr Asp Val Pro Asp

1250 1255 1260

Tyr Ala

1265

<210> 3

<211> 1378

<212> PRT

<213> 人工序列

<400> 3

Asp Ala Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu

1 5 10 15

Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe

20 25 30

Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp

35 40 45

Met Leu Gly Gly Ser Gly Gly Gly Gly Ser Gly Pro Lys Lys Lys Arg

50 55 60

Lys Val Ala Ala Ala Gly Ser Pro Ser Gly Gln Ile Ser Asn Gln Ala

65 70 75 80

Leu Ala Leu Ala Pro Ser Ser Ala Pro Val Leu Ala Gln Thr Met Val

85 90 95

Pro Ser Ser Ala Met Val Pro Leu Ala Gln Pro Pro Ala Pro Ala Pro

100 105 110

Val Leu Thr Pro Gly Pro Pro Gln Ser Leu Ser Ala Pro Val Pro Lys

115 120 125

Ser Thr Gln Ala Gly Glu Gly Thr Leu Ser Glu Ala Leu Leu His Leu

130 135 140

Gln Phe Asp Ala Asp Glu Asp Leu Gly Ala Leu Leu Gly Asn Ser Thr

145 150 155 160

Asp Pro Gly Val Phe Thr Asp Leu Ala Ser Val Asp Asn Ser Glu Phe

165 170 175

Gln Gln Leu Leu Asn Gln Gly Val Ser Met Ser His Ser Thr Ala Glu

180 185 190

Pro Met Leu Met Glu Tyr Pro Glu Ala Ile Thr Arg Leu Val Thr Gly

195 200 205

Ser Gln Arg Pro Pro Asp Pro Ala Pro Thr Pro Leu Gly Thr Ser Gly

210 215 220

Leu Pro Asn Gly Leu Ser Gly Asp Glu Asp Phe Ser Ser Ile Ala Asp

225 230 235 240

Met Asp Phe Ser Ala Leu Leu Ser Gln Ile Ser Ser Ser Gly Ser Gly

245 250 255

Ser Gly Ser Asp Leu Ser His Pro Pro Pro Arg Gly His Leu Asp Glu

260 265 270

Leu Thr Thr Thr Leu Glu Ser Met Thr Glu Asp Leu Asn Leu Asp Ser

275 280 285

Pro Leu Thr Pro Glu Leu Asn Glu Ile Leu Asp Thr Phe Leu Asn Asp

290 295 300

Glu Cys Leu Leu His Ala Met His Ile Ser Thr Gly Leu Ser Ile Phe

305 310 315 320

Asp Thr Ser Leu Phe Ser Leu Gly Ser Gly Ser Pro Lys Lys Lys Arg

325 330 335

Lys Val Glu Asp Pro Lys Lys Lys Arg Lys Val Asp Gly Ile Gly Ser

340 345 350

Gly Ser Asn Gly Ser Ser Gly Ser Asn Gly Pro Gly Gly Ser Gly Gly

355 360 365

Gly Gly Ser Gly Gly Arg Thr Met Ala Arg Ile Leu Ala Phe Asp Ile

370 375 380

Gly Ile Ser Ser Ile Gly Trp Ala Phe Ser Glu Asn Asp Glu Leu Lys

385 390 395 400

Asp Cys Gly Val Arg Ile Phe Thr Lys Val Glu Asn Pro Lys Thr Gly

405 410 415

Glu Ser Leu Ala Leu Pro Arg Arg Leu Ala Arg Ser Ala Arg Lys Arg

420 425 430

Leu Ala Arg Arg Lys Ala Arg Leu Asn His Leu Lys His Leu Ile Ala

435 440 445

Asn Glu Phe Lys Leu Asn Tyr Glu Asp Tyr Gln Ser Phe Asp Glu Ser

450 455 460

Leu Ala Lys Ala Tyr Lys Gly Ser Leu Ile Ser Pro Tyr Glu Leu Arg

465 470 475 480

Phe Arg Ala Leu Asn Glu Leu Leu Ser Lys Gln Asp Phe Ala Arg Val

485 490 495

Ile Leu His Ile Ala Lys Arg Arg Gly Tyr Asp Asp Ile Lys Asn Ser

500 505 510

Asp Asp Lys Glu Lys Gly Ala Ile Leu Lys Ala Ile Lys Gln Asn Glu

515 520 525

Glu Lys Leu Ala Asn Tyr Gln Ser Val Gly Glu Tyr Leu Tyr Lys Glu

530 535 540

Tyr Phe Gln Lys Phe Lys Glu Asn Ser Lys Glu Phe Thr Asn Val Arg

545 550 555 560

Asn Lys Lys Glu Ser Tyr Glu Arg Cys Ile Ala Gln Ser Phe Leu Lys

565 570 575

Asp Glu Leu Lys Leu Ile Phe Lys Lys Gln Arg Glu Phe Gly Phe Ser

580 585 590

Phe Ser Lys Lys Phe Glu Glu Glu Val Leu Ser Val Ala Phe Tyr Lys

595 600 605

Arg Ala Leu Lys Asp Phe Ser His Leu Val Gly Asn Cys Ser Phe Phe

610 615 620

Thr Asp Glu Lys Arg Ala Pro Lys Asn Ser Pro Leu Ala Phe Met Phe

625 630 635 640

Val Ala Leu Thr Arg Ile Ile Asn Leu Leu Asn Asn Leu Lys Asn Thr

645 650 655

Glu Gly Ile Leu Tyr Thr Lys Asp Asp Leu Asn Ala Leu Leu Asn Glu

660 665 670

Val Leu Lys Asn Gly Thr Leu Thr Tyr Lys Gln Thr Lys Lys Leu Leu

675 680 685

Gly Leu Ser Asp Asp Tyr Glu Phe Lys Gly Glu Lys Gly Thr Tyr Phe

690 695 700

Ile Glu Phe Lys Lys Tyr Lys Glu Phe Ile Lys Ala Leu Gly Glu His

705 710 715 720

Asn Leu Ser Gln Asp Asp Leu Asn Glu Ile Ala Lys Asp Ile Thr Leu

725 730 735

Ile Lys Asp Glu Ile Lys Leu Lys Lys Ala Leu Ala Lys Tyr Asp Leu

740 745 750

Asn Gln Asn Gln Ile Asp Ser Leu Ser Lys Leu Glu Phe Lys Asp His

755 760 765

Leu Asn Ile Ser Phe Lys Ala Leu Lys Leu Val Thr Pro Leu Met Leu

770 775 780

Glu Gly Lys Lys Tyr Asp Glu Ala Cys Asn Glu Leu Asn Leu Lys Val

785 790 795 800

Ala Ile Asn Glu Asp Lys Lys Asp Phe Leu Pro Ala Phe Asn Glu Thr

805 810 815

Tyr Tyr Lys Asp Glu Val Thr Asn Pro Val Val Leu Arg Ala Ile Lys

820 825 830

Glu Tyr Arg Lys Val Leu Asn Ala Leu Leu Lys Lys Tyr Gly Lys Val

835 840 845

His Lys Ile Asn Ile Glu Leu Ala Arg Glu Val Gly Lys Asn His Ser

850 855 860

Gln Arg Ala Lys Ile Glu Lys Glu Gln Asn Glu Asn Tyr Lys Ala Lys

865 870 875 880

Lys Asp Ala Glu Leu Glu Cys Glu Lys Leu Gly Leu Lys Ile Asn Ser

885 890 895

Lys Asn Ile Leu Lys Leu Arg Leu Phe Lys Glu Gln Lys Glu Phe Cys

900 905 910

Ala Tyr Ser Gly Glu Lys Ile Lys Ile Ser Asp Leu Gln Asp Glu Lys

915 920 925

Met Leu Glu Ile Asp His Ile Tyr Pro Tyr Ser Arg Ser Phe Asp Asp

930 935 940

Ser Tyr Met Asn Lys Val Leu Val Phe Thr Lys Gln Asn Gln Glu Lys

945 950 955 960

Leu Asn Gln Thr Pro Phe Glu Ala Phe Gly Asn Asp Ser Ala Lys Trp

965 970 975

Gln Lys Ile Glu Val Leu Ala Lys Asn Leu Pro Thr Lys Lys Gln Lys

980 985 990

Arg Ile Leu Asp Lys Asn Tyr Lys Asp Lys Glu Gln Lys Asn Phe Lys

995 1000 1005

Asp Arg Asn Leu Asn Asp Thr Arg Tyr Ile Ala Arg Leu Val Leu

1010 1015 1020

Asn Tyr Thr Lys Asp Tyr Leu Asp Phe Leu Pro Leu Ser Asp Asp

1025 1030 1035

Glu Asn Thr Lys Leu Asn Asp Thr Gln Lys Gly Ser Lys Val His

1040 1045 1050

Val Glu Ala Lys Ser Gly Met Leu Thr Ser Ala Leu Arg His Thr

1055 1060 1065

Trp Gly Phe Ser Ala Lys Asp Arg Asn Asn His Leu His His Ala

1070 1075 1080

Ile Asp Ala Val Ile Ile Ala Tyr Ala Asn Asn Ser Ile Val Lys

1085 1090 1095

Ala Phe Ser Asp Phe Lys Lys Glu Gln Glu Ser Asn Ser Ala Glu

1100 1105 1110

Leu Tyr Ala Lys Lys Ile Ser Glu Leu Asp Tyr Lys Asn Lys Arg

1115 1120 1125

Lys Phe Phe Glu Pro Phe Ser Gly Phe Arg Gln Lys Val Leu Asp

1130 1135 1140

Lys Ile Asp Glu Ile Phe Val Ser Lys Pro Glu Arg Lys Lys Pro

1145 1150 1155

Ser Gly Ala Leu His Glu Glu Thr Phe Arg Lys Glu Glu Glu Phe

1160 1165 1170

Tyr Gln Ser Tyr Gly Gly Lys Glu Gly Val Leu Lys Ala Leu Glu

1175 1180 1185

Leu Gly Lys Ile Arg Lys Val Asn Gly Lys Ile Val Lys Asn Gly

1190 1195 1200

Asp Met Phe Arg Val Asp Ile Phe Lys His Lys Lys Thr Asn Lys

1205 1210 1215

Phe Tyr Ala Val Pro Ile Tyr Thr Met Asp Phe Ala Leu Lys Val

1220 1225 1230

Leu Pro Asn Lys Ala Val Ala Arg Ser Lys Lys Gly Glu Ile Lys

1235 1240 1245

Asp Trp Ile Leu Met Asp Glu Asn Tyr Glu Phe Cys Phe Ser Leu

1250 1255 1260

Tyr Lys Asp Ser Leu Ile Leu Ile Gln Thr Lys Asp Met Gln Glu

1265 1270 1275

Pro Glu Phe Val Tyr Tyr Asn Ala Phe Thr Ser Ser Thr Val Ser

1280 1285 1290

Leu Ile Val Ser Lys His Asp Asn Lys Phe Glu Thr Leu Ser Lys

1295 1300 1305

Asn Gln Lys Ile Leu Phe Lys Asn Ala Asn Glu Lys Glu Val Ile

1310 1315 1320

Ala Lys Ser Ile Gly Ile Gln Asn Leu Lys Val Phe Glu Lys Tyr

1325 1330 1335

Ile Val Ser Ala Leu Gly Glu Val Thr Lys Ala Glu Phe Arg Gln

1340 1345 1350

Arg Glu Asp Phe Lys Lys Ser Gly Pro Pro Lys Lys Lys Arg Lys

1355 1360 1365

Val Tyr Pro Tyr Asp Val Pro Asp Tyr Ala

1370 1375

<210> 4

<211> 1205

<212> PRT

<213> 人工序列

<400> 4

Ala Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp

1 5 10 15

Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp

20 25 30

Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp Met

35 40 45

Leu Gly Gly Ser Gly Gly Gly Gly Ser Gly Pro Lys Lys Lys Arg Lys

50 55 60

Val Gly Ser Val Leu Ala Gln Thr Met Val Pro Ser Ser Ala Met Val

65 70 75 80

Pro Leu Ala Gln Pro Pro Ala Pro Ala Pro Val Leu Thr Pro Gly Pro

85 90 95

Pro Gln Ser Leu Ser Ala Pro Val Pro Lys Ser Thr Gln Ala Gly Glu

100 105 110

Gly Thr Leu Ser Glu Ala Leu Leu His Leu Gln Phe Asp Ala Asp Glu

115 120 125

Asp Leu Gly Ala Leu Leu Gly Asn Ser Thr Asp Pro Gly Val Phe Thr

130 135 140

Asp Leu Ala Ser Val Asp Asn Ser Glu Phe Gln Gln Leu Leu Asn Gln

145 150 155 160

Gly Val Ser Met Ser His Ser Thr Ala Glu Pro Met Leu Met Glu Tyr

165 170 175

Pro Glu Ala Ile Thr Arg Leu Val Thr Gly Ser Gln Arg Pro Pro Asp

180 185 190

Pro Ala Pro Thr Pro Leu Gly Thr Ser Gly Leu Pro Asn Gly Leu Ser

195 200 205

Gly Asp Glu Asp Phe Ser Ser Ile Ala Asp Met Asp Phe Ser Ala Leu

210 215 220

Leu Ser Gly Ser Gly Ser Gly Ser Asp Leu Ser His Pro Pro Pro Arg

225 230 235 240

Gly His Leu Asp Glu Leu Thr Thr Thr Leu Glu Ser Met Thr Glu Asp

245 250 255

Leu Asn Leu Asp Ser Pro Leu Thr Pro Glu Leu Asn Glu Ile Leu Asp

260 265 270

Thr Phe Leu Asn Asp Glu Cys Leu Leu His Ala Met His Ile Ser Thr

275 280 285

Gly Leu Ser Ile Phe Asp Thr Ser Leu Phe Gly Ser Asn Gly Pro Gly

290 295 300

Gly Ser Gly Gly Gly Gly Ser Gly Gly Arg Ile Met Ala Arg Ile Leu

305 310 315 320

Ala Phe Ala Ile Gly Ile Ser Ser Ile Gly Trp Ala Phe Ser Glu Asn

325 330 335

Asp Glu Leu Lys Asp Cys Gly Val Arg Ile Phe Thr Lys Val Glu Asn

340 345 350

Pro Lys Thr Gly Glu Ser Leu Ala Leu Pro Arg Arg Leu Ala Arg Ser

355 360 365

Ala Arg Lys Arg Leu Ala Arg Arg Lys Ala Arg Leu Asn His Leu Lys

370 375 380

His Leu Ile Ala Asn Glu Phe Lys Leu Asn Tyr Glu Asp Tyr Gln Ser

385 390 395 400

Phe Asp Glu Ser Leu Ala Lys Ala Tyr Lys Gly Ser Leu Ile Ser Pro

405 410 415

Tyr Glu Leu Arg Phe Arg Ala Leu Asn Glu Leu Leu Ser Lys Gln Asp

420 425 430

Phe Ala Arg Val Ile Leu His Ile Ala Lys Arg Arg Gly Tyr Asp Asp

435 440 445

Ile Lys Asn Ser Asp Asp Lys Glu Lys Gly Ala Ile Leu Lys Ala Ile

450 455 460

Lys Gln Asn Glu Glu Lys Leu Ala Asn Tyr Gln Ser Val Gly Glu Tyr

465 470 475 480

Leu Tyr Lys Glu Tyr Phe Gln Lys Phe Lys Glu Asn Ser Lys Glu Phe

485 490 495

Thr Asn Val Arg Asn Lys Lys Glu Ser Tyr Glu Arg Cys Ile Ala Gln

500 505 510

Ser Phe Leu Lys Asp Glu Leu Lys Leu Ile Phe Lys Lys Gln Arg Glu

515 520 525

Phe Gly Phe Ser Phe Ser Lys Lys Phe Glu Glu Glu Val Leu Ser Val

530 535 540

Ala Phe Tyr Lys Arg Ala Leu Lys Asp Phe Ser His Leu Val Gly Asn

545 550 555 560

Cys Ser Phe Phe Thr Asp Glu Lys Arg Ala Pro Lys Asn Ser Pro Leu

565 570 575

Ala Phe Met Phe Val Ala Leu Thr Arg Ile Ile Asn Leu Leu Asn Asn

580 585 590

Leu Lys Asn Thr Glu Gly Ile Leu Tyr Thr Lys Asp Asp Leu Asn Ala

595 600 605

Leu Leu Asn Glu Val Leu Lys Asn Gly Thr Leu Thr Tyr Lys Gln Thr

610 615 620

Lys Lys Leu Leu Gly Leu Ser Asp Asp Tyr Glu Phe Lys Gly Glu Lys

625 630 635 640

Gly Thr Tyr Phe Ile Glu Phe Lys Lys Tyr Lys Glu Phe Ile Lys Ala

645 650 655

Leu Gly Glu His Asn Leu Ser Gln Asp Asp Leu Asn Glu Ile Ala Lys

660 665 670

Asp Ile Thr Leu Ile Lys Asp Glu Ile Lys Leu Lys Lys Ala Leu Ala

675 680 685

Lys Tyr Asp Leu Asn Gln Asn Gln Ile Asp Ser Leu Ser Lys Leu Glu

690 695 700

Phe Lys Asp His Leu Asn Ile Ser Phe Lys Ala Leu Lys Leu Val Thr

705 710 715 720

Pro Leu Met Leu Glu Gly Lys Lys Tyr Asp Glu Ala Cys Asn Glu Leu

725 730 735

Asn Leu Lys Val Ala Ile Asn Glu Asp Lys Lys Asp Phe Leu Pro Ala

740 745 750

Phe Asn Glu Thr Tyr Tyr Lys Asp Glu Val Thr Asn Pro Val Val Leu

755 760 765

Arg Ala Ile Lys Glu Tyr Arg Lys Val Leu Asn Ala Leu Leu Lys Lys

770 775 780

Tyr Gly Lys Val His Lys Ile Asn Ile Glu Leu Ala Arg Glu Val Gly

785 790 795 800

Lys Asn His Ser Gln Arg Ala Lys Gly Ser Lys Asn Leu Pro Thr Lys

805 810 815

Lys Gln Lys Arg Ile Leu Asp Lys Asn Tyr Lys Asp Lys Glu Gln Lys

820 825 830

Asn Phe Lys Asp Arg Asn Leu Asn Asp Thr Arg Tyr Ile Ala Arg Leu

835 840 845

Val Leu Asn Tyr Thr Lys Asp Tyr Leu Asp Phe Leu Pro Leu Ser Asp

850 855 860

Asp Glu Asn Thr Lys Leu Asn Asp Thr Gln Lys Gly Ser Lys Val His

865 870 875 880

Val Glu Ala Lys Ser Gly Met Leu Thr Ser Ala Leu Arg His Thr Trp

885 890 895

Gly Phe Ser Ala Lys Asp Arg Asn Asn His Leu His His Ala Ile Asp

900 905 910

Ala Val Ile Ile Ala Tyr Ala Asn Asn Ser Ile Val Lys Ala Phe Ser

915 920 925

Asp Phe Lys Lys Glu Gln Glu Ser Asn Ser Ala Glu Leu Tyr Ala Lys

930 935 940

Lys Ile Ser Glu Leu Asp Tyr Lys Asn Lys Arg Lys Phe Phe Glu Pro

945 950 955 960

Phe Ser Gly Phe Arg Gln Lys Val Leu Asp Lys Ile Asp Glu Ile Phe

965 970 975

Val Ser Lys Pro Glu Arg Lys Lys Pro Ser Gly Ala Leu His Glu Glu

980 985 990

Thr Phe Arg Lys Glu Glu Glu Phe Tyr Gln Ser Tyr Gly Gly Lys Glu

995 1000 1005

Gly Val Leu Lys Ala Leu Glu Leu Gly Lys Ile Arg Lys Val Asn

1010 1015 1020

Gly Lys Ile Val Lys Asn Gly Asp Met Phe Arg Val Asp Ile Phe

1025 1030 1035

Lys His Lys Lys Thr Asn Lys Phe Tyr Ala Val Pro Ile Tyr Thr

1040 1045 1050

Met Asp Phe Ala Leu Lys Val Leu Pro Asn Lys Ala Val Ala Arg

1055 1060 1065

Ser Lys Lys Gly Glu Ile Lys Asp Trp Ile Leu Met Asp Glu Asn

1070 1075 1080

Tyr Glu Phe Cys Phe Ser Leu Tyr Lys Asp Ser Leu Ile Leu Ile

1085 1090 1095

Gln Thr Lys Asp Met Gln Glu Pro Glu Phe Val Tyr Tyr Asn Ala

1100 1105 1110

Phe Thr Ser Ser Thr Val Ser Leu Ile Val Ser Lys His Asp Asn

1115 1120 1125

Lys Phe Glu Thr Leu Ser Lys Asn Gln Lys Ile Leu Phe Lys Asn

1130 1135 1140

Ala Asn Glu Lys Glu Val Ile Ala Lys Ser Ile Gly Ile Gln Asn

1145 1150 1155

Leu Lys Val Phe Glu Lys Tyr Ile Val Ser Ala Leu Gly Glu Val

1160 1165 1170

Thr Lys Ala Glu Phe Arg Gln Arg Glu Asp Phe Lys Lys Ser Gly

1175 1180 1185

Pro Pro Lys Lys Lys Arg Lys Val Tyr Pro Tyr Asp Val Pro Asp

1190 1195 1200

Tyr Ala

1205

<210> 5

<211> 4134

<212> DNA

<213> 人工序列

<400> 5

gatgctttag acgattttga cttagatatg cttggttcag acgcgttaga cgacttcgac 60

ctagacatgt taggctcaga tgcattggac gacttcgatt tagatatgtt gggctccgat 120

gccctagatg actttgatct agatatgcta ggaggaagcg gaggaggagg tagcggacct 180

aagaaaaaga ggaaggtggc ggccgctgga tccccttcag ggcagatcag caaccaggcc 240

ctggctctgg cccctagctc cgctccagtg ctggcccaga ctatggtgcc ctctagtgct 300

atggtgcctc tggcccagcc acctgctcca gcccctgtgc tgaccccagg accaccccag 360

tcactgagcg ctccagtgcc caagtctaca caggccggcg aggggactct gagtgaagct 420

ctgctgcacc tgcagttcga cgctgatgag gacctgggag ctctgctggg gaacagcacc 480

gatcccggag tgttcacaga tctggcctcc gtggacaact ctgagtttca gcagctgctg 540

aatcagggcg tgtccatgtc tcatagtaca gccgaaccaa tgctgatgga gtaccccgaa 600

gccattaccc ggctggtgac cggcagccag cggccccccg accccgctcc aactcccctg 660

ggaaccagcg gcctgcctaa tgggctgtcc ggagatgaag acttctcaag catcgctgat 720

atggacttta gtgccctgct gtcacagatt tcctctagtg ggtctggcag cggcagcgac 780

ctttcccatc cgcccccaag gggccatctg gatgagctga caaccacact tgagtccatg 840

accgaggatc tgaacctgga ctcacccctg accccggaat tgaacgagat tctggatacc 900

ttcctgaacg acgagtgcct cttgcatgcc atgcatatca gcacaggact gtccatcttc 960

gacacatctc tgtttagcct gggcagcggc tcccccaaga aaaaacgcaa ggtggaagat 1020

cctaagaaaa agcggaaagt ggacggcatt ggtagtggga gcaacggcag cagcggatcc 1080

aacggtccgg gtggatctgg aggtggaggt tctggaggac gaatcatggc cagaatcctg 1140

gccttcgcta tcggcatcag cagcatcggc tgggccttca gcgagaacga cgagctgaag 1200

gactgcggcg tgcggatctt caccaaggtg gaaaacccca agaccggcga gagcctggcc 1260

ctgcccagaa ggctggccag aagcgcccgg aagagactgg ccagacggaa ggcccggctg 1320

aaccacctga agcacctgat cgccaacgag ttcaagctga actacgagga ctaccagagc 1380

ttcgacgagt ccctggccaa ggcctacaag ggcagcctga tcagccccta cgagctgcgg 1440

ttccgggccc tgaacgagct gctgagcaag caggacttcg ccagagtgat cctgcacatt 1500

gccaagcgga gaggctacga cgacatcaag aacagcgacg acaaagagaa gggcgccatc 1560

ctgaaggcca tcaagcagaa cgaggaaaag ctggccaact accagtccgt gggcgagtac 1620

ctgtacaaag agtacttcca gaagttcaaa gagaacagca aagaattcac caacgtgcgg 1680

aacaagaaag aaagctacga gcggtgtatc gcccagagct tcctgaagga tgagctgaag 1740

ctgatcttca agaagcagag agagttcggc ttcagcttca gcaagaaatt cgaggaagag 1800

gtgctgagcg tcgccttcta caagagagcc ctgaaggact tcagccacct cgtgggcaac 1860

tgcagcttct tcaccgacga gaagagagcc cccaagaaca gccccctggc cttcatgttc 1920

gtggccctga cccggatcat caacctgctg aacaatctga agaacaccga gggcatcctg 1980

tacaccaagg acgacctgaa cgccctgctg aatgaggtgc tgaagaacgg caccctgacc 2040

tacaagcaga ccaagaagct gctgggcctg agcgacgact acgagtttaa gggcgagaag 2100

ggcacctact tcatcgagtt caagaagtac aaagagttca tcaaggccct gggcgagcac 2160

aacctgagcc aggacgatct gaatgagatc gccaaggaca tcaccctgat caaggacgag 2220

attaagctga agaaggccct ggccaaatac gacctgaatc agaaccagat cgacagcctg 2280

agcaagctgg aattcaagga tcacctgaac atcagcttca aggctctgaa gctggtcacc 2340

cccctgatgc tggaaggcaa gaagtacgac gaggcctgca acgagctgaa cctgaaggtg 2400

gccatcaacg aggacaagaa ggacttcctg cccgccttca acgaaaccta ctacaaggac 2460

gaagtgacca accccgtggt gctgcgggcc atcaaagaat accggaaggt gctgaatgcc 2520

ctgctcaaga aatacggcaa ggtgcacaag atcaacatcg agctggcccg ggaagtgggc 2580

aagaaccaca gccagcgggc caagatcgag aaagagcaga acgaaaacta caaggccaag 2640

aaggacgctg agctggaatg cgagaagctg ggactgaaga tcaacagcaa gaacatcctg 2700

aagctgcggc tgttcaaaga acagaaagag ttctgcgcct acagcggcga gaagatcaag 2760

atcagcgatc tgcaggacga gaagatgctg gaaatcgacg ccatctaccc ctacagccgg 2820

tccttcgacg acagctacat gaacaaggtg ctggtgttca ccaaacagaa ccaggaaaaa 2880

ctgaaccaga cccccttcga ggccttcggc aacgacagcg ccaagtggca gaaaatcgag 2940

gtgctggcca agaacctgcc caccaagaaa cagaagagaa tcctggacaa gaattacaag 3000

gacaaagagc agaagaactt caaggaccgg aacctgaacg acacccggta tatcgcccgg 3060

ctggtgctga actacacaaa ggactacctg gatttcctgc ccctgtccga cgacgagaac 3120

accaagctga acgataccca gaaaggctcc aaggtgcacg tggaagccaa gagcggcatg 3180

ctgaccagcg ccctgagaca cacctggggc ttcagcgcca aggatcggaa caaccatctg 3240

caccacgcca tcgacgccgt gatcattgcc tacgccaaca acagcatcgt gaaggccttc 3300

tccgacttca agaaagaaca ggaaagcaac agcgccgagc tgtacgccaa gaagatctct 3360

gagctggact acaagaacaa gcggaagttc ttcgagccct tcagcggctt ccggcagaag 3420

gtgctggata agatcgacga gatcttcgtg tccaagcccg agcggaagaa gccctctggc 3480

gccctgcacg aggaaacctt cagaaaagag gaagagttct accagtccta cggcggcaaa 3540

gaaggcgtgc tgaaggccct cgagctgggc aagatcagaa aagtgaacgg caagatcgtg 3600

aagaacgggg acatgttccg ggtggacatc ttcaagcaca aaaagaccaa caagttctac 3660

gccgtgccca tctacacaat ggacttcgcc ctgaaggtgc tgcccaacaa ggccgtggcc 3720

cggtccaaga agggcgagat caaggactgg attctgatgg acgagaacta cgagttctgc 3780

tttagcctgt acaaggactc cctgatcctg atccagacca aggacatgca ggaacccgag 3840

ttcgtctact acaacgcctt caccagcagc accgtgtccc tgatcgtgtc taagcacgac 3900

aacaagttcg agacactgag caagaaccag aagatcctgt tcaagaacgc caacgagaaa 3960

gaagtgatcg ccaagagcat cggcatccag aatctgaagg tgttcgagaa gtacatcgtg 4020

tccgccctgg gagaagtgac aaaggccgag ttccggcaga gagaggactt caaaaagtcc 4080

ggacctccaa agaaaaagag aaaagtatac ccctacgacg tgcccgacta cgcc 4134

<210> 6

<211> 3795

<212> DNA

<213> 人工序列

<400> 6

gatgctttag acgattttga cttagatatg cttggttcag acgcgttaga cgacttcgac 60

ctagacatgt taggctcaga tgcattggac gacttcgatt tagatatgtt gggctccgat 120

gccctagatg actttgatct agatatgcta ggaggaagcg gaggaggagg tagcggacct 180

aagaaaaaga ggaaggtggc ggccgctgga tccccttcag ggcagatcag caaccaggcc 240

ctggctctgg cccctagctc cgctccagtg ctggcccaga ctatggtgcc ctctagtgct 300

atggtgcctc tggcccagcc acctgctcca gcccctgtgc tgaccccagg accaccccag 360

tcactgagcg ctccagtgcc caagtctaca caggccggcg aggggactct gagtgaagct 420

ctgctgcacc tgcagttcga cgctgatgag gacctgggag ctctgctggg gaacagcacc 480

gatcccggag tgttcacaga tctggcctcc gtggacaact ctgagtttca gcagctgctg 540

aatcagggcg tgtccatgtc tcatagtaca gccgaaccaa tgctgatgga gtaccccgaa 600

gccattaccc ggctggtgac cggcagccag cggccccccg accccgctcc aactcccctg 660

ggaaccagcg gcctgcctaa tgggctgtcc ggagatgaag acttctcaag catcgctgat 720

atggacttta gtgccctgct gtcacagatt tcctctagtg ggtctggcag cggcagcgac 780

ctttcccatc cgcccccaag gggccatctg gatgagctga caaccacact tgagtccatg 840

accgaggatc tgaacctgga ctcacccctg accccggaat tgaacgagat tctggatacc 900

ttcctgaacg acgagtgcct cttgcatgcc atgcatatca gcacaggact gtccatcttc 960

gacacatctc tgtttagcct gggcagcggc tcccccaaga aaaaacgcaa ggtggaagat 1020

cctaagaaaa agcggaaagt ggacggcatt ggtagtggga gcaacggcag cagcggatcc 1080

aacggtccgg gtggatctgg aggtggaggt tctggaggac gaatcatggc cagaatcctg 1140

gccttcgcta tcggcatcag cagcatcggc tgggccttca gcgagaacga cgagctgaag 1200

gactgcggcg tgcggatctt caccaaggtg gaaaacccca agaccggcga gagcctggcc 1260

ctgcccagaa ggctggccag aagcgcccgg aagagactgg ccagacggaa ggcccggctg 1320

aaccacctga agcacctgat cgccaacgag ttcaagctga actacgagga ctaccagagc 1380

ttcgacgagt ccctggccaa ggcctacaag ggcagcctga tcagccccta cgagctgcgg 1440

ttccgggccc tgaacgagct gctgagcaag caggacttcg ccagagtgat cctgcacatt 1500

gccaagcgga gaggctacga cgacatcaag aacagcgacg acaaagagaa gggcgccatc 1560

ctgaaggcca tcaagcagaa cgaggaaaag ctggccaact accagtccgt gggcgagtac 1620

ctgtacaaag agtacttcca gaagttcaaa gagaacagca aagaattcac caacgtgcgg 1680

aacaagaaag aaagctacga gcggtgtatc gcccagagct tcctgaagga tgagctgaag 1740

ctgatcttca agaagcagag agagttcggc ttcagcttca gcaagaaatt cgaggaagag 1800

gtgctgagcg tcgccttcta caagagagcc ctgaaggact tcagccacct cgtgggcaac 1860

tgcagcttct tcaccgacga gaagagagcc cccaagaaca gccccctggc cttcatgttc 1920

gtggccctga cccggatcat caacctgctg aacaatctga agaacaccga gggcatcctg 1980

tacaccaagg acgacctgaa cgccctgctg aatgaggtgc tgaagaacgg caccctgacc 2040

tacaagcaga ccaagaagct gctgggcctg agcgacgact acgagtttaa gggcgagaag 2100

ggcacctact tcatcgagtt caagaagtac aaagagttca tcaaggccct gggcgagcac 2160

aacctgagcc aggacgatct gaatgagatc gccaaggaca tcaccctgat caaggacgag 2220

attaagctga agaaggccct ggccaaatac gacctgaatc agaaccagat cgacagcctg 2280

agcaagctgg aattcaagga tcacctgaac atcagcttca aggctctgaa gctggtcacc 2340

cccctgatgc tggaaggcaa gaagtacgac gaggcctgca acgagctgaa cctgaaggtg 2400

gccatcaacg aggacaagaa ggacttcctg cccgccttca acgaaaccta ctacaaggac 2460

gaagtgacca accccgtggt gctgcgggcc atcaaagaat accggaaggt gctgaatgcc 2520

ctgctcaaga aatacggcaa ggtgcacaag atcaacatcg agctggcccg ggaagtgggc 2580

aagaaccaca gccagcgggc caagggaagc aagaacctgc ccaccaagaa acagaagaga 2640

atcctggaca agaattacaa ggacaaagag cagaagaact tcaaggaccg gaacctgaac 2700

gacacccggt atatcgcccg gctggtgctg aactacacaa aggactacct ggatttcctg 2760

cccctgtccg acgacgagaa caccaagctg aacgataccc agaaaggctc caaggtgcac 2820

gtggaagcca agagcggcat gctgaccagc gccctgagac acacctgggg cttcagcgcc 2880

aaggatcgga acaaccatct gcaccacgcc atcgacgccg tgatcattgc ctacgccaac 2940

aacagcatcg tgaaggcctt ctccgacttc aagaaagaac aggaaagcaa cagcgccgag 3000

ctgtacgcca agaagatctc tgagctggac tacaagaaca agcggaagtt cttcgagccc 3060

ttcagcggct tccggcagaa ggtgctggat aagatcgacg agatcttcgt gtccaagccc 3120

gagcggaaga agccctctgg cgccctgcac gaggaaacct tcagaaaaga ggaagagttc 3180

taccagtcct acggcggcaa agaaggcgtg ctgaaggccc tcgagctggg caagatcaga 3240

aaagtgaacg gcaagatcgt gaagaacggg gacatgttcc gggtggacat cttcaagcac 3300

aaaaagacca acaagttcta cgccgtgccc atctacacca tggacttcgc cctgaaggtg 3360

ctgcccaaca aggccgtggc ccggtccaag aagggcgaga tcaaggactg gattctgatg 3420

gacgagaact acgagttctg ctttagcctg tacaaggact ccctgatcct gatccagacc 3480

aaggacatgc aggaacccga gttcgtctac tacaacgcct tcaccagcag caccgtgtcc 3540

ctgatcgtgt ctaagcacga caacaagttc gagacactga gcaagaacca gaagatcctg 3600

ttcaagaacg ccaacgagaa agaagtgatc gccaagagca tcggcatcca gaatctgaag 3660

gtgttcgaga agtacatcgt gtccgccctg ggagaagtga caaaggccga gttccggcag 3720

agagaggact tcaaaaagtc cggacctcca aagaaaaaga gaaaagtata cccctacgac 3780

gtgcccgact acgcc 3795

<210> 7

<211> 4134

<212> DNA

<213> 人工序列

<400> 7

gatgctttag acgattttga cttagatatg cttggttcag acgcgttaga cgacttcgac 60

ctagacatgt taggctcaga tgcattggac gacttcgatt tagatatgtt gggctccgat 120

gccctagatg actttgatct agatatgcta ggaggaagcg gaggaggagg tagcggacct 180

aagaaaaaga ggaaggtggc ggccgctgga tccccttcag ggcagatcag caaccaggcc 240

ctggctctgg cccctagctc cgctccagtg ctggcccaga ctatggtgcc ctctagtgct 300

atggtgcctc tggcccagcc acctgctcca gcccctgtgc tgaccccagg accaccccag 360

tcactgagcg ctccagtgcc caagtctaca caggccggcg aggggactct gagtgaagct 420

ctgctgcacc tgcagttcga cgctgatgag gacctgggag ctctgctggg gaacagcacc 480

gatcccggag tgttcacaga tctggcctcc gtggacaact ctgagtttca gcagctgctg 540

aatcagggcg tgtccatgtc tcatagtaca gccgaaccaa tgctgatgga gtaccccgaa 600

gccattaccc ggctggtgac cggcagccag cggccccccg accccgctcc aactcccctg 660

ggaaccagcg gcctgcctaa tgggctgtcc ggagatgaag acttctcaag catcgctgat 720

atggacttta gtgccctgct gtcacagatt tcctctagtg ggtctggcag cggcagcgac 780

ctttcccatc cgcccccaag gggccatctg gatgagctga caaccacact tgagtccatg 840

accgaggatc tgaacctgga ctcacccctg accccggaat tgaacgagat tctggatacc 900

ttcctgaacg acgagtgcct cttgcatgcc atgcatatca gcacaggact gtccatcttc 960

gacacatctc tgtttagcct gggcagcggc tcccccaaga aaaaacgcaa ggtggaagat 1020

cctaagaaaa agcggaaagt ggacggcatt ggtagtggga gcaacggcag cagcggatcc 1080

aacggtccgg gtggatctgg aggtggaggt tctggaggac gaaccatggc cagaatcctg 1140

gccttcgaca tcggcatcag cagcatcggc tgggccttca gcgagaacga cgagctgaag 1200

gactgcggcg tgcggatctt caccaaggtg gaaaacccca agaccggcga gagcctggcc 1260

ctgcccagaa ggctggccag aagcgcccgg aagagactgg ccagacggaa ggcccggctg 1320

aaccacctga agcacctgat cgccaacgag ttcaagctga actacgagga ctaccagagc 1380

ttcgacgagt ccctggccaa ggcctacaag ggcagcctga tcagccccta cgagctgcgg 1440

ttccgggccc tgaacgagct gctgagcaag caggacttcg ccagagtgat cctgcacatt 1500

gccaagcgga gaggctacga cgacatcaag aacagcgacg acaaagagaa gggcgccatc 1560

ctgaaggcca tcaagcagaa cgaggaaaag ctggccaact accagtccgt gggcgagtac 1620

ctgtacaaag agtacttcca gaagttcaaa gagaacagca aagaattcac caacgtgcgg 1680

aacaagaaag aaagctacga gcggtgtatc gcccagagct tcctgaagga tgagctgaag 1740

ctgatcttca agaagcagag agagttcggc ttcagcttca gcaagaaatt cgaggaagag 1800

gtgctgagcg tcgccttcta caagagagcc ctgaaggact tcagccacct cgtgggcaac 1860

tgcagcttct tcaccgacga gaagagagcc cccaagaaca gccccctggc cttcatgttc 1920

gtggccctga cccggatcat caacctgctg aacaatctga agaacaccga gggcatcctg 1980

tacaccaagg acgacctgaa cgccctgctg aatgaggtgc tgaagaacgg caccctgacc 2040

tacaagcaga ccaagaagct gctgggcctg agcgacgact acgagtttaa gggcgagaag 2100

ggcacctact tcatcgagtt caagaagtac aaagagttca tcaaggccct gggcgagcac 2160

aacctgagcc aggacgatct gaatgagatc gccaaggaca tcaccctgat caaggacgag 2220

attaagctga agaaggccct ggccaaatac gacctgaatc agaaccagat cgacagcctg 2280

agcaagctgg aattcaagga tcacctgaac atcagcttca aggctctgaa gctggtcacc 2340

cccctgatgc tggaaggcaa gaagtacgac gaggcctgca acgagctgaa cctgaaggtg 2400

gccatcaacg aggacaagaa ggacttcctg cccgccttca acgaaaccta ctacaaggac 2460

gaagtgacca accccgtggt gctgcgggcc atcaaagaat accggaaggt gctgaatgcc 2520

ctgctcaaga aatacggcaa ggtgcacaag atcaacatcg agctggcccg ggaagtgggc 2580

aagaaccaca gccagcgggc caagatcgag aaagagcaga acgaaaacta caaggccaag 2640

aaggacgctg agctggaatg cgagaagctg ggactgaaga tcaacagcaa gaacatcctg 2700

aagctgcggc tgttcaaaga acagaaagag ttctgcgcct acagcggcga gaagatcaag 2760

atcagcgatc tgcaggacga gaagatgctg gaaatcgacc acatctaccc ctacagccgg 2820

tccttcgacg acagctacat gaacaaggtg ctggtgttca ccaaacagaa ccaggaaaaa 2880

ctgaaccaga cccccttcga ggccttcggc aacgacagcg ccaagtggca gaaaatcgag 2940

gtgctggcca agaacctgcc caccaagaaa cagaagagaa tcctggacaa gaattacaag 3000

gacaaagagc agaagaactt caaggaccgg aacctgaacg acacccggta tatcgcccgg 3060

ctggtgctga actacacaaa ggactacctg gatttcctgc ccctgtccga cgacgagaac 3120

accaagctga acgataccca gaaaggctcc aaggtgcacg tggaagccaa gagcggcatg 3180

ctgaccagcg ccctgagaca cacctggggc ttcagcgcca aggatcggaa caaccatctg 3240

caccacgcca tcgacgccgt gatcattgcc tacgccaaca acagcatcgt gaaggccttc 3300

tccgacttca agaaagaaca ggaaagcaac agcgccgagc tgtacgccaa gaagatctct 3360

gagctggact acaagaacaa gcggaagttc ttcgagccct tcagcggctt ccggcagaag 3420

gtgctggata agatcgacga gatcttcgtg tccaagcccg agcggaagaa gccctctggc 3480

gccctgcacg aggaaacctt cagaaaagag gaagagttct accagtccta cggcggcaaa 3540

gaaggcgtgc tgaaggccct cgagctgggc aagatcagaa aagtgaacgg caagatcgtg 3600

aagaacgggg acatgttccg ggtggacatc ttcaagcaca aaaagaccaa caagttctac 3660

gccgtgccca tctacaccat ggacttcgcc ctgaaggtgc tgcccaacaa ggccgtggcc 3720

cggtccaaga agggcgagat caaggactgg attctgatgg acgagaacta cgagttctgc 3780

tttagcctgt acaaggactc cctgatcctg atccagacca aggacatgca ggaacccgag 3840

ttcgtctact acaacgcctt caccagcagc accgtgtccc tgatcgtgtc taagcacgac 3900

aacaagttcg agacactgag caagaaccag aagatcctgt tcaagaacgc caacgagaaa 3960

gaagtgatcg ccaagagcat cggcatccag aatctgaagg tgttcgagaa gtacatcgtg 4020

tccgccctgg gagaagtgac aaaggccgag ttccggcaga gagaggactt caaaaagtcc 4080

ggacctccaa agaaaaagag aaaagtatac ccctacgacg tgcccgacta cgcc 4134

<210> 8

<211> 3615

<212> DNA

<213> 人工序列

<400> 8

gcattggacg attttgatct ggatatgctg ggaagtgacg ccctcgatga ttttgacctt 60

gacatgcttg gtagtgatgc ccttgatgac tttgacctcg acatgctcgg cagtgacgcc 120

cttgatgatt tcgacctgga catgctggga ggaagcggag gaggaggtag cggacctaag 180

aaaaagagga aggtgggatc cgtgctggcc cagactatgg tgccctctag tgctatggtg 240

cctctggccc agccacctgc tccagcccct gtgctgaccc caggaccacc ccagtcactg 300

agcgctccag tgcccaagtc tacacaggcc ggcgagggga ctctgagtga agctctgctg 360

cacctgcagt tcgacgctga tgaggacctg ggagctctgc tggggaacag caccgatccc 420

ggagtgttca cagatctggc ctccgtggac aactctgagt ttcagcagct gctgaatcag 480

ggcgtgtcca tgtctcatag tacagccgaa ccaatgctga tggagtaccc cgaagccatt 540

acccggctgg tgaccggcag ccagcggccc cccgaccccg ctccaactcc cctgggaacc 600

agcggcctgc ctaatgggct gtccggagat gaagacttct caagcatcgc tgatatggac 660

tttagtgccc tgctgagtgg gtctggcagc ggcagcgacc tttcccatcc gcccccaagg 720

ggccatctgg atgagctgac aaccacactt gagtccatga ccgaggatct gaacctggac 780

tcacccctga ccccggaatt gaacgagatt ctggatacct tcctgaacga cgagtgcctc 840

ttgcatgcca tgcatatcag cacaggactg tccatcttcg acacatctct gtttggatcc 900

aacggtccgg gtggatctgg aggtggaggt tctggaggac gaatcatggc cagaatcctg 960

gccttcgcta tcggcatcag cagcatcggc tgggccttca gcgagaacga cgagctgaag 1020

gactgcggcg tgcggatctt caccaaggtg gaaaacccca agaccggcga gagcctggcc 1080

ctgcccagaa ggctggccag aagcgcccgg aagagactgg ccagacggaa ggcccggctg 1140

aaccacctga agcacctgat cgccaacgag ttcaagctga actacgagga ctaccagagc 1200

ttcgacgagt ccctggccaa ggcctacaag ggcagcctga tcagccccta cgagctgcgg 1260

ttccgggccc tgaacgagct gctgagcaag caggacttcg ccagagtgat cctgcacatt 1320

gccaagcgga gaggctacga cgacatcaag aacagcgacg acaaagagaa gggcgccatc 1380

ctgaaggcca tcaagcagaa cgaggaaaag ctggccaact accagtccgt gggcgagtac 1440

ctgtacaaag agtacttcca gaagttcaaa gagaacagca aagaattcac caacgtgcgg 1500

aacaagaaag aaagctacga gcggtgtatc gcccagagct tcctgaagga tgagctgaag 1560

ctgatcttca agaagcagag agagttcggc ttcagcttca gcaagaaatt cgaggaagag 1620

gtgctgagcg tcgccttcta caagagagcc ctgaaggact tcagccacct cgtgggcaac 1680

tgcagcttct tcaccgacga gaagagagcc cccaagaaca gccccctggc cttcatgttc 1740

gtggccctga cccggatcat caacctgctg aacaatctga agaacaccga gggcatcctg 1800

tacaccaagg acgacctgaa cgccctgctg aatgaggtgc tgaagaacgg caccctgacc 1860

tacaagcaga ccaagaagct gctgggcctg agcgacgact acgagtttaa gggcgagaag 1920

ggcacctact tcatcgagtt caagaagtac aaagagttca tcaaggccct gggcgagcac 1980

aacctgagcc aggacgatct gaatgagatc gccaaggaca tcaccctgat caaggacgag 2040

attaagctga agaaggccct ggccaaatac gacctgaatc agaaccagat cgacagcctg 2100

agcaagctgg aattcaagga tcacctgaac atcagcttca aggctctgaa gctggtcacc 2160

cccctgatgc tggaaggcaa gaagtacgac gaggcctgca acgagctgaa cctgaaggtg 2220

gccatcaacg aggacaagaa ggacttcctg cccgccttca acgaaaccta ctacaaggac 2280

gaagtgacca accccgtggt gctgcgggcc atcaaagaat accggaaggt gctgaatgcc 2340

ctgctcaaga aatacggcaa ggtgcacaag atcaacatcg agctggcccg ggaagtgggc 2400

aagaaccaca gccagcgggc caagggaagc aagaacctgc ccaccaagaa acagaagaga 2460

atcctggaca agaattacaa ggacaaagag cagaagaact tcaaggaccg gaacctgaac 2520

gacacccggt atatcgcccg gctggtgctg aactacacaa aggactacct ggatttcctg 2580

cccctgtccg acgacgagaa caccaagctg aacgataccc agaaaggctc caaggtgcac 2640

gtggaagcca agagcggcat gctgaccagc gccctgagac acacctgggg cttcagcgcc 2700

aaggatcgga acaaccatct gcaccacgcc atcgacgccg tgatcattgc ctacgccaac 2760

aacagcatcg tgaaggcctt ctccgacttc aagaaagaac aggaaagcaa cagcgccgag 2820

ctgtacgcca agaagatctc tgagctggac tacaagaaca agcggaagtt cttcgagccc 2880

ttcagcggct tccggcagaa ggtgctggat aagatcgacg agatcttcgt gtccaagccc 2940

gagcggaaga agccctctgg cgccctgcac gaggaaacct tcagaaaaga ggaagagttc 3000

taccagtcct acggcggcaa agaaggcgtg ctgaaggccc tcgagctggg caagatcaga 3060

aaagtgaacg gcaagatcgt gaagaacggg gacatgttcc gggtggacat cttcaagcac 3120

aaaaagacca acaagttcta cgccgtgccc atctacacaa tggacttcgc cctgaaggtg 3180

ctgcccaaca aggccgtggc ccggtccaag aagggcgaga tcaaggactg gattctgatg 3240

gacgagaact acgagttctg ctttagcctg tacaaggact ccctgatcct gatccagacc 3300

aaggacatgc aggaacccga gttcgtctac tacaacgcct tcaccagcag caccgtgtcc 3360

ctgatcgtgt ctaagcacga caacaagttc gagacactga gcaagaacca gaagatcctg 3420

ttcaagaacg ccaacgagaa agaagtgatc gccaagagca tcggcatcca gaatctgaag 3480

gtgttcgaga agtacatcgt gtccgccctg ggagaagtga caaaggccga gttccggcag 3540

agagaggact tcaaaaagtc cggacctcca aagaaaaaga gaaaagtata cccctacgac 3600

gtgcccgact acgcc 3615

<210> 9

<211> 80

<212> DNA

<213> 人工序列

<400> 9

gttttagtcc ctgaaaaggg actaaaataa agagtttgcg ggactctgcg gggttacaat 60

cccctaaaac cgcttttttt 80

<210> 10

<211> 80

<212> DNA

<213> 人工序列

<400> 10

gtttaagtcc ctgaaaaggg acttaaataa agagtttgcg ggactctgcg gggttacaat 60

cccctaaaac cgcttttttt 80

<210> 11

<211> 40

<212> DNA

<213> 人工序列

<400> 11

gtattagtca tcgctattac catggtgatg cggttttggc 40

<210> 12

<211> 43

<212> DNA

<213> 人工序列

<400> 12

agcgaaggcc aggattctgg ccatgattcg gatcccaagc ttg 43

<210> 13

<211> 40

<212> DNA

<213> 人工序列

<400> 13

gccagaatcc tggccttcgc tatcggcatc agcagcatcg 40

<210> 14

<211> 42

<212> DNA

<213> 人工序列

<400> 14

accggctgta ggggtagatg gcgtcgattt ccagcatctt ct 42

<210> 15

<211> 40

<212> DNA

<213> 人工序列

<400> 15

aagatgctgg aaatcgacgc catctacccc tacagccggt 40

<210> 16

<211> 44

<212> DNA

<213> 人工序列

<400> 16

agcaccttca gggcgaagtc cattgtgtag atgggcacgg cgta 44

<210> 17

<211> 45

<212> DNA

<213> 人工序列

<400> 17

ctcactatag ggcgaattgg gtaccgatgc tttagacgat tttga 45

<210> 18

<211> 40

<212> DNA

<213> 人工序列

<400> 18

cctcctcctc cgcttcctcc tagcatatct agatcaaagt 40

<210> 19

<211> 40

<212> DNA

<213> 人工序列

<400> 19

actttgatct agatatgcta ggaggaagcg gaggaggagg 40

<210> 20

<211> 39

<212> DNA

<213> 人工序列

<400> 20

aggtcgctgc cgctgccaga cccactagag gaaatctgt 39

<210> 21

<211> 39

<212> DNA

<213> 人工序列

<400> 21

acagatttcc tctagtgggt ctggcagcgg cagcgacct 39

<210> 22

<211> 39

<212> DNA

<213> 人工序列

<400> 22

cggtggcggc cgctctagaa aacagagatg tgtcgaaga 39

<210> 23

<211> 49

<212> DNA

<213> 人工序列

<400> 23

atagggagac ccaagcttgg gccaccatgg atgctttaga cgattttga 49

<210> 24

<211> 40

<212> DNA

<213> 人工序列

<400> 24

ggggagccgc tgcccaggct aaacagagat gtgtcgaaga 40

<210> 25

<211> 39

<212> DNA

<213> 人工序列

<400> 25

tcttcgacac atctctgttt agcctgggca gcggctccc 39

<210> 26

<211> 40

<212> DNA

<213> 人工序列

<400> 26

aggattctgg ccatgattcg tcctccagaa cctccacctc 40

<210> 27

<211> 40

<212> DNA

<213> 人工序列

<400> 27

cagtccgtgg gcgagtacct gtacaaagag tacttccaga 40

<210> 28

<211> 37

<212> DNA

<213> 人工序列

<400> 28

tcttggtggg caggttcttg gcccgctggc tgtggtt 37

<210> 29

<211> 38

<212> DNA

<213> 人工序列

<400> 29

accacagcca gcgggccaag aacctgccca ccaagaaa 38

<210> 30

<211> 39

<212> DNA

<213> 人工序列

<400> 30

atcaggatca gggagtcctt gtacaggcta aagcagaac 39

<210> 31

<211> 40

<212> DNA

<213> 人工序列

<400> 31

actcactata gggagaccca agcttgggcc accatggatg 40

<210> 32

<211> 39

<212> DNA

<213> 人工序列

<400> 32

aggattctgg ccatggttcg tcctccagaa cctccacct 39

<210> 33

<211> 37

<212> DNA

<213> 人工序列

<400> 33

gggtttgccg ccagaacaca gaagcttggg ccaccat 37

<210> 34

<211> 40

<212> DNA

<213> 人工序列

<400> 34

accatagtct gggccagcac ggatcccacc ttcctctttt 40

<210> 35

<211> 40

<212> DNA

<213> 人工序列

<400> 35

aaaagaggaa ggtgggatcc gtgctggccc agactatggt 40

<210> 36

<211> 42

<212> DNA

<213> 人工序列

<400> 36

gatccacccg gaccgttgga tccaaacaga gatgtgtcga ag 42

<210> 37

<211> 76

<212> DNA

<213> 人工序列

<400> 37

aggatagaat tcgatgtcga aaaaaaagcg gttttagggg attgtaaccc cgcagagtcc 60

cgcaaactct ttattt 76

<210> 38

<211> 76

<212> DNA

<213> 人工序列

<400> 38

gacgaaacac cgggagacgg gatcccgtct ccgtttaagt ccctgaaaag ggacttaaat 60

aaagagtttg cgggac 76

<210> 39

<211> 26

<212> DNA

<213> 人工序列

<400> 39

aaacggcata ggtccaggat ttttga 26

<210> 40

<211> 26

<212> DNA

<213> 人工序列

<400> 40

accgtcaaaa atcctggacc tatgcc 26

<210> 41

<211> 26

<212> DNA

<213> 人工序列

<400> 41

aaacacatgc atgagctggc ggcagt 26

<210> 42

<211> 26

<212> DNA

<213> 人工序列

<400> 42

accgactgcc gccagctcat gcatgt 26

<210> 43

<211> 19

<212> DNA

<213> 人工序列

<400> 43

aaacacatgc atgagctgg 19

<210> 44

<211> 19

<212> DNA

<213> 人工序列

<400> 44

accgccagct catgcatgt 19

<210> 45

<211> 20

<212> DNA

<213> 人工序列

<400> 45

tagcctttgc cttgttccga 20

<210> 46

<211> 24

<212> DNA

<213> 人工序列

<400> 46

acacgcacat cttatgtctt agag 24

<210> 47

<211> 21

<212> DNA

<213> 人工序列

<400> 47

gctgagtgaa ctgcactgtg a 21

<210> 48

<211> 20

<212> DNA

<213> 人工序列

<400> 48

gaattctttg ccgaaatgga 20

<210> 49

<211> 20

<212> DNA

<213> 人工序列

<400> 49

ggaatccatg gagggaagat 20

<210> 50

<211> 20

<212> DNA

<213> 人工序列

<400> 50

tgttctcgct caggtcagtg 20

<210> 51

<211> 20

<212> DNA

<213> 人工序列

<400> 51

agaaggctgg ggctcatttg 20

<210> 52

<211> 20

<212> DNA

<213> 人工序列

<400> 52

aggggccatc cacagtcttc 20

Claims

1.一种融合蛋白，其特征在于，包括两个异源多肽结构域，其中一个多肽结构域包含具有转录激活活性的VPR蛋白，所述VPR蛋白由三种转录激活因子vp64、p65、rta的核心结构域组成；另一种多肽结构域包含CjCas9蛋白，所述CjCas9蛋白为dCjCas9亚型、mini-dCjCas9亚型或CjCas9野生型，所述dCjCas9亚型中含有D8A和H559A单位点氨基酸突变；所述mini-dCjCas9亚型包含D8A单位点氨基酸突变以及大部分HNH结构域的缺失；

所述VPR与dCjCas9亚型的融合蛋白，其氨基酸序列如SEQ ID NO：1所示，其核苷酸序列如SEQ ID NO：5所示；所述VPR与mini-dCjCas9亚型的融合蛋白，其氨基酸序列如SEQ IDNO：2所示，其核苷酸序列如SEQ ID NO：6所示；所述VPR与CjCas9野生型的融合蛋白，其氨基酸序列如SEQ ID NO：3所示，其核苷酸序列如SEQ ID NO：7所示。

2.根据权利要求1所述的融合蛋白，其特征在于，所述VPR与mini-dCjCas9亚型的融合蛋白，将转录因子VPR中的vp64进行密码子优化，VPR整体缩小27个氨基酸序列，VPR与minidCjCas9之间的linker缩小33个氨基酸，其氨基酸序列如SEQ ID NO：4所示，其核苷酸序列如SEQ ID NO：8所示。

3.一种表达载体，其特征在于，该表达载体包含用于表达权利要求1-2任一所述融合蛋白的基因。

4.根据权利要求3所述的表达载体，其特征在于，所述表达载体的启动子为CMV，入核信号为SV40 NLS，VPR蛋白和CjCas9蛋白之间插入一段连接序列linker，序列如SEQ ID NO：1中加粗字体所示。

5.一种DNA靶向激活系统，其特征在于，包括权利要求1-2任一所述的融合蛋白和至少一种向导RNA，所述向导RNA包含针对目的基因启动子区域设计的一段长度为14bp-22bp的序列和一段80bp的骨架序列；

所述CjCas9的向导RNA骨架序列包含两种，一种是已知的骨架序列WT向导RNA骨架，其核苷酸序列如SEQ ID NO：9所示；另一种是含有T5A和A24T单位点碱基突变的F向导RNA骨架，其核苷酸序列如SEQ ID NO：10所示。

6.根据权利要求5所述的DNA靶向激活系统，其特征在于，所述CjCas9的向导RNA骨架序列是含有T5A和A24T单位点碱基突变的F向导RNA骨架。

7.权利要求5-6任一所述的DNA靶向激活系统在进行基因的靶向激活中的应用。

8.根据权利要求7所述的应用，其特征在于，所述靶向基因为活体动物基因。