CN115161305B

CN115161305B - 一种包括双碱基编辑器的融合蛋白及其制备方法和应用

Info

Publication number: CN115161305B
Application number: CN202110361630.1A
Authority: CN
Inventors: 陶皖豫; 刘清; 黄行许
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2023-05-12
Anticipated expiration: 2041-04-02
Also published as: CN115161305A

Abstract

本发明公开了一种包括双碱基编辑器的融合蛋白及其制备方法和应用。所述融合蛋白自5’端至3’端依次包括hA3A(Y130F)片段、TadA8e(V106W)片段以及SpRY(D10A)片段；所述hA3A(Y130F)片段的氨基酸序列如SEQ IDNO:1所示，所述TadA8e(V106W)片段的氨基酸序列如SEQ ID NO:3所示，所述SpRY(D10A)片段的氨基酸序列如SEQ ID NO:5所示。本发明的融合蛋白(CABE‑RY)可以靶向全基因组，拓宽了基因编辑范围；可实现A和C的同时突变，可应用于MNVs的模拟；能模拟70种氨基酸替换，其中包括6种独特的氨基酸转换形式，该转换形式无法通过单碱基编辑器来实现。

Description

一种包括双碱基编辑器的融合蛋白及其制备方法和应用

技术领域

本发明属于基因编辑领域，具体涉及一种包括双碱基编辑器的融合蛋白及其制备方法和应用。

背景技术

测序技术的快速发展极大的提升了我们对于人类基因层面的理解。作为人类基因差异的一种，多核苷酸变异(multi-nucleotide variants,MNVs)在诊断发育障碍疾病中(DDD)存在着大量富集，有着广泛的生物学和临床意义(Kaplanis,J.et al.Exome-wideassessment of the functional impact and pathogenicity of multinucleotidemutations.Genome Res 29,1047-1056,doi:10.1101/gr.239756.118(2019).)。多核苷酸变异是指在个体同一单元型(Haplotype)上存在两个或多个相邻的变体，他是遗传变异的重要类别之一(Lek,M.et al.Analysis of protein-coding genetic variation in 60,706humans.Nature 536,285-291,doi:10.1038/nature19057(2016).)。但在测序分析中，多数的变体调用器会错误地将MNVs定义为单核苷酸变异(single-nucleotide variants,SNVs),这阻碍了对于遗传性疾病的准确研究(McKenna,A.et al.The Genome AnalysisToolkit:a MapReduce framework for analyzing next-generation DNA sequencingdata.Genome Res 20,1297-1303,doi:10.1101/gr.107524.110(2010).Li,H.et al.TheSequence Alignment/Map format and SAMtools.Bioinformatics 25,2078-2079,doi:10.1093/bioinformatics/btp352(2009).)。另外，已有报道发现在gnomAD数据库中，CA-to-TG的替换是最频繁的，但目前针对该类型的突变造模还未存在。因此，对于MNVs的合理分析以及在不同模型上对MNVs进行造模是目前有待解决的问题。

近年来兴起的CRISPR/Cas9系统能利用sgRNA(single guide RNA)将核酸内切酶Cas9蛋白精准地定位到靶位点，该系统是目前研究最深入、表征最全面和应用最广泛的基因编辑系统。基于其强大的靶向能力，David Liu团队报道使用RuvC结构域失活的Cas9-D10A nickase(nCas9)融合脱氨酶的方法可以实现对基因组单碱基进行点突变(C-to-T或A-to-G)，且不造成双链断裂(double strand break,DSB)(Komor,A.C.,Kim,Y.B.,Packer,M.S.,Zuris,J.A.&Liu,D.R.Programmable editing of a target base in genomic DNAwithout double-stranded DNAcleavage.Nature 533,420-424,doi:10.1038/nature17946(2016).Gaudelli,N.M.Programmable base editing of A*T to G*C ingenomic DNA without DNA cleavage.Nature 551(2017).)。碱基编辑器包括胞嘧啶碱基编辑器(Cytosine Base Editor，CBE)和腺嘌呤碱基编辑器(Adenine Base Editor，ABE)两种。这两种碱基编辑器可以有效地进行四个碱基转换突变(C-to-T，G-to-A，A-to-G和T-to-C)。近年来，该领域出现了一类双碱基编辑器(Xie,J.et al.ACBE,a new base editor forsimultaneous C-to-T and A-to-G substitutions in mammalian systems.BMC Biol18,131,doi:10.1186/s12915-020-00866-5(2020).Zhang,X.et al.Dual base editorcatalyzes both cytosine and adenine base conversions in human cells.NatBiotechnol 38,856-860,doi:10.1038/s41587-020-0527-y(2020).Sakata,R.C.etal.Base editors for simultaneous introduction of C-to-T and A-to-Gmutations.Nat Biotechnol 38,865-869,doi:10.1038/s41587-020-0509-0(2020).)，它将两种脱氨酶放于Cas9载体上，能同时进行C-to-T和A-to-G的编辑，在模拟临床SNP突变上给予了更多选择。然而，不同的双碱基编辑器结构不一，并且还可以进一步改良和优化，以提高其编辑的普遍性和高效性。目前双碱基编辑器的碱基编辑效率较低，且受不同PAM的限制，脱靶现象发生频繁，所以急需一种高效的双碱基编辑器。

发明内容

本发明所要解决的问题是为了克服现有技术中缺乏高效的、且无PAM限制的双碱基编辑器，从而提供一种融合蛋白及其应用。

近年以来，本领域Cas9的突变体研究方兴未艾，其中SpCas9的突变体SpRY克服了PAM的限制，能广泛编辑基因组内想要编辑的位点，有效提高了sgRNA靶向的范围(Walton,R.T.,Christie,K.A.,Whittaker,M.N.&Kleinstiver,B.P.Unconstrained genometargeting with near-PAMless engineered CRISPR-Cas9 variants.Science 368,290-296,doi:10.1126/science.aba8853(2020).)。另外，ABE8e的出现极大提高了碱基编辑器A-to-G的编辑效率(Richter,M.F.et al.Phage-assisted evolution of an adeninebase editor with improved Cas domain compatibility and activity.NatureBiotechnology,doi:10.1038/s41587-020-0453-z(2020))。发明人将上述两种单碱基编辑器构建到本发明的融合蛋白中，意外地发现本发明的融合蛋白(CABE-RY)可以靶向全基因组，拓宽了基因编辑范围；可实现A和C的同时突变，具有广泛的应用价值，包括但不限于MNVs的模拟；能模拟70种氨基酸替换，其中包括6种独特的氨基酸转换形式，该转换形式是无法通过单碱基编辑器来实现。

本发明第一方面提供一种融合蛋白，其自5’端至3’端依次包括hA3A(Y130F)片段、TadA8e(V106W)片段以及SpRY(D10A)片段；所述hA3A(Y130F)片段的氨基酸序列如SEQ IDNO:1所示，所述TadA8e(V106W)片段的氨基酸序列如SEQ ID NO:3所示，所述SpRY(D10A)片段的氨基酸序列如SEQ ID NO:5所示。

所述融合蛋白较佳地还包括UGI片段，和/或核定位信号片段。

优选地，所述UGI片段位于所述SpRY(D10A)片段的3’端，所述核定位信号片段位于所述融合蛋白的5’端和/或3’端。

更优选地，所述核定位信号片段包括两个拷贝，每个拷贝的氨基酸序列如SEQ IDNO:7和/或SEQ ID NO:9所示；所述UGI片段包括两个拷贝，每个拷贝的氨基酸序列如SEQ IDNO:11所示。

所述融合蛋白的氨基酸序列较佳地如SEQ ID NO:14所示。

本发明第二方面提供一种核酸构建体，其包含编码如本发明第一方面所述的融合蛋白的多核苷酸。

优选地，编码所述hA3A(Y130F)片段的核苷酸序列如SEQ ID NO:2所示；

编码所述TadA8e(V106W)片段的核苷酸序列如SEQ ID NO:4所示；

编码所述SpRY(D10A)片段的核苷酸序列如SEQ ID NO:6所示；

编码所述核定位信号片段的核苷酸序列如SEQ ID NO:8和/或SEQ ID NO:10所示；

编码所述UGI片段的核苷酸序列如SEQ ID NO:12和/或SEQ ID NO:13所示。

更优选地，编码所述融合蛋白的多核苷酸序列如SEQ ID NO:15所示。

本发明第三方面提供一种重组表达载体，所述重组表达载体含有如本发明第二方面所述的核酸构建体。

优选地，所述重组表达载体的骨架为pCMV。

本发明第四方面提供一种表达系统，所述表达系统含有如本发明第三方面所述的重组表达载体或其基因组中整合有外源的如本发明第二方面所述的核酸构建体；

较佳地，所述表达系统的出发宿主选自真核细胞或原核细胞。

更佳地，所述出发宿主选自小鼠细胞、人细胞。

进一步更佳地，所述出发宿主选自小鼠脑神经瘤细胞或人胚胎肾细胞；例如N2a细胞或HEK293T细胞。

N2a为本领域常规使用的宿主细胞。

本发明第五方面提供一种如本发明第一方面所述的融合蛋白、如本发明第二方面所述的核酸构建体、如本发明第三方面所述的重组表达载体或如本发明第四方面所述的表达系统在制备基因编辑试剂的药物中的应用；优选地，所述药物为治疗遗传性疾病的药物。

本发明第六方面提供一种碱基编辑体系，其包括如本发明第一方面所述的融合蛋白。

优选地，所述碱基编辑体系还包括sgRNA。

更优选地，所述sgRNA的序列如SEQ ID NO:16～SEQ ID NO:63所示。

本发明第七方面提供一种非治疗目的的基因编辑方法，通过如本发明第一方面所述的融合蛋白或如本发明第六方面所述的碱基编辑体系进行基因编辑。

本发明第八方面提供如本发明第一方面所述的融合蛋白的制备方法，其包括以下步骤：

(1)在骨架质粒例如pCMV或其衍生质粒ABE8e中加入编码hA3A(Y130F)片段的多核苷酸、编码TadA8e(V106W)片段的多核苷酸和编码SpRY(D10A)片段的多核苷酸，由此获得重组表达载体；

(2)转染所述重组表达载体至出发宿主例如HEK293T细胞使其表达所述融合蛋白即可。

优选地，在(1)中，在所述衍生质粒ABE8e中插入编码hA3A(Y130F)片段的多核苷酸；用编码SpRY(D10A)片段的多核苷酸替代编码SpCas9的多核苷酸；并在编码TadA8e片段的多核苷酸上诱发V106W点突变，构建得所述重组表达载体。

与现有技术相比，本发明的有益效果是：

本发明的融合蛋白(CABE-RY)可以靶向全基因组，拓宽了基因编辑范围；可实现A和C的同时突变，具有广泛的应用价值，包括但不限于MNVs的模拟；能模拟70种氨基酸替换，其中包括6种独特的氨基酸转换形式，该转换形式是无法通过单碱基编辑器来实现。

附图说明

图1A为CABE-RY示意图。

图1B为不同元件排序的CABE的示意图。

图2A为四种CABE在不同PAM下的编辑效率示意图。

图2B为编辑器对A-to-G的编辑效率。

图2C为编辑器对C-to-T的编辑效率。

图2D为CABE-RY在不同PAM下的单点编辑效果。

图2E为CABE-RY在不同PAM下的单点编辑效果。

图2F为不同PAM的多点统计结果。

图3A为CABE-RY对A-to-G的编辑窗口。

图3B为CABE-RY对C-to-T的编辑窗口。

图4A为CABE-RY NAT site3处的DNA编辑效果。

图4B为在GFP(对照)、ABE8e(V106W)-RY、hA3A(Y130F)-RY或CABE-RY的RNA-seq实验中检测到的RNA脱靶情况。

图4C为A-to-I(c)的RNA脱靶量示意图。

图4D为C-to-U(d)的RNA脱靶量示意图。

图5显示选取的MNV位点的编辑情况。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。下列实施例中未注明具体条件的实验方法，按照常规方法和条件，或按照商品说明书选择。

实施例1

首先构建CABE-RY质粒，通过ClonExpress MultiS One Step Cloning Kit(Vazyme,C113-01)将hA3A(Y130F)引入到ABE8e质粒(购自Addgene(#138489))，然后将SpRY进行D10A点突变得到可用于碱基编辑的nickase SpRY(D10A)，并用其代替ABE8e质粒中的SpCas9，之后进行TadA8e上V106W的点突变，构建得到CABE-RY质粒，其中，hA3A(Y130F)的核苷酸序列如SEQ ID NO:2所示，TadA8e(V106W)的核苷酸序列如SEQ ID NO:4所示，SpRY(D10A)的序列如SEQ ID NO:6所示，其是根据文献(Unconstrained genome targetingwith near-PAMless engineered CRISPR-Cas9variants，science.2020Apr 17；368(6488):290-296.doi:10.1126/science.aba8853.Epub 2020Mar 26.)记载内容进行合成，ABE8e质粒中携带有两个核定位信号序列和两个UGI序列。核定位信号片段的核苷酸序列如SEQ ID NO:8或10所示，UGI片段的核苷酸序列如SEQ ID NO:12或13所示。融合蛋白自5’端至3’端依次包括hA3A(Y130F)片段，TadA8e(V106W)片段和SpRY(D10A)nickase片段，以及两个UGI片段。

同时，按照同样的方法制备得到元件排列顺序不同的CABE2、CABE3、CABE4，其具体的排列顺序如图1B所示。

实施例2

在本实施例中，利用CABE-RY和CABE2、CABE3、CABE4在293T细胞上对内源基因位点进行编辑。以下以CABE-RY为例说明具体的实验步骤。CABE2、CABE3、CABE4三种融合蛋白的实验步骤与其相同。

2.1sgRNA质粒的构建

挑选人源的不同PAM的48个位点，设计sgRNA，所用到的sgRNA序列如SEQ ID NO:16～63所示。之后合成oligos。上下游序列通过程序(95℃，5min；95℃-85℃at-2℃/s；85℃-25℃at-0.1℃/s；hold at 4℃)退火，连接到经过BsaI-

v2(NEB：R3733L)线性化的pGL3-U6-sgRNA(Addgene#51133)载体上。线性化体系如下所示：pGL3-U6-sgRNA 5μg；CutSmart buffer(NEB：B7204S)6μL；BsaI 2μL；ddH₂O补齐到60μL。37℃酶切过夜。连接体系如下：Solution I 2.5ul；线性化体系0.5μL；退火产物2μL，16℃连接45min后转化涂板，第二天挑菌，鉴定。对阳性克隆摇菌提取质粒(Axygene：AP-MN-P-250G)并测定浓度。

2.2细胞的培养转染与鉴定

HEK293T细胞(购自ATCC)接种培养于添加10％血清(Gibco:10270-106)的DMEM培养基中(Gibco：C11995500BT),其中含1％Penicillin Streptomycin(v/v)(Gibco：15140122)。当细胞浓度为80％时，用10％血清的DMEM培养基换液，培养2小时使细胞状态恢复最佳。每孔转染的质粒的量分别是CABE-RY质粒1μg，sgRNA(如SEQ ID NO:16～SEQ IDNO:63所示)质粒0.5μg。将质粒混在50μL的Opti-MEM(Gibco：11058021)培养基。将3μL的Lipofectamine 2000转染试剂(Thermo：11668019)混入50μL的Opti-MEM培养基并混匀，静置5分钟。将混有质粒的Opti-MEM加入混有Lipofectamine 2000的Opti-MEM，慢速吹打混匀，静置20分钟。将混有质粒和Lipofectamine 2000的Opti-MEM分别加入24孔板。转染6小时后用10％血清的DMEM培养基换液。转染48小时后在显微镜下观察荧光并拍照，并用流式细胞分选仪检测荧光比例并分选GFP阳性细胞，通过裂解鉴定基因型，裂解液的成分为50mMKCl、1.5mM MgCl₂、10mM Tris pH 8.0、0.5％Nonidet P-40、0.5％Tween 20、100g/mlprotease K。对靶点附近序列进行PCR扩增，将扩增产物纯化后用Sanger测序进行鉴定。扩增体系如下：2×buffer(Vazyme：P505)25μL；dNTP 1μL；F(10pmol/μL)1μL；R(10pmol/μL)1μL；模板1μL；DNA聚合酶(Vazyme：P505)0.5μL；ddH2O补齐到50μL。扩增出来的PCR产物经过下述步骤纯化：加入三倍体积的PCR-A(Axygen：AP-PCR-250G)过柱，离心，12000转/分钟离心1分钟；加入700μL W2，离心1分钟；弃废液，加入700μL W2，离心1分钟；弃废液，空转1分钟；加入20μL水洗脱后测浓度，送一代测序或深度测序，得到编辑效果。

相关结果见图2和图3。图2A显示的是不同PAM情况下每一个编辑器的编辑效率(颜色越深代表效率越高)，所以CABE-RY总体的编辑效果最佳，CABE2受PAM的限制较大。图2B代表编辑器对A-to-G的编辑效率，图2C代表对C-to-T的编辑效率。图2B-C代表4个编辑器总的编辑效率，从图中可看出CABE3在A-to-G的效率很低，而CABE4在C-to-T的效率很低。综合来看，CABE-RY的编辑效率最佳。除此之外，发明人还意外的发现脱氨酶在SpRY后面会导致编辑效率降低。

之后进一步分析CABE-RY，从图2D-F可以看出，相较于NYN PAMs(R为A或G),CABE-RY在NRN PAMs(Y为C或T)上的编辑效率均较高(对于C-to-T：58.0％vs.38.3％；对于A-to-G：59.8vs.38.8％％)。CABE-RY编辑器A-to-G的编辑窗口位于第3-9位，C-to-T的编辑窗口位于第4-14位。该编辑器没有PAM的限制，能显著增加基因组的编辑范围。

实施例3

在本实施例中，将CABE-RY与单碱基编辑器比较，在293T细胞上看RNA脱靶的效果。

3.1sgRNA的构建

在实施例1中选择一个编辑效率较高的位点NAT site3，观察CABE-RY的RNA脱靶情况。

3.2细胞的培养转染与鉴定

按2.2进行培养和转染，使用近80％细胞的6cm dish进行转染，转染的质粒量为CABE-RY/ABE8e(V106W)-RY/A3A(Y130F)-RY质粒4μg，sgRNA质粒2μg。转染48小时后分选GFP阳性细胞，取少量细胞进行裂解PCR送sanger测序，另外绝大多数细胞提RNA送RNA-seq。

3.3提GFP阳性细胞RNA

收集的细胞1000g/分钟离心5分钟，弃上清。加入500μL RNA isolater Total RNAextraction Reagent(Vazyme：R401-01-AA)，轻弹混匀。12000g/分钟4℃离心15分钟，取200μL上层与异丙醇1:1混匀后再次12000g/分钟4℃离心15分钟。弃上清后加入75％乙醇清洗沉淀，12000g/分钟4℃离心5分钟，小心弃去上清，尽量除尽乙醇，室温干燥15分钟，加入适量的RNase-free水溶解沉淀，65℃加热5-10分钟后立即置于冰上，测完浓度后放于-80℃保存，送去RNA-seq。相关结果可见图4。在全转录组水平上，CABE-RY的A-to-I的脱靶小于ABE8e(V106W)-RY，而C-to-U的脱靶几乎没有。该结果说明CABE-RY的RNA的脱靶较低。

图4A显示CABE-RY、hA3A(Y130F)、ABE8e(V106W)在NAT site3位点的DNA编辑效果，可见CABE-RY的DNA编辑效率最高；图4B表明几种编辑器在RNA中的编辑情况，其中GFP作为对照，ABE8e的RNA脱靶最多，hA3A(Y130F)几乎没有脱靶发生，CABE-RY的脱靶介于两者之间。图4C-D则分别代表A-to-I、C-to-U的RNA脱靶情况，结果表明，CABE-RY发生两种脱靶的概率都较低。

实施例4

在本实施例中，利用CABE-RY在293T细胞上模拟MNVs。

4.1sgRNA质粒的构建

在gnomAD数据库中挑选了3个含有相邻突变，并且是AC同时突变的MNVs位点。相对于单碱基编辑工具而言，他们的突变可导致独特的氨基酸改变。所用的sgRNA可见序列表SEQ ID NO:16～63。按2.1进行sgRNA质粒的构建。

4.2细胞的培养转染与鉴定

293T细胞按2.2进行培养与转染，转染的质粒量为CABE-RY 1μg,sgRNA表达载体质粒0.5μg。转染72小时后分选GFP阳性细胞裂解，PCR扩增并纯化，产物送测。

4.3产物送二代测序

选择相距小于280bp的引物对裂解产物PCR,采取Hiseq/Noca-PE250进行二代测序。测序结果说明CABE-RY导致仅MNV位点被编辑的情况较高(例如SYNM位点同时被编辑并且没有旁编辑的情况约占19.96％)。针对MNVs编辑的sanger测序结果如图5所示。该结果说明CABE-RY可有效地模拟MNVs，可用来建立相应的突变模型，研究MNVs的功能意义。

综上所述，本发明所提供的融合蛋白CABE-RY无PAM的限制，可以靶向全基因组范围，并能实现A和C的同时突变。它可将4-14位的C转换为T、3-9位的A转换为G，能显著增加碱基编辑的靶向位点，并扩展可编辑的类型。此外，所述的融合蛋白还具有RNA脱靶较低、具有独特的氨基酸转换以及能模拟MNVs等优势，拥有良好的产业化前景。它有效地克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅示例性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

SEQUENCE LISTING

<110> 上海科技大学

<120> 一种包括双碱基编辑器的融合蛋白及其制备方法和应用

<130> P21012031C

<160> 63

<170> PatentIn version 3.5

<210> 1

<211> 198

<212> PRT

<213> Artificial Sequence

<220>

<223> hA3A(Y130F)氨基酸

<400> 1

Glu Ala Ser Pro Ala Ser Gly Pro Arg His Leu Met Asp Pro His Ile

1 5 10 15

Phe Thr Ser Asn Phe Asn Asn Gly Ile Gly Arg His Lys Thr Tyr Leu

20 25 30

Cys Tyr Glu Val Glu Arg Leu Asp Asn Gly Thr Ser Val Lys Met Asp

35 40 45

Gln His Arg Gly Phe Leu His Asn Gln Ala Lys Asn Leu Leu Cys Gly

50 55 60

Phe Tyr Gly Arg His Ala Glu Leu Arg Phe Leu Asp Leu Val Pro Ser

65 70 75 80

Leu Gln Leu Asp Pro Ala Gln Ile Tyr Arg Val Thr Trp Phe Ile Ser

85 90 95

Trp Ser Pro Cys Phe Ser Trp Gly Cys Ala Gly Glu Val Arg Ala Phe

100 105 110

Leu Gln Glu Asn Thr His Val Arg Leu Arg Ile Phe Ala Ala Arg Ile

115 120 125

Phe Asp Tyr Asp Pro Leu Tyr Lys Glu Ala Leu Gln Met Leu Arg Asp

130 135 140

Ala Gly Ala Gln Val Ser Ile Met Thr Tyr Asp Glu Phe Lys His Cys

145 150 155 160

Trp Asp Thr Phe Val Asp His Gln Gly Cys Pro Phe Gln Pro Trp Asp

165 170 175

Gly Leu Asp Glu His Ser Gln Ala Leu Ser Gly Arg Leu Arg Ala Ile

180 185 190

Leu Gln Asn Gln Gly Asn

195

<210> 2

<211> 594

<212> DNA

<213> Artificial Sequence

<220>

<223> hA3A(Y130F)核苷酸

<400> 2

gaggcatctc cagcaagcgg accaaggcac ctgatggacc cccacatctt cacctctaac 60

tttaacaatg gcatcggcag gcacaagaca tacctgtgct atgaggtgga gcgcctggac 120

aatggcacca gcgtgaagat ggatcagcac agaggcttcc tgcacaacca ggccaagaat 180

ctgctgtgcg gcttctacgg ccggcacgca gagctgagat ttctggacct ggtgcctagc 240

ctgcagctgg atccagccca gatctatagg gtgacctggt tcatcagctg gtccccatgc 300

ttttcctggg gatgtgcagg agaggtgcgc gcctttctgc aggagaacac acacgtgcgg 360

ctgagaatct tcgccgcccg gatctttgac tacgatcctc tgtataagga ggccctgcag 420

atgctgagag acgcaggagc ccaggtgtcc atcatgacct acgatgagtt caagcactgc 480

tgggacacat ttgtggatca ccagggctgt cccttccagc cttgggacgg actggatgag 540

cactcccagg ccctgtctgg caggctgagg gccatcctgc agaaccaggg caat 594

<210> 3

<211> 166

<212> PRT

<213> Artificial Sequence

<220>

<223> TadA8e(V106W)氨基酸

<400> 3

Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu Thr

1 5 10 15

Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala Val

20 25 30

Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala Ile

35 40 45

Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln

50 55 60

Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu Tyr

65 70 75 80

Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ser

85 90 95

Arg Ile Gly Arg Val Val Phe Gly Trp Arg Asn Ser Lys Arg Gly Ala

100 105 110

Ala Gly Ser Leu Met Asn Val Leu Asn Tyr Pro Gly Met Asn His Arg

115 120 125

Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu Leu

130 135 140

Cys Asp Phe Tyr Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys Lys

145 150 155 160

Ala Gln Ser Ser Ile Asn

165

<210> 4

<211> 498

<212> DNA

<213> Artificial Sequence

<220>

<223> TadA8e(V106W)核苷酸

<400> 4

tctgaggtgg agttttccca cgagtactgg atgagacatg ccctgaccct ggccaagagg 60

gcacgggatg agagggaggt gcctgtggga gccgtgctgg tgctgaacaa tagagtgatc 120

ggcgagggct ggaacagagc catcggcctg cacgacccaa cagcccatgc cgaaattatg 180

gccctgagac agggcggcct ggtcatgcag aactacagac tgattgacgc caccctgtac 240

gtgacattcg agccttgcgt gatgtgcgcc ggcgccatga tccactctag gatcggccgc 300

gtggtgtttg gctggaggaa ctcaaaaaga ggcgccgcag gctccctgat gaacgtgctg 360

aactaccccg gcatgaatca ccgcgtcgaa attaccgagg gaatcctggc agatgaatgt 420

gccgccctgc tgtgcgattt ctatcggatg cctagacagg tgttcaatgc tcagaagaag 480

gcccagagct ccatcaac 498

<210> 5

<211> 1367

<212> PRT

<213> Artificial Sequence

<220>

<223> SpRY(D10A)氨基酸

<400> 5

Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val Gly

1 5 10 15

Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys

20 25 30

Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly

35 40 45

Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Arg Thr Arg Leu Lys

50 55 60

Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr

65 70 75 80

Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe

85 90 95

Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His

100 105 110

Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His

115 120 125

Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser

130 135 140

Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met

145 150 155 160

Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp

165 170 175

Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn

180 185 190

Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys

195 200 205

Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu

210 215 220

Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu

225 230 235 240

Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp

245 250 255

Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp

260 265 270

Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu

275 280 285

Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile

290 295 300

Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met

305 310 315 320

Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala

325 330 335

Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp

340 345 350

Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln

355 360 365

Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly

370 375 380

Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys

385 390 395 400

Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly

405 410 415

Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu

420 425 430

Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro

435 440 445

Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met

450 455 460

Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val

465 470 475 480

Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn

485 490 495

Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu

500 505 510

Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr

515 520 525

Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys

530 535 540

Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val

545 550 555 560

Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser

565 570 575

Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr

580 585 590

Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn

595 600 605

Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu

610 615 620

Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His

625 630 635 640

Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr

645 650 655

Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys

660 665 670

Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala

675 680 685

Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys

690 695 700

Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His

705 710 715 720

Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile

725 730 735

Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg

740 745 750

His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr

755 760 765

Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu

770 775 780

Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val

785 790 795 800

Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln

805 810 815

Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu

820 825 830

Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp

835 840 845

Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly

850 855 860

Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn

865 870 875 880

Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe

885 890 895

Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys

900 905 910

Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys

915 920 925

His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu

930 935 940

Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys

945 950 955 960

Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu

965 970 975

Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val

980 985 990

Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val

995 1000 1005

Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys

1010 1015 1020

Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr

1025 1030 1035

Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn

1040 1045 1050

Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr

1055 1060 1065

Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg

1070 1075 1080

Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu

1085 1090 1095

Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Arg Pro Lys Arg

1100 1105 1110

Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys

1115 1120 1125

Lys Tyr Gly Gly Phe Leu Trp Pro Thr Val Ala Tyr Ser Val Leu

1130 1135 1140

Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser

1145 1150 1155

Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe

1160 1165 1170

Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu

1175 1180 1185

Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe

1190 1195 1200

Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Lys Gln

1205 1210 1215

Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn

1220 1225 1230

Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro

1235 1240 1245

Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His

1250 1255 1260

Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg

1265 1270 1275

Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr

1280 1285 1290

Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile

1295 1300 1305

Ile His Leu Phe Thr Leu Thr Arg Leu Gly Ala Pro Arg Ala Phe

1310 1315 1320

Lys Tyr Phe Asp Thr Thr Ile Asp Pro Lys Gln Tyr Arg Ser Thr

1325 1330 1335

Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly

1340 1345 1350

Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp

1355 1360 1365

<210> 6

<211> 4101

<212> DNA

<213> Artificial Sequence

<220>

<223> SpRY(D10A)核苷酸

<400> 6

gacaagaagt acagcatcgg cctggccatc ggcaccaact ctgtgggctg ggccgtgatc 60

accgacgagt acaaggtgcc cagcaagaaa ttcaaggtgc tgggcaacac cgaccggcac 120

agcatcaaga agaacctgat cggagccctg ctgttcgaca gcggcgaaac agccgagaga 180

acccggctga agagaaccgc cagaagaaga tacaccagac ggaagaaccg gatctgctat 240

ctgcaagaga tcttcagcaa cgagatggcc aaggtggacg acagcttctt ccacagactg 300

gaagagtcct tcctggtgga agaggataag aagcacgagc ggcaccccat cttcggcaac 360

atcgtggacg aggtggccta ccacgagaag taccccacca tctaccacct gagaaagaaa 420

ctggtggaca gcaccgacaa ggccgacctg cggctgatct atctggccct ggcccacatg 480

atcaagttcc ggggccactt cctgatcgag ggcgacctga accccgacaa cagcgacgtg 540

gacaagctgt tcatccagct ggtgcagacc tacaaccagc tgttcgagga aaaccccatc 600

aacgccagcg gcgtggacgc caaggccatc ctgtctgcca gactgagcaa gagcagacgg 660

ctggaaaatc tgatcgccca gctgcccggc gagaagaaga atggcctgtt cggaaacctg 720

attgccctga gcctgggcct gacccccaac ttcaagagca acttcgacct ggccgaggat 780

gccaaactgc agctgagcaa ggacacctac gacgacgacc tggacaacct gctggcccag 840

atcggcgacc agtacgccga cctgtttctg gccgccaaga acctgtccga cgccatcctg 900

ctgagcgaca tcctgagagt gaacaccgag atcaccaagg cccccctgag cgcctctatg 960

atcaagagat acgacgagca ccaccaggac ctgaccctgc tgaaagctct cgtgcggcag 1020

cagctgcctg agaagtacaa agagattttc ttcgaccaga gcaagaacgg ctacgccggc 1080

tacattgacg gcggagccag ccaggaagag ttctacaagt tcatcaagcc catcctggaa 1140

aagatggacg gcaccgagga actgctcgtg aagctgaaca gagaggacct gctgcggaag 1200

cagcggacct tcgacaacgg cagcatcccc caccagatcc acctgggaga gctgcacgcc 1260

attctgcggc ggcaggaaga tttttaccca ttcctgaagg acaaccggga aaagatcgag 1320

aagatcctga ccttccgcat cccctactac gtgggccctc tggccagggg aaacagcaga 1380

ttcgcctgga tgaccagaaa gagcgaggaa accatcaccc cctggaactt cgaggaagtg 1440

gtggacaagg gcgcttccgc ccagagcttc atcgagcgga tgaccaactt cgataagaac 1500

ctgcccaacg agaaggtgct gcccaagcac agcctgctgt acgagtactt caccgtgtat 1560

aacgagctga ccaaagtgaa atacgtgacc gagggaatga gaaagcccgc cttcctgagc 1620

ggcgagcaga aaaaggccat cgtggacctg ctgttcaaga ccaaccggaa agtgaccgtg 1680

aagcagctga aagaggacta cttcaagaaa atcgagtgct tcgactccgt ggaaatctcc 1740

ggcgtggaag atcggttcaa cgcctccctg ggcacatacc acgatctgct gaaaattatc 1800

aaggacaagg acttcctgga caatgaggaa aacgaggaca ttctggaaga tatcgtgctg 1860

accctgacac tgtttgagga cagagagatg atcgaggaac ggctgaaaac ctatgcccac 1920

ctgttcgacg acaaagtgat gaagcagctg aagcggcgga gatacaccgg ctggggcagg 1980

ctgagccgga agctgatcaa cggcatccgg gacaagcagt ccggcaagac aatcctggat 2040

ttcctgaagt ccgacggctt cgccaacaga aacttcatgc agctgatcca cgacgacagc 2100

ctgaccttta aagaggacat ccagaaagcc caggtgtccg gccagggcga tagcctgcac 2160

gagcacattg ccaatctggc cggcagcccc gccattaaga agggcatcct gcagacagtg 2220

aaggtggtgg acgagctcgt gaaagtgatg ggccggcaca agcccgagaa catcgtgatc 2280

gaaatggcca gagagaacca gaccacccag aagggacaga agaacagccg cgagagaatg 2340

aagcggatcg aagagggcat caaagagctg ggcagccaga tcctgaaaga acaccccgtg 2400

gaaaacaccc agctgcagaa cgagaagctg tacctgtact acctgcagaa tgggcgggat 2460

atgtacgtgg accaggaact ggacatcaac cggctgtccg actacgatgt ggaccatatc 2520

gtgcctcaga gctttctgaa ggacgactcc atcgacaaca aggtgctgac cagaagcgac 2580

aagaaccggg gcaagagcga caacgtgccc tccgaagagg tcgtgaagaa gatgaagaac 2640

tactggcggc agctgctgaa cgccaagctg attacccaga gaaagttcga caatctgacc 2700

aaggccgaga gaggcggcct gagcgaactg gataaggccg gcttcatcaa gagacagctg 2760

gtggaaaccc ggcagatcac aaagcacgtg gcacagatcc tggactcccg gatgaacact 2820

aagtacgacg agaatgacaa gctgatccgg gaagtgaaag tgatcaccct gaagtccaag 2880

ctggtgtccg atttccggaa ggatttccag ttttacaaag tgcgcgagat caacaactac 2940

caccacgccc acgacgccta cctgaacgcc gtcgtgggaa ccgccctgat caaaaagtac 3000

cctaagctgg aaagcgagtt cgtgtacggc gactacaagg tgtacgacgt gcggaagatg 3060

atcgccaaga gcgagcagga aatcggcaag gctaccgcca agtacttctt ctacagcaac 3120

atcatgaact ttttcaagac cgagattacc ctggccaacg gcgagatccg gaagcggcct 3180

ctgatcgaga caaacggcga aaccggggag atcgtgtggg ataagggccg ggattttgcc 3240

accgtgcgga aagtgctgag catgccccaa gtgaatatcg tgaaaaagac cgaggtgcag 3300

acaggcggct tcagcaaaga gtctatcaga cccaagagga acagcgataa gctgatcgcc 3360

agaaagaagg actgggaccc taagaagtac ggcggcttcc tgtggcccac cgtggcctat 3420

tctgtgctgg tggtggccaa agtggaaaag ggcaagtcca agaaactgaa gagtgtgaaa 3480

gagctgctgg ggatcaccat catggaaaga agcagcttcg agaagaatcc catcgacttt 3540

ctggaagcca agggctacaa agaagtgaaa aaggacctga tcatcaagct gcctaagtac 3600

tccctgttcg agctggaaaa cggccggaag agaatgctgg cctctgccaa gcagctgcag 3660

aagggaaacg aactggccct gccctccaaa tatgtgaact tcctgtacct ggccagccac 3720

tatgagaagc tgaagggctc ccccgaggat aatgagcaga aacagctgtt tgtggaacag 3780

cacaagcact acctggacga gatcatcgag cagatcagcg agttctccaa gagagtgatc 3840

ctggccgacg ctaatctgga caaagtgctg tccgcctaca acaagcaccg ggataagccc 3900

atcagagagc aggccgagaa tatcatccac ctgtttaccc tgaccagact gggagcccct 3960

agagccttca agtactttga caccaccatc gaccccaagc agtacagaag caccaaagag 4020

gtgctggacg ccaccctgat ccaccagagc atcaccggcc tgtacgagac acggatcgac 4080

ctgtctcagc tgggaggtga c 4101

<210> 7

<211> 19

<212> PRT

<213> Artificial Sequence

<220>

<223> 核定位信号片段氨基酸-1

<400> 7

Met Lys Arg Thr Ala Asp Gly Ser Glu Phe Glu Ser Pro Lys Lys Lys

1 5 10 15

Arg Lys Val

<210> 8

<211> 57

<212> DNA

<213> Artificial Sequence

<220>

<223> 核定位信号片段核苷酸-1

<400> 8

atgaaacgga cagccgacgg aagcgagttc gagtcaccaa agaagaagcg gaaagtc 57

<210> 9

<211> 17

<212> PRT

<213> Artificial Sequence

<220>

<223> 核定位信号片段氨基酸-2

<400> 9

Lys Arg Thr Ala Asp Gly Ser Glu Phe Glu Pro Lys Lys Lys Arg Lys

1 5 10 15

Val

<210> 10

<211> 51

<212> DNA

<213> Artificial Sequence

<220>

<223> 核定位信号片段核苷酸-2

<400> 10

aaaagaaccg ccgacggcag cgaattcgag cccaagaaga agaggaaagt c 51

<210> 11

<211> 83

<212> PRT

<213> Artificial Sequence

<220>

<223> UGI氨基酸

<400> 11

Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu Val

1 5 10 15

Ile Gln Glu Ser Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val Ile

20 25 30

Gly Asn Lys Pro Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp Glu

35 40 45

Ser Thr Asp Glu Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu Tyr

50 55 60

Lys Pro Trp Ala Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys Ile

65 70 75 80

Lys Met Leu

<210> 12

<211> 249

<212> DNA

<213> Artificial Sequence

<220>

<223> UGI核苷酸-1

<400> 12

actaatctga gcgacatcat tgagaaggag actgggaaac agctggtcat tcaggagtcc 60

atcctgatgc tgcctgagga ggtggaggaa gtgatcggca acaagccaga gtctgacatc 120

ctggtgcaca ccgcctacga cgagtccaca gatgagaatg tgatgctgct gacctctgac 180

gcccccgagt ataagccttg ggccctggtc atccaggatt ctaacggcga gaataagatc 240

aagatgctg 249

<210> 13

<211> 249

<212> DNA

<213> Artificial Sequence

<220>

<223> UGI核苷酸-2

<400> 13

accaacctgt ctgacatcat cgagaaggag acaggcaagc agctggtcat ccaggagagc 60

atcctgatgc tgcccgaaga agtcgaagaa gtgatcggaa acaagcctga gagcgatatc 120

ctggtccata ccgcctacga cgagagtacc gacgaaaatg tgatgctgct gacatccgac 180

gccccagagt ataagccctg ggctctggtc atccaggatt ccaacggaga gaacaaaatc 240

aaaatgctg 249

<210> 14

<211> 2004

<212> PRT

<213> Artificial Sequence

<220>

<223> CABE-RY

<400> 14

Met Lys Arg Thr Ala Asp Gly Ser Glu Phe Glu Ser Pro Lys Lys Lys

1 5 10 15

Arg Lys Val Glu Ala Ser Pro Ala Ser Gly Pro Arg His Leu Met Asp

20 25 30

Pro His Ile Phe Thr Ser Asn Phe Asn Asn Gly Ile Gly Arg His Lys

35 40 45

Thr Tyr Leu Cys Tyr Glu Val Glu Arg Leu Asp Asn Gly Thr Ser Val

50 55 60

Lys Met Asp Gln His Arg Gly Phe Leu His Asn Gln Ala Lys Asn Leu

65 70 75 80

Leu Cys Gly Phe Tyr Gly Arg His Ala Glu Leu Arg Phe Leu Asp Leu

85 90 95

Val Pro Ser Leu Gln Leu Asp Pro Ala Gln Ile Tyr Arg Val Thr Trp

100 105 110

Phe Ile Ser Trp Ser Pro Cys Phe Ser Trp Gly Cys Ala Gly Glu Val

115 120 125

Arg Ala Phe Leu Gln Glu Asn Thr His Val Arg Leu Arg Ile Phe Ala

130 135 140

Ala Arg Ile Phe Asp Tyr Asp Pro Leu Tyr Lys Glu Ala Leu Gln Met

145 150 155 160

Leu Arg Asp Ala Gly Ala Gln Val Ser Ile Met Thr Tyr Asp Glu Phe

165 170 175

Lys His Cys Trp Asp Thr Phe Val Asp His Gln Gly Cys Pro Phe Gln

180 185 190

Pro Trp Asp Gly Leu Asp Glu His Ser Gln Ala Leu Ser Gly Arg Leu

195 200 205

Arg Ala Ile Leu Gln Asn Gln Gly Asn Glu Ala Ala Ala Lys Glu Ala

210 215 220

Ala Ala Lys Glu Ala Ala Ala Lys Ser Glu Val Glu Phe Ser His Glu

225 230 235 240

Tyr Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg Ala Arg Asp Glu

245 250 255

Arg Glu Val Pro Val Gly Ala Val Leu Val Leu Asn Asn Arg Val Ile

260 265 270

Gly Glu Gly Trp Asn Arg Ala Ile Gly Leu His Asp Pro Thr Ala His

275 280 285

Ala Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val Met Gln Asn Tyr

290 295 300

Arg Leu Ile Asp Ala Thr Leu Tyr Val Thr Phe Glu Pro Cys Val Met

305 310 315 320

Cys Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg Val Val Phe Gly

325 330 335

Trp Arg Asn Ser Lys Arg Gly Ala Ala Gly Ser Leu Met Asn Val Leu

340 345 350

Asn Tyr Pro Gly Met Asn His Arg Val Glu Ile Thr Glu Gly Ile Leu

355 360 365

Ala Asp Glu Cys Ala Ala Leu Leu Cys Asp Phe Tyr Arg Met Pro Arg

370 375 380

Gln Val Phe Asn Ala Gln Lys Lys Ala Gln Ser Ser Ile Asn Ser Gly

385 390 395 400

Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu

405 410 415

Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser Asp Lys

420 425 430

Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val Gly Trp Ala

435 440 445

Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys Val Leu

450 455 460

Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu

465 470 475 480

Leu Phe Asp Ser Gly Glu Thr Ala Glu Arg Thr Arg Leu Lys Arg Thr

485 490 495

Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln

500 505 510

Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe Phe His

515 520 525

Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His Glu Arg

530 535 540

His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His Glu Lys

545 550 555 560

Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser Thr Asp

565 570 575

Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met Ile Lys

580 585 590

Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser

595 600 605

Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu

610 615 620

Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys Ala Ile

625 630 635 640

Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala

645 650 655

Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala

660 665 670

Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala

675 680 685

Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu

690 695 700

Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu

705 710 715 720

Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg

725 730 735

Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile Lys

740 745 750

Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala Leu Val

755 760 765

Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser

770 775 780

Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu

785 790 795 800

Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr Glu

805 810 815

Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg

820 825 830

Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly Glu Leu

835 840 845

His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp

850 855 860

Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr

865 870 875 880

Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr Arg

885 890 895

Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val Val Asp

900 905 910

Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp

915 920 925

Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr

930 935 940

Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr

945 950 955 960

Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala

965 970 975

Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln

980 985 990

Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val Glu

995 1000 1005

Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr

1010 1015 1020

His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn

1025 1030 1035

Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr

1040 1045 1050

Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr

1055 1060 1065

Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg

1070 1075 1080

Arg Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly

1085 1090 1095

Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys

1100 1105 1110

Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp

1115 1120 1125

Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser

1130 1135 1140

Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu Ala Gly

1145 1150 1155

Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val

1160 1165 1170

Asp Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile

1175 1180 1185

Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln

1190 1195 1200

Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys

1205 1210 1215

Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr

1220 1225 1230

Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly

1235 1240 1245

Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser

1250 1255 1260

Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp

1265 1270 1275

Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg

1280 1285 1290

Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met

1295 1300 1305

Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln

1310 1315 1320

Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser

1325 1330 1335

Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr

1340 1345 1350

Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg Met

1355 1360 1365

Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys

1370 1375 1380

Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys Asp

1385 1390 1395

Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His Ala

1400 1405 1410

His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile Lys

1415 1420 1425

Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr Lys

1430 1435 1440

Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu Ile

1445 1450 1455

Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met Asn

1460 1465 1470

Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg Lys

1475 1480 1485

Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp

1490 1495 1500

Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met

1505 1510 1515

Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly

1520 1525 1530

Phe Ser Lys Glu Ser Ile Arg Pro Lys Arg Asn Ser Asp Lys Leu

1535 1540 1545

Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe

1550 1555 1560

Leu Trp Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val

1565 1570 1575

Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu

1580 1585 1590

Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile

1595 1600 1605

Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu

1610 1615 1620

Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn Gly

1625 1630 1635

Arg Lys Arg Met Leu Ala Ser Ala Lys Gln Leu Gln Lys Gly Asn

1640 1645 1650

Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu Ala

1655 1660 1665

Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu Gln

1670 1675 1680

Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp Glu Ile

1685 1690 1695

Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala Asp

1700 1705 1710

Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg Asp

1715 1720 1725

Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr

1730 1735 1740

Leu Thr Arg Leu Gly Ala Pro Arg Ala Phe Lys Tyr Phe Asp Thr

1745 1750 1755

Thr Ile Asp Pro Lys Gln Tyr Arg Ser Thr Lys Glu Val Leu Asp

1760 1765 1770

Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg

1775 1780 1785

Ile Asp Leu Ser Gln Leu Gly Gly Asp Ser Gly Gly Ser Gly Gly

1790 1795 1800

Ser Gly Gly Ser Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr

1805 1810 1815

Gly Lys Gln Leu Val Ile Gln Glu Ser Ile Leu Met Leu Pro Glu

1820 1825 1830

Glu Val Glu Glu Val Ile Gly Asn Lys Pro Glu Ser Asp Ile Leu

1835 1840 1845

Val His Thr Ala Tyr Asp Glu Ser Thr Asp Glu Asn Val Met Leu

1850 1855 1860

Leu Thr Ser Asp Ala Pro Glu Tyr Lys Pro Trp Ala Leu Val Ile

1865 1870 1875

Gln Asp Ser Asn Gly Glu Asn Lys Ile Lys Met Leu Ser Gly Gly

1880 1885 1890

Ser Gly Gly Ser Gly Gly Ser Thr Asn Leu Ser Asp Ile Ile Glu

1895 1900 1905

Lys Glu Thr Gly Lys Gln Leu Val Ile Gln Glu Ser Ile Leu Met

1910 1915 1920

Leu Pro Glu Glu Val Glu Glu Val Ile Gly Asn Lys Pro Glu Ser

1925 1930 1935

Asp Ile Leu Val His Thr Ala Tyr Asp Glu Ser Thr Asp Glu Asn

1940 1945 1950

Val Met Leu Leu Thr Ser Asp Ala Pro Glu Tyr Lys Pro Trp Ala

1955 1960 1965

Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys Ile Lys Met Leu

1970 1975 1980

Ser Gly Gly Ser Lys Arg Thr Ala Asp Gly Ser Glu Phe Glu Pro

1985 1990 1995

Lys Lys Lys Arg Lys Val

2000

<210> 15

<211> 6012

<212> DNA

<213> Artificial Sequence

<220>

<223> CABE-RY

<400> 15

atgaaacgga cagccgacgg aagcgagttc gagtcaccaa agaagaagcg gaaagtcgag 60

gcatctccag caagcggacc aaggcacctg atggaccccc acatcttcac ctctaacttt 120

aacaatggca tcggcaggca caagacatac ctgtgctatg aggtggagcg cctggacaat 180

ggcaccagcg tgaagatgga tcagcacaga ggcttcctgc acaaccaggc caagaatctg 240

ctgtgcggct tctacggccg gcacgcagag ctgagatttc tggacctggt gcctagcctg 300

cagctggatc cagcccagat ctatagggtg acctggttca tcagctggtc cccatgcttt 360

tcctggggat gtgcaggaga ggtgcgcgcc tttctgcagg agaacacaca cgtgcggctg 420

agaatcttcg ccgcccggat ctttgactac gatcctctgt ataaggaggc cctgcagatg 480

ctgagagacg caggagccca ggtgtccatc atgacctacg atgagttcaa gcactgctgg 540

gacacatttg tggatcacca gggctgtccc ttccagcctt gggacggact ggatgagcac 600

tcccaggccc tgtctggcag gctgagggcc atcctgcaga accagggcaa tgaggccgcc 660

gccaaggaag ctgccgccaa ggaggccgcc gccaagtctg aggtggagtt ttcccacgag 720

tactggatga gacatgccct gaccctggcc aagagggcac gggatgagag ggaggtgcct 780

gtgggagccg tgctggtgct gaacaataga gtgatcggcg agggctggaa cagagccatc 840

ggcctgcacg acccaacagc ccatgccgaa attatggccc tgagacaggg cggcctggtc 900

atgcagaact acagactgat tgacgccacc ctgtacgtga cattcgagcc ttgcgtgatg 960

tgcgccggcg ccatgatcca ctctaggatc ggccgcgtgg tgtttggctg gaggaactca 1020

aaaagaggcg ccgcaggctc cctgatgaac gtgctgaact accccggcat gaatcaccgc 1080

gtcgaaatta ccgagggaat cctggcagat gaatgtgccg ccctgctgtg cgatttctat 1140

cggatgccta gacaggtgtt caatgctcag aagaaggccc agagctccat caactctgga 1200

ggatctagcg gaggatcctc tggcagcgag acaccaggaa caagcgagtc agcaacacca 1260

gagagcagtg gcggcagcag cggcggcagc gacaagaagt acagcatcgg cctggccatc 1320

ggcaccaact ctgtgggctg ggccgtgatc accgacgagt acaaggtgcc cagcaagaaa 1380

ttcaaggtgc tgggcaacac cgaccggcac agcatcaaga agaacctgat cggagccctg 1440

ctgttcgaca gcggcgaaac agccgagaga acccggctga agagaaccgc cagaagaaga 1500

tacaccagac ggaagaaccg gatctgctat ctgcaagaga tcttcagcaa cgagatggcc 1560

aaggtggacg acagcttctt ccacagactg gaagagtcct tcctggtgga agaggataag 1620

aagcacgagc ggcaccccat cttcggcaac atcgtggacg aggtggccta ccacgagaag 1680

taccccacca tctaccacct gagaaagaaa ctggtggaca gcaccgacaa ggccgacctg 1740

cggctgatct atctggccct ggcccacatg atcaagttcc ggggccactt cctgatcgag 1800

ggcgacctga accccgacaa cagcgacgtg gacaagctgt tcatccagct ggtgcagacc 1860

tacaaccagc tgttcgagga aaaccccatc aacgccagcg gcgtggacgc caaggccatc 1920

ctgtctgcca gactgagcaa gagcagacgg ctggaaaatc tgatcgccca gctgcccggc 1980

gagaagaaga atggcctgtt cggaaacctg attgccctga gcctgggcct gacccccaac 2040

ttcaagagca acttcgacct ggccgaggat gccaaactgc agctgagcaa ggacacctac 2100

gacgacgacc tggacaacct gctggcccag atcggcgacc agtacgccga cctgtttctg 2160

gccgccaaga acctgtccga cgccatcctg ctgagcgaca tcctgagagt gaacaccgag 2220

atcaccaagg cccccctgag cgcctctatg atcaagagat acgacgagca ccaccaggac 2280

ctgaccctgc tgaaagctct cgtgcggcag cagctgcctg agaagtacaa agagattttc 2340

ttcgaccaga gcaagaacgg ctacgccggc tacattgacg gcggagccag ccaggaagag 2400

ttctacaagt tcatcaagcc catcctggaa aagatggacg gcaccgagga actgctcgtg 2460

aagctgaaca gagaggacct gctgcggaag cagcggacct tcgacaacgg cagcatcccc 2520

caccagatcc acctgggaga gctgcacgcc attctgcggc ggcaggaaga tttttaccca 2580

ttcctgaagg acaaccggga aaagatcgag aagatcctga ccttccgcat cccctactac 2640

gtgggccctc tggccagggg aaacagcaga ttcgcctgga tgaccagaaa gagcgaggaa 2700

accatcaccc cctggaactt cgaggaagtg gtggacaagg gcgcttccgc ccagagcttc 2760

atcgagcgga tgaccaactt cgataagaac ctgcccaacg agaaggtgct gcccaagcac 2820

agcctgctgt acgagtactt caccgtgtat aacgagctga ccaaagtgaa atacgtgacc 2880

gagggaatga gaaagcccgc cttcctgagc ggcgagcaga aaaaggccat cgtggacctg 2940

ctgttcaaga ccaaccggaa agtgaccgtg aagcagctga aagaggacta cttcaagaaa 3000

atcgagtgct tcgactccgt ggaaatctcc ggcgtggaag atcggttcaa cgcctccctg 3060

ggcacatacc acgatctgct gaaaattatc aaggacaagg acttcctgga caatgaggaa 3120

aacgaggaca ttctggaaga tatcgtgctg accctgacac tgtttgagga cagagagatg 3180

atcgaggaac ggctgaaaac ctatgcccac ctgttcgacg acaaagtgat gaagcagctg 3240

aagcggcgga gatacaccgg ctggggcagg ctgagccgga agctgatcaa cggcatccgg 3300

gacaagcagt ccggcaagac aatcctggat ttcctgaagt ccgacggctt cgccaacaga 3360

aacttcatgc agctgatcca cgacgacagc ctgaccttta aagaggacat ccagaaagcc 3420

caggtgtccg gccagggcga tagcctgcac gagcacattg ccaatctggc cggcagcccc 3480

gccattaaga agggcatcct gcagacagtg aaggtggtgg acgagctcgt gaaagtgatg 3540

ggccggcaca agcccgagaa catcgtgatc gaaatggcca gagagaacca gaccacccag 3600

aagggacaga agaacagccg cgagagaatg aagcggatcg aagagggcat caaagagctg 3660

ggcagccaga tcctgaaaga acaccccgtg gaaaacaccc agctgcagaa cgagaagctg 3720

tacctgtact acctgcagaa tgggcgggat atgtacgtgg accaggaact ggacatcaac 3780

cggctgtccg actacgatgt ggaccatatc gtgcctcaga gctttctgaa ggacgactcc 3840

atcgacaaca aggtgctgac cagaagcgac aagaaccggg gcaagagcga caacgtgccc 3900

tccgaagagg tcgtgaagaa gatgaagaac tactggcggc agctgctgaa cgccaagctg 3960

attacccaga gaaagttcga caatctgacc aaggccgaga gaggcggcct gagcgaactg 4020

gataaggccg gcttcatcaa gagacagctg gtggaaaccc ggcagatcac aaagcacgtg 4080

gcacagatcc tggactcccg gatgaacact aagtacgacg agaatgacaa gctgatccgg 4140

gaagtgaaag tgatcaccct gaagtccaag ctggtgtccg atttccggaa ggatttccag 4200

ttttacaaag tgcgcgagat caacaactac caccacgccc acgacgccta cctgaacgcc 4260

gtcgtgggaa ccgccctgat caaaaagtac cctaagctgg aaagcgagtt cgtgtacggc 4320

gactacaagg tgtacgacgt gcggaagatg atcgccaaga gcgagcagga aatcggcaag 4380

gctaccgcca agtacttctt ctacagcaac atcatgaact ttttcaagac cgagattacc 4440

ctggccaacg gcgagatccg gaagcggcct ctgatcgaga caaacggcga aaccggggag 4500

atcgtgtggg ataagggccg ggattttgcc accgtgcgga aagtgctgag catgccccaa 4560

gtgaatatcg tgaaaaagac cgaggtgcag acaggcggct tcagcaaaga gtctatcaga 4620

cccaagagga acagcgataa gctgatcgcc agaaagaagg actgggaccc taagaagtac 4680

ggcggcttcc tgtggcccac cgtggcctat tctgtgctgg tggtggccaa agtggaaaag 4740

ggcaagtcca agaaactgaa gagtgtgaaa gagctgctgg ggatcaccat catggaaaga 4800

agcagcttcg agaagaatcc catcgacttt ctggaagcca agggctacaa agaagtgaaa 4860

aaggacctga tcatcaagct gcctaagtac tccctgttcg agctggaaaa cggccggaag 4920

agaatgctgg cctctgccaa gcagctgcag aagggaaacg aactggccct gccctccaaa 4980

tatgtgaact tcctgtacct ggccagccac tatgagaagc tgaagggctc ccccgaggat 5040

aatgagcaga aacagctgtt tgtggaacag cacaagcact acctggacga gatcatcgag 5100

cagatcagcg agttctccaa gagagtgatc ctggccgacg ctaatctgga caaagtgctg 5160

tccgcctaca acaagcaccg ggataagccc atcagagagc aggccgagaa tatcatccac 5220

ctgtttaccc tgaccagact gggagcccct agagccttca agtactttga caccaccatc 5280

gaccccaagc agtacagaag caccaaagag gtgctggacg ccaccctgat ccaccagagc 5340

atcaccggcc tgtacgagac acggatcgac ctgtctcagc tgggaggtga cagcggcggg 5400

agcggcggga gcggggggag cactaatctg agcgacatca ttgagaagga gactgggaaa 5460

cagctggtca ttcaggagtc catcctgatg ctgcctgagg aggtggagga agtgatcggc 5520

aacaagccag agtctgacat cctggtgcac accgcctacg acgagtccac agatgagaat 5580

gtgatgctgc tgacctctga cgcccccgag tataagcctt gggccctggt catccaggat 5640

tctaacggcg agaataagat caagatgctg agcggaggat ccggaggatc tggaggcagc 5700

accaacctgt ctgacatcat cgagaaggag acaggcaagc agctggtcat ccaggagagc 5760

atcctgatgc tgcccgaaga agtcgaagaa gtgatcggaa acaagcctga gagcgatatc 5820

ctggtccata ccgcctacga cgagagtacc gacgaaaatg tgatgctgct gacatccgac 5880

gccccagagt ataagccctg ggctctggtc atccaggatt ccaacggaga gaacaaaatc 5940

aaaatgctgt ctggcggctc aaaaagaacc gccgacggca gcgaattcga gcccaagaag 6000

aagaggaaag tc 6012

<210> 16

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 16

gaacacaaag catagactgc 20

<210> 17

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 17

acatcatcag atattctgca 20

<210> 18

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 18

gctgcaaaca agtgcagaat 20

<210> 19

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 19

tggcaggacg tctgcccaat 20

<210> 20

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 20

accaacaata gaggcccatt 20

<210> 21

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 21

gtttacataa aagatcttca 20

<210> 22

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 22

aacacaaagc atagactgcg 20

<210> 23

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 23

ctggaacaca aagcatagac 20

<210> 24

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 24

tcctaaacca gtgtcaggga 20

<210> 25

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 25

aaagatcttc acaggctacc 20

<210> 26

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 26

ccaacaatag aggcccatta 20

<210> 27

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 27

ctgtcaaact gtgcgtatga 20

<210> 28

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 28

taccaacaat agaggcccat 20

<210> 29

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 29

ctgcagccca agcctcagtg 20

<210> 30

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 30

aggtcctaaa ccagtgtcag 20

<210> 31

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 31

ctaccaacaa tagaggccca 20

<210> 32

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 32

gacagttcct tccaattcca 20

<210> 33

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 33

aacaacagta cttgcgacag 20

<210> 34

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 34

gcagcagcct ggaaaagtac 20

<210> 35

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 35

ttggaactcc tgcttgcaag 20

<210> 36

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 36

aaggccaagc ttgcctgccc 20

<210> 37

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 37

gagatgcagc gaatgtgaaa 20

<210> 38

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 38

tcatcttagg ccttcaagga 20

<210> 39

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 39

cctgccctgc attttatcaa 20

<210> 40

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 40

gagcagggaa gaaggaatca 20

<210> 41

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 41

tacttgcgac agttccttcc 20

<210> 42

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 42

catttccctc tacgctcgct 20

<210> 43

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 43

ttgaacaaca gtacttgcga 20

<210> 44

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 44

cctgcttgca agtgtcaacc 20

<210> 45

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 45

gatgcagcga atgtgaaatc 20

<210> 46

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 46

gaaaagtact tggggaccaa 20

<210> 47

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 47

cctcttctgg aaaggggtac 20

<210> 48

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 48

cttagggggc acttcgacca 20

<210> 49

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 49

tccacccgct gtgcgtccca 20

<210> 50

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 50

tggccgaatg caaaggttct 20

<210> 51

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 51

tcggccaatg gggcacaagg 20

<210> 52

<211> 19

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 52

cccaaaagtg gggcgtaca 19

<210> 53

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 53

gagttccacc cgctgtgcgt 20

<210> 54

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 54

tggactcaga tgctccaacg 20

<210> 55

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 55

ggttacacca aagggctaga 20

<210> 56

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 56

atgcaaaggt tctctgctag 20

<210> 57

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 57

gtaacctccc ttgaaagggg 20

<210> 58

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 58

ggagcatctg agtccagggg 20

<210> 59

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 59

ctagacgaca gcgcaggcaa 20

<210> 60

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 60

ctgctagacg acagcgcagg 20

<210> 61

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 61

tgcgtcccac tccttgtgcc 20

<210> 62

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 62

gaatgcaaag gttctctgct 20

<210> 63

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA

<400> 63

ccgaatgcaa aggttctctg 20

Claims

1.一种包括双碱基编辑器的融合蛋白，其特征在于，其自5’端至3’端依次包括含Y130F的hA3A片段、含V106W的TadA8e片段以及含D10A的SpRY片段；所述含Y130F的hA3A片段的氨基酸序列如SEQ ID NO: 1所示，所述含V106W的TadA8e片段的氨基酸序列如SEQ ID NO: 3所示，所述含D10A的SpRY片段的氨基酸序列如SEQ ID NO: 5所示；

所述融合蛋白还包括UGI片段和核定位信号片段；所述UGI片段位于所述含D10A的SpRY片段的3’端，所述核定位信号片段位于所述融合蛋白的5’端和3’端；

所述核定位信号片段包括两个拷贝，每个拷贝的氨基酸序列如SEQ ID NO: 7和/或SEQID NO: 9所示；所述UGI片段包括两个拷贝，每个拷贝的氨基酸序列如SEQ ID NO: 11所示。

2.如权利要求1所述的融合蛋白，其特征在于，所述融合蛋白的氨基酸序列如SEQ IDNO: 14所示。

3.一种核酸构建体，其包含编码如权利要求1或2所述的融合蛋白的多核苷酸。

4.如权利要求3所述的核酸构建体，其特征在于，编码所述含Y130F的hA3A片段的核苷酸序列如SEQ ID NO: 2所示；

和/或，编码所述含V106W的TadA8e片段的核苷酸序列如SEQ ID NO: 4所示；

和/或，编码所述含D10A的SpRY片段的核苷酸序列如SEQ ID NO: 6所示；

和/或，编码所述核定位信号片段的核苷酸序列如SEQ ID NO: 8或SEQ ID NO: 10所示；

和/或，编码所述UGI片段的核苷酸序列如SEQ ID NO: 12或SEQ ID NO: 13所示。

5.如权利要求4所述的核酸构建体，其特征在于，编码所述融合蛋白的多核苷酸序列如SEQ ID NO: 15所示。

6.一种重组表达载体，其特征在于，所述重组表达载体含有如权利要求3~5任一项所述的核酸构建体。

7.如权利要求6所述的重组表达载体，其特征在于，所述重组表达载体的骨架为pCMV。

8.一种表达系统，其特征在于，所述表达系统含有如权利要求6或7所述的重组表达载体或其基因组中整合有外源的如权利要求3~5任一项所述的核酸构建体。

9.如权利要求8所述的表达系统，其特征在于，所述表达系统的出发宿主选自真核细胞或原核细胞。

10.如权利要求9所述的表达系统，其特征在于，所述出发宿主为小鼠细胞或人细胞。

11.如权利要求10所述的表达系统，其特征在于，所述出发宿主为小鼠脑神经瘤细胞或人胚胎肾细胞。

12.如权利要求11所述的表达系统，其特征在于，所述出发宿主为N2a细胞或HEK293T细胞。

13.如权利要求1或2所述的融合蛋白、如权利要求3~5任一项所述的核酸构建体、如权利要求6或7所述的重组表达载体或如权利要求8~12任一项所述的表达系统在制备基因编辑试剂的药物中的应用。

14.如权利要求13所述的应用，其特征在于，所述药物为治疗遗传性疾病的药物。

15.一种碱基编辑体系，其包括如权利要求1或2所述的融合蛋白。

16.如权利要求15所述的碱基编辑体系，其特征在于，所述碱基编辑体系还包括sgRNA。

17.如权利要求16所述的碱基编辑体系，其特征在于，所述sgRNA的序列如SEQ ID NO:16~ SEQ ID NO: 63中的任一条所示。

18.一种非治疗目的的基因编辑方法，其特征在于，通过如权利要求1或2所述的融合蛋白或如权利要求15~17任一项所述的碱基编辑体系进行基因编辑。

19.如权利要求1或2所述的融合蛋白的制备方法，其包括以下步骤：

（1）在骨架质粒中加入编码含Y130F的hA3A片段的多核苷酸、编码含V106W的TadA8e片段的多核苷酸和编码含D10A的SpRY片段的多核苷酸，由此获得重组表达载体；

（2）转染所述重组表达载体至出发宿主使其表达所述融合蛋白即可；

其中，所述含Y130F的hA3A片段的氨基酸序列如SEQ ID NO: 1所示，所述含V106W的TadA8e片段的氨基酸序列如SEQ ID NO: 3所示，所述含D10A的SpRY片段的氨基酸序列如SEQ ID NO: 5所示，

所述融合蛋白还包括UGI片段和核定位信号片段；所述UGI片段位于所述含D10A的SpRY片段的3’端，所述核定位信号片段位于所述融合蛋白的5’端和3’端；所述核定位信号片段包括两个拷贝，每个拷贝的氨基酸序列如SEQ ID NO: 7和/或SEQ ID NO: 9所示；所述UGI片段包括两个拷贝，每个拷贝的氨基酸序列如SEQ ID NO: 11所示。

20.如权利要求19所述的制备方法，其特征在于，所述骨架质粒为pCMV或其衍生质粒ABE8e；和/或，所述出发宿主为HEK293T细胞。

21.如权利要求20所述的制备方法，其特征在于，编码所述含Y130F的hA3A片段的核苷酸序列如SEQ ID NO: 2所示；