CN110835634A

CN110835634A - 一种新型碱基转换编辑系统及其应用

Info

Publication number: CN110835634A
Application number: CN201810929391.3A
Authority: CN
Inventors: 李大力; 张晓辉; 谢玲; 朱碧云; 刘明耀
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2018-08-15
Filing date: 2018-08-15
Publication date: 2020-02-25
Anticipated expiration: 2038-08-15
Also published as: CN110835634B

Abstract

本发明首次创新提出了一种新型碱基转换编辑系统，除了保留单碱基基因编辑系统的功能—即实现指定位点单个碱基C/G到T/A的转换，以及实现A/T到G/C转换，同时也能实现指定位点C/G到T/A、和A/T到G/C的转换，所述新型碱基转换编辑系统包括sgRNA、能够靶向识别DNA序列的核酸酶、胞嘧啶脱氨酶、腺苷脱氨酶、尿嘧啶糖苷酶抑制剂。本发明还提供包含该新型碱基转换编辑系统的组合物或试剂盒，以及其在基因编辑、胞嘧啶脱氨酶的活性检测、腺苷脱氨酶的活性检测等各方面的应用。本发明突破了现有技术中只能进行单一类型碱基转换的技术局限，可以实现更大范围的DNA碱基改变，进一步丰富了碱基编辑工具箱。

Description

一种新型碱基转换编辑系统及其应用

技术领域

本发明涉及基因编辑技术领域，具体涉及一种新型碱基转换编辑系统及其应用。

背景技术

基因编辑技术属于一种新的DNA序列定点改造的分子生物学工具，能在一段人工设计的RNA序列引导下，识别特定的配对DNA序列，通过同时具有胞嘧啶脱氨酶和腺嘌呤脱氨酶的作用，将在特定窗口内除了实现单个碱基C/G到T/A的转换，还可以实现A/T到G/C转换，同时也能实现C/G到T/A，A/T到G/C同时转换，形成两种类型碱基的转换，对这一段DNA的蛋白质编码、基因转录调控、非编码RNA的序列进行改造，实现一系列新的生物学功能变化，可以广泛用于DNA改造相关的应用，例如生物材料的改进、动植物的品种改良(基因改造和性状提升)、功能基因筛选等。

随着基因编辑技术的崛起，人们开始使用ZFN、TALEN、CRISPR/Cas等技术对各种功能基因进行编辑进行研究。其中ZFN技术是由一种能够靶向特定DNA序列的锌指蛋白组合和Type II核酸内切酶(如FokI)融合组成的人工重组蛋白。一般情况下，FokI被改造成需要通过二聚体发挥作用，所以需要一对靶向特定序列的ZFN，FokI才能够切开DNA。目前，ZFN技术已用于原核，真核细胞的基因编辑，基因功能的筛选等领域。虽然ZFN技术已经在很大程度上使得基因编辑简单化，不过其自身也存在一些不容忽视的缺陷。比如对于不同的靶点序列需要构建不同的ZFN表达载体，减缓了实验速度，且锌指对于DNA的特异性会受到上下游锌指结构的影响，使得研究人员不得不对构建好的锌指进行特异性筛选，从而再次使得实验变的繁琐且费时。

TALEN技术与ZFN技术类似，是将能够与特定DNA序列结合的类转录激活效应元件与FokI、meganuclease等核酸酶融合形成人工核酸酶。TALEN的DNA结合域与ZFN类似也是由多个元件(TALE)构成，每个TALE模块由34个氨基酸组成其中第12、13位氨基酸负责识别特异的DNA碱基。相比ZFN，TALEN的优点在于每一个TALE模块识别的DNA碱基是相互独立且一一对应的，所以在特异性和效率上TALEN比ZFN更高。不过其缺点也与ZFN类似：对于新的靶点需要重新构建对应的TALEN序列，而且切割DNA的活性不够高。

近几年出现的CRISPR/Cas技术由于其高效和灵活性正被越来越多的使用到基因编辑研究中。CRISPR/Cas来源于古细菌的一种抵御质粒、噬菌体等外源DNA片段入侵的获得性免疫机制。CRISPR/Cas9基因编辑系统的核心是一个RNA-蛋白复合物，由能与基因组中靶DNA序列互补结合的sgRNA和Cas9核酸酶两部分组成。当该复合物与靶位点结合之后，会激活Cas9核酸酶的活性，从而切割靶DNA，产生双链断裂(DSB)的DNA损伤。DSB进一步激活细胞内的DNA损伤修复机制，主要包括易错的非同源末端连接(nonhomologous end joining，NHEJ)以及高保真的同源重组修复(homologous recombination，HDR)。非同源末端连接的修复方式会在靶位点处产生DNA片段的插入或缺失(indels)，导致移码突变，从而造成靶基因的功能丧失，成为无效等位基因(null allele)。当通过同源重组的方式进行修复时，需要内源的同源序列或者外源导入的同源序列作为修复模板，在靶位点处敲入外源片段或引入点突变。但是，在细胞中，同源重组的效率远远低于非同源末端连接，导致靶位点处修复结果不可控，并倾向于产生核苷酸的插入和缺失。此外，利用该系统进行基因编辑可能会产生脱靶效应，在基因组非靶向位置诱发DSB，影响脱靶位点基因或附近基因的正常功能。

随着基因编辑技术能够在基因组上实现单个碱基的定点编辑，从而为细胞突变、遗传育种的领域提供有力工具，已经有国内外研究机构开展这方面的研究，并取得了研究成果。

2016年4月，哈佛大学生物化学家David Liu报道了一种新的基因编辑工具-单碱基编辑系统。单碱基编辑系统主要由sgRNA和融合蛋白两部分组成，其中融合蛋白一般由改造的Cas9蛋白、胞嘧啶脱氨酶和尿嘧啶糖基化酶抑制剂三者构成。sgRNA通过与靶位点互补配对，引导融合蛋白结合到靶位点发挥作用。融合蛋白中的胞嘧啶脱氨酶能够使非互补链中相应的胞嘧啶C经脱氨基作用转变为尿嘧啶U，而DNA复制进一步使得U被T代替，而互补链上原来与C的互补碱基鸟嘌呤G将会变成腺嘌呤A，而尿嘧啶糖基化酶抑制剂则能够抑制U的切除，最终实现非互补链上的C替换为T和互补链上G替换为A的精确编辑。2017年10月，David Liu实验室又报道了另外一种新的基因编辑工具-单碱基编辑系统。即将腺嘌呤脱氨酶替换上述的胞嘧啶脱氨酶，同样是通过sgRNA与靶位点互补配对，引导融合蛋白结合到靶位点发挥作用。融合蛋白中的腺嘌呤脱氨酶能够使非互补链中相应的胞嘧啶A经脱氨基作用转变为肌苷I，而DNA上被当作G进行读码与复制，在其互补链也会引起相应的T到C的替换，最终实现非互补链上的A替换为G和互补链上的T替换为C的精确编辑。

例如，中国发明专利申请201710437122.0、“基于碱基编辑的基因敲除方法及其应用”公开了一种基于碱基编辑的基因敲除方法及其应用。该基因敲除方法包括：选定待敲除基因的编码区的20bp–NGG目标序列，使其包含完整的目标密码子CAA、CAG或CGA；利用sgRNA序列来将BE3定位到目标序列以使目标密码子中的目标单碱基C变成T从而相应引入终止密码子TAA或TAG、TGA以实现基因敲除。虽然该方法涉及单碱基编辑技术，并没有对单碱基编辑技术提出进一步改进，例如没有提出单个碱基A/T到G/C基因组定点编辑的原始创新和相关原理，更没有提出同时两种不同原理和编辑方式并存的创新思路和相关原理，其仍然是通过将单个碱基C/G编辑成T/A从而实现基因敲除的目的。

中国发明专利申请201710383003.1、“一种定点突变的人工载体系统及定点突变方法”公开了一种用于水稻基因组碱基定点替换的人工系统及定点突变方法。该方法包括2种调控元件，能够将水稻中的所述靶位点处的C突变为T、A或G；或将所述靶位点处的G突变为A、T或C。虽然该方法能够实现单个碱基C/G到T/A基因组定点编辑，但其仍然是基于胞嘧啶去氨酶介导的单碱基替换技术，也没有提出单个碱基A/T到G/C基因组定点编辑的原始创新和相关方法，更没有提出同时两种不同原理和编辑方式并存的创新思路和相关方法。

专利申请WO2015089406、“用于基因编辑的CAS变体”公开了一种改造的Cas9蛋白变体和脱氨酶结构域的融合蛋白，其中脱氨酶选自胞苷脱氨酶(例如APOBEC1家族脱氨酶、ACF1/ASE脱氨酶)、腺嘌呤脱氨酶(如ADAT家族脱氨酶)。该专利申请提出既可以使用修饰的胞苷脱氨酶或腺嘌呤脱氨酶，用于对靶DNA序列修饰与疾病或失调相关的点突变，例如修正C→T和/或G→A点突变，以实现单个碱基C/G到T/A基因组定点编辑。

在以上研究结果中，虽然HDR能引入精确的突变，但是其效率较低，约为0.1％-5％。同时由于Cas9介导的HDR依赖于DSB的产生，不可避免的激活NHEJ修复方式，出现较高频率的非预期的碱基改变，也有可能产生脱靶切割。如何能在不引入双链断裂的情况下进行精确的基因修饰成为极具挑战的前沿技术难题。此外，在已有的研究结果中，基因编辑系统或是单独发挥C/G编辑为T/A(胞苷脱氨酶)，或是单独发挥A/T编辑为G/C(腺嘌呤脱氨酶)，如果直接将两种系统同时转入细胞中，由于两种酶的作用位点是类似的，将其同时融合到cas9上，那么在一个等位基因上只能实现某一种碱基的编辑，不能实现两种单碱基的改变，并且还存在胞嘧啶脱氨酶的突变窗口过于狭窄(仅4-8个碱基)，以及腺嘌呤脱氨酶的活性不高的缺陷。

随着基因编辑技术的发展突飞猛进，可以预料其将广泛用于食品安全、物种改良等广大领域。但是最新的研究成果主要集中在欧美发达国家，并已经进入中国开始申请相关技术保护。因此，为了提高中国的研究水平，保护中国科研成果，以实现“中国制造2025战略发展规划中涉及生物医药”中抢占技术领先点，必须提供一种新的碱基编辑技术，以实现中国在科技创新上弯道超车，尽快赶超和领先欧美先进水平，以确保该技术为中国人民所用。

发明内容

由于现有技术中公开的是胞嘧啶脱氨酶融合CRISPR/Cas9或将腺嘌呤脱氨酶融合CRISPR/Cas9的单碱基突变技术，不能实现双碱基同时突变。相比较现有技术，本发明首次创新提出一种融合了经过改造的胞嘧啶脱氨酶与腺嘌呤脱氨酶两种脱氨酶，经一次转染步骤，能在给定突变窗口内实现C/G到T/A，A/T到G/C两种碱基类型的同时突变的新型碱基转换编辑系统。

因此，本发明第一目的是提供一种用于对基因组突变窗口进行编辑的新型碱基转换编辑系统或组合物，其包含用于表达含有能够靶向识别DNA序列的核酸酶(如Cas9核酸酶或Cas9蛋白)、胞嘧啶脱氨酶和腺嘌呤脱氨酶的融合蛋白的第一载体或第一核酸构建体，和用于表达sgRNA及尿嘧啶糖苷酶抑制剂的第二载体或第二核酸构建体。

本发明中，所述第一载体或第一核酸构建体包括5’-3’的式(I)结构：

P_II-X₁-L₁-X₂(T₁-T₂)-L₂-X₃-PolyA 式(I)；

其中，P_II为II型启动子，选自CMV启动子、CAG启动子、PGK启动子、EF1α启动子、或其他的RNA聚合酶II型启动子或其组合。

X₁选自胞嘧啶脱氨酶的编码序列，或以RNA为底物的胞嘧啶脱氨酶经过修饰改造后能够以DNA为底物进行脱氨的胞嘧啶脱氨酶，其来源于大鼠、小鼠、人、细菌或噬菌体等及其组合；优选地，选自AID或Apobec1。

X₂为腺嘌呤脱氨酶的编码序列，或具有DNA或RNA腺嘌呤脱氨功能的各个物种中的类似酶类(如ADAR)等，其来源于大鼠、小鼠、人、细菌或噬菌体等及其组合，其包括串联的野生型腺嘌呤脱氨酶T₁和突变型腺嘌呤脱氨酶T₂；在优选的方案中，X₂为串联的野生型腺嘌呤脱氨酶T₁(即野生型TadA腺嘌呤脱氨酶)和突变型腺嘌呤脱氨酶T₂(即突变型TadA*的腺嘌呤脱氨酶)。

X₃包括突变型Cas9核酸酶的编码序列；或以DNA，RNA为向导序列、靶向特定DNA序列的蛋白质及相关系统，包括Cpf1及其同源基因、SaCas9等相关同源蛋白；还包括以蛋白质模块识别DNA的工具系统，包括锌指核酸酶(ZFN)、转录激活样效应因子(TALE)等；优选地，X₃为带有D10A突变的可以实现切割靶向链的Cas9核酸酶的编码序列(即SpCas9n)。

PolyA为BGH序列或SV40的PolyA序列，或其他PolyA序列；优选地，所述PolyA是BGH序列。

L₁、L₂为无或连接序列；优选地，L₁是带有NLS的连接序列，具体为SEQ ID No.52：SGGSPKKRKVGSSGS，L₂是32个氨基酸的长度连接序列，具体为SEQ ID No.53：SGGSSGGSSGSETPGTSESATPESSGGSSGGS。

上述“-”表示连接键或核苷酸连接序列。

本发明中，所述第二载体包括5’-3’的式(II)结构：

P_III-Y₁-P_II-Y₂-L₃-Y₃-PolyA 式(II)；

其中，P_III为III型启动子；选自H1启动子、U6启动子，或其他的RNA聚合酶III型启动子或其组合；

Y₁为sgRNA的骨架序列，该sgRNA是能够与指定靶点序列互补配对的导向RNA；

P_II为II型启动子；

Y₂为尿嘧啶糖苷酶抑制剂的编码序列，其来源于大鼠、小鼠、人、细菌或噬菌体及其组合；优选地，所述尿嘧啶糖苷酶抑制剂为人源尿嘧啶糖苷酶抑制剂UGI。

L₃为自剪接多肽，选自T2A、P2A、E2A、F2A之一或其组合。

Y₃为筛选标记蛋白表达序列；优选地，所述Y₃为绿色荧光蛋白。

上述“-”表示连接键或核苷酸连接序列。

在一个实施方案中，所述式(I)中，P_II选自CMV启动子、CAG启动子、PGK启动子、EF1α启动子或其组合；X₁为来源大鼠胞嘧啶脱氨酶或人胞嘧啶脱氨酶的编码序列；X₂为细菌来源的腺嘌呤脱氨酶的编码序列，其包括串联的野生型腺嘌呤脱氨酶T₁和突变型腺嘌呤脱氨酶T₂；X₃为带有D10A突变的可以实现切割靶向链的Cas9核酸酶的编码序列；PolyA为BGH序列或SV40的PolyA序列，或其他polyA序列。

在另一实施方案中，所述式(II)中，P_III为H1启动子、U6启动子或其组合；Y₁为spCas9核酸酶的sgRNA的骨架序列，且与式(I)所使用的Cas9核酸内切酶相对应；所述Y₂选自人源尿嘧啶糖苷酶抑制剂UGI；所述L₃是自剪接多肽T2A；所述Y₃为绿色荧光蛋白；所述PolyA是BGH序列。

在一个优选实施方案中，sgRNA的任意位置含有C且同时5-8位对应于出现A且能与对应的指定位点进行互补配对，从而除了实现指定位点单个碱基C/G到T/A的转换，还可以实现A/T到G/C转换，也能同时实现指定位点C/G到T/A，以及A/T到G/C转换。

在一个具体实施方案中，Cas9核酸酶选自来源于酿酒酵母Cas9的突变体spCas9n，或选自能识别其它PAM的的Cas9突变体，或选自识别PAM:NNGRRT的黄色葡萄球菌来源的SaCas9n，或选自识别PAM:NNNRRT的黄色葡萄球菌来源SaCas9n突变体，或选自来源于Cas9家族的、能识别TTTN PAM 2类的效应蛋白Cpf1，或选自与cas9功能类似的其他物种中的CRISPR蛋白，以及在此基础上构建的能提高精确性或能识别更广泛PAM的Cas9突变体。

在上述任一实施方案中，所述碱基转换编辑系统编辑的对象还包括来自真核细胞、细菌、酵母、动物细胞、植物细胞的个体或植株。在一个优选实施方案中，其中所述真核细胞为人293T细胞、人U2OS细胞、人iPS细胞或其它真核细胞。

在上述任一实施方案中，所述突变窗口是指从距离PAM远端数起第-3-20位碱基胞嘧啶(C)及从距离PAM远端数起第5-8位碱基腺嘌呤(A)的核苷酸序列。本发明碱基转换编辑系统的突变窗口为距离PAM远端数起第-3-20位碱基胞嘧啶(C)及从距离PAM远端数起第5-8位碱基腺嘌呤(A)的核苷酸序列。

在上述任一实施方案中，其中所述尿嘧啶糖苷酶抑制剂还可为大鼠、小鼠、细菌或噬菌体来源或其组合。

还在上述任一实施方案中，所述筛选标记蛋白还可包括绿色光蛋白、黄色荧光蛋白、红色荧光蛋白或其组合。

在上述任一实施方案中，所述包含融合蛋白的第一载体的式(I)(即P_II-X₁-L₁-X₂(T₁-T₂)-L₂-X₃-PolyA)中，

X₁是AID或Apobec1；

L₁是带有NLS的连接序列，具体为SEQ ID No.52：SGGSPKKRKVGSSGS；L₂是32个氨基酸的长度连接序列，具体为SEQ ID No.53：SGGSSGGSSGSETPGTSESATPESSGGSSGGS；

T₁是野生型TadA腺嘌呤脱氨酶；

T₂是突变型TadA*的腺嘌呤脱氨酶；

X₃是带有D10A突变的Cas9，即SpCas9n；

PolyA是BGH序列。

在一个优选实施方案中，当X₁是AID时，第一载体是ACBE-N-AID，其具有如SEQ IDNO.1所示的氨基酸序列：

MDSLLMNRRKFLYQFKNVRWAKGRRETYLCYVVKRRDSATSFSLDFGYLRNKNGCHVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGNPNLSLRIFTARLYFCEDRKAEPEGLRRLHRAGVQIAIMTFKDYFYCWNTFVENHERTFKAWEGLHENSVRLSRQLRRILLPSGGSPKKKRKVGSSGSSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSPKKKRKV*。

在另一优选实施方案中，当X₁是Apobec1时，第一载体是ACBE-N-Apobec1，其具有SEQ ID NO.2所示的氨基酸序列。

MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKSGGSPKKKRKVGSSGSSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSPKKKRKV*

在其他优选实施方案中，所述AID或Apobec1可选自细菌、小鼠来源或其它物种来源的胞嘧啶脱氨酶。在另外优选实施方案中，TadA及TadA*选自大肠杆菌来源腺嘌呤脱氨酶或其它细菌属来源的腺嘌呤脱氨酶。

在上述任一实施方案中，胞嘧啶脱氨酶不局限于本发明中使用的Apobec1和AID，凡是具有胞嘧啶脱氨功能的任何物种的酶都可以经过改造，替代本发明中使用的两种酶，还应当包括可以以RNA为底物的胞嘧啶脱氨酶经过修饰改造后能够以DNA为底物进行胞嘧啶脱氨酶。腺嘌呤脱氨酶除了本发明中使用的TadA及其突变体，还应当包括ADAR等具有DNA或者RNA腺嘌呤脱氨功能的各个物种中的类似酶类。

在一具体实施方案中，本发明通过将胞嘧啶脱氨酶和腺嘌呤脱氨酶与Cas9核酸酶进行融合，形成ACBE-N-AID，ACBE-N-Apobec1，可在特定窗口内除了实现单个碱基C/G到T/A的转换，A/T到G/C转换；同时也能实现C/G到T/A、和A/T到G/C的同时转换，形成两种类型碱基的转换。

在上述任一实施方案中，所述第二载体包括U6-sgRNA-CMV-UGI-T₂A-GFP。

在上述任一实施方案中，结合特定DNA的工具除了本发明中使用的Cas9，也包括其他的以DNA，RNA为向导序列，靶向特定DNA序列的蛋白质及相关系统，包括Cpf1及其同源基因、SaCas9等相关同源蛋白；还包括以蛋白质模块识别DNA的工具系统，包括锌指核酸酶(ZFN)、转录激活样效应因子(TALE)等。

本发明第二目的是提供上述碱基转换编辑系统或组合物的构建方法，所述方法包括：将所述胞嘧啶脱氨酶、野生型和突变型腺嘌呤脱氨酶、Cas9核酸酶、尿嘧啶糖苷酶按一定顺序进行融合构建，从而实现在Cas9核酸酶的介导下，在特定窗口内实现单个碱基C/G到T/A或A/T到G/C的单碱基转换，还可以实现C/G到T/A，和A/T到G/C的两种类型碱基同时转换。

在一个实施方案中，其中该构建方法的步骤包括：

(1)通过PCR扩增和分子克隆技术，构建如式(I)所示的第一载体或第一核酸构建体，P_II-X₁-L₁-X₂(T₁-T₂)-L₂-X₃-PolyA 式(I)；

(2)通过PCR扩增和分子克隆技术，构建如式(II)所示的第二载体或第二核酸构建体：P_III-Y₁-P_II-Y₂-L₃-Y₃-PolyA 式(II)；

(3)将第一载体或第一核酸构建体与第二载体或第二核酸构建体，按照质量比例1:2进行混合，例如第一核酸构建体:第二核酸构建体质量比为250ng:500ng；

其中，

P_II为II型启动子，选自CMV启动子、CAG启动子、PGK启动子、EF1α启动子、或其他的RNA聚合酶II型启动子或其组合；

X₁为胞嘧啶脱氨酶的编码序列，其来源于大鼠、小鼠、人、细菌或噬菌体及其组合；

X₂为腺嘌呤脱氨酶的编码序列，其来源于大鼠、小鼠、人、细菌或噬菌体及其组合，其包括串联的野生型腺嘌呤脱氨酶T₁和突变型腺嘌呤脱氨酶T₂；

X₃为突变型Cas9核酸酶的编码序列；或以DNA，RNA为向导序列、靶向特定DNA序列的蛋白质及相关系统，包括Cpf1及其同源基因、SaCas9相关同源蛋白；或以蛋白质模块识别DNA的工具系统，包括锌指核酸酶ZFN、转录激活样效应因子TALE。

L₁、L₂为无或连接序列；

P_III为III型启动子；

Y₂为人源尿嘧啶糖苷酶抑制剂的编码序列；

L₃为自剪接多肽，选自T2A、P2A、E2A、F2A之一或其组合；

Y₃为筛选标记蛋白表达序列；

上述“-”表示连接键或核苷酸连接序列。

在一个实施方案中，所述P_II选自CMV启动子、CAG启动子、PGK启动子、EF1α启动子或其组合；X₁为AID或Apobec1；X₂为细菌来源的腺嘌呤脱氨酶的编码序列，其包括串联的野生型腺嘌呤脱氨酶T₁和突变型腺嘌呤脱氨酶T₂；X₃为带有D10A突变的可以实现切割靶向链Cas9核酸酶的编码序列；PolyA为BGH序列或SV40的PolyA序列，或其他PolyA序列。

在另一实施方案中，所述P_III为H1启动子、U6启动子或其组合；Y₁为spCas9核酸酶的sgRNA的骨架序列，且与式(I)所使用的Cas9核酸内切酶相对应；所述Y₂选自人源尿嘧啶糖苷酶抑制剂UGI；所述L₃是自剪接多肽T2A；所述Y₃为绿色荧光蛋白；所述PolyA是BGH序列。

在上述任一实施方案中，所述第一载体包括或第一核酸构建体是ACBE-N-AID或ACBE-N-Apobec1。

在上述任一实施方案中，所述第二载体或第二核酸构建体包括U6-sgRNA-CMV-UGI-T₂A-GFP。

在上述任一实施方案中，其中该构建方法的步骤包括：

(1)通过PCR扩增和分子克隆技术，构建第一载体或第一核酸构建体：CMV-AID/Apobec1-TadA-TadA*-Cas9n(即ACBE-N-AID/Apobec1)；

(2)通过PCR扩增和分子克隆技术，构建第二载体或第二核酸构建体：U6-sgRNA-CMV-UGI-T₂A-GFP。

(3)将第一载体或第一核酸构建体与第二载体或第二核酸构建体，按照质量比1:2的比例进行混合。

其中，该构建方法还包括步骤(4)，将两种载体(第一载体或第一核酸构建体与第二载体或第二核酸构建体)转染到宿主细胞，例如真核细胞、细菌、酵母、动物细胞、植物细胞之一或其组合。在一个优选实施方案中，其中该碱基转换编辑系统需要在宿主细胞内孵育120h或更长时间。

本发明还提供了由上述构建方法构建得到的碱基转换编辑系统或组合物。

本发明第三目的是提供利用上述任一构建方案得到的碱基转换编辑系统或组合物，对宿主基因组进行碱基转换编辑的方法，该方法可在Cas9介导下，在特定窗口内实现单个碱基C/G到T/A、或A/T到G/C的单碱基转换，还可以实现C/G到T/A、和A/T到G/C的两种类型碱基同时转换。

在一个实施方案中，其中所述碱基转换编辑系统包括如式(I)和(II)所示的第一载体和第二载体，并且二者按数量比例1:2进行混合，然后转入宿主细胞中，其中所述宿主细胞选自真核细胞、细菌、酵母、动物细胞和植物细胞之一或其组合。其中，

P_II-X₁-L₁-X₂(T₁-T₂)-L₂-X₃-PolyA 式(I)；

P_III-Y₁-P_II-Y₂-L₃-Y₃-PolyA 式(II)；

其中，

P_II为II型启动子；

X₃为突变型Cas9核酸酶的编码序列；

L₁、L₂为无或连接序列；

P_III为III型启动子；

Y₂为尿嘧啶糖苷酶抑制剂的编码序列，其来源于大鼠、小鼠、人、细菌或噬菌体及其组合；

L₃为自剪接多肽，选自T2A、P2A、E2A、F2A之一或其组合；

Y₃为筛选标记蛋白表达序列；

上述“-”表示连接键或核苷酸连接序列。

在一个实施方案中，所述P_II选自CMV启动子、CAG启动子、PGK启动子、EF1α启动子或其组合，或其他的RNA聚合酶II型启动子；X₁为AID或Apobec1；X₂为细菌来源的腺嘌呤脱氨酶的编码序列，其包括串联的野生型腺嘌呤脱氨酶T₁和突变型腺嘌呤脱氨酶T₂；X₃为带有D10A突变的可以实现切割靶向链Cas9核酸酶的编码序列；PolyA为BGH序列或SV40的PolyA序列，或其他polyA序列。

在另一实施方案中，所述P_III为H1启动子、U6启动子或其组合，或其他的RNA聚合酶III型启动子；Y₁为spCas9核酸酶的sgRNA的骨架序列，且与式(I)所使用的Cas9核酸内切酶相对应；所述Y₂选自人源尿嘧啶糖苷酶抑制剂UGI；所述L₃是自剪接多肽T2A；所述Y₃为绿色荧光蛋白；所述PolyA是PA序列。

在上述任一实施方案中，其中该细胞还包括被上述式(I)、(II)所转染的宿主细胞，例如真核细胞、细菌，酵母，动物细胞、植物细胞。

在上述任一实施方案中，所述第一载体或第一核酸构建体是ACBE-N-AID或ACBE-N-Apobec1。

本发明第四个目的是提供一种试剂盒，其包括如上所述的碱基转换编辑系统或组合物。

在一个实施方案中，所述试剂盒还包括合适的试剂、缓冲液和/或说明书。

本发明第五个目的是提供包含所述碱基转换编辑系统的工程化细胞或重组细胞，其包含但不限于作为宿主细胞的真核细胞、细菌、酵母、动物细胞、植物细胞。

本发明第六个目的是提供上述的或通过上述方法所制备的碱基转换编辑系统或组合物试剂盒，或包含所述碱基转换编辑系统的试剂盒或工程化细胞或重组细胞，用于对宿主或宿主细胞进行碱基转换编辑的用途，其中所述碱基转换编辑系统能在宿主或宿主细胞的特定窗口内实现单个碱基C/G到T/A、或A/T到G/C的转换，还可以实现C/G到T/A、和A/T到G/C的两种类型碱基同时转换。

在一个实施方案中，所述宿主或宿主细胞选自真核细胞、细菌、酵母、动物细胞或植物细胞；所述用途是使细胞内产生点突变，包括向所述细胞中导入所述碱基转换编辑系统或所述组合物，或包含所述碱基转换编辑系统的试剂盒或所述工程化细胞或重组细胞的步骤；其中，所述sgRNA根据待突变靶序列进行设计，包括靶标结合区和Cas9核酸酶识别区，所述靶标结合区能特异性结合待突变的核酸序列，所述Cas9核酸酶识别区能被所述Cas9核酸酶识别并结合。

在一个具体实施方案中，所述用途是对宿主或宿主细胞(如真核细胞、细菌、酵母，动物细胞或植物细胞)进行双碱基编辑，以获得改善的生长性能。在优选的实施方案中，所述改善的生长性能包括但不限于：品种的改良、目的产物产量的提高、生长速度的提高、抗病性或抗逆性的提高、子代数目的提高、动物肉质的改善、食物风味的改善、人源化蛋白质产品的获得等。

在另一实施方案中，所述用途是对宿主细胞的功能基因的筛选，所述细胞选自真核细胞、细菌、酵母，动物细胞或植物细胞。在一个具体实施方案中，所述用途是对真核细胞、细菌、酵母，动物细胞或植物细胞进行双碱基编辑，对目的基因进行功能验证、功能失活、敲除、恢复、新功能的获得。

本发明原理

现有技术中公开的单碱基编辑系统中，主要是胞嘧啶脱氨酶融合CRISPR/Cas9的系统(Base Editor/单碱基编辑系统，即BE系统)，例如在Cas9n的介导下能实现在特定窗口内C(胞嘧啶)到T(胸腺嘧啶)的突变，其中起主要作用的是胞嘧啶脱氨酶，在细胞内，胞嘧啶脱氨酶能将C脱去氨基变为U，同时表达的尿嘧啶糖苷酶抑制剂能抑制细胞内切除修复，经过DNA的复制与修复，最终将DNA中的C突变为T碱基。其中，CBE(Cas9n介导的BE系统)中以BE3应用最为广泛。

最近出现的单碱基编辑系统中，主要是将腺嘌呤脱氨酶融合CRISPR/Cas9(Adenine Base Editor/腺嘌呤碱基编辑系统，即ABE系统)的单碱基突变系统。其中，ABE是指在Cas9n的介导下能实现在特定窗口内A(腺嘌呤)到G(鸟嘌呤)的突变，其中起主要作用是腺嘌呤脱氨酶TadA，在细胞内，腺嘌呤脱氨酶TadA能将A脱去氨基变为I(肌苷)，它可以与C配对，在DNA水平被视为G读码与复制，从而实现DNA水平的A到G的突变。ABE中以ABE7.10效率最高。

由于自然存在的野生腺嘌呤脱氨酶TadA不能直接以DNA为底物，并且David Liu等也尝试将不同物种来源的针对RNA的野生腺苷脱氨酶与Cas9n融合，但均没有编辑活性，因此现有技术中需要对其进行突变改造。然而，发明人发现，现有技术在对涉及野生型TadA或突变型TadA*的ABE系统进行进一步改造过程中，如果将突变型TadA*融合于nCas9碳端，结果发现完全失去了脱氨功能。如果在ABE系统中分别表达野生型TadA或突变型TadA*，能提高编辑效率，例如引入突变产生ABE3.1(ABE2.9+L84F+H123Y+I157F)，将效率提高至29％±2.6％。然而，其缺点在于在不同靶点间的编辑效率差异很大且在突变窗口内对Y(Y为T或C)AC序列有明显偏好性，如果A两侧不是Y和C，效率则显著下降。

然而，相比较现有技术，本发明首次创新提出了融合了胞嘧啶脱氨酶与腺嘌呤脱氨酶两种脱氨酶，由此构建的碱基转换编辑系统或组合物，经一次转染步骤，能实现C/G到T/A和A/T到G/C的双碱基单独或同时转换。

为了实现该发明目的，一方面，本发明在现有技术的基础上，尝试将双脱氨酶(即胞嘧啶脱氨酶和腺嘌呤脱氨酶)与Cas9构建融合载体。然后，实验发现并非所有的双脱氨酶构建的方案都适宜，并且不同的融合方式，碱基转换编辑的效率有比较大的差别，需要反复摸索和大胆尝试。例如，试验发现，将胞嘧啶脱氨酶融合到C端以后再额外表达尿嘧啶糖苷酶抑制剂的编码序列(如UGI)，则不出现或者出现较低的C/G到T/A，A/T到G/C的同时突变。在此基础上，如果将尿嘧啶糖苷酶抑制剂的编码序列(如UGI)直接融合到第一载体上的C端，双碱基同时突变的效率非常低。因此，本发明意外地发现尿嘧啶糖苷酶抑制剂的编码序列的构建位置对于碱基转换编辑系统的双碱基同时编辑的效率至关重要。在一优选的实施方式中，本发明构建方法将两种脱氨酶同时构建到能够靶识别DNA序列的核酸酶(如Cas9核酸酶)的N端上进行融合表达，重新设计了脱氨酶的突变类型、组合方式及顺序，即胞嘧啶脱氨酶-野生型腺嘌呤脱氨酶-优化的突变型腺嘌呤脱氨酶-优化的Cas9核酸酶(D10)。并通过比较实验，选择引入串联的野生型腺嘌呤脱氨酶T₁和突变型腺嘌呤脱氨酶T₂的组合方式。这种组合并非普通的腺嘌呤脱氨酶组合，而是利用了野生型腺嘌呤脱氨酶T₁保持单链DNA的结合能力，以及突变型腺嘌呤脱氨酶T₂保持腺嘌呤脱氨基的功能，从而发挥该组合促进融合蛋白既有较好的单链结合活性，又具备较好的腺嘌呤脱氨基的功能，从而能具备较为优秀的碱基转换编辑活性。

另一方面，根据以上的意外发现，本发明还改造了尿嘧啶糖基化酶抑制剂的表达方式。尿嘧啶糖基化酶抑制剂是为了抑制细胞内源性的尿嘧啶糖苷酶，从而抑制U的切除修复，从而保持C到T较高较精确的突变效率。在现有技术中，尿嘧啶糖基化酶抑制剂(如UGI)通常与Cas9酶进行融合蛋白，但本发明发现将UGI融合到第一载体Cas9的C端，发现相应的靶点效率非常低或者几乎没有突变活性。因此，本发明选择将尿嘧啶糖基化酶抑制剂与sgRNA进行共表达。不同于式(I)中的一个启动子驱动表达融合蛋白，本发明选择在式(II)中通过不同启动子分别驱动尿嘧啶糖基化酶抑制剂与sgRNA进行表达，既不会干扰sgRNA靶向识别特异性位点，同时能发挥尿嘧啶糖基化酶抑制剂通过抑制U的切除修复而保持C到T较高较精确的突变效率。

根据以上两个方面，本发明设计了一系列的碱基转换编辑系统，试验表明其具有理想的双碱基突变效率。进一步地，经过优化设计，本发明优选构建了具有不同序列的式(I)的核酸构建体，即ACBE-N-AID或ACBE-N-Apobec1。这2种核酸构建体都能与第二载体进行组合，并高效完成双基因精确突变的作用。

综上，本发明提出的能同时实现指定位点嘧啶和嘌呤碱基置换的基因组编辑系统，通过Cas9n按一定顺序同时融合两种脱氨酶(胞嘧啶脱氨酶与腺嘌呤脱氨酶)，对于给定的基因组位点，除了实现单个碱基C/G到T/A的转换，还可以实现A/T到G/C转换，也能实现C/G到T/A，A/T到G/C的同时转换，并且不引入DSB(double strands breaks)，插入与缺失(indels)，脱靶效应极低，更加安全高效。

本发明提出的碱基转换编辑系统，打破了现有工具只能实现嘌呤或者嘧啶之间单一类型碱基转换的不足，进一步丰富了碱基编辑的工具箱。

本领域中，所述特定位点、特定窗口、给定窗口、工作窗口、工作靶点、突变窗口的含义相同，均指从距离PAM远端数起第-3-20位碱基胞嘧啶(C)及从距离PAM远端数起第5-8位碱基腺嘌呤(A)的核苷酸序列。

本发明中，所述AID的氨基酸序列如下SEQ ID NO.3所示；所述Apobec1的氨基酸序列如下SEQ ID NO.4所示；所述TadA的氨基酸序列如下SEQ ID NO.5所示；所述TadA*的氨基酸序列如下SEQ ID NO.6所示；所述Cas9n的氨基酸序列如下SEQ ID NO.7所示。技术效果

相对于现有技术的单碱基基因编辑，本发明有益效果还包括，首次提出碱基转换编辑的构思。且相对于单碱基编辑所用的胞嘧啶脱氨酶融合CRISPR/Cas9的BE系统，本发明技术创新贡献以及所克服的技术难点在于包括如何确定Cas9核酸酶按一定顺序同时融合特定类型的两种脱氨酶(胞嘧啶脱氨酶与腺嘌呤脱氨酶)的技术手段，通过不同的融合构建来实现本发明系统有效工作。其中，所述的“一定顺序”具体是指胞嘧啶脱氨酶-腺嘌呤脱氨酶(野生型)-腺嘌呤脱氨酶(突变型)-Cas9核酸酶(D10)。

单一的嘧啶或者嘌呤碱基编辑工具(CBE/BE、ABE)能通过单一碱基的改变对编码基因进行功能性改变，而本发明碱基转换编辑系统(包括ACBE-N-AID，ACBE-N-Apobec1)系统不但能够保留前述单一碱基突变的功能，还能实现A，C同时突变。但是ABE或CBE这些单一碱基的变化对于非编码的DNA片段(例如基因转录调控区、外显子内含子剪切信号、非编码RNA)的功能影响可能很小，而本发明的ACBE系统，不但可以实现编码区基因功能的改变(多样性更高)，对于功能基因的筛选和动植物品种改良等多个方面起到非常重要的作用。

本发明系统可以引起众多碱基发生变化，对于酶活功能性突变的筛选等编码区的序列改变相关应用，提供了更为高效、复杂的DNA修饰工具。

本发明创新及有益效果还包括：

本发明通过将通过Cas9n按一定顺序同时融合两种脱氨酶(胞嘧啶脱氨酶与腺嘌呤脱氨酶)，对于给定的基因组位点，除了实现单个碱基C/G到T/A的转换，还可以实现A/T到G/C转换，也能实现C/G到T/A，A/T到G/C同时转换，一定程度打破了目前只能编辑一种碱基的可能性，进一步丰富了碱基编辑的工具箱。通过这一工具可以实现较大范围的DNA碱基改变，对于编码蛋白的功能激活或者失活、非编码的调控区功能改变、非编码RNA相关基因的活性或者miRNA靶点改造有着ABE或者CBE不可比拟的优势。

附图说明

图1表示本发明碱基转换编辑系统中，构建不同顺序的第一核酸构建体的示意图。其中，AID为人源胞嘧啶脱氨酶，Apobec1为大鼠来源胞嘧啶脱氨酶，NLS为核定位信号，TadA为腺嘌呤脱氨酶，TadA*突变型的腺嘌呤脱氨酶，SpCas9n为带有D10A突变的Cas9，BGH为PolyA序列，UGI为糖苷酶抑制剂。其中，

图1-1为ABE7.10-AID构建体示意图，其中突变的Cas9n间隔在串联的腺嘌呤脱氨酶与胞嘧啶脱氨酶之间；

图1-2为ABE7.10-Apobec1构建体示意图，其中突变的Cas9n间隔在串联的腺嘌呤脱氨酶与胞嘧啶脱氨酶之间；

图1-3为ACBE-2.1-AID构建体示意图，其中突变的Cas9n间隔在串联的腺嘌呤脱氨酶与胞嘧啶脱氨酶之间，并且尿嘧啶糖苷酶抑制剂被构建到第一载体上；

图1-4为ACBE-2.1-Apobec1构建体示意图，其中突变的Cas9n间隔在串联的腺嘌呤脱氨酶与胞嘧啶脱氨酶之间，并且尿嘧啶糖苷酶抑制剂被构建到第一载体上；

图1-5为ACBE-3.1-AID构建体示意图，其中胞嘧啶脱氨酶只与突变型腺嘌呤脱氨酶相连，并构建在第一载体上；

图1-6为ACBE-3.1-Apobec1构建体示意图，其中胞嘧啶脱氨酶只与突变型腺嘌呤脱氨酶相连，并构建在第一载体上；

图1-7为本发明的第一载体ACBE-N-AID构建体示意图，其中各元件连接顺序依次是胞嘧啶脱氨酶-腺嘌呤脱氨酶(野生型)-腺嘌呤脱氨酶(突变型)-Cas9核酸酶(D10)，并且未连接尿嘧啶糖苷酶抑制剂；

图1-8为本发明的第一载体ACBE-N-Apobec1构建体示意图，其中各元件连接顺序依次是胞嘧啶脱氨酶-腺嘌呤脱氨酶(野生型)-腺嘌呤脱氨酶(突变型)-Cas9核酸酶(D10)，并且未连接尿嘧啶糖苷酶抑制剂。

图2表示本发明中的第二载体或第二核酸构建体(即靶点质粒)示意图。其中，UGI为尿嘧啶糖苷酶抑制剂，T₂A(图中缩写为元件2A，T₂A为2A的一种)为自剪接多肽，GFP为绿色荧光蛋白，PA为PolyA序列，U6为III型启动子。

图3为不同的ACBE工作系统对靶点EMX1-BE3-sg1深度测序突变状况及效率的结果图其中，

图3-1表示现有的BE3和对照的ABE7.10的工作系统对靶点EMX1-BE3-sg1深度测序突变状况及效率的结果图；

图3-2表示对照的ABE7.10-AID工作系统对靶点EMX1-BE3-sg1深度测序突变状况及效率的结果图；

图3-3表示对照的ABE7.10-Apobec1工作系统对靶点EMX1-BE3-sg1深度测序突变状况及效率的结果图；

图3-4表示本发明的ACBE2.1-AID工作系统对靶点EMX1-BE3-sg1深度测序突变状况及效率的结果图；

图3-5表示本发明的ACBE2.1-Apobec1工作系统对靶点EMX1-BE3-sg1深度测序突变状况及效率的结果图；

图3-6表示本发明的ACBE-N-AID工作系统对靶点EMX1-BE3-sg1深度测序突变状况及效率的结果图；

图3-7表示本发明的ACBE-N-Apobec1工作系统对靶点EMX1-BE3-sg1深度测序突变状况及效率的结果图；

图3-8表示表示对照的ACBE-3.1-AID工作系统对靶点EMX1-BE3-sg1深度测序突变状况及效率的结果图；

图3-9表示表示对照的ACBE-3.1-Apobec1工作系统对靶点EMX1-BE3-sg1深度测序突变状况及效率的结果图.

图4表示本发明的ACBE-N-AID和ACBE-N-Apobec1工作系统对于不同靶点所展现的各种DNA改变的类型和效率统计，以及在突变窗口内各个位置引起C到T、或A到G突变碱基变化效率的统计图。其中，BE3，ABE7.10为对照；

其中，

图4-1表示本发明的ACBE-N-AID，ACBE-N-Apobec1对于靶点PD-1-sg1引起DNA改变的类型和效率统计，以及在突变窗口内各个位置引起C到T、或A到G突变碱基变化效率的统计图；

图4-2表示本发明的ACBE-N-AID，ACBE-N-Apobec1对于靶点PD-1-sg2引起DNA改变的类型和效率统计，以及在突变窗口内各个位置引起C到T、或A到G突变碱基变化效率的统计图；

图4-3表示本发明的ACBE-N-AID，ACBE-N-Apobec1对于靶点PD-1-sg3引起DNA改变的类型和效率统计，以及在突变窗口内各个位置引起C到T或A到G突变碱基变化效率的统计图；

图4-4表示本发明的ACBE-N-AID，ACBE-N-Apobec1对于靶点VEGFA-sg2引起DNA改变的类型和效率统计，以及在突变窗口内各个位置引起C到T或A到G突变碱基变化效率的统计图。

具体实施方式

结合以下具体实施例，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

实施例1、第二载体或第二核酸构建体的构建

1.来源于人的基因座EMX1，PD-1，VEGFA的靶点序列

根据CRISPR/Cas9及BE3，ABE7.10的工作原理，在NCBI中，获取人的基因座(如EMX1，PD-1，VEGFA)上C或A同时出现在ACBE窗口内的靶点，如下表1所示。

表1.来源于人的基因座EMX1，PD-1，VEGFA的靶点序列

靶点名称		序列(5`-3`)
			EMX1-BE3-sg1	SEQ ID NO.8	AAGGACGGCGGCACCGGCGGGGG
PD-1-sg1	SEQ ID NO.9	CTGCAGCTTCTCCAACACATCGG
			PD-1-sg2	SEQ ID NO.10	CAGCAACCAGACGGACAAGCTGG
PD-1-sg3	SEQ ID NO.11	GGACCGCAGCCAGCCCGGCCAGG
			PD-1-sg4	SEQ ID NO.12	CTTCCACATGAGCGTGGTCAGGG
VEGFA-sg2	SEQ ID NO.13	GGCGAGCCGCGGGCAGGGGCCGG

2.根据靶向序列分别设计sgRNAoligo

靶点质粒(靶点质粒即可以插入任意靶sgRNA的质粒，也即第二载体)的构建如图2所示，其中，UGI为尿嘧啶糖苷酶抑制剂，T₂A(图中缩写为元件2A)为自剪接多肽，GFP为绿色荧光蛋白，PA为PolyA序列，U6为III型启动子。将所述靶点质粒用BbsI酶切后即可连入不同的靶点。

2.靶序列sgRNAoligo设计原则：

CRISPR/Cas9中Cas9识别PAM(NGG)，sgRNA以U6为启动子，需要G作为转录起始位点，同时U6-SpsgRNA-CMV-UGI-T₂A-GFP以BbsI酶切位点连入靶点，因此，sgRNA oligo-up5’端需要补充CACC，sgRNA oligo-up 5’端需要补充AAAC。具体设计序列如表2。

表2.来源于人的基因座EMX1，PD-1，VEGFA的靶点oligo设计

3.靶点质粒的构建

合成sgRNA oligo。

将oligo用纯水溶解，终浓度为100μM。

退火。两条互补oligo各取10μL混合，并放入沸水浴煮5min后，自然降温至室温，约2小时。

连接。将U6-SpsgRNA-CMV-UGI-T₂A-GFP用BbsI酶切后的载体与分别与退火后的sgRNA按以下反应体系进行连接反应。

室温连接60min后，取5μL转化至50μL感受态细菌中，涂卡那霉素抗性板，37℃培养过夜。

从过夜培养的培养板中，挑取2个克隆，接种于4-5mL培养液，摇床37℃，220r/min培养过夜。

摇菌培养过夜后，提取质粒，并用M13R测序验证，对质粒测序确认。

实施例2、ABE7.10基因编辑载体或核酸构建体的构建

在ABE7.10(addgene#102919)基础上，分别将AID、Apobec1，通过PCR克隆至ABE7.10的C端，并将野生的TadA克隆至ABE7.10的N端，得到如图1-1和1-2所示的质粒或构建体。

实施例3、不同碱基转换编辑系统ACBE的设计与构建

1.在图1-1和图1-2的基础上，设计其他不同的碱基转换编辑系统，即分别将AID、Apobec1通过PCR克隆至ABE7.10的C端，N端，或分别替换ABE7.10中N端野生的TadA，或克隆至C端以后再克隆一个T₂A-UGI，即可分别得到如图1所示的质粒。所用引物如下表3所示：

表3构建不同的碱基转换编辑系统的引物序列

2.构建U6-sgRNA-CMV-UGI-T₂A-GFP

如下表4所列引物，分别从BE3(addgene#73021)，PX458(addgene#48138)质粒通过PCR扩增出CMV，UGI，T₂A-GFP，组装至U6-sgRNA(EcoRV+NotI)质粒上。

表4构建不同的碱基转换编辑系统的引物序列

3.ACBE-N-AID、ACBE-N-Apobec1突变内源基因EMX1工作窗口及工作效率的检测

3.1.质粒转染

第1天用293T细胞铺种24孔板

3.1.1消化HEK293T细胞，按照2.0×10⁵cell/孔接种24孔板。

注：细胞复苏后，一般需传代2次后方可用于转染实验。

第2天转染

3.1.2观察各孔细胞状态。

注：要求转染前细胞密度应为80％-95％，且状态正常。

3.1.3为保证数据的准确性和实验的可重复性，用无菌水稀释质粒，将各组质粒浓度稀释至一致，或保证各组之间的质粒样品体积相同。

组别设置如下：

Blank:空白对照，仅包括培养的细胞和培养基；

处理组，每孔分别为不同的工作系统，分别为:

ACBE(可为不同的工作系统)：U6-SpsgRNA(可为不同的靶点)-CMV-UGI-T₂A-GFP＝250ng:500ng

设置n＝3孔/组。

3.1.4向1.5mLEP管中加入DMEM(无血清，无抗生素)。

3.1.5将DNA质粒加入到第(3.1.4)步的EP管中，混匀。

3.1.6将PEI加入到第(3.1.5)步的EP管中，混匀，室温静置20分钟。

3.1.7将转染混合液加到24孔板中，轻轻敲击24孔板以混匀。

3.1.837℃，5％CO2，培养120h后，通过FACS分选GFP阳性细胞。

3.2.分选GFP阳性细胞及突变效率检测

第5天流式分选GFP阳性细胞

3.1.9 120h后，流式分选GFP阳性细胞。

3.1.10用天根细胞基因组提取试剂盒提取分选的GFP阳性细胞基因组DNA。

3.1.11对提取的细胞基因组进行PCR，其中，细胞基因组包括有目的靶点约200bp，对各靶点进行PCR，然后利用Hi-TOM基因编辑位点检测试剂盒(诺禾致源)准备测序样品，进行高通量测序，统计分析ACBE对内源性基因突变情况。结果如图3所示。

对于相同靶点EMX1-BE3-sg1而言，图3的结果表明：

所有双碱基同时突变比例，均是在靶点-10到+10(即靶点范围上下游的统计结果)，将同一条DNA上存在两种类型同时突变的DNA在总的reads中的比例。

图3-1表示现有的BE3和对照的ABE7.10，其仅能实现单碱基C/G到T/A、或A/T到G/C的突变，并且其突变效率分别为28％，20％。

图3-2表示对照的ABE7.10-AID，其能实现保留原有的C/G到T/A，或A/T到G/C的突变，也能实现C/G到T/A，以及A/T到G/C的双碱基的同时突变，但其突变效率仅为4.62％，其原因可能是将AID放置于C端时影响突变效率。

图3-3表示对照的ABE7.10-Apobec1，其能实现保留原有的C/G到T/A，或A/T到G/C的突变，也能实现C/G到T/A，以及A/T到G/C的双碱基的同时突变，但其突变效率仅为5.64％，其原因可能是将Apobc1放置于C端时影响突变效率。

图3-4表示对照的ACBE2.1-AID，其能实现保留原有的C/G到T/A，或A/T到G/C的突变，也能实现C/G到T/A，以及A/T到G/C的双碱基的同时突变，但其突变效率仅为4.18％，不能提高其碱基转换编辑效率，其原因可能是将T2A-UGI放置于C端时影响突变效率。

图3-5表示对照的ACBE2.1-Apobec1，其能实现保留原有的C/G到T/A，或A/T到G/C的突变，也能实现C/G到T/A，以及A/T到G/C的双碱基的同时突变，但其突变效率仅为3.48％，不能提高其碱基转换编辑效率，其原因可能是将T2A-UGI放置于C端时影响突变效率。

图3-6表示本发明的ACBE-N-AID，其不仅能保留原有的C/G到T/A，或A/T到G/C的突变，也能高效实现C/G到T/A，以及A/T到G/C的同时突变。如果将含有C到T、A到G同时突变的reads结果相加，那么两种碱基同时突变效率为10.45％。

图3-7表示本发明的ACBE-N-Apobec1，其不仅能保留原有的C/G到T/A，或A/T到G/C的突变，也能高效实现C/G到T/A，以及A/T到G/C的同时突变。如果将含有C到T、A到G同时突变的reads结果相加，两种碱基同时突变效率为10.26％。

图3-8表示对照的ACBE-3.1-AID，其能实现保留原有的C/G到T/A，或A/T到G/C的突变，也能实现C/G到T/A，以及A/T到G/C的突变双碱基的同时突变，但其突变效率仅为4.21％。

图3-9表示对照的ACBE-3.1-Apobec1，其能实现保留原有的C/G到T/A，或A/T到G/C的突变，也能实现C/G到T/A，以及A/T到G/C的突变双碱基的同时突变，但其突变效率仅为4.20％。

由图3的结果可知，本发明的ACBE-N-Apobec1和ACBE-N-AID，由于优化的组合顺序，能更好的同时发挥脱氨酶结合单链DNA和催化腺苷突变的能力，其特点如下：

类比于BE3，ABE7.10(见图3-1、图3-2)的突变窗口为4-7位的C或A，其突变窗口过于狭窄(仅5个碱基)。相比而言，本发明不同的碱基转换编辑系统均能实现保留原有的C/G到T/A，或A/T到G/C的突变，也能实现C/G到T/A，以及A/T到G/C的双碱基的同时突变。

相对于BE3，在EMX1-BE3-sg1处，本发明不同碱基转换编辑系统C/G到T/A在C6位的效率下降了约8.71～27.02％，但其在C6至C15突变效率有所提高，即整体C/G到T/A的突变窗口右移；其中以ACBE-N-AID最优，最佳活性窗口为C9～C15，其突变效率达到14.43～21.13％；其次为ACBE-3.1-AID，其最佳活性窗口为C5～C14，其突变效率达到12.17～19.34％；ACBE-3.1-AID相对于ACBE-N-AID少了一个TadA，体积较小，在包装入AAV后进行基因治疗上更具备优势。

相对于ABE7.10，本发明不同碱基转换编辑系统A/T到G/C突变窗口未发生较大改变，依然只能突变A5，但其效率均有所提高，提高率在8％以上，

在所有工作系统中，本发明ACBE-N-AID产生的不同突变类型的DNA最多，为19种，同时双碱基同时突变的DNA也最多，为10.45％；ACBE-N-Apobec1产生的不同类型的DNA不多，但其双碱基同时突变的DNA排其次，为10.26％。

实施例4、本发明工作系统对4个不同靶点的突变效率的比较

根据实施例3的方法，将本发明ACBE-N-AID、ACBE-N-Apobec1分别验证靶点PD-1-sg1、PD-1-sg2、PD-1-sg3、VEGFA-sg2的突变类型以及各自突变效率的比较。

结果如图4-1至4-4所示。

ACBE-N-AID和ACBE-N-Apobec1均比对照ABE7.10，在A-G的突变中仅在靶点PD-1-sg3中突变效率略低于对照，在PD-1-sg1、PD-1-sg2、VEGFA-sg2的A-G的突变效率均有不同程度的提高。因此，对于A/T到G/C的突变，本发明两种工作系统ACBE-N-AID和ACBE-N-Apobec1的工作窗口未变，但其效率也有不同程度的提高

另外，由本发明两种工作系统ACBE-N-AID和ACBE-N-Apobec1在不同靶点的突变效率的比较可知，ACBE-N-AID比ACBE-N-Apobec1能产生更多突变类型的DNA，且效率更高。其中C/G到T/A到突变窗口为-4～18位，其中以C7～C14效率最高，为20～50％，与BE3只能引起4-7位C/G到T/A的约最高37％的突变效率相比，其窗口更加广泛，且效率更高。。

综上所述，通过本发明所述碱基转换编辑系统，可以实现较大范围的DNA碱基突变，对于编码蛋白的功能激活或者失活、非编码的调控区功能改变、非编码RNA相关基因的活性或者miRNA靶点改造有着ABE或者CBE不可比拟的优势。同时，对于给定的碱基替换突变，利用Cas9介导的同源重组实现的双碱基置换效率低于10％，且易导致双链断裂，较高的插入缺失突变及较高的脱靶效应。因此，本发明碱基转换编辑系统更加安全高效。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

SEQUENCE LISTING

<110> 华东师范大学

<120> 一种新型碱基转换编辑系统及其应用

<160> 51

<170> PatentIn version 3.3

<210> 1

<211> 1972

<212> PRT

<213> 人工序列

<400> 1

Met Asp Ser Leu Leu Met Asn Arg Arg Lys Phe Leu Tyr Gln Phe Lys

1 5 10 15

Asn Val Arg Trp Ala Lys Gly Arg Arg Glu Thr Tyr Leu Cys Tyr Val

20 25 30

Val Lys Arg Arg Asp Ser Ala Thr Ser Phe Ser Leu Asp Phe Gly Tyr

35 40 45

Leu Arg Asn Lys Asn Gly Cys His Val Glu Leu Leu Phe Leu Arg Tyr

50 55 60

Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg Val Thr Trp

65 70 75 80

Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg His Val Ala Asp

85 90 95

Phe Leu Arg Gly Asn Pro Asn Leu Ser Leu Arg Ile Phe Thr Ala Arg

100 105 110

Leu Tyr Phe Cys Glu Asp Arg Lys Ala Glu Pro Glu Gly Leu Arg Arg

115 120 125

Leu His Arg Ala Gly Val Gln Ile Ala Ile Met Thr Phe Lys Asp Tyr

130 135 140

Phe Tyr Cys Trp Asn Thr Phe Val Glu Asn His Glu Arg Thr Phe Lys

145 150 155 160

Ala Trp Glu Gly Leu His Glu Asn Ser Val Arg Leu Ser Arg Gln Leu

165 170 175

Arg Arg Ile Leu Leu Pro Ser Gly Gly Ser Pro Lys Lys Lys Arg Lys

180 185 190

Val Gly Ser Ser Gly Ser Ser Glu Val Glu Phe Ser His Glu Tyr Trp

195 200 205

Met Arg His Ala Leu Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu

210 215 220

Val Pro Val Gly Ala Val Leu Val His Asn Asn Arg Val Ile Gly Glu

225 230 235 240

Gly Trp Asn Arg Pro Ile Gly Arg His Asp Pro Thr Ala His Ala Glu

245 250 255

Ile Met Ala Leu Arg Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu

260 265 270

Ile Asp Ala Thr Leu Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala

275 280 285

Gly Ala Met Ile His Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg

290 295 300

Asp Ala Lys Thr Gly Ala Ala Gly Ser Leu Met Asp Val Leu His His

305 310 315 320

Pro Gly Met Asn His Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp

325 330 335

Glu Cys Ala Ala Leu Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu

340 345 350

Ile Lys Ala Gln Lys Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly Ser

355 360 365

Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala

370 375 380

Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser Ser Glu Val Glu

385 390 395 400

Phe Ser His Glu Tyr Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg

405 410 415

Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala Val Leu Val Leu Asn

420 425 430

Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala Ile Gly Leu His Asp

435 440 445

Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val

450 455 460

Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu Tyr Val Thr Phe Glu

465 470 475 480

Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg

485 490 495

Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly Ala Ala Gly Ser Leu

500 505 510

Met Asp Val Leu His Tyr Pro Gly Met Asn His Arg Val Glu Ile Thr

515 520 525

Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu Leu Cys Tyr Phe Phe

530 535 540

Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys Lys Ala Gln Ser Ser

545 550 555 560

Thr Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro

565 570 575

Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly

580 585 590

Gly Ser Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser

595 600 605

Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys

610 615 620

Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu

625 630 635 640

Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg

645 650 655

Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile

660 665 670

Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp

675 680 685

Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys

690 695 700

Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala

705 710 715 720

Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val

725 730 735

Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala

740 745 750

His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn

755 760 765

Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr

770 775 780

Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp

785 790 795 800

Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu

805 810 815

Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly

820 825 830

Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn

835 840 845

Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr

850 855 860

Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala

865 870 875 880

Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser

885 890 895

Asp Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala

900 905 910

Ser Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu

915 920 925

Lys Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe

930 935 940

Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala

945 950 955 960

Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met

965 970 975

Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu

980 985 990

Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His

995 1000 1005

Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr

1010 1015 1020

Pro Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr

1025 1030 1035

Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser

1040 1045 1050

Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro

1055 1060 1065

Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser Ala Gln Ser

1070 1075 1080

Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu

1085 1090 1095

Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr Val

1100 1105 1110

Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly Met Arg

1115 1120 1125

Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile Val Asp

1130 1135 1140

Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu Lys

1145 1150 1155

Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile

1160 1165 1170

Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr His

1175 1180 1185

Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu

1190 1195 1200

Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu

1205 1210 1215

Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala

1220 1225 1230

His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg

1235 1240 1245

Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile

1250 1255 1260

Arg Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser

1265 1270 1275

Asp Gly Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp

1280 1285 1290

Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly

1295 1300 1305

Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu Ala Gly Ser

1310 1315 1320

Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp

1325 1330 1335

Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile Val

1340 1345 1350

Ile Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys

1355 1360 1365

Asn Ser Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu

1370 1375 1380

Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln

1385 1390 1395

Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg

1400 1405 1410

Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp

1415 1420 1425

Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp Asp

1430 1435 1440

Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly

1445 1450 1455

Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys

1460 1465 1470

Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg

1475 1480 1485

Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu

1490 1495 1500

Leu Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg

1505 1510 1515

Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn

1520 1525 1530

Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val

1535 1540 1545

Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe

1550 1555 1560

Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His Ala His

1565 1570 1575

Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile Lys Lys

1580 1585 1590

Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr Lys Val

1595 1600 1605

Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu Ile Gly

1610 1615 1620

Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met Asn Phe

1625 1630 1635

Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg Lys Arg

1640 1645 1650

Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp Asp

1655 1660 1665

Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met Pro

1670 1675 1680

Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly Phe

1685 1690 1695

Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile

1700 1705 1710

Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp

1715 1720 1725

Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu

1730 1735 1740

Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly

1745 1750 1755

Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp

1760 1765 1770

Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile

1775 1780 1785

Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg

1790 1795 1800

Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys Gly Asn Glu

1805 1810 1815

Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu Ala Ser

1820 1825 1830

His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu Gln Lys

1835 1840 1845

Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp Glu Ile Ile

1850 1855 1860

Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala Asp Ala

1865 1870 1875

Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg Asp Lys

1880 1885 1890

Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr Leu

1895 1900 1905

Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp Thr Thr

1910 1915 1920

Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp Ala

1925 1930 1935

Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile

1940 1945 1950

Asp Leu Ser Gln Leu Gly Gly Asp Ser Gly Gly Ser Pro Lys Lys

1955 1960 1965

Lys Arg Lys Val

1970

<210> 2

<211> 2019

<212> PRT

<213> 人工序列

<400> 2

Met Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu Arg Arg

1 5 10 15

Arg Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg Glu Leu

20 25 30

Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly Arg His

35 40 45

Ser Ile Trp Arg His Thr Ser Gln Asn Thr Asn Lys His Val Glu Val

50 55 60

Asn Phe Ile Glu Lys Phe Thr Thr Glu Arg Tyr Phe Cys Pro Asn Thr

65 70 75 80

Arg Cys Ser Ile Thr Trp Phe Leu Ser Trp Ser Pro Cys Gly Glu Cys

85 90 95

Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg Tyr Pro His Val Thr Leu

100 105 110

Phe Ile Tyr Ile Ala Arg Leu Tyr His His Ala Asp Pro Arg Asn Arg

115 120 125

Gln Gly Leu Arg Asp Leu Ile Ser Ser Gly Val Thr Ile Gln Ile Met

130 135 140

Thr Glu Gln Glu Ser Gly Tyr Cys Trp Arg Asn Phe Val Asn Tyr Ser

145 150 155 160

Pro Ser Asn Glu Ala His Trp Pro Arg Tyr Pro His Leu Trp Val Arg

165 170 175

Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro Pro Cys

180 185 190

Leu Asn Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe Thr Ile

195 200 205

Ala Leu Gln Ser Cys His Tyr Gln Arg Leu Pro Pro His Ile Leu Trp

210 215 220

Ala Thr Gly Leu Lys Ser Gly Gly Ser Pro Lys Lys Lys Arg Lys Val

225 230 235 240

Gly Ser Ser Gly Ser Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met

245 250 255

Arg His Ala Leu Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val

260 265 270

Pro Val Gly Ala Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly

275 280 285

Trp Asn Arg Pro Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile

290 295 300

Met Ala Leu Arg Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile

305 310 315 320

Asp Ala Thr Leu Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly

325 330 335

Ala Met Ile His Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp

340 345 350

Ala Lys Thr Gly Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro

355 360 365

Gly Met Asn His Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu

370 375 380

Cys Ala Ala Leu Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile

385 390 395 400

Lys Ala Gln Lys Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly Ser Ser

405 410 415

Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr

420 425 430

Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser Ser Glu Val Glu Phe

435 440 445

Ser His Glu Tyr Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg Ala

450 455 460

Arg Asp Glu Arg Glu Val Pro Val Gly Ala Val Leu Val Leu Asn Asn

465 470 475 480

Arg Val Ile Gly Glu Gly Trp Asn Arg Ala Ile Gly Leu His Asp Pro

485 490 495

Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val Met

500 505 510

Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu Tyr Val Thr Phe Glu Pro

515 520 525

Cys Val Met Cys Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg Val

530 535 540

Val Phe Gly Val Arg Asn Ala Lys Thr Gly Ala Ala Gly Ser Leu Met

545 550 555 560

Asp Val Leu His Tyr Pro Gly Met Asn His Arg Val Glu Ile Thr Glu

565 570 575

Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu Leu Cys Tyr Phe Phe Arg

580 585 590

Met Pro Arg Gln Val Phe Asn Ala Gln Lys Lys Ala Gln Ser Ser Thr

595 600 605

Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly

610 615 620

Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly

625 630 635 640

Ser Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val

645 650 655

Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe

660 665 670

Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile

675 680 685

Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu

690 695 700

Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys

705 710 715 720

Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser

725 730 735

Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys

740 745 750

His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr

755 760 765

His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp

770 775 780

Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His

785 790 795 800

Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro

805 810 815

Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr

820 825 830

Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala

835 840 845

Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn

850 855 860

Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn

865 870 875 880

Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe

885 890 895

Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp

900 905 910

Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp

915 920 925

Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp

930 935 940

Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser

945 950 955 960

Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys

965 970 975

Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe

980 985 990

Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser

995 1000 1005

Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met

1010 1015 1020

Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu

1025 1030 1035

Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln

1040 1045 1050

Ile His Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp

1055 1060 1065

Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile

1070 1075 1080

Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly

1085 1090 1095

Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu Thr Ile

1100 1105 1110

Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser Ala

1115 1120 1125

Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro

1130 1135 1140

Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe

1145 1150 1155

Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly

1160 1165 1170

Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile

1175 1180 1185

Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln

1190 1195 1200

Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val

1205 1210 1215

Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr

1220 1225 1230

Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp

1235 1240 1245

Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu

1250 1255 1260

Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr

1265 1270 1275

Tyr Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg

1280 1285 1290

Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn

1295 1300 1305

Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu

1310 1315 1320

Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His

1325 1330 1335

Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val

1340 1345 1350

Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu Ala

1355 1360 1365

Gly Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val

1370 1375 1380

Val Asp Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn

1385 1390 1395

Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly

1400 1405 1410

Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile

1415 1420 1425

Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn

1430 1435 1440

Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn

1445 1450 1455

Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu

1460 1465 1470

Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys

1475 1480 1485

Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn

1490 1495 1500

Arg Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys

1505 1510 1515

Met Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr

1520 1525 1530

Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu

1535 1540 1545

Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu

1550 1555 1560

Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg

1565 1570 1575

Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val

1580 1585 1590

Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys

1595 1600 1605

Asp Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His

1610 1615 1620

Ala His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile

1625 1630 1635

Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr

1640 1645 1650

Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu

1655 1660 1665

Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met

1670 1675 1680

Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg

1685 1690 1695

Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val

1700 1705 1710

Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser

1715 1720 1725

Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly

1730 1735 1740

Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys

1745 1750 1755

Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly

1760 1765 1770

Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys

1775 1780 1785

Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu

1790 1795 1800

Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro

1805 1810 1815

Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp

1820 1825 1830

Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn

1835 1840 1845

Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys Gly

1850 1855 1860

Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu

1865 1870 1875

Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu

1880 1885 1890

Gln Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp Glu

1895 1900 1905

Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala

1910 1915 1920

Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg

1925 1930 1935

Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe

1940 1945 1950

Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp

1955 1960 1965

Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu

1970 1975 1980

Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr

1985 1990 1995

Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp Ser Gly Gly Ser Pro

2000 2005 2010

Lys Lys Lys Arg Lys Val

2015

<210> 3

<211> 182

<212> PRT

<213> 人工序列

<400> 3

Met Asp Ser Leu Leu Met Asn Arg Arg Lys Phe Leu Tyr Gln Phe Lys

1 5 10 15

Asn Val Arg Trp Ala Lys Gly Arg Arg Glu Thr Tyr Leu Cys Tyr Val

20 25 30

Val Lys Arg Arg Asp Ser Ala Thr Ser Phe Ser Leu Asp Phe Gly Tyr

35 40 45

Leu Arg Asn Lys Asn Gly Cys His Val Glu Leu Leu Phe Leu Arg Tyr

50 55 60

Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg Val Thr Trp

65 70 75 80

Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg His Val Ala Asp

85 90 95

Phe Leu Arg Gly Asn Pro Asn Leu Ser Leu Arg Ile Phe Thr Ala Arg

100 105 110

Leu Tyr Phe Cys Glu Asp Arg Lys Ala Glu Pro Glu Gly Leu Arg Arg

115 120 125

Leu His Arg Ala Gly Val Gln Ile Ala Ile Met Thr Phe Lys Asp Tyr

130 135 140

Phe Tyr Cys Trp Asn Thr Phe Val Glu Asn His Glu Arg Thr Phe Lys

145 150 155 160

Ala Trp Glu Gly Leu His Glu Asn Ser Val Arg Leu Ser Arg Gln Leu

165 170 175

Arg Arg Ile Leu Leu Pro

180

<210> 4

<211> 229

<212> PRT

<213> 人工序列

<400> 4

Met Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu Arg Arg

1 5 10 15

Arg Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg Glu Leu

20 25 30

Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly Arg His

35 40 45

Ser Ile Trp Arg His Thr Ser Gln Asn Thr Asn Lys His Val Glu Val

50 55 60

Asn Phe Ile Glu Lys Phe Thr Thr Glu Arg Tyr Phe Cys Pro Asn Thr

65 70 75 80

Arg Cys Ser Ile Thr Trp Phe Leu Ser Trp Ser Pro Cys Gly Glu Cys

85 90 95

Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg Tyr Pro His Val Thr Leu

100 105 110

Phe Ile Tyr Ile Ala Arg Leu Tyr His His Ala Asp Pro Arg Asn Arg

115 120 125

Gln Gly Leu Arg Asp Leu Ile Ser Ser Gly Val Thr Ile Gln Ile Met

130 135 140

Thr Glu Gln Glu Ser Gly Tyr Cys Trp Arg Asn Phe Val Asn Tyr Ser

145 150 155 160

Pro Ser Asn Glu Ala His Trp Pro Arg Tyr Pro His Leu Trp Val Arg

165 170 175

Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro Pro Cys

180 185 190

Leu Asn Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe Thr Ile

195 200 205

Ala Leu Gln Ser Cys His Tyr Gln Arg Leu Pro Pro His Ile Leu Trp

210 215 220

Ala Thr Gly Leu Lys

225

<210> 5

<211> 166

<212> PRT

<213> 人工序列

<400> 5

Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu Thr

1 5 10 15

Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala Val

20 25 30

Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro Ile

35 40 45

Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln

50 55 60

Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu Tyr

65 70 75 80

Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ser

85 90 95

Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly Ala

100 105 110

Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His Arg

115 120 125

Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu Leu

130 135 140

Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys Lys

145 150 155 160

Ala Gln Ser Ser Thr Asp

165

<210> 6

<211> 166

<212> PRT

<213> 人工序列

<400> 6

Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu Thr

1 5 10 15

Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala Val

20 25 30

Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala Ile

35 40 45

Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln

50 55 60

Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu Tyr

65 70 75 80

Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ser

85 90 95

Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly Ala

100 105 110

Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His Arg

115 120 125

Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu Leu

130 135 140

Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys Lys

145 150 155 160

Ala Gln Ser Ser Thr Asp

165

<210> 7

<211> 1367

<212> PRT

<213> 人工序列

<400> 7

Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val Gly

1 5 10 15

Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys

20 25 30

Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly

35 40 45

Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys

50 55 60

Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr

65 70 75 80

Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe

85 90 95

Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His

100 105 110

Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His

115 120 125

Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser

130 135 140

Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met

145 150 155 160

Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp

165 170 175

Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn

180 185 190

Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys

195 200 205

Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu

210 215 220

Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu

225 230 235 240

Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp

245 250 255

Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp

260 265 270

Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu

275 280 285

Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile

290 295 300

Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met

305 310 315 320

Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala

325 330 335

Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp

340 345 350

Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln

355 360 365

Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly

370 375 380

Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys

385 390 395 400

Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly

405 410 415

Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu

420 425 430

Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro

435 440 445

Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met

450 455 460

Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val

465 470 475 480

Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn

485 490 495

Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu

500 505 510

Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr

515 520 525

Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys

530 535 540

Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val

545 550 555 560

Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser

565 570 575

Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr

580 585 590

Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn

595 600 605

Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu

610 615 620

Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His

625 630 635 640

Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr

645 650 655

Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys

660 665 670

Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala

675 680 685

Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys

690 695 700

Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His

705 710 715 720

Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile

725 730 735

Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg

740 745 750

His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr

755 760 765

Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu

770 775 780

Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val

785 790 795 800

Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln

805 810 815

Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu

820 825 830

Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp

835 840 845

Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly

850 855 860

Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn

865 870 875 880

Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe

885 890 895

Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys

900 905 910

Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys

915 920 925

His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu

930 935 940

Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys

945 950 955 960

Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu

965 970 975

Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val

980 985 990

Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val

995 1000 1005

Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys

1010 1015 1020

Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr

1025 1030 1035

Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn

1040 1045 1050

Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr

1055 1060 1065

Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg

1070 1075 1080

Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu

1085 1090 1095

Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg

1100 1105 1110

Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys

1115 1120 1125

Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu

1130 1135 1140

Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser

1145 1150 1155

Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe

1160 1165 1170

Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu

1175 1180 1185

Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe

1190 1195 1200

Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu

1205 1210 1215

Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn

1220 1225 1230

Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro

1235 1240 1245

Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His

1250 1255 1260

Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg

1265 1270 1275

Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr

1280 1285 1290

Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile

1295 1300 1305

Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe

1310 1315 1320

Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr

1325 1330 1335

Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly

1340 1345 1350

Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp

1355 1360 1365

<210> 8

<211> 23

<212> DNA

<213> 人工序列

<400> 8

aaggacggcg gcaccggcgg ggg 23

<210> 9

<211> 23

<212> DNA

<213> 人工序列

<400> 9

ctgcagcttc tccaacacat cgg 23

<210> 10

<211> 23

<212> DNA

<213> 人工序列

<400> 10

cagcaaccag acggacaagc tgg 23

<210> 11

<211> 23

<212> DNA

<213> 人工序列

<400> 11

ggaccgcagc cagcccggcc agg 23

<210> 12

<211> 23

<212> DNA

<213> 人工序列

<400> 12

cttccacatg agcgtggtca ggg 23

<210> 13

<211> 23

<212> DNA

<213> 人工序列

<400> 13

ggcgagccgc gggcaggggc cgg 23

<210> 14

<211> 25

<212> DNA

<213> 人工序列

<400> 14

caccgaagga cggcggcacc ggcgg 25

<210> 15

<211> 25

<212> DNA

<213> 人工序列

<400> 15

aaacccgccg gtgccgccgt ccttc 25

<210> 16

<211> 25

<212> DNA

<213> 人工序列

<400> 16

caccgctgca gcttctccaa cacat 25

<210> 17

<211> 25

<212> DNA

<213> 人工序列

<400> 17

aaacatgtgt tggagaagct gcagc 25

<210> 18

<211> 25

<212> DNA

<213> 人工序列

<400> 18

caccgcagca accagacgga caagc 25

<210> 19

<211> 25

<212> DNA

<213> 人工序列

<400> 19

aaacgcttgt ccgtctggtt gctgc 25

<210> 20

<211> 24

<212> DNA

<213> 人工序列

<400> 20

caccggaccg cagccagccc ggcc 24

<210> 21

<211> 24

<212> DNA

<213> 人工序列

<400> 21

aaacggccgg gctggctgcg gtcc 24

<210> 22

<211> 25

<212> DNA

<213> 人工序列

<400> 22

caccgcttcc acatgagcgt ggtca 25

<210> 23

<211> 25

<212> DNA

<213> 人工序列

<400> 23

aaactgacca cgctcatgtg gaagc 25

<210> 24

<211> 24

<212> DNA

<213> 人工序列

<400> 24

caccggcgag ccgcgggcag gggc 24

<210> 25

<211> 24

<212> DNA

<213> 人工序列

<400> 25

aaacgcccct gcccgcggct cgcc 24

<210> 26

<211> 58

<212> DNA

<213> 人工序列

<400> 26

cgacgtcacc gcatgttagc agacttcctc tgccctcggg caaaaggatg cgccgaag 58

<210> 27

<211> 79

<212> DNA

<213> 人工序列

<400> 27

ggaagtctgc taacatgcgg tgacgtcgag gagaatcctg gcccaactaa tctgtcagat 60

attattgaaa aggagaccg 79

<210> 28

<211> 24

<212> DNA

<213> 人工序列

<400> 28

aaaatggccg aaaacggatg ttgg 24

<210> 29

<211> 59

<212> DNA

<213> 人工序列

<400> 29

acgtcaccgc atgttagcag acttcctctg ccctctttca acccggtggc ccagagaat 59

<210> 30

<211> 55

<212> DNA

<213> 人工序列

<400> 30

acagtcgagg ctgatcagcg ggtttaaact tagactttcc tcttcttctt gggag 55

<210> 31

<211> 36

<212> DNA

<213> 人工序列

<400> 31

tccttttgcc cagcggagga tctagcggag gatcaa 36

<210> 32

<211> 62

<212> DNA

<213> 人工序列

<400> 32

tgaaccgtca gatccgctag agatccgcgg ccgccaccat ggacagcctc ttgatgaacc 60

gg 62

<210> 33

<211> 27

<212> DNA

<213> 人工序列

<400> 33

ctcccactgg gacctctctc tcgtctc 27

<210> 34

<211> 49

<212> DNA

<213> 人工序列

<400> 34

gcttgatcct ccgctagatc ctccgctggg caaaaggatg cgccgaagc 49

<210> 35

<211> 39

<212> DNA

<213> 人工序列

<400> 35

gccaccgggt tgaaaagcgg aggatctagc ggaggatca 39

<210> 36

<211> 59

<212> DNA

<213> 人工序列

<400> 36

accgtcagat ccgctagaga tccgcggccg ccaccatgag ctcagagact ggcccagtg 59

<210> 37

<211> 27

<212> DNA

<213> 人工序列

<400> 37

ctcccactgg gacctctctc tcgtctc 27

<210> 38

<211> 53

<212> DNA

<213> 人工序列

<400> 38

ccgcttgatc ctccgctaga tcctccgctt ttcaacccgg tggcccagag aat 53

<210> 39

<211> 59

<212> DNA

<213> 人工序列

<400> 39

tcccaagaag aagaggaaag tcggtagttc cggatctagc gaggtggagt tcagccacg 59

<210> 40

<211> 62

<212> DNA

<213> 人工序列

<400> 40

gaaccgtcag atccgctaga gatccgcggc cgccaccatg gacagcctct tgatgaaccg 60

ga 62

<210> 41

<211> 28

<212> DNA

<213> 人工序列

<400> 41

agaactgctc ccactgggac ctctctct 28

<210> 42

<211> 59

<212> DNA

<213> 人工序列

<400> 42

ctaccgactt tcctcttctt cttgggagaa ccaccagagg gcaaaaggat gcgccgaag 59

<210> 43

<211> 59

<212> DNA

<213> 人工序列

<400> 43

ctcccaagaa gaagaggaaa gtcggtagtt ccggatctag cgaggtggag ttcagccac 59

<210> 44

<211> 61

<212> DNA

<213> 人工序列

<400> 44

tgaaccgtca gatccgctag agatccgcgg ccgccaccat gagctcagag actggcccag 60

t 61

<210> 45

<211> 59

<212> DNA

<213> 人工序列

<400> 45

accgactttc ctcttcttct tgggagaacc accagatttc aacccggtgg cccagagaa 59

<210> 46

<211> 57

<212> DNA

<213> 人工序列

<400> 46

tgaattctgc agatatccat cacactggcc gttacataac ttacggtaaa tggcccg 57

<210> 47

<211> 43

<212> DNA

<213> 人工序列

<400> 47

tggcgctagc ggatctgacg gttcactaaa ccagctctgc tta 43

<210> 48

<211> 65

<212> DNA

<213> 人工序列

<400> 48

tggtttagtg aaccgtcaga tccgctagcg ccaccatgcc caagaagaag aggaaagtct 60

cgagc 65

<210> 49

<211> 59

<212> DNA

<213> 人工序列

<400> 49

accgcatgtt agcagacttc ctctgccctc gactttcctc ttcttcttgg gagaaccac 59

<210> 50

<211> 49

<212> DNA

<213> 人工序列

<400> 50

ttctcccaag aagaagagga aagtcgaggg cagaggaagt ctgctaaca 49

<210> 51

<211> 58

<212> DNA

<213> 人工序列

<400> 51

ggctgattat gatctagagt cgcggccgct ttagaattcc ttgtacagct cgtccatg 58

<210> 52

<211> 15

<212> PRT

<213> 人工序列

<400> 52

Ser Gly Gly Ser Pro Lys Lys Arg Lys Val Gly Ser Ser Gly Ser

1 5 10 15

<210> 53

<211> 32

<212> PRT

<213> 人工序列

<400> 53

Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr

1 5 10 15

Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser

20 25 30

Claims

1.用于对基因组突变窗口进行编辑的碱基转换编辑系统或组合物，其特征在于，其包含用于表达含有能够靶向识别DNA序列的核酸酶、胞嘧啶脱氨酶和腺嘌呤脱氨酶的融合蛋白的第一载体或第一核酸构建体，和用于表达sgRNA及尿嘧啶糖苷酶抑制剂的第二载体或第二核酸构建体；

其中，所述第一载体或第一核酸构建体包括5’-3’的式(I)结构：

P_II-X₁-L₁-X₂(T₁-T₂)-L₂-X₃-PolyA 式(I)；

其中，P_II为II型启动子；

X₁为胞嘧啶脱氨酶的编码序列；

X₂为腺嘌呤脱氨酶的编码序列，其包括串联的野生型腺嘌呤脱氨酶T₁和突变型腺嘌呤脱氨酶T₂；

X₃为能够靶向识别DNA序列的核酸酶的编码序列，包括：突变型Cas9核酸酶的编码序列；或以DNA，RNA为向导序列、靶向特定DNA序列的蛋白质及相关系统，包括Cpf1及其同源基因、SaCas9相关同源蛋白；或以蛋白质模块识别DNA的工具系统，包括锌指核酸酶ZFN、转录激活样效应因子TALE；

L₁、L₂为无或连接序列；以及

所述第二载体或第二核酸构建体包括5’-3’的式(II)结构：

P_III-Y₁-P_II-Y₂-L₃-Y₃-PolyA 式(II)；

其中，P_III为III型启动子；

P_II为II型启动子；

Y₂为尿嘧啶糖苷酶抑制剂的编码序列；

L₃为自剪接多肽，选自T2A、P2A、E2A、F2A之一或其组合；

Y₃为筛选标记蛋白表达序列；

上述“-”表示连接键或核苷酸连接序列。

2.如权利要求1所述的碱基转换编辑系统或组合物，其特征在于，所述式(I)中，P_II选自CMV启动子、CAG启动子、PGK启动子、EF1α启动子或其组合；X₁为来源大鼠胞嘧啶脱氨酶或人胞嘧啶脱氨酶的编码序列；X₂为细菌来源的腺嘌呤脱氨酶的编码序列；X₃为带有D10A突变的可以实现切割靶向链Cas9核酸酶的编码序列；PolyA为BGH序列或SV40的PolyA序列，或其他PolyA序列。

3.如权利要求1所述的碱基转换编辑系统或组合物，其特征在于，所述式(II)中，P_III为H1启动子、U6启动子或其组合；Y₁为spCas9核酸酶的sgRNA的骨架序列，且与式(I)所使用的Cas9核酸内切酶相对应；所述Y₂为人源尿嘧啶糖苷酶抑制剂UGI；所述L₃是自剪接多肽T2A；所述Y₃为绿色荧光蛋白；所述PolyA是BGH序列。

4.如权利要求1～3之任一项所述的碱基转换编辑系统或组合物，其特征在于，其中sgRNA的任意位置含有C且同时5-8位对应于出现A且能与对应的指定位点进行互补配对，从而除了实现指定位点单个碱基C/G到T/A的转换，还可以实现A/T到G/C转换，也能同时实现指定位点C/G到T/A，以及A/T到G/C转换。

5.如权利要求1～3之任一项所述的碱基转换编辑系统或组合物，其特征在于，所述Cas9核酸酶选自来源于酿酒酵母Cas9的突变体spCas9n，或选自能识别其它PAM的Cas9突变体，或选自识别PAM:NNGRRT的黄色葡萄球菌来源的SaCas9n，或选自识别PAM:NNNRRT的黄色葡萄球菌来源SaCas9n突变体，或选自来源于Cas9家族的、能识别TTTN PAM 2类的效应蛋白Cpf1，或选自与Cas9功能类似的其他物种中的CRISPR蛋白，以及在此基础上构建的能提高精确性或能识别更广泛PAM的Cas9突变体。

6.如权利要求1～3之任一项所述的碱基转换编辑系统或组合物，其特征在于，其中所述双碱基编辑系统编辑的对象还包括来自真核细胞、细菌、酵母、动物细胞、植物细胞的个体或植株。

7.如权利要求6所述的碱基转换编辑系统或组合物，其特征在于，其中所述真核细胞为人293T细胞、人U2OS细胞、人iPS细胞或其它真核细胞。

8.如权利要求7所述的碱基转换编辑系统或组合物，其特征在于，所述突变窗口是指从距离PAM远端数起第-3-20位碱基胞嘧啶及从距离PAM远端数起第5-8位碱基腺嘌呤的核苷酸序列。

9.如权利要求1～3之任一项所述的碱基转换编辑系统或组合物，其特征在于，所述尿嘧啶糖苷酶抑制剂为人源、小鼠来源或其组合；所述筛选标记蛋白包括绿色光蛋白、黄色荧光蛋白、红色荧光蛋白或其组合。

10.如权利要求1-3之任一项所述的碱基转换编辑系统或组合物，其特征在于，所述式(I)中，

X₁是AID或Apobec1；

L₁和L₂是核定位信号NLS；

T₁是野生型TadA腺嘌呤脱氨酶；

T₂是突变型TadA*的腺嘌呤脱氨酶；

X₃是带有D10A突变的Cas9，即spCas9n；

PolyA是BGH序列。

11.如权利要求10所述的碱基转换编辑系统或组合物，其特征在于，其中当X₁是AID时，第一载体是ACBE-N-AID，其具有SEQ ID NO.1所示的氨基酸序列；或，当X₁是Apobec1时，第一载体是ACBE-N-Apobec1，其具有SEQ ID NO.2所示的氨基酸序列。

12.如权利要求11所述的碱基转换编辑系统或组合物，其特征在于，所述AID或Apobec1选自细菌、小鼠来源或其它物种来源的胞嘧啶脱氨酶，或选自以RNA为底物的胞嘧啶脱氨酶经过修饰改造后能够以DNA为底物进行胞嘧啶脱氨酶。

13.如权利要求11所述的碱基转换编辑系统或组合物，其特征在于，所述TadA及TadA*选自大肠杆菌来源腺嘌呤脱氨酶或其它细菌属来源的腺嘌呤脱氨酶，或选自包括ADAR等具有DNA或者RNA腺嘌呤脱氨功能的各个物种中的类似酶类。

14.如权利要求11-13之任一项所述的碱基转换编辑系统或组合物，其特征在于，其中Cas9选自Cpf1及其同源基因、SaCas9等相关同源蛋白，或以蛋白质模块识别DNA的工具系统，包括锌指核酸酶(ZFN)、转录激活样效应因子(TALE)等。

15.如权利要求1-3之任一项所述的碱基转换编辑系统或组合物，其特征在于，其中所述第二载体或第二核酸构建体为U6-sgRNA-CMV-UGI-T₂A-GFP。

16.如权利要求1-3之任一项所述的碱基转换编辑系统或组合物进行碱基转换编辑的方法，其特征在于，所述方法包括，在Cas9介导下，对宿主基因组的特定窗口内实现单个碱基C/G到T/A或A/T到G/C的转换，或实现C/G到T/A、和A/T到G/C的两种类型碱基的同时转换。

17.如权利要求16所述的方法，其特征在于，其中所述碱基转换编辑系统中，将所述式(I)所示第一载体、和式(II)所示第二载体以质量比1:2进行混合，然后转染至宿主细胞中。

18.如权利要求17所述的方法，其特征在于，其中所述宿主细胞选自真核细胞、细菌、酵母、动物细胞和植物细胞之一或其组合。

19.如权利要求18所述的方法，其特征在于，其中所述第一载体为ACBE-N-AID或ACBE-N-Apobec1，所述第二载体为U6-sgRNA-CMV-UGI-T₂A-GFP。

20.一种试剂盒，其特征在于，其包括如权利要求1-3之任一项所述的碱基转换编辑系统或组合物。

21.如权利要求20所述的试剂盒，其特征在于，其中所述试剂盒还包括合适的试剂、缓冲液和/或说明书。

22.包含如权利要求1-3之任一项所述的碱基转换编辑系统的工程化细胞或重组细胞，其特征在于，其包含作为宿主细胞的真核细胞、细菌，酵母、动物细胞和植物细胞。