CN111117985A - 一种拆分Cas9的方法及其应用 - Google Patents

一种拆分Cas9的方法及其应用 Download PDF

Info

Publication number
CN111117985A
CN111117985A CN202010077502.XA CN202010077502A CN111117985A CN 111117985 A CN111117985 A CN 111117985A CN 202010077502 A CN202010077502 A CN 202010077502A CN 111117985 A CN111117985 A CN 111117985A
Authority
CN
China
Prior art keywords
leu
bits
protein
amino acid
glu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010077502.XA
Other languages
English (en)
Other versions
CN111117985B (zh
Inventor
黄军就
刘伟亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN202010077502.XA priority Critical patent/CN111117985B/zh
Publication of CN111117985A publication Critical patent/CN111117985A/zh
Application granted granted Critical
Publication of CN111117985B publication Critical patent/CN111117985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • C12N15/86Viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2750/00MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssDNA viruses
    • C12N2750/00011Details
    • C12N2750/14011Parvoviridae
    • C12N2750/14111Dependovirus, e.g. adenoassociated viruses
    • C12N2750/14141Use of virus, viral particle or viral elements as a vector
    • C12N2750/14143Use of virus, viral particle or viral elements as a vector viral genome or elements thereof as genetic vector

Abstract

本发明公开一种拆分Cas9的方法及其应用;本发明提供了在Cas9蛋白的多个位点将其拆分不同段的氨基酸序列的方法,所述Cas9蛋白为spCas9(D10A)蛋白,拆分后的Cas9蛋白更便于运输至靶细胞/载体内,可通过内含肽等方式将其重新组合;相应地,本发明提供根据所述方法得到的蛋白组、融合蛋白组以及用于表达所述融合蛋白组的核酸构建物组及其载体组、工程细胞;所述融合蛋白组及所述载体可用于在编辑细胞基因中的应用,或靶向定位或基因表达转录激活或基因表达转录抑制中的应用,在制备用于基因编辑的药物制剂中的应用。

Description

一种拆分Cas9的方法及其应用
技术领域
本发明属于生物技术领域,涉及一种拆分Cas9的方法及其应用。
背景技术
快速发展的基因编辑技术,特别是CRISPR/Cas9技术,有望按人类的目的直接修改基因组序列。一般而言,Cas9会在需要修复的碱基对附近把双链DNA切开,利用外源的DNA片段和体内的修复机制来达到基因编辑的目的。在Cas9切口酶恰当位置连接有效的脱氨酶模块和效率增强模块,可得到单碱基编辑系统,如偶联了一个腺嘌呤脱氨酶和一个工程化改造的腺嘌呤脱氨酶得到的腺嘌呤单碱基编辑器(adenine base editors,ABE),ABE系统可以在细胞内将A-T碱基对编辑为G-C碱基对;偶联了胞嘧啶脱氨酶和1或2个尿嘧啶糖苷酶抑制剂(UGI)可得到胞嘧啶单碱基编辑器(cytosin base editors,CBE),CBE系统可以在细胞内将C-G碱基对编辑为T-A碱基对。然而,一般而言,质粒越大越难转染,同时,编码序列或蛋白序列越长越难转运,未算上启动子序列和poly(A)序列,Cas9蛋白编码序列就已4.1kb,其进化出来的ABE蛋白编码序列更是长达5.3kb,CBE蛋白编码序列也长达5.1kb,这使得在不同的场景应用Cas9系统及其进化出的单碱基编辑系统时常常遇到运载的问题,特别是当想利用广为应用的腺相关病毒(adeno-associated virus,AAV)作为运载体时,遇到了AAV的装载容量仅为4.7kb的障碍。
ABE系统、CBE系统和Cas9系统的核心组成模块都是Cas9蛋白。因此,如果能成功地把Cas9蛋白拆分为两段,分开运载到靶器官或靶细胞内,再利用蛋白剪接机制使其融合成完整的蛋白,则可解决转运障碍,提高转运效率,扩大编辑系统运载体的选择范围和编辑系统的应用范围。并且,因只有Cas9的N端和C端同时表达才会实现其功能,所以可以通过调控拆分后的Cas9蛋白进行Cas9系统或单碱基编辑系统的调控。
拆分位点常常极大地影响蛋白拼接的效率。同时,不同的拆分位点,形成了不同长度的Cas9N和Cas9C,而Cas9N和Cas9C的长度是影响其转运效率的关键因素。因此,找到合适的拆分位点是拆分方法的关键。
合适的拆分位点常常能与多种常见的蛋白拼接技术结合,形成高效的拆分和拼接系统。其中一种可行的拼接技术是利用蛋白内含肽(Intein)介导的蛋白剪接作用而发展起来的。内含肽的作用类似于RNA剪接中的内含子,是一类可以介导翻译后的蛋白进行剪接的内部蛋白原件。内含肽位于多肽序列的中间,经过加工后切除,并催化两端的蛋白质外显子(Extein)连接为成熟的蛋白质分子。一般来说,内含肽可以分开为N端段(InteinN)和C端段(InteinC)两个编码蛋白的基因片段,同时,可以在适当的位点将目的基因拆分成N端段和C端段两个编码蛋白的基因片段,其中目的基因N端段与位于C端的InteinN连接,而目的基因C端段则在N端连接InteinC,分别形成融合基因,翻译后形成融合蛋白。单独存在的融合蛋白不具备目的蛋白的活性,只有当N端部分和C端部分两融合蛋白相遇时,拆分的前体蛋白中的Intein作用域催化一系列反应,将其自身从前体蛋白中移去,并将两侧称为Extein的蛋白片段以正常的肽键连接起来形成成熟蛋白,即发生蛋白剪接,才能形成有功能的目的蛋白。
目前已有研究人员尝试利用内含肽或者在雷帕霉素诱导下FRB与FKBP形成的异源二聚体拆分包括Cas9蛋白在内的多种蛋白,效率参差不齐。同时在偶联了脱氨酶模块和效率增强模块得到更大的单碱基编辑系统后,蛋白长度有所改变,部分拆分位点因造成了过长的Cas9N或Cas9C而拼接效率大大降低甚至不再适用。因此,急需在新的条件下寻找新的可高效拆分和剪接Cas9蛋白的位点,并且是基因编辑系统临床转化的研究重点。
发明内容
针对上述问题,本发明的目的是提供一种可高效拆分和剪接Cas9蛋白的方法。
为实现上述目的,本发明采取的技术方案为:一种拆分Cas9蛋白的方法,将Cas9蛋白序列在如下其中一个位置将其拆分为N端的Cas9N蛋白和C端的Cas9C蛋白;所述Cas9为spCas9(D10A),其氨基酸序列为:
1)如SEQ ID NO.1所示的氨基酸序列,或
2)由SEQ ID NO.1所示的氨基酸序列经突变得到的,与SEQ ID NO.1所示的氨基酸序列具有至少90%同源性,且编码具有靶向目的基因、结合目的基因、切割目的基因功能的蛋白的氨基酸序列;
所述位置包括:第178-179位之间、第203-204位之间、第253-254位之间、第309-310位之间、第385-386位之间、第465-466位之间、第468-469位之间、第530-531位之间、第573-574位之间、第637-638位之间、第656-657位之间、第674-675位之间、第684-685位之间、第713-714位之间、第718-719位之间、第729-730位之间、第769-770位之间、第940-941位之间或第1005-1006位之间。
更优选,所述Cas9蛋白的氨基酸序列为与由SEQ ID NO.1所示的氨基酸序列经突变得到的,与SEQ ID NO.1所示的氨基酸序列具有至少95%同源性,且编码具有靶向目的基因、结合目的基因、切割目的基因功能的蛋白的氨基酸序列。
更优选,所述Cas9蛋白的氨基酸序列为与由SEQ ID NO.1所示的氨基酸序列经突变得到的,与SEQ ID NO.1所示的氨基酸序列具有至少99%同源性,且编码具有靶向目的基因、结合目的基因、切割目的基因功能的蛋白的氨基酸序列。
所述至少90%同源性的Cas9蛋白包括XCas9(含有突变A262T,R324L,S409I,E480K,E543D,M694I,E1219V),Cas9-NG(含有突变L1111R,D1135V,G1218R,E1219F,A1322R,R1335V,T1337R),Cas9-HF1(含有突变N497A,R661A,Q695A,Q926A),Cas9-HF2(含有突变N497A,R661A,Q695A,Q926A,D1135E),Cas9-HF3(含有突变L169A,N497A,R661A,Q695A,Q926A),Cas9-HF4(含有突变Y450A,N497A,R661A,Q695A,Q926A),eSpCas9(含有突变K848A,K1003A,R1060A),Cas9-VQR(含有突变D1135V,R1335Q,T1337R),Cas9-EQR(含有突变D1135E,R1335Q,T1337R),Cas9-VRER(含有突变D1135V,G1218R,R1335E,T1337R),HypaCas9氨基酸(含有突变.N692A,M694A,Q695A,H698A)。
优选地,所述Cas9蛋白拆分位点为其氨基酸序列的第674-675位之间。
根据所述拆分方法,可得到N端的Cas9N蛋白和C端的Cas9C蛋白的蛋白组。
在该位点对Cas9蛋白进行拆分,并与胞嘧啶脱氨酶或腺嘌呤脱氨酶以及拼接组件等组成融合蛋白组,在体内的重组效率高。
作为本发明的优选实施方式,所述Cas9蛋白的核苷酸序列为如SEQ ID NO.2所示序列。
本发明在适当的位置把Cas9蛋白拆分为不同的部分,拆分后的Cas9不具有活性,但可通过与内含肽(intein)、光诱导二聚化蛋白、FKBP-RAP-FRB等拼接组件连接,在细胞内将其重新组合成具有活性的Cas9蛋白,由于拆分后的蛋白相对于原蛋白更小,更容易导入生物体内,从而能够有效提高编辑效率。同时,单独存在的Cas9N或Cas9C不具有完整的功能,通过调控Cas9N和Cas9C加入的时间先后顺序或调节Cas9N和Cas9C的比例,可以起到调控Cas9蛋白功能的作用。
进一步地,本发明还要求保护含有所述Cas9N和所述Cas9C的融合蛋白组,包括第一融合蛋白和第二融合蛋白;所述第一融合蛋白的氨基酸序列包括自N端至C端如式I所示的结构:
N-E-N-CN-IN; (I)
其中,E为脱氨酶模块的氨基酸序列或无;N为核定位信号的氨基酸序列或无;CN为所述Cas9N蛋白的氨基酸序列;IN为拼接组件的N端的氨基酸序列;-为必要的连接肽或连接键;
所述第二融合蛋白的氨基酸序列包括自N端至C端如式II所示的结构:
IC-CC-U-N; (II)
其中,N为核定位信号的氨基酸序列或无,CC为所述Cas9C蛋白的氨基酸序列,IC为拼接组件的C端的氨基酸序列,U为效率增强模块的氨基酸序列或无,-为必要的连接肽或连接键;
当结构式(I)中的E为腺嘌呤脱氨酶或无时,结构式II不含U;当结构式(I)中的E为胞嘧啶脱氨酶时,结构式II的U为1或2个尿嘧啶糖苷酶抑制剂UGI。
所述IN和所述IC由同一拼接组件拆分得到。核定位信号能够帮助蛋白更容易进入细胞核内,进一步提高编辑效率。胞嘧啶脱氨酶或腺苷脱氨酶可以特异性地把胞嘧啶C催化脱氨为尿嘧啶U或特异性地把腺嘌呤A催化脱氨为次黄嘌呤I,实现单碱基的编辑而不产生双链断裂,提高编辑效率;并进一步降低脱靶率,理论上安全性更高。
作为本发明的优选实施方式,当E为腺苷脱氨酶的氨基酸序列时,核定位信号的氨基酸序列位于腺苷脱氨酶与Cas9N蛋白之间,结构式(I)为E-N-CN-IN;当E为嘧啶脱氨酶的氨基酸序列时,核定位信号的氨基酸序列位于胞嘧啶脱氨酶的N端,结构式(I)为N-E-CN-IN。脱氨酶上的突变或蛋白优化不会影响Cas9蛋白的拆分,本发明的脱氨酶可为常见的脱氨酶变体,如ABE(F148A),ABEmax,ABEmaxQW,YEE-CBE,YE1-CBE,CBEmax等所包括的脱氨酶。
所述脱氨酶为腺苷脱氨酶时,优选如SEQ ID NO.3所示的序列;
所述脱氨酶为腺苷脱氨酶时,优选如SEQ ID NO.17所示的序列。
作为本发明的优选实施方式,所述拼接组件为为内含肽、光诱导二聚化蛋白、FRB/FKBP、DmC/FKBP、ABI/PLY中的其中一种;所述连接肽包括XTEN、SGGS、(SGGS)2、GGS、(GGS)3、(GGS)7;所述核定位信号为SV40 NLS或nucleoplasmin NLS。
所述SV40 NLS的核苷酸序列如SEQ ID NO.4所示。
所述nucleoplasmin NLS的核苷酸序列如SEQ ID NO.5所示。
作为本发明的优选实施方式,所述拼接组件为内含肽。
融合蛋白组在细胞内利用内含肽的反式剪接作用,可得到含有全长、具有gRNA识别作用的Cas9蛋白的蛋白;内含肽包括Rhodothermus marinus DnaB intein(以下简称Rmaintein),Mycobacterium xenopi GyrA intein(以下简称Mxe intein)、Nostocpunctiforme DnaE intein(以下简称Npu intein)等。
所述Rma intein、Npu intein以及Mxe intein的氨基酸序列分别如SEQ ID NO.6~8所示。
更优选地,所述拼接组件为内含肽Rma intein;其氨基酸序列为如:
1)SEQ ID NO.6所示的氨基酸序列,或
2)由SEQ ID NO.6所示的氨基酸序列经突变得到的,且与SEQ ID NO.6所示的氨基酸序列具有至少90%同源性且具有相同功能的蛋白序列;
所述IN为如SEQ ID NO.6所示的氨基酸序列的1-102的氨基酸,所述IC为如SEQ IDNO.6所示的氨基酸序列的103-154的氨基酸。
所述相同的功能指具有经过加工后切除,并催化两端的蛋白质多肽连接为成熟的蛋白质分子的功能。
作为本发明的优选实施方式,所述Rma intein的核苷酸序列为如SEQ ID NO.9所示的核苷酸序列。
作为本发明的优选实施方式,所述Npu intein的核苷酸序列为如SEQ ID NO.10所示的核苷酸序列。
作为本发明的优选实施方式,所述Mxe intein的核苷酸序列为如SEQ ID NO.11所示的核苷酸序列。
进一步地,本发明还提供了用于表达所述融合蛋白组的核酸构建物组,包括第一核酸构建物和第二核酸构建物,所述第一核酸构建物和第二核酸构建物的核苷酸序列包括5‘-3‘的如式III所示结构:
P-X1-A; (III)
其中,P为启动子序列;第一核酸构建物的X为编码所述第一融合蛋白的核苷酸序列,第二核酸构建物的X为编码所述第二融合蛋白的核苷酸序列;A为poly(A)的核苷酸序列;-为必要的连接肽的核苷酸序列或连接键。
优选地,所述启动子序列为CAG启动子序列;所述CAG启动子的核苷酸序列如SEQID NO.12所示。
优选地,所述poly(A)为bGH poly(A);所述bGH poly(A)的核苷酸序列如SEQ IDNO.13所示。
所述核酸构建物组运转至体内可转录成RNA,并经翻译得到所述融合蛋白组,所述融合蛋白组在拼接组件作用下重新组装得到全长Cas9、ABE或CBE蛋白。
进一步地,本发明还提供了用于表达所述融合蛋白的载体组,包括第一载体和第二载体,所述第一载体含有所述的第一核酸构建物,所述第二载体含有所述的第二核酸构建物。将所述核酸构建物组插入不同的载体中,可在不同类型生物体内实现高效运转。
作为本发明优选实施方式,所述载体为病毒载体。
作为本发明的优选实施方式,所述载体组中的其中一个还包括gRNA。一般地,选取核酸构建物较短的部分接入gRNA序列,避免接入gRNA序列的片段长度超过载体的容量限制。
更优选地,所述载体为AAV载体。
腺相关病毒(adeno-associated virus,AAV)属于细小病毒科(parvoviridae),单链DNA病毒。经过改造的rAAV工具具有安全性高、免疫原性低、宿主范围广、能介导基因在动物体内长期稳定表达等特点,是一种重要的携带外源基因的病毒工具,已被广泛的应用在动物水平的基因表达、基因操作和基因治疗。重组腺相关病毒载体(rAAV)所包含的DNA一般是用外源基因表达元件替换AAV的编码基因,仅保留了病毒复制和包装所需的ITR序列。通过反式补偿Rep基因、Cap基因和辅助病毒功能因子,可以包装产生携带外源DNA的rAAV。但AAV的装载容量有限,仅为约4.7kb,因此一般的ABE或CBE蛋白无法使用该载体进行运载。本发明通过将Cas9拆分为不同的两端,并构建得到含有胞嘧啶脱氨酶或腺苷脱氨酶以及分段Cas9的融合蛋白组,突破了装载容量的限制,分开运载到靶器官或靶细胞内,再利用蛋白剪接机制使其融合成完整的蛋白,即可解决转运障碍,提高转运效率,扩大运载体的选择范围和应用范围。
进一步地,本发明还要求保护被所述融合蛋白组或所述核酸构建物组所转化,或被所述载体组所转化或转染得到的工程菌或基因工程细胞
本发明还要求保护所述融合蛋白组或所述核酸构建物组或所述载体组在基因编辑、靶向定位、基因表达转录激活或基因表达转录抑制中的应用;所述应用不用于疾病诊断治疗。
进一步地,本发明还提供了一种基因编辑的方法,包括如下步骤:将靶序列或靶基因与所述融合蛋白组或所述核酸构建物组或所述载体组导入细胞内。
本发明还要求保护所述融合蛋白组或所述核酸构建物组或所述载体组在制备用于基因编辑的药物制剂中的应用。
本发明还要求保护所述用于基因编辑的药物制剂,所述药物制剂包括所述融合蛋白组或所述核酸构建物组或所述载体组。
优选地,所述药物制剂为用于眼睛、造血干细胞、内耳细胞或肝脏细胞的基因编辑的药物制剂。
本发明提供了多种Cas9拆分的方法,在这些位置对Cas9进行拆分得到的蛋白肽段可通过内含肽等多种拼接方法,在靶细胞或器官内重新组装成具有功能活性的Cas9蛋白;本发明提供的新的断裂位点部分优于已报导位点,体内重组后的Cas9活性更高,脱靶率更低。另外,由于拆分后的蛋白更小,受AAV等载体的运载量限制更小,载体的选择范围更多,应用范围更广,可有效提高基因编辑效率和安全性;另外,单独存在的Cas9N或Cas9C不具有完整的功能,进一步通过调控Cas9N和Cas9C加入的时间先后顺序或调节Cas9N和Cas9C的比例,可起到调控Cas9蛋白功能的作用,对CRISPR的进一步应用具有重要的意义。
附图说明
图1为用于表达含有腺苷脱氨酶或含有胞嘧啶脱氨酶的split-cas9蛋白的表达载体组图谱。
图2为用于表达split-cas9蛋白的核酸构建物组的结构示意图。
图3为gRNA表达载体图谱。
图4为稳转细胞系GFP-A的检测原理示意图。
图5为含有未拆分的全长spCas9的pAAV-CAG-ABE载体图谱。
图6为各组GFP-A细胞处理后的GFP阳性细胞数和平均荧光强度。
图7为稳转细胞系GFP-C的工作原理示意图
图8为含有未拆分的全长spCas9的pAAV-CAG-CBE载体图谱。
图9为各组GFP-C细胞处理后的GFP阳性细胞数和平均荧光强度。
图10为split-ABE系统细胞基因编辑效率。
图11为split-ABE系统和细胞基因编辑脱靶情况。
图12为含有U6-gRNA的载体图谱。
图13为利用AAV运载的split-ABE进行基因编辑的编辑效率。
图14为利用AAV运载的split-ABE进行基因编辑的脱靶情况。
图15为split-ABE系统不同表达载体用量的基因编辑效率。
图16为AAV介导的肝脏遗传性疾病的基因编辑效率。
图17为AAV介导的眼睛遗传性疾病的基因编辑效率。
具体实施方式
为更好的说明本发明的目的、技术方案和优点,下面将结合附图和具体实施例对本发明作进一步说明。
下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
下述实施例中所用的材料、试剂等,如无特殊说明,均从常规生化试剂商店购买得到。
实施例1 表达载体的构建方法
1)Cas9蛋白的拆分方法
将Cas9蛋白在如下其中一个位置将其拆分成两段不同的氨基酸序列Cas9N蛋白和Cas9C蛋白;所述Cas9蛋白为spCas9(D10A)蛋白,其氨基酸序列如SEQ ID NO.1所示,编码核苷酸序列如SEQ ID NO.2所示;所述拆分位置为:第178-179位之间、第203-204之间、第253-254位之间、第309-310位之间、第385-386位之间、第465-466位之间、第468-469位之间、第530-531位之间、第573-574位之间、第637-638位之间、第656-657位之间、第674-675位之间、第684-685位之间、第713-714位之间、第718-719位之间、第729-730位之间、第769-770位之间、第940-941位之间或第1005-1006位之间。根据所述拆分方法得到的各蛋白组的如下表1。
表1不同Cas9拆分位置得到的蛋白组
Figure BDA0002378649710000101
Figure BDA0002378649710000111
2)用于表达split-cas9蛋白的核酸构建物组及其表达载体组的构建化学合成内含肽Rma intein、Npu intein、Mxe intein的核苷酸(核苷酸序列如SEQ ID4~6所示),并进一步分别克隆得到各内含肽N端和C端的核苷酸,其中:
RmaN和RmaC,分别对应Rma intein核苷酸序列的第1-306位和第307-462位;
NpuN和NpuC,分别对应Npu intein核苷酸序列的第1-306位和第307-411位;
MxeN和MxeC,分别对应Mxe intein核苷酸序列的第1-357位和第358-597位。
根据表1的Cas9拆分方法,分别克隆ABE(核苷酸序列如SEQID NO.14所示,其中第1-501位为野生型的腺苷脱氨酶,第598-1095位为工程化改造的腺苷脱氨酶,第1120-1140和第5326-5346为核定位信号,第1213-5313为Cas9(D10A),其余为连接肽)和CBE(核苷酸序列如SEQID NO.15所示,其中第40-723位为胞嘧啶脱氨酶,第772-4872为Cas9(D10A)第4873-5133为脲嘧啶糖苷酶抑制剂UGI,第7-27和第5146-5166为核定位信号,其余为连接肽)序列对应的片段。如:拆分位置Cas9蛋白为第178-179位之间,克隆得到对应ABE核苷酸序列第1~1743位的ABEN核苷酸序列,以及对应ABE核苷酸序列第1744~5349位的ABEC核苷酸序列;拆分位置Cas9蛋白为第178-179位之间,克隆得到对应CBE核苷酸序列第1~1302位的CBEN核苷酸序列,以及对应CBE核苷酸序列第1303~5169位的CBEC核苷酸序列。通过在引物上引物限制性内切酶(TypeⅡS型)酶切位点,酶切、连接,将ABEC或CBEC分别与内含肽C端的序列连接,将ABEN或CBEN分别与内含肽N端的序列连接,得到待接入载体的序列;其中,所述含ABEC或CBEC的N端与所述内含肽C端序列的C端连接;所述ABEN或CBEN的C端与所述内含肽N端序列的N端连接。
改造pX601-AAV-CMV::NLS-SaCas9-NLS-3xHA-bGHpA;U6::BsaI-sgRNA(购于addgene,编号#61591,),将其启动子改为CAG启动子(其核苷酸序列如SEQ ID NO:11所示),并进一步为pX601改造删除U6-sagRNA序列和SaCas9序列得到载体pX601。
将所述待接入载体的序列通过酶切、连接,连入pX601,并转入工程菌中,提取质粒得到如图1所示的含有腺苷脱氨酶的表达载体组pAAV-CAG-ABEN-InteinN和pAAV-CAG-InteinC-ABEC(所述载体组的图谱示意图如图1a,表达的相关核酸如图2a所示结构),以及含有胞嘧啶脱氨酶的的表达载体组pAAV-CAG-CBEN-InteinN和pAAV-CAG-InteinC-CBEC(所述载体组的图谱示意图如图1b,表达的相关核酸如图2b所示结构);其中,a为不含脱氨酶模块时的核酸构建物组结构;b为含有腺嘌呤脱氨酶时的核酸构建物组结构;c为含有胞嘧啶脱氨酶的核酸构建物组结构,nCas9(D10A)N、nCas9(D10A)C为拆分后的Cas9N、CasC;inteinN、inteinC对应不同内含肽拆分后的N端和C端部分。
3)gRNA表达载体的构建
克隆pX330-U6-Chimeric_BB-CBh-hSpCas9(购于addgene,编号#42230)上的U6-spgRNA序列,通过分子克隆的方法替换掉Lenti_gRNA-Puro(购于addgene,编号#84752)的U6启动子,得到gRNA表达载体pLenti-U6-chimeric,pLenti-U6-chimeric表达的gRNA序列为ggtcttcgagaagacct,不靶向任一目的基因。
进一步通过pLenti-U6-chimeric上的Bbs1酶切位点,设计、合成gRNA核苷酸序列,通过酶切、连接、转入工程菌中,提取质粒,即得到表达对应gRNA的载体pLenti-U6-gRNA(载体图谱如图3所示)。
实施例2 进行基因编辑的功能性验证
(一)检测含有腺苷脱氨酶的split-Cas9功能——split-ABE系统
按实施例1的方法构建含有腺苷脱氨酶的表达载体组(split-ABE系统):pAAV-CAG-ABEN-InteinN和pAAV-CAG-InteinC-ABEC。所述表达载体组分别为spCas9蛋白从以下位置中其中一种拆分得到:第178-179位之间、第203-204之间、第253-254位之间、第309-310位之间、第465-466位之间、第468-469位之间、第530-531位之间、第573-574位之间、第637-638位之间、第656-657位之间、第674-675位之间、第684-685位之间、第713-714位之间、第718-719位之间、第729-730位之间;内含肽为Npu intein、Mxe intein或Rma intein。
构建含有m1EmGFP稳转表达HEK293T细胞,所述m1EmGFP为EmGFP序列第70个氨基酸的密码子CAG突变为TAG,所述EmGFP核苷酸序列如SEQ ID NO.16所示。由于EmGFP的突变导致翻译提前终止,只有当TAG被编辑为CAG,才能恢复GFP的正常表达,因此可以通过统计GFP阳性细胞的数目和亮度准确便捷地检测基因编辑的能力(原理示意图如图4)。
取6孔板,每孔接种约5×105个稳转GFP-A细胞,培养24小时后,更换新的DMEM培养基,将细胞分为实验组、阳性对照组和阴性对照组(每组3个复孔,实验组共52组),按表2分别进行转染。
表2各组转染情况
Figure BDA0002378649710000131
注:各组质粒加入总量为2微克。其中,pLenti-U6-gRNA-GFP-A为按实施例1的方法构建的靶向m1EmGFP突变位点的gRNA表达载体,gRNA序列为:gcactAcacgccgtaggtga;pAAV-CAG-ABE为将ABE酶切,连入pX601得到,载体图谱如图5所示;pX601-empty-vector,用于保障每组转染质粒总量和组内质粒间的摩尔比一致(下同)。
转染6~8小时后更换培养基,48小时后利用流式细胞术统计各组GFP阳性细胞数和平均荧光强度;检测结果如图6(a为GFP阳性细胞数,b为平均荧光强度,Rma、Npu、Mxe分别指内含肽为Rma intein、Npu intein、Mxe intein)。
由检测结果可得,各实验组载体转入细胞后,可实现目标位点的编辑,点亮GFP;部分split-ABE表达载体组转入后的基因编辑效率甚至超越了直接转入完整的ABE,特别是拆分位点为第674-675位之间或第684-685位之间,内含肽为Rma intein时,无论是GFP阳性细胞数还是平均荧光强度都明显优于其它组,显示这两个位点与Rma intein的组合得到了高效组合、高效编辑的split-ABE系统。因此,证明利用拆分的ABE系统可以有效的进行基因特定位点的编辑。检测含有胞嘧啶脱氨酶的split-Cas9功能——split-CBE系统
按实施例1的方法构建含有胞嘧啶脱氨酶的表达载体组(split-CBE系统):pAAV-CAG-CBEN-InteinN和pAAV-CAG-InteinC-CBEC。所述表达载体组分别为spCas9蛋白从以下位置中其中一种拆分得到:第309-310位之间、第385-386位之间、第468-469位之间、第573-574位之间、第674-675位之间、第684-685位之间、第713-714位之间、第729-730位之间、第769-770位之间、第940-941位之间、第1005-1006位之间;内含肽为Npu intein或Rmaintein。
构建含有m2EmGFP稳转表达HEK293T细胞,所述m2EmGFP为EmGFP序列第1个氨基酸的密码子atg突变为acg,所述EmGFP核苷酸序列如SEQ ID NO.16所示。
由于EmGFP的起始密码子ATG突变为密码子ACG,只有当ACG被编辑ATG,才能恢复GFP的正常表达,因此可以通过统计GFP阳性细胞的数目和亮度准确便捷地检测基因编辑的能力(原理图如图7)。
取6孔板,每孔接种约5×105个稳转GFP-C细胞,培养24小时后,更换新的DMEM培养基,将细胞分为实验组、阳性对照组和阴性对照组(每组3个复孔,实验组共22组),按表3进行转染。
表3各组转染情况
Figure BDA0002378649710000151
注:各组质粒加入总量为2微克。其中,pLenti-U6-gRNA-GFP-C为根据实施例1方法构建的靶向m2EmGFP突变位点的的gRNA表达载体,gRNA序列为:cgccaCggtgagcaagggcg;pAAV-CAG-CBE为将全长CBE酶切,连入pX601得到,载体图谱如图8所示。
转染6~8小时后更换培养基,48小时后利用流式细胞术统计各组GFP阳性细胞数和平均荧光强度;检测结果如图9(a为GFP阳性细胞数,b为平均荧光强度)。
由检测结果可得,各实验组载体转入细胞后,可实现目标位点的编辑,点亮GFP;部分split-ABE表达载体组转入后的基因编辑效率甚至超越了直接转入完整的CBE,特别是拆分位点为第674-675位之间,内含肽为Rma intein时,,无论是GFP阳性细胞数还是平均荧光强度,都优于其它组,显示这个位点与Rma intein内含肽的组合得到了高效组合、高效编辑的split-CBE系统。因此,证明利用split-CBE系统可以有效的进行基因特定位点的编辑。
实施例3 split-ABE系统进行基因编辑的活性检测
进一步检测split-ABE系统进行基因组基因编辑的能力;所述表达载体组分别为spCas9蛋白从以下位置中其中一种拆分得到:第203-204位之间、第309-310位之间、第573-574位之间、第674-675位之间、第684-685位之间;内含肽为Npu intein或Rma intein。
根据实施例1方法分别构建靶向AAVS1、TERT、CCR5的gRNA表达载体pLenti-U6-gRNA-AAVS1、pLenti-U6-gRNA-TERT、pLenti-U6-gRNA-CCR5,各载体的gRNA序列为AAVS1:tccctagtggccccactgtg;TERT:ggtgacaagtgtgatcactt;CCR5:cagccaccctcttttctctg。
分别培养HEK293T、HeLa、U2OS,使细胞密度约为70%-80%,更换新的DMEM培养基,将每种细胞分为实验组、阳性对照组和阴性对照组(每组3个复孔),然后进行PEI瞬转;具体的转染情况如下表所示。
表4各组转染情况
Figure BDA0002378649710000161
注:总质粒加入量为2微克;其中,pLenti-U6-gRNA-target gene分别为:pLenti-U6-gRNA-AAVS1、pLenti-U6-gRNA-TERT、pLenti-U6-gRNA-CCR5中的一种。
转染6~8小时后更换培养基,48小时后提细胞基因组,通过二代测序法检测该gRNA引导下的编辑效率或脱靶情况,结果如图10、11所示。
由检测结果可得,只要腺嘌呤“A”在ABE的编辑窗口内(gRNA序列的第4-9个核苷酸),split-ABE系统均可较为高效地编辑目的基因。且部分split-ABE表达载体组的基因编辑效率甚至超越了直接转入完整的ABE。特别是拆分位点为第674-675位或第684-685位之间,具有很高的编辑效率的同时,保持了较低的脱靶率。虽然拆分位点为309-310位之间的载体组编辑效率相对较低,但在HEK293T和Hela细胞上的结果显示,其脱靶效率也相对较低。不过,573位点可能会暴露相对较高的脱靶风险。总体而言,相对于ABE,split-ABE的脱靶率较低,编辑效率较高。因此,证明利用拆分的ABE系统可以安全有效的进行基因特定位点的编辑。
实施例4 利用AAV运载的split-ABE进行基因编辑的活性检测
克隆pX330-U6-Chimeric_BB-CBh-hSpCas9(购于addgene,编号#42230)上的U6-spgRNA,在split-ABE系统的表达载体中选择序列较短的载体,在其poly(A)序列后面加上U6-spgRNA序列,得到gRNA表达载体pAAV-CAG-ABEN-InteinN-U6-chimeric和pAAV-CAG-InteinC-ABEC-U6-chimeric,表达的gRNA序列为ggtcttcgagaagacct,不靶向任何目的基因,作为阴性对照。
当需要连入目旳gRNA时,因为pAAV-CAG-ABEN-InteinN-U6-chimeric和pAAV-CAG-InteinC-ABEC-U6-chimeric在U6和gRNA scaffold之间含有Bbs1酶切位点,可以通过用Bbs1酶切载体,切去原gRNA序列(gggtcttcgagaagacct),并用引物退火连接的方式连入目的gRNA序列,得到在U6启动子下表达靶向目的位点的gRNA的pAAV-CAG-ABEN-InteinN-U6-gRNA或pAAV-CAG-InteinC-ABEC-U6-gRNA的复合表达载体组,含有U6-gRNA的载体组图谱如图12。
所述复合表达载体组分别为spCas9蛋白从以下位置中其中一种拆分后构建得到:第203-204位之间、第573-574位之间、第674-675位之间、第684-685位之间;内含肽为Npuintein或Rma intein。其中,在第573-574位之间、第674-675位或第684-685位之间拆分时,构建pAAV-CAG-InteinC-ABEC-U6-gRNA载体;在第203-204位之间拆分时,构建pAAV-CAG-ABEN-InteinN-U6-gRNA载体。
构建靶向AAVS1的gRNA表达载体,其gRNA序列为:tccctagtggccccactgtg。
用三质粒转染法(如表5)生产AAV-split-ABE病毒,血清型为AAV1,并用Q-PCR测滴度。
表5各组转染情况
Figure BDA0002378649710000181
注:RepCap和pHelper是病毒生产中需要用到的质粒,RepCap用于表达腺相关病毒的Rep蛋白(Rep78,Rep68,Rep52,Rep40)和Cap蛋白(VP1,VP2,VP3),pHelper用于表达腺病毒helper基因,包括E1A,E1B,E2A,E4和VA等;质粒总加入量为每1*106个细胞加入2微克,转染时细胞密度为80%-85%。
转染72-96小时后回收细胞,用超声裂解细胞,PEG8000沉淀病毒,利用碘克沙醇密度梯度超速离心进行病毒纯化,利用超滤进行缓冲液交换和病毒浓缩,分装后-80℃冻存。
实验组病毒总用量为1×107vg/cell(vg:Vector genomes),AAV-ABEN和AAV-ABEC(AAV-ABEN为含有U6-gRNA的载体产生时,AAV-ABEC为原不含U6-gRNA的载体产生;反之同理)数量比为1:1的病毒侵染HEK293T细胞或HeLa细胞,对照组将含有U6-gRNA的载体产生的病毒替换为总量相等的含有对应拆分Cas9段的AAV-对照病毒(如:实验组为pAAV-CAG-ABEN-InteinN-U6-gRNA+pAAV-CAG-InteinC-ABEC病毒液,相应的对照组为pAAV-ABEN-InteinN-U6-chimeric+pAAV-CAG-InteinC-ABEC病毒液;其中,Cas9的拆分位点一致),侵染同一来源、状态和密度的HEK293T细胞或HeLa细胞。侵染12小时后更换培养基,72小时后提取细胞基因组,通过二代测序技术检测编辑效率和脱靶情况。
编辑效率如图13所示,脱靶率如图14所示。由检测结果可得,AAV可以有效运载split-ABE系统到不同种类的细胞内,并表达split-ABE蛋白和gRNA,在内含肽的可变剪接作用下,split ABE系统可以较为高效地编辑目的基因,同时脱靶率较低。特别是拆分位点为第674-675位或第684-685位之间,内含肽为Rma intein时,编辑效率高且脱靶率低。总体而言,各split ABE系统都具有良好的编辑效率和安全性,这说明可利用AAV运载split-ABE系统安全有效地进行基因特定位点的编辑。
实施例5 split-ABE系统表达载体用量优化
使用实施例4构建的在第674-675位之间将SpCas9进行拆分的载体组生产的病毒:AAV-ABE674N-Rma_inteinN(AAV-ABEN)和AAV-Rma_inteinC-ABE675C-U6-gRNA-AAVS1(AAV-ABEC);同时利用pAAV-CAG-GFP载体生产病毒AAV-GFP,血清型均为AAV1,按表6所示的病毒用量侵染HEK293T细胞,对照组用总量相等的AAV-GFP病毒侵染HEK293T细胞。12小时后更换培养基,72小时后提取细胞基因组,通过一代测序技术检测编辑效率,结果如图15(横坐标为含有Cas9N和含有Cas9C的病毒比例)。
由图15可得,AAV可以有效运载split-ABE系统到目的细胞内,并表达split-ABE蛋白和gRNA,在Rma intein的可变剪接作用下,split-ABE系统可以较为高效地编辑目的基因。同时,当AAV-ABEN和AAV-ABEC的比例不同时,编辑效率不同;且当只有AAV-ABEN或者AAV-ABEC时,不发生编辑。这证明可利用AAV运载split-ABE系统安全有效地进行基因特定位点的编辑,并可以通过调控AAV-ABEN和AAV-ABEC的比例来调控基因编辑效率。
表6不同组别AAV-ABEN和AAV-ABEC的病毒用量比例
Figure BDA0002378649710000191
Figure BDA0002378649710000201
实施例6 AAV介导的肝脏遗传性疾病基因编辑治疗
根据实施例4的方法构建靶向PCSK9基因的复合表达载体组AAV-ABE_674N和AAV-ABE_675C-U6-gRNA-PCSK9;内含肽为Rma intein;gRNA序列为:ATGCCAGGTCATCACAGTCGGGG。
用三质粒分别转染HEK293T法生产了血清型为AAV8的AAV-split-ABE病毒及对照组病毒,并通过Q-PCR测滴度。按表7分别将各病毒以尾静脉注射的方式注射至4-6周大的小鼠肝脏内。
表7不同组别的病毒用量(vg/mouse)
病毒/组别 实验组 对照组 病毒侵染效率对照组
AAV-ABE_674N 5×10<sup>11</sup> 5×10<sup>11</sup> 0
AAV-ABE_675C-U6-gRNA-PCSK9 5×10<sup>11</sup> 0 0
AAV-ABE_675C-U6-chimeric 0 5×10<sup>11</sup> 0
AAV-GFP 0 0 1×10<sup>12</sup>
5周后提取小鼠肝脏,做肝脏切片检测侵染效率,同时回收肝脏细胞基因组,利用一代测序技术检测编辑效率。侵染效率如图16的所示(a为肝脏切片,b为测序结果),可以看出,AAV可以有效侵染到肝脏内。如图16所示,AAV可以侵染至肝脏内并表达split ABE蛋白和gRNA,在内含肽蛋白的可变剪接作用下,split ABE系统可以较为高效地在肝脏内编辑目的基因。这证明可利用AAV运载拆分的ABE系统是一种有效的肝脏遗传性疾病治疗方法。
实施例7 AAV介导的眼睛遗传性疾病基因编辑治疗
根据实施例4的方法构建靶向VEGFA基因的复合表达载体组AAV-ABE_674N和AAV-ABE_675C-U6-gRNA-VEGFA,及AAV-ABE_573N和AAV-ABE_574C-U6-gRNA-VEGFA,内含肽为Rmaintein;gRNA序列为:CGCTTACCTGGCATGGTGGAGG。
用三质粒转染HEK293T法生产了血清型为AAV8的AAV-split-ABE病毒和血清型为AAV2、AAV5、AAV8的AAV-GFP病毒,用Q-PCR测滴度。按表8分别将各病毒以视网膜下腔注射的方式注射至4-6周大的小鼠眼底内。
表8不同组别的病毒用量(vg/mouse)
Figure BDA0002378649710000211
5周后,取出视网膜展片,观察病毒侵染效率。同时回收视网膜细胞的基因组,利用常规一代和二代测序技术检测编辑效率。
侵染效率如图17的视网膜展片所示(a为视网膜展片荧光显色图,b为测序结果),经过视网膜下腔注射,AAV可以有效侵染到视网膜内,特别是本次试验选用的AAV8血清型,在注射区域形成了集中的亮斑。说明AAV可以侵染至视网膜内并表达split-ABE蛋白和gRNA,在Rma intein的可变剪接作用下,split-ABE系统可以较为高效地在视杆细胞和视锥细胞内编辑目的基因。这证明可利用AAV运载split-ABE系统是一种有效的眼睛遗传性疾病治疗方法。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
SEQUENCE LISTING
<110> 中山大学
<120> 一种拆分Cas9的方法及其应用
<130> 2020
<160> 17
<170> PatentIn version 3.3
<210> 1
<211> 1368
<212> PRT
<213> Streptococcus pyogenes
<400> 1
Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 2
<211> 4104
<212> DNA
<213> Streptococcus pyogenes
<400> 2
atggataaaa agtattctat tggtttagcc atcggcacta attccgttgg atgggctgtc 60
ataaccgatg aatacaaagt accttcaaag aaatttaagg tgttggggaa cacagaccgt 120
cattcgatta aaaagaatct tatcggtgcc ctcctattcg atagtggcga aacggcagag 180
gcgactcgcc tgaaacgaac cgctcggaga aggtatacac gtcgcaagaa ccgaatatgt 240
tacttacaag aaatttttag caatgagatg gccaaagttg acgattcttt ctttcaccgt 300
ttggaagagt ccttccttgt cgaagaggac aagaaacatg aacggcaccc catctttgga 360
aacatagtag atgaggtggc atatcatgaa aagtacccaa cgatttatca cctcagaaaa 420
aagctagttg actcaactga taaagcggac ctgaggttaa tctacttggc tcttgcccat 480
atgataaagt tccgtgggca ctttctcatt gagggtgatc taaatccgga caactcggat 540
gtcgacaaac tgttcatcca gttagtacaa acctataatc agttgtttga agagaaccct 600
ataaatgcaa gtggcgtgga tgcgaaggct attcttagcg cccgcctctc taaatcccga 660
cggctagaaa acctgatcgc acaattaccc ggagagaaga aaaatgggtt gttcggtaac 720
cttatagcgc tctcactagg cctgacacca aattttaagt cgaacttcga cttagctgaa 780
gatgccaaat tgcagcttag taaggacacg tacgatgacg atctcgacaa tctactggca 840
caaattggag atcagtatgc ggacttattt ttggctgcca aaaaccttag cgatgcaatc 900
ctcctatctg acatactgag agttaatact gagattacca aggcgccgtt atccgcttca 960
atgatcaaaa ggtacgatga acatcaccaa gacttgacac ttctcaaggc cctagtccgt 1020
cagcaactgc ctgagaaata taaggaaata ttctttgatc agtcgaaaaa cgggtacgca 1080
ggttatattg acggcggagc gagtcaagag gaattctaca agtttatcaa acccatatta 1140
gagaagatgg atgggacgga agagttgctt gtaaaactca atcgcgaaga tctactgcga 1200
aagcagcgga ctttcgacaa cggtagcatt ccacatcaaa tccacttagg cgaattgcat 1260
gctatactta gaaggcagga ggatttttat ccgttcctca aagacaatcg tgaaaagatt 1320
gagaaaatcc taacctttcg cataccttac tatgtgggac ccctggcccg agggaactct 1380
cggttcgcat ggatgacaag aaagtccgaa gaaacgatta ctccctggaa ttttgaggaa 1440
gttgtcgata aaggtgcgtc agctcaatcg ttcatcgaga ggatgaccaa ctttgacaag 1500
aatttaccga acgaaaaagt attgcctaag cacagtttac tttacgagta tttcacagtg 1560
tacaatgaac tcacgaaagt taagtatgtc actgagggca tgcgtaaacc cgcctttcta 1620
agcggagaac agaagaaagc aatagtagat ctgttattca agaccaaccg caaagtgaca 1680
gttaagcaat tgaaagagga ctactttaag aaaattgaat gcttcgattc tgtcgagatc 1740
tccggggtag aagatcgatt taatgcgtca cttggtacgt atcatgacct cctaaagata 1800
attaaagata aggacttcct ggataacgaa gagaatgaag atatcttaga agatatagtg 1860
ttgactctta ccctctttga agatcgggaa atgattgagg aaagactaaa aacatacgct 1920
cacctgttcg acgataaggt tatgaaacag ttaaagaggc gtcgctatac gggctgggga 1980
cgcttgtcgc ggaaacttat caacgggata agagacaagc aaagtggtaa aactattctc 2040
gattttctaa agagcgacgg cttcgccaat aggaacttta tgcagctgat ccatgatgac 2100
tctttaacct tcaaagagga tatacaaaag gcacaggttt ccggacaagg ggactcattg 2160
cacgaacata ttgcgaatct tgctggttcg ccagccatca aaaagggcat actccagaca 2220
gtcaaagtag tggatgagct agttaaggtc atgggacgtc acaaaccgga aaacattgta 2280
atcgagatgg cacgcgaaaa tcaaacgact cagaaggggc aaaaaaacag tcgagagcgg 2340
atgaagagaa tagaagaggg tattaaagaa ctgggcagcc agatcttaaa ggagcatcct 2400
gtggaaaata cccaattgca gaacgagaaa ctttacctct attacctaca aaatggaagg 2460
gacatgtatg ttgatcagga actggacata aaccgtttat ctgattacga cgtcgatcac 2520
attgtacccc aatccttttt gaaggacgat tcaatcgaca ataaagtgct tacacgctcg 2580
gataagaacc gagggaaaag tgacaatgtt ccaagcgagg aagtcgtaaa gaaaatgaag 2640
aactattggc ggcagctcct aaatgcgaaa ctgataacgc aaagaaagtt cgataactta 2700
actaaagctg agaggggtgg cttgtctgaa cttgacaagg cgggatttat taaacgtcag 2760
ctcgtggaaa cccgccagat cacaaagcat gttgcccaga tactagattc ccgaatgaat 2820
acgaaatacg acgagaacga taagctgatt cgggaagtca aagtaatcac tttaaagtca 2880
aaattggtgt cggacttcag aaaggatttt caattctata aagttaggga gataaataac 2940
taccaccatg cgcacgacgc ttatcttaat gccgtcgtag ggaccgcact cattaagaaa 3000
tacccgaagc tagaaagtga gtttgtgtat ggtgattaca aagtttatga cgtccgtaag 3060
atgatcgcga aaagcgaaca ggagataggc aaggctacag ccaaatactt cttttattct 3120
aacattatga atttctttaa gacggaaatc actctggcaa acggagagat acgcaaacga 3180
cctttaattg aaaccaatgg ggagacaggt gaaatcgtat gggataaggg ccgggacttc 3240
gcgacggtga gaaaagtttt gtccatgccc caagtcaaca tagtaaagaa aactgaggtg 3300
cagaccggag ggttttcaaa ggaatcgatt cttccaaaaa ggaatagtga taagctcatc 3360
gctcgtaaaa aggactggga cccgaaaaag tacggtggct tcgatagccc tacagttgcc 3420
tattctgtcc tagtagtggc aaaagttgag aagggaaaat ccaagaaact gaagtcagtc 3480
aaagaattat tggggataac gattatggag cgctcgtctt ttgaaaagaa ccccatcgac 3540
ttccttgagg cgaaaggtta caaggaagta aaaaaggatc tcataattaa actaccaaag 3600
tatagtctgt ttgagttaga aaatggccga aaacggatgt tggctagcgc cggagagctt 3660
caaaagggga acgaactcgc actaccgtct aaatacgtga atttcctgta tttagcgtcc 3720
cattacgaga agttgaaagg ttcacctgaa gataacgaac agaagcaact ttttgttgag 3780
cagcacaaac attatctcga cgaaatcata gagcaaattt cggaattcag taagagagtc 3840
atcctagctg atgccaatct ggacaaagta ttaagcgcat acaacaagca cagggataaa 3900
cccatacgtg agcaggcgga aaatattatc catttgttta ctcttaccaa cctcggcgct 3960
ccagccgcat tcaagtattt tgacacaacg atagatcgca aacgatacac ttctaccaag 4020
gaggtgctag acgcgacact gattcaccaa tccatcacgg gattatatga aactcggata 4080
gatttgtcac agcttggggg tgac 4104
<210> 3
<211> 365
<212> PRT
<213> Escherichia coli
<400> 3
Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu
1 5 10 15
Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala
20 25 30
Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro
35 40 45
Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg
50 55 60
Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu
65 70 75 80
Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His
85 90 95
Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly
100 105 110
Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His
115 120 125
Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu
130 135 140
Leu Ser Asp Ala Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys
145 150 155 160
Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser
165 170 175
Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser
180 185 190
Gly Gly Ser Ser Gly Gly Ser Ser Glu Val Glu Phe Ser His Glu Tyr
195 200 205
Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg
210 215 220
Glu Val Pro Val Gly Ala Val Leu Val Leu Asn Asn Arg Val Ile Gly
225 230 235 240
Glu Gly Trp Asn Arg Ala Ile Gly Leu His Asp Pro Thr Ala His Ala
245 250 255
Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val Met Gln Asn Tyr Arg
260 265 270
Leu Ile Asp Ala Thr Leu Tyr Val Thr Phe Glu Pro Cys Val Met Cys
275 280 285
Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg Val Val Phe Gly Val
290 295 300
Arg Asn Ala Lys Thr Gly Ala Ala Gly Ser Leu Met Asp Val Leu His
305 310 315 320
Tyr Pro Gly Met Asn His Arg Val Glu Ile Thr Glu Gly Ile Leu Ala
325 330 335
Asp Glu Cys Ala Ala Leu Leu Cys Tyr Ala Phe Arg Met Pro Arg Gln
340 345 350
Val Phe Asn Ala Gln Lys Lys Ala Gln Ser Ser Thr Asp
355 360 365
<210> 4
<211> 21
<212> DNA
<213> simian virus 40
<400> 4
ccaaagaaga agcggaaggt c 21
<210> 5
<211> 48
<212> DNA
<213> 人工序列
<400> 5
aaaaggccgg cggccacgaa aaaggccggc caggcaaaaa agaaaaag 48
<210> 6
<211> 154
<212> PRT
<213> Rhodothermus marinus
<400> 6
Cys Leu Ala Gly Asp Thr Leu Ile Thr Leu Ala Asp Gly Arg Arg Val
1 5 10 15
Pro Ile Arg Glu Leu Val Ser Gln Gln Asn Phe Ser Val Trp Ala Leu
20 25 30
Asn Pro Gln Thr Tyr Arg Leu Glu Arg Ala Arg Val Ser Arg Ala Phe
35 40 45
Cys Thr Gly Ile Lys Pro Val Tyr Arg Leu Thr Thr Arg Leu Gly Arg
50 55 60
Ser Ile Arg Ala Thr Ala Asn His Arg Phe Leu Thr Pro Gln Gly Trp
65 70 75 80
Lys Arg Val Asp Glu Leu Gln Pro Gly Asp Tyr Leu Ala Leu Pro Arg
85 90 95
Arg Ile Pro Thr Ala Ser Met Ala Ala Ala Cys Pro Glu Leu Arg Gln
100 105 110
Leu Ala Gln Ser Asp Val Tyr Trp Asp Pro Ile Val Ser Ile Glu Pro
115 120 125
Asp Gly Val Glu Glu Val Phe Asp Leu Thr Val Pro Gly Pro His Asn
130 135 140
Phe Val Ala Asn Asp Ile Ile Ala His Asn
145 150
<210> 7
<211> 137
<212> PRT
<213> Nostoc punctiforme
<400> 7
Cys Leu Ser Tyr Glu Thr Glu Ile Leu Thr Val Glu Tyr Gly Leu Leu
1 5 10 15
Pro Ile Gly Lys Ile Val Glu Lys Arg Ile Glu Cys Thr Val Tyr Ser
20 25 30
Val Asp Asn Asn Gly Asn Ile Tyr Thr Gln Pro Val Ala Gln Trp His
35 40 45
Asp Arg Gly Glu Gln Glu Val Phe Glu Tyr Cys Leu Glu Asp Gly Ser
50 55 60
Leu Ile Arg Ala Thr Lys Asp His Lys Phe Met Thr Val Asp Gly Gln
65 70 75 80
Met Leu Pro Ile Asp Glu Ile Phe Glu Arg Glu Leu Asp Leu Met Arg
85 90 95
Val Asp Asn Leu Pro Asn Met Ile Lys Ile Ala Thr Arg Lys Tyr Leu
100 105 110
Gly Lys Gln Asn Val Tyr Asp Ile Gly Val Glu Arg Asp His Asn Phe
115 120 125
Ala Leu Lys Asn Gly Phe Ile Ala Ser
130 135
<210> 8
<211> 199
<212> PRT
<213> Mycobacterium xenopi
<400> 8
Cys Ile Thr Gly Asp Ala Leu Val Ala Leu Pro Glu Gly Glu Ser Val
1 5 10 15
Arg Ile Ala Asp Ile Val Pro Gly Ala Arg Pro Asn Ser Asp Asn Ala
20 25 30
Ile Asp Leu Lys Val Leu Asp Arg His Gly Asn Pro Val Leu Ala Asp
35 40 45
Arg Leu Phe His Ser Gly Glu His Pro Val Tyr Thr Val Arg Thr Val
50 55 60
Glu Gly Leu Arg Val Thr Gly Thr Ala Asn His Pro Leu Leu Cys Leu
65 70 75 80
Val Asp Val Ala Gly Val Pro Thr Leu Leu Trp Lys Leu Ile Asp Glu
85 90 95
Ile Lys Pro Gly Asp Tyr Ala Val Ile Gln Arg Ser Ala Phe Ser Val
100 105 110
Asp Cys Ala Gly Phe Ala Arg Met Gly Lys Pro Glu Phe Ala Pro Thr
115 120 125
Thr Tyr Thr Val Gly Val Pro Gly Leu Val Arg Phe Leu Glu Ala His
130 135 140
His Arg Asp Pro Asp Ala Gln Ala Ile Ala Asp Glu Leu Thr Asp Gly
145 150 155 160
Arg Phe Tyr Tyr Ala Lys Val Ala Ser Val Thr Asp Ala Gly Val Gln
165 170 175
Pro Val Tyr Ser Leu Arg Val Asp Thr Ala Asp His Ala Phe Ile Thr
180 185 190
Asn Gly Phe Val Ser His Asn
195
<210> 9
<211> 306
<212> DNA
<213> Rhodothermus marinus
<400> 9
tgtctggctg gcgatactct cattaccctg gccgatggac gacgagtgcc tattagagaa 60
ctggtgtcac agcagaattt ttccgtgtgg gctctgaatc ctcagactta ccgcctggag 120
agggctagag tgagtagagc tttctgtacc ggcatcaaac ctgtgtaccg cctcaccact 180
agactgggga gatccattag ggccactgcc aaccaccgat ttctcacacc tcagggctgg 240
aaacgagtcg atgaactcca gcctggagat tacctggctc tgcctaggag aatccctact 300
gcctcc 306
<210> 10
<211> 411
<212> DNA
<213> Nostoc punctiforme
<400> 10
tgtttaagct atgaaacgga aatattgaca gtagaatatg gattattacc gattggtaaa 60
attgtagaaa agcgcatcga atgtactgtt tatagcgttg ataataatgg aaatatttat 120
acacaacctg tagcacaatg gcacgatcgc ggagaacaag aggtgtttga gtattgtttg 180
gaagatggtt cattgattcg ggcaacaaaa gaccataagt ttatgactgt tgatggtcaa 240
atgttgccaa ttgatgaaat atttgaacgt gaattggatt tgatgcgggt tgataatttg 300
ccgaatatga tcaaaatagc cacacgtaaa tatttaggca aacaaaatgt ctatgacatt 360
ggagttgagc gcgaccataa ttttgcactc aaaaatggct tcatagcttc t 411
<210> 11
<211> 597
<212> DNA
<213> Mycobacterium xenopi
<400> 11
tgtatcacag gtgatgctct ggtggcgctg cccgaaggcg aatcagtgcg catcgctgac 60
atcgtcccgg gcgcccgccc taatagcgat aacgccatcg acctgaaggt gcttgaccgc 120
cacggcaatc ctgttctggc cgatagactc ttccacagtg gtgaacatcc tgtgtatacc 180
gtccgcaccg tagaaggcct gagagtgaca ggcacagcca accaccccct tttgtgtctg 240
gtggatgttg ccggcgtccc caccctgctg tggaaactga ttgatgagat aaaacccgga 300
gactatgcag tgatccaaag gtccgcattt agtgtggatt gcgctggctt cgctcgcatg 360
ggaaaaccgg aatttgcccc aactacatat actgtcggcg tcccagggct ggttcgattc 420
ctggaagccc accacaggga tccagacgct caggcaatcg cagacgagct gaccgacggg 480
aggttttatt atgctaaggt cgcctctgtg accgatgcag gcgtacagcc tgtgtattct 540
cttagggtgg acacagccga ccatgctttt attaccaatg gcttcgttag tcacaat 597
<210> 12
<211> 793
<212> DNA
<213> 人工序列
<400> 12
cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60
gacgtcaata gtaacgccaa tagggacttt ccattgacgt caatgggtgg agtatttacg 120
gtaaactgcc cacttggcag tacatcaagt gtatcatatg ccaagtacgc cccctattga 180
cgtcaatgac ggtaaatggc ccgcctggca ttgtgcccag tacatgacct tatgggactt 240
tcctacttgg cagtacatct acgtattagt catcgctatt accatggtcg aggtgagccc 300
cacgttctgc ttcactctcc ccatctcccc cccctcccca cccccaattt tgtatttatt 360
tattttttaa ttattttgtg cagcgatggg ggcggggggg gggggggggc gcgcgccagg 420
cggggcgggg cggggcgagg ggcggggcgg ggcgaggcgg agaggtgcgg cggcagccaa 480
tcagagcggc gcgctccgaa agtttccttt tatggcgagg cggcggcggc ggcggcccta 540
taaaaagcga agcgcgcggc gggcgggagt cgctgcgcgc tgccttcgcc ccgtgccccg 600
ctccgccgcc gcctcgcgcc gcccgccccg gctctgactg accgcgttac tcccacaggt 660
gagcgggcgg gacggccctt ctcctccggg ctgtaattag ctgagcaaga ggtaagggtt 720
taagggatgg ttggttggtg gggtattaat gtttaattac ctggagcacc tgcctgaaat 780
cacttttttt cag 793
<210> 13
<211> 208
<212> DNA
<213> 人工序列
<400> 13
ctgtgccttc tagttgccag ccatctgttg tttgcccctc ccccgtgcct tccttgaccc 60
tggaaggtgc cactcccact gtcctttcct aataaaatga ggaaattgca tcgcattgtc 120
tgagtaggtg tcattctatt ctggggggtg gggtggggca ggacagcaag ggggaggatt 180
gggaagagaa tagcaggcat gctgggga 208
<210> 14
<211> 5349
<212> DNA
<213> 人工序列
<400> 14
atgtccgaag tcgagttttc ccatgagtac tggatgagac acgcattgac tctcgcaaag 60
agggcttggg atgaacgcga ggtgcccgtg ggggcagtac tcgtgcataa caatcgcgta 120
atcggcgaag gttggaatag gccgatcgga cgccacgacc ccactgcaca tgcggaaatc 180
atggcccttc gacagggagg gcttgtgatg cagaattatc gacttatcga tgcgacgctg 240
tacgtcacgc ttgaaccttg cgtaatgtgc gcgggagcta tgattcactc ccgcattgga 300
cgagttgtat tcggtgcccg cgacgccaag acgggtgccg caggttcact gatggacgtg 360
ctgcatcacc caggcatgaa ccaccgggta gaaatcacag aaggcatatt ggcggacgaa 420
tgtgcggcgc tgttgtccga cttttttcgc atgcggaggc aggagatcaa ggcccagaaa 480
aaagcacaat cctctactga ctctggtggt tcttctggtg gttctagcgg cagcgagact 540
cccgggacct cagagtccgc cacacccgaa agttctggtg gttcttctgg tggttcttcc 600
gaggtcgaat tttcacatga gtattggatg cgacacgcct tgacgctcgc caaaagggcg 660
agggacgaac gggaagttcc cgtaggcgcc gtccttgtac tgaataatcg agttattggc 720
gaaggttgga acagggccat aggactgcat gatccaacag cccatgcaga aatcatggcg 780
ctccggcagg gtggccttgt catgcaaaat tataggctga tcgacgcgac gttgtacgtc 840
accttcgaac cttgcgttat gtgtgcaggc gctatgatac attcaagaat tgggcgagtc 900
gtgtttgggg tcaggaacgc aaagactggt gcagccggtt cccttatgga tgtgctccac 960
tacccaggaa tgaatcatcg ggtcgagatt acagagggga tactggctga cgaatgcgcc 1020
gccctcctgt gctacttctt tcggatgccc aggcaggtgt ttaacgcaca gaagaaagct 1080
caaagcagta ccgactctgg gggctctagt ggaggctccc caaagaagaa gcggaaggtc 1140
agcggttctg agacccccgg cactagtgaa tctgccactc ccgaatcatc cgggggatct 1200
tcagggggat ctgataaaaa gtattctatt ggtttagcca tcggcactaa ttccgttgga 1260
tgggctgtca taaccgatga atacaaagta ccttcaaaga aatttaaggt gttggggaac 1320
acagaccgtc attcgattaa aaagaatctt atcggtgccc tcctattcga tagtggcgaa 1380
acggcagagg cgactcgcct gaaacgaacc gctcggagaa ggtatacacg tcgcaagaac 1440
cgaatatgtt acttacaaga aatttttagc aatgagatgg ccaaagttga cgattctttc 1500
tttcaccgtt tggaagagtc cttccttgtc gaagaggaca agaaacatga acggcacccc 1560
atctttggaa acatagtaga tgaggtggca tatcatgaaa agtacccaac gatttatcac 1620
ctcagaaaaa agctagttga ctcaactgat aaagcggacc tgaggttaat ctacttggct 1680
cttgcccata tgataaagtt ccgtgggcac tttctcattg agggtgatct aaatccggac 1740
aactcggatg tcgacaaact gttcatccag ttagtacaaa cctataatca gttgtttgaa 1800
gagaacccta taaatgcaag tggcgtggat gcgaaggcta ttcttagcgc ccgcctctct 1860
aaatcccgac ggctagaaaa cctgatcgca caattacccg gagagaagaa aaatgggttg 1920
ttcggtaacc ttatagcgct ctcactaggc ctgacaccaa attttaagtc gaacttcgac 1980
ttagctgaag atgccaaatt gcagcttagt aaggacacgt acgatgacga tctcgacaat 2040
ctactggcac aaattggaga tcagtatgcg gacttatttt tggctgccaa aaaccttagc 2100
gatgcaatcc tcctatctga catactgaga gttaatactg agattaccaa ggcgccgtta 2160
tccgcttcaa tgatcaaaag gtacgatgaa catcaccaag acttgacact tctcaaggcc 2220
ctagtccgtc agcaactgcc tgagaaatat aaggaaatat tctttgatca gtcgaaaaac 2280
gggtacgcag gttatattga cggcggagcg agtcaagagg aattctacaa gtttatcaaa 2340
cccatattag agaagatgga tgggacggaa gagttgcttg taaaactcaa tcgcgaagat 2400
ctactgcgaa agcagcggac tttcgacaac ggtagcattc cacatcaaat ccacttaggc 2460
gaattgcatg ctatacttag aaggcaggag gatttttatc cgttcctcaa agacaatcgt 2520
gaaaagattg agaaaatcct aacctttcgc ataccttact atgtgggacc cctggcccga 2580
gggaactctc ggttcgcatg gatgacaaga aagtccgaag aaacgattac tccctggaat 2640
tttgaggaag ttgtcgataa aggtgcgtca gctcaatcgt tcatcgagag gatgaccaac 2700
tttgacaaga atttaccgaa cgaaaaagta ttgcctaagc acagtttact ttacgagtat 2760
ttcacagtgt acaatgaact cacgaaagtt aagtatgtca ctgagggcat gcgtaaaccc 2820
gcctttctaa gcggagaaca gaagaaagca atagtagatc tgttattcaa gaccaaccgc 2880
aaagtgacag ttaagcaatt gaaagaggac tactttaaga aaattgaatg cttcgattct 2940
gtcgagatct ccggggtaga agatcgattt aatgcgtcac ttggtacgta tcatgacctc 3000
ctaaagataa ttaaagataa ggacttcctg gataacgaag agaatgaaga tatcttagaa 3060
gatatagtgt tgactcttac cctctttgaa gatcgggaaa tgattgagga aagactaaaa 3120
acatacgctc acctgttcga cgataaggtt atgaaacagt taaagaggcg tcgctatacg 3180
ggctggggac gcttgtcgcg gaaacttatc aacgggataa gagacaagca aagtggtaaa 3240
actattctcg attttctaaa gagcgacggc ttcgccaata ggaactttat gcagctgatc 3300
catgatgact ctttaacctt caaagaggat atacaaaagg cacaggtttc cggacaaggg 3360
gactcattgc acgaacatat tgcgaatctt gctggttcgc cagccatcaa aaagggcata 3420
ctccagacag tcaaagtagt ggatgagcta gttaaggtca tgggacgtca caaaccggaa 3480
aacattgtaa tcgagatggc acgcgaaaat caaacgactc agaaggggca aaaaaacagt 3540
cgagagcgga tgaagagaat agaagagggt attaaagaac tgggcagcca gatcttaaag 3600
gagcatcctg tggaaaatac ccaattgcag aacgagaaac tttacctcta ttacctacaa 3660
aatggaaggg acatgtatgt tgatcaggaa ctggacataa accgtttatc tgattacgac 3720
gtcgatcaca ttgtacccca atcctttttg aaggacgatt caatcgacaa taaagtgctt 3780
acacgctcgg ataagaaccg agggaaaagt gacaatgttc caagcgagga agtcgtaaag 3840
aaaatgaaga actattggcg gcagctccta aatgcgaaac tgataacgca aagaaagttc 3900
gataacttaa ctaaagctga gaggggtggc ttgtctgaac ttgacaaggc cggatttatt 3960
aaacgtcagc tcgtggaaac ccgccagatc acaaagcatg ttgcccagat actagattcc 4020
cgaatgaata cgaaatacga cgagaacgat aagctgattc gggaagtcaa agtaatcact 4080
ttaaagtcaa aattggtgtc ggacttcaga aaggattttc aattctataa agttagggag 4140
ataaataact accaccatgc gcacgacgct tatcttaatg ccgtcgtagg gaccgcactc 4200
attaagaaat acccgaagct agaaagtgag tttgtgtatg gtgattacaa agtttatgac 4260
gtccgtaaga tgatcgcgaa aagcgaacag gagataggca aggctacagc caaatacttc 4320
ttttattcta acattatgaa tttctttaag acggaaatca ctctggcaaa cggagagata 4380
cgcaaacgac ctttaattga aaccaatggg gagacaggtg aaatcgtatg ggataagggc 4440
cgggacttcg cgacggtgag aaaagttttg tccatgcccc aagtcaacat agtaaagaaa 4500
actgaggtgc agaccggagg gttttcaaag gaatcgattc ttccaaaaag gaatagtgat 4560
aagctcatcg ctcgtaaaaa ggactgggac ccgaaaaagt acggtggctt cgatagccct 4620
acagttgcct attctgtcct agtagtggca aaagttgaga agggaaaatc caagaaactg 4680
aagtcagtca aagaattatt ggggataacg attatggagc gctcgtcttt tgaaaagaac 4740
cccatcgact tccttgaggc gaaaggttac aaggaagtaa aaaaggatct cataattaaa 4800
ctaccaaagt atagtctgtt tgagttagaa aatggccgaa aacggatgtt ggctagcgcc 4860
ggagagcttc aaaaggggaa cgaactcgca ctaccgtcta aatacgtgaa tttcctgtat 4920
ttagcgtccc attacgagaa gttgaaaggt tcacctgaag ataacgaaca gaagcaactt 4980
tttgttgagc agcacaaaca ttatctcgac gaaatcatag agcaaatttc ggaattcagt 5040
aagagagtca tcctagctga tgccaatctg gacaaagtat taagcgcata caacaagcac 5100
agggataaac ccatacgtga gcaggcggaa aatattatcc atttgtttac tcttaccaac 5160
ctcggcgctc cagccgcatt caagtatttt gacacaacga tagatcgcaa acgatacact 5220
tctaccaagg aggtgctaga cgcgacactg attcaccaat ccatcacggg attatatgaa 5280
actcggatag atttgtcaca gcttgggggt gactctggtg gttctcccaa gaagaagagg 5340
aaagtctaa 5349
<210> 15
<211> 5169
<212> DNA
<213> 人工序列
<400> 15
atgggcccta agaagaagag aaaagtgtct ggcggctcta gctcagagac tggcccagtg 60
gctgtggacc ccacattgag gcggcggatc gagccccatg agtttgaggt attcttcgat 120
ccgagagagc tccgcaagga gacctgcctg ctttacgaaa ttaattgggg gggccggcac 180
tccatttggc gacatacatc acagaacact aacaagcacg tcgaagtcaa cttcatcgag 240
aagttcacga cagaaagata tttctgtccg aacacaaggt gcagcattac ctggtttctc 300
agctggagcc catgcggcga atgtagtagg gccatcactg aattcctgtc aaggtatccc 360
cacgtcactc tgtttattta catcgcaagg ctgtaccacc acgctgaccc ccgcaatcga 420
caaggcctgc gggatttgat ctcttcaggt gtgactatcc aaattatgac tgagcaggag 480
tcaggatact gctggagaaa ctttgtgaat tatagcccga gtaatgaagc ccactggcct 540
aggtatcccc atctgtgggt acgactgtac gttcttgaac tgtactgcat catactgggc 600
ctgcctcctt gtctcaacat tctgagaagg aagcagccac agctgacatt ctttaccatc 660
gctcttcagt cttgtcatta ccagcgactg cccccacaca ttctctgggc caccgggttg 720
aaaagcggca gcgagactcc cgggacctca gagtccgcca cacccgaaag tgataaaaag 780
tattctattg gtttagccat cggcactaat tccgttggat gggctgtcat aaccgatgaa 840
tacaaagtac cttcaaagaa atttaaggtg ttggggaaca cagaccgtca ttcgattaaa 900
aagaatctta tcggtgccct cctattcgat agtggcgaaa cggcagaggc gactcgcctg 960
aaacgaaccg ctcggagaag gtatacacgt cgcaagaacc gaatatgtta cttacaagaa 1020
atttttagca atgagatggc caaagttgac gattctttct ttcaccgttt ggaagagtcc 1080
ttccttgtcg aagaggacaa gaaacatgaa cggcacccca tctttggaaa catagtagat 1140
gaggtggcat atcatgaaaa gtacccaacg atttatcacc tcagaaaaaa gctagttgac 1200
tcaactgata aagcggacct gaggttaatc tacttggctc ttgcccatat gataaagttc 1260
cgtgggcact ttctcattga gggtgatcta aatccggaca actcggatgt cgacaaactg 1320
ttcatccagt tagtacaaac ctataatcag ttgtttgaag agaaccctat aaatgcaagt 1380
ggcgtggatg cgaaggctat tcttagcgcc cgcctctcta aatcccgacg gctagaaaac 1440
ctgatcgcac aattacccgg agagaagaaa aatgggttgt tcggtaacct tatagcgctc 1500
tcactaggcc tgacaccaaa ttttaagtcg aacttcgact tagctgaaga tgccaaattg 1560
cagcttagta aggacacgta cgatgacgat ctcgacaatc tactggcaca aattggagat 1620
cagtatgcgg acttattttt ggctgccaaa aaccttagcg atgcaatcct cctatctgac 1680
atactgagag ttaatactga gattaccaag gcgccgttat ccgcttcaat gatcaaaagg 1740
tacgatgaac atcaccaaga cttgacactt ctcaaggccc tagtccgtca gcaactgcct 1800
gagaaatata aggaaatatt ctttgatcag tcgaaaaacg ggtacgcagg ttatattgac 1860
ggcggagcga gtcaagagga attctacaag tttatcaaac ccatattaga gaagatggat 1920
gggacggaag agttgcttgt aaaactcaat cgcgaagatc tactgcgaaa gcagcggact 1980
ttcgacaacg gtagcattcc acatcaaatc cacttaggcg aattgcatgc tatacttaga 2040
aggcaggagg atttttatcc gttcctcaaa gacaatcgtg aaaagattga gaaaatccta 2100
acctttcgca taccttacta tgtgggaccc ctggcccgag ggaactctcg gttcgcatgg 2160
atgacaagaa agtccgaaga aacgattact ccctggaatt ttgaggaagt tgtcgataaa 2220
ggtgcgtcag ctcaatcgtt catcgagagg atgaccaact ttgacaagaa tttaccgaac 2280
gaaaaagtat tgcctaagca cagtttactt tacgagtatt tcacagtgta caatgaactc 2340
acgaaagtta agtatgtcac tgagggcatg cgtaaacccg cctttctaag cggagaacag 2400
aagaaagcaa tagtagatct gttattcaag accaaccgca aagtgacagt taagcaattg 2460
aaagaggact actttaagaa aattgaatgc ttcgattctg tcgagatctc cggggtagaa 2520
gatcgattta atgcgtcact tggtacgtat catgacctcc taaagataat taaagataag 2580
gacttcctgg ataacgaaga gaatgaagat atcttagaag atatagtgtt gactcttacc 2640
ctctttgaag atcgggaaat gattgaggaa agactaaaaa catacgctca cctgttcgac 2700
gataaggtta tgaaacagtt aaagaggcgt cgctatacgg gctggggacg cttgtcgcgg 2760
aaacttatca acgggataag agacaagcaa agtggtaaaa ctattctcga ttttctaaag 2820
agcgacggct tcgccaatag gaactttatg cagctgatcc atgatgactc tttaaccttc 2880
aaagaggata tacaaaaggc acaggtttcc ggacaagggg actcattgca cgaacatatt 2940
gcgaatcttg ctggttcgcc agccatcaaa aagggcatac tccagacagt caaagtagtg 3000
gatgagctag ttaaggtcat gggacgtcac aaaccggaaa acattgtaat cgagatggca 3060
cgcgaaaatc aaacgactca gaaggggcaa aaaaacagtc gagagcggat gaagagaata 3120
gaagagggta ttaaagaact gggcagccag atcttaaagg agcatcctgt ggaaaatacc 3180
caattgcaga acgagaaact ttacctctat tacctacaaa atggaaggga catgtatgtt 3240
gatcaggaac tggacataaa ccgtttatct gattacgacg tcgatcacat tgtaccccaa 3300
tcctttttga aggacgattc aatcgacaat aaagtgctta cacgctcgga taagaaccga 3360
gggaaaagtg acaatgttcc aagcgaggaa gtcgtaaaga aaatgaagaa ctattggcgg 3420
cagctcctaa atgcgaaact gataacgcaa agaaagttcg ataacttaac taaagctgag 3480
aggggtggct tgtctgaact tgacaaggcc ggatttatta aacgtcagct cgtggaaacc 3540
cgccagatca caaagcatgt tgcgcagata ctagattccc gaatgaatac gaaatacgac 3600
gagaacgata agctgattcg ggaagtcaaa gtaatcactt taaagtcaaa attggtgtcg 3660
gacttcagaa aggattttca attctataaa gttagggaga taaataacta ccaccatgcg 3720
cacgacgctt atcttaatgc cgtcgtaggg accgcactca ttaagaaata cccgaagcta 3780
gaaagtgagt ttgtgtatgg tgattacaaa gtttatgacg tccgtaagat gatcgcgaaa 3840
agcgaacagg agataggcaa ggctacagcc aaatacttct tttattctaa cattatgaat 3900
ttctttaaga cggaaatcac tctggcaaac ggagagatac gcaaacgacc tttaattgaa 3960
accaatgggg agacaggtga aatcgtatgg gataagggcc gggacttcgc gacggtgaga 4020
aaagttttgt ccatgcccca agtcaacata gtaaagaaaa ctgaggtgca gaccggaggg 4080
ttttcaaagg aatcgattct tccaaaaagg aatagtgata agctcatcgc tcgtaaaaag 4140
gactgggacc cgaaaaagta cggtggcttc gatagcccta cagttgccta ttctgtccta 4200
gtagtggcaa aagttgagaa gggaaaatcc aagaaactga agtcagtcaa agaattattg 4260
gggataacga ttatggagcg ctcgtctttt gaaaagaacc ccatcgactt ccttgaggcg 4320
aaaggttaca aggaagtaaa aaaggatctc ataattaaac taccaaagta tagtctgttt 4380
gagttagaaa atggccgaaa acggatgttg gctagcgccg gagagcttca aaaggggaac 4440
gaactcgcac taccgtctaa atacgtgaat ttcctgtatt tagcgtccca ttacgagaag 4500
ttgaaaggtt cacctgaaga taacgaacag aagcaacttt ttgttgagca gcacaaacat 4560
tatctcgacg aaatcataga gcaaatttcg gaattcagta agagagtcat cctagctgat 4620
gccaatctgg acaaagtatt aagcgcatac aacaagcaca gggataaacc catacgtgag 4680
caggcggaaa atattatcca tttgtttact cttaccaacc tcggcgctcc agccgcattc 4740
aagtattttg acacaacgat agatcgcaaa cgatacactt ctaccaagga ggtgctagac 4800
gcgacactga ttcaccaatc catcacggga ttatatgaaa ctcggataga tttgtcacag 4860
cttgggggtg actctggtgg ttctactaat ctgtcagata ttattgaaaa ggagaccggt 4920
aagcaactgg ttatccagga atccatcctc atgctcccag aggaggtgga agaagtcatt 4980
gggaacaagc cggaaagcga tatactcgtg cacaccgcct acgacgagag caccgacgag 5040
aatgtcatgc ttctgactag cgacgcccct gaatacaagc cttgggctct ggtcatacag 5100
gatagcaacg gtgagaacaa gattaagatg ctctctggtg gttctcccaa gaagaagagg 5160
aaagtctaa 5169
<210> 16
<211> 717
<212> DNA
<213> 人工序列
<400> 16
atggtgagca agggcgagga gctgttcacc ggggtggtgc ccatcctggt cgagctggac 60
ggcgacgtaa acggccacaa gttcagcgtg tccggcgagg gcgagggcga tgccacctac 120
ggcaagctga ccctgaagtt catctgcacc accggcaagc tgcccgtgcc ctggcccacc 180
ctcgtgacca ccttcaccta cggcgtgcag tgcttcgccc gctaccccga ccacatgaag 240
cagcacgact tcttcaagtc cgccatgccc gaaggctacg tccaggagcg caccatcttc 300
ttcaaggacg acggcaacta caagacccgc gccgaggtga agttcgaggg cgacaccctg 360
gtgaaccgca tcgagctgaa gggcatcgac ttcaaggagg acggcaacat cctggggcac 420
aagctggagt acaactacaa cagccacaag gtctatatca ccgccgacaa gcagaagaac 480
ggcatcaagg tgaacttcaa gacccgccac aacatcgagg acggcagcgt gcagctcgcc 540
gaccactacc agcagaacac ccccatcggc gacggccccg tgctgctgcc cgacaaccac 600
tacctgagca cccagtccgc cctgagcaaa gaccccaacg agaagcgcga tcacatggtc 660
ctgctggagt tcgtgaccgc cgccgggatc actctcggca tggacgagct gtacaag 717
<210> 17
<211> 229
<212> PRT
<213> Rattus norvegicus
<400> 17
Met Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu Arg Arg
1 5 10 15
Arg Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg Glu Leu
20 25 30
Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly Arg His
35 40 45
Ser Ile Trp Arg His Thr Ser Gln Asn Thr Asn Lys His Val Glu Val
50 55 60
Asn Phe Ile Glu Lys Phe Thr Thr Glu Arg Tyr Phe Cys Pro Asn Thr
65 70 75 80
Arg Cys Ser Ile Thr Trp Phe Leu Ser Tyr Ser Pro Cys Gly Glu Cys
85 90 95
Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg Tyr Pro His Val Thr Leu
100 105 110
Phe Ile Tyr Ile Ala Arg Leu Tyr His His Ala Asp Pro Glu Asn Arg
115 120 125
Gln Gly Leu Glu Asp Leu Ile Ser Ser Gly Val Thr Ile Gln Ile Met
130 135 140
Thr Glu Gln Glu Ser Gly Tyr Cys Trp Arg Asn Phe Val Asn Tyr Ser
145 150 155 160
Pro Ser Asn Glu Ala His Trp Pro Arg Tyr Pro His Leu Trp Val Arg
165 170 175
Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro Pro Cys
180 185 190
Leu Asn Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe Thr Ile
195 200 205
Ala Leu Gln Ser Cys His Tyr Gln Arg Leu Pro Pro His Ile Leu Trp
210 215 220
Ala Thr Gly Leu Lys
225

Claims (12)

1.一种拆分Cas9蛋白的方法,其特征在于,将Cas9蛋白序列在如下其中一个位置将其拆分为N端的Cas9N蛋白和C端的Cas9C蛋白;所述Cas9蛋白的氨基酸序列为:
1)如SEQ ID NO.1所示的氨基酸序列,或
2)由SEQ ID NO.1所示的氨基酸序列经突变得到的,与SEQ ID NO.1所示的氨基酸序列具有至少90%同源性,且编码具有靶向目的基因、结合目的基因、切割目的基因功能的蛋白的氨基酸序列;
所述位置包括:第178-179位之间、第203-204位之间、第253-254位之间、第309-310位之间、第385-386位之间、第465-466位之间、第468-469位之间、第530-531位之间、第573-574位之间、第637-638位之间、第656-657位之间、第674-675位之间、第684-685位之间、第713-714位之间、第718-719位之间、第729-730位之间、第769-770位之间、第940-941位之间或第1005-1006位之间。
2.融合蛋白组,其特征在于,包括第一融合蛋白和第二融合蛋白;所述第一融合蛋白的氨基酸序列包括自N端至C端如式I所示的结构:
N-E-N-CN-IN; (I)
其中,E为脱氨酶模块的氨基酸序列或无;N为核定位信号的氨基酸序列或无;CN为如权利要求1所述Cas9N蛋白的氨基酸序列;IN为拼接组件的N端的氨基酸序列;-为必要的连接肽或连接键;
所述第二融合蛋白的氨基酸序列包括自N端至C端如式II所示的结构:
IC-CC-U-N; (II)
其中,N为核定位信号的氨基酸序列或无;CC为如权利要求1所述Cas9C蛋白的氨基酸序列;IC为拼接组件的C端的氨基酸序列;U为效率增强模块的氨基酸序列或无;-为必要的连接肽或连接键;
当结构式(I)中的E为腺嘌呤脱氨酶或无时,结构式II不含U;当结构式(I)中的E为胞嘧啶脱氨酶时,结构式II的U为1或2个尿嘧啶糖苷酶抑制剂UGI。
3.如权利要求2所述的融合蛋白组,其特征在于,所述拼接组件为内含肽、光诱导二聚化蛋白、FRB/FKBP、DmC/FKBP、ABI/PLY中的其中一种;所述连接肽包括XTEN、SGGS、(SGGS)2、GGS、(GGS)3、(GGS)7;所述核定位信号为SV40 NLS或nucleoplasmin NLS。
4.如权利要求2所述的融合蛋白组,其特征在于,所述拼接组件为Rma intein;所述Rmaintein的氨基酸序列为:
1)如SEQ ID NO.6所示的氨基酸序列,
2)或由SEQ ID NO.6所示的氨基酸序列经突变得到的,且与SEQ ID NO.6所示的氨基酸序列具有至少90%同源性且具有相同功能的蛋白序列;
所述IN为如SEQ ID NO.6所示的氨基酸序列的1-102的氨基酸,所述IC为如SEQ IDNO.6所示的氨基酸序列的103-154的氨基酸。
5.用于表达如权利要求2~4任一项所述融合蛋白组的核酸构建物组,其特征在于,包括第一核酸构建物和第二核酸构建物,所述第一核酸构建物和第二核酸构建物的核苷酸序列包括5‘-3‘的如式III所示结构:
P-X-A; (III)
其中,P为启动子序列;第一核酸构建物的X为编码所述第一融合蛋白的核苷酸序列,第二核酸构建物的X为编码所述第二融合蛋白的核苷酸序列;A为poly(A)的核苷酸序列;-为必要的连接肽的核苷酸序列或连接键。
6.用于表达所述融合蛋白的载体组,其特征在于,包括第一载体和第二载体,所述第一载体含有如权利要求5所述的第一核酸构建物,所述第二载体含有如权利要求5所述的第二核酸构建物。
7.如权利要求6所述的载体组,其特征在于,所述载体为病毒载体,优选AAV载体。
8.被如权利要求2~4任一项所述的融合蛋白组或如权利要求5所述的核酸构建物组所转化,或被如权利要求6或7所述的载体组所转化或转染得到的工程菌或基因工程细胞。
9.如权利要求2~4任一项所述的融合蛋白组或如权利要求5所述的核酸构建物组或如权利要求6或7所述载体组在基因编辑、靶向定位、基因表达转录激活或基因表达转录抑制中的应用;所述应用不用于疾病诊断治疗。
10.如权利要求2~4任一项所述的融合蛋白组或如权利要求5所述的核酸构建物组或如权利要求6或7所述载体组在制备用于基因编辑的药物制剂中的应用。
11.一种用于基因编辑的药物制剂,其特征在于,包括如权利要求2~4任一项所述的融合蛋白组或如权利要求5所述的核酸构建物组或如权利要求6或7所述载体组。
12.如权利要求11所述的药物制剂,其特征在于,所述药物制剂为用于眼睛、造血干细胞、内耳细胞或肝脏细胞的基因编辑的药物制剂。
CN202010077502.XA 2020-01-23 2020-01-23 一种拆分Cas9的方法及其应用 Active CN111117985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010077502.XA CN111117985B (zh) 2020-01-23 2020-01-23 一种拆分Cas9的方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010077502.XA CN111117985B (zh) 2020-01-23 2020-01-23 一种拆分Cas9的方法及其应用

Publications (2)

Publication Number Publication Date
CN111117985A true CN111117985A (zh) 2020-05-08
CN111117985B CN111117985B (zh) 2022-07-26

Family

ID=70492422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010077502.XA Active CN111117985B (zh) 2020-01-23 2020-01-23 一种拆分Cas9的方法及其应用

Country Status (1)

Country Link
CN (1) CN111117985B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112522307A (zh) * 2020-12-18 2021-03-19 郑州大学 一种BSMV病毒载体介导的CRISPR/Cas9重组载体及其应用
CN112662702A (zh) * 2021-01-07 2021-04-16 四川大学 超长基因在植物中快速表达的方法
CN112680430A (zh) * 2020-12-28 2021-04-20 南方医科大学 一种CRISPR SpCas9突变体及其应用
CN112708605A (zh) * 2021-01-14 2021-04-27 中山大学 一个Cas9蛋白拆分得到的蛋白组及其应用
CN112877314A (zh) * 2021-03-08 2021-06-01 四川大学 一种诱导型碱基编辑系统及其应用
CN114395585A (zh) * 2022-01-12 2022-04-26 中国科学院天津工业生物技术研究所 用于碱基编辑的组合物

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106011104A (zh) * 2015-05-21 2016-10-12 清华大学 利用拆分Cas系统进行基因编辑和表达调控方法
US20180155708A1 (en) * 2015-01-08 2018-06-07 President And Fellows Of Harvard College Split Cas9 Proteins
CN109929839A (zh) * 2017-12-18 2019-06-25 华东师范大学 拆分型单碱基基因编辑系统及其应用
US20190345483A1 (en) * 2016-05-12 2019-11-14 President And Fellows Of Harvard College AAV Split Cas9 Genome Editing and Transcriptional Regulation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180155708A1 (en) * 2015-01-08 2018-06-07 President And Fellows Of Harvard College Split Cas9 Proteins
CN106011104A (zh) * 2015-05-21 2016-10-12 清华大学 利用拆分Cas系统进行基因编辑和表达调控方法
US20190345483A1 (en) * 2016-05-12 2019-11-14 President And Fellows Of Harvard College AAV Split Cas9 Genome Editing and Transcriptional Regulation
CN109929839A (zh) * 2017-12-18 2019-06-25 华东师范大学 拆分型单碱基基因编辑系统及其应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN,Y.X.ET AL: "Development of Highly Efficient Dual-AAV Split Adenosien Base Editor for in vivo Gene Therapy", 《SMALL METHOD》 *
JIN,S.ET AL: "Cytosine, but not adenine,base editors induce genome-off target mutations in rice", 《SCIENCE》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112522307A (zh) * 2020-12-18 2021-03-19 郑州大学 一种BSMV病毒载体介导的CRISPR/Cas9重组载体及其应用
CN112680430A (zh) * 2020-12-28 2021-04-20 南方医科大学 一种CRISPR SpCas9突变体及其应用
CN112680430B (zh) * 2020-12-28 2023-06-06 南方医科大学 一种CRISPR SpCas9突变体及其应用
CN112662702A (zh) * 2021-01-07 2021-04-16 四川大学 超长基因在植物中快速表达的方法
CN112662702B (zh) * 2021-01-07 2023-05-12 四川大学 超长基因在植物中快速表达的方法
CN112708605A (zh) * 2021-01-14 2021-04-27 中山大学 一个Cas9蛋白拆分得到的蛋白组及其应用
CN112877314A (zh) * 2021-03-08 2021-06-01 四川大学 一种诱导型碱基编辑系统及其应用
CN112877314B (zh) * 2021-03-08 2023-06-13 四川大学 一种诱导型碱基编辑系统及其应用
CN114395585A (zh) * 2022-01-12 2022-04-26 中国科学院天津工业生物技术研究所 用于碱基编辑的组合物
CN114395585B (zh) * 2022-01-12 2024-03-08 中国科学院天津工业生物技术研究所 用于碱基编辑的组合物

Also Published As

Publication number Publication date
CN111117985B (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
CN111117985B (zh) 一种拆分Cas9的方法及其应用
US20230025279A1 (en) Crispr/cas-related methods and compositions for treating leber&#39;s congenital amaurosis 10 (lca10)
EP2761009B1 (en) Inducible adeno -associated virus vector mediated transgene ablation system
US20240076698A1 (en) Methods and compositions for modulating a genome
US20200340012A1 (en) Crispr-cas genome engineering via a modular aav delivery system
US5252479A (en) Safe vector for gene therapy
TW202028461A (zh) 核酸構築體及使用方法
WO2001029243A1 (en) Method and vector for producing and transferring trans-spliced peptides
US20230295725A1 (en) Compositions and methods for treating cep290-associated disease
EP3310369B1 (en) Self-limiting viral vectors encoding nucleases
US20220273818A1 (en) Compositions and methods for treating cep290-associated disease
US20020076754A1 (en) Overcoming AAV vector size limitation through viral DNA hetero-dimerization
US20230038993A1 (en) Compositions and methods for treating cep290-associated disease
JP2022530457A (ja) 遺伝子操作aav
WO2021113634A1 (en) Transgene cassettes designed to express a human mecp2 gene
CN109337928B (zh) 通过过表达腺相关病毒受体提高基因治疗效率的方法
US20030190746A1 (en) Gene expression control system and its use in recombinant virus packaging cell lines
CN112708605A (zh) 一个Cas9蛋白拆分得到的蛋白组及其应用
Gapinske et al. Targeting Duchenne muscular dystrophy by skipping DMD exon 45 with base editors
WO2022145495A1 (en) Method for treating spinocerebellar ataxias (sca) by targeting atxn7 gene
CN111718418B (zh) 一种增强基因编辑的融合蛋白及其应用
WO2024102739A2 (en) Adeno-associated virus (aav) production
WO2024092171A1 (en) Method to deliver large genes using virus and a dna recombination system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant