CN113373130B - Cas12蛋白、含有Cas12蛋白的基因编辑系统及应用 - Google Patents

Cas12蛋白、含有Cas12蛋白的基因编辑系统及应用 Download PDF

Info

Publication number
CN113373130B
CN113373130B CN202110606220.9A CN202110606220A CN113373130B CN 113373130 B CN113373130 B CN 113373130B CN 202110606220 A CN202110606220 A CN 202110606220A CN 113373130 B CN113373130 B CN 113373130B
Authority
CN
China
Prior art keywords
lys
leu
protein
ala
glu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110606220.9A
Other languages
English (en)
Other versions
CN113373130A (zh
Inventor
王永明
王帅
高思琪
王瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202110606220.9A priority Critical patent/CN113373130B/zh
Publication of CN113373130A publication Critical patent/CN113373130A/zh
Priority to PCT/CN2022/096002 priority patent/WO2022253185A1/zh
Application granted granted Critical
Publication of CN113373130B publication Critical patent/CN113373130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • C12N15/86Viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N5/00Undifferentiated human, animal or plant cells, e.g. cell lines; Tissues; Cultivation or maintenance thereof; Culture media therefor
    • C12N5/06Animal cells or tissues; Human cells or tissues
    • C12N5/0602Vertebrate cells
    • C12N5/0684Cells of the urinary tract or kidneys
    • C12N5/0686Kidney cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/78Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04002Adenine deaminase (3.5.4.2)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2510/00Genetically modified cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2750/00MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssDNA viruses
    • C12N2750/00011Details
    • C12N2750/14011Parvoviridae
    • C12N2750/14111Dependovirus, e.g. adenoassociated viruses
    • C12N2750/14141Use of virus, viral particle or viral elements as a vector
    • C12N2750/14143Use of virus, viral particle or viral elements as a vector viral genome or elements thereof as genetic vector
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/10Plasmid DNA
    • C12N2800/106Plasmid DNA for vertebrates
    • C12N2800/107Plasmid DNA for vertebrates for mammalian
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/22Vectors comprising a coding region that has been codon optimised for expression in a respective host

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Urology & Nephrology (AREA)
  • Virology (AREA)
  • Cell Biology (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明属于基因编辑技术领域,具体涉及一种CRISPR/Cas12基因编辑系统以及其应用。本发明基因编辑系统为特定Cas12蛋白与sgRNA形成的复合体,能精确定位靶向DNA序列并产生切割,使所述靶序列发生双链断裂损伤;所述基因编辑为在细胞中或体外进行基因编辑。所述特定Cas12J‑8蛋白具有数量相对少的氨基酸,并且所述特定Cas12J‑8蛋白、Cas12a蛋白和Cas12b蛋白均具有高的编辑效率,且三类蛋白识别的PAM序列均非常简单。本发明在基因编辑领域中具有广泛的应用前景。

Description

Cas12蛋白、含有Cas12蛋白的基因编辑系统及应用
技术领域
本申请属于基因编辑技术领域,具体涉及Cas12蛋白、含有该Cas12蛋白的基因编辑系统及其相关应用。
背景技术
CRISPR/Cas系统是细菌和古细菌为抵御外源病毒或质粒入侵而进化的一种获得性免疫系统。在CRISPR/Cas12a和CRISPR/Cas12j系统中,crRNA(CRISPR-derived RNA)和Cas12蛋白形成复合体后,识别靶位点的PAM(Protospacer Adjacent Motif)序列。在识别后,crRNA会与靶向DNA序列形成互补结构,Cas蛋白行使切割DNA的功能,使DNA发生断裂损伤。CRISPR/Cas12b系统还含有tracrRNA(trans-activating RNA),它和crRNA以及Cas12b共同形成复合物发挥功能。tracrRNA和crRNA通过连接序列可以融合成为单链单链向导RNA(single guide RNA,sgRNA)。当DNA发生断裂损伤后,细胞内的两种主要DNA损伤修复机制负责修复:非同源末端连接(Non-homologous end-joining,NHEJ)和同源重组(homologousrecombination,HR)。NHEJ修复的结果会引起碱基的缺失或插入,可以进行基因敲除;在提供同源模板的情况下,利用HR修复可以进行基因的定点插入和碱基的精确替换。
除了基础科研外,CRISPR/Cas12基因编辑系统还具有广泛的临床应用前景。利用CRISPR/Cas12基因编辑系统做基因治疗时,需要把Cas和单链向导RNA导入到体内。目前做基因治疗最有效的表达载体是腺相关病毒(AAV)。但是AAV病毒包装的DNA一般不超过4.5kb。SpCas9因为PAM序列简单(识别NGG)和活性高而得到广泛应用。但是SpCas9蛋白有1368个氨基酸,加上sgRNA和启动子,无法有效地包装到AAV病毒中,限制了其在临床中的应用。为了克服这个问题,几个分子量小的Cas9被发明出来,包括SaCas9(PAM序列为NNGRRT);StlCas9(PAM序列为NNAGAW);NmCas9(PAM序列为NNNNGATT);Nme2Cas9(PAM序列为NNNNCC);CjCas9(PAM序列为NNNNRYAC)。但是这些Cas9或者容易脱靶(即非靶向位点切割),或者PAM序列复杂,或者编辑活性低,难以广泛应用。
因此,寻找编辑活性高、特异性高、PAM序列简单的小型CRISPR/Cas系统是解决上述问题的希望所在。
发明内容
针对上述问题,本发明人进行了反复研究,发现一系列Cas12蛋白以及与之相对应的单链向导RNA,两者能构成有效地进行基因编辑的CRISPA/Cas12基因编辑系统,由此完成了本发明。
因此,在第一方面,本发明提供了一种缀合物,所述缀合物包含:
a)Cas12蛋白,所述Cas12蛋白为分别具有SEQ ID NO:1至SEQ ID NO:6所示氨基酸序列的Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白或ChCas12b蛋白,或者为具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQID NO:5和SEQ ID NO:6中任一个所示的氨基酸序列至少80%序列同一性并且保留其生物学活性的氨基酸序列;以及
b)修饰部分。
在第二方面,本发明提供了一种融合蛋白,所述融合蛋白包含:
a)Cas12蛋白,所述Cas12蛋白为分别具有SEQ ID NO:1至SEQ ID NO:6所示氨基酸序列的Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白或ChCas12b蛋白,或者为具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQID NO:5和SEQ ID NO:6中任一个所示的氨基酸序列至少80%序列同一性并且保留其生物学活性的氨基酸序列;
b)另外的蛋白或多肽;以及
c)任选的用于连接所述Cas12蛋白或其同源物与所述另外的蛋白或多肽的接头。
在第三方面,本发明提供了一种单链向导RNA,所述单链向导RNA包含CRISPR重复序列,所述CRISPR重复序列具有SEQ ID NO:15至SEQ ID NO:18中任一个所示的核酸序列,或者具有与SEQ ID NO:15至SEQ ID NO:18中任一项所示的核酸序列至少90%序列同一性且保留其生物学活性的核酸序列,或者具有基于SEQ ID NO:15至SEQ ID NO:18中任一项所述的核酸序列改造得到的保留其生物学活性的核酸序列。
在第四方面,本发明提供了一种分离的核酸分子,所述分离的核酸分子包含编码以下的核酸序列:
a)Cas12蛋白,所述Cas12蛋白为分别具有SEQ ID NO:1至SEQ ID NO:6所示氨基酸序列的Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白或ChCas12b蛋白,或者为具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQID NO:5和SEQ ID NO:6中任一个所示的氨基酸序列至少80%序列同一性并且保留其生物学活性的氨基酸序列;
b)本发明第一方面的缀合物;或者
c)本发明第三方面的融合蛋白。
在第五方面,本发明提供了一种分离的核酸分子,所述分离的核酸分子包含编码本发明第三方面的单链向导RNA的核酸序列。
在第六方面,本发明提供了一种载体,所述载体包含编码以下的核酸序列:
a)Cas12蛋白,所述Cas12蛋白为分别具有SEQ ID NO:1至SEQID NO:6所示氨基酸序列的Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白或ChCas12b蛋白,或者为具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQID NO:5和SEQ ID NO:6中任一个所示的氨基酸序列至少80%序列同一性并且保留其生物学活性的氨基酸序列;
b)本发明第一方面的缀合物;或者
本发明第二方面的融合蛋白。
在第七方面,本发明提供了一种载体,所述载体包含编码本发明第三方面的单链向导RNA的核酸序列。
在第八方面,本发明提供了一种CRISPR/Cas12基因编辑系统,其包含:
a)蛋白组分,其包含:
1)Cas12蛋白,所述Cas12蛋白为分别具有SEQ ID NO:1至SEQ ID NO:6所示氨基酸序列的Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白或ChCas12b蛋白,或者为具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQID NO:5和SEQ ID NO:6中任一个所示的氨基酸序列至少80%序列同一性并且保留其生物学活性的氨基酸序列;
2)本发明第一方面的缀合物;或者
3)本发明第二方面的融合蛋白;
b)核酸组分,其包含:
本发明第三方面的单链向导RNA。
在第九方面,本发明提供了一种细胞,所述细胞包含:本发明第六方面的分离的核酸分子、或者本发明第七方面的载体。
在第十方面,本发明提供了一种对细胞内或体外环境中的靶序列进行基因编辑的方法,所述方法包括:使Cas12蛋白、本发明第一方面的缀合物或本发明第二方面的融合蛋白与本发明第三方面的单链向导RNA、使本发明第六方面和第七方面的载体、或使本发明第八方面的CRISPR/Cas12基因编辑系统与细胞内或体外环境中的靶序列相接触,其中,所述Cas12蛋白为分别具有SEQ ID NO:1至SEQ ID NO:6所示氨基酸序列的Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白或ChCas12b蛋白,或者为具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5和SEQ ID NO:6中任一个所示的氨基酸序列至少80%序列同一性并且保留其生物学活性的氨基酸序列,所述靶序列位于原间隔邻近序列(PAM)的5’端,并且,对于所述Cas12J-8蛋白、所述Mb4Cas12a蛋白、所述MlCas12a蛋白、所述MoCas12a蛋白、所述BgCas12a蛋白、和所述ChCas12b蛋白、或者它们的同源物、缀合物或融合蛋白,所述PAM分别具有序列5’-TTN、5’-YYN、5’-YYN、5’-YYN、5’-YYN和5’-TTN。
在第十一方面,本发明提供了一种试剂盒,所述试剂盒包括:Cas12蛋白、本发明第一方面的缀合物或本发明第二方面的融合蛋白与本发明第三方面的单链向导RNA,本发明第四方面和第五方面的分离的核酸分子,本发明第六方面和第七方面的载体,或者本发明第八方面的CRISPR/Cas12基因编辑系统;以及如何对细胞内或体外环境中的靶序列进行基因编辑的说明书;其中,所述Cas12蛋白为分别具有SEQ ID NO:1至SEQ ID NO:6所示氨基酸序列的Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白或ChCas12b蛋白,或者为具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQID NO:5和SEQ ID NO:6中任一个所示的氨基酸序列至少80%序列同一性并且保留其生物学活性的氨基酸序列。
本课题组开发了可在真核细胞环境高效进行基因编辑的Cas12j-8编辑工具。该Cas12j-8蛋白具有较少数量的氨基酸,特别是具有目前可用于真核基因编辑器中最少数量的氨基酸,因此可有效地包装到表达载体例如腺相关病毒载体中。并且,该蛋白具有特异性高、PAM简单的特性,而且蛋白分子量小可轻易被腺相关病毒等载体工具包装,非常适合后期作为基因治疗工具的开发。
此外,Cas12j-8蛋白的PAM为TTN,PAM简单,编辑范围广泛。而且,经过我们的实验证明,Cas12j-8蛋白在随机位点的编辑效率较FnCas12a蛋白具有显著性优势,在真核环境下的基因编辑能力强。相较于同系列的Cas12j-2蛋白,Cas12j-8具有极为显著的编辑优势,随机位点上的编辑能力显著高于Cas12j-2,更适合进行基因编辑的开发和应用研究。
本发明的Cas12a蛋白及Cas12b蛋白现有的其他Cas12a蛋白及Cas12b蛋白具有较高的编辑活性,特异性较高,且具有较为简单的PAM序列,同时本发明的Cas12a蛋白及Cas12b蛋白的PAM为YYN,拓展了Cas12a蛋白及Cas12b蛋白的领域,及增加了Cas12a蛋白和Cas12b蛋白的应用范围。
附图说明
图1示出CRISPR/Cas12J-8基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图2示出CRISPR/ChCas12b基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图3示出CRISPR/Mb4Cas12a基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图4示出CRISPR/MoCas12a基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图5示出CRISPR/BgCas12a基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图6示出CRISPR/MICas12a基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图7和图8示出CRISPR/Cas12J-8基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图;
图9示出CRISPR/ChCas12b基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图;
图10示出CRISPR/Mb4Cas12a基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图;
图11示出CRISPR/MoCas12a基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图;
图12示出CRISPR/BgCas12a基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图;
图13示出CRISPR/MICas12a基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图;
图14示出Cas12J-8ABE碱基编辑器对各内源位点靶位点进行编辑的结果图。
图15示出利用GFP报告细胞系文库检测CRISPR/Cas系统对靶基因进行编辑的示意图。
图16示出使用几个CRISPR/Cas12J基因编辑系统对GFP报告细胞系进行处理后的细胞照片,其中上图为荧光图像,下图为普通显微图像。
具体实施方式
下面将进一步对本发明进行详细的描述。应理解,上文的发明内容部分以及下文的详细描述仅为具体阐释本发明之目的,无意于以任何方式对本发明进行限制。本发明的保护范围由随附的权利要求书确定。在不背离本发明的精神和主旨的情况下,本领域技术人与可以对各具体实施方式进行更改。
定义
除非另有说明,否则本申请中使用的科学和技术名词具有本领域技术人员所通常理解的含义。为了更好地理解本发明,下面提供相关术语的定义和解释。
本文中使用的术语“Cas12蛋白”、“Cas12”和“Cas”在本申请中可互换使用,指包括Cas12蛋白或其功能活性片段在内的RNA指导的核酸酶。Cas12蛋白是CRISPR/Cas12基因组编辑系统的蛋白组分,能在单链向导RNA(gRNA)的指导下靶向并切割DNA靶序列,形成DNA双链断裂(DSB)。DNA双链断裂能够激活细胞内固有的修复机制非同源末端连接(non-homologousendjoining,NHEJ)和同源重组(homologous recombination,HR),由此对细胞中的DNA损伤进行修复。在修复过程中,对该特定的DNA序列进行定点编辑。
本文中使用的术语“单链向导RNA”、“sgRNA(single guided RNA)”在本申请中可互换使用并且具有本领域技术人员通常理解的含义。一般而言,单链向导RNA或者sgRNA可以包含CRISPR重复序列(repeat sequence)和向导序列(guide sequence),向导序列在本文中也称为向导RNA(guide RNA或gRNA)。在内源性CRISPR系统背景下,向导序列也称为间隔序列(spacer)。在某些情况下,向导序列是与靶序列具有足够相似性从而与所述靶序列杂交并引导CRISPR/Cas12复合物与所述靶序列的特异性结合的任何多核苷酸序列。在某些实施方案中,当最佳比对时,向导序列与其相应靶序列之间的互补程度为至少50%、至少60%、至少70%、至少80%、至少90%、至少95%、或至少99%。确定最佳比对在本领域的普通技术人员的能力范围内。例如,存在公开和可商购的比对算法和程序,诸如但不限于ClustalW、matlab中的史密斯-沃特曼算法(Smith-Waterman)、Bowtie、Geneious、Biopython以及SeqMan。
本文中所使用的术语“CRISPR/Cas12复合物”是指单链向导RNA(single guideRNA)或成熟crRNA与Cas12蛋白结合所形成的复合体,其包含与靶序列杂交并由此使Cas12蛋白与所述靶序列结合的向导序列。该复合体能够识别并切割能与该单链向导RNA或成熟crRNA杂交的多核苷酸。
因此,在形成CRISPR/Cas12复合物的情况下,“靶序列”是指被设计为具有靶向性的向导序列所靶向的多核苷酸,例如与该向导序列具有互补性的序列,其中靶序列与向导序列之间的杂交将促进Cas12发挥其活性,例如切割靶序列的活性。完全互补性不是必需的,只要存在足够互补性以引起杂交并且促进Cas12发挥其活性即可。靶序列可以包括任何多核苷酸,如DNA或RNA。在某些情况下,所述靶序列位于细胞的细胞核或细胞质中。在某些情况下,该靶序列可位于真核细胞的一个细胞器例如线粒体或叶绿体内。
在本文中使用的术语“靶序列”或“靶多核苷酸”可以是对细胞(例如,真核细胞)而言任何内源或外源的多核苷酸。例如,该靶多核苷酸可以是一种存在于真核细胞的细胞核中的多核苷酸。该靶多核苷酸可以是一个编码基因产物(例如,蛋白质)的序列或一个非编码序列(例如,调节多核苷酸或无用DNA)。在某些情况下,该靶序列应该与原间隔序列临近基序(PAM)相关。对PAM的精确序列和长度要求根据使用的Cas蛋白而不同,但是PAM典型地是临近原间隔序列(靶序列)的2-5个碱基序列。本领域技术人员能够鉴定与给定的Cas蛋白一起使用的PAM序列。
本文中使用的术语“多核苷酸”、“核酸序列”、“核苷酸序列”或“核酸片段”可互换使用并且是单链或双链RNA或DNA聚合物,任选地可含有合成的、非天然的或改变的核苷酸碱基。核苷酸通过如下它们的单个字母名称来指代:“A”为腺苷或脱氧腺苷(分别对应RNA或DNA),“C”表示胞苷或脱氧胞苷,“G”表示鸟苷或脱氧鸟苷,“U”表示尿苷,“T”表示脱氧胸苷,“R”表示嘌呤(A或G),“Y”表示嘧啶(C或T),“K”表示G或T,“H”表示A或C或T,“I”表示肌苷,并且“N”表示任何核苷酸。
本文中使用的术语“多肽”、“肽”、和“蛋白(质)”在本申请中可互换使用,指氨基酸残基的聚合物。该术语适用于其中一个或多个氨基酸残基是相应的天然存在的氨基酸的人工化学类似物的氨基酸聚合物,并且适用于天然存在的氨基酸聚合物。术语“多肽”、“肽”、“氨基酸序列”和“蛋白质”还可包括修饰形式,包括但不限于糖基化、脂质连接、硫酸盐化、谷氨酸残基的γ羧化、羟化和ADP-核糖基化。
本文中使用的术语序列“同一性”或者“同源性”具有本领域公认的含义,并且可以利用公开的技术计算两个核酸或多肽分子或区域之间序列同一性的百分比。可以沿着多核苷酸或多肽的全长或者沿着该分子的区域测量序列同一性。(参见,例如ComputationalMolecular Biology,Lesk,A.M.,ed.,Oxford University Press,New York,1988;Biocomputing:Informatics and Genome Projects,Smith,D.W.,ed.,Academic Press,New York,1993;Computer Analysis of Sequence Data,Part I,Griffin,A.M.,andGriffin,H.G.,eds.,Humana Press,New Jersey,1994;Sequence Analysis in MolecularBiology,von Heinje,G,Academic Press,1987;and Sequence Analysis Primer,Gribskov,M.and Devereux,J.,eds.,M Stockton Press,New York,1991)。虽然存在许多测量两个多核苷酸或多肽之间的同一性的方法,但是术语“同一性”是技术人员公知的在肽或蛋白中适合于保守型氨基酸置换的,并且一般可以进行而不改变所得分子的生物活性。通常,本领域技术人员认识到多肽的非必需区中的单个氨基酸置换基本上不改变生物活性(参见例如Watson et al.,Molecular Biology of the Gene,4th Edition,1987,TheBenjamin/Cummings Pub.co.,p.224)。
本文中所使用的术语“载体”是指可将多聚核苷酸插入其中的一种核酸运载工具。当载体能使插入的多核苷酸编码的蛋白获得表达时,或者当载体能使得插入的多核苷酸发生转录(例如转录生成mRNA或功能RNA)时,载体称为表达载体。载体可以通过转化、转导或者转染而被导入宿主细胞,使其携带的遗传物质元件在宿主细胞中获得表达。载体是本领域技术人员公知的,包括但不限于:质粒载体、病毒载体等。载体还可以含有多种调控表达的调控序列。“调控序列”和“调控元件”在本文中可互换使用,指位于编码序列的上游(5′非编码序列)、中间或下游(3′非编码序列)、并且影响相关编码序列的转录、RNA加工或稳定性或者翻译的核苷酸序列。调控序列可以包括但不限于启动子序列、转录起始序列、增强子序列、选择元件及报告基因等。所述调控序列可以是不同来源的,也可以是相同来源但以不同于通常天然存在的方式排列的。另外,载体还可含有复制起始位点。
本文中使用的术语“启动子”指能够控制另一核酸片段转录的核酸片段。在本发明的一些实施方案中,启动子是能够控制细胞中基因转录的启动子,无论其是否来源于所述细胞。启动子可以是组成型启动子或组织特异性启动子或发育调控启动子或诱导型启动子。
本文中使用的术语“组成型启动子”指一般将引起基因在多数细胞类型中在多数情况下表达的启动子。“组织特异性启动子”和“组织优选启动子”可互换使用,并且指主要但非必须专一地在一种组织或器官中表达,而且也可在一种特定细胞或细胞型中表达的启动子。“发育调控启动子”指其活性由发育事件决定的启动子。“诱导型启动子”响应内源性或外源性刺激(环境、激素、化学信号等)而选择性表达可操纵连接的DNA序列。
将核酸分子(例如质粒、线性核酸片段、RNA等)或蛋白质“导入”生物体是指用所述核酸或蛋白质转化生物体细胞,使得所述核酸或蛋白质在细胞中能够发挥功能。本发明所用的“转化”包括稳定转化和瞬时转化。
本文中使用的术语“稳定转化”指将外源核苷酸序列导入基因组中,导致外源基因稳定遗传。一旦稳定转化,外源核酸序列稳定地整合进所述生物体和其任何连续世代的基因组中。
本文中使用的术语“瞬时转化”指将核酸分子或蛋白质导入细胞中,执行功能而没有外源基因稳定遗传。瞬时转化中,外源核酸序列不整合进基因组中。
本文中使用的术语“互补性”是指一个核酸序列与另一个核酸序列借助于传统的沃森-克里克或其他非传统类型形成一个或多个氢键的能力。互补百分比表示一个核酸分子中可与另一个核酸序列形成氢键(例如,沃森-克里克碱基配对)的残基的百分比(例如,10个之中有5、6、7、8、9、10个互补,则互补百分比为50%、60%、70%、80%、90%和100%)。“完全互补”表示一个核酸序列的所有连续残基与另一个核酸序列中的相同数目的连续残基均形成氢键。如本文使用的“基本上互补”是指在一个具有8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50个或更多个核苷酸的区域上至少为60%、65%、70%、75%、80%、85%、90%、95%、97%、98%、99%或100%的互补程度,或者是指在严格条件下杂交的两个核酸。
本文中使用的与杂交相关的术语“严格条件”是指与靶序列具有互补性的一个核酸主要地与该靶序列杂交并且基本上不杂交到非靶序列上的条件。严格条件通常是序列依赖性的,并且取决于许多因素。一般而言,该序列越长,则该序列特异性地杂交到其靶序列上的温度就越高。严格条件的非限制性实例描述于蒂森(Tijssen)(1993)的《生物化学和分子生物学中的实验室技术-核酸探针杂交》(Laboratory Techniques in Biochemistryand Molecular Biology-Hybridization With Nucleic Acid Probes),第1部分,第二章,“杂交原理概述和核酸探针分析策略”(“Overview of principles of hybridizationandthe strategy of nucleic acid probe assay”),爱思唯尔(Elsevier),纽约。
本文中使用的术语“杂交”是指其中一个或多个多核苷酸反应形成一种复合物的反应,该复合物经由这些核苷酸残基之间的碱基的氢键键合而稳定化。氢键键合可以借助于沃森-克里克碱基配对、Hoogstein结合或以任何其他序列特异性方式而发生。该复合物可包含形成一个双链体的两条链、形成多链复合物的三条或多条链、单个自我杂交链、或这些的任何组合。杂交反应可以构成一个更广泛的过程(如PCR的开始、或经由一种酶的多核苷酸的切割)中的一个步骤。能够与一个给定序列杂交的序列被称为该给定序列的“互补物”。
衍生化蛋白
可以对Cas12蛋白进行衍生化,例如将其连接至另外的分子(例如另外的蛋白或多肽)。通常,蛋白的衍生化(例如标记)不会不利影响该蛋白的期望活性(例如,起与单链向导RNA结合的活性、核酸内切酶活性、在向导RNA引导下与靶序列特定位点结合并切割的活性)。因此,在本发明中,可以将Cas12蛋白功能性连接(通过化学偶合、基因融合、非共价连接或其它方式)于一个或多个其它分子部分,例如另外的蛋白或多肽、可检测标记、药用试剂等。
特别地,可以将Cas12蛋白连接其他功能性单元。例如,可以将其与核定位信号(NLS)序列连接,以提高本发明的蛋白进入细胞核的能力。例如,可以将其与靶向部分连接,以使得Cas12蛋白具有靶向性。例如,可以将其与可检测标记连接,以便于对Cas12蛋白进行检测。例如,可以将其与表位标签连接,以便于对Cas12蛋白的表达、检测、示踪和/或纯化。
因此,在第一方面,本发明提供了一种缀合物,所述缀合物包含:
a)Cas12蛋白,所述Cas12蛋白为:
1)具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白,
具有SEQ ID NO:2所示氨基酸序列的Mb4Cas12a蛋白,
具有SEQ ID NO:3所示氨基酸序列的MlCas12a蛋白,
具有SEQ ID NO:4所示氨基酸序列的MoCas12a蛋白,
具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白,或
具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白,
或者为
2)具有SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5和SEQ ID NO:6中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
b)修饰部分;以及
c)任选的用于连接所述Cas12蛋白与所述修饰部分的接头。
在本发明中,所谓Cas12蛋白的“生物学活性”是指该蛋白与单链向导RNA结合的活性、核酸内切酶活性(包括单链切割活性和双链切割活性)、和/或在向导RNA(gRNA)引导下与靶序列特定位点结合并切割的活性,但不限于此。
可以理解,除了Cas12蛋白自身外,还可以使Cas12蛋白与其他物质例如其他蛋白或者可标记标签等结合从而赋予其他的功能性。
因此,在一个实施方案中,所述修饰部分可以为另外的蛋白或多肽、可检测标记或其组合。
在一个进一步的实施方案中,所述另外的蛋白或多肽选自表位标签、报告蛋白或核定位信号(NLS)序列、胞嘧啶脱氨酶(CBE)、腺嘌呤脱氨酶(ABE)、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种。
表位标签是本领域技术人员熟知的,其实例包括但不限于His、V5、FLAG、HA、Myc、VSV-G、Trx等,并且本领域技术人员已知如何根据期望目的(例如,纯化、检测或示踪)选择合适的表位标签。
报告蛋白是本领域技术人员熟知的,其实例包括但不限于GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP等。
可检测标记是本领域技术人员熟知的,其实例包括荧光染料,例如异硫氰酸荧光素(FITC)或DAPI。
本发明的Cas12蛋白可以通过接头与所述修饰部分偶联、缀合或融合,也可以不通过接头而直接地与所述修饰部分连接。接头是本领域熟知的,其实例可以包括但不限于包含1-50个氨基酸(如Glu或Ser)或氨基酸衍生物(如Ahx、β-Ala、GABA或Ava)的接头、或PEG等。
在第二方面,本发明提供了一种融合蛋白,所述融合蛋白包含:
a)Cas12蛋白,所述Cas12蛋白为:
1)具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白,
具有SEQ ID NO:2所示氨基酸序列的Mb4Cas12a蛋白,
具有SEQ ID NO:3所示氨基酸序列的MlCas12a蛋白,
具有SEQ ID NO:4所示氨基酸序列的MoCas12a蛋白,
具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白,
具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白,
或者为
2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5和SEQ ID NO:6中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
b)另外的蛋白或多肽、以及
c)任选的用于连接所述Cas12蛋白与所述另外的蛋白或多肽的接头。
同本发明第一方面一样,所述另外的蛋白或多肽可以选自表位标签、报告蛋白或核定位信号(NLS)序列、胞嘧啶脱氨酶(CBE)、腺嘌呤脱氨酶(ABE)、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种。
表位标签是本领域技术人员熟知的,其实例包括但不限于His、V5、FLAG、HA、Myc、VSV-G、Trx等,并且本领域技术人员已知如何根据期望目的(例如,纯化、检测或示踪)选择合适的表位标签。报告蛋白是本领域技术人员熟知的,其实例包括但不限于GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP等。
报告蛋白是本领域技术人员熟知的,其实例包括但不限于GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP等。
可检测标记是本领域技术人员熟知的,其实例包括荧光染料,例如异硫氰酸荧光素(FITC)或DAPI。
本发明的Cas12蛋白可以通过接头与所述另外的蛋白或多肽偶联、缀合或融合,也可以不通过接头而直接地与所述另外的蛋白或多肽连接。接头是本领域熟知的,其实例包括但不限于包含1-50个氨基酸(如Glu或Ser)或氨基酸衍生物(如Ahx、β-Ala、GABA或Ava)的接头、或PEG等。
在一个优选的实施方案中,所述融合蛋白包含:具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白、腺嘌呤脱氨酶(ABE)、以及任选的连接所述Cas12J-8蛋白和所述腺嘌呤脱氨酶(ABE)的接头。
在一个优选的实施方案中,所述融合蛋白从其N端到C端依次为所述腺嘌呤脱氨酶(ABE)、所述接头、以及所述Cas12J-8蛋白。
在一个更优选的实施方案中,所述融合蛋白的氨基酸序列为SEQ ID NO:7所示。
本课题组开发了可在真核细胞环境高效进行基因编辑的Cas12j-8编辑工具。该Cas12j-8蛋白具有较少数量的氨基酸,特别是具有目前可用于真核基因编辑器中最少数量的氨基酸,因此可有效地包装到表达载体例如腺相关病毒载体中。并且,该蛋白具有特异性高、PAM简单的特性,而且蛋白分子量小可轻易被腺相关病毒等载体工具包装,非常适合后期作为基因治疗工具的开发。
此外,Cas12j-8蛋白的PAM为TTN,PAM简单,编辑范围广泛。而且,经过我们的实验证明,Cas12j-8蛋白在随机位点的编辑效率较FnCas12a蛋白具有显著性优势,在真核环境下的基因编辑能力强。相较于同系列的Cas12j-2蛋白,Cas12j-8蛋白具有极为显著的编辑优势,随机位点上的编辑能力显著高于Cas12j-2蛋白,更适合进行基因编辑的开发和应用研究。
本发明的Cas12a蛋白及Cas12b蛋白相较于现有的其他Cas12a蛋白及Cas12b蛋白具有较高的编辑活性,特异性较高,且具有较为简单的PAM序列,同时Cas12a蛋白及Cas12b蛋白的PAM为YYN,拓展了Cas12a蛋白及Cas12b蛋白的领域,及增加了Cas12a蛋白和Cas12b蛋白的应用范围。
单链向导RNA
在第三方面,本发明提供了一种单链向导RNA,所述单链向导RNA包括CRISPR重复序列,所述CRISPR重复序列具有:
a)针对Cas12J-8蛋白、其同源物、缀合物或融合蛋白的SEQ ID NO:15所示的核酸序列,
针对Mb4Cas12a蛋白、M1Cas12a蛋白和MoCas12a蛋白、其同源物、缀合物或融合蛋白的SEQ ID NO:16所示的核酸序列,
针对BgCas12a蛋白、其同源物、缀合物或融合蛋白的SEQ ID NO:17所示的核酸序列,或
针对ChCas12b蛋白、其同源物、缀合物或融合蛋白的SEQ ID NO:18所示的核酸序列;
或者
b)与SEQ ID NO:15至SEQ ID NO:18中任一个所示的核酸序列至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.9%或者至少100%的序列同一性且保留其生物学活性的核酸序列;或者
c)基于SEQ ID NO:15至SEQ ID NO:18中任一个所述的核酸序列改造得到的且保留其生物学活性的核酸序列。
在一个实施方案中,所述改造可以为碱基磷酸化、碱基硫化、碱基甲基化、碱基羟基化、序列的缩短和序列的加长中的一种或者多种。
在一个进一步的实施方案中,所述序列的缩短和所述序列加长包括相对于基础序列存在一个、两个、三个、四个、五个、六个、七个、八个、九个或者十个碱基的缺失或者添加。
在又一个实施方案中,所述单链向导RNA可以在所述CRISPR重复序列的3’端进一步包括CRISPR间隔序列,所述CRISPR间隔序列为长度为20、21、22、23、24、25、26、27、28、29、30个核苷酸(优选24个核苷酸)且能够与靶序列互补配对的序列。
在一个优选的实施方案中,所述CRISPR间隔序列为长度为24个核苷酸且能够与靶序列互补配对的序列。
在一个进一步的实施方案中,所述单链向导RNA在所述间隔序列的3’端进一步包括终止子。作为示例,所述终止子可以为多个如至少六个(例如七个或者八个)U构成的终止子。
所述单链向导RNA能够与上述的Cas12蛋白、缀合物或者融合蛋白结合而形成复合物,该复合物可以识别相应的PAM并由此与靶序列结合,进而实现对靶序列的剪切或者说基因编辑。
编码核酸以及载体
在第四方面,本发明提供了一种分离的核酸分子,所述分离的核酸分子包含编码以下的核酸序列:
a)Cas12蛋白,所述Cas12蛋白为:
1)具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白,
具有SEQ ID NO:2所示氨基酸序列的Mb4Cas12a蛋白,
具有SEQ ID NO:3所示氨基酸序列的MlCas12a蛋白,
具有SEQ ID NO:4所示氨基酸序列的MoCas12a蛋白,
具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白,
具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白,
或者为
2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5和SEQ ID NO:6中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
b)本发明第一方面的缀合物;或者
c)本发明第二方面的融合蛋白。
在一个实施方案中,所述分离的核酸分子包含SEQ ID NO:8、SEQ ID NO:9、SEQ IDNO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13中任一个所示的核酸序列或其简并序列。
在一个实施方案中,所述分离的核酸分子包含编码SEQ ID NO:7所示融合蛋白的核酸序列。
在一个优选的实施方案中,所述分离的核酸分子包含SEQ ID NO:14所示的核酸序列或其简并序列。
在一个进一步的实施方案中,所述分离的核酸分子还编码本发明第三方面的与所述Cas12蛋白对应的单链向导RNA。
作为一个示例,所述分离的核酸分子包含编码具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白(例如SEQ ID NO:7所示的融合蛋白)的核酸序列,例如SEQ ID NO:8、或SEQ ID NO:14所示的核酸序列,并且包含编码针对该Cas12J-8蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:15所示CRISPR重复序列、包含与SEQID NO:15具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ IDNO:15改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列,例如SEQ IDNO:19所示的核酸序列。
作为一个示例,所述分离的核酸分子包含编码具有SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列,例如SEQ ID NO:9、SEQ ID NO:10或SEQ ID NO:11所示的核酸序列,并且包含编码针对该Cas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:16所示CRISPR重复序列、包含与SEQ ID NO:16具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:16改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列,例如SEQ ID NO:20所示的核酸序列。
作为一个示例,所述分离的核酸分子包含编码具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列,例如SEQ ID NO:12所示的核酸序列,并且包含编码针对该BgCas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:17所示CRISPR重复序列、包含与SEQ ID NO:17具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:17改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列,例如SEQ ID NO:21所示的核酸序列。
作为一个示例,所述分离的核酸分子包含编码具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白的核酸序列,例如SEQ ID NO:13所示的核酸序列,并且包含编码针对该ChCas12b蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:18所示CRISPR重复序列、包含与SEQ ID NO:18具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:18改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列,例如SEQ ID NO:22所示的核酸序列。
在第五方面,本发明提供了一种分离的核酸分子,所述分离的核酸分子编码本发明第三方面的单链向导RNA。
在一个实施方案中,所述分离的核酸分子包含SEQ ID NO:19、SEQ ID NO:20、SEQID NO:21、和SEQ ID NO:22中任一个所示的核酸序列或其简并序列。
在一个优选的实施方案中,所述分离的核酸分子还包含编码CRISPR间隔序列的核酸序列。
在利用本领域已知的某些工具例如表达载体将本发明的分离的核酸分子转染到相应的细胞中后,本发明的分离的核酸分子可以表达出本发明上文所述的Cas12蛋白、其缀合物或融合蛋白、和/或上文所述的单链向导RNA,并在此行使相应的功能,例如进行基因编辑。
另外,本发明的分离的核酸分子可以单独地/分别地表达Cas12蛋白、其缀合物或融合蛋白、以及单链向导RNA,也可以一体地表达所述的表达产物,选择何种表达方式根据具体情况而定。
再者,所述表达产物具有上文记载的相应作用和/或功能,为简洁起见在此不再赘述。
在第六方面,本发明提供了一种载体,其包含编码以下的核酸序列:
a)Cas12蛋白,所述Cas12蛋白为:
1)具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白,
具有SEQ ID NO:2所示氨基酸序列的Mb4Cas12a蛋白,
具有SEQ ID NO:3所示氨基酸序列的MlCas12a蛋白,
具有SEQ ID NO:4所示氨基酸序列的MoCas12a蛋白,
具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白,
具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白,
或者为
2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5和SEQ ID NO:6中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
b)本发明第一方面的缀合物;或者
c)本发明第二方面的融合蛋白。
在一个实施方案中,所述载体包含SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQID NO:11、SEQ ID NO:12、SEQ ID NO:13中任一个所示的核酸序列或其简并序列。
在一个实施方案中,所述载体包含编码SEQ ID NO:7所示融合蛋白的核酸序列。
在一个优选的实施方案中,所述载体包含SEQ ID NO:14所示的核酸序列或其简并序列。
所述载体可以为表达载体,例如质粒载体例如pUC19载体、附着体载体、pAAV2_ITR载体、逆转录病毒载体、慢病毒载体、腺病毒载体或腺相关病毒载体。
在又一个实施方案中,所述载体进一步包含编码本发明第三方面的与所述Cas12蛋白对应的单链向导RNA的核酸序列。
作为一个示例,所述载体包含编码具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白(例如SEQ ID NO:7所示的融合蛋白)的核酸序列,例如SEQ ID NO:8或SEQ ID NO:14所示的核酸序列,并且包含编码针对该Cas12J-8蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:15所示CRISPR重复序列、包含与SEQ ID NO:15具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ TD NO:15改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列,例如SEQ ID NO:19所示的核酸序列。
作为一个示例,所述载体包含编码具有SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列,例如SEQ ID NO:9、SEQ ID NO:10或SEQ ID NO:11所示的核酸序列,并且包含编码针对该Cas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:16所示CRISPR重复序列、包含与SEQ ID NO:16具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:16改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列,例如SEQ ID NO:20所示的核酸序列。
作为一个示例,所述载体包含编码具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列,例如SEQ ID NO:12所示的核酸序列,并且包含编码针对该BgCas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:17所示CRISPR重复序列、包含与SEQ ID NO:17具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:17改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列,例如SEQ ID NO:21所示的核酸序列。
作为一个示例,所述载体包含编码具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白的核酸序列,例如SEQ ID NO:13所示的核酸序列,并且包含编码针对该ChCas12b蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:18所示CRISPR重复序列、包含与SEQ ID NO:18具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:18改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列,例如SEQ ID NO:22所示的核酸序列。
在第七方面,本发明提供了一种载体,所述载体包含编码本发明第三方面的单链向导RNA的核酸分子。
在一个实施方案中,所述载体包含SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21和SEQ ID NO:22中任一个所示的核酸序列或其简并序列。
在一个优选的实施方案中,所述载体还包含编码CRISPR间隔序列的核酸序列。
根据上文的记载可知,在将本发明的载体转染到细胞中后,在载体中克隆的核酸序列可以被表达为Cas12蛋白、其缀合物或融合蛋白、和/或上文所述的单链向导RNA,并在此行使相应的功能,例如进行基因编辑。
另外,可以将多种载体例如两种载体转染到细胞中,其中一种载体表达所述Cas12蛋白、其缀合物或融合蛋白,而另一种载体表达单链向导RNA。随后,表达出来的Cas12蛋白、其缀合物或融合蛋白与表达出来的单链向导RNA复合形成复合物,并在此行使相应的功能,例如进行基因编辑。
当然,也可以将编码所述Cas12蛋白、其缀合物或融合蛋白的核酸序列以及编码所述单链向导RNA的核酸序列克隆到一个载体中,使得该载体转染到细胞内后表达所述Cas12蛋白、其缀合物或融合蛋白以及所述单链向导RNA两者,并在此行使相应的功能,例如进行基因编辑。
CRISPR/Cas12基因编辑系统
在第八方面,本发明提供了一种CRISPR/Cas12基因编辑系统,其包含:
a)蛋白组分,其包含:
1)Cas12蛋白,所述Cas12蛋白为:
1.1)具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白,
具有SEQ ID NO:2所示氨基酸序列的Mb4Cas12a蛋白,
具有SEQ ID NO:3所示氨基酸序列的MlCas12a蛋白,
具有SEQ ID NO:4所示氨基酸序列的MoCas12a蛋白,
具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白,或
具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白,
或者为
1.2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ TD NO:4、SEQ TD NO:5和SEQ ID NO:6中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
2)本发明第一方面的缀合物;或者
3)本发明第二方面的融合蛋白;以及
b)核酸组分,其包含:本发明第三方面的与a)中的蛋白组分对应的单链向导RNA;
并且,所述蛋白组分和所述核酸组分相互结合形成复合物。
作为一个示例,所述蛋白组分包含具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白,所述核酸组分包含单链向导RNA,所述单链向导RNA为包含SEQ ID NO:15所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO:15具有至少90%序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ IDNO:15改造得到的且保留其生物学活性的改造序列的单链向导RNA。
作为一个示例,所述蛋白组分包含具有SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白,所述核酸组分包含单链向导RNA,所述单链向导RNA为包含SEQ ID NO:16所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO:16具有至少90%序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ ID NO:16改造得到的且保留其生物学活性的改造序列的单链向导RNA。
作为一个示例,所述蛋白组分包含具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白、其同源物、缀合物或融合蛋白,所述核酸组分包含单链向导RNA,所述单链向导RNA为包含SEQ ID NO:17所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO:17具有至少90%序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ IDNO:17改造得到的且保留其生物学活性的改造序列的单链向导RNA。
作为一个示例,所述蛋白组分包含具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白,所述核酸组分包含单链向导RNA,所述单链向导RNA为包含SEQ ID NO:18所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO:18具有至少90%序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ IDNO:18改造得到的且保留其生物学活性的改造序列的单链向导RNA。
上文中,针对单链向导RNA提及的表述“至少90%序列同一性”可以为例如至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.9%或者至少100%的序列同一性。
本发明的CRISPR/Cas12基因编辑系统可以由本文所述的Cas12蛋白、其同源物、或者它们的缀合物或融合蛋白与本文所述的单链向导RNA直接地构成,也可以本文所述的载体表达得到的表达产物构成。
本发明的CRISPR/Cas12基因编辑系统通过其中包含的Cas12蛋白和单链向导RNA共同作用而实现对靶序列的识别、定位、切割和基因编辑。
本发明CRISPR/Cas12基因编辑系统能够精确定位靶序列。所谓“精确定位”有两层含义:第一层含义是指本发明的CRISPR/Cas12基因编辑系统自身能够识别并结合靶序列,第二层含义是指本发明的CRISPR/Cas12基因编辑系统能够将与所述Cas12蛋白融合的其他蛋白或特异性识别所述sgRNA的蛋白带至靶序列的位置。
本发明的CRISPR/Cas12基因编辑系统对非靶序列具有低容忍度。在本文中,所谓“具有低容忍度”是指本发明的CRISPR/Cas12基因编辑系统基本上不能或者完全不能识别并结合非靶序列,或基本上不能或者完全不能将与所述Cas12蛋白融合的其他蛋白或特异性识别所述sgRNA的蛋白带至非靶序列的位置。
本发明的CRISPR/Cas12因编辑系统,由于其中含有的Cas12蛋白所识别的靶序列上的PAM序列更简单,由此可以靶向基因组中更多的DNA序列。
细胞
在第九方面,本发明提供了一种细胞,所述细胞包含:本发明第四发明和第五方面的分离的核酸分子、或者本发明第六方面和第七方面的载体。
作为一个示例,所述细胞可以为原核细胞或者真核细胞。对于所述真核细胞,作为示例,其可以为植物细胞或者动物细胞。对于所述动物细胞,作为示例,其可以为哺乳动物细胞例如人类细胞。
方法
在第十方面,本发明提供了一种对细胞内或体外环境中的靶序列进行基因编辑的方法,所述方法包括使以下(1)至(4)中任一项与细胞内或体外环境中的靶序列相接触:
(1)Cas12蛋白、本发明第一方面的缀合物或者本发明第二方面的融合蛋白,和本发明第三方面的与所述Cas12蛋白对应的单链向导RNA,
其中,所述Cas12蛋白为:
1)具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白,
具有SEQ ID NO:2所示氨基酸序列的Mb4Cas12a蛋白,
具有SEQ ID NO:3所示氨基酸序列的MlCas12a蛋白,
具有SEQ ID NO:4所示氨基酸序列的MoCas12a蛋白,
具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白,或
具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白,
或者为
2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5和SEQ ID NO:6中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
(2)本发明第六方面和第七方面的载体;
(3)本发明第六方面的载体;以及
(4)本发明第八方面的CRISPR/Cas12基因编辑系统;
其中,在与靶序列接触后,所述Cas12蛋白、其同源物、缀合物或融合蛋白识别各自的原间隔邻近序列(PAM),所述PAM位于靶序列的5’端,并且,对于所述Cas12J-8蛋白、所述Mb4Cas12a蛋白、所述MlCas12a蛋白、所述MoCas12a蛋白、所述BgCas12a蛋白、和所述ChCas12b蛋白、或它们各自的同源物、缀合物或融合蛋白,所述PAM分别为5’-TTN、5’-YYN、5’-YYN、5’-YYN、5’-YYN和5’-TTN。
对于上文所述的第(1)项:
作为一个示例,具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白,以及包含SEQ ID NO:15所示CRISPR重复序列、包含与SEQ ID NO:15具有至少90%序列同一性的同源序列、或包含基于SEQ ID NO:15改造得到的且保留其生物学活性的改造序列的单链向导RNA;
作为一个示例,具有SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白,以及包含SEQ ID NO:16所示CRISPR重复序列、包含与SEQ ID NO:16具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:16改造得到的且保留其生物学活性的改造序列的单链向导RNA;
作为一个示例,具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白、其同源物、它们的缀合物或融合蛋白的核酸序列,以及包含SEQ ID NO:17所示CRISPR重复序列、包含与SEQ ID NO:17具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQID NO:17改造得到的且保留其生物学活性的改造序列的单链向导RNA;
作为一个示例,具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白,以及包含SEQ ID NO:18所示CRISPR重复序列、包含与SEQ ID NO:18具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:18改造得到的且保留其生物学活性的改造序列的单链向导RNA。
对于上文中的第(2)项:
作为一个示例,包含编码具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白(例如SEQ ID NO:7所示的融合蛋白)的核酸序列(例如SEQ ID NO:8或SEQ ID NO:14所示的核酸序列)的载体,以及包含编码针对该Cas12J-8蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:15所示CRISPR重复序列、包含与SEQ ID NO:15具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:15改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:19所示的核酸序列)的载体;
作为一个示例,包含编码具有SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO:9、SEQ IDNO:10或SEQ ID NO:11所示的核酸序列)的载体,以及包含编码针对该Mb4Cas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:16所示CRISPR重复序列、包含与SEQ ID NO:16具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:16改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:20所示的核酸序列)的载体;
作为一个示例,包含编码具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO:12所示的核酸序列)的载体,以及包含编码针对该BgCas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:17所示CRISPR重复序列、包含与SEQ ID NO:17具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:17改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:21所示的核酸序列)的载体;
作为一个示例,包含编码具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO:13所示的核酸序列)的载体,以及包含编码针对该ChCas12b蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:18所示CRISPR重复序列、包含与SEQ ID NO:18具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:18改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:22所示的核酸序列)的载体。
在一个实施方案中,所述细胞为原核细胞或者真核细胞,所述真核细胞为例如植物细胞或动物细胞,所述动物细胞为例如哺乳动物细胞如人类细胞。
在一个实施方案中,所述基因编辑包括对靶序列的基因敲除、定点碱基的改变、定点插入、基因转录水平的调控、DNA甲基化调控、DNA乙酰化修饰、组蛋白乙酰化修饰、单碱基转换以及染色质成像追踪中的一种或者多种。
进一步地,在一个实施方案中,所述单碱基转换包括碱基腺嘌呤到鸟嘌呤的转换、胞嘧啶到胸腺嘧啶的转换或胞嘧啶到尿嘧啶的转换。
在一个实施方案中,在所述方法中,所述单链向导RNA的CRISPR间隔序列与所述靶序列形成完全碱基互补配对结构,而与非靶序列形成不完全碱基互补配对的结构。
在本文中,所述不完全碱基互补配对结构是指其中包括一部分碱基互补配对和一部分非碱基互补配对的结构,所述非碱基互补配对包括例如碱基错配(mismatch)和/或碱基凸出(bulge)等。
在一个实施方案中,所述不完全碱基互补配对结构包括一个或者多个例如两个或者更多个碱基错配。
由此,本发明的Cas12蛋白可以对所述靶序列上的靶位点进行切割,并且在Cas12蛋白的切割作用下,靶序列发生双链断裂。进一步地,当所述方法在细胞内进行时,切割后的靶序列可以通过细胞内的非同源末端连接修复或同源重组修复途径进行修复,从而实现对靶序列的基因编辑。
本发明的CRISPR/Cas12基因编辑系统以及采用该基因编辑系统的基因编辑方法,经实验发现其具有40%-70%(对于Cas12J-8蛋白)、12%-56%(对于ChCas12b蛋白)以及10%-20%(对于其他各Cas12a蛋白)的编辑效率。另外,对于CRISPR/Cas12J-8基因编辑系统,前14bp的向导RNA的mismatch具有接近0%的容错率。因此,该基因编辑系统可以高特异性地编辑靶基因,具有编辑效率高、脱靶率低的特点,可广泛应用于细胞中或者体外环境中的基因编辑。
试剂盒
在第十一方面,本发明提供了一种试剂盒,所述试剂盒用于对细胞内或者体外环境中的靶序列进行基因编辑,包括:
a)选自以下1)至6)中的任一项:
1)Cas12蛋白或其同源物、本发明第一方面的缀合物、或者本发明第二方面的融合蛋白,和本发明第三方面的与所述Cas12蛋白对应的单链向导RNA,
其中,所述Cas12蛋白为:
1.1)具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白,
具有SEQ ID NO:2所示氨基酸序列的Mb4Cas12a蛋白,
具有SEQ ID NO:3所示氨基酸序列的MlCas12a蛋白,
具有SEQ ID NO:4所示氨基酸序列的MoCas12a蛋白,
具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白,
具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白,
或者为
1.2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5和SEQ ID NO:6中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
2)本发明第四和第五方面的分离的核酸分子;
3)本发明第五方面的分离的核酸分子;
4)本发明第六和第七方面的载体;
5)本发明第六方面的载体;或者
6)本发明第八方面的CRISPR/Cas12基因编辑系统;
以及
b)如何对细胞内或体外环境中的靶序列进行基因编辑的说明书。
对于上文中的第1)项:
作为一个示例,具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白,以及包含SEQ ID NO:15所示CRISPR重复序列的单链向导RNA、包含与SEQID NO:15具有至少90%序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ ID NO:15改造得到的且保留其生物学活性的改造序列的单链向导RNA;
作为一个示例,具有SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4所示氨基酸序列的Cas12a蛋白、其具有与SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4具有至少80%序列同一性的氨基酸序列的同源物、它们的缀合物或融合蛋白,以及包含SEQ ID NO:16所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO:16具有至少90%序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ ID NO:16改造得到的且保留其生物学活性的改造序列的单链向导RNA;
作为一个示例,具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白、其具有与SEQID NO:5具有至少80%序列同一性的氨基酸序列的同源物、它们的缀合物或融合蛋白,以及包含SEQ ID NO:17所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO:17具有至少90%序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ IDNO:17改造得到的且保留其生物学活性的改造序列的单链向导RNA;
作为一个示例,具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白、其具有与SEQID NO:6具有至少80%序列同一性的氨基酸序列的同源物、它们的缀合物或融合蛋白,以及包含SEQ ID NO:18所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO:18具有至少90%序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ IDNO:18改造得到的且保留其生物学活性的改造序列的单链向导RNA。
对于上文中的第2)项:
作为一个示例,包含编码具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白(例如SEQ ID NO:7所示的融合蛋白)核酸序列(例如SEQ ID NO:8或SEQ ID NO:14所示的核酸序列)的分离的核酸分子,以及包含编码针对该Cas12J-8蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:15所示CRISPR重复序列、包含与SEQ IDNO:15具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:15改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ IDNO:19所示的核酸序列)的分离的核酸分子;
作为一个示例,包含编码具有SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列(SEQ ID NO:9、SEQ ID NO:10或SEQ ID NO:11所示的核酸序列)的分离的核酸分子,以及包含包含编码针对该Cas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:16所示CRISPR重复序列、包含与SEQID NO:16具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ IDNO:16改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ IDNO:20所示的核酸序列)的分离的核酸分子;
作为一个示例,包含编码具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO:12所示的核酸序列)的分离的核酸分子,以及包含编码针对该BgCas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:17所示CRISPR重复序列、包含与SEQ ID NO:17具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:17改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:21所示的核酸序列)的分离的核酸分子;
作为一个示例,包含编码具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO:13所示的核酸序列)的分离的核酸分子,以及包含编码针对该ChCas12b蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:18所示CRISPR重复序列、包含与SEQ ID NO:18具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:18改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:22所示的核酸序列)的分离的核酸分子。
对于上文中的第4)项:
作为一个示例,包含编码具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白(例如SEQ ID NO:7所示的融合蛋白)的核酸序列(例如SEQ ID NO:8或SEQ ID NO:14所示的核酸序列)的载体,以及包含编码针对该Cas12J-8蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:15所示CRISPR重复序列、包含与SEQ ID NO:15具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:15改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:19所示的核酸序列)的载体;
作为一个示例,包含编码具有SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO:9、SEQ IDNO:10或SEQ ID NO:11所示的核酸序列)的载体,以及包含编码针对该Cas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:16所示CRISPR重复序列、包含与SEQ ID NO:16具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:16改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:20所示的核酸序列)的载体;
作为一个示例,包含编码具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO:12所示的核酸序列)的载体,以及包含编码针对该BgCas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:17所示CRISPR重复序列、包含与SEQ ID NO:17具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:17改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:21所示的核酸序列)的载体;
作为一个示例,包含编码具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO:13所示的核酸序列)的载体,以及包含编码针对该ChCas12b蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:18所示CRISPR重复序列、包含与SEQ ID NO:18具有至少90%序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:18改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:22所示的核酸序列)的载体。
当然,本领域技术人员可以理解,本发明试剂盒中还可以包含其他有助于进行基因编辑的试剂。
对本发明涉及序列的简单描述
SEQ ID NO:1:Cas12J-8蛋白序列
SEQ ID NO:2:Mb4Cas12a蛋白序列
SEQ ID NO:3:MlCas12a蛋白序列
SEQ ID NO:4:MoCas12a蛋白序列
SEQ ID NO:5:BgCas12a蛋白序列
SEQ ID NO:6:ChCas12b蛋白序列
SEQ ID NO:7:包含Cas12J-8蛋白的融合蛋白
SEQ ID NO:8:Cas12J-8蛋白的编码序列
SEQ ID NO:9:Mb4Cas12a蛋白的编码序列
SEQ ID NO:10:MlCas12a蛋白的编码序列
SEQ ID NO:11:MoCas12a蛋白的编码序列
SEQ ID NO:12:BgCas12a蛋白的编码序列
SEQ ID NO:13:ChCas12b蛋白的编码序列
SEQ ID NO:14:包含Cas12J-8蛋白的融合蛋白编码序列
SEQ ID NO:15:与Cas12J-8蛋白联用的CRISPR重复序列
SEQ ID NO:16:与Mb4Cas12a、MlCas12a和MoCas12a蛋白联用的CRISPR重复序列
SEQ ID NO:17:与BgCas12a蛋白联用的CRISPR重复序列
SEQ ID NO:18:与ChCas12b蛋白联用的CRISPR重复序列
SEQ ID NO:19:与Cas12J-8蛋白相关的单链向导RNA的CRISPR重复序列的DNA序列
SEQ ID NO:20:与Mb4Cas12a、MlCas12a、和MoCas12a蛋白相关的单链向导RNA的CRISPR重复序列的DNA序列
SEQ ID NO:21:与BgCas12a蛋白相关的单链向导RNA的CRISPR重复序列的DNA序列
SEQ ID NO:22:与ChCas12b蛋白相关的单链向导RNA的CRISPR重复序列的DNA序列
SEQ ID NO:23:Cas12J-4蛋白序列
SEQ ID NO:24:Cas12J-5蛋白序列
SEQ ID NO:25:Cas12J-7蛋白序列
SEQ ID NO:26:Cas12J-9蛋白序列
SEQ ID NO:27:Cas12J-4蛋白的编码序列
SEQ ID NO:28:Cas12J-5蛋白的编码序列
SEQ ID NO:29:Cas12J-7蛋白的编码序列
SEQ ID NO:30:Cas12J-9蛋白的编码序列
SEQ ID NO:31:与Cas12J-4蛋白联用的CRISPR重复序列的DNA序列
SEQ ID NO:32:与Cas12J-5蛋白联用的CRISPR重复序列的DNA序列
SEQ ID NO:33:与Cas12J-7蛋白联用的CRISPR重复序列的DNA序列
SEQ ID NO:34:与Cas12J-9蛋白联用的CRISPR重复序列的DNA序列实施例
现参照下列意在举例说明而非限定本发明的实施例来描述本发明。本领域技术人员知晓,在此提供实施例仅出于详细描述本发明之目的,无意于限制本发明所要求保护的范围。
除非特别指明,否则基本按照本领域内熟知的以及在各参考文献中描述的常规方法进行实施例中描述的实验和方法。另外,对于实施例中未注明具体条件者,均按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
实施例1
(1)构建质粒pAAV2_Cas12_ITR
根据表1中列出的各Cas12蛋白的基因检索号,下载其氨基酸序列,其中Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白和ChCas12b蛋白的氨基酸序列分别如SEQ ID NO:1至SEQ ID NO:6所示。
表1.Cas12蛋白及其NCBI蛋白搜索ID和序列编号
Cas12蛋白名称 NCBI蛋白搜索ID 氨基酸序列
Cas12J-8 SEQ ID NO:1
Mb4Cas12a WP_078273923.1 SEQ ID NO:2
MlCas12a WP_065256572.1 SEQ ID NO:3
MoCas12a WP_112744621.1 SEQ ID NO:4
BgCas12a OLA11341.1 SEQ ID NO:5
ChCas12b OQB30769 SEQ ID NO:6
将上述各Cas12蛋白的编码核酸序列进行密码子优化,获得所述Cas12蛋白在人细胞中高表达的基因序列。Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白和ChCas12b蛋白的经优化基因序列分别如SEQ ID NO:8至SEQ ID NO:13所示。
将上述获得的SEQ ID NO:8至SEQ ID NO:13所示的各Cas12蛋白高表达的基因序列进行基因合成,并构建至slugCas9骨架质粒(Addgene平台,catalog#163793)上,得到质粒pAAV2_Cas12_ITR。
(2-1)构建质粒Cas12J-8-PSK-u6-crRNA
用BbsI和XhoI限制性内切酶将pBluescriptSKII+U6-sgRNA(F+E)empty质粒(Addgene平台,可以商购,catalog为#74707)进行酶切反应,酶切体系为:1μg质粒psk-BbsI-Sasg、5μL 10×CutSmart缓冲液(购于NEB公司)、1μL BbsI和1μL XhoI限制性内切酶(购于NEB公司),水补足至50μL。使该酶切体系在37℃反应1小时。
然后,将酶切产物在1%琼脂糖凝胶上以120V电压电泳30min。
从琼脂糖凝胶上切下3296bp DNA片段,用胶回收试剂盒(天根生化科技(北京)有限公司,DP209)依据厂家提供的说明进行回收,最终用超纯水进行洗脱。
根据Cas12j-8蛋白基因组上的repeat序列(其DNA序列为SEQ ID NO:19),将该repeat序列进行基因合成,并构建于线性化的pBluescriptSKII+U6-sgRNA(F+E)empty骨架上,得到质粒Cas12J-8-PSK-u6-crRNA。
(2-2)构建质粒psk-BbsI-Cas12a-crRNA1
用BbsI和XhoI限制性内切酶将pBluescriptSKII+U6-sgRNA(F+E)empty质粒进行酶切反应,酶切体系为:1μg质粒psk-BbsI-Sasg、5μL 10×CutSmart缓冲液(购于NEB公司)、1μL BbsI和1μL XhoI限制性内切酶(购于NEB公司),水补足至50μL。使该酶切体系在37℃反应1小时。
然后,将酶切产物在1%琼脂糖凝胶上以120V电压电泳30min。
从琼脂糖凝胶上切下3296bp DNA片段,用胶回收试剂盒(天根生化科技(北京)有限公司,DP209)依据厂家提供的说明进行回收,最终用超纯水进行洗脱。
根据Cas12a蛋白基因组上的repeat,将截断后的repeat序列(其DNA序列分别为SEQ ID NO:20和SEQ ID NO:21)进行基因合成,并构建于线性化的pBluescriptSKII+U6-sgRNA(F+E)empty骨架上,得到质粒psk-BbsI-Cas12a-crRNA1。
(2-3)构建质粒hU6-OQB30769_tracr-Bsa1
用BsaI和NotI限制性内切酶将pX330_sgACTA2质粒(Addgene平台,catalog为#63712)进行酶切反应,酶切体系为:1μg质粒hU6-sa-tracr-BsaI、5μL 10×CutSmart缓冲液(购于NEB公司)、1μL BsaI和1μL NotI限制性内切酶(购于NEB公司),水补足至50μL。使该酶切体系在37℃反应3小时。
然后,将酶切产物在1%琼脂糖凝胶上以120V电压电泳30min。
从琼脂糖凝胶上切下2998bp DNA片段,用胶回收试剂盒(天根生化科技(北京)有限公司,DP209)依据厂家提供的说明进行回收,最终用超纯水进行洗脱。
根据ChCas12b的基因组找出基因组上的repeat及tracr,根据二级结构推断出其RNA Scaffold序列(其DNA序列为SEQ ID NO:22),将该序列进行基因合成,并构建于线性化的hU6-sa-tracr-BsaI骨架上,得到质粒hU6-OQB30769_tracr-Bsal。
(3)质粒pAAV2_Cas12-hU6-sgRNA_ITR载体的构建
利用PCR方法线性化(1)中表达Cas12蛋白的pAAV2_Cas12_ITR质粒和(2)中表达各蛋白对应sgRNA的Cas12J-8-PSK-u6-crRNA、psk-BbsI-Cas12a-crRNA1和hU6-OQB30769_tracr-Bsa1质粒。
对于pAAV2_Cas12_ITR质粒,引物序列为:
ATCATGGGAAATAGGCCCTCAGGTACCTCCCCAGCATGC;和
CGAGGGGGGGCCCGGTACATCATGGGAAATAGGCCCTC;
对于Cas12J-8-PSK-u6-crRNA、psk-BbsI-Cas12a-crRNA1和hU6-OQB30769_tracr-Bsa1质粒,引物序列为:
GAGGGCCTATTTCCCATGAT;和
GTACCGGGCCCCCCCTCG。
反应体系如下:
PCR运行程序如下:
PCR产物在1%琼脂糖凝胶上以120V电压电泳30min,用胶回收试剂盒依据厂家提供的步骤,纯化得到目的DNA片段,用NanoDropTM Lite分光光度计(Thermo Scientific)测定DNA浓度,备用或置于-20℃进行长期保存。
将线性化pAAV2_Cas12_ITR片段与线性化Cas12J-8-PSK-u6-crRNA、psk-BbsI-Cas12a-crRNA1和hU6-OQB30769_tracr-Bsa1片段对应按照说明书要求比例进行同源重组,所使用的同源重组酶为高保真DNA组装预混液(NEB),反应体系如下:
反应条件如下:
将连接产物加到大肠杆菌DH5α感受态细胞(购于上海唯地生物技术有限公司)中,冰上孵育30min,42℃热激1min,冰上孵育2min,加入900μL LB培养基,于37℃培养1小时,以进行大肠杆菌DH5α感受态细胞的活化复苏。
将复苏后的大肠杆菌DH5α感受态细胞涂布在含有氨苄青霉素抗性的LB固体平板在37℃培养箱倒置培养,得到的大肠杆菌DH5α单克隆进行Sanger测序验证。
将测序验证连接正确的大肠杆菌DH5α克隆摇菌,提取质粒,即得到质粒pAAV2_Cas12-hU6-sgRNA_ITR,备用。
(4)线性化质粒pAAV2_Cas12-hU6-sgRNA_ITR的制备
用BbsI限制性内切酶将(3)中制备的各质粒pAAV2_Cas12-hU6-sgRNA_ITR进行酶切反应,酶切体系为:1μg质粒pAAV2_Cas12-hU6-sgRNA_ITR、5μL 10×CutSmart缓冲液(购于NEB公司)、1μL BbsI限制性内切酶(购于NEB公司),水补足至50μL。使该酶切体系在37℃反应1小时。
然后,将酶切产物在1%琼脂糖凝胶上以120V电压电泳30min。
从琼脂糖凝胶上切下DNA片段,用胶回收试剂盒(天根生化科技(北京)有限公司,DP209)依据厂家提供的说明进行回收,最终用超纯水进行洗脱。所述DNA片段即为包含以上各Cas12蛋白的编码基因的线性化质粒pAAV2_Cas12-hU6-sgRNA_ITR,其大小分别为7135bp(Cas12J-8蛋白)、7866bp(Mb4Cas12a蛋白)、7875bp(MlCas12a蛋白)、7998bp(MoCas12a蛋白)、7875bp(BgCas12a)和8606bp(ChCas12b)。
将回收的线性化质粒pAAV2_Cas12-hU6-sgRNA_ITR用NanoDropTM Lite分光光度计(Thermo Scientific)测定DNA浓度,备用或置于-20℃进行长期保存。
(5)质粒pAAV2_Cas12-hU6-sgRNA_ITR的制备
设计各gRNA,其序列示于如表2。在设计的各gRNA序列对用的正义链和反义链上分别加上线性化质粒pAAV2_Cas12-hU6-sgRNA_ITR两侧对应的粘性末端序列,并合成两条寡核苷酸单链DNA,这两条寡核苷酸单链DNA的具体序列也示于下表。
将寡核苷酸单链DNA进行退火得到双链DNA。退火反应体系为:1μL 100μM oligo-F、1μL 100μM oligo-R、28μL水。将该退火体系震荡混匀后,放置于PCR仪中运行退火程序,退火程序为:95℃_5min,85℃_1min,75℃_1min,65℃_1min,55℃_1min,45℃_1min,35℃_1min,25℃_1min,4℃保存,降温速率0.3℃/s。退火后,将所得的产物通过DNA连接酶(购于NEB公司)连接至步骤(2)所得的线性化pAAV2_Cas12-hU6-sgRNA_ITR质粒。
取1μL所得连接产物加到大肠杆菌DH5α感受态细胞(购于上海唯地生物技术有限公司)中,冰上孵育30min,42℃热激1min,冰上孵育2min,加入900μL LB培养基,于37℃培养1小时,以进行大肠杆菌DH5α感受态细胞的活化复苏。
将复苏后的大肠杆菌DH5α感受态细胞涂布在含有对应抗性的LB固体平板在37℃培养箱倒置培养,得到的大肠杆菌DH5α单克隆进行Sanger测序验证。
将测序验证连接正确的大肠杆菌DH5α克隆摇菌,提取质粒,即得到含有表达目标sgRNA序列的质粒pAAV2_Cas12-hU6-sgRNA_ITR,备用。
(6)表达Cas蛋白和sgRNA的质粒pAAV2_Cas12-hU6-sgRNA_ITR对HEK293T细胞系的转染
在第0天,根据转染所需,将含有靶序列的HEK293T细胞在6孔板进行铺板,细胞密度约30%左右。
第1天,进行转染,转染过程如下:
取2μg待转染质粒pAAV2_Cas12-hU6-sgRNA_ITR加入至100μLOpti-MEM培养基(购于Gibco公司)中,轻轻吹打混匀。
将转染试剂脂质体2000(购于Invitrogen公司)或聚乙烯亚胺(以下简称PEI)(购于polysciences公司)轻弹混匀,吸取5μL/>2000或PEI加入至100μL Opti-MEM培养基(购于Gibco公司)中,轻轻混匀,室温静置5min。
将稀释的转染试剂和稀释的质粒进行混合,轻轻吹打混匀,室温静置20min,然后加入到包含待转染细胞HEK293T细胞的培养基中,然后将细胞置于37℃、5%CO2培养箱中继续培养3天。
(7)二代测序文库的制备
收集编辑三天后的HEK293T细胞,用DNA试剂盒(天根生化科技(北京)有限公司,DP304)并依据该DNA试剂盒提供的说明书提取基因组DNA。
进行PCR建库第一轮PCR,用2×Q5 Mastermix进行PCR反应,PCR引物如下所示:
表3.二代测序一轮PCR引物列表
反应体系如下:
PCR运行程序如下:
进行测序建库第二轮PCR,用2xQ5 Mastermix进行PCR反应,PCR引物如下所示:
F2引物:
AATGATACGGCGACCACCGAGATCTACACNNNNNNNNACACTCTTTCCCTACACGAC;
R2引物:
CAAGCAGAAGACGGCATACGAGATNNNNNNNNGTGACTGGAGTTCAGACGTGTG。
反应体系如下:
PCR运行程序如下:
将第二轮的PCR产物用胶回收试剂盒依据厂家提供的步骤,纯化330bp、327bp、279bp、239bp、311bp和298bp的DNA片段,其中,330bp、327bp分别是A1和A7的大小,279bp和239bp分别是E2和E3位点的大小,311bp和298bp分别是A3和A4位点的大小。由此,二代测序文库制备完毕。
(8)二代测序结果的分析
将制备好的二代测序文库在高通量测序仪HiseqXTen(illumina)上进行双端测序。
二代测序计算得到对各自的两个靶位点的编辑效率如图1至图6所示,其中X轴表示靶位点,Y轴表示编辑效率(Indels%)。从图中可以看出,含有Cas12J-8、Mb4Cas12a、MoCas12a、BgCas12a、MlCas12a及ChCas12b蛋白的基因编辑系统均可以用于细胞基因编辑,且含有Cas12J-8蛋白的基因编辑系统的编辑活性相较于现有的Cas12J-2蛋白的基因编辑系统更高。
实施例2
(1)构建质粒pAAV2_Cas12_ITR
根据上文表1中列出的各Cas12蛋白的基因检索号,下载其氨基酸序列信息,其中Cas12J-8蛋白、Mb4Cas12a蛋白、M1Cas12a蛋白、MoCas12a蛋白、BgCas12a蛋白和ChCas12b蛋白的氨基酸序列分别如SEQ ID NO:1至SEQ ID NO:6所示。
将上述所得的Cas12蛋白的编码核酸序列进行密码子优化,获得所述Cas蛋白在人细胞中高表达的基因序列。Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白蛋白和ChCas12b的基因序列分别如SEQ ID NO:8至SEQ ID NO:13所示。
将上述获得的SEQ ID NO:8至SEQ ID NO:13所示的各Cas蛋白高表达的基因序列进行基因合成,并构建至slugCas9骨架质粒(Addgene平台,catalog#163793)上,得到质粒pAAV2_Cas12_ITR。
(2-1)构建质粒Cas12J-8-PSK-u6-crRNA
用BbsI和XhoI限制性内切酶将pBluescriptSKII+U6-sgRNA(F+E)empty质粒(Addgene平台,可以商购,catalog为#74707)进行酶切反应,酶切体系为:1μg质粒psk-BbsI-Sasg、5μL10×CutSmart缓冲液(购于NEB公司)、1μL BbsI和1μL XhoI限制性内切酶(购于NEB公司),水补足至50μL。使该酶切体系在37℃反应1小时。
然后,将酶切产物在1%琼脂糖凝胶上以120V电压电泳30min。
从琼脂糖凝胶上切下3296bp DNA片段,用胶回收试剂盒(天根生化科技(北京)有限公司,DP209)依据厂家提供的说明进行回收,最终用超纯水进行洗脱。
根据Cas12j-8蛋白基因组上的repeat序列(其DNA序列为SEQ ID NO:19),将该repeat序列进行基因合成,并构建于线性化的pBluescriptSKII+U6-sgRNA(F+E)empty骨架上,得到质粒Cas12J-8-PSK-u6-crRNA。
(2-2)构建质粒psk-BbsI-Cas12a-crRNA1
用BbsI和XhoI限制性内切酶将pBluescriptSKII+U6-sgRNA(F+E)empty质粒进行酶切反应,酶切体系为:1μg质粒psk-BbsI-Sasg、5μL 10×CutSmart缓冲液(购于NEB公司)、1μL BbsI和1μL XhoI限制性内切酶(购于NEB公司),水补足至50μL。使该酶切体系在37℃反应1小时。
然后,将酶切产物在1%琼脂糖凝胶上以120V电压电泳30min。
从琼脂糖凝胶上切下3296bp DNA片段,用胶回收试剂盒(天根生化科技(北京)有限公司,DP209)依据厂家提供的说明进行回收,最终用超纯水进行洗脱。
根据Cas12a蛋白基因组上的repeat,将截断后的repeat序列(其DNA序列分别为SEQ ID NO:20和SEQ ID NO:21)进行基因合成,并构建于线性化的pBluescriptSKII+U6-sgRNA(F+E)empty骨架上,得到质粒psk-BbsI-Cas12a-crRNA1。
(2-3)构建质粒hU6-OQB30769_tracr-Bsa1
用BsaI和NotI限制性内切酶将pX330_sgACTA2质粒(Addgene平台,catalog为#63712)进行酶切反应,酶切体系为:1μg质粒hU6-sa-tracr-BsaI、5μL 10×CutSmart缓冲液(购于NEB公司)、1μL BsaI和1μL NotI限制性内切酶(购于NEB公司),水补足至50μL。使该酶切体系在37℃反应3小时。
然后,将酶切产物在1%琼脂糖凝胶上以120V电压电泳30min。
从琼脂糖凝胶上切下2998bp DNA片段,用胶回收试剂盒(天根生化科技(北京)有限公司,DP209)依据厂家提供的说明进行回收,最终用超纯水进行洗脱。
根据ChCas12b的基因组找出基因组上的repeat及tracr,根据二级结构推断出其RNA Scaffold序列(其DNA序列为SEQ ID NO:22),将该序列进行基因合成,并构建于线性化的hU6-sa-tracr-BsaI骨架上,得到质粒hU6-OQB30769_tracr-Bsa1。
(3)质粒pAAV2_Cas12-hU6-sgRNA_ITR载体的构建
利用PCR方法线性化(1)中表达Cas12蛋白的pAAV2_Cas12_ITR质粒和(2)中表达各蛋白对应sgRNA的Cas12J-8-PSK-u6-crRNA、psk-BbsI-Cas12a-crRNA1和hU6-OQB30769_tracr-Bsa1质粒。
对于pAAV2_Cas12_ITR质粒,引物序列为:
ATCATGGGAAATAGGCCCTCAGGTACCTCCCCAGCATGC;和
CGAGGGGGGGCCCGGTACATCATGGGAAATAGGCCCTC;
对于Cas12J-8-PSK-u6-crRNA、psk-BbsI-Cas12a-crRNA1和hU6-OQB30769_tracr-Bsa1质粒,引物序列为:
GAGGGCCTATTTCCCATGAT;和
GTACCGGGCCCCCCCTCG。
反应体系如下:
PCR运行程序如下:
PCR产物在1%琼脂糖凝胶上以120V电压电泳30min,用胶回收试剂盒依据厂家提供的步骤,纯化得到目的DNA片段,用NanoDropTM Lite分光光度计(Thermo Scientific)测定DNA浓度,备用或置于-20℃进行长期保存。
将线性化pAAV2_Cas12_ITR片段与线性化Cas12J-8-PSK-u6-crRNA、psk-BbsI-Cas12a-crRNA1和hU6-OQB30769_tracr-Bsa1片段对应按照说明书要求比例进行同源重组,所使用的同源重组酶为高保真DNA组装预混液(NEB),反应体系如下:/>
反应条件如下:
将连接产物加到大肠杆菌DH5α感受态细胞(购于上海唯地生物技术有限公司)中,冰上孵育30min,42℃热激1min,冰上孵育2min,加入900μL LB培养基,于37℃培养1小时,以进行大肠杆菌DH5α感受态细胞的活化复苏。
将复苏后的大肠杆菌DH5α感受态细胞涂布在含有氨苄青霉素抗性的LB固体平板在37℃培养箱倒置培养,得到的大肠杆菌DH5α单克隆进行Sanger测序验证。
将测序验证连接正确的大肠杆菌DH5α克隆摇菌,提取质粒,即得到质粒pAAV2_Cas12-hU6-sgRNA_ITR,备用。
(4)线性化质粒pAAV2_Cas12-hU6-sgRNA_ITR的制备
用BbsI限制性内切酶将(3)中制备的各质粒pAAV2_Cas12-hU6-sgRNA_ITR进行酶切线性化反应,酶切体系为:1μg质粒pAAV2_Cas12-hU6-sgRNA_ITR、5μL 10xCutSmart缓冲液(购于NEB公司)、1μL BbsI限制性内切酶(购于NEB公司),水补足至50μL。使该酶切体系在37℃反应1小时。
然后,将酶切产物在1%琼脂糖凝胶上以120V电压电泳30min。
从琼脂糖凝胶上切下DNA片段,用胶回收试剂盒(天根生化科技(北京)有限公司,DP209)并依据该厂家提供的说明进行回收,最终用超纯水进行洗脱。所述DNA片段即为包含以上各Cas蛋白的编码基因的线性化质粒pAAV2_Cas12_ITR,其大小分别为7135bp(Cas12J-8蛋白)、7866bp(Mb4Cas12a蛋白)、7875bp(MlCas12a蛋白)、7998bp(MoCas12a蛋白)、7875bp(BgCas12a)和8606bp(ChCas12b)。
将回收的线性化质粒pAAV2_Cas12-hU6-sgRNA_ITR用NanoDropTM Lite分光光度计NanoDrop(Thermo Scientific)测定DNA浓度,备用或置于-20℃进行长期保存。
(5)质粒pAAV2_Cas12-U6-on target sgRNA或pAAV2_Cas12-U6-mismatch sgRNA的制备
设计各on target gRNA和mismatch gRNA的序列,并且其对应的寡核苷酸单链DNA如下表4所示,其中mismatch碱基在序列表中显示为带下划线的粗体碱基。
将所得的on target gRNA对应的寡核苷酸单链DNA和不同mismatch gRNA对应的寡核苷酸单链DNA分别退火。退火反应体系为:1μL 100μM oligo-F、1μL 100μM oligo-R、28μL水。将该退火体系震荡混匀后,放置于PCR仪中运行退火程序;退火程序如下:95℃_5min,85℃_1min,75℃_1min,65℃_1min,55℃_1min,45℃_1min,35℃_1min,25℃_1min,4℃保存,降温速率0.3℃/s。退火后,将所得的产物分别通过DNA连接酶(购于NEB公司)连接至所得的线性化pAAV2_Cas12-hU6-sgRNA_ITR质粒。
取1μL所得连接产物加到大肠杆菌DH5α感受态细胞(购于上海唯地生物技术有限公司)中,冰上孵育30min,42℃热激1min,冰上孵育2min,加入900μL LB培养基,37℃培养1h进行大肠杆菌DH5α感受态细胞的活化复苏。
将复苏后的大肠杆菌DH5α感受态细胞涂布在含有对应抗性的LB固体平板在37℃培养箱倒置培养,得到的大肠杆菌DH5α单克隆进行Sanger测序验证。
将测序验证连接正确的大肠杆菌DH5α克隆摇菌,提取质粒,即分别得到表达上述on target gRNA序列的质粒pAAV2_Cas12-hU6-on target gRNA和表达上述不同mismatchgRNA序列的质粒pAAV2_Cas12-hU6-mismatch gRNA,备用。
(7)将所得的表达on target gRNA序列的质粒pAAV2_Cas12-hU6-on target gRNA和表达mismatch gRNA序列的质粒pAAV2_Cas12-U6-mismatch gRNA采用脂质体方式分别转染至含有靶序列(GGATATGTTGAAGAACACCATGAC)的GFP报告系统HEK293T细胞系。
/>
/>
所述含有靶序列的GFP报告系统HEK293T细胞系是通过下述方式获得的:在起始密码子ATG和GFP编码序列之间插入PAM序列和特定的靶序列,造成GFP移码突变,然后通过慢病毒感染整合到HEK293T细胞中,得到含有靶序列的GFP报告系统HEK293T细胞系。当基因编辑系统对靶序列进行切割后,细胞通过自身修复系统会使部分细胞恢复GFP阅读框,产生绿色荧光,通过流式分析统计GFP阳性细胞比率可以评估基因编辑系统的编辑能力及特异性。
上述转染过程包括如下步骤:
第0天,根据转染所需,将含有靶序列的GFP报告系统HEK293T细胞系在6孔板进行铺板,细胞密度控制在30%。
该含有靶序列的GFP报告系统HEK293T细胞系中包含CMV-ATG-PAM-target site-GFP的核苷酸序列,其中,其中PAM序列参见图7至图13,靶位点(target site)的序列为GGATATGTTGAAGAACACCATGAC。
第1天,进行转染,转染过程如下:
分别取2μg待转染质粒pAAV2_Cas12-U6-on target gRNA或2μg待转染质粒pAAV2_Cas12-U6-mismatch gRNA加入至100μL Opti-MEM培养基(购于Gibco公司)中,轻轻吹打混匀。
2000(购于Invitrogen公司)或PEI(购于polysciences公司)轻弹混匀,吸取5μL/>2000或PEI加入至100μL Opti-MEM培养基中,轻轻混匀,室温静置5min。
将经稀释的质粒和经稀释的转染试剂进行混合,轻轻吹打混匀,得到的混合液室温静置20min,然后加入到含有靶序列的GFP报告系统HEK293T细胞系的培养基中,并将其置于37℃、5%CO2培养箱中继续培养。
流式细胞分析技术分析本发明的CRISPR基因编辑系统对靶序列的编辑效率及脱靶率。
具体地,收集在CO2培养箱中培养3天后的HEK293T细胞系,采用流式细胞仪(BDBiosciences FACSCalibur)对其特异性进行检测,并用FlowJo分析软件分析GFP阳性比率并作图。
本发明的CRISPR/Cas12基因编辑系统在含有靶序列的GFP报告系统HEK293T细胞系中的特异性检测结果示于图7至图13,其中上方横条显示GFP报告系统示意图,在起始密码子ATG和GFP编码序列之间插入有特定的PAM序列及靶序列,造成GFP移码突变。因此当基因编辑系统对靶序列进行切割后,细胞通过自身修复系统会使部分细胞恢复GFP阅读框,产生绿色荧光。图7至图13中下方的柱状图中的Y轴代表GFP阳性细胞百比率(%),X轴代表On-target gRNA和mismatch gRNA对应的寡核苷酸单链DNA序列。从图7至图13中可以看出,本发明的CRISPR基因编辑系统在GFP报告系统HEK293T细胞系中的靶位点均发生了编辑,且由mismatch gRNA介导的基因编辑比例显著性低于on-target gRNA介导的基因编辑比例,由此表明本发明的CRISPR基因编辑系统的编辑活性高,脱靶率低,特异性高。且在对于CRISPR/Cas12J-8基因编辑系统的研究结果中,在前14bp的单碱基mismatch中并未发现明显错配现象,说明CRISPR/Cas12J-8基因编辑系统对gRNA与靶序列间的完全配对要求极高,具有较低的容错率和实际应用的较高安全性。
实施例3
(1)线性化质粒SlugABEmax的制备
以SlugABEmax质粒(Addgene平台,catalog#163798)为模板进行PCR反应,引物序列为:
引物1:TCTGGTGGTTCTCCCAAGAAGA
引物2:TGACCCCCCGCTGCTGCCCC
反应体系如下:
PCR运行程序如下:
PCR产物在1%琼脂糖凝胶上以120V电压电泳30min,用胶回收试剂盒依据厂家提供的步骤,纯化得到4152bp的DNA片段,用NanoDropTM Lite分光光度计(ThermoScientific)测定DNA浓度,备用或置于-20℃进行长期保存。
(2)质粒pAAV2_envTadA-Cas12J-8ITR的制备
将线性化SlugABEmax骨架片段与和公司合成的人源化Cas12J-8片段(SEQ ID NO:8)按说明书要求比例进行同源重组,所使用的同源重组酶为高保真DNA组装预混液(NEB),反应体系如下:
反应条件如下:
将连接产物加到大肠杆菌DH5α感受态细胞(购于上海唯地生物技术有限公司)中,冰上孵育30min,42℃热激1min,冰上孵育2min,加入900μL LB培养基,于37℃培养1小时,以进行大肠杆菌DH5α感受态细胞的活化复苏。
将复苏后的大肠杆菌DH5α感受态细胞涂布在含有氨苄青霉素抗性的LB固体平板在37℃培养箱倒置培养,得到的大肠杆菌DH5α单克隆进行Sanger测序验证。
将测序验证连接正确的大肠杆菌DH5α克隆摇菌,提取质粒,即得到质粒pAAV2_envTadA-Cas12J-8_ITR,备用。
(3)质粒pAAV2_envTadA-dCas12J-8_ITR的制备
以pAAV2_envTadA-Cas12J-8_ITR为模板进行环形PCR反应,引物序列为:
引物3:CAACCTGGTGAAAAAGAACAACTTC
引物4:GCGATGCCGATCACATCGCACA
反应体系如下:
PCR运行程序如下:
PCR产物在1%琼脂糖凝胶上以120V电压电泳30min,用胶回收试剂盒依据厂家提供的步骤,纯化得到6305bp的DNA片段,用NanoDropTM Lite分光光度计(ThermoScientific)测定DNA浓度,并分别进行T4 PNK处理和T4 DNA连接酶处理,反应体系如下:
反应条件如下:
在反应体系中加入T4 DNA连接酶(NEB)1μL,震荡混匀后室温孵育2h。
将连接产物加到大肠杆菌DH5α感受态细胞(购于上海唯地生物技术有限公司)中,冰上孵育30min,42℃热激1min,冰上孵育2min,加入900μL LB培养基,于37℃培养1小时,以进行大肠杆菌DH5α感受态细胞的活化复苏。
将复苏后的大肠杆菌DH5α感受态细胞涂布在含有氨苄青霉素抗性的LB固体平板在37℃培养箱倒置培养,得到的大肠杆菌DH5α单克隆进行Sanger测序验证。
将测序验证连接正确的大肠杆菌DH5α克隆摇菌,提取质粒,即得到质粒pAAV2_envTadA-dCas12J-8ITR,备用。
(5)pAAV2_envTadA-dCas12J-8_ITR的线性化制备
利用Kpn1和Not1限制性内切酶(NEB)对pAAV2_envTadA-dCas12J-8_ITR质粒进行酶切反应,反应体系为:2μg质粒pAAV2_envTadA-dCas12J-8_ITR、5μL 10×CutSmart缓冲液(购于NEB公司)、1μL Kpn1限制性内切酶(购于NEB公司),1μL Not1限制性内切酶(购于NEB公司),水补足至50μL。使该酶切体系在37℃反应2小时。
然后,将酶切产物在1%琼脂糖凝胶上以120V电压电泳30min。
从琼脂糖凝胶上切下DNA片段,用胶回收试剂盒(天根生化科技(北京)有限公司,DP209)依据厂家提供的说明进行回收,最终用超纯水进行洗脱。
将回收的线性化片段pAAV2_envTadA-dCas12J-8_ITR用NanoDropTM Lite分光光度计(Thermo Scientific)测定DNA浓度,备用或置于-20℃进行长期保存。
(6)pAAV2_envTadA-dCas12J-8-crRNA_ITR质粒的制备
以Cas12J-8-PSK-u6-crRNA为模板进行PCR反应,引物序列为:
引物5:GGAGGTACCGATCCGACGCGCCATCTCTAG
引物6:CCTGCGGCCGCGGGCCCCCCCTCGAAAAAAAAAC
反应体系如下:
PCR运行程序如下:
PCR产物在1.5%琼脂糖凝胶上以120V电压电泳30min,用胶回收试剂盒依据厂家提供的步骤,纯化得到394bp的Cas12J-8crRNA DNA片段,用NanoDropTM Lite分光光度计(Thermo Scientific)测定DNA浓度,备用或置于-20℃进行长期保存。
将线性化pAAV2_envTadA-dCas12J-8_ITR片段与Cas12J-8crRNA片段按说明书要求比例进行同源重组,所使用的同源重组酶为高保真DNA组装预混液(NEB),反应体系如下:
反应条件如下:
将连接产物加到大肠杆菌DH5α感受态细胞(购于上海唯地生物技术有限公司)中,冰上孵育30min,42℃热激1min,冰上孵育2min,加入900μL LB培养基,于37℃培养1小时,以进行大肠杆菌DH5α感受态细胞的活化复苏。
将复苏后的大肠杆菌DH5α感受态细胞涂布在含有氨苄青霉素抗性的LB固体平板在37℃培养箱倒置培养,得到的大肠杆菌DH5α单克隆进行Sanger测序验证。
将测序验证连接正确的大肠杆菌DH5α克隆摇菌,提取质粒,即得到质粒pAAV2_envTadA-dCas12J-8-crRNA_ITR,备用。
(7)质粒pAAV2_envTadA-dCas12J-8-sgRNA_ITR的制备
用BbsI限制性内切酶对pAAV2_envTadA-dCas12J-8-crRNA_ITR质粒进行酶切反应,酶切体系为:2μg质粒pAAV2_envTadA-dCas12J-8-crRNA_ITR、5μL10×CutSmart缓冲液(购于NEB公司)、1μL BbsI限制性内切酶(购于NEB公司),水补足至50μL。使该酶切体系在37℃反应2小时。
然后,将酶切产物在1%琼脂糖凝胶上以120V电压电泳30min。
从琼脂糖凝胶上切下DNA片段,用胶回收试剂盒(天根生化科技(北京)有限公司,DP209)依据厂家提供的说明进行回收,最终用超纯水进行洗脱。
将回收的线性化质粒pAAV2_envTadA-dCas12J-8-crRNA_ITR用NanoDropTM Lite分光光度计(Thermo Scientific)测定DNA浓度,备用或置于-20℃进行长期保存。
在人类基因组中随机选择满足Cas12J-8蛋白PAM需求的内源位点靶序列,其对应的寡核苷酸单链DNA如下表所示。
将寡核苷酸单链DNA进行退火得到双链DNA。退火反应体系为:1μL 100μM oligo-F、1μL 100μM oligo-R、28μL水。将该退火体系震荡混匀后,放置于PCR仪中运行退火程序,退火程序为:95℃_5min,85℃_1min,75℃_1min,65℃_1min,55℃_1min,45℃_1min,35℃_1min,25℃_1min,4℃保存,降温速率0.3℃/s。退火后,将所得的产物通过DNA连接酶(购于NEB公司)连接至线性化pAAV2_envTadA-dCas12J-8-crRNA_ITR载体。
取1μL所得连接产物加到大肠杆菌DH5α感受态细胞(购于上海唯地生物技术有限公司)中,冰上孵育30min,42℃热激1min,冰上孵育2min,加入900μL LB培养基,于37℃培养1小时,以进行大肠杆菌DH5α感受态细胞的活化复苏。
将复苏后的大肠杆菌DH5α感受态细胞涂布在含有对应抗性的LB固体平板在37℃培养箱倒置培养,得到的大肠杆菌DH5α单克隆进行Sanger测序验证。
将测序验证连接正确的大肠杆菌DH5α克隆摇菌,提取质粒,即得到含有表达目标sgRNA序列的质粒pAAV2_envTadA-dCas12J-8-crRNA-gRNA_ITR,备用。
(8)pAAV2_envTadA-dCas12J-8-crRNA-gRNA_ITR质粒对野生型HEK293T细胞系的转染
将所得的pAAV2_envTadA-dCas12J-8-crRNA-gRNA_ITR质粒采用脂质体方式分别转染至野生型HEK293T细胞系。
上述转染过程包括如下步骤:
第0天,根据转染所需,将HEK293T细胞系在6孔板进行铺板,细胞密度控制在30%。
第1天,进行转染,转染过程如下:
取2μg待转染质粒pAAV2_envTadA-dCas12J-8-crRNA-gRNA_ITR加入至100μLOpti-MEM培养基(购于Gibco公司)中,轻轻吹打混匀。
2000(购于Invitrogen公司)或PEI(购于polysciences公司)轻弹混匀,吸取5μL/>2000或PEI加入至100μL Opti-MEM培养基中,轻轻混匀,室温静置5min。
将经稀释的质粒和经稀释的转染试剂进行混合,轻轻吹打混匀,得到的混合液室温静置20min,然后加入到备转HEK293T细胞的培养基中,并将其置于37℃、5%CO2培养箱中继续培养7天。
(9)二代测序文库的制备
收集编辑七天后的HEK293T细胞,用DNA试剂盒(天根生化科技(北京)有限公司,DP304)并依据该DNA试剂盒提供的说明书提取基因组DNA。
进行PCR建库第一轮PCR,用2×Q5 Mastermix进行PCR反应,PCR引物如下表所示:
表6:针对各内源位点的PCR引物列表
/>
反应体系如下:
PCR运行程序如下:
进行PCR建库第二轮PCR,用2×Q5 Mastermix进行PCR反应,PCR引物同上文实施例1中给出的F2引物和R2引物。
反应体系如下:
PCR运行程序如下:
将第二轮的PCR产物用胶回收试剂盒依据厂家提供的步骤,纯化DNA片段,由此二代测序文库制备完毕。
(10)二代测序结果的分析
将制备好的二代测序文库在高通量测序仪HiseqXTen(illumina)上进行双端测序。
二代测序结果经运算后获得各内源位点靶位点中符合编辑要求的腺嘌呤A的编辑比例,结果示于图14。从该图中可以看出,Cas12J-8ABE碱基编辑器成功地对这几个内源性位点靶位点进行了细胞单碱基基因编辑,且含有Cas12J-8ABE碱基编辑器蛋白只有938个氨基酸,可以轻易被AAV病毒包装,由此使CRISPR单碱基编辑器系统在生物体基因治疗上的应用成为了可能。
实施例4
(1)构建质粒pAAV2_Cas12_ITR
文末序列表中示出了Cas12J-4、Cas12J-5、Cas12J-7、Cas12J-8和Cas12J-9蛋白的氨基酸序列(分别如SEQ ID NO:23-25、1和26所示)。
将各Cas12蛋白的编码核酸序列进行密码子优化,获得所述Cas12蛋白在人细胞中高表达的基因序列。Cas12J-4、Cas12J-5、Cas12J-7、Cas12J-8和Cas12J-9蛋白的基因序列分别由SEQ ID NO:27-29、8和30所示。
将上述获得的SEQ ID NO:27-29、8和30所示的各Cas12蛋白高表达的基因序列进行基因合成,并分别构建至slugCas9骨架质粒(Addgene平台,catalog#163793)上,得到各质粒pAAV2_Cas12_ITR。
(2)构建质粒Cas12J-PSK-u6-crRNA
用BbsI和XhoI限制性内切酶将pBluescriptSKII+U6-sgRNA(F+E)empty质粒(Addgene平台,可以商购,catalog为#74707)进行酶切反应,酶切体系为:1μg质粒psk-BbsI-Sasg、5μL10×CutSmart缓冲液(购于NEB公司)、1μL BbsI和1μL XhoI限制性内切酶(购于NEB公司),水补足至50μL。使该酶切体系在37℃反应1小时。
然后,将酶切产物在1%琼脂糖凝胶上以120V电压电泳30min。
从琼脂糖凝胶上切下3296bp DNA片段,用胶回收试剂盒(天根生化科技(北京)有限公司,DP209)依据厂家提供的说明进行回收,最终用超纯水进行洗脱。
根据Cas12J-4、Cas12J-5、Cas12J-7、Cas12J-8和Cas12J-9蛋白基因组上的repeat序列(其DNA序列分别由SEQ ID NO:31至33、19和34所示),将该repeat序列进行基因合成,并分别构建于线性化的pBluescriptSKII+U6-sgRNA(F+E)empty骨架上,得到各质粒Cas12J-PSK-u6-crRNA。
(3)质粒pAAV2_Cas12-hU6-sgRNA_ITR载体的构建
利用PCR方法线性化(1)中表达Cas12蛋白的pAAV2_Cas12_ITR质粒和(2)中表达各蛋白对应sgRNA的Cas12J-PSK-u6-crRNA质粒。
对于pAAV2_Cas12_ITR质粒,引物序列为:
ATCATGGGAAATAGGCCCTCAGGTACCTCCCCAGCATGC;和
CGAGGGGGGGCCCGGTACATCATGGGAAATAGGCCCTC;
对于Cas12J-PSK-u6-crRNA质粒,引物序列为:
GAGGGCCTATTTCCCATGAT;和
GTACCGGGCCCCCCCTCG。
反应体系如下:
PCR运行程序如下:
PCR产物在1%琼脂糖凝胶上以120V电压电泳30min,用胶回收试剂盒依据厂家提供的步骤,纯化得到目的DNA片段,用NanoDropTMLite分光光度计(Thermo Scientific)测定DNA浓度,备用或置于-20℃进行长期保存。
将线性化pAAV2_Cas12_ITR片段与线性化Cas12J-PSK-u6-crRNA片段对应按照说明书要求比例进行同源重组,所使用的同源重组酶为高保真DNA组装预混液(NEB),反应体系如下:/>
反应条件如下:
将连接产物加到大肠杆菌DH5α感受态细胞(购于上海唯地生物技术有限公司)中,冰上孵育30min,42℃热激1min,冰上孵育2min,加入900μL LB培养基,于37℃培养1小时,以进行大肠杆菌DH5α感受态细胞的活化复苏。
将复苏后的大肠杆菌DH5α感受态细胞涂布在含有氨苄青霉素抗性的LB固体平板在37℃培养箱倒置培养,得到的大肠杆菌DH5α单克隆进行Sanger测序验证。
将测序验证连接正确的大肠杆菌DH5α克隆摇菌,提取质粒,即得到各质粒pAAV2_Cas12-hU6-sgRNA_ITR,备用。
(4)线性化质粒pAAV2_Cas12-hU6-sgRNA_ITR的制备
用BbsI限制性内切酶将(3)中制备的各质粒pAAV2_Cas12-hU6-sgRNA_ITR进行酶切线性化反应,酶切体系为:1μg质粒pAAV2_Cas12-hU6-sgRNA_ITR、5μL 10xCutSmart缓冲液(购于NEB公司)、1μL BbsI限制性内切酶(购于NEB公司),水补足至50μL。使该酶切体系在37℃反应1小时。
然后,将酶切产物在1%琼脂糖凝胶上以120V电压电泳30min。
从琼脂糖凝胶上切下DNA片段,用胶回收试剂盒(天根生化科技(北京)有限公司,DP209)并依据该厂家提供的说明进行回收,最终用超纯水进行洗脱。所述DNA片段即为包含以上各Cas蛋白的编码基因的线性化质粒pAAV2_Cas12_ITR。
将回收的线性化质粒pAAV2_Cas12-hU6-sgRNA_ITR用NanoDropTM Lite分光光度计NanoDrop(Thermo Scientific)测定DNA浓度,备用或置于-20℃进行长期保存。
(5)质粒pAAV2_Cas12-hU6-sgRNA_ITR的制备
设计gRNA(GGAUAUGUUGAAGAACACCAUGAC),并在设计的gRNA序列用的正义链和反义链上分别加上线性化质粒pAAV2_Cas12-hU6-sgRNA_ITR两侧对应的粘性末端序列,并合成两条寡核苷酸单链DNA,这两条寡核苷酸单链DNA的具体序列如下:
Oligo-F:GGATATGTTGAAGAACACCATGAC
Oligo-R:GTCATGGTGTTCTTCAACATATCC
其中,针对Cas12J-4、Cas12J-5、Cas12J-7、Cas12J-8、和Cas12J-9的Oligo-F的粘性末端分别为CGAC、GGAC、AGAC、AGAC和AGAC,针对所有Cas12蛋白的Oligo-R的粘性末端均为AAAA。
将寡核苷酸单链DNA进行退火得到双链DNA。退火反应体系为:1μL 100μM oligo-F、1μL 100μM oligo-R、28μL水。将该退火体系震荡混匀后,放置于PCR仪中运行退火程序,退火程序为:95℃_5min,85℃_1min,75℃_1min,65℃_1min,55℃_1min,45℃_1min,35℃_1min,25℃_1min,4℃保存,降温速率0.3℃/s。退火后,将所得的产物通过DNA连接酶(购于NEB公司)连接至步骤(2)所得的线性化pAAV2_Cas12-hU6-sgRNA_ITR质粒。
取1μL所得连接产物加到大肠杆菌DH5α感受态细胞(购于上海唯地生物技术有限公司)中,冰上孵育30min,42℃热激1min,冰上孵育2min,加入900μL LB培养基,于37℃培养1小时,以进行大肠杆菌DH5α感受态细胞的活化复苏。
将复苏后的大肠杆菌DH5α感受态细胞涂布在含有对应抗性的LB固体平板在37℃培养箱倒置培养,得到的大肠杆菌DH5α单克隆进行Sanger测序验证。
将测序验证连接正确的大肠杆菌DH5α克隆摇菌,提取质粒,即得到含有表达目标sgRNA序列的质粒pAAV2_Cas12-hU6-sgRNA_ITR,备用。
(7)将所得的表达gRNA序列的质粒pAAV2_Cas12-hU6-sgRNA_ITR采用脂质体方式分别转染至含有靶序列(GGATATGTTGAAGAACACCATGAC)的GFP报告系统HEK293T细胞系文库中。
所述含有靶序列的GFP报告系统HEK293T细胞系文库是通过下述方式获得的:在起始密码子ATG和GFP编码序列之间插入5bp随机序列(作为PAM序列)和24bp的protospacer(作为靶序列),造成GFP移码突变而不表达。用CMV启动子启动这个含有插入片段的GFP基因,并构建在慢病毒表达载体上。这段序列由慢病毒介导随机插入到HEK293T细胞的基因组中,使之成为稳定的GFP报告细胞系文库。当使用基因编辑系统对靶序列进行切割后,细胞通过自身修复系统会使部分细胞恢复GFP阅读框,产生绿色荧光,通过流式分析统计GFP阳性细胞比率可以评估基因编辑系统的编辑能力及特异性。
上述转染过程包括如下步骤:
第0天,根据转染所需,将含有靶序列的GFP报告系统HEK293T细胞系文库在6孔板进行铺板,细胞密度控制在30%。
该含有靶序列的GFP报告系统HEK293T细胞系文库中包含CMV-ATG-PAM-targetsite-GFP的核苷酸序列,其中,其中PAM序列为5bp随机序列,靶位点(target site)的序列为GGATATGTTGAAGAACACCATGAC(图15)。
第1天,进行转染,转染过程如下:
分别取2μg待转染质粒pAAV2_Cas12-hU6-sgRNA_ITR加入至100μL Opti-MEM培养基(购于Gibco公司)中,轻轻吹打混匀。
2000(购于Invitrogen公司)或PEI(购于polysciences公司)轻弹混匀,吸取5μL/>2000或PEI加入至100μL Opti-MEM培养基中,轻轻混匀,室温静置5min。
将经稀释的质粒和经稀释的转染试剂进行混合,轻轻吹打混匀,得到的混合液室温静置20min,然后加入到含有靶序列的GFP报告系统HEK293T细胞系文库的培养基中,并将其置于37℃、5%CO2培养箱中继续培养。
然后,在荧光显微镜下观察各CRISPR/Cas12系统对HEK293T细胞系文库中的靶基因进行编辑的情况,结果示于图16。从该图中可以看出,只有CRISPR/Cas12J-8系统组别文库细胞出绿色荧光,这表明该系统成功地对细胞中的靶基因进行了编辑。但是,其他的任何CRISPR/Cas12J基因编辑系统组别文库细胞均没有发出任何荧光,表明这些系统不能够对靶基因进行有效编辑。
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
序列表
<120> Cas12蛋白、含有Cas12蛋白的基因编辑系统及应用
<130> CF210034S
<160> 34
<170> SIPOSequenceListing 1.0
<210> 1
<211> 717
<212> PRT
<213> 巨大噬菌体(Biggiephage)
<400> 1
Met Ile Lys Pro Thr Val Ser Gln Phe Leu Thr Pro Gly Phe Lys Leu
1 5 10 15
Ile Arg Asn His Ser Arg Thr Ala Gly Leu Lys Leu Lys Asn Glu Gly
20 25 30
Glu Glu Ala Cys Lys Lys Phe Val Arg Glu Asn Glu Ile Pro Lys Asp
35 40 45
Glu Cys Pro Asn Phe Gln Gly Gly Pro Ala Ile Ala Asn Ile Ile Ala
50 55 60
Lys Ser Arg Glu Phe Thr Glu Trp Glu Ile Tyr Gln Ser Ser Leu Ala
65 70 75 80
Ile Gln Glu Val Ile Phe Thr Leu Pro Lys Asp Lys Leu Pro Glu Pro
85 90 95
Ile Leu Lys Glu Glu Trp Arg Ala Gln Trp Leu Ser Glu His Gly Leu
100 105 110
Asp Thr Val Pro Tyr Lys Glu Ala Ala Gly Leu Asn Leu Ile Ile Lys
115 120 125
Asn Ala Val Asn Thr Tyr Lys Gly Val Gln Val Lys Val Asp Asn Lys
130 135 140
Asn Lys Asn Asn Leu Ala Lys Ile Asn Arg Lys Asn Glu Ile Ala Lys
145 150 155 160
Leu Asn Gly Glu Gln Glu Ile Ser Phe Glu Glu Ile Lys Ala Phe Asp
165 170 175
Asp Lys Gly Tyr Leu Leu Gln Lys Pro Ser Pro Asn Lys Ser Ile Tyr
180 185 190
Cys Tyr Gln Ser Val Ser Pro Lys Pro Phe Ile Thr Ser Lys Tyr His
195 200 205
Asn Val Asn Leu Pro Glu Glu Tyr Ile Gly Tyr Tyr Arg Lys Ser Asn
210 215 220
Glu Pro Ile Val Ser Pro Tyr Gln Phe Asp Arg Leu Arg Ile Pro Ile
225 230 235 240
Gly Glu Pro Gly Tyr Val Pro Lys Trp Gln Tyr Thr Phe Leu Ser Lys
245 250 255
Lys Glu Asn Lys Arg Arg Lys Leu Ser Lys Arg Ile Lys Asn Val Ser
260 265 270
Pro Ile Leu Gly Ile Ile Cys Ile Lys Lys Asp Trp Cys Val Phe Asp
275 280 285
Met Arg Gly Leu Leu Arg Thr Asn His Trp Lys Lys Tyr His Lys Pro
290 295 300
Thr Asp Ser Ile Asn Asp Leu Phe Asp Tyr Phe Thr Gly Asp Pro Val
305 310 315 320
Ile Asp Thr Lys Ala Asn Val Val Arg Phe Arg Tyr Lys Met Glu Asn
325 330 335
Gly Ile Val Asn Tyr Lys Pro Val Arg Glu Lys Lys Gly Lys Glu Leu
340 345 350
Leu Glu Asn Ile Cys Asp Gln Asn Gly Ser Cys Lys Leu Ala Thr Val
355 360 365
Asp Val Gly Gln Asn Asn Pro Val Ala Ile Gly Leu Phe Glu Leu Lys
370 375 380
Lys Val Asn Gly Glu Leu Thr Lys Thr Leu Ile Ser Arg His Pro Thr
385 390 395 400
Pro Ile Asp Phe Cys Asn Lys Ile Thr Ala Tyr Arg Glu Arg Tyr Asp
405 410 415
Lys Leu Glu Ser Ser Ile Lys Leu Asp Ala Ile Lys Gln Leu Thr Ser
420 425 430
Glu Gln Lys Ile Glu Val Asp Asn Tyr Asn Asn Asn Phe Thr Pro Gln
435 440 445
Asn Thr Lys Gln Ile Val Cys Ser Lys Leu Asn Ile Asn Pro Asn Asp
450 455 460
Leu Pro Trp Asp Lys Met Ile Ser Gly Thr His Phe Ile Ser Glu Lys
465 470 475 480
Ala Gln Val Ser Asn Lys Ser Glu Ile Tyr Phe Thr Ser Thr Asp Lys
485 490 495
Gly Lys Thr Lys Asp Val Met Lys Ser Asp Tyr Lys Trp Phe Gln Asp
500 505 510
Tyr Lys Pro Lys Leu Ser Lys Glu Val Arg Asp Ala Leu Ser Asp Ile
515 520 525
Glu Trp Arg Leu Arg Arg Glu Ser Leu Glu Phe Asn Lys Leu Ser Lys
530 535 540
Ser Arg Glu Gln Asp Ala Arg Gln Leu Ala Asn Trp Ile Ser Ser Met
545 550 555 560
Cys Asp Val Ile Gly Ile Glu Asn Leu Val Lys Lys Asn Asn Phe Phe
565 570 575
Gly Gly Ser Gly Lys Arg Glu Pro Gly Trp Asp Asn Phe Tyr Lys Pro
580 585 590
Lys Lys Glu Asn Arg Trp Trp Ile Asn Ala Ile His Lys Ala Leu Thr
595 600 605
Glu Leu Ser Gln Asn Lys Gly Lys Arg Val Ile Leu Leu Pro Ala Met
610 615 620
Arg Thr Ser Ile Thr Cys Pro Lys Cys Lys Tyr Cys Asp Ser Lys Asn
625 630 635 640
Arg Asn Gly Glu Lys Phe Asn Cys Leu Lys Cys Gly Ile Glu Leu Asn
645 650 655
Ala Asp Ile Asp Val Ala Thr Glu Asn Leu Ala Thr Val Ala Ile Thr
660 665 670
Ala Gln Ser Met Pro Lys Pro Thr Cys Glu Arg Ser Gly Asp Ala Lys
675 680 685
Lys Pro Val Arg Ala Arg Lys Ala Lys Ala Pro Glu Phe His Asp Lys
690 695 700
Leu Ala Pro Ser Tyr Thr Val Val Leu Arg Glu Ala Val
705 710 715
<210> 2
<211> 1261
<212> PRT
<213> 牛莫拉氏菌(Moraxella bovis)
<400> 2
Met Leu Phe Gln Glu Phe Thr His Leu Tyr Pro Leu Ser Lys Thr Val
1 5 10 15
Arg Phe Glu Leu Lys Pro Ile Gly Lys Thr Leu Glu His Ile His Ala
20 25 30
Lys Asn Phe Leu Ser Gln Asp Glu Thr Met Ala Asp Met Tyr Gln Lys
35 40 45
Val Lys Ala Met Leu Asp Asp Tyr His Arg Asp Phe Ile Ala Asp Met
50 55 60
Met Gly Glu Val Lys Leu Thr Lys Leu Ala Glu Phe Tyr Asp Val Tyr
65 70 75 80
Leu Lys Phe Arg Lys Asn Pro Lys Asp Asp Gly Leu Gln Lys Gln Leu
85 90 95
Lys Asp Leu Gln Ala Val Leu Arg Lys Glu Ile Val Lys Pro Ile Gly
100 105 110
Asn Gly Gly Lys Tyr Lys Ala Gly Tyr Asp Arg Leu Phe Gly Ala Lys
115 120 125
Leu Phe Lys Asp Gly Lys Lys Leu Gly Asp Leu Ala Lys Phe Val Ile
130 135 140
Ala Gln Glu Gly Asp Ser Ser Pro Lys Leu Ala His Leu Ala His Phe
145 150 155 160
Glu Lys Phe Ser Thr Tyr Phe Thr Gly Phe His Asp Asn Arg Lys Asn
165 170 175
Met Tyr Ser Asp Glu Asp Lys His Thr Ser Ile Ala Tyr Arg Leu Ile
180 185 190
His Glu Asn Leu Pro Arg Phe Ile Asp Asn Leu Gln Ile Leu Thr Thr
195 200 205
Ile Lys Gln Lys His Ser Ala Leu Tyr Asp Gln Ile Ile Asn Glu Leu
210 215 220
Thr Ala Ser Gly Leu Asp Val Ser Leu Ala Ser His Leu Asp Gly Tyr
225 230 235 240
His Lys Leu Leu Thr Gln Glu Gly Ile Thr Ala Tyr Asn Thr Leu Leu
245 250 255
Gly Gly Ile Ser Gly Glu Ala Gly Ser Arg Lys Ile Lys Gly Ile Asn
260 265 270
Glu Leu Ile Asn Ser His His Asn Gln His Cys His Lys Ser Glu Arg
275 280 285
Ile Ala Lys Leu Arg Pro Leu His Lys Gln Ile Leu Ser Asp Gly Met
290 295 300
Gly Val Ser Phe Leu Pro Ser Lys Phe Ala Asp Asp Ser Glu Val Cys
305 310 315 320
Gln Ala Val Asn Glu Phe Tyr Arg His Tyr Ala Asp Val Phe Ala Lys
325 330 335
Val Gln Ser Leu Phe Asp Gly Phe Asp Asp Tyr Gln Lys Asp Gly Ile
340 345 350
Tyr Val Glu His Lys Asn Leu Asn Glu Leu Ser Lys Gln Ala Phe Gly
355 360 365
Asp Phe Ala Leu Leu Gly Arg Val Leu Asp Gly Tyr Tyr Val Asp Val
370 375 380
Val Ser Pro Glu Phe Asn Glu Arg Phe Ala Lys Ala Lys Thr Asp Asn
385 390 395 400
Ala Lys Glu Lys Leu Thr Lys Glu Lys Asp Lys Phe Ile Lys Gly Val
405 410 415
His Ser Leu Ala Ser Leu Glu Gln Ala Ile Glu His Tyr Thr Ala Arg
420 425 430
His Asp Asp Glu Ser Val Gln Ala Gly Lys Leu Gly Gln Tyr Phe Lys
435 440 445
His Gly Leu Ala Gly Val Asp Asn Pro Ile Gln Lys Ile His Asn Asn
450 455 460
His Ser Thr Ile Lys Gly Phe Leu Glu Arg Glu Arg Pro Ala Gly Glu
465 470 475 480
Arg Ala Leu Pro Lys Ile Gln Leu Gly Lys Asn Pro Glu Ile Arg Gln
485 490 495
Leu Lys Glu Leu Leu Asp Asn Thr Leu Asn Val Val His Phe Ala Lys
500 505 510
Leu Leu Thr Thr Lys Thr Thr Leu Asp Asn Gln Asp Gly Asn Phe Tyr
515 520 525
Gly Glu Phe Gly Ala Leu Tyr Asp Glu Leu Ala Lys Ile Pro Thr Leu
530 535 540
Tyr Asn Lys Val Arg Asp Tyr Leu Ser Gln Lys Pro Phe Ser Thr Glu
545 550 555 560
Lys Tyr Lys Leu Asn Phe Gly Asn Pro Thr Leu Leu Asn Gly Trp Asp
565 570 575
Leu Asn Lys Glu Lys Asp Asn Phe Gly Val Ile Leu Gln Lys Asp Gly
580 585 590
Cys Tyr Tyr Leu Ala Leu Leu Asp Lys Ala His Lys Lys Val Phe Asp
595 600 605
Asn Ala Pro Asn Thr Gly Lys Asn Ile Tyr Gln Lys Met Ile Tyr Lys
610 615 620
Leu Leu Pro Gly Pro Asn Lys Met Leu Pro Lys Val Phe Phe Ala Lys
625 630 635 640
Ser Asn Leu Asp Tyr Tyr Asn Pro Ser Ala Glu Leu Leu Asp Lys Tyr
645 650 655
Ala Lys Gly Thr His Lys Lys Gly Asp Asn Phe Asn Leu Lys Asp Cys
660 665 670
His Ala Leu Ile Asp Phe Phe Lys Ala Gly Ile Asn Lys His Pro Glu
675 680 685
Trp Gln His Phe Gly Phe Lys Phe Ser Pro Thr Ser Ser Tyr Gln Asp
690 695 700
Leu Ser Asp Phe Tyr Arg Glu Val Glu Pro Gln Gly Tyr Gln Val Lys
705 710 715 720
Phe Val Asp Ile Asn Ala Asp Tyr Ile Asp Glu Leu Val Glu Gln Gly
725 730 735
Gln Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Pro Lys Ala
740 745 750
His Gly Lys Pro Asn Leu His Thr Leu Tyr Phe Lys Ala Leu Phe Ser
755 760 765
Glu Asp Asn Leu Ala Asp Pro Ile Tyr Lys Leu Asn Gly Glu Ala Gln
770 775 780
Ile Phe Tyr Arg Lys Ala Ser Leu Asp Met Asn Glu Thr Thr Ile His
785 790 795 800
Arg Ala Gly Glu Val Leu Glu Asn Lys Asn Pro Asp Asn Pro Lys Lys
805 810 815
Arg Gln Phe Val Tyr Asp Ile Ile Lys Asp Lys Arg Tyr Thr Gln Asp
820 825 830
Lys Phe Met Leu His Val Pro Ile Thr Met Asn Phe Gly Val Gln Gly
835 840 845
Met Thr Ile Lys Glu Phe Asn Lys Lys Val Asn Glu Ser Ile Gln Gln
850 855 860
Tyr Asp Glu Val Asn Val Ile Gly Ile Asp Arg Gly Glu Arg His Leu
865 870 875 880
Leu Tyr Leu Thr Val Ile Asn Ser Lys Gly Glu Ile Leu Glu Gln Arg
885 890 895
Ser Leu Asn Asp Ile Ile Thr Thr Ser Ala Asn Gly Thr Gln Met Thr
900 905 910
Thr His Tyr His Lys Ile Leu Asp Lys Arg Glu Ile Glu Arg Leu Asn
915 920 925
Ala Arg Val Gly Trp Gly Glu Ile Glu Thr Ile Lys Glu Leu Lys Ser
930 935 940
Gly Tyr Leu Ser His Val Val His Gln Ile Ser Gln Leu Met Leu Lys
945 950 955 960
Tyr Asn Ala Ile Val Val Leu Glu Asp Leu Asn Phe Gly Phe Lys Arg
965 970 975
Gly Arg Phe Lys Val Glu Lys Gln Ile Tyr Gln Asn Phe Glu Asn Ala
980 985 990
Leu Ile Lys Lys Leu Asn His Leu Val Leu Lys Asp Lys Ala Asp Asp
995 1000 1005
Glu Ile Gly Ser Tyr Lys Asn Ala Leu Gln Leu Thr Asn Asn Phe Thr
1010 1015 1020
Asp Leu Lys Ser Ile Gly Lys Gln Thr Gly Phe Leu Phe Tyr Val Pro
1025 1030 1035 1040
Ala Trp Asn Thr Ser Lys Ile Asp Pro Glu Thr Gly Phe Val Asp Leu
1045 1050 1055
Leu Lys Pro Arg Tyr Glu Asn Ile Ala Gln Ser Gln Ala Phe Phe Gly
1060 1065 1070
Lys Phe Asp Lys Ile Cys Tyr Asn Ala Asp Lys Gly Tyr Phe Glu Phe
1075 1080 1085
His Ile Asp Tyr Ala Lys Phe Thr Asp Lys Ala Lys Asn Ser Arg Gln
1090 1095 1100
Lys Trp Thr Ile Cys Ser His Gly Asp Lys Arg Tyr Val Tyr Asp Lys
1105 1110 1115 1120
Thr Ala Asn Lys Asn Lys Gly Thr Thr Lys Gly Ile Asn Val Asn Asp
1125 1130 1135
Glu Leu Lys Ser Leu Phe Ala Arg His His Ile Asn Glu Lys Gln Pro
1140 1145 1150
Asn Leu Val Met Asp Ile Cys Gln Asn Asn Asp Lys Glu Phe His Lys
1155 1160 1165
Ser Leu Met Tyr Leu Leu Lys Thr Leu Leu Ala Leu Arg Tyr Ser Asn
1170 1175 1180
Ala Ser Ser Asp Glu Asp Phe Ile Leu Ser Pro Val Ala Asn Asp Glu
1185 1190 1195 1200
Gly Val Phe Phe Asn Ser Ala Leu Ala Asp Asp Thr Gln Pro Gln Asn
1205 1210 1215
Ala Asp Ala Asn Gly Ala Tyr His Ile Ala Leu Lys Gly Leu Trp Leu
1220 1225 1230
Leu Asn Glu Leu Lys Asp Ser Asp Asp Leu Asn Lys Val Lys Leu Ala
1235 1240 1245
Ile Asp Asn Gln Thr Trp Leu Asn Phe Ala Gln Asn Arg
1250 1255 1260
<210> 3
<211> 1264
<212> PRT
<213> 墨氏莫拉菌(Moraxella lacunata)
<400> 3
Met Leu Phe Gln Glu Phe Thr His Leu Tyr Pro Leu Ser Lys Thr Val
1 5 10 15
Arg Phe Glu Leu Lys Pro Ile Gly Lys Thr Leu Glu His Ile His Ala
20 25 30
Lys Asp Phe Leu Ser Gln Asp Glu Thr Met Ala Asp Met Tyr Gln Lys
35 40 45
Val Lys Ala Ile Leu Asp Asp Tyr His Arg Asp Phe Ile Ala Asp Met
50 55 60
Met Ser Gly Val Val Leu Thr Lys Leu Ala Glu Phe Tyr Glu Val Tyr
65 70 75 80
Leu Ala Leu Arg Lys Thr Pro Lys Asp Asp Ser Leu Gln Lys Gln Leu
85 90 95
Thr Glu Ile Gln Thr Ala Leu Arg Lys Glu Ile Val Lys Pro Ile Gly
100 105 110
Ser Gly Gly Lys Tyr Lys Ala Gly Tyr Asp Arg Leu Phe Gly Ala Lys
115 120 125
Leu Phe Lys Asp Gly Lys Glu Leu Gly Asp Leu Ala Lys Phe Val Ile
130 135 140
Thr Gln Glu Gly Glu Ser Ser Pro Lys Leu Ala His Ile Ala His Phe
145 150 155 160
Glu Lys Phe Ser Thr Tyr Phe Thr Gly Phe His Asp Asn Arg Lys Asn
165 170 175
Met Tyr Ser Asp Glu Asp Lys His Thr Ala Ile Ala Tyr Arg Leu Ile
180 185 190
His Glu Asn Leu Pro Arg Phe Ile Asp Asn Leu Gln Ile Leu Ala Thr
195 200 205
Ile Lys Gln Lys His Ser Ala Leu Tyr Asp Gln Ile Val Asn Glu Leu
210 215 220
Asn Ala Asn Gly Leu Asp Val Ser Leu Ala Ser His Leu Asp Gly Tyr
225 230 235 240
His Lys Leu Leu Thr Gln Glu Gly Ile Thr Ala Tyr Asn Thr Leu Leu
245 250 255
Gly Gly Ile Ser Gly Glu Ala Gly Ser Arg Lys Ile Gln Gly Ile Asn
260 265 270
Glu Leu Ile Asn Ile His His Asn Gln His Cys Gln Lys Ser Glu Arg
275 280 285
Ile Ala Lys Leu Arg Pro Leu His Lys Gln Ile Leu Ser Asp Gly Met
290 295 300
Gly Val Ser Phe Leu Pro Ser Lys Phe Ala Asp Asp Ser Glu Val Cys
305 310 315 320
Gln Ala Val Asn Glu Phe Tyr Arg His Tyr Ala His Val Phe Ala Lys
325 330 335
Val Gln Ser Leu Phe Asp Arg Phe Asp Asp Tyr Arg Lys Asp Gly Ile
340 345 350
Tyr Val Glu His Lys Asn Leu Asn Glu Leu Ser Lys Gln Ala Phe Gly
355 360 365
Asp Phe Ala Leu Leu Gly Arg Val Leu Asp Gly Tyr Tyr Val Asp Val
370 375 380
Val Asn Pro Glu Phe Asn Glu Arg Phe Ala Lys Ala Lys Thr Asp Asn
385 390 395 400
Ala Lys Glu Lys Leu Thr Lys Glu Lys Asp Lys Phe Ile Lys Gly Val
405 410 415
His Ser Leu Ala Ser Leu Glu Gln Ala Ile Glu His Tyr Ile Ala Gly
420 425 430
His Asp Asp Glu Ser Val Gln Ala Gly Lys Leu Gly Gln Tyr Phe Lys
435 440 445
His Gly Leu Ala Gly Val Asp Asn Pro Ile Gln Lys Ile His Asn Ser
450 455 460
His Ser Thr Ile Lys Gly Phe Leu Glu Arg Glu Arg Pro Ala Gly Glu
465 470 475 480
Arg Ala Leu Pro Lys Ile Lys Ser Asp Lys Ser Pro Glu Met Thr Gln
485 490 495
Leu Arg Gln Leu Lys Glu Leu Leu Asp Asn Ala Leu Asn Val Val His
500 505 510
Phe Ala Lys Leu Leu Thr Thr Lys Thr Thr Leu Asp Asn Gln Asp Gly
515 520 525
Asn Phe Tyr Gly Glu Phe Gly Ala Leu Tyr Asp Glu Leu Ala Lys Ile
530 535 540
Ala Thr Leu Tyr Asn Lys Val Arg Asp Tyr Leu Ser Gln Lys Pro Phe
545 550 555 560
Ser Thr Glu Lys Tyr Lys Leu Asn Phe Gly Asn Pro Thr Leu Leu Asn
565 570 575
Gly Trp Asp Leu Asn Lys Glu Lys Asp Asn Phe Gly Val Ile Leu Gln
580 585 590
Lys Asp Gly Cys Tyr Tyr Leu Ala Leu Leu Asp Lys Ala His Lys Lys
595 600 605
Val Phe Asp Asn Ala Pro Asn Ala Gly Lys Ser Val Tyr Gln Lys Met
610 615 620
Val Tyr Lys Leu Leu Pro Gly Pro Asn Lys Met Leu Pro Lys Val Phe
625 630 635 640
Phe Ala Lys Ser Asn Leu Asp Tyr Tyr Asn Pro Ser Ala Glu Leu Leu
645 650 655
Asp Lys Tyr Ala Gln Gly Thr His Lys Lys Gly Asn Asn Phe Asn Leu
660 665 670
Lys Asp Cys His Ala Leu Ile Asp Phe Phe Lys Ala Ser Ile Asn Lys
675 680 685
His Pro Glu Trp Gln His Phe Gly Phe Glu Phe Ser Pro Thr Ser Ser
690 695 700
Tyr Gln Asp Leu Ser Asp Phe Tyr Arg Glu Val Glu Pro Gln Gly Tyr
705 710 715 720
Gln Val Lys Phe Val Asp Ile Asn Ala Glu Tyr Ile Asp Glu Leu Val
725 730 735
Glu Gln Gly Gln Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser
740 745 750
Pro Lys Ala His Gly Lys Pro Asn Leu His Thr Leu Tyr Phe Lys Ala
755 760 765
Leu Phe Ser Glu Asn Asn Leu Ala Asn Pro Ile Tyr Lys Leu Asn Gly
770 775 780
Glu Ala Glu Ile Phe Tyr Arg Lys Ala Ser Leu Asp Met Asn Glu Thr
785 790 795 800
Thr Ile His Arg Ala Gly Glu Val Leu Glu Asn Lys Asn Pro Asp Asn
805 810 815
Pro Lys Lys Arg Gln Phe Val Tyr Asp Ile Ile Lys Asp Lys Arg Tyr
820 825 830
Thr Gln Asp Lys Phe Met Leu His Val Pro Ile Thr Met Asn Phe Gly
835 840 845
Val Gln Gly Met Thr Ile Lys Glu Phe Asn Lys Lys Val Asn Gln Ser
850 855 860
Ile Gln Gln Tyr Asn Asp Val Asn Val Ile Gly Ile Asp Arg Gly Glu
865 870 875 880
Arg His Leu Leu Tyr Leu Thr Val Ile Asn Ser Lys Gly Glu Ile Leu
885 890 895
Glu Gln Arg Ser Leu Asn Asp Ile Ile Thr Thr Ser Ala Asn Gly Thr
900 905 910
Gln Met Thr Thr Pro Tyr His Lys Ile Leu Asp Lys Arg Glu Ile Glu
915 920 925
Arg Leu Asn Ala Arg Val Gly Trp Gly Glu Ile Glu Thr Ile Lys Glu
930 935 940
Leu Lys Ser Gly Tyr Leu Ser His Val Val His Gln Ile Ser Gln Leu
945 950 955 960
Met Leu Lys Tyr Asn Ala Ile Val Val Leu Glu Asp Leu Asn Phe Gly
965 970 975
Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Ile Tyr Gln Asn Phe
980 985 990
Glu Asn Ala Leu Ile Lys Lys Leu Asn His Leu Ala Leu Lys Asp Lys
995 1000 1005
Ala Asp Asp Glu Ile Gly Ser Tyr Lys Asn Ala Leu Gln Leu Thr Asn
1010 1015 1020
Asn Phe Thr Asp Leu Lys Ser Ile Gly Lys Gln Thr Gly Phe Leu Phe
1025 1030 1035 1040
Tyr Val Pro Ala Trp Asn Thr Ser Lys Ile Asp Pro Ala Thr Gly Phe
1045 1050 1055
Val Asp Leu Leu Lys Pro Arg Tyr Glu Asn Ile Ala Gln Ser Gln Ala
1060 1065 1070
Phe Phe Gly Lys Phe Asp Lys Ile Phe Tyr Asn Ala Asp Lys Gly Tyr
1075 1080 1085
Phe Glu Phe Tyr Val Asp Tyr Ala Lys Phe Thr Asp Lys Ala Lys Asn
1090 1095 1100
Ser Arg Gln Thr Trp Val Ile Cys Ser His Gly Asp Lys Arg Tyr Val
1105 1110 1115 1120
Tyr Asp Lys Thr Ala Asn Gln Asn Lys Gly Ala Thr Ile Gly Ile Asn
1125 1130 1135
Val Asn Asp Glu Leu Lys Ser Leu Phe Ala Arg Tyr His Ile Asn Asp
1140 1145 1150
Lys Gln Pro Asn Leu Val Met Asp Ile Cys Gln Asn Asn Asp Lys Glu
1155 1160 1165
Phe His Lys Ser Leu Met Tyr Leu Leu Lys Ala Leu Leu Ala Leu Arg
1170 1175 1180
Tyr Ser Asn Ala Ser Ser Asp Glu Asp Phe Ile Leu Ser Pro Val Ala
1185 1190 1195 1200
Asp Asp Lys Gly Val Phe Phe Asn Ser Ala Leu Ala Asp Asp Thr Gln
1205 1210 1215
Pro Gln Asn Ala Asp Ala Asn Gly Ala Tyr His Ile Ala Leu Lys Gly
1220 1225 1230
Leu Trp Leu Leu Asn Glu Leu Lys Asn Ser Asn Asp Leu Asp Lys Ile
1235 1240 1245
Lys Leu Ala Ile Asp Asn Gln Thr Trp Leu Asn Phe Ala Gln Asn Arg
1250 1255 1260
<210> 4
<211> 1261
<212> PRT
<213> 羊莫拉氏菌(Moraxella ovis)
<400> 4
Met Leu Phe Gln Asp Phe Thr His Leu Tyr Pro Leu Ser Lys Thr Val
1 5 10 15
Arg Phe Glu Leu Lys Pro Ile Gly Lys Thr Leu Glu His Ile His Ala
20 25 30
Lys Asn Phe Leu Asn Gln Asp Glu Thr Met Ala Asp Met Tyr Gln Lys
35 40 45
Val Lys Ala Ile Leu Asp Asp Tyr His Arg Asp Phe Ile Ala Asp Met
50 55 60
Met Gly Glu Val Lys Leu Thr Lys Leu Ala Glu Phe Tyr Asp Val Tyr
65 70 75 80
Leu Lys Phe Arg Lys Asn Pro Lys Asp Asp Thr Leu Gln Lys Gln Leu
85 90 95
Lys Asp Leu Gln Ala Val Leu Arg Lys Glu Ile Val Lys Pro Ile Gly
100 105 110
Asn Gly Gly Lys Tyr Lys Ala Gly Tyr Asp Arg Leu Phe Gly Ala Lys
115 120 125
Leu Phe Lys Asp Gly Lys Glu Leu Gly Asp Leu Ala Lys Phe Val Ile
130 135 140
Ala Gln Glu Ser Glu Ser Ser Pro Lys Leu Ala His Leu Ala His Phe
145 150 155 160
Glu Lys Phe Ser Thr Tyr Phe Thr Gly Phe His Asp Asn Arg Lys Asn
165 170 175
Met Tyr Ser Asp Glu Asp Lys His Thr Ala Ile Ala Tyr Arg Leu Ile
180 185 190
His Glu Asn Leu Pro Arg Phe Ile Asp Asn Leu Gln Ile Leu Ala Thr
195 200 205
Ile Lys Gln Lys His Ser Ala Leu Tyr Asp Gln Ile Ile Asn Glu Leu
210 215 220
Thr Ala Ser Gly Leu Asp Val Ser Leu Ala Ser His Leu Asp Gly Tyr
225 230 235 240
His Asn Leu Leu Thr Gln Glu Gly Ile Thr Ala Tyr Asn Thr Leu Leu
245 250 255
Gly Gly Ile Ser Gly Glu Ala Gly Ser Arg Lys Ile Gln Gly Ile Asn
260 265 270
Glu Leu Ile Asn Ser His His Asn Gln His Cys His Lys Ser Glu Arg
275 280 285
Ile Ala Lys Leu Arg Pro Leu His Lys Gln Ile Leu Ser Asp Gly Met
290 295 300
Gly Val Ser Phe Leu Pro Ser Lys Phe Ala Asp Asp Ser Glu Met Cys
305 310 315 320
Gln Ala Val Asn Glu Phe Tyr Arg His Tyr Ala Asp Val Phe Ala Lys
325 330 335
Val Gln Ser Leu Phe Asp Gly Phe Asp Asp His Gln Lys Asp Gly Ile
340 345 350
Tyr Val Glu His Lys Asn Leu Asn Glu Leu Ser Lys Gln Ala Phe Gly
355 360 365
Asp Phe Ala Leu Leu Gly Arg Val Leu Asp Gly Tyr Tyr Val Asp Val
370 375 380
Val Asn Pro Glu Phe Asn Asp Lys Phe Ala Lys Ala Lys Thr Asp Asn
385 390 395 400
Ala Lys Ala Lys Leu Thr Lys Glu Lys Asp Lys Phe Ile Lys Gly Val
405 410 415
His Ser Leu Ala Ser Leu Glu Gln Ala Ile Glu His Tyr Thr Ala Arg
420 425 430
His Asp Asp Glu Ser Val Gln Ala Gly Lys Leu Gly Gln Tyr Phe Lys
435 440 445
His Gly Leu Ala Gly Val Asp Asn Pro Ile Gln Lys Ile His Asn Asn
450 455 460
His Ser Thr Ile Lys Gly Phe Leu Glu Arg Glu Arg Pro Ala Gly Glu
465 470 475 480
Arg Ala Leu Pro Lys Ile Lys Ser Asp Lys Ser Leu Lys Ile Arg Gln
485 490 495
Leu Lys Glu Leu Leu Asp Asn Ala Leu Asn Val Val His Phe Thr Lys
500 505 510
Leu Leu Thr Thr Lys Thr Thr Leu Asp Asn Gln Asp Gly Asn Phe Tyr
515 520 525
Gly Glu Phe Gly Val Leu Tyr Asp Glu Leu Ala Lys Thr Pro Thr Leu
530 535 540
Tyr Asn Lys Val Arg Asp Tyr Leu Ser Gln Lys Pro Phe Ser Thr Glu
545 550 555 560
Lys Tyr Lys Leu Asn Phe Gly Asn Pro Thr Leu Leu Asn Gly Trp Asp
565 570 575
Leu Asn Lys Glu Lys Asp Asn Phe Gly Val Ile Leu Gln Lys Asp Gly
580 585 590
Cys Tyr Tyr Leu Ala Leu Leu Asp Lys Ala His Lys Lys Val Phe Asp
595 600 605
Asn Ala Pro Asn Thr Gly Lys Asn Val Tyr Gln Lys Met Ile Tyr Lys
610 615 620
Leu Leu Pro Gly Pro Asn Lys Met Leu Pro Lys Val Phe Phe Ala Lys
625 630 635 640
Ser Asn Leu Asp Tyr Tyr Asn Pro Ser Ala Glu Leu Leu Asp Lys Tyr
645 650 655
Ala Gln Gly Thr His Lys Lys Gly Asp Asn Phe Asn Leu Lys Asp Cys
660 665 670
His Ala Leu Ile Asp Phe Phe Lys Ala Gly Ile Asn Lys His Pro Glu
675 680 685
Trp Gln His Phe Gly Phe Lys Phe Ser Pro Thr Ser Ser Tyr Gln Asp
690 695 700
Leu Ser Asp Phe Tyr Arg Glu Val Glu Pro Gln Gly Tyr Gln Val Lys
705 710 715 720
Phe Val Asp Ile Asn Ala Asp Tyr Ile Asp Glu Leu Val Glu Gln Gly
725 730 735
Gln Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Pro Lys Ala
740 745 750
His Gly Lys Pro Asn Leu His Thr Leu Tyr Phe Lys Ala Leu Phe Ser
755 760 765
Glu Asp Asn Leu Ala Asn Pro Ile Tyr Lys Leu Asn Gly Glu Ala Gln
770 775 780
Ile Phe Tyr Arg Lys Ala Ser Leu Asp Met Asn Glu Thr Thr Ile His
785 790 795 800
Cys Ala Gly Glu Val Leu Glu Asn Lys Asn Pro Asp Asn Pro Lys Lys
805 810 815
Arg Gln Phe Val Tyr Asp Ile Ile Lys Asp Lys Arg Tyr Thr Gln Asp
820 825 830
Lys Phe Met Leu His Val Pro Ile Thr Met Asn Phe Gly Val Gln Gly
835 840 845
Met Thr Ile Lys Glu Phe Asn Lys Lys Val Asn Gln Ser Ile Gln Gln
850 855 860
Tyr Asp Glu Val Asn Val Ile Gly Ile Asp Arg Gly Glu Arg His Leu
865 870 875 880
Leu Tyr Leu Thr Val Ile Asn Ser Lys Gly Glu Ile Leu Glu Gln Arg
885 890 895
Ser Leu Asn Asp Ile Thr Thr Ala Ser Val Asn Gly Thr Gln Met Thr
900 905 910
Thr Pro Tyr His Lys Ile Leu Asp Lys Arg Glu Ile Glu Arg Leu Asn
915 920 925
Ala Arg Val Gly Trp Gly Glu Ile Glu Thr Ile Lys Glu Leu Lys Ser
930 935 940
Gly Tyr Leu Ser His Val Val His Gln Ile Ser Gln Leu Met Leu Lys
945 950 955 960
Tyr Asn Ala Ile Val Val Leu Glu Asp Leu Asn Phe Gly Phe Lys Arg
965 970 975
Gly Arg Phe Lys Val Glu Lys Gln Ile Tyr Gln Asn Phe Glu Asn Ala
980 985 990
Leu Ile Lys Lys Leu Asn His Leu Val Leu Lys Asp Lys Ala Asp Asp
995 1000 1005
Glu Ile Gly Ser Tyr Lys Asn Ala Leu Gln Leu Thr Asn Asn Phe Thr
1010 1015 1020
Asp Leu Lys Ser Ile Gly Lys Gln Thr Gly Phe Leu Phe Tyr Val Pro
1025 1030 1035 1040
Ala Trp Asn Thr Ser Lys Ile Asp Pro Glu Thr Gly Phe Val Asp Leu
1045 1050 1055
Leu Lys Pro Arg Tyr Glu Asn Ile Ala Gln Ser Gln Ala Phe Phe Gly
1060 1065 1070
Lys Phe Asp Lys Ile Cys Tyr Asn Ala Asp Gly Gly Tyr Phe Glu Phe
1075 1080 1085
His Ile Asp Tyr Ala Lys Phe Thr Asp Lys Ala Lys Asn Ser Arg Gln
1090 1095 1100
Ile Trp Lys Ile Cys Ser His Gly Asp Lys Arg Tyr Val Tyr Asp Lys
1105 1110 1115 1120
Thr Ala Asn Gln Asn Lys Gly Ala Thr Ile Gly Ile Asn Val Asn Asp
1125 1130 1135
Glu Leu Lys Ser Leu Phe Thr Arg Tyr His Ile Asn Asp Lys Gln Pro
1140 1145 1150
Asn Leu Val Met Asp Ile Cys Gln Asn Asn Asp Lys Glu Phe His Lys
1155 1160 1165
Ser Leu Ile Tyr Leu Leu Lys Thr Leu Leu Ala Leu Arg Tyr Ser Asn
1170 1175 1180
Ala Asn Ser Asp Glu Asp Phe Ile Leu Ser Pro Val Ala Asp Asp Gln
1185 1190 1195 1200
Gly Val Phe Phe Asn Ser Ala Leu Val Asp Asp Thr Gln Pro Gln Asn
1205 1210 1215
Ala Asp Ala Asn Gly Ala Tyr His Ile Ala Leu Lys Gly Leu Trp Leu
1220 1225 1230
Leu Asn Glu Leu Lys Asn Ser Asp Asp Leu Asn Lys Val Lys Leu Ala
1235 1240 1245
Ile Asp Asn Gln Thr Trp Leu Asn Phe Ala Gln Asn Arg
1250 1255 1260
<210> 5
<211> 1305
<212> PRT
<213> 半乳糖醛酸拟杆菌(Bacteroides galacturonicus)
<400> 5
Met Asn Lys Ala Ala Asp Asn Tyr Thr Gly Gly Asn Tyr Asp Glu Phe
1 5 10 15
Ile Ala Leu Ser Lys Val Gln Lys Thr Leu Arg Asn Glu Leu Lys Pro
20 25 30
Thr Pro Phe Thr Ala Glu His Ile Lys Gln Arg Gly Ile Ile Ser Glu
35 40 45
Asp Glu Tyr Arg Ala Gln Gln Ser Leu Glu Leu Lys Lys Ile Ala Asp
50 55 60
Glu Tyr Tyr Arg Asn Tyr Ile Thr His Lys Leu Asn Gly Ile Asn Asn
65 70 75 80
Leu Asp Phe Tyr Asn Leu Phe Asp Ala Ile Glu Glu Lys Tyr Lys Lys
85 90 95
Asn Asp Lys Asp Asn Arg Asp Lys Leu Asp Leu Val Glu Lys Ser Lys
100 105 110
Arg Gly Glu Ile Ala Lys Leu Leu Ser Ala Asp Asp Asn Phe Lys Ser
115 120 125
Met Phe Glu Ala Lys Leu Ile Thr Lys Leu Leu Pro Asp Tyr Val Glu
130 135 140
Gln Asn Tyr Ile Asp Glu Asp Lys Glu Lys Ala Leu Glu Thr Ile Ala
145 150 155 160
Leu Phe Lys Gly Phe Thr Thr Tyr Phe Thr Asp Tyr Phe Asn Ile Arg
165 170 175
Lys Asn Met Phe Lys Glu Asn Gly Gly Ala Ser Ser Ile Cys Tyr Arg
180 185 190
Ile Val Asn Val Asn Ala Ser Ile Phe Tyr Asp Asn Leu Lys Thr Phe
195 200 205
Met Cys Ile Lys Glu Lys Ala Glu Thr Glu Ile Ala Leu Ile Glu Glu
210 215 220
Glu Leu Thr Glu Leu Leu Asp Ser Trp Arg Leu Glu His Ile Phe Ser
225 230 235 240
Glu Asp Tyr Tyr Asn Glu Leu Leu Ala Gln Lys Gly Ile Asp Tyr Tyr
245 250 255
Asn Gln Ile Cys Gly Asp Val Asn Lys His Met Asn Leu Tyr Cys Gln
260 265 270
Gln Asn Lys Leu Lys Ala Asn Val Phe Lys Met Thr Lys Leu Gln Lys
275 280 285
Gln Ile Met Gly Ile Ser Glu Lys Ala Phe Glu Ile Pro Pro Met Tyr
290 295 300
Gln Asn Asp Glu Glu Val Tyr Ala Ser Phe Asn Glu Phe Ile Ser Arg
305 310 315 320
Leu Glu Glu Val Lys Leu Thr Asp Arg Leu Arg Asn Ile Leu Gln Asn
325 330 335
Ile Asn Ile Tyr Asn Thr Ala Lys Ile Tyr Ile Asn Ala Arg Tyr Tyr
340 345 350
Thr Asn Val Ser Thr Tyr Val Tyr Gly Gly Trp Gly Val Ile Glu Ser
355 360 365
Ala Ile Glu Arg Tyr Leu Cys Asn Thr Ile Ala Gly Lys Gly Gln Ser
370 375 380
Lys Val Lys Lys Ile Glu Asn Ala Lys Lys Asp Asn Lys Phe Met Ser
385 390 395 400
Val Lys Glu Leu Asp Ser Ile Val Ala Glu Tyr Glu Pro Asp Tyr Phe
405 410 415
Asn Ala Pro Tyr Ile Asp Asp Asp Asp Asn Ala Val Lys Ala Phe Gly
420 425 430
Gly Gln Gly Val Leu Gly Tyr Phe Asn Lys Met Ser Glu Leu Leu Ala
435 440 445
Asp Val Ser Leu Tyr Thr Ile Asp Tyr Asn Ser Asp Asp Ser Leu Ile
450 455 460
Glu Asn Lys Glu Ser Ala Leu Arg Ile Lys Lys Gln Leu Asp Asp Ile
465 470 475 480
Met Ser Leu Tyr His Trp Leu Gln Thr Phe Ile Ile Asp Glu Val Val
485 490 495
Glu Lys Asp Asn Ala Phe Tyr Ala Glu Leu Glu Asp Ile Cys Cys Glu
500 505 510
Leu Glu Asn Val Val Thr Leu Tyr Asp Arg Ile Arg Asn Tyr Val Thr
515 520 525
Lys Lys Pro Tyr Ser Thr Gln Lys Phe Lys Leu Asn Phe Ala Ser Pro
530 535 540
Thr Leu Ala Ala Gly Trp Ser Arg Ser Lys Glu Phe Asp Asn Asn Ala
545 550 555 560
Ile Ile Leu Leu Arg Asn Asn Lys Tyr Tyr Ile Ala Ile Phe Asn Val
565 570 575
Asn Asn Lys Pro Asp Lys Gln Ile Ile Lys Gly Ser Glu Glu Gln Arg
580 585 590
Leu Ser Thr Asp Tyr Lys Lys Met Val Tyr Asn Leu Leu Pro Gly Pro
595 600 605
Asn Lys Met Leu Pro Lys Val Phe Ile Lys Ser Asp Thr Gly Lys Arg
610 615 620
Asp Tyr Asn Pro Ser Ser Tyr Ile Leu Glu Gly Tyr Glu Lys Asn Arg
625 630 635 640
His Ile Lys Ser Ser Gly Asn Phe Asp Ile Asn Tyr Cys His Asp Leu
645 650 655
Ile Asp Tyr Tyr Lys Ala Cys Ile Asn Lys His Pro Glu Trp Lys Asn
660 665 670
Tyr Gly Phe Lys Phe Glu Glu Thr Thr Gln Tyr Asn Asp Ile Gly Gln
675 680 685
Phe Tyr Lys Asp Val Glu Lys Gln Gly Tyr Ser Ile Ser Trp Val Tyr
690 695 700
Ile Ser Glu Ala Asp Ile Asn Arg Leu Asp Glu Glu Gly Lys Ile Tyr
705 710 715 720
Leu Phe Glu Ile Tyr Asn Lys Asp Leu Ser Ser His Ser Thr Gly Lys
725 730 735
Asp Asn Leu His Thr Met Tyr Leu Lys Asn Ile Phe Ser Glu Asp Asn
740 745 750
Leu Lys Asn Ile Cys Ile Glu Leu Asn Gly Asn Ala Glu Leu Phe Tyr
755 760 765
Arg Lys Ser Ser Met Lys Arg Asn Ile Thr His Lys Lys Asp Thr Val
770 775 780
Leu Val Asn Lys Thr Tyr Ile Asn Glu Ala Gly Val Arg Val Ser Leu
785 790 795 800
Thr Asp Glu Asp Tyr Ile Lys Val Tyr Asn Tyr Tyr Asn Asn Asp Tyr
805 810 815
Val Ile Asp Val Glu Lys Asp Lys Lys Leu Val Glu Ile Leu Glu Arg
820 825 830
Ile Gly His Arg Lys Asn Pro Ile Asp Ile Ile Lys Asp Lys Arg Tyr
835 840 845
Thr Glu Asp Lys Tyr Phe Leu His Leu Pro Ile Thr Ile Asn Tyr Gly
850 855 860
Val Asp Asp Glu Asn Ile Asn Ala Lys Met Ile Glu Tyr Ile Ala Lys
865 870 875 880
His Asn Asn Met Asn Val Ile Gly Ile Asp Arg Gly Glu Arg Asn Leu
885 890 895
Ile Tyr Ile Ser Val Ile Asn Asn Lys Gly Asn Ile Ile Glu Gln Lys
900 905 910
Ser Phe Asn Leu Val Asn Ser Tyr Asp Tyr Lys Asn Lys Leu Lys Asn
915 920 925
Met Glu Lys Thr Arg Asp Asn Ala Arg Lys Asn Trp Gln Glu Ile Gly
930 935 940
Lys Ile Lys Asp Val Lys Ser Gly Tyr Leu Ser Gly Val Ile Ser Lys
945 950 955 960
Ile Ala Arg Met Val Ile Asp Tyr Asn Ala Ile Ile Val Met Glu Asp
965 970 975
Leu Asn Lys Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Arg Gln Val
980 985 990
Tyr Gln Lys Phe Glu Asn Met Leu Ile Ser Lys Leu Asn Tyr Leu Val
995 1000 1005
Phe Lys Glu Arg Lys Ala Asp Glu Asn Gly Gly Ile Leu Arg Gly Tyr
1010 1015 1020
Gln Leu Thr Tyr Ile Pro Lys Ser Ile Lys Asn Val Gly Lys Gln Cys
1025 1030 1035 1040
Gly Cys Ile Phe Tyr Val Pro Ala Ala Tyr Thr Ser Lys Ile Asp Pro
1045 1050 1055
Ser Thr Gly Phe Ile Asn Ile Phe Asp Phe Lys Lys Tyr Ser Gly Ser
1060 1065 1070
Gly Ile Asn Ala Lys Val Lys Asp Lys Lys Glu Phe Leu Met Ser Met
1075 1080 1085
Asn Ser Ile Arg Tyr Ile Asn Glu Gly Ser Glu Glu Tyr Glu Lys Ile
1090 1095 1100
Gly His Arg Glu Leu Phe Ala Phe Ser Phe Asp Tyr Asn Asn Phe Lys
1105 1110 1115 1120
Thr Tyr Asn Val Ser Ser Pro Val Asn Glu Trp Thr Ala Tyr Thr Tyr
1125 1130 1135
Gly Glu Arg Ile Lys Lys Leu Tyr Lys Asp Gly Arg Trp Leu Arg Ser
1140 1145 1150
Glu Val Leu Asn Leu Thr Glu Asn Leu Ile Lys Leu Met Glu Gln Tyr
1155 1160 1165
Asn Ile Glu Tyr Lys Asp Gly His Asp Ile Arg Glu Asp Ile Ser His
1170 1175 1180
Met Asp Glu Thr Arg Asn Ala Asp Phe Ile Cys Ser Leu Phe Glu Glu
1185 1190 1195 1200
Leu Lys Tyr Thr Val Gln Leu Arg Asn Ser Lys Ser Glu Ala Glu Asp
1205 1210 1215
Glu Asn Tyr Asp Arg Leu Val Ser Pro Ile Leu Asn Ser Ser Asn Gly
1220 1225 1230
Phe Tyr Asp Ser Ser Asp Tyr Met Glu Asn Glu Asn Asn Thr Thr His
1235 1240 1245
Thr Met Pro Lys Asp Ala Asp Ala Asn Gly Ala Tyr Cys Ile Ala Leu
1250 1255 1260
Lys Gly Leu Tyr Glu Ile Asn Lys Ile Lys Gln Asn Trp Ser Asp Asp
1265 1270 1275 1280
Lys Lys Leu Lys Glu Ser Glu Leu Tyr Ile Gly Val Thr Glu Trp Leu
1285 1290 1295
Asp Tyr Ile Gln Asn Arg Arg Phe Glu
1300 1305
<210> 6
<211> 1496
<212> PRT
<213> 假丝氢化酵母菌(Candidayus Hydrogenedentes bacterium)
<400> 6
Met Ala Asp Asp Leu Ser Thr Gln Arg Ala Tyr Thr Leu Arg Leu Gln
1 5 10 15
Gly Thr Asp Pro Glu Asp Gln Ser Trp Arg Asp Ala Leu Trp Met Thr
20 25 30
His Glu Ala Val Asn Ala Gly Gly Arg Ala Phe Gly Asp Trp Leu Leu
35 40 45
Thr Leu Arg Gly Gly Ile Ala His Glu Leu Ala Asp Thr Pro Val Lys
50 55 60
Gly Lys Lys Asp Ile Thr Asp Glu Leu Arg Lys Lys Arg Arg Ile Leu
65 70 75 80
Leu Ala Leu Ser Trp Leu Ser Val Glu Ser Arg Arg Gly Ala Pro Asp
85 90 95
Lys Phe Ile Val Ala Gly Gly Glu Glu Pro Ala Gly Ser Arg Asn Glu
100 105 110
Lys Val Leu Gln Ala Leu Lys Glu Ile Leu Lys Arg Arg Gly Leu Ser
115 120 125
Ala Glu Glu Ser Glu Ser Trp Met Ser Asp Cys Arg Ala Ser Leu Ser
130 135 140
Ala Ala Ile Arg Asp Asp Ala Val Trp Val Asn Arg Ser Ala Ala Phe
145 150 155 160
Asp Asp Ala Gln Val Arg Ile Gly Ala Ser Leu Thr Arg Glu Asp Ile
165 170 175
Trp Asp Met Leu Asp Pro Phe Phe Gly Ser Arg Glu Ala Tyr Leu Thr
180 185 190
Pro Ala Lys Lys Lys Lys Glu Asp Glu Asp Ser Ser Glu Gly Thr Gly
195 200 205
Glu Glu Lys Ala Lys Asp Leu Val Gln Lys Ala Gly Gln Trp Leu Ser
210 215 220
Ser Arg Phe Gly Thr Gly Lys Gly Ala Asn Phe Asp Ala Met Ala Glu
225 230 235 240
Val Tyr Ser Lys Ile Ser Glu Trp Ala Gly Thr Ala Gln Glu Gly Val
245 250 255
Ser Gly Lys Glu Gly Ile Lys Asn Leu Ala Asp Ala Leu Ala Ala Phe
260 265 270
Ser Pro Val Ser Gln Asn Leu Glu Gly Val Leu Lys Leu Ile Ser Gly
275 280 285
Pro Gly Tyr Lys Ser Ala Thr Arg Asn Leu Leu Gly Glu Leu Asp Ser
290 295 300
Leu Pro Val Val Ser Arg Asp His Leu Ser Ala Leu His Glu Lys Ala
305 310 315 320
Ala Glu Asp Thr Val Lys Cys Lys Glu Ser Thr Gly Thr Lys Gly Arg
325 330 335
Arg Pro Tyr Ala Asp Ala Ile Leu Asn Asp Val Glu Lys Arg Cys Gly
340 345 350
Phe Thr Tyr Leu Thr Asp Ser Asp Asn Arg Ser Val Ser Ile Leu Asp
355 360 365
Thr Ser Glu Phe Pro Ser Asp Tyr Lys Trp Gly Thr Ala Arg His Ser
370 375 380
Glu Phe Ala Val Ile Leu Asp His Ala Ala Arg Arg Ile Ser Val Ala
385 390 395 400
His Ser Trp Ile Lys Leu Ala Glu Ala Glu Arg Asp Arg Cys Glu Glu
405 410 415
Asp Ala Ala Lys Val Tyr Asp Leu Pro Asp Lys Val Lys Glu Trp Leu
420 425 430
Asp Thr Phe Cys Ser Asn Arg Ser Asp Ile Ser Gly Ala Gln Gly Glu
435 440 445
Gly Tyr Arg Ile Arg Arg Lys Ala Ile Glu Gly Trp Lys Glu Val Val
450 455 460
Ala Ser Trp Gly Arg Ser Ser Cys Ile Thr Ala Glu Asp Arg Val Ala
465 470 475 480
Ala Ala Arg Ala Leu Gln Asp Asp Pro Glu Ile Asp Lys Phe Gly Asp
485 490 495
Ile Gln Leu Phe Glu Ile Leu Ala Gln Asp Glu Ala Leu Cys Val Trp
500 505 510
His Lys Asp Gly Asp Val Ala Lys Ser Pro Asp Ala Gln Met Leu Ile
515 520 525
Asp Tyr Val Leu Ala Ser Asp Ala Glu Ser Lys Lys Arg Arg Phe Lys
530 535 540
Val Pro Ala Tyr Arg His Pro Asp Ala Leu Leu His Pro Ile Phe Cys
545 550 555 560
Asp Phe Gly Asn Ser Arg Trp Asp Ile Thr Tyr Asp Ile His Gly Ala
565 570 575
Arg Gly Lys Lys Lys Ala Lys Arg Gly Ser Lys Lys Glu Glu Ala Met
580 585 590
Pro Arg Gly Val Ala Met Lys Leu Trp Thr Gly Ser Asp Val Leu Ser
595 600 605
Val Ser Leu Arg Trp Gln Ser Lys Lys Leu Ala Ala Asp Leu Ala Leu
610 615 620
Asp Gln Glu Ala Glu Glu Val Thr Asp Thr Ala Ala Val Ser Arg Ala
625 630 635 640
Asp Arg Leu Gly Arg Ala Ala Ala Gly Ile Asp Arg Gly Ala Gly Val
645 650 655
Thr Ile Ala Gly Leu Phe Glu Glu Ala His Trp Asn Gly Arg Leu Gln
660 665 670
Ala Pro Arg Gln Gln Leu Glu Ala Ile Ala Ala Val Arg Asp Asn Gln
675 680 685
Lys Leu Ser Ser Glu Glu Arg Glu Arg Arg Ile Ala Phe Met Lys Asp
690 695 700
Arg Ile Arg Trp Leu Val Thr Phe Ser Ala Lys Leu Arg Pro Gln Gly
705 710 715 720
Pro Trp His Ser Tyr Ala Pro Thr Gln Gly Leu Gln Ser Asp Pro Lys
725 730 735
Tyr Trp Pro His Ser Glu Ile Asn Lys Lys Arg Lys Gly Gln Ala Lys
740 745 750
Leu Ile Leu Ser Arg Leu Pro Gly Leu Arg Ile Leu Ser Val Asp Leu
755 760 765
Gly His Arg Phe Ala Ala Ala Cys Ala Val Trp Glu Thr Met Ser Ser
770 775 780
Glu Ala Ile Gln Glu Ala Cys Arg Leu Ala Asn His Gln Leu Pro Ala
785 790 795 800
Pro Ala Asp Leu Tyr Leu His Leu Lys Arg Thr Val Gln Lys Asn Leu
805 810 815
Ile Asp Gly Glu Lys Thr Val Glu Glu Ser Thr Val Tyr Arg Arg Ile
820 825 830
Gly Ala Asp Arg Leu Pro Asp Gly Thr Ala His Pro Ala Pro Trp Ala
835 840 845
Arg Leu Asp Arg Gln Phe Leu Ile Lys Leu Gln Gly Glu Glu Lys Val
850 855 860
Arg Glu Ala Ser Asn Glu Glu Val Trp Gln Val His Leu Met Glu Ser
865 870 875 880
Ala Leu Gly Leu Ser Phe Pro Leu Ile Asp Arg Leu Val Tyr Ala Gly
885 890 895
Trp Gly Gly Thr Glu Lys Gln Ala Ala Arg Leu Glu Ala Leu Arg Glu
900 905 910
Lys Gly Trp Lys Pro Thr Gly Thr Pro Ala Asp Gln Asp Glu Glu Gly
915 920 925
Gly Gly Tyr Lys Pro Ser Leu Ala Val Asp Glu Leu Met Phe Ser Ala
930 935 940
Val Arg Thr Leu Arg Leu Ala Leu Lys Tyr His Gly Asp Arg Ala Arg
945 950 955 960
Ile Ala Phe Ala Leu Thr Ala Asp Tyr Lys Pro Met Pro Gly Asp Thr
965 970 975
Arg Tyr Tyr Phe Ser Glu Ala Lys Asp Arg Ser Ser Gly Ala Asp Ala
980 985 990
Ala Glu Arg Glu Ala Lys His Lys Asp Tyr Leu Leu Asp Met Leu Leu
995 1000 1005
Leu Trp His Asp Leu Ala Phe Ser Arg Lys Trp Arg Asp Glu Glu Ala
1010 1015 1020
Lys Glu Leu Trp Asn Leu His Ile Ala Ala Leu Pro Gly Tyr Gln Ala
1025 1030 1035 1040
Pro Ala Ala Pro Ile Gln Glu Glu Ala Gly Gln Gly Arg Lys Lys Ala
1045 1050 1055
Arg Glu Glu Ala Arg Ala Lys Met Thr Pro Ala Ala Glu Ala Leu Leu
1060 1065 1070
Ala Asp Gly Thr Leu Arg Glu Lys Leu His Gly Leu Trp Lys Glu Arg
1075 1080 1085
Trp Glu Lys Asp Asp Ala Gln Trp Lys Lys His Leu Arg Trp Met Lys
1090 1095 1100
Asp Gly Ile Leu Pro Arg Gly Gly Arg Ala Ala Thr Pro Ser Ile Arg
1105 1110 1115 1120
Tyr Val Gly Gly Leu Ser Leu Thr Arg Leu Ala Thr Leu Thr Glu Phe
1125 1130 1135
Arg Arg Lys Val Gln Val Gly Phe Tyr Thr Arg Leu Phe Pro Ser Gly
1140 1145 1150
Glu Lys Arg Glu Ile Lys Glu Ala Phe Gly Gln Thr Ala Leu Asp Ala
1155 1160 1165
Leu Glu Arg Leu Arg Glu Gln Arg Val Lys Gln Leu Ala Ser Arg Ile
1170 1175 1180
Ala Glu Ala Ala Leu Gly Ala Gly Arg Val Ser Arg Thr Ala Leu Lys
1185 1190 1195 1200
Gln Asp Pro Lys Arg Pro Glu Ala Arg Val Asp Ala Ala Cys His Ala
1205 1210 1215
Val Ile Ile Glu Asn Leu Glu His Tyr Arg Pro Glu Glu Thr Arg Thr
1220 1225 1230
Arg Arg Glu Asn Arg Gly Leu Met Asn Trp Ala Ser Ser Lys Val Lys
1235 1240 1245
Lys Tyr Leu Ser Glu Ala Cys Gln Leu His Gly Leu Phe Leu Arg Glu
1250 1255 1260
Val Pro Ala Gly Tyr Thr Ser Arg Gln Asp Ser Arg Thr Gly Ala Pro
1265 1270 1275 1280
Gly Met Arg Cys Gln Asp Val Thr Val Lys Thr Phe Leu Asn Ser Pro
1285 1290 1295
Phe Trp Gln Lys Gln Cys Val Gln Ala Gln Lys Asn Lys Ser Thr Ala
1300 1305 1310
Arg Asp Arg Phe Leu Cys Ala Leu Lys Glu Ala Val Ala Gln Gly Gly
1315 1320 1325
Met Glu Glu Glu Lys Lys Met Gly Pro Ile Arg Val Pro Val Pro Gly
1330 1335 1340
Gly Glu Val Phe Val Ser Ala Asp Ala Ala Ser Pro Ala Ala Lys Gly
1345 1350 1355 1360
Leu Gln Ala Asp Leu Asn Ala Ala Ala Asn Ile Gly Leu Arg Ala Leu
1365 1370 1375
Leu Asp Pro Asp Trp Pro Gly Lys Trp Trp Tyr Val Pro Cys Asp Arg
1380 1385 1390
Lys Thr Ala Tyr Pro Ala Lys Glu Lys Val Glu Gly Ser Ala Ala Val
1395 1400 1405
Asp Val Lys Gln Ala Leu Pro Phe Val Leu Pro Glu Glu Lys Glu Asn
1410 1415 1420
Lys Gly Lys Thr Lys Gly Gly Lys Lys Gly Lys Gly Glu Val Met Asn
1425 1430 1435 1440
Leu Trp Arg Asp Val Ser Ala Glu Pro Leu Met Thr Gly Gln Trp Leu
1445 1450 1455
Asp Tyr Thr Ala Tyr Arg Lys Glu Val Glu Asn Arg Val Ile Gln Val
1460 1465 1470
Leu Thr Ala Gln Leu Lys Ala Arg Asn Pro Leu Arg Phe Gly Asn Leu
1475 1480 1485
Gly Asp Glu Glu Glu Ile Pro Tyr
1490 1495
<210> 7
<211> 914
<212> PRT
<213> 人工序列(Artificial Sequence)
<400> 7
Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu Thr
1 5 10 15
Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala Val
20 25 30
Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala Ile
35 40 45
Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln
50 55 60
Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu Tyr
65 70 75 80
Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ser
85 90 95
Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ser Lys Arg Gly Ala
100 105 110
Ala Gly Ser Leu Met Asn Val Leu Asn Tyr Pro Gly Met Asn His Arg
115 120 125
Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu Leu
130 135 140
Cys Asp Phe Tyr Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys Lys
145 150 155 160
Ala Gln Ser Ser Ile Asn Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly
165 170 175
Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly
180 185 190
Gly Ser Ser Gly Gly Ser Ile Lys Pro Thr Val Ser Gln Phe Leu Thr
195 200 205
Pro Gly Phe Lys Leu Ile Arg Asn His Ser Arg Thr Ala Gly Leu Lys
210 215 220
Leu Lys Asn Glu Gly Glu Glu Ala Cys Lys Lys Phe Val Arg Glu Asn
225 230 235 240
Glu Ile Pro Lys Asp Glu Cys Pro Asn Phe Gln Gly Gly Pro Ala Ile
245 250 255
Ala Asn Ile Ile Ala Lys Ser Arg Glu Phe Thr Glu Trp Glu Ile Tyr
260 265 270
Gln Ser Ser Leu Ala Ile Gln Glu Val Ile Phe Thr Leu Pro Lys Asp
275 280 285
Lys Leu Pro Glu Pro Ile Leu Lys Glu Glu Trp Arg Ala Gln Trp Leu
290 295 300
Ser Glu His Gly Leu Asp Thr Val Pro Tyr Lys Glu Ala Ala Gly Leu
305 310 315 320
Asn Leu Ile Ile Lys Asn Ala Val Asn Thr Tyr Lys Gly Val Gln Val
325 330 335
Lys Val Asp Asn Lys Asn Lys Asn Asn Leu Ala Lys Ile Asn Arg Lys
340 345 350
Asn Glu Ile Ala Lys Leu Asn Gly Glu Gln Glu Ile Ser Phe Glu Glu
355 360 365
Ile Lys Ala Phe Asp Asp Lys Gly Tyr Leu Leu Gln Lys Pro Ser Pro
370 375 380
Asn Lys Ser Ile Tyr Cys Tyr Gln Ser Val Ser Pro Lys Pro Phe Ile
385 390 395 400
Thr Ser Lys Tyr His Asn Val Asn Leu Pro Glu Glu Tyr Ile Gly Tyr
405 410 415
Tyr Arg Lys Ser Asn Glu Pro Ile Val Ser Pro Tyr Gln Phe Asp Arg
420 425 430
Leu Arg Ile Pro Ile Gly Glu Pro Gly Tyr Val Pro Lys Trp Gln Tyr
435 440 445
Thr Phe Leu Ser Lys Lys Glu Asn Lys Arg Arg Lys Leu Ser Lys Arg
450 455 460
Ile Lys Asn Val Ser Pro Ile Leu Gly Ile Ile Cys Ile Lys Lys Asp
465 470 475 480
Trp Cys Val Phe Asp Met Arg Gly Leu Leu Arg Thr Asn His Trp Lys
485 490 495
Lys Tyr His Lys Pro Thr Asp Ser Ile Asn Asp Leu Phe Asp Tyr Phe
500 505 510
Thr Gly Asp Pro Val Ile Asp Thr Lys Ala Asn Val Val Arg Phe Arg
515 520 525
Tyr Lys Met Glu Asn Gly Ile Val Asn Tyr Lys Pro Val Arg Glu Lys
530 535 540
Lys Gly Lys Glu Leu Leu Glu Asn Ile Cys Asp Gln Asn Gly Ser Cys
545 550 555 560
Lys Leu Ala Thr Val Asp Val Gly Gln Asn Asn Pro Val Ala Ile Gly
565 570 575
Leu Phe Glu Leu Lys Lys Val Asn Gly Glu Leu Thr Lys Thr Leu Ile
580 585 590
Ser Arg His Pro Thr Pro Ile Asp Phe Cys Asn Lys Ile Thr Ala Tyr
595 600 605
Arg Glu Arg Tyr Asp Lys Leu Glu Ser Ser Ile Lys Leu Asp Ala Ile
610 615 620
Lys Gln Leu Thr Ser Glu Gln Lys Ile Glu Val Asp Asn Tyr Asn Asn
625 630 635 640
Asn Phe Thr Pro Gln Asn Thr Lys Gln Ile Val Cys Ser Lys Leu Asn
645 650 655
Ile Asn Pro Asn Asp Leu Pro Trp Asp Lys Met Ile Ser Gly Thr His
660 665 670
Phe Ile Ser Glu Lys Ala Gln Val Ser Asn Lys Ser Glu Ile Tyr Phe
675 680 685
Thr Ser Thr Ala Lys Gly Lys Thr Lys Asp Val Met Lys Ser Asp Tyr
690 695 700
Lys Trp Phe Gln Asp Tyr Lys Pro Lys Leu Ser Lys Glu Val Arg Asp
705 710 715 720
Ala Leu Ser Asp Ile Glu Trp Arg Leu Arg Arg Glu Ser Leu Glu Phe
725 730 735
Asn Lys Leu Ser Lys Ser Arg Glu Gln Asp Ala Arg Gln Leu Ala Asn
740 745 750
Trp Ile Ser Ser Met Cys Asp Val Ile Gly Ile Ala Asn Leu Val Lys
755 760 765
Lys Asn Asn Phe Phe Gly Gly Ser Gly Lys Arg Glu Pro Gly Trp Asp
770 775 780
Asn Phe Tyr Lys Pro Lys Lys Glu Asn Arg Trp Trp Ile Asn Ala Ile
785 790 795 800
His Lys Ala Leu Thr Glu Leu Ser Gln Asn Lys Gly Lys Arg Val Ile
805 810 815
Leu Leu Pro Ala Met Arg Thr Ser Ile Thr Cys Pro Lys Cys Lys Tyr
820 825 830
Cys Asp Ser Lys Asn Arg Asn Gly Glu Lys Phe Asn Cys Leu Lys Cys
835 840 845
Gly Ile Glu Leu Asn Ala Asp Ile Asp Val Ala Thr Glu Asn Leu Ala
850 855 860
Thr Val Ala Ile Thr Ala Gln Ser Met Pro Lys Pro Thr Cys Glu Arg
865 870 875 880
Ser Gly Asp Ala Lys Lys Pro Val Arg Ala Arg Lys Ala Lys Ala Pro
885 890 895
Glu Phe His Asp Lys Leu Ala Pro Ser Tyr Thr Val Val Leu Arg Glu
900 905 910
Ala Val
<210> 8
<211> 2151
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 8
atgatcaagc caaccgtctc ccagttcctg acacctggct ttaagctgat cagaaaccac 60
agcaggacag ccggcctgaa gctgaagaat gagggagaag aagcttgtaa aaaattcgtg 120
cgggagaacg agatccctaa agacgagtgc cccaacttcc agggcggccc tgccatcgct 180
aacatcatcg ccaagagcag agaatttacc gagtgggaga tctaccagtc tagcctggct 240
attcaggagg tgatcttcac cctgcctaaa gataagctgc ctgaacctat cctgaaggaa 300
gaatggagag cccaatggct gtctgagcac ggcctggaca ccgttcctta caaggaggcc 360
gccggactca acctgatcat caagaacgcc gtgaatacct acaagggcgt gcaggtgaag 420
gtggacaaca agaacaagaa caacctggcc aagatcaata gaaagaatga gatcgccaag 480
ctgaacggag agcaggagat cagcttcgag gaaatcaagg cctttgacga caagggatac 540
ctgctgcaga agcccagccc taacaagtcc atctattgct accaatctgt gtccccaaag 600
cccttcatca ccagcaaata ccacaacgtg aacctgccag aggagtacat cggctactac 660
agaaagtcta atgaacccat cgtgtctccc taccagttcg atagactgcg gatccccatc 720
ggcgagcctg gatatgtgcc taagtggcag tacaccttcc tgtctaagaa ggaaaacaaa 780
cggagaaagc tttctaaaag gatcaagaat gtaagcccca tcctgggcat catttgtatc 840
aaaaaggact ggtgcgtgtt cgacatgcgg ggactgctga gaaccaacca ttggaagaag 900
taccacaagc ctacagatag catcaatgat ctgttcgact attttacagg cgaccccgtg 960
atcgacacaa aggccaatgt ggtcagattc cggtacaaga tggaaaatgg catcgtgaat 1020
tacaaacccg tgcgcgaaaa aaagggcaaa gagctgctgg aaaacatttg cgatcaaaac 1080
ggtagctgca agctggctac agtcgatgtg ggccagaaca accccgtggc catcggcctc 1140
ttcgagctga agaaggtgaa cggcgagctg accaagacac tgatcagcag acacccaacc 1200
cctatcgact tctgcaacaa gatcaccgcc taccgggaaa gatacgacaa gctggaaagc 1260
tctattaagc tggacgccat caagcagctg accagcgagc agaaaatcga ggtggacaac 1320
tacaacaaca acttcacccc tcagaacacc aagcagatcg tgtgcagcaa gctgaacatc 1380
aaccccaacg acctgccttg ggacaagatg atcagcggca cacacttcat ctctgaaaag 1440
gcacaggtga gcaacaagtc tgagatctac ttcacctcca ccgacaaggg caagacaaag 1500
gacgtgatga agagcgacta caagtggttt caagactaca agcctaagct gtctaaggaa 1560
gtgcgagacg ccctgtcaga tatcgagtgg cggctgagaa gagagagcct ggaattcaac 1620
aaactgagca aaagcagaga gcaggacgcc agacagctgg ccaactggat cagcagcatg 1680
tgcgatgtga tcggcatcga gaacctggtg aaaaagaaca acttcttcgg cggcagcggc 1740
aaacgggaac ctggctggga taatttctac aagcctaaga aggaaaaccg gtggtggatc 1800
aacgccatcc acaaggctct gactgaactg tcccagaaca agggcaagag agtgatctta 1860
ctgcctgcta tgcggaccag catcacctgt cctaagtgta aatactgtga tagcaagaac 1920
agaaacggcg agaagttcaa ctgcctgaag tgcggcatcg agctgaacgc cgacattgat 1980
gttgctacag agaatctggc caccgtggcc attaccgcgc agtccatgcc taagcccacc 2040
tgcgagagaa gcggcgatgc caagaaaccg gtccgcgcca gaaaggccaa agcccctgag 2100
tttcacgaca agctcgctcc tagctacaca gtcgtgctga gagaggccgt g 2221
<210> 9
<211> 3783
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 9
atgctgttcc aggagttcac ccacctgtac cctctgtcaa agaccgtgcg cttcgagctg 60
aaaccaatcg gcaagacact ggagcacatc catgccaaaa acttcctgag tcaggacgaa 120
acaatggccg acatgtacca gaaggtgaag gccatgctgg acgactacca ccgggacttt 180
atcgcagata tgatgggaga agtgaagctg acgaagcttg ctgaattcta cgacgtgtac 240
ctgaaattca gaaaaaaccc taaagacgac ggacttcaga aacagctgaa ggatctgcag 300
gccgtgctgc ggaaagaaat agttaagccc ataggcaatg gcggaaagta caaggccggc 360
tacgacagac tgtttggcgc taagctgttt aaggatggta agaaactggg cgatctggcc 420
aagttcgtga tcgcccagga gggcgatagc agccctaagc tggcccacct cgcccatttc 480
gagaagttca gcacatactt caccggcttt cacgacaaca gaaagaacat gtactctgac 540
gaggacaagc acaccagcat cgcttacaga ctgatccacg agaacctgcc tcggttcatc 600
gacaatttac agatcctgac caccatcaag caaaagcaca gcgccctgta tgatcaaatt 660
atcaacgagc tgacagccag cggcctggat gtcagcctgg ctagccatct ggatggctac 720
cacaagctgc tgacacaaga gggcatcacc gcctacaaca cactgctggg cggcatcagc 780
ggcgaggccg gatccagaaa gatcaagggc atcaacgagc tgatcaacag ccaccacaac 840
cagcactgcc acaagagcga aagaatcgcc aagctgcggc ctctgcacaa gcagatcctt 900
agcgacggca tgggcgtctc cttcctgcct agcaagttcg ccgacgactc agaggtgtgc 960
caggccgtga acgagttcta ccgacattat gccgacgtgt tcgccaaggt gcagagcctg 1020
ttcgacggct tcgatgatta ccaaaaggac ggcatctacg tggagcacaa gaatctgaat 1080
gagctgagca agcaggcttt tggcgacttc gctttgctgg gcagagtgct ggacggctat 1140
tacgtggatg tggtgtctcc tgaatttaat gaaagattcg ccaaggccaa gaccgacaac 1200
gctaaggaga agctgacaaa agagaaggac aagttcatca agggagtgca cagcctggcc 1260
tctctggaac aggcaatcga gcattacacc gccagacacg atgacgagtc tgtgcaggcc 1320
ggcaagctgg gccagtactt caagcacggc ctggccggcg tggataaccc catccagaag 1380
atccacaata accacagcac catcaagggc ttcctggaaa gagagcggcc cgccggagag 1440
agagccctgc ctaagatcca gctcggcaag aatccagaaa tcagacagct gaaggaactg 1500
ctggacaaca ccctgaacgt ggtgcacttt gcaaagctgc tgaccaccaa aaccacactg 1560
gacaaccagg acggcaactt ctacggcgaa ttcggcgccc tgtacgacga actggccaaa 1620
atccctaccc tgtacaataa ggtccgggat tacctgtcac agaagccctt ctctacagag 1680
aaatacaagc tgaactttgg caaccccact cttctgaatg gatgggacct taataaagag 1740
aaagataact tcggcgtgat cctgcagaag gatggctgct actacctggc tctgctggat 1800
aaggctcaca aaaaggtttt cgacaatgcc cctaataccg gaaaaaacat ctaccagaag 1860
atgatctaca agctgctgcc cggcccaaac aagatgctgc ctaaagtgtt ctttgccaag 1920
tctaatctgg actactacaa cccttctgcc gagttactgg acaaatacgc caagggcaca 1980
cataagaagg gcgacaactt caacctcaag gactgccacg ccctgatcga tttcttcaag 2040
gccggtatca acaagcaccc tgagtggcag cacttcggat ttaagttcag ccctaccagc 2100
tcctaccaag acctgagcga tttctacaga gaagttgaac ctcagggtta tcaggtgaaa 2160
tttgtggaca ttaacgccga ctacatagac gaactggtgg aacagggcca gctgtacctg 2220
ttccagatct acaacaagga tttcagccct aaggcccacg gcaaacctaa cctgcacaca 2280
ctgtatttca aagccctgtt ctctgaggat aacctagctg atcctatcta caagctgaac 2340
ggcgaagctc aaatcttcta cagaaaggct agcctggaca tgaacgaaac caccatccac 2400
cgggccggcg aagtgctgga gaacaagaac cccgacaacc caaagaagcg ccagttcgtg 2460
tacgacatca tcaaagacaa aagatataca caggataagt ttatgctgca tgtgcctatt 2520
accatgaact ttggcgtgca gggcatgacc atcaaggagt tcaataagaa ggtgaatgag 2580
agcatccagc agtacgacga agtgaacgtg atcggcatcg atagaggcga gcggcacctg 2640
ctctacctga ccgtgatcaa ctctaaggga gagatcctgg aacaacggag cctgaacgac 2700
atcatcacca caagcgctaa tggcacccag atgacaaccc actaccacaa aatcctggac 2760
aagcgggaaa tcgagagact gaacgccaga gtgggctggg gcgagatcga gacaatcaag 2820
gaactgaaga gcggttatct gagccacgtg gtgcaccaga tcagccagct gatgttgaag 2880
tacaacgcca tcgtggtgct ggaagatctg aacttcggat tcaagcgggg cagattcaaa 2940
gtggagaaac agatctacca gaactttgag aatgccctga tcaaaaagct gaaccacctg 3000
gtactgaagg acaaggctga tgacgagatc ggcagctata agaacgcgct gcaactgacg 3060
aacaatttta ccgacctgaa gagcatcggc aagcaaaccg ggtttctgtt ctatgttccc 3120
gcctggaaca cctccaagat cgaccccgag acaggcttcg tggatctgct gaagccgcgg 3180
tacgagaaca tcgcccagtc tcaagccttc ttcggaaagt tcgacaagat ctgttacaat 3240
gccgacaagg gctacttcga gttccacatc gactatgcca aatttaccga taaggccaaa 3300
aacagccggc agaagtggac catttgtagc cacggagaca agagatacgt ctacgacaaa 3360
accgccaaca agaacaaggg caccacaaaa ggcatcaacg tgaacgacga actgaaaagc 3420
ctgttcgcca gacaccacat taacgagaaa cagcctaacc tggtgatgga catctgccag 3480
aacaacgaca aggaattcca caagtccctg atgtacctgc tcaagacgct ccttgctctg 3540
aggtacagca acgctagcag cgacgaggac ttcattctga gccctgtggc caacgacgaa 3600
ggcgtgttct tcaattctgc cctggccgac gacacccagc cccagaacgc agatgccaat 3660
ggcgcctacc acatcgctct gaagggcctg tggctgttaa atgagctgaa agattcggat 3720
gatctgaaca aagtgaagct ggccatcgac aaccagacct ggctgaactt cgcccagaat 3780
aga 3909
<210> 10
<211> 3792
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 10
atgctgtttc aggagttcac ccacctctat cctctgagca agacagtgcg gttcgagctg 60
aagcctattg gaaagaccct ggagcacatc cacgccaagg acttcctgtc gcaggacgag 120
acaatggccg atatgtacca aaaagtgaag gctatcctgg acgactacca ccgggacttc 180
atcgccgaca tgatgagcgg cgtggtgctc accaaactgg ccgaattcta cgaggtgtac 240
ctggccctga gaaagacccc taaggacgac agcctgcaga agcagctgac cgagatccag 300
acagctctca gaaaggaaat cgtgaagcct atcggcagcg gcggaaagta taaggccggc 360
tacgatagac tgtttggcgc caagctgttc aaagacggca aggaactggg cgacctcgcc 420
aagttcgtga tcacacaaga aggcgagtcc agccctaagc tggcccacat cgcacatttc 480
gagaagttca gcacctactt caccggtttc cacgacaata gaaagaatat gtatagcgat 540
gaggacaaac ataccgccat cgcatacaga ctgatccacg agaacctgcc ccggtttatc 600
gacaacctgc agatcctggc caccatcaaa cagaaacatt ctgccctgta tgatcagatc 660
gtgaacgaac tgaacgccaa cggcctggat gtcagcctgg ccagccacct ggacggctac 720
cacaaactgc tgacacagga gggcatcacc gcctacaaca ccctgctggg cggcatcagt 780
ggcgaggccg gcagccggaa gatccaggga ataaacgaac tgatcaacat ccaccacaac 840
cagcactgtc agaagtctga gcggatcgcc aagctgcggc ctctgcataa gcagatcctg 900
agcgatggca tgggcgtgtc cttcttgcct agcaagttcg ccgacgattc cgaggtgtgc 960
caggccgtga acgagttcta caggcactac gctcacgtgt tcgccaaggt gcaatctctg 1020
ttcgacagat tcgatgatta tcggaaggat ggcatctacg tggaacacaa aaacctgaat 1080
gagctgagca agcaagcttt cggcgatttc gccctactgg gaagagtgct ggatggctac 1140
tacgtggacg tggtgaatcc agagttcaat gaaagattcg cgaaggcaaa aaccgacaac 1200
gccaaagaga agctgactaa ggagaaggac aagtttatca agggcgtgca ctctctggct 1260
agcttggaac aggctatcga gcactacatc gccggccacg atgatgaaag cgtgcaggcc 1320
gggaagctgg gacaatactt caagcacggc ctggctggcg tggataatcc cattcagaag 1380
atccacaact cccacagcac gatcaagggc ttcctggaga gagaaagacc tgctggagaa 1440
agagccctgc ctaagatcaa gtctgacaag tccccagaga tgacccagct gagacagctg 1500
aaggaactgc tggacaatgc cctgaatgtg gtgcacttcg ccaagctgtt gaccaccaag 1560
accacactgg acaaccagga cggcaacttc tacggcgagt ttggcgccct gtacgacgag 1620
ctggctaaga tcgctacact gtacaacaaa gtcagagatt acctctctca gaagccgttc 1680
agcaccgaga agtacaagct gaacttcggc aatcctaccc tactgaatgg ctgggacctg 1740
aacaaggaga aggacaactt cggcgtgatc ctgcaaaaag acggatgtta ctatctggcc 1800
ctgctggaca aggcccacaa gaaagtgttc gacaacgctc ctaacgccgg caagtccgtg 1860
taccaaaaga tggtgtacaa gcttctgcca ggccctaaca agatgctgcc caaggtgttt 1920
tttgccaaga gcaacctgga ttactacaac cccagcgccg agctgctcga caaatacgcc 1980
cagggaaccc acaagaaggg aaacaacttc aacctgaagg actgccacgc cctgatcgat 2040
ttcttcaaag cctccatcaa caagcaccct gagtggcagc atttcggctt tgagtttagc 2100
cctacctctt cttaccaaga tctgtctgat ttctacagag aagtggaacc tcagggctac 2160
caggtgaagt tcgtggacat caacgccgag tacatcgacg agctggtgga acagggccag 2220
ctgtacctct tccagattta taacaaagat ttcagtccta aggcccatgg caagcccaat 2280
ctgcacacct tatatttcaa ggccctgttc tctgagaaca accttgctaa tcctatctac 2340
aagctaaatg gcgaagcgga gattttctac cggaaggcca gcctggacat gaacgagaca 2400
actatccaca gagccggaga ggtgctggag aacaagaacc cagacaaccc caagaagaga 2460
cagttcgtgt acgacatcat caaggataaa agatacaccc aggacaagtt catgctgcac 2520
gtgcctatca ccatgaactt cggagtgcag ggcatgacca tcaaggaatt caacaaaaag 2580
gtgaaccagt ctatccagca gtacaacgac gtgaatgtga tcggcatcga cagaggcgaa 2640
cggcacctgc tgtacttaac agtgatcaac agcaagggcg agatcctgga acagagaagc 2700
ctgaacgata tcatcacaac atccgccaat ggcacccaga tgacaacacc ttaccacaag 2760
atcctggata agcgggaaat cgagcggctg aacgccagag tgggctgggg cgaaattgag 2820
acaatcaaag agctgaagag cggatacctg agccacgtgg tgcaccagat cagccagctg 2880
atgctgaagt acaacgccat agtggtcctg gaggacctga acttcggatt taaacggggc 2940
agattcaaag tggaaaagca gatctaccag aacttcgaga acgccctgat caagaagctg 3000
aaccacctgg ccctcaaaga taaggctgat gatgaaatcg gaagctacaa gaacgctctg 3060
cagctgacca acaacttcac agacctgaag tccatcggca aacagaccgg atttctgttc 3120
tacgtgcctg cctggaacac cagcaagatc gaccccgcta caggcttcgt ggacctgcta 3180
aagcctagat acgagaacat cgcccagtct caggccttct tcggcaaatt tgacaaaatc 3240
ttttacaacg ccgacaaggg atactttgaa ttctacgtgg attacgccaa attcaccgac 3300
aaggccaaga acagcagaca gacatgggtg atctgcagcc acggcgacaa gcgctacgtt 3360
tatgacaaga ccgccaacca gaacaaaggc gccacaatcg gcatcaacgt caacgacgaa 3420
ctgaagagcc tgttcgccag atatcacatc aacgacaagc aacctaacct tgttatggac 3480
atctgccaga ataacgacaa ggagttccac aaaagcctca tgtacctgct gaaggccctg 3540
ctggccctga gatacagcaa cgccagcagc gacgaagatt tcatcctgag ccccgtggcc 3600
gacgacaagg gagttttctt taactccgcc ctggccgacg atacccaacc tcagaacgcc 3660
gatgccaacg gtgcttacca tatcgccctt aagggcctgt ggctgctgaa tgagctgaaa 3720
aacagcaatg accttgacaa aatcaaattg gctatcgaca atcagacctg gctgaacttt 3780
gcccagaacc gg 3918
<210> 11
<211> 3783
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 11
atgctgttcc aggatttcac ccacctgtac cctctgagca agaccgtgag atttgagtta 60
aagcctatcg gaaagacgct ggaacacatc cacgccaaga atttcctgaa ccaggacgaa 120
accatggccg acatgtacca gaaggttaag gccatcctcg acgactacca tagagatttc 180
atcgccgata tgatgggcga ggtgaagctg accaagctgg ctgaattcta cgacgtgtac 240
ctgaagttca gaaagaaccc caaggacgac accctgcaga agcagctgaa agatctgcag 300
gccgtgctgc ggaaagagat cgtgaagcca atcggcaacg gcggcaagta caaggccggc 360
tacgacagac tgtttggcgc caagctgttt aaggacggca aggagctggg cgacctggcc 420
aagttcgtta tcgcccagga gtctgaaagc agccctaagc tagctcacct ggcccacttc 480
gaaaagttta gcacctactt taccggcttc cacgacaaca gaaaaaacat gtattctgac 540
gaggacaagc acaccgccat cgcctacagg ctgattcacg agaatctgcc tagattcatc 600
gacaacctgc agatcctggc cacaatcaaa cagaaacact ctgccctgta cgaccagatc 660
atcaacgagc tgacagcttc aggcctggac gtgtccctgg ccagccacct ggacggatac 720
cacaacctgc tgacacagga gggcatcacc gcctacaaca ccctgctggg cggaatcagc 780
ggcgaggccg gcagccgcaa aatccagggc atcaacgagc tgatcaacag ccaccacaac 840
caacactgcc acaagtctga gcggatcgcc aagctgcggc ctctgcataa gcagattctg 900
agcgatggaa tgggcgtgtc cttcctgcct tctaagtttg ccgacgacag cgagatgtgc 960
caagccgtga atgaatttta tagacattac gccgatgtgt tcgccaaggt ccaaagcctg 1020
ttcgatggtt ttgatgacca ccagaaggac ggcatctacg tggaacacaa aaatctgaac 1080
gaactcagca agcaggcctt cggcgatttc gccctgctgg gcagagtgct ggacggatat 1140
tacgtggacg tggtcaaccc cgaattcaat gataaatttg ccaaggccaa gaccgataac 1200
gctaaggcta agctgactaa ggagaaagac aagtttatca agggcgtgca cagcctggcc 1260
tctctggaac aagccatcga gcactacacc gctcggcacg atgacgagtc cgtgcaggcc 1320
ggcaagttag gccagtactt caagcatggc cttgctggcg tggataaccc aatccagaag 1380
atccacaaca atcacagcac aatcaaggga ttcctggagc gcgaaagacc cgccggagag 1440
cgggccctgc ccaagatcaa gagcgacaag agcctgaaaa tcagacagct gaaggaactc 1500
ctggataacg ctctgaatgt ggtgcacttc acaaagctgc tgacaaccaa gaccaccctt 1560
gacaaccagg atggaaactt ttacggcgag ttcggcgtgc tatacgatga gctggctaag 1620
acacctaccc tgtacaacaa agtgagagac tatctgagcc agaaaccatt ctctacagag 1680
aagtacaaac tgaacttcgg caacccaacc ctgctcaacg gctgggacct gaacaaggag 1740
aaggataact tcggcgtgat tctgcaaaag gacggctgct actacctggc cctgctggac 1800
aaggcccaca aaaaggtgtt cgacaacgcc cctaatactg gaaagaacgt ctaccaaaag 1860
atgatctaca agctgctgcc tggtcctaac aaaatgctgc ccaaggtgtt tttcgctaag 1920
agcaacctgg actactacaa cccaagcgca gaactgctgg ataagtacgc ccaaggaaca 1980
cacaagaagg gcgacaactt taacctgaag gactgccacg ccctgatcga cttcttcaag 2040
gccggaatca ataaacaccc tgagtggcag cacttcggct tcaagttcag cccaacatcc 2100
agctaccaag acctgagcga tttctacaga gaggtggaac cccagggcta ccaggtgaaa 2160
ttcgtagata ttaacgccga ctatatcgac gagctcgtcg agcagggcca gctgtacctg 2220
tttcagatct ataacaaaga cttctctcct aaggcccatg gcaaacctaa cctgcacacc 2280
ctgtacttca aggccctgtt cagcgaggat aacctggcca accctatcta caagctgaat 2340
ggcgaagccc agatcttcta ccggaaggct tccctcgaca tgaacgaaac aaccatccac 2400
tgcgccggcg aggtgctgga aaacaagaat cctgataacc ctaagaagcg gcagttcgtg 2460
tacgacatca tcaaggacaa gagatacaca caggacaagt tcatgctgca cgtgcccatc 2520
acaatgaact tcggcgtgca aggtatgaca attaaggagt tcaacaagaa agtgaaccag 2580
agcatccaac agtacgacga ggtgaacgtg atcgggatcg acaggggcga acggcacctc 2640
ctgtacctga ccgtgatcaa ctccaaagga gagatcctgg aacagagaag cctgaatgac 2700
atcaccaccg cttctgtgaa cggcacacag atgaccaccc cctaccacaa gatcctggac 2760
aagagagaaa tcgagcggct gaacgccaga gtgggctggg gcgagatcga aaccattaag 2820
gagctgaagt ccggctacct gagccacgtg gtgcaccaga tctctcagct gatgctgaaa 2880
tacaacgcca tcgtggtgct cgaggatctg aacttcggct tcaagcgtgg aagattcaag 2940
gtggaaaagc agatctatca gaatttcgag aacgccctga tcaaaaagct gaaccacctg 3000
gtgctgaagg acaaagccga tgacgagatc ggatcttaca aaaacgccct gcagctgacg 3060
aacaacttca ccgacctgaa gagcatcggc aaacagacag gcttcctgtt ctacgtgcct 3120
gcctggaaca caagcaaaat cgaccccgaa acaggcttcg tggacctgct gaaacctcgg 3180
tacgagaata tcgctcagag ccaggctttt ttcggcaaat tcgacaaaat ctgttacaac 3240
gcagatggcg gctatttcga gtttcacatc gattatgcca agttcaccga taaggccaaa 3300
aacagcagac agatctggaa gatctgcagc cacggcgaca agagatacgt ttacgataag 3360
accgccaacc agaacaaggg cgccaccata ggcatcaatg tcaatgacga actgaagagc 3420
ctgttcacca gataccacat aaacgacaag cagcctaacc ttgtgatgga catttgtcag 3480
aacaacgaca aggagttcca caaatctcta atctacctgc taaagaccct gctggcccta 3540
agatacagca acgcgaactc tgacgaggac ttcatcctca gccccgtggc cgacgatcag 3600
ggcgtgttct tcaacagcgc tctcgtggac gatacccagc ctcagaacgc cgacgccaac 3660
ggcgcttacc acatagctct gaagggcctg tggctgctga acgaactgaa gaactccgat 3720
gacctgaaca aagtgaagct ggctatcgac aatcagacct ggctgaactt cgcccagaac 3780
cgg 3909
<210> 12
<211> 3915
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 12
atgaacaagg ccgccgataa ctacaccgga ggcaactacg atgagttcat tgctctgagc 60
aaggtgcaga aaacactgag aaacgagctg aagcctaccc ctttcaccgc cgaacacatc 120
aagcagcggg gaatcatcag cgaggatgaa taccgggccc agcagtctct tgaactgaag 180
aagatcgctg atgagtacta cagaaactac atcacccaca agctgaacgg catcaacaac 240
ctggacttct acaacctgtt cgacgcgatc gaagagaaat acaagaaaaa tgataaggac 300
aacagagaca agctggacct ggtggagaaa tccaagagag gcgagattgc caagctgctc 360
agcgccgacg acaattttaa gtccatgttc gaggccaagc tgatcacaaa gctgctgcct 420
gattacgtgg agcaaaacta catcgacgaa gataaggaaa aggctctgga gacaattgcc 480
ctgttcaaag gcttcaccac ctactttaca gattatttca acatcagaaa aaacatgttc 540
aaagagaatg gcggagcttc cagcatctgc taccggatcg tgaacgtgaa cgccagtatc 600
ttctacgaca acctgaaaac cttcatgtgc attaaggaga aagctgaaac tgaaatcgcc 660
ctgatcgagg aggaactgac cgagctgctg gacagctggc ggctggagca cattttcagc 720
gaggattact acaatgaact cctggctcag aagggaatcg attactacaa ccagatctgt 780
ggcgacgtga acaagcacat gaatctctac tgtcagcaga acaaactgaa agctaacgtg 840
ttcaagatga ccaagctgca aaagcagatc atgggcatct ctgaaaaagc ctttgagatc 900
ccccccatgt accagaacga cgaggaggtg tacgcctctt tcaacgagtt catcagcaga 960
ctggaggaag tgaagttgac cgaccggctg cggaacatac tgcagaatat caacatctac 1020
aacaccgcca agatctacat caatgccaga tactacacta acgtgtccac ctatgtgtat 1080
ggcggctggg gcgtgatcga gagcgctatc gaaagatacc tgtgcaacac aatcgccgga 1140
aagggccaaa gcaaggttaa gaagatcgag aatgccaaga aagacaacaa gtttatgagc 1200
gtgaaagagc tggacagcat cgtggccgaa tacgagcctg actatttcaa cgccccttac 1260
atcgacgacg acgataacgc cgtgaaggcc ttcggcggcc agggcgtgct gggctacttc 1320
aacaagatga gcgagctgct ggccgatgtg tccctgtaca ccatcgatta caacagcgat 1380
gacagcctta tcgagaataa ggagtctgcc ctgagaatca agaagcagct ggatgatatc 1440
atgagccttt atcactggct gcagactttc atcatcgacg aggtggtgga aaaagacaat 1500
gccttctacg ctgaactgga ggacatctgc tgtgaacttg aaaatgtggt caccctgtat 1560
gatagaatca gaaattacgt gacaaagaaa ccttacagca cacagaagtt caagctgaat 1620
ttcgccagtc ccaccctggc cgctggatgg tccagaagca aggaattcga caacaacgcc 1680
attatcctgc tgcggaacaa caaatactac atcgccatct tcaatgtgaa caacaagccc 1740
gataagcaga tcattaaggg ctctgaagaa caaagactgt ctaccgacta taaaaagatg 1800
gtgtacaact tgctgcctgg gcctaacaaa atgctgccta aggtctttat caaaagcgac 1860
accggcaagc gggattataa cccatctagc tacatcctgg aaggctacga aaagaaccgg 1920
cacatcaaaa gcagcggcaa ctttgacatc aactattgcc acgatctgat cgactactac 1980
aaggcctgca tcaataagca ccccgagtgg aagaactacg gcttcaagtt cgaagaaaca 2040
acacagtaca acgacatagg ccagttctac aaggacgtgg aaaagcaggg ctatagcatc 2100
agttgggtgt acatcagcga ggccgacatc aacagactcg atgaggaggg caagatctac 2160
ctctttgaga tctacaacaa ggaccttagt tctcacagca ccgggaaaga taacctgcat 2220
accatgtacc tgaagaatat ctttagcgag gacaatctga agaatatctg tatcgagctg 2280
aacggcaacg ccgaactgtt ctaccggaag tctagcatga agcggaacat cacccataag 2340
aaggacaccg tgctggtgaa caagacatac atcaatgaag ccggcgttag agtgagcctg 2400
accgacgagg actacatcaa ggtgtacaat tactacaaca atgactacgt gatcgacgtg 2460
gagaaggaca agaagctggt cgaaatcctg gaacgtatcg gccacagaaa gaaccctatc 2520
gacatcatca aggacaagag atatacagag gacaagtact tcctgcacct gcctatcaca 2580
atcaactacg gagtcgacga tgagaacatc aacgctaaaa tgatcgagta catcgccaag 2640
cacaataaca tgaacgtcat aggtatcgat cgcggagagc ggaacctgat ctacatcagc 2700
gtgatcaaca ataaaggcaa catcatcgag cagaagagct tcaacctggt gaatagctac 2760
gactacaaga ataagctgaa gaacatggaa aagaccagag acaacgcaag aaagaactgg 2820
caggagatcg gaaagatcaa ggatgtgaag agcggatatc tgagcggagt gatctcaaag 2880
atcgccagaa tggtcattga ttacaacgcc atcatcgtga tggaggacct gaacaaaggc 2940
tttaagagag gcagattcaa ggtggaaagg caggtgtacc agaaattcga gaacatgctg 3000
atctccaaac tgaattacct ggttttcaag gagcggaagg ccgacgagaa tggcggaatc 3060
ctgcggggct accagctgac atatatacct aagagcatca agaacgtggg caagcagtgc 3120
ggctgcatct tttacgtgcc tgccgcttat acgtctaaga tcgaccccag caccggcttc 3180
atcaacatct tcgacttcaa gaagtacagc ggcagcggta tcaacgccaa ggtgaaggac 3240
aaaaaggagt tcctgatgtc tatgaactcc atcagataca tcaatgaggg cagcgaggaa 3300
tacgagaaaa tcggccaccg agaactgttc gccttcagct tcgattacaa caacttcaaa 3360
acctacaacg tgtctagccc cgtgaacgag tggaccgcct acacatatgg cgaaagaatc 3420
aagaagctgt acaaggacgg cagatggctg cggagcgagg tgctgaacct gaccgaaaac 3480
ctgatcaagc tgatggagca gtacaacatt gagtacaagg acggccacga catcagagag 3540
gacatcagcc acatggatga aacccgaaac gccgacttta tctgcagctt atttgaggag 3600
ctgaaataca cagtgcagct tagaaacagc aaaagcgaag ctgaggatga aaactacgat 3660
agactggtgt ctccaatcct gaacagctcc aacggcttct atgattcctc tgactacatg 3720
gaaaacgaga acaacaccac ccacacaatg cctaaggatg ccgacgccaa cggcgcctac 3780
tgcatcgccc tgaagggcct gtacgagatc aacaagatta agcagaactg gagcgacgac 3840
aagaaactga aagagagcga gctgtacatt ggagtaaccg aatggctgga ctatatccag 3900
aacagaagat tcgag 4045
<210> 13
<211> 4356
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 13
gattggctgc tgaccctgcg cggcggcatc gcgcacgagc tggctgacac acctgtgaag 60
ggcaagaaag atatcacaga cgaactgcgg aaaaagagaa gaatcttgct ggccctctcc 120
tggctgtctg tggaatcccg aaggggcgct cctgacaaat ttatcgtggc tggtggagag 180
gagcctgcag gaagcagaaa tgagaaagtg ctgcaggccc tgaaggagat cctgaagcgg 240
cgtgggctta gcgccgaaga gtctgagtcc tggatgtctg actgcagagc cagcctgagt 300
gccgcaatca gggacgacgc tgtgtgggtg aacagaagcg ctgccttcga cgacgcccaa 360
gtgcggatcg gcgcaagctt gacccgcgag gacatctggg acatgctgga ccccttcttc 420
ggctcgcggg aggcttatct aacacctgcc aagaagaaga aggaggatga ggacagcagc 480
gaaggcacag gggaggaaaa ggcgaaggac ctggtgcaga aggccggcca gtggctgtcg 540
tctagattcg gcaccggaaa gggtgccaat ttcgacgcca tggccgaggt gtacagcaag 600
attagcgagt gggctggcac agctcaggag ggcgtgtccg ggaaggaagg aatcaagaac 660
ctggccgacg ccctggccgc cttctcccct gtgagccaga acctagaggg cgtgctgaag 720
ctgatcagcg gccccggtta caaaagcgct acaagaaacc tgctgggcga gctggacagc 780
ctccccgtgg tgtcccggga ccacctgtct gcgctgcacg agaaggccgc cgaagatacc 840
gtgaagtgca aggaatctac cggcacaaag ggcagacggc cttatgccga tgccatcctt 900
aacgacgtgg aaaagaggtg cggatttacc tacctgacag atagcgacaa cagaagcgtg 960
agcatcctgg acaccagcga attcccttct gactacaagt ggggcaccgc ccggcacagc 1020
gagttcgccg taatcctgga ccacgccgca agaaggatct ctgtggcaca tagctggatc 1080
aaactggccg aggccgagag agacagatgc gaggaagatg ccgccaaagt ctacgacctg 1140
cctgacaagg tgaaggagtg gctggatacc ttctgcagca acaggtctga tatctcggga 1200
gcccagggcg aaggctaccg gataagaaga aaggccatcg agggctggaa agaggtggtg 1260
gccagttggg gccggagctc atgcatcacc gccgaggaca gagtcgccgc tgctagagcc 1320
ctgcaagatg accctgaaat cgataagttc ggcgatatcc agcttttcga gatcctggct 1380
caggacgagg ccctgtgcgt gtggcataag gatggcgatg tggccaaaag ccctgatgcc 1440
cagatgctga ttgactacgt gctggccagc gacgcggaga gcaaaaaacg gagatttaag 1500
gtgcccgcct atcgtcaccc cgatgccctg ctgcacccaa tcttctgcga cttcggcaat 1560
agcagatggg atatcaccta cgacatccac ggcgcccggg gaaaaaagaa agccaaaaga 1620
ggatccaaga aagaggaagc catgcccaga ggtgttgcca tgaagctgtg gaccggcagc 1680
gacgtgctct cagttagcct gcggtggcaa agcaagaagt tagccgccga cctggccctg 1740
gatcaggagg ccgaagaagt gaccgacaca gccgccgtgt ctagagccga ccgactgggc 1800
cgggccgccg ccggaatcga cagaggcgcc ggcgtgacca tcgccggcct gttcgaggag 1860
gcccactgga acggcagact gcaggctccc agacagcagc tggaagcaat cgccgccgtg 1920
agagacaacc agaagctgtc ctccgaggaa agagaacgtc gcattgcctt tatgaaggat 1980
agaatcagat ggctggtgac attctctgcc aaactacggc ctcagggccc ttggcacagc 2040
tacgccccta cccaggggct gcagagcgat ccgaagtact ggccccacag cgagatcaac 2100
aagaaacgga agggacaggc caaactgatc ctgagccgtc tcccaggcct gagaatcctg 2160
tctgtggatc tgggccacag attcgccgcc gcctgcgccg tgtgggaaac catgagctct 2220
gaggccattc aggaggcctg tagactggct aatcaccagc tgccagctcc tgccgatctg 2280
tacctccatc tcaagagaac cgtgcagaaa aacctgatcg acggcgaaaa gaccgtggaa 2340
gaaagcacag tctacagaag aatcggagcc gatagactgc ccgacggcac agcacatcct 2400
gccccatggg ccagactgga ccgtcagttc ctgatcaagc tgcagggcga ggaaaaggtg 2460
cgggaagcgt ccaacgagga ggtgtggcag gtgcacctga tggaaagcgc tctggggctg 2520
tcattccctc tgatcgacag actggtctac gccggctggg gcggtacaga gaagcaggcg 2580
gcaagactcg aagccctccg cgagaaaggc tggaagccca ccggcacccc cgccgaccag 2640
gacgaggaag gcggcgggta caagccttct ctggcagtgg acgaactgat gttctctgcc 2700
gttcggaccc tgcggttggc tctgaagtac cacggcgacc gggccaggat cgccttcgct 2760
ctgaccgccg actacaagcc tatgcccggc gacacccggt actacttctc tgaagcaaag 2820
gacagaagca gcggagccga cgccgctgag agagaggcca agcacaagga ctacctgctg 2880
gacatgctgc tgctgtggca cgacctggcc ttcagtagaa agtggagaga cgaagaagct 2940
aaggaactgt ggaacctcca catcgcagcc ctgcctggct accaggcccc tgccgctccc 3000
atccaggagg aggcaggcca gggcagaaag aaggcccggg aggaagctag agctaagatg 3060
acccctgctg cggaggccct gctggcagac ggtaccctga gagagaagct gcacggcctg 3120
tggaaggaga gatgggagaa agacgatgcc cagtggaaga agcacctgag atggatgaag 3180
gatggtatcc tgccaagagg aggtagagcc gccacaccca gcatcagata cgtgggcggc 3240
ctgagcctga cgcggctggc aaccctgacc gagtttcggc ggaaggtgca ggtcggcttc 3300
tacacacggc tcttccctag cggcgagaaa cgggaaatca aggaggcctt cggccagacc 3360
gccctggacg ccctcgagag attacgggag cagagagtga aacagctggc cagcagaatc 3420
gccgaggccg cactgggcgc cggccgagtg tctagaacag ccctgaagca agaccctaag 3480
cggcccgaag cccgggtgga cgctgcctgc cacgccgtga tcatcgaaaa cctggaacac 3540
tacagacccg aggagacaag aaccagaaga gaaaaccggg gcctgatgaa ctgggccagc 3600
agcaaggtga aaaagtacct gtccgaggcc tgtcagctgc acggcctgtt cctgagagag 3660
gtcccagccg gctacacgag cagacaagat agccgcaccg gcgcccctgg catgagatgt 3720
caggacgtga ccgtgaaaac cttcctgaac agccccttct ggcagaaaca atgtgtgcaa 3780
gctcagaaga ataagagcac cgctagagac cggtttctgt gcgccctgaa agaggccgtg 3840
gcccaaggag gcatggaaga ggagaagaag atgggcccta tcagagtgcc tgtgcctgga 3900
ggcgaggtct ttgtgagtgc tgacgccgcc tcccctgccg ccaagggcct gcaggccgac 3960
ctgaatgccg ccgctaacat cggcctgaga gccctgctcg atcctgattg gccaggcaag 4020
tggtggtacg tgccttgtga tagaaagacc gcctatcctg ccaaggaaaa ggtggaaggc 4080
agcgccgccg ttgacgtgaa gcaggccctg cctttcgtgc tgcccgagga aaaagagaac 4140
aagggaaaaa ccaagggcgg aaagaagggt aagggcgaag tgatgaacct gtggagagat 4200
gtgtccgccg agcctctgat gaccggccaa tggctggact acacagccta ccgaaaggag 4260
gtggaaaatc gggtgatcca ggtgctcact gcccagctga aggcaaggaa ccccctgcgg 4320
ttcggaaacc tgggcgacga ggaagagatt ccttac 4500
<210> 14
<211> 2742
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 14
tctgaggtgg agttttccca cgagtactgg atgagacatg ccctgaccct ggccaagagg 60
gcacgggatg agagggaggt gcctgtggga gccgtgctgg tgctgaacaa tagagtgatc 120
ggcgagggct ggaacagagc catcggcctg cacgacccaa cagcccatgc cgaaattatg 180
gccctgagac agggcggcct ggtcatgcag aactacagac tgattgacgc caccctgtac 240
gtgacattcg agccttgcgt gatgtgcgcc ggcgccatga tccactctag gatcggccgc 300
gtggtgtttg gcgtgaggaa ctcaaaaaga ggcgccgcag gctccctgat gaacgtgctg 360
aactaccccg gcatgaatca ccgcgtcgaa attaccgagg gaatcctggc agatgaatgt 420
gccgccctgc tgtgcgattt ctatcggatg cctagacagg tgttcaatgc tcagaagaag 480
gcccagagct ccatcaactc cggaggatct agcggaggct cctctggctc tgagacacct 540
ggcacaagcg agagcgcaac acctgaaagc agcgggggca gcagcggggg gtcaatcaag 600
ccaaccgtct cccagttcct gacacctggc tttaagctga tcagaaacca cagcaggaca 660
gccggcctga agctgaagaa tgagggagaa gaagcttgta aaaaattcgt gcgggagaac 720
gagatcccta aagacgagtg ccccaacttc cagggcggcc ctgccatcgc taacatcatc 780
gccaagagca gagaatttac cgagtgggag atctaccagt ctagcctggc tattcaggag 840
gtgatcttca ccctgcctaa agataagctg cctgaaccta tcctgaagga agaatggaga 900
gcccaatggc tgtctgagca cggcctggac accgttcctt acaaggaggc cgccggactc 960
aacctgatca tcaagaacgc cgtgaatacc tacaagggcg tgcaggtgaa ggtggacaac 1020
aagaacaaga acaacctggc caagatcaat agaaagaatg agatcgccaa gctgaacgga 1080
gagcaggaga tcagcttcga ggaaatcaag gcctttgacg acaagggata cctgctgcag 1140
aagcccagcc ctaacaagtc catctattgc taccaatctg tgtccccaaa gcccttcatc 1200
accagcaaat accacaacgt gaacctgcca gaggagtaca tcggctacta cagaaagtct 1260
aatgaaccca tcgtgtctcc ctaccagttc gatagactgc ggatccccat cggcgagcct 1320
ggatatgtgc ctaagtggca gtacaccttc ctgtctaaga aggaaaacaa acggagaaag 1380
ctttctaaaa ggatcaagaa tgtaagcccc atcctgggca tcatttgtat caaaaaggac 1440
tggtgcgtgt tcgacatgcg gggactgctg agaaccaacc attggaagaa gtaccacaag 1500
cctacagata gcatcaatga tctgttcgac tattttacag gcgaccccgt gatcgacaca 1560
aaggccaatg tggtcagatt ccggtacaag atggaaaatg gcatcgtgaa ttacaaaccc 1620
gtgcgcgaaa aaaagggcaa agagctgctg gaaaacattt gcgatcaaaa cggtagctgc 1680
aagctggcta cagtcgatgt gggccagaac aaccccgtgg ccatcggcct cttcgagctg 1740
aagaaggtga acggcgagct gaccaagaca ctgatcagca gacacccaac ccctatcgac 1800
ttctgcaaca agatcaccgc ctaccgggaa agatacgaca agctggaaag ctctattaag 1860
ctggacgcca tcaagcagct gaccagcgag cagaaaatcg aggtggacaa ctacaacaac 1920
aacttcaccc ctcagaacac caagcagatc gtgtgcagca agctgaacat caaccccaac 1980
gacctgcctt gggacaagat gatcagcggc acacacttca tctctgaaaa ggcacaggtg 2040
agcaacaagt ctgagatcta cttcacctcc accgccaagg gcaagacaaa ggacgtgatg 2100
aagagcgact acaagtggtt tcaagactac aagcctaagc tgtctaagga agtgcgagac 2160
gccctgtcag atatcgagtg gcggctgaga agagagagcc tggaattcaa caaactgagc 2220
aaaagcagag agcaggacgc cagacagctg gccaactgga tcagcagcat gtgcgatgtg 2280
atcggcatcg ccaacctggt gaaaaagaac aacttcttcg gcggcagcgg caaacgggaa 2340
cctggctggg ataatttcta caagcctaag aaggaaaacc ggtggtggat caacgccatc 2400
cacaaggctc tgactgaact gtcccagaac aagggcaaga gagtgatctt actgcctgct 2460
atgcggacca gcatcacctg tcctaagtgt aaatactgtg atagcaagaa cagaaacggc 2520
gagaagttca actgcctgaa gtgcggcatc gagctgaacg ccgacattga tgttgctaca 2580
gagaatctgg ccaccgtggc cattaccgcg cagtccatgc ctaagcccac ctgcgagaga 2640
agcggcgatg ccaagaaacc ggtccgcgcc agaaaggcca aagcccctga gtttcacgac 2700
aagctcgctc ctagctacac agtcgtgctg agagaggccg tg 2832
<210> 15
<211> 36
<212> RNA
<213> 人工序列(Artificial Sequence)
<400> 15
cuuucaagac uaauagauug cuccuuacga ggagac 36
<210> 16
<211> 20
<212> RNA
<213> 人工序列(Artificial Sequence)
<400> 16
aauuucuacu guuuguagau 20
<210> 17
<211> 19
<212> RNA
<213> 人工序列(Artificial Sequence)
<400> 17
aauuucuacu auuguagau 19
<210> 18
<211> 130
<212> RNA
<213> 人工序列(Artificial Sequence)
<400> 18
ggcuucuaca ggaggcgaaa agacugcgga acgugucuuc cccuucaaug ggcguggcac 60
cgcagcguug uucaguuuag uuccagaaaa ggacgucgcu guccuuggaa ccaaccugau 120
caacggacac 134
<210> 19
<211> 36
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 19
ctttcaagac taatagattg ctccttacga ggagac 36
<210> 20
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 20
aatttctact gtttgtagat 20
<210> 21
<211> 19
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 21
aatttctact attgtagat 19
<210> 22
<211> 130
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 22
ggcttctaca ggaggcgaaa agactgcgga acgtgtcttc cccttcaatg ggcgtggcac 60
cgcagcgttg ttcagtttag ttccagaaaa ggacgtcgct gtccttggaa ccaacctgat 120
caacggacac 134
<210> 23
<211> 765
<212> PRT
<213> 巨大噬菌体(Biggiephage)
<400> 23
Met Tyr Ser Leu Glu Met Ala Asp Leu Lys Ser Glu Pro Ser Leu Leu
1 5 10 15
Ala Lys Leu Leu Arg Asp Arg Phe Pro Gly Lys Tyr Trp Leu Pro Lys
20 25 30
Tyr Trp Lys Leu Ala Glu Lys Lys Arg Leu Thr Gly Gly Glu Glu Ala
35 40 45
Ala Cys Glu Tyr Met Ala Asp Lys Gln Leu Asp Ser Pro Pro Pro Asn
50 55 60
Phe Arg Pro Pro Ala Arg Cys Val Ile Leu Ala Lys Ser Arg Pro Phe
65 70 75 80
Glu Asp Trp Pro Val His Arg Val Ala Ser Lys Ala Gln Ser Phe Val
85 90 95
Ile Gly Leu Ser Glu Gln Gly Phe Ala Ala Leu Arg Ala Ala Pro Pro
100 105 110
Ser Thr Ala Asp Ala Arg Arg Asp Trp Leu Arg Ser His Gly Ala Ser
115 120 125
Glu Asp Asp Leu Met Ala Leu Glu Ala Gln Leu Leu Glu Thr Ile Met
130 135 140
Gly Asn Ala Ile Ser Leu His Gly Gly Val Leu Lys Lys Ile Asp Asn
145 150 155 160
Ala Asn Val Lys Ala Ala Lys Arg Leu Ser Gly Arg Asn Glu Ala Arg
165 170 175
Leu Asn Lys Gly Leu Gln Glu Leu Pro Pro Glu Gln Glu Gly Ser Ala
180 185 190
Tyr Gly Ala Asp Gly Leu Leu Val Asn Pro Pro Gly Leu Asn Leu Asn
195 200 205
Ile Tyr Cys Arg Lys Ser Cys Cys Pro Lys Pro Val Lys Asn Thr Ala
210 215 220
Arg Phe Val Gly His Tyr Pro Gly Tyr Leu Arg Asp Ser Asp Ser Ile
225 230 235 240
Leu Ile Ser Gly Thr Met Asp Arg Leu Thr Ile Ile Glu Gly Met Pro
245 250 255
Gly His Ile Pro Ala Trp Gln Arg Glu Gln Gly Leu Val Lys Pro Gly
260 265 270
Gly Arg Arg Arg Arg Leu Ser Gly Ser Glu Ser Asn Met Arg Gln Lys
275 280 285
Val Asp Pro Ser Thr Gly Pro Arg Arg Ser Thr Arg Ser Gly Thr Val
290 295 300
Asn Arg Ser Asn Gln Arg Thr Gly Arg Asn Gly Asp Pro Leu Leu Val
305 310 315 320
Glu Ile Arg Met Lys Glu Asp Trp Val Leu Leu Asp Ala Arg Gly Leu
325 330 335
Leu Arg Asn Leu Arg Trp Arg Glu Ser Lys Arg Gly Leu Ser Cys Asp
340 345 350
His Glu Asp Leu Ser Leu Ser Gly Leu Leu Ala Leu Phe Ser Gly Asp
355 360 365
Pro Val Ile Asp Pro Val Arg Asn Glu Val Val Phe Leu Tyr Gly Glu
370 375 380
Gly Ile Ile Pro Val Arg Ser Thr Lys Pro Val Gly Thr Arg Gln Ser
385 390 395 400
Lys Lys Leu Leu Glu Arg Gln Ala Ser Met Gly Pro Leu Thr Leu Ile
405 410 415
Ser Cys Asp Leu Gly Gln Thr Asn Leu Ile Ala Gly Arg Ala Ser Ala
420 425 430
Ile Ser Leu Thr His Gly Ser Leu Gly Val Arg Ser Ser Val Arg Ile
435 440 445
Glu Leu Asp Pro Glu Ile Ile Lys Ser Phe Glu Arg Leu Arg Lys Asp
450 455 460
Ala Asp Arg Leu Glu Thr Glu Ile Leu Thr Ala Ala Lys Glu Thr Leu
465 470 475 480
Ser Asp Glu Gln Arg Gly Glu Val Asn Ser His Glu Lys Asp Ser Pro
485 490 495
Gln Thr Ala Lys Ala Ser Leu Cys Arg Glu Leu Gly Leu His Pro Pro
500 505 510
Ser Leu Pro Trp Gly Gln Met Gly Pro Ser Thr Thr Phe Ile Ala Asp
515 520 525
Met Leu Ile Ser His Gly Arg Asp Asp Asp Ala Phe Leu Ser His Gly
530 535 540
Glu Phe Pro Thr Leu Glu Lys Arg Lys Lys Phe Asp Lys Arg Phe Cys
545 550 555 560
Leu Glu Ser Arg Pro Leu Leu Ser Ser Glu Thr Arg Lys Ala Leu Asn
565 570 575
Glu Ser Leu Trp Glu Val Lys Arg Thr Ser Ser Glu Tyr Ala Arg Leu
580 585 590
Ser Gln Arg Lys Lys Glu Met Ala Arg Arg Ala Val Asn Phe Val Val
595 600 605
Glu Ile Ser Arg Arg Lys Thr Gly Leu Ser Asn Val Ile Val Asn Ile
610 615 620
Glu Asp Leu Asn Val Arg Ile Phe His Gly Gly Gly Lys Gln Ala Pro
625 630 635 640
Gly Trp Asp Gly Phe Phe Arg Pro Lys Ser Glu Asn Arg Trp Phe Ile
645 650 655
Gln Ala Ile His Lys Ala Phe Ser Asp Leu Ala Ala His His Gly Ile
660 665 670
Pro Val Ile Glu Ser Asp Pro Gln Arg Thr Ser Met Thr Cys Pro Glu
675 680 685
Cys Gly His Cys Asp Ser Lys Asn Arg Asn Gly Val Arg Phe Leu Cys
690 695 700
Lys Gly Cys Gly Ala Ser Met Asp Ala Asp Phe Asp Ala Ala Cys Arg
705 710 715 720
Asn Leu Glu Arg Val Ala Leu Thr Gly Lys Pro Met Pro Lys Pro Ser
725 730 735
Thr Ser Cys Glu Arg Leu Leu Ser Ala Thr Thr Gly Lys Val Cys Ser
740 745 750
Asp His Ser Leu Ser His Asp Ala Ile Glu Lys Ala Ser
755 760 765
<210> 24
<211> 793
<212> PRT
<213> 巨大噬菌体(Biggiephage)
<400> 24
Met Ser Ser Leu Pro Thr Pro Leu Glu Leu Leu Lys Gln Lys His Ala
1 5 10 15
Asp Leu Phe Lys Gly Leu Gln Phe Ser Ser Lys Asp Asn Lys Met Ala
20 25 30
Gly Lys Val Leu Lys Lys Asp Gly Glu Glu Ala Ala Leu Ala Phe Leu
35 40 45
Ser Glu Arg Gly Val Ser Arg Gly Glu Leu Pro Asn Phe Arg Pro Pro
50 55 60
Ala Lys Thr Leu Val Val Ala Gln Ser Arg Pro Phe Glu Glu Phe Pro
65 70 75 80
Ile Tyr Arg Val Ser Glu Ala Ile Gln Leu Tyr Val Tyr Ser Leu Ser
85 90 95
Val Lys Glu Leu Glu Thr Val Pro Ser Gly Ser Ser Thr Lys Lys Glu
100 105 110
His Gln Arg Phe Phe Gln Asp Ser Ser Val Pro Asp Phe Gly Tyr Thr
115 120 125
Ser Val Gln Gly Leu Asn Lys Ile Phe Gly Leu Ala Arg Gly Ile Tyr
130 135 140
Leu Gly Val Ile Thr Arg Gly Glu Asn Gln Leu Gln Lys Ala Lys Ser
145 150 155 160
Lys His Glu Ala Leu Asn Lys Lys Arg Arg Ala Ser Gly Glu Ala Glu
165 170 175
Thr Glu Phe Asp Pro Thr Pro Tyr Glu Tyr Met Thr Pro Glu Arg Lys
180 185 190
Leu Ala Lys Pro Pro Gly Val Asn His Ser Ile Met Cys Tyr Val Asp
195 200 205
Ile Ser Val Asp Glu Phe Asp Phe Arg Asn Pro Asp Gly Ile Val Leu
210 215 220
Pro Ser Glu Tyr Ala Gly Tyr Cys Arg Glu Ile Asn Thr Ala Ile Glu
225 230 235 240
Lys Gly Thr Val Asp Arg Leu Gly His Leu Lys Gly Gly Pro Gly Tyr
245 250 255
Ile Pro Gly His Gln Arg Lys Glu Ser Thr Thr Glu Gly Pro Lys Ile
260 265 270
Asn Phe Arg Lys Gly Arg Ile Arg Arg Ser Tyr Thr Ala Leu Tyr Ala
275 280 285
Lys Arg Asp Ser Arg Arg Val Arg Gln Gly Lys Leu Ala Leu Pro Ser
290 295 300
Tyr Arg His His Met Met Arg Leu Asn Ser Asn Ala Glu Ser Ala Ile
305 310 315 320
Leu Ala Val Ile Phe Phe Gly Lys Asp Trp Val Val Phe Asp Leu Arg
325 330 335
Gly Leu Leu Arg Asn Val Arg Trp Arg Asn Leu Phe Val Asp Gly Ser
340 345 350
Thr Pro Ser Thr Leu Leu Gly Met Phe Gly Asp Pro Val Ile Asp Pro
355 360 365
Lys Arg Gly Val Val Ala Phe Cys Tyr Lys Glu Gln Ile Val Pro Val
370 375 380
Val Ser Lys Ser Ile Thr Lys Met Val Lys Ala Pro Glu Leu Leu Asn
385 390 395 400
Lys Leu Tyr Leu Lys Ser Glu Asp Pro Leu Val Leu Val Ala Ile Asp
405 410 415
Leu Gly Gln Thr Asn Pro Val Gly Val Gly Val Tyr Arg Val Met Asn
420 425 430
Ala Ser Leu Asp Tyr Glu Val Val Thr Arg Phe Ala Leu Glu Ser Glu
435 440 445
Leu Leu Arg Glu Ile Glu Ser Tyr Arg Gln Arg Thr Asn Ala Phe Glu
450 455 460
Ala Gln Ile Arg Ala Glu Thr Phe Asp Ala Met Thr Ser Glu Glu Gln
465 470 475 480
Glu Glu Ile Thr Arg Val Arg Ala Phe Ser Ala Ser Lys Ala Lys Glu
485 490 495
Asn Val Cys His Arg Phe Gly Met Pro Val Asp Ala Val Asp Trp Ala
500 505 510
Thr Met Gly Ser Asn Thr Ile His Ile Ala Lys Trp Val Met Arg His
515 520 525
Gly Asp Pro Ser Leu Val Glu Val Leu Glu Tyr Arg Lys Asp Asn Glu
530 535 540
Ile Lys Leu Asp Lys Asn Gly Val Pro Lys Lys Val Lys Leu Thr Asp
545 550 555 560
Lys Arg Ile Ala Asn Leu Thr Ser Ile Arg Leu Arg Phe Ser Gln Glu
565 570 575
Thr Ser Lys His Tyr Asn Asp Thr Met Trp Glu Leu Arg Arg Lys His
580 585 590
Pro Val Tyr Gln Lys Leu Ser Lys Ser Lys Ala Asp Phe Ser Arg Arg
595 600 605
Val Val Asn Ser Ile Ile Arg Arg Val Asn His Leu Val Pro Arg Ala
610 615 620
Arg Ile Val Phe Ile Ile Glu Asp Leu Lys Asn Leu Gly Lys Val Phe
625 630 635 640
His Gly Ser Gly Lys Arg Glu Leu Gly Trp Asp Ser Tyr Phe Glu Pro
645 650 655
Lys Ser Glu Asn Arg Trp Phe Ile Gln Val Leu His Lys Ala Phe Ser
660 665 670
Glu Thr Gly Lys His Lys Gly Tyr Tyr Ile Ile Glu Cys Trp Pro Asn
675 680 685
Trp Thr Ser Cys Thr Cys Pro Lys Cys Ser Cys Cys Asp Ser Glu Asn
690 695 700
Arg His Gly Glu Val Phe Arg Cys Leu Ala Cys Gly Tyr Thr Cys Asn
705 710 715 720
Thr Asp Phe Gly Thr Ala Pro Asp Asn Leu Val Lys Ile Ala Thr Thr
725 730 735
Gly Lys Gly Leu Pro Gly Pro Lys Lys Arg Cys Lys Gly Ser Ser Lys
740 745 750
Gly Lys Asn Pro Lys Ile Ala Arg Ser Ser Glu Thr Gly Val Ser Val
755 760 765
Thr Glu Ser Gly Ala Pro Lys Val Lys Lys Ser Ser Pro Thr Gln Thr
770 775 780
Ser Gln Ser Ser Ser Gln Ser Ala Pro
785 790
<210> 25
<211> 772
<212> PRT
<213> 巨大噬菌体(Biggiephage)
<400> 25
Met Ser Asn Thr Ala Val Ser Thr Arg Glu His Met Ser Asn Lys Thr
1 5 10 15
Thr Pro Pro Ser Pro Leu Ser Leu Leu Leu Arg Ala His Phe Pro Gly
20 25 30
Leu Lys Phe Glu Ser Gln Asp Tyr Lys Ile Ala Gly Lys Lys Leu Arg
35 40 45
Asp Gly Gly Pro Glu Ala Val Ile Ser Tyr Leu Thr Gly Lys Gly Gln
50 55 60
Ala Lys Leu Lys Asp Val Lys Pro Pro Ala Lys Ala Phe Val Ile Ala
65 70 75 80
Gln Ser Arg Pro Phe Ile Glu Trp Asp Leu Val Arg Val Ser Arg Gln
85 90 95
Ile Gln Glu Lys Ile Phe Gly Ile Pro Ala Thr Lys Gly Arg Pro Lys
100 105 110
Gln Asp Gly Leu Ser Glu Thr Ala Phe Asn Glu Ala Val Ala Ser Leu
115 120 125
Glu Val Asp Gly Lys Ser Lys Leu Asn Glu Glu Thr Arg Ala Ala Phe
130 135 140
Tyr Glu Val Leu Gly Leu Asp Ala Pro Ser Leu His Ala Gln Ala Gln
145 150 155 160
Asn Ala Leu Ile Lys Ser Ala Ile Ser Ile Arg Glu Gly Val Leu Lys
165 170 175
Lys Val Glu Asn Arg Asn Glu Lys Asn Leu Ser Lys Thr Lys Arg Arg
180 185 190
Lys Glu Ala Gly Glu Glu Ala Thr Phe Val Glu Glu Lys Ala His Asp
195 200 205
Glu Arg Gly Tyr Leu Ile His Pro Pro Gly Val Asn Gln Thr Ile Pro
210 215 220
Gly Tyr Gln Ala Val Val Ile Lys Ser Cys Pro Ser Asp Phe Ile Gly
225 230 235 240
Leu Pro Ser Gly Cys Leu Ala Lys Glu Ser Ala Glu Ala Leu Thr Asp
245 250 255
Tyr Leu Pro His Asp Arg Met Thr Ile Pro Lys Gly Gln Pro Gly Tyr
260 265 270
Val Pro Glu Trp Gln His Pro Leu Leu Asn Arg Arg Lys Asn Arg Arg
275 280 285
Arg Arg Asp Trp Tyr Ser Ala Ser Leu Asn Lys Pro Lys Ala Thr Cys
290 295 300
Ser Lys Arg Ser Gly Thr Pro Asn Arg Lys Asn Ser Arg Thr Asp Gln
305 310 315 320
Ile Gln Ser Gly Arg Phe Lys Gly Ala Ile Pro Val Leu Met Arg Phe
325 330 335
Gln Asp Glu Trp Val Ile Ile Asp Ile Arg Gly Leu Leu Arg Asn Ala
340 345 350
Arg Tyr Arg Lys Leu Leu Lys Glu Lys Ser Thr Ile Pro Asp Leu Leu
355 360 365
Ser Leu Phe Thr Gly Asp Pro Ser Ile Asp Met Arg Gln Gly Val Cys
370 375 380
Thr Phe Ile Tyr Lys Ala Gly Gln Ala Cys Ser Ala Lys Met Val Lys
385 390 395 400
Thr Lys Asn Ala Pro Glu Ile Leu Ser Glu Leu Thr Lys Ser Gly Pro
405 410 415
Val Val Leu Val Ser Ile Asp Leu Gly Gln Thr Asn Pro Ile Ala Ala
420 425 430
Lys Val Ser Arg Val Thr Gln Leu Ser Asp Gly Gln Leu Ser His Glu
435 440 445
Thr Leu Leu Arg Glu Leu Leu Ser Asn Asp Ser Ser Asp Gly Lys Glu
450 455 460
Ile Ala Arg Tyr Arg Val Ala Ser Asp Arg Leu Arg Asp Lys Leu Ala
465 470 475 480
Asn Leu Ala Val Glu Arg Leu Ser Pro Glu His Lys Ser Glu Ile Leu
485 490 495
Arg Ala Lys Asn Asp Thr Pro Ala Leu Cys Lys Ala Arg Val Cys Ala
500 505 510
Ala Leu Gly Leu Asn Pro Glu Met Ile Ala Trp Asp Lys Met Thr Pro
515 520 525
Tyr Thr Glu Phe Leu Ala Thr Ala Tyr Leu Glu Lys Gly Gly Asp Arg
530 535 540
Lys Val Ala Thr Leu Lys Pro Lys Asn Arg Pro Glu Met Leu Arg Arg
545 550 555 560
Asp Ile Lys Phe Lys Gly Thr Glu Gly Val Arg Ile Glu Val Ser Pro
565 570 575
Glu Ala Ala Glu Ala Tyr Arg Glu Ala Gln Trp Asp Leu Gln Arg Thr
580 585 590
Ser Pro Glu Tyr Leu Arg Leu Ser Thr Trp Lys Gln Glu Leu Thr Lys
595 600 605
Arg Ile Leu Asn Gln Leu Arg His Lys Ala Ala Lys Ser Ser Gln Cys
610 615 620
Glu Val Val Val Met Ala Phe Glu Asp Leu Asn Ile Lys Met Met His
625 630 635 640
Gly Asn Gly Lys Trp Ala Asp Gly Gly Trp Asp Ala Phe Phe Ile Lys
645 650 655
Lys Arg Glu Asn Arg Trp Phe Met Gln Ala Phe His Lys Ser Leu Thr
660 665 670
Glu Leu Gly Ala His Lys Gly Val Pro Thr Ile Glu Val Thr Pro His
675 680 685
Arg Thr Ser Ile Thr Cys Thr Lys Cys Gly His Cys Asp Lys Ala Asn
690 695 700
Arg Asp Gly Glu Arg Phe Ala Cys Gln Lys Cys Gly Phe Val Ala His
705 710 715 720
Ala Asp Leu Glu Ile Ala Thr Asp Asn Ile Glu Arg Val Ala Leu Thr
725 730 735
Gly Lys Pro Met Pro Lys Pro Glu Ser Glu Arg Ser Gly Asp Ala Lys
740 745 750
Lys Ser Val Gly Ala Arg Lys Ala Ala Phe Lys Pro Glu Glu Asp Ala
755 760 765
Glu Ala Ala Glu
770
<210> 26
<211> 793
<212> PRT
<213> 巨大噬菌体(Biggiephage)
<400> 26
Met Arg Ser Ser Arg Glu Ile Gly Asp Lys Ile Leu Met Arg Gln Pro
1 5 10 15
Ala Glu Lys Thr Ala Phe Gln Val Phe Arg Gln Glu Val Ile Gly Thr
20 25 30
Gln Lys Leu Ser Gly Gly Asp Ala Lys Thr Ala Gly Arg Leu Tyr Lys
35 40 45
Gln Gly Lys Met Glu Ala Ala Arg Glu Trp Leu Leu Lys Gly Ala Arg
50 55 60
Asp Asp Val Pro Pro Asn Phe Gln Pro Pro Ala Lys Cys Leu Val Val
65 70 75 80
Ala Val Ser His Pro Phe Glu Glu Trp Asp Ile Ser Lys Thr Asn His
85 90 95
Asp Val Gln Ala Tyr Ile Tyr Ala Gln Pro Leu Gln Ala Glu Gly His
100 105 110
Leu Asn Gly Leu Ser Glu Lys Trp Glu Asp Thr Ser Ala Asp Gln His
115 120 125
Lys Leu Trp Phe Glu Lys Thr Gly Val Pro Asp Arg Gly Leu Pro Val
130 135 140
Gln Ala Ile Asn Lys Ile Ala Lys Ala Ala Val Asn Arg Ala Phe Gly
145 150 155 160
Val Val Arg Lys Val Glu Asn Arg Asn Glu Lys Arg Arg Ser Arg Asp
165 170 175
Asn Arg Ile Ala Glu His Asn Arg Glu Asn Gly Leu Thr Glu Val Val
180 185 190
Arg Glu Ala Pro Glu Val Ala Thr Asn Ala Asp Gly Phe Leu Leu His
195 200 205
Pro Pro Gly Ile Asp Pro Ser Ile Leu Ser Tyr Ala Ser Val Ser Pro
210 215 220
Val Pro Tyr Asn Ser Ser Lys His Ser Phe Val Arg Leu Pro Glu Glu
225 230 235 240
Tyr Gln Ala Tyr Asn Val Glu Pro Asp Ala Pro Ile Pro Gln Phe Val
245 250 255
Val Glu Asp Arg Phe Ala Ile Pro Pro Gly Gln Pro Gly Tyr Val Pro
260 265 270
Glu Trp Gln Arg Leu Lys Cys Ser Thr Asn Lys His Arg Arg Met Arg
275 280 285
Gln Trp Ser Asn Gln Asp Tyr Lys Pro Lys Ala Gly Arg Arg Ala Lys
290 295 300
Pro Leu Glu Phe Gln Ala His Leu Thr Arg Glu Arg Ala Lys Gly Ala
305 310 315 320
Leu Leu Val Val Met Arg Ile Lys Glu Asp Trp Val Val Phe Asp Val
325 330 335
Arg Gly Leu Leu Arg Asn Val Glu Trp Arg Lys Val Leu Ser Glu Glu
340 345 350
Ala Arg Glu Lys Leu Thr Leu Lys Gly Leu Leu Asp Leu Phe Thr Gly
355 360 365
Asp Pro Val Ile Asp Thr Lys Arg Gly Ile Val Thr Phe Leu Tyr Lys
370 375 380
Ala Glu Ile Thr Lys Ile Leu Ser Lys Arg Thr Val Lys Thr Lys Asn
385 390 395 400
Ala Arg Asp Leu Leu Leu Arg Leu Thr Glu Pro Gly Glu Asp Gly Leu
405 410 415
Arg Arg Glu Val Gly Leu Val Ala Val Asp Leu Gly Gln Thr His Pro
420 425 430
Ile Ala Ala Ala Ile Tyr Arg Ile Gly Arg Thr Ser Ala Gly Ala Leu
435 440 445
Glu Ser Thr Val Leu His Arg Gln Gly Leu Arg Glu Asp Gln Lys Glu
450 455 460
Lys Leu Lys Glu Tyr Arg Lys Arg His Thr Ala Leu Asp Ser Arg Leu
465 470 475 480
Arg Lys Glu Ala Phe Glu Thr Leu Ser Val Glu Gln Gln Lys Glu Ile
485 490 495
Val Thr Val Ser Gly Ser Gly Ala Gln Ile Thr Lys Asp Lys Val Cys
500 505 510
Asn Tyr Leu Gly Val Asp Pro Ser Thr Leu Pro Trp Glu Lys Met Gly
515 520 525
Ser Tyr Thr His Phe Ile Ser Asp Asp Phe Leu Arg Arg Gly Gly Asp
530 535 540
Pro Asn Ile Val His Phe Asp Arg Gln Pro Lys Lys Gly Lys Val Ser
545 550 555 560
Lys Lys Ser Gln Arg Ile Lys Arg Ser Asp Ser Gln Trp Val Gly Arg
565 570 575
Met Arg Pro Arg Leu Ser Gln Glu Thr Ala Lys Ala Arg Met Glu Ala
580 585 590
Asp Trp Ala Ala Gln Asn Glu Asn Glu Glu Tyr Lys Arg Leu Ala Arg
595 600 605
Ser Lys Gln Glu Leu Ala Arg Trp Cys Val Asn Thr Leu Leu Gln Asn
610 615 620
Thr Arg Cys Ile Thr Gln Cys Asp Glu Ile Val Val Val Ile Glu Asp
625 630 635 640
Leu Asn Val Lys Ser Leu His Gly Lys Gly Ala Arg Glu Pro Gly Trp
645 650 655
Asp Asn Phe Phe Thr Pro Lys Thr Glu Asn Arg Trp Phe Ile Gln Ile
660 665 670
Leu His Lys Thr Phe Ser Glu Leu Pro Lys His Arg Gly Glu His Val
675 680 685
Ile Glu Gly Cys Pro Leu Arg Thr Ser Ile Thr Cys Pro Ala Cys Ser
690 695 700
Tyr Cys Asp Lys Asn Ser Arg Asn Gly Glu Lys Phe Val Cys Val Ala
705 710 715 720
Cys Gly Ala Thr Phe His Ala Asp Phe Glu Val Ala Thr Tyr Asn Leu
725 730 735
Val Arg Leu Ala Thr Thr Gly Met Pro Met Pro Lys Ser Leu Glu Arg
740 745 750
Gln Gly Gly Gly Glu Lys Ala Gly Gly Ala Arg Lys Ala Arg Lys Lys
755 760 765
Ala Lys Gln Val Glu Lys Ile Val Val Gln Ala Asn Ala Asn Val Thr
770 775 780
Met Asn Gly Ala Ser Leu His Ser Pro
785 790
<210> 27
<211> 2295
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 27
atgtacagcc tggaaatggc cgacctgaaa tccgagccta gcctactcgc caagctgctg 60
agagatcggt tccctggcaa atactggctg cccaagtact ggaagctggc cgagaagaag 120
agactgaccg gtggcgagga agcggcctgc gaatacatgg ccgataagca gctggattcc 180
ccacccccca acttccggcc ccctgctcgg tgcgtgatcc tggctaaatc cagacccttc 240
gaggactggc ctgtgcacag agtggccagc aaggcccaaa gcttcgtgat cggcttatct 300
gagcaaggct tcgccgccct tcgggctgca cctcctagca ccgccgacgc acggcgggat 360
tggctgagaa gccacggagc cagcgaggac gacctgatgg ccctggaagc ccagctgctg 420
gaaaccatca tgggaaatgc tatctccctg cacggcggcg tcttgaagaa gatcgacaac 480
gccaacgtga aggctgctaa gagactgagc ggcagaaacg aagccagact gaacaagggc 540
ctgcaggagc tgccacctga gcaggaaggc tctgcctacg gagccgatgg cctgctggtc 600
aacccccctg ggctgaacct gaacatctac tgcagaaaga gctgttgccc caagcctgtg 660
aaaaataccg cccggtttgt gggacactac cccggctacc tgagagactc tgacagcatc 720
ctgatctccg gcacaatgga cagactgacc atcatcgagg gaatgcctgg ccacatcccc 780
gcctggcagc gggagcaggg cctggtgaag cctggaggca gacgcagaag attgagcgga 840
tctgaaagca atatgcgaca gaaggtggac cctagcaccg ggcctagaag aagcacccgg 900
tccggcacag tgaaccggag caaccagagg acaggcagaa acggcgaccc tctgctggtg 960
gagatcagaa tgaaggaaga ttgggtcctg ctggatgcca gaggactgct gagaaacctg 1020
cggtggagag aatctaaaag gggactgagc tgtgaccacg aggacctgag cctgagcggc 1080
ctgctggccc tgttcagcgg agatcctgtg attgacccag ttagaaatga agtcgtgttc 1140
ctgtacggcg aaggaatcat ccctgtgcga agcacaaagc ccgtgggcac cagacagtct 1200
aagaaactgc tcgagcggca ggcctctatg ggcccactga ccctgatctc ctgcgacctg 1260
ggacaaacca acctgattgc cggcagagcc tctgctatct ccctcaccca cggcagcctg 1320
ggcgttaggt ctagcgtgcg gatcgagctg gaccccgaga tcattaagtc ctttgagcgg 1380
ctgagaaagg acgctgacag actggaaaca gagatcctga ccgccgccaa ggaaaccctg 1440
tctgatgagc agcggggaga ggtcaacagc cacgagaagg acagccctca gaccgccaag 1500
gccagcctgt gcagagaact gggcctccat cctccaagcc tgccttgggg ccagatgggc 1560
ccttctacca cattcatcgc cgatatgctg atcagccacg gcagagacga cgacgctttt 1620
ctgtctcacg gagaattccc tacccttgag aagcggaaga agttcgacaa gagattctgc 1680
ctggaaagca gacctctgtt gtctagcgag acgagaaagg ccctaaacga gagcctgtgg 1740
gaggtgaagc ggacaagcag cgagtatgcc cgcctgagcc agagaaagaa agagatggcc 1800
agaagagccg tgaacttcgt ggtggagatc agccggcgca aaaccggcct gtccaacgtg 1860
atcgtgaata tcgaggacct gaacgtgaga atcttccacg gcggcggcaa gcaggcccct 1920
ggctgggacg gcttcttcag acctaagagc gagaaccggt ggtttatcca ggccatccat 1980
aaagccttca gcgatctggc cgcccaccac ggcatccccg tgatcgagag cgaccctcag 2040
agaacaagca tgacatgccc tgagtgcggc cactgtgaca gcaagaacag gaacggcgtg 2100
agatttctgt gcaagggctg cggcgcctcc atggacgccg acttcgatgc cgcttgtaga 2160
aatctggagc gggtggctct gacaggcaag cccatgccaa agcctagcac ctcctgtgaa 2220
agactgctgt cagctacaac cggcaaggtg tgcagcgacc acagcctgag ccacgacgcc 2280
atcgagaagg cgagc 2371
<210> 28
<211> 2379
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 28
atgagcagcc tgcctacccc tctggaactg ctcaagcaga agcacgccga cctgtttaag 60
ggcctgcagt tcagcagcaa ggataacaag atggccggca aggtcctgaa gaaagacggt 120
gaggaagccg ccctggcatt cctgtctgaa cggggcgtgt ctagaggcga gctccccaac 180
ttccggcctc ctgccaagac cctggtggtg gcccagagca gacccttcga agagttccct 240
atctaccgcg tgagcgaagc tatccagctc tacgtgtatt ctctgagcgt taaggaactc 300
gagacagtgc cctctgggag ctccacaaag aaggaacacc agagattttt ccaggactcc 360
agcgtgcctg actttggata cacctctgtg cagggactga acaaaatctt cggtctggcc 420
agaggcatct acctgggcgt gatcaccaga ggcgaaaacc agctgcaaaa ggccaaaagc 480
aagcacgagg ctctgaataa gaagagacgg gcttctggcg aagcagagac agagttcgat 540
ccgacccctt acgagtacat gacccccgag agaaaactgg ccaagccacc tggagtcaac 600
cacagcatca tgtgctacgt ggacatcagc gtggacgagt tcgactttcg taaccccgac 660
ggaatcgtgc tgcctagcga gtacgccggc tactgcagag aaatcaacac cgccattgaa 720
aagggcactg tggacagact tggccacctg aagggcggac ctggctacat ccccggacac 780
cagcgcaagg agagcaccac cgagggccct aagatcaatt tcagaaaggg cagaatcaga 840
agaagctaca ccgctctgta cgccaaaaga gatagccggc gggtgcgcca gggcaagctg 900
gccctgccaa gctaccgaca ccacatgatg cggctgaaca gcaacgccga gagcgccata 960
ctggccgtga tcttcttcgg caaggactgg gtggtgtttg acctgagagg cctgctgaga 1020
aatgtgagat ggcggaacct gttcgtggac ggcagcaccc ccagcaccct gctgggcatg 1080
ttcggcgatc cagtgatcga ccctaagaga ggcgtcgtgg ccttctgcta caaggaacag 1140
atcgtgccag tggtctctaa gagcatcacc aagatggtga aggcccccga gctgctgaac 1200
aagctgtacc tgaaaagcga ggaccccctg gtgctggtag ctatcgacct gggccagacc 1260
aatcctgtgg gcgtgggcgt gtacagggtg atgaacgcct ctctggacta cgaggtggtg 1320
acaagattcg ccctggagag cgaactgctg agagagatcg agtcatatag acagcggacc 1380
aacgccttcg aagctcagat ccgggccgag acattcgacg ccatgacaag cgaggaacag 1440
gaggaaatca ccagagtgcg ggccttttcc gcttccaagg ctaaagagaa cgtgtgccac 1500
agatttggca tgcctgtgga tgccgtggac tgggccacca tgggcagcaa cacaatccac 1560
atcgccaagt gggttatgag acacggcgat cctagcctcg tggaagtgct ggaatacaga 1620
aaggacaacg agatcaagct ggacaagaat ggcgtaccaa agaaagtgaa actgaccgac 1680
aagcggatcg ccaacctgac ctctatccgg ctgaggttca gccaagagac cagcaagcac 1740
tacaacgaca ccatgtggga gctgagaagg aaacatcctg tgtaccagaa actgagcaag 1800
agcaaagctg attttagccg ccgggtggtg aactctatca tcagaagagt gaaccacctg 1860
gtgcccagag ccagaatcgt tttcattatc gaggacctga agaacctggg aaaggtgttc 1920
cacggcagcg gcaagagaga gctgggatgg gactcctact tcgagcccaa gtcggagaat 1980
agatggttca tccaagtgct gcacaaggcc ttctccgaga caggcaaaca caagggctat 2040
tacatcatcg agtgctggcc taattggacc agctgcacct gtccaaagtg cagttgttgt 2100
gatagcgaga acagacatgg cgaggtgttc agatgcctgg cttgtggcta cacctgcaac 2160
accgatttcg gaacagcccc tgataacctg gtgaagatcg ccacaacagg caagggcctg 2220
cctggcccta agaagcggtg caagggaagc agcaaaggaa agaaccctaa aattgccaga 2280
tcctctgaaa caggcgtgtc cgtgacagaa agtggcgccc ccaaagtgaa gaagagctcc 2340
cctacgcaga cctcacaaag ctcttctcag agcgcccct 2457
<210> 29
<211> 2316
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 29
atgagtaata ccgccgtgag caccagagag cacatgagca acaagaccac cccaccttct 60
cctctgtctc tgctgcttcg ggcccatttc cccggcctga agttcgagag ccaggactac 120
aagatcgccg gcaagaagct gcgggacggc gggccagagg ccgtgatcag ctacctgaca 180
ggcaagggcc aagccaagct gaaagacgtg aagcctcctg ccaaagcctt tgtgatcgcc 240
caaagcagac ccttcatcga gtgggatctg gtgcgcgtga gcaggcagat ccaggagaag 300
atcttcggca tccccgccac caaaggccgg cctaagcagg atggcctgag cgagacagcc 360
tttaacgagg ctgtggctag cctggaagtg gacggcaaat ccaagctgaa cgaggaaacc 420
cgggccgcct tctacgaggt cctgggcctg gacgccccta gcctgcacgc ccaggcgcag 480
aacgccctga tcaagtccgc cattagcatc cgggaaggag tgctgaagaa agttgaaaat 540
agaaacgaga aaaatctgtc caagacaaag cggagaaagg aagctggaga ggaagccacc 600
tttgtggaag aaaaggccca cgacgaaaga ggatatctga tccaccctcc aggagtgaac 660
caaacaatcc ctggctacca ggccgtggtt atcaagtctt gtccaagcga cttcatcggc 720
ctgcctagcg gctgcctggc taaggaaagc gccgaagcgc tgaccgacta cctgcctcac 780
gatagaatga caatccctaa gggccaacct ggctacgtgc ctgagtggca gcaccccctg 840
ctgaacagaa gaaagaacag aagaagaaga gactggtact ccgccagcct gaacaagcct 900
aaggccacat gctctaagag atctggaaca cccaacagaa agaactccag aaccgatcag 960
atccagagcg gcagattcaa gggcgccatc ccagtgctga tgcggttcca ggacgagtgg 1020
gtcattatcg acatcagggg cctgctgcgc aacgcccgct acagaaagct gctgaaggag 1080
aaatctacca tccccgacct gctgagcctg tttaccggcg atcctagcat tgatatgaga 1140
cagggcgtgt gtacattcat ctacaaggcc ggccaggcct gcagcgccaa gatggtgaaa 1200
acaaaaaacg cgccagagat cctgtctgag ctgaccaaaa gtggccccgt ggtcctggtc 1260
tccatcgacc tgggccagac caaccccatc gctgccaaag tgagcagagt gactcagctg 1320
tctgatggac aactgagcca cgagaccctg ctgagagagc tgctgagcaa cgactccagc 1380
gacggaaagg agatcgccag ataccgggtg gcttctgaca gactgagaga taagctggcc 1440
aacctggccg tggaacggct aagccctgaa cacaagagcg agatcctgag agccaagaat 1500
gacacccccg ctctgtgcaa ggccagagtg tgcgccgccc tgggactcaa tcctgagatg 1560
atcgcctggg acaagatgac cccctacacc gagttcctgg ccacagccta cctggaaaag 1620
ggcggcgaca gaaaagtcgc caccctgaag cctaagaacc ggcctgaaat gctgagacgg 1680
gacatcaaat tcaagggaac agagggggtg cggatcgagg tgagccctga ggccgccgag 1740
gcttatagag aggcccagtg ggatttgcag agaacaagcc ctgaatacct caggctgagc 1800
acctggaagc aggagctgac caagagaatc ctgaaccagc tgagacacaa agctgcaaag 1860
tcaagccagt gcgaggtggt ggtgatggcc tttgaggacc tgaacatcaa gatgatgcac 1920
ggcaacggca agtgggccga cggcggctgg gacgccttct tcatcaagaa aagagaaaat 1980
cggtggttca tgcaggcctt ccacaagagc ctcaccgagc tgggcgccca caagggcgtt 2040
cctaccatcg aagtgacccc tcacagaacc agcatcacat gcaccaaatg tggacactgc 2100
gacaaggcaa acagagatgg cgagagattc gcctgtcaga agtgcggctt cgtggcccat 2160
gccgatctgg aaattgccac agacaacatc gagcgggtgg ccctgaccgg caaacctatg 2220
cccaagcccg aaagcgagag aagcggcgac gccaagaaga gtgtgggcgc tcggaaggct 2280
gctttcaagc ctgaggaaga tgccgaagcc gctgag 2392
<210> 30
<211> 2379
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 30
atgagaagca gcagagagat tggagataaa atcctgatgc ggcaacccgc cgaaaagacc 60
gcctttcagg ttttcaggca ggaggtgatc ggcacccaaa agctgagcgg cggcgatgcc 120
aagacagccg gcagactgta caagcagggc aagatggaag ctgcccggga gtggctgctg 180
aagggcgccc gggacgacgt gcctcccaac ttccagccac cagccaaatg tctggtggtg 240
gctgtgagcc accctttcga ggaatgggac atcagcaaga caaatcacga cgtgcaagcc 300
tacatctacg cccagcccct gcaggctgag ggccacctga acggactctc cgagaaatgg 360
gaagatacaa gtgctgacca gcacaagctg tggttcgaga aaacaggagt gccagaccgt 420
ggtctgcctg tgcaggccat taacaagatc gccaaagccg ctgtgaatcg agccttcggc 480
gtggtgcgta aggtggagaa ccggaacgag aagcggagat caagagataa cagaatcgcc 540
gagcacaaca gggagaacgg cctcacagag gtggtgcggg aagctcctga ggtggcaacc 600
aacgccgacg gcttcctgct gcaccctcct ggcatcgacc ccagcatcct gagctatgcc 660
tctgtgtctc ctgtgcctta caacagcagc aagcattctt ttgtgcgcct gcctgaagag 720
taccaggctt ataacgttga gcctgacgcc cctatccccc agttcgtggt ggaggacaga 780
ttcgccatcc ctcctggcca gcctggctac gtgcccgagt ggcagagact gaaatgcagc 840
accaacaagc acagacggat gagacagtgg tccaaccagg actacaagcc caaggctggc 900
agaagggcca agcccctgga attccaggcc cacctgacca gagagcgcgc caagggcgcc 960
ctgctggtgg tgatgcggat caaggaagat tgggtcgtct ttgacgtgcg gggtctgctt 1020
agaaacgtgg agtggcggaa ggtgctgtcc gaggaagcca gagaaaagct gaccctgaag 1080
ggactgctgg atctgttcac gggcgatccc gtgatcgaca ctaagagagg catcgtgacc 1140
ttcctgtaca aggccgagat caccaaaatt ctgtcgaagc ggacagtcaa gaccaagaac 1200
gccagagacc tgctgctgag gctgacagag cccggcgagg atggcctgcg gagagaggtc 1260
ggcctggtgg ccgtggacct gggccagacc cacccaatcg ccgccgctat ctacagaatc 1320
ggcagaacaa gcgccggcgc tctggaaagc accgtgctgc acagacaggg actgagagag 1380
gaccagaagg agaagctgaa ggaataccgg aaacgccaca ccgccctgga cagcagactg 1440
agaaaggagg ccttcgaaac cctgagcgtg gagcagcaga aagaaatcgt gacagtgagc 1500
ggcagcggag ctcaaatcac aaaggacaag gtttgtaatt acctgggcgt ggacccgagc 1560
acactgcctt gggagaagat gggctcttac acccacttca tctccgatga cttcctgaga 1620
agaggaggcg acccaaacat cgtgcatttc gatcggcagc ctaagaaggg caaggtgtct 1680
aaaaagtccc aacggatcaa gagatccgat agccagtggg tgggccggat gagacctaga 1740
ctatctcagg agacagcgaa agcaagaatg gaagccgact gggccgccca aaatgaaaat 1800
gaggaataca agcgcctggc cagatctaag caggaactgg cgagatggtg cgtcaacaca 1860
ctgctgcaga acacccggtg catcacccag tgcgacgaga tcgtggtggt catcgaggac 1920
ctgaacgtga agagtctgca cggcaagggc gccagagaac ctggctggga caatttcttc 1980
acccctaaga ccgaaaacag atggtttatc cagatcctgc acaaaacctt cagcgagctg 2040
ccaaagcata gaggcgagca cgtgatcgag ggctgccccc tgagaaccag catcacctgt 2100
cctgcctgta gctactgcga caagaacagc agaaatggag agaagttcgt gtgcgtggcc 2160
tgcggcgcca ccttccacgc ggattttgag gtggccacct acaacctggt gagactcgcc 2220
acaaccggca tgcccatgcc taagagcctg gaaagacagg gtggcggcga gaaggccgga 2280
ggcgcccgga aggccagaaa gaaagccaag caggtggaaa agatcgtggt gcaggccaac 2340
gctaatgtga ccatgaacgg agcttcccta cacagccct 2457
<210> 31
<211> 36
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 31
atggcaacag actctcattg cgcggtacgc cgcgac 36
<210> 32
<211> 37
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 32
ggatccaatc ctttttgatt gcccaattcg ttgggac 37
<210> 33
<211> 36
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 33
cctgcgaaac cttttgattg ctcagtacgc tgagac 36
<210> 34
<211> 36
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 34
gtagaagacc tcgctgattg ctcggtgcgc cgagac 36

Claims (36)

1.一种CRISPR/Cas12基因编辑系统,其包含:
a)氨基酸序列如SEQ ID NO: 6所示的ChCas12b蛋白、或其缀合物或融合蛋白,其中所述缀合物还包含可检测标记作为修饰部分,所述融合蛋白还包含另外的蛋白或多肽、以及任选的用于连接所述ChCas12b蛋白与所述另外的蛋白或多肽的接头;和
b) 单链向导RNA,所述单链向导RNA包含CRISPR重复序列,所述CRISPR重复序列为SEQID NO: 18所示的核酸序列或基于SEQ ID NO: 18所述的核酸序列改造得到的且保留其生物学活性的核酸序列;所述改造为碱基磷酸化、碱基硫化、碱基甲基化、碱基羟基化中的一种或者多种。
2.根据权利要求1所述的CRISPR/Cas12基因编辑系统,其中,所述另外的蛋白或多肽选自表位标签、报告蛋白或核定位信号序列、胞嘧啶脱氨酶、腺嘌呤脱氨酶、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种。
3.根据权利要求1或2所述的CRISPR/Cas12基因编辑系统,其中,所述接头为长度为1-50个氨基酸的接头。
4.根据权利要求1或2所述的CRISPR/Cas12基因编辑系统,其中,所述单链向导RNA在所述CRISPR重复序列的3’端进一步包括CRISPR间隔序列,所述CRISPR间隔序列为长度为20、21、22、23、24、25、26、27、28、29、30个核苷酸且能够与靶序列互补配对的序列。
5.根据权利要求1或2所述的CRISPR/Cas12基因编辑系统,其中,所述单链向导RNA在所述CRISPR重复序列的3’端进一步包括CRISPR间隔序列,所述CRISPR间隔序列为长度为24个核苷酸且能够与靶序列互补配对的序列。
6.一种单链向导RNA,其包含CRISPR重复序列,所述CRISPR重复序列为:
a)SEQ ID NO: 18所示的核酸序列;
或者
b)基于SEQ ID NO: 18所述的核酸序列改造得到的且保留其生物学活性的核酸序列;所述改造为碱基磷酸化、碱基硫化、碱基甲基化、碱基羟基化中的一种或者多种。
7.根据权利要求6所述的单链向导RNA,其中,所述单链向导RNA在所述CRISPR重复序列的3’端进一步包括CRISPR间隔序列,所述CRISPR间隔序列为长度为20、21、22、23、24、25、26、27、28、29、30个核苷酸且能够与靶序列互补配对的序列。
8.根据权利要求6所述的单链向导RNA,其中,所述单链向导RNA在所述CRISPR重复序列的3’端进一步包括CRISPR间隔序列,所述CRISPR间隔序列为长度为24个核苷酸且能够与靶序列互补配对的序列。
9.一种分离的核酸分子,所述分离的核酸分子包含编码以下的核酸序列:
a)氨基酸序列如SEQ ID NO: 6所示的ChCas12b蛋白、或其缀合物或融合蛋白,其中所述缀合物还包含可检测标记作为修饰部分,所述融合蛋白还包含另外的蛋白或多肽、以及任选的用于连接所述ChCas12b蛋白与所述另外的蛋白或多肽的接头;以及
b)权利要求6至8中任一项所述的单链向导RNA。
10.根据权利要求9所述的分离的核酸分子,其中,所述另外的蛋白或多肽选自表位标签、报告蛋白或核定位信号序列、胞嘧啶脱氨酶、腺嘌呤脱氨酶、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种。
11.根据权利要求9所述的分离的核酸分子,其中,所述接头为长度为1-50个氨基酸的接头。
12.一种分离的核酸分子,所述分离的核酸分子包含编码权利要求6至8中任一项所述的单链向导RNA的核酸序列。
13.根据权利要求12所述的分离的核酸分子,其中,所述分离的核酸分子包含SEQ IDNO: 22所示的核酸序列或其简并序列。
14.一种载体,所述载体包含编码氨基酸序列如SEQ ID NO: 6所示的ChCas12b蛋白、其缀合物或融合蛋白的核酸序列,并且包含编码权利要求6至8中任一项所述的单链向导RNA的核酸序列,其中所述缀合物还包含可检测标记作为修饰部分,所述融合蛋白还包含另外的蛋白或多肽、以及任选的用于连接所述ChCas12b蛋白与所述另外的蛋白或多肽的接头。
15.根据权利要求14所述的载体,其中,所述另外的蛋白或多肽选自表位标签、报告蛋白或核定位信号序列、胞嘧啶脱氨酶、腺嘌呤脱氨酶、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种。
16.根据权利要求14或15所述的载体,其中,所述接头为长度为1-50个氨基酸的接头。
17.根据权利要求14或15所述的载体,其中,所述载体为质粒载体、附着体载体、逆转录病毒载体、慢病毒载体、腺病毒载体或腺相关病毒载体。
18.根据权利要求17所述的载体,其中,所述腺相关病毒载体是pAAV2_ITR载体。
19.一种载体,所述载体包含编码权利要求6至8中任一项所述的单链向导RNA的核酸序列。
20. 根据权利要求19所述的载体,其中,所述载体包含SEQ ID NO: 22所示的核酸序列或其简并序列。
21.一种细胞,所述细胞包含:权利要求9至13中任一项所述的分离的核酸分子、或者权利要求14至20中任一项所述的载体;其中所述细胞为原核细胞或者动物细胞。
22.根据权利要求21所述的细胞,其中,所述动物细胞为哺乳动物细胞。
23.根据权利要求22所述的细胞,其中,所述哺乳动物细胞为人类细胞。
24.一种对细胞内的靶序列进行基因编辑的非治疗目的的方法,所述方法包括:使以下(1)至(3)中任一项与细胞内的靶序列相接触:
(1)包含编码氨基酸序列如SEQ ID NO: 6所示的ChCas12b蛋白、或其缀合物或融合蛋白的核酸序列的载体,和根据权利要求19或20所述的载体;
(2)根据权利要求14-18中任一项所述的载体;以及
(3)根据权利要求1-5中任一项所述的CRISPR/Cas12基因编辑系统;
其中,在与靶序列接触后,所述ChCas12b蛋白、其缀合物或融合蛋白识别各自的原间隔邻近序列,所述原间隔邻近序列位于靶序列的5’端,为5’-TTN;
其中,所述缀合物还包含可检测标记作为修饰部分,所述融合蛋白还包含另外的蛋白或多肽、以及任选的用于连接所述ChCas12b蛋白与所述另外的蛋白或多肽的接头。
25.根据权利要求24所述的方法,其中,所述另外的蛋白或多肽选自表位标签、报告蛋白或核定位信号序列、胞嘧啶脱氨酶、腺嘌呤脱氨酶、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种。
26.根据权利要求24或25所述的方法,其中,所述接头为长度为1-50个氨基酸的接头。
27.根据权利要求24或25所述的方法,其中,所述细胞为原核细胞或者动物细胞。
28.根据权利要求27所述的方法,其中,所述动物细胞为哺乳动物细胞。
29.根据权利要求28所述的方法,其中,所述哺乳动物细胞为人类细胞。
30.根据权利要求24或25所述的方法,其中,所述基因编辑包括对靶序列的基因敲除、定点碱基的改变、定点插入、DNA甲基化调控、DNA乙酰化修饰、组蛋白乙酰化修饰、以及染色质成像追踪中的一种或者多种。
31.根据权利要求24或25所述的方法,其中,所述单链向导RNA的CRISPR间隔序列与所述靶序列形成完全碱基互补配对结构,而与非靶序列形成不完全碱基互补配对的结构。
32.根据权利要求31所述的方法,其中,所述不完全碱基互补配对结构包括一个或者多个碱基错配的结构。
33.根据权利要求32所述的方法,其中,所述不完全碱基互补配对结构包括两个或者更多个碱基错配的结构。
34.一种试剂盒,所述试剂盒用于对细胞内的靶序列进行基因编辑,包括:
a)选自以下1)至5)中的任一项:
1)包含编码氨基酸序列如SEQ ID NO: 6所示的ChCas12b蛋白、或其缀合物或融合蛋白的核酸序列的分离的核酸分子,和根据权利要求12或13所述的分离的核酸分子;
2)根据权利要求9-11中任一项所述的分离的核酸分子;
3)包含编码氨基酸序列如SEQ ID NO: 6所示的ChCas12b蛋白、或其缀合物或融合蛋白的核酸序列的载体,和根据权利要求19或20所述的载体;
4)根据权利要求14-18中任一项所述的载体;或者
5)根据权利要求1-5中任一项所述的CRISPR/Cas12基因编辑系统;
以及
b)如何对细胞内的靶序列进行基因编辑的说明书;
其中,所述缀合物还包含可检测标记作为修饰部分,所述融合蛋白还包含另外的蛋白或多肽、以及任选的用于连接所述ChCas12b蛋白与所述另外的蛋白或多肽的接头。
35.根据权利要求34所述的试剂盒,其中,所述另外的蛋白或多肽选自表位标签、报告蛋白或核定位信号序列、胞嘧啶脱氨酶、腺嘌呤脱氨酶、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种。
36.根据权利要求34或35所述的试剂盒,其中,所述接头为长度为1-50个氨基酸的接头。
CN202110606220.9A 2021-05-31 2021-05-31 Cas12蛋白、含有Cas12蛋白的基因编辑系统及应用 Active CN113373130B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110606220.9A CN113373130B (zh) 2021-05-31 2021-05-31 Cas12蛋白、含有Cas12蛋白的基因编辑系统及应用
PCT/CN2022/096002 WO2022253185A1 (zh) 2021-05-31 2022-05-30 Cas12蛋白、含有Cas12蛋白的基因编辑系统及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110606220.9A CN113373130B (zh) 2021-05-31 2021-05-31 Cas12蛋白、含有Cas12蛋白的基因编辑系统及应用

Publications (2)

Publication Number Publication Date
CN113373130A CN113373130A (zh) 2021-09-10
CN113373130B true CN113373130B (zh) 2023-12-22

Family

ID=77575235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110606220.9A Active CN113373130B (zh) 2021-05-31 2021-05-31 Cas12蛋白、含有Cas12蛋白的基因编辑系统及应用

Country Status (2)

Country Link
CN (1) CN113373130B (zh)
WO (1) WO2022253185A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113373130B (zh) * 2021-05-31 2023-12-22 复旦大学 Cas12蛋白、含有Cas12蛋白的基因编辑系统及应用
CN114438055B (zh) * 2021-10-26 2022-08-26 山东舜丰生物科技有限公司 新型的crispr酶和系统以及应用
CN114441772B (zh) * 2022-01-29 2023-03-21 北京大学 用于检测细胞内能够与rna结合的靶分子的方法和试剂
CN114438056B (zh) * 2022-03-03 2023-11-21 吉林省农业科学院 CasF2蛋白、CRISPR/Cas基因编辑系统及其在植物基因编辑中的应用
WO2023216037A1 (zh) * 2022-05-07 2023-11-16 上海鲸奇生物科技有限公司 Dna靶向基因编辑工具的开发
CN117187213A (zh) * 2022-06-01 2023-12-08 中国科学院遗传与发育生物学研究所 新的crispr基因编辑系统
CN116286742B (zh) * 2022-09-29 2023-11-17 隆平生物技术(海南)有限公司 CasD蛋白、CRISPR/CasD基因编辑系统及其在植物基因编辑中的应用
WO2024089629A1 (en) * 2022-10-27 2024-05-02 Geneditbio Limited Cas12 protein, crispr-cas system and uses thereof
CN116144631B (zh) * 2023-01-17 2023-09-15 华中农业大学 耐热型核酸内切酶及其介导的基因编辑系统
CN116410955B (zh) * 2023-03-10 2023-12-19 华中农业大学 两种新型核酸内切酶及其在核酸检测中的应用
CN116179512B (zh) * 2023-03-16 2023-09-15 华中农业大学 靶标识别范围广的核酸内切酶及其应用
CN117568311A (zh) * 2023-11-16 2024-02-20 广西科学院 一种用于精准基因编辑的工程化crispr酶和系统及其应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109837328A (zh) * 2018-09-20 2019-06-04 中国科学院动物研究所 核酸检测方法
CN110747187A (zh) * 2019-11-13 2020-02-04 电子科技大学 识别TTTV、TTV双PAM位点的Cas12a蛋白、植物基因组定向编辑载体及方法
WO2020181101A1 (en) * 2019-03-07 2020-09-10 The Regents Of The University Of California Crispr-cas effector polypeptides and methods of use thereof
CN112004932A (zh) * 2018-04-20 2020-11-27 中国农业大学 一种CRISPR/Cas效应蛋白及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9896696B2 (en) * 2016-02-15 2018-02-20 Benson Hill Biosystems, Inc. Compositions and methods for modifying genomes
CA3049989A1 (en) * 2017-02-10 2018-08-16 Zymergen Inc. A modular universal plasmid design strategy for the assembly and editing of multiple dna constructs for multiple hosts
JP2021533773A (ja) * 2018-08-15 2021-12-09 ザイマージェン インコーポレイテッド ハイスループット代謝操作におけるCRISPRiの適用
US11124783B2 (en) * 2018-09-13 2021-09-21 The Board Of Regents Of The University Of Oklahoma Variant CAS9 proteins with improved DNA cleavage selectivity
US20200216825A1 (en) * 2019-01-08 2020-07-09 Integrated Dna Technologies, Inc. CAS12a MUTANT GENES AND POLYPEPTIDES ENCODED BY SAME
CN112301016B (zh) * 2020-07-23 2023-09-08 广州美格生物科技有限公司 新型mlCas12a蛋白在核酸检测方面的应用
CN113373130B (zh) * 2021-05-31 2023-12-22 复旦大学 Cas12蛋白、含有Cas12蛋白的基因编辑系统及应用

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112004932A (zh) * 2018-04-20 2020-11-27 中国农业大学 一种CRISPR/Cas效应蛋白及系统
CN109837328A (zh) * 2018-09-20 2019-06-04 中国科学院动物研究所 核酸检测方法
WO2020181101A1 (en) * 2019-03-07 2020-09-10 The Regents Of The University Of California Crispr-cas effector polypeptides and methods of use thereof
CN110747187A (zh) * 2019-11-13 2020-02-04 电子科技大学 识别TTTV、TTV双PAM位点的Cas12a蛋白、植物基因组定向编辑载体及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Nobu MK等.hypothetical protein BWY07_02509 [Candidatus Hydrogenedentes bacterium ADurb.Bin170],ACCESSION NO:OQB30769.1.GenBank数据库.2017,FEATURES、ORIGIN部分. *

Also Published As

Publication number Publication date
CN113373130A (zh) 2021-09-10
WO2022253185A1 (zh) 2022-12-08

Similar Documents

Publication Publication Date Title
CN113373130B (zh) Cas12蛋白、含有Cas12蛋白的基因编辑系统及应用
KR102084186B1 (ko) Dna 단일가닥 절단에 의한 염기 교정 비표적 위치 확인 방법
AU2017204909B2 (en) Using rna-guided foki nucleases (rfns) to increase specificity for rna-guided genome editing
EP3473728B1 (en) Method for screening targeted genetic scissors by using multiple target system of on-target and off-target activity and use thereof
US11713471B2 (en) Class II, type V CRISPR systems
CN113015798B (zh) CRISPR-Cas12a酶和系统
AU2022200130A1 (en) Engineered Cas9 systems for eukaryotic genome modification
CN114438055B (zh) 新型的crispr酶和系统以及应用
WO2018195224A1 (en) Barcoded transposases to increase efficiency of high-accuracy genetic sequencing
CN113583999A (zh) Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用
CN117025570A (zh) Cas12a突变体蛋白、含有Cas12a突变体蛋白的基因编辑系统及应用
CN116751762A (zh) Cas12b蛋白、单链向导RNA、包含它们的基因编辑系统及相关应用
US20240026322A1 (en) Novel nucleic acid-guided nucleases
CN111051509A (zh) 用于电介质校准的含有c2cl核酸内切酶的组合物以及使用其进行电介质校准的方法
KR102151064B1 (ko) 매칭된 5&#39; 뉴클레오타이드를 포함하는 가이드 rna를 포함하는 유전자 교정용 조성물 및 이를 이용한 유전자 교정 방법
US20210163940A1 (en) Compositions and methods for nicking target dna sequences
US20190218533A1 (en) Genome-Scale Engineering of Cells with Single Nucleotide Precision
CN116144629A (zh) Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用
CN118165956A (zh) 基于Tsp2Cas9蛋白的CRISPR/Cas9基因编辑系统及其相关应用
CN113652411A (zh) Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用
US20240026345A1 (en) Parallel single-cell reporter assays and compositions
WO2024017189A1 (en) Tnpb-based genome editor
US20220195405A1 (en) Engineered ssdnase-free crispr endonucleases
US20240124873A1 (en) Methods and compositions for combinatorial targeting of the cell transcriptome
CN116804190A (zh) SlugCas9突变体蛋白及其相关应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant