CN111378051B - Pe-p2引导编辑系统及其在基因组碱基编辑中的应用 - Google Patents

Pe-p2引导编辑系统及其在基因组碱基编辑中的应用 Download PDF

Info

Publication number
CN111378051B
CN111378051B CN202010219352.1A CN202010219352A CN111378051B CN 111378051 B CN111378051 B CN 111378051B CN 202010219352 A CN202010219352 A CN 202010219352A CN 111378051 B CN111378051 B CN 111378051B
Authority
CN
China
Prior art keywords
sequence
leu
editing
lys
pegrna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010219352.1A
Other languages
English (en)
Other versions
CN111378051A (zh
Inventor
杨进孝
徐雯
张成伟
杨永星
康桂婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Academy of Agriculture and Forestry Sciences
Original Assignee
Beijing Academy of Agriculture and Forestry Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Academy of Agriculture and Forestry Sciences filed Critical Beijing Academy of Agriculture and Forestry Sciences
Priority to CN202010219352.1A priority Critical patent/CN111378051B/zh
Publication of CN111378051A publication Critical patent/CN111378051A/zh
Application granted granted Critical
Publication of CN111378051B publication Critical patent/CN111378051B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/005Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from viruses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8201Methods for introducing genetic material into plant cells, e.g. DNA, RNA, stable or transient incorporation, tissue culture methods adapted for transformation
    • C12N15/8213Targeted insertion of genes into the plant genome by homologous recombination
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/10Transferases (2.)
    • C12N9/12Transferases (2.) transferring phosphorus containing groups, e.g. kinases (2.7)
    • C12N9/1241Nucleotidyltransferases (2.7.7)
    • C12N9/1276RNA-directed DNA polymerase (2.7.7.49), i.e. reverse transcriptase or telomerase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y207/00Transferases transferring phosphorus-containing groups (2.7)
    • C12Y207/07Nucleotidyltransferases (2.7.7)
    • C12Y207/07049RNA-directed DNA polymerase (2.7.7.49), i.e. telomerase or reverse-transcriptase
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2770/00MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssRNA viruses positive-sense
    • C12N2770/00011Details
    • C12N2770/32011Picornaviridae
    • C12N2770/32311Enterovirus
    • C12N2770/32322New viral proteins or individual genes, new structural or functional aspects of known viral proteins or genes

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Virology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Cell Biology (AREA)
  • Physics & Mathematics (AREA)
  • Plant Pathology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

本发明公开了PE‑P2引导编辑系统及其在基因组碱基编辑中的应用。所述PE‑P2引导编辑系统包括融合蛋白、pegRNA;所述融合蛋白为依次由Cas9切刻酶或其变体、反转录酶、自切割寡肽和筛选标记蛋白组成的融合蛋白或依次由筛选标记蛋白、自切割寡肽、Cas9切刻酶或其变体和反转录酶组成的融合蛋白。本发明通过自剪切多肽P2A使得PE‑P1系统中的RT、Cas9n(H840A)和HPT三者融合表达,并将sgRNA骨架替换为了esgRNA骨架,得到PE‑P2引导编辑系统。与PE‑P1引导编辑系统相比,本发明的PE‑P2引导编辑系统不仅可提高编辑靶点的编辑效率,还实现了不可编辑靶点的有效编辑。

Description

PE-P2引导编辑系统及其在基因组碱基编辑中的应用
技术领域
本发明属于生物技术领域,具体涉及PE-P2引导编辑系统及其在基因组碱基编辑中的应用。
背景技术
CRISPR-Cas9技术已经成为强有力的基因组编辑手段,被广泛应用到很多组织和细胞中。CRISPR/Cas9 protein-RNA复合物通过向导RNA(guide RNA)定位于靶点上,切割产生DNA双链断裂(dsDNA break,DSB),而后生物体会本能的启动DNA修复机制修复DSB。修复机制一般有两种,一种是非同源末端连接(non-homologous end joining,NHEJ),另一种是同源重组(homology-directed repair,HDR)。通常情况下NHEJ占大多数,因此修复产生的随机的indels(insertions or deletions)比精确修复高很多。对于碱基精确替换,因为HDR效率低以及需要DNA模板,所以使用HDR实现碱基精确替换的应用受到很大的限制。2016年和2017年相继报道的胞嘧啶碱基编辑器和腺嘌呤碱基编辑器虽可以精确的实现胞嘧啶(Cytosine,C)到胸腺嘧啶(Thymine,T)以及腺嘌呤(Adenine,A)到鸟嘌呤(Guanine,G)的转换,且不产生DSB也不引入DNA模板,但无法实现嘌呤和嘧啶之间的颠换,即无法实现A到T的替换、T到A的替换、C到G的替换、G到C的替换、A到C的替换、T到G的替换、C到A的替换、G到T的替换。同时,碱基编辑器只能编辑活性窗口内的C或T,而且当活性窗口内存在多个C或多个T时,容易产生靶标C或T与非靶标C或T共编辑而不能最终得到预期编辑产物。所有这些弊端大大限制了碱基编辑器的实际应用。
2019年,David Liu实验室报道了一种新的基因组编辑技术,即引导编辑技术(Prime editing),开发了三种引导编辑器(Prime editor,PE),分别是PE1、PE2和PE3。所有这三种PE均为反转录酶(reverse transcriptase,RT)与Cas9 H840A切口酶(Cas9n(H840A))融合在一起,使用引导编辑技术向导RNA(prime editing guide RNA,pegRNA)实现基因组编辑。pegRNA除了包含通常的向导RNA(sgRNA)外,还包含一段含有目标碱基突变的RT模板以及引物结合位点(primer binding site,PBS)。实验表明该技术可在动物细胞基因组中实现所有12种碱基替换类型的编辑,打破了传统碱基编辑器的限制,大大提高了碱基编辑范围。
目前,虽然引导编辑技术可以实现所有类型的碱基替换,但仍然存在碱基编辑效率不高,或是部分位点不能被编辑的问题。
发明内容
第一方面,本发明保护一种成套系统。
本发明保护的成套系统包括融合蛋白或与所述融合蛋白相关的生物材料、pegRNA或与所述pegRNA相关的生物材料;
所述融合蛋白为依次由Cas9切刻酶或其变体、反转录酶、自切割寡肽和筛选标记蛋白组成的融合蛋白或依次由筛选标记蛋白、自切割寡肽、Cas9切刻酶或其变体和反转录酶组成的融合蛋白。
上述成套系统中,所述Cas9切刻酶可为Cas9n(H840A);
所述Cas9切刻酶变体包括来源于细菌的Cas9(如SaCas9、SaCas9-KKH等),识别不同PAM的Cas9变体(如xCas9、Cas9-NG、Cas9-VQR、Cas9-VRER等),Cas9高保真酶变体(如HypaCas9、eSpCas9(1.1)、Cas9-HF1等)等。
进一步的,所述Cas9切刻酶为Cas9n(H840A);所述Cas9n(H840A)为A1)或A2):
A1)氨基酸序列是序列2所示的蛋白质;
A2)将序列2所示的氨基酸序列经过一个或几个氨基酸残基的取代和/或缺失和/或添加且具有相同功能的蛋白质。
更进一步的,所述Cas9n(H840A)的编码基因为a1)或a2)或a3):
a1)序列1第3013-7113位所示的cDNA分子或DNA分子;
a2)与a1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述Cas9n(H840A)的cDNA分子或DNA分子;
a3)在严格条件下与a1)或a2)限定的核苷酸序列杂交,且编码所述Cas9n(H840A)的cDNA分子或DNA分子。
上述方法中,所述反转录酶可为来源于病毒中的反转录酶,如来源于莫洛尼小鼠白血病病毒(Moloney murine leukemia virus,M-MLV)的反转录酶、来源于花椰菜花叶病毒(CaMV)的反转录酶等,也可为来源于细菌中的病毒,如来源于大肠杆菌中的反转录酶等。
进一步的,所述反转录酶为来源于莫洛尼小鼠白血病病毒的反转录酶(M-MLVRT);所述M-MLV RT为B1)或B2):
B1)氨基酸序列是序列3所示的蛋白质;
B2)将序列3所示的氨基酸序列经过一个或几个氨基酸残基的取代和/或缺失和/或添加且具有相同功能的蛋白质;
更进一步的,所述M-MLV RT的编码基因为b1)或b2)或b3):
b1)序列1第7213-9243位所示的cDNA分子或DNA分子;
b2)与b1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述M-MLV RT的cDNA分子或DNA分子;
b3)在严格条件下与b1)或b2)限定的核苷酸序列杂交,且编码所述M-MLV RT的cDNA分子或DNA分子。
上述方法中,所述自切割寡肽可为来源于病毒基因组的2A自切割寡肽,如口蹄疫病毒(FMDV)(F2A)肽、马A型鼻炎病毒(ERAV)(E2A)肽、明脉扁刺蛾β四体病毒(Thoseaasigna virus)(T2A)肽、猪捷申病毒-1(PTV-1)(P2A)肽、泰勒病毒2A肽以及脑心肌炎病毒2A肽。
进一步的,所述自切割寡肽为来源于猪捷申病毒-1的2A自切割寡肽(P2A);所述P2A的氨基酸序列为C1)或C2):
C1)氨基酸序列是序列6所示的蛋白质;
C2)将序列6所示的氨基酸序列经过一个或几个氨基酸残基的取代和/或缺失和/或添加且具有相同功能的蛋白质;
更进一步的,所述P2A的编码基因为c1)或c2)或c3):
c1)序列5第8674-8730位所示的cDNA分子或DNA分子;
c2)与c1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述P2A的cDNA分子或DNA分子;
c3)在严格条件下与c1)或c2)限定的核苷酸序列杂交,且编码所述P2A的cDNA分子或DNA分子。
上述成套系统中,所述筛选剂抗性蛋白为潮霉素磷酸转移酶;
进一步的,所述潮霉素磷酸转移酶为D1)或D2):
D1)氨基酸序列是序列4所示的蛋白质;
D2)将序列4所示的氨基酸序列经过一个或几个氨基酸残基的取代和/或缺失和/或添加且具有相同功能的蛋白质。
更进一步的,所述潮霉素磷酸转移酶的编码基因为d1)或d2)或d3):
d1)序列1第11665-12690位所示的cDNA分子或DNA分子;
d2)与d1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述潮霉素磷酸转移酶的cDNA分子或DNA分子;
d3)在严格条件下与d1)或d2)限定的核苷酸序列杂交,且编码所述潮霉素磷酸转移酶的cDNA分子或DNA分子。
上述成套系统中,所述pegRNA依次由靶点序列(记作靶点序列甲)、sgRNA骨架或esgRNA骨架、RT序列和PBS序列组成。
所述RT序列为靶点序列3’端3个碱基及其后连续的一段基因组序列的反向互补序列,且在其中引入目标突变,作为反转录酶的反转录模板,反转录出cDNA,然后作为修复模板,对基因组DNA进行修复。所述RT序列大小进一步可为8-34bp。
所述PBS序列(引物结合位点序列)为5’端第n个碱基到第17个碱基靶点序列的反向互补序列(1≤n<17)。
所述RT序列和所述PBS序列的设计方法或原理可参照现有技术中已报道的有关于引导编辑技术(Prime editing,PE)中与pegRNA的RT序列和PBS序列相关的设计方法或原理。
所述sgRNA骨架为E1)或E2)或E3):
E1)将序列1第570-645位中的T替换为U得到的RNA分子;
E2)将E1)所示的RNA分子经过一个或几个核苷酸的取代和/或缺失和/或添加且具有相同功能的RNA分子;
E3)与E1)或E2)限定的核苷酸序列具有75%或75%以上同一性且具有相同功能的RNA分子;
所述esgRNA骨架为F1)或F2)或F3):
F1)将序列5第10512-10597位中的T替换为U得到的RNA分子;
F2)将F1)所示的RNA分子经过一个或几个核苷酸的取代和/或缺失和/或添加且具有相同功能的RNA分子;
F3)与F1)或F2)限定的核苷酸序列具有75%或75%以上同一性且具有相同功能的RNA分子。
上述成套系统还可包括如下G1)或G2):
G1)sgRNA或与所述sgRNA相关的生物材料;
G2)esgRNA或与所述esgRNA相关的生物材料。
所述G1)中,所述sgRNA依次由靶点序列(记作靶点序列乙)和上述sgRNA骨架组成。该sgRNA用于产生非编辑链切口,非编辑链切口位点可以随意选择。所述靶点序列甲与所述靶点序列乙分别位于目标DNA的两条链上,二者可以互补重合或部分互补重合,也可以有一定距离。
所述G2)中,所述esgRNA依次由靶点序列(记作靶点序列丙)和上述esgRNA骨架组成。该esgRNA用于产生非编辑链切口,非编辑链切口位点可以随意选择。所述靶点序列甲与所述靶点序列丙分别位于目标DNA的两条链上,二者可以互补重合或部分互补重合,也可以有一定距离。
上述成套系统的用途具体如下:
S1)生物体或生物细胞基因组序列的编辑;
S2)制备生物体或生物细胞基因组序列的编辑的产品;
S3)提高生物体或生物细胞基因组序列的编辑效率;
S4)制备提高生物体或生物细胞基因组序列的编辑效率的产品。
第二方面,本发明保护上述成套系统或上述成套系统中的融合蛋白在S1)-S4)任一种中的应用:
S1)生物体或生物细胞基因组序列的编辑;
S2)制备生物体或生物细胞基因组序列的编辑的产品;
S3)提高生物体或生物细胞基因组序列的编辑效率;
S4)制备提高生物体或生物细胞基因组序列的编辑效率的产品。
第三方面,本发明保护如下T1)-T4)所述的方法:
T1)基因组序列的编辑方法或提高生物体或生物细胞基因组序列的编辑效率的方法,包括如下步骤:使生物体或生物细胞表达上述融合蛋白和上述pegRNA;所述pegRNA靶向靶点序列甲,用于实现对基因组序列的编辑;
T2)基因组序列的编辑方法或提高生物体或生物细胞基因组序列的编辑效率的方法,包括如下步骤:使生物体或生物细胞表达上述融合蛋白、上述pegRNA和上述sgRNA;所述pegRNA靶向靶点序列甲,用于实现对基因组序列的编辑;所述sgRNA靶向靶点序列乙,用于在非编辑链上产生切口,以提高目标突变的编辑效率。
T3)基因组序列的编辑方法或提高生物体或生物细胞基因组序列的编辑效率的方法,包括如下步骤:使生物体或生物细胞表达上述融合蛋白、上述pegRNA和上述esgRNA;所述pegRNA靶向靶点序列甲,用于实现对基因组序列的编辑;所述esgRNA靶向靶点序列丙,用于在非编辑链上产生切口,以提高目标突变的编辑效率。
T4)生物突变体的制备方法,包括如下步骤:按照T1)-T3)所述的方法对生物体的基因组进行编辑,获得生物突变体。
上述方法中,所述T1)中,所述使生物体或生物细胞表达上述融合蛋白和上述pegRNA的方法为将上述融合蛋白的编码基因和转录上述pegRNA的DNA分子导入目的植物中。
所述T2)中,所述使生物体或生物细胞表达上述融合蛋白、上述pegRNA和上述sgRNA的方法为将上述融合蛋白的编码基因、转录上述pegRNA的DNA分子和转录上述sgRNA的DNA分子导入目的植物中。
所述T3)中,所述使生物体或生物细胞表达上述融合蛋白、上述pegRNA和上述esgRNA的方法为将上述融合蛋白的编码基因、转录上述pegRNA的DNA分子和转录上述esgRNA的DNA分子导入目的植物中。
进一步的,所述T3)中,所述融合蛋白的编码基因、所述转录上述pegRNA的DNA分子和所述转录上述esgRNA的DNA分子通过重组表达载体导入目的植物中。所述融合蛋白的编码基因、所述转录上述pegRNA的DNA分子和所述转录上述esgRNA的DNA分子可通过同一个重组表达载体导入目的植物中,也可通过两个或者多个重组表达载体共同导入目的植物中。
在本发明的具体实施例中,所述融合蛋白的编码基因、所述转录上述pegRNA的DNA分子和所述转录上述esgRNA的DNA分子通过同一个重组表达载体导入目的植物中。所述重组表达载体包括依次由启动子、Cas9n(H840A)的编码基因、反转录酶M-MLV RT的编码基因、自切割寡肽P2A的编码基因、筛选剂抗性蛋白HPT的编码基因和终止子组成的表达盒,依次由启动子、所述转录esgRNA的DNA分子和poly T组成的表达盒和依次由启动子、所述转录pegRNA的DNA分子和poly T组成的表达盒。
更进一步的,所述重组表达载体为PE-P2-1载体、PE-P2-2载体、PE-P2-3载体、PE-P2-4载体或PE-P2-5载体。所述PE-P2-1重组表达载体中的pegRNA记作pegRNA-01,所述PE-P2-2重组表达载体中的pegRNA记作pegRNA-02,所述PE-P2-3重组表达载体中的pegRNA记作pegRNA-03,所述PE-P2-4重组表达载体中的pegRNA记作pegRNA-04,所述PE-P2-5重组表达载体中的pegRNA记作pegRNA-05。
所述PE-P2-1重组表达载体的核苷酸序列为序列表中的序列5。所述PE-P2-1重组表达载体中pegRNA-01所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-01靶点序列和pegRNA-01上的RT序列与PBS序列具体见表1。
所述PE-P2-2重组表达载体的核苷酸序列为将所述PE-P2-1重组表达载体序列中pegRNA-01所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-01靶点序列和pegRNA-01上的RT序列与PBS序列分别替换为pegRNA-02所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-02靶点序列和pegRNA-02上的RT序列与PBS序列,且保持其他序列不变后得到的序列。所述PE-P2-2重组表达载体中pegRNA-02所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-02靶点序列和pegRNA-02上的RT序列与PBS序列具体见表1。
所述PE-P2-3重组表达载体的核苷酸序列为将所述PE-P2-1重组表达载体序列中pegRNA-01所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-01靶点序列和pegRNA-01上的RT序列与PBS序列分别替换为pegRNA-03所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-03靶点序列和pegRNA-03上的RT序列与PBS序列,且保持其他序列不变后得到的序列。所述PE-P2-3重组表达载体中pegRNA-03所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-03靶点序列和pegRNA-03上的RT序列与PBS序列具体见表1。
PE-P2-4重组表达载体的核苷酸序列为将所述PE-P2-1重组表达载体序列中pegRNA-01所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-01靶点序列和pegRNA-01上的RT序列与PBS序列分别替换为pegRNA-04所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-04靶点序列和pegRNA-04上的RT序列与PBS序列,且保持其他序列不变后得到的序列。所述PE-P2-4重组表达载体中pegRNA-04所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-04靶点序列和pegRNA-04上的RT序列与PBS序列具体见表1。
PE-P2-5重组表达载体的核苷酸序列为将所述PE-P2-1重组表达载体序列中pegRNA-01所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-01靶点序列和pegRNA-01上的RT序列与PBS序列分别替换为pegRNA-05所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-05靶点序列和pegRNA-05上的RT序列与PBS序列,且保持其他序列不变后得到的序列。所述PE-P2-5重组表达载体中pegRNA-05所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-05靶点序列和pegRNA-05上的RT序列与PBS序列具体见表1。
上述任一所述成套系统或应用或方法中,所述基因组序列的编辑包括所述基因组序列的碱基替换(如单碱基替换和多碱基替换)、碱基插入(如单碱基插入和多碱基插入)和碱基删除(如单碱基删除和多碱基删除)。在本发明的具体实施例中,所述基因组序列的编辑为基因组序列的碱基替换。
上述任一所述成套系统或应用或方法中,所述生物体为X1)或X2)或X3)或X4):X1)植物或动物;X2)单子叶植物或双子叶植物;X3)禾本科植物;X4)水稻。所述生物细胞为Y1)或Y2)或Y3)或Y4):Y1)植物细胞或动物细胞;Y2)单子叶植物细胞或双子叶植物细胞;Y3)禾本科植物细胞;Y4)水稻细胞。
本发明通过自剪切多肽(a self-cleavage 2A peptide)P2A使得PE系统中的RT和Cas9n(H840A)和潮霉素磷酸转移酶(HPT)三者融合表达,且将sgRNA替换为esgRNA,提供了PE-P2引导编辑系统。与PE-P1引导编辑系统相比,本发明的PE-P2引导编辑系统不仅可提高编辑靶点的编辑效率,还实现了不可编辑靶点的编辑。
附图说明
图1为两种引导编辑系统PE-P1和PE-P2的表达载体的结构示意图。
图2为pegRNA向导的Cas9n(H840A)切割位点示意图。
具体实施方式
下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的材料、试剂、仪器等,如无特殊说明,均可从商业途径得到。下述实施例中,如无特殊说明,序列表中各核苷酸序列的第1位均为相应DNA/RNA的5′末端核苷酸,末位均为相应DNA/RNA的3′末端核苷酸。
引物对OsALS-1由引物OsALS-1-F:5’-gcgcccgattctctatgtc-3’和引物OsALS-1-R:5’-tcctgccatcaccatccag-3’组成,用于扩增靶点OsALS-1。
引物对OsALS-2由引物OsALS-2-F:5’-gtcatcaccaaccacctcttcc-3’和引物OsALS-2-R:5’-gacatagagaatcgggcgc-3’组成,用于扩增靶点OsALS-2。
引物对OsACC由引物OsACC-F:5’-gtgctggacaagtgtggtttc-3’和引物OsACC-R:5’-gatcgtgattcttcccagtcc-3’组成,用于扩增靶点OsACC。
引物对OsDEP1由引物OsDEP1-F:5’-cgtgctctaccaattgctgta-3’和引物OsDEP1-R:5’-atatcttcacggtctattggcg-3’组成,用于扩增靶点OsDEP1。
以下实施例中,
引导编辑器碱基替换效率=发生目标突变的阳性T0苗数/分析的总阳性T0苗数×100%。
日本晴水稻:参考文献:梁卫红,王高华,杜京尧,等.硝普钠及其光解产物对日本晴水稻幼苗生长和5种激素标记基因表达的影响[J].河南师范大学学报(自然版),2017(2):48-52.;公众可以从北京市农林科学院获得。
恢复培养基:含有200mg/L特美汀的N6固体培养基。
筛选培养基:含有50mg/L潮霉素的N6固体培养基。
分化培养基:含有2mg/L KT、0.2mg/L NAA、0.5g/L谷氨酸、0.5g/L脯氨酸的N6固体培养基。
生根培养基:含有0.2mg/L NAA、0.5g/L谷氨酸、0.5g/L脯氨酸的N6固体培养基。
实施例1、PE-P2引导编辑系统的表达载体的构建及其在提高碱基编辑效率中的应用
一、两种引导编辑系统PE-P1和PE-P2的表达载体的设计与构建
1、两种引导编辑系统PE-P1和PE-P2的表达载体的设计
两种引导编辑系统PE-P1和PE-P2的表达载体的结构示意图如图1所示。
引导编辑系统PE-P1的表达载体包括pegRNA表达盒、sgRNA表达盒、由Cas9n(H840A)和M-MLV RT组成的融合蛋白的表达盒和筛选剂抗性蛋白表达盒。
引导编辑系统PE-P2包括pegRNA表达盒、esgRNA表达盒、由Cas9n(H840A)、M-MLVRT、自剪切多肽P2A和筛选剂抗性蛋白组成的融合蛋白的表达盒。
2、两种引导编辑系统PE-P1和PE-P2的表达载体的构建
人工合成如下重组载体,各载体均为环状质粒:
引导编辑系统PE-P1的重组表达载体共计5个,分别是PE-P1-1载体,PE-P1-2载体,PE-P1-3载体,PE-P1-4载体和PE-P1-5载体。
引导编辑系统PE-P2的重组表达载体共计5个,分别是PE-P2-1载体,PE-P2-2载体,PE-P2-3载体,PE-P2-4载体和PE-P2-5载体。
将PE-P1-1重组表达载体和PE-P2-1重组表达载体中的pegRNA记作pegRNA-01,将PE-P1-2重组表达载体和PE-P2-2重组表达载体中的pegRNA记作pegRNA-02,将PE-P1-3重组表达载体和PE-P2-3重组表达载体中的pegRNA记作pegRNA-03,将PE-P1-4重组表达载体和PE-P2-4重组表达载体中的pegRNA记作pegRNA-04,将PE-P1-5重组表达载体和PE-P2-5重组表达载体中的pegRNA记作pegRNA-05。
PE-P1-1重组表达载体的序列为序列表中的序列1。其中,序列1的第84-549位为OsU6a启动子的核苷酸序列,第550-569位为产生非编辑链切口的sgRNA靶点序列,第570-645位为产生非编辑链切口的sgRNA骨架序列,第646-654位为Poly T;序列1的第655-1035位为OsU3启动子的核苷酸序列,第1036-1055位为pegRNA-01靶点序列,第1056-1131位为pegRNA-01所对应的sgRNA骨架序列,第1132-1158位为pegRNA-01上的RT序列与PBS序列,第1159-1166位为Poly T;序列1的第1173-2886位为OsUbq3启动子的核苷酸序列,第3013-7113位为Cas9n(H840A)蛋白质的编码序列(不含有终止密码子),编码序列2所示的Cas9n(H840A)蛋白质;序列1的第7213-9243位为M-MLV RT蛋白质的编码序列,编码序列3所示的M-MLV RT蛋白质;序列1的第9397-9591位为35S终止子序列;序列1的第9666-11658位为ZmUbi1启动子的核苷酸序列,第11665-12690位为潮霉素磷酸转移酶的编码序列,编码序列4所示的潮霉素磷酸转移酶蛋白质;序列1的第12717-12932位为CaMV35S polyA的核苷酸序列。PE-P1-1重组表达载体中产生非编辑链切口的sgRNA靶点序列、pegRNA-01靶点序列和pegRNA-01上的RT序列与PBS序列具体见表1。
PE-P1-2重组表达载体的核苷酸序列为将PE-P1-1重组表达载体序列中产生非编辑链切口的sgRNA靶点序列、pegRNA-01靶点序列和pegRNA-01上的RT序列与PBS序列分别替换为pegRNA-02所对应的产生非编辑链切口的sgRNA靶点序列、pegRNA-02靶点序列和pegRNA-02上的RT序列与PBS序列,且保持其他序列不变后得到的序列。PE-P1-2重组表达载体中pegRNA-02所对应的产生非编辑链切口的sgRNA靶点序列、pegRNA-02靶点序列和pegRNA-02上的RT序列与PBS序列具体见表1。
PE-P1-3重组表达载体的核苷酸序列为将PE-P1-1重组表达载体序列中产生非编辑链切口的sgRNA靶点序列、pegRNA-01靶点序列和pegRNA-01上的RT序列与PBS序列分别替换为pegRNA-03所对应的产生非编辑链切口的sgRNA靶点序列、pegRNA-03靶点序列和pegRNA-03上的RT序列与PBS序列,且保持其他序列不变后得到的序列。PE-P1-3重组表达载体中pegRNA-03所对应的产生非编辑链切口的sgRNA靶点序列、pegRNA-03靶点序列和pegRNA-03上的RT序列与PBS序列具体见表1。
PE-P1-4重组表达载体的核苷酸序列为将PE-P1-1重组表达载体序列中产生非编辑链切口的sgRNA靶点序列、pegRNA-01靶点序列和pegRNA-01上的RT序列与PBS序列分别替换为pegRNA-04所对应的产生非编辑链切口的sgRNA靶点序列、pegRNA-04靶点序列和pegRNA-04上的RT序列与PBS序列,且保持其他序列不变后得到的序列。PE-P1-4重组表达载体中pegRNA-04所对应的产生非编辑链切口的sgRNA靶点序列、pegRNA-04靶点序列和pegRNA-04上的RT序列与PBS序列具体见表1。
PE-P1-5重组表达载体的核苷酸序列为将PE-P1-1重组表达载体序列中产生非编辑链切口的sgRNA靶点序列、pegRNA-01靶点序列和pegRNA-01上的RT序列与PBS序列分别替换为pegRNA-05所对应的产生非编辑链切口的sgRNA靶点序列、pegRNA-05靶点序列和pegRNA-05上的RT序列与PBS序列,且保持其他序列不变后得到的序列。PE-P1-5重组表达载体中pegRNA-05所对应的产生非编辑链切口的sgRNA靶点序列、pegRNA-05靶点序列和pegRNA-05上的RT序列与PBS序列具体见表1。
PE-P2-1重组表达载体的核苷酸序列为序列表中的序列5。其中,序列5的第102-2073位为ZmUbi1启动子的核苷酸序列,第2293-6393为Cas9n(H840A)蛋白质的编码序列(不含有终止密码子),编码序列2所示的Cas9n(H840A)蛋白质;序列5的第6493-8523位为M-MLVRT蛋白质的编码序列,编码序列3所示的M-MLV RT蛋白质;序列5的第8674-8730位为P2A的编码序列,编码序列6所示的蛋白质;序列5的第8731-9756位为潮霉素磷酸转移酶的编码序列,编码序列4所示的潮霉素磷酸转移酶蛋白质;序列5的第9763-10017位为Nos终止子序列;序列5的第10026-10491位为OsU6a启动子的核苷酸序列,第10492-10511位为产生非编辑链切口的esgRNA靶点序列,第10512-10597位为产生非编辑链切口的esgRNA骨架序列,第10598-10604位为Poly T;序列5的第10605-10985位为OsU3启动子的核苷酸序列,第10986-11005位为pegRNA-01靶点序列,第11006-11091位为pegRNA-01所对应的esgRNA骨架序列,第11092-11118位为pegRNA-01上的RT序列与PBS序列,第11119-11126位为Poly T。PE-P2-1重组表达载体中产生非编辑链切口的esgRNA靶点序列、pegRNA-01靶点序列和pegRNA-01上的RT序列与PBS序列具体见表1。
PE-P2-2重组表达载体的核苷酸序列为将PE-P2-1重组表达载体序列中产生非编辑链切口的esgRNA靶点序列、pegRNA-01靶点序列和pegRNA-01上的RT序列与PBS序列分别替换为pegRNA-02所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-02靶点序列和pegRNA-02上的RT序列与PBS序列,且保持其他序列不变后得到的序列。PE-P2-2重组表达载体中pegRNA-02所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-02靶点序列和pegRNA-02上的RT序列与PBS序列具体见表1。
PE-P2-3重组表达载体的核苷酸序列为将PE-P2-1重组表达载体序列中产生非编辑链切口的esgRNA靶点序列、pegRNA-01靶点序列和pegRNA-01上的RT序列与PBS序列分别替换为pegRNA-03所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-03靶点序列和pegRNA-03上的RT序列与PBS序列,且保持其他序列不变后得到的序列。PE-P2-3重组表达载体中的pegRNA-03所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-03靶点序列和pegRNA-03上的RT序列与PBS序列具体见表1。
PE-P2-4重组表达载体的核苷酸序列为将PE-P2-1重组表达载体序列中产生非编辑链切口的esgRNA靶点序列、pegRNA-01靶点序列和pegRNA-01上的RT序列与PBS序列分别替换为pegRNA-04所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-04靶点序列和pegRNA-04上的RT序列与PBS序列,且保持其他序列不变后得到的序列。PE-P2-4重组表达载体中的pegRNA-04所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-04靶点序列和pegRNA-04上的RT序列与PBS序列具体见表1。
PE-P2-5重组表达载体的核苷酸序列为将PE-P2-1重组表达载体序列中pegRNA-01所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-01靶点序列和pegRNA-01上的RT序列与PBS序列分别替换为pegRNA-05所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-05靶点序列和pegRNA-05上的RT序列与PBS序列,且保持其他序列不变后得到的序列。PE-P2-5重组表达载体中的pegRNA-05所对应的产生非编辑链切口的esgRNA靶点序列、pegRNA-05靶点序列和pegRNA-05上的RT序列与PBS序列具体见表1。
各载体的pegRNA上的靶点序列和RT序列与PBS序列,以及用于产生非编辑链切口的sgRNA或esgRNA靶点序列如表1所示。
表1、编辑靶点的详细信息
Figure BDA0002425527380000091
二、水稻阳性T0苗的获得
将步骤一获得的PE-P1-1载体,PE-P1-2载体,PE-P1-3载体,PE-P1-4载体,PE-P1-5载体,PE-P2-1载体,PE-P2-2载体,PE-P2-3载体,PE-P2-4载体和PE-P2-5载体分别按照如下步骤1-8进行操作:
1、将载体导入农杆菌EHA105(上海唯地生物技术有限公司的产品,CAT#:AC1010),得到重组农杆菌。
2、采用培养基(含50μg/ml卡那霉素和25μg/ml利福平的YEP培养基)培养重组农杆菌,28℃,150rpm震荡培养至OD600为1.0-2.0,室温条件下,10000rpm离心1min,用侵染液(将N6液体培养基中的糖替换为葡萄糖和蔗糖,葡萄糖和蔗糖在侵染液中的浓度分别为10g/L和20g/L)重悬菌体并稀释至OD600为0.2,得到农杆菌侵染液。
3、水稻品种日本晴成熟种子去壳脱粒,置于100mL三角瓶中,加入70%(v/v)乙醇水溶液浸泡30sec,再置于25%(v/v)次氯酸钠水溶液中,120rpm震荡灭菌30min,无菌水冲洗3次,用滤纸吸干水分,然后将种子胚朝下置于N6固体培养基上,28℃暗培养4-6周,得到水稻愈伤。
4、完成步骤3后,将水稻愈伤浸泡置于农杆菌侵染液甲(农杆菌侵染液甲为向农杆菌侵染液中加入乙酰丁香酮得到的液体,乙酰丁香酮的添加量满足乙酰丁香酮与农杆菌侵染液的体积比为25μl:50ml)中浸泡10min,然后,放在铺有两层灭菌滤纸的培养皿(内含约200ml不含农杆菌的侵染液)上,21℃暗培养1天。
5、取步骤4得到的水稻愈伤放入恢复培养基上,25-28℃暗培养3天。
6、取步骤5得到的水稻愈伤,置于筛选培养基上,28℃暗培养2周。
7、取步骤6得到的水稻愈伤,再次置于筛选培养基上,28℃暗培养2周,得到水稻抗性愈伤。
8、取步骤7得到的水稻抗性愈伤放入分化培养基上,25℃光照培养1个月左右,将分化出来的小苗移至生根培养基上,25℃光照培养2周,获取水稻T0苗。
三、结果分析
1、每载体分别取步骤二所获得的水稻T0苗的基因组DNA作为模板,对于OsALS-1靶点,采用引物对OsALS-1进行PCR扩增,得到PCR扩增产物;对于OsALS-2靶点,采用引物对OsALS-2进行PCR扩增,得到PCR扩增产物;对于OsACC靶点,采用引物对OsACC进行PCR扩增,得到PCR扩增产物;对于OsDEP1靶点,采用引物对OsDEP1进行PCR扩增,得到PCR扩增产物。
2、将步骤1得到的PCR扩增产物进行Sanger测序及分析。测序结果只针对各pegRNA区进行分析。分别统计各靶点发生目标碱基替换的T0苗数,计算得出引导编辑器碱基替换效率,结果见表2。
结果表明,对所有四个靶点,五种pegRNA设计,引导编辑系统PE-P2的碱基替换效率均较PE-P1高。增效最高高达21.7倍(OsALS-1靶点,pegRNA-04设计)。而且引导编辑系统PE-P1不能对靶点OsACC和OsDEP1进行目标突变的碱基编辑,而引导编辑系统PE-P2能够实现对二者的编辑,且对OsDEP1靶点的编辑效率高达9.1%。相对于引导编辑系统PE-P1,引导编辑系统PE-P2不仅提高了碱基编辑效率,而且对部分不能编辑的靶点实现了有效编辑。
表2、不同类型引导编辑器对水稻内源靶点的编辑效率汇总
Figure BDA0002425527380000101
Figure BDA0002425527380000111
注:紧邻pegRNA向导的Cas9n(H840A)产生的切口位点处的靶点序列的第18位碱基记为+1,下游按照顺序依次计数(图2)。sgRNA切口位置,表示在互补链选择的靶点产生的切口的位置,计数方式同上。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
序列表
<110> 北京市农林科学院
<120> PE-P2引导编辑系统及其在基因组碱基编辑中的应用
<160> 6
<170> PatentIn version 3.5
<210> 1
<211> 19449
<212> DNA
<213> Artificial Sequence
<400> 1
ggtggcagga tatattgtgg tgtaaacaaa ttgacgctta gacaacttaa taacacattg 60
cggacgtttt taatgtaggt acctggaatc ggcagcaaag gattttttcc tgtagttttc 120
ccacaaccat tttttaccat ccgaatgata ggataggaaa aatatccaag tgaacagtat 180
tcctataaaa ttcccgtaaa aagcctgcaa tccgaatgag ccctgaagtc tgaactagcc 240
ggtcacctgt acaggctatc gagatgccat acaagagacg gtagtaggaa ctaggaagac 300
gatggttgat tcgtcaggcg aaatcgtcgt cctgcagtcg catctatggg cctggacgga 360
ataggggaaa aagttggccg gataggaggg aaaggcccag gtgcttacgt gcgaggtagg 420
cctgggctct cagcacttcg attcgttggc accggggtag gatgcaatag agagcaacgt 480
ttagtaccac ctcgcttagc tagagcaaac tggactgcct tatatgcgcg ggtgctggct 540
tggctgccga tatctcgctc tcacattccg ttttagagct agaaatagca agttaaaata 600
aggctagtcc gttatcaact tgaaaaagtg gcaccgagtc ggtgcttttt ttttaggaat 660
ctttaaacat acgaacagat cacttaaagt tcttctgaag caacttaaag ttatcaggca 720
tgcatggatc ttggaggaat cagatgtgca gtcagggacc atagcacaag acaggcgtct 780
tctactggtg ctaccagcaa atgctggaag ccgggaacac tgggtacgtt ggaaaccacg 840
tgtgatgtga aggagtaaga taaactgtag gagaaaagca tttcgtagtg ggccatgaag 900
cctttcagga catgtattgc agtatgggcc ggcccattac gcaattggac gacaacaaag 960
actagtatta gtaccacctc ggctatccac atagatcaaa gctggtttaa aagagttgtg 1020
cagatgatcc gtggcgggta tggtggtgca atggggtttt agagctagaa atagcaagtt 1080
aaaataaggc tagtccgtta tcaacttgaa aaagtggcac cgagtcggtg caaacctatc 1140
ctccaattgc accaccattt ttttttaagc ttacaaattc gggtcaaggc ggaagccagc 1200
gcgccacccc acgtcagcaa atacggaggc gcggggttga cggcgtcacc cggtcctaac 1260
ggcgaccaac aaaccagcca gaagaaatta cagtaaaaaa aaagtaaatt gcactttgat 1320
ccacctttta ttacctaagt ctcaatttgg atcaccctta aacctatctt ttcaatttgg 1380
gccgggttgt ggtttggact accatgaaca acttttcgtc atgtctaact tccctttcag 1440
caaacatatg aaccatatat agaggagatc ggccgtatac tagagctgat gtgtttaagg 1500
tcgttgattg cacgagaaaa aaaaatccaa atcgcaacaa tagcaaattt atctggttca 1560
aagtgaaaag atatgtttaa aggtagtcca aagtaaaact tatagataat aaaatgtggt 1620
ccaaagcgta attcactcaa aaaaaatcaa cgagacgtgt accaaacgga gacaaacggc 1680
atcttctcga aatttcccaa ccgctcgctc gcccgcctcg tcttcccgga aaccgcggtg 1740
gtttcagcgt ggcggattct ccaagcagac ggagacgtca cggcacggga ctcctcccac 1800
cacccaaccg ccataaatac cagccccctc atctcctctc ctcgcatcag ctccaccccc 1860
gaaaaatttc tccccaatct cgcgaggctc tcgtcgtcga atcgaatcct ctcgcgtcct 1920
caaggtacgc tgcttctcct ctcctcgctt cgtttcgatt cgatttcgga cgggtgaggt 1980
tgttttgttg ctagatccga ttggtggtta gggttgtcga tgtgattatc gtgagatgtt 2040
taggggttgt agatctgatg gttgtgattt gggcacggtt ggttcgatag gtggaatcgt 2100
ggttaggttt tgggattgga tgttggttct gatgattggg gggaattttt acggttagat 2160
gaattgttgg atgattcgat tggggaaatc ggtgtagatc tgttggggaa ttgtggaact 2220
agtcatgcct gagtgattgg tgcgatttgt agcgtgttcc atcttgtagg ccttgttgcg 2280
agcatgttca gatctactgt tccgctcttg attgagttat tggtgccatg ggttggtgca 2340
aacacaggct ttaatatgtt atatctgttt tgtgtttgat gtagatctgt agggtagttc 2400
ttcttagaca tggttcaatt atgtagcttg tgcgtttcga tttgatttca tatgttcaca 2460
gattagataa tgatgaactc ttttaattaa ttgtcaatgg taaataggaa gtcttgtcgc 2520
tatatctgtc ataatgatct catgttacta tctgccagta atttatgcta agaactatat 2580
tagaatatca tgttacaatc tgtagtaata tcatgttaca atctgtagtt catctatata 2640
atctattgtg gtaatttctt tttactatct gtgtgaagat tattgccact agttcattct 2700
acttatttct gaagttcagg atacgtgtgc tgttactacc tatctgaata catgtgtgat 2760
gtgcctgtta ctatcttttt gaatacatgt atgttctgtt ggaatatgtt tgctgtttga 2820
tccgttgttg tgtccttaat cttgtgctag ttcttaccct atctgtttgg tgattatttc 2880
ttgcagtacg taatggacta caaggaccac gacggcgact acaaggatca tgacatcgac 2940
tacaaggacg acgacgacaa gatggctcct aagaagaagc ggaaggttgg tattcacggg 3000
gtgcctgcgg ctgacaagaa gtactccatc ggcctcgaca tcggcaccaa cagcgtcggc 3060
tgggcggtga tcaccgacga gtacaaggtc ccgtccaaga agttcaaggt cctgggcaac 3120
accgaccgcc actccatcaa gaagaacctc atcggcgccc tcctcttcga ctccggcgag 3180
acggcggagg cgacccgcct caagcgcacc gcccgccgcc gctacacccg ccgcaagaac 3240
cgcatctgct acctccagga gatcttctcc aacgagatgg cgaaggtcga cgactccttc 3300
ttccaccgcc tcgaggagtc cttcctcgtg gaggaggaca agaagcacga gcgccacccc 3360
atcttcggca acatcgtcga cgaggtcgcc taccacgaga agtaccccac tatctaccac 3420
cttcgtaaga agcttgttga ctctactgat aaggctgatc ttcgtctcat ctaccttgct 3480
ctcgctcaca tgatcaagtt ccgtggtcac ttccttatcg agggtgacct taaccctgat 3540
aactccgacg tggacaagct cttcatccag ctcgtccaga cctacaacca gctcttcgag 3600
gagaacccta tcaacgcttc cggtgtcgac gctaaggcga tcctttccgc taggctctcc 3660
aagtccaggc gtctcgagaa cctcatcgcc cagctccctg gtgagaagaa gaacggtctt 3720
ttcggtaacc tcatcgctct ctccctcggt ctgaccccta acttcaagtc caacttcgac 3780
ctcgctgagg acgctaagct tcagctctcc aaggatacct acgacgatga tctcgacaac 3840
ctcctcgctc agattggaga tcagtacgct gatctcttcc ttgctgctaa gaacctctcc 3900
gatgctatcc tcctttcgga tatccttagg gttaacactg agatcactaa ggctcctctt 3960
tctgcttcca tgatcaagcg ctacgacgag caccaccagg acctcaccct cctcaaggct 4020
cttgttcgtc agcagctccc cgagaagtac aaggagatct tcttcgacca gtccaagaac 4080
ggctacgccg gttacattga cggtggagct agccaggagg agttctacaa gttcatcaag 4140
ccaatccttg agaagatgga tggtactgag gagcttctcg ttaagcttaa ccgtgaggac 4200
ctccttagga agcagaggac tttcgataac ggctctatcc ctcaccagat ccaccttggt 4260
gagcttcacg ccatccttcg taggcaggag gacttctacc ctttcctcaa ggacaaccgt 4320
gagaagatcg agaagatcct tactttccgt attccttact acgttggtcc tcttgctcgt 4380
ggtaactccc gtttcgcttg gatgactagg aagtccgagg agactatcac cccttggaac 4440
ttcgaggagg ttgttgacaa gggtgcttcc gcccagtcct tcatcgagcg catgaccaac 4500
ttcgacaaga acctccccaa cgagaaggtc ctccccaagc actccctcct ctacgagtac 4560
ttcacggtct acaacgagct caccaaggtc aagtacgtca ccgagggtat gcgcaagcct 4620
gccttcctct ccggcgagca gaagaaggct atcgttgacc tcctcttcaa gaccaaccgc 4680
aaggtcaccg tcaagcagct caaggaggac tacttcaaga agatcgagtg cttcgactcc 4740
gtcgagatca gcggcgttga ggaccgtttc aacgcttctc tcggtaccta ccacgatctc 4800
ctcaagatca tcaaggacaa ggacttcctc gacaacgagg agaacgagga catcctcgag 4860
gacatcgtcc tcactcttac tctcttcgag gatagggaga tgatcgagga gaggctcaag 4920
acttacgctc atctcttcga tgacaaggtt atgaagcagc tcaagcgtcg ccgttacacc 4980
ggttggggta ggctctcccg caagctcatc aacggtatca gggataagca gagcggcaag 5040
actatcctcg acttcctcaa gtctgatggt ttcgctaaca ggaacttcat gcagctcatc 5100
cacgatgact ctcttacctt caaggaggat attcagaagg ctcaggtgtc cggtcagggc 5160
gactctctcc acgagcacat tgctaacctt gctggttccc ctgctatcaa gaagggcatc 5220
cttcagactg ttaaggttgt cgatgagctt gtcaaggtta tgggtcgtca caagcctgag 5280
aacatcgtca tcgagatggc tcgtgagaac cagactaccc agaagggtca gaagaactcg 5340
agggagcgca tgaagaggat tgaggagggt atcaaggagc ttggttctca gatccttaag 5400
gagcaccctg tcgagaacac ccagctccag aacgagaagc tctacctcta ctacctccag 5460
aacggtaggg atatgtacgt tgaccaggag ctcgacatca acaggctttc tgactacgac 5520
gtcgacgcca ttgttcctca gtctttcctt aaggatgact ccatcgacaa caaggtcctc 5580
acgaggtccg acaagaacag gggtaagtcg gacaacgtcc cttccgagga ggttgtcaag 5640
aagatgaaga actactggag gcagcttctc aacgctaagc tcattaccca gaggaagttc 5700
gacaacctca cgaaggctga gaggggtggc ctttccgagc ttgacaaggc tggtttcatc 5760
aagaggcagc ttgttgagac gaggcagatt accaagcacg ttgctcagat cctcgattct 5820
aggatgaaca ccaagtacga cgagaacgac aagctcatcc gcgaggtcaa ggtgatcacc 5880
ctcaagtcca agctcgtctc cgacttccgc aaggacttcc agttctacaa ggtccgcgag 5940
atcaacaact accaccacgc tcacgatgct taccttaacg ctgtcgttgg taccgctctt 6000
atcaagaagt accctaagct tgagtccgag ttcgtctacg gtgactacaa ggtctacgac 6060
gttcgtaaga tgatcgccaa gtccgagcag gagatcggca aggccaccgc caagtacttc 6120
ttctactcca acatcatgaa cttcttcaag accgagatca ccctcgccaa cggcgagatc 6180
cgcaagcgcc ctcttatcga gacgaacggt gagactggtg agatcgtttg ggacaagggt 6240
cgcgacttcg ctactgttcg caaggtcctt tctatgcctc aggttaacat cgtcaagaag 6300
accgaggtcc agaccggtgg cttctccaag gagtctatcc ttccaaagag aaactcggac 6360
aagctcatcg ctaggaagaa ggattgggac cctaagaagt acggtggttt cgactcccct 6420
actgtcgcct actccgtcct cgtggtcgcc aaggtggaga agggtaagtc gaagaagctc 6480
aagtccgtca aggagctcct cggcatcacc atcatggagc gctcctcctt cgagaagaac 6540
ccgatcgact tcctcgaggc caagggctac aaggaggtca agaaggacct catcatcaag 6600
ctccccaagt actctctttt cgagctcgag aacggtcgta agaggatgct ggcttccgct 6660
ggtgagctcc agaagggtaa cgagcttgct cttccttcca agtacgtgaa cttcctctac 6720
ctcgcctccc actacgagaa gctcaagggt tcccctgagg ataacgagca gaagcagctc 6780
ttcgtggagc agcacaagca ctacctcgac gagatcatcg agcagatctc cgagttctcc 6840
aagcgcgtca tcctcgctga cgctaacctc gacaaggtcc tctccgccta caacaagcac 6900
cgcgacaagc ccatccgcga gcaggccgag aacatcatcc acctcttcac gctcacgaac 6960
ctcggcgccc ctgctgcttt caagtacttc gacaccacca tcgacaggaa gcgttacacg 7020
tccaccaagg aggttctcga cgctactctc atccaccagt ccatcaccgg tctttacgag 7080
actcgtatcg acctttccca gcttggtggt gatagcggtg gctccagcgg tggtagcagc 7140
ggtagcgaaa ctccagggac ctcggaatcg gcgactccag aatccagtgg gggtagcagc 7200
ggcggatcca gcaccctcaa tatcgaggac gagtacaggc tgcatgagac atccaaggag 7260
ccggacgtgt cactcggctc tacatggctg agcgatttcc cacaggcctg ggcggagaca 7320
ggcggcatgg gcctcgcggt caggcaggcg ccgctcatca ttccactgaa ggcgacctcc 7380
acaccggtca gcatcaagca gtacccaatg tcacaggagg cacggctcgg catcaagcca 7440
cacattcaga ggctcctgga ccagggcatt ctggtccctt gccagagccc gtggaacacc 7500
cctctcctgc cggtgaagaa gcctggcaca aatgactaca ggccggtcca ggatctcagg 7560
gaggtgaaca agcgcgtcga ggatatccat ccgaccgtgc cgaacccata caatctcctg 7620
tcaggcctcc cgccatctca ccagtggtac accgtcctcg acctgaagga tgcgttcttc 7680
tgcctcaggc tgcatccaac aagccagcct ctcttcgcct tcgagtggcg cgatccagag 7740
atgggcattt caggccagct cacctggaca cggctgccac agggcttcaa gaactctcct 7800
accctcttca atgaggcgct ccatcgggac ctggccgatt tcaggatcca gcaccctgac 7860
ctcattctcc tgcagtacgt ggacgatctc ctgctcgccg cgacatcaga gctggattgc 7920
cagcagggca ccagggccct gctccagaca ctcggcaatc tgggctaccg ggcctctgcg 7980
aagaaggccc agatctgcca gaagcaggtg aagtacctcg gctacctgct caaggaggga 8040
cagaggtggc tgacagaggc aaggaaggag acagtcatgg gccagcctac cccgaagaca 8100
cctcggcagc tcagggagtt cctgggcaag gccggattct gcaggctctt cattccagga 8160
ttcgcggaga tggcggcgcc actctaccct ctgaccaagc cgggcacact gttcaactgg 8220
ggcccagacc agcagaaggc gtaccaggag attaagcagg cactgctcac agcacctgcg 8280
ctcggcctgc cggacctcac aaagccattc gagctgttcg tggatgagaa gcagggctac 8340
gcgaagggag tcctgacaca gaagctggga ccatggaggc gcccagtggc ctacctctca 8400
aagaagctcg acccagtggc ggccggatgg cctccgtgcc tgaggatggt ggcggccatt 8460
gccgtcctca ccaaggatgc cggcaagctg acaatgggcc agcctctcgt gattctggcg 8520
ccgcatgcgg tggaggccct ggtcaagcag ccacctgata ggtggctgtc caacgcgcgc 8580
atgacccact accaggccct gctcctggac acagataggg tccagttcgg accagtggtg 8640
gcactcaatc ctgccacact gctgccactc cctgaggagg gcctgcagca taactgcctc 8700
gatattctgg cggaggccca tggcacccgg ccagacctca cagatcagcc gctgccagac 8760
gccgatcaca cctggtacac agatggctca tctctcctgc aggagggcca gaggaaggcc 8820
ggagcagccg tgaccacaga gacagaggtc atctgggcaa aggccctccc agcgggcacc 8880
tcagcacaga gggccgagct cattgcactg acacaggcgc tcaagatggc cgagggcaag 8940
aagctgaatg tgtacacaga ctccaggtac gcattcgcca cagcacacat ccatggcgag 9000
atttacaggc ggaggggatg gctcacatca gagggaaagg agatcaagaa caaggatgag 9060
attctcgcgc tcctgaaggc cctcttcctg cctaagcgcc tgtcaatcat tcactgccca 9120
ggacatcaga agggacactc agccgaggca aggggaaata ggatggcaga ccaggcggcc 9180
aggaaggcag cgatcaccga gacaccagat acctccacac tcctgattga gaactccagc 9240
cctgacgatg acaaaatggc accgaagaaa aaaaggaagg tcggcggctc cccgaagaaa 9300
aaaaggaagg tcggcggctc cccgaagaaa aaaaggaagg tcggcggctc cccgaagaaa 9360
aaaaggaagg tcggaatcca tggctagtcc cggaccctga aatcaccagt ctctctctac 9420
aaatctatct ctctctataa taatgtgtga gtagttccca gataagggaa ttagggttct 9480
tatagggttt cgctcatgtg ttgagcatat aagaaaccct tagtatgtat ttgtatttgt 9540
aaaatacttc tatcaataaa atttctaatt cctaaaacca aaatccagtg gggcgcccga 9600
cctgtactcg cgaaggttaa cttacagaga gtgtccgggc gcgcctggtg gatcgtccgc 9660
ctaggctgca gtgcagcgtg acccggtcgt gcccctctct agagataatg agcattgcat 9720
gtctaagtta taaaaaatta ccacatattt tttttgtcac acttgtttga agtgcagttt 9780
atctatcttt atacatatat ttaaacttta ctctacgaat aatataatct atagtactac 9840
aataatatca gtgttttaga gaatcatata aatgaacagt tagacatggt ctaaaggaca 9900
attgagtatt ttgacaacag gactctacag ttttatcttt ttagtgtgca tgtgttctcc 9960
tttttttttg caaatagctt cacctatata atacttcatc cattttatta gtacatccat 10020
ttagggttta gggttaatgg tttttataga ctaatttttt tagtacatct attttattct 10080
attttagcct ctaaattaag aaaactaaaa ctctatttta gtttttttat ttaataattt 10140
agatataaaa tagaataaaa taaagtgact aaaaattaaa caaataccct ttaagaaatt 10200
aaaaaaacta aggaaacatt tttcttgttt cgagtagata atgccagcct gttaaacgcc 10260
gtcgacgagt ctaacggaca ccaaccagcg aaccagcagc gtcgcgtcgg gccaagcgaa 10320
gcagacggca cggcatctct gtcgctgcct ctggacccct ctcgagagtt ccgctccacc 10380
gttggacttg ctccgctgtc ggcatccaga aattgcgtgg cggagcggca gacgtgagcc 10440
ggcacggcag gcggcctcct cctcctctca cggcaccggc agctacgggg gattcctttc 10500
ccaccgctcc ttcgctttcc cttcctcgcc cgccgtaata aatagacacc ccctccacac 10560
cctctttccc caacctcgtg ttgttcggag cgcacacaca cacaaccaga tctcccccaa 10620
atccacccgt cggcacctcc gcttcaaggt acgccgctcg tcctcccccc ccccccctct 10680
ctaccttctc tagatcggcg ttccggtcca tggttagggc ccggtagttc tacttctgtt 10740
catgtttgtg ttagatccgt gtttgtgtta gatccgtgct gctagcgttc gtacacggat 10800
gcgacctgta cgtcagacac gttctgattg ctaacttgcc agtgtttctc tttggggaat 10860
cctgggatgg ctctagccgt tccgcagacg ggatcgattt catgattttt tttgtttcgt 10920
tgcatagggt ttggtttgcc cttttccttt atttcaatat atgccgtgca cttgtttgtc 10980
gggtcatctt ttcatgcttt tttttgtctt ggttgtgatg atgtggtctg gttgggcggt 11040
cgttctagat cggagtagaa ttctgtttca aactacctgg tggatttatt aattttggat 11100
ctgtatgtgt gtgccataca tattcatagt tacgaattga agatgatgga tggaaatatc 11160
gatctaggat aggtatacat gttgatgcgg gttttactga tgcatataca gagatgcttt 11220
ttgttcgctt ggttgtgatg atgtggtgtg gttgggcggt cgttcattcg ttctagatcg 11280
gagtagaata ctgtttcaaa ctacctggtg tatttattaa ttttggaact gtatgtgtgt 11340
gtcatacatc ttcatagtta cgagtttaag atggatggaa atatcgatct aggataggta 11400
tacatgttga tgtgggtttt actgatgcat atacatgatg gcatatgcag catctattca 11460
tatgctctaa ccttgagtac ctatctatta taataaacaa gtatgtttta taattatttt 11520
gatcttgata tacttggatg atggcatatg cagcagctat atgtggattt ttttagccct 11580
gccttcatac gctatttatt tgcttggtac tgtttctttt gtcgatgctc accctgttgt 11640
ttggtgttac ttctgcagga gctcatgaaa aagcctgaac tcaccgcgac gtctgtcgag 11700
aagtttctga tcgaaaagtt cgacagcgtc tccgacctga tgcagctctc ggagggcgaa 11760
gaatctcgtg ctttcagctt cgatgtagga gggcgtggat atgtcctgcg ggtaaatagc 11820
tgcgccgatg gtttctacaa agatcgttat gtttatcggc actttgcatc ggccgcgctc 11880
ccgattccgg aagtgcttga cattggggag tttagcgaga gcctgaccta ttgcatctcc 11940
cgccgttcac agggtgtcac gttgcaagac ctgcctgaaa ccgaactgcc cgctgttcta 12000
caaccggtcg cggaggctat ggatgcgatc gctgcggccg atcttagcca gacgagcggg 12060
ttcggcccat tcggaccgca aggaatcggt caatacacta catggcgtga tttcatatgc 12120
gcgattgctg atccccatgt gtatcactgg caaactgtga tggacgacac cgtcagtgcg 12180
tccgtcgcgc aggctctcga tgagctgatg ctttgggccg aggactgccc cgaagtccgg 12240
cacctcgtgc acgcggattt cggctccaac aatgtcctga cggacaatgg ccgcataaca 12300
gcggtcattg actggagcga ggcgatgttc ggggattccc aatacgaggt cgccaacatc 12360
ttcttctgga ggccgtggtt ggcttgtatg gagcagcaga cgcgctactt cgagcggagg 12420
catccggagc ttgcaggatc gccacgactc cgggcgtata tgctccgcat tggtcttgac 12480
caactctatc agagcttggt tgacggcaat ttcgatgatg cagcttgggc gcagggtcga 12540
tgcgacgcaa tcgtccgatc cggagccggg actgtcgggc gtacacaaat cgcccgcaga 12600
agcgcggccg tctggaccga tggctgtgta gaagtactcg ccgatagtgg aaaccgacgc 12660
cccagcactc gtccgagggc aaagaaatag agtagatgcc gaccgggatc tgtcgatcga 12720
caagctcgag tttctccata ataatgtgtg agtagttccc agataaggga attagggttc 12780
ctatagggtt tcgctcatgt gttgagcata taagaaaccc ttagtatgta tttgtatttg 12840
taaaatactt ctatcaataa aatttctaat tcctaaaacc aaaatccagt actaaaatcc 12900
agatcccccg aattaattcg gcgttaattc agcctgcagg catgcaagct tggcactggc 12960
cgtcgtttta caacgtcgtg actgggaaaa ccctggcgtt acccaactta atcgccttgc 13020
agcacatccc cctttcgcca gctggcgtaa tagcgaagag gcccgcaccg atcgcccttc 13080
ccaacagttg cgcagcctga atggcgaatg ctagagcagc ttgagcttgg atcagattgt 13140
cgtttcccgc cttcagttta aactatcagt gtttgacagg atatattggc gggtaaacct 13200
aagagaaaag agcgtttatt agaataacgg atatttaaaa gggcgtgaaa aggtttatcc 13260
gttcgtccat ttgtatgtgc atgccaacca cagggttccc ctcgggatca aagtactttg 13320
atccaacccc tccgctgcta tagtgcagtc ggcttctgac gttcagtgca gccgtcttct 13380
gaaaacgaca tgtcgcacaa gtcctaagtt acgcgacagg ctgccgccct gcccttttcc 13440
tggcgttttc ttgtcgcgtg ttttagtcgc ataaagtaga atacttgcga ctagaaccgg 13500
agacattacg ccatgaacaa gagcgccgcc gctggcctgc tgggctatgc ccgcgtcagc 13560
accgacgacc aggacttgac caaccaacgg gccgaactgc acgcggccgg ctgcaccaag 13620
ctgttttccg agaagatcac cggcaccagg cgcgaccgcc cggagctggc caggatgctt 13680
gaccacctac gccctggcga cgttgtgaca gtgaccaggc tagaccgcct ggcccgcagc 13740
acccgcgacc tactggacat tgccgagcgc atccaggagg ccggcgcggg cctgcgtagc 13800
ctggcagagc cgtgggccga caccaccacg ccggccggcc gcatggtgtt gaccgtgttc 13860
gccggcattg ccgagttcga gcgttcccta atcatcgacc gcacccggag cgggcgcgag 13920
gccgccaagg cccgaggcgt gaagtttggc ccccgcccta ccctcacccc ggcacagatc 13980
gcgcacgccc gcgagctgat cgaccaggaa ggccgcaccg tgaaagaggc ggctgcactg 14040
cttggcgtgc atcgctcgac cctgtaccgc gcacttgagc gcagcgagga agtgacgccc 14100
accgaggcca ggcggcgcgg tgccttccgt gaggacgcat tgaccgaggc cgacgccctg 14160
gcggccgccg agaatgaacg ccaagaggaa caagcatgaa accgcaccag gacggccagg 14220
acgaaccgtt tttcattacc gaagagatcg aggcggagat gatcgcggcc gggtacgtgt 14280
tcgagccgcc cgcgcacgtc tcaaccgtgc ggctgcatga aatcctggcc ggtttgtctg 14340
atgccaagct ggcggcctgg ccggccagct tggccgctga agaaaccgag cgccgccgtc 14400
taaaaaggtg atgtgtattt gagtaaaaca gcttgcgtca tgcggtcgct gcgtatatga 14460
tgcgatgagt aaataaacaa atacgcaagg ggaacgcatg aaggttatcg ctgtacttaa 14520
ccagaaaggc gggtcaggca agacgaccat cgcaacccat ctagcccgcg ccctgcaact 14580
cgccggggcc gatgttctgt tagtcgattc cgatccccag ggcagtgccc gcgattgggc 14640
ggccgtgcgg gaagatcaac cgctaaccgt tgtcggcatc gaccgcccga cgattgaccg 14700
cgacgtgaag gccatcggcc ggcgcgactt cgtagtgatc gacggagcgc cccaggcggc 14760
ggacttggct gtgtccgcga tcaaggcagc cgacttcgtg ctgattccgg tgcagccaag 14820
cccttacgac atatgggcca ccgccgacct ggtggagctg gttaagcagc gcattgaggt 14880
cacggatgga aggctacaag cggcctttgt cgtgtcgcgg gcgatcaaag gcacgcgcat 14940
cggcggtgag gttgccgagg cgctggccgg gtacgagctg cccattcttg agtcccgtat 15000
cacgcagcgc gtgagctacc caggcactgc cgccgccggc acaaccgttc ttgaatcaga 15060
acccgagggc gacgctgccc gcgaggtcca ggcgctggcc gctgaaatta aatcaaaact 15120
catttgagtt aatgaggtaa agagaaaatg agcaaaagca caaacacgct aagtgccggc 15180
cgtccgagcg cacgcagcag caaggctgca acgttggcca gcctggcaga cacgccagcc 15240
atgaagcggg tcaactttca gttgccggcg gaggatcaca ccaagctgaa gatgtacgcg 15300
gtacgccaag gcaagaccat taccgagctg ctatctgaat acatcgcgca gctaccagag 15360
taaatgagca aatgaataaa tgagtagatg aattttagcg gctaaaggag gcggcatgga 15420
aaatcaagaa caaccaggca ccgacgccgt ggaatgcccc atgtgtggag gaacgggcgg 15480
ttggccaggc gtaagcggct gggttgtctg ccggccctgc aatggcactg gaacccccaa 15540
gcccgaggaa tcggcgtgac ggtcgcaaac catccggccc ggtacaaatc ggcgcggcgc 15600
tgggtgatga cctggtggag aagttgaagg ccgcgcaggc cgcccagcgg caacgcatcg 15660
aggcagaagc acgccccggt gaatcgtggc aagcggccgc tgatcgaatc cgcaaagaat 15720
cccggcaacc gccggcagcc ggtgcgccgt cgattaggaa gccgcccaag ggcgacgagc 15780
aaccagattt tttcgttccg atgctctatg acgtgggcac ccgcgatagt cgcagcatca 15840
tggacgtggc cgttttccgt ctgtcgaagc gtgaccgacg agctggcgag gtgatccgct 15900
acgagcttcc agacgggcac gtagaggttt ccgcagggcc ggccggcatg gccagtgtgt 15960
gggattacga cctggtactg atggcggttt cccatctaac cgaatccatg aaccgatacc 16020
gggaagggaa gggagacaag cccggccgcg tgttccgtcc acacgttgcg gacgtactca 16080
agttctgccg gcgagccgat ggcggaaagc agaaagacga cctggtagaa acctgcattc 16140
ggttaaacac cacgcacgtt gccatgcagc gtacgaagaa ggccaagaac ggccgcctgg 16200
tgacggtatc cgagggtgaa gccttgatta gccgctacaa gatcgtaaag agcgaaaccg 16260
ggcggccgga gtacatcgag atcgagctag ctgattggat gtaccgcgag atcacagaag 16320
gcaagaaccc ggacgtgctg acggttcacc ccgattactt tttgatcgat cccggcatcg 16380
gccgttttct ctaccgcctg gcacgccgcg ccgcaggcaa ggcagaagcc agatggttgt 16440
tcaagacgat ctacgaacgc agtggcagcg ccggagagtt caagaagttc tgtttcaccg 16500
tgcgcaagct gatcgggtca aatgacctgc cggagtacga tttgaaggag gaggcggggc 16560
aggctggccc gatcctagtc atgcgctacc gcaacctgat cgagggcgaa gcatccgccg 16620
gttcctaatg tacggagcag atgctagggc aaattgccct agcaggggaa aaaggtcgaa 16680
aagttctctt tcctgtggat agcacgtaca ttgggaaccc aaagccgtac attgggaacc 16740
ggaacccgta cattgggaac ccaaagccgt acattgggaa ccggtcacac atgtaagtga 16800
ctgatataaa agagaaaaaa ggcgattttt ccgcctaaaa ctctttaaaa cttattaaaa 16860
ctcttaaaac ccgcctggcc tgtgcataac tgtctggcca gcgcacagcc gaagagctgc 16920
aaaaagcgcc tacccttcgg tcgctgcgct ccctacgccc cgccgcttcg cgtcggccta 16980
tcgcggccgc tggccgctca aaaatggctg gcctacggcc aggcaatcta ccagggcgcg 17040
gacaagccgc gccgtcgcca ctcgaccgcc ggcgcccaca tcaaggcacc ctgcctcgcg 17100
cgtttcggtg atgacggtga aaacctctga cacatgcagc tcccggagac ggtcacagct 17160
tgtctgtaag cggatgccgg gagcagacaa gcccgtcagg gcgcgtcagc gggtgttggc 17220
gggtgtcggg gcgcagccat gacccagtca cgtagcgata gcggagtgta tactggctta 17280
actatgcggc atcagagcag attgtactga gagtgcacca tatgcggtgt gaaataccgc 17340
acagatgcgt aaggagaaaa taccgcatca ggcgctcttc cgcttcctcg ctcactgact 17400
cgctgcgctc ggtcgttcgg ctgcggcgag cggtatcagc tcactcaaag gcggtaatac 17460
ggttatccac agaatcaggg gataacgcag gaaagaacat gtgagcaaaa ggccagcaaa 17520
aggccaggaa ccgtaaaaag gccgcgttgc tggcgttttt ccataggctc cgcccccctg 17580
acgagcatca caaaaatcga cgctcaagtc agaggtggcg aaacccgaca ggactataaa 17640
gataccaggc gtttccccct ggaagctccc tcgtgcgctc tcctgttccg accctgccgc 17700
ttaccggata cctgtccgcc tttctccctt cgggaagcgt ggcgctttct catagctcac 17760
gctgtaggta tctcagttcg gtgtaggtcg ttcgctccaa gctgggctgt gtgcacgaac 17820
cccccgttca gcccgaccgc tgcgccttat ccggtaacta tcgtcttgag tccaacccgg 17880
taagacacga cttatcgcca ctggcagcag ccactggtaa caggattagc agagcgaggt 17940
atgtaggcgg tgctacagag ttcttgaagt ggtggcctaa ctacggctac actagaagga 18000
cagtatttgg tatctgcgct ctgctgaagc cagttacctt cggaaaaaga gttggtagct 18060
cttgatccgg caaacaaacc accgctggta gcggtggttt ttttgtttgc aagcagcaga 18120
ttacgcgcag aaaaaaagga tctcaagaag atcctttgat cttttctacg gggtctgacg 18180
ctcagtggaa cgaaaactca cgttaaggga ttttggtcat gcattctagg tactaaaaca 18240
attcatccag taaaatataa tattttattt tctcccaatc aggcttgatc cccagtaagt 18300
caaaaaatag ctcgacatac tgttcttccc cgatatcctc cctgatcgac cggacgcaga 18360
aggcaatgtc ataccacttg tccgccctgc cgcttctccc aagatcaata aagccactta 18420
ctttgccatc tttcacaaag atgttgctgt ctcccaggtc gccgtgggaa aagacaagtt 18480
cctcttcggg cttttccgtc tttaaaaaat catacagctc gcgcggatct ttaaatggag 18540
tgtcttcttc ccagttttcg caatccacat cggccagatc gttattcagt aagtaatcca 18600
attcggctaa gcggctgtct aagctattcg tatagggaca atccgatatg tcgatggagt 18660
gaaagagcct gatgcactcc gcatacagct cgataatctt ttcagggctt tgttcatctt 18720
catactcttc cgagcaaagg acgccatcgg cctcactcat gagcagattg ctccagccat 18780
catgccgttc aaagtgcagg acctttggaa caggcagctt tccttccagc catagcatca 18840
tgtccttttc ccgttccaca tcataggtgg tccctttata ccggctgtcc gtcattttta 18900
aatataggtt ttcattttct cccaccagct tatatacctt agcaggagac attccttccg 18960
tatcttttac gcagcggtat ttttcgatca gttttttcaa ttccggtgat attctcattt 19020
tagccattta ttatttcctt cctcttttct acagtattta aagatacccc aagaagctaa 19080
ttataacaag acgaactcca attcactgtt ccttgcattc taaaacctta aataccagaa 19140
aacagctttt tcaaagttgt tttcaaagtt ggcgtataac atagtatcga cggagccgat 19200
tttgaaaccg cggtgatcac aggcagcaac gctctgtcat cgttacaatc aacatgctac 19260
cctccgcgag atcatccgtg tttcaaaccc ggcagcttag ttgccgttct tccgaatagc 19320
atcggtaaca tgagcaaagt ctgccgcctt acaacggctc tcccgctgac gccgtcccgg 19380
actgatgggc tgcctgtatc gagtggtgat tttgtgccga gctgccggtc ggggagctgt 19440
tggctggct 19449
<210> 2
<211> 1367
<212> PRT
<213> Artificial Sequence
<400> 2
Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val Gly
1 5 10 15
Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys
20 25 30
Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly
35 40 45
Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys
50 55 60
Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr
65 70 75 80
Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe
85 90 95
Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His
100 105 110
Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His
115 120 125
Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser
130 135 140
Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met
145 150 155 160
Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp
165 170 175
Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn
180 185 190
Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys
195 200 205
Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu
210 215 220
Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu
225 230 235 240
Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp
245 250 255
Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp
260 265 270
Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu
275 280 285
Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile
290 295 300
Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met
305 310 315 320
Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala
325 330 335
Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp
340 345 350
Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln
355 360 365
Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly
370 375 380
Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys
385 390 395 400
Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly
405 410 415
Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu
420 425 430
Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro
435 440 445
Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met
450 455 460
Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val
465 470 475 480
Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn
485 490 495
Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu
500 505 510
Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr
515 520 525
Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys
530 535 540
Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val
545 550 555 560
Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser
565 570 575
Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr
580 585 590
Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn
595 600 605
Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu
610 615 620
Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His
625 630 635 640
Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr
645 650 655
Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys
660 665 670
Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala
675 680 685
Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys
690 695 700
Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His
705 710 715 720
Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile
725 730 735
Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg
740 745 750
His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr
755 760 765
Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu
770 775 780
Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val
785 790 795 800
Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln
805 810 815
Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu
820 825 830
Ser Asp Tyr Asp Val Asp Ala Ile Val Pro Gln Ser Phe Leu Lys Asp
835 840 845
Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly
850 855 860
Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn
865 870 875 880
Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe
885 890 895
Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys
900 905 910
Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys
915 920 925
His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu
930 935 940
Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys
945 950 955 960
Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu
965 970 975
Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val
980 985 990
Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val
995 1000 1005
Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys
1010 1015 1020
Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr
1025 1030 1035
Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn
1040 1045 1050
Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr
1055 1060 1065
Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg
1070 1075 1080
Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu
1085 1090 1095
Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg
1100 1105 1110
Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys
1115 1120 1125
Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu
1130 1135 1140
Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser
1145 1150 1155
Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe
1160 1165 1170
Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu
1175 1180 1185
Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe
1190 1195 1200
Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu
1205 1210 1215
Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn
1220 1225 1230
Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro
1235 1240 1245
Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His
1250 1255 1260
Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg
1265 1270 1275
Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr
1280 1285 1290
Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile
1295 1300 1305
Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe
1310 1315 1320
Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr
1325 1330 1335
Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly
1340 1345 1350
Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 3
<211> 677
<212> PRT
<213> Artificial Sequence
<400> 3
Thr Leu Asn Ile Glu Asp Glu Tyr Arg Leu His Glu Thr Ser Lys Glu
1 5 10 15
Pro Asp Val Ser Leu Gly Ser Thr Trp Leu Ser Asp Phe Pro Gln Ala
20 25 30
Trp Ala Glu Thr Gly Gly Met Gly Leu Ala Val Arg Gln Ala Pro Leu
35 40 45
Ile Ile Pro Leu Lys Ala Thr Ser Thr Pro Val Ser Ile Lys Gln Tyr
50 55 60
Pro Met Ser Gln Glu Ala Arg Leu Gly Ile Lys Pro His Ile Gln Arg
65 70 75 80
Leu Leu Asp Gln Gly Ile Leu Val Pro Cys Gln Ser Pro Trp Asn Thr
85 90 95
Pro Leu Leu Pro Val Lys Lys Pro Gly Thr Asn Asp Tyr Arg Pro Val
100 105 110
Gln Asp Leu Arg Glu Val Asn Lys Arg Val Glu Asp Ile His Pro Thr
115 120 125
Val Pro Asn Pro Tyr Asn Leu Leu Ser Gly Leu Pro Pro Ser His Gln
130 135 140
Trp Tyr Thr Val Leu Asp Leu Lys Asp Ala Phe Phe Cys Leu Arg Leu
145 150 155 160
His Pro Thr Ser Gln Pro Leu Phe Ala Phe Glu Trp Arg Asp Pro Glu
165 170 175
Met Gly Ile Ser Gly Gln Leu Thr Trp Thr Arg Leu Pro Gln Gly Phe
180 185 190
Lys Asn Ser Pro Thr Leu Phe Asn Glu Ala Leu His Arg Asp Leu Ala
195 200 205
Asp Phe Arg Ile Gln His Pro Asp Leu Ile Leu Leu Gln Tyr Val Asp
210 215 220
Asp Leu Leu Leu Ala Ala Thr Ser Glu Leu Asp Cys Gln Gln Gly Thr
225 230 235 240
Arg Ala Leu Leu Gln Thr Leu Gly Asn Leu Gly Tyr Arg Ala Ser Ala
245 250 255
Lys Lys Ala Gln Ile Cys Gln Lys Gln Val Lys Tyr Leu Gly Tyr Leu
260 265 270
Leu Lys Glu Gly Gln Arg Trp Leu Thr Glu Ala Arg Lys Glu Thr Val
275 280 285
Met Gly Gln Pro Thr Pro Lys Thr Pro Arg Gln Leu Arg Glu Phe Leu
290 295 300
Gly Lys Ala Gly Phe Cys Arg Leu Phe Ile Pro Gly Phe Ala Glu Met
305 310 315 320
Ala Ala Pro Leu Tyr Pro Leu Thr Lys Pro Gly Thr Leu Phe Asn Trp
325 330 335
Gly Pro Asp Gln Gln Lys Ala Tyr Gln Glu Ile Lys Gln Ala Leu Leu
340 345 350
Thr Ala Pro Ala Leu Gly Leu Pro Asp Leu Thr Lys Pro Phe Glu Leu
355 360 365
Phe Val Asp Glu Lys Gln Gly Tyr Ala Lys Gly Val Leu Thr Gln Lys
370 375 380
Leu Gly Pro Trp Arg Arg Pro Val Ala Tyr Leu Ser Lys Lys Leu Asp
385 390 395 400
Pro Val Ala Ala Gly Trp Pro Pro Cys Leu Arg Met Val Ala Ala Ile
405 410 415
Ala Val Leu Thr Lys Asp Ala Gly Lys Leu Thr Met Gly Gln Pro Leu
420 425 430
Val Ile Leu Ala Pro His Ala Val Glu Ala Leu Val Lys Gln Pro Pro
435 440 445
Asp Arg Trp Leu Ser Asn Ala Arg Met Thr His Tyr Gln Ala Leu Leu
450 455 460
Leu Asp Thr Asp Arg Val Gln Phe Gly Pro Val Val Ala Leu Asn Pro
465 470 475 480
Ala Thr Leu Leu Pro Leu Pro Glu Glu Gly Leu Gln His Asn Cys Leu
485 490 495
Asp Ile Leu Ala Glu Ala His Gly Thr Arg Pro Asp Leu Thr Asp Gln
500 505 510
Pro Leu Pro Asp Ala Asp His Thr Trp Tyr Thr Asp Gly Ser Ser Leu
515 520 525
Leu Gln Glu Gly Gln Arg Lys Ala Gly Ala Ala Val Thr Thr Glu Thr
530 535 540
Glu Val Ile Trp Ala Lys Ala Leu Pro Ala Gly Thr Ser Ala Gln Arg
545 550 555 560
Ala Glu Leu Ile Ala Leu Thr Gln Ala Leu Lys Met Ala Glu Gly Lys
565 570 575
Lys Leu Asn Val Tyr Thr Asp Ser Arg Tyr Ala Phe Ala Thr Ala His
580 585 590
Ile His Gly Glu Ile Tyr Arg Arg Arg Gly Trp Leu Thr Ser Glu Gly
595 600 605
Lys Glu Ile Lys Asn Lys Asp Glu Ile Leu Ala Leu Leu Lys Ala Leu
610 615 620
Phe Leu Pro Lys Arg Leu Ser Ile Ile His Cys Pro Gly His Gln Lys
625 630 635 640
Gly His Ser Ala Glu Ala Arg Gly Asn Arg Met Ala Asp Gln Ala Ala
645 650 655
Arg Lys Ala Ala Ile Thr Glu Thr Pro Asp Thr Ser Thr Leu Leu Ile
660 665 670
Glu Asn Ser Ser Pro
675
<210> 4
<211> 341
<212> PRT
<213> Artificial Sequence
<400> 4
Met Lys Lys Pro Glu Leu Thr Ala Thr Ser Val Glu Lys Phe Leu Ile
1 5 10 15
Glu Lys Phe Asp Ser Val Ser Asp Leu Met Gln Leu Ser Glu Gly Glu
20 25 30
Glu Ser Arg Ala Phe Ser Phe Asp Val Gly Gly Arg Gly Tyr Val Leu
35 40 45
Arg Val Asn Ser Cys Ala Asp Gly Phe Tyr Lys Asp Arg Tyr Val Tyr
50 55 60
Arg His Phe Ala Ser Ala Ala Leu Pro Ile Pro Glu Val Leu Asp Ile
65 70 75 80
Gly Glu Phe Ser Glu Ser Leu Thr Tyr Cys Ile Ser Arg Arg Ser Gln
85 90 95
Gly Val Thr Leu Gln Asp Leu Pro Glu Thr Glu Leu Pro Ala Val Leu
100 105 110
Gln Pro Val Ala Glu Ala Met Asp Ala Ile Ala Ala Ala Asp Leu Ser
115 120 125
Gln Thr Ser Gly Phe Gly Pro Phe Gly Pro Gln Gly Ile Gly Gln Tyr
130 135 140
Thr Thr Trp Arg Asp Phe Ile Cys Ala Ile Ala Asp Pro His Val Tyr
145 150 155 160
His Trp Gln Thr Val Met Asp Asp Thr Val Ser Ala Ser Val Ala Gln
165 170 175
Ala Leu Asp Glu Leu Met Leu Trp Ala Glu Asp Cys Pro Glu Val Arg
180 185 190
His Leu Val His Ala Asp Phe Gly Ser Asn Asn Val Leu Thr Asp Asn
195 200 205
Gly Arg Ile Thr Ala Val Ile Asp Trp Ser Glu Ala Met Phe Gly Asp
210 215 220
Ser Gln Tyr Glu Val Ala Asn Ile Phe Phe Trp Arg Pro Trp Leu Ala
225 230 235 240
Cys Met Glu Gln Gln Thr Arg Tyr Phe Glu Arg Arg His Pro Glu Leu
245 250 255
Ala Gly Ser Pro Arg Leu Arg Ala Tyr Met Leu Arg Ile Gly Leu Asp
260 265 270
Gln Leu Tyr Gln Ser Leu Val Asp Gly Asn Phe Asp Asp Ala Ala Trp
275 280 285
Ala Gln Gly Arg Cys Asp Ala Ile Val Arg Ser Gly Ala Gly Thr Val
290 295 300
Gly Arg Thr Gln Ile Ala Arg Arg Ser Ala Ala Val Trp Thr Asp Gly
305 310 315 320
Cys Val Glu Val Leu Ala Asp Ser Gly Asn Arg Arg Pro Ser Thr Arg
325 330 335
Pro Arg Ala Lys Lys
340
<210> 5
<211> 17637
<212> DNA
<213> Artificial Sequence
<400> 5
ggtggcagga tatattgtgg tgtaaacaaa ttgacgctta gacaacttaa taacacattg 60
cggacgtttt taatgtaggt accacctaaa tttccaagct tgtcgtgccc ctctctagag 120
ataatgagca ttgcatgtct aagttataaa aaattaccac atattttttt tgtcacactt 180
gtttgaagtg cagtttatct atctttatac atatatttaa actttactct acgaataata 240
taatctatag tactacaata atatcagtgt tttagagaat catataaatg aacagttaga 300
catggtctaa aggacaattg agtattttga caacaggact ctacagtttt atctttttag 360
tgtgcatgtg ttctcctttt tttttgcaaa tagcttcacc tatataatac ttcatccatt 420
ttattagtac atccatttag ggtttagggt taatggtttt tatagactaa tttttttagt 480
acatctattt tattctattt tagcctctaa attaagaaaa ctaaaactct attttagttt 540
ttttatttaa taatttagat ataaaataga ataaaataaa gtgactaaaa attaaacaaa 600
taccctttaa gaaattaaaa aaactaagga aacatttttc ttgtttcgag tagataatgc 660
cagcctgtta aacgccgtcg acgagtctaa cggacaccaa ccagcgaacc agcagcgtcg 720
cgtcgggcca agcgaagcag acggcacggc atctctgtcg ctgcctctgg acccctctcg 780
agagttccgc tccaccgttg gacttgctcc gctgtcggca tccagaaatt gcgtggcgga 840
gcggcagacg tgagccggca cggcaggcgg cctcctcctc ctctcacggc accggcagct 900
acgggggatt cctttcccac cgctccttcg ctttcccttc ctcgcccgcc gtaataaata 960
gacaccccct ccacaccctc tttccccaac ctcgtgttgt tcggagcgca cacacacaca 1020
accagatctc ccccaaatcc acccgtcggc acctccgctt caaggtacgc cgctcgtcct 1080
cccccccccc cctctctacc ttctctagat cggcgttccg gtccatggtt agggcccggt 1140
agttctactt ctgttcatgt ttgtgttaga tccgtgtttg tgttagatcc gtgctgctag 1200
cgttcgtaca cggatgcgac ctgtacgtca gacacgttct gattgctaac ttgccagtgt 1260
ttctctttgg ggaatcctgg gatggctcta gccgttccgc agacgggatc gatttcatga 1320
ttttttttgt ttcgttgcat agggtttggt ttgccctttt cctttatttc aatatatgcc 1380
gtgcacttgt ttgtcgggtc atcttttcat gctttttttt gtcttggttg tgatgatgtg 1440
gtctggttgg gcggtcgttc tagatcggag tagaattctg tttcaaacta cctggtggat 1500
ttattaattt tggatctgta tgtgtgtgcc atacatattc atagttacga attgaagatg 1560
atggatggaa atatcgatct aggataggta tacatgttga tgcgggtttt actgatgcat 1620
atacagagat gctttttgtt cgcttggttg tgatgatgtg gtgtggttgg gcggtcgttc 1680
attcgttcta gatcggagta gaatactgtt tcaaactacc tggtgtattt attaattttg 1740
gaactgtatg tgtgtgtcat acatcttcat agttacgagt ttaagatgga tggaaatatc 1800
gatctaggat aggtatacat gttgatgtgg gttttactga tgcatataca tgatggcata 1860
tgcagcatct attcatatgc tctaaccttg agtacctatc tattataata aacaagtatg 1920
ttttataatt attttgatct tgatatactt ggatgatggc atatgcagca gctatatgtg 1980
gattttttta gccctgcctt catacgctat ttatttgctt ggtactgttt cttttgtcga 2040
tgctcaccct gttgtttggt gttacttctg cagtacgtaa gcatggacta caaggaccac 2100
gacggggatt acaaagacca cgacatagac tacaaggatg acgatgacaa aatggcaccg 2160
aagaaaaaaa ggaaggtcgg cggctccccg aagaaaaaaa ggaaggtcgg cggctccccg 2220
aagaaaaaaa ggaaggtcgg cggctccccg aagaaaaaaa ggaaggtcgg aatccatggc 2280
gttccagaat tcgacaagaa gtactccatc ggcctcgaca tcggcaccaa cagcgtcggc 2340
tgggcggtga tcaccgacga gtacaaggtc ccgtccaaga agttcaaggt cctgggcaac 2400
accgaccgcc actccatcaa gaagaacctc atcggcgccc tcctcttcga ctccggcgag 2460
acggcggagg cgacccgcct caagcgcacc gcccgccgcc gctacacccg ccgcaagaac 2520
cgcatctgct acctccagga gatcttctcc aacgagatgg cgaaggtcga cgactccttc 2580
ttccaccgcc tcgaggagtc cttcctcgtg gaggaggaca agaagcacga gcgccacccc 2640
atcttcggca acatcgtcga cgaggtcgcc taccacgaga agtaccccac tatctaccac 2700
cttcgtaaga agcttgttga ctctactgat aaggctgatc ttcgtctcat ctaccttgct 2760
ctcgctcaca tgatcaagtt ccgtggtcac ttccttatcg agggtgacct taaccctgat 2820
aactccgacg tggacaagct cttcatccag ctcgtccaga cctacaacca gctcttcgag 2880
gagaacccta tcaacgcttc cggtgtcgac gctaaggcga tcctttccgc taggctctcc 2940
aagtccaggc gtctcgagaa cctcatcgcc cagctccctg gtgagaagaa gaacggtctt 3000
ttcggtaacc tcatcgctct ctccctcggt ctgaccccta acttcaagtc caacttcgac 3060
ctcgctgagg acgctaagct tcagctctcc aaggatacct acgacgatga tctcgacaac 3120
ctcctcgctc agattggaga tcagtacgct gatctcttcc ttgctgctaa gaacctctcc 3180
gatgctatcc tcctttcgga tatccttagg gttaacactg agatcactaa ggctcctctt 3240
tctgcttcca tgatcaagcg ctacgacgag caccaccagg acctcaccct cctcaaggct 3300
cttgttcgtc agcagctccc cgagaagtac aaggagatct tcttcgacca gtccaagaac 3360
ggctacgccg gttacattga cggtggagct agccaggagg agttctacaa gttcatcaag 3420
ccaatccttg agaagatgga tggtactgag gagcttctcg ttaagcttaa ccgtgaggac 3480
ctccttagga agcagaggac tttcgataac ggctctatcc ctcaccagat ccaccttggt 3540
gagcttcacg ccatccttcg taggcaggag gacttctacc ctttcctcaa ggacaaccgt 3600
gagaagatcg agaagatcct tactttccgt attccttact acgttggtcc tcttgctcgt 3660
ggtaactccc gtttcgcttg gatgactagg aagtccgagg agactatcac cccttggaac 3720
ttcgaggagg ttgttgacaa gggtgcttcc gcccagtcct tcatcgagcg catgaccaac 3780
ttcgacaaga acctccccaa cgagaaggtc ctccccaagc actccctcct ctacgagtac 3840
ttcacggtct acaacgagct caccaaggtc aagtacgtca ccgagggtat gcgcaagcct 3900
gccttcctct ccggcgagca gaagaaggct atcgttgacc tcctcttcaa gaccaaccgc 3960
aaggtcaccg tcaagcagct caaggaggac tacttcaaga agatcgagtg cttcgactcc 4020
gtcgagatca gcggcgttga ggaccgtttc aacgcttctc tcggtaccta ccacgatctc 4080
ctcaagatca tcaaggacaa ggacttcctc gacaacgagg agaacgagga catcctcgag 4140
gacatcgtcc tcactcttac tctcttcgag gatagggaga tgatcgagga gaggctcaag 4200
acttacgctc atctcttcga tgacaaggtt atgaagcagc tcaagcgtcg ccgttacacc 4260
ggttggggta ggctctcccg caagctcatc aacggtatca gggataagca gagcggcaag 4320
actatcctcg acttcctcaa gtctgatggt ttcgctaaca ggaacttcat gcagctcatc 4380
cacgatgact ctcttacctt caaggaggat attcagaagg ctcaggtgtc cggtcagggc 4440
gactctctcc acgagcacat tgctaacctt gctggttccc ctgctatcaa gaagggcatc 4500
cttcagactg ttaaggttgt cgatgagctt gtcaaggtta tgggtcgtca caagcctgag 4560
aacatcgtca tcgagatggc tcgtgagaac cagactaccc agaagggtca gaagaactcg 4620
agggagcgca tgaagaggat tgaggagggt atcaaggagc ttggttctca gatccttaag 4680
gagcaccctg tcgagaacac ccagctccag aacgagaagc tctacctcta ctacctccag 4740
aacggtaggg atatgtacgt tgaccaggag ctcgacatca acaggctttc tgactacgac 4800
gtcgacgcca ttgttcctca gtctttcctt aaggatgact ccatcgacaa caaggtcctc 4860
acgaggtccg acaagaacag gggtaagtcg gacaacgtcc cttccgagga ggttgtcaag 4920
aagatgaaga actactggag gcagcttctc aacgctaagc tcattaccca gaggaagttc 4980
gacaacctca cgaaggctga gaggggtggc ctttccgagc ttgacaaggc tggtttcatc 5040
aagaggcagc ttgttgagac gaggcagatt accaagcacg ttgctcagat cctcgattct 5100
aggatgaaca ccaagtacga cgagaacgac aagctcatcc gcgaggtcaa ggtgatcacc 5160
ctcaagtcca agctcgtctc cgacttccgc aaggacttcc agttctacaa ggtccgcgag 5220
atcaacaact accaccacgc tcacgatgct taccttaacg ctgtcgttgg taccgctctt 5280
atcaagaagt accctaagct tgagtccgag ttcgtctacg gtgactacaa ggtctacgac 5340
gttcgtaaga tgatcgccaa gtccgagcag gagatcggca aggccaccgc caagtacttc 5400
ttctactcca acatcatgaa cttcttcaag accgagatca ccctcgccaa cggcgagatc 5460
cgcaagcgcc ctcttatcga gacgaacggt gagactggtg agatcgtttg ggacaagggt 5520
cgcgacttcg ctactgttcg caaggtcctt tctatgcctc aggttaacat cgtcaagaag 5580
accgaggtcc agaccggtgg cttctccaag gagtctatcc ttccaaagag aaactcggac 5640
aagctcatcg ctaggaagaa ggattgggac cctaagaagt acggtggttt cgactcccct 5700
actgtcgcct actccgtcct cgtggtcgcc aaggtggaga agggtaagtc gaagaagctc 5760
aagtccgtca aggagctcct cggcatcacc atcatggagc gctcctcctt cgagaagaac 5820
ccgatcgact tcctcgaggc caagggctac aaggaggtca agaaggacct catcatcaag 5880
ctccccaagt actctctttt cgagctcgag aacggtcgta agaggatgct ggcttccgct 5940
ggtgagctcc agaagggtaa cgagcttgct cttccttcca agtacgtgaa cttcctctac 6000
ctcgcctccc actacgagaa gctcaagggt tcccctgagg ataacgagca gaagcagctc 6060
ttcgtggagc agcacaagca ctacctcgac gagatcatcg agcagatctc cgagttctcc 6120
aagcgcgtca tcctcgctga cgctaacctc gacaaggtcc tctccgccta caacaagcac 6180
cgcgacaagc ccatccgcga gcaggccgag aacatcatcc acctcttcac gctcacgaac 6240
ctcggcgccc ctgctgcttt caagtacttc gacaccacca tcgacaggaa gcgttacacg 6300
tccaccaagg aggttctcga cgctactctc atccaccagt ccatcaccgg tctttacgag 6360
actcgtatcg acctttccca gcttggtggt gatagcggtg gctccagcgg tggtagcagc 6420
ggtagcgaaa ctccagggac ctcggaatcg gcgactccag aatccagtgg gggtagcagc 6480
ggcggatcca gcaccctcaa tatcgaggac gagtacaggc tgcatgagac atccaaggag 6540
ccggacgtgt cactcggctc tacatggctg agcgatttcc cacaggcctg ggcggagaca 6600
ggcggcatgg gcctcgcggt caggcaggcg ccgctcatca ttccactgaa ggcgacctcc 6660
acaccggtca gcatcaagca gtacccaatg tcacaggagg cacggctcgg catcaagcca 6720
cacattcaga ggctcctgga ccagggcatt ctggtccctt gccagagccc gtggaacacc 6780
cctctcctgc cggtgaagaa gcctggcaca aatgactaca ggccggtcca ggatctcagg 6840
gaggtgaaca agcgcgtcga ggatatccat ccgaccgtgc cgaacccata caatctcctg 6900
tcaggcctcc cgccatctca ccagtggtac accgtcctcg acctgaagga tgcgttcttc 6960
tgcctcaggc tgcatccaac aagccagcct ctcttcgcct tcgagtggcg cgatccagag 7020
atgggcattt caggccagct cacctggaca cggctgccac agggcttcaa gaactctcct 7080
accctcttca atgaggcgct ccatcgggac ctggccgatt tcaggatcca gcaccctgac 7140
ctcattctcc tgcagtacgt ggacgatctc ctgctcgccg cgacatcaga gctggattgc 7200
cagcagggca ccagggccct gctccagaca ctcggcaatc tgggctaccg ggcctctgcg 7260
aagaaggccc agatctgcca gaagcaggtg aagtacctcg gctacctgct caaggaggga 7320
cagaggtggc tgacagaggc aaggaaggag acagtcatgg gccagcctac cccgaagaca 7380
cctcggcagc tcagggagtt cctgggcaag gccggattct gcaggctctt cattccagga 7440
ttcgcggaga tggcggcgcc actctaccct ctgaccaagc cgggcacact gttcaactgg 7500
ggcccagacc agcagaaggc gtaccaggag attaagcagg cactgctcac agcacctgcg 7560
ctcggcctgc cggacctcac aaagccattc gagctgttcg tggatgagaa gcagggctac 7620
gcgaagggag tcctgacaca gaagctggga ccatggaggc gcccagtggc ctacctctca 7680
aagaagctcg acccagtggc ggccggatgg cctccgtgcc tgaggatggt ggcggccatt 7740
gccgtcctca ccaaggatgc cggcaagctg acaatgggcc agcctctcgt gattctggcg 7800
ccgcatgcgg tggaggccct ggtcaagcag ccacctgata ggtggctgtc caacgcgcgc 7860
atgacccact accaggccct gctcctggac acagataggg tccagttcgg accagtggtg 7920
gcactcaatc ctgccacact gctgccactc cctgaggagg gcctgcagca taactgcctc 7980
gatattctgg cggaggccca tggcacccgg ccagacctca cagatcagcc gctgccagac 8040
gccgatcaca cctggtacac agatggctca tctctcctgc aggagggcca gaggaaggcc 8100
ggagcagccg tgaccacaga gacagaggtc atctgggcaa aggccctccc agcgggcacc 8160
tcagcacaga gggccgagct cattgcactg acacaggcgc tcaagatggc cgagggcaag 8220
aagctgaatg tgtacacaga ctccaggtac gcattcgcca cagcacacat ccatggcgag 8280
atttacaggc ggaggggatg gctcacatca gagggaaagg agatcaagaa caaggatgag 8340
attctcgcgc tcctgaaggc cctcttcctg cctaagcgcc tgtcaatcat tcactgccca 8400
ggacatcaga agggacactc agccgaggca aggggaaata ggatggcaga ccaggcggcc 8460
aggaaggcag cgatcaccga gacaccagat acctccacac tcctgattga gaactccagc 8520
cctgacgatg acaaaatggc accgaagaaa aaaaggaagg tcggcggctc cccgaagaaa 8580
aaaaggaagg tcggcggctc cccgaagaaa aaaaggaagg tcggcggctc cccgaagaaa 8640
aaaaggaagg tcggaatcca tggcggatca ggagccacca acttctccct cctcaagcag 8700
gccggcgacg tggaggagaa cccgggccca atgaaaaagc ctgaactcac cgcgacgtct 8760
gtcgagaagt ttctgatcga aaagttcgac agcgtctccg acctgatgca gctctcggag 8820
ggcgaagaat ctcgtgcttt cagcttcgat gtaggagggc gtggatatgt cctgcgggta 8880
aatagctgcg ccgatggttt ctacaaagat cgttatgttt atcggcactt tgcatcggcc 8940
gcgctcccga ttccggaagt gcttgacatt ggggagttta gcgagagcct gacctattgc 9000
atctcccgcc gttcacaggg tgtcacgttg caagacctgc ctgaaaccga actgcccgct 9060
gttctacaac cggtcgcgga ggctatggat gcgatcgctg cggccgatct tagccagacg 9120
agcgggttcg gcccattcgg accgcaagga atcggtcaat acactacatg gcgtgatttc 9180
atatgcgcga ttgctgatcc ccatgtgtat cactggcaaa ctgtgatgga cgacaccgtc 9240
agtgcgtccg tcgcgcaggc tctcgatgag ctgatgcttt gggccgagga ctgccccgaa 9300
gtccggcacc tcgtgcacgc ggatttcggc tccaacaatg tcctgacgga caatggccgc 9360
ataacagcgg tcattgactg gagcgaggcg atgttcgggg attcccaata cgaggtcgcc 9420
aacatcttct tctggaggcc gtggttggct tgtatggagc agcagacgcg ctacttcgag 9480
cggaggcatc cggagcttgc aggatcgcca cgactccggg cgtatatgct ccgcattggt 9540
cttgaccaac tctatcagag cttggttgac ggcaatttcg atgatgcagc ttgggcgcag 9600
ggtcgatgcg acgcaatcgt ccgatccgga gccgggactg tcgggcgtac acaaatcgcc 9660
cgcagaagcg cggccgtctg gaccgatggc tgtgtagaag tactcgccga tagtggaaac 9720
cgacgcccca gcactcgtcc gagggcaaag aaatagacta gttcccgatc gttcaaacat 9780
ttggcaataa agtttcttaa gattgaatcc tgttgccggt cttgcgatga ttatcatata 9840
atttctgttg aattacgtta agcatgtaat aattaacatg taatgcatga cgttatttat 9900
gaggtgggtt tttatgatta gagtcccgca attatacatt taatacgcga tagaaaacaa 9960
aatatagcgc gcaaactagg ataaattatc gcgcgcggtg tcatctatgt tactagacct 10020
gcaggtggaa tcggcagcaa aggatttttt cctgtagttt tcccacaacc attttttacc 10080
atccgaatga taggatagga aaaatatcca agtgaacagt attcctataa aattcccgta 10140
aaaagcctgc aatccgaatg agccctgaag tctgaactag ccggtcacct gtacaggcta 10200
tcgagatgcc atacaagaga cggtagtagg aactaggaag acgatggttg attcgtcagg 10260
cgaaatcgtc gtcctgcagt cgcatctatg ggcctggacg gaatagggga aaaagttggc 10320
cggataggag ggaaaggccc aggtgcttac gtgcgaggta ggcctgggct ctcagcactt 10380
cgattcgttg gcaccggggt aggatgcaat agagagcaac gtttagtacc acctcgctta 10440
gctagagcaa actggactgc cttatatgcg cgggtgctgg cttggctgcc gatatctcgc 10500
tctcacattc cgtttcagag ctatgctgga aacagcatag caagttgaaa taaggctagt 10560
ccgttatcaa cttgaaaaag tggcaccgag tcggtgcttt ttttaggaat ctttaaacat 10620
acgaacagat cacttaaagt tcttctgaag caacttaaag ttatcaggca tgcatggatc 10680
ttggaggaat cagatgtgca gtcagggacc atagcacaag acaggcgtct tctactggtg 10740
ctaccagcaa atgctggaag ccgggaacac tgggtacgtt ggaaaccacg tgtgatgtga 10800
aggagtaaga taaactgtag gagaaaagca tttcgtagtg ggccatgaag cctttcagga 10860
catgtattgc agtatgggcc ggcccattac gcaattggac gacaacaaag actagtatta 10920
gtaccacctc ggctatccac atagatcaaa gctggtttaa aagagttgtg cagatgatcc 10980
gtggcgggta tggtggtgca atggggtttc agagctatgc tggaaacagc atagcaagtt 11040
gaaataaggc tagtccgtta tcaacttgaa aaagtggcac cgagtcggtg caaacctatc 11100
ctccaattgc accaccattt ttttttggca tgcaagcttg gcactggccg tcgttttaca 11160
acgtcgtgac tgggaaaacc ctggcgttac ccaacttaat cgccttgcag cacatccccc 11220
tttcgccagc tggcgtaata gcgaagaggc ccgcaccgat cgcccttccc aacagttgcg 11280
cagcctgaat ggcgaatgct agagcagctt gagcttggat cagattgtcg tttcccgcct 11340
tcagtttaaa ctatcagtgt ttgacaggat atattggcgg gtaaacctaa gagaaaagag 11400
cgtttattag aataacggat atttaaaagg gcgtgaaaag gtttatccgt tcgtccattt 11460
gtatgtgcat gccaaccaca gggttcccct cgggatcaaa gtactttgat ccaacccctc 11520
cgctgctata gtgcagtcgg cttctgacgt tcagtgcagc cgtcttctga aaacgacatg 11580
tcgcacaagt cctaagttac gcgacaggct gccgccctgc ccttttcctg gcgttttctt 11640
gtcgcgtgtt ttagtcgcat aaagtagaat acttgcgact agaaccggag acattacgcc 11700
atgaacaaga gcgccgccgc tggcctgctg ggctatgccc gcgtcagcac cgacgaccag 11760
gacttgacca accaacgggc cgaactgcac gcggccggct gcaccaagct gttttccgag 11820
aagatcaccg gcaccaggcg cgaccgcccg gagctggcca ggatgcttga ccacctacgc 11880
cctggcgacg ttgtgacagt gaccaggcta gaccgcctgg cccgcagcac ccgcgaccta 11940
ctggacattg ccgagcgcat ccaggaggcc ggcgcgggcc tgcgtagcct ggcagagccg 12000
tgggccgaca ccaccacgcc ggccggccgc atggtgttga ccgtgttcgc cggcattgcc 12060
gagttcgagc gttccctaat catcgaccgc acccggagcg ggcgcgaggc cgccaaggcc 12120
cgaggcgtga agtttggccc ccgccctacc ctcaccccgg cacagatcgc gcacgcccgc 12180
gagctgatcg accaggaagg ccgcaccgtg aaagaggcgg ctgcactgct tggcgtgcat 12240
cgctcgaccc tgtaccgcgc acttgagcgc agcgaggaag tgacgcccac cgaggccagg 12300
cggcgcggtg ccttccgtga ggacgcattg accgaggccg acgccctggc ggccgccgag 12360
aatgaacgcc aagaggaaca agcatgaaac cgcaccagga cggccaggac gaaccgtttt 12420
tcattaccga agagatcgag gcggagatga tcgcggccgg gtacgtgttc gagccgcccg 12480
cgcacgtctc aaccgtgcgg ctgcatgaaa tcctggccgg tttgtctgat gccaagctgg 12540
cggcctggcc ggccagcttg gccgctgaag aaaccgagcg ccgccgtcta aaaaggtgat 12600
gtgtatttga gtaaaacagc ttgcgtcatg cggtcgctgc gtatatgatg cgatgagtaa 12660
ataaacaaat acgcaagggg aacgcatgaa ggttatcgct gtacttaacc agaaaggcgg 12720
gtcaggcaag acgaccatcg caacccatct agcccgcgcc ctgcaactcg ccggggccga 12780
tgttctgtta gtcgattccg atccccaggg cagtgcccgc gattgggcgg ccgtgcggga 12840
agatcaaccg ctaaccgttg tcggcatcga ccgcccgacg attgaccgcg acgtgaaggc 12900
catcggccgg cgcgacttcg tagtgatcga cggagcgccc caggcggcgg acttggctgt 12960
gtccgcgatc aaggcagccg acttcgtgct gattccggtg cagccaagcc cttacgacat 13020
atgggccacc gccgacctgg tggagctggt taagcagcgc attgaggtca cggatggaag 13080
gctacaagcg gcctttgtcg tgtcgcgggc gatcaaaggc acgcgcatcg gcggtgaggt 13140
tgccgaggcg ctggccgggt acgagctgcc cattcttgag tcccgtatca cgcagcgcgt 13200
gagctaccca ggcactgccg ccgccggcac aaccgttctt gaatcagaac ccgagggcga 13260
cgctgcccgc gaggtccagg cgctggccgc tgaaattaaa tcaaaactca tttgagttaa 13320
tgaggtaaag agaaaatgag caaaagcaca aacacgctaa gtgccggccg tccgagcgca 13380
cgcagcagca aggctgcaac gttggccagc ctggcagaca cgccagccat gaagcgggtc 13440
aactttcagt tgccggcgga ggatcacacc aagctgaaga tgtacgcggt acgccaaggc 13500
aagaccatta ccgagctgct atctgaatac atcgcgcagc taccagagta aatgagcaaa 13560
tgaataaatg agtagatgaa ttttagcggc taaaggaggc ggcatggaaa atcaagaaca 13620
accaggcacc gacgccgtgg aatgccccat gtgtggagga acgggcggtt ggccaggcgt 13680
aagcggctgg gttgtctgcc ggccctgcaa tggcactgga acccccaagc ccgaggaatc 13740
ggcgtgacgg tcgcaaacca tccggcccgg tacaaatcgg cgcggcgctg ggtgatgacc 13800
tggtggagaa gttgaaggcc gcgcaggccg cccagcggca acgcatcgag gcagaagcac 13860
gccccggtga atcgtggcaa gcggccgctg atcgaatccg caaagaatcc cggcaaccgc 13920
cggcagccgg tgcgccgtcg attaggaagc cgcccaaggg cgacgagcaa ccagattttt 13980
tcgttccgat gctctatgac gtgggcaccc gcgatagtcg cagcatcatg gacgtggccg 14040
ttttccgtct gtcgaagcgt gaccgacgag ctggcgaggt gatccgctac gagcttccag 14100
acgggcacgt agaggtttcc gcagggccgg ccggcatggc cagtgtgtgg gattacgacc 14160
tggtactgat ggcggtttcc catctaaccg aatccatgaa ccgataccgg gaagggaagg 14220
gagacaagcc cggccgcgtg ttccgtccac acgttgcgga cgtactcaag ttctgccggc 14280
gagccgatgg cggaaagcag aaagacgacc tggtagaaac ctgcattcgg ttaaacacca 14340
cgcacgttgc catgcagcgt acgaagaagg ccaagaacgg ccgcctggtg acggtatccg 14400
agggtgaagc cttgattagc cgctacaaga tcgtaaagag cgaaaccggg cggccggagt 14460
acatcgagat cgagctagct gattggatgt accgcgagat cacagaaggc aagaacccgg 14520
acgtgctgac ggttcacccc gattactttt tgatcgatcc cggcatcggc cgttttctct 14580
accgcctggc acgccgcgcc gcaggcaagg cagaagccag atggttgttc aagacgatct 14640
acgaacgcag tggcagcgcc ggagagttca agaagttctg tttcaccgtg cgcaagctga 14700
tcgggtcaaa tgacctgccg gagtacgatt tgaaggagga ggcggggcag gctggcccga 14760
tcctagtcat gcgctaccgc aacctgatcg agggcgaagc atccgccggt tcctaatgta 14820
cggagcagat gctagggcaa attgccctag caggggaaaa aggtcgaaaa gttctctttc 14880
ctgtggatag cacgtacatt gggaacccaa agccgtacat tgggaaccgg aacccgtaca 14940
ttgggaaccc aaagccgtac attgggaacc ggtcacacat gtaagtgact gatataaaag 15000
agaaaaaagg cgatttttcc gcctaaaact ctttaaaact tattaaaact cttaaaaccc 15060
gcctggcctg tgcataactg tctggccagc gcacagccga agagctgcaa aaagcgccta 15120
cccttcggtc gctgcgctcc ctacgccccg ccgcttcgcg tcggcctatc gcggccgctg 15180
gccgctcaaa aatggctggc ctacggccag gcaatctacc agggcgcgga caagccgcgc 15240
cgtcgccact cgaccgccgg cgcccacatc aaggcaccct gcctcgcgcg tttcggtgat 15300
gacggtgaaa acctctgaca catgcagctc ccggagacgg tcacagcttg tctgtaagcg 15360
gatgccggga gcagacaagc ccgtcagggc gcgtcagcgg gtgttggcgg gtgtcggggc 15420
gcagccatga cccagtcacg tagcgatagc ggagtgtata ctggcttaac tatgcggcat 15480
cagagcagat tgtactgaga gtgcaccata tgcggtgtga aataccgcac agatgcgtaa 15540
ggagaaaata ccgcatcagg cgctcttccg cttcctcgct cactgactcg ctgcgctcgg 15600
tcgttcggct gcggcgagcg gtatcagctc actcaaaggc ggtaatacgg ttatccacag 15660
aatcagggga taacgcagga aagaacatgt gagcaaaagg ccagcaaaag gccaggaacc 15720
gtaaaaaggc cgcgttgctg gcgtttttcc ataggctccg cccccctgac gagcatcaca 15780
aaaatcgacg ctcaagtcag aggtggcgaa acccgacagg actataaaga taccaggcgt 15840
ttccccctgg aagctccctc gtgcgctctc ctgttccgac cctgccgctt accggatacc 15900
tgtccgcctt tctcccttcg ggaagcgtgg cgctttctca tagctcacgc tgtaggtatc 15960
tcagttcggt gtaggtcgtt cgctccaagc tgggctgtgt gcacgaaccc cccgttcagc 16020
ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc caacccggta agacacgact 16080
tatcgccact ggcagcagcc actggtaaca ggattagcag agcgaggtat gtaggcggtg 16140
ctacagagtt cttgaagtgg tggcctaact acggctacac tagaaggaca gtatttggta 16200
tctgcgctct gctgaagcca gttaccttcg gaaaaagagt tggtagctct tgatccggca 16260
aacaaaccac cgctggtagc ggtggttttt ttgtttgcaa gcagcagatt acgcgcagaa 16320
aaaaaggatc tcaagaagat cctttgatct tttctacggg gtctgacgct cagtggaacg 16380
aaaactcacg ttaagggatt ttggtcatgc attctaggta ctaaaacaat tcatccagta 16440
aaatataata ttttattttc tcccaatcag gcttgatccc cagtaagtca aaaaatagct 16500
cgacatactg ttcttccccg atatcctccc tgatcgaccg gacgcagaag gcaatgtcat 16560
accacttgtc cgccctgccg cttctcccaa gatcaataaa gccacttact ttgccatctt 16620
tcacaaagat gttgctgtct cccaggtcgc cgtgggaaaa gacaagttcc tcttcgggct 16680
tttccgtctt taaaaaatca tacagctcgc gcggatcttt aaatggagtg tcttcttccc 16740
agttttcgca atccacatcg gccagatcgt tattcagtaa gtaatccaat tcggctaagc 16800
ggctgtctaa gctattcgta tagggacaat ccgatatgtc gatggagtga aagagcctga 16860
tgcactccgc atacagctcg ataatctttt cagggctttg ttcatcttca tactcttccg 16920
agcaaaggac gccatcggcc tcactcatga gcagattgct ccagccatca tgccgttcaa 16980
agtgcaggac ctttggaaca ggcagctttc cttccagcca tagcatcatg tccttttccc 17040
gttccacatc ataggtggtc cctttatacc ggctgtccgt catttttaaa tataggtttt 17100
cattttctcc caccagctta tataccttag caggagacat tccttccgta tcttttacgc 17160
agcggtattt ttcgatcagt tttttcaatt ccggtgatat tctcatttta gccatttatt 17220
atttccttcc tcttttctac agtatttaaa gataccccaa gaagctaatt ataacaagac 17280
gaactccaat tcactgttcc ttgcattcta aaaccttaaa taccagaaaa cagctttttc 17340
aaagttgttt tcaaagttgg cgtataacat agtatcgacg gagccgattt tgaaaccgcg 17400
gtgatcacag gcagcaacgc tctgtcatcg ttacaatcaa catgctaccc tccgcgagat 17460
catccgtgtt tcaaacccgg cagcttagtt gccgttcttc cgaatagcat cggtaacatg 17520
agcaaagtct gccgccttac aacggctctc ccgctgacgc cgtcccggac tgatgggctg 17580
cctgtatcga gtggtgattt tgtgccgagc tgccggtcgg ggagctgttg gctggct 17637
<210> 6
<211> 19
<212> PRT
<213> Artificial Sequence
<400> 6
Ala Thr Asn Phe Ser Leu Leu Lys Gln Ala Gly Asp Val Glu Glu Asn
1 5 10 15
Pro Gly Pro

Claims (16)

1.成套系统,其包括融合蛋白、pegRNA和esgRNA;
所述融合蛋白为依次由Cas9切刻酶、反转录酶、自切割寡肽和筛选标记蛋白组成的融合蛋白或依次由筛选标记蛋白、自切割寡肽、Cas9切刻酶和反转录酶组成的融合蛋白;
所述Cas9切刻酶为Cas9n H840A;
所述Cas9n H840A的氨基酸序列如序列2所示;
所述反转录酶为M-MLV RT;
所述M-MLV RT的氨基酸序列如序列3所示;
所述自切割寡肽为来源于病毒基因组的2A自切割寡肽;所述来源于病毒基因组的2A自切割寡肽为来源于猪捷申病毒-1的2A自切割寡肽;
所述筛选标记蛋白为潮霉素磷酸转移酶;
所述潮霉素磷酸转移酶的氨基酸序列是序列4所示;
所述pegRNA依次由靶点序列、esgRNA骨架、RT序列和引物结合位点PBS序列组成;
所述esgRNA骨架为将序列5第10512-10597位中的T替换为U得到的RNA分子。
2.根据权利要求1所述的成套系统,其特征在于:所述Cas9n H840A的编码基因为序列1第3013-7113位所示的cDNA分子或DNA分子。
3.根据权利要求1或2所述的成套系统,其特征在于:所述M-MLV RT的编码基因为序列1第7213-9243位所示的cDNA分子或DNA分子。
4.根据权利要求1或2所述的成套系统,其特征在于:所述来源于猪捷申病毒-1的2A自切割寡肽的氨基酸序列的氨基酸序列是序列6所示;
或,所述来源于猪捷申病毒-1的2A自切割寡肽的编码基因为序列5第8674-8730位所示的cDNA分子或DNA分子。
5.根据权利要求1或2所述的成套系统,其特征在于:所述潮霉素磷酸转移酶的编码基因为序列1第11665-12690位所示的cDNA分子或DNA分子。
6.权利要求1-5任一所述的成套系统在S1)-S4)任一种中的应用:
S1)生物体或生物细胞基因组序列的编辑;
S2)制备生物体或生物细胞基因组序列的编辑的产品;
S3)提高生物体或生物细胞基因组序列的编辑效率;
S4)制备提高生物体或生物细胞基因组序列的编辑效率的产品;
所述生物体为植物;所述生物细胞为植物细胞。
7.根据权利要求6所述的应用,其特征在于:所述基因组序列的编辑为基因组序列的碱基替换。
8.根据权利要求6或7所述的应用,其特征在于:所述植物为单子叶植物或双子叶植物;和/或,所述植物细胞为单子叶植物细胞或双子叶植物细胞。
9.根据权利要求8所述的应用,其特征在于:所述单子叶植物为禾本科植物;或,所述单子叶植物细胞为禾本科植物细胞。
10.根据权利要求9所述的应用,其特征在于:所述禾本科植物为水稻;或,所述禾本科植物细胞为水稻细胞。
11.基因组序列的编辑方法或提高生物体或生物细胞基因组序列的编辑效率的方法,包括如下步骤:使生物体或生物细胞表达权利要求1所述的成套系统;所述生物体为植物;所述生物细胞为植物细胞。
12.根据权利要求11所述的方法,其特征在于:所述基因组序列的编辑为基因组序列的碱基替换。
13.生物突变体的制备方法,包括如下步骤:利用权利要求1所述的成套系统对生物体的基因组进行编辑,获得生物突变体;
所述生物体为植物。
14.根据权利要求11-13任一所述的方法,其特征在于:所述植物为单子叶植物或双子叶植物。
15.根据权利要求14所述的方法,其特征在于:所述单子叶植物为禾本科植物。
16.根据权利要求15所述的方法,其特征在于:所述禾本科植物为水稻。
CN202010219352.1A 2020-03-25 2020-03-25 Pe-p2引导编辑系统及其在基因组碱基编辑中的应用 Active CN111378051B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010219352.1A CN111378051B (zh) 2020-03-25 2020-03-25 Pe-p2引导编辑系统及其在基因组碱基编辑中的应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010219352.1A CN111378051B (zh) 2020-03-25 2020-03-25 Pe-p2引导编辑系统及其在基因组碱基编辑中的应用

Publications (2)

Publication Number Publication Date
CN111378051A CN111378051A (zh) 2020-07-07
CN111378051B true CN111378051B (zh) 2022-03-01

Family

ID=71215524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010219352.1A Active CN111378051B (zh) 2020-03-25 2020-03-25 Pe-p2引导编辑系统及其在基因组碱基编辑中的应用

Country Status (1)

Country Link
CN (1) CN111378051B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230075587A1 (en) * 2019-11-01 2023-03-09 Suzhou QI Biodesign Biotechnology Method for targeted modification of sequence of plant genome
US20230357784A1 (en) * 2020-02-21 2023-11-09 Limagrain Europe Prime editing technology for plant genome engineering
WO2022007959A1 (zh) * 2020-07-10 2022-01-13 中国科学院动物研究所 一种编辑核酸的系统及方法
CN111748578B (zh) * 2020-07-14 2023-08-25 北大荒垦丰种业股份有限公司 植物导引模板原位合成基因编辑方法及应用
KR102538128B1 (ko) * 2020-07-29 2023-05-30 연세대학교 산학협력단 딥러닝을 이용한 프라임에디팅 효율 예측 시스템 및 방법
US20240018492A1 (en) * 2020-09-29 2024-01-18 Institute For Basic Science Prime editing using hiv reverse transcriptase and cas9 or variant thereof
CN114480470A (zh) * 2020-11-13 2022-05-13 深圳华大生命科学研究院 高通量制备模式生物基因编辑突变体的方法及相关质粒
CN114686454B (zh) * 2020-12-31 2024-04-26 北京市农林科学院 Pe-p3引导编辑系统及其在基因组碱基编辑中的应用
CN114763556B (zh) * 2020-12-31 2024-04-26 北京市农林科学院 一种基因编辑效率提高的引导碱基编辑系统及其应用
CN112708605A (zh) * 2021-01-14 2021-04-27 中山大学 一个Cas9蛋白拆分得到的蛋白组及其应用
CN115161316A (zh) * 2021-04-02 2022-10-11 上海科技大学 一种引导编辑工具、融合rna及其用途
WO2022242660A1 (en) * 2021-05-17 2022-11-24 Wuhan University System and methods for insertion and editing of large nucleic acid fragments
CN113564164B (zh) * 2021-07-19 2024-04-16 中国农业大学 一种提高先导编辑效率的载体和方法
CN114908116B (zh) * 2022-04-29 2024-05-10 中国农业科学院作物科学研究所 一种通过借助代理引导编辑器进行水稻多基因精准编辑的方法
CN115029374B (zh) * 2022-06-24 2023-12-26 安徽省农业科学院水稻研究所 一种用于骨干载体的pegRNA表达框及相应骨干载体和应用
CN116904457A (zh) * 2023-01-17 2023-10-20 西北农林科技大学 一种pe-stop基因编辑系统及基因敲除方法和应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018170290A1 (en) * 2017-03-15 2018-09-20 Fulcrum Therapeutics, Inc. Compositions and methods for increasing fmr1 expression
CN109414449A (zh) * 2016-05-06 2019-03-01 托德·M·伍尔夫 利用和不利用可设计核酸酶编辑基因组的改进方法
CN109679989A (zh) * 2018-12-29 2019-04-26 北京市农林科学院 一种提高碱基编辑系统编辑效率的方法
CN110373430A (zh) * 2018-04-13 2019-10-25 青岛清原化合物有限公司 一种随机突变的基因编辑系统及其应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109266686A (zh) * 2018-09-26 2019-01-25 北京市农林科学院 一种基因组核苷酸定点替换的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109414449A (zh) * 2016-05-06 2019-03-01 托德·M·伍尔夫 利用和不利用可设计核酸酶编辑基因组的改进方法
WO2018170290A1 (en) * 2017-03-15 2018-09-20 Fulcrum Therapeutics, Inc. Compositions and methods for increasing fmr1 expression
CN110373430A (zh) * 2018-04-13 2019-10-25 青岛清原化合物有限公司 一种随机突变的基因编辑系统及其应用
CN109679989A (zh) * 2018-12-29 2019-04-26 北京市农林科学院 一种提高碱基编辑系统编辑效率的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CRISPR/Cas植物基因组编辑技术研究进展;刘耀光等;《华南农业大学学报》;20190705;第40卷(第5期);第38-49页 *
Increasing Cytosine Base Editing Scope and Efficiency With Engineered Cas9-PmCDA1 Fusions and the Modified sgRNA in Rice;Ying Wu等;《Frontiers in Genetics》;20190426;第10卷;第1-10页 *
Search-and-replace genome editing without double-strand breaks or donor DNA;Andrew V. Anzalone等;《Nature》;20191021;第576卷;第151页左栏 "Validation in vitro and in yeast"部分,第152-153页"Prime editor 2"、"optimization of pegRNAs"和"Prime editor 3 systems"部分,方法部分中"使用PE3形成含HBB(E6V)的HEK293T细胞"部分,补充数据图3a,图2-4 *

Also Published As

Publication number Publication date
CN111378051A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
CN111378051B (zh) Pe-p2引导编辑系统及其在基因组碱基编辑中的应用
CN112226445B (zh) 编码SARS-CoV-2病毒刺突蛋白的核酸及其的应用
EP1624060B1 (en) Control of gene expression
CN107794276A (zh) 一种crispr介导快速有效的农作物定点基因片段或等位基因替换方法和体系
JPH029374A (ja) 除草剤耐性キメラ遺伝子
CN107630029B (zh) 一种产朊假丝酵母游离型表达载体及其构建方法与应用
CN111549026B (zh) 一种水稻增强子及鉴定方法
CN107964551A (zh) 西瓜花叶病毒侵染性克隆表达载体的构建与应用
CN110423772A (zh) 一种用于鲍曼不动杆菌胞嘧啶碱基编辑质粒及其应用
CN109112136B (zh) Ggc2基因的分离克隆及其在水稻改良中的应用
KR20180137558A (ko) 유전자내 식물 형질전환을 위한 구조체 및 벡터
CN109777826A (zh) 小西葫芦黄花叶病毒侵染性克隆表达载体及其构建方法
CN110564752B (zh) 差异代理技术在c·t碱基替换细胞富集中的应用
CN108203715A (zh) 番木瓜环斑病毒西瓜株系超表达载体的构建
CN113699180B (zh) 基因BnaCYP705a12在油菜素内酯生物合成以及生产转基因植物中的应用
CN110669115B (zh) 一种稻瘟病菌线粒体自噬相关的致病因子、基因及应用
KR102076338B1 (ko) 잠두위조바이러스2를 이용한 고추 유전자 침묵 기술
CN111454970B (zh) 拟南芥莲座叶的相关基因在调节拟南芥莲座叶器官大小的应用
CN110628794B (zh) 以失活的筛选剂抗性基因为报告体系的c·t碱基替换的细胞富集技术及其应用
KR101122955B1 (ko) 콩 모자이크 바이러스의 감염성 클론을 이용한 식물체내에서의 외래 유전자 과발현 방법
KR102286426B1 (ko) 자동유도 플라스미드
KR102604399B1 (ko) 코리네박테리움 글루타미쿰의 모듈화 클로닝용 벡터 및 이의 용도
CN108486143B (zh) 一种真菌RNA干涉载体pBHt2-CHSA Intron、构建方法及应用
CN113557303A (zh) 转基因表达的调节
KR102032509B1 (ko) 면역글로불린 또는 면역글로불린 Fc 부위가 포함된 재조합 단백질의 다량체 생산 배추 제조방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant