CN110951736B - 一种核定位信号f4nls及其在提高碱基编辑效率与拓展可编辑碱基范围中的应用 - Google Patents

一种核定位信号f4nls及其在提高碱基编辑效率与拓展可编辑碱基范围中的应用 Download PDF

Info

Publication number
CN110951736B
CN110951736B CN201911323222.6A CN201911323222A CN110951736B CN 110951736 B CN110951736 B CN 110951736B CN 201911323222 A CN201911323222 A CN 201911323222A CN 110951736 B CN110951736 B CN 110951736B
Authority
CN
China
Prior art keywords
sequence
nuclear localization
localization signal
leu
lys
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911323222.6A
Other languages
English (en)
Other versions
CN110951736A (zh
Inventor
杨进孝
王飞鹏
赵久然
张成伟
徐雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Academy of Agriculture and Forestry Sciences
Original Assignee
Beijing Academy of Agriculture and Forestry Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Academy of Agriculture and Forestry Sciences filed Critical Beijing Academy of Agriculture and Forestry Sciences
Priority to CN201911323222.6A priority Critical patent/CN110951736B/zh
Publication of CN110951736A publication Critical patent/CN110951736A/zh
Application granted granted Critical
Publication of CN110951736B publication Critical patent/CN110951736B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/415Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from plants
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8216Methods for controlling, regulating or enhancing expression of transgenes in plant cells
    • C12N15/8218Antisense, co-suppression, viral induced gene silencing [VIGS], post-transcriptional induced gene silencing [PTGS]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/78Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04001Cytosine deaminase (3.5.4.1)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04002Adenine deaminase (3.5.4.2)

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Medicinal Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Plant Pathology (AREA)
  • Botany (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Virology (AREA)
  • Cell Biology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

本发明公开了一种核定位信号F4NLS及其在提高碱基编辑效率与拓展可编辑碱基范围中的应用。所述核定位信号F4NLS由核定位信号甲和核定位信号乙组成,所述核定位信号甲包括3*Flag标签蛋白和NLS蛋白;所述核定位信号乙包括所述NLS蛋白;所述3*Flag标签蛋白的氨基酸序列为序列10第1‑22位;所述NLS蛋白的氨基酸序列为序列11第1‑7位。通过实验证明:本发明的核定位信号F4NLS可提高碱基编辑效率和拓展可编辑碱基范围,在生物基因组编辑领域具有良好的应用前景。

Description

一种核定位信号F4NLS及其在提高碱基编辑效率与拓展可编 辑碱基范围中的应用
技术领域
本发明属于生物技术领域,具体涉及一种核定位信号F4NLS及其在提高碱基编辑效率与拓展可编辑碱基范围中的应用。
背景技术
CRISPR-Cas9技术已经成为强有力的基因组编辑手段,被广泛应用到很多组织和细胞中。CRISPR/Cas9 protein-RNA复合物通过向导RNA(guide RNA)定位于靶点上,切割产生DNA双链断裂(dsDNA break,DSB),而后生物体会本能的启动DNA修复机制修复DSB。修复机制一般有两种,一种是非同源末端连接(non-homologous end joining,NHEJ),另一种是同源重组(homology-directed repair,HDR)。通常情况下NHEJ占大多数,因此修复产生的随机的indels(insertions or deletions)比精确修复高很多。对于碱基精确替换,因为HDR效率低以及需要DNA模板,所以使用HDR实现碱基精确替换的应用受到很大的限制。
2016年,David Liu和Akihiko Kondo两个实验室分别独立报道了两种不同类型的胞嘧啶碱基编辑器(cytosine base editor,CBE),分别使用了两种不同的胞苷脱氨酶rAPOBEC1(rat APOBEC1)和PmCDA1(activation-induced cytidine deaminase(AID)ortholog from sea lamprey),原理都是通过使用胞苷脱氨酶直接实现对单个胞嘧啶(Cytosine,C)碱基进行编辑,而不再通过产生DSB和启动HDR修复,大大提高了C替换为胸腺嘧啶(Thymine,T)的碱基编辑效率。具体为dead Cas9(dCas9)或the Cas9 nickase(Cas9n)连带着rAPOBEC1或PmCDA1通过sgRNA定位到靶点,rAPOBEC1或PmCDA1催化非配对的单链DNA上的C发生胞嘧啶脱氨反应变成尿嘧啶(Uracil,U),通过DNA的修复使得U与腺嘌呤(Adenine,A)配对,又通过DNA复制,最终使得T与A配对,从而实现了C到T的转换。在所测试的编辑器中,SpCas9n(D10A)&rAPOBEC1/PmCDA1&UGI碱基编辑系统(其含有尿嘧啶DNA糖化酶抑制剂(uracil DNA glycosylase inhibitor,UGI))的平均突变率较高,原因有二:一是UGI可以抑制尿嘧啶DNA糖化酶(uracil DNA glycosylase,UDG)催化清除DNA中U,二是SpCas9n(D10A)在非编辑链上产生切口,诱导真核错配修复机制或long-patch BER(base-excision repair)修复机制,促使U:G错配更多的偏好性修复成U:A。
2017年,David Liu实验室报道了一种新型的腺嘌呤碱基编辑器(adenine baseeditor,ABE)。通过七轮进化,研究者将来源于大肠杆菌的tRNA腺嘌呤脱氨酶(tRNAadenosine deaminase,ecTadA)融合在Cas9 nickase(Cas9n)的5’端,在细胞内能够直接实现对单个碱基A到G(Guanine,G)的替换,而不再通过产生DSB和启动HDR修复,大大提高了A替换为G的碱基编辑效率。具体过程为:当含有基因组靶向序列的sgRNA与ecTadA&ecTadA&Cas9n结合时,复合体定位到靶点,ecTadA催化非配对的单链DNA上的A发生腺嘌呤脱氨反应变成肌苷(Inosine,I),在DNA修复的过程中,I会被视为G,Cas9n会在切割配对的DNA链的磷酸二酯键,引入一个胞嘧啶C与I配对。最终在接下来的修复过程中产生C-G配对,从而实现了A到G的转换。
为了提高工作效率,降低工作成本,碱基替换效率的提高一直是动植物基因组碱基编辑系统的研究方向。但是无论是CBE系统还是ABE系统,仍然存在碱基编辑效率不高,或是不能被碱基编辑的靶点,或是靶点内某个目标C或A编辑效率低或不能被编辑的情况。
发明内容
本发明的目的是提高碱基编辑系统的碱基编辑效率及拓展可编辑的碱基范围。
为了实现上述目的,本发明首先提供了一种成套试剂,所述成套试剂包括sgRNA或与所述sgRNA相关的生物材料、Cas9核酸酶或与所述Cas9核酸酶相关的生物材料、脱氨酶或与所述脱氨酶相关的生物材料、核定位信号甲或与所述核定位信号甲相关的生物材料、核定位信号乙或与所述核定位信号乙相关的生物材料;
所述核定位信号甲包括3*Flag标签蛋白和NLS蛋白;
所述核定位信号乙包括所述NLS蛋白;
所述3*Flag标签蛋白的氨基酸序列为序列10第1-22位;
所述NLS蛋白的氨基酸序列为序列11第1-7位。
上述成套试剂中,所述核定位信号甲中,所述3*Flag标签蛋白的个数可为1个或2个或多个,所述NLS蛋白的个数也可为1个或2个或多个。在本发明的一个具体实施例中,所述核定位信号甲包括1个所述3*Flag标签蛋白和4个所述NLS蛋白。
所述核定位信号乙中,所述NLS蛋白的个数可为1个或2个或多个。在本发明的一个具体实施例中,所述核定位信号乙包括4个所述NLS蛋白。
进一步的,所述核定位信号甲的氨基酸序列为A1)或A2):
A1)氨基酸序列是序列10所示的蛋白质;
A2)将序列表中序列10所示的氨基酸序列经过一个或几个氨基酸残基的取代和/或缺失和/或添加且具有相同功能的蛋白质;
与所述核定位信号甲相关的生物材料为B1)至B5)中的任一种:
B1)编码所述核定位信号甲的核酸分子;
B2)含有B1)所述核酸分子的表达盒;
B3)含有B1)所述核酸分子的重组载体、或含有B2)所述表达盒的重组载体;
B4)含有B1)所述核酸分子的重组微生物、或含有B2)所述表达盒的重组微生物、或含有B3)所述重组载体的重组微生物;
B5)含有B1)所述核酸分子的转基因细胞系、或含有B2)所述表达盒的转基因细胞系;
所述核定位信号乙的氨基酸序列为C1)或C2):
C1)氨基酸序列是序列11所示的蛋白质;
C2)将序列表中序列11所示的氨基酸序列经过一个或几个氨基酸残基的取代和/或缺失和/或添加且具有相同功能的蛋白质;
与所述核定位信号乙相关的生物材料为D1)至D5)中的任一种:
D1)编码所述核定位信号乙的核酸分子;
D2)含有D1)所述核酸分子的表达盒;
D3)含有D1)所述核酸分子的重组载体、或含有D2)所述表达盒的重组载体;
D4)含有D1)所述核酸分子的重组微生物、或含有D2)所述表达盒的重组微生物、或含有D3)所述重组载体的重组微生物;
D5)含有D1)所述核酸分子的转基因细胞系、或含有D2)所述表达盒的转基因细胞系。
更进一步的,
B1)所述核酸分子为b1)或b2)或b3):
b1)序列表中序列6第1-183位所示的cDNA分子或DNA分子;
b2)与b1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述核定位信号甲的cDNA分子或DNA分子;
b3)在严格条件下与b1)或b2)限定的核苷酸序列杂交,且编码所述核定位信号甲的cDNA分子或DNA分子;
D1)所述核酸分子为d1)或d2)或d3):
d1)序列表中序列6第73-183位所示的cDNA分子或DNA分子;
d2)与d1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述核定位信号乙的cDNA分子或DNA分子;
d3)在严格条件下与d1)或d2)限定的核苷酸序列杂交,且编码所述核定位信号乙的cDNA分子或DNA分子。
上述成套试剂中,所述Cas9核酸酶包括不同来源的Cas9核酸酶或其变体、dead失活酶(dead Cas9,dCas9)或其变体、nickase切刻酶(Cas9 nickase,Cas9n)或其变体。所述不同来源的Cas9核酸酶或其变体包括来源于细菌的Cas9(如SaCas9、SaCas9-KKH等),识别不同PAM的Cas9变体(如xCas9、Cas9-NG、Cas9-VQR、Cas9-VRER等),Cas9高保真酶变体(如HypaCas9、eSpCas9(1.1)、Cas9-HF1等)等。
所述脱氨酶可为胞嘧啶脱氨酶或腺嘌呤脱氨酶。
所述胞嘧啶脱氨酶可为human APOBEC3A、human AID、PmCDA1或rAPOBEC1等蛋白质。
所述腺嘌呤脱氨酶可为不同来源的腺嘌呤脱氨酶,如来源于大肠杆菌的腺嘌呤脱氨酶(如ecTadA、ecTadA*等蛋白质)、来源于植物的腺嘌呤脱氨酶(如水稻来源的OsTadA、拟南芥来源的AtTadA等蛋白质)。
在本发明的一个具体实施例中,
所述Cas9核酸酶为Cas9n蛋白质;
所述脱氨酶为腺嘌呤脱氨酶;所述腺嘌呤脱氨酶为ecTadA蛋白质和/或ecTadA*蛋白质;具体为ecTadA蛋白质和ecTadA*蛋白质;
所述Cas9n蛋白质为E1)或E2):
E1)氨基酸序列是序列4所示的蛋白质;
E2)将序列表中序列4所示的氨基酸序列经过一个或几个氨基酸残基的取代和/或缺失和/或添加且具有相同功能的蛋白质;
与所述Cas9n蛋白质相关的生物材料为F1)至F5)中的任一种:
F1)编码所述Cas9n蛋白质的核酸分子;
F2)含有F1)所述核酸分子的表达盒;
F3)含有F1)所述核酸分子的重组载体、或含有F2)所述表达盒的重组载体;
F4)含有F1)所述核酸分子的重组微生物、或含有F2)所述表达盒的重组微生物、或含有F3)所述重组载体的重组微生物;
F5)含有F1)所述核酸分子的转基因细胞系、或含有F2)所述表达盒的转基因细胞系;
所述ecTadA蛋白质为G1)或G2):
G1)氨基酸序列是序列2所示的蛋白质;
G2)将序列表中序列2所示的氨基酸序列经过一个或几个氨基酸残基的取代和/或缺失和/或添加且具有相同功能的蛋白质;
与所述ecTadA蛋白质相关的生物材料为H1)至H5)中的任一种:
H1)编码所述ecTadA蛋白质的核酸分子;
H2)含有H1)所述核酸分子的表达盒;
H3)含有H1)所述核酸分子的重组载体、或含有H2)所述表达盒的重组载体;
H4)含有H1)所述核酸分子的重组微生物、或含有H2)所述表达盒的重组微生物、或含有H3)所述重组载体的重组微生物;
H5)含有H1)所述核酸分子的转基因细胞系、或含有H2)所述表达盒的转基因细胞系;
所述ecTadA*蛋白质为I1)或I2):
I1)氨基酸序列是序列3所示的蛋白质;
I2)将序列表中序列3所示的氨基酸序列经过一个或几个氨基酸残基的取代和/或缺失和/或添加且具有相同功能的蛋白质;
与所述ecTadA*蛋白质相关的生物材料为J1)至J5)中的任一种:
J1)编码所述ecTadA*蛋白质的核酸分子;
J2)含有J1)所述核酸分子的表达盒;
J3)含有J1)所述核酸分子的重组载体、或含有J2)所述表达盒的重组载体;
J4)含有J1)所述核酸分子的重组微生物、或含有J2)所述表达盒的重组微生物、或含有J3)所述重组载体的重组微生物;
J5)含有J1)所述核酸分子的转基因细胞系、或含有J2)所述表达盒的转基因细胞系;
所述sgRNA靶向靶点序列;
所述sgRNA结构如下:所述靶点序列转录的RNA-esgRNA骨架;
所述esgRNA骨架为K1)或K2)或K3):
K1)将序列1第617-702位中的T替换为U得到的RNA分子;
K2)将K1)所示的RNA分子经过一个或几个核苷酸的取代和/或缺失和/或添加且具有相同功能的RNA分子;
K3)与K1)或K2)限定的核苷酸序列具有75%或75%以上同一性且具有相同功能的RNA分子。
在本发明的另一个实施例中,
所述Cas9核酸酶为上述Cas9n蛋白质;
所述脱氨酶为胞嘧啶脱氨酶;所述胞嘧啶脱氨酶为rAPOBEC1蛋白质;
所述rAPOBEC1蛋白质为L1)或L2):
L1)氨基酸序列是序列8所示的蛋白质;
L2)将序列表中序列8所示的氨基酸序列经过一个或几个氨基酸残基的取代和/或缺失和/或添加且具有相同功能的蛋白质;
与所述rAPOBEC1蛋白质相关的生物材料为M1)至M5)中的任一种:
M1)编码所述rAPOBEC1蛋白质的核酸分子;
M2)含有M1)所述核酸分子的表达盒;
M3)含有M1)所述核酸分子的重组载体、或含有M2)所述表达盒的重组载体;
M4)含有M1)所述核酸分子的重组微生物、或含有M2)所述表达盒的重组微生物、或含有M3)所述重组载体的重组微生物;
M5)含有M1)所述核酸分子的转基因细胞系、或含有M2)所述表达盒的转基因细胞系;
所述sgRNA靶向靶点序列;
所述sgRNA为tRNA-sgRNA;
所述tRNA-sgRNA结构如下:tRNA-所述靶点序列转录的RNA-esgRNA骨架;
所述tRNA为N1)或N2)或N3):
N1)将序列7第474-550位中的T替换为U得到的RNA分子;
N2)将N1)所示的RNA分子经过一个或几个核苷酸的取代和/或缺失和/或添加且具有相同功能的RNA分子;
N3)与N1)或N2)限定的核苷酸序列具有75%或75%以上同一性且具有相同功能的RNA分子;
所述esgRNA骨架为上述K1)或K2)或K3)。
上述成套试剂中,当所述脱氨酶为胞嘧啶脱氨酶时,所述成套试剂还可包括UGI蛋白质或与所述UGI蛋白质相关的生物材料。
所述UGI蛋白质为Q1)或Q2):
Q1)氨基酸序列是序列9所示的蛋白质;
Q2)将序列表中序列9所示的氨基酸序列经过一个或几个氨基酸残基的取代和/或缺失和/或添加且具有相同功能的蛋白质;
与所述UGI蛋白质相关的生物材料为R1)至R5)中的任一种:
R1)编码所述UGI蛋白质的核酸分子;
R2)含有R1)所述核酸分子的表达盒;
R3)含有R1)所述核酸分子的重组载体、或含有R2)所述表达盒的重组载体;
R4)含有R1)所述核酸分子的重组微生物、或含有R2)所述表达盒的重组微生物、或含有R3)所述重组载体的重组微生物;
R5)含有R1)所述核酸分子的转基因细胞系、或含有R2)所述表达盒的转基因细胞系。
上述A2)、C2)、E2)、G2)、I2)、L2)、Q2)中的蛋白质,为与序列10或序列11或序列4或序列2或序列3或序列8或序列9所示蛋白质的氨基酸序列具有75%或75%以上同一性且具有相同功能的蛋白质。所述具有75%或75%以上同一性为具有75%、具有80%、具有85%、具有90%、具有95%、具有96%、具有97%、具有98%或具有99%的同一性。
上述A2)、C2)、E2)、G2)、I2)、L2)、Q2)中的蛋白质可人工合成,也可先合成其编码基因,再进行生物表达得到。
上述A2)、C2)、E2)、G2)、I2)、L2)、Q2)中的蛋白质的编码基因可通过将序列6的第1-183位(编码序列10所示的蛋白质)、序列6的第73-183位(编码序列11所示的蛋白质)、序列1的第5035-9135位(编码序列4所示的蛋白质)、序列1的第3847-4344位(编码序列2所示的蛋白质)、序列1的第4441-4938位(编码序列3所示的蛋白质)、序列7的第3280-3963位(编码序列8所示的蛋白质)或序列7的第8125-8373位(编码序列9所示的蛋白质)所示的DNA序列中缺失一个或几个氨基酸残基的密码子,和/或进行一个或几个碱基对的错义突变得到。
进一步的,F1)所述核酸分子为f1)或f2)或f3):
f1)序列表中序列1第5035-9135位所示的cDNA分子或DNA分子;
f2)与f1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述Cas9n的cDNA分子或DNA分子;
f3)在严格条件下与f1)或f2)限定的核苷酸序列杂交,且编码所述Cas9n的cDNA分子或DNA分子;
H1)所述核酸分子为h1)或h2)或h3):
h1)序列表中序列1第3847-4344位所示的cDNA分子或DNA分子;
h2)与h1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述ecTadA的cDNA分子或DNA分子;
h3)在严格条件下与h1)或h2)限定的核苷酸序列杂交,且编码所述ecTadA的cDNA分子或DNA分子;
J1)所述核酸分子为j1)或j2)或j3):
j1)序列表中序列1第4441-4938位所示的cDNA分子或DNA分子;
j2)与j1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述ecTadA*的cDNA分子或DNA分子;
j3)在严格条件下与j1)或j2)限定的核苷酸序列杂交,且编码所述ecTadA*的cDNA分子或DNA分子;
M1)所述核酸分子为m1)或m2)或m3):
m1)序列表中序列7第3280-3963位所示的cDNA分子或DNA分子;
m2)与m1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述rAPOBEC1的cDNA分子或DNA分子;
m3)在严格条件下与m1)或m2)限定的核苷酸序列杂交,且编码所述rAPOBEC1的cDNA分子或DNA分子;
R1)所述核酸分子为r1)或r2)或r3):
r1)序列表中序列7第8125-8373位所示的cDNA分子或DNA分子;
r2)与r1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述UGI的cDNA分子或DNA分子;
r3)在严格条件下与r1)或r2)限定的核苷酸序列杂交,且编码所述UGI的cDNA分子或DNA分子。
其中,所述核酸分子可以是DNA,如cDNA、基因组DNA或重组DNA;所述核酸分子也可以是RNA,如mRNA或hnRNA等。
本领域普通技术人员可以很容易地采用已知的方法,例如定向进化和点突变的方法,对本发明的编码所述核定位信号甲或所述核定位信号乙或所述Cas9n或所述ecTadA或所述ecTadA*或所述rAPOBEC1或所述UGI的核苷酸序列进行突变。那些经过人工修饰的,具有与本发明的所述核定位信号甲或所述核定位信号乙或所述Cas9n或所述ecTadA或所述ecTadA*或所述rAPOBEC1或所述UGI的核苷酸序列75%或者更高同一性的核苷酸,只要编码所述核定位信号甲或所述核定位信号乙或所述Cas9n或所述ecTadA或所述ecTadA*或所述rAPOBEC1或所述UGI且具有相同功能,均是衍生于本发明的核苷酸序列并且等同于本发明的序列。
这里使用的术语“同一性”指与天然核酸序列的序列相似性。“同一性”包括与本发明的编码序列10、11、4、2、3、8或9所示的氨基酸序列组成的蛋白质的核苷酸序列具有75%或更高,或85%或更高,或90%或更高,或95%或更高同一性的核苷酸序列。同一性可以用肉眼或计算机软件进行评价。使用计算机软件,两个或多个序列之间的同一性可以用百分比(%)表示,其可以用来评价相关序列之间的同一性。
所述严格条件是在2×SSC,0.1%SDS的溶液中,在68℃下杂交并洗膜2次,每次5min,又于0.5×SSC,0.1%SDS的溶液中,在68℃下杂交并洗膜2次,每次15min;或,0.1×SSPE(或0.1×SSC)、0.1%SDS的溶液中,65℃条件下杂交并洗膜。
上述75%或75%以上同一性,可为80%、85%、90%或95%以上的同一性。
B2)所述的含有编码核定位信号甲的核酸分子的表达盒(核定位信号甲表达盒),是指能够在宿主细胞中表达核定位信号甲的DNA,该DNA不但可包括启动核定位信号甲转录的启动子,还可包括终止核定位信号甲转录的终止子。进一步,所述表达盒还可包括增强子序列。可用现有的表达载体构建含有所述核定位信号甲表达盒的重组载体。
D2)所述的含有编码核定位信号乙的核酸分子的表达盒(核定位信号乙表达盒),是指能够在宿主细胞中表达核定位信号乙的DNA,该DNA不但可包括启动核定位信号乙转录的启动子,还可包括终止核定位信号乙转录的终止子。进一步,所述表达盒还可包括增强子序列。可用现有的表达载体构建含有所述核定位信号乙表达盒的重组载体。
F2)所述的含有编码Cas9n蛋白质的核酸分子的表达盒(Cas9n基因表达盒),是指能够在宿主细胞中表达Cas9n蛋白质的DNA,该DNA不但可包括启动Cas9n基因转录的启动子,还可包括终止Cas9n基因转录的终止子。进一步,所述表达盒还可包括增强子序列。可用现有的表达载体构建含有所述Cas9n基因表达盒的重组载体。
H2)所述的含有编码ecTadA蛋白质的核酸分子的表达盒(ecTadA基因表达盒),是指能够在宿主细胞中表达ecTadA蛋白质的DNA,该DNA不但可包括启动ecTadA基因转录的启动子,还可包括终止ecTadA基因转录的终止子。进一步,所述表达盒还可包括增强子序列。可用现有的表达载体构建含有所述ecTadA基因表达盒的重组载体。
J2)所述的含有编码ecTadA*蛋白质的核酸分子的表达盒(ecTadA*基因表达盒),是指能够在宿主细胞中表达ecTadA*蛋白质的DNA,该DNA不但可包括启动ecTadA*基因转录的启动子,还可包括终止ecTadA*基因转录的终止子。进一步,所述表达盒还可包括增强子序列。可用现有的表达载体构建含有所述ecTadA*基因表达盒的重组载体。
M2)所述的含有编码rAPOBEC1蛋白质的核酸分子的表达盒(rAPOBEC1基因表达盒),是指能够在宿主细胞中表达rAPOBEC1蛋白质的DNA,该DNA不但可包括启动rAPOBEC1基因转录的启动子,还可包括终止rAPOBEC1基因转录的终止子。进一步,所述表达盒还可包括增强子序列。可用现有的表达载体构建含有所述rAPOBEC1基因表达盒的重组载体。
R2)所述的含有编码UGI蛋白质的核酸分子的表达盒(UGI基因表达盒),是指能够在宿主细胞中表达UGI蛋白质的DNA,该DNA不但可包括启动UGI基因转录的启动子,还可包括终止UGI基因转录的终止子。进一步,所述表达盒还可包括增强子序列。可用现有的表达载体构建含有所述UGI基因表达盒的重组载体。
所述载体可为质粒、黏粒、噬菌体或病毒载体。在本发明的具体实施例中,所述重组载体具体为F4NLS-sABE-1重组表达载体或F4NLS-sABE-2重组表达载体或F4NLS-sCBE-1重组表达载体。
所述F4NLS-sABE-1重组表达载体为将sABE-1重组表达载体序列中序列1第3796-3846位所示的bpNLS核苷酸序列替换为序列6,且将第9136-9186位所示的bpNLS核苷酸序列替换为序列6第55-201位所示的核苷酸序列,且保持其他序列不变后得到的序列。其中,序列6第1-66位为3*Flag核苷酸序列,第73-93位、第103-123位、第133-153位和第163-183位均为NLS核苷酸序列。
所述F4NLS-sABE-2重组表达载体为将所述F4NLS-sABE-1重组表达载体序列中T1、T2和T3靶点序列分别替换为T4靶点序列、序列5所示的靶点序列和T5靶点序列,且保持其他序列不变后得到的序列。T4和T5靶点序列见表1。
所述F4NLS-sCBE-1重组表达载体为将sCBE-1重组表达载体序列中序列7第3229-3279位所示的bpNLS核苷酸序列替换为序列6,且将第8647-8697位所示的bpNLS核苷酸序列替换为序列6第55-201位所示的核苷酸序列,且保持其他序列不变后得到的序列。
所述微生物可为酵母、细菌、藻或真菌。其中,所述细菌可为农杆菌,如农杆菌EHA105。在本发明的具体实施例中,所述重组微生物具体为含有所述F4NLS-sABE-1重组表达载体或所述F4NLS-sABE-2重组表达载体或所述F4NLS-sCBE-1重组表达载体的农杆菌EHA105。
所述转基因细胞系不包括繁殖材料。
上述成套试剂的用途如下:
S1)生物体或生物细胞基因组靶点序列的编辑;
S2)制备生物体或生物细胞基因组靶点序列的编辑的产品;
S3)提高生物体或生物细胞基因组靶点序列的编辑效率;
S4)制备提高生物体或生物细胞基因组靶点序列的编辑效率的产品;
S5)拓展生物体或生物细胞基因组靶点序列的可编辑碱基范围;
S6)制备拓展生物体或生物细胞基因组靶点序列的可编辑碱基范围的产品。
上述核定位信号甲或与所述核定位信号甲相关的生物材料和/或上述核定位信号乙或与所述核定位信号乙相关的生物材料也属于本发明的保护范围。
为了实现上述目的,本发明还提供了上述成套试剂和/或上述核定位信号甲或与所述核定位信号甲相关的生物材料和/或上述核定位信号乙或与所述核定位信号乙相关的生物材料的新用途。
本发明提供了上述成套试剂和/或上述核定位信号甲或与所述核定位信号甲相关的生物材料和/或上述核定位信号乙或与所述核定位信号乙相关的生物材料在S1)-S6)任一种中的应用:
S1)生物体或生物细胞基因组靶点序列的编辑;
S2)制备生物体或生物细胞基因组靶点序列的编辑的产品;
S3)提高生物体或生物细胞基因组靶点序列的编辑效率;
S4)制备提高生物体或生物细胞基因组靶点序列的编辑效率的产品;
S5)拓展生物体或生物细胞基因组靶点序列的可编辑碱基范围;
S6)制备拓展生物体或生物细胞基因组靶点序列的可编辑碱基范围的产品。
为了实现上述目的,本发明还提供了T1)或T2)所述的方法:
T1)基因组靶点序列的编辑方法或提高生物体或生物细胞基因组靶点序列的编辑效率的方法或拓展生物体或生物细胞基因组靶点序列的可编辑碱基范围的方法,包括如下步骤:使生物体或生物细胞内表达上述核定位信号甲、上述核定位信号乙、上述sgRNA、上述Cas9核酸酶和上述脱氨酶;所述sgRNA靶向所述靶点序列;
T2)生物突变体的制备方法,包括如下步骤:按照T1)所述的方法对生物体的基因组进行编辑,获得生物突变体。
上述方法中,当所述脱氨酶为胞嘧啶脱氨酶时,所述T1)中,所述sgRNA为tRNA-esgRNA,转录所述tRNA-esgRNA的DNA分子转录后得到的所述tRNA-esgRNA为不成熟的RNA前体,该RNA前体中的tRNA会被两种酶(RNase P和RNase Z)切割掉后得到成熟的RNA。一个重组表达载体中有多少个靶点,就会得到多少个独立的成熟的RNA,每个成熟的RNA依次由所述靶点序列转录的RNA和所述esgRNA骨架组成,或依次由所述靶点序列转录的RNA、所述esgRNA骨架和所述tRNA残留的个别碱基组成。
上述方法中,当所述脱氨酶为胞嘧啶脱氨酶时,所述T1)中还包括将上述UGI蛋白质导入生物体或生物细胞内的步骤,所述UGI的个数可为1个或2个或多个。在本发明的具体实施例中,所述UGI的个数具体为2个。
进一步的,所述使生物体或生物细胞内表达上述核定位信号甲、上述核定位信号乙、上述sgRNA、上述Cas9核酸酶和上述脱氨酶的方法为T1-1)或T1-2):
T1-1)将所述核定位信号甲的编码基因、所述核定位信号乙的编码基因、转录上述sgRNA的DNA分子、所述Cas9核酸酶的编码基因和所述腺嘌呤脱氨酶的编码基因导入生物体或生物细胞内;
T1-2)将所述核定位信号甲的编码基因、所述核定位信号乙的编码基因、转录上述sgRNA的DNA分子、所述Cas9核酸酶的编码基因、所述胞嘧啶脱氨酶的编码基因和UGI的编码基因导入生物体或生物细胞内。
更进一步的,所述T1-1)中,所述核定位信号甲的编码基因、所述核定位信号乙的编码基因、转录上述sgRNA的DNA分子、所述Cas9核酸酶的编码基因和所述腺嘌呤脱氨酶的编码基因通过重组表达载体导入生物体或生物细胞内。所述核定位信号甲的编码基因、所述核定位信号乙的编码基因、转录上述sgRNA的DNA分子、所述Cas9核酸酶的编码基因和所述腺嘌呤脱氨酶的编码基因可通过同一个重组表达载体导入生物体或生物细胞内,也可通过两个或者多个重组表达载体共同导入生物体或生物细胞内。
在本发明的具体实施例中,所述重组表达载体包括依次由启动子、所述核定位信号甲的编码基因、所述腺嘌呤脱氨酶ecTadA的编码基因、所述腺嘌呤脱氨酶ecTadA*的编码基因、所述Cas9n核酸酶的编码基因、所述核定位信号乙的编码基因和终止子组成的表达盒。所述重组表达载体具体可为上述F4NLS-sABE-1重组表达载体或F4NLS-sABE-2重组表达载体。
所述T1-2)中,所述核定位信号甲的编码基因、所述核定位信号乙的编码基因、转录上述sgRNA的DNA分子、所述Cas9核酸酶的编码基因、所述胞嘧啶脱氨酶的编码基因和所述UGI的编码基因通过重组表达载体导入生物体或生物细胞内。所述核定位信号甲的编码基因、所述核定位信号乙的编码基因、转录上述sgRNA的DNA分子、所述Cas9核酸酶的编码基因、所述胞嘧啶脱氨酶的编码基因和所述UGI的编码基因可通过同一个重组表达载体导入生物体或生物细胞内,也可通过两个或者多个重组表达载体共同导入生物体或生物细胞内。
在本发明的具体实施例中,所述重组表达载体包括依次由启动子、核定位信号甲的编码基因、胞嘧啶脱氨酶rAPOBEC1的编码基因、Cas9n核酸酶的编码基因、UGI的编码基因、UGI的编码基因、核定位信号乙的编码基因和终止子组成的表达盒。所述重组表达载体具体可为上述F4NLS-sCBE-1重组表达载体。
上述成套试剂或应用或方法中,所述靶点序列的个数可为1个或2个或多个。
上述成套试剂或应用或方法中,所述靶点序列的编辑为碱基A突变为碱基G或碱基C突变为碱基T。所述碱基A可为靶点序列上任意位置的碱基A,所述碱基C可为靶点序列上任意位置的碱基C。
所述可编辑范围为可编辑的碱基A的范围或可编辑的碱基C的范围。
上述成套试剂或应用或方法中,
所述生物体为X1)或X2)或X3)或X4):
X1)植物或动物;
X2)单子叶植物或双子叶植物;
X3)禾本科植物;
X4)水稻;
所述生物细胞为Y1)或Y2)或Y3)或Y4):
Y1)植物细胞或动物细胞;
Y2)单子叶植物细胞或双子叶植物细胞;
Y3)禾本科植物细胞;
Y4)水稻细胞。
本发明通过在ecTadA&ecTadA*&Cas9n碱基编辑系统中的ecTadA元件前添加3*Flag&4*NLS核定位信号(核定位信号甲),且在Cas9n元件后添加4*NLS核定位信号(核定位信号乙)后发现:ecTadA&ecTadA*&Cas9n碱基编辑系统对靶点序列的A·G碱基替换效率明显提高(最高可达83.3%),且有效拓展了可编辑的A的范围;通过在rAPOBEC1&Cas9n&UGI碱基编辑系统中的rAPOBEC1元件前添加3*Flag&4*NLS核定位信号(核定位信号甲),且在UGI元件后添加4*NLS核定位信号(核定位信号乙)后发现:rAPOBEC1&Cas9n&UGI碱基编辑系统对靶点序列的C·T碱基替换效率也明显提高(最高可达67.7%)。
附图说明
图1为腺嘌呤碱基编辑器的重组表达载体结构示意图。
图2为胞嘧啶碱基编辑器的重组表达载体结构示意图。
具体实施方式
下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的材料、试剂、仪器等,如无特殊说明,均可从商业途径得到。下述实施例中,如无特殊说明,序列表中各核苷酸序列的第1位均为相应DNA/RNA的5′末端核苷酸,末位均为相应DNA/RNA的3′末端核苷酸。
引物对T1由引物T1-F:5’-AGCATATATAGCAAGCCAGGTTG-3’和引物T1-R:5’-AATAAGCCACTGTGTTATGTACGC-3’组成,用于扩增靶点T1。
引物对T2由引物T2-F:5’-GATGTGTTGTTTGTTGCGATTC-3’和引物T2-R:5’-AGTGGGCATGATGGCTAGG-3’组成,用于扩增靶点T2。
引物对T3由引物T3-F:5’-CTACAGGGTCACCTACATCGG-3’和引物T3-R:5’-TGAGACGACACATCAACAAGG-3’组成,用于扩增靶点T3。
引物对T4由引物T4-F:5’-GAAGCGCGAGTACCAAGAAG-3’和引物T4-R:5’-ATCCGCTTGGTGTCCCTC-3’组成,用于扩增靶点T4。
引物对T5由引物T5-F:5’-GCATTGCTGGACTTCAACC-3’和引物T5-R:5’-CAAACCGTATCGCAATCTGAG-3’组成,用于扩增靶点T5。
引物对T6由引物T6-F:5’-GCGAATGGCCACAGGG-3’和引物T6-R:5’-TCTGATCATCATGGATTCCTTC-3’组成,用于扩增靶点T6和T7。
引物对T8由引物T8-F:5’-GCCATCAACTAAACACAGCC-3’和引物T8-R:5’-CATGAGCGTGAGAATTCTGATC-3’组成,用于扩增靶点T8。
以下实施例中,A·G碱基替换是指靶点序列中任何位置的A突变为G。C·T碱基替换是指靶点序列中任何位置的C突变为T。
A·G碱基替换效率=发生A·G碱基替换的阳性T0苗数/分析的总阳性T0苗数×100%。
C·T碱基替换效率=发生C·T碱基替换的阳性T0苗数/分析的总阳性T0苗数×100%。
日本晴水稻:参考文献:梁卫红,王高华,杜京尧,等.硝普钠及其光解产物对日本晴水稻幼苗生长和5种激素标记基因表达的影响[J].河南师范大学学报(自然版),2017(2):48-52.;公众可以从北京市农林科学院获得。
恢复培养基:含有200mg/L特美汀的N6固体培养基。
筛选培养基:含有50mg/L潮霉素的N6固体培养基。
分化培养基:含有2mg/L KT、0.2mg/L NAA、0.5g/L谷氨酸、0.5g/L脯氨酸的N6固体培养基。
生根培养基:含有0.2mg/L NAA、0.5g/L谷氨酸、0.5g/L脯氨酸的N6固体培养基。
实施例1、核定位信号F4NLS在提高A·G碱基替换效率或拓展可编辑的A的范围中的应用
一、重组表达载体的设计与构建
1、重组表达载体的设计
在ecTadA&ecTadA*&Cas9n碱基编辑系统中添加核定位信号,根据添加的核定位信号不同分为三种设计类型,含有三种不同设计类型的重组表达载体结构示意图如图1所示。三种不同设计类型的设计方式具体如下:
sABE系统:在ecTadA&ecTadA*&Cas9n碱基编辑系统中的ecTadA元件前添加bpNLS核定位信号,且在Cas9n元件后添加bpNLS核定位信号。将该种设计类型记做bpNLS-bpNLS。bpNLS核定位信号的氨基酸序列如下:KRTADGSEFEPKKKRKV。
F4NLS-sABE系统:在ecTadA&ecTadA*&Cas9n碱基编辑系统中的ecTadA元件前添加3*Flag&4*NLS核定位信号,且在Cas9n元件后添加4*NLS核定位信号。3*Flag&4*NLS核定位信号依次包括1个3*Flag标签蛋白和4个NLS蛋白,3*Flag&4*NLS核定位信号的氨基酸序列如下:DYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGGSPKKKRKVGGSPKKKRKVGGSPKKKRKV(序列10);其中,3*Flag标签蛋白的氨基酸序列如下划线所示,NLS蛋白的氨基酸序列如波浪线所示。4*NLS核定位信号包括4个NLS蛋白,4*NLS核定位信号的氨基酸序列如下:PKKKRKVGGSPKKKRK VGGSPKKKRKVGGSPKKKRKV(序列11)。将该种设计类型记做3*Flag&4*NLS-4*NLS(F4NLS)。
4NLS-sABE系统:在ecTadA&ecTadA*&Cas9n碱基编辑系统中的Cas9n元件后添加4*NLS核定位信号。将该种设计类型记做4*NLS。
2、重组表达载体的构建
人工合成如下重组表达载体,各载体均为环状质粒:
两个含有bpNLS-bpNLS的重组表达载体:sABE-1和sABE-2;
两个含有3*Flag&4*NLS-4*NLS的重组表达载体:F4NLS-sABE-1和F4NLS-sABE-2;
两个含有4*NLS的重组表达载体:4NLS-sABE-1和4NLS-sABE-2。
sABE-1重组表达载体的核苷酸序列为序列表中的序列1。其中,序列1的第131-596位为OsU6a启动子的核苷酸序列,第710-1090位为OsU3启动子的核苷酸序列,第1204-1945位为OsU6c启动子的核苷酸序列,第597-702位、第1091-1196位和第1946-2051位均为esgRNA核苷酸序列,第597-616位、第1091-1110位和第1946-1965位分别为T1、T2和T3靶点序列,第617-702位、第1111-1196位和第1966-2051位均为esgRNA骨架核苷酸序列;序列1的第2070-3783位为OsUbq3启动子的核苷酸序列,第3796-3846位为bpNLS核苷酸序列,第3847-4344位为ecTadA蛋白质的编码序列(不含有终止密码子),编码序列2所示的ecTadA蛋白质;序列1的第4441-4938位为ecTadA*蛋白质的编码序列(不含有终止密码子),编码序列3所示的ecTadA*蛋白质;序列1的第5035-9135位为Cas9n蛋白质的编码序列(不含有终止密码子),编码序列4所示的Cas9n蛋白质;序列1的第9136-9186位为bpNLS核苷酸序列;序列1的第9529-9781位为Nos终止子序列;序列1的第9822-11814位为ZmUbi1启动子的核苷酸序列,第11821-12846位为潮霉素磷酸转移酶的编码序列,第12873-13088位为CaMV35S polyA的核苷酸序列。sABE-1重组表达载体中的三个靶点分别为T1、T2和T3,序列见表1。
sABE-2重组表达载体的序列为将sABE-1重组表达载体序列中T1、T2和T3靶点序列分别替换为T4靶点序列、序列5所示的靶点序列和T5靶点序列,且保持其他序列不变后得到的序列。T4和T5靶点序列见表1。
F4NLS-sABE-1重组表达载体为将sABE-1重组表达载体序列中序列1第3796-3846位所示的bpNLS核苷酸序列替换为序列6,且将第9136-9186位所示的bpNLS核苷酸序列替换为序列6第55-201位所示的核苷酸序列,且保持其他序列不变后得到的序列。其中,序列6第1-66位为3*Flag核苷酸序列,第73-93位、第103-123位、第133-153位和第163-183位均为NLS核苷酸序列,序列6中共计含有4个NLS核苷酸序列。
F4NLS-sABE-2重组表达载体为将F4NLS-sABE-1重组表达载体序列中T1、T2和T3靶点序列分别替换为T4靶点序列、序列5所示的靶点序列和T5靶点序列,且保持其他序列不变后得到的序列。T4和T5靶点序列见表1。
4NLS-sABE-1重组表达载体为将sABE-1重组表达载体序列中序列1第3796-3846位所示的bpNLS核苷酸序列删除,且将第9136-9186位所示的bpNLS核苷酸序列替换为序列6第55-201位所示的核苷酸序列,且保持其他序列不变后得到的序列。
4NLS-sABE-2重组表达载体为将4NLS-sABE-1重组表达载体序列中T1、T2和T3靶点序列分别替换为T4靶点序列、序列5所示的靶点序列和T5靶点序列,且保持其他序列不变后得到的序列。T4和T5靶点序列见表1。
各载体的靶点核苷酸序列及相应的PAM序列如表1所示。
表1
Figure BDA0002327698950000121
二、水稻阳性T0苗的获得
将步骤一获得的sABE-1载体,sABE-2载体,F4NLS-sABE-1载体,F4NLS-sABE-2载体,4NLS-sABE-1载体和4NLS-sABE-2载体分别按照如下步骤1-9进行操作:
1、将载体导入农杆菌EHA105(上海唯地生物技术有限公司的产品,CAT#:AC1010),得到重组农杆菌。
2、采用培养基(含50μg/ml卡那霉素和25μg/ml利福平的YEP培养基)培养重组农杆菌,28℃,150rpm震荡培养至OD600为1.0-2.0,室温条件下,10000rpm离心1min,用侵染液(将N6液体培养基中的糖替换为葡萄糖和蔗糖,葡萄糖和蔗糖在侵染液中的浓度分别为10g/L和20g/L)重悬菌体并稀释至OD600为0.2,得到农杆菌侵染液。
3、水稻品种日本晴成熟种子去壳脱粒,置于100mL三角瓶中,加入70%(v/v)乙醇水溶液浸泡30sec,再置于25%(v/v)次氯酸钠水溶液中,120rpm震荡灭菌30min,无菌水冲洗3次,用滤纸吸干水分,然后将种子胚朝下置于N6固体培养基上,28℃暗培养4-6周,得到水稻愈伤。
4、完成步骤3后,将水稻愈伤浸泡置于农杆菌侵染液甲(农杆菌侵染液甲为向农杆菌侵染液中加入乙酰丁香酮得到的液体,乙酰丁香酮的添加量满足乙酰丁香酮与农杆菌侵染液的体积比为25μl:50ml)中浸泡10min,然后放在铺有两层灭菌滤纸的培养皿(内含约200ml不含农杆菌的侵染液)上,21℃暗培养1天。
5、取步骤4得到的水稻愈伤放入恢复培养基上,25-28℃暗培养3天。
6、取步骤5得到的水稻愈伤,置于筛选培养基上,28℃暗培养2周。
7、取步骤6得到的水稻愈伤,再次置于筛选培养基上,28℃暗培养2周,得到水稻抗性愈伤。
8、取步骤7得到的水稻抗性愈伤放入分化培养基上,25℃光照培养1个月左右,将分化出来的小苗移至生根培养基上,25℃光照培养2周,获取水稻T0苗。
9、提取水稻T0苗的基因组DNA并以其作为模板,采用引物F(5’-CCGAGGAGACTATCACCCCT-3’)和引物R(5’-CGACCCATAACCTTGACAAGC-3’)组成的引物对进行PCR扩增,得到PCR扩增产物;将该PCR扩增产物进行琼脂糖凝胶电泳,然后进行如下判断:如果PCR扩增产物中含有约853bp的DNA片段,则相应的水稻T0苗为水稻阳性T0苗;如果PCR扩增产物中不含有约853bp的DNA片段,则相应的水稻T0苗不为水稻阳性T0苗。
三、结果分析
1、每载体分别取步骤二所获得的水稻阳性T0苗的基因组DNA作为模板,对于T1靶点,采用引物对T1进行PCR扩增,得到PCR扩增产物;对于T2靶点,采用引物对T2进行PCR扩增,得到PCR扩增产物;对于T3靶点,采用引物对T3进行PCR扩增,得到PCR扩增产物;对于T4靶点,采用引物对T4进行PCR扩增,得到PCR扩增产物;对于T5靶点,采用引物对T5进行PCR扩增,得到PCR扩增产物。
2、将步骤1得到的PCR扩增产物进行Sanger测序及分析。测序结果只针对各靶点区进行分析。分别统计T1、T2、T3、T4和T5发生A·G碱基替换的阳性T0苗数,计算得出A·G碱基替换效率,结果见表2。
sABE系统使用的核定位信号为bpNLS-bpNLS;4NLS-sABE系统使用的核定位信号为4*NLS;F4NLS-sABE系统使用的核定位信号为3*Flag&4*NLS-4*NLS(F4NLS)。
将F4NLS-sABE系统与4NLS-sABE系统的碱基编辑结果进行比较发现:从对所有五个靶点的A·G碱基替换效率来看,4NLS-sABE系统的A·G碱基替换效率均低于F4NLS-sABE系统,且从对T1、T2、T3靶点的碱基编辑位点来看,F4NLS-sABE系统有效的拓展了可编辑的A的范围,说明核定位信号F4NLS优于4*NLS。
将F4NLS-sABE系统与sABE系统的碱基编辑结果进行比较发现:从对T1和T4靶点的A·G碱基替换效率来看,F4NLS-sABE系统的A·G碱基替换效率明显高于sABE系统;从对T2和T5靶点的A·G碱基替换效率来看,两个系统的A·G碱基替换效率相当,但从对T2靶点的的碱基编辑位点来看,F4NLS-sABE系统实现了T2靶点第12位的A的碱基编辑,有效的拓展了可编辑的A的范围;从对T3靶点的A·G碱基替换效率来看,虽然F4NLS-sABE系统的A·G碱基替换效率有些降低,但却实现了T3靶点第4位的A的碱基编辑,有效的拓展了可编辑的A的范围。由此可见,对于一些靶点,使用核定位信号F4NLS的碱基编辑系统能够提高A·G碱基替换效率或是拓展可编辑的A的范围。
表2
Figure BDA0002327698950000141
实施例2、核定位信号F4NLS在提高C·T碱基替换效率中的应用
一、重组表达载体的设计与构建
1、重组表达载体的设计
在rAPOBEC1&Cas9n&UGI碱基编辑系统中添加核定位信号,根据添加的核定位信号不同分为两种设计类型,含有两种不同设计类型的重组表达载体结构示意图如图2所示。两种不同设计类型的设计方式具体如下:
sCBE系统:在rAPOBEC1&Cas9n&UGI碱基编辑系统中的rAPOBEC1元件前添加bpNLS核定位信号,且在UGI元件后添加bpNLS核定位信号。
F4NLS-sCBE系统:在rAPOBEC1&Cas9n&UGI碱基编辑系统中的rAPOBEC1元件前添加3*Flag&4*NLS核定位信号,且在UGI元件后添加4*NLS核定位信号。
2、重组表达载体的构建
人工合成如下重组表达载体,各载体均为环状质粒:
一个含有bpNLS-bpNLS的重组表达载体:sCBE-1;
一个含有3*Flag&4*NLS-4*NLS的重组表达载体:F4NLS-sCBE-1。
sCBE-1重组表达载体的序列为序列表中的序列7。其中,序列7的第131-467位为OsU3启动子的核苷酸序列,第474-550位、第657-733位和第1023-1099位均为tRNA的核苷酸序列,第551-656位、第734-839位和第1100-1205位均为esgRNA核苷酸序列,第551-570位、第734-753位和第1100-1119位分别为T6、T7和T8靶点序列,第571-656位、第754-839位和第1120-1205位均为esgRNA骨架核苷酸序列,第1206-1496位为OsU3终止子的核苷酸序列;序列7的第1503-3216位为OsUbq3启动子的核苷酸序列,第3229-3279位为bpNLS核苷酸序列,第3280-3963位为rAPOBEC1蛋白质的编码序列(不含有终止密码子),编码序列8所示的rAPOBEC1蛋白质;序列7的第4012-8112位为Cas9n蛋白质的编码序列(不含有终止密码子),编码序列4所示的Cas9n蛋白质;序列7的第8125-8373位和第8386-8634位均为UGI蛋白质的编码序列(不含有终止密码子),编码序列9所示的UGI蛋白质;序列7的第8647-8697位为bpNLS核苷酸序列;序列7的第9040-9292位为Nos终止子序列;序列7的第9333-11325位为ZmUbi1启动子的核苷酸序列,第11332-12357位为潮霉素磷酸转移酶的编码序列,第12384-12599位为CaMV35S polyA的核苷酸序列。sCBE-1重组表达载体中的三个靶点分别为T6、T7和T8,序列见表3。
F4NLS-sCBE-1重组表达载体为将sCBE-1重组表达载体序列中序列7第3229-3279位所示的bpNLS核苷酸序列替换为序列6,且将第8647-8697位所示的bpNLS核苷酸序列替换为序列6第55-201位所示的核苷酸序列,且保持其他序列不变后得到的序列。
各载体的靶点核苷酸序列及相应的PAM序列如表3所示。
表3
Figure BDA0002327698950000151
二、水稻阳性T0苗的获得
将步骤一构建的sCBE-1载体和F4NLS-sCBE-1载体分别按照实施例1中步骤二的1-9进行操作,得到水稻阳性T0苗。
三、结果分析
1、每载体分别取步骤二所获得的水稻阳性T0苗的基因组DNA作为模板,对于T6和T7靶点,采用引物对T6进行PCR扩增,得到PCR扩增产物;对于T8靶点,采用引物对T8进行PCR扩增,得到PCR扩增产物。
2、将步骤1得到的PCR扩增产物进行Sanger测序及分析。测序结果只针对各靶点区进行分析。分别统计T6、T7和T8发生C·T碱基替换的阳性T0苗数,计算得出C·T碱基替换效率,结果见表4。
结果表明,从对所有三个靶点的C·T碱基替换效率来看,F4NLS-sCBE系统明显高于sCBE系统,尤其是T6靶点,sCBE不能实现编辑,而F4NLS-sCBE系统能够实现编辑。由此可见,使用核定位信号F4NLS的碱基编辑系统能够有效提高C·T碱基替换效率、拓展可编辑碱基C的范围。
表4
Figure BDA0002327698950000161
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
序列表
<110>北京市农林科学院
<120>一种核定位信号F4NLS及其在提高碱基编辑效率与拓展可编辑碱基范围中的应用
<160>11
<170>PatentIn version 3.5
<210>1
<211>19494
<212>DNA
<213>Artificial Sequence
<400>1
ggtggcagga tatattgtgg tgtaaacatg gcactagcct caccgtcttc gcagacgagg 60
ccgctaagtc gcagctacgc tctcaacggc actgactagg tagtttaaac gtgcacttaa 120
ttaaggtacc tggaatcggc agcaaaggat tttttcctgt agttttccca caaccatttt 180
ttaccatccg aatgatagga taggaaaaat atccaagtga acagtattcc tataaaattc 240
ccgtaaaaag cctgcaatcc gaatgagccc tgaagtctga actagccggt cacctgtaca 300
ggctatcgag atgccataca agagacggta gtaggaacta ggaagacgat ggttgattcg 360
tcaggcgaaa tcgtcgtcct gcagtcgcat ctatgggcct ggacggaata ggggaaaaag 420
ttggccggat aggagggaaa ggcccaggtg cttacgtgcg aggtaggcct gggctctcag 480
cacttcgatt cgttggcacc ggggtaggat gcaatagaga gcaacgttta gtaccacctc 540
gcttagctag agcaaactgg actgccttat atgcgcgggt gctggcttgg ctgccgacta 600
gatatctaaa ccattagttt cagagctatg ctggaaacag catagcaagt tgaaataagg 660
ctagtccgtt atcaacttga aaaagtggca ccgagtcggt gcttttttta ggaatcttta 720
aacatacgaa cagatcactt aaagttcttc tgaagcaact taaagttatc aggcatgcat 780
ggatcttgga ggaatcagat gtgcagtcag ggaccatagc acaagacagg cgtcttctac 840
tggtgctacc agcaaatgct ggaagccggg aacactgggt acgttggaaa ccacgtgtga 900
tgtgaaggag taagataaac tgtaggagaa aagcatttcg tagtgggcca tgaagccttt 960
caggacatgt attgcagtat gggccggccc attacgcaat tggacgacaa caaagactag 1020
tattagtacc acctcggcta tccacataga tcaaagctgg tttaaaagag ttgtgcagat 1080
gatccgtggc agagagagca cagctcgagt gtttcagagc tatgctggaa acagcatagc 1140
aagttgaaat aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 1200
tttctcatta gcggtatgca tgttggtaga agtcggagat gtaaataatt ttcattatat 1260
aaaaaaggta cttcgagaaa aataaatgca tacgaattaa ttctttttat gttttttaaa 1320
ccaagtatat agaatttatt gatggttaaa atttcaaaaa tatgacgaga gaaaggttaa 1380
acgtacggca tatacttctg aacagagagg gaatatgggg tttttgttgc tcccaacaat 1440
tcttaagcac gtaaaggaaa aaagcacatt atccacattg tacttccaga gatatgtaca 1500
gcattacgta ggtacgtttt ctttttcttc ccggagagat gatacaataa tcatgtaaac 1560
ccagaattta aaaaatattc tttactataa aaattttaat tagggaacgt attatttttt 1620
acatgacacc ttttgagaaa gagggacttg taatatggga caaatgaaca atttctaaga 1680
aatgggcata tgactctcag tacaatggac caaattccct ccagtcggcc cagcaataca 1740
aagggaaaga aatgaggggg cccacaggcc acggcccact tttctccgtg gtggggagat 1800
ccagctagag gtccggccca caagtggccc ttgccccgtg ggacggtggg attgcagagc 1860
gcgtgggcgg aaacaacagt ttagtaccac ctcgctcacg caacgacgcg accacttgct 1920
tataagctgc tgcgctgagg ctcaggggag gacgtgacat cgcccgtttc agagctatgc 1980
tggaaacagc atagcaagtt gaaataaggc tagtccgtta tcaacttgaa aaagtggcac 2040
cgagtcggtg cttttttttt tttaagctta caaattcggg tcaaggcgga agccagcgcg 2100
ccaccccacg tcagcaaata cggaggcgcg gggttgacgg cgtcacccgg tcctaacggc 2160
gaccaacaaa ccagccagaa gaaattacag taaaaaaaaa gtaaattgca ctttgatcca 2220
ccttttatta cctaagtctc aatttggatc acccttaaac ctatcttttc aatttgggcc 2280
gggttgtggt ttggactacc atgaacaact tttcgtcatg tctaacttcc ctttcagcaa 2340
acatatgaac catatataga ggagatcggc cgtatactag agctgatgtg tttaaggtcg 2400
ttgattgcac gagaaaaaaa aatccaaatc gcaacaatag caaatttatc tggttcaaag 2460
tgaaaagata tgtttaaagg tagtccaaag taaaacttat agataataaa atgtggtcca 2520
aagcgtaatt cactcaaaaa aaatcaacga gacgtgtacc aaacggagac aaacggcatc 2580
ttctcgaaat ttcccaaccg ctcgctcgcc cgcctcgtct tcccggaaac cgcggtggtt 2640
tcagcgtggc ggattctcca agcagacgga gacgtcacgg cacgggactc ctcccaccac 2700
ccaaccgcca taaataccag ccccctcatc tcctctcctc gcatcagctc cacccccgaa 2760
aaatttctcc ccaatctcgc gaggctctcg tcgtcgaatc gaatcctctc gcgtcctcaa 2820
ggtacgctgc ttctcctctc ctcgcttcgt ttcgattcga tttcggacgg gtgaggttgt 2880
tttgttgcta gatccgattg gtggttaggg ttgtcgatgt gattatcgtg agatgtttag 2940
gggttgtaga tctgatggtt gtgatttggg cacggttggt tcgataggtg gaatcgtggt 3000
taggttttgg gattggatgt tggttctgat gattgggggg aatttttacg gttagatgaa 3060
ttgttggatg attcgattgg ggaaatcggt gtagatctgt tggggaattg tggaactagt 3120
catgcctgag tgattggtgc gatttgtagc gtgttccatc ttgtaggcct tgttgcgagc 3180
atgttcagat ctactgttcc gctcttgatt gagttattgg tgccatgggt tggtgcaaac 3240
acaggcttta atatgttata tctgttttgt gtttgatgta gatctgtagg gtagttcttc 3300
ttagacatgg ttcaattatg tagcttgtgc gtttcgattt gatttcatat gttcacagat 3360
tagataatga tgaactcttt taattaattg tcaatggtaa ataggaagtc ttgtcgctat 3420
atctgtcata atgatctcat gttactatct gccagtaatt tatgctaaga actatattag 3480
aatatcatgt tacaatctgt agtaatatca tgttacaatc tgtagttcat ctatataatc 3540
tattgtggta atttcttttt actatctgtg tgaagattat tgccactagt tcattctact 3600
tatttctgaa gttcaggata cgtgtgctgt tactacctat ctgaatacat gtgtgatgtg 3660
cctgttacta tctttttgaa tacatgtatg ttctgttgga atatgtttgc tgtttgatcc 3720
gttgttgtgt ccttaatctt gtgctagttc ttaccctatc tgtttggtga ttatttcttg 3780
cagtacgtaa gcatgaagag gaccgccgac ggcagcgagt tcgagccgaa gaagaagagg 3840
aaggtgtccg aggtggagtt ctcccacgag tactggatga ggcacgcact caccctcgca 3900
aagagggcat gggacgagag ggaggtgcct gtgggagcag tgctcgtgca caacaacagg 3960
gtgatcggag agggatggaa caggcctatc ggaaggcacg accctaccgc acacgcagag 4020
atcatggcac tcaggcaggg aggcctcgtg atgcagaact acaggctcat cgacgccacc 4080
ctctacgtga ccctcgagcc ttgcgtgatg tgcgcaggag ccatgatcca ctccaggatc 4140
ggaagggtgg tgttcggagc aagggacgca aagaccggag cagccggctc cctcatggac 4200
gtgctccacc acccgggcat gaaccacagg gtggagatca ccgagggaat cctcgcagac 4260
gagtgcgcag ccctcctctc cgacttcttc aggatgagga ggcaggagat caaggcccag 4320
aagaaggccc agtcctccac cgactccggc ggctcatcag gcggctcctc cggctccgag 4380
acaccgggca cctccgagtc cgccaccccg gagtcctccg gcggctcctc cggcggctcc 4440
tccgaggtgg agttctccca cgagtactgg atgaggcacg cactcaccct cgcaaagagg 4500
gcaagggacg agagggaggt gcctgtggga gcagtgctcg tgctcaacaa cagggtgatc 4560
ggagagggat ggaacagggc aatcggcctc cacgacccta ccgcacacgc agagatcatg 4620
gcactcaggc agggaggcct cgtgatgcag aactacaggc tcatcgacgc caccctctac 4680
gtgaccttcg agccttgcgt gatgtgcgca ggagccatga tccactccag gatcggcagg 4740
gtggtgttcg gcgtgaggaa cgcaaagacc ggagcagcag gctccctcat ggacgtgctc 4800
cactacccgg gcatgaacca cagggtggag atcaccgagg gaatcctcgc agacgagtgc 4860
gcagccctcc tctgctactt cttcaggatg ccgaggcagg tgttcaacgc ccagaagaag 4920
gcccagtcct ccaccgactc cggcggctca tcaggcggct cctccggctc cgagacaccg 4980
ggcacctccg agtccgccac cccggagtcc tccggcggct cctccggcgg ctccgacaag 5040
aagtactcca tcggcctcgc catcggcacc aacagcgtcg gctgggcggt gatcaccgac 5100
gagtacaagg tcccgtccaa gaagttcaag gtcctgggca acaccgaccg ccactccatc 5160
aagaagaacc tcatcggcgc cctcctcttc gactccggcg agacggcgga ggcgacccgc 5220
ctcaagcgca ccgcccgccg ccgctacacc cgccgcaaga accgcatctg ctacctccag 5280
gagatcttct ccaacgagat ggcgaaggtc gacgactcct tcttccaccg cctcgaggag 5340
tccttcctcg tggaggagga caagaagcac gagcgccacc ccatcttcgg caacatcgtc 5400
gacgaggtcg cctaccacga gaagtacccc actatctacc accttcgtaa gaagcttgtt 5460
gactctactg ataaggctga tcttcgtctc atctaccttg ctctcgctca catgatcaag 5520
ttccgtggtc acttccttat cgagggtgac cttaaccctg ataactccga cgtggacaag 5580
ctcttcatcc agctcgtcca gacctacaac cagctcttcg aggagaaccc tatcaacgct 5640
tccggtgtcg acgctaaggc gatcctttcc gctaggctct ccaagtccag gcgtctcgag 5700
aacctcatcg cccagctccc tggtgagaag aagaacggtc ttttcggtaa cctcatcgct 5760
ctctccctcg gtctgacccc taacttcaag tccaacttcg acctcgctga ggacgctaag 5820
cttcagctct ccaaggatac ctacgacgat gatctcgaca acctcctcgc tcagattgga 5880
gatcagtacg ctgatctctt ccttgctgct aagaacctct ccgatgctat cctcctttcg 5940
gatatcctta gggttaacac tgagatcact aaggctcctc tttctgcttc catgatcaag 6000
cgctacgacg agcaccacca ggacctcacc ctcctcaagg ctcttgttcg tcagcagctc 6060
cccgagaagt acaaggagat cttcttcgac cagtccaaga acggctacgc cggttacatt 6120
gacggtggag ctagccagga ggagttctac aagttcatca agccaatcct tgagaagatg 6180
gatggtactg aggagcttct cgttaagctt aaccgtgagg acctccttag gaagcagagg 6240
actttcgata acggctctat ccctcaccag atccaccttg gtgagcttca cgccatcctt 6300
cgtaggcagg aggacttcta ccctttcctc aaggacaacc gtgagaagat cgagaagatc 6360
cttactttcc gtattcctta ctacgttggt cctcttgctc gtggtaactc ccgtttcgct 6420
tggatgacta ggaagtccga ggagactatc accccttgga acttcgagga ggttgttgac 6480
aagggtgctt ccgcccagtc cttcatcgag cgcatgacca acttcgacaa gaacctcccc 6540
aacgagaagg tcctccccaa gcactccctc ctctacgagt acttcacggt ctacaacgag 6600
ctcaccaagg tcaagtacgt caccgagggt atgcgcaagc ctgccttcct ctccggcgag 6660
cagaagaagg ctatcgttga cctcctcttc aagaccaacc gcaaggtcac cgtcaagcag 6720
ctcaaggagg actacttcaa gaagatcgag tgcttcgact ccgtcgagat cagcggcgtt 6780
gaggaccgtt tcaacgcttc tctcggtacc taccacgatc tcctcaagat catcaaggac 6840
aaggacttcc tcgacaacga ggagaacgag gacatcctcg aggacatcgt cctcactctt 6900
actctcttcg aggataggga gatgatcgag gagaggctca agacttacgc tcatctcttc 6960
gatgacaagg ttatgaagca gctcaagcgt cgccgttaca ccggttgggg taggctctcc 7020
cgcaagctca tcaacggtat cagggataag cagagcggca agactatcct cgacttcctc 7080
aagtctgatg gtttcgctaa caggaacttc atgcagctca tccacgatga ctctcttacc 7140
ttcaaggagg atattcagaa ggctcaggtg tccggtcagg gcgactctct ccacgagcac 7200
attgctaacc ttgctggttc ccctgctatc aagaagggca tccttcagac tgttaaggtt 7260
gtcgatgagc ttgtcaaggt tatgggtcgt cacaagcctg agaacatcgt catcgagatg 7320
gctcgtgaga accagactac ccagaagggt cagaagaact cgagggagcg catgaagagg 7380
attgaggagg gtatcaagga gcttggttct cagatcctta aggagcaccc tgtcgagaac 7440
acccagctcc agaacgagaa gctctacctc tactacctcc agaacggtag ggatatgtac 7500
gttgaccagg agctcgacat caacaggctt tctgactacg acgtcgacca cattgttcct 7560
cagtctttcc ttaaggatga ctccatcgac aacaaggtcc tcacgaggtc cgacaagaac 7620
aggggtaagt cggacaacgt cccttccgag gaggttgtca agaagatgaa gaactactgg 7680
aggcagcttc tcaacgctaa gctcattacc cagaggaagt tcgacaacct cacgaaggct 7740
gagaggggtg gcctttccga gcttgacaag gctggtttca tcaagaggca gcttgttgag 7800
acgaggcaga ttaccaagca cgttgctcag atcctcgatt ctaggatgaa caccaagtac 7860
gacgagaacg acaagctcat ccgcgaggtc aaggtgatca ccctcaagtc caagctcgtc 7920
tccgacttcc gcaaggactt ccagttctac aaggtccgcg agatcaacaa ctaccaccac 7980
gctcacgatg cttaccttaa cgctgtcgtt ggtaccgctc ttatcaagaa gtaccctaag 8040
cttgagtccg agttcgtcta cggtgactac aaggtctacg acgttcgtaa gatgatcgcc 8100
aagtccgagc aggagatcgg caaggccacc gccaagtact tcttctactc caacatcatg 8160
aacttcttca agaccgagat caccctcgcc aacggcgaga tccgcaagcg ccctcttatc 8220
gagacgaacg gtgagactgg tgagatcgtt tgggacaagg gtcgcgactt cgctactgtt 8280
cgcaaggtcc tttctatgcc tcaggttaac atcgtcaaga agaccgaggt ccagaccggt 8340
ggcttctcca aggagtctat ccttccaaag agaaactcgg acaagctcat cgctaggaag 8400
aaggattggg accctaagaa gtacggtggt ttcgactccc ctactgtcgc ctactccgtc 8460
ctcgtggtcg ccaaggtgga gaagggtaag tcgaagaagc tcaagtccgt caaggagctc 8520
ctcggcatca ccatcatgga gcgctcctcc ttcgagaaga acccgatcga cttcctcgag 8580
gccaagggct acaaggaggt caagaaggac ctcatcatca agctccccaa gtactctctt 8640
ttcgagctcg agaacggtcg taagaggatg ctggcttccg ctggtgagct ccagaagggt 8700
aacgagcttg ctcttccttc caagtacgtg aacttcctct acctcgcctc ccactacgag 8760
aagctcaagg gttcccctga ggataacgag cagaagcagc tcttcgtgga gcagcacaag 8820
cactacctcg acgagatcat cgagcagatc tccgagttct ccaagcgcgt catcctcgct 8880
gacgctaacc tcgacaaggt cctctccgcc tacaacaagc accgcgacaa gcccatccgc 8940
gagcaggccg agaacatcat ccacctcttc acgctcacga acctcggcgc ccctgctgct 9000
ttcaagtact tcgacaccac catcgacagg aagcgttaca cgtccaccaa ggaggttctc 9060
gacgctactc tcatccacca gtccatcacc ggtctttacg agactcgtat cgacctttcc 9120
cagcttggtg gtgataagag gaccgccgac ggcagcgagt tcgagccgaa gaagaagagg 9180
aaggtgtaga ctagttcagc cagtttggtg gagctgccga tgtgcctggt cgtcccgagc 9240
ctctgttcgt caagtatttg tggtgctgat gtctacttgt gtctggttta atggaccatc 9300
gagtccgtat gatatgttag ttttatgaaa cagtttcctg tgggacagca gtatgcttta 9360
tgaataagtt ggatttgaac ctaaatatgt gctcaatttg ctcatttgca tctcattcct 9420
gttgatgttt tatctgagtt gcaagtttga aaatgctgca tattcttatt aaatcgtcat 9480
ttacttttat cttaatgagc tttgcaatgg cctatgggat ataaaagaga tcgttcaaac 9540
atttggcaat aaagtttctt aagattgaat cctgttgccg gtcttgcgat gattatcata 9600
taatttctgt tgaattacgt taagcatgta ataattaaca tgtaatgcat gacgttattt 9660
atgagatggg tttttatgat tagagtcccg caattataca tttaatacgc gatagaaaac 9720
aaaatatagc gcgcaaacta ggataaatta tcgcgcgcgg tgtcatctat gttactagat 9780
cggcgcctgt ccgggcgcgc ctggtggatc gtccgcctag gctgcagtgc agcgtgaccc 9840
ggtcgtgccc ctctctagag ataatgagca ttgcatgtct aagttataaa aaattaccac 9900
atattttttt tgtcacactt gtttgaagtg cagtttatct atctttatac atatatttaa 9960
actttactct acgaataata taatctatag tactacaata atatcagtgt tttagagaat 10020
catataaatg aacagttaga catggtctaa aggacaattg agtattttga caacaggact 10080
ctacagtttt atctttttag tgtgcatgtg ttctcctttt tttttgcaaa tagcttcacc 10140
tatataatac ttcatccatt ttattagtac atccatttag ggtttagggt taatggtttt 10200
tatagactaa tttttttagt acatctattt tattctattt tagcctctaa attaagaaaa 10260
ctaaaactct attttagttt ttttatttaa taatttagat ataaaataga ataaaataaa 10320
gtgactaaaa attaaacaaa taccctttaa gaaattaaaa aaactaagga aacatttttc 10380
ttgtttcgag tagataatgc cagcctgtta aacgccgtcg acgagtctaa cggacaccaa 10440
ccagcgaacc agcagcgtcg cgtcgggcca agcgaagcag acggcacggc atctctgtcg 10500
ctgcctctgg acccctctcg agagttccgc tccaccgttg gacttgctcc gctgtcggca 10560
tccagaaatt gcgtggcgga gcggcagacg tgagccggca cggcaggcgg cctcctcctc 10620
ctctcacggc accggcagct acgggggatt cctttcccac cgctccttcg ctttcccttc 10680
ctcgcccgcc gtaataaata gacaccccct ccacaccctc tttccccaac ctcgtgttgt 10740
tcggagcgca cacacacaca accagatctc ccccaaatcc acccgtcggc acctccgctt 10800
caaggtacgc cgctcgtcct cccccccccc ccctctctac cttctctaga tcggcgttcc 10860
ggtccatggt tagggcccgg tagttctact tctgttcatg tttgtgttag atccgtgttt 10920
gtgttagatc cgtgctgcta gcgttcgtac acggatgcga cctgtacgtc agacacgttc 10980
tgattgctaa cttgccagtg tttctctttg gggaatcctg ggatggctct agccgttccg 11040
cagacgggat cgatttcatg attttttttg tttcgttgca tagggtttgg tttgcccttt 11100
tcctttattt caatatatgc cgtgcacttg tttgtcgggt catcttttca tgcttttttt 11160
tgtcttggtt gtgatgatgt ggtctggttg ggcggtcgtt ctagatcgga gtagaattct 11220
gtttcaaact acctggtgga tttattaatt ttggatctgt atgtgtgtgc catacatatt 11280
catagttacg aattgaagat gatggatgga aatatcgatc taggataggt atacatgttg 11340
atgcgggttt tactgatgca tatacagaga tgctttttgt tcgcttggtt gtgatgatgt 11400
ggtgtggttg ggcggtcgtt cattcgttct agatcggagt agaatactgt ttcaaactac 11460
ctggtgtatt tattaatttt ggaactgtat gtgtgtgtca tacatcttca tagttacgag 11520
tttaagatgg atggaaatat cgatctagga taggtataca tgttgatgtg ggttttactg 11580
atgcatatac atgatggcat atgcagcatc tattcatatg ctctaacctt gagtacctat 11640
ctattataat aaacaagtat gttttataat tattttgatc ttgatatact tggatgatgg 11700
catatgcagc agctatatgt ggattttttt agccctgcct tcatacgcta tttatttgct 11760
tggtactgtt tcttttgtcg atgctcaccc tgttgtttgg tgttacttct gcaggagctc 11820
atgaaaaagc ctgaactcac cgcgacgtct gtcgagaagt ttctgatcga aaagttcgac 11880
agcgtctccg acctgatgca gctctcggag ggcgaagaat ctcgtgcttt cagcttcgat 11940
gtaggagggc gtggatatgt cctgcgggta aatagctgcg ccgatggttt ctacaaagat 12000
cgttatgttt atcggcactt tgcatcggcc gcgctcccga ttccggaagt gcttgacatt 12060
ggggagttta gcgagagcct gacctattgc atctcccgcc gttcacaggg tgtcacgttg 12120
caagacctgc ctgaaaccga actgcccgct gttctacaac cggtcgcgga ggctatggat 12180
gcgatcgctg cggccgatct tagccagacg agcgggttcg gcccattcgg accgcaagga 12240
atcggtcaat acactacatg gcgtgatttc atatgcgcga ttgctgatcc ccatgtgtat 12300
cactggcaaa ctgtgatgga cgacaccgtc agtgcgtccg tcgcgcaggc tctcgatgag 12360
ctgatgcttt gggccgagga ctgccccgaa gtccggcacc tcgtgcacgc ggatttcggc 12420
tccaacaatg tcctgacgga caatggccgc ataacagcgg tcattgactg gagcgaggcg 12480
atgttcgggg attcccaata cgaggtcgcc aacatcttct tctggaggcc gtggttggct 12540
tgtatggagc agcagacgcg ctacttcgag cggaggcatc cggagcttgc aggatcgcca 12600
cgactccggg cgtatatgct ccgcattggt cttgaccaac tctatcagag cttggttgac 12660
ggcaatttcg atgatgcagc ttgggcgcag ggtcgatgcg acgcaatcgt ccgatccgga 12720
gccgggactg tcgggcgtac acaaatcgcc cgcagaagcg cggccgtctg gaccgatggc 12780
tgtgtagaag tactcgccga tagtggaaac cgacgcccca gcactcgtcc gagggcaaag 12840
aaatagagta gatgccgacc gggatctgtc gatcgacaag ctcgagtttc tccataataa 12900
tgtgtgagta gttcccagat aagggaatta gggttcctat agggtttcgc tcatgtgttg 12960
agcatataag aaacccttag tatgtatttg tatttgtaaa atacttctat caataaaatt 13020
tctaattcct aaaaccaaaa tccagtacta aaatccagat cccccgaatt aattcggcgt 13080
taattcagcc tgcaggacgc gtttaattaa gtgcacgcgg ccgcctactt agtcaagagc 13140
ctcgcacgcg actgtcacgc ggccaggatc gcctcgtgag cctcgcaatc tgtacctagt 13200
gtttaaacta tcagtgtttg acaggatata ttggcgggta aacctaagag aaaagagcgt 13260
ttattagaat aacggatatt taaaagggcg tgaaaaggtt tatccgttcg tccatttgta 13320
tgtgcatgcc aaccacaggg ttcccctcgg gatcaaagta ctttgatcca acccctccgc 13380
tgctatagtg cagtcggctt ctgacgttca gtgcagccgt cttctgaaaa cgacatgtcg 13440
cacaagtcct aagttacgcg acaggctgcc gccctgccct tttcctggcg ttttcttgtc 13500
gcgtgtttta gtcgcataaa gtagaatact tgcgactaga accggagaca ttacgccatg 13560
aacaagagcg ccgccgctgg cctgctgggc tatgcccgcg tcagcaccga cgaccaggac 13620
ttgaccaacc aacgggccga actgcacgcg gccggctgca ccaagctgtt ttccgagaag 13680
atcaccggca ccaggcgcga ccgcccggag ctggccagga tgcttgacca cctacgccct 13740
ggcgacgttg tgacagtgac caggctagac cgcctggccc gcagcacccg cgacctactg 13800
gacattgccg agcgcatcca ggaggccggc gcgggcctgc gtagcctggc agagccgtgg 13860
gccgacacca ccacgccggc cggccgcatg gtgttgaccg tgttcgccgg cattgccgag 13920
ttcgagcgtt ccctaatcat cgaccgcacc cggagcgggc gcgaggccgc caaggcccga 13980
ggcgtgaagt ttggcccccg ccctaccctc accccggcac agatcgcgca cgcccgcgag 14040
ctgatcgacc aggaaggccg caccgtgaaa gaggcggctg cactgcttgg cgtgcatcgc 14100
tcgaccctgt accgcgcact tgagcgcagc gaggaagtga cgcccaccga ggccaggcgg 14160
cgcggtgcct tccgtgagga cgcattgacc gaggccgacg ccctggcggc cgccgagaat 14220
gaacgccaag aggaacaagc atgaaaccgc accaggacgg ccaggacgaa ccgtttttca 14280
ttaccgaaga gatcgaggcg gagatgatcg cggccgggta cgtgttcgag ccgcccgcgc 14340
acgtctcaac cgtgcggctg catgaaatcc tggccggttt gtctgatgcc aagctggcgg 14400
cctggccggc cagcttggcc gctgaagaaa ccgagcgccg ccgtctaaaa aggtgatgtg 14460
tatttgagta aaacagcttg cgtcatgcgg tcgctgcgta tatgatgcga tgagtaaata 14520
aacaaatacg caaggggaac gcatgaaggt tatcgctgta cttaaccaga aaggcgggtc 14580
aggcaagacg accatcgcaa cccatctagc ccgcgccctg caactcgccg gggccgatgt 14640
tctgttagtc gattccgatc cccagggcag tgcccgcgat tgggcggccg tgcgggaaga 14700
tcaaccgcta accgttgtcg gcatcgaccg cccgacgatt gaccgcgacg tgaaggccat 14760
cggccggcgc gacttcgtag tgatcgacgg agcgccccag gcggcggact tggctgtgtc 14820
cgcgatcaag gcagccgact tcgtgctgat tccggtgcag ccaagccctt acgacatatg 14880
ggccaccgcc gacctggtgg agctggttaa gcagcgcatt gaggtcacgg atggaaggct 14940
acaagcggcc tttgtcgtgt cgcgggcgat caaaggcacg cgcatcggcg gtgaggttgc 15000
cgaggcgctg gccgggtacg agctgcccat tcttgagtcc cgtatcacgc agcgcgtgag 15060
ctacccaggc actgccgccg ccggcacaac cgttcttgaa tcagaacccg agggcgacgc 15120
tgcccgcgag gtccaggcgc tggccgctga aattaaatca aaactcattt gagttaatga 15180
ggtaaagaga aaatgagcaa aagcacaaac acgctaagtg ccggccgtcc gagcgcacgc 15240
agcagcaagg ctgcaacgtt ggccagcctg gcagacacgc cagccatgaa gcgggtcaac 15300
tttcagttgc cggcggagga tcacaccaag ctgaagatgt acgcggtacg ccaaggcaag 15360
accattaccg agctgctatc tgaatacatc gcgcagctac cagagtaaat gagcaaatga 15420
ataaatgagt agatgaattt tagcggctaa aggaggcggc atggaaaatc aagaacaacc 15480
aggcaccgac gccgtggaat gccccatgtg tggaggaacg ggcggttggc caggcgtaag 15540
cggctgggtt gtctgccggc cctgcaatgg cactggaacc cccaagcccg aggaatcggc 15600
gtgacggtcg caaaccatcc ggcccggtac aaatcggcgc ggcgctgggt gatgacctgg 15660
tggagaagtt gaaggccgcg caggccgccc agcggcaacg catcgaggca gaagcacgcc 15720
ccggtgaatc gtggcaagcg gccgctgatc gaatccgcaa agaatcccgg caaccgccgg 15780
cagccggtgc gccgtcgatt aggaagccgc ccaagggcga cgagcaacca gattttttcg 15840
ttccgatgct ctatgacgtg ggcacccgcg atagtcgcag catcatggac gtggccgttt 15900
tccgtctgtc gaagcgtgac cgacgagctg gcgaggtgat ccgctacgag cttccagacg 15960
ggcacgtaga ggtttccgca gggccggccg gcatggccag tgtgtgggat tacgacctgg 16020
tactgatggc ggtttcccat ctaaccgaat ccatgaaccg ataccgggaa gggaagggag 16080
acaagcccgg ccgcgtgttc cgtccacacg ttgcggacgt actcaagttc tgccggcgag 16140
ccgatggcgg aaagcagaaa gacgacctgg tagaaacctg cattcggtta aacaccacgc 16200
acgttgccat gcagcgtacg aagaaggcca agaacggccg cctggtgacg gtatccgagg 16260
gtgaagcctt gattagccgc tacaagatcg taaagagcga aaccgggcgg ccggagtaca 16320
tcgagatcga gctagctgat tggatgtacc gcgagatcac agaaggcaag aacccggacg 16380
tgctgacggt tcaccccgat tactttttga tcgatcccgg catcggccgt tttctctacc 16440
gcctggcacg ccgcgccgca ggcaaggcag aagccagatg gttgttcaag acgatctacg 16500
aacgcagtgg cagcgccgga gagttcaaga agttctgttt caccgtgcgc aagctgatcg 16560
ggtcaaatga cctgccggag tacgatttga aggaggaggc ggggcaggct ggcccgatcc 16620
tagtcatgcg ctaccgcaac ctgatcgagg gcgaagcatc cgccggttcc taatgtacgg 16680
agcagatgct agggcaaatt gccctagcag gggaaaaagg tcgaaaaggt ctctttcctg 16740
tggatagcac gtacattggg aacccaaagc cgtacattgg gaaccggaac ccgtacattg 16800
ggaacccaaa gccgtacatt gggaaccggt cacacatgta agtgactgat ataaaagaga 16860
aaaaaggcga tttttccgcc taaaactctt taaaacttat taaaactctt aaaacccgcc 16920
tggcctgtgc ataactgtct ggccagcgca cagccgaaga gctgcaaaaa gcgcctaccc 16980
ttcggtcgct gcgctcccta cgccccgccg cttcgcgtcg gcctatcgcg gccgctggcc 17040
gctcaaaaat ggctggccta cggccaggca atctaccagg gcgcggacaa gccgcgccgt 17100
cgccactcga ccgccggcgc ccacatcaag gcaccctgcc tcgcgcgttt cggtgatgac 17160
ggtgaaaacc tctgacacat gcagctcccg gagacggtca cagcttgtct gtaagcggat 17220
gccgggagca gacaagcccg tcagggcgcg tcagcgggtg ttggcgggtg tcggggcgca 17280
gccatgaccc agtcacgtag cgatagcgga gtgtatactg gcttaactat gcggcatcag 17340
agcagattgt actgagagtg caccatatgc ggtgtgaaat accgcacaga tgcgtaagga 17400
gaaaataccg catcaggcgc tcttccgctt cctcgctcac tgactcgctg cgctcggtcg 17460
ttcggctgcg gcgagcggta tcagctcact caaaggcggt aatacggtta tccacagaat 17520
caggggataa cgcaggaaag aacatgtgag caaaaggcca gcaaaaggcc aggaaccgta 17580
aaaaggccgc gttgctggcg tttttccata ggctccgccc ccctgacgag catcacaaaa 17640
atcgacgctc aagtcagagg tggcgaaacc cgacaggact ataaagatac caggcgtttc 17700
cccctggaag ctccctcgtg cgctctcctg ttccgaccct gccgcttacc ggatacctgt 17760
ccgcctttct cccttcggga agcgtggcgc tttctcatag ctcacgctgt aggtatctca 17820
gttcggtgta ggtcgttcgc tccaagctgg gctgtgtgca cgaacccccc gttcagcccg 17880
accgctgcgc cttatccggt aactatcgtc ttgagtccaa cccggtaaga cacgacttat 17940
cgccactggc agcagccact ggtaacagga ttagcagagc gaggtatgta ggcggtgcta 18000
cagagttctt gaagtggtgg cctaactacg gctacactag aaggacagta tttggtatct 18060
gcgctctgct gaagccagtt accttcggaa aaagagttgg tagctcttga tccggcaaac 18120
aaaccaccgc tggtagcggt ggtttttttg tttgcaagca gcagattacg cgcagaaaaa 18180
aaggatctca agaagatcct ttgatctttt ctacggggtc tgacgctcag tggaacgaaa 18240
actcacgtta agggattttg gtcatgcatt ctaggtacta aaacaattca tccagtaaaa 18300
tataatattt tattttctcc caatcaggct tgatccccag taagtcaaaa aatagctcga 18360
catactgttc ttccccgata tcctccctga tcgaccggac gcagaaggca atgtcatacc 18420
acttgtccgc cctgccgctt ctcccaagat caataaagcc acttactttg ccatctttca 18480
caaagatgtt gctgtctccc aggtcgccgt gggaaaagac aagttcctct tcgggctttt 18540
ccgtctttaa aaaatcatac agctcgcgcg gatctttaaa tggagtgtct tcttcccagt 18600
tttcgcaatc cacatcggcc agatcgttat tcagtaagta atccaattcg gctaagcggc 18660
tgtctaagct attcgtatag ggacaatccg atatgtcgat ggagtgaaag agcctgatgc 18720
actccgcata cagctcgata atcttttcag ggctttgttc atcttcatac tcttccgagc 18780
aaaggacgcc atcggcctca ctcatgagca gattgctcca gccatcatgc cgttcaaagt 18840
gcaggacctt tggaacaggc agctttcctt ccagccatag catcatgtcc ttttcccgtt 18900
ccacatcata ggtggtccct ttataccggc tgtccgtcat ttttaaatat aggttttcat 18960
tttctcccac cagcttatat accttagcag gagacattcc ttccgtatct tttacgcagc 19020
ggtatttttc gatcagtttt ttcaattccg gtgatattct cattttagcc atttattatt 19080
tccttcctct tttctacagt atttaaagat accccaagaa gctaattata acaagacgaa 19140
ctccaattca ctgttccttg cattctaaaa ccttaaatac cagaaaacag ctttttcaaa 19200
gttgttttca aagttggcgt ataacatagt atcgacggag ccgattttga aaccgcggtg 19260
atcacaggca gcaacgctct gtcatcgtta caatcaacat gctaccctcc gcgagatcat 19320
ccgtgtttca aacccggcag cttagttgcc gttcttccga atagcatcgg taacatgagc 19380
aaagtctgcc gccttacaac ggctctcccg ctgacgccgt cccggactga tgggctgcct 19440
gtatcgagtg gtgattttgt gccgagctgc cggtcgggga gctgttggct ggct 19494
<210>2
<211>166
<212>PRT
<213>Artificial Sequence
<400>2
Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu Thr
1 5 10 15
Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala Val
20 25 30
Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro Ile
35 40 45
Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln
50 55 60
Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu Tyr
65 70 75 80
Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ser
85 90 95
Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly Ala
100 105 110
Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His Arg
115 120 125
Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu Leu
130 135 140
Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys Lys
145 150 155 160
Ala Gln Ser Ser Thr Asp
165
<210>3
<211>166
<212>PRT
<213>Artificial Sequence
<400>3
Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu Thr
1 5 10 15
Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala Val
20 25 30
Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala Ile
35 40 45
Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln
50 55 60
Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu Tyr
65 70 75 80
Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ser
85 90 95
Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly Ala
100 105 110
Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His Arg
115 120 125
Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu Leu
130 135 140
Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys Lys
145 150 155 160
Ala Gln Ser Ser Thr Asp
165
<210>4
<211>1367
<212>PRT
<213>Artificial Sequence
<400>4
Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val Gly
1 5 10 15
Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys
20 25 30
Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly
35 40 45
Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys
50 55 60
Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr
65 70 75 80
Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe
85 90 95
Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His
100 105 110
Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His
115 120 125
Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser
130 135 140
Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met
145 150 155 160
Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp
165 170 175
Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn
180 185 190
Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys
195 200 205
Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu
210 215 220
Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu
225 230 235 240
Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp
245 250 255
Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp
260 265 270
Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu
275 280 285
Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile
290 295 300
Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met
305 310 315 320
Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala
325 330 335
Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp
340 345 350
Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln
355 360 365
Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly
370 375 380
Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys
385 390 395 400
Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly
405 410 415
Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu
420 425 430
Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro
435 440 445
Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met
450 455 460
Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val
465 470 475 480
Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn
485 490 495
Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu
500 505 510
Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr
515 520 525
Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys
530 535 540
Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val
545 550 555 560
Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser
565 570 575
Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr
580 585 590
Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn
595 600 605
Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu
610 615 620
Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His
625 630 635 640
Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr
645 650 655
Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys
660 665 670
Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala
675 680 685
Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys
690 695 700
Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His
705 710 715 720
Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile
725 730 735
Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg
740 745 750
His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr
755 760 765
Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu
770 775 780
Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val
785 790 795 800
Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln
805 810 815
Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu
820 825 830
Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp
835 840 845
Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly
850 855 860
Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn
865 870 875 880
Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe
885 890 895
Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys
900 905 910
Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys
915 920 925
His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu
930 935 940
Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys
945 950 955 960
Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu
965 970 975
Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val
980 985 990
Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val
995 1000 1005
Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys
1010 1015 1020
Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr
1025 1030 1035
Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn
1040 1045 1050
Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr
1055 1060 1065
Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg
1070 1075 1080
Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu
1085 1090 1095
Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg
1100 1105 1110
Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys
1115 1120 1125
Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu
1130 1135 1140
Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser
1145 1150 1155
Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe
1160 1165 1170
Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu
1175 1180 1185
Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe
1190 1195 1200
Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu
1205 1210 1215
Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn
1220 1225 1230
Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro
1235 1240 1245
Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His
1250 1255 1260
Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg
1265 1270 1275
Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr
1280 1285 1290
Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile
1295 1300 1305
Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe
1310 1315 1320
Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr
1325 1330 1335
Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly
1340 1345 1350
Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210>5
<211>20
<212>DNA
<213>Artificial Sequence
<400>5
gttgatagca agataaaccc 20
<210>6
<211>207
<212>DNA
<213>Artificial Sequence
<400>6
gactacaagg accacgacgg ggattacaaa gaccacgaca tagactacaa ggatgacgat 60
gacaaaatgg caccgaagaa aaaaaggaag gtcggcggct ccccgaagaa aaaaaggaag 120
gtcggcggct ccccgaagaa aaaaaggaag gtcggcggct ccccgaagaa aaaaaggaag 180
gtcggaatcc atggcgttcc agctgcc 207
<210>7
<211>19005
<212>DNA
<213>Artificial Sequence
<400>7
ggtggcagga tatattgtgg tgtaaacatg gcactagcct caccgtcttc gcagacgagg 60
ccgctaagtc gcagctacgc tctcaacggc actgactagg tagtttaaac gtgcacttaa 120
ttaaggtacc gaagcaactt aaagttatca ggcatgcatg gatcttggag gaatcagatg 180
tgcagtcagg gaccatagca caagacaggc gtcttctact ggtgctacca gcaaatgctg 240
gaagccggga acactgggta cgttggaaac cacgtgatgt gaagaagtaa gataaactgt 300
aggagaaaag catttcgtag tgggccatga agcctttcag gacatgtatt gcagtatggg 360
ccggcccatt acgcaattgg acgacaacaa agactagtat tagtaccacc tcggctatcc 420
acatagatca aagctgattt aaaagagttg tgcagatgat ccgtggcgga tccaacaaag 480
caccagtggt ctagtggtag aatagtaccc tgccacggta cagacccggg ttcgattccc 540
ggctggtgca ttgtaatcaa ctccagtgtc gtttcagagc tatgctggaa acagcatagc 600
aagttgaaat aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtgcaaca 660
aagcaccagt ggtctagtgg tagaatagta ccctgccacg gtacagaccc gggttcgatt 720
cccggctggt gcaccttctc caggaatgac ggagtttcag agctatgctg gaaacagcat 780
agcaagttga aataaggcta gtccgttatc aacttgaaaa agtggcaccg agtcggtgca 840
acaaagcacc agtggtctag tggtagaata gtaccctgcc acggtacaga cccgggttcg 900
attcccggct ggtgcagacc agccagcgtc tggcgcgttt cagagctatg ctggaaacag 960
catagcaagt tgaaataagg ctagtccgtt atcaacttga aaaagtggca ccgagtcggt 1020
gcaacaaagc accagtggtc tagtggtaga atagtaccct gccacggtac agacccgggt 1080
tcgattcccg gctggtgcaa atcctgatga tgctgcagtg tttcagagct atgctggaaa 1140
cagcatagca agttgaaata aggctagtcc gttatcaact tgaaaaagtg gcaccgagtc 1200
ggtgcttttt tttttcgttt tgcattgagt tttctccgtc gcatgtttgc agttttattt 1260
tccgttttgc attgaaattt ctccgtctca tgtttgcagc gtgttcaaaa agtacgcagc 1320
tgtatttcac ttatttacgg cgccacattt tcatgccgtt tgtgccaact atcccgagct 1380
agtgaataca gcttggcttc acacaacact ggtgacccgc tgacctgctc gtacctcgta 1440
ccgtcgtacg gcacagcatt tggaattaaa gggtgtgatc gatactgctt gctgctaagc 1500
ttacaaattc gggtcaaggc ggaagccagc gcgccacccc acgtcagcaa atacggaggc 1560
gcggggttga cggcgtcacc cggtcctaac ggcgaccaac aaaccagcca gaagaaatta 1620
cagtaaaaaa aaagtaaatt gcactttgat ccacctttta ttacctaagt ctcaatttgg 1680
atcaccctta aacctatctt ttcaatttgg gccgggttgt ggtttggact accatgaaca 1740
acttttcgtc atgtctaact tccctttcag caaacatatg aaccatatat agaggagatc 1800
ggccgtatac tagagctgat gtgtttaagg tcgttgattg cacgagaaaa aaaaatccaa 1860
atcgcaacaa tagcaaattt atctggttca aagtgaaaag atatgtttaa aggtagtcca 1920
aagtaaaact tatagataat aaaatgtggt ccaaagcgta attcactcaa aaaaaatcaa 1980
cgagacgtgt accaaacgga gacaaacggc atcttctcga aatttcccaa ccgctcgctc 2040
gcccgcctcg tcttcccgga aaccgcggtg gtttcagcgt ggcggattct ccaagcagac 2100
ggagacgtca cggcacggga ctcctcccac cacccaaccg ccataaatac cagccccctc 2160
atctcctctc ctcgcatcag ctccaccccc gaaaaatttc tccccaatct cgcgaggctc 2220
tcgtcgtcga atcgaatcct ctcgcgtcct caaggtacgc tgcttctcct ctcctcgctt 2280
cgtttcgatt cgatttcgga cgggtgaggt tgttttgttg ctagatccga ttggtggtta 2340
gggttgtcga tgtgattatc gtgagatgtt taggggttgt agatctgatg gttgtgattt 2400
gggcacggtt ggttcgatag gtggaatcgt ggttaggttt tgggattgga tgttggttct 2460
gatgattggg gggaattttt acggttagat gaattgttgg atgattcgat tggggaaatc 2520
ggtgtagatc tgttggggaa ttgtggaact agtcatgcct gagtgattgg tgcgatttgt 2580
agcgtgttcc atcttgtagg ccttgttgcg agcatgttca gatctactgt tccgctcttg 2640
attgagttat tggtgccatg ggttggtgca aacacaggct ttaatatgtt atatctgttt 2700
tgtgtttgat gtagatctgt agggtagttc ttcttagaca tggttcaatt atgtagcttg 2760
tgcgtttcga tttgatttca tatgttcaca gattagataa tgatgaactc ttttaattaa 2820
ttgtcaatgg taaataggaa gtcttgtcgc tatatctgtc ataatgatct catgttacta 2880
tctgccagta atttatgcta agaactatat tagaatatca tgttacaatc tgtagtaata 2940
tcatgttaca atctgtagtt catctatata atctattgtg gtaatttctt tttactatct 3000
gtgtgaagat tattgccact agttcattct acttatttct gaagttcagg atacgtgtgc 3060
tgttactacc tatctgaata catgtgtgat gtgcctgtta ctatcttttt gaatacatgt 3120
atgttctgtt ggaatatgtt tgctgtttga tccgttgttg tgtccttaat cttgtgctag 3180
ttcttaccct atctgtttgg tgattatttc ttgcagtacg taagcatgaa gaggaccgcc 3240
gacggcagcg agttcgagcc gaagaagaag aggaaggtgt ccagcgagac aggaccagtg 3300
gcagtcgacc caacactgcg caggcggatc gagccacacg agttcgaggt gttcttcgat 3360
ccgagggagc tccggaagga gacatgcctc ctgtacgaga tcaactgggg cggccgccac 3420
tctatctgga ggcatacctc acagaacaca aataagcatg tggaggtcaa cttcatcgag 3480
aagttcacca cagagcggta cttctgcccg aatacgcgct gctccatcac ctggttcctg 3540
tcgtggtccc catgcggaga gtgctcgagg gcaatcacgg agttcctctc ccgctacccg 3600
cacgtcaccc tgttcatcta catcgcacgg ctctaccacc atgcggaccc gcggaatagg 3660
cagggcctcc gcgatctgat ctcttcaggc gtgacaatcc agatcatgac ggagcaggag 3720
tcaggctact gctggaggaa cttcgtcaat tacagcccat ctaacgaggc acactggccg 3780
cgctacccgc atctctgggt gcgcctctac gtgctcgagc tgtactgcat catcctcggc 3840
ctgccgccat gcctcaatat cctgcgcagg aagcagccgc agctgacgtt cttcaccatc 3900
gccctccaga gctgccacta ccagcggctc cctccgcata tcctgtgggc gacaggcctc 3960
aagtcaggct cggagacacc tggcacgtcc gagagcgcca ccccggagtc tgacaagaag 4020
tactccatcg gcctcgccat cggcaccaac agcgtcggct gggcggtgat caccgacgag 4080
tacaaggtcc cgtccaagaa gttcaaggtc ctgggcaaca ccgaccgcca ctccatcaag 4140
aagaacctca tcggcgccct cctcttcgac tccggcgaga cggcggaggc gacccgcctc 4200
aagcgcaccg cccgccgccg ctacacccgc cgcaagaacc gcatctgcta cctccaggag 4260
atcttctcca acgagatggc gaaggtcgac gactccttct tccaccgcct cgaggagtcc 4320
ttcctcgtgg aggaggacaa gaagcacgag cgccacccca tcttcggcaa catcgtcgac 4380
gaggtcgcct accacgagaa gtaccccact atctaccacc ttcgtaagaa gcttgttgac 4440
tctactgata aggctgatct tcgtctcatc taccttgctc tcgctcacat gatcaagttc 4500
cgtggtcact tccttatcga gggtgacctt aaccctgata actccgacgt ggacaagctc 4560
ttcatccagc tcgtccagac ctacaaccag ctcttcgagg agaaccctat caacgcttcc 4620
ggtgtcgacg ctaaggcgat cctttccgct aggctctcca agtccaggcg tctcgagaac 4680
ctcatcgccc agctccctgg tgagaagaag aacggtcttt tcggtaacct catcgctctc 4740
tccctcggtc tgacccctaa cttcaagtcc aacttcgacc tcgctgagga cgctaagctt 4800
cagctctcca aggataccta cgacgatgat ctcgacaacc tcctcgctca gattggagat 4860
cagtacgctg atctcttcct tgctgctaag aacctctccg atgctatcct cctttcggat 4920
atccttaggg ttaacactga gatcactaag gctcctcttt ctgcttccat gatcaagcgc 4980
tacgacgagc accaccagga cctcaccctc ctcaaggctc ttgttcgtca gcagctcccc 5040
gagaagtaca aggagatctt cttcgaccag tccaagaacg gctacgccgg ttacattgac 5100
ggtggagcta gccaggagga gttctacaag ttcatcaagc caatccttga gaagatggat 5160
ggtactgagg agcttctcgt taagcttaac cgtgaggacc tccttaggaa gcagaggact 5220
ttcgataacg gctctatccc tcaccagatc caccttggtg agcttcacgc catccttcgt 5280
aggcaggagg acttctaccc tttcctcaag gacaaccgtg agaagatcga gaagatcctt 5340
actttccgta ttccttacta cgttggtcct cttgctcgtg gtaactcccg tttcgcttgg 5400
atgactagga agtccgagga gactatcacc ccttggaact tcgaggaggt tgttgacaag 5460
ggtgcttccg cccagtcctt catcgagcgc atgaccaact tcgacaagaa cctccccaac 5520
gagaaggtcc tccccaagca ctccctcctc tacgagtact tcacggtcta caacgagctc 5580
accaaggtca agtacgtcac cgagggtatg cgcaagcctg ccttcctctc cggcgagcag 5640
aagaaggcta tcgttgacct cctcttcaag accaaccgca aggtcaccgt caagcagctc 5700
aaggaggact acttcaagaa gatcgagtgc ttcgactccg tcgagatcag cggcgttgag 5760
gaccgtttca acgcttctct cggtacctac cacgatctcc tcaagatcat caaggacaag 5820
gacttcctcg acaacgagga gaacgaggac atcctcgagg acatcgtcct cactcttact 5880
ctcttcgagg atagggagat gatcgaggag aggctcaaga cttacgctca tctcttcgat 5940
gacaaggtta tgaagcagct caagcgtcgc cgttacaccg gttggggtag gctctcccgc 6000
aagctcatca acggtatcag ggataagcag agcggcaaga ctatcctcga cttcctcaag 6060
tctgatggtt tcgctaacag gaacttcatg cagctcatcc acgatgactc tcttaccttc 6120
aaggaggata ttcagaaggc tcaggtgtcc ggtcagggcg actctctcca cgagcacatt 6180
gctaaccttg ctggttcccc tgctatcaag aagggcatcc ttcagactgt taaggttgtc 6240
gatgagcttg tcaaggttat gggtcgtcac aagcctgaga acatcgtcat cgagatggct 6300
cgtgagaacc agactaccca gaagggtcag aagaactcga gggagcgcat gaagaggatt 6360
gaggagggta tcaaggagct tggttctcag atccttaagg agcaccctgt cgagaacacc 6420
cagctccaga acgagaagct ctacctctac tacctccaga acggtaggga tatgtacgtt 6480
gaccaggagc tcgacatcaa caggctttct gactacgacg tcgaccacat tgttcctcag 6540
tctttcctta aggatgactc catcgacaac aaggtcctca cgaggtccga caagaacagg 6600
ggtaagtcgg acaacgtccc ttccgaggag gttgtcaaga agatgaagaa ctactggagg 6660
cagcttctca acgctaagct cattacccag aggaagttcg acaacctcac gaaggctgag 6720
aggggtggcc tttccgagct tgacaaggct ggtttcatca agaggcagct tgttgagacg 6780
aggcagatta ccaagcacgt tgctcagatc ctcgattcta ggatgaacac caagtacgac 6840
gagaacgaca agctcatccg cgaggtcaag gtgatcaccc tcaagtccaa gctcgtctcc 6900
gacttccgca aggacttcca gttctacaag gtccgcgaga tcaacaacta ccaccacgct 6960
cacgatgctt accttaacgc tgtcgttggt accgctctta tcaagaagta ccctaagctt 7020
gagtccgagt tcgtctacgg tgactacaag gtctacgacg ttcgtaagat gatcgccaag 7080
tccgagcagg agatcggcaa ggccaccgcc aagtacttct tctactccaa catcatgaac 7140
ttcttcaaga ccgagatcac cctcgccaac ggcgagatcc gcaagcgccc tcttatcgag 7200
acgaacggtg agactggtga gatcgtttgg gacaagggtc gcgacttcgc tactgttcgc 7260
aaggtccttt ctatgcctca ggttaacatc gtcaagaaga ccgaggtcca gaccggtggc 7320
ttctccaagg agtctatcct tccaaagaga aactcggaca agctcatcgc taggaagaag 7380
gattgggacc ctaagaagta cggtggtttc gactccccta ctgtcgccta ctccgtcctc 7440
gtggtcgcca aggtggagaa gggtaagtcg aagaagctca agtccgtcaa ggagctcctc 7500
ggcatcacca tcatggagcg ctcctccttc gagaagaacc cgatcgactt cctcgaggcc 7560
aagggctaca aggaggtcaa gaaggacctc atcatcaagc tccccaagta ctctcttttc 7620
gagctcgaga acggtcgtaa gaggatgctg gcttccgctg gtgagctcca gaagggtaac 7680
gagcttgctc ttccttccaa gtacgtgaac ttcctctacc tcgcctccca ctacgagaag 7740
ctcaagggtt cccctgagga taacgagcag aagcagctct tcgtggagca gcacaagcac 7800
tacctcgacg agatcatcga gcagatctcc gagttctcca agcgcgtcat cctcgctgac 7860
gctaacctcg acaaggtcct ctccgcctac aacaagcacc gcgacaagcc catccgcgag 7920
caggccgaga acatcatcca cctcttcacg ctcacgaacc tcggcgcccc tgctgctttc 7980
aagtacttcg acaccaccat cgacaggaag cgttacacgt ccaccaagga ggttctcgac 8040
gctactctca tccaccagtc catcaccggt ctttacgaga ctcgtatcga cctttcccag 8100
cttggtggtg attccggcgg cagcaccaac ctctccgaca tcatcgagaa ggagacaggc 8160
aagcagctcg tgatccagga gagcatcctc atgctcccgg aggaggtgga ggaggtcatc 8220
ggcaacaagc cggagtccga catcctcgtg cacaccgcct acgacgagtc caccgacgag 8280
aacgtgatgc tcctcacctc agatgcacca gagtacaagc catgggcact cgtgatccag 8340
gacagcaacg gcgagaacaa gatcaagatg ctctccggcg gctccaccaa cctctccgac 8400
atcatcgaga aggagacagg caagcagctc gtgatccagg agagcatcct catgctcccg 8460
gaggaggtgg aggaggtcat cggcaacaag ccggagtccg acatcctcgt gcacaccgcc 8520
tacgacgagt ccaccgacga gaacgtgatg ctcctcacct cagatgcacc agagtacaag 8580
ccatgggcac tcgtgatcca ggacagcaac ggcgagaaca agatcaagat gctctccggc 8640
ggctccaaga ggaccgccga cggcagcgag ttcgagccga agaagaagag gaaggtgtag 8700
actagttcag ccagtttggt ggagctgccg atgtgcctgg tcgtcccgag cctctgttcg 8760
tcaagtattt gtggtgctga tgtctacttg tgtctggttt aatggaccat cgagtccgta 8820
tgatatgtta gttttatgaa acagtttcct gtgggacagc agtatgcttt atgaataagt 8880
tggatttgaa cctaaatatg tgctcaattt gctcatttgc atctcattcc tgttgatgtt 8940
ttatctgagt tgcaagtttg aaaatgctgc atattcttat taaatcgtca tttactttta 9000
tcttaatgag ctttgcaatg gcctatggga tataaaagag atcgttcaaa catttggcaa 9060
taaagtttct taagattgaa tcctgttgcc ggtcttgcga tgattatcat ataatttctg 9120
ttgaattacg ttaagcatgt aataattaac atgtaatgca tgacgttatt tatgagatgg 9180
gtttttatga ttagagtccc gcaattatac atttaatacg cgatagaaaa caaaatatag 9240
cgcgcaaact aggataaatt atcgcgcgcg gtgtcatcta tgttactaga tcggcgcctg 9300
tccgggcgcg cctggtggat cgtccgccta ggctgcagtg cagcgtgacc cggtcgtgcc 9360
cctctctaga gataatgagc attgcatgtc taagttataa aaaattacca catatttttt 9420
ttgtcacact tgtttgaagt gcagtttatc tatctttata catatattta aactttactc 9480
tacgaataat ataatctata gtactacaat aatatcagtg ttttagagaa tcatataaat 9540
gaacagttag acatggtcta aaggacaatt gagtattttg acaacaggac tctacagttt 9600
tatcttttta gtgtgcatgt gttctccttt ttttttgcaa atagcttcac ctatataata 9660
cttcatccat tttattagta catccattta gggtttaggg ttaatggttt ttatagacta 9720
atttttttag tacatctatt ttattctatt ttagcctcta aattaagaaa actaaaactc 9780
tattttagtt tttttattta ataatttaga tataaaatag aataaaataa agtgactaaa 9840
aattaaacaa atacccttta agaaattaaa aaaactaagg aaacattttt cttgtttcga 9900
gtagataatg ccagcctgtt aaacgccgtc gacgagtcta acggacacca accagcgaac 9960
cagcagcgtc gcgtcgggcc aagcgaagca gacggcacgg catctctgtc gctgcctctg 10020
gacccctctc gagagttccg ctccaccgtt ggacttgctc cgctgtcggc atccagaaat 10080
tgcgtggcgg agcggcagac gtgagccggc acggcaggcg gcctcctcct cctctcacgg 10140
caccggcagc tacgggggat tcctttccca ccgctccttc gctttccctt cctcgcccgc 10200
cgtaataaat agacaccccc tccacaccct ctttccccaa cctcgtgttg ttcggagcgc 10260
acacacacac aaccagatct cccccaaatc cacccgtcgg cacctccgct tcaaggtacg 10320
ccgctcgtcc tccccccccc cccctctcta ccttctctag atcggcgttc cggtccatgg 10380
ttagggcccg gtagttctac ttctgttcat gtttgtgtta gatccgtgtt tgtgttagat 10440
ccgtgctgct agcgttcgta cacggatgcg acctgtacgt cagacacgtt ctgattgcta 10500
acttgccagt gtttctcttt ggggaatcct gggatggctc tagccgttcc gcagacggga 10560
tcgatttcat gatttttttt gtttcgttgc atagggtttg gtttgccctt ttcctttatt 10620
tcaatatatg ccgtgcactt gtttgtcggg tcatcttttc atgctttttt ttgtcttggt 10680
tgtgatgatg tggtctggtt gggcggtcgt tctagatcgg agtagaattc tgtttcaaac 10740
tacctggtgg atttattaat tttggatctg tatgtgtgtg ccatacatat tcatagttac 10800
gaattgaaga tgatggatgg aaatatcgat ctaggatagg tatacatgtt gatgcgggtt 10860
ttactgatgc atatacagag atgctttttg ttcgcttggt tgtgatgatg tggtgtggtt 10920
gggcggtcgt tcattcgttc tagatcggag tagaatactg tttcaaacta cctggtgtat 10980
ttattaattt tggaactgta tgtgtgtgtc atacatcttc atagttacga gtttaagatg 11040
gatggaaata tcgatctagg ataggtatac atgttgatgt gggttttact gatgcatata 11100
catgatggca tatgcagcat ctattcatat gctctaacct tgagtaccta tctattataa 11160
taaacaagta tgttttataa ttattttgat cttgatatac ttggatgatg gcatatgcag 11220
cagctatatg tggatttttt tagccctgcc ttcatacgct atttatttgc ttggtactgt 11280
ttcttttgtc gatgctcacc ctgttgtttg gtgttacttc tgcaggagct catgaaaaag 11340
cctgaactca ccgcgacgtc tgtcgagaag tttctgatcg aaaagttcga cagcgtctcc 11400
gacctgatgc agctctcgga gggcgaagaa tctcgtgctt tcagcttcga tgtaggaggg 11460
cgtggatatg tcctgcgggt aaatagctgc gccgatggtt tctacaaaga tcgttatgtt 11520
tatcggcact ttgcatcggc cgcgctcccg attccggaag tgcttgacat tggggagttt 11580
agcgagagcc tgacctattg catctcccgc cgttcacagg gtgtcacgtt gcaagacctg 11640
cctgaaaccg aactgcccgc tgttctacaa ccggtcgcgg aggctatgga tgcgatcgct 11700
gcggccgatc ttagccagac gagcgggttc ggcccattcg gaccgcaagg aatcggtcaa 11760
tacactacat ggcgtgattt catatgcgcg attgctgatc cccatgtgta tcactggcaa 11820
actgtgatgg acgacaccgt cagtgcgtcc gtcgcgcagg ctctcgatga gctgatgctt 11880
tgggccgagg actgccccga agtccggcac ctcgtgcacg cggatttcgg ctccaacaat 11940
gtcctgacgg acaatggccg cataacagcg gtcattgact ggagcgaggc gatgttcggg 12000
gattcccaat acgaggtcgc caacatcttc ttctggaggc cgtggttggc ttgtatggag 12060
cagcagacgc gctacttcga gcggaggcat ccggagcttg caggatcgcc acgactccgg 12120
gcgtatatgc tccgcattgg tcttgaccaa ctctatcaga gcttggttga cggcaatttc 12180
gatgatgcag cttgggcgca gggtcgatgc gacgcaatcg tccgatccgg agccgggact 12240
gtcgggcgta cacaaatcgc ccgcagaagc gcggccgtct ggaccgatgg ctgtgtagaa 12300
gtactcgccg atagtggaaa ccgacgcccc agcactcgtc cgagggcaaa gaaatagagt 12360
agatgccgac cgggatctgt cgatcgacaa gctcgagttt ctccataata atgtgtgagt 12420
agttcccaga taagggaatt agggttccta tagggtttcg ctcatgtgtt gagcatataa 12480
gaaaccctta gtatgtattt gtatttgtaa aatacttcta tcaataaaat ttctaattcc 12540
taaaaccaaa atccagtact aaaatccaga tcccccgaat taattcggcg ttaattcagc 12600
ctgcaggacg cgtttaatta agtgcacgcg gccgcctact tagtcaagag cctcgcacgc 12660
gactgtcacg cggccaggat cgcctcgtga gcctcgcaat ctgtacctag tgtttaaact 12720
atcagtgttt gacaggatat attggcgggt aaacctaaga gaaaagagcg tttattagaa 12780
taacggatat ttaaaagggc gtgaaaaggt ttatccgttc gtccatttgt atgtgcatgc 12840
caaccacagg gttcccctcg ggatcaaagt actttgatcc aacccctccg ctgctatagt 12900
gcagtcggct tctgacgttc agtgcagccg tcttctgaaa acgacatgtc gcacaagtcc 12960
taagttacgc gacaggctgc cgccctgccc ttttcctggc gttttcttgt cgcgtgtttt 13020
agtcgcataa agtagaatac ttgcgactag aaccggagac attacgccat gaacaagagc 13080
gccgccgctg gcctgctggg ctatgcccgc gtcagcaccg acgaccagga cttgaccaac 13140
caacgggccg aactgcacgc ggccggctgc accaagctgt tttccgagaa gatcaccggc 13200
accaggcgcg accgcccgga gctggccagg atgcttgacc acctacgccc tggcgacgtt 13260
gtgacagtga ccaggctaga ccgcctggcc cgcagcaccc gcgacctact ggacattgcc 13320
gagcgcatcc aggaggccgg cgcgggcctg cgtagcctgg cagagccgtg ggccgacacc 13380
accacgccgg ccggccgcat ggtgttgacc gtgttcgccg gcattgccga gttcgagcgt 13440
tccctaatca tcgaccgcac ccggagcggg cgcgaggccg ccaaggcccg aggcgtgaag 13500
tttggccccc gccctaccct caccccggca cagatcgcgc acgcccgcga gctgatcgac 13560
caggaaggcc gcaccgtgaa agaggcggct gcactgcttg gcgtgcatcg ctcgaccctg 13620
taccgcgcac ttgagcgcag cgaggaagtg acgcccaccg aggccaggcg gcgcggtgcc 13680
ttccgtgagg acgcattgac cgaggccgac gccctggcgg ccgccgagaa tgaacgccaa 13740
gaggaacaag catgaaaccg caccaggacg gccaggacga accgtttttc attaccgaag 13800
agatcgaggc ggagatgatc gcggccgggt acgtgttcga gccgcccgcg cacgtctcaa 13860
ccgtgcggct gcatgaaatc ctggccggtt tgtctgatgc caagctggcg gcctggccgg 13920
ccagcttggc cgctgaagaa accgagcgcc gccgtctaaa aaggtgatgt gtatttgagt 13980
aaaacagctt gcgtcatgcg gtcgctgcgt atatgatgcg atgagtaaat aaacaaatac 14040
gcaaggggaa cgcatgaagg ttatcgctgt acttaaccag aaaggcgggt caggcaagac 14100
gaccatcgca acccatctag cccgcgccct gcaactcgcc ggggccgatg ttctgttagt 14160
cgattccgat ccccagggca gtgcccgcga ttgggcggcc gtgcgggaag atcaaccgct 14220
aaccgttgtc ggcatcgacc gcccgacgat tgaccgcgac gtgaaggcca tcggccggcg 14280
cgacttcgta gtgatcgacg gagcgcccca ggcggcggac ttggctgtgt ccgcgatcaa 14340
ggcagccgac ttcgtgctga ttccggtgca gccaagccct tacgacatat gggccaccgc 14400
cgacctggtg gagctggtta agcagcgcat tgaggtcacg gatggaaggc tacaagcggc 14460
ctttgtcgtg tcgcgggcga tcaaaggcac gcgcatcggc ggtgaggttg ccgaggcgct 14520
ggccgggtac gagctgccca ttcttgagtc ccgtatcacg cagcgcgtga gctacccagg 14580
cactgccgcc gccggcacaa ccgttcttga atcagaaccc gagggcgacg ctgcccgcga 14640
ggtccaggcg ctggccgctg aaattaaatc aaaactcatt tgagttaatg aggtaaagag 14700
aaaatgagca aaagcacaaa cacgctaagt gccggccgtc cgagcgcacg cagcagcaag 14760
gctgcaacgt tggccagcct ggcagacacg ccagccatga agcgggtcaa ctttcagttg 14820
ccggcggagg atcacaccaa gctgaagatg tacgcggtac gccaaggcaa gaccattacc 14880
gagctgctat ctgaatacat cgcgcagcta ccagagtaaa tgagcaaatg aataaatgag 14940
tagatgaatt ttagcggcta aaggaggcgg catggaaaat caagaacaac caggcaccga 15000
cgccgtggaa tgccccatgt gtggaggaac gggcggttgg ccaggcgtaa gcggctgggt 15060
tgtctgccgg ccctgcaatg gcactggaac ccccaagccc gaggaatcgg cgtgacggtc 15120
gcaaaccatc cggcccggta caaatcggcg cggcgctggg tgatgacctg gtggagaagt 15180
tgaaggccgc gcaggccgcc cagcggcaac gcatcgaggc agaagcacgc cccggtgaat 15240
cgtggcaagc ggccgctgat cgaatccgca aagaatcccg gcaaccgccg gcagccggtg 15300
cgccgtcgat taggaagccg cccaagggcg acgagcaacc agattttttc gttccgatgc 15360
tctatgacgt gggcacccgc gatagtcgca gcatcatgga cgtggccgtt ttccgtctgt 15420
cgaagcgtga ccgacgagct ggcgaggtga tccgctacga gcttccagac gggcacgtag 15480
aggtttccgc agggccggcc ggcatggcca gtgtgtggga ttacgacctg gtactgatgg 15540
cggtttccca tctaaccgaa tccatgaacc gataccggga agggaaggga gacaagcccg 15600
gccgcgtgtt ccgtccacac gttgcggacg tactcaagtt ctgccggcga gccgatggcg 15660
gaaagcagaa agacgacctg gtagaaacct gcattcggtt aaacaccacg cacgttgcca 15720
tgcagcgtac gaagaaggcc aagaacggcc gcctggtgac ggtatccgag ggtgaagcct 15780
tgattagccg ctacaagatc gtaaagagcg aaaccgggcg gccggagtac atcgagatcg 15840
agctagctga ttggatgtac cgcgagatca cagaaggcaa gaacccggac gtgctgacgg 15900
ttcaccccga ttactttttg atcgatcccg gcatcggccg ttttctctac cgcctggcac 15960
gccgcgccgc aggcaaggca gaagccagat ggttgttcaa gacgatctac gaacgcagtg 16020
gcagcgccgg agagttcaag aagttctgtt tcaccgtgcg caagctgatc gggtcaaatg 16080
acctgccgga gtacgatttg aaggaggagg cggggcaggc tggcccgatc ctagtcatgc 16140
gctaccgcaa cctgatcgag ggcgaagcat ccgccggttc ctaatgtacg gagcagatgc 16200
tagggcaaat tgccctagca ggggaaaaag gtcgaaaagg tctctttcct gtggatagca 16260
cgtacattgg gaacccaaag ccgtacattg ggaaccggaa cccgtacatt gggaacccaa 16320
agccgtacat tgggaaccgg tcacacatgt aagtgactga tataaaagag aaaaaaggcg 16380
atttttccgc ctaaaactct ttaaaactta ttaaaactct taaaacccgc ctggcctgtg 16440
cataactgtc tggccagcgc acagccgaag agctgcaaaa agcgcctacc cttcggtcgc 16500
tgcgctccct acgccccgcc gcttcgcgtc ggcctatcgc ggccgctggc cgctcaaaaa 16560
tggctggcct acggccaggc aatctaccag ggcgcggaca agccgcgccg tcgccactcg 16620
accgccggcg cccacatcaa ggcaccctgc ctcgcgcgtt tcggtgatga cggtgaaaac 16680
ctctgacaca tgcagctccc ggagacggtc acagcttgtc tgtaagcgga tgccgggagc 16740
agacaagccc gtcagggcgc gtcagcgggt gttggcgggt gtcggggcgc agccatgacc 16800
cagtcacgta gcgatagcgg agtgtatact ggcttaacta tgcggcatca gagcagattg 16860
tactgagagt gcaccatatg cggtgtgaaa taccgcacag atgcgtaagg agaaaatacc 16920
gcatcaggcg ctcttccgct tcctcgctca ctgactcgct gcgctcggtc gttcggctgc 16980
ggcgagcggt atcagctcac tcaaaggcgg taatacggtt atccacagaa tcaggggata 17040
acgcaggaaa gaacatgtga gcaaaaggcc agcaaaaggc caggaaccgt aaaaaggccg 17100
cgttgctggc gtttttccat aggctccgcc cccctgacga gcatcacaaa aatcgacgct 17160
caagtcagag gtggcgaaac ccgacaggac tataaagata ccaggcgttt ccccctggaa 17220
gctccctcgt gcgctctcct gttccgaccc tgccgcttac cggatacctg tccgcctttc 17280
tcccttcggg aagcgtggcg ctttctcata gctcacgctg taggtatctc agttcggtgt 17340
aggtcgttcg ctccaagctg ggctgtgtgc acgaaccccc cgttcagccc gaccgctgcg 17400
ccttatccgg taactatcgt cttgagtcca acccggtaag acacgactta tcgccactgg 17460
cagcagccac tggtaacagg attagcagag cgaggtatgt aggcggtgct acagagttct 17520
tgaagtggtg gcctaactac ggctacacta gaaggacagt atttggtatc tgcgctctgc 17580
tgaagccagt taccttcgga aaaagagttg gtagctcttg atccggcaaa caaaccaccg 17640
ctggtagcgg tggttttttt gtttgcaagc agcagattac gcgcagaaaa aaaggatctc 17700
aagaagatcc tttgatcttt tctacggggt ctgacgctca gtggaacgaa aactcacgtt 17760
aagggatttt ggtcatgcat tctaggtact aaaacaattc atccagtaaa atataatatt 17820
ttattttctc ccaatcaggc ttgatcccca gtaagtcaaa aaatagctcg acatactgtt 17880
cttccccgat atcctccctg atcgaccgga cgcagaaggc aatgtcatac cacttgtccg 17940
ccctgccgct tctcccaaga tcaataaagc cacttacttt gccatctttc acaaagatgt 18000
tgctgtctcc caggtcgccg tgggaaaaga caagttcctc ttcgggcttt tccgtcttta 18060
aaaaatcata cagctcgcgc ggatctttaa atggagtgtc ttcttcccag ttttcgcaat 18120
ccacatcggc cagatcgtta ttcagtaagt aatccaattc ggctaagcgg ctgtctaagc 18180
tattcgtata gggacaatcc gatatgtcga tggagtgaaa gagcctgatg cactccgcat 18240
acagctcgat aatcttttca gggctttgtt catcttcata ctcttccgag caaaggacgc 18300
catcggcctc actcatgagc agattgctcc agccatcatg ccgttcaaag tgcaggacct 18360
ttggaacagg cagctttcct tccagccata gcatcatgtc cttttcccgt tccacatcat 18420
aggtggtccc tttataccgg ctgtccgtca tttttaaata taggttttca ttttctccca 18480
ccagcttata taccttagca ggagacattc cttccgtatc ttttacgcag cggtattttt 18540
cgatcagttt tttcaattcc ggtgatattc tcattttagc catttattat ttccttcctc 18600
ttttctacag tatttaaaga taccccaaga agctaattat aacaagacga actccaattc 18660
actgttcctt gcattctaaa accttaaata ccagaaaaca gctttttcaa agttgttttc 18720
aaagttggcg tataacatag tatcgacgga gccgattttg aaaccgcggt gatcacaggc 18780
agcaacgctc tgtcatcgtt acaatcaaca tgctaccctc cgcgagatca tccgtgtttc 18840
aaacccggca gcttagttgc cgttcttccg aatagcatcg gtaacatgag caaagtctgc 18900
cgccttacaa cggctctccc gctgacgccg tcccggactg atgggctgcc tgtatcgagt 18960
ggtgattttg tgccgagctg ccggtcgggg agctgttggc tggct 19005
<210>8
<211>228
<212>PRT
<213>Artificial Sequence
<400>8
Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu Arg Arg Arg
1 5 10 15
Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg Glu Leu Arg
20 25 30
Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly Arg His Ser
35 40 45
Ile Trp Arg His Thr Ser Gln Asn Thr Asn Lys His Val Glu Val Asn
50 55 60
Phe Ile Glu Lys Phe Thr Thr Glu Arg Tyr Phe Cys Pro Asn Thr Arg
65 70 75 80
Cys Ser Ile Thr Trp Phe Leu Ser Trp Ser Pro Cys Gly Glu Cys Ser
85 90 95
Arg Ala Ile Thr Glu Phe Leu Ser Arg Tyr Pro His Val Thr Leu Phe
100 105 110
Ile Tyr Ile Ala Arg Leu Tyr His His Ala Asp Pro Arg Asn Arg Gln
115 120 125
Gly Leu Arg Asp Leu Ile Ser Ser Gly Val Thr Ile Gln Ile Met Thr
130 135 140
Glu Gln Glu Ser Gly Tyr Cys Trp Arg Asn Phe Val Asn Tyr Ser Pro
145 150 155 160
Ser Asn Glu Ala His Trp Pro Arg Tyr Pro His Leu Trp Val Arg Leu
165 170 175
Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro Pro Cys Leu
180 185 190
Asn Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe Thr Ile Ala
195 200 205
Leu Gln Ser Cys His Tyr Gln Arg Leu Pro Pro His Ile Leu Trp Ala
210 215 220
Thr Gly Leu Lys
225
<210>9
<211>83
<212>PRT
<213>Artificial Sequence
<400>9
Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu Val
1 5 10 15
Ile Gln Glu Ser Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val Ile
20 25 30
Gly Asn Lys Pro Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp Glu
35 40 45
Ser Thr Asp Glu Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu Tyr
50 55 60
Lys Pro Trp Ala Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys Ile
65 70 75 80
Lys Met Leu
<210>10
<211>61
<212>PRT
<213>Artificial Sequence
<400>10
Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp His Asp Ile Asp Tyr
1 5 10 15
Lys Asp Asp Asp Asp Lys Met Ala Pro Lys Lys Lys Arg Lys Val Gly
20 25 30
Gly Ser Pro Lys Lys Lys Arg Lys Val Gly Gly Ser Pro Lys Lys Lys
35 40 45
Arg Lys Val Gly Gly Ser Pro Lys Lys Lys Arg Lys Val
50 55 60
<210>10
<211>37
<212>PRT
<213>Artificial Sequence
<400>10
Pro Lys Lys Lys Arg Lys Val Gly Gly Ser Pro Lys Lys Lys Arg Lys
1 5 10 15
Val Gly Gly Ser Pro Lys Lys Lys Arg Lys Val Gly Gly Ser Pro Lys
20 25 30
Lys Lys Arg Lys Val
35

Claims (4)

1.一种水稻基因组靶点序列的编辑方法或提高水稻或水稻细胞基因组靶点序列的编辑效率的方法或拓展水稻或水稻细胞基因组靶点序列的可编辑碱基范围的方法,包括如下步骤:使水稻或水稻细胞内表达核定位信号甲、核定位信号乙、sgRNA、Cas9n核酸酶、脱氨酶和UGI蛋白质;
所述核定位信号甲的氨基酸序列如序列10所示;
所述核定位信号乙的氨基酸序列如序列11所示;
所述sgRNA靶向靶点序列;所述sgRNA结构如下:所述靶点序列转录的RNA-esgRNA骨架或tRNA-所述靶点序列转录的RNA-esgRNA骨架;
所述esgRNA骨架为将序列1第617-702位中的T替换为U得到的RNA分子;
所述tRNA为将序列7第474-550位中的T替换为U得到的RNA分子;
所述Cas9n核酸酶的氨基酸序列如序列4所示;
所述脱氨酶为腺嘌呤脱氨酶或胞嘧啶脱氨酶;
所述腺嘌呤脱氨酶为ecTadA蛋白质和/或ecTadA*蛋白质;
所述胞嘧啶脱氨酶为rAPOBEC1蛋白质;
所述ecTadA蛋白质的氨基酸序列如序列2所示;
所述ecTadA*蛋白质的氨基酸序列如序列3所示;
所述rAPOBEC1蛋白质的氨基酸序列如序列8所示;
所述UGI蛋白质的氨基酸序列如序列9所示;
所述核定位信号甲、所述核定位信号乙、所述sgRNA、所述Cas9n核酸酶、所述脱氨酶和所述UGI蛋白质通过重组表达载体导入水稻或水稻细胞;
所述重组表达载体包括依次由启动子、所述核定位信号甲的编码基因、所述腺嘌呤脱氨酶ecTadA的编码基因、所述腺嘌呤脱氨酶ecTadA*的编码基因、所述Cas9n核酸酶的编码基因、所述核定位信号乙的编码基因和终止子组成的表达盒或依次由启动子、所述核定位信号甲的编码基因、所述胞嘧啶脱氨酶rAPOBEC1的编码基因、所述Cas9n核酸酶的编码基因、所述UGI蛋白质的编码基因、所述UGI蛋白质的编码基因、所述核定位信号乙的编码基因和终止子组成的表达盒。
2.根据权利要求1所述的方法,其特征在于:所述靶点序列的编辑为碱基A突变为碱基G或碱基C突变为碱基T。
3.根据权利要求1所述的方法,其特征在于:所述可编辑范围为可编辑的碱基A的范围。
4.一种水稻突变体的制备方法,包括如下步骤:按照权利要求1-3任一所述的方法对水稻基因组进行编辑,获得水稻突变体。
CN201911323222.6A 2019-12-20 2019-12-20 一种核定位信号f4nls及其在提高碱基编辑效率与拓展可编辑碱基范围中的应用 Active CN110951736B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911323222.6A CN110951736B (zh) 2019-12-20 2019-12-20 一种核定位信号f4nls及其在提高碱基编辑效率与拓展可编辑碱基范围中的应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911323222.6A CN110951736B (zh) 2019-12-20 2019-12-20 一种核定位信号f4nls及其在提高碱基编辑效率与拓展可编辑碱基范围中的应用

Publications (2)

Publication Number Publication Date
CN110951736A CN110951736A (zh) 2020-04-03
CN110951736B true CN110951736B (zh) 2023-03-14

Family

ID=69983105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911323222.6A Active CN110951736B (zh) 2019-12-20 2019-12-20 一种核定位信号f4nls及其在提高碱基编辑效率与拓展可编辑碱基范围中的应用

Country Status (1)

Country Link
CN (1) CN110951736B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114317589B (zh) * 2020-09-30 2024-01-16 北京市农林科学院 SpRYn-ABE碱基编辑系统在植物基因组碱基替换中的应用
CN114317596B (zh) * 2020-09-30 2024-01-16 北京市农林科学院 一种将植物基因组靶点序列中的a突变为g的方法
CN114317518B (zh) * 2020-09-30 2024-01-12 北京市农林科学院 SpRYn-CBE碱基编辑系统在植物基因组碱基替换中的应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108513575A (zh) * 2015-10-23 2018-09-07 哈佛大学的校长及成员们 核碱基编辑器及其用途
CN110029096A (zh) * 2019-05-09 2019-07-19 上海科技大学 一种腺嘌呤碱基编辑工具及其用途
CN110564752A (zh) * 2019-09-30 2019-12-13 北京市农林科学院 差异代理技术在c·t碱基替换细胞富集中的应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108513575A (zh) * 2015-10-23 2018-09-07 哈佛大学的校长及成员们 核碱基编辑器及其用途
CN110029096A (zh) * 2019-05-09 2019-07-19 上海科技大学 一种腺嘌呤碱基编辑工具及其用途
CN110564752A (zh) * 2019-09-30 2019-12-13 北京市农林科学院 差异代理技术在c·t碱基替换细胞富集中的应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Expanded base editing in rice and wheat using a Cas9-adenosine deaminase fusion;Chao Li等;《Genome Biology 》;20181231;第19卷;1-9 *
FLAG标签和3xFLAG标签的序列;Novopro;《https://www.novopro.cn/articles/201705091149.html》;20170509;1 *

Also Published As

Publication number Publication date
CN110951736A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN110951736B (zh) 一种核定位信号f4nls及其在提高碱基编辑效率与拓展可编辑碱基范围中的应用
CN101889088B (zh) 从植物基因组中切除核酸序列的方法
CN112852791B (zh) 腺嘌呤碱基编辑器及其相关生物材料与应用
CN111394369B (zh) 抗草甘膦epsps突变基因、含有该基因的植物遗传转化筛选载体及其应用
CN111378679B (zh) 一种基因表达组件及其构建的克隆载体和应用
CN113584074B (zh) 假重组嵌合黄瓜花叶病毒介导的基因沉默系统及其应用
CN107326043B (zh) 一种多功能载体的构建及使用方法
CN107208112A (zh) 用于预防或降低细菌和真菌病原体对作物植物的感染的方法和组合物
CN110964742B (zh) 一种抗除草剂水稻的制备方法
CN110951773B (zh) FNLS-sABE系统在创制水稻除草剂抗性材料中的应用
CN112280799B (zh) 利用CRISPR/Cas9系统对橡胶草或蒲公英基因定点突变的方法
CN110982818B (zh) 核定位信号f4nls在高效创制水稻除草剂抗性材料中的应用
CN110964741B (zh) 一种核定位信号fnb及其在提高碱基编辑效率中的应用
CN101892259B (zh) 一种siRNA植物基因表达载体及其构建方法和应用
US6218145B1 (en) Bacterial expression systems based on plastic or mitochondrial promoter combinations
CN112538477B (zh) xCas9基因编辑系统在基因组编辑中的应用
CN113355352B (zh) 一种以太子参TuMV-phe病毒基因为基础修饰改造病毒表达载体的方法
KR102281973B1 (ko) 식물에 대한 폴리시스트론 발현 시스템
CN107988226A (zh) 一种水稻愈伤组织特异高表达启动子的鉴定及应用
CN111961126B (zh) TaVQ25基因在调控小麦对白粉病和纹枯病抗性中的应用
KR20190014447A (ko) 코마가타에이 속 재조합 미생물, 그를 이용하여 셀룰로스를 생산하는 방법 및 상기 미생물을 생산하는 방법
CN114990149B (zh) 一种用于对目标基因无痕编辑的载体及其构建与应用
KR20230158660A (ko) 유도성 모자이크 현상
CN116103329A (zh) 一种基于gms2基因建立的农作物遗传智能化育制种系统及其应用
CN113564177B (zh) 通过CRISPR/Cas9技术调控小麦ARE1基因提高作物产量的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant