CN1836047A - 在植物中生产胰岛素的方法 - Google Patents

在植物中生产胰岛素的方法 Download PDF

Info

Publication number
CN1836047A
CN1836047A CNA2004800236023A CN200480023602A CN1836047A CN 1836047 A CN1836047 A CN 1836047A CN A2004800236023 A CNA2004800236023 A CN A2004800236023A CN 200480023602 A CN200480023602 A CN 200480023602A CN 1836047 A CN1836047 A CN 1836047A
Authority
CN
China
Prior art keywords
leu
gly
insulin
cys
glu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004800236023A
Other languages
English (en)
Other versions
CN1836047B (zh
Inventor
莫里斯·M.·莫洛尼
约瑟夫·布斯
理查德·基翁
科里·尼斯弗鲁克
吉杰斯·范鲁伊杰恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SemBioSys Genetics Inc
Original Assignee
SemBioSys Genetics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SemBioSys Genetics Inc filed Critical SemBioSys Genetics Inc
Publication of CN1836047A publication Critical patent/CN1836047A/zh
Application granted granted Critical
Publication of CN1836047B publication Critical patent/CN1836047B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/575Hormones
    • C07K14/62Insulins
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01HNEW PLANTS OR NON-TRANSGENIC PROCESSES FOR OBTAINING THEM; PLANT REPRODUCTION BY TISSUE CULTURE TECHNIQUES
    • A01H1/00Processes for modifying genotypes ; Plants characterised by associated natural traits
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8241Phenotypically and genetically modified plants via recombinant DNA technology
    • C12N15/8242Phenotypically and genetically modified plants via recombinant DNA technology with non-agronomic quality (output) traits, e.g. for industrial processing; Value added, non-agronomic traits
    • C12N15/8257Phenotypically and genetically modified plants via recombinant DNA technology with non-agronomic quality (output) traits, e.g. for industrial processing; Value added, non-agronomic traits for the production of primary gene products, e.g. pharmaceutical products, interferon

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Biochemistry (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Toxicology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Plant Pathology (AREA)
  • Endocrinology (AREA)
  • Physics & Mathematics (AREA)
  • Cell Biology (AREA)
  • Diabetes (AREA)
  • Microbiology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Botany (AREA)
  • Developmental Biology & Embryology (AREA)
  • Environmental Sciences (AREA)
  • Breeding Of Plants And Reproduction By Means Of Culturing (AREA)
  • Peptides Or Proteins (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

本发明描述了在植物内生产胰岛素的方法。在一个实施方案中,本发明提供了在植物内表达胰岛素的方法,包括:(a)提供嵌合核酸构建体,其在5’至3’的转录方向包括可操纵连接的下列组分:(i)可在植细胞内控制表达的核酸序列;和(ii)编码胰岛素多肽的核酸序列;(b)把嵌合核酸构建体导入植物细胞内;以及(c)令植物细胞成长为成熟植物,可结种子,其中种子表达胰岛素。

Description

在植物中生产胰岛素的方法
发明领域
本发明涉及植物基因工程方法及胰岛素的生产。更具体地,本发明涉及在植物种子内生产胰岛素的方法。
背景技术
胰岛素是维持哺乳动物,包含人类,和其它脊椎动物体内血液葡萄糖体内稳态所需的重要肽激素。在健康的个体中,血液葡萄糖水准上升会刺激胰脏的β细胞分泌胰岛素。然后胰岛素多肽结合肌肉、肝脏、脂肪组织内的特异受体,导致这些靶组织的葡萄糖摄取量增加,新陈代谢提高,肝葡萄糖生产降低。这些反应的累积效果保持血液葡萄糖浓度在一恒定水平。
在患糖尿病的个体中,胰岛素浓度异常低,本身呈现慢性高血糖。慢性高血糖的临床表现多样,包含目盲、肾衰竭,如不治疗,最终导致死亡。估计在工业化国家,糖尿病在第三大死亡原因,在心血管疾病和癌症之后(Barfoed H.C.,1987,Chem.Eng.Prog.83:49-54)。为使血液葡萄糖被细胞有效摄取和新陈代谢,糖尿病患者可以通过例行施用胰岛素来治疗。世界人口大约0.7%患有胰岛素依赖性糖尿病(I型糖尿病)(Winter J.等人,2000,J.of Biotechnol.84:175-185)。此外,估计未来25年中诊断出糖尿病的患者数将倍增至约3亿(Kjeldsen T.等人,2001,Biotechnol.Gen.Eng.Rev.18:89-121)。因此,亟需有能力以成本有效性方式大量制造人胰岛素,以满足预见成长中的全球胰岛素需要。
体内人胰岛素多肽是利用胰β-细胞生产,形成单一110个氨基酸的多肽链前体,即前胰岛素原,其在N-末端位置包括24个氨基酸的前序列,在链生物合成完成时被立刻切除(Steiner,D.F.2000,J.Ped.Endocrinol.Metab,13:229-239)。胰岛素原是由B链和A链组成,其由连接肽(C-肽)连接。激素包装分泌过程中,C-肽被激素原转化酶PC2和PC1/PC3裂解去除(Steiner,D.F.2000,J.Ped.Endocrinol.Metab.13:229-239)。遗留的是成熟的人胰岛素,51个氨基酸的蛋白质,其由二种多肽链组成,A(长度为21个氨基酸)和B(长度为30个氨基酸),通过二个链间二硫键连接。此外,A链包括一个链内二硫键。
人胰岛素可使用多种不同的方法制备。通常使用微生物,如大肠杆菌(Escherichia coli)(Frank等人,1981,Peptides:Proceedings of7th American Peptide Chemistry Symposium(Rich &Gross,eds),PierceChemical Co.,Rockford,Ill.729-739页;Chan等人,1981,Proc.Natl.Acad.Sci.USA 78:5401-5404)、酿酒母菌(Saccharomyces cerevisiae)(Thim等人,1986,Proc.Natl.Acad.Sci.USA 83:6766-6770)重组生产胰岛素。Wang等人(Biotechnol.Bioeng.,2001,73:74-79)已示出真菌,如巴斯德毕赤酵母(Pichia pastoris),亦可适用于胰岛素生产。其它制法选项包扩在非人类哺乳动物细胞系内生产(Yanagita,M等人,1992,FEBS lett 311:55-59),从人体胰脏分离、肽合成,或由猪和牛胰岛素半合成转化成人胰岛素。然而,所有这些方法均比希望的产率要低且成本高。
使用植物作为生物反应器大量生产重组蛋白质是公知的,并已生产过多种蛋白质,包扩人体治疗用蛋白质。例如,美国专利4,956,282,5,550,038和5,629,175揭示在植物内生产γ-干扰素;美国专利5,650,307,5,716,802和5,763,748揭示在植物内生产人血清白蛋白;而美国专利5,202,422,5,639,947和5,959,177涉及在植物内生产抗体。基于植物的重组蛋白质生产系统提供的一个显著优点是通过提高植物生长的土地面积,蛋白质生产可廉价地扩大规模到提供大量蛋白质。反之,发酵和细胞培养系统需要大的空间、设备和能量需求,使大规模生产的成本高。然而,尽管事实上使用植物为生物反应器被大量报道,且尽管上述预期的巨大增加的大量胰岛素需求,现有技术只提供了有限数目的方法证明在植物内生产胰岛素(参见Arakawa等人,Nature Biotech,1998,16:934-938;PCT 01/72959)。
Arakawa等人揭示融合蛋白质的生产,包括在转基因马铃薯植物的块茎内生产胰岛素。然而,胰岛素仅代表转基因块茎内存在的总可溶性蛋白质含量的直至0.05%而已。在总可溶性蛋白质的0.05%水平,大量的生物量必须进行蛋白质提取,致使与使用马铃薯块茎相关的生产从经济上不利。此外,Arakawa等人不涉及从马铃薯块茎组织中分离胰岛素,但提议了通过诱导免疫耐受防止I型糖尿病发作的方法,其包括通过喂转基因马铃薯块茎以口服胰岛素。
PCT专利申请WO01/72959揭示了融合蛋白质的生产,包括在转基因烟草的叶绿体中生产胰岛素。然而,虽然存在有关人蛋白质在植物组织内累积水平的缺点,但WO01/72959的发明仅限于在叶绿体内生产而造成在绿色组织,主要是烟叶中累积胰岛素。由于绿色组织相对高的含水量,因此必须处理大量的生物量。此外,生产胰岛素需在收获时立即从生物量提取,因为叶物质在储存时很快变质。
因此,鉴于现有技术所提供的与在植物内重组生产胰岛素的方法相关的缺点,目前尚未明了是否可以及如何利用植物的合成能力实现在植物内商业化生产胰岛素。本领域亟需改进在植物内商业化生产胰岛素的方法。
发明简述
本发明涉及在植物内生产胰岛素的改良方法。具体地,本发明涉及在种子内生产胰岛素的方法。
因此,本发明提供了在植物内表达胰岛素的方法,包括:
(a)提供嵌合核酸构建体,在5’至3’转录方向包括可操纵连接的如下组分:
(i)在植物种子细胞内可控制表达的核酸序列;及
(ii)编码胰岛素多肽的核酸序列;
(b)把嵌合核酸构建体导入植物细胞内:以及
(c)令植物细胞成长为成熟植物,其可结种子,其中种子表达胰岛素。
在本发明的一个优选实施方案中,可在植物种子细胞内控制表达的核酸序列是种子偏好启动子,如菜豆蛋白启动子。
在本发明的一个优选实施方案中,胰岛素以可以在种子细胞内膜包围的细胞内区室(membrane enclosed intracellular compartment)内累积胰岛素多肽的方式表达。因此,本发明提供了在植物内表达胰岛素的方法,所述方法包括:
(a)提供嵌合核酸构建体,在5’至3’转录方向包括下列可操纵连接的组分:
(i)可在植物种子细胞内控制表达的核酸序列;和
(ii)编码胰岛素多肽的核酸序列:和
(iii)编码可将胰岛素多肽保持在膜包围的细胞内区室的多肽的核酸序列;
(b)把嵌合核酸构建体导入植物细胞内;以及
(c)令植物细胞成长为成熟植物,其可结种子,其中种子表达胰岛素。
在本发明又一优选的实施方案中,膜包围的细胞内区室是内质网(ER)或ER衍生的储存小泡。因此,本发明提供了在植物内表达胰岛素的方法,所述方法包括:
(a)提供嵌合核酸构建体,在5’至3’转录方向包括下列可操纵连接的组分:
(i)可在植物种子细胞内控制表达的核酸序列;及
(ii)编码胰岛素多肽的核酸序列;
(iii)编码可将胰岛素多肽保持在ER或ER衍生的储存小泡内的多肽的核酸序列;
(b)把嵌合核酸构建体导入植物细胞内;以及
(c)令植物细胞成长为成熟植物,其可结种子,其中种子表达胰岛素。
在又一优选的实施方案中,在核基因组整合条件下,把嵌合核酸构建体导入植物细胞内。在如此条件下,嵌合核酸序列稳定地整合进植物基因组内。
在另一优选的实施方案中,编码胰岛素的核酸序列根据植物密码子使用表对进行优化并将编码连接肽(C-肽)的核酸序列缩短。本发明所用优选的核酸序列编码人、牛或猪胰岛素。按照本发明,使用编码胰岛素原序列的核酸序列,其中胰岛素原经修饰,把C-肽长度缩短。
在另一方面,本发明提供了包括胰岛素的植物种子的回收方法。因此,本发明提供了一种获得包括胰岛素的植物种子的方法,包括:
(a)提供嵌合核酸构建体,在5’至3’转录方向包括下列可操纵连接的组分:
(i)可在植物种子细胞内控制表达的核酸序列;和
(ii)编码胰岛素多肽的核酸序列;
(b)把嵌合核酸构建体导入植物细胞内;
(c)令植物细胞成长为成熟植物,其可结种子;以及
(d)从所述植物获得种子,其中种子包括胰岛素。
优选种子内存在的全部种子蛋白质的至少0.1%为胰岛素。
种子可用来获得子代植物群,其中每个都包括表达胰岛素的多个种子。
本发明还提供了可结表达胰岛素的种子的植物。在本发明一个优选实施方案中,可结种子的植物包括嵌合核酸序列,其在5’至3’转录方向包括:
(a)可在植物种子细胞内控制表达的第一核酸序列,其可操纵的连接于;
(b)编码胰岛素多肽的第二核酸序列,其中种子含有胰岛素。
优选地,种子内存在的全部种子蛋白质的至少0.1%是胰岛素。
在一个优选的实施方案中,嵌合核酸序列整合于植物核基因组内。
在本发明另一优选实施方案中,使用植物为红花,亚麻植物或芥属(Arabidopsis)植物。
在另一方面,本发明提供了表达胰岛素的植物种子。在本发明一个优选的实施方案中,植物种子包括嵌合核酸序列,在5’至3’转录方向包括:
(a)可在植物种子细胞内控制表达的第一核酸序列,其可操纵的连接于;
(b)编码胰岛素多肽的第二核酸序列。
优选地,种子内存在的全部种子蛋白质的至少0.1%是胰岛素。种子是利用种子细胞合成所需胰岛素多肽的来源,其可经提取,而且胰岛素可用来治疗糖尿病患者。
本发明的其它特征和优点通过下列详述可容易明白。然而,应理解表示本发明优选实施方案的详细说明和特定实施例仅是为了阐明本发明,因此通过改详细说明,本领域技术人员可以容易地知道在本发明精神和范围内的多种变化和修饰。
附图说明
本发明通过附图描述,其中:
图1表示pSBS4404的胰岛素融合蛋白(PRS-D9scFv-Klip27-MI-KDEL)的核苷酸序列(SEQ ID NO:1)和推定的氨基酸序列(SEQ ID NO:2)。预期的氨基酸序列用单字母符号表示。PRS信号肽的推定氨基酸序列用斜体字,而D9scFv的推定氨基酸序列用黑体字,KLIP27序列的推定氨基酸序列下划线,微型胰岛素(mini-insulin)序列的推定氨基酸序列用斜黑体字,最后KDEL序列用黑体下划线。
图2表示pSBS4405胰岛素融合蛋白质(OLEO-KLIP8-KLIP27-MI)的核苷酸序列(SEQ ID NO:3)和推定的氨基酸序列(SEQ ID NO:4)。预期的氨基酸序列用单字母符号表示。拟南芥(Arabidopsis thaliana)18kDa油质蛋白的推定氨基酸是斜体字,KLIP8序列的推定氨基酸序列用黑体,KLIP27序列的推定氨基酸序列下划线,而微型胰岛素的推定氨基酸序列用斜黑体。
图3表示4414胰岛素融合蛋白(PRS-MI-四元(tetrabasic)接头-D9Scfv-KDEL)的完整核酸序列(SEQ ID NO:5)和氨基酸序列(SEQID NO:6)。预期氨基酸序列以单字母符号表示。PRS信号肽的推定氨基酸序列用斜体,微型胰岛素(B30四元)的推定氨基酸序列用黑体,四元接头序列的推定氨基酸序列下划线,D9scFv的推定氨基酸序列用斜黑体,最后KDEL序列用黑体下划线。
图4(A-D)表示根据考马斯染色SDS-PAGE和蛋白质印迹分析胰岛素融合蛋白在转化的拟南芥(4404-2、-17、-20和4405-4)品系中的重组表达。箭头分别指在还原条件下,38.5kDa和34.2kDa融合多肽、PRS-D9(scfv)-KLIP27-MIw/KDEL和OLEO-KLIP8-KLIP27-MI的迁移位置。图4A(考马斯染色凝胶)和4B(相当于以抗胰岛素E2E3探测的蛋白质印迹)表示来自野生型(wt)的总种子蛋白质以及表达4404和4405构建体的转基因种子品系。图4B(考马斯染色凝胶)和4D(相当于以抗胰岛素E2E3探测的蛋白质印迹)表示由野生型制备的油体蛋白质以及表达同样4404和4405构建体的转基因种子。图4(E-F)表示根据考马斯染色SDS-PAGE和蛋白质印迹分析,胰岛素融合蛋白在转化的拟南芥品系(4419-9和4414-20)中的重组表达。分子量标记(M)为10,15,25,37,50,75,100,150kDa。对照包扩hIN(重组人胰岛素标准)和hProIN(重组人胰岛素原标准),在非还原条件下分离。
图5表示在可得到的T3种子品系(4404-2、-17、-20,4405-4、-13、-19)和T2种子品系(4414-9和-20)中测定的表达水平。转基因水平和%摩尔MI表达根据光密度测定法测定。
图6表示考马斯染色SDS-PAGE(15%)分析洗脱前的油体制备物(-OB)、用甲酸洗脱后的OB制备物(-OB’),以及浓缩的洗脱物质(-E)。箭头指融合多肽的迁移位置。野生型对照基本上在洗脱后不含任何主要蛋白质,而浓缩的4404物质含有融合蛋白,某些截短产物(可能是水解的融合蛋白)以及可能有共同洗脱的一些白蛋白。
图7表示层析谱,显示与在C18柱上胰蛋白酶裂解的洗脱4404融合蛋白相比,人胰岛素标准的特征性住留时间。hIN标准是重组人胰岛素标准(0.5μg)。
图8表示人胰岛素标准(A)的质谱分析,与从17.0-17.5分钟所集的胰蛋白酶裂解和HPLC纯化的4404(B)级分比较。
图9表示总可提取种子蛋白质和表达4405的品系的油体(OB)制备蛋白质的考马斯染色SDS-PAGE(15%)分析,与野生型(非重组)种子比较。箭头指示融合多肽的迁移位置。
图10表示层析谱,显示人胰岛素标准的特征性住留时间,与胰蛋白酶裂解的、在C18柱上通过RP-HPLC制备的4405OB制备物比较。hIN标准是重组人胰岛素标准(0.5μg)。
图11表示人胰岛素标准(A)的质谱分析,与从17.0-17.5分钟收集的胰蛋白酶裂解和HPLC纯化的4405(B)级分比较。
图12表示胰蛋白酶裂解的4405油体制备物(虚线)的层析谱,与人胰岛素标准(实线)比较。在7-35mS/cm间收集洗脱的裂解的胰岛素级分并利通过冷冻干燥浓缩以供胰岛素生物分析。
图13表示B6雄鼠在注射负对照(空白圆形=生理盐水安慰剂,实心圆形=胰蛋白酶裂解的野生型油体),正对照(空白方形=Humulin R,空白三角形=Roche hIN)后的血清葡萄糖水平变化,与从4405油体(实心菱形=SBS hIN DesB30)制备的植物衍生胰岛素比较。
图14表示二种代表性品系(4409-6和4409-8)的油体蛋白质的考马斯染色凝胶,比较油质蛋白-hPIN融合蛋白(黑色箭头所示)与非转化(wt)芥的迁移。表达水平通过光密度测定法测量,测得平均为总种子蛋白质的约0.10%。此水平计算如上,并超出非转化种子(wt)内、构成总种子蛋白约0.04%的同样分子量的内源蛋白质的共同迁移。
发明详述
如上所述,本发明涉及在转基因植物中生产胰岛素的改良方法。本发明人等意外发现通过在植物种子内以重组方式生产胰岛素可在植物内使胰岛素累积水平超过全部细胞蛋白质的0.1%。此等表达水平比以前所达到的高至少10倍,使胰岛素在植物内的商业化生产成为可行。在种子内生产提供了把胰岛素做为原始物质储藏和运输的可行性,因为胰岛素保有从储藏种子提取时的活性。此外,需经提取的生物量数量有限,因植物种子内存在的水含量相对低。
因此,本发明提供了在种子内表达胰岛素的方法,所述方法包括:
(a)提供嵌合核酸构建体,在5’至3’转录方向包括下列可操纵连接的组分:
(i)可在植物种子细胞内控制表达的核酸序列;和
(ii)编码胰岛素多肽的核酸序列;
(b)把嵌合核酸构建体导入植物细胞内;以及
(c)令植物细胞成长为成熟植物,其可结种子,其中种子表达胰岛素。
按照本发明,意外发现如果以在允许胰岛素多肽在种子细胞内被隔离(sequestration)在膜包围的细胞内区室中的方式在种子内表达胰岛素,则胰岛素在植物种子内累积的水平可以达到以前未达到的水平。因此,本发明提供了在植物内表达胰岛素的优选方法,所述方法包括:
(a)提供嵌合核酸构建体,在5’至3’转录方向包括下列可操纵连接的组分:
(i)可在植物种子细胞内控制表达的启动子;及
(ii)编码胰岛素多肽的核酸序列:
(iii)编码可将胰岛素多肽保持在膜包围的细胞内区室里的多肽的核酸序列;
(b)把嵌合核酸构建体导入植物细胞内;以及
(c)令植物细胞成长为成熟植物,其可结种子,其中种子表达胰岛素。
术语和定义
除非另有定义,本文所用全部技术和科学术语应具有本发明所属技术领域的技术人员通常所知的同样意义。如果容许,凡专利、专利申请案、专利公告,及其他出版物,含有来自GenBank、SwissPro及本申请参考的数据库的核酸和多肽序列,均全部在此并入参考。
本文所用“核酸序列”指核苷或核苷酸单体的序列,这些核苷或核苷酸单体由天然存在的碱基、糖或糖间(intersugar)(骨架)键组成。此术语亦包含修饰或被取代的序列,其包括非天然存在的单体或其部分。本发明核酸序列可为脱氧核糖核酸序列(DNA)或核糖核酸(RNA),并可包括天然存在的碱基,包括腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶和尿嘧啶。所述序列亦可含有修饰的碱基。该修饰碱基的例子包括氮杂(aza)和脱氮(deaza)腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶和尿嘧啶,以及黄嘌呤和次黄嘌呤。
术语“编码胰岛素的核酸序列”和“编码胰岛素多肽的核酸序列”在此可以互换使用,是指编码胰岛素多肽的任何和全部核酸序列和编码胰岛素原和前胰岛素原的任何核酸序列,所述胰岛素多肽包括表1内所列胰岛素多肽(SEQ ID No:7-145)以及任何哺乳动物胰岛素多肽。本文所用“胰岛素原”指包括连接肽或“C-肽”连接B和A胰岛素多肽链的胰岛素多肽。在天然人胰岛素中,C-肽是31个氨基酸残基的多肽链,残基B30连接到残基A1。术语“前胰岛素原”指胰岛素原分子,其另外包括N-末端信号序列,其指导在ER核糖体发生的翻译。编码胰岛素多肽的核酸序列又包括任何和全部下列核酸序列:(i)编码与上述胰岛素多肽序列基本上一致的多肽的序列;或(ii)在至少中度严格杂交条件下与上述任何核酸序列杂交、或在至少中度严格条件下与其杂交但使用同义密码子的序列。
术语“基本上一致”指两个多肽序列优选至少75%一致,更优选至少85%一致,及最优选至少95%一致,例如96%、97%、98%或99%一致。为确定两个多肽序列间一致性百分比,将这两个序列的氨基酸序列排列对比,优选使用Clustal W算法(Thompson,J.D.,Higgins DG,Gibson TJ,1994,Nucleic Acids Res.22(22):4673-4680),以及BLOSUM 62评分矩阵(Henikoff S.和Henikoff J.G,1992,Proc.Natl.Acad.Sci.USA 89:10915-10919),以及缺口罚值10和缺口延伸罚值0.1,以便在两个序列间得到最高阶匹配,其中序列之一的总长的至少50%参与对比。可用来序列对比的其它方法是Needleman和Wunsch对比法(J.Mol.Biol.,1970,48:443),由Smith和Waterman加以修正(Adv.Appl.Math.,1981,2:482),故在二序列间可得最高阶匹配,而且确定了两个序列间一致的氨基酸数。计算两个氨基酸序列间百分比一致性的其它算法是一般技术所知,包括例如Carillo和Lipton所述(SIAM J.Applied Math.,1988,48:1073)以及在Computational Molecular Biology,lesk,e.d.Oxford University Press,New Nork,1988,Biocomputing:Informations and Genomics Projects。一般而言,此等计算采用计算机程序。在此方面可用的计算机程序包括但不限于GCG(Devereux等人,Nucleic Acids Res.,1984,12:387)BLASTP、BLASTN和FASTA(Altschul等人,J.Molec.Biol.,1990,215:403)。
“至少中度严格杂交条件”指选择的条件促进两个互补核酸序列在溶液中选择性杂交。杂交可发生于核酸序列分子全部或部分。杂交部分典型上长度至少为15(例如20、25、30、40或50)个核苷酸。本领域技术人员均知核酸双链体或杂种的稳定性通过Tm确定,在含钠缓冲液内是钠离子浓度和温度的函数(Tm=81.5℃-16.6(log10[Na+]+0.41(%(G+C)-600/1),或类似方程式)。因此,在洗涤条件下决定杂种稳定性的参数是钠离子浓度和温度。为鉴定与已知核酸分子类似但不一致的分子,可假设1%误配导致Tm会降约1℃,例如如果找寻的核酸分子有>95%一致性,最后洗涤温度会降约5℃。基于如此考量,本领域技术人员能够轻易选择适当的杂交条件。在优选实施方案中,选用严格杂交条件。举例而言,可采用下列条件达成严格杂交:根据上述方程式,在Tm-5℃,于5×氯化钠/柠檬酸钠(SSC)/5×Denhardt’s溶液/1.0%SDS杂交,接着在60℃,利用0.2×SSC/0.1%SDS中洗。中度严格杂交条件包括在42℃的3×SSC中的洗涤步骤。然而,须知使用其它缓冲液、盐和温度,可实现同等的严格性。有关杂交条件的其它指导可参见:Current Protocols in Molecular Biology,JohnWiley & Sons,N.Y.,1989,6.3.1-6.3.6以及Sambrook等人,MolecularCloning,a Laboratory Manual,Cold Spring Harbor Laboratory Press,1989,第3卷。
本文所用术语“胰岛素”和“胰岛素多肽”可互换使用,指包括表1内所列胰岛素多肽(SEQ ID NO:7-145)在内的任何和全部胰岛素多肽,也指的是包括如下所述的氨基酸残基序列的多肽分子,所述氨基酸残基序列(i)与构成上述任何胰岛素多肽的氨基酸序列基本上一致,或(ii)由一种核酸序列编码,该核酸序列在至少中度严格条件下能够与编码在此所述的胰岛素的任何核酸序列杂交,或在至少中度严格条件下能够与编码在此所述的胰岛素、但使用了同义密码子的核酸序列杂交。术语胰岛素和胰岛素多肽包括胰岛素原多肽和微型胰岛素多肽。胰岛素多肽优选是人、猪或牛来源。
术语“可保持胰岛素多肽于膜包围的细胞内区室中的多肽”用来指当与胰岛素多肽连接时,可将胰岛素多肽隔离在膜包围的并且位于植物细胞的细胞内空间、由植物细胞质膜所界定的亚细胞结构中的任何多肽。
术语“可保持胰岛素多肽于ER或ER衍生储存小泡内的多肽”,用来指当与胰岛素多肽连接时,可将胰岛素多肽隔离于内质网或在内质网所衍生的储存区室如植物细胞内的油体中的任何多肽。
本文所用术语“油体”指植物种子细胞中的任何油或脂肪储存细胞器(例如Huang(1992)Ann.Rev.Plant Mol.Biol.43:177-200所述)。
在核酸序列中所用术语“嵌合”指非天然连接的至少两个连接的核酸序列。嵌合核酸序列包含不同天然来源的连接的核酸序列。例如,构成连接于编码人胰岛素的核酸序列的植物启动子的核酸序列可视为嵌合的。嵌合核酸序列亦可包括同样天然来源的核酸序列,条件是它们天然不连接。例如,构成由特殊细胞类型所得启动子的核酸序列可与编码从同样细胞类型所得多肽的核酸序列连接,但通常其不与构成该启动子的核酸序列连接。嵌合核酸序列亦包括这样的核酸序列,其包括与任何非天然存在的核酸序列连接的天然存在的核酸序列。制备包含编码胰岛素的嵌合核酸序列和能够在植物种子细胞中控制表达的启动子的重组表达载体
本发明方法和组成物可用的编码胰岛素的核酸序列可为编码胰岛素多肽的任何核酸序列,所述胰岛素多肽包括任何胰岛素原和前胰岛素原。
本领域熟知编码胰岛素的核酸序列的例子,一般从多种哺乳动物来源中可轻易取得,包括人(Bell,G.I.等人,1980,Nature 284:26-32)、猪(Chance,R.E.等人,1968,Science 161:165-167)、牛(D’Agostino,J.等人,1987,Mol.Endocrinol,1:327-331)、羊(Peterson,J.D.等人,1972,Biol.Chem.247:4866-4871)等,以及从植物来源获得(Oliveira,A.E.A.等人,1999,Protein Pept.Lett.6:15-21)。可用的胰岛素编码序列包括编码SEQ ID NO:7至SEQ ID NO:145所示多肽链的序列。编码胰岛素多肽链的各相对应核酸序列可经由表1所提供SwissProtein识别号码轻易识别。使用这些核酸序列,使用本领域技术人员已知的技术可以鉴别其它的新胰岛素编码核酸序列。例如文库,像表达文库、cDNA和基因组文库,均可筛选,而且在含有来自测序计划的序列信息的数据库中可以查寻类似序列。可使用把编码胰岛素多肽的另外核酸序列分离的其它方法,并按照本发明发现和使用新序列。在优选实施方案中,核酸序列编码的胰岛素是人、猪、牛胰岛素。
现有技术已知许多胰岛素类似物(例如参见美国专利5,461,031;5,474,978;5,164,366和5,008,241),可用于本发明。本文可使用的类似物包括人胰岛素分子,其中B-链的氨基酸残基28(B28)从其天然的脯氨酸残基改变成天冬氨酸、赖氨酸或异亮氨酸。另一实施方案中,在B29的赖氨酸残基经修饰成脯氨酸。此外,A21的天冬酰胺可改变为丙氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、甲硫氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸或缬氨酸。而且,在B3的天冬酰胺亦可修饰为赖氨酸。本文可用的胰岛素类物其它例子包括:缺少B30残基的人胰岛素,通常亦称为“desB30”或”B(1-29)”缺少最后3个氨基酸残基的胰岛素”B(1-27)”;在B1缺少苯丙氨酸残基的胰岛素分子:以及其中A链或B链具有N-末端或C-末端延伸的类似物,例如B链可通过添加两个精氨酸残基而延长N-末端。
在优选实施方案中,所用核酸序列编码胰岛素是胰岛素原。在又一优选实施方案中,使用编码胰岛素的核酸序列分子,其中C-肽已相对于其天然形式被修饰过。C-肽内的氨基酸残基可被取代,而C-肽可加长或缩短。因此,本文所用术语“微型胰岛素(mini-insulin)”指经修饰的胰岛素多肽,C-肽长度相比于其天然形式被缩短。优选实施方案中,使用微型胰岛素。微型胰岛素分子的C-肽优选短于20个氨基酸残基,更优选短于15个氨基酸残基,最优选短于9个氨基酸残基,例如7、5或3个残基。如天然胰岛素分子情形,微型胰岛素C-肽优选在其C-和N-末端包括裂解位点。此种裂解位点可为本领域已知的任何常规位点,例如可被溴化氰裂解的甲硫氨酸,可被胰蛋白酶等类似的蛋白酶或羧肽酶裂解的单一碱基残基或一对碱基残基。例如,C-肽可包括C-末端赖氨酸,例如Ala-Ala-Lys(SEQ ID NO:146),或紧接Gly A1残基前的二元加工位点,例如Asn-Lys-Arg(SEQ IDNO:147)或Arg-Arg-Lys-Gln-Lys-Arg(SEQ ID NO:148)或紧接GlyA1残基前的四元加工位点,例如Arg-Arg-Lys-Arg(SEQ ID NO:149)。因此,本发明可用的微型胰岛素分子包括:
B(1-29/30)-X1-X2-X3-Y1-A(1-21)
其中,X1为任何氨基酸;
X2为任何氨基酸;
X3为Lys或Arg:
Y1为肽键或1-17个氨基酸残基;
B(1-29/30)为含有氨基酸残基1-29或1-30的人胰岛素B链的B链;
A(1-21)为含氨基酸残基1-21的人胰岛素A链的A链。
在优选实施方案中,X1为碱性氨基酸残基(Lys或Arg),Y1为肽键或1-17个氨基酸残基,其中C-末端残基为碱性氨基酸残基(Lys或Arg)。
此外,本文可用的微型胰岛素分子包括下式代表的那些:
B(1-27)-X2-X3-X1-Y-A(1-21)
其中
X1为1-18个氨基酸残基的肽,包括至少一个芳族氨基酸残基;
X2为在B链28位的Pro、Asp、Lys或Ile之一;
X3为在B链29位的Pro、Lys、Ala、Arg或Pro-Thr之一;
Y为Lys或Arg;
B(1-27)为含氨基酸残基1-27的人胰岛素B链的B链;及
A(1-21)为含氨基酸残基1-21的人胰岛素A链的A链。
本发明所用编码微型胰岛素多肽的核酸分子的另外例子包括如下所述的那些:Markussen等人,Walter de Gruyter & CO.1987,Peptides189-194页;Thim等人,1989,Genetics and molecular biology ofindustrial microorganisms,American Society for Microbiology,322-328页;以及美国专利4,916,212;5,324,641及6,521,738。制造胰岛素类似物的、编码胰岛素的核酸序列的变化形式可用本领域技术人员所知多种核酸修饰技术制得,包括例如定点诱变、定向突变、随机突变、添加有机溶剂、基因改组或其组合,以及本领域技术人员所知的其它技术(Shraishi等人,1988,Arch.Biochem.Biophys,358:104-115;Galkin等人,1997,Protein Eng.10:687-690:Carugo等人,1997,Proteins 28:10-28;Hurley等人,1996,Biochem,35:5670-5678:Holmberg等人,1999,Protein Eng.12:851-856)。
按照本发明,意外发现若在种子内表达胰岛素,优选以在种子细胞内的胰岛素多肽被隔离在膜包围的细胞内区室中的方式表达,则胰岛素在植物种子中可累积到前所未有的水平。在本发明优选的实施方案中,胰岛素多肽被隔离在ER或ER衍生的储存小泡内。为实现胰岛素在ER或ER衍生的储存小泡内的这种累积,按照本发明,将编码胰岛素的多肽连结至造成胰岛素多肽被保持在ER或ER衍生的储存小泡内的多肽,而非从ER转运出,例如转运到质外体。可以用于本发明的、保持胰岛素多肽在ER中的多肽包括能够将胰岛素隔离在ER中的任何多肽。这种多肽可以合成或得自任何生物来源。在本发明的优选实施方案中,能够保持胰岛素的多肽是包含C-末端ER保留基序的多肽。这种C-末端ER保留基序例子包括KDEL、HDEL、DDEL、ADEL和SDEL序列(分别为SEQ ID NO:150-154)。其它例子包括HDEF(SEQ ID NO:155)(Lehmann等人,2001,Plant Physiol127(2):436-49),或靠近位于2和3、3和4或4和5位置的两个精氨酸残基(Abstract from Plant Biology 2001 Program,ASPB,2001年7月,Providence,Rhode Island,USA)。编码C-末端ER保留基序的核酸序列优选连接到编码胰岛素多肽的核酸序列,其方式为把能够将胰岛素保持于ER内的多肽连接到胰岛素多肽的C-末端。
为了在ER衍生的储存小泡内隔离胰岛素多肽,将胰岛素多肽连接到能够将胰岛素多肽保持在ER衍生的储存小泡内的多肽。本发明中可以使用的能够将胰岛素多肽保持在ER衍生的储存小泡内的多肽可以是能够将胰岛素多肽隔离在ER衍生的储存小泡内的任何多肽。能够将胰岛素保持在ER衍生的储存小泡内的多肽可以合成或得自任何生物来源。在优选的实施方案中,ER衍生的储存小泡是油体,而胰岛素多肽连接到油体蛋白质或其能够将胰岛素多肽保持在ER衍生的储存小泡内的足够部分。在此方面可用的油体蛋白质包括天然与油体结合的任何蛋白质。特别优选的油体蛋白质为油质蛋白。例如芥油质蛋白(van Rooiien et al.(1991)Plant Mol Biol.18:1177-1179)玉米油质蛋白(Bowman-Vance等人,1987,J.Biol.Chem.262:11275-11279;Qu等人,1990,J.Biol.Chem.265:2238-2243)胡萝卜油质蛋白(Hatzopoulos et al.(1990)Plant Cell 2:457-457)或芸苔(Brassica)油质蛋白(lee等人,1991,Plant Physiol.96:1395-1397),油体钙蛋白(caleosin),见例如Genbank登记号AF067857)以及油体固醇蛋白(steroleosin)(Lin等人,2002,Plant Physiol.128(4):1200-11)。在又一优选的实施方案中,油体蛋白质是植物油质蛋白,且与其它植物油质蛋白,如从拟南芥(SEQ ID NO:156)或油菜(Brassica napus)(SEQ ID NO:157)分离的油质蛋白,具有序列相似性。在另一实施方案中,油体蛋白质是得自植物、真菌或其它来源的油体钙蛋白或钙结合蛋白,并与油体蛋白质如分离自拟南芥的油质蛋白(SEQ ID NO:158和SEQ ID NO:159)具有序列同源性。在另一实施方案中,油体蛋白质为油体固醇蛋白(SEQ ID NO:160),是一种固醇结合脱氢酶(Lin L-J等人,(2002),Plant Physiol 128:1200-1211)。编码胰岛素的多肽可以连接于油体蛋白质的N-末端以及C-末端及油体蛋白质的片段,如例如油质蛋白的中心结构域。例如通过制备油体(制备油体的方法学见例如美国专利6,650,554)及鉴定油体制备物中的蛋白质通过例如SDS凝胶电泳可以发现新的油体蛋白质。可以产生针对这些蛋白质的多克隆抗体并用于筛选cDNA文库以鉴别编码油体蛋白质的核酸序列。新的油体蛋白质可以进一步使用已知的编码油体蛋白质的核酸序列发现,使用例如本文提及的编码油体蛋白质的油体蛋白质序列,探查例如cDNA或基因组文库确定油体蛋白质的存在。
能够把胰岛素保持在ER或ER衍生的储存细胞器内的多肽典型地是不会被裂解的,而且胰岛素可以融合蛋白质的形式累积,其是例如在典型地使用KDEL保留信号来保持多肽于ER内时或使用油体蛋白质来保持多肽于ER衍生的储存细胞器内时的情况。
嵌合核酸序列可另含有把核酸序列靶向内膜系统的核酸序列(“信号肽”)。在本发明使用能够把多肽保持于ER内的序列,如KDEL、HDEL或SDEL多肽把胰岛素多肽保持在ER内的实施方案中,特别希望包括编码信号肽的核酸序列。此处可用的信号肽例子包含烟草发病相关蛋白(tobacco pathogenesis related protein)(PR-S)信号序列(SEQ ID NO:161)(Siimons等人,1990,Bio/technology,8:217-221)、凝集素信号序列(Boehn等人,2000,Transgenic Res.9(6):477-86),来自菜豆(Phaseolus vulgaris)富羟脯氨酸的糖蛋白的信号序列(Yan等人,1997,Plant Phyiol,115(3):915-24和Corbin等人,1987,Mol Cell Biol 7(12):4337-44)、马铃薯patatin信号序列(Iturriaga,G等人,1989,Plant Cell 1:381-390和Bevan等人,1986,Nuc.AcidsRes.41:4625-4638)以及大麦α-淀粉酶信号序列(Rasmussen和Johansson,1992,Plant Mol.Biol.18(2):423-7)。此种靶向信号可在体内从胰岛素序列中裂解,典型地例如使用质外体靶向信号,如烟草发病相关蛋白-S(PR-S)信号序列(Sijmons等人,1990,Bio/technology,8:217-221)的情况。其它信号肽可以使用SignalP万维网服务器预计(http://www.cbs.dtu.dk/services/SignalP),其预计不同生物体的氨基酸序列中信号肽裂解位点的存在和位置。一般而言,一级氨基酸序列极少有保守,不过,一般生理化学性质保守到某些程度。信号肽的概括结构有3区,短氨基末端“n区”,含带正电荷残基,中央疏水性“h区”大小范围在7至15个氨基酸,和羧基末端“C区”,含极性氨基酸,以及由膜结合信号肽酶可识别的裂解位点(Nakai K.,2000,Advances in Protein Chem 54:277-344)。可以用于本发明的靶向信号包括天然胰岛素信号序列(以人序列而言,长度为24个氨基酸)。在优选实施方案中,位于N末端的质外体靶向序列,如上述烟草PR-S序列,与位于C末端的ER保留序列,如KDEL序列组合使用。
在另一优选实施方案中,编码酵母α-因子前导序列的核酸序列与编码胰岛素的核酸序列的N末端连接。可以用于本发明的酵母前导序列或从酵母前导序列衍生的序列包括SEQ ID NO:162至SEQ IDNO:171所列序列(Kjeldsen等人,2001,Biotechnology and GeneticEngineering Reviews 18:89-121)。这种前导序列可以还包括位于编码前导序列的核酸C末端和编码胰岛素的序列N-末端的间隔肽(spacerpeptide)。按照本文,所述间隔序列典型长度在2和20个氨基酸之间。因此,例如可使用间隔序列的SEQ ID NO:172和SEQ ID NO:173(Kjeldsen等人,2001,Biotechnology and Genetic EngineeringReviews 18:89-121)。在本发明使用酵母前导序列的实施方案中,核酸序列编码的胰岛素多肽优选是微型胰岛素多肽。按照本文,在特别优选的实施方案中,使用与编码酵母分泌前导肽的核酸序列连接的、编码单链抗体的核酸序列,详述于实施例1。
嵌合核酸序列亦可包括造成N-和/或C-末端稳定蛋白质伸展的多肽。此种伸展可用来稳定和/或有助于胰岛素多肽链的折叠并另外可用于帮助纯化胰岛素。在这方面可用的多肽伸展包括例如:编码单链抗体的核酸序列、编码Affibody分子(Affibody AB)的核酸、编码霍乱毒素的无毒性B亚基(CTB)的核酸序列(Arakawa,T.等人,1998,Nat.Biotechnol,16:938)或这些多肽的组合。在特别优选的实施方案中,通过使用例如上述KDEL序列,结合使用与允许胰岛素多肽与油体结合的稳定多肽,当发生植物细胞的完整性断裂时,例如当从植物细胞回收胰岛素多肽时,胰岛素多肽可被保持于膜包围的区室内,如ER内。此种稳定多肽的例子为单链抗体,其具有油体特异性。编码具有油体特异性的单链抗体的核酸序列可以从表达针对油体蛋白质的单克隆抗体的杂交瘤细胞系制备。在一个实施方案中,单链抗体特异性结合油质蛋白,如Alting-Mees等,(2000)IBC’s InternationalConference on Antibody Engineering,Poster#1。本发明的这个实施方案详见实施例1所述。
在又一实施方案中,裂解位点可位于胰岛素的N末端上游和C末端下游,使胰岛素多肽可从融合配偶体(partner)中裂解,而得分离的胰岛素。如此裂解位点的例子可见于WO98/49326(Method for thecleavage of fusion proteins)和相关申请以及lavallie等人(1994)Enzymatic and chemical cleavage of fusion proteins In Current Protocolsin Molecular Biology,16.4.5-16.4.17页,John Wiley & Sons,Inc.,NewYork NY。在优选的实施方案中,裂解位点是四元接头(例如Arg-Arg-Lys-Arg-SEQ ID NO:149),其被胰蛋白酶裂解。在另一优选实施方案中,裂解位点为KLIP 8(SEQ ID NO:174),其被包括凝乳酶的天冬氨酸蛋白酶裂解。
本发明又提供了从宿主细胞组分中分离异源蛋白质的方法,通过将油体级分分配,随后经由异源蛋白质-油体蛋白质融合体的特异性裂解,释放出异源蛋白质。任选裂解位点可位于异源多肽的N末瑞上游和C末端下游,使融合多肽裂解,并可利用相分离分离为其组分肽。
通过优化核酸序列使其使用选择用来表达胰岛素多肽的特定植物细胞类型的优选密码子使用,或通过改变已知的去稳定mRNA的基序可以改变编码胰岛素的核酸序列,以进一步改良表达水平(例如参见:PCT专利申请97/02352)。把编码胰岛素多肽的核酸序列的密码子使用与植物细胞类型的密码子使用加以比较,得以识别可以被改变的密码子。通过改变密码子使用以构建合成基因见例如PCT专利申请93/07278所述。
在优选实施方案中,使用的编码胰岛素的核酸序列如SEQ IDNO:1、SEQ ID NO:3、SEQ ID NO:5或SEQ ID NO:195号所示。
按照本文,编码胰岛素的核酸序列连接于能够在植物种子细胞内控制胰岛素多肽表达的启动子。因此,本发明亦提供了连接于能够在植物种子细胞内控制表达的启动子的、编码胰岛素的核酸序列。在此可用的启动子为本领域已知,包括能够控制多肽在植物内表达的、任何植物衍生的启动子。一般而言,按照本文选用双子叶植物时,可用从双子叶植物物种所得的启动子,而选用单子叶植物物种时,可用单子叶植物启动子。可用的组成型启动子包括例如35S花椰菜花叶病毒(CaMV)启动子(Rothstein等人,1987,Gene 53:153-161)、稻肌动蛋白启动子(McElroy等人,1990,Plant Cell 2:163-171;美国专利6,429,357)、遍在蛋白启动子,如玉米遍在蛋白启动子(美国专利5,879,903;5,273,894号),以及香芹遍在蛋白启动子(Kawalleck,P.等人,1993,Plant Mol.Biol.21:673-684)。
在优选的实施方案中,所用启动于是导致胰岛素多肽在种子组织中优先表达的启动子。在此方面“种子偏好启动子”是控制重组蛋白质(即胰岛素)表达的启动子,故优选成熟植物内存在的重组蛋白质总量的至少80%存在于种子内。更优选成熟植物内存在的重组蛋白质总量的至少90%存在于种子内。最优选成熟植物内存在的重组蛋白质总量的至少95%存在于种子内。在此方面可用的种子偏好启动子包括例如菜豆蛋白启动子(Sengupta-Gopalan等人,1985,Proc.Natl.Acad.Sci.USA 82:3320-3324):芥18kDa油质蛋白启动子(美国专利5,792,922)或亚麻油质蛋白启动子(WO 01/16340);亚麻豆球蛋白样种子贮存蛋白(linin)启动子(WO 01/16340);亚麻2S贮存蛋白启动子(WO 01/16340);胚乳偏好启动子,如Amy32b启动子(Rogers &Milliman,J.Biol.Chem.,1984,259:12234-12240)、Amy6-4启动子(Kursheed & Rogers,J.Biol.Chem.,1988,263:18953-18960)或Aleurain启动子(Whittier等人,1987,Nucleic Acids Res.,15:2515-2535)或豆arcelin启动子(Jaeger GD等人,2002,Nat.Biotechnol.Dec;20:1265-8)。多种植物中可用的新启动子持续被发现。许多植物启动子的例子可见于Ohamuro等人(Biochem.of Plnts.,1989,15:1-82)。
在此可用某些能够增强胰岛素多肽表达的遗传元件。这些元件包括来自某些病毒的非翻译前导序列,如AMV前导序列(Jobling andGehrke,1987,Nature,325:622-625)以及与玉米遍在蛋白启动子相关的内含子(美国专利5,504,200)。一般而言,可制备嵌合核酸序列,以便能够增强表达的遗传元件可位于编码胰岛素多肽的核酸序列的5’处。
按照本发明,包括能够在植物种子内控制表达的启动子的核酸序列连接于编码胰岛素多肽的核酸序列,其可整合于重组表达载体内,确保在种子细胞内的良好表达。因此,本发明包含重组表达载体,其在转录的5’至3’方向包括下列可操纵连接的组分:
(i)能够在植物种子细胞内控制表达的核酸序列;和
(ii)编码胰岛素多肽的核酸序列;
其中表达载体适于在种子细胞内表达。术语“适于在种子细胞内表达”指重组表达载体包括本发明的嵌合核酸序列,其连接到实现在种子细胞内表达所需的遗传元件。在此方面,表达载体内可包含的遗传元件包括转录终止区、一或多个编码标志基因的核酸序列、一或多个复制起点等。在优选实施方案中,表达载体又包括把载体或其一部分整合入植物细胞核基因组内所需的遗传元件,例如T-DNA左和右边界序列,其在本发明的使用土壤杆菌(Agrobacterium)转化植物细胞的实施方案中,促进整合进植物核基因组内。
如前述,重组表达载体一般包括转录终止子,其除了用做转录终止信号外,又可做为能够延长mRNA半衰期的保护元件(Guarneros等人,1982,Proc.Natl.Acad.Sci.USA,79:238-242)。转录终止子一般从约200个核苷酸到约1000个核苷酸,并制备表达载体,以便转录终止子位于编码胰岛素的核酸序列的3’处。于此可用的终止序列包括例如胭脂氨酸终止区(Bevan等人,1983,Nucl.Acids.Res.11:369-385)、菜豆蛋白终止子(van der Geest等人,1994,Plant J.6:413-423)、arcelin终止子(Jaeger GD等人,2002,Nat.Biotechnol.Dec;20:1265-8)、根癌农杆菌(Agrobacterium tumefaciens)的章鱼碱合酶基因的终止子或其它类似的功能元件。转录终止子可按An所述获得(An,1987,Methods in Enzym.153:292)。
按照本发明,表达载体还可含有标记基因。本发明可用的标记基因包括可分辨转化细胞与非转化细胞的所有基因,包括所有可选择和可筛选标记基因。标记基因可为抗性标记,如抗生素抗性标记,例如抗卡那霉素(美国专利6,174,724)、氨苄青霉素、G418、博来霉素、潮霉素,其使得可以利用化学手段或针对化学剂,如通常植物毒性甘露糖的耐受性标记(Negrotto等人,2000,Plant cell Rep.19:798-803)选择特性。于此可用的其它方便标记包括能够输送抗除草剂如草甘膦(glyphosate)(美国专利4,940,935;5,188,642)、草铵膦(phosphinothricin)(美国专利5,879,903)或磺酰基脲(美国专利5,633,437)的抗性的标记。抗性标记当连接于编码胰岛素多肽的核酸序列附近时,可用来维持对尚未失去编码胰岛素多肽的核酸序列的植物细胞或植物群的选择压力。可用来通过目测检查鉴定转化体的可筛选标记包括β-葡糖醛酸酶(GUS)(美国专利5,268,463和5,599,670)以及绿色萤光蛋白(GFP)(Niedz等人,1995,Plant Cell Rep.,14:403)。
适合把核酸序列导入植物内的重组载体包括基于土壤杆菌属和根瘤菌属(Rhizobium)的载体,如Ti和Ri质粒,包括例如pBIN19(Bevan,Nucl.Acid.Res.,1984,22:8711-8721)、pGKB5(Bouchez等人,1993,C R Acad.Sci.Paris,Life Sciences,316:1188-1193)、pCGN系列双元载体(McBride和Summerfelt,1990,PlantMol.Biol.14:269-276)以及其它双元载体(例如美国专利4,940,838)。
本发明的重组表达载体、核酸序列和嵌合核酸序列可按照分子生物学领域技术人员熟知的方法学制备。这些制法典型地涉及大肠杆菌(Escherichia coli)菌种以及中间克隆宿主。大肠杆菌载体和植物转化载体的制备可用通常已知技术完成,如限制消化、连接、凝胶电泳、DNA测序、聚合酶链反应(PCR)及其它方法学。这些方法学允许连接本发明涉及的核酸序列和多肽。有多种克隆载体可进行制备重组表达载体所需的必要步骤。在大肠棹菌内具有复制系统功能的载体当中,有如pBR322载体、pUC系列载体、M13mp系列载体、pBluescript等。典型地,这些克隆载体含有标记,以便选择转化细胞。核酸序列可导入这些载体内,而载体可导入在适当培养基内生长的大肠杆菌内。重组表达载体在收获和裂解细胞时,可容易地从细胞回收。再者,关于重组载体制备的一般指导可例如参见Sambrook等人,MolecularCloning,a Laboratory Manual,Cold Spring Harbor Press,1989,第3卷。
制备包括能够表达胰岛素的种子的植物
按照本发明,嵌合核酸序列被导入植物细胞内,而细胞成长为可结种子的成熟植物,其中种子表达胰岛素多肽。
依此,可选择任何植物物种或植物细胞。于此使用的特殊细胞包括从拟南芥、巴西坚果(Betholettia excelsa)、蓖麻子(Riccinuscommunis)、椰子(Cocus nucifera)、胡荽(Coriandrum sativum)、棉花(Gossypium spp.)、落花生(Arachis Hypogaea)、加州希蒙得木(Simmondsia chinensis)、亚麻子/亚麻(Linum usitatissimum)、玉米(Zeamays)、芥菜(Brassica spp.和Sinapis alba)、油椰子(Elaeis guineeis)、橄榄(olea eurpaea)、油菜籽(Brassica spp.)、稻(Oryza sativa)、红花(Carthamus tinctorius)、大豆(Glycine max)、南瓜(Cucurbita maxima)、大麦(Hordeum vulgare)、小麦(Traeticum aestivum)和向日葵(Helianthusannuus)获得的细胞。
根据本文优选的实施方案,使用得自含油种子植物的植物物种或植物细胞。此处可用的含油种子植物包括花生(Arachis hypogaea)、芥菜(Brassica spp.和Sinapis alba)、油菜籽(Brassica spp.)、鹰嘴豆(Cicerarietinum)、大豆(Glycine max)、棉花(Gossypium hirsutum)、向日葵(Helianthus annuus)、(Lentil Lens culinaris)、亚麻子/亚麻(Linumusitatissimum)、白三叶草(Trifolium repens)、橄榄(olea eurpaea)、油椰子(Elaeis guineeis)、红花(Carthamus tinctorius)和narbon豆(narbonbean)(Vicia narbonensis)。
根据本文一个特别优选的实施方案,使用红花、拟南芥或亚麻。
把植物重组表达载体导入植物细胞内的方法学,在此也称为“转化”,为本领域熟知,典型地根据选择的植物细胞而变化。把重组表达载体导入细胞内的一般技术包括电穿孔、化学介导的技术,例如CaCl2介导的核酸摄取:颗粒撞击(biolistics);使用天然感染核酸序列,例如病毒衍生的核酸序列,或土壤杆菌属或根瘤菌属衍生序列、聚乙二醇(PEG)介导的核酸摄取,微注射以及使用碳化硅晶须。
在优选实施方案中,选用转化方法,其使嵌合核酸序列整合入植物细胞基因组内,且优选植物细胞核基因组。依此,这视为特别希望的,因为使用此方法将在有性生殖时得以把嵌合核酸序列转移给子代植物。在此方面可用的转化方法包括颗粒撞击和土壤杆菌介导的方法。
双子叶植物物种的转化方法是熟知的。一般而言,使用土壤杆菌介导的转化,因其效率高而且即使不是全部,也是许多双子叶植物物种通常有易感性。土壤杆菌转化一般涉及转移双元载体,如上述双元载体之一,其包括将本发明的嵌合核酸序列从大肠杆菌转移到适当的土壤杆菌菌株(例如EHA101和LBA4404),通过例如利用携带重组双元载体的大肠杆菌菌株以及携带能够动用双元载体至靶土壤杆菌菌株的辅助质粒的大肠杆菌菌株的三亲交配,或通过土壤杆菌菌株的DNA转化(Hofgen等人,Nucl.Acids Res.,1988,16:9877)进行。可用来转化双子叶植物细胞的其它技术包括颗粒撞击(Sanford,1988,Trends in Biotechn.,6:299-302);电穿孔(Fromm等人,1985,Proc.Natl.Acad.Sci.USA.,82:5824-5828);PEG介导的DNA摄取(Potrykus等人,1985,Mol.Gen.Genetics,199:169-177);微注射(Reich等人,Bio/Techn.,1986,4:1001-1004);以及碳化硅晶须(Kaeppler等人,1990,Plant Cell Rep.,9:415-418)或使用例如浸汲法(flower dippingmethodology)的植物体内(in planta)转化(Clough和Bent,1998,Plant J.,16:735-743)。
单子叶植物物种可用多种方法转化,包括颗粒撞击(Christou等人,1991,Biotechn.9:957-962:Weeks等人,Plant Physiol.,1993,102:1077-1084;Gordon-Kamm等人,Plant Cell,1990,2:5603-618):PEG介导的DNA摄取(欧洲专利0292435和0392225)或土壤杆菌介导的转化(Goto-Fumiyuki等人,1999,Nature-Biotech,17:282-286)。
根据选作转化细胞靶的植物物种和植物细胞类型(例如幼苗衍生细胞类型,如下胚轴和子叶或胚组织),可以稍微变化确切的植物转化方法。上述特别优选的实施方案中,使用红花、拟南芥或亚麻。获得红花转化体的方法可见Baker和Dyer(Plant Cell Rep.,1996,16:106-110)。其它植物物种特异转化方案可见于:Biotechnology inAgriculture and Forestry 46:Transgenic Crops I(Y.P.S.Bajaj编),Springer-Verlag,New York(1999),Biotechnology in Agriculture andForestry 47:Transgenic Crops II(Y.P.S.Bajaj编),Springer-Verlag,NewYork(2001)。
转化后,植物细胞成长,出现分化组织,如芽和根,再生成熟植物。典型地再生多个植物。植物再生方法一般是植物物种和细胞类型依赖性的,本领域技术人员已知。有关植物组织培养的进一步指导可参见例如:Plant Cell and Tissue Culture,1994,Vasil和Thorpe编,Kluwer Academic Publishers;以及Plant Cell Culture Protocols(Methodsin Molecular Biology 111),1999,Hall编,Humana Press。
一方面,本发明提供了包括胰岛素的植物种子的回收方法。因此,本发明提供了包括胰岛素的植物种子的获得方法,包括:
(a)提供嵌合核酸构建体,在转录的5’至3’方向包括下列可操纵连接的组分:
(i)能够在植物种子细胞内控制表达的核酸序列;和
(ii)编码胰岛素多肽的核酸序列;
(b)把嵌合核酸构建体导入植物细胞内;
(c)令植物细胞成长为能够结种子的成熟植物;和
(d)从该植物取得种子,其中种子包括胰岛素。
在优选的实施方案中,多个转化植物被获得、生长、筛选所需嵌合核酸序列存在,可利用例如在使用除草剂抗性标记的选择性培养基上生长,通过将除草剂直接施于植物,或利用Southern印迹测试推定的转化体的存在。如果检测到嵌合核酸序列的存在,可选择转化植物以产生子代和最终的成熟植物,其包括多个种子,种子包含所需的嵌合核酸序列。这些种子可用来分离胰岛素,或经种植以产生二代或更多后代。一般需将多个转基因种子种植以获得转基因植物群,每个均包括含有编码胰岛素的嵌合核酸序列的种子。此外,一般需确保植物的纯合性,以确保重组多肽的连续遗传。纯合植物的选择方法为本领域技术人员所熟知。可用的纯合植物获得方法包括制备和转化单倍体细胞或组织,接着再生单倍体幼苗,随后例如以秋水仙碱(colchine)或其它微管破坏剂处理,转变成二倍体植物。植物可依其它常规农业惯例成长。
另一方面,本发明亦提供了能够结表达胰岛素的种子的植物。在本发明优选的实施方案中,能够结种子的植物包括嵌合核酸序列,其在5’至3’转录方向包括:
(a)能够在植物种子细胞内控制表达的第一核酸序列,其可操纵地连接于;
(b)编码胰岛素多肽的第二核酸序列,其中种子含有胰岛素。
在优选的实施方案中,嵌合核酸序列稳定整合于植物核基因组。
又一方面,本发明提供了表达胰岛素的植物种子。在本发明优选的实施方案中,植物种子包括嵌合核酸序列,其在5’至3’转录方向包括:
(a)能够在植物种子细胞内控制表达的第一核酸序列,其可操纵地连接于;
(b)编码胰岛素多肽的第二核酸序列。
按照本发明,所得种子内优选存在的总可溶性蛋白质的至少0.1%为胰岛素。在本发明又一优选实施方案中,所得种子内存在的总可溶性蛋白质的至少0.2%、0.3%、0.5%或1.0%为胰岛素。胰岛素多肽可以存在于多种不同形式的种子细胞中,例如下胚轴和胚轴,包括在胚根和胚叶中,若为单子叶植物物种,包括谷类和玉米,用于胚乳组织内。
从植物种子制备胰岛素
一旦已获得植物种子,即可使用本领域已知的任何蛋白质纯化方法从种子中纯化胰岛素蛋白质。因此,本发明提供了从植物种子纯化胰岛素的方法,其中所述方法包括:
(a)提供嵌合核酸构建体,其在5’至3’转录方向包括下列可操纵连接的组分:
(i)能够在植物种子细胞内控制表达的核酸序列;和
(ii)编码胰岛素多肽的核酸序列;
(b)把嵌合核酸构建体导入植物细胞内;
(c)令植物细胞成长为可结种子的成熟植物,其中种子表达胰岛素;
(d)获得表达胰岛素的种子;以及
(e)从种子中纯化所述胰岛素。
植物种子可用任何粉碎方法研磨,将种子细胞膜和细胞壁实质破坏。干法和湿法研磨条件均可用(美国专利3,971,856;Lawhon等人,1977,J.Am.oil Chem.Soc.,63:533-534)。在此方面,适当的研磨设备包括胶体磨碎机、圆盘式磨碎机、IKA磨碎机、工业级匀浆器等。选用研磨设备依赖于种子类型和产量要求。固体种子污染物,如种子壳、纤维物质、不溶性碳水化合物、蛋白质及其它水不溶性污染物,可用例如基于大小排阻的方法,如过滤或基于重力的方法,如离心,从种子级分中除去。在优选的实施方案中,避免使用油提取中常用的有机溶剂,如己烷,因为此类溶剂有损胰岛素多肽。从种子可回收基本上纯的胰岛素,可用多种附加纯化方法,如基于离心的技术;基于大小排阻的方法,包括例如膜超滤和交叉流动超滤(crossflowultrafiltration);以及层析技术,包括例如离子交换层析、大小排阻层析、亲和层析、高效液相层析(HPLC)、快速蛋白质液相层析(FPLC)、疏水性相互作用层析等。一般而言,可用这些技术的组合获得基本上纯的胰岛素。
在本发明特别优选的实施方案中,通过将胰岛素多肽和油体接触而从种子污染物中分离胰岛素多肽。这个方法被认为是特别有利的,因为其允许以特别有效和便宜的方式除去种子污染物,包括种子蛋白质。如前所述,胰岛素多肽和油体的接触可以通过将胰岛素多肽连接于油体蛋白质或通过将胰岛素多肽连接于对油体具有亲和性的多肽如对油体具有亲和性的单链抗体来实现。在前一个实施方案中,胰岛素多肽被隔离在油体上的细胞内,因此可以和油体共同纯化。在后一个实施方案中,胰岛素多肽在膜包围的细胞内区室中表达时,在粉碎过程中种子细胞破碎时其将和油体结合。分离油体的方法如美国专利5,650,554所述。
药学胰岛素制剂可由纯化的胰岛素制备,这种制剂可用来治疗糖尿病。一般而言,纯化的胰岛素可与药学可接受的载体或稀释剂混合,其量足以对治疗患者实施治疗上有用的效果,而无不良副作用。为配制胰岛素组合物,将胰岛素重量级分以有效浓度溶解、悬浮、分散或其它方式混合于选用的载体或稀释剂内,以使治疗状况获得改善。药学胰岛素制剂优选配制为单次剂量施用。人胰岛素用于肠胃外输送的治疗有效量是本领域熟知的。使用胰岛素类似物或使用其它输送模式时,其治疗有效剂量可以备本领域技术人员使用已知测试方案或利用体内或体外测试数据推断,可容易地靠经验确定。然而,应理解浓度和剂量可按照减轻的病症的严重性而变化。又应理解针对任何特定对象,特异的剂量方案可根据施用或监督施用所述制剂的人员的个人判断随时间调整。
药学溶液或悬浮液可包括例如无菌稀释剂,例如水、乳糖、蔗糖、磷酸二钙或羧甲基纤维素。可用载体包括水、盐水溶液、葡萄糖水溶液、甘油、乙二醇、乙醇等,由此形成溶液或悬浮液。如有需要,药物组合物亦可含有无毒性辅助物质,如润湿剂;乳化剂;稳定剂;抗微生物剂,如苄醇和甲基安息香酸酚酯(methyl parabens);抗氧化剂,如抗坏血酸和亚硫酸氢钠;螯合剂,如乙二胺四乙酸(EDTA);pH缓冲剂,如乙酸盐、柠檬酸盐或磷酸盐缓冲液;及其组合。
胰岛素制品的最后制剂一般依赖于胰岛素输送模式而定。按照本发明制成的胰岛素可以任何所需方式输送;然而,胃肠外、口服、肺、口腔、鼻的输送形式视为最可能使用的输送模式。胃肠外制品可装在安瓿(ampoule)、用完即弃的注射器、玻璃、塑料或其它适当材料制成的单剂量或多剂量的小瓶内。
                       实施例
提供下列实施例以供说明,而非限制。
实施例1
制备表达为具有胰蛋白酶可裂解的前肽的微型胰岛素(MI)融合蛋白的胰岛素蛋白
构建pSBS4404:PRS-D9scFv-Klip27-MI-KDEL融合蛋白
所研究的融合蛋白之一以烟草病原相关序列(PRS)开始(Sijmons等人,1990,Bio/technology,8:217-221)开始,其作为信号肽以共翻译方式将表达靶定于ER。紧接下游为编码对拟南芥的18kDa油质蛋白具有特异性亲和性的单链Fv抗体(scFv)的序列,所述单链Fv抗体命名为D9scFv,接着是衍自酵母的TA57前肽的胰蛋白酶可裂解前肽(KLIP27)(Kjeldsen等人,2001,Biotechnology and GeneticEngineering Reviews 18:89-121)。这随后是微型胰岛素(MI),如Kjeldsen等人(2001)所述,在所述多肽的C末端添加了KDEL ER保留信号。
此质粒的主链pSBS4055是基于植物双元载体pPZP200,如Hajdukiewicz等人所述(Plant Molecular Biology,1994,25:989-994)。代替所述多克隆位点,以香芹(Petroselinum crispum)的遍在蛋白启动子/终止子驱动(Kawalleck等人,1993,Plant.Mol.Bio.,21:673-684)、赋予宿主植物草铵膦抗性的pat基因(Wohlleben等人,1988,Gene 70:25-37)插于左和右边界序列之间。除此盒外,亚克隆了驱动PRS的菜豆(phaseolus vulgaris)的β-菜豆蛋白启动子/终止子(Slightom等人,1983,Proc.Natl.Acad.Sc.USA 80:1897-1901)。使用标准PCR(Horton等人,1989,Gene 77:61-68)把具有所附SphI/HindIII限制内切核酸酶位点的合成PRS-编码序列融合于菜豆蛋白启动子的3’端以产生pSBS4011。利用D9scFv cDNA克隆的PCR扩增产生SphI-D9scFv-XhoI,SwaI,HindIII插入序列(Sean Hemmingsen lab,未出版),其具有引物1325(GCATGCTGACATTGTGATGACACAGTC)-SEQ ID NO:175和引物1326(AAGCTTGCATTTAAATACTCGAGACTGTGAGAGTGGTGCCTTG)-SEQ ID NO:176。此片段随后在pSBS4011的SphI/HindIII位点的连接产生质粒pSBS4055。
Klip27-MI序列是由四种部分重叠的寡核苷酸合成,其掺入了拟南芥密码子使用,以提高在基于植物的表达系统中的有效翻译的成功。寡核苷酸1324(GAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTTTGTGGATCTCATCTTGTTGAGGCTCTCTACCTTG)-SEQ ID NO:177和1323(CCTTAGGAGTGTAGAAAAATCCTCTTTCTCCACACACAAGGTAGAGAGCCTCAACA)-SEQ ID NO:178,在其互补20个核苷酸重叠处退火,延伸形成Klip27-MI融合物的5’端,同时对寡核苷酸1322(CTAAGGCTGCTAAGGGAATTG)-SEQ ID NO:179和1321(AAGCTTCAGTTGCAATAGTTCTCCAATTGGTAAAGTGAGCAAATAGAAGTGCAACATTGTTCAACAATTCCCTTAGCAGCCTT)-SEQ ID NO:180进行相同处理形成3’端。在用Bsu36I限制消化后,将二半部分连接,产生完整的Klip27-MI编码序列。此基因融合物的PCR使用引物1364(CTCGAGTCAACCAATTGATGACACTGAATC)-SEQ ID NO:181和1334(AAGCTTCAAAGTTCATCCTTGTTGCAATAGTTCTCCAATTG)-SEQ ID NO:182附着了5’XhoI限制内切核酸酶裂解位点和3’KDEL DNA序列加上HindIII裂解位点,供随后连接入XhoI/HindIII切口pSBS4055。结果是质粒pSBS4404:编码PRS-D9scFv-Klip27-MI-KDEL融合蛋白的DNA序列置于是在菜豆蛋白启动子/终止子的表达控制下双元载体内。菜豆蛋白启动子在种子发育期间控制转基因的时间特异性和组织特异性表达。4404胰岛素融合蛋白(PRS-D9scFv-Klip27-MI-KDEL)的完整核酸序列(SEQ IDNO:1)和氨基酸序列(SEQ ID NO:2)示于图1。
构建pSBS4405:OLEO-Klip8-Klip27-MI融合蛋白
所研究的第二融合蛋白以拟南芥的18kDa油质蛋白开始,在框内随后是凝乳酶可裂解前肽(Klip8)-SEQ ID NO:175。紧接下游是衍自酵母的TA57前肽的编码胰蛋白酶可裂解前肽(Klip27)的序列,如上述(Kjeldsen等人,2001,Biotechnology and Genetic EngineeringReviews 18:89-121)。此融合于上述微型胰岛素(MI)(Kjeldsen等人,2001)。此融合蛋白的表达靶定在胚发育当中形成的初生(nascent)油体。
此质粒的主链pSBS4055是基于植物双元载体pPZP200,如Hajdukiewicz等人所述(Plant Molecular Biology,1994,25:989-994)。代替所述多克隆位点,由香芹的遍在蛋白启动子/终止子驱动(Kawalleck等人,1993,Plant.Mol.Bio.,21:673-684)、赋予宿主植物草铵膦抗性的pat基因(Wohlleben等人,1988,Gene 70:25-37)插入于左和右边界序列之间。除此盒外,亚克隆了驱动芥18kDa油质蛋白基因组序列Klip8融合的、菜豆β-菜豆蛋白启动子/终止子(Slightom等人,1983,Proc.Natl.Acad.Sc.USA 80:1897-1901)。使用标准PCR(Horton等人,1989,Gene 77:61-68)把具有所附XhoI/HindIII限制内切核酸酶位点的油质蛋白基因Klip8序列融合于菜豆蛋白启动子的3’端,生成pSBS4010。
Klip27-MI序列由四种部分重叠的寡核苷酸合成,其掺入了拟南芥密码子使用,以提高基于植物的表达系统的有效翻译的成功。寡核苷酸1324(GAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTTTGTGGATCTCATCTTGTTGAGGCTCTCTACCTTG)-SEQ ID NO:177和1323(CCTTAGGAGTGTAGAAAAATCCTCTTTCTCCACACACAAGGTAGAGAGCCTCAACA)-SEQ ID NO:178在其互补的20个核苷酸重叠处退火,并延伸形成Klip27-MI融合的5’端,对寡核苷酸1322(CTAAGGCTGCTAAGGGAATTG)-SEQ ID NO:179和1321(AAGCTTCAGTTGCAATAGTTCTCCAATTGGTAAAGTGAGCAAATAGAAGTGCAACATTGTTCAACAATTCCCTTAGCAGCCTT)-SEQID NO:180进行相同处理形成3’端。用Bsu36I限制消化之后,将二半部分连接,形成全Klip27-MI编码序列。此基因融合的PCR使用引物1364(CTCGAGTCAACCAATTGATGACACTGAATC)-SEQ IDNO:181和1329(AAGCTTCAGTTGCAATAGTTC)-SEQ ID NO:183分别附着了5’XhoI限制内切核酸酶裂解位点和3’HindIII裂解位点,供随后连接于XhoI/HindIII切口pSBS4010。结果为质粒pSBS4405:编码油质蛋白Klip8-Klip27-MI融合蛋白的DNA序列置于在菜豆蛋白启动子/终止子的表达控制下的双元载体内。菜豆蛋白启动子在种子发育期间控制转基因的时间特异性和组织特异性表达。4405胰岛素融合蛋白(OLEO-Klip8-Klip27-MI)的完整核酸序列SEQ ID NO:3和氨基酸序列SEQ ID NO:4如图2所示。
构建pSBS4414:PRS-MI-四元接头-D9scfv-KDEL融合蛋白
所研究另一融合蛋白以烟草病原相关序列(PRS)开始(Sijmons等人,1990,Bio/technology,8:217-221),其用做以共翻译方式将表达靶定于ER的信号肽。紧接下游是编码微型胰岛素(MI)的序列,如Kjeldsen等人(2001)所述,除了微型C前肽区(AAK-SEQ ID NO:146)用人胰岛素的B(1-29)和A(1-21)链之间的间插B30苏氨酸四元位点(B30T-RRKR)序列(SEQ ID NO:149)序列取代。紧接着编码第二个四元接头的序列,接着是对拟南芥的18kDa油质蛋白具有物种特异性亲和性的单链Fv抗体(scFv),称为D9scFv。在多肽的C末端,添加了KDEL ER保留信号。
此质粒主链pSBS4055是基于植物双元载体pPZP200,如Hajdukiewicz等人所述(Plant Molecular Biology,1994,25:989-994)。代替上述多克隆位点,由香芹的遍在蛋白启动子/终止子驱动(Kawalleck等人,1993,Plant.Mol.Bio.,21:673-684)、赋予宿主植物草铵膦抗性的pat基因(Wohlleben等人,1988,Gene 70:25-37)插入于左和右边界序列之间。除此盒外,亚克隆了驱动PRS、来自菜豆的β-菜豆蛋白启动子/终止子(Slightom等人,1983,Proc.Natl.Acad.Sc.USA 80:1897-1901)。使用标准PCR(Horton等人,1989,Gene 77:61-68)把具有所附SphI/HindIII限制内切核酸酶位点的合成PRS编码序列融合于菜豆蛋白启动子的3’端,产生pSBS4011。
Klip27-MI序列由四种部分重叠的寡核苷酸合成,其掺入了拟南芥密码子使用,以提高基于植物的表达系统的有效翻译的成功。寡核苷酸1324(GAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTTTGTGGATCTCATCTTGTTGAGGCTCTCTACCTTG)SEQ ID NO:177和1323(CCTTAGGAGTGTAGAAAAATCCTCTTTCTCCACACACAAGGTAGAGAGCCTCAACA)SEQ ID NO:178在其互补的20个核苷酸重叠处退火,并延伸形成Klip27-MI融合的5’端,对寡核苷酸1322(CTAAGGCTGCTAAGGGAATTG)SEQ ID NO:179和1321(AAGCTTCAGTTGCAATAGTTCTCCAATTGGTAAAGTGAGCAAATAGAAGTGCAACATTGTTCAACAATTCCCTTAGCAGCCTT)SEQID NO:180进行相同处理,形成3’端。用Bsu36I限制消化后,将二半部分连接,生成全Klip27-MI编码序列。此基因融合的PCR使用引物1363(GCATGCCCAACCAATTGATGACACTG)SEQ ID NO:84和1334(AAGCTTCAAAGTTCATCCTTGTTGCAATAGTTCTCCAATTG)SEQ ID NO:182附着5’SphI限制内切核酸酶裂解位点和3’KDELDNA序列加上HindIII裂解位点,供随后连接于SphI/HindIII切口pSBS4011。结果为质粒pSBS4402:编码PRS-Klip27-MI-KDEL融合蛋白的DNA序列置于在菜豆蛋白启动子/终止子表达控制下的双元载体内。菜豆蛋白启动子在种子发育期间控制转基因的时间特异性和组织特殊性表达。植物表达载体pSBS4402用做模板,在胰岛素的B和A链间以及MI和D9 scfv间导入四元位点。
使用引物1515(GCATGCATGCCTTTGTTAATCAACATCTTTGTGG)SEQ ID NO:185和1518(ACATTGTTCAACAATTCCTCTCTTTCTTCTAGTCTTAGGAGTGTAGAAAAATCC)SEQ ID NO:186,使用pSBS4402为模板利用PCR将间插四元(B30T-RRKR)位点置于人胰岛素的可信B(1-29)-和A(1-21)-链之间。所得124bp片段与引物1517(GCATAAGCTTCAAAGCTCATCCTTTGAGC)SEQ ID NO:187组合使用,使用pSBS3400为模板。注意pSBS3400是含有具有HindIII限制位点的D9scFv-KDEL片段的质粒。此PCR反应生成955bp产物,其把四元(RRKR)-D9Scfv-KDEL-HindIII导入到124bp SphI-MI片段。再将955bp片段连接和亚克隆于pGEM-T(Promega),得pSBS3403。全部SphI-MI(具有B30T-RRKR修饰的C前肽)-RRKR-D9Scfv-KDEL-HindIII片段插入预切口(SphI/HindIII)pSBS4402内,产生pSBS4414。4414胰岛素融合蛋白(PRS-MI-四元接头-D9Scfv-KDEL)的完整核酸序列SEQ ID NO:5和氨基酸序列SEQ ID NO:6如图3所示。
具有pSBS4404、pSBS4405或pSBS4414的重组大肠杆菌和土壤杆菌属的转化和生长
利用序列分析确认编码融合蛋白的cDNA的完整性后,把质粒pSBS4404、pSBS4405和pSBS4414转化大肠杆菌菌株DH5α,得以高水平表达。分离的质粒DNA(100ng)在冰上与100μl的DH5α感受态细胞混合20分钟。细胞再于42℃热击45秒,回到冰上2分钟。然后加1毫升SOC培养基,细胞在LB壮观霉素(10g/L胰胨、5g/L酵母提取物、5g/L NaCl、15g/L琼脂)平板上将转化细胞铺板前将细胞在37℃于225rpm的enviro摇床上温育1小时,并在37℃温育过夜。使用单一菌落接种5毫升LB-壮观霉素液体培养基。这些培养物在37℃成长过夜。按照QIAprepSpin Miniprep Kit(Qiagen)从1毫升过夜培养物中分离重组质粒。再用分离的质粒通过电穿孔(25μF,2.5kV,200Ω)转化感受态土壤杆菌菌株EH101(Hood等人,1986;J.Bacteriol.144:732-743)。重组土壤杆菌属铺板在AB壮观霉素/卡那霉素(20x AB盐,2M葡萄糖,0.25mg/ml FeSO4·7H2O,1M MgSO4,1M CaCl2)上,使用单一菌落接种5毫升AB壮观霉素/卡那霉素液体培养基。这些培养物在28℃生长过夜。再使用重组土壤杆菌属通过浸汲法(Clough等人,1998,Plant J.,16:735-743)转化拟南芥。拟南芥栽培品种(C24)用于全部实验。把种子种植在4英寸花瓶内土壤混合物(三分之二Redi土、三分之一真珠岩,pH=6.7)或由Lehle Seeds供应的拟南芥土壤混合物(真珠岩、蛭石、泥煤、绿土(terra-green),pH=5.5)的表面。容许幼苗成长至6-8叶的丛生(rosette)阶段,直径大约2.5cm。花瓶在4℃的拱顶下放置4天冷处理,随即移至24℃生长室,约150μE持续光照和相对湿度60-70%。植物每隔2-3天浇水,每星期以1%Peters 20-19-18施肥。各花瓶含5-6株植物。植物达到约2cm时,把第一次结实(bolt)剪断,促使第二、第三结实的成长。剪断第一次结实后4-5天,植物准备用土壤杆菌感染。把具有拟南芥植株的花瓶倒置以让拟南芥植株被含有感兴趣的植物转化载体的过夜土壤杆菌培养物的重悬液500毫升感染20秒。重要的是土壤杆菌培养物含5%蔗糖和0.05%表面活性剂Silwet L-77(Lehle Seeds)。花瓶随后覆盖透明塑料拱顶24小时以维持较高湿度。让植物成长至成熟,收获未转化和已转化的种子的混合物。为选择转基因品系,推定已转化的种子以70%乙醇快洗灭菌,再用20%商用漂白剂洗15分钟,然后以ddH2O洗至少4次。约1000粒灭菌种子与0.6%熔化的顶层琼脂混合,均匀分布于含有0.3%蔗糖和80μM除草剂phosphionthricin(PPT)DL的半强度MS平板上(Murashige and Skoog,1962,Physiologia Plantarum 15:473-497)。平板再置于24℃生长室内,照明计划为8小时暗、16小时亮。7-10天后,推定转基因幼苗已成绿色并生长,而未转化幼苗苍白。生根后,推定转基因幼苗分别转移到花瓶(各个植物每隔三天浇水,每隔七天以1%Peter 20-19-18施肥),让其成长成熟。花瓶覆盖透明塑料拱顶三天,以保护敏感性幼苗。七天后,幼苗用Lehle Seeds的种子收集器系统覆盖,以防止种子因散布而损失。个别收获这些转基因植物的种子,预备分析之用。
实施例2
胰岛素在拟南芥内的表达水平
在第二实施例中,在转基因拟南芥成熟种子中确定融合蛋白D9scfv-KLIP27-MI-KDEL(4404)、OLEO-KLIP8-KLIP27-MI(4405)和PRS-MI-RRKR-D9Scfv-KDEL(4414)的表达水平。转基因产物示出存在于成熟种子的细胞提取物内。大约40颗转基因拟南芥种子以研钵和研杵在50μl的50mM Tris-HCl pH8.0中加以研磨。于浆液中加还原SDS-PAGE样品缓冲液(6×SDS样品缓冲液,0.35M Tris-HClpH6.8,30%甘油,10%SDS,0.012%溴酚蓝,5%β-硫基乙醇),短暂涡旋混合。再将样品短暂离心,在99℃放置10分钟。在冰上冷却2分钟后,把样品短暂离心。在还原条件下加样(10μl,相当于大约七颗种子)。
对于制备油体样品,取转基因和野生型种子(20mg)在250μl油体提取缓冲液(0.4M蔗糖,0.5M NaCl,50mM Tris-HCl pH8.0)内研磨。样品在10000g微离心10分钟。用26G 5/8的1毫升注射器除去水溶性级分,脂肪垫(fat pad)重悬于补充盐(20mM Na2HP4,pH8.0,0.5MNaCl)的100μl的磷酸盐缓冲液内。重悬的脂肪垫移至清洁离心管,再于10000g离心10分钟。再重复此程序三次,脂肪垫的最后重悬于100μl无盐的磷酸盐缓冲液(20mM Na2HPO4 pH8.0)。在无盐磷酸盐缓冲液进行另二次洗涤,中间离心步骤按上述。最后的脂肪沉淀重悬于10μl的磷酸盐缓冲液(20mM Na2HPO4 pH8.0)内。取出5μl份量,在1/10(v/v)50mM Tris-HCl pH8.0加2%SDS内煮沸,将油体蛋白溶解。样品在冰上冷却2分钟,在10000g离心5分钟。底层的蛋白质含量以BCA蛋白质分析测定(Pierce,Rockford,IL)。对于考马斯染色凝胶和蛋白质印迹分析,使用SDS-PAGE样品缓冲液,在还原条件下于15%SDS-PAGE凝胶上分离20μg总蛋白。
样品加样于不连续的15%SDS-PAGE凝胶,在150伏特分离约1.5小时。凝胶再经考马斯染色或印迹到PVDF膜(Immobilon-P,Millipore公司,Bedford,MA)以供蛋白质印迹分析。印迹样品用购自Abcam(Cambridge,UK)的针对胰岛素的单克隆抗体探查(CloneE2-E3:Roth等人,1992)。胰岛素带使用二级山羊X鼠IgG F(ab’)2AP缀合物检测(Chemicon International,Temecula,CA)并使用NBT-BCIP在GARAP缓冲液(Tris-HCl pH9.5,100mM NaCl,5mM MgCl2)内显色。免疫反应性带相应于多肽带,以融合蛋白的预计分子量迁移,如图4A-4F所示。图4(A-F)示出胰岛素融合蛋白在转化的拟南芥系(4404-2、-17、-20,4405-4,4414-19和4414-20)内的重组表达,根据考马斯染色SDS-PAGE和蛋白质印迹分析。箭头分别指在还原条件下迁移的38.5kDa、34.2kDa和34.2kDa融合多肽、PRS-D9(scfv)-KLIP27-MIw/KDEL(4404)、OLEO-KLIP8-KLIP27-MI(4405)和PRS-MI-RRKR-D9Scfv-KDEL(4414)的位置。注意4414融合蛋白有预期的分子量34.2kDa,但在SDS-PAGE凝胶上具有较高的表观分子量。图4A(考马斯染色凝胶)和4B(相应于抗胰岛素E2E3探查的蛋白质印迹)示出野生型(wt)的总种子蛋白以及表达4404和4405构建体的转基因种子系。图4C(考马斯染色凝胶)和4D(相应于抗胰岛素E2E3探查的蛋白质印迹)示出由野生型制备的油体蛋白以及表达同样4404和4405构建体的转基因种子。图4D(考马斯染色凝胶)和4E(相应于抗胰岛素E2E3探查的蛋白质印迹)示出由野生型制备的油体蛋白以及表达同样4414构建体的转基因种子。分子量标记(M)为10、15、20、25、37、50、75、100、150、250kDa。对照包括hIN(重组人胰岛素标准)和hProIN(重组人胰岛素原标准),在非还原条件下分离。表达水平的不同是转化体当中克隆变异的结果。转基因和MI表达的大约蛋白水平示于图5。表达水平使用18kDa油质蛋白带做为内标准(相当于1.5%总种子蛋白)利用转基因带的光密度测定法测定。PRS-D9(scfv)-KLIP27-MIw/KDEL(4404)、OLEO-KLIP8-KLIP27-MI(4405)和PRS-MI-RRKR-D9Scfv-KDEL(4414)构建体的平均表达水平分别为0.21%总种子蛋白、0.12%总种子蛋白和0.79%总种子蛋白。
实施倒3
pSBS4404的裂解和HPLC纯化
从油体洗脱
在第3实施例中,取1克转基因种子在12毫升提取缓冲液(0.4M蔗糖,0.5M NaCl,50mM Tris-HCl pH8.0)内匀浆,并以10000g离心10分钟,除去脂肪垫,置于1毫升20mM Na2HPO4、0.5M NaCl内,按上述再离心。重复二次,然后洗涤,把脂肪垫在750μl 20mMNa2HPO4内离心二次。通过在750μl 20mM甲酸pH4.1内洗涤最后的脂肪垫5次,每次洗涤之间在10000g离心,从油体洗脱4404融合蛋白进入下层液内。收集的洗脱级分(下层液)合并(pooled),并以2NNaOH中和至pH8.0。全部溶液然后置放在-80℃冷冻,冷冻干燥过夜以浓缩融合蛋白。冷冻干燥样品重悬于500μl的50mM Tris-HClpH8.0。然后将重悬的4404融合蛋白在NAP-5柱(AmershamPharmacia Biotech Ab,Uppsala,Sweden)上脱盐,再以缓冲液(50mM Tris-HCl pH8.0)再交换。脱盐级分再度冷冻,冷冻干燥过夜加以浓缩。最后浓缩的样品重悬于终体积105μl双蒸馏H2O中。洗脱结果如图6所示。图6是考马斯染色SDS-PAGE(15%)分析洗脱前的油体制备物(-OB),用甲酸洗脱后的油体制备物(-OB’)以及浓缩的洗脱物质(-E)。箭头指示迁移的融合多肽的位置。野生型对照基本上在洗脱后无任何主要蛋白质,而浓缩的4404物质含有融合蛋白,若干截短产物(可能是水解的融合蛋白)以及可能有共同洗脱的若干白蛋白。
表达4404的芥种子的裂解和HPLC分析
浓缩的样品重悬于105μl的双重蒸馏水内,蛋白质含量利用BCA蛋白质分析按照厂商(Pierce,Rockford,IL,USA)测定。样品再用胰蛋白酶裂解(胰蛋白酶∶总蛋白比1∶300,在50mM Tris-HClpH8.0内,于冰上90分钟)。以10倍摩尔过量的TLCK(N-对-甲苯磺酰基-L-赖氨酸氯甲基酮)终止反应。然后经0.2μm滤器(Aerodisc13mm注射滤器,有0.2μm Supof膜,Pall公司,Ann Arbor,MI,USA)过滤全部反应物并使用C18柱(Zorbax 300SB-C18,AgilentTechnologies,Waldbronn,德国)以反相(RP)-HPLC分析。样品加载于柱并使用在0.1%(v/v)TFA内的5-50%(v/v)乙腈的19分钟线性梯度以1.0ml/min洗脱。此分析所得的层析如图7所示。曲线揭示了4404融合蛋白被胰蛋白酶裂解的产物,其在柱上与人胰岛素标准具有几乎相同的性质(保留时间分别17.011分钟和17.179分钟)。从17.0-17.5分钟收集HPLC级分并利用PSD MALDI/TOF质谱分析法使用Voyager-DE STR质谱仪(Applied Biosystems)分析。MS分析是利用NRC-Plant Biotechnology Institute,Saskatoon,Saskatchewan,Canada提供的BioAnalytical Spectroscopy services进行的。上述利用HPLC纯化的裂解的4404产物的解析见图8B,与图8A所示人胰岛素标准比较。用胰蛋白酶裂解的4404融合蛋白的观察质量为6191.51Da。人胰岛素标准(图8A)与裂解的4404产物(图8B)间的差异相应于具有保留再裂解的产物A链上的KDEL信号的Des-B30胰岛素(Des-B30胰岛素-KDEL)。
实施例4
pSBS4405的裂解和HPLC纯化
油体制备
融合蛋白(OLEO-KLIP8-KLIP27-MI)可通过进行下述油体制备而被部分纯化。大约取1克转基因种子在12毫升提取缓冲液(0.4M蔗糖,0.5M NaCl,50mM Tris-HCl pH8.0)内匀浆并以10000g离心10分钟,除去脂肪垫,并置于1毫升的50mM Tris-HCl pH8.0,0.5M NaCl中,并按上述再离心。此重复二次,洗涤后,脂肪垫在750μl的50mMTris-HCl pH8.0内离心两次。油体制备除去大部分的背景蛋白质。从表达4405构建体的转基因芥种子所得油体制备的典型蛋白质图谱如图9所示。
表达4405的芥种子的裂解和HPLC分析
重悬油体的总蛋白含量是利用将一级分制备物(5μl)在2%SDS,50mM Tris-HCl pH8.0内稀释10倍,煮沸5分钟,在10000g离心3分钟加以溶解而评估。然后,蛋白含量是利用BCA蛋白质分析按照厂商(Pierce,Rockford,IL,USA)测定。然后,样品用胰蛋白酶(胰蛋白酶∶总蛋白质比1∶300,在50mM Tris-HCl pH8.0,于冰上90分钟)裂解,从融合蛋白释出Klip27-MI片段。以10倍摩尔过量的TLCK(N-对-甲苯磺酰基-L-赖氨酸氯甲基酮)终止反应。样品以10000g离心10分钟,全部反应的下层液经0.2μm滤器(Aerodisc13mm注射滤器,有0.2μm Supof膜,Pall公司,Ann Arbor,MI,USA)过滤。图9表示全部可提取种子蛋白和从表达4405的系制备的油体(OB)蛋白的考马斯染色SDS-PAGE(15%)分析,与野生型(非重组)种子比较。箭头指示迁移融合多肽的位置。下层液使用C18柱(Zorbax300SB-C18,Agilent Technologies,Waldbronn,德国)以反相(RP)-HPLC进一步分析。样品加载于柱上,使用在0.1%(v/v)TFA内的5-50%(v/v)乙腈的19-分钟线性梯度以1.0ml/min洗脱。此分析所得层析见图10。曲线揭示了4405融合蛋白的胰蛋白酶裂解的产物,其在柱上具有与人胰岛素标准几乎相同的性质(保留时间分别为17.220分钟和17.179分钟)。从17.0-17.5分钟收集HPLC级分,使用Voyager-DE STR质谱仪(Applied Biosystems)利用PSD MALDI/TOF质谱分析法分析。利用NRC-Plant Biotechnology Institute,Saskatoon,Saskatchewan,Canada提供的BioAnalytical Spectroscopy services进行MS分析。如图11所示,用胰蛋白酶裂解的4405融合蛋白的观察质量为5706.30Da。人胰岛素标准(图8A)与裂解的4405产物(图11)间的差异相应于Des-B30胰岛素产物(Des-B30胰岛素)。Des-B30胰岛素为4405融合的正确胰蛋白酶成熟所预期的产物。
实施例5
使用AKTA探查器(FPLC)纯化胰蛋白酶裂解的MI
从4405裂解MI的纯化也是在AKTA探查器(explorer)(Amersham Pharmacia)上利用阴离子交换(Mono Q FF 1mL,AmershamPharmacia)通过加大规模的裂解反应部分纯化。裂解反应是在4405油体上进行,如上述,其由达30克的转基因种子制备。裂解反应的下层液经0.2μm滤器过滤或利用冷冻干燥在Savant Speed Vac上浓缩。过滤的样品反应可直接应用于柱,但浓缩样品需除去盐,才能有效结合柱。浓缩样品可通过令裂解的物质通过PD-10柱(AmershamPharmacia)、通过透析或稀释到盐浓度等于或低于5mS/cm而脱盐。脱盐样品用20mM Tris-HCl pH6.5平衡。样品可用0-40%NaCl,以1ml/min流速使用阶梯梯度分离。检测在214nm进行(在280nm检测较差,因为胰岛素内芳香族氨基酸含量低)。A溶剂是20mM Tris-HClpH6.5,而B溶剂是20mM Tris-HCl pH6.5,1.0M NaCl。收集与Roche胰岛素标准相同的导电性,再7-35mS/cm之间的洗脱级分(1ml)(参见图12)。图12表示胰蛋白酶裂解的4405油体制备物(虚线)与人胰岛素标准(实线)相比较的层析图谱。收集的级分利用HPLC、ELISA或蛋白质印迹(数据未示出)证明胰岛素的存在。所收集的样品再利用冷冻干燥浓缩,用于实施例6所述的胰岛素生物分析。
实施例6
胰岛素耐受试验:C57BI/6(B6)雄鼠中的生物分析
进行生物分析,以确定来自胰蛋白酶裂解的4405的重组植物衍生物(Des-B30IN)的体内作用,与人胰岛素比较。B6小鼠体内的葡萄糖血浆水平在胰岛素标准、负对照和SBS胰岛素腹膜内注射之前和之后测定。从Jackson Laboratories(Bar Harbor,ME)购买约2月大的15只C57BI/6(B6)雄鼠。以自动血糖仪(glucometer)(One TouchUltra,Lifescan,Johnson & Johnson)测量血浆葡萄糖水平。正对照包括HumulinR(Eli Lilly)和酵母重组人胰岛素标准,得自Roche。生理盐水溶液用做安慰剂。包括的负对照代表从通过与重组4405胰蛋白酶裂解的油体制备物同样处理的野生型(非组合)芥种子纯化的胰蛋白酶裂解的油体。
B6鼠关在笼内并随意进食,12小时暗-光循环。对于胰岛素耐受试验,对鼠腹膜内(IP)注射胰岛素(1U/kg体重),使用自动血糖计在0、15、30和60分钟测量葡萄糖水平。所有胰岛素耐受试验均在每天的同样时间(上午9:00)进行。进行胰岛素耐受试验时,在进行下一试验之间间隔至少二天。胰岛素耐受试验结果示于图13。从4405种子衍生的SBS DesB30胰岛素(实体菱形)与Humulin R(空白方形)和Roche胰岛素(空白三角形)标准在注射后的研究过程中行为几乎相同(统计学上并无差异,p<0.05)。所测试的全部胰岛素与生理盐水安慰剂(空白圆形)和胰蛋白酶裂解的野生型芥油体(实体圆形)(负对照)比较,显著降低血浆葡萄糖水平(p<0.05)。
实施例7
pSBS4401:PRS-Klip27-MI-融合蛋白的构建
所研究的融合蛋白之一以烟草病原相关序列(PRS)开始(Sijmons等人,1990,Bio/technology,8:217-221),其以共翻译方式用于将表达靶向ER的信号肽。紧接下游是衍生自酵母TA57前肽的胰蛋白酶可裂解的前肽(KLIP27)(Kjeldsen等人,2001,Biotechnology andGenetic Engineering Reviews 18:89-121)。接着是Kjeldsen等人(2001)所述的微型胰岛素(MI)。
此质粒的主链pSBS4055基于Hajdukiewicz等人所述的植物双元载体pPZP200(Plant Molecular Biology,1994,25:989-994)。代替所述多克隆位点,以香芹的遍在蛋白启动子/终止子驱动(Kawalleck等人,1993,Plant.Mol.Bio.,21:673-684)、赋予宿主植物草铵膦抗性的pat基因(Wohlleben等人,1988,Gene 70:25-37)插于左和右边界序列之间。除此盒外,亚克隆了驱动PRS的菜豆的β-菜豆蛋白启动子/终止子(Slightom等人,1983,Proc.Natl.Acad.Sc.USA 80:1897-1901)。使用标准PCR(Horton等人,1989,Gene 77:61-68)把具有所附SphI/HindIII限制内切核酸酶位点的合成PRS-编码序列融合于菜豆蛋白启动子的3’端以产生pSBS4011。
Klip27-MI序列是由四种部分重叠的寡核苷酸合成,其掺入了拟南芥密码子使用,以提高基于植物的表达系统的有效翻译的成功。寡核苷酸1324(GAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTTTGTGGATCTCATCTTGTTGAGGCTCTCTACCTTG)-SEQ ID NO:177和1323(CCTTAGGAGTGTAGAAAAATCCTCTTTCTCCACACACAAGGTAGAGAGCCTCAACA)-SEQ ID NO:178,在其互补的20个核苷酸重叠处退火,并延伸形成Klip27-MI融合的5’端,对寡核苷酸1322(CTAAGGCTGCTAAGGGAATTG)-SEQ ID NO:179和1321(AAGCTTCAGTTGCAATAGTTCTCCAATTGGTAAAGTGAGCAAATAGAAGTGCAACATTGTTCAACAATTCCCTTAGCAGCCTT)-SEQID NO:180进行相同的处理以形成3’端。在用Bsu36I限制消化后,将二半部分连接,生成全Klip27-MI编码序列。此基因融合的PCR使用引物1363(GCATGCCCAACCAATTGATGACACTG)-SEQ IDNO:184和引物1329(AAGCTTCAGTTGCAATAGTTC)-SEQ ID NO:183附着了5’SphI和3’HindIII限制内切核酸酶裂解位点用于随后连接至SphI/HindIII切口的pSBS4011(如上述)。结果为质粒pSBS4401:编码PRS-Klip27-MI融合蛋白(SEQ ID NO:189)的DNA序列(SEQ ID NO:188)置于在莱豆蛋白启动子/终止子的表达控制下的双元载体内。菜豆蛋白启动子在种子发育期间控制转基因的时间特异性和组织特殊性表达。
具有pSBS4401的重组大肠杆菌和土壤杆菌的转化和生长
利用序列分析确认编码融合蛋白的cDNA完整性后,质粒pSBS4401转化大肠杆菌菌株DH5α,得以高水平表达。分离的质粒DNA(100ng)在冰上与100μl的DH5α感受态细胞混合20分钟。再将细胞于42℃热击45秒,回到冰上2分钟。然后,添加1ml的SOC培养基,令细胞在225rpm的enviro摇床上于37℃温育1小时,再将转化细胞铺板于LB壮观霉素平板(10g/L胰胨、5g/L酵母提取物、5g/LNaCl、15g/L琼脂),并在37℃温育过夜。使用单一菌落接种5毫升LB壮观霉素液体培养基。这些培养物在37℃生长过夜。按照Qiagenmini prep从1毫升过夜培养物分离重组质粒。分离的质粒再用来通过电穿孔(25μF,2.5kV,200Ω)转化感受态土壤杆菌菌株EH101(Hood等人,1986;J.Bacteriol.,144:732-743)。重组土壤杆菌铺板于AB壮观霉素/卡那霉素(20x AB盐,2M葡萄糖,0.25mg/ml FeSO4·7H2O,1M MgSO4,1M CaCl2),使用单一菌落接种5毫升AB壮观霉素/卡那霉素液体培养基。这些培养物在28℃生长过夜。再使用重组土壤杆菌通过如实施例1所述浸汲法(Clough等人,1998,Plant J.,16:735-743)转化拟南芥植物。
胰岛素在拟南芥中的表达水平
使用上述实施例2概括的方法,在转基因拟南芥成熟种子内测定融合蛋白KLIP27-MI(4401)的表达水平。在成熟种子的细胞提取物内未见有转基因产物存在。
实施例8
构建pSBS4409:OLEO-人胰岛素原(OLEO-hPIN)融合蛋白
此融合蛋白以拟南芥的18kDa油质蛋白开始,在框内随后是编码人胰岛素原(hPIN)的基因。此融合蛋白的表达靶向在胚发育期间形成的初生油体。
此质粒主链pSBS4008基于Hajdukiewicz等人所述植物双元载体pPZP200(Plant Molecular Biology,1994,25:989-994)。代替上述多克隆位点,以香芹的遍在蛋白启动子/终止子驱动(Kawalleck等人,1993,Plant.Mol.Bio.,21:673-684)、赋予宿主植物草铵膦抗性的pat基因(Wohlleben等人,1988,Gene 70:25-37)插于左和右边界序列之间。除此盒外,亚克隆了驱动芥18kDa油质蛋白基因组序列的菜豆的β-菜豆蛋白启动子/终止子(Slightom等人,1983,Proc.Natl.Acad.Sc.USA 80:1897-1901)。使用标准PCR(Horton等人,1989,Gene 77:61-68)把具有附带NcoI/HindIII限制内切核酸酶位点的油质蛋白基因序列(减去终止密码子)融合于菜豆蛋白启动子的3’端,生成pSBS4008。
NcoI-人前胰岛素原基因-HindIII使用偏爱的植物密码子使用通过Aptagen合成为单335bp。随即连接于NcoI/HindIII切口pSBS4008,产生质粒pSBS4400:编码油质蛋白-人前胰岛素原融合蛋白的DNA序列置于在菜豆蛋白启动子/终止子表达控制下的双元载体内。pSBS4400质粒用做模板,利用标准PCR产生人胰岛素原(hPIN),使用pfu DNA聚合酶,以及针对5’端(1457 oligoTTCGTGAACCAACACTTG-SEQ ID NO:190)和包括载体现有胰岛素原区域的HindIII位点的3’端(1458 oligoAAGCTTTCAGTTACAGTAGT-SEQ ID NO:191)的引物。第二片段使用pfu DNA聚合酶扩增,使用针对可获得的位于pSBS4400载体内的芥油质蛋白基因(oligo 1456 GGTAGTGTGCTGGCCA-SEQ ID NO:193)的3’端的SphI位点(oligo 1455 GCATGC ATGTGTTGAGC-SEQID NO:192)的引物。PCR之后,产物在琼脂糖凝胶上分离,相当于267bp(hPIN-HindIII)和360bp(SphI-OLEO(3’端))片段的带使用凝胶提取试剂盒(Qiagen)进行凝胶纯化。利用第二回PCR扩增使用Taq DNA聚合酶和引物1455(SEQ ID NO:192)和1458(SEQ ID NO:193)组合0.001μM的重叠桥连PCR引物(oligo 1459GGTGGCCAGCACACTACCTTCGTGAACCAACACTTGTG-SEQ IDNO:194)以58℃退火温度进行二次循环,接着在52℃31次循环以扩增627bp SphI-OLEO(3’端)-hPIN-HindIII片段而融合上述两个片段。再将627bp SphI-OLEO(3’端)-hPIN-HindIII片段连接到pGEMTEasy Vector SystemTM(Promega)的T/A突出端,并用来转化DH5α细菌,得pSBS3409(pGEMT-SphI-OLEO(3’端)-hPIN-HindIII)。
pSBS3409的SphI/HindIII片段与pSBS4400的SphI/HindIII片段交换。对pSBS3409和pSBS4404的标准限制消化使用SphI/HindIII(New England Biolabs)进行。片段在1.5%琼脂糖凝胶上分离并使用凝胶提取试剂盒(Qiagen)纯化。从pSBS3409释出的617bpSphI/HindIII片段再使用T4 DNA连接酶连接到预切口的pSBS4400(除去内部SphI/HindIII片段)载体主链内的SphI/HindIII接受位点,在15℃过夜。
结果是质粒pSBS4409:编码油质蛋白-hPIN融合蛋白(SEQ IDNO:196)的DNA序列(SEQ ID NO:195)置于在菜豆蛋白启动子/终止子的表达控制下的双元载体内。菜豆蛋白启动子在种子发育期间控制转基因的时间特异性和组织特殊性表达。
具有pSBS4409的重组大肠杆菌和土壤杆菌的转化和成长
利用序列分析确认编码融合蛋白的cDNA的完整性后,质粒pSBS4409转化大肠杆菌菌株DH5α,得以高水平表达。分离的质粒DNA(100ng)在冰上与100μl的DH5α感受态细胞混合20分钟。再将细胞于42℃热击45秒,回到冰上2分钟。然后,添加1ml的SOC培养基,令细胞在225rpm的enviro摇床上于37℃温育1小时,再将转化细胞铺板于LB壮观霉素平板(10g/L胰胨、5g/L酵母提取物、5g/LNaCl、15g/L琼脂),并在37℃温育过夜。使用单一菌落接种5毫升1B壮观霉素液体培养基。这些培养物在37℃生长过夜。按照Qiagenmini prep从1毫升过夜培养物分离重组质粒。分离质粒再用来通过电穿孔(25μF,2.5kV,200Ω)转化感受态土壤杆菌菌株EH101(Hood等人,1986:J.Bacteriol.,144:732-743)。重组土壤杆菌铺板于AB壮观霉素/卡那霉素(20x AB盐,2M葡萄糖,0.25mg/ml FeSO4·7H2O,1M MgSO4,1M CaCl2),使用单一菌落接种5毫升AB壮观霉素/卡那霉素液体培养基。这些培养物在28℃生长过夜。再使用重组土壤杆菌通过如实施例1所述的浸汲法(Clough等人,1998,Plant J.,16:735-743)转化拟南芥植物。
胰岛素在拟南芥中的表达水平
使用上述实施例2概括的方法在转基因拟南芥成熟种子内测定融合蛋白OLEO-hPIN(4409)的表达水平。取自二个代表系(4409-6和4409-8)的油体蛋白质的考马斯染色凝胶比较了油质蛋白-hPIN融合蛋白(如黑箭头所示)与非转化(wt)芥的迁移(图14)。表达水平通过对平均大约0.10%总种子蛋白的测量的光密度测定法确定。这个水平如上计算并超过了同样分子量的内源蛋白在构成约0.04%总种子蛋白的非转化种子(wt)中的共同迁移。
实施倒9
转化红花
此转化方案类似Orlilcowska T.K.等人的纲要((1995)Plant Cell,Tissue and Organ Culture 40:85-91),但对转化S-317和使用草铵膦做为可选择标记有所修饰和改进。将取自S-317加州变种红花的、无损、无破、无病害的种子去污染物,在0.1% HCl2内12分钟,再用无菌蒸馏水洗4-5次。在具有1%蔗糖和0.25% Gelrite的MS培养基(Murashige T.和skoog F(1962)Phsiol.Plant.15:473-497)中在黑暗中使无菌种子发芽。先是把取自冷冻的甘油原液的土壤杆菌培养物放在具有抗生素选择的5毫升AB最少液体培养基里,并在28℃生长48小时。将此培养物等份在5毫升具有转化选择的Luria液体培养基内生长过夜。6-8毫升细菌细胞以AB培养基洗二次,并制成最终细胞密度为0.4-0.5(OD600)。
从发芽幼苗摘除长了两天的子叶,浸于制备的土壤杆菌细胞中,并铺板于具有3%蔗糖、4μM N-6苄基腺嘌岭(BA)和0.8μM萘乙酸(NAA)的MS培养基。把平板黑暗中于21℃温育。三天后,移到具有300mg/L timentin的同样培养基。再四天后,全部培养物移到见光。三天后,把外植体放在加有0.5mg/L草铵膦的选择培养基上。为使芽继续伸长,每周把外植体移到无植物激素但有两倍基础量的KNO3的MS培养基上。从初始外植体剪掉伸长到10mm以上的芽,分别在选择培养基上生长。为使生根,把代表推定转基因组织的绿叶放到有2%蔗糖、10μM吲哚丁酸和0.5μM NAA的MS培养基上。把生根的芽移到排水良好的较少土壤混合物中,在高湿度和12小时光照下生长。
实施例10
亚麻转化方案
此转化方法类似Dong J.和McHughen A.(Plant Cell Reports(1991)10:555-560),Dong J.和McHughen A.(Plant Sciences(1993)88:61-71)以及Mlynarova等人(Plant Cell Reports(1994)13:282-285)所概括的。将无损、无破或无病害的亚麻种子去污染物,于70%乙醇溶液内5-7分钟,接着在具有Tween 20(每100毫升3-4滴)的50%漂白液内连续搅动25分钟。种子用无菌蒸馏水洗5-7次。将去污染物的种子放在Magenta罐内在具有2%蔗糖和0.3% Gelrite的MS培养基上(Murashige T.和Skoog F(1962)Physiol.Plant.15:473-497)于光中发芽。为了转化,土壤杆菌培养物在加了适当抗生素用于选择的AB液体培养基内生长过夜。将6-8毫升过夜细胞洗两次,重悬于5毫升AB液体培养基内;取此原液2毫升,加于98毫升的诱导培养基(具有3%蔗糖、5μM 6-苄基氨基嘌呤(BA)和0.25μM α-萘乙酸(NAA)的MS基础培养基),调节最终OD600为1.0。
切割下胚轴外植体,在制备的土壤杆菌细胞溶液内温育约4小时(在此期间,徐徐搅动平板1-2次)。感染期后,从液体接种培养基除去外植体,在无菌滤纸上印迹。在组织培养物平板上,将15-20个外植体铺板于0.7%琼脂固化的诱导培养基上。用塑料把平板密封,在光照(23-24℃)条件下共同栽培外植物48小时。两天后,把绿色分生组织外植体移到含300mg/L Timentin(预选培养基)的同样培养基内,并用塑胶料包裹。三天后,把培养物移到含10mg/L DL PPT的上述培养基(选择I)。用Parafilm包裹平板,在24℃光照条件下温育。每两星期转移培养物并保持于此培养基一个月。为使芽伸长,每二星期把培养物移到Magenta罐内的选择培养基II(MS基础培养基,含2%蔗糖、500mg/L MES缓冲液、300mg/L Timentin和10mg/L DL PPT)。选择后存活的推定转化芽呈深绿色,个别植于选择II培养基上时,7-10天内形成茂盛的根。把生根的芽移到小花瓶内的灭菌温室土壤混合物,幼苗用清洁塑料杯覆盖以适应环境。为使成熟,把活跃生长的植物移到有排水良好的土壤混合物的1加仑花瓶内,并在温室条件下生长。
虽然本发明根据现视为优选的实施例加以描述,须知本发明不限于所揭示的实施例。反之,本发明旨在涵盖包括在所附权利要求书的精神和范围内的不同修饰以及等效改动。
全部出版物、专利和专利申请在此全文并入参考,其程度视同各个出版物、专利和专利申请特别和个别指明其全文并入参考。
表1 已知胰岛素序列的例子
  SEQ IDNO:  胰岛素基序(氨基酸序列识别符)  {核酸序列识别符}
  人天然胰岛素
7  (P01308)人前胰岛素原{包括基因V00565,M10039,J00265,X70508,L15440,BC005255和AJ009655}
  非人天然胰岛素
                             哺乳动物
8  (AAB25818)胰岛素原C-肽Equus przewalskii(马,斑马,犀牛和貘(奇蹄类动物(Perissodactyla))
  9  (P01310)前胰岛素原Equus caballus(马)
10  (P01311)前胰岛素原{涵盖基因U03610和M61153}Oryctolaguscuniculus(家兔)}
  11  (P01312)胰岛素Balaenoptera physalus(长须鲸)
  12  (P01314)胰岛素Balaenoptera borealis(塞鲸)
13  (P01315)前胰岛素原{包括基因AF064555和AY044828}Susscrofa(猪)
  14  (P01316)胰岛素Elephas maximus(亚洲象)
  15  (P01317)前胰岛素原{基因M54979}Bos taurus(牛)
  16  (P01318)前胰岛素原{基因U00659}Ovis aries(绵羊)
  17  (P01320)胰岛素Camelus dromedarius(阿拉伯骆驼)
  18  (P01321)前胰岛素原{基因V00179}Canis sp.(犬)
  19  (P01328)胰岛素Hystrix cristata(鬃毛豪猪)
20  (P10604)前胰岛素原{基因J02989}Aotustrivirgatus(douroucouli)猫头鹰猴
21  (P30406)前胰岛素原{基因J00336}Macaca fascicularis(食蟹短尾猴)
22  (P30407)前胰岛素原{基因X61092}Cercopithecus aethiops(非洲绿猴)
  23  (P30410)前胰岛素原{基因X61089}Pan troglodytes(黑猩猩)
  24  (Q9TQY7)胰岛素Ornithorhynchus anatinus(鸭嘴兽)
  25  (AAM76641)胰岛素{基因AY092024}Pongo pygmaeus(猩猩)
26  (AAN06935)前胰岛素原{基因:AH011815(含AY137498,AY137499和AY137500)}Gorilla gorilla(大猩猩)
  27  (INMKSQ)胰岛素Saimiri sciureus(普通松鼠猴)
28  (P01313)前胰岛素原{基因M26328}Cricetulus longicaudatus(长尾仓鼠)
29  (P01322)胰岛素1前体{涵盖基因V01242,V01242和M25584}Rattusnorvegicus(挪威鼠)
30  (P01323)胰岛素2前体{涵盖基因V01243,J00748,M25583和M25585}Rattus norvegicus(挪威鼠)
  31  (P01324)胰岛素Acomys cahirinus(埃及刺鼠)
32  (P01325)胰岛素1前体{涵盖基因X04725和AK007482}Mus musculus(家鼠)
  33  (P01326)胰岛素2前体{基因X04724}Mus musculus(家鼠)
  34  (P01327)胰岛素Chinchilla brevicaudata(绒鼠)
35  (P01329)前胰岛素原{涵盖基因K02233和M11713}Caviaporcellus(天竺鼠)
  36  (P17715)前胰岛素原{基因M57671}Octodon degus(八齿鼠)
  37  (P18109)胰岛素Didelphis virginiana(北美负鼠)
  38  (P21563)前胰岛素原[Rodentia sp.]
39  (Q62587)前胰岛素原{基因X98241}Psammomys obesus(肥沙鼠,fatsand rat)
40  (Q91XI3)前胰岛素原{基因AY038604}Spermophilustridecemlineatus(十三条纹地松鼠)
  41  (740063A)胰岛素C peutide Cavia porcellus(天竺鼠)
                             鸟类
42  (P01332)前胰岛素原(涵盖基因AH002454(含J00872,J00873和J00874),V00416,V00418和X58993)Gallus gallus(鸡)
  43  (P01333)前胰岛素原Anas platyrhynchos(绿头鸭)
44   (P07454)胰岛素Anser anser anser(西方灰雁(western graylaggoose))
45   (P51463)前胰岛素原{基因:AH006925(含S66611和S66612)}Selasphorus rufus(棕煌蜂鸟)
                                鱼类
  46   (073727)前胰岛素原{基因:AF036326}Danio rerio(斑马鱼)
  47   (P01335)前胰岛素原{基因:X00989}Cyprinus carpio(普通鲤鱼)
  48   (P01337)胰岛素Batrachoididae gen sp.(蟾鱼)
  49   (P01339)胰岛素Thunnus thynnus(蓝鳍鲔鱼)
  50   (P01340)胰岛素Katsuwonus pelamis(飞鲔)
  51   (P01341)前胰岛素原{基因:V00634}Lophius piscatorius(铵康)
  52   (P01342)前胰岛素{基因:V00649}Myxine glutinosa(大西洋盲鳗)
53   (P04667)前胰岛素原{涵盖基因:X00148,J00936,K01655和X13559}Oncorhynchus keta(马苏大麻哈鱼)
  54   (P07453)Myoxocephalus scorpius(杜父鱼)
  55   (P09476)胰岛素Lepisosteus spatula(巨福鳄)
  56   (P09477)胰岛素Platichthys flesus(欧洲比目鱼)
  57   (P09536)胰岛素Hydrolagus colliei(斑点银鲛)
  58   (P12704)胰岛素Squalus acanthias(白斑角鲨)
  59   (P12705)前胰岛素原Torpedo marmorata(石斑电鳐)
  60   (P13190)胰岛素原{基因:U82395}Cailorhinchus milii(象鱼)
  61   (P14806)胰岛素Petromyzon marinus(海生七鳃鳗)
  62   (P23187)胰岛素Oncorhynchus gorbuscha(粉鲑)
  63   (P29335)胰岛素Amia calva(弓鳍鱼)
  64   (P42633)胰岛素Anguilla rostrata(美洲鳗)
65   (P81025)前胰岛素原{基因:AF038123}Oreochromis niloticus(尼罗河罗非鱼)
  66   (P81423)胰岛素Acipenser gueldenstaedtii(俄罗斯鲟鱼)
  67   (P81881)胰岛素Piaractus mesopotamicas(Pacu)
  68   (Q9W7R2)前胰岛素原{基因AB029318}Verasper moseri(条斑星鲽)
  69   (1603264A)胰岛素C肽Anguilla anguilla(欧洲鳗)
                                    两栖类
  70   (P12706)胰岛素1前体{基因M24443 Xenopus laevis(非洲爪蛙)
  71   (P12707)胰岛素2前体{基因:M24442}Xenopus laevis(非洲爪蛙)
                                    爬行类
  72   (P31887)胰岛素Trachemys scripta(红耳滑龟)
  73   (P12703)胰岛素Alligator mississippiensis(美洲鳄)
  74   (P12708)胰岛素Zaocys dhumnades(蛇)
  75   (P01334)胰岛素Crotalus atrox(西方菱形背响尾蛇)
  工程胰岛素人类
  76   (AAA72172)合成前胰岛素原{基因:J02547}
  77   (AAA72916)合成胰岛素α链3’端{基因:AH003171或M38610}
  78   (AAA72917)合成胰岛素β链3’端{基因:AH003171或M38611}
  79   (CAA00712)合成胰岛素{基因:A07755}
  80   (CAA00713)合成胰岛素{基因:A07758}
  81   (CAA00714)合成胰岛素{基因:A07761}
  82   (CAA00715)未命名蛋白质产物{基因:A07764}
  83   (CAA00736)合成胰岛素原{基因:A08012}{EP 0367163-A}
  84   (CAA00783)合成胰岛素{基因:A08468}(EP 0376156-A)
  85   (CAA01581)修饰的胰岛素前体{基因A21951}(WO 9011299)
  86   (CAA01254)合成胰岛素{基因A15938}(EP0214826-A)
87   (CAA01799)Asp(B1),Asp(B4),Asp(B10),Asp(B16),Glu(B27)胰岛素合成构建体{基因:A26317}
  88   (CAA01798)Glu(B9),Glu(A12)胰岛素前体合成构建体{基因:A26314}
  89   (CAA23424)合成胰岛素原{基因:V00082}
  90   (CAA24707)合成胰岛素C链{基因:V01461}
  91   (CAA25151)合成胰岛素B链{基因:X00462}
92   (CAD60056)未命名合成蛋白质产物{基因:AX573757}(Pat.WO02/079250)
  93   (基因:M31026)合成人胰岛素B和微型C链,使用失活硅凝胶层析法
94   (1BZVA)链A[d-Alab26]-Des(B27-B30)-胰岛素-B26-酰胺A-超效单一取代胰岛素类似物
95   (1BZVB)链B[d-Alab26]-Des(B27-B30)-胰岛素-B26-酰胺A-超效单一取代胰岛素类似物
  96   (1HUIA)链A胰岛素突变体(B1、B10、B16、B27)glu,Des-B30,Nmr
  97   (1HUIB)链B胰岛素突变体(B1、B10、B16、B27)glu,Des-B30,Nmr
  98   (1HLSA)链A人胰岛素突变体-His(B16)
  99   (1HLSB)链B人胰岛素突变体-His(B16)
  100   (1JCAA)具有增强活性的不稳定胰岛素类物的链A非标准设计
  101   (1JCAB)具有增强活性的不稳定胰岛素类物的链B非标准设计
  102   (1JCAC)具有增强活性的不稳定胰岛素类物的链C非标准设计
  103   (1JCAD)具有增强活性的不稳定胰岛素类物的链D非标准设计
  104   (1J73A)具有天然活性的不稳定胰岛素类似物链A
  105   (1J73B)具有天然活性的不稳定胰岛素类似物链B
  106   (1J73C)具有天然活性的不稳定胰岛素类似物链C
  107   (1J73D)具有天然活性的不稳定胰岛素类似物链D
108   (1KMFA)人胰岛素突变体Ile-A2-Allo-Ile,His-B10-Asp,Pro-B28-Lys,Lys-B29-Pro的链A。
109   (1KMFB)人胰岛素突变体Ile-A2-A110-Ile,His-B10-Asp,Pro-B28-Lys,Lys-B29-Pro的链B
110   (1K3MA)人胰岛素突变体Ile-A2-Ala,His-B10-Asp,Pro-B28-Lys,Lys-B29-Pro的链A
111   (1K3MB)人胰岛素突变体Ile-A2-Ala,His-B10-Asp,Pro-B28-Lys,Lys-B29-Pro的链B
  112   (1LW8A)链A Allo-llea2-胰岛素,非活性手性类似物
  113   (1LW8B)链B Allo-llea2-胰岛素,非活性手性类似物
  114   (1LW8C)链C Allo-llea2-胰岛素,非活性手性类似物
  115   (1LW8D)链D Allo-llea2-胰岛素,非活性手性类似物
116   (1LKQA)人胰岛素突变体Ile-A2-Gly,Val-A3-Gly,His-B10-Asp,Pro-B28-Lys,Lys-B29-Pro的链A
117   (1LKQB)人胰岛素突变体Ile-A2-Gly,Val-A3-Gly,His-B10-Asp,Pro-B28-Lys,Lys-B29-Pro的链B
  118   (1MHIA)B9(Asp)突变体链A
  119   (1MHIB)B9(Asp)突变体链B
  120   (1MHJA)B25(phe)突变体链A
  121   (1MHJB)B25(phe)突变体链B
  122   (1VKTA)链A,人胰岛素二个二硫化物模型
  123   (1VKTB)链B,人胰岛素二个二硫化物模型
                               非人类
  124   (AAG59607)合成albebetin胰岛素{基因:AY017185}
  125   (AAG59606)合成albeferon胰岛素{基因:AY017184}
  胰岛素融合蛋白
                                  人类
  126   (AAB27046)白介素2-胰岛素融合蛋白的N-末端
  127   (AAB27047)β-半乳糖苷酶-胰岛素融合蛋白N末端
  128   (PC7082)表皮生长因子/Des-B30单链人胰岛素前体融合蛋白
                           非人类
129   (AAA72177)大肠杆菌青霉素酶/鼠胰岛素I融合蛋白5’端{基因:AH003149或J02553}
130   (AAA72178)大肠杆菌青霉素酶/鼠胰岛素I融合蛋白3’端{基因:AH003149或J02554}
131   {AAA72179}鼠胰岛素信号序列/大肠杆菌β-半乳糖苷酶融合蛋白{基因:J02555}
132   (AAA72181)猿猴病毒40(SV40)/鼠前胰岛素原I融合蛋白{基因:J02559}
  微型胰岛素
                                  人类
  133   (1EFEA)链A,活性微型胰岛素原,M2pi
  134   (1JCAA)链A,具有增强活性的不稳定胰岛素类似物的非标准设计
  135  (1JCAB)链B,具有增强活性的不稳定胰岛素类似物的非标准设计
  136  (1JCAC)链C,具有增强活性的不稳定胰岛素类似物的非标准设计
  137  (1JCAD)链D,具有增强活性的不稳定胰岛素类似物的非标准设计
  138  (1JK8C)链C,人胰岛素肽-Hla-Dq8复合物
  139  (1J73A)链A,具有天然活性的不稳定胰岛素类似物
  140  (1J73B)链B,具有天然活性的不稳定胰岛素类似物
  141  (1J73C)链C,具有天然活性的不稳定胰岛素类似物
  142  (1J73D)链D,具有天然活性的不稳定胰岛素类似物
143  (1SJTA)链A,微型胰岛素原,二链胰岛素类似物突变体:DesB30,His(B10)asp,Pro(B28)asp
144  (1SJTB)链B,微型胰岛素原,二链胰岛素类似物突变体:Des B30,His(B10)asp,Pro(B28)asp
145  (1SJU)微型胰岛素原,单链胰岛素类似物突变体:Des B30,His(B10)asp,Pro(B28)asp以及Lys B29和Gly Al间的肽键
序列综述
SEQ ID NO:1和2分别显示了质粒pSBS4404中的PRS-D9scFv-KLIP27-MI-KDEL融合蛋白的核苷酸序列和推定的氨基酸序列。
SEQ ID NO:3和4分别显示了质粒pSBS4405中的Oleo-KLIP8-KLIP27-MI融合蛋白的核苷酸序列和推定的氨基酸序列。
SEQ ID NO:5和6分别显示了质粒pSBS4414中的PRS-MI-四元接头-D9Scfv-KDEL融合蛋白的核苷酸序列和推定的氨基酸序列。
SEQ ID NO:7-145显示了表1内所述已知胰岛素序列。
SEQ ID NO:146-148显示了胰岛素C肽片段的氨基酸序列。
SEQ ID NO:149显示了四元处理肽的氨基酸序列。
SEQ ID NO:150-155显示了能够将胰岛素多肽保持于ER的多肽的氨基酸序列。
SEQ ID NO:156-160显示了能够将胰岛素多肽保持于ER衍生的储存细胞器的多肽的氨基酸序列。
SEQ ID NO:161显示了PRS信号序列的氨基酸序列。
SEQ ID NO:162-171显示了酵母前导序列的氨基酸序列及由此衍生的序列。
SEQ ID NO:172-173显示了间隔肽的氨基酸序列。
SEQ ID NO:174显示了KLIP8序列的氨基酸序列。
SEQ ID NO:175显示了正向引物1325的核苷酸序列,其与D9ScFv cDNA克隆的5’区互补,设计为用于在5’区加入SphI位点以方便随后的连接。
SEQ ID NO:176显示了反向引物1326的核苷酸序列,其与D9ScFv cDNA克隆的3’区互补,设计为用于在3’区加入XhoI位点以方便随后的连接。
SEQ ID NO:177显示了正向引物1324的核苷酸序列,其与反向引物1323的20核苷酸区互补,设计来形成Klip27-MI融合的5’端。
SEQ ID NO:178显示了反向引物1323的核苷酸序列,其与正向引物1324的20核苷酸区互补,设计来形成Klip27-MI融合的5’端。
SEQ ID NO:179显示了正向引物1322的核苷酸序列,其与反向引物1321的19核苷酸区互补,设计来形成Klip27-MI融合的3’端。
SEQ ID NO:180显示了反向引物1321的核苷酸序列,其与正向引物1322的19核苷酸区互补,设计来形成Klip27-MI融合的3’端。
SEQ ID NO:181显示了正向引物1364的核苷酸序列,其与Klip27-MI序列的5’区互补,设计为用于在5’区加入XhoI位点以方便随后的连接。
SEQ ID NO:182显示了反向引物1334的核苷酸序列,其与Klip27-MI序列的3’区互补,设计为用于在3’区加入HindIII位点以方便随后的连接和加入3’KDEL序列。
SEQ ID NO:183显示了反向引物1329的核苷酸序列,其与Klip27-MI序列的3’区互补,设计为用于在3’区加入HindIII位点以方便随后的连接。
SEQ ID NO:184显示了正向引物1363的核苷酸序列,其与Klip27-MI序列的5’区互补,设计为用于在5’区加入SphI位点以方便随后的连接。
SEQ ID NO:185显示了正向引物1515的核苷酸序列,其与胰岛素B链序列的5’区互补,设计为用于与反向引物1518一起在人胰岛素的可信A和B链之间插入了间插四元位点。
SEQ ID NO:186显示了反向引物1518的核苷酸序列,其与胰岛素B链序列的3’区以及胰岛素A链的5’区互补,具有间插四元微型C肽序列,设计为用于在人胰岛素的可信A和B链之间插入了间插四元位点。
SEQ ID NO:187显示了反向引物1517的核苷酸序列,其与D9scFv/KDEL序列的3’区互补,设计来扩增整个MI-四元接头-D9Scfv-KDEL以产生pSBS4414插入片段。
SEQ ID NO:188和189分别显示了质粒pSBS4401内PRS-Klip27-MI融合蛋白的核苷酸序列及推出的氨基酸序列。
SEQ ID NO:190显示了正向引物1457的核苷酸序列,其与胰岛素B链序列的5’区互补,设计来与反向引物1591一起产生人胰岛素原(hRIN)片段。
SEQ ID NO:191显示了反向引物1458的核苷酸序列,其与人胰岛素原(hPIN)的3’区互补,设计来产生人胰岛素原(hPIN),并添加3’HindIII克隆位点。
SEQ ID NO:192显示了正向引物1455的核苷酸序列,其与pSBS4404的SphI位点的5’区互补,设计来与反向引物1456一起扩增芥油质蛋白基因。
SEQ ID NO:193显示了反向引物1456的核苷酸序列,其与芥油质蛋白基因的3’区互补,设计来与正向引物1455一起扩增芥油质蛋白基因。
SEQ ID NO:194显示了重叠桥连PCR引物的核苷酸序列,其与芥油质蛋白基因的3’区以及人胰岛素原基因的5’端互补,设计来与正向引物1455及反向引物1456一起产生pSBS4409插入片段。
SEQ ID NO:195和196分别显示了质粒pSBS4409内OLEO-hPIN融合蛋白的核苷酸序列和推出的氨基酸序列。
SEQ ID NO:1
atgaacttccttaagtctttccctttctacgctttcctttgtttcgqtcaatacttc
gttgctgttacgcatgctgacattgtgatgacacagtctccatcctccctggctatg
tcagtgggacagcgggtcactatgcgctgcaagtccagtcagagccttttaaaaagt
accaatcaaaagaactatttggcctggtaccagcagaaaccaggacagtctcctaaa
cttctggtatactttgcatccactagggaatctggggtccctgatcgcttcataggc
agtggatctgggacagatttcactcttaccatcagcagtgtgcaggctgaagacctg
gcagattacttctgtcagcaacattataacactcctcccacgttcggtgctgggacc
aagctggagcttaagcggtctccgaacggtgcttctcatagcggttctgcaccaggc
actagctctgcatctggatctcaggtgcacctgcagcagtctggagctgagctgatg
aagcctggggcctcaatgaagatatcctgcaaggctactggctacacattcagtagc
tactggatagagtgggtaaagcagaggcctggacatggccttgagtggattggagag
attttacctggcagtggtagtactacctacaatgagaagttcaagggcaaggccaca
ttcactgcagatacatcctccaacacagcctacatgcaactcagcagcctgacatct
gaggactctgccgtctattactgtgcaagattggatgttgactcctggggccaaggc
accactctcacagtctcgagtcaaccaattgatgacactgaatcccagaccacgtca
gtgaacctcatggccgatgatactgagagcgcgtttgctacacaaacaaattcggga
ggtcttgacgttgtcggattgatctccatggctaagagagaagaaggagagcctaag
tttgttaatcaacatctttgtggatctcatcttgttgaggctctctaccttgtgtgt
ggagaaagaggatttttctacactcctaaggctgctaagggaattgttgaacaatgt
tgcacttctatttgctcactttaccaattggagaactattgcaacaaggatgaactt
tga
SEQ ID NO:2
MNFLKSFPFYAFLCFGQYFVAVTHADIVMTQSPSSLAMSVGQRVTMRCKSSQSLLKS
TNQKNYLAWYQQKPGQSPKLLVYFASTRESGVPDRFIGSGSGTDFTLTISSVQAEDL
ADYFCQQHYNTPPTFGAGTKLELKRSPNGASHSGSAPGTSSASGSQVHLQQSGAELM
KPGASMKISCKATGYTFSSYWIEWVKQRPGHGLEWIGEILPGSGSTTYNEKFKGKAT
FTADTSSNTAYMQLSSLTSEDSAVYYCARLDVDSWGQGTTLTVSSQPIDDTESQTTS
VNLMADDTESAFATQTNSGGLDVVGLISMAKREEGEPKFVNQHLCGSHLVEALYLVC
GERGFFYTPKAAKGIVEQCCTSICSLYQLENYCNKDEL
SEQ ID NO:3
atggcggatacagctagaggaacccatcacgatatcatcggcagagaccagtacccgatg
atgggccgagaccgagaccagtaccagatgtccggacgaggatctgactactccaagtct
aggcagattgctaaagctgcaactgctgtcacagctggtggttccctccttgttctctcc
agccttacccttgttggaactgtcatagctttgactgttgcaacacctctgctcgttatc
ttcagcccaatccttgtcccggctctcatcacagttgcactcctcatcaccggttttctt
tcctctggagggtttggcattgccgctataaccgttttctcttggatttacgcaacggga
gagcacccacagggatcagacaagttggacagtgcaaggatgaagttgggaagcaaagct
caggatctgaaagacagagctcagtactacggacagcaacatactggtggggaacatgac
cgtgaccgtactcgtggtggccagcacactaccatggctgagatcacccgcattcctctc
tacaaaggtaagtctctccgtaaggcgctgaaggaacatggacttctagaagacttcttg
cagaaacaacagtatggcatctcgagcaagttccaaccaattgatgacactgaatcccag
accacgtcagtgaacctcatggccgatgatactgagagcgcgtttgctacacaaacaaat
tcgggaggtcttgacgttgtcggattgatctccatggctaagagagaagaaggagagcct
aagtttgttaatcaacatctttgtggatctcatcttgttgaggctctctaccttgtgtgt
ggagaaagaggatttttctacactcctaaggctgctaagggaattgttgaacaatgttgc
acttctatttgctcactttaccaattggagaactattgcaactga
SEQ ID NO:4
MADTARGTHHDIIGRDQYPMMGRDRDQYQMSGRGSDYSKSRQIAKAATAVTAGGSLLVLSSLTLVGTVI
ALTVATPLLVIFSPILVPALITVALLITGFLSSGGFGIAAITVFSWIYATG
EHPQGSDKLDSARMKLGSKAQDLKDRAQYYGQQHTGGEHDRDRTRGGQHTTMAEITRIPLYKGKSLRKA
LKEHGLLEDFLQKQQYGISSKFQPIDDTESQTTSVNLMADDTESAFATQTN
SGGLDVVGLISMAKREEGEPKFVNQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQL
ENYCN
SEQ ID NO:5
atgaacttccttaagtctttccctttctacgctttcctttgtttcggtcaatacttcgttgctgttacg
catgcctttgttaatcaacatctttgtggatctcatcttgttgaggctctctaccttgtgtgtggagaa
agaggatttttctacactcctaagactagaagaaagagaggaattgttgaacaatgttgcacttctatt
tgctcactttaccaattggagaactattgcaacagaagaaagagagacattgtgatgacacagtctcca
tcctccctggctatgtcagtgggacagcgggtcactatgcgctgcaagtccagtcagagccttttaaaa
agtaccaatcaaaagaactatttggcctggtaccagcagaaaccaggacagtctcctaaacttctggta
tactttgcatccactagggaatctggggtccctgatcgcttcataggcagtggatctgggacagatttc
actcttaccatcagcagtgtgcaggctgaagacctggcagattacttctgtcagcaacattataacact
cctcccacgttcggtgctgggaccaagttggagcttaagcggtctccgaacggtgcttctcatagcggt
tctgcaccaggcactagctctgcatctggatctcaggtgcacctgcagcagtctggagctgagctgatg
aagcctggggcctcaatgaagatatcctgcaaggctactggctacacattcagtagctactggatagag
tgggtaaagcagaggcctggacatggccttgagtggattggagagattttacctggcagtggtagtact
acctacaatgagaagttcaagggcaaggccacattcactgcagatacatcctccaacacagcctacatg
caactcagcagcctgacatctgaggactctgccgtctattactgtgcaagattggatgttgactcctgg
ggccaaggcaccactctcacagtgagctcaaaggatgagctttga
SEQ ID NO:6
MNFLKSFPFYAFLCFGQYFVAVTHAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRRKRGIVEQCCTSI
CSLYQLENYCNRRKRDIVMTQSPSSLAMSVGQRVTMRCKSSQSLLKSTNQKNYLAWYQQKPGQSPKLLV
YFASTRESGVPDRFIGSGSGTDFTLTISSVQAEDLADYFCQQHYNTPPTFGAGTKLELKRSPNGASHSG
SAPGTSSASGSQVHLQQSGAELMKPGASMKISCKATGYTFSSYWIEWVKQRPGHGLEWIGEILPGSGST
TYNEKFKGKATFTADTSSNTAYMQLSSLTSEDSAVYYCARLDVDSWGQGTTLTVSSKDEL
SEQ ID NO:7
MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRRE
AEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
SEQ ID NO:8
EAEDPQVGEVELGGGPGLGGLQPLALAGPQQ
SEQ ID NO:9
FVNQHLCGSHLVEALYLVCGERGFFYTPKAXXEAEDPQVGEVELGGGPGLGGLQPLALAGPQQXXGIVE
QCCTGICSLYQLENYCN
SEQ ID NO:10
MASLAALLPLLALLVLCRLDPAQAFVNQHLCGSHLVEALYLVCGERGFFYTPKSRREVEELQVGQAELG
GGPGAGGLQPSALELALQKRGIVEQCCTSICSLYQLENYCN
SEQ ID NO:11
GIVEQCCTSICSLYQLENYCN
SEQ ID NO:12
GIVEQCCASTCSLYQLENYCN
SEQ ID NO:13
MALWTRLLPLLALLALWAPAPAQAFVNQHLCGSHLVEALYLVCGERGFFYTPKARRE
AENPQAGAVELGGGLGGLQALALEGPPQKRGIVEQCCTSICSLYQLENYCN
SEQ ID NO:14
GIVEQCCTGVCSLYQLENYCN
SEQ ID NO:15
MALWTRLRPLLALLALWPPPPARAFVNQHLCGSHLVEALYLVCGERGFFYTPKARRE
VEGPQVGALELAGGPGAGGLEGPPQKRGIVEQCCASVCSLYQLENYCN
SEQ ID NO:16
MALWTRLVPLLALLALWAPAPAHAFVNQHLCGSHLVEALYLVCGERGFFYTPKARRE
VEGPQVGALELAGGPGAGGLEGPPQKRGIVEQCCAGVCSLYQLENYCN
SEQ ID NO:17
GIVEQCCASVCSLYQLENYCN
SEQ ID NO:18
MALWMRLLPLLALLALWAPAPTRAFVNQHLCGSHLVEALYLVCGERGFFYTPKARRE
VEDLQVRDVELAGAPGEGGLQPLALEGALQKRGIVEQCCTSICSLYQLENYCN
SEQ ID NO:19
GIVDQCCTGVCSLYQLQNYCN
SEQ ID NO:20
MALWMHLLPLLALLALWGPEPAPAFVNQHLCGPHLVEALYLVCGERGFFYAPKTRRE
AEDLQVGQVELGGGSITGSLPPLEGPMQKRGVVDQCCTSICSLYQLQNYCN
SEQ ID NO:21
MALWMRLLPLLALLALWGPDPAPAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRRE
AEDPQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
SEQ ID NO:22
MALWMRLLPLLALLALWGPDPVPAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRRE
AEDPQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
SEQ ID NO:23
MALWMRLLPLLVLLALWGPDPASAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRRE
AEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
SEQ ID NO:24
GIVEECCKGVCSMYQLENYCN
SEQ ID NO:25
CGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQ
KRGIVEQC
SEQ ID NO:26
MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRRE
AEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
SEQ ID NO:27
FVNQHLCGPHLVEALYLVCGERGFFYAPKTGVVDQCCTSICSLYQLQNYCN
SEQ ID NO:28
MTLWMRLLPLLTLLVLWEPNPAQAFVNQHLCGSHLVEALYLVCGERGFFYTPKSRRG
VEDPQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCN
SEQ ID NO:29
MALWMRFLPLLALLVLWEPKPAQAFVKQHLCGPHLVEALYLVCGERGFFYTPKSRRE
VEDPQVPQLELGGGPEAGDLQTLALEVARQKRGIVDQCCTSICSLYQLENYCN
SEQ ID NO:30
MALWIRFLPLLALLILWEPRPAQAFVKQHLCGSHLVEALYLVCGERGFFYTPMSRRE
VEDPQVAQLELGGGPGAGDLQTLALEVARQKRGIVDQCCTSICSLYQLENYCN
SEQ ID NO:31
GIVDQCCTSICSLYQLENYCN
SEQ ID NO:32
MALLVHFLPLLALLALWEPKPTQAFVKQHLCGPHLVEALYLVCGERGFFYTPKSRRE
VEDPQVEQLELGGSPGDLQTLALEVARQKRGIVDQCCTSICSLYQLENYCN
SEQ ID NO:33
MALWMRFLPLLALLFLWESHPTQAFVKQHLCGSHLVEALYLVCGERGFFYTPMSRRE
VEDPQVAQLELGGGPGAGDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCN
SEQ ID NO:34
GIVDQCCTSICTLYQLENYCN
SEQ ID NO:35
MALWMHLLTVLALLALWGPNTGQAFVSRHLCGSNLVETLYSVCQDDGFFYIPKDRRE
LEDPQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCN
SEQ ID NO:36
MAPWMHLLTVLALLALWGPNSVQAYSSQHLCGSNLVEALYMTCGRSGFYRPHDRREL
EDLQVEQAELGLEAGGLQPSALEMILQKRGIVDQCCNNICTFNQLQNYCNVP
SEQ ID NO:37
GIVEQCCNSICSLYQLETYCN
SEQ ID NO:38
MALWILLPLLALLILWGPDPAQAFVNQHLCGSHLVEALYILVCGERGFFYTPMSRRE
VEDPQVGQVELGAGPGAGSEQTLALEVARQARIVQQCTSGICSLYQENYCN
SEQ ID NO:39
MALWMRLLPLLAFLILWEPSPAHAFVNQHLCGSHLVEALYLVCGERGFFYTPKFRRG
VDDPQMPQLELGGSPGAGDLRALALEVARQKRGIVEQCCTGICSLYQLENYCN
SEQ ID NO:40
MALWTRLLPLLALLALLGPDPAQAFVNQHLCGSHLVEALYLVCGERGFFYTPKSRRE
VEEQQGGQVELGGGPGAGLPQPLALEMALQKRGIVEQCCTSICSLYQLENYCN
SEQ ID NO:41
ELEDPQVEQTELGMGLGAGGLQPLQGALQ
SEQ ID NO:42
MALWIRSLPLLALLVFSGPGTSYAAANQHLCGSHLVEALYLVCGERGFFYSPKARRD
VEQPLVSSPLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCN
SEQ ID NO:43
AANQHLCGSHLVEALYLVCGERGFFYSPKTXXDVEQPLVNGPLHGEVGELPFQHEEY
QXXGIVEQCCENPCSLYQLENYCN
SEQID NO:44
GIVEQCCENPCSLYQLENYCN
SEQID NO:45
IQSLPLLALLALSGPGTSHAAVNQHLCGSHLVEALYLVCGERGFFYSPKARRDAEHP
LVNGPLHGEVGDLPFQQEEFEKVKRGIVEQCCHNTCSLYQLENYCN
SEQ ID NO:46
MAVWLQAGALLVLLVVSSVSTNPGTPQHLCGSHLVDALYLVCGPTGFFYNPKRDVEP
LLGFLPPKSAQETEVADFAFKDHAELIRKRGIVEQCCHKPCSIFELQNYCN
SEQ ID NO:47
MAVWIQAGALLFLLAVSSVNANAGAPQHLCGSHLVDALYLVCGPTGFFYNPKRDVDP
PLGFLPPKSAQETEVADFAFKDHAEVIRKRGIVEQCCHKPCSIFELQNYCN
SEQ ID NO:48
GIVEQCCHRPCDIFDLQSYCN
SEQ ID NO:49
GIVEQCCHKPCNIFDLQNYCN
SEQ ID NO:50
GIHZZCCHKPCBIFZLZBYCN
SEQ ID NO:51
MAALWLQSFSLLVLLVVSWPGSQAVAPAQHLCGSHLVDALYLVCGDRGFFYNPKRDV
DQLLGFLPPKSGGAAAAGADNEVAEFAFKDQMEMMVKRGIVEQCCHRPCNIFDLQNY
CN
SEQ ID NO:52
MALSPFLAAVIPLVLLLSRAPPSADTRTTGHLCGKDLVNALYIACGVRGFFYDPTKM
KRDTGALAAFLPLAYAEDNESQDDESIGINEVLKSKRGIVEQCCHKRCSIYDLENYC
N
SEQ ID NO:53
MAFWLQAASLLVLLALSPGVDAAAAQHLCGSHLVDALYLVCGEKGFFYTPKRDVDPL
IGFLSPKSAKENEEYPFKDQTEMMVKRGIVEQCCHKPCNIFDLQNYCN
SEQ ID NO:54
GIVEQCCHRPCNIRVLENYCN
SEQ ID NO:55
GIVEQCCHKPCTIYELENYCN
SEQ ID NO:56
GIVEQCCHKPCNIFDLQNYCN
SEQ ID NO:57
GIVEQCCHNTCSLANLEGYCN
SEQ ID NO:58
GIVEHCCHNTCSLYDLEGYCNQ
SEQ ID NO:59
GIVEHCCHNTCSLFDLEGYCN
SEQ ID NO:60
VPTQRLCGSHLVDALYFVCGERGFFYSPKQIRDVGPLSAFRDLEPPLDTEMEDRFPY
RQQLAGSKMKRGIVEQCCHNTCSLVNLEGYCN
SEQ ID NO:61
GIVEQCCHRKCSIYDMENYCN
SEQ ID NO:62
GIVEQCCHKPCNIFDLQNYCN
SEQ ID NO:63
GIVEQCCLKPCTIYEMEKYCN
SEQ ID NO:64
GIVEQCCHKPCSIFDLQNYCN
SEQ ID NO:65
MAALWLQAFSLLVLMMVSWPGSQAVGGPQHLCGSHLVDALYLVCGDRGFFYNPRRDV
DPLLGFLPPKAGGAVVQGGENEVTFKDQMEMMVKRGIVEECCHKPCTIFDLQNYCN
SEQ ID NO:66
GIVEQCCHSPCSLYDLENYCN
SEQ ID NO:67
GIVEQCCHKPCSIFDLQNYCN
SEQ ID NO:68
MAALWLQSVSLLVLMLVSWSGSQAVLPPQHLCGAHLVDALYLVCGERGFFYTPKRDV
DPLLGFLPAKSGGAAAGGENEVAEFAFKDQMEMMVKRGIVEQCCHKPCNIFDLQNYC
N
SEQ ID NO:69
DVEPLLGFLSPKSGQENEVDDFPYKGQGEL
SEQ ID NO:70
MALWMQCLPLVLVLFFSTPNTEALVNQHLCGSHLVEALYLVCGDRGFFYYPKVKRDM
EQALVSGPQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCN
SEQ ID NO:71
MALWMQCLPLVLVLLFSTPNTEALANQHLCGSHLVEALYLVCGDRGFFYYPKIKRDI
EQAQVNGPQDNELDGMQFQPQEYQKMKRGIVEQCCHSTCSLFQLENYCN
SEQ ID NO:72
GIVEQCCHNTCSLYQLENYCN
SEQ ID NO:73
GIVEQCCHNTCSLYQLENYCN
SEQ ID NO:74
GIVEQCCENTCSLYELENYCN
SEQ ID NO:75
GIVEQCCENTCSLYQLENYCN
SEQ ID NO:76
MGLWIRLLPLIALLILWGPDPAAAEFRMFVNQHLCGSHLVEALYLVCGERGFFYTPK
TRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
SEQ ID NO:77
GIVEQCCTSICSLYQLENYCN
SEQ ID NO:78
FVNQHLCGSHLVEALYLVCGERGFFYTPKT
SEQ ID NO:79
FVDQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYELEDYCN
SEQ ID NO:80
FVEQHLCGSDLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLEEYCN
SEQ ID NO:81
FVQQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLENYCG
SEQ ID NO:82
FVTQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLEHYCS
SEQ ID NO:83
NSNGKFVNQHLCGSHLVEALYLVCGERGFFYTPKTKGIVEQCCTSICSLYQLENYCN
SEQ ID NO:84
NSNGKFVNQHLCGSHLVEALYLVCGERGFFYTPKTKRGIVEQCCTSICSLYQLENYC
N
SEQ ID NO:85
FVNQHLCGSHLVEALYLVCGERGFFYTPKGIVEQCCTSICSLYQLENYCN
SEQ ID NO:86
RFVNQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLENYCN
SEQ ID NO:87
KETLTITCAVPTWLKLWTWFAVKEVSSTNLRLLRVLSNNAVPPSAPCTNWKTTATRR
SPQA
SEQ ID NO:88
KDSLTNTCAVSTWLKLCTWFAVKEVSSTLLRLLRVLSNNAVPPSANYTNWKTTATRR
SPQA
SEQ ID NO:89
MFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPL
ALEGSLQKRGIVEQCCTSICSLYQLENYCN
SEQ ID NO:90
RREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKR
SEQ ID NO:91
GPETLCGAELVDALQFVCGDRGF
SEQ ID NO:92
MKLKTVRSAVLSSLFASQVLGQPIDDTESQTTSVNLMADDTESAFATQTNSGGLDVV
GLISMAKREEGEPKFVNQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSIC
SLYQLENYCN
SEQ ID NO:93
tttgtcaatcagcacctttgtggttctcacctggtggaggctctgtacctggtgtgt
ggggaacgtggtttcttctacacacccaagacccgtcgtaagcttaagcgtggcatt
gtggagcagtgctgcaccagcatctgctccctctaccaactggagaactactgcaac
SEQ ID NO:94
GIVEQCCTSICSLYQLENYCN
SEQ ID NO:95
FVNQHLCGSHLVEALYLVCGERGFFX
SEQ ID NO:96
GIVEQCCTSICSLYQLENYCN
SEQ ID NO:97
EVNQHLCGSELVEALELVCGERGFFYEPK
SEQ ID NO:98
GIVEQCCTSICSLYQLENYCN
SEQ ID NO:99
FVNQHLCGSHLVEALHLVCGERGFFYTPKT
SEQ ID NO:100
GIVEQCCKSICSLYQLENYCN
SEQ ID NO:101
FVNQHLCGSHLVEALYLVCGERGFFYTPKT
SEQ ID NO:102
GIVEQCCKSICSLYQLENYCN
SEQ ID NO:103
FVNQHLCGSHLVEALYLVCGERGFFYTPKT
SEQ ID NO:104
GIVEQCCXSICSLYQLENYCN
SEQ ID NO:105
FVNQHLCGSHLVEALYLVCGERGFFYTPKT
SEQ ID NO:106
GIVEQCCXSICSLYQLENYCN
SEQ ID NO:107
FVNQHLCGSHLVEALYLVCGERGFFYTPKT
SEQ ID NO:108
GXVEQCCTSICSLYQLENYCN
SEQ ID NO:109
FVNQHLCGSDLVEALYLVCGERGFFYTKPT
SEQ ID NO:110
GAVEQCCTSICSLYQLENYCN
SEQ ID NO:111
FVNQHLCGSDLVEALYLVCGERGFFYTKPT
SEQ ID NO:112
GXVEQCCTSICSLYQLENYCN
SEQ ID NO:113
FVNQHLCGSHLVEALYLVCGERGFFYTPKT
SEQ ID NO:114
GXVEQCCTSICSLYQLENYCN
SEQ ID NO:115
FVNQHLCGSHLVEALYLVCGERGFFYTPKT
SEQ ID NO:116
GGGEQCCTSICSLYQLENYCN
SEQ ID NO:117
FVNQHLCGSDLVEALYLVCGERGFFYTKPT
SEQ ID NO:118
XIVEQCCTSICSLYQLENYCN
SEQ ID NO:119
XVNQHLCGDHLVEALYLVCGERGFFYTPKT
SEQ ID NO:120
GIVEQCCTSICSLYQLENYCN
SEQ ID NO:121
FVNQHLCGSHLVEALYLVCGERGFYTPKT
SEQ ID NO:122
GIVEQSCTSISSLYQLENYCN
SEQ ID NO:123
FVNQHLCGSDLVEALYLVCGERGFFYTKPT
SEQ ID NO:124
MDPGDPECLEQLLRRLGGSVEVEVTGGTVHVEVSPEDPGDPECLEQLLRRLGGSVEV
EVTGGTVHVEVSPGERGFFYCN
SEQ ID NO:125
MLKEKKYSPDPGDPECLEQLLRRLGGSVEVEVTGGTVHVEVSPEDPGDPECLEQLLR
RLGGSVEVEVTGGTVHVEVSPGERGFFYCN
SEQ ID NO:126
MATSXSTKKTQLQLEHLXLDLQM
SEQ ID NO:127
TMITDSLAVVLQRXDWXPGVTQL
SEQ ID NO:128
NSVLASALALTVAPMAFANSDSESPLSHDGYSLHDGVSMYIEALDKFVNQHLCGSHL
VEALYLVCGERGFFYTPKGIVEQCCTSICSLYQLENYCN
SEQ ID NO:129
DTTMPAGGGGGGQHLCGPHLVEALY
SEQ ID NO:130
LENYCN
SEQ ID NO:131
MTMITDSLEFQAWGGGGGWMRF
SEQ ID NO:132
MVLRFLPLLALLVLWEPKPAQA
SEQ ID NO:133
FVNQHLCGSHLVEALYLVCGERGFFYTPKTRRYPGDVKRGIVEQCCTSICSLYQLEN
YCN
SEQ ID NO:134
GIVEQCCKSICSLYQLENYCN
SEQ ID NO:135
FVNQHLCGSHLVEALYLVCGERGFFYTPKT
SEQ ID NO:136
GIVEQCCKSICSLYQLENYCN
SEQ ID NO:137
FVNQHLCGSHLVEALYLVCGERGFFYTPKT
SEQ ID NO:138
LVEALYLVCGERGG
SEQ ID NO:139
GIVEQCCXSICSLYQLENYCN
SEQ ID NO:140
FVNQHLCGSHLVEALYLVCGERGFFYTPKT
SEQ ID NO:141
GIVEQCCXSICSLYQLENYCN
SEQ ID NO:142
FVNQHLCGSHLVEALYLVCGERGFFYTPKT
SEQ ID NO:143
GIVEQCCTSICSLYQLENYCN
SEQ ID NO:144
FVNQHLCGSDLVEALYLVCGERGFFYTDK
SEQ ID NO:145
FVNQHLCGSDLVEALYLVCGERGFFYTDKGIVEQCCTSICSLYQLENYCN
SEQ ID NO:146
AAK
SEQ ID NO:147
NKR
SEQ ID NO:148
RRKQKR
SEQ ID NO:149
RRKR
SEQ ID NO:150
KDEL
SEQ ID NO:151
HDEL
SEQ ID NO:152
DDEL
SEQ ID NO:153
ADEL
SEQ ID NO:154
SDEL
SEQ ID NO:155
HDEF
SEQ ID NO:156
Met Ala Asp Thr Ala Arg Gly Thr His His Asp Ile Ile Gly Arg Asp
1               5                   10                  15
Gln Tyr Pro Met Met Gly Arg Asp Arg Asp Gln Tyr Gln Met Ser Gly
            20                  25                  30
Arg Gly Ser Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Ala Thr
        35                  40                  45
Ala Val Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu
    50                  55                  60
Val Gly Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile
65                  70                  75                  80
Phe Ser Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile
                85                  90                  95
Thr Gly Phe Leu Ser Ser Gly Gly Phe Gly Ile Ala Ala Ile Thr Val
            100                 105                 110
Phe Ser Trp Ile Tyr Lys
    115
SEQ ID NO:157
Met Ala Asp Thr Ala Arg Thr His His Asp Val Thr Ser Arg Asp Gln
1               5                   10                  15
Tyr Pro Arg Asp Arg Asp Gln Tyr Ser Met Ile Gly Arg Asp Arg Asp
            20                  25                  30
Gln Tyr Ser Met Met Gly Arg Asp Arg Asp Gln Tyr Asn Met Tyr Gly
        35                  40                  45
Arg Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Val Thr Ala Val
    50                  55                  60
Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu Val Gly
65                  70                  75                  80
Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile Phe Ser
                85                  90                  95
Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile Thr Gly
            100                 105                 110
Phe Leu Ser Ser Gly Gly Phe Ala Ile Ala Ala Ile Thr Val Phe Ser
        115                 120                 125
Trp Ile Tyr Lys Tyr Ala Thr Gly Glu His Pro Gln Gly Ser Asp Lys
    130                 135                 140
Leu Asp Ser Ala Arg Met Lys Leu Gly Thr Lys Ala Gln Asp Ile Lys
145                 150                 155                 160
Asp Arg Ala Gln Tyr Tyr Gly Gln Gln His Thr Gly Gly Glu His Asp
                165                 170                 175
Arg Asp Arg Thr Arg Gly Gly Gln His Thr Thr
            180                 185
SEQ ID NO:158
taccatgggg tcaaagacgg agatgatgga gagagacgca atggctacgg tggctcccta     60
tgcgccggtc acttaccatc gccgtgctcg tgttgacttg gatgatagac ttcctaaacc    120
ttatatgcca agagcattgc aagcaccaga cagagaacac ccgtacggaa ctccaggcca    180
taagaattac ggacttagtg ttcttcaaca gcatgtctcc ttcttcgata tcgatgataa    240
tggcatcatt tacccttggg agacctactc tggactgcga atgcttggtt tcaatatcat    300
tgggtcgctt ataatagccg ctgttatcaa cctgaccctt agctatgcca ctcttccggg    360
gtggttacct tcacctttct tccctatata catacacaac atacacaagt caaagcatgg    420
aagtgattca aaaacatatg acaatgaagg aaggtttatg ccggtgaatc ttgagttgat    480
atttagcaaa tatgcgaaaa ccttgccaga caagttgagt cttggagaac tatgggagat    540
gacagaagga aaccgtgacg cttgggacat ttttggatgg atcgcaggca aaatagagtg    600
gggactgttg tacttgctag caagggatga agaagggttt ttgtcaaaag aagctattag    660
gcggtgtttc gatggaagct tgttcgagta ctgtgccaaa atctacgctg gtatcagtga    720
agacaagaca gcatactacg ccatggat                                       748
SEQ ID NO:159
atggggtcaa agacggagat gatggagaga gacgcaatgg ctacggtggc tccctatgcg     60
ccggtcactt accaccgccg tgctcgtgtt gacttggatg atagacttcc taaaccttat    120
atgccaagag cattgcaagc accagacaga gaacacccgt acggaactcc aggccataag    180
aattacggac ttagtgttct tcaacagcat gtctccttct tcgatatcga tgataatggc    240
atcatttacc cttgggagac ctactctgga ctgcgaatgc ttggtttcaa tatcattggg    300
tcgcttataa tagccgctgt tatcaacctg acccttagct atgccactct tccggggtgg    360
ttaccttcac ctttcttccc tatatacata cacaacatac acaagtcaaa gcatggaagt    420
gattcaaaaa catatgacaa tgaaggaagg tttatgccgg tgaatcttga gttgatattt    480
agcaaatatg cgaaaacctt gccagacaag ttgagtcttg gagaactatg ggagatgaca    540
gaaggaaacc gtgacgcttg ggacattttt ggatggatcg caggcaaaat agagtgggga    600
ctgttgtact tgctagcaag ggatgaagaa gggtttttgt caaaagaagc tattaggcgg    660
tgtttcgatg gaagcttgtt cgagtactgt gccaaaatct acgctggtat cagtgaagac    720
aagacagcat actactaa                                                  738
SEQ ID NO:160
ATGGATCTAATCCACACTTTCCTCAACTTAATAGCTCCCCCTTTCACCTTCTTCTTC
CTTCTCTTTTTCTTGCCACCCTTCCAGATTTTCAAGTTCTTCCTTTCAATCTTGGGC
ACCCTTTTCAGCGAGGATGTCGCTGGAAAAGTCGTCGTCATCACCGGCGCCTCCTCC
GGCATCGGCGAAAGTCTTGCTTACGAGTATGCTAAGAGAGGGGCGTGCTTGGTGCTT
GCTGCAAGAAGGGAAAGGAGTCTTCAAGAAGTGGCCGAAAGGGCGCGCGATTTGGGG
TCGCCGGACGTCGTGGTGGTCCGGGCCGATGTTTCGAAGGCGGAGGACTGCAGGAAG
GTTGTTGATCAGACTATGAATCGCTTTGGAAGATTGGATCACCTGGTCAATAACGCT
GGAATTATGTCAGTTTCAATGCTGGAAGAAGTTGAAGATATTACTGGTTACAGAGAA
ACTATGGATATCAACTTCTGGGGCTATGTGTATATGACCCGATTTGCCGCCCCATAC
CTTAGGAATAGCAGAGGCCGAATTGTTGTACTTTCTTCATCCAGTTCTTGGATGCCT
ACTCCGAGGATGAGTTTTTACAATGCAAGCAAAGCGGCGATTTCACAATTTTTTGAG
ACACTGCGGGTGGAATTCGGCCCCGATATAGGCATAACCCTTGTGACTCCAGGATTC
ATAGAATCTGAACTTACCCAAGGCAAATTCTACAATGCTGGCGAACGTGTAATTGAT
CAGGACATGAGAGATGTACAAGTGAGCACGACTCCAATCCTGAGGGTGGAAAGTGCG
GCAAGGTCAATCGTGAGGAGCGCGATCCGTGGAGAAAGATACGTGACAGAGCCGGCC
TGGTTTAGGGTTACTTATTGGTGGAAGCTATTCTGCCCTGAGGTGATGGAGTGGGTA
TTTAGACTGATGTACTTGGCCAGCCCGGGTGAGCCGGAGAAGGAAACGTTTGGCAAG
AAGGTTTTGGATTACACAGGAGTGAAGTCCTTGCTTTACCCGGAAACCGTGCAAGTT
CCGGAGCCCAAGAATGATTAA
SEQ ID NO:161
MNFLKSFPFYAFLCFGQYFVAVTHA
SEQ ID NO:162
APVNTTEDETAQAEAVIGYSDLEGDFDVAVLPFSNSTNNGLLFIBTTIASIAAKEEG
VSLMAKR
SEQ ID NO:163
APVNTTEDETAQAEAVIGYSDLEGDFDVAVLPFSNSTNNGLLFIBTTIASIAAKEEG
VSMAKR
SEQ ID NO:164
QPIDEDNDTSSMAKR
SEQ ID NO:165
QPIDDTESNTTSVNLMADDTEDRFATNTTLALDVVNLISMAKR
SEQ ID NO:166
QPIDDTESQTTSVNLMADDTEDRFATQTTLALDVVNLISMAKR
SEQ ID NO:167
QPIDDTESQTTSVNLMADDTEDRFATQTTLALDVVNLISMAAA
SEQ ID NO:168
QPIDDTESNTTSVNLMADDTEDRFATNTTIALDVVNLISMAAA
SEQ ID NO:169
QPIDDTESNTTSVNLMADDTEDRFATNTTLAGGLDVVNLISMAKR
SEQ ID NO:170
QPIDDTESQTTSVNLMADDTESAFATQTNSGGLDVVGLISMAKR
SEQ ID NO:171
QPIDDTESQTTSVNLMADDTESAFATQTNSGGLDVVGLISMAAA
SEQ ID NO:172
EEAEAEAEPK
SEQ ID NO:173
EEGEPK
SEQ ID NO:174
MAEITRIPLYKGKSLRKALKEHGLLEDFLQKQQYGISSKF
SEQ ID NO:175
GCATGCTGACATTGTGATGACACAGTC
SEQ ID NO:176
AAGCTTGCATTTAAATACTCGAGACTGTGAGAGTGGTGCCTTG
SEQ ID NO:177
GAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTTTGTGGATCTCATCTTGTTGAG
GCTCTCTACCTTG
SEQ ID NO:178
CCTTAGGAGTGTAGAAAAATCCTCTTTCTCCACACACAAGGTAGAGAGCCTCAACA
SEQ ID NO:179
CTAAGGCTGCTAAGGGAATTG
SEQ ID NO:180
AAGCTTCAGTTGCAATAGTTCTCCAATTGGTAAAGTGAGCAAATAGAAGTGCAACAT
TGTTCAACAATTCCCTTAGCAGCCTT
SEQ ID NO:181
CTCGAGTCAACCAATTGATGACACTGAATC
SEQ ID NO:182
AAGCTTCAAAGTTCATCCTTGTTGCAATAGTTCTCCAATTG
SEQ ID NO:183
AAGCTTCAGTTGCAATAGTTC
SEQ ID NO:184
GCATGCCCAACCAATTGATGACACTG
SEQ ID NO:185
GCATGCATGCCTTTGTTAATCAACATCTTTGTGG
SEQ ID NO:186
ACATTGTTCAACAATTCCTCTCTTTCTTCTAGTCTTAGGAGTGTAGAAAAATCC
SEQ ID NO:187
GCATAAGCTTCAAAGCTCATCCTTTGAGC
SEQ ID NO:188
ATGAACTTCCTTAAGTCTTTCCCTTTCTACGCTTTCCTTTGTTTCGGTCAATACTTCGTTGCT
GTTACGCATGCCCAACCAATTGATGACACTGAATCCCAGACCACGTCAGTGAACCTCATG
GCCGATGATACTGAGAGCGCGTTTGCTACACAAACAAATTCGGGAGGTCTTGACGTTGTC
GGATTGATCTCCATGGCTAAGAGAGAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTT
TGTGGATCTCATCTTGTTGAGGCTCTCTACCTTGTGTGTGGAGAAAGAGGATTTTTCTACA
CTCCTAAGGCTGCTAAGGGAATTGTTGAACAATGTTGCACTTCTATTTGCTCACTTTACCA
ATTGGAGAACTATTGCAACTGA
SEQ ID NO:189
MNFLKSFPFYAFLCFGQYFVAVTHAQPIDDTESQTTSVNLMADDTESAFATQTNSGGLDVVGL
ISMAKREEGEPKFVNQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLENY
CN
SEQ ID NO:190
TTCGTGAACCAACACTTG
SEQ ID NO:191
AAGCTTTCAGTTACAGTAGT
SEQ ID NO:192
GCATGCATGTGTTGAGC
SEQ ID NO:193
GGTAGTGTGCTGGCCA
SEQ ID NO:194
GGTGGCCAGCACACTACCTTCGTGAACCAACACTTGTG
SEQ ID NO:195
ATGGCGGATACAGCTAGAGGAACCCATCACGATATCATCGGCAGAGACCAGTACCCGATG
ATGGGCCGAGACCGAGACCAGTACCAGATGTCCGGACGAGGATCTGACTACTCCAAGTCT
AGGCAGATTGCTAAAGCTGCAACTGCTGTCACAGCTGGTGGTTCCCTCCTTGTTCTCTCCA
GCCTTACCCTTGTTGGAACTGTCATAGCTTTGACTGTTGCAACACCTCTGCTCGTTATCTTC
AGCCCAATCCTTGTCCCGGCTCTCATCACAGTTGCACTCCTCATCACCGGTTTTCTTTCCTC
TGGAGGGTTTGGCATTGCCGCTATAACCGTTTTCTCTTGGATTTACAAGTAAGCACACATT
TATCATCTTACTTCATAATTTTGTGCAATATGTGCATGCATGTGTTGAGCCAGTAGCTTTGG
ATCAATTTTTTTGGTAGAATAACAAATGTAACAATAAGAAATTGCAAATTCTAGGGAACA
TTTGGTTAACTAAATACGAAATTTGACCTAGCTAGCTTGAATGTGTCTGTGTATATCATCT
ATATAGGTAAAATGCTTGGTATGATACCTATTGATTGTGAATAGGTACGCAACGGGAGAG
CACCCACAGGGATCAGACAAGTTGGACAGTGCAAGGATGAAGTTGGGAAGCAAAGCTCA
GGATCTGAAAGACAGAGCTCAGTACTACGGACAGCAACATACTGGTGGGGAACATGACC
GTGACCGTACTCGTGGTGGCCAGCACACTACCTTCGTGAACCAACACTTGTGTGGATCTCA
TCTCGTTGAAGCTCTCTACTTGGTTTGTGGTGAGAGAGGATTCTTCTACACTCCTAAGACC
AGAAGGGAAGCTGAGGACTTGCAGGTGGGACAAGTTGAGTTGGGTGGAGGTCCTGGAGC
AGGATCTTTGCAACCTCTCGCTTTGGAAGGTTCTTTGCAGAAGAGAGGAATCGTTGAACA
ATGTTGCACTTCAATCTGTTCTTTGTATCAGTTGGAGAACTACTGTAACTGA
SEQ ID NO:196
MADTARGTHHDIIGRDQYPMMGRDRDQYQMSGRGSDYSKSRQIAKAATAVTAGGSLLVLSS
LTLVGTVIALTVATPLLVIFSPILVPALITVALLITGFLSSGGFGIAAITVFSWIYATGEHPQGSDK
LDSARMKLGSKAQDLKDRAQYYGQQHTGGEHDRDRTRGGQHTTFVNQHLCGSHLVEALYL
VCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQ
LENYCN
                                  序列表
<110>赛姆生物系统遗传公司
<120>在植物中生产胰岛素的方法
<130>9369-296
<150>60/478,818
<151>2003-06-17
<150>60/549,539
<151>2004-03-04
<160>196
<170>PatentIn version 3.1
<210>1
<211>1143
<212>DNA
<213>Artificial Sequence
<220>
<223>Insulin fusion protein nucleic acid sequence
<400>1
atgaacttcc ttaagtcttt ccctttctac gctttccttt gtttcggtca atacttcgtt     60
gctgttacgc atgctgacat tgtgatgaca cagtctccat cctccctggc tatgtcagtg    120
ggacagcggg tcactatgcg ctgcaagtcc agtcagagcc ttttaaaaag taccaatcaa    180
aagaactatt tggcctggta ccagcagaaa ccaggacagt ctcctaaact tctggtatac    240
tttgcatcca ctagggaatc tggggtccct gatcgcttca taggcagtgg atctgggaca    300
gatttcactc ttaccatcag cagtgtgcag gctgaagacc tggcagatta cttctgtcag    360
caacattata acactcctcc cacgttcggt gctgggacca agctggagct taagcggtct    420
ccgaacggtg cttctcatag cggttctgca ccaggcacta gctctgcatc tggatctcag    480
gtgcacctgc agcagtctgg agctgagctg atgaagcctg gggcctcaat gaagatatcc    540
tgcaaggcta ctggctacac attcagtagc tactggatag agtgggtaaa gcagaggcct    600
ggacatggcc ttgagtggat tggagagatt ttacctggca gtggtagtac tacctacaat    660
gagaagttca agggcaaggc cacattcact gcagatacat cctccaacac agcctacatg    720
caactcagca gcctgacatc tgaggactct gccgtctatt actgtgcaag attggatgtt    780
gactcctggg gccaaggcac cactctcaca gtctcgagtc aaccaattga tgacactgaa     840
tcccagacca cgtcagtgaa cctcatggcc gatgatactg agagcgcgtt tgctacacaa     900
acaaattcgg gaggtcttga cgttgtcgga ttgatctcca tggctaagag agaagaagga     960
gagcctaagt ttgttaatca acatctttgt ggatctcatc ttgttgaggc tctctacctt    1020
gtgtgtggag aaagaggatt tttctacact cctaaggctg ctaagggaat tgttgaacaa    1080
tgttgcactt ctatttgctc actttaccaa ttggagaact attgcaacaa ggatgaactt    1140
tga                                                                  1143
<210>2
<211>380
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin fusion protein
<400>2
Met Asn Phe Leu Lys Ser Phe Pro Phe Tyr Ala Phe Leu Cys Phe Gly
1               5                   10                  15
Gln Tyr Phe Val Ala Val Thr His Ala Asp Ile Val Met Thr Gln Ser
            20                  25                  30
Pro Ser Ser Leu Ala Met Ser Val Gly Gln Arg Val Thr Met Arg Cys
        35                  40                  45
Lys Ser Ser Gln Ser Leu Leu Lys Ser Thr Asn Gln Lys Asn Tyr Leu
    50                  55                  60
Ala Trp Tyr Gln Gln Lys Pro Gly Gln Ser Pro Lys Leu Leu Val Tyr
65                  70                  75                  80
Phe Ala Ser Thr Arg Glu Ser Gly Val Pro Asp Arg Phe Ile Gly Ser
                85                  90                  95
Gly Ser Gly Thr Asp Phe Thr Leu Thr Ile Ser Ser Val Gln Ala Glu
            100                 105                 110
Asp Leu Ala Asp Tyr Phe Cys Gln Gln His Tyr Asn Thr Pro Pro Thr
        115                 120                 125
Phe Gly Ala Gly Thr Lys Leu Glu Leu Lys Arg Ser Pro Asn Gly Ala
    130                 135                 140
Ser His Ser Gly Ser Ala Pro Gly Thr Ser Ser Ala Ser Gly Ser Gln
145                 150                 155                 160
Val His Leu Gln Gln Ser Gly Ala Glu Leu Met Lys Pro Gly Ala Ser
                165                 170                 175
Met Lys Ile Ser Cys Lys Ala Thr Gly Tyr Thr Phe Ser Ser Tyr Trp
            180                 185                 190
Ile Glu Trp Val Lys Gln Arg Pro Gly His Gly Leu Glu Trp Ile Gly
        195                 200                 205
Glu Ile Leu Pro Gly Ser Gly Ser Thr Thr Tyr Asn Glu Lys Phe Lys
    210                 215                 220
Gly Lys Ala Thr Phe Thr Ala Asp Thr Ser Ser Asn Thr Ala Tyr Met
225                 230                 235                 240
Gln Leu Ser Ser Leu Thr Ser Glu Asp Ser Ala Val Tyr Tyr Cys Ala
                245                 250                 255
Arg Leu Asp Val Asp Ser Trp Gly Gln Gly Thr Thr Leu Thr Val Ser
            260                 265                 270
Ser Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val Asn Leu
        275                 280                 285
Met Ala Asp Asp Thr Glu Ser Ala Phe Ala Thr Gln Thr Asn Ser Gly
    290                 295                 300
Gly Leu Asp Val Val Gly Leu Ile Ser Met Ala Lys Arg Glu Glu Gly
305                 310                 315                 320
Glu Pro Lys Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu
                325                 330                 335
Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys
            340                 345                 350
Ala Ala Lys Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu
        355                 360                 365
Tyr Gln Leu Glu Asn Tyr Cys Asn Lys Asp Glu Leu
    370                 375                 380
<210>3
<211>945
<212>DNA
<213>Artificial Sequence
<220>
<223>Insulin fusion protein nucleic acid sequence
<400>3
atggcggata cagctagagg aacccatcac gatatcatcg gcagagacca gtacccgatg     60
atgggccgag accgagacca gtaccagatg tccggacgag gatctgacta ctccaagtct    120
aggcagattg ctaaagctgc aactgctgtc acagctggtg gttccctcct tgttctctcc    180
agccttaccc ttgttggaac tgtcatagct ttgactgttg caacacctct gctcgttatc    240
ttcagcccaa tccttgtccc ggctctcatc acagttgcac tcctcatcac cggttttctt    300
tcctctggag ggtttggcat tgccgctata accgttttct cttggattta cgcaacggga    360
gagcacccac agggatcaga caagttggac agtgcaagga tgaagttggg aagcaaagct    420
caggatctga aagacagagc tcagtactac ggacagcaac atactggtgg ggaacatgac    480
cgtgaccgta ctcgtggtgg ccagcacact accatggctg agatcacccg cattcctctc    540
tacaaaggta agtctctccg taaggcgctg aaggaacatg gacttctaga agacttcttg    600
cagaaacaac agtatggcat ctcgagcaag ttccaaccaa ttgatgacac tgaatcccag    660
accacgtcag tgaacctcat ggccgatgat actgagagcg cgtttgctac acaaacaaat    720
tcgggaggtc ttgacgttgt cggattgatc tccatggcta agagagaaga aggagagcct    780
aagtttgtta atcaacatct ttgtggatct catcttgttg aggctctcta ccttgtgtgt    840
ggagaaagag gatttttcta cactcctaag gctgctaagg gaattgttga acaatgttgc    900
acttctattt gctcacttta ccaattggag aactattgca actga                    945
<210>4
<211>314
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin fusion protein
<400>4
Met Ala Asp Thr Ala Arg Gly Thr His His Asp Ile Ile Gly Arg Asp
1               5                   10                  15
Gln Tyr Pro Met Met Gly Arg Asp Arg Asp Gln Tyr Gln Met Ser Gly
            20                  25                  30
Arg Gly Ser Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Ala Thr
        35                  40                  45
Ala Val Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu
    50                  55                  60
Val Gly Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile
65                  70                  75                  80
Phe Ser Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile
                85                  90                  95
Thr Gly Phe Leu Ser Ser Gly Gly Phe Gly Ile Ala Ala Ile Thr Val
            100                 105                 110
Phe Ser Trp Ile Tyr Ala Thr Gly Glu His Pro Gln Gly Ser Asp Lys
        115                 120                 125
Leu Asp Ser Ala Arg Met Lys Leu Gly Ser Lys Ala Gln Asp Leu Lys
    130                 135                 140
Asp Arg Ala Gln Tyr Tyr Gly Gln Gln His Thr Gly Gly Glu His Asp
145                 150                 155                 160
Arg Asp Arg Thr Arg Gly Gly Gln His Thr Thr Met Ala Glu Ile Thr
                165                 170                 175
Arg Ile Pro Leu Tyr Lys Gly Lys Ser Leu Arg Lys Ala Leu Lys Glu
            180                 185                 190
His Gly Leu Leu Glu Asp Phe Leu Gln Lys Gln Gln Tyr Gly Ile Ser
        195                 200                 205
Ser Lys Phe Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val
    210                 215                 220
Asn Leu Met Ala Asp Asp Thr Glu Ser Ala Phe Ala Thr Gln Thr Asn
225                 230                 235                 240
Ser Gly Gly Leu Asp Val Val Gly Leu Ile Ser Met Ala Lys Arg Glu
                245                 250                 255
Glu Gly Glu Pro Lys Phe Val Asn Gln His Leu Cys Gly Ser His Leu
            260                 265                 270
Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr
        275                 280                 285
Pro Lys Ala Ala Lys Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys
    290                 295                 300
Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
305                 310
<210>5
<211>1011
<212>DNA
<213>Artificial Sequence
<220>
<223>Insulin fusion protein nucleic acid sequence
<400>5
atgaacttcc ttaagtcttt ccctttctac gctttccttt gtttcggtca atacttcgtt     60
gctgttacgc atgcctttgt taatcaacat ctttgtggat ctcatcttgt tgaggctctc    120
taccttgtgt gtggagaaag aggatttttc tacactccta agactagaag aaagagagga    180
attgttgaac aatgttgcac ttctatttgc tcactttacc aattggagaa ctattgcaac    240
agaagaaaga gagacattgt gatgacacag tctccatcct ccctggctat gtcagtggga    300
cagcgggtca ctatgcgctg caagtccagt cagagccttt taaaaagtac caatcaaaag    360
aactatttgg cctggtacca gcagaaacca ggacagtctc ctaaacttct ggtatacttt    420
gcatccacta gggaatctgg ggtccctgat cgcttcatag gcagtggatc tgggacagat    480
ttcactctta ccatcagcag tgtgcaggct gaagacctgg cagattactt ctgtcagcaa    540
cattataaca ctcctcccac gttcggtgct gggaccaagt tggagcttaa gcggtctccg    600
aacggtgctt ctcatagcgg ttctgcacca ggcactagct ctgcatctgg atctcaggtg    660
cacctgcagc agtctggagc tgagctgatg aagcctgggg cctcaatgaa gatatcctgc    720
aaggctactg gctacacatt cagtagctac tggatagagt gggtaaagca gaggcctgga    780
catggccttg agtggattgg agagatttta cctggcagtg gtagtactac ctacaatgag    840
aagttcaagg gcaaggccac attcactgca gatacatcct ccaacacagc ctacatgcaa    900
ctcagcagcc tgacatctga ggactctgcc gtctattact gtgcaagatt ggatgttgac    960
tcctggggcc aaggcaccac tctcacagtg agctcaaagg atgagctttg a            1011
<210>6
<211>336
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin fusion protein
<400>6
Met Asn Phe Leu Lys Ser Phe Pro Phe Tyr Ala Phe Leu Cys Phe Gly
1               5                   10                  15
Gln Tyr Phe Val Ala Val Thr His Ala Phe Val Asn Gln His Leu Cys
            20                  25                  30
Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly
        35                  40                  45
Phe Phe Tyr Thr Pro Lys Thr Arg Arg Lys Arg Gly Ile Val Glu Gln
    50                  55                  60
Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
65                  70                  75                  80
Arg Arg Lys Arg Asp Ile Val Met Thr Gln Ser Pro Ser Ser Leu Ala
                85                  90                  95
Met Ser Val Gly Gln Arg Val Thr Met Arg Cys Lys Ser Ser Gln Ser
            100                 105                 110
Leu Leu Lys Ser Thr Asn Gln Lys Asn Tyr Leu Ala Trp Tyr Gln Gln
        115                 120                 125
Lys Pro Gly Gln Ser Pro Lys Leu Leu Val Tyr Phe Ala Ser Thr Arg
    130                 135                 140
Glu Ser Gly Val Pro Asp Arg Phe Ile Gly Ser Gly Ser Gly Thr Asp
145                 150                 155                 160
Phe Thr Leu Thr Ile Ser Ser Val Gln Ala Glu Asp Leu Ala Asp Tyr
                165                 170                 175
Phe Cys Gln Gln His Tyr Asn Thr Pro Pro Thr Phe Gly Ala Gly Thr
            180                 185                 190
Lys Leu Glu Leu Lys Arg Ser Pro Asn Gly Ala Ser His Ser Gly Ser
        195                 200                 205
Ala Pro Gly Thr Ser Ser Ala Ser Gly Ser Gln Val His Leu Gln Gln
    210                 215                 220
Ser Gly Ala Glu Leu Met Lys Pro Gly Ala Ser Met Lys Ile Ser Cys
225                 230                 235                 240
Lys Ala Thr Gly Tyr Thr Phe Ser Ser Tyr Trp Ile Glu Trp Val Lys
                245                 250                 255
Gln Arg Pro Gly His Gly Leu Glu Trp Ile Gly Glu Ile Leu Pro Gly
            260                 265                 270
Ser Gly Ser Thr Thr Tyr Asn Glu Lys Phe Lys Gly Lys Ala Thr Phe
        275                 280                 285
Thr Ala Asp Thr Ser Ser Asn Thr Ala Tyr Met Gln Leu Ser Ser Leu
    290                 295                 300
Thr Ser Glu Asp Ser Ala Val Tyr Tyr Cys Ala Arg Leu Asp Val Asp
305                 310                 315                 320
Ser Trp Gly Gln Gly Thr Thr Leu Thr Val Ser Ser Lys Asp Glu Leu
                325                 330                 335
<210>7
<211>110
<212>PRT
<213>Homo sapiens
<400>7
Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu
1               5                   10                  15
Trp Gly Pro Asp Pro Ala Ala Ala Phe Val Asn Gln His Leu Cys Gly
            20                  25                  30
Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu Gln Val Gly
    50                  55                  60
Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu
65                  70                  75                  80
Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys
                85                  90                  95
Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105                 110
<210>8
<211>31
<212>PRT
<213>Equus przewalskii
<400>8
Glu Ala Glu Asp Pro Gln Val Gly Glu Val Glu Leu Gly Gly Gly Pro
1               5                   10                  15
Gly Leu Gly Gly Leu Gln Pro Leu Ala Leu Ala Gly Pro Gln Gln
            20                  25                  30
<210>9
<211>86
<212>PRT
<213>Equus caballus
<220>
<221>MISC_FEATURE
<222>(31)..(32)
<223>X=any amino acid
<220>
<221>MISC_FEATURE
<222>(64)..(65)
<223>X=any amino acid
<400>9
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Xaa Xaa
            20                  25                  30
Glu Ala Glu Asp Pro Gln Val Gly Glu Val Glu Leu Gly Gly Gly Pro
        35                  40                  45
Gly Leu Gly Gly Leu Gln Pro Leu Ala Leu Ala Gly Pro Gln Gln Xaa
    50                  55                  60
Xaa Gly Ile Val Glu Gln Cys Cys Thr Gly Ile Cys Ser Leu Tyr Gln
65                  70                  75                  80
Leu Glu Asn Tyr Cys Asn
                85
<210>10
<211>110
<212>PRT
<213>Oryctolagus cuniculus
<400>10
Met Ala Ser Leu Ala Ala Leu Leu Pro Leu Leu Ala Leu Leu Val Leu
1               5                   10                  15
Cys Arg Leu Asp Pro Ala Gln Ala Phe Val Asn Gln His Leu Cys Gly
            20                  25                  30
Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Lys Ser Arg Arg Glu Val Glu Glu Leu Gln Val Gly
    50                  55                  60
Gln Ala Glu Leu Gly Gly Gly Pro Gly Ala Gly Gly Leu Gln Pro Ser
65                  70                  75                  80
Ala Leu Glu Leu Ala Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys
                85                  90                  95
Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105                 110
<210>11
<211>21
<212>PRT
<213>Balaenoptera physalus
<400>11
Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>12
<211>21
<212>PRT
<213>Balaenoptera borealis
<400>12
Gly Ile Val Glu Gln Cys Cys Ala Ser Thr Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>13
<211>108
<212>PRT
<213>Sus scrofa
<400>13
Met Ala Leu Trp Thr Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu
1               5                   10                  15
Trp Ala Pro Ala Pro Ala Gln Ala Phe Val Asn Gln His Leu Cys Gly
            20                  25                  30
Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Lys Ala Arg Arg Glu Ala Glu Asn Pro Gln Ala Gly
    50                  55                  60
Ala Val Glu Leu Gly Gly Gly Leu Gly Gly Leu Gln Ala Leu Ala Leu
65                  70                  75                  80
Glu Gly Pro Pro Gln Lys Arg Gly Ile Val Glu Gln Cys Cys Thr Ser
                85                  90                  95
Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105
<210>14
<211>21
<212>PRT
<213>Elephas maximus
<400>14
Gly Ile Val Glu Gln Cys Cys Thr Gly Val Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>15
<211>105
<212>PRT
<213>Bos taurus
<400>15
Met Ala Leu Trp Thr Arg Leu Arg Pro Leu Leu Ala Leu Leu Ala Leu
1                5                  10                  15
Trp Pro Pro Pro Pro Ala Arg Ala Phe Val Asn Gln His Leu Cys Gly
            20                  25                  30
Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Lys Ala Arg Arg Glu Val Glu Gly Pro Gln Val Gly
    50                  55                  60
Ala Leu Glu Leu Ala Gly Gly Pro Gly Ala Gly Gly Leu Glu Gly Pro
65                  70                  75                  80
Pro Gln Lys Arg Gly Ile Val Glu Gln Cys Cys Ala Ser Val Cys Ser
                85                  90                  95
Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105
<210>16
<211>105
<212>PRT
<213>Ovis aries
<400>16
Met Ala Leu Trp Thr Arg Leu Val Pro Leu Leu Ala Leu Leu Ala Leu
1               5                   10                  15
Trp Ala Pro Ala Pro Ala His Ala Phe Val Asn Gln His Leu Cys Gly
            20                  25                  30
Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Lys Ala Arg Arg Glu Val Glu Gly Pro Gln Val Gly
    50                  55                  60
Ala Leu Glu Leu Ala Gly Gly Pro Gly Ala Gly Gly Leu Glu Gly Pro
65                  70                  75                  80
Pro Gln Lys Arg Gly Ile Val Glu Gln Cys Cys Ala Gly Val Cys Ser
                85                  90                  95
Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105
<210>17
<211>21
<212>PRT
<213>Camelus dromedaries
<400>17
Gly Ile Val Glu Gln Cys Cys Ala Ser Val Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>18
<211>110
<212>PRT
<213>Canis sp.
<400>18
Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu
1               5                   10                  15
Trp Ala Pro Ala Pro Thr Arg Ala Phe Val Asn Gln His Leu Cys Gly
            20                  25                  30
Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Lys Ala Arg Arg Glu Val Glu Asp Leu Gln Val Arg
    50                  55                  60
Asp Val Glu Leu Ala Gly Ala Pro Gly Glu Gly Gly Leu Gln Pro Leu
65                  70                  75                  80
Ala Leu Glu Gly Ala Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys
                85                  90                  95
Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105                 110
<210>19
<211>21
<212>PRT
<213>Hystrix cristata
<400>19
Gly Ile Val Asp Gln Cys Cys Thr Gly Val Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Gln Asn Tyr Cys Asn
            20
<210>20
<211>108
<212>PRT
<213>Aotus trivirgatus
<400>20
Met Ala Leu Trp Met His Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu
1               5                   10                  15
Trp Gly Pro Glu Pro Ala Pro Ala Phe Val Asn Gln His Leu Cys Gly
            20                  25                  30
Pro His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Ala Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu Gln Val Gly
    50                  55                  60
Gln Val Glu Leu Gly Gly Gly Ser Ile Thr Gly Ser Leu Pro Pro Leu
65                  70                  75                  80
Glu Gly Pro Met Gln Lys Arg Gly Val Val Asp Gln Cys Cys Thr Ser
                85                  90                  95
Ile Cys Ser Leu Tyr Gln Leu Gln Asn Tyr Cys Asn
            100                 105
<210>21
<211>110
<212>PRT
<213>Macaca fasicularis
<400>21
Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu
1               5                   10                  15
Trp Gly Pro Asp Pro Ala Pro Ala Phe Val Asn Gln His Leu Cys Gly
            20                  25                  30
Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Pro Gln Val Gly
    50                  55                  60
Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu
65                  70                  75                  80
Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys
                85                  90                  95
Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105                 110
<210>22
<211>110
<212>PRT
<213>Cercopithecus aethiops
<400>22
Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu
1               5                   10                  15
Trp Gly Pro Asp Pro Val Pro Ala Phe Val Asn Gln His Leu Cys Gly
            20                  25                  30
Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Pro Gln Val Gly
    50                  55                  60
Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu
65                  70                  75                  80
Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys
                85                  90                  95
Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105                 110
<210>23
<211>110
<212>PRT
<213>Pan troglodytes
<400>23
Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Val Leu Leu Ala Leu
1               5                   10                  15
Trp Gly Pro Asp Pro Ala Ser Ala Phe Val Asn Gln His Leu Cys Gly
            20                  25                  30
Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu Gln Val Gly
    50                  55                  60
Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu
65                  70                  75                  80
Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys
                85                  90                  95
Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105                 110
<210>24
<211>21
<212>PRT
<213>Ornithorhynchus anatinus
<400>24
Gly Ile Val Glu Glu Cys Cys Lys Gly Val Cys Ser Met Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>25
<211>65
<212>PRT
<213>Pongo pygmaeus
<400>25
Cys Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg
1               5                   10                  15
Gly Phe Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu Gln
            20                  25                  30
Val Gly Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln
        35                  40                  45
Pro Leu Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln
    50                  55                  60
Cys
65
<210>26
<211>110
<212>PRT
<213>Gorilla gorilla
<400>26
Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu
1               5                   10                  15
Trp Gly Pro Asp Pro Ala Ala Ala Phe Val Asn Gln His Leu Cys Gly
            20                  25                  30
Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu Gln Val Gly
    50                  55                  60
Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu
65                  70                  75                  80
Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys
                85                  90                  95
Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105                 110
<210>27
<211>51
<212>PRT
<213>Saimiri sciureus
<400>27
Phe Val Asn Gln His Leu Cys Gly Pro His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Ala Pro Lys Thr Gly Val
            20                  25                  30
Val Asp Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Gln Asn
        35                  40                  45
Tyr Cys Asn
    50
<210>28
<211>110
<212>PRT
<213>Cricetulus longicaudatus
<400>28
Met Thr Leu Trp Met Arg Leu Leu Pro Leu Leu Thr Leu Leu Val Leu
1               5                   10                  15
Trp Glu Pro Asn Pro Ala Gln Ala Phe Val Asn Gln His Leu Cys Gly
            20                  25                  30
Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Lys Ser Arg Arg Gly Val Glu Asp Pro Gln Val Ala
    50                  55                  60
Gln Leu Glu Leu Gly Gly Gly Pro Gly Ala Asp Asp Leu Gln Thr Leu
65                  70                  75                  80
Ala Leu Glu Val Ala Gln Gln Lys Arg Gly Ile Val Asp Gln Cys Cys
                85                  90                  95
Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105                 110
<210>29
<211>110
<212>PRT
<213>Rattus norvegicus
<400>29
Met Ala Leu Trp Met Arg Phe Leu Pro Leu Leu Ala Leu Leu Val Leu
1               5                   10                  15
Trp Glu Pro Lys Pro Ala Gln Ala Phe Val Lys Gln His Leu Cys Gly
            20                  25                  30
Pro His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Lys Ser Arg Arg Glu Val Glu Asp Pro Gln Val Pro
    50                  55                  60
Gln Leu Glu Leu Gly Gly Gly Pro Glu Ala Gly Asp Leu Gln Thr Leu
65                  70                  75                  80
Ala Leu Glu Val Ala Arg Gln Lys Arg Gly Ile Val Asp Gln Cys Cys
                85                  90                  95
Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105                 110
<210>30
<211>110
<212>PRT
<213>Rattus norvegicus
<400>30
Met Ala Leu Trp Ile Arg Phe Leu Pro Leu Leu Ala Leu Leu Ile Leu
1               5                   10                  15
Trp Glu Pro Arg Pro Ala Gln Ala Phe Val Lys Gln His Leu Cys Gly
            20                  25                  30
Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Met Ser Arg Arg Glu Val Glu Asp Pro Gln Val Ala
    50                  55                  60
Gln Leu Glu Leu Gly Gly Gly Pro Gly Ala Gly Asp Leu Gln Thr Leu
65                  70                  75                  80
Ala Leu Glu Val Ala Arg Gln Lys Arg Gly Ile Val Asp Gln Cys Cys
                85                  90                  95
Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105                 110
<210>31
<211>21
<212>PRT
<213>Acomys cahirinus
<400>31
Gly Ile Val Asp Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>32
<211>108
<212>PRT
<213>Mus musculus
<400>32
Met Ala Leu Leu Val His Phe Leu Pro Leu Leu Ala Leu Leu Ala Leu
1               5                   10                  15
Trp Glu Pro Lys Pro Thr Gln Ala Phe Val Lys Gln His Leu Cys Gly
            20                  25                  30
Pro His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Lys Ser Arg Arg Glu Val Glu Asp Pro Gln Val Glu
     50                  55                  60
Gln Leu Glu Leu Gly Gly Ser Pro Gly Asp Leu Gln Thr Leu Ala Leu
65                  70                  75                  80
Glu Val Ala Arg Gln Lys Arg Gly Ile Val Asp Gln Cys Cys Thr Ser
                85                  90                  95
Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105
<210>33
<211>110
<212>PRT
<213>Mus musculus
<400>33
Met Ala Leu Trp Met Arg Phe Leu Pro Leu Leu Ala Leu Leu Phe Leu
1               5                   10                  15
Trp Glu Ser His Pro Thr Gln Ala Phe Val Lys Gln His Leu Cys Gly
            20                  25                  30
Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Met Ser Arg Arg Glu Val Glu Asp Pro Gln Val Ala
    50                  55                  60
Gln Leu Glu Leu Gly Gly Gly Pro Gly Ala Gly Asp Leu Gln Thr Leu
65                  70                  75                  80
Ala Leu Glu Val Ala Gln Gln Lys Arg Gly Ile Val Asp Gln Cys Cys
                85                  90                  95
Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105                 110
<210>34
<211>21
<212>PRT
<213>Chinchilla brevicaudata
<400>34
Gly Ile Val Asp Gln Cys Cys Thr Ser Ile Cys Thr Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>35
<211>110
<212>PRT
<213>Cavia porcellus
<400>35
Met Ala Leu Trp Met His Leu Leu Thr Val Leu Ala Leu Leu Ala Leu
1               5                   10                  15
Trp Gly Pro Asn Thr Gly Gln Ala Phe Val Ser Arg His Leu Cys Gly
            20                  25                  30
Ser Asn Leu Val Glu Thr Leu Tyr Ser Val Cys Gln Asp Asp Gly Phe
        35                  40                  45
Phe Tyr Ile Pro Lys Asp Arg Arg Glu Leu Glu Asp Pro Gln Val Glu
    50                  55                  60
Gln Thr Glu Leu Gly Met Gly Leu Gly Ala Gly Gly Leu Gln Pro Leu
65                  70                  75                  80
Ala Leu Glu Met Ala Leu Gln Lys Arg Gly Ile Val Asp Gln Cys Cys
                85                  90                  95
Thr Gly Thr Cys Thr Arg His Gln Leu Gln Ser Tyr Cys Asn
            100                 105                 110
<210>36
<211>109
<212>PRT
<213>Octodon degus
<400>36
Met Ala Pro Trp Met His Leu Leu Thr Val Leu Ala Leu Leu Ala Leu
1               5                   10                  15
Trp Gly Pro Asn Ser Val Gln Ala Tyr Ser Ser Gln His Leu Cys Gly
            20                  25                  30
Ser Asn Leu Val Glu Ala Leu Tyr Met Thr Cys Gly Arg Ser Gly Phe
        35                  40                  45
Tyr Arg Pro His Asp Arg Arg Glu Leu Glu Asp Leu Gln Val Glu Gln
    50                  55                  60
Ala Glu Leu Gly Leu Glu Ala Gly Gly Leu Gln Pro Ser Ala Leu Glu
65                  70                  75                  80
Met Ile Leu Gln Lys Arg Gly Ile Val Asp Gln Cys Cys Asn Asn Ile
                85                  90                  95
Cys Thr Phe Asn Gln Leu Gln Asn Tyr Cys Asn Val Pro
            100                 105
<210>37
<211>21
<212>PRT
<213>Didelphis virginiana
<400>37
Gly Ile Val Glu Gln Cys Cys Asn Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Thr Tyr Cys Asn
            20
<210>38
<211>108
<212>PRT
<213>Rodentia sp.
<400>38
Met Ala Leu Trp Ile Leu Leu Pro Leu Leu Ala Leu Leu Ile Leu Trp
1               5                   10                  15
Gly Pro Asp Pro Ala Gln Ala Phe Val Asn Gln His Leu Cys Gly Ser
            20                  25                  30
His Leu Val Glu Ala Leu Tyr Ile Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Met Ser Arg Arg Glu Val Glu Asp Pro Gln Val Gly
    50                  55                  60
Gln Val Glu Leu Gly Ala Gly Pro Gly Ala Gly Ser Glu Gln Thr Leu
65                  70                  75                  80
Ala Leu Glu Val Ala Arg Gln Ala Arg Ile Val Gln Gln Cys Thr Ser
                85                  90                  95
Gly Ile Cys Ser Leu Tyr Gln Glu Asn Tyr Cys Asn
            100                 105
<210>39
<211>110
<212>PRT
<213>Psammomys obesus
<400>39
Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Phe Leu Ile Leu
1               5                   10                  15
Trp Glu Pro Ser Pro Ala His Ala Phe Val Asn Gln His Leu Cys Gly
            20                  25                  30
Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Lys Phe Arg Arg Gly Val Asp Asp Pro Gln Met Pro
    50                  55                  60
Gln Leu Glu Leu Gly Gly Ser Pro Gly Ala Gly Asp Leu Arg Ala Leu
65                  70                  75                  80
Ala Leu Glu Val Ala Arg Gln Lys Arg Gly Ile Val Glu Gln Cys Cys
                85                  90                  95
Thr Gly Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105                 110
<210>40
<211>110
<212>PRT
<213>Spermophilus tridecemlineatus
<400>40
Met Ala Leu Trp Thr Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu
1               5                   10                  15
Leu Gly Pro Asp Pro Ala Gln Ala Phe Val Asn Gln His Leu Cys Gly
            20                  25                  30
Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Thr Pro Lys Ser Arg Arg Glu Val Glu Glu Gln Gln Gly Gly
    50                  55                  60
Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Leu Pro Gln Pro Leu
65                  70                  75                  80
Ala Leu Glu Met Ala Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys
                85                  90                  95
Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105                 110
<210>41
<211>29
<212>PRT
<213>Cavia porcellus
<400>41
Glu Leu Glu Asp Pro Gln Val Glu Gln Thr Glu Leu Gly Met Gly Leu
1               5                   10                  15
Gly Ala Gly Gly Leu Gln Pro Leu Gln Gly Ala Leu Gln
            20                  25
<210>42
<211>107
<212>PRT
<213>Ballus gallus
<400>42
Met Ala Leu Trp Ile Arg Ser Leu Pro Leu Leu Ala Leu Leu Val Phe
1               5                   10                  15
Ser Gly Pro Gly Thr Ser Tyr Ala Ala Ala Asn Gln His Leu Cys Gly
            20                  25                  30
Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe
        35                  40                  45
Phe Tyr Ser Pro Lys Ala Arg Arg Asp Val Glu Gln Pro Leu Val Ser
    50                  55                  60
Ser Pro Leu Arg Gly Glu Ala Gly Val Leu Pro Phe Gln Gln Glu Glu
65                  70                  75                  80
Tyr Glu Lys Val Lys Arg Gly Ile Val Glu Gln Cys Cys His Asn Thr
                85                  90                  95
Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
            100                 105
<210>43
<211>81
<212>PRT
<213>Anas platyrhynchos
<220>
<221>MISC_FEATURE
<222>(31)..(32)
<223>X=any amino acid
<220>
<221>MISC_FEATURE
<222>(59)..(60)
<223>X=any amino acid
<400>43
Ala Ala Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Ser Pro Lys Thr Xaa Xaa
            20                  25                  30
Asp Val Glu Gln Pro Leu Val Asn Gly Pro Leu His Gly Glu Val Gly
        35                  40                  45
Glu Leu Pro Phe Gln His Glu Glu Tyr Gln Xaa Xaa Gly Ile Val Glu
    50                  55                  60
Gln Cys Cys Glu Asn Pro Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys
65                  70                  75                  80
Asn
<210>44
<211>21
<212>PRT
<213>Anser anser
<400>44
Gly Ile Val Glu Gln Cys Cys Glu Asn Pro Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>45
<211>103
<212>PRT
<213>Selasphorus rufus
<400>45
Ile Gln Ser Leu Pro Leu Leu Ala Leu Leu Ala Leu Ser Gly Pro Gly
1               5                   10                  15
Thr Ser His Ala Ala Val Asn Gln His Leu Cys Gly Ser His Leu Val
            20                  25                  30
Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Ser Pro
        35                  40                  45
Lys Ala Arg Arg Asp Ala Glu His Pro Leu Val Asn Gly Pro Leu His
    50                  55                  60
Gly Glu Val Gly Asp Leu Pro Phe Gln Gln Glu Glu Phe Glu Lys Val
65                  70                  75                  80
Lys Arg Gly Ile Val Glu Gln Cys Cys His Asn Thr Cys Ser Leu Tyr
                85                  90                  95
Gln Leu Glu Asn Tyr Cys Asn
            100
<210>46
<211>108
<212>PRT
<213>Danio rerio
<400>46
Met Ala Val Trp Leu Gln Ala Gly Ala Leu Leu Val Leu Leu Val Val
1               5                   10                  15
Ser Ser Val Ser Thr Asn Pro Gly Thr Pro Gln His Leu Cys Gly Ser
            20                  25                  30
His Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Pro Thr Gly Phe Phe
        35                  40                  45
Tyr Asn Pro Lys Arg Asp Val Glu Pro Leu Leu Gly Phe Leu Pro Pro
    50                  55                  60
Lys Ser Ala Gln Glu Thr Glu Val Ala Asp Phe Ala Phe Lys Asp His
65                  70                  75                  80
Ala Glu Leu Ile Arg Lys Arg Gly Ile Val Glu Gln Cys Cys His Lys
                85                  90                  95
Pro Cys Ser Ile Phe Glu Leu Gln Asn Tyr Cys Asn
            100                 105
<210>47
<211>108
<212>PRT
<213>Cyprinus carpio
<400>47
Met Ala Val Trp Ile Gln Ala Gly Ala Leu Leu Phe Leu Leu Ala Val
1               5                   10                  15
Ser Ser Val Asn Ala Asn Ala Gly Ala Pro Gln His Leu Cys Gly Ser
            20                  25                  30
His Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Pro Thr Gly Phe Phe
        35                  40                  45
Tyr Asn Pro Lys Arg Asp Val Asp Pro Pro Leu Gly Phe Leu Pro Pro
    50                  55                  60
Lys Ser Ala Gln Glu Thr Glu Val Ala Asp Phe Ala Phe Lys Asp His
65                  70                  75                  80
Ala Glu Val Ile Arg Lys Arg Gly Ile Val Glu Gln Cys Cys His Lys
                85                  90                  95
Pro Cys Ser Ile Phe Glu Leu Gln Asn Tyr Cys Asn
            100                 105
<210>48
<211>21
<212>PRT
<213>Batrachoididae gen.sp.
<400>48
Gly Ile Val Glu Gln Cys Cys His Arg Pro Cys Asp Ile Phe Asp Leu
1               5                   10                  15
Gln Ser Tyr Cys Asn
            20
<210>49
<211>21
<212>PRT
<213>Thunnus thynnus
<400>49
Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Asn Ile Phe Asp Leu
1               5                   10                  15
Gln Asn Tyr Cys Asn
            20
<210>50
<211>21
<212>PRT
<213>Katsuwonus pelamis
<400>50
Gly Ile His Glx Glx Cys Cys His Lys Pro Cys Asx Ile Phe Glx Leu
1               5                   10                  15
Glx Asx Tyr Cys Asn
            20
<210>51
<211>116
<212>PRT
<213>Lophius piscatorius
<400>51
Met Ala Ala Leu Trp Leu Gln Ser Phe Ser Leu Leu Val Leu Leu Val
1               5                   10                  15
Val Ser Trp Pro Gly Ser Gln Ala Val Ala Pro Ala Gln His Leu Cys
            20                  25                  30
Gly Ser His Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Asp Arg Gly
        35                  40                  45
Phe Phe Tyr Asn Pro Lys Arg Asp Val Asp Gln Leu Leu Gly Phe Leu
    50                  55                  60
Pro Pro Lys Ser Gly Gly Ala Ala Ala Ala Gly Ala Asp Asn Glu Val
65                  70                  75                  80
Ala Glu Phe Ala Phe Lys Asp Gln Met Glu Met Met Val Lys Arg Gly
                85                  90                  95
Ile Val Glu Gln Cys Cys His Arg Pro Cys Asn Ile Phe Asp Leu Gln
            100                 105                 110
Asn Tyr Cys Asn
        115
<210>52
<211>115
<212>PRT
<213>Myxine glutinosa
<400>52
Met Ala Leu Ser Pro Phe Leu Ala Ala Val Ile Pro Leu Val Leu Leu
1               5                   10                  15
Leu Ser Arg Ala Pro Pro Ser Ala Asp Thr Arg Thr Thr Gly His Leu
            20                  25                  30
Cys Gly Lys Asp Leu Val Asn Ala Leu Tyr Ile Ala Cys Gly Val Arg
        35                  40                  45
Gly Phe Phe Tyr Asp Pro Thr Lys Met Lys Arg Asp Thr Gly Ala Leu
    50                  55                  60
Ala Ala Phe Leu Pro Leu Ala Tyr Ala Glu Asp Asn Glu Ser Gln Asp
65                  70                  75                  80
Asp Glu Ser Ile Gly Ile Asn Glu Val Leu Lys Ser Lys Arg Gly Ile
                85                  90                  95
Val Glu Gln Cys Cys His Lys Arg Cys Ser Ile Tyr Asp Leu Glu Asn
            100                 105                 110
Tyr Cys Asn
        115
<210>53
<211>105
<212>PRT
<213>Oncorhynchus keta
<400>53
Met Ala Phe Trp Leu Gln Ala Ala Ser Leu Leu Val Leu Leu Ala Leu
1               5                   10                  15
Ser Pro Gly Val Asp Ala Ala Ala Ala Gln His Leu Cys Gly Ser His
            20                  25                  30
Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Glu Lys Gly Phe Phe Tyr
        35                  40                  45
Thr Pro Lys Arg Asp Val Asp Pro Leu Ile Gly Phe Leu Ser Pro Lys
    50                  55                  60
Ser Ala Lys Glu Asn Glu Glu Tyr Pro Phe Lys Asp Gln Thr Glu Met
65                  70                  75                  80
Met Val Lys Arg Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Asn
                85                  90                  95
Ile Phe Asp Leu Gln Asn Tyr Cys Asn
            100                 105
<210>54
<211>21
<212>PRT
<213>Myoxocephalus scorpius
<400>54
Gly Ile Val Glu Gln Cys Cys His Arg Pro Cys Asn Ile Arg Val Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>55
<211>21
<212>PRT
<213>Lepisosteus spatula
<400>55
Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Thr Ile Tyr Glu Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>56
<211>21
<212>PRT
<213>Platichthys flesus
<400>56
Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Asn Ile Phe Asp Leu
1               5                   10                  15
Gln Asn Tyr Cys Asn
            20
<210>57
<211>21
<212>PRT
<213>Hydrolagus colliei
<400>57
Gly Ile Val Glu Gln Cys Cys His Asn Thr Cys Ser Leu Ala Asn Leu
1               5                   10                  15
Glu Gly Tyr Cys Asn
            20
<210>58
<211>22
<212>PRT
<213>Squalus acanthias
<400>58
Gly Ile Val Glu His Cys Cys His Asn Thr Cys Ser Leu Tyr Asp Leu
1               5                   10                  15
Glu Gly Tyr Cys Asn Gln
            20
<210>59
<211>21
<212>PRT
<213>Torpedo marmorata
<400>59
Gly Ile Val Glu His Cys Cys His Asn Thr Cys Ser Leu Phe Asp Leu
1               5                   10                  15
Glu Gly Tyr Cys Asn
            20
<210>60
<211>89
<212>PRT
<213>Callorhinchus milii
<400>60
Val Pro Thr Gln Arg Leu Cys Gly Ser His Leu Val Asp Ala Leu Tyr
1               5                   10                  15
Phe Val Cys Gly Glu Arg Gly Phe Phe Tyr Ser Pro Lys Gln Ile Arg
            20                  25                  30
Asp Val Gly Pro Leu Ser Ala Phe Arg Asp Leu Glu Pro Pro Leu Asp
        35                  40                  45
Thr Glu Met Glu Asp Arg Phe Pro Tyr Arg Gln Gln Leu Ala Gly Ser
    50                  55                  60
Lys Met Lys Arg Gly Ile Val Glu Gln Cys Cys His Asn Thr Cys Ser
65                  70                  75                  80
Leu Val Asn Leu Glu Gly Tyr Cys Asn
                85
<210>6l
<211>21
<212>PRT
<213>Petromyzon marinus
<400>61
Gly Ile Val Glu Gln Cys Cys His Arg Lys Cys Ser Ile Tyr Asp Met
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>62
<211>21
<212>PRT
<213>Oncorhynchus gorbuscha
<400>62
Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Asn Ile Phe Asp Leu
1               5                   10                  15
Gln Asn Tyr Cys Asn
            20
<210>63
<211>21
<212>PRT
<213>Amia calva
<400>63
Gly Ile Val Glu Gln Cys Cys Leu Lys Pro Cys Thr Ile Tyr Glu Met
1               5                   10                  15
Glu Lys Tyr Cys Asn
            20
<210>64
<211>21
<212>PRT
<213>Anguilla rostrata
<400>64
Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Ser Ile Phe Asp Leu
1               5                   10                  15
Gln Asn Tyr Cys Asn
            20
<210>65
<211>113
<212>PRT
<213>Oreochromis niloticus
<400>65
Met Ala Ala Leu Trp Leu Gln Ala Phe Ser Leu Leu Val Leu Met Met
1               5                   10                  15
Val Ser Trp Pro Gly Ser Gln Ala Val Gly Gly Pro Gln His Leu Cys
            20                  25                  30
Gly Ser His Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Asp Arg Gly
        35                  40                  45
Phe Phe Tyr Asn Pro Arg Arg Asp Val Asp Pro Leu Leu Gly Phe Leu
    50                  55                  60
Pro Pro Lys Ala Gly Gly Ala Val Val Gln Gly Gly Glu Asn Glu Val
65                  70                  75                  80
Thr Phe Lys Asp Gln Met Glu Met Met Val Lys Arg Gly Ile Val Glu
                85                  90                  95
Glu Cys Cys His Lys Pro Cys Thr Ile Phe Asp Leu Gln Asn Tyr Cys
            100                 105                 110
Asn
<210>66
<211>21
<212>PRT
<213>Acipenser gueldenstaedti
<400>66
Gly Ile Val Glu Gln Cys Cys His Ser Pro Cys Ser Leu Tyr Asp Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>67
<211>21
<212>PRT
<213>Piaractus mesopotamicus
<400>67
Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Ser Ile Phe Asp Leu
1               5                   10                  15
Gln Asn Tyr Cys Asn
            20
<210>68
<211>115
<212>PRT
<213>Verasper moseri
<400>68
Met Ala Ala Leu Trp Leu Gln Ser Val Ser Leu Leu Val Leu Met Leu
1               5                   10                  15
Val Ser Trp Ser Gly Ser Gln Ala Val Leu Pro Pro Gln His Leu Cys
            20                  25                  30
Gly Ala His Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly
        35                  40                  45
Phe Phe Tyr Thr Pro Lys Arg Asp Val Asp Pro Leu Leu Gly Phe Leu
    50                  55                  60
Pro Ala Lys Ser Gly Gly Ala Ala Ala Gly Gly Glu Asn Glu Val Ala
65                  70                  75                  80
Glu Phe Ala Phe Lys Asp Gln Met Glu Met Met Val Lys Arg Gly Ile
                85                  90                  95
Val Glu Gln Cys Cys His Lys Pro Cys Asn Ile Phe Asp Leu Gln Asn
            100                 105                 110
Tyr Cys Asn
        115
<210>69
<211>30
<212>PRT
<213>Anquilla anguilla
<400>69
Asp Val Glu Pro Leu Leu Gly Phe Leu Ser Pro Lys Ser Gly Gln Glu
1               5                   10                  15
Asn Glu Val Asp Asp Phe Pro Tyr Lys Gly Gln Gly Glu Leu
            20                  25                  30
<210>70
<211>106
<212>PRT
<213>Xenopus laevis
<400>70
Met Ala Leu Trp Met Gln Cys Leu Pro Leu Val Leu Val Leu Phe Phe
1               5                   10                  15
Ser Thr Pro Asn Thr Glu Ala Leu Val Asn Gln His Leu Cys Gly Ser
            20                  25                  30
His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Asp Arg Gly Phe Phe
        35                  40                  45
Tyr Tyr Pro Lys Val Lys Arg Asp Met Glu Gln Ala Leu Val Ser Gly
    50                  55                  60
Pro Gln Asp Asn Glu Leu Asp Gly Met Gln Leu Gln Pro Gln Glu Tyr
65                  70                  75                  80
Gln Lys Met Lys Arg Gly Ile Val Glu Gln Cys Cys His Ser Thr Cys
                85                  90                  95
Ser Leu Phe Gln Leu Glu Ser Tyr Cys Asn
            100                 105
<210>71
<211>106
<212>PRT
<213>Xenopus laevis
<400>71
Met Ala Leu Trp Met Gln Cys Leu Pro Leu Val Leu Val Leu Leu Phe
1               5                   10                  15
Ser Thr Pro Asn Thr Glu Ala Leu Ala Asn Gln His Leu Cys Gly Ser
            20                  25                  30
His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Asp Arg Gly Phe Phe
        35                  40                  45
Tyr Tyr Pro Lys Ile Lys Arg Asp Ile Glu Gln Ala Gln Val Asn Gly
    50                  55                  60
Pro Gln Asp Asn Glu Leu Asp Gly Met Gln Phe Gln Pro Gln Glu Tyr
65                  70                  75                  80
Gln Lys Met Lys Arg Gly Ile Val Glu Gln Cys Cys His Ser Thr Cys
                85                  90                  95
Ser Leu Phe Gln Leu Glu Asn Tyr Cys Asn
            100                 105
<210>72
<211>21
<212>PRT
<213>Trachemys scripta
<400>72
Gly Ile Val Glu Gln Cys Cys His Asn Thr Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>73
<211>21
<212>PRT
<213>Alligator mississippiensis
<400>73
Gly Ile Val Glu Gln Cys Cys His Asn Thr Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>74
<211>21
<212>PRT
<213>Zaocys dhumnades
<400>74
Gly Ile Val Glu Gln Cys Cys Glu Asn Thr Cys Ser Leu Tyr Glu Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>75
<211>21
<212>PRT
<213>Crotalus atrox
<400>75
Gly Ile Val Glu Gln Cys Cys Glu Asn Thr Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>76
<211>114
<212>PRT
<213>Artificial Sequence
<220>
<223>Preproinsulin
<400>76
Met Gly Leu Trp Ile Arg Leu Leu Pro Leu Ile Ala Leu Leu Ile Leu
1               5                   10                  15
Trp Gly Pro Asp Pro Ala Ala Ala Glu Phe Arg Met Phe Val Asn Gln
            20                  25                  30
His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly
        35                  40                  45
Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp
    50                  55                  60
Leu Gln Val Gly Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser
65                  70                  75                  80
Leu Gln Pro Leu Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val
                85                  90                  95
Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr
            100                 105                 110
Cys Asn
<210>77
<211>21
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin
<400>77
Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>78
<211>30
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin
<400>78
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr
            20                  25                  30
<210>79
<211>53
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin
<400>79
Phe Val Asp Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala Lys
            20                  25                  30
Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Glu Leu
         35                  40                  45
Glu Asp Tyr Cys Asn
    50
<210>80
<211>53
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin
<400>80
Phe Val Glu Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala Lys
            20                  25                  30
Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu
        35                  40                  45
Glu Glu Tyr Cys Asn
    50
<210>81
<211>53
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin
<400>81
Phe Val Gln Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala Lys
            20                  25                  30
Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu
        35                  40                  45
Glu Asn Tyr Cys Gly
    50
<210>82
<211>53
<212>PRT
<213>Artificial Sequence
<220>
<223>Unnamed protein product with insulin homology
<400>82
Phe Val Thr Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala Lys
            20                  25                  30
Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu
        35                  40                  45
Glu His Tyr Cys Ser
    50
<210>83
<211>57
<212>PRT
<213>Artificial Sequence
<220>
<223>Proinsulin
<400>83
Asn Ser Asn Gly Lys Phe Val Asn Gln His Leu Cys Gly Ser His Leu
1               5                   10                  15
Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr
            20                  25                  30
Pro Lys Thr Lys Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser
        35                  40                  45
Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
    50                  55
<210>84
<211>58
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin
<400>84
Asn Ser Asn Gly Lys Phe Val Asn Gln His Leu Cys Gly Ser His Leu
1               5                   10                  15
Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr
            20                  25                  30
Pro Lys Thr Lys Arg Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys
        35                  40                  45
Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
    50                  55
<210>85
<211>50
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin
<400>85
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Gly Ile Val
            20                  25                  30
Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr
        35                  40                  45
Cys Asn
    50
<210>86
<211>54
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin
<400>86
Arg Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu
1               5                   10                  15
Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala
            20                  25                  30
Lys Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln
        35                  40                  45
Leu Glu Asn Tyr Cys Asn
    50
<210>87
<211>61
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin
<400>87
Lys Glu Thr Leu Thr Ile Thr Cys Ala Val Pro Thr Trp Leu Lys Leu
1               5                   10                  15
Trp Thr Trp Phe Ala Val Lys Glu Val Ser Ser Thr Asn Leu Arg Leu
            20                  25                  30
Leu Arg Val Leu Ser Asn Asn Ala Val Pro Pro Ser Ala Pro Cys Thr
        35                  40                  45
Asn Trp Lys Thr Thr Ala Thr Arg Arg Ser Pro Gln Ala
    50                  55                  60
<210>88
<211>61
<212>PRT
<213>Artificial Sequence
<220>
<223>Preproinsulin
<400>88
Lys Asp Ser Leu Thr Asn Thr Cys Ala Val Ser Thr Trp Leu Lys Leu
1               5                   10                  15
Cys Thr Trp Phe Ala Val Lys Glu Val Ser Ser Thr Leu Leu Arg Leu
            20                  25                  30
Leu Arg Val Leu Ser Asn Asn Ala Val Pro Pro Ser Ala Asn Tyr Thr
        35                  40                  45
Asn Trp Lys Thr Thr Ala Thr Arg Arg Ser Pro Gln Ala
    50                  55                  60
<210>89
<211>87
<212>PRT
<213>Artificial Sequence
<220>
<223>Proinsulin
<400>89
Met Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu
1               5                   10                  15
Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr Arg
            20                  25                  30
Arg Glu Ala Glu Asp Leu Gln Val Gly Gln Val Glu Leu Gly Gly Gly
        35                  40                  45
Pro Gly Ala Gly Ser Leu Gln Pro Leu Ala Leu Glu Gly Ser Leu Gln
    50                  55                  60
Lys Arg Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr
65                  70                  75                  80
Gln Leu Glu Asn Tyr Cys Asn
                85
<210>90
<211>35
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin
<400>90
Arg Arg Glu Ala Glu Asp Leu Gln Val Gly Gln Val Glu Leu Gly Gly
1               5                   10                  15
Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu Ala Leu Glu Gly Ser Leu
            20                  25                  30
Gln Lys Arg
        35
<210>91
<211>23
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin
<400>91
Gly Pro Glu Thr Leu Cys Gly Ala Glu Leu Val Asp Ala Leu Gln Phe
1               5                   10                  15
Val Cys Gly Asp Arg Gly Phe
            20
<210>92
<211>124
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin
<400>92
Met Lys Leu Lys Thr Val Arg Ser Ala Val Leu Ser Ser Leu Phe Ala
1               5                   10                  15
Ser Gln Val Leu Gly Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr
            20                  25                  30
Ser Val Asn Leu Met Ala Asp Asp Thr Glu Ser Ala Phe Ala Thr Gln
        35                  40                  45
Thr Asn Ser Gly Gly Leu Asp Val Val Gly Leu Ile Ser Met Ala Lys
    50                  55                  60
Arg Glu Glu Gly Glu Pro Lys Phe Val Asn Gln His Leu Cys Gly Ser
65                  70                  75                  80
His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe
                85                  90                  95
Tyr Thr Pro Lys Ala Ala Lys Gly Ile Val Glu Gln Cys Cys Thr Ser
            100                 105                 110
Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
        115                 120
<210>93
<211>171
<212>DNA
<213>Artificial Sequence
<220>
<223>Insulin
<400>93
tttgtcaatc agcacctttg tggttctcac ctggtggagg ctctgtacct ggtgtgtggg     60
gaacgtggtt tcttctacac acccaagacc cgtcgtaagc ttaagcgtgg cattgtggag    120
cagtgctgca ccagcatctg ctccctctac caactggaga actactgcaa c             171
<210>94
<211>21
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin analogue
<400>94
Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>95
<211>26
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin analogue
<220>
<221>MISC_FEATURE
<222>(26)..(26)
<223>X=any amino acid
<400>95
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Xaa
            20                  25
<210>96
<211>21
<212>PRT
<213>Homo sapiens
<400>96
Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>97
<211>29
<212>PRT
<213>Homo sapiens
<400>97
Glu Val Asn Gln His Leu Cys Gly Ser Glu Leu Val Glu Ala Leu Glu
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Glu Pro Lys
            20                  25
<210>98
<211>21
<212>PRT
<213>Homo sapiens
<400>98
Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>99
<211>30
<212>PRT
<213>Homo sapiens
<400>99
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu His
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr
            20                  25                  30
<210>100
<211>21
<212>PRT
<213>Homo sapiens
<400>100
Gly Ile Val Glu Gln Cys Cys Lys Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
             20
<210>101
<211>30
<212>PRT
<213>Homo sapiens
<400>101
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr
            20                  25                  30
<210>102
<211>21
<212>PRT
<213>Homo sapiens
<400>102
Gly Ile Val Glu Gln Cys Cys Lys Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>103
<211>30
<212>PRT
<213>Homo sapiens
<400>103
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr
            20                  25                  30
<210>104
<211>21
<212>PRT
<213>Homo sapiens
<220>
<221>MISC_FEATURE
<222>(8)..(8)
<223>X=any amino acid
<400>104
Gly Ile Val Glu Gln Cys Cys Xaa Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>105
<211>30
<212>PRT
<213>Homo sapiens
<400>105
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr
            20                  25                  30
<210>106
<211>21
<212>PRT
<213>Homo sapiens
<220>
<221>MISC_FEATURE
<222>(8)..(8)
<223>X=any amino acid
<400>106
Gly Ile Val Glu Gln Cys Cys Xaa Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>107
<211>30
<212>PRT
<213>Homo sapiens
<400>107
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr
            20                  25                  30
<210>108
<211>21
<212>PRT
<213>Homo sapiens
<220>
<221>MISC_FEATURE
<222>(2)..(2)
<223>X=any amino acids
<400>108
Gly Xaa Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>109
<211>30
<212>PRT
<213>Homo sapiens
<400>109
Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Lys Pro Thr
            20                  25                  30
<210>110
<211>21
<212>PRT
<213>Homo sapiens
<400>110
Gly Ala Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>111
<211>30
<212>PRT
<213>Homo sapiens
<400>111
Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Lys Pro Thr
            20                  25                  30
<210>112
<211>21
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin analogue
<220>
<221>MISC_FEATURE
<222>(2)..(2)
<223>X=any amino acid
<400>112
Gly Xaa Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>113
<211>30
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin analogue
<400>113
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr
            20                  25                  30
<210>114
<211>21
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin analogue
<220>
<221>MISC_FEATURE
<222>(2)..(2)
<223>X=any amino acid
<400>114
Gly Xaa Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>115
<211>30
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin analogue
<400>115
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr
            20                  25                  30
<210>116
<211>21
<212>PRT
<213>Homo sapiens
<400>116
Gly Gly Gly Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>117
<211>30
<212>PRT
<213>Homo sapiens
<400>117
Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Lys Pro Thr
            20                  25                  30
<210>118
<211>21
<212>PRT
<213>Artificial Sequence
<220>
<223>Homo sapiens insulin mutant
<220>
<221>MISC_FEATURE
<222>(1)..(1)
<223>X=any amino acid
<400>118
Xaa Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>119
<211>30
<212>PRT
<213>Artificial Sequence
<220>
<223>Homo sapiens insulin mutant
<220>
<221>MISC_FEATURE
<222>(1)..(1)
<223>X=any amino acid
<400>119
Xaa Val Asn Gln His Leu Cys Gly Asp His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr
            20                  25                  30
<210>120
<211>21
<212>PRT
<213>Artificial Sequence
<220>
<223>Homo sapiens insulin mutant
<400>120
Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>121
<211>29
<212>PRT
<213>Artificial Sequence
<220>
<223>Homo sapiens insulin mutant
<400>121
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Tyr Thr Pro Lys Thr
            20                  25
<210>122
<211>21
<212>PRT
<213>Artificial Sequence
<220>
<223>Homo sapiens insulin
<400>122
Gly Ile Val Glu Gln Ser Cys Thr Ser Ile Ser Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>123
<211>30
<212>PRT
<213>Artificial Sequence
<220>
<223>Homo sapiens insulin
<400>123
Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Lys Pro Thr
            20                  25                  30
<210>124
<211>79
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin
<400>124
Met Asp Pro Gly Asp Pro Glu Cys Leu Glu Gln Leu Leu Arg Arg Leu
1               5                   10                  15
Gly Gly Ser Val Glu Val Glu Val Thr Gly Gly Thr Val His Val Glu
            20                  25                  30
Val Ser Pro Glu Asp Pro Gly Asp Pro Glu Cys Leu Glu Gln Leu Leu
        35                  40                  45
Arg Arg Leu Gly Gly Ser Val Glu Val Glu Val Thr Gly Gly Thr Val
    50                  55                  60
His Val Glu Val Ser Pro Gly Glu Arg Gly Phe Phe Tyr Cys Asn
65                  70                  75
<210>125
<211>87
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin
<400>125
Met Leu Lys Glu Lys Lys Tyr Ser Pro Asp Pro Gly Asp Pro Glu Cys
1               5                   10                  15
Leu Glu Gln Leu Leu Arg Arg Leu Gly Gly Ser Val Glu Val Glu Val
            20                  25                  30
Thr Gly Gly Thr Val His Val Glu Val Ser Pro Glu Asp Pro Gly Asp
        35                  40                  45
Pro Glu Cys Leu Glu Gln Leu Leu Arg Arg Leu Gly Gly Ser Val Glu
    50                  55                  60
Val Glu Val Thr Gly Gly Thr Val His Val Glu Val Ser Pro Gly Glu
65                  70                  75                  80
Arg Gly Phe Phe Tyr Cys Asn
                85
<210>126
<211>23
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin fusion protein
<220>
<221>MISC_FEATURE
<222>(5)..(5)
<223>X=any amino acid
<220>
<221>MISC_FEATURE
<222>(18)..(18)
<223>X=any amino acid
<400>126
Met Ala Thr Ser Xaa Ser Thr Lys Lys Thr Gln Leu Gln Leu Glu His
1               5                   10                  15
Leu Xaa Leu Asp Leu Gln Met
            20
<210>127
<211>23
<212>PRT
<213>Escherichia coli
<220>
<221>MISC_FEATURE
<222>(14)..(14)
<223>X=any amino acid
<220>
<221>MISC_FEATURE
<222>(17)..(17)
<223>X=any amino acid
<400>127
Thr Met Ile Thr Asp Ser Leu Ala Val Val Leu Gln Arg Xaa Asp Trp
1               5                   10                  15
Xaa Pro Gly Val Thr Gln Leu
            20
<210>128
<211>96
<212>PRT
<213>Brevibacillus brevis
<400>128
Asn Ser Val Leu Ala Ser Ala Leu Ala Leu Thr Val Ala Pro Met Ala
1               5                   10                  15
Phe Ala Asn Ser Asp Ser Glu Ser Pro Leu Ser His Asp Gly Tyr Ser
            20                  25                  30
Leu His Asp Gly Val Ser Met Tyr Ile Glu Ala Leu Asp Lys Phe Val
        35                  40                  45
Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val
    50                  55                  60
Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Gly Ile Val Glu Gln
65                  70                  75                  80
Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
                85                  90                  95
<210>129
<211>25
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin fusion protein
<400>129
Asp Thr Thr Met Pro Ala Gly Gly Gly Gly Gly Gly Gln His Leu Cys
1               5                   10                  15
Gly Pro His Leu Val Glu Ala Leu Tyr
            20                  25
<210>130
<211>6
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin fusion protein
<400>130
Leu Glu Asn Tyr Cys Asn
1               5
<210>131
<211>22
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin fusion protein
<400>131
Met Thr Met Ile Thr Asp Ser Leu Glu Phe Gln Ala Trp Gly Gly Gly
1               5                   10                  15
Gly Gly Trp Met Arg Phe
            20
<210>132
<211>22
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin fusion protein
<400>132
Met Val Leu Arg Phe Leu Pro Leu Leu Ala Leu Leu Val Leu Trp Glu
1               5                   10                  15
Pro Lys Pro Ala Gln Ala
            20
<210>133
<211>60
<212>PRT
<213>Artificial Sequence
<220>
<223>Mini-proinsulin
<400>133
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr Arg Arg
            20                  25                  30
Tyr Pro Gly Asp Val Lys Arg Gly Ile Val Glu Gln Cys Cys Thr Ser
        35                  40                  45
Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
    50                  55                  60
<210>134
<211>21
<212>PRT
<213>Homo sapiens
<400>134
Gly Ile Val Glu Gln Cys Cys Lys Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>135
<211>30
<212>PRT
<213>Homo sapiens
<400>135
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr
            20                  25                  30
<210>136
<211>21
<212>PRT
<213>Homo sapiens
<400>136
Gly Ile Val Glu Gln Cys Cys Lys Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>137
<211>30
<212>PRT
<213>Homo sapiens
<400>137
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr
            20                  25                  30
<210>138
<211>14
<212>PRT
<213>Artificial Sequence
<220>
<223>Homo sapiens insulin
<400>138
Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Gly
1               5                   10
<210>139
<211>21
<212>PRT
<213>Homo sapiens
<220>
<221>MISC_FEATURE
<222>(8)..(8)
<223>X=any amino acid
<400>139
Gly Ile Val Glu Gln Cys Cys Xaa Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>140
<211>30
<212>PRT
<213>Artificial Sequence
<220>
<223>Homo sapiens insulin
<400>140
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr
            20                  25                  30
<210>141
<211>21
<212>PRT
<213>Artificial Sequence
<220>
<223>Homo sapiens insulin
<220>
<221>MISC_FEATURE
<222>(8)..(8)
<223>X=any amino acid
<400>141
Gly Ile Val Glu Gln Cys Cys Xaa Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>142
<211>30
<212>PRT
<213>Artificial Sequence
<220>
<223>Homo sapiens insulin
<400>142
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr
            20                  25                  30
<210>143
<211>21
<212>PRT
<213>Artificial Sequence
<220>
<223>Mini-proinsulin mutant
<400>143
Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu
1               5                   10                  15
Glu Asn Tyr Cys Asn
            20
<210>144
<211>29
<212>PRT
<213>Artificial Sequence
<220>
<223>Mini-proinsulin mutant
<400>144
Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Asp Lys
            20                  25
<210>145
<211>50
<212>PRT
<213>Artificial Sequence
<220>
<223>Mini-proinsulin mutant
<400>145
Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr
1               5                   10                  15
Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Asp Lys Gly Ile Val
            20                  25                  30
Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr
        35                  40                  45
Cys Asn
    50
<210>146
<211>3
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin C-peptide
<400>146
Ala Ala Lys
1
<210>147
<211>3
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin C-peptide
<400>147
Asn Lys Arg
1
<210>148
<211>6
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin C-peptide
<400>148
Arg Arg Lys Gln Lys Arg
1               5
<210>149
<211>4
<212>PRT
<213>Artificial Sequence
<220>
<223>Cleavage site
<400>149
Arg Arg Lys Arg
1
<210>150
<211>4
<212>PRT
<213>Artificial Sequence
<220>
<223>ER retention sequence
<400>150
Lys Asp Glu Leu
1
<210>151
<211>4
<212>PRT
<213>Artificial Sequence
<220>
<223>ER retention sequence
<400>151
His Asp Glu Leu
1
<210>152
<211>4
<212>PRT
<213>Artificial Sequence
<220>
<223>ER retention sequence
<400>152
Asp Asp Glu Leu
1
<210>153
<211>4
<212>PRT
<213>Artificial Sequence
<220>
<223>ER retention sequence
<400>153
Ala Asp Glu Leu
1
<210>154
<211>4
<212>PRT
<213>Artificial Sequence
<220>
<223>ER retention sequence
<400>154
Ser Asp Glu Leu
1
<210>155
<211>4
<212>PRT
<213>Lycopersicon esculentum Mill
<400>155
His Asp Glu Phe
1
<210>156
<211>118
<212>PRT
<213>Arabidopsis thaliana
<400>156
Met Ala Asp Thr Ala Arg Gly Thr His His Asp Ile Ile Gly Arg Asp
1               5                   10                  15
Gln Tyr Pro Met Met Gly Arg Asp Arg Asp Gln Tyr Gln Met Ser Gly
            20                  25                  30
Arg Gly Ser Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Ala Thr
        35                  40                  45
Ala Val Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu
    50                  55                  60
Val Gly Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile
65                  70                  75                  80
Phe Ser Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile
                85                  90                  95
Thr Gly Phe Leu Ser Ser Gly Gly Phe Gly Ile Ala Ala Ile Thr Val
            100                 105                 110
Phe Ser Trp Ile Tyr Lys
        115
<210>157
<211>187
<212>PRT
<213>Brassica napus
<400>157
Met Ala Asp Thr Ala Arg Thr His His Asp Val Thr Ser Arg Asp Gln
1               5                   10                  15
Tyr Pro Arg Asp Arg Asp Gln Tyr Ser Met Ile Gly Arg Asp Arg Asp
             20                  25                  30
Gln Tyr Ser Met Met Gly Arg Asp Arg Asp Gln Tyr Asn Met Tyr Gly
        35                  40                  45
Arg Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Val Thr Ala Val
    50                  55                  60
Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu Val Gly
65                  70                  75                  80
Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile Phe Ser
                85                  90                  95
Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile Thr Gly
            100                 105                 110
Phe Leu Ser Ser Gly Gly Phe Ala Ile Ala Ala Ile Thr Val Phe Ser
        115                 120                 125
Trp Ile Tyr Lys Tyr Ala Thr Gly Glu His Pro Gln Gly Ser Asp Lys
    130                 135                 140
Leu Asp Ser Ala Arg Met Lys Leu Gly Thr Lys Ala Gln Asp Ile Lys
145                 150                 155                 160
Asp Arg Ala Gln Tyr Tyr Gly Gln Gln His Thr Gly Gly Glu His Asp
                165                 170                 175
Arg Asp Arg Thr Arg Gly Gly Gln His Thr Thr
            180                 185
<210>158
<211>748
<212>DNA
<213>Arabidopsis thaliana
<400>158
taccatgggg tcaaagacgg agatgatgga gagagacgca atggctacgg tggctcccta     60
tgcgccggtc acttaccatc gccgtgctcg tgttgacttg gatgatagac ttcctaaacc    120
ttatatgcca agagcattgc aagcaccaga cagagaacac ccgtacggaa ctccaggcca    180
taagaattac ggacttagtg ttcttcaaca gcatgtctcc ttcttcgata tcgatgataa    240
tggcatcatt tacccttggg agacctactc tggactgcga atgcttggtt tcaatatcat    300
tgggtcgctt ataatagccg ctgttatcaa cctgaccctt agctatgcca ctcttccggg    360
gtggttacct tcacctttct tccctatata catacacaac atacacaagt caaagcatgg    420
aagtgattca aaaacatatg acaatgaagg aaggtttatg ccggtgaatc ttgagttgat    480
atttagcaaa tatgcgaaaa ccttgccaga caagttgagt cttggagaac tatgggagat    540
gacagaagga aaccgtgacg cttgggacat ttttggatgg atcgcaggca aaatagagtg    600
gggactgttg tacttgctag caagggatga agaagggttt ttgtcaaaag aagctattag    660
gcggtgtttc gatggaagct tgttcgagta ctgtgccaaa atctacgctg gtatcagtga    720
agacaagaca gcatactacg ccatggat                                       748
<210>159
<211>738
<212>DNA
<213>Arabidopsis thaliana
<400>159
atggggtcaa agacggagat gatggagaga gacgcaatgg ctacggtggc tccctatgcg    60
ccggtcactt accaccgccg tgctcgtgtt gacttggatg atagacttcc taaaccttat    120
atgccaagag cattgcaagc accagacaga gaacacccgt acggaactcc aggccataag    180
aattacggac ttagtgttct tcaacagcat gtctccttct tcgatatcga tgataatggc    240
atcatttacc cttgggagac ctactctgga ctgcgaatgc ttggtttcaa tatcattggg    300
tcgcttataa tagccgctgt tatcaacctg acccttagct atgccactct tccggggtgg    360
ttaccttcac ctttcttccc tatatacata cacaacatac acaagtcaaa gcatggaagt    420
gattcaaaaa catatgacaa tgaaggaagg tttatgccgg tgaatcttga gttgatattt    480
agcaaatatg cgaaaacctt gccagacaag ttgagtcttg gagaactatg ggagatgaca    540
gaaggaaacc gtgacgcttg ggacattttt ggatggatcg caggcaaaat agagtgggga    600
ctgttgtact tgctagcaag ggatgaagaa gggtttttgt caaaagaagc tattaggcgg    660
tgtttcgatg gaagcttgtt cgagtactgt gccaaaatct acgctggtat cagtgaagac    720
aaqacaqcat actactaa                                                  738
<210>160
<211>1047
<212>DNA
<213>Sesamum indicum
<400>160
atggatctaa tccacacttt cctcaactta atagctcccc ctttcacctt cttcttcctt      60
ctctttttct tgccaccctt ccagattttc aagttcttcc tttcaatctt gggcaccctt     120
ttcagcgagg atgtcgctgg aaaagtcgtc gtcatcaccg gcgcctcctc cggcatcggc     180
gaaagtcttg cttacgagta tgctaagaga ggggcgtgct tggtgcttgc tgcaagaagg     240
gaaaggagtc ttcaagaagt ggccgaaagg gcgcgcgatt tggggtcgcc ggacgtcgtg     300
gtggtccggg ccgatgtttc gaaggcggag gactgcagga aggttgttga tcagactatg     360
aatcgctttg gaagattgga tcacctggtc aataacgctg gaattatgtc agtttcaatg     420
ctggaagaag ttgaagatat tactggttac agagaaacta tggatatcaa cttctggggc     480
tatgtgtata tgacccgatt tgccgcccca taccttagga atagcagagg ccgaattgtt     540
gtactttctt catccagttc ttggatgcct actccgagga tgagttttta caatgcaagc     600
aaagcggcga tttcacaatt ttttgagaca ctgcgggtgg aattcggccc cgatataggc     660
ataacccttg tgactccagg attcatagaa tctgaactta cccaaggcaa attctacaat     720
gctggcgaac gtgtaattga tcaggacatg agagatgtac aagtgagcac gactccaatc     780
ctgagggtgg aaagtgcggc aaggtcaatc gtgaggagcg cgatccgtgg agaaagatac     840
gtgacagagc cggcctggtt tagggttact tattggtgga agctattctg ccctgaggtg     900
atggagtggg tatttagact gatgtacttg gccagcccgg gtgagccgga gaaggaaacg     960
tttggcaaga aggttttgga ttacacagga gtgaagtcct tgctttaccc ggaaaccgtg    1020
caagttccgg agcccaagaa tgattaa                                        1047
<210>161
<211>25
<212>PRT
<213>Tobacco,pathogensis related protein(PR-S)signal sequence
<400>161
Met Asn Phe Leu Lys Ser Phe Pro Phe Tyr Ala Phe Leu Cys Phe Gly
1               5                   10                  15
Gln Tyr Phe Val Ala Val Thr His Ala
            20                  25
<210>162
<211>64
<212>PRT
<213>Artificial Sequence
<220>
<223>Alpha factor leader seqence
<400>162
Ala Pro Val Asn Thr Thr Glu Asp Glu Thr Ala Gln Ala Glu Ala Val
1               5                   10                  15
Ile Gly Tyr Ser Asp Leu Glu Gly Asp Phe Asp Val Ala Val Leu Pro
            20                  25                  30
Phe Ser Asn Ser Thr Asn Asn Gly Leu Leu Phe Ile Asx Thr Thr Ile
        35                  40                  45
Ala Ser Ile Ala Ala Lys Glu Glu Gly Val Ser Leu Met Ala Lys Arg
    50                  55                  60
<210>163
<211>63
<212>PRT
<213>Artificial Sequence
<220>
<223>Alpha factor leader sequence
<400>163
Ala Pro Val Asn Thr Thr Glu Asp Glu Thr Ala Gln Ala Glu Ala Val
1               5                   10                  15
Ile Gly Tyr Ser Asp Leu Glu Gly Asp Phe Asp Val Ala Val Leu Pro
            20                  25                  30
Phe Ser Asn Ser Thr Asn Asn Gly Leu Leu Phe Ile Asx Thr Thr Ile
        35                  40                  45
Ala Ser Ile Ala Ala Lys Glu Glu Gly Val Ser Met Ala Lys Arg
    50                  55                  60
<210>164
<211>15
<212>PRT
<213>Artificial Sequence
<220>
<223>Alpha factor leader sequence
<400>164
Gln Pro Ile Asp Glu Asp Asn Asp Thr Ser Ser Met Ala Lys Arg
1               5                   10                  15
<210>165
<211>43
<212>PRT
<213>Artificial Sequence
<220>
<223>Alpha factor leader sequence
<400>165
Gln Pro Ile Asp Asp Thr Glu Ser Asn Thr Thr Ser Val Asn Leu Met
1               5                   10                  15
Ala Asp Asp Thr Glu Asp Arg Phe Ala Thr Asn Thr Thr Leu Ala Leu
            20                  25                  30
Asp Val Val Asn Leu Ile Ser Met Ala Lys Arg
        35                  40
<210>166
<211>43
<212>PRT
<213>Artificial Sequence
<220>
<223>Alpha factor leader sequence
<400>166
Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val Asn Leu Met
1               5                   10                  15
Ala Asp Asp Thr Glu Asp Arg Phe Ala Thr Gln Thr Thr Leu Ala Leu
            20                  25                  30
Asp Val Val Asn Leu Ile Ser Met Ala Lys Arg
        35                  40
<210>167
<211>43
<212>PRT
<213>Artificial Sequence
<220>
<223>Alpha factor leader sequence
<400>167
Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val Asn Leu Met
1               5                   10                  15
Ala Asp Asp Thr Glu Asp Arg Phe Ala Thr Gln Thr Thr Leu Ala Leu
            20                  25                  30
Asp Val Val Asn Leu Ile Ser Met Ala Ala Ala
        35                  40
<210>168
<211>43
<212>PRT
<213>Artificial Sequence
<220>
<223>Alpha factor leader sequence
<400>168
Gln Pro Ile Asp Asp Thr Glu Ser Asn Thr Thr Ser Val Asn Leu Met
1               5                   10                  15
Ala Asp Asp Thr Glu Asp Arg Phe Ala Thr Asn Thr Thr Leu Ala Leu
            20                  25                  30
Asp Val Val Asn Leu Ile Ser Met Ala Ala Ala
        35                  40
<210>169
<211>45
<212>PRT
<213>Artificial Sequence
<220>
<223>Alpha factor leader sequence
<400>169
Gln Pro Ile Asp Asp Thr Glu Ser Asn Thr Thr Ser Val Asn Leu Met
1               5                   10                  15
Ala Asp Asp Thr Glu Asp Arg Phe Ala Thr Asn Thr Thr Leu Ala Gly
            20                  25                  30
Gly Leu Asp Val Val Asn Leu Ile Ser Met Ala Lys Arg
        35                  40                  45
<210>170
<211>44
<212>PRT
<213>Artificial Sequence
<220>
<223>Alpha factor leader sequence
<400>170
Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val Asn Leu Met
1               5                   10                  15
Ala Asp Asp Thr Glu Ser Ala Phe Ala Thr Gln Thr Asn Ser Gly Gly
            20                  25                  30
Leu Asp Val Val Gly Leu Ile Ser Met Ala Lys Arg
        35                  40
<210>171
<211>44
<212>PRT
<213>Artificial Sequence
<220>
<223>Alpha factor leader sequence
<400>171
Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val Asn Leu Met
1               5                   10                  15
Ala Asp Asp Thr Glu Ser Ala Phe Ala Thr Gln Thr Asn Ser Gly Gly
            20                  25                  30
Leu Asp Val Val Gly Leu Ile Ser Met Ala Ala Ala
        35                  40
<210>172
<211>10
<212>PRT
<213>Spacer peptide
<400>172
Glu Glu Ala Glu Ala Glu Ala Glu Pro Lys
1               5                   10
<210>173
<211>6
<212>PRT
<213>Artificial Sequence
<220>
<223>Spacer peptide
<400>173
Glu Glu Gly Glu Pro Lys
1               5
<210>174
<211>40
<212>PRT
<213>Artificial Sequence
<220>
<223>Cleavage site
<400>174
Met Ala Glu Ile Thr Arg Ile Pro Leu Tyr Lys Gly Lys Ser Leu Arg
1               5                   10                  15
Lys Ala Leu Lys Glu His Gly Leu Leu Glu Asp Phe Leu Gln Lys Gln
            20                  25                  30
Gln Tyr Gly Ile Ser Ser Lys Phe
        35                  40
<210>175
<211>27
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>175
gcatgctgac attgtgatga cacagtc                                          27
<210>176
<211>43
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>176
aagcttgcat ttaaatactc gagactgtga gagtggtgcc ttg                        43
<210>177
<211>70
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>177
gaagaaggag agcctaagtt tgttaatcaa catctttgtg gatctcatct tgttgaggct     60
ctctaccttg                                                            70
<210>178
<211>56
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>178
ccttaggagt gtagaaaaat cctctttctc cacacacaag gtagagagcc tcaaca         56
<210>179
<211>21
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>179
ctaaggctgc taagggaatt g                                               21
<210>180
<211>83
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>180
aagcttcagt tgcaatagtt ctccaattgg taaagtgagc aaatagaagt gcaacattgt    60
tcaacaattc ccttagcagc ctt                                            83
<210>181
<211>30
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>181
ctcgagtcaa ccaattgatg acactgaatc                                     30
<210>182
<211>41
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>182
aagcttcaaa gttcatcctt gttgcaatag ttctccaatt g                         41
<210>183
<211>21
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>183
aagcttcagt tgcaatagtt c                                               21
<210>184
<211>26
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>184
gcatgcccaa ccaattgatg acactg                                          26
<210>185
<211>34
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>185
gcatgcatgc ctttgttaat caacatcttt gtgg                                 34
<210>186
<211>54
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>186
acattgttca acaattcctc tctttcttct agtcttagga gtgtagaaaa atcc           54
<210>187
<211>29
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>187
gcataagctt caaagctcat cctttgagc                                       29
<210>188
<211>387
<212>DNA
<213>Artificial Sequence
<220>
<223>Insulin fusion protein nucleic acid sequence
<400>188
atgaacttcc ttaagtcttt ccctttctac gctttccttt gtttcggtca atacttcgtt     60
gctgttacgc atgcccaacc aattgatgac actgaatccc agaccacgtc agtgaacctc    120
atggccgatg atactgagag cgcgtttgct acacaaacaa attcgggagg tcttgacgtt    180
gtcggattga tctccatggc taagagagaa gaaggagagc ctaagtttgt taatcaacat    240
ctttgtggat ctcatcttgt tgaggctctc taccttgtgt gtggagaaag aggatttttc    300
tacactccta aggctgctaa gggaattgtt gaacaatgtt gcacttctat ttgctcactt    360
taccaattgg agaactattg caactga                                        387
<210>189
<211>128
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin factor protein
<400>189
Met Asn Phe Leu Lys Ser Phe Pro Phe Tyr Ala Phe Leu Cys Phe Gly
1               5                   10                  15
Gln Tyr Phe Val Ala Val Thr His Ala Gln Pro Ile Asp Asp Thr Glu
            20                  25                  30
Ser Gln Thr Thr Ser Val Asn Leu Met Ala Asp Asp Thr Glu Ser Ala
        35                  40                  45
Phe Ala Thr Gln Thr Asn Ser Gly Gly Leu Asp Val Val Gly Leu Ile
    50                  55                  60
Ser Met Ala Lys Arg Glu Glu Gly Glu Pro Lys Phe Val Asn Gln His
65                  70                  75                  80
Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu
                85                  90                  95
Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala Lys Gly Ile Val Glu Gln
            100                 105                 110
Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn
        115                 120                 125
<210>190
<211>18
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>190
ttcgtgaacc aacacttg                                                    18
<210>191
<211>20
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>191
aagctttcag ttacagtagt                                                  20
<210>192
<211>17
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>192
gcatgcatgt gttgagc                                                     17
<210>193
<211>16
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>193
ggtagtgtgc tggcca                                                      16
<210>194
<211>38
<212>DNA
<213>Artificial Sequence
<220>
<223>Primer
<400>194
ggtggccagc acactacctt cgtgaaccaa cacttgtg                              38
<210>195
<211>1020
<212>DNA
<213>Artificial Sequence
<220>
<223>Insulin fusion protein nucleic acid sequence
<400>195
atggcggata cagctagagg aacccatcac gatatcatcg gcagagacca gtacccgatg     60
atgggccgag accgagacca gtaccagatg tccggacgag gatctgacta ctccaagtct    120
aggcagattg ctaaagctgc aactgctgtc acagctggtg gttccctcct tgttctctcc    180
agccttaccc ttgttggaac tgtcatagct ttgactgttg caacacctct gctcgttatc    240
ttcagcccaa tccttgtccc ggctctcatc acagttgcac tcctcatcac cggttttctt     300
tcctctggag ggtttggcat tgccgctata accgttttct cttggattta caagtaagca     360
cacatttatc atcttacttc ataattttgt gcaatatgtg catgcatgtg ttgagccagt     420
agctttggat caattttttt ggtagaataa caaatgtaac aataagaaat tgcaaattct     480
agggaacatt tggttaacta aatacgaaat ttgacctagc tagcttgaat gtgtctgtgt     540
atatcatcta tataggtaaa atgcttggta tgatacctat tgattgtgaa taggtacgca     600
acgggagagc acccacaggg atcagacaag ttggacagtg caaggatgaa gttgggaagc     660
aaagctcagg atctgaaaga cagagctcag tactacggac agcaacatac tggtggggaa     720
catgaccgtg accgtactcg tggtggccag cacactacct tcgtgaacca acacttgtgt     780
ggatctcatc tcgttgaagc tctctacttg gtttgtggtg agagaggatt cttctacact     840
cctaagacca gaagggaagc tgaggacttg caggtgggac aagttgagtt gggtggaggt     900
cctggagcag gatctttgca acctctcgct ttggaaggtt ctttgcagaa gagaggaatc     960
gttgaacaat gttgcacttc aatctgttct ttgtatcagt tggagaacta ctgtaactga    1020
<210>196
<211>257
<212>PRT
<213>Artificial Sequence
<220>
<223>Insulin fusion protein
<400>196
Met Ala Asp Thr Ala Arg Gly Thr His His Asp Ile Ile Gly Arg Asp
1               5                   10                  15
Gln Tyr Pro Met Met Gly Arg Asp Arg Asp Gln Tyr Gln Met Ser Gly
            20                  25                  30
Arg Gly Ser Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Ala Thr
        35                  40                  45
Ala Val Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu
    50                  55                  60
Val Gly Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile
65                  70                  75                  80
Phe Ser Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile
                85                  90                  95
Thr Gly Phe Leu Ser Ser Gly Gly Phe Gly Ile Ala Ala Ile Thr Val
            100                 105                 110
Phe Ser Trp Ile Tyr Ala Thr Gly Glu His Pro Gln Gly Ser Asp Lys
        115                 120                 125
Leu Asp Ser Ala Arg Met Lys Leu Gly Ser Lys Ala Gln Asp Leu Lys
    130                 135                 140
Asp Arg Ala Gln Tyr Tyr Gly Gln Gln His Thr Gly Gly Glu His Asp
145                 150                 155                 160
Arg Asp Arg Thr Arg Gly Gly Gln His Thr Thr Phe Val Asn Gln His
                165                 170                 175
Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu
            180                  185                  190
Arg Gly Phe Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu
        195                 200                 205
Gln Val Gly Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu
    210                 215                 220
Gln Pro Leu Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu
225                 230                 235                 240
Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys
                245                 250                 255
Asn

Claims (40)

1、一种在植物种子内表达胰岛素的方法,包括:
(a)提供嵌合核酸构建体,其包括在转录的5’至3’方向可操纵连接的下列组分:
(i)能够在植物种子细胞中控制表达的核酸序列;和
(ii)编码胰岛素多肽的核酸序列;
(b)把嵌合核酸构建体导入种子细胞内;以及
(c)令植物细胞成长为成熟植物,所述植物能够结种子,其中种子表达胰岛素。
2、如权利要求1的方法,其中胰岛素多肽在植物细胞中膜包围的细胞内区室内累积。
3、如权利要求2的方法,其中所述膜包围的细胞内区室是内质网(ER)或ER衍生的储存小泡。
4、如权利要求1的方法,其中所述嵌合核酸序列另包括编码一种多肽的核酸序列,该多肽能够把胰岛素多肽保持在膜包围的细胞内区室中。
5、如权利要求4的方法,其中所述膜包围的细胞内区室是内质网(ER)或ER衍生的储存细胞器。
6、如权利要求5的方法,其中所述把胰岛素多肽保持在ER内的多肽选自KDEL、HDEL、DDEL、ADEL和SDEL。
7、如权利要求5的方法,其中所述把胰岛素多肽保持在ER内的多肽选自SEQ ID NO:150、SEQ ID NO:151、SEQ ID NO:152、SEQ ID NO:153和SEQ ID NO:154。
8、如权利要求6或7的方法,其中所述胰岛素多肽另包括编码信号肽的核酸序列。
9、如权利要求8的方法,其中所述信号肽是烟草发病相关蛋白(PR-S)信号序列。
10、如权利要求8的方法,其中所述信号序列是SEQ ID NO:161。
11、如权利要求5的方法,其中所述ER衍生储存细胞器是油体。
12、如权利要求5的方法,其中所述把胰岛素多肽保持于ER衍生储存细胞器内的多肽是油体蛋白质。
13、如权利要求12的方法,其中所述油体蛋白质选自油质蛋白、油体钙蛋白和油体固醇蛋白。
14、如权利要求12的方法,其中该油体蛋白质选自SEQ ID NO:156、SEQ ID NO:157、SEQ ID NO:158、SEQ ID NO:159和SEQID NO:160。
15、如权利要求4的方法,其中所述嵌合核酸另包含编码稳定蛋白的核酸序列,其与编码胰岛素的核酸序列在读框内融合。
16、如权利要求15的方法,其中所述嵌合核酸另含有编码信号肽序列的核酸序列,其与编码胰岛素的核酸序列在读框内融合。
17、如权利要求15的方法,其中所述信号肽是烟草发病相关蛋白(PR-5)信号序列。
18、如权利要求17的方法,其中所述信号肽是SEQ ID NO:161。
19、如权利要求15的方法,其中在种子收获和研磨时,所述编码所述稳定蛋白的核酸可使胰岛素多肽与油体相结合。
20、如权利要求19的方法,其中所述稳定蛋白编码对油体具有特异性的单链抗体。
21、如权利要求15的方法,其中与编码胰岛素的核酸序列在读框内融合的、编码稳定蛋白的核酸序列选自由单链抗体和霍乱毒素B亚基组成的多肽组中。
22、如权利要求3的方法,其中在核基因组整合条件下将所述嵌合核酸序列导入植物细胞内。
23、如权利要求1-22任一项的方法,其中所述能够在植物种子内控制表达的核酸序列是种子偏好启动子。
24、如权利要求23的方法,其中种子偏好启动子是菜豆蛋白启动子。
25、如权利要求1-24任一项的方法,其中编码胰岛素的核酸序列选自由人胰岛素、猪胰岛素和牛胰岛素组成的核酸序列组中。
26、如权利要求1-25任一项的方法,其中编码胰岛素的核酸是微型胰岛素。
27、如权利要求1-26任一项的方法,其中编码胰岛素的核酸序列根据植物密码子使用表进行优化。
28、一种获得包含胰岛素的植物种子的方法,包括:
(a)提供嵌合核酸构建体,其包括在转录的5’至3’方向可操纵连接的下列组分:
(i)能够在植物种子细胞内控制表达的核酸序列;和
(ii)编码胰岛素多肽的核酸序列;
(b)把嵌合核酸构建体导入植物细胞;
(c)令植物细胞成长为能够结种子的成熟植物;以及
(d)从该植物获得种子,其中种子包含胰岛素。
29、如权利要求28的方法,其中种子内存在的总可溶性蛋白质的至少0.1%是胰岛素。
30、一种能够结种子的植物,所述种子包括嵌合核酸序列,所述嵌合核酸序列在转录的5’至3’方向包括:
(a)第一种核酸序列,其能够在植物种子细胞内控制表达,其可操纵地连接于;
(b)第二种核酸序列,其编码胰岛素多肽,其中种子含有胰岛素。
31、如权利要求28的植物,其中嵌合核酸序列整合于植物核基因组内。
32、如权利要求30或31的植物,其中植物是芥属、亚麻或红花植物。
33、一种植物种子,其包括嵌合核酸序列,该序列在转录的5’至3’方向包括:
(a)第一种核酸序列,其能够在植物种子细胞内控制表达,其可操纵地连接于;
(b)第二种核酸序列,其编码胰岛素多肽。
34、如权利要求33的植物种子,其中种子内存在的总可溶性蛋白质的至少0.1%是胰岛素。
35、一种编码胰岛素的核酸序列,其连接于一种包括能够在植物种子细胞内控制表达的启动子的核酸序列。
36、如权利要求35的核酸序列,其中所述启动子是种子偏好启动子。
37、如权利要求36的核酸序列,其中所述种子偏好启动子是菜豆蛋白启动子。
38、如权利要求35的核酸序列,其中所述核酸序列另含有能将胰岛素多肽保持于膜包围的细胞内区室内的序列。
39、如权利要求35的核酸序列,其中所述核酸序列另含有能将胰岛素多肽保持于ER或ER衍生储存细胞器内的序列。
40、根据权利要求1-29任一项制备的植物种子在获得基本上纯的胰岛素中的应用。
CN2004800236023A 2003-06-17 2004-06-17 在植物中生产胰岛素的方法 Expired - Fee Related CN1836047B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US47881803P 2003-06-17 2003-06-17
US60/478,818 2003-06-17
US54953904P 2004-03-04 2004-03-04
US60/549,539 2004-03-04
PCT/CA2004/000896 WO2004111244A2 (en) 2003-06-17 2004-06-17 Methods for the production of insulin in plants

Publications (2)

Publication Number Publication Date
CN1836047A true CN1836047A (zh) 2006-09-20
CN1836047B CN1836047B (zh) 2010-12-22

Family

ID=33555509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2004800236023A Expired - Fee Related CN1836047B (zh) 2003-06-17 2004-06-17 在植物中生产胰岛素的方法

Country Status (24)

Country Link
US (2) US7547821B2 (zh)
EP (2) EP1633876B1 (zh)
JP (2) JP4864701B2 (zh)
KR (1) KR101216762B1 (zh)
CN (1) CN1836047B (zh)
AR (1) AR044803A1 (zh)
AT (1) ATE405660T1 (zh)
AU (1) AU2004247762B2 (zh)
BR (1) BRPI0411479A (zh)
CA (1) CA2528741A1 (zh)
CY (1) CY1108477T1 (zh)
DE (1) DE602004015980D1 (zh)
DK (1) DK1633876T3 (zh)
EA (1) EA014887B1 (zh)
ES (1) ES2313018T3 (zh)
HK (1) HK1088037A1 (zh)
IL (1) IL172469A (zh)
MX (1) MXPA05013723A (zh)
NO (1) NO20055885L (zh)
NZ (1) NZ544522A (zh)
PL (1) PL1633876T3 (zh)
PT (1) PT1633876E (zh)
TW (1) TWI345587B (zh)
WO (1) WO2004111244A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102268451A (zh) * 2010-06-01 2011-12-07 安胜军 一种含有人胰岛素基因的表达载体及其构建方法与应用
WO2019154311A1 (zh) * 2018-02-09 2019-08-15 江苏恒瑞医药股份有限公司 一种密码子优化的人胰岛素类似物前体基因和信号肽基因

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7393998B2 (en) 2002-03-08 2008-07-01 Prodigene, Inc. Commercial production of insulin and insulin-like proteins in plants
US9453251B2 (en) 2002-10-08 2016-09-27 Pfenex Inc. Expression of mammalian proteins in Pseudomonas fluorescens
WO2004044206A1 (en) * 2002-11-12 2004-05-27 Ckd Bio Corp. Plasmids expressing human insulin and the preparation method for human insuling thereby
US20040173547A1 (en) * 2003-03-06 2004-09-09 Roth Michael Carl Bolt on attachment to facilitate hanging of pneumatic tool
AR044803A1 (es) * 2003-06-17 2005-10-05 Sembiosys Genetics Inc Metodos para la produccion de insulina
CA2528845A1 (en) * 2003-06-20 2004-12-29 Sembiosys Genetics Inc. Modified oleosins
TW200526778A (en) * 2003-11-14 2005-08-16 Sembiosys Genetics Inc Methods for the production of apolipoproteins in transgenic plants
CA2574953A1 (en) 2004-07-26 2006-02-09 Dow Global Technolgies Inc. Process for improved protein expression by strain engineering
CA2609367C (en) 2005-05-23 2014-08-19 Arcadia Biosciences, Inc. Safflower with elevated gamma-linolenic acid
EP2261364A3 (en) * 2005-05-27 2011-03-30 The University of Central Florida, Chloroplasts engineered to express pharmaceutical proteins
EP2189532A1 (en) * 2005-07-01 2010-05-26 Nestec S.A. Promoters from coffee
US8343914B2 (en) * 2006-01-06 2013-01-01 Case Western Reserve University Fibrillation resistant proteins
ATE497008T1 (de) 2006-08-31 2011-02-15 Monsanto Technology Llc Verfahren zur herstellung transgener pflanzen
WO2008043033A2 (en) 2006-10-04 2008-04-10 Case Western Reserve University Fibrillation-resistant insulin and insulin analogues
US9580719B2 (en) 2007-04-27 2017-02-28 Pfenex, Inc. Method for rapidly screening microbial hosts to identify certain strains with improved yield and/or quality in the expression of heterologous proteins
WO2008134461A2 (en) 2007-04-27 2008-11-06 Dow Global Technologies, Inc. Method for rapidly screening microbial hosts to identify certain strains with improved yield and/or quality in the expression of heterologous proteins
WO2009115469A1 (en) * 2008-03-18 2009-09-24 Novo Nordisk A/S Protease stabilized, acylated insulin analogues
US8993516B2 (en) * 2008-04-14 2015-03-31 Case Western Reserve University Meal-time insulin analogues of enhanced stability
WO2009132129A2 (en) * 2008-04-22 2009-10-29 Case Western Reserve University Isoform-specific insulin analogues
PL219335B1 (pl) * 2008-07-04 2015-04-30 Inst Biotechnologii I Antybiotyków Pochodna insuliny lub jej farmaceutycznie dopuszczalna sól, jej zastosowanie oraz zawierająca ją kompozycja farmaceutyczna
KR20120129875A (ko) 2008-07-31 2012-11-28 케이스 웨스턴 리저브 유니버시티 염소화 아미노산을 갖는 인슐린 유사체
US9200053B2 (en) 2008-07-31 2015-12-01 Case Western Reserve University Insulin analogues containing penta-fluoro-Phenylalanine at position B24
CN101736029B (zh) * 2008-11-21 2013-01-02 复旦大学 一种利用植物油体蛋白表达系统生产人胰岛素样生长因子-i的方法
US8399407B2 (en) * 2009-09-17 2013-03-19 Case Western Reserve University Non-standard insulin analogues
MX2012006568A (es) 2009-12-11 2012-12-17 Univ Case Western Reserve Analogos de insulina con aminoacidos clorados.
WO2011158242A2 (en) 2010-06-16 2011-12-22 Futuragene Israel Ltd. Pest -resistant plants containing a combination of a spider toxin and a chitinase
US20130164288A1 (en) 2010-09-07 2013-06-27 Protalix Ltd. Readthrough acetylcholinesterase (ache-r) for treating or preventing parkinson's disease
US9006176B2 (en) * 2011-10-18 2015-04-14 AmideBio LLC Chemically and thermodynamically stable insulin analogues and improved methods for their production
US9352456B2 (en) 2011-10-26 2016-05-31 Black & Decker Inc. Power tool with force sensing electronic clutch
US9481721B2 (en) 2012-04-11 2016-11-01 Novo Nordisk A/S Insulin formulations
EP2986315A4 (en) 2013-04-17 2017-03-01 AmideBio LLC Chemically and thermodynamically stable insulin analogues and improved methods for their production
KR101625746B1 (ko) 2013-09-23 2016-05-31 순천대학교 산학협력단 프로미니인슐린 재조합 단백질이 발현된 형질전환 식물 및 이의 제조방법
JP6829928B2 (ja) 2014-10-06 2021-02-17 ケース ウェスタン リザーブ ユニバーシティCase Western Reserve University 二相性単鎖インスリン類似体
CN115154591B (zh) 2016-12-16 2023-04-14 诺和诺德股份有限公司 含胰岛素的药物组合物
KR102642178B1 (ko) * 2017-08-08 2024-02-29 중앙대학교 산학협력단 돌연변이에 의해, 혈중 반감기 및 공수병 바이러스 중화 효능이 증대된 공수병 바이러스 중화 항체
CN114144426A (zh) * 2019-04-19 2022-03-04 印地安纳大学理事会 餐时或基础胰岛素类似物通过内部二硒桥的稳定化
CN115151273A (zh) * 2019-12-06 2022-10-04 美商玛丽莫里斯博士联合有限责任公司 用于治疗和预防1型糖尿病的方法和组合物
CA3174156A1 (en) * 2020-07-03 2022-01-06 Nachi GUPTA Modified insulin and glucokinase nucleic acids for treating diabetes
EP4190905A1 (en) 2021-12-01 2023-06-07 Core Biogenesis Method for the purification of recombinant proteins using oil body proteins

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3971856A (en) 1975-03-03 1976-07-27 Archer Daniels Midland Company Process for preparing soy protein concentrate
US6174724B1 (en) 1983-01-17 2001-01-16 Monsanto Company Chimeric genes suitable for expression in plant cells
NL8300698A (nl) 1983-02-24 1984-09-17 Univ Leiden Werkwijze voor het inbouwen van vreemd dna in het genoom van tweezaadlobbige planten; agrobacterium tumefaciens bacterien en werkwijze voor het produceren daarvan; planten en plantecellen met gewijzigde genetische eigenschappen; werkwijze voor het bereiden van chemische en/of farmaceutische produkten.
US5504200A (en) 1983-04-15 1996-04-02 Mycogen Plant Science, Inc. Plant gene expression
DK58285D0 (da) 1984-05-30 1985-02-08 Novo Industri As Peptider samt fremstilling og anvendelse deraf
US5008241A (en) 1985-03-12 1991-04-16 Novo Nordisk A/S Novel insulin peptides
US4956282A (en) * 1985-07-29 1990-09-11 Calgene, Inc. Mammalian peptide expression in plant cells
DK175922B1 (da) 1985-08-07 2005-07-04 Monsanto Technology Llc Glyphosat-resistente planter
US5273894A (en) 1986-08-23 1993-12-28 Hoechst Aktiengesellschaft Phosphinothricin-resistance gene, and its use
US5268463A (en) 1986-11-11 1993-12-07 Jefferson Richard A Plant promoter α-glucuronidase gene construct
EP0513849B1 (en) 1987-05-20 1998-08-19 Novartis AG Method of preparing transgenic Zea mays plants regenerated from protoplasts or protoplast-derived cells
DK336188D0 (da) 1988-06-20 1988-06-20 Nordisk Gentofte Propeptider
CA1341467C (en) 1988-07-29 2004-12-07 John C. Rogers Producing commercially valuable polypeptides with genetically transformed endosperm tissue
HUT56857A (en) 1988-12-23 1991-10-28 Novo Nordisk As Human insulin analogues
ES2199931T3 (es) 1989-03-24 2004-03-01 Syngenta Participations Ag Plantas transgenicas resistentes a enfermedades.
NL8901932A (nl) * 1989-07-26 1991-02-18 Mogen Int Produktie van heterologe eiwitten in planten of plantecellen.
US4940935A (en) 1989-08-28 1990-07-10 Ried Ashman Manufacturing Automatic SMD tester
US5202422A (en) * 1989-10-27 1993-04-13 The Scripps Research Institute Compositions containing plant-produced glycopolypeptide multimers, multimeric proteins and method of their use
US5959177A (en) * 1989-10-27 1999-09-28 The Scripps Research Institute Transgenic plants expressing assembled secretory antibodies
KR910014790A (ko) 1990-01-10 1991-08-31 한태희 랩탑 컴퓨터의 기능선택방법 및 인터페이스회로
WO1991013993A1 (en) * 1990-03-05 1991-09-19 The Upjohn Company Protein expression via seed specific regulatory sequences
US5650554A (en) 1991-02-22 1997-07-22 Sembiosys Genetics Inc. Oil-body proteins as carriers of high-value peptides in plants
UA48104C2 (uk) 1991-10-04 2002-08-15 Новартіс Аг Фрагмент днк, який містить послідовність,що кодує інсектицидний протеїн, оптимізовану для кукурудзи,фрагмент днк, який забезпечує направлену бажану для серцевини стебла експресію зв'язаного з нею структурного гена в рослині, фрагмент днк, який забезпечує специфічну для пилку експресію зв`язаного з нею структурного гена в рослині, рекомбінантна молекула днк, спосіб одержання оптимізованої для кукурудзи кодуючої послідовності інсектицидного протеїну, спосіб захисту рослин кукурудзи щонайменше від однієї комахи-шкідника
JP3660354B2 (ja) 1992-04-02 2005-06-15 セムバイオシス ジェネティクス インコーポレイテッド 調節シグナルとしてのオイルボディタンパク質シスエレメント
ES2191028T3 (es) * 1992-12-28 2003-09-01 Stichting Scheikundig Onderzoe Metodo para obtener plantas transgenicas que presentan un patron de fructano modificado.
US5461031A (en) 1994-06-16 1995-10-24 Eli Lilly And Company Monomeric insulin analog formulations
US5474978A (en) 1994-06-16 1995-12-12 Eli Lilly And Company Insulin analog formulations
US5633437A (en) 1994-10-11 1997-05-27 Sandoz Ltd. Gene exhibiting resistance to acetolactate synthase inhibitor herbicides
US6040496A (en) 1995-06-30 2000-03-21 Novartis Finance Corporation Use of translationally altered RNA to confer resistance to maize dwarf mosaic virus and other monocotyledonous plant viruses
US5577474A (en) * 1995-11-29 1996-11-26 General Motors Corporation Torque estimation for engine speed control
CA2246242A1 (en) * 1996-02-08 1997-08-14 Institut Fur Pflanzengenetik Und Kulturpflanzenforschung Cassettes for the expression of storable proteins in plants
US5856452A (en) * 1996-12-16 1999-01-05 Sembiosys Genetics Inc. Oil bodies and associated proteins as affinity matrices
AU742794B2 (en) 1997-04-25 2002-01-10 Sembiosys Genetics Inc. Method for cleavage of fusion proteins
ATE346944T1 (de) * 1997-09-30 2006-12-15 Univ California Herstellung von proteinen in pflanzensamen
AU3868199A (en) * 1998-04-27 1999-11-16 Demegen, Inc. A method for increasing the protein content of plants
WO2001072959A2 (en) * 2000-03-01 2001-10-04 Auburn University Plastid transformation vectors for expressing human proteins in plants
US6429357B1 (en) 1999-05-14 2002-08-06 Dekalb Genetics Corp. Rice actin 2 promoter and intron and methods for use thereof
CN1376204B (zh) 1999-08-27 2010-05-05 塞姆柏奥希斯遗传学公司 亚麻种子特异性启动子
US6521738B2 (en) 1999-12-29 2003-02-18 Novo Nordisk A/S Method for making insulin precursors and insulin precursor analogs
CN1295129A (zh) * 2000-08-25 2001-05-16 林忠平 利用转基因番茄生产人胰岛素的方法
US20090197337A1 (en) * 2000-12-19 2009-08-06 Van Rooijen Gijs Methods for the production of multimeric proteins and related compositions
US6650554B2 (en) 2001-05-22 2003-11-18 Powersine Ltd. Power factor corrector with efficient ripple attenuator
US7393998B2 (en) * 2002-03-08 2008-07-01 Prodigene, Inc. Commercial production of insulin and insulin-like proteins in plants
CN1382734A (zh) * 2002-03-15 2002-12-04 林忠平 利用转基因生菜生产人胰岛素的方法
AR044803A1 (es) * 2003-06-17 2005-10-05 Sembiosys Genetics Inc Metodos para la produccion de insulina

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102268451A (zh) * 2010-06-01 2011-12-07 安胜军 一种含有人胰岛素基因的表达载体及其构建方法与应用
CN102268451B (zh) * 2010-06-01 2014-03-12 安胜军 一种含有人胰岛素基因的表达载体及其构建方法与应用
WO2019154311A1 (zh) * 2018-02-09 2019-08-15 江苏恒瑞医药股份有限公司 一种密码子优化的人胰岛素类似物前体基因和信号肽基因

Also Published As

Publication number Publication date
EP1633876B1 (en) 2008-08-20
WO2004111244A2 (en) 2004-12-23
AR044803A1 (es) 2005-10-05
US7547821B2 (en) 2009-06-16
NZ544522A (en) 2008-03-28
DK1633876T3 (da) 2008-12-08
CA2528741A1 (en) 2004-12-23
CY1108477T1 (el) 2014-04-09
JP2011200251A (ja) 2011-10-13
KR20060052705A (ko) 2006-05-19
NO20055885L (no) 2006-01-17
WO2004111244A3 (en) 2005-02-03
AU2004247762A1 (en) 2004-12-23
IL172469A0 (en) 2006-04-10
KR101216762B1 (ko) 2013-01-02
HK1088037A1 (en) 2006-10-27
TW200510529A (en) 2005-03-16
DE602004015980D1 (de) 2008-10-02
ES2313018T3 (es) 2009-03-01
AU2004247762B2 (en) 2010-05-27
PL1633876T3 (pl) 2009-01-30
EA200600050A1 (ru) 2006-06-30
JP2007523611A (ja) 2007-08-23
TWI345587B (en) 2011-07-21
EP1959017A1 (en) 2008-08-20
IL172469A (en) 2011-08-31
US20050039235A1 (en) 2005-02-17
ATE405660T1 (de) 2008-09-15
EP1633876A2 (en) 2006-03-15
BRPI0411479A (pt) 2006-07-25
JP4864701B2 (ja) 2012-02-01
MXPA05013723A (es) 2006-03-13
US20090282583A1 (en) 2009-11-12
PT1633876E (pt) 2008-11-03
EA014887B1 (ru) 2011-02-28
CN1836047B (zh) 2010-12-22

Similar Documents

Publication Publication Date Title
CN1836047A (zh) 在植物中生产胰岛素的方法
Kusnadi et al. Production of recombinant proteins in transgenic plants: practical considerations
CN1906296A (zh) 在转基因植物中产生载脂蛋白的方法
EP1523558B1 (en) Production of peptides and proteins by accumulation in plant endoplasmic reticulum-derived protein bodies
CN101065491A (zh) 生产胶原的植物及其生成和使用方法
CN1688690A (zh) 大肠杆菌appa肌醇六磷酸酶突变体
CN1860231A (zh) 转录因子
CN1753992A (zh) 种子中蛋白质含量降低的植物及其制备方法和利用方法
CN101080492A (zh) 用于调节植物中油质蛋白表达的方法
CN1622825A (zh) 用于动物饲料的耐热植酸酶
CN1318974A (zh) 受体样蛋白激酶rkn以及用其增加植物生长和产量的方法
CN1639337A (zh) 具有催泪成分合成酶活性的蛋白质或多肽、编码该蛋白质或多肽的 DNA、利用该 DNA制造具有催泪成分合成酶活性的蛋白质或多肽的制造方法以及具有抑制该蛋白质或多肽的mRNA翻译的功能的核酸分子
CN1886512A (zh) 多肽在叶绿体中的表达以及用于表达多肽的组合物和方法
CN1761754A (zh) 在植物中表达抗肠产毒性大肠杆菌的抗体
CN1906298A (zh) 来源于草本植物发草属、黑麦草属和羊茅属物种的冰再结晶抑制蛋白或抗冻蛋白
CN1323347A (zh) 调节植物气孔特性的工具和方法
CN1615363A (zh) 重组芽孢杆菌植酸酶及其用途
CN1860233A (zh) 用于增加植株大小及增加叶片数目和大小的核苷酸序列及其编码的多肽
CN1547610A (zh) 用于生长激素高表达的dna及其应用
CN1842591A (zh) 提高植物中油脂水平的方法
CN1930189A (zh) 在植物中生产肽/蛋白质的方法以及用该方法生产的肽/蛋白质
CN1749272A (zh) 人新蛋白hBTBD56及其编码序列
CN85101561A (zh) 用于表达牛生长激素衍生物的载体
CN1621517A (zh) 盐生杜氏藻3-磷酸甘油脱氢酶及其编码序列

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CI02 Correction of invention patent application

Correction item: Priority

Correct: 2004.03.04 US 60/549,539

False: Lack of priority second

Number: 38

Page: The title page

Volume: 22

COR Change of bibliographic data

Free format text: CORRECT: PRIORITY; FROM: MISSING THE SECOND ARTICLE OF PRIORITY TO: 2004.3.4 US 60/549,539

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101222

Termination date: 20150617

EXPY Termination of patent right or utility model