CN1836047A

CN1836047A - 在植物中生产胰岛素的方法

Info

Publication number: CN1836047A
Application number: CNA2004800236023A
Authority: CN
Inventors: 莫里斯·M.·莫洛尼; 约瑟夫·布斯; 理查德·基翁; 科里·尼斯弗鲁克; 吉杰斯·范鲁伊杰恩
Original assignee: SemBioSys Genetics Inc
Current assignee: SemBioSys Genetics Inc
Priority date: 2003-06-17
Filing date: 2004-06-17
Publication date: 2006-09-20
Anticipated expiration: 2024-06-17
Also published as: EP1633876B1; WO2004111244A2; AR044803A1; US7547821B2; NZ544522A; DK1633876T3; CA2528741A1; CY1108477T1; JP2011200251A; KR20060052705A; NO20055885L; WO2004111244A3; AU2004247762A1; IL172469A0; KR101216762B1; HK1088037A1; TW200510529A; DE602004015980D1; ES2313018T3; AU2004247762B2

Abstract

本发明描述了在植物内生产胰岛素的方法。在一个实施方案中，本发明提供了在植物内表达胰岛素的方法，包括：(a)提供嵌合核酸构建体，其在5’至3’的转录方向包括可操纵连接的下列组分：(i)可在植细胞内控制表达的核酸序列；和(ii)编码胰岛素多肽的核酸序列；(b)把嵌合核酸构建体导入植物细胞内；以及(c)令植物细胞成长为成熟植物，可结种子，其中种子表达胰岛素。

Description

在植物中生产胰岛素的方法

发明领域

本发明涉及植物基因工程方法及胰岛素的生产。更具体地，本发明涉及在植物种子内生产胰岛素的方法。

背景技术

胰岛素是维持哺乳动物，包含人类，和其它脊椎动物体内血液葡萄糖体内稳态所需的重要肽激素。在健康的个体中，血液葡萄糖水准上升会刺激胰脏的β细胞分泌胰岛素。然后胰岛素多肽结合肌肉、肝脏、脂肪组织内的特异受体，导致这些靶组织的葡萄糖摄取量增加，新陈代谢提高，肝葡萄糖生产降低。这些反应的累积效果保持血液葡萄糖浓度在一恒定水平。

在患糖尿病的个体中，胰岛素浓度异常低，本身呈现慢性高血糖。慢性高血糖的临床表现多样，包含目盲、肾衰竭，如不治疗，最终导致死亡。估计在工业化国家，糖尿病在第三大死亡原因，在心血管疾病和癌症之后(Barfoed H.C.，1987，Chem.Eng.Prog.83：49-54)。为使血液葡萄糖被细胞有效摄取和新陈代谢，糖尿病患者可以通过例行施用胰岛素来治疗。世界人口大约0.7％患有胰岛素依赖性糖尿病(I型糖尿病)(Winter J.等人，2000，J.of Biotechnol.84：175-185)。此外，估计未来25年中诊断出糖尿病的患者数将倍增至约3亿(Kjeldsen T.等人，2001，Biotechnol.Gen.Eng.Rev.18：89-121)。因此，亟需有能力以成本有效性方式大量制造人胰岛素，以满足预见成长中的全球胰岛素需要。

体内人胰岛素多肽是利用胰β-细胞生产，形成单一110个氨基酸的多肽链前体，即前胰岛素原，其在N-末端位置包括24个氨基酸的前序列，在链生物合成完成时被立刻切除(Steiner，D.F.2000，J.Ped.Endocrinol.Metab，13：229-239)。胰岛素原是由B链和A链组成，其由连接肽(C-肽)连接。激素包装分泌过程中，C-肽被激素原转化酶PC2和PC1/PC3裂解去除(Steiner，D.F.2000，J.Ped.Endocrinol.Metab.13：229-239)。遗留的是成熟的人胰岛素，51个氨基酸的蛋白质，其由二种多肽链组成，A(长度为21个氨基酸)和B(长度为30个氨基酸)，通过二个链间二硫键连接。此外，A链包括一个链内二硫键。

人胰岛素可使用多种不同的方法制备。通常使用微生物，如大肠杆菌(Escherichia coli)(Frank等人，1981，Peptides：Proceedings of7th American Peptide Chemistry Symposium(Rich &Gross，eds)，PierceChemical Co.，Rockford，Ill.729-739页；Chan等人，1981，Proc.Natl.Acad.Sci.USA 78：5401-5404)、酿酒母菌(Saccharomyces cerevisiae)(Thim等人，1986，Proc.Natl.Acad.Sci.USA 83：6766-6770)重组生产胰岛素。Wang等人(Biotechnol.Bioeng.，2001，73：74-79)已示出真菌，如巴斯德毕赤酵母(Pichia pastoris)，亦可适用于胰岛素生产。其它制法选项包扩在非人类哺乳动物细胞系内生产(Yanagita，M等人，1992，FEBS lett 311：55-59)，从人体胰脏分离、肽合成，或由猪和牛胰岛素半合成转化成人胰岛素。然而，所有这些方法均比希望的产率要低且成本高。

使用植物作为生物反应器大量生产重组蛋白质是公知的，并已生产过多种蛋白质，包扩人体治疗用蛋白质。例如，美国专利4,956,282，5,550,038和5,629,175揭示在植物内生产γ-干扰素；美国专利5,650,307，5,716,802和5,763,748揭示在植物内生产人血清白蛋白；而美国专利5,202,422，5,639,947和5,959,177涉及在植物内生产抗体。基于植物的重组蛋白质生产系统提供的一个显著优点是通过提高植物生长的土地面积，蛋白质生产可廉价地扩大规模到提供大量蛋白质。反之，发酵和细胞培养系统需要大的空间、设备和能量需求，使大规模生产的成本高。然而，尽管事实上使用植物为生物反应器被大量报道，且尽管上述预期的巨大增加的大量胰岛素需求，现有技术只提供了有限数目的方法证明在植物内生产胰岛素(参见Arakawa等人，Nature Biotech，1998，16：934-938；PCT 01/72959)。

Arakawa等人揭示融合蛋白质的生产，包括在转基因马铃薯植物的块茎内生产胰岛素。然而，胰岛素仅代表转基因块茎内存在的总可溶性蛋白质含量的直至0.05％而已。在总可溶性蛋白质的0.05％水平，大量的生物量必须进行蛋白质提取，致使与使用马铃薯块茎相关的生产从经济上不利。此外，Arakawa等人不涉及从马铃薯块茎组织中分离胰岛素，但提议了通过诱导免疫耐受防止I型糖尿病发作的方法，其包括通过喂转基因马铃薯块茎以口服胰岛素。

PCT专利申请WO01/72959揭示了融合蛋白质的生产，包括在转基因烟草的叶绿体中生产胰岛素。然而，虽然存在有关人蛋白质在植物组织内累积水平的缺点，但WO01/72959的发明仅限于在叶绿体内生产而造成在绿色组织，主要是烟叶中累积胰岛素。由于绿色组织相对高的含水量，因此必须处理大量的生物量。此外，生产胰岛素需在收获时立即从生物量提取，因为叶物质在储存时很快变质。

因此，鉴于现有技术所提供的与在植物内重组生产胰岛素的方法相关的缺点，目前尚未明了是否可以及如何利用植物的合成能力实现在植物内商业化生产胰岛素。本领域亟需改进在植物内商业化生产胰岛素的方法。

发明简述

本发明涉及在植物内生产胰岛素的改良方法。具体地，本发明涉及在种子内生产胰岛素的方法。

因此，本发明提供了在植物内表达胰岛素的方法，包括：

(a)提供嵌合核酸构建体，在5’至3’转录方向包括可操纵连接的如下组分：

(i)在植物种子细胞内可控制表达的核酸序列；及

(ii)编码胰岛素多肽的核酸序列；

(b)把嵌合核酸构建体导入植物细胞内：以及

(c)令植物细胞成长为成熟植物，其可结种子，其中种子表达胰岛素。

在本发明的一个优选实施方案中，可在植物种子细胞内控制表达的核酸序列是种子偏好启动子，如菜豆蛋白启动子。

在本发明的一个优选实施方案中，胰岛素以可以在种子细胞内膜包围的细胞内区室(membrane enclosed intracellular compartment)内累积胰岛素多肽的方式表达。因此，本发明提供了在植物内表达胰岛素的方法，所述方法包括：

(a)提供嵌合核酸构建体，在5’至3’转录方向包括下列可操纵连接的组分：

(i)可在植物种子细胞内控制表达的核酸序列；和

(ii)编码胰岛素多肽的核酸序列：和

(iii)编码可将胰岛素多肽保持在膜包围的细胞内区室的多肽的核酸序列；

(b)把嵌合核酸构建体导入植物细胞内；以及

在本发明又一优选的实施方案中，膜包围的细胞内区室是内质网(ER)或ER衍生的储存小泡。因此，本发明提供了在植物内表达胰岛素的方法，所述方法包括：

(i)可在植物种子细胞内控制表达的核酸序列；及

(ii)编码胰岛素多肽的核酸序列；

(iii)编码可将胰岛素多肽保持在ER或ER衍生的储存小泡内的多肽的核酸序列；

(b)把嵌合核酸构建体导入植物细胞内；以及

在又一优选的实施方案中，在核基因组整合条件下，把嵌合核酸构建体导入植物细胞内。在如此条件下，嵌合核酸序列稳定地整合进植物基因组内。

在另一优选的实施方案中，编码胰岛素的核酸序列根据植物密码子使用表对进行优化并将编码连接肽(C-肽)的核酸序列缩短。本发明所用优选的核酸序列编码人、牛或猪胰岛素。按照本发明，使用编码胰岛素原序列的核酸序列，其中胰岛素原经修饰，把C-肽长度缩短。

在另一方面，本发明提供了包括胰岛素的植物种子的回收方法。因此，本发明提供了一种获得包括胰岛素的植物种子的方法，包括：

(i)可在植物种子细胞内控制表达的核酸序列；和

(ii)编码胰岛素多肽的核酸序列；

(b)把嵌合核酸构建体导入植物细胞内；

(c)令植物细胞成长为成熟植物，其可结种子；以及

(d)从所述植物获得种子，其中种子包括胰岛素。

优选种子内存在的全部种子蛋白质的至少0.1％为胰岛素。

种子可用来获得子代植物群，其中每个都包括表达胰岛素的多个种子。

本发明还提供了可结表达胰岛素的种子的植物。在本发明一个优选实施方案中，可结种子的植物包括嵌合核酸序列，其在5’至3’转录方向包括：

(a)可在植物种子细胞内控制表达的第一核酸序列，其可操纵的连接于；

(b)编码胰岛素多肽的第二核酸序列，其中种子含有胰岛素。

优选地，种子内存在的全部种子蛋白质的至少0.1％是胰岛素。

在一个优选的实施方案中，嵌合核酸序列整合于植物核基因组内。

在本发明另一优选实施方案中，使用植物为红花，亚麻植物或芥属(Arabidopsis)植物。

在另一方面，本发明提供了表达胰岛素的植物种子。在本发明一个优选的实施方案中，植物种子包括嵌合核酸序列，在5’至3’转录方向包括：

(b)编码胰岛素多肽的第二核酸序列。

优选地，种子内存在的全部种子蛋白质的至少0.1％是胰岛素。种子是利用种子细胞合成所需胰岛素多肽的来源，其可经提取，而且胰岛素可用来治疗糖尿病患者。

本发明的其它特征和优点通过下列详述可容易明白。然而，应理解表示本发明优选实施方案的详细说明和特定实施例仅是为了阐明本发明，因此通过改详细说明，本领域技术人员可以容易地知道在本发明精神和范围内的多种变化和修饰。

附图说明

本发明通过附图描述，其中：

图1表示pSBS4404的胰岛素融合蛋白(PRS-D9scFv-Klip27-MI-KDEL)的核苷酸序列(SEQ ID NO：1)和推定的氨基酸序列(SEQ ID NO：2)。预期的氨基酸序列用单字母符号表示。PRS信号肽的推定氨基酸序列用斜体字，而D9scFv的推定氨基酸序列用黑体字，KLIP27序列的推定氨基酸序列下划线，微型胰岛素(mini-insulin)序列的推定氨基酸序列用斜黑体字，最后KDEL序列用黑体下划线。

图2表示pSBS4405胰岛素融合蛋白质(OLEO-KLIP8-KLIP27-MI)的核苷酸序列(SEQ ID NO：3)和推定的氨基酸序列(SEQ ID NO：4)。预期的氨基酸序列用单字母符号表示。拟南芥(Arabidopsis thaliana)18kDa油质蛋白的推定氨基酸是斜体字，KLIP8序列的推定氨基酸序列用黑体，KLIP27序列的推定氨基酸序列下划线，而微型胰岛素的推定氨基酸序列用斜黑体。

图3表示4414胰岛素融合蛋白(PRS-MI-四元(tetrabasic)接头-D9Scfv-KDEL)的完整核酸序列(SEQ ID NO：5)和氨基酸序列(SEQID NO：6)。预期氨基酸序列以单字母符号表示。PRS信号肽的推定氨基酸序列用斜体，微型胰岛素(B30四元)的推定氨基酸序列用黑体，四元接头序列的推定氨基酸序列下划线，D9scFv的推定氨基酸序列用斜黑体，最后KDEL序列用黑体下划线。

图4(A-D)表示根据考马斯染色SDS-PAGE和蛋白质印迹分析胰岛素融合蛋白在转化的拟南芥(4404-2、-17、-20和4405-4)品系中的重组表达。箭头分别指在还原条件下，38.5kDa和34.2kDa融合多肽、PRS-D9(scfv)-KLIP27-MIw/KDEL和OLEO-KLIP8-KLIP27-MI的迁移位置。图4A(考马斯染色凝胶)和4B(相当于以抗胰岛素E2E3探测的蛋白质印迹)表示来自野生型(wt)的总种子蛋白质以及表达4404和4405构建体的转基因种子品系。图4B(考马斯染色凝胶)和4D(相当于以抗胰岛素E2E3探测的蛋白质印迹)表示由野生型制备的油体蛋白质以及表达同样4404和4405构建体的转基因种子。图4(E-F)表示根据考马斯染色SDS-PAGE和蛋白质印迹分析，胰岛素融合蛋白在转化的拟南芥品系(4419-9和4414-20)中的重组表达。分子量标记(M)为10，15，25，37，50，75，100，150kDa。对照包扩hIN(重组人胰岛素标准)和hProIN(重组人胰岛素原标准)，在非还原条件下分离。

图5表示在可得到的T3种子品系(4404-2、-17、-20，4405-4、-13、-19)和T2种子品系(4414-9和-20)中测定的表达水平。转基因水平和％摩尔MI表达根据光密度测定法测定。

图6表示考马斯染色SDS-PAGE(15％)分析洗脱前的油体制备物(-OB)、用甲酸洗脱后的OB制备物(-OB’)，以及浓缩的洗脱物质(-E)。箭头指融合多肽的迁移位置。野生型对照基本上在洗脱后不含任何主要蛋白质，而浓缩的4404物质含有融合蛋白，某些截短产物(可能是水解的融合蛋白)以及可能有共同洗脱的一些白蛋白。

图7表示层析谱，显示与在C18柱上胰蛋白酶裂解的洗脱4404融合蛋白相比，人胰岛素标准的特征性住留时间。hIN标准是重组人胰岛素标准(0.5μg)。

图8表示人胰岛素标准(A)的质谱分析，与从17.0-17.5分钟所集的胰蛋白酶裂解和HPLC纯化的4404(B)级分比较。

图9表示总可提取种子蛋白质和表达4405的品系的油体(OB)制备蛋白质的考马斯染色SDS-PAGE(15％)分析，与野生型(非重组)种子比较。箭头指示融合多肽的迁移位置。

图10表示层析谱，显示人胰岛素标准的特征性住留时间，与胰蛋白酶裂解的、在C18柱上通过RP-HPLC制备的4405OB制备物比较。hIN标准是重组人胰岛素标准(0.5μg)。

图11表示人胰岛素标准(A)的质谱分析，与从17.0-17.5分钟收集的胰蛋白酶裂解和HPLC纯化的4405(B)级分比较。

图12表示胰蛋白酶裂解的4405油体制备物(虚线)的层析谱，与人胰岛素标准(实线)比较。在7-35mS/cm间收集洗脱的裂解的胰岛素级分并利通过冷冻干燥浓缩以供胰岛素生物分析。

图13表示B6雄鼠在注射负对照(空白圆形＝生理盐水安慰剂，实心圆形＝胰蛋白酶裂解的野生型油体)，正对照(空白方形＝Humulin R，空白三角形＝Roche hIN)后的血清葡萄糖水平变化，与从4405油体(实心菱形＝SBS hIN DesB₃₀)制备的植物衍生胰岛素比较。

图14表示二种代表性品系(4409-6和4409-8)的油体蛋白质的考马斯染色凝胶，比较油质蛋白-hPIN融合蛋白(黑色箭头所示)与非转化(wt)芥的迁移。表达水平通过光密度测定法测量，测得平均为总种子蛋白质的约0.10％。此水平计算如上，并超出非转化种子(wt)内、构成总种子蛋白约0.04％的同样分子量的内源蛋白质的共同迁移。

发明详述

如上所述，本发明涉及在转基因植物中生产胰岛素的改良方法。本发明人等意外发现通过在植物种子内以重组方式生产胰岛素可在植物内使胰岛素累积水平超过全部细胞蛋白质的0.1％。此等表达水平比以前所达到的高至少10倍，使胰岛素在植物内的商业化生产成为可行。在种子内生产提供了把胰岛素做为原始物质储藏和运输的可行性，因为胰岛素保有从储藏种子提取时的活性。此外，需经提取的生物量数量有限，因植物种子内存在的水含量相对低。

因此，本发明提供了在种子内表达胰岛素的方法，所述方法包括：

(i)可在植物种子细胞内控制表达的核酸序列；和

(ii)编码胰岛素多肽的核酸序列；

(b)把嵌合核酸构建体导入植物细胞内；以及

按照本发明，意外发现如果以在允许胰岛素多肽在种子细胞内被隔离(sequestration)在膜包围的细胞内区室中的方式在种子内表达胰岛素，则胰岛素在植物种子内累积的水平可以达到以前未达到的水平。因此，本发明提供了在植物内表达胰岛素的优选方法，所述方法包括：

(i)可在植物种子细胞内控制表达的启动子；及

(ii)编码胰岛素多肽的核酸序列：

(iii)编码可将胰岛素多肽保持在膜包围的细胞内区室里的多肽的核酸序列；

(b)把嵌合核酸构建体导入植物细胞内；以及

术语和定义

除非另有定义，本文所用全部技术和科学术语应具有本发明所属技术领域的技术人员通常所知的同样意义。如果容许，凡专利、专利申请案、专利公告，及其他出版物，含有来自GenBank、SwissPro及本申请参考的数据库的核酸和多肽序列，均全部在此并入参考。

本文所用“核酸序列”指核苷或核苷酸单体的序列，这些核苷或核苷酸单体由天然存在的碱基、糖或糖间(intersugar)(骨架)键组成。此术语亦包含修饰或被取代的序列，其包括非天然存在的单体或其部分。本发明核酸序列可为脱氧核糖核酸序列(DNA)或核糖核酸(RNA)，并可包括天然存在的碱基，包括腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶和尿嘧啶。所述序列亦可含有修饰的碱基。该修饰碱基的例子包括氮杂(aza)和脱氮(deaza)腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶和尿嘧啶，以及黄嘌呤和次黄嘌呤。

术语“编码胰岛素的核酸序列”和“编码胰岛素多肽的核酸序列”在此可以互换使用，是指编码胰岛素多肽的任何和全部核酸序列和编码胰岛素原和前胰岛素原的任何核酸序列，所述胰岛素多肽包括表1内所列胰岛素多肽(SEQ ID No：7-145)以及任何哺乳动物胰岛素多肽。本文所用“胰岛素原”指包括连接肽或“C-肽”连接B和A胰岛素多肽链的胰岛素多肽。在天然人胰岛素中，C-肽是31个氨基酸残基的多肽链，残基B30连接到残基A1。术语“前胰岛素原”指胰岛素原分子，其另外包括N-末端信号序列，其指导在ER核糖体发生的翻译。编码胰岛素多肽的核酸序列又包括任何和全部下列核酸序列：(i)编码与上述胰岛素多肽序列基本上一致的多肽的序列；或(ii)在至少中度严格杂交条件下与上述任何核酸序列杂交、或在至少中度严格条件下与其杂交但使用同义密码子的序列。

术语“基本上一致”指两个多肽序列优选至少75％一致，更优选至少85％一致，及最优选至少95％一致，例如96％、97％、98％或99％一致。为确定两个多肽序列间一致性百分比，将这两个序列的氨基酸序列排列对比，优选使用Clustal W算法(Thompson，J.D.，Higgins DG，Gibson TJ，1994，Nucleic Acids Res.22(22)：4673-4680)，以及BLOSUM 62评分矩阵(Henikoff S.和Henikoff J.G，1992，Proc.Natl.Acad.Sci.USA 89：10915-10919)，以及缺口罚值10和缺口延伸罚值0.1，以便在两个序列间得到最高阶匹配，其中序列之一的总长的至少50％参与对比。可用来序列对比的其它方法是Needleman和Wunsch对比法(J.Mol.Biol.，1970，48：443)，由Smith和Waterman加以修正(Adv.Appl.Math.，1981，2：482)，故在二序列间可得最高阶匹配，而且确定了两个序列间一致的氨基酸数。计算两个氨基酸序列间百分比一致性的其它算法是一般技术所知，包括例如Carillo和Lipton所述(SIAM J.Applied Math.，1988，48：1073)以及在Computational Molecular Biology，lesk，e.d.Oxford University Press，New Nork，1988，Biocomputing：Informations and Genomics Projects。一般而言，此等计算采用计算机程序。在此方面可用的计算机程序包括但不限于GCG(Devereux等人，Nucleic Acids Res.，1984，12：387)BLASTP、BLASTN和FASTA(Altschul等人，J.Molec.Biol.，1990，215：403)。

“至少中度严格杂交条件”指选择的条件促进两个互补核酸序列在溶液中选择性杂交。杂交可发生于核酸序列分子全部或部分。杂交部分典型上长度至少为15(例如20、25、30、40或50)个核苷酸。本领域技术人员均知核酸双链体或杂种的稳定性通过T_m确定，在含钠缓冲液内是钠离子浓度和温度的函数(T_m＝81.5℃-16.6(log₁₀[Na⁺]+0.41(％(G+C)-600/1)，或类似方程式)。因此，在洗涤条件下决定杂种稳定性的参数是钠离子浓度和温度。为鉴定与已知核酸分子类似但不一致的分子，可假设1％误配导致T_m会降约1℃，例如如果找寻的核酸分子有＞95％一致性，最后洗涤温度会降约5℃。基于如此考量，本领域技术人员能够轻易选择适当的杂交条件。在优选实施方案中，选用严格杂交条件。举例而言，可采用下列条件达成严格杂交：根据上述方程式，在T_m-5℃，于5×氯化钠/柠檬酸钠(SSC)/5×Denhardt’s溶液/1.0％SDS杂交，接着在60℃，利用0.2×SSC/0.1％SDS中洗。中度严格杂交条件包括在42℃的3×SSC中的洗涤步骤。然而，须知使用其它缓冲液、盐和温度，可实现同等的严格性。有关杂交条件的其它指导可参见：Current Protocols in Molecular Biology，JohnWiley & Sons，N.Y.，1989，6.3.1-6.3.6以及Sambrook等人，MolecularCloning，a Laboratory Manual，Cold Spring Harbor Laboratory Press，1989，第3卷。

本文所用术语“胰岛素”和“胰岛素多肽”可互换使用，指包括表1内所列胰岛素多肽(SEQ ID NO：7-145)在内的任何和全部胰岛素多肽，也指的是包括如下所述的氨基酸残基序列的多肽分子，所述氨基酸残基序列(i)与构成上述任何胰岛素多肽的氨基酸序列基本上一致，或(ii)由一种核酸序列编码，该核酸序列在至少中度严格条件下能够与编码在此所述的胰岛素的任何核酸序列杂交，或在至少中度严格条件下能够与编码在此所述的胰岛素、但使用了同义密码子的核酸序列杂交。术语胰岛素和胰岛素多肽包括胰岛素原多肽和微型胰岛素多肽。胰岛素多肽优选是人、猪或牛来源。

术语“可保持胰岛素多肽于膜包围的细胞内区室中的多肽”用来指当与胰岛素多肽连接时，可将胰岛素多肽隔离在膜包围的并且位于植物细胞的细胞内空间、由植物细胞质膜所界定的亚细胞结构中的任何多肽。

术语“可保持胰岛素多肽于ER或ER衍生储存小泡内的多肽”，用来指当与胰岛素多肽连接时，可将胰岛素多肽隔离于内质网或在内质网所衍生的储存区室如植物细胞内的油体中的任何多肽。

本文所用术语“油体”指植物种子细胞中的任何油或脂肪储存细胞器(例如Huang(1992)Ann.Rev.Plant Mol.Biol.43：177-200所述)。

在核酸序列中所用术语“嵌合”指非天然连接的至少两个连接的核酸序列。嵌合核酸序列包含不同天然来源的连接的核酸序列。例如，构成连接于编码人胰岛素的核酸序列的植物启动子的核酸序列可视为嵌合的。嵌合核酸序列亦可包括同样天然来源的核酸序列，条件是它们天然不连接。例如，构成由特殊细胞类型所得启动子的核酸序列可与编码从同样细胞类型所得多肽的核酸序列连接，但通常其不与构成该启动子的核酸序列连接。嵌合核酸序列亦包括这样的核酸序列，其包括与任何非天然存在的核酸序列连接的天然存在的核酸序列。制备包含编码胰岛素的嵌合核酸序列和能够在植物种子细胞中控制表达的启动子的重组表达载体

本发明方法和组成物可用的编码胰岛素的核酸序列可为编码胰岛素多肽的任何核酸序列，所述胰岛素多肽包括任何胰岛素原和前胰岛素原。

本领域熟知编码胰岛素的核酸序列的例子，一般从多种哺乳动物来源中可轻易取得，包括人(Bell，G.I.等人，1980，Nature 284：26-32)、猪(Chance，R.E.等人，1968，Science 161：165-167)、牛(D’Agostino，J.等人，1987，Mol.Endocrinol，1：327-331)、羊(Peterson，J.D.等人，1972，Biol.Chem.247：4866-4871)等，以及从植物来源获得(Oliveira，A.E.A.等人，1999，Protein Pept.Lett.6：15-21)。可用的胰岛素编码序列包括编码SEQ ID NO：7至SEQ ID NO：145所示多肽链的序列。编码胰岛素多肽链的各相对应核酸序列可经由表1所提供SwissProtein识别号码轻易识别。使用这些核酸序列，使用本领域技术人员已知的技术可以鉴别其它的新胰岛素编码核酸序列。例如文库，像表达文库、cDNA和基因组文库，均可筛选，而且在含有来自测序计划的序列信息的数据库中可以查寻类似序列。可使用把编码胰岛素多肽的另外核酸序列分离的其它方法，并按照本发明发现和使用新序列。在优选实施方案中，核酸序列编码的胰岛素是人、猪、牛胰岛素。

现有技术已知许多胰岛素类似物(例如参见美国专利5,461,031；5,474,978；5,164,366和5,008,241)，可用于本发明。本文可使用的类似物包括人胰岛素分子，其中B-链的氨基酸残基28(B28)从其天然的脯氨酸残基改变成天冬氨酸、赖氨酸或异亮氨酸。另一实施方案中，在B29的赖氨酸残基经修饰成脯氨酸。此外，A21的天冬酰胺可改变为丙氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、甲硫氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸或缬氨酸。而且，在B3的天冬酰胺亦可修饰为赖氨酸。本文可用的胰岛素类物其它例子包括：缺少B30残基的人胰岛素，通常亦称为“desB30”或”B(1-29)”缺少最后3个氨基酸残基的胰岛素”B(1-27)”；在B1缺少苯丙氨酸残基的胰岛素分子：以及其中A链或B链具有N-末端或C-末端延伸的类似物，例如B链可通过添加两个精氨酸残基而延长N-末端。

在优选实施方案中，所用核酸序列编码胰岛素是胰岛素原。在又一优选实施方案中，使用编码胰岛素的核酸序列分子，其中C-肽已相对于其天然形式被修饰过。C-肽内的氨基酸残基可被取代，而C-肽可加长或缩短。因此，本文所用术语“微型胰岛素(mini-insulin)”指经修饰的胰岛素多肽，C-肽长度相比于其天然形式被缩短。优选实施方案中，使用微型胰岛素。微型胰岛素分子的C-肽优选短于20个氨基酸残基，更优选短于15个氨基酸残基，最优选短于9个氨基酸残基，例如7、5或3个残基。如天然胰岛素分子情形，微型胰岛素C-肽优选在其C-和N-末端包括裂解位点。此种裂解位点可为本领域已知的任何常规位点，例如可被溴化氰裂解的甲硫氨酸，可被胰蛋白酶等类似的蛋白酶或羧肽酶裂解的单一碱基残基或一对碱基残基。例如，C-肽可包括C-末端赖氨酸，例如Ala-Ala-Lys(SEQ ID NO：146)，或紧接Gly A1残基前的二元加工位点，例如Asn-Lys-Arg(SEQ IDNO：147)或Arg-Arg-Lys-Gln-Lys-Arg(SEQ ID NO：148)或紧接GlyA1残基前的四元加工位点，例如Arg-Arg-Lys-Arg(SEQ ID NO：149)。因此，本发明可用的微型胰岛素分子包括：

B(1-29/30)-X₁-X₂-X₃-Y₁-A(1-21)

其中，X₁为任何氨基酸；

X₂为任何氨基酸；

X₃为Lys或Arg：

Y₁为肽键或1-17个氨基酸残基；

B(1-29/30)为含有氨基酸残基1-29或1-30的人胰岛素B链的B链；

A(1-21)为含氨基酸残基1-21的人胰岛素A链的A链。

在优选实施方案中，X₁为碱性氨基酸残基(Lys或Arg)，Y₁为肽键或1-17个氨基酸残基，其中C-末端残基为碱性氨基酸残基(Lys或Arg)。

此外，本文可用的微型胰岛素分子包括下式代表的那些：

B(1-27)-X₂-X₃-X₁-Y-A(1-21)

其中

X₁为1-18个氨基酸残基的肽，包括至少一个芳族氨基酸残基；

X₂为在B链28位的Pro、Asp、Lys或Ile之一；

X₃为在B链29位的Pro、Lys、Ala、Arg或Pro-Thr之一；

Y为Lys或Arg；

B(1-27)为含氨基酸残基1-27的人胰岛素B链的B链；及

A(1-21)为含氨基酸残基1-21的人胰岛素A链的A链。

本发明所用编码微型胰岛素多肽的核酸分子的另外例子包括如下所述的那些：Markussen等人，Walter de Gruyter & CO.1987，Peptides189-194页；Thim等人，1989，Genetics and molecular biology ofindustrial microorganisms，American Society for Microbiology，322-328页；以及美国专利4,916,212；5,324,641及6,521,738。制造胰岛素类似物的、编码胰岛素的核酸序列的变化形式可用本领域技术人员所知多种核酸修饰技术制得，包括例如定点诱变、定向突变、随机突变、添加有机溶剂、基因改组或其组合，以及本领域技术人员所知的其它技术(Shraishi等人，1988，Arch.Biochem.Biophys，358：104-115；Galkin等人，1997，Protein Eng.10：687-690：Carugo等人，1997，Proteins 28：10-28；Hurley等人，1996，Biochem，35：5670-5678：Holmberg等人，1999，Protein Eng.12：851-856)。

按照本发明，意外发现若在种子内表达胰岛素，优选以在种子细胞内的胰岛素多肽被隔离在膜包围的细胞内区室中的方式表达，则胰岛素在植物种子中可累积到前所未有的水平。在本发明优选的实施方案中，胰岛素多肽被隔离在ER或ER衍生的储存小泡内。为实现胰岛素在ER或ER衍生的储存小泡内的这种累积，按照本发明，将编码胰岛素的多肽连结至造成胰岛素多肽被保持在ER或ER衍生的储存小泡内的多肽，而非从ER转运出，例如转运到质外体。可以用于本发明的、保持胰岛素多肽在ER中的多肽包括能够将胰岛素隔离在ER中的任何多肽。这种多肽可以合成或得自任何生物来源。在本发明的优选实施方案中，能够保持胰岛素的多肽是包含C-末端ER保留基序的多肽。这种C-末端ER保留基序例子包括KDEL、HDEL、DDEL、ADEL和SDEL序列(分别为SEQ ID NO：150-154)。其它例子包括HDEF(SEQ ID NO：155)(Lehmann等人，2001，Plant Physiol127(2)：436-49)，或靠近位于2和3、3和4或4和5位置的两个精氨酸残基(Abstract from Plant Biology 2001 Program，ASPB，2001年7月，Providence，Rhode Island，USA)。编码C-末端ER保留基序的核酸序列优选连接到编码胰岛素多肽的核酸序列，其方式为把能够将胰岛素保持于ER内的多肽连接到胰岛素多肽的C-末端。

为了在ER衍生的储存小泡内隔离胰岛素多肽，将胰岛素多肽连接到能够将胰岛素多肽保持在ER衍生的储存小泡内的多肽。本发明中可以使用的能够将胰岛素多肽保持在ER衍生的储存小泡内的多肽可以是能够将胰岛素多肽隔离在ER衍生的储存小泡内的任何多肽。能够将胰岛素保持在ER衍生的储存小泡内的多肽可以合成或得自任何生物来源。在优选的实施方案中，ER衍生的储存小泡是油体，而胰岛素多肽连接到油体蛋白质或其能够将胰岛素多肽保持在ER衍生的储存小泡内的足够部分。在此方面可用的油体蛋白质包括天然与油体结合的任何蛋白质。特别优选的油体蛋白质为油质蛋白。例如芥油质蛋白(van Rooiien et al.(1991)Plant Mol Biol.18：1177-1179)玉米油质蛋白(Bowman-Vance等人，1987，J.Biol.Chem.262：11275-11279；Qu等人，1990，J.Biol.Chem.265：2238-2243)胡萝卜油质蛋白(Hatzopoulos et al.(1990)Plant Cell 2：457-457)或芸苔(Brassica)油质蛋白(lee等人，1991，Plant Physiol.96：1395-1397)，油体钙蛋白(caleosin)，见例如Genbank登记号AF067857)以及油体固醇蛋白(steroleosin)(Lin等人，2002，Plant Physiol.128(4)：1200-11)。在又一优选的实施方案中，油体蛋白质是植物油质蛋白，且与其它植物油质蛋白，如从拟南芥(SEQ ID NO：156)或油菜(Brassica napus)(SEQ ID NO：157)分离的油质蛋白，具有序列相似性。在另一实施方案中，油体蛋白质是得自植物、真菌或其它来源的油体钙蛋白或钙结合蛋白，并与油体蛋白质如分离自拟南芥的油质蛋白(SEQ ID NO：158和SEQ ID NO：159)具有序列同源性。在另一实施方案中，油体蛋白质为油体固醇蛋白(SEQ ID NO：160)，是一种固醇结合脱氢酶(Lin L-J等人，(2002)，Plant Physiol 128：1200-1211)。编码胰岛素的多肽可以连接于油体蛋白质的N-末端以及C-末端及油体蛋白质的片段，如例如油质蛋白的中心结构域。例如通过制备油体(制备油体的方法学见例如美国专利6,650,554)及鉴定油体制备物中的蛋白质通过例如SDS凝胶电泳可以发现新的油体蛋白质。可以产生针对这些蛋白质的多克隆抗体并用于筛选cDNA文库以鉴别编码油体蛋白质的核酸序列。新的油体蛋白质可以进一步使用已知的编码油体蛋白质的核酸序列发现，使用例如本文提及的编码油体蛋白质的油体蛋白质序列，探查例如cDNA或基因组文库确定油体蛋白质的存在。

能够把胰岛素保持在ER或ER衍生的储存细胞器内的多肽典型地是不会被裂解的，而且胰岛素可以融合蛋白质的形式累积，其是例如在典型地使用KDEL保留信号来保持多肽于ER内时或使用油体蛋白质来保持多肽于ER衍生的储存细胞器内时的情况。

嵌合核酸序列可另含有把核酸序列靶向内膜系统的核酸序列(“信号肽”)。在本发明使用能够把多肽保持于ER内的序列，如KDEL、HDEL或SDEL多肽把胰岛素多肽保持在ER内的实施方案中，特别希望包括编码信号肽的核酸序列。此处可用的信号肽例子包含烟草发病相关蛋白(tobacco pathogenesis related protein)(PR-S)信号序列(SEQ ID NO：161)(Siimons等人，1990，Bio/technology，8：217-221)、凝集素信号序列(Boehn等人，2000，Transgenic Res.9(6)：477-86)，来自菜豆(Phaseolus vulgaris)富羟脯氨酸的糖蛋白的信号序列(Yan等人，1997，Plant Phyiol，115(3)：915-24和Corbin等人，1987，Mol Cell Biol 7(12)：4337-44)、马铃薯patatin信号序列(Iturriaga，G等人，1989，Plant Cell 1：381-390和Bevan等人，1986，Nuc.AcidsRes.41：4625-4638)以及大麦α-淀粉酶信号序列(Rasmussen和Johansson，1992，Plant Mol.Biol.18(2)：423-7)。此种靶向信号可在体内从胰岛素序列中裂解，典型地例如使用质外体靶向信号，如烟草发病相关蛋白-S(PR-S)信号序列(Sijmons等人，1990，Bio/technology，8：217-221)的情况。其它信号肽可以使用SignalP万维网服务器预计(http：//www.cbs.dtu.dk/services/SignalP)，其预计不同生物体的氨基酸序列中信号肽裂解位点的存在和位置。一般而言，一级氨基酸序列极少有保守，不过，一般生理化学性质保守到某些程度。信号肽的概括结构有3区，短氨基末端“n区”，含带正电荷残基，中央疏水性“h区”大小范围在7至15个氨基酸，和羧基末端“C区”，含极性氨基酸，以及由膜结合信号肽酶可识别的裂解位点(Nakai K.，2000，Advances in Protein Chem 54：277-344)。可以用于本发明的靶向信号包括天然胰岛素信号序列(以人序列而言，长度为24个氨基酸)。在优选实施方案中，位于N末端的质外体靶向序列，如上述烟草PR-S序列，与位于C末端的ER保留序列，如KDEL序列组合使用。

在另一优选实施方案中，编码酵母α-因子前导序列的核酸序列与编码胰岛素的核酸序列的N末端连接。可以用于本发明的酵母前导序列或从酵母前导序列衍生的序列包括SEQ ID NO：162至SEQ IDNO：171所列序列(Kjeldsen等人，2001，Biotechnology and GeneticEngineering Reviews 18：89-121)。这种前导序列可以还包括位于编码前导序列的核酸C末端和编码胰岛素的序列N-末端的间隔肽(spacerpeptide)。按照本文，所述间隔序列典型长度在2和20个氨基酸之间。因此，例如可使用间隔序列的SEQ ID NO：172和SEQ ID NO：173(Kjeldsen等人，2001，Biotechnology and Genetic EngineeringReviews 18：89-121)。在本发明使用酵母前导序列的实施方案中，核酸序列编码的胰岛素多肽优选是微型胰岛素多肽。按照本文，在特别优选的实施方案中，使用与编码酵母分泌前导肽的核酸序列连接的、编码单链抗体的核酸序列，详述于实施例1。

嵌合核酸序列亦可包括造成N-和/或C-末端稳定蛋白质伸展的多肽。此种伸展可用来稳定和/或有助于胰岛素多肽链的折叠并另外可用于帮助纯化胰岛素。在这方面可用的多肽伸展包括例如：编码单链抗体的核酸序列、编码Affibody分子(Affibody AB)的核酸、编码霍乱毒素的无毒性B亚基(CTB)的核酸序列(Arakawa，T.等人，1998，Nat.Biotechnol，16：938)或这些多肽的组合。在特别优选的实施方案中，通过使用例如上述KDEL序列，结合使用与允许胰岛素多肽与油体结合的稳定多肽，当发生植物细胞的完整性断裂时，例如当从植物细胞回收胰岛素多肽时，胰岛素多肽可被保持于膜包围的区室内，如ER内。此种稳定多肽的例子为单链抗体，其具有油体特异性。编码具有油体特异性的单链抗体的核酸序列可以从表达针对油体蛋白质的单克隆抗体的杂交瘤细胞系制备。在一个实施方案中，单链抗体特异性结合油质蛋白，如Alting-Mees等，(2000)IBC’s InternationalConference on Antibody Engineering，Poster#1。本发明的这个实施方案详见实施例1所述。

在又一实施方案中，裂解位点可位于胰岛素的N末端上游和C末端下游，使胰岛素多肽可从融合配偶体(partner)中裂解，而得分离的胰岛素。如此裂解位点的例子可见于WO98/49326(Method for thecleavage of fusion proteins)和相关申请以及lavallie等人(1994)Enzymatic and chemical cleavage of fusion proteins In Current Protocolsin Molecular Biology，16.4.5-16.4.17页，John Wiley & Sons，Inc.，NewYork NY。在优选的实施方案中，裂解位点是四元接头(例如Arg-Arg-Lys-Arg-SEQ ID NO：149)，其被胰蛋白酶裂解。在另一优选实施方案中，裂解位点为KLIP 8(SEQ ID NO：174)，其被包括凝乳酶的天冬氨酸蛋白酶裂解。

本发明又提供了从宿主细胞组分中分离异源蛋白质的方法，通过将油体级分分配，随后经由异源蛋白质-油体蛋白质融合体的特异性裂解，释放出异源蛋白质。任选裂解位点可位于异源多肽的N末瑞上游和C末端下游，使融合多肽裂解，并可利用相分离分离为其组分肽。

通过优化核酸序列使其使用选择用来表达胰岛素多肽的特定植物细胞类型的优选密码子使用，或通过改变已知的去稳定mRNA的基序可以改变编码胰岛素的核酸序列，以进一步改良表达水平(例如参见：PCT专利申请97/02352)。把编码胰岛素多肽的核酸序列的密码子使用与植物细胞类型的密码子使用加以比较，得以识别可以被改变的密码子。通过改变密码子使用以构建合成基因见例如PCT专利申请93/07278所述。

在优选实施方案中，使用的编码胰岛素的核酸序列如SEQ IDNO：1、SEQ ID NO：3、SEQ ID NO：5或SEQ ID NO：195号所示。

按照本文，编码胰岛素的核酸序列连接于能够在植物种子细胞内控制胰岛素多肽表达的启动子。因此，本发明亦提供了连接于能够在植物种子细胞内控制表达的启动子的、编码胰岛素的核酸序列。在此可用的启动子为本领域已知，包括能够控制多肽在植物内表达的、任何植物衍生的启动子。一般而言，按照本文选用双子叶植物时，可用从双子叶植物物种所得的启动子，而选用单子叶植物物种时，可用单子叶植物启动子。可用的组成型启动子包括例如35S花椰菜花叶病毒(CaMV)启动子(Rothstein等人，1987，Gene 53：153-161)、稻肌动蛋白启动子(McElroy等人，1990，Plant Cell 2：163-171；美国专利6,429,357)、遍在蛋白启动子，如玉米遍在蛋白启动子(美国专利5,879,903；5,273,894号)，以及香芹遍在蛋白启动子(Kawalleck，P.等人，1993，Plant Mol.Biol.21：673-684)。

在优选的实施方案中，所用启动于是导致胰岛素多肽在种子组织中优先表达的启动子。在此方面“种子偏好启动子”是控制重组蛋白质(即胰岛素)表达的启动子，故优选成熟植物内存在的重组蛋白质总量的至少80％存在于种子内。更优选成熟植物内存在的重组蛋白质总量的至少90％存在于种子内。最优选成熟植物内存在的重组蛋白质总量的至少95％存在于种子内。在此方面可用的种子偏好启动子包括例如菜豆蛋白启动子(Sengupta-Gopalan等人，1985，Proc.Natl.Acad.Sci.USA 82：3320-3324)：芥18kDa油质蛋白启动子(美国专利5,792,922)或亚麻油质蛋白启动子(WO 01/16340)；亚麻豆球蛋白样种子贮存蛋白(linin)启动子(WO 01/16340)；亚麻2S贮存蛋白启动子(WO 01/16340)；胚乳偏好启动子，如Amy32b启动子(Rogers &Milliman，J.Biol.Chem.，1984，259：12234-12240)、Amy6-4启动子(Kursheed & Rogers，J.Biol.Chem.，1988，263：18953-18960)或Aleurain启动子(Whittier等人，1987，Nucleic Acids Res.，15：2515-2535)或豆arcelin启动子(Jaeger GD等人，2002，Nat.Biotechnol.Dec；20：1265-8)。多种植物中可用的新启动子持续被发现。许多植物启动子的例子可见于Ohamuro等人(Biochem.of Plnts.，1989，15：1-82)。

在此可用某些能够增强胰岛素多肽表达的遗传元件。这些元件包括来自某些病毒的非翻译前导序列，如AMV前导序列(Jobling andGehrke，1987，Nature，325：622-625)以及与玉米遍在蛋白启动子相关的内含子(美国专利5,504,200)。一般而言，可制备嵌合核酸序列，以便能够增强表达的遗传元件可位于编码胰岛素多肽的核酸序列的5’处。

按照本发明，包括能够在植物种子内控制表达的启动子的核酸序列连接于编码胰岛素多肽的核酸序列，其可整合于重组表达载体内，确保在种子细胞内的良好表达。因此，本发明包含重组表达载体，其在转录的5’至3’方向包括下列可操纵连接的组分：

(i)能够在植物种子细胞内控制表达的核酸序列；和

(ii)编码胰岛素多肽的核酸序列；

其中表达载体适于在种子细胞内表达。术语“适于在种子细胞内表达”指重组表达载体包括本发明的嵌合核酸序列，其连接到实现在种子细胞内表达所需的遗传元件。在此方面，表达载体内可包含的遗传元件包括转录终止区、一或多个编码标志基因的核酸序列、一或多个复制起点等。在优选实施方案中，表达载体又包括把载体或其一部分整合入植物细胞核基因组内所需的遗传元件，例如T-DNA左和右边界序列，其在本发明的使用土壤杆菌(Agrobacterium)转化植物细胞的实施方案中，促进整合进植物核基因组内。

如前述，重组表达载体一般包括转录终止子，其除了用做转录终止信号外，又可做为能够延长mRNA半衰期的保护元件(Guarneros等人，1982，Proc.Natl.Acad.Sci.USA，79：238-242)。转录终止子一般从约200个核苷酸到约1000个核苷酸，并制备表达载体，以便转录终止子位于编码胰岛素的核酸序列的3’处。于此可用的终止序列包括例如胭脂氨酸终止区(Bevan等人，1983，Nucl.Acids.Res.11：369-385)、菜豆蛋白终止子(van der Geest等人，1994，Plant J.6：413-423)、arcelin终止子(Jaeger GD等人，2002，Nat.Biotechnol.Dec；20：1265-8)、根癌农杆菌(Agrobacterium tumefaciens)的章鱼碱合酶基因的终止子或其它类似的功能元件。转录终止子可按An所述获得(An，1987，Methods in Enzym.153：292)。

按照本发明，表达载体还可含有标记基因。本发明可用的标记基因包括可分辨转化细胞与非转化细胞的所有基因，包括所有可选择和可筛选标记基因。标记基因可为抗性标记，如抗生素抗性标记，例如抗卡那霉素(美国专利6,174,724)、氨苄青霉素、G418、博来霉素、潮霉素，其使得可以利用化学手段或针对化学剂，如通常植物毒性甘露糖的耐受性标记(Negrotto等人，2000，Plant cell Rep.19：798-803)选择特性。于此可用的其它方便标记包括能够输送抗除草剂如草甘膦(glyphosate)(美国专利4,940,935；5,188,642)、草铵膦(phosphinothricin)(美国专利5,879,903)或磺酰基脲(美国专利5,633,437)的抗性的标记。抗性标记当连接于编码胰岛素多肽的核酸序列附近时，可用来维持对尚未失去编码胰岛素多肽的核酸序列的植物细胞或植物群的选择压力。可用来通过目测检查鉴定转化体的可筛选标记包括β-葡糖醛酸酶(GUS)(美国专利5,268,463和5,599,670)以及绿色萤光蛋白(GFP)(Niedz等人，1995，Plant Cell Rep.，14：403)。

适合把核酸序列导入植物内的重组载体包括基于土壤杆菌属和根瘤菌属(Rhizobium)的载体，如Ti和Ri质粒，包括例如pBIN19(Bevan，Nucl.Acid.Res.，1984，22：8711-8721)、pGKB5(Bouchez等人，1993，C R Acad.Sci.Paris，Life Sciences，316：1188-1193)、pCGN系列双元载体(McBride和Summerfelt，1990，PlantMol.Biol.14：269-276)以及其它双元载体(例如美国专利4,940,838)。

本发明的重组表达载体、核酸序列和嵌合核酸序列可按照分子生物学领域技术人员熟知的方法学制备。这些制法典型地涉及大肠杆菌(Escherichia coli)菌种以及中间克隆宿主。大肠杆菌载体和植物转化载体的制备可用通常已知技术完成，如限制消化、连接、凝胶电泳、DNA测序、聚合酶链反应(PCR)及其它方法学。这些方法学允许连接本发明涉及的核酸序列和多肽。有多种克隆载体可进行制备重组表达载体所需的必要步骤。在大肠棹菌内具有复制系统功能的载体当中，有如pBR322载体、pUC系列载体、M13mp系列载体、pBluescript等。典型地，这些克隆载体含有标记，以便选择转化细胞。核酸序列可导入这些载体内，而载体可导入在适当培养基内生长的大肠杆菌内。重组表达载体在收获和裂解细胞时，可容易地从细胞回收。再者，关于重组载体制备的一般指导可例如参见Sambrook等人，MolecularCloning，a Laboratory Manual，Cold Spring Harbor Press，1989，第3卷。

制备包括能够表达胰岛素的种子的植物

按照本发明，嵌合核酸序列被导入植物细胞内，而细胞成长为可结种子的成熟植物，其中种子表达胰岛素多肽。

依此，可选择任何植物物种或植物细胞。于此使用的特殊细胞包括从拟南芥、巴西坚果(Betholettia excelsa)、蓖麻子(Riccinuscommunis)、椰子(Cocus nucifera)、胡荽(Coriandrum sativum)、棉花(Gossypium spp.)、落花生(Arachis Hypogaea)、加州希蒙得木(Simmondsia chinensis)、亚麻子/亚麻(Linum usitatissimum)、玉米(Zeamays)、芥菜(Brassica spp.和Sinapis alba)、油椰子(Elaeis guineeis)、橄榄(olea eurpaea)、油菜籽(Brassica spp.)、稻(Oryza sativa)、红花(Carthamus tinctorius)、大豆(Glycine max)、南瓜(Cucurbita maxima)、大麦(Hordeum vulgare)、小麦(Traeticum aestivum)和向日葵(Helianthusannuus)获得的细胞。

根据本文优选的实施方案，使用得自含油种子植物的植物物种或植物细胞。此处可用的含油种子植物包括花生(Arachis hypogaea)、芥菜(Brassica spp.和Sinapis alba)、油菜籽(Brassica spp.)、鹰嘴豆(Cicerarietinum)、大豆(Glycine max)、棉花(Gossypium hirsutum)、向日葵(Helianthus annuus)、(Lentil Lens culinaris)、亚麻子/亚麻(Linumusitatissimum)、白三叶草(Trifolium repens)、橄榄(olea eurpaea)、油椰子(Elaeis guineeis)、红花(Carthamus tinctorius)和narbon豆(narbonbean)(Vicia narbonensis)。

根据本文一个特别优选的实施方案，使用红花、拟南芥或亚麻。

把植物重组表达载体导入植物细胞内的方法学，在此也称为“转化”，为本领域熟知，典型地根据选择的植物细胞而变化。把重组表达载体导入细胞内的一般技术包括电穿孔、化学介导的技术，例如CaCl₂介导的核酸摄取：颗粒撞击(biolistics)；使用天然感染核酸序列，例如病毒衍生的核酸序列，或土壤杆菌属或根瘤菌属衍生序列、聚乙二醇(PEG)介导的核酸摄取，微注射以及使用碳化硅晶须。

在优选实施方案中，选用转化方法，其使嵌合核酸序列整合入植物细胞基因组内，且优选植物细胞核基因组。依此，这视为特别希望的，因为使用此方法将在有性生殖时得以把嵌合核酸序列转移给子代植物。在此方面可用的转化方法包括颗粒撞击和土壤杆菌介导的方法。

双子叶植物物种的转化方法是熟知的。一般而言，使用土壤杆菌介导的转化，因其效率高而且即使不是全部，也是许多双子叶植物物种通常有易感性。土壤杆菌转化一般涉及转移双元载体，如上述双元载体之一，其包括将本发明的嵌合核酸序列从大肠杆菌转移到适当的土壤杆菌菌株(例如EHA101和LBA4404)，通过例如利用携带重组双元载体的大肠杆菌菌株以及携带能够动用双元载体至靶土壤杆菌菌株的辅助质粒的大肠杆菌菌株的三亲交配，或通过土壤杆菌菌株的DNA转化(Hofgen等人，Nucl.Acids Res.，1988，16：9877)进行。可用来转化双子叶植物细胞的其它技术包括颗粒撞击(Sanford，1988，Trends in Biotechn.，6：299-302)；电穿孔(Fromm等人，1985，Proc.Natl.Acad.Sci.USA.，82：5824-5828)；PEG介导的DNA摄取(Potrykus等人，1985，Mol.Gen.Genetics，199：169-177)；微注射(Reich等人，Bio/Techn.，1986，4：1001-1004)；以及碳化硅晶须(Kaeppler等人，1990，Plant Cell Rep.，9：415-418)或使用例如浸汲法(flower dippingmethodology)的植物体内(in planta)转化(Clough和Bent，1998，Plant J.，16：735-743)。

单子叶植物物种可用多种方法转化，包括颗粒撞击(Christou等人，1991，Biotechn.9：957-962：Weeks等人，Plant Physiol.，1993，102：1077-1084；Gordon-Kamm等人，Plant Cell，1990，2：5603-618)：PEG介导的DNA摄取(欧洲专利0292435和0392225)或土壤杆菌介导的转化(Goto-Fumiyuki等人，1999，Nature-Biotech，17：282-286)。

根据选作转化细胞靶的植物物种和植物细胞类型(例如幼苗衍生细胞类型，如下胚轴和子叶或胚组织)，可以稍微变化确切的植物转化方法。上述特别优选的实施方案中，使用红花、拟南芥或亚麻。获得红花转化体的方法可见Baker和Dyer(Plant Cell Rep.，1996，16：106-110)。其它植物物种特异转化方案可见于：Biotechnology inAgriculture and Forestry 46：Transgenic Crops I(Y.P.S.Bajaj编)，Springer-Verlag，New York(1999)，Biotechnology in Agriculture andForestry 47：Transgenic Crops II(Y.P.S.Bajaj编)，Springer-Verlag，NewYork(2001)。

转化后，植物细胞成长，出现分化组织，如芽和根，再生成熟植物。典型地再生多个植物。植物再生方法一般是植物物种和细胞类型依赖性的，本领域技术人员已知。有关植物组织培养的进一步指导可参见例如：Plant Cell and Tissue Culture，1994，Vasil和Thorpe编，Kluwer Academic Publishers；以及Plant Cell Culture Protocols(Methodsin Molecular Biology 111)，1999，Hall编，Humana Press。

一方面，本发明提供了包括胰岛素的植物种子的回收方法。因此，本发明提供了包括胰岛素的植物种子的获得方法，包括：

(a)提供嵌合核酸构建体，在转录的5’至3’方向包括下列可操纵连接的组分：

(i)能够在植物种子细胞内控制表达的核酸序列；和

(ii)编码胰岛素多肽的核酸序列；

(b)把嵌合核酸构建体导入植物细胞内；

(c)令植物细胞成长为能够结种子的成熟植物；和

(d)从该植物取得种子，其中种子包括胰岛素。

在优选的实施方案中，多个转化植物被获得、生长、筛选所需嵌合核酸序列存在，可利用例如在使用除草剂抗性标记的选择性培养基上生长，通过将除草剂直接施于植物，或利用Southern印迹测试推定的转化体的存在。如果检测到嵌合核酸序列的存在，可选择转化植物以产生子代和最终的成熟植物，其包括多个种子，种子包含所需的嵌合核酸序列。这些种子可用来分离胰岛素，或经种植以产生二代或更多后代。一般需将多个转基因种子种植以获得转基因植物群，每个均包括含有编码胰岛素的嵌合核酸序列的种子。此外，一般需确保植物的纯合性，以确保重组多肽的连续遗传。纯合植物的选择方法为本领域技术人员所熟知。可用的纯合植物获得方法包括制备和转化单倍体细胞或组织，接着再生单倍体幼苗，随后例如以秋水仙碱(colchine)或其它微管破坏剂处理，转变成二倍体植物。植物可依其它常规农业惯例成长。

另一方面，本发明亦提供了能够结表达胰岛素的种子的植物。在本发明优选的实施方案中，能够结种子的植物包括嵌合核酸序列，其在5’至3’转录方向包括：

(a)能够在植物种子细胞内控制表达的第一核酸序列，其可操纵地连接于；

(b)编码胰岛素多肽的第二核酸序列，其中种子含有胰岛素。

在优选的实施方案中，嵌合核酸序列稳定整合于植物核基因组。

又一方面，本发明提供了表达胰岛素的植物种子。在本发明优选的实施方案中，植物种子包括嵌合核酸序列，其在5’至3’转录方向包括：

(b)编码胰岛素多肽的第二核酸序列。

按照本发明，所得种子内优选存在的总可溶性蛋白质的至少0.1％为胰岛素。在本发明又一优选实施方案中，所得种子内存在的总可溶性蛋白质的至少0.2％、0.3％、0.5％或1.0％为胰岛素。胰岛素多肽可以存在于多种不同形式的种子细胞中，例如下胚轴和胚轴，包括在胚根和胚叶中，若为单子叶植物物种，包括谷类和玉米，用于胚乳组织内。

从植物种子制备胰岛素

一旦已获得植物种子，即可使用本领域已知的任何蛋白质纯化方法从种子中纯化胰岛素蛋白质。因此，本发明提供了从植物种子纯化胰岛素的方法，其中所述方法包括：

(a)提供嵌合核酸构建体，其在5’至3’转录方向包括下列可操纵连接的组分：

(i)能够在植物种子细胞内控制表达的核酸序列；和

(ii)编码胰岛素多肽的核酸序列；

(b)把嵌合核酸构建体导入植物细胞内；

(c)令植物细胞成长为可结种子的成熟植物，其中种子表达胰岛素；

(d)获得表达胰岛素的种子；以及

(e)从种子中纯化所述胰岛素。

植物种子可用任何粉碎方法研磨，将种子细胞膜和细胞壁实质破坏。干法和湿法研磨条件均可用(美国专利3,971,856；Lawhon等人，1977，J.Am.oil Chem.Soc.，63：533-534)。在此方面，适当的研磨设备包括胶体磨碎机、圆盘式磨碎机、IKA磨碎机、工业级匀浆器等。选用研磨设备依赖于种子类型和产量要求。固体种子污染物，如种子壳、纤维物质、不溶性碳水化合物、蛋白质及其它水不溶性污染物，可用例如基于大小排阻的方法，如过滤或基于重力的方法，如离心，从种子级分中除去。在优选的实施方案中，避免使用油提取中常用的有机溶剂，如己烷，因为此类溶剂有损胰岛素多肽。从种子可回收基本上纯的胰岛素，可用多种附加纯化方法，如基于离心的技术；基于大小排阻的方法，包括例如膜超滤和交叉流动超滤(crossflowultrafiltration)；以及层析技术，包括例如离子交换层析、大小排阻层析、亲和层析、高效液相层析(HPLC)、快速蛋白质液相层析(FPLC)、疏水性相互作用层析等。一般而言，可用这些技术的组合获得基本上纯的胰岛素。

在本发明特别优选的实施方案中，通过将胰岛素多肽和油体接触而从种子污染物中分离胰岛素多肽。这个方法被认为是特别有利的，因为其允许以特别有效和便宜的方式除去种子污染物，包括种子蛋白质。如前所述，胰岛素多肽和油体的接触可以通过将胰岛素多肽连接于油体蛋白质或通过将胰岛素多肽连接于对油体具有亲和性的多肽如对油体具有亲和性的单链抗体来实现。在前一个实施方案中，胰岛素多肽被隔离在油体上的细胞内，因此可以和油体共同纯化。在后一个实施方案中，胰岛素多肽在膜包围的细胞内区室中表达时，在粉碎过程中种子细胞破碎时其将和油体结合。分离油体的方法如美国专利5,650,554所述。

药学胰岛素制剂可由纯化的胰岛素制备，这种制剂可用来治疗糖尿病。一般而言，纯化的胰岛素可与药学可接受的载体或稀释剂混合，其量足以对治疗患者实施治疗上有用的效果，而无不良副作用。为配制胰岛素组合物，将胰岛素重量级分以有效浓度溶解、悬浮、分散或其它方式混合于选用的载体或稀释剂内，以使治疗状况获得改善。药学胰岛素制剂优选配制为单次剂量施用。人胰岛素用于肠胃外输送的治疗有效量是本领域熟知的。使用胰岛素类似物或使用其它输送模式时，其治疗有效剂量可以备本领域技术人员使用已知测试方案或利用体内或体外测试数据推断，可容易地靠经验确定。然而，应理解浓度和剂量可按照减轻的病症的严重性而变化。又应理解针对任何特定对象，特异的剂量方案可根据施用或监督施用所述制剂的人员的个人判断随时间调整。

药学溶液或悬浮液可包括例如无菌稀释剂，例如水、乳糖、蔗糖、磷酸二钙或羧甲基纤维素。可用载体包括水、盐水溶液、葡萄糖水溶液、甘油、乙二醇、乙醇等，由此形成溶液或悬浮液。如有需要，药物组合物亦可含有无毒性辅助物质，如润湿剂；乳化剂；稳定剂；抗微生物剂，如苄醇和甲基安息香酸酚酯(methyl parabens)；抗氧化剂，如抗坏血酸和亚硫酸氢钠；螯合剂，如乙二胺四乙酸(EDTA)；pH缓冲剂，如乙酸盐、柠檬酸盐或磷酸盐缓冲液；及其组合。

胰岛素制品的最后制剂一般依赖于胰岛素输送模式而定。按照本发明制成的胰岛素可以任何所需方式输送；然而，胃肠外、口服、肺、口腔、鼻的输送形式视为最可能使用的输送模式。胃肠外制品可装在安瓿(ampoule)、用完即弃的注射器、玻璃、塑料或其它适当材料制成的单剂量或多剂量的小瓶内。

实施例

提供下列实施例以供说明，而非限制。

实施例1

制备表达为具有胰蛋白酶可裂解的前肽的微型胰岛素(MI)融合蛋白的胰岛素蛋白

构建pSBS4404：PRS-D9scFv-Klip27-MI-KDEL融合蛋白

所研究的融合蛋白之一以烟草病原相关序列(PRS)开始(Sijmons等人，1990，Bio/technology，8：217-221)开始，其作为信号肽以共翻译方式将表达靶定于ER。紧接下游为编码对拟南芥的18kDa油质蛋白具有特异性亲和性的单链Fv抗体(scFv)的序列，所述单链Fv抗体命名为D9scFv，接着是衍自酵母的TA57前肽的胰蛋白酶可裂解前肽(KLIP27)(Kjeldsen等人，2001，Biotechnology and GeneticEngineering Reviews 18：89-121)。这随后是微型胰岛素(MI)，如Kjeldsen等人(2001)所述，在所述多肽的C末端添加了KDEL ER保留信号。

此质粒的主链pSBS4055是基于植物双元载体pPZP200，如Hajdukiewicz等人所述(Plant Molecular Biology，1994，25：989-994)。代替所述多克隆位点，以香芹(Petroselinum crispum)的遍在蛋白启动子/终止子驱动(Kawalleck等人，1993，Plant.Mol.Bio.，21：673-684)、赋予宿主植物草铵膦抗性的pat基因(Wohlleben等人，1988，Gene 70：25-37)插于左和右边界序列之间。除此盒外，亚克隆了驱动PRS的菜豆(phaseolus vulgaris)的β-菜豆蛋白启动子/终止子(Slightom等人，1983，Proc.Natl.Acad.Sc.USA 80：1897-1901)。使用标准PCR(Horton等人，1989，Gene 77：61-68)把具有所附SphI/HindIII限制内切核酸酶位点的合成PRS-编码序列融合于菜豆蛋白启动子的3’端以产生pSBS4011。利用D9scFv cDNA克隆的PCR扩增产生SphI-D9scFv-XhoI，SwaI，HindIII插入序列(Sean Hemmingsen lab，未出版)，其具有引物1325(GCATGCTGACATTGTGATGACACAGTC)-SEQ ID NO：175和引物1326(AAGCTTGCATTTAAATACTCGAGACTGTGAGAGTGGTGCCTTG)-SEQ ID NO：176。此片段随后在pSBS4011的SphI/HindIII位点的连接产生质粒pSBS4055。

Klip27-MI序列是由四种部分重叠的寡核苷酸合成，其掺入了拟南芥密码子使用，以提高在基于植物的表达系统中的有效翻译的成功。寡核苷酸1324(GAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTTTGTGGATCTCATCTTGTTGAGGCTCTCTACCTTG)-SEQ ID NO：177和1323(CCTTAGGAGTGTAGAAAAATCCTCTTTCTCCACACACAAGGTAGAGAGCCTCAACA)-SEQ ID NO：178，在其互补20个核苷酸重叠处退火，延伸形成Klip27-MI融合物的5’端，同时对寡核苷酸1322(CTAAGGCTGCTAAGGGAATTG)-SEQ ID NO：179和1321(AAGCTTCAGTTGCAATAGTTCTCCAATTGGTAAAGTGAGCAAATAGAAGTGCAACATTGTTCAACAATTCCCTTAGCAGCCTT)-SEQ ID NO：180进行相同处理形成3’端。在用Bsu36I限制消化后，将二半部分连接，产生完整的Klip27-MI编码序列。此基因融合物的PCR使用引物1364(CTCGAGTCAACCAATTGATGACACTGAATC)-SEQ ID NO：181和1334(AAGCTTCAAAGTTCATCCTTGTTGCAATAGTTCTCCAATTG)-SEQ ID NO：182附着了5’XhoI限制内切核酸酶裂解位点和3’KDEL DNA序列加上HindIII裂解位点，供随后连接入XhoI/HindIII切口pSBS4055。结果是质粒pSBS4404：编码PRS-D9scFv-Klip27-MI-KDEL融合蛋白的DNA序列置于是在菜豆蛋白启动子/终止子的表达控制下双元载体内。菜豆蛋白启动子在种子发育期间控制转基因的时间特异性和组织特异性表达。4404胰岛素融合蛋白(PRS-D9scFv-Klip27-MI-KDEL)的完整核酸序列(SEQ IDNO：1)和氨基酸序列(SEQ ID NO：2)示于图1。

构建pSBS4405：OLEO-Klip8-Klip27-MI融合蛋白

所研究的第二融合蛋白以拟南芥的18kDa油质蛋白开始，在框内随后是凝乳酶可裂解前肽(Klip8)-SEQ ID NO：175。紧接下游是衍自酵母的TA57前肽的编码胰蛋白酶可裂解前肽(Klip27)的序列，如上述(Kjeldsen等人，2001，Biotechnology and Genetic EngineeringReviews 18：89-121)。此融合于上述微型胰岛素(MI)(Kjeldsen等人，2001)。此融合蛋白的表达靶定在胚发育当中形成的初生(nascent)油体。

此质粒的主链pSBS4055是基于植物双元载体pPZP200，如Hajdukiewicz等人所述(Plant Molecular Biology，1994，25：989-994)。代替所述多克隆位点，由香芹的遍在蛋白启动子/终止子驱动(Kawalleck等人，1993，Plant.Mol.Bio.，21：673-684)、赋予宿主植物草铵膦抗性的pat基因(Wohlleben等人，1988，Gene 70：25-37)插入于左和右边界序列之间。除此盒外，亚克隆了驱动芥18kDa油质蛋白基因组序列Klip8融合的、菜豆β-菜豆蛋白启动子/终止子(Slightom等人，1983，Proc.Natl.Acad.Sc.USA 80：1897-1901)。使用标准PCR(Horton等人，1989，Gene 77：61-68)把具有所附XhoI/HindIII限制内切核酸酶位点的油质蛋白基因Klip8序列融合于菜豆蛋白启动子的3’端，生成pSBS4010。

Klip27-MI序列由四种部分重叠的寡核苷酸合成，其掺入了拟南芥密码子使用，以提高基于植物的表达系统的有效翻译的成功。寡核苷酸1324(GAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTTTGTGGATCTCATCTTGTTGAGGCTCTCTACCTTG)-SEQ ID NO：177和1323(CCTTAGGAGTGTAGAAAAATCCTCTTTCTCCACACACAAGGTAGAGAGCCTCAACA)-SEQ ID NO：178在其互补的20个核苷酸重叠处退火，并延伸形成Klip27-MI融合的5’端，对寡核苷酸1322(CTAAGGCTGCTAAGGGAATTG)-SEQ ID NO：179和1321(AAGCTTCAGTTGCAATAGTTCTCCAATTGGTAAAGTGAGCAAATAGAAGTGCAACATTGTTCAACAATTCCCTTAGCAGCCTT)-SEQID NO：180进行相同处理形成3’端。用Bsu36I限制消化之后，将二半部分连接，形成全Klip27-MI编码序列。此基因融合的PCR使用引物1364(CTCGAGTCAACCAATTGATGACACTGAATC)-SEQ IDNO：181和1329(AAGCTTCAGTTGCAATAGTTC)-SEQ ID NO：183分别附着了5’XhoI限制内切核酸酶裂解位点和3’HindIII裂解位点，供随后连接于XhoI/HindIII切口pSBS4010。结果为质粒pSBS4405：编码油质蛋白Klip8-Klip27-MI融合蛋白的DNA序列置于在菜豆蛋白启动子/终止子的表达控制下的双元载体内。菜豆蛋白启动子在种子发育期间控制转基因的时间特异性和组织特异性表达。4405胰岛素融合蛋白(OLEO-Klip8-Klip27-MI)的完整核酸序列SEQ ID NO：3和氨基酸序列SEQ ID NO：4如图2所示。

构建pSBS4414：PRS-MI-四元接头-D9scfv-KDEL融合蛋白

所研究另一融合蛋白以烟草病原相关序列(PRS)开始(Sijmons等人，1990，Bio/technology，8：217-221)，其用做以共翻译方式将表达靶定于ER的信号肽。紧接下游是编码微型胰岛素(MI)的序列，如Kjeldsen等人(2001)所述，除了微型C前肽区(AAK-SEQ ID NO：146)用人胰岛素的B_(1-29)和A_(1-21)链之间的间插B₃₀苏氨酸四元位点(B₃₀T-RRKR)序列(SEQ ID NO：149)序列取代。紧接着编码第二个四元接头的序列，接着是对拟南芥的18kDa油质蛋白具有物种特异性亲和性的单链Fv抗体(scFv)，称为D9scFv。在多肽的C末端，添加了KDEL ER保留信号。

此质粒主链pSBS4055是基于植物双元载体pPZP200，如Hajdukiewicz等人所述(Plant Molecular Biology，1994，25：989-994)。代替上述多克隆位点，由香芹的遍在蛋白启动子/终止子驱动(Kawalleck等人，1993，Plant.Mol.Bio.，21：673-684)、赋予宿主植物草铵膦抗性的pat基因(Wohlleben等人，1988，Gene 70：25-37)插入于左和右边界序列之间。除此盒外，亚克隆了驱动PRS、来自菜豆的β-菜豆蛋白启动子/终止子(Slightom等人，1983，Proc.Natl.Acad.Sc.USA 80：1897-1901)。使用标准PCR(Horton等人，1989，Gene 77：61-68)把具有所附SphI/HindIII限制内切核酸酶位点的合成PRS编码序列融合于菜豆蛋白启动子的3’端，产生pSBS4011。

Klip27-MI序列由四种部分重叠的寡核苷酸合成，其掺入了拟南芥密码子使用，以提高基于植物的表达系统的有效翻译的成功。寡核苷酸1324(GAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTTTGTGGATCTCATCTTGTTGAGGCTCTCTACCTTG)SEQ ID NO：177和1323(CCTTAGGAGTGTAGAAAAATCCTCTTTCTCCACACACAAGGTAGAGAGCCTCAACA)SEQ ID NO：178在其互补的20个核苷酸重叠处退火，并延伸形成Klip27-MI融合的5’端，对寡核苷酸1322(CTAAGGCTGCTAAGGGAATTG)SEQ ID NO：179和1321(AAGCTTCAGTTGCAATAGTTCTCCAATTGGTAAAGTGAGCAAATAGAAGTGCAACATTGTTCAACAATTCCCTTAGCAGCCTT)SEQID NO：180进行相同处理，形成3’端。用Bsu36I限制消化后，将二半部分连接，生成全Klip27-MI编码序列。此基因融合的PCR使用引物1363(GCATGCCCAACCAATTGATGACACTG)SEQ ID NO：84和1334(AAGCTTCAAAGTTCATCCTTGTTGCAATAGTTCTCCAATTG)SEQ ID NO：182附着5’SphI限制内切核酸酶裂解位点和3’KDELDNA序列加上HindIII裂解位点，供随后连接于SphI/HindIII切口pSBS4011。结果为质粒pSBS4402：编码PRS-Klip27-MI-KDEL融合蛋白的DNA序列置于在菜豆蛋白启动子/终止子表达控制下的双元载体内。菜豆蛋白启动子在种子发育期间控制转基因的时间特异性和组织特殊性表达。植物表达载体pSBS4402用做模板，在胰岛素的B和A链间以及MI和D9 scfv间导入四元位点。

使用引物1515(GCATGCATGCCTTTGTTAATCAACATCTTTGTGG)SEQ ID NO：185和1518(ACATTGTTCAACAATTCCTCTCTTTCTTCTAGTCTTAGGAGTGTAGAAAAATCC)SEQ ID NO：186，使用pSBS4402为模板利用PCR将间插四元(B₃₀T-RRKR)位点置于人胰岛素的可信B_(1-29)-和A_(1-21)-链之间。所得124bp片段与引物1517(GCATAAGCTTCAAAGCTCATCCTTTGAGC)SEQ ID NO：187组合使用，使用pSBS3400为模板。注意pSBS3400是含有具有HindIII限制位点的D9scFv-KDEL片段的质粒。此PCR反应生成955bp产物，其把四元(RRKR)-D9Scfv-KDEL-HindIII导入到124bp SphI-MI片段。再将955bp片段连接和亚克隆于pGEM-T(Promega)，得pSBS3403。全部SphI-MI(具有B₃₀T-RRKR修饰的C前肽)-RRKR-D9Scfv-KDEL-HindIII片段插入预切口(SphI/HindIII)pSBS4402内，产生pSBS4414。4414胰岛素融合蛋白(PRS-MI-四元接头-D9Scfv-KDEL)的完整核酸序列SEQ ID NO：5和氨基酸序列SEQ ID NO：6如图3所示。

具有pSBS4404、pSBS4405或pSBS4414的重组大肠杆菌和土壤杆菌属的转化和生长

利用序列分析确认编码融合蛋白的cDNA的完整性后，把质粒pSBS4404、pSBS4405和pSBS4414转化大肠杆菌菌株DH5α，得以高水平表达。分离的质粒DNA(100ng)在冰上与100μl的DH5α感受态细胞混合20分钟。细胞再于42℃热击45秒，回到冰上2分钟。然后加1毫升SOC培养基，细胞在LB壮观霉素(10g/L胰胨、5g/L酵母提取物、5g/L NaCl、15g/L琼脂)平板上将转化细胞铺板前将细胞在37℃于225rpm的enviro摇床上温育1小时，并在37℃温育过夜。使用单一菌落接种5毫升LB-壮观霉素液体培养基。这些培养物在37℃成长过夜。按照QIAprepSpin Miniprep Kit(Qiagen)从1毫升过夜培养物中分离重组质粒。再用分离的质粒通过电穿孔(25μF，2.5kV，200Ω)转化感受态土壤杆菌菌株EH101(Hood等人，1986；J.Bacteriol.144：732-743)。重组土壤杆菌属铺板在AB壮观霉素/卡那霉素(20x AB盐，2M葡萄糖，0.25mg/ml FeSO₄·7H₂O，1M MgSO₄，1M CaCl₂)上，使用单一菌落接种5毫升AB壮观霉素/卡那霉素液体培养基。这些培养物在28℃生长过夜。再使用重组土壤杆菌属通过浸汲法(Clough等人，1998，Plant J.，16：735-743)转化拟南芥。拟南芥栽培品种(C24)用于全部实验。把种子种植在4英寸花瓶内土壤混合物(三分之二Redi土、三分之一真珠岩，pH＝6.7)或由Lehle Seeds供应的拟南芥土壤混合物(真珠岩、蛭石、泥煤、绿土(terra-green)，pH＝5.5)的表面。容许幼苗成长至6-8叶的丛生(rosette)阶段，直径大约2.5cm。花瓶在4℃的拱顶下放置4天冷处理，随即移至24℃生长室，约150μE持续光照和相对湿度60-70％。植物每隔2-3天浇水，每星期以1％Peters 20-19-18施肥。各花瓶含5-6株植物。植物达到约2cm时，把第一次结实(bolt)剪断，促使第二、第三结实的成长。剪断第一次结实后4-5天，植物准备用土壤杆菌感染。把具有拟南芥植株的花瓶倒置以让拟南芥植株被含有感兴趣的植物转化载体的过夜土壤杆菌培养物的重悬液500毫升感染20秒。重要的是土壤杆菌培养物含5％蔗糖和0.05％表面活性剂Silwet L-77(Lehle Seeds)。花瓶随后覆盖透明塑料拱顶24小时以维持较高湿度。让植物成长至成熟，收获未转化和已转化的种子的混合物。为选择转基因品系，推定已转化的种子以70％乙醇快洗灭菌，再用20％商用漂白剂洗15分钟，然后以ddH₂O洗至少4次。约1000粒灭菌种子与0.6％熔化的顶层琼脂混合，均匀分布于含有0.3％蔗糖和80μM除草剂phosphionthricin(PPT)DL的半强度MS平板上(Murashige and Skoog，1962，Physiologia Plantarum 15：473-497)。平板再置于24℃生长室内，照明计划为8小时暗、16小时亮。7-10天后，推定转基因幼苗已成绿色并生长，而未转化幼苗苍白。生根后，推定转基因幼苗分别转移到花瓶(各个植物每隔三天浇水，每隔七天以1％Peter 20-19-18施肥)，让其成长成熟。花瓶覆盖透明塑料拱顶三天，以保护敏感性幼苗。七天后，幼苗用Lehle Seeds的种子收集器系统覆盖，以防止种子因散布而损失。个别收获这些转基因植物的种子，预备分析之用。

实施例2

胰岛素在拟南芥内的表达水平

在第二实施例中，在转基因拟南芥成熟种子中确定融合蛋白D9scfv-KLIP27-MI-KDEL(4404)、OLEO-KLIP8-KLIP27-MI(4405)和PRS-MI-RRKR-D9Scfv-KDEL(4414)的表达水平。转基因产物示出存在于成熟种子的细胞提取物内。大约40颗转基因拟南芥种子以研钵和研杵在50μl的50mM Tris-HCl pH8.0中加以研磨。于浆液中加还原SDS-PAGE样品缓冲液(6×SDS样品缓冲液，0.35M Tris-HClpH6.8，30％甘油，10％SDS，0.012％溴酚蓝，5％β-硫基乙醇)，短暂涡旋混合。再将样品短暂离心，在99℃放置10分钟。在冰上冷却2分钟后，把样品短暂离心。在还原条件下加样(10μl，相当于大约七颗种子)。

对于制备油体样品，取转基因和野生型种子(20mg)在250μl油体提取缓冲液(0.4M蔗糖，0.5M NaCl，50mM Tris-HCl pH8.0)内研磨。样品在10000g微离心10分钟。用26G 5/8的1毫升注射器除去水溶性级分，脂肪垫(fat pad)重悬于补充盐(20mM Na₂HP₄，pH8.0，0.5MNaCl)的100μl的磷酸盐缓冲液内。重悬的脂肪垫移至清洁离心管，再于10000g离心10分钟。再重复此程序三次，脂肪垫的最后重悬于100μl无盐的磷酸盐缓冲液(20mM Na₂HPO₄ pH8.0)。在无盐磷酸盐缓冲液进行另二次洗涤，中间离心步骤按上述。最后的脂肪沉淀重悬于10μl的磷酸盐缓冲液(20mM Na₂HPO₄ pH8.0)内。取出5μl份量，在1/10(v/v)50mM Tris-HCl pH8.0加2％SDS内煮沸，将油体蛋白溶解。样品在冰上冷却2分钟，在10000g离心5分钟。底层的蛋白质含量以BCA蛋白质分析测定(Pierce，Rockford，IL)。对于考马斯染色凝胶和蛋白质印迹分析，使用SDS-PAGE样品缓冲液，在还原条件下于15％SDS-PAGE凝胶上分离20μg总蛋白。

样品加样于不连续的15％SDS-PAGE凝胶，在150伏特分离约1.5小时。凝胶再经考马斯染色或印迹到PVDF膜(Immobilon-P，Millipore公司，Bedford，MA)以供蛋白质印迹分析。印迹样品用购自Abcam(Cambridge，UK)的针对胰岛素的单克隆抗体探查(CloneE2-E3：Roth等人，1992)。胰岛素带使用二级山羊X鼠IgG F(ab’)2AP缀合物检测(Chemicon International，Temecula，CA)并使用NBT-BCIP在GARAP缓冲液(Tris-HCl pH9.5，100mM NaCl，5mM MgCl₂)内显色。免疫反应性带相应于多肽带，以融合蛋白的预计分子量迁移，如图4A-4F所示。图4(A-F)示出胰岛素融合蛋白在转化的拟南芥系(4404-2、-17、-20，4405-4，4414-19和4414-20)内的重组表达，根据考马斯染色SDS-PAGE和蛋白质印迹分析。箭头分别指在还原条件下迁移的38.5kDa、34.2kDa和34.2kDa融合多肽、PRS-D9(scfv)-KLIP27-MIw/KDEL(4404)、OLEO-KLIP8-KLIP27-MI(4405)和PRS-MI-RRKR-D9Scfv-KDEL(4414)的位置。注意4414融合蛋白有预期的分子量34.2kDa，但在SDS-PAGE凝胶上具有较高的表观分子量。图4A(考马斯染色凝胶)和4B(相应于抗胰岛素E2E3探查的蛋白质印迹)示出野生型(wt)的总种子蛋白以及表达4404和4405构建体的转基因种子系。图4C(考马斯染色凝胶)和4D(相应于抗胰岛素E2E3探查的蛋白质印迹)示出由野生型制备的油体蛋白以及表达同样4404和4405构建体的转基因种子。图4D(考马斯染色凝胶)和4E(相应于抗胰岛素E2E3探查的蛋白质印迹)示出由野生型制备的油体蛋白以及表达同样4414构建体的转基因种子。分子量标记(M)为10、15、20、25、37、50、75、100、150、250kDa。对照包括hIN(重组人胰岛素标准)和hProIN(重组人胰岛素原标准)，在非还原条件下分离。表达水平的不同是转化体当中克隆变异的结果。转基因和MI表达的大约蛋白水平示于图5。表达水平使用18kDa油质蛋白带做为内标准(相当于1.5％总种子蛋白)利用转基因带的光密度测定法测定。PRS-D9(scfv)-KLIP27-MIw/KDEL(4404)、OLEO-KLIP8-KLIP27-MI(4405)和PRS-MI-RRKR-D9Scfv-KDEL(4414)构建体的平均表达水平分别为0.21％总种子蛋白、0.12％总种子蛋白和0.79％总种子蛋白。

实施倒3

pSBS4404的裂解和HPLC纯化

从油体洗脱

在第3实施例中，取1克转基因种子在12毫升提取缓冲液(0.4M蔗糖，0.5M NaCl，50mM Tris-HCl pH8.0)内匀浆，并以10000g离心10分钟，除去脂肪垫，置于1毫升20mM Na₂HPO₄、0.5M NaCl内，按上述再离心。重复二次，然后洗涤，把脂肪垫在750μl 20mMNa₂HPO₄内离心二次。通过在750μl 20mM甲酸pH4.1内洗涤最后的脂肪垫5次，每次洗涤之间在10000g离心，从油体洗脱4404融合蛋白进入下层液内。收集的洗脱级分(下层液)合并(pooled)，并以2NNaOH中和至pH8.0。全部溶液然后置放在-80℃冷冻，冷冻干燥过夜以浓缩融合蛋白。冷冻干燥样品重悬于500μl的50mM Tris-HClpH8.0。然后将重悬的4404融合蛋白在NAP-5柱(AmershamPharmacia Biotech Ab，Uppsala，Sweden)上脱盐，再以缓冲液(50mM Tris-HCl pH8.0)再交换。脱盐级分再度冷冻，冷冻干燥过夜加以浓缩。最后浓缩的样品重悬于终体积105μl双蒸馏H₂O中。洗脱结果如图6所示。图6是考马斯染色SDS-PAGE(15％)分析洗脱前的油体制备物(-OB)，用甲酸洗脱后的油体制备物(-OB’)以及浓缩的洗脱物质(-E)。箭头指示迁移的融合多肽的位置。野生型对照基本上在洗脱后无任何主要蛋白质，而浓缩的4404物质含有融合蛋白，若干截短产物(可能是水解的融合蛋白)以及可能有共同洗脱的若干白蛋白。

表达4404的芥种子的裂解和HPLC分析

浓缩的样品重悬于105μl的双重蒸馏水内，蛋白质含量利用BCA蛋白质分析按照厂商(Pierce，Rockford，IL，USA)测定。样品再用胰蛋白酶裂解(胰蛋白酶∶总蛋白比1∶300，在50mM Tris-HClpH8.0内，于冰上90分钟)。以10倍摩尔过量的TLCK(N-对-甲苯磺酰基-L-赖氨酸氯甲基酮)终止反应。然后经0.2μm滤器(Aerodisc13mm注射滤器，有0.2μm Supof膜，Pall公司，Ann Arbor，MI，USA)过滤全部反应物并使用C18柱(Zorbax 300SB-C18，AgilentTechnologies，Waldbronn，德国)以反相(RP)-HPLC分析。样品加载于柱并使用在0.1％(v/v)TFA内的5-50％(v/v)乙腈的19分钟线性梯度以1.0ml/min洗脱。此分析所得的层析如图7所示。曲线揭示了4404融合蛋白被胰蛋白酶裂解的产物，其在柱上与人胰岛素标准具有几乎相同的性质(保留时间分别17.011分钟和17.179分钟)。从17.0-17.5分钟收集HPLC级分并利用PSD MALDI/TOF质谱分析法使用Voyager-DE STR质谱仪(Applied Biosystems)分析。MS分析是利用NRC-Plant Biotechnology Institute，Saskatoon，Saskatchewan，Canada提供的BioAnalytical Spectroscopy services进行的。上述利用HPLC纯化的裂解的4404产物的解析见图8B，与图8A所示人胰岛素标准比较。用胰蛋白酶裂解的4404融合蛋白的观察质量为6191.51Da。人胰岛素标准(图8A)与裂解的4404产物(图8B)间的差异相应于具有保留再裂解的产物A链上的KDEL信号的Des-B₃₀胰岛素(Des-B₃₀胰岛素-KDEL)。

实施例4

pSBS4405的裂解和HPLC纯化

油体制备

融合蛋白(OLEO-KLIP8-KLIP27-MI)可通过进行下述油体制备而被部分纯化。大约取1克转基因种子在12毫升提取缓冲液(0.4M蔗糖，0.5M NaCl，50mM Tris-HCl pH8.0)内匀浆并以10000g离心10分钟，除去脂肪垫，并置于1毫升的50mM Tris-HCl pH8.0，0.5M NaCl中，并按上述再离心。此重复二次，洗涤后，脂肪垫在750μl的50mMTris-HCl pH8.0内离心两次。油体制备除去大部分的背景蛋白质。从表达4405构建体的转基因芥种子所得油体制备的典型蛋白质图谱如图9所示。

表达4405的芥种子的裂解和HPLC分析

重悬油体的总蛋白含量是利用将一级分制备物(5μl)在2％SDS，50mM Tris-HCl pH8.0内稀释10倍，煮沸5分钟，在10000g离心3分钟加以溶解而评估。然后，蛋白含量是利用BCA蛋白质分析按照厂商(Pierce，Rockford，IL，USA)测定。然后，样品用胰蛋白酶(胰蛋白酶∶总蛋白质比1∶300，在50mM Tris-HCl pH8.0，于冰上90分钟)裂解，从融合蛋白释出Klip27-MI片段。以10倍摩尔过量的TLCK(N-对-甲苯磺酰基-L-赖氨酸氯甲基酮)终止反应。样品以10000g离心10分钟，全部反应的下层液经0.2μm滤器(Aerodisc13mm注射滤器，有0.2μm Supof膜，Pall公司，Ann Arbor，MI，USA)过滤。图9表示全部可提取种子蛋白和从表达4405的系制备的油体(OB)蛋白的考马斯染色SDS-PAGE(15％)分析，与野生型(非重组)种子比较。箭头指示迁移融合多肽的位置。下层液使用C18柱(Zorbax300SB-C18，Agilent Technologies，Waldbronn，德国)以反相(RP)-HPLC进一步分析。样品加载于柱上，使用在0.1％(v/v)TFA内的5-50％(v/v)乙腈的19-分钟线性梯度以1.0ml/min洗脱。此分析所得层析见图10。曲线揭示了4405融合蛋白的胰蛋白酶裂解的产物，其在柱上具有与人胰岛素标准几乎相同的性质(保留时间分别为17.220分钟和17.179分钟)。从17.0-17.5分钟收集HPLC级分，使用Voyager-DE STR质谱仪(Applied Biosystems)利用PSD MALDI/TOF质谱分析法分析。利用NRC-Plant Biotechnology Institute，Saskatoon，Saskatchewan，Canada提供的BioAnalytical Spectroscopy services进行MS分析。如图11所示，用胰蛋白酶裂解的4405融合蛋白的观察质量为5706.30Da。人胰岛素标准(图8A)与裂解的4405产物(图11)间的差异相应于Des-B₃₀胰岛素产物(Des-B₃₀胰岛素)。Des-B₃₀胰岛素为4405融合的正确胰蛋白酶成熟所预期的产物。

实施例5

使用AKTA探查器(FPLC)纯化胰蛋白酶裂解的MI

从4405裂解MI的纯化也是在AKTA探查器(explorer)(Amersham Pharmacia)上利用阴离子交换(Mono Q FF 1mL，AmershamPharmacia)通过加大规模的裂解反应部分纯化。裂解反应是在4405油体上进行，如上述，其由达30克的转基因种子制备。裂解反应的下层液经0.2μm滤器过滤或利用冷冻干燥在Savant Speed Vac上浓缩。过滤的样品反应可直接应用于柱，但浓缩样品需除去盐，才能有效结合柱。浓缩样品可通过令裂解的物质通过PD-10柱(AmershamPharmacia)、通过透析或稀释到盐浓度等于或低于5mS/cm而脱盐。脱盐样品用20mM Tris-HCl pH6.5平衡。样品可用0-40％NaCl，以1ml/min流速使用阶梯梯度分离。检测在214nm进行(在280nm检测较差，因为胰岛素内芳香族氨基酸含量低)。A溶剂是20mM Tris-HClpH6.5，而B溶剂是20mM Tris-HCl pH6.5，1.0M NaCl。收集与Roche胰岛素标准相同的导电性，再7-35mS/cm之间的洗脱级分(1ml)(参见图12)。图12表示胰蛋白酶裂解的4405油体制备物(虚线)与人胰岛素标准(实线)相比较的层析图谱。收集的级分利用HPLC、ELISA或蛋白质印迹(数据未示出)证明胰岛素的存在。所收集的样品再利用冷冻干燥浓缩，用于实施例6所述的胰岛素生物分析。

实施例6

胰岛素耐受试验：C57BI/6(B6)雄鼠中的生物分析

进行生物分析，以确定来自胰蛋白酶裂解的4405的重组植物衍生物(Des-B₃₀IN)的体内作用，与人胰岛素比较。B6小鼠体内的葡萄糖血浆水平在胰岛素标准、负对照和SBS胰岛素腹膜内注射之前和之后测定。从Jackson Laboratories(Bar Harbor，ME)购买约2月大的15只C57BI/6(B6)雄鼠。以自动血糖仪(glucometer)(One TouchUltra，Lifescan，Johnson & Johnson)测量血浆葡萄糖水平。正对照包括HumulinR(Eli Lilly)和酵母重组人胰岛素标准，得自Roche。生理盐水溶液用做安慰剂。包括的负对照代表从通过与重组4405胰蛋白酶裂解的油体制备物同样处理的野生型(非组合)芥种子纯化的胰蛋白酶裂解的油体。

B6鼠关在笼内并随意进食，12小时暗-光循环。对于胰岛素耐受试验，对鼠腹膜内(IP)注射胰岛素(1U/kg体重)，使用自动血糖计在0、15、30和60分钟测量葡萄糖水平。所有胰岛素耐受试验均在每天的同样时间(上午9:00)进行。进行胰岛素耐受试验时，在进行下一试验之间间隔至少二天。胰岛素耐受试验结果示于图13。从4405种子衍生的SBS DesB₃₀胰岛素(实体菱形)与Humulin R(空白方形)和Roche胰岛素(空白三角形)标准在注射后的研究过程中行为几乎相同(统计学上并无差异，p＜0.05)。所测试的全部胰岛素与生理盐水安慰剂(空白圆形)和胰蛋白酶裂解的野生型芥油体(实体圆形)(负对照)比较，显著降低血浆葡萄糖水平(p＜0.05)。

实施例7

pSBS4401：PRS-Klip27-MI-融合蛋白的构建

所研究的融合蛋白之一以烟草病原相关序列(PRS)开始(Sijmons等人，1990，Bio/technology，8：217-221)，其以共翻译方式用于将表达靶向ER的信号肽。紧接下游是衍生自酵母TA57前肽的胰蛋白酶可裂解的前肽(KLIP27)(Kjeldsen等人，2001，Biotechnology andGenetic Engineering Reviews 18：89-121)。接着是Kjeldsen等人(2001)所述的微型胰岛素(MI)。

此质粒的主链pSBS4055基于Hajdukiewicz等人所述的植物双元载体pPZP200(Plant Molecular Biology，1994，25：989-994)。代替所述多克隆位点，以香芹的遍在蛋白启动子/终止子驱动(Kawalleck等人，1993，Plant.Mol.Bio.，21：673-684)、赋予宿主植物草铵膦抗性的pat基因(Wohlleben等人，1988，Gene 70：25-37)插于左和右边界序列之间。除此盒外，亚克隆了驱动PRS的菜豆的β-菜豆蛋白启动子/终止子(Slightom等人，1983，Proc.Natl.Acad.Sc.USA 80：1897-1901)。使用标准PCR(Horton等人，1989，Gene 77：61-68)把具有所附SphI/HindIII限制内切核酸酶位点的合成PRS-编码序列融合于菜豆蛋白启动子的3’端以产生pSBS4011。

Klip27-MI序列是由四种部分重叠的寡核苷酸合成，其掺入了拟南芥密码子使用，以提高基于植物的表达系统的有效翻译的成功。寡核苷酸1324(GAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTTTGTGGATCTCATCTTGTTGAGGCTCTCTACCTTG)-SEQ ID NO：177和1323(CCTTAGGAGTGTAGAAAAATCCTCTTTCTCCACACACAAGGTAGAGAGCCTCAACA)-SEQ ID NO：178，在其互补的20个核苷酸重叠处退火，并延伸形成Klip27-MI融合的5’端，对寡核苷酸1322(CTAAGGCTGCTAAGGGAATTG)-SEQ ID NO：179和1321(AAGCTTCAGTTGCAATAGTTCTCCAATTGGTAAAGTGAGCAAATAGAAGTGCAACATTGTTCAACAATTCCCTTAGCAGCCTT)-SEQID NO：180进行相同的处理以形成3’端。在用Bsu36I限制消化后，将二半部分连接，生成全Klip27-MI编码序列。此基因融合的PCR使用引物1363(GCATGCCCAACCAATTGATGACACTG)-SEQ IDNO：184和引物1329(AAGCTTCAGTTGCAATAGTTC)-SEQ ID NO：183附着了5’SphI和3’HindIII限制内切核酸酶裂解位点用于随后连接至SphI/HindIII切口的pSBS4011(如上述)。结果为质粒pSBS4401：编码PRS-Klip27-MI融合蛋白(SEQ ID NO：189)的DNA序列(SEQ ID NO：188)置于在莱豆蛋白启动子/终止子的表达控制下的双元载体内。菜豆蛋白启动子在种子发育期间控制转基因的时间特异性和组织特殊性表达。

具有pSBS4401的重组大肠杆菌和土壤杆菌的转化和生长

利用序列分析确认编码融合蛋白的cDNA完整性后，质粒pSBS4401转化大肠杆菌菌株DH5α，得以高水平表达。分离的质粒DNA(100ng)在冰上与100μl的DH5α感受态细胞混合20分钟。再将细胞于42℃热击45秒，回到冰上2分钟。然后，添加1ml的SOC培养基，令细胞在225rpm的enviro摇床上于37℃温育1小时，再将转化细胞铺板于LB壮观霉素平板(10g/L胰胨、5g/L酵母提取物、5g/LNaCl、15g/L琼脂)，并在37℃温育过夜。使用单一菌落接种5毫升LB壮观霉素液体培养基。这些培养物在37℃生长过夜。按照Qiagenmini prep从1毫升过夜培养物分离重组质粒。分离的质粒再用来通过电穿孔(25μF，2.5kV，200Ω)转化感受态土壤杆菌菌株EH101(Hood等人，1986；J.Bacteriol.，144：732-743)。重组土壤杆菌铺板于AB壮观霉素/卡那霉素(20x AB盐，2M葡萄糖，0.25mg/ml FeSO₄·7H₂O，1M MgSO₄，1M CaCl₂)，使用单一菌落接种5毫升AB壮观霉素/卡那霉素液体培养基。这些培养物在28℃生长过夜。再使用重组土壤杆菌通过如实施例1所述浸汲法(Clough等人，1998，Plant J.，16：735-743)转化拟南芥植物。

胰岛素在拟南芥中的表达水平

使用上述实施例2概括的方法，在转基因拟南芥成熟种子内测定融合蛋白KLIP27-MI(4401)的表达水平。在成熟种子的细胞提取物内未见有转基因产物存在。

实施例8

构建pSBS4409：OLEO-人胰岛素原(OLEO-hPIN)融合蛋白

此融合蛋白以拟南芥的18kDa油质蛋白开始，在框内随后是编码人胰岛素原(hPIN)的基因。此融合蛋白的表达靶向在胚发育期间形成的初生油体。

此质粒主链pSBS4008基于Hajdukiewicz等人所述植物双元载体pPZP200(Plant Molecular Biology，1994，25：989-994)。代替上述多克隆位点，以香芹的遍在蛋白启动子/终止子驱动(Kawalleck等人，1993，Plant.Mol.Bio.，21：673-684)、赋予宿主植物草铵膦抗性的pat基因(Wohlleben等人，1988，Gene 70：25-37)插于左和右边界序列之间。除此盒外，亚克隆了驱动芥18kDa油质蛋白基因组序列的菜豆的β-菜豆蛋白启动子/终止子(Slightom等人，1983，Proc.Natl.Acad.Sc.USA 80：1897-1901)。使用标准PCR(Horton等人，1989，Gene 77：61-68)把具有附带NcoI/HindIII限制内切核酸酶位点的油质蛋白基因序列(减去终止密码子)融合于菜豆蛋白启动子的3’端，生成pSBS4008。

NcoI-人前胰岛素原基因-HindIII使用偏爱的植物密码子使用通过Aptagen合成为单335bp。随即连接于NcoI/HindIII切口pSBS4008，产生质粒pSBS4400：编码油质蛋白-人前胰岛素原融合蛋白的DNA序列置于在菜豆蛋白启动子/终止子表达控制下的双元载体内。pSBS4400质粒用做模板，利用标准PCR产生人胰岛素原(hPIN)，使用pfu DNA聚合酶，以及针对5’端(1457 oligoTTCGTGAACCAACACTTG-SEQ ID NO：190)和包括载体现有胰岛素原区域的HindIII位点的3’端(1458 oligoAAGCTTTCAGTTACAGTAGT-SEQ ID NO：191)的引物。第二片段使用pfu DNA聚合酶扩增，使用针对可获得的位于pSBS4400载体内的芥油质蛋白基因(oligo 1456 GGTAGTGTGCTGGCCA-SEQ ID NO：193)的3’端的SphI位点(oligo 1455 GCATGC ATGTGTTGAGC-SEQID NO：192)的引物。PCR之后，产物在琼脂糖凝胶上分离，相当于267bp(hPIN-HindIII)和360bp(SphI-OLEO(3’端))片段的带使用凝胶提取试剂盒(Qiagen)进行凝胶纯化。利用第二回PCR扩增使用Taq DNA聚合酶和引物1455(SEQ ID NO：192)和1458(SEQ ID NO：193)组合0.001μM的重叠桥连PCR引物(oligo 1459GGTGGCCAGCACACTACCTTCGTGAACCAACACTTGTG-SEQ IDNO：194)以58℃退火温度进行二次循环，接着在52℃31次循环以扩增627bp SphI-OLEO(3’端)-hPIN-HindIII片段而融合上述两个片段。再将627bp SphI-OLEO(3’端)-hPIN-HindIII片段连接到pGEMTEasy Vector System^TM(Promega)的T/A突出端，并用来转化DH5α细菌，得pSBS3409(pGEMT-SphI-OLEO(3’端)-hPIN-HindIII)。

pSBS3409的SphI/HindIII片段与pSBS4400的SphI/HindIII片段交换。对pSBS3409和pSBS4404的标准限制消化使用SphI/HindIII(New England Biolabs)进行。片段在1.5％琼脂糖凝胶上分离并使用凝胶提取试剂盒(Qiagen)纯化。从pSBS3409释出的617bpSphI/HindIII片段再使用T4 DNA连接酶连接到预切口的pSBS4400(除去内部SphI/HindIII片段)载体主链内的SphI/HindIII接受位点，在15℃过夜。

结果是质粒pSBS4409：编码油质蛋白-hPIN融合蛋白(SEQ IDNO：196)的DNA序列(SEQ ID NO：195)置于在菜豆蛋白启动子/终止子的表达控制下的双元载体内。菜豆蛋白启动子在种子发育期间控制转基因的时间特异性和组织特殊性表达。

具有pSBS4409的重组大肠杆菌和土壤杆菌的转化和成长

利用序列分析确认编码融合蛋白的cDNA的完整性后，质粒pSBS4409转化大肠杆菌菌株DH5α，得以高水平表达。分离的质粒DNA(100ng)在冰上与100μl的DH5α感受态细胞混合20分钟。再将细胞于42℃热击45秒，回到冰上2分钟。然后，添加1ml的SOC培养基，令细胞在225rpm的enviro摇床上于37℃温育1小时，再将转化细胞铺板于LB壮观霉素平板(10g/L胰胨、5g/L酵母提取物、5g/LNaCl、15g/L琼脂)，并在37℃温育过夜。使用单一菌落接种5毫升1B壮观霉素液体培养基。这些培养物在37℃生长过夜。按照Qiagenmini prep从1毫升过夜培养物分离重组质粒。分离质粒再用来通过电穿孔(25μF，2.5kV，200Ω)转化感受态土壤杆菌菌株EH101(Hood等人，1986：J.Bacteriol.，144：732-743)。重组土壤杆菌铺板于AB壮观霉素/卡那霉素(20x AB盐，2M葡萄糖，0.25mg/ml FeSO₄·7H₂O，1M MgSO₄，1M CaCl₂)，使用单一菌落接种5毫升AB壮观霉素/卡那霉素液体培养基。这些培养物在28℃生长过夜。再使用重组土壤杆菌通过如实施例1所述的浸汲法(Clough等人，1998，Plant J.，16：735-743)转化拟南芥植物。

胰岛素在拟南芥中的表达水平

使用上述实施例2概括的方法在转基因拟南芥成熟种子内测定融合蛋白OLEO-hPIN(4409)的表达水平。取自二个代表系(4409-6和4409-8)的油体蛋白质的考马斯染色凝胶比较了油质蛋白-hPIN融合蛋白(如黑箭头所示)与非转化(wt)芥的迁移(图14)。表达水平通过对平均大约0.10％总种子蛋白的测量的光密度测定法确定。这个水平如上计算并超过了同样分子量的内源蛋白在构成约0.04％总种子蛋白的非转化种子(wt)中的共同迁移。

实施倒9

转化红花

此转化方案类似Orlilcowska T.K.等人的纲要((1995)Plant Cell，Tissue and Organ Culture 40：85-91)，但对转化S-317和使用草铵膦做为可选择标记有所修饰和改进。将取自S-317加州变种红花的、无损、无破、无病害的种子去污染物，在0.1％ HCl₂内12分钟，再用无菌蒸馏水洗4-5次。在具有1％蔗糖和0.25％ Gelrite的MS培养基(Murashige T.和skoog F(1962)Phsiol.Plant.15：473-497)中在黑暗中使无菌种子发芽。先是把取自冷冻的甘油原液的土壤杆菌培养物放在具有抗生素选择的5毫升AB最少液体培养基里，并在28℃生长48小时。将此培养物等份在5毫升具有转化选择的Luria液体培养基内生长过夜。6-8毫升细菌细胞以AB培养基洗二次，并制成最终细胞密度为0.4-0.5(OD600)。

从发芽幼苗摘除长了两天的子叶，浸于制备的土壤杆菌细胞中，并铺板于具有3％蔗糖、4μM N-6苄基腺嘌岭(BA)和0.8μM萘乙酸(NAA)的MS培养基。把平板黑暗中于21℃温育。三天后，移到具有300mg/L timentin的同样培养基。再四天后，全部培养物移到见光。三天后，把外植体放在加有0.5mg/L草铵膦的选择培养基上。为使芽继续伸长，每周把外植体移到无植物激素但有两倍基础量的KNO₃的MS培养基上。从初始外植体剪掉伸长到10mm以上的芽，分别在选择培养基上生长。为使生根，把代表推定转基因组织的绿叶放到有2％蔗糖、10μM吲哚丁酸和0.5μM NAA的MS培养基上。把生根的芽移到排水良好的较少土壤混合物中，在高湿度和12小时光照下生长。

实施例10

亚麻转化方案

此转化方法类似Dong J.和McHughen A.(Plant Cell Reports(1991)10：555-560)，Dong J.和McHughen A.(Plant Sciences(1993)88：61-71)以及Mlynarova等人(Plant Cell Reports(1994)13：282-285)所概括的。将无损、无破或无病害的亚麻种子去污染物，于70％乙醇溶液内5-7分钟，接着在具有Tween 20(每100毫升3-4滴)的50％漂白液内连续搅动25分钟。种子用无菌蒸馏水洗5-7次。将去污染物的种子放在Magenta罐内在具有2％蔗糖和0.3％ Gelrite的MS培养基上(Murashige T.和Skoog F(1962)Physiol.Plant.15：473-497)于光中发芽。为了转化，土壤杆菌培养物在加了适当抗生素用于选择的AB液体培养基内生长过夜。将6-8毫升过夜细胞洗两次，重悬于5毫升AB液体培养基内；取此原液2毫升，加于98毫升的诱导培养基(具有3％蔗糖、5μM 6-苄基氨基嘌呤(BA)和0.25μM α-萘乙酸(NAA)的MS基础培养基)，调节最终OD₆₀₀为1.0。

切割下胚轴外植体，在制备的土壤杆菌细胞溶液内温育约4小时(在此期间，徐徐搅动平板1-2次)。感染期后，从液体接种培养基除去外植体，在无菌滤纸上印迹。在组织培养物平板上，将15-20个外植体铺板于0.7％琼脂固化的诱导培养基上。用塑料把平板密封，在光照(23-24℃)条件下共同栽培外植物48小时。两天后，把绿色分生组织外植体移到含300mg/L Timentin(预选培养基)的同样培养基内，并用塑胶料包裹。三天后，把培养物移到含10mg/L DL PPT的上述培养基(选择I)。用Parafilm包裹平板，在24℃光照条件下温育。每两星期转移培养物并保持于此培养基一个月。为使芽伸长，每二星期把培养物移到Magenta罐内的选择培养基II(MS基础培养基，含2％蔗糖、500mg/L MES缓冲液、300mg/L Timentin和10mg/L DL PPT)。选择后存活的推定转化芽呈深绿色，个别植于选择II培养基上时，7-10天内形成茂盛的根。把生根的芽移到小花瓶内的灭菌温室土壤混合物，幼苗用清洁塑料杯覆盖以适应环境。为使成熟，把活跃生长的植物移到有排水良好的土壤混合物的1加仑花瓶内，并在温室条件下生长。

虽然本发明根据现视为优选的实施例加以描述，须知本发明不限于所揭示的实施例。反之，本发明旨在涵盖包括在所附权利要求书的精神和范围内的不同修饰以及等效改动。

全部出版物、专利和专利申请在此全文并入参考，其程度视同各个出版物、专利和专利申请特别和个别指明其全文并入参考。

表1 已知胰岛素序列的例子

SEQ IDNO：	胰岛素基序(氨基酸序列识别符) {核酸序列识别符}
SEQ IDNO：	胰岛素基序(氨基酸序列识别符) {核酸序列识别符}	人天然胰岛素
7	(P01308)人前胰岛素原{包括基因V00565，M10039，J00265，X70508，L15440，BC005255和AJ009655}	人天然胰岛素
7		非人天然胰岛素
哺乳动物		非人天然胰岛素
哺乳动物		8	(AAB25818)胰岛素原C-肽Equus przewalskii(马，斑马，犀牛和貘(奇蹄类动物(Perissodactyla))
9	(P01310)前胰岛素原Equus caballus(马)	8
9	(P01310)前胰岛素原Equus caballus(马)	10	(P01311)前胰岛素原{涵盖基因U03610和M61153}Oryctolaguscuniculus(家兔)}
11	(P01312)胰岛素Balaenoptera physalus(长须鲸)	10	(P01311)前胰岛素原{涵盖基因U03610和M61153}Oryctolaguscuniculus(家兔)}
11	(P01312)胰岛素Balaenoptera physalus(长须鲸)	12	(P01314)胰岛素Balaenoptera borealis(塞鲸)
13	(P01315)前胰岛素原{包括基因AF064555和AY044828}Susscrofa(猪)	12	(P01314)胰岛素Balaenoptera borealis(塞鲸)
13	(P01315)前胰岛素原{包括基因AF064555和AY044828}Susscrofa(猪)	14	(P01316)胰岛素Elephas maximus(亚洲象)
15	(P01317)前胰岛素原{基因M54979}Bos taurus(牛)	14	(P01316)胰岛素Elephas maximus(亚洲象)
15	(P01317)前胰岛素原{基因M54979}Bos taurus(牛)	16	(P01318)前胰岛素原{基因U00659}Ovis aries(绵羊)
17	(P01320)胰岛素Camelus dromedarius(阿拉伯骆驼)	16	(P01318)前胰岛素原{基因U00659}Ovis aries(绵羊)
17	(P01320)胰岛素Camelus dromedarius(阿拉伯骆驼)	18	(P01321)前胰岛素原{基因V00179}Canis sp.(犬)
19	(P01328)胰岛素Hystrix cristata(鬃毛豪猪)	18	(P01321)前胰岛素原{基因V00179}Canis sp.(犬)
19	(P01328)胰岛素Hystrix cristata(鬃毛豪猪)	20	(P10604)前胰岛素原{基因J02989}Aotustrivirgatus(douroucouli)猫头鹰猴
21	(P30406)前胰岛素原{基因J00336}Macaca fascicularis(食蟹短尾猴)	20	(P10604)前胰岛素原{基因J02989}Aotustrivirgatus(douroucouli)猫头鹰猴

22	(P30407)前胰岛素原{基因X61092}Cercopithecus aethiops(非洲绿猴)
22	(P30407)前胰岛素原{基因X61092}Cercopithecus aethiops(非洲绿猴)	23	(P30410)前胰岛素原{基因X61089}Pan troglodytes(黑猩猩)
24	(Q9TQY7)胰岛素Ornithorhynchus anatinus(鸭嘴兽)	23	(P30410)前胰岛素原{基因X61089}Pan troglodytes(黑猩猩)
24	(Q9TQY7)胰岛素Ornithorhynchus anatinus(鸭嘴兽)	25	(AAM76641)胰岛素{基因AY092024}Pongo pygmaeus(猩猩)
26	(AAN06935)前胰岛素原{基因：AH011815(含AY137498，AY137499和AY137500)}Gorilla gorilla(大猩猩)	25	(AAM76641)胰岛素{基因AY092024}Pongo pygmaeus(猩猩)
26		27	(INMKSQ)胰岛素Saimiri sciureus(普通松鼠猴)
28	(P01313)前胰岛素原{基因M26328}Cricetulus longicaudatus(长尾仓鼠)	27	(INMKSQ)胰岛素Saimiri sciureus(普通松鼠猴)
28	(P01313)前胰岛素原{基因M26328}Cricetulus longicaudatus(长尾仓鼠)	29	(P01322)胰岛素1前体{涵盖基因V01242，V01242和M25584}Rattusnorvegicus(挪威鼠)
30	(P01323)胰岛素2前体{涵盖基因V01243，J00748，M25583和M25585}Rattus norvegicus(挪威鼠)	29
30		31	(P01324)胰岛素Acomys cahirinus(埃及刺鼠)
32	(P01325)胰岛素1前体{涵盖基因X04725和AK007482}Mus musculus(家鼠)	31	(P01324)胰岛素Acomys cahirinus(埃及刺鼠)
32	(P01325)胰岛素1前体{涵盖基因X04725和AK007482}Mus musculus(家鼠)	33	(P01326)胰岛素2前体{基因X04724}Mus musculus(家鼠)
34	(P01327)胰岛素Chinchilla brevicaudata(绒鼠)	33	(P01326)胰岛素2前体{基因X04724}Mus musculus(家鼠)
34	(P01327)胰岛素Chinchilla brevicaudata(绒鼠)	35	(P01329)前胰岛素原{涵盖基因K02233和M11713}Caviaporcellus(天竺鼠)
36	(P17715)前胰岛素原{基因M57671}Octodon degus(八齿鼠)	35	(P01329)前胰岛素原{涵盖基因K02233和M11713}Caviaporcellus(天竺鼠)
36	(P17715)前胰岛素原{基因M57671}Octodon degus(八齿鼠)	37	(P18109)胰岛素Didelphis virginiana(北美负鼠)
38	(P21563)前胰岛素原[Rodentia sp.]	37	(P18109)胰岛素Didelphis virginiana(北美负鼠)
38	(P21563)前胰岛素原[Rodentia sp.]	39	(Q62587)前胰岛素原{基因X98241}Psammomys obesus(肥沙鼠，fatsand rat)
40	(Q91XI3)前胰岛素原{基因AY038604}Spermophilustridecemlineatus(十三条纹地松鼠)	39	(Q62587)前胰岛素原{基因X98241}Psammomys obesus(肥沙鼠，fatsand rat)
40		41	(740063A)胰岛素C peutide Cavia porcellus(天竺鼠)
鸟类		41	(740063A)胰岛素C peutide Cavia porcellus(天竺鼠)
鸟类		42	(P01332)前胰岛素原(涵盖基因AH002454(含J00872，J00873和J00874)，V00416，V00418和X58993)Gallus gallus(鸡)
43	(P01333)前胰岛素原Anas platyrhynchos(绿头鸭)	42

44		(P07454)胰岛素Anser anser anser(西方灰雁(western graylaggoose))
44		(P07454)胰岛素Anser anser anser(西方灰雁(western graylaggoose))	45		(P51463)前胰岛素原{基因：AH006925(含S66611和S66612)}Selasphorus rufus(棕煌蜂鸟)
鱼类			45
鱼类			46	(073727)前胰岛素原{基因：AF036326}Danio rerio(斑马鱼)
47	(P01335)前胰岛素原{基因：X00989}Cyprinus carpio(普通鲤鱼)		46	(073727)前胰岛素原{基因：AF036326}Danio rerio(斑马鱼)
47	(P01335)前胰岛素原{基因：X00989}Cyprinus carpio(普通鲤鱼)		48	(P01337)胰岛素Batrachoididae gen sp.(蟾鱼)
49	(P01339)胰岛素Thunnus thynnus(蓝鳍鲔鱼)		48	(P01337)胰岛素Batrachoididae gen sp.(蟾鱼)
49	(P01339)胰岛素Thunnus thynnus(蓝鳍鲔鱼)		50	(P01340)胰岛素Katsuwonus pelamis(飞鲔)
51	(P01341)前胰岛素原{基因：V00634}Lophius piscatorius(铵康)		50	(P01340)胰岛素Katsuwonus pelamis(飞鲔)
51	(P01341)前胰岛素原{基因：V00634}Lophius piscatorius(铵康)		52	(P01342)前胰岛素{基因：V00649}Myxine glutinosa(大西洋盲鳗)
53	(P04667)前胰岛素原{涵盖基因：X00148，J00936，K01655和X13559}Oncorhynchus keta(马苏大麻哈鱼)		52	(P01342)前胰岛素{基因：V00649}Myxine glutinosa(大西洋盲鳗)
53			54	(P07453)Myoxocephalus scorpius(杜父鱼)
55	(P09476)胰岛素Lepisosteus spatula(巨福鳄)		54	(P07453)Myoxocephalus scorpius(杜父鱼)
55	(P09476)胰岛素Lepisosteus spatula(巨福鳄)		56	(P09477)胰岛素Platichthys flesus(欧洲比目鱼)
57	(P09536)胰岛素Hydrolagus colliei(斑点银鲛)		56	(P09477)胰岛素Platichthys flesus(欧洲比目鱼)
57	(P09536)胰岛素Hydrolagus colliei(斑点银鲛)		58	(P12704)胰岛素Squalus acanthias(白斑角鲨)
59	(P12705)前胰岛素原Torpedo marmorata(石斑电鳐)		58	(P12704)胰岛素Squalus acanthias(白斑角鲨)
59	(P12705)前胰岛素原Torpedo marmorata(石斑电鳐)		60	(P13190)胰岛素原{基因：U82395}Cailorhinchus milii(象鱼)
61	(P14806)胰岛素Petromyzon marinus(海生七鳃鳗)		60	(P13190)胰岛素原{基因：U82395}Cailorhinchus milii(象鱼)
61	(P14806)胰岛素Petromyzon marinus(海生七鳃鳗)		62	(P23187)胰岛素Oncorhynchus gorbuscha(粉鲑)
63	(P29335)胰岛素Amia calva(弓鳍鱼)		62	(P23187)胰岛素Oncorhynchus gorbuscha(粉鲑)
63	(P29335)胰岛素Amia calva(弓鳍鱼)		64	(P42633)胰岛素Anguilla rostrata(美洲鳗)
65	(P81025)前胰岛素原{基因：AF038123}Oreochromis niloticus(尼罗河罗非鱼)		64	(P42633)胰岛素Anguilla rostrata(美洲鳗)
65	(P81025)前胰岛素原{基因：AF038123}Oreochromis niloticus(尼罗河罗非鱼)		66	(P81423)胰岛素Acipenser gueldenstaedtii(俄罗斯鲟鱼)
67	(P81881)胰岛素Piaractus mesopotamicas(Pacu)		66	(P81423)胰岛素Acipenser gueldenstaedtii(俄罗斯鲟鱼)

68	(Q9W7R2)前胰岛素原{基因AB029318}Verasper moseri(条斑星鲽)
68	(Q9W7R2)前胰岛素原{基因AB029318}Verasper moseri(条斑星鲽)	69	(1603264A)胰岛素C肽Anguilla anguilla(欧洲鳗)
两栖类		69	(1603264A)胰岛素C肽Anguilla anguilla(欧洲鳗)
两栖类		70	(P12706)胰岛素1前体{基因M24443 Xenopus laevis(非洲爪蛙)
71	(P12707)胰岛素2前体{基因：M24442}Xenopus laevis(非洲爪蛙)	70	(P12706)胰岛素1前体{基因M24443 Xenopus laevis(非洲爪蛙)
71	(P12707)胰岛素2前体{基因：M24442}Xenopus laevis(非洲爪蛙)	爬行类
72	(P31887)胰岛素Trachemys scripta(红耳滑龟)	爬行类
72	(P31887)胰岛素Trachemys scripta(红耳滑龟)	73	(P12703)胰岛素Alligator mississippiensis(美洲鳄)
74	(P12708)胰岛素Zaocys dhumnades(蛇)	73	(P12703)胰岛素Alligator mississippiensis(美洲鳄)
74	(P12708)胰岛素Zaocys dhumnades(蛇)	75	(P01334)胰岛素Crotalus atrox(西方菱形背响尾蛇)
工程胰岛素人类		75	(P01334)胰岛素Crotalus atrox(西方菱形背响尾蛇)
工程胰岛素人类		76	(AAA72172)合成前胰岛素原{基因：J02547}
77	(AAA72916)合成胰岛素α链3’端{基因：AH003171或M38610}	76	(AAA72172)合成前胰岛素原{基因：J02547}
77	(AAA72916)合成胰岛素α链3’端{基因：AH003171或M38610}	78	(AAA72917)合成胰岛素β链3’端{基因：AH003171或M38611}
79	(CAA00712)合成胰岛素{基因：A07755}	78	(AAA72917)合成胰岛素β链3’端{基因：AH003171或M38611}
79	(CAA00712)合成胰岛素{基因：A07755}	80	(CAA00713)合成胰岛素{基因：A07758}
81	(CAA00714)合成胰岛素{基因：A07761}	80	(CAA00713)合成胰岛素{基因：A07758}
81	(CAA00714)合成胰岛素{基因：A07761}	82	(CAA00715)未命名蛋白质产物{基因：A07764}
83	(CAA00736)合成胰岛素原{基因：A08012}{EP 0367163-A}	82	(CAA00715)未命名蛋白质产物{基因：A07764}
83	(CAA00736)合成胰岛素原{基因：A08012}{EP 0367163-A}	84	(CAA00783)合成胰岛素{基因：A08468}(EP 0376156-A)
85	(CAA01581)修饰的胰岛素前体{基因A21951}(WO 9011299)	84	(CAA00783)合成胰岛素{基因：A08468}(EP 0376156-A)
85	(CAA01581)修饰的胰岛素前体{基因A21951}(WO 9011299)	86	(CAA01254)合成胰岛素{基因A15938}(EP0214826-A)
87	(CAA01799)Asp(B1)，Asp(B4)，Asp(B10)，Asp(B16)，Glu(B27)胰岛素合成构建体{基因：A26317}	86	(CAA01254)合成胰岛素{基因A15938}(EP0214826-A)
87		88	(CAA01798)Glu(B9)，Glu(A12)胰岛素前体合成构建体{基因：A26314}
89	(CAA23424)合成胰岛素原{基因：V00082}	88	(CAA01798)Glu(B9)，Glu(A12)胰岛素前体合成构建体{基因：A26314}
89	(CAA23424)合成胰岛素原{基因：V00082}	90	(CAA24707)合成胰岛素C链{基因：V01461}

91	(CAA25151)合成胰岛素B链{基因：X00462}
91	(CAA25151)合成胰岛素B链{基因：X00462}	92	(CAD60056)未命名合成蛋白质产物{基因：AX573757}(Pat.WO02/079250)
93	(基因：M31026)合成人胰岛素B和微型C链，使用失活硅凝胶层析法	92	(CAD60056)未命名合成蛋白质产物{基因：AX573757}(Pat.WO02/079250)
93	(基因：M31026)合成人胰岛素B和微型C链，使用失活硅凝胶层析法	94	(1BZVA)链A[d-Alab26]-Des(B27-B30)-胰岛素-B26-酰胺A-超效单一取代胰岛素类似物
95	(1BZVB)链B[d-Alab26]-Des(B27-B30)-胰岛素-B26-酰胺A-超效单一取代胰岛素类似物	94	(1BZVA)链A[d-Alab26]-Des(B27-B30)-胰岛素-B26-酰胺A-超效单一取代胰岛素类似物
95	(1BZVB)链B[d-Alab26]-Des(B27-B30)-胰岛素-B26-酰胺A-超效单一取代胰岛素类似物	96	(1HUIA)链A胰岛素突变体(B1、B10、B16、B27)glu，Des-B30，Nmr
97	(1HUIB)链B胰岛素突变体(B1、B10、B16、B27)glu，Des-B30，Nmr	96	(1HUIA)链A胰岛素突变体(B1、B10、B16、B27)glu，Des-B30，Nmr
97	(1HUIB)链B胰岛素突变体(B1、B10、B16、B27)glu，Des-B30，Nmr	98	(1HLSA)链A人胰岛素突变体-His(B16)
99	(1HLSB)链B人胰岛素突变体-His(B16)	98	(1HLSA)链A人胰岛素突变体-His(B16)
99	(1HLSB)链B人胰岛素突变体-His(B16)	100	(1JCAA)具有增强活性的不稳定胰岛素类物的链A非标准设计
101	(1JCAB)具有增强活性的不稳定胰岛素类物的链B非标准设计	100	(1JCAA)具有增强活性的不稳定胰岛素类物的链A非标准设计
101	(1JCAB)具有增强活性的不稳定胰岛素类物的链B非标准设计	102	(1JCAC)具有增强活性的不稳定胰岛素类物的链C非标准设计
103	(1JCAD)具有增强活性的不稳定胰岛素类物的链D非标准设计	102	(1JCAC)具有增强活性的不稳定胰岛素类物的链C非标准设计
103	(1JCAD)具有增强活性的不稳定胰岛素类物的链D非标准设计	104	(1J73A)具有天然活性的不稳定胰岛素类似物链A
105	(1J73B)具有天然活性的不稳定胰岛素类似物链B	104	(1J73A)具有天然活性的不稳定胰岛素类似物链A
105	(1J73B)具有天然活性的不稳定胰岛素类似物链B	106	(1J73C)具有天然活性的不稳定胰岛素类似物链C
107	(1J73D)具有天然活性的不稳定胰岛素类似物链D	106	(1J73C)具有天然活性的不稳定胰岛素类似物链C
107	(1J73D)具有天然活性的不稳定胰岛素类似物链D	108	(1KMFA)人胰岛素突变体Ile-A2-Allo-Ile，His-B10-Asp，Pro-B28-Lys，Lys-B29-Pro的链A。
109	(1KMFB)人胰岛素突变体Ile-A2-A110-Ile，His-B10-Asp，Pro-B28-Lys，Lys-B29-Pro的链B	108
109		110	(1K3MA)人胰岛素突变体Ile-A2-Ala，His-B10-Asp，Pro-B28-Lys，Lys-B29-Pro的链A
111	(1K3MB)人胰岛素突变体Ile-A2-Ala，His-B10-Asp，Pro-B28-Lys，Lys-B29-Pro的链B	110
111		112	(1LW8A)链A Allo-llea2-胰岛素，非活性手性类似物
113	(1LW8B)链B Allo-llea2-胰岛素，非活性手性类似物	112	(1LW8A)链A Allo-llea2-胰岛素，非活性手性类似物
113	(1LW8B)链B Allo-llea2-胰岛素，非活性手性类似物	114	(1LW8C)链C Allo-llea2-胰岛素，非活性手性类似物
115	(1LW8D)链D Allo-llea2-胰岛素，非活性手性类似物	114	(1LW8C)链C Allo-llea2-胰岛素，非活性手性类似物

116	(1LKQA)人胰岛素突变体Ile-A2-Gly，Val-A3-Gly，His-B10-Asp，Pro-B28-Lys，Lys-B29-Pro的链A
116		117	(1LKQB)人胰岛素突变体Ile-A2-Gly，Val-A3-Gly，His-B10-Asp，Pro-B28-Lys，Lys-B29-Pro的链B
118	(1MHIA)B9(Asp)突变体链A	117
118	(1MHIA)B9(Asp)突变体链A	119	(1MHIB)B9(Asp)突变体链B
120	(1MHJA)B25(phe)突变体链A	119	(1MHIB)B9(Asp)突变体链B
120	(1MHJA)B25(phe)突变体链A	121	(1MHJB)B25(phe)突变体链B
122	(1VKTA)链A，人胰岛素二个二硫化物模型	121	(1MHJB)B25(phe)突变体链B
122	(1VKTA)链A，人胰岛素二个二硫化物模型	123	(1VKTB)链B，人胰岛素二个二硫化物模型
非人类		123	(1VKTB)链B，人胰岛素二个二硫化物模型
非人类		124	(AAG59607)合成albebetin胰岛素{基因：AY017185}
125	(AAG59606)合成albeferon胰岛素{基因：AY017184}	124	(AAG59607)合成albebetin胰岛素{基因：AY017185}
125	(AAG59606)合成albeferon胰岛素{基因：AY017184}	胰岛素融合蛋白
人类		胰岛素融合蛋白
人类		126	(AAB27046)白介素2-胰岛素融合蛋白的N-末端
127	(AAB27047)β-半乳糖苷酶-胰岛素融合蛋白N末端	126	(AAB27046)白介素2-胰岛素融合蛋白的N-末端
127	(AAB27047)β-半乳糖苷酶-胰岛素融合蛋白N末端	128	(PC7082)表皮生长因子/Des-B30单链人胰岛素前体融合蛋白
	非人类	128	(PC7082)表皮生长因子/Des-B30单链人胰岛素前体融合蛋白
	非人类	129	(AAA72177)大肠杆菌青霉素酶/鼠胰岛素I融合蛋白5’端{基因：AH003149或J02553}
130	(AAA72178)大肠杆菌青霉素酶/鼠胰岛素I融合蛋白3’端{基因：AH003149或J02554}	129	(AAA72177)大肠杆菌青霉素酶/鼠胰岛素I融合蛋白5’端{基因：AH003149或J02553}
130	(AAA72178)大肠杆菌青霉素酶/鼠胰岛素I融合蛋白3’端{基因：AH003149或J02554}	131	{AAA72179}鼠胰岛素信号序列/大肠杆菌β-半乳糖苷酶融合蛋白{基因：J02555}
132	(AAA72181)猿猴病毒40(SV40)/鼠前胰岛素原I融合蛋白{基因：J02559}	131	{AAA72179}鼠胰岛素信号序列/大肠杆菌β-半乳糖苷酶融合蛋白{基因：J02555}
132	(AAA72181)猿猴病毒40(SV40)/鼠前胰岛素原I融合蛋白{基因：J02559}	微型胰岛素
人类		微型胰岛素
人类		133	(1EFEA)链A，活性微型胰岛素原，M2pi
134	(1JCAA)链A，具有增强活性的不稳定胰岛素类似物的非标准设计	133	(1EFEA)链A，活性微型胰岛素原，M2pi

135	(1JCAB)链B，具有增强活性的不稳定胰岛素类似物的非标准设计
135	(1JCAB)链B，具有增强活性的不稳定胰岛素类似物的非标准设计	136	(1JCAC)链C，具有增强活性的不稳定胰岛素类似物的非标准设计
137	(1JCAD)链D，具有增强活性的不稳定胰岛素类似物的非标准设计	136	(1JCAC)链C，具有增强活性的不稳定胰岛素类似物的非标准设计
137	(1JCAD)链D，具有增强活性的不稳定胰岛素类似物的非标准设计	138	(1JK8C)链C，人胰岛素肽-Hla-Dq8复合物
139	(1J73A)链A，具有天然活性的不稳定胰岛素类似物	138	(1JK8C)链C，人胰岛素肽-Hla-Dq8复合物
139	(1J73A)链A，具有天然活性的不稳定胰岛素类似物	140	(1J73B)链B，具有天然活性的不稳定胰岛素类似物
141	(1J73C)链C，具有天然活性的不稳定胰岛素类似物	140	(1J73B)链B，具有天然活性的不稳定胰岛素类似物
141	(1J73C)链C，具有天然活性的不稳定胰岛素类似物	142	(1J73D)链D，具有天然活性的不稳定胰岛素类似物
143	(1SJTA)链A，微型胰岛素原，二链胰岛素类似物突变体：DesB30，His(B10)asp，Pro(B28)asp	142	(1J73D)链D，具有天然活性的不稳定胰岛素类似物
143	(1SJTA)链A，微型胰岛素原，二链胰岛素类似物突变体：DesB30，His(B10)asp，Pro(B28)asp	144	(1SJTB)链B，微型胰岛素原，二链胰岛素类似物突变体：Des B30，His(B10)asp，Pro(B28)asp
145	(1SJU)微型胰岛素原，单链胰岛素类似物突变体：Des B30，His(B10)asp，Pro(B28)asp以及Lys B29和Gly Al间的肽键	144

序列综述

SEQ ID NO：1和2分别显示了质粒pSBS4404中的PRS-D9scFv-KLIP27-MI-KDEL融合蛋白的核苷酸序列和推定的氨基酸序列。

SEQ ID NO：3和4分别显示了质粒pSBS4405中的Oleo-KLIP8-KLIP27-MI融合蛋白的核苷酸序列和推定的氨基酸序列。

SEQ ID NO：5和6分别显示了质粒pSBS4414中的PRS-MI-四元接头-D9Scfv-KDEL融合蛋白的核苷酸序列和推定的氨基酸序列。

SEQ ID NO：7-145显示了表1内所述已知胰岛素序列。

SEQ ID NO：146-148显示了胰岛素C肽片段的氨基酸序列。

SEQ ID NO：149显示了四元处理肽的氨基酸序列。

SEQ ID NO：150-155显示了能够将胰岛素多肽保持于ER的多肽的氨基酸序列。

SEQ ID NO：156-160显示了能够将胰岛素多肽保持于ER衍生的储存细胞器的多肽的氨基酸序列。

SEQ ID NO：161显示了PRS信号序列的氨基酸序列。

SEQ ID NO：162-171显示了酵母前导序列的氨基酸序列及由此衍生的序列。

SEQ ID NO：172-173显示了间隔肽的氨基酸序列。

SEQ ID NO：174显示了KLIP8序列的氨基酸序列。

SEQ ID NO：175显示了正向引物1325的核苷酸序列，其与D9ScFv cDNA克隆的5’区互补，设计为用于在5’区加入SphI位点以方便随后的连接。

SEQ ID NO：176显示了反向引物1326的核苷酸序列，其与D9ScFv cDNA克隆的3’区互补，设计为用于在3’区加入XhoI位点以方便随后的连接。

SEQ ID NO：177显示了正向引物1324的核苷酸序列，其与反向引物1323的20核苷酸区互补，设计来形成Klip27-MI融合的5’端。

SEQ ID NO：178显示了反向引物1323的核苷酸序列，其与正向引物1324的20核苷酸区互补，设计来形成Klip27-MI融合的5’端。

SEQ ID NO：179显示了正向引物1322的核苷酸序列，其与反向引物1321的19核苷酸区互补，设计来形成Klip27-MI融合的3’端。

SEQ ID NO：180显示了反向引物1321的核苷酸序列，其与正向引物1322的19核苷酸区互补，设计来形成Klip27-MI融合的3’端。

SEQ ID NO：181显示了正向引物1364的核苷酸序列，其与Klip27-MI序列的5’区互补，设计为用于在5’区加入XhoI位点以方便随后的连接。

SEQ ID NO：182显示了反向引物1334的核苷酸序列，其与Klip27-MI序列的3’区互补，设计为用于在3’区加入HindIII位点以方便随后的连接和加入3’KDEL序列。

SEQ ID NO：183显示了反向引物1329的核苷酸序列，其与Klip27-MI序列的3’区互补，设计为用于在3’区加入HindIII位点以方便随后的连接。

SEQ ID NO：184显示了正向引物1363的核苷酸序列，其与Klip27-MI序列的5’区互补，设计为用于在5’区加入SphI位点以方便随后的连接。

SEQ ID NO：185显示了正向引物1515的核苷酸序列，其与胰岛素B链序列的5’区互补，设计为用于与反向引物1518一起在人胰岛素的可信A和B链之间插入了间插四元位点。

SEQ ID NO：186显示了反向引物1518的核苷酸序列，其与胰岛素B链序列的3’区以及胰岛素A链的5’区互补，具有间插四元微型C肽序列，设计为用于在人胰岛素的可信A和B链之间插入了间插四元位点。

SEQ ID NO：187显示了反向引物1517的核苷酸序列，其与D9scFv/KDEL序列的3’区互补，设计来扩增整个MI-四元接头-D9Scfv-KDEL以产生pSBS4414插入片段。

SEQ ID NO：188和189分别显示了质粒pSBS4401内PRS-Klip27-MI融合蛋白的核苷酸序列及推出的氨基酸序列。

SEQ ID NO：190显示了正向引物1457的核苷酸序列，其与胰岛素B链序列的5’区互补，设计来与反向引物1591一起产生人胰岛素原(hRIN)片段。

SEQ ID NO：191显示了反向引物1458的核苷酸序列，其与人胰岛素原(hPIN)的3’区互补，设计来产生人胰岛素原(hPIN)，并添加3’HindIII克隆位点。

SEQ ID NO：192显示了正向引物1455的核苷酸序列，其与pSBS4404的SphI位点的5’区互补，设计来与反向引物1456一起扩增芥油质蛋白基因。

SEQ ID NO：193显示了反向引物1456的核苷酸序列，其与芥油质蛋白基因的3’区互补，设计来与正向引物1455一起扩增芥油质蛋白基因。

SEQ ID NO：194显示了重叠桥连PCR引物的核苷酸序列，其与芥油质蛋白基因的3’区以及人胰岛素原基因的5’端互补，设计来与正向引物1455及反向引物1456一起产生pSBS4409插入片段。

SEQ ID NO：195和196分别显示了质粒pSBS4409内OLEO-hPIN融合蛋白的核苷酸序列和推出的氨基酸序列。

SEQ ID NO：1

atgaacttccttaagtctttccctttctacgctttcctttgtttcgqtcaatacttc

gttgctgttacgcatgctgacattgtgatgacacagtctccatcctccctggctatg

tcagtgggacagcgggtcactatgcgctgcaagtccagtcagagccttttaaaaagt

accaatcaaaagaactatttggcctggtaccagcagaaaccaggacagtctcctaaa

cttctggtatactttgcatccactagggaatctggggtccctgatcgcttcataggc

agtggatctgggacagatttcactcttaccatcagcagtgtgcaggctgaagacctg

gcagattacttctgtcagcaacattataacactcctcccacgttcggtgctgggacc

aagctggagcttaagcggtctccgaacggtgcttctcatagcggttctgcaccaggc

actagctctgcatctggatctcaggtgcacctgcagcagtctggagctgagctgatg

aagcctggggcctcaatgaagatatcctgcaaggctactggctacacattcagtagc

tactggatagagtgggtaaagcagaggcctggacatggccttgagtggattggagag

attttacctggcagtggtagtactacctacaatgagaagttcaagggcaaggccaca

ttcactgcagatacatcctccaacacagcctacatgcaactcagcagcctgacatct

gaggactctgccgtctattactgtgcaagattggatgttgactcctggggccaaggc

accactctcacagtctcgagtcaaccaattgatgacactgaatcccagaccacgtca

gtgaacctcatggccgatgatactgagagcgcgtttgctacacaaacaaattcggga

ggtcttgacgttgtcggattgatctccatggctaagagagaagaaggagagcctaag

tttgttaatcaacatctttgtggatctcatcttgttgaggctctctaccttgtgtgt

ggagaaagaggatttttctacactcctaaggctgctaagggaattgttgaacaatgt

tgcacttctatttgctcactttaccaattggagaactattgcaacaaggatgaactt

tga

SEQ ID NO：2

MNFLKSFPFYAFLCFGQYFVAVTHADIVMTQSPSSLAMSVGQRVTMRCKSSQSLLKS

TNQKNYLAWYQQKPGQSPKLLVYFASTRESGVPDRFIGSGSGTDFTLTISSVQAEDL

ADYFCQQHYNTPPTFGAGTKLELKRSPNGASHSGSAPGTSSASGSQVHLQQSGAELM

KPGASMKISCKATGYTFSSYWIEWVKQRPGHGLEWIGEILPGSGSTTYNEKFKGKAT

FTADTSSNTAYMQLSSLTSEDSAVYYCARLDVDSWGQGTTLTVSSQPIDDTESQTTS

VNLMADDTESAFATQTNSGGLDVVGLISMAKREEGEPKFVNQHLCGSHLVEALYLVC

GERGFFYTPKAAKGIVEQCCTSICSLYQLENYCNKDEL

SEQ ID NO：3

atggcggatacagctagaggaacccatcacgatatcatcggcagagaccagtacccgatg

atgggccgagaccgagaccagtaccagatgtccggacgaggatctgactactccaagtct

aggcagattgctaaagctgcaactgctgtcacagctggtggttccctccttgttctctcc

agccttacccttgttggaactgtcatagctttgactgttgcaacacctctgctcgttatc

ttcagcccaatccttgtcccggctctcatcacagttgcactcctcatcaccggttttctt

tcctctggagggtttggcattgccgctataaccgttttctcttggatttacgcaacggga

gagcacccacagggatcagacaagttggacagtgcaaggatgaagttgggaagcaaagct

caggatctgaaagacagagctcagtactacggacagcaacatactggtggggaacatgac

cgtgaccgtactcgtggtggccagcacactaccatggctgagatcacccgcattcctctc

tacaaaggtaagtctctccgtaaggcgctgaaggaacatggacttctagaagacttcttg

cagaaacaacagtatggcatctcgagcaagttccaaccaattgatgacactgaatcccag

accacgtcagtgaacctcatggccgatgatactgagagcgcgtttgctacacaaacaaat

tcgggaggtcttgacgttgtcggattgatctccatggctaagagagaagaaggagagcct

aagtttgttaatcaacatctttgtggatctcatcttgttgaggctctctaccttgtgtgt

ggagaaagaggatttttctacactcctaaggctgctaagggaattgttgaacaatgttgc

acttctatttgctcactttaccaattggagaactattgcaactga

SEQ ID NO：4

MADTARGTHHDIIGRDQYPMMGRDRDQYQMSGRGSDYSKSRQIAKAATAVTAGGSLLVLSSLTLVGTVI

ALTVATPLLVIFSPILVPALITVALLITGFLSSGGFGIAAITVFSWIYATG

EHPQGSDKLDSARMKLGSKAQDLKDRAQYYGQQHTGGEHDRDRTRGGQHTTMAEITRIPLYKGKSLRKA

LKEHGLLEDFLQKQQYGISSKFQPIDDTESQTTSVNLMADDTESAFATQTN

SGGLDVVGLISMAKREEGEPKFVNQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQL

ENYCN

SEQ ID NO：5

atgaacttccttaagtctttccctttctacgctttcctttgtttcggtcaatacttcgttgctgttacg

catgcctttgttaatcaacatctttgtggatctcatcttgttgaggctctctaccttgtgtgtggagaa

agaggatttttctacactcctaagactagaagaaagagaggaattgttgaacaatgttgcacttctatt

tgctcactttaccaattggagaactattgcaacagaagaaagagagacattgtgatgacacagtctcca

tcctccctggctatgtcagtgggacagcgggtcactatgcgctgcaagtccagtcagagccttttaaaa

agtaccaatcaaaagaactatttggcctggtaccagcagaaaccaggacagtctcctaaacttctggta

tactttgcatccactagggaatctggggtccctgatcgcttcataggcagtggatctgggacagatttc

actcttaccatcagcagtgtgcaggctgaagacctggcagattacttctgtcagcaacattataacact

cctcccacgttcggtgctgggaccaagttggagcttaagcggtctccgaacggtgcttctcatagcggt

tctgcaccaggcactagctctgcatctggatctcaggtgcacctgcagcagtctggagctgagctgatg

aagcctggggcctcaatgaagatatcctgcaaggctactggctacacattcagtagctactggatagag

tgggtaaagcagaggcctggacatggccttgagtggattggagagattttacctggcagtggtagtact

acctacaatgagaagttcaagggcaaggccacattcactgcagatacatcctccaacacagcctacatg

caactcagcagcctgacatctgaggactctgccgtctattactgtgcaagattggatgttgactcctgg

ggccaaggcaccactctcacagtgagctcaaaggatgagctttga

SEQ ID NO：6

MNFLKSFPFYAFLCFGQYFVAVTHAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRRKRGIVEQCCTSI

CSLYQLENYCNRRKRDIVMTQSPSSLAMSVGQRVTMRCKSSQSLLKSTNQKNYLAWYQQKPGQSPKLLV

YFASTRESGVPDRFIGSGSGTDFTLTISSVQAEDLADYFCQQHYNTPPTFGAGTKLELKRSPNGASHSG

SAPGTSSASGSQVHLQQSGAELMKPGASMKISCKATGYTFSSYWIEWVKQRPGHGLEWIGEILPGSGST

TYNEKFKGKATFTADTSSNTAYMQLSSLTSEDSAVYYCARLDVDSWGQGTTLTVSSKDEL

SEQ ID NO：7

MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRRE

AEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN

SEQ ID NO：8

EAEDPQVGEVELGGGPGLGGLQPLALAGPQQ

SEQ ID NO：9

FVNQHLCGSHLVEALYLVCGERGFFYTPKAXXEAEDPQVGEVELGGGPGLGGLQPLALAGPQQXXGIVE

QCCTGICSLYQLENYCN

SEQ ID NO：10

MASLAALLPLLALLVLCRLDPAQAFVNQHLCGSHLVEALYLVCGERGFFYTPKSRREVEELQVGQAELG

GGPGAGGLQPSALELALQKRGIVEQCCTSICSLYQLENYCN

SEQ ID NO：11

GIVEQCCTSICSLYQLENYCN

SEQ ID NO：12

GIVEQCCASTCSLYQLENYCN

SEQ ID NO：13

MALWTRLLPLLALLALWAPAPAQAFVNQHLCGSHLVEALYLVCGERGFFYTPKARRE

AENPQAGAVELGGGLGGLQALALEGPPQKRGIVEQCCTSICSLYQLENYCN

SEQ ID NO：14

GIVEQCCTGVCSLYQLENYCN

SEQ ID NO：15

MALWTRLRPLLALLALWPPPPARAFVNQHLCGSHLVEALYLVCGERGFFYTPKARRE

VEGPQVGALELAGGPGAGGLEGPPQKRGIVEQCCASVCSLYQLENYCN

SEQ ID NO：16

MALWTRLVPLLALLALWAPAPAHAFVNQHLCGSHLVEALYLVCGERGFFYTPKARRE

VEGPQVGALELAGGPGAGGLEGPPQKRGIVEQCCAGVCSLYQLENYCN

SEQ ID NO：17

GIVEQCCASVCSLYQLENYCN

SEQ ID NO：18

MALWMRLLPLLALLALWAPAPTRAFVNQHLCGSHLVEALYLVCGERGFFYTPKARRE

VEDLQVRDVELAGAPGEGGLQPLALEGALQKRGIVEQCCTSICSLYQLENYCN

SEQ ID NO：19

GIVDQCCTGVCSLYQLQNYCN

SEQ ID NO：20

MALWMHLLPLLALLALWGPEPAPAFVNQHLCGPHLVEALYLVCGERGFFYAPKTRRE

AEDLQVGQVELGGGSITGSLPPLEGPMQKRGVVDQCCTSICSLYQLQNYCN

SEQ ID NO：21

MALWMRLLPLLALLALWGPDPAPAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRRE

AEDPQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN

SEQ ID NO：22

MALWMRLLPLLALLALWGPDPVPAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRRE

AEDPQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN

SEQ ID NO：23

MALWMRLLPLLVLLALWGPDPASAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRRE

AEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN

SEQ ID NO：24

GIVEECCKGVCSMYQLENYCN

SEQ ID NO：25

CGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQ

KRGIVEQC

SEQ ID NO：26

MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRRE

AEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN

SEQ ID NO：27

FVNQHLCGPHLVEALYLVCGERGFFYAPKTGVVDQCCTSICSLYQLQNYCN

SEQ ID NO：28

MTLWMRLLPLLTLLVLWEPNPAQAFVNQHLCGSHLVEALYLVCGERGFFYTPKSRRG

VEDPQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCN

SEQ ID NO：29

MALWMRFLPLLALLVLWEPKPAQAFVKQHLCGPHLVEALYLVCGERGFFYTPKSRRE

VEDPQVPQLELGGGPEAGDLQTLALEVARQKRGIVDQCCTSICSLYQLENYCN

SEQ ID NO：30

MALWIRFLPLLALLILWEPRPAQAFVKQHLCGSHLVEALYLVCGERGFFYTPMSRRE

VEDPQVAQLELGGGPGAGDLQTLALEVARQKRGIVDQCCTSICSLYQLENYCN

SEQ ID NO：31

GIVDQCCTSICSLYQLENYCN

SEQ ID NO：32

MALLVHFLPLLALLALWEPKPTQAFVKQHLCGPHLVEALYLVCGERGFFYTPKSRRE

VEDPQVEQLELGGSPGDLQTLALEVARQKRGIVDQCCTSICSLYQLENYCN

SEQ ID NO：33

MALWMRFLPLLALLFLWESHPTQAFVKQHLCGSHLVEALYLVCGERGFFYTPMSRRE

VEDPQVAQLELGGGPGAGDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCN

SEQ ID NO：34

GIVDQCCTSICTLYQLENYCN

SEQ ID NO：35

MALWMHLLTVLALLALWGPNTGQAFVSRHLCGSNLVETLYSVCQDDGFFYIPKDRRE

LEDPQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCN

SEQ ID NO：36

MAPWMHLLTVLALLALWGPNSVQAYSSQHLCGSNLVEALYMTCGRSGFYRPHDRREL

EDLQVEQAELGLEAGGLQPSALEMILQKRGIVDQCCNNICTFNQLQNYCNVP

SEQ ID NO：37

GIVEQCCNSICSLYQLETYCN

SEQ ID NO：38

MALWILLPLLALLILWGPDPAQAFVNQHLCGSHLVEALYILVCGERGFFYTPMSRRE

VEDPQVGQVELGAGPGAGSEQTLALEVARQARIVQQCTSGICSLYQENYCN

SEQ ID NO：39

MALWMRLLPLLAFLILWEPSPAHAFVNQHLCGSHLVEALYLVCGERGFFYTPKFRRG

VDDPQMPQLELGGSPGAGDLRALALEVARQKRGIVEQCCTGICSLYQLENYCN

SEQ ID NO：40

MALWTRLLPLLALLALLGPDPAQAFVNQHLCGSHLVEALYLVCGERGFFYTPKSRRE

VEEQQGGQVELGGGPGAGLPQPLALEMALQKRGIVEQCCTSICSLYQLENYCN

SEQ ID NO：41

ELEDPQVEQTELGMGLGAGGLQPLQGALQ

SEQ ID NO：42

MALWIRSLPLLALLVFSGPGTSYAAANQHLCGSHLVEALYLVCGERGFFYSPKARRD

VEQPLVSSPLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCN

SEQ ID NO：43

AANQHLCGSHLVEALYLVCGERGFFYSPKTXXDVEQPLVNGPLHGEVGELPFQHEEY

QXXGIVEQCCENPCSLYQLENYCN

SEQID NO：44

GIVEQCCENPCSLYQLENYCN

SEQID NO：45

IQSLPLLALLALSGPGTSHAAVNQHLCGSHLVEALYLVCGERGFFYSPKARRDAEHP

LVNGPLHGEVGDLPFQQEEFEKVKRGIVEQCCHNTCSLYQLENYCN

SEQ ID NO：46

MAVWLQAGALLVLLVVSSVSTNPGTPQHLCGSHLVDALYLVCGPTGFFYNPKRDVEP

LLGFLPPKSAQETEVADFAFKDHAELIRKRGIVEQCCHKPCSIFELQNYCN

SEQ ID NO：47

MAVWIQAGALLFLLAVSSVNANAGAPQHLCGSHLVDALYLVCGPTGFFYNPKRDVDP

PLGFLPPKSAQETEVADFAFKDHAEVIRKRGIVEQCCHKPCSIFELQNYCN

SEQ ID NO：48

GIVEQCCHRPCDIFDLQSYCN

SEQ ID NO：49

GIVEQCCHKPCNIFDLQNYCN

SEQ ID NO：50

GIHZZCCHKPCBIFZLZBYCN

SEQ ID NO：51

MAALWLQSFSLLVLLVVSWPGSQAVAPAQHLCGSHLVDALYLVCGDRGFFYNPKRDV

DQLLGFLPPKSGGAAAAGADNEVAEFAFKDQMEMMVKRGIVEQCCHRPCNIFDLQNY

CN

SEQ ID NO：52

MALSPFLAAVIPLVLLLSRAPPSADTRTTGHLCGKDLVNALYIACGVRGFFYDPTKM

KRDTGALAAFLPLAYAEDNESQDDESIGINEVLKSKRGIVEQCCHKRCSIYDLENYC

N

SEQ ID NO：53

MAFWLQAASLLVLLALSPGVDAAAAQHLCGSHLVDALYLVCGEKGFFYTPKRDVDPL

IGFLSPKSAKENEEYPFKDQTEMMVKRGIVEQCCHKPCNIFDLQNYCN

SEQ ID NO：54

GIVEQCCHRPCNIRVLENYCN

SEQ ID NO：55

GIVEQCCHKPCTIYELENYCN

SEQ ID NO：56

GIVEQCCHKPCNIFDLQNYCN

SEQ ID NO：57

GIVEQCCHNTCSLANLEGYCN

SEQ ID NO：58

GIVEHCCHNTCSLYDLEGYCNQ

SEQ ID NO：59

GIVEHCCHNTCSLFDLEGYCN

SEQ ID NO：60

VPTQRLCGSHLVDALYFVCGERGFFYSPKQIRDVGPLSAFRDLEPPLDTEMEDRFPY

RQQLAGSKMKRGIVEQCCHNTCSLVNLEGYCN

SEQ ID NO：61

GIVEQCCHRKCSIYDMENYCN

SEQ ID NO：62

GIVEQCCHKPCNIFDLQNYCN

SEQ ID NO：63

GIVEQCCLKPCTIYEMEKYCN

SEQ ID NO：64

GIVEQCCHKPCSIFDLQNYCN

SEQ ID NO：65

MAALWLQAFSLLVLMMVSWPGSQAVGGPQHLCGSHLVDALYLVCGDRGFFYNPRRDV

DPLLGFLPPKAGGAVVQGGENEVTFKDQMEMMVKRGIVEECCHKPCTIFDLQNYCN

SEQ ID NO：66

GIVEQCCHSPCSLYDLENYCN

SEQ ID NO：67

GIVEQCCHKPCSIFDLQNYCN

SEQ ID NO：68

MAALWLQSVSLLVLMLVSWSGSQAVLPPQHLCGAHLVDALYLVCGERGFFYTPKRDV

DPLLGFLPAKSGGAAAGGENEVAEFAFKDQMEMMVKRGIVEQCCHKPCNIFDLQNYC

N

SEQ ID NO：69

DVEPLLGFLSPKSGQENEVDDFPYKGQGEL

SEQ ID NO：70

MALWMQCLPLVLVLFFSTPNTEALVNQHLCGSHLVEALYLVCGDRGFFYYPKVKRDM

EQALVSGPQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCN

SEQ ID NO：71

MALWMQCLPLVLVLLFSTPNTEALANQHLCGSHLVEALYLVCGDRGFFYYPKIKRDI

EQAQVNGPQDNELDGMQFQPQEYQKMKRGIVEQCCHSTCSLFQLENYCN

SEQ ID NO：72

GIVEQCCHNTCSLYQLENYCN

SEQ ID NO：73

GIVEQCCHNTCSLYQLENYCN

SEQ ID NO：74

GIVEQCCENTCSLYELENYCN

SEQ ID NO：75

GIVEQCCENTCSLYQLENYCN

SEQ ID NO：76

MGLWIRLLPLIALLILWGPDPAAAEFRMFVNQHLCGSHLVEALYLVCGERGFFYTPK

TRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN

SEQ ID NO：77

GIVEQCCTSICSLYQLENYCN

SEQ ID NO：78

FVNQHLCGSHLVEALYLVCGERGFFYTPKT

SEQ ID NO：79

FVDQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYELEDYCN

SEQ ID NO：80

FVEQHLCGSDLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLEEYCN

SEQ ID NO：81

FVQQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLENYCG

SEQ ID NO：82

FVTQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLEHYCS

SEQ ID NO：83

NSNGKFVNQHLCGSHLVEALYLVCGERGFFYTPKTKGIVEQCCTSICSLYQLENYCN

SEQ ID NO：84

NSNGKFVNQHLCGSHLVEALYLVCGERGFFYTPKTKRGIVEQCCTSICSLYQLENYC

N

SEQ ID NO：85

FVNQHLCGSHLVEALYLVCGERGFFYTPKGIVEQCCTSICSLYQLENYCN

SEQ ID NO：86

RFVNQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLENYCN

SEQ ID NO：87

KETLTITCAVPTWLKLWTWFAVKEVSSTNLRLLRVLSNNAVPPSAPCTNWKTTATRR

SPQA

SEQ ID NO：88

KDSLTNTCAVSTWLKLCTWFAVKEVSSTLLRLLRVLSNNAVPPSANYTNWKTTATRR

SPQA

SEQ ID NO：89

MFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPL

ALEGSLQKRGIVEQCCTSICSLYQLENYCN

SEQ ID NO：90

RREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKR

SEQ ID NO：91

GPETLCGAELVDALQFVCGDRGF

SEQ ID NO：92

MKLKTVRSAVLSSLFASQVLGQPIDDTESQTTSVNLMADDTESAFATQTNSGGLDVV

GLISMAKREEGEPKFVNQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSIC

SLYQLENYCN

SEQ ID NO：93

tttgtcaatcagcacctttgtggttctcacctggtggaggctctgtacctggtgtgt

ggggaacgtggtttcttctacacacccaagacccgtcgtaagcttaagcgtggcatt

gtggagcagtgctgcaccagcatctgctccctctaccaactggagaactactgcaac

SEQ ID NO：94

GIVEQCCTSICSLYQLENYCN

SEQ ID NO：95

FVNQHLCGSHLVEALYLVCGERGFFX

SEQ ID NO：96

GIVEQCCTSICSLYQLENYCN

SEQ ID NO：97

EVNQHLCGSELVEALELVCGERGFFYEPK

SEQ ID NO：98

GIVEQCCTSICSLYQLENYCN

SEQ ID NO：99

FVNQHLCGSHLVEALHLVCGERGFFYTPKT

SEQ ID NO：100

GIVEQCCKSICSLYQLENYCN

SEQ ID NO：101

FVNQHLCGSHLVEALYLVCGERGFFYTPKT

SEQ ID NO：102

GIVEQCCKSICSLYQLENYCN

SEQ ID NO：103

FVNQHLCGSHLVEALYLVCGERGFFYTPKT

SEQ ID NO：104

GIVEQCCXSICSLYQLENYCN

SEQ ID NO：105

FVNQHLCGSHLVEALYLVCGERGFFYTPKT

SEQ ID NO：106

GIVEQCCXSICSLYQLENYCN

SEQ ID NO：107

FVNQHLCGSHLVEALYLVCGERGFFYTPKT

SEQ ID NO：108

GXVEQCCTSICSLYQLENYCN

SEQ ID NO：109

FVNQHLCGSDLVEALYLVCGERGFFYTKPT

SEQ ID NO：110

GAVEQCCTSICSLYQLENYCN

SEQ ID NO：111

FVNQHLCGSDLVEALYLVCGERGFFYTKPT

SEQ ID NO：112

GXVEQCCTSICSLYQLENYCN

SEQ ID NO：113

FVNQHLCGSHLVEALYLVCGERGFFYTPKT

SEQ ID NO：114

GXVEQCCTSICSLYQLENYCN

SEQ ID NO：115

FVNQHLCGSHLVEALYLVCGERGFFYTPKT

SEQ ID NO：116

GGGEQCCTSICSLYQLENYCN

SEQ ID NO：117

FVNQHLCGSDLVEALYLVCGERGFFYTKPT

SEQ ID NO：118

XIVEQCCTSICSLYQLENYCN

SEQ ID NO：119

XVNQHLCGDHLVEALYLVCGERGFFYTPKT

SEQ ID NO：120

GIVEQCCTSICSLYQLENYCN

SEQ ID NO：121

FVNQHLCGSHLVEALYLVCGERGFYTPKT

SEQ ID NO：122

GIVEQSCTSISSLYQLENYCN

SEQ ID NO：123

FVNQHLCGSDLVEALYLVCGERGFFYTKPT

SEQ ID NO：124

MDPGDPECLEQLLRRLGGSVEVEVTGGTVHVEVSPEDPGDPECLEQLLRRLGGSVEV

EVTGGTVHVEVSPGERGFFYCN

SEQ ID NO：125

MLKEKKYSPDPGDPECLEQLLRRLGGSVEVEVTGGTVHVEVSPEDPGDPECLEQLLR

RLGGSVEVEVTGGTVHVEVSPGERGFFYCN

SEQ ID NO：126

MATSXSTKKTQLQLEHLXLDLQM

SEQ ID NO：127

TMITDSLAVVLQRXDWXPGVTQL

SEQ ID NO：128

NSVLASALALTVAPMAFANSDSESPLSHDGYSLHDGVSMYIEALDKFVNQHLCGSHL

VEALYLVCGERGFFYTPKGIVEQCCTSICSLYQLENYCN

SEQ ID NO：129

DTTMPAGGGGGGQHLCGPHLVEALY

SEQ ID NO：130

LENYCN

SEQ ID NO：131

MTMITDSLEFQAWGGGGGWMRF

SEQ ID NO：132

MVLRFLPLLALLVLWEPKPAQA

SEQ ID NO：133

FVNQHLCGSHLVEALYLVCGERGFFYTPKTRRYPGDVKRGIVEQCCTSICSLYQLEN

YCN

SEQ ID NO：134

GIVEQCCKSICSLYQLENYCN

SEQ ID NO：135

FVNQHLCGSHLVEALYLVCGERGFFYTPKT

SEQ ID NO：136

GIVEQCCKSICSLYQLENYCN

SEQ ID NO：137

FVNQHLCGSHLVEALYLVCGERGFFYTPKT

SEQ ID NO：138

LVEALYLVCGERGG

SEQ ID NO：139

GIVEQCCXSICSLYQLENYCN

SEQ ID NO：140

FVNQHLCGSHLVEALYLVCGERGFFYTPKT

SEQ ID NO：141

GIVEQCCXSICSLYQLENYCN

SEQ ID NO：142

FVNQHLCGSHLVEALYLVCGERGFFYTPKT

SEQ ID NO：143

GIVEQCCTSICSLYQLENYCN

SEQ ID NO：144

FVNQHLCGSDLVEALYLVCGERGFFYTDK

SEQ ID NO：145

FVNQHLCGSDLVEALYLVCGERGFFYTDKGIVEQCCTSICSLYQLENYCN

SEQ ID NO：146

AAK

SEQ ID NO：147

NKR

SEQ ID NO：148

RRKQKR

SEQ ID NO：149

RRKR

SEQ ID NO：150

KDEL

SEQ ID NO：151

HDEL

SEQ ID NO：152

DDEL

SEQ ID NO：153

ADEL

SEQ ID NO：154

SDEL

SEQ ID NO：155

HDEF

SEQ ID NO：156

Met Ala Asp Thr Ala Arg Gly Thr His His Asp Ile Ile Gly Arg Asp

1 5 10 15

Gln Tyr Pro Met Met Gly Arg Asp Arg Asp Gln Tyr Gln Met Ser Gly

20 25 30

Arg Gly Ser Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Ala Thr

35 40 45

Ala Val Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu

50 55 60

Val Gly Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile

65 70 75 80

Phe Ser Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile

85 90 95

Thr Gly Phe Leu Ser Ser Gly Gly Phe Gly Ile Ala Ala Ile Thr Val

100 105 110

Phe Ser Trp Ile Tyr Lys

115

SEQ ID NO：157

Met Ala Asp Thr Ala Arg Thr His His Asp Val Thr Ser Arg Asp Gln

1 5 10 15

Tyr Pro Arg Asp Arg Asp Gln Tyr Ser Met Ile Gly Arg Asp Arg Asp

20 25 30

Gln Tyr Ser Met Met Gly Arg Asp Arg Asp Gln Tyr Asn Met Tyr Gly

35 40 45

Arg Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Val Thr Ala Val

50 55 60

Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu Val Gly

65 70 75 80

Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile Phe Ser

85 90 95

Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile Thr Gly

100 105 110

Phe Leu Ser Ser Gly Gly Phe Ala Ile Ala Ala Ile Thr Val Phe Ser

115 120 125

Trp Ile Tyr Lys Tyr Ala Thr Gly Glu His Pro Gln Gly Ser Asp Lys

130 135 140

Leu Asp Ser Ala Arg Met Lys Leu Gly Thr Lys Ala Gln Asp Ile Lys

145 150 155 160

Asp Arg Ala Gln Tyr Tyr Gly Gln Gln His Thr Gly Gly Glu His Asp

165 170 175

Arg Asp Arg Thr Arg Gly Gly Gln His Thr Thr

180 185

SEQ ID NO：158

taccatgggg tcaaagacgg agatgatgga gagagacgca atggctacgg tggctcccta 60

tgcgccggtc acttaccatc gccgtgctcg tgttgacttg gatgatagac ttcctaaacc 120

ttatatgcca agagcattgc aagcaccaga cagagaacac ccgtacggaa ctccaggcca 180

taagaattac ggacttagtg ttcttcaaca gcatgtctcc ttcttcgata tcgatgataa 240

tggcatcatt tacccttggg agacctactc tggactgcga atgcttggtt tcaatatcat 300

tgggtcgctt ataatagccg ctgttatcaa cctgaccctt agctatgcca ctcttccggg 360

gtggttacct tcacctttct tccctatata catacacaac atacacaagt caaagcatgg 420

aagtgattca aaaacatatg acaatgaagg aaggtttatg ccggtgaatc ttgagttgat 480

atttagcaaa tatgcgaaaa ccttgccaga caagttgagt cttggagaac tatgggagat 540

gacagaagga aaccgtgacg cttgggacat ttttggatgg atcgcaggca aaatagagtg 600

gggactgttg tacttgctag caagggatga agaagggttt ttgtcaaaag aagctattag 660

gcggtgtttc gatggaagct tgttcgagta ctgtgccaaa atctacgctg gtatcagtga 720

agacaagaca gcatactacg ccatggat 748

SEQ ID NO：159

atggggtcaa agacggagat gatggagaga gacgcaatgg ctacggtggc tccctatgcg 60

ccggtcactt accaccgccg tgctcgtgtt gacttggatg atagacttcc taaaccttat 120

atgccaagag cattgcaagc accagacaga gaacacccgt acggaactcc aggccataag 180

aattacggac ttagtgttct tcaacagcat gtctccttct tcgatatcga tgataatggc 240

atcatttacc cttgggagac ctactctgga ctgcgaatgc ttggtttcaa tatcattggg 300

tcgcttataa tagccgctgt tatcaacctg acccttagct atgccactct tccggggtgg 360

ttaccttcac ctttcttccc tatatacata cacaacatac acaagtcaaa gcatggaagt 420

gattcaaaaa catatgacaa tgaaggaagg tttatgccgg tgaatcttga gttgatattt 480

agcaaatatg cgaaaacctt gccagacaag ttgagtcttg gagaactatg ggagatgaca 540

gaaggaaacc gtgacgcttg ggacattttt ggatggatcg caggcaaaat agagtgggga 600

ctgttgtact tgctagcaag ggatgaagaa gggtttttgt caaaagaagc tattaggcgg 660

tgtttcgatg gaagcttgtt cgagtactgt gccaaaatct acgctggtat cagtgaagac 720

aagacagcat actactaa 738

SEQ ID NO：160

ATGGATCTAATCCACACTTTCCTCAACTTAATAGCTCCCCCTTTCACCTTCTTCTTC

CTTCTCTTTTTCTTGCCACCCTTCCAGATTTTCAAGTTCTTCCTTTCAATCTTGGGC

ACCCTTTTCAGCGAGGATGTCGCTGGAAAAGTCGTCGTCATCACCGGCGCCTCCTCC

GGCATCGGCGAAAGTCTTGCTTACGAGTATGCTAAGAGAGGGGCGTGCTTGGTGCTT

GCTGCAAGAAGGGAAAGGAGTCTTCAAGAAGTGGCCGAAAGGGCGCGCGATTTGGGG

TCGCCGGACGTCGTGGTGGTCCGGGCCGATGTTTCGAAGGCGGAGGACTGCAGGAAG

GTTGTTGATCAGACTATGAATCGCTTTGGAAGATTGGATCACCTGGTCAATAACGCT

GGAATTATGTCAGTTTCAATGCTGGAAGAAGTTGAAGATATTACTGGTTACAGAGAA

ACTATGGATATCAACTTCTGGGGCTATGTGTATATGACCCGATTTGCCGCCCCATAC

CTTAGGAATAGCAGAGGCCGAATTGTTGTACTTTCTTCATCCAGTTCTTGGATGCCT

ACTCCGAGGATGAGTTTTTACAATGCAAGCAAAGCGGCGATTTCACAATTTTTTGAG

ACACTGCGGGTGGAATTCGGCCCCGATATAGGCATAACCCTTGTGACTCCAGGATTC

ATAGAATCTGAACTTACCCAAGGCAAATTCTACAATGCTGGCGAACGTGTAATTGAT

CAGGACATGAGAGATGTACAAGTGAGCACGACTCCAATCCTGAGGGTGGAAAGTGCG

GCAAGGTCAATCGTGAGGAGCGCGATCCGTGGAGAAAGATACGTGACAGAGCCGGCC

TGGTTTAGGGTTACTTATTGGTGGAAGCTATTCTGCCCTGAGGTGATGGAGTGGGTA

TTTAGACTGATGTACTTGGCCAGCCCGGGTGAGCCGGAGAAGGAAACGTTTGGCAAG

AAGGTTTTGGATTACACAGGAGTGAAGTCCTTGCTTTACCCGGAAACCGTGCAAGTT

CCGGAGCCCAAGAATGATTAA

SEQ ID NO：161

MNFLKSFPFYAFLCFGQYFVAVTHA

SEQ ID NO：162

APVNTTEDETAQAEAVIGYSDLEGDFDVAVLPFSNSTNNGLLFIBTTIASIAAKEEG

VSLMAKR

SEQ ID NO：163

APVNTTEDETAQAEAVIGYSDLEGDFDVAVLPFSNSTNNGLLFIBTTIASIAAKEEG

VSMAKR

SEQ ID NO：164

QPIDEDNDTSSMAKR

SEQ ID NO：165

QPIDDTESNTTSVNLMADDTEDRFATNTTLALDVVNLISMAKR

SEQ ID NO：166

QPIDDTESQTTSVNLMADDTEDRFATQTTLALDVVNLISMAKR

SEQ ID NO：167

QPIDDTESQTTSVNLMADDTEDRFATQTTLALDVVNLISMAAA

SEQ ID NO：168

QPIDDTESNTTSVNLMADDTEDRFATNTTIALDVVNLISMAAA

SEQ ID NO：169

QPIDDTESNTTSVNLMADDTEDRFATNTTLAGGLDVVNLISMAKR

SEQ ID NO：170

QPIDDTESQTTSVNLMADDTESAFATQTNSGGLDVVGLISMAKR

SEQ ID NO：171

QPIDDTESQTTSVNLMADDTESAFATQTNSGGLDVVGLISMAAA

SEQ ID NO：172

EEAEAEAEPK

SEQ ID NO：173

EEGEPK

SEQ ID NO：174

MAEITRIPLYKGKSLRKALKEHGLLEDFLQKQQYGISSKF

SEQ ID NO：175

GCATGCTGACATTGTGATGACACAGTC

SEQ ID NO：176

AAGCTTGCATTTAAATACTCGAGACTGTGAGAGTGGTGCCTTG

SEQ ID NO：177

GAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTTTGTGGATCTCATCTTGTTGAG

GCTCTCTACCTTG

SEQ ID NO：178

CCTTAGGAGTGTAGAAAAATCCTCTTTCTCCACACACAAGGTAGAGAGCCTCAACA

SEQ ID NO：179

CTAAGGCTGCTAAGGGAATTG

SEQ ID NO：180

AAGCTTCAGTTGCAATAGTTCTCCAATTGGTAAAGTGAGCAAATAGAAGTGCAACAT

TGTTCAACAATTCCCTTAGCAGCCTT

SEQ ID NO：181

CTCGAGTCAACCAATTGATGACACTGAATC

SEQ ID NO：182

AAGCTTCAAAGTTCATCCTTGTTGCAATAGTTCTCCAATTG

SEQ ID NO：183

AAGCTTCAGTTGCAATAGTTC

SEQ ID NO：184

GCATGCCCAACCAATTGATGACACTG

SEQ ID NO：185

GCATGCATGCCTTTGTTAATCAACATCTTTGTGG

SEQ ID NO：186

ACATTGTTCAACAATTCCTCTCTTTCTTCTAGTCTTAGGAGTGTAGAAAAATCC

SEQ ID NO：187

GCATAAGCTTCAAAGCTCATCCTTTGAGC

SEQ ID NO：188

ATGAACTTCCTTAAGTCTTTCCCTTTCTACGCTTTCCTTTGTTTCGGTCAATACTTCGTTGCT

GTTACGCATGCCCAACCAATTGATGACACTGAATCCCAGACCACGTCAGTGAACCTCATG

GCCGATGATACTGAGAGCGCGTTTGCTACACAAACAAATTCGGGAGGTCTTGACGTTGTC

GGATTGATCTCCATGGCTAAGAGAGAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTT

TGTGGATCTCATCTTGTTGAGGCTCTCTACCTTGTGTGTGGAGAAAGAGGATTTTTCTACA

CTCCTAAGGCTGCTAAGGGAATTGTTGAACAATGTTGCACTTCTATTTGCTCACTTTACCA

ATTGGAGAACTATTGCAACTGA

SEQ ID NO：189

MNFLKSFPFYAFLCFGQYFVAVTHAQPIDDTESQTTSVNLMADDTESAFATQTNSGGLDVVGL

ISMAKREEGEPKFVNQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLENY

CN

SEQ ID NO：190

TTCGTGAACCAACACTTG

SEQ ID NO：191

AAGCTTTCAGTTACAGTAGT

SEQ ID NO：192

GCATGCATGTGTTGAGC

SEQ ID NO：193

GGTAGTGTGCTGGCCA

SEQ ID NO：194

GGTGGCCAGCACACTACCTTCGTGAACCAACACTTGTG

SEQ ID NO：195

ATGGCGGATACAGCTAGAGGAACCCATCACGATATCATCGGCAGAGACCAGTACCCGATG

ATGGGCCGAGACCGAGACCAGTACCAGATGTCCGGACGAGGATCTGACTACTCCAAGTCT

AGGCAGATTGCTAAAGCTGCAACTGCTGTCACAGCTGGTGGTTCCCTCCTTGTTCTCTCCA

GCCTTACCCTTGTTGGAACTGTCATAGCTTTGACTGTTGCAACACCTCTGCTCGTTATCTTC

AGCCCAATCCTTGTCCCGGCTCTCATCACAGTTGCACTCCTCATCACCGGTTTTCTTTCCTC

TGGAGGGTTTGGCATTGCCGCTATAACCGTTTTCTCTTGGATTTACAAGTAAGCACACATT

TATCATCTTACTTCATAATTTTGTGCAATATGTGCATGCATGTGTTGAGCCAGTAGCTTTGG

ATCAATTTTTTTGGTAGAATAACAAATGTAACAATAAGAAATTGCAAATTCTAGGGAACA

TTTGGTTAACTAAATACGAAATTTGACCTAGCTAGCTTGAATGTGTCTGTGTATATCATCT

ATATAGGTAAAATGCTTGGTATGATACCTATTGATTGTGAATAGGTACGCAACGGGAGAG

CACCCACAGGGATCAGACAAGTTGGACAGTGCAAGGATGAAGTTGGGAAGCAAAGCTCA

GGATCTGAAAGACAGAGCTCAGTACTACGGACAGCAACATACTGGTGGGGAACATGACC

GTGACCGTACTCGTGGTGGCCAGCACACTACCTTCGTGAACCAACACTTGTGTGGATCTCA

TCTCGTTGAAGCTCTCTACTTGGTTTGTGGTGAGAGAGGATTCTTCTACACTCCTAAGACC

AGAAGGGAAGCTGAGGACTTGCAGGTGGGACAAGTTGAGTTGGGTGGAGGTCCTGGAGC

AGGATCTTTGCAACCTCTCGCTTTGGAAGGTTCTTTGCAGAAGAGAGGAATCGTTGAACA

ATGTTGCACTTCAATCTGTTCTTTGTATCAGTTGGAGAACTACTGTAACTGA

SEQ ID NO：196

MADTARGTHHDIIGRDQYPMMGRDRDQYQMSGRGSDYSKSRQIAKAATAVTAGGSLLVLSS

LTLVGTVIALTVATPLLVIFSPILVPALITVALLITGFLSSGGFGIAAITVFSWIYATGEHPQGSDK

LDSARMKLGSKAQDLKDRAQYYGQQHTGGEHDRDRTRGGQHTTFVNQHLCGSHLVEALYL

VCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQ

LENYCN

序列表

<110>赛姆生物系统遗传公司

<120>在植物中生产胰岛素的方法

<130>9369-296

<150>60/478,818

<151>2003-06-17

<150>60/549,539

<151>2004-03-04

<160>196

<170>PatentIn version 3.1

<210>1

<211>1143

<212>DNA

<213>Artificial Sequence

<220>

<223>Insulin fusion protein nucleic acid sequence

<400>1

atgaacttcc ttaagtcttt ccctttctac gctttccttt gtttcggtca atacttcgtt 60

gctgttacgc atgctgacat tgtgatgaca cagtctccat cctccctggc tatgtcagtg 120

ggacagcggg tcactatgcg ctgcaagtcc agtcagagcc ttttaaaaag taccaatcaa 180

aagaactatt tggcctggta ccagcagaaa ccaggacagt ctcctaaact tctggtatac 240

tttgcatcca ctagggaatc tggggtccct gatcgcttca taggcagtgg atctgggaca 300

gatttcactc ttaccatcag cagtgtgcag gctgaagacc tggcagatta cttctgtcag 360

caacattata acactcctcc cacgttcggt gctgggacca agctggagct taagcggtct 420

ccgaacggtg cttctcatag cggttctgca ccaggcacta gctctgcatc tggatctcag 480

gtgcacctgc agcagtctgg agctgagctg atgaagcctg gggcctcaat gaagatatcc 540

tgcaaggcta ctggctacac attcagtagc tactggatag agtgggtaaa gcagaggcct 600

ggacatggcc ttgagtggat tggagagatt ttacctggca gtggtagtac tacctacaat 660

gagaagttca agggcaaggc cacattcact gcagatacat cctccaacac agcctacatg 720

caactcagca gcctgacatc tgaggactct gccgtctatt actgtgcaag attggatgtt 780

gactcctggg gccaaggcac cactctcaca gtctcgagtc aaccaattga tgacactgaa 840

tcccagacca cgtcagtgaa cctcatggcc gatgatactg agagcgcgtt tgctacacaa 900

acaaattcgg gaggtcttga cgttgtcgga ttgatctcca tggctaagag agaagaagga 960

gagcctaagt ttgttaatca acatctttgt ggatctcatc ttgttgaggc tctctacctt 1020

gtgtgtggag aaagaggatt tttctacact cctaaggctg ctaagggaat tgttgaacaa 1080

tgttgcactt ctatttgctc actttaccaa ttggagaact attgcaacaa ggatgaactt 1140

tga 1143

<210>2

<211>380

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin fusion protein

<400>2

Met Asn Phe Leu Lys Ser Phe Pro Phe Tyr Ala Phe Leu Cys Phe Gly

1 5 10 15

Gln Tyr Phe Val Ala Val Thr His Ala Asp Ile Val Met Thr Gln Ser

20 25 30

Pro Ser Ser Leu Ala Met Ser Val Gly Gln Arg Val Thr Met Arg Cys

35 40 45

Lys Ser Ser Gln Ser Leu Leu Lys Ser Thr Asn Gln Lys Asn Tyr Leu

50 55 60

Ala Trp Tyr Gln Gln Lys Pro Gly Gln Ser Pro Lys Leu Leu Val Tyr

65 70 75 80

Phe Ala Ser Thr Arg Glu Ser Gly Val Pro Asp Arg Phe Ile Gly Ser

85 90 95

Gly Ser Gly Thr Asp Phe Thr Leu Thr Ile Ser Ser Val Gln Ala Glu

100 105 110

Asp Leu Ala Asp Tyr Phe Cys Gln Gln His Tyr Asn Thr Pro Pro Thr

115 120 125

Phe Gly Ala Gly Thr Lys Leu Glu Leu Lys Arg Ser Pro Asn Gly Ala

130 135 140

Ser His Ser Gly Ser Ala Pro Gly Thr Ser Ser Ala Ser Gly Ser Gln

145 150 155 160

Val His Leu Gln Gln Ser Gly Ala Glu Leu Met Lys Pro Gly Ala Ser

165 170 175

Met Lys Ile Ser Cys Lys Ala Thr Gly Tyr Thr Phe Ser Ser Tyr Trp

180 185 190

Ile Glu Trp Val Lys Gln Arg Pro Gly His Gly Leu Glu Trp Ile Gly

195 200 205

Glu Ile Leu Pro Gly Ser Gly Ser Thr Thr Tyr Asn Glu Lys Phe Lys

210 215 220

Gly Lys Ala Thr Phe Thr Ala Asp Thr Ser Ser Asn Thr Ala Tyr Met

225 230 235 240

Gln Leu Ser Ser Leu Thr Ser Glu Asp Ser Ala Val Tyr Tyr Cys Ala

245 250 255

Arg Leu Asp Val Asp Ser Trp Gly Gln Gly Thr Thr Leu Thr Val Ser

260 265 270

Ser Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val Asn Leu

275 280 285

Met Ala Asp Asp Thr Glu Ser Ala Phe Ala Thr Gln Thr Asn Ser Gly

290 295 300

Gly Leu Asp Val Val Gly Leu Ile Ser Met Ala Lys Arg Glu Glu Gly

305 310 315 320

Glu Pro Lys Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu

325 330 335

Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys

340 345 350

Ala Ala Lys Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu

355 360 365

Tyr Gln Leu Glu Asn Tyr Cys Asn Lys Asp Glu Leu

370 375 380

<210>3

<211>945

<212>DNA

<213>Artificial Sequence

<220>

<223>Insulin fusion protein nucleic acid sequence

<400>3

atggcggata cagctagagg aacccatcac gatatcatcg gcagagacca gtacccgatg 60

atgggccgag accgagacca gtaccagatg tccggacgag gatctgacta ctccaagtct 120

aggcagattg ctaaagctgc aactgctgtc acagctggtg gttccctcct tgttctctcc 180

agccttaccc ttgttggaac tgtcatagct ttgactgttg caacacctct gctcgttatc 240

ttcagcccaa tccttgtccc ggctctcatc acagttgcac tcctcatcac cggttttctt 300

tcctctggag ggtttggcat tgccgctata accgttttct cttggattta cgcaacggga 360

gagcacccac agggatcaga caagttggac agtgcaagga tgaagttggg aagcaaagct 420

caggatctga aagacagagc tcagtactac ggacagcaac atactggtgg ggaacatgac 480

cgtgaccgta ctcgtggtgg ccagcacact accatggctg agatcacccg cattcctctc 540

tacaaaggta agtctctccg taaggcgctg aaggaacatg gacttctaga agacttcttg 600

cagaaacaac agtatggcat ctcgagcaag ttccaaccaa ttgatgacac tgaatcccag 660

accacgtcag tgaacctcat ggccgatgat actgagagcg cgtttgctac acaaacaaat 720

tcgggaggtc ttgacgttgt cggattgatc tccatggcta agagagaaga aggagagcct 780

aagtttgtta atcaacatct ttgtggatct catcttgttg aggctctcta ccttgtgtgt 840

ggagaaagag gatttttcta cactcctaag gctgctaagg gaattgttga acaatgttgc 900

acttctattt gctcacttta ccaattggag aactattgca actga 945

<210>4

<211>314

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin fusion protein

<400>4

Met Ala Asp Thr Ala Arg Gly Thr His His Asp Ile Ile Gly Arg Asp

1 5 10 15

Gln Tyr Pro Met Met Gly Arg Asp Arg Asp Gln Tyr Gln Met Ser Gly

20 25 30

Arg Gly Ser Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Ala Thr

35 40 45

Ala Val Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu

50 55 60

Val Gly Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile

65 70 75 80

Phe Ser Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile

85 90 95

Thr Gly Phe Leu Ser Ser Gly Gly Phe Gly Ile Ala Ala Ile Thr Val

100 105 110

Phe Ser Trp Ile Tyr Ala Thr Gly Glu His Pro Gln Gly Ser Asp Lys

115 120 125

Leu Asp Ser Ala Arg Met Lys Leu Gly Ser Lys Ala Gln Asp Leu Lys

130 135 140

Asp Arg Ala Gln Tyr Tyr Gly Gln Gln His Thr Gly Gly Glu His Asp

145 150 155 160

Arg Asp Arg Thr Arg Gly Gly Gln His Thr Thr Met Ala Glu Ile Thr

165 170 175

Arg Ile Pro Leu Tyr Lys Gly Lys Ser Leu Arg Lys Ala Leu Lys Glu

180 185 190

His Gly Leu Leu Glu Asp Phe Leu Gln Lys Gln Gln Tyr Gly Ile Ser

195 200 205

Ser Lys Phe Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val

210 215 220

Asn Leu Met Ala Asp Asp Thr Glu Ser Ala Phe Ala Thr Gln Thr Asn

225 230 235 240

Ser Gly Gly Leu Asp Val Val Gly Leu Ile Ser Met Ala Lys Arg Glu

245 250 255

Glu Gly Glu Pro Lys Phe Val Asn Gln His Leu Cys Gly Ser His Leu

260 265 270

Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr

275 280 285

Pro Lys Ala Ala Lys Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys

290 295 300

Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

305 310

<210>5

<211>1011

<212>DNA

<213>Artificial Sequence

<220>

<223>Insulin fusion protein nucleic acid sequence

<400>5

atgaacttcc ttaagtcttt ccctttctac gctttccttt gtttcggtca atacttcgtt 60

gctgttacgc atgcctttgt taatcaacat ctttgtggat ctcatcttgt tgaggctctc 120

taccttgtgt gtggagaaag aggatttttc tacactccta agactagaag aaagagagga 180

attgttgaac aatgttgcac ttctatttgc tcactttacc aattggagaa ctattgcaac 240

agaagaaaga gagacattgt gatgacacag tctccatcct ccctggctat gtcagtggga 300

cagcgggtca ctatgcgctg caagtccagt cagagccttt taaaaagtac caatcaaaag 360

aactatttgg cctggtacca gcagaaacca ggacagtctc ctaaacttct ggtatacttt 420

gcatccacta gggaatctgg ggtccctgat cgcttcatag gcagtggatc tgggacagat 480

ttcactctta ccatcagcag tgtgcaggct gaagacctgg cagattactt ctgtcagcaa 540

cattataaca ctcctcccac gttcggtgct gggaccaagt tggagcttaa gcggtctccg 600

aacggtgctt ctcatagcgg ttctgcacca ggcactagct ctgcatctgg atctcaggtg 660

cacctgcagc agtctggagc tgagctgatg aagcctgggg cctcaatgaa gatatcctgc 720

aaggctactg gctacacatt cagtagctac tggatagagt gggtaaagca gaggcctgga 780

catggccttg agtggattgg agagatttta cctggcagtg gtagtactac ctacaatgag 840

aagttcaagg gcaaggccac attcactgca gatacatcct ccaacacagc ctacatgcaa 900

ctcagcagcc tgacatctga ggactctgcc gtctattact gtgcaagatt ggatgttgac 960

tcctggggcc aaggcaccac tctcacagtg agctcaaagg atgagctttg a 1011

<210>6

<211>336

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin fusion protein

<400>6

Met Asn Phe Leu Lys Ser Phe Pro Phe Tyr Ala Phe Leu Cys Phe Gly

1 5 10 15

Gln Tyr Phe Val Ala Val Thr His Ala Phe Val Asn Gln His Leu Cys

20 25 30

Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly

35 40 45

Phe Phe Tyr Thr Pro Lys Thr Arg Arg Lys Arg Gly Ile Val Glu Gln

50 55 60

Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

65 70 75 80

Arg Arg Lys Arg Asp Ile Val Met Thr Gln Ser Pro Ser Ser Leu Ala

85 90 95

Met Ser Val Gly Gln Arg Val Thr Met Arg Cys Lys Ser Ser Gln Ser

100 105 110

Leu Leu Lys Ser Thr Asn Gln Lys Asn Tyr Leu Ala Trp Tyr Gln Gln

115 120 125

Lys Pro Gly Gln Ser Pro Lys Leu Leu Val Tyr Phe Ala Ser Thr Arg

130 135 140

Glu Ser Gly Val Pro Asp Arg Phe Ile Gly Ser Gly Ser Gly Thr Asp

145 150 155 160

Phe Thr Leu Thr Ile Ser Ser Val Gln Ala Glu Asp Leu Ala Asp Tyr

165 170 175

Phe Cys Gln Gln His Tyr Asn Thr Pro Pro Thr Phe Gly Ala Gly Thr

180 185 190

Lys Leu Glu Leu Lys Arg Ser Pro Asn Gly Ala Ser His Ser Gly Ser

195 200 205

Ala Pro Gly Thr Ser Ser Ala Ser Gly Ser Gln Val His Leu Gln Gln

210 215 220

Ser Gly Ala Glu Leu Met Lys Pro Gly Ala Ser Met Lys Ile Ser Cys

225 230 235 240

Lys Ala Thr Gly Tyr Thr Phe Ser Ser Tyr Trp Ile Glu Trp Val Lys

245 250 255

Gln Arg Pro Gly His Gly Leu Glu Trp Ile Gly Glu Ile Leu Pro Gly

260 265 270

Ser Gly Ser Thr Thr Tyr Asn Glu Lys Phe Lys Gly Lys Ala Thr Phe

275 280 285

Thr Ala Asp Thr Ser Ser Asn Thr Ala Tyr Met Gln Leu Ser Ser Leu

290 295 300

Thr Ser Glu Asp Ser Ala Val Tyr Tyr Cys Ala Arg Leu Asp Val Asp

305 310 315 320

Ser Trp Gly Gln Gly Thr Thr Leu Thr Val Ser Ser Lys Asp Glu Leu

325 330 335

<210>7

<211>110

<212>PRT

<213>Homo sapiens

<400>7

Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu

1 5 10 15

Trp Gly Pro Asp Pro Ala Ala Ala Phe Val Asn Gln His Leu Cys Gly

20 25 30

Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu Gln Val Gly

50 55 60

Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu

65 70 75 80

Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys

85 90 95

Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105 110

<210>8

<211>31

<212>PRT

<213>Equus przewalskii

<400>8

Glu Ala Glu Asp Pro Gln Val Gly Glu Val Glu Leu Gly Gly Gly Pro

1 5 10 15

Gly Leu Gly Gly Leu Gln Pro Leu Ala Leu Ala Gly Pro Gln Gln

20 25 30

<210>9

<211>86

<212>PRT

<213>Equus caballus

<220>

<221>MISC_FEATURE

<222>(31)..(32)

<223>X＝any amino acid

<220>

<221>MISC_FEATURE

<222>(64)..(65)

<223>X＝any amino acid

<400>9

Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Xaa Xaa

20 25 30

Glu Ala Glu Asp Pro Gln Val Gly Glu Val Glu Leu Gly Gly Gly Pro

35 40 45

Gly Leu Gly Gly Leu Gln Pro Leu Ala Leu Ala Gly Pro Gln Gln Xaa

50 55 60

Xaa Gly Ile Val Glu Gln Cys Cys Thr Gly Ile Cys Ser Leu Tyr Gln

65 70 75 80

Leu Glu Asn Tyr Cys Asn

85

<210>10

<211>110

<212>PRT

<213>Oryctolagus cuniculus

<400>10

Met Ala Ser Leu Ala Ala Leu Leu Pro Leu Leu Ala Leu Leu Val Leu

1 5 10 15

Cys Arg Leu Asp Pro Ala Gln Ala Phe Val Asn Gln His Leu Cys Gly

20 25 30

Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Lys Ser Arg Arg Glu Val Glu Glu Leu Gln Val Gly

50 55 60

Gln Ala Glu Leu Gly Gly Gly Pro Gly Ala Gly Gly Leu Gln Pro Ser

65 70 75 80

Ala Leu Glu Leu Ala Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys

85 90 95

Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105 110

<210>11

<211>21

<212>PRT

<213>Balaenoptera physalus

<400>11

Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>12

<211>21

<212>PRT

<213>Balaenoptera borealis

<400>12

Gly Ile Val Glu Gln Cys Cys Ala Ser Thr Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>13

<211>108

<212>PRT

<213>Sus scrofa

<400>13

Met Ala Leu Trp Thr Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu

1 5 10 15

Trp Ala Pro Ala Pro Ala Gln Ala Phe Val Asn Gln His Leu Cys Gly

20 25 30

Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Lys Ala Arg Arg Glu Ala Glu Asn Pro Gln Ala Gly

50 55 60

Ala Val Glu Leu Gly Gly Gly Leu Gly Gly Leu Gln Ala Leu Ala Leu

65 70 75 80

Glu Gly Pro Pro Gln Lys Arg Gly Ile Val Glu Gln Cys Cys Thr Ser

85 90 95

Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105

<210>14

<211>21

<212>PRT

<213>Elephas maximus

<400>14

Gly Ile Val Glu Gln Cys Cys Thr Gly Val Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>15

<211>105

<212>PRT

<213>Bos taurus

<400>15

Met Ala Leu Trp Thr Arg Leu Arg Pro Leu Leu Ala Leu Leu Ala Leu

1 5 10 15

Trp Pro Pro Pro Pro Ala Arg Ala Phe Val Asn Gln His Leu Cys Gly

20 25 30

Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Lys Ala Arg Arg Glu Val Glu Gly Pro Gln Val Gly

50 55 60

Ala Leu Glu Leu Ala Gly Gly Pro Gly Ala Gly Gly Leu Glu Gly Pro

65 70 75 80

Pro Gln Lys Arg Gly Ile Val Glu Gln Cys Cys Ala Ser Val Cys Ser

85 90 95

Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105

<210>16

<211>105

<212>PRT

<213>Ovis aries

<400>16

Met Ala Leu Trp Thr Arg Leu Val Pro Leu Leu Ala Leu Leu Ala Leu

1 5 10 15

Trp Ala Pro Ala Pro Ala His Ala Phe Val Asn Gln His Leu Cys Gly

20 25 30

Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Lys Ala Arg Arg Glu Val Glu Gly Pro Gln Val Gly

50 55 60

Ala Leu Glu Leu Ala Gly Gly Pro Gly Ala Gly Gly Leu Glu Gly Pro

65 70 75 80

Pro Gln Lys Arg Gly Ile Val Glu Gln Cys Cys Ala Gly Val Cys Ser

85 90 95

Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105

<210>17

<211>21

<212>PRT

<213>Camelus dromedaries

<400>17

Gly Ile Val Glu Gln Cys Cys Ala Ser Val Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>18

<211>110

<212>PRT

<213>Canis sp.

<400>18

Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu

1 5 10 15

Trp Ala Pro Ala Pro Thr Arg Ala Phe Val Asn Gln His Leu Cys Gly

20 25 30

Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Lys Ala Arg Arg Glu Val Glu Asp Leu Gln Val Arg

50 55 60

Asp Val Glu Leu Ala Gly Ala Pro Gly Glu Gly Gly Leu Gln Pro Leu

65 70 75 80

Ala Leu Glu Gly Ala Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys

85 90 95

Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105 110

<210>19

<211>21

<212>PRT

<213>Hystrix cristata

<400>19

Gly Ile Val Asp Gln Cys Cys Thr Gly Val Cys Ser Leu Tyr Gln Leu

1 5 10 15

Gln Asn Tyr Cys Asn

20

<210>20

<211>108

<212>PRT

<213>Aotus trivirgatus

<400>20

Met Ala Leu Trp Met His Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu

1 5 10 15

Trp Gly Pro Glu Pro Ala Pro Ala Phe Val Asn Gln His Leu Cys Gly

20 25 30

Pro His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Ala Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu Gln Val Gly

50 55 60

Gln Val Glu Leu Gly Gly Gly Ser Ile Thr Gly Ser Leu Pro Pro Leu

65 70 75 80

Glu Gly Pro Met Gln Lys Arg Gly Val Val Asp Gln Cys Cys Thr Ser

85 90 95

Ile Cys Ser Leu Tyr Gln Leu Gln Asn Tyr Cys Asn

100 105

<210>21

<211>110

<212>PRT

<213>Macaca fasicularis

<400>21

Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu

1 5 10 15

Trp Gly Pro Asp Pro Ala Pro Ala Phe Val Asn Gln His Leu Cys Gly

20 25 30

Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Pro Gln Val Gly

50 55 60

Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu

65 70 75 80

Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys

85 90 95

Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105 110

<210>22

<211>110

<212>PRT

<213>Cercopithecus aethiops

<400>22

Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu

1 5 10 15

Trp Gly Pro Asp Pro Val Pro Ala Phe Val Asn Gln His Leu Cys Gly

20 25 30

Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Pro Gln Val Gly

50 55 60

Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu

65 70 75 80

Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys

85 90 95

Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105 110

<210>23

<211>110

<212>PRT

<213>Pan troglodytes

<400>23

Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Val Leu Leu Ala Leu

1 5 10 15

Trp Gly Pro Asp Pro Ala Ser Ala Phe Val Asn Gln His Leu Cys Gly

20 25 30

Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu Gln Val Gly

50 55 60

Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu

65 70 75 80

Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys

85 90 95

Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105 110

<210>24

<211>21

<212>PRT

<213>Ornithorhynchus anatinus

<400>24

Gly Ile Val Glu Glu Cys Cys Lys Gly Val Cys Ser Met Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>25

<211>65

<212>PRT

<213>Pongo pygmaeus

<400>25

Cys Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg

1 5 10 15

Gly Phe Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu Gln

20 25 30

Val Gly Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln

35 40 45

Pro Leu Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln

50 55 60

Cys

65

<210>26

<211>110

<212>PRT

<213>Gorilla gorilla

<400>26

Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu

1 5 10 15

Trp Gly Pro Asp Pro Ala Ala Ala Phe Val Asn Gln His Leu Cys Gly

20 25 30

Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu Gln Val Gly

50 55 60

Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu

65 70 75 80

Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys

85 90 95

Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105 110

<210>27

<211>51

<212>PRT

<213>Saimiri sciureus

<400>27

Phe Val Asn Gln His Leu Cys Gly Pro His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Ala Pro Lys Thr Gly Val

20 25 30

Val Asp Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Gln Asn

35 40 45

Tyr Cys Asn

50

<210>28

<211>110

<212>PRT

<213>Cricetulus longicaudatus

<400>28

Met Thr Leu Trp Met Arg Leu Leu Pro Leu Leu Thr Leu Leu Val Leu

1 5 10 15

Trp Glu Pro Asn Pro Ala Gln Ala Phe Val Asn Gln His Leu Cys Gly

20 25 30

Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Lys Ser Arg Arg Gly Val Glu Asp Pro Gln Val Ala

50 55 60

Gln Leu Glu Leu Gly Gly Gly Pro Gly Ala Asp Asp Leu Gln Thr Leu

65 70 75 80

Ala Leu Glu Val Ala Gln Gln Lys Arg Gly Ile Val Asp Gln Cys Cys

85 90 95

Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105 110

<210>29

<211>110

<212>PRT

<213>Rattus norvegicus

<400>29

Met Ala Leu Trp Met Arg Phe Leu Pro Leu Leu Ala Leu Leu Val Leu

1 5 10 15

Trp Glu Pro Lys Pro Ala Gln Ala Phe Val Lys Gln His Leu Cys Gly

20 25 30

Pro His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Lys Ser Arg Arg Glu Val Glu Asp Pro Gln Val Pro

50 55 60

Gln Leu Glu Leu Gly Gly Gly Pro Glu Ala Gly Asp Leu Gln Thr Leu

65 70 75 80

Ala Leu Glu Val Ala Arg Gln Lys Arg Gly Ile Val Asp Gln Cys Cys

85 90 95

Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105 110

<210>30

<211>110

<212>PRT

<213>Rattus norvegicus

<400>30

Met Ala Leu Trp Ile Arg Phe Leu Pro Leu Leu Ala Leu Leu Ile Leu

1 5 10 15

Trp Glu Pro Arg Pro Ala Gln Ala Phe Val Lys Gln His Leu Cys Gly

20 25 30

Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Met Ser Arg Arg Glu Val Glu Asp Pro Gln Val Ala

50 55 60

Gln Leu Glu Leu Gly Gly Gly Pro Gly Ala Gly Asp Leu Gln Thr Leu

65 70 75 80

Ala Leu Glu Val Ala Arg Gln Lys Arg Gly Ile Val Asp Gln Cys Cys

85 90 95

Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105 110

<210>31

<211>21

<212>PRT

<213>Acomys cahirinus

<400>31

Gly Ile Val Asp Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>32

<211>108

<212>PRT

<213>Mus musculus

<400>32

Met Ala Leu Leu Val His Phe Leu Pro Leu Leu Ala Leu Leu Ala Leu

1 5 10 15

Trp Glu Pro Lys Pro Thr Gln Ala Phe Val Lys Gln His Leu Cys Gly

20 25 30

Pro His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Lys Ser Arg Arg Glu Val Glu Asp Pro Gln Val Glu

50 55 60

Gln Leu Glu Leu Gly Gly Ser Pro Gly Asp Leu Gln Thr Leu Ala Leu

65 70 75 80

Glu Val Ala Arg Gln Lys Arg Gly Ile Val Asp Gln Cys Cys Thr Ser

85 90 95

Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105

<210>33

<211>110

<212>PRT

<213>Mus musculus

<400>33

Met Ala Leu Trp Met Arg Phe Leu Pro Leu Leu Ala Leu Leu Phe Leu

1 5 10 15

Trp Glu Ser His Pro Thr Gln Ala Phe Val Lys Gln His Leu Cys Gly

20 25 30

Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Met Ser Arg Arg Glu Val Glu Asp Pro Gln Val Ala

50 55 60

Gln Leu Glu Leu Gly Gly Gly Pro Gly Ala Gly Asp Leu Gln Thr Leu

65 70 75 80

Ala Leu Glu Val Ala Gln Gln Lys Arg Gly Ile Val Asp Gln Cys Cys

85 90 95

Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105 110

<210>34

<211>21

<212>PRT

<213>Chinchilla brevicaudata

<400>34

Gly Ile Val Asp Gln Cys Cys Thr Ser Ile Cys Thr Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>35

<211>110

<212>PRT

<213>Cavia porcellus

<400>35

Met Ala Leu Trp Met His Leu Leu Thr Val Leu Ala Leu Leu Ala Leu

1 5 10 15

Trp Gly Pro Asn Thr Gly Gln Ala Phe Val Ser Arg His Leu Cys Gly

20 25 30

Ser Asn Leu Val Glu Thr Leu Tyr Ser Val Cys Gln Asp Asp Gly Phe

35 40 45

Phe Tyr Ile Pro Lys Asp Arg Arg Glu Leu Glu Asp Pro Gln Val Glu

50 55 60

Gln Thr Glu Leu Gly Met Gly Leu Gly Ala Gly Gly Leu Gln Pro Leu

65 70 75 80

Ala Leu Glu Met Ala Leu Gln Lys Arg Gly Ile Val Asp Gln Cys Cys

85 90 95

Thr Gly Thr Cys Thr Arg His Gln Leu Gln Ser Tyr Cys Asn

100 105 110

<210>36

<211>109

<212>PRT

<213>Octodon degus

<400>36

Met Ala Pro Trp Met His Leu Leu Thr Val Leu Ala Leu Leu Ala Leu

1 5 10 15

Trp Gly Pro Asn Ser Val Gln Ala Tyr Ser Ser Gln His Leu Cys Gly

20 25 30

Ser Asn Leu Val Glu Ala Leu Tyr Met Thr Cys Gly Arg Ser Gly Phe

35 40 45

Tyr Arg Pro His Asp Arg Arg Glu Leu Glu Asp Leu Gln Val Glu Gln

50 55 60

Ala Glu Leu Gly Leu Glu Ala Gly Gly Leu Gln Pro Ser Ala Leu Glu

65 70 75 80

Met Ile Leu Gln Lys Arg Gly Ile Val Asp Gln Cys Cys Asn Asn Ile

85 90 95

Cys Thr Phe Asn Gln Leu Gln Asn Tyr Cys Asn Val Pro

100 105

<210>37

<211>21

<212>PRT

<213>Didelphis virginiana

<400>37

Gly Ile Val Glu Gln Cys Cys Asn Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Thr Tyr Cys Asn

20

<210>38

<211>108

<212>PRT

<213>Rodentia sp.

<400>38

Met Ala Leu Trp Ile Leu Leu Pro Leu Leu Ala Leu Leu Ile Leu Trp

1 5 10 15

Gly Pro Asp Pro Ala Gln Ala Phe Val Asn Gln His Leu Cys Gly Ser

20 25 30

His Leu Val Glu Ala Leu Tyr Ile Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Met Ser Arg Arg Glu Val Glu Asp Pro Gln Val Gly

50 55 60

Gln Val Glu Leu Gly Ala Gly Pro Gly Ala Gly Ser Glu Gln Thr Leu

65 70 75 80

Ala Leu Glu Val Ala Arg Gln Ala Arg Ile Val Gln Gln Cys Thr Ser

85 90 95

Gly Ile Cys Ser Leu Tyr Gln Glu Asn Tyr Cys Asn

100 105

<210>39

<211>110

<212>PRT

<213>Psammomys obesus

<400>39

Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Phe Leu Ile Leu

1 5 10 15

Trp Glu Pro Ser Pro Ala His Ala Phe Val Asn Gln His Leu Cys Gly

20 25 30

Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Lys Phe Arg Arg Gly Val Asp Asp Pro Gln Met Pro

50 55 60

Gln Leu Glu Leu Gly Gly Ser Pro Gly Ala Gly Asp Leu Arg Ala Leu

65 70 75 80

Ala Leu Glu Val Ala Arg Gln Lys Arg Gly Ile Val Glu Gln Cys Cys

85 90 95

Thr Gly Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105 110

<210>40

<211>110

<212>PRT

<213>Spermophilus tridecemlineatus

<400>40

Met Ala Leu Trp Thr Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu

1 5 10 15

Leu Gly Pro Asp Pro Ala Gln Ala Phe Val Asn Gln His Leu Cys Gly

20 25 30

Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Thr Pro Lys Ser Arg Arg Glu Val Glu Glu Gln Gln Gly Gly

50 55 60

Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Leu Pro Gln Pro Leu

65 70 75 80

Ala Leu Glu Met Ala Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys

85 90 95

Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105 110

<210>41

<211>29

<212>PRT

<213>Cavia porcellus

<400>41

Glu Leu Glu Asp Pro Gln Val Glu Gln Thr Glu Leu Gly Met Gly Leu

1 5 10 15

Gly Ala Gly Gly Leu Gln Pro Leu Gln Gly Ala Leu Gln

20 25

<210>42

<211>107

<212>PRT

<213>Ballus gallus

<400>42

Met Ala Leu Trp Ile Arg Ser Leu Pro Leu Leu Ala Leu Leu Val Phe

1 5 10 15

Ser Gly Pro Gly Thr Ser Tyr Ala Ala Ala Asn Gln His Leu Cys Gly

20 25 30

Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe

35 40 45

Phe Tyr Ser Pro Lys Ala Arg Arg Asp Val Glu Gln Pro Leu Val Ser

50 55 60

Ser Pro Leu Arg Gly Glu Ala Gly Val Leu Pro Phe Gln Gln Glu Glu

65 70 75 80

Tyr Glu Lys Val Lys Arg Gly Ile Val Glu Gln Cys Cys His Asn Thr

85 90 95

Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

100 105

<210>43

<211>81

<212>PRT

<213>Anas platyrhynchos

<220>

<221>MISC_FEATURE

<222>(31)..(32)

<223>X＝any amino acid

<220>

<221>MISC_FEATURE

<222>(59)..(60)

<223>X＝any amino acid

<400>43

Ala Ala Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Ser Pro Lys Thr Xaa Xaa

20 25 30

Asp Val Glu Gln Pro Leu Val Asn Gly Pro Leu His Gly Glu Val Gly

35 40 45

Glu Leu Pro Phe Gln His Glu Glu Tyr Gln Xaa Xaa Gly Ile Val Glu

50 55 60

Gln Cys Cys Glu Asn Pro Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys

65 70 75 80

Asn

<210>44

<211>21

<212>PRT

<213>Anser anser

<400>44

Gly Ile Val Glu Gln Cys Cys Glu Asn Pro Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>45

<211>103

<212>PRT

<213>Selasphorus rufus

<400>45

Ile Gln Ser Leu Pro Leu Leu Ala Leu Leu Ala Leu Ser Gly Pro Gly

1 5 10 15

Thr Ser His Ala Ala Val Asn Gln His Leu Cys Gly Ser His Leu Val

20 25 30

Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Ser Pro

35 40 45

Lys Ala Arg Arg Asp Ala Glu His Pro Leu Val Asn Gly Pro Leu His

50 55 60

Gly Glu Val Gly Asp Leu Pro Phe Gln Gln Glu Glu Phe Glu Lys Val

65 70 75 80

Lys Arg Gly Ile Val Glu Gln Cys Cys His Asn Thr Cys Ser Leu Tyr

85 90 95

Gln Leu Glu Asn Tyr Cys Asn

100

<210>46

<211>108

<212>PRT

<213>Danio rerio

<400>46

Met Ala Val Trp Leu Gln Ala Gly Ala Leu Leu Val Leu Leu Val Val

1 5 10 15

Ser Ser Val Ser Thr Asn Pro Gly Thr Pro Gln His Leu Cys Gly Ser

20 25 30

His Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Pro Thr Gly Phe Phe

35 40 45

Tyr Asn Pro Lys Arg Asp Val Glu Pro Leu Leu Gly Phe Leu Pro Pro

50 55 60

Lys Ser Ala Gln Glu Thr Glu Val Ala Asp Phe Ala Phe Lys Asp His

65 70 75 80

Ala Glu Leu Ile Arg Lys Arg Gly Ile Val Glu Gln Cys Cys His Lys

85 90 95

Pro Cys Ser Ile Phe Glu Leu Gln Asn Tyr Cys Asn

100 105

<210>47

<211>108

<212>PRT

<213>Cyprinus carpio

<400>47

Met Ala Val Trp Ile Gln Ala Gly Ala Leu Leu Phe Leu Leu Ala Val

1 5 10 15

Ser Ser Val Asn Ala Asn Ala Gly Ala Pro Gln His Leu Cys Gly Ser

20 25 30

His Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Pro Thr Gly Phe Phe

35 40 45

Tyr Asn Pro Lys Arg Asp Val Asp Pro Pro Leu Gly Phe Leu Pro Pro

50 55 60

Lys Ser Ala Gln Glu Thr Glu Val Ala Asp Phe Ala Phe Lys Asp His

65 70 75 80

Ala Glu Val Ile Arg Lys Arg Gly Ile Val Glu Gln Cys Cys His Lys

85 90 95

Pro Cys Ser Ile Phe Glu Leu Gln Asn Tyr Cys Asn

100 105

<210>48

<211>21

<212>PRT

<213>Batrachoididae gen.sp.

<400>48

Gly Ile Val Glu Gln Cys Cys His Arg Pro Cys Asp Ile Phe Asp Leu

1 5 10 15

Gln Ser Tyr Cys Asn

20

<210>49

<211>21

<212>PRT

<213>Thunnus thynnus

<400>49

Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Asn Ile Phe Asp Leu

1 5 10 15

Gln Asn Tyr Cys Asn

20

<210>50

<211>21

<212>PRT

<213>Katsuwonus pelamis

<400>50

Gly Ile His Glx Glx Cys Cys His Lys Pro Cys Asx Ile Phe Glx Leu

1 5 10 15

Glx Asx Tyr Cys Asn

20

<210>51

<211>116

<212>PRT

<213>Lophius piscatorius

<400>51

Met Ala Ala Leu Trp Leu Gln Ser Phe Ser Leu Leu Val Leu Leu Val

1 5 10 15

Val Ser Trp Pro Gly Ser Gln Ala Val Ala Pro Ala Gln His Leu Cys

20 25 30

Gly Ser His Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Asp Arg Gly

35 40 45

Phe Phe Tyr Asn Pro Lys Arg Asp Val Asp Gln Leu Leu Gly Phe Leu

50 55 60

Pro Pro Lys Ser Gly Gly Ala Ala Ala Ala Gly Ala Asp Asn Glu Val

65 70 75 80

Ala Glu Phe Ala Phe Lys Asp Gln Met Glu Met Met Val Lys Arg Gly

85 90 95

Ile Val Glu Gln Cys Cys His Arg Pro Cys Asn Ile Phe Asp Leu Gln

100 105 110

Asn Tyr Cys Asn

115

<210>52

<211>115

<212>PRT

<213>Myxine glutinosa

<400>52

Met Ala Leu Ser Pro Phe Leu Ala Ala Val Ile Pro Leu Val Leu Leu

1 5 10 15

Leu Ser Arg Ala Pro Pro Ser Ala Asp Thr Arg Thr Thr Gly His Leu

20 25 30

Cys Gly Lys Asp Leu Val Asn Ala Leu Tyr Ile Ala Cys Gly Val Arg

35 40 45

Gly Phe Phe Tyr Asp Pro Thr Lys Met Lys Arg Asp Thr Gly Ala Leu

50 55 60

Ala Ala Phe Leu Pro Leu Ala Tyr Ala Glu Asp Asn Glu Ser Gln Asp

65 70 75 80

Asp Glu Ser Ile Gly Ile Asn Glu Val Leu Lys Ser Lys Arg Gly Ile

85 90 95

Val Glu Gln Cys Cys His Lys Arg Cys Ser Ile Tyr Asp Leu Glu Asn

100 105 110

Tyr Cys Asn

115

<210>53

<211>105

<212>PRT

<213>Oncorhynchus keta

<400>53

Met Ala Phe Trp Leu Gln Ala Ala Ser Leu Leu Val Leu Leu Ala Leu

1 5 10 15

Ser Pro Gly Val Asp Ala Ala Ala Ala Gln His Leu Cys Gly Ser His

20 25 30

Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Glu Lys Gly Phe Phe Tyr

35 40 45

Thr Pro Lys Arg Asp Val Asp Pro Leu Ile Gly Phe Leu Ser Pro Lys

50 55 60

Ser Ala Lys Glu Asn Glu Glu Tyr Pro Phe Lys Asp Gln Thr Glu Met

65 70 75 80

Met Val Lys Arg Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Asn

85 90 95

Ile Phe Asp Leu Gln Asn Tyr Cys Asn

100 105

<210>54

<211>21

<212>PRT

<213>Myoxocephalus scorpius

<400>54

Gly Ile Val Glu Gln Cys Cys His Arg Pro Cys Asn Ile Arg Val Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>55

<211>21

<212>PRT

<213>Lepisosteus spatula

<400>55

Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Thr Ile Tyr Glu Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>56

<211>21

<212>PRT

<213>Platichthys flesus

<400>56

Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Asn Ile Phe Asp Leu

1 5 10 15

Gln Asn Tyr Cys Asn

20

<210>57

<211>21

<212>PRT

<213>Hydrolagus colliei

<400>57

Gly Ile Val Glu Gln Cys Cys His Asn Thr Cys Ser Leu Ala Asn Leu

1 5 10 15

Glu Gly Tyr Cys Asn

20

<210>58

<211>22

<212>PRT

<213>Squalus acanthias

<400>58

Gly Ile Val Glu His Cys Cys His Asn Thr Cys Ser Leu Tyr Asp Leu

1 5 10 15

Glu Gly Tyr Cys Asn Gln

20

<210>59

<211>21

<212>PRT

<213>Torpedo marmorata

<400>59

Gly Ile Val Glu His Cys Cys His Asn Thr Cys Ser Leu Phe Asp Leu

1 5 10 15

Glu Gly Tyr Cys Asn

20

<210>60

<211>89

<212>PRT

<213>Callorhinchus milii

<400>60

Val Pro Thr Gln Arg Leu Cys Gly Ser His Leu Val Asp Ala Leu Tyr

1 5 10 15

Phe Val Cys Gly Glu Arg Gly Phe Phe Tyr Ser Pro Lys Gln Ile Arg

20 25 30

Asp Val Gly Pro Leu Ser Ala Phe Arg Asp Leu Glu Pro Pro Leu Asp

35 40 45

Thr Glu Met Glu Asp Arg Phe Pro Tyr Arg Gln Gln Leu Ala Gly Ser

50 55 60

Lys Met Lys Arg Gly Ile Val Glu Gln Cys Cys His Asn Thr Cys Ser

65 70 75 80

Leu Val Asn Leu Glu Gly Tyr Cys Asn

85

<210>6l

<211>21

<212>PRT

<213>Petromyzon marinus

<400>61

Gly Ile Val Glu Gln Cys Cys His Arg Lys Cys Ser Ile Tyr Asp Met

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>62

<211>21

<212>PRT

<213>Oncorhynchus gorbuscha

<400>62

Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Asn Ile Phe Asp Leu

1 5 10 15

Gln Asn Tyr Cys Asn

20

<210>63

<211>21

<212>PRT

<213>Amia calva

<400>63

Gly Ile Val Glu Gln Cys Cys Leu Lys Pro Cys Thr Ile Tyr Glu Met

1 5 10 15

Glu Lys Tyr Cys Asn

20

<210>64

<211>21

<212>PRT

<213>Anguilla rostrata

<400>64

Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Ser Ile Phe Asp Leu

1 5 10 15

Gln Asn Tyr Cys Asn

20

<210>65

<211>113

<212>PRT

<213>Oreochromis niloticus

<400>65

Met Ala Ala Leu Trp Leu Gln Ala Phe Ser Leu Leu Val Leu Met Met

1 5 10 15

Val Ser Trp Pro Gly Ser Gln Ala Val Gly Gly Pro Gln His Leu Cys

20 25 30

Gly Ser His Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Asp Arg Gly

35 40 45

Phe Phe Tyr Asn Pro Arg Arg Asp Val Asp Pro Leu Leu Gly Phe Leu

50 55 60

Pro Pro Lys Ala Gly Gly Ala Val Val Gln Gly Gly Glu Asn Glu Val

65 70 75 80

Thr Phe Lys Asp Gln Met Glu Met Met Val Lys Arg Gly Ile Val Glu

85 90 95

Glu Cys Cys His Lys Pro Cys Thr Ile Phe Asp Leu Gln Asn Tyr Cys

100 105 110

Asn

<210>66

<211>21

<212>PRT

<213>Acipenser gueldenstaedti

<400>66

Gly Ile Val Glu Gln Cys Cys His Ser Pro Cys Ser Leu Tyr Asp Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>67

<211>21

<212>PRT

<213>Piaractus mesopotamicus

<400>67

Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Ser Ile Phe Asp Leu

1 5 10 15

Gln Asn Tyr Cys Asn

20

<210>68

<211>115

<212>PRT

<213>Verasper moseri

<400>68

Met Ala Ala Leu Trp Leu Gln Ser Val Ser Leu Leu Val Leu Met Leu

1 5 10 15

Val Ser Trp Ser Gly Ser Gln Ala Val Leu Pro Pro Gln His Leu Cys

20 25 30

Gly Ala His Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly

35 40 45

Phe Phe Tyr Thr Pro Lys Arg Asp Val Asp Pro Leu Leu Gly Phe Leu

50 55 60

Pro Ala Lys Ser Gly Gly Ala Ala Ala Gly Gly Glu Asn Glu Val Ala

65 70 75 80

Glu Phe Ala Phe Lys Asp Gln Met Glu Met Met Val Lys Arg Gly Ile

85 90 95

Val Glu Gln Cys Cys His Lys Pro Cys Asn Ile Phe Asp Leu Gln Asn

100 105 110

Tyr Cys Asn

115

<210>69

<211>30

<212>PRT

<213>Anquilla anguilla

<400>69

Asp Val Glu Pro Leu Leu Gly Phe Leu Ser Pro Lys Ser Gly Gln Glu

1 5 10 15

Asn Glu Val Asp Asp Phe Pro Tyr Lys Gly Gln Gly Glu Leu

20 25 30

<210>70

<211>106

<212>PRT

<213>Xenopus laevis

<400>70

Met Ala Leu Trp Met Gln Cys Leu Pro Leu Val Leu Val Leu Phe Phe

1 5 10 15

Ser Thr Pro Asn Thr Glu Ala Leu Val Asn Gln His Leu Cys Gly Ser

20 25 30

His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Asp Arg Gly Phe Phe

35 40 45

Tyr Tyr Pro Lys Val Lys Arg Asp Met Glu Gln Ala Leu Val Ser Gly

50 55 60

Pro Gln Asp Asn Glu Leu Asp Gly Met Gln Leu Gln Pro Gln Glu Tyr

65 70 75 80

Gln Lys Met Lys Arg Gly Ile Val Glu Gln Cys Cys His Ser Thr Cys

85 90 95

Ser Leu Phe Gln Leu Glu Ser Tyr Cys Asn

100 105

<210>71

<211>106

<212>PRT

<213>Xenopus laevis

<400>71

Met Ala Leu Trp Met Gln Cys Leu Pro Leu Val Leu Val Leu Leu Phe

1 5 10 15

Ser Thr Pro Asn Thr Glu Ala Leu Ala Asn Gln His Leu Cys Gly Ser

20 25 30

His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Asp Arg Gly Phe Phe

35 40 45

Tyr Tyr Pro Lys Ile Lys Arg Asp Ile Glu Gln Ala Gln Val Asn Gly

50 55 60

Pro Gln Asp Asn Glu Leu Asp Gly Met Gln Phe Gln Pro Gln Glu Tyr

65 70 75 80

Gln Lys Met Lys Arg Gly Ile Val Glu Gln Cys Cys His Ser Thr Cys

85 90 95

Ser Leu Phe Gln Leu Glu Asn Tyr Cys Asn

100 105

<210>72

<211>21

<212>PRT

<213>Trachemys scripta

<400>72

Gly Ile Val Glu Gln Cys Cys His Asn Thr Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>73

<211>21

<212>PRT

<213>Alligator mississippiensis

<400>73

Gly Ile Val Glu Gln Cys Cys His Asn Thr Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>74

<211>21

<212>PRT

<213>Zaocys dhumnades

<400>74

Gly Ile Val Glu Gln Cys Cys Glu Asn Thr Cys Ser Leu Tyr Glu Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>75

<211>21

<212>PRT

<213>Crotalus atrox

<400>75

Gly Ile Val Glu Gln Cys Cys Glu Asn Thr Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>76

<211>114

<212>PRT

<213>Artificial Sequence

<220>

<223>Preproinsulin

<400>76

Met Gly Leu Trp Ile Arg Leu Leu Pro Leu Ile Ala Leu Leu Ile Leu

1 5 10 15

Trp Gly Pro Asp Pro Ala Ala Ala Glu Phe Arg Met Phe Val Asn Gln

20 25 30

His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly

35 40 45

Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp

50 55 60

Leu Gln Val Gly Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser

65 70 75 80

Leu Gln Pro Leu Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val

85 90 95

Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr

100 105 110

Cys Asn

<210>77

<211>21

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin

<400>77

Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>78

<211>30

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin

<400>78

Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr

20 25 30

<210>79

<211>53

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin

<400>79

Phe Val Asp Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala Lys

20 25 30

Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Glu Leu

35 40 45

Glu Asp Tyr Cys Asn

50

<210>80

<211>53

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin

<400>80

Phe Val Glu Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala Lys

20 25 30

Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu

35 40 45

Glu Glu Tyr Cys Asn

50

<210>81

<211>53

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin

<400>81

Phe Val Gln Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala Lys

20 25 30

Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu

35 40 45

Glu Asn Tyr Cys Gly

50

<210>82

<211>53

<212>PRT

<213>Artificial Sequence

<220>

<223>Unnamed protein product with insulin homology

<400>82

Phe Val Thr Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala Lys

20 25 30

Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu

35 40 45

Glu His Tyr Cys Ser

50

<210>83

<211>57

<212>PRT

<213>Artificial Sequence

<220>

<223>Proinsulin

<400>83

Asn Ser Asn Gly Lys Phe Val Asn Gln His Leu Cys Gly Ser His Leu

1 5 10 15

Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr

20 25 30

Pro Lys Thr Lys Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser

35 40 45

Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

50 55

<210>84

<211>58

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin

<400>84

Asn Ser Asn Gly Lys Phe Val Asn Gln His Leu Cys Gly Ser His Leu

1 5 10 15

Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr

20 25 30

Pro Lys Thr Lys Arg Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys

35 40 45

Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

50 55

<210>85

<211>50

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin

<400>85

Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Gly Ile Val

20 25 30

Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr

35 40 45

Cys Asn

50

<210>86

<211>54

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin

<400>86

Arg Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu

1 5 10 15

Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala

20 25 30

Lys Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln

35 40 45

Leu Glu Asn Tyr Cys Asn

50

<210>87

<211>61

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin

<400>87

Lys Glu Thr Leu Thr Ile Thr Cys Ala Val Pro Thr Trp Leu Lys Leu

1 5 10 15

Trp Thr Trp Phe Ala Val Lys Glu Val Ser Ser Thr Asn Leu Arg Leu

20 25 30

Leu Arg Val Leu Ser Asn Asn Ala Val Pro Pro Ser Ala Pro Cys Thr

35 40 45

Asn Trp Lys Thr Thr Ala Thr Arg Arg Ser Pro Gln Ala

50 55 60

<210>88

<211>61

<212>PRT

<213>Artificial Sequence

<220>

<223>Preproinsulin

<400>88

Lys Asp Ser Leu Thr Asn Thr Cys Ala Val Ser Thr Trp Leu Lys Leu

1 5 10 15

Cys Thr Trp Phe Ala Val Lys Glu Val Ser Ser Thr Leu Leu Arg Leu

20 25 30

Leu Arg Val Leu Ser Asn Asn Ala Val Pro Pro Ser Ala Asn Tyr Thr

35 40 45

Asn Trp Lys Thr Thr Ala Thr Arg Arg Ser Pro Gln Ala

50 55 60

<210>89

<211>87

<212>PRT

<213>Artificial Sequence

<220>

<223>Proinsulin

<400>89

Met Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu

1 5 10 15

Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr Arg

20 25 30

Arg Glu Ala Glu Asp Leu Gln Val Gly Gln Val Glu Leu Gly Gly Gly

35 40 45

Pro Gly Ala Gly Ser Leu Gln Pro Leu Ala Leu Glu Gly Ser Leu Gln

50 55 60

Lys Arg Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr

65 70 75 80

Gln Leu Glu Asn Tyr Cys Asn

85

<210>90

<211>35

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin

<400>90

Arg Arg Glu Ala Glu Asp Leu Gln Val Gly Gln Val Glu Leu Gly Gly

1 5 10 15

Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu Ala Leu Glu Gly Ser Leu

20 25 30

Gln Lys Arg

35

<210>91

<211>23

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin

<400>91

Gly Pro Glu Thr Leu Cys Gly Ala Glu Leu Val Asp Ala Leu Gln Phe

1 5 10 15

Val Cys Gly Asp Arg Gly Phe

20

<210>92

<211>124

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin

<400>92

Met Lys Leu Lys Thr Val Arg Ser Ala Val Leu Ser Ser Leu Phe Ala

1 5 10 15

Ser Gln Val Leu Gly Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr

20 25 30

Ser Val Asn Leu Met Ala Asp Asp Thr Glu Ser Ala Phe Ala Thr Gln

35 40 45

Thr Asn Ser Gly Gly Leu Asp Val Val Gly Leu Ile Ser Met Ala Lys

50 55 60

Arg Glu Glu Gly Glu Pro Lys Phe Val Asn Gln His Leu Cys Gly Ser

65 70 75 80

His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe

85 90 95

Tyr Thr Pro Lys Ala Ala Lys Gly Ile Val Glu Gln Cys Cys Thr Ser

100 105 110

Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

115 120

<210>93

<211>171

<212>DNA

<213>Artificial Sequence

<220>

<223>Insulin

<400>93

tttgtcaatc agcacctttg tggttctcac ctggtggagg ctctgtacct ggtgtgtggg 60

gaacgtggtt tcttctacac acccaagacc cgtcgtaagc ttaagcgtgg cattgtggag 120

cagtgctgca ccagcatctg ctccctctac caactggaga actactgcaa c 171

<210>94

<211>21

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin analogue

<400>94

Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>95

<211>26

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin analogue

<220>

<221>MISC_FEATURE

<222>(26)..(26)

<223>X＝any amino acid

<400>95

Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Xaa

20 25

<210>96

<211>21

<212>PRT

<213>Homo sapiens

<400>96

Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>97

<211>29

<212>PRT

<213>Homo sapiens

<400>97

Glu Val Asn Gln His Leu Cys Gly Ser Glu Leu Val Glu Ala Leu Glu

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Glu Pro Lys

20 25

<210>98

<211>21

<212>PRT

<213>Homo sapiens

<400>98

Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>99

<211>30

<212>PRT

<213>Homo sapiens

<400>99

Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu His

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr

20 25 30

<210>100

<211>21

<212>PRT

<213>Homo sapiens

<400>100

Gly Ile Val Glu Gln Cys Cys Lys Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>101

<211>30

<212>PRT

<213>Homo sapiens

<400>101

Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr

20 25 30

<210>102

<211>21

<212>PRT

<213>Homo sapiens

<400>102

Gly Ile Val Glu Gln Cys Cys Lys Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>103

<211>30

<212>PRT

<213>Homo sapiens

<400>103

Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr

20 25 30

<210>104

<211>21

<212>PRT

<213>Homo sapiens

<220>

<221>MISC_FEATURE

<222>(8)..(8)

<223>X＝any amino acid

<400>104

Gly Ile Val Glu Gln Cys Cys Xaa Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>105

<211>30

<212>PRT

<213>Homo sapiens

<400>105

Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr

20 25 30

<210>106

<211>21

<212>PRT

<213>Homo sapiens

<220>

<221>MISC_FEATURE

<222>(8)..(8)

<223>X＝any amino acid

<400>106

Gly Ile Val Glu Gln Cys Cys Xaa Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>107

<211>30

<212>PRT

<213>Homo sapiens

<400>107

Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr

20 25 30

<210>108

<211>21

<212>PRT

<213>Homo sapiens

<220>

<221>MISC_FEATURE

<222>(2)..(2)

<223>X＝any amino acids

<400>108

Gly Xaa Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>109

<211>30

<212>PRT

<213>Homo sapiens

<400>109

Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Lys Pro Thr

20 25 30

<210>110

<211>21

<212>PRT

<213>Homo sapiens

<400>110

Gly Ala Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>111

<211>30

<212>PRT

<213>Homo sapiens

<400>111

Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Lys Pro Thr

20 25 30

<210>112

<211>21

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin analogue

<220>

<221>MISC_FEATURE

<222>(2)..(2)

<223>X＝any amino acid

<400>112

Gly Xaa Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>113

<211>30

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin analogue

<400>113

Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr

20 25 30

<210>114

<211>21

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin analogue

<220>

<221>MISC_FEATURE

<222>(2)..(2)

<223>X＝any amino acid

<400>114

Gly Xaa Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>115

<211>30

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin analogue

<400>115

Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr

20 25 30

<210>116

<211>21

<212>PRT

<213>Homo sapiens

<400>116

Gly Gly Gly Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>117

<211>30

<212>PRT

<213>Homo sapiens

<400>117

Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Lys Pro Thr

20 25 30

<210>118

<211>21

<212>PRT

<213>Artificial Sequence

<220>

<223>Homo sapiens insulin mutant

<220>

<221>MISC_FEATURE

<222>(1)..(1)

<223>X＝any amino acid

<400>118

Xaa Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>119

<211>30

<212>PRT

<213>Artificial Sequence

<220>

<223>Homo sapiens insulin mutant

<220>

<221>MISC_FEATURE

<222>(1)..(1)

<223>X＝any amino acid

<400>119

Xaa Val Asn Gln His Leu Cys Gly Asp His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr

20 25 30

<210>120

<211>21

<212>PRT

<213>Artificial Sequence

<220>

<223>Homo sapiens insulin mutant

<400>120

Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>121

<211>29

<212>PRT

<213>Artificial Sequence

<220>

<223>Homo sapiens insulin mutant

<400>121

Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Tyr Thr Pro Lys Thr

20 25

<210>122

<211>21

<212>PRT

<213>Artificial Sequence

<220>

<223>Homo sapiens insulin

<400>122

Gly Ile Val Glu Gln Ser Cys Thr Ser Ile Ser Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>123

<211>30

<212>PRT

<213>Artificial Sequence

<220>

<223>Homo sapiens insulin

<400>123

Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Lys Pro Thr

20 25 30

<210>124

<211>79

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin

<400>124

Met Asp Pro Gly Asp Pro Glu Cys Leu Glu Gln Leu Leu Arg Arg Leu

1 5 10 15

Gly Gly Ser Val Glu Val Glu Val Thr Gly Gly Thr Val His Val Glu

20 25 30

Val Ser Pro Glu Asp Pro Gly Asp Pro Glu Cys Leu Glu Gln Leu Leu

35 40 45

Arg Arg Leu Gly Gly Ser Val Glu Val Glu Val Thr Gly Gly Thr Val

50 55 60

His Val Glu Val Ser Pro Gly Glu Arg Gly Phe Phe Tyr Cys Asn

65 70 75

<210>125

<211>87

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin

<400>125

Met Leu Lys Glu Lys Lys Tyr Ser Pro Asp Pro Gly Asp Pro Glu Cys

1 5 10 15

Leu Glu Gln Leu Leu Arg Arg Leu Gly Gly Ser Val Glu Val Glu Val

20 25 30

Thr Gly Gly Thr Val His Val Glu Val Ser Pro Glu Asp Pro Gly Asp

35 40 45

Pro Glu Cys Leu Glu Gln Leu Leu Arg Arg Leu Gly Gly Ser Val Glu

50 55 60

Val Glu Val Thr Gly Gly Thr Val His Val Glu Val Ser Pro Gly Glu

65 70 75 80

Arg Gly Phe Phe Tyr Cys Asn

85

<210>126

<211>23

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin fusion protein

<220>

<221>MISC_FEATURE

<222>(5)..(5)

<223>X＝any amino acid

<220>

<221>MISC_FEATURE

<222>(18)..(18)

<223>X＝any amino acid

<400>126

Met Ala Thr Ser Xaa Ser Thr Lys Lys Thr Gln Leu Gln Leu Glu His

1 5 10 15

Leu Xaa Leu Asp Leu Gln Met

20

<210>127

<211>23

<212>PRT

<213>Escherichia coli

<220>

<221>MISC_FEATURE

<222>(14)..(14)

<223>X＝any amino acid

<220>

<221>MISC_FEATURE

<222>(17)..(17)

<223>X＝any amino acid

<400>127

Thr Met Ile Thr Asp Ser Leu Ala Val Val Leu Gln Arg Xaa Asp Trp

1 5 10 15

Xaa Pro Gly Val Thr Gln Leu

20

<210>128

<211>96

<212>PRT

<213>Brevibacillus brevis

<400>128

Asn Ser Val Leu Ala Ser Ala Leu Ala Leu Thr Val Ala Pro Met Ala

1 5 10 15

Phe Ala Asn Ser Asp Ser Glu Ser Pro Leu Ser His Asp Gly Tyr Ser

20 25 30

Leu His Asp Gly Val Ser Met Tyr Ile Glu Ala Leu Asp Lys Phe Val

35 40 45

Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val

50 55 60

Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Gly Ile Val Glu Gln

65 70 75 80

Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

85 90 95

<210>129

<211>25

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin fusion protein

<400>129

Asp Thr Thr Met Pro Ala Gly Gly Gly Gly Gly Gly Gln His Leu Cys

1 5 10 15

Gly Pro His Leu Val Glu Ala Leu Tyr

20 25

<210>130

<211>6

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin fusion protein

<400>130

Leu Glu Asn Tyr Cys Asn

1 5

<210>131

<211>22

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin fusion protein

<400>131

Met Thr Met Ile Thr Asp Ser Leu Glu Phe Gln Ala Trp Gly Gly Gly

1 5 10 15

Gly Gly Trp Met Arg Phe

20

<210>132

<211>22

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin fusion protein

<400>132

Met Val Leu Arg Phe Leu Pro Leu Leu Ala Leu Leu Val Leu Trp Glu

1 5 10 15

Pro Lys Pro Ala Gln Ala

20

<210>133

<211>60

<212>PRT

<213>Artificial Sequence

<220>

<223>Mini-proinsulin

<400>133

Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr Arg Arg

20 25 30

Tyr Pro Gly Asp Val Lys Arg Gly Ile Val Glu Gln Cys Cys Thr Ser

35 40 45

Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

50 55 60

<210>134

<211>21

<212>PRT

<213>Homo sapiens

<400>134

Gly Ile Val Glu Gln Cys Cys Lys Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>135

<211>30

<212>PRT

<213>Homo sapiens

<400>135

Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr

20 25 30

<210>136

<211>21

<212>PRT

<213>Homo sapiens

<400>136

Gly Ile Val Glu Gln Cys Cys Lys Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>137

<211>30

<212>PRT

<213>Homo sapiens

<400>137

Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr

20 25 30

<210>138

<211>14

<212>PRT

<213>Artificial Sequence

<220>

<223>Homo sapiens insulin

<400>138

Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Gly

1 5 10

<210>139

<211>21

<212>PRT

<213>Homo sapiens

<220>

<221>MISC_FEATURE

<222>(8)..(8)

<223>X＝any amino acid

<400>139

Gly Ile Val Glu Gln Cys Cys Xaa Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>140

<211>30

<212>PRT

<213>Artificial Sequence

<220>

<223>Homo sapiens insulin

<400>140

Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr

20 25 30

<210>141

<211>21

<212>PRT

<213>Artificial Sequence

<220>

<223>Homo sapiens insulin

<220>

<221>MISC_FEATURE

<222>(8)..(8)

<223>X＝any amino acid

<400>141

Gly Ile Val Glu Gln Cys Cys Xaa Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>142

<211>30

<212>PRT

<213>Artificial Sequence

<220>

<223>Homo sapiens insulin

<400>142

Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr

20 25 30

<210>143

<211>21

<212>PRT

<213>Artificial Sequence

<220>

<223>Mini-proinsulin mutant

<400>143

Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu

1 5 10 15

Glu Asn Tyr Cys Asn

20

<210>144

<211>29

<212>PRT

<213>Artificial Sequence

<220>

<223>Mini-proinsulin mutant

<400>144

Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Asp Lys

20 25

<210>145

<211>50

<212>PRT

<213>Artificial Sequence

<220>

<223>Mini-proinsulin mutant

<400>145

Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr

1 5 10 15

Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Asp Lys Gly Ile Val

20 25 30

Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr

35 40 45

Cys Asn

50

<210>146

<211>3

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin C-peptide

<400>146

Ala Ala Lys

1

<210>147

<211>3

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin C-peptide

<400>147

Asn Lys Arg

1

<210>148

<211>6

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin C-peptide

<400>148

Arg Arg Lys Gln Lys Arg

1 5

<210>149

<211>4

<212>PRT

<213>Artificial Sequence

<220>

<223>Cleavage site

<400>149

Arg Arg Lys Arg

1

<210>150

<211>4

<212>PRT

<213>Artificial Sequence

<220>

<223>ER retention sequence

<400>150

Lys Asp Glu Leu

1

<210>151

<211>4

<212>PRT

<213>Artificial Sequence

<220>

<223>ER retention sequence

<400>151

His Asp Glu Leu

1

<210>152

<211>4

<212>PRT

<213>Artificial Sequence

<220>

<223>ER retention sequence

<400>152

Asp Asp Glu Leu

1

<210>153

<211>4

<212>PRT

<213>Artificial Sequence

<220>

<223>ER retention sequence

<400>153

Ala Asp Glu Leu

1

<210>154

<211>4

<212>PRT

<213>Artificial Sequence

<220>

<223>ER retention sequence

<400>154

Ser Asp Glu Leu

1

<210>155

<211>4

<212>PRT

<213>Lycopersicon esculentum Mill

<400>155

His Asp Glu Phe

1

<210>156

<211>118

<212>PRT

<213>Arabidopsis thaliana

<400>156

Met Ala Asp Thr Ala Arg Gly Thr His His Asp Ile Ile Gly Arg Asp

1 5 10 15

Gln Tyr Pro Met Met Gly Arg Asp Arg Asp Gln Tyr Gln Met Ser Gly

20 25 30

Arg Gly Ser Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Ala Thr

35 40 45

Ala Val Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu

50 55 60

Val Gly Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile

65 70 75 80

Phe Ser Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile

85 90 95

Thr Gly Phe Leu Ser Ser Gly Gly Phe Gly Ile Ala Ala Ile Thr Val

100 105 110

Phe Ser Trp Ile Tyr Lys

115

<210>157

<211>187

<212>PRT

<213>Brassica napus

<400>157

Met Ala Asp Thr Ala Arg Thr His His Asp Val Thr Ser Arg Asp Gln

1 5 10 15

Tyr Pro Arg Asp Arg Asp Gln Tyr Ser Met Ile Gly Arg Asp Arg Asp

20 25 30

Gln Tyr Ser Met Met Gly Arg Asp Arg Asp Gln Tyr Asn Met Tyr Gly

35 40 45

Arg Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Val Thr Ala Val

50 55 60

Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu Val Gly

65 70 75 80

Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile Phe Ser

85 90 95

Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile Thr Gly

100 105 110

Phe Leu Ser Ser Gly Gly Phe Ala Ile Ala Ala Ile Thr Val Phe Ser

115 120 125

Trp Ile Tyr Lys Tyr Ala Thr Gly Glu His Pro Gln Gly Ser Asp Lys

130 135 140

Leu Asp Ser Ala Arg Met Lys Leu Gly Thr Lys Ala Gln Asp Ile Lys

145 150 155 160

Asp Arg Ala Gln Tyr Tyr Gly Gln Gln His Thr Gly Gly Glu His Asp

165 170 175

Arg Asp Arg Thr Arg Gly Gly Gln His Thr Thr

180 185

<210>158

<211>748

<212>DNA

<213>Arabidopsis thaliana

<400>158

taccatgggg tcaaagacgg agatgatgga gagagacgca atggctacgg tggctcccta 60

tgcgccggtc acttaccatc gccgtgctcg tgttgacttg gatgatagac ttcctaaacc 120

ttatatgcca agagcattgc aagcaccaga cagagaacac ccgtacggaa ctccaggcca 180

taagaattac ggacttagtg ttcttcaaca gcatgtctcc ttcttcgata tcgatgataa 240

tggcatcatt tacccttggg agacctactc tggactgcga atgcttggtt tcaatatcat 300

tgggtcgctt ataatagccg ctgttatcaa cctgaccctt agctatgcca ctcttccggg 360

gtggttacct tcacctttct tccctatata catacacaac atacacaagt caaagcatgg 420

aagtgattca aaaacatatg acaatgaagg aaggtttatg ccggtgaatc ttgagttgat 480

atttagcaaa tatgcgaaaa ccttgccaga caagttgagt cttggagaac tatgggagat 540

gacagaagga aaccgtgacg cttgggacat ttttggatgg atcgcaggca aaatagagtg 600

gggactgttg tacttgctag caagggatga agaagggttt ttgtcaaaag aagctattag 660

gcggtgtttc gatggaagct tgttcgagta ctgtgccaaa atctacgctg gtatcagtga 720

agacaagaca gcatactacg ccatggat 748

<210>159

<211>738

<212>DNA

<213>Arabidopsis thaliana

<400>159

atggggtcaa agacggagat gatggagaga gacgcaatgg ctacggtggc tccctatgcg 60

ccggtcactt accaccgccg tgctcgtgtt gacttggatg atagacttcc taaaccttat 120

atgccaagag cattgcaagc accagacaga gaacacccgt acggaactcc aggccataag 180

aattacggac ttagtgttct tcaacagcat gtctccttct tcgatatcga tgataatggc 240

atcatttacc cttgggagac ctactctgga ctgcgaatgc ttggtttcaa tatcattggg 300

tcgcttataa tagccgctgt tatcaacctg acccttagct atgccactct tccggggtgg 360

ttaccttcac ctttcttccc tatatacata cacaacatac acaagtcaaa gcatggaagt 420

gattcaaaaa catatgacaa tgaaggaagg tttatgccgg tgaatcttga gttgatattt 480

agcaaatatg cgaaaacctt gccagacaag ttgagtcttg gagaactatg ggagatgaca 540

gaaggaaacc gtgacgcttg ggacattttt ggatggatcg caggcaaaat agagtgggga 600

ctgttgtact tgctagcaag ggatgaagaa gggtttttgt caaaagaagc tattaggcgg 660

tgtttcgatg gaagcttgtt cgagtactgt gccaaaatct acgctggtat cagtgaagac 720

aaqacaqcat actactaa 738

<210>160

<211>1047

<212>DNA

<213>Sesamum indicum

<400>160

atggatctaa tccacacttt cctcaactta atagctcccc ctttcacctt cttcttcctt 60

ctctttttct tgccaccctt ccagattttc aagttcttcc tttcaatctt gggcaccctt 120

ttcagcgagg atgtcgctgg aaaagtcgtc gtcatcaccg gcgcctcctc cggcatcggc 180

gaaagtcttg cttacgagta tgctaagaga ggggcgtgct tggtgcttgc tgcaagaagg 240

gaaaggagtc ttcaagaagt ggccgaaagg gcgcgcgatt tggggtcgcc ggacgtcgtg 300

gtggtccggg ccgatgtttc gaaggcggag gactgcagga aggttgttga tcagactatg 360

aatcgctttg gaagattgga tcacctggtc aataacgctg gaattatgtc agtttcaatg 420

ctggaagaag ttgaagatat tactggttac agagaaacta tggatatcaa cttctggggc 480

tatgtgtata tgacccgatt tgccgcccca taccttagga atagcagagg ccgaattgtt 540

gtactttctt catccagttc ttggatgcct actccgagga tgagttttta caatgcaagc 600

aaagcggcga tttcacaatt ttttgagaca ctgcgggtgg aattcggccc cgatataggc 660

ataacccttg tgactccagg attcatagaa tctgaactta cccaaggcaa attctacaat 720

gctggcgaac gtgtaattga tcaggacatg agagatgtac aagtgagcac gactccaatc 780

ctgagggtgg aaagtgcggc aaggtcaatc gtgaggagcg cgatccgtgg agaaagatac 840

gtgacagagc cggcctggtt tagggttact tattggtgga agctattctg ccctgaggtg 900

atggagtggg tatttagact gatgtacttg gccagcccgg gtgagccgga gaaggaaacg 960

tttggcaaga aggttttgga ttacacagga gtgaagtcct tgctttaccc ggaaaccgtg 1020

caagttccgg agcccaagaa tgattaa 1047

<210>161

<211>25

<212>PRT

<213>Tobacco，pathogensis related protein(PR-S)signal sequence

<400>161

Met Asn Phe Leu Lys Ser Phe Pro Phe Tyr Ala Phe Leu Cys Phe Gly

1 5 10 15

Gln Tyr Phe Val Ala Val Thr His Ala

20 25

<210>162

<211>64

<212>PRT

<213>Artificial Sequence

<220>

<223>Alpha factor leader seqence

<400>162

Ala Pro Val Asn Thr Thr Glu Asp Glu Thr Ala Gln Ala Glu Ala Val

1 5 10 15

Ile Gly Tyr Ser Asp Leu Glu Gly Asp Phe Asp Val Ala Val Leu Pro

20 25 30

Phe Ser Asn Ser Thr Asn Asn Gly Leu Leu Phe Ile Asx Thr Thr Ile

35 40 45

Ala Ser Ile Ala Ala Lys Glu Glu Gly Val Ser Leu Met Ala Lys Arg

50 55 60

<210>163

<211>63

<212>PRT

<213>Artificial Sequence

<220>

<223>Alpha factor leader sequence

<400>163

Ala Pro Val Asn Thr Thr Glu Asp Glu Thr Ala Gln Ala Glu Ala Val

1 5 10 15

Ile Gly Tyr Ser Asp Leu Glu Gly Asp Phe Asp Val Ala Val Leu Pro

20 25 30

Phe Ser Asn Ser Thr Asn Asn Gly Leu Leu Phe Ile Asx Thr Thr Ile

35 40 45

Ala Ser Ile Ala Ala Lys Glu Glu Gly Val Ser Met Ala Lys Arg

50 55 60

<210>164

<211>15

<212>PRT

<213>Artificial Sequence

<220>

<223>Alpha factor leader sequence

<400>164

Gln Pro Ile Asp Glu Asp Asn Asp Thr Ser Ser Met Ala Lys Arg

1 5 10 15

<210>165

<211>43

<212>PRT

<213>Artificial Sequence

<220>

<223>Alpha factor leader sequence

<400>165

Gln Pro Ile Asp Asp Thr Glu Ser Asn Thr Thr Ser Val Asn Leu Met

1 5 10 15

Ala Asp Asp Thr Glu Asp Arg Phe Ala Thr Asn Thr Thr Leu Ala Leu

20 25 30

Asp Val Val Asn Leu Ile Ser Met Ala Lys Arg

35 40

<210>166

<211>43

<212>PRT

<213>Artificial Sequence

<220>

<223>Alpha factor leader sequence

<400>166

Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val Asn Leu Met

1 5 10 15

Ala Asp Asp Thr Glu Asp Arg Phe Ala Thr Gln Thr Thr Leu Ala Leu

20 25 30

Asp Val Val Asn Leu Ile Ser Met Ala Lys Arg

35 40

<210>167

<211>43

<212>PRT

<213>Artificial Sequence

<220>

<223>Alpha factor leader sequence

<400>167

Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val Asn Leu Met

1 5 10 15

Ala Asp Asp Thr Glu Asp Arg Phe Ala Thr Gln Thr Thr Leu Ala Leu

20 25 30

Asp Val Val Asn Leu Ile Ser Met Ala Ala Ala

35 40

<210>168

<211>43

<212>PRT

<213>Artificial Sequence

<220>

<223>Alpha factor leader sequence

<400>168

Gln Pro Ile Asp Asp Thr Glu Ser Asn Thr Thr Ser Val Asn Leu Met

1 5 10 15

Ala Asp Asp Thr Glu Asp Arg Phe Ala Thr Asn Thr Thr Leu Ala Leu

20 25 30

Asp Val Val Asn Leu Ile Ser Met Ala Ala Ala

35 40

<210>169

<211>45

<212>PRT

<213>Artificial Sequence

<220>

<223>Alpha factor leader sequence

<400>169

Gln Pro Ile Asp Asp Thr Glu Ser Asn Thr Thr Ser Val Asn Leu Met

1 5 10 15

Ala Asp Asp Thr Glu Asp Arg Phe Ala Thr Asn Thr Thr Leu Ala Gly

20 25 30

Gly Leu Asp Val Val Asn Leu Ile Ser Met Ala Lys Arg

35 40 45

<210>170

<211>44

<212>PRT

<213>Artificial Sequence

<220>

<223>Alpha factor leader sequence

<400>170

Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val Asn Leu Met

1 5 10 15

Ala Asp Asp Thr Glu Ser Ala Phe Ala Thr Gln Thr Asn Ser Gly Gly

20 25 30

Leu Asp Val Val Gly Leu Ile Ser Met Ala Lys Arg

35 40

<210>171

<211>44

<212>PRT

<213>Artificial Sequence

<220>

<223>Alpha factor leader sequence

<400>171

Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val Asn Leu Met

1 5 10 15

Ala Asp Asp Thr Glu Ser Ala Phe Ala Thr Gln Thr Asn Ser Gly Gly

20 25 30

Leu Asp Val Val Gly Leu Ile Ser Met Ala Ala Ala

35 40

<210>172

<211>10

<212>PRT

<213>Spacer peptide

<400>172

Glu Glu Ala Glu Ala Glu Ala Glu Pro Lys

1 5 10

<210>173

<211>6

<212>PRT

<213>Artificial Sequence

<220>

<223>Spacer peptide

<400>173

Glu Glu Gly Glu Pro Lys

1 5

<210>174

<211>40

<212>PRT

<213>Artificial Sequence

<220>

<223>Cleavage site

<400>174

Met Ala Glu Ile Thr Arg Ile Pro Leu Tyr Lys Gly Lys Ser Leu Arg

1 5 10 15

Lys Ala Leu Lys Glu His Gly Leu Leu Glu Asp Phe Leu Gln Lys Gln

20 25 30

Gln Tyr Gly Ile Ser Ser Lys Phe

35 40

<210>175

<211>27

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>175

gcatgctgac attgtgatga cacagtc 27

<210>176

<211>43

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>176

aagcttgcat ttaaatactc gagactgtga gagtggtgcc ttg 43

<210>177

<211>70

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>177

gaagaaggag agcctaagtt tgttaatcaa catctttgtg gatctcatct tgttgaggct 60

ctctaccttg 70

<210>178

<211>56

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>178

ccttaggagt gtagaaaaat cctctttctc cacacacaag gtagagagcc tcaaca 56

<210>179

<211>21

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>179

ctaaggctgc taagggaatt g 21

<210>180

<211>83

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>180

aagcttcagt tgcaatagtt ctccaattgg taaagtgagc aaatagaagt gcaacattgt 60

tcaacaattc ccttagcagc ctt 83

<210>181

<211>30

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>181

ctcgagtcaa ccaattgatg acactgaatc 30

<210>182

<211>41

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>182

aagcttcaaa gttcatcctt gttgcaatag ttctccaatt g 41

<210>183

<211>21

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>183

aagcttcagt tgcaatagtt c 21

<210>184

<211>26

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>184

gcatgcccaa ccaattgatg acactg 26

<210>185

<211>34

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>185

gcatgcatgc ctttgttaat caacatcttt gtgg 34

<210>186

<211>54

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>186

acattgttca acaattcctc tctttcttct agtcttagga gtgtagaaaa atcc 54

<210>187

<211>29

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>187

gcataagctt caaagctcat cctttgagc 29

<210>188

<211>387

<212>DNA

<213>Artificial Sequence

<220>

<223>Insulin fusion protein nucleic acid sequence

<400>188

atgaacttcc ttaagtcttt ccctttctac gctttccttt gtttcggtca atacttcgtt 60

gctgttacgc atgcccaacc aattgatgac actgaatccc agaccacgtc agtgaacctc 120

atggccgatg atactgagag cgcgtttgct acacaaacaa attcgggagg tcttgacgtt 180

gtcggattga tctccatggc taagagagaa gaaggagagc ctaagtttgt taatcaacat 240

ctttgtggat ctcatcttgt tgaggctctc taccttgtgt gtggagaaag aggatttttc 300

tacactccta aggctgctaa gggaattgtt gaacaatgtt gcacttctat ttgctcactt 360

taccaattgg agaactattg caactga 387

<210>189

<211>128

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin factor protein

<400>189

Met Asn Phe Leu Lys Ser Phe Pro Phe Tyr Ala Phe Leu Cys Phe Gly

1 5 10 15

Gln Tyr Phe Val Ala Val Thr His Ala Gln Pro Ile Asp Asp Thr Glu

20 25 30

Ser Gln Thr Thr Ser Val Asn Leu Met Ala Asp Asp Thr Glu Ser Ala

35 40 45

Phe Ala Thr Gln Thr Asn Ser Gly Gly Leu Asp Val Val Gly Leu Ile

50 55 60

Ser Met Ala Lys Arg Glu Glu Gly Glu Pro Lys Phe Val Asn Gln His

65 70 75 80

Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu

85 90 95

Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala Lys Gly Ile Val Glu Gln

100 105 110

Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn

115 120 125

<210>190

<211>18

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>190

ttcgtgaacc aacacttg 18

<210>191

<211>20

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>191

aagctttcag ttacagtagt 20

<210>192

<211>17

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>192

gcatgcatgt gttgagc 17

<210>193

<211>16

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>193

ggtagtgtgc tggcca 16

<210>194

<211>38

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer

<400>194

ggtggccagc acactacctt cgtgaaccaa cacttgtg 38

<210>195

<211>1020

<212>DNA

<213>Artificial Sequence

<220>

<223>Insulin fusion protein nucleic acid sequence

<400>195

atggcggata cagctagagg aacccatcac gatatcatcg gcagagacca gtacccgatg 60

atgggccgag accgagacca gtaccagatg tccggacgag gatctgacta ctccaagtct 120

aggcagattg ctaaagctgc aactgctgtc acagctggtg gttccctcct tgttctctcc 180

agccttaccc ttgttggaac tgtcatagct ttgactgttg caacacctct gctcgttatc 240

ttcagcccaa tccttgtccc ggctctcatc acagttgcac tcctcatcac cggttttctt 300

tcctctggag ggtttggcat tgccgctata accgttttct cttggattta caagtaagca 360

cacatttatc atcttacttc ataattttgt gcaatatgtg catgcatgtg ttgagccagt 420

agctttggat caattttttt ggtagaataa caaatgtaac aataagaaat tgcaaattct 480

agggaacatt tggttaacta aatacgaaat ttgacctagc tagcttgaat gtgtctgtgt 540

atatcatcta tataggtaaa atgcttggta tgatacctat tgattgtgaa taggtacgca 600

acgggagagc acccacaggg atcagacaag ttggacagtg caaggatgaa gttgggaagc 660

aaagctcagg atctgaaaga cagagctcag tactacggac agcaacatac tggtggggaa 720

catgaccgtg accgtactcg tggtggccag cacactacct tcgtgaacca acacttgtgt 780

ggatctcatc tcgttgaagc tctctacttg gtttgtggtg agagaggatt cttctacact 840

cctaagacca gaagggaagc tgaggacttg caggtgggac aagttgagtt gggtggaggt 900

cctggagcag gatctttgca acctctcgct ttggaaggtt ctttgcagaa gagaggaatc 960

gttgaacaat gttgcacttc aatctgttct ttgtatcagt tggagaacta ctgtaactga 1020

<210>196

<211>257

<212>PRT

<213>Artificial Sequence

<220>

<223>Insulin fusion protein

<400>196

Met Ala Asp Thr Ala Arg Gly Thr His His Asp Ile Ile Gly Arg Asp

1 5 10 15

Gln Tyr Pro Met Met Gly Arg Asp Arg Asp Gln Tyr Gln Met Ser Gly

20 25 30

Arg Gly Ser Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Ala Thr

35 40 45

Ala Val Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu

50 55 60

Val Gly Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile

65 70 75 80

Phe Ser Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile

85 90 95

Thr Gly Phe Leu Ser Ser Gly Gly Phe Gly Ile Ala Ala Ile Thr Val

100 105 110

Phe Ser Trp Ile Tyr Ala Thr Gly Glu His Pro Gln Gly Ser Asp Lys

115 120 125

Leu Asp Ser Ala Arg Met Lys Leu Gly Ser Lys Ala Gln Asp Leu Lys

130 135 140

Asp Arg Ala Gln Tyr Tyr Gly Gln Gln His Thr Gly Gly Glu His Asp

145 150 155 160

Arg Asp Arg Thr Arg Gly Gly Gln His Thr Thr Phe Val Asn Gln His

165 170 175

Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu

180 185 190

Arg Gly Phe Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu

195 200 205

Gln Val Gly Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu

210 215 220

Gln Pro Leu Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu

225 230 235 240

Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys

245 250 255

Asn

Claims

1、一种在植物种子内表达胰岛素的方法，包括：

(a)提供嵌合核酸构建体，其包括在转录的5’至3’方向可操纵连接的下列组分：

(i)能够在植物种子细胞中控制表达的核酸序列；和

(ii)编码胰岛素多肽的核酸序列；

(b)把嵌合核酸构建体导入种子细胞内；以及

(c)令植物细胞成长为成熟植物，所述植物能够结种子，其中种子表达胰岛素。

2、如权利要求1的方法，其中胰岛素多肽在植物细胞中膜包围的细胞内区室内累积。

3、如权利要求2的方法，其中所述膜包围的细胞内区室是内质网(ER)或ER衍生的储存小泡。

4、如权利要求1的方法，其中所述嵌合核酸序列另包括编码一种多肽的核酸序列，该多肽能够把胰岛素多肽保持在膜包围的细胞内区室中。

5、如权利要求4的方法，其中所述膜包围的细胞内区室是内质网(ER)或ER衍生的储存细胞器。

6、如权利要求5的方法，其中所述把胰岛素多肽保持在ER内的多肽选自KDEL、HDEL、DDEL、ADEL和SDEL。

7、如权利要求5的方法，其中所述把胰岛素多肽保持在ER内的多肽选自SEQ ID NO：150、SEQ ID NO：151、SEQ ID NO：152、SEQ ID NO：153和SEQ ID NO：154。

8、如权利要求6或7的方法，其中所述胰岛素多肽另包括编码信号肽的核酸序列。

9、如权利要求8的方法，其中所述信号肽是烟草发病相关蛋白(PR-S)信号序列。

10、如权利要求8的方法，其中所述信号序列是SEQ ID NO：161。

11、如权利要求5的方法，其中所述ER衍生储存细胞器是油体。

12、如权利要求5的方法，其中所述把胰岛素多肽保持于ER衍生储存细胞器内的多肽是油体蛋白质。

13、如权利要求12的方法，其中所述油体蛋白质选自油质蛋白、油体钙蛋白和油体固醇蛋白。

14、如权利要求12的方法，其中该油体蛋白质选自SEQ ID NO：156、SEQ ID NO：157、SEQ ID NO：158、SEQ ID NO：159和SEQID NO：160。

15、如权利要求4的方法，其中所述嵌合核酸另包含编码稳定蛋白的核酸序列，其与编码胰岛素的核酸序列在读框内融合。

16、如权利要求15的方法，其中所述嵌合核酸另含有编码信号肽序列的核酸序列，其与编码胰岛素的核酸序列在读框内融合。

17、如权利要求15的方法，其中所述信号肽是烟草发病相关蛋白(PR-5)信号序列。

18、如权利要求17的方法，其中所述信号肽是SEQ ID NO：161。

19、如权利要求15的方法，其中在种子收获和研磨时，所述编码所述稳定蛋白的核酸可使胰岛素多肽与油体相结合。

20、如权利要求19的方法，其中所述稳定蛋白编码对油体具有特异性的单链抗体。

21、如权利要求15的方法，其中与编码胰岛素的核酸序列在读框内融合的、编码稳定蛋白的核酸序列选自由单链抗体和霍乱毒素B亚基组成的多肽组中。

22、如权利要求3的方法，其中在核基因组整合条件下将所述嵌合核酸序列导入植物细胞内。

23、如权利要求1-22任一项的方法，其中所述能够在植物种子内控制表达的核酸序列是种子偏好启动子。

24、如权利要求23的方法，其中种子偏好启动子是菜豆蛋白启动子。

25、如权利要求1-24任一项的方法，其中编码胰岛素的核酸序列选自由人胰岛素、猪胰岛素和牛胰岛素组成的核酸序列组中。

26、如权利要求1-25任一项的方法，其中编码胰岛素的核酸是微型胰岛素。

27、如权利要求1-26任一项的方法，其中编码胰岛素的核酸序列根据植物密码子使用表进行优化。

28、一种获得包含胰岛素的植物种子的方法，包括：

(i)能够在植物种子细胞内控制表达的核酸序列；和

(ii)编码胰岛素多肽的核酸序列；

(b)把嵌合核酸构建体导入植物细胞；

(c)令植物细胞成长为能够结种子的成熟植物；以及

(d)从该植物获得种子，其中种子包含胰岛素。

29、如权利要求28的方法，其中种子内存在的总可溶性蛋白质的至少0.1％是胰岛素。

30、一种能够结种子的植物，所述种子包括嵌合核酸序列，所述嵌合核酸序列在转录的5’至3’方向包括：

(a)第一种核酸序列，其能够在植物种子细胞内控制表达，其可操纵地连接于；

(b)第二种核酸序列，其编码胰岛素多肽，其中种子含有胰岛素。

31、如权利要求28的植物，其中嵌合核酸序列整合于植物核基因组内。

32、如权利要求30或31的植物，其中植物是芥属、亚麻或红花植物。

33、一种植物种子，其包括嵌合核酸序列，该序列在转录的5’至3’方向包括：

(b)第二种核酸序列，其编码胰岛素多肽。

34、如权利要求33的植物种子，其中种子内存在的总可溶性蛋白质的至少0.1％是胰岛素。

35、一种编码胰岛素的核酸序列，其连接于一种包括能够在植物种子细胞内控制表达的启动子的核酸序列。

36、如权利要求35的核酸序列，其中所述启动子是种子偏好启动子。

37、如权利要求36的核酸序列，其中所述种子偏好启动子是菜豆蛋白启动子。

38、如权利要求35的核酸序列，其中所述核酸序列另含有能将胰岛素多肽保持于膜包围的细胞内区室内的序列。

39、如权利要求35的核酸序列，其中所述核酸序列另含有能将胰岛素多肽保持于ER或ER衍生储存细胞器内的序列。

40、根据权利要求1-29任一项制备的植物种子在获得基本上纯的胰岛素中的应用。