CN101280305A

CN101280305A - 能调节对细胞因子的细胞反应性的治疗和诊断制剂

Info

Publication number: CN101280305A
Application number: CNA2006101359229A
Authority: CN
Inventors: D·J·希尔顿; W·S·亚历山大; E·M·威尼; T·A·威尔逊; R·T·理查森; R·斯塔尔; S·E·尼科尔森; D·梅特卡夫; N·A·尼克拉
Original assignee: Inst Medical W & E Hall
Current assignee: Inst Medical W & E Hall
Priority date: 1996-11-01
Filing date: 1997-10-31
Publication date: 2008-10-08
Also published as: EP1975234A2; US20080166730A1; JP2001502183A; GB9905020D0; EP0948522B1; ES2308785T3; CN1253565A; EP0948522A4; KR100719080B1; DK0948522T3; ATE398136T1; JP2009060903A; GB2331753A; NO992116D0; KR20060053007A; EP0948522A1; KR20000053017A; NO992116L; CA2270171A1; DE69738767D1

Abstract

本发明总的涉及治疗和诊断试剂，更具体地，本发明提供能调节信号传导，例如但不限于细胞因子介导的信号传导的治疗分子。本发明在调节对细胞因子及其它信号传导介质如内源或外源分子、抗原、微生物群体和微生物产物、病毒或其组成成分、离子、激素和寄生物的细胞反应性中有用。

Description

能调节对细胞因子的细胞反应性的治疗和诊断制剂

本申请为分案申请，母案申请日为1997年10月31日，申请号为97180920.8(国际申请号PCT/AU97/00729)，发明名称为“能调节对细胞因子的细胞反应性的治疗和诊断制剂”。

发明领域

本发明总的涉及治疗和诊断制剂。更具体地，本发明提供能够调节信号传导，例如但不限于细胞因子介导的信号传导的治疗分子。本发明在调节对细胞因子及其它信号传导介质如内源或外源分子、抗原、微生物群体和微生物产物、病毒或其组成成分、离子、激素和寄生物的细胞反应性中有用。

作者将本说明书提及的公开文献的目录细节收在本说明书后。本说明中提及的核苷酸和氨基酸的序列鉴定号在文献目录后定义。SEQ IDNO总结于表1。

在下面说明书和权利要求书中，除非内容需求，否则词“包括”或“包含”应理解将为含有所述的整数或整数群但不排除任何其它整数或整数群。

发明背景

为调节生理和生化过程，继而影响将发生的行为，细胞持续地监测着它们的环境。一般地，细胞与其周边之间最初的相互作用经质膜上表达的受体发生。受体经内源配体(如细胞因子)或外源配体(如抗原)结合而活化，激发从膜到细胞质至细胞核的生化级联反应。

在内源配体中，细胞因子为特别重要和熟悉的一类。细胞因子是调节存活、繁殖、分化和体内名种细胞功能的蛋白(Nicola，1994)。造血细胞因子有共同的4个α螺旋串结构并且大多数与结构相关的细胞表面受体家族I型和II型细胞因子受体相互作用(Bazan，1990；Sprang，1993)。在所有情况下，配体诱导的受体聚集看来是启动细胞内信号传导级联反应的关键事件。一些细胞因子如生长激素、促红细胞生成素和粒细胞集落刺激因子(G-CSF)激发受体同源二聚体的形成，而对于其它细胞因子，异源二聚体或异源三聚体形成是关键的。对于后一种情况，几种细胞因子使用共同的受体亚单位，并且基于此可以将它们归为具有相似的细胞内活化模式和相似的生物效应的三个家族(Hilton，1994)。白细胞介素-3(IL-3)、IL-5和粒细胞-巨噬细胞集落刺激因子(G-CSF)使用共同的β受体亚单位，并且每个细胞因子都刺激粒细胞和巨噬细胞的合成和功能性活性。IL-2、IL-4、IL-7、IL-9和IL-15都使用共同的γ链(γc)，而IL-4和IL-13使用可选择的γ链(γC或IL-13受体α链)。这些细胞因子都在调节淋巴系统内获得性免疫方面起重要作用。最后，IL-6、IL-11、白血病抑制因子(LIF)、制癌蛋白-M(OSM)、睫状神经营养因子(CNTF)和促心激素(CT)使用受体亚单位gp130。这些细胞因子都表现高度多效性，在造血系统内外都有效力[Nicola，1994)。

在所有上述情况中，每种受体复合物的至少一个亚单位在它们的胞质尾部含有保守的序列元件，称为元件盒1和元件盒2[Murakami，1991]。元件盒1是富集脯氨酸的基序，位于比酸性元件盒2元件离转膜结构域更近的位置。元件盒1区域作用为称为JAK(Janus激酶)的一类胞质酪氨酸激酶的结合位点。配体诱导的受体二聚体形成导致结合的JAK通过交叉磷酸化作用增加催化活性。然后活化的JAK对几种底物包括受体本身进行酪氨酸磷酸化。然后受体上特异的磷酸酪氨酸残基作用为含SH2蛋白的对接位点，含SH2蛋白的最佳典型是信号转导蛋白、转录激活物(STAT)和转接蛋白shc。然后STAT可能在酪氨酸处被JAK磷酸化，从受体上解离并通过一个STAT的SH2结构域和另一个STAT的磷酸酪氨酸残基位点间的相互作用形成同源二聚体和异源二聚体。然后STAT二聚体转移到核内，在那里它们与特异的细胞因子反应性启动子结合并活化转录[Darnell，1994；Ihle，1995，Ihle，1995)。在另一通路中，酪氨酸磷酸化的Shc与另一含有SH2结构域的蛋白Grb-2相互作用最终导致MAP激酶家族成员的活化并继而导致转录因子如fos和jun的激活[San，1993；Culter，1993]。这些通路不是细胞因子受体家族成员专有的，因为结合受体酪氨酸激酶的细胞因子也能激活STAT和MAP激酶家族的成员[David，1996；Leamen，1996；Shual，1993；Sato，1993；Cutler，1993]。

已有JAK胞质酪氨酸激酶家族的四个成员JAK1、JAK2、JAK3和JYK2得到描述，这四个成员的每一个都与细胞因子受体亚单位的特定亚型结合。也有6个STAT得到描述(STAT1-STAT6)，它们也由不同的细胞因子/受体复合物活化。例如，STAT1看来对干扰素系统有功能特异性，STAT4看来对IL-12特异，而STAT6对IL-4和IL-13特异。因此，尽管有相同的活化机制，但是某些程度的细胞因子特异性可以通过使用特异的JAK和STAT得到[Thierfelder，1996；Kaplan，1996；Takeda，1996；Shimoda，1996；Meraz，1996；Durbin，1996]。

除了上述的那些，也有一些这些通路活化的其它机制。例如，JAK/STAT通路看来能独立于shc诱导的通路活化MAP激酶[David，1995]，并且STAT本身也许可以在不与受体结合时通过与JAK直接相互作用活化[Gupta，1996]。相反地，STAT的完全活化可能需要MAP激酶的活化和JAK的活化[David，1995；Wen 1995]。

尽管对这些信号通路活化的了解越来越多，但是对这些通路的调节包括正或负反馈环的情况了解还很少。既然一旦细胞开始对刺激反应是重要的，那么调节反应的强度和时间及信号传导的关闭也是关键的。同样，系统地或甚至局部地在所需的位置增强反应的强度是有利的。

在取得本发明的工作中，发明人设法分离信号传导的负调节因子。本发明人目前已鉴定了能作用为信号调节因子的新蛋白家族。根据最初鉴定的新蛋白家族分子抑制细胞因子介导的信号传导的能力，将它们定义为细胞因子信号传导抑制剂(SOCS)家族。然而应当注意的是，不是所有的SOCS家族成员一定有抑制功能或只是靶向细胞因子介导的信号传导。依据位于称为SOCS元件盒的C末端基序的N端氨基酸，SOCS家族包含至少三类蛋白分子。新的调节分子家族的鉴定使得可以制备一系列能够调节信号传导并因此能调节对一系列分子包括细胞因子的反应性的效应物或调节剂分子。因此，本发明提供以SOCS蛋白，其衍生物、同系物、类似物和模拟物以及SOCS蛋白的拮抗剂和兴奋剂为基础的治疗和诊断试剂。

发明概述

本发明尤其提供编码SOCS蛋白家族成员的核酸分子以及蛋白本身。此后提及的“SOCS”包括任何或所有SOCS家族成员。特异的SOCS分子用数字定义，如SOCS1、SOCS2和SOCS3。从中得到SOCS的物种可以用开始的单字母缩写表示，其中“h”是人，“m”是小鼠，“r”是大鼠。因此，“mSOCS1”是来自动物小鼠的特异的SOCS。此处提及的“SOCS”不是指蛋白专门抑制细胞因子介导的信号传导，分子也可以调节其它效应物如通过激素或其它内源或外源分子、抗原、微生物群体和微生物产物、病毒或其成分、离子、寄生物介导的信号传导。术语“调节”包括正调节、负调节及特定水平的维持。

本发明的一方面提供包含编码在其C末端区域含有SOCS元件盒的蛋白或其衍生物、同系物、类似物或模拟物的核苷酸序列或与其互补的核苷酸序列的核酸分子或在42℃低严格条件下与其杂交的核酸分子。

本发明的另一方面提供包含编码含有在其C末端区域的SOCS元件盒和蛋白：分子相互作用区域的蛋白或其衍生物、同系物、类似物或模拟物的核苷酸序列或与其互补的核苷酸序列的核酸分子或在42℃低严格条件下与其杂交的核酸分子。

本发明的另一方面针对包含编码含有C末端区域SOCS元件盒和位于SOCS元件盒的N端区域的蛋白：分子相互作用区域的蛋白或其衍生物、同系物、类似物或模拟物的核苷酸序列或与其互补的核昔酸序列的核酸分子或在42℃低严格条件下与其杂交的核酸分子。

优选地，蛋白：分子相互作用区域是蛋白：DNA或蛋白：蛋白结合区域。

本发明的另一方面提供包含编码含有在其C末端区域的SOCS元件盒和SOCS元件盒N端的一个或多个SH2结构域、WD-40重复或锚蛋白重复的蛋白或其衍生物、同系物、类似物或模拟物的核苷酸序列或与其互补的核苷酸序列的核酸分子或在42℃低严格条件下与其杂交的核酸分子。

本发明的另一方面针对包含编码在其C末端区域含有SOCS元件盒的蛋白或其衍生物、同系物、类似物或模拟物的核苷酸序列或与其互补的核苷酸序列的核酸分子或在42℃低严格条件下与其杂交的核酸分子，其中SOCS元件盒含有以下氨基酸序列：

X₁X₂X₃X₄X₅X₆X₇X₈X₉X₁₀X₁₁X₁₂X₁₃X₁₄X₁₅X₁₆[X_i]_nX₁₇X₁₈X₁₉X₂₀X₂₁X₂₂X₂₃[Xj]_nX₂₄X₂₅X₂₆X₂₇X₂₈

其中，X₁是L，I，V，M，A或P；

X₂是任何氨基酸残基；

X₃是P，T或S；

X₄是L，I，V，M，A或P；

X₅是任何氨基酸；

X₆是任何氨基酸；

X₇是L，I，V，M，A，F，Y或W；

X₈是C，T或S；

X₉是R，K或H；

X₁₀是任何氨基酸；

X₁₁是任何氨基酸；

X₁₂是L，I，V，M，A或P；

X₁₃是任何氨基酸；

X₁₄是任何氨基酸；

X₁₅是任何氨基酸；

X₁₆是L，I，V，M，A，P，G，C，T或S；

[X_i]_n是n个氨基酸的序列，其中n是从1到50个氨基酸，而其中序列X_i可以包含相同或不同的选自任何氨基酸残基的氨基酸；

X₁₇是L，I，V，M，A或P；

X₁₈是任何氨基酸；

X₁₉是任何氨基酸；

X₂₀L，I，V，M，A或P；

X₂₁是P；

X₂₂是L，I，V，M，A，P或G；

X₂₃是P或N；

[X_j]_n是n个氨基酸的序列，其中n是从1到50个氨基酸，而其中序列X_j可以包含相同或不同的选自任何氨基酸残基的氨基酸；

X₂₄是L，I，V，M，A或P；

X₂₅是任何氨基酸；

X₂₆是任何氨基酸；

X₂₇是Y或F；

X₂₈是L，I，V，M，A或P；

并且在SOCS元件盒的N端的蛋白：分子相互作用区域例如但不限于一个或多个SH2结构域、WD-40重复和/或锚蛋白重复。

本发明的另一方面针对包含编码表现以下特征的蛋白或其衍生物、同系物、类似物或模拟物的核苷酸序列或与其互补的核苷酸序列的核酸分子或在42℃低严格条件下与其杂交的核酸分子：

(i)在其C末端区域包含具有如下氨基酸序列的SOCS元件盒：

X₁X₂X₃X₄X₅X₆X₇X₈X₉X₁₀X₁₁X₁₂X₁₃X₁₄X₁₅X₁₆[X_i]_nX₁₇X₁₈X₁₉X₂₀X₂₁X₂₂X₂₃[Xj]_n X₂₄X₂₅X₂₆X₂₇X₂₈

其中，X₁是L，I，V，M，A或P；

X₂是任何氨基酸残基；

X₃是P，T或S；

X₄是L，I，V，M，A或P；

X₅是任何氨基酸；

X₆是任何氨基酸；

X₇是L，T，V，M，A，F，Y或W；

X₈是C，T或S；

X₉是R，K或H；

X₁₀是任何氨基酸；

X₁₁是任何氨基酸；

X₁₂是L，I，V，M，A或P；

X₁₃是任何氨基酸；

X₁₄是任何氨基酸；

X₁₅是任何氨基酸；

X₁₆是L，I，V，M，A，P，G，C，T或S；

X₁₇是L，I，V，M，A或P；

X₁₈是任何氨基酸；

X₁₉是任何氨基酸；

X₂₀L，I，V，M，A或P；

X₂₁是P；

X₂₂是L，I，V，M，A，P或G；

X₂₃是P或N；

X₂₄是L，I，V，M，A或P；

X₂₅是任何氨基酸；

X₂₆是任何氨基酸；

X₂₇是Y或F；

X₂₈是L，I，V，M，A或P；

(ii)在SOCS元件盒N端区域内包含至少一个SH2结构域、WD-40重复和/或锚蛋白重复或其它蛋白：分子相互作用区域。

优选地，SOCS分子调节诸如来自细胞因子或激素或其它外源或内源分子、微生物群体或微生物产物、抗原或寄生物的信号传导。

更优选地，SOC分子调节细胞因子介导的信号传导。

本发明的另一方面提供包含编码表现以下特征的蛋白或其衍生物、同系物、类似物或模拟物的核苷酸序列或与其互补的核苷酸序列的核酸分子或在42℃低严格条件下与其杂交的核酸分子：

(i)能调节信号传导；

(ii)在其C末端包含具有以下氨基酸序列的SOCS元件盒：

X₁X₂X₃X₄X₅X₆X₇X₈X₉X₁₀X₁₁X₁₂X₁₃X₁₄X₁₅X₁₆[X_i]_n X₁₇X₁₈X₁₉X₂₀X₂₁X₂₂X₂₃[Xj]_nX₂₄X₂₅X₂₆X₂₇X₂₈

其中，X₁是L，I，V，M，A或P；

X₂是任何氨基酸残基；

X₃是P，T或S；

X₄是L，I，V，M，A或P；

X₅是任何氨基酸；

X₆是任何氨基酸；

X₇是L，I，V，M，A，F，Y或W；

X₈是C，T或S；

X₉是R，K或H；

X₁₀是任何氨基酸；

X₁₁是任何氨基酸；

X₁₂是L，I，V，M，A或P；

X₁₃是任何氨基酸；

X₁₄是任何氨基酸；

X₁₅是任何氨基酸；

X₁₆是L，I，V，M，A，P，G，C，T或S；

X₁₇是L，I，V，M，A或P；

X₁₈是任何氨基酸；

X₁₉是任何氨基酸；

X₂₀L，I，V，M，A或P；

X₂₁是P；

X₂₂是L，I，V，M，A，P或G；

X₂₃是P或N；

X₂₄是L，I，V，M，A或P；

X₂₅是任何氨基酸；

X₂₆是任何氨基酸；

X₂₇是Y或F；

X₂₈是L，I，V，M，A或P；

(iii)在SOCS元件盒N端区域内包含至少一个SH2结构域、WD-40重复和/或锚蛋白重复或其它蛋白：分子相互作用结构域。

优选地，信号传导由细胞因子如一个或多个EPO，TPO，G-CSF，GM-CSF，IL-3，IL-2，IL-4，IL-7，IL-13，IL-6，LIF，IL-12，IFNα，TNF α，IL-1和/或M-CSF介导。

优选地，信号传导由一个或多个白细胞介素6(IL-6)、白血病抑制因子(LIF)、制癌蛋白(OSM)、干扰素(IFN)-α和/或促血小板生成素介导。

优选地，信号传导由IL-6介导。

特别优选的核酸分子包含主要如下列出的核苷酸序列：

SEQ ID NO：3(mSOCS1)，SEQ ID NO：5(mSOCS2)，SEQ ID NO：7(mSOCS3)，SEQID NO：9(hSOCS1)，SEQ ID NO：11(rSOCS1)，SEQ ID NO：13(mSOCS4)，SEQ ID NO：15和SEQID NO：16(hSOCS4)，SEQ ID NO：17(mSOCS5)，SEQ ID NO：19(hSOCS5)，SEQID NO：20(mSOCS6)，SEQ ID NO：22和SEQ ID NO：23(hSOCS6)，SEQ ID NO：24(mSOCS7)，SEQ ID NO：26和SEQ ID NO：27(hSOCS7)，SEQ ID NO：28(mSOCS8)，SEQID NO：30(mSOCS9)，SEQ ID NO：31(hSOCS9)，SEQ ID NO：32(mSOCS 10)，SEQ ID NO：33和SEQ ID NO：34(hSOCS 10)，SEQ ID NO：35(hSOCS 11)，SEQ ID NO：37(mSOCS 12)，SEQ ID NO：38和SEQ ID NO：39(hSOCS 12)，SEQ ID NO：40(mSOCS 13)，SEQ ID NO：42(hSOCS 13)，SEQ ID NO：43(mSOCS 14)，SEQ ID NO：45(mSOCS 15)和SEQ ID NO：47(hSOCS15)或与任一列出的序列的所有或部分区域有至少约15％相似性的核苷酸序列或能与任一列出的序列在42℃低严格条件下杂交的核酸分子。

本发明的另一方面涉及在其C末端区域包含SOCS元件盒的蛋白或其同系物、类似物或模拟物。

本发明的另一方面针对包含在其C末端区域的SOCS元件盒和蛋白：分子相互作用区域的蛋白或其同系物、类似物或模拟物。

本发明的另一方面提供在SOCS元件盒的N端区域含有相互作用区域的蛋白或其同系物、类似物或模拟物。

本发明的另一方面包括包含在其C末端区域的SOCS元件盒和SOCS元件盒N端的SH2结构域、WD-40重复成锚蛋白重复的蛋白或其同系物、类似物或模拟物。

本发明的另一方面提供表现以特征的蛋白或其同系物、类似物或模拟物。

(i)在其C末端包含具有以下氨基酸序列的SOCS元件盒：

其中，X₁是L，I，V，M，A或P；

X₂是任何氨基酸残基；

X₃是P，T或S；

X₄是L，I，V，M，A或P；

X₅是任何氨基酸；

X₆是任何氨基酸；

X₇是L，I，V，M，A，F，Y或W；

X₈是C，T或S；

X₉是R，K或H；

X₁₀是任何氨基酸；

X₁₁是任何氨基酸；

X₁₂是L，I，V，M，A或P；

X₁₃是任何氨基酸；

X₁₄是任何氨基酸；

X₁₅是任何氨基酸；

X₁₆是L，I，V，M，A，P，G，C，T或S；

[X_i]n是n个氨基酸的序列，其中n是从1到50个氨基酸，而其中序列X_i可以包含相同或不同的选自任何氨基酸残基的氨基酸；

X₁₇是L，I，V，M，A或P；

X₁₈是任何氨基酸；

X₁₉是任何氨基酸；

X₂₀L，I，V，M，A或P；

X₂₁是P；

X₂₂是L，I，V，M，A，P或G；

X₂₃是P或N；

X₂₄是L，I，V，M，A或P；

X₂₅是任何氨基酸；

X₂₆是任何氨基酸；

X₂₇是Y或F；

X₂₈是L，I，V，M，A或P；

(ii)在SOCS元件盒N端区域内包含至少一个SH2结构域、WD-40重复和/或锚蛋白重复或其它蛋白：分子相互作用结构域。

优选地，蛋白调节信号传导如细胞因子介导的信号传导。

优选的细胞因子是EPO，TPO，G-CSF，GM-CSF，IL-3，IL-2，IL-4，IL-7，IL-13，IL-6，LIF，IL-12，IFYγ，TNFα，IL-1和/或M-CSF。

特别优选的细胞因子是IL-6。

本发明的另一方面提供表现以下特征的蛋白或其衍生物、同系物、类似物或模拟物：

(i)能调节信号传导如细胞因子介导的信号传导；

(ii)在其C末端包含具有以下氨基酸序列的SOCS元件盒：

X₁X₂X₃X₄X₅X₆X₇X₈X₉X₁₀X₁₁X₁₂X₁₃X₁₄X₁₅X₁₆[X_i]_n X₁₇X₁₈X₁₉X₂₀X₂₁X₂₂X₂₃[Xj]_n X₂₄X₂₅X₂₆X₂₇X₂₈

其中，X₁是L，I，V，M，A或P；

X₂是任何氨基酸残基；

X₃是P，T或S；

X₄是L，I，V，M，A或P；

X₅是任何氨基酸；

X₆是任何氨基酸；

X₇是L，I，V，M，A，F，Y或W；

X₈是C，T或S；

X₉是R，K或H；

X₁₀是任何氨基酸；

X₁₁是任何氨基酸；

X₁₂是L，I，V，M，A或P；

X₁₃是任何氨基酸；

X₁₄是任何氨基酸；

X₁₅是任何氨基酸；

X₁₆是L，I，V，M，A，P，G，C，T或S；

X₁₇是L，I，V，M，A或P；

X₁₈是任何氨基酸；

X₁₉是任何氨基酸；

X₂₀L，I，V，M，A或P；

X₂₁是P；

X₂₂是L，I，V，M，A，P或G；

X₂₃是P或N；

X₂₄是L，I，V，M，A或P；

X₂₅是任何氨基酸；

X₂₆是任何氨基酸；

X₂₇是Y或F；

X₂₈是L，I，V，M，A或P；

特别优选的SOCS蛋白包含主要如下列出的氨基酸序列：

SEQ ID NO：4(mSOCS1)，SEQ ID NO：6(mSOCS2)，SEQ ID NO：8(mSOCS3)，SEQ IDNO：10(hSOCS1)，SEQ ID NO：12(rSOCS1)，SEQ ID NO：14(mSOCS4)，SEQ ID NO：18(mSOCS5)，SEQ ID NO：21(mSOCS6)，SEQ ID NO：25(mSOCS7)，SEQ ID NO：29(mSOCS8)，SEQ ID NO：36(hSOCS11)，SEQ ID NO：41(mSOCS13)，SEQ ID NO：44(mSOCS14)，SEQ ID NO：46(mSOCS15)和SEQ ID NO：48(hSOCS15)或与任一列出的序列的所有或部分区域有15％相似性的氨基酸序列。

本发明的另一方面包括调节细胞内SOCS蛋白水平的方法，该方法包括使含有SOCS基因的细胞与有效量的SOCS基因表达或SOCS蛋白活性的调节剂在足以调节所述SOCS蛋白水平的条件下接触一段时间。

本发明的另一方面提供调节含有SOCS基因的细胞内信号传导的方法，该方法包括使所述细胞与有效量的SOCS基因表达或SOCS蛋白活性的调节剂接触足以调节信号传导的一段时间。

本发明的另一方面针对影响其中至少一种细胞带有SOCS基因的细胞间相互作用的方法，该方法包括使带有SOCS基因的细胞与有效量的SOCS基因表达或SOCS蛋白活性的调节剂接触足以调节信号传导的一段时间。

根据本发明，[X_i]_n和[X_j]_n中的n除了1-50外，还可以是1-30，1-20，1-10和1-5。

在本说明书中提及的SEQ ID NO的总结在表1中给出。

表1 序列鉴定号的总结

使用单字母和三字母缩写指代氨基酸残基并且将它们总结在表2中。

表2

附图简述

在一些图中，使用缩写来指代具有特定结合基序的SOCS蛋白。含有WD-40重复的SOCS蛋白称为WSB1-WSB4。带有锚蛋白重复的SOCS蛋白称为ASB1-ASB3。

图1是表示制备在逆转录病毒RUF_neo逆转录病毒侵染时IL-6非反应性的M1克隆的图示，表示了限制性内切酶标记、4A2cDNA插入和PCR引物序列的位置。

图2是Southern和Northern分析的摄影图示。左边和中间板表示克隆4A2和对照侵染的M1克隆的基因组DNA的Southern印迹分析。用BamHI消化DNA以揭示每个克隆携带的逆转录病毒的数目，用SacI消化以估计逆转录病毒cDNA插入的大小。左边板：用neo探测。右边板：用XhoI消化的4A2PCR产物探测。左边板表示用XhoI消化的4A2PCR产物探测克隆4A2和对照侵染的M1克隆的总RNA的Northern印迹分析。两条带表示来自逆转录病毒基因组剪接供体和受体位点的未剪接的和剪接的逆转录病毒转录物。

图3是SOCS1基因的氨基酸序列和结构图示。A：鼠染色体16上与鱼精蛋白基因簇相关的SOCS1的基因组前后关系。该基因座的登记号是MMPRMGNS(直接提交；G.Schlueter，1996)。B：SOCS1cDNA的核苷酸序列和推测的氨基酸序列。使用传统的单字母缩写代表氨基酸序列，星号代表终止密码子。编码区域以大写字母表示，非编码区域以小写字母表示。

图4是细胞因子参与的细胞分化图示。使用亲本M1细胞(M1和M1.mpl)和表达SOCS1的M1细胞(4A2和M1.mpl.SOCS1)的半固体培养物并测定对1mg/ml IL-6(●)，100ng/ml LIF(◇)，1mg/ml OSM(□)，100ng/m IFN-γ(▲)，500ng/ml TPO(●)或3×10^-6M地塞米松的滴度反应分化的克隆百分数。

图5是在含有10ng/ml IL-6或盐水时培养4天的亲本M1细胞(M1和M1.mpl)和表达SOCS1的M1细胞(4A2和M1.mpl.SOCS1)的液体培养物的细胞自旋(Cytospin)摄影图示。

图6是表示SOCS1抑制信号传导磷酸化作用的摄影图示。亲本M1细胞(M1和M1.mpl)和表达SOCS1的M1细胞(4A2和M1.mpl.SOCS1)于37℃在含有(+)或不含有(-)10ng/ml IL-6的情况下培养4分钟。裂解细胞抽提物或者在SDS-PAGE前用抗小鼠gp130的抗体免疫沉淀(上面两板)或直接电泳(下面两板)。然后将胶印迹并用抗磷酸酪氨酸的抗体(上面板)、抗gp130的抗体(上面第二块板)、抗磷酸STAT3的抗体(底部第二块板)或抗STAT3的抗体(下面板)探测膜。使用过氧化物酶偶联的二抗和加强的Chemiluminescence(ECL)试剂使印迹可见。

图7是从于37℃在10ml含盐水、100ng/ml IL-6或100ng/ml IFN-γ的无血清DME中培养10分钟的(A)M1细胞或表达SOCS1的M1细胞(4A2)和(B)M1.mpl细胞或M1.mpl.SOCS1细胞制备的蛋白提取物图示。结合反应包含4-6μg蛋白(在给定实验中不变)、5ng³²P标记的编码高亲和性SIF(c-sis诱导的因子)结合位点的m67寡核苷酸和800ng超声处理的鲑精DNA。在某些实验中，蛋白样品与过量的未标记的m67寡核苷酸或与对STAT1或STAT2特异的抗体一起预培养。

图8是Northern杂交的摄影图示。用2μg在不同时间间期后静脉注射小鼠，取出肝脏并纯化多聚腺苷酸化mRNA。用500ng/ml IL-6对M1细胞刺激不同长度时间之后分离多聚腺苷酸化mRNA。通过电泳分离mRNA并固定在尼龙膜上。对Northern印迹进行预杂交，用随机引物标记的³²P标记的SOCS1或GAPDH DNA片段杂交、洗涤并对胶片曝光过夜。

图9表示SOCS1、SOCS2、SOCS3和CIS氨基酸序列的比较，小鼠(mm)、人(hs)和大鼠(rr)SOCS1、SOCS2、SOCS3和CIS的推测氨基酸序列的匹配。画上阴影的残基在三个或四个小鼠SOCS家族成员中保守。SH2结构域框在实线内，而SOCS元件盒包在双线内。

图10是表示IL-6非反应性M1细胞克隆4A2的表型的摄影图示。亲本M1细胞(左板)和克隆4A2(右板)的集落在半固体培养基中在盐水或100ng/ml IL-6中培养7天。

图11表示SOCS家族成员的mRNA体外和体内表达的摄影图示。

(A)来自一系列鼠器官的mRNA的Northern分析，表示SOCS家族成员在有限数量的组织中组成型表达。

(B)来自肝和M1细胞的mRNA的Northern分析，表示与IL-6接触后SOCS家族成员的表达诱导。

(C)来自骨髓的mRNA的反转录酶PCR分析，表示一系列细胞因子诱导SOCS家族成员的表达。

图12是表示SOCS1抑制gp130和STAT3的磷酸化和活化的摄影图示。

(A)来自用(+)或不用(-)100ng/ml IL-6刺激的亲本M1细胞(M儿M.mpl)和表达SOCS1的M1细胞(4A2和M1.mpl.SOCS1)的抽提物的Western印迹。顶部：用抗gp130(αgp130)的抗体免疫沉淀并用抗磷酸酪氨酸的抗体(αPY-STAT3，或对于STAT3的αSTAT3)免疫印迹以确定上样蛋白量相同。条带的分子量在右边表示。

(B)用(+)或不用(-)100ng/ml IL-6或100ng/ml IFNγ刺激的M1.mpl和M1.mpl.SOCS1细胞的EMSA。DNA结合复合物SIFA、B和C在左边表示。

图13表示SOCS蛋白的氨基酸序列比较，(A)SOCS蛋白包括含WD-40重复(WSB)和锚蛋白重复(ASB)的蛋白的结构图，(B)SOCS蛋白N末端区域的匹配，(C)CIS，COS1，2，3，5，9，11和14的SH2结构域的匹配，(D)SOCS4、SOCS6、SOCS13和SOCS15的WD-40重复的匹配，(E)SOCS7和SOCS10的锚蛋白重复的匹配。(F)SOCS元件盒的匹配。在每种情况下，使用传统的氨基酸单字母缩写，×指代不确定身份的残基，○○○代表重叠群的开始和结束。由来自分离的cDNA的核苷酸序列的概念翻译得来的氨基酸序列以大写字母表示，而由EST的概念翻译得来的氨基酸序列以小写字母表示并且仅仅是大约的。在SH2结构域、WD-40重复、锚蛋白重复和SOCS元件盒中定义为(LIVMA)、(FYW)、(DE)、(QN)、(C，S，T)、(KRH)、(PG)的保留残基上画上阴影。对于SH2结构域、WD-40重复、锚蛋白重复的匹配在上面表示。在每种情况中，均从大量不同的结构域配套的检查中得来(Neer等，1994；Bork，1993)。

图14(A)和(B)是小鼠SOCS1和SOCS5及含有WD-40重复(WSB2)和锚蛋白重复(ASB1)的SOCS的mRNA表达分析的摄影图示。

图15是表示鼠SOCS4cDNA的核苷酸序列的图示。编码从推测的ATG“起始”密码子到终止密码子的成熟编码区域的核苷酸用大写字母表示，而推测的5′和3′非翻译区以小写字母表示。小鼠和人EST重叠群与小鼠cDNA序列的关系在图17中表示。

图16是表示从图15中核苷酸序列得来的小鼠SOCS4蛋白的推测氨基酸序列的图示。在SOCS元件盒(也在图13中表示)下划线。

图18是表示从对表4.1中列出的EST的分析得来的人SOCS4cDNA重叠群h4.1和h4.2的核苷酸序列的图示。这些重叠群与小鼠cDNA序列的关系在图17中表示。

图19是表示从对小鼠EST(表5.1)和人cDNA克隆(5-94-2)和EST(表5.2)的分析得来的小鼠SOCS5基因组(57-2)和cDNA(5-3-2)克隆与重叠群关系的图示。小鼠SOCS5重叠群的核苷酸序列在图20中表示，人SOCS5重叠群(h5.1)的序列在图21中表示。小鼠SOCS5的推测氨基酸序列在图20B中表示。蛋白的结构以图解表示，SH2结构域和SOCS元件盒以()表示。推测的5′和3′非翻译区用细实线表示。

图20A是表示从对基因组和cDNA克隆的分析得来的小鼠SOCS5的核苷酸序列的图示。编码从推测的ATG“起始”密码子到终止密码子的成熟编码区域的核苷酸以大写字母表示，而推测的5′和3′非翻译区以小写字母表示。小鼠cDNA序列和人EST重叠群的关系在图19中表示。

图20B是表示从图20A中核苷酸序列得来的小鼠SOCS5蛋白的推测氨基酸序列的图示。在SOCS元件盒(也在图13中表示)下划线。

图21是表示从对cDNA克隆5-94-2和表5.2中列出的EST的分析得来的人SOCS5cDNA重叠群h5.1的核苷酸序列的图示。这些重叠群与小鼠cDNA序列的关系在图19中表示。

图22是表示从对小鼠EST(表6.1)和人EST(表6.2)的分析得来的小鼠SOCS6cDNA(6-1A，6-2A，6-5B，6-4N，6-18，6-29，6-3N和6-5N)克隆与重叠群的关系的图示。小鼠SOCS6重叠群的核苷酸序列在图23中表示，人SOCS6重叠群(h6.1和h6.2)的序列在图24中表示。小鼠SOCS6的推测氨基酸序列在图23B中表示。蛋白的结构以图解表示，WD-40重复和SOCS元件盒以()表示。推测的5′和3′非翻译区用细实线表示。

图23A是表示从对cDNA克隆64-10A-11的分析得来的小鼠SOCS6的核苷酸序列的图示。编码终止于终止密码子的推测的部分编码区域的核苷酸以大写字母表示，而推测的3′非翻泽区以小写字母表示。小鼠cDNA序列与人EST重叠群的关系在图22中表示。

图23B是表示从图23A中核苷酸序列得来的小鼠SOCS6蛋白的推测氨基酸序列的图示。在SOCS元件盒(也在图13中表示)下划线。

图24是表示从对cDNA克隆5-94-2和表6.2中列出的EST的分析得来的人SOCS6cDNA重叠群h6.1的核苷酸序列的图示。这些重叠群与小鼠cDNA序列的关系在图22中表示。

图25是表示从对小鼠EST(表7.1)和人EST(表7.2)的分析得来的小鼠SOCS7cDNA克隆(74-10A-11)与重叠群的关系的图示。小鼠SOCS7重叠群的核苷酸序列在图26中表示，人SOCS7重叠群(h7.1和h7.2)的序列在图27中表示。小鼠SOCS7的推测氨基酸序列在图26B中表示。蛋白的结构以图解表示，锚蛋白重复和SOCS元件盒以()表示。推测的5′和3′非翻译区在小鼠中用细实线表示，在h7.2中用波浪线表示。根据对至今分离的克隆和EST的分析，mSOCS7和hSOCS7的3’非翻译区表现极小的相似性。

图26A是表示从对cDNA克隆74-10A-11的分析得来的小鼠SOCS7的核苷酸序列的图示。编码终止于终止密码子的推测的部分编码区域的核苷酸以大写字母表示，而推测的3′非翻译区以小写字母表示。小鼠cDNA序列与人EST重叠群的关系在图25中表示。

图26B是表示从图26A中核苷酸序列得来的小鼠SOCS7蛋白的推测氨基酸序列的图示。在SOCS元件盒(也在图13中表示)下划线。

图27是表示从对表7.2中列出的EST的分析得来的人SOCS7cDNA重叠群h7.1和h7.2的核苷酸序列的图示。这些重叠群与小鼠cDNA序列的关系在图25中表示。

图28是表示从对小鼠SOCS8EST(表8.1和图29A)的分析得来的序列与小鼠SOCS8的推测蛋白结构的关系的图示。小鼠SOCS5的推测的部分氨基酸序列在图29B中表示。蛋白的结构以图解表示，SOCS元件盒以()表示。推测的3′非翻译区用细实线表示。

图29A是表示从对EST的分析得来的小鼠SOCS8的部分核苷酸序列的图示。编码终止于终止密码子的推测的部分编码区域的核苷酸以大写字母表示，而推测的3′非翻译区以小写字母表示。

图29B是表示从图29A中核苷酸序列得来的小鼠SOCS8蛋白的部分推测氨基酸序列的图示。在SOCS元件盒(也在图13中表示)下划线。

图30是表示小鼠EST(表9.1)和人SOCS9EST(表9.2)的关系的图示。鼠SOCS9重叠群(m9.1)的核苷酸序列在图31中表示，人SOCS9重叠群(h9.1)的序列在图32中表示。人SOCS9的推测氨基酸序列以图解表示，SH2结构域和SOCS元件盒以()表示。推测的3′非翻译区用细实线表示。

图31是表示从对表9.1中列出的EST的分析得来的小鼠SOCS9cDNA(重叠群m9.1)的部分核苷酸序列的图示。这些重叠群与小鼠cDNA序列的关系在图30中表示。

图32是表示从对表9.2中列出EST的分析得来的人SOCS9cDNA(重叠群h9.1)的部分核苷酸序列的图示。尽管重叠群h9.1编码具有SH2结构域和SOCS元件盒的蛋白这一点是清楚的，但是序列的质量不足够高以推测单一的清楚的开放阅读框架。这些重叠群与鼠cDNA序列的关系在图30中表示。

图33是表示小鼠SOCS10cDNA克隆(10-9，10-12，10-23和10-24)与从对小鼠EST(表10.1)和人EST(表10.2)的分析得来的重叠群的关系的图示。小鼠SOCS10重叠群的核苷酸序列在图10.2中表示，人SOCS10重叠群(h10.1和h10.1)的序列在图35中表示。蛋白的结构以图解表示，锚蛋白重复和SOCS元件盒以()表示。推测的3′非翻译区在小鼠中用细实线表示，在h10.2中以波浪线表示。根据对至令分离的克隆和EST的分析，mSOCS10和hSOCS10的3′非翻译区表现极小的相似性。

图34是表示从对cDNA克隆10-9，10-12，10-23和10-24的分析得来的小鼠SOCS10的核苷酸序列的图示。编码终止于终止密码子的推测的部分编码区域的核苷酸以大写字母表示，而3′非编码区以小写字母表示。尽管重叠群m10.1编码具有一系列锚蛋白和SOCS元件盒的蛋白这一点是清楚的，但是序列的质量不足够高以推测单一的清楚的开放阅读框架。小鼠和人重叠群与小鼠cDNA序列的关系在图33中表示。

图35是表示从对表10.2中列出的EST的分析得来的人SOCS10cDNA重叠群h10.1和h10.2的核苷酸序列的图示。这些重叠群与小鼠cDNA序列的关系在图33中表示。

图36A是表示从对表11.1中列出的EST的分析得来的人SOCS11cDNA的部分核苷酸序列的图示。编码从推测的ATG“起始”密码子到终止密码子的成熟编码区域的核苷酸以大写字母表示，而推测的5′和3′非翻译区以小写字母表示。从EST得来的部分cDNA序列与推测蛋白的关系在图37中表示。

图36B是表示从图36A中核苷酸序列得来的人SOCS11蛋白的推测的部分氨基酸序列的图示。在SOCS元件盒(也在图13中表示)下划线。

图37是表示从对人SOCS11EST(表11.1和图36A)的分析得来的序列与人SOCS11的推测蛋白结构的关系的图示。人SOCS11的推测的部分氨基酸序列在图36B中表示。蛋白的结构以图解表示，SH2结构域和SOCS元件盒以()表示。推测的3′非翻译区用细实线表示。

图38是表示小鼠SOCS12cDNA克隆(12-1)与从对小鼠EST(表12.1)和人EST(表12.2)的分析得来的重叠群的关系的图示。小鼠SOCS12重叠群的核苷酸序列在图12.2中表示，人SOCS12重叠群(h12.1和h12.2)的序列在图40中表示。鼠SOCS12的推测的部分氨基酸序列在图39中表示。蛋白的结构以图解表示，锚蛋白重复和SOCS元件盒以()表示。推测的3′翻译区在小鼠中用细实线表示，在h12.2中以波浪线表示。根据对至令分离的克隆和EST的分析，mSOCS12和hSOCS12的3′非翻译区表现极小的相似性。

图39是表示从对cDNA克隆12-1和表12.1列出的EST的分析得来的小鼠SOCS12的核苷酸序列的图示。编码部分推测编码区域的核苷酸包括终止密码子以大写字母表示，而推测的3′非翻译区以小写字母表示。通过与人SOCS12的同源性可以了解重叠群m12.1编码含有一系列锚蛋白重复和SOCS元件盒的蛋白，但是序列的质量不足够高以至不能推测出单一确定的开放阅读框架。小鼠cDNA序列与小鼠和人EST重叠群的关系在图38中表示。

图40是表示从对表12.2中列出的EST的分析得来的人SOCS12cDNA重叠群h12.1和h12.2的核苷酸序列的图示。这些重叠群与小鼠cDNA序列的关系在图38中表示。

图41是表示从对小鼠EST(表13.1)和小鼠SOCS13cDNA克隆(62-1，62-6-7，62-14))的分析得来的重叠群m13.1与从对人EST(表13.2)的分析得来的重叠群h13.1的关系的图示。小鼠SOCS13重叠群的核苷酸序列在图42中表示，人SOCS13重叠群(h13.1)的序列在图43中表示。小鼠SOCS13的推测氨基酸序列在图42B中表示。蛋白的结构以图解表示，WD-40重复和SOCS元件盒以()表示。推测的3′非翻译区用细实线表示。

图42A是表示从对cDNA克隆62-1，62-6-7和62-14的分析得来的小鼠SOCS13的核苷酸序列的图示。编码终止于终止密码子的推测的部分编码区域的核苷酸以大写字母表示，而推测的3′非翻译区以小写字母表示。小鼠cDNA序列与人和小鼠EST重叠群的关系在图41中表示。

图42B是表示从图42A中核苷酸序列得来的小鼠SOCS13蛋白的推测氨基酸序列的图示。在SOCS元件盒(也在图13中表示)下划线。

图43是表示从对表13.2中列出的EST的分析得来的人SOCS13cDNA重叠群h13.1的核苷酸序列的图示。这些重叠群与小鼠cDNA序列的关系在图41中表示。

图44是表示小鼠SOCS14部分cDNA克隆(14-1)与从对小鼠EST(表14.1)的分析得来的重叠群的关系的图示。小鼠SOCS14重叠群的核苷酸序列在图45中表示。小鼠SOCS14的推测的部分氨基酸序列在图45B中表示。蛋白的结构以图解表示，SH2结构域和SOCS元件盒以()表示。推测的3′非翻译区用细实线表示。

图45A是表示从对基因组和cDNA克隆分析得来的小鼠SOCS14的核苷酸序列的图示。编码从推测的ATG“起始”密码子到终止密码子的成熟编码区域的核苷酸以大写字母表示，而推测的5′和3′非翻译区以小写字母表示。小鼠cDNA序列与小鼠和人EST重叠群的关系在图44中表示。

图45B是表示从对图45B中核苷酸序列得来的小鼠SOCS14蛋白的推测氨基酸序列的图示。在SOCS元件盒(也在图13中表示)下划线。

图46是表示从对小鼠BAC和小鼠EST(表15.1)的分析得来的重叠群m15.1与从对人BAC和人EST(表15.2)的分析得来的重叠群m15.1的关系的图示。小鼠SOCS15重叠群的核苷酸序列在图47中表示，人SOCS15重叠群(h15.1)的序列在图47中表示。小鼠SOCS15的推测氨基酸序列在图47B中表示。蛋白的结构以图解表示，WD-40重复和SOCS元件盒以()表示。推测的5′和3′非翻译区用细实线表示。打断编码区域的内含子用∧表示

图47A是表示从对表15.1中列出的小鼠BAC的分析得来的覆盖小鼠SOCS15基因的核苷酸序列的图示。编码起始于ATG并终止于终止密码子的推测编码区域的核苷酸以大写字母表示，而那些编码推测的5′非编码区、内含子和3′非翻译区的核苷酸以小写字母表示。小鼠BAC与小鼠和人EST重叠群的关系在图46中表示。

图47B是表示从图47A中核苷酸序列得来的小鼠SOCS15蛋白的推测氨基酸序列的图示。在SOCS元件盒(也在图13中表示)下划线。

图48A是表示从对表15.2中列出的人BAC的分析得来的覆盖人SOCS15基因的核苷酸序列的图示。鳊码开始于ATG并终止于终止密码子的推测编码区域的核苷酸以大写字母表示，而那些编码推测的5′非翻译区、内含子和3′非翻译区的核苷酸以小写字母表示。小鼠BAC与小鼠和人EST重叠群的关系在图46中表示。

图48B是表示从图48A中核苷酸序列得来的人SOCS15蛋白的推测氨基酸序列的图示。在SOCS元件盒(也在图13中表示)下划线。

图49是表示抑制JAK2激酶活性的摄影图示。(A)上面板：Cos M6细胞用Flag标记的mJAK2和mSOCS1DNA(SOCS1)或只用Flag-mJAK2DNA瞬间转染并裂解，JAK2蛋白用抗JAK2抗体免疫沉淀并用于体外激酶试验。下面板：JAK2免疫沉淀部分用抗JAK2抗体进行Western印迹探测。(B)上面板：Cos M6细胞用Flag-mJAK2和Flag-mSOCS1DNA或只用Flag-mJAK2DNA瞬间转染并裂解，JAK2蛋白用抗JAK2抗体(UBI)免疫沉淀并用SDS/PAGE胶分离。然后用抗磷酸酪氨酸的抗体通过Western印迹分析免疫沉淀。下面板：JAK2表达。Cos细胞用SDS/PAGE胶分离并用抗Flag抗体(M2)通过Western印迹分析。

图50是表示JAK2和SOCS蛋白相互作用的摄影图示。(A)Cos M6细胞用Flag标记的mJAK2和Flag标记的各种SOCS DNA(SOCS1；S1，SOCCS2；S2，SOCS3；S3，CIS)或只用Flag-mJAK2瞬间转染并裂解，JAK2蛋白用抗JAK2抗体(UBI)免疫沉淀并通过SDS/PAGE分离。然后用抗FLAG的抗体(M2)通过Western印迹分析免疫沉淀。(B)(A)中所述的Cos细胞裂解物用SDS/PAGE胶分离并用抗Flag抗体(M2)通过Western印迹测定各种蛋白的表达水平。(C)JAK2酪氨酸磷酸化作用：A中所述的COS细胞裂解裂用SDS/PAGE胶分离并用抗磷酸酪氨酸的抗体通过Western印迹分析蛋白。

图51是pBgalpAloxneo的图示。

图52是pBgalpAloxneoTK的图示。

图53是SOCS1失效构建体的图示。

优选实施方案详述

本发明提供新的信号传导调节剂家族。由于此家族的最初成员抑制细胞因子信号传导，此家族称为“细胞因子信号传导的抑制剂”家族“SOCS”。SOCS家族根据称为“SOCS元件盒”的C末端结构域的存在来定义。SOCS分子的不同种类根据参与蛋白：分子相互作用如蛋白：DNA或蛋白：蛋白相互作用的一般但不仅位于SOCS元件盒的N端的基序来定义。特别优选的基序选自SH2结构域、WD-40重复和锚蛋白重复。

WD-40重复最初在G蛋白的β亚单位中识别。WD-40重复看来形成β-螺旋浆样结构并可能参与蛋白-蛋白相互作用。锚蛋白重复最初在细胞骨架蛋白锚蛋白中识别。

SOCS家族成员可以以各种方法鉴定。例如SOCS1-SOCS3是通过它们抑制细胞因子介导的信号传导的能力得到鉴定的，因此是基于活性得到鉴定的。SOCS4-SOCS15是作为在SOCS元件盒水平上表现相似性的核苷酸序列得到鉴定的。

SOCS元件盒是位于SOCS分子的C末端区域的保守基序，根据本发明，SOCS元件盒的氨基酸序列是：

其中，X₁是L，I，V，M，A或P；

X₂是任何氨基酸残基；

X₃是P，T或S；

X₄是L，I，V，M，A或P；

X₅是任何氨基酸；

X₆是任何氨基酸；

X₇是L，I，V，M，A，F，Y或W；

X₈是C，T或S；

X₉是R，K或H；

X₁₀是任何氨基酸；

X₁₁是任何氨基酸；

X₁₂是L，I，V，M，A或P；

X₁₃是任何氨基酸；

X₁₄是任何氨基酸；

X₁₅是任何氨基酸；

X₁₆是L，I，V，M，A，P，G，C，T或S；

X₁₇是L，I，V，M，A或P；

X₁₈是任何氨基酸；

X₁₉是任何氨基酸；

X₂₀L，I，V，M，A或P；

X₂₁是P；

X₂₂是L，I，V，M，A，P或G；

X₂₃是P或N；

X₂₄是L，I，V，M，A或P；

X₂₅是任何氨基酸；

X₂₆是任何氨基酸；

X₂₇是Y或F；

X₂₈是L，I，V，M，A或P；

如上所述，根据本发明，基于位于SOCS元件盒的N端的蛋白：分子相互作用区域例如但不限于SH2结构域、WD-40重复和锚蛋白重复的存在将SOCS蛋白分成几类，后三个结构域是蛋白：蛋白相互作用结构域。

含SH2的SOCS蛋白的例子包括SOCS1、SOCS2、SOCS3、SOCS5、SOCS9、SOCS11和SOCS14。含WD-40重复的SOCS的例子包括SOCS4、SOCS6和SOCS15。含锚蛋白重复的例子包括SOCS7、SOCS10和SOCS12。

本发明特别提供鳊码SOCS蛋白的核酸分子、纯化的天然存在的SOS蛋白和重组形式的SOCS蛋白以及通过SOCS蛋白的调节活性或SOCS基因的表达来调节信号传导的方法。优选地，信号传导由细胞因子介导，细胞因子的例子包括EPO、TPO、G-CSF、GM-CSF、IL-3、IL-2、IL-4、IL-7、IL-13、IL-6、LIF、IL-12、IFNγ、TNFα、IL-1和/或M-CSF。特别优选的细胞因子包括IL-6、LIF、OSM、IFNγ和/或促血小板生成素。

因此，本发明的一方面提供包含编码含有在其C末端区域的SOCS元件盒和选择性地SOCS元件盒N端的蛋白：分子相互作用结构域的蛋白或其衍生物、同系物、类似物或模拟物的核苷酸序列或与其互补的核苷酸序列的核酸分子或在42℃低严格条件下能与其杂交的核酸分子。

优选地，蛋白：分子相互作用结构域是蛋白：DNA或蛋白：蛋白相互作用结构域。最优选地，蛋白：分子相互作用结构域是SH2结构域、WD-40重复和/或锚蛋白重复之一。

如上所述，优选地，该SOCS调节细胞因子介导的信号传导。然而，本发明可推延至调节其它效应物如其它内源或外源分子、抗原、微生物群体和微生物产物、病毒或其成分、离子、激素和寄生物介导的信号传导的SOCS分子。本文中内源分子是携带SOCS分子的细胞内产生的分子。外源分子是由其它细胞产生或导入体内的分子。

优选地，核酸分子或SOCS蛋白是以分离或纯化的形式。术语“分离的”和“纯化的”是指已经历至少一步从其它物质分离的纯化步骤的分子。

优选地，核酸分子是以分离的形式，是DNA如cDNA或基因组DNA。DNA可以编码与天然存在的SOCS相同的氨基酸序列或者SOCS可以含有一个或多个氨基酸替换、缺失和/或添加。核苷酸序列可以对应于基因组编码序列(包括外显子和内含子)或对应于来自从基因组基因转录的mRNA的cDNA中的核苷酸序列，或者它可在带有在其上的一个或多个核苷酸替换，缺失和/或添加。

在优选的实施方案中，核酸分子包含编码SOCS蛋白或其衍生物、同系物、类似物或模拟物的核苷酸序列或与其互补的核苷酸序列，其中所述SOCS蛋白的氨基酸序列选自：

SEQ ID NO：4(mSOCS 1)，SEQ ID NO：6(mSOCS2)，SEQ ID NO：8(mSOCS3)，SEQ IDNO：10(hSOCS1)，SEQ ID NO：12(rSOCS1)，SEQ ID NO：14(mSOCS4)，SEQ ID NO：18(mSOCS5)，SEQ ID NO：21(mSOCS6)，SEQ ID NO：25(mSOCS27)，SEQ ID NO：29(mSOCS8)，SEQ ID NO：36(hSOCS11)，SEQ ID NO：41(mSOCS 13)，SEQ ID NO：44(mSOCS14)，SEQ ID NO：46(mSOCS15)和SEQ ID NO：48(mSOCS15)，或编码在所列序列上有单一或多个氨基酸替换、缺失和/或添加的氨基酸序列或是能在42℃低严格条件下与所述核酸分子杂交核苷酸序列。

在甚至更优选的实施方案中，本发明提供包含编码SOCS蛋白或其衍生物、同系物、类似物或模拟物的核苷酸序列或与其互补的核苷酸序列的核酸分子，其中核苷酸序列选自主要在：

SEQ ID NO：3(mSOCS1)，SEQ ID NO：5(mSOCS2)，SEQ ID NO：7(mSOCS3)，SEQ ID NO：9(mSOCS11)，SEQ ID NO：11(rSOCS1)，SEQ ID NO：13(mSOCS4)，SEQ ID NO：15和SEQ ID NO：16(mSOCS1)，SEQ ID NO：5(mSOCS2)，SEQ ID NO：7(mSOCS3)，SEQ ID NO：9(hSOCS 11)，SEQ ID NO：11(rSOCS 1)，SEQ ID NO：13(mSOCS4)，SEQ ID NO：15和SEQ ID NO：16(hSOCS4)，SEQ ID NO：17(mSOCS5)，SEQ ID NO：19(hSOCS5)，SEQ ID NO：20(mSOCS6)，SEQ ID NO：22和SEQ ID NO：23(hSOCS6)，SEQ ID NO：24(mSOCS7)，SEQ ID NO：26和SEQ ID NO：27(hSOCS7)，SEQ ID NO：28(mSOCS8)，SEQ ID NO：30(mSOCS9)，SEQ IDNO：31(hSOCS9)，SEQ ID NO：32(mSOCS 10)，SEQ ID NO：33和SEQ ID NO：34(hSOCS 1O)，SEQ ID NO：35(hSOCS11)，SEQ ID NO：37(mSOCS 12)，SEQ ID NO：38和SEQ ID NO：39(hSOCS 12)，SEQ ID NO：40(mSOCS 13)，SEQ ID NO：42(hSOCS 13)，SEQID NO：43(mSOCS 14)，SEQ ID NO：45(mSOCS15)和SEQ ID NO：47(hSOCS 15)中列出的核苷酸，或是与任一列出的序列的所有或部分区域有至少约15％相似性的核苷酸序列；或能与任一列出的序列在42℃低严格条件下杂交的核酸分子。

此处提及的在42℃低严格条件包括并包含至少约1％(体积/体积)到至少约15％(体积/体积)的甲酰胺及至少约1M到至少约2M盐的杂交条件和至少约1M到至少约2M盐的洗涤条件。如果需要，可以应用其它杂交条件，如中等严格条件，包括并包含至少约16％(体积/体积)到至少约30％(体积/体积)的甲酰胺及至少约0.5M到至少约0.9M盐的杂交条件和至少约0.5M到至少约0.9M盐的洗涤条件；或高度严格条件，包括并包含至少约30％(体积/体积)到至少约50％(体积/体积)甲酰胺及至少约0.01M到至少约0.15M盐的杂交条件和至少约0.01M到至少约0.15M盐的洗涤条件。

在另一实施方案中，本发明针对SOCS蛋白或其衍生物、同系物、类似物或模拟物，其中所述SOCS蛋白鉴定为如下：

人SOCS4鉴定为：EST81149，EST180909，EST182619，ya99H09，ye70co4，yh53c09，yh77g11，yh87h05，yi45h07，yj04e06，yq 12h06，yq56a06，yq60e02，yq92g03，yq97h06，yr90f01，yt69c03，yv30a08，yv55f07，yv57h09，yv87h02，yv98e 11，yw68d10，yw82a03，yx08a07，yx72h06，yx76b09，yy37h08，yy66b02，za81f08，zb18f07，zc06e08，zd14g06，zd51h12，zd52b09，ze25g11，ze69f02，zf54f03，zh96e07，zv66h12，zs83a08和zs83g08；

小鼠SOCS-4鉴定为：mc65f04，mf42e06，mp10c10，mr81g09和mt19h12；

人SOCS-5鉴定为：EST15B103，EST15B105，EST27530和zf50f01；

小鼠SOCS-5鉴定为：mc55a01，mh98f09，my26h12和ve24e06；

人SOCS-6鉴定为：yf61e08，yf93a09，yg05f12，yg41f04，yg45c02，yh11f10，yh13b05，zc35a12，ze02h08，z109a03，z169e10，zn39d08和zo39e06；

小鼠SOCS-6鉴定为：mc04c05，md48a03，mf31d03，mh26b07，mh78e11，mh88h09，mh94h07，mi27h04和mj29c05，mp66g04，mw75g03，va53b05，vb34h02，vc55d07，vc59e05，vc67d03，vc68d10，vc97h01，vc99c08，vd07h03，vd08c01，vd09b12，vd 19b02，vd29a04和vd46d06；

人SOCS-7鉴定为：STS WI30171，EST00939，EST12913，yc29b05，yp49f10，zt10f03和zx73g04；

小鼠SOCS-7鉴定为：mj39a01和vi52h07；

小鼠SOCS-8鉴定为：mj6e09和vj27a029；

人SOCS-9鉴定为：CSRL-82f2-u，EST114054，yy06b07，yy06g06，zr40c09，zr72h01，yx92c08，yx93b08和hfe0662；

小鼠SOCS-9鉴定为：me65d05；

人SOCS-10鉴定为：aa48h10，zp35h01，zp97h12，zq08h01，zr34g05，EST73000和HSDHEI005；

小鼠SOCS-10鉴定为：mb14d12，mb40f06，mg89b11，mq89e12，mp03g12和vh53c11；

人SOCS-11鉴定为：zt24h06和zr43b02；

人SOCS-13鉴定为：EST59161；

小鼠SOCS-13鉴定为：ma39a09，me60c05，mi78g05，mk10c11，mo48g12，mp94a01，vb57c07和vh07c11；并且

人SOCS-14鉴定为：mi75e03，vd29h11和vd53g07；

或者上述EST的衍生物或同系物鉴定为能与任一列出的EST在42℃低严格条件下杂交的核酸分子。

在另一实施方案中，核酸分子编码如下氨基酸序列：

其中，X₁是L，I，V，M，A或P；

X₂是任何氨基酸残基；

X₃是P，T或S；

X₄是L，I，V，M，A或P；

X₅是任何氨基酸；

X₆是任何氨基酸；

X₇是L，I，V，M，A，F，Y或W；

X₈是C，T或S；

X₉是R，K或H；

X₁₀是任何氨基酸；

X₁₁是任何氨基酸；

X₁₂是L，I，V，M，A或P；

X₁₃是任何氨基酸；

X₁₄是任何氨基酸；

X₁₅是任何氨基酸；

X₁₆是L，I，V，M，A，P，G，C，T或S；

[X_j]_n是n个氨基酸的序列，其中n是从1到50个氨基酸，而其中序列X_i可以包含相同或不同的选自任何氨基酸残基的氨基酸；

X₁₇是L，I，V，M，A或P；

X₁₈是任何氨基酸；

X₁₉是任何氨基酸；

X₂₀L，I，V，M，A或P；

X₂₁是P；

X₂₂是L，I，V，M，A，P或G；

X₂₃是P或N；

X₂₄是L，I，V，M，A或P；

X₂₅是任何氨基酸；

X₂₆是任何氨基酸；

X₂₇是Y或F；

X₂₈是L，I，V，M，A或P；

上述序列比较优选地是针对完整分子，但也可以是其部分。优选地，针对至少约21个核苷酸或至少约5个氨基酸的连续系列进行比较。更优选地，针对至少约21个连续的核苷酸或至少7个连续的氨基酸进行比较。比较也可以仅针对SOCS元件盒区域或包含蛋白：分子相互作用区域如SH2结构域、WD-40重复和/或锚蛋重复的区域进行。

本发明的另一实施方案包括在其C末端区域包含SOCS元件盒的分离的多肽或其衍生物、同系物或模拟物。

优选地，多肽进一步包含蛋白：分子相互作用结构域如蛋白：DNA或蛋白：蛋白相互作用结构域。优选地，此结构域位于SOCS元件盒的N端。特别优选的蛋白：分子相互作用结构域是至少一个SH2结构域、WD-4重复和/或锚蛋白重复。

优选地，信号传导由选自EPO、TPO、G-CSF、GM-CSF、IL-3、IL-2、IL-4、IL-7、IL-13、IL-6、LIF、IL-12、IFNγ、TNFα、IL-1和/或M-CSF的细胞因子介导。优选的细胞因子是IL-6、LIF、OSM、IFFNγ或促血小板生成素。

更优选地，蛋白包含具如下氨基酸序列的SOCS元件盒：

其中，X₁是L，I，V，M，A或P；

X₂是任何氨基酸残基；

X₃是P，T或S；

X₄是L，I，V，M，A或P；

X₅是任何氨基酸；

X₆是任何氨基酸；

X₇是L，I，V，M，A，F，Y或W；

X₈是C，T或S；

X₉是R，K或H；

X₁₀是任何氨基酸；

X₁₁是任何氨基酸；

X₁₂是L，I，V，M，A或P；

X₁₃是任何氨基酸；

X₁₄是任何氨基酸；

X₁₅是任何氨基酸；

X₁₆是L，I，V，M，A，P，G，C，T或S；

X₁₇是L，I，V，M，A或P；

X₁₈是任何氨基酸；

X₁₉是任何氨基酸；

X₂₀L，I，V，M，A或P；

X₂₁是P；

X₂₂是L，I，V，M，A，P或G；

X₂₃是P或N；

[X_j1_n是n个氨基酸的序列，其中n是从1到50个氨基酸，而其中序列X_j可以包含相同或不同的选自任何氨基酸残基的氨基酸；

X₂₄是L，I，V，M，A或P；

X₂₅是任何氨基酸；

X₂₆是任何氨基酸；

X₂₇是Y或F；

X₂₈是L，I，V，M，A或P；

另一个实施方案提供含有主要如：

SEQ ID NO：4(mSOCS1)，SEQ ID NO：6(mSOCS2)，SEQ ID NO：8(mSOCS3)，SEQ ID NO：10(hSOCS 1)，SEQ ID NO：12(rSOCS 1)，SEQ ID NO：14(mSOCS4)，SEQ ID NO：18(mSOCS5)，SEQ ID NO：21(mSOCS6)，SEQ ID NO：25(mSOCS7)，SEQ ID NO：29(mSOCS8)，SEQ IDNO：36(hSOCS11)，SEQ ID NO：41(mSOCS 13)，SEQ ID NO：44(mSOCS14)，SEQ ID NO：46(mSOCS15)和SEQ ID NO：48(hSOCS15)中列出的氨基酸序列或与任一列出的氨基酸序列有至少15％相似性的氨基酸序列的分离的多肽或其衍生物、同系物、类似物或模拟物。

优选的核苷酸相似性百分比包括至少约20％，至少约40％，至少约50％，至少约60％，至少约70％，至少约80％，至少约90％或更高如93％、95％、98％、99％。

优选的氨基酸相似性包括至少约20％，至少约30％，至少约40％，至少约50％，至少约60％，至少约70％，至少约80％，至少约90％，至少约95％，至少约97％或约98％或更高。

如上所述，相似性可以针对完整的分子或包含至少21个核苷酸或至少7个氨基酸的区域测定。优选地，测定在保守区域如SH₂结构域、WD-40重复、锚蛋白重复或其它蛋白质：分子相互作用结构域或SOCS元件盒中的相似性。

术语“相似性”包括序列间的精确相同性，或者，即使序列不同，不同的氨基酸之间在结构、功能、生化或构象水平上相关。

这种核酸分子可以从任何动物如人、灵长类动物、家畜动物(如马、牛、羊、驴、猪)、实验室测试动物(如小鼠、大鼠、兔、仓鼠、豚鼠)、陪伴动物(如狗、猫)或捕获的野生动物(如鹿、狐狸、袋鼠)中分离。

术语“衍生物”不论对于核酸分子还是蛋白质都包括部分、突变体、片段和类似物以及杂交或融合分子和糖基化变异体。特别有用的衍生物包括对SOCS氨基酸序列的单个或多个氨基酸替换，删除或添加。

优选地，衍生物具有功能活性或选择性地作用为拮抗剂或激动剂。本发明进一步扩展到SOCS的同系化合物，包括来自不同种动物的功能上或结构上相关的分子。本发明也包括类似物和模拟物。模拟物包括一般但不必然具有非氨基酸结构的一类分子，并且它能以与其所模拟的蛋白(在此即SOCS)类似的方式作用。模拟物可以包括糖类、芳香环、脂类或其它复杂化学结构或者在组成上也可以是蛋白质。在此考虑的模拟物以及激动剂和拮抗剂可方便地通过环境如瑚瑚、海洋和淡水河床、植物群体和微生物的系统搜索找到。此处有时称为天然产物筛选。另外，可筛选合成的化合物库以得到潜在的有用分子。

如上述，本发明考虑SOCS的激动剂和拮抗剂。拮抗剂的一个实施例是反义寡核苷酸序列。有用的寡核苷酸是那些具有能与核苷酸序列的蛋白编码或“正义”序列的至少部分互补的那些寡核苷酸。这些反义核苷酸可用于引起基因表达的特异抑制。反义方法可通过反义构建体与目标mRNA之间的互补配对形成可能导致翻译杂交阻遏的反平行双螺旋，从而引起显著的基因表达抑制。也可应用RNA酶和协同抑制分子。反义和其它核苷酸分子可能首先需要经过化学修饰以允许细胞透过膜和/或增加它们的血清半衰期或用其他方法使其在体内施用时更加稳定。尽管在诊断应用和SOCS蛋白纯化中更有用，抗体也可作用为拮抗剂或激动剂。拮抗剂和激动剂也可在天然产物筛选或化学化合物库筛选后得到鉴定，或者可以是SOCS的衍生物或类似物。

相应地，本发明扩展到本发明的SOCS蛋白的类似物。类似物可用于例如治疗或预防细胞因子介导的功能失调如自身免疫、免疫抑制或免疫机能亢进或在包括但不限于造血系统、内分泌、肝脏及神经系统中的其它情况。其它信号传导因子如激素或内源或外源分子、抗原、微生物群体和微生物产物、病毒及其成分、离子、激素和寄生虫介导的功能失调也在本发明中予以考虑。

在此考虑的蛋白和类似物包括但不限于对侧链的修饰，在肽、多肽或蛋白质合成时掺入非天然氨基酸和/或其衍生物以及使用交联剂和其它方法在蛋白分子或其类似物上强加构象限制。

本发时考虑的侧链修饰的例子包括氨基修饰如通过与醛反应还原性烷基化后用NaBH₄还原；用甲基乙酰亚胺酰胺化；用乙酸酐乙酰化；用氰酸盐使氨基甲氨酰化；用2，4，6-三硝基苯磺酸(TNBS)使氨基三硝基苯化；用琥珀酸酐和四氢邻苯二甲酸酐使氨基乙酰化；以及用吡哆醛-5-磷酸盐使赖氨酸吡哆醛化后用NaBH₄还原。

精氨酸残基的胍基可通过与试剂如2，3-丁二酮、苯甲酰甲醛和乙二醛形成杂环缩合产物来修饰。

羧基可通过碳二亚胺活化，即通过O-酰基异脲的形成及随后的衍生作用如形成相应的酰胺来修饰。

Sulphydryl基通过例如如下方法修饰：用碘乙酸或碘乙酰胺羧甲基化；过甲酸氧化成磺基丙氨酸；与其它硫醇化合物形成混合的二硫化物；与马来酰亚胺、马来酐或其它取代的马来酰亚胺反应；应用4-对氯汞苯甲酸、4-氯汞基苯磺酸、氯化苯汞、2-氯汞基-4-硝基苯酚和其它汞化合物形成汞衍生物；用氰酸盐在碱性PH下的甲氨酰化。

色氨酸残基修饰可通过例如用N-溴代丁二酰亚胺氧化或用2-羟基-5硝基苄基溴化物或Sulphenyl卤化物使吲哚环烷化来修饰。

另一方面，酪氨酸残基可通过用四硝基甲烷形成3-硝基酪氨酸衍生物来改变。

组氨酸残基咪唑环的修饰可通过用碘乙酸衍生物烷化或用二乙基焦碳酸酯乙酯化来完成。

在合成肽时掺入非天然氨基酸和衍生物的实例包括但不限于应用正亮氨酸，4-氨基丁酸，4-氨基-3-羟基-5-苯基戊酸，6-氨基己酸，叔丁基甘氨酸，正缬氨酸，苯甘氨酸，鸟氨酸，肌氨酸，4-氨基-3-羟基-6-甲基庚酸，2-噻嗯基丙氨酸和/或氨基酸的D-异构体。表3所列的是在此所考虑的非天然氨基酸目录。

表3

交联剂可用于例如稳定3D构象，可使用同型双功能交联剂如n＝1到n＝6具有(CH₂)_n间隔基团的双功能酰亚胺酯、戊二醛和N-羟琥珀酰亚胺酯以及异型双功能试剂，这些试剂通常含有氨基酸反应性组分如N-羟琥珀酰亚胺和其它基团特异性反应性组分如马来酰亚胺或联硫基组分(SH)或碳二亚胺(COOH)。另外，肽可受到构象限制，例如通过掺入C_α和N_α-甲基氨基酸，在氨基酸C_α和C_β原子间引入双键和通过引入共价键如在N和C端之间、两侧链间或侧链与N或C端之间形成酰胺键而形成环状肽或类似物。

如果施用给个体或用作诊断试剂，这些修饰类型对于稳定细胞因子可能是重要的。

本发明所考虑的其它衍生物包括从完整的非糖基化分子到修饰的糖基化分子的一系列糖基化变体。改变的糖基化模式可能源于不同的宿主细胞中重组分子的表达。

本发明的另一实施方案涉及调节哺乳动物中SOCS蛋白表达的方法，该方法使编码SOCS或参与控制SOCS基因表达的因子/因素的基因与有效量的SOCS表达调节剂在足以上调或下调或其它调节SOCS表达的条件下接触一定时间。调节剂的一个例子是细胞因子如IL-6或其它SOCS表达的转录调节剂。表达包括转录或翻译或两者兼有。

本发明的另一方面包括调节人中SOCS活性的方法，该方法包括在足以升高或降低SOCS活性的条件下给所述哺乳动物施用调节有效量的分子一定时间。这种分子可以是蛋白或化学本质，也可以是SOCS的衍生物或SOCS的化学类似物或截断突变体。

本发明的另一方面提供诱导SOCS合成或SOCS转录/翻译的方法，包括使含SOCS基因的细胞与有效量的能诱导所述SOCS的细胞因子在足以使所述SOCS产生的条件下接触一定时间。例如，SOCS1可由IL-6诱导。

本发明的另一方面包括调节细胞中SOCS蛋白水平的方法，包括使含有SOCS基因与有效量的SOCS基因表达或SOCS蛋白活性的调节剂在足以调节所述SOCS蛋白水平的条件下接触一定时间。

本发明的另一方面包括调节含SOCS基因的细胞中信号传导的方法，包括使所述细胞与有效量的SOCS基因表达或SOCS蛋白活性的调节剂接触足以调节信号传导的一段时间。

本发明的另一方面包括影响其中至少一种细胞携带SOCS基因的细胞间相互作用的方法，该方法包括使带有SOCS基因的细胞与有效量的SOCS基因表达或SOCS蛋白活性的调节剂接触足以调节信号传导的一段时间。

如上所述，本发明考虑能作为SOCS拮抗剂或激动剂的一系列模拟物或小分子。这些分子可从天然产物筛选如从珊瑚、土壤、植物或海洋或南极环境获得，或者可方便地对肽、多肽或蛋白库或化学物质库进行筛选。例如，表达SOCS的M1细胞在IL-6存在时不经历分化。此系统可用于筛选在IL-6和SOCS存在时能分化的分子。可制备一系列检测细胞以筛选一系列细胞因子的拮抗剂和激动剂。这些分子优选地是小分子并可以是氨基酸来源或化学来源。SOCS分子与信号蛋白(如JAKS)的相互作用可提供分子筛选以检测干扰或促进这种相互作用的分子。一种这样的筛选方法包括天然产物筛选。

因此，本发明包括含有SOCS或其衍生物或SOCS表达或SOCS活性的调节剂和一种或多种药学上可接受的载体和/或稀释剂的药物组合物。这些组成成分称为“活性成分”。本发明的这些或其它方面适用于任何SOCS分子，例如但不限于SOCS1至SOCS15。

这些药物形式含有适于注射用的活性成分，包括用于即时制备无菌注射无菌水溶液的(在水中可溶的)无菌粉末。这些成分必须在制造和贮存条件下稳定并且必须能抗微生物如细菌和真菌的污染而得到保存。载体可以是溶剂或分散介质，包括例如水、乙醇、多元醇(如甘油、丙二醇和液体聚乙二醇等)及其适当混合物和植物油。合适的流动性可例如通过应用诸如licithin的包被剂、或通过在分散剂参与下维持要求的颗粒大小和通过应用表面活性剂来保持。微生物作用的防止可用各种抗细菌和抗真菌剂如对羟基苯甲酸酯类，氯丁醇、苯酚、山梨酸，thirmerosal等来实施。在许多情况下，优选地包含等渗试剂如糖或氯化钠。可注射成分的延缓吸收可通过在组合物中应用延迟吸收剂如用单硬脂酸铵和白明胶来达到。无菌注射液可通过将所需数量的活性化合物掺入含有以上所列的各种其它成分的合适溶剂中并且随后如所要求的过滤除菌而得到制备。对于制备无菌注射液的无菌粉末，优选的制备方法是真空干燥和冷冻干燥，产生活性成分及其先前灭菌过滤溶液中任何其它所需成分的粉末。

活性成分得到适当保护时，它们可口服给药。例如用隋性稀释剂或可食用可消化吸收的载体，或它可装入硬或软的壳明胶胶囊中，或它可压缩成片剂。对于口服治疗给药，活性成分可与赋形剂结合并以可消化的片剂、颊含片、药片、胶囊、酏剂、悬浮液、糖浆，薄片等形式使用。这些组合物和制品应包含占重量比至少1％的活性成分。当然，这样的组合物和制品的百分比可以变化，并可方便地占单位重量的约5～约80％。在这样的治疗有效的组合物中活性成分的量使得能得到适当的剂量。制备根据本发明所述的优选的组合物或制品以使口服剂量单位包含约0.1μg到约2000mg之间的活性成分。

药片、片剂、丸剂、胶囊等也可含有以下所列的成分：粘合剂如树胶、阿拉伯树胶、玉米淀粉或明胶，赋形剂如磷酸氢二钙，分散剂如玉米淀粉、土豆淀粉、藻酸等，润滑剂如硬脂酸镁，可以加入的甜味剂如蔗糖、乳糖或糖精或调味剂如胡椒薄荷、冬青油或樱桃香精。除了以上形式的物质，如果剂量单位形式是胶囊，还可含有液体载体。其它多种材料可作为包被剂存在或修饰剂量单位的物理形式。例如，片剂、丸剂或胶囊可用紫胶，糖或二者包被。糖浆或酏剂可含有活性化合物、作为甜味剂的蔗糖、作为防腐剂的甲基和丙基对羟基苯甲酸酯类、染色剂和香精如樱桃或桔子香精。当然，用于制备剂量单位形式的任何物质应是药学纯的并且所用量基本上无毒。另外，活性化合物可掺入缓释制剂和配方。

本发明也扩展到适于体表给药形式如乳膏、洗液和凝胶。

制药上可接受的载体和/或稀释剂包括任何或所有溶剂，分散介质，包被剂，抗细菌和抗真菌剂、等渗和延缓吸收的药剂等。已在本领域内熟知对制药活性物质应用这些介质和药剂。除非在此范围内，任何传统的介质或试剂与活性成分不相容，应考虑应用其药物组合物。补充的活性成分也可掺入组合物。

配制剂量单位形式的非肠道组合物具有特别的优点，可使给药容易和剂量均一。在此所应用的剂量单位形式指的是适于给所治疗的哺乳动物个体以单位剂量的物质分散单位，每单位含有事先决定的活性物质的量。这一量是根据与所要求的制药载体相一致的，应产生所要达到的疗效而计算出的。本发明的新的剂量单位形式说明书是根据并直接依据(a)活性物质的特性和应达到的特殊疗效(b)在此详细公开的本领域的活性物质化合物治疗健康受损的病态情况下生命体的疾病的固有的局限。

在此之前公开了主要的活性物质的合成。活性物质与合适的药学可接受载体结合成一剂量单位形式以方便、有效地以有效量给药。一单位剂量可以，例如，含有主要活性化合物，其量是从0.5μg至约2000mg。用比例表达是：活性化合物一般占载体的从大约0.5μg到大约2000mg/ml组合物包括补充活性成分，剂量根据有用剂量和所说的成分的给药方式来决定。有效量也可方便地以每kg体重的量的方式来表示。例如，可以服用约0.01ng到约10,000mg/kg体重。

药物组合物还包括基因分子如可转染目的细胞的载体。载体上携带一核苷酸分子。这一分子可调节SOCS表达或SOCS活性。载体可以，例如，是病毒载体。在此，本发明考虑的一类基因治疗包括分离某种细胞，基因操作，和重新返回这些细胞到同一实验对象或基因相关或相似的实验对象。

本发明的另一方面涉及SOCS及其衍生物的抗体。这样的抗体可以是单克隆或多克隆的并可选自天然存在的针对SOCS的抗体或可以特异地针对SOCS或其衍生物产生。对于后者，SOCS或其衍生物首先需要与载体分子结合。本发明的抗体和/或重组SOCS或其衍生物作为治疗或诊断试剂特别有用。

例如，SOCS及其衍生物可用于筛选天然产生的针对SOCS的抗体。这些抗体可能例如在某些自身免疫病中产生。另外，特异的抗体可用于筛选SOCS。这样的分析测定技术在本领域内已熟知并且包括例如三明治测定法和ELISA。SOCS水平的了解可能对诊断某些癌症或癌症倾向或监测细胞因子介导的细胞反应性或监测某些治疗措施有意义。

本发明的SOCS抗体可以是单克隆抗体或多克隆抗体，另外，可应用抗体的片段如Fab片段。另外，本发明扩展到重组和合抗抗体以及杂种抗体。在此考虑的“合成抗体”包括抗体的片段和杂化物。本发明的这一方面的抗体，对于免疫治疗特别有用处，并也可作为诊断工具以检测细胞凋亡或监测某些治疗方法的程序。

例如，特异性抗体可用于筛选SOCS蛋白。后者很重要。例如，作为筛选细胞提取液或其它生物体液中SOCS水平或从培养上清液中纯化重组的SOCS的方法。

本发明范围内包括任何二抗(单克隆，多克隆或抗体或合成抗体的片段)。这些二抗直接与上面首先讨论的抗体相关，这些一抗、二抗可用于检测分析或可应用商业性可获得的抗免疫球蛋白抗体作为一抗。在此考虑的抗体包括对SOCS的任一区段有特异性的抗体。

多克隆和单克隆抗体可用酶或蛋白免疫获得。并且两种类型都可用于免疫测定。自血清中获得两种抗体的方法在此领域内已熟知，多克隆血清较少优选，但相对容易制备，制备通过给适当的实验动物注射有效量的SOCS或其抗原性部分，从动物身上收集血清，应用所知的免疫吸附技术收集特异性血清。尽管用这种方法产生的抗体可应用于几乎所有类型的免疫测定，但由于产品潜在不均一性，他们一般较少优选。

单克隆抗体由于能大量生产及产品具有均一性，所以特别优选用于免疫测定。可通过融合不死细胞系和被免疫原性制备剂致敏的淋本发明细胞产生用于生产多克隆抗体的杂交瘤细胞系。这些技术已被本领域的技术人员所熟知并可应用。

本发明的另一方面包括用于检测来自受测试者的生物样品中的SOCS的方法，该方法包括使所述生物样品与对SOCS或其衍生物或同系化合物特异的抗体在足以形成抗体-SOCS复合物的条件下接触一定时间，然后检测该复合物。

SOCS的存在可用大量方法检测到，如Western印迹杂交和ELISA法。多种免疫测定技术可以参考美国专利号4,016,043，4,424,279和4,018,653。这些当然包括非竞争类型的单位点和双位点或“三明治”测定，以及传统的竞争结合测定。这些测定技术还包括标记的抗体与目标的直接结合。

三明治测定技术是最有用的和最普遍使用的测定方法，并且在此发明中优选地应用。本发明包括大量变化了的和所有的三明治测定技术。简要地，一个典型的系列测定中，未标记抗体被固定在一固体支持物上，样品可与固定的分子接触而被检测。经过适当的孵育时间，这段时间经足够允许抗原抗原复合物形成，之后，加入标记有报告分子能产生可检测信号的抗原特异性二抗，并孵育一段时间，以形成另外一个标记的抗体-抗原抗体复合物。洗脱掉其它未反应物。抗原的存在就可通过观察报告分子产生的信号来测定。结果既可通过仅仅观察可见信号定性，又可通过与含有一定数量半抗原的对照样品对比业定量。这种系列测定法的变化包括一种同时测定，即样品和标记的抗体同时加到固定抗体上、本领域的技术人员熟知这些技术，包括可能会很明显的任何小的变化。根据本发明，可能含有SOCS的样品包括细胞提取液、组织活检或可能的血清，唾液，粘膜分泌物，淋本发明、组织液和呼吸液。因此，样品一般是生物样品，包括生物体液，而且还扩展到发酵液或培养细胞的上清液。

典型的系列三明治检测技术中，有SOCS或其抗原部分特异性的一抗既可共价地，又可被动地与固体表面结合。固体表面典型的是玻璃或高分子，最常用的高分子是纤维素，聚丙烯酰胺，信号传导龙，聚苯二烯，聚氯乙烯或聚丙烯。固定支持物形状可是管型，珠状，微孔板或其它适于进行免疫测定的表面。本领域众所周知其结合过程，并且一般是由交联共价结合或物理吸附，在制备测试样品时冲洗高分子一抗体复合物。然后把被测的可整除的样品加到固相复合物上，在合适的条件下(如室温到37℃)孵育足够的时间(例如2-40分钟或如更方便地过液)以保证抗体中任何亚单位固定、孵育之后，冲洗抗体亚单位固相并干燥后再和半抗原的部分特异性二抗孵育，二抗连接有报告分子，报告分子用于显示二抗与半抗原的结合。

另外一种方法涉及固定生物样品中的目标分子，然后暴露固定的目标于特异性抗体中，此特异性抗体可标有或未标有报告分子。依据目标分子的数量及报告分子信号的强度，可通过直接标记抗体来检测固定的目标分子。或者，与一抗特异性结合的标记二抗暴露于目标-一抗复合物中以形成目标-一抗-二抗三级复合物。通过报告分子发出的信号来检测该复合物。

本说明书中所用的“报告分子”是指其化学性质提供可分析鉴定的信号使得可以检测抗原结合的抗体的一类分子。检测可以是定性或定量的。这种测定中最常用的报告分子是酶、荧光基团或含有放射性核素(即放射性同位素)的分子和化学发光分子。

在酶免疫测定时，酶与二抗结合，结合一般通过戊二醛或过碘酸(盐)。尽管容易识别，但存在多种不同的结合技术。这些技术易被本领域的技术人员所应用。常用的酶包括辣根过氧化物酶，葡糖氧化醛，β-半乳糖苷酶和碱性磷酸酶及其它。根据底物与特异的酶作用后的产物，该产物经过相应酶水解后产生可检测的颜色变化来选择所用的底物。合适的酶的实例包括碱性磷酸酶和过氧化物酶。也可用荧光底物，这样产生的是荧光产物而不是上面所提到的产色底物。所有情况中，把酶标抗体加到一抗-抗原复合物上，使其发生结合，然后洗掉过多的试剂，然后把含有合适的底物的溶液加到抗体-抗原-抗体复合物上。底物将与酶标二抗反庆，产生定性的可见信号。这些信号可被进一步定量，通常采用分光光度法，得到样品中半抗原量的指示。“报告分子”也可扩展到应用细胞凝集或凝集抑制。如红细胞在乳胶珠上凝集抑制等。

或者，荧光化合物如荧光素和罗丹明可以在不改变其结合能力的情况下与抗体结合。当被一定波长的光所激发后荧光标记的抗体以收光强，诱导分子进入可激发态，随后发出可用光学显微镜检测到的特征性颜色的光。在EIA中，荧光素标记抗体可与一抗-半抗原复合物结合。洗脱掉未结合的试剂后，剩下的三级复合物就暴露于适当的波长的光下，即可观察到显示感兴趣的半抗原和存在。免疫荧光和EIA技术在本领域中都易于建立，且特别优选用于本方法。然而，也可应用其它报告分子，如放射同位素，化学发光物或生物发光物分子。

本发明还包括基因测定如采用PCR分析来检测SOCS基因或其衍生物。替代的方法或联合应用的方法包括直接核苷酸测序或突变扫描如单链构象多态性分析(SSCP)、特异寡核苷酸杂交和诸如直接蛋白截断测定的方法。

由于细胞因子参与某些SOCS分子的转录，SOCS的检测给细胞因子或细胞因子活性提供了替代标记。这可以在评估患有诸如那些自身免疫疾病，如风湿性关节炎、糖尿病和stiff man综合征等的一系列疾病的对象时有用。

本发明的核酸分子可以是DNA或RNA。当核酸分子以DNA形式时，它可以是基因组DNA或cDNA。本发明的核酸分子的RNA形式一般是mRNA。

尽管本发明的核酸分子一般以分离的形式，但是它们可整合入或连接入或融合或结合于其它遗传分子如载体分子上或特定表达载体分子中。载体和表达载体一般能复制并且，如果可行，在原核细胞或真核细胞中表达。优选地，原核细胞包括大肠杆菌、杆菌属种类和假单孢菌属种类。优选的真核细胞包括酵母菌、真菌、哺乳动物和昆虫细胞。

因此，本发明的另一方面包括包含载体部分、哺乳动物或更具体地人SOCS基因部分的基因构建体，SOCS基因部分能编码SOCS多肽或其功能上或免疫学上相互作用性的衍生物。

优选地，基因构建体的SOCS基因部分可调控地与载体上的启动子相连，使得启动子能指导所述SOCS基因部分在适当细胞中表达。

另外，基因构建体的SOCS基因部分可包含与另一遗传序列如编码谷胱甘肽-S-转移酶或其部分的核苷酸序列融合的所有或部分基因。

本发明扩展到这样的基因构建体及含有相同的基因构建体的原核和真核细胞。

本发明还扩展到SOCS的任何或所有衍生物，包括突变体、部分、片段、组分、同系物、类似物或它们的编码基因序列，包括对天然存在的核苷酸或氨基酸序列的一个或多个核苷酸或氨基酸替换、添加和/或缺失。本发明还扩展到SOCS的模拟物和激动剂及拮抗剂。

本发明的SOCS及其基因序列将在制备一系列治疗和诊断试剂有用并尤其将在检测参与特定细胞反应的细胞因子或此细胞因子的受体中有用。例如，表达SOCS基因的细胞如表达SOCS1基因的M₁细胞，将不再对某特定细胞因子，即对于SOCS1的IL-6应答。清楚地，本发明进一步包括诸如表达任何SOCS基因如SOCS1到SOCS15的M1细胞的细胞，更进一步，本发明提供调节或加强治疗性细胞因子能力的分子的用途。例如，阻断一些SOCS活性的分子可能对治疗性细胞因子的潜在活性作用(如G-CSF)。

在治疗涉及细胞因子介导的细胞反应性的疾病、损伤或异常如超免疫反应、免疫抑制、变态反应、高血压等时特别有用的可溶性SOCS多肽也包括在本发明内。

本发明的另一方面包括应用SOCS及其功能性衍生物在制备用于治疗与细胞因子介导的细胞反应性有关的疾病的药物中的用途。

本发明进一步包括表达SOCS基因的转基因哺乳动物细胞。这些细胞是用于测定细胞因子功能抑制的有用的指示细胞系。一个实例是表达SOCS基因的M1细胞。这样的细胞系可用于筛选细胞因子或筛选能作用为细胞因子拮抗剂或激动剂的分子如来自植物、珊瑚、微生物或生物有机活性土壤或水的天然存在的分子。

本发明进一步包括来自相同或不同动物种的不同SOCS间的杂合体。例如，杂合体可在小鼠SOCS1和人SOCS1的所有或功能部分间形成。或者，杂合体可在小鼠SOCS1与小鼠SOCS2的所有或功能部分间形成。在此包括所有这样的杂合体并在开发多效性分子时特别有用。

本发明进一步包括一系列筛选带缺陷型SOCS基因个体的以基因为基础的诊断分析法。这些突变可产生不对特定细胞因子应答的细胞类型或导致引起病情的过量表达。SOCS基因序列可容易地通过用各种PCR或其它测定基因中是否有突变的技术来证实。然后合适的基因治疗或其它干涉治疗可被采用。

本发明用以下非限制性的实施例进一步描述。

实施例1-16涉及根据活性鉴定的SOCS1，SOCS2和SOCS3。实施例17-24涉及最初根据序列相似性克隆的SOCS4至SOCS15的各个方面。实施例25-26分别涉及SOCS4至SOCS15的具体方面。

实施例1细胞培养和细胞因子

M1细胞系源自SL小鼠中自发产生的白血病[Ichikawa，1969]。本研究中所用的亲本M1细胞已在澳大利亚维多利亚墨尔本的Walter和Eliza Hall医学研究所中传代约10年。通过每周在含10％(体积/体积)胎牛血清(FCS)的Dulbecco改良的Eagle培养基(DME)中传代来维持M1细胞。重组细胞因子通常可从商业来源获得或通过已公开的方法制备。如前所述，重组的鼠LIF在大肠杆菌中合成[Gearing，1989]。从PeproTech Inc(Rocky Hill，NJ，USA)购得纯化的人oncostain M，从Genzyme Diagnostics(Cambridge，MA，USA)获得纯化的小鼠IFN-γ。重组的鼠促血小板生成素在CHO细胞中作为FLAGTM标记的融合蛋白合成并髓后得到纯化。

实施例2琼脂集落分析

在装有补加20％(体积/体积)胎牛血清(FCS)，0.3％(重量/体积)琼脂和0.1毫升IL-6、LIF、OSM、IFN-γ、tpo或地塞米松(Sigma ChemicalCompany，St Louis，MI)的连续稀释液的1毫升DME的35毫米培养皿中培养300个细胞以检测对细胞因子反应的M1细胞的分化。在37℃含10％(体积/体积)CO₂的完全湿润的空气中培养7日后，对M1细胞集落计数，并且如果细胞由分散的细胞组成或在紧密包裹的中心周围有分散细胞冠，就将其归类为分化。

实施例3逆转录病毒文库的产生

基本如所述的[Rayner，1994]从因子依赖型造血细胞系FDC-P1构建cDNA表达文库。简要地说，将cDNA克隆入逆转录病毒载体pRUFneo，然后转染进双嗜性包装细胞系(PA317)。转染后48小时从细胞上清收集瞬间产生的病毒并用于转染Y₂亲嗜性包装细胞以得到产生高滴度病毒的细胞系。

实施例4M1细胞的逆转录病毒侵染

对10⁶个侵染的ψ2细胞群进行辐射(3000rad)并与10⁶个M1细胞在添加10％(体积/体积)FCS和4微克/毫升Polybrene的DME中于37℃共培养2天。为筛选IL-6非反性性克隆，用DME洗一次逆转录病毒侵染的M1细胞并在1毫升含400微克/毫升遗传霉素(Gibc0BRL，Grand Island，NY)和100纳克/毫升IL-6的琼脂培养基中按约2×10⁴细胞/毫升培养。如通过在仅存在geneticin时侵染细胞的琼脂铺板估算的，M1细胞的侵染效率是1-2％。

实施例5PCR

用SacI消化逆转录病毒侵染的M1细胞的基因组DNA，然后通过聚合酶链反应(PCR)扩增1微克酚/氯仿抽提的DNA。用于扩增整合逆转录病毒的cDNA插入的引物是对应于多克隆位点5’的约30bp的载体gag序列GAG3(5’CACGCCGCCCACGTGAAG GC 3’[SEQ IDNO：1])，和对应于多克隆位点3’的约200bp的pMCLneo序列的HSVTK(5’TTCGCCAATGACAAGACGCT 3’[SEQ ID No：2])。PCR需要94℃起始变性5分钟，35个循环的94℃变性1分钟、56℃退火2分钟和72℃延伸3分钟，然后是最后的10分钟延伸。凝胶纯化PCR产物并将其连接入pGEM-T质粒(Promega，Madison，WI)，并用ABIPRISM Dye终止循环测序试剂盒和373型DNA自动测序仪(AppliedBiosystems Inc，Foster City，CA)进行测序。

实施例6cDNA克隆

基本上如所述(Hilton等，1994)从鼠胸腺cDNA文库分离编码小鼠SOCS1的独立cDNA克隆。用BLASTN和TFASTA算法(Pearson和Lipman，1988；Pearson，1990；Altsch等，1990)将小鼠SOCS1cDNA的核苷酸和推测的氨基酸序列与数据库比较。从编码人SOCS1及小鼠SOCS1和SOCS3的EST设计寡核苷酸并用于探测商业购买的小鼠胸腺和脾cDNA文库。用ABI自动测序仪根据生产商的说明进行测序。

实施例7DNA和RNA印迹及RT-PCR

用随机十核甘酸标记试剂盒(Bresatec，Adelaide，South Australia)从来自质粒pPGKneo的编码新霉素磷酸转移酶的600bp PstI片段、通过用Xh0I消化1.4kbp PCR产物所得的SOCS1基因的1070bp片段、SOCS2、SOCS3、CIS和小鸡甘油醛3-磷酸脱氢酶基因的1.2kbp片段产生³²P标记的探针[Dugaiczyk，1983]。

基本上如所述的用蛋白酶K-十二烷基硫酸钠方法从细胞分离基因组DNA。基本上如所述的[Sambrook，1989]，用BamH I或Sac I消化15微克DNA，在0.8％(重量/体积)琼脂糖凝胶上分级分离，转移至GeneScreenPlus膜(Du Pont NEN，Boston MA)上，预杂交，与随机引物³²P标记的DNA片段杂交并冲洗。

如生产商(GibcoBRL，GRand Island，NY)所推荐的用Trizol试剂从细胞和组织分离总RNA。基本上如所述的[Alexander，1995]纯化所需的多聚腺苷酸化mRNA。如所述的[Alexander，1995]对蛋白印迹预杂交，用随机引物³²P标记的DNA片段杂交并冲洗。

向小鼠C57BL6静脉注射5微克IL-6，然后在注射后指定时间点收集肝脏以评估IL-6对SOCS基因的诱导。M1细胞在存在20纳克/毫升IL-6的情况下培养并在指定时间收集。对于RT-PCR分析，如所述的(Metacalf等，1995)收集骨髓细胞并用100纳克/毫升的一系列细胞因子在37℃刺激1小时。如所述的对总RNA进行RT-PCR(Metcalf等，1995)。在琼脂糖凝胶上分辨PCR产物并用每个SOCS家族成员特异的探针与DNA印迹杂交。检测β-肌动蛋白的表达以确保扩增的一致性。

实施例8DNA构建和转染

通过将完整SOCS1编码区亚克隆入已加工编码起始蛋氨酸下游的框架内FLAG抗原决定基的pEF-BOS表达载体[Mizushima，1990]产生编码表位标记的SOCS1的cDNA(pF-SOCS1)。用前述的电穿孔[Hilton，1994]，将20微克Aat II消化的pF-SOCS1表达质粒和2微克Sca I消化的其中编码嘌呤霉素N-乙酰转移酶的cDNA的转录由小鼠磷酸甘油激酶启动子(pPGkPuropA)驱动的质粒转染入表达促血小板生成素受体(M1.mp1)的M1细胞。在培养48小时后，用20微克/毫升嘌呤霉素(Sigma Chemical Company，St Louis MO)筛选转染的细胞，并用M2抗FLAG的单克隆抗体根据生产商说明书(Eastman Kodak，Rochester NY)通过蛋白印迹分析筛选SOCS1的表达。在其它实验中，仅用pF-SOCS1质粒或对照转染M1细胞并根据其在存在100纳克/毫升IL-6时在琼脂中的生长能力来筛选。

实施例9免疫沉淀和蛋白印迹分析

在免疫沉淀或蛋白印迹分析(Western blotting)前，将10⁷M1细胞或其衍生物洗两次，重新悬浮于1毫升DME中，并在37℃培养30分钟。然后用盐水或100纳克/毫升IL-6在37℃刺激细胞4分钟，然后加入钒化钠(Sigma Chemical C0.，St Louis，MI)至1mM浓度。将细胞置于冰上，用含1mM钒化钠盐水洗一次，然后用含完全蛋白酶抑制剂(Boehringer Mannheim，Mannheim，Germany)和1mM钒化钠的300微升的1％(体积/体积)Triton X-100，150mM NaCl，2mM EDTA，50mMTris-HCl pH7.4在冰上溶解5分钟。通过离心使裂解物澄清并用考马斯蛋白分析试剂(Pierce，Rockford IL)进行定量。

对于免疫沉淀，用4微克抗gp130的抗体(M20；Santa CruzBiotechnology Inc.，Santa Cruz，CA)或4微克抗磷酸酪氨酸的抗体(4G10；Upstate Biotechnology Inc.，Lake Placid NY)和15微升包装体积的蛋白G Sepharose(Pharmacia，Uppsala，Sweden)与相同浓度的蛋白提取物(1-2毫克)于4℃培养1小时或过夜[Hilton等，1996]。用含完全蛋白酶抑制剂(Boehringer Mannheim，Mannheim，Germany)和1mM钒化钠的1％(体积/体积)NP40，105mM NaCl，50mM Tris-HCl pH8.0洗免疫沉淀两次。样品在SDS样品缓冲液(625mM Tris-HCl pH 6.8，0.05％(重量/体积)SDS，0.1％(体积/体积)甘油，溴酚蓝，0.125％(V/V)2-疏基乙醇)中于95℃加热5分钟，通过SDS-PAGE分级分离并如上述免疫印迹。

对于蛋白印迹分析，将来自免疫沉淀反应的10微克细胞提取物或物质蛋白上样到4-15％预备胶(Bio-Rad Laboratories，Hercules CA)上并通过十二烷基硫酸钠聚丙酰胺凝胶电泳(SDS-PAGE)分辨。在100V下1小时将蛋白转移至PVDF膜(Micron Separations Inc.，WestboroughMA)上。用下列一抗探测膜：抗酪氨酸磷酸化的STAT3(1∶1000稀释；New England Biolabs，Beverly，MA)；抗-STAT3(C-20；1∶100稀释；Santa Cruz Biotechnology Inc.，Santa Cruz CA)；抗gp130(M20，1∶100稀释；Santa Cruz Biotechnology Inc.Santa Cruz CA)；抗磷酸酪氨酸(辣根过氧化酶偶联的RC20，1∶5000稀释；Transduction Laboratories，Lexington KY)；抗酪氨酸磷酸化的MAP激酶和抗MAP激酶(1∶1000稀释；New England Biolabs，Beverly，MA)的抗体。根据生产商说明书(Pierce，Rockford IL)用过氧化物偶联的二抗和增强的化学发光(ECL)试剂观察印迹。

实施例10电泳迁移率变化分析

如所述的[Novak，1995]，用高亲和性SIF(c-sis诱导因子)结合位点m67进行分析[wakao，1994]。从在10毫升含盐水、100ng/ml IL-6或100ng/ml IFN-γ的无血清DME中37℃培养4-10分钟的M1细胞中制备蛋白提取物。结合反应包含4-6微克蛋白(在给定实验中恒定)、5纳克³²P标记的m67寡核苷酸和800纳克超声处理的鲑鱼精子DNA。对于某些实验，如所述的[Novak，1995]，蛋白样品与过量的未标记m67寡核苷酸或对STAT1(Transduction Laboratories，Lexington，KY)或STAT3(Santa Cruz Biotechnology Inc.，Santa Cruz CA)特异的抗体一起预培养。

如所述的[Nicola等，1996]用抗酪氨酸磷酸化的STAT3或抗STAT3(New England Biolabs，Beverly，MA)或抗gp130(Santa CruzBiotechnology Inc.)的抗体进行蛋白印迹分析。如所述的(Novak等，1995)用m67寡核苷酸探针进行EMSA。

实施例11细胞因子信号传导新抑制剂的表达克隆

采取表达克隆方法鉴定能抑制细胞因子信号传导的cDNA。此策略针对可对细胞因子IL-6，LIF，OSM和IFN-γ及类固醇地塞米松应答分化成成熟巨噬细胞并停止增殖的单核白血病细胞系M1细胞。用其中已克隆入因子依赖型造血细胞系FDC-P1的cDNA的RUFneo逆转录病毒侵染亲本M1细胞。在此逆转录病毒中，新霉素抗性基因和克隆的cDNA的转录由逆转录病毒LTR中存在的强组成型启动子驱动(图1)。亲本M1细胞在半固体琼脂中培养时形成大的紧密包裹的集落。用IL-6刺激时，M1细胞经历快速分化，导致在琼脂中仅形成单一巨噬细胞或小的分散细胞群。在半固体琼脂培养基中根据在IL-6和遗传霉素存在形成大的紧密包裹的集落的能力来挑选对IL-6非反应性的逆转录病毒侵染的M1细胞。在检查10⁴个侵染的细胞后获得单一稳定的IL-6未反应性克隆。

新霉素磷酸转移酶(neo)基因片段用于探测克隆4A2的基因组DNA的DNA印迹并且表明细胞系已由含大约1.4kbp的cDNA的单一逆转录病毒感染(图2)。用来自逆转录病毒载体位于cDNA克隆位点两侧的引物进行PCR扩增保证了我们已命名为细胞因子信号传导抑制剂1或SOCS1的1.4kbp cDNA插入的回收。将此PCR产物用于探测相似的4A2基因组DNA的DNA印迹并与两个片段杂交，一个片段对应于内源SOCS1基因，另一个片段符合用neo探针时所见到的条带大小、对应克隆入整合逆转录病毒的SOCS1cDNA(图2)。用含不相关cDNA的逆转录病毒侵染的M1细胞中没有观察到后者。相似地，RNA印迹分析表明SOCS1mRNA在细胞系4A2中丰富，但不存在于对照侵染的M1细胞克隆中(图2)。

实施例12SOCS1、SOCS2、SOCS3和CIS定义含SH₂的蛋白新家族

SOCS1 PCR产物用作探针从小鼠胸腺cDNA文库中分离同源cDNA。cDNA序列被证明与PCR产物相同，表明SOCS1蛋白的组成型或过量表达而不是突变足以产生IL-6-非反应性表型。将SOCS1cDNA序列与核苷酸序列数据库比较发现它存在于小鼠和大鼠包含小鼠染色体16中发现的鱼精蛋白基因群的基因组DNA克隆。进一步检测表明1.4kb SOCS1序列不与任何鱼精蛋白基因同源，但确实代表位于这些克隆的远3′端的先前未鉴定的开放阅读框架(图3)。在SOCS1cDNA和基因座序列间没有不连续区，表明SOCS1由单一外显子编码。除含鱼精蛋白基因的基因组克隆，一系列鼠和人表达序列标记(EST)也揭示出与小鼠SOCS1相同的大块核苷酸序列。人EST提供的序列信息确保了编码人SOCS1的eDNA的快速克隆。

小鼠和大鼠SOCS1基因编码212个氨基酸的蛋白，而人SOCS1基因编码211个氨基酸的蛋白。小鼠、大鼠和人SOCS1蛋白具有95-99％的氨基酸相同性(图9)。用推测的SOCS氨基酸序列搜索翻译的核酸数据库表明它与最近克隆的细胞因子诱导的立即早期基因产物CIS和两类EST最相关。两类EST的全长cDNA得到分离并发现编码具有与SOCS1和CIS相似长度和总体结构的蛋白。这些克隆命名为SOCS2和SOCS3。四种蛋白中的每一种都包含中央SH2结构域和定义为SOCS基序的C末端区。SOCS1蛋白在不同种中表现极高水平的氨基酸序列相似性(95-99％相同性)。但是，清楚定义含SH2的蛋白新家族的来自相同动物的SOCS1、SOCS2、SOCS3和CIS表现更低的氨基酸相同性。SOCS2和CIS表现约38％氨基酸相同，而家族的其余成员表现25％氨基酸相同性(图9)。SOCS1和SOC3基因编码区看来不含内含子，而SOCS2和CIS基因的编码区分别包含1个和2个内含子。

此处提及的序列的Genbank保藏号是小鼠SOCS1cDNA(U88325)，人SOCS1 cDNA(U88326)，小鼠SOCS2cDNA(U88327)，小鼠SOCS3cDNA(U88328)。

实施例13抑制一系列细胞因子作用的SOCS1组成型表达

为正式确定4A2细胞系的表型与SOCS1表达直接相关，并与这些细胞中独立发生的非相关遗传变化无关，将EF1α启动子调控下的编码SOCS1的表位标记模式的cDNA转染入亲本M1细胞和表达促血小板生成素受体的M1细胞c-mpl(M1.mpl)。两种细胞系中SOCS1表达载体的转染导致IL-6非反应性M1细胞的频率增加。

如蛋白印迹所检测到的，表达SOCS1的M1细胞的多个独立克隆表示不能与4A2区分的细胞因子非反应性表型。此外，如果不在嘌呤霉素中保存转染子，一定时间后SOCS1表达丢失并且细胞重新获得细胞因子反应性。在无细胞因子时，来自4A2和其它表达SOCS1的克隆的集落特征性地长得比由对照M1细胞形成的集落更小(图10)。

用4A2细胞系和表达SOCS1的M1.mpl细胞(M1.mpl.SOCS1)的克隆研究组成型SOCS1表达在M1细胞对一系列细胞因子应答中的影响。不像亲本M1细胞和M1.mpl细胞，表达SOCS1的两种细胞系继续增殖并且不能对IL-6、LIF、OSM、IFN-γ或促血小板生成素(对于M1.mplSOCS1细胞系)反应形成分化集落(图4)。但是对于两种细胞系，观察到对地塞米松的正常反应，表明SOCS1特异影响细胞因子信号传导而不是分化。与这些数据一致，亲本M1细胞和M1.mpl细胞并对IL-6应答变大并形成空泡，4A2和Ml.mpl.SOCS1细胞也没有表现对IL-6或其它细胞因子反应形态分化的证明(图5)。

实施例14SOCS1抑制一系列IL-6信号传导过程，包括STAT3磷酸化和活化

细胞表面受体成分gp130的磷酸化作用、胞质酪氨酸激酶JAK1和转录因子STAT3被认为在IL-6信号传导中起重要作用。在亲本M1和M1.mpl细胞系及其表达SOCS1的对应细胞系中比较这些事件。如所期望的，在两种亲本系中gp130对IL-6应答快速磷酸化，但是在表达SOCS1的细胞系中减少5到10倍(图6)。同样地，在表达SOCS1的细胞系中对IL-6应答STAT3磷酸化也减至约10倍(图6)。与STAT3磷酸化作用减少一致，如通过电泳迁移率转变检测所测定的，特异STAT DNA结合复合物的活化也减少。引人注意的是，在用IL-6刺激的M1细胞中诱导的三种STAT复合物SIF-A(含STAT3)、SIF-B(STAT1/STAT3异源二聚体)和SIF-C(含STAT1)的形成减少(图7)。相似地，SOCS1的组成型表达也抑制IFN-γ激活的p91同二聚体的形成(图7)。STAT磷酸化和活化不是唯一受SOCS1表达影响的胞质过程，因为包括shc和MAP激酶的其它蛋白的磷酸化作用也减至相似程度(图7)。

实施例15体外和体内IL-6刺激SOCS1基因的转录

尽管SOCS1在M1细胞中组成型表达可以抑制细胞因子信号传导，但是这一点并不必然表明SOCS1通常作用为负调节IL-6反应。

为了研究此种可能性，本发明人测定了M1细胞是否对IL-6反应而调节SOCS1基因的转录，因为IL-6在调节对损伤和感染的急性阶段反应中起关键作用，所以也测定了肝对5mg IL-6静脉注射的反应。在无IL-6时，在M1细胞和肝中都检测不到SOCS1mRNA。然而，对于两种细胞类型，用IL-6在20-40分钟内诱导1.4kb SOCS1转录物(图8)。对于M1细胞，如果IL-6在整个实验中存在，SOCS1mRNA的水平一直升高(图6)。相反，用单次静脉注射体内施用IL-6并迅速从循环中清除导致IL-6对肝的间断刺激。与此一致，可在肝中检测到SOCS1mRNA的瞬间表达，注射后约40分钟达到高峰并在4小时内降至基线水平(图8)。

实施例16 SOCS基因的调节

既然CIS作为细胞因子诱导的立即早期基因得到克隆，本发明人测定了SOCS1、SOCS2和SOC3是否受到相似调节。四个SOCS基因表达的基本模式通过对来自雌性和雄性C57B1/6小鼠组织的mRNA进行Northern印迹分析来测定(图11A)。在胸腺中观察到SOCS1的组成型表达，在脾和肺水平更低。SOCS2表达基本限制在睾丸和某些动物的肝或肺中；对于SOCS1，在肺、脾和胸腺中观察到低水平表达，而CIS表达更广泛，包括睾丸、心脏、肺、肾和某些动物的肝。

本发明人设法测定四个SOCS基因的表达是否由IL-6调节。从未处理的和注射IL-6的小鼠或未刺激的和IL-6刺激的M1细胞制备的mRNA的Northern印迹用标记的SOCS1、SOCS2、SOCS3和CIS cDNA片段杂交(图11B)。IL-6注射后，所有四个SOCS基因在肝中的表达都增加，然而诱导动力学看来不同。SOCS1和SOCS在肝中的表达是瞬间的，在IL-6注射20分钟后有可检测到的mRNA，对于SOCS1在4小时内降至基础水平，对于SOCS3在8小时内降至基础水平。SOCS2和CIS mRNA在肝中的诱导遵循与SOCS1相似的起始动力学，但在升高的水平上保持至少24小时。SOCS基因mRNA的相似诱导也在其它器官，明显地在肺和脾中发现。相反，在M1细胞中，SOCS1和CISmRNA受IL-6诱导，而没有观察SOCS2或SOCS3表达的诱导。此结果表明在SOCS家族成员基因对相同细胞因子应答的表达中的细胞类型特异性的不同。

为了测定能诱导各种SOCS基因家族成员转录的细胞因子的范围，用一系列细胞因子刺激骨髓细胞，然后提取mRNA并合成cDNA。然后使用PCR评估SOCS1、SOCS2、SOCS3和CIS的表达(图11C)。在不刺激时，通过PCR在骨髓中检测到极少的任一SOCS基因的表达或检测不到任何SOCS基因的表达。用广泛的细胞因子刺激骨髓细胞看来能正调节一个或多个SOCS家族成员的mRNA。例如，IFN γ诱导所有四个SOCS基因的表达，而促红细胞生成素、粒细胞集落刺激因子、颗细胞--巨噬细胞集落刺激因子和白细胞介素-3诱导SOCS2、SOCS3和CIS的表达。有趣地是，通过不属于I型细胞因子受体类型的受体作用的肿瘤坏死因子、巨噬细胞集落刺激因子和白细胞介素-1也表现出能诱导SOCS3和CIS的表达，证明SOCS蛋白可以在调节信号传导中起更广泛的作用。

由于SOCS1的组成型表达抑制M1细胞对一系列细胞因子的反应，本发明人测定了被认为在IL-6信号传导中起关键作用的细胞表面受体成分gp130和转录因子STAT3的磷酸化是否受到影响。在亲本M1和M1.mp1细胞和它们表达SOCS1的对应物中比较这些事件。如所预测的，在两种亲本细胞系中，gp130迅速对IL-6反应而磷酸化，然而在表达SOCS1的细胞系中磷酸化作用降低(图12A)。同样，STAT3对IL-6反应的磷酸化作用也在表达SOCS1的那些细胞系中降低(图12A)。与STAT3磷酸化作用降低一致，通过电泳泳动率变化实验测定的特异STAT/DNA结合复合物的活化也降低。明显地，用IL-6在M1细胞中诱导的主要STAT复合物SIF-A(含有STAT3)和SIF-B(STAT1/STAT3异源二聚体)没有形成。相似地，SOCS1的组成型表达也抑制IFN γ刺激的SIF-C(STAT1同源二聚体)的形成(图12B)。这些实验与SOCS1有效地在激酶水平上抑制受体上游的信号传导和STAT磷酸化作用的假设一致。

SOCS1抑制信号传导并最终抑制对细胞因子的生物反应的能力表明，如同含有SH2的磷酸酶SHP-1[Ihle等，1994；Yi等，1993]，SOCS蛋白通过抑制信号传导过程在控制细胞对各种细胞外刺激反应的强度和/或时间中起关键作用。此处提供的证据表明对于细胞因子信号传导，SOCS家族以典型的负反馈环作用。如同其它基因如OSM，编码SOCS蛋白的基因的表达由细胞因子经STAT的活化诱导。一旦表达，认为SOCS蛋白抑制JAK的活性并因此减少受体和STAT的磷酸化作用，由此抑制信号传导和任何随后的生物学反应。重要的是，在长时间范围内，STAT活化的抑制将导致SOCS基因表达的减少，使细胞重新得到对细胞因子的反应性。

实施例17数据搜索

用TFASTA和MOTIF/PATTERN算法(Pearson，1990；Cockwell和Giles，1989)搜索包含表达序列标鉴(EST)的主要数据和人表达序列标鉴的TIGR数据的NCBI遗传序列数据(Genbank)以寻找与保守的SOCS元件盒基序更具相似性的序列。使用软件包SRS(Etzold等，1996)，寻找与SOCS元件盒有相似性的EST(和从cDNA的另一端测序得来它们的伴侣)并使用Autoassembler(Applied Biosystems，FosterCity，CA)将它们排列成重叠群。然后用BLA STN[Altschul等，1990]，使用来自重叠的EST的保守核苷酸序列搜索不同的数据。又得到阳性EST并加到重叠群中。重复此过程直到不再能找到另外的EST。然后同Sequence Navigator(Applied Biosystems，Foster City，CA)翻泽保守的核苷酸序列。

编码新SOCS蛋白的EST如下：人SOCS4(EST81149，EST180909，EST182619，ya99H09，ye70co4，yh53c09，yh77g11，yh87h05，yi45h07，yj04e06，yq12h06，yq56a06，yq60e02，yq92g03，yq97h06，yr90f01，yt69c03，yv30a08，yv55f07，yv57h09，yv87h02，yv98e11，yw68d10，yw82a03，yx08a07，yx72h06，yx76b09，yy37h08，yy66b02，za81f08，zb18f07，zc06e08，zd14g06，zd51h12，zd52b09，ze25g11，ze69f02，zf54f03，zh96e07，zv66h12，zs83a08和zs83g08)，小鼠SOCS-4(mc65f04，mf42e06，mp10c10，mr81g09，和mt19h12)，人SOCS-5(EST15B103，EST15B105，EST27530和zf50f01)，小鼠SOCS-5(mc55a01，mh98f09，my26h12和ve24e06)，人SOCS-6(yf61e08，yf93a09，yg05f12，yg41f04，yg45c02，yh11f10，yh13b05，zc35a12，ze02h08，z109a03，z169e10，zn39d08和zo39e06)，小鼠SOCS-6(mc04c05，md48a03，mf31d03，mh26b07，mh78e 11，mh88h09，mh94h07，mi27h04和mj29c05，mp66g04，mw75g03，va53b05，vb34h02，vc55d07，vc59e05，vc67d03，vc68d 10，vc97h01，vc99c08，vd07h03，vd08c01，vd09b12，vd19b02，vd29a04和vd46d06)，人SOCS-7(STS WI30171，EST00939，EST12913，yc29b05，yp49f10，zt10f03和zx73g04)，小鼠SOCS-7(mj39a01和vi52h07)，小鼠SOCS-8(mj6e09和vj27a029)，人SOCS-9(CSRL-82f2-u，EST114054，yy06b07，yy06g06，zr40c09，zr72h01，yx92c08，yx93b08和hfe0662)，小鼠SOCS-9(me65d05)，人SOCS-10(aa48h10，zp35h01，zp97h12，zq08h01，zr34g05，EST73000和HSDHEI005)，小鼠SOCS-10(mb14d12，mb40f06，mg89b11，mq89e12，mp03g12和vh53c11)，人SOCS-11(zt24h06和zr43b02)，人SOCS-13(EST59161)，小鼠SOCS-13(ma39a09，me60c05，mi78g05，mk10c11，mo48g12，mp94a01，vb57c07和vh07c 11)，人SOCS-14(mi75e03，vd29h 11和vd53g07)。

实施例18cDNA克隆

根据从重叠EST得来的保守序列设计对不同SOCS家族成员特异的寡核苷酸。按上述标记寡核苷酸并将其用于筛选商业购买的用入噬菌体克隆的基因组和cDNA文库。覆盖鼠SOCS4、鼠SOCS5和鼠SOCS6的完整编码区域的基因组和/或cDNA克隆得到分离。完整SOCS15基因在人¹²p¹³BAC(Genbank登记号HSU47924)和鼠6号染色体BAC上(Genbank登记号AC002393)。鼠SOCS7、SOCS9、SOCS10、SOCS11、SOCS12、SOCS13和SOCS14的部分cDNA也得到分离。

实施例19Northern印迹和vt PCR

Northern印迹按上述进行。杂交探针来源如下：(i)鼠SOCS1cDNA的完整编码区域，(ii)来自SH2结构域上游SOCS编码区域的1059bpPCR产物，(iii)鼠SOCS6cDNA的完整编码区域，(iv)来自部分SOCS7cDNA的编码区域的790bp PCR产物和(v)鸡甘油醛-3-磷酸脱氢酶(GAPDH)cDNA的1200bp PstI片段。

实施例20SOCS家族的其它成员

SOCS1、SOCS2和SOCS3是在实施例1-16中鉴定的SOCS蛋白家族的成员。它们各含有中央的SH2结构域和称为SOCS元件盒的C末端保守基序。为了分离此蛋白家族的其它成员，用对应于SOCS元件盒保守残基的氨基酸序列搜索各种DNA数据。这种搜索表明存在编码12个SOCS蛋白家族其它成员的人和小鼠EST(图13)。用此序列信息分离编码SOCS4、SOCS5、SOCS6、SOCS7、SOCS9、SOCS10、SOCS11、SOCS12、SOCS13、SOCS14和SOCS15的cDNA。来自EST的重叠群和cDNA的进一步分析表明可以根据SOCS蛋白SOCS元件盒N端的推测结构将它们分成三类。这三类是带有(i)SH2结构域、(ii)WD-40重复和(iii)锚蛋白重复的SOCS蛋白。

实施例21带有SH2结构域的SOCS蛋白

带有SH2结构域的8个SOCS蛋白得到鉴定。它们包括SOCS1、SOCS2、SOCS3、SOCS5、SOCS9、SOCS11和SOCS14(图13)。小鼠SOCS5和SOCS14的全长cDNA及编码小鼠SOCS9和SOCS14的部分克隆得到分离。一级氨基酸序列和基因结构的分析表明这些蛋白对(SOCS1和SOCS3，SOCS2和CIS，SOCS5和SOCS14及SOCS9和SOCS11)是亲缘关系最近的(图13)。的确，SOCS5和SOCS14的SH2结构域是最相同的(图13B)，并且与CIS、SOCS1、SOCS2和SOCS3不同，SOCS5和SOCS14在它们的SH2结构域前有延伸的、尽管保守性更低的N端区域(图13A)。

实施例22

带有WD-40重复的4个SOCS蛋白得到鉴定。与带有SH2结构域的SOCS蛋白相同，这些蛋白的两两之间亲缘关系很近。小鼠SOCS4和SOCS6的全长cDNA得到分离并表明编码蛋白在SOCS元件盒的N端含有8个WD-40重复并与SOCS4和SOCS6有65％的氨基酸相似性。基于对来自人染色体12p13和小鼠6号染色体合成区域的BAC测序，SOCS15识别为开放阅读框架[Ansari-Lari等，1997]。在人、黑猩猩和小鼠中，SOC15由位于丙糖磷酸异构酶(TPI)基因3’末端几百碱基对内的二个编码外显子编码，但在IPI的相反链上编码。除了(末端)SOCS元件盒，SOCS15蛋白还含有四个WD-40重复。有趣地是，在EST数据库中，存在与SOCS15有亲缘关系的线虫、昆虫和鱼序列。

实施例23

鉴定了带有锚蛋白重复的三个SOCS蛋白。小鼠SOCS7、SOCS10和SOCS12的部分cDNA分析证明了多个锚蛋白重复的存在。

实施例24SOCS蛋白的表达模式

对每种SOCS蛋白的代表性成员-来自SH2结构域类的SOCS1和SOCS，来自WD-40重复类的SOCS6和来自锚蛋白重复类的SOCS7的mRNA的表达进行检测。

既然SOCS1基因的转录受细胞因子诱导，本发明人设法测定细胞因子刺激后SOCS5、SOCS6和SOCS7的mRNA水平是否增加。在用IL-6注射的小鼠肝中，SOCS1mRNA可在20分钟后检测到并在2小时内降至背景水平。相反，SOCS5mRNA表达的动力学十分不同，在IL-6注射12-24小时后可检测到。SOCS6mRNA看来是组成型表达的，而SOCS7mRNA在IL-6注射前或注射后的任何时候都检测不到。

这些基因的表达也在细胞因子刺激经加工而表达bcl-W的因子依赖型细胞系FDCP-1后检测到。同样，SOCS6mRNA是组成型表达的。

实施例25 SOCS4

通过用SOCS元件盒保守序列搜索EST数据库识别出人和小鼠SOCS4(图13)。那些来自人和小鼠SOCS4cDNA的EST在下面列表(表4.1和4.2)。使用来自小鼠EST的序列信息设计几个寡核苷酸并用于以传统方式筛选克隆入λ噬菌体的小鼠胸腺cDNA文库。编码小鼠SOCS4的cDNA得到分离并完全测序(图15)，并表明与数据库中鉴定的小鼠EST重叠(表4.1和图17)。这些cDNA包括5′非翻译区、完整小鼠SOCS编码区域和3′非翻译区(图17)。序列分析确认了SOCS4cDNA编码C末端的SOCS元件盒和SOCS元件盒前的8个WD-40重复(图17和16)。人SOCS4的两个序列重叠群(h4.1和h4.2)与实验测定的小鼠SOCS cDNA序列的关系在图17中表示。两个人重叠群的核苷酸序列在图18中列出。

SEQ ID NO：13和14代表鼠SOCS4的核苷酸序列和相应的氨基酸序列。SEQ ID NO：15和16分别是SOCS4cDNA人重叠群h4.1和h4.2。

实施例26SOCS5

通过用SOCS元件盒保守序列搜索EST数据库识别出人和小鼠SOCS5(图13)。那些来自人和小鼠SOCS5cDNA的EST在下面列表(表5.1和5.2)。使用来自小鼠和人EST的序列信息设计几个寡核苷酸并用于以传统方式筛选克隆入入噬菌体的小鼠胸腺cDNA文库、小鼠基因组cDNA文库和人胸腺cDNA文库。编码小鼠SOCS5的单一基因组DNA克隆(57-2)和(5-3-2)cDNA克隆得到分离并完全测序，并表明与数据库中鉴定的小鼠EST重叠(图19和20A)。小鼠SOCS5的完整编码区域和5′和3′非翻译区看来在单一外显子上编码(图19)。序列分析(图20)确认了SOCS5基因组和cDNA克隆编码含有在其C末端的SOCS元件盒和SH2结构域的蛋白(图19和20B)。从对cDNA克隆5-94-2和人SOCS EST(表5.2)的分析得来的人SOCS5重叠群(h5.1和图21)与小鼠SOCS5cDNA序列的关系在图19中表示。鼠SOCS5的核苷酸序列和相应的氨基酸序列分别在SEQ ID NO：17和18中表示。人SOCS5的核苷酸序列在SEQ ID NO：19中表示。

实施例27 SOCS6

通过用SOCS元件盒保守序列搜索EST数据库识别出人和小鼠SOCS6(图13)。那些来自人和小鼠SOCS6 cDNA的EST在下面列表(表6.1和6.2)。使用来自小鼠EST的序列信息设计几个寡核苷酸并用于以传统方式筛选小鼠胸腺cDNA文库。8个编码小鼠SOCS6的cDNA克隆(6-1A，6-2A，6-5B，6-4N，6-18，6-29，6-3N，6-5N)得到分离并完全测序(图15)，并表明与数据库中鉴定的小鼠EST(和图22和23A)重叠。序列分析(图23)确认了小鼠SOCS cDNA克隆编码含有在其C末端的SOCS元件盒和8个WD-40重复的蛋白(图22和23B)。从对人SOCS6EST(表6.2)的分析得来的人SOCS6重叠群(h6.1和h6.2，图24)与小鼠SOCS cDNA序列的关系在图22中表示。鼠SOCS6的核苷酸序列和相应的氨基酸序列分别在SEQ IDNO：20和21中表示。人SOCS6重叠群h6.1和h6.2分别在SEQ ID NO：22和23中表示。

实施例28SOCS7

通过用SOCS元件盒保守序列搜索EST数据库识别出人和小鼠SOCS7(图13)。那些来自人和小鼠SOCS7cDNA的EST在下面列表(表7.1和7.2)。使用来自小鼠EST的序列信息设计几个寡核苷酸并用于以传统方式筛选小鼠胸腺cDNA文库。编码小鼠SOCS7的一个cDNA克隆(74-10A-11)得到分离并完全测序，并表明与数据库中鉴定的小鼠EST(图25和图26A)重叠。序列分析(图26)证明小鼠SOCS7编码含有在其C末端的SOCS元件盒和几个锚蛋白重复的蛋白(图25和26B)。从对人SOCS7EST(表7.2)的分析得来的人SOCS7重叠群(h7.1和h7.2，图27)与小鼠SOCS7DNA序列的关系在图25中表示。鼠SOCS7的核苷酸序列和相应的氨基酸序列分别在SEQ ID NO：24和25中表示。人SOCS7重叠群h7.1和h7.2的核苷酸序列分别在SEQ IDNO：26和27中表示。

实施例29SOC88

来自小鼠SOCS8 eDNA的EST在下表列表(表8.1)。如上对SOCS家族其它成员所述，有可能使用来自小鼠EST的序列信息分离小鼠SOCS8的cDNA。EST与推测的SOCS8编码区域的关系在图28中表示。从EST得到的核苷酸序列在图29A中表示，SOCS8的部分氨基酸序列在图29B中表示。鼠SOCS8的核苷酸序列和相应的氨基酸序列分别在SEQ ID NO 28和29中表示。

实施例30SOCS9

通过用SOCS元件盒保守序列搜索EST数据库识别出人和小鼠SOCS9(图13)。那些来自人和小鼠SOCS9cDNA的EST在下面列表(表9.1和9.2)。从对小鼠SOCS9EST(表9.1)的分析得来的小鼠SOCS9重叠群(m9.1，表9.2)与人SOCS9DNA重叠群的关系在图31中表示。序列分析(图32)表明人SOCS9编码含有在其C末端的SOCS元件盒和SH2结构域的蛋白(图30)。鼠SOCS9cDNA的核苷酸序列在SEQID NO：30中表示。人SOCS cDNA的核苷酸序列在SEQ ID NO：31中表示。

实施例31SOCS10

通过用SOCS元件盒保守序列搜索EST数据库识别出人和小鼠SOCS10(图13)。那些来自人和小鼠SOCS10cDNA的EST在下面列表(表10.1和10.2)。使用来自小鼠EST的序列信息设计几个寡核苷酸并用于以传统方式筛选小鼠胸腺cDNA文库。编码小鼠SOCS10的四个cDNA克隆(10-9，10-12，10-23和10-24)得到分离并完全测序，并表明与数据库中鉴定的小鼠和人EST重叠(图33和图34)。序列分析(图34)表明小鼠SOCS10cDNA不是全长但它的确编码含有在其C末端的SOCS元件盒和几个锚蛋白重复的蛋白(图33)。从对人SOCS10EST的分析得来的人SOCS10重叠群(h10.1和h10.2，图35)与小鼠SOCS10DNA序列的关系在图33中表示。小鼠cDNA克隆和EST与人EST的比较表明，小鼠和人SOCS10的3’非翻译区明显不同。鼠SOCS10的核苷酸序列在SEQ ID NO：32中表示。人SOCS10重叠群h10.1和h10.2的核苷酸序列分别在SEQ ID NO：33和34中表示。

实施例32SOCS11

通过用SOCS元件盒保守序列搜索EST数据库识别出人SOCS11(图13)。那些来自人SOCS11cDNA的EST在下面列表(表11.1和11.2)。从对EST(表11.2)的分析得来的人SOCS11重叠群(h11.1，图36A，B)与推测编码蛋白的关系在图37中表示。序列分析(图36B)表明人SOCS11cDNA编码含有在其C末端的SOCS元件盒和SH₂结构域的蛋白(图37和36B)。人SOCS11的核苷酸序列和相应的氨基酸序列分别在SEQ ID NO：35和36中表示。

实施例33SOCS12

通过用SOCS元件盒保守序列搜索EST数据库识别出人和小鼠SOCS12(图13)。那些来自人和小鼠SOCS12cDNA的EST在下面列表(表12.1和12.2)。使用来自小鼠EST的序列信息设计几个寡核苷酸并用于以传统方式筛选小鼠胸腺cDNA文库。编码小鼠SOCS12的四个cDNA克隆(10-9，10-12，10-23和10-24)得到分离并完全测序，并表明与数据库中鉴定的小鼠和人EST重叠(图33和图34)。序列分析(图39和40)表明小鼠SOCS12cDNA克隆编码含有在其C末端的SOCS元件盒和几个锚蛋白重复的蛋白(图38)。从对人SOCS12EST的分析得来的人SOCS12重叠群(h12.1和h12.2，图40)与小鼠SOCS12DNA序列的关系在图38中表示。小鼠cDNA克隆和EST与人EST的比较表明小鼠和人SOCS12的3’非翻译区明显不同。SOCS12的核苷酸序列在SEQ ID NO：37中表示。人SOCS12重叠群h12.1和h12.2分别在SEQ ID NO：38和39中表示。

实施例34 SOCS13

通过用SOCS元件盒保守序列搜索EST数据库识别出人和小鼠SOCS13(图13)。那些来自人和小鼠SOCS13cDNA的EST在下面列表(表13.1和13.2)。使用来自小鼠EST的序列信息设计几个寡核苷酸并用于以传统方式筛选小鼠胸腺和小鼠胚cDNA文库。编码小鼠SOCS13的三个cDNA克隆(62-1，62-6-7和62-14)得到分离并完全测序，并表明与数据库中鉴定的小鼠EST(图41和图42A)重叠。序列分析(图42)表明小鼠SOCS13编码含有在其C末端的SOCS元件盒和可能的WD-40重复的蛋白(图41和42B)。从对人SOCS13EST(表13.2)的分析得来的人SOCS13重叠群(h13.1和h13.2，图43)与小鼠SOCS13DNA序列的关系在图41中表示。鼠SOCS13的核苷酸序列和相应的氨基酸序列分别在SEQ ID NO：40和41中表示。人SOCS13重叠群h13.1的核苷酸序列在SEQ ID NO：42中表示。

实施例35SOCS14

通过用SOCS元件盒保守序列搜索EST数据库识别出人和小鼠SOCS14(图13)。那些来自人和小鼠SOCS14cDNA的EST在下面列表(表14.1和14.2)。使用来自小鼠和人EST的序列信息设计几个寡核苷酸并用于以传统方式筛选克隆入λ噬菌体的小鼠胸腺cDNA文库、小鼠基因组DNA文库和人胸腺DNA文库。编码小鼠SOCS14的一个基因组DNA克隆(57-2)和cDNA克隆(5-3-2)得到分离并完全测序，并表明与数据库中鉴定的小鼠EST(图44和图45A)重叠。小鼠SOCS14的完整编码序列及5’和3’非翻译区看来在单一外显子上编码(图44)。序列分析(图45)确认了小鼠SOCS14基因组和cDNA克隆编码含有在其C末端的SOCS元件盒和SH2结构域的蛋白(图44和45B)。从对cDNA克隆5-94-2和人SOCS14EST(表14.2)的分析得来的人SOCS14重叠群(h14.1，表14.3)与小鼠SOCS14DNA序列的关系在图44中表示。鼠SOCS14的核苷酸序列和相应的氨基酸序列分别在SEQID NO：43和44中表示。

实施例36SOCS15

通过用SOCS元件盒保守序列搜索EST数据库识别出人和小鼠SOCS15(图13)。那些来自人和小鼠SOCS15cDNA的EST在下面列表(表15.1和15.2)，也列出了含有完整小鼠和人SOCS15基因的小鼠和人BAC。使用来自EST和BAC的序列信息有可能推测SOCS15的完整氨基酸，并且如对其它SOCS基因所述的，设计特异的寡核苷酸探针以分离cDNA是可行。BAC与EST的关系在图46中表示，并且来自小鼠和人BAC的SOCS15的核苷酸序列和推测的氨基酸序列在图47和48中表示。鼠SOCS15的核苷酸序列和相应的氨基酸序列分别在SEQ ID NO：46和47中表示。人SOCS15的核苷酸序列和相应的氨基酸序列分别在SEQ ID NO：48和49中表示。

实施例37SOCS与JAK2激酶的相互作用

这些实施例表明SOCS和JAK2激酶之间的相互作用。相互作用由SOCS1，2，3和CIS的SH2结构域介导(图49)。JAK和SOCS1，2，3及CIS之间的基本相互作用在图50中表示。

使用以下方法：

免疫沉淀：通过电穿孔瞬间转染COS6细胞并培养48小时。然后在冰上在加有完全蛋白酶抑制剂(Boehringer Mannheim)的裂解缓冲液[50mM Tris/HCl(pH7.5)，150mM NaCl，1％(体积/体积)TritonX-100，1mM EDTA，1mM Naf，1mM Na₃VO₄]中裂解，于4℃离心并保留上清以用5μl抗JAK2抗体(UBI)进行免疫沉淀。抗原-抗体复合物用蛋白A-Sepharose(30μl 50％浆液)回收。

Westerrn印迹：免疫沉淀用十二烷基硫酸钠(SDS)-聚丙烯酰胺凝胶电泳在还原条件下分析。然后将蛋白电泳转移到硝酸纤维素膜上，在10％(重量/体积)脱脂牛奶中封闭过夜并在PBS/0.1％(体积/体积)Tween-20(Sigma)洗脱缓冲液中洗涤，然后与稀释于洗涤缓冲液/1％(重量/体积)BSA的抗磷酸铬氨酸的抗体(4G 10)(1∶5000，UBI)、抗FLAG的抗体(1.6μg/ml)或抗JAK2的抗体(1∶2000，UBI)一起温育2小时。洗涤硝酸纤维素膜印迹并用稀释于洗涤缓冲液/1％(重量/体积)BSA中的过氧化物酶偶联的羊抗兔免疫球蛋白(1∶5000，Silenus)或过氧化物酶偶联的羊抗鼠免疫球蛋白(1∶5000，Silenus)检测一抗。洗涤印迹并用加强的Chemiluminescenle(ECL)系统(Ainersham，UK)根据厂商说明使抗体结合可见。

体外激酶分析：进行体外激酶分析以评估JAK2激酶催化活性。如上述对JAK2蛋白进行免疫沉淀，在激酶分析缓冲液(50mM NaCl，5mM MgCl₂，5mM MnCl₂，1mM NaF，1mM Na₃VO₄，10mM HEPES，pH7.4)中洗两次并悬浮于含0.25μCi/ml(γ-³²p)-ATP的等体积激酶缓冲液中(30分钟，室温)。除去过量的(γ-³²p)-ATP并用SDS/PAGE在还原条件下分析免疫沉淀。通过用1M KOH(55℃，2小时)处理对胶进行温和碱水解以除去磷酸丝氨酸和磷酸铬氨酸。用IMAGEQOANT软件在phosphorImage系统(Molecular Dynamics，Sunnyvale，CA，USA)上观察放射性条带。

实施例38制备失效构建体

在图51-53中表示质粒构建体和失效构建体的图解。用限制性酶BamHI和EcoRI消化基因组SOCS-1克隆95-11-10以得到编码区域(SOCS1外显子)3’的3.6kb DNA片段用作SOCS1失效载体中的3’臂。然后将此片段的末端补平并将此片段连接入下列载体：

pBgalpAloxNeo和pBgalpAloxNeoTK它们已在单一xhoI位点处切开并补平。此连接导致下列载体的形成：

3’SOCS1臂在pBgalpAloxNeo 中和3’SOCS-1臂在pBgalpAloxNeoTK

通过用PCR从SOCS-1基因组克隆95-11-10得到SOCS1编码区域(SOCS1外显子)的正好5’端的2.5kb PCR产物。用于制备此产物的寡核苷酸是：

5’寡核苷酸(有义)(2465)

AGCT AGA TCT GGA CCC TAC AAT GGC AGC[SEQ ID NO：49]

3’寡核苷酸(反义)(2466)

AGCT AG ATC TGC CAT CCT ACT CGA GGG GCC AGC TGG[SEQ ID NO：50]

用限制性酶Bgl II消化PCR产物以得到PCR产物的Bgl II末端。然后如下连接带有Bgl II末端的此5’SOCS1PCR产物：已用单一限制性酶BamHI切开的3’SOCS-1臂在pBgalpAloxNeo中和3’SOCS1臂在pBgalpAloxNeoTK中。

这导致下列载体的形成：

5’&3’SOCS1臂在pBgalpAloxNeo 中和5’&3’SOCS1臂在pBgalpAloxNeoTK中

由此得到SOCS1失效构建体。两个这样的构建体缺少全部SOCS1编码区域(SOCS1外显子)，用Bgal的部分、B球蛋白多聚腺苷酸、PGK启动子、新霉素和PGK多聚腺苷酸序列代替。5’&3’SOCS1臂在pBgalpAloxNeoTK载体中在新霉素和PGK多聚腺苷酸化序列之间也包含tymidine激酶基因。

载体：5’&3’SOCS1臂在pBgalpAloxNeo和5’&3’SOCS1臂在pBgalpAloxNeoTK中，用单一限制性酶NotI切开，然后通过电穿孔转染入胚干细胞。选择对新霉素有抗性的克隆并通过Southern印迹分析以确定它们是否正确地包含了整合的SOCS1目的序列。为了确定正确整合是否已经出现，用限制性酶EcoRI消化新霉素抗性克隆中的基因组DNA。然后将消化的DNA印迹到尼龙膜上并用失效构建体所用的5’臂序列的5’端的1.5kb EcoRI/Hind III DNA片段探测。正确整合的预期大小是：

野生型SOCS-1等位基因的5.4kb

5’&3’SOCS1臂在pBgalpAloxNeo中的SOCS-1失效等位基因的8.2kb

或5&3’SOCS1臂在pBgalpAloxNeoTK中转化的细胞中的11kb。

本领域技术人员将理解此处所述的本发明容易在已具体描述的基础上变化和改进。应当理解本发明包括所有这样的变化和改进。本发明也分别或全体地包括此说明书中提及或表示的步骤、特征、组合物和化合物以及任意二个或多个所述步骤或特征的所有结合。

表4.1

来自小鼠SOCS-4cDNA的EST的总结

SOCS 物种 EST名称末端EST号文库来源重叠群

SOCS-4 小鼠 mc65f04 5′ EST0549700 d13.5-14.5 m4.1

小鼠胚

mf42e06 5′ EST0593477 d13.5-14.5 m4.1

小鼠胚

mp10c10 5′ EST0747905 d 8.5小鼠胚 m4.1

mr81g09 5′ EST0783081 d13胚 m4.1

mt19h12 5′ EST0816531 脾 m4.1

表4.2

来自小鼠SOCS-4cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

SOCS-4 人 27b5 5′ EST0534081 视网膜 h4.2

30d2 5′ EST0534315 视网膜 h4.2

J0159F 5′ EST0461188 胎儿心脏 h4.2

J3802F 5′ EST0461428 胎儿心脏 h4.2

EST19523 5′ EST0958884 视网膜 h4.2

EST81149 5′ EST1011015 胎盘 h4.2

EST180909 5′ EST0951375 Jurkat T h4.2

淋巴细胞

EST182619 5′ EST0953220 Jurkat T h4.1

淋巴细胞

ya99h09 3′ EST0103262 胎盘 h4.2

ye70c04 5′ EST0172673 胎儿肝/脾 h4.2

yh53c09 5′ EST0197390 胎盘 h4.2

3′ EST0197391 h4.2

yh77g11 5′ EST0203418 胎盘 h4.2

3′ EST0203419 h4.1

yh87h05 5′ EST0204888 胎盘 h4.1

3′ EST0204773 h4.1

yi45h07 5′ EST0246604 胎盘 h4.2

yj04e06 5′ EST0258541 胎盘 h4.1

3′ EST0258285 h4.1

yq 12h06 5′ EST0309968 胎儿肝/脾 h4.2

yq56a06 3′ EST0346924 胎儿肝/脾 h4.2

yq60e02 5′ EST0347259 胎儿肝/脾 h4.2

3′ EST0347209 h4.2

yq92g03 5′ EST0355932 胎儿肝/脾 h4.2

3′ EST0355884 h4.2

yq97h06 5′ EST0357618 胎儿肝/脾 h4.2

3′ EST0357416 h4.2

yr90f01 5′ EST0372402 胎儿肝/脾 h4.2

yt69c03 5′ EST0338395 胎儿肝/脾 h4.2

3′ EST0338303 h4.2

yv30a08 3′ EST0458506 胎儿肝/脾 h4.2

yv55f07 5′ EST0465391 胎儿肝/脾 h4.2

3′ EST0463331 h4.2

yv57h09 5′ EST0464336 胎儿肝/脾 h4.2

3′ EST0458765 h4.2

yv87h02 5′ EST0388085 黑素细胞 h4.2

yv98e11 5′ EST0400679 黑素细胞 h4.2

3′ EST0400680 h4.2

yw68d10 5′ EST0441370 胎盘(8-9wk) h4.2

yw82a03 5′ EST0463005 胎盘(8-9wk) h4.2

3′ EST0433678 h4.1

yx08a07 3′ EST0407016 黑素细胞 h4.1

yx72h06 5′ EST0435158 黑素细胞 h4.2

3′ EST0422871 黑素细胞 h4.1

yx76b09 5′ EST0434011 黑素细胞 h4.2

yy37h08 5′ EST0451704 黑素细胞 h4.2

yy66b02 5′ EST0505446 多发性硬化损伤 h4.2

za81f08 5′ EST0511777 胎儿肺 h4.2

zb18f07 3′ EST0485315 胎儿肺 h4.1

zc06e08 5′ EST0540473 甲状旁腺癌 h4.1

3′ EST0540354 h4.1

zd14g06 3′ EST0564666 胎儿心脏 h4.1

zd51h12 3′ EST0578099 胎儿心脏 h4.1

zd52b09 5′ EST0582012 胎儿心脏 h4.1

3′ EST0581958 h4.1

ze25g11 3′ EST0679543 胎儿心脏 h4.1

ze69f02 5′ EST0635563 视网膜 h4.2

3′ EST0635472 h4.1

zf54f03 5′ EST0680111 视网膜 h4.2

zh96e07 5′ EST0616241 胎儿肝/脾 h4.2

3′ EST0615745 h4.2

zv66h12 5′ EST1043265 8-9w胎儿 h4.2

zs83a08 5′ EST0920072 生发中心B h4.1

细胞

3′ EST0920016 h4.1

zs83g08 5′ EST0920121 生发中心B h4.1

细胞

3′ EST0920122 h4.1

表5.1

来自小鼠SOCS-5cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

SOCS-5 小鼠 mc55a01 5′ EST0541556 d13.5-14.5 m5.1

小鼠胚

mh98f09 5′ EST0638237 胎盘 m5.1

my26h12 5′ EST0859939 混合的器官 m5.1

ve24e06 5′ EST0819106 心 m5.1

表5.2

来自小鼠SOCS-5cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

SOCS-5 人 EST15B103 ？ EST0258029 脂肪组织 h5.1

EST15B105 ？ EST0258028 脂肪组织 h5.1

EST27530 5′ EST0965892 小脑 h5.1

zf50f01 5′ EST0679820 视网膜 h5.1

表6.1

来自小鼠SOCS-6cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

SOCS-6 小鼠 mco4c05 5′ EST0525832 d19.5胚 m6.1

md48a03 5′ EST0566730 d13.5-14.5胚 m6.1

mf31d03 5′ EST0675970 d13.5-14.5胚 m6.1

mh26b07 5′ EST0628752 d13.5-14.5胎盘 m6.1

mh78e11 5′ EST0637608 d13.5-14.5胎盘 m6.1

mh88h09 5′ EST0644383 d13.5-14.5胎盘 m6.1

mh94h07 5′ EST0638078 d13.5-14.5胎盘 m6.1

mi27h04 5′ EST0644252 d13.5-14.5胚 m6.1

mj29c05 5′ EST0664093 d13.5-14.5胚 m6.1

mp66g04 5′ EST0757905 胸腺 m6.1

mw75g03 5′ EST0847938 肝 m6.1

va53b05 5′ EST0901540 d12.5胚 m6.1

vb34h02 5′ EST0930132 淋巴节 m6.1

vc55d07 3′ EST1057735 2 细胞胚 m6.1

vc59e05 3′ EST1058201 2 细胞胚 m6.1

vc67d03 3′ EST1057849 2 细胞胚 m6.1

vc68d10 3′ EST1058663 2 细胞胚 m6.1

vc97h01 3′ EST1059343 2 细胞胚 m6.1

vc99c08 3′ EST1059410 2 细胞胚 m6.1

vd07h03 3′ EST1058173 2 细胞胚 m6.1

vd08c01 3′ EST1058275 2 细胞胚 m6.1

vd09b12 3′ EST1058632 2 细胞胚 m6.1

vd19b02 3′ EST1059723 2 细胞胚 m6.1

vd29a04 3′ ？未发现 m6.1

vd46d06 3′ ？未发现 m6.1

表6.2

来自人SOCS-5cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源 contig

SOCS-6 Human

yf61e08 5′ EST0184387 d73 婴儿脑 h6.1

yf93a09 5′ EST0186084 d73 婴儿脑 h6.1

yg05f12 5′ EST0191486 d73 infant bra h6.1

yg41f04 5′ EST0195017 d73 婴儿脑 h6.1

yg45c02 5′ EST0185308 d73 婴儿脑 h6.1

yh11f10 5′ EST0236705 d73 婴儿脑 h6.1

yh13b05 5′ EST0237191 d73 婴儿脑 h6.1

3′ EST0236958 h6.2

zc35a12 5′ EST0555518 衰老成纤维细胞 h6.1

ze02h08 5′ EST0603826 胎儿心脏 h6.1

3′ EST0603718 h6.2

z109a03 5′ EST0773936 怀孕子宫 h6.1

3′ EST0773892 h6.1

z169e10 5′ EST0683363 结肠 h6.1

zn39d08 5′ EST0718885 内皮细胞 h6.1

zo39e06 5′ EST0785947 内皮细胞 h6.1

表7.1

来自小鼠SOCS-7cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

SOCS-7 小鼠 mj39a01 5′ EST0665627 d13.5/14.5胚 m7.1

vi52h07 5′ EST1267404 d7.5胚 m7.1

表7.2

来自人S0CS-5cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

SOCS-7 人 STS WI-30171 (G21563) 染色体 h7.2

EST00939 5′ EST0000906 海马 h7.1

EST12913 3′ EST0944382 子宫 h7.2

yc29b05 3′ EST0128727 肝 h7.2

yp49f10 3′ EST0301914 视网膜 h7.2

zt10f03 5′ EST0922932 生发中心B h7.2

细胞

3′ EST0921231h7.1

zx73g04 3′ EST1102975 卵巢癌 h7.1

表8.1

来自小鼠SOCS-8cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

SOCS-8 小鼠 mj16e09 r1 EST0666240 d13.5/14.5胚 m8.1

vj27a029 r1 EST1155973 心脏 m8.1

表9.1

来自小鼠SOCS-9cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

小鼠 me65d05 5′ EST0585211 d13.5/14.5胚 m9.1

表9.2

来自人SOCS-5cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

SOCS-9 人 CSRL-83f2-u (B06659) 染色体11 h9.1

EST114054 5′ EST0939759 胎盘 h9.1

yy06b07 3′ EST0434504 黑素细胞 h9.1

yy06g06 5′ EST0443783 黑素细胞 h9.1

zr40c09 5′ EST0832461 黑素细胞， h9.1

心脏，子宫

zr72h01 5′ EST0892025 黑素细胞， h9.1

心脏，子宫

3′ EST0892026 h9.1

yx92c08 5′ EST0441160 黑素细胞 h9.1

yx93b08 5′ EST0441260 黑素细胞 h91

hfe0662 5′ EST0889611 胎儿心脏 h9.1

表10.1

来自小鼠SOCS-10cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

小鼠 mb14d12 5′ EST0549887 d19.5胚 m10.1

mb40f06 5′ EST0515064 d19.5胚 m10.1

mg89b11 5′ EST0630631 d13.5-14.5胚 m10.1

mq89e12 5′ EST0776015 心 m10.1

mp03g12 5′ EST0741991 心 m10.1

vh53c11 5′ EST1154634 乳腺 m10.1

表10.2

来自人SOCS-5cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

SOCS-10 人 aa48h10 3′ EST1135220 生发中心B细胞 h10.2

zp35h01 3′ EST0819137 肌肉 h10.2

zp97h12 5′ EST0835442 肌肉 h102

3′ EST0831211 h10.2

zq08h01 5′ EST0835907 肌肉 h10.1

zr34g05 5′ EST0834251 黑素细胞， h10.2

3′ EST0834440 心脏，子宫 h10.2

EST73000 5 EST1004491 卵巢 h10.2

HSDHEI005 ？ EST0013906 心脏 h10.2

表11.1

来自人SOCS-5cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

SOCS-11 人 zt24h06 r1 EST0925023 卵巢癌 11.1

zr43b02 r1 EST0873006 黑素细胞， 11.1

s1 EST0872954 心脏，子宫 11.1

表12.1

来自小鼠SOCS-12cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

SOCS-12 小鼠 EST03803 5′ EST1054173 第7.5天， m12.1

胚绒膜锥

mt18f02 5′ EST0817652 3NbMS 脾 m12.1

mz60g10 5′ EST0890872 淋巴节 m12.1

va05c11 5′ EST0909449 淋巴节 m12.1

表12.2

来自人SOCS-5cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

SOCS-12 人 STS-SHGC-13867 染色体 h12.2

EST177695 5′ EST0948071 细胞 h12.1

EST64550 5′ EST0997367 细胞 h12.1

EST76868 5′ EST1007291 松果体 h12.2

PMY2369 5′ EST1115998 KG-1 h12.1

yb38f04 5′ EST0108807 胎儿脾 h12.1

3′ h12.2

yg74e12 5′ EST0224407 d73脑 h12.1

yh13g04 5′ EST0237226 d73脑 h12.1

3′ EST0236992 h12.2

yh48b06 5′ yh48b06 胎盘 h12.2

yh53a05 5′ EST0197282 胎盘 h12.2

3′ EST0197486 h12.2

yn48h09 5′ EST0278258 脑 h12.2

3′ EST0278259 h12.2

yn90a09 3′ EST0302557 脑 h12.2

yo08f03 5′ EST0301790 脑 h12.2

3′ EST0302059 h12.2

yo11e01 3′ 未发现 h12.2

yo63b12 5′ EST0303606 乳房 h12.2

3′ EST0304085 h12.2

yq56g02 3′ EST0346935 胎儿肝/脾 h12.1

zh57c04 3′ EST0594201 胎儿肝/脾 h12.2

zh79h01 3′ EST0598945 胎儿肝/脾 h12.2

zh99a11 3′ EST0618570 胎儿肝/脾 h12.2

zo92h12 5′ EST0803392 卵巢癌 h12.1

3′ EST0803393 h12.2

zs48c01 5′ EST0925714 生发中心 h12.1

B-细胞

3′ EST0925530 h12.2

zs45h02 3′ EST0932296 生发中心 h12.2

B细胞

表3.1

来自小鼠SOCS-13cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

SOCS-13 小鼠 ma39c09 5′ EST0517875 第19.5天，胚 m13.1

me60c05 5′ EST0584950 第13.5/14.5天，胚 m13.1

mi78g05 5′ EST0653834 第19.5天，胚 m13.1

mk10c11 5′ EST0735158 第9.5天，胚 m13.1

mo48g12 5′ EST0745111 第10.5天，胚 m13.1

mp94a01 5′ EST0762827 胸腺 m13.1

vb57c07 5′ EST1028976 第11.5天，胚 m13.1

vh07c11 5′ EST1117269 乳腺 m13.1

表13.2

来自人SOCS-13cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

SOCS-13 人 EST59161 5′ EST0992726 婴儿脑 h13.1

表14.1

来自小鼠SOCS-14cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

SOCS-14 小鼠 mi75e03 5′ EST0651892 d19.5 胚 m14.1

vd29hI1 5′ EST1067080 2 细胞胚 m14.1

vd53g07 5′ EST1119627 2细胞胚 m14.1

表15.1来自小鼠SOCS-15cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

SOCS-15 小鼠 mh29b05 5′ EST0628834 胎盘 m15.1

mh98h09 5′ EST0638243 胎盘 m15.1

m145a02 5′ EST0687171 睾丸 m15.1

mu43a10 5′ EST851588 胸腺 m15.1

my38c09 5′ EST878461 合并的器官 m15.1

vj37h07 5′ EST1174791 隔膜 m15.1

AC002393 染色体6 m15.1

BAC

表15.2

来自人SOCS-15cDNA的EST的总结

SOCS 物种 EST名称末端 EST号文库来源重叠群

SOCS-15 人 EST98889 5′ EST1026568 甲状腺 h15.1

ne48bo5 3′ EST1138057 结肠癌 h15.1

yb12h12 5′ EST0098885 胎盘 h15.1

3′ EST0098886 h15.1

HSU47924 染色体12 h15.1

BAC

参考文献：

Alexander WS，Metcalf D和Dunn AR(1995).Embo Journal 14，5569-78.

Altschul，S.F.Gish，W.Miller，W.Myers，E.W.&Lipman，D.J.(1990)分子生物学杂志，215，403-10.

Ansari-Lari，M.A.，Shen，Y.，Munzy，D.M.，Lee，W.和Gibbs，R.A.(1997)基因组研究，7，268-280.

Bazan JF(1990).[Review].Immunology Today 11，350-4.

Bork，P.(1993)Proteins：Struct.Funct.Genet.17，363-374.

Cockwell，L.Y.和Giles，I.G.(1989)Comp.Appl.Biosci.5，227-232.

Cutler RL，Liu L，Damen JE和Krystal G(1993).生物化学杂志，268，21463-5.

Darnell JJ r.，Kerr IM和Stark GR(1994).科学，264，1415-21.

David M，Petricoin E3，Benjamin C，Pine R，Weber MJ和Larner AC(1995).科学，269，1721-3.

David M，Wong L，Flavell R，Thompson SA，Wells A，Larner AC和Johnson GR(1996).生物化学杂志，271，9185-8.

Dugaiczyk A，Haron JA，Stone EM，Dennison OE，Rothblum KN和Schwartz RJ(1983).生物化学，22，1605-13.

Durbin JE，Hackenmiller R，Simon MC和Levy DE(1996).细胞，84，443-50.

Etzold，T.，Ulyanov，A.和Argos，P.(1996)酶学方法，266，114-28.

Gearing DP，Nicola NA，Metcalf D，Foote S，Willson TA，Gough NM和Williams L(1989).生物技术，1157-1161.

Gupta S，Yan H，Wong LH，Ralph S，Krolewski J和Schindler C(1996).Embo Journal 15，1075-84.

Hilton DJ(1994).细胞因子受体介绍，《细胞因子及其受体指南》第8-16页，N.A.Nicola(编辑)，Oxford大学出版社，Oxford.

Hilton DJ，Hilton AA，Raicevic A，Rakar S，Harrison-Smith M，Gough NM，Begley CG，Metcalf D，Nicola NA和Willson TA(1994).Embo Journal 13，4765-75.

Hilton DJ，Watowich SS，Katz L和Lodish HF(1996).生物化学杂志271，4699-4708.

Ichikawa Y(1969).细胞生理学杂志，74，223-34.

Ihle JN(1995).自然，377，591-4.

Ihle JN，Witthuhn BA，Quelle FW，Yamamoto K和Silvennoinen O(1995).免疫学年鉴，13，369-98.

Kaplan MH，Schindler U，Smiley ST和Grusby MJ(1996a).Immunity 4，313-9.

Kaplan MH，Sun YL，Hoey T和Grusby MJ(1996b).自然，382，174-179.

Levy DE和Stark GR(1996).Molecular & Cellular Biology 16，369-75.

Metcalf D，Wilson TA，Hilton DJ，DiRago L和Mifsud S.(1995)Leukaemia 9，1556-1564.

Meraz MA，White JM，Sheehan KC，Bach EA，Rodig SJ，Dighe AS，Kaplan DH，Riley JK，Greenlund AC，Campbell D，Carver-Moore K，DuBois RN，Clark R，Aguet M和SchreiberRD(1996)细胞84，431-42.

Mizushima S和Nagata S(1990).核酸研究，18，5322.

Murakami M，Narazaki M，Hibi M，Yawata H，Yasukawa K，Hamaguchi M，Taga T和Kishimoto T(1991)美国国家科学院院报88，11349-11353.

Neer，E.J.，Schmidt，C.J.，Nambudripad，R.和Smith，T.F.(1994)自然，371，297-300.

Nicola NA((1994).细胞因子及其受体指南，Oxford大学出版社Oxford.

Nicola，NV，Viney E，Hilton DJ，Roberts B和Wilson T.(1996)生长因子，13，141-149.

Novak U，Harpur AG，Paradiso L，Kanagasundaram V，Jaworowski A，Wilks AF和Hamilton JA(1995)血液，86，2948-56.

Pearson WR和Lipman DJ.(1988)美国国家科学院院报85，2444-8.

Pearson WR.(1990)酶学方法，183，63-98.

Rayner JR和Gonda TJ(1994).Molecular & Cellular Biology 14，880-7.

Sambrook J，Fritsch EF和Maniatis T(1989).分子克隆：实验手册，冷泉港实验室出版社，冷泉港，美国。

Sato N，Sakamaki K，Terada N，Arai K和Miyajima A(1993).Embo Journal 12，4181-9.

Shimoda K，van Deursen J，Sangster MY，Sarawar SR，Carson RT，Tripp RA，Chu C，QuelleFW，Nosaka T，Vignali DA，Doherty PC，Grosveld G，Paul WE和Ihle JN(1996).自然，380，630-3.

Shual K，Ziemiecki A，Wilks AF，Harpur AG，Sadowski HB，Gilman MZ和Darnell JE(1993).自然，366，580-3.

Sprang SR和Bazan JF(1993).Curr.Opin.Structural Biol.3，815-827.

Takeda K，Tanaka T，Shi W，Matsumoto M，Minami M，Kashiwamura S，Nakanishi K，Yoshida N，Kishimoto T和Akira S(1996).自然，380，627-30.

Thierfelder WE，Vandeursen JM，Yamamoto K，Tripp RA，Sarawar SR，Carson RT，SangsterMY，Vignali DDA，Doherty PC，Grosveld GC和Ihle JN(1996).自然，382，171-174.

Wakao H，Gouilleux F和Groner B(1994).Embo Journal 13，2182-91.

Wen Z，Zhong Z和Darnell J Jr.(1995)细胞82，241-50.

Yi T，Mui AL，Krystal G和Ihle JN(1993).分子细胞生物学，13，7577-86.

Yoshimura A，Ohkubo T，Kiguchi T，Jenkins NA，Gilbert DJ，Copeland NG，Hara T和Miyajima A(1995).Embo Journal 14.2816-26.

序列表

(1)基本信息

(i)申请人：(美国以外的地区)：THE WALTER AND ELIZAHALL INSTITUTE OF MEDICAL RESEARCH

(ii)发明名称：治疗和诊断试剂

(iii)序列数：50

(iv)联系地址：

(A)名称：Davis collison Cave

(B)街道：1 Little Collins street

(C)城市：Melbourne

(D)州名：Victoria

(E)国家：澳大利亚

(F)邮政编号：300

(v)计算机可读形式：

(A)介质类型：软盘

(B)计算机：IBM PC兼容机

(C)操作系统：PC-DOS/MS-DOS

(D)软件：PatentIn Release#1.0，版本#1.25

(vi)目前申请资料：

(A)申请号：PCT国际申请

(B)递交日：1997年10月31日

(vii)在先申请资料：

(A)申请号：PO5117

(B)递交日：1997年2月14日

(vii)在先申请资料：

(A)申请号：PO3384

(B)递交日：1996年11月1日

(viii)律师/代理人信息

(A)名称：Hughes DR，E John L

(C)参考/著录号：ELH/EK

(ix)电信信息：

(A)电话：+61 3 9254 2777

(B)传真：+61 3 9254 2770

(2)关于SEQ ID NO：1的信息：

(i)序列特征

(A)长度：20个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：1：

CACGCCGCCC ACGTGAAGGC 20

(2)关于SEQ ID NO：2的信息：

(i)序列特征

(A)长度：20个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：2：

TTCGCCAATG ACAAGACGCT 20

(2)关于SEQ ID NO：3的信息

(i)序列特征

(A)长度：1236个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(ix)特征：

(A)名称/关键：CDS

(B)位置：1..636

(xi)序列描述：SEQ ID NO：3：

CGAGGCTCAA GCTCCGGGCG GATTCTGCGT GCCGCTCTCG CTCCTTGGGG TCTGTTGGCC -101

GGCCTGTGCC ACCCGGACGC CCGGCTCACT GCCTCTGTCT CCCCCATCAG CGCAGCCCCG -41

GACGCTATGG CCCACCCCTC CAGCTGGCCC CTCGAGTAGG -1

ATG GTA GCA CGC AAC CAG GTG GCA GCC GAC AAT GCG ATC TCC CCG GCA 48

Met Val Ala Arg Asn Gln Val Ala Ala Asp Asn Ala Ile Ser Pro Ala

1 5 10 15

GCA GAG CCC CGA CGG CGG TCA GAG CCC TCC TCG TCC TCG TCT TCG TCC 96

Ala Glu Pro Arg Arg Arg Ser Glu Pro Ser Ser Ser Ser Ser Ser Ser

20 25 30

TCG CCA GCG GCC CCC GTG CGT CCC CGG CCC TGC CCG GCG GTC CCA GCC 144

Ser Pro Ala Ala Pro Val Arg Pro Arg Pro Cys Pro Ala Val Pro Ala

35 40 45

CCA GCC CCT GGC GAC ACT CAC TTC CGC ACC TTC CGC TCC CAC TCC GAT 192

Pro Ala Pro Gly Asp Thr His Phe Arg Thr Phe Arg Ser His Ser Asp

50 55 60

TAC CGG CGC ATC ACG CGG ACC AGC GCG CTC CTG GAC GCC TGC GGC TTC 240

Tyr Arg Arg Ile Thr Arg Thr Ser Ala Leu Leu Asp Ala Cys Gly Phe

65 70 75 80

TAT TGG GGA CCC CTG AGC GTG CAC GGG GCG CAC GAG CGG CTG CGT GCC 288

Tyr Trp Gly Pro Leu Ser Val His Gly Ala His Glu Arg Leu Arg Ala

85 90 95

GAG CCC GTG GGC ACC TTC TTG GTG CGC GAC AGT CGT CAA CGG AAC TGC 336

Glu Pro Val Gly Thr Phe Leu Val Arg Asp Ser Arg Gln Arg Asn Cys

100 105 110

TTC TTC GCG CTC AGC GTG AAG ATG GCT TCG GGC CCC ACG AGC ATC CGC 384

Phe Phe Ala Leu Ser Val Lys Met Ala Ser Gly Pro Thr Ser Ile Arg

115 120 125

GTG CAC TTC CAG GCC GGC CGC TTC CAC TTG GAC GGC AGC CGC GAG ACC 432

Val His Phe Gln Ala Gly Arg Phe His Leu Asp Gly Ser Arg Glu Thr

130 135 140

TTC GAC TGC CTT TTC GAG CTG CTG GAG CAC TAC GTG GCG GCG CCG CGC 480

Phe Asp Cys Leu Phe Glu Leu Leu Glu His Tyr Val Ala Ala Pro Arg

145 150 155 160

CGC ATG TTG GGG GCC CCG CTG CGC CAG CGC CGC GTG CGG CCG CTG CAG 528

Arg Met Leu Gly Ala Pro Leu Arg Gln Arg Arg Val Arg Pro Leu Gln

165 170 175

GAG CTG TGT CGC CAG CGC ATC GTG GCC GCC GTG GGT CGC GAG AAC CTG 576

Glu Leu Cys Arg Gln Arg Ile Val Ala Ala Val Gly Arg Glu Asn Leu

180 185 190

GCG CGC ATC CCT CTT AAC CCG GTA CTC CGT GAC TAC CTG AGT TCC TTC 624

Ala Arg Ile Pro Leu Asn Pro Val Leu Arg Asp Tyr Leu Ser Ser Phe

195 200 205

CCC TTC CAG ATC TGA CCGGCTG CCGCTGTGCC GCAGCATTAA GTGGGGGCGC 676

Pro Phe Gln Ile ＊

210

CTTATTATTT CTTATTATTA ATTATTATTA TTTTTCTGGA ACCACGTGGG AGCCCTCCCC 736

GCCTGGGTCG GAGGGAGTGG TTGTGGAGGG TGAGATGCCT CCCACTTCTG GCTGGAGACC 796

TCATCCCACC TCTCAGGGGT GGGGGTGCTC CCCTCCTGGT GCTCCCTCCG GGTCCCCCCT 856

GGTTGTAGCA GCTTGTGTCT GGGGCCAGGA CCTGAATTCC ACTCCTACCT CTCCATGTTT 916

ACATATTCCC AGTATCTTTG CACAAACCAG GGGTCGGGGA GGGTCTCTGG CTTCATTTTT 976

CTGCTGTGCA GAATATCCTA TTTTATATTT TTACAGCCAG TTTAGGTAAT AAACTTTATT 1036

ATGAAAGTTT TTTTTTAAAA GAAAAAAAAA AAAAAAAAA 1075

(2)关于SEQ ID NO：4的信息

(i)序列特征

(A)长度：212个氨基酸

(B)类型：氨基酸

(D)拓扑结构：线型

(ii)分子类型：蛋白质

(xi)序列描述：SEQ ID NO：4：

Met Val Ala Arg Asn Gln Val Ala Ala Asp Asn Ala Ile Ser Pro Ala

1 5 10 15

Ala Glu Pro Arg Arg Arg Ser Glu Pro Ser Ser Ser Ser Ser Ser Ser

20 25 30

Ser Pro Ala Ala Pro Val Arg Pro Arg Pro Cys Pro Ala Val Pro Ala

35 40 45

Pro Ala Pro Gly Asp Thr His Phe Arg Thr Phe Arg Ser His Ser Asp

50 55 60

Tyr Arg Arg Ile Thr Arg Thr Ser Ala Leu Leu Asp Ala Cys Gly Phe

65 70 75 80

Tyr Trp Gly Pro Leu Ser Val His Gly Ala His Glu Arg Leu Arg Ala

85 90 95

Glu Pro Val Gly Thr Phe Leu Val Arg Asp Ser Arg Gln Arg Asn Cys

100 105 110

Phe Phe Ala Leu Ser Val Lys Met Ala Ser Gly Pro Thr Ser Ile Arg

115 120 125

Val His Phe Gln Ala Gly Arg Phe His Leu Asp Gly Ser Arg Glu Thr

130 135 140

Phe Asp Cys Leu Phe Glu Leu Leu Glu His Tyr Val Ala Ala Pro Arg

145 150 155 160

Arg Met Leu Gly Ala Pro Leu Arg Gln Arg Arg Val Arg Pro Leu Gln

165 170 175

Glu Leu Cys Arg Gln Arg Ile Val Ala Ala Val Gly Arg Glu Asn Leu

180 185 190

Ala Arg Ile Pro Leu Asn Pro Val Leu Arg Asp Tyr Leu Ser Ser Phe

195 200 205

Pro Phe Gln Ile

210

(2)关于SEQ ID NO：5的信息

(i)序列特征

(A)长度：1121个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(ix)特征：

(A)名称/关键：CDS

(B)位置：223..819

(xi)序列描述：SEQ ID NO：5：

GCGATCTGTG GGTGACAGTG TCTGCGAGAG ACTTTGCCAC ACCATTCTGC CGGAATTTGG 60

AGAAAAAGAA CCAGCCGCTT CCAGTCCCCT CCCCCTCCGC CACCATTTCG GACACCCTGC 120

ACACTCTCGT TTTGGGGTAC CCTGTGACTT CCAGGCAGCA CGCGAGGTCC ACTGGCCCCA 180

GCTCGGGCGA CCAGCTGTCT GGGACGTGTT GACTCATCTC CC ATG ACC CTG CGG 234

Met Thr Leu Arg

1

TGC CTG GAG CCC TCC GGG AAT GGA GCG GAC AGG ACG CGG AGC CAG TGG 282

Cys Leu Glu Pro Ser Gly Asn Gly Ala Asp Arg Thr Arg Ser Gln Trp

5 10 15 20

GGG ACC GCG GGG TTG CCG GAG GAA CAG TCC CCC GAG GCG GCG CGT CTG 330

Gly Thr Ala Gly Leu Pro Glu Glu Gln Ser Pro Glu Ala Ala Arg Leu

25 30 35

GCG AAA GCC CTG CGC GAG CTC AGT CAA ACA GGA TGG TAC TGG GGA AGT 378

Ala Lys Ala Leu Arg Glu Leu Ser Gln Thr Gly Trp Tyr Trp Gly Ser

40 45 50

ATG ACT GTT AAT GAA GCC AAA GAG AAA TTA AAA GAG GCT CCA GAA GGA 426

Met Thr Val Asn Glu Ala Lys Glu Lys Leu Lys Glu Ala Pro Glu Gly

55 60 65

ACT TTC TTG ATT AGA GAT AGT TCG CAT TCA GAC TAC CTA CTA ACT ATA 474

Thr Phe Leu Ile Arg Asp Ser Ser His Ser Asp Tyr Leu Leu Thr Ile

70 75 80

TCC GTT AAG ACG TCA GCT GGA CCG ACT AAC CTG CGG ATT GAG TAC CAA 522

Ser Val Lys Thr Ser Ala Gly Pro Thr Asn Leu Arg Ile Glu Tyr Gln

85 90 95 100

GAT GGG AAA TTC AGA TTG GAT TCT ATC ATA TGT GTC AAG TCC AAG CTT 570

Asp Gly Lys Phe Arg Leu Asp Ser Ile Ile Cys Val Lys Ser Lys Leu

105 110 115

AAA CAG TTT GAC AGT GTG GTT CAT CTG ATT GAC TAC TAT GTC CAG ATG 618

Lys Gln Phe Asp Ser Val Val His Leu Ile Asp Tyr Tyr Val Gln Met

120 125 130

TGC AAG GAT AAA CGG ACA GGC CCA GAA GCC CCA CGG AAT GGG ACT GTT 666

Cys Lys Asp Lys Arg Thr Gly Pro Glu Ala Pro Arg Asn Gly Thr Val

135 140 145

CAC CTG TAC CTG ACC AAA CCT CTG TAT ACA TCA GCA CCC ACT CTG CAG 714

His Leu Tyr Leu Thr Lys Pro Leu Tyr Thr Ser Ala Pro Thr Leu Gln

150 155 160

CAT TTC TGT CGA CTC GCC ATT AAC AAA TGT ACC GGT ACG ATC TGG GGA 762

His Phe Cys Arg Leu Ala Ile Asn Lys Cys Thr Gly Thr Ile Trp Gly

165 170 175 180

CTG CCT TTA CCA ACA AGA CTA AAA GAT TAC TTG GAA GAA TAT AAA TTC 810

Leu Pro Leu Pro Thr Arg Leu Lys Asp Tyr Leu Glu Glu Tyr Lys Phe

185 190 195

CAG GTA TAAGTATTTC TCTCTCTTTT TCGTTTTTTT TTAAAAAAAA AAAAACACAT 866

Gln Val

GCCTCATATA GACTATCTCC GAATGCAGCT ATGTGAAAGA GAACCCAGAG GCCCTCCTCT 926

GGATAACTGC GCAGAATTCT CTCTTAAGGA CAGTTGGGCT CAGTCTAACT TAAAGGTGTG 986

AAGATGTAGC TAGGTATTTT AAAGTTCCCC TTAGGTAGTT TTAGCTGAAT GATGCTTTCT 1046

TTCCTATGGC TGCTCAAGAT CAAATGGCCC TTTTAAATGA AACAAAACAA AACAAAACAA 1106

AAAAAAAAAA AAAAA 1121

(2)关于SEQ ID NO：6的信息

(A)长度：198个氨基酸

(B)类型：氨基酸

(D)拓扑结构：线型

(ii)分子类型：蛋白质

(xi)序列描述：SEQ ID NO：6：

Met Thr Leu Arg Cys Leu Glu Pro Ser Gly Asn Gly Ala Asp Arg Thr

1 5 10 15

Arg Ser Gln Trp Gly Thr Ala Gly Leu Pro Glu Glu Gln Ser Pro Glu

20 25 30

Ala Ala Arg Leu Ala Lys Ala Leu Arg Glu Leu Ser Gln Thr Gly Trp

35 40 45

Tyr Trp Gly Ser Met Thr Val Asn Glu Ala Lys Glu Lys Leu Lys Glu

50 55 60

Ala Pro Glu Gly Thr Phe Leu Ile Arg Asp Ser Ser His Ser Asp Tyr

65 70 75 80

Leu Leu Thr Ile Ser Val Lys Thr Ser Ala Gly Pro Thr Asn Leu Arg

85 90 95

Ile Glu Tyr Gln Asp Gly Lys Phe Arg Leu Asp Ser Ile Ile Cys Val

100 105 110

Lys Ser Lys Leu Lys Gln Phe Asp Ser Val Val His Leu Ile Asp Tyr

115 120 125

Tyr Val Gln Met Cys Lys Asp Lys Arg Thr Gly Pro Glu Ala Pro Arg

130 135 140

Asn Gly Thr Val His Leu Tyr Leu Thr Lys Pro Leu Tyr Thr Ser Ala

145 150 155 160

Pro Thr Leu Gln His Phe Cys Arg Leu Ala Ile Asn Lys Cys Thr Gly

165 170 175

Thr Ile Trp Gly Leu Pro Leu Pro Thr Arg Leu Lys Asp Tyr Leu Glu

180 185 190

Glu Tyr Lys Phe Gln Val

195

(2)关于SEQ ID NO：7的信息

(i)序列特征

(A)长度：2187个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(ix)特征：

(A)名称/关键：CDS

(B)位置：18..695

(xi)序列描述：SEQ ID NO：7：

CGCTGGCTCC GTGCGCC ATG GTC ACC CAC AGC AAG TTT CCC GCC GCC GGG 50

Met Val Thr His Ser Lys Phe Pro Ala Ala Gly

1 5 10

ATG AGC CGC CCC CTG GAC ACC AGC CTG CGC CTC AAG ACC TTC AGC TCC 98

Met Ser Arg Pro Leu Asp Thr Ser Leu Arg Leu Lys Thr Phe Ser Ser

15 20 25

AAA AGC GAG TAC CAG CTG GTG GTG AAC GCC GTG CGC AAG CTG CAG GAG 146

Lys Ser Glu Tyr Gln Leu Val Val Asn Ala Val Arg Lys Leu Gln Glu

30 35 40

AGC GGA TTC TAC TGG AGC GCC GTG ACC GGC GGC GAG GCG AAC CTG CTG 194

Ser Gly Phe Tyr Trp Ser Ala Val Thr Gly Gly Glu Ala Asn Leu Leu

45 50 55

CTC AGC GCC GAG CCC GCG GGC ACC TTT CTT ATC CGC GAC AGC TCG GAC 242

Leu Ser Ala Glu Pro Ala Gly Thr Phe Leu Ile Arg Asp Ser Ser Asp

60 65 70 75

CAG CGC CAC TTC TTC ACG TTG AGC GTC AAG ACC CAG TCG GGG ACC AAG 290

Gln Arg His Phe Phe Thr Leu Ser Val Lys Thr Gln Ser Gly Thr Lys

80 85 90

AAC CTA CGC ATC CAG TGT GAG GGG GGC AGC TTT TCG CTG CAG AGT GAC 338

Asn Leu Arg Ile Gln Cys Glu Gly Gly Ser Phe Ser Leu Gln Ser Asp

95 100 105

CCC CGA AGC ACG CAG CCA GTT CCC CGC TTC GAC TGT GTA CTC AAG CTG 386

Pro Arg Ser Thr Gln Pro Val Pro Arg Phe Asp Cys Val Leu Lys Leu

110 115 120

GTG CAC CAC TAC ATG CCG CCT CCA GGG ACC CCC TCC TTT TCT TTG CCA 434

Val His His Tyr Met Pro Pro Pro Gly Thr Pro Ser Phe Ser Leu Pro

125 130 135

CCC ACG GAA CCC TCG TCC GAA GTT CCG GAG CAG CCA CCT GCC CAG GCA 482

Pro Thr Glu Pro Ser Ser Glu Val Pro Glu Gln Pro Pro Ala Gln Ala

140 145 150 155

CTC CCC GGG AGT ACC CCC AAG AGA GCT TAC TAC ATC TAT TCT GGG GGC 530

Leu Pro Gly Ser Thr Pro Lys Arg Ala Tyr Tyr Ile Tyr Ser Gly Gly

160 165 170

GAG AAG ATT CCG CTG GTA CTG AGC CGA CCT CTC TCC TCC AAC GTG GCC 578

Glu Lys Ile Pro Leu Val Leu Ser Arg Pro Leu Ser Ser Asn Val Ala

175 180 185

ACC CTC CAG CAT CTT TGT CGG AAG ACT GTC AAC GGC CAC CTG GAC TCC 626

Thr Leu Gln His Leu Cys Arg Lys Thr Val AsnGly His Leu Asp Ser

190 195 200

TAT GAG AAA GTG ACC CAG CTG CCT GGA CCC ATT CGG GAG TTC CTG GAT 674

Tyr Glu Lys Val Thr Gln Leu Pro Gly Pro Ile Arg Glu Phe Leu Asp

205 210 215

CAG TAT GAT GCT CCA CTT TAAGGAGCAA AAGGGTCAGA GGGGGGCCTG 722

Gln Tyr Asp Ala Pro Lau

220 225

GGTCGGTCGG TCGCCTCTCC TCCGAGGCAC ATGGCACAAG CACAAAAATC CAGCCCCAAC 782

GGTCGGTAGC TCCCAGTGAG CCAGGGGCAG ATTGGCTTCT TCCTCAGGCC CTCCACTCCC 842

GCAGAGTAGA GCTGGCAGGA CCTGGAATTC GTCTGAGGGG AGGGGGAGCT GCCACCTGCT 902

TTCCCCCCTC CCCCAGCTCC AGCTTCTTTC AAGTGGAGCC AGCCGGCCTG GCCTGGTGGG 962

ACAATACCTT TGACAAGCGG ACTCTCCCCT CCCCTTCCTC CACACCCCCT CTGCTTCCCA 1022

AGGGAGGTGG GGACACCTCC AAGTGTTGAA CTTAGAACTG CAAGGGGAAT CTTCAAACTT 1082

TCCCGCTGGA ACTTGTTTGC GCTTTGATTT GGTTTGATCA AGAGCAGGCA CCTGGGGGAA 1142

GGATGGAAGA GAAAAGGGTG TGTGAAGGGT TTTTATGCTG GCCAAAGAAA TAACCACTCC 1202

CACTGCCCAA CCTAGGTGAG GAGTGGTGGC TCCTGGCTCT GGGGAGAGTG GCAAGGGGTG 1262

ACCTGAAGAG AGCTATACTG GTGCCAGGCT CCTCTCCATG GGGCAGCTAA TGAAACCTCG 1322

CAGATCCCTT GCACCCCAGA ACCCTCCCCG TTGTGAAGAG GCAGTAGCAT TTAGAAGGGA 1382

GACAGATGAG GCTGGTGAGC TGGCCGCCTT TTCCAACACC GAAGGGAGGC AGATCAACAG 1442

ATGAGCCATC TTGGAGCCCA GGTTTCCCCT GGAGCAGATG GAGGGTTCTG CTTTGTCTCT 1502

CCTATGTGGG GCTAGGAGAC TCGCCTTAAA TGCCCTCTGT CCCAGGGATG GGGATTGGCA 1562

CACAAGGAGC CAAACACAGC CAATAGGCAG AGAGTTGAGG GATTCACCCA GGTGGCTACA 1622

GGCCAGGGGA AGTGGCTGCA GGGGAGAGAC CCAGTCACTC CAGGAGACTC CTGAGTTAAC 1682

ACTGGGAAGA CATTGGCCAG TCCTAGTCAT CTCTCGGTCA GTAGGTCCGA GAGCTTCCAG 1742

GCCCTGCACA GCCCTCCTTT CTCACCTGGG GGGAGGCAGG AGGTGATGGA GAAGCCTTCC 1802

CATGCCGCTC ACAGGGGCCT CACGGGAATG CAGCAGCCAT GCAATTACCT GGAACTGGTC 1862

CTGTGTTGGG GAGAAACAAG TTTTCTGAAG TCAGGTATGG GGCTGGGTGG GGCAGCTGTG 1922

TGTTGGGGTG GCTTTTTTCT CTCTGTTTTG AATAATGTTT ACAATTTGCC TCAATCACTT 1982

TTATAAAAAT CCACCTCCAG CCCGCCCCTC TCCCCACTCA GGCCTTCGAG GCTGTCTGAA 2042

GATGCTTGAA AAACTCAACC AAATCCCAGT TCAACTCAGA CTTTGCACAT ATATTTATAT 2102

TTATACTCAG AAAAGAAACA TTTCAGTAAT TTATAATAAA AGAGCACTAT TTTTTAATGA 2162

AAAAAAAAAA AAAAAAAAAA AAAAA 2187

(2)关于SEQ ID NO：8的信息

(i)序列特征

(A)长度：225个氨基酸

(B)类型：氨基酸

(D)拓扑结构：线型

(ii)分子类型：蛋白质

(xi)序列描述：SEQ ID NO：8：

Met Val Thr His Ser Lys Phe Pro Ala Ala Gly Met Ser Arg Pro Leu

1 5 10 15

Asp Thr Ser Leu Arg Leu Lys Thr Phe Ser Ser Lys Ser Glu Tyr Gln

20 25 30

Leu Val Val Asn Ala Val Arg Lys Leu Gln Glu Ser Gly Phe Tyr Trp

35 40 45

Ser Ala Val Thr Gly Gly Glu Ala Asn Leu Leu Leu Ser Ala Glu Pro

50 55 60

Ala Gly Thr Phe Leu Ile Arg Asp Ser Ser Asp Gln Arg His Phe Phe

65 70 75 80

Thr Leu Ser Val Lys Thr Gln Ser Gly Thr Lys Asn Leu Arg Ile Gln

85 90 95

Cys Glu Gly Gly Ser Phe Ser Leu Gln Ser Asp Pro Arg Ser Thr Gln

100 105 110

Pro Val Pro Arg Phe Asp Cys Val Leu Lys Leu Val His His Tyr Met

115 120 125

Pro Pro Pro Gly Thr Pro Ser Phe Ser Leu Pro Pro Thr Glu Pro Ser

130 135 140

Ser Glu Val Pro Glu Gln Pro Pro Ala Gln Ala Leu Pro Gly Ser Thr

145 150 155 160

Pro Lys Arg Ala Tyr Tyr Ile Tyr Ser Gly Gly Glu Lys Ile Pro Leu

165 170 175

Val Leu Ser Arg Pro Leu Ser Ser Asn Val Ala Thr Leu Gln His Leu

180 185 190

Cys Arg Lys Thr Val Asn Gly His Leu Asp Ser Tyr Glu Lys Val Thr

195 200 205

Gln Leu Pro Gly Pro Ile Arg Glu Phe Leu Asp Gln Tyr Asp Ala Pro

210 215 220

Leu

225

(2)关于SEQ ID NO：9的信息：

(i)序列特征

(A)长度：1094个碱基对

(B)类型：核酸

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：9：

CTCCGGCTGG CCCCTTCTGT AGGATGGTAG CACACAACCA GGTGGCAGCC GACAATGCAG 60

TCTCCACAGC AGCAGAGCCC CGACGGCGGC CAGAACCTTC CTCCTCTTCC TCCTCCTCGC 120

CCGCGGCCCC CGCGCGCCCG CGGCCGTGCC CCGCGGTCCC GGCCCCGGCC CCCGGCGACA 180

CGCACTTCCG CACATTCCGT TCGCACGCCG ATTACCGGCG CATCACGCGC GCCAGCGCGC 240

TCCTGGACGC CTGCGGATTC TACTGGGGGC CCCTGAGCGT GCACGGGGCG CACGAGCGGC 300

TGCGCGCCGA GCCCGTGGGC ACCTTCCTGG TGCGCGACAG CCGCCAGCGG AACTGCTTTT 360

TCGCCCTTAG CGTGAAGATG GCCTCGGGAC CCACGAGCAT CCGCGTGCAC TTTCAGGCCG 420

GCCGCTTTCA CCTGGATGGC AGCCGCGAGA GCTTCGACTG CCTCTTCGAG CTGCTGGAGC 480

ACTACGTGGC GGCGCCGCGC CGCATGCTGG GGGCCCCGCT GCGCCAGCGC CGCGTGCGGC 540

CGCTGCAGGA GCTGTGCCGC CAGCGCATCG TGGCCACCGT GGGCCGCGAG AACCTGGCTC 600

GCATCCCCCT CAACCCCGTC CTCCGCGACT ACCTGAGCTC CTTCCCCTTC CAGATTTGAC 660

CGGCAGCGCC CGCCGTGCAC GCAGCATTAA CTGGGATGCC GTGTTATTTT GTTATTACTT 720

GCCTGGAACC ATGTGGGTAC CCTCCCCGGC CTGGGTTGGA GGGAGCGGAT GGGTGTAGGG 780

GCGAGGCGCC TCCCGCCCTC GGCTGGAGAC GAGGCCGCAG ACCCCTTCTC ACCTCTTGAG 840

GGGGTCCTCC CCCTCCTGGT GCTCCCTCTG GGTCCCCCTG GTTGTTGTAG CAGCTTAACT 900

GTATCTGGAG CCAGGACCTG AACTCGCACC TCCTACCTCT TCATGTTTAC ATATACCCAG 960

TATCTTTGCA CAAACCAGGG GTTGGGGGAG GGTCTCTGGC TTTATTTTTC TGCTGTGCAG 1020

AATCCTATTT TATATTTTTT AAAGTCAGTT TAGGTAATAA ACTTTATTAT GAAAGTTTTT 1080

TTTTTTAAAA AAAA 1094

(2)关于SEQ ID NO：10的信息：

(i)序列特征

(A)长度：211个氨基酸

(B)类型：氨基酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：蛋白质

(xi)序列描述：SEQ ID NO：10：

Met Val Ala His Asn Gln Val Ala Ala Asp Asn Ala Val Ser Thr Ala

1 5 10 15

Ala Glu Pro Arg Arg Arg Pro Glu Pro Ser Ser Ser Ser Ser Ser Ser

20 25 30

Pro Ala Ala Pro Ala Arg Pro Arg Pro Cys Pro Ala Val Pro Ala Pro

35 40 45

Ala Pro Gly Asp Thr His Phe Arg Thr Phe Arg Ser His Ala Asp Tyr

50 55 60

Arg Arg Ile Thr Arg Ala Ser Ala Leu Leu Asp Ala Cys Gly Phe Tyr

65 70 75 80

Trp Gly Pro Leu Ser Val His Gly Ala His Glu Arg Leu Arg Ala Glu

85 90 95

Pro Val Gly Thr Phe Leu Val Arg Asp Ser Arg Gln Arg Asn Cys Phe

100 105 110

Phe Ala Leu Ser Val Lys Met Ala Ser Gly Pro Thr Ser Ile Arg Val

115 120 125

His Phe Gln Ala Gly Arg Phe His Leu Asp Gly Ser Arg Glu Ser Phe

130 135 140

Asp Cys Leu Phe Glu Leu Leu Glu His Tyr Val Ala Ala Pro Arg Arg

145 150 155 160

Met Leu Gly Ala Pro Leu Arg Gln Arg Arg Val Arg Pro Leu Gln Glu

165 170 175

Leu Cys Arg Gln Arg Ile Val Ala Thr Val Gly Arg Glu Asn Leu Ala

180 185 190

Arg Ile Pro Leu Asn Pro Val Leu Arg Asp Tyr Leu Ser Ser Phe Pro

195 200 205

Phe Gln Ile

210

(2)关于SEQ ID NO：11的信息：

(i)序列特征

(A)长度：2807个碱基对

(B)类型：核酸

(D)拓扑结构：线型

(ii))分子类型：DNA

(xi)序列描述：SEQ ID NO：11：

GGAAACCGAG GCGGGGAGAC CAGGAGGCCT TGGCCTCAGA GCTTCAGAGT CGCGTGGCAG 60

CAAACAGAGA AACCTGTAGA GGGCAGTGTG CGTCACTTAG CTCAGGGAAG CTGCACGCGA 120

AACTCACCCG CCTTCATTCA TAAACATCGT CAGCTAGGCA CCTACTCCTG GGCTTTCAGG 180

ACAAACGAA TCACGAAACC ACAGTGTCCT TAAAATAGGT CTGACCGCCT GAATCCCTGG 240

CCAAGGTGTG TACGGGGCAT GGGAGCCCTT GTGCAGAGAT GCTTGCAGGA GCCTTGAGGG 300

GCTCTGTAAG ACAGAGGCTA GGAAGACAAA GTTGGGGGCT ACAGCTTCTT GTCCTGCCCG 360

GGGCCTCAGT TTCTTCGGTT GCCCACGTAG GAGTGCAGAG AGTCCAGCCC CTGGGGACCC 420

AACCCAACCC CGCCCAGTTT CCGAGGAACT CGTCCGGGAG CGGGGGCGCC CCTCCCGCAC 480

CGCCTTAGGC TTCCTTTGAA GCCTCTGCGG TCAGGCCACC GCTTCCTGGG AAGCCCAAGC 540

CAAGGCCAGG CCGAGTGGCC AACGGGAGGG GCCCGCGCGC GATTCTGGAG GAGGGCGGCG 600

GCCCCACAGG TCTCCAGGGC TGGCTAGCCG GGCTCCTAGA GCGGAGACTG CCAAGGCCTT 660

CGGGTCCTGG GGAGGAAGGA TCCTGGCAGG GAGGAGTTGC TTGGGGGGTG GGGGGGAAAG 720

GCTCCAGGCG CGGTGGAGCT CTGACCAGGA GAATGCACAC ACTCGGAGGG GAGGAGGCGT 780

GTCAGCCCCA AGCTAGCATC CCACCCGGGG AGCAGCGATG TGGGGCGAAG GTAGCCAGAG 840

CAAAAGAGCA GGCACCAGGT GACACGAAAC AGAAGATTCC GGGTAGAGCC AGAACCCCAG 900

AAGTCCCATT CAGGGAAGGT GCGAGGCGAG AACGAGTTAG GTGGACCCTC TCCAGGGGCA 960

GCCAAAGAAA TCTAAAGAGA ACCCGAAGGA CTTGCCGGAA AGAGAAACCG AAAGCGGCGG 1020

TGGGCGGGAT CGGTGGGCGG GGCCTCCCTG GTTTAAGAGC TTGATGCAGG GGCGGGCAGC 1080

AGCAGAGAGA ACTGCGGCCG TGGCAGCGGC ACGGCTCCCG GCCCCGGAGC ATGCGCGACA 1140

GCAGCCCCGG AACCCCCAGC CGCGGCGCCC CGCGTCCCGC CGCCAGGTGA GCCGAGGCAG 1200

CTGCGAAGGA GCAGGCGGGA GGGGATGGGA GGAAGGGGAG CAGAGCCTGG CAGGACTATC 1260

CTCGCAGACT GCATGGCGGG GTCGTGGATG CTATGCCTCT GGCGCCCGCC CCACCGGCTG 1320

GCCCAGGCGG CCCCTCGCGC GCGCGGGGCG CCGTCAGCCC CTCCTCTCCG GCCCTGAGCC 1380

CGGATCGTCC GCCCGGGTTC CAGTTCCCGG CGTGGCCAGT AGGCGGCAAC CGCGAGGCGG 1440

CAAGCCACCC AGCGGGGACG GCCTGGAGTC GGGCCCCTCT CCACGCCCCC TTCTCCACGC 1500

GCGCGGGGAG GCAGGGCTCC ACCGCCAGTC TGGAAGGGTT CCACATACAG GAACGGCCTA 1560

CTTCGCAGAT GAGCCCACCG AGGCTCAGGC TCCGGGCGGA TTCTGCGTGT CACCCTCGCT 1620

CCTTGGGGTC CGCTGGCCGG CCTGTGCCAC CCGGACGCCC GGTTCACTGC CTCTGTCTCC 1680

CCCATCAGCG CAGCCCCGGA CGCTATGGCC CACCCCTCCA GCTGGCCCCT CGAGTAGGAT 1740

GGTAGCACGT AACCAGGTGG AAGCCGACAA TGCGATCTCC CCGGCATCAG AGCCCCGACG 1800

GCGGCCAGAG CCATCCTCGT CCTCGTCTTC GTCCTCGCCG GCGGCCCCGG CGCGTCCCCG 1860

GCCCTGCCCG GTGGTCCCGG CCCCGGCTCC GGGCGACACT CACTTCCGCA CCTTCCGCTC 1920

CCACTCTGAT TACCGGCGCA TCACGCGGAC CAGCGCTCTC CTGGACGCCT GCGGCTTCTA 1980

CTGGGGACCC CTGAGCGTGC ATGGGGCGCA CGAACGGCTG CGTTCCGAAC CCGTGGGCAC 2040

CTTCTTGGTG CGCGACAGTC GCCAGCGGAA CTGCTTCTTC GCGCTCAGCG TGAAGATGGC 2100

TTCGGGCCCC ACGAGCATTC GTGTGCACTT CCAGGCCGGC CGCTTCCACC TGGACGGCAA 2160

CCGCGAGACC TTCGACTGCC TCTTCGAGCT GCTGGAGCAC TACGTGGCGG CGCCGCGCCG 2220

CATGTTGGGG GCCCCACTGC GCCAGCGCCG CGTGCGGCCG CTGCAGGAGC TGTGTCGCCA 2280

GCGCATCGTG GCCGCCGTGG GTCGCGAGAA CCTGGCACGC ATCCCTCTTA ACCCGGTACT 2340

CCGTGACTAC CTGAGTTCCT TCCCCTTCCA GATCTGACCG GCTGCCGCCG TGCCCGCAGA 2400

ATTAAGTGGG AGCGCCTTAT TATTTCTTAT TATTAATTAT TATTATTTTT CTGGAACCAC 2460

GTGGGAGCCC TCCCCGCCTA GGTCGGAGGG AGTGGGTGTG GAGGGTGAGA TCCCTCCCAC 2520

TTCTGGCTGG AGACCTTATC CCGCCTCTCG GGGGGCCTCC CCTCCTGGTG CTCCCTCCCG 2580

GTCCCCCTGG TTGTAGCAGC TTGTGTCTGG GGCCAGGACC TGAACTCCAC GCCTACCTCT 2640

CCATGTTTAC ATGTTCCCAG TATCTTTGCA CAAACCAGGG GTGGGGGAGG GTCTCTGGCT 2700

TCATTTTTCT GCTGTGCAGA ATATTCTATT TTATATTTTT ACATCCAGTT TAGATAATAA 2760

ACTTTATTAT GAAAGTTTTT TTTTTTAAAG AAACAAAGAT TTCTAGA 2807

(2)关于SEQ ID NO：12的信息

(i)序列特征

(A)长度：212个氨基酸

(B)类型：氨基酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：蛋白质

(xi)序列描述：SEQ ID NO：12：

Met Val Ala Arg Asn Gln Val Glu Ala Asp Asn Ala Ile Ser Pro Ala

1 5 10 15

Ser Glu Pro Arg Arg Arg Pro Glu Pro Ser Ser Ser Ser Ser Ser Ser

20 25 30

Ser Pro Ala Ala Pro Ala Arg Pro Arg Pro Cys Pro Val Val Pro Ala

35 40 45

Pro Ala Pro Gly Asp Thr His Phe Arg Thr Phe Arg Ser His Ser Asp

50 55 60

Tyr Arg Arg Ile Thr Arg Thr Ser Ala Leu Leu Asp Ala Cys Gly Phe

65 70 75 80

Tyr Trp Gly Pro Leu Ser Val His Gly Ala His Glu Arg Leu Arg Ser

85 90 95

Glu Pro Val Gly Thr Phe Leu Val Arg Asp Ser Arg Gln Arg Ash Cys

100 105 110

Phe Phe Ala Leu Ser Val Lys Met Ala Ser Gly Pro Thr Ser Ile Arg

115 120 125

Val His Phe Gln Ala Gly Arg Phe His Leu Asp Gly Asn Arg Glu Thr

130 135 140

Phe Asp Cys Leu Phe Glu Leu Leu Glu His Tyr Val Ala Ala Pro Arg

145 150 155 160

Arg Met Leu Gly Ala Pro Leu Arg Gln Arg Arg Val Arg Pro Leu Gln

165 170 175

Glu Leu Cys Arg Gln Arg Ile Val Ala Ala Val Gly Arg Glu Asn Leu

180 185 190

Ala Arg Ile Pro Leu Asn Pro Val Leu Arg Asp Tyr Leu Ser Ser Phe

195 200 205

Pro Phe Gln Ile

210

(2)关于SEQ ID NO：13的信息

(i)序列特征

(A)长度：1611个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(ix)特征：

(A)名称/关键：CDS

(B)位置：263..1529

(xi)序列描述：SEQ ID NO：13：

CGAATTCCGG GCGGGCTGTG TGAGTCTGTG AGTGGAAGGC GCGCCGGCTC TTTTGTCTGA 60

GTGTGACCCG GTGGCTTTGT TCCAGGCATT CCGGTGATTT CCTCCGGGCA GTCCGCAGAA 120

GCCGCAGCGG CCGCCCGCGC TCTCTCTGCA GTCTCCACAC CCGGGAGAGC CTGAGCCCGC 180

GTCACGCCCC TCAGCCCCCG CTGAGTCCCT TCTCTGTTGT CGCGTCCGAA TCGAGTTCCC 240

GGAATCAGAC GGTGCCCCAT AG ATG GCC AGC TTT CCC CCG AGG GTT AAC GAG 292

Met Ala Ser Phe Pro Pro Arg Val Asn Glu

1 5 10

AAA GAG ATC GTG AGA TCA CGT ACT ATA GGG GAA CTC TTG GCT CCA GCA 340

Lys Glu Ile Val Arg Ser Arg Thr Ile Gly Glu Leu Leu Ala Pro Ala

15 20 25

GCT CCT TTT GAC AAG AAA TGT GGT GGT GAG AAC TGG ACG GTT GCT TTT 388

Ala Pro Phe Asp Lys Lys Cys Gly Gly Glu Asn Trp Thr Val Ala Phe

30 35 40

GCT CCT GAT GGT TCC TAC TTT GCG TGG TCA CAA GGA TAT CGC ATA GTG 436

Ala Pro Asp Gly Ser Tyr Phe Ala Trp Ser Gln Gly Tyr Arg Ile Val

45 50 55

AAG CTT GTC CCG TGG TCC CAG TGC CGT AAG AAC TTT CTT TTG CAT GGT 484

Lys Leu Val Pro Trp Ser Gln Cys Arg Lys Asn Phe Leu Leu His Gly

60 65 70

TCC AAA AAT GTT ACC AAT TCA AGC TGT CTA AAA TTG GCA AGA CAA AAC 532

Ser Lys Asn Val Thr Asn Ser Ser Cys Leu Lys Leu Ala Arg Gln Asn

75 80 85 90

AGT AAT GGT GGT CAG AAA AAC AAG CCT CCT GAG CAC GTT ATA GAC TGT 580

Ser Asn Gly Gly Gln Lys Asn Lys Pro Pro Glu His Val Ile Asp Cys

95 100 105

GGA GAC ATA GTC TGG AGT CTT GCT TTT GGG TCT TCA GTT CCA GAA AAA 628

Gly Asp Ile Val Trp Ser Leu Ala Phe Gly Ser Ser Val Pro Glu Lys

110 115 120

CAG AGT CGT TGC GTT AAT ATA GAA TGG CAT CGG TTC CGA TTT GGA CAG 676

Gln Ser Arg Cys Val Asn Ile Glu Trp His Arg Phe Arg Phe Gly Gln

125 130 135

GAT CAG CTA CTC CTT GCC ACA GGA TTA AAC AAT GGT CGC ATC AAA ATC 724

Asp Gln Leu Leu Leu Ala Thr Gly Leu Asn Asn Gly Arg Ile Lys Ile

140 145 150

TGG GAT GTA TAT ACA GGA AAA CTC CTC CTT AAT TTG GTA GAC CAC ATT 772

Trp Asp Val Tyr Thr Giy Lys Leu Leu Leu Asn Leu Val Asp His Ile

155 160 165 170

GAA ATG GTT AGA GAT TTA ACT TTT GCT CCA GAT GGG AGC TTA CTC CTT 820

Glu Met Val Arg Asp Leu Thr Phe Ala Pro Asp Gly Ser Leu Leu Leu

175 180 185

GTA TCA GCT TCA AGA GAC AAA ACT CTA AGA GTG TGG GAC CTG AAA GAT 868

Val Ser Ala Ser Arg Asp Lys Thr Leu Arg Val Trp Asp Leu Lys Asp

190 195 200

GAT GGA AAC ATG GTG AAA GTA TTG CGG GCA CAT CAG AAT TGG GTG TAC 916

Asp Gly Asn Met Val Lys Val Leu Arg Ala His Gln Asn Trp Val Tyr

205 210 215

AGT TGT GCA TTC TCT CCC GAC TGT TCT ATG CTG TGT TCA GTG GGC GCC 964

Ser Cys Ala Phe Ser Pro Asp Cys Ser Met Leu Cys Ser Val Gly Ala

220 225 230

AGT AAA GCA GTT TTC CTT TGG AAT ATG GAT AAA TAC ACC ATG ATT AGG 1012

Ser Lys Ala Val Phe Leu Trp Asn Met Asp Lys Tyr Thr Met Ile Arg

235 240 245 250

AAG CTG GAA GGT CAT CAC CAT GAT GTT GTA GCT TGT GAC TTT TCT CCT 1060

Lys Leu Glu Gly His His His Asp Val Val Ala Cys Asp Phe Ser Pro

255 260 265

GAT GGA GCA TTG CTA GCT ACT GCA TCC TAT GAC ACT CGT GTG TAT GTC 1108

Asp Gly Ala Leu Leu Ala Thr Ala Ser Tyr Asp Thr Arg Val Tyr Val

270 275 280

TGG GAT CCA CAC AAT GGA GAC CTT CTG ATG GAG TTT GGG CAC CTG TTT 1156

Trp Asp Pro His Asn Gly Asp Leu Leu Met Glu Phe Gly His Leu Phe

285 290 295

CCC TCG CCC ACT CCA ATA TTT GCT GGA GGA GCA AAT GAC CGA TGG GTG 1204

Pro Ser Pro Thr Pro Ile Phe Ala Gly Gly Ala Asn Asp Arg Trp Val

300 305 310

AGA GCT GTG TCT TTC AGT CAT GAT GGA CTG CAT GTT GCC AGC CTT GCT 1252

Arg Ala Val Ser Phe Ser His Asp Gly Leu His Val Ala Ser Leu Ala

315 320 325 330

GAT GAT AAA ATG GTG AGG TTC TGG AGA ATC GAT GAG GAT TGT CCG GTA 1300

Asp Asp Lys Met Val Arg Phe Trp Arg Ile Asp Glu Asp Cys Pro Val

335 340 345

CAA GTT GCA CCT TTG AGC AAT GGT CTT TGC TGT GCC TTT TCT ACT GAT 1348

Gln Val Ala Pro Leu Ser Asn Gly Leu Cys Cys Ala Phe Ser Thr Asp

350 355 360

GGC AGT GTT TTA GCT GCT GGG ACA CAT GAT GGA AGT GTG TAT TTT TGG 1396

Gly Ser Val Leu Ala Ala Gly Thr His Asp Gly Ser Val Tyr Phe Trp

365 370 375

GCC ACT CCA AGG CAA GTC CCT AGC CTT CAA CAT ATA TGT CGC ATG TCA 1444

Ala Thr Pro Arg Gln Val Pro Ser Leu Gln His Ile Cys Arg Met Ser

380 385 390

ATC CGA AGA GTG ATG TCC ACC CAA GAA GTC CAA AAA CTG CCT GTT CCT 1492

Ile Arg Arg Val Met Ser Thr Gln Glu Val Gln Lys Leu Pro Val Pro

395 400 405 410

TCC AAA ATA TTG GCG TTT CTC TCC TAC CGC GGT TAG A CTGAAGACTG 1539

Ser Lys Ile Leu Ala Phe Leu Ser Tyr Arg Gly ＊

415 420

CCTTTCCTGG TAGGCCTGCC AGACAGAGCG CCCTTTACAA GACACACCTC AAGCTTTACC 1599

TCGTGCCGAA TT 1611

(2)关于SEQ ID NO：14的信息

(i)序列特征

(A)长度：422个氨基酸

(B)类型：氨基酸

(D)拓扑结构：线型

(ii)分子类型：蛋白质

(xi)序列描述：SEQ ID NO：14：

Met Ala Ser Phe Pro Pro Arg Val Asn G1u Lys GluIle Val Arg Ser

1 5 10 15

Arg Thr Ile Gly Glu Leu Leu Ala Pro Ala Ala Pro Phe Asp Lys Lys

20 25 30

Cys Gly Gly Glu Asn Trp Thr Val Ala Phe Ala Pro Asp Gly Ser Tyr

35 40 45

Phe Ala Trp Ser Gln Gly Tyr Arg Ile Val Lys Leu Val Pro Trp Ser

50 55 60

Gln Cys Arg Lys Asn Phe Leu Leu His Gly Ser Lys Asn Val Thr Asn

65 70 75 80

Ser Ser Cys Leu Lys Leu Ala Arg Gln Asn Ser Asn Gly Gly Gln Lys

85 90 95

Asn Lys Pro Pro Glu His Val Ile Asp Cys Gly Asp Ile Val Trp Ser

100 105 110

Leu Ala Phe Gly Ser Ser Val Pro Glu Lys Gln Ser Arg Cys Val Asn

115 120 125

Ile Glu Trp His Arg Phe Arg Phe Gly Gln Asp Gln Leu Leu Leu Ala

130 135 140

Thr Gly Leu Asn Asn Gly Arg Ile Lys Ile Trp Asp Val Tyr Thr Gly

145 150 155 160

Lys Leu Leu Leu Asn Leu Val Asp His Ile Glu Met Val Arg Asp Leu

165 170 175

Thr Phe Ala Pro Asp Gly Ser Leu Leu Leu Val Ser Ala Ser Arg Asp

180 185 190

Lys Thr Leu Arg Val Trp Asp Leu Lys Asp Asp Gly Asn Met Val Lys

195 200 205

Val Leu Arg Ala His Gln Asn Trp Val Tyr Ser Cys Ala Phe Ser pro

210 215 220

Asp Cys Ser Met Leu Cys Ser Val Gly Ala Ser Lys Ala Val Phe Leu

225 230 235 240

Trp Asn Met Asp Lys Tyr Thr Met Ile Arg Lys Leu Glu Gly His His

245 250 255

His Asp Val Val Ala Cys Asp Phe Ser Pro Asp Gly Ala Leu Leu Ala

260 265 270

Thr Ala Ser Tyr Asp Thr Arg Val Tyr Val Trp Asp Pro His Asn Gly

275 280 285

Asp Leu Leu Met Glu Phe Gly His Leu Phe Pro Ser Pro Thr Pro Ile

290 295 300

Phe Ala Gly Gly Ala Asn Asp Arg Trp Val Arg Ala Val Ser Phe Ser

305 310 315 320

His Asp Gly Leu His Val Ala Ser Leu Ala Asp Asp Lys Met Val Arg

325 330 335

Phe Trp Arg Ile Asp Glu Asp Cys Pro Val Gln Val Ala Pro Leu Ser

340 345 350

Asn Gly Leu Cys Cys Ala Phe Ser Thr Asp Gly Ser Val Leu Ala Ala

355 360 365

Gly Thr His Asp Gly Ser Val Tyr Phe Trp Ala Thr Pro Arg Gln Val

370 375 380

Pro Ser Leu Gln His Ile Cys Arg Met Ser Ile Arg Arg Val Met Ser

385 390 395 400

Thr Gln Glu Val Gln Lys Leu Pro Val Pro Ser Lys Ile Leu Ala Phe

405 410 415

Leu Ser Tyr Arg Gly ＊

420

(2)关于SEQ ID NO：15的信息：

(i)序列特征

(A)长度：783个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(xi)序列描述：SEQ ID NO：15：

CTGTCTTCCT CCGCAGCGCG AGGCTGGGTA CAGGGTCTAT TGTCTGTGGT TGACTCCGTA 60

CTTTGGTCTG AGGCCTTCGG GAGCTTTCCC GAGGCAGTTA GCAGAAGCCG CAGCGACCGC 120

CCCCGCCCGT CTCCTCTGTC CCTGGGCCCG GGAGACAAAC TTGGCGTCAC GCCCTCAGCG 180

GTCGCCACTC TCTTCTCTGT TGTTGGGTCC GCATCGTATT CCCGGAATCA GACGGTGCCC 240

CATAGATGGC CAGCTTTCCC CCGAGGGTCA ACGAGAAAGA GATCGTGAGA TCACGTACTA 300

TAGGTGAACT TTTAGCTCCT GCAGCTCCTT TTGACAAGAA ATGTGGTCGT GAAAATTGGA 360

CTGTTGCTTT TGCTCCAGAT GGTTCATACT TTGCTTGGTC ACAAGGACAT CGCACAGTAA 420

AGCTTGTTCC GTGGTCCCAG TGCCTTCAGA ACTTTCTCTT GCATGGCACC AAGAATGTTA 480

CCAATTCAAG CAGTTTAAGA TTGCCAAGAC AAAATAGTGA TGGTGGTCAG AAAAATAAGC 540

CTCGTGACAT ATTATAGACT GTGGAGATAT AGTCTGGAGT CTTGCTTTTG GGTCATCAGT 600

TCCAGAAAAA CAGAGTCGCT GTGTAAATAT AGAATGGCAT CGCTTCAGAT TTGGACAAGA 660

TCAGCTACTT CTTGCTACAG GGTTGAACAA TGGGCGTATC AAAATATGGG ATGTATATCA 720

GGAAACTCCT CCTTAACTTG GTAGATCATA CTGAAGTGGT CAGAGATTTA ACTTTTGCTC 780

CAG 783

(2)关于SEQ ID NO：16的信息

(i)序列特征

(A)长度：1122个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：16：

CTCTGTATGT CTGAATGAAG CTATAACATT TGCCTTTTTA TTGCAGGTTT TCCTTTGGAA 60

TATGGATAAA TACACCATGA TACGGAAACT AGAAGGACAT CACCATGATG TGGTAGCTTG 120

TGACTTTTCT CCTGATGGAG CATTACTGGC TACTGCATCT TATGATACTC GAGTATATAT 180

CTGGGATCCA CATAATGGAG ACATTCTGAT GGAATTTGGG CACCTGTTTC CCCCACCTAC 240

TCCAATATTT GCTGGAGGAG CAAATGACCG GTGGGTACGA TCTGTATCTT TTAGCCATGA 300

TGGACTGCAT GTTGCAAGCC TTGCTGATGA TAAAATGGTG AGGTTCTGGA GAATTGATGA 360

GGATTATCCA GTGCAAGTTG CACCTTTGAG CAATGGTCTT TGCTGTGCCT TCTCTACTGA 420

TGGCAGTGTT TTAGCTGCTG GGACACATGA CGGAAGTGTG TATTTTTGGG CCACTCCACG 480

GCAGGTCCCT AGCCTGCAAC ATTTATGTCG CATGTCAATC CGAAGAGTGA TGCCCACCCA 540

AGAAGTTCAG GAGCTGCCGA TTCCTTCCAA GCTTTTGGAG TTTCTCTCGT ATCGTATTTA 600

GAAGATTCTG CCTTCCCTAG TAGTAGGGAC TGACAGAATA CACTTAACAC AAACCTCAAG 660

CTTTACTGAC TTCAATTATC TGTTTTTAAA GACGTAGAAG ATTTATTTAA TTTGATATGT 720

TCTTGTACTG CATTTTGATC AGTTGAGCTT TTAAAATATT ATTTATAGAC AATAGAAGTA 780

TTTCTGAACA TATCAAATAT AAATTTTTTT AAAGATCTAA CTGTGAAAAC ATACATACCT 840

GTACATATTT AGATATAAGC TGCTATATGT TGAATGGACC CTTTTGCTTT TCTGATTTTT 900

AGTTCTGACA TGTATATATT GCTTCAGTAG AGCCACAATA TGTATCTTTG CTGTAAAGTG 960

CAAGGAAATT TTAAATTCTG GGACACTGAG TTAGATGGTA AATACTGACT TACGAAAGTT 1020

GAATTGGGTG AGGCGGGCAA ATCACCTGAG GTCAGCAGTT TGAGACTAGC CTGGCAAACA 1080

TGATGAAACC CTGTCTCTAC TAAAAATACA AAAAAAAAAA AA 1122

(2)关于SEQ ID NO：17的信息

(i)序列特征

(A)长度：2537个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(ix)特征：

(A)名称/关键：CDS

(B)位置：422..2029

(xi)序列描述：SEQ ID NO：17：

CGGCACGAGC CGGGCTCCGT CCGGAGGAAG CGAGGCTGCG CCGCCGGCCC GGCAGGAGCG 60

GAGGACGGGA GCGCGGGCGG TCGCGCTCGC CCTGTCGCTG ACTGCGCTGC CCCGGCCCAT 120

CCTTGCCTGG CCGCAGGTGC CCTGGATGAG GCCGCCGCGC GTGTCCCGGC CGCTGAGTGT 180

CCCCCGCGGT CGCCCGGCGC CTGCCCTCAA GCGGCCGCCT CTCCTTGCCC GGGTCCCCGT 240

TTTCCCCCGG CGCAGTCCTC CTCCGGTGGG CGCCTCCGCA CCTCGGCGCA GGCGGCACGG 300

CCCTCGGGCC GGGATGGATC CGCCGGGAAG AGGAAGACAA GCCGGGGCGT TGAGCCCCTG 360

CGCACGGTGC CGCCGCGCGT AGTGGGAGCT TACTCGCAGT AGGCTCTCGC TCTTCTAATC 420

A ATG GAT AAA GTG GGG AAA ATG TGG AAC AAC TTA AAA TAC AGA TGC 466

Met Asp Lys Val Gly Lys Met Trp Asn Asn Leu Lys Tyr Arg Cys

1 5 10 15

CAG AAT CTC TTC AGC CAC GAG GGA GGA AGC CGT AAT GAG AAC GTG GAG 514

Gln Asn Leu Phe Ser His Glu Gly Gly Ser Arg Asn Glu Asn Val Glu

20 25 30

ATG AAC CCC AAC AGA TGT CCG TCT GTC AAA GAG AAA AGC ATC AGT CTG 562

Met Asn Pro Asn Arg Cys Pro Ser Val Lys Glu Lys Ser Ile Ser Leu

35 40 45

GGA GAG GCA GCT CCC CAG CAA GAG AGC AGT CCC TTA AGA GAA AAT GTT 610

Gly Glu Ala Ala Pro Gln Gln Glu Ser Ser Pro Leu Arg Glu Asn Val

50 55 60

GCC TTA CAG CTG GGA CTG AGC CCT TCC AAG ACC TTT TCC AGG CGG AAC 658

Ala Leu Gln Leu Gly Leu Ser Pro Ser Lys Thr Phe Ser Arg Arg Asn

65 70 75

CAA AAC TGT GCC GCA GAG ATC CCT CAA GTG GTT GAA ATC AGC ATC GAG 706

Gln Asn Cys Ala Ala Glu Ile Pro Gln Val Val Glu Ile Ser Ile Glu

80 85 90 95

AAA GAC AGT GAC TCG GGT GCC ACC CCA GGA ACG AGG CTT GCA CGG AGA 754

Lys Asp Ser Asp Ser Gly Ala Thr Pro Gly Thr Arg Leu Ala Arg Arg

100 105 110

GAC TCC TAC TCG CGG CAC GCC CCG TGG GGA GGA AAG AAG AAA CAT TCC 802

Asp Ser Tyr Ser Arg His Ala Pro Trp Gly Gly LysLys Lys His Ser

115 120 125

TGT TCC ACA AAG ACC CAG AGT TCA TTG GAT ACC GAG AAA AAG TTT GGT 850

Cys Ser Thr Lys Thr Gln Ser Ser Leu Asp Thr Glu Lys Lys Phe Gly

130 135 140

AGA ACT CGA AGC GGC CTT CAG AGG CGA GAG CGG CGC TAT GGA GTC AGC 898

Arg Thr Arg Ser Gly Leu Gln Arg Arg Glu Arg Arg Tyr Gly Val Ser

145 150 155

TCC ATG CAG GAC ATG GAC AGC GTT TCT AGC CGC GCG GTC GGG AGC CGC 946

Ser Met Gln Asp Met Asp Ser Val Ser Ser Arg Ala Val Gly Ser Arg

160 165 170 175

TCC CTG AGG CAG AGG CTC CAG GAC ACG GTG GGT TTG TGT TTT CCC ATG 994

Ser Leu Arg Gln Arg Leu Gln Asp Thr Val Gly Leu Cys Phe Pro Met

180 185 190

AGA ACT TAC AGC AAG CAG TCA AAG CCA CTC TTT TCC AAT AAA AGA AAA 1042

Arg Thr Tyr Ser Lys Gln Ser Lys Pro Leu Phe Ser Asn Lys Arg Lys

195 200 205

ATA CAT CTT TCT GAA TTA ATG CTG GAG AAA TGC CCT TTT CCT GCT GGC 1090

Ile His Leu Ser Glu Leu Met Leu Glu Lys Cys Pro Phe Pro Ala Gly

210 215 220

TCG GAT TTA GCA CAA AAG TGG CAT TTG ATT AAA CAG CAT ACC GCC CCT 1138

Ser Asp Leu Ala Gln Lys Trp His Leu Ile Lys Gln His Thr Ala Pro

225 230 235

GTG AGC CCA CAC TCA ACA TTT TTT GAT ACA TTT GAT CCA TCA CTG GTG 1186

Val Ser Pro His Ser Thr Phe Phe Asp Thr Phe Asp Pro Ser Leu Val

240 245 250 255

TCT ACA GAA GAT GAA GAA GAT AGG CTT CGC GAG AGA AGA CGG CTT AGT 1234

Ser Thr Glu Asp Glu Glu Asp Arg Leu Arg Glu Arg Arg Arg Leu Ser

260 265 270

ATC GAA GAA GGG GTG GAT CCC CCT CCC AAC GCA CAA ATA CAC ACC TTT 1282

Ile Glu Glu Gly Val Asp Pro Pro Pro Asn Ala Gln Ile His Thr Phe

275 280 285

GAA GCT ACT GCA CAG GTC AAC CCA TTG TAT AAG CTG GGA CCA AAG TTA 1330

Glu Ala Thr Ala Gln Val Asn Pro Leu Tyr Lys Leu Gly Pro Lys Leu

290 295 300

GCT CCT GGG ATG ACA GAG ATA AGT GGA GAT GGT TCT GCA ATT CCA CAA 1378

Ala Pro Gly Met Thr Glu Ile Ser Gly Asp Gly Ser Ala Ile Pro Gln

305 310 315

GCA ATT GTG ACT CAG AAG AGG ATT CAA CCA CCC TAT GTC TGC AGT CAC 1426

Ala Ile Val Thr Gln Lys Arg Ile Gln Pro Pro Tyr Val Cys Ser His

320 325 330 335

GGA GGC AGA AGC AGC GCC AGG TGT CCG GGG ACA GCC ACG CGC ACG TTA 1474

Gly Gly Arg Ser Ser Ala Arg Cys Pro Gly Thr Ala Thr Arg Thr Leu

340 345 350

GCA GAC AGG GAG CTT GGA AAG TTC ATA CGC AGA TCG ATT ACA TAC ACT 1522

Ala Asp Arg Glu Leu Gly Lys Phe Ile Arg Arg Ser Ile Thr Tyr Thr

355 360 365

GCC TCG TGC CAG ATT TGC TTC AGA TCA CAG GGA ATC CCT GTT ACT GGG 1570

Ala Ser Cys Gln Ile Cys Phe Arg Ser Gln Gly Ile Pro Val Thr Gly

370 375 380

GCG TGA TGG ACC GAT ACG AGG CCG AAG CCC TTC TAG AAG GGA AAC CGG 1618

Ala ＊ Trp Thr Asp Thr Arg Pro Lys Pro Phe ＊ Lys Gly Asn Arg

385 390 395

AAG GCA CGT TCT TGC TCA GGG ACT CTG CAC AGG AGG ACT ACC TCT TCT 1666

Lys Ala Arg Ser Cys Ser Gly Thr Leu His Arg Arg Thr Thr Ser Ser

400 405 410 415

CTG TGA GCT TCC GCC GCT ACA ACA GGT CTC TGC ACG CCC GGA TCG AGC 1714

Leu ＊ Ala Ser Ala Ala Thr Thr Gly Leu Cys Thr Pro Gly Ser Ser

420 425 430

AGT GGA ACC ACA ACT TCA GCT TCG ATG CCC ATG ACC CCT GCG TGT TTC 1762

Ser Gly Thr Thr Thr Ser Ala Ser Met Pro Met Thr Pro Ala Cys Phe

435 440 445

ACT CCT CCA CGT CAC GGG GCT TCT CGA ACA CTA TAA AGA CCC CAG CTC 1810

Thr Pro Pro Arg His Gly Ala Ser Arg Thr Leu ＊ Arg Pro Gln Leu

450 455 460

TTG CAT GTT TTT TGA ACC GTT GCT AAC GAT ATC ACT GAA TAG AAC TTT 1858

Leu His Val Phe ＊ Thr Val Ala Asn Asp Ile Thr Glu ＊ Asn Phe

465 470 475

CCC TTT CAG CCT GCA GTA TAT CTG CCG CGC AGT GAT CTG CAG ATG CAC 1906

Pro Phe Gln Pro Ala Val Tyr Leu Pro Arg Ser Asp Leu Gln Met His

480 485 490 495

TAC GTA TGA TGG GAT TGA CGG GCT CCC GCT ACC GTC GAT GTT ACA GGA 1954

Tyr Val ＊ Trp Asp ＊ Arg Ala pro Ala Thr Val Asp Val Thr Gly

500 505 510

TTT TTT AAA AGA GTA TCA TTA TAA ACA AAA AGT TAG GGT TCG CTG GTT 2002

Phe Phe Lys Arg Val Ser Leu ＊ Thr Lys Ser ＊ Gly Ser Leu Val

515 520 525

AGA ACG AGA CCA GTC AAA GCA AAG TAACTCCTGT CCCCAAAGGG CACTAACTAA 2056

Arg Thr Arg Pro Val Lys Ala Lys

530 535

GTCTGCTCCT CCCGTGCATC GAACTGCACC CATAGGAGGC AGTCAGCTGC TAGGATTTCC 2116

CACCCAGAAT GGGAGCTTAG TCATTAGCCT CTGCCCTATG GGGTCCGCTG TTCCTCAGAC 2176

AAAGGTGCCT AGGGACAGCA AGATGGCTTG CAGGTGTTCG GTGGGCTGTG ACAACTGAGG 2236

GAGGCAACTC TGGGGCATTT GCTATGAAGA ATTCTATTTC TTACCGAAGA ACAAATTATT 2296

AATATTGGAT GGGTATTTCA ATAGTGTGAC TAATGTTTGA AATTATTTTT TCTAAGAATT 2356

TTTCTATAAC CTTCAGAAAA AGTAGTGATG TTTGTAGTTA CTATAAATCA AGCTTTGAAA 2416

GTTCAAAACA AACAAGTTAA ATAAAAGACT ACCTTCCTTT TAGAGAAAAC AAATGCAAGT 2476

TTTCCCAGCC ACAGGCATTG TGCACTGTTA ATGTTGCTTG TTATCAGCTC CTTTCTCCTC 2536

C 2537

(2)关于SEQ ID NO：18的信息：

(i)序列特征

(A)长度：535个碱基对

(B)类型：氨基酸

(D)拓扑结构：线型

(ii)分子类型：蛋白质

(xi)序列描述：SEQ ID NO：18：

Met Asp Lys Val Gly Lys Met Trp Asn Asn Leu Lys Tyr Arg Cys Gln

1 5 10 15

Asn Leu Phe Ser His Glu Gly Gly Ser Arg Asn Glu Asn Val Glu Met

20 25 30

Asn Pro Asn Arg Cys Pro Ser Val Lys Glu Lys Ser Ile Ser Leu Gly

35 40 45

Glu Ala Ala Pro Gln Gln Glu Ser Ser Pro Leu Arg Glu Asn Val Ala

50 55 60

Leu Gln Leu Gly Leu Ser Pro Ser Lys Thr Phe Ser Arg Arg Asn Gln

65 70 75 80

Asn Cys Ala Ala Glu Ile Pro Gln Val Val Glu Ile Ser Ile Glu Lys

85 90 95

Asp Ser Asp Ser Gly Ala Thr Pro Gly Thr Arg Leu Ala Arg Arg Asp

100 105 110

Ser Tyr Ser Arg His Ala Pro Trp Gly Gly Lys Lys Lys His Ser Cys

115 120 125

Ser Thr Lys Thr Gln Ser Ser Leu Asp Thr Glu Lys Lys Phe Gly Arg

130 135 140

Thr Arg Ser Gly Leu Gln Arg Arg Glu Arg Arg Tyr Gly Val Ser Ser

145 150 155 160

Met Gln Asp Met Asp Ser Val Ser Ser Arg Ala Val Gly Ser Arg Ser

165 170 175

Leu Arg Gln Arg Leu Gln Asp Thr Val Gly Leu Cys Phe Pro Met Arg

180 185 190

Thr Tyr Ser Lys Gln Ser Lys Pro Leu Phe Ser Asn Lys Arg Lys Ile

195 200 205

His Leu Ser Glu Leu Met Leu Glu Lys Cys Pro Phe Pro Ala Gly Ser

210 215 220

Asp Leu Ala Gln Lys Trp His Leu Ile Lys Gln His Thr Ala Pro Val

225 230 235 240

Ser Pro His Ser Thr Phe Phe Asp Thr Phe Asp Pro Ser Leu Val Ser

245 250 255

Thr Glu Asp Glu Glu Asp Arg Leu Arg Glu Arg Arg Arg Leu Ser Ile

260 265 270

Glu Glu Gly Val Asp Pro Pro Pro Asn Ala Gln Ile His Thr Phe Glu

275 280 285

Ala Thr Ala Gln Val Asn Pro Leu Tyr Lys Leu Gly Pro Lys Leu Ala

290 295 300

Pro Gly Met Thr Glu Ile Ser Gly Asp Gly Ser Ala Ile Pro Gln Ala

305 310 315 320

Ile Val Thr Gln Lys Arg Ile Gln Pro Pro Tyr Val Cys Ser His Gly

325 330 335

Gly Arg Ser Ser Ala Arg Cys Pro Gly Thr Ala Thr Arg Thr Leu Ala

340 345 350

Asp Arg Glu Leu Gly Lys Phe Ile Arg Arg Ser Ile Thr Tyr Thr Ala

355 360 365

Ser Cys Gln Ile Cys Phe Arg Ser Gln Gly Ile Pro Val Thr Gly Ala

370 375 380

＊ Trp Thr Asp Thr Arg Pro Lys Pro Phe ＊ Lys Gly Asn Arg Lys

385 390 395 400

Ala Arg Ser Cys Ser Gly Thr Leu His Arg Arg Thr Thr Ser Ser Leu

405 410 415

＊ Ala Ser Ala Ala Thr Thr Gly Leu Cys Thr Pro Gly Ser Ser Ser

420 425 430

Gly Thr Thr Thr Ser Ala Ser Met Pro Met Thr Pro Ala Cys Phe Thr

435 440 445

Pro Pro Arg His Gly Ala Ser Arg Thr Leu ＊ Arg Pro Gln Leu Leu

450 455 460

His Val Phe ＊ Thr Val Ala Asn Asp Ile Thr Glu ＊ Asn Phe Pro

465 470 475 480

Phe Gln Pro Ala Val Tyr Leu Pro Arg Ser Asp Leu Gln Met His Tyr

485 490 495

Val ＊ Trp Asp ＊ Arg Ala Pro Ala Thr Val Asp Val Thr Gly Phe

500 505 510

Phe Lys Arg Val Ser Leu ＊ Thr Lys Ser ＊ Gly Ser Leu Val Arg

515 520 525

Thr Arg Pro Val Lys Ala Lys

530 535

(2)关于SEQ ID NO：19的信息：

(i)序列特征

(A)长度：1221个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQID NO：19：

GATTAAACAG CATACAGCTC CTGTGAGCCC ACATTCAACA TTTTTTGATA CTTTGATCCA 60

TCTTTGGTTT CTACAGAAGA TGAAGAAGAT AGGCTTAGAG AGAGAAGGCG GCTTAGTATT 120

GAAGAAGGGG TTGATCCCCC TCCCAATGCA CAAATACATA CATTTGAAGC TACTGCACAG 180

GTTAATCCAT TATTAAACTG GGACCAAAAT TAGCTCCTGG AATGACTGAA ATAAGTGGGG 240

ACAGTTCTGC AATTCCACAA GCTAATTGTG ACTCGGAAGA GGATACAACC ACCCTGTGTT 300

GCAGTCACGG AGGCAGAAGC AGCGTCAGAT ATCTGGAGAC AGCCATACCC ATGTTAGCAG 360

ACAGGGAGCT TGGAAAGTCC ACACACAGAT TGATTACATA CACTGCTTCG TGCCTGATTT 420

GCTTCAAATT ACAGGGAATC CCTGTTACTG GGGAGTGATG GACCGTTATG AAGCAGAAGC 480

CCTTCTCGAA GGGAAACCTG AAGGCACGTT TTTGCTCAGG GACTCTGCGC AAGAGGACTA 540

CTTCTTCTCT GTGAGCTTCC GCCGATACAA CAGATCCCTG CATGCCCGAA TTGAGCAGTG 600

GAATCACAAC TTTAGTTTCG ACGCCCATGA CCCGTGTGTA TTTCACTCCT CCACTGTAAC 660

GGGACTTTTA GAACATTATA AAGATCCCAG TTCGTGCATG TTTTTTGAAC CATTGCTTAC 720

TATATCACTA AATAGGACTT TCCCTTTTAG CCTGCAGTAT ATCTGTCGCG CGGTAATCTG 780

CAGGTGCACT ACGTATGATG GAATTGATGG GCTCCCTCTA CCCTCAATGT TACAGGATTT 840

TTTAAAAGAG TATCATTATA AACAAAAAGT TAGAGTTCGC TGGTTGGAAC GAGAACCAGT 900

CAAGGCAAAG TAAACTCTCC GGTCCCCAAA GGGTGTTAAC TAGGTCCGCT TTCATGTGCA 960

TCAGACAGTA CACCTATAGC AAGCACACGT AGCAGTGTTA GGCTTTTTCA TACAGTATGT 1020

AAGCTTAGTG TTAGTATCTG TCAGATGCTA CCTGCTGTTA CTTATTCAGA TAAACATGGT 1080

GCCTATTGGA ACAATAGCGG ATAGAGCTAC AGGTGTTCAG TAAGACTACA AAAACATTTT 1140

GCCTATTTCG CTAACAGTTT GGTTTTTAAT GGCTGTGGTA TTTGAGTGAG GCAACTCTGG 1200

GGCATTTGTT ATGAAGAAAT G 1221

(2)关于SEQ ID NO：20的信息

(i)序列特征

(A)长度：2369个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(ix)特征：

(A)名称/关键：CDS

(B)位置：116..1330

(xi)序列描述：SEQ ID NO：20：

GGCACGAGGC GGTGGTGGCG GCGGCGGGCG CGGCCGCGGC GGGGCGGGCG CGGAATGAAG 60

GCCCACGGCC CTGGGGGCTG AGGCGCCCGC CGCCTGGGGC GGGCCGCGCG TCCTC ATG 118

Met

1

GAG GCC GGA GAG GAG CCG CTG CTG CTG GCT GAA CTC AAG CCT GGG CGC 166

Glu Ala Gly Glu Glu Pro Leu Leu Leu Ala Glu Leu Lys Pro Gly Arg

5 10 15

CCC CAC CAG TTC GAC TGG AAG TCA AGC TGC GAG ACC TGG AGC GTG GCC 214

Pro His Gln Phe Asp Trp Lys Ser Ser Cys Glu Thr Trp Ser Val Ala

20 25 30

TTC TCG CCA GAC GGT TCC TGG TTC GCC TGG TCT CAA GGA CAC TGC GTG 262

Phe Ser Pro Asp Gly Ser Trp Phe Ala Trp Ser Gln Gly His Cys Val

35 40 45

GTC AAG CTG GTC CCC TGG CCC TTA GAG GAA CAG TTC ATC CCT AAA GGA 310

Val Lys Leu Val Pro Trp Pro Leu Glu Glu Gln Phe Ile Pro Lys Gly

50 55 60 65

TTC GAA GCC AAG AGC CGA AGC AGC AAG AAT GAC CCA AAA GGA CGG GGC 358

Phe Glu Ala Lys Ser Arg Ser Ser Lys Asn Asp Pro Lys Gly Arg Gly

70 75 80

AGT CTG AAG GAG AAG ACG CTG GAC TGT GGC CAG ATT GTG TGG GGG CTG 406

Ser Leu Lys Glu Lys Thr Leu Asp Cys Gly Gln Ile Val Trp Gly Leu

85 90 95

GCC TTC AGC CCG TGG CCC TCT CCA CCC AGC AGG AAA CTC TGG GCA CGT 454

Ala Phe Ser Pro Trp Pro Ser Pro Pro Ser Arg Lys Leu Trp Ala Arg

100 105 110

CAC CAT CCC CAG GCG CCT GAT GTT TCT TGC CTG ATC CTG GCC ACA GGT 502

His His Pro Gln Ala Pro Asp Val Ser Cys Leu Ile Leu Ala Thr Gly

115 120 125

CTC AAC GAT GGG CAG ATC AAG ATT TGG GAG GTA CAG ACA GGC CTC CTG 550

Leu Asn Asp Gly Gln Ile Lys Ile Trp Glu Val Gln Thr Gly Leu Leu

130 135 140 145

CTT CTG AAT CTT TCT GGC CAC CAA GAC GTC GTG AGA GAT CTG AGC TTC 598

Leu Leu Asn Leu Ser Gly His Gln Asp Val Val Arg Asp Leu Ser Phe

150 155 160

ACG CCC AGC GGC AGT TTG ATT TTG GTC TCT GCA TCC CGG GAT AAG ACA 646

Thr Pro Ser Gly Ser Leu Ile Leu Val Ser Ala Ser Arg Asp Lys Thr

165 170 175

CTT CGA ATT TGG GAC CTG AAT AAA CAC GGT AAG CAG ATC CAG GTG TTA 694

Leu Arg Ile Trp Asp Leu Asn Lys His Gly Lys Gln Ile Gln Val Leu

180 185 190

TCC GGC CAT CTG CAG TGG GTT TAC TGC TGC TCC ATC TCC CCT GAC TGT 742

Ser Gly His Leu Gln Trp Val Tyr Cys Cys Ser Ile Ser Pro Asp Cys

195 200 205

AGC ATG CTG TGC TCT GCA GCT GGG GAG AAG TCG GTC TTT CTG TGG AGC 790

Ser Met Leu Cys Ser Ala Ala Gly Glu Lys Ser Val Phe Leu Trp Ser

210 215 220 225

ATG CGG TCC TAC ACA CTA ATC CGG AAA CTA GAA GGC CAC CAA AGC AGT 838

Met Arg Ser Tyr Thr Leu Ile Arg Lys Leu Glu Gly His Gln Ser Ser

230 235 240

GTT GTC TCC TGT GAT TTC TCT CCT GAT TCA GCC TTG CTT GTC ACA GCT 886

Val Val Ser Cys Asp Phe Ser Pro Asp Ser Ala Leu Leu Val Thr Ala

245 250 255

TCG TAT GAC ACC AGT GTG ATT ATG TGG GAC CCC TAC ACC GGC GCG AGG 934

Ser Tyr Asp Thr Ser Val Ile Met Trp Asp Pro Tyr Thr Gly Ala Arg

260 265 270

CTG AGG TCA CTT CAT CAC ACA CAA CTT GAA CCC ACC ATG GAT GAC AGT 982

Leu Arg Ser Leu His His Thr Gln Leu Glu Pro Thr Met Asp Asp Ser

275 280 285

GAC GTC CAC ATG AGC TCC CTG AGG TCC GTG TGC TTC TCA CCT GAA GGC 1030

Asp Val His Met Ser Ser Leu Arg Ser Val Cys Phe Ser Pro Glu Gly

290 295 300 305

TTG TAT CTC GCT ACG GTG GCA GAT GAC AGG CTG CTC AGG ATC TGG GCT 1078

Leu Tyr Leu Ala Thr Val Ala Asp Asp Arg Leu Leu Arg Ile Trp Ala

310 315 320

CTG GAA CTG AAG GCT CCG GTT GCC TTT GCT CCG ATG ACC AAT GGT CTT 1126

Leu Glu Leu Lys Ala Pro Val Ala Phe Ala Pro Met Thr Asn Gly Leu

325 330 335

TGC TGC ACG TTC TTC CCA CAC GGT GGA ATT ATT GCC ACA GGG ACG AGA 1174

Cys Cys Thr Phe Phe Pro His Gly Gly Ile Ile Ala Thr Gly Thr Arg

340 345 350

GAT GGC CAT GTC CAG TTC TGG ACA GCT CCC CGG GTC CTG TCC TCA CTG 1222

Asp Gly His Val Gln Phe Trp Thr Ala Pro Arg Val Leu Ser Ser Leu

355 360 365

AAG CAC TTA TGC AGG AAA GCC CTC CGA AGT TTC CTG ACA ACG TAT CAA 1270

Lys His Leu Cys Arg Lys Ala Leu Arg Ser Phe Leu Thr Thr Tyr Gln

370 375 380 385

GTC CTA GCA CTG CCA ATC CCC AAG AAG ATG AAA GAG TTC CTC ACA TAC 1318

Val Leu Ala Leu Pro Ile Pro Lys Lys Met Lys Glu Phe Leu Thr Tyr

390 395 400

AGG ACT TTC TAGCAGTGCC GGCTCCCCCA CCTCCTGCAG CAGCAGCAGT 1367

Arg Thr Phe

405

ACAAGGGACT GGCTAGGATG GAGTCAGGCA GCTCACACTG GACCAGTGTG GACCTTCCTT 1427

CCTCCCATGG CATGTGCAAG TAGGTCTGCG TGACCCCACT TCTGTGGTGC CGGCCTTACC 1487

TCGTCTTCAT CCGTGGTGAG CAGCCTTCGT CAGTCTAGTT GTGTTGAAGC CAAGTGCAGT 1547

TGTGGATGTT GCTGGGGTAA TAAAGGCAAG CGGGCTCCAG AGCCTCTCTG GTGGCGGCCA 1607

AGCCACACTC CCTTAACTGG GAAGTACCTG CCACGTAGGG CATTTCTGCT GCCTATTTCC 1667

AGCCAGCGGC TGCATGGTTT GAAGTTCCTC CGTTGTGGTC AGAAGAACTC TGGTGTTTGG 1727

TTCCCTGCTC AGCTGCGCGT GGACTGGGCT GAGCTCCTCA CCATACACTA GTGCCGGCTT 1787

TTGTTTCCTG TAAACAGTGG TTGCATGTGT AGAGAAGTAA CAAGCGAGTA TTCAGATCAT 1847

ACGAGGAGGC GTTCCTCGGT GCATGACGGT CAGATGGCCA TTTATCAGCA TATTTATTTG 1907

TATTTTCTCA GCACATAGTA AGGTACAACT GTGTTTTCTC AATTGTCTCG AAAAAACAGA 1967

GTTCTTAAGT GGCCCAGTTG TGGAGCCAAG TCTAAGTCGT GTGGAGTCAG TGCTGACATC 2027

ACTGGCTTGT GCTGTCTGTC ACATGTGTTT GTCTCTGCTG CTTGACCTCA TGGGATGTAC 2087

CCTCCAGTTC AACTGCCCAA AACAGACAGC CCCTTCCAAG CACCGTTCTT TGACAGCGGT 2147

AGCAGCTACC TATTCAAGAC GCCTCACACA AAATCTGCCT TAGAAAGTTA ATATATTTTA 2207

AATTATTTTA AAAGAAACTC AACATCTTAT TCTTTGGCCT TTCTTAATTG ATGCTTTATG 2267

GAGGCAGTGT TAACATTGTA CAGTGTATGC ATAGAGGAGT CTCCTCTATT TGAAGAACAA 2327

TGCAAAATGA GGCTTTCATT GAAGGGAAAA AAAAAAAAAA AA 2369

(2)关于SEQ ID NO：21的信息

(i)序列特征

(A)长度：404个碱基对

(B)类型：氨基酸

(D)拓扑结构：线型

(ii)分子类型：蛋白质

(xi)序列描述：SEQ ID NO：21：

Met Glu Ala Gly Glu Glu Pro Leu Leu Leu Ala Glu Leu Lys Pro Gly

1 5 10 15

Arg Pro His Gln Phe Asp Trp Lys Ser Ser Cys Glu Thr Trp Ser Val

20 25 30

Ala Phe Ser Pro Asp Gly Ser Trp Phe Ala Trp Ser Gln Gly His Cys

35 40 45

Val Val Lys Leu Val Pro Trp Pro Leu Glu Glu Gln Phe Ile Pro Lys

50 55 60

Gly Phe Glu Ala Lys Ser Arg Ser Ser Lys Asn Asp Pro Lys Gly Arg

65 70 75 80

Gly Ser Leu Lys Glu Lys Thr Leu Asp Cys Gly Gln Ile Val Trp Gly

85 90 95

Leu Ala Phe Ser Pro Trp Pro Ser Pro Pro Ser Arg Lys Leu Trp Ala

100 105 110

Arg His His Pro Gln Ala Pro Asp Val Ser Cys Leu Ile Leu Ala Thr

115 120 125

Gly Leu Asn Asp Gly Gln Ile Lys Ile Trp Glu Val Gln Thr Gly Leu

130 135 140

Leu Leu Leu Ash Leu Ser Gly His Gln Asp Val Val Arg Asp Leu Ser

145 150 155 160

Phe Thr Pro Ser Gly Ser Leu Ile Leu Val Ser Ala Ser Arg Asp Lys

165 170 175

Thr Leu Arg Ile Trp Asp Leu Asn Lys His Gly Lys Gln Ile Gln Val

180 185 190

Leu Ser Gly His Leu Gln Trp Val Tyr Cys Cys Ser Ile Ser Pro Asp

195 200 205

Cys Ser Met Leu Cys Ser Ala Ala Gly Glu Lys Ser Val Phe Leu Trp

210 215 220

Ser Met Arg Ser Tyr Thr Leu Ile Arg Lys Leu Glu Gly His Gln Ser

225 230 235 240

Ser Val Val Ser Cys Asp Phe Ser Pro Asp Ser Ala Leu Leu Val Thr

245 250 255

Ala Ser Tyr Asp Thr Ser Val Ile Met Trp Asp Pro Tyr Thr Gly Ala

260 265 270

Arg Leu Arg Ser Leu His His Thr Gln Leu Glu Pro Thr Met Asp Asp

275 280 285

Ser Asp Val His Met Ser Ser Leu Arg Ser Val Cys Phe Ser Pro Glu

290 295 300

Gly Leu Tyr Leu Ala Thr Val Ala Asp Asp Arg Leu Leu Arg Ile Trp

305 310 315 320

Ala Leu Glu Leu Lys Ala Pro Val Ala Phe Ala Pro Met Thr Asn Gly

325 330 335

Leu Cys Cys Thr Phe Phe Pro His Gly Gly Ile Ile Ala Thr Gly Thr

340 345 350

Arg Asp Gly His Val Gln Phe Trp Thr Ala Pro Arg Val Leu Ser Ser

355 360 365

Leu Lys His Leu Cys Arg Lys Ala Leu Arg Ser Phe Leu Thr Thr Tyr

370 375 380

Gln Val Leu Ala Leu Pro Ile Pro Lys Lys Met Lys Glu Phe Leu Thr

385 390 395 400

Tyr Arg Thr Phe

(2)关于SEQ ID NO：22的信息

(i)序列特征

(A)长度：1246个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：22：

GACACTGCAT CGTCAAACTG ATCCCCTGGC CGTTGGAGGA GCAGTTCATC CCTAAAGGGT 60

TTGAAGCCAA AAGCCGAAGT AGCAAAAATG AGACGAAAGG GCGGGGCAGC CCAAAAGAGA 120

AGACGCTGGA CTGTGGTCAG ATTGTCTGGG GGCTGGCCTT CAGCCTGTGC TTTCCCCACC 180

CAGCAGGAAG CTCTGGGCAC GCCACCACCC CCAAGTGCCC GATGTCTCTT GCCTGGTTCT 240

TGCTACGGGA CTCAACGATG GGCAGATCAA GATCTGGGAG GTGCAGACAG GGCTCCTGCT 300

TTTGAATCTT TCCGGCCACC AAGATGTCGT GAGAGATCTG AGCTTCACAC CCAGTGGCAG 360

TTTGATTTTG GTCTCCGCGT CACGGGATAA GACTCTTCGC ATCTGGGACC TGAATAAACA 420

CGGTAAACAG ATTCAAGTGT TATCGGGCCA CCTGCAGTGG GTTTACTGCT GTTCCATCTC 480

CCCAGACTGC AGCATGCTGT GCTCTGCAGC TGGAGAGAAG TCGGTCTTTC TATGGAGCAT 540

GAGGTCCTAC ACGTTAATTC GGAAGCTAGA GGGCCATCAA AGCAGTGTTG TCTCTTGTGA 600

CTTCTCCCCC GACTCTGCCC TGCTTGTCAC GGCTTCTTAC GATACCAATG TGATTATGTG 660

GGACCCCTAC ACCGGCGAAA GGCTGAGGTC ACTCCACCAC ACCCAGGTTG ACCCCGCCAT 720

GGATGACAGT GACGTCCACA TTAGCTCACT GAGATCTGTG TGCTTCTCTC CAGAAGGCTT 780

GTACCTTGCC ACGGTGGCAG ATGACAGACT CCTCAGGATC TGGGCCCTGG AACTGAAAAC 840

TCCCATTGCA TTTGCTCCTA TGACCAATGG GCTTTGCTGG CACATTTTTT CCACATGGTG 900

GAGTCATTGC CACAGGGACA AGAGATGGCC ACGTCCAGTT CTGGACAGCT CCTAGGGTCC 960

TGTCCTCACT GAAGCACTTA TGCCGGAAAG CCCTTCGAAG TTTCCTAACA ACTTACCAAG 1020

TCCTAGCACT GCCAATCCCC AAGAAAATGA AAGAGTTCCT CACATACAGG ACTTTTTAAG 1080

CAACACCACA TCTTGTGCTT CTTTGTAGCA GGGTAAATCG TCCTGTCAAA GGGAGTTGCT 1140

GGAATAATGG GCCAAACATC TGGTCTTGCA TTGAAATAGC ATTTCTTTGG GATTGTGAAT 1200

AGAATGTAGC AAAACCAGAT TCCAGTGTAC TAGTCATGGA TTTTTC 1246

(2)关于SEQ ID NO：23的信息

(i)序列特征

(A)长度：422个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：23：

ACCATGGTTC CAAGTCCTCT CCCCTGTGGT CAAGTTGCCC GAATGTTGGG CCCAAGTGCC 60

TTTTCCTCCT TGGGCCTCCC CTTCTGACCT GCAGGACAGT TTTCCGGAGC CCATTTGGTA 120

TGAGGTATTA ATTAGCCTTA ACTAAATTAC AGGGGACTCA GAGGCCGTGC TCCTGACCGA 180

TCCAGACACT ATTTTTTTTT TTTTTTTTTA ACAATGGTGT GCATGTGCAG GAAATGACAA 240

ATTTGTATGT CAGATTATAC AAGGATGTAT TCTTAAACCG CATGACTATT CAGATGGCTA 300

CTGAGTTATC AGTGGCCATT TATTAGCATC ATATTTATTT GTATTTTCTC AACAGATGTT 360

AAGGTACAAC TGTGTTTTTC TCGATTATCT AAAAACCATA GTACTTAAAT TGAAAAAAAA 420

AA 422

(2)关于SEQ ID NO：24的信息

(i)序列特征

(A)长度：2019个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：24

GGCACGAGGC GGGGTCAGGG CGGAGGCTGA GGACCAAGTA GGCATGGCGG AGGGCGGGAC 60

CGGCCCCGAT GGACGGGCCG GCCCGGGACC CGCAGGTCCT AATCTGAAGG AGTGGCTGAG 120

GGAGCAGTTC TGTGACCATC CACTGGAGCA CTGTGACGAT ACAAGACTCC ATGATGCAGC 180

CTATGTAGGG GACCTCCAGA CCCTCAGGAA CCTACTGCAA GAGGAGAGCT ACCGGAGCCG 240

CATCAATGAG AAGTCTGTCT GGTGCTGCGG CTGGCTTCCC TGCACACCAC TGAGGATCGC 300

AGCCACTGCA GGCCATGGGA ACTGTGTGGA CTTCCTCATA CGCAAAGGGG CCGAGGTGGA 360

CCTGGTGGAT GTCAAGGGGC AGACTGCCCT GTATGTGGCT GTAGTGAACG GGCACTTGGA 420

GAGCACTGAG ATCCTTTTGG AAGCTGGTGC TGATCCCAAC GGCAGCCGGC ACCACCGCAG 480

CACTCCTGTG TACCATGCCT YTCGTGTGGG TAGGGACGAC ATCCTGAAGG CTCTTATCAG 540

GTATGGGGCA GATGTTGATG TCAACCATCA TCTGAATTCT GACACCCGGC CCCCTTTTTC 600

ACGGCGGCTA ACCTCCTTGG TGGTCTGTCC TCTATACATC AGTGCTGCCT ACCATAACCT 660

TCAGTGCTTC AGGCTGCTCT TGCAGGCTGG GGCAAATCCT GACTTCAATT GCAATGGCCC 720

TGTCAACACC CAGGAGTTCT ACAGGGGATC CCCTGGGTGT GTCATGGATG CTGTCCTGCG 780

CCATGGCTGT GAAGCAGCCT TCGTGAGTCT GTTGGTAGAG TTTGGAGCCA ACCTGAACCT 840

GGTGAAGTGG GAATCCCTGG GCCCAGAGGC AAGAGGCAGA AGAAAGATGG ATCCTGAGGC 900

CTTGCAGGTC TTTAAAGAGG CCAGAAGTAT TCCCAGGACC TTGCTGAGTT TGTGCCGGGT 960

GGCTGTGAGA AGAGCTCTTG GCAAATACCG ACTGCATCTG GTTCCCTCGC TGCCGCTGCC 1020

AGACCCCATA AAGAAGTTTT TGCTTTATGA GTAGCATTCA CATGCAGTGC TGACTGCAAT 1080

GTGGAAGCCG ATCACCTGCA GTGAAAACTG ACACAGACTC TGGCATCCTG GGAACCATGG 1140

CCTGTGCTGC CAGCTTGATC CTTGGCTGTC AGTGAAGAAA AAACGGCTGT GTTCTCTTGG 1200

ACTGTGATTC TATCTCAGGT GCTTGGGCCA TCGAACGCTC CTTGAGTCAT TGTCAACTGA 1260

GAGGCACATA CAAACTTAAT TTTGTTCCTC TTCAGTCTCT CTGTTTTGGA TTCTTCCTGG 1320

CAATGTGTGC AGCATGGGCT GAGCCTGGTG ATTGCCCTAG TGGGGAAGGC TTTTTTCTCC 1380

AGGCTATGCA TCTATTTATG TTCCTACTTT GCAATTTATT GTTCTTTTAA GGCTTGATAT 1440

CAAAACAGAA AGAGGTTTGT TAAGAAAAGA TATAGGGAGA AAGGAATTCC GGTTCCGTGC 1500

ACTTGCTAGC CTGCTTTCCT TGCCTGGGTT TGTCTGTCTA TGCTGCCTGG TGCACATCCC 1560

TTCTCTTTGC TGCCACTGTT CTATTTTGGG AGTTGTCTTC CGTCTAAGAT GGCTTCTGGG 1620

GTTCTATCTT ATTGCACAGA GGTCCCAGAA CAGTGTTCAT AGGGCACCAT CTGCTCTGCC 1680

AAGGGTTTTC TGATGTCTTA CCCTGGGGAT CTTCAGACAG TGGTTACCTT TAGGAGACCC 1740

ACCTGGAACT AACCATTAAG TGACTGCCCA CATTCAGATC AGGGACCATC TTAATAGTAC 1800

TCACTGCCAG TCCTCACAAG AGAAGATGAC ACGGGTGCTC TCTTCAGACA CTCCCATACA 1860

GGAAGTTGGA AAATGTCTTG GTCACCTGGG TTGTTCCCAG GCTACAACTT CTTGGTGTTC 1920

CACTAARACC AGRATATCCT AGTTTTTTGG GTTGACTGTT CCCTCCCCAC TTTCCTTGAA 1980

NCCCAATGCC CNTTTGTKTN GGTTGCTTCC CTAAAAKTT 2019

(2)关于SEQ ID NO：25的信息：

(i)序列特征

(A)长度：350个氨基酸

(B)类型：氨基酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：蛋白质

(xi)序列描述：SEQ ID NO：25：

Ala Arg Gly Gly Val Arg Ala Glu Ala Glu Asp Gln Val Gly Met Ala

1 5 10 15

Glu Gly Gly Thr Gly Pro Asp Gly Arg Ala Gly Pro Gly Pro Ala Gly

20 25 30

Pro Asn Leu Lys Glu Trp Leu Arg Glu Gln Phe Cys Asp His Pro Leu

35 40 45

Glu His Cys Asp Asp Thr Arg Leu His Asp Ala Ala Tyr Val Gly Asp

50 55 60

Leu Gln Thr Leu Arg Asn Leu Leu Gln Glu Glu Ser Tyr Arg Ser Arg

65 70 75 80

Ile Asn Glu Lys Ser Val Trp Cys Cys Gly Trp Leu Pro Cys Thr Pro

85 90 95

Leu Arg Ile Ala Ala Thr Ala Gly His Gly Asn Cys Val Asp Phe Leu

100 105 110

Ile Arg Lys Gly Ala Glu Val Asp Leu Val Asp Val Lys Gly Gln Thr

115 120 125

Ala Leu Tyr Val Ala Val Val Asn Gly His Leu Glu Ser Thr Glu Ile

130 135 140

Leu Leu Glu Ala Gly Ala Asp Pro Asn Gly Ser Arg His His Arg Ser

145 150 155 160

Thr Pro Val Tyr His Ala Xaa Arg Val Gly Arg Asp Asp Ile Leu Lys

165 170 175

Ala Leu Ile Arg Tyr Gly Ala Asp Val Asp Val Asn His His Leu Asn

180 185 190

Ser Asp Thr Arg Pro Pro Phe Ser Arg Arg Leu Thr Ser Leu Val Val

195 200 205

Cys Pro Leu Tyr Ile Ser Ala Ala Tyr His Asn Leu Gln Cys Phe Arg

210 215 220

Leu Leu Leu Gln Ala Gly Ala Asn Pro Asp Phe Asn Cys Asn Gly Pro

225 230 235 240

Val Asn Thr Gln Glu Phe Tyr Arg Gly Ser Pro Gly Cys Val Met Asp

245 250 255

Ala Val Leu Arg His Gly Cys Glu Ala Ala Pne Val Ser Leu Leu Val

260 265 270

Glu Phe Gly Ala Asn Leu Asn Leu Val Lys Trp Glu Ser Leu Gly Pro

275 280 285

Glu Ala Arg Gly Arg Arg Lys Met Asp Pro Glu Ala Leu Gln Val Phe

290 295 300

Lys Glu Ala Arg Ser Ile Pro Arg Thr Leu Leu Ser Leu Cys Arg Val

305 310 315 320

Ala Val Arg Arg Ala Leu Gly Lys Tyr Arg Leu His Leu Val Pro Ser

325 330 335

Leu Pro Leu Pro Asp Pro Ile Lys Lys Phe Leu Leu Tyr Glu

340 345 350

(2)关于SEQ ID NO：26的信息：

(i)序列特征

(A)长度：419个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：26：

GCATCCATGG CGGAGGGCGG CAGCACGACG GGCGGGCAGG GCCGGGCTCC GCAGGTCGTA 60

ATCTGAAGGA GTGGCTGAGG GAGCAATTTT GTGATCATCC GCTGGAGCAC TGTGAGGACA 120

CGAGGCTCCA TGATGCAGCT TACGTCGGGG ACCTCCAGAC CCTCAGGAGC CTATTGCAAG 180

AGGAGAGCTA CCGGAGCCGC ATCAACGAGA AGTCTGTCTG GTGCTGTGGC TGGCTCCCCT 240

GCACACCGTT GCGAATCGCG GCCACTGCAG GCCATGGGAG CTGTGTGGAC TTCCTCATCC 300

GGAAGGGGGC CGAGGTGGAT CTGGTGGACG TAAAAGGACA GACGGCCCTG TATGTGGCTG 360

TGGTGAACGG GCACCTAGAG AGTACCCAGA TCCTTCTCGA AGCTGGCGCG GACCCCAAC 419

(2)关于SEQ ID NO：27的信息：

(i)序列特征

(A)长度：595个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：27：

GAGGAAGAAG AAAAGTGGAC CCTGAGGCCT TGCAGGTCTT TAAAGAGGCC AGAAGTGTTC 60

CCAGAACCTT GCTGTGTCTG TGCCGTGTGG CTGTGAGAAG AGCTCTTGGC AAAACCGGCT 120

TCATCTGATT CCTTCGCTGC CTCTGCCAGA CCCCATAAAG AAGTTTCTAC TCCATGAGTA 180

GACTCCAAGT GCTGCGGTTG ATTCCAGTGA GGGAGAAAGT GATCTGCAGG GAGGTGGACA 240

CCGAGCCCTG AGTGCTGTGC TGCTGCTGGT CTCCTGATGG CTGTTGCTGC AGAAGATGTC 300

CTCGTAGACT GTCATTGCTC CTCAGGTGCC TGGGCCGCTG AACAGTCCTT GGGTCATTGT 360

CAGCTGAGAG GCTTATACTA AAGTTATTAT TGTTTTTCCC AAGTTCTCTG TTCTGGATTT 420

TCAGTTGCAT ATTAATGTAA CGGGCCATGG GGTATGTACA TGTAGGGGCT GAGGTTGGAG 480

GCCTACTAAT TTCCTGTAGG GAAGACTCCC AGCACTTCTG GAACTGTGCT TCTCTTTATT 540

TTTCTACTTC TCAATTTGAT GGTTCGATTA AAGCCTTCTA GTATCTCAAT GAAAA 595

(2)关于SEQ ID NO：28的信息：

(i)序列特征

(A)长度：896个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(ix)特征：

(A)名称/关键：CDS

(B)位置：4..396

(xi)序列描述：SEQ ID NO：28：

CTG ATG TCC GCA ATT CTG AAG GTT GGA CAC CAC TGC TGG CTG CCT GTG 48

Met Ser Ala Ile Leu Lys Val Gly His His Cys Trp Leu Pro Val

1 5 10 15

ACA TCC GCT GTC AAT CCC CAA AGG ATG CTG AGG CCA CCA CCA ACC GCT 96

Thr Ser Ala Val Asn Pro Gln Arg Met Leu Arg Pro Pro Pro Thr Ala

20 25 30

GTT TTC AAC TGT GCC GCT TGC TGC TGT CTG TGG GGG CAG ATG CTG ATG 144

Val Phe Asn Cys Ala Ala Cys Cys Cys Leu Trp Gly Gln Met Leu Met

35 40 45

AAT ACA TAC CGT GTA GTT CAG CTT CCT GAG GAG GCC AAG GGC TTG GTG 192

Asn Thr Tyr Arg Val Val Gln Leu Pro Glu Glu Ala Lys Gly Leu Val

50 55 60

CCA CCA GAG ATT CTA CAG AAG TAC CAT GGA TTC TAC TCT TCC CTC TTT 240

Pro Pro Glu Ile Leu Gln Lys Tyr His Gly Phe Tyr Ser Ser Leu Phe

65 70 75

GCC TTG GTG AGG CAG CCC AGG TCG CTG CAG CAT CTC TGC CGT TGT GCG 288

Ala Leu Val Arg Gln Pro Arg Ser Leu Gln His Leu Cys Arg Cys Ala

80 85 90 95

CTC CGC AGT CAC CTG GAG GGC TGT CTG CCC CAT GCA CTA CCG CGC CTT 336

Leu Arg Ser His Leu Glu Gly Cys Leu Pro His Ala Leu Pro Arg Leu

100 105 110

CCC CTG CCA CCG CGC ATG CTC CGC TTT CTG CAG CTG GAC TTT GAG GAT 384

Pro Leu Pro Pro Arg Met Leu Arg Phe Leu Gln Leu Asp Phe Glu Asp

115 120 125

CTG CTC TAC TAGGCTTGCT GCCCTGTGAA CAAAGCAGAC CCCACCCCCA 433

Leu Leu Tyr

130

CCCCAAGGGC ATCTCTCAGC AATGAATGAT GCAAGGCGGT CTGTCTTCAA GTCAGGAGTG 493

GACGCCTTGA TCCACACTTG AGAGAAGAGG CCAGATCAGC ACCYGGCTGG TAGTGATNGC 553

AGAGGGCACC TGTGCAGATC TGTGTGCGCA CTGGAAATCT CTAGGCTGAA GGCYAGAGCA 613

AATGGTGCAR GTGTTAGTCC TTGGGANGAG AGACAGANGG TGAGAAAGCA AGACAGAGGT 673

GAGAGTGCAC ATGTCAAGTG GTAGATTGCC TTAAAAGAAA GCTAAAAAAA GAAAAAGATT 733

CGGGCGAACT TCTTTAGGGG TAATGCTGCA GCGTGTTAAA CTGACTGACC AGCGTCCATA 793

TCTTTGGACC CTTCCCGGGT GAAAAAGCCC CTTCATCCTC CAGCGCTCCC CAAGGGTGCT 853

TAGCAATACC GGGTGCTTTT CTGCCGCAAA GTGAGTTACC AAA 896

(2)关于SEQ ID NO：29的信息

(i)序列特征

(A)长度：130个氨基酸

(B)类型：氨基酸

(D)拓扑结构：线型

(ii)分子类型：蛋白质

(xi)序列描述：SE ID NO：29：

Met Ser Ala Ile Leu Lys Val Gly His His Cys Trp Leu Pro Val Thr

1 5 10 15

Ser Ala Val Asn Pro Gln Arg Met Leu Arg Pro Pro Pro Thr Ala Val

20 25 30

Phe Asn Cys Ala Ala Cys Cys Cys Leu Trp Gly Gln Met Leu Met Asn

35 40 45

Thr Tyr Arg Val Val Gln Leu Pro Glu Glu Ala Lys Gly Leu Val Pro

50 55 60

Pro Glu Ile Leu Gln Lys Tyr His Gly Phe Tyr Ser Ser Leu Phe Ala

65 70 75 80

Leu Val Arg Gln Pro Arg Ser Leu Gln His Leu Cys Arg Cys Ala Leu

85 90 95

Arg Ser His Leu Glu Gly Cys Leu Pro His Ala Leu Pro Arg Leu Pro

100 105 110

Leu Pro Pro Arg Met Leu Arg Phe Leu Gln Leu Asp Phe Glu Asp Leu

115 120 125

Leu Tyr

130

(2)关于SEQ ID NO：30的信息

(i)序列特征

(A)长度：436个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：30：

GTGGGGGCGT CATCATGACC TCCTCTAGGG CTCTGCAACA TGACTCCTGT GGTGCAAATC 60

AACAAATTGT TCACTGATGA ATCCACAAGG ATCTCTGGGC CTACAACCAG GTCCTGGTCC 120

ACATGACTGT CGTCTTCGGA GAAGGCACCA CTCGCCCCCG GCAGGTACGG CTGACACCTC 180

CATGGGAGAA GACGTATCCA GGCAGCAGCT GCGCGGCCCT TCAAGAGGGC ACATCCCGTC 240

ATCTAAAGGC ACGGTGTACT GAAGGTAGTC CTGAGACATG AGTCCGATTA CTACAGGCAC 300

GTGTTCCTCC AGGTGGAGGC TCAGGTCCCC GGGTGAGCTG GGGCTGCAGC GGGACTCAGG 360

GCGCGGCTCT GGCTGCAGGT CTCGCAGCTC CCTGGGCTGT AGCTCCCGCA GATCCTTGCG 420

CACACCGTTG ACTGGT 436

(2)关于SEQ ID NO：31的信息

(i)序列特征

(A)长度：2180个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：31：

TTAATAGTAC CTACATAGTA GAAAATTATA ACTCCACTTT AAAACAATGT TTTCTTTCTA 60

TTCAAATCAA TTTAAAACTT TTTATAAACA TTAATGTTGC AAGAGAATCC AGTCCATTTA 120

TGAAAATTAG TTGACAATCA AGTTCACCCA AGAAAATGTT GACTAAGCTA AAGAAATCAC 180

AGATAAAACA TTTTACCAAA AGGATAGGTA ACACACAAAA AAATGCTATC ACAGGAAGCT 240

ATGATCATCT AATATTTCTT TAATAATAAT TCTAGTTCCA TAGGTTTTCA TGTTATGCCA 300

ATTTGTACCC GAGTTTAATT ACAGAAAAGG CAACAATTTC TAAATTGGTG GTATACATTT 360

CTTTACAATT TTTTAATGTA AGGCCATTTA TTAAAATAGA CAAACTAGAA GATGAAAACG 420

AAGGCAACAG AAAAATTCAA CTTTTCACAA CCAAAAGAAT TAGCACAACC TTAGAAATAA 480

TTTAGAAAAA AGTGTTGTTA AAAGATATGT TGCAGATCTC CGTTCCATTA CCCAAGATTA 540

TGTCAATTCA CGATTCTAAA TAAATCTTTT TAAAGTAAGA GATTAAAAAC TCATCTTCAG 600

TGTATATGTA AATTCCGTGG TTTTATCACA CAGGTATGTT TATTCAACAC TGCTTTGGAA 660

ATGGACCATT TAAAAGGACA TGGCAATTTC CATTCTGTTA AGTTTCATTC AACCTTTACT 720

TAGGGGTTGA TTACCACATG AAATGTGCTT TTAATGCATA AAAATCACAG TGGATTAGCC 780

AGCAAAAGGG ACTGGGCGGG GGGGGCATTG AGGAGAATTT GATAATTCAC ATTGTGATTA 840

TTCTGCACAT TGATGAAACA TAATTCACAC CTCTAAAACC TCAAGACTTC CCTTTTTTAA 900

AGAACCAAAA TAAACCCAAG ACACCTTGCT GACACTTCCC CACCCCTAAA CAAACTGATG 960

ACTCTTTTAC ACATAAAACT GAAATAGTTA TGGCAGCAAA AGATTTTGAT GGCAATGAAA 1020

GTTTGTAAAC TGTATTTCAA TCTCTTGTTC TTATTCCCAA AGTGCAAGAT GCAGGGTTCT 1080

CAATCTTTCA GTAGTGCTTC TCCTGTAAAT AATCCTTCAT TTTGTTTGGC AAAGGCAGTT 1140

TCTGAATTAA GTCTATTCTG GTATACTGAC GTATAACAAA ACGACACAGG TACTGCAACG 1200

AGCGCACCTA TGAACCCCGG AACACTGGTT GGCAAGTTCT GACGGAAGTG CAGATTCCAG 1260

GCAGCGAGAC CTTGAATAAC AAAAAGCTCC CATTTTCAGA GTCCCTGATT GAATGCTCCA 1320

ATTAGATCAA CTATGGACGT ATGTCCTTCC ACATCGGCTG TTCATAAAAG CTAAACCTAC 1380

CATTTGAGTG CTCAATTCTA GTGTGAAGTG TTTTACCATG GGAGCGAAAG TCACAGCTTA 1440

AAAGGTAACG GTCGTCAGAA CTGTCCCGAA CAAGAAAAGA ACCATCTGGC ACGTTTGCTA 1500

GCTTCCCTTC TGCCTCCCAA CGTGTGATTG GTCCCCAGTA CCATCCTTGC TTTGCAAGTT 1560

TTTTCAGCTC CTCTGTAAGG CTTGTCACAA CCATGGGACC ACTACTTTGC ACTGAGTCAT 1620

AAACTCTTGC AACCCCAGGA GCAGAGTTCG GATCAAAATT CAAATGACAG CGCATAACTT 1680

TCAGCCACGT GGGGCTTTCT GTCCAGTGAG TCCACTGAAA GTTCCCCTTT GGGATTTGGA 1740

TTATTCCTGC ATTGGAGTAA CCAATGGTGA AGATTGGAGG GACATCCATC GTGAACCCGC 1800

TCTCCGGGGT TCTGCAACAT GACTCCCGTG GTGCCAATCA ACAAGCCATT CACCGGACTG 1860

ATCCACGAAG ATCTCTGGGG CGACAACTAG GTCCTGGTCT ACCTGACTCT CATCCTCGGG 1920

GAAAGCGCGC CCTCCCACTT GAGGAGGAAC CGCAGAGACT TCCATGGGAG AAGAGCTGTC 1980

CAGACAATAG CTCCGTGATC CTTCCAAAGG ATACATCCCC TCATCTAAAG GCACAGTATA 2040

CTGAATGTAG TCCTGAGGCA TAAGTCCAAT AACGACAGGC ACATGTTCAT CCAGGTGAAG 2100

ATGCAGGTCT CCATTATGAG AAGCCGAGCT CTTCAGTGAA TTGGCTTGCT CCTGGCACGT 2160

GGTCTCAGAC TGGAGGTCGT 2180

(2)关于SEQ ID NO：32的信息

(i)序列特征

(A)长度：2649个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：32：

GGCACGAGGC TGTGTCCAGC ACACAGAGAG GGCCCGGCCA TCTGCTTTGG TTCAGAGCCC 60

TGTGTCTGTC TGTCACTTAG ACTCTTCCTC CCGGCTCGCA GCTCACCCTC CATCCTCCTT 120

ACTGGCTCCA GCATGACTCG CTTCTCTTAT GCAGAGTACT TTGCTCTGTT TCACTCTGGC 180

TCTGCACCTT CCAGGTCCCC TTCGTCTCCC GAGAACCCAC CGGCCCGCGC ACCCCTGGGT 240

CTGTTCCAAG GGGTCATGCA GAAGTATAGC AGCAACCTGT TCAAGACCTC CCAGATGGCG 300

GCTATGGACC CCGTGCTGAA GGCCATCAAG GAAGGGGATG AAGAGGCCTT GAAGATCATG 360

ATCCAGGATG GGAAGAATCT TGCAGAGCCC AACAAGGAGG GCTGGCTGCC GCTCCACGAG 420

GCTGCCTACT ATGGCCAGCT GGGCTGCCTG AAAGTCCTGC AGCAAGCCTA CCCAGGGACC 480

ATTGACCAAC GCACACTGCA GGAAGAGACA GCATTATACC TGGCCACATG CAGAGAACAC 540

CTGGATTGCC TCCTGTCGCT GCTCCAGGCG GGGGCAGAGC CTGACATCTC TAACAAATCC 600

AGGGAGACTC CACTTTACAA AGCCTGTGAG CGCAAGAACG CGGAGGCGGT GAGGATATTG 660

GTGCGATACA ACGCAGACGC CAACCACCGC TGTAACAGGG GCTGGACCGC ACTGCACGAG 720

TCTGTCTCCC GCAATGACCT GGAGGTCATG GAGATCCTAG TGAGTGGCGG GGCCAAGGTG 780

GAGGCCAAGA ATGTCTACAG CATCACCCCT TTGTTTGTGG CTGCCCAGAG TGGGCAGCTG 840

GAGGCCCTGA GGTTCCTGGC CAAGCATGGT GCAGACATCA ACACGCAGGC CAGTGACAGT 900

GCATCAGCCC TCTACGAGGC CAGCAAGAAT GAGCATGAAG ACGTGGTAGA GTTTCTTCTC 960

TCTCAGGGCG CCGATGCTAA CAAAGCCAAC AAGGACGGCC TGCTCCCCCT GCATGTTGCC 1020

TCCAAGAAGG GCAACTATAG AATAGTGCAG ATGCTGCTGC CTGTGACCAG CCGCACGCGC 1080

GTGCGCCGTA GCGGCATCAG CCCGCTGCAC CTAGCGGCCG AGCGCAACCA CGACGCGGTG 1140

CTGGAGGCGC TGCTGGCCGC GCGCTTCGAC GTGAACGCAC CTCTGGCTCC CGAGCGCGCC 1200

CGCCTCTACG AGGACCGCCG CAGTTCTGCG CTCTACTTCG CTGTGGTCAA CAACAATGTG 1260

TACGCCACCG AGCTGTTGCT GCTGGCGGGC GCGGACCCCA ACCGCGATGT CATCAGCCCT 1320

CTGCTCGTGG CCATCCGCCA CGGCTGCCTG CGCACCATGC AGCTGCTGTT GGACCATGGC 1380

GCCAACATCG ACGCCTACAT CGCCACTCAC CCCACCGCCT TTCCAGCCAC CATCATGTTT 1440

GCCATGAAGT GCCTGTCGTT ACTCAAGTTC CTTATGGACC TCGGCTGCGA TGGCGAGCCC 1500

TGCTTCTCCT GCCTGTACGG CAACGGGCCG CACCACCCGC CCCGCGACCT GGCCGCTTCC 1560

ACGACGCACC CGTGGACGAC AAGGCACCTA GCGTGGTGCA GTTCTGTGAG TTCCTGTCGG 1620

CCCCGGAAGT GAGCCGCTGG GCGGGACCCA TCATCGATGT CCTCCTGGAC TATGTGGGCA 1680

ACGTGCAGCT GTGCTCCCGG CTGAAGGAGC ACATCGACAG CTTTGAGGAC TGGGCTGTCA 1740

TCAAGGAGAA GGCAGAACCT CCGAGACCTC TGGCTCACCT CTGCCGGCTG CGGGTTCGGA 1800

AGGCCATAGG AAAATACCGG ATAAAACTCC TGGACACACT GCCGCTTCCC GGCAGGCTAA 1860

TCAGATACTT GAAATATGAG AATACACAGT AACCAGCCTG GAGAGGAGAT GTGGCCTTCA 1920

GACTGTTTCC GGGACGCCCC AGGTGGCCTG CATCCAGGAC CCCCTGGGGT CAGAACAGGT 1980

GTGACCTTGC TGGTTCTTTG CTGGAGCTTC ACCCAAAGTG AGAACCTGAT GTGGGGAGTG 2040

GACGTGGAAC CTCTGCTTTC ACACTGTCAG CGGATCGCAG ACCCGCTCTG CTTCTGGCCA 2100

TAGCCAGAGA CCTTCAACCT GGGGCCAGGG GAGAGCTGGT CTGGGCAAGG TGGCCCAGGC 2160

AGGAATCCTG GCCTTAAGCT GGAGAACTTG TAGGAATCCC TCACTGGACC CTCAGCTTTC 2220

AGGCTGCGAG GGAGACGCCC AGCCCAAGTA TTTTATTTCC GTGACACAAT AACGTTGTAT 2280

CAGAAAAAAA AAAAAACATG GGCGCAGCTT ATTCCTTAGT AGGGTATTTA CTTGCATGCG 2340

CGCTTAAAGC TACTGGAAAC ATGCGTTCCA CTATGCTTGA GAATCCCCTT GCACTGGTAA 2400

ACGAGAGCCG ACGTGCTTCA AGGTTGGATT TTTGGTTGCC CCTTTGGCGT TCCGCGGGTT 2460

TGTCCGACGT AATTGACCCC GTGTTTTGTC ACTTTCGAGT GTTCCGACTA TTGGGGGGCT 2520

TTTGGTTGTC CCCAAAATTG TGGGTGGTGT GCGGACGCCA CGAGAAGTGG TTCATGGGCG 2580

ATAATCATTA CTGGAGAATG TAGAGCGGCG GTTTTACGAA TAAATATTTT TTAAGCCGCC 2640

TTCCCAAAA 2649

(2)关于SEQ ID NO：33的信息

(i)序列特征

(A)长度：495个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：33：

CCTCCTGAGA GTTCGCCGGC CCGGGCCCAA TGGGTTGTTC CAAGGGGTCA TGCAGAAATA 60

CAGCAGCAGC TTGTTCAAGA CCTCCCAGCT GGCGCCTGCG GACCCCTTGA TAAAGGCCAT 120

CAAGGATGCG ATGAAGAGGC CTTGAAGACC ATGATCAAGG AAGGGAAGAA TCTCGCAGAG 180

CCCAACAAGG AGGGCTGGCT GCCGCTGCAC GAGGCCGCAT ACTATGGCCA GGTGGGCTGC 240

CTGAAAGTCC TGCAGCGAGC GTACCCAGGG ACCATCGACC AGCGCACCCT GCAGGAGGAA 300

ACAGCCGTTT ACTTGGCAAC GTGCAGGGGC CACCTGGACT GTCTCCTGTC ACTGCTCCAA 360

GCAGGGGCAG AGCGGGACAT CTCCAACAAA TCCCGAGAGA ACCGCTCTAC AAAGCCTGTG 420

AGCGCAAGAA CGCGGAAGCC GTGAAGATTC TTGGTGCAGC ACAACGCAGA CACCAACAAC 480

GCTGCAACCG GGCTG 495

(2)关于SEQ ID NO：34的信息

(i)序列特征

(A)长度：709个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：34：

GTGCAGCTCT GCTCGCGGCT GAAGGAACAC ATCGACAGCT TTGAGGACTG GGCCGTCATC 60

AAGGAGAAGG CAGAACCTCC AAGACCTCTG GCTCACCTTT GCCGACTGCG GGTTCGAAAG 120

GCCATTGGGA AATACCGTAT AAAACTCCTA GACACCTTGC CGCTCCCAGG CAGGCTGATT 180

AGATACCTGA AATACGAGAA CACCCAGTAA CTGGGGCCAC GGGGAGAGAG GAGTAGCCCC 240

TCAGACTCTT CTTACTAAGT CTCAGGACGT CGGTGTTCCC AACTCCAAGG GGACCTGGTG 300

ACAGACGAGG CTGCAGGCTG CCTCCCTCTC AGCCTGGACA GCTACCAGGA TCTCACTGGG 360

TCTCAGGGCC CAGAGCTTTG GCCAGAGCAG AGAACAGAAT GTGTCAAGGA GAAGAATCAT 420

TTGTTTACAA ACTGATGAGC AGATCCCAGA CCTTCTCTAC CTTCAGGAAT GGCAGAAACC 480

TCTATTCCTG GGGCCAGGGC AGAGCTTGAG GTGTTCTGGG GAAGGTGGTG CTCAGAGCCT 540

TCCCTGTGCC CCTCCACTTG TTCTGGAAAA CTCACCACTT GACTTCAGAG CTTTCTCTCC 600

AAAGACTAAG ATGAAGACGT GGCCCAAGGT AGGGGGTAGG GGGAGCCTGG GTCTTGGAGG 660

GCTTTGTTAA GTATTAATAT AATAAATGTT ACACATGTGA AAAAAAAAA 709

(2)关于SEQ ID N0：35的信息

(i)序列特征

(A)长度：848个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(ix)特征：

(A)名称/关键：CDS

(B)位置：1..624

(xi)序列描述：SEQ ID NO：35：

TTG GAG AAG TGT GGT TGG TAT TGG GGG CCA ATG AAT TGG GAA GAT GCA 48

Leu Glu Lys Cys Gly Trp Tyr Trp Gly Pro Met Asn Trp Glu Asp Ala

1 5 10 15

GAG ATG AAG CTG AAA GGG AAA CCA GAT GGT TCT TTC CTG GTA CGA GAC 96

Glu Met Lys Leu Lys Gly Lys Pro Asp Gly Ser Phe Leu Val Arg Asp

20 25 30

AGT TCT GAT CCT CGT TAC ATC CTG AGC CTC AGT TTC CGA TCA CAG GGT 144

Ser Ser Asp Pro Arg Tyr Ile Leu Ser Leu Ser Phe Arg Ser Gln Gly

35 40 45

ATC ACC CAC CAC ACT AGA ATG GAG CAC TAC AGA GGA ACC TTC AGC CTG 192

Ile Thr His His Thr Arg Met Glu His Tyr Arg Gly Thr Phe Ser Leu

50 55 60

TGG TGT CAT CCC AAG TTT GAG GAC CGC TGT CAA TCT GTT GTA GAG TTT 240

Trp Cys His Pro Lys Phe Glu Asp Arg Cys Gln Ser Val Val Glu Phe

65 70 75 80

ATT AAG AGA GCC ATT ATG CAC TCC AAG AAT GGA AAG TTT CTC TAT TTC 288

Ile Lys Arg Ala Ile Met His Ser Lys Asn Gly Lys Phe Leu Tyr Phe

85 90 95

TTA AGA TCC AGG GTT CCA GGA CTG CCA CCA ACT CCT GTC CAG CTG CTC 336

Leu Arg Ser Arg Val Pro Gly Leu Pro Pro Thr Pro Val Gln Leu Leu

100 105 110

TAT CCA GTG TCC CGA TTC AGC AAT GTC AAA TCC CTC CAG CAC CTT TGC 384

Tyr Pro Val Ser Arg Phe Ser Asn Val Lys Ser Leu Gln His Leu Cys

115 120 125

AGA TTC CGG ATA CGA CAG CTC GTC AGG ATA GAT CAC ATC CCA GAT CTC 432

Arg Phe Arg Ile Arg Gln Leu Val Arg Ile Asp His Ile Pro Asp Leu

130 135 140

CCA CTG CCT AAA CCT CTG ATC TCT TAT ATC CGA AAG TTC TAC TAC TAT 480

Pro Leu Pro Lys Pro Leu Ile Ser Tyr Ile Arg Lys Phe Tyr Tyr Tyr

145 150 155 160

GAT CCT CAG GAA GAG GTA TAC CTG TCT CTA AAG GAA GCG CAG CGT CAG 528

Asp Pro Gln Glu Glu Val Tyr Leu Ser Leu Lys Glu Ala Gln Arg Gln

165 170 175

TTT CCA AAC AGA AGC AAG AGG TGG AAC CCT CCA CGT AGC GAG GGG CTC 576

Phe Pro Asn Arg Ser Lys Arg Trp Asn Pro Pro Arg Ser Glu Gly Leu

180 185 190

CCT GCT GGT CAC CAC CAA GGG CAT TTG GTT GCC AAG CTC CAG CTT TGAAGAACCA

631

Pro Ala Gly His His Gln Gly His Leu Val Ala Lys Leu Gln Leu

195 200 205

AATTAAGCTA CCATGAAAAG AAGAGGAAAA GTGAGGGAAC AGGAAGGTTG GGATTCTCTG 691

TGCAGAGACT TTGGTTCCCC ACGCAAGCCC TGGGGCTTGG AAGAAGCACA TGACCGTACT 751

CTGCGTGGGG CTCCACCTCA CACCCACCCC TGGGCATCTT AGGACTGGAG GGGCTCCTTG 811

GAAAACTGGA AGAAGTCTCA ACACTGTTTC TTTTTCA 848

(2)关于SEQ ID NO：36的信息

(i)序列特征

(A)长度：207个氨基酸

(B)类型：氨基酸

(D)拓扑结构：线型

(ii)分子类型：蛋白质

(xi)序列描述：SEQ ID NO：36：

Leu Glu Lys Cys Gly Trp Tyr Trp Gly Pro Met Asn Trp Glu Asp Ala

1 5 10 15

Glu Met Lys Leu Lys Gly Lys Pro Asp Gly Ser Phe Leu Val Arg Asp

20 25 30

Ser Ser Asp Pro Arg Tyr Ile Leu Ser Leu Ser Phe Arg Ser Gln Gly

35 40 45

Ile Thr His His Thr Arg Met Glu His Tyr Arg Gly Thr Phe Ser Leu

50 55 60

Trp Cys His Pro Lys Phe Glu Asp Arg Cys Gln Ser Val Val Glu Phe

65 70 75 80

Ile Lys Arg Ala Ile Met His Ser Lys Asn Gly Lys Phe Leu Tyr Phe

85 90 95

Leu Arg Ser Arg Val Pro Gly Leu Pro Pro Thr Pro Val Gln Leu Leu

100 105 110

Tyr Pro Val Ser Arg Phe Ser Asn Val Lys Ser Leu Gln His Leu Cys

115 120 125

Arg Phe Arg Ile Arg Gln Leu Val Arg Ile Asp His Ile Pro Asp Leu

130 135 140

Pro Leu Pro Lys Pro Leu Ile Ser Tyr Ile Arg Lys Phe Tyr Tyr Tyr

145 150 155 160

Asp Pro Gln Glu Glu Val Tyr Leu Ser Leu Lys Glu Ala Gln Arg Gln

165 170 175

Phe Pro Asn Arg Ser Lys Arg Trp Asn Pro Pro Arg Ser Glu Gly Leu

180 185 190

Pro Ala Gly His His Gln Gly His Leu Val Ala Lys Leu Gln Leu

195 200 205

(2)关于SEQ ID NO：37的信息

(i)序列特征

(A)长度：464个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：37：

GTTCCAAGCC TAACCCATCT TTGTCGTTTG GAAATTCGGG CCAGTCTAAA AGCAGAGCAC 60

CTTCACTCTG ACATTTTCAT CCATCAGTTG CCACTTCCCA GAAGTCTGCA GAACTATTTG 120

CTCTATGAAG AGGTTTTAAG AATGAATGAG ATTCTAGAAC CAGCAGCTAA TCAGGATGGA 180

GAAACCAGCA AGGCCACCTG ACACAGGTCC TTTAATTCTG TTTAGTCACA AAAGACGGCT 240

TGTGTGACTG TTTGGATTTG GTGATCAAAT GTCCATGTTT ACAGTTGCTT TTCCCAGTTT 300

GTGTCTTTCC CAATATTGTG AACCTTATCC ATCTTGCCTT ACTCAGTTTT ATTTCTAGTG 360

CACTTTGTTG TGTATTATTT GTTTACCTGA CCATTTTCTA CTTTATTCTG CTAATAAACT 420

GTAATTCTGA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAA 464

(2)关于SEQ ID NO：38的信息

(i)序列特征

(A)长度：747个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：38：

GGGGATCGAA AGCGGGGGCT TCTGGGACGC AGCTCTGGAG ACGCGGCCTC GGACCAGCCA 60

TTTCGGTGTA GAAGTGGCAG CACGGCAGAC TGGTCAAACA AATGGATTTT ACAGAGGCTT 120

ACGCGGACAC GTGCTCTACA GTTGGACTTG CTGCCAGGGA AGGCAATGTT AAAGTCTTAA 180

GGAAACTGCT CAAAAAGGGC CGAAGTGTCG ATGTTGCTGA TAACAGGGGA TGGATGCCAA 240

TTCATGAAGC AGCTTATCAC AACTCTGTAG AATGTTTGCA AATGTTAATT AATGCAGATT 300

CATCTGAAAA CTACATTAAG ATGAAGACCT TTGAAGGTTT CTGTGCTTTG CATCTCGCTG 360

CAAGTCAAGG ACATTGGAAA ATCGTACAGA TTCTTTTAGA AGCTGGGGCA GATCCTAATG 420

CAACTACTTT AGAAGAAACG ACACCATTGT TTTTAGCTGT TGAAAATGGA CAGATAGATG 480

TGTTAAGGCT GTTGCTTCAA CACGGAGCAA ATGTTAATGG ATCCCATTCT ATGTGTGGAT 540

GGAACTCCTT GCACCAGGCT TCTTTTCAGG AAAATGCTGA GATCATAAAA TTGCTTCTTA 600

GAAAAGGAGC AAACAAGGAA TGCCAGGATG ACTTTGGAAT CACACCTTTA TTTGTGGCTG 660

CTCAGTATGG CCAAGCTAGA AAGCTTTGAA GCATACTTAT TTCATCCGGG TGCAAATGTC 720

AATTGTCAAG CCTTGGACAA AGCTACC 747

(2)关于SEQ ID NO：39的信息

(i)序列特征

(A)长度：1018个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：39：

CACAAATGGG ACCATACAAA AATCTTGGAC TTGTTAATAA CCACTTACTA ACCGGGACCT 60

GTGACACTGG GCTAAACAAA GTAAGTCCCT GTTTACTCAG CAGTGTTTGG GGGACATGAA 120

GGATTGCCTA GAAATATTAC TCCGGAATGG TCTACAGCCC AGACGCCCAG GCGTGCCTTG 180

TTTTTGGATT CAGTTCTCCT GTGTGCATGG CTTTCCAAAA GGAGGTGGAG CTGTAGTTCT 240

TTGGAATTGT GAACATTCTT TTGAAATATG GAGCCCAGAT AAATGAACTT CATTTGGCAT 300

ACTGCCTGAA GTACGAGAAG TTTTCGATAT TTCGCTACTT TTTGAGGAAA GGTTGCTCAT 360

TGGGACCATG GAACCATATA TATGAATTTG TAAATCATGC AATTAAAGCA CAAGCAAAAT 420

ATAAGGAGTG GTTGCCACAT CTTCTGGTTG CTGGATTTGA CCCACTGATT CTACTGTGCA 480

ATTCTTGGAT TGACTCAGTC AGCATTGACA CCCTTATCTT CACTTTGGAG TTTACTAATT 540

GGAAGACACT TGCACCAGCT GTTGAAAGGA TGCTCTCTGC TCGTGCCTCA AACGCTTGGA 600

TTCTACAGCA ACATATTGCC CACTGTTCCA TCCCTGACCC ATCTTTGTCG TTTGGAAATT 660

CGGTCCAGTC TAAAATCAGA ACGTCTACGG TCTGACAGTT ATATTAGTCA GCTGCCACTT 720

CCCAGAAGCC TACATAATTA TTTGCTCTAT GAAGACGTTC TGAGGATGTA TGAAGTTCCA 780

GAACTGGCAG CTATTCAAGA TGGATAAATC AGTGAAACTA CTTAACACAG CTAATTTTTT 840

TCTCTGAAAA ATCATCGAGA CAAAAGAGCC ACAGAGTACA AGTTTTTATG ATTTTATAGT 900

CAAAAGATGA TTATTGATTG TCAGATAGGT TAGGTTTTGG GGGGCCAGTA GTTCAGTGAG 960

AATGTTTATG TTTACAACTA GCCTTCCCAG TAAAAAAAAA AAAAAAAAAA AAAAAAAA 1018

(2)关于SEQ ID NO：40的信息

(i)序列特征

(A)长度：1897个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：40：

CGGGGGGCTG GGACCTGGGG CGTAACCGTC TCTACCACGA CGGCAAGAAC CAGCCAAGTA 60

AAACATACCC AGCCTTTCTG GAGCCGGACG AGACATTCAT TGTCCCTGAC TCCTTTTTCG 120

TGGCCCTGGA CATGRATGAT GGGACCTTAA GTTTCATCGT GGATGGACAG TACATGGGAG 180

TGGCTTTCCG GGGACTCAAG GGTAAAAAGC TGTATCCTGT AGTGAGTGCC GTCTGGGGCC 240

ACTGTGAGAT CCGCATGCGC TACTTGAACG GACTTGATCC TGAGCCCCTG CCACTCATGG 300

ACCTGTGCCG GCGTTCGGTG CGCCTAGCGC TGGGAAAAGA GCGCCTGGGT GCCATCCCCG 360

CTCTGCCGCT ACCTGCCTCC CTCAAAGCCT ACCTCCTCTA CCAGTGATCC ACATCCCAGG 420

ACCGCCATAC GACAGCCATC TGGTGCCAAR TCACTGAGCC CGTTGGGGTC CGCCGACCCC 480

TGCGCCTGGG ATGGAAGCCC ACCTCAGCCA TGGGCAGACG TGCCCCCTCA TCCTACCGGC 540

TGCCTCTGCT GGGGGAACCT ATGCCAACGG ACTTCTCCCT TCCCAACACT GGCTGAAGCA 600

GCAGCACCCA GGCCCTTCCC TGAACCAGAT GCAGAGAATA AACTATGAAA ACCTCTCTCA 660

GGCGCCTTCT GCTCTCAGGT GGAGTGGGCT GCCCCCCACT CTCTGCAGAG AGAGGCTACA 720

CCCACCTGGG GGGTCCTGGG AGGTAAGACT AGTAGGAGGT GCCAGGGCTG ARTCCAAAAG 780

CAGGAATGGC CAGGAMCAGG CCATACAGAT GAAGCTCAGG ATGTCACATA CCATGGACAM 840

TGAGACAGAA CCCCAGGTTG GAMTTCCCTT GGGCCAACGA GTGCCAGCTT TAATGTCAGC 900

TGCMGGTGCT CTGTGGCCTG TATTTATTCT TTAAACAGTA GCAAAGGCCA TTTATTTATT 960

CCACTTAGAA AGGAAACCTT GGTGGGTGGY TTCCCTCGAT GTGCTTTCCC CCACCTCCCT 1020

GGAATGTGTG TGCCACACCT GTCCTTGTCC CAGGCCAGGA CTGTGGCACA TGAGCTGGTG 1080

TGCACAGATA CACGTATGTC GTCGTGCATG ACCCCTGACT AGTTCCTAAG TAGCCCTGCA 1140

CCAAGCACCA GAGCAGACCC CAAGAGAGGC CCGTGCAAGT CCCCATGTCC CCAGGTCCCT 1200

GCTTCTGTTG CCTTGGGACT CATACACCGG CACACGTGTT TCAGCCTCTT GACTTCCATG 1260

AGCTTCGAAT TTTGCCCCCG ATTCTTCTGA TATTTCCCAT TGGCATCCTC CAAAGCTCTG 1320

GGCCTGGAGG GCATTAGGAC ACATGGAATG AGTGGGGTCT CCAGCCCCTG GGAAAGCCAC 1380

TGGCAAGGCA GGATTAGAAA GACCAAGAGC AGGGTGGGGC GCCATGAAGC CTGTATGCCT 1440

CTCAGGCTCA AGACCCCGCC ACACACCCAC TCAAGCCTCA GAAGTGGTGT GTAGGGCAGC 1500

CCCAGGAGAG GAATGCCTGT CCTAGCAGCA CGTACATGGA GCACCCCACA TGTGCTCCAG 1560

CCCTCTGGCT GTTTCTCTTG CTCTAGAATC AACTCCCTAC ATTGGGAATG TAGCCATTTG 1620

GTAGAGGACT TGCCTAGCCT GCAGGAAGCT CACGTTCCAT CCCCTGCACC AAGGAGAATC 1680

AAAGCTCAGG AGGCTGAGGC AGGAGGATTG CTGTCAGTGG TGTACAGAGG TCATGGCCAT 1740

CCTGGGCTAT ATTAAACCTT GTCCTTTAAG AAAAAGAAAA GAAATCAACT TCCATTGAAT 1800

CTGAGTTCTG CTCATTTCTG CACAGGTACA ATAGATGACT TKATTTGTTG AAAAATGKTT 1860

AATATATTTA CMTATATATA TATTTGTAAG AAGCATT 1897

(2)关于SEQ ID NO：41的信息：

(i)序列特征

(A)长度：134个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：41：

Gly Gly Trp Asp Leu Gly Arg Asn Arg Leu Tyr His Asp Gly Lys Asn

1 5 10 15

Gln Pro Ser Lys Thr Tyr Pro Ala Phe Leu Glu Pro Asp Glu Thr Phe

20 25 30

Ile Val Pro Asp Ser Phe Phe Val Ala Leu Asp Met Xaa Asp Gly Thr

35 40 45

Leu Ser Phe Ile Val Asp Gly Gln Tyr Met Gly Val Ala Phe Arg Gly

50 55 60

Leu Lys Gly Lys Lys Leu Tyr Pro Val Val Ser Ala Val Trp Gly His

65 70 75 80

Cys Glu Ile Arg Met Arg Tyr Leu Asn Gly Leu Asp Pro Glu Pro Leu

85 90 95

Pro Leu Met Asp Leu Cys Arg Arg Ser Val Arg Leu Ala Leu Gly Lys

100 105 110

Glu Arg Leu Gly Ala Ile Pro Ala Leu Pro Leu Pro Ala Ser Leu Lys

115 120 125

Ala Tyr Leu Leu Tyr Gln

130

(2)关于SEQ ID NO：42的信息

(i)序列特征

(A)长度：265个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：42：

AAGGGTAAAA AACTGTATCC TGTAGTGAGT GCCGTCTGGG GCCACTGTAG ATCCGAATGC 60

GCTACTTGAA CGGACTCGAT CCCGAGACTG CCGCTCATGG ATTTGTGCCG TCGCTCGGTG 120

CGCCTGGCCC TGGGGAGGGA GCGCCTGGGG GAGAACCACA CCTGCCGCTG CCGGCTTCCC 180

TCAAGGCCTA CCTCCTCTAC CAGTGACGTT CGCCATCATA CCGCCAGCGC GACAGCCACC 240

TGGTGCCAAC TCACTGAGCC GCCTG 265

(2)关于SEQ ID NO：43的信息

(i)序列特征

(A)长度：2438个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：43：

AAGTGGCGGC GGTCCCTGGA GAGCAGGCGG AGGCAGCGGC AAGTCTGACT CTGGGCTGAC 60

CGTGGAGCCG GGGCGGGGGC TGACAGCCAG GCCTCCGCCT GGCGGGAGCC GCACGAGGAG 120

CGGGAGTGGC CGGGCCTCTC TTCCGCGCTT GAGCGAGCGC CGGGTGATGG CGGTGGTGAT 180

GGCGGCAGGC GCTCGGACAG CTCCGCTTGA GCTGAGCTCG GAGAGATCCG TCCAGAAAGT 240

GCCCAGAAGA AACTTCCTCT TAGAAAAGCT GAAAAACACA RTATTTATAA CACTGGAAAT 300

TGTAAAGAAT TTGTTTAAAA TGGCTGAAAA CAATAGTAAA AATGTAGATG TACGGCCTAA 360

AACAAGTCGG AGTCGAAGTG CTGACAGGAA GGATGGTTAT GTGTGGAGTG GAAAGAAGTT 420

GTCTTGGTCC AAAAAGAGTG AGAGTTGTTC TGAATCTGAA GCCATAGGTA CTGTTGAGAA 480

TGTTGAAATT CCTCTAAGAA GCCAAGAAAG GCAGCTTAGC TGTTCGTCCA TTGAGTTGGA 540

CTTAGATCAT TCCTGTGGGC ATAGATTTTT AGGCCGATCC CTTAAACAGA AACTGCAAGA 600

TGCGGTGGGG CAGTGTTTTC CAATAAAGAA TTGTAGTGGC CGACACTCTC CAGGGCTTCC 660

ATCTAAAAGA AAGATTCATA TCAGTGAACT CATGTTAGAT AAGTGCCCTT TCCCACCTCG 720

CTCAGATTTA GCCTTTAGGT GGCATTTTAT TAAACGACAC ACTGTTCCTA TGAGTCCCAA 780

CTCAGATGAA TGGGTGAGTG CAGACCTGTC TGAGAGGAAA CTGAGAGATG CTCAGCTGAA 840

ACGAAGAAAC ACAGAAGATG ACATACCCTG TTTCTCACAT ACCAATGGCC AGCCTTGTGT 900

CATAACTGCC AACAGTGCTT CGTGTACAGG TGGTCACATA ACTGGTTCTA TGATGAACTT 960

GGTCACAAAC AACAGCATAG AAGACAGTGA CATGGATTCA GAGGATGAAA TTATAACGCT 1020

GTGCACAAGC TCCAGAAAAA GGAATAAGCC CAGGTGGGAA ATGGAAGAGG AGATCCTGCA 1080

GTTGGAGGCA CCTCCTAAGT TCCACACCCA GATCGACTAC GTCCACTGCC TTGTTCCAGA 1140

CCTCCTTCAG ATCAGTAACA ATCCGTGCTA CTGGGGTGTC ATGGACAAAT ATGCAGCCGA 1200

AGCTCTGCTG GAAGGAAAGC CAGAGGGCAC CTTTTTACTT CGAGATTCAG CGCAGGAAGA 1260

TTATTTATTC TCTGTTAGTT TTAGACGCTA CAGTCGTTCT CTTCATGCTA GAATTGAGCA 1320

GTGGAATCAT AACTTTAGCT TTGATGCCCA TGATCCTTGT GTCTTCCATT CTCCTGATAT 1380

TACTGGGCTC CTGGAACACT ATAAGGACCC CAGTGCCTGT ATGTTCTTTG AGCCGCTCTT 1440

GTCCACTCCC TTAATCCGGA CGTTCCCCTT TTCCTTGCAG CATATTTGCA GAACGGTTAT 1500

TTGTAATTGT ACGACTTACG ATGGCATCGA TGCCCTTCCC ATTCCTTCGC CTATGAAATT 1560

GTMTCTGAAG GAATACCATT ATAAATCAAA AGTTAGGTTA CTCAGGATTG ATGTGCCAGA 1620

GCAGCAGTGA TGCGGAGAGG TTAGAATGTC GACCTGCATA CATATTTTCA TTTAATATTT 1680

TATTTTTCTT ATGCCTCTTT GAATTTTTGT ACAAAGGCAG TTGAATCAAA TAAAACTGTG 1740

CCCTAAGTTT TAATTCCAGA TCAATTTATT TTTTTTATGA TACACTTGTT ATATATTTTT 1800

AAGCAGGTGT TTGGTTTTGT TTTTACCATA TAAATTTACA TATGGTCCAG GCATATTTAC 1860

AATTTCAAGG CATTGCATAT ACATTTGAAT ATTCTGTATT TTTTAAATAA TCTTTTGTTC 1920

TTTCCTATGT GTGAAATATT TTGCTAATCT ATGCTATCAG TATTCTTGTA TGACCGAATA 1980

GTTACCTATT CTCTTTTCAT CTTGAAGATT TTCAGTAAAG AGTGTTGTAA TCAATCCATT 2040

ATAATGTAAT TGACTTTTGT AATTTGCCAA TAGGAGTGTT AAACAACAAA ATGATTTAAA 2100

ATGAAACTTA ATGTATTTTC ATTTTAAATA TTAACTAAAC CAAGTTTGTT TGTTAGTTAT 2160

TCTAGCCAAT AAGAAAAGAG AATGTAGCAT CCTAGAGGTG TATTTGTTCT GCAGTTTGGC 2220

AGGACCGTCA GTTAGTCCAA ATAAACATCC CCTCAGCGTG GAGGCGAATG GAACCTGTGC 2280

TCCTTTCTTA CGGGAAGCTT TGCAAAGCAA AATAGCAGGG TTACAAGCTT GGAGTTGTTA 2340

AGGCAACTAG AGTTTTCTCT ATTAATTTAT AGACTGTTGT TGCACCTACT TAGCTCTTTT 2400

TTGGGAACTC TAGTTCCCAG GGGAAAATAC CTCGTGCC 2438

(2)关于SEQ ID NO：44的信息

(i)序列特征

(A)长度：542个氨基酸

(B)类型：氨基酸

C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：蛋白质

(xi)序列描述：SEQ ID NO：44：

Ser Gly Gly Gly Pro Trp Arg Ala Gly Gly Gly Ser Gly Lys Ser Asp

1 5 10 15

Ser Gly Leu Thr Val Glu Pro Gly Arg Gly Leu Thr Ala Arg Pro Pro

20 25 30

Pro Gly Gly Ser Arg Thr Arg Ser Gly Ser Gly Arg Ala Ser Leu Pro

35 40 45

Arg Leu Ser Glu Arg Arg Val Met Ala Val Val Met Ala Ala Gly Ala

50 55 60

Arg Thr Ala Pro Leu Glu Leu Ser Ser Glu Arg Ser Val Gln Lys Val

65 70 75 80

Pro Arg Arg Asn Phe Leu Leu Glu Lys Leu Lys Asn Thr Xaa Phe Ile

85 90 95

Thr Leu Glu Ile Val Lys Asn Leu Phe Lys Met Ala Glu Asn Asn Ser

100 105 110

Lys Asn Val Asp Val Arg pro Lys Thr Ser Arg Ser Arg Ser Ala Asp

115 120 125

Arg Lys Asp Gly Tyr Val Trp Ser Gly Lys Lys Leu Ser Trp Ser Lys

130 135 140

Lys Ser Glu Ser Cys Ser Glu Ser Glu Ala Ile Gly Thr Val Glu Asn

145 150 155 160

Val Glu Ile Pro Leu Arg Ser Gln Glu Arg Gln Leu Ser Cys Ser Ser

165 170 175

Ile Glu Leu Asp Leu Asp His Ser Cys Gly His Arg Phe Leu Gly Arg

180 185 190

Ser Leu Lys Gln Lys Leu Gln Asp Ala Val Gly Gln Cys Phe Pro Ile

195 200 205

Lys Asn Cys Ser Gly Arg His Ser Pro Gly Leu Pro Ser Lys Arg Lys

210 215 220

Ile His Ile Ser Glu Leu Met Leu Asp Lys Cys Pro Phe Pro Pro Arg

225 230 235 240

Ser Asp Leu Ala Phe Arg Trp His Phe Ile Lys Arg His Thr Val Pro

245 250 255

Met Ser Pro Asn Ser Asp Glu Trp Val Ser Ala Asp Leu Ser Glu Arg

260 265 270

Lys Leu Arg Asp Ala Gln Leu Lys Arg Arg Asn Thr Glu Asp Asp Ile

275 280 285

Pro Cys Phe Ser His Thr Asn Gly Gln Pro Cys Val Ile Thr Ala Asn

290 295 300

Ser Ala Ser Cys Thr Gly Gly His Ile Thr Gly Ser Met Met Asn Leu

305 310 315 320

Val Thr Agn Asn Ser Ile Glu Asp Ser Asp Met Asp Ser Glu Asp Glu

325 330 335

Ile Ile Thr Leu Cys Thr Ser Ser Arg Lys Arg Asn Lys Pro Arg Trp

340 345 350

Glu Met Glu Glu Glu Ile Leu Gln Leu Glu Ala Pro pro Lys Phe His

355 360 365

Thr Gln Ile Asp Tyr Val His Cys Leu Val Pro Asp Leu Leu Gln Ile

370 375 380

Ser Asn Asn Pro Cys Tyr Trp Gly Val Met Asp Lys Tyr Ala Ala Glu

385 390 395 400

Ala Leu Leu Glu Gly Lys Pro Glu Gly Thr Phe Leu Leu Arg Asp Ser

405 410 415

Ala Gln Glu Asp Tyr Leu Phe Ser Val Ser Phe Arg Arg Tyr Ser Arg

420 425 430

Ser Leu His Ala Arg Ile Glu Gln Trp Asn His Asn Phe Ser Phe Asp

435 440 445

Ala His Asp Pro Cys Val Phe His Ser Pro Asp Ile Thr Gly Leu Leu

450 455 460

Glu His Tyr Lys Asp Pro Ser Ala Cys Met Phe Phe Glu Pro Leu Leu

465 470 475 480

Ser Thr Pro Leu Ile Arg Thr Phe Pro Phe Ser Leu Gln His Ile Cys

485 490 495

Arg Thr Val Ile Cys Asn Cys Thr Thr Tyr Asp Gly Ile Asp Ala Leu

500 505 510

Pro Ile Pro Ser Pro Met Lys Leu Tyr Leu Lys Glu Tyr His Tyr Lys

515 520 525

Ser Lys Val Arg Leu Leu Arg Ile Asp Val Pro Glu Gln Gln

530 535 540

(2)关于SEQ ID NO：45的信息

(i)序列特征

(A)长度：4999个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：45：

CCCTCTGGGC AAGCCGCCCC CCCCCCACCC ATCTACCACA CACACACACA CACACACACA 60

CACACATTCA GACCTTGGGG CAAAAACAAA GCAAAATAAC AACAACAAAA ACACTGCCTG 120

TGGAAAGTCC TTACTTCAGG AAGGTTGGCA GATGAGGAGC AAGGGAACAT TTTATCAGGA 180

CTGCCACAAA GGAGTCTTTT TTTTTAATGG TTTTTCAAGA CAGGGTTTCT CTGTATAGCC 240

CTGGCTGTCC TGGAGCTCAC TTTGTAGACC AGGCTGGCCT CGAACTCAGA AATTCGCCTG 300

CCTCTGCCTC CTGAGTGCTG GGATTAAAGG CGTGCAGCAC CATGTCCAAC TGGCATTTTC 360

TCAATTAAGG TTCGTTCCTT TCAGATAACT CTAGGTTCTG GGTCAAGCTG ACACAAGGCT 420

ACACAGCACA GTTTGTATGC CACATTCAGT TCAGAAGACA CCCAACCTCC CTGGAACTGG 480

AACTTATGCA CATTTGTGAG CTTCCACTTG GGAGTGGGAA CCTGAACTGG GTCCTCTGCA 540

AGAGCAGCCG TGCTCTTAAC TGCTGAGCCA TTTCAGCAGC CTCACATCAG AATTAAGTTA 600

GAAATTAGCCG GGTATGAATC ATACCCTTAG AATCCTAGCA TCTGAAAGCA GAGCTAAGAG

660

AAACAGGGAT TCAAGACCAG CTCTTGGCTA CAGAGCCCGT CCTGTCCTAG GATGGGCTAC 720

AAGAGACTAT TTCAAAGCCA TCCAAACAAC AATAACTACA ACAACAACAA G3TTAAAATT 780

AGGCTGGGCA CAGGGTACAC ACCTTTAATG CCAACACTCA GGAGGCAGAG GCAGGCTGAT 840

CAGTGTGAGT TTGAGTTCAA CGTGGTCTAC ATAGGGAGTT CTAGGCCAGC AGAGGTTACA 900

GTCTCTCTCT CTCTCTCTCT CTCTCTCTCT CTCTCACACA CACACACACA CACACACACA 960

CACACACACA CACACACGGT GGCATTATGG GATTTTTTTG GGATAAGGTT TCTCTGTCTA 1020

GCCCTGGCAT AGATTCACTC TGTAGACTAG GCTAGCCTTG AACTCAGAGA TCCGCCTGCC 1080

TCTGCCTCCC AAGTGCTGGG ATTATAGGTG TTGCACCACC ACTGCCCAGC CACTTTGGGA 1140

TTTTTGAACT GTTATCAAGA GGCTTTCGAG GAGGTCAAAC TTCAACAGCA ACCTCTCCAT 1200

GATAATGTAG CTAATGATCA AACGACACTC AAAACTTAAC CCTTAAAGCA CACATCCACC 1260

AGACAGCGTG CCCACTCGTA GTTCCATTAC TCAGGAGGCT GAAGCAGGAG GATGAAGGAC 1320

TAAGGCTTCA GCAACCTAGG GAGCCGCAGG GGACAGTAGT CTCAATCCCT ACATTCTCCT 1380

GAACACAGGA GCAGGAGTTC AGGAAGGGTG TCAAGGCCGC TTACTGATCT TAGGGCCTCA 1440

GGAATGACTA GCTCAGGCAG AGAGAGCAAA GGTCTCCAGT GGAGAAGTCT ACACACACAC 1500

ACACACACAC ACACACACAC ACACACACAC AGAATCCAAG GCGATGACGT CATCAAAGGG 1560

TTAATTCTAG TCTGGGATGG GGGGGAGGGT GGGGCACGCA GCTGTCAGGT GGCTTTGGAA 1620

AAATAAACTG CTGAAGAGTC TGACGCCAGG GAGTCCTGGG AGGGACAAGA GGTTACCCAC 1680

TCAAAGAGTG TGCTCCACAA AGCATGCGCG CTTGTCCACG TCTGGAGTCG TCACTTATTT 1740

TTTGCCTGGA TTCTTTGTAG CCGGTGGGTT CTCAAGGCGG TAAGTGGTGT GGCCGCCGTG 1800

GTCTGGGAGG TGACGATAGG GTTAATCGTC CACAGAGCCC AGGGGCGGAG CGCGGGCGGG 1860

CGTCCGCAGC CCCGCTGGAG CCGGAAGCAG TGGCTGGTCA GGGGCGCTTC TAGCCTTCCC 1920

TATCTGTACT TCCACAGAGG TCTCTGCGAG CTAGGGGGAC AGTGAGGTGC GGGGTAGGGG 1980

CCCGGCGTTA GAGCCAGCAA GGGGACGGTT CACGGTAAGG TCTGAGGGAG AGAGAGCTCC 2040

TGAGAAACTT GGGGGGCGCG ACACAGATAG GGTGAAAGCA GAGTGATAGA CCTGGGATGG 2100

TTAGGGGACC AAGGGAAGAC CAGGCTGGTT GGCATACACC GGTGAACGGA TGGGAGTCCT 2160

AGGGAAAGAT GATGCGCCTA ACAGTCCTTT CTGTCTCCAC ACCACTCCAG GGGACGATCC 2220

GGAGCTCAAC TTTCAAAAGC GAGACGCCCC AGCAAGCCTG TTTTGAGAAG TTCTTCAGCG 2280

GCTCTCCTCA TGGGCCAGAC GGCCCTGGCA AGGGGCAGCA GCAGCACCCC TACCTCGCAG 2340

GCTCTGTACT CGGACTTCTC TCCTCCCGAG GGCTTGGAGG AGCTCCTGTC TGCTCCCCCT 2400

CCTGACCTGG TTGCCCAACG GCACCACGGC TGGAACCCCA AGGATTGCTC CGAGAACATC 2460

GATGTCAAGG AAGGGGGTCT GTGCTTTGAG CGGCGCCCTG TGGCCCAGAG CACTGATGGA 2520

GTCCGGGGGA AACGGGGCTA TTCGAGAGGT CTGCACGCCT GGGAGATCAG CTGGCCCCTG 2580

GAGCAAAGGG GCACACACGC CGTGGTGGGC GTGGCCACCG CCCTCGCCCC GCTGCAGGCT 2640

GACCACTATG CGGCGCTTTT GGGCAGCAAC AGCGAGTCCT GGGGCTGGGA TATTGGGCGG 2700

GGAAAATTGT ATCATCAGAG TAAGGGCCTC GAGGCCCCCC AGTATCCAGC TGGACCTCAG 2760

GGTGAGCAGC TAGTGGTGCC AGAGAGACTG CTGGTGGTTC TGGACATGGA GGAGGGGACT 2820

CTTGGCTACT CTATTGGGGG CACGTACCTG GGACCAGCCT TCCGTGGACT GAAGGGGAGG 2880

ACCCTCTATC CCTCTGTAAG TGCTGTTTGG GGCCAGTGCC AGGTCCGCAT CCGCTACATG 2940

GGCGAAAGAA GAGGTGAGAT ACGGACTAGG TGTGGGGAGA TCACTACTCT TGGCAATGGT 3000

TTGGGCTGGA AACTCATGGT TGGAGCACAG GAAGTAGGCT TCTTGTCACT TTGGCCTGTC 3060

ACTTAGATGG CCTTGGATCT AGCTTCACTC CCAATCCCTA TTGGATGTGA TGCACAAATT 3120

CAGAGCCTTT GGGTCTCCCT CAGCTGAGGT GGCGGTGGAA ATGGAGGAAG AAGGAAGGGT 3180

GCCTGAGCAG GATCTCAAGT TCAAGGATGC CTGGAGTTGC TTACTTACCT TGTCTTCCTT 3240

CTCTCTCCGC AGTGGAGGAA CCACAATCCC TTCTGCACCT GAGCCGCCTG TGTGTGCGCC 3300

ATGCTCTGGG GGACACCCGG CTGGGTCAAA TATCCACTCT GCCTTTGCCC CCTGCCATGA 3360

AGCGCTATCT GCTCTACAAA TGACCCAGTA GTACAGGGTG TGCTGGCACC CTACCGTGGG 3420

GACAGGTGGA GAGGCACCCG CTGGCCTAGA CAACTTTAAA AAGCTGGTGA AGCTGGGGGG 3480

GGGGGGCTGG ACCCCTTCAC CTCCCCTTCT CACAGGAGCA AGACATATAG AAATGATATT 3540

AAACACCATG GCAGCCTGGG ACAAAGAGGT TTTTGAAGTA AAAAATGAGA TGTATTGTCA 3600

CAACCTGTTT CATTATTGTT TTTTGTTTTG TTTTACACTC CCCCACCCCA GGCTAGAGCC 3660

CCATCACTGT CTTAAGGAAT TATGACAACC CACAAAGCTC AGGCCCAGGT GTTTATTTCC 3720

CTTACATGTA GGATGGTTCA CAAACACAAT ACAGGGGCTT TGGCACCGTG GGGGAGGGGA 3780

CTATCCCAGG CCTCTTAGGG TCTCATGTAT ACCGAATTCA GACCCGAAAG CTCTGAATTT 3840

CTGCATCAGA CATCCAGTAG AACTTGGGAG TGAAGCTAGA GCCAAGGCCA TCTAAGTGAC 3900

AGGCCAAAGT GACACGAAGC CCACTTCCTG TGCTCCAACC ATGAGTTTCC AGCCCAAACC 3960

AATGGAAGGT GATTTCACTT GTCAGGGCCC AAAGGGACAG TCAGTTCTAC TCCCTCCCCT 4020

CACTAGGAGC CACCTTGGTG ACAGTTGATT CTACCCACTG TAAGTGGTAA AGGGATTGGC 4080

CTGGTCCCAA CCATAATAGG GCGGTGGAAA CGGCTCAGGA GGGTACAGCG TGGATTAGGC 4140

CACAAGATGG GGCAGATGAT GTCATCAGAA GCATGTGACC GGTGGGAGCA GTTACTAAAC 4200

TTCTGGGCAA CCTAGTCCAT GCTATGCAGG CAGGTAGAGG GATGGGCAGT GCTCATTGTT 4260

TGGCATTGAT GATGTCCACA AATTCAGGCT TGAGAGATGC GCCACCCACA AGGAAGCCGT 4320

CCACGTCAGG CTGGCTTGCC AGCTCTTTGC AGGTTGCTCC AGTCACAGAA CCTGTACCAG 4380

GAACAAGAAG ACAGTTTGGT CAGGTCTATG ATCAGAACAC TTAAGCCCCA CCTCTCTGTG 4440

CAAGGCAGCC TCAGTCTGTC TTAGCCCATT TCCGTCTTAG CTAGAGCCAA AGCCACTCAC 4500

CTCCATAAAT GATCCGGGTG CTCTGAGCCA CCCCATCATT GACATTGGAT TTCAGCCATC 4560

CCCGGAGCTT CTCGTGTACT TCCTGTGCCT AGAAGGAGGA GGCAGAGCTA CTAAGTAAGC 4620

TCCTTCCTAT CTATCATTCA AGGAGTAAAA ACCACTGGTT CTCACATAGA GTTGAGTTTC 4680

CAGAAAAGCC CCGGGACCAG AGAGTGGCAA GGCTCCAATC CCACCAGGCT TGGAATGAAC 4740

ATTTTTGGCA AAGTCACTCT CCTTGGTGAG TTTGGGGGCC CTCTGTCTCT AAAGGGGCTT 4800

GGATGGGCTC CATAGCTGTG TGAGTCTGTT AAAGCCGGAC AGGCTGAGGA GCTCTGGGTA 4860

GTTACCTGCT GAGGGGTTGC CGTCTTGCCA GTCCCAATGG CCCACACAGG TTCATAGGCC 4920

AGGACCACCT TGCTCCAGTC TTTCACATTA TCTGTGGGGC AGAGAGGAGA GTGAGTAGGA 4980

AGGAGCTGAC CCGCCAAGC 4999

(2)关于SEQ ID NO：46的信息

(i)序列特征

(A)长度：264个氨基酸

(B)类型：氨基酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：蛋白质

(xi)序列描述：SEQ ID NO：46：

Met Gly Gln Thr Ala Leu Ala Arg Gly Ser Ser Ser Thr Pro Thr Ser

1 5 10 15

Gln Ala Leu Tyr Ser Asp Phe Ser Pro Pro Glu Gly Leu Glu Glu Leu

20 25 30

Leu Ser Ala Pro Pro Pro Asp Leu Val Ala Gln Arg His His Gly Trp

35 40 45

Asn Pro Lys Asp Cys Ser Glu Asn Ile Asp Val Lys Glu Gly Gly Leu

50 55 60

Cys Phe Glu Arg Arg Pro Val Ala Gln Ser Thr Asp Gly Val Arg Gly

65 70 75 80

Lys Arg Gly Tyr Ser Arg Gly Leu His Ala Trp Glu Ile Ser Trp Pro

85 90 95

Leu Glu Gln Arg Gly Thr His Ala Val Val Gly Val Ala Thr Ala Leu

100 105 110

Ala Pro Leu Gln Ala Asp His Tyr Ala Ala Leu Leu Gly Ser Asn Ser

115 120 125

Glu Ser Trp Gly Trp Asp Ile Gly Arg Gly Lys Leu Tyr His Gln Ser

130 135 140

Lys Gly Leu Glu Ala Pro Gln Tyr Pro Ala Gly Pro Gln Gly Glu Gln

145 150 155 160

Leu Val Val Pro Glu Arg Leu Leu Val Val Leu Asp Met Glu Glu Gly

165 170 175

Thr Leu Gly Tyr Ser Ile Gly Gly Thr Tyr Leu Gly Pro Ala Phe Arg

180 185 190

Gly Leu Lys Gly Arg Thr Leu Tyr Pro Ser Val Ser Ala Val Trp Gly

195 200 205

Gln Cys Gln Val Arg Ile Arg Tyr Met Gly Glu Arg Arg Val Glu Glu

210 215 220

Pro Gln Ser Leu Leu His Leu Ser Arg Leu Cys Val Arg His Ala Leu

225 230 235 240

Gly Asp Thr Arg Leu Gly Gln Ile Ser Thr Leu Pro Leu Pro Pro Ala

245 250 255

Met Lys Arg Tyr Leu Leu Tyr Lys

260

(2)关于SEQ ID NO：47的信息：

(i)序列特征

(A)长度：5615个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：47：

GTACTTTCTT TATATCTCCA TAATTTTATT TACTATTACT ACATGATACA TTATTTTATA 60

AAAGTCTTTG TAACCTCCTT AAGGATTCAC TGCTTAATCT CCAGTGCTTA GCACAAATCA 120

TTAAATGCGA ACCAGAAACT CTTCCAAATG TGTTACATCT ATAACCTCAT TGGATTCTCA 180

CTACCAACCC CATGCAATAG ATACTAATGT GATCTCTGTC TTACAGAGGA AGAAACAGGC 240

ACAGGGAGGT TCAGTAATTT GCCCAAGGTC ATACACACAC TGGCCTTCAG GTATTCATGC 300

CCGGGGAGTC TGGTCCCACA GCTGGCATGT TTGCCATTAT ATTATATTGC CTCCTTATAG 360

TGTCGGCACT CATTAAGCAC ATTGACAGCT ATGCTTGGTG AGTGACTACT ATGTACCCAG 420

CTCTGTGCTA CATGCTTTAC CTGGATTATT TCAACTGCAC AACAACCCTG TGAGGTAACT 480

ACCATCATTG CTCCTATTTT ACATAACAGA AAACTACAGA AATCTGGGGC TGGGCGTAGT 540

GGCTCATGCC TGAAATCCCA GCACTTTGGG AGACCCTGTC TCTAAAAAAA ATTTTTTTTT 600

GGCCGGACGT GGTGGCTCAC ACCTGTAATC TCAGCACTTT GGGAGGCTAA GGCAGGCAGA 660

TCACAAGGTC AGGAGTTCTA GACCAGCCTG GCCAACATGG CAAAACCCTG TGTCTACTAA 720

AAATACAAAA AATAGCTAGG CGTGGTGGCA GGTGCCTGTA ATCCCAGCTA CTCAGGAGGC 780

TGAGGCAGGA GAATCCCCTG AACCTGGGAG ATGGAGGTTA CAGAGAGCCG AGATCGTGCC 840

GCTGCACTCC AGCCTGGGCA ACAAGAGCAA GACTCTGTCT CGAAAAAAAT AAAAATAAAA 900

ATAAAAATAT TTTTTTAAAA ATTAGCTGGG TGTGGTAGCA CATGCCTGTA GTCCCAGCTA 960

CTTGGGAGGC TGAGGTAGGA GGATCACTTG AGCCCAGGAG GTCAAGGCTG CAGTGGGCTG 1020

TGATGGCGCC ACTGCACTCT AGCCTTGGTG ACAGCAAGAC CCTGTCTCAA AAAAAAAAAA 1080

AAGAGAAATC GGGCAACTTC CCCAAGATCG CGCAGTTAAC TAGTGGCATA GCTTCACTCA 1140

AACTCGAAGT CTTAATCAGG ACACTCTACC AAATGAGATC AACGGCTCAG TAATGGATTG 1200

GCATCCAGTA TGAAGACTGG ACCAGCAGGG AGAACTATGA TGCGTACAGC CTAGAGCCTG 1260

AAGCAGATTT CACAGCCTCA GAGGTGGCAC AGGCTGACTC ACAACCCGGG GCAGAAAGGG 1320

ACCAGCCCAG AAACAGTGAC CCAGAATCAC AGGGAAGTAG AAATGGGATT CGGCACAATG 1380

AAGCCCCTCC TTGACCCCAT GCTCCTTACC CTCAGGGGCG CAGGAGTTAG TCGCTCAGGC 1440

GGCTCAAAGG TCTTGACGGT GGAGAACACC ATCCCCAGGG ATTCCCGACG CGGTGATGCC 1500

ATCAAAGCGT TAATTCTGAG ATGGGCCTGC CCGGGTGCGG ACTCTGCCGC AGCAAGAGAA 1560

GGGTTAACTG CCCCGGGCCT TCGCCGTGGG GGCGGGGCCT CGGGGAGGGT CACAGCCCGG 1620

GACTGAGACC CGAGGTTAAC CGCCCGGGGT GGGCTCCACG GGGGCGGGGC ATGCTCTCCG 1680

CGGCTGCTGC CGGTATAGAG CGGTAACTGC CCAGGAGGGG GCGGGGCCCC ACAGGGGCGT 1740

GGCCTCGGAG CTGCACGGCC GTGGGCGGCG ATGAGAGGGT TAAGCCCCAG AGGGCCCTGG 1800

AGGGGCGGGG CCGCGGGACG GGCTCGGCCC AAGGGAGGAG CTGGGGGCGG AAGCGGCCGG 1860

CGGTCTGCGC CCTGCGCGCC TCGGCTTCTT TCCGCCCGGC TCCTTCAGAG GCCCGGCGAC 1920

CTCCAGGGCT GGGAAGTCAA CCGAGGTTCG GGGGCAGCGG CGAGGGCTCC GGGCGAGTAA 1980

GGGGGATGGT CCATGCTGAG GCCCAAATGG GGCGAACTCG CGAGAGTCTC TGGCGACCTG 2040

GATCAGATGG GGCGAGGGCA GATGAAGGGC CCAGGAGCTT TGGGGCAGCG AGGAGGGAGG 2100

AGCGGGCCCG TTGGCAAACT TGGGTGAAAG GATGGGGTAC CTGGGTGACG AGCCCCCGCC 2160

AGGATTCTGC TCTTCACGCC CCTTTTCTCC CAGCTCCCTT CCAGGTCAAT CCAAACTGGA 2220

GCTCAACTTT CAGAAGAGAA AGACGCCCCA GCAAGCCTCT TTCGGGGAGT CCTCTAGCTC 2280

CTCACCTCCA TGGGCCAGAC AGCTCTGGCA GGGGGCAGCA GCAGCACCCC CACGCCACAG 2340

GCCCTGTACC CTGACCTCTC CTGTCCCGAG GGCTTGGAAG AGCTGCTGTC TGCACCCCCT 2400

CCTGACCTGG GGGCCCAGCG GCGCCACGGT TGGAACCCCA AAGACTGTTC AGAGAACATC 2460

GAGGTCAAGG AAGGAGGGTT GTACTTTGAG CGGCGGCCCG TGGCCCAGAG CACTGATGGG 2520

GCCCGGGGTA AGAGGGGCTA TTCAAGGGGC CTGCACGCCT GGGAGATCAG CTGGCCCCTA 2580

GAGCAGAGGG GCACGCATGC CGTGGTGGGC GTGGCCACGG CCCTCGCCCC GCTGCAGACT 2640

GACCACTACG CGGCGCTGCT GGGCAGCAAC AGCGAGTCGT GGGGCTGGGA CATCGGGCGG 2700

GGGAAGCTGT ACCATCAGAG CAAGGGGCCC GGAGCCCCCC AGTATCCAGC GGGAACTCAG 2760

GGTGAGCAGC TGGAGGTGCC AGAGAGACTG CTGGTGGTTC TGGACATGGA GGAGGGAACT 2820

CTGGGCTACG CTATTGGGGG CACCTACCTG GGGCCAGCAT TCCGCGGACT GAAGGGCAGG 2880

ACCCTCTATC CGGCAGTAAG CGCTGTCTGG GGCCAGTGCC AGGTCCGCAT CCGCTACCTG 2940

GGCGAAAGGA GAGGTGAGGC CTGGGGCAGA CGTGGGGAGA ACTTTCTGTC CCTGGTGGCA 3000

GTGGTTTGGG ATGGAAACTC TTCTGACAAG AGCAGAGGGG ATGGACCTTC ATCCAGCCTG 3060

CCTCAACCTC TGTTCAGTGC TGGGAAAGGC TAGGGGTCTT CACAGCTGTT ATTTAATTTA 3120

ACCCAACAGC AATAGAGGTG AAACAGGCTT GAGAAAGCAA CTTTCTCAAG TTCTCTTGGC 3180

CAGTAAATGG TGAACCTTCA GAATGGAGGG AGGAACTGCA GGGATGAGAG AATTCAGGAG 3240

ATATCAACCC CTGAGCAAGA GGTGCAAAGC GTTAGGTACT GGGTTTGATG TACAGGTCCA 3300

AAAGAAGGAT GGGCAGAGCC AGGTACCCAG GCTGTATACC GGATTCCCTG GGCTCTAACC 3360

TGTCTCTGTG CCACATACCT ACTTCCTTCC TCAGCCACAC CTCTGGATGG AGACACTGGG 3420

GCCCTGGGCA CCAGGGAGGA GAGCAGTGGA GGAGGCAGGG CCTTAGGGTG GGGCAGCAGG 3480

GGAGGAGCCT CCCCAGGAAC TGACTGGGTC CAGGGCTTGG AGCTGCTCTC TGCAGTTGTG 3540

TGGGCTGTAG AGTGGAGGGC CATCCCTCCT CACCTCAGCC CCAGCTCCCA AGCCTCTGGA 3600

GTCAAAGCCT GGGCCAGCTC CACCACTGTC AGAGCCACCT TGGCCTGTTG TTTAGAGGGC 3660

CTTAGCCAGC TCTTCACCCC CAGCTCTGAC TAGGGATGTG TGAAATCTTA TCTGGGAGGC 3720

AGAACTTCCG GGTATCTCAA ATTCCCCTTT CAGCCAGGTG GGCACACTCG AAGCAGGAAA 3780

GCAGAAAGGC ATCTGAGTAG GACCCCGTAG TTTGAGGACA TCTGGCTGGT GGCTGCACCC 3840

ATACTTACAT TCCCCTCCTT CTCTCTCCCA GCGGAGCCAC ACTCCCTTCT GCACCTGAGC 3900

CGCCTGTGTG TGCGCCACAA CCTGGGGGAT ACCCGGCTCG GCCAGGTGTC TGCCCTGCCC 3960

TTGCCCCCTG CCATGAAGCG CTACCTGCTC TACCAGTGAG CCCTGTGATA CCACAGACTG 4020

TGCTGAGGTC TTGCCACCAC CCCTCCCCTT GGGGAGGTGG GGAGGCACTG CTGGCCTAGA 4080

CCAGCTGCTG AAAGCTGGTG AGGCTGAGCC CCTACCCCAA CCCAAGCTCT GCGGAAATCA 4140

ACAGCCCCAG AGCCACTTGG AGGGAGGAAG AAAGGGAGCC GGCGTTCAAG GCTATGACAG 4200

TCTGCTACGC AAAACATTTT TTCAAGTAAA AATAGTAAGA GATGTTGTTA TAGAAACCTG 4260

TTCTTGTTTT TTTTTTTTTC TTGCACAAAT GATCATTTAT ATAGCTGCCT CAAAAAGGAA 4320

GATTATCTGG GCAAGTCCAG TGAAGGCAGA CAAACCACAA GACCTAGTGC CAGGTTTATT 4380

CCCTCACATG GGTGGTTCAC ATACACAGCA CAGAGGCACG GGCACCATGG GAGAGGGCAG 4440

CACTCCTGCC TTCTGAGGGG ATCTTGGCCT CACGGTGTAA GAAGGGAGAG GATGGTTTCT 4500

CTTCTGCCCT CACTAGGGCC TAGGGAACCC AGGAGCAAAT CCCACCACGC CTTCCATCTC 4560

TCAGCCAAGG AGAAGCCACC TTGGTGACGT TTAGTTCCAA CCATTATAGT AAGTGGAGAA 4620

GGGATTGGCC TGGTCCCAAC CATTACAGGG TGAAGATATA AACAGTAAAG GAAGATACAG 4680

TTTGGATGAG GCCACAGGAA GGAGCAGATG ACACCATCAG AAGCATATGC AGGGAAAGGG 4740

CAGTTACTGG GCTTCTGGGC TGCTTAGTCC CTGGCTTGGC AGGAAGGGTA GGGAAGATGG 4800

ATGGGGCTCA TTGTTTGGCA TTGATGATGT CCACGAATTC GGGCTTGAGG GAAGCACCAC 4860

CCACAAGGAA GCCATCCACA TCAGGCTGGC TGGCCAGCTC CTTGCAGGTT GCCCCAGTCA 4920

CAGAGCCTGG GAAGGGAGCA GAACAAGGGC TTGGTCAAGA ATGGGATGAG TCTGCCCCAT 4980

CCCCACCTCC ATGTCCGAGG GCTCAGTCTA GTCCTCAGCC CACTCCACCT CAGCCGGGAA 5040

CCAAAGCCAC TCACCTCCAT AAATGATACG GGTGCTCTGA GCCACCGCAT CAGAGACGTT 5100

GGACTTCAGC CATCCTCGGA GCTTCTCGTG TACTTCCTGG GCCTAGAACA AGAAGCTGGC 5160

CTAAGTAAGA CCTTTTCTGC CTCTCTAAGA GGAAAAATCA CTGGCACCAG TGGACACTTA 5220

GTGTGGTTTC TGACTGAGTC AGAGTACCAG GGCTCTGATC CAAGCCAGGC CCTGGACTGG 5280

ATGCCCTTGG ACAAGTCACT GTCTCTGGGT TCAAGGTCTC TGTGTCTTTG AAATAAGGGG 5340

TTGCCCCATG TGGGCTGTGT CTGTCCAAAC CTATTGAGGC AGGCTGGGAT GAGGGCAGGG 5400

CTCCTGGGCC CGGTTACCTG TTGGGGTGTT GCAGTCTTGC CAGTACCAAT GGCCCACACA 5460

GGCTCATAGG CCAGGACGAC CTTGCTCCAG TCCTTCACGT TATCTGCAGG GCAGAGATAC 5520

AGATGGAGGG AAGGGTGAAC AAGAAAGAGC TCTCCAGCCA GGTTCTCCGG AGTACGAAGA 5580

ACGGTGGCCT ACTGCCCCCT AGTGGACATT GGGGG 5615

(2)关于SEQ ID NO：48的信息：

(i)序列特征

(A)长度：263个氨基酸

(B)类型：氨基酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：蛋白质

(xi)序列描述：SEQ ID NO：48：

Met Gly Gln Thr Ala Leu Ala Gly Gly Ser Ser Ser Thr Pro Thr Pro

1 5 10 15

Gln Ala Leu Tyr Pro Asp Leu Ser Cys Pro Glu Gly Leu Glu Glu Leu

20 25 30

Leu Ser Ala Pro Pro Pro Asp Leu Gly Ala Gln Arg Arg His Gly Trp

35 40 45

Asn Pro Lys Asp Cys Ser Glu Asn Ile Glu Val Lys Glu Gly Gly Leu

50 55 60

Tyr Phe Glu Arg Arg Pro Val Ala Gln Ser Thr Asp Gly Ala Arg Gly

65 70 75 80

Lys Arg Gly Tyr Ser Arg Gly Leu His Ala Trp Glu Ile Ser Trp Pro

85 90 95

Leu Glu Gln Arg Gly Thr His Ala Val Val Gly Val Ala Thr Ala Leu

100 105 110

Ala Pro Leu Gln Thr Asp His Tyr Ala Ala Leu Leu Gly Ser Asn Ser

115 120 125

Glu Ser Trp Gly Trp Asp Ile Gly Arg Gly Lys Leu Tyr His Gln Ser

130 135 140

Lys Gly Pro Gly Ala Pro Gln Tyr Pro Ala Gly Thr Gln Gly Glu Gln

145 150 155 160

Leu Glu Val Pro Glu Arg Leu Leu Val Val Leu Asp Met Glu Glu Gly

165 170 175

Thr Leu Gly Tyr Ala Ile Gly Gly Thr Tyr Leu Gly Pro Ala Phe Arg

180 185 190

Gly Leu Lys Gly Arg Thr Leu Tyr Pro Ala Val Ser Ala Val Trp Gly

195 200 205

Gln Cys Gln Val Arg Ile Arg Tyr Leu Gly Glu Arg Arg Ala Glu Pro

210 215 220

His Ser Leu Leu His Leu Ser Arg Leu Cys Val Arg His Asn Leu Gly

225 230 235 240

Asp Thr Arg Leu Gly Gln Val Ser Ala Leu Pro Leu Pro Pro Ala Met

245 250 255

Lys Arg Tyr Leu Leu Tyr Gln

260

(2)关于SEQ ID NO：49的信息

(i)序列特征

(A)长度：28个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：49：

AGCTAGATCT GGACCCTACA ATGGCAGC 28

(2)关于SEQ ID NO：50的信息

(i)序列特征

(A)长度：36个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线型

(ii)分子类型：DNA

(xi)序列描述：SEQ ID NO：50：

AGCTAGATCT GCCATCCTAC TCGAGGGGCC AGCTGG 36

Claims

1. 一种核酸分子，包含编码在其C末端区域含有SOCS元件盒的蛋白或其衍生物、同系物、类似物或模拟物的核苷酸序列或与其互补的核苷酸序列的核酸分子或在42℃低严格条件下与其杂交的核酸分子。

2. 根据权利要求1所述的核苷酸序列，其中蛋白进一步包含蛋白:分子相互作用区域。

3.根据权利要求1所述的核苷酸序列，其中蛋白:分子相互作用区域位于SOCS元件盒的N端区域。

4. 根据权利要求2或3所述的核苷酸序列，其中蛋白:分子相互作用区域是蛋白:分子结合区域或蛋白:蛋白结合区域。

5. 根据权利要求4所述的核苷酸序列，其中蛋白:分子相互作用区域是一个或多个SH2结构域、WD-40重复或锚蛋白重复。

6. 根据权利要求1-5中的任意一项所述的核苷酸序列，其中SOSC元件盒包含如下氨基酸序列：

其中，X₁是L，I，V，M，A或P；

X₂是任何氨基酸残基；

X₃是P，T或S；

X₄是L，I，V，M，A或P；

X₅是任何氨基酸；

X₆是任何氨基酸；

X₇是L，I，V，M，A，F，Y或W；

X₈是C，T或S；

X₉是R，K或H；

X₁₀是任何氨基酸；

X₁₁是任何氨基酸；

X₁₂是L，I，V，M，A或P；

X₁₃是任何氨基酸；

X₁₄是任何氨基酸；

X₁₅是任何氨基酸；

X₁₆是L，I，V，M，A，P，G，C，T或S；

X₁₇是L，I，V，M，A或P；

X₁₈是任何氨基酸；

X₁₉是任何氨基酸；

X₂₀L，I，V，M，A或P；

X₂₁是P；

X₂₂是L，I，V，M，A，P或G；

X₂₃是P或N；

X₂₄是L，I，V，M，A或P；

X₂₅是任何氨基酸；

X₂₆是任何氨基酸；

X₂₇是Y或F；

X₂₈是L，I，V，M，A或P。

7. 根据权利要求6所述的核苷酸序列，其中蛋白调节信号传导。

8. 根据权利要求7所述的核苷酸序列，其中信号传导由细胞因子、激素、微生物群体或微生物产物、寄生物、抗原或其它效应物分子调节。

9. 根据权利要求8所述的核苷酸序列，其中蛋白调节细胞因子介导的信号传导。

10. 根据权利要求9所述的核苷酸序列，其中信号传导由一个或多个细胞因子EPO、TPO、G-CSF、GM-CSF、IL-3、IL-2、IL-4、IL-7、IL-13、IL-6、LIF、IL-12、IFNγ、TNFα、IL-1和/或M-CSF介导。

11. 根据权利要求10所述的核苷酸序列，其中信号传导由一个或多个IL-6、LIF、OSM、IFNγ和/或促血小板生成素介导。

12. 根据权利要求11所述的核苷酸序列，其中信号传导由IL-6介导。

13. 根据权利要求1所述的核苷酸序列，其中核苷酸序列编码主要如SEQ ID NO.4，SEQ ID NO.6，SEQ ID NO.8，SEQ ID NO.10，SEQID NO.12，SEQ ID NO.14，SEQ ID NO.18，SEQ ID NO.21，SEQ IDNO.25，SEQ ID NO.29，SEQ ID NO.36，SEQ ID NO.41，SEQ IDNO.44，SEQ ID NO.46或SEQ ID NO.48中所列出的氨基酸序列或与列出的序列的全部或部分有至少约15％相似性的氨基酸序列，或在42℃低严格条件下与核酸分子杂交的核苷酸序列。

14. 根据权利要求1所述的核苷酸序列，其中核苷酸序列主要如SEQ ID NO.3，SEQ ID NO.5，SEQ ID NO.7，SEQ ID NO.9，SEQ IDNO.11，SEQ ID NO.13，SEQ ID NO.15，SEQ ID NO.16，SEQ IDNO.17，SEQ ID NO.20，SEQ ID NO.22，SEQ ID NO.23，SEQ IDNO.24，SEQ ID NO.26，SEQ ID NO.27，SEQ ID NO.28，SEQ IDNO.30，SEQ ID NO.31，SEQ ID NO.32，SEQ ID NO.33，SEQ IDNO.34，SEQ ID NO.35，SEQ ID NO.37，SEQ ID NO.38，SEQ IDNO.39，SEQ ID NO.40，SEQ ID NO.42，SEQ ID NO.43，SEQ ID NO.45或SEQ ID NO.47的核苷酸序列或与所列出的序列的全部或部分有至少15％相似性的核苷酸序列或在42℃低严格条件下能与列出的序列杂交的核苷酸序列。

15. 一种核酸分子，包含编码表现以下特征的蛋白或其衍生物、同系物、类似物或模拟物的核苷酸序列或与其互补的核苷酸序列的核酸分子或在42℃低严格条件下与其杂交的核酸分子：

(i)在其C末端包含具有以下氨基酸序列的SOCS元件盒：

其中，X₁是L，I，V，M，A或P；

X₂是任何氨基酸残基；

X₃是P，T或S；

X₄是L，I，V，M，A或P；

X₅是任何氨基酸；

X₆是任何氨基酸；

X₇是L，I，V，M，A，F，Y或W；

X₈是C，T或S；

X₉是R，K或H；

X₁₀是任何氨基酸；

X₁₁是任何氨基酸；

X₁₂是L，I，V，M，A或P；

X₁₃是任何氨基酸；

X₁₄是任何氨基酸；

X₁₅是任何氨基酸；

X₁₆是L，I，V，M，A，P，G，C，T或S；

X₁₇是L，I，V，M，A或P；

X₁₈是任何氨基酸；

X₁₉是任何氨基酸；

X₂₀L，I，V，M，A或P；

X₂₁是P；

X₂₂是L，I，V，M，A，P或G；

X₂₃是P或N；

X₂₄是L，I，V，M，A或P；

X₂₅是任何氨基酸；

X₂₆是任何氨基酸；

X₂₇是Y或F；

X₂₈是L，I，V，M，A或P；

(ii)在SOCS元件盒N端区域内包含至少一个SH2结构域、WD-40重复和/或锚蛋白重复或其它蛋白:分子相互作用结构域；并且

(iii)调节信号传导。

16. 在其C末端区域含有SOCS元件盒的分离的蛋白或其衍生物、同系物或模拟物。

17. 根据权利要求16所述的分离的蛋白，其中蛋白进一步包含蛋白:分子相互作用区域。

18. 根据权利要求17所述的分离的蛋白，其中蛋白:分子相互作用区域位于SOCS元件盒的N端区域。

19. 根据权利要求16或17所述的分离的蛋白，其中蛋白:分子相互作用区域是蛋白:DNA结合区域或蛋白:蛋白结合区域。

20. 根据权利要求19所述的分离的蛋白，其中蛋白:分子相互作用区域是一个或多个SH2结构域、WD-40重复或锚蛋白重复。

21. 根据权利要求16-20中的任意一项所述的分离的蛋白，其中SOCS元件盒包含如下氨基酸序列：

其中，X₁是L，I，V，M，A或P；

X₂是任何氨基酸残基；

X₃是P，T或S；

X₄是L，I，V，M，A或P；

X₅是任何氨基酸；

X₆是任何氨基酸；

X₇是L，I，V，M，A，F，Y或W；

X₈是C，T或S；

X₉是R，K或H；

X₁₀是任何氨基酸；

X₁₁是任何氨基酸；

X₁₂是L，I，V，M，A或P；

X₁₃是任何氨基酸；

X₁₄是任何氨基酸；

X₁₅是任何氨基酸；

X₁₆是L，I，V，M，A，P，G，C，T或S；

X₁₇是L，I，V，M，A或P；

X₁₈是任何氨基酸；

X₁₉是任何氨基酸；

X₂₀L，I，V，M，A或P；

X₂₁是P；

X₂₂是L，I，V，M，A，P或G；

X₂₃是P或N；

X₂₄是L，I，V，M，A或P；

X₂₅是任何氨基酸；

X₂₆是任何氨基酸；

X₂₇是Y或F；

X₂₈是L，I，V，M，A或P。

22. 根据权利要求21所述的分离的蛋白，其中蛋白调节信号传导。

23. 根据权利要求22所述的分离的蛋白，其中信号传导由细胞因子或其它内源分子、激素、微生物群体或微生物产物，寄生物、抗原或其它效应物分子调节。

24. 根据权利要求23所述的分离的蛋白，其中蛋白调节细胞因子介导的信号传导。

25. 根据权利要求24所述的分离的蛋白，其中信号传导由一个或多个细胞因子EPO、TPO、G-CSF、GM-CSF、IL-3、IL-2、IL-4、IL-7、IL-13、IL-6、LIF、IL-12、IFNγ、TNFα、IL-1和/或M-CSF介导。

26. 根据权利要求25所述的分离的蛋白，其中信号传导由一个或多个IL-6、LIF、OSM、IFNγ和/或促血小板生成素介导。

27. 根据权利要求26述的分离的蛋白，其中信号传导由IL-6介导。

28. 根据权利要求16所述的分离的蛋白，其中核苷酸序列编码主要如SEQ ID NO.4，SEQ ID NO.6，SEQ ID NO.8，SEQ ID NO.10，SEQID NO.12，SEQ ID NO.14，SEQ ID NO.18，SEQ ID NO.21，SEQ IDNO.25，SEQ ID NO.29，SEQ ID NO.36，SEQ ID NO.41，SEQ IDNO.44，SEQ ID NO.46或SEQ ID NO.48中所列出的氨基酸序列或与列出的序列的全部或部分有至少约15％相似性的氨基酸序列或在42℃低严格条件下与核酸分子杂交的核苷酸序列。

29. 根据权利要求16所述的核苷酸序列，其中核苷酸序列主要如SEQ ID NO.3，SEQ ID NO.5，SEQ ID NO.7，SEQ ID NO.9，SEQ IDNO.11，SEQ ID NO.13，SEQ ID NO.15，SEQ ID NO.16，SEQ IDNO.17，SEQ ID NO.20，SEQ ID NO.22，SEQ ID NO.23，SEQ IDNO.24，SEQ ID NO.26，SEQ ID NO.27，SEQ ID NO.28，SEQ IDNO.30，SEQ ID NO.31，SEQ ID NO.32，SEQ ID NO.33，SEQ IDNO.34，SEQ ID NO.35，SEQ ID NO.37，SEQ ID NO.38，SEQ IDNO.39，SEQ ID NO.40，SEQ ID NO.42，SEQ ID NO.43，SEQ ID NO.45或SEQ ID NO.47的核苷酸序列或与所列出的序列的全部或部分有至少15％相似性的核苷酸序列或在42℃低严格条件下能与列出的序列杂交的核苷酸序列。

30. 具有以下特征的分离的蛋白或其衍生物、同系物、类似物或模拟物：

(i)在其C末端包含SOCS元件盒，所述SDCS元件包含以下氨基酸序列：

其中，X₁是L，I，V，M，A或P；

X₂是任何氨基酸残基；

X₃是P，T或S；

X₄是L，I，V，M，A或P；

X₅是任何氨基酸；

X₆是任何氨基酸；

X₇是L，I，V，M，A，F，Y或W；

X₈是C，T或S；

X₉是R，K或H；

X₁₀是任何氨基酸；

X₁₁是任何氨基酸；

X₁₂是L，I，V，M，A或P；

X₁₃是任何氨基酸；

X₁₄是任何氨基酸；

X₁₅是任何氨基酸；

X₁₆是L，I，V，M，A，P，G，C，T或S；

X₁₇是L，I，V，M，A或P；

X₁₈是任何氨基酸；

X₁₉是任何氨基酸；

X₂₀L，I，V，M，A或P；

X₂₁是P；

X₂₂是L，I，V，M，A，P或G；

X₂₃是P或N；

X₂₄是L，I，V，M，A或P；

X₂₅是任何氨基酸；

X₂₆是任何氨基酸；

X₂₇是Y或F；

X₂₈是L，I，V，M，A或P；

(iii)调节信号传导。

31. 调节细胞中SOCS蛋白水平的方法，该方法包括使含有SOCS基因的细胞与有效量的SOCS基因表达或SOCS蛋白活性的调节剂在足以调节所述SOCS蛋白水平的条件下接触一段时间。

32. 在含SOCS基因的细胞中调节信号传导的方法，包括使所述细胞与有效量的SOCS基因表达或SOCS蛋白活性的调节剂接触足以调节信号传导的一段时间。

33. 影响其中至少一种细胞带有SOCS基因的细胞间相互作用的方法，该方法包括使带有SOCS基因的细胞与有效量的SOCS基因表达或SOCS蛋白活性的调节剂接触足以调节信号传导的一段时间。

34. 根据权利要求31-33中的任意一项所述的方法，其中信号传导由细胞因子、激素、微生物群体或微生物产物、寄生物、抗原或其它效应物分子调节。

35. 根据权利要求34所述的方法，其中信号传导由一个或多个细胞因子EPO、TPO、G-CSF、GM-CSF、IL-3、IL-2、IL-4、IL-7、IL-13、IL-6、LIF、IL-12、IFN γ、TNF α、IL-1和/或M-CSF介导。

36. 根据权利要求35所述的方法，其中信号传导由一个或多个IL-6、LIF、OSM、IFN γ和/或促血小板生成素介导。

37. 根据权利要求36所述的方法，其中信号传导由IL-6介导。

38. 根据权利要求31-37中的任意一项所述的方法，其中SOSC基因编码带有含如下氨基酸序列的SOCS元件盒的蛋白：

其中，X₁是L，I，V，M，A或P；

X₂是任何氨基酸残基；

X₃是P，T或S；

X₄是L，I，V，M，A或P；

X₅是任何氨基酸；

X₆是任何氨基酸；

X₇是L，I，V，M，A，F，Y或W；

X₈是C，T或S；

X₉是R，K或H；

X₁₀是任何氨基酸；

X₁₁是任何氨基酸；

X₁₂是L，I，V，M，A或P；

X₁₃是任何氨基酸；

X₁₄是任何氨基酸；

X₁₅是任何氨基酸；

X₁₆是L，I，V，M，A，P，G，C，T或S；

X₁₇是L，I，V，M，A或P；

X₁₈是任何氨基酸；

X₁₉是任何氨基酸；

X₂₀L，I，V，M，A或P；

X₂₁是P；

X₂₂是L，I，V，M，A，P或G；

X₂₃是P或N；

X₂₄是L，I，V，M，A或P；

X₂₅是任何氨基酸；

X₂₆是任何氨基酸；

X₂₇是Y或F；

X₂₈是L，I，V，M，A或P。

39. 根据权利要求38所述的方法，其中SOCS基因包含选自SEQID NO.3，SEQ ID NO.5，SEQ ID NO.7，SEQ ID NO.9，SEQ ID NO.11，SEQ ID NO.13，SEQ ID NO.15，SEQ ID NO.16，SEQ ID NO.17，SEQID NO.20，SEQ ID NO.22，SEQ ID NO.23，SEQ ID NO.24，SEQ IDNO.26，SEQ ID NO.27，SEQ ID NO.28，SEQ ID NO.30，SEQ IDNO.31，SEQ ID NO.32，SEQ ID NO.33，SEQ ID NO.34，SEQ IDNO.35，SEQ ID NO.37，SEQ ID NO.38，SEQ ID NO.39，SEQ IDNO.40，SEQ ID NO.42，SEQ ID NO.43，SEQ ID NO.45或SEQ IDNO.47的核苷酸序列。

40. 根据权利要求38所述的方法，其中SOCS基因编码包含主要如SEQ ID NO.4，SEQ ID NO.6，SEQ ID NO.8，SEQ ID NO.10，SEQID NO.12，SEQ ID NO.14，SEQ ID NO.18，SEQ ID NO.21，SEQ IDNO.25，SEQ ID NO.29，SEQ ID NO.36，SEQ ID NO.41，SEQ IDNO.44，SEQ ID NO.46或SEQ ID NO.48中所列出的氨基酸序列的蛋白。