CN1232499A

CN1232499A - 人生长基因和身材矮小基因区

Info

Publication number: CN1232499A
Application number: CN97198471A
Authority: CN
Inventors: 居德伦·拉波尔德－赫尔布兰德; 埃尔科莱·拉奥
Original assignee: Gudrun RAPPOLD HOERBRAND
Current assignee: Gudrun RAPPOLD HOERBRAND
Priority date: 1996-10-01
Filing date: 1997-09-29
Publication date: 1999-10-20
Also published as: IL129015A0; EP0946721A1; NZ334970A; WO1998014568A1; HUP9904175A2; BR9712185A; CZ297640B6; AU744188C; AU4625297A; EP0946721B1; HUP9904175A3; CZ96699A3; NO991554L; ATE230026T1; AU744188B2; US20030059805A1; DK0946721T3; NO991554D0; SI0946721T1; ES2188992T3

Abstract

本发明主题是一种分离的人类核酸分子,它编码的多肽包含由60个氨基酸组成、具有SEQIDNO:1的氨基酸序列的同源异型框区域,该分子具有人体生长调节活性。在X和Y染色体上约500kb矮小身材关键区内鉴定到三个新基因。至少其中之一导致矮小身材表型。对应该基因的cDNA可以用于诊断手段,或者进一步确定矮小身材表型的分子基础。另外,该基因的基因产物的鉴定,提供了新的途径和方法以便开发出矮小身材更好的治疗方法。

Description

人生长基因和身材矮小基因区

本发明涉及新确定的导致人生长失调的人类基因，特别是导致矮小身材或Turner综合症的基因的分离、鉴定和特征分析，以及对这些失调病症的诊断和治疗。

分离得到的基因组DNA或其片段可以用于医药用途，或者作为诊断手段或试剂用于确定或定性分析这些失调所涉及的遗传缺陷。本发明另一个主题是人类生长蛋白(转录因子A、B、C)，它们是上述DNA转录为RNA或mRNA后表达产生的蛋白，这些蛋白可以用于治疗与所述基因内的突变有关的生长失调。本发明还涉及相应的cDNA序列，这些cDNA序列可以用来制备适用于治疗这些失调病症的重组蛋白。本发明再一个主题是用于表达这些基因的DNA序列的质粒载体和合适的含有这些DNA的细胞。本发明还有的一个主题涉及分子药物领域，即，采用将本发明的DNA连接在能影响它在哺乳动物宿主细胞中的表达的启动子下游而制备得到的表达质粒，从而提供治疗这些生长失调的基因治疗手段和方法。

生长是生物发育的一项基本内容，其调控系统是高度组织化且复杂的。身高是一个多因子性状，受到环境和遗传因子两方面的影响。与身高相关的发育畸形在各种族人群中都是一个普遍现象。生长迟缓导致的矮小身材是见于人类的主要先天性缺陷，其发生率在100人中有3人。

Turner综合症是一种常见的染色体紊乱症，在女性中先天性表型的发生率为1∶2500(Rosenfeld等，1996)。据估计在全部妊娠中有1-2％为45,X并且这些胎儿99％会夭折(Hall和Gilchrist,1990；Robins,1990)。Turner综合症(或Ullrich-Turner综合症)患者的表型在临床上差异显著(Ullrich,1930；Turner,1938)。但是，矮小身材是总能看到的，它与性腺发育不全被认为是这种染色体紊乱的最重要症状。Turner综合症是一种真正的多因子紊乱症。胚胎死亡、矮小身材、性腺发育不全、独特的躯体特征都是由于X、Y染色体上的常规基因的单倍体化造成的。这些X-Y同源基因的双倍体性是人体正常发育所必需的。预期Turner基因(或反Turner基因)在女性活性的和失活X染色体或Y染色体上均表达，以保证准确量的基因产物。因此单倍体性缺陷(由于只有单拷贝的活性基因造成的缺陷)，应被考虑是造成这些疾病的遗传机制。

关于矮小身材的产生机制已有多种阐述。据说生长激素和生长激素受体缺乏以及骨骼发育障碍是矮小身材表型的原因(Martial等，1979；Phillips等，1981；Leung等，1987；Goddard等，1995)。最近的研究确定：三个人成纤维细胞生长因子受体的编码基因(FGFR1-3)发生突变是多种骨骼发育障碍，包括最常见的侏儒症、软骨发育不全的起因(Shiang等，1994；Ruosseau等，1994；Muenke和Schell,1995)。一种众所周知且常见(1∶2500女性)的染色体紊乱，即Turner综合症(45,X)，也常与矮小身材关联。但是，所有这些已知原因只能解释所有矮小患者的一小部分，而绝大部分矮小身材的原因尚待解释。

性染色体X、Y上带有影响身高的基因(Ogata和Matsuo,1993)，这可以从性染色体异常患者的基因型-表型的相关性推断出来。细胞遗传学研究提供了证据，证明X或Y染色体短臂末端缺失经常导致该个体的矮小身材(Zuffardi等，1982；Curry等，1984)。根据报导，20多例与Xp和Yp染色体末端缺失相关的染色体重排，确定导致矮小身材的基因位于假常染色体区域(PAR1)(Ballabio等，1989,Schaefer等，1993)。上述定位进一步被缩窄到PAR1区域最远端700bp DNA范围内，其中带有DXYS15侧翼标志序列(Ogata等，1992；1995)。

哺乳动物的生长调控由一个复杂的系统实施。这就容易想到有多个生长促进基因(蛋白)以高度有序的方式相互作用。其中一个控制身高的基因被暂时定位于假常染色体区域PAR1(Ballabio等，1989)，已知X和Y染色体在该区域可随意交换(参见Rappold,1993综述)。完整的PAR1区域接近2700kb。

根据对发生缺失的患者进行的研究确定了矮小身材基因的关键区域。当整个700kb区域被缺失或该关键区域内的一个特定基因呈现单倍体状态、或被阻断、突变时就会产生矮小身材(遗传性的矮小身材或Turner综合症)。世界范围内Turner综合症的发生率是2500位女性中有一位；这种原发性矮小身材在人群中的发生率是1∶4000-5000。Turner女性和一些矮小身材个体通常接受多年至10年以上的非特异性的生长激素(GH)治疗，尽管知道他们的GH水平正常，病因并非是GH缺乏。这些患者的治疗费用很昂贵(估计费用接近30000USD p.a.)。因此，应该考虑一种不使用人GH的替代疗法解决现存的问题，即提供一种方法和手段能区别带有基因缺陷的矮小身材患者和该基因没有缺陷的患者；属于基因缺陷的矮小身材患者无论是由于完全的基因缺失(象Turner综合症)还是点突变(象遗传性矮小身材的情况)，应能接受这种替代疗法，而且目前已经可以设计这种方法了。

基因型/表型的相关性支持在Yq近端和Yp远端存在生长基因这一说法。矮小身材也常见于Xp末端缺失的个体。近来对假常染色体区域部分单倍体化的男、女患者进行了多方面研究。基于基因型/表型的相关性，在临近端粒处确定了一个700kb DNA的最小共有缺失区域(Ogata等，1992；Ogata等，1995)。显示出人们感兴趣的这个区域位于基因标志DXYS20(3cosPP)和DXYS15(113D)之间，PAR1区域内的所有候选生长调节基因(例如，造血生长因子受体a；CSF2RA)(Gough等，1990)根据其物理位置就可以将它们排除在外(Rappold等，1992)。这就是说，生长基因位于2700kb PAR1区域的700kb缺失区域中。

近来在矮小身材患者中发现他们的性染色体中的假常染色体区域(PAR1)发生缺失，随后确定出PAR1区域内的700kb的最小共有缺失区域。利用不同假常染色体标志序列对AK和SS患者的DNA进行Southern印迹检测鉴定到远离DXYS15约700kb处有一个Xp末端缺失(Ogata等，1992；Ogata等，1995)。

与矮小身材对应的基因区域已被确定是X、Y染色体PAR1区域内的一个约500kb的区域，更好的是约170kb的区域。在该区域中已经鉴定出矮小身材基因的三个候选基因。这些基因被定名为SHOX基因(也称为SHOX93或HOX93)(SHOX=含矮小身材同源异型框的基因)，pET92和SHOT(第三染色体上的类SHOX同源异型框的基因)。SHOX基因尤其重要，该基因含有两个分开的剪接位点，因此有两种变型(SHOX a和b)。在初步研究中，分析了矮小身材基因核酸序列的必要部分(SEQ ID No 8)。可以预测出和确定其中的各个外显子或组成部分(例如，外显子Ⅰ[G310]；外显子Ⅱ[ET93]；外显子Ⅳ[G108]；pET92)。所获得的序列信息可以用来设计合适的引物或者能与SHOX基因的一部分或其片段杂交的核酸探针。SHOX基因可以用传统的方法进行分离。对矮小身材基因的DNA序列进一步进行分析，可以确定外显子Ⅰ-Ⅴ的核酸序列(参见图1-3)。SHOX基因含有约180bp的一个同源异型框序列(SEQ ID NO:1)(参见图2和图3)，从编码第117个氨基酸(Q)至编码第176个氨基酸(E)的核苷酸，即从CAG(440)到GAG(619)。通过对250个原发性矮小身材个体的筛选，鉴定该同源异型框序列即为同源异型框-pET93(SHOX)序列，还分别自一个德国(A1)矮小身材患者和一个日本矮小身材患者体内发现了两个点突变。两个点突变在相同的位置，均导致在第195氨基酸处发生蛋白截断，提示这里可能存在一个突变热点。由于发现了这两个导致蛋白截断的突变是在同一位置，推测在外显子4[G108]中存在一个重组热点。因此可以使用如下的外显子特异性引物，例如GCA CAG CCA ACC ACC TAG(正向)或TGG AAA GGC ATC ATC CGT AAG(反向)。

上述位于170kb间隔区的新的含同源异型框的基因SHOX，在选择性剪接后产生两个功能不同的蛋白。突变分析和DNA测序用来显示矮小身材可能起因于SHOX的突变。

矮小身材基因关键区域的鉴定和克隆根据本发明如下进行：对15名假常染色体区域(PAR1)部分单倍体化的个体作精细的物理图谱研究。通过对照这些个体的身高与缺失断裂点的相关性，确定出约700kb的矮小身材(SS)基因关键区。随后利用PAR1区域构建的酵母人工染色体(YACs)(Ried等，1996)通过粘粒步移将这个关键区克隆生成一个重叠的粘粒连续克隆系。为了找到位于该间隔区的SS候选基因，采用多种技术研究位于粘粒56G10远端和51D11近端之间的约600kb区域。用cDNA选择、外显子截留法、CpG岛克隆，鉴定到两个新基因。

对三个一致性身材矮小的更特殊个体(GA,AT和RY)的特征进行研究，可以将矮小身材基因关键间隔区的位置限定到一个更小的170kb的DNA间隔区。为了精确定位这些个体的重排断裂点，用来自上述连续克隆系的粘粒在中期染色体上作荧光原位杂交(FISH)。患者GA，其发生了末端缺失，身高正常，确定出该关键区域的远端界线(断裂点位于粘粒110E3)；患者AT，其X染色体发生倒位，身高正常，确定出近端界线(断裂点位于粘粒34F5)。发现发生了末端缺失且矮小身材的患者RY的Y-染色体断裂点也包含在粘粒34F5内，提示该区域含有倾向发生染色体重排的序列。

由Xp/Yp端粒所限定的整个区域已被克隆生成一组重叠粘粒。用这些粘粒作荧光原位杂交(FISH)，研究6名X染色体发生了重排的患者，其中3人身高正常，3人身材矮小。基因型-表型相关性使我们能将矮小身材基因关键间隔区缩窄到包含对人类生长有重要作用的一个或一些基因的270kb甚至170kbDNA区域。桥接该间隔区的6到8个粘粒形成的最小盖瓦式路径(tiling path)可以应用于间期和中期FISH，从而提供了一个有价值的原发性身材矮小症患者的诊断研究工具。附图简述

图1是SHOX基因的基因图谱，包括5个外显子，标记如下：外显子Ⅰ:G310；外显子Ⅱ:ET93；外显子Ⅲ: ET45；外显子Ⅳ:G108；外显子Ⅴa和Ⅴb。其中Ⅴa和Ⅴb源于SHOX基因的两个不同剪接位点。外显子Ⅱ和Ⅲ含有180个核苷酸的同源异型框序列。

图2和3是SHOXa和SHOXb的核苷酸序列和推测的氨基酸序列：

SHOXa：推测翻译起点在第92个核苷酸处，而阅读框内第一个终止密码子(TGA)在第968-970核苷酸，从而形成一个876bp的开放阅读框，编码预测为292个氨基酸的蛋白(分别命名为转录因子A或SHOXa蛋白)。在第4核苷酸处的阅读框内5’终止密码子、起始密码子和推测的终止密码子以粗体表示。同源异型框以框线示出(从117号氨基酸(Q)到176号氨基酸(E)，即核苷酸序列是从CAG到GAG)。内含子的位置用箭头示出。位于3’非翻译区的两个被推测为多聚腺苷酸化信号序列的下面加有下划线。

SHOXb:876bp的开放阅读框从第92号核苷酸对应的第一个蛋氨酸A到第767-769号核苷酸对应的阅读框内终止密码子为止，形成675bp的开放阅读框，编码预计为225个氨基酸的蛋白(分别为转录因子B或SHOXb蛋白)。内含子的位置用箭头示出。外显子Ⅰ-Ⅳ与SHOXa相同，外显子Ⅴ是SHOXb特有的。3’非翻译区内的两个被推测为多聚腺苷酸化信号序列的下面加有下划线。

图4是SHOT的核苷酸序列和推测的氨基酸序列。推测翻译起点在第43个核苷酸处，而阅读框内第一个终止密码子(TGA)在第613-615核苷酸处，从而形成一个573bp的开放阅读框，编码预测为190个氨基酸的蛋白(分别命名为转录因子C或SHOT蛋白)。同源异型框由框线示出(从11号氨基酸(Q)到第70号氨基酸(E)，即核苷酸序列是从CAG到GAG)。内含子的位置用箭头示出。3’非翻译区内的两个被推测为多聚腺苷酸化信号序列的下面加有下划线。

图5给出人类SHOX基因的外显子/内含子组织方式以及各自在核酸序列中的位置。序列简述：

SEQ ID NO.1：翻译后的同源异型框结构域(180 bp)的氨基酸序列

SEQ ID NO.2:SHOX基因的外显子Ⅱ(ET93)

SEQ ID NO.3:SHOX基因的外显子Ⅰ(G310)

SEQ ID NO.4:SHOX基因的外显子Ⅲ(ET45)

SEQ ID NO.5:SHOX基因的外显子Ⅳ(G108)

SEQ ID NO.6:SHOX基因的外显子Ⅴa

SEQ ID NO.7:SHOX基因的外显子Ⅴb

SEQ ID NO.8:SHOX基因的初始核苷酸序列

SEQ ID NO.9:ET92基因

SEQ ID NO.10:SHOXa序列(亦可参见图2)

SEQ ID NO.11：转录因子A(亦可参见图2)

SEQ ID NO.12:SHOXb序列(亦可参见图3)

SEQ ID NO.13：转录因子B(亦可参见图3)

SEQ ID NO.14:SHOX基因

SEQ ID NO.15:SHOT序列(亦可参见图4)

SEQ ID NO.16：转录因子C(亦可参见图4)

因为在本发明之前，引起人类生长失调的目标基因(例如，矮小身材基因区域)是不为人知的，患者的生物学和临床症状与这个缺失的关系有助于理解这个基因的功能。在本发明中，用荧光原位杂交(FISH)检测了6名患者的中期和间期淋巴细胞核。其目的是测试所有重叠粘粒能否作为FISH探针，以及确定四个病例的断裂点区域，从而确定矮小身材基因最小的关键区域。

利用小心控制的定量PCR或Southern印迹剂量估计或者利用RFLP，可以以技术手段评估出基因组DNA的复制和缺失。但一种尤为可信的用于区别单倍和双倍剂量标志序列的方法是FISH，该技术已常规性地用于临床。间期FISH可以对分子标志序列的存在与否作出估测，中期染色体的FISH可以对粘粒内缺失进行半定量测量。本发明人已发现大约10kb的缺失(信号减少25％)仍能被检测到。这有很重要的意义，因为事实上人类X染色体上的所有疾病基因都与几千到几百万碱基对的或大或小的缺失相关(Nelson等，1995)。

本发明主题是人生长(或矮小身材，如果这些基因发生遗传缺陷的话)相关基因的一部分的DNA序列或片段。鉴定到的三个与人生长直接相关的基因是：SHOX、pET92和SHOT。这些基因的DNA序列或片段以及这些基因各自的全长完整序列可以被转化到合适的载体中，并转染进细胞中。当将这些载体以适当的方式导入细胞，使其与健康人体内的情况相同，就能有目的地以现代基因治疗手段治疗包括矮小身材即Turner综合症在内的多种疾病。例如，治疗矮小身材可以采取去除引起矮小身材的突变基因的方法。还可以刺激相关的能补偿与身材矮小直接相关的基因的活性的基因，即通过在生长/身材矮小基因之前、之后或之间插入DNA序列以便提高健康等位基因的表达。基因被如此修饰后，生长/身材矮小基因将相应激活或沉默。这一目的可通过在临近该基因或基因内的合适位点插入DNA序列来实现，这些被插入的DNA序列干扰生长/矮小基因，从而激活或抑制它们的转录。也可以在所述生长基因前插入调控元件(例如启动子序列)使其活跃表达。还可以刺激相应的启动子序列，在Turner综合症情况下使功能正常的等位基因过表达以祢补缺失的等位基因。基因的修饰可以通过同源重组而在生长/矮小基因中插入外源DNA序列来实现。

还可用本发明的DNA序列通过合适的载体系统对动物，例如哺乳动物进行转化。得到的转基因动物随后可用于活体内研究，用于筛选或鉴定能有效治疗涉及矮小身材等疾病的药物。如果动物对所给的候选化合物或试剂呈阳性反应，则可将该化合物或试剂或其衍生物设计成药物。通过适当的手段，本发明的序列还可以用于其目的在于找到能补偿导致身材矮小的基因缺失的方法的遗传实验(基因被敲除的动物)。

本发明另一个方面是，本发明DNA序列可以用于转化细胞。可用这些细胞鉴定能有效治疗包括矮小身材等疾病的药物，或筛选这样的化合物或化合物库。在适当的实验体系中，可以确定这些细胞的表型或表达方式的变化，从而在开发药物过程中鉴定到令人感兴趣的候选药剂。

本发明的DNA序列还可用于设计出合适的引物，该引物能与矮小基因片段或区段在严谨条件下杂交。可以构建合适的引物序列，这些序列可用于诊断由基因缺陷而导致的身材矮小患者。关于这一点，出现在相同位置上的两个突变提示有一个突变热点存在，这是值得人们注意的。

总体来说，应该理解的是本发明的DNA序列还包括根据遗传密码的简并性变成所示特定序列的DNA序列，或者与图示的特定序列在严谨条件下能杂交的DNA序列。

本发明具体涵盖以下方面的内容：

a)一种分离的人类核酸分子，该分子编码的多肽包括60个氨基酸的同源异型框结构域，该结构域具有SEQ ID NO:1的氨基酸序列，该多肽有调节人体生长的活性。

b)一种分离的DNA分子，该分子所包含的核苷酸序列基本如图2、3或图4所示，具体地讲如SEQ ID NO:10、SEQ ID NO:12或SEQ IDNO:15所示。

c)能与b)项的DNA分子杂交的DNA分子。

d)c)中能与b)项的DNA分子在60-70℃在标准缓冲液中杂交的DNA分子

e)包含与图示的SEQ ID NO:10、SEQ ID NO:12或SEQ ID NO:15核苷酸序列有70％或更高的同源性的核苷酸序列的DNA分子，该DNA分子编码具有人体生长调节活性的多肽。

f)具有SEQ ID NO-11、13或16所列氨基酸序列的人生长蛋白或其功能性片段。

g)用f)项的人生长蛋白或其抗原性变异体免疫动物后得到的抗体。

h)含有人生长蛋白或其功能性片段的药物组合物，该组合物可用于治疗由人类生长基因的遗传突变导致的失调。

i)一种能有效治疗如上h)项所述生长失调的物质的筛选方法，包括检测能与上述a)-e)项的任一DNA分子杂交的信使RNA，以便衡量用该物质处理宿主细胞时引起的DNA分子表达水平的提高。

j)含有上述a)-e)项中任意核酸分子的表达载体或质粒，该载体或质粒能在哺乳动物细胞中表达所述DNA分子。

k)一种在生物组织或体液样品中检测引起矮小身材的一个或一些基因的方法。

在k)项所述方法中，优选采用本领域技术人员熟知的检测特异核苷酸序列的核酸扩增技术，例如PCR，其详细方法描述于，例如，本文引作参考的文献中，Mullis等，1986,冷泉港研讨会定量生物学，51,263-273，及Saiki等，1988，科学239,487-491。要确定的矮小身材核苷酸序列主要是SEQ ID NO:2到SEQ ID NO:7所代表的那些。

原则上，所有能用于在生物样品中扩增和检测引起生长停滞的基因缺陷的寡核苷酸引物和探针，都适用于扩增矮小身材相关靶序列。特别是表1给出的适用于本发明的外显子特异引物对。随后可以进行合适的检测例如放射性或非放射性标记检测。

表1

外显子	有义引物	反义引物	产物(bp)	Ta(℃)
外显子	有义引物	反义引物	产物(bp)	Ta(℃)	5’-Ⅰ(G310)3’-Ⅰ(G310)Ⅱ(ET93)Ⅲ(ET45)Ⅳ(G108)Ⅴa(SHOXa)	SP1SP2SP3SP4SP5SP6	ASP1ASP2ASP3ASP4ASP5ASP6	194295262120154265	585876/72/68656261

引物中缩写符号的含义：

SP1:ATTTCCAATGGAAAGGCGTAAATAAC

SP2:ACGGCTTTTGTATCCAAGTCTTTTG

SP3:GCCCTGTGCCCTCCGCTCCC

SP4:GGCTCTTCACATCTCTCTCTGCTTC

SP5:CCACACTGACACCTGCTCCCTTTG

SP6:CCCGCAGGTCCAGGCTCAGCTG

ASP1:CGCCTCCGCCGTTACCGTCCTTG

ASP2:CCCTGGAGCCGGCGCGCAAAG

ASP3:CCCCGCCCCCGCCCCCGG

ASP4:CTTCAGGTCCCCCCAGTCCCG

ASP5:CTAGGGATCTTCAGAGGAAGAAAAAG

ASP6:GCTGCGCGGCGGGTCAGAGCCCCAG

单链RNA也可以作为靶序列。RNA反转录为cDNA的方法是众所周知的，这一技术被描述于Sambrook等，分子克隆：实验室手册，纽约，冷泉港实验室1989。另外，优选使用耐热的具有RT活性的DNA聚合酶进行反转录。

另外，可以用以前描述过的技术从一群人中挑选其矮小身材是由基因缺陷导致的人，以便结果进行更特异的药物治疗。

在本发明的另一个主题中，转录因子A、B和C可以作为药物。这些转录因子在分子水平上启动涉及人体生长的一系列级联生物学效应。所述蛋白或其功能性片段能促进多种细胞的有丝分裂，特别是它们具有促进骨生成的作用。它们可以用于治疗骨骼疾病，例如骨质疏松症，尤其是涉及骨骼钙调节失衡的所有疾病。

本文所用的术语“分离的”是指DNA分子通过克隆得到的初始衍生物。但应该明白，其含义不局限于此，事实上，正如本领域技术人员所理解的，本发明涉及天然存在的和合成制备的序列。

本发明的DNA分子可以以基因治疗剂的形式使用，包括使用表达质粒，该质粒的制备是将本发明中合适的DNA序列连接在能影响它在哺乳动物宿主细胞中的表达的启动子的下游。合适的宿主细胞是原核或真核细胞。原核细胞例如是大肠杆菌、枯草杆菌等。用于转染宿主细胞的复制子是源于适应宿主的种类的复制子，即包含复制起始位点和调控序列的质粒载体，这样宿主细胞就可被期望的基因或cDNA转染。优选载体含有一段序列，该序列赋予宿主可被挑选出来的特性(表型)。例如，常用E.coli K12菌株作为大肠杆菌宿主，载体可以选用质粒pBR322或pUC。适用于大肠杆菌的启动子是trp启动子、lac启动子或lpp启动子。如果需要，可以在基因的5’上游连接一段编码信号肽的DNA序列，以使表达产物分泌到细胞膜外。真核宿主细胞包括来源于脊椎动物或酵母等的细胞。如用脊椎动物宿主细胞，可以用COS细胞(细胞，1981,23:175-182)，或CHO细胞。优选所用启动子位于待表达基因的5’上游，(所述基因)含有RNA剪接位点、多聚腺苷酸化和转录终止序列。

本发明的转录因子A、B、C可以用于治疗由人生长基因突变引起的失调，也可以作为生长促进剂。基于真核基因的多态性，一个或多个氨基酸可被替代。另外，可以在多肽SEQ ID NO:11、13或16所示氨基酸序列的一或多个位点中插入或缺失一或多个氨基酸。此处所述多肽一般是指未被修饰生物学活性基本保持不变的等效多肽。

本发明通过以下实施例来说明：实施例1

患者

6名患者均为原发性染色体异常。

CC是一名核型为45,X/46,X pus dic(X)(Xqter→Xp22.3∷Xp22.3→Xqter)的女孩。在6岁半时最后一次检查，她的身高为114厘米(处于第25-50百分位的范围内)。其母身高为155厘米，其父未做检测。欲知详细内容，请参见Henke等，1991。

GA是一名核型为46,X der X(3pter→3p23∷Xp22.3→Xqter)的女孩。在17岁时最后一次检查，她的身高正常，为159厘米。其母身高为160厘米，其父为182厘米。欲知详细内容，请参见Kulharya等，1995。

SS是一名核型为46,X rea(X)(Xqter→Xq26∷Xp22.3→Xq26:)的女孩。11岁时身高仍低于日本女孩生长曲线的第3百分位；预计其成年身高为148.5cm，低于其目标身高(163cm)和目标身高范围(155-191cm)。欲知详细内容，请参见Ogata等，1992。

AK是一名核型为46,X rea(X)(Xqter→Xp22.3∷Xp22.3→Xp21.3：)的女孩。13时身高仍低于日本女孩生长曲线的第2百分位；预计其成年身高为142.8cm，低于其目标身高(155.5cm)和目标身高范围(147.5-163.5cm)。欲知详细内容，请参见Ogata等，1995。

RY：一个环形Y患者，检测100个淋巴细胞得其核型为46,X,r(Y)/46,X dic r(Y)/45,X[95∶3∶2]；其16岁时的最终身高为148cm；他的三个兄弟身高均在正常范围，分别为：170cm(16岁，兄弟1),164cm(14岁，兄弟2)、128cm(9岁，兄弟3)。这个患者生长迟缓非常严重，可能是在Yq还缺失了GCY座位。

AT：运动失调、X染色体有倒位的男孩；7岁身高正常，为116cm，其父母分别为156cm和190cm。

用于突变分析的患者：

检测250名原发性矮小身材个体的SHOXa突变。患者的选择遵循如下原则：其年龄对应的身高低于全国身高标准的第三百分位，标准误差为-2(SDS)；没有病原性疾病，特别是：相对妊娠年龄体重(身高)正常，体型正常，没有慢性器官紊乱，饮食正常，没有精神失常，没有骨骼发育不良，没有甲状腺或生长激素缺乏。

家族A：

病例1和2是一个德国无血缘关系家庭的矮小身材子女。男孩(病例1)生于在妊娠38周时的剖腹产。出生体重为2660克，身高为47cm。他的发育除生长情况外均正常。6.4岁时检测，他较为矮小(106.8cm，-2.6SDS)和肥胖(22.7kg)，但其他方面正常。他的骨骼年龄没有延迟(6岁)，X-射线检查也排除了骨骼发育不良。血清中IGF-I和IGFBP-3水平和甲状腺参数指示不可能有GH或甲状腺激素缺陷。女孩(病例2)出生于足月剖腹产。出生体重为2920克，身高为47cm。她的发育进程正常，但在12个月以前生长不良是明显的(身高：67cm,-3.0SDS)。4岁时，其身高为89.6cm(-3.6SDS)。没有明显的体型畸形或比例失调。她也不肥胖(13kg)。她的骨骼年龄是3.5岁，排除了骨骼发育不良。激素参数正常。有趣的是该男孩和女孩均达到Turner综合症女性生长曲线的第50百分位。其母亲是家族中最矮的，患有轻度肢根比例失调(142.3cm,-3.8SDS)。她的两姐妹之一(150cm,-2.5SDS)和该家庭的外婆(153cm,-2.0SDS)均矮小但没有比例失调。另一个姐妹身高正常(167cm,+0.4SDS)。该家庭中父亲身高为166cm(-1.8SDS)，外公身高165cm(-1.9SDS)。另一个患者为日本血统，显示有同样的突变。实施例2

矮小身材基因的鉴定

A．原位杂交

a)荧光原位杂交(FISH)

用粘粒在Xp/Yp假常染色体区域(PAR1)进行荧光原位杂交(FISH)。FISH研究所用粘粒为64/75cos(LLNLc110H032)、E22cos(2e2)、F1/14cos(110A7)、M1/70cos(110E3)、P99F2cos(43C11)、P99cos(LLNLc110P2410)、B6cosb(1CRFc104H0425)、F20cos(34F5)、F21cos(ICRFc104G0411)、F3cos2(9E3)、F3cos1(11E6)、P117cos(29B11)、P6cos1(ICRFc104P0117)、P6cos2(LLNLc110E0625)和E4cos(15G7)、按照Lichter和Cremer,1992方法进行该FISH研究。简要步骤是，取一毫克各粘粒克隆用生物素标记，与人中期染色体杂交，所取反应条件能抑制重复DNA序列产生的信号。用偶联FITC的亲和素检测杂交信号。用冷的电荷耦合器摄影系统拍摄FITC图象(Photometrics,Tucson,AZ)。

b)物理图谱

粘粒来源于Lawrence Livermore国家实验室X-和Y-染色体库和伦敦皇家癌症研究基金会(现为柏林Max P1anck分子遗传学研究所)X染色体库。用DXYS15远端粘粒E4cos、P6cos2、P6cos1、P117cos和F3cos1可以确定仍有两个拷贝的E4cos、P6cos2、P6cos1和一个拷贝的P117cos和F3cos1。患者AK和SS的断裂点确定位于粘粒P6cos1上，相互的最大图距为10kb。可以得出结论：AK和SS的异常X染色体有约630kb的DNA缺失。

其他粘粒来自ICRF X染色体特异粘粒库(ICRFc104)，LawrenceLivermore X染色体特异粘粒库(LLNLc110)和Y染色体特异库(LLCO3’M)以及自建的包含整个基因组的粘粒库。用所有已知位于这一区域的探针和用整个YACs作为探针进行杂交以鉴定粘粒。为证实重叠序列，在用已知探针不能证实重叠的情况下，要用来自于几个粘粒的末端探针。

c)Southern印迹杂交

用不同假常染色体标志序列做Southern印迹杂交，证明CC患者的X染色体断裂点位于DXYS20(3cosPP)和DXYS60(U7A)之间(Henke等，1991)。为了证实这个发现并精确确定断裂点的位置，用粘粒64/75cos、E22cos、F1/14cos、M1/70cos、F2cos、P99F2cos和P99cos做FISH探针。可以确定患者CC异常X染色体上的断裂点在E22PAC中，位于粘粒64/75cos(一个拷贝)和F1/14cos(两个拷贝)之间。患者CC丢失了接近260-290kb的DNA，身高仍正常。

Southern印迹杂交在高度严谨条件下在Church缓冲液(0.5M NaPipH7.2,7％SDS,1mM EDTA)中进行，反应温度65℃，用40mM NaPi,1％SDS于65℃洗涤。

d)FISH检测

生物素标记的粘粒DNA(插入片段为32-45kb)或粘粒片段(10-16kb)与患者的被激活淋巴细胞的中期染色体杂交，反应条件如前所述(Lichter和Cremer,1992)。发生了杂交的探针用亲和素偶联的FITC检测。

e)PCR扩增

所有PCR均在50ul反应体系中进行，所述50ul中含有100pg-200ng模板、各为20pmol的引物、200uM dNTP’s(Pharmacia)、1.5mM MgCl₂、75mM Tris/HCl(pH9)、20mM(NH₄)₂SO₄、0.01％(w/v)Tween20和2U的Goldstar DNA聚合酶(Eurogentec)。热循环用ThermocyclerGeneE(Techne)做。

f)外显子扩增

外显子扩增采用四个粘粒库，各含4到5个来自粘粒连续克隆系的克隆。每个粘粒库中的粘粒用Sau3A部分消化。将经凝胶纯化的4-10kb片段克隆至BamHI消化的pSPL3B载体(Burn等，1995)中，用如以前所描述方法做外显子扩增(Church等，1994)。

g)基因组测序

将两个粘粒LLOYNCO3’M’15D10和LLOYNCO3’M’34F5经超声破碎的断片分别亚克隆至M13mp18载体中。从每个粘粒库至少挑出1000个噬菌斑，M13 DNA的制备和测序用染料-终止剂(dye-terminators)、耐热测序酶(Amersham)和通用M13-引物(MWG-BioTech)。在ABI-377测序仪上跑胶，收集数据，并用GAP4程序(Staden)进行编辑。

6名患者中，GA的染色体断裂点的特征最不明确。先前用于检测它们是否存在于X染色体的最远端标志物是DXS1060和DXS996，它们与端粒的图距接近6Mb(Nelson等，1995)。检测了几个含有PAR1内的不同基因序列的粘粒(MIC2、ANT3、CSF2RA和XE7)，结果表明它们全部位于易位染色体上。由矮小身材基因关键区域例如染色体产生的粘粒断定易位断裂点位于粘粒M1/70cos。正常的和重排X染色体之间M1/70cos信号强度的定量对比显示这个粘粒的约70％缺失。

表2

	CC	GA	AK	SS
	CC	GA	AK	SS	64/75cosE22cosF1/14cosM1/70cosF2cosP99F2cosP99cosB6cosF20cosF21cosF3cos2F3cos1P117cosP6cos1P6cos2E4cos	--+++++	---(+)++++	--+++	--+++

表2：表中总结了用16个粘粒在4名患者中检测的FISH数据

[-]一个拷贝；表明相应粘粒在重排X上缺失，但在正常X染色体上存在。

[+]两个拷贝；表明相应粘粒在重排X和正常X染色体上都存在。

[(+)]断裂点区域；表明FISH显示断裂点在粘粒内部。

总之，用荧光标记的粘粒探针和原位杂交对6名X染色体重排的患者进行的分子检测表明矮小身材基因关键区可以缩窄到一个270kb间隔区，该区由患者GA着丝粒远端断裂点和患者AK和SS的着丝粒近端界定。

基因型-表型相关性可以提供一定信息，该相关性已被选择用于描述在人X和Y染色体上的矮小身材基因关键间隔区。本研究中，用FISH检测患者淋巴细胞中期染色体(spreads)和间期细胞核，这些患者的X染色体上有缺失和易位，这些断裂点位于Xp22.3。断裂点在四名患者中的两位(AK和SS)中呈现簇状结构，预计是由有染色体重排倾向的序列造成的。发现另一个环形Y患者在270 kb关键区内有中断，由此使关键间隔区减小到170kb。

对照6个人的身高与缺失断裂点，可以确定170kb间隔区位于假常染色体区域，该区域的存在与否对身高有显著的影响。这个间隔区由患者GA距离端粒340kb的X染色体断裂点(Xpte1)和患者AT及RY的510/520kb处的Xptel近端断裂点界定。这样将关键间隔区缩小到其原来大小(Ogata等，1992；Ogata等，1995)的几乎四分之一。现在可以用6到8个的一组粘粒做FISH试验，用于确定大量原发矮小身材患者中这个基因组位点的分布优势和重要性。

B．候选矮小身材基因的鉴定

为了找到最小的170kb关键区中的转录单位，对6个粘粒(110E3、F2cos、43C11、P2410、15D10、34F5)做外显子截留和cDNA选择研究。三个不同的阳性克隆(ET93、ET45和G108)由外显子截留法分离得到，它们又全部定位到粘粒34F5上。以前使用cDNA选择和过量使用25个不同cDNA文库的方法经证明无效，这一点提示间隔区的基因的表达丰度极低。

为了查明间隔区内的基因是否有丢失，用任意M13方法和染料终止剂化学测定PAR1这个区域约140kb的核苷酸序列。挑选出的用于序列分析的粘粒相互重叠程度最低，并且它们组合在一起则跨越整个关键间隔区。DNA序列分析后，用1.3c版的“X Grail”程序和外显子截留法程序FEXHB推测蛋白序列，证实了先前克隆的3个外显子。除先前分离的外，没有检测到其他编码蛋白质的基因。

C．矮小身材候选基因SHOX的分离

假定三个外显子克隆ET93、ET45和G108都是同一个基因的一部分，用它们作为探针筛选14个不同的cDNA文库，这些文库来自12个不同的胎儿(肺、肝、脑1和2)和成人组织(卵巢、胎盘1和2、成纤维细胞、骨骼肌、骨髓、脑、脑干、视丘下部、垂体)。在将近14,000,000个被铺板克隆中一个克隆也没有检测到。做3’和5’RACE来分离全长转录产物。做3’RACE时，来自外显子G108的引物用于胎盘、骨骼肌和骨髓成纤维细胞组织的RNA，结果显示G108在这些组织中表达。所有三种组织均产生两个不同的分别为1173和652bp的3’RACE克隆，提示有两个不同的3’外显子存在。命将这两种不同的形式命名为SHOXa和SHOXb。

为了提高分离到表达丰度极低的该基因的完整5’外显子的机会，用视黄酸和波佛酯PMA处理Hela细胞系。用该经诱导的细胞系的RNA和胎盘、骨骼肌的RNA构建一个“马拉松cDNA文库”。从所有三种组织中均分离到相同的5’RACE cDNA克隆。

实验步骤：

RT-PCR和cDNA文库构建

从Clontech购得人心脏、胰腺、胎盘、骨骼肌、胎儿肾脏和肝的polyA⁺RNA。从骨髓成纤维细胞系用TRIZOL试剂(Gibco-BRL)按照厂商的说明分离总RNA。cDNA第一链的合成采用Superscript cDNA第一链合成试剂盒(Gibco-BRL)，用寡(dT)-接合体引物(GGCCACGCGTCGACTAGTAC[dT]₂₀N)，反应以100ng polyA⁺RNA或者10ug总RNA起始。cDNA第一链合成后，将反应体系稀释1/10。5ul稀释液用于以下PCR试验。

按照厂商描述的马拉松cDNA扩增试剂盒(Clontech)使用方法，由胎盘、骨骼肌的RNA构建“马拉松cDNA文库”。

胎儿脑(Catalog#HL5015b)、肺(HL3022)、卵巢(HL1098a)、垂体(HL1097v)和视丘下部(HL1172b)cDNA文库购自Clontech。脑、肾脏、肝和肺cDNA文库是Clontech快速筛选(型)人cDNA文库组群(panel)的一部分。胎儿肌肉cDNA文库自UK人类基因组图谱计划信息中心获得。

D．序列分析和SHOX基因结构

分析5’和3’RACE衍生克隆的序列，得到SHOXa和SHOXb(1349和1870bp)的一个共有序列。鉴定到1870bp(SHOXa)和1349bp(SHOXb)的唯一开放阅读框，分别产生292(SHOXa)和225(SHOXb)个氨基酸的蛋白。转录产物a和b有相同的5’末端，但3’末端的外显子不同，这个发现提示所用的剪接信号是不同的。将两个cDNA和来自粘粒LL0YNCO3’M’15D10、LL0YNC3’M’34F5的基因组DNA序列进行完全的序列对比，从而建立外显子-内含子结构(图4)。基因含有大小在58bp(外显子Ⅲ)-1146bp(外显子Ⅴa)的6个外显子。外显子Ⅰ含有一个CpG岛、起始密码子和5’区。每个选择性剪接的外显子Ⅴa和Ⅴb都带有一个终止密码子和3’-非编码区。实施例3

在160kb的矮小身材基因关键区域内鉴定到两个cDNA。这两个cDNA对应着基因SHOX和pET92。两者是通过粘粒亚克隆与cDNA文库杂交鉴定到的。

完全涵盖所述关键区的一套粘粒克隆给我们提供了鉴定矮小身材发生基因的遗传材料。用外显子截留法和cDNA选择技术实施目的在于从该区域分离基因的定位克隆计划。根据它们位于假常染色体区内，可以设想这些基因逃脱了X-失活并且具有剂量效应。

对在其丢失或不完善时将导致矮小身材的基因的克隆，提供了通过例如单链构象多态性在该基因内进行突变分析的基础，这代表着进一步提高了诊断准确性。另外，这个基因的克隆以及随后的生化性质研究开辟了通往对参与生长调控的生物过程有更深理解的道路。

本发明的DNA序列提供了第一个分子检测手段，在复杂的不同种类的原发矮小身材患者中确认特异性遗传紊乱的个体。实施例4SHOXa和SHOXb的表达方式

用单个外显子作杂交探针进行的Northern印迹分析显示每个外显子表达图案各不相同，这一点强烈提示不同大小和强度的条带代表与其他富含GC的基因序列发生交叉杂交形成的产物。为了得到基因SHOXa和SHOXb的更真实的表达概况，用来自不同组织的RNA做RT-PCR。在骨骼肌、胎盘、胰腺、心脏和骨髓成纤维细胞中观察到SHOXa的表达，而SHOXb仅在胎儿肾脏、骨骼肌和骨髓成纤维细胞中表达，且在骨髓成纤维细胞中的表达远远超过其他组织，表达最强。

由胎儿脑、肺和肌肉以及成人脑、肺和垂体制备的几个cDNA文库中的SHOXa的表达，以及SHOXb在测试文库中均不表达，再次证明一种剪接形式(SHOXa)表达更广泛，而另一种(SHOXb)主要以组织特异性方式表达。

我们用由不同细胞系提取的RNA做RT-PCR来评测X和Y染色体上SHOXa和SHOXb的转录活性，所述细胞系所含有的人染色体只有活性X、失活X或者Y染色体。所有细胞系均显示预期中的119bp(SHOXa)和541bp(SHOXb)的扩增产物，明确说明SHOXa和SHOXb都逃脱了X-失活。

SHOXa和SHOXb编码新的同源结构域蛋白。SHOX是从哺乳动物到鱼类和两翼昆虫高度保守的基因。除同源结构域外，5’最末端和3’最末端是人和鼠之间可能的保守区，表明它在功能上的重要性。人和鼠之间那些氨基酸区域的差异在进化过程没有发生累积。

实验步骤：

a)5’和3’RACE

为了克隆SHOXa和SHOXb转录产物的5’末端，用我们构建的“马拉松cDNA文库”做5’RACE。所用寡核苷酸引物如下：SHOXB反向，GAAAGGCATCCGTAAGGCTCCC(位置697-71 8，反向链)和接合体引物AP1。按如下参数完成PCR:94℃、2分钟，94℃、30秒，70℃、30秒，72℃、2分钟，5个循环。94℃、30秒，66℃、30秒，72℃、2分钟，5个循环。94℃、30秒，62℃、30秒，72℃、2分钟，25个循环。第二轮扩增采用1/100的PCR产物和以下巢式寡核苷酸引物：SHOX A反向，GACGCCTTTATGCATCTGATTCTC(位置617-640，反向链)和接合体引物AP2。做35个PCR循环，退火温度为60℃。

为了克隆SHOXa和SHOXb转录产物的3’末端，按照以前的描述(Frohman等，1988)用寡聚(dT)接合体引导合成的第一链cDNA做3’RACE。所用寡核苷酸引物如下：SHOX A正向，GAATCAGATGCATAAAGGCGTC(位置619-640)和寡聚(dT)接合体。按如下参数完成PCR:94℃、2分钟，94℃、30秒，62℃、30秒，72℃、2分钟，35个循环。二轮扩增采用1/100的PCR产物和以下巢式寡核苷酸引物：SHOX B正向，GGGAGCCTTACGGATGCCTTTC(位置697-718)和寡聚(dT)接合体。做35个PCR循环，退火温度为62℃。

为了确定SHOXa和SHOXb转录产物的序列，用一个5’寡核苷酸引物和一个3’寡核苷酸引物做PCR。针对SHOXa所用引物如下：G310正向，AGCCCCGGCTGCTCGCCAGC(位置59-78)和SHOX D反向，CTGCGCGGCGGGTCAGAGCCCCAG(位置959-982，反向链)。针对SHOXb所用引物如下：G310正向，AGCCCCGGCTGCTCGCCAGC和SHOX2A反向，GCCTCAGCAGCAAAGCAAGATCCC(位置1215-1238，反向链)。两个PCR参数均为：94℃、2分钟，94℃、30秒，70℃、30秒，72℃、2分钟，5个循环。94℃、30秒，68℃、30秒，72℃、2分钟，5个循环。94℃、30秒，65℃、30秒，72℃、2分钟，35个循环。产物经凝胶纯化并克隆用于序列分析。

b)SSCP检测

按照以前描述的方法(Orita等，1989)对患者基因组扩增DNA做SSCP检测。1到5ul PCR产物与5ul含有95％Formamid和10mM EDTApH8变性溶液混匀，于95℃变性10分钟。将样品立即置冰上冷却，上样到含2％甘油和1xTBE的10％聚丙烯酰胺凝胶(丙烯酰胺∶甲叉丙烯酰胺=37.5∶1和29∶1；Multislotgel,TGGE base,Qiagen)。于15℃,500V跑胶3到5小时，按TGGE手册所述进行银染(Qiagen,1993)。

c)PCR产物的克隆和测序

用Amersham公司出品的pMOSBlueT-载体试剂盒将PCR产物克隆至pMOSBlue。将单克隆的过夜培养物在100ul H₂O中煮沸10分钟予以裂解。裂解液作为PCR模板，用特异引物制备克隆PCR产物。PCR产物的SSCP能够鉴定含不同等位基因的克隆。被克隆的序列用CY5标记的载体引物Uni和T7，按照厂商所述循环测序方法(耐热测序酶试剂盒(Amersham))在ALF快速自动测序仪(Pharmacia)上进行测定。

d)cDNA文库的PCR筛选

为了检测SHOXa和SHOXb的表达，用SHOXa和SHOXb的特异引物对几个cDNA文库和第一链cDNA进行PCR筛选。对cDNA文库使用等于5x10⁸pfu的DNA。对SHOXa，所用引物为SHOXE反向，GCTGAGCCTGGACCTGTTGGAAAGG(位置713-737，反向链)和SHOXa正向。对SHOXb，所用引物为SHOXB正向和SHOX2A反向。两个PCR参数均为：94℃、2分钟，94℃、30秒，68℃、30秒，72℃、40秒，5个循环。94℃、30秒，65℃、30秒，72℃、40秒，5个循环。94℃、30秒，62℃、30秒，72℃、40秒，35个循环。

e)cDNA文库的PCR筛选

为了检测SHOXa和SHOXb的表达，用SHOXa和SHOXb的特异引物对几个cDNA文库和第一链cDNA进行PCR筛选。对cDNA文库使用等于5×10⁸pfu的DNA。对SHOXa，所用引物为SHOXE反向，GCTGAGCCTGGACCTGTTGGAAAGG(位置713-737，反向链)和SHOXa正向。对SHOXb，所用引物为SHOXB正向和SHOX2A反向。两个PCR参数均为：94℃、2分钟，94℃、30秒，68℃、30秒，72℃、40秒，5个循环。94℃、30秒，65℃、30秒，72℃、40秒，5个循环。94℃、30秒，62℃、30秒，72℃、40秒，35个循环。实施例5SHOX和SHOT的鼠等同基因OG12的表达方式

用第5p.c.天到18,5p.c.天之间的鼠胚胎以及胎儿和新生鼠做原位杂交确定基因的表达方式。在发育中的肢芽、将来形成鼻子和味觉的鼻中胚层、眼睑、大动脉、发育中的女性生殖腺、发育中的脊髓(仅限于分化中的运动神经细胞)和脑中观察到表达。基于这样的表达方式以及该基因的人等同基因SHOT的图谱位置，SHOT可能是有矮小身材症状的Cornelia de Lange综合症的候选基因。实施例6

第3号染色体上的一个与人生长/矮小身材相关的新的类似SHOX同源异形基因SHOT的分离

由人体分离到的一个新基因SHOT(第3号染色体上的SHOX等同基因)，与鼠OG12基因和人SHOX基因同源性最高。人SHOT基因与鼠OG12基因同源性极高，在蛋白水平达到99％相同。尽管还未证实，但鉴于SHOT和SHOX之间的惊人的同源性(仅在同源结构相同)，很可能SHOT也是一个与矮小身材或人生长相关的基因。

用EMBL数据库的两个新的人类EST(HS1224703和HS126759)获得的引物分离SHOT，以便从骨髓成纤维细胞系(Rao等，1997)扩增逆转录RNA。通过RACE-PCR由骨髓成纤维细胞库制备SHOT的5’和3’末端，该细胞库是按照Rao等(1997)的方法构建的。经FISH检测，确定SHOT位于染色体3q25/q26，是鼠第3号染色体的同线区域的等同基因。基于鼠等同基因OG12的表达方式，SHOT可能是CorneliadeLange综合症(表现为矮小身材和其他症状，包括颅面部异常)的相关基因，位于3q25/26。实施例7寻找原发性矮小身材患者的突变

本发明的DNA序列用于PCR、LCR和其他已知技术以确定矮小身材个体是否有小片段缺失或矮小身材基因内的点突变。

对总共91个(在250名个体中)不相关的男性和女性原发性矮小身材患者(原发性矮小身材在人群中的发生率为2-2.5％)进行了小片段重排或SHOXa基因点突变的检测。设计6套PCR引物以扩增外显子及外显子侧翼序列和5’UTR的一小部分。对最大的外显子，外显子Ⅰ，另外制备两个外显子内部引物。用于PCR的引物如表2所示。

对所有大小在120到295bp的扩增外显子产物均做单链构象多态性(SSCP)检测。只在两名矮小身材患者中(Y91和A1)识别到条带迁移变化。将SSCP模式发生了改变的片段(独特的SSCP构象子)克隆和测序。为了避免PCR和测序时产生的人为假象，测序用两个独立的PCR反应在两条链上进行。患者Y91的突变位于5’UTR起始密码子5’方向28bp处，包括一个胞嘧啶到鸟嘌呤的置换。为了证实这个突变是否代表一种罕见的多态性，或者是否是通过例如减弱翻译起始因子的结合来调节基因表达而造成这样的表型，又检测了其父母和一个姐妹。因为该姐妹和其父身高正常但也有同样的SSCP变型(结果未发表)，这个碱基代表一种罕见的多态性而与表型无关。

将患者A1的独特SSCP构象子进行克隆和测序，显示有一个胞嘧啶到胸腺嘧啶的转换(核苷酸第674位)，在预计的225和292个氨基酸的序列中在氨基酸第195位的位点处引入一个终止密码子。为了确定这个无义突变是否与该家族矮小身材有遗传上关联，进行家谱分析。发现所有6名矮小个体(身高标准误差低于2)都有一个异常SSCP迁移和胞嘧啶到胸腺嘧啶的转换。身高正常的父亲、一个阿姨和外公都没有这个突变，表明祖母将突变等位基因传给了两个女儿和两个外孙。因此这个家族的突变等位基因和矮小身材间有相关性。

在一个日本血统的矮小身材患者中发现了与以上所述相同的情况。实施例8

将本发明的DNA序列用于确定这个或这些基因的功能特点。所述DNA序列可以做为检索核酸或氨基酸数据库的检索式以确认相关的基因或基因产物。我们已经用SHOX93的部分氨基酸序列作为氨基酸数据库的检索式，结果显示与许多已知的同源异型框蛋白高度同源。本发明的cDNA可以用来重组制备肽。本领域技术人员所知道的多种表达系统可以用来生产重组蛋白。

利用传统的肽合成方法(Merrifield蛋白合成方法)，合成了具有CSKSFDQKSKDGNGG序列的肽，并按照标准操作程序从兔和鸡中制备了多克隆抗体。

参考文献

文中引用以下参考文献：

Ashworth A,Rastan S,Lovell-Badge R,Kay G(1991):X染色体的失活可能解释X0人和鼠生存力的差异。自然351:406-408。

Ballabio A.,Bardoni A,Carrozzo R,Andria G,Bick D,Campbell L,Hamel B,Ferguson-Smith MA,Gimelli G,Fraccaro M,Maraschio P,Zuffardi O,Guilo S,Camerino G(1989)：人X染色体短臂远端缺失导致的邻近基因综合症。美国科学院学报86:10001-10005。

Blagowidow N,Page DC,Huff D,Mennuti MT(1989)：一个Y染色体性别决定部位缺失的XY女性胎儿的Ullrich-Tumer综合症。美国医学遗传学杂志34:159-162。

Cantrell MA,Bicknell JN,Pagon RA等(1989):46,XY女性的分子检测和一个新Y染色体特异性探针的区域对比。人类遗传学83:88-92。

Connor JM,Loughlin SAR(1989):Turner综合症的分子遗传学。 ActaPediatr.Scand.(增刊)356:77-80。

Disteche CM。Casanova M,Saal H,Friedmen C,Sybert V,Graham J,Thuline H,Page DC,Fellous M(1986):46,XY女性的Y染色体短臂的小段缺失。美国科学院学报83:7841-7844。

Ferguson-Smith MA(1965)：性腺发育不全中的核型-表型相关性和该相关性在畸形发病机理中的意义。医学遗传学杂志2:142-155。

Ferrari D,Kosher RA,Dealy CN(1994)：由于促肿瘤波佛酯处理其软骨分化被抑制的肢间充质细胞继续维持含有同源异型框的基因MSX1的表达，但不能进行间隙连接通讯。生物化学和生物物理学研究通讯205(1):429-434。

Fischer M,Bur-Romero P,Brown LG等(1990)：人X-和Y-染色体上逃脱了X-失活的同源核糖体蛋白基因以及用于Turner综合症的可行性。细胞63:1205-1218。

Freund C,Horsford DJ,McInnes RR(1996)：转录因子基因和眼睛的发育：一个遗传学观点。人类分子遗传学5:1471-1488。

Gehring WJ,Qian YQ,Billeter M,Furukubo-TokunagaK,Schier A F,Resendez-Perez D,Affolter M,Otting G,Wuthrich K(1994)：同源结构域-DNA识别。细胞78:211-223。

Gough NM,Gearing DP,Nicola NA,Baker E,Pritchard M,Callen DF,Sutherland GR(1990)：人GM-CSF受体基因在X-Y假常染色体区域的定位。自然345:734-736。

Grumbach MM,Conte FA(1992)：性别分化紊乱。Williams内分泌学教程，第八版，Wilson JD,Foster DW编，853-952页，Philadelphia,WBSaunders。

Hall JG,Gilchrist DM(1990):Turner综合症及其变型。Pedriatr.Clin.North Am.37:1421-1436。

Henke A,Wapenaar M,van Ommen G-J,Maraschio P,Camerino Q,Rappold GA(1991)：假常染色体区域的缺失帮助定位了三个新标志物以及该缺乏可能对线性生长起到作用。美国人类遗传学杂志49:811-819。

Hemandez D,Fisher EMC(1996):Down综合症遗传学：揭开一个多因子紊乱的秘密。人类分子遗传学5:1411-1416。

Kenyon C(1994)：为什么鸟能飞，我们不能？同源基因与进化。细胞78:175-180。

KrumlaufR(1994):Hox基因在脊椎动物发育中的作用。细胞78:191-201。

Kulharya AS,Roop H,Kukolich MK,Nachtman RG,Belmont JW,Garcia-Heras J(1995):Xpter→Xp22.3缺失和3pter→3p23重复的轻度表型效应。美国医学遗传学杂志56:16-21。

Lawrence PA,Morata G,(1994)：同源异型框基因：在果蝇属卵裂和泛型形成中的作用。细胞78:181-189。

Lehrach H,Drmnac R,Hoheisel JD,Latin Z,Lemon G,Monaco AP,Nizetic D等，基因组作图和测序中的杂交指纹。Davies KE,Tilghman S编，基因组分析1990:39-81，冷泉港，纽约。

Levilliers J,Quack B,Weissenbach J,Petit C(1989)：人XY女性的X-和Y-染色体短臂末端部分的交换。美国科学院学报86:2296-2300。

Lichter P,Cremer T，人类细胞遗传学：一个可行的方法，IRL 1992,Oxford,New York,Tokyo。

Lippe BM(1991):Turner综合症。北美临床内分泌代谢20:121-152。

Magenis RE,Tochen ML Holahan KP,Carey T,Allen L,BrownMG(1984):Y染色体短臂部分缺失导致的Turner综合症：男性决定基因的定位。儿科学杂志105:916-919。

Nelson DL,Ballabio A,Cremers F,Monaco AP,Schlessinger D(1995)。第6次国际X染色体图谱会议报告。细胞遗传学71:308-342。

Ogata T,Goodfellow P,Petit C,Aya M,Matsuo N(1992)：一个DXYS15远端的Xp末端缺失的女孩的矮小身材：假常染色体区域内的一个生长基因。医学遗传学杂志29:455-459。

Ogata T,Tyler-Smith C,Purvis-Smith S,Turner G(1993):Turner特征基因在Yp染色体上的位置。医学遗传学杂志30:918-922。

Ogata T,Yoshizawa A,Muroya K,Matsuo N,Fukushima Y,RappoldGA,Yokoya S(1995):DXYS15远端的假常染色体区域部分单倍体化女孩的矮小身材：假常染色体生长基因关键区域排布的进一步证据。医学遗传学杂志32:831-834。

Ogata T,Matsuo N(1995):Turner综合症和女性性染色体失常：参与临床特征发育的关键因子的推测。人类遗传学95:607-629。

Orita M,Suzuki Y,Sekiya T,Hayashi K(1989):PCR快速灵敏地检测点突变和多态性。基因组5:874-879。

Pohlschmidt M,Rappold GA,Krause M,Ahlert D,Hosenfeld D,Weissenbach J,Gal A(1991)：环形Y染色体：用DNA探针确定分子特征。细胞遗传学56:65-68。

Qiagen(1993)TGGE手册，Diagen GmbH,TGMA 4112 3/93。

Rao E,Weiss B,Mertz A等(1995)：构建跨越位于假常染色体区域PAR1的矮小身材基因候选区域的粘粒连续克隆系。从生命观点看Turner综合症：研究和临床发现。第四次国际Turner综合症研讨会纪要，Gothenburg,Sweden,1995年5月18-21日。Albertsson-Wikland K,Ranke MB编辑，19-24页,Elsevier。

Rao E,Weiss B,Fukami M,Rump A,Niesler B,Mertz A,Muroya K,Binder G,Kirsch S,Winkelmann M,Nordsiek G,Heinrich U,Breuning MH,Ranke MB,Rosenthal A,Ogata T,Rappold GA(1997)：导致原发性矮小身材和Turner综合症中生长障碍的包含一个新同源异型框基因的假常染色体缺失。自然遗传学15:54-62。

Rappold GA(1993)：人类性染色体的假常染色体区域。人类遗传学92:315-324。

Rappold GA,Willson TA,Henke A,Gough NM(1992)：位于X-Y假常染色体区域的人GM-CSF受体α链基因CSF2RA的排列和位置。基因组14:455-461。

Ried K,Mertz A,Nagaraja R,Trusnich M,Riley J,Anand R,Page D,Lehrach H,Elliso J,Rappold GA(1995)：跨假常染色体区域的酵母人工染色体连续克隆系的特性。基因组29:787-792。

Robinson A(1990):Turner综合症的人口统计学和流行率。Turner综合症，Rosenfeld RG,Gmmbach MM编，93-100页，New York,MarcelDekker

Rosenfeld RG(1992):Turner综合症：医师指南，第二版。Turner综合症学会。

Rosenfeld RG,Tesch L-G,Rodriguez-Rigau LJ,McCauley E,Albertsson-Wikland K,Asch R,Cara J,Conte F,Hall JG,Lippe B,NagelTC,Neely EK,Page DC,Ranke M,Saenger P,Watkins JM,WilsonDM(1994)：对Turner综合症个体诊断、治疗和处理的建议。内分泌学家4(5):351-358。

Rovescalli AC,Asoh S,NirenbergM(1996)：四个鼠同源异型框基因的克隆和特性研究。美国科学院学报93:10691-10696。

Schaefer L,Ferrero GB,Grillo A,Bassi MT,Roth EJ,Wapenaar MC,van Ommen GJB,Mohandas TK,Rocchi M,Zoghbi HY,BallabioA(1993)：人类染色体Xp22的高分辨率缺失图谱。自然遗传学4:272-279。

Shalet SM(1993)：生长激素治疗儿童白血病。儿科内分泌学杂志6:109-11。

Vimpani GV,Vimpani AF,Lidgard GP,Cameron EHD,FarquharJW(1977)，严重生长激素缺乏症的流行率。英国医学杂志2:427-430。

Zinn AR,Page DC,Fisher EMC(1993):Turner综合症：丢失性染色体的病例。TIG9(3):90-93。

序列表(1)一般资料：(ⅰ)申请人：

(A)姓名：Rappold-Hoerbrand,Gudnm,Dr.

(B)街道：Hausackerweg14

(C)城市：Heidelberg

(E)国家：德国

(F)邮政编码：69118

(A)姓名：Rao,Ercole

(B)街道：Odenwnldstrasse11

(C)城市：Riedstadt-Erfelden

(E)国家：德国

(F)邮政编码：64560(ⅱ)发明题目：人生长基因和身材矮小基因区(ⅲ)序列数：16(ⅳ)计算机可读形式：

(A)介质类型：软盘

(B)计算机：IBMPC兼容机

(C)操作系统：PC-DOS/MS-DOS

(D)软件：Patentln Release#1.0,Version#1.30(EPO)(ⅵ)在先申请资料：

(A)申请号：US60/027633

(B)申请日：1996年10月1日(ⅵ)在先申请资料：

(A)申请号：EP97100583.0

(B)申请日：1997年1月16日(2)SEQ ID NO:1的资料：(ⅰ)序列特征：

(A)长度：60个氨基酸

(B)类型：氨基酸

(C)链型：单链

(D)拓扑结构：线性(ⅱ)分子类型：多肽(ⅹⅰ)序列描述：SEQ ID NO:1:Gln Arg Arg Ser Arg Thr Asn Phe Thr Leu Glu Gln Leu Asn Glu Leu1 5 10 15Glu Arg Leu Phe Asp Glu Thr His Tyr Pro Asp Ala Phe Het Arg Glu

20 25 30Glu Leu ser Gln Arg Leu Gly Leu ser Glu Ala Arg Val Gln Val Trp

35 40 45Phe Gln Asn Arg Arg Ala Lys Cys Arg Lys Gln Glu

50 55 60(2)SEQ ID NO:2的资料： (ⅰ)序列特征：

(A)长度：209个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ⅱ)分子类型：其他核酸

(A)说明：/desc=“外显子Ⅱ:ET93”(ⅴ)片段类型：线性(ⅹⅰ)序列描述：SEQ ID NO:2:GGATTTATGA ATGCAAAGAG AAGCGCGAGG ACGTGAAGTC GGAGGACGAG GACGGGCAGA 60CCAAGCTGAA ACAGAGGCGC AGCCGCACCA ACTTCACGCT GGAGCAGCTG AACGAGCTCG 120AGCGACTCTT CGACGAGACC CAT ACCCCG ACGCCTTCAT GCGCGAGGAG CTCAGCCAGC 180GCCTGGGGCT CTCCGAGGCG CGCGTGCAG 209(2)SEQ ID NO:3的资料：(ⅰ)序列特征：

(A)长度：368个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ⅱ)分子类型：其他核酸

(A)说明：/desc=“外显子Ⅰ:G310”(ⅹⅰ)序列描述：SEQ ID NO:3:GTGATCCACC CGCGCGCACG GGCCGTCCTC TCCGCGCGGG GAGACGCGCG CATCCACCAG 60CCCCGGCTGC TCGCCAGCCC CGGCCCCAGC CATGGAAGAG CTCACGGCTT TTGTATCCAA 120GTCTTTTGAC CAGAAAAGCA AGGACGGTAA CGGCGGAGGC GGAGGCGGCG GAGGTAAGAA 180GGATTCCATT ACGTACCGGG AAGTTTTGGA GAGCGGACTG GCGCGCTCCC GGGAGCTGGG 240GACGTCGGAT TCCAGCCTCC AGGACATCAC GGAGGGCGGC GGCCACTGCC CGGTGCATTT 300GTTCAAGGAC CACGTAGACA ATGACAAGGA GAAACTGAAA GAATTCGGCA CCGCGAGAGT 360GGCAGAAG 368(2)SEQ ID NO:4的资料：(ⅰ)序列特征：

(A)长度：58个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ⅱ)分子类型：其他核酸

(A)说明：/desc=“外显子Ⅲ:ET45” (ⅹⅰ)序列描述：SEQID NO:4:GTTTGGTTCC AGAACCGGAG AGCCAAGTGC CGCAAAGAAG AGAATCAGAT GCATAAAG 58(2)SEQ ID NO:5的资料：(ⅰ)序列特征：

(A)长度：89个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ⅱ)分子类型：其他核酸

(A)说明：/desc=“外显子Ⅳ:G108”(ⅹⅰ)序列描述：SEQ ID NO:5:GCGTCATCTT GGGCACAGCC AACCACCTAG ACGCCTGCCG AGTGGCACCC TACGTCAACA 60TGGGAGCCTT ACGGATGCCT TTCCAACAG 89(2)SEQ ID NO:6的资料：(ⅰ)序列特征：

(A)长度：1166个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ⅱ)分子类型：其他核酸

(A)说明：/desc=“外显子：Ⅴa”(ⅹⅰ)序列描述：SEQ ID NO:6:GTCCAGGCTC AGCTGCAGCT GGAAGGCGTG GCCCACGCGC ACCCGCACCT GCACCCGCAC 60CTGGCGGCGC ACGCGCCCTA CCTGATGTTC CCCCCGCCGC CCTTCGGGCT GCCCATCGCG 120TCGCTGGCCG AGTCCGCCTC GGCCGCCGCC GTGGTCGCCG CCGCCGCCAA AAGCAACAGC 180AAGAATTCCA GCATCGCCGA CCTGCGGCTC AAGGCGCGGA AGCACGCGGA GGCCCTGGGG 240CTCTGACCCG CCGCGCAGCC CCCCGCGCGC CCGGACTCCC GGGCTCCGCG CACCCCGCCT 300GCACCGCGCG TCCTGCACTC AACCCCGCCT GGAGCTCCTT CCGCGGCCAC CGTGCTCCGG 360GCACCCCGGG AGCTCCTGCA AGAGGCCTGA GGAGGGAGGC TCCCGGGACC GTCCACGCAC 420GACCCAGCCA GACCCTCGCG GAGATGGTGC AGAAGGCGGA GCGGGTGAGC GGCCGTGCGT 488CCAGCCCGGG CCTCTCCAAG GCTGCCCGTG CGTCCTGGGA CCCTGGAGAA GGGTAAACCC 540CCGCCTGGCT GCGTCTTCCT CTGCTATACC CTATGCATGC GGTTAACTAC ACACGTTTGG 600AAGATCCTTA GAGTCTATTG AAACTGCAAA GATCCCGGAG CTGGTCTCCG ATGAAAATGC 660CATTTCTTCG TTGCCAACGA TTTTCTTTAC TACCATGCTC CTTCCTTCAT CCCGAGAGGC 720TGCGGAACGG GTGTGGATTT GAATGTGGAC TTCGGAATCC CAGGAGGCAG GGGCCGGGCT 780CTCCTCCACC GCTCCCCCGG AGCCTCCCAG GCAGCAATAA GGAAATAGTT CTCTGGCTGA 840GGCTGAGGAC GTGAACCGCG GGCTTTGGAA AGGGAGGGGA GGGAGACCCG AACCTCCCAC 900GTTGGGACTC CCACGTTCCG GGGACCTGAA TGAGGACCGA CTTTATAACT TTTCCAGTGT 960TTGATTCCCA AATTGGGTCT GGTTTTGTTT TGGATTGGTA TTTTTTTTTT TTTTTTTTTT 1020TGCTGTGTTA CAGGATTCAG ACGCAAAAGA CTTGCATAAG AGACGGACGC GTGGTTGCAA 1080GGTGTCATAC TGATATGCAG CATTAACTTT ACTGACATGG AGTGAAGTGC AATATTATAA 1140ATATTATAGA TTAAAAAAAA AATAGC 1166(2)SEQ ID NO:7的资料：(ⅰ)序列特征：

(A)长度：625个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ⅱ)分子类型：其他核酸

(A)说明：/desc=“外显子：Ⅴb(ⅹⅰ)序列描述：SEQ ID NO:7:ATGGAGTTTT GCTCTTGTCG CCCAGGCTGG AGTATAATGG CATGATCTCG ACTCACTGCA 60ACCTCCGCCT CCCGAGTTCA AGCGATTCTC CTGCCTCAGC CTCCCGAGTA GCTGGGATTA 120CAGGTGCCCA CCACCATGTC AAGATAATGT TTGTATTTTC AGTAGAGATG GGGTTTGACC 180ATGTTGGCCA GGCTGGTCTC GAACTCCTGA CCTCAGGTGA TCCACCCGCC TTAGCCTCCc 240AAAGTGCTGG GATGACAGGC GTGAGCCCCT GCGCCCGGCC TTTGTAACTT TATTTTTAAT 300TTTTTTTTTT TTTTAAGAAA GACAGAGTCT TGCTCTGTCA CCCAGGCTGG AGCACACTGG 360TGCGATCATA GCTCACTGCA GCCTCAAACT CCTGGGCTCA AGCAATCCTC CCACCTCAGC 420CTCCTGAGTA GCTGGGACTA CAGTCACCCA CCACCACACC CAGCTAATTT TTTTGATTTT 480TACTAGAGAC GGGATCTTGC TTTGCTGCTG AGGCTGGTCT TGAGCTCCTG AGCTCCAAAG 540ATCCTCTCAC CTCCACCTCC CAAAGTGTTA GAATTACAAG CATGAACCAC TGCCCGTGGT 600CTCCAAAAAA AGGACTGTTA CGTGG 625(2)SEQ ID NO:8的资料：(ⅰ)序列特征：

(A)长度：15577个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ⅱ)分子类型：其他核酸

(A)说明：/desc=“外显子：HOX93”(ⅸ)特征：

(A)名字/关键词：外显子

(B)位置：1498-1807

(D)其他信息：/功能=“外显子Ⅰ(G310)的一部分” (ⅸ)特征：

(A)名字/关键词：misc-特征

(B)位置：3844-4068

(D)其他信息：/功能=“pET92区(第一部分)”(ⅸ)特征：

(A)名字/关键词：misc-特征

(B)位置：4326-4437

(D)其他信息：/功能=“pET92区(第二部分)”(ⅸ)特征：

(A)名字/关键词：misc-特征

(B)位置：4545-4619

(D)其他信息：/功能=“pET92区(第三部分)”(ⅸ)特征：

(A)名字/关键词：外显子

(B)位置：5305-5512

(D)其他信息：/功能=“外显子Ⅱ(ET93)的一部分”(ⅸ)特征：

(A)名字/关键词：外显子

(B)位置：11620--11729

(D)其他信息：/功能=“外显子Ⅳ(G108)的一部分”(ⅹⅰ)序列描述：SEQID NO:8:CTCTCCCTGT TGTGTCTCTC TTTCTCTCTC TCCATCTCTC TCCGTCTTTC CCCCTCTGTC 60TCTTTCTCTG TCTCCATCCC TCTGTCTCTC CCTTTCTCTC TGTCTTTCCT TGTCTCTCTC 120TTTCTCTCTC TCTCTCCATC TCTCTCTCTC CCGGTCTCTC TCTCTCCATC TCCCCGTCTC 180TCCGTTTCTC TCTCTGCCTC TCCCTGTCTG TCTCTCTCTT TGTGTGTGTT ACACACACCC 240CAACCCACCG TCACTCATGT CCCCCCACTG CTGTGCCATC TCACACAAGT TCACAGCTCA 300GCTGTCATCC TGGGTCCCCA GGCCCCGCCG GGGAGGAAGA TGCGCCGTGG GGTTACGGGA 360GGAAGGGGAC TCCGGGACTC CTGGTGCCCC ACTTTATTTG CAGAAGGTCC TTGGCAGGAA 420CCGTGACGCG TTTGGTTTCC AGGACTTGGA AAACGAATTT CAGGTCGCGA TGGCGAGCAC 480CGGCTTCCCC TGAAGCACAT TCAATAGCGA GAGCCGGGAG GGAGCGAGCA GGAGCATCCC 540ACCATGAAAA CCAAAAACAC AAGTATTTTT TTCACCCGGT AAATACCCCA GACGCCAGGG 600TGACAGCGCG GCGCTAAGGG AGGAGGCCTC GCGCCGGGGT CCGCCGGGAT CTGGCGCGGG 660CGGAAAGAAT ATAGATCTTT ACGAACCGGA TCTCCCGGGG ACCTGGGCTT CTTTCTGCGG 720GCGCTGGAAA CCCGGGAGGC GGCCCCGGGG ATCCTCGGCC TCCGCCGCCG CCGCCTCCCA 780AGCGCCCGCG TCCCGGTTTG GGGACACCCG GCCCCTTCTT CTCACTTTCG GGGATTCTCC 840AGCCGCGTTC CATCTCACCA ACTCTCCATC CAAGGGCGCG CCGCCACCAA CTTGGAGCTC 900ATCTTCTCCC AAAATCGTGC GTCCCCGGGG CGCCCGGGTC CCCCCCCTCG CCATCTCAAC 960CCCGGCGCGA CCCGGGCGCT TCCTGGAAAG ATCCAGGCGC CGGGCTCTGC GCTCCTCCCG 1020GGAGCGAGGG CGGCCGGACA ACTGGGACCC TCCTCTCTCC AGCCGTGAAC TCCTTGTCTC 1080TCTGTCTCTC TCTGCAGGAA AACTGGAGTT TGCTTTTCCT CCGGCCACGG AAAGAACGCG 1140GGTAACCTGT GTGGGGGGCT CGGGCGCCTG CGCCCCCCTC CTGCGCGCGC GCTCTCCCTT 1200CCAAAAATGG GATCTTTCCC CCTTCGCACC AAGGTGTACG GACGCCAAAC AGTGATGAAA 1260TGAGAAGAAA GCCAATTGCC GGCCTGGGGG GTGGGGGAGA CACAGCGTCT CTGCGTGCGT 1320CCGCCGCGGA GCCCGGAGAC CAGTAATTGC ACCAGACAGG CAGCGCATGG GGGGCTGGGC 1380GAGGTCGCCG CGTATAAATA GTGAGATTTC CAATGGAAAG GCGTAAATAA CAGCGCTGGT 1440GATCCACCCG CGCGCACGGG CCGTCCTCTC CGCGCGGGGA GACGCGCGCA TCCACCAGCC 1500CCGGCTGCTC GCCAGCCCCG GCCCCAGCCA TGGAAGAGCT CACGGCTTTT GTATCCAAGT 1560CTTTTGACCA GAAAAGCAAG GACGGTAACG GCGGAGGCGG AGGCGGCGGA GGTAAGAAGG 1620ATTCCATTAC GTACCGGGAA GTTTTGGAGA GCGGACTGGC GCGCTCCCGG GAGCTGGGGA 1680CGTCGGATTC CAGCCTCCAG GACATCACGG AGGGCGGCGG CCACTGCCCG GTGCATTTGT 1740TCAAGGACCA CGTAGACAAT GACAAGGAGA AACTGAAAGA ATTCGGCACC GCGAGAGTGG 1800CAGAAGGTAA GTTCCTTTGC GCGCCGGCTC CAGGGGGGCC CTCCTGGGGT TCGGCGCCTC 1860CTCGCCACGG AGTCGGCCCC GCGCGCCCCT CGCTGTGCAC ATTTGCAGCT CCCGTCTCGC 1920CAGGGTAAGG CCCGGGCCGT CAGGCTTTGC CTAAGAAAGG AAGGAAGGCA GGAGTGGACC 1980CGACCGGAGA CGCGGGTGGT GGGTAGCGGG GTGCGGGGGG ACCCAGGGAG GGTCGCAGCG 2040GGGGCCGCGC GCGTGGGCAC CGACACGGGA AGGTCCCGGG CTGGGGTGGA TCCGGGTGGC 2100TGTGCCTGAA GCCGTAGGGC CTGAGATGTC TTTTTCATTT TCTTTTTCTT TCCTTTCCTT 2160TTTTTGTTTG TTTGTTTGTT TGTTTGAGAC AGAGTCTCGC TCTGTCCCCC AGGCTGGAGT 2220GCAGTGGTGC GATCTCGGCT CACTGCAACC TCCGCCTCCT GGGTTCAAGC GATTCTCCTG 2280CCTCAGCCTC CCCAGTAGCT GGGATTACAG GCATGCACCA CCACGCCTGG CTAATTTTTG 2340TGCTTTTAGT AAAGACGGGG ATTCACCATG TTGGCCAGGC TGGTCTCGAA CTCCTGACCT 2400CAGGTGATCC ACCCGCCTCG GCCTCCCAAA GTGCTGGGAT GACAGGCGTG AGGCACCGCG 2460CCCGGCCTGG GTCCTGACGG CTTAGGATGT GTGTTTCTGT CTCTGCCTGT CTGCCTTGTA 2520TTTACGGTCA CCCAGACGCA CAGAGGAGCC GTCTCCACGC GCCTTCCCAG CGCTCAGCGC 2580CTGCCGGGCC CCCGGAGATC ACGGGAAGAC TCGAGGCTGC GTGGTAGGAG ACGGGAAGGC 2640CCCGGGTCAG CTCGGTTCTG TTTCNCTTTA AGGAACCCTT CATTATTATT TCATTGTTTT 2700CCTTTGAACG TCGAGGCTTG ATCTTGGCGA AAGCTGTTGG GTCCATAAAA ACCACTCCCG 2760TGAGCGGAGG TGGCCGGGAT CTGGATGGGG CGCGAGGGGC CCCGGGGAAG CTGGCGGCTT 2820CGCGGGCGCG TCCTAAGTCA AGGTTGTCAG AGCGCAGCCG GTTGTGCGCG GCCCGGGGGN 2880AGCTCCCCTC TGGCCCTTCC TCCTGAGACC TCAGTGGTGG GTCGTCCCGT GGTGGAAATC 2940GGGGAGTAAG AGGCTCAGAG AGAGGGGCTG GCCCCGGGGA TCTCTGTGCA CACACGACAA 3000CTGGGCGGCA TACATCTTAA GAATAAAATG GGCTGGCTGT GTCGGGGCAC AGCTGGAGAC 3060GGCTATGGAC GCCTGTTATG TTTTCATTAC AAAGACGCAG AGAATCTAGC CTCGGCTTTT 3120GCTGATTCGC AAAGTTGAGG TGCGAGGGTG AATGCCCCAA AGGTAATTCT TCCTAAGACT 3180CTGGGGCTAC CTGCTCTCCG GGGCCCTGCA TTTGGGGTGT GGAGTGGCCC CGGGAAATAG 3240CCCTTGTATT CGTAGGAGGC ACCAGGCAGC TTCCCAAGGC CCTGACTTTG TCGAAGCAGA 3300AAGCTGTGGC TACGGTTTAC AAAGCAGTGC CCGGTTTCTG ACCGTCTAAG AGGCAGGAGC 3360CCAGCCTGCC TTTGACAGTG AGAGGAGTTC CTCCCTACAC ACTGCTGCGG GCACCCGGCA 3420CTGTAATTCA TACACAGAGA GTTGGCCTTC CTGGACGCAA GGCTGGGAGC CGCTTGAGGG 3480CCTGCGTGTA ATTTAAGAGG GTTCGCANGC CCCCGGCGGC CGCTTCTATT GGGGTTGCTT 3540TTTGGTTGTC CTTCNGCAAA CACCGTTTTG CTCCTCTNGN AACTCTCTCT TNCTCCCCCN 3600TGGCCNGTNG GACCCGGGNA NGAGCAAAGT GTCCTCCAGA CCNTTTTGAA ANGTGAGAGG 3660AAAATAAAGA CCAGGCCAAA NNGACCCAGG GCCACAGGAG AGGAGACAGA GAGTCCCCGT 3720TACATTTTNC CCCTTGGCTG GGTGCAGAAA GACCCCCGGG CCAGGACTGC CACCCAGGCT 3780ACTATTTATT CATCAGATCC AAGTTAAATC GAGGTTGGAG GGCAGGGGAG AGTCTGAGGT 3840TACCGTGGAA GCCTGGAGTT TTTGGGNAAC AGCGTGTccc CGCCGAGCCT GGGAGCCCGT 3900GGGTTCTGCA AAGCCTGCGG GTGTTTGAGG ACTTTGAAGA CCAGTTTGTC AGTTGGGCTC 3960AATTNCCTGG GGTTCAGACT TAGAGAAATG AAGGAGGGAG AGCTGGGGTC GTCTCCAGGA 4020AACGATTCAC TTGGGGGGAA GGAATGGAGT GTTCTTGCAG GCACATGTCT GTTAGGAGGT 4080GAAACAGAAT GTGAAATCCA CGTTGGAGTA AGCGTCCAGC GCTGAATGTA GCTCGGGGTG 4140GGGTGGGAGG GCCCTGGTGT GGATCGTGGA AGGNAAGAAA GACAGAACAG GGTGCTAGTA 4200TTTACCCCGT TNCCCTGTAG ACACCCTGGA TTTGTCAGCT TTGCAAGCTT CTTGGTTGCA 4260GCGGCCTTGC CTGTGCCCCT TTGAGACTGT TTCCAGACTA AACTTCCAAA TGTCAGCCCC 4320TTACCCTTGA CAGCAAGGGA CATCTCATTA GGGCATCGCG TGCTTCTCAT CTGTGNCTCA 4380GCAGGCCCNG AGATAGGAAN CANGAGGGGC NGTTGGNAGA TGCNCACTTC CACCAGCCCT 4440GGGNTTGAAG GGGANGCGAN GGGANGACHA CCTTTTANCT TAAACCCCTN GAGCTTGGTN 4500CAGAGAGGNC TGAATGTCTA AAATGAGGAA GAAAAGGTTT TTCACCTGGA AACGCTTGAG 4560GGCTGAGTCT TCTGCCCNTT CTGACNTCCC CCAGCAAATA CAGACAGGTC ACCAANCTAC 4620TGGAGATGAG AAAGTGCCAT TTTTGGCACA CTCTGGTGGG GTAGGTGCCC GACCGCGTGT 4680GAAAAANGTG GGAANNGGAG AGATTTCTGN CGCACGCGGT TCAGCCCCCA GGCGCGGNTG 4740GCNGCATTCN AGGNTACTCA GACGCGGTTC TGCTGTTCTG CTGAGAAACA GGCTTCGGGT 4800AGGGGCTCCT AGCTCCGCCA GATCGCGGAG GGACCCCCAG CCCTCCTGCG CTGCAGCGGT 4860GGGGATAGCG TCTCTCCGTA GGCCTAGAAT CTGCAACCCG CCCCGGGTCC TCCCCGTGTC 4920CTTCCCGGGC GTCCCGCCGG GGATCCCACA GTTGGCAGCT CTTCCTCAAA TTCTTTCCCT 4980TAAAAATAGG ATTTGACACC CCACTCTCCT TAAAAAAAAA AAATAAGAAA AAAAGGTTAG 5040GTTATGTCAA CAGAGGTGAA GTGGATAATT GAGGAAACGA TTCTGAGATG AGGCCAAGAA 5100AACAACGCTC GTGCAAAGCC CAGGTTTTTG GGAAAGCAGC GAGTATCCTC CTCGGCTTTT 5160GCGTTATGGA CCCCACGCAG TTTTTGCGTC AAAGCGCATT GGTTTTCGAG GGCCCCCTTT 5220CCACCGCGGG ATGCACGAAG GGGTTCGCCA CGTTGCGCAA AACCTCCCCG GCCTTAGCCC 5280TGTGCCCTCC GCTCCCCACG CAGGGATTTA TGAATGCAAA GAGAAGCGCG AGGACGTGAA 5340GTCGGAGGAC GAGGACGGGC AGACCAAGCT GAAACAGAGG CGCAGCCGCA CCAACTTCAC 5400GCTGGAGCAG CTGAACGAGC TCGAGCGACT TTTTGACGAG ACCCATTACC CCGACGCCTT 5460CATGCGCGAG GAGCTCAGCC AGCGCCTGGG GCTTTCCGAG GCGCGCGTGC AGGTAGGAAC 5520CCGGGGGCGG GGGCGGGGGG CCCGGAGCCA TCGCCTGGTC CTCGGGAGCG CACAGCACGC 5580GTACAGCCAC CTGCGCCCGG GCCGCCGCCG TCCCCTTCCC GGAGCGCGGG GAGGTTGGGT 5640GAGGGACGCG CTGGGGTTCC TGGACTTTTG GAGACGCCTG AGGCCTGTAG GATGGGTTCA 5700TTGCGTTTGT TTTTCACCAA CAGCAAACAA ATATATATAC ATATATATTA TACAAATAAC 5760AAATAAATAT ATATGTTATA CAGATGGGTA TATTGTATAT ATTATAGATA TTTGTTCGTC 5820CTTGGTGCAA AGACACCCGG TGAACCCATA TATTGGCTCC TGACTGCCTT CGGTTCCCCT 5880GGGATTGGTT ATAGGGGCAA CACATGCAAA CAAAACTTTC CCTGGATTAT ACTTAGGAGA 5940CGAAGCTACA GATGCGTTTG ATCCAGAGTG TTTTACAAGA TTTTTCATTT AAAAAAAAAT 6000GTGTCTTTTG GCCCCTGATT CCCCTCCGTC TTCCCGTGTG GCTGCATTGA AAAGGTTTCC 6060TTAGGATGAA AGGAGAGGGG TGTCCTCTGT CCCTAGGTGG AGAGAAACAG GGTCTTCTCT 6120TTCCTCCGTT TTTTCACCTA CCGTTTCTAT CTCCCTCCTC CCCTCTCCAG CCCTGTCCTC 6180TGCTACAAAC CACCCCCTCC TCCCTCCGGC TGTGGGGAGC GCAGGAGCAC GTTGGGCATC 6240TGGATGAGCG GHAGACTATT AGCGGGGCAC GGGGGCTCCC CGAGGAGCGC GCGAATTCAC 6300GCTGCCCCAT GAGACCAGGC ACCGGGGGGC GGAGGGGCCT TGGGTGTCCG CAGAGGGACG 6360GGCGGGCAGA GCCTTCCTCC GCATTCTAAA CATTCACTTA AAGGTATGAG TTTANTTTCA 6420GGGGTGCTGC TGGGAGAGCC TCCAAATGGC TTCTTCCAGC CCCTGCCTGA CAGTTCAGCT 6480CCCCTGGAAG GTCAACTCCT CTAGTCCTTT CTCCTGGTTC TGGGCAGGAC AGAAGTGGGG 6540GGAGGGAGAG AGAGAGAGAG AGAGAGAGAG ACGGTCAGGA TCCCCGGACC CTGGGGAACC 6600CGTCAAAAAT AAATGAAATT AAGATTGCCG ACCAGAGAGA GAACCGTGAC AAAGCAAACG 6660GCGTTCAAAG CAAAGAGACG AACTGAAAGC CCGTTCCCGT AGGACTGGTT ATGAGGTCAA 6720CACATTCAAA CACAGCTTGC TCTGGATTTT GCTGAGCAGA GGAAGATACA GATGCATTTG 6780ATCCAAAGTG TGTTACATCT TTCATTATAT GTGTGTCTAT ATATATAAAC ATATATAAAT 6840ATATAAACAT ACATAAATGT ATGTAAATAT ATATAATCTA TATACATATA TAAATATATA 6900AACACATATA TAATATATAA ATCTATAAAC ATATATAATA TATAAACATA AATATATAAA 6960CATATATAAT ATATAAATAT ATTAACATAT ATAAAATATG TATAAATATA TATAAACATA 7020TAAACATATA TAAATATATA AACATATAAA TATATAAACA TATATAAATA TATACAAACA 7080TATTGTATAT ATATAAATAT ATATAAAAAC ATATATATAC ATATAAAAAT ATATATAAAC 7140ATATATACAT ATAAAGAAAT ATATATAAAC ATATATACAT ATAAATATAC ATATATAAAC 7200ATATATATAC ATAAAATATA TATAAACATA TATACATATA AAAATATATA TATATTAACA 7260TATATATACA TATAAAAATA TATATATTAA CATATATATA CATATAAAAA TATATATATA 7320TTTTTGGCCC CTGATTCCCT TCGGTTCCTG TGGGATGGGT GATTGAGTCA ACACATTCAA 7380ACACAACTTT TCCATCGATG TTGCTTAGGA GATGAGGATA CAGATGCGTT TGATGGAGAG 7440GGTTTTACAA GCTCTTTCAT TTAAATATAT ATATATATAT ATATATATTT TTTGGCTCCT 7500GATTCTCTTC CGTCTTCCCA TGTGGCTGCA TTTTAAAAGG CTTCCCTAAG ATCGTTACGA 7560TTAAATCAAC CCTCCCCAGG CATCTTTACC GAGGGCTGTG GTCCCCAAAG CGATACAGCC 7620CAGGAGGGAG AGAGGCTTTG GTGACTTGGA GGAAGGACTG TGTCCCTCCT TAGGGCGTCT 7680GTGGCCTCAG TGAGGGAAGG AAGCTGCATC AGACAGGGGT TTCCTCGCTG TCCACCCCTC 7740TGGCAGAAGA TGGATTGGGC TGCCCCGNTA TAAATTAATG AAAAGATTAA AGTTTCGCTA 7800AAGGGGACAT CGAGTTTATG TGTCATCTCC TGGTGNTCTG TGTGCCNTGG GATNCTGCAA 7860TATATCCCAN NGCCCTTGAT GNNNTACTGT TTNCTATAAA AANNTAAATN TACTTGTNNA 7920ATTTAANTTC CNNNACACTA TTTNCTTTCC NNGTNAGTCT NATTANCCGA NCGAGAGCAN 7980CGNTTAGTTN CAGCTNGCGG AAAATTGGTT GTGGGGTGTG TGCGGACCCC NGAGNAACGC 8040CCNNTAAAAT NAAAGACAAA NTCNGGGGAC AAGNCTNGGG GGTTATCGNN ATTGCNNAGG 8100GGTCGNCATG AAAANTTTAA CGACGGTAAA TAATAATAAA AANNCAAACA TGGGAATGNC 8160AATAAAAGAC ATAATTCTCC NNATCGCCGC GGGGGGAAAG GATCCTATAG TAAAGGCGAG 8220TGCGCTTTGA GGGGTCATAA AAATCAATTA GTTCCAACAC CCACGTCCCG CGTTGAGGGG 8280ACGGGGACGA GCAGGGACAG AAAAAGAAAC CATATTTGAA TCCCATCTCT CTGTGAATTC 8340TTGGGTCACA TGCGTCTCAG TACAGCCCGT CCCGTGCTGT GACCGGATAG AGTTTCAATT 8400TACTGTGGAA ATTTGCTGTA AATAAATTGA GCATCCGATA GAAGCTGTTG CTGATTAACC 8460TTTTATTTTT AGCGTGGCCC TGCAAAGTCG TATCACCCAG CTGTCAGGCT TCTAATCGAA 8520AGTTATGAGA CCACGGTGAG GGGCAGGCGG TAATTTAATT ACAACAAATA TCTTTGGGTT 8580TATGGCGCAG AGCTAAATTA AATGTCATTA TTCACTGTCT GTNAATGGNA AATCAAAANN 8640GGAAATCGCA NTTACGGNCA TTTGGGNNAA ANGAAAGCGG GGNAGTGCTC TTTAATNGAA 8700NNGAAATAAC TGTCTTAAGC AGTGTCACAC ACTTCACTTA CCATATTCGN GGCCTNAATT 8760GGAANNTGGA TCGTNNGAAT CACTCCNAAG ACTNGATTTA TTANGCGCTT CACGNCAGCN 8820NGGCNTAATT CATCNACTTN NGTATTCTTC ATCNNNNATT TTTTTTTTTC CTCTCNNGCC 8880GTGTTNNGAA GGGAGAGTGA ATGAGGCTTT CCACGTTTCA GGAGGATTTT CTTTTTTGAA 8940AAATGCCCTT CCAGAGGCTT TTGGGTGGCT GGCTTGCTTT CTGGGCCCTG GAGGANGACA 9000GGCGGANGAG TCCAGGTGGG CATGGAGAGG CACAGTGGCA GGTCACCTGG ATGGTCAGTG 9060GAGGTGGAGG TCTGAAGGCG CCAGCTTTGG AAATTATTGG TGAATTTCGA TGTCAGCACC 9120AGGNCAGGGG CCTTTTTGGC GGGGGTGTGA GGGANGGATG ANCTTTGCTG GGAAANNCAG 9180GATCAGGTTC TCCAGGCGCA CTGCAGCCCG GTAGGACCCA CTTTGGAAAT GAAAAGCCAG 9240TTNCCGAAAG CTGGGCTGGA AGCTTCCGTG TTGGGTTCAA GAGCAAGTTC ACGTTGCGCT 9300GTGTAGACTC CTGGCTGCTC CCAAACTCTG AGGGTTTTCT GAGGTTCCCT TCATAGGGGC 9360ACCGGCCCTG GGCCATGCAC AGTGCGTAAG GGTGGCTGTG GGCCGAGGGA CCCAGCACGT 9420GTTTTGCCCA CAACAGCCGG AGTGACTGGT TCACTCACCG CCTTGGCGGA GGACGCCTGT 9480TCTCTGGACG AATCATTTCT CTTGGGTGGT GACTGCCTTG TGGGTCAAGG TGCAGGTTTT 9540CTGCCACAGA AAACCTGTTA GGAGGAATTA AGCGACTAAG ACTGTCAGGG AGGTGGTGGT 9600GGGGGANGAG GNAGGGGGTG GTGTCCAGAT TACCAGGCAT AGGCTAAACT GCCTGCACTC 9660TCCAGCTGGT CTGTCTGTGG AGGAGGGGAT TGTCAATACT GGGAGAGCAG AGGAGGCTCG 9720TAGGAGGTGA GAGGGGGTGG AATTTGCATG CAAATCTTCA CATGAGGCCT GTGTGAATTT 9780CTCCAGCCTC CTGAGGGTCC CCTGCGCTAT TGCACTCAAC TTCTTGATAG TTTACCCCAA 9840GACTCAGAAG TCCTTAGAGG GGCAGAATGC CCCCACCACA AAGCCTGCTA TCCTTGGGCG 9900TCCTCAGGAC CCTTGGTCAT GAATGGGACC CTTTCATGTA TGGGGACCCT TGGTAATATG 9960AATGGGACGC CTTCAGCTCC CCAGGGCTTC CGAGGAGGCC GAGAAGGGCA AAGACACTTC 10020CGAGGAGGCC GAGAAGGGCA AAGACATTTT CTGGGCTTGG TGTGTCAAGA GCTAGATTGG 10080AGAAGGGGCT GGATTTGGAA CTCTTTAGCC ATCAGCTCAC CCTCTCCGTT TGTGGCTAAA 10140GTCTGAAGGT GGAAACTTCG GTTCTCCTAC AGGGTCTACA GGAGTTGGGG GGCGGGGCGC 10200CCACACAGAA CGCTGGAAAG TTCGACAGTC CACTTCCACT GGCTCGGAAC TCACTTTTTC 10260ACCTTAAGTT CATCAGCGGT AACGCATAGG TCTCACTTAG GCAGGGCACG GATGATTTAA 10320CAATTTCTAC TTCTAGGTCA GGTGCGGTGG CTCACACCTC TAATCCCAGC ACTTTGGGAG 10380GCCCAGGAGG GTGGATCGCT TGAGGTCAGG AGTTTGAGAC CAGCCTGGCC AACATGGTGA 10440AACCCCGTCT CTACTAAAAT ACGAAAATTA GCCAGGCATG GTGGTGAGCA CCTGTAATTC 10500CAGCTACTCG GGAGGCTGAG GCAGGAGAAT CGCTTGAACC TGGGAGGTGG ACGTTGCAGT 10560GAGGTGAGAT CACACCACTG CACTCCAGCC TGGATGAGAG AGCAAGACTC TGTCTCAAAA 10620ACAAAATAAA ACAAAAACAA AACAAAAATC AAAAAAGAAA ACCCAATTTC CAGTTCTAGG 10680CCAGGTGCAG TGGCTCACGC CTGTCATCCC AGCACTTTGG GAGGCCCAGG AGGGTGGATC 10740GCTTGAGGTC AGGAGTTCGA GACCAGCCTG GCCAACATGG TGAAACCCCA TCTTTACTAA 10800AAATACAAAC GTTAGCTGGG TGTGGTGGTG TGCGCCTGTA ATCCCAGCTA CTCGGGAAGC 10860TGAGGCTGGA GAATTGCTTG AATCTGGGAG GTGGAGGTTG CAGGGAGGCG AGATAGTGCC 10920ACTGCAGTCC AGCCTGGACC AGAGAGCAAG ACTCCGTCTC AAAAACAAAA GAAAGCAAAA 10980ACAAAAAACA AGAGACCAGC CTGGCCAACA TGGTGAAACC GCGTCTTTAC TAAAATACAA 11040AATTAGCCGG GCATGGTGGT GGGCACCTGT AGTCCCAGCT ACTCGGGAGG CTGAGGCAGG 11100AGAATGGCTT GAACCTGGGA GGTGGAGCTT GCAGTGAGCC GAGATAGTGC CACTGCACTC 11160CAGCCTGGGC GACAGAGCGA GACTTGATTT CAGAACCACC ACCACCACAA CAAAACAAAA 11220CAAAAAATCC AAAAAAACCC CAATTTCCAG TACTAGGTAG TCAGTGATGC AGGGCTGGAG 11280ACAGAGGGGC GGTAAGTGTC TGGGCGCCCA CCATCCGTCA CCTCCCAGCT CCCANGAGGT 11340GCAAAGTGCT TGGTTCAGCC TCATGGGAAG GATGCTCCCT GGGGAGGCTG GGCTGGGTTC 11400ACAGGGCTCT TCACATCTCT CTCTGCTTCT NCCCCAAGGT TTGGTTNCCA GAACCGGAGA 11460GCCAAGTGCC GNCAAACAAG AGAATCAGAT GCATAAAGGT GGGTGTCGGG ACTGGGGGGA 11520CCTGAAGCTG GGGGATCCTG CTCCAGGAGG GATGGGGTCG ACAAGGTGCT GGCTACACCC 11580AGGACCACCA CACTGACACC TGCTCCCTTT GGACACAGGC GTCATCTTGG GCACAGCCAA 11640CCACCTAGAC GCCTGCCNGA GTGGCACCCT ACGTCAACAT GGGAGCCTTA CGGATGCCTT 11700TCCAACAGGT AGCTCACTTT TTCTTCCTCT GNAAGATCCC TAGGGACCTG CTGCTCCCTT 11760CCCCTTTCCC CTATTTGCTG CCGCATCCTG ACACTCCTAG TCCCTCCCTG CCCCTGCAGA 11820CTTCTCAGCT GGCCCTTAGA AAAAAAGCCT CTTTTCCGAG GAGGCATTTA CAGGCACCTT 11880GGCACCTATG AAATCAGGCT GGGCCAGGCG GGGTGGCTCA CACCTGTCAT CCCAGCACTT 11940TGGGAGGCCA AGGTTAGGAG TTTGAGACCA GCCTGGAGAA CATAGCAAAA GCCTGTCTCT 12000ACTAAAAATA CAAAAAAAAA TTAACAGGGA GTGGTGGTGG GCACCTGTAA TCCCAGCTAC 12060TTGGGAGGCT GAGGCAGGAG AATCACTTGA ACCCGGGAGG CCGAGGTTGC GGTGAGCCGA 12120GATCGTGCCA TTGCACTCCA GGCTGGGCGA CAGAGTGAGA CTCTGTCTCA AAAAATAAAT 12180AAATAAATAA ATGTAAAAAA ATAAAAATAG GTCGGGCACG GTGGCTCACG TCTGTAATCC 12240CAGCACTTTG GAAGGCCGAG GTGGGTGGAT GACAGGGTCA AGAGATTGAG ACCATCCTGG 12300CCAACATGGC AAAATGCCGT CTCTACTAAA AAATACAAAA ATTAGGCGGG CGTGGTGGCG 12360GGTGCCTGTA ATCCCAGCTA CTCGGGAGGC TGAGGCAGGA GAATCGGTTG AACCCGGGAT 12420GCGGAGGTTG CAGTGAGCGG AGATCACATC ACTGCACTCC AGGCTGGGCA ACAAGAGCGA 12480AACTGCGTCT TACAATAAAT AAATAGATAA ATAAATAAAC AAATAAACTT TACTTTAGAA 12540ACAAATCCCT GTCCGTGTTT GTCTTTTCAC CTGTCCTGCA GGGAAAACAA AACATAAAAT 12600GTCAAGGCAA ATAGTAGTGA TTTCATTCCG GGAAAAAGAA AGTGGATGTT TGCCTTCACC 12660CTTTCTCGTC CTTCCTCTGG TGCTCCTCAN GGCCCANGGG NAGAGGGTGG AAAGTNCAGA 12720GGAAGAAAGA CGGGGCTGGG GGGGGGGTCC CGTGGGGACC CAGGCAGGCA TGTTCCCNAT 12780TTCCNTGTCT TCACNTTCAA AGNAGGGGCC CCTCGNCTCT GGAATGAGGC CTACGGTTTC 12840CTTTCCCNGA AGAGTTNCCC CTTTGTGAGC TTACGGCTTC GGAGTGAACC TCGGTGCAAC 12900CTGTTATTAA AACACACAGA GGCTAATGCC AGCAAAAACA CGCCCCCCGC TCCTGGTTTC 12960AGAGGGAAGA AAAAAATTCA TAAGCACGGC CATGCTTTTC TAATAAAAAT TCATTAAATA 13020ATCGTTATAA GGGATGAAGC CGGGAGGGGA GAGGAGAGGA ACACAATCAA GAGACTTTCT 13080TTGAACTTTT TCTCCCTGCT TCAAATACAA AGCAATCTTC TGTGGGCCTG GGCCTGGGGG 13140GTTTCCCCCT TTCTCTGCAG CCCATTGGGA GGAAGAAAAT GCTTCCCTGA ANGTTGCTGC 13200AAAATTGTTT CTGTTTTTCT TTTCTTTTTC TTTTTTTTTT TTTTTTGAGA CGGAGTCTCG 13260CTCTGTCACC AGGCTGGAGT GCAATGGTAT GATCTCAGCT CACTGCAACC TCCACGTTCC 13320TGTTTCAAGT CATTCTCCTG CCTCAGCCTC CTGAGTAGCT GGGACTACAG GCGCCCGCCA 13380CCACGCCCGG CTAGTGTTTG TATTTTTAGA AAAGACAGGG TTTCCCCATG TTGGCCAGGC 13440TGGTCTTGAA CTCCTGTCCT CAAGTGATCT GCCTGCCTCG GCCTCCCAAA GTGCTGTGTT 13500TCTGTTTTTC TTTCCCCGCT TTCTTAGGAG GCCATCGGGA AGAATAAAAT GCTTTCCTTG 13560AAGTTGATGC AAAATTGTTT CTGTTTTTCT TTTCTCTTTT CTTTCTTTTT GAGATGGAGT 13620CTCGCTCTTT CACCCAGGCT GGAGGGCAGT GGCGCGACCT CGGCTCACTG CAACCTCCGC 13680CTCCCGGGTT CAAGCGATTC TCCTGCCTCA GCCTCCGGAG TAGCTGGGAT TACAGGCACC 13740TGCCACTATG CCTGGCTAAT TTTATTATTT TTAGTAGAGA CGGGGTTTCA CCATGTTGGC 13800CAGGCTGGTC TCAAACTCCT GACCTCAGGT GATCCGCCCG CCTCGCCTCC CAAAGTGATG 13860GGATGANCAG GNCATNGAGC NCACCGTGCC CGGCCCTCTA ACTCTTTACC AGACATAAAG 13920TCTCCNNTTC CCCTTTCTAA ATGTATATAT TGTGTTTTTA AAAGTTAACA GCAGGGATCC 13980CACCTCATTN CCCCGCTNCT CTCCCCAAGA CCTGTCCTGC ACGTTGCACA CAGCAGGTGT 14040GCCCTGGACA TATCCCAAAC CCACGCTGAA AGAAAGAGGG TCTCACTACA CGTATGATAT 14100CTGTGNATCC TTTAAACATC TCCGTGGCTT CCAGGCAACA CAGCCATAAA TAGGAATCTC 14160ATGTCTGACA TGATACCGGG ACCATGTATG GGNAAATTCT GGGTGTGAAG TTCCAGCTAC 14220CCCCGCAGAG GCANCCATTG CATACCCTCC AGAAACTCCC CTGCCGTTNC AAGCCAAAGA 14280CACAACACAA ACAGCNTCCG AGAGAGGGTG TCATTGAAAA TCAATACCAT CATAAGAGCA 14340CACAGCACCG TCTTTCTCTT CTGCCCGTTG ATACACAATT ATGAGCAATT TGCTAACACT 14400GACAACTCGT GGCAAGAACA GGTCGTGTTG ATACGGTTGC CTCGTGAGGA CCCATCTGTC 14460TTCTGGGGTC TTGCCTGGAA CGGAGATCGG AGTTCAGGGT GGCTAATAGA ATCATTACTC 14520ACCTAGGGAC ACAGAATNAT GAGGGTTACC CCCAGTTAAG TGCATACAGT CAAACGGACG 14580GCTGCTCTGG AAGGTACAGT GACGTGAACA GCTTTTATGA AATGCCTAGA TCTGGACCTT 14640CCATACCTGA GCCACCGTTC CAAAGCACTG GGCGTTTTTC AGATACTTTC ATGAGAAATG 14700TTGTCAACAC CGCAAGTTTG CAGTACACAG TCTGAAAGAT ATTCTTGTAT ATGTAGATGT 14760CTGTAGATGC CCTGAAGGTG TGTAGACTTT AGACACCCAG AAGGTGTGTA GATGTCTGTA 14820GACACCTTCT ATGTGTGTAG ATGTCTGTAG ACGCCCTGCA GGTGTGTAGA TATATCTAGA 14880TGGTCTGCCT GTGTATGATA CAGGCTAAAA AGACATTTGT GGTGGACACT AGTTGATTAT 14940TTAGGACTAT GAGATGGGAA AGGAAGNAGC AACCAGCAGT GAAAGGCATG TGGTGGGTGG 15000GGGGTTGGCA TTGCAGTGGG GTCCTCNTGA NGCAGGTGAC ACCCACTATA GGGCTGCCCT 15060TGGNATGGAC GCTTTGTNGA AGCTGTTTGA TTTCACCACA CCAAGCCTGG AGGCACGGAC 15120ATTCCAGGAT GGTGAGGAGT CTGCAAAGGA GGAGATTGGA GGAGGTGCAA TATCCCTAGA 15180GTACGAGAGA TGAGATAGGA GAGCTGTATA AATAGCACTA CCAGCCGGAT GCGGTGGCTC 15240ACGCCTGTCA TCCCAGCACT TTAGGAGGCT GAGGCAGGCG GATCACCTGA GGTCAGGAGT 15300TCCAGAACAG CCTGGCCAAC ACAATGAAAC CCCATCTTTA CTAAAAATAC AAGATTAGCT 15360GGGCACGGTG TCTCACGCCT GTCATCCCTG CACTTTGGGA GGTCGAGGTG CGCAGATCAT 15420GAGGTCAGTT TGGCCAACGC GGCGAAACCC CGTCTCTACT AAAAATACAA AAAAGTAGCC 15480GGGCGTGGTG GTGGGCACCT GTAGTCCCAG CTACTAGGGA GGCTGAGGCA GGAGAATCGC 15540TTGAACCCGG ATGCGGACAT TGCAGTGAGC CGAGATC 15577(2)SEQ ID NO:9的资料：(ⅰ)序列特征：

(A)长度：753个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ⅱ)分子类型：其他核酸

(A)说明：/Desc=“ET92基因区段”(ⅹⅰ)序列描述：SEQ ID NO:9:CGTGGAAGCC TGGAGTTTTT GGGAACAGCG TGTCCCCGCC GAGCCTGGGA GCCCGTGGGT 60TCTGCAAAGC CTGCGGGTGT TTGAGGACTT TGAAGACCAG TTTGTCAGTT GGGCTCAATT 120CCTGGGGTTC AGACTTAGAG AAATGAAGGA GGGAGAGCTG GGGTCGTCTC CAGGAAACGA 180TTCACTTGGG GGGAAGGAAT GGAGTGTTCT TGCAGGCACA TGTCTGTTAG GAGGTGAAAC 240AGAATGTGAA ATCCACGTTG GAGTAAGCGT CCAGCGCTGA ATGTAGCTCG GGGTGGGGTG 300GGAGGGCCCT GGTGTGGATC GTGGAAGGAA GAAAGACAGA ACAGGGTGCT AGTATTTACC 360CCGTTCCCTG TAGACACCCT GGATTTGTCA GCTTTGCAAG CTTCTTGGTT GCAGCGGCCT 420TGCCTGTGCC CCTTTGAGAC TGTTTCCAGA CTAAACTTCC AAATGTCAGC CCCTTACCCT 480TGACAGCAAG GGACATCTCA TTAGGGCATC GCGTGCTTCT CATCTGTGCT CAGCAGGCCC 540GAGATAGGAA CAGAGGGGCG TTGGAGATGC CACTTCCACC AGCCCTGGGT TGAAGGGGAG 600CGAGGGAGAC ACCTTTTACT TAAACCCCTG AGCTTGGTCA GAGAGGCTGA ATGTCTAAAA 660TGAGGAAGAA AAGGTTTTTC ACCTGGAAAC GCTTGAGGGC TGAGTCTTCT GCCCTTCTGA 720CTCCCCCAGC AAATACAGAC AGGTCACCAA CTA 753(2)SEQ ID NO:10的资料：(ⅰ)序列特征：

(A)长度：1890个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ⅱ)分子类型：其他核酸

(A)说明：/desc=“SHOXa”(ⅸ)特征：

(A)名字/关键词：CDS

(B)位置：91-968(ⅹⅰ)序列描述：SEQID NO:10:GTGATCCACC CGCCGCACGG GCCGTCCTCT CCGCGCGGGG AGACGCGCGC ATCCACCAGC 60CCCGGCTGCT CGCCAGCCCC GGCCCCAGCC ATG GAA GAG CTC ACG GCT TTT GTA 114

Met Glu Glu Leu Thr Ala Phe Val

1 5TCC AAG TCT TTT GAC CAG AAA AGC AAG GAC GGT AAC GGC GGA GGC GGA 162Ser Lys Ser Phe Asp Gln Lys Ser Lys Asp Gly Asn Gly Gly Gly Gly

10 15 20GGC GGC GGA GGT AAG AAG GAT TCC ATT ACG TAC CGG GAA GTT TTG GAG 210Gly Gly Gly Gly Lys Lys Asp Ser Ile Thr Tyr Arg Glu Val Leu Glu25 30 35 40AGC GGA CTG GCG CGC TCC CGG GAG CTG GGG ACG TCG GAT TCC AGC CTC 258Ser Gly Leu Ala Arg Ser Arg Glu Leu Gly Thr Ser Asp Ser Ser Leu

45 50 55CAG GAC ATC ACG GAG GGC GGC GGC CAC TGC CCG GTG CAT TTG TTC AAG 306Gln Asp Tle Thr Glu Gly Gly Gly His Cys Pro Val His Leu Phe Lys

60 65 70GAC CAC GTA GAC AAT GAC AAG GAG AAA CTG AAA GAA TTC GGC ACC GCG 354Asp His Val Asp Asn Asp Lys Glu Lys Leu Lys Glu Phe Gly Thr Ala

75 80 85AGA GTG GCA GAA GGG ATT TAT GAA TGC AAA GAG AAG CGC GAG GAC GTG 402Arg Val Ala Glu Gly Ile Tyr Glu Cys Lys Glu Lys Arg Glu Asp Val

90 95 100AAG TCG GAG GAC GAG GAC GGG CAG ACC AAG CTG AAA CAG AGG CGC AGC 450Lys Ser Glu Asp Glu Asp Gly Gln Thr Lys Leu Lys Gln Arg Arg Ser105 110 115 120CGC ACC AAC TTC ACG CTG GAG CAG CTG AAC GAG CTC GAG CGA CTC TTC 498Arg Thr Ash Phe Thr Leu Glu Gln Leu Asn Glu Leu Glu Arg Leu Phe

125 130 135GAC GAG ACC CAT TAC CCC GAC GCC TTC ATG CGC GAG GAG CTC AGC CAG 546Asp Glu Thr His Tyr Pro Asp Ala Phe Met Arg Glu Glu Leu Ser Gln

140 145 150CGC CTG GGG CTC TCC GAG GCG CGC GTG CAG GTT TGG TTC CAG AAC CGG 594Arg Leu Gly Leu Ser Glu Ala Arg Val Gln Val Trp Phe Gln Asn Arg

155 160 165AGA GCC AAG TGC CGC AAA CAA GAG AAT CAG ATG CAT AAA GGC GTC ATC 642Arg Ala Lys Cys Arg Lys Gln Glu Asn Gln Met His Lys Gly Val Ile

170 175 180TTG GGC ACA GCC AAC CAC CTA GAC GCC TGC CGA GTG GCA CCC TAC GTC 690Leu Gly Thr Ala Asn His Leu Asp Ala Cys Arg Val Ala Pro Tyr Val185 190 195 200AAC ATG GGA GCC TTA CGG ATG CCT TTC CAA CAG GTC CAG GCT CAG CTG 738Asn Met Gly Ala Leu Arg Met Pro Phe Gln Gln Val Gln Ala Gln Leu

205 210 215CAG CTG GAA GGC GTG GCC CAC GCG CAC CCG CAC CTG CAC CCG CAC CTG 786Gln Leu Glu Gly Val Ala His Ala His Pro His Leu His Pro His Leu

220 225 230GCG GCG CAC GCG CCC TAC CTG ATG TTC CCC CCG CCG CCC TTC GGG CTG 834Ala Ala His Ala Pro Tyr Leu Met Phe Pro Pro Pro Pro Phe Gly Leu

235 240 245CCC ATC GCG TCG CTG GCC GAG TCC GCC TCG GCC GCC GCC GTG GTC GCC 882Pro Ile Ala Ser Leu Ala Glu Ser Ala Ser Ala Ala Ala Val Val Ala

250 255 260GCC GCC GCC AAA AGC AAC AGC AAG AAT TCC AGC ATC GCC GAC CTG CGG 930Ala Ala Ala Lys Ser Asn Ser Lys Asn Ser Ser Ile Ala Asp Leu Arg265 270 275 280CTC AAG GCG CGG AAG CAC GCG GAG GCC CTG GGG CTC TG ACCCGCCGCG 978Leu Lys Ala Arg Lys His Ala Glu Ala Leu Gly Leu

285 290CAGCCCCCCG CGCGCCCGGA CTCCCGGGCT CCGCGCACCC CGCCTGCACC GCGCGTCCTG 1038CACTCAACCC CGCCTGGAGC TCCTTCCGCG GCCACCGTGC TCCGGGCACC CCGGGAGCTC 1098CTGCAAGAGG CCTGAGGAGG GAGGCTCCCG GGACCGTCCA CGCACGACCC AGCCAGACCC 1158TCGCGGAGAT GGTGCAGAAG GCGGAGCGGG TGAGCGGCCG TGCGTCCAGC CCGGGCCTCT 1218CCAAGGCTGC CCGTGCGTCC TGGGACCCTG GAGAAGGGTA AACCCCCGCC TGGCTGCGTC 1278TTCCTCTGCT ATACCCTATG CATGCGGTTA ACTACACACG TTTGGAAGAT CCTTAGAGTC 1338TATTGAAACT GCAAAGATCC CGGAGCTGGT CTCCGATGAA AATGCCATTT CTTCGTTGCC 1398AACGATTTTC TTTACTACCA TGCTCCTTCC TTCATCCCGA GAGGCTGCGG AACGGGTGTG 1458GATTTGAATG TGGACTTCGG AATCCCAGGA GGCAGGGGCC GGGCTCTCCT CCACCGCTCC 1518CCCGGAGCCT CCCAGGCAGC AATAAGGAAA TAGTTCTCTG GCTGAGGCTG AGGACGTGAA 1578CCGCGGGCTT TGGAAAGGGA GGGGAGGGAG ACCCGAACCT CCCACGTTGG GACTCCCACG 1638TTCCGGGGAC CTGAATGAGG ACCGACTTTA TAACTTTTCC AGTGTTTGAT TCCCAAATTG 1698GGTCTGGTTT TGTTTTGGAT TGGTATTTTT TTTTTTTTTT TTTTTTGCTG TGTTACAGGA 1758TTCAGACGCA AAAGACTTGC ATAAGAGACG GACGCGTGGT TGCAAGGTGT CATACTGATA 1818TGCAGCATTA ACTTTACTGA CATGGAGTCA AGTGCAATAT TATAAATATT ATAGATTAAA 1878AAAAAAATAG CA 1890(2)SEQ ID NO:11的资料：(ⅰ)序列特征：

(A)长度：292个氨基酸

(B)类型：氨基酸

(D)拓扑结构：线性(ⅱ)分子类型：蛋白质(ⅹⅰ)序列描述：SEQID NO:11:Met Glu Glu Leu Thr Ala Phe Val Ser Lys Ser Phe Asp Gln Lys Ser1 5 10 15Lys Asp Gly Asn Gly Gly Gly Gly Gly Gly Gly Gly Lys Lys Asp Ser

20 25 30Ile Thr Tyr Arg Glu Val Leu Glu Ser Gly Leu Ala Arg Ser Arg Glu

35 40 45Leu Gly Thr Ser Asp Ser Ser Leu Gln Asp Ile Thr Glu Gly Gly Gly

50 55 60His Cys Pro Val His Leu Phe Lys Asp His Val Asp Asn Asp Lys Glu65 70 75 80Lys Leu Lys Glu Phe Gly Thr Ala Arg Val Ala Glu Gly Ile Tyr Glu

85 90 95Cys Lys Glu Lys Arg Glu Asp Val Lys Ser Glu Asp Glu Asp Gly Gln

100 105 110Thr Lys Leu Lys Gln Arg Arg Ser Arg Thr Ash Phe Thr Leu Glu Gln

115 120 125

Leu Asn Glu Leu Glu Arg Leu Phe Asp Glu Thr His Tyr Pro Asp Ala

130 135 140Phe Met Arg Glu Glu Leu Ser Gln Arg Leu Gly Leu Ser Glu Ala Arg145 150 155 160Val Gln Val Trp Phe Gln Asn Arg Arg Ala Lys Cys Arg Lys Gln Glu

165 170 175Asn Gln Met His Lys Gly Val Ile Leu Gly Thr Ala Asn His Leu Asp

180 185 190Ala Cys Arg Val Ala Pro Tyr Val Asn Met Gly Ala Leu Arg Met Pro

195 200 205Phe Gln Gln Val Gln Ala Gln Leu Gln Leu Glu Gly Val Ala His Ala

210 215 220His Pro His Leu His Pro His Leu Ala Ala His Ala Pro Tyr Leu Met225 230 235 240Phe Pro Pro Pro Pro Phe Gly Leu Pro Ile Ala Ser Leu Ala Glu Ser

245 250 255Ala Ser Ala Ala Ala Val Val Ala Ala Ala Ala Lys Ser Asn Ser Lys

260 265 270Asn Ser Ser Ile Ala Asp Leu Arg Leu Lys Ala Arg Lys His Ala Glu

275 280 285Ala Leu Gly Leu

290(2)SEQ ID NO:12的资料：(ⅰ)序列特征：

(A)长度：1354个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ⅱ)分子类型：其他核酸

(A)说明：/desc=SHOXb (ⅸ)特征：

(A)名称/关键词：CDS

(B)位置：91..768(ⅹⅰ)序列描述：SEQID NO:12:GTGATCCACC CGCCGCACGG GCCGTCCTCT CCGCGCGGGG AGACGCGCGC ATCCACCAGC 60CCCGGCTGCT CGCCAGCCCC GGCCCCAGCC ATG GAA GAG CTC ACG GCT TTT GTA 114

Met Glu Glu Leu Thr Ala Phe Val

295 300TCC AAG TCT TTT GAC CAG AAA AGC AAG GAC GGT AAC GGC GGA GGC GGA 162Ser Lys Ser Phe Asp Gln Lys Ser Lys Asp Gly Asn Gly Gly Gly Gly

305 310 315GGC GGC GGA GGT AAG AAG GAT TCC ATT ACG TAC CGG GAA GTT TTG GAG 210Gly Gly Gly Gly Lys Lys Asp Ser Ile Thr Tyr Arg Glu Val Leu Glu

320 325 330AGC GGA CTG GCG CGC TCC CGG GAG CTG GGG ACG TCG GAT TCC AGC CTC 258Ser Gly Leu Ala Arg Ser Arg Glu Leu Gly Thr Ser Asp Ser Ser Leu

335 340 345CAG GAC ATC ACG GAG GGC GGC GGC CAC TGC CCG GTG CAT TTG TTC AAG 306Gln Asp Ile Thr Glu Gly Gly Gly His Cys Pro Val His Leu Phe Lys

350 355 360GAC CAC GTA GAC AAT GAC AAG GAG AAA CTG AAA GAA TTC GGC ACC GCG 354Asp His Val Asp Asn Asp Lys Glu Lys Leu Lys Glu Phe Gly Thr Ala365 370 375 380AGA GTG GCA GAA GGG ATT TAT GAA TGC AAA GAG AAG CGC GAG GAC GTG 402Arg Val Ala Glu Gly Ile Tyr Glu Cys Lys Glu Lys Arg Glu Asp Val

385 390 395AAG TCG GAG GAC GAG GAC GGG CAG ACC AAG CTG AAA CAG AGG CGC AGC 450Lys Ser Glu Asp Glu Asp Gly Gln Thr Lys Leu Lys Gln Arg Arg Ser

400 405 410CGC ACC AAC TTC ACG CTG GAG CAG CTG AAC GAG CTC GAG CGA CTC TTC 498Arg Thr Asn Phe Thr Leu Glu Gln Leu Asn Glu Leu Glu Arg Leu Phe

415 420 425GAC GAG ACC CAT TAC CCC GAC GCC TTC ATG CGC GAG GAG CTC AGC CAG 546Asp Glu Thr His Tyr Pro Asp Ala Phe Met Arg Glu Glu Leu Ser Gln

430 435 440CGC CTG GGG CTC TCC GAG GCG CGC GTG CAG GTT TGG TTC CAG AAC CGG 594Arg Leu Gly Leu Ser Glu Ala Arg Val Gln Val Trp Phe Gln Asn Arg445 450 455 460AGA GCC AAG TGC CGC AAA CAA GAG AAT CAG ATG CAT AAA GGC GTC ATC 642Arg Ala Lys Cys Arg Lys Gln Glu Asn Gln Met His Lys Gly Val Ile

465 470 475TTG GGC ACA GCC AAC CAC CTA GAC GCC TGC CGA GTG GCA CCC TAC GTC 690Leu Gly Thr Ala Asn His Leu Asp Ala Cys Arg Val Ala Pro Tyr Val

480 485 490AAC ATG GGA GCC TTA CGG ATG CCT TTC CAA CAG ATG GAG TTT TGC TCT 738Asn Het Gly Ala Leu Arg Het Pro Phe Gln Gln Met Glu Phe Cys Ser

495 500 505TGT CGC CCA GGC TGG AGT ATA ATG GCA TGA TCTCGACTCA CTGCAACCTC 788Cys Arg Pro Gly Tgp Ser Ile Met Ala *

510 515CGCCTCCCGA GTTCAAGCGA TTCTCCTGCC TCAGCCTCCC GAGTAGCTGG GATTACAGGT 848CCCCACCACC ATGTCAAGAT AATGTTTGTA TTTTCAGTAG AGATGGGGTT TGACCATGTT 908GGCCAGGCTG GTCTCGAACT CCTGACCTCA GGTGATCCAC CCGCCTTAGC CTCCCAAAGT 968GCTGGGATGA CAGGCGTGAG CCCCTGCGCC CGGCCTTTGT AACTTTATTT TTAATTTTTT 1028TTTTTTTTTA AGAAAGACAG AGTCTTGCTC TGTCACCCAG GCTGGAGCAC ACTGGTGCGA 1088TCATAGCTCA CTGCAGCCTC AAACTCCTGG GCTCAAGCAA TCCTCCCACC TCAGCCTCCT 1148GAGTAGCTGG GACTACAGGC ACCCACCACC ACACCCAGCT AATTTTTTTG ATTTTTACTA 1208GAGACGGGAT CTTGCTTTGC TGCTGAGGCT GGTCTTGAGC TCCTGAGCTC CAAAGATCCT 1268CTCACCTCCA CCTCCCAAAG TGTTAGAATT ACAAGCATGA ACCACTGCCC GTGGTCTCCA 1328AAAAAAGGAC TGTTACGTGG AAAAAA 1354(2)SEQ ID NO:13的资料：(ⅰ)序列特征：

(A)长度：226个氨基酸

(B)类型：氨基酸

(D)拓扑结构：线性(ⅱ)分子类型：蛋白质(ⅹⅰ)序列描述：SEQ ID NO:13:Met Glu Glu Leu Thr Ala Phe Val Ser Lys Ser Phe Asp Gln Lys Ser1 5 10 15Lys Asp Gly Asn Gly Gly Gly Gly Gly Gly Gly Gly Lys Lys Asp Ser

20 25 30Ile Thr Tyr Arg Glu Val Leu Glu Ser Gly Leu Ala Arg Ser Arg Glu

35 40 45Leu Gly Thr Ser Asp Ser Ser Leu Gln Asp Ile Thr Glu Gly Gly Gly

85 90 95Cys Lys Glu Lys Arg Glu Asp Val Lys Ser Glu Asp Glu Asp Gly Gln

100 105 110Thr Lys Leu Lys Gln Arg Arg Ser Arg Thr Asn Phe Thr Leu Glu Gln

115 120 125Leu Asn Glu Leu Glu Arg Leu Phe Asp Glu Thr His Tyr Pro Asp Ala

165 170 175Asn Gln Met His Lys Gly Val Ile Leu Gly Thr Ala Asn His Leu Asp

180 185 190Ala Cys Arg Val Ala Pro Tyr Val Asn Met Gly Ala Leu Arg Met Pro

195 200 205Phe Gln Gln Met Glu Phe Cys Ser Cys Arg Pro Gly Trp Ser Ile Met

210 215 220Ala *225(2)SEQ ID NO:14的资料：(ⅰ)序列特征：

(A)长度：32367个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ⅱ)分子类型：其他核酸

(A)说明：/desc=“粘粒LLNOYCO3’M’34F5”(ⅹⅰ)序列描述：SEQID NO:14:TTTCTCTGTC TCCATCCCTC TGTCTCTCCC TTTCTCTCTG TCTTTCCTTG TCTCTCTCTT 60TCTCTCTCTC TCTCCATCTC TCTCTCTCCC TGTCTCTCTC TCTCCATCTC CCCGTCTCTC 120CGTTTCTCTC TCTGCCTCTC CCTGTCTGTC TCTCTCTTTC TGTGTCTTAC ACACACCCCA 180ACCCACCGTC ACTCATGTCC CCCCACTGCT GTGCCATCTC ACACAAGTTC ACAGCTCAGC 240TGTCATCCTG GGTCCCCAGG CCCCGCCGGG GAGGAAGATG CGCCGTGGGG TTACGGGAGG 300AAGGGGACTC CGGGCCTCCT GGTGCCCCAC TTTATTTGCA GAAGGTCCTT GGCAGGAACC 360GTGACGCGTT TGGTTTCCAG GACTTGGAAA ACGAATTTCA GGTCGCGATG GCGAGCACCG 420GCTTCCCCTG AAGCACATTC AATAGCGAGA GGCGGGAGGG AGCGAGCAGG AGCATCCCAC 480CATGAAAACC AAAAACACAA GTATTTTTTT CACCCGGTAA ATACCCCAGA CGCCAGGGTG 540ACAGCGCGGC GCTAAGGGAG GAGGCCTCGC GCCGGGGTCC GCCGGGATCT GGCGCGGGCG 600GAAAGAATAT AGATCTTTAC GAACCGGATC TCCCGGGGAC CTGGGCTTCT TTCTGCGGGC 660GCTGGAGACC CGGGAGGCGG CCCCGGGGAT CCTCGGCCTC CGCCGCCGCC GCCTCCCAAG 720CGCCCGCGTC CCGGTTTGGG GACACCCGGC CCCTTCTTCT CACTTTCGGG GATTCTCCAG 780CCGCGTTCCA TCTCACCAAC TCTCCATCCA AGGGCGCGCC GCCACCAACT TGGAGCTCAT 840CTTCTCCCAA GATCGTGCGT CCCCGGGGCG CCCGGGTCCC CCCCCTCGCC ATCTCAACCC 900CGGCGCGACC CGGGCGCTTC CTGGAAAGAT CCAGGCGCCG GGCTCTGCGC TCCTCCCGGG 960AGCGAGGGCG GCCGGACGAC TGGGACCCTC CTCTCTCCAG CCGTGAACTC CTTGTCTCTC 1020TGTCTCTCTC TGCAGGAAAA CTGGAGTTTG CTTTTCCTCC GGCCACGGAG AGAACGCGGG 1080TAACCTGTGT GGGGGGGTCG GGCGCCTGCG CCCCCCTCCT GCGCGCGCGC TCTCCCTTCC 1140AAAAATGGGA TCTTTCCCCC TTCGCACCAA GGTGTACGGA CGCCAAACAG TGATGAAATG 1200AGAAGAAAGC CAATTGCCGG CCTGGGGGGT GGGGGAGACA CAGCGTCTCT GCGTGCGTCC 1260GCCGCGGAGC CCGGAGACCA GTAATTGCAC CAGACAGGCA GCGCATGGGG GGCTGGGCGA 1320GGTCGCCGCG TATAAATAGT GAGATTTCCA ATGGAAAGGC GTAAATAACA GCGCTGGTGA 1380TCCACCCGCG CGCACGGGCC GTCCTCTCCG CGCGGGGAGA CGCGCGCATC CACCAGCCCC 1440GGCTGCTCGC CAGCCCCGGC CCCAGCCATG GAAGAGCTCA CGGCTTTTGT ATCCAAGTCT 1500TTTGACCAGA AAAGCAAGGA CGGTAACTGC GGAGGCGGAG GCGGCGGAGG TAAGAAGGAT 1560TCCATTACGT ACCGGGAAGT TTTGGAGAGC GGACTGGCGC GCTCCCGGGA GCTGGGGACG 1620TCGGATTCCA GCCTCCAGGA CATCACGGAG GGCGGCGGCC ACTGCCCGGT GCATTTGTTC 1680AAGGACCACG TAGACAATGA CAAGGAGAAA CTGAAAGAAT TCGGCACCGC GAGAGTGGCA 1740GAAGGTAAGT TCCTTTGCGC GCCGGCTCCA GGGGGGCCCT CCTGGGGTTC GGCGCCTCCT 1800CGCCACGGAG TCGGCCCCGC GCGCCCCTCG CTGTGCACAT TTGCAGCTCC CGTCTCGCCA 1860GGGTAAGGCC CGGGCCGTCA GGCTTTGCCT AAGAAAGGAA GGAAGGCAGG AGTGGACCCG 1920ACCGGAGACG CGGGTGGTGG GTAGCGGGGT GCGGGGGGAC CCAGGGAGGG TCGCAGCGGG 1980GGCCGCGCGC GTGGGCACCG ACACGGGAAG GTCCCGGGCT GGGGTGGATC CGGGTGGCTG 2040TGCCTGAAGC CGTAGGGCCT GAGATGTCTT TTTCATTTTC TTTTTCTTTC CTTTCCTTTT 2100TTTGTTTGTT TGTTTGTTTG TTTGAGACAG AGTCTCGCTC TGTCCCCCAG GCTGGAGTGC 2160AGTGGTGCGA TCTCGGCTCA CTGCAACCTC CGCCTCCTGG GTTCAAGCGA TTCTCCTGCC 2220TCAGCCTCCC CAGTAGCTGG GATTACAGGC ATGCACCACC ACGCCTGGCT AATTTTTGTG 2280CTTTTAGTAA AGACGGGGAT TCACCATGTT GGCCAGGCTG GTCTCGAACT CCTGACCTCA 2340GGTGATCCAC CCGCCTCGGC CTCCCAAAGT GCTGGGATGA CAGGCGTGAG GCACCGCGCC 2400CGGCCTGGGT CCTGACGGCT TAGGATGTGT GTTTCTGTCT CTGCCTGTCT GCCTTGTATT 2460TACGGTCACC CAGACGCACA GAGGAGCCGT CTCCACGCGC CTTCCCAGCG CTCAGCGCCT 2520GCCGGGCCCC CGGAGATCAC GGGAAGACTC GAGGCTGCGT GGTAGGAGAC GGGAAGGCCC 2580CGGGTCAGCT CGGTTCTGTT TCCTTTAAGG AACCCTTCAT TATTATTTCA TTGTTTTCCT 2640TTGAACGTCG AGGCTTGATC TTGGCGAAAG CTGTTGGGTC CATAAAAACC ACTCCCGTGA 2700GCGGAGGTGG CCGGGATCTG GATGGGGCGC GAGGGGCCCC GGGGAAGCTG GCGGCTTCGC 2760GGGCGCGTCC TAAGTCAAGG TTGTCAGAGC GCAGCCGGTT GTGCGCGGCC CGGGGGAGCT 2820CCCCTCTGGC CCTTCCTCCT GAGACCTCAG TGGTGGGTCG TCCCGTGGTG GAAATCGGGG 2880AGTAAGAGGC TCAGAGAGAG GGGCTGGCCC CGGGGATCTC TGTGCACACA CGACAACTGG 2940GCGGCATACA TCTTAAGAAT AAAATGGGCT GGCTGTGTCG GGGCACAGCT GGAGACGGCT 3000ATGGACGCCT GTTATGTTTT CATTACAAAG ACGCAGAGAA TCTAGCCTCG GCTTTTGCTG 3060ATTCGCAGAG TTGAGGTGCG AGGGTGAATG CCCCAAAGGT AATTCTTCCT AAGACTCTGG 3120GGCTACCTGC TCTCCGGGGC CCTGCATTTG GGGTGTGGAG TGGCCCCGGG AAATAGCCCT 3180TGTATTCGTA GGAGGCACCA GGCAGCTTCC CAAGGCCCTG ACTTTGTCGA AGCAGAAAGC 3240TGTGGCTACG GTTTACAAAG CAGTCCCCGG TTTCTGACCG TCTAAGAGGC AGGAGCCCAG 3300CCTGCCTTTG ACAGTGAGAG GAGTTCCTCC CTACACACTG CTGCGGGCAC CCGGCACTGT 3360AATTCATACA CAGAGAGTTG GCCTTCCTGG ACGCAAGGCT GGGAGCCGCT TGAGGGCCTG 3420CGTGTAATTT AAGAGGGTTC GCAGCGCCCG GCGGCCGCTT CTGTGGGGTT GCTTTTTGGT 3480TGTCCTTCGC AGACACCGTT TTGCTCCTCT GAACTCTCTC TTCTCCCCCT GGCCGTGGAC 3540CCGGGAGAGC AAAGTGTCCT CCAGACCTTT TGAAAGTGAG AGGAAAATAA AGACCAGGCC 3600AAAGACCCAG GGCCACAGGA GAGGAGACAG AGAGTCCCCG TTACATTTTC CCCTTGGCTG 3660GGTGCAGAAA GACCCCCGGG CCAGGACTGC CACCCAGGCT ACTATTTATT CATCAGATCC 3720AAGTTAAATC GAGGTTGGAG GGCAGGGGAG AGTCTGAGGT TACCGTGGAA GCCTGGAGTT 3780TTTGGGAACA GCGTGTCCCC GCCGAGCCTG GGAGCCCGTG GGTTCTGCAA AGCCTGCGGG 3840TGTTTGAGGA CTTTGAAGAC CAGTTTGTCA GTTGGGCTCA ATTCCTGGGG TTCAGACTTA 3900GAGAAATGAA GGAGGGAGAG CTGGGGTCGT CTCCAGGAAA CGATTCACTT GGGGGGAAGG 3960AATGGAGTGT TCTTGCAGGC ACATGTCTGT TAGGAGGTGA AACAGAATGT GAAATCCACG 4020TTGGAGTAAG CGTCCAGCGC TGAATGTAGC TCGGGGTGGG GTGGGAGGGC CCTGGTGTGG 4080ATCGTGGAAG GAAGAAAGAC AGAACAGGGT GCTAGTATTT ACCCCGTTCC CTGTAGACAC 4140CCTGGATTTG TCAGCTTTGC AAGCTTCTTG GTTGCAGCGG CCTTGCCTGT GCCCCTTTGA 4200GACTGTTTCC AGACTAAACT TCCAAATGTC AGCCCCTTAC CCTTGACAGC AAGGGACATC 4260TCATTAGGGC ATCGCGTGCT TCTCATCTGT GCTCAGCAGG CCCGAGATAG GAACAGAGGG 4320GCGTTGGAGA TGCCACTTCC ACCAGCCCTG GGTTGAAGGG GAGCGAGGGA GACACCTTTT 4380ACTTAAACCC CTGAGCTTGG TCAGAGAGGC TGAATGTCTA AAATGAGGAA GAAAAGGTTT 4440TTCACCTGGA AACGCTTGAG GGCTGAGTCT TCTGCCCTTC TGACTCCCCC AGCAAATACA 4500GACAGGTCAC CAACTACTGG AGATGAGAAA GTGCCATTTT TGGCACACTC TGGTGGGGTA 4560GGTGCCCGAC CGCGTGTGAA AAAGTGGGAA GGAGAGATTT CTGCGCACGC GGTTCAGCCC 4620CCAGGCGCGG TGGCGCATTC AGGTACTCAG ACGCGGTTCT GCTGTTCTGC TGAGAAACAG 4680GCTTCGGGTA GGGGCTCCTA GCTCCGCCAG ATCGCGGAGG GACCCCCAGC CCTCCTGCGC 4740TGCAGCGGTG GGGATAGCGT CTCTCCGTAG GCCTAGAATC TGCAACCCGC CCCGGGTCCT 4800CCCCGTGTCC TTCCCGGGCG TCCCGCCGGG GATCCCACAG TTGGCAGCTC TTCCTCAAAT 4860TCTTTCCCTT AAAAATAGGA TTTGACACCC CACTCTCCTT AAAAAAAAAA AATAAGAAAA 4920AAAGGTTAGG TTATGTCAAC AGAGGTGAAG TGGATAATTG AGGAAACGAT TCTGAGATGA 4980GGCCAAGAAA ACAACGCTCG TGCAAAGCCC AGGTTTTTGG GAAAGCAGCG AGTATCCTCC 5040TCGGCTTTTG CGTTATGGAC CCCACGCAGT TTTTGCGTCA AAGCGCATTG GTTTTCGAGG 5100GCCCCCTTTC CACCGCGGGA TGCACGAAGG GGTTCGCCAC GTTGCGCAAA ACCTCCCCGG 5160CCTCAGCCCT GTGCCCTCCG CTCCCCACGC AGGGATTTAT GAATGCAAAG AGAAGCGCGA 5220GGACGTGAAG TCGGAGGACG AGGACGGGCA GACCAAGCTG AAACAGAGGC GCAGCCGCAC 5280CAACTTCACG CTGGAGCAGC TGAACGAGCT CGAGCGACTC TTCGACGAGA CCCATTACCC 5340CGACGCCTTC ATGCGCGAGG AGCTCAGCCA GCGCCTGGGG CTCTCCGAGG CGCGCGTGCA 5400GGTAGGAACC CGGGGGCGGG GGCGGGGGGC CCGGAGCCAT CGCCTGGTCC TCGGGAGCGC 5460ACAGCACGCG TACAGCCACC TGCGCCCGGG CCGCCGCCGT CCCCTTCCCG GAGCGCGGGG 5520AGGTTGGGTG AGGGACGGGC TGGGGTTCCT GGACTTTTGG AGACGCCTGA GGCCTGTAGG 5580ATGGGTTCAT TGCGTTTGTT TTTCACCAAC AGCAAACAAA TATATATACA TATATATTAT 5640ACAAATAACA AATAAATATA TATGTTATAC AGATGGGTAT ATTGTATATA TTATAGATAT 5700TTGTTCGTCC TTGGTGCAAA GACACCCGGT GAACCCATAT ATTGGCTCCT GACTGCCTTC 5760GGTTCCCCTG GGATTGGTTA TAGGGGCAAC ACATGCAAAC AAAACTTTCC CTGGATTATA 5820CTTAGGAGAC GAAGCTACAG ATGCGTTTGA TCCAGAGTGT TTTACAAGAT TTTTCATTTA 5880AAAAAAAATG TGTCTTTTGG CCCCTGATTC CCCTCCGTCT TCCCGTGTGG CTGCATTGAA 5940AAGGTTTCCT TAGGATGAAA GGAGAGGGGT GTCCTCTGTC CCTAGGTGGA GAGAAACAGG 6000GTCTTCTCTT TCCTCCGTTT TTTCACCTAC CGTTTCTATC TCCCTCCTCC CCTCTCCAGC 6060CCTGTCCTCT GCTACAAACC ACCCCCTCCT CCCTCCGGCT GTGGGGAGCG CAGGAGCACG 6120TTGGGCATCT GGATGAGCGG AGACTATTAG CGGGGCACGG GGGCTCCCCG AGGAGCGCGC 6180GAATTCACGC TGCCCCATGA GACCAGGCAC CGGGGGGCGG AGGGGCCTTG GGTGTCCGCA 6240GAGGGACGGG CGGGCAGAGC CTTCCTCCGC ATTCTAAACA TTCACTTAAA GGTATGAGTT 6300TATTTCAGGG GTGCTGCTGG GAGAGCCTCC AAATGGCTTC TTCCAGCCCC TGCCTGACAG 6360TTCAGCTCCC CTGGAAGGTC AACTCCTCTA GTCCTTTCTC CTGGTTCTGG GCAGGACAGA 6420AGTGGGGGGA GGGAGAGAGA GAGAGAGAGA GAGAGAGACG GTCAGGATCC CCGGACCCTG 6480GGGAACCCGT CAAAAATAAA TGAAATTAAG ATTGCCGACC AGAGAGAGAA CCGTGACAAA 6540GCAAACGGCG TTCAAAGCAA AGAGACGAAC TGAAAGCCCG TTCCCGTAGG ACTGGTTATG 6600AGGTCAACAC ATTCAAACAC AGCTTGCTCT GGATTTTGCT GAGCAGAGGA AGATACAGAT 6660GCATTTGATC CAAAGTGTGT TACATCTTTC ATTATATGTG TGTCTATATA TATAAACATA 6720TATAAATATA TAAACATACA TAAATGTATG TAAATATATA TAATCTATAT ACATATATAA 6780ATATATAAAC ACATATATAA TATATAAATC TATAAACATA TATAATATAT AAACATAAAT 6840ATATAAACAT ATATAATATA TAAATATATT AACATATATA AAATATGTAT AAATATATAT 6900AAACATATAA ACATATATAA ATATATAAAC ATATAAATAT ATAAACATAT ATAAATATAT 6960ACAAACATAT TGTATATATA TAAATATATA TAAAAACATA TATATACATA TAAAAATATA 7020TATAAACATA TATACATATA AAGAAATATA TATAAACATA TATACATATA AATATACATA 7080TATAAACATA TATATACATA AAATATATAT AAACATATAT ACATATAAAA ATATATATAT 7140ATTAACATAT ATATACATAT AAAAATATAT ATATTAACAT ATATATACAT ATAAAAATAT 7200ATATATATTT TTGGCCCCTG ATTCCCTTCG GTTCCTGTGG GATGGGTGAT TGAGTCAACA 7260CATTCAAACA CAACTTTTCC ATCGATGTTG CTTAGGAGAT GAGGATACAG ATGCGTTTGA 7320TGGAGAGGGT TTTACAAGCT CTTTCATTTA AATATATATA TATATATATA TATATTTTTT 7380GGCTCCTGAT TCTCTTCCGT CTTCCCATGT GGCTGCATTT TAAAAGGCTT CCCTAAGATC 7440GTTACGATTA AATCAACCCT CCCCAGGCAT CTTTACCGAG GGCTGTGGTC CCCAAAGCGA 7500TACAGCCCAG GAGGGAGAGA GGCTTTGGTG ACTTGGAGGA AGGACTGTGT CCCTCCTTAG 7560GGCGTCTGTG GCCTCAGTGA GGGAAGGAAG CTGCATCAGA CAGGGGTTTC CTCGCTGTCC 7620ACCCCTCTGG CAGAAGATGG ATTGGGCTGC CCCGTATAAA TTAATGAAAA GATTAAAGTT 7680TCGCTAAAGG GGACATCGAG TTTATGTGTC ATCTCCTGGT GTCTGTGTGC CTGGGATCTG 7740CAATATATCC CAGCCCTTGA TGTACTGTTT CTATAAAAAT AAATTACTTG TAATTTAATT 7800CCACACTATT TCTTTCCGTA GTCTATTACC GACGAGAGCA CGTTAGTTCA GCTGCGGAAA 7860ATTGGTTGTG GGGTGTGTGC GGACCCCGAG AACGCCCTAA AATAAAGACA AATCGGGGAC 7920AAGCTGGGGG TTATCGATTG CAGGGGTCGC ATGAAAATTT AACGACGGTA AATAATAATA 7980AAAACAAACA TGGGAATGCA ATAAAAGACA TAATTCTCCA TCGCCGCGGG GGGAAAGGAT 8040CCTATAGTAA AGGCGAGTGC GCTTTGAGGG GTCATAAAAA TCAATTAGTT CCAACACCCA 8100CGTCCCGCGT TGAGGGGACG GGGACGAGCA GGGACAGAAA AAGAAACCAT ATTTGAATCC 8160CATCTCTCTG TGAATTCTTG GGTCACATGC GTCTCAGTAC AGCCCGTCCC GTGCTGTGAC 8220CGGATAGAGT TTCAATTTAC TGTGGAAATT TGCTGTAAAT AAATTGAGCA TCCGATAGAA 8280GCTGTTGCTG ATTAACCTTT TATTTTTAGC GTGGCCCTGC AAAGTCGTAT CACCCAGCTG 8340TCAGGCTTCT AATCGAAAGT TATGAGACCA CGGTGAGGGG CAGGCGGTAA TTTAATTACA 8400ACAAATATCT TTGGGTTTAT GGCGCAGAGC TAAATTAAAT GTCATTATTC ACTGTCTGTA 8460ATGGAAATCA AAAGGAAATC GCATTACGGC ATTTGGGAAA GAAAGCGGGG AGTGCTCTTT 8520AATGAAGAAA TAACTGTCTT AAGCAGTGTC ACACACTTCA CTTACCATAT TCGGGCCTAA 8580TTGGAATGGA TCGTGAATCA CTCCAAGACT GATTTATTAG CGCTTCACGC AGCGGCTAAT 8640TCATCACTTG TATTCTTCAT CATTTTTTTT TTTCCTCTCG CCGTGTTGAA GGGAGAGTGA 8700ATGAGGCTTT CCACGTTTCA GGAGGATTTT CTTTTTTGAA AAATGCCCTT CCAGAGGCTT 8760TTGGGTGGCT GGCTTGCTTT CTGGGCCCTG GAGGAGACAG GCGGAGAGTC CAGGTGGGCA 8820TGGAGAGGCA CAGTGGCAGG TCACCTGGAT GGTCAGTGGA GGTGGAGGTC TGAAGGCGCC 8880AGCTTTGGAA ATTATTGGTG AATTTCGATG TCAGCACCAG GCAGGGGCCT TTTTGGCGGG 8940GGTGTGAGGG AGGATGACTT TGCTGGGAAA CAGGATCAGG TTCTCCAGGC GCACTGCAGC 9000CCGGTAGGAC CCACTTTGGA AATGAAAAGC CAGTTCCGAA AGCTGGGCTG GAAGCTTCCG 9060TGTTGGGTTC AAGAGCAAGT TCACGTTGCG CTGTGTAGAC TCCTGGCTGC TCCCAAACTC 9120TGAGGGTTTT CTGAGGTTCC CTTCATAGGG GCACCGGCCC TGGGCCATGC ACAGTGCGTA 9180AGGGTGGCTG TGGGCCGAGG GACCCAGCAC GTGTTTTGCC CACAACAGCC GGAGTGACTG 9240GTTCACTCAC CGCCTTGGCG GAGGACGCCT GTTCTCTGGA CGAATCATTT CTCTTGGGTG 9300GTGACTGCCT TGTGGGTCAA GGTGCAGGTT TTCTGCCACA GAAAACCTGT TAGGAGGAAT 9360TAAGCGACTA AGACTGTCAG GGAGGTGGTG GTGGGGGAGA GGAGGGGGTG GTGTCCAGAT 9420TACCAGGCAT AGGCTAAACT GCCTGCACTC TCCAGCTGGT CTGTCTGTGG AGGAGGGGAT 9480TGTCAATACT GGGAGAGCAG AGGAGGCTCG TAGGAGGTGA GAGGGGGTGG AATTTGCATG 9540CAAATCTTCA CATGAGGCCT GTGTGAATTT CTCCAGCCTC CTGAGGGTCC CCTGCGCTAT 9600TGCACTCAAC TTCTTGATAG TTTACCCCAA GACTCAGAAG TCCTTAGAGG GGCAGAATGC 9660CCCCACCACA AAGCCTGCTA TCCTTGGGCG TCCTCAGGAC CCTTGGTCAT GAATGGGACC 9720CTTTCATGTA TGGGGACCCT TGGTAATATG AATGGGACGC CTTCAGCTCC CCAGGGCTTC 9780CGAGGAGGCC GAGAAGGGCA AAGACACTTC CGAGGAGGCC GAGAAGGGCA AAGACATTTT 9840CTGGGCTTGG TGTGTCAAGA GCTAGATTGG AGAAGGGGCT GGATTTGGAA CTCTTTAGCC 9900ATCAGCTCAC CCTCTCCGTT TGTGGCTAAA GTCTGAAGGT GGAAACTTCG GTTCTCCTAC 9960AGGGTCTACA GGAGTTGGGG GGCGGGGCGC CCACACAGAA CGCTGGAAAG TTCGACAGTC 10020CACTTCCACT GGCTCGGAAC TCACTTTTTC ACCTTAAGTT CATCAGCGGT AACGCATAGG 10080TCTCACTTAG GCAGGGCACG GATGATTTAA CAATTTCTAC TTCTAGGTCA GGTGCGGTGG 10140CTCACACCTC TAATCCCAGC ACTTTGGGAG GCCCAGGAGG GTGGATCGCT TGAGGTCAGG 10200AGTTTGAGAC CAGCCTGGCC AACATGGTGA AACCCCGTCT CTACTAAAAT ACGAAAATTA 10260GCCAGGCATG GTGGTGAGCA CCTGTAATTC CAGCTACTCG GGAGGCTGAG GCAGGAGAAT 10320CGCTTGAACC TGGGAGGTGG ACGTTGCAGT GAGGTGAGAT CACACCACTG CACTCCAGCC 10380TGGATGAGAG AGCAAGACTC TGTCTCAAAA ACAAAATAAA ACAAAAACAA AACAAAAATC 10440AAAAAAGAAA ACCCAATTTC CAGTTCTAGG CCAGGTGCAG TGGCTCACGC CTGTCATCCC 10500AGCACTTTGG GAGGCCCAGG AGGGTGGATC GCTTGAGGTC AGGAGTTCGA GACCAGCCTG 10560GCCAACATGG TGAAACCCCA TCTCTACTAA AAATACAAAC GTTAGCTGGG TGTGGTGGTG 10620TGCGCCTGTA ATCCCAGCTA CTCGGGAAGC TGAGGCTGGA GAATTGCTTG AATCTGGGAG 10680GTGGAGGTTG CAGGGAGGCG AGATAGTGCC ACTGCAGTCC AGCCTGGACC AGAGAGCAAG 10740ACTCCGTCTC AAAAACAAAA GAAAGCAAAA ACAAAAAACA AGAGACCAGC CTGGCCAACA 10800TGGTGAAACC GCGTCTCTAC TAAAATACAA AATTAGCCGG GCATGGTGGT GGGCACCTGT 10860AGTCCCAGCT ACTCGGGAGG CTGAGGCAGG AGAATGGCTT GAACCTGGGA GGTGGAGCTT 10920GCAGTGAGCC GAGATAGTGC CACTGCACTC CAGCCTGGGC GACAGAGCGA GACTTGATTT 10980CAGAACCACC ACCACCACAA CAAAACAAAA CAAAAAATCC AAAAAAACCC CAATTTCCAG 11040TACTAGGTAG TCAGTGATGC AGGGCTGGAG ACAGAGGGGC GGTAAGTGTC TGGGCGCCCA 11100CCATCAGTCA CCTCCCAGCT CCCAGAGGTG CAAAGTGCTT GGTTCAGCCT CATGGGAAGG 11160ATGCTCCCTG GGGAGGCTGG GCTGGGTTCA CAGGGCTCTT CACATCTCTC TCTGCTTCTC 11220CCCAAGGTTT GGTTCCAGAA CCGGAGAGCC AAGTGCCGCA AACAAGAGAA TCAGATGCAT 11280AAAGGTGGGT GTCGGGACTG GGGGGACCTG AAGCTGGGGG ATCCTGCTCC AGGAGGGATG 11340GGGTCGACGA GGTGCTGGCT ACACCCAGGA CCACCACACT GACACCTGCT CCCTTTGGAC 11400ACAGGCGTCA TCTTGGGCAC AGCCAACCAC CTAGACGCCT GCCGAGTGGC ACCCTACGTC 11460AACATGGGAG CCTTACGGAT GCCTTTCCAA CAGGTAGCTC ACTTTTTCTT CCTCTGAAGA 11520TCCCTAGGGA CCTGCTGCTC CCTTCCCCTT TCCCCTATTT GCTGCCGCAT CCTGACACTC 11580CTAGTCCCTC CCTGCCCCTG CAGACTTCTC AGCTGGCCCT TAGAAAAAAA GCCTCTTTTC 11640CGAGGAGGCA TTTACAGGCA CCTTGGCACC TATGAAATCA GGCTGGGCCA GGCGGGGTGG 11700CTCACACCTG TCATCCCAGC ACTTTGGGAG GCTGAGGAGG GTGCATCACC TGAGATCAGG 11760AGTTCAAGAC CAGCCTGGCC AACTTAACGA AACCCCGTCT ATTAAAAATA CAAAATGGGT 11820GTGGTGGCTC ACGCCTGTCA TCCCAGCACT TTGGGAGGCC GAGGCAGGTG GATCACCTGA 11880GGTCAGGAAT TCGAGACCAG CCTGACCAAC ATGCTGAAAC CCCGTCTCTA CTGAAAACAC 11940AAAGCTTAGC CGGGCGTGGT GGTGCACACC TGTGATCCCA GGTACTTGGG AGGGAGAATC 12000ACTTGAACCT GGGAGGTGGA GGTTGCCGTG AGCCAATATC GCGCCACTGC ACTCCACTCT 12060GGGTGACAGA GTGAGACTCC AAGACTCCAT CTCAAAAAAA AAAAAAAAAA TCAGGCTGTA 12120AAAATCCACT TTTGGGAAGG TGAACACACA CAAGCCCAAA CAGAAATCTG ACAAAAACCA 12180GAGGGGTGAA AAGTCCACAC AGTCAGGCAC CCCCACCTGG CTTGCTGCCT GGTTAAGAAG 12240GGCGCAGATG CCTGTGCCTG GATACCAGAG ATGGGACAGA CACCCATTCC CTTTTCATCA 12300CCACCCCCGA GTGCCCGAGG GCCTGGGGCG TCTGCCTGGC CCCTGGCCCC TGGCTTGGGC 12360TCTGCACCTC TGAACTGGAG ACACCCTACT CAGCTCCCCA CTTACTTTGG AGTGAGCAGC 12420GCTTGGGTGC CCAGCGTGGA TTTGGGGCTT CCAGGGAGTC GGGGTTCGGT CGCGGAGCCC 12480AAGCTTCCCA AGGGCGCCCC CCCCCTGCCC TGGCTTAGTG GTGGGGATGG GATGGGGGGA 12540AACGGGGAGC TGCGTGGAAG GAGGTGAAGG GTCACAGGAG GAGAGAGCGC AGCGCCCACG 12600TGCGCCCTGC CTGAACGCGC AGCGCAGCGC CCGGCTGCGG TGCCCCTTGC CCCTTCGGTC 12660CCTAATTTGG GGATCGGGAG TGCATGCGCG GGCGGAACGG GCTTGGGGGG GGGGCTCTGG 12720CAGGGCGGAC GCGTGGCCTC CCTTCTTCAC CGTTTTATTC CAAGGGGACA GGCTGGGGAT 12780TGTATTTGGG CGCGTGTTTG GCTGAGGGTG CAGGGACTTG GGGGGTGGCG GTGGGGAGCG 12840CGGAAGGTAT AAACGTATAA ATCATAAGTA AACAACTCAG AAATGGACCC CGAGCGCTGG 12900TCGCCGCTAG CTCTCCAGCT CTCCCTGGCC CAGGCCCGAA GGAGAGGGGT CCGCATCCCT 12960CCGCGGTTCT CCTCTCCTGG GTACCTGGCC TTGAGGTGGG GGAACGAGCC TACTTCTTGT 13020ACCGTCTTTT GCCGACGGCG GGACCCAGTG AAATTAGGCC GTTGGAGCCC GCAGGCCTGC 13080CTGGCTTTGC GCACCGGAGT CTTGGGGACC TGGTGTCCCC GGGAAAAACT TGGGGACCTG 13140GTATCCCCGG GAGAGGCTTG GGGACCTGGT GTCCCGGGAG AGGCTTGGGT ACCTGGTTTC 13200TCTGGAAGAG GCTTGGACAC CTGGTGTCCT GGGAGGGCCT TTGGGACCTG GTGTCCTGGG 13260AGAGGCTTGG AGATCTGTTG TCCTGGGAGA GGCTTGGGGA CCTGGTGTCC CTGGAGAGGC 13320TTGGGGACCT GGTGACCTTG GAGAGGCTTG GAGACCTGGT GTTCTGGGAG AGGCTTGGGG 13380ACCTGGTGTT CTGGGAGAGG CTTGGGGACC TGGTGTCTCT GGAAGAGGCT TGGACACCTG 13440GTGACCCGGG AGGGCCTTGG GGATCTGGTG TCCCGGGAGA GCCTTGGGGA CCTGGTGTCC 13500TGGGAGAGGC TTGGGGACCT GGTGACCTTG GAGAGGCTTG GGGACCTGGT GTCCTGAGAG 13560AGCCTTGGGG ATCTGGTGTC CCAGGAGAGG CTTGGGGACC TGGTGTCTCT GGAAGAGGCT 13620TGGACACCTG GTGTCCTGGG GAGAGGCTTG GGGACCTGGT GTCCTGGGAG AGGCTTGGGG 13680ACCTGGTGTC CTGGGAGAGG CTTGGAGATC TGGTGAGCCG GGAGAGGCTT GGGGACCTGG 13740TGTCCCGGGA GAGGCTTGGG GACTTGGTGT CCCGGGAGAG GCTTGAACAC CTGGTGTCCC 13800AGGAGAGGCT TGGGGACCTG GTGACCTTGG AGAGGCCTGG GGACCTGGTG ACCCGGGAGA 13860GCCTTGGGGA CCTGGTGTCC TGGGGAGAGC CTTGGGGACC TGGTGACCTT GGAGAGGCTT 13920GGGGACCTGG TGTCTCGGGA GTGCCTTGGG GACCTAGTGA CCCGGGAGAG GCTTGGGGAC 13980CTGGTGTCCC GGGAGAGGCT TGGGGACCTG GTGTCCTGGG AGAGCCTTGG GGATCTGGTG 14040TCCTGGGGAG AGGCTGGGGG ACCTGGTGTC TCGGGAGAGA GCCTTGGGGA CCTGGTGACC 14100CGGGAGAGGC TTGGACACCT GGTGTCCCGG GAGAGTCTTG GGGACCTGGT GACCCGGGAG 14160AGCCTTGGGG ACCTGGTGTC CTGGGGAGAG GCTGGGGGAC CTGGTGTCTC GGGAGAGAGC 14220CTTGGGGACC TGGTGACCCG GGAGAGGCTT GGACACCTGG TGTCCCGGGA GAGGCTTGGG 14280AGCCTGGTGT CCCGGGAGAG CCTTGGGGAC CAGGTGACCT TGGAGAGGCT TGGGGACCTG 14340GTGATCTTGG AGAGGCTTGG GGACCTGGTG TCTCGGGAGA GGTTACGGGG GCTGGTTGGG 14400GGAGAGAACG TTGTGAGCCA AAGTCCCTGA ATCCCTGCGA AAAGAGCGCA TCGGGAGCTC 14460CCCCTGAGGG CGTTCCATTT GTGGACCCCC CTCCCATGCG CTTTGCAGGG AGCTGTTCGG 14520ATTCCCCTGG CCCGGCTCCC GCGGATGCAT CCAGTGGCAG CGCCAATTCT GGGCCAGGGG 14580GAAGGAGGAA AGGCGGGTGT GGGGTGGTCT CCACGGCTGG AGAAGGGGCG ACGCTCCCTA 14640GGGGAGAAGA GGCACGTTGG GGGTTTCCGG GGGCGCGGGG CGGAGCAGGC CCCCCAGTCC 14700CCATCCTGCG CCCTCACCCC GCCGGGTCCG CTCCCGCAGG TCCAGGCTCA GCTGCAGCTG 14760GAAGGCGTGG CCCACGCGCA CCCGCACCTG CACCCGCACC TGGCGGCGCA CGCGCCCTAC 14820CTGATGTTCC CCCCGCCGCC CTTCGGGCTG CCCATCGCGT CGCTGGCCGA GTCCGCCTCG 14880GCCGCCGCCG TGGTCGCCGC CGCCGCCAAA AGCAACAGCA AGAATTCCAG CATCGCCGAC 14940CTGCGGCTCA AGGCGCGGAA GCACGCGGAG GCCCTGGGGC TCTGACCCGC CGCGCAGCCC 15000CCCGCGCGCC CGGACTCCCG GGCTCCGCGC ACCCCGCCTG CACCGCGCGT CCTGCACTCA 15060ACCCCGCCTG GAGCTCCTTC CGCGGCCACC GTGCTCCGGG CACCCCGGGA GCTCCTGCAA 15120GAGGCCTGAG GAGGGAGGCT CCCGGGACCG TCCACGCACG ACCCAGCCAG ACCCTCGCGG 15180AGATGGTGCA GAAGGCGGAG CGGGTGAGCG GCCGTGCGTC CAGCCCGGGC CTCTCCAAGG 15240CTGCCCGTGC GTCCTGGGAC CCTGGAGAAG GGTAAACCCC CGCCTGGCTG CGTCTTCCTC 15300TGCTATACCC TATGCATGCG GTTAACTACA CACGTTTGGA AGATCCTTAG AGTCTATTGA 15360AACTGCAAAG ATCCCGGAGC TGGTCTCCGA TGAAAATGCC ATTTCTTCGT TGCCAACGAT 15420TTTCTTTACT ACCATGCTCC TTCCTTCATC CCGAGAGGCT GCGGAACGGG TGTGGATTTG 15480AATGTGGACT TCGGAATCCC AGGAGGCAGG GGCCGGGCTC TCCTCCACCG CTCCCCCGGA 15540GCCTCCCAGG CAGCAATAAg GAAATAGTTC TCTGGCTGAG GCTGAGGACG TGAACCGCGG 15600GCTTTGGAAA GGGAGGGGAG GGAGACCCGA ACCTCCCACG TTGGGACTCC CACGTTCCGG 15660GGACCTGAAT GAGGACCGAC TTTATAACTT TTCCAGTGTT TGATTCCCAA ATTGGGTCTG 15720GTTTTGTTTT GGATTGGTAT TTTTTTTTTT TTTTTTTTTT GCTGTGTTAC AGGATTCAGA 15780CGCAAAAGAC TTGCATAAGA GACGGACGCG TGGTTGCAAG GTGTCATACT GATATGCAGC 15840ATTAACTTTA CTGACATGGA GTGAAGTGCA ATATTATAAA TATTATAGAT TAAAAAAAAA 15900ATAGCCGTGC ACTCTTGACC CCGTCAACGT CCAACGTGGA AAAGGCGTTA CCTCTTCTCC 15960CAGCGCTGGC CGCCTGGCCA CTGAGGGCCC TTTGCAAAAA TCACGGGTGT AGAGATGGCC 16020CTGGGCGCGC TGGGAGTGTG GTTGTGTTTC TGAAGGGGAT AAAAGAGGGC ACGGTGGTGC 16080CAAGATATCA GTTTGGTACC TGAGCTGTTT CTGGTTGGGA AGCGTAAAAG CCAGGGAGAG 16140ATCCAGAGAG TTTTCAAGTT TTTGCAGATG TAGGTGGTTC CAGCTTTTCT TTCTCCCCTA 16200CTCCATCTTC TGCGTTCCCC CAGTTCTTTT ATTTCTTTGT TTTTTATTTT TGAGACAGAG 16260ACTTGCTTTG TCGCCCAGGC TGGAGTGCAG TGGCGCAATG TCAGCTCACT GCCACCTCCA 16320CCTCCCGGGT TCAAGCGATG CTCCTGCCTC AGCCTCCCGA GTAGCTGGGA CTACAGGCAC 16380CTGCCACCAC CCCCGGCTAA TTTTTTGTAT TTATAGTAGA GACGGGGTTT CACCGTGTTG 16440GCCAGGCTCG TCTCGAACTC CTGACCTCAG GTGATCTGCC CGCCTCGGCC TCCCAACGTG 16500CCCCCAGTTT TATAAACAGC ACATAGCAAC TTGTCGTCAC AGCTGGCATG GGCTGGACAG 16560TTGCTTGAAA TGACCTAACC AAAAACATTC AAGGGTTCTG CCCCCAGATT TCGGGAGATC 16620CACGTTCCAT GTTCTGATTG GTTTTCTGGG AACACAGCAA GGGGTTTGGT GACCTCCGAG 16680AAGATCCATC TGCATGATTG GCATTAGTTA CCACAGCCTG CCCAGAGAGA AACTATCTTC 16740TCCCAACATT TACTAACATC CACTGGTCAA CTCTCTTATT TCCATAACAC ATTTGCATCT 16800TTCTGGATTC AAGCTTGGTG GTTTTCTTTC CTAACTTCTG ATTTAGATAC TTCTCCCTGA 16860GGTGGGGATA AAAGAAAAAA AAAAAACAAC TTCTTTTTTT CTTCCGCATA ACACTTTCTA 16920TCTTGTCACT GAGCTGAACT GTAGATCCAT TTGGACCCGT CTCATTTGTA TCTTCTGATA 16980TTCTTTATAC AAACCAAAAG TCCCCTTCAA CATTTTTTAT GTCAAAATGT TACAACCGCT 17040GTAAAATGAC GGAGAGAGAG AGAAAGAATC CCAGACATTA ACGGTATTAG AGAGTTTGCC 17100TCATTCATCC ATTTTTCTTA AAAGCTGGAA ATTAAAAAAA AAAAAGAGAG AGAGAGGCTT 17160TAATAGTTAA GCTGAAATTT TTATCGAAAA GAAGAATTGC ATTTTGAATC TTTGGGAAGT 17220AGGTTCATTC ATCAGAGTAT GTAACCCTTT GGAAAAGTGG TTGGTAAGAT ATGTACAGCC 17280CTAGATTTTT TTTTTTTTAA CCAAAAAGGC TGAGTAATTT TGAAAAATCG AAACATAACA 17340GTGTGTCATC ATTTCCTCCC AAGAAAAAGC TCACTCCACG TGAGTAGAAA GACATCTACC 17400TGGTCCCTGT AGAATCTGAA CGTTTCTCTT TAGAGACGGA ATTTCAATCT TGTTGCCCAG 17460GCTGGAGTGC AGTGGCACAA TCTCGGCTCA CCGCAACCTC CGCCTCCCGG GTTCAAGCCA 17520TTCTCCTGCC TCAGTCTCCC GAGTAGCTGG GATTACAGGC ACCTGCCACC AGGCCTGGGT 17580AACTTTCTGG TATTTTTAGT AGAGACAGGG TTTCAGCCTC CCGAGTAGCT GGGATTACAG 17640GCACCTGCCA CCAGGCCTGG GTAACTTTCT GGTATTTTTA GTAGAGACAG GGTTTCAGCC 17700TCCCGAGTAG CTGGGATTAC AGGCACCTGC CACCAGGCCT GGGTAACTTT CTGGTAGTTT 17760TAGTAGAGAC AGGGTTTCGG CCTCCCGAGT AGCTGGGATT ACAGGCACCT GCCACCAGGC 17820CTGGGTAACT TTCTGGTATT TTTAGTAGAG ACAGGGTTTC GGCCTCCCGA GTAGCTGGGA 17880TTACAGGCAC CTGCCACCAG GCCTGGGTAA CTTTCTGGTA TTTTTAGTAC AGACAGGGTT 17940TCGGCCTCCT GAGTAGCTGG GATTACAGGC ACCTGCCACC AGGCCTGGGT AACTTTCTGG 18000TAGTTTTAGT AGAGACAGGG TTTCAGCCTC CCGAGTAGCT GGGATTACAG GCACCTGCCA 18060CCAGGCCTGG GTAATTTTTT TGCATTTTTG GTAGAGACAG GTTTTTGCCG TGTTGGCCCG 18120GCTGGTCTCA AACTCCTGAC CTCAGGTTGA CCTGCCCGCT TTGTCCCTCG CAAAGTGCTG 18180GGATTACAGG CGTGAGCCAC CACACCTGGC CTGAATCTGA ACTTTTAAAA GGGAGTTACT 18240GACTCTCAAC TGTGCGGGGA CGGTTTCACT TTGATTTAAT ATGGAAAGAG GGCCAAGTGT 18300CATCCTCACA AATGGGTCCC CGAAGCAGAT CAAACGCAGA GAACTGTGAG GGTGGGACAC 18360GAGTGTCTGT GGACACTGGC TGCCTTTGGC TTTTCTCCTG CGAGAGAAGT TGGGTGACTT 18420TCTGTAGGTG GATGAGTGAT CCCTGAATGA GTGTGGGGTA CGTGTATGCT AGCTGCTTCT 18480TTCTCCCTGA AACTCTCGGA TGGAAGGAAG TAAGAAATTC AGCTTGGGCT GTGACCAGTT 18540CTCACCACCA ACGCCCTCTT CTCTCTCCCT TCTCCTTCCT TCCTTCCTTC CTTCCTTTCT 18600TTCTTTTTCT TTCTTTCTCT CTTTCTTTCT TTTCTTTCTT TCTGTTTCTT TCCTTTTTAT 18660CTTTCTCTCT TTTTCTTTCT CTTTTCCTTT TTTGTTTCTT TCTTTCTTTT TCTTTCTTTC 18720TTTTTCTTTC TTCTTTCTTT CTTCGATGAA GTCTCACTCT GTCACCCAGG CTGGAGTGCA 18780GTGGTGCAAT CCCAGCTCAC TGCATCCTCT ACCTCCTGGC TTCAAGAAAT TCTCCTGCCT 18840CAGCCTCCCA AGTAGCTGGG ATGACAGGCA CCCACCACCA TTCCCGGATA ATTTTTGTAT 18900TTTTTAGTAG AGACTGGGTT TCGCCATGTT GGCCAGGCTG GTCTTGAACT CCTGACCTCA 18960CATGATCCAC CCGCCTCAGC CTCCCAGAGT GCTGGGATTA CGGGGTGAGG CACCGCGCCC 19020GGCCTCCTCT CTCTTTTTCT GAGATGTTTA GGAAGGACTG GGCTGATGGG GACCCTCTGT 19080ATGTGATGTG CGTGGGTTTG GTTTCCCGGA AGGCCCTCCA GAGACACGTT TGCGTGAACA 19140TTCAGCATGG AAACAACATA CGTCTCTCCA CAGGAGGTGA GAAATTGAAT TTATGGGGTG 19200GGTGTACGCT GGCGATTCTT GGTGCTTTTT GCTCAAAACA AGGTTCTTTT GAAAGTCACG 19260TTCCTGCTTT CCCTGTGGCT TCCCGGTGAG CTCGCTCGCA GAGCAAGGAA TACCACCCAG 19320AGAGCAACGT GGGCTGTGTT CCGTTGTAAC GCCGTTGCAG AGAGAGGATT TGGTGTGTGA 19380GATCCGTACC AGCTCCAGCA CACTGATAGG AACACGTTGC TGGCCGAACT GAACGATGCT 19440GGGTTGGGTC CTGATTGATA CGTATTTTCT TCCCTCCTCT CCCCAAAACT TGGCCAAATA 19500GTCCGTGGAG GGTTGTCAGT CGCCGCAGTT GAGCAAAAAA CACTTCTTCC TTTGAGTGGC 19560TGTTCTGGTG AAATCTGTTT CTGACATATC CACTTTTCTC TCTCTTTTCT CTCTCTCTGA 19620CTGCGAAGCA CCCACAGGGA GAAGGAATTG GATGTATCGG ATGTTGGTAT TAGATTTTCT 19680TTCTCCGTTC GAGTCTCTGA CTGGTGCATA CTTTGCAAAG GTGTGTTCCT GGCAATTGCC 19740AAGAGTTAGA AAAATGCACC TTCTCTGGTG GCCGTTGGGG TGTTGTTTCA CAGGCAGTGG 19800TGACAGGGCC CCTTGGCTGT GGCTGTCTTC TCCAGCGCCG TGGATAAAGA GACGGGACAG 19860ATTCTGTGCC TCTGTACGAT TTAGAGCGTA ACTGACCGCG TCCAACACCC GTTTTTCCAC 19920TTACAAAGCT GGTGGTGCGA CGGGCTTGGT GTCTCCCGTA CGGGAAGGAG GCCTTTGGGC 19980CGCTCCAAAG ACGCCCTGTC GTAGGAATGG CCTCTCCATC CCGCCAAAGT CCAGCCAGGC 20040CCCCGAAATG GTCCCATTTC CTTGGAAGCC TGAGTTTCTG TTCTGGTCTT GCTGCTGTCC 20100TTGGCCACGT CAGCACGTGG GAGCATCTGT GGATACCGCA GAGTCTGGGG ACAGCTGGGC 20160GTTTAACCGA AATGAAGCCG AGACGGGTTT CAGGTTTTGG TGCCAAGCTC TGGTCAGGAT 20220GAAAGGGAAA TACCAGAGTC CTCTGTCCTC GCCTCTGGGT TTCATGCTGA CCTTTCTAAC 20280ATTTGTTTTC CCCTAAGAAC AAGCAGAAGC CTCCAGCTCC CTTTAGCTCC ACAGTTTTCC 20340CGGGGACATA GCGAGGATGG CACACGGCAG CCACTCCCAC GACACACATT TCGGAGGCAC 20400TTTGCTGGAA GCCGCTTGTC TCCTCCAGCT TTGGGAGGTC TGGGGAGGAG AGAGGCTTTC 20460GGTGGACACG TTTGACATTA AAAAAAAAAA AAAAAAAAAA AAAAAAACTG GTGCCTAATT 20520TATTAAAGAG AATTAGCTTA GCGAGTATAT GCTGATATTC TTCGACACAC GTGGGTAAGT 20580TGATGCCATT TATAAATGTT TTATTGAAAT TTGATATTTA ATGAGAAGCC GGTTAAGGAA 20640TGTAGACAAT ATCCCGTTTC AAAGCTATGA AATGTGCTAT TTATTGAAAG GGGATGTGGC 20700TTCACGAGTT CAGCCCATTG TACGTGCAGG TCCCGTGGGA AGGAGGCAAA AGCCCCTGCT 20760TCTTACTTTG TGATGTATGT GCATTTGTTA TTTATTTTTT TTTCCTTGGT CGGACGTTCA 20820TAAATATGTA CTATTTTAAT TATGTCGAGT GTAAATTTGA CATCGCGTTG CATTTATTTT 20880TATATTTCTG AAAACTGTTG CTTTTTCTTT TTCCCTCCCC CATTGACGAC ATAGCGGCCC 20940CCGCGTCCGG GTTACAAATA CATCTACAGA TATTTTCAGG GATTGCTTCA GATGAAAACA 21000AATCACACAC CGTTTCCCAA ACCAACAGTC TTCACATTTC TATCCCTCTG TTATTGTCGG 21060CAGGCGGTGA GGGGTAGAAA AAAAACAAAC AAACAAACAG AAAAAAAAAC CAAAAAAAAC 21120CACCCTGAGT TTCTCTGGTG ACGCCCTCAT TCTCCTAACG TTCAATAATC TCAATGTTGA 21180GTTGCAGCAA CAGACTGTAT TTTTGTGACG CCCCGTAGTA TGAATGTACA TCTTGTAAAA 21240CTGAGATATA AATAAACTTA TAAATATTTG TATTCAAGTG TTAAAAAAAA AAAAATTCTC 21300AACCTCTCCC CTGAGGACAG GCTTATTGGA AAAAAAAAAA AAAAAAAAAA ATCCTGAGTC 21360GGCCGTGGCT GAACACAGAG TGTTGTTCTG CTCCGTGCAT TTCCAGGGTG GGTACCCAGT 21420GTTGCCCCCC AGCCTTAGAT CGGGAGGTAC CATTGACTTT TGCTTGTATC CCATCCCCTT 21480CCTTTACTGA AACCTACCTC CCCGCTTCTC AGCCAACGTC CCCCCAGAAG GTGGCAAAAA 21540AAACAGAGGA AAAAGCCCTG ATTTGAATCA AGTCAGAGCT GCTAATTCTC CACTTTCTTT 21600AATTAATTAA TTTATTTTTT TTTTTGAGAC TGAGTCTCGC TCTGTCGCCC AGGCCGGAGG 21660AGTGCAGGGG CGCGATCTCG GCTCACCGCG ACCTCCGCCT CCCGGGTTCA AGCGACTCTC 21720CTGCCTCAGC CTCCCGAGTA GCTGGGATGA CAGTCACCTG CACCACCGCG CCCGGCTCAT 21780TTTTGTATTT TTAGTAGCAA TGGGGTTTCA CCGTGTTGGT CAGGCTGGTC TCGAACTCCT 21840GACCTCGTGA TCCACCCGCG TCTGGGCCCG GCCGGTGATG TGTGTGCTTT TAACTTTTAT 21900TTTGTTCCAG TTTTCGACAG TGGCACGGAT TTTCCAGCAC GGTCTTGCAA GGATGATTGA 21960GTCATTTTTG AGACAAAAAA TATAATAATA ATAAATGGAA AAAGAAATCG ACTTTTAAAA 22020ATGACAAATT TTTTTTTTTT TTTTTTGCAT AGATTTTTCT CTCTTTATGT AAAGGAAAGT 22080TCATGATTGG ATTTGGCCGG CCTGACTGCT TCCCGGCTGT GATAAAAAAC ACATGTGAGC 22140TGGGAGGGAA GTGGGGGAGG GACACAGCTG CCCACACAGG GTTCCCACCG CGGTTACAGG 22200GTGGGCAGTG CTGGGGGAGC TTTCTCTGTG GGGGGCTCAG AGCCTGAGGA CAGGTGAGCC 22260TCTCCGACAC CTCCCCAGTT GCCTGGAGTC TAAACCGTCC GTTGTCTGTA CCGTCCGTTC 22320TTCCTGCTGA CTCCTGGTAG TTCCTGAAAG CTTCTCTTGG CCAGAGAAGG GGTTTCAGAG 22380GCCGTGTGTC CAGGCCATTC TGCAAAGTGC AACTTGACCG TTCCTTTCCT TTTCTGGCCT 22440GCGTGGTCTG AAGCTCAGAG CCCTCTCTTC ACCCAGCCTG TGTGTGTCTT GCCGGACAGA 22500AGAAAAATGG TGCTTTTTGC GTGTTAGCAG AGGTGCTTTT CATGGCTGAC CTCAACGCGT 22560CCATCTCCAG CCTTGACCAA GCTGTTTTTT AGGGGCAAAC GCAGGCAAGT TCTGAATGCA 22620CACAGTTATT TCATGGTTAA ACTATTCAGC TTTGGCCGGG CGCAGTGTGG CTCTCACGCC 22680TGTCATCCCA GCACTTTGGG AGGCCGAGGC GGGTGGATCA CCTGAGGTCA GGAGTTCGAG 22740ACCAGCCTGG CCAACACGGT GAAACTCTAT CTCTACTAAA AATACAAAAA TTAGCCGGGC 22800GTGGTGGTGT GTATCTGTAA TCCCAGCTAC TCAGGAAGCT GAGGCAGGAG AATCGCTTGG 22860ACCCAGGAGG CGGAGGTTGC ACTGAGCCGA GATCGCGCCA TTGCACTCCA GCCTGGGCGA 22920CAGAGCCAGA CGCTGTCTCA AAAAAATGAA TAATAAAATA AAATAACAGG AACTAAATAA 22980AATAAAACGT TCAGCTTTGT TCTGCAAATC CACTCCTATT GTTTTACGTG GTTTGAGAGA 23040CTCTGTCCCT TAGAAATAGA TGTTTGTTGC CAATTGTAAT GAATCTGTTT CAAAAATGAA 23100CAGAATATTC AAATGGTTTG AGAGATCTTT TCCCTTAGAA ATAGCTTGTT GCCAATCACA 23160AAGAATGTTT TTCAAAAATG AATGGAATCT TCCTGGATAT CGCTTCCAGA TCTTCATTTT 23220TTTTGCATAG TTCAACCTGA AAAGTAAGTG TCTCAGCCCT GAATTTCTTT CTGATTTTTC 23280CATGGGTTGT CTTGCAGACT TCTCTGGACT TGACCACATT TAAAAAAAAA AAAATTAACT 23340TTTTCACACG GACACGGTTT CAATAGGAAT GAGATCTTTG AGTTTTTATG TAACAGATTC 23400TTACCATCAG TTCTCAGATT CCCAAATTAC ACACAAAAAG CCACGGACTT CGCCTCCTGC 23460TAACATGTCC TTCTGTTTCT GAGGCTTCTG TTGGTGTTAG ACTTTCATGT TTAATAGCAG 23520ACAATGTAGG GATTTAAAGA AAAATGCAGA GAAAGCAAAA ACACTGACCA AACACACGGA 23580GATAAGCTTT CTAAAGCCTT TGTTCTTGGA GTTGTCGTTA AAAAAAAAAA GTTGTTTTAA 23640ACTTTGCAAG CATGCCTATA TTGAACTCAT AAGCAAGAGA GCCAAGAAAA ATAGTGTCGG 23700TCGTCTACTC TACACGTTTT CCCAAAACAG ACGTATTTTA ATTTCTTTTG TTTGAACTCA 23760CAGATGCTGA GAGTTAAAAG TTAAATTTTT GTCATGAACA ATAGTGGCCA AAACCACAGT 23820TACTTTTGCA CTATAGCATA ATAAGAAAAA TACAGGCTGG GCTCGGTGGC TCACACCTGT 23880AATCAAAGCA CTTTTGGAGG CGAAACAGCC AGATCCCTTG AGCCCAGGAG ATTGAGACCA 23940GCCTGGGCAA CATAGCGAGA CCCTCATCTC TACAAAAAAG GTTTGTTACA TATGTAACAA 24000ACCTGCACAT TGTGCACATG TACCCTAAAA CTTAAAGTAT AATAATAAAA AAATTAAAAA 24060AAAATTCACC AATCAACTGC CTGCTGGTGC CTTCAAGAGA CTCACCTAAC ACATAAGGAC 24120TTGCATAAAC TTATAAAACA ATTCAATGGA AGAATCCTTG AAAGTATTCT GAGAAGACAG 24180TATAATAAAC TGATTTCTAA AAAGGCTATA AAAAATTGAA TAAATCATTG TTGGGCATCC 24240TGTGCTGAAA TATAATGCAG CCAATAAAAA TTACAAAATG AATAAACATT TTATAACAAT 24300AAAAAAAAGT CAAATAATTA GGCAGGCATG GTGGTGCTCT CCTACGGTTG AAGCTATTCA 24360GCAGGCAAGA GGaTACTTTG TTTTTGTTTT TTAATTTTTT TTGAGACAGA GTCTCGCTCT 24420GTTGCCAGGC TGGAGTGCAG TGGCGTGATC TCAGCTCACT GTAATTTCTG CCTCCCGGGT 24480TCAAGCGATT TTCCTGCCCC AGCCTCCCGA GTAGCTGGGA TTACAGGTGC CCGCCACCAC 24540ACCTGGCTAA TTTCTTTTGT ATTTTTAGTA GAGACGAGGT TTCCCCATGT TGGCCAGGCT 24600GGTTTTGAGC TCCCGACCTC GGGTGATCCA CCCGCCTCAG CCTCCCAAAG TGCTGGGATG 24660ACAGGCGTGA GCCACCGCGC CTGGCCCAGG AGGATTATTT GATCCCAGGA GGTGGAGGCT 24720GCAGGAAGCC ATGATTGCaC CACTGCACTC CAGCCTGGCT GACAGAGTGA GACCACATCT 24780CTAAaTAAAT GAATAAATAC AGGCAGAAAC TTTTTTTGTT TTGTTTTGAT GGAGTCTTGC 24840TCTGTCACCA GGCAGGAGTG CAGTGGTGCC ATCTCAGCTC ACTGCAACCT CCACCTCCTG 24900GGTTCAAGCA ATCCTCCTGC CTCAGCCTCC CGAGTAGCTG GGATTACAGG TGCCCGCCAC 24960CACGCCCGGC TAATTTTTTG TATGTTTAGT AGAGACGGGA TTTCACCGTG TTAGCCAGGA 25020TGGTCTTGAT CTCTTGACTT TGTGATCTGC CTGCCTCAGC CTCCCAAAGT GCtGGGATTA 25080CAGGCATGAG CCCAGGAGTT CAAGACCAGC CTCAGCAACA AAGTGAGACC TTTTCTCTCC 25148AAAAAATCAA AAATTTAGCC AGCTGTGGTG GCTCCTGCCC GTGATCCCAG TACTGTGGGA 25200GGCTGAGGCA GAATTGCTTG AGCCCAGGAG TTCGAGACCA ACCTCAGCAA AAAGGACTCT 25260CTCTCTCTCT CTCTCTCTCT CTCTCTCTCT CTCTCTATAT ATATATATAT ATATATATAT 25320GAGTTTCAAA AATTGCTGGG TGACCAGCTC ATCTACTGGT TTTCCCCTTG GGAAAGTGAA 25380ATTGTCATGT ATTGAAGATT TCCAAGGAAG TTGTATTGAA TGAGAAACAA ACTCAATCTG 25440TTCGTGTTTA AAGAGCTGCA GTGCGTTTGC TGTGTTTCCC ATAAAACTGC ACTTCCAAAA 25500GACACGCTGA GAAAGGAGAC CAGGATTTGT AATTCAGAAA TTGGAAAGCA AGTTAGGCTG 25560GACGTGGTAG CTCATGCTTG TTGTAATCTC AGCACTCTGG GAGGCTGAGG CAGGAGGATC 25620ACTTGAGCCC AGGAGTTCAA GACAGCCCCG TGCCACATGG TGAAACCCTG TCTCTCCAAA 25680AAATAAAACA TTTAGCCAGA TGTGGTGACT CATGCCTGTA ATCCCGGTAT TCTGGGAGGC 25740TGAGGCAGAG TTGCTTGAGC CCAGGAGTTC AAGACCAGCC TCGGCAACAA AGTGAGACCC 25800TGTCTCTCCA AAAAATAAAA CATTTAGCCA GCTGTGGTGA CTCATGCCTG TAATCTCAGT 25860ACTCTGGGAG GCTGGGGCAG AATGGCTTGA GCCCAGGAGT TCGAGACCAA CCTCAGCAAC 25920AAAGTGAGAT CTTGTTTCTC CAAAAAATCA AAAATTTAGC CAGCTGTGCT GGCTCATGCC 25980TGTAATCCCG GTACTCTGGG AGGCTGAGGC AGAATCGTTT GAGCCCAGGA GTTCGAGACC 26040AACCTCAGCA ACAAAGTGAG ATCTTGTTTC TCCAAAAAAA TCAAAAATTT AGCCAGCTGT 26100GCTGGCTGGT GCCTGTAATC CCGGTACTCT GGGAGGCTGA GGCGGAATTG CTTGAGCCCA 26160GGAGTTCAAG ACCAGCCTCA GCAACAAAGT GAGATCTTGT TTCTCCAAAA AATAAAACAT 26220TTAGTCAGCT GTGGTGGCTC AAGCCTGTGA TCCCAGCATT TTGGGAGGCC GAGGCGGGCG 26280GATCACGAGG TCATGAGATC GAGACCATCC TGGCTAACAC GGTGAAACCC CGTCTCTACT 26340AAAAATACAA AGAAAATTAG CCGGGCGTGG TGGCGGGCGC CTGTAGTCCC AGCTACTCAG 26400GAGGCTGAGG CAGGAGAATG CCGTGAGCCT GGGAGGCGGA CCATGCAGTG AGTCAAGATC 26460GCGCCACTGC CCTCCAGCCT GGGCCACAGA GCAAGACTCC GTCTCAAAAA AAAAAAAAAA 26520AAAACTGCTG CCCAACCTGT GTTTGCACCA CTGCCCTCCA GCCTGGGCAA CAGAGCAAGA 26580CTCCGTCTCA AAAAAAAAAA AATGCTGCCC AAGCTGTGTT TGCACCACTG CCCTCCAGCC 26640TGGGCAACAG AGCAAGACTC CGTCTCAAAA AAAAAAAAAA AAAATGCTGC CCAAGCTGTG 26700TTTGCACCAC TGCCCTCCAG CCTGGGCAAC AGAGCAAGAC TCTGTCTCAA AAAAAAAAAA 26760AATGCTGCCC AAGCTGTGTT TGCACCACTG CCCTCCGGCC TGGGCAACAG AGCAAGACTC 26820CGTCTCAAAA AAAAAAAAAA AATGCTGCCC AAGCTGTGTT TGCACCACTG CCCTCCAGCC 26880TGGGCAACAA AGCAAGCCTC AGCTTTCTGC CATCTCCACA ACCAAGAAAG CAATTCACAC 26940AGAAATCAGT GCATCGTGCA GTGACCTCTT CAGAAAACCA ATGAGTTTTC CACCTGAGGA 27000ACTGTTTCTG AGCCCCATTC AGAAAAACAC ATCCCTGTAA CTGCAGGGCA GATTTACTCA 27060CTGTATGCCT GTTTAAATAA AGCTTCCAGC CTCTGCATGG GGTCTGTCTG GAAGCTCCTG 27120TATCTGTCCC ACATTCTTGG AATCACAATG CACCCTTGGG AGGAAGATAT GTATTTAAAG 27180GGAGTGGATG TTATGGTGAG AAAATGCTGC CCATCCTTCT AGAAGACAAA AGCCACACAA 27240AATACATCAC AAGAACCAGT TTTTTTCAGA GAAGAACCTG CACAAAGAAC CTGCTCCCCC 27300CACACCCCCA CACACAGGTG AATTAACAGG ATGTATGTTT TATCATAAAA GCACAGGTTT 27360GTTTCCTATG CACTCTCTGA GGATTTGGCC ATATGCAAAG ATGTACAAAA ACCTTCTCTT 27420TCCCCAGGGA ACCGTAACCC GTCTGAAAAG ATGCCCTTCT CAGAAGCGAG TTGAACGATT 27480GTTGGAAAAG ATAAAATACG ACGTGCACAC ACACAGTAGA GAAATGTCAC CCATGCAAAT 27540TATGTGTTTG AATGGAACAC ATTCAGGAAG CTAAATGGGG TATGACCACA CATTTGGGTT 27600GATTTATTTG ACGAGTGGAA GGGGCAGATG GAAATGAATA CTGCTGTTTT CCTTTGGAAG 27660GCCATATATG GGAATACCAA GAGGATTACT TTGGAAGTTT AGCTTCTCCA GGTGGTCTCT 27720CTCTCTCTCT CTTTTTTTGA GACAGAGTCT CACTCTGTCA CCCAGGCTGC AGTGCAATGG 27780CGTGCTCTCG GCTCACTGCA ACCTCAGCCT CCCAGGTACA AGCGATTCTC CTGCCTCAGC 27840CTCCCGAGTA GCTGGGATCA CAGGTGTGCA CCACCACGCC TGGCTAATGT TTGTATTTTC 27900AGTAGAGATG AGGTTTTACC ATGTTGGCCA GGCTGGTCTT GAACTCCTGA CCTCAGGTGA 27960TCCGCCTGCC TCGGCCTCCC AAAGTGCTGG GATGACAGAC ATGAGCTAGC ACGCCCGGCC 28020CCAGGTGGTC TTTTTAGCGG GTATTAAAGC AGCTTTCTCT CTGAGCCTTA AACCATGAAG 28080ATAGACAGAC TCAGTGTATG GGTTTTAGAG TTGTAATTTT ATAAAAATAA GAAAAAGTCG 28140ACCTATCATT GATGGTTAGT ATTTTTTGTA GCAGTTGCAT GCAATATTAG GATAAGGCAT 28200GTTCTCAAAA AGAACTCTTT TTTTTTTTTT TTTGAGACGG AGTCTCGCTC TGTCACCCAG 28260GCTGGAGTGC AGTGGCACGA TCTCCGCTCA CTGCAAGCTC CTCTTCCCGG GTTCACGCCA 28320TTCTCCTGCC TCAGCCTCCC CAGTAGCTGG GACTACAGGC GCCCGCCACC ACGCCCGGCT 28380AATTTTTTGT ATTTTTAGTA GAGACGGGGT TTCACCATGT TAGCCAGGAA GGTCTCGATC 28440TCCTGACCTC ATGATCCGTC CGCCTCAGCC TCCCAAAGTG CTGGGACTAC AGGCGTGAGC 28500CACTGCACTT GGCCTTTTTT TTTTTTTAGA TGGAGTTTTG CTCTTGTCGC CCAGGCTGGA 28560GTATAATGGC ATGATCTCGA CTCACTGCAA CCTCCGCCTC CCGAGTTCAA GCGATTCTCC 28620TGCCTCAGCC TCCCGAGTAG CTGGGATTAC AGGTGCCCAC CACCATGTCA AGATAATGTT 28680TGTATTTTCA GTAGAGATGG GGTTTGACCA TGTTGGCCAG GCTGGTCTCG AACTCCTGAC 28740CTCAGGTGAT CCACCCGCCT TAGCCTCCCA AAGTGCTGGG ATGACAGGCG TGAGCGCCTG 28800CGCCCGGCCT TTGTAACTTT ATTTTTAATT TTTTTTTTTT TTTAAGAAAG ACAGAGTCTT 28860GCTCTGTCAC CCAGGCTGGA GCACACTGGT GCGATCATAG CTCACTGCAG CCTCAAACTC 28920CTGGGCTCAA GCAATCCTCC CACCTCAGCC TCCTGAGTAG CTGGGACTAC AGGCACCCAC 28980CACCACACCC AGCTAATTTT TTTGATTTTT ACTAGAGACG GGATCTTGCT TTGCTGCTGA 29040GGCTGGTCTT GAGCTCCTGA GCTCCAAAGA TCCTCTCACC TCCACCTCCC AAAGTGTTAG 29100AATTACAAGC ATGAACCACT GCCCGTGGTC TCCAAAAAAA GGACTGTTAC GTGGATGTTC 29160TAGCTTCCTG TTCTCGTCTT TTCTTTGTTA ATTGTACAGT TTGAGGGTGT GTGTGCGTGT 29220GCGCACGTGT GTGTGTGCAG TCTCCTGATT TCATGTATTT AATTGTTATT ACCACCACCT 2928GCCATCTCTCA TTCCTTCTTA CCCTCACTGT GTAAAGATAC ATGTTGTTTT TAAATTTTAT 29340GTATTTATAT TTATTTATTT GTATTTCTGA GACAGAGTCT CACTCTGTTG CCCAGGCTAG 29400TGGCATGATC TCAGCTCACA GCAACCTTTG CCTCCTGGGT TCAAGCGATT CTCCTGCCTC 29460AGCCTCCCGA GTAGCTGAGA TTACAGGCAC ACACCACCAC ACCCGGCTAG TTTTGTTTTG 29520AGACGGAGTC TCGCTCTGTT GCAGGCTGCA GTGCAGTGGC GTGATCCTGG CTCACTGCAA 29580CCTCTGCCTC CTGGATTCAA GCGATTCTCC TGCCTCAGCC TCCCAAGTAG CTGGGATTAC 29640AGGCGCCCAC CGCCACACCT GGCTAATTTT TTATTGGTAG TAGAGACGGG GTTTCTCCAT 29700GTTGACCAGA CTGGTCTTGA ACTCCCAACC TCGGGTGATC CACCCACCTG GGCCTCCCAA 29760AGTGCTGGGA TGACAGGCGA GGGCCACCGC GTCCAGCCTT CTTCTTCTTC TTCTTTTTTT 29820TTTTTTTAAG ATGGAGTTTC ACTCTGTTGC CCAGGCTGGA GTGCAGTGGT GCAATCTCGG 29880CTCCCTGCAA CCTCCACCTC CCAGGTTCAA GAAATTCTTT TGCCTCAGCC TCCCGAGTAG 29940CTGGGACTAC AGGTGCCCGC CACCACACCC ACCTAATGTT TGTATTTTTT TGGTAGAGAC 30000GGGGCTTCAC CACATTGGCC AGGCTGGTCT TGAACTCCTG ACTTCAGATG ATCCTCCTGC 30060CTCAGCCTCC CAGAGTGTTG GGATTACAGG CGTGAGCCAC GGTGCCCGGC CAGACGTCAT 30120GTCTTAGGAA ATCAGAAAGT GGGTAGTTTC CGCACTCTGA GGAGAAAAAG AGACGTCCGG 30180CGAAGAGAAA GGAGAGTGAA AGGATGTCTC CTCTTGTCTG TAGCCTGTTC TCAATCGTGA 30240GTGAGCCAAT TGCCAGAAAC TGAGGGTGCT TCATTTGGCC AGGCAAGCTT CTCAACAGAA 30300TGTCTAAGTA CTTGTTAATG CTGAGAAGCT CTCCAAGCTA CTGCACTCCA GCCTGGGTGA 30360CAGAGCACGA CCTTGTCTGA AAACAATTAA TTAATCAATT AATTAATATA ATGAAATCAT 30420ACTGAACTCA GGAGACCATT GGGGTGGGCA GGGCTGGGGT TGGAAAGGAA CATAAAATAT 30480GGTGCAATGG ACTTTGCTCC AGTCTCCCTC CCCATCTCTT CTCGCCAAGA GTCTCTGGAG 30540GGAGCATGGG GAAGATGCTT TGGGAATCTG TAACTTCTTG TCTTGTAAAC AGAATATCTA 30600AGTAATTGTT AATGCTGAGA AGTTATAGAT TTCCAAAGCC TTTCTCCAGG CTACGGACAA 30660GGGTCATGGG TTACTCAGTG TTACAGAAAG AATGACATGG AGATGTTTGT TACATCTTAA 30720GGAACCATGA GGGGCCAGAG TATTTTACTC TAAGTGTAGA TGGTACATTG GCCACGCCTG 30780TCCCAACACC ACCAATGGTG GCACCTAACT TTTGTGTTTG TGCCCCACAT TTCTTCTTCT 30840TTTCTGACGT AAATGCAAGT GATATTCCTT GGAAACCATG CTGCAGCAAG AGGCCATCTG 30900ACTACTAGTG ATACCCTGTA GCTCACCTAC AGCAGCTCAC TTGAAGCAGC TCACCCATAG 30960CTCAGGTATA GCTCACCTGC AGCGGCTCAC CTGTAGCTCA CGTGTAGCTC ACTTGTAGCA 31020GCTCACTGGT AGCTCACCTG CAGCAGCTCA CCTGTACCTC ACCTGTACCT CACCTGCAGC 31080AGCTCACCTG TAGCTCACCT GTACGTGAGC CACCGTACCC GGCCAGCAAG ACCCCATTTC 31140TAAAATAAAT ACACAAAAAT TAGCCGGACG CGGTGGCGCG TGTCTGTAGT TGTAGCTACT 31200CAGGAGGCTG AGGTGGGAGG ATTGCTGGAG GCTGGGAGGT AGAGGCTGCA GTGAACCGTG 31260ATCCAGCCAC TGTACTCTAG CCTGGATGAC ATAGCAAAAC CTTGTCTCAA AAAACAAAAA 31320CAAAAAACAA AACAAAGAAA CAAACAAAAA ACCCACACAC ACCGGAAAAC AAAACAAAAA 31380GCAAAAAGGA AAGAAAAGAG AGCCAGGTCC CAAATATATA TTTCCTTGGA GAACCATTTG 31440CAAAGAGCAC ACTTAAGGCC GGGCGCGGTG GCTCACGCCT GTCATCCCGG CACTTTGGGA 31500GGCCGAGGTG GGTGGATCAC GAGGTTGGGA GATCGAGACC ATCCTGGCCA ACATGGCGAA 31560ACCCCATCTC TACTAAAAAT ACAAAAAATC AGCCAGGTGC TGAGGCAGGT GCCTGTAGTC 31620CCAGCCACTC AGGAGGCTGA GGCAGGAGAA TGGCATGAAC CTGGGAGGTG GAGGTTGCAG 31680TGAGCCGAGA TCGCGCCCCT GCACTCCAGC CTGGGCGACA GAGCGAGACT CCTTCTCAAA 31740TAAATAAATA AATAAATAAC AAAGAGCAAA CTTAAAATTG TCTCAGAAAT CCCACAAAAT 31800ATTGGATCTC CCTCATGCCT ATCTGATGAC ACTTTGAGTG TCTGGGGCCC CGTGCCTATT 31860TTCTGGGGTT CCCAGAAGCT GCCGTTCTGA AAGTGTGGCT CTCGGGGACG TGGCACAGGT 31920GTGGATGTCT GTTTTAAATG TCAGGCGTTT GGACGTTGAG GAACGTGAGG CTGAAGGTCG 31980CCTTCGCCGA CCCCCTGAGT TTAGGGTCCT GCCTTTTAAA ATCTTCCCAG CACTCTGTTG 32040TTCACGCAAG CGTCCCATCT GTTTGGGTGG CCGTGCCGTC TGCATCTGTC TCGAACCTTC 32100ACAGCTTTGC AGAATATCCT GTTTCTCAAT ACGGATGGAG AAACACGAGA CGCGTTTTCT 32160GGGTTATTTT AGCCGTCACG GAGAACCCCA GACTCATGTG TGCTAATGAC CTCATTAATG 32220ATACTCTGAG GCAGACAGCC CTGCCTGATC TTAACAACAT TTTTTAAATT TCTTTTTTTG 32280TTGTTGTTGT TACAGCATCA TTCATATAAC GTAGGAAACC GTGATCAGTA GCTTTTAGGA 32340TATTTGCAAC AGGGTGTAAC ADAAABD 32367(2)SEQ ID NO:15的资料：(ⅰ)序列特征：

(A)长度：806个碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ⅱ)分子类型：其他核酸

(A)说明：/dosc=“SHOT”(ⅸ)特征：

(A)名称/关键词：CDS

(B)位置：43..615(ⅹⅰ)序列描述：SEQ ID NO:15:GTGTCCCCGG AGCTGAAAGA TCGCAAAGAG GATGCGAAAG GGATGGAGGA CGAAGGCCAG 60ACCAAAATCA AGCAGAGGCG AAGTCGGACC AATTTCACCC TGGAACAACT CAATGAGCTG 120GAGAGGCTTT TTGACGAGAC CCACTATCCC GACGCCTTCA TGCGAGAGGA ACTGAGCCAG 180CGACTGGGCC TGTCGGAGGC CCGAGTGCAG GTTTGGTTTC AAAATCGAAG AGCTAAATGT 240AGAAAACAAG AAAATCAACT CCATAAAGGT GTTCTCATAG GGGCCGCCAG CCAGTTTGAA 300GCTTGTAGAG TCGCACCTTA TGTCAACGTA GGTGCTTTAA GGATGCCATT TCAGCAGGTT 360CAGGCGCAGC TGCAGCTGGA CAGCGCTGTG GCGCACGCGC ACCACCACCT GCATCCGCAC 420CTGGCCGCGC ACGCGCCCTA CATGATGTTC CCAGCACCGC CCTTCGGACT GCCGCTCGCC 480ACGCTGGCCG CGGATTCGGC TTCCGCCGCC TCGGTAGTGG CGGCCGCAGC AGCCGCCAAG 540ACCACCAGCA AGGACTCCAG CATCGCCGAT CTCAGACTGA AAGCCAAAAA GCACGCCGCA 600GCCCTGGGTC TGTGACVCCA ACGCCAGCAC CAATGTCGCG CCTGTCCCGC GGCACTCAGC 660CTGCASNCCC TNDDKANMCG TTRCTYHTCM ATTACACTTT GGGACCYCGG GDBAGVCCTT 720TTNNAGACTT YVATKGGSCW CSCTGGBCCC TBPKGAVVAC TTGSGHYCGR GAACCGAKHT 780GCCCABAYGA GGACCRGTTT GGAKDG 806(2)SEQ ID NO:16的资料：(ⅰ)序列特征：

(A)长度：190个氨基酸

(B)类型：氨基酸

(C)链型：单链

(D)拓扑结构：线性(ⅱ)分子类型：肽(ⅹⅰ)序列描述：SEQ ID NO:16:Met Glu Asp Glu Gly Gln Thr Lys Ile Lys Gln Arg Arg Ser Arg Thr1 5 10 15Asn Phe Thr Leu Glu Gln Leu Asn Glu Leu Glu Arg Leu Phe Asp Glu

20 25 30Thr His Tyr Pro Asp Ala Phe Met Arg Glu Glu Leu Ser Gln Arg Leu

35 40 45Gly Leu Ser Glu Ala Arg Val Gln Val Trp Phe Gln Asn Arg Arg Ala

50 55 60Lys Cys Arg Lys Gln Glu Asn Gln Leu His Lys Gly Val Leu Ile Gly65 70 75 80Ala Ala Ser Gln Phe Glu Ala Cys Arg Val Ala Pro Tyr Val Asn Val

85 90 95Gly Ala Leu Arg Met Pro Phe Gln Gln Val Gln Ala Gln Leu Gln Leu

100 105 110Asp Ser Ala Val Ala His Ala His His His Leu His Pro His Leu Ala

115 120 125Ala His Ala Pro Tyr Met Met Phe Pro Ala Pro Pro Phe Gly Leu Pro

130 135 140Leu Ala Thr Leu Ala Ala Asp Ser Ala Ser Ala Ala Ser Val Val Ala145 150 155 160Ala Ala Ala Ala Ala Lys Thr Thr Ser Lys Asp Ser Ser Ile Ala Asp

165 170 175Leu Arg Leu Lys Ala Lys Lys His Ala Ala Ala Leu Gly Leu

180 185 190

Claims

1．一种分离的人类核酸分子，该分子编码包含SEQ ID NO:1所列氨基酸序列的60个氨基酸的同源异型框结构域的多肽，该多肽具有人体生长调节活性。

2．根据权利要求1的核酸分子，选自下组：

a)一种分离的DNA分子，该分子包含：(ⅰ)这样的核苷酸序列，即编码包含SEQ ID NO:1所列60个氨基酸的同源异型框结构域的多肽的核苷酸序列，所述多肽具有人体生长调节活性，或(ⅱ)这样的核苷酸序列，该序列所编码的多肽包含SEQ ID NO:1所列60个氨基酸中除了有一或几个氨基酸残基的缺失、增加或取代外的同源异型框结构域，所述多肽仍具有人体生长调节活性；

b)一种分离的DNA分子，含有SHOX ET93[SEQ ID NO:2]和SHOXET45[SEQ ID NO:4]的核苷酸序列或其片段；

c)能与a)或b)的DNA分子杂交的核酸分子；

d)核苷酸序列与a)或b)的核酸分子具有70％或更高同源性的DNA分子。

3．根据权利要求2的DNA分子，该分子所编码的多肽具有在SEQID NO:1所列60个氨基酸的同源异型框结构域之外延伸的N-末端和/或C-末端。

4．根据权利要求3的DNA分子，编码长度为150到350个氨基酸的多肽。

5．根据权利要求2到4任一项的DNA分子，还包含SHOXG310[SEQ ID NO:3]的核苷酸序列。

6．根据权利要求2到5任一项的DNA分子，还包含SHOXG108[SEQ ID NO:5]的核苷酸序列。

7．根据权利要求2到6任一项的DNA分子，还包含SHOX Va[SEQID NO:6]或SHOX Vb[SEQ ID NO:7]的核苷酸序列。

8．根据权利要求1到4任一项的DNA分子，编码选自下组的多肽：

a)基本具有[SEQ ID NO:11]所列氨基酸序列的转录因子A；

b)基本具有[SEQ ID NO:13]所列氨基酸序列的转录因子B；和

c)基本具有[SEQ ID NO:15]所列氨基酸序列的转录因子C。

9．包含SHOX ET93[SEQ ID NO:2]的核苷酸序列的DNA序列。

10．根据权利要求9的DNA序列，还包含SHOX G310[SEQ IDNO:3]的核苷酸序列。

11．根据权利要求9或10的DNA序列，还包含SHOX ET45[SEQ IDNO:4]的核苷酸序列。

12．根据权利要求9到11任一项的DNA序列，还包含SHOXG108[SEQ ID NO:5]的核苷酸序列。

13．根据权利要求9到12任一项的DNA序列，还包含SHOXVa[SEQ ID NO:6]或SHOX Vb[SEQ ID NO:7]的核苷酸序列。

14．根据权利要求9的DNA序列，包含SHOX ET93[SEQ ID NO:2]和SHOX ET45[SEQ ID NO:4]的核苷酸序列。

15．根据权利要求9的DNA序列，包含SHOX ET93[SEQ IDNO:2]、SHOX ET45[SEQ ID NO:4]和SHOX G108[SEQ ID NO:5]的核苷酸序列。

16．根据权利要求9到15任一项的DNA序列，包含SHOXG310[SEQ ID NO:3]、SHOX ET93[SEQ ID NO:2]、SHOX ET45[SEQ IDNO:4]和SHOX G108[SEQ ID NO:5]的核苷酸序列。

17．根据权利要求16的DNA序列，包含SHOX Va[SEQ ID NO:6]的核苷酸序列。

18．根据权利要求16的DNA序列，包含SHOX Vb[SEQ ID NO:7]的核苷酸序列。

19．根据权利要求9的DNA序列，基本由[SEQ ID NO:14]所列的分离出的PAR1区基因组序列组成。

20．一种包含SHOX ET92[SEQ ID NO:9]的核苷酸序列的DNA序列。

21．根据权利要求9到20任一项的DNA序列，所述DNA是负责调控人体生长的基因组DNA或分离的DNA。

22．根据权利要求9到21任一项的DNA序列，所述DNA是cDNA。

23．根据权利要求22的cDNA，基本由SHOXa[SEQ ID NO:10]或SHOXb[SEQ ID NO:12]的核苷酸序列组成。

24．根据权利要求22的cDNA，基本由SHOT[SEQ ID NO:14]的核苷酸序列组成。

25．一种具有SEQ ID NO:11所列氨基酸序列的人生长蛋白(转录因子SHOXa)或其功能性片段。

26．一种具有SEQ ID NO:13所列氨基酸序列的人生长蛋白(转录因子SHOXb)或其功能性片段。

27．一种具有SEQ ID NO:15所列氨基酸序列的人生长蛋白(转录因子SHOT)或其功能性片段。

28．编码权利要求25、26或27所述蛋白的eDNA。

29．包含权利要求25到27任一项所述蛋白的药物组合物。

30．一种治疗矮小身材的方法，包括对需要给药的个体施用治疗有效量的权利要求25到27所述的蛋白。

31．权利要求25到27所述蛋白用于制备治疗矮小身材的药物组合物的用途。

32．权利要求1到24所述DNA序列用于制备治疗由矮小身材基因突变导致的紊乱的药物组合物的用途。

33．权利要求1到24任一项所述DNA序列用于制备一种试剂盒的用途，该试剂盒能够鉴定出带有导致人体生长减弱的基因缺陷的个体。

34．权利要求33所述DNA序列的用途，用于鉴定矮小身材基因。

35．基于RNA或DNA分子确定矮小身材的方法，其中在两个与SEQ ID NO:2到SEQ ID NO:7中的任一DNA序列完全或部分互补的探针存在的情况下，对待测生物样品分子进行扩增，随后用合适的检测系统进行确定。

36．权利要求35所述的方法用于鉴定带有矮小身材遗传缺陷的人。

37．一种转基因动物，是用包含权利要求1到24任一项所述DNA序列的导致矮小身材的基因转化的。

38．用权利要求1到24任一项所述DNA序列转化的细胞。

39．鉴定、筛选可用于治疗人矮小身材的药物的检测系统，包含权利要求38所述的转化细胞。

40．可用于治疗与矮小身材基因突变有关的紊乱的药物的鉴定、筛选方法，包括提供权利要求39所述的检测系统，并在候选药物与所述细胞接触后，确定所述细胞表型的改变或所述细胞表达产物的变化。

41．包含权利要求1-8所述DNA分子的表达载体，该载体使所编码多肽得到表达。

42．人生长紊乱的体内基因疗法，所述生长紊乱与SHOX或SHOT基因内的至少一个突变有关，该方法包括向人细胞导入一种表达质粒，该质粒中权利要求1-8任一项所述的DNA分子被连接在影响其在人宿主细胞中表达的启动子的下游。

43．根据权利要求42所述的方法，用于治疗Turner综合症或矮小身材。

44．一种抗体，该抗体是用转录因子A、B或C或者它们的抗原性片段免疫哺乳动物，并从这些动物中分离出所述抗体而获得的。