CN1726289A

CN1726289A - 人生长激素(gh1)基因近侧启动子中的单元型划分

Info

Publication number: CN1726289A
Application number: CNA2003801065037A
Authority: CN
Inventors: D·N·库珀; A·M·普罗克特; J·格里戈里; D·S·米勒
Original assignee: University College Cardiff Consultants Ltd
Current assignee: University College Cardiff Consultants Ltd
Priority date: 2002-12-19
Filing date: 2003-12-11
Publication date: 2006-01-25
Also published as: AU2003290250A1; GB0229725D0; CN1729300A; HRP20050568A2; RU2005118399A; WO2004057029A3; WO2004057029A2; JP2007515921A; CA2506535A1; KR20050075450A; NO20053499L; US20060121486A1; EP1581655A2

Abstract

本发明涉及人生长激素基因(GH1)的变体，特别是其近侧启动子区中的变体。此外，本发明涉及所述变体的相互作用，以及所述相互作用如何影响生长激素表达。

Description

人生长激素(CH1)基因近侧启动子中的单元型划分

本发明涉及一种诊断生长激素功能异常的存在或易感性的方法以及试剂盒，包括其适合本文使用和适合在此基础上其他研究工具使用的部分。

由于多种遗传和环境因素相互作用，人的身高是一种非常复杂的特征。既然家庭性矮小身材已知与生长激素(GH1)基因的固有突变有关，那么假定在这种垂体-表达的基因中的多态性变异也可影响成人身高似乎是合理的。

人GH1基因位于染色体17q23上5个相关基因的66kb簇内，这些基因包括胎盘表达的生长激素基因(GH2；MIM#139240)，两个绒毛膜生长催乳激素基因(CSH1和CSH2)和假基因(CSHP1)。GH1基因启动子的近侧区已报道在535bp的一段序列中显示具有16个单核苷酸多态性(SNP)的高水平序列变异。大部分SNP在同一位置上发生，其中CH1基因不同于共生同源CH1、CSH1、CSH2和CSHP1基因，提示它们可能通过基因转换产生。

人GH1基因的表达还受到位于GH1基因上游14.5kb和32kb之间的基因座控制区(LCR)的影响。该LCR含有多个DNA酶I超敏感位点，并且是在垂体和胎盘中活化GH基因簇的基因所需的。两个DNA酶I超敏感位点(I和II)包含垂体-特异性转录因子Pit-1的结合位点，且负责GH1基因高水平、生长激素细胞特异性表达的原因。

多少有些例外，我们进行了研究以评估在CH1基因的近侧启动子区和LCR中多态性变异的功能重要性。

作为本文描述的研究结果，在我们的研究群体中我们指出，变异发生在16个已知SNP位置中的15个位置上，在总共40个不同的启动子单元型中出现。此外，研究这些单元型能使我们分隔它们，因此推断SNP中的六个充当CH1基因表达的主要决定子，而另外6个SNP仅提供CH1基因表达的少量信息。

此外，由于人身高的遗传复杂性，我们的数据引导我们推断SNP的某些组合，以及单元型，可对人的身高具有显著的决定作用。因此，这一信息的知识对鉴别患有生长激素表达不足并因此至少在青春期以前需要替代疗法的个体是有用的。

在医学遗传学领域，为了确定是否具有任何影响生长激素(CH1)基因结构、功能或表达的损伤，测定个体DNA时，其相对直接地检测了总的缺失或是主要突变。然而，正如我们的数据所示，由于CH1启动子单元型的特性，个体可能生长激素表达不足。使用常规遗传分析，这样的一个个体(如果不具有任何大的缺失或突变)将被认为生长激素表达正常。但是，本发明描述的工作阐明了影响生长激素表达，从而反过来影响身高的SNP组合。所述知识可用于进行GH分析，该分析对野生型和突变基因的CH1表达是灵敏的，能准确用于大范围个体的遗传检测，包括那些不显示与基因缺失总量相关的症状的个体。

发明综述

因此，本发明涉及一种诊断个体中生长激素功能异常的存在或易感的方法，所述方法包括：

a)从待测个体获得编码生长激素基因(GH1)近侧启动子区的核酸分子的试验样品；

b)测定所述核酸分子的下列6个SNP的相对多数：1、6、7、9、11和14(描述于表1中)，或其相应的单元型(也描述于表1中)；或与其连锁不平衡的多态性；

c)当其中所述SNP的相对多数、或它们的所述相应的单元型、或它们的所述相应的多态性存在时，确定个体可能患有生长激素功能异常或具有对它的易感性。

本发明的优选方法中，如本文所述，所述连锁不平衡的多态性是在相应的基因座控制区的1144或1194上的多态性。

根据本发明的另一方面或实施方案，本发明提供了一种诊断个体生长激素功能异常的存在或易感性的方法，所述方法包括：

a)从待测个体获得编码生长激素基因(CH1)的近侧启动子区的核酸分子试验样品；

b)测定所述核酸分子，查找表1中表示为编号3、4、5、7、11、13、17、19、23、24、26或29的任何一个或多个单元型；

c)当所述单元型存在时，确定该个体可能患有生长素功能异常或具有生长素功能异常易感性。

我们的研究引导我们断定这些单元型是生长激素表达减少和因此导致生长激素功能异常的原因。

优选地，使用常规手段实施本发明的诊断方法，因此，典型地，检测待测个体的所述核酸分子包括使用引物(或引物对)扩增该核酸分子，该引物(或引物对)与将要扩增的核酸的互补链杂交。下面给出适当引物的例子：

GGG AGC CCC AGC AAT GC(GH1F)；和/或

TGT AGG AAG TCT GGG GTG C(GH1R)。

优选地，为了能够检测，将引物标记，方法是使用常规标记例如放射性标记、酶、荧光或化学发光标记或生物素-抗生物素蛋白标记。

最适当地，引物在严格条件下与核酸分子杂交。这意味着杂交水平足以区别染色体17q23上66kb簇中的5个同源基因。通常，支持严格杂交的洗涤条件是温度和盐浓度的组合，使得变性温度约为低于所研究的核酸计算的解链温度5-20℃。

根据本发明的另一方面，提供了适合于进行上述本发明诊断方法的试剂盒，所述试剂盒包括：

a)用于检测和/或扩增GH1的近侧启动子区的至少一个下列引物；

GGG AGC CCC AGC AAT GC(GH1F)；

TGT AGG AAG TCT GGG GTG C(GH1R)；和，任选地，

b)适合于进行PCR扩增患者DNA所欲区域的一个或多个试剂。

优选地，本发明的试剂盒包含与下列SNP：1、6、7、9、11和14的相对多数互补的寡核苷酸。

本发明的SNP和单元型具有鉴定生长激素功能异常的治疗方法的功用。由此得出结论，在适当的细胞或细胞系插入含有上述SNP和/或单元型的一个或多个生长激素基因或其部分，将产生鉴别治疗生长激素功能异常的药剂的有用工具。因此，根据本发明的另一方面，提供了包含至少GH1近侧启动子区的载体，所述区域包含下列SNP：1、6、7、9、11和14的相对多数。

在本发明优选的实施方案中，所述区域包含大多数的上述SNP，最理想地仍为6和9；和/或10和12；和/或8和11。不仅在一个等位基因上的一个启动子单元型内有相互作用，而且在启动子单元型之间，亦即在其他等位基因上的启动子单元型之间也有相互作用(分配)。此外，具有某种程度的亲本优势，父本单元型比母本更占优势，或反之亦然。

根据本发明的另一个方面，提供了包含GH1的至少一个近侧启动子区的载体，其中所述区域特征为具有显示于表1中的任何一个或多个下列单元型：3、4、5、7、11、13、17、19、23、24、26或29。

根据本发明的另一个方面，提供了如本文所描述的包含LCR近侧启动子融合构建物的载体。

最优选地，使载体适合于转化或转染原核或真核细胞，并进一步提供应答活化或抑制它们的试剂时确保启动子区的活性可以被监控的手段。因此，所述近侧启动子区与生长激素(CH1)基因的编码区或替代基因的编码区连接，由此，生长激素基因或替代基因的表达可用于监控相应启动子的活性。

更理想地，在载体内基因可在，表达蛋白标记的上游或下游表达，例如，这种标记可以是绿色荧光蛋白，由此在CH1近侧启动子的控制下表达所述CH1编码区及其临近标记。

本发明的另一方面或实施方案中，提供了包含生长激素基因(CH1)大多数启动子的载体，并且最理想的是生长激素基因大多数差别启动子。术语“差别”是指各个启动子具有不同的编码序列，并因此包含不同类型的SNP以及单元型。在这种排列中，最有利地，各个启动子或者与不同DNA序列连接，由此作为不同基因的表达结果可监控启动子活性，或者择一地，可使用相同的编码序列，但它适当地提供不同标记，由此可使用不同标记差异性监控相同基因的表达。

这些本发明的载体理想地用于转化宿主细胞，该宿主细胞可有利地用于筛选可在治疗生长激素功能异常中使用的药剂。优选的细胞包括细菌、酵母、真菌、昆虫细胞或哺乳动物细胞，最优选地无限增殖化细胞例如细胞系，例如人细胞系。或者可使用大鼠细胞。

根据本发明的另一方面，提供了用本发明载体转化或转染的宿主细胞。

根据本发明的另一方面，本文提供了重组细胞系，该细胞系经基因工程改造以表达报道分子，其表达在CH1启动子控制下，其中所述启动子包含如下SNP的大多数：1、6、7、9、11或14和/或任何一个或多个示于表1中的下列单元型：3、4、5、7、11、13、17、19、23、24、26或29。

根据本发明的另一方面，本文提供了转基因非人动物，由于具有包含如下SNP的大多数：1、6、7、9、11或14的CH1启动子和/或由于所述启动子以示于表1中的下列单元型：3、4、5、7、11、13、17、19、23、24、26或29之一为特征，该动物生长激素表达不足。

在本发明优选的转基因非人动物中，所述启动子以单元型23或27为特征，因此分别被称做“低表达启动子单元型”或“高表达启动子单元型”。这两种单元型可用于比较和对比候选药物对所述动物生长模式的影响。另外，表1中的单元型H1可方便地用做“正常表达启动子单元型”。

在本发明的一个优选实施方案中，所述启动子经人工改造以超最大表达，它以单元型AGGGGTTAT-ATGGAG为特征，或亚极小启动子单元型，以序列AG-TTGTGGGACCACT和AG-TTTTGGGGCCACT为特征。

根据本发明的另一方面，本文因此提供了一种筛选可用于治疗生长激素功能异常的治疗活性药物的方法，所述方法包括将本发明细胞或细胞系暴露于候选药物，然后测定是否候选药物影响生长激素基因启动子区的活性，以及在细胞系的情况下，是否影响报道分子的表达。

根据本发明的另一方面，本文提供了筛选可用于治疗生长激素功能异常的治疗活性药物的方法，所述方法包括将本发明的转基因非人动物暴露于候选药物，然后监控所述动物的生长，如果就动物生长而言候选药物显示具有阳性效应，判定所述生长是所述候选药物的治疗活性的指征。

本文中涉及的阳性效应最典型地指促生长能力，然而，在某些使用高度表达启动子的情况下，影响生长的能力可包括抑制生长的能力。

现在，本发明将参考下面材料和方法部分举例说明。

人受试者

从未挑选身高的154名高加索(Caucasian)血统的男性英国新兵取得的淋巴细胞中获得DNA样品。其中124名被试者的身高数据可得(平均1.76±0.07m)并发现身高成正态分布(Shapiro-Wilk统计W＝0.984，p＝0.16)。从当地多区域伦理委员会获得批准进行此项研究。

聚合酶链反应(PCR)扩增

使用寡核苷酸引物GH1F(5’GGGAGCCCCAGCAATGC 3’；-615到-599)和GH1R(5’TGTAGGAAGTCTGGGGTGC 3’；2598到2616)[相对于转录起始位点+1编号(GenBank登录号J03071)]进行3.2kb GH1基因特异性片段的PCR扩增。包含GH1 LCR的位点I和II的1.9kb片段用LCR5A(5′CCAAGTACCTCAGATGCAAGG 3′；-315到-334)和LCR3.0(5′CCTTAGATCTTGGCCTAGGCC 3′；1589到1698)[从GenBank(登录号AC005803)获得LCR序列，而LCR编号遵循Jin等1999；GenBank(登录号AF010280)]PCR扩增。两个反应的条件是相同的；简言之，使用Expand^TM高保真系统(Roche)，通过98℃热启动2min，随后95℃3分钟，95℃30秒、64℃30秒、68℃1分钟30个循环扩增200ng淋巴细胞DNA。对于最后20轮循环，在68℃的延伸步骤每个循环增加5秒。随后在68℃进一步培育7分钟。

克隆和测序

首先，PCR产物不经克隆直接测序。使用引物CH1S1(5’GTGGTCAGTGTTGGAACTGC 3’：-556到-537)从3.2kb从3.2kb GH1-特异性PCR片段测定GH1基因的近侧启动子区的序列。使用引物LCR5.0(5′CCTGTCACCTGAGGATGGG 3′；993-1011)、LCR3.1(5′TGTGTTGCCTGGACCCTG 3′；1093-1110)，LCR 3.2(5′CAGGAGGCCTCACAAGCC3′；628-645)和LCR3.3(5′ATGCATCAGGGCAATCGC 3′；211-228)测定1.9kb GH1LCR片段的序列。使用BigDye v2.0(Applied Biosystems)和ABI Prism 377或3100 DNA测序仪进行测序。对于启动子区的杂合子或LCR变体，测序前将适当的片段克隆进入pGEM-T(Promega)。

萤光素酶报道基因表达载体的构建

40个不同的GH1近侧启动子单元型(表1)的个体样品根据单元型+59位置上的碱基用引物GHPROM5(5′ AGATCTGACCCAGGAGTCCTCAGC 3′；-520到-501)和或GHPROM3A(5′ AAGCTTGCAGCTAGGTGAGCTGTC 3′；44到62)或GHPROM3C(5′ AAGCTTGCCGCTAGGTGAGCTGTC 3′；44到62)经PCR扩增为582bp的片段。为了便于克隆，将部分或全部非-模板限制性内切核酸酶识别序列加入所有引物的5’端(上面下划线的部分)；BglII(GHPROM5)和HindIII(GHPROM3A和GHPROM3C)。然后将PCR片段克隆进入pGEM-T。质粒DNA最初用HindIII(New England Biolabs)消化，且5’突出端用绿豆核酸酶(New England Biolabs)除去。通过用BglII(New England Biolabs)消化和凝胶纯化释放启动子片段。萤光素酶报道基因载体pGL3 Basic通过NcoI(New England Biolabs)消化和用绿豆核酸酶除去5’突出端制备。然后载体用BglII(NewEngland Biolabs)消化和凝胶纯化。该限制酶切启动子片段克隆进入萤光素酶报道基因载体GL3 Basic。分离(Qiagen midiprep系统)质粒DNA(pGL3GH系列)，并使用引物RV3(5′CTAGCAAAATAGGCTGTCCC 3′；4760-4779)、GH1SEQ1(5′CCACTCAGGGTCCTGTG 3′；27-43)、LUCSEQ1(5′CTGGATCTACTGGTCTGC 3′；683-700)和LUCSEQ2(5′GACGAACACTTCTTCATCG 3′；1372-1390)测序，以确保GH1启动子和萤光素酶基因序列是正确的。还通过用NcoI和BglII限制pGL3GH1(单元型1)，随后平头末端/重新连接除去SNP位点1-5制备截短的GH1近侧启动子构建物(-288到+62)。

通过定点诱变(SDM)[定点诱变试剂盒(Stratagene)]制备人工近侧启动子单元型报道基因构建物，以生产预期的超最大(super-maximal)单元型(AGGGGTTAT-ATGGAG)和亚极小(sub-minimal)单元型(AG-TTGTGGGACCACT和AG-TTTTGGGGCCACT)。

为了制备LCR-近侧启动子融合构建物，1.9kb LCR片段用BglII酶切，获得的1.6kb片段直接克隆到pGL3中582bp启动子片段上游的BglII位点。在pGL3 Basic中克隆三个不同的LCR单元型，三个GH1近侧启动子构建物之一的5’端分别包含“高表达启动子单元型”(H27)、“低表达启动子单元型”(H23)和“正常表达启动子单元型”(H1)以产生总共9个不同的LCR-GH1近侧启动子构建物(pGL3GHLCR)。然后分离质粒DNA(Qiagen midiprep)并使用适当的引物验证序列。

萤光素酶报道基因测定

缺乏表达生长激素的人垂体细胞系时，选择大鼠GC垂体细胞(Bancroft 1973；Bodner和Karin 1989)用于体外表达试验。大鼠GC细胞在含有15％马血清和2.5％胎牛血清的DMEM中生长。人Hela细胞在含有5％胎牛血清的DMEM中生长。两种细胞系都在37℃5％CO₂中生长，脂质体介导的GC细胞和Hela细胞转染使用Tfx^TM-20(Promega)在96孔平板中进行。从培养瓶中除去汇合细胞，用新制的培养基稀释并倒出置于96孔平板中，以在随后的几天中达到～80％的汇合。

在90μl/孔的总体积中，转染混合物包含不含血清的培养基、250ngpGL3GH或pGL3GHLCR构建物、2ng pRL-CMV和0.5μl Tfx^TM-20试剂(Promega)。1小时后，将200μl的完全培养基加入各个孔中。转染后，细胞溶解用于报道基因测定前，该细胞在37℃5％CO₂中培养24小时。

使用双萤光素酶报道基因测定系统(Dual Luciferase ReporterAssay System((Promega)进行萤光素酶测定。在微平板发光计(AppliedBiosystems)上进行测定，然后针对Renilla活性标准化。在每个平板具有6个重复点的3个独立平板上测定各个构建物(即共18个独立测定)。对于近侧启动子测定，各个平板包括阴性(不含启动子的pGL3Basic)和阳性(含pGL3的SV40启动子)对照。对于LCR分析，含有近侧启动子但缺乏LCR的构建物用做阴性对照。

电泳迁移率变动分析(EMSA)

在一起覆盖全部16个SNP位点的双链寡核苷酸上进行EMSA(参见Supplementary Material Online)。如Berg等(1994)描述的制备GC和Hela细胞的核提取物。寡核苷酸用[γ-³³P]-dATP放射性标记并在凝胶电泳后通过放射自显影检测。适当地，在10μl的终体积中，EMSA反应物包含终浓度为20mM Hepes pH7.9、4％甘油、1mM MgCl₂、0.5mM DTT、50mM KCl、1.2μg HeLa细胞或GC细胞核提取物、0.4μgpoly[dI-dC].poly[dI-dC]、0.4pM放射性标记的寡核苷酸、40pM未标记的竞争者寡核苷酸(100倍过量)。EMSA反应物在冰上孵育60分钟，并在放射自显影前在4％PAGE凝胶上以100V电泳45分钟。对于各个反应，将双链未标记试验寡核苷酸用做特异性竞争者，而将衍生自NF1基因启动子的寡核苷酸(5’CCCCGGCCGTGGAAAGGATCCCAC 3’)用做非特异性竞争者。将对应于人促乳素(PRL)基因Pit-1结合位点(5’TCATTATATTCATGAAGAT 3’)和Pit-1共有结合位点(5’TGTCTTCCTGAATATGAATAAGAAATA 3’)的双链寡核苷酸用做与SNP 8位点结合的蛋白的特异性竞争者。

引物延伸测定

进行引物延伸测定以证实具有不同的SNP单元型的构建物利用相同的转录起始位点。引物延伸按照Triezenberg等(1992)的方法进行。

数据标准化

阴性对照(不含启动子的pGL3Basic)的表达测定显示平板之间具有可观的变异。为了校正数据的基底表达和平板影响，从所给平板上的所有其他活性值减去相同平板上阴性对照的平均活性。然后计算各个平板上野生型近侧启动子单元型1(H1)的平均(平板校正)活性，且同一平板上所有其他单元型相关的活性除以该值。这两种转化确保平均阴性对照活性等于0，H1的平均活性一致，而不受平板数量的影响。这样，对基底和平板影响进行校正，获得的活性值可解释为与H1相比之倍数变化。既然转化后没有检测到显著的平板影响，将各平板数据合并。使用单元型A做参考单元型，LCR-启动子融合构建物表达数据也进行相似的步骤。

统计分析

检验近侧启动子单元型标准化表达水平对高斯分布的吻合度，使用SAS统计分析软件(SAS Institute Inc.，Cary NC，USA)的程序UNIVARIATE中的插件Shapiro-Wilk统计(W)。通过设定p_临界＝0.05/40≈0.001校正多重(即40倍)检验的显著型评估。使用这一标准，发现两种启动子单元型的表达水平，亦即H21(W＝0.727、p＝0.0002)和H40(W＝0.758、p＝0.0004)与高斯分布差异显著。对于其它38个单元型，认为其表达水平与正态性一致，因此使用T学生检验进行成对比较(SAS程序GLM)。使用Wilcoxon秩和统计的常态近似值z进行不同单元型群体之间表达水平的成对比较(SAS程序NPAR1WAY)。

为了正式评估SNP之间的相关性结构，并能鉴别临界多态性的适当亚基用于进一步研究，对于所有近侧启动子SNP的可能亚基计算单元型划分的剩余偏差。

对于一组数据点x₁，...，x_m的给定的划分{1...m}＝∏＝π₁∪...∪π_k，并如果i∈π_j则π(i)＝j，∏的剩余偏差δ定义为

δ = δ (II) = Σ_{i = 1}^{m} {(x_{i} - {\overset{&OverBar;}{x}}_{π (i)})}^{2} .

当数据组根本不被划分时，那么δ＝δ(∏₀)＝421.7，任何其它划分∏I的相对剩余偏差定义为δ_R(∏)＝δ(∏)/δ(∏₀)。

引起相对小的单元型变异的同时，6个SNP(编号为1、6、7、9、11和14，见下文)被认为是造成表达水平剩余偏差中较大比例(～60％)的原因。这些SNP的统计学相互依赖性进一步通过回归树的方法分析，使用统计学软件R(Ihaka和Gentleman 1996)通过回归二元划分构建。在回归树构建过程中，单独使用SNP作为各个节点上的预示变量，以针对反应变量选择两个最同型的单元型亚基(即标准化的近侧启动子表达)。选择用于导入新断裂的节点和SNP，以最小化用于划分的δ_R(由获得的中间树的终端节点(叶)所定义)。继续这一过程直到全部的叶对应于各个单元型(“完全生长的树”)。δ_R估计值的可靠性在各个步骤中通过10倍交叉证实评估，并计算标准差(SE)。

使用SAS软件包的REG程序对研究中的124名已知身高的个体进行身高和近侧启动子体外表达水平的回归分析。让μ_nor，h1和μ_nor，h2指示由所给个体携带的两个单元型的平均正态表达水平。对H1不纯合的(n＝109)个体高度模型为

并计算决定系数r²。

对于在154个研究个体中至少观察到8次的7个启动子单元型(H1-H7)建立减少的中位数网络(Bandelt等，1995)。

连锁不平衡分析

在从所研究的总共154人中随机挑选的100人中评估启动子SNP之间，以及个体SNP和LCR单元型之间的连锁不平衡(LD)，使用由Morton等(2001)设计用于双等位基因的参数ρ。当ρ＝1时相当于显示完全LD的两个基因座，ρ＝0表示完全缺乏LD。发现仅8个SNP在群体样品中是充分多态的(杂合性≥5％)以保证包括在内。排除SNP5，由于它与SNP4的完美的LD(仅两个成对的单元型存在)。如LD分析所需要的，使用内部执行的预期最大化(EM)算法获得组合的LCR-近侧启动子单元型频率的极大似然估计。

结果

近侧启动子单元型和相对启动子强度

通过体外报道基因测定研究40个启动子单元型，发现它们在大鼠垂体细胞中驱动萤光素酶基因表达的能力不同(表3)。发现表达水平在12倍的范围内变动，最低表达的单元型(17号)显示其平均水平为野生型的30％，最高表达的单元型(27号)显示其平均水平为野生型的389％(表3)。通过与H1比较，12个单元型(3、4、5、7、11、13、17、19、23、24、26和29号)与萤光素酶报道基因表达水平显著减少相关。相反，通过与H1比较，共10个单元型(14、20、27、30、34、36、37、38、39和40号)与萤光素酶报道基因表达水平的显著提高相关(表3)。通过引物延伸测定显示具有不同SNP单元型的构建物利用相同的转录起始位点(数据未显示)。发现报道基因构建物的表达在Hela细胞中比在GC细胞中低1000倍(数据未显示)。

40个不同的GH1启动子单元型的体外表达水平显示于图2中。低表达单元型发生更频繁而高表达单元型发生频率较低的趋势很明显(Wilcoxon p＜0.01)。由于这一发现提示了选择的作用，在个体SNP水平上探寻选择的影响。对于本文研究的15个SNP，发现平均表达水平(通过单元型频率加权)与对照内较少等位基因的频率正相关(Spearman秩相关系数，r＝0.32，单侧p＜0.10)。如果SNP 7作为明显的逸出值除去(它具有与稀有等位基因相关的特别高的表达水平)，r＝0.53单侧p＜0.05。

发现与个体SNP相关的表达水平强烈地相互依赖。因此尝试划分表达数据，以这种方式鉴别主要多态性位点的亚型，它不成比例地造成观察到的体外表达水平的差异。用含有全部16个SNP的所有单元型划分产生δ_R(∏₁₆)＝0.245的相对剩余偏差。这可根据24.5％的表达水平差异不由单元型变异引起解释。对于1≤K＜16，最小-δ_R-划分∏_k，min定义为用k SNP划分单元型，产生最小的相对剩余偏差δ_R。k和δ_R(∏_k，min)之间的关系以及含有∏_k，min的单元型的数量显示于图3中。在K＝6和k＝7之的定性差异明显，其中与∏_k，min相关的单倍体数量从13增加至22，而δ_R(∏_k，min)仅稍稍降低[δ_R(∏_6，min)＝0.397，δ_R(∏_7，min)＝0.371]。因此推断定义∏_6，min的SNP 1、6、7、9、11和14代表用于进一步分析的关键多态性的良好选择。余下的SNP中，6个(3、4、8、10、12和16号)可分类为“边缘信息”。这些标记物，与6个关键SNP结合，一起定义观察到的40个单元型中的39个，并负责全部可解释的偏差(δ_R(∏_12，min)＝0.245)的原因。其他4个SNP(2、5、13和15号)，由于它们在我们的样品中或者是单态的(2号)或者与其他标记物存在于完全(5和13号)或近似完全(15号)的连锁不平衡中，它们对标准化的体外表达水平“不提供信息”。

接着，使用一系列连续生长(即嵌套的)回归树评估6个主要SNP的相关结构。依照回归树分析中的约定(Therneau和Atkinson 1997)，选择在完全生长树的一个SE中具有交叉生效δ_R的最小中间树作为代表性划分。发现所述“最优选的”树具有10个内部和11个终止节点(图4，表4)。树的相对剩余偏差为δ_R＝0.398，因此通过单元型划分占可解释的偏差的(1-0.397)/(1-0.245)≈80％。

单个最重要的划分是通过SNP 7进行的，SNP 7独立地占可解释偏差的15％。携带这种SNP的C等位基因的4个单元型定义具有平均标准化表达水平高于H1 1.8倍的均相亚基(叶11)。携带SNP 7的T等位基因的单元型由SNP 9进一步再划分，这种多态型的等位基因T导致比等位基因G(μ_nor＝0.84；Wilcoxon z＝7.09，p＜0.001)高的表达(μ_nor＝1.26)。获得的nnTTnn单元型用SNP6划分(G/T)，nGTTnn形成包括野生型单元型H1的终止节点。有趣的是，当用SNP 11再划分nnTTTnn单元型时，它在表达水平上表现出惊人的差异。但是发现nTTTGn(叶9)是一种低表达子(μ_nor＝0.64)，单元型nTTTAn(叶10)显示最大量的平均表达(μ_nor＝3.89；Wilcoxon z＝5.11，p＜0.001)。

SNP7和9的单元型nnTGnn用SNP 14和1再划分，三个获得的单元型形成终止节点(叶1、6和7)。第四个单元型，GnTGnA，是一种中间表达子(μ_nor＝0.86)，它被SNP 11和6进一步划分。有趣的是，仅SNP 14和1等位基因的特定组合导致在SNP 7和9 nnTGnn背景下表达增加(AnTGnG，叶7，μ_nor＝1.83)。当考虑单元型GnTGnA时，还注意到SNP 6和11对表达的相似的非附加作用：而SNP 11等位基因A与SNP 6等位基因T结合时，比产生比G更高的表达(GTTGAA，叶5，μ_nor＝1.18对GTTGGA，叶2，μ_nor＝0.74；Wilcoxon z＝7.09，p＜0.001)，与SNP6等位基因G结合反之亦然(GGTGAA，叶4，μ_nor＝0.74对GGTGGA，叶3，μ_nor＝1.04；Wilcoxon z＝5.28，p＜0.001)。

单元型多样化的进化

本研究中发现15个GH1基因启动子SNP是多态的，在14个位置上的可变等位基因可通过基因转换潜在地说明，因为它们与4个共生同源人基因的至少1个的同功位点的等位基因相同(表2)。与10个其他哺乳动物的直向同源GH基因启动子序列比较表明，人GH1基因中核苷酸位置-75、-57、-31、-6、+3、+16和+25(对应于SNPs 8-15(含两端点))上的最频繁的等位基因在哺乳动物进化过程中严格保守(Krawczak等，1999)。令人感兴趣的是，人GH1基因中-1位置上(SNP 12)最少见的三个可变等位基因与严格保守的哺乳动物直向同源基因一致。

“减少的中位数网络”(图5)显示野生型单元型H1没有通过单突变事件与其他常见的单元型直接相连。第二种最常见的单元型，H2通过H23和H12与H1连接，而第三种最常见的单元型H3，或通过非观察的单元型或通过双重突变与H1连接。由于每个单元型少量的观察资料，这一网络的展开以掺入其他的单元型是不可靠的。此外，网络的展开将要求导入多个单碱基对替换。由于不能区分在预先存在的单元型与基因转换的系列循环，得到的网络距离似乎不能反应真正的进化关系。然而，由于每个突变仅发生一次，描述于图5中的网络连接7个最常见的单元型情形是安全的。

对于大多数SNP，注意到随物理距离连锁不平衡(LD)普遍下降，也有一些值得注意的例外(表5)。因此，发现SNP 9存在与其他SNP的强LD，包括SNP 16，它显示与所有其他近侧启动子SNP的相对弱的LD。该发现提示SNP 9的起源相对晚。然而，发现SNP 10与SNP 12而非SNP 11有完全LD(ρ＝0.381)，而SNP 8与SNP 11的LD强于与SNP 10的LD(ρ＝0.925对0.687)。这些异常发现表明近侧启动子SNP中LD的现存模式不太可能通过重组分解随距离单独出现，但可能反应其他机制的作用，例如频发突变、基因转换或选择。

超最大和亚极小单元型的预测和功能检测

基于获得的单元型-依赖性近侧启动子表达数据的“最优选的”回归树，试图预测就其表达水平来说潜在的“超最大”和“亚极小”单元型。为此，考虑到回归树适当叶的平均表达水平选择6个主要SNP的等位基因(表4)。测定剩余SNP的等位基因，以分别最大化或最小化各个SNP的表达。因此，对于预测的超最大单元型，SNP6、7、9和11的等位基因存在于叶10中，而SNP 1和14的等位基因存在于叶7中。选择亚极小单元型代表叶1(对于SNP1、7、9和14)。然而，SNP 6和11的等位基因的最佳选择有些分歧，由于叶2(表示等位基因T和G)和4(表示等位基因G和A)预测具有相似的低的平均表达水平。因此，决定生产两个构建物用于体外测定。剩余SNP假拟单元型的完成产生超最大单元型AGGGGTTAT-ATGGAG和亚极小单元型AG-TTGTGGGACCACT和AG-TTTTGGGGCCACT。

然后在大鼠垂体细胞中构建和表达这三种人工单元型，与野生型(单元型1)相比分别产生145±4、55±5和20±8％的表达水平。

通过电泳迁移率变动分析(EMSA)揭示SNP等位基因之间的差别

使用大鼠垂体细胞作为核蛋白源，在所有等位基因变体的所有近侧启动子SNP位点上进行EMSA。在位点-168、-75、-57、-31、-6/-1/+3和+16/+25上观察到蛋白相互作用带(表6)。对于位点-75(SNP 8)、-57(SNP 9)、-31(SNP 10)、-6/-1/+3(SNPs 11、12、13)和+16/+25(SNPs 14、15)观察到等位基因之间蛋白相互作用带数目的差异[图6；表6]。就后面两个位点来说，对特异性SNP等位基因组合的BMSA测定表明差异性蛋白结合可分别归因于SNP位点12和15上等位基因的变异(表6)。当使用Hela细胞提取物重复分析时，仅位点-57显示出蛋白相互作用的证据，其次仅对G等位基因，而非T等位基因(数据未显示)。利用对应于两个不同Pit-1结合位点的寡核苷酸的竞争试验的结果与作为Pit-1的两个SNP 8相互作用蛋白之一相一致。然而，保持等位基因-特异性蛋白相互作用不受影响则表明所涉及的其他蛋白不是Pit-1。

启动子单元型体外表达和活体身高之间的关系

试图将CH1近侧启动子的单元型特异性体外表达与124名高加索成年男性的身高相联系。从标准化的体外表达数据得到各个单元型的平均表达值(表3)，并且对于各个个体计算两个单元型的平均值A_x＝(μ_nor，h₁+μ_nor，h2)/2。由于其A_x值(1.0)不造成任何因果变异，从分析中除去H1的个体纯合。这产生了具有适当基因型的109个已知身高的个体的样品(表7)。当高于或低于中位数(1.765m)的身高与高于或低于中位数(0.9)的A_x值相比时，显现出身高和与GH1近侧启动子单元型相关的体外表达之间的关系的证据(x²＝4.846，1d.f.，p＝0.028)。尽管如此，使用二次多项式的回归分析表明2个μ_nor值自身预测身高的作用相对较差。因为决定系数是r²＝0.033(p＞0.5)，可推断大约3.3％的身高变异是由于CH1基因近侧启动子单元型的体外表达。

基因座控制区(LCR)多态性和近侧启动子强度

从研究群体中随机挑选的100人进行筛选，在CH1LCR的位点I和II(GH1基因的垂体特异性表达所需的)内发现3个新的多态性改变。它们位于核苷酸位置990上(G/A；0.90/0.10)，1144(A/C；0.65/0.35)和1194(C/T；0.65/0.35)[根据Jin等1999编号]。在1144和1194上的多态性存在于整个的连锁不平衡中，并观察到3个不同的单元型：单元型A(990G，1144A，1194C；0.55)，单元型B(990G，1144C，1194T；0.35)和单元型C(990A，1144A，1194C；0.10)。

为了确定是否3个LCR单元型对CH1基因下游表达发挥不同的作用，制备了许多不同的LCR-GH1近侧启动子构建物。3个含LCR的1.6kb的替代片段克隆进入pGL 3近侧启动子单元型的3种不同类型的直接上游，即“高表达启动子”(H27)、“低表达启动子”(H23)和“正常表达的启动子“(H1)，共产生9个不同的LCR-GH1近侧启动子构建物。然后这些构建物在大鼠GC细胞和Hela细胞中表达，并测定获得的萤光素酶的活性。在GC细胞中，LCR的存在相对于近侧启动子单独存在而言，表达增强了2.8倍(表8)。然而，这种诱导作用的程度取决于连锁的启动子单元型。双向方差分析(表9)表明主要作用和启动子*LCR相互作用是显著的(p＜0.0001)，近侧启动子发挥主要影响。对于各个启动子单元型分别进行的在95％显著水平上T检验结果也包含于表8中。结合启动子单元型1，LCR单元型A的活性显著区别于N的活性(含有近侧启动子却缺乏LCR的构建物)，但与LCR单元型B和C的活性没有区别；LCR单元型B和C彼此差别显著且与N差别显著。然而，关于启动子27，在LCR单元型之间没有发现显著差异。对于Hela细胞中任何近侧启动子单元型没有观察到LCR-介导的表达诱导(数据未显示)。

由于LCR和近侧启动子SNP之间的物理距离太大以致于不允许连接物理单元分型，通过最大概似法，使用取自100个个体的基因型数据评估它们之间的连锁不平衡(LD)，这些数据包含于近侧启动子SNP LD间的分析。发现启动子SNP和LCR单元型之间成对的LD对除SNP 16外的所有SNP数量都是很大的(表5)。因此，可断定在SNP 9发生前SNP16进行了频发突变，SNP9是在与SNP 16的强连锁不平衡中发现的唯一一个SNP。就与SNP 4、8和16的LD来说，LCR单元型之间存在大量差异(表5)，表明与单元型A相反，LCR单元型B相对年轻。

结论

划分单元型，识别了6个SNP(1、6、7、9、11和14号)作为GH1基因表达水平的主要决定子，另外6个SNP提供少量的信息(3、4、8、10、12和16号)。通过EMSA测定研究所有16个SNP的功能意义，表明GH1近侧启动子中6个多态性位点与核酸结合蛋白相互作用；对于这些位点中的5个[-75(SNP 8)、-57(SNP 9)、-31(SNP 10)、-1(SNP 12)和+25(SNP 15)]，替代等位基因显示差异性蛋白结合。在这5个位点中，通过回归划分只有SNP 9也被鉴定为GH1基因表达水平的主要决定子。根据将所有40个单元型中出现的全部遗传变异考虑进去的回归树分析可解释这一明显差异。此外，在划分步骤中，根据它们对表达水平的净效应评价个体SNP，而不通过直接可测定的功能特点。这意味着除等位基因特异性蛋白结合外的因子可在决定回归树中各个SNP的位置中起作用。

这样，GH1基因启动子强度中单元型依赖性差别的分子基础可能在于多转录因子与其同源结合位点的交替排列差异性结合的净效应。由于它们包含组合构建观察到的启动子单元型的各种SNP之不同的等位基因，所以这些排列不同。一些转录因子直接通过顺式作用DNA序列基序调整，其他通过蛋白-蛋白相互作用间接调整，这被比做三维拼板玩具：DNA序列基序提供拼版玩具的模板，转录因子组成拼版玩具的部件。该启动子的模式视图帮助人们观察在可能被转导的给定单元型中不同SNP组合的作用是怎样的，以致对转录因子结合、转录产物的装配以及基因表达发挥不同的作用。因此，例如，可以理解观察到的GH1启动子SNP对基因表达的非叠加效应，在一个SNP位点上给定蛋白的等位基因特异性差异结合反过来影响第二个蛋白在另一个SNP位点(即其自身经历等位基因特异性蛋白质结合)上的结合。

GH基因簇LCR上游包含具有增强子活性的序列元件，赋予表达的组织特异性，并通过扩展组蛋白乙酰化作用的分散促进远程基因活化(Shewchuk等，1999；Su等，2000；Shewchuk等，2001；Ho等，2002)。LCR的生长激素细胞特异性决定子存在于1.6kb区(位点I和II)GH1基因上游～14.5kb(Shewchuk等，1999)。在我们自己的系统中，该1.6kb LCR片段的导入用来增强GH1近侧启动子的活性达2.8倍，尽管发现增强程度取决于连接的近侧启动子单元型的同一性。相反，还发现所给单元型近侧启动子活性的增强取决于LCR单元型的同一性。综上所述，这些发现表明GH1基因表达个体间差距的遗传基础可能极为复杂。

表1.由16个位置上由遗传变异定义的CH1近侧启动子单元型

No.	相对于基因转录起始位点的SNP位置																n
	相对于基因转录起始位点的SNP位置																	-476	-364	-339	-308	-301	-278	-168	-75	-57	-31	-6	-1	+3	+16	+25	+59
	1	G	G	G	G	G	G	T	A	T	G	A	A	G	A	A		-476	-364	-339	-308	-301	-278	-168	-75	-57	-31	-6	-1	+3	+16	+25	+59	T	103
23^§4^§5^§67^§891011^§1213^§14151617^§1819^§20212223^§24^§2526^§272829^§3031323334353637^$38^$39^$40^$	1	G	G	G	G	G	G	T	A	T	G	A	A	G	A	A	GGGGGGGGGGGGGGGGGAGGGGGGGGGAGGGGGGGAGGG	GGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG	GGGGGGGGGGG-GGG-GGGGGGGGGGGG-GGG-GGGGGG	GTTGTGTGTGGGGTGGGGGGTGTTGGGGGGTGGGGGGTG	GTTGTGTGTGGGGTGGGGGGTGTTGGGGGGTGGGGGGTG	TGGTGTGTGTTTTGTTTTGTGGGGTTTTTTGTTGTTTGT	TTTTTTTTTTTTCTTTTTTTTTTTTTTTTTTTCTTTCTC	AAAGAAAAAGAGAAGAAAAGAAGAGAAAAGGAAAAAAAA	GGGGGGGTGGGGGGGGGGGGTGGGGTGGGGGGGGGGGGG	GG-G-GGG-GGGGGGG-G-GGG-GGG-GG-GGGGGGGGG	GAAGAGGGGGAGGGAGGGAGAAAAGAAAAGGGGAGGAGG	AAAAATAAAAAATTAAAAAAAAAATAAAAAAATCTAAAA	GGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGCGGGGG	AAAAAAAAAGAAAAAAAAAAAAAAAAAAAAAGAAAGAAA	AAAAAAAAACAAAAAAAAAAAAAAAAAAAAACAAAAACA	TTTTGTTTTTTTTTTTTTTGTTTGTTTTTTGTTTGTTTT	5028161398666555544433333221111111111110000	T	103

n：154名英国高加索人男性中的发生频率；§：在GC细胞中显示萤光素酶活性水平显著下降(单元型1的55％)的单元型；$：仅在个别GH缺乏的情况下发现。-表示缺乏讨论中的碱基。

表2：154名高加索人男性的CH1基因启动子中15个SNP的等位基因的发生频率，和GH簇的共生同源基因的同功位置中相应的核苷酸

GH1				GH1共生同源基因^$
GH1				GH1共生同源基因^$				SNP	位置^$	等位基因	频率	GH2	CSH1	CSH2	CSHP1
1345678910111213141516	-476-339-308-301-278-168-75-57-31-6-1+3+16+25+59	GAG-GTGTGTTCAGGTG-AGATCGCAGACTG	304(0.987)4(0.013)297(0.964)11(0.036)232(0.753)76(0.247)232(0.753)76(0.247)185(0.601)123(0.399)302(0.981)6(0.019)273(0.886)35(0.114)195(0.633)113(0.367)267(0.867)41(0.133)181(0.588)127(0.412)287(0.932)20(0.065)1(0.003)307(0.997)1(0.003)302(0.981)6(0.019)302(0.981)6(0.019)293(0.951)15(0.049)	AGTTTTGA-AAGAAG	GGCTACATGGTGAAG	GGCTACATGGTGAAG	AGTTTTGGGACCGCG	SNP	位置^$	等位基因	频率	GH2	CSH1	CSH2	CSHP1

$：相对于CH1基因转录起始位点；§：人GH簇中4个共生同源基因的野生型序列中同工位置上的碱基。

表3.40个不同的SNP单元型的体外GH1基因启动子表达分析

单元型No.	n	μ_nor	σ_nor	Tukey
单元型No.	n	μ_nor	σ_nor	Tukey	17319232411261329457219152532333518101216162312882230363920384014373427阴性对照	1818181818181818181818181818181818181812181818901818181818181818181818181818181890	0.3040.3240.3320.3590.3950.4060.4100.4830.5020.5280.5360.5530.5770.6350.7250.7900.7930.8070.8090.8190.8550.9580.9881.0001.0751.0781.2081.3171.3331.4031.4471.4511.4681.6001.6971.7331.8061.8251.9973.8900.000	0.0540.1700.0620.0420.1070.0690.1810.0840.1490.2050.2050.1540.2060.2680.2710.2290.2420.2250.2300.2170.1350.3570.2900.1740.4040.1500.3530.3120。4530.3800.3450.3680.6530.3420.7521.1120.3860.7650.3520.9010.005	a----------------a----------------a----------------ab---------------abc--------------abc--------------abc--------------abcd-------------abcd-------------abcde------------abcde------------abcdef-----------abcdefg----------abcdefgh----------bcdefghi---------bcdefghi----------cdefghi----------cdefghi----------cdefghi-----------defghi------------efghij------------fghijk------------ghijk-------------hijkl------------hijkl-------------ijklm-------------jklmn------------jklmn-------------klmno-------------lmno-------------lmno-------------lmno--------------mnop--------------nop---------------op---------------op----------------p-----------------q

n：测定数量；μ_nor：平均标准化表达水平(即相对于H1的倍数变化)；σ_nor：表达水平的标准差；Tukey：T学生检验的结果，具有重叠字母组的单元型就其平均表达水平来说统计学上没有差异；*：非高斯分布。

表4：CH1基因启动子表达数据的单元型划分

单元型^§	叶^&	n_hap	n	μ_nor	σ_nor	δ(叶)
单元型^§	叶^&	n_hap	n	μ_nor	σ_nor	δ(叶)	nnCnnnnGTTnnnTTTGnnTTTAnAnTGnAGnTGnGAnTGnGGTTGGAGGTGAAGGTGGAGTTGAA	1189101672435	421122110854	7210818183636181741449072	1.8091.0670.6353.8900.4180.6071.8250.7400.7351.0351.178	0.7250.2670.2680.9020.1420.2620.7650.4270.4740.4930.384	36.277.621.2213.820.712.399.9531.5432.1621.6610.47

n_hap：包含于叶中的单元型数量；μ_nor：平均标准化表达水平；σ_nor：表达水平的标准差；δ(叶)：叶中的剩余偏差；§：以SNP1、6、7、9、11和14的顺序给出的等位基因(n：任何碱基)；&：如图4中编号。

表5：100名高加索人男性中CH1近侧启动子SNP和LCR单元型之间的连锁不平衡，ρ

SNP
SNP									SNP	4	6	8	9	10	11	12^&	16
689101112^&16LCR^$ABC	1.0000.8020.8930.7310.5540.6380.56740.1531.0000.840	0.9270.8680.6320.8910.8670.11160.8290.9520.997	1.0000.6870.9250.2420.25181.0000.9220.491	1.0000.9051.0001.00090.9310.9580.840	0.3811.0000.415100.6010.5310.875	1.0000.044110.7820.8730.482	0.025120.8000.8311.000	160.0640.6430.289	SNP	4	6	8	9	10	11	12^&	16

&：：发现200个染色体中的一个单染色体携带SNP12等位基因C；从涉及SNP12的所有LD分析中除去该染色体；$：对于每一个LCR单元型，针对其它两个LCR单元型的组合计算ρ，从而使LCR转变为双等位基因系统。

表6.EMSA测定的结果，使用大鼠垂体细胞核提取物证明在CH1基因启动子的各个SNP位点等位基因特异性差别蛋白结合

SNP	双链寡核苷酸位置	序列变异	蛋白相互作用带编码			转录因子结合位点/功能区
			蛋白相互作用带编码				强	中	弱
			891011，12，1314，15	-89→-61-72→-42-45→-15-18→+15+4→+37	-75A-75G-57T-57G-31G-31ΔG-6/-1/+3AAG-6/-1/+3GAG-6/-1/+3GTG+16/+25AA+16/+25AC+16/+25GC+16/+25GA		强	中	弱	-1121---1-2212	11-------1--1	-----1-------	Pit-1Pit-1维生素D受体维生素D受体TATA盒TATA盒TSSTSSTSS5’UTR5’UTR5’UTR5’UTR

TSS：转录起始位点5’UTR：5’非翻译区

表7.124名高加索人男性中成人身高与CH1近侧启动子单元型相关的体外表达数据的关系

	A_x＜0.9	A_x＞0.9
	A_x＜0.9	A_x＞0.9	-身高＜1.765身高＞1.765	3421	2232

A_x：个体的两个单元型的平均标准化体外表达水平，即

A_x＝(μ_nor，h₁+μ_nor，h2)/2。

表8.GC细胞衍生的、标准化萤光素酶活性±不同的LCR-GH1近侧启动子构建物的标准差

启动子单元型	LCR单元型
	LCR单元型				N	A	B	C
	H1H23H27	1.00±0.26^x1.00±0.14^x1.00±0.26^x	2.47±0.41^yz1.72±0.55^yz1.11±0.36^x	2.30±0.46^y2.14±0.52^z1.00±0.41^x	N	A	B	C	2.77±0.55^z1.35±0.48^xy1.25±0.27^x

x，y，z：启动子单元型内的T检验；具有重叠字母组的LCR单元型(A、B和C)就其平均表达水平来说统计学上无差异。

N：包含近侧启动子但缺乏LCR的构建物。各种情况下LCR单元型对N标准化。

表9.LCR-CH1近侧启动子构建物标准化的萤光素酶活性的双向ANOVA

来源	df	均方差	F值	p
来源	df	均方差	F值	p	启动子单元型LCR单元型相互作用	236	51.465.673.09	390.9743.0823.48	＜0.0001＜0.0001＜0.0001

Df：自由度

联机补充资料

用于SNP位点的EMSA分析的双链寡核苷酸引物序列，其显示等位基因-特异性蛋白结合。在不同的等位基因组合中研究SNP位点11-15。TSS：转录起始位点。

SNP/等位基因	自TSS的位置	序列5′→3′
SNP/等位基因	自TSS的位置	序列5′→3′	8A8G9G9T10G10ΔG11，12，13AAG11，12，13GAG11，12，13GTG14，15AA14，15GC14，15GA14，15AC	-89→-61-72→-42-45→-15-18→+15+4→+37	CCATGCATAAATGTACACAGAAACAGGTGCACCTGTTTCTGTGTACATTTATGCATGGCCATGCATAAATGTGCACAGAAACAGGTGCACCTGTTTCTGTGCACATTTATGCATGGCAGAAACAGGTGGGGGCAACAGTGGGAGAGATCTCTCCCACTGTTGCCCCCACCTGTTTCTGCAGAAACAGGTGGGGTCAACAGTGGGAGAGATCTCTCCCACTGTTGACCCCACCTGTTTCTGGAGAAGGGGCCAGGGTATAAAAAGGGCCCACGTGGGCCCTTTTTTTTATACCCTGGCCCCTTCTCGAGAAGGGGCCAGGTATAAAAAGGGCCCACGTGGGCCCTTTTTATACCTGGCCCCTTCTCCCACAAGAGACCAGCTCAAGGATCCCAAGGCCCGGGCCTTGGGATCCTTGAGCTGGTCTCTTGTGGCCACAAGAGACCGGCTCAAGGATCCCAAGGCCCGGGCCTTGGGATCCTTGAGCCGGTCTCTTGTGGCCACAAGAGACCGGCTCTAGGATCCCAAGGCCCGGGCCTTGGGATCCTAGAGCCGGTCTCTTGTGGATCCCAAGGCCCAACTCCCCGAACCACTCAGGGTACCCTGAGTGGTTCGGGGAGTTGGGCCTTGGGATATCCCAAGGCCCGACTCCCCGCACCACTCAGGGTACCCTGAGTGGTGCGGGGAGTCGGGCCTTGGGATATCCCAAGGCCCGACTCCCCGAACCACTCAGGGTACCCTGAGTGGTTCGGGGAGTCGGGCCTTGGGATATCCCAAGGCCCAACTCCCCGCACCACTCAGGGTACCCTGAGTGGTGCGGGGAGTTGGGCCTTGGGAT

Claims

1.一种诊断个体中生长激素功能异常的存在或易感性的方法，包括：

(a)从待测个体获得编码生长激素基因(GH1)近侧启动子区的核酸分子的试验样本；

(b)测定所述核酸分子的下列6个SNP中的大多数：1、6、7、9、11和14(描述于表1中)，或其相应的单元型(也描述于表1中)；或与其连锁不平衡中的多态性；

(c)当所述SNP的大多数、或其所述相应的单元型、或其所述相应的多态性存在时，确定个体可能患生长激素功能异常、或具有对生长激素功能异常的易感性。

2.根据权利要求1所述的方法，其中所述多态性存在于所述基因的基因座控制区的114上。

3.根据权利要求1所述的方法，其中所述多态性存在于所述基因的基因座控制区的1194上。

4.一种诊断个体中生长激素功能异常的存在或易感性的方法，包括：

(b)测定所述核酸分子的任何一个或多个下列表1中表示为编号3、4、5、7、11、13、17、19、23、24、26或29中单元型；

(c)当所述单元型存在时，确定个体可能患生长激素功能异常、或具有对生长激素功能异常的易感性。

5.根据任何一项前述的权利要求所述的方法，其中上述(b)下所述测定步骤包括所述基因的PCR扩增。

6.根据权利要求5所述的方法，其中使用一个或多个下列引物：GGG AGC CCC AGC AAT GC(GH1F)；和/或

TGT AGG AAG TCT GGG GTG C(GH1R)。

7.根据权利要求6所述的方法，其中为了便于检测扩增产物而标记所述引物。

8.一种适合于进行权利要求1-7的诊断方法的试剂盒，所述试剂盒包括：

(a)至少一个下列引物，用于检测和/或扩增生长激素基因(GH1)的近侧启动子区；

GGG AGC CCC AGC AAT GC(GH1F)；

TGT AGG AAG TCT GGG GTG C(GH1R)；和，任选地，

(b)适合于进行PCR的一种或多种试剂，以扩增患者DNA的所欲区。

9.根据权利要求8所述的试剂盒，其中附加地或替代性地使用其它引物，所述引物与包含本文定义为1、6、7、9、11和14的SNP的基因的所选区互补。

10.一种包含至少GH1近侧启动子区的载体，其中所述区域包含下列SNP的大多数：1、6、7、9、11和14。

11.根据权利要求10所述的载体，其中所述区域包含至少SNP6和SNP9。

12.根据权利要求10所述的载体，其中所述区域包含至少SNP10和SNP12。

13.根据权利要求10所述的载体，其中所述区域包含至少SNP8和SNP11。

14.根据权利要求10所述的载体，其中所述区域的特征在于示于表1中的任何一个或多个下列单元型：3、4、5、7、11、13、17、19、23、24、26或29。

15.根据权利要求10-14所述的载体，其进一步包含如本文所述的GH1基因座控制区近侧启动子融合构建物。

16.根据权利要求10-15所述的载体，其中所述近侧启动子区与所选基因的编码区功能性连接，其中可监测所述近侧启动子的活性。

17.根据权利要求16所述的载体，其中所述近侧启动子区与生长激素基因(GH1)的编码区连接。

18.根据权利要求16或17所述的载体，其中所述基因中的所述近侧启动子区进一步与标记连接，籍此可监测所述基因的表达，同样可监测所述近侧启动子区的活性。

19.根据权利要求18所述的载体，其中所述标记是蛋白质标记。

20.根据权利要求10-19所述的载体，其进一步提供生长激素基因(GH1)的至少另一个近侧启动子区。

21.根据权利要求20所述的载体，其中所述额外的近侧启动子区与原始的近侧启动子区不同。

22.根据权利要求21所述的载体，其中各个近侧启动子区与不同的编码序列连接。

23.根据权利要求21或22所述的载体，其中各个近侧启动子区直接或间接地与能够监测各个所述启动子活性的不同标记连接。

24.一种用根据权利要求10-23所述的载体转化的宿主细胞。

25.一种经基因工程改造以表达报道分子的重组细胞系，其表达受到生长激素基因近侧启动子的控制，其中所述近侧启动子包含大多数下列SNP：1、6、7、9、11或14，和/或示于表1中的任何一个或多个下列单元型：3、4、5、7、11、13、17、19、23、24、26或29。

26.一种转基因非人动物，由于具有包含下列SNP之大多数：1、6、7、9、11或14的GH1启动子，和/或由于所述启动子以示于表1中的下列单元型：3、4、5、7、11、13、17、19、23、24、26或29之一为特征，其生长激素表达不足。

27.根据权利要求26所述的转基因非人动物，其中所述启动子以单元型23为特征。

28.根据权利要求26所述的转基因非人动物，其中所述启动子以单元型27为特征。

29.根据权利要求26所述的转基因非人动物，其中所述启动子以单元型1为特征。

30.一种生长激素基因(GH1)的人工近侧启动子区，其以单元型AGGGGTTAT-ATGGAG为特征。

31.一种生长激素基因(GH1)的人工近侧启动子区，其以单元型AG-TTGTGGGACCACT为特征。

32.一种生长激素基因(GH1)的人工近侧启动子区，其以单元型AG-TTTTGGGGCCACT为特征。

33.一种筛选可用于治疗生长激素功能异常的治疗活性药物的方法，包括使根据权利要求24或25所述的细胞或细胞系分别暴露于候选药物，然后测定候选药物是否影响生长激素基因启动子区的活性，同样地，在细胞系的情况下，测定候选药物是否影响报道分子的表达。

34.一种筛选可用于治疗生长激素功能异常的治疗活性药物的方法，包括使根据权利要求27-30所述的本发明的转基因非人动物暴露于候选药物，然后监测所述动物的生长，如果候选药物显示对动物生长具有阳性效应，则推断所述生长是所述候选药物的治疗活性之指征。