CN1729300A

CN1729300A - 单倍型划分

Info

Publication number: CN1729300A
Application number: CNA2003801067422A
Authority: CN
Inventors: D·N·库珀; M·克拉夫恰克; J·黑德里希
Original assignee: University College Cardiff Consultants Ltd
Current assignee: University College Cardiff Consultants Ltd
Priority date: 2002-12-19
Filing date: 2003-12-11
Publication date: 2006-02-01
Also published as: HRP20050568A2; RU2005118399A; CN1726289A; NO20053499L; KR20050075450A; WO2004057029A2; EP1581655A2; US20060121486A1; CA2506535A1; WO2004057029A3; GB0229725D0; JP2007515921A; AU2003290250A1

Abstract

本发明涉及鉴定是所选择表型的主要决定因素的突变和/或多态性的方法并且基于单倍型的鉴定和其划分为所述表型的主要决定因素的组。

Description

单倍型划分

本发明涉及确定至少一个基因中多态性或突变的重要性的新方法；和由此鉴定的重要的多态性或突变。

自20世纪80年代后期基因测序技术出现，和人类基因组计划建立以来，已经发现了关于多种类基因的序列结构或性质的大量信息，特别是人。而且，由于基因测序方法进化，任何给定基因内检测到的变异数量已有增加。假定典型的基因长度可以是3万个碱基和平均每1100个碱基发生变异，于是为了确定哪个变体具有临床或技术重要性，需要从事极多工作。然而，这是开发可利用的知识的先决步骤。

一些基因比其它的基因更易变异。高度多态性基因给需要确定核酸分子中给定位点的哪个变异，或核酸分子中给定位点的哪个变异组合是重要的研究者们提供了特殊挑战。于是在任何给定群体内，来自很多生物体或个体的单一基因的研究可以产生大量信息，因为给定基因中存在多个多态性位点的地方，个体与个体之间多态性特征可以有差异。因此，当研究很多多态性位点时，产生了每一个体的特征的模式或标记。这被称为单倍型(haplotype)。每一单倍型代表多个多态性位点的特定变异组合。因此，为了确定哪个有意义，筛选(sift)单倍型是有经验的研究者们的工作。如同有经验的读者将认识到这是一个长久、困难和常常沉闷的任务。如果有，为了确定每一单倍型的含义，它可以包括研究基因或由其编码的蛋白的多种性质。

怀着这个目的，我们发展了促进遗传变异研究的方法。我们的方法涉及研究基因内的很多变异并确定其重要性。更具体地说，我们的方法涉及检查至少一个基因中多个多态性位点的多个变异以确定其重要性。基本上，我们的方法可用于研究不同单倍型的相对重要性。因此，为了确定哪个是最重要的，它有效地筛分多个单倍型。它因此具有分类巨大量数据的能力以选择其最相关形式。

人类身材是由多种遗传和环境因素的相互作用产生的高度复杂的性状。由于已知家族身高矮小与生长激素基因的遗传突变有关，因此合理假定这个垂体表达基因中的多态性变异影响成年人身高。众所周知这个基因内有大量多态性变异，实际上，GH1生长激素基因启动子的近侧区显示出高水平的序列变异，在535个碱基对片段内记录到16个单核苷酸多态性。大多数这些SNPs存在于相同位置，其中GH1基因不同于位于含有GH1的五个基因簇内的共生同源GH2、CSH1、CSH2和CSHP1基因。这五个基因以66kb的簇位于染色体17q23上。

此外，人GH1基因的表达也受位于GH1基因的上游14.5kb和32kb之间的基因座控制区(LCR)的影响。LCR含有多个DNase I高敏位点并且是活化垂体和胎盘中的GH1基因簇的基因所需的。

因此，给定这个基因内高水平的变异，我们已利用它开发我们的方法。更具体地说我们已经利用这个基因估计GH1基因表达的近侧启动子区和LCR区中的多态性变异的相对重要性。

发明陈述

我们这里描述了单倍型划分(haplotype partitioning)的方法，以鉴定是表型主要决定因素的突变和/或多态性，尤其是但不仅仅是有利或不利的表型。例如，也许最典型地，该方法将用于鉴定全部或部分导致生理情况或紊乱的突变和/或多态性，例如疾病或异常或不良状态。

因此，本发明单倍型划分的方法包括检测每个所选择组的考虑中的基因突变和/或多态性的残余偏离(residual deviance)(δ)。

更理想地，该方法包括检测可能亚组的突变和/或多态性的残余偏离(δ)，因此最有利地，基于每个可能亚组的突变和/或多态性，进行该方法以研究单倍型划分{1...m}的残余偏离(δ)。

最理想地，该方法还包括使用下列函数

δ = δ (Π) = Σ_{i = 1}^{m} {(χ_{i} - {\overset{&OverBar;}{χ}}_{π (i)})}^{2}

(定义见11和14页)

本发明的方法适用于但不仅仅适用于所述突变和/或多态性的作用强烈相互依赖的情形，例如在有连锁不平衡的情况下。

使用这个方法有可能鉴定引起例如表达水平(突变和/或多态性存在于基因的启动子区的情况)或例如蛋白功能(突变和/或多态性存在于基因的蛋白编码序列的情况)相当大比例残余偏离的那些突变和/或多态性。

有利地，本发明的方法可用于预测，从而随后获得超高(super-maximal)或次低(sub-minimal)的单倍型，它们可以有效作为例如随后试验方案的实验对照。

这里描述了鉴定引起所研究的相当大比例表型的突变和/或多态性其它方法并且组成本发明的各个方面和/或实施方案。

根据本发明的更多方面，这里描述了单核苷酸多态性(SNPs)形式的重要的突变和/或多态性，它是至少一个所选择表型的主要决定因素。

更具体地说，这些SNPs可以位于至少一个所选择基因的近侧启动子，因此可以确定相应蛋白的表达水平，和个体可能的选择表型。

由此可见这些SNPs或SNPs的该亚组的知识在诊断技术中具有实用性。

根据本发明的另一方面，提供了检验有效作为个体至少一个表型的指示的单倍型的检测方法，该检测方法包括步骤：

(a)从待检测个体获得遗传物质的检测样品，所述物质至少包括选择的基因或其片段；和

(b)分析所述基因或其片段的核苷酸序列，查看该基因内的任何一个或多个SNP位点是否存在任何单核苷酸多态性；

(c)如果所述SNPs存在，鉴定它们并使用上述方法对它们进行分析。

本领域技术人员将认识到在前方法可以在基因的一个或多个区域处或内进行，为了确定启动子内多态性变异的作用，可以在N末端，或者为了确定多态性变异对蛋白的作用，可以在编码区内。

此外，本发明的方法在确定超高和次低单倍型中有用，因此根据另一方面，本发明也包括至少一个基因的超高和/或次低单倍型的鉴定。

在这里给出的实例中，生长激素基因的超高单倍型由下列编码序列限定：AGGGGTTAT-ATGGAG，处于相对于GH1基因转录起始位点的SNP-476、-364、-339、-308、-301、-278、-168、-75、-57、-31、-6、-1、+3、+16、+25、+59。相反，次低单倍型由相同位点的下列编码序列限定：AG-TTTTGGGGCCACT。

根据本发明的另一方面提供了由上述方法鉴定的至少一个单倍型，具体地说，提供了所述单倍型在诊断或治疗给定疾病中或在开发超表达蛋白中的用途。

这里提及的术语超表达包括给定蛋白相对于野生型过表达。

现在通过下列信息描述本发明的方法，其涉及进行鉴定各种单倍型的材料和方法，提供它们的划分，和估计它们的功能重要性。

附图简述

图1：在不同板上测定的阴性对照的GH1基因启动子表达(a)，和野生型单倍型(1)的标准化的表达水平，显示为野生型的多个板式平均表达水平(b)。

图2：16个SNPs在GH1启动子中相对于转录起始位点的位置(用箭头表示)。阴影线盒代表外显子1。也示出了转录因子、核因子1(NF1)、Pit-1和维生素D受体(VDRE)的结合位点的位置，TATA盒和翻译起始密码子(ATG)。

图3：40个GH1单倍型相对于野生型(单倍型1)的标准化的表达水平。与萤光素酶报道基因表达水平显著降低(与单倍型1相比)有关的单倍型用阴影线棒表示。与萤光素酶报道基因表达水平显著增加(与单倍型1相比)有关的单倍型用实心棒表示。单倍型以流行降序排列。

图4：与用k SNPs(阴影棒)的单倍型划分有关的标准化的表达水平的最小相对残余偏离δ_R(∏_k，min)。虚线曲线描述包括最小-δ_R-划分∏_k，min的单倍型数量。

图5：最小偏离中间树(minimum deviance intermediate trees)的大小和交叉证实(cross-validated)δ_R值之间的关系，使用六个选择的SNPs(编号1、6、7、9、11和14)。点(水平)虚线相当于完全增长树的交叉证实δ_R的一个SE；破折号(垂直)虚线表示完全增长树的一个SE内存在交叉证实δ_R的最小的树。

图6：使用六个选择的SNPs(编号1、6、7、9、11和14)，通过二元回归单倍型划分获得的GH1基因启动子表达的回归树。结点(node)上的数字是指拆分各个结点的SNPs。终止结点(“叶”)描述为正方形并从左至右编号。

图7：连接154名男性白种人中观察到至少8次的七个单倍型(圆)的“降低中值网(reduced median network)”。每一圆的尺寸与对照样品中各个单倍型的频率成正比。已经包括单倍型H12和H23作为连接结点，尽管它们分别仅仅观察到5和2次。每一分支旁边给出单倍型不同的SNPs。暗点标出了未观察到的单倍型或在SNP位点4和5双突变。

图8：电泳迁移率变动(EMSA)分析揭示的GH1启动子SNP等位基因之间蛋白结合能力的差异。箭头表示等位基因特异性相互作用蛋白。箭头尖表示Pit-1样结合蛋白的位置。-ve(阴性对照)、+ve(阳性对照)、S(特异性竞争物)、N(非特异性竞争物)、P(Pit-1共有序列)、P*(催乳激素基因Pit-1结合位点)、TSS(转录起始位点)。

材料和方法

人类受试者

从取自未经选择身高的154名白种人来源的男性英国军队新兵的淋巴细胞获得DNA样品。124名这些个体的身高数据已知(平均值1.76±0.07m)并发现身高分布为正态(Shapiro-Wilk统计W＝0.984、p＝0.16)。从当地多区域道德委员会获得了这些研究的伦理批准。

聚合酶链式反应(PCR)扩增

使用寡核苷酸引物GH1F(5’GGGAGCCCCAGCAATGC 3’；-615至-599)和GH1R(5’TGTAGGAAGTCTGGGGTGC 3’；2598至2616)[相对于转录起始位点+1(GenBank登记号J03071)来编号]进行3.2kb GH1基因特异性片段的PCR扩增。用LCR5A(5′CCAAGTACCTCAGATGCAAGG3′；-315至-334)和LCR3.0(5′CCTTAGATCTTGGCCTAGGCC 3′；1589至1698)PCR扩增GH1 LCR的含有位点I和II的1.9kb片段[LCR序列是从GenBank登记号AC005803获得，同时LCR编号遵循Jin等1999；GenBank(登记号AF010280)]。两个反应的条件相同；简言之，使用Expand^TM高保真系统(Roche)扩增200ng淋巴细胞DNA，使用98℃2分钟的热启动，随后95℃3分钟，30个循环的95℃30秒，64℃30秒，68℃1分钟。对于最后20个循环，每个循环增加5秒68℃延伸步骤。这之后是68℃进一步孵育7分钟。

克隆和测序

最初，不克隆直接对PCR产物进行测序。使用引物GH1S1(5’GTGGTCAGTGTTGGAACTGC 3’：-556至-537)从3.2kb GH1特异性PCR片段对GH1基因的近侧启动子区进行测序。使用引物LCR5.0(5′CCTGTCACCTGAGGATGGG3′；993至1011)、LCR3.1(5′TGTGTTGCCTGGACCCTG3′；1093至1110)、LCR3.2(5′CAGGAGGCCTCACAAGCC3′；628至645)和LCR3.3(5′ATGCATCAGGGCAATCGC3′；211至228)对1.9kb GH1 LCR片段进行测序。使用BigDye v2.0(Applied Biosystems)和ABI Prism 377或3100DNA测序仪进行测序。在启动子区或LCR变异体的杂合子的情况下，测序前合适的片段克隆入pGEM-T(Promega)。

萤光素酶报道基因表达载体的构建

用引物GHPROM5(5′AGATCTGACCCAGGAGTCCTCAGC3′；-520至-501)和GHPROM3A(5′AAGCTTGCAGCTAGGTGAGCTGTC 3′；44至62)或GHPROM3C(5′AAGCTTGCCGCTAGGTGAGCTGTC 3′；44至62)，根据该单倍型+59位置的碱基，40个不同的GH1近侧启动子单倍型(表1)的各个实例被PCR扩增为582bp片段。为了促进克隆，全部引物具有添加到其5′末端的部分或全部非模板限制性核酸内切酶识别序列(在上面以粗体表示)；BglII(GHPROM5)和HindIII(GHPROM3A和GHPROM3C)。然后PCR片段克隆入pGEM-T。起初用HindIII(New England Biolabs)消化质粒DNA并用绿豆核酸酶(New England Biolabs)去除5′突出端。用BglII(New England Biolabs)消化而释放启动子片段并凝胶纯化。NcoI(New England Biolabs)消化制备萤光素酶报道基因载体pGL3Basic并用绿豆核酸酶去除5′突出端。然后用BglII(New EnglandBiolabs)消化该载体并凝胶纯化。限制性启动子片段克隆入萤光素酶报道基因载体GL3 Basic。使用引物RV3(5′CTAGCAAAATAGGCTGTCCC3′；4760至4779)、GH1SEQ1(5′CCACTCAGGGTCCTGTG 3′；27至43)、LUCSEQ1(5′CTGGATCTACTGGTCTGC 3′；683至700)和LUCSEQ2(5′GACGAACACTTCTTCATCG 3′；1372至1390)分离(Qiagen midiprepsystem)质粒DNA(pGL3GH系列)并测序以确保GH1启动子和萤光素酶基因序列正确。也通过用NcoI和BglII限制性酶切pGL3GH1(单倍型1)，随后平末端化(blunt-ending)/连接以除去SNP位点1-5而制备截短GH1近侧启动子构建体(-288至+62)。

通过定点诱变(SDM)[定点诱变试剂盒(Stratagene)]以产生预测的超高单倍型(AGGGGTTAT-ATGGAG)和次低单倍型(AG-TTGTGGGACCACT和AG-TTTTGGGGCCACT)而制备人工的近侧启动子单倍型报道基因构建体。

为了制备LCR近侧启动子融合构建体，用BglII限制性酶切1.9kbLCR片段，所得1.6kb片段克隆入pGL3中就在582bp启动子片段上游的Bg1II位点。三个不同的LCR单倍型克隆入pGL3Basic，位于分别含有“高表达启动子单倍型”(H27)、“低表达启动子单倍型”(H23)和“标准表达启动子单倍型”(H1)的三个GH1近侧启动子构建体之一的5′端而产生总共九个不同的LCR-GH1近侧启动子构建体(pGL3GHLCR)。然后分离(Qiagen midiprep)质粒DNA并使用合适的引物检查序列。

萤光素酶报道基因试验

在缺乏表达生长激素的人垂体细胞系下，选择大鼠GC垂体细胞(Bancroft 1973；Bodner and Karin 1989)进行体外表达实验。大鼠GC细胞在含有15％马血清和2.5％胎牛血清的DMEM中生长。人HeLa细胞在含有5％胎牛血清的DMEM中生长。两个细胞系都在37℃、5％CO₂下生长。使用Tfx^TM-20(Promega)以96孔板规格进行脂质体介导的GC细胞和HeLa细胞的转染。从培养瓶中移出融合的细胞，用新鲜培养基稀释并铺入96孔板，使得随后几天达到～80％融合。

转染混合物含有无血清培养基、250ng pGL3GH或pGL3GHLCR构建体、2ng pRL-CMV和0.5μl Tfx^TM-20试剂(Promega)，每孔总体积90μl。1小时后，向每孔添加200μl完全培养基。转染后，细胞在37℃、5％CO₂下培养24小时，之后裂解进行报道试验。

使用双萤光素酶报道试验系统(Promega)进行萤光素酶试验。在微板发光计(Applied Biosystems)上进行试验，然后对Renilla活性标准化。在三个独立板上，以每板六次重复(即总共18个独立测定)分析每一构建体。对于近侧启动子试验，每板包括阴性(无启动子的pGL3Basic)和阳性(含有SV40启动子的pGL3)对照。对于LCR分析，含有近侧启动子但缺乏LCR的构建体用作阴性对照。

电泳迁移率变动分析(EMSA)

对一起覆盖了全部16个SNP位点(表2)的双链寡核苷酸进行EMSA。如Berg等(1994)所述制备来自GC和HeLa细胞的核提取物。用[γ-³³P]-dATP放射性标记寡核苷酸并在凝胶电泳后用放射自显影方法检测。含有终浓度20mM Hepes pH7.9，4％甘油、1mM MgCl₂、0.5mM DTT、50mM KCl、1.2μg HeLa细胞或GC细胞的核提取物、0.4μgpoly[dI-dC].poly[dI-dC]、0.4pM放射性标记的寡核苷酸、40pM未标记的竞争寡核苷酸(过量100倍)的EMSA反应物是合适的，总体积10μl。EMSA反应物在冰上孵育60分钟并于4％PAGE凝胶上，100V电泳45分钟，然后放射自显影。对于每一反应，双链未标记的测试寡核苷酸用作特异性竞争物，同时来源于NF1基因启动子(5’CCCCGGCCGTGGAAAGGATCCCAC 3’)的寡核苷酸用作非特异性竞争物。相当于人催乳激素(PRL)基因Pit-1结合位点(5’TCATTATATTCATGAAGAT 3’)和Pit-1共有序列结合位点(5’TGTCTTCCTGAATATGAATAAGAAATA 3’)的双链寡核苷酸用作蛋白结合SNP8个位点的特异性竞争物。

引物延伸试验

进行引物延伸试验以证实含有不同SNP单倍型的构建体利用相同的转录起始位点。引物延伸遵循Triezenberg等(1992)的方法。

数据标准化

阴性对照(无启动子的pGL3 Basic)的表达测定显示各板之间的相当大的差异(图1a)。为了校正基线表达和板作用的数据，从相同板上所有其它活性值减去给定板上阴性对照的平均活性。然后计算每板上近侧启动子单倍型1(H1)的平均(板校正的)活性，并用相同板上所有其它单倍型相关活性除以这个值。这两个转换确保了阴性对照活性等于零，同时H1的平均活性相一致，与板数无关。因此所得活性值可以解释为与H1相比的倍数改变，经基线和板作用两种校正。既然转换后没有检测到显著的板作用，那么组合各板的数据。图1b中阐明了H1的这个标准程序结果。与分析近侧启动子单倍型使用的类似程序也用于LCR-启动子融合构建体表达数据，单倍型A用作参照单倍型。

统计分析

用Shapiro-Wilk统计(W)在SAS统计分析软件(SAS InstituteInc.，Cary NC，USA)的程序UNIVARIATE中执行来检测近侧启动子单倍型的标准表达水平与高斯分布(Gaussian distribution)的曲线适合度。多重(即40倍)检验调节显著性估计，设置p_临界＝0.05/40≈0.001。使用这个标准，发现两个启动子单倍型的表达水平显著不同于高斯分布，即H21(W＝0.727，p＝0.0002)和H40(W＝0.758，p＝0.0004)。对于另外38个单倍型，认为表达水平与标准一致，并因此使用Tukey′sstudentized范围检验(SAS程序GLM)接受配对比较。使用Wilcoxon秩和(rank sum)统计(SAS程序NPAR1WAY)的正态近似z进行不同单倍型组之间表达水平的配对比较。

这个研究中分析的SNPs以复合体和高度交互方式发挥对近侧启动子表达的影响。此外，由于连锁不平衡，发现与个体多态性有关的表达水平强烈相互依懒。因此预期大量的观察到的表达水平变异将归因于多态性位点的小亚组的变异。为了正式评估SNPs之间相关结构，和能够鉴定用于进一步研究的重要多态性的合适亚组，计算近侧启动子SNPs的全部可能亚组的单倍型划分的残余偏离。

对于一组数据的给定划分{1...m}＝∏＝π₁∪...∪π_k指出x₁，...，x_m，和如果i∈π_j，π(i)＝j，∏的残余偏离δ定义为

δ = δ (Π) = Σ_{i = 1}^{m} {(χ_{i} - {\overset{&OverBar;}{χ}}_{π (i)})}^{2} .

当数据组根本没有划分时，那么δ＝δ(∏₀)＝421.7，任何其它划分∏的相对残余偏离定义为δ_R(∏)＝δ(∏)/δ(∏₀)。

鉴定了六个SNPs(编号为1，6，7，9，11和14；见下)导致表达水平的相当大比例(～60％)的残余偏离，同时激发相对少的单倍型变异。通过使用统计学软件R用二元回归划分(Ihaka and Gentleman 1996)构建的回归树(regression tree)进一步分析这些SNPs的统计学相互依赖性。在树构建方法中，SNPs各个地用作每一结点(node)的预测变量，以选择反应变量(即标准近侧启动子表达)方面两个最均一的单倍型亚组。选择用来引入新拆分口(split)的结点和SNP，使得由所得中间树的终止结点(“叶”)定义的划分的R减到最小。继续这个方法直到全部叶对应于各个单倍型(“完全增长树(fully growntree)”)。用10倍交叉证实估计每步的δ_R估计的可靠性并计算标准误(SE)。

使用SAS软件包的CANCORR程序对所研究的124名身高已知个体进行身高和近侧启动子体外表达水平回归分析。让μ_nor，h1和μ_nor，h2表示给定个体携带的两个单倍型的平均标准表达水平。H1不纯合个体(n＝109)的身高示范为

身高＝

α_{0} + α_{1} \cdot \frac{μ_{nor, h 1} + μ_{nor, h 2}}{2} + α_{2} \frac{\cdot μ_{nor, h 1}^{2} + μ_{nor, h 2}^{2}}{2} + α_{3} \cdot μ_{nor, h 1} \cdot μ_{nor, h 2}

并计算决定系数(coefficient of determination)r²。

构建在154名研究个体中观察到至少8次的七个启动子单倍型(H1-H7)的降低中值网(reduced median network)(Bandelt等1995)。

连锁不平衡分析

使用Morton等(2001)为双等位基因位点设计的参数ρ估计从总共154名研究个体中随机选择的100名个体的启动子SNPs之间和SNPs和LCR单倍型之间的连锁不平衡(LD)。当ρ＝1相当于表明完全LD的两个位点时，ρ＝0表明完全缺乏LD。发现在该群体样品(杂合性iY5％)中仅仅八个SNPs的充分多态性足以有理由纳入。由于其完好的SNP4的LD(仅存在两个配对单倍型)，SNP5被排除。使用内部(in-house)执行预期极大(EM)算法获得了LD分析所需的组合LCR-近侧启动子单倍型频率的最大似然估计。

结果

近侧启动子多态性频率和单倍型

已经报道了GH1基因启动子区在535bp片段内含有16个多态性核苷酸(表3；Giordano等1997；Wagner等1997)。为了便于鉴定这些SNPs编号为1-16(图2)。在154名英国男性白种人研究中，发现这些SNPs中有15个(除编号2之外的全部)具有多态性(小等位基因频率0.003至0.41；表3)。16个位置的变异归于总共36个不同的启动子单倍型(表1)。因此单倍型1(H1)可以描述为16个碱基(GGGGGGTATGAAGAAT)的序列，代表从-476至+59的16个SNP位置。对于H1，此后称为“野生型”，36个启动子单倍型的频率从0.339至0.0033(编号25-36)变化(表1)。作为显示矮小身高的4个个体的独立研究，发现了另外4个单倍型(编号37-40)(表1)。这些单倍型是该研究组中所没有的，但是为了完整性，包括在随后的分析中。

近侧启动子单倍型和相对启动子强度

通过体外报道基因试验研究40个启动子单倍型并发现它们驱动大鼠垂体细胞中萤光素酶基因表达的能力不同(表4)。发现表达水平在12倍的范围内变化，最低表达单倍型(编号17)显示野生型的30％的平均水平，而最高表达单倍型(编号27)显示野生型的389％的平均水平(表4)。与H1相比，十二个单倍型(编号3、4、5、7、11、13、17、19、23、24、26和29)与萤光素酶报道基因表达水平显著降低有关。相反，与H1相比，总共10个单倍型(编号14、20、27、30、34、36、37、38、39和40)与萤光素酶报道基因表达水平显著增加有关(表4)。引物延伸试验显示了含有不同SNP单倍型的构建体，利用相同的转录起始位点(数据未显示)。发现HeLa细胞中报道基因构建体的表达比GC细胞低1000倍(数据未显示)。

图3用图表方式呈现了40个不同的GH1启动子单倍型的体外表达水平。很明显低表达单倍型趋势更频繁发生，而高表达单倍型趋向较不频繁发生(Wilcoxon P＜0.01)。由于这些发现暗示选择的作用，因此在各个SNPs水平寻找选择作用。对于这里研究的15个SNPs，发现对照中的平均表达水平(用单倍型频率来衡量)和罕见等位基因的频率是正相关(Spearman等级相关系数，r＝0.32)。如果SNP7作为逸出值(outlier)(它具有与罕见等位基因有关的特别高的表达水平)被排除的话，那么r＝0.53，单因素p＜0.05。

与缺乏SNPs 1-5的截短启动子构建体有关的体外表达水平是野生型(单倍型1)的102±5％。因此可能推论SNPs 1-5可能对GH1基因表达具有有限的直接影响。

发现与各个SNPs有关的表达水平强烈相互依赖。因此以得以鉴定不相称地(disproportionately)有助于体外表达水平中观察到的变异的关键多态性位点亚组的方式进行了划分表达数据的尝试。对包括所有的16个SNPs的全部单倍型进行划分产生了δ_R(∏₁₆)＝0.245的相对残余偏离。这可以通过24.5％的表达水平变异不是单倍型变异引起来解释。对于1≤k＜16，最小-δ_R-划分∏_k，min定义为产生最小相对残余偏离δ_R的具有k个SNPs的单倍型划分。图4描述了k和δ_R(∏_k，min)之间的关系，连同包括∏_k，min的单倍型数量。k＝6和k＝7之间质的差异很明显，因为与∏_k，min有关的单倍型数量从13增加至22，而δ_R(∏_k，min)仅少量降低[δ_R(∏_6，min)＝0.397与δ_R(∏_7，min)＝0.371]。因此得出结论限定∏_6，min的SNP1、6、7、9、11和14代表进一步分析的关键多态性的良好选择。剩余的SNPs中，六个(编号3、4、8、10、12和16)将被分类为“无关紧要信息型(marginally informative)”。这些标记与六个关键SNPs组合一起限定观察到的40单倍型中的39个，并事实上解释所有可解释的偏离(deviance)(δ_R(∏_12，min)＝0.245)。另外四个SNPs(编号2、5、13和15)在标准体外表达水平方面是“无信息型”，因为在我们的样品中它们是单态性(编号2)，或与其它标记处于完好(编号5和13)或近似完好(编号15)的连锁不平衡。

接下来使用一系列连续增长(即嵌套)回归树估计六个关键SNPs的相关结构。遵循回归树分析惯例(Therneau和Atkinson 1997)，选择具有完全增长树的交叉验证δ_R一个SE内的最小中间树作为代表性的划分(图5)。发现这个“最佳”树包括10个内部和11个终止结点(图6，表5)。该树的相对残余偏离等于δ_R＝0.398，因此解释了通过单倍型划分可解释的(1-0.397)/(1-0.245)≈80％的偏离。

一个最重要的拆分口是通过SNP7，它自己本身引起15％的可解释的偏离。携带这个SNP的C等位基因的四个单倍型定义均一的亚组(叶11)，平均标准表达水平比H1高1.8倍。携带SNP7的T等位基因的单倍型被SNP9进一步细分(sub-divided)，具有等位基因T的这个多态性比等位基因G(μ_nor＝0.84；Wilcoxon z＝7.09，p＜0.001)引起更高的表达(μ_nor＝1.26)。所得nnTTnn单倍型被SNP6(G/T)拆分，nGTTnn形成包括野生型单倍型H1的终止结点(叶8)。有趣的是，nTTTnn单倍型，当被SNP11细分时，显示表达水平有惊人的差异。发现nTTTGn是低表达者(μ_nor＝0.64)，而单倍型nTTTAn显示最高平均表达(μ_nor＝3.89；Wilcoxonz＝5.11，p＜0.001)。

SNPs7和9的单倍型nnTGnn被SNPs14和1细分，所得单倍型中的三个形成终止结点(叶1、6和7)。第四个单倍型，GnTGnA是中间表达者(μ_nor＝0.86)，其被SNPs11和6进一步拆分。有趣的是，仅仅SNP14和1等位基因一个特殊的组合在SNP7和9nnTGnn背景上引起表达增加(AnTGnG，叶7，μ_nor＝1.83)。当考虑单倍型GnTGnA时，对于SNPs6和11也注意到类似的表达的非累加效应：而SNP11等位基因A与SNP6等位基因T组合与比G更高的表达有关(GTTGAAμ_nor＝1.18对GTTGGA μ_nor＝0.74；Wilcoxon z＝7.09，p＜0.001)，相反的情况与SNP6等位基因G组合(GGTGAA μ_nor＝0.74对GGTGGA μ_nor＝1.04；Wilcoxon z＝5.28，p＜0.001)也如此。

单倍型多样性的进化

在本研究中发现15个GH1基因启动子具有多态性，基因转换潜在解释在14个位置可替换的等位基因，因为它们与在四个共生同源人基因中至少一个的类似位置中的那些相同(表3)。与10个其它哺乳动物的直向同源生长激素(GH)基因启动子序列比较揭示人GH1基因的核苷酸位置-75、-57、-31、-6、+3、+16和+25(相当于包括SNPs8-15)中的最常见等位基因在哺乳动物进化过程中严格保守(Krawczak等1999)。有趣的是，人GH1基因中的-1位置最罕见的三个可替换等位基因(SNP12)与哺乳动物直向基因中严格保守的那些相同。

“降低中值网(reduced median network)”(图7)揭示野生型单倍型H1不通过单一突变事件直接与其它常见单倍型相联系。第二个最常见的单倍型H2通过H23和H12与H1相联系，而第三个最常见的单倍型H3，通过非保守单倍型或双突变与H1相联系。由于每一单倍型观察的数量少，认为以致引入更多单倍型的这个网的扩充不可靠。此外，该网的扩充将需要多个单一碱基对取代的引入。由于这些不能与预先存在的单倍型之间的系列循环基因转换区分开来，这个网所得的距离(distance)将不太可能反映真正的进化关系。然而，这可以安全假定为图7所述网的情况，其中连接七个最常见的单倍型，因为每一突变仅发生一次。

注意到大多数SNPs存在随物理距离连锁不平衡的普遍下降，伴有一些显著的例外(表6)。因此，发现SNP9与其它SNPs有强烈的LD，包括显示出与所有其它近侧启动子SNPs相比较弱的LD的SNP16。这个发现提示SNP9的起源相对较晚。然而，发现SNP10与SNP12而不是与SNP11具有完好的LD(ρ＝0.381)，而SNP8与SNP11比与SNP10具有更强的LD(ρ＝0.925对0.687)。这些反常发现提示近侧启动子SNPs当中LD的现存模式不太可能仅仅通过随距离重组衰退而产生，而是可能反映其它机制的作用如频发突变、基因转换或选择。

超高和次低单倍型的预测和功能测试

基于由单倍型依赖性近侧启动子表达数据获得的“最佳的”回归树，对预测表达水平方面的潜在“超高”和“次低”单倍型进行了尝试。为此，选择六个关键SNPs的等位基因考虑树的合适叶的平均表达水平(表5)。确定剩余SNPs的等位基因，以便分别最大化或最小化各个SNPs的表达。因此，对于预测的超高单倍型，SNPs6、7、9和11的等位基因作为叶10，而SNPs1和14的等位基因作为叶7。选择次低单倍型代表叶1(SNPs1、7、9和14)。然而SNPs6和11的等位基因的最佳选择有些不明确，因为叶2(提示等位基因T和G)和4(提示等位基因G和A)预测了类似低的平均表达水平。因此，决定产生两个构建体进行体外测试。剩余SNPs的假定单倍型的完成产生了

超高单倍型AGGGGTTAT-ATGGAG和

次低单倍型AG-TTGTGGGACCACT、AG-TTTTGGGGCCACT。

然后构建这三个人工单倍型并在大鼠垂体细胞表达，分别产生与野生型(单倍型1)相比145±4、55±5和20±8％的表达水平。

迁移率变动(EMSA)分析揭示的SNP等位基因之间的差异

使用大鼠垂体细胞作为核内蛋白来源，对所有等位基因变异体的所有近侧启动子SNP位点进行EMSAs。在位点-168、-75、-57、-31、-6/-1/+3和+16/+25注意到蛋白相互作用条带(表7)。在位点-75(SNP8)、-57(SNP9)、-31(SNP10)、-6/-1/+3(SNPs11、12、13)和+16/+25(SNPs14、15)注意到蛋白相互作用条带数量的等位基因内差异[图8；表7]。在后两个位点的情况下，特异性SNP等位基因组合上的EMSA分析提示差异蛋白结合可分别归因于SNP位点12和15的等位基因变异(表7)。当使用HeLa细胞提取物重复分析时，仅仅位置-57显示蛋白质相互作用证据，而且仅仅是G等位基因，不是T等位基因(数据未显示)。利用对应于两个不同的Pit-1结合位点的寡核苷酸的竞争实验结果与是Pit-1的两个SNP8相互作用蛋白一致(图8)。然而，剩余未受影响的等位基因-特异性蛋白质相互作用暗示包括的另一个蛋白不是Pit-1。

启动子单倍型体外表达和体内身高材间的关联

尝试将单倍型特异性的GH1近侧启动子的体外表达与124名男性白种人的成年人身高关联起来。每一单倍型归于其来自标准体外表达数据的平均表达值(表4)并计算每一个体的两个单倍型的平均A_x＝(μ_nor，h1+μ_nor，h2)/2。从分析中排除H1纯合的个体，因为它们的A_x值(1.0)不会有助于任何构成原因的变异。这得到具有合适基因型的109名身高已知个体的样品(表8)。与A_x值超过和低于中值(0.9)相比，当身高超过和低于中值(1.765m)时，暴露出身高和GH1近侧启动子单倍型有关体外表达的证据(χ²＝4.846，1d.f.，P＝0.028)。虽然如此，使用二次幂多项式的回归分析证明了两个μ_nor值它们自身是相对差的身高预测者。由于决定系数(coefficient of determination)是r²＝0.025，可能推断大约2.5％的身高变异由参考GH1基因近侧启动子单倍型体外表达解释。

基因座控制区(LCR)多态性和近侧启动子强度

在随机选自该研究组的100名个体筛选中，在GH1 LCR的位点I和II内发现三个新的多态性变化(垂体特异性表达GH1基因所需；Jin等1999)。这些位于核苷酸位置990(G/A；0.90/0.10)、1144(A/C；0.65/0.35)和1194(C/T；0.65/0.35)[按Jin等1999编号]。1144和1194位的多态性处于总连锁不平衡，并观察到三个不同的单倍型：单倍型A(990G，1144A，1194C；0.55)、单倍型B(990G，1144C，1194T；0.35)和单倍型C(990A，1144A，1194C；0.10)。

为了确定三个LCR单倍型是否对下游GH1基因的表达发挥差异作用，构建很多不同的LCR-GH1近侧启动子构建体。三个可替换1.6kb含LCR片段克隆入pGL3，就在三个不同类型的近侧启动子单倍型上游，即“高表达启动子”(H27)、“低表达启动子”(H23)和“标准表达启动子”(H1)，共产生九个不同的LCR-GH1近侧启动子构建体。然后这些构建体在大鼠GC细胞和HeLa细胞中表达，并测定所得萤光素酶活性。在GC细胞中，与单独近侧启动子相比，LCR的存在增强表达高达至2.8倍(表9)。然而，这个诱导效应的程度依赖于连接的启动子单倍型。双因素方差分析(表10)揭示了两个主要作用和启动子^*LCR相互作用显著，主要影响由近侧启动子发挥。表9中还包括在95％显著性水平的Tukey studentized范围检验的结果，每一启动子单倍型逐一进行。连同启动子单倍型1，LCR单倍型A的活性显著不同于N的活性(含有近侧启动子但缺乏LCR)，而不是显著不同于LCR单倍型B和C的活性；LCR单倍型B和C彼此以及与N有显著差异。然而，对于启动子27，发现LCR单倍型之间无显著性差异。在HeLa细胞中，任何近侧启动子单倍型都没有注意到LCR介导的表达诱导(数据未显示)。

由于LCR和近侧启动子SNPs之间的物理距离太大而不允许连接物理单倍型，因此使用来自包括在近侧启动子的SNP LD间分析中的100名个体的基因型数据，用最大似然法估计它们之间的连锁不平衡(LD)。发现除了SNP16的所有SNPs的启动子SNPs和LCR单倍型之间配对(pair-wise)LD是高的(表6)。因此可以推断SNP16在SNP9发生前常遭受频发突变，SNP9是发现与SNP16强烈连锁不平衡的唯一SNP。LCR单倍型之间的实质差异存在于它们与SNPs4、8和16的LD方面(表6)，提示LCR单倍型B与单倍型A相反，具有相对年轻的年龄。

在我们的研究中，我们已经确定了GH1基因的近侧启动子内16个SNP位置中的15个发生的变异证明其本身有总共40个不同的启动子单倍型。发现12个单倍型与单倍型1相比与萤光素酶报道基因表达水平显著降低有关，而10个单倍型与水平显著增加有关。我们的数据表明可归因于GH1基因启动子的多态性变异(2.5％)的成年人身高变异性的常规估计可能保守并认为最小。

从我们的研究组观察到的单倍型频率，可以预料正常群体大约8.2％具有过低的GH1近侧启动子单倍型表达(相同或不相同)，其与体外GH产量有关，该产量等于或小于野生型产量的50％。

在生长激素基因的近侧启动子区已经鉴定了各种顺式作用调节序列。这些因素中的一些可以协同发挥它们的作用，而其它的看来以互相排斥方式结合启动子基序。GH1基因启动子区的检查提示15个SNPs中的一些位于转录因子结合位点内(图)。因此，聚集在转录起始位点周围的三个SNPs(SNPs11-13)，一个存在于与TATA盒相邻的近侧VDRE的3’末端(SNP10)，一个处于远端VDRE内(SNP9)，一个处于近侧Pit-1结合位点内(SNP8)和一个处于NF1结合位点内(SNP6)。截短启动子构建体的表达分析与SNPs1-5对GH1基因表达的有限影响一致。

单倍型划分鉴定了6个SNPs(编号1、6、7、9、11和14)作为GH1基因表达水平的主要决定因素，另外6个SNPs是无关紧要的信息型(编号3、4、8、10、12和16)。EMSA分析研究了所有16个SNPs的功能重要性，表明GH1近侧启动子中的6个多态性位点与核酸结合蛋白相互作用；这些位点中5个位点[SNP8(-75)、9(-57)、10(-31)、12(-1)和15(+25)]的可替换等位基因显示有差异的蛋白结合。

我们的研究也集中于预测在表达水平方面潜在的超高和次低单倍型。当测试时，一个次低单倍型确实显示出比任何天然存在单倍型更低水平的表达，这是表明这里所述单倍型划分方法的功效的结果。

我们假设GH1基因启动子强度的单倍型依赖性差异的分子基础因此可以在于多个转录因子与它们的同源结合位点的可替换形式的差异结合的净效果。这些位点的可替换形式不同，由于它们含有各种SNPs的不同等位基因，但是组合构成启动子单倍型的观察到的排列。人基因的转录活化是由转录因子与基因启动子上它们的同源结合位点的不同组合和改变(permutation)而介导的。一些转录因子通过顺式作用DNA序列基序直接协调，其它的通过蛋白-蛋白相互作用间接协调，其中已经被比作三维拼图玩具(jigsaw puzz1e)：DNA序列基序提供拼图模板，转录因子组成拼图块。启动子的这个模块观察有助于任何人想象给定单倍型中不同SNP组合的作用如何被转移(transfused)，以致对转录因子结合、transcriptosone装配和由此对基因表达发挥差异作用。因此，例如，观察到的GH1启动子SNPs对基因表达的非累加效应可以通过给定蛋白在1SNP位点的等位基因-特异性差异结合依次影响第二个蛋白在本身常进行等位基因特异性蛋白结合的另一个SNP位点的结合来了解。

在我们的研究中，LCR片段用来增强GH1近侧启动子的活性高达2.8倍，尽管发现增强的程度依赖于连接的近侧启动子单倍型的特性。相反，也发现给定单倍型的近侧启动子活性的增强依赖于LCR单倍型的特性。总之，这些发现暗示GH1基因表达内个体间差异的遗传基础可能极其复杂。

因此，我们的结果证明了单倍型在预测核酸分子功能中的重要性和因此代表遗传资料分析的有效阶段。

表1.

16个位置的遗传变异定义的GH1近侧启动子单倍型

No. SNP相对于GH1基因转录开始位点的位置 n-476 -364 -339 -308 -301 -278 -168 -75 -57 -31 -6 -1 +3 +16 +25 +59
	1 G G G G G G T A T G A A G A A T 103
2 G G G G G T T A G G G A G A A T 503^§ G G G T T G T A G G A A G A A T 284^§ G G G T T G T A G - A A G A A T 165^§ G G G G G T T G G G G A G A A T 136 G G G T T G T A G - A A G A A G 97^§ G G G G G T T A G G G T G A A T 88 G G G T T G T A G G G A G A A T 69 G G G G G T T A T G G A G A A T 610 G G G T T G T A G - G A G A A T 611^§G G G G G T T G G G G A G G C T 512 G G G G G T T A G G A A G A A T 513^§G G - G G T T G G G G A G A A T 514 G G G G G T C A G G G T G A A T 515 G G G T T G T A G G G T G A A T 416 G G G G G T T G G G A A G A A T 417^§G G - G G T T A G G G A G A A T 418 G G G G G T T A G - G A G A A T 319^§A G G G G T T A G G G A G A A T 320 G G G G G G T A G - A A G A A T 321 G G G G G T T G G G G A G A A G 322 G G G T T G T A T G A A G A A T 323^§G G G G G G T A G G A A G A A T 224^§G G G T T G T G G - A A G A A T 225 G G G T T G T A G G A A G A A G 126^§G G G G G T T G G G G T G A A T 127 G G G G G T T A T G A A G A A T 128 G G G G G T T A G - A A G A A T 129^§A G G G G T T A G G A A G A A T 130 G G - G G T T A G G A A G A A T 131 G G G G G T T G G - G A G A A T 132 G G G T T G T G G G G A G A A G 133 G G G G G T T A G G G A G G C T 134 G G - G G T C A G G G T G A A T 135 G G G G G G T A G G A C C A A T 136 G G G G G T T A G G G T G A A G 137^$ A G G G G T T A G G G A G G A T 038^$ G G G G G T C A G G A A G A A T 039^$ G G G T T G T A G G G A G A C T 040^$ G G G G G T C A G G G A G A A T 0	1 G G G G G G T A T G A A G A A T 103

n：154名男性英国白种人的频率；§：在GC细胞中显示萤光素酶活性显著降低水平(单倍型1的55％)的单倍型；$：仅仅在GH缺乏的单独病例中发现。-表示所考虑的碱基缺乏。

表2

用于显示等位基因-特异性蛋白结合的SNP位点的EMSA分析的双链寡核苷酸引物序列。SNP位点11-15以不同的等位基因组合进行研究。TSS：转录起始位点。

SNP/等位基因距离TSS 序列5′→3′的位置

8A -89→-61 CCATGCATAAATGTACACAGAAACAGGTGCACCTGTTTCTGTGTACATTTATGCATGG8G CCATGCATAAATGTGCACAGAAACAGGTGCACCTGTTTCTGTGCACATTTATGCATGG9G -72→-42 CAGAAACAGGTGGGGGCAACAGTGGGAGAGATCTCTCCCACTGTTGCCCCCACCTGTTTCTG9T CAGAAACAGGTGGGGTCAACAGTGGGAGAGATCTCTCCCACTGTTGACCCCACCTGTTTCTG10G -45→-15 GAGAAGGGGCCAGGGTATAAAAAGGGCCCACGTGGGCCCTTTTTATACCCTGGCCCCTTCTC10ΔG GAGAAGGGGCCAGGTATAAAAAGGGCCCACGTGGGCCCTTTTTATACCTGGCCCCTTCTC11，12，13 -18→+15 CCACAAGAGACCAGCTCAAGGATCCCAAGGCCCAAG GGGCCTTGGGATCCTTGAGCTGGTCTCTTGTGG11，12，13 CCACAAGAGACCGGCTCAAGGATCCCAAGGCCCGAG GGGCCTTGGGATCCTTGAGCCGGTCTCTTGTGG11，12，13 CCACAAGAGACCGGCTCTAGGATCCCAAGGCCCGTG GGGCCTTGGGATCCTAGAGCCGGTCTCTTGTGG14，15 +4→+37 ATCCCAAGGCCCAACTCCCCGAACCACTCAGGGTAA ACCCTGAGTGGTTCGGGGAGTTGGGCCTTGGGAT14，15 ATCCCAAGGCCCGACTCCCCGCACCACTCAGGGTGC ACCCTGAGTGGTGCGGGGAGTCGGGCCTTGGGAT14，15 ATCCCAAGGCCCGACTCCCCGAACCACTCAGGGTGA ACCCTGAGTGGTTCGGGGAGTCGGGCCTTGGGAT14，15 ATCCCAAGGCCCAACTCCCCGCACCACTCAGGGTAC ACCCTGAGTGGTGCGGGGAGTTGGGCCTTGGGAT

表3：

154名男性白种人的GH1基因启动子中15个SNPs的等位基因频率和GH簇的共生同源(paralogous)基因的类似位置的相应核苷酸

GH1 GH1共生同源基因^§SNP 位置^$ 等位基因频率 GH2 CSH1 CSH2 CSHP1

1 -476 G 304(0.987) A G G AA 4(0.013)3 -339 G 297(0.964) G G G G- 11(0.036)4 -308 G 232(0.753) T C C TT 76(0.247)5 -301 G 232(0.753) T T T TT 76(0.247)6 -278 G 185(0.601) T A A TT 123(0.399)7 -168 T 302(0.981) T C C TC 6(0.019)8 -75 A 273(0.886) G A A GG 35(0.114)9 -57 G 195(0.633) A T T GT 113(0.367)10 -31 G 267(0.867) - G G G- 41(0.133)11 -6 A 181(0.588) A G G AG 127(0.412)12 -1 A 287(0.932) A T T CT 20(0.065)C 1(0.003)13 +3 G 307(0.997) G G G CC 1(0.003)14 +16 A 302(0.981) A A A GG 6(0.019)15 +25 A 302(0.981) A A A CC 6(0.019)16 +59 T 293(0.951) G G G GG 15(0.049)

$：相对于GH1转录起始位点；§：人GH簇中的四个共生同源基因的野生型序列的类似位置的碱基

表4

40个不同的SNP单倍型的体外GH1基因启动子表达分析

单倍型编号 n μ_nor σ_nor Tukey

17 18 0.304 0.054 a----------------3 18 0.324 0.170 a----------------19 18 0.332 0.062 a----------------23 18 0.359 0.042 ab---------------24 18 0.395 0.107 abc--------------11 18 0.406 0.069 abc--------------26 18 0.410 0.181 abc--------------13 18 0.483 0.084 abcd-------------29 18 0.502 0.149 abcd-------------4 18 0.528 0.205 abcde------------5 18 0.536 0.205 abcde------------7 18 O.553 0.154 abcdef-----------21 18 0.577 0.206 *9 18 0.635 0.268 abcdefg----------15 18 0.725 O.271 abcdefgh---------25 18 0.790 O.229 -bcdefghi--------32 18 0.793 0.242 -bcdefghi--------33 18 0.807 0.225 --cdefghi--------35 18 0.809 0.230 --cdefghi--------18 12 0.819 0.217 --cdefghi--------10 18 0.855 0.135 ---defghi--------12 18 0.958 0.357 ----efghij-------16 18 0.988 0.290 -----fghijk------1 90 1.000 0.174 ------ghijk------6 18 1.075 0.404 -------hijkl-----2 18 1.078 0.150 -------hijkl-----31 18 1.208 0.353 --------ijklm----28 18 1.317 0.312 ---------jklmn---8 18 1.333 0.453 ---------jklmn---22 18 1.403 0.380 ----------klmno--30 18 1.447 O.345 -----------lmno--36 18 1.451 0.368 -----------lmno--39 18 1.468 0.653 -----------lmno--20 18 1.600 O.342 ------------mnop-38 18 1.697 0.752 -------------nop-40 18 1.733 1.112 *14 18 1.806 O.386 --------------op-37 18 1.825 0.765 --------------op-34 18 1.997 0.352 ---------------p-27 18 3.890 0.901 ----------------q阴性对照 90 0.000 0.005

n：测定的数量；μ_nor：平均标准表达水平(即与H1相比的倍数改变)；σ_nor：表达水平的标准差；Tukey：Tukey’′s studentized范围检验的结果，具有重叠组字母的单倍型在它们的平均表达水平方面没有统计学差异；*：非高斯分布

表5

GH1基因启动子表达数据的单倍型划分

单倍型^§ 叶^& n_hap n μ_nor σ_nor δ(叶)
单倍型^§ 叶^& n_hap n μ_nor σ_nor δ(叶)	nnCnnn 11 4 72 1.809 0.725 36.27nGTTnn 8 2 108 1.067 0.267 7.62nTTTGn 9 1 18 0.635 0.268 1.22nTTTAn 10 1 18 3.890 0.902 13.82AnTGnA 1 2 36 0.418 0.142 0.71GnTGnG 6 2 36 0.607 0.262 2.39AnTGnG 7 1 18 1.825 0.765 9.95GTTGGA 2 10 174 0.740 0.427 31.54GGTGAA 4 8 144 0.735 0.474 32.16GGTGGA 3 5 90 1.035 0.493 21.66GTTGAA 5 4 72 1.178 0.384 10.47

n_hap：叶中包括的单倍型数量；μ_nor：平均标准表达水平；σ_nor：表达水平的标准差；δ(叶)：叶内的残余偏离；§：以SNP1、6、7、9、11和14的顺序给出的等位基因(n：任何碱基)；&：如图4编号。

表6

100名男性白种人的GH1近侧启动子SNPs和LCR单倍型之间的连锁不平衡，

SNPSNP 4 6 8 9 10 11 12^& 16

4 -.- 1.000 0.802 0.893 0.731 0.554 0.638 0.5676 1.000 -.- 0.927 0.868 0.632 0.891 0.867 0.1118 0.802 0.927 -.- 1.000 0.687 0.925 0.242 0.2519 0.893 0.868 1.000 -.- 1.000 0.905 1.000 1.00010 0.731 0.632 0.687 1.000 -.- 0.381 1.000 0.41511 0.554 0.891 0.925 0.905 0.381 -.- 1.000 0.04412^& 0.638 0.867 0.242 1.000 1.000 1.000 -.- 0.02516 0.567 0.111 0.251 1.000 0.415 0.044 0.025 -.-LCR^$ 4 6 8 9 10 11 12 16A 0.153 0.829 1.000 0.931 0.601 0.782 0.800 0.064B 1.000 0.952 0.922 0.958 0.531 0.873 0.831 0.643C 0.840 0.997 0.491 0.840 0.875 0.482 1.000 0.289

&：发现200个染色中的一条携带SNP12等位基因C；这条染色体从包括SNP12的所有LD分析中排除；$：对于每一LCR单倍型，针对其它两种LCR单倍型的组合计算ρ，因此使LCR转向双等位基因系统。

表7

使用大鼠垂体细胞核提取物，证明在GH1基因启动子中各种SNP位点的等位基因特异性差异蛋白结合的EMSA分析结果

SNP 双链寡核苷酸序列变异蛋白相互作用条带的编号转录因子结合位的位置强中弱点/功能区
SNP 双链寡核苷酸序列变异蛋白相互作用条带的编号转录因子结合位的位置强中弱点/功能区	8 -89→-61 -75A - 1 - Pit-1-75G 1 1 - Pit-19 -72→-42 -57T 1 - - 维生素D受体-57G 2 - - 维生素D受体10 -45→-15 -31G 1 - - TATA盒-31ΔG - - 1 TATA盒11，12，13 -18→+15 -6/-1/+3 - - - TSSAAG-6/-1/+3 - - - TSSGAG-6/-1/+3 1 - - TSSGTG14，15 +4→+37 +16/+25 2 1 - 5’UTRAA+16/+25 2 - - 5’UTRAC+16/+25 1 - - 5’UTRGC+16/+25 2 1 - 5’UTRGA

TSS：转录起始位点 5’UTR：5’非翻译区

表8

124名男性白种人的成年人身高和GH1近侧启动子单倍型相关的体外表达数据之间的关联

A_x＜0.9 A_x＞0.9
A_x＜0.9 A_x＞0.9	身高＜1.765 34 22身高＞1.765 21 32

A_x：个体的两个单倍型的平均标准体外表达水平即.A_x＝(μ_nor，h1+μ_nor，h2)/2。

表9

不同LCR-GH1近侧启动子构建体的来源于GC细胞的平均、标准荧光素酶活性±标准差

启动子单倍型 LCR单倍型N A B C
启动子单倍型 LCR单倍型N A B C	H1 1.00±0.26^x 2.47±0.41^yz 2.30±0.46^y 2.77±0.55^zH23 1.00±0.14^x 1.72±0.55^yz 2.14+0.52^z 1.35+0.48^xyH27 1.00±0.26^x 1.11±0.36^x 1.00±0.41^x 1.25±0.27^x

x，y，z：启动子单倍型内Tukey′s studentized范围检验；具有重叠组字母的LCR单倍型(A、B和C)在它们的平均表达水平方面没有统计学差异。N：含有近侧启动子但缺乏LCR的构建体。每种情况下，LCR单倍型相对于N进行标准化。

表10

LCR-GH1近侧启动子构建体的标准萤光素酶活性的双因素ANOVA分析

来源 DF 均方 F值 Pr＞F
来源 DF 均方 F值 Pr＞F	启动子单倍型 2 51.46 390.97 ＜0.0001LCR单倍型 3 5.67 43.08 ＜0.0001相互作用 6 3.09 23.48 ＜0.0001

Claims

1.一种鉴定是表型主要决定因素的突变和/或多态性的方法，包括检测所研究基因的所选择的每组突变和/或多态性的残余偏离(δ)。

2.根据权利要求1的方法，其中确定每个亚组的突变和/或多态性的残余偏离(δ)。

3.根据权利要求2的方法，其中单倍型划分{1...m}的残余偏离(δ)基于每个可能亚组的突变和/或多态性。

4.根据前面任一项权利要求的方法，其中残余偏离(δ)等于

δ = δ (Π) = Σ_{i = 1}^{m} {(χi - \overset{&OverBar;}{χ} π (i))}^{2} .

5.根据权利要求1至4的方法用于预测是相应超高表型和次低表型的主要决定因素的超高和/或次低单倍型的用途。

6.根据权利要求1至4的方法用于鉴定表型上重要性单核苷酸多态性SNPs的用途。

7.一种检测有效作为个体至少一个表型的指示的单倍型的检测方法，该检测方法包括步骤：

(a)从待检测个体获得遗传物质的检测样品，所述物质至少包括选择的基因或其片段；

(b)分析所述基因或其片段的核苷酸序列，查看该基因内的任何一个或多个SNP位点是否存在任何单核苷酸多态性(SNPs)；和

(c)如果存在所述SNPs，鉴定它们以确定所述个体的单倍型，并根据上面的权利要求1至4对所述单倍型进行分析。

8.用权利要求1至4的方法鉴定的表型上重要的单倍型用于诊断或治疗以所述表型为特征的疾病。