JP2007515921A

JP2007515921A - ハプロタイプ分割

Info

Publication number: JP2007515921A
Application number: JP2004561614A
Authority: JP
Inventors: クーパー，デヴィッド，ニール; クラウツァック，ミヒャエル; ヘデリッヒ，ユルゲン
Original assignee: ユニバーシティカレッジカーディフコンサルタンツリミテッド
Priority date: 2002-12-19
Filing date: 2003-12-11
Publication date: 2007-06-21
Also published as: NO20053499L; CA2506535A1; WO2004057029A3; CN1729300A; CN1726289A; WO2004057029A2; HRP20050568A2; US20060121486A1; GB0229725D0; RU2005118399A; EP1581655A2; KR20050075450A; AU2003290250A1

Abstract

本発明は、選択された表現型の主な決定子である突然変異体及び／又は多型を特定するための方法に関し、前述の表現型の主な決定子であるハプロタイプの特定及びグループの中へのそれらの分割を基本とする。
【選択図】図１

Description

本発明は、少なくとも１つの遺伝子における多型又は突然変異体の有意性を決定するための新規な方法及びそれによって特定される有意性のある多型又は突然変異体に関する。

１９８０年代後半の遺伝子配列解明技術の到来とヒトゲノムプロジェクトの設立から、非常に多様な遺伝子の、特に人間のもので、配列構造又は性質について、膨大な量の情報がわかってきた。さらに、遺伝子配列方法が発展してきたため、所定の遺伝子内で検出された変異の数が増加してきた。典型的な遺伝子が長さ３０キロベースであるかもしれなく、また、変異は平均して１１００ベースごとに起こるとすると、いずれの変異体が臨床的に又は技術的に有意性があるかを決定するためにものすごい量の仕事が引き受けられる必要があることになる。しかしながら、ある一人が、利用可能な知識を開発するならば、これは前もって必要なステップである。

いくつかの遺伝子は他よりも変異の影響をより受けやすい。１つの核酸分子における所定の１つの部位での変異が有意であるか、又はその１つの核酸分子内の所定の複数の部位での複数の変異の組合せが有意であるかを決める必要がある研究員に、高度な多型の遺伝子は特別な努力を与える。いずれか所定の母集団内で、多数の有機体、又は個体からの単一の遺伝子の研究はかなりの量の情報を与えるかもしれないということになる。なぜならば、所定の遺伝子において複数の多型部位が示されるところで、多型の特性が個体から個体で異なるだろうからである。それにしたがって、多数の多型部位がパターン又はシグネチャーを調査される場合、それぞれの個体の特徴的なものが提供される。これはハプロタイプとして知られる。それぞれのハプロタイプが複数の多型部位での変異の特定の組み合わせを示す。したがって、いずれが有意であるかを決めるためにハプロタイプを選別することは、熟練した研究者の仕事である。これは長く、難しい、しばしば退屈な仕事であると熟練した読み手はわかる。もしあるとすればなにがそれぞれのハプロタイプの示唆になるかを決定するために、遺伝子又はそれによってコード化されたタンパク質の多様な特性を、研究することをともなうことができる。

この点を考慮して、我々は遺伝的な変異の研究を容易にする方法を開発した。遺伝子内の多数の変異を調査し、それらの有意性を決定することに、我々の方法は向けられる。より具体的には、少なくとも１つの遺伝子における複数の多型部位での複数の変異を、その有意性を決定するために調べることに、我々の方法は向けられる。本質的には、異なるハプロタイプの相対的な有意性を調査することに我々の方法を使用することができる。したがって、それは、事実上、どれが最も有意であるかを決定するために、複数のハプロタイプを調べる。したがって、それには膨大な量のデータを、最も適切なそのフォームを選択するために、分割する能力がいる。

ヒトの身長は、多数の遺伝的な及び環境的な要因の相互作用の結果であるかなり複雑な形質である。家族性の低身長は、成長ホルモン遺伝子の遺伝的な突然変異と関係があると、すでに知られているため、この脳下垂体に発現した遺伝子における多型変異が成人身長に影響すると仮定することは妥当である。この遺伝子内にかなり多数の多型変異があり、実際に、ＧＨ１成長ホルモン遺伝子プロモーターの近位領域は、５３５塩基対伸長内でレポートされる１６の一塩基変異とともに高いレベルの配列変異を示す。ＧＨ１を含む５つの遺伝子のクラスターに位置するパラロガスＧＨ２、ＣＳＨ１、ＣＳＨ２及びＣＳＨＰ１遺伝子とＧＨ１遺伝子が異なっている同じ位置で、これらのＳＮＰｓの大部分は発生する。これらの５つの遺伝子は６６ｋｂクラスターとして染色体１７ｑ２３に位置される。

そのうえ、ヒトＧＨ１遺伝子の発現はまた、ＧＨ１遺伝子の上流側の１４．５ｋｂと３２ｋｂの間に位置する遺伝子座制御領域（ＬＣＲ）によって影響される。ＬＣＲは多数のＤＮａｓｅＩ過敏部位を含み、脳下垂体と胎盤の両方におけるＧＨ１遺伝子クラスターの遺伝子の活性化のために必要とされる。

それにしたがって、この遺伝子内の変異の高いレベルを考え、我々は我々の方法を開発するためにそれを使用した。より具体的には、ＧＨ１遺伝子発現の近位プロモーター領域とＬＣＲ領域の両方における多型変異の相対的な重要性を評価するために、我々はこの遺伝子を使用した。

（発明の記述）
表現型、特に、排他的でなく、有利であるか又は不利である表現型の主な決定子である突然変異体及び／又は多型を特定するためのハプロタイプ分割の方法を我々はここで説明する。例えば、おそらく最も典型的に、例えば、病気や、異常な又は望ましくない状態のような生理的な状態又は不調に全体的又は部分的に原因となる突然変異体及び／又は多型を特定するために、方法は使用される。

それにしたがって、本発明のハプロタイプ分割の方法は、検討中の遺伝子の突然変異体及び／又は多型のそれぞれ選択されたグループのための残差乖離度（δ、ｒｅｓｉｄｕａｌｄｅｖｉａｎｃｅ）を調査することを含む。

より理想的には、突然変異体及び／又は多型の可能な部分集合の残差乖離度（δ）を調査することを方法は含み、もっとも有利には、ハプロタイプ｛１・・・ｍ｝の分割の残差乖離度（δ）を突然変異体及び／又は多型のそれぞれ可能な部分集合に基づいて調査することを方法は引き受けられる。

さらに、最も理想的に、次の関数を用いることをともなう。

（定義は後述を参照）
前述の突然変異体及び／又は多型の効果が、強く相互依存している状態、例えば連鎖不均衡があるような場合で、本発明の方法は適切であるが排他的に適切であるというわけではない。

この方法を用いて、例えば発現レベル（突然変異体及び／又は多型が遺伝子のプロモーター領域にある）における、又は、例えばタンパク質機能（突然変異体及び／又は多型が遺伝子の配列をコード化するタンパク質にある）における残差乖離度のかなりの部分に関与するこれらの突然変異体及び／又は多型を特定することが可能である。

有利に、例えばその後の試験プログラムにおける実験制御のように、利用可能であろう超最大及び準最小のハプロタイプを予測し、続いて作製するために、本発明の方法を使うことができる。

検討中の表現型のかなりの部分に関与する突然変異体及び／又は多型の同定のための他の方法がここで説明され、本発明の様々な観点及び／又は実施の形態を構成する。

本発明のさらなる観点によれば、少なくとも１つの選択された表現型の主な決定子である一塩基多型（ＳＮＰｓ）の形で、有意な突然変異体及び／又は多型がここで説明される。

より具体的には、少なくとも１つの選択された遺伝子の近位プロモーターにこれらのＳＮＰｓは位置され、対応するタンパク質の発現及び個体の可能な選択された表現型のレベルを決める。

これらのＳＮＰｓ又はこのＳＮＰｓの部分集合の知識は診断技術で有用であるということになる。

本発明のさらなる観点によれば、個体における少なくとも１つの表現型の指標のように作用する効果のあるハプロタイプを検出するための検出方法を提供し、この検出方法は次のステップを含む：
（ａ）試験される個体から遺伝物質の試験サンプルを得て、前述の物質は少なくとも選択された遺伝子又はその断片を含むものであり、
（ｂ）一塩基多型が遺伝子内のいずれか１以上のＳＮＰ部位に存在するかを確かめるために、前述の遺伝子又はその断片のヌクレオチド配列を分析し、
（ｃ）前述のＳＮＰｓが存在するところで、それらを特定し、それらを前述の方法を使用する分析の対象にする。

プロモーター内での多型変異の効果を決定するために、又は、コード化した領域内でタンパク質での多型変異の効果を決定するために、どちらかの遺伝子のＮ末端の１以上の領域で、又はそこにおいて、前述の方法を引き受けるということを当業者は適当だと考える。

そのうえ、超最大及び準最小のハプロタイプを決めるときの使用を本発明の方法は有し、したがって、本発明は、さらなる観点によれば、また、少なくとも１の遺伝子のための超最大及び／又は準最小のハプロタイプの同定を含む。

ここで与えられた例では、ヒト成長ホルモンのための超最大のハプロタイプは次のコード化した配列によって定義される：ＧＨ１遺伝子転写開始部位と相対的に、ＳＮＰ −４７６、−３６４、−３３９、−３０８、−３０１、−２７８、−１６８、−７５、−５７、−３１、−６、−１、＋３、＋１６、＋２５、＋５９で、ＡＧＧＧＧＴＴＡＴ−ＡＴＧＧＡＧ。反対に、準最小のハプロタイプは同じ部位に関して、次のコード化した配列として定義される：ＡＧ−ＴＴＴＴＧＧＧＧＣＣＡＣＴ。

本発明の更なる観点によれば、上述した方法によって特定された少なくとも１のハプロタイプを提供し、より具体的に、所定の病気の診断又は治療における、又は、超発現タンパク質の発達における前述のハプロタイプの使用を提供する。

ここでの超発現という用語の引用は、野生型に関して所定のタンパク質の過度の発現の引用を含む。

多様なハプロタイプを特定し、その分割を提供し、それらの機能的な有意性を評価することを引き受けられた物質及び方法に関する次の情報を通して、今後、本発明の方法は説明される。

（物質及び方法）
「ヒト由来の材料」
ＤＮＡサンプルは、身長で選別されていないコーカサス出身の１５４人の男性イギリス軍人の新人から採ったリンパ球から得られた。身長データは、これらの個体（平均、１．７６±０．０７ｍ）のうち１２４人で利用可能であり、身長分布は正常であることがわかった（シャピローウィルク統計値Ｗ＝０．９８４、ｐ＝０．１６）。これらの研究の倫理承認は地方の複数の地域の倫理委員会（Ｍｕｌｔｉ−ＲｅｇｉｏｎａｌＥｔｈｉｃｓＣｏｍｍｉｔｔｅｅ）から得た。

「ポリメラーゼ連鎖反応（ＰＣＲ）増幅」
３．２ｋｂのＧＨ１の遺伝子特定断片のＰＣＲ増幅は、オリゴヌクレオチドプライマーＧＨ１Ｆ（５’ＧＧＧＡＧＣＣＣＣＡＧＣＡＡＴＧＣ３’；−６１５から−５９９）及びＧＨ１Ｒ（５’ＴＧＴＡＧＧＡＡＧＴＣＴＧＧＧＧＴＧＣ３’；２５９８から２６１６）を用いて実行された（転写開始部位を＋１として相対的に番号付けしている（ＧｅｎＢａｎｋＡｃｃｅｓｓｉｏｎＮｏ．Ｊ０３０７１））。ＧＨ１ＬＣＲの部位I及びIIを含む１．９ｋｂ断片はＬＣＲ５Ａ（５’ＣＣＡＡＧＴＡＣＣＴＣＡＧＡＴＧＣＡＡＧＧ３’；−３１５から−３３４）及びＬＣＲ３．０（５’ＣＣＴＴＡＧＡＴＣＴＴＧＧＣＣＴＡＧＧＣＣ３’；１５８９から１６９８）でＰＣＲ増幅された（ＬＣＲ配列はＧｅｎＢａｎｋ（ＡｃｃｅｓｓｉｏｎＮｏ．ＡＣ００５８０３）から得られた。一方、ＬＣＲ番号付けはＪｉｎなど１９９９のもの；ＧｅｎＢａｎｋ（ＡｃｃｅｓｓｉｏｎＮｏ．ＡＦ０１０２８０）に従った）。両方の反応の条件は同一であり、簡単には、２００ｎｇリンパ球ＤＮＡがＥｘｐａｎｄ（商標）ハイファイシステム（Ｒｏｃｈｅ）を用いて、９８℃、２ｍｉｎのホットスタートで、続いて９５℃、３ｍｉｎ、３０サイクルの９５℃、３０ｓ、６４℃、３０ｓ、６８℃、１ｍｉｎで増幅された。最後の２０サイクルでは、６８℃での伸長ステップがサイクルごとに５ｓで増加された。これはさらに６８℃、７ｍｉｎでのインキュベーションに続く。

「クローニング及びシークエンシング」
最初に、ＰＣＲ生成物はクローニングせずに直接配列された。ＧＨ１遺伝子の近位プロモーター領域がプライマーＧＨ１Ｓ１（５’ＧＴＧＧＴＣＡＧＴＧＴＴＧＧＡＡＣＴＧＣ３’：−５５６から−５３７）を用いて３．２ｋｂＧＨ１特有ＰＣＲ断片から配列された。１．９ｋｂＧＨ１ＬＣＲ断片はプライマーＬＣＲ５．０（５’ＣＣＴＧＴＣＡＣＣＴＧＡＧＧＡＴＧＧＧ３’；９９３から１０１１）、ＬＣＲ３．１（５’ＴＧＴＧＴＴＧＣＣＴＧＧＡＣＣＣＴＧ３’；１０９３から１１１０）、ＬＣＲ３．２（５’ＣＡＧＧＡＧＧＣＣＴＣＡＣＡＡＧＣＣ３’；６２８から６４５）及びＬＣＲ３．３（５’ＡＴＧＣＡＴＣＡＧＧＧＣＡＡＴＣＧＣ３’；２１１から２２８）を用いて配列された。シークエンシングはＢｉｇＤｙｅｖ２．０（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ）及びＡＢＩＰｒｉｓｍ３７７又は３１００ＤＮＡシーケンサを用いて実行された。プロモーター領域のヘテロ接合体又はＬＣＲ変異体の場合では、適当な断片がシークエンシングの前にｐＧＥＭ−Ｔ（Ｐｒｏｍｅｇａ）の中にクローン化された。

「ルシフェラーゼレポーター遺伝子発現ベクターの構成」
４０の異なるＧＨ１近位プロモーターハプロタイプ（表１）の個々の例は、プライマーＧＨＰＲＯＭ５（５’ＡＧＡＴＣＴＧＡＣＣＣＡＧＧＡＧＴＣＣＴＣＡＧＣ３’；−５２０から−５０１）、及びハプロタイプの位置＋５９の塩基によってＧＨＰＲＯＭ３Ａ（５’ＡＡＧＣＴＴＧＣＡＧＣＴＡＧＧＴＧＡＧＣＴＧＴＣ３’；４４から６２）又はＧＨＰＲＯＭ３Ｃ（５’ＡＡＧＣＴＴＧＣＣＧＣＴＡＧＧＴＧＡＧＣＴＧＴＣ３’；４４から６２）の一方と、５８２ｂｐ断片としてＰＣＲ増幅された。クローニングを容易にするために、全てのプライマーは、それらの５’端（上述で下線で示す。）に加えられた部分的な又は完全な非テンプレートの制限エンドヌクレアーゼ認識配列を有する；ＢｇｌII（ＧＨＰＲＯＭ５）及びＨｉｎｄIII（ＧＨＰＲＯＭ３Ａ及びＧＨＰＲＯＭ３Ｃ）。そして、ＰＣＲ断片はｐＧＥＭ−Ｔ中にクローン化された。プラスミドＤＮＡは最初に、ＨｉｎｄIII（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）で消化され、５’オーバーハングはマング・ビーン・ヌクレアーゼ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）で除かれた。プロモーター断片はＢｇｌII（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）での消化によって放出され、ゲルが浄化された。ルシフェラーゼレポーターベクターｐＧＬ３ＢａｓｉｃはＮｃｏI（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）消化によって調整され、５’オーバーハングはマング・ビーン・ヌクレアーゼで切り離された。そして、ベクターはＢｇｌII（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）で消化され、ゲルは浄化された。制限されたプロモーター断片はルシフェラーゼレポーター遺伝子ベクターＧＬ３Ｂａｓｉｃ中にクローン化された。プラスミドＤＮＡｓ（ｐＧＬ３ＧＨシリーズ）は単離され（Ｑｉａｇｅｎｍｉｄｉｐｒｅｐｓｙｓｔｅｍ）、プライマーＲＶ３（５’ＣＴＡＧＣＡＡＡＡＴＡＧＧＣＴＧＴＣＣＣ３’；４７６０から４７７９）、ＧＨ１ＳＥＱ１（５’ＣＣＡＣＴＣＡＧＧＧＴＣＣＴＧＴＧ３’；２７から４３）、ＬＵＣＳＥＱ１（５’ＣＴＧＧＡＴＣＴＡＣＴＧＧＴＣＴＧＣ３’；６８３から７００）及びＬＵＣＳＥＱ２（５’ＧＡＣＧＡＡＣＡＣＴＴＣＴＴＣＡＴＣＧ３’；１３７２から１３９０）を用いて配列され、ＧＨ１プロモーター及びルシフェラーゼ遺伝子配列がともに正しいことを確実にする。切断ＧＨ１近位プロモーター構成物（−２８８から＋６２）はまたＮｃｏI及びＢｇｌIIを用いたｐＧＬ３ＧＨ１（ハプロタイプ１）の制限によってなされ、続いてＳＮＰ部位１から５を切り離すように平滑末端リライゲーションがなされた。

人工的な近位プロモーターハプロタイプレポーター遺伝子構成物は特定部位の突然変異誘発（ＳＤＭ）（特定部位の突然変異誘発キット（Ｓｔｒａｔａｇｅｎｅ））によって、予測された超最大のハプロタイプ（ＡＧＧＧＧＴＴＡＴ−ＡＴＧＧＡＧ）及び準最小のハプロタイプ（ＡＧ−ＴＴＧＴＧＧＧＡＣＣＡＣＴ及びＡＧ− ＴＴＴＴＧＧＧＧＣＣＡＣＴ）を生成するように、作製された。

ＬＣＲ近位プロモーター融合構成物を作製するために、１．９ｋｂのＬＣＲ断片がＢＧｌIIで制限され、結果としての１．６ｋｂの断片がｐＧＬ３における５８２ｂｐプロモーター断片の直接上流側のＢｇｌII部位中に、クローン化した。３つの異なるＬＣＲのハプロタイプは、ｐＧＬ３Ｂａｓｉｃ内で、“高発現プロモーターハプロタイプ”（Ｈ２７）、“低発現プロモーターハプロタイプ”（Ｈ２３）及び“正常発現プロモーターハプロタイプ”（Ｈ１）をそれぞれ含む３つのＧＨ１近位プロモーター構成物のうち１つの５’側で、クローン化され、全体で９の異なるＬＣＲ−ＧＨ１近位プロモーター構成物（ｐＧＬ３ＧＨＬＣＲ）をもたらした。そして、プラスミドＤＮＡｓは単離され（Ｑｉａｇｅｎｍｉｄｉｐｒｅｐ）、配列が適当なプライマーを使ってチェックされた。

「ルシフェラーゼレポーター遺伝子アッセイ」
成長ホルモンを発現するヒト脳下垂体細胞株がないと、ラットＧＣ脳下垂体細胞（Ｂａｎｃｒｏｆｔ１９７３；Ｂｏｎｄｅｒ及びＫａｒｉｎ１９８９）がｉｎｖｉｔｒｏ発現試験のために選択された。ラットＧＣ細胞は１５％ウマ血清及び２．５％ウシ胎仔血清を含むＤＭＥＭ内で成長された。ヒトＨｅＬａ細胞は５％ウシ胎仔血清を含むＤＭＥＭ内で成長された。細胞株はともに３７℃で５％ＣＯ_２内で成長された。ＧＣ細胞及びＨｅＬａ細胞のリポソームを介したトランスフェクションはＴｆｘ（商標）−２０（Ｐｒｏｍｅｇａ）を用いて、９６−ウェルプレートフォーマット内で実行された。密集した細胞は培養フラスコから取り出され、新鮮な媒体で希釈され、９６−ウェルプレートにプレートアウトされ、翌日までに〜８０％の密集となるようにした。

トランスフェクションの混合物は、全体でウェルあたり９０μｌの体積で、血清フリーの培地、２５０ｎｇのｐＧＬ３ＧＨ又はｐＧＬ３ＧＨＬＣＲ構成物、２ｎｇのｐＲＬ−ＣＭＷ、及び０．５μｌのＴｆｘ（商標）−２０Ｒｅａｇｅｎｔ（Ｐｒｏｍｅｇａ）を含んだ。１時間後、２００μｌの完全な培地はそれぞれのウェルに加えられた。トランスフェクションに続いて、レポーターアッセイのために可溶化される前に、細胞は２４時間、３７℃、５％ＣＯ^２内でインキュベートされた。

ルシフェラーゼアッセイはＤｕａｌＬｕｓｉｆｅｒａｓｅＲｅｐｏｒｔｅｒＡｓｓａｙＳｙｓｔｅｍ（Ｐｒｏｍｅｇａ）を用いて実行された。アッセイは、マイクロプレートルミノメーター（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ）上で実行され、Ｒｅｎｉｌｌａ活性に関して正規化された。それぞれの構成物は３つの独立したプレート上でプレートあたり６回レプリカして分析された（すなわち、全体で１８の独立した測定対象）。近位プロモーターアッセイのために、それぞれのプレートは負（プロモーターのないｐＧＬ３Ｂａｓｉｃ）と正（ＳＶ４０プロモーターを含むｐＧＬ３）のコントロールを含んだ。ＬＣＲ分析のために、近位プロモーターを含むがＬＣＲを欠いた構成物が負のコントロールとして使用された。

「電気泳動移動度シフトアッセイ（ＥＭＳＡ）」
全ての１６のＳＮＰ部位（表２）をともにカバーする２本鎖のオリゴヌクレオチドについてＥＭＳＡは実行される。ＧＣ及びＨｅＬａ細胞からの核抽出物はＢｅｒｇなど（１９９４）によって記載されたように調整された。オリゴヌクレオチドは［γ―^３３Ｐ］−ｄＡＴＰで放射性同位体でラベル付けされ、ゲル電気泳動の後にオートラジオグラフィーによって検出された。ＥＭＳＡ反応物は、最終的な濃度で２０ｍＭのＨｅｐｅｓｐＨ７．９、４％のグリセロール、１ｍＭのＭｇＣｌ_２、０．５ｍＭのＤＴＴ、５０ｍＭのＫＣｌ、１．２μｇのＨｅｌａ細胞又はＧＣ細胞核抽出物、０．４μｇのｐｏｌｙ［ｄｌ−ｄＣ］―ｐｏｌｙ［ｄｌ−ｄＣ］、０．４ｐＭの放射性同位体でラベル付けされたオリゴヌクレオチド、４０ｐＭの非標識の競合のヌクレオチド（１００倍過剰）を最終的な体積で１０μｌになるように適当に、含んだ。ＥＭＳＡ反応物は氷で６０ｍｉｎ、インキュベートされ、４％のＰＡＧＥゲルで１００Ｖ、４５ｍｉｎでオートラジオグラフィーの前に電気泳動された。それぞれの反応物で、２本鎖非標識のテストオリゴヌクレオチドが特定の競合として用いられ、一方で、ＮＦ１遺伝子プロモーター（５’ＣＣＣＣＧＧＣＣＧＴＧＧＡＡＡＧＧＡＴＣＣＣＡＣ３’）由来のオリゴヌクレオチドが非特定の競合として用いられた。ヒトプロラクチン（ＰＲＬ）遺伝子Ｐｉｔ−１結合部位（５’ＴＣＡＴＴＡＴＡＴＴＣＡＴＧＡＡＧＡＴ３’）及びＰｉｔ−１コンセンサス結合部位（５’ＴＧＴＣＴＴＣＣＴＧＡＡＴＡＴＧＡＡＴＡＡＧＡＡＡＴＡ３’）に対応する２本鎖オリゴヌクレオチドが特定競合としてＳＮＰ８部位へのタンパク質結合のために用いられた。

「プライマー伸長アッセイ」
異なるＳＮＰハプロタイプを有する構成物が同一の転写開始部位を利用することを確認するために、プライマー伸長アッセイは実行された。プライマー伸長はＴｒｉｅｚｅｎｂｅｒｇなど（１９９２）の方法に従った。

「データ正規化」
負のコントロール（プロモーターのないｐＧＬ３Ｂａｓｉｃ）のための発現測定はプレート間でかなりの変化を示した（図１ａ）。ベースラインの発現及びプレート効果のためにデータを補正するために、所定のプレートの負のコントロールの平均の活性を同じプレートでの全ての他の活性値から引いた。そして、それぞれのプレートでの近位プロモーターハプロタイプ１（Ｈ１）のための平均の（プレート補正した）活性が計算され、同じプレートでの全ての他のハプロタイプ関係の活性がこの値によって割られた。これら２つの変換は、プレートの番号に関係なく、平均の負のコントロールの活性が０に等しく、一方で、Ｈ１の平均の活性は一つであることを確認した。したがって、結果としての活性値は、Ｈ１に比較して、ベースライン及びプレート効果をともに補正され、回数変化（ｆｏｌｄｃｈａｎｇｅｓ）として解釈されるだろう。重要なプレート効果は変換に検出可能ではなかったため、データはプレートを超えて組み合わされた。この正規化手順の結果は図１ｂにおいてＨ１のために図示される。近位プロモーターハプロタイプの分析のために使用されるものと同様の方法がまた、ＬＣＲプロモーター融合構成物発現データのために、参照ハプロタイプとしてハプロタイプＡを用いて、続かれた。

「統計分析」
近位プロモーターハプロタイプの正規化された発現レベルは、ＳＡＳ統計分析ソフトウェア（ＳＡＳＩｎｓｔｉｔｕｔｅＩｎｃ．，カリー、ＮＣ、米国）のＵＮＩＶＡＲＩＡＴＥ手順で実行されるように、シャピローウィルク統計（Ｗ）を使って、ガウス分布への適合度をテストされた。有意性の評価は多数（すなわち４０回）のテストをするために、ｐ_{ｃｒｉｔｉｃａｌ}＝０．０５／４０≒０．００１をセットすることで、調整された。この評価基準を使用して、２つのプロモーターのハプロタイプの発現レベルは、ガウス分布からかなり異なることがわかった。すなわち、Ｈ２１（Ｗ＝０．７２７、ｐ＝０．０００２）及びＨ４０（Ｗ＝０．７５８、ｐ＝０．０００４）である。他の３８のハプロタイプのために、発現レベルは、正規性と一致したとみなされ、したがって、Ｔｕｋｅｙのステューデント化された範囲試験（ＳＡＳ手順ＧＬＭ）を用いて、ペアワイズ比較に供された。異なるハプロタイプのグループ間の発現レベルのペアワイズ比較は、ウィルコクソン順位和検定（ＳＡＳ手順ＮＰＡＲ１ＷＡＹ）の正規近似ｚを用いて、実行された。

この研究で分析されたＳＮＰｓは、近位プロモーター発現上に、複雑で高度な相互作用の方法において、それらの影響を受けた。さらに、連鎖不均衡で、個体の多型に関係する発現レベルは強く相互依存していることがわかった。したがって、発現レベルにおいて観察された変異の実質的な割合が多型部位の小さな部分集合での変異に起因するということは予測できた。ＳＮＰｓ間の相関関係構造を形式的に評価し、さらなる研究のため分類があいまいな多型の適切な部分集合を特定することができるように、ハプロタイプ分割での残差乖離度は、近位プロモーターＳＮＰｓの全ての可能な部分集合のために計算された。

データセットの所定の分割

は、ｘ_１、・・・、ｘ_ｍを差し、ｉ∈π_ｊならばπ（ｉ）＝ｊであり、Πの残差乖離度δは次のように定義される。

データセットが全く分割されない場合、δ＝δ（Π_０）＝４２１．７、他のいずれの分割Πの相対的な残差乖離度はδ_Ｒ（Π）＝δ（Π）／δ（Π_０）として定義された。

６のＳＮＰｓ（ｎｏ．１、６、７、９、１１及び１４；以下参照）が、比較的少ないハプロタイプ変異をともなうことと同時に、発現レベルにおいて残差乖離度のかなり大きい部分（〜６０％）に原因となっているとして、特定された。これらのＳＮＰｓの統計的な相互依存は、統計ソフトウェアＲ（ＩｈａｋａとＧｅｎｔｌｍａｎ１９９６）を使用して帰納的２分割によって構成された回帰ツリーの手段によってさらに分析された。ツリー構成のプロセスで、ＳＮＰｓは、応答変数（すなわち標準化された近位プロモーター発現）に関して、ハプロタイプの２つの最も均質のサブグループを選択するために、それぞれのノードにおける予測変数として個別に使用された。新しい分割を導入するために役立ったノードとＳＮＰは、結果としての中間ツリーの末端ノード（“リーフ”）によって定義される分割のために、aＲを最小化するように選択された。このプロセスは、すべてのリーフが個々のハプロタイプ（“十分に成長したツリー”）に対応するまで続けられた。δ_Ｒの見積もりの信頼性は、それぞれのステップで、１０倍のクロス確認（ｃｒｏｓｓ−ｖａｌｉｄａｔｉｏｎ）によって評価され、標準誤差（ＳＥ）は計算された。

ｉｎｖｉｔｒｏの身長及び近位プロモーター発現の回帰分析は、ＳＡＳソフトウェアパッケージのＣＡＮＣＯＲＲ手順を使用して研究された１２４人の身長が知られた個体のために、実行された。所定の個体によって運ばれた２つのハプロタイプの平均の正規化された発現レベルをμ_{ｎｏｒ，ｈ１}及びμ_{ｎｏｒ，ｈ２}と表す。Ｈ１に対してホモ接合性でない個体の身長（ｎ＝１０９）は次のようにモデル化された。

そして、決定係数、ｒ^２が計算された。

１５４人の研究した個体において少なくとも８回観察された７のプロモーターハプロタイプ（Ｈ１〜Ｈ７）のために、ｒｅｄｕｃｅｄｍｅｄｉａｎｎｅｔｗｏｒｋ（Ｂａｎｄｅｌｔｎａｄｏ１９９５）が構成された。

「連鎖不均衡分析」
プロモーターＳＮＰｓ間、ＳＮＰｓとＬＣＲハプロタイプ間の連鎖不均衡（ＬＤ）は、Ｍｏｒｔｏｎなど（２００１）によって２対立遺伝子座のために考え出されたパラメータρを使用して、研究下の全体の１５４人からランダムに選択された１００人の個体において評価された。ρ＝１は２つの遺伝子座が完全なＬＤを示すことに等しいが、ρ＝０はＬＤの完全な欠乏を示す。８つのＳＮＰｓのみが、包含を保証するために母集団のサンプル（ヘテロ接合度ｉY５％）において十分な多型であることがわかった。ＳＮＰ５は、ＳＮＰ４との完全なＬＤのために除かれた（２つのペアワイズハプロタイプのみが存在する）。ＬＤ分析のために必要とされるような、組み合せのＬＣＲ近位プロモーターハプロタイプの頻度の最尤推定値は、期待値最大化（ＥＭ）アルゴリズムの組織内の実現を使用して得られた。

（結果）
「近位プロモーター多型頻度及びハプロタイプ」
ＧＨ１遺伝子プロモーター領域は、５３５ｂｐ伸長内で、１６の多型のヌクレオチドを含むと報告された（表３；Ｇｉｏｒａｄｎｏなど１９９７；Ｗａｇｎｅｒなど１９９７）。これらのＳＮＰｓは識別の容易さのために１〜１６に列挙された（図２）。１５４人の男性のイギリスのコーカサス人の研究で、これらのＳＮＰｓの１５（ｎｏ．２を除いた全て）は、多型であるとわかった（マイナーな対立遺伝子の頻度０．００３から０．４１；表３）。１６位置での変異は全体で３６の異なるプロモーターハプロタイプのせいであった（表１）。したがって、ハプロタイプ１（Ｈ１）は、１６の塩基の配列（ＧＧＧＧＧＧＴＡＴＧＡＡＧＡＡＴ）によって、−４７６から＋５９までの１６のＳＮＰ位置を表して、説明されるだろう。３６のプロモーターハプロタイプの頻度はＨ１、以下“野生型”として参照、での０．３３９から０．００３３まで（ｎｏ．２５〜３６）異なった（表１）。さらに４つのハプロタイプ（ｎｏ．３７〜４０）が低身長を示す４つの個体において別々の研究の一部として見つけられた（表１）。これらのハプロタイプは研究グループに不在であったが、その後の研究において完全を期すために含まれた。

「近位プロモーターハプロタイプ及び相対的なプロモーター強度」
４０のプロモーターハプロタイプは、ｉｎｖｉｔｒｏのレポーター遺伝子アッセイによって研究され、ラット脳下垂体細胞においてルシフェラーゼ遺伝子発現を推進するそれらの能力に関して異なることがわかった（表４）。発現レベルは、最も低い発現のハプロタイプ（ｎｏ．１７）が野生型の３０％の平均のレベルを示し、最も高い発現のハプロタイプ（ｎｏ．２７）が野生型の３８９％の平均のレベルを示しながら、１２倍の範囲を超えて異なることがわかった（表４）。１２のハプロタイプ（ｎｏ．３、４、５、７、１１、１３、１７、１９、２３、２４、２６及び２９）は、Ｈ１との比較によってルシフェラーゼレポーター遺伝子発現のかなりの減少レベルに関連付けられた。反対に、全体で１０のハプロタイプ（ｎｏ．１４、２０、２７、３０、３４、３６、３７、３８、３９及び４０）はＨ１との比較によってルシフェラーゼレポーター遺伝子発現のかなりの増加レベルに関連付けられた（表４）。異なるＳＮＰハプロタイプを持つ構成物は、プライマー伸長アッセイによって、同一の転写開始部位（データでは示されない）を利用するように示された。レポーター遺伝子構成物の発現はＨｅＬａ細胞において、ＧＣ細胞においてよりも、１０００倍低いことがわかった（データでは示されない）。

４０の異なるＧＨ１プロモーターハプロタイプのｉｎｖｉｔｒｏの発現レベルは図３に図式で示される。傾向は、低い発現のハプロタイプがより多い頻度で起こることが明らかであり、一方で、高い発現のハプロタイプが少ない頻度で起こる傾向がある（ウィルコクソンＰ＜０．０１）。この調査結果が選択の作用を示唆するため、選択効果は個々のＳＮＰｓのレベルで追求された。ここで研究された１５のＳＮＰｓのために、平均の発現レベル（ハプロタイプ頻度により重みづけされている）及びコントロールでのよりまれな対立遺伝子の頻度は、正に相関関係であることがわかった（スピアマン順位相関係数、ｒ＝０．３２）。ＳＮＰ７が異常値（よりまれな対立遺伝子に関連して特に高発現レベルを有する）として除外されるならば、片側がｐ＜０．０５でｒ＝０．５３である。

ＳＮＰｓ１〜５を欠いている切断プロモーター構成物と関連付けられたｉｎｖｉｔｒｏの発現レベルは、野生型（ハプロタイプ１）の１０２±５％のものであった。したがって、ＳＮＰｓ１〜５がＧＨ１遺伝子発現での制限された直接の影響を持っていそうだと推測されるだろう。

個々のＳＮＰｓに関連付けられた発現レベルが強く相互依存していることがわかった。したがって、ｉｎｖｉｔｒｏの発現レベルにおいて観察された変異に不均衡に寄与する主要な多型部位の部分集合を特定する方法で、発現データを分割するために、試みがなされた。すべての１６のＳＮＰｓを含む十分なハプロタイプによる分割はδ_Ｒ（Π_１６）＝０．２４５の相対的な残差乖離度をもたらした。ハプロタイプ中の変異によって説明できない発現レベルにおける変異の２４．５％に関して、これを解釈することができる。１≦ｋ＜１６のために、最小のδ_Ｒ分割Π_{ｋ，ｍｉｎ}は、最も小さい相対的な残差乖離度δ_Ｒを持ったｋＳＮＰｓとハプロタイプ分割するものと定義された。ｋとδ_Ｒ（Π_{ｋ，ｍｉｎ}）との間の関係は、ハプロタイプ分割Π_{ｋ，ｍｉｎ}の数とともに、図４に図示される。質的な違いは、Π_{ｋ，ｍｉｎ}に関連付けられたハプロタイプの数が１３から２２に増加し、一方でδ_Ｒ（Π_{ｋ，ｍｉｎ}）がわずかにのみ減少しているｋ＝６とｋ＝７との間で、明らかであった［δ_Ｒ（Π_{６，ｍｉｎ}）＝０．３９７対δ_Ｒ（Π_{７，ｍｉｎ}）＝０．３７１］。したがって、Π_{６，ｍｉｎ}を定義するＳＮＰｓ１、６、７、９、１１及び１４がさらなる分析のために主要な多型の良好な選択を示すと結論づけた。残っているＳＮＰｓのうち、６（ｎｏ．３、４、８、１０、１２及び１６）は、“わずかに有益である”として分類することができた。これらのマーカーは、６の主要なＳＮＰｓと組み合せて、４０の観察されたハプロタイプの３９をともに定義し、説明できる乖離度（δ_Ｒ＝（Π_{１２，ｍｉｎ}）＝０．２４５）の事実上全てを説明する。他の４つのＳＮＰｓ（ｎｏ．２、５、１３及び１５）は、正規化されたｉｎｖｉｔｒｏの発現レベルに関して、“情報価値がない”であった。それらはそれぞれ我々のサンプル（ｎｏ．２）で単一形（ｍｏｎｏｍｏｒｐｈｉｃ）であり、又は、完全な（ｎｏ．５及び１３）又はほとんど完全な（ｎｏ．１５）他のマーカーとの連鎖不均衡にあったからである。

次に、６の主要なＳＮＰｓの相関関係構成は、相次いで成長する（すなわち入れ子とされる）回帰ツリーのシリーズを用いて評価された。回帰ツリーの分析における慣習（ＴｈｅｒｎｅａｕとＡｔｋｉｎｓｏｎ１９９７）に続いて、十分に成長したツリーのものの一つのＳＥ内でのクロス確認したδ_Ｒとの最も小さい中間ツリーが代表の分割として選ばれた（図５）。この“最適の”ツリーは１０の内部ノード及び１１の終端ノードを含むことがわかった（図６、表５）。ツリーの相対的な残差乖離度はδ_Ｒ＝０．３９８に等しく、それによって、ハプロタイプ分割を通して説明可能な乖離の（１−０．３９７）／（１−０．２４５）≒８０％を占める。

単一の最も重要な分割は、説明可能な乖離の１５％をそれ自身で占めるＳＮＰ７によるものだった。このＳＮＰのＣ対立遺伝子を運ぶ４つのハプロタイプは、Ｈ１のものより１．８倍より高い平均の正規化された発現レベルでの同質のサブグループ（リーフ１１）を定義する。ＳＮＰ７のＴ対立遺伝子を運ぶハプロタイプは、この多型の対立遺伝子Ｔと対立遺伝子Ｇ（μ_ｎｏｒ＝０．８４；ウィルコクソンｚ＝７．０９、ｐ＜０．００１）より高い発現（μ_ｎｏｒ＝１．２６）を引き起こして、ＳＮＰ９によってさらに細分化された。結果としてのｎｎＴＴｎｎハプロタイプは、ｎＧＴＴｎｎが野生型ハプロタイプＨ１を含む終端ノード（リーフ８）を形成して、ＳＮＰ６（Ｇ／Ｔ）によって分割された。おもしろいことに、ｎＴＴＴｎｎハプロタイプは、ＳＮＰ１１によって細分化されるときに、発現レベルの劇的な違いを表した。ｎＴＴＴＧｎが低い発現をさせるもの（μ_ｎｏｒ＝０．６４）であることがわかった一方で、ハプロタイプｎＴＴＴＡｎは最大平均発現を示した（μ_ｎｏｒ＝３．８９；ウィルコクソンｚ＝５．１１、ｐ＜０．００１）。

ＳＮＰｓ７及び９のハプロタイプｎｎＴＧｎｎは、結果としてのハプロタイプの３つが終端ノード（リーフ１、６及び７）を形成して、ＳＮＰｓ１４及び１によって細分化された。４番目のハプロタイプ、ＧｎＴＧｎＡは、ＳＮＰｓ１１及び６によってさらに分割される中間の発現させるものであった。おもしろいことに、ＳＮＰ１４及び１の対立遺伝子の１つの特定の組合せのみがＳＮＰ７及び９のｎｎＴＧｎｎをバックグラウンドとして発現を増加させた（ＡｎＴＧｎＧ、リーフ７、μ_ｎｏｒ＝１．８３）。発現上での同じような非付加的な効果もまたハプロタイプＧｎＴＧｎＡを考えるときにＳＮＰｓ６及び１１のために認められた。一方で、ＳＮＰ１１対立遺伝子ＡはＳＮＰ６対立遺伝子Ｔとの組み合わせにおいてＧよりも高い発現に関連付けられた（ＧＴＴＧＡＡ μ_ｎｏｒ＝１．１８対ＧＴＴＧＧＡ μ_ｎｏｒ＝０．７４；ウィルコクソンｚ＝７．０９、ｐ＜０．００１）。その反対はＳＮＰ６対立遺伝子Ｇとの組合せで有効であった（ＧＧＴＧＡＡ μ_ｎｏｒ＝０．７４対ＧＧＴＧＧＡ μ_ｎｏｒ＝１．０４；ウィルコクソンｚ＝５．２８、ｐ＜０．００１）。

「ハプロタイプの多様性の進化」
この研究で多型であることがわかった１５のＧＨ１遺伝子プロモーターＳＮＰｓのうち、１４位置での代替の対立遺伝子は、遺伝子変換によって潜在的に説明可能であった。それらは４つのパラロガスヒト遺伝子のうち少なくとも１つにおいて類似の位置にあるものと同一であったからである（表３）。１０の他の哺乳類のオーソロガス成長ホルモン（ＧＨ）遺伝子プロモーター配列との比較は、ヒトＧＨ１遺伝子におけるヌクレオチド位置―７５、−５７、−３１、−６、＋３、＋１６及び＋２５（ＳＮＰｓ８〜１５に包括して対応している）で最も頻繁な対立遺伝子が哺乳類の進化の間厳しく保存されたことを明らかにした（Ｋｒａｗｃｚａｋなど１９９９）。おもしろいことに、ヒトＧＨ１遺伝子における−１位置（ＳＮＰ１２）での３つの代替の対立遺伝子のうち最もまれなものは、哺乳類のオーソロガスで厳しく保存されたものと同一であった。

“ＲｅｄｕｃｅｄＭｅｄｉａｎＮｅｔｗｏｒｋ”（図７）は、野生型ハプロタイプＨ１は単一の突然変異の事象によって他の頻繁なハプロタイプに直接的に接続されないことを明らかにした。２番目に一般的なハプロタイプ、Ｈ２はＨ２３及びＨ１２を経てＨ１に接続され、一方、３番目に一般的なハプロタイプ、Ｈ３は非観察のハプロタイプ又は二重変異を通してそれぞれＨ１に接続される。さらなるハプロタイプを組み込むようなこのネットワークの拡大は、ハプロタイプごとの観察の数が少ないため、信頼できないと考えられた。その上、ネットワークの拡大は、多数の単一の塩基対の置換の導入を必要としただろう。これらは先在のハプロタイプ間の遺伝子変換の連続のラウンドから区別されることができないため、ネットワークにおける結果としての距離は本当の進化論の関係を反映しそうになかっただろう。しかしながら、それぞれの突然変異が１回のみ起こるため、これは、７の最も頻繁なハプロタイプを接続する図７に図示されたネットワークのための場合であると安全に思われるかもしれない。

物理的な距離との連鎖不均衡（ＬＤ）の一般的な衰退は、いくつかの注目すべき例外（表６）で、ほとんどのＳＮＰｓで認められた。したがって、ＳＮＰ９は、全ての他の近位プロモーターＳＮＰｓとの比較的弱いＬＤを示すＳＮＰ１６を含む他のＳＮＰｓとの強いＬＤ内にあることがわかった。この調査結果は、ＳＮＰ９の起源は比較的遅れていたと示唆する。しかしながら、ＳＮＰ１０はＳＮＰ１１（ρ＝０．３８１）ではなくＳＮＰ１２との完全なＬＤ内にあることがわかり、一方で、ＳＮＰ８はＳＮＰ１１とＳＮＰ１０よりもより強いＬＤ内にあった（ρ＝０．９２５対０．６８７）。これらの変則的な調査結果は、近位プロモーターＳＮＰｓの中のＬＤの実在のパターンは、距離との組み換えの衰退を通して単独で発生したようではなく、むしろ、反復突然変異、遺伝子変換又は選択のような他のメカニズムの作用を反映しそうであると示唆する。

「超最大及び準最小のハプロタイプの予測及び機能試験」
ハプロタイプに依存した近位プロモーター発現データのために得た“最適な”回帰ツリーに基づいて、発現のレベルに関して潜在的な“超最大（ｓｕｐｅｒ−ｍａｘｉｍａｌ）”及び“準最小（ｓｕｂ−ｍｉｎｉｍａｌ）”のハプロタイプを予測する試みがなされた。このために、６つの主要なＳＮＰｓの対立遺伝子が、ツリーの適切なリーフの平均の表現レベルを考慮して選ばれた（表５）。残っているＳＮＰｓの対立遺伝子は個々のＳＮＰｓの発現をそれぞれ最大化又は最小化するように決定された。したがって、予測された超最大のハプロタイプのために、ＳＮＰｓ６、７、９及び１１の対立遺伝子はリーフ１０にあり、一方で、ＳＮＰｓ１及び１４の対立遺伝子はリーフ７にあった。準最小ハプロタイプはリーフ１（ＳＮＰｓ１、７、９及び１４のための）を表すために選択された。しかしながら、ＳＮＰｓ６及び１１のための対立遺伝子の最良の選択は、多少あいまいであった。リーフ２（対立遺伝子ＴとＧを示す）とリーフ４（対立遺伝子ＧとＡを示す）が同様に低い平均発現レベルを予測したからである。したがって、ｉｎｖｉｔｒｏの試験のための両方の構成物を発生させるように決定された。残っているＳＮＰｓのための仮想のハプロタイプの完成は、超最大のハプロタイプＡＧＧＧＧＴＴＡＴ−ＡＴＧＧＡＧ及び準最小のハプロタイプＡＧ−ＴＴＧＴＧＧＧＡＣＣＡＣＴ、ＡＧ−ＴＴＴＴＧＧＧＧＣＣＡＣＴをもたらした。そして、これらの３つの人工的なハプロタイプは構成され、野生型（ハプロタイプ１）に比較してそれぞれ１４５±４、５５±５及び２０±８％の発現レベルをそれぞれもたらしたラット脳下垂体細胞で発現された。

「移動度シフト（ＥＭＳＡ）アッセイによって明らかにされたＳＮＰ対立遺伝子間の違い」
ＥＭＳＡは、全ての近位プロモーターＳＮＰ部位で、全ての対立遺伝子の変異のために、核タンパク質のソースとしてラット脳下垂体細胞を用いて実行された。タンパク質相互作用バンドは部位―１６８、−７５、−５７、−３１、−６／−１／＋３及び＋１６／＋２５で求められた（表７）。タンパク質相互作用バンドの数での対立遺伝子間の違いは部位―７５（ＳＮＰ８）、−５７（ＳＮＰ９）、−３１（ＳＮＰ１０）、−６／−１／＋３（ＳＮＰｓ１１、１２、１３）及び＋１６／＋２５（ＳＮＰｓ１４、１５）のために認められた（図８；表７）。後の２つの部位のケースでは、特定のＳＮＰ対立遺伝子の組合せでのＥＭＳＡアッセイは、特異的なタンパク質結合がそれぞれＳＮＰ部位１２及び１５での対立遺伝子の変異に起因することが示唆された。分析がＨｅＬａ細胞抽出物を用いて繰り返されると、位置−５７のみがタンパク質相互作用に関する証拠を示し、そして、Ｔ対立遺伝子ではなくＧ対立遺伝子のためのみであった（データでは示されない）。２つの異なったＰｉｔ−１結合部位に対応するオリゴヌクレオチドを利用する競合実験の結果は、２つのＳＮＰ８相互作用タンパク質の１つがＰｉｔ−１であることに一致した（図８）。しかしながら、対立遺伝子特定タンパク質相互作用は、含まれる他のタンパク質がＰｉｔ−１でないと含意しながら影響を受けないままで残った。

「ｉｎｖｉｔｒｏのプロモーターハプロタイプ発現とｉｎｖｉｖｏの身長との間の関係」
ＧＨ１近位プロモーターのハプロタイプ特定ｉｎｖｉｔｒｏ発現を、１２４人の男性コーカサス人での成人身長と関連させることを試みた。それぞれのハプロタイプが正規化したｉｎｖｉｔｒｏ発現データ（表４）からのその平均発現値を割り当てられ、２つのハプロタイプの平均のＡ_ｘ＝（μ_{ｎｏｒ，ｈ１}＋μ_{ｎｏｒ，ｈ２}）／２はそれぞれの個体のために計算された。Ｈ１のためのホモ接合性である個体は分析から除かれた。Ａ_ｘ値（１．０）がいずれの原因となる変異にも寄与していないだろうからである。これは適当な遺伝子型で１０９人の身長が知られた個体のサンプルをもたらした（表８）。メディアン（１．７６５ｍ）より上及び下の身長がメディアン（０．９）より上及び下のＡ_ｘ値と比較されると、身長とＧＨ１近位プロモーターハプロタイプ関連したｉｎｖｉｔｒｏ発現のための証拠は現れた（χ^２＝４．８４６、１ｄ．ｆ．、Ｐ＝０．０２８）。これにもかかわらず、二次多項式を使用する回帰分析は、２つのμ_ｎｏｒ値がそれら自身の比較的乏しい身長の予測値であると示した。決定係数はｒ^２＝０．０２５であるため、身長の変異のほぼ２．５％はｉｎｖｉｔｒｏのＧＨ１遺伝子近位プロモーターハプロタイプ発現への参照によって占められると結論づけられるだろう。

「遺伝子座制御領域（ＬＣＲ）の多型及び近位プロモーター強度」
３つの新しい多型の変化が研究グループからランダムに選択された１００人の個体のスクリーニングにおいてＧＨ１ＬＣＲの部位I及びII（ＧＨ１遺伝子の脳下垂体特有の発現のために必要である）内に見つけられた。これらはヌクレオチド位置９９０（Ｇ／Ａ；０．９０／０．１０）、１１４４（Ａ／Ｃ；０．６５／０．３５）及び１１９４（Ｃ／Ｔ；０．６５／０．３５）に位置された（Ｊｉｎなどにしたがって番号付けした。１９９９）。１１４４及び１１９４での多型は、全体で連鎖不均衡にあり、３つの異なるハプロタイプが観察された：ハプロタイプＡ（９９０Ｇ，１１４４Ａ，１１９４Ｃ；０．５５）、ハプロタイプＢ（９９０Ｇ，１１４４Ｃ，１１９４Ｔ；０．３５）及びハプロタイプＣ（９９０Ａ，１１４４Ａ，１１９４Ｃ；０．１０）。

３つのＬＣＲハプロタイプが下流のＧＨ１遺伝子の発現で異なる効果を働かせるか否かを決定するために、たくさんの異なるＬＣＲ−ＧＨ１近位プロモーター構成物が作製された。３つの代替１．６ｋｂＬＣＲ含有断片は、３つの別個のタイプの近位プロモーターハプロタイプ、すなわち、“高発現プロモーター”（Ｈ２７）、“低発現プロモーター”（Ｈ２３）及び“正常発現プロモーター”（Ｈ１）の下流側で直接に、ｐＧＬ３の中にクローン化され、全体で９つの異なるＬＣＲ−ＧＨ１近位プロモーター構成物をもたらした。そして、これらの構成物は、ラットＧＣ細胞及びＨｅＬａ細胞の両方で発現され、結果としてのルシフェラーゼ活性が測定された。ＧＨ細胞では、ＬＣＲの存在は、近位プロモーター単独と比べて、２．８倍まで発現を強化する（表９）。しかしながら、この誘起効果の範囲は連鎖プロモーターハプロタイプに依存した。変異の２つの方法の分析（表１０）は、主要な影響が近位プロモーターによって及ぼされる状態で、主な効果及びプロモーター^＊ＬＣＲ相互作用の両方が重要であることを明らかにした。また、それぞれのプロモーターハプロタイプのために個々に実行された、９５％有意水準におけるＴｕｋｅｙのステューデント化された範囲試験の結果が表９に含まれる。プロモーターハプロタイプ１に関連して、ＬＣＲハプロタイプＡの活性はＮ（近位プロモーターを含むがＬＣＲを欠いている構成物）のものとかなり異なるが、ＬＣＲハプロタイプＢ及びＣのものから異なるわけではない；ＬＣＲハプロタイプＢ及びＣは互いに及びＮと有意差がある。しかしながら、プロモーター２７とともに、ＬＣＲハプロタイプ間にはいかなる有意差も見つけられなかった。発現のＬＣＲを介した誘導は、ＨｅＬａ細胞における近位プロモーターハプロタイプのいずれとともにも認められなかった（データには示されない）。

ＬＣＲと近位プロモーターＳＮＰｓとの間の物理的な距離が物理的にハプロタイプを形成する結合を許容するには大きすぎるため、これらの間の連鎖不均衡（ＬＤ）は、近位プロモーターのためのＳＮＰ間のＬＤの分析に含まれる１００人の個体からの遺伝子型データを用いて、最尤法によって評価される。プロモーターＳＮＰｓとＬＣＲハプロタイプとの間のペアワイズＬＤがＳＮＰ１６を除いた全てのＳＮＰｓで高いことがわかった（表６）。したがって、ＳＮＰ１６は、ＳＮＰ１６と強い連鎖不均衡にあるとわかった唯一のＳＮＰであるＳＮＰ９の発生の前に反復突然変異の対象であったと結論づけられるだろう。ＬＣＲハプロタイプ間の実質的な違いはＳＮＰｓ４、８及び１６とのＬＤに関連して存在し（表６）、ハプロタイプＡと対照的にＬＣＲハプロタイプＢで比較的若い年齢を示唆する。

我々の研究において、全体で４０の異なるプロモーターハプロタイプにおいてそれ自身で示すＧＨ１遺伝子の近位プロモーター内の１６のＳＮＰ位置のうち１５で変異が起こると、我々は決定した。１２のハプロタイプは、ハプロタイプ１と比較して、ルシフェラーゼレポーター遺伝子発現のかなり減少したレベルと関連することがわかり、一方で、１０のハプロタイプはかなりの増加するレベルに関連付けられた。我々のデータは、ＧＨ１遺伝子プロモーターにおける多型変異に起因する成人身長における変異の慣習の見積もり（２．５％）が保守的であり、最小限としてみなされるべきであることを示唆する。

我々の研究グループで観察されたハプロタイプ頻度から、正規母集団のおよそ８．２％は、とても低い発現のＧＨ１近位プロモーターハプロタイプ（同一又は非同一のいずれか）であるため、野生型のものの５０％と等しい又はそれより少ないｉｎｖｉｔｒｏのＧＨ生成物と関連づけることができないことが予測される。

多様なｃｉｓ作用調節配列は、成長ホルモン遺伝子の近位プロモーター領域で特定された。これらの要因のいくつかは相乗効果的にそれらの効果を働かせるかもしれないが、他のものは互いに排他的なやり方でプロモーターモチーフに結合するように見える。ＧＨ１遺伝子プロモーター領域の点検は、１５のＳＮＰｓのいくつかが転写因子結合部位内に位置されることを示す（図２）。したがって、３つのＳＮＰｓクラスターは転写開始部位（ＳＮＰｓ１１〜１３）の周りにクラスターする。１つはＴＡＴＡボックス（ＳＮＰ１０）に隣接する近位ＶＤＲＥの３’端で発生し、１つは末端のＶＤＲＥ（ＳＮＰ９）内で、１つは近位Ｐｉｔ−１結合部位（ＳＮＰ８）、そして１つはＮＦ１結合部位（ＳＮＰ６）内で発生する。切断プロモーター構成物の発現分析は、ＧＨ１遺伝子発現でのＳＮＰｓ１〜５の制限された影響と一致した。

ハプロタイプの分割は、６のＳＮＰｓ（番号１、６、７、９、１１及び１４）をＧＨ１遺伝子発現レベルの主要な決定因子として特定した。さらに６のＳＮＰｓがわずかに有益である状態である（Ｎｏ．３、４、８、１０、１２及び１６）。全ての１６のＳＮＰｓの機能的な有意性は、ＧＨ１近位プロモーターにおける６の多型部位が核酸結合タンパク質と相互作用することを示したＥＭＳＡアッセイによって調査された；これらの部位の５つ（ＳＮＰ８（−７５）、９（−５７）、１０（−３１）、１２（−１）及び１５（＋２５））に代替対立遺伝子が異なるタンパク質結合を示した。

我々の研究はまた、それらの発現レベルに関して、潜在的な超最大及び準最小のハプロタイプを予測するのに焦点をあわせた。試験される場合、準最小のハプロタイプの一つは、いかなる自然に起こるハプロタイプよりより低いレベルの発現を示し、ハプロタイプ分割のプロセスの効能を示す結果をここで説明した。

したがって、ＧＨ１遺伝子プロモーター強度におけるハプロタイプ依存の違いのための分子の基礎が、同族の結合部位の別バージョンへの多数の転写因子の特異的な結合のネット効果にあるかもしれないと、我々は仮定した。これらの部位の別バージョンは、多様なＳＮＰｓのそれらが含有する異なる対立遺伝子のため異なるが、プロモーターハプロタイプの観察されたアレイを結合して構成する。ヒト遺伝子の転写活性は、遺伝子プロモーターでの同族の結合部位の異なる組み合わせと置換との転写因子の相互作用によって介される。いくつかの転写因子は、ｃｉｓ作用ＤＮＡ配列モチーフによって直接的に整合され、他のものは、転写因子がパズルピースを構成したパズルテンプレートをＤＮＡ配列が与える３次元ジグソーパズルにたとえられたタンパク質―タンパク質の相互作用によって非直接的に整合された。プロモーターのこのモジュールの視点は、転写因子結合、トランスクリプトソームアセンブリ及びこれによる遺伝子発現に異なる効果を働かせるように、所定のハプロタイプにおける異なるＳＮＰの組み合わせの効果がどのくらい注入されただろうかを把握するための一つに役立つ。したがって、例えば、遺伝子発現でのＧＨ１プロモーターＳＮＰｓの観察された非付加的な効果は、影響を受けている１−ＳＮＰ部位での所定のタンパク質の対立遺伝子特有の特異的な結合が、順に、それ自体が対立遺伝子特有タンパク質結合の影響を受けやすい他のＳＮＰ部位での第２のタンパク質の結合に影響することに関して、理解されるだろう。

我々の研究において、増大の程度は連鎖近位プロモーターハプロタイプの同一性に依存することがわかったが、ＬＣＲ断片は、２．８倍まで、ＧＨ１近位プロモーターの活性を高めることに役立つ。反対に、所定のハプロタイプの近位プロモーターの活性の増大はまた、ＬＣＲハプロタイプの同一性に依存することがわかった。これらをもとに、これらの調査結果は、ＧＨ１遺伝子発現における個体間の違いの遺伝子の基礎がかなり複雑でありそうであることを示唆する。したがって、我々の結果は、核酸分子の機能性を予測する際にハプロタイプの有意性を実証し、遺伝子のデータの分析で役立つステージを示す。

図１：異なるプレートで測定された負のコントロールのＧＨ１遺伝子プロモーター発現（ａ）、及び野生型のプレートワイズ平均発現レベルの倍数として表示される野生型ハプロタイプ（１）の正規化された発現レベル（ｂ）。図２：転写開始位置（矢示）と相対するＧＨ１プロモーターにおける１６のＳＮＰｓの位置。斜線ボックスはエキソン１を示す。転写因子、核因子１（ＮＦ１）、Ｐｉｔ−１とビタミンＤレセプター（ＶＤＲＥ）、ＴＡＴＡボックス及び翻訳開始コドン（ＡＴＧ）のための結合部位がともに示される。図３：野生型（ハプロタイプ１）と相対する４０のＧＨ１ハプロタイプの正規化された発現レベル。ルシフェラーゼレポーター遺伝子発現（ハプロタイプ１との組合せによる）のかなり減少しているレベルに関連したハプロタイプは斜線の棒によって示される。ルシフェラーゼレポーター遺伝子発現（ハプロタイプ１との組合せによる）のかなり増加しているレベルに関連したハプロタイプは塗りつぶした棒によって示される。ハプロタイプは有病率（ｐｒｅｖａｌｅｎｃｅ）の高いほうから低いほうへ順に並べられる。図４：正規化された発現レベルの最小の相対的な残差乖離度δ_Ｒ（Π_{ｋ，ｍｉｎ}）はｋＳＮＰｓ（陰影の棒）を用いてハプロタイプ分割に関係付けた。点付きの曲線は、最小δ_Ｒ分割Π_{ｋ，ｍｉｎ}を含むハプロタイプの数を示す。図５：６つの選択されたＳＮＰｓ（ｎｏ．１、６、７、９、１１及び１４）を用いて、最小の乖離度の中間のツリーのためのサイズとクロス確認した（ｃｒｏｓｓ−ｖａｌｉｄａｔｅｄ）δ_Ｒ値との間の関係。点線（水平）は、十分な成長ツリーのクロス確認したδ_Ｒの１つのＳＥに対応し、破線（垂直）はクロス確認したδ_Ｒが十分に成長したツリーのものの１つのＳＥ内で置かれる最も小さいツリーを示す。図６：６つの選択されたＳＮＰｓ（ｎｏ．１、６、７、９、１１及び１４）を用いて、帰納的なハプロタイプの２分割によって得られるＧＨ１遺伝子プロモーター発現の回帰ツリー。ノード上の数はそれぞれのノードが分割されるＳＮＰｓを示す。末端ノード（“リーフ”）は正方形として示され、左から右へ番号付けされる。図７：１５４人の男性のコーカサス人において少なくとも８回観察された７つのハプロタイプ（円）に関連する“ＲｅｄｕｃｅｄＭｅｄｉａｎＮｅｔｗｏｒｋ”。それぞれの円のサイズは制御サンプルにおけるそれぞれのハプロタイプの頻度に比例する。ハプロタイプＨ１２及びＨ２３は、それらはそれぞれ５及び２回のみ観察されたにもかかわらず、ノードに関連するように含まれた。ハプロタイプが異なるＳＮＰｓは各枝と並んで与えられた。濃いドットはＳＮＰ部位４及び５での非観察のハプロタイプ又は二重の突然変異体をマークする。図８：ＧＨ１プロモーターＳＮＰ対立遺伝子間のタンパク質結合能力における違いは、電気泳動移動度シフト（ＥＭＳＡ）アッセイによって明らかにされた。矢印は対立遺伝子特有相互作用タンパク質を示す。矢尻は、Ｐｉｔ−１のような結合タンパク質の位置を示す。−ｖｅ（負のコントロール）、＋ｖｅ（正のコントロール）、Ｓ（特定の競合）、Ｎ（非特定の競合）、Ｐ（Ｐｉｔ−１コンセンサス配列）、Ｐ^＊（プロラクチン遺伝子Ｐｉｔ−１結合部位）、ＴＳＳ（転写開始部位）。

Claims

表現型の主な決定子である突然変異体及び／又は多型を特定するための方法であって、
検討中の遺伝子の突然変異体及び／又は多型のそれぞれ選択されたグループについて、残差乖離度（δ：ｒｅｓｉｄｕａｌｄｅｖｉａｎｃｅ）を調査することを含むことを特徴とする方法。
残差乖離度（δ）は突然変異体及び／又は多型のそれぞれの部分集合について決定されることを特徴とする請求項１に記載された方法。
ハプロタイプ｛１・・・ｍ｝の分割の残差乖離度（δ）は突然変異体及び／又は多型のそれぞれの可能な部分集合に基づくことを特徴とする請求項２に記載された方法。
残差乖離度（δ）は次式に等しいことを特徴とする請求項１から３のいずれか１項に記載された方法。
請求項１から４のいずれか１項に記載された方法の使用であって、
対応する超最大の表現型及び準最小の表現型の主な決定子である超最大及び／又は準最小のハプロタイプを予測するためのものであることを特徴とする方法の使用。
請求項１から４のいずれか１項に記載された方法の使用であって、
表現型の有意性のものである一塩基多型ＳＮＰｓを特定するためのものであることを特徴とする方法の使用。
個体における少なくとも１つの表現型の指標のように作用する効果的なハプロタイプを検出するための検出方法であって、
検出方法は次のステップを含むことを特徴とする方法：
（ａ）試験される個体から遺伝物質の試験サンプルを得て、前記物質は少なくとも選択された遺伝子又はその断片を含むものであり、
（ｂ）一塩基多型（ＳＮＰｓ）が遺伝子内のいずれか１以上のＳＮＰ部位に存在するか否かを確かめるために、前記遺伝子又はその断片のヌクレオチド配列を分析し、そして、
（ｃ）前記ＳＮＰｓが存在するところで、それらを前記個体のハプロタイプを決定するために特定し、そして前記ハプロタイプを請求項１から４のいずれか１項に記載された分析の対象とする。
請求項１から４のいずれか１項に記載された方法によって特定された表現型として有意性のあるハプロタイプであって、
前記表現型によって特性が明らかにされた病気の診断又は治療で使用するためのものであることを特徴とするハプロタイプ。