JP2007523600A

JP2007523600A - 多重配列変異体解析を用いる遺伝子診断

Info

Publication number: JP2007523600A
Application number: JP2006501390A
Authority: JP
Inventors: ザボー，マルク; スタンセン，パトリック; ガンセマン，ヤンニック
Original assignee: メセクシスゲノミクスエヌ．ヴイ．
Priority date: 2003-02-27
Filing date: 2004-02-27
Publication date: 2007-08-23
Also published as: CA2517478A1; EP1615989A2; AU2010202676A1; WO2004076612A2; US20100082261A1; US20100092964A1; AU2004215928A1; WO2004076612A3; US7593818B2; WO2004076611A2; US20050026173A1; US7996157B2; US7584058B2; US20050118607A1; WO2004076611A3; US20050277135A1; US7974789B2; AU2004215928B2; US20090104601A1; EP1615989B1

Abstract

本発明は、核酸に基づく遺伝的解析の分野に関する。さらに特定すると、本発明は、あらゆる生物種における遺伝子変異の全体構造への新規な洞察を開示する。前記構造は、特定の遺伝子座からの遺伝子変異のデータセットを用いることにより明らかにされる。本発明は、特定の表現型形質との相関を検索するための遺伝的マーカーとして最もふさわしい変異のサブセットを定めるのに有用である。さらに、前記洞察は、遺伝子型データを成分ハプロタイプ（実験的方法で導き出すには労力とコストがかかる）に変換するアルゴリズムおよびコンピュータプログラムを開発するのに有用である。本発明は、(i)ゲノムワイド関連性研究、(ii)臨床in vitro診断、(iii)植物および動物の育種、(iv)微生物の同定のような分野において有用である。

Description

本発明は、核酸に基づく遺伝子解析の分野に関するものである。さらに特定すると、本発明は、あらゆる生物種における遺伝子変異の全体構造への新規な洞察を開示する。

ヒトゲノム配列の変異は、多くの頻度の高い医学的症状の病因において重要な決定要因となっている。ヒト集団に見られるヘテロ接合性は所与の遺伝子配列の共通の変異体に起因すると考えられ、当業者は共通の遺伝子変異を包括的に同定して、そのような変異を医学的症状と結びつけようとしてきた [Lander, Science 274 : 536, 1996 ; Collinsら, Science 278: 1580, 1997; Risch, Science 273: 1516, 1996]。近年、推定される1000万 [Kruglyak, Nature Genet 27:234, 2001] の共通の一塩基多型(SNPs)のうち400万 [Sachidanandamら, Nature 409: 928 [2001]; Venterら, Science 291:1304, 2001] がすでに知られていると推定されている。したがって、DNA配列解析の分野でのこうした進展は、部分的にまたは完全に配列決定がなされたゲノムの急速な蓄積をもたらしている。次なるチャレンジは、集団サンプルに見いだされる配列変異（遺伝的多型）のリストを入手し、その情報を用いて当該集団の個体間に観察される表現型変異の遺伝的基礎を解明することである。理想的には、そうした解析により、その表現型を生化学的に決定する原因となる遺伝子変異体が直接的に解明されると考えられる。

実際、重要な表現型効果を有する遺伝子座／多型を同定するには、大きなセットの配列変異をくまなく検索して、直接の原因となる（他の部位の）変異との連鎖不平衡(linkage disequilibrium: LD)により、表現型相違と統計的に関連している代理マーカーを見つける必要がある。LDは隣接する多型の対立遺伝子の非ランダムな関連（non-random association）である。ある部位の特定の対立遺伝子が第2の部位の特定の対立遺伝子と共遺伝される（これらの部位がその集団において独立して分離している場合は期待値よりも高い頻度で）ことが分かっている場合、これらの遺伝子座は連鎖不平衡にある。LDは最近、全ゲノム関連性研究を介して機能的に重要な遺伝子座のマッピングへの近道を提供しうるという考えから、熱心な研究の的となってきている。

残念ながら、LDは遺伝的多型の距離およびパターンの単純な関数ではなく、様々なゲノムプロセシングおよび人口学的現象により形作られ、複雑にみえる。遺伝子マッピングの研究は、究極的にはLDの程度および空間的構造の知識に依存する。なぜなら、遺伝的マーカーの数は可能なかぎり小さく維持されるべきであり、その結果そのような研究は手ごろなコストで大きな集団に応用できるからである。かくして、重要な解析上のチャレンジは、最大限のトータルな関連情報を用いて最小セットのSNPを同定することであり、また、試験される変異の減少とゲノムワイドサーベイ（genome-wide survey）の有用性／効率の起こりうる低下のどちらをとるべきかを考え比べることである。また、最終的に用いられるSNP選択アルゴリズムは、所定のプラットフォーム上での所定のSNPに関するアッセイを設計するのに要するコストおよび困難性を明らかにされるべきである。特定のSNPはある領域では最もインフォーマティブでありうるが、測定するのが困難であるかもしれない。

したがって、ヒト種を除いて、他の多くの系ではSNPが十分には研究されていない。ある研究 [Tenaillonら, Proc. Natl. Acad. Sci. USA 98: 9161-9166, 2001] では、トウモロコシ(Zea mays ssp. mays L.)の1番染色体に沿って分布する21の遺伝子座における配列多様性が検討された。このサンプルは、外来作物16個体と米国で同系交配された系統9個体に相当する25個体から成っていた。この研究から導き出された第1の最も明白な結論は、トウモロコシが非常に多様性に富んでいて、このサンプルでは28bpごとに平均1つのSNPを含んでいる、ということであった。これはヒトまたはキイロショウジョウバエ（Drosophila melanogaster）のいずれよりも高い多様性レベルである。この研究から導き出された第2の主要な結論は、トウモロコシでは高LDの広範な領域が稀であり、関連性解析のためのゲノムワイドサーベイには100〜200bpごとに1つのSNPのマーカー密度が必要である、ということであった。

多重SNPハプロタイプが個々のSNPよりも効率的でインフォーマティブな遺伝的マーカーとして提案されている [Judsonら, Pharmacogenomics 1: 15-26, 2000; Judsonら, Pharmacogenomics 3: 379-391, 2002; Stephensら, Science 293: 489-493, 2001; Drysdaleら, Proc. Natl. Acad. Sci. USA 97:10483-10488, 2000; Johnsonら, Nat. Genet. 29: 233-237, 2001]。ハプロタイプは、ゲノムにおける変異の組織化をとらえて、集団の遺伝歴の記録を提供する。したがって、ハプロタイプに基づく不平衡試験は、観察されていないが進化的に連鎖された可変性の部位をたどるのに、単一のマーカーよりも大きな力を発揮する。

ヒト遺伝学における最近の研究 [Dalyら, Nat. Genet. 29: 229-232, 2001; Dalyら, 特許出願US 2003/0170665 Al; Patilら, Science 294: 1719-1723, 2001; Gabrielら, Science 296: 2225-2229, 2002; Dawsonら, Nature 418: 544-548, 2002; Philipsら, Nat. Genet. 33:382-387, 2003; Wall & Pritchardによる概説, Nature Rev. Genet. 4: 587-597, 2003] は、ゲノムの少なくとも一部がブロック（すなわち、相当な大きさの領域であって、該領域にわたって組換えの証拠がほとんど存在せず、該領域の内部には少数の共通なハプロタイプが観察されるにすぎない）に解析されうることを示しており、つまり、1ブロックに観察される配列変異体は、大多数の個体では同じ対立遺伝子の組合せとして現れることが多い。「ハプロタイプブロック」モデルの主な魅力は、それがゲノム領域全体の遺伝子変異の解析を単純化しうることにあり、その考え方は、限られた数の共通したハプロタイプが相当な大きさの領域にわたる遺伝子変異の大半をとらえるということにあり、また、これらの一般的なハプロタイプ（およびこれらのハプロタイプに含まれる未発見の変異体）が少数の「ハプロタイプタグ」SNP（htSNP）の使用により診断されうるということにある。「ハプロタイプブロック」の概念は、国際HapMapプロジェクト [http://www.hapmap.org; Dennis C., Nature 425: 758-759 (2003)] を活気づけている。これまで、ハプロタイプブロック構造はヒトにおいて研究されたにすぎない。

その他の研究は、高い割合（75〜85％）のヒトおよびキイロショウジョウバエのゲノムには、いわゆる「yin-yangハプロタイプ」、すなわち一対の高頻度ハプロタイプ（それらはSNPごとに異なっているという点で完全に相反する）が存在していることを報じている [Zhangら, Am. J. Hum. Genet. 73: 1073-1081, 2003]。

ごく最近になって、Carlsonと共同研究者ら [Carlsonら, Am. J. Hum. Genet. 74: 106-120, 2004] は、関連性研究でのアッセイ用に、最大限にインフォーマティブなSNPのサブセット（タグSNPと呼ばれる）を選択するためのアルゴリズムを開発した。この選択アルゴリズムは、「ハプロタイプブロック」の概念ではなくLDのパターンに基づくものである。それはSNPを関連部位のビン(bin)として分類するためのr² LD統計学を利用している。そのビン内で、他の全ての部位と共に十分にストリンジェントなr²閾値を越えるSNPはどれもタグSNPとして役立ち、ビンあたりただ1つのタグSNPについて遺伝子型を判定すればよい。研究対象の領域中の他のSNPと共に該閾値を越えないSNPはシングルトン(singleton)ビンに配置される。

複数の遺伝子座でヘテロ接合性の、二倍体の無関係な個体からのハプロタイプの判定は困難である。従来の遺伝子型判定法はいくつかの異なるマーカーの相(phase)の特定を可能にしない。例えば、N個の2対立遺伝子（bi-allelic）SNPを含むゲノム領域は、理論的には、完全な平衡の場合には2^Nのハプロタイプをもたらすことができるが、実際の数は組換え現象および繰り返し起こる突然変異の非存在下でのSNP数よりも少なくなるはずである [Hardingら, Am. J. Hum. Genet. 60: 772-789, 1997; Fullertonら, Am. J. Hum. Genet. 67: 881-900, 2000]。ラージスケールでの研究 [Stephensら, Science 293: 489-493, 2001] は、ハプロタイプ変異がSNPの数よりわずかに多いことを示している。

ハプロタイプを決定するための1つのアプローチは、2つの相同なゲノムDNAを分離する分子的技法を用いることである。DNAクローニング、体細胞ハイブリッド構築 [Douglasら, Nat. Genet. 28: 361-364, 2001]、対立遺伝子特異的PCR [Ruano & Kidd, Nucl. Acids Res. 17: 8392, 1989]、および単一分子PCR [Ruanoら, Proc. Natl. Acad. Sci. USA 87:6296-6300, 1990; Ding & Cantor, Proc. Natl. Acad. Sci. USA 100: 7449-7453, 2003] がすべて用いられてきた。あるいはまた、一親等の血族（例えば、親と子の関係）の遺伝子型が入手可能である場合には、ハプロタイプを（部分的に）分析することができる [Wijsman E.M., Am. J. Hum. Genet. 41: 356-373, 1987; Dalyら, Nat. Genet. 29: 229-232, 2001]。

実験的アプローチおよび家系に基づいたアプローチにおける困難性とコストを避けるために、無関係の個体から相を予測するための、または集団-ハプロタイプ頻度を推定するためのコンピュータアルゴリズムがいくつか開発されている。こうしたアプローチには以下のものが含まれる：クラークの節減法（Clark’s parsimony method）[Clark A.G., Mol. Biol. Evol. 7: 111-121, 1990]、最尤法、例えばEMアルゴリズム [Excoffier & Slatkin, Mol. Biol. Evol. 12: 921-927, 1995]、ベイズ統計学に基づいた方法、例えばPHASE [Stephensら, Am. J. Hum. Genet. 68: 978-989, 2001]、および完全系統学(perfect phylogeny)に基づく方法 [Bafnaら, J. Comput. Biol. 10: 323-340, 2003]。これらの確率論的方法はどれも精度（取り扱うSNPの数および試験する集団の大きさに左右される）およびスケーラビリティー(scalability)に制限がある。

いくつかの最近の経験的研究（前掲）は、遺伝子変異の全体的な構造の知識を大いに増大させている。しかしながら、例えばハプロタイプブロックの概念は正当性を立証することが残っており、ヒトゲノムの全ての領域がこの概念に適合するわけではなく、そして／また、この概念の真価は他の生物種には限られている、ことに留意すべきである。その成果にかかわりなく、遺伝子変異データの複雑さは相当のものであるので、当技術分野は、集団の遺伝子変異の組織化（最終的には、最もインフォーマティブなマーカーの同定／開発をもたらす）の理解を促進させる新規な技術の飛躍的発展から大いに利益を享受するにちがいない。遺伝子変異の構造についての知見は、(i)ゲノムワイド関連性研究、(ii)臨床診断、(iii)植物および動物の育種、および(iv)微生物の同定を含めて、様々な分野において有用であろう。

発明の概要
本発明は、あらゆる生物種における遺伝子変異の全体的な構造への新規な洞察を開示する。その構造は、特定の遺伝子座からの遺伝子変異体のデータセットを用いて明らかにすることができる。本発明は、特定の表現型形質との相関を検索するための遺伝的マーカーとして最もふさわしい変異のサブセットを定めるのに有用である。さらに、この洞察は、遺伝子型データを成分ハプロタイプ（実験的方法で導き出すには労力とコストがかかる）に変換するアルゴリズムおよびコンピュータプログラムの開発にも有用である。本発明は、(i)ゲノムワイド関連性研究、(ii)臨床in vitro診断、(iii)植物および動物の育種、ならびに(iv)微生物の同定といった分野において有用である。

本発明は、ある遺伝子座における遺伝子変異のパターンが、強い連鎖を示す散在した多型のクラスタにより形成される、という認識に基づいており、例えば、各グループの多型部位の対立遺伝子は本質的にたった2つの組合せで見いだされる。これらの多型のグループは、本明細書では配列多型クラスタ（Sequence Polymorphism Clusters：SPC）と呼ばれる。ある特定のSPCは1つのハプロタイプに特異的であるが、他のSPCはいくつかのハプロタイプに共通しており、それゆえに関係のあるハプロタイプの分岐群(clade)を定めるために使用される。SPCの関係は階層的ネットワークを用いて表すことができる。いくつかのSPCは互いに独立した関係で見いだされ、別個のハプロタイプ上に存在する。他のSPCは従属性であり、それらの包括性のレベルに応じてランク付けすることができる。すなわち、従属性SPCは1以上の分岐群特異的SPCと共に部分的に出現する。SPCは組換え現象によって妨げられることがある。SPC中の多型の数およびそのスパンは可変的であり、その結果として、対象となるゲノム領域のSPCのセットは同じ境界を共有する必要がない。

SPCの包括的なカタログは、種々の表現型および形質における遺伝子変異の係わり合いを体系的に試験するための基盤を提供することができる。本発明は、関係したSPCのパターンを含むSPCマップを作成（構築、作製）する方法（コンピュータプログラム）に関する。SPCマップはクラスタタグ多型（例えば、ctSNP）の同定に使用することができる。クラスタタグ多型は、その後の遺伝子型判定研究において用いるために、対象のゲノム領域のSPCマップ中の各SPCをユニークに同定する。SPCマップは研究対象の集団だけでなくサンプルの大きさにも左右されるから、それに応じて使用されるべきである。その後、これらのctSNPの全部または一部は、表現型または形質とSPCとの関連性を同定し、その表現型または形質と関連した遺伝子の位置を局在化し、特定のSPC対立遺伝子変異の存在についてサンプルをin vitro診断し、そしてサンプルの正体（アイデンティティー）を判定する方法において使用される。また、SPCの構造は、二倍体遺伝子型を成分ハプロタイプにデコンボリューション（deconvolution）するための方法（アルゴリズム、プログラム）において使用することができ、さらに、実験による証明を必要とする遺伝子型コール（genotype call）のコレクション中の過誤を確認するための方法としても使用することができる。

したがって、一つの態様において、本発明は、対象のゲノム領域または全ゲノム領域にわたる関連したSPCのパターンを含む、対象のゲノム領域またはゲノム全体のSPCマップに関する。別の態様において、本発明は、対象のゲノム領域にわたるSPCのパターンを決定することを含む、対象のゲノム領域のSPCマップを作成する方法に関する。以下でさらに詳しく述べるように、一実施形態では、SPCマップがハプロタイプ（配列または遺伝子型判定データ）から出発して作成される。別の実施形態では、相が特定できない（unphased）二倍体遺伝子型データから出発してSPCマップが作成される。さらに別の実施形態では、特性決定がなされていない対立遺伝子変異データから出発してSPCマップが作成される。特定の実施形態では、特性決定がなされていない対立遺伝子変異データは、オリゴヌクレオチドのアレイへの対象のゲノム領域または全ゲノムのハイブリダイゼーションにより取得される。

したがって、本発明は、1以上の配列多型クラスタ（SPC）を含む対象のゲノム領域のSPCマップに関し、ここにおいて、各SPCはそのゲノム領域からの多型のサブセットを含み、該サブセットの多型は該サブセットのそれぞれ他の多型と同時発生している（coincide）。特定の実施形態においては、そのサブセットの各多型は、多型のマイナー対立遺伝子の75〜100％の同時発生パーセントに従って、該サブセットのそれぞれ他の多型と同時発生している。各多型とそれぞれ他の多型との同時発生率は、当業者に一般的に用いられる便利な方法により計算することができる。具体的な実施形態において、そのような計算は、限定するものではないが、ペアワイズ（pairwise）C値、r2連鎖不平衡値、およびd連鎖不平衡値からなる群より選択されるパラメーターに従って行なうことができる。特定の具体的実施形態では、そのパラメーターは0.75から1までのペアワイズC値である。

さらに、本発明では、対象のゲノム領域のSPCマップを作成する（in vitro）方法も想定され、その方法は、複数の被験体からの対象のゲノム領域の核酸配列を入手し、該核酸配列中の複数の多型を同定し、1以上のSPC（各SPCは該核酸配列からの多型のサブセットを含み、該サブセットの多型は該サブセットのそれぞれ他の多型と同時発生している）を同定する、各ステップを含んでなる。

本発明の別の特定の態様では、相が特定できない（unphased）二倍体遺伝子型から対象のゲノム領域のSPCマップを作成する（in vitro）方法も想定され、その方法は、複数の被験体からの対象のゲノム領域の相が特定できない二倍体遺伝子型を入手し、相が特定できない該二倍体遺伝子型に見られるメジャーおよびマイナーなメタタイプ（metatype）を判定し、1以上のSPC（各SPCは該メタタイプからの多型のサブセットを含み、該サブセットの多型は該サブセットのそれぞれ他の多型と同時発生している）を同定する、各ステップを含んでなる。

本発明の前記マップを作成する方法において、1以上のSPCを同定することは、多型のマイナー対立遺伝子の75〜100％の同時発生パーセントに従って、該サブセットのそれぞれ他の多型と同時発生している該サブセットの各多型を同定することを含むと想定される。特定の実施形態では、1以上のSPCを複数ラウンドの同時発生解析により同定することが必要である（しかし、必ずしも必要としない）と考えられる。それは、そのような反復的方法において、それぞれの連続ラウンドの同時発生解析が100％同時発生率から75％同時発生率までの低下する同時発生パーセントで行なわれるということである。典型的には、前記方法において、該サブセットのそれぞれの多型と該サブセットのそれぞれ他の多型との同時発生率は、ペアワイズC値、r2連鎖不平衡値、およびd連鎖不平衡値からなる群より選択されるパラメーターに従って計算される。特定の実施形態では、該パラメーターは0.75から1までのペアワイズC値である。

本発明のSPCマップ作成の際に用いるために同定される多型は、多型および配列変異の同定に通常用いられているどのような方法によっても同定することができる。例えば、標的核酸配列中の複数の多型の同定は、限定するものではないが、直接的な配列解析、示差的核酸解析、配列に基づく遺伝子型判定、DNAチップ解析、およびPCR解析からなる群より選択されるアッセイにより行なうことができる。

本発明の更なる態様は、遺伝子型判定において使用するために対象のゲノム領域から1以上の多型を選択する方法を包含し、この方法は、本明細書に記載するSPCマップを取得し、該SPCマップ中のユニークSPCを同定する少なくとも1つのクラスタタグ多型を選択し、対象のゲノム領域の遺伝子型判定研究において使用するのに十分な数のクラスタタグ多型を選択する、各ステップを含んでなる。特定の実施形態では、クラスタタグ多型は、一塩基多型(SNP)、欠失多型、挿入多型、および短いタンデムリピート多型(short tandem repeat polymorphism: STR) からなる群より選択される。特に好ましい実施形態では、クラスタタグ多型は形質と関連した既知のSNPである。

本発明はさらに、形質または表現型のマーカーを同定するためのin vitro方法の教示を提供し、この方法は、上述したように十分な数のクラスタタグ多型を入手し、該クラスタタグ多型を評価して、形質または表現型と少なくとも1つのクラスタタグ多型との関連性を同定する、ことを含んでなり、その際、該関連性が同定されると、該クラスタタグ多型が形質または表現型のマーカーとして同定される。さらに特定すると、クラスタタグ多型は、遺伝的障害、遺伝的障害に対する素因、疾患に対する感受性、作物または家畜の性能形質、産物の品質形質を含む群より選択される形質または表現型と相関していることが好ましい。さらに特定すると、マーカーは好ましくは遺伝的障害のマーカーであり、SPCマップを以下のようにして作成する。すなわち、それぞれが同じ遺伝的障害を発現する複数の被験体からの対象のゲノム領域の核酸配列を取得し、該核酸配列中の複数の多型を同定し、1以上のSPC（各SPCは該核酸配列からの多型のサブセットを含み、該サブセットの多型は該サブセットのそれぞれ他の多型と同時発生している）を同定する。好ましくは、これらの方法において、標的核酸配列中の複数の多型の同定は、直接的な配列解析、示差的核酸解析、配列に基づく遺伝子型判定、DNAチップ解析、およびポリメラーゼ連鎖反応解析からなる群より選択されるアッセイにより行なうことができる。

さらに、本発明においては、形質または表現型と関連した遺伝子の位置を同定する方法も提供され、この方法は、表現型と関連した所定のゲノム領域において複数のSPC（各SPCは対象のゲノム領域からの多型のサブセットを含み、該サブセットの多型は該サブセットのそれぞれ他の多型と関連している）を同定し、クラスタタグ多型のセットを同定し（該クラスタタグ多型のセットの各メンバーは該複数のSPC中のユニークSPCを同定する）、該クラスタタグ多型のセットを評価して、形質または表現型と少なくとも1つのクラスタタグ多型との関連性を同定する、ことを含んでなり、その際、クラスタタグ多型と形質または表現型との関連性が同定されると、該遺伝子の位置が示される。さらに特定すると、形質または表現型は、遺伝的障害、遺伝的障害に対する素因、疾患に対する感受性、作物または家畜の性能形質、産物の品質形質、または遺伝的解析により判定しうる他のあらゆる形質を含む群より選択される。

本出願はまた、被験体の形質または表現型のin vitro診断方法を包含し、この方法は、上述したように形質または表現型のマーカーを入手し、該被験体由来の標的核酸サンプルを取得し、該標的核酸サンプル中に形質または表現型のマーカーが存在するかを判定する、ことを含んでなり、その際、標的核酸中に該マーカーが存在すると、該被験体が該形質または表現型を有することとなる。

本発明の別の態様は、被験体の遺伝子の正体を鑑定するためのin vitro方法に関し、この方法は、複数の被験体から得られた1以上のゲノム領域の基準SPCマップを入手し、本明細書に記載するように該ゲノム領域について十分な数のクラスタタグ多型を選択し、鑑定しようとする被験体からの該ゲノム領域の標的核酸を取得し、鑑定しようとする被験体の該ゲノム領域のクラスタタグ多型の遺伝子型を判定し、該クラスタタグ多型の遺伝子型を該SPCと比較して対象の被験体の遺伝子の正体を決定する、ことを含んでなる。

さらに、本出願の更なる実施形態は、被験体の対象のゲノム領域の、相が特定できない二倍体遺伝子型からSPC-ハプロタイプを判定する方法に関し、この方法は、本明細書に記載する方法に従ってSPCマップを取得し、該SPCマップからSPC-ハプロタイプ（各SPC-ハプロタイプはゲノム領域からのSPCのサブセットを含み、該サブセットのSPC群は同時発生している）を判定し、該被験体のSPCを該SPCマップから判定されたSPC-ハプロタイプと比較することにより該被験体のSPC-ハプロタイプを同定する、ことを含んでなる。

さらに、本発明の更なる実施形態は、遺伝子型の過誤を同定する方法を含み、この方法は、対象の被験体からの遺伝子型データを入手し、該遺伝子型データを複数の個体から作成された基準SPCマップと比較する、ことを含んでなり、その際、被験体の遺伝子型とSPCマップとの差異が被験体の遺伝子型の過誤を示す。

本発明の方法に加えて、本発明はさらに、そのような方法を実行するためのコンピュータプログラム／アルゴリズムを包含する。さらに特定すると、本出願は、インストラクション（指令）を記憶させたマシンアクセス可能媒体を含む物品を記載し、該インストラクションは、マシンで実行するとき、該マシンに、複数の被験体からの対象のゲノム領域の核酸配列情報を取得させ、該核酸配列中の複数の多型を同定させ、1以上のSPCを同定させる（ただし、各SPCは該核酸配列からの多型のサブセットを含み、該サブセットの多型は該サブセットのそれぞれ他の多型と同時発生している）。さらに、前記物品は、マシンで実行するとき、該マシンに、多型のマイナー対立遺伝子の75〜100％の同時発生パーセントに従って、該サブセットのそれぞれ他の多型と同時発生している該サブセットの各多型を同定させる更なるインストラクションを含むことができる。前記物品はまた、マシンで実行するとき、該マシンに、各連続ラウンドの同時発生解析を100％同時発生率から75％同時発生率までの低下する同時発生パーセントで実行させるインストラクションをさらに含んでいてもよい。さらに、前記物品は、マシンで実行するとき、該マシンに、ペアワイズC値、C*値、r²連鎖不平衡値、Δ連鎖不平衡値、δ連鎖不平衡値、およびd連鎖不平衡値からなる群より選択されるパラメーターに従って、該サブセットの各多型と該サブセットのそれぞれ他の多型との同時発生率を計算させる更なるインストラクションを含んでいてもよい。

また、下記のインストラクションを記憶させたマシンアクセス可能媒体を含む物品も本開示の一部であり、該インストラクションは、マシンで実行するとき、該マシンに、複数の被験体からの対象のゲノム領域の相が特定できない二倍体遺伝子型のセットを取得させ、相が特定できない二倍体遺伝子型の該セットに見られるメジャーおよびマイナーなメタタイプ（metatype）を決定させ、1以上のSPCを同定させる（ただし、各SPCは該メタタイプからの多型のサブセットを含み、該サブセットの多型は該サブセットのそれぞれ他の多型と同時発生している）。前記物品はさらに、マシンで実行するとき、該マシンに、多型のマイナー対立遺伝子の85〜100％の同時発生パーセントに従って、該サブセットのそれぞれ他の多型と同時発生している該サブセットの各多型を同定させるインストラクションを含むことができる。さらに、前記物品は、マシンで実行するとき、該マシンに、多型のマイナー対立遺伝子の75〜100％の同時発生パーセントに従って、該サブセットのそれぞれ他の多型と同時発生している該サブセットの各多型を同定させるインストラクションを含むことができる。さらに、前記物品は、マシンで実行するとき、該マシンに、直接的な配列解析、示差的核酸解析、配列に基づく遺伝子型判定、DNAチップ解析、およびPCR解析からなる群より選択されるアッセイに基づいて該標的核酸配列中の複数の多型を同定させる更なるインストラクションを含んでいてもよい。

加えて、本発明は、下記のインストラクションを記憶させたマシンアクセス可能媒体を含む物品を提供し、該インストラクションは、マシンで実行するとき、該マシンに、対象のゲノム領域のSPCマップを取得させ、該SPCマップ中のユニークSPCを同定する少なくとも1つのクラスタタグ多型を選択させ、対象のゲノム領域の遺伝子型判定研究において使用するために十分な数のクラスタタグ多型を選択させる。好ましくは、前記物品はさらに、一塩基多型(SNP)、欠失多型、挿入多型、および短いタンデムリピート多型(STR) からなる群よりクラスタタグ多型を選択させる更なるインストラクションを含むことができる。

また、下記のインストラクションを記憶させたマシンアクセス可能媒体を含む物品も提供され、該インストラクションは、マシンで実行するとき、該マシンに、遺伝子型判定において使用するために対象のゲノム領域から十分な数のクラスタタグ多型を取得させ、該クラスタタグ多型を評価させて、形質または表現型と少なくとも1つのクラスタタグ多型との関連性を同定させる（その際、該関連性が同定されると、該クラスタタグ多型が形質または表現型のマーカーとして同定される）。そのような物品はさらに、マシンで実行するとき、該マシンに、クラスタタグ多型を、遺伝的障害、遺伝的障害に対する素因、疾患に対する感受性、作物または家畜の性能形質、および産物の品質形質からなる群より選択される形質または表現型と相関させるインストラクションを含むことができる。さらに、前記物品は、マシンで実行するとき、該マシンに、直接的な配列解析、示差的核酸解析、配列に基づく遺伝子型判定、DNAチップ解析、およびポリメラーゼ連鎖反応解析からなる群より選択されるアッセイに基づいて該標的核酸配列中の複数の多型を同定させるインストラクションを含んでいてもよい。

また、下記のインストラクションを記憶させたマシンアクセス可能媒体を含む物品も提供され、該インストラクションは、マシンで実行するとき、該マシンに、形質または表現型と関連した所定のゲノム領域において複数のSPCを同定させ（ただし、各SPCは対象のゲノム領域からの多型のサブセットを含み、該サブセットの多型は該サブセットのそれぞれ他の多型と関連している）、クラスタタグ多型のセットを同定させ（該クラスタタグ多型のセットの各メンバーは該複数のSPC中のユニークSPCを同定する）、該クラスタタグ多型のセットを評価させて、形質または表現型と少なくとも1つのクラスタタグ多型との関連性を同定させる。その際、クラスタタグ多型と形質または表現型との関連性が同定されると、該遺伝子の位置が示される。このような物品はさらに、マシンで実行するとき、該マシンに、該形質または表現型を、遺伝的障害、遺伝的障害に対する素因、疾患に対する感受性、作物または家畜の性能形質、および産物の品質形質からなる群より選択させるインストラクションを含むことができる。

加えて、本発明は、下記のインストラクションを記憶させたマシンアクセス可能媒体を含む物品を教示し、該インストラクションは、マシンで実行するとき、該マシンに、被験体における形質または表現型のマーカーを取得させ、該被験体からの標的核酸サンプルを取得させ、標的核酸サンプル中の形質または表現型のマーカーの存在を判定させるものである。その際、標的核酸中に該マーカーが存在すると、被験体がその形質または表現型をもつこととなる。前記物品はさらに、マシンで実行するとき、該マシンに、該形質または表現型を、遺伝的障害、遺伝的障害に対する素因、疾患に対する感受性、作物または家畜の性能形質、および産物の品質形質からなる群より選択させるインストラクションを含むことができる。

また、下記のインストラクションを記憶させたマシンアクセス可能媒体を含む物品も提供され、該インストラクションは、マシンで実行するとき、該マシンに、複数の被験体からの1以上のゲノム領域の基準SPCマップを入手させ、該ゲノム領域について十分な数のクラスタタグ多型を選択させ、鑑定しようとする被験体からの該ゲノム領域の標的核酸を取得させ、鑑定しようとする被験体の該ゲノム領域のクラスタタグ多型の遺伝子型を判定させ、該クラスタタグ多型の遺伝子型を基準SPCマップと比較させて対象の被験体の遺伝子の正体を判定させるものである。さらに、下記のインストラクションを記憶させたマシンアクセス可能媒体を含む物品も提供され、該インストラクションは、マシンで実行するとき、該マシンに、対象のゲノム領域のSPCマップを取得させ、該SPCマップからSPC-ハプロタイプを判定させ（各SPC-ハプロタイプはゲノム領域からのSPCのサブセットを含み、該サブセットの該SPC群は同時発生している）、該被験体のSPCを該SPCマップから判定されたSPC-ハプロタイプと比較させることにより該被験体のSPC-ハプロタイプを同定させるものである。

その他の本発明の特徴および利点は以下の詳細な説明から明らかになろう。しかしながら、この詳細な説明および具体例は、本発明の好適な実施形態を示しているものの、単なる例示にすぎないことを理解すべきである。なぜなら、本発明の精神および範囲内で様々な変更および修飾がこの詳細な説明から当業者には明らかになるからである。

図面の説明
本特許または出願書類は、カラーで作成された図面を少なくとも1つ含んでいる。カラーの図面を含む本特許または特許出願公報のコピーは、依頼があれば、出願人が提供するであろう。以下の図面は本明細書の一部を構成し、本発明の態様をさらに例示するために含められる。本発明は、ここに提示される特定の実施形態の詳細な説明とともに図面を参照することで、より一層理解しやすくなろう。

本発明の一部である図1〜20に示した結果は、カラーでプリントアウトすることで、最良に表示することができる。しかし、白黒のプリントアウトでも図面を楽に判読することができ、そこでは、図面の説明文に記載される様々な色が、様々な濃淡の灰色で、または結果を示差的に表示または視覚化する他の手段で表されている。さらに、図面は、そのような白黒表示を読みやすくするために、代わりの表示（例えば、もとの着色したまたは濃淡をつけた領域の番号づけ）を含みうる。

図1は、いくつかの独立性SPCからなるSPC構造を示す。混乱させるデータを本質的に削除してある、理想化された仮想上の遺伝子変異データセットを使用した。種々のSPC（さらに特定すると、これらのSPCに属するSNPのマイナー対立遺伝子）を示差的にハイライトしてある。種々のSPCを示すために異なる色が使用されている。図1Aおよび1Bの表記はアルゴリズムの出力に相当する。図1Aおよび1Bの最初の2つの行はそれぞれ、SNPおよび該SNPが属するSPCを示している。図1Aは、SPCが可視化されている遺伝子変異表（ここにおいて、各列は多型部位を表し、各行はサンプルを表す）を示す。オリジナルの表は、同一のSPCを共有する個体がグループ分けされるようにまとめてある。クラスタ化しない多型部位は灰色で示してある（例えば、SNP 33および38）。図1Bは、図1Aのデータセットから計算されたペアワイズC値のマトリックスを示す。C=1のクラスタ化位置は全て示差的にハイライトされており、C=0の位置は全てブランクのままである。C＞0の少数の位置はSNP-33とSPC-4の限られた同時発生に関係している。対角線上の取るに足らぬ値はペアワイズ関連性を表していないが、マトリックス中の関連したSNPのパターンを良好に可視化するためにカラースキーム中に含められる。図1Cは、SPCネットワークを示す。SPCには図1Aと同様に番号が付されている。SPCを欠いている推定上の起源配列はSPC-0と称される。

図2は、いくつかの従属性SPCからなるSPC構造を示す。混乱させるデータを削除してある、理想化された仮想上の遺伝子変異データセットを使用した。種々のSPCを示すために異なる色が使用されている。図2Aおよび2Bの表記はアルゴリズムの出力に相当する。図2Aおよび2Bの最初の2つの行はそれぞれ、SNPおよび該SNPが属するSPCを示している。図2Aは、SPCが表示されている遺伝子変異表（ここにおいて、各列は多型部位を表し、各行はサンプルを表す）を示す。オリジナルの表は、同一のSPCを共有する個体がグループ分けされるようにまとめてある。クラスタ化しない多型部位は灰色で示してある（例えば、SNP 2、8、29、34および38）。図2Bは、図2Aのデータセットから計算されたペアワイズC値のマトリックスを示す。C=1のクラスタ化位置は全て示差的にハイライトされており、C=0の位置は全てブランクのままである。従属性SPCに属するSNPの部分的な同時発生はC＜1のペアワイズ値により反映される。図2Cは、SPC関係のネットワークを示す。SPCには階層を反映するように番号が付されている。SPCを欠いている推定上の起源配列はSPC-0と称される。図2Dおよび2Eは、0.9のC閾値を用いて遺伝子変異表において同定されたSPCおよび対応するネットワークを示す。この場合には、もはや図2AのSPC-1とSPC-1.1の間に差異がないことに注意すべきである。

図3は、合計12のSPC間の独立および従属の双方の関係を有する複雑なSPC構造を示す。混乱させるデータを本質的に削除してある、理想化された仮想上の遺伝子変異データセットを使用した。種々のSPCを示すために異なる色が使用されている。図3Aはアルゴリズムの出力に相当し、SPCが表示されている遺伝子変異表（ここにおいて、各列は多型部位を表し、各行はサンプルを表す）を示す。図3Aの最初の2つの行はそれぞれ、SNPおよび該SNPが属するSPCを示している。オリジナルの表は、同一のSPCを共有する個体がグループ分けされるようにまとめてある。単純化するために、非クラスタ化多型を除いた。図3Bのネットワーク表示はSPC間の階層関係を示す。

図4は、欠落している遺伝子型コールを含むデータセットを用いた様々なストリンジェンシーでのSPC構造を表す。このデータセットは図1において使用したものと同じであり、ここでは、不正確なデータを模倣するために、対立遺伝子コールの4.5％を欠落しているデータ点を表す記号「N」で置換し、対立遺伝子コールの0.5％を相反する対立遺伝子で置換した。種々のSPCを示すために異なる色が使用されている。この図面全体を通して、種々のSPCを示すために同じ番号づけが使用されている。図4A、4Bおよび4Cはそれぞれ、徐々に低くなる閾値レベル、すなわち、C=1、C＞0.9およびC＞0.75で同定された種々のSPCを示す。図4A、4Bおよび4Cの最初の2つの行はそれぞれ、SNPおよび該SNPが属するSPCを示している。クラスタ化されないSNPは灰色で示され、一方、欠落している位置（「N」）はブランクのままである。図4Dは、ペアワイズC値のマトリックスを示す。この場合、C＞0.75の位置は全て示差的にハイライトされており、C=0の位置は全てブランクのままである。図4Eは、C=1およびC＞0.9で検出されたSPCのネットワーク構造を示し、一方図4Fは、C＞0.75で見いだされたSPCのネットワークを示す。図4G、4Hおよび4Iはそれぞれ、SPC 1、3および4を標識するctSNPの選択を示す。各SPCについて、圧縮した遺伝子変異表には、そのクラスタに属する多型部位で観察されたスコアを記入してある。付随するマトリックスは、ペアワイズC値ならびに各多型と該クラスタの他の多型との関連性の平均強度の計算を示す。これらの平均C値は対角線に沿ってだけでなく右側余白にも示してある。最も好ましいctSNPをハイライトしてある。

図5は、限られた数の歴史的な組換え現象がSPC構造に及ぼす影響を示す。仮想上の遺伝子変異データセットを使用した。単純化するために、クラスタ化しない多型は省いた。種々のSPCを示すために異なる色が使用されている。この図面全体を通して、種々のSPCを示すために同じ番号づけが使用されている。図5Aは、SPCがC=1の閾値で可視化されている遺伝子変異表を示す。図5Aの最初の2つの行はそれぞれ、SNPおよび該SNPが属するSPCを示している。オリジナルの表は、同一のSPCを共有する個体がグループ分けされるようにまとめてある。いくつかのサンプルはSPC-0とSPC-1の間に組換え現象を示している。その結果、隣接するSNPのセットは完全（C=1）にはクラスタ化せず、従属性SPC-lxおよびSPC-lyを形成する。図5Bは、図5Aのデータセットから計算されたペアワイズC値のマトリックスを示す。C=1の位置は全て示差的にハイライトされており、C=0の位置は全てブランクのままである。図5Cは、問題の遺伝子座のSPCマップを示す。SPC-1は両サイドで中断されているが、他のSPCは連続的である。図5Dは、C=1で検出されたSPCのネットワークを表す。図5Eおよび5Fは、C＞0.9の閾値レベルで見いだされた種々のSPCおよび対応するネットワークを示す。図5Gおよび5Hは、C＞0.8の閾値レベルで見いだされた種々のSPCおよび対応するネットワークを示す。

図6は、組換えホットスポットがSPC構造に及ぼす影響を示す。仮想上の遺伝子変異データセットを使用した。種々のSPCを示すために異なる色が使用されている。組換えホットスポットは2つの隣接領域と一線を画している。黒の棒線はその接合部を示しており、これら2つの領域ではメジャー対立遺伝子（すなわち、SPC-0）が示差的にハイライトされている。図6Aは、SPCが表示されているオリジナルの遺伝子変異表を示す。図6Aの最初の2つの行はそれぞれ、SNPおよび該SNPが属するSPCを示している。この遺伝子変異表は、左側の領域において同じSPCを共有する個体がグループ分けされるように配置されている。クラスタ化しない多型部位は灰色で示してある（例えば、SNP 33、37および38）。全てのSPCが独立した関係にあること、および、左側余白に示すように、別の領域に属するSPCが様々な組合せで存在することに留意されたい。図6Bは、図6Aのデータセットから計算されたペアワイズC値のマトリックスを示す。C=1の位置は全て示差的にハイライトされており、C=0の位置は全てブランクのままである。この場合、マトリックスは、フレームで示すように2つのサブマトリックスに分割されうることに留意されたい。それぞれのサブマトリックス内には、同じSPCに属するSNPは全てがC=1のペアワイズ値を有する一方で、異なるSPCに属するSNPは全てがC=0のペアワイズ値を有することが見てとれる。領域1と領域2のSNP間のペアワイズC値は全て＜0.5であることに留意されたい。このことは、これら2つの領域のSPC間にクラスタリングが存在しないことを示している。図6Cは、問題の遺伝子座のSPCマップを示す。2つの異なる領域に見いだされるSPCは（様々な組合せで存在しうるので）別々に示してある。図6Dは、各領域が異なるSPCネットワークにより特徴づけられることを示している。

図7は、二倍体遺伝子型データから出発する、独立した構成にあるSPCの同定、ならびに、これらの遺伝子型データのデコンボリューション（deconvolution）を示す。図7Aは、二倍体遺伝子型の可視的表示であり、ここで、メジャー対立遺伝子に対してホモ接合性の位置は薄い色で、マイナー対立遺伝子は黒色で、ヘテロ接合性コール（「H」）は灰色で表される。遺伝子型データは図7EのSPC-ハプロタイプのランダムペアワイズ組合せにより作成された。ハプロタイプはSPCに従って命名され、それにより非クラスタ化SNPは無視される。ハプロタイプの組合せは各遺伝子型について左側に示してある。図7B〜7Fでは、種々のSPCを示すために異なる色が使用されている。図7Bは、図7Cのデータセットから計算されたペアワイズC値のマトリックスを示す。C=1のクラスタ化SNP位置は全て示差的にハイライトされており（図7C/D/E/Fにおいても同様である）、C=0の位置は全てブランクのままである。図7Cおよび7Dは、SPCが可視化されているメタタイプ表を示し、この表は表示のために二等分して示してある。本質的に、この表は図7Aを複製することにより得られたものであり、ここでは、「H」位置は、マイナー対立遺伝子で1回置換され（その結果生じるマイナーメタタイプは、ハプロタイプ組合せの後に「a」という文字で表され、図7Cに示される）、そしてメジャー対立遺伝子で1回置換された（その結果生じるメジャーメタタイプは、ハプロタイプ組合せの後に「b」という文字で表され、図7Dに示される）。これらの2つの表は、同一のSPCを共有するメタタイプが可能なかぎり多くグループ分けされるようにまとめてある。クラスタ化しない多型部位（位置33および38）は灰色で示してある。図7Fは、図7Cおよび7Dに示したデータから導き出せるSPC関係を示す。このSPC構造は、二倍体遺伝子型の図7Eに示した成分SPC-ハプロタイプへのデコンボリューションを可能にする。

図8は、二倍体遺伝子型データから出発する複雑なSPC構造の同定、ならびに、これらのデータのデコンボリューションを示す。図8Aは、二倍体遺伝子型の可視的表示であり、ここで、メジャー対立遺伝子に対してホモ接合性の位置は薄い色で、マイナー対立遺伝子は黒色で、ヘテロ接合性コール（「H」）は灰色で表される。遺伝子型データは図8Eに示したSPC-ハプロタイプのランダムペアワイズ組合せにより作成された。組み合わされた対立遺伝子が異なっていた場合には、これらを「H」で置き換えた。ハプロタイプの組合せは各遺伝子型について左側に示してある。図8B〜8Fでは、種々のSPCを示すために異なる色が使用されている。図8Bは、図8Cのデータセットから計算されたペアワイズC値のマトリックスを示す。C=1のクラスタ化SNP位置は全て示差的にハイライトされており（図8C/D/E/Fにおいても同様である）、C=0の位置は全てブランクのままである。図8Cおよび8Dは、SPCが可視化されているメタタイプ表を示し、この表は表示のために二等分して示してある。本質的に、この表は図8Aを複製することにより得られたものであり、ここでは、「H」位置は、マイナー対立遺伝子で1回置換され（その結果生じるマイナーメタタイプは、ハプロタイプ組合せの後に「a」という文字で表され、図8Cに示される）、そしてメジャー対立遺伝子で1回置換された（その結果生じるメジャーメタタイプは、ハプロタイプ組合せの後に「b」という文字で表され、図8Dに示される）。これらの2つの表は、同一のSPCを共有するメタタイプが可能なかぎり多くグループ分けされるようにまとめてある。図8Fは、図8Cに示したデータから導き出せるSPC関係を示す。このSPC構造は、二倍体遺伝子型の図8Eに示した成分SPC-ハプロタイプへのデコンボリューションを可能にする。

図9は、トウモロコシのsh2遺伝子座の種内SPCマップを示す。種々のSPCを示すために異なる色が使用されている。図9Aは、アルゴリズムの出力に相当し、SPCが表示されている遺伝子変異表を示す。各遺伝子型のトウモロコシ系統を最も左側に示してある。7kbのsh2遺伝子座の物理的マップ上の各変異の位置を列の上に示す。この遺伝子座の中間部分にある多型部位は、表のサイズを縮小させるために省略した。この表は、同一のSPCを共有する個体がグループ分けされるようにまとめてある。クラスタ化しない多型部位は大部分が省略されており、示されている多型部位は灰色に着色されて、924、936、1834、1907および1971の位置に存在する。図9Bは、該遺伝子座のSPCネットワークを示す。SPCを欠いている推定上の起源配列はSPC-0と称される。

図10は、トウモロコシのsh1遺伝子座の種内SPCマップを示す。種々のSPCを示すために異なる色が使用されている。この図面の上方部分は7kbのshl遺伝子座の物理的マップの模式図であり、ここで、示差的にハイライトされた長方形は、遺伝子変異表に表示されている多型部位のマップ位置を示している。中間のパネルは、アルゴリズムの出力に相当し、該遺伝子座中の様々なSPCを記載している。各行は特定のSPCに属する多型部位を表している。下方のパネルは、アルゴリズムの出力に相当し、SPCが表示されている遺伝子変異表を示す。各遺伝子型のトウモロコシ系統を最も左側に示してある。クラスタ化しない多型部位は示されていない。

図11は、トウモロコシのY1遺伝子座の種内SPCマップを示す。種々のSPCを示すために異なる色が使用されている。図11Aは、6kbのY1遺伝子座の物理的マップの模式図であり、ここで、示差的にハイライトされた長方形は、図11Bの遺伝子変異表に表示されている多型部位のマップ位置を示している。図11Bは、アルゴリズムの出力に相当し、SPCが表示されている遺伝子変異表を示す。各遺伝子型のトウモロコシ系統を最も左側に示してある。図11Bの上のパネルは、白色胚乳系統におけるSPCを示す。図11Bの下のパネルは、橙色／黄色胚乳系統におけるSPCを示す。表は、同一のSPCを共有する個体が可能なかぎり多くグループ分けされるようにまとめてある。矢印はいくつかの過去の推定上の組換え現象の位置を示している。クラスタ化しない多型部位は示されていない。

図12は、トウモロコシのグロブリン1遺伝子座の種間SPCマップを示す。種々のSPCを示すために異なる色が使用されている。図12Aの表記は、アルゴリズムの出力に相当し、SPCが表示されている遺伝子変異表を示す。非クラスタ化多型およびネットワーク構造として配置できない一部のSPCは省いた。各遺伝子型についての短縮された種名および受託番号を2つ目の列に示してある。この表は、示差的にハイライトされた最も左側の列により示されるように、同一の独立性SPCを共有する個体がグループ分けされるようにまとめてある。矢印はZea perennisとSPCを共有するZea mays受託番号を示す。図12Bは、SPCネットワークおよびZea種を示す。SPC 1および3の非定型的な枝分かれは、これらのSPCがいずれもSPC-2と1つの多型を共有することを表している。SPCのない推定上の起源配列はSPC-0と称される。

図13は、シロイヌナズナ（Arabidopsis thaliana）のFRI遺伝子座のSPCマップを示す。種々のSPCを示すために異なる色が使用されている。図13Aは、450kbのFRI遺伝子座の物理的マップの模式図である。ここにおいて、示差的にハイライトされた長方形は、配列決定された領域を表しており、また、図13Bの遺伝子変異表に表示されている多型部位のマップ位置を示している。図13Bは、アルゴリズムの出力に相当し、SPCが表示されている遺伝子変異表を示す。各遺伝子型についてのアラビドプシス（Arabidopsis）系統を最も左側の列に示してある。この表は、同一のSPCを共有する個体が可能なかぎり多くグループ分けされるようにまとめてある。

図14は、シロイヌナズナ（Arabidopsis thaliana）の1番染色体の3.76Mbセグメントからの31のアンプリコンのSPCマップを示す。種々のSPCを示すために異なる色が使用されている。この図面は、1から6の番号がつけられた6つのパネルから構成されており、それぞれが100の多型部位を表している。各パネルの上の長方形は、多型部位が解析されたアンプリコンを表示している。これらのアンプリコンには134から165の番号がつけられており、それぞれ1番染色体上の位置16、157、725および19、926、385に相当する。抜けているアンプリコン149には多型部位がまったく存在しないことに留意されたい。パネルを分割する点線は、各アンプリコンに属する多型のブロックの境界を示す。各SPCは異なる行上に表示されており、異なる色でマークされている。隣接するアンプリコンにまたがっているSPCは、そのアウトラインが示されており、黒の矢印でマークされている。空のブロックは、SPCが存在しないアンプリコンを表す。アンプリコンを連続パネルとして表すことができること、また、対応するSPCを異なる行上に表示して異なる色でマークしうることに留意されたい。

図15は、ヒトCYP4A11遺伝子のSPC構造を示す。種々のSPCを示すために異なる色が使用されている。図15Aは、アルゴリズムの出力に相当し、SPCが表示されているメタタイプ表を示す。各メタタイプについてのサンプル名は、最も左側の列に示してあり、マイナーなメタタイプに関してはエクステンション「-1」が、メジャーなメタタイプに関してはエクステンション「-2」が付けられている。CYP4A11遺伝子の配列中の各多型部位の位置は列の上に示してある。クラスタとならない多型部位は省いてある。この表は、同一のSPCを共有するメタタイプがグループ分けされるようにまとめてある。上のパネルはメジャーなメタタイプを示し、下のパネルはマイナーなメタタイプを示す。SPCが存在しないメタタイプは、各パネルに示した1つを除いて、省略してある。上の行には多型部位が連続的に番号付けされており、C=1の閾値でクラスタ化された部位はハイライトされている。図15Bは、3つのクラスのメタタイプにおいて観察された様々なSPC組合せを示す。2つの行の各長方形は、サンプルのマイナーおよびメジャーなメタタイプ、観察されたSPCおよびSPCの組合せを示す。遺伝子型のデコンボリューション後には2つのSPC-ハプロタイプが得られる。図15Cは、CYP4A11遺伝子のSPC間の階層的関係を表す。SPCのない推定上の起源配列はSPC-0と称される。実線および点線はそれぞれ、確認された関係と想定される関係を表す。図15Dは、CYP4A11遺伝子のSPCマップを示す。上のパネルは、推論されるSPC-ハプロタイプを表しており、そこにはSPCが表示されている。下のパネルは、SPCを示しているが、各SPCが異なる行に異なる色でマークされるようにしてある。図15E、FおよびGは、それぞれ、SPC 1、2および4を標識するctSNPの選択を示す。各SPCについて、圧縮したメタタイプ表には、そのクラスタに属する多型部位で観察されたスコアを記入してある。付随するマトリックスは、ペアワイズC値ならびに各多型と該クラスタの他の多型との関連性の平均強度の計算を示す。これらの平均C値は対角線に沿ってだけでなく右側余白にも示してある。最も好ましいctSNPをハイライトしてある。

図16は、ヒトMHC遺伝子座のセグメントのSPC構造を示す。種々のSPCを示すために異なる色が使用されている。図16Aは、MHC遺伝子座の200kbのクラスII領域の物理的マップの模式図である。ここにおいて、示差的にハイライトされた長方形は、図16BおよびCからの7つのドメインを表している。組換えのホットスポットの位置は垂直の矢印で示される。図16BおよびCは前記領域のSPCマップを示し、ここでは、各SPCが異なる行上に、異なる色で表されている。示差的にハイライトされた長方形は、SPCマップから推論されたドメインを表している。図16Bは、高頻度のマイナー対立遺伝子（頻度＞16％）を含むSNPのサブグループのSPCマップを表し、図16Cは、低頻度のマイナー対立遺伝子（頻度＜16％）により特徴付けられるSNPのサブグループのSPCマップを表す。異なるドメインにまたがっているSPCは、そのアウトラインが示されており、水平の矢印でマークされている。図16Dは、図16Aのドメイン4の35,095位から89,298位までのSPCマップを示す。上の行には多型部位が連続的に番号付けされており、列の上には各多型部位のマップ位置が示されている。クラスタとならない多型部位は省いてある。上のパネルは、推論されるSPC-ハプロタイプを表しており、そこにはSPCが表示されている。下のパネルは、SPCを示しているが、ここでは、各SPCが異なる行に、異なる色で表示されている。図16Eは、ドメイン4のSPC間の階層的関係を表している。

図17は、ヒトの22番染色体のHapMap SNPのSPCマップを示す。図17Aは、22番染色体の2.27Mbのセグメントの物理的マップの模式図である。ここにおいて、示差的にハイライトされ、番号を付された長方形は、図17Bからの11のドメインを表している。これらのドメインは一定の縮尺率で書かれている。マップ位置は22番染色体上の位置を表している。図17Bは、22番染色体の700のSNPのSPCマップを示す。この図面は、1から7の番号が付けられた7つのパネルから構成されており、それぞれが100の多型部位を表している。各パネルの上の長方形は、10以上のクラスタ化SNPを含むドメインを表している。重複しないSPCは全て各パネルの最初の行に示してあり、一方重複するSPCは連続する行に表示してある。異なるSPCをマークするために異なる色が使用されている。ドメインを連続パネルとして表すことができること、また、対応するSPCを異なる行上に表示して異なる色でマークしうることに留意されたい。図17Cは、図17Bのドメイン9の17,399,935位から17,400,240位までのSPCマップを示す。各SNPの染色体マップ位置を列の上に示してある。この図面は、推論されるSPC-ハプロタイプを表しており、そこにはSPCが表示されている。クラスタとならない多型部位は除いてある。図17Dは、ドメイン9のSPC間の階層的関係を表している。ハプロタイプの1つである6-1-2-3-5は複雑な歴史を有することが見てとれる。図17Eは、アルゴリズムの出力に相当し、SPCが表示されている3つのトリオ（両親と子供）のメタタイプを、それらの対応するSPC-ハプロタイプと共に示す。メタタイプは次の順序で示される：両親（父親と母親；Pのマーク）および子供（Cのマーク）。黒枠および矢印で示された対立遺伝子は遺伝子型判定の過誤を表す。

図18は、染色体5q31の500キロベースのSPCマップを示す。異なる行上に表示された種々のSPCを示すために異なる色が使用されている。クラスタとならないSNPは一番下の行に示してある。SNP名は列の上に示してある。1から11の番号をつけた灰色の長方形は、Dalyら[Dalyら, Nat. Genet. 29: 229-232, 2001]により同定されたハプロタイプブロックを表す。異なるハプロタイプブロックにまたがっているSPCは、それぞれの色の枠で囲ってある。

図19は、酵母における単一特徴多型（single-feature polymorphism: SFP）のSPCマップを示す。種々のSPCを示すために異なる色が使用されている。上のパネルは、各SPCが異なる行上に異なる色で表されているSPCを示す。下のパネルは、アルゴリズムの出力に相当し、SPCが表示されている遺伝子変異表を示す。4つ以上のSFPを有するSPCに属するSFPのみを示す。各遺伝子型についての酵母菌株は最も左側の列に示してある。1番染色体の物理的マップ上の各変異の位置を列の上に示す。

図20は、カンピロバクター（Campylobacter jejuni）のglnA遺伝子座のSPCマップを示す。種々のSPCを示すために異なる色が使用されている。上のパネルは、各SPCが異なる行上に異なる色で表されているSPCを示す。下のパネルは、アルゴリズムの出力に相当し、SPCが表示されている遺伝子変異表を示す。3つ以上のSFPを有するSPCに属する多型のみを示す。各遺伝子型についてのCampylobacter jejuni菌株は最も左側の列に示してある。各変異の位置を列の上に示す。

図21は、コンピュータのいくつかの構成部品の略図である。

図22は、対象のゲノム領域のSPCマップの作成を容易にするために用いられるステップのいくつかを示す代表的なフローチャートである。

図23は、図22に示した実施形態に代わる実施形態において用いられるステップのいくつかを示す代表的なフローチャートである。

図24は、遺伝子型判定に用いるために対象のゲノム領域から1以上の多型を選択する方法において用いられるステップのいくつかを示す代表的なフローチャートである。

図25は、マーカー形質または表現型の同定を容易にするために用いられるステップのいくつかを示す代表的なフローチャートである。

図26は、形質または表現型と関連した遺伝子位置の同定を容易にするために用いられるステップのいくつかを示す代表的なフローチャートである。

図27は、形質または表現型のin vitro診断法において用いられるステップのいくつかを示す代表的なフローチャートである。

図28は、被験体の遺伝子の正体を鑑別する方法において用いられるステップのいくつかを示す代表的なフローチャートである。

図29は、対象のゲノム領域の相が特定できない二倍体遺伝子型からSPC-ハプロタイプを決定する方法において用いられるステップのいくつかを記載する代表的なフローチャートである。

発明の詳細な説明
本発明は、遺伝子変異の構造を明らかにして、その基本的な構造に基づいて最もインフォーマティブなマーカーを選択するための方法、アルゴリズムおよびコンピュータプログラムに関するものである。前記方法は特定の遺伝子座からの遺伝子変異のどのようなデータセットにも適用することができる。1つの態様において、遺伝子変異の解析はハプロタイプデータに基づく。第2の態様においては、前記構造が二倍体遺伝子型データを用いて明らかにされ、それにより成分ハプロタイプを実験的にまたはコンピュータの使用により推論する必要がなくなる。第3の態様においては、本方法は、存在する配列変異の記録を提供するが、実際には全配列または特に可変位置の配列を提供しない実験的手法により、標的核酸のインテロゲーション（interrogation）から得られる、特徴づけされていない対立遺伝子変異に適用することができる。遺伝子変異の基本的構造はまた、二倍体遺伝子型データから成分ハプロタイプを推論するにも有用である。

本明細書中で用いる「多型」なる語は、DNAの特定の遺伝子座に2以上の異なるヌクレオチド配列が存在しうる状態をさす。多型は遺伝的マーカーとして役立ちうる。多型には「一塩基多型」（SNP）およびindelが含まれる。このような多型は制限断片長多型（RFLP）としても知られている。RFLPは制限断片の長さを変えるDNA配列の変異であり、Botsteinら, Am. J. Hum. Genet. 32: 314-331(1980)に記載されている。制限断片長多型は制限部位を作ったり、欠失したりして、制限断片の長さを変化させる。RFLPはヒトや動物の遺伝子解析において広く用いられている（WO 90/13668; WO 90/11369; Donis-Keller, Cell 51: 319-337 (1987); Landerら, Genetics 121: 85-99(1989)を参照されたい）。遺伝性形質が特定のRFLPと連鎖している場合、個体における該RFLPの存在は、その動物が該形質を示す可能性を予測するために使用することができる。

多型はまた、ジ-、トリ-およびテトラ-ヌクレオチド反復モチーフを含む「短いタンデムリピート」(short tandem repeat: STR)としても存在する。これらの列型反復配列は可変数列型反復配列（VNTR）多型とも呼ばれている。VNTRは身元確認および実父確認において（米国特許第5,075,217号；Armourら, FEBS Lett. 307: 113-115 (1992); Hornら, WO 91/14003; Jeffreys, EP 370,719）、および遺伝地図作成の研究において使用されている。

本明細書中で用いる「対立遺伝子」なる語は、単一の多型部位のまたは組み合わされた多型部位の相いれない形態（配列）を示す。

本明細書中で用いる「一塩基多型」（SNP）なる語は、1個の塩基が関係する多型または遺伝的マーカーを示すために用いられる。典型的には、SNPは2対立遺伝子（bi-allelic）多型／マーカーである。

本明細書中で用いる「indel」なる語は、2個以上の塩基が関係する挿入／欠失型多型を示す。

本明細書中で用いる「メジャー対立遺伝子」なる語は、多型遺伝子座での最高頻度の2以上の対立遺伝子をさす。

本明細書中で用いる「マイナー対立遺伝子」なる語は、多型遺伝子座に見られる低頻度の対立遺伝子をさす。

本明細書中で用いる「二倍体」なる語は、核または細胞あたり2コピーの各染色体が存在する状態をさす。

本明細書中で用いる「ハプロタイプ」なる語は、同一コピーの染色体またはハプロイドDNA分子上の複数の連続した多型遺伝子座（例えば、SNP）に見られる対立遺伝子の組合せをさす。

本明細書中で用いる「遺伝子型」なる語は、1以上の多型遺伝子座に存在する対立遺伝子または対立遺伝子の対を示す。二倍体生物の場合は、2つのハプロタイプが遺伝子型を構成する。主にホモ接合性である二倍体の同系交配（植物または動物）種の場合は、遺伝子型がハプロタイプに一致する。

本明細書中で用いる「メタタイプ」（metatype）なる語は、人工的なハプロタイプをさす。メタタイプは、遺伝子型中のヘテロ接合性コールが適切な位置に観察されるマイナーまたはメジャーのいずれかの対立遺伝子で置換されることから生じる。

本明細書中で用いる「配列多型クラスタ(SPC)」なる語は、密に連鎖している（同時に出現している、同時に存在している；共分離する）配列多型のセットをさす。さらに特定すると、SPCなる語は、同時に出現しているマイナー対立遺伝子のセットを示す。

本明細書中で用いる「クラスタタグSNP」（ctSNP）なる語は、下記SNPが属する配列多型クラスタを最もよく代表している1以上のSNPであって、その配列多型クラスタを検出するためのマーカーとして好適な上記SNPをさす。

本明細書中で用いる「クラスタタグ多型」なる語は、下記多型が属する配列多型クラスタを最もよく代表している1以上の多型であって、その配列多型クラスタを検出するためのマーカーとして役に立つ上記多型をさす。「クラスタタグSNP」（ctSNP）は好適なクラスタタグ多型である。

本明細書中で用いる「SPC-ハプロタイプ」なる語は、1以上のSPCに属する多型によって形成されるハプロタイプをさす。

本明細書中で用いる「シングルトン」（singleton）なる語は、1つのエレメントのみを有するかまたは1回だけ見いだされるカテゴリーの例を意味し、こうした背景により、意味しているものが明確になる。シングルトンSNPまたはSPCは、調査中のサンプル中に1回だけ見いだされる。

本明細書中で用いる「分岐群」（clade）なる語は、配列またはハプロタイプのグループを意味し、これらのハプロタイプは共通して1以上のSPCを有するが、少なくとも1つのSPCにおいて互いと相違するという点で関連がある。

SPCアルゴリズム
本発明においては、配列多型の組織的特徴を同定するための新規なコンピュータ操作アプローチが開発された。このアプローチはハプロタイプブロックを同定する従来のアプローチとは異なるものである。本アプローチは、連鎖不平衡にある連続する多型のブロックを探し出すものではなく、統計的に有意なクラスタ化を示す配列多型のクラスタの存在を調べるものである。したがって、本発明のクラスタそれ自体は遺伝子に沿って連続した配列のクラスタである必要はない。本発明の方法によって明らかにされる構造は配列多型クラスタ（SPC）と呼ばれる。これらは同時に出現するマーカーのグループであり、すなわち、共遺伝するかまたは共分離するマーカーのセットである（農業分野では後者の用語がより一般的である）。そのようなマーカー部位の対立遺伝子は、組換え、遺伝子変換、または繰り返し起こる突然変異によって分離されることはなく、同一の頻度（完全なまたは完璧なLDとして記載しうる状態）を有している。この場合には、4つの可能性のある2部位ハプロタイプのうち2つのみをサンプルにおいて観察する。すなわち、一方のマーカーでの観察が他方のマーカーについての完全な情報を提供する。本質的に、SPCを同定するには、最初に（2対立遺伝子）部位の対同士の同時出現パーセントを求め、続いて閾値のストリンジェンシーを次第に低くして、その閾値を上回る同時出現を示すマーカー対立遺伝子を段階的に集めて組み立てる。

同時に出現するマーカー対立遺伝子は、LDの強さを評価するための特定の尺度を使用することで同定することができる。多くの異なるLD統計学が報告されている [Lewontin R.C., Genetics 140: 377-388, 1995; Devlin & Risch, Genomics 29: 311-322, 1995]。よく用いられるLD尺度の一つで、本発明にも適しているものはr²（Δ²とも呼ばれる）である。r²は、0から1までの範囲をとり、2つの部位間の統計的相関を表す。4つの可能性のある2部位ハプロタイプのうち2つのみがサンプル中に観察される場合には、r²は1の値をとる。一般に知れ渡っている|D'|統計学や同様の尺度 [例えばQ; Devlin & Risch, Genomics 29: 311-322, 1995を参照] は本アルゴリズムには適していない。その理由は、マーカーの対により形成されるハプロタイプが2つであろうと3つであろうと係わりなく、それらの尺度が最大値をもたらすからである。

2つの遺伝子座について標準的な表記法、すなわちメジャー対立遺伝子(A,B)およびマイナー対立遺伝子(a,b)を採用すると、r²は、LewontinのD値 [Lewontin R.C., Genetics 49: 49-67, 1964] の2乗を4つ全ての対立遺伝子頻度の積で割ることにより決定される：
r² = (P_abP_AB-P_aBP_Ab)²/P_aP_bP_AP_B
観察されたハプロタイプおよびマーカー対立遺伝子頻度についての表記を、2x2関連性を表す表1に示す。P値はいくつかの基本的な不明のパラメーターのサンプル概算値にすぎないことに留意すべきである。対立遺伝子を命名する際の取り決めにより、P_A ＞ P_a ＞ P_bである。

同時出現マーカーのクラスタの同定はまた、他のLD尺度 [Devlin & Risch, Genomics 29: 311-322, 1995をさす] を用いても行なうことができ、例えば、Δ（Δ²の平方根）、δ、および割合の差dなどが挙げられる：
d = P_ab/P_a- P_Ab/P_A
さらに、有用であると分かった別の表現は、
C^* = P_ab - P_aP_b/P_a - P_aP_b
である。他の多くのLD尺度と同様に、上記式の分子はLewontinのD値 [Lewontin R.C., Genetics 49: 49-67, 1964]に等しい。しかし、Dを標準化するのに役立つ分母は、より一般的に用いられる|D'|尺度とは対照的に、4つの可能性のある2遺伝子座ハプロタイプのうち2つがサンプル中に観察される場合、その場合にのみ、C^* = 1となる。C^*の値は正（相引）または負（相反）でありうるが、この場合には絶対値が考慮されることに注意されたい。本明細書で一貫して用いられる式は、最も頻度の高いマイナー対立遺伝子の頻度（すなわち、P_a）に対する、マイナー対立遺伝子aおよびbからなるハプロタイプの頻度（P_ab）の割合（％）を単純に測定する：
C = P_ab/P_a
この式は、LDの尺度として明らかな欠点がある。その理由は、主に、観察されるハプロタイプの頻度P_abが、C^*におけるように予想された頻度で相殺されないことにある。例えば、連鎖平衡が存在することを必ずしも意味しない状況であるP_ab = 0である場合は常に、C = 0である。反対に、完全な平衡が存在する場合、例えば4つ全てのハプロタイプが等しい頻度である場合、Cは0より大きいことがある。それにもかかわらず、上記式はその透明性（すなわち、同時出現％への直接的な関係）ゆえに実用的であり、適切な閾値と組み合わせて用いる場合に適している。

代わりの式を用いると、関連性の強さの評価が違ってくることがある。さらに、典型的な遺伝子変異のデータセットは相当数の抜けている対立遺伝子コールを含んでおり、その結果、ハプロタイプおよびマーカー対立遺伝子の頻度を異なる方法で計算してもよいが、それ自体、戻された値に対して著しい影響をすでに及ぼしうる、ことを理解することが大切である。ほとんどの場合、頻度は、観察された特定の対立遺伝子または2部位ハプロタイプの数をサンプルの総数で単に割り算することによって概算され、それにより抜けているデータは無視された。代わりとなる別の計算は、明白なコールの総数に対する、観察された対立遺伝子／ハプロタイプの数の比からなるものである。3番目の方法によれば、抜けているデータ点は統計的方法で処理され、その多型位置で観察された対立遺伝子比に比例してマイナーおよびメジャーの両方の対立遺伝子として処理された。同様に、2部位ハプロタイプは分数としても出現しうる。そのような場合には、対立遺伝子またはハプロタイプの数をサンプルの総数で割り算した。さらに別の方法では、両方の多型位置に1つの対立遺伝子コールを有するサンプルのみがハプロタイプおよび対立遺伝子の頻度を計算するために考慮される。この場合、1つの特定の多型部位での対立遺伝子頻度は一定ではなく、関連性を計算しようとしている部位に依存する。後者のアプローチは関連性の強度を過大評価しがちであり、多数の対立遺伝子コールが抜けているデータセットにおいてSPCを検出するために利用することができる。サンプル遺伝子型に抜けているデータがない場合には、これらの異なるアプローチは同一になることが理解されよう。

以下のセクションではSPCアルゴリズム／プログラムの要素について説明する。入力は、複数の被験体（行）の所定の数の多型部位（列）に存在する対立遺伝子を含む遺伝子変異表からなり、すなわち、（ここでは、二倍体遺伝子型データも処理しうることが明らかであるが）基本的にはハプロタイプのセットからなる。この表はプログラムによって「多重配列アライメントファイル」から誘導される。アルゴリズムの第1ステップは、同時出現の強さ（例えば、先に定義したC値）をペアワイズ計算することによりマトリックスを作成することからなる。続いて、クラスタ化作業を行うが、これにより1以上の配列多型クラスタ(SPC)が形成され、SPCマップが組み立てられる。SPCは、経験的に定められた閾値レベルを越える程度に、相互に同時出現する配列多型を集めたものである。SPCが組み入れる必要のある多型の最小数、ならびにそのSPCが統計的に意味のあるものとなるためのサンプル中のその出現頻度は、データセットごとに変化する。

クラスタ化作業は反復的なプロセスである。最初に、完全な連鎖（すなわち、全てのペアワイズ測定においてC=1）を示す配列多型をグループ分けする。形成されるクラスタを拡大させ、閾値を最低値にまで徐々に低下させる（例えば、0.1、0.05または0.025のステップを使用する）ことにより新しいクラスタが出現するはずである。SPCは1、＞ 0.95、＞ 0.90、＞ 0.85、＞ 0.80、＞ 0.75、＞ 0.70、＞ 0.65、＞ 0.60、＞ 0.55、および＞ 0.50を含めて、どのような閾値で定義されてもよい。当業者であれば、閾値設定の適切性は、とりわけ、マーカー対立遺伝子の関連性の強さを計算するために用いた尺度に依存することが理解されよう。尺度C=P_ab/P_aを用いる場合は、一般的にはC=1とC＞0.75の間の複数の閾値でSPCマップを作成する。クラスタ化作業はいくつかの異なる基準に従って行なうことができる。1つのアプローチでは、クラスタ多型の全てのペアワイズ同時出現値が所定の閾値レベルを越えなければならない。あるいはまた、個々の多型またはクラスタ全体は、関連性の平均値がある実際的な閾値レベルを越えるときに組み合わされる。さらに別の選択肢は、少なくとも1つの多型がその閾値を上回ってクラスタの他の全ての多型と関連していることを必要とする。本明細書中で用いる場合、クラスタとは、ペアワイズ関連性が閾値を上回っている一次多型のグループだけでなく、その一次多型の1つと閾値を上回って関連している二次多型をも集めたものである。

C尺度がマイナー対立遺伝子aおよびbからなるハプロタイプ（P_ab）を考慮するにすぎないことを理解することは重要である。このことは、対立遺伝子頻度が0.5に近い場合に、その式を不適格にする。さらに、マイナー対立遺伝子の誤った指定が、特に小さいデータセットにおいて起こることがあり、さらに特定すると、観察された2つの対立遺伝子の頻度が正確に0.5である多型部位で、または、遺伝子型データが欠落している結果として、明らかなメジャー対立遺伝子がサンプルの半数未満で観察される場合に起こりうる。そのような場合には、両方の対立遺伝子を、他のマーカー対立遺伝子との同時出現について試験する必要がある。プログラムが同定したSPCは、いくつかの異なる方法で可視化することができ、かかる方法として、同時出現値（C値）を含む上記マトリックスのカラーコード版、およびオリジナルの入力遺伝子変異表（同じSPCを共有する個体がグループ分けされるように並べ替えされたもの）のカラーコード版が挙げられる。白黒の図解で読みやすいようにした出力のいくつかの例を本明細書に示す。

SPCプログラムは、クラスタタグ多型を選択するためのモジュールを組み込んでいる。この選択は、多型が属しているSPCを最もよく象徴する1以上の多型を同定することに基づいている。一般的には、SNPがクラスタタグ多型として選ばれる。クラスタタグSNPは本明細書ではctSNPとも呼ばれる。好適な方法においては、クラスタの各多型と他の全ての多型との関連性の平均強さ（本明細書では平均連鎖値(Average Linkage Value)またはALVともいう）を計算して、それを決定的な基準として使用する。すなわち、最高のALVを示す1以上の多型／SNPが後続の遺伝子型判定実験のためのマーカーとして保持される。

最も頻度の高い2対立遺伝子SNPに加えて、indelならびに複対立遺伝子多型も解析にときどき加えた。複対立遺伝子性（multi-allelism）はヒトではむしろ稀な現象であるが、トウモロコシのような高度に多型性の生物に由来するデータセットでは時折出くわした。1より多いマイナー対立遺伝子がSNP部位に観察された場合は、各個体の全ての多型部位の対立遺伝子コール（遺伝子型）を含む入力遺伝子変異表をそれに適合させた。すなわち、その部位を二通り作成して、各エントリーがマイナー対立遺伝子の1つと組み合わせてメジャー対立遺伝子をリストアップするように改変したが、他の全ての対立遺伝子コールはブランクと置き換えた。この手法によって、表の各位置で2つの変異型のみを観察することが確実になる。ほかに指定しないかぎり、indelは2つの点（それぞれ、欠失の出発位置と終止位置）により確認される。他のサンプルにおいて多型部位が介在位置に出現する時はいつも、これらの点の間に空白が存在しうる。遺伝子変異表中の空白は無視され、頻度は観察された特定の対立遺伝子または2部位ハプロタイプの数をサンプルの総数で単に割り算することによって計算される。

本明細書中に開示するように、このアルゴリズムは、特定の遺伝子座からの遺伝子変異体のデータセットに適用できるだけでなく、包括的な意味で、その遺伝子変異の全部または一部を捕捉する実験データにも適用できる。遺伝子変異表は二倍体遺伝子型データから構成することも可能である。そのようなデータセットを処理するには、各個体を2回含むように入力表を適合させる。その後、全てのヘテロ接合度スコアを、1回目のエントリーではマイナー対立遺伝子と置換し、2回目のエントリーではメジャー対立遺伝子と置換する。得られる人工的なハプロタイプを本明細書ではメタタイプと命名し、適合させた遺伝子変異表をメタタイプ表と呼ぶことにする。

本発明によるクラスタ化法は、マーカー対立遺伝子間の関連性の強さを示す尺度として、本明細書に挙げたもの以外の他の尺度を使用しても行なうことができると想定される。こうした尺度は公知のものであっても、新たに考えられたものであっても、いずれでもよい。例えば、2対立遺伝子座ではなく複対立遺伝子座間の関連性の強さを測定する統計学を利用することができる [例えば、D'の複対立遺伝子版については、Hedrick P.W., Genetics 117: 331-341, 1987を参照のこと]。一般的に、代替尺度を適切な閾値レベルと共に使用すると、SPCのセットが明らかにされるだろう。当業者であれば、アルゴリズムのこの変更や他の変更を容易に適合させることができる。こうした変更は、プログラムの出力にある程度の影響を及ぼしうる（反復的なクラスタ化法の場合がしばしばそうである）が、遺伝子変異データの基本的なSPC構造を明らかにするには同様に有用である。したがって、これらの変更も本発明の範囲内である。

本発明のアルゴリズムはまた、図21〜29により説明される。図21は、コンピュータ（すなわち、マシン）30の考えられる一実施形態の概略図である。コンピュータ30を使って、特定の表現型形質との相関を検索するための遺伝的マーカーとして最も適している変異のサブセットを定めることに関係したデータを蓄積し、解析し、ダウンロードすることができる。コンピュータ30はコントローラ100を備えており、これは連結部106を経てデータベース102と作動可能に接続されている。図には示されていないが、追加のデータベースを公知の方法でコントローラ100に連結できることに注意すべきである。コントローラ100はプログラムメモリ120、マイクロコントローラまたはマイクロプロセッサ(MP)122、ランダムアクセスメモリ(RAM)124、および入力／出力(I/O)回路126を含むことができ、これら全てがアドレス／データバス130を介して相互接続される。マイクロプロセッサ122は1つしか示されていないが、コントローラ100は複数のマイクロプロセッサ122を含みうることを理解すべきである。同様に、コントローラ100のメモリは複数のRAM124と複数のプログラムメモリ120を含むことができる。I/O回路126は単一のブロックとして示されているが、I/O回路126はいくつかの異なるタイプのI/O回路を含みうることを理解すべきである。RAM 124とプログラムメモリ120は、例えば半導体メモリ、磁気的に読取可能なメモリ、および／または光学的に読取可能なメモリとして実行される。こうしたメモリまたはデータレポジトリの全ては、マシンアクセス可能媒体と称される。コントローラ100はまた、連結部132を介してネットワーク32に作動可能に接続することができる。

この説明のために、また、簡単に上述したように、マシンアクセス可能媒体には、マシン（例えば、コンピュータ、ネットワークデバイス、パーソナルデジタル補助装置、製造用ツール、1以上のプロセッサのセットを備えた装置）によってアクセスされ得る形で情報を提供する（すなわち、記憶するおよび／または伝達する）あらゆるメカニズムが含まれる。例えば、マシンアクセス可能媒体には、記録可能／記録不能な媒体（例えば、リードオンリーメモリ(ROM)；ランダムアクセスメモリ(RAM)；磁気ディスク保存媒体；光学保存媒体；フラッシュメモリデバイス）、ならびに電気的、光学的、音響的、または他の形の伝達信号（例えば、搬送波、赤外線信号、デジタル信号）などが含まれる。

代表的なシステムが作動しうるひとつの方法を、いくつかのフローチャート（1以上のコンピュータプログラムのいくつかの部分またはルーチンを表す）と関連させて以下に説明する。当業者であれば理解しうるように、これらのルーチンを実行するために利用されるソフトウェアの大多数は、コントローラ100中のメモリの1以上に記憶され、C、C++などの高レベル言語で、または低レベルのアセンブリもしくはマシン言語で表現することができる。そこにコンピュータプログラム部分を記憶させることによって、メモリのさまざまな部分がコンピュータプログラムの指令に従って物理的および／または構造的に構成される。しかしながら、ソフトウェアの部分はネットワークを介してコンピュータ30に作動可能に連結される1以上の別個のコンピュータ上に記憶されて、実行される。ステップが実行される正確な場所は本発明の範囲から逸脱することなく変化しうるので、以下の図面はどのマシンがどの機能を果たすかを扱うものではない。

図22は、対象のゲノム領域の配列多型クラスタ(SPC)マップの作成を容易にするために用いられるステップのいくつかを記載するフローチャート150である。フローチャート150は、複数の被験体からの対象のゲノム領域の核酸配列を取得するステップから開始する（ブロック152）。核酸配列の取得後、フローチャート150は、該核酸配列中に存在する複数の多型の同定（ブロック154）、続いて1以上のSPCの同定（ブロック156）へと進むが、ここにおいて各SPCは該核酸配列からの多型のサブセットを含み、該サブセットの多型は該サブセットのそれぞれ他の多型と同時に出現する。1以上のSPCの同定は、該サブセットのそれぞれ他の多型と同時に出現する該サブセットの各多型を、多型のマイナー対立遺伝子の同時出現率75〜100％に従って同定することを含みうる、ことに注意すべきである。1以上のSPCの同定はまた、複数ラウンドの同時出現解析を含んでいてもよく、その際、各連続ラウンドの同時出現解析は、100％同時出現率から75％同時出現率へと低下する同時出現％で行なわれる。あるいはまた、該サブセットの各多型と該サブセットのそれぞれ他の多型との同時出現率は、例えば、ペアワイズ（pairwise）C値、r2連鎖不平衡値、およびd連鎖不平衡値のようなパラメーターに従って計算することができる。ペアワイズC値は0.75から1までの範囲である。また、標的核酸配列中の複数の多型の同定は、直接的な配列解析、示差的核酸解析、配列に基づく遺伝子型判定、DNAチップ解析、およびPCR解析といったアッセイにより行なうことができる、ことに留意すべきである。

図23は、相が特定できない（unphased）二倍体遺伝子型からの対象のゲノム領域のSPCマップの作成を容易にするために用いられるステップのいくつかを記載するフローチャート160である。フローチャート160は、複数の被験体からの対象のゲノム領域の相が特定できない二倍体遺伝子型を取得するステップから開始する（ブロック162）。該二倍体遺伝子型の取得後、このフローチャートは、相が特定できない二倍体遺伝子型中に見いだされるメジャーおよびマイナーなメタタイプの判定（ブロック164）、続いて1以上のSPCの同定（ブロック166）へと進むが、ここにおいて各SPCは該メタタイプからの多型のサブセットを含み、該サブセットの多型は該サブセットのそれぞれ他の多型と同時に出現する。1以上のSPCを同定するステップは、該サブセットのそれぞれ他の多型と同時に出現する該サブセットの各多型を、多型のマイナー対立遺伝子の同時出現率85〜100％に従って同定することを含みうる、ことに注意すべきである。

図22を参照して説明したSPCマップの代表的な作成方法と同様に、図23に開示する代表的な方法は、複数ラウンドの同時出現解析を含んでいてもよく、その際、各連続ラウンドの同時出現解析は、100％同時出現率から75％同時出現率へと低下する同時出現％で行なわれる。あるいはまた、該サブセットの各多型と該サブセットのそれぞれ他の多型との同時出現率は、例えば、ペアワイズ（pairwise）C値、r2連鎖不平衡値、およびd連鎖不平衡値のようなパラメーターに従って計算することができる。ペアワイズC値は0.75から1までの範囲である。また、標的核酸配列中の複数の多型の同定は、直接的な配列解析、示差的核酸解析、配列に基づく遺伝子型判定、DNAチップ解析、およびPCR解析といったアッセイにより行なうことができる、ことに留意すべきである。

図24は、遺伝子型判定で使用するために対象のゲノム領域から1以上の多型を選択する方法において用いられるステップのいくつかを記載する代表的なフローチャート170である。フローチャート170は、対象のゲノム領域のSPCマップを取得するステップから開始する（ブロック172）。SPCマップの取得後、フローチャート170は、SPCマップ中のユニークなSPCを同定する少なくとも1つのクラスタタグ多型の選択（ブロック174）、続いて対象のゲノム領域の遺伝子型判定研究で使用するための十分な数のクラスタタグ多型の選択（ブロック176）へと進む。クラスタタグ多型は例えば一塩基多型(SNP)、欠失多型、挿入多型、または短いタンデムリピート多型(STR)でありうる、ことに留意すべきである。また、クラスタタグ多型は遺伝的形質と関連した既知のSNPであってもよい。

図25は、マーカー形質または表現型の同定を容易にするために用いられるステップのいくつかを記載するフローチャート180である。フローチャート180は、対象のゲノム領域から十分な数のクラスタタグ多型を取得するステップから開始する（ブロック182）。十分な数のクラスタタグ多型の取得後、このフローチャートは、ある形質または表現型と少なくとも1つのクラスタタグ多型との関連性を確認するためにクラスタタグ多型の評価へと進む（ブロック184）。その際、該関連性が確認されると、そのクラスタタグ多型を該形質または表現型のためのマーカーとして同定する。クラスタタグ多型は様々な形質または表現型、例えば、遺伝的障害、遺伝的障害に対する素因、疾患に対する感受性、作物または家畜の性能形質、産物の品質形質などと相関しうる。また、そのマーカーは遺伝的障害のマーカーであってよく、図22に記載の方法に従ってSPCマップが作成され、複数の被験体はそれぞれが同じ遺伝的障害を発現する。標的核酸配列中の複数の多型の同定は、いくつかのアッセイ、例えば、直接的な配列解析、示差的核酸解析、配列に基づく遺伝子型判定、DNAチップ解析、およびPCR解析により行なうことができる、ことに留意すべきである。

図26は、形質または表現型と関連した遺伝子の位置の同定を容易にするために用いられるステップのいくつかを記載する代表的なフローチャート190である。フローチャート190は、その形質または表現型と関連した所定のゲノム領域において複数のSPCを同定するステップから開始し、ここにおいて各SPCは該ゲノム領域からの多型のサブセットを含み、該サブセットの多型は該サブセットのそれぞれ他の多型と関連している（ブロック192）。複数のSPCの同定後、このフローチャートは、クラスタタグ多型のセットの同定へと進み、ここにおいて該クラスタタグ多型のセットの各メンバーは該複数のSPC中のユニークなSPCを同定する（ブロック194）。続いて、このフローチャートは、ある形質または表現型と少なくとも1つのクラスタタグ多型との関連性を確認するために該クラスタタグ多型のセットの評価へと進み、その際、該クラスタタグ多型と該形質または表現型との間に関連性が確認されると、その遺伝子の位置が示される（ブロック196）。表現型は例えば、遺伝的障害、遺伝的障害に対する素因、疾患に対する感受性、作物または家畜の性能形質、または産物の品質形質でありうる、ことに留意すべきである。

図27は、ある形質または表現型のin vitro診断法において用いられるステップのいくつかを記載する代表的なフローチャート200である。フローチャート200は、ある被験体において形質または表現型のマーカーを取得するステップから開始する（ブロック202）。該マーカーの取得後、このフローチャートは、該被験体からの標的核酸サンプルの取得（ブロック204）、および該標的核酸サンプル中に該形質または表現型のマーカーが存在するかの判定（ブロック206）へと進み、その際、該標的核酸中に該形質または表現型のマーカーが存在すると、その被験体は該形質または表現型をもつこととなる。その形質または表現型は例えば、遺伝的障害、遺伝的障害に対する素因、疾患に対する感受性、作物または家畜の性能形質、または産物の品質形質でありうる。

図28は、被験体の遺伝子の正体を鑑定する方法において用いられるステップのいくつかを記載する代表的なフローチャート210である。フローチャート210は、複数の被験体からの1以上のゲノム領域の基準SPCマップを取得するステップから開始する（ブロック212）。基準SPCマップの取得後、このフローチャートは、該ゲノム領域について十分な数のクラスタタグ多型を選択すること（ブロック214）および鑑定しようとする被験体からの該ゲノム領域の標的核酸を取得すること（ブロック216）へと進む。、このフローチャートは、鑑定しようとする被験体の該ゲノム領域のクラスタタグ多型の遺伝子型を判定すること（ブロック218）および該クラスタタグ多型の遺伝子型を基準SPCマップと比較して対象の被験体の遺伝子の正体を決定すること（（ブロック219）へと続く。いくつかの実施形態では、図22または23に関連して記載した方法により基準SPCマップを作成することができる。

図29は、対象のゲノム領域の相が特定できない二倍体遺伝子型からSPC-ハプロタイプを判定する方法において用いられるステップのいくつかを記載する代表的なフローチャート220である。フローチャート220は、対象のゲノム領域のSPCマップを取得するステップから開始する（ブロック222）。基準SPCマップの取得後、このフローチャートは、該SPCマップからSPC-ハプロタイプ（各SPC-ハプロタイプはゲノム領域からのSPCのサブセットを含み、該サブセットの該SPCは同時に出現する）を判定すること（ブロック224）、および該被験体のSPCを該SPCマップから判定されたSPC-ハプロタイプと比較することにより該被験体のSPC-ハプロタイプを同定すること（ブロック226）へと進む。

遺伝的多型は多くの場合階層的SPC構造に組織化される
上記のコンピュータ演算アプローチを使って、配列多型の構造的特徴を特定することが可能である。連続した領域にわたる比較的高いマーカー密度を報告している研究について調べると、これらのゲノム領域の多くにおいては、存在する相当数のSNP（同様にindel）は1以上の配列多型クラスタ（SPC）（すなわち、実質的に絶対連鎖にある（言い換えれば、ペアワイズC値が1または1に近い）多型のセット）に組織化されるということが言える。いくつかの解析は、一般的に、各種SPCが、研究対象のサンプルに存在する全ての多型の60％〜95％を含みうることを示している。本発明者らは、遺伝子変異について十分なデータが利用可能な全ての種（ヒト、トウモロコシ、シロイヌナズナ、ショウジョウバエ、および酵母を含む）について、このことが真実であることを見出した。典型的には、SPC中の多型は非連続的であり、異なるSPCに属する多型が混在している。この知見は、ハプロタイプブロックの考え方とは異なるものである。ハプロタイプブロックの考え方では、基本的に組換えが起こっていない（すなわち、LewontinのD’尺度で高値）および／または限られたハプロタイプ多様性を示す、連続的な多型の領域が特定される [ハプロタイプブロックの種々の定義については、Wall & Pritchard, Nature Rev. Genet. 4: 587-597, 2003を参照]。

本発明の方法で明らかになる構造は、配列多型クラスタ（SPC）と呼ばれる。これらSPC構造の最も重要な頻発する特徴は、図1〜3に例示してある。これらの図は、混乱させるようなデータを含まない、理想化された想像上の遺伝子変異データセット（多数の被験体に対する全ての多型部位での対立遺伝子コールを含む）に基づくものである。様々な種に由来する、公に利用可能な実在のデータセット中に見られるSPC構造は、以下に示す実施例で考察している。図1Aおよび2Aは、頻繁に観察されるSPCのパターンを代表している；実際には、多くの場合これら2つのパターンの組み合わせが見出される（図3A）。点在する多型の群は強い連鎖を示し、例えば多型部位の対立遺伝子は基本的に2種類のみの組み合わせで見出される。全てのペアワイズC値のマトリックスを図1Bおよび2Bに示してある。

図1Bのマトリックスでは、同一SPCに属する全てのSNPはC=1のペアワイズC値を有し、一方異なるSPCに属する全てのSNPはC=0のペアワイズC値を有する。C＞0である少数の位置は、SPC-4と、33位でのクラスタ化していないSNPとの限定的な関連を反映している。図2Bでは、同一SPCに属する全てのSNPはC=1のペアワイズC値を有し、一方異なるSPCに属する全てのSNPはC＜1のペアワイズC値を有することが見て取れる。SPC同士では、集団中のマイナー対立遺伝子の発生頻度、および構成成分SNPの数が異なっている。存在する多型の一部は、クラスタ化の傾向を示していない。これらの非クラスタ化多型はほとんどが1つのタイプのSPCとのみ関連して見出される。

SPCは2種類の異なる関係のうちの1つを示す。いくつかのSPCは無関係／独立性であり、すなわちマイナー対立遺伝子が異なるハプロタイプに存在する（図1A）。他のSPCは従属性であり、包括性のレベルに従って分類することができる；従属性SPCのマイナー対立遺伝子は、1以上のより上位のSPCのマイナー対立遺伝子が見出されるハプロタイプのサブセットに存在する（図2A）。一般に、あるSPCは、別のSPCと関連した関係（従属関係）、およびそれとは分離した関係（独立配置）の両関係で見出されるわけではない。言い換えれば、2つのSPCのマイナーな対立遺伝子は、別のハプロタイプ上に存在し、しかも3つ目のハプロタイプ上にも一緒に存在するというわけではない。秩序立ったSPC構造は、それぞれの枝が1つの特定のSPCの出現／消滅に対応している単純なネットワークによって表すことができる（図1C、2Cおよび3B参照）。非クラスタ化多型を無視すると、ネットワークの中心点(node)は、種々の配列／ハプロタイプに対応し、それらは研究対象のサンプルの過半数に観察されても、されなくてもよい（例えば図3B参照）。

非クラスタ化多型の存在のみによって異なっている、ハプロタイプとそれらの最も近縁のものは、本明細書中では、それらが含むSPCの名を取って名づけられ（図1Aおよび2A参照）、本明細書中では、SPC-ハプロタイプと呼ばれる。前記ネットワークは、一方でSPC間の関係を明らかにし、他方でハプロタイプ間の関係を明らかにする。すなわち、SPCは種々のハプロタイプを形作るエレメントとして見ることができる。あるSPCは1つのハプロタイプに特異的であるが、他のものはいくつかのハプロタイプに共通しており、従って関係するハプロタイプの分岐群を規定する。SPCの構成は、2種類の異なる階層的ネットワーク構造のうちの1つに翻訳できる。関係のないSPCは、単一の中心点から分岐する（図1C）。すなわち、「サブ配列」の全てが、1つのSPCによって、見かけの起源配列と異なっている。従属性SPCの場合には、特定の配列が基準点から2つ以上のSPC離れて移動している（図2C）。このSPCネットワークは、主配列（すなわち、非クラスタ化多型を含まない配列）間の見かけの系統的関係を確立する。前記ネットワークは根なし草のようであり（「外種」（outspecies）の欠如、つまり認められた共通の祖先に由来する配列の欠如による）、従って、該ネットワークから推定される進化的関係はあいまいなものであると解すべきである。本明細書中に示したネットワークの表現法では、枝は進化的距離もしくは配列分岐の程度を反映したものではなく、中心点(node)のサイズは種々の配列の発生頻度に関係しない。多様な代替表現法（可変量の進化的情報を含む）が当該技術分野において公知である（例えば樹状図および分岐図）。当業者は、前記ネットワーク構造がサンプリング（の深さ）および研究対象の集団に依存していることも認識するであろう。

本発明の方法は、どのような種においてもDNA配列変異の固有の構造を明らかにすることができる。この構造は、隣接するマーカー間のLDのしばしば複雑なパターン、およびLDレベルと物理的距離との相関の全般的欠如に屈することなく、それらを説明することができる。驚いたことに、本発明の新規なコンピュータ演算アプローチを用いて、例えばトウモロコシの配列変異（以前にはほんのわずかなLDしか示さないと記述されていた[Tenaillonら, Proc. Natl. Acad. Sci. USA 98: 9161-9166, 2001；Remingtonら, Proc. Natl. Acad. Sci. USA 98: 11479-11484, 2001；Gaut & Long, The Plant Cell 15: 1502-1505, 2003]）は高度に構造化されており、SPCがより大きな距離にわたっていることが明らかにされた。

ハプロタイプの概念および、より最近開発されたハプロタイプブロックの考え方[Dalyら, 米国特許出願2003/0170665 A1]は、共通の遺伝子変異の大部分を少数のSNPでとらえる実際的なアプローチを表している。しかしながら、これまで、ハプロタイプの本質的なモジュール構造や、それにより与えられる系統的記述は確認されていない。以下に説明するように、ゲノム領域における基礎的なSPC組織化に関する知識は、遺伝子解析の論理的で最も強力な設計および解釈を可能にするものである。

SPCマップの構築
本発明の方法は、対象のゲノム領域もしくはゲノム全体のSPCマップに、ならびにそのようなSPCマップの構築法に関するものである。SPCマップはマーカーの最適セットの選択に用いることができ、該マーカーセットの全部もしくは一部は、その後の遺伝子型判定研究において（すなわち遺伝子型と表現型／形質の間の関連性を確立するために、またはin vitro診断目的のために）アッセイすることができる。SPCマップはまた、1つの種およびその近縁種（例えば経済上重要な農作物および家畜）での遺伝的多様性の全幅を明らかにすることができ、それによりマーカー支援育種（交配）の機会を提供することができる。SPCマップは、いかなる集団サンプルに由来する遺伝子変異データを用いても構築することができる。しかしながら、SPCマップは研究対象の集団および研究の深さ（すなわちサンプルサイズ）にある程度依存すること、およびマップはそれに応じて用いられるべきであることを理解することが重要である。例えば、特に臨床診断の場面においては、あるアッセイの価値が、そのアッセイのもとになるSPCマップの有効性および包括性と直接的に相関し、従って、該マップは該集団の代表的なかつ十分に大きなサンプルから構築されなければならないことが明らかであろう。

SPCマップの構築は、対象のゲノム領域にわたるSPCのパターン、それらの関係およびそれらの境界を決定することを含む。SPCのパターンは、好ましくは、あらかじめ決められた単一のストリンジェンシーをもってするのではなく、多様な閾値レベルにおいて解析される。SPCはいかなる閾値で規定されてもよく、閾値としては例えば1、＞0.95、＞0.90、＞0.85、＞0.80、＞0.75、＞0.70、＞0.65、＞0.60、＞0.55、および＞0.50が挙げられる。当業者は、閾値設定の妥当性が、とりわけマーカー対立遺伝子の関連の強度を計算するのに用いられる尺度に依存することを認識するであろう。関連をC=P_ab/P_aとして測定するときには、SPCマップは典型的にはC=1からC＞0.75までの複数の閾値において作成される。

実際の生命体では、SPCの同定は実験データの質（欠落データおよび過誤データ）により混乱させられ、さらに、モデルSPC構造からの顕著な逸脱が、特定のゲノムプロセシング（例えば組換え、遺伝子変換、反復突然変異、復帰突然変異）の結果として起こりうる。こうした側面は、ある領域のSPC構造を、1つの与えられた閾値で最大限に構築することを困難にする。例えば、C=1においては、全てのSPCが明らかにされるわけではなく、少なくともその最大限には明らかにされない。他方、より低い閾値においては、いくつかのSPCを合体することができる。発生頻度にわずかな違いしかない従属性SPCの対の場合がこれにあたる。いくつかの場合には、1つのサンプル配列を除いて、全てのサンプル配列上に同時発生するSPCが観察された（これは図2AのSPC 1および1.1に例示されている）。そのようなSPCは、閾値C値を1より低く設定するとき、速やかに単一のSPCに合体する。これは図2D／Eに示されている。すなわち、図2AにおいてC=1で観察される別個のSPC 1および1.1は、C＞0.90で1つになる。従って、複数の閾値での評価を介したときだけ、完全なSPCマップを構築することができる。しかしながら、ほとんどの好ましい実施形態では、より低い閾値をC=0.75とする。

実験上の欠陥およびゲノムプロセシングが異なる閾値においてSPCマップに与える影響を、より詳細に考察する。解析を混乱させうる一次的な要因は、遺伝子変異データの質である。現在の技術水準の遺伝子型判定技術を用いると、特にハイスループットの条件下では、約0.5％の現実的なエラー率が得られることがあるが、1回通過の実験でのドロップアウト率は5〜10％にも上りうる。あるSNP位置での欠落もしくは過誤データ点は、関連がもはや完全ではなくなるので、C=1の閾値においてはそのSNPをクラスタから排除しうることが明らかであろう。本発明の方法は、閾値レベルを徐々に低くする際に、C=1ですでに認識されたSPC核から出発して、C=1では除外された特定の多型を回復させるために、SPCを完全に露出させるようになっている。このことは図4に表されている。この図で用いた遺伝子変異データセットは、図1で用いたものと同じであるが、対立遺伝子コールの5％（無作為に選択された）を欠落データ（4.5％；「N」と記す）または不正確な結果（0.5％；正しい対立遺伝子をその位置で見られる反対の対立遺伝子で置き換えた）で置き換えた。C=1、C＞0.9およびC＞0.75において同定されたSPCを、それぞれ図4A、4Bおよび4Cに示してある。

ペアワイズC値のマトリックスを図4Dに示してある。ストリンジェンシーを下げることにより、C=1においてクラスタ化しなかったSNPの最大部分を再びとらえられることが見て取れる。C＞0.75においては、5つの異なるSPCのうち1つを除いた全てのSNPがクラスタ化される（図4Cを図1Aと比較のこと）。C=1では、2つの従属性SPC（すなわちSPC-1.1およびSPC-2.1）が形成されることにも留意されたい（図4E）。これらのクラスタはC＞0.9でも存在しているが、閾値C＞0.75ではそれぞれSPC-1およびSPC-2と合体する（図4F）。この観察は、複数の閾値レベルにおいてSPCを調べることの必要性を立証するものである。

この例では、C=1において別個のクラスタが観察されており、これらは、実際には、より低い閾値レベルで明らかになる同一SPCに属するものであるが、図2に示した他の場合には、C=1で検出されたいくつかの正真正銘のクラスタが、低すぎる閾値レベルにおいては見落とされる可能性がある。遺伝子型データの精査だけでなく種々のストリンジェンシーでのクラスタ化は、一般的に、手元のデータに対する最も適した閾値を明らかにするだろう。結論として、あるデータセットについては単一の閾値が全てのSPCをとらえるわけではなく、SPCマップは種々の閾値における解析から組み立てなければならないと考えられる。ある領域のSPCマップの矛盾や欠陥（例えば図4Cに示してあるような）は、逆に、遺伝子変異データセット中の、最も決定的な欠落結果および起こりうる過誤データ点を特定するのに用いることができる。従って、本発明はまた、反復解析での実験的確認もしくは検証を必要とするデータ点を強調する方法をも包含する。

データの質に加えて、遺伝子変異の解析はまた、種々の公知のゲノムプロセシング（組換え、遺伝子変換、反復突然変異および復帰突然変異を含む）により混乱させられる。これらの事象の一部は、実験的エラーと区別をつけられないことに注意すべきである。例えば、復帰突然変異もしくは反復突然変異は、同じくらいよくエラーとして解釈される。プロセシングの全ては、特定のマーカー対立遺伝子間の関連の程度を下げる効果を有し、上述したように、徐々にストリンジェンシーを下げることで作成されたSPC構造の注意深い解析により対処することができる。

SPCは主に組換え事象で終わる。このことは、図5および図6に例示されている。図5A／Bは、2,3の過去の組換え事象がSPC構造に及ぼす影響を示している。組換え事象の結果、1つの特定のSPC、すなわちSPC-1は、閾値C=1において3つの異なるSPCに分割される。組換え事象は、新しいSPC（例えばSPC-1xおよびSPC-1y）のSNPがSPC1のものと混ざり合わず（典型的には、非組換え領域におけるSPCの場合と同様）、代わりに隣接するSPCを作り出すという単純な事実により認識される。しかも、たいてい、組換え事象はSPC構造における一般的な原則（すなわち、SPC対が従属配置と独立配置の両方で見出されるわけではないという原則）に違反することにつながる。図5に示したケースでは、2つの新しいSPCとSPC-1との関係は、明らかな従属の関係であり（このことは、SPC-1がSPCのないSPC-0と組み換えを起こしたことによる）、SPC-1xとSPC-1yとの関係を考慮したときに変則性が観察されるにすぎない。この関係における矛盾は、図5Dのネットワーク構造中に破線で示されている。閾値C=1における該領域のSPCマップは、図5Cに示されている。SPC-1は両側で中断されているのに対して、他のSPCは連続的であり、組換えに関係していない部位の関連の強度は影響を受けていない。特定の領域での組換えの重要性（別の組換え事象の数および／または該集団での頻度により反映される）は、より低い閾値レベルでのクラスタ化の検討によっても評価することができる。図5E／Fおよび図5G／Hは、同定されたSPCならびに、それぞれC＞0.9およびC＞0.8での対応するネットワークを表している。SPC-1xおよびSPC-1yは、段階的に減少するストリンジェンシーにおいてSPC-1とその時点で合体するのが見て取れる。より低い閾値でのSPCの合体と、その結果としてのSPC数の減少は、遺伝的多様性を把握するために最終的に必要とされる遺伝的マーカーの数を減少させる点で有益である。このことは、関連性の研究においては特に重要である。なぜなら、これが手ごろなコストで大きなコホートにおいてこれらのマーカーを適用することを可能にするからである。しかしながら、調査される変異の減少は、関連性研究の有効性の起こりうる低下とのバランスをとる必要がある。

少数の組換え事象の場合とは対照的に、図6A／Bは、組換えのホットスポットに架かる全ての多型部位の対では関連性が低いことを示している。図6Bのマトリックスでは、これらのペアワイズC値が全て＜0.5であることが見て取れ、このことは、組換えホットスポットの両側にはSNP間のクラスタ化が存在しないことを示している。反復組換えは、LD領域の末端の境界を明確に定める。図6Cは、対象の遺伝子座のSPCマップを表している。2つの異なる領域中に見出されるSPCは、それらが様々な組み合わせで存在しうることを反映するために、別個に示されている。さらに、隣り合う領域に属するSPCは、非組換え領域内に見られる階層原理（すなわち2つのSPCのマイナー対立遺伝子は、別のハプロタイプと同一のハプロタイプ上に共に見出されることはありえない）に従っていない。これに従うと、SPC関係はそれぞれの領域について別々に示されるにすぎない（図6D）。

SPCマップは、Dalyらがヒトゲノムに対して記述したハプロタイプマップとは顕著に異なっている[Dalyら, 米国特許出願2003/0170665 A1]。ハプロタイプマップはヒトゲノムの「ブロック様」区分を表している。別個のハプロタイプブロックは、種々のサイズのセグメントであり、そのセグメントにわたって限定された組換えが観察され、組換えの部位によりセグメントの境界が定められている。個々のそのようなハプロタイプブロック中では、遺伝的多様性は極端に限られており、平均して3〜6の共通のハプロタイプが、一緒になって、集団サンプル中の全染色体の平均90％を構成することを示唆する証拠がある。

SPCマップでは、Dalyのハプロタイプマップと異なり、ある領域中のマップエレメントまたはSPCは、必ずしも同じ境界を持たない。多くの例では、（その終点が集団中に高頻度で見られるときでも）1以上のSPCが他のSPCの終点をまたいで延びているか、または、他の複数のSPCを包含している。マップエレメントも異なって定められる。すなわち、ハプロタイプブロックは本質的に非組換え領域に対応するが、SPCはマーカー対立遺伝子のより厳格な共存条件（絶対LD）を必要とする。さらに、非クラスタ化多型部位は、SPCの考え方においては劣ったマーカーとみなされるが、ハプロタイプブロックモデルにおいては、それらはハプロタイプ多様性に寄与するので、タグSNPのパネルに含まれると考えられうる。

本発明者らは、本明細書中に記載したSPC構造が遺伝子変異データ中に存在しない領域、またはSPC構造が秩序だったネットワーク階層から明らかな離脱を示している領域を見出した。このような逸脱は、本発明の発見およびその適用性／有用性を無効にするものではない。例えばSPCデータが十分に緻密でないとき、および／またはあまりにも多くの実験的エラーを含んでいるときには、データセットが研究対象の領域の固有の構造を明らかにすることができない可能性があることに注意すべきである。さらに、当業者は、固有の（首尾一貫した）構造の特定の失敗が容易には説明できず、その失敗が単に遺伝子座の込み入った歴史を反映しているにすぎないことを十分に認識するであろう。また、あるSPCが正真正銘のSPCであるとみなされるためにそのSPCが包含しなければならない多型の数は、手元にあるデータセットに大いに依存すること、さらに具体的にはSNP密度、SPCを観察するサンプルの数、研究対象の生物、およびデータの質といった要因に依存すること、も認識されるであろう（以下を参照）。

与えられた閾値で検出されたSPCの統計学的有意性を評価するために、様々な多型部位の対立遺伝子コールが（対立遺伝子頻度に影響することなく）ランダム化されている代用遺伝子変異表でシミュレーションを実行することができる。特定のデータセットでは、2つの多型のみからなる最小のクラスタであっても、考慮に入れるべきである。関連した問題は、研究対象のサンプル中に1回しか観察されないSPCの適切性である。実際、ある個体にユニークな配列変異は、定義によると、クラスタ化を示すであろう。しかしながら、この観察は、(i)多数の多型が含まれる場合、および／または(ii)その事象が合理的に説明できる場合、には特に信頼性がある。例えば、シングルトンSPCは、ヨーロッパ人のサンプルよりもアフリカ人個体においてより頻繁に出現し、アフリカ人はヨーロッパ人より多様なハプロタイプを有するという概念に合致する[Gabrielら, Science 296: 2225-2229, 2002]。

ctSNPの選択 − 遺伝子座の秩序だった遺伝的特徴づけ
SPCマップは、特定の表現型との関連性の発見において価値のあるインフォーマティブなSNPの選択のための理論的で優れた根拠を与える。まず、これは情報を損失することなくアッセイされる必要がある変異体の数を減らす明確な方法に相当する。あるSPCの多型間の連鎖の程度が与えられると、単一の代表的なSNP（ctSNPと呼ぶ）が関連性をテストするために選択される一方で、該SPCの他の全ての多型は余剰であるとみなされる。この基本的な考えに加えて、クラスタ化する多型とクラスタ化しない多型間の差異は、非常に意義のあることと予想される。本発明者らは、SPCが近縁の種間で共有されており、従って種形成の事象に先行しているケースを同定した（実施例4参照）。この観察は、SPCが「非常に古い」という考え方を具現化するものであり、これらの構造が、広範な自然淘汰にかけられた変異であって、それらが特定の表現型に影響しているか連鎖しているために歴史を通じて残ってきた変異の、祖先におけるグループ分けを表していることを示唆している。従って、SPCは表現型に対する関連性の単位としてテストするのに最も意義のあるものとみなすことができる。これに対して、比較的低いストリンジェンシーでさえもクラスタ化しない多型は、それらがただ1つのSPCと関連して見出される場合には、おそらくもっと最近の突然変異であり、また、該多型が1より多いSPCと部分的に関連している場合には反復突然変異を表している可能性がある。これらの非クラスタ化多型の分子的起源がいかなるものであっても、それらは遺伝的マーカーとしてはほとんどまたは全く価値がないようである。従って、本発明のクラスタ化アプローチは、生物学的（医学的または農業的）に有意義な遺伝子変異の遺伝子診断のための新規な診断方法であると考えられる。より具体的には、本発明の方法は、優れた診断的価値を有するDNAマーカーを選択するのに非常に有用であると予想される。

SPCはSNP以外の多型を含みうるが（実施例1参照）、クラスタのためのタグとして特定される多型は、好ましくはSNPである。このタイプのマーカーは、いくつかの利用可能な方法の1つを用いて容易にアッセイすることができる[Kwok P.Y., Annul Rev. Genomics Hum. Genet. 2: 235-258, 2001]。特定のSPCに属するSNPは、そのSPCのタグとして（全てが）等しく有用であるわけではない。いずれか1つのSNP（所定の閾値レベルを越えてSPCの他の全ての多型部位と関連している）がctSNPの資格があるという概念は、考えられなくもないが、非常に独断的である。その代わりに、客観的な順位づけが提案され、この順位づけは、種々のSNPが、それらの属するSPCをいかによく象徴しているかを反映するものである。これは考えられるいくつかの基準の1つを用いて達成することができる−好ましい方法によると、個々のSNPとクラスタの他の全ての多型との関連の平均強度が、決定的な基準として用いられる。関連の強度は、C=P_ab/P_aとして計算され、ここで、対立遺伝子およびハプロタイプの頻度は、欠落データ点の最も厳格な（すなわち統計学的な；「SPCアルゴリズム」の項を参照）取り扱い後に決定された。この計算方法は、あらゆる欠落データ点を完全な連鎖からの逸脱であるとして、それらにペナルティーを課するものである。この測定によるctSNPの選択は、図4G／H／Iに3つの異なるSPCについて示されている。図4で用いたデータセットは、欠落だけでなく過誤のデータ点をも含み、意図されたクラスタはたいていの場合、閾値C＞0.75で暴露されるにすぎない（図4C）。図4G、4H、および4IはそれぞれSPC-1、SPC-2およびSPC-4について2つずつの表を示している。最初の要約の表は、それぞれのSPCに分類される個々の多型部位での対立遺伝子コールを挙げている。2番目の表は、個々のクラスタ内のペアワイズC値のマトリックスを示している。上記のように、これらの値は、図4Dに示したものとは異なるやり方で計算された。それぞれの多型の平均C値は、対角線上のSNPに沿って、および右側の欄外に示してある。最も好ましいctSNP（または同等の結果の場合には複数のctSNP）は、該クラスタの他の多型との関連の最も高い平均強度を有するSNPである。一般的には、他のSPC多型との関連の平均強度がかろうじて異なっているにすぎないいくつかのSNPは、ctSNPとして相互に交換して用いることができる。これは、所定のプラットホーム上で簡単にアッセイすることができるSNPを選択するための機会を提供する。当業者であれば、SNPを順位づけして、クラスタを最もよく象徴するタグSNPを選択するために、代替法を容易に想定することができよう。ctSNPの選択の妥当性がデータの質に依存することも理解されよう。SNPは、他の多型との相対的に弱い関連が真性のものであり、すなわち、反復突然変異もしくは遺伝子変換のような生物学的現象に起因すると考えられる場合には、ctSNPとして正当に拒絶される。しかしながら、SNPが乏しいアッセイ結果に基づいて不適当に拒絶されることもありうる；後者のSNPは、実際は、例えば別のアッセイプロトコル／プラットフォームを用いて得られる、優れたデータを用いることで選択されうる良好なタグSNP候補となることは明らかである。

ある遺伝子座のSPC構造は、その遺伝子座を遺伝的に特徴づけ、同様に実験結果を合理的に説明するための実験の設計に役立つ理論的な枠組みを提供する。あるSPC（もしくはそのSPCを象徴するctSNP）と特定の表現型との関連は、対照集団と比較して、その表現型により特徴づけられる集団における稀な対立遺伝子の頻度の増加により明らかになる。また、SPC間の関係は、多様なSPCについて測定される対立遺伝子頻度におけるある種の相関を暗示する。例えば、独立性SPCの場合（図1A）、表現型と1つの特定のSPCとの関連は、（全ての）他のSPCの稀な対立遺伝子頻度の減少によって伴われるだろう。これに対して、従属関係にあるSPCとの関連は一致している。すなわち、ある特定のSPCとの因果関係が、より低レベルの従属性SPCとの連鎖のみならず、（あまり顕著ではないといえ）階層樹においてより高いところにあるSPCとの連鎖をも必ず包含する。階層においてより高いところにある分岐群特異的SPCは、いくつかの異なるハプロタイプに共有されており、原則的には、これらの異なるハプロタイプのいずれかとの関連を明らかにするために用いられうる。この形式主義（種々のSPCの対立遺伝子間の協同作用もしくは拮抗作用の場合には損なわれることもある）は、特定の遺伝子座での対立遺伝子頻度測定の信頼性を評価する際の一助となりうる。さらに、SPCネットワークは、それが最小限の情報損失によりゲノムワイド関連性研究に用いるSNPの数を減らすための客観的な方法を提供するという点で、ctSNPの洞察力のある選択をもたらす。まず最初に、一次レベルの分岐に対応するSNP（例えば図3Bで1、2、および3と記されたSPCをタグ付けするSNP）が選択されうる。さらに綿密な研究は、より多数のSNPの使用、例えば従属性SPC（例えば図3BのSPC 1.1、1.2、2.1、2.2、3.1および3.2）の後続の層をタグ付けするものの使用を含むだろう。そのようなより徹底的な研究は、関連性についての最初の調査が失敗した（関連性研究の有効性は実際、その研究が行われたSPCレベルに関係しうる）か、または連鎖を示した特定の候補SNPを追跡するためか、のいずれかの理由で行うことができる；後者の場合には、ネットワークのある部分がより深く解析され、それによりその構造中の微妙な下位区分の全てに対応するタグSNPを探索する。遺伝子座の包括的な特徴づけを行うために、個々のSPCをタグ付することがしばしば必要ではないことを理解することも重要である。実際、ある分岐群特異的SPCは、該分岐群特異的SPCがより低レベルの従属性SPCと常に共存する場合にあっては、該従属性SPCに対して余剰である。この事象では、該分岐群特異的SPCは、研究対象のサンプル中の実際の配列／ハプロタイプにマッチしないSPCネットワーク中の中心点(node)に対応する。このことは図3Bに示され、ここでは、SPC-1が従属性SPC-1.1またはSPC-1.2のいずれかと常に同時発生するので、SPC-1はタグ付けを必要としないが、同様に、SPC-3.2.1およびSPC-3.2.2の検出はSPC-3.2の同定を過剰にする。

系統だった遺伝的特徴づけは、複雑なSPCマップを有する遺伝子座については特に有用である。本発明の方法による解析は、ある遺伝子座が、多くの従属性レベルで、高度に分岐したSPC構造により特徴づけられることを明らかにしている（図3Aおよび3B参照）。このことは、例えば「SeattleSNP」遺伝子変異データ中に観察されてきた[UW-FHCRC Variation Discovery Resource；http://pga.gs.washington.edu/；実施例7も参照]。一般的に、そのような高度に分岐した構造の認識は、十分数の個体について、かなり広い領域の配列決定による遺伝子変異の相当徹底した調査を必要とすることが予測される。すなわち、変異データは十分に濃密でなければならず、ありふれた多型のみならず稀な多型を含む必要がある。稀なSPCは、集団をより深く調査するにつれて、徐々に現れてくるにすぎない。例えば、国際HapMapプロジェクトのデータは、SNP密度の現状のレベルで[例えば2003年1月7日の時点で約274,500のSNP；http://www.hapmap.org；Dennis C., Nature 425: 758-759 (2003)]、少なくとも最もSNP密度の高い部分では、すでにいくつかのSPC構造を提示しているが（実施例9参照）、国際HapMapプロジェクトはこの構造を完全な深さにまで明らかにすることを期待されるべきでない。

SPC構造およびその秩序だった遺伝的特徴づけへの翻訳は、ゲノムワイドスキャンに適用することができ、さらにin vitro診断のような他の研究へも適用可能である。段階的な遺伝子型判定はいくつかの場合にはコストの面で有利であると予想される。診断上重要なヒトMHC遺伝子座はただ1つの可能な例を構成する。実際に、以下の実施例はJeffreysらにより作成されたMHC遺伝子型データの検討を示しており[Jeffreysら, Nature Genet. 29: 217-222 (2001)]、少なくともある特定の領域は高度に分岐したSPCネットワークにより特徴づけられることを示している（実施例8）。

SPCは二倍体遺伝子型データ上で同定され得る
別の実施形態では、本発明の方法は二倍体遺伝子型データを用いたSPCおよびctSNPの同定に関する。配列多型クラスタは、実際に、ハプロタイプデータセットの代わりに二倍体遺伝子型に本発明のアルゴリズムを直接適用することにより検出される可能性がある。これは、本質的にホモ接合性の近交系がすでに利用可能になっている、大部分の経済上重要な植物種および動物種に対してはあまり重要でない。しかしながら、SPCの検出にハプロタイプデータではなく遺伝子型データを用いることが可能なことは、ヒトの場合には重要な利点を示す。これはハプロタイプの決定（これは実験的に達成することが難しく、かつコンピュータ演算アプローチのみによる場合には誤りが起きやすい）を行う必要性を回避する。

二倍体遺伝子型データに基づくSPCの同定は、図7および8に記載されている。最初の例は、基本的には図1で用いたものと同じデータセット（すなわち、多数の独立性SPCの単純なケース）に基づいている。2番目の例は、より複雑なSPC構造を示す遺伝子型データに関する。二倍体遺伝子型データ中でSPCを同定するために、入力の遺伝子変異表（図7Aおよび8A）（多数の個体の全ての多型部位での遺伝子型コールを含む）を二通り作成し、それぞれのサンプルが2回表示されるようにする。この二通りの表は、すべてのヘテロ接合性のスコアが、一方のコピーではマイナー対立遺伝子と、2つ目のコピーではメジャー対立遺伝子と置き換えられるように、さらに改変される。その結果生じる人工的なハプロタイプは、本明細書中では、ヘテロ接合性コールがマイナー対立遺伝子で置き換えられた場合にはマイナーメタタイプと命名され、二倍体遺伝子型のヘテロ接合性コールがメジャー対立遺伝子で置き換えられた場合にはメジャーメタタイプと命名される。二通り作成されて再構成された遺伝子変異表はメタタイプ表と呼ばれる。2つの必須の特徴（すなわち対立遺伝子の頻度、およびその共存もしくは連鎖）がメタタイプフォーマット中に完全に保持されていることは特筆すべきである。実際、ヘテロ接合性の対立遺伝子とホモ接合性の対立遺伝子の比（すなわち0.5：1）は、2つのメタタイプにおいて二倍体遺伝子型を分離することにより、正しく保たれている。共存する部位間の連鎖は、マイナーもしくはメジャーメタタイプにおけるそれぞれマイナー対立遺伝子もしくはメジャー対立遺伝子のいずれかによる、単一の二倍体遺伝子型の全ヘテロ接合性遺伝子型の同時置き換えによって保たれる。

図7B／C／Dおよび図8B／C／Dは二倍体遺伝子型の解析により明らかになったSPCを示している。両方の実験で、二倍体遺伝子型は既知のSPC構造を有するハプロタイプのランダムな結合により作成された（図7Eおよび8E）。二倍体遺伝子型に基づいて同定されたSPCは、出発ハプロタイプに見出されたものと同一であることが、比較により示される。従って、二倍体遺伝子型データの解析は、最後には、成分ハプロタイプの解析と同じセットのctSNPの選択をもたらす。図7C／Dおよび8C／Dの図は、しかしながら、真性の半数体遺伝子型との1つの顕著な差異、すなわち、独立性SPCが、あるメタタイプでは同時発生しうること（図1Aを図7C／Dと比較のこと）、および結果的に秩序だった構造が明らかに損なわれていること、を示している。当業者は、二倍体遺伝子型が2つのハプロタイプの合計であること、およびメタタイプ表はマイナーもしくはメジャー対立遺伝子のいずれかによるヘテロ接合部位の任意な置き換えにより作成されたことを考えれば、このことが予測されることを理解するであろう。真性のヒト二倍体遺伝子型から出発したSPCの同定を、実施例の項に示してある。

本発明の方法は、最大限インフォーマティブなタグSNPを同定するためにCarlsonらが開発した方法と、いくつかの面で異なっている[Carlsonら, Am. J. Hum. Genet. 74: 106-120, 2004]。まず第1に、本発明は二倍体遺伝子型データ中でクラスタ化した多型のセットを見分ける方法を教示している。従って、ctSNPの選択は、これら二倍体遺伝子型データに由来するハプロタイプの推定を前もって必要としないで行われうる（実施例7参照）。これに対して、Carlsonらは、彼らのLD標準であるr²の計算を、推定されたハプロタイプ頻度に依っている。血縁関係のない二倍体（ヒト）個体に由来するハプロタイプの実験的決定は相当に難しく、コンピュータ演算による確率論的アプローチは精度に限界がある。本発明の方法はコンピュータ演算により推測されるハプロタイプにおいて発生しうるエラーを回避する。

第2に、遺伝子変異の構造は、本発明では、異なるストリンジェンシーでのマーカー対立遺伝子の関連の精査に基づいて、完全に暴露される。これに対して、Carlsonらは、一定の統計学に基づいて関連マーカーのビン（bin）について検討している。本明細書では、あらゆる所与の閾値がデータセットに依存すること、およびそのような閾値におけるマーカーの関連は、遺伝子変異の不完全で不精密な像を与えることが十分に実証される。このことは、選択されたタグSNPの数、包括性、および情報量に関して実用上の影響を有する。例えば、他のどのSNPとの関連性の所定の閾値をも超えないあるSNPが不合理にもシングルトンのビンに配置される可能性があり、これは、最終的には1つの領域中の遺伝子変異をプローブするのに必要とされるタグSNPの数を増やす。

第3に、Carlsonらは、ビンの他の全てのSNPとの関連性の閾値を超えているSNPを、そのビンのタグSNPと呼んでいる；該タグSNPは同等とみなされ、いずれのSNPをアッセイのために選択してもよい。本発明の好ましい方法は、SPCに対するタグSNP（ctSNP）としての好適性に従ったSNPの順位づけを必要とする。

第4に、本発明の方法では、非クラスタ化多型は、アッセイのために考慮されない。（ストリンジェンシーの段階的減少の後においてさえも）クラスタ化しない多型は元来、遺伝的マーカーとしてほとんど、もしくは全く価値がない。これらの多型の多くは、おそらく、最近の偽突然変異である。上記のように、Carlsonらは、シングルトンのビンを検討する。

第5に、Carlsonの１つのビン／1つのタグSNPの概念とは対照的に、（ネットワークにより表される）SPC構造の洞察が、情報の損失をほとんどもしくは全く伴わずに、タグSNPの数のさらなる減少をいかにして可能にするかは、本明細書中で十分に実証される。例えば、従属性SPCと常に共存するクラスタの検出は、これら従属性SPCに対して余剰である。あるいはまた、粗い解析を、分岐群特異的SPCのみのタグを選択することによって実施してもよい。

ハプロタイプを推定するためのSPC構造の使用
補助的な、実験によるハプロタイプの解明を必要とせずに、二倍体遺伝子型データから出発して突然変異の段階を明確に定める方法も、本発明に包含される。二倍体遺伝子型データからのハプロタイプのin silico推定は、前述の図7および8によって例示されている。代表的な遺伝子型データ（既知のハプロタイプから組み立てられた）は、遺伝子型のデコンボリューションに用いられる原理を教示する目的を果たす。上記で考察したように、SPCはすでに遺伝子型データから直接確立された（図7C／Dおよび8C／D参照）。

図7の例は、合計8ハプロタイプ（そのうち5つは独立性SPC 1〜5、SPCを含まない6番目のハプロタイプ（図7E／FのSPC-0）、およびSPC-4とSPC-0に関係する追加の2つ（非クラスタ化SNPの存在により生じる）を含む（図7E）。SPCの独立性（すなわち別々のハプロタイプ上でのそれらの発生）の結果として、メジャーメタタイプはせいぜい1つのタイプのSPCを含む一方で、マイナーメタタイプはSPCをまったく含まない（SPC-0ホモ接合性の場合）か、1つのSPCを含む（SPC-0がハプロタイプの1つである場合）か、または多くても2つのSPCを含むということになる。このことは、図7C／D中に明らかに見て取れる。メジャーメタタイプはSPC 1、2、4および5を含み、マイナーメタタイプは異なるSPCの種々の組み合わせを示している（図7C／D）。SPC-3の存在がマイナーメタタイプからのみ推測されうることに注目されたい。これらの図から、（基礎となるハプロタイプについての知識を持たずに）SPCの独立性を確かめ、図7Fに示したSPCネットワークを推定することは、簡単なことである。それが立証されれば、基礎となるハプロタイプを解析するための法則は単純である。(1)マイナーメタタイプがSPCを1つしか含まなければ、この遺伝子型は、そのSPCを含む1つのハプロタイプとSPCを含まない1つのハプロタイプ（SPC-0）にデコンボリューションされる。(2)マイナーメタタイプが2つのSPCを含むならば、この遺伝子型は最初のSPCを含む1つ目のハプロタイプと2番目のSPCを含む2つ目のハプロタイプにデコンボリューションされる。また、SPCの一部でないSNPも相を特定することができる。この例では、SNP-33およびSNP-38の場合がそれである。最も単純な解釈（最少のハプロタイプを用いて全ての遺伝子型を説明できる）は、SNP-33がSPC-4とのみ部分的に関連しているというものである。同様に、SNP-38は、これがSPC-0のみか、または1つの単一SPCのいずれかを含むマイナーメタタイプ中にのみ見出されるので、SPC-0と関連する。別の遺伝子型データセット（同じハプロタイプのランダム組み合わせにより組み立てられた）は、全ての非クラスタ化対立遺伝子の明確な相特定を常に可能にするわけではなかった。当業者は、この制限は手元のデータに固有のものであり、デコンボリューション法自体の欠点ではないことを理解するであろう。

図8の例は、現実で出くわすことがより多そうなさらに複雑なSPC構造のデコンボリューションの記述を目的としたものである。この例は、合計7つのSPC（そのうち3つは他と関連しない／独立なものであり、4つはそれらに従属している）を含む。これら7つのSPCは、5つの異なるハプロタイプ上に存在する。追加の6番目のハプロタイプはSPCを含まない（図8E／F）。この場合は、前の例とは対照的に、結果として生じるマイナーメタタイプは2より多くのSPCを含む可能性があり、従って上述の単純な法則を適用する前にSPC間の階層的関連性を事前に決定することが必要である。定義によれば、あるSPCが常に他のSPCと共存するならば、該SPCはその別のSPCに従属している。そのような共存は、メジャーメタタイプとマイナーメタタイプの両者の精査から推定することができる。メジャーメタタイプでの共存は、SPC同士が従属性であることを明らかに立証するが、SPCの従属性は、互いに独立した関係にある複数のSPCとの共存のために、マイナーメタタイプに基づいては明白に確かめられないかもしれない。階層性を明確に決定することの可能性は、観測の数とともに増加する。この理由から、SPC構造はまずメジャーで、次にマイナーメタタイプで別々に解析される。

図8Cのメジャーメタタイプで観察されたSPCの精査は、SPC 1.2がSPC-1と共存していること、ならびにSPC 2.1および2.2が同時にSPC-2と共存および同時発生していることを示し、従ってそれらの従属性を明確に立証している。図8Dのマイナーメタタイプで観察されたSPCの精査は、SPC 1.1および1.2が常にSPC-1と同時発生していること、ならびにSPC 2.1および2.2が常にSPC-2と同時発生していることを示している。後者の観察は、メジャーメタタイプから推定されたSPC 1.2、2.1および2.2の従属性を確認し、さらにSPC 1.1の従属性を立証するものである。この場合、SPC 1.1の従属性は明らかである。なんとなれば、マイナーメタタイプがSPC 1.1と他の独立性SPC 2および3との全ての可能な組み合わせを示すからである。図8C／Dに見られるSPCの精査は、従属関係を説明し、確かめるのに有用な、また別の法則を表す：同じSPCに従属する2つのSPCがマイナーメタタイプ中で共存するときには、対応するメジャーメタタイプはその2つのSPCが従属しているSPCを示すであろう。

上記の解析は、基礎となるハプロタイプについての知識がなくとも、SPC間の関係を確立すること、および図8C／D中のデータから図8FのSPCネットワークを推定するのは簡単であることを実証している。従属性が決定されれば、独立性SPCについての上記の法則を適用することでデコンボリューションを行うことができる（これは次に、付随する従属性SPCのデコンボリューションを指令する）。上記で指摘したように、手元にある観察の数は、あるケースについてはSPC階層性を明確に規定するのに十分でないかもしれない。例えば、別の無作為に作成された遺伝子型データセットを用いた1つの特定の反復シミュレーションにおいて、SPC-1.1は常にSPC 1および2の両者と一緒に見出され、これがSPC1.1の従属性を明確に推定することを不可能にした。このことは、本デコンボリューション法の欠点というよりはむしろ、そのデータにもともと備わっている限界であることが理解されるであろう。当業者はまた、基礎となるSPC構造が図7Fおよび8Fに示したものより複雑であり、例えばいくつかのさらなるレベルの従属性を表すものであるときにも、本発明の方法は適用可能であることをよく認識するであろう。相が特定できない二倍体遺伝子型から出発したSPCの同定は、従属性SPCの合体を防ぐように、過度に低いストリンジェンシー（これは正確なデコンボリューションを損なう可能性がある）で行われるべきでないことに注意すべきである。ハプロタイプ推定のための現在の技術水準の他のコンピュータ演算を用いた方法と比較して、本発明の方法は正確であり、多数の多型を測定することができる。

種々のタイプの遺伝子変異データに対するSPC解析
本発明の新規のクラスタ化アプローチは、どんなタイプの配列もしくは遺伝子変異データにも適用可能である。ここで記載するケースでは、同じ種もしくは異なる（関連する）種のいずれかの、異なる個体に由来する特定の遺伝子座のDNA配列中に同定された配列変異に対してこれを適用することができる。あるいは、本方法は最新の遺伝子型判定法を用いて多数の個体中に見つかった強く連鎖したSNPのセットに対して適用することが可能である。一般的な意味で、本方法はある特定の遺伝子座に由来する遺伝子変異のいかなるデータセットにも用いることができ、例えば問題となっている標的核酸での遺伝的差異を反映するがそれを明確に規定することができない、実験的に観察された変異に用いることが可能である。種々の実験的アプローチが、異なる核酸解析のために利用可能であり、標的の全配列、特に多様な位置の配列を実際に決定することなく標的核酸の配列を調べるために利用可能である。例えば、何千種類かのユニークなオリゴヌクレオチド（フィーチャー（feature）と呼ばれる）を含むアレイに対する試験DNAサンプルおよび基準DNAサンプルのハイブリダイゼーションは、特定のフィーチャーのハイブリダイゼーション強度についての統計学的差異を明らかにしうる（そのような異なる強度のシグナルは、特定の基礎的な配列差異に割り当てられる必要はなく、かつそれ自体、本発明の方法に用いることができる）。多型部位の正確な配列が既知の場合[上記]には同様に、本方法は問題となっているハイブリダイゼーション差異（すなわちクラスタ化した差異）および偽性のハイブリダイゼーション差異（すなわちクラスタ化していない差異）の間の区別を可能にする。ハイブリダイゼーションアプローチの実現可能性が報告されている：Winzelerら, Science 281: 1194-1197, 1998；Winzelerら, Genetics 163: 79- 89, 2003；Borewitzら, Genome Res. 13: 513-523, 2003。元々は発現解析のために設計された25 merのオリゴヌクレオチドを含むアレイが、総ゲノムDNAの直接ハイブリダイゼーションによって、対立遺伝子多型（単一フィーチャー多型もしくはSFPと呼ばれる）の検出に用いられてきた。SFPは酵母中で、および同様により複雑な120Mbのシロイヌナズナゲノム中で見出されうる。この方法の主な利点は、これが、変異検出アレイ[VDA；Halushkaら, Nat. Genet. 22: 239-247, 1999；Patilら, Science 294: 1719-1723, 2001]よりもはるかに少数のフィーチャーしか用いないことである。VDAは染色体上の各々全ての塩基対を網羅するので、膨大な数のフィーチャー（それぞれの塩基対に対して8個）を必要とし、このことがこのアプローチを費用のかかるものにしている。アレイハイブリダイゼーションは多型発見ツールであり、かつルーチンに行われる遺伝子型判定方法でもある。SFPを完全に特徴づける必要はなく、ならびにそれらを同じプラットホーム上の異なるアレイ設計もしくは全く異なる遺伝子型判定の方法論を用いた専用のアッセイに変換する必要もない。

DNAハイブリダイゼーションの好ましい実施形態は、従って、遺伝的解析の新規な方法を構成し、該方法では、所与のDNA区分中の多型の大多数は1回のアッセイ中に記録され、その後、本発明の新規なクラスタ化アプローチを用いて解析され、それによりクラスタ化ハイブリダイゼーション差異のパターンを用いて個体を遺伝的に診断することができる（実施例11を参照）。この点で、DNAハイブリダイゼーション技術はある遺伝子座の遺伝的状態を決定するのに非常に好適な遺伝的マーカー技術を構成する。ゲノムのある規定された領域中のSPC構造を同定するための上記ハイブリダイゼーションアプローチの利点は、以下の通りである。まず、該方法は、古典的なサンガー法もしくは上記VDA（「ハイブリダイゼーションによる配列決定」）のいずれかを用いた完全配列決定による、ある遺伝子座中に存在する遺伝子変異の系統だった解明を必要としない。ハイブリダイゼーションパターンは、存在する配列変異の十分詳細な記述を提供し、本新規クラスタ化アプローチは、配列変異を直接解析したときに観察されるのと同様に、ハイブリダイゼーションシグナル中のクラスタ化を明らかにしうる。当業者は、ハイブリダイゼーション結果をSPCマップへと成功裏に変換するには、遺伝子座あたりに用いられる十分大きな数のフィーチャーが必要であることを理解するであろう。第2に、ハイブリダイゼーション反応自身は、1回のアッセイでの種々の多型クラスタにおける対立遺伝子の状態をルーチンに決定するために用いることが可能であり、ここで従来のアプローチは、遺伝子座あたりいくつかのctSNPに対する別個のアッセイの設計および正当性の確認を要しうる。存在する配列変異のより大きな範囲を記録できることは、遺伝子型判定のための独自のアプローチを提案し、このことは特定の適用においては最大重要でありうる。

SPCマップを使用する方法
本発明の方法は、2つの異なる適用分野において特に有用である。すなわち、ヒト遺伝学から農業および家畜におけるマーカー利用育種にわたる広範囲の領域での遺伝的解析および診断、ならびにほぼ全てのタイプの生物の遺伝的同一性決定に対して有用である。

ある遺伝子座のSPC構造を調べる本発明の方法は、優れた遺伝的マーカーであるctSNPの設計のための論理的枠組みを提供する。ctSNPの1つの重要な適用分野は、多様な生物におけるゲノムワイド関連性研究でありうる。例えばヒトでは、ctSNPの使用は、疾病素因、健康上の危険因子または薬剤応答形質に対応する遺伝的要素を特定するためのものでありうる。農作物および家畜の改良においては、ctSNPの使用は、収量や品質のような農業上の性能を決定する量的な形質に関わる遺伝的因子を特定するためのものでありうる。ctSNPが、近隣の遺伝子中の原因突然変異とのそれらの連鎖により間接的に、または同じSPCに属する原因突然変異とのそれらの関連から直接的に、それらの遺伝的因子の特定をもたらすかもしれないことも予想される。この点で、本発明の方法により得られた結果に起因する主要な科学的発見、すなわち自然界に見出される遺伝子変異のかなりの割合が、SPCモジュール（あるときには多数の異なる突然変異を含む）中に組み込まれていることを強調することは重要である。そのようなSPCモジュールの存在が、これらが偶然だけで起こったものでなく、むしろ進化の過程で選択された突然変異のクラスタを表し、それゆえその種に対してある種の選択上の利点を与える（与えた）対立遺伝子多型を表していることを示唆している。

従って、SPCは形質、特に複雑な形質に関連する遺伝子変異のモジュールであるらしいということが予想され、このことは、それらの形質が単一突然変異ではなく、むしろ突然変異のクラスタにより決定されているという単純な理由によるものである。最近特徴づけられた最初の量的形質の1つ（いわゆる異時性突然変異、すなわち遺伝子発現のタイミングに影響する突然変異）のケースは明らかにこれにあたる[Congら, Proc. Natl. Acad. Sci. USA 99: 13606-13611, 2002]。

ゲノム領域のSPC構造を調べる本発明の方法は、遺伝的同一性決定のための理論的枠組みを提供する。ある個体のSPCマップは、その個体の遺伝的同一性の一義的な記述を表しうるものであり、このことはいかなる生物（細菌からヒトまで）についても言える。結果として、ある生物についてSPCマップが決定されていれば、この論理的枠組みが、個体の遺伝的同一性を決定もしくは診断するのに用いることができるctSNPの徹底的なパネルの設計を可能にする。ヒトのin vitro診断におけるこの応用の有用性は特に予想の範囲であり、この技術の多数の他の応用もまた視野に入れられている。例えば、「同一性保持食品」（identity preserved foods）のin vitro分析における、それらの生産に用いられる遺伝物質の同定を通じた応用が考えられる。別の応用は、細菌株、特に病原株の同定を含む。

一例として簡単には、ヒトin vitro診断において、特定のSPCの存在を示唆することができる表現形質として、それらの1以上の要素が遺伝的であるか、遺伝的なものである可能性がある疾病の症状もしくは感受性が含まれることは予想されており、そのような疾病としては例えば自己免疫疾患、炎症、癌、神経系の疾患、および病原性微生物による感染がある。自己免疫疾患の例としては関節リウマチ、多発性硬化症、糖尿病（インスリン依存性および非依存性）、全身性エリテマトーデスおよびグレイヴス病が挙げられる。癌の例としては、膀胱癌、脳の癌、乳癌、結腸癌、食道癌、腎臓癌、白血病、肝臓癌、肺癌、口腔癌、卵巣癌、膵臓癌、前立腺癌、皮膚癌、胃癌および子宮癌が挙げられる。表現形質はまた、以下のような特質を含む：寿命、外見（例えば禿頭、皮膚の色、肥満性）、体力、敏速性、持久力、繁殖力、および特定の薬剤もしくは治療に対する敏感さもしくは感受性。多くのヒトの疾病の表現型は、動物モデルにおいてシミュレーションすることができる。そのようなモデルの例としては、炎症（例えばMa, Circulation 88:649-658 (1993)を参照）；多発性硬化症（Yednockら, Nature 356:63-66 (1992)）；アルツハイマー病（Games, Nature 373:523 (1995)；Hsiaoら, Science 250:1587-1590 (1990)）；癌（Donehower, Nature 356:215 (1992)；Clark, Nature 359:328 (1992)；Jacks, Nature 359:295 (1992)；およびLee, Nature 359:288 (1992)を参照）；嚢胞性線維症（Snouwaert, Science 257:1083 (1992)）；ゴーシェ病（Tybulewicz, Nature 357:407 (1992)）；高コレステロール血症（Piedrahita, PNAS 89:4471 (1992)）；神経線維腫症（Brannan, Genes & Dev. 7:1019 (1994)；Thalaemia & Shchee, PNAS 90:3177 (1993)）；ウィルムス腫瘍（Kreidberg, Cell 74:679 (1993)）；ディジョージ症候群（Chisaka, Nature 350:473 (1994)）；小児性幽門狭窄（Huang, Cell 75:1273 (1993)）；炎症性腸疾患（Mombaerts, Cell 75:275 (1993)）が挙げられる。

特定のSPCを示唆しうる表現型および形質はまた、例えば、とりわけ、収量、生産物（例えば肉）の品質、およびストレス耐性のような、農業および家畜の性能（performance）についての形質を含む。

本発明は、従って、遺伝的調査のための強力な枠組みを明示する。因襲的には、表現型と遺伝子の間の関連調査は、1以上の目的遺伝子の候補の中および周辺で個々のSNPを調べることを含んでいた。このアプローチは系統だったものでなく、明確な終着点もない。もっと最近、より包括的なアプローチが開発され、それはいわゆるハプロタイプブロック中の共通の対立遺伝子変異を規定するSNPの、十分に濃密なサブセットの選択に基づくものである。本発明は、遺伝子変異の、より基本的で本質的な構造を明らかにする。本明細書中に記載したSPCマップは、LDが遺伝子座および集団の中およびそれらにわたって極度に多様であるという一般的な観察を説明することが可能であり、ゲノム全体、ゲノム下遺伝子座もしくは遺伝子の、最も合理的かつ包括的な遺伝的解析のための基盤を提供することができる。よって、個々のSPCを独自に区別するのに十分なSNPのサブセット（本明細書中で上述したctSNP）を選択することが可能であり、個々のSPCとの関連は、そのようなctSNPの存在を決定することで、明示的に定めることができる。このように、当業者は、ある遺伝子の特定の集団変異が特定の形質（例えば病状）と関連しているかの徹底的な検討を行うことが可能である。

最後に、このアプローチは、あらゆる所与の集団（ヒト、動物または植物）に対して、あらゆるゲノムについての包括的SPCマップを作成するための正確な枠組みを提供する。SNPの十分大きな集合について検討することにより、基礎となるSPCの全てを規定することが可能なはずである。これらのSPCが同定されれば、個々のSPCと関連する1以上の独自のSNPが選択され、その後のあらゆる遺伝子型判定研究における検討のためのSNPの最適な参照セットを提供することができる。従ってSPCは特に有益であり、なぜならばそれらがSNPのサブセットを選択するための単純な方法を提供するからであり、該方法は、表現型／形質関連対立遺伝子（例えば共通の疾患感受性関連対立遺伝子）を見出すための集団関連に必要な全ての情報をとらえるものである。SPC構造が規定されれば、SPC全体を記述するために、与えられたSPCに独自の単一のctSNPの遺伝子型を決定するのに十分である。従って、ゲノム全体もしくはゲノムの一部の領域にわたるSPCは、ctSNPの特定の組について徹底的に検討されることが可能である。

本発明の方法中での使用のためのサンプルを選択し、検出し、増幅し、遺伝子型判定し、ならびにデータチェックする詳細な方法は、本出願の実施例中に記載されている。しかしながら、当業者に公知のいかなる好適な方法も利用されうることが認識されるはずである。以下の方法は、そのように利用されうる方法のさらなる例である。

SNPを同定する方法
本発明者らは、SPCが規定されるゲノム（領域）のマップを構築することの実現可能性および望ましさを示してきた。このSPCマップは、共存する対立遺伝子（例えば共分離する多型）のセットを含む。SPCマップ中には、1以上のSPCがある可能性があり、それぞれのSPCはその特定のSPCに特徴的な多型によりさらに特定されうる。そのようなSPCマップを用いると、配列変異は比較的少数のSNPによりとらえることができる。もちろん、ヒト、動物もしくは植物集団におけるSPCマップの包括的な記述は、高密度の多型マーカーを要求しうる。ヒトおよびいくつかの他の（モデル）生物種のゲノムにわたって、急速に多くの多型が利用可能になってきており、これらのデータは本明細書中に記載したSPCマップを作成するのに利用されうる。しかしながら、ある状況においては、同じかまたは異なる集団のさらなるサンプル中で、新しいSNPを同定することおよび／または既知のSNPについて遺伝子型判定を行うことが望まれる可能性がある。これは当該技術分野で公知の方法を用いて容易に達成されうる。

A. サンプル集団
多型情報は、本発明のマップを作成するために、いかなるサンプル集団からでも得ることができる。「情報」は、本明細書中では、サンプル集団に関して、多型の頻度および場所に関するデータ、ならびに他のデータ（例えば遺伝子型研究、ならびに本明細書中に記載の本発明の方法およびマップ中で有用なバックグラウンドおよび表現型（例えば健康状態）の情報）を包含すると意図される。いくつかのケースでは、多様な（複数民族の）集団サンプルを利用することが望まれうる。そのようなサンプルは、（民族的な）起源についてのデータが全く知られていない、総ランダムサンプルを含みうる。一方で、そのようなサンプルは、異なる（民族的）起源を有する2以上の群に由来するサンプルを含みうる。そのような多様な（複数民族の）サンプルは、3、4、5、6かそれ以上の群に由来するサンプルを含みうる。他のケースでは、均一な（単一民族の）サンプルを利用することが望まれる可能性があり、そのようなサンプルでは、集団の全てのメンバーは同じ（民族的）起源を有する。民族性は、ヒトのケースを指し、例えばヨーロッパ、アジア、アフリカ、あるいはあらゆる他の民族的分類またはそれらのサブセットもしくは組み合わせでありうる。植物もしくは動物の遺伝的調査の場合には、集団は、繁殖中の生殖形質（germplasm）、特定の類、品種、系統、登録種、在来種、遺伝子導入系統、野生種またはそれらのいかなるサブセットもしくは組み合わせも含みうる。集団サンプルは、どのようなサイズでもよく、例えば5、10、15、20、25、30、35、40、50、75、100、125、150またはそれ以上の個体である。

本発明のマップを作成するための情報はまた、複数サンプル集団から得ることもできる。そのような情報は、同時にまたは順次、用いることが可能である。例えば、調査は均一（単一民族）集団サンプルを用いて行われてもよい。これらの調査の結果は、その後多様（複数民族）サンプルについての調査の結果とともに利用されてもよい。あるいは、均一（単一民族）サンプルに由来する結果を併合させて多様（複数民族）調査としてもよい。

B. サンプル調製
多型は、解析下にある個体に由来する標的核酸から検出可能である。ヒトゲノムDNAのアッセイのためには、事実上どんな生物学的サンプルも用いることができる。例えば、便利な組織サンプルとしては全血、精液、唾液、涙液、尿、糞便材料、汗、口腔内組織、皮膚および毛髪を含み、ゲノムDNAをアッセイするためにすすんで用いられている。植物の場合には、あらゆる部位（例えば、葉、根、苗木）をゲノムDNA調製に用いることができる。cDNAもしくはmRNAのアッセイのためには、サンプルは標的核酸が発現している器官もしくは組織から得なければならない。

以下に記載する方法の多くは、標的サンプルに由来するDNAの増幅を必要とする。増幅技術は刊行物中に詳細に記載されている。例えば、PCRは一般に標的核酸を増幅するために好まれる方法である。一般的には、以下の文献を参照のこと：PCR技術について：Principles and Applications for DNA Amplification (H. A. Erlich編, Freeman Press, NY, N.Y., 1992)；PCRプロトコルについて：A Guide to Methods and Applications (Innisら編, Academic Press, San Diego, Calif., 1990)、Mattilaら, Nucleic Acids Res. 19:4967 (1991)；Eckertら, PCR Methods and Applications 1, 17(1991)；PCR (McPhersonら編,IRLPress, Oxford)；および米国特許第4,683,202号（これらのそれぞれが、全ての目的のために参照により組み入れられる）。

他の好適な増幅法は、リガーゼ連鎖反応（LCR）（Wu and Wallace, Genomics 4:560 (1989)；Landegrenら, Science 241:1077 (1988)参照）、転写増幅（Kwohら, Proc. Natl. Acad. Sci. USA 86:1173 (1989)）、および自立配列複製（self-sustained sequence replication）（Guatelliら, Proc. Nat. Acad. Sci. USA 87:1874 (1990)）および核酸配列に基づいた増幅（nucleic acid sequence based amplification；NASBA）を含む。最後の2つの増幅法は、転写に基づく定温反応を含み、増幅産物として、一本鎖RNA（ssRNA）および二本鎖DNA（dsDNA）の両方をそれぞれ約30もしくは100対1の比で形成する。

C. 標的DNA中SNPの検出
問題となっている多型がすでに特徴づけされているか否かによって、2つの異なるタイプの解析がある。最初の解析のタイプは、時にde novo特徴づけと呼ばれ、示差的核酸解析を利用する。この解析では、変異点、すなわち多型部位を特定するために異なる個体中の標的配列を比較する。最も大きな多様性を示した個体の群を解析することにより、対立遺伝子の特徴的パターンを特定することができ、集団中のそのような対立遺伝子の頻度が決定される。さらなる対立遺伝子頻度は、地理、人種もしくは性別のような基準により特徴づけられるサブ集団について決定することができる。2番目の解析のタイプは、特徴づけられた多型のどの様式が、試験下にある個体中に存在するかを決定する。配列に基づく遺伝子型判定のための種々の好適な方法があるが、これらについては後述する。

対立遺伝子特異的プローブおよびプライマー
SNP解析のための対立遺伝子特異的プローブの設計および使用は、例えばSaikiら, Nature 324: 163 166 (1986)；Dattagupta, EP 235,726；Saiki, WO 89/11548により記載されている。対立遺伝子特異的プローブは、ある個体に由来する標的DNAのセグメントにはハイブリダイズするが、別の個体に由来する対応するセグメントにはハイブリダイズしないように設計することができ、これはその2個体に由来するそれぞれのセグメント中の異なる多型様式の存在によるものである。ハイブリダイゼーション条件は、対立遺伝子間でハイブリダイゼーション強度に顕著な差異があるように、十分ストリンジェントであるべきであり、好ましくはプローブが対立遺伝子の一方にのみハイブリダイズするように選択されるべきである。いくつかのプローブは、多型部位が中央の位置（例えば15 mer中の7番目の位置、16 mer中の8番目か9番目のいずれかの位置）にそろうように、標的DNAのセグメントにハイブリダイズするべく設計される。このプローブ設計は、異なる対立遺伝子様式間の、ハイブリダイゼーションにおける良好な識別を可能にする。

対立遺伝子特異的プローブは、しばしば対で用いられ、対の一方は標的配列の参照の状態に完全にマッチし、他方は変異状態のものに完全にマッチする。そして、同じ標的配列中の複数の多型の同時解析のために、いくつかのプローブの対が同じ支持体に固層化されうる。

対立遺伝子特異的ポリメラーゼ連鎖反応（PCR）解析においては、対立遺伝子特異的プライマーがSNPと重複する標的DNA上の部位にハイブリダイズし、そのプライマーは完全な相補性を示す対立遺伝子の状態の増幅のみを誘発する。Gibbs, Nucleic Acids Res. 17: 2427-2448 (1989)を参照。このプライマーは、遠位にハイブリダイズする第二のプライマーと一緒に用いられる。増幅は、その2つのプライマーから進行し、特定の状態の対立遺伝子が存在することを示す検出可能な産物をもたらす。対照実験は、通常別のプライマーの対を用いて行われ、この対の一方は多型部位での1塩基ミスマッチを示すもので、他方は遠位に対して完全な相補性を有する。1塩基ミスマッチは、増幅を妨害し、検出可能な産物は形成されない。この方法は、ミスマッチが多型とそろえられたオリゴヌクレオチドの3’の端の位置に含められたときに最もうまく機能し、これはこの位置が、プライマーからの伸長を最も不安定化させるためである。

タイリングアレイ（Tiling Arrays）
SNPはまた、核酸アレイに対するハイブリダイゼーションによっても同定することができる（DNAチップ解析）。あらかじめ特徴づけされた多型の変異形態の検出のために最適化されたサブアレイも用いることができる。そのようなサブアレイは、第二の参照配列に相補的であるように設計されたプローブを含み、該参照配列は第一の参照配列の対立遺伝子変異体である。この第二の群（またはさらなる群）を含めることは、一次参照配列の短い部分配列（この配列には、複数の突然変異がプローブの長さと等しい短い距離の中に存在すると予想される（すなわち9〜21塩基中に2以上の突然変異））を解析するのに特に有用である。そのようなサブアレイを作製するための方法および構成は当業者に周知であり、例えば米国特許第6,368,799号（遺伝子多型を検出して、プローブアレイを用いて対立遺伝子発現をモニタリングする方法を記載している）を参照のこと。

直接配列決定
本発明に用いるためのいかなるサンプルの配列の直接解析も、ジデオキシ鎖ターミネーション法またはマクサムギルバート法のいずれかを用いて達成することができる（Sambrookら, Molecular Cloning, A Laboratory Manual (第2版, CSHP, New York 1989)；Zyskindら, Recombinant DNA Laboratory Manuals Lead. Press, 1988参照）。

ハイブリダイゼーションによる配列決定
直接配列決定に用いるための広く認識された他の選択肢は、ハイブリダイゼーションによる配列決定（SBH）の使用であり、この方法により、標的核酸の配列が、標的核酸配列がハイブリダイズするプローブの蓄積物から再構築される。ハイブリダイゼーションによる配列決定のための方法および構成は例えば以下に記載されている：米国特許第6,689,563号；同第6,670133号；同第6,451,996号；同第6,399,364号；同第6, 284,460号；同第6,007,987号；同第5,552,270号。これらの文献のそれぞれは、SBH解析のためのSBHチップの作成および使用のための方法および構成について教示を与えるものとして、参照により本明細書中に組み入れられる。

変性勾配ゲル電気泳動
ポリメラーゼ連鎖反応を用いてつくられた増幅産物は、変性勾配ゲル電気泳動を用いて解析することができる。異なる対立遺伝子は、配列依存的な異なる融解特性および電気泳動移動度に基づいて特定することができる。Erlich編、「PCR Technology, Principles and Applications for DNA Amplification」、(W. H. Freeman and Co, New York, 1992)、第7章参照。

一本鎖立体構造多型解析
標的配列の対立遺伝子は、一本鎖立体構造多型解析を用いて識別することができ、これは一本鎖PCR産物の電気泳動移動度における変化により、塩基の差異を同定するものであって、Oritaら, Proc. Natl. Acad. Sci. USA 86, 2766-2770 (1989) に記載されているものと同様である。増幅されたPCR産物は上述のように生成され、加熱されるか、他の方法により変性されて、一本鎖増幅産物を形成することができる。一本鎖核酸は、再フォールディングするかまたは塩基配列に部分的に依存した二次構造を形成しうる。一本鎖増幅産物の異なる電気泳動移動性は、標的配列の対立遺伝子間の塩基配列差異に関連づけることができる。

対立遺伝子特異的プライマー伸長−小規模配列決定（minisequencing）
プライマーは目的SNP部位の上流に特異的にアニールし、その後好適な検出システム上での対立遺伝子特異的伸長産物の検出の前に、適当なヌクレオチド三リン酸混合物の添加により伸長することができる。異なる染料で標識されたジデオキシヌクレオチド三リン酸を用いれば、単一塩基伸長（SBE）産物を、蛍光シークエンサー（ゲルまたはキャピラリーのいずれかに基づく）を用いた電気泳動によって解析することができる。従来の検出方法（例えば免疫化学アッセイ）もまた、SBE産物を検出するのに用いることができる。あるいはまた、マトリックス支援レーザー脱離イオン化飛行時間型質量分析計（MALDI-TOF-MS）を、いかなる標識タグも必要とせず、それぞれの分子量によって高い精度で伸長産物およびプライマーを分離するのに用いることができる[Stormら, Methods Mol. Biol. 212: 241-262, 2003]。ピロシークエンシング（pyrosequencing）[Nyrenら, Anal. Biochem. 208: 171-175, 1993]では、相補鎖合成はジデオキシヌクレオチドの非存在下で行われる。それぞれのdNTP基質は独立に添加され、ピロリン酸（ATPに変換されてルシフェラーゼ反応にエネルギーを与える）の放出によりモニターされる。dNTPは、取り込まれなければ、光の放出をもたらすことなく分解される。反応が連続して続き、変異型の配列に特異的である。

対立遺伝子特異的オリゴヌクレオチドライゲーション
オリゴヌクレオチドライゲーションアッセイ（OLA）のために、2種類のプライマーを、問題の相補的標的DNA配列にハイブリダイズしたときに互いに直接隣り合うように設計する。この2つの隣接するプライマーは、それらがライゲーションによって共有的に結合するように、間隔を空けずに、ミスマッチもなく、互いに直接隣り合っていなければならない。これにより、SNPが存在するかどうかが区別される。多くの他の標識および検出方法があり、ELISA [Nickersonら, Proc. Natl. Acad. Sci USA 87: 8923-8927, 1990]、または電気泳動および蛍光シークエンサーでの検出が挙げられる。

Flapプローブの対立遺伝子特異的切断
このアッセイ（インベーダー（Invader）と呼ばれる）は、構造特異的5’ヌクレーゼ（もしくはflapエンドヌクレアーゼ）を、2つの段階的反応のそれぞれにおいて配列特異的な構造を切断するために用いる。2つの合成オリゴヌクレオチドプローブが標的に結合するときに、切断構造が形成される。切断されたプローブはその後、染料標識蛍光共鳴エネルギー移動（FRET）プローブが関わる第二の一般インベーダー反応に加わる。このFRETプローブの切断は、シグナルを生み出し、このシグナルは蛍光マイクロタイタープレートリーダーにより容易に解析できる。2つの段階的反応は、シグナルを顕著に増幅し、前もって標的を増幅することなしに、ゲノムDNAからの直接的な単一塩基変異の同定を可能にする[Forsら Pharmacogenomics 1: 219-229, 2000]。

連鎖解析
本発明のゲノムマップおよび方法は、いくつかのやり方ですぐにも用いることができる。配列多型を有する不連続な領域のマッピングは、例えば、特定のSPCと関連づけられる表現型の同定、特定の表現型（例えば疾患）に関与する遺伝子座の位置の特定および、（疾患）表現型に対するin vitro診断アッセイの開発を可能にする。

例えば、連鎖研究は特定のSPCに対して行うことができ、なぜならそのようなSPCは特定のマーカー部位における対立遺伝子の特定の連鎖した組み合わせを有するからである。マーカーは、例えば、RFLP、STR、VNTRまたはSNPの場合のような単一ヌクレオチドでありうる。特定のマーカーの検出は、特定のSPCについて示唆的でありうる。連鎖解析を通じて、特定のctSNPが、例えば特定の疾患表現型に関与していることが決定されれば、患者に由来するサンプル中のctSNPの検出が、特定の疾患表現型に対する増大したリスクを示唆するものとなる。さらに、特定の表現型が特定の個別のSPCと関連づけられることが知られていれば、該遺伝子座は配列決定され、疾患表現型につながる可能性のある産物をコードするコード領域に対してくまなく調査されうる。このように、ある疾患の疾患感受性遺伝子座の位置を特定することができる。

連鎖解析は例えば、特定の集団の個体からサンプルを取得し、別個のSPCをタグ付けするマーカー部位において、それらの個体がどの対立遺伝子多型を有しているかを決定することにより実現することができる。当該技術分野で公知のアルゴリズムを用いて、特定の対立遺伝子の発生を、例えば集団中の特定の表現型と比較することができる。例えば、特定の疾患表現型を有する集団のうち高い割合が、さらに特定の多型部位において特定の対立遺伝子を保持していることが見出されたとすると、特定の対立遺伝子がその集団の特定の表現型に連鎖していると結論づけることができる。そのような解析のための連鎖解析およびアルゴリズムは当業者に周知であり、代表的な方法は例えば米国特許第6,479,238号（特にその中の第IV節を参照）に、より詳細に記載されている。さらに、マーカー対立遺伝子は別個のSPCを具体的に表現するものであるので、表現型もまた別個のSPCと連鎖していることが確認できる。従って、例えばctSNPのような、別個のSPCをタグ付けする遺伝的マーカーを用いることにより、特定の表現型が特定のSPCと連鎖していると結論づける連鎖解析を行うことができる。

上述の本発明の態様は、以下の実施例によってさらに説明される。

トウモロコシのsh2遺伝子座の種間SPCマップ
本実施例は、特定の種の多数の個体において配列決定された完全な遺伝子座のSPCマップを作成するために本発明の方法が使用可能であるという発想の実証を提供する。特定の遺伝子の遺伝的多様性に関する多数の研究が、広範な植物および動物種において行われており、これらの配列はGenBank（http://www.ncbi.nlm.nih.gov）から公に入手可能である。これらの研究の大半においては、1000bp未満の比較的短い遺伝子セグメントが配列決定されており、完全な遺伝子が配列決定されているのは、ほんの少数の研究に過ぎない。本発明の様々な態様を例示するために、入手可能な完全またはほぼ完全な遺伝子配列（GenBankにおいて入手可能なもの）からトウモロコシ由来のshrunken2（sh2）遺伝子座を選択した。32個のトウモロコシ品種（Zea mays subsp. mays）からの公開shrunken2遺伝子座配列は、sh2遺伝子のプロモーターおよびコード領域を含有する7050bpの領域を含む［Whittら, Proc. Natl. Acad. Sci. USA 99: 12959-12962, 2002］。

この解析のための配列はGenBank（http://www.ncbi.nlm.nih.gov）登録番号AF544132-AF544163から得た。それらの配列を、ClustalW［Thompsonら, Nucleic Acids Res. 22: 4673-4680, 1994］を使用して整列させ、indel周辺のアライメントを手動で最適化した。パール・スクリプト（perl script）を使用して、該整列配列中の全ての多型部位をスコア化して遺伝子変異表を作成した。この表においては、各列は多型部位を表し、各行はサンプルを表す。それらの列には、各サンプルにおける対応対立遺伝子（塩基）が表されている。ただし、indelは、欠失のそれぞれ開始位置および終結位置の2つの点により表されている。2より多い（マイナー）対立遺伝子が多型部位に見出された場合には、この多型部位を重複させて、各列がただ1つのマイナー対立遺伝子を含み、他のマイナー対立遺伝子をブランクで置換するようにした。遺伝子変異表中の多型部位の数は、indelおよび複対立遺伝子部位のため、配列内の変異可能位置の数より多いことに留意されたい。

sh2遺伝子の遺伝子変異表は212の多型部位を含む。結果の解析および表示を単純化するために、シングルトン（singleton）（すなわち、マイナー対立遺伝子が1回だけ見出される多型部位）、3つの組換え遺伝子型および重複indel部位を解析から除外した。これは遺伝子変異表中の多型部位の数を141に減少させた。この簡易化遺伝子変異表から、3以上の多型部位を含むSPCを、以下の閾値を使用するSPCアルゴリズムで計算した：C=1, C＞0.90、C＞0.85、C＞0.80およびC＞0.75。C＞0.80の閾値においては（図9Aに示されている）、該アルゴリズムはsh2遺伝子座の合計124の多型部位（88％）を9個の異なるSPCにクラスタ化し、それらのほとんどは全遺伝子座に伸長していた。5個の最大SPCは10〜39個の多型を含む（全ての多型が図9Aに示されているわけではないことに注意されたい）。こうして、sh2遺伝子座は、図9Aに示されているとおりの連続SPCマップを与える。この図は、32個の非組換え個体のうちの29個におけるSPCを示している。7kbのsh2遺伝子座の非中断SPCマップは、該遺伝子座が、過去の組換え事象をほとんど経験していないことを示している。これは、配列決定された32個のサンプル中の僅か3個だけが組換え体であるらしいという観察により更に裏付けられる。

sh2遺伝子の全体的なSPC構造の同定とは別に、本実施例は、本発明のいくつかの具体的な態様を例示するものである。まず、本実施例は、SPC間に存在しうる2つのタイプの関連性、すなわち、SPCの独立性または従属性の明らかな例示を提供する。sh2遺伝子座は、多数の異なる多型をそれぞれが含む5つの主要な独立性SPC（SPC 1、2、3、4および9）を含むことが、図9Bから認められる。また、SPC 9、5、8、6および7を含む幾つかの従属層が認められる。2つの多型を含むSPCおよびシングルトンを含むSPCをも考慮すると、いくつかの追加的な従属性SPCが見出される（示されていない）。したがって、図9BのSPCネットワークはsh2遺伝子座のSPC構造の単純化表示である。さらに、トウモロコシのsh2遺伝子座の実際のSPC構造はより一層複雑でありうると予想される。なぜなら、配列決定されている個体の数は比較的少なく、したがって、トウモロコシ（Zea mays subsp. mays）生殖質の全遺伝的多様性のごく一部しか表していない可能性があるからである。

第2の重要な態様は、クラスタ化しない突然変異に関する。C＞0.80の閾値では141個の多型部位のうちの僅か17個がクラスタ化できなかった。非クラスタ化多型部位のサンプルを図9Aの左部分に示す。これらの多型部位の解析は、これらが3つのタイプを含むことを示した。第1に、いくつかの多型部位はただ1つのSPCに関連しているが全てのサンプルにおいて見出されるわけではなく、したがって、おそらく、より最近の突然変異に相当するのであろう。第2のタイプは、2以上のSPCに関連していることが判明している多型部位を含む。これらの幾つかに関して、それらは反復突然変異に相当することが明らかのようである。このタイプの例は、高突然変異性であることが知られているホモポリマー領域における単一または複数の塩基欠失である。第3のタイプは、2個または3個の異なるSPCに関連した多型部位を含む。これらの幾つかは、これらのSPCに共通の祖先（ancestral）突然変異に相当しうる。しかし、クラスタ化の欠如の説明には無関係に、非クラスタ化多型は、一貫しない（erratic）関連性を伴う多型部位のサブセットに相当し、したがって、その診断的価値は低い。したがって、この解析は、本発明の方法が、より優れた診断的価値を示す多型部位の選択を提供することを示しており、したがって、本発明の方法の主要な有用性の1つ（すなわち、遺伝的形質を解析するための遺伝的マーカーの選択）の発想の実証を提供するものである。

本実施例の第3の態様は、SPCを計算するための閾値に関する。前記で概説したとおり、SPC解析は、29個の非組換えサンプルを含むサンプルのサブセットに関して行った。C = 1の閾値では、141個の多型部位のうちの121個がクラスタ化した。閾値をC＞ 0.80に低下させると、3つの追加的な多型部位がSPCに加わった。これらは、1つの異常なデータ点を有する3つのSNPであった。この場合、より低い閾値の使用は、瑣末な効果を及ぼしたに過ぎなかった。この理由には幾つかある。第1に、該配列が明らかに高品質のものであり、誤った対立遺伝子コールの頻度が低かったことである。第2に、クラスタ化の前に組換え体を除外することにより、該解析に偏りが生じたことである。

本発明者らの解析から得られる第4の態様は、sh2遺伝子座のSPCがindelおよびSNPの両方を含むことであり、このことは、該クラスタ化法が全ての突然変異事象をとらえることを裏付けている。また、複対立遺伝子多型部位の解析は、これらの幾つかが、異なるSPCに関連した同一位置の、独立性突然変異に相当することを示している。後者は図9Aの5154位の多型により例示される。

第5の態様はクラスタタグSNPの設計に関する。ほとんどのSPCは、絶対的連鎖（絶対連鎖）（absolute linkage）状態にある多数のマーカーにより定められるため、この場合のタグSNPの選択は直接的である。注意すべき唯一の点は、完全連鎖状態にはない3つのマーカーのいずれの使用をも避ける必要がある点である。図9Bに示すSPCネットワークは、sh2遺伝子座の遺伝子解析のための遺伝的マーカーの選択のための相当な実用的有用性を有する。合計9個のSPCが存在するが、遺伝子型判定（genotyping）研究は、所望の分解能レベルに応じて、これらのSPCのサブセットに関して行われうることが明らかである。例えば、遺伝子型判定は、5つの主要な独立性SPC（すなわち、SPC 1、2、3、4および9）をタグ付けするctSNPに限定されうるであろう。該遺伝子座の徹底的な解析の場合でさえも、SPCのサブセットのみ（具体的には、SPC 1、2、3、4、5、6および7）を検討しなければならないであろう。なぜなら、分岐群(clade)特異的SPC 8および9は、それらの従属性SPCにわたって重複しているからである。

トウモロコシのsh1遺伝子座の種内SPCマップ
本実施例は、広範な組換えが生じている完全な遺伝子のSPCマップを作成するために本発明の方法が使用可能であるという発想の実証を提供する。本実施例は、本発明の他の態様を例示するために、トウモロコシ由来のshrunken1（sh1）遺伝子座における多型部位の解析を記載する。32個のトウモロコシ品種（Zea mays subsp. mays）からの公開shrunken1遺伝子座配列は、sh1遺伝子のプロモーターおよびコード領域を含有する6590bpの領域を含む［Whittら, Proc. Natl. Acad. Sci. USA 99: 12959-12962, 2002］。

この解析のための配列はGenBank（http://www.ncbi.nlm.nih.gov）登録番号AF544100-AF544131から得た。それらの配列を、実施例1に詳細に記載されているとおりに、遺伝子変異表を作成するために整列させた。sh1遺伝子の遺伝子変異表は418個の多型部位を含む。多型部位がこのように非常に多数であるため、該解析からシングルトンを除外した。これは多型部位の数を282に減少させた。この簡易化遺伝子変異表から、3以上の多型部位を含むSPCを、以下の閾値を使用するSPCアルゴリズムで計算した：C=1、C＞0.90、C＞0.85、C＞0.80およびC＞0.60。C＞0.80の閾値においては（図10を参照されたい）、該アルゴリズムはsh1遺伝子座の合計145個の多型部位（51％）を26個のSPCにクラスタ化した。この結果は、実施例1でsh2遺伝子座に関して得た結果と非常に異なっており、この遺伝子座内の多型が、著しく異なる構造を示しうることを示している。

多型部位の約90％がクラスタ化していた実施例1からのsh2遺伝子座とは対照的に、sh1多型部位の約50％がクラスタ化するに過ぎなかった。sh2遺伝子座は、多数の多型部位を含む比較的少数のSPCを与えたが、sh1遺伝子座は、平均して、より少数の多型部位を含有する遥かに多数のSPCを与えた。さらに、図10から認められるとおり、同定されたSPCのほとんどは、該遺伝子座の約半分を含む2つのセグメント（1186〜3283位および3559〜5243位）内、および第3の非常に短い（120bp）高多型セグメント（6315〜6436位；示されていない）内に位置していた。このように、sh1遺伝子座は、図10に示す不連続的なSPC構造を与える。観察されたSPC構造は、明らかなSPC構造を示すセグメント間の領域における反復組換え（または組換えホットスポット）の結果に違いないことが明らかである。これらの組換え事象は、2つの異なるセグメントを与えるのみならず、これらの多型のいずれもがクラスタ化しないよう該多型部位を介在領域内に集合させ、C＞0.60の閾値においてさえもこれを引き起こす。最後に、明らかなSPC構造を示す2つのセグメント内で組換えが生じていることが、図10から認められうる。これは、ほとんどのSPCが短い右セグメントにおいて特に明らかである。

対照的な2つの実施例1および2は、本発明の方法が、遺伝子座の組換え履歴には無関係に、有益な遺伝子座SPCマップの作成に使用可能であることを示している。得られるSPCマップの構造は、主として、対象の領域内の組換え頻度により定められる。遺伝子座内の広範な組換えは、より少数の多型部位を含有する短い範囲のSPCを伴う断片化SPC構造を与え、一方、過去の組換えの非存在下では、該遺伝子座は、多数の多型部位を含みより長い距離にわたって伸長するSPCを伴う非常に連続的なSCPマップを与えるであろう。遺伝子座のSPC構造には無関係に、本発明の方法は明らかな実用的有用性を有する。どちらの場合にも、本発明の方法は、より優れた診断的価値を示す多型部位の選択を提供して、本発明の方法の主要な有用性の1つ（すなわち、遺伝的形質を解析するための遺伝的マーカーの選択）の発想の実証を提供するものである。sh2の場合には、情報の喪失を伴うことなく遺伝子座内の遺伝子変異の大部分を捕捉するには7個のctSNPのみで十分であったが、sh1遺伝子座の遺伝子型判定に関して選択されるctSNPは該遺伝子座内の遺伝子変異の一部にしか及ばないであろう。これは本質的な制約であり、本発明の方法に関連したものではない、と当業者は理解するであろう。

トウモロコシのY1遺伝子座の種内SPCマップ
本実施例は、いくつかの過去の組換え事象が生じている遺伝子座のSPCマップを作成するために本発明の方法が使用可能であるという発想の実証を提供する。本実施例は、本発明の他の態様を例示するために、トウモロコシのY1フィトエンシンターゼ遺伝子座内の多型の解析を記載する。Y1フィトエンシンターゼ遺伝子は胚乳色に関与しており、41個の橙色／黄色胚乳系統および32個の白色胚乳系統を含む75個のトウモロコシ近交系において配列決定されている［Palaisaら, The Plant cell 15: 1795-1806, 2003］。

この解析のための配列はGenBank（http://www.ncbi.nlm.nih.gov）登録番号AY296260-AY296483およびAY300233-AY300529から得た。該配列は、Y1フィトエンシンターゼ遺伝子のプロモーターおよびコード領域を含有する6000bpの領域からの7個の異なるセグメントを含む。個々の配列を、実施例1に詳細に記載されているとおりに整列させて7つの遺伝子変異表を作成し、ついでそれらを1つの遺伝子変異表に統合した。Y1フィトエンシンターゼ遺伝子の統合遺伝子変異表は191個の多型部位を含む。3以上の多型部位を含むSPCを、種々の閾値を使用するSPCアルゴリズムで計算した。該アルゴリズムはそれぞれC=1、C＞0.95およびC＞0.80の閾値で85、95および113個の多型をクラスタ化した。

図11Bに記載のY1 SPCマップは、C＞0.95の閾値で得たSPCを示し、該パネルの上半分には白色胚乳系統が、該パネルの下半分には橙色／黄色胚乳系統が示されている。橙色／黄色系統は全て、同じ連続的SPC（SPC-1）を共有するが、白色系統は、SPCの不連続的パターンを示す多数の異なるSPCを示す。このパターンは、図11Bにおいては矢印で示されている、それらの種々のSPC間の位置で生じた比較的少数の組換え事象に符合する。本実施例はまた、本発明の1つの重要な態様、すなわち、SPCが表現型と高度に相関しうることを例示している。実際、全ての橙色／黄色胚乳系統が同一SPCを共有するという知見は、そのSPCを構成する多型が橙色／黄色表現型に密接に連鎖しているか又は該表現型に関与していることを示している。

本発明はまた、本発明のもう1つの重要な態様、すなわち、SPCを同定するために種々の閾値を使用することの重要性を例示している。完全連鎖（完全連関）の閾値においては、該SPCは、非組換え個体内に存在する多型のみを含む。なぜなら、（稀な）組換え事象によって影響される多型は完全連鎖を示さないからである。本実施例においては、表現型と完全に相関する橙色／黄色系統に存在する1つのSPCにおける唯一の突然変異は3-701位および3-755位の多型であり、これらは、複雑な組換え体であるInbredLo32に存在する唯一のものである（図11Bを参照されたい）。これは、SPCが表現型と良く相関づけられうるものの、該SPCにおける全ての多型が必ずしも同じ診断的価値を有するわけではないことを示している。

トウモロコシのglobulin（グロブリン）1遺伝子座の種間SPCマップ
本実施例は、密接に関連した種々の種からの個体において配列決定されている遺伝子座の種間SPCマップを作成するために本発明の方法が使用可能であるという発想の実証を提供する。本実施例は、本発明の他の態様を例示するために、トウモロコシのglobulin（グロブリン）1遺伝子座内の多型部位の解析を記載する。本発明の方法により検出されたSPCが関連種の分化の前に生じた可能性があり、したがって非常に古いとみなされうるという証拠を記載する。

本実施例において解析したglobulin 1遺伝子配列は栽培用トウモロコシの起源に関する系統学的研究において得られており［HiltonおよびGaut, Genetics 150: 863-872,1998; Tenaillonら, Proc. Natl. Acad. Sci. USA 98: 9161-9166, 2001; TiffinおよびGaut, Genetics 158: 401-412, 2001］、トウモロコシ近交系および在来種（Zea mays subsp. mays）、栽培用トウモロコシの祖先（テオシントまたはZea mays ssp. parviglumis）および密接に関連した種Zea perennis、Zea diploperennisおよびZea luxuriansの70個の異なる登録配列からのglb1遺伝子のコード領域の部分を含有する1200bpの領域を含む。

この解析のための配列はGenBank（http://www.ncbi.nlm.nih.gov）登録番号AF064212 - AF064235、AF377671 - AF377694およびAF329790 - AF329813から得た。該配列を、実施例1に詳細に記載されているとおりに、遺伝子変異表を作成するために整列させた。glb1遺伝子の遺伝子変異表は317個の多型部位を含み、そのうちの66個はシングルトンであった。この解析の主な対象は、それらのサンプル間で共有されている多型部位を調べることであったため、それらのシングルトンを該解析から除外した。残りの251個の多型を、以下の閾値を使用するSPCアルゴリズムでクラスタ化した：C=1、C＞0.90、C＞0.85、C＞0.80およびC＞0.75。globulin 1遺伝子のSPCマップの精査は、それらのサンプルの大部分においては、SPCが該遺伝子の全体にわたって遮断されていないことを示した。ハプロタイプの解析は、過去の組換えおよび遺伝子変換事象を示す31個のサンプルを明らかにし、これらは該解析から除外した。同じ閾値群を使用して、連続的SPC構造を示すサンプルに対してクラスタ化解析を繰返した。C＞ 0.75の最低閾値では、クラスタ当たり3以上の多型を伴う合計14個のSPC中において合計99個の多型がクラスタ化された。これらのうち、ネットワーク構造で表すことができなかった3個を除外した（図12Bを参照されたい）。図12Aに視覚的に表示されているglobulin 1遺伝子のSPCマップは、5個の主要SPCが全39個の配列をグループ化しうることを示している。SPC-1およびSPC-5は、種々のZea mays登録配列を含み、SPC-2はZea maysおよびZea diploperennis登録配列の両方を含み、SPC-3はZea luxurians登録配列を含み、SPC-4はZea perennis登録配列を含み、種々の従属性SPCを通じて更に細分されうる。図12Aおよび12Bの精査は、SPCが、常にというわけではないが概ね、種々のZea種に特異的であることを示している。SPC-4群においては特に、2つのZea mays登録配列（図12Aにおいては赤の矢印で示されている在来種CHH160およびGUA14）が、Zea perennis登録配列と同一のSPCマップを示すことが判明した（それぞれSPC-4.1およびSPC-4.2.1）。共有されているSPCが多数の異なる多型（それぞれ12および15）を含むことは、これらのSPCが数十万年前の種の分化の前に生じ［TiffinおよびGaut, Genetics 158: 401-412, 2001］、それらの2つの種において独立的に維持されたことを強く示唆している。

関連種に由来する配列におけるSPC構造のこのタイプの解析は種々の実用的有用性を有すると予想される。第1に、種間で共有されているSPCの同定は、機能的に重要でありうるSPCを同定するための有用な基準として役立つ可能性がある。その根拠は、異なる種において保有されているSPCが、一方または他方に選択的利点を付与する対立遺伝子に相当し、したがって、異なる機能特性を有する対立遺伝子に相当しうることである。農学において重要な種のゲノムのほとんどは、近い将来、配列決定されるようになるため、関連種の遺伝子または更には全ゲノムの比較配列決定が常套手段となると予想される。この将来の予想において、本発明の方法は、農学的実施に重要な遺伝子の機能的に重要な対立遺伝子をターゲティングするための最も貴重な手段を提供するであろう。第2に、密接に関連した種の多数の異なる登録配列に由来する遺伝子座におけるSPCの比較解析は、関連種における遺伝的多様性を利用するための合理的アプローチのための論理的枠組を提供する。将来、種間交配による植物および動物育種における商業的生殖質の遺伝的多様性の拡張が、遺伝学における革新および改良の主要な源となるであろう。これは、現在、例えばトマトにおいて十分に実証されている。しかし、今日の問題は、適当な登録配列を選択するための手段が無く、また、登録配列に存在する遺伝的多様性を評価または理解するための妥当な手段も無いことである。本発明の方法は、種間遺伝的多様性の構造を合理化するための手段及び交雑（interbreeding）用の最も適当な登録配列を選択するための手段を提供する。例えば、多数の異なる遺伝子座で観察されるSPC構造に基づき、遺伝的選択に利用可能な遺伝子変異の基礎を拡張するために、種々の遺伝子座内において新規SPCの高い頻度を示す登録配列を選択することが可能である。したがって、本発明の方法は、該種および関連種の野生型登録配列における遺伝的多様性をモニターするための、優れた方法を提供する。

結論として、本実施例は、ある遺伝子座の種間SPCマップが、遺伝子変異の、複雑な系統的起源に関する洞察をもたらしうることを示している。異なる種において同じSPCが見出される場合には、このSPCを構成する突然変異が種の分化の前に生じた可能性があり、一方、1つの種にユニークSPCは恐らく種分化事象の後に生じたのであろう。globulin 1遺伝子において見出される極めて高い多様性は恐らく、正確な系統史を混乱させる多数の反復突然変異に帰着することが注目される。

シロイヌナズナ（Arabidopsis thaliana）のFRI遺伝子座のSPCマップ
本実施例は、多数の遺伝子をカバーする全ゲノムセグメントのSPCマップを構築するために本発明の方法が使用可能であるという発想の実証を提供する。実施例1〜3では、本発明の方法での遺伝子座の解析が、該遺伝子座の組換え履歴に応じて種々のタイプのSPCマップを与えうることを例示した。本実施例は、ゲノム領域全体でサンプリングされた多型データを使用することにより、多数の遺伝子を含むゲノム領域に関してもSPCマップが作成されうるという発想の実証を提供するために、シロイヌナズナ（Arabidopsis thaliana）のFRI遺伝子座の周囲のゲノム領域における多型部位の解析を記載する。広く使用されるようになってきた、ゲノム領域における対立遺伝子多様性を評価するための1つのアプローチは、対象のゲノム領域全体の種々の位置に由来する短いセグメントの配列決定（500〜1000bp、典型的な配列決定実施の長さ）を含む。このタイプのいくつかの研究が最近公開されており、これらの1つを本実施例において採用した。

本実施例において解析したゲノム配列は、開花時（flowering time）遺伝子座FRIの周囲の450kbのゲノム領域の研究において得られたものであり［HagenbladおよびNordborg, Genetics. 161: 289-298, 2002］、シロイヌナズナ（Arabidopsis thaliana）の20個の登録配列から配列決定された14個のアンプリコンのセットを含む。

この解析のための配列はGenBank（http://www.ncbi.nlm.nih.gov）登録番号AY092417-AY092756から得た。個々の配列を、実施例1に詳細に記載されているとおりに整列させて14個の遺伝子変異表を作成し、ついでそれらを1つの遺伝子変異表に統合した。FRI遺伝子座の該遺伝子変異表は191個の多型部位を含む。3以上の多型部位を含むSPCを、以下の種々の閾値を使用するSPCアルゴリズムで計算した：C = 1およびC＞ 0.75。該アルゴリズムはそれぞれC = 1およびC＞ 0.75のクラスタ化閾値で85および94個の多型をクラスタ化した。

図13Aは、開花時遺伝子座FRIの周囲の450kbの領域の物理的マップを示し、図13Bは、C＞ 0.75の閾値を使用して得た、該領域のSPCマップを示す。明瞭化のために、シングルトン（94個のクラスタ化多型中の40個）のSPCは示されていない。該領域の一部に伸長するSPCもあれば、短いセグメントに限局されているSPCもあることが認められうる。組換えの頻度が低い、より大きなゲノム領域においては、SPCのいくつかは長距離にわたって伸長しうることを、本実施例は例示している。これは、本発明の方法とハプロタイプブロック法との主な相違の1つである。ハプロタイプブロック法は、ある閾値を用いて、観察された組換え事象に従って、ゲノム領域をブロックに分割する。本発明の方法は、影響を受けているSPCにおける組換え事象を検出するが、これらはその他のSPCには影響を及ぼさない。本実施例に記載されている結果は、SPC法が、遺伝子変異における構造の捕捉において、より優れていることを示している。

シロイヌナズナ（Arabidopsis thaliana）における遺伝的多様性の調査のSPCマップ
本実施例は、ゲノムワイド遺伝的多様性データからの全ゲノムのSPCマップを構築するために本発明の方法が使用可能であるという発想、およびSPCマップから、ゲノムワイド関連研究のためにctSNPマーカーが誘導されうるという実証を提供する。ゲノムワイド規模で遺伝的多様性を調査するためのいくつかのアプローチは現在開発されつつあり、それらは、種を代表する個体の集団に由来するゲノムDNAから増幅された500〜1000bpの短い断片を配列決定することを含む。1つのアプローチにおいては、ゲノム沿いに一定間隔（20〜50kb）でアンプリコンを選択する。一方、他のアプローチは既知遺伝子の領域の系統的配列決定に基づくものである。本実施例は、シロイヌナズナ（Arabidopsis thaliana）の1番染色体からの増幅断片のセットにおいて同定された多型部位の解析を記載する。

本実施例において解析したゲノム配列はNSF 2010 Project “A genomic survey of polymorphism and linkage disequilibrium in Arabidopsis thaliana” [Bergelson J., Kreitman M.およびNordborg M., http://walnut.usc.edu/2010/2010.html] において得たものであり、シロイヌナズナ（Arabidopsis thaliana）の98個の登録配列に由来する、配列決定された1番染色体由来の255個のアンプリコンを含む。

この解析のための配列はウェブサイトhttp://walnut.usc.edu/2010/2010.htmlからダウンロードした。実施例1に詳細に記載されているとおり、アンプリコン当たり1つの遺伝子変異表を作成するために、個々の配列を整列させた。シングルトンおよび33％以上の欠落データを有する多型部位を該解析から除外した。該アンプリコンが該染色体上に出現するのと同じ順序で、個々の表を1つの遺伝子変異表に連結した。得られた、1番染色体の遺伝子変異表は、3378個の多型部位を含有する。120個の多型部位のスライディング・ウィンドウ（sliding window）および各連続的ブロック間の20個のSNPの重複を用いて、SPCアルゴリズムで該遺伝子変異表を解析した。この解析においては、以下のパラメーター設定を用いた。第1に、該遺伝子変異表は相当な数の欠落データ点（6.5％）を含有するため、欠落データ点の数を差し引いたサンプル総数に対する対立遺伝子／ハプロタイプの実測数の比率により、対立遺伝子および2部位（two-site）ハプロタイプ頻度を計算した。第2に、3以上の多型の全SPCは、Cに関する以下の閾値を用いて同定した：C = 1、C＞ 0.90およびC＞ 0.80。

1番染色体に関する全体的な結果の解析は、該アンプリコンの〜60％が、C＞ 0.90の閾値で少なくとも3つの多型を含有する1以上のSPCを与えることを示した。図14は、1番染色体の3.76Mbセグメント（16,157,725位〜19,926,877位）からの31個のアンプリコン（アンプリコン#134〜アンプリコン#165）中に同定されたSPCを示す。クラスタ化しない多数の多型を有するアンプリコン（例えば、アンプリコン144および147）が観察されることもあるが、一般には、SPCを与えないアンプリコン（図14のアンプリコンの10個）は、比較的少数の多型部位を有することが認められうる。SPCを与えるアンプリコンを、大きく2つのクラス（それぞれは、同様の頻度で見出される）に分類した。クラスIアンプリコンは唯一のSPCを表す（例えば、アンプリコン142、150、152、153、154、155および158）。クラスIIアンプリコンは、2以上の重複するSPCを表す（例えば、アンプリコン136、137、139、143、145、146、148および163）。クラスIアンプリコンは、二型遺伝子座、すなわち、2つだけのハプロタイプ（SPC-nおよびSPC-0）を有する遺伝子座に対応し、一方、クラスIIアンプリコンは、多型遺伝子座、すなわち、3以上のハプロタイプを有する遺伝子座に対応する。多型遺伝子座は、明らかに、より大きな遺伝的多様性を反映するが、クラスIIアンプリコンにおいて観察されるSPCの数は非常に少なく、ほとんどの場合、2個または3個、時にはそれ以上であることが、図14から認められうる。最後に、黒色の矢印で示されている3つの例外を除いて、見出されるSPCのほとんど全ては単一アンプリコンに限局していることが、図14から認められうる。各場合において、クラスタ内に含まれているのは、隣接アンプリコン内の単一の多型部位である。アンプリコン間の平均距離は100キロベースのオーダーであるため、SPC構造体がアンプリコン特異的であるという観察は、アラビドプシス（Arabidopsis）における長距離LDが100キロベース未満であることを示している。したがって、この生物のSPCマップを構築するためには、遥かに高い配列密度の配列を調査しなければならないことが予想される。

結論として、本実施例は、該SPC法が、全ゲノムの両方のレベルにおいて遺伝的多様性を評価するのに好適であることを示している。さらに、見出されたSPC構造は、種の遺伝的解析のための有用なDNAマーカーセットの開発のための論理的枠組を提供する。各SPCに対して、ただ1つの代表的ctSNPが選択される。このマーカーセットは該種において普遍的に適用可能であろう。

遺伝的多様性を解析するためのこの方法は、植物および動物の育種における有用な用途を有する。なぜなら、それは、有用な遺伝的マーカーを開発するための手段、および育種プログラムにおいて新たな遺伝的多様性を導入するために適当な系統を育種者が選択できるようにする手段の両方を提供するからである。見出されたSPCに基づき、農業形質に関与する遺伝子の同定およびマーカー利用育種の両方に使用されうるSPCタグを開発することが可能である。該SPCマップは、育種生殖質中には存在せず、かつ新たな遺伝的多様性を与えうる新規SPCを保持する系統を同定するのに有用である。

ヒトCYP4A11遺伝子のSPCマップ
本実施例は、遺伝子のSPCマップを構築するため、及び遺伝的解析のためのタグSNPを選択するために、相が特定できない（unphased）二倍体遺伝子型データに関して本発明の方法が使用可能であるという発想の実証を提供する。本実施例はまた、該相が特定できない二倍体遺伝子型からハプロタイプを推測するために本発明の方法が使用可能であるという発想の実証を提供する。本実施例は、本発明の他の態様を例示するために、ヒトCYP4A11（シトクロムP450、ファミリー4、サブファミリーA、ポリペプチド11）遺伝子における多型部位の解析を記載する。本実施例において解析した遺伝子変異データはUW-FHCRC Variation Discovery Resource [SeattleSNPs; http://pga.gs.washington.edu/]により得た。UW-FHCRC Variation Discovery Resource（SeattleSNPs）はUniversity of WashingtonとFred Hutchinson Cancer Research Centerとの協力によるものであり、National Heart, Lung, and Blood Institute (NHLBI)により資金提供されたPrograms for Genomic Applications (PGAs)の1つである。SeattleSNPsの目標は、遺伝子内の単一ヌクレオチド配列相違とヒトにおける炎症応答を引き起こす経路との関連を見出しモデル化することである。

この解析のための相が特定できない（unphased）二倍体遺伝子型およびSNP対立遺伝子データ表をSeattleSNPsのウェブサイト（http://pga.gs.washington.edu/）からダウンロードした。CYP4A11遺伝子に関する遺伝子変異データは、24人のアフリカ系アメリカ人および23人のヨーロッパ人個体において13kbのセグメントを再配列決定することにより同定された103個の多型部位（SNPおよびindel）を含む。二倍体遺伝子型データ表は47サンプルにおけるCYP4A11遺伝子の103個の対立遺伝子スコアを列挙している。まず、以下の方法を用いて、実施例1に記載されているとおりの遺伝子変異表の標準フォーマットに二倍体遺伝子型データ表をフォーマット変更した。ホモ接合二倍体SNP遺伝子型を「A」、「C」、「G」または「T」で示し、ホモ接合indel遺伝子型を、欠失対立遺伝子に関しては点で、または挿入の最初の塩基により示した。ヘテロ接合二倍体遺伝子型（両方の対立遺伝子がスコア化された多型部位）を記号「H」で示した。ついで、以下の方法を用いて、メタタイプと称される人工的ハプロタイプを遺伝子変異表から導いた。まず、サンプル行の第2のコピーを加えることにより、該表を複製した。ついで、それらの2つのコピーのそれぞれにおいて、第1コピーにおいてはマイナー対立遺伝子により、第2コピーにおいてはメジャー対立遺伝子により、記号「H」を置換した。複製しフォーマット変更された遺伝子変異表をメタタイプ表と称する。記号「H」がマイナー対立遺伝子により置換された二倍体遺伝子型はマイナーメタタイプと称され、記号「H」がメジャー対立遺伝子により置換された二倍体遺伝子型はメジャーメタタイプと称される。メタタイプ表におけるサンプル名は、マイナーメタタイプに関しては追加記号「-1」で、メジャーメタタイプに関しては追加記号「-2」で示されている。多型部位の2つの本質的特徴、すなわち、対立遺伝子の頻度およびそれらの同時出現または連鎖は、メタタイプ形式において、完全に保有されていることが注目される。実際、各二倍体遺伝子型は2つのメタタイプに分解され、各へテロ接合遺伝子型は、それらの2つのメタタイプにおいて、1つのマイナー対立遺伝子および1つのメジャー対立遺伝子に正確に分割される。同時出現する多型部位間の連鎖は、それぞれマイナーおよびメジャーメタタイプにおけるマイナーまたはメジャー対立遺伝子による単一二倍体遺伝子型上の全てのヘテロ接合遺伝子型の同時置換により保有されている。

以下のパラメーター設定を用いるSPCアルゴリズムでメタタイプ表を解析した。第1に、メタタイプ表は相当な数の欠落データ点「N」（3.8％）を含有するため、欠落データ点の数を差し引いたサンプル総数に対する対立遺伝子／ハプロタイプの実測数の比率により、対立遺伝子および2部位（two-site）ハプロタイプ頻度を計算した。第2に、2以上の多型の全SPCは、Cに関する以下の閾値を用いて同定した：C = 1、C＞ 0.95、C＞ 0.90、C＞ 0.85およびC＞ 0.80。

SPCアルゴリズムは種々の閾値において103個の多型部位の大部分をクラスタ化した（それぞれC = 1、C＞ 0.90およびC＞ 0.80において69個（67％）、81個（79％）および84個（82％）の多型部位）。該多型は、2つの例外を除いて大部分においては、種々の閾値で、類似したSPCにおいてクラスタ化した。SPC-2の多型は、C = 1の閾値で、2つの異なるSPCにおいてクラスタ化し、それらはC＞ 0.90の閾値でSPC-2に合体した。SPC-14はC＞ 0.80の閾値でのみ見出された。後記の節においては、C＞ 0.90の閾値でクラスタ化した81個の多型部位（したがって、SPC-14は除外される）のSPCマップを詳細に解析する。

図15Aにおいては、81個の多型を含むC＞0.90の閾値でクラスタ化した13個の異なるSPCがメタタイプ上に可視化されている。図15Aの上半分には、メジャーメタタイプにおいて見出されたSPC（サンプル名の後に「-2」が続く）が示されており、図15Aの下半分には、マイナーメタタイプにおいて観察されたSPC（サンプル名の後に「-1」が続く）が示されている。C = 1の閾値でクラスタ化した69個の多型は、図15Aの上部行においてハイライト表示されている。1以上のSPC（マイナー対立遺伝子を含むもの）を含有するメタタイプのみが列挙されている。各表の半分における1つの代表体以外は、SPCを欠くメタタイプ（SPC-0）は省略されている。マイナーおよびメジャーメタタイプを、存在するSPCに応じて分類した。図15Aの顕著な特徴は、SPC-0でない全てのメタタイプにSPC-2が単独で又は他のSPCと共に存在することである。この観察は、（全てではないが）多数のSPCがSPC-2に従属していることを示唆している。

SPC間の関係を2段階の方法で推測した。まず、メジャーメタタイプにおいて観察されたSPCの組合せを調べ、つぎに、マイナーメタタイプにおいて観察されたSPCを、対応するメジャーメタタイプにおいて観察されたSPCと系統的に比較した。メジャーメタタイプとマイナーメタタイプとのこの比較を図15Bに示す。メジャーメタタイプにおいて見出されたSPCの検討（図15Aの上部パネル）は、（1）SPC-13は常にSPC-2と共に見出され（しかし、その逆は当てはまらない）、一方、（2）SPC-1およびSPC-4のそれぞれは、SPC-2およびSPC-13の両方を含有するメタタイプの一部において見出される。これらの観察から、SPC-1およびSPC-4はSPC-13に従属しており、そしてSPC-13はSPC-2に従属していることが分かる。

図15Bに示すメジャーメタタイプとマイナーメタタイプとの比較のために、代表的なメタタイプの亜群を3つの別々のクラスに分類した。図15Bの上部パネルに示すクラスIは、マイナーメタタイプおよびメジャーメタタイプの両方において同一SPCを示すメタタイプを表す。図15Bの中央パネルに示すクラスIIは、マイナーメタタイプおよびメジャーメタタイプにおいて異なるSPCを示すメタタイプを表す。図15Bの下部パネルに示すクラスIIIは、対応するメジャーメタタイプがSPC-0を示すマイナーメタタイプを表す。クラスIメタタイプは、SPC-2に対するSPC-1、SPC-4およびSPC-13の従属性に符合して、2つのSPCの組合せ1-2-13および2-4-13を示す。クラスIIメタタイプの解析は、SPC 1、3、4、5および7のペアワイズ（pairwise）の組合せを示すマイナーメタタイプの全てが、SPC-2を（しばしばSPC-13と共に）示すメジャーメタタイプを有することを示している。このパターンは、これらのSPCのそれぞれが互いに独立しており、（中間体としてのSPC-13を伴って又は伴わないで）SPC-2に従属している関係と合致する。例えば、マイナーメタタイプD009-1はSPC 1、2、3および13を有し、そのメジャーメタタイプはSPC-2/SPC-13の組合せを有するが、このことは、SPC-1およびSPC-3の両方がSPC-13に、そしてそれより上位のSPC-2に従属していることを示している。同じ理屈がD005にも当てはまり、SPC-1、SPC-3およびSPC-5の全てが相互に独立しており、それぞれが逐次的にSPC-13およびSPC-2に従属しているという結論につながる。メジャーメタタイプがSPC-2だけを含有するサンプルD039およびD040の精査は、SPC-2に対するSPC-4およびSPC-7の一次従属性を示す。前記の推論に従えば、SPC-4は、SPC-2に対する直接的な従属性、および中間体SPC-13を介した従属性の両方において認められる。該関係におけるこの見掛け上の矛盾は過去の組換え事象によるものと考えられうる。D007およびE016は、二重の観察を引き起こす組換え体サンプルである（図15Aを参照されたい）。同じ考え方に沿った更なる解析は、SPC-9およびSPC-12もSP
C-13に従属していることを示唆しているが、SPC-9およびSCP-12が互いに独立関係にあるのか従属関係にあるのかを、サンプルD015における1回の観察から確実に結論づけることはできない。最後に、SPC-11は、SPC-3およびSPC-5をも有するマイナーメタタイプにおいて、1回観察され（サンプルD010）、このことは、SPC-11がそれらのうちの1つに従属しているに違いないことを示している。SPC-12がSPC-9に従属していることはないという補足的推測とは別に、クラスIIIメタタイプの解析は前記従属性を確かめるものであるに過ぎない。メジャーメタタイプはインフォーマティブでないため、一般に、クラスIIIメタタイプは追加的な情報を提供しない。したがって、SPC 6、8および10の従属性は1つのサンプルで観察されたに過ぎず、確立され得ない。例えば、マイナーメタタイプD036-1はSPC 2、3、10および13を有し、そのメジャーメタタイプはSPC-0を有する。SPC-2、SPC-3およびSPC-13の従属性の序列を知ることとは別に、SPC-10を明確に特定することはできない。SPC-10はSPC-3に従属している可能性があるが、SPC-0に従属している可能性もあるであろう。結論としては、メタタイプの解析は、CYP4A11遺伝子において同定された13個のSPCのうち、それらの9個の従属性が、メタタイプにおいて観察されたSPCパターンからの論理的推論により確立されうることを示している。図15Cは、CYP4A11遺伝子の9個のSPCの間で確立された階層的関係のネットワークの視覚的表示を示す。

結論としては、前記解析は、相が特定できない二倍体遺伝子型から出発してSPCに多型部位をクラスタ化するために本発明の方法が使用可能であることを示している。マイナーおよびメジャーメタタイプにおいて観察されるSPCパターンは、見出されるSPCのほとんどの間の階層的関係の推論を可能にする。該解析は、SPC-1、SPC-2、SPC-3、SPC-4、SPC-5、SPC-7、SPC-12およびSPC-13の間の推定される関係が、それらが複数かつ相補的な観察に基づくものであるため、確実に確立されたことを示しているが、いくつかの関係は、不十分な観察のため、依然として推測の域を出ない（例えば、SPC-9）。本研究においては、本発明者らは、SPC-9がSPC-13に直接的に従属していると考え、SPC-9を更なる解析に含めた。総合すると、これらの9個のSPCは81個のクラスタ化多型部位のうちの67個を占める。関係が確実には確定され得ないSPCは全て、低い出現頻度を有することに注目すべきである：SPC-6（2回出現し、6 SNPよりなる）、SPC-8（シングルトン、4 SNP）、SPC-10（シングルトン、2つの多型）、SPC-11（シングルトン、2 SNP）およびSPC-9（シングルトン、3 SNP）。追加的サンプルの解析はこれらのSPCの関係の確立を可能にすると予想される。実際、前記解析の結果は、主として、インフォーマティブな観察の数により左右され、残された曖昧さは該方法の固有の限界に関連するものではない、と当業者は認識するであろう。

9個のSPCの間の確立された関係に基づき、今や、SPCマップを明確に作成することが可能である。図15Dに記載のSPCマップの上部パネルは、メタタイプにおいて観察された種々のSPCの組合せが可視化された推定ハプロタイプを示し、下部パネルは、それらの9個のSPCのそれぞれにおいてクラスタ化した67個の多型部位を示す。それらの9個のSPCは、存在するSPCの組合せ（2-13, 2-1-13; 2-3-13; 2-4; 2-4-13; 2-5-13; 2-7; 2-9-13; 2-12-13および0（SPCを有さないハプロタイプ））により示される合計僅か10個の推定ハプロタイプに組織化される。アフリカ系アメリカ人個体においては全10個の推定ハプロタイプが見出されたが、ヨーロッパ人個体においてはそれらのうちの3個（2-1-13; 2-4および2-4-13）しか観察されなかったことが注目される。このことは、ヨーロッパ人が、アフリカ人において見出されるハプロタイプの一部しか保有しないというこれまでの知見と良く一致している。

図15Bの最後の2列に示すとおり、二倍体遺伝子型をデコンボリューションするために、今や、推定ハプロタイプを使用することが可能である。デコンボリューションの原理は、マイナーメタタイプは推定ハプロタイプの2つの組合せを表し、メジャーメタタイプは2つの推定ハプロタイプに共通のSPCを表すというものである。3つのクラスへのメタタイプの分類（図15Bを参照されたい）も該デコンボリューションに有用である。クラスIメタタイプは、マイナーメタタイプおよびメジャーメタタイプにおいて同じSPCの組合せを有し、これらのSPCの組合せは推定ハプロタイプにおいても見出される。したがって、クラスIメタタイプは、2つの同じハプロタイプへと簡便にデコンボリューションされる。例えば、SPCの組合せ1-2-13を有するサンプルE012は2つの1-2-13ハプロタイプへとデコンボリューションされる。クラスIIメタタイプは、マイナーメタタイプおよびメジャーメタタイプにおいて異なるSPCの組合せを示す。各マイナーメタタイプは、「0」以外の2つの推定ハプロタイプの組合せを表すはずであり、それらは、メジャーメタタイプに表されるSPCを共有する。例えば、マイナーメタタイプにおいてはSPCの組合せ1-2-3-13を、メジャーメタタイプにおいては2-13を有するサンプルD009は、2つのハプロタイプ1-2-13および2-3-13へとデコンボリューションされる。クラスIIIメタタイプは、マイナーメタタイプにおいてはSPCの組合せを示し、メジャーメタタイプにおいてはSPCを示さない。したがって、各マイナーメタタイプは、SPCを共有しない2つの推定ハプロタイプの組合せを表すに違いない。それらのSPCの全てはSPC-2に従属しているため、ハプロタイプの1つは「0」であるはずである。例えば、マイナーメタタイプにおいてSPCの組合せ1-2-13を有するサンプルE019は2つのハプロタイプ1-2-13および0へとデコンボリューションされる。

結論としては、前記の解析は、相が特定できない（unphased）二倍体遺伝子型データからのハプロタイプの正確な推定のために本発明の方法が使用可能であることを示している。

最後に、SPCを計算するために使用した相が特定できない二倍体データは、予めハプロタイプを推定することを要さずに、遺伝的解析のためのctSNPを選択するためにも使用可能であることが示されている。本発明は、SPCと最も厳密に合致し従ってctSNPとしての使用に最も良く適した多型部位を選択するための手段を提供する。該方法は、各多型とSPCの全ての他の多型との平均連鎖値（ALV）の計算に基づく。前記で説明したとおり、この計算は、SNPの適合性を評価するために、異常データ（すなわち、マイナー対立遺伝子が、SPCを保有する全てのサンプルに存在するわけではなく、あるいは他のサンプルにおいて見出される）を考慮するだけでなく、欠落した遺伝子型をも考慮する。本実施例においては、ctSNPの選択を3つのSPC（それぞれSPC-1、SPC-2およびSPC-4）に関して図15E、FおよびGに示す。これらの図は、各SPCの多型部位のメタタイプと共にペアワイズ（pairwise）連鎖値のマトリックスを示す。図15Eは、SPC-1に関するctSNPの選択を示す。最大ALV値により特徴づけられる、選択されたそれらの2つの等価なctSNPは、SNP-33およびSNP-45である。どちらのSNPもSPCを最も良く表す。なぜなら、マイナー対立遺伝子が、SPCを保有する全てのサンプルにおいて見出され、他のサンプルにおいては見出されない一方、さらに、欠落データ点が存在しないからである。それらに次ぐ最良のタグもSPCと完全に合致するが、サンプルの残部に欠落データを有する。図15Fは、SPC-2に関するctSNPの選択を示す。この場合もまた、最大ALV値を有する2つのSNPであるSNP-31およびSNP-40は共に、欠落データ点を伴うことなくSPCと完全に合致する。全ての他のSNPは、欠落データ点を有するか、または異常スコアを示す。図15Gは、SPC4に関するタグSNPの選択を示す。最後に、クラスタ化多型部位に関する異常または欠落データ点が存在しない場合、すなわち、全ての多型部位がC = 1の閾値でクラスタ化している場合には、全ての部位が等価であり、したがってそれらのそれぞれはctSNPとして働きうることが注目される。

ヒトMHC遺伝子座のクラスII領域のSPCマップ
本実施例は、複雑な遺伝子座のSPCマップを構築するために、および遺伝的解析用の診断マーカーの開発のためのctSNPを選択するために、相が特定できない（unphased）二倍体遺伝子型データ上で本発明の方法が使用可能であるという発想の更なる実証を提供する。本実施例はまた、複雑な組換えパターンを示すヒトゲノム中の遺伝子座を解析するために本発明の方法が使用可能であるという発想の実証を提供する。本実施例は、ヒト主要組織適合性複合体（MHC）遺伝子座における多型部位の解析を記載する。MHC遺伝子座は複雑な遺伝子変異パターンを示すことが知られており、多数のヒト疾患におけるその重要性のため、現在、精力的な遺伝的研究の主要対象となっている。MHC遺伝子座は、組換えホットスポットの存在が十分に実証されているヒトゲノム内の少数の遺伝子座の1つでもあり、本実施例は、種々の組換えホットスポットがかなりの精度でマッピングされているMHCのクラスII領域の216kbのセグメントを含むものである［Jeffreysら, Nat. Genet. 29: 217-222, 2001］。

“SNP genotypes from upstream of the HLA-DNA gene to the TAP2 gene in the Class II region of the MHC”［Jeffreysら, Nat. Genet. 29: 217-222, 2001］に関する二倍体遺伝子型およびSNP対立遺伝子データをウェブサイトhttp://www.le.ac.uk/genetics/ajj/HLA/Genotype.htmlからコピーした。該データは、ゲノムPCR産物の対立遺伝子特異的オリゴヌクレオチドハイブリダイゼーションを用いて50人の血縁関係のない英国白人精液ドナーのパネルにおいてタイピングされた296個のSNPを含む。該二倍体遺伝子型表は、それらの50サンプルにおけるMHCのクラスII領域の296個の多型部位の対立遺伝子スコアを列挙している。この表を、以下の若干の修飾を伴う以外は実施例7に記載されているとおりにメタタイプ表にフォーマット変更した。すなわち、一塩基挿入／欠失遺伝子型（+/-と示される）をそれぞれ記号「A」または点により置換し、一方、欠落している遺伝子型（「？」または「.」で示される）を記号「N」に変更した。

Cに関する以下の閾値と共に実施例7と同じパラメーター設定を用いるSPCアルゴリズムでメタタイプ表を解析した：C = 1、C＞ 0.95、C＞ 0.90、C＞ 0.85およびC＞ 0.80。C＞ 0.80の閾値では、SPCアルゴリズムは296個の多型のうちの198個を40個の異なるSPCにクラスタ化した。SPCのパターンを図16Bおよび16Cに示す。図のサイズを減少させるために、該解析は、2つの別々のSNPセット、より詳しくは、高頻度マイナー対立遺伝子（8回超または＞16％で認められるもの；図16B）を有するSNPの亜群および低頻度マイナー対立遺伝子（＜16％；図16C）により特徴づけられるSNPに関して行ったことに注意されたい。各亜群中のSNPは20個のSPCにクラスタ化する。図16B／Cは、該SPCのほとんど全てが216kbのセグメント内の7個の異なるドメインに限局していることを明らかに示している。これらのドメインは、図16Aに示す物理的マップで指し示されている異なるハイライト表示の長方形により表されている。全体として、各ドメインは、異なるSPCセットを含み、隣接ドメイン内に伸長するSPCは（ほとんど）存在しない。これは、SPCを分断しているドメインの間に組換えホットスポットが存在することと符合する。実際、SPCマップにより予想されるドメイン境界は、Jeffreysらにより同定され図16Aに赤色矢印で示された組換えホットスポットの位置と非常に良く一致している。図16B／Cの更なる精査は、複数のドメインに及ぶ少数の例外的なSPC（最も顕著なのは、図16Cにおいて太矢印で示されたSPC-2およびSPC-7である）が存在することを示している。SPC-2は、ドメイン1、3および6において見出され、1つのサンプルにおいて観察されたシングルトンSNPを含む。他のSPCであるSPC-7はドメイン4および7において見出され、8個体において観察されている。これらの結果は、SPC法とハプロタイプブロック法との間の重要な相違を示している。組換え頻度には無関係に、あるSPCの完全性は影響を受けず（すなわち、種々のブロックに属するある多型の関連は無傷のままである）、最終的にタグSNPの最小セットの選択を招く。本実施例は、長い組換え履歴を有する領域におけるSPCパターンが、相が特定できない
（unphased）二倍体遺伝子型データから容易に得られうるという明らかな例示を示す。

研究中のゲノム領域のドメイン構造が確立されれば、各ドメインにおけるSPC間の階層的関係を決定することが可能である。研究中のゲノム領域のSPC構造が確立されれば、SPC間の階層的関係を決定することが可能である。これを、図16Aに、ドメイン4のSNPに関して例示する。このドメインは35.095〜89.298位に67個のSNPを含む。この解析においては、5％以上のマイナー対立遺伝子頻度を有する57個のSNPのサブセットを選択した。前記と同じパラメーター設定を用いるSPCアルゴリズムで57個のSNPに関するメタタイプ表を再解析した。57個のSNPのうちの合計52個が9個のSPCにおいてクラスタ化した。SPC間の関係を図16Eのネットワーク構造において示す。それらは、実施例7に詳細に示されているとおり、マイナーメタタイプおよびそれらの対応メジャーメタタイプ中に見出されたSPCを比較することにより推定した。図16DのSPCマップに示すとおり、該解析は、SPCが8個のSPC-ハプロタイプ（SPCを欠くハプロタイプを含む）において組織化されることを示した。本質的には、該メタタイプの全ては、推定SPC-ハプロタイプまたはこれらの間の偶発的（occasional）組換え体と合致した。種々のクラスタを最も良く表すタグSNP（ctSNP）は、SPCマップおよび付随的ネットワーク構造の非存在下で、明らかに選択されうる。しかし、本実施例のように該ネットワークが多層であり多レベルの従属性を示す場合には、それは、タグSNPの数を更に減少させるための論理的根拠を与える。例えば、階層において高位のSPCに特異的な（すなわち、クレード特異的な）タグSNPに解析を限定することが可能である。

実施例7に記載のCYP4A11遺伝子座のSPCマップとの比較においては、MHC遺伝子座のSPCマップは遥かに複雑であることに注目すべきである。これは、MHC遺伝子座の遥かに高い遺伝子変異性と符合する。本実施例に記載のSPC-ハプロタイプは、ヒト集団において現れうるものの一部しか表していないと予想できる。実際、ここで解析したデータは、北欧人の、限定された集団サンプルに由来するものであった。したがって、SPCマッピング法は、SNPの組織的パターンを解析するための、及び遺伝的休止（genetic resting）に関する信頼しうるタグSNPを設計するための有用な方法となる。

ヒト22番染色体のHapMap SNPのSPCマップ
本実施例は、ヒトゲノムのSPCマップを構築するために相が特定できない（unphased）二倍体遺伝子型データ上で本発明の方法が使用可能であるという発想、および該SPCマップがゲノムワイド遺伝的関連研究のための診断マーカーとしてのctSNPの選択に特に有用であるという発想の更なる実証を提供する。本実施例は、本発明の他の態様を例示するために、国際ヒトHapMapプロジェクト（The International HapMap Consortium, Nature 426: 789-796, 2003）において最近得られた遺伝子変異データの解析を記載する。国際HapMapプロジェクトの目的は、アフリカ、アジアおよびヨーロッパの地域からの祖先を有する集団からのDNAサンプルにおいて配列変異体、それらの頻度およびそれらの間の相関性を特徴づけることにより、ヒトゲノム内のDNA配列変異の共通のパターンを決定することである。このプロジェクトは、ゲノム内の任意の機能的候補遺伝子に容易に適用される、あるいは家族に基づく連鎖解析により示唆された任意の領域に容易に適用される、あるいは最終的には疾患危険因子の精査のために全ゲノムに容易に適用される間接的関連アプローチを可能にする手段を提供するであろう。

22番染色体に関する公開データ公開番号3（public data release #3）の相が特定できない（unphased）二倍体遺伝子型およびSNP対立遺伝子データをHapMapウェブサイトhttp://www.hapmap.org/（The International HapMap Consortium, Nature 426: 789-796, 2003）からダウンロードした。この解析に22番染色体を選択したのは、この染色体上で遺伝子型判定されたSNPが比較的高密度（〜5kb当たり平均1 SNP）だったからである。該相が特定できない二倍体遺伝子型は、30組の父-母-子CEPHトリオおよび5個の二重サンプル（合計95個体）において遺伝子型判定された22番染色体の5865個の多型部位のSNP対立遺伝子スコアを列挙している。各SNPの染色体上の位置は参照配列「ncbi b34」上の塩基対として示されている。2つの同一記号（例えば、「AA」）により示されるホモ接合遺伝子型を1文字記号（例えば、「A」）に、また、2つの異なる記号（例えば、「AG」）により示されるヘテロ接合遺伝子型を記号「H」に変換することにより、該相が特定できない二倍体遺伝子型から遺伝子変異表を導き出した。欠落している遺伝子型は記号「N」で表されている。22番染色体の遺伝子変異表を、各連続的ブロック間に20個のSNPの重複を有する120個のSNPの連続的ブロックに分割した。最後に、実施例7に記載されているとおりに、メタタイプの連続的表へのフォーマット変更を行った。

実施例7と同じパラメーター設定を用いるSPCアルゴリズムでメタタイプ表を解析した。本実施例は、3.24kb当たり平均1 SNPに相当する700個のSNPを含む2.27Mbのセグメントの解析に関するものである。該SPCアルゴリズムは、種々の閾値でSNPの相当な割合をクラスタ化した（C = 1、C＞ 0.90およびC＞ 0.80の閾値でそれぞれ48％、66％および74％）。図17Bに示すC＞ 0.90のクラスタ化閾値で得られたSPCマップから認められうるとおり、SNPのほぼ半分は、広範かつ散在するSPCパターンを示すドメインにおいてクラスタ化し、一方、SNPの残りの半分は、少数のSNPを含み大部分が短い単離されたSPCを与えた。10以上のクラスタ化SNPを含む合計11ドメインを同定した。該ドメインは、図17Aに示す物理的マップに一定比率で描かれている。これらの11個のドメインは該2.27Mbセグメントの785kbまたは〜35％に相当する。ほとんどのドメインは25kb〜50kbであるが、4個の最大ドメインは100〜200kbにわたり、45〜65個のSNPを含む。該SPCは、低い閾値においてさえもクラスタ化しないSNPの伸長により分離されていることが注目される。

HapMapデータの小さなサンプルからのこれらの結果は、本発明の方法が、相が特定できない二倍体HapMap遺伝子型データにおけるSPC構造を捕捉する能力を有し、広範なハプロタイプ構造のドメインの同定のための有効なアプローチとなることを示している。該プロジェクトにおいて遺伝子型判定されるSNPの密度が増加するにつれて、遥かに広範なSPC構造が明らかになると予想できる。同時に、該ゲノム内の或る領域においては、広範な組換えの結果、SPC構造が非常に断片化されたままであることも予想されうる。これらは、この公開（release）においてSPC構造がほとんど又は全く観察されない領域に対応しうる。HapMapデータにおいて見出されたSPCに基づき、本発明の方法は更に、タグSNP（ctSNP）の選択に使用可能である。そのようなctSNPは、それほど構造化されていない領域および広範なSPC構造のドメインの両方において選択されうる。さらなるSNPに関する遺伝子型が将来入手可能になれば、この一覧は、明らかになる新規SPCに関するタグSNPを加えることにより、簡単に更新することができる。この解析に基づいて同定されたタグSNPは、一般に、将来においても尚も有効であることが強調されるべきである。

本発明の態様の1つ、より詳しくは、実験的に確認することが望まれうる誤っている可能性のあるデータを同定する能力を例示するために、図17Bのドメイン9を詳細に解析した。ドメイン9は59個のSNPを含み、そのうちの58個はC＞ 0.90の閾値で6個のSPCにおいてクラスタ化される。図17Dのネットワーク構造において示されている、6個のSPCのうちの5個の間の関係を、実施例7に詳細に記載されているとおりに、マイナーメタタイプおよびそれらの対応メジャーメタタイプにおいて見出されたSPCを比較することにより推定した。6番目のSPCは、該解析から除外された1つのサンプルにおいて観察された3個のシングルトンSNPを含む。デコンボリューション解析は、それらのSPCが、図17CのSPCマップに示されているとおりの6個のSPC-ハプロタイプ（SPCを欠くハプロタイプを含む）において組織化されることを示した。異常サンプルとは別に、全89個のメタタイプが6個のSPC-ハプロタイプまたはこれらの間の偶発的（occasional）組換え体と符合した。SPCマップと一致しなかったSNP遺伝子型を詳細に調べた。不一致は、SNPが属するSPCを含有するメタタイプにおけるSNPマイナー対立遺伝子の非存在、またはSPCを保有しないメタタイプにおけるマイナー対立遺伝子の存在によりなる。5220個（58 SNP×30トリオ）のSNP遺伝子型のうち、SPC構造と一致しないものが合計15個（＜0.3％）観察された。これらのうちの6個の遺伝子型は、親と子との遺伝子型間の矛盾のため、遺伝子型判定過誤として分類することができた。これを図17Eに示す。この図は、3組のトリオ（両親および子供）のメタタイプを、それらの対応するSPC-ハプロタイプと共に示す。第1のトリオ（図17Eの上部パネル）においては、SNP-24（SPC-1に属する）のマイナー対立遺伝子が該両親の一方においては遺伝子型判定されているが、子供においては遺伝子型判定されていない。第2のトリオ（図17Eの中央パネル）においては、SNP-39（SPC-1に属する）のマイナー対立遺伝子が子供においては遺伝子型判定されておらず、この子供はSPC-1の1コピーを各親から受け継いだ。第3のトリオ（図17Ｅの下部パネル）においては、SNP-30（SPC-1に属する）のマイナー対立遺伝子が子供においては遺伝子型判定されたが、いずれかの親においてSPC-1が存在しない。最後の2つの場合には遺伝子型判定過誤が明白であり、最初の場合にもその可能性がある。この知見は、本発明のもう1つの態様（すなわち、SPC構造との不一致に基づいて、誤っている可能性のある遺伝子型を同定すること）を強調するものである。

染色体5q31上の500キロベースのSPCマップ
本実施例は、本発明の方法で構築されたSPCマップと、Dalyら［Dalyら, Nat. Genet. 29: 229-232, 2001; Dalyら, 米国特許出願2003/0170665 A1］により提示されているアプローチで得られたハプロタイプブロックとの間の相違の例示を記載する。本実施例はまた、本発明の方法で選択されたタグSNP（ctSNP）と、ハプロタイプブロック法で選択されたハプロタイプタグSNP（htSNP）との間の相違の例示を記載する。本実施例は、ヒトゲノムにおけるハプロタイプブロックの存在を確認するために使用された染色体5q31上の500kbセグメントにおける多型部位の再解析を記載する［Dalyら, Nat. Genet. 29: 229-232, 2001］。記載されている解析の結果は、本発明の方法で選択されたctSNPが、ゲノムワイド遺伝的関連研究および遺伝的解析全般のための優れた診断マーカーであるという証拠を提供するものである。

“High-resolution haplotype structure in the human genome”［Dalyら, Nat. Genet. 29: 229-232, 2001］に関する相が特定できない（unphased）二倍体遺伝子型およびSNP対立遺伝子データを「ダウンロード生データページ（Download raw-data page）」としてウェブサイトhttp://www.broad.mit.edu/humgen/IBD5/haplodata.html.からダウンロードした。染色体5q31上の500kbセグメントのデータは、129組のトリオ（総数387個体）のパネルにおいてタイピングされた103個のSNPを含む。該生データページは、387個のサンプルにおいて遺伝子型判定された103個の多型部位の対立遺伝子を表す数字を列挙している。該数字を、ホモ接合遺伝子型に関しては記号「A」、「C」、「G」および「T」により、ヘテロ接合遺伝子型および欠落遺伝子型に関してはそれぞれ記号「H」および「N」により置換した。実施例7に記載されているとおりに、遺伝子変異表をメタタイプ表にフォーマット変更した。

Cに関する以下の閾値を使用するSPCアルゴリズムでメタタイプ表を解析した：C = 1、C＞ 0.95、C＞ 0.90、C＞ 0.875、C＞ 0.85およびC＞ 0.825。このデータセットの解析は、比較的高い組換え頻度と共に、多数の欠落データ点（すなわち、10.4％）により妨げられた。最終的に合体されるSPCパターンは、種々のストリンジェンシーでのクラスタ化に関する情報を収集する。基本的には、C＞ 0.875の閾値で同定された15個のSPCが維持され、より低い閾値でクラスタ化したSNPが（該SPC自体を合体させることなく）加えられた。103個のSNPのうちの合計87個がクラスタ化した。

図18は、103個のSNPのSPCパターンが該マップの両端において不連続的であり（間隔をあけた短いSPC）、一方、中央部分は、重複した長いSPCを含むことを示す。図18において、ハプロタイプブロック構造［Dalyら, Nat. Genet. 29: 229-232, 2001］は、番号が付された灰色の四角形により表されている。SPCパターンと11個のハプロタイプブロックとの比較は、いくつかのSPCが、2以上のブロックを越えて伸びていることを示しており、このことは、SPC構造が、遺伝子変異における組織の、より簡潔な表示を提供することを示している。それらの2つの方法の間の大きな違いは、遺伝子型判定のためのタグSNPマーカーの選択にある。ハプロタイプブロック法においては、タグSNPは、各ハプロタイプに関して特徴的であるSNPとして、ブロック内で同定されたハプロタイプから誘導され、一方、本発明の方法は各SPCについて（多くても）1つのタグSNPを定める。その結果、複数の隣接ブロックに及ぶSPCは2回以上タグ付けされ、実際には、SPCが包含するブロックの数と同じ回数、タグ付けされる。SPC法とは対照的に、独立したブロックの考慮はマーカーの選択における余分な重複につながる。本実施例においては、SPCをタグ付けするためには、僅か15個のSNPが必要であったに過ぎないが、全てのブロック特異的ハプロタイプの包括的対処は、各ハプロタイプブロック内の各メジャーハプロタイプについて1つのhtSNPを仮定すると、37個までのhtSNPを要した［Dalyら, Nat. Genet. 29: 229-232, 2001の図2を参照されたい］。また、実施例7に記載されているとおり、本発明の方法は、各SPCのための最も信頼しうるマーカーを与えるタグSNPを選択するための論理的アプローチを提供する。SPC法とハプロタイプブロック法とのもう1つの大きな違いは、大きな実用的有用性を伴うものである。すなわち、SPC構造は相が特定できない二倍体遺伝子型データから直接的に誘導されうるが、ハプロタイプブロック法ではハプロタイプの推定が前提条件となる。

酵母における単一フィーチャー多型のSPCマップ
本実施例は、一定の配列相違以外の遺伝子変異データ上で本発明の方法が使用可能であり、このようにして得られたSPCマップが遺伝子変異のゲノムワイドパターンの検査に特に有用であるという発想の実証を提供する。本実施例は、高密度オリゴヌクレオチドアレイを使用して得られた単一フィーチャー多型（single-feature polymorphism）（SFP）に関する発想のこの実証を提供するものであり、SPCマップから誘導された選択されたタグSFPを扱う診断用マイクロアレイを設計するために本発明の方法が使用可能であることを示す。本実施例は、高密度オリゴヌクレオチドアレイを使用して同定された酵母の一般的実験用株［Winzelerら, Genetics. 163: 79-89, 2003］の1番染色体内の多型部位解析を記載する。本研究においては、14の異なる酵母株において11,115個の単一フィーチャー多型（SFP）を見出すために、およびこの酵母集団における遺伝子変異のゲノムワイド分布を評価するために、酵母ゲノム配列に由来する285,156個の異なる25merを含有するAffymetrix S98オリゴヌクレオチドアレイ（Affymetrix Inc, Santa Clara, CA）を使用した。短い25merオリゴヌクレオチドを使用する高密度オリゴヌクレオチドアレイは、多型を見出すのに特に有用である。なぜなら、ヌクレオチド変化を検出するために、ハイブリダイゼーションシグナルの強度を用いることが可能だからである。アレイ上の1つの単一オリゴヌクレオチド（フィーチャー（feature）と称される）に対するディファレンシャルハイブリダイゼーションにより検出された多型は「単一フィーチャー多型（single-feature polymorphism）」（SFP）と称される。したがって、この長さの多数のプローブを保持するオリゴヌクレオチドアレイにより、ゲノム配列の相当な割合を検査（interrogate）することが可能であり、2つのゲノム配列間の対立遺伝子変異のおおよその位置を確認することが可能である。したがって、このタイプのマイクロアレイは、遺伝子変異の発見のための、及びゲノムワイド規模での将来の診断用遺伝子型判定のための強力な基盤を提供する。

この解析において使用した酵母の実験用株間の種内多型の対立遺伝子変異データ［Winzelerら, Genetics. 163: 79-89, 2003］は、ウェブサイトhttp://www.scripps.edu/cb/winzeler/genetics_supplement/supplement.htm.からダウンロードした。対立遺伝子変異データ表は、14個の異なる酵母株における11,115個のSFPの存在／非存在スコア（1/0）を、16本の酵母染色体のそれぞれにおけるそれらの位置と共に含む。数字0および1をそれぞれ記号「C」および「A」により置換することにより、対立遺伝子変異データ表を遺伝子変異表の標準フォーマットに変換した。SFPを染色体により分類し、遺伝子変異表を、個々の染色体のSFPを含む16個の表に分割した。本実施例において解析した1番染色体の遺伝子変異表は406個のSFPを含み、そのうちの174個がシングルトンであった。結果の解析および表示を単純化するために、シングルトンを該解析から除外した。残りの232個の多型を、以下の閾値を使用するSPCアルゴリズムでクラスタ化した：C = 1、C＞ 0.90およびC＞ 0.80。C = 1およびC＞ 0.90の閾値においては、該アルゴリズムは、1番染色体の合計117個のSFP（50％）を、3以上のSFPを含む19個の異なるSPCにクラスタ化した。図19の表示は、4以上のSFPを含む12個の最大クラスタにおけるSFPの染色体上分布を示している。これらのうちの幾つかは数キロベース〜30kbの比較的短いセグメントに限局しており（例えば、SPC 1、2、4、5および7）、他のものは該染色体の主要部分に広がっている（例えば、SPC-3およびSPC-6）ことが見て取れる。この解析は、局所的にクラスタ化したSFPおよび染色体全体のクラスタの両方よりなる酵母株間で共有されたSFP多型のパターンを示しており、酵母ゲノムのSPCマップの構築の出発点を示している。完全なSPCマップは、株の集合のサイズおよび多型の密度の両方の点で、より詳細な酵母ゲノムの解析を必要とするであろう。

同定された各SPCに特徴的であり酵母株の遺伝子型判定に使用可能なインフォーマティブなタグSFPを選択するために、1番染色体のSPCマップを使用することが可能である。（クラスタ当たりのSFPの最小数に応じて）12個または19個のタグSFPのサブセットを同定することが可能であり、このことは、最初に観察された406個のSFPの20倍以上の減少を表す。厳密な減少倍率はSFPの連鎖の度合に左右されるが、本実施例は、本発明の方法が、最高の診断的価値を有するSFPのサブセットを選択するための直接的アプローチを提供することを示している。ついで、タグSFPを検査するオリゴヌクレオチドのみを含む専用アレイを設計することが可能である。本実施例は、本発明の方法が、マイクロアレイ解析により得られる、ゲノムワイド規模で生じた遺伝子変異の複雑なパターンを解析するための論理的枠組を提供することを示している。本実施例はまた、本発明の方法が、in vitro診断試験または遺伝的解析全般に有用な意図的に設計されたマイクロアレイ上で組み込まれうるタグSFPの選択を可能にすることを示している。

細菌におけるヌクレオチド配列タイピングデータのSPC解析
本実施例は、細菌の多遺伝子座配列タイピング（multilocus sequencetyping）（MLST）で得られた遺伝子変異データ上で本発明の方法が使用可能であり、このようにして得られたSPCマップが細菌の遺伝的同一性を決定するために特に有用であるという発想の実証を提供する。多遺伝子座配列タイピング（MLST）は、細菌の特徴づけのための標準的な技術の1つに急速になりつつある。この技術においては、ハウスキーピング遺伝子をコードする遺伝子座からの〜500bpのヌクレオチド配列の伸長を解析することにより、複数のゲノム位置からの中立遺伝子変異を示す。配列データは実験室間で容易に比較され、電子的保存および配布に適している。MLSTに関するデータおよびプロトコールの保存および交換のためのワールド・ワイド・ウェブサイトが確立されている（http://mlst.zoo.ox.ac.uk）。本実施例は、グラム陰性細菌Campylobacter jejuniの研究［Dingleら, J. Clin. Microbiol. 39:14-23, 2001］からのMLSTデータのいくつかについての解析を記載する。

この解析において使用した108のC. jejuni株に由来するグルタミンシンターゼ（glnA）遺伝子の整列されたヌクレオチド配列は、ウェブサイトhttp://mlst.zoo.ox.ac.uk.からダウンロードした。glnA遺伝子の遺伝子変異表は107個の多型部位（シングルトンを除く）を含み、これらを、以下の閾値を使用するSPCアルゴリズムでクラスタ化した：C = 1、C＞ 0.95、C＞ 0.90、C＞ 0.85、およびC＞ 0.80。C = 1およびC＞ 0.90の閾値においては、該アルゴリズムは合計それぞれ52個および67個の多型部位を、3以上の多型部位を含むSPCにクラスタ化した。図20の表示は、多型部位が4個のSPCにクラスタ化するC＞ 0.90の閾値で得られたSPCマップを示す。多型部位の大部分が単純なSPC構造を示すことが認められ、該構造中ではそれらの多型は3個のSPCに分類され、そのうちの2個（SPC-2およびSPC-3）はSPC-1に従属している。第4のSPC（SPC-4）は、1つのサンプルのみにおいて第3対立遺伝子が見出される部位を含有する。108個の株をこの遺伝子座でタイピングするために、非常に多数（100を超える）の多型を僅か3個のクラスタタグ多型に減少させることが可能であることを、その単純なSPCパターンは示している。さらに、観察される直接的な従属関係は、glnA遺伝子座の、明らかな進化系統図を与える。

本実施例は、本発明の方法が、細菌の多遺伝子座配列タイピング（MLST）により得られた遺伝子変異の複雑なパターンを解析するための論理的枠組を与えることを示している。本実施例はまた、本発明の方法が、種々の遺伝子座における観察されたSPCに基づいて組み立てることができ、かつ細菌全般の特定のグループの高精度in vitro診断に有用であるクラスタタグSNPの選択を可能にすることを示している。

本発明は、その好ましい実施形態に関して特に示され記載されているが、添付の特許請求の範囲に含まれる本発明の範囲から逸脱することなく、前記実施形態の形態および詳細において種々の変更を施すことが可能である、と当業者に理解されるであろう。

SPCが可視化されている遺伝子変異表（ここにおいて、各列は多型部位を表し、各行はサンプルを表す）を示す。図1Aのデータセットから計算されたペアワイズC値のマトリックスを示す。 SPCネットワークを示す。従属性SPCが表示されている遺伝子変異表（ここにおいて、各列は多型部位を表し、各行はサンプルを表す）を示す。図2Aのデータセットから計算されたペアワイズC値のマトリックスを示す。 SPC関係のネットワークを示す。 0.9のC閾値を用いて遺伝子変異表において同定されたSPCを示す。図2Dに対応するSPCネットワークを示す。合計12のSPC間の独立および従属の双方の関係を有する複雑なSPC構造を表す。この図は、アルゴリズムの出力に相当し、SPCが表示されている遺伝子変異表（ここにおいて、各列は多型部位を表し、各行はサンプルを表す）を示す。 SPC間の階層関係を示すネットワーク表示である。欠落している遺伝子型コールを含むデータセットを用いた様々なストリンジェンシーでのSPC構造を表す。図4Aは、閾値レベルC=1で同定された種々のSPCを示す。閾値レベルC＞0.9で同定された種々のSPCを示す。閾値レベルC＞0.75で同定された種々のSPCを示す。ペアワイズC値のマトリックスを示す。図4Eは、C=1およびC＞0.9で検出されたSPCのネットワーク構造を示し、図4Fは、C＞0.75で見いだされたSPCのネットワーク構造を示す。それぞれSPC 1、SPC 3、SPC 4を標識するctSNPの選択を示す。限られた数の歴史的な組換え現象がSPC構造に及ぼす影響を示し、SPCがC=1の閾値で可視化されている遺伝子変異表である。図5Aのデータセットから計算されたペアワイズC値のマトリックスを示す。図5Cは、対象の遺伝子座のSPCマップを示し、図5Dは、C=1で検出されたSPCのネットワークを表す。 C＞0.9の閾値レベルで見いだされた種々のSPCを示す。図5Eに対応するSPCネットワークを示す。 C＞0.8の閾値レベルで見いだされた種々のSPCを示す。図5Gに対応するSPCネットワークを示す。組換えホットスポットがSPC構造に及ぼす影響を示し、SPCが表示されているオリジナルの遺伝子変異表である。図6Aのデータセットから計算されたペアワイズC値のマトリックスを示す。対象の遺伝子座のSPCマップを示す。各領域が異なるSPCネットワークにより特徴づけられることを示す。二倍体遺伝子型データから出発する、独立した構成にあるSPCの同定を示し、二倍体遺伝子型の可視的表示である。図7Cのデータセットから計算されたペアワイズC値のマトリックスを示す。 SPCが可視化されているメタタイプ表を示す。 SPCが可視化されているメタタイプ表を示す。 SPC-ハプロタイプのランダムペアワイズ組合せを示す。図7Cおよび7Dに示したデータから導き出せるSPC関係を示す。二倍体遺伝子型データから出発する複雑なSPC構造の同定を示し、二倍体遺伝子型の可視的表示である。図8Cのデータセットから計算されたペアワイズC値のマトリックスを示す。 SPCが可視化されているメタタイプ表を示す。 SPCが可視化されているメタタイプ表を示す。 SPC-ハプロタイプのランダムペアワイズ組合せを示す。図8Cに示したデータから導き出せるSPC関係を示す。トウモロコシのsh2遺伝子座の種内SPCマップを示す。アルゴリズムの出力に相当し、SPCが表示されている遺伝子変異表である。 SPCネットワークを示す。トウモロコシのsh1遺伝子座の種内SPCマップを示す。トウモロコシのY1遺伝子座の種内SPCマップを示す。図11Aは、6kbのY1遺伝子座の物理的マップの模式図である。図11Bは、アルゴリズムの出力に相当し、SPCが表示されている遺伝子変異表を示す。トウモロコシのグロブリン1遺伝子座の種間SPCマップを示す。図12Aは、アルゴリズムの出力に相当し、SPCが表示されている遺伝子変異表を示す。図12Bは、SPCネットワークおよびZea種を示す。シロイヌナズナ（Arabidopsis thaliana）のFRI遺伝子座のSPCマップを示す。図13Aは、450kbのFRI遺伝子座の物理的マップの模式図である。図13Bは、アルゴリズムの出力に相当し、SPCが表示されている遺伝子変異表を示す。シロイヌナズナ（Arabidopsis thaliana）の1番染色体の3.76Mbセグメントからの31のアンプリコンのSPCマップを示す。ヒトCYP4A11遺伝子のSPC構造を示す。アルゴリズムの出力に相当し、SPCが表示されているメタタイプ表である。 3つのクラスのメタタイプにおいて観察された様々なSPC組合せを示す。 CYP4A11遺伝子のSPC間の階層的関係を表す。 CYP4A11遺伝子のSPCマップを示す。図15E、FおよびGは、それぞれ、SPC 1、2および4を標識するctSNPの選択を示す。図16Aは、MHC遺伝子座の200kbのクラスII領域の物理的マップの模式図である。図16Bは、高頻度のマイナー対立遺伝子（頻度＞16％）を含むSNPのサブグループのSPCマップを表し、図16Cは、低頻度のマイナー対立遺伝子（頻度＜16％）により特徴付けられるSNPのサブグループのSPCマップを表す。図16Dは、図16Aのドメイン4の35,095位から89,298位までのSPCマップを示す。図16Eは、ドメイン4のSPC間の階層的関係を表している。ヒトの22番染色体のHapMap SNPのSPCマップを示す。図17Aは、22番染色体の2.27Mbのセグメントの物理的マップの模式図である。図17Bは、22番染色体の700のSNPのSPCマップを示す。図17Cは、図17Bのドメイン9の17,399,935位から17,400,240位までのSPCマップを示す。図17Dは、ドメイン9のSPC間の階層的関係を表す。図17Eは、アルゴリズムの出力に相当し、SPCが表示されている3つのトリオ（両親と子供）のメタタイプを、それらの対応するSPC-ハプロタイプと共に示す。染色体5q31の500キロベースのSPCマップを示す。酵母における単一特徴多型（SFP）のSPCマップを示す。カンピロバクター（Campylobacter jejuni）のglnA遺伝子座のSPCマップを示す。コンピュータのいくつかの構成部品の略図である。対象のゲノム領域のSPCマップの作成を容易にするために用いられるステップのいくつかを示す代表的なフローチャートである。図22に示した実施形態に代わる実施形態において用いられるステップのいくつかを示す代表的なフローチャートである。遺伝子型判定に用いるために対象のゲノム領域から1以上の多型を選択する方法において用いられるステップのいくつかを示す代表的なフローチャートである。マーカー形質または表現型の同定を容易にするために用いられるステップのいくつかを示す代表的なフローチャートである。形質または表現型と関連した遺伝子位置の同定を容易にするために用いられるステップのいくつかを示す代表的なフローチャートである。形質または表現型のin vitro診断法において用いられるステップのいくつかを示す代表的なフローチャートである。被験体の遺伝子の正体を判定する方法において用いられるステップのいくつかを示す代表的なフローチャートである。対象のゲノム領域の相が特定できない二倍体遺伝子型からSPC-ハプロタイプを決定する方法において用いられるステップのいくつかを記載する代表的なフローチャートである。

Claims

1以上の配列多型クラスタ（SPC）を含んでなる、対象のゲノム領域のSPCマップであって、各SPCが該ゲノム領域からの多型のサブセットを含み、該サブセットの多型が該サブセットのそれぞれ他の多型と同時発生していることを特徴とするSPCマップ。

該サブセットの各多型が、該サブセットのそれぞれ他の多型と、該多型のマイナー対立遺伝子の同時発生率75％〜100％で同時発生している、請求項1記載のSPCマップ。

該サブセットの各多型の、該サブセットのそれぞれ他の多型との同時発生を、ペアワイズC値、C^*値、r²連鎖不平衡値、Δ連鎖不平衡値、δ連鎖不平衡値およびd連鎖不平衡値よりなる群から選ばれるパラメーターにより計算する、請求項1記載のSPCマップ。

該パラメーターが0.75〜1のペアワイズC値である、請求項3記載のSPCマップ。

a．複数の被験体から対象のゲノム領域の核酸配列を得、
b．該核酸配列における複数の多型を同定し、
c．1以上のSPCを同定する、
ステップを含んでなり、各SPCが該核酸配列からの多型のサブセットを含み、該サブセットの多型が該サブセットのそれぞれ他の多型と同時発生していることを特徴とする、対象のゲノム領域のSPCマップの作成方法。

a．複数の被験体から対象のゲノム領域の相が特定できない（unphased）二倍体遺伝子型を得、
b．該相が特定できない二倍体遺伝子型において見出されるメジャーおよびマイナーメタタイプを決定し、
c．1以上のSPCを同定する、
ステップを含んでなり、各SPCが該メタタイプからの多型のサブセットを含み、該サブセットの多型が該サブセットのそれぞれ他の多型と同時発生していることを特徴とする、相が特定できない二倍体遺伝子型からの対象のゲノム領域のSPCマップの作成方法。

1以上のSPCの同定が、該サブセットのそれぞれ他の多型と該多型のマイナー対立遺伝子の同時発生率75％〜100％で同時発生している該サブセットの各多型を同定することを含む、請求項5または6記載の方法。

1以上のSPCの同定が、複数ラウンドの同時発生解析（coincidence analysis）を含む、請求項5または6記載の方法。

同時発生解析の各連続ラウンドを、同時発生率100％から同時発生率75％へと減少する同時発生率で行う、請求項5または6記載の方法。

該サブセットの各多型の、該サブセットのそれぞれ他の多型との同時発生を、ペアワイズC値、C^*値、r²連鎖不平衡値、Δ連鎖不平衡値、δ連鎖不平衡値およびd連鎖不平衡値よりなる群から選ばれるパラメーターにより計算する、請求項5または6記載の方法。

該パラメーターが0.75〜1のペアワイズC値である、請求項10記載の方法。

標的核酸配列における複数の多型の同定を、直接的配列解析、示差的核酸解析、配列に基づく遺伝子型判定、DNAチップ解析およびポリメラーゼ連鎖反応解析よりなる群から選ばれるアッセイにより決定する、請求項5または6記載の方法。

a．請求項5または6に従ってSPCマップを得、
b．該SPCマップにおいてユニークSPCを同定する少なくとも1つのクラスタタグ多型を選択し、
c．対象のゲノム領域の遺伝子型判定研究において使用するための十分な数のクラスタタグ多型を選択する、
ステップを含んでなる、遺伝子型判定において使用するための対象のゲノム領域から1以上の多型を選択する方法。

該クラスタタグ多型が、一塩基多型（SNP）、欠失多型、挿入多型および短いタンデムリピート多型（STR）よりなる群から選ばれる、請求項13記載の方法。

該クラスタタグ多型が、遺伝形質に関連した既知SNPである、請求項13記載の方法。

a．請求項13に従って十分な数のクラスタタグ多型を得、
b．該クラスタタグ多型を評価して、形質または表現型と少なくとも1つのクラスタタグ多型との間の関連性を同定する、
ことを含んでなり、該関連性の同定が、該形質または表現型のマーカーとして該クラスタタグ多型を同定することを特徴とする、形質または表現型に関するマーカーを同定する方法。

クラスタタグ多型を、遺伝的障害、遺伝的障害の素因、疾患に対する感受性、作物または家畜の性能形質、産物の品質形質を含む群から選ばれる形質または表現型と相関させる、請求項16記載の方法。

該マーカーが遺伝的障害のマーカーであり、該SPCマップが請求項5または請求項6記載のとおりに作成され、複数の被験体のそれぞれが同一の遺伝的障害を示す、請求項16記載の方法。

標的核酸配列における複数の多型の同定を、直接的配列解析、示差的核酸解析、配列に基づく遺伝子型判定、DNAチップ解析およびポリメラーゼ連鎖反応解析よりなる群から選ばれるアッセイにより決定する、請求項16記載の方法。

a．形質または表現型に関連した所与のゲノム領域における複数のSPCを同定し、ここで、各SPCは該ゲノム領域からの多型のサブセットを含み、該サブセットの多型は該サブセットのそれぞれ他の多型に関連しており、
b．クラスタタグ多型のセットを同定し、ここで、クラスタタグ多型のセットの各メンバーは、前記の複数のSPCにおけるユニークSPCを同定し、
c．クラスタタグ多型のセットを評価して、形質または表現型と少なくとも1つのクラスタタグ多型との間の関連性を同定する、
ことを含んでなり、該クラスタタグ多型と該形質または表現型との間の関連性の同定が該遺伝子の位置を示すことを特徴とする、形質または表現型に関連した遺伝子の位置を同定する方法。

該形質または表現型が、遺伝的障害、遺伝的障害の素因、疾患に対する感受性、作物または家畜の性能形質、産物の品質形質を含む群から選ばれる、請求項20記載の方法。

a．請求項16に従って形質または表現型に関するマーカーを得、
b．被験体から標的核酸サンプルを得、
c．該標的核酸サンプルにおける該形質または表現型に関するマーカーの存在を判定する、
ことを含んでなり、該標的核酸における該マーカーの存在が、該被験体が該形質または表現型を有することを示すことを特徴とする、被験体における形質または表現型のin vitro診断のための方法。

該形質または表現型が、遺伝的障害、遺伝的障害の素因、疾患に対する感受性、作物または家畜の性能形質、および産物の品質形質を含む群から選ばれる、請求項22記載の方法。

a．複数の被験体から1以上のゲノム領域の基準SPCマップを得、
b．請求項13記載の方法により、該ゲノム領域に関する十分な数のクラスタタグ多型を選択し、
c．同定すべき被験体からのゲノム領域の標的核酸を得、
d．同定すべき被験体のゲノム領域のクラスタタグ多型の遺伝子型を判定し、
e．該クラスタタグ多型の遺伝子型を該基準SPCマップと比較して、対象の被験体の遺伝的同一性を決定する、
ことを含んでなる、被験体の遺伝的同一性を決定するための方法。

該基準SPCマップを請求項5記載の方法により作成する、請求項24記載の方法。

該基準SPCマップを請求項6記載の方法により作成する、請求項24記載の方法。

a．請求項6記載の方法によりSPCマップを得、
b．該SPCマップからSPC-ハプロタイプを決定し、ここで、各SPC-ハプロタイプはゲノム領域からのSPCのサブセットを含み、該サブセットのSPC群は同時発生しており、
c．試験被験体のSPCを、該SPCマップから決定したSPC-ハプロタイプと比較することにより、該被験体のSPC-ハプロタイプを同定する、
ことを含んでなる、被験体の対象のゲノム領域の相が特定できない二倍体遺伝子型からのSPC-ハプロタイプを決定するための方法。

対象の被験体から遺伝子型データを得、該遺伝子型データを、複数の個体から作成した基準SPCマップと比較することを含んでなり、該被験体の遺伝子型と該SPCマップとの間の差異が該被験体の遺伝子型における過誤を示すことを特徴とする、遺伝子型における過誤を同定するための方法。

対象のゲノム領域が、動物（ヒトを含む）、植物または微生物よりなる群から選ばれる種に由来する、請求項1、5、6、14、25、21記載の方法。

マシンで実行するとき、
複数の被験体から対象のゲノム領域の核酸配列を得ること、
該核酸配列における複数の多型を同定すること、
1以上のSPCを同定すること、
を該マシンに行わせるインストラクションを記憶しているマシンアクセス可能媒体を含んでなり、各SPCが該核酸配列からの多型のサブセットを含み、該サブセットの多型が該サブセットのそれぞれ他の多型と同時発生していることを特徴とする、物品。

該マシンで実行するとき、該サブセットのそれぞれ他の多型と該多型のマイナー対立遺伝子の同時発生率75％〜100％で同時発生している該サブセットの各多型を同定することを、該マシンに行わせる更なるインストラクションを有する、請求項30記載の物品。

該マシンで実行するとき、同時発生解析の各連続ラウンドを、同時発生率100％から同時発生率75％へと減少する同時発生率で行うことを、該マシンに行わせる更なるインストラクションを有する、請求項30記載の物品。

該マシンで実行するとき、該サブセットの各多型の、該サブセットのそれぞれ他の多型との同時発生を、ペアワイズC値、C^*値、r²連鎖不平衡値、Δ連鎖不平衡値、δ連鎖不平衡値およびd連鎖不平衡値よりなる群から選ばれるパラメーターにより計算することを、該マシンに行わせる更なるインストラクションを有する、請求項30記載の物品。

マシンで実行するとき、
複数の被験体から対象のゲノム領域の相が特定できない（unphased）二倍体遺伝子型のセットを得ること、
該相が特定できない二倍体遺伝子型のセットにおいて見出されるメジャーおよびマイナーメタタイプを決定すること、
1以上のSPCを同定すること、
を該マシンに行わせるインストラクションを記憶しているマシンアクセス可能媒体を含んでなり、各SPCが該メタタイプからの多型のサブセットを含み、該サブセットの多型が該サブセットのそれぞれ他の多型と同時発生していることを特徴とする、物品。

該マシンで実行するとき、該サブセットのそれぞれ他の多型と該多型のマイナー対立遺伝子の同時発生率85％〜100％で同時発生している該サブセットの各多型を同定することを、該マシンに行わせる更なるインストラクションを有する、請求項34記載の物品。

該マシンで実行するとき、該サブセットのそれぞれ他の多型と該多型のマイナー対立遺伝子の同時発生率75％〜100％で同時発生している該サブセットの各多型を同定することを、該マシンに行わせる更なるインストラクションを有する、請求項34記載の物品。

該マシンで実行するとき、標的核酸配列における複数の多型を、直接的配列解析、示差的核酸解析、配列に基づく遺伝子型判定、DNAチップ解析およびポリメラーゼ連鎖反応解析よりなる群から選ばれるアッセイに基づいて同定することを、該マシンに行わせる更なるインストラクションを有する、請求項30記載の物品。

マシンで実行するとき、
対象のゲノム領域のSPCマップを得ること、
該SPCマップにおいてユニークSPCを同定する少なくとも1つのクラスタタグ多型を選択すること、
対象のゲノム領域の遺伝子型判定研究において使用するための十分な数のクラスタタグ多型を選択すること、
を該マシンに行わせるインストラクションを記憶しているマシンアクセス可能媒体を含んでなる物品。

該マシンで実行するとき、一塩基多型（SNP）、欠失多型、挿入多型および短いタンデムリピート多型（STR）よりなる群から該クラスタタグ多型を選択することを、該マシンに行わせる更なるインストラクションを有する、請求項38記載の物品。

マシンで実行するとき、
遺伝子型判定において使用するための対象のゲノム領域からの十分な数のクラスタタグ多型を得ること、
該クラスタタグ多型を評価して、形質または表現型と少なくとも1つのクラスタタグ多型との間の関連性を同定すること、
を該マシンに行わせるインストラクションを記憶しているマシンアクセス可能媒体を含んでなり、該関連性の同定が、該形質または表現型に関するマーカーとしてクラスタタグ多型を同定することを特徴とする、物品。

該マシンで実行するとき、クラスタタグ多型を、遺伝的障害、遺伝的障害の素因、疾患に対する感受性、作物または家畜の性能形質、産物の品質形質よりなる群から選ばれる形質または表現型と相関させることを、該マシンに行わせる更なるインストラクションを有する、請求項40記載の物品。

該マシンで実行するとき、標的核酸配列における複数の多型を、直接的配列解析、示差的核酸解析、配列に基づく遺伝子型判定、DNAチップ解析およびポリメラーゼ連鎖反応解析よりなる群から選ばれるアッセイに基づいて同定することを、該マシンに行わせる更なるインストラクションを有する、請求項40記載の物品。

マシンで実行するとき、
形質または表現型に関連した所与のゲノム領域において同定された複数のSPCを同定すること、ここで、各SPCは該ゲノム領域からの多型のサブセットを含み、該サブセットの多型は該サブセットのそれぞれ他の多型に関連していること、
クラスタタグ多型のセットを同定すること、ここで、クラスタタグ多型のセットの各メンバーは、前記の複数のSPCにおけるユニークSPCを同定すること、
クラスタタグ多型のセットを評価して、形質または表現型と少なくとも1つのクラスタタグ多型との間の関連性を同定すること、
を該マシンに行わせるインストラクションを記憶しているマシンアクセス可能媒体を含んでなり、該クラスタタグ多型と該形質または表現型との間の関連性の同定が該遺伝子の位置を示すことを特徴とする、物品。

該マシンで実行するとき、遺伝的障害、遺伝的障害の素因、疾患に対する感受性、または作物または家畜の性能形質、産物の品質形質よりなる群から形質または表現型を選択することを、該マシンに行わせる更なるインストラクションを有する、請求項43記載の物品。

マシンで実行するとき、
被験体における形質または表現型に関するマーカーを得ること、
該被験体から標的核酸サンプルを得ること、
該標的核酸サンプルにおける該形質または表現型に関するマーカーの存在を判定すること、
を該マシンに行わせるインストラクションを記憶しているマシンアクセス可能媒体を含んでなり、該標的核酸における該マーカーの存在が、該被験体が該形質または表現型を有することを示すことを特徴とする、物品。

該マシンで実行するとき、遺伝的障害、遺伝的障害の素因、疾患に対する感受性、作物または家畜の性能形質、または産物の品質形質よりなる群から形質または表現型を選択することを、該マシンに行わせる更なるインストラクションを有する、請求項45記載の物品。

マシンで実行するとき、
複数の被験体から1以上のゲノム領域の基準SPCマップを得ること、
該ゲノム領域に関する十分な数のクラスタタグ多型を選択すること、
同定すべき被験体からのゲノム領域の標的核酸を得ること、
同定すべき被験体のゲノム領域のクラスタタグ多型の遺伝子型を判定すること、
該クラスタタグ多型の遺伝子型を該基準SPCマップと比較して、対象の被験体の遺伝的同一性を決定すること、
を該マシンに行わせるインストラクションを記憶しているマシンアクセス可能媒体を含んでなる物品。

マシンで実行するとき、
対象のゲノム領域のSPCマップを得ること、
該SPCマップからSPC-ハプロタイプを決定すること、ここで、各SPC-ハプロタイプはゲノム領域からのSPCのサブセットを含み、該サブセットのSPC群は同時発生していること、
試験対象のSPCを、該SPCマップから決定したSPC-ハプロタイプと比較することにより、該対象のSPC-ハプロタイプを同定すること、
を該マシンに行わせるインストラクションを記憶しているマシンアクセス可能媒体を含んでなる物品。