JP2006514553A

JP2006514553A - 祖先を推論するための組成物および方法

Info

Publication number: JP2006514553A
Application number: JP2005502072A
Authority: JP
Inventors: トニーエヌ．フルダキス; マークディー．シュライバー
Original assignee: ディーエヌエープリントジェノミクスインコーポレーティッド
Priority date: 2002-08-19
Filing date: 2003-08-19
Publication date: 2006-05-11
Also published as: JP2012050432A; EP1578944A4; EP1578944A2; AU2003265572A1; AU2009225275A1; WO2004016768A2; CA2496155A1; WO2004016768A3

Abstract

一塩基多型を含む、または挿入もしくは欠失を含む祖先情報提供マーカー(AIM)が提供され、個体の形質に関する推論を引き出すためにAIMのパネルを用いる方法も提供される。形質は、例えば、生物地理学的祖先、色素形成形質、薬物への応答性、または疾患に対する感受性でありうる。また、個体の比例的祖先を測定する方法も提供されている。試薬およびキットもまた提供されている。

Description

発明の分野
本発明は、一般的に、個体の生物地理学的祖先を予測する遺伝マーカーの同定、より具体的には、個体の形質に関して推論を可能にする祖先情報提供マーカー(AIM)として有用な一塩基多型の組み合わせ、そのようなAIMを同定するためのアルゴリズム、ならびに個体の祖先を含む個体の形質、薬物に対する個体の応答性および疾患についての個体の素因、を推論するためにそのようなAIMを用いる方法に関する。

背景情報
ヒト個体の間での遺伝的変異の大部分(80〜90%)は、個体相互であり、相対的に小さな割合(10〜20%)のみが集団差による(Nei、Molecular Population Genetics (Columbia University Press、ニューヨーク) 1987；Cavalli-Sforzaら、The History and Geography of Human Genes (Princeton University Press、プリンストン、NJ) 1994；Dekaら、Electrophoresis 16:1659-1664、1995；Rosenbergら、Science 298:2381-2385、2002；Akeyら、BioTechniques 30:348-367、2001；Akeyら、Hum. Genet. 108:516-520、2002)。たいていの集団は対立遺伝子を共有し、一つの集団において最も高頻度であるそれらの対立遺伝子は、他のものにおいても高頻度である。集団特異的であるかもしくは地理的および民族的に定義された集団の間で大きな頻度差をもつ古典的マーカー(例えば、血液型、血清タンパク質および免疫学的マーカー)またはDNA遺伝マーカーはごく少ない(RoychodhuryおよびNei、Human Polymorphic Genes: World Distribution (Oxford University Press、ニューヨーク) 1988；Deanら、Amer. J. Hum. Genet. 55:788-808、1994；Cavalli-Sforzaら、前記、1994；Akeyら、前記、2001、2002)。固有の遺伝マーカーのこの明らかな欠如にもかかわらず、固有の生態学的条件、偶然的遺伝的浮動および性別選択への遺伝的適応をおそらく反映している、ヒト集団の間の顕著な身体的および生理的差がある。現代の集団において、これらの差は、民族群間の形態学的差において、加えて薬物応答性ならびに疾患に対する感受性および耐性における差において、明らかである。

基本的レベルにおいて、ヒト集団構造は、「人種」の遺伝性構成要素またはヘリテージ（heritage）であり、かつ決定のいずれの尺度にも関連性がある、生物地理学的祖先(BioGeographical Ancestry)(BGA)という言葉で表現されうる。例えば、粗いレベルにおいて、BGAは2群(例えば、ヨーロッパ人対その他)について決定されうる；または細かいレベルにおいて、例えば、それは、インドヨーロッパ人、東アジア人、サハラ以南のアフリカ人および先住アメリカ人（Native American）のような4群によって「人種」に言及することができる；または細かいレベルにおいて、例えば、それは、ヨーロッパ人群内において民族性に言及することができる(例えば、地中海人種の人またはスカンジナビア人)；またはさらに細かいレベルにおいて、例えば、それは、アイルランド人群内の1組の共通の祖先由来のオライリー(O'Reilly)の子孫の群のような、民族群内の家族の群にまでも言及することができる。BGAの測定は、ほとんどいずれの型の遺伝学または疫学的研究設計ついても関連性がある。例えば、BGAは、薬物応答の変動性において重要な構成要素である(Burroughsら、J. Natl. Med. Assoc. 94:1-26、2002)。この関係の理由は、遺伝的浮動、地理的および/または生殖隔離、ならびに地域の選択的圧力が、原産の食物に見出されるアルカロイド、タンニン(自己防衛化学物質)、および他の生体異物との適合性についての我々の祖先の対立遺伝子頻度を形成したことである。たいていの薬物はそのような化学物質から由来しており、それゆえに、人間が薬物を解毒するのを可能にする酵素のファミリーが、異なる集団において異なる頻度で見出されることは、偶然の一致ではない。このシナリオは、薬物応答性に特有ではなく、薬物応答性に関連のないゲノムの多くの他の部分は、これらの同じ型の圧力を受けやすい。

研究者は、一般的に、疾患と単に相関しているだけである遺伝子変異体を同定することよりむしろ、疾患を引き起こす遺伝子変異体(いわゆる「表現型活性の」遺伝子座)を同定することに関わってきた。それとして、どんな形質が調べられようと、かつ関連のない個体を含むたいていの研究設計について、表現型活性遺伝子座との連鎖不平衡(LD)にあるものよりむしろ与えられたサンプルにおいて形質値と相関する構造のマーカーを同定することを避けるために、集団構造について制御することが重要であると考えられてきた(Rischら、Genome Biology 3:1-12、2001；Wangら、Amer. J. Hum. Genet. 71:1227-1234、2002；Burroughsら、前記、2002；RaoおよびChakraborty、Amer. J. Hum. Genet. 26:444-453、1974)。サンプル収集物において集団構造の2つの源がある：1)サンプリングが同種の集団から行われる場合でさえも、構造を生じうるサンプリング効果、および2)自然のヒト人口統計学。集団構造の第一の源は、遺伝学研究にとって厄介なことであり、この型の構造による研究から見出された関連は、一般的に、ヒト人口統計学の反映よりむしろ収集過程の人為結果とみなされる。たいていの遺伝学者は、一般的に、そのうえ、第二種の構造を厄介なこととみなしている。それとして、集団構造によるとして同定された関連は、偽の発見または人為結果とみなされ、一般的に棄却されてきた；真の連鎖またはLDによる発見のみが発表されたが、そのようなマーカーが、生物学的関連遺伝子に連鎖しているとみなされるからなのだが。

個体の群において集団構造の両方の型(上記)を定量するために多くの努力が向けられてきた。そのような方法は、本質的に、構造の指標として、サンプルの群内でヘテロ接合性の予想されるレベルからの逸脱を測定する(これらの方法のいずれも個体内構造を読むことができないが)。多くのありふれた疾患は、BGAの機能として遺伝子座および/または対立遺伝子不均一性を示し、多くの著者は、研究設計段階の間の集団構造への不適切な配慮が、今まで得られた再現性のないありふれた疾患/共通変異結果のラッシュに関係しているいわゆる「偽陽性」結果の少なくとも一部を生じたことを示唆した(Terwilligerら、Curr. Opin. Genet. Devel. 12:726-734、2002)。集団構造の影響について制御するために、いくつかの検定が適当である(Cockerham、Evolution 23:72-83、1969；Cockerham、Genetics 74:679-700、1973；WierおよびCockerham、Evolution 38:1358-1370、1984；Long、Genetics 112:629-647、1986；Excoffierら、Genetics 131:343-359、1992)。これらの方法は、2つの主なカテゴリーに分類されうる − ゲノム制御(genomic control)方法(DevlinおよびRoeder、Biometrics 55:997-1004、1999)および構造化関連(structured association)(SA)方法(PritchardおよびDonelly、Theor. Popul. Biol. 60:227-237、2001)。両方の方法は、遺伝的構造の効果について推定かつ補正するために連鎖していないマーカーのパネルのジェノタイピングを必要とするが、それらは、通常、サンプル収集物に適用される。しかしながら、サンプルのプールがそのような検定を怠るならば、問題を修正するためにどのサンプルが除去されるべきかは通常、明らかではない。この方法について等しく悩ます問題は、それが、しばしば、高価なデータの作成後に研究サンプルに適用され、それに従って、経済的問題に加えて循環論理問題を生じることである；これらの方法は、通常、関連が探索されるデータの特徴を用いて集団構造に関する情報を引き出すために用いられる。

構造または混合物が統計学的燃料として用いられるべきではなく、表現型活性遺伝子座を同定するための試みの最初から集団構造の影響を最小限にするために、症例および対照が構成においてマッチングかつ均質化されうるように、BGAのような大まかな集団層化に基づいてサンプルを認定することが一般的に望ましい。例えば、症例および対照の内ならびに間に均等な割合または「人種の均一性」を保証することは、症例対照法の実行においてまれなことではない。しかしながら、たいていの研究目的にとって、集団所属を測定するために用いられる主観的な方法は不満足である。現在、生物地理学的な質問票を用いて測定されているが、明らかであること以外の集団構造の知識はほとんど得られず、集団構造と薬物応答の間の基本的関係のみが明らかでありうる、および/または制御されうる。無矛盾性は、質問票および食品医薬品局が臨床試験設計過程間に提出するように企てているものにおける人種の自己申告について重要な問題である。しかしながら、データ収集のそのような主観的かつ不正確な方法を用いては、無矛盾性は、達成するのに困難な目的でありうる。

質問票においてどのような質問が尋ねられるかを再公式化することよりむしろ、実行の主観的性質を客観的、再現性のある科学的方法と置き換えることにより、無矛盾性はよりうまく向けられうる。人種データの収集にとって、それの測定がどの他のヒトの属性の測定にも劣らず主観的でありうるため、標準化および客観性は最も重要なことである。人種の自己申告は、性の自己申告ほど些細な実行ではなく、多くの人々は彼らの人種を知らない、または彼らが自分自身を単一の群へ分類するのに悩むほど十分な混合である。そのようなシナリオは、移民により多数の文化が結合されている、米国のような国において、特によくある話である。例えば、主にサハラ以南アフリカ系の女性は、プエルトリコに育ったが、自分自身をヒスパニックとして記載する可能性がある。彼女は、自分をヒスパニックと社会文化的に同一視するが、彼女の生体異物の代謝および薬物標的多型は、他のサハラ以南人の間で共有されるものと関連している可能性がより高い。社会の社会文化的構成概念を記載する非人類学的名称を用いることにより、研究設計過程において人種に関する情報を考慮に入れるための現行のガイドラインは、乏しい予測的力および偽陽性結果をもたらしうる。人が育って、住んでいるところ、および彼らが遵守する文化的または社会学的習慣は、その人が薬物に対してどのように応答するか、または疾患を発生しうる傾向に影響力をもつ可能性がある。このように、非生物学的測定基準が必要とされるが、その証拠は、BGAもまた影響力をもち、それゆえに、科学的に正確かつ再現性のある様式において測定される必要があることを示唆している。

人のDNAに存在する遺伝マーカーは、個体あたりのBGAを信頼性をもって測定する最高の機会を提供し、そのような手段が可能であると認識されてから久しい。例えば、Reed(Science 244:575-576、1973)およびNeel(Mutat. Res. 26:319-328、1974)は、そのようなマーカーを「私有(private)」と呼び、それらを突然変異率を推定するために用いた。Reed(前記、1973)は、異なる対立遺伝子が異なる集団において固定されている仮定の遺伝マーカー遺伝子座を記載するのに「理想(ideal)」(個体の祖先推定におけるマーカーの利用に関して)という用語を用いた。Chakrabortyら(Ethnic. Dis. 1:245-256、1991)は、1つの集団のみに見出される変異体を「固有の対立遺伝子(unique allele)」と呼び、どのようにして対立遺伝子頻度が逆にされて集団またはBGAの所属の尤度推定を与えうるかを示した。BGAの推論に最も有用な「固有の対立遺伝子」は、また集団の間で対立遺伝子頻度において大きな差をもつもの(Reed)、前記、1973；Chakrabortyら、Genetics 130:231-243、1992；Stephensら、Amer. J. Hum. Genet. 55:809-824、1994)、および、今は「祖先情報提供マーカー」(AIM)；Shriverら、Hum. Genet. 112:387-399、2003；Frudakisら、J. Forens. Sci. 48(4) 771-782、2003)と呼ばれているが、「集団特異的対立遺伝子」(PSA、Shriverら、Amer. J. Hum. Genet. 60:957-964、1997；Parraら、Amer. J. Hum. Genet. 63:1839-1851、1998))と呼ばれていたものである。

法医学分野内で、特定の個体において最高レベルの祖先(比例的祖先表記法を用いる大部分BGA)を推論するために単純直列型反復(STR)を用いる統計的方法は、大部分BGA所属を推定することに関してかなり強靱でありうる。STR検査は、たいていの場合において大部分祖先起源を効果的に決定することができるが、分類の条件に合わない数(5〜10%)があいまいである。まれな対立遺伝子により引き起こされるサンプリングエラーおよびSTRが集団所属を決定するそれらの能力としてゲノムから選択されなかった(すなわち、STR対立遺伝子頻度示差がこの目的のために必ずしもまた最適にも情報を与えていない)という事実は別にして、高いレベルのあいまいさの主な理由は、混合のためである可能性が高く、それは明らかに、多くのヒト集団についての遺伝的変動の因子である(Parraら、前記、1998、Cavalli-SforzaおよびBodmer、The genetics of human populations (Dover Publications、NY；ページ387-507を参照) 1999；Rosenbergら、前記、2002)。与えられた研究設計について、自己申告された情報を用いようがDNAマーカー検査を用いようが、かつ薬理ゲノム学的問題を解こうとしようが法医学的問題を解こうとしようが、患者を単一の群へ分類することは、繊細な、しかし取るに足らないことではない、集団構造および下位構造に関する情報を犠牲にする；例えば、50%アフリカ人および50%ヨーロッパ人の所属の人を群へ割り振るための許容性がない。残念なことに、個体について一度にたった2つより多い群についてのBGAに関する正確な推論を可能にするためのマーカーおよび方法はまだ記載されていない。このように、BGAを推論するために有用である強靱なマーカーについて、およびそのようなマーカーを同定かつ使用する方法についての必要性が存在している。本発明はこの必要性を満足させ、かつさらなる利点を提供する。

発明の概要
本発明は、個々の集団構造内における、望ましい所定の信頼水準をもつ、本明細書に開示されているように、例えば、個体の祖先、色素形成形質、薬物応答性、および疾患感受性に関して引き出される推論を可能にする測定のための方法および組成物を提供する。例として、本方法および組成物は、法医学立場において用いられ、ルイジアナでの連続殺人/強姦の犯罪現場において得られたDNA試料が調べられた。心理学的プロファイリングに基づき、警察は連続殺人者がカフカス人の男性であるという信念をもち、1,000人を超すカフカス人男性のDNAを検査したが、適合を見出せなかった。そういうわけで、警察は、本発明者らを頼りとし、本発明の組成物および方法を用いて、犯罪を犯した個体がアフリカ系アメリカ人である、およびより具体的には、85%サハラ以南アフリカ人および15%先住アメリカ人の比例的かつ信頼資格のある祖先をもつと決定した。この結果および本明細書に開示された追加の結果に基づいて、平均アフリカ系アメリカ人は20%インドヨーロッパ人祖先をもつこと、インドヨーロッパ人祖先のより大きいレベルがより白い皮膚色調と相関すること、および、それゆえに、犯罪を犯した人は、平均から平均皮膚色調より黒い方までのアフリカ系アメリカ人である可能性が高いことを警察はさらに助言された。この情報に基づき努力の方向を変えての2ヶ月間内に、警察は、平均皮膚色調(アフリカ系アメリカ人として)のアフリカ系アメリカ人を逮捕した；DNA検査は、彼が、DNAが犯罪現場で見出された人であることを決定した。

従って、本発明は、個体の形質を所定の信頼水準を以て推論する方法に関する。そのような方法は、例えば、検査個体の核酸分子を含む試料をハイブリダイズするオリゴヌクレオチドと接触させる段階であって、ハイブリダイズするヌクレオチドは、形質と相関した集団構造を示す少なくとも約10個の祖先情報提供マーカー(AIM)のパネルの一塩基多型(SNP)のヌクレオチド出現を検出することができ、かつその接触段階が、個体のAIMのヌクレオチド出現をハイブリダイズするオリゴヌクレオチドにより検出するのに適した条件下で行われる、段階；および個体におけるAIMのヌクレオチド出現に相関する集団構造を所定の信頼水準を以て同定する段階であって、集団構造は形質と相関する、段階により行われうる。本明細書に開示されているように、少なくとも約10個のAIM(例えば、8個、9個、10個、11個、12個、13個、14個、15個、20個、25個、30個またはそれ以上)のパネルが本発明の方法を実施するにおいて調べられる。一般的に、調べられるAIMの数が多ければ多いほど、本方法を用いてなされる推論の信頼水準が高くなる。

推論が本発明の方法によりなされる形質は、民族的素因が知られているまたは現存すると思われる形質、および民族的素因が現存しないことが知られている、または民族的素因があるかどうかに関して知られていないまたは不明である形質を含む、任意の形質でありうる。一つの態様において、形質は生物地理学的祖先(BGA)である。一つの局面において、BGAを調べるために用いられるAIMのパネルは、配列番号：1〜71に示されるAIMを含む。もう一つの局面において、パネルは、配列番号：7、21、23、27、45、54、59、63および72〜152に；配列番号：3、8、9、11、12、33、40、59、63および153〜239に；または配列番号：1、8、11、21、24、40、172および240〜331に示されるAIMを含み、加えてパネルは、配列番号：1〜331に示されるAIMの組み合わせを含む。本明細書に開示されているように、本発明の方法を実施するのに有用なAIMは、形質に結びつけられる遺伝子(すなわち、形質表現型に関連していることが知られた遺伝子)に連鎖しうるが、必要ではなく、一般的にその遺伝子(または遺伝子座)と連鎖不平衡にはない。例えば、本発明の方法により個体の薬物応答性を推論するのに有用なAIMは、薬物に対する応答性に関連している遺伝子(例えば、シトクロムP450遺伝子またはP-糖タンパク質遺伝子のような薬物代謝遺伝子または薬物輸送遺伝子)に連鎖している必要はない。同様に、本発明の方法により個体の色素形成形質を推論するのに有用なAIMは、色素形成に関連する遺伝子(例えば、チロシナーゼ遺伝子またはメラノコルチン-1受容体遺伝子)に連鎖している必要はない。このように、一つの局面において、パネルの少なくとも1個(例えば、1個、2個、3個、4個または5個)のAIMは、推論がなされることになっている形質に関連している遺伝子に連鎖していない。

BGAが推論がなされることになっている形質である場合、調べられることになっている個体は、例えば、サハラ以南アフリカ人祖先、先住アメリカ人祖先、インドヨーロッパ人祖先、東アジア人祖先、中東人祖先、太平洋諸島系祖先、またはこれらの祖先の1つもしくは複数を含む組み合わせを含む、祖先群のいずれか一つまたは組み合わせを含む祖先をもちうる。それとして、個体の比例的祖先は、1つの祖先(例えば、100%インドヨーロッパ人祖先)、または2つ、3つ、4つもしくはそれ以上の祖先群の任意の割合を含みうる。それとして、検査個体(または既知の比例的祖先の個体)は、例えば、サハラ以南アフリカ人祖先および2つの他の祖先群の割合を含みうる、またはサハラ以南アフリカ人祖先およびインドヨーロッパ人祖先群ならびに第三の祖先；もしくは先住アメリカ人およびインドヨーロッパ人祖先群ならびに第三の祖先；もしくは東アジア人および先住アメリカ人祖先群ならびに第三の祖先；もしくはインドヨーロッパ人および東アジア人祖先群ならびに第三の祖先の割合を含みうる；または先住アメリカ人、東アジア人およびインドヨーロッパ人祖先群、もしくはサハラ以南アフリカ人、先住アメリカ人およびインドヨーロッパ人祖先群などの割合を含みうる。

もう一つの態様において、推論がなされることになっている検査個体の形質は、薬物、特に治療的薬物に対する個体の応答性である。それとして、本発明の方法は、個別化医療を実現するためのツールを提供する。検査個体が積極的にかまたは消極的にかのいずれで応答するかに関して推論がなされうる薬物は、例えば、パクリタキセルのような癌化学療法剤、またはコレステロールレベルを維持するもしくは低下させるのに有用でありうるスタチンのような薬物でありうる。この態様の一つの局面において、本方法を実施するために用いられるAIMのパネルのAIMは、メラニン合成または代謝に関連していることが知られている遺伝子以外の遺伝子のAIMを含む。

さらにもう一つの態様において、推論がなされることになっている検査個体の形質は、疾患に対する個体の感受性または素因である。本明細書に開示されているように、様々な形質が大陸的レベルにおいて集団構造と関連しているが、他の形質は、細かいレベルにおいて集団構造と関連している。それとして、本発明の方法は、民族的素因をもつことが知られている(すなわち、特定の民族/祖先の群の個体においてより高い頻度で発生することが知られている)糖尿病、高血圧症および癌のような疾患について、加えて民族的素因をもたない(または少なくとももつことが知られていない)アルコール中毒、または統合失調症、パーキンソン病および他の神経学的疾患のような疾患についての疾患感受性のような形質に関して推論するための手段を提供することができる。

なおもう一つの態様において、推論がなされることになっている検査個体の形質は、色素形成形質である。色素形成形質は、例えば、目の色もしくは暗度、皮膚の色、髪の色、またはそれらの組み合わせを含む任意のそのような形質でありうる。この態様の一つの局面において、本方法を実施するために用いられるAIMのパネルのAIMは、メラニン合成もしくは代謝、または色素形成の他の局面に関連していることが知られている遺伝子以外の遺伝子のAIMを含む。

個体においてAIMのヌクレオチド出現と相関する集団構造を測定することにより検査個体の形質を推論する方法は、集団構造の下位集団構造を所定の信頼水準を以て同定することをさらに含みうり、下位集団構造は形質と相関している。例えば、個体の集団構造は、推論により個体が祖先を共有する大陸間の群、例えばインドヨーロッパ人、に相関することができ、下位集団構造は、個体がインドヨーロッパ人祖先を共有する大陸内群、例えば地中海人種の民族性、とさらに相関することができる。

本発明の方法において有用なハイブリダイズするオリゴヌクレオチドは、オリゴヌクレオチドプローブまたはオリゴヌクレオチドプライマーでありうる。本方法において有用なオリゴヌクレオチドプローブは、AIMについてのSNP位置を含むヌクレオチド配列にハイブリダイズすることができ、AIMについてのSNPの位置に対応するハイブリダイズするオリゴヌクレオチドの位置におけるヌクレオチドは、SNP位置におけるヌクレオチド出現と整合するかまたは整合しないかのいずれかである。本発明の方法において有用なさらなるオリゴヌクレオチドプローブは、SNP位置に隣接しかつ上流の、および/または隣接しかつ下流のポリヌクレオチド配列にハイブリダイズする、ならびにSNPのヌクレオチド位置に対応するヌクレオチドを含みうるが、必要ではなく、そのような対応するヌクレオチドが、プローブに存在する場合、SNPにおけるヌクレオチド出現と整合しうるが、必要ではない、オリゴヌクレオチドプローブを含む。

本発明の方法において有用なオリゴヌクレオチドプライマーは、プライマー伸長反応に有用なオリゴヌクレオチドプライマー、および併せて、AIMを含む鋳型ポリヌクレオチドの増幅を可能にするオリゴヌクレオチドプライマーを含む。そのような増幅プライマー対は一般的に、対象となるAIMを含む鋳型ポリヌクレオチドの増幅に有用なフォワードプライマーおよびリバースプライマーを含む。しかしながら、2つ、3つ、4つまたはそれ以上の異なるフォワードプライマーは、AIMを含む異なる鋳型ポリヌクレオチド(例えば、多重反応において)および共通の遺伝子配列(例えば、関連遺伝子配列のファミリーのAIM)の増幅のために、または単一の鋳型由来の異なるサイズの増幅産物を作製するために、共通のリバースプライマーと共に用いられうることは、認識されているものと思われる。同様に、1つの共通のフォワードプライマーが、1つまたは複数の異なるリバースプライマーと共に用いられうる。

従って、一つの態様において、本発明の方法は、オリゴヌクレオチドプライマーを用いて行われる。この態様の一つの局面において、方法は、プライマー伸長産物の生成に適した条件下において、試料をオリゴヌクレオチドプライマーと、およびポリメラーゼと接触させることを含む。そのような方法において、SNPのヌクレオチド出現は、プライマー伸長産物の存在を検出することにより、またはプライマー伸長産物(またはそれの産物)をシーケンシングし、SNPの位置に対応する位置におけるヌクレオチドを同定することにより、測定されうる。この態様のもう一つの局面において、方法は、増幅産物の生成に適した条件下において、試料を、増幅プライマー対を含むオリゴヌクレオチドプライマーと、およびポリメラーゼと接触させることを含む。そのような方法において、SNPのヌクレオチド出現は、増幅産物の存在を検出することにより、または増幅産物(またはそれらの産物)をシーケンシングし、SNPの位置に対応する位置におけるヌクレオチドを同定することにより、測定されうる。

本発明の方法は、多重形式においてを含む、高処理量形式において行われることに特に適合性があり、従って、多数のAIMおよび/または多数の検査個体の試料、加えて対照の並行しての検査を可能にする。それとして、方法は、調べられることになっている試料が、例えば、トレイのウェル上またはスライドガラスもしくはシリコンチップ上において、アレイ、特にアドレス指定できるアレイ、に並べられる形式を用いて行われうり、ロボット工学を用いて部分的にまたは完全に自動化されうる。多重プラットフォームが用いられる場合、調べられるAIMは、必ずしも、特定の形質についての最も大きいデルタ値をもつものである必要はなく、例えば、ハイブリダイズするオリゴヌクレオチドが設計されている標的AIM以外のAIMと実質的にクロスハイブリダイズしないということがなければ、AIMのパネルを調べるために単一の反応において用いられうるハイブリダイズするオリゴヌクレオチド(例えば、増幅プライマー対)が設計されうるようにAIMを選択するために、多重セットにおいてデルタ値をプライマーの適合性とバランスがとれるように選択することもできることは、認識されているものと思われる。

本発明はまた、検査個体の少なくとも2つの祖先群の比例的祖先を所定の信頼水準を以て推定する方法に関する。そのような方法は、例えば、検査個体の核酸分子を含む試料を、調べられる各祖先群についてBGAを示す少なくとも約10個のAIMのパネルのSNPのヌクレオチド出現を検出することができるハイブリダイズするオリゴヌクレオチドと接触させる段階であって、接触段階が、ハイブリダイズするオリゴヌクレオチドにより検査個体のAIMのヌクレオチド出現を検出するのに適した条件下においてである、段階；および調べられる祖先群のそれぞれのAIMのヌクレオチド出現と相関する、または、の傾向である可能性が最も高い、集団構造を、所定の信頼水準を以て同定する段階であって、集団構造が比例的祖先を示している、段階により行われうる。

本発明の方法により推定される比例的祖先は、例えば、サハラ以南アフリカ人、先住アメリカ人、インドヨーロッパ人、東アジア人、中東人または太平洋諸島系の祖先群を含む任意の祖先群の割合でありうり、一般的に、そのような祖先群の2つまたはそれ以上の組み合わせである。このように、検査個体の比例的祖先は、サハラ以南アフリカ人およびインドヨーロッパ人祖先群の割合を含みうる(例えば、80%サハラ以南アフリカ人および20%インドヨーロッパ人；または60%サハラ以南アフリカ人、20%インドヨーロッパ人、および20%の第三の祖先群)；または先住アメリカ人およびインドヨーロッパ人祖先群；東アジア人および先住アメリカ人祖先群；インドヨーロッパ人および東アジア人祖先群などの割合を含みうる。同様に、比例的祖先は、先住アメリカ人、東アジア人およびインドヨーロッパ人祖先群；サハラ以南アフリカ人、先住アメリカ人およびインドヨーロッパ人祖先群；サハラ以南アフリカ人、先住アメリカ人および東アジア人祖先群などの割合を含みうる。

個体の比例的祖先を推定するために有用なAIMのパネルは、配列番号：1〜331に示されるAIM、例えば、インドヨーロッパ人、サハラ以南アフリカ人、東アジア人および先住アメリカ人を含む比例的祖先を測定するために有用でありうる配列番号：1〜71に示されるAIM；または東アジア人およびサハラ以南アフリカ人の比例的祖先を測定するために有用でありうる配列番号：7、21、23、27、45、54、59、63および72〜152に；もしくは東アジア人およびインドヨーロッパ人の比例的祖先を測定するために有用でありうる配列番号：3、8、9、11、12、33、40、59、63および153〜239に；もしくはインドヨーロッパ人およびサハラ以南アフリカ人の比例的祖先を測定するために有用でありうる配列番号：1、8、11、21、24、40、172および240〜331に示されるAIM、を含みうる。

一つの態様において、比例的祖先が3つの祖先群の割合を含む、推定値が作成される。この態様の一つの局面において、検査個体のAIMのヌクレオチド出現と相関する、または、の傾向である可能性が最も高い、集団構造を同定することは、サハラ以南アフリカ人祖先群、先住アメリカ人祖先群、インドヨーロッパ人祖先群、および東アジア人祖先群のそれぞれについての所属の尤度決定を行う段階；その後、最も大きい尤度値をもつ3つの祖先群を選択する段階；最も大きい尤度値をもつ3つの祖先群の中ですべての可能な比例的所属の尤度を決定する段階であって、それにより検査個体のAIMのヌクレオチド出現と相関する集団構造または比例的所属が同定される、段階；ならびに最大尤度のたった1つの比例的組み合わせを同定する段階により実施される。

この態様のもう一つの局面において、AIMのヌクレオチド出現と相関する、または、の傾向である可能性が最も高い、集団構造を同定することは、各群のそれぞれの他の群との間での所属についての尤度決定を含む6つの二元比較を行う段階；その後、最も大きい尤度値をもつ3つの祖先群を選択する段階；最も大きい尤度値をもつ3つの祖先群の中でのすべての可能な比例的所属の尤度を決定する段階であって、それにより検査個体のAIMのヌクレオチド出現と相関する、もしくは、の傾向である可能性が最も高い、集団構造または比例的所属が同定される、段階；および最大尤度のたった1つの比例的組み合わせを同定する段階により実施される。

比例的祖先が3つの祖先群を含んでいて、推定値が作成される態様のさらにもう一つの局面において、方法は、群の間での3つの三元比較を行う段階；最も大きい尤度値をもつ3つの祖先群の中でのすべての可能な比例的所属の尤度を決定する段階であって、それにより検査個体のAIMのヌクレオチド出現と相関する、もしくは、の傾向である可能性が最も高い、集団構造または比例的所属が同定される、段階；および最大尤度のたった1つの比例的組み合わせを同定する段階により実施される。この態様のもう一つの局面において、方法は、3つの祖先群の比較のグラフ表示を作成する段階をさらに含みうり、グラフ表示は、各祖先群が三角形の頂点により独立して表されている、三角形を含み、かつ個体についての比例的所属の最大尤度値は、三角形内の点を含む。望ましい場合には、グラフ表示は、比例的祖先を推定することに伴う信頼水準を示す信頼等高線をさらに含みうる。

もう一つの態様において、比例的祖先が4つの祖先群の割合を含む、推定値が作成される。この態様の様々な局面において、検査個体のAIMのヌクレオチド出現と相関する、または、の傾向である可能性が最も高い、集団構造を同定することは、群の間で、6つの二元比較を行う段階、または3つの三元比較を行う段階、または1つの四元比較を行う段階；最も大きい尤度値をもつ4つの祖先群の中でのすべての可能な比例的所属の尤度を決定する段階であって、それにより検査個体のAIMのヌクレオチド出現と相関する、もしくは、の傾向である可能性が最も高い、集団構造または比例的所属が同定される、段階；および最大尤度のたった1つの比例的組み合わせを同定する段階により実施される。この態様の一つの局面において、方法は、3つの祖先群の比較のグラフ表示を作成する段階をさらに含みうり、グラフ表示は、各祖先群がピラミッドの頂点により独立して表されている、ピラミッドを含み、かつ個体についての比例的所属の最大尤度値は、ピラミッド内の点を含む。望ましい場合には、グラフ表示は、その点を中心とした球を含む信頼等高線をさらに含みうり、球は、比例的祖先を推定することに伴う信頼水準を示す。

比例的祖先を示す集団構造を同定することにより検査個体の少なくとも2つの祖先群の比例的祖先を所定の信頼水準を以て推定する方法は、検査個体が比例的祖先を有する祖先群の1つと関連している民族性を示す下位集団構造を同定する段階をさらに含みうる。この方法により、検査個体におけるAIMのヌクレオチド出現と相関する集団構造の下位集団構造が同定され、下位集団構造は、検査個体の民族性と相関している。下位集団構造を同定するそのような方法は、例えば、生物地理学的祖先群(個体は、1つより多い生物地理学的祖先群に比例的に所属している)についての所属を示すAIMを含む検査個体のそれらの染色体を同定する段階、AIMの第二のパネルのSNPのヌクレオチド出現を検出することができる第二のハイブリダイズするオリゴヌクレオチドと、検査個体の核酸分子を含む試料を接触させる段階であって、第二パネルのAIMは、これらの群の1つの内の民族性についての情報を与え、かつその民族性が生じているより大きな(大陸間の)祖先群を示すAIMを含む検査個体の同じ染色体上に存在している、段階；および第二パネルのAIMのヌクレオチド出現と相関する下位集団構造を同定する段階であって、下位集団は検査個体の祖先群の民族性示している、段階により実施されうる。

そのような方法により、AIM(例えば、71個の例証されるAIMのAIM；配列番号：1〜71)の第一パネルに特異的なハイブリダイズするオリゴヌクレオチドを用いて、検査個体は、60%インドヨーロッパ人(IE)および40%東アジア人であると決定されうる。そのような場合、IE祖先群を示しうる全可能AIMの画分のみが陽性であったと思われ(もしすべてが陽性ならば、個体は100%IEであったであろう)、それゆえに、個体染色体または染色体領域の一部のみがインドヨーロッパ起源であると思われる。その後、IEについての陽性AIMを含む個体の染色体が同定され、AIMの第二パネルに特異的な第二のハイブリダイズするオリゴヌクレオチドが選択され(例えば、ヒト染色体のすべての23対を網羅する1000個ほどのAIMの群から)、第二パネルのAIMは、IE民族群の間で対立遺伝子頻度において高く変動し、それゆえに、IE民族性を示し、かつまた、第一パネルAIMがIE陽性であった染色体上に存在しているものに限定される。第二パネルのAIMのヌクレオチド出現に相関する下位集団構造は、その後、同定され、それに従って、検査個体のIE祖先群に関しての民族性、例えば、そのIE祖先群は、北ヨーロッパ、地中海人種、中東または南アジアインドの民族性から由来すること、を示す。それとして、方法は、インドヨーロッパの生物地理学的祖先を示す集団構造と相関するAIMを含み、かつ地中海人種の民族性を示す下位集団構造とより特異的に相関するAIMをさらに含む特定の染色体の民族起源(例えば、インドヨーロッパ起源であることが前に決定された染色体の地中海人種起源)を同定するための手段を提供する。

もう一つの態様において、検査個体の比例的祖先を推定する方法は、世界の祖先地図を作成することを含みうり、検査個体の比例的祖先に対応する比例的祖先をもつ集団の位置が祖先地図上に示される。それとして、方法は、系統情報を補うことができる。例えば、方法は、祖先地図を系統地図でオーバーレイする段階であって、系統地図が検査個体に関して地政学的関連性をもつ集団の位置を示す、段階、および検査個体の家系の最も可能性が高い推定が得られるように祖先地図と系統地図の情報を統計的に結合する段階をさらに含みうる。

本発明の方法により、AIMのヌクレオチド出現と相関する、または、の傾向である可能性が最も高い、集団構造を同定することは、検査個体のAIMのヌクレオチド出現を、BGAを示すAIMのヌクレオチド出現に対応する既知の比例的祖先と比較することにより行われうる。BGAを示すAIMのヌクレオチド出現に対応する既知の比例的祖先は、表もしくは他のリストに含まれうり、検査個体のヌクレオチド出現は、視覚的に表もしくはリストに比較されうる、またはデータベースに含まれうり、比較は、例えば、コンピューターを用いて、電子的になされうる。さらに、BGAを示すAIMのヌクレオチド出現に対応する既知の比例的祖先のそれぞれは、既知の比例的祖先が決定された人の写真と結びつけられ、それに従って、検査個体の身体的特徴をさらに推論する手段を提供しうる。一つの局面において、写真はデジタル写真であり、デジタル写真のそのようなデジタル情報の複数をさらに含みうるデータベースに含まれうるデジタル情報を含み、それぞれは、写真における人のBGAを示すAIMのヌクレオチド出現に対応する既知の比例的祖先と結びつけられる。

もう一つの局面において、本発明の方法は、検査個体の比例的祖先に対応する比例的祖先をもつ人の写真を同定することをさらに含みうる。そのような同定は、写真の1つまたは複数のファイルを手で調べることによりなされうり、写真は、例えば、写真における人のAIMのヌクレオチド出現に従って系統立てられている。写真を同定することはまた、各ファイルが、既知の比例的祖先をもつ人のデジタル写真に対応するデジタル情報を含んでいる、複数のファイルを含むデータベースをスキャンする段階、および検査個体のBGAを示すAIMのヌクレオチド出現に一致するBGAを示すAIMのヌクレオチド出現をもつ人の少なくとも1つの写真を同定する段階により行われうる。

従って、本発明はまた、BGAを示すAIMのヌクレオチド出現を含む集団構造に対応する既知の比例的祖先をもつ1人の少なくとも1枚の写真である1つの製品、および、複数のうちの各品がBGAを示すAIMのヌクレオチド出現を含む集団構造に対応する既知の比例的祖先をもつ1人の1枚(または複数)の写真を含んでいる、複数のそのような品に関する。品は1つのファイルに含まれうる、または複数の品が1つのファイルに含まれうる、例えば、1つのファイルは異なる人の複数の写真を含み、その人達のうちのいくらかまたはすべては、BGAを示すAIMのヌクレオチド出現を含む集団構造に対応する同じまたは異なる既知の比例的祖先をもつ。

従って、複数のそのような品が提供され、複数のファイルも提供されるが、各ファイルが、BGAを示すAIMのヌクレオチド出現を含む集団構造に対応する同じもしくは異なる既知の比例的祖先をもつ1人もしくは複数の人のものでありうる、1つまたは複数の品、すなわち写真、を含みうる。例えば、その複数の異なるファイルはそれぞれ、BGAを示すAIMのヌクレオチド出現を含む集団構造に対応する既知の比例的祖先をもつ1人の1枚(または複数)の写真を含みうる。その複数の異なるファイルはまた、それぞれがBGAを示すAIMのヌクレオチド出現を含む集団構造に対応する同じまたは実質的に同じ比例的祖先をもつ2人またはそれ以上の異なる人の写真を含みうる。それとして、複数のファイルは、それぞれが1人もしくは複数の人の1枚または複数の写真を含み、かつ2人もしくはそれ以上の異なる人の1枚または複数の写真を含む場合、異なる人は同じまたは異なる既知の比例的祖先をもちうる、ファイルを含みうる。

一つの態様において、製品、すなわち、BGAを示すAIMのヌクレオチド出現を含む集団構造に対応する既知の比例的祖先をもつ人の写真、はデジタル情報を含むデジタル写真である。それとして、本発明の、デジタル写真、または複数のデジタル写真の製品のデジタル情報は、データベースに含まれうる。それとして、本発明は、それぞれがデジタル情報を含む少なくとも2つのデジタル写真を含む、複数の製品をさらに提供する。この態様の一つの局面において、品の1つまたは複数についてのデジタル情報は、データベースに含まれ、データベースは、例えば、コンピューターハードウェアもしくはソフトウェア、磁気テープ、またはフロッピーディスク、CDもしくはDVDのようなコンピューターディスクを含む、そのようなデータベースを含むのに適した任意の媒体に含まれうる。それとして、データベースは、その中にデータベースを含むことができる、データベースを含む媒体を受け入れることができる、または有線もしくは無線のネットワーク、例えば、イントラネットもしくはインターネット、を通してデータベースにアクセスすることができる、コンピューターによりアクセスされうる。

本発明はまた、複数のハイブリダイズするオリゴヌクレオチドを含み、それぞれのハイブリダイズするオリゴヌクレオチドが配列番号：1〜331に示されるポリヌクレオチドの少なくとも15個の連続したヌクレオチドを含んでいる、かつその複数がそのようなオリゴヌクレオチドの少なくとも5つを含み、それぞれが配列番号：1〜331に示される異なるポリヌクレオチドに基づいている、キットに関する。一つの態様において、ハイブリダイズするオリゴヌクレオチドは、少なくとも5つの、配列番号：1〜71に示されるポリヌクレオチド、または配列番号：1〜71のいずれかに相補的なポリヌクレオチド、の少なくとも15個の連続したヌクレオチドを含む。

本発明のキットのハイブリダイズするオリゴヌクレオチドは、AIMのSNP位置またはDIP(欠失/挿入多型)位置における特定のヌクレオチド出現を含む、特定のAIMを検出するために有用であるプローブを含みうる；プライマー伸長反応に有用なプライマーおよび核酸増幅反応に有用なプライマー対を含む、プライマーを含みうる；またはそのようなプローブおよびプライマーの組み合わせを含みうる。その複数のうちのハイブリダイズするオリゴヌクレオチドは、AIMのヌクレオチド位置(例えば、配列番号：1〜34およびほとんどの他のもののいずれかのヌクレオチド50位、配列番号：35のヌクレオチド56位、配列番号：50のヌクレオチド44位、または配列番号：56のヌクレオチド26位)またはそれらに相補的なヌクレオチド配列に対応するヌクレオチドを含み、そのようなハイブリダイズするオリゴヌクレオチドは、AIMのSNP位置における特定のヌクレオチド出現の存在または非存在を同定するためのプローブとして有用である。

もう一つの態様において、キットは、AIMのSNP(またはDIP)位置におけるヌクレオチド出現を検出するために有用な少なくとも1対のハイブリダイズするオリゴヌクレオチドを含む。この態様の一つの局面において、1対のハイブリダイズするオリゴヌクレオチドは、AIMのSNP位置に隣接しかつ上流にハイブリダイズする1つのオリゴヌクレオチドおよびAIMのSNP(またはDIP)位置に隣接しかつ下流にハイブリダイズする第二のオリゴヌクレオチドを含み、対の一方または他方は、AIMのSNP(またはDIP)位置にあるのではないかと疑われるヌクレオチド出現(すなわち、多型ヌクレオチドの1つ)に相補的なヌクレオチドをさらに含み、そのような1対のハイブリダイズするオリゴヌクレオチドは、オリゴヌクレオチドライゲーションアッセイ法に有用である。この態様のもう一つの局面において、1対のハイブリダイズするオリゴヌクレオチドは、フォワードプライマーおよびリバースプライマーを含む増幅プライマー対を含み、そのような1対のハイブリダイズするオリゴヌクレオチドは、AIMのSNP(またはDIP)位置を含むポリヌクレオチド部分を増幅するために有用である。

本発明のキットは、本発明の方法を実施するために有用な追加の試薬をさらに含みうる。それとして、キットは、例えば、キットのハイブリダイズするオリゴヌクレオチドまたは対のハイブリダイズするオリゴヌクレオチドが検出するように設計されているAIMを含むポリヌクレオチドを含む、AIMを含む1つまたは複数のポリヌクレオチドを含みうり、そのようなポリヌクレオチドは対照として有用である。さらに、キットのハイブリダイズするオリゴヌクレオチドは、検出可能に標識されうる、またはキットは、ハイブリダイズするオリゴヌクレオチドを異なって標識するために用いられうる異なる検出可能な標識を含む、キットの1つまたは複数のハイブリダイズするオリゴヌクレオチドを検出可能に標識するために有用な試薬を含みうる；そのようなキットは、ハイブリダイズするオリゴヌクレオチドに標識を連結するため、または標識されたオリゴヌクレオチドを検出するためなどの試薬をさらに含みうる。本発明のキットはまた、例えば、特にキットのハイブリダイズするオリゴヌクレオチドがプライマーもしくは増幅プライマー対を含む場合、ポリメラーゼ；またはキットがオリゴヌクレオチドライゲーションアッセイ法に有用なハイブリダイズするオリゴヌクレオチドを含む場合、リガーゼ、を含みうる。さらに、キットは、例えば、キットに含まれる特定のハイブリダイズするオリゴヌクレオチドおよびキットが供給されることになっている目的に依存して、適切な緩衝剤、デオキシリボヌクレオチド三リン酸などを含みうる。

発明の詳細な説明
本発明は、個体の集団構造のレベルを推論する、次には、個体の様々な形質に関する推論を可能にするために有用な祖先情報提供マーカー(AIM)の同定に基づく。さらに、本発明のAIMは、マーカーが、形質と関係していることが知られている遺伝子または遺伝子座との連鎖不平衡にあろうとなかろうとにかかわらず、形質に相関することを実証されている。それとして、形質と連鎖している場合、すなわち、マーカーが、例えば、形質と関係している(または関連している)ことが知られている遺伝子(または遺伝子座)に関して低いクロスオーバーパーセンテージをもつことに特徴があるように形質に関係していることが知られている遺伝子に物理的に近接している場合のみ有用であるとみなされた以前に記載されたマーカーと、本発明のAIMは区別できる。対照的に、本方法において有用なマーカー(AIM)が遺伝子/形質と連鎖不平衡にあるという必要条件はなく、実際、形質に相関しているとして本明細書に開示されたAIMは、お互いと、および形質に関連していることが知られている遺伝子/遺伝子座と、異なる染色体上に位置しうる。

AIMは、集団間の高い頻度差をもつ対立遺伝子を示す遺伝子座である。AIMは、一般的に、一塩基多型(SNP；例えば、配列番号：1を参照)、および欠失/挿入多型(DIP；例えば、配列番号：363を参照)により本明細書に例証されている。本明細書に開示されているように、AIMは、集団レベルにおいて(人種に関して)、下位集団レベルにおいて(民族性に関して)、および微小群レベルにおいて(民族群内の家系に関して)、加えて実践的な、表現型的に認定されるレベルにおいて(例えば、症例および対照)、個体または個体の集合の生物地理学的祖先(BGA)を推定するために用いられうる。下位群および個体レベルにおけるそのような祖先推定は、例えば、個体が特定の薬物に応答する見込みまたは疾患を発生する個体の性向を含む、質的にまたは集団間の頻度において異なる表現型の遺伝的性質に関して直接的に指導的でありうる。祖先推定はまた、これらの形質の根底にある遺伝子を同定するための混合マッピング(AM)方法の使用になくてはならない基礎を提供することができる。

本明細書に例証されているように、71個のAIM(配列番号：1〜71)のパネルは、800個を超える候補AIMの調査から同定され(配列番号：72〜331もまた参照)、これらのAIMを比例的祖先の正確な推定を得るための手段として調査するために方法が開発された。本発明の方法およびマーカーは、モデル表現型として皮膚色素形成を用いる研究において確証された(国際公開公報第02/097047号(PCT/US02/16789)もまた参照されたい、それは参照として本明細書に組み入れられている)。最初のマーカーは、主としてアフリカ人祖先を含む2つの集団サンプル、ワシントンD.C.からのアフリカ系アメリカ人およびイングランドからのアフリカ系カリブ人のサンプルにおいて、ならびにペンシルバニアからのヨーロッパ系アメリカ人のサンプルにおいてジェノタイピングされた(実施例1を参照)。2つのアフリカの集団サンプルにおいて、個体の祖先の推定と反射率測定により測定される場合の皮膚色素形成との間に非常に強い相関が観察された(アフリカ系アメリカ人のサンプルについてR²=0.21、p<0.0001、および英国のアフリカ系カリブ人のサンプルについてR²=0.16、p<0.0001)。これらの相関は、祖先推定の妥当性を確証させ、また、これらの集団を特徴付け、かつ遺伝的構造を同定する他の検査を用いて検出可能である、混合に関連した高レベルの集団構造を示した。これらの結果は、個体の祖先の推定が、比較的少数の十分に定義された遺伝マーカー(AIM)を用いるDNA解析に基づいてなされうることを実証している。

本明細書に開示された方法および遺伝マーカーは、例えば、1)彼らのDNAから個体における祖先割合の推定のため；2)遺伝的調査のために一般に用いられる研究設計の対照としての遺伝的構造の推定のため；3)法医学の調査において意味をもちうる、祖先に関連した特徴の推論による身体的プロフィールの構築のため；4)「祖先連鎖不平衡によるマッピング」(MALD)と呼ばれる、疾患素因の同定のため；および5)処方薬および売薬に対する個々の患者の応答の有意な部分を予測するためを含む、いくつかの別個の目的のためのツールを提供する。それとして、本発明は、例えば、1)個体内の遺伝子配列から祖先の割合の測定のための統計的方法および使用の例；2)個体または研究群内における祖先の割合の測定に有用であるとして、統計的方法を用いて、公的に利用可能な一塩基多型(SNP)データベースから選別かつ同定された数百個のAIM；3)個体または研究群内における祖先の割合の測定に有用であるとして実証された数百個のAIM；および4)個体または研究群内における祖先の割合の決定のために用いられうるソフトウェアプログラムを提供する。

以前には、特定の形質に関連した遺伝子のマーカーを同定する試みを混乱させると考えられていた、サンプリング効果および自然のヒト人口統計学を含む、集団構造の2つの源を制御するために努力がなされた。しかしながら、本明細書に開示されているように、集団構造は、ヒト人口統計学を反映し、形質値と相関するマーカーは、形質値と相関する構造のレポーターとして有用であり(表現型活性遺伝子座についてのLDにおけるマーカーよりむしろ)、それゆえに、費用効果が高くかつ実践的な様式で正確な分類を可能にする価値のあるツールを提供する。集団構造による形質と関連した対立遺伝子は、表現型活性遺伝子座に連鎖しておらず、それらが、形質値がよりありふれている人類系図の分派に濃縮されているため、単に形質値と相関しているにすぎない。本明細書に開示されているように、人類系図の様々な分派の間での形質値の分布は、正確な分類が、形質の生物学的機構の完全な理解よりむしろ、その構造の正しい認識によるだけで得られうるようなことであり、結果として、表現型活性遺伝子座を同定するための使用に関して考えられた場合、偽陽性とみなされたマーカーが、実際には、正確な分類解析を可能にすることができる；すなわち、それらが由来した構造がサンプリング効果よりむしろヒト人口統計学の反映であるとの条件で、それらは真の陽性である。本方法は、マーカーとBGAの間の相関に基づいており、BGAは、それ自身、形質値と相関した複雑性の相当なレベルにあり、連鎖または連鎖不平衡ではない。

従って、本発明は、所定の信頼水準を以て、個体の形質を推論する方法を提供する。一つの態様において、本発明の方法は、検査個体の核酸分子試料を、少なくとも約10個のAIMのパネルの一塩基多型(SNP)のヌクレオチド出現を検出することができるハイブリダイズするオリゴヌクレオチドと接触させる段階；および個体におけるAIMのヌクレオチド出現と相関する、または、の傾向である可能性が最も高い、集団構造を、所定の信頼水準を以て同定する段階であって、集団構造が形質と相関している、段階により行われる。AIMのパネルは、それらのデルタ値(下記参照)において、および関連性のあるところでは、方法を行うために用いられる特定のプラットフォームに基づいて選択され、形質に相関した集団構造を示す。AIMは、配列番号：1〜331として示されるポリヌクレオチドにより本明細書に例示され、SNP位置は、一般的に、ヌクレオチド50位にある(しかし、例えば、配列番号：35、ヌクレオチド56位；配列番号：51、48位；配列番号：56、26位を参照されたい)。

形質が推論されることになっている検査個体は、形質を推論することが望ましい任意の個体でありうり、一般的にヒトである。しかしながら、本発明の方法はまた、例えば、ネコ、イヌもしくはウマのような家畜；ウシ、ヒツジ、ブタもしくはヤギのような農業用家畜；または他の動物を含む、他の哺乳動物の形質を推論するために用いられうる。調べられうる形質は、本明細書に例証されているように、比例的祖先(BGA)；髪、皮膚もしくは虹彩の色素形成；または薬物応答性を含む、対象となる任意の形質でありうる。

本発明の方法は、所定の信頼水準を以て所望の形質について推論がなされるのを可能にするため、特に有用である。本明細書に用いられる場合、「所定の信頼水準」への言及は、本発明の推論または推定が、平均または最大尤度値について決定される信頼区間を与える統計的方法を用いてなされることを意味する。個体内またはサンプル構造内の最大尤度値を決定することに加えて、他の同様に可能性が高い値もまた決定されうり、これらはx倍尤度信頼区間(xは2、5または10のような任意の数である)を定義するように組み合わせられうる。例えば、最大尤度値より10倍低い尤度値に対応するすべての構造結果は、10倍尤度信頼区間を定義するようにプロットまたはリストされうる。任意の統計的検定に関するかぎりでは、本発明のアッセイ法は、検定の実行が結果として、所望の信頼水準をもつ値を生じるように設計される。本明細書に開示されているように、本発明の方法は、結果が、形質に関して調べられるAIMの数を変えることにより、所定の信頼水準をもつように行われうる。例えば、10個のAIMのある特定のパネルの使用は、個体がある特定の信頼水準を以て特定の形質、例えばLipitor(商標)に対する応答性、をもつかどうかに関して推論がなされるのを可能にするが、10個のAIMのパネルと部分的に、必要ではないが、重複していることができる20個のAIMのパネルの使用は、同じ推論であるが、より高い信頼水準を以てなされるのを可能にする。同様に、各10個のAIMの2つのパネルの使用は、個体が、例えば、80%インドヨーロッパ人祖先および20%東アジア人祖先(誤差、例えば±10%を以て)をもつと推論がなされるのを可能にしうるが、各20個のAIMの2つのパネルの使用は、同じ推論であるが、例えば±5%の、誤差を以て可能になりうる。

本発明の方法を実施するために有用な試料は、調べられることになっているAIMを含む遺伝子配列の部分を含む、核酸分子を含む検査個体の任意の生物学的試料、またはAIMの多型が結果としてコードされたポリペプチドにおけるアミノ酸変化を生じている、そのコードされたポリペプチドを含む任意の生物学的試料でありうる。それとして、試料は、細胞、組織もしくは器官試料でありうる、または精液、唾液、血液、髄液などのような生物学的液体の試料でありうる。

本発明の方法を実施するために有用な核酸試料は、同定されるべきSNPが、コード領域にあるのかまたは非コード領域にあるのかに、一部、依存するものである。1つまたは複数のSNPが遺伝子の非コード領域に存在するところにおいて、核酸試料は一般的に、デオキシリボ核酸(DNA)試料、特にゲノムDNAまたはそれらの増幅産物である。しかしながら、AIMが転写された配列、例えば、rDNA、マイクロサテライトDNA、または非コードRNA配列を含むスプライシングされていないmRNA前駆体RNA分子を含む異核のリボ核酸(RNA)、の内に含まれるところにおいて、RNA試料は、直接的に用いて調べられうる、またはcDNAもしくはその増幅産物は、本方法により調べられうる。1つまたは複数のSNPは遺伝子のコード領域に存在しているところにおいて、核酸試料はDNAもしくはRNA、またはそれら由来の産物、例えば、増幅産物、でありうる。さらになお、本発明の方法は、核酸試料に関して例証されているが、特定のSNPが、遺伝子のコード領域に存在している場合、結果として、非縮重のコドン変化によるSNPに対応する位置における異なるアミノ酸を含むポリペプチドを生じうることは、認識されているものと思われる。それとして、一つの局面において、本発明の方法は、対象のポリペプチドを含む試料を用いて実施される。

本発明の方法は、試料を接触させる段階、およびハイブリダイズするオリゴヌクレオチドにより個体のAIMのヌクレオチド出現を検出するのに適した条件下でオリゴヌクレオチドをハイブリダイズさせる段階により行われる。さらに、本発明の方法の局面において、試料は、第二のハイブリダイズするオリゴヌクレオチドに、例えば、下位構造構造を測定するために、接触させられうる。用語「第二の」とは、ハイブリダイズするオリゴヌクレオチド(またはAIMのパネル)に関して用いられる場合、例えば、方法を行うための段階の、明瞭な区別を可能にするように考察の便宜上、用いられることは、認識されるべきである。この点で、例えば集団構造を測定するために用いられる1つまたは複数のハイブリダイズするオリゴヌクレオチドはまた、第二のハイブリダイズするオリゴヌクレオチドの中に含まれうることは、さらに認識されるべきである。

AIMのヌクレオチド出現を検出するために適した条件は、長さおよび相補性を含むハイブリダイズするオリゴヌクレオチドの配列に、加えて用いられることになっている特定のアッセイ法、および、例えば、アッセイ法が多重アッセイ法として行われることになっているかどうかに依存して変わるものである。少なくとも15ヌクレオチド長であるハイブリダイズするオリゴヌクレオチドは、ホスホジエステル結合により共に連結されるデオキシリボヌクレオチドまたはリボヌクレオチドを含みうり、それらは一般的に一本鎖型で用いられるが、一本鎖または二本鎖でありうる。そのようなハイブリダイズするオリゴヌクレオチドは、化学合成の方法を用いて、またはポリメラーゼ連鎖反応(PCR)のような酵素的方法により、調製されうる。

方法において有用な、もしくは本発明のキットに含まれる、ハイブリダイズするオリゴヌクレオチドまたは他のポリヌクレオチドはまた、ヌクレオシドまたはヌクレオチド類似体を含みうり、ホスホジエステル結合以外のバックボーン結合をもちうり、そのようなオリゴヌクレオチドは、増加した安定性またはより望ましいハイブリダイゼーション性質をもつような特定の利点を与える。ヌクレオチド類似体は当技術分野においてよく知られており、そのようなヌクレオチド類似体を含むポリヌクレオチドであるが、商業的に入手可能である(Linら、Nucl. Acids Res. 22:5220-5234、1994；Jellinekら、Biochemistry 34:11363-11372、1995；Pagratisら、Nature Biotechnol. 15:68-73、1997、それぞれは参照として本明細書に組み入れられている)。共有結合はまた、チオジエステル結合、ホスホロチオエート結合、ペプチド様結合、または合成オリゴヌクレオチドを作製するためにヌクレオチドを連結するのに有用として当業者に公知の任意の他の結合を含む、多数の他の結合のいずれかでありうる(例えば、Tamら、Nucl. Acids Res. 22:977-986、1994；EckerおよびCrooke、BioTechnology 13:351-360、1995、それぞれは参照として本明細書に組み入れられている)。天然に存在しないヌクレオチド類似体またはヌクレオチドもしくは類似体を連結する結合は、修飾されたオリゴヌクレオチドが分解に対して感受性がより低くありうるため、例えば、組織培養培地または細胞抽出物を含む試料を含む、核酸分解性活性を含みうる環境にオリゴヌクレオチドが曝されることになっているところにおいて、特に有用でありうる。

一般的に、本発明の目的に有用なハイブリダイズするオリゴヌクレオチドは、オリゴヌクレオチドがAIMを含む標的ポリヌクレオチドに選択的にハイブリダイズすることを可能にするのに十分である、少なくとも約15塩基長であり、少なくとも約18ヌクレオチド長、または21ヌクレオチド長または25ヌクレオチド長またはそれ以上でありうる。用語「選択的ハイブリダイゼーション」または「選択的にハイブリダイズする」とは、関連したヌクレオチド配列を関連していないヌクレオチド配列から区別することができる、中位にストリンジェントな、または高くストリンジェントな生理学的条件下におけるハイブリダイゼーションを指す。核酸ハイブリダイゼーション反応において、ストリンジェント性の特定のレベルを達成するために用いられる条件は、例えば、長さ、相補性の程度、ヌクレオチド配列構成要素(例えば、相対的GC：AT含有量)、および核酸の型、すなわち、オリゴヌクレオチドまたは標的核酸配列はDNAであるかRNAであるか、を含む、ハイブリダイズされることになっている核酸の性質に依存して変わることは知られている。追加の考慮すべきことは、核酸の1つは、例えば、フィルター、ビーズ、チップまたは他の固体マトリックス上に固定化されているかどうかである。

適切なストリンジェント性条件を選択するための方法は、経験的に決定されうるまたは様々な式を用いて推定されうり、当技術分野においてよく知られている(例えば、Sambrookら、前記、1989を参照)。段々に高くなるストリンジェント性条件の例は以下のとおりである：約室温において2X SSC/0.1% SDS(ハイブリダイゼーション条件)；約室温において0.1 % SDS(低ストリンジェント性条件)；約42℃において0.2X SSC/0.1% SDS(中位ストリンジェント性条件)；および約68℃において0.1X SSC(高ストリンジェント性条件)。洗浄は、これらの条件の1つだけ、例えば高ストリンジェント性条件、を用いて行われうる、または、例えば、各10〜15分間、上で列挙された順に、列挙された段階のいずれかまたはすべてを繰り返して、各条件が用いられうる。それとして、最終的条件は、含まれる特定のハイブリダイゼーション反応に依存して変わるものであり、経験的に決定されうる。様々な条件が選択的ハイブリダイゼーション条件を与えるように利用されうることは、認識されるべきである。例えば、多重アッセイ法が、パネルの異なるAIMに特異的な複数の異なるハイブリダイズするオリゴヌクレオチドを用いて行われることになっている場合、条件(および、AIM/ハイブリダイズするオリゴヌクレオチド)は、選択的ハイブリダイゼーションが反応においてすべてのハイブリダイズするオリゴヌクレオチドについて起こるように選択されうる。

様々な態様において、ポリヌクレオチドまたはハイブリダイズするオリゴヌクレオチドを検出可能に標識することが有用でありうる。ポリヌクレオチドの検出可能な標識化は、当技術分野においてよく知られており、例えば、化学ルミネセンス標識、放射性核種、酵素、ジゴキシゲニンおよびビオチンのようなハプテン、フルオロフォア、ならびに固有のオリゴヌクレオチド配列のような検出可能な標識の使用を含む。例えば、PCR産物が行われうるが、一方のプライマーがビオチン化され、かつ他方のプライマーがジゴキシゲニンを含んでいる。その後、増幅産物は、ストレプトアビジンプレートに結合され、洗浄され、ジゴキシゲニンへの酵素結合型抗体と反応させられ、酵素についての色素生産の、蛍光発生のまたは化学ルミネセンスの基質で発色させられうる。または、放射性方法が、例えば、放射性標識されたデオキシヌクレオシド三リン酸を増幅反応へ含め、その後、増幅産物を検出のためにDEAEペーパー上へブロットすることにより、生成された増幅産物を検出するために用いられうる。さらに、1つのプライマーがビオチン化されている場合には、ストレプトアビジンコーティング化シンチレーション近接アッセイプレートがPCR産物を測定するために用いられうる。追加の検出方法は、化学ルミネセンス標識、例えば、DELFIA(登録商標)(Pall Corp.)に用いられるようなランタニドキレート、蛍光標識、またはルテニウムトリスビピリジル(ORI-GEN)のような電気化学ルミネセンス標識を用いうる。

AIMのSNPまたはDIP位置におけるヌクレオチド出現を検出するための方法は、AIMに及ぶ標的ポリヌクレオチドに選択的にハイブリダイズする、例えば、増幅プライマー対を含む、1つまたは複数のオリゴヌクレオチドプローブまたはプライマーを利用することができる。本発明の方法を実施するにおいて有用なオリゴヌクレオチドプローブは、例えば、SNP(またはDIP)の位置を含む標的ポリヌクレオチドの部分に相補的であり、かつ及ぶオリゴヌクレオチドを含みうり、SNPの位置における特定のヌクレオチドの存在が、プローブの選択的ハイブリダイゼーションの存在または非存在により検出される。そのような方法は、標的ポリヌクレオチドおよびハイブリダイズされたオリゴヌクレオチドをエンドヌクレアーゼに接触させる段階、ならびにSNP部位におけるヌクレオチド出現がプローブの対応するヌクレオチドと相補的であるかどうかに依存する、プローブの切断生成物の存在または非存在を検出する段階をさらに含みうる。SNPの部位に近接しかつ上流、および近接しかつ下流に特異的にハイブリダイズする1対のプローブであって、プローブの1つがSNPのヌクレオチド出現に相補的なヌクレオチドを含んでいる、1対のプローブはまた、オリゴヌクレオチドライゲーションアッセイ法に用いられうり、ライゲーション産物の存在または非存在がSNP部位におけるヌクレオチド出現を示す。オリゴヌクレオチドはまた、プライマー、例えばプライマー伸長反応のための、として有用でありうり、伸長反応の産物(または産物の非存在)がヌクレオチド出現を示す。さらに、SNPまたはDIP部位を含む標的ポリヌクレオチドの部分を増幅するために有用なプライマー対が有用でありうり、増幅産物は、SNP部位におけるヌクレオチド出現を測定するために、またはDIP部位において挿入もしくは欠失があるかどうかを測定するために調べられる。

ポリヌクレオチドでの特定の位置における(すなわち、SNPまたはDIPの)、ヌクレオチド出現を測定するために多数の方法が知られている。そのような方法は、例えば、1つまたは複数のSNP位置を含む標的ポリヌクレオチドに選択的にハイブリダイズする、例えば、増幅プライマー対を含む、1つまたは複数のオリゴヌクレオチドプローブまたはプライマーを利用することができる。本発明の方法を実施するにおいて有用なハイブリダイズするオリゴヌクレオチドは、例えば、SNPまたはDIP(DIPが欠失または挿入をもつかどうかを含む)の位置を含む標的ポリヌクレオチドの部分に相補的でありかつ及ぶオリゴヌクレオチドを含みうり、SNP部位における特定のヌクレオチドの存在、またはDIP部位における欠失もしくは挿入の存在が、オリゴヌクレオチドプローブの選択的ハイブリダイゼーションの存在または非存在により検出される。そのような方法は、標的ポリヌクレオチドおよびハイブリダイズされたオリゴヌクレオチドをエンドヌクレアーゼに接触させる段階、ならびにSNP部位におけるヌクレオチド出現がプローブの対応するヌクレオチドと相補的であるかどうかに依存する、プローブの切断生成物の存在または非存在を検出する段階をさらに含みうる。

オリゴヌクレオチドライゲーションアッセイ法はまた、SNP部位におけるヌクレオチド出現を同定するために用いられうり、1対のプローブは、SNPの部位に近接しかつ上流、および近接しかつ下流を選択的にハイブリダイズし、かつプローブの1つは、SNPのヌクレオチド出現に相補的な末端ヌクレオチドを含む。プローブの末端ヌクレオチドがヌクレオチド出現に相補的であるところにおいて、選択的ハイブリダイゼーションは、リガーゼの存在下において、上流および下流オリゴヌクレオチドがライゲーションされるように、末端ヌクレオチドを含む。それとして、ライゲーション産物の存在または非存在は、SNP部位におけるヌクレオチド出現を示す。

ハイブリダイズするオリゴヌクレオチドはまた、プライマー、例えばプライマー伸長反応のための、として有用でありうり、伸長反応の産物(または産物の非存在)が、SNP部位におけるヌクレオチド出現またはDIP部位における挿入もしくは欠失を示す。さらに、SNPまたはDIP部位を含む標的ポリヌクレオチドの部分を増幅するために有用なプライマー対が有用でありうり、増幅産物は、SNP部位におけるヌクレオチド出現またはDIP部位における欠失もしくは挿入の存在を測定するために調べられる。特に有用な方法は、高処理量形式に、多重形式に、または両方に容易に適応させうるものを含む。

増幅反応が行われることになっている試料において増幅産物の生成を可能にする条件は、反応が、生じうる増幅反応に必要な構成要素を含むようなことである。そのような条件は、例えば、適切な緩衝能力およびpH、塩濃度、特定のポリメラーゼに必要である場合には金属イオン濃度、プライマーまたはプライマー対の鋳型標的ポリヌクレオチドへの選択的ハイブリダイゼーションを可能にする適切な温度、加えて、ポリメラーゼ活性、および鋳型からまたは、関連性のあるところにおいては、ステム-ループ構造のような二次構造を形成していることからの、プライマーまたはプライマー伸長もしくは増幅産物の融解を可能にする温度の適切なサイクリングを含む。そのような条件およびそのような条件を選択するための方法は、日常的であり、当技術分野においてよく知られている(例えば、Innisら、「PCR Strategies」(Academic Press 1995)；Ausubelら、「Short Protocols in Molecular Biology」、第4版(John Wiley and Sons、1999)、それぞれは参照として本明細書に組み入れられている)。

プライマー伸長または増幅産物は、直接的もしくは間接的に検出されうる、および/または当技術分野において公知の様々な方法を用いてシーケンシングされうる。SNP部位に及ぶ増幅産物は、SNP遺伝子座におけるヌクレオチド出現を測定するために、例えば、ジデオキシ媒介型鎖終結法(dideoxy-mediated chain termination method)(Sangerら、J. Molec. Biol. 94:441、1975；Proberら、Science 238:336-340、1987)または化学分解法(Maxamら、Proc. Natl. Acad. Sci. USA 74:560、1977)を含む、伝統的な配列方法体系を用いてシーケンシングされうる。

SNP部位におけるヌクレオチド出現はまた、マイクロシーケンシング方法を用いて測定されうり、たった1つのヌクレオチドの同定が所定の部位において測定される(米国特許第6,294,336号)。マイクロシーケンシング方法はGenetic Bit Analysis方法を含む(国際公開公報第92/15712号)。DNAにおいて多型部位をアッセイするための追加の、プライマー先導のヌクレオチド取り込み方法もまた記載されている(Komherら、Nucl. Acids. Res. 17:7779-7784、1989；Sokolov、Nucl. Acids Res. 18:3671、1990；Syvanenら、Genomics 8:684-692、1990；Prezanら、Hum. Mutat. 1:159-164、1992；Nyrenら、Anal. Biochem. 208:171-175、1993)。これらの方法は、Genetic Bit(商標)とは異なる。それらはすべて、多型部位における塩基間を識別するために、標識デオキシリボヌクレオチドの取り込みに頼るということにおいての分析。そのような形式において、シグナルは取り込まれたデオキシリボヌクレオチドの数に比例し、同じヌクレオチドのひと続きに起こる多型は、そのひと続きの長さに比例したシグナルを生じる(Syvanenら、Amer. J. Hum. Genet. 52:46-59、1993)。

SNP位置におけるヌクレオチド出現を測定するためのもう一つの方法は、Maceviczにより記載されており(米国特許第5,002,867号)、核酸配列は、オリゴヌクレオチドプローブの複数の混合物でのハイブリダイゼーションにより測定される。そのような方法に従って、標的ポリヌクレオチドの配列は、1つの位置において不変のヌクレオチド、および他の位置において異なるヌクレオチドを有するプローブのセットに標的が逐次的にハイブリダイズすることを可能にすることにより決定される。ヌクレオチド配列は、標的を1セットのプローブにハイブリダイズさせ、その後、そのセットの少なくとも1つのメンバーが標的にハイブリダイズすることができる部位の数(すなわち、マッチしたものの数)を測定することにより決定される。この工程は、セットのプローブの各メンバーが試験されてしまうまで繰り返される。米国特許第6,294,336号は、SNPが標的に選択的に結合した最も3'側のヌクレオチドである、部位においてポリヌクレオチド標的を選択的に結合するプライマーを利用することにより、核酸分子(DNAまたはRNAのいずれか)の配列を測定するための固相シーケンシング法を提供している。

試料におけるSNPのヌクレオチド出現はまた、SNP-IT(商標)法(Orchid BioSciences, Inc.、プリンストン、NJ)を用いて測定されうる。一般的に、SNP-IT(商標)は、3段階プライマー伸長反応である。第一段階において、標的ポリヌクレオチドは、捕獲プライマーへのハイブリダイゼーションにより試料から単離され、特異性の第一レベルを与える。第二段階において、捕獲プライマーは、標的SNP部位における終結しているヌクレオチド三リン酸から伸長され、特異性の第二レベルを与える。第三段階において、伸長されたヌクレオチド三リン酸は、以下のものを含む、様々な公知の形式を用いて検出されうる：直接蛍光法、間接蛍光法、間接比色アッセイ法、質量分析法、蛍光偏光法など。反応は、SNPstream(商標)装置(Orchid BioSciences, Inc.、プリンストン、NJ)を用いて、384ウェル形式で自動化形式において処理されうる。相既知データは、SNPstream(商標)装置からの相未知生データをStephens and Donnelly's PHASEプログラムへインプットすることにより作成されうる。

SNPの融解曲線分析(McSNP(登録商標)分析)は、AIMにおけるヌクレオチド出現を検出するためのもう一つの方法を提供する(Akeyら、前記、2001)。McSNP(登録商標)分析は、ゲル電気泳動の段階を必要とせず、従って、SNPを検出するための時間および費用を最小限にする、ならびに高処理量形式に容易に適応させることができ、従って、1つもしくは複数のAIMのパネルおよび/または試料の並行しての検査を可能にするという追加の利点を提供する。

SNPの特定のヌクレオチド出現が、ヌクレオチド出現が結果としてコードされたポリペプチドにおけるアミノ酸変化を生じるようなものであるところにおいて、ヌクレオチド出現は、ポリペプチドにおいて特定のアミノ酸を検出することにより間接的に同定されうる。アミノ酸を測定するための方法は、例えば、ポリペプチドの構造に、またはポリペプチドにおけるアミノ酸の位置に依存する。ポリペプチドが特定のSNPによりコードされるアミノ酸の単一の出現のみを含むところにおいて、ポリペプチドは、そのアミノ酸の存在または非存在について調べられうる。例えば、アミノ酸が、ポリペプチドのアミノ末端もしくはカルボキシ末端に、または近くに、あるところにおいて、末端アミノ酸の簡単なシーケンシングが行われうる。または、ポリペプチドは、1つまたは複数の酵素で処理されうり、対象となるアミノ酸位置を含むペプチド断片が、例えば、ペプチドをシーケンシングすることにより、または電気泳動後にペプチドの特定の移動を検出することにより、調べられうる。特定のアミノ酸がポリペプチドのエピトープを含むところにおいて、エピトープに特異的な抗体の特異的な結合、またはその非存在が検出されうる。ポリペプチドまたはそのペプチド断片において特定のアミノ酸を検出するための他の方法は、よく知られており、例えば、質量分析計、キャピラリー電気泳動システム、磁気共鳴画像装置などのような装置の便利さまたは有効性に基づいて選択されうる。

もう一つの態様において、本発明の方法は、例えば、SNPの1つのヌクレオチド出現を含むヌクレオチド配列によりコードされるアミノ酸を含むポリペプチドに特異的に結合するが、そのSNPを含むコドンによりコードされる異なるアミノ酸を含むポリペプチドに実質的に結合しない；または、例えば、DIPの1つの型(例えば、挿入をもつ)によりコードされるアミノ酸配列を含むポリペプチドに特異的に結合するが、代替の型(例えば、欠失をもつ)によりコードされるものに実質的に結合しない、抗体またはその抗原結合断片を利用する。本明細書に用いられる場合、用語「特異的な相互作用」または「特異的に結合する」とは、2つの分子が、生理的条件下において比較的安定である複合体を形成することを意味する。その用語は、例えば、SNPが特定された、しかし代替ではない、ヌクレオチド出現(例えば、A、しかしTではない)をもつ場合のみ、SNP部位を含む標的ポリヌクレオチドを結合する抗体の相互作用；またはSNP部位を含むコドンによりコードされる1つのアミノ酸を含むポリペプチドを結合するが、そのSNPを含むコドンによりコードされる代替のアミノ酸を有するポリペプチドを結合しない抗体の相互作用を含む、様々な相互作用を指すために本明細書に用いられる。

特異的な相互作用は、少なくとも約1 x 10^-6 M、一般的に少なくとも約1 x 10^-7 M、通常少なくとも約1 x 10^-8 M、および特に少なくとも約1 x 10^-9 Mまたは1 x 10^-10 Mまたはそれ以上の解離定数により特徴付けられうる。特異的な相互作用は一般的に、例えば、ヒトもしくは他の脊椎動物または無脊椎動物のような生きている個体に生じている条件、加えて哺乳動物細胞または別の脊椎動物生物体もしくは無脊椎動物生物体由来の細胞を維持するために用いられるような細胞培養において生じている条件を含む、生理的条件下において安定である。2つの分子が特異的に相互作用しているかどうかを測定するための方法は、よく知られており、例えば、平衡透析法、表面プラスモン共鳴などを含む。

本発明の方法において有用な抗体は、AIMを含むポリヌクレオチドを特異的に結合する、またはSNPを含むコドンによりコードされるアミノ酸を含むもしくはDIP部位における挿入によるアミノ酸を含むポリペプチドを結合する、抗体を含む。そのような抗体は、SNP遺伝子座を含むコドンによりコードされる第一アミノ酸を含むポリペプチドを特異的に結合するが、SNPにおいて異なるヌクレオチド出現を含むコドンによりコードされる第二アミノ酸を含むポリペプチドを結合しない、または測定可能により弱く結合するように選択される。

用語「抗体」は、抗原を特異的に結合する免疫グロブリン分子および免疫グロブリン分子の抗原結合部分を指すために本明細書に広く用いられる。それとして、本発明の方法において有用な抗体は、ポリクローナル、モノクローナル、多特異的な、ヒト、ヒト化またはキメラの抗体、単鎖抗体、Fab断片、F(ab')断片、Fab発現ライブラリーにより作製される断片、抗イディオタイプ(抗Id)抗体など、加えてそのような抗体の抗原/エピトープ結合断片でありうる。抗体の抗原結合断片は、限定されるものではないが、Fab、Fab'およびF(ab')2、Fd、単鎖Fv(scFv)、単鎖抗体、ジスルフィド結合Fv断片(sdFv)およびVLまたはVHドメインのいずれかを含む断片を含む。このように、単鎖抗体を含む抗原結合抗体断片は、可変領域を単独で、またはヒンジ領域、CH1、CH2および/もしくはCH3ドメインの全体または部分と組み合わせて、含まれうる。抗体は、鳥および哺乳動物を含む任意の動物起源由来でありうる、または、例えば、昆虫もしくは哺乳動物の宿主細胞において、または植物において組換えで発現されうる。

多数の科学的分野において遺伝マーカーの使用を通して今日、学ばれうることは多い。遺伝子配列の使用は、法医学および疾患研究にとって日常的になったが、最近完成されたヒトゲノムプロジェクトからの恩恵の大部分は、まだ発見を待ち設けている。ゲノムの内には、作物収穫量を増加させること、ヒト寿命を延ばすこと、薬物により引き起こされる苦痛を最小限にすること、およびより良い、より効果的かつ特異的な治療を通して我々の生活の質を向上させることを含む様々な目的のために有用であると証明されるであろう、配列および配列のパターンが存在する。今まで、生物医学的研究は、比較的単純な項において行われた。それにもかかわらず、1千より多い単純なメンデル形質が、家族において遺伝マーカーの伝達をたどることによりマッピングされた。

伝統的な家系に基づく連鎖解析、分散成分方法、同胞対連鎖、測定遺伝子型、伝達不平衡、ゲノム制御および構造解析を含む、多くの統計的方法が遺伝的形質を研究するために利用可能である。ありふれた疾患(例えば、心疾患、肥満、2型糖尿病、高血圧症および癌)に対する感受性における変動の根底にある遺伝子のいくつかは、結局、遺伝的アプローチを用いて同定されるであろう。しかしながら、あるふれた疾患における遺伝的研究において、これらの状態の多くが多因子性(すなわち、リスクにおける変動性のいくつかの原因をもつ)および多遺伝子性(すなわち、いくつかの遺伝子間の作用および相互作用による結果)であるため、多数の複雑さがある。ありふれた疾患の研究におけるさらなる困難は、症状の遅発性および病因における不均一性から由来しうる。このように、複合性疾患に関与する遺伝子を同定することは、ヒト遺伝学の分野において最高の難題の一つのままである。

ありふれた疾患および薬物応答遺伝子をマッピングするための有用なアプローチとして関連解析に関心が高まった(RischおよびMerikangas、Science 273:1516-1517、1996；Jorde、Genome Res. 10:1435-1444、2000；NordborgおよびTavare、Trends Genet. 18:83-90、2002)。しかしながら、本開示まで、これらの遺伝子を同定することに対する祖先の意味は完全には認識されていなかった。それとして、本発明の方法は、疾患感受性および薬物応答性に関連した遺伝子の同定のために、加えて進歩した法医学的方法の開発のために、以前には記載されていないプラットフォームを提供する。それとして、顕著に、個体の祖先の機能である、一般に用いられる薬物に対する個体の応答を推論するための組成物および方法が提供される；開示されたマーカーおよび方法は、各薬物についての異なる程度まで、そのような応答の推論に有用である。さらに、個体のもしくは群のDNA配列の知識から個体および/または群の祖先の割合を推論するための組成物および方法が提供される。なおさらに、MALD過程により疾患感受性および薬物応答遺伝子を同定するために祖先関連性DNA配列の知識を用いるための組成物および方法が提供される。また、疾患遺伝子をマッピングする、より伝統的な方法についての研究群を認定および標準化するための組成物および方法が提供される。これらの過程のそれぞれは、本明細書に開示された方法および組成物を用いて測定されうる祖先の正確な知識を必要とする。

連鎖不平衡(LD)マッピングに最高に適していると思われる集団は、多くの議論および討論を促した(Wrightら、Nat. Genet. 23:397-404、1999；Eavesら、Nat. Genet 25:320-323、2000；NordborgおよびTavare、前記、2002；Kaessmannら、Amer. J. Hum. Genet. 70:673-685、2002)。LDの程度は、突然変異、組換えおよび遺伝子変換の率、人口統計的および淘汰的事象、ならびに突然変異自身の年数のような多数の遺伝的および進化的因子の複雑な関数である。これらの因子のあるものは、ゲノム全体に影響を及ぼすが、他のものは特定のゲノム領域に影響を及ぼすのみである。さらに、ゲノムを通じての突然変異、組換えおよび遺伝子変換の率における変動は、ゲノム領域間にLD差を引き起こすと予想される(例えば、Taillon-Millerら、Nat. Genet. 25:324-328、2000)。

小さな、隔離された、同系交配の集団が、より低い不均一性およびより大きい程度の連鎖不平衡により、他の集団を凌ぐ利点をもつであろうと提案されていた(Wrightら、前記、1999；NordborgおよびTavare、前記、2002；Kaessmannら、前記、2002)。マッピングによく適した他の集団は、最近混合された集団(例えば、ヒスパニックおよびアフリカ系アメリカ人)であり、混合過程によりLDが最近引き起こされたという利点を提供する。このLDが最近であるため、大きな染色体領域に渡りうる。しかしながら、偽陽性を避けるためにこれらの集団に存在する遺伝的構造(混合割合における個体間変動)について制御することもまた極めて重要である(Parraら、前記、1998；Lautenbergerら、Amer. J. Hum. Genet. 66:969-978、2000；Pfaffら、Amer. J. Hum. Genet. 68:198-207、2001；NordborgおよびTavare、前記、2002、それぞれは参照として本明細書に組み入れられている)。混合マッピングへの関心は、近年、増加した(McKeigueら、Ann. Hum. Genet. 64:171-186、2000；Smithら、J. Invest. Dermatol. 111:119-122、2001；Collins-Schrammら、Amer. J. Hum. Genet. 70:737-750、2002、それぞれは参照として本明細書に組み入れられている)。混合マッピングの一般的な説明は、混合マッピングのために開発された統計的アプローチおよびモデル表現型として皮膚色素形成へのそれの適用についてのいくつかの項目であるが、下に提供されている。

混合は、対立遺伝子頻度が親集団間で異なるすべてのマーカー遺伝子座間に対立遺伝子の関連を生じる(ChakrabortyおよびWeiss、Proc. Natl. Acad. Sci., USA 85:9119-9123、1988)。これらの関連は、それらの間の遺伝的距離に依存するという方式で時間と共に衰退する。このように、親集団間で異なる疾患(または形質)リスク対立遺伝子は、親集団間で高い頻度差を示す遺伝マーカーの特定のパネルを用いて混合された集団においてマッピングされうる。これらのマーカーは、AIMと呼ばれるが、集団の1つの群において、他の集団においてより、ありふれている特定の対立遺伝子を有するという特徴がある。そのようなマーカーの情報提供性の1つの尺度は、対立遺伝子頻度差、デルタ(δ)、であり、単に、集団間の特定の対立遺伝子の差の絶対値である(ChakrabortyおよびWeiss、前記、1988；Deanら、前記、1994)。

混合された集団において、対立遺伝子の関連は、最近、生じた、それゆえに、それらは混合されていない集団においてより長い距離に渡る(10〜20センチモルガン(cM)またはそれ以上まで)ため、与えられた試料サイズについてより容易に検出される。このアプローチの統計的基盤は、最初、ChakrabortyおよびWeiss(前記、1988)により、その後、その方法を「混合連鎖不平衡によるマッピング」(MALD；Stephensら、Amer. J. Hum. Genet. 55:809-824、1994；Briscoeら、J. Hered. 85:59-63、1994)と名付けた、Stephens、BriscoeおよびO'Brienにより探査された。さらに、連鎖していない遺伝子座における対立遺伝子と形質の関連を排除するために、遺伝的研究についてMALDアプローチを用いようが、より伝統的なLDアプローチを用いようが、マーカーデータから推定された個体の祖先についての解析において制御することが必要である。本明細書に開示されたSNP配列(マーカー；AIM)および方法(BGA検査)は、この課題を成し遂げるために特に効率的な手段である。共分散分析(ANCOVA)検定が使用され、以下の2つの方法において個体の祖先の影響について制御するために個体混合の推定値を条件付け変数として用いた：1)考慮中の遺伝子座を除外する(ANCOVA/IAEマイナスマーカー)；および2)条件付けについて完全な個体祖先推定値を用いること(ANCOVA/IAE)。この方法は、本明細書で詳細に記載されている。

より早い研究に基づいているが、古典的なLDマッピングとほとんど共通点がなく、かつ実験的交差の連鎖分析とより類似している、混合を探査することへの代替アプローチが開発された(McKeigue、Amer. J. Hum. Genet. 63:241-251、1998、参照として本明細書に組み入れられている；McKeigueら、前記、2000)。この理由のために、用語「混合マッピング」が、「混合連鎖不平衡によるマッピング」より適切であるとして提案された。対立遺伝子関連について検定する代わりに、本方法により、祖先における根底にある変動が、混合により生じる連鎖についてのすべての情報を抽出するために混合された家系の染色体上にモデル化される。開示される方法およびマーカーは、この過程を達成するのに必要かつ十分である。連鎖を検出するために頼る根底にある原理は単刀直入ではあるが、進歩した統計的方法がこの方法を実践において適用するために利用される。例えば、遺伝子座が西アフリカ人とヨーロッパ人の間の色素形成における変動の一部の原因であると仮定する。混合された家系の個体は、この遺伝子座においてアフリカ人祖先の対立遺伝子を0個もつか、1個もつかまたは2個もつかに従って分類される場合には、他の因子が一定に保たれたこれらの3つの群の比較において、平均色素形成レベルは、アフリカ人祖先のものである遺伝子座における対立遺伝子の割合によって変動するものと思われる。親の混合についての解析を制御することは、連鎖していない遺伝子座における祖先との形質の関連を除去し、他の因子が一定に保たれて、比較がなされることを保証する。

マーカー遺伝子型から遺伝子座における対立遺伝子の祖先を推論するために、各対立遺伝子状態の条件付き確率が、対立遺伝子の祖先(祖先特異的対立遺伝子頻度)、例えば、西アフリカ人またはヨーロッパ人、を仮定する場合に必要とされる。混合マッピングが遺伝子同定の効果的手段であるという証拠が増加しており、混合された集団において、強い対立遺伝子関連が、実質的な距離で間隔をあけられた連鎖したマーカー間に観察されることが報告された(Parraら、前記、1998；Parraら、Amer. J. Phys. Anthropol. 114:18-29、2001；McKeigueら、前記、2000；Lautenbergerら、前記、2000；Smithら、前記、2001；WilsonおよびGoldstein、Amer. J. Hum. Genet. 67:926-935、2000；Pfaffら、前記、2001)。非常に高いレベルの関連が長い遺伝的距離に渡って観察されたとすれば、いくつかの遺伝的因子のために親集団間で異なる表現型がまた、連鎖したAIMとの関連を示すことが予想される。混合マッピングを適用するのによく適している表現型は皮膚色素形成である。

疾患遺伝子および法医学解析についてのAIMの検出力にもかかわらず、この検出力を解明するために研究が行われてこなかった。本明細書に開示されているように、1)薬物応答、疾患遺伝子もしくは法医学研究のために有用である可能性があるヒトゲノムにおけるSNPまたは欠失/挿入多型(集合的にAIMと呼ばれる)が同定された；2)これらのAIMが疾患遺伝子および法医学研究のために有用でありうることを実証する生化学的および遺伝学的試験結果が提供される；3)実際の薬物応答、疾患遺伝子または法医学研究におけるヒトゲノムの体系的スクリーンから引き出されるAIMの有用性が実証される；4)個体が疾患を獲得しやすいか、または薬物に反応しにくいかどうかに関して推論するためのヒトゲノムの体系的スクリーンから引き出されるAIMの有用性が実証される；5)犯罪現場DNA検体が、例えば、80%ヨーロッパ人、10%アフリカ人および10%アジア人ヘリテージまたはいくつかの他の比率/混合の個体由来であったかどうかに関して推論するためのヒトゲノムの体系的スクリーンから引き出されるAIMの有用性が実証される；6)それらのDNA由来の個体の祖先の割合を推論する(例えば、その個体が80%ヨーロッパ人、10%アフリカ人および10%アジア人ヘリテージまたはいくつかの他の比率/混合であるかどうか)ためのヒトゲノムの体系的スクリーンから引き出されるAIMの有用性が実証される；ならびに7)それらのDNA由来の個体の群の祖先の割合を推論する(例えば、群は、集団サンプル、家族または臨床的に定義された人の群でありうるが、80%ヨーロッパ人、10%アフリカ人および10%アジア人ヘリテージまたはいくつかの他の比率/混合であるかどうか)ためのヒトゲノムの体系的スクリーンから引き出されるAIMの有用性が実証される。

本結果は、AIMが上記の適用に有用であり、本明細書に例証されている配列、および本明細書に開示された方法を用いて同定される追加的AIMがこれらの適用を可能にすることを実証する。本発明のAIMおよび方法は、ヒト疾患、薬物応答および身体的形質の研究に有用であり、それゆえに、ひときわ優れた商業的可能性を提供する。例えば、個別化処方および疾患リスクアセスメントのこの作成段階において、本発明のマーカーおよび方法がこの駆け出しの産業において前進するために必要とされるツールを提供する。本明細書に例証されているように、特定の薬物への個体の応答は、個体が、薬物標的についての人の遺伝子型または異物代謝遺伝子配列に加えて、しかし、それに関係なく、特定の集団構造を示す(すなわち、特定の祖先のヘリテージである)程度に依存した。それとして、本発明の組成物および方法は、特定の薬物へ応答する個体の尤度を予測するための手段を提供する。

例えば、コレステロール低下薬、Lipitor(商標)、への患者応答に関連した遺伝マーカーのスクリーンにおいて、好ましい応答の指標である低密度リポタンパク質(LDL)応答によって、Lipitor(商標)へのLDL応答について同定された最も強力なマーカーのいくつかは、例えば、TYR、OCA2、TYRP、FDPSおよびHMGCRを含む、薬物応答について関連性があるとすぐには認識されない遺伝子の型であった(国際公開公報第03/002721号(PCT/US02/20847)、および国際公開公報第03/045227号(PCT/US02/38345)も参照されたい、それぞれは参照として本明細書に組み入れられている)。応答について生物学的関連性がある遺伝子由来のマーカーと組み合わされる場合、それらは、DNAから応答の正確な推論を導く能力を増す。これらのマーカーのそれぞれは、優れたAIMであり、薬物応答へのAIMの連鎖が応答傾向における祖先の差の関数である可能性が高いことを示している(実施例5参照)。それとして、祖先のヘリテージがLipitor(商標)への好ましい応答を予測しうる。この関連は、調べられた薬物(n=23)のほとんどあらゆる型に対する応答(n=54)のほとんどあらゆる型について観察され、従って、薬物応答の推論が、少なくとも一部は、祖先の割合の推論を通して達成されうることを確認した。それとして、薬物応答について真に関連性がある遺伝子は、少なくとも一部は、個体の祖先の機能であり、かつ薬物応答について関連性がある遺伝子配列は、祖先に関して情報を与えるマーカー(すなわち、AIM)と統計的に連鎖していると思われる。

薬物応答性のような特定の形質に関連した遺伝子の真の同定についてゲノムをスクリーニングすることは、法外に費用がかかりかつ時間がかかる。それとして、薬物への個体の傾向について推論するためのAIMの使用は、患者に合う、彼らの遺伝的構成に最も適切なそれらの薬物を見つけるために用いられうる検査の迅速な開発のための意義深い近道を提供する。このように、疾患遺伝子の混合マッピングに有用であることに加えて、開示された方法および例証されているマーカーは、臨床医による治療プロトコールを指示しうるツールを提供する。公的に利用可能なヒトゲノムデータからのAIMの同定、ならびに患者-薬物分類セット、混合スクリーニングパネルおよび法医学ツールの開発のためにAIMを効果的に用いる能力は、AIMについてSNPデータベース(例えば、URL「nih.ncbi.nlm.gov」におけるワールドワイドウェブ(「www」)を参照)をスクリーニングすること；真に良いAIMであるものを立証するためにDNA試料の多祖先のパネルに対してAIMをスクリーニングすること；生物学的関連性がある推論を導くためにAIM配列を用いるための開示された統計的およびソフトウェア方法を用いること；ならびに、薬物に応答するまたは疾患を発生する個体の尤度が、彼らの祖先の知識、次には個体のAIM配列を通して示される、を通して予想されうることを認識することを含む、開示された方法を用いて達成された。

本開示の前に、個体祖先は、2つの独立した方法を用いて推定されえた：最尤法(Hanisら、Amer. J. Phys. Anthropol. 70(4):433-441、1986、参照として本明細書に組み入れられている)、およびSTRUCTUREプログラムにおいて実行されるベイズの(Bayesian)方法(Pritchardら、Genetics 155:945-959、2000、参照として本明細書に組み入れられている)。最尤法およびベイズの方法は、比例的祖先または混合の点推定を提供するが、開示された方法により取り組まれている、これらの方法におけるいくつかの不足がある。例えば、開示されたアルゴリズムを用いる場合(実施例6を参照；アルゴリズムを図解しているフローチャートを含む表12も参照)、1)個体が由来する最も可能性が高い群は、比例的祖先の推定と同時に推定された；2)多次元の信頼区間はコンピューターで計算されかつ投影され、従って、提示についての複雑性を減少させた；3)過去における各レベル(親の、祖父母の、曾祖父母の、など)での祖先の数およびそれらの混合割合を推定するアプローチが開発された；ならびに4)2つより多いBGA群についての個体内の比例的BGA所属が一度に引き出され、従って、例えば、改良された、より正確な法医学適用を提供し、加えて、量的または連続的に分布した形質(すなわち、二分ではない)、形質値は少なくとも一部、BGAの機能である、についての分類器の開発を可能にした。

個体の集団群への分類のための独立した方法が開発された(Shriverら、前記、1997、Frudakisら、前記、2002、それぞれは参照として本明細書に組み入れられている)。本方法は、特定の個体が属するものと思われる最適の群、および個体の複数の親の群への比例的割当の同時的推定を可能にする点において、以前の分類方法とは異なる(実施例6；表12も参照)。このように、以前の方法が、人がヨーロッパ系アメリカ人よりアフリカ系アメリカ人である可能性が非常により高いことを言明するのを可能にしたところにおいて、本アプローチは、同じ言明を可能にし、かつまた、信頼区間(CI)を以て個体の比例的祖先を提供する；例えば、25%(95% CI 15〜35%)ヨーロッパ人祖先；75%(95% CI 60〜80%)アフリカ人祖先；および0%(95% CI 0〜6%)先住アメリカ人祖先。さらに、信頼区間は、問題の人について測定された祖先のより明らかな表示を提供するために多次元空間において表されうる(下記参照；図2も参照)。そのような表示を作図するための方法は知られていたが、本開示は、定量化可能な信頼を以て提示される表示を提供する最初である。

異なる祖先の歴史をもつ人の間の染色体セグメント祖先のパターン(PCSA)において明らかな差がある(図1参照)。染色体に渡る一連のAIMは、与えられた人に観察される配列のプロファイルへと導く最も可能性が高い親の組み合わせの推定を容易にすることができる。PCSAの推定が重要であるところの一つの例は、最近の先住アメリカ人祖先のいくらかの割合を含む主としてヨーロッパ人祖先をもつ人からのヒスパニック祖先の人の識別においてである。実際、これは、これらの2つの群に要求されかつ与えられる政治上および法律上の権利が彼らの祖先に依存しうるため、重要な測定である。メキシコ系アメリカ人(MA)のようなヒスパニック集団は、およそ30〜40%先住アメリカ人祖先をもつが、そのバランスは、微量部分(5%ほど)のアフリカ人祖先をもつヨーロッパ人である。4分の1の先住アメリカ人である人は、25%先住アメリカ人祖先をもつものであり、それゆえに、推定された祖先の彼のレベルにおいて多くのMAの人と重複するものと思われる。PCSAパターンは、これらの2つの事例について有意に異なり、そのような場合、祖先の正確な限定を容易にする唯一の遺伝的証拠の一部を提供しうることが期待される。本明細書に開示されているように、PCSAは祖先研究において用いられうる。

これらの測定における重要な段階は、染色体セグメントに沿ったAIMの整相である(実施例2、図8を参照；実施例5、図12〜16も参照)。染色体に沿ってAIMの相を合わすことは、1)個体の遺伝子型からの推定、2)分子ハプロタイピング(例えば、ジェノタイピングと組み合わされた対立遺伝子特異的PCR)、および3)単一精子分析(女性の対象については、男性の同父母の同胞の精子が同じプロファイルを与えるものと思われる)を含む、いくつかの方法により達成されうる。さらに、開示された方法は、祖先の推論について2つの性染色体(XおよびY)ならびにmtDNAの同時的考慮を可能にする。AIMは、これらの源のそれぞれにおいて見出され、人の祖先の割合および特定の人が由来している集団に関する問題の多くに対して情報を与えうる。例えば、ヒスパニック/ラテンアメリカ系集団は、非常に高い(65〜100%)頻度の先住アメリカ人のmtDNAハプロ群をもつが、常染色体のマーカーにおいて先住アメリカ人集団からの少数の寄与のみを示す。このように、例えば、非先住アメリカ人のmtDNAハプロ群を有する彼女の父親側に先住アメリカ人と言われている祖先をもつ人は、彼女が想像するような一部分は先住アメリカ人であるよりも、彼女が先住アメリカ人のmtDNAハプロ群を有する運命であったとするよりも、ヒスパニックではない可能性が高い。

連鎖不平衡(LD)は、遺伝子位置の詳細な測定、および特定の集団における疾患遺伝子の最初の位置推定の両方のためのマッピングツールとして用いられることが増加している。対立遺伝子の関連性は、小さな(<60 kb)ゲノム領域内において、有意に、非ランダムであり、かつ物理的距離と相関しており(概説として、Jorde、Amer. J. Hum. Genet. 66:979-988、1995；Jorde、Genome Res. 10:1435-1444、2000を参照)、おそらく、多くのゲノム領域を特徴付けている根底にある「ブロック構造」を反映している(Reichら、2001；Dalyら、2001)。このように、集団における疾患対立遺伝子が最近の共通した起源を共有する場合には、最も強い関連をもつ近くの遺伝マーカーが疾患を引き起こす遺伝子座に最も近いものと思われる。このアプローチは、嚢胞性線維症遺伝子、ハンチントン病遺伝子、および地殻変動性異形成症遺伝子を含む、いくつかの単純なメンデル疾患のポジショナルクローニングにおいて重要であった。

詳細なマッピングまたはポジショナルクローニングにおける適用に加えて、サイズにおいて最近増加を生じた、または遺伝的に同系交配である、均一な集団における最初の疾患遺伝子マッピングのために用いられうる。そのような集団において、疾患対立遺伝子は、おそらく、少数の創始者に存在しており、組換えは、これらの対立遺伝子と連鎖したマーカー遺伝子座との間の関連をランダム化する機会が制限されていた。これらの集団由来の罹患と非罹患の個体の間の対立遺伝子の関連の解析は、このように、疾患遺伝子座の位置推定を容易にしうる。多数のメンデル疾患はこのアプローチを用いてマッピングされた：フィニッシュ(Finish)集団におけるいくつかの疾患、メノナイトにおけるヒシュスプラング病(Hischsprung's disease)、隔離されたオランダ漁業共同体における良性再発性肝臓内胆汁うっ滞、サウジアラビア種族の血族群における幼少期の家族性持続性インスリン過剰低血糖症、およびベドウィンにおけるバルデー-ビードル(Bardet-Biedl)症候群。

どの集団が複合性多遺伝子性疾患のLDマッピングに最も良く適しているかに関して多くの論争があった(例えば、Wrightら、前記、1999；Eavesら、前記、2000；NordborgおよびTavare、前記、2002；Kaessmannら、前記、2002を参照)。LDの程度は、突然変異、組換えおよび遺伝子変換の率、人口統計的および淘汰的事象、ならびに突然変異自身の年数のような多数の遺伝的および進化的因子の複雑な関数である。これらの因子のあるものは、ゲノム全体に影響を及ぼすが、他のものは特定のゲノム領域に影響を及ぼすのみである。さらに、ゲノムを通じての突然変異、組換えおよび遺伝子変換の率の変動は、ゲノム領域間にLD差を引き起こすと予想される。

LDに基づく方法により行われる疾患発見の試みに用いるための集団に関して、小さな、隔離された、同系交配の集団が、より低い不均一性およびより大きい程度の連鎖不平衡により、他の集団を凌ぐ利点をもつであろうと提案されていた(Wrightら、前記、1999；NordborgおよびTavare、前記、2002；Kaessmannら、前記、2002を参照)。他方、ヒスパニックおよびアフリカ系アメリカ人のような混合された集団は、連鎖不平衡が混合過程により最近引き起こされており、かつそれが大きな染色体領域に渡りうるという利点を提供するが、偽陽性を避けるためにこれらの集団に存在する遺伝的構造について制御することが極めて重要である(Parraら、前記、1998；Lautenbergerら、前記、2000；Pfaffら、前記、2001；NordborgおよびTavare、前記、2002)。LDに基づく方法における研究の焦点の増加にもかかわらず、しかしながら、ヒト集団におけるLDに関する多くの論点は十分に探査されていないままである。現在、NHGRIは、いくつかの集団において共通のハプロタイプを同定することにより遺伝子同定研究のための情報的ツールを開発するのを助ける体系的プロジェクトを計画している。この「ハプロタイプマッププロジェクト」(HMP)は、一般的な集団サンプルにおいて共通のハプロタイプを見出すことに焦点を合わせた大規模な複数の研究機関にまたがった試みになる可能性が高い。HMPは、いくつかの集団はハプロタイプブロック構造について調べられるため、本明細書に開示されているようなAIMを同定するための重要なデータ源であるとわかる可能性が高く、従って、追加の候補AIMおよび親の集団の一部における詳細なLD構造についての基本的計画を提供する。

本明細書に開示されているような混合マッピングは、HMPと性質が異なるのだが、HMPに補足的である。第一に、HMPの第一次焦点は、ゲノム中の個々のゲノム領域の詳細な構造を理解することであるが、本方法は、混合に特異的に起因するLDの理解を可能にする。混合からのLDのレベルは、何百万塩基(Mb；メガベース)および何十Mbというオーダーであり、一方、HMPは、何10〜100のキロベース(kb)のレベルに焦点を合わせ、1つのプロジェクトからの結果に影響を及ぼすゲノムおよび集団の特徴が別のものにおいて注目されない場合がある。第二に、混合マッピングは、正確な親の対立遺伝子頻度推定を必要とする。それとして、多数の異なるアフリカ人、先住アメリカ人、ヨーロッパ人およびアジア人集団がタイピングされたが(下の表6を参照)、HMPは、主な集団群の1つまたは2つのサンプルに焦点を合わせる可能性が高い。

第三に、アフリカ系アメリカ人およびヒスパニックの多数のサンプル(n=500)がタイピングされ、それに従って、混合マップの適用範囲を試験する、および解析方法を比較するのに十分な統計的検出力を提供する。さらに、国の異なる領域からいくつかの代表的な集団がタイピングされたので、祖先の割合および混合動態における地理学的変動が調べられうる。いくつかの混合された集団はHMPに含まれる可能性が高いが、個体の数および異なる集団サンプルの数は、本明細書に開示されているものより少なく、それゆえに、同じ比較が可能ではない。例えば、4つの祖先群のそれぞれについて10個のサンプルをもつことは、それらの群の1つまたはいくつかにおいて優先的に存在する配列の同定にとって十分ではない；本明細書に開示されているように、少なくとも50個の個体が、これらのマーカーを包括的に同定するために数十個の祖先群(ただの4個ではない)のそれぞれについて検査された。

第四に、最近の集団変動の試み(例えば、SNPコンソーシアム対立遺伝子頻度プロジェクト)および、おそらく、HMPの焦点は、多数の複雑な理由のために先住アメリカ人集団を除外して東アジア人、アフリカ人およびヨーロッパ人のサンプルにあった。しかしながら、これらの集団の除外は、US現住人口の最も速く増加している群、すなわち、ヒスパニック、有意なレベルの先住アメリカ人祖先(20%〜40%)をもっている、の遺伝的性質の理解において不足を生じる。本明細書に開示されたマーカーおよび方法で、ヒスパニック集団の疾患の遺伝的性質が調べられうる。同様に、いくつかの種々の先住アメリカ人集団は、しばしばヒスパニックとしていっしょに分類される多数の別個の群についての重要な親の集団を示しうる。

本明細書に開示された集団に基づく関連方法は、伝統的な連鎖研究を凌ぐいくつかの利点を提供する。伝統的な遺伝的連鎖方法により疾患遺伝子の位置を推定することは、関連した人、拡張された複数世代の家族かまたは関連した個体のペアのいずれか、の使用に頼る。これらのアプローチは、単一遺伝子により引き起こされる疾患を調査する場合、効果的かつ非常に強力である。しかしながら、2型糖尿病、高血圧症および前立腺癌のような多遺伝子性および多因子性疾患は、いくつかの遺伝子および複合的な環境影響の相互作用から生じ、伝統的な方法を用いて研究するにはより困難である。ありふれた疾患に対する感受性に寄与する遺伝子の同定は、不均一性により複雑にされている。遺伝的不均一性の源が、どのマッピング方法が遺伝子同定のために働く可能性が最も高いかを決定する。遺伝的不均一性の2つの基本的な型は、1つより多い遺伝子座が遺伝的形質に影響を及ぼしている、遺伝子座不均一性、および特定の原因である遺伝子座内に表現型を変えることにおいて重要である複数の対立遺伝子がある、対立遺伝子不均一性である。拡張された家族を用いる伝統的な連鎖解析は、一般的に、対立遺伝子不均一性に反応しないが、遺伝子座不均一性により不利な影響を及ぼされうる。または、LDに基づく方法は、一般的に、対立遺伝子不均一性により不利な影響を及ぼされるが、遺伝子座不均一性によってはほとんど影響を及ぼされない。

ほとんど対立遺伝子不均一性がないとすれば、測定遺伝子型および伝達不平衡試験(TDT)のような関連に基づくアプローチは、家族に基づくLODスコアまたは同胞対方法より感度が高くありうる。RischおよびMerikangas(前記、1996)は、同胞対研究およびTDT研究に必要とされる個体の数を比較し、連鎖を検出するために必要とされる個体の数は、同胞対研究についてよりTDTについて非常に小さいことを示した。これは、疾患遺伝子座の影響が小さい場合、特に真である。例えば、2.0のリスク率および50%の遺伝子頻度をもつ遺伝子座について、2500個の同胞対またはTDTについての340個の症例/親が必要とされる。ハプロタイプ相対的リスク(Haplotype Relative Risk)(HRR)または症例/対照設計、またはTDTでの連鎖を用いる関連の実証が同胞対での連鎖の実証に勝ったいくつかの例がある。古典的例は、インスリン遺伝子とIDDMとの間の関連であり、症例および対照において実証され、その後、TDTを用いて確認されたが、しばしば、同胞対連鎖研究において観察されなかった(Spielmanら、Amer. J. Hum. Genet. 28:317-331、1993)。Yaouanqら、(Science、1997)は、一連の157個のフランス人家族(99個の単発性および58個の多発性)においてTDTを用いてHLAと多発性硬化症の間の連鎖について非常に有意な(p<10^-9)証拠を報告した。58個の多発性家族が単独で解析された場合、TDTおよび同胞対方法について、それぞれ、0.0001および0.03のp値が生じた。

候補遺伝子に基づく関連解析は、家族における連鎖解析より疾患遺伝子を検出する力が相対的に高いが、40,000個を超える遺伝子をもつゲノムにおいてすべての遺伝子を徹底的に検査することは、現在のところ実際的ではない。ハプロタイプマッププロジェクトは、連鎖不平衡に基づく遺伝子同定を行うために必要な情報源を作成するのに成功する可能性がある。しかしながら、たとえヒトゲノムのブロック構造モデルが各遺伝子における4つのハプロタイプにより説明されえたとしても、SNPおよびDIPの最小限の数は、80,000個であり、実際の数はより高い可能性がある。ジェノタイピング技術は急速に進歩しているが、多数の研究対象においてこの数のマーカーを検査することは、まだ実際的ではない。さらに、大きな集団においてLDを用いて遺伝子を同定する計画に内在するいくつかの重要な仮定がある。ゲノムワイドのスクリーニングにおいて連鎖不平衡を用いる1つの重要な困難性は、LDが、マーカーと疾患遺伝子座の間の組換え画分と共に、および疾患を引き起こす突然変異の年数と共に、指数関数的に衰退することである。疾患の素因をつくるより古い突然変異については、LDは、疾患対立遺伝子と、比較的密接に間隔をおかれたマーカー遺伝子座における対立遺伝子との間でさえも非常に弱くなる。

LDマッピングは、嚢胞性線維症のようなまれな遺伝病、ならびにフィン人およびベドウィンのような特定の集団、有意な集団ボトルネック、同系交配または創始者効果を受けやすくなった集団における疾患のマッピングにおいて有用であった。これらの状況において、嚢胞性線維症の場合のように変異体対立遺伝子は比較的若い、または集団は遺伝的変動性を低下させ、ゲノム中に渡るLDを上昇させるために、LDが存在する。ありふれた疾患の遺伝的性質についてのリーディングモデルは、特定の組み合わせで存在する場合、個体リスクを増加させる多数の遺伝子座において素因をつくる対立遺伝子を規定する(Greenberg、Amer. J. Hum. Genet. 52:135-143、1993；LanderおよびSchork、Science 265:2037-2048、1994；RischおよびMerikangas、前記、1996)。疾患がありふれている場合には、このモデルについて、素因をつくる対立遺伝子はまた、比較的高い頻度であることが予想される。しかしながら、天然のモデルを仮定すれば、集団における対立遺伝子の頻度は、より頻度の高い対立遺伝子はまれな対立遺伝子より古いというように、平均して対立遺伝子の年数に関連している。均一の集団において、LDは対立遺伝子の年数に逆比例して関連づけられ、ありふれた疾患についてのリスク対立遺伝子は平均して、相対的に古いと予想されるため、隔離されていないまたは同系交配ではない集団において共通の疾患遺伝子を同定するためのLDに基づく方法の適用について、この事実は問題を提起している。

混合マッピングのための本発明の組成物および方法の適用は、複合性形質のより正確かつ信頼性のあるマッピングを可能にする。混合マッピングは、以前に隔離された集団が混じる場合に引き起こされるLDを利用し、複合性形質をマッピングするにおいてこれらの問題を回避することができる。混合された集合が遺伝的連鎖を測定するにおいて有用でありうることは、ChakrabortyおよびWeiss(前記、1988)により初めて認識された。遺伝的に多岐にわたる集団がハイブリダイズする場合、非ランダム的対立遺伝子関連が、有意な対立遺伝子頻度差をもつ遺伝子座間に、連鎖していない遺伝子座間にさえも、生じる。このLDは、問題の遺伝的座が同じ染色体上に共に近接して位置していない場合、速やかに衰退する。

LDは、2つのマーカー間の組換え率(θ)およびそれらのハイブリダイゼーションからの世代の数(n)の関数として衰退し、D_n=(1-θ)ⁿD₀、D_nはハイブリダイゼーション後n世代の連鎖不平衡であり、D₀は最初の連鎖不平衡である、として表されうる(ChakrabortyおよびWeiss、前記、1988)。LDにおける減少と遺伝的距離の間にこの指数関係を仮定すれば、マーカーが共に近接して、遺伝的に連鎖しているために高く留まっている混合された集団(混合からの時間が短い場合)におけるLDと、連鎖していない遺伝子座間のバックグラウンド連鎖不平衡の間を識別することが可能である。例えば、10世代後、連鎖していない遺伝子座における連鎖不平衡は、最初のレベルの0.1%まで低下し、10 cMおよび1 cM離れた遺伝子座において、真の連鎖による不平衡は、まだ、最初のレベルの、それぞれ、34.9%および90.4%である。同定される混合された集団における連鎖の効果的検出のための臨界パラメーターは、親の集団とハイブリダイゼーションからの世代の数の間の頻度差(δ)である。混合された集団における関連解析による連鎖は、δが大きく(0.2以上)、混合からの世代の数が小さい(10世代のオーダーにおいて；ChakrabortyおよびWeiss、前記、1988)場合には、効率的に働いた。

Stephensら(前記、1994)およびBriscoeら(前記、1994)は、コンピューターシミュレーション(MALD)を用いてこのアプローチを研究し、研究設計のための実際的な考慮すべき事柄を詳述した。アメリカにおいて起きた混合の型の単純なモデルを用いて、彼らは、200〜300個の均等に間隔をおかれたマーカーについてタイピングされ、それぞれがδ>0.3をもつ、200〜300人の患者のサンプルサイズを用いると、原因となる遺伝子を位置づける>95%の機会をもつだろうことを示唆した。研究されたいくつかのモデルからの一致する結果は、用いられたマーカーの対立遺伝子頻度差におけるMALDの検出力の一次従属性であった。δが小さい場合には、最初のLDは小さく、バックグラウンドノイズから識別するには困難である。

Stephensら(前記、1994)は、効果的混合マッピングのために混合された親の集団間でδ>0.4である遺伝子座を用いることを示唆した。彼らはまた、混合マッピングは、4〜20世代前にハイブリダイズした集団において最も効果的であること、および過去3世代中に親の集団から新しい遺伝子移入がなかったとの条件で、漸増の混合(一つの集団のもう一つへのゆるやかな遺伝子移入；連続的遺伝子流動モデルとしても知られている)は、重大ではないが、混合マッピングの検出力に影響を及ぼすことを実証している。開示された混合マッピング技術は、感受性のある遺伝子型の頻度において大きな差がある親の集団から構成される混合された集団の解析により疾患感受性遺伝子の位置を同定することができる。それとして、混合マッピングの適用は、太平洋諸島系集団における2型糖尿病感受性、アフリカ系アメリカ人における高血圧症、肥満症および前立腺癌、ならびにヒスパニック集団における2型糖尿病、肥満症および胆嚢疾患の研究を含む。

McKeigueは、より初期の仕事に基づく遺伝子をマッピングするにおいて混合を探査するためのアプローチを開発した(McKeigue、前記、1997；McKeigue、前記、1998；McKeigueら、前記、2000)。そのアプローチは、混合により生じているLDにより動力を供給されるが、実験的交差の連鎖解析により類似している。この理由のため、用語「混合マッピング」が提案された。対立遺伝子の関連について検査する代わりに、混合により生じている連鎖についてすべての情報を抽出するために混合された血統の染色体上に祖先における根底にある変動のモデルを作ることができる。

上で考察されているように、実際にこのアプローチを適用するために、進歩した統計的方法が必要とされる。親の混合における条件付けは、連鎖していない遺伝子座における形質の祖先との関連を除去し、他の因子が一定に保たれて比較がなされることを保証する。非統計的言い方をすれば、その個体の両親の混合を仮定すれば、期待された割合をもつ特定の血統のものであるマーカー遺伝子座における対立遺伝子の割合について各個体において比較がなされる。これを行う1つの単純な方法は、共分散分析(ANCOVA)検定を用いることであるが(表2および3を参照)、このより単純なアプローチは、利用可能な情報のすべてを用いるとは限らない。それとして、ベイズの方法もまた用いられた(表2および3を参照)。

マーカー遺伝子型から遺伝子座における対立遺伝子の祖先を推論するために、祖先特異的対立遺伝子頻度が必要とされる；すなわち、対立遺伝子の祖先(この例では、西アフリカ人またはヨーロッパ人)を与えられた各対立遺伝子状態の条件付き確率。混合された集団における任意の遺伝子座での対立遺伝子の全集合は、2つの下位集団 − アフリカ人祖先の対立遺伝子およびヨーロッパ人祖先の対立遺伝子、から構成されるとみなされうる。祖先特異的対立遺伝子頻度が研究中の混合された集団に正しく特定される限り、ベイズの定理は、これらの条件付き確率を逆にして、研究中の各個体について遺伝子座における祖先の次の分布(アフリカ人祖先の0個、1個または2個の対立遺伝子)を計算するために適用されうる。単一のマーカーをタイピングすることにより伝達される情報が、マーカー遺伝子座における各対立遺伝子の祖先を2つの創始集団の1つに割り当てるのみ十分でない場合には、マーカーは、隣接した遺伝子座において祖先を推定する多点解析に組み合わされうる。

シミュレーション研究は、十分なマーカーを用いて、たとえどの単一のマーカーも祖先について完全には情報を与えないとしても、各遺伝子座における祖先についての高い割合の情報が抽出されうることを示した(McKeigue、前記、1998)。これらのシミュレーションに基づいて、全1,000個のAIMについて2〜3 cMの平均間隔においてFst>0.4をもつマーカーのパネルが、本明細書に開示されているように構築されうる。特定の集団(例えば、主として西アフリカ人およびヨーロッパ人であるアフリカ系アメリカ人の群)についての1,000個のAIMのパネルが他の群についてのパネルとしばしば重複することは認識されるべきである。換言すれば、1つのレベルの識別(例えば、アフリカ人/ヨーロッパ人)について選択されたAIMがまた他の識別(例えば、先住アメリカ人/ヨーロッパ人)についての情報を与えることはよくある。表1は、32個のAIMを含む最初に同定されたパネルを列挙している(配列番号：332〜363；実施例1も参照)。d>0.3のカットオフを用いて、これらのマーカーの4個のみが、3つの比較(アフリカ人/ヨーロッパ人；アフリカ人/先住アメリカ人；先住アメリカ人/ヨーロッパ人)のうちの1つへの情報提供において限定される；残りは、比較の2つについて情報を与え、1つのマーカーはすべての3つの比較について情報を与える。さらなる研究において、71個のAIMのパネルが、インドヨーロッパ人、サハラ以南アフリカ人、先住アメリカ人および東インド人に関して情報を与えると同定された(配列番号：1〜71；表6)(実施例2参照)。

混合マッピングが遺伝子同定の効果的手段であるという証拠が増加している。少なくとも3つの独立したグループは、実質的な距離で間隔をおかれた連鎖したマーカー間に強い混合連鎖不平衡(ALD)を報告した(例えば、Parraら、前記、1998および2001；Pfaffら、前記、2001；McKeigueら、前記、2000)。長い遺伝的距離に渡って観察された非常に高いレベルの関連を仮定すれば、いくつかの遺伝的差のために親の集団間で劇的に異なる表現型がまた、連鎖しているAIMとの関連を示すことが予想される。しかしながら、本開示まで、MALDアプローチが見せるほどの見込みがある、必要とされるAIMのバージョンに基づいてSNPを同定する体系的スクリーンは、報告されてこなかった。McKeigueおよび他は、このアプローチでの使用のためのSTR AIMのパネルを同定したが、この目的のためのSTRの使用は、STRの対立遺伝子の複雑性、および対立遺伝子頻度を正確に推定するために必要とされる大規模のデータベースのために問題がある。観察されていない対立遺伝子の頻度における小さなエラーまたは不完全な仮定でさえも増幅して、研究の統計的検出力を損ないうる。

親の集団内の不均一性は、混合マッピング研究に混乱させる影響を及ぼしうる。アフリカ系アメリカ人集団の場合、新世界(New World)で起こった混合の過程は、主に中央西部アフリカおよびヨーロッパ由来の集団、加えていくつかの先住アメリカ人集団の不均一な群を含んだ。ヨーロッパの遺伝的寄与に関して、最も重要な源集団は、グレートブリテン、アイルランド、ドイツおよびイタリアから来た。親のヨーロッパ人集団の起源の多様な地理学的領域にもかかわらず、遺伝的観点からヨーロッパ人集団の相対的均一性を示すことが重要である(例えば、Cavalli-Sforzaら、前記、1994)。

アフリカ人の寄与に関して、アフリカ大陸はおびただしい量の遺伝的多様性を含むことはよく知られている。しかしながら、アフリカ人の遺伝的多様性のサブセットのみがアフリカ系アメリカ人集合の形成に寄与した。奴隷にされたアフリカ人の大多数は、中央西部アフリカ、およそ北部のセネガルから南部のアンゴラまで、から来た(Curtin、The Atlantic Slave Trade；Madison、University of Wisconsin Press 1969)；アフリカの他の地域は奴隷貿易に影響を及ぼされなかった。アフリカに存在する4つの主な言語学的語族、ニジェール-コンゴコルドファン語族、ナイル-サハラ語族、アフロアジア語族およびコイサン語族のうち(Greenberg、前記、1963)、新世界へ強制的に連れてこられた奴隷のアフリカ人の大多数は、ニジェール-コンゴ語族のメンバーであった。この広まった語族は、西アフリカ語(セネガルからナイジェリアまでの人々に話されている)およびバントゥー語(中央および南アフリカに優勢)を含む。バントゥー語は、約3,000年前に起こった「最近の」拡大によりアフリカ中に分散され、おそらく西アフリカ(ナイジェリアおよびカメルーン；Excoffierら、Yearbook Phys. Anthropol. 30:151-194、1987およびCavalli-Sforzaら、前記、1994を参照)に源を発していた。この最近の起源は、バントゥーの言語学的および遺伝的均一性に反映されている(Excoffierら、前記、1987；Weberら、前記、2000)。このように、入手可能な歴史学的、言語学的および遺伝的証拠は、サハラ以南アフリカに見出される多様性のサブセットのみがアフリカ系アメリカ人の遺伝子プールへ寄与したこと、および不均一性の可能性のある問題は、アフリカの全大陸の多様性が現代のアフリカ系アメリカ人集団に現されている場合よりもはるかに少ないことを示している。残念なことに、西および中央アフリカに存在する不均一性の程度は、この地域の集団についての入手可能な情報の欠如のため、ほとんど未知のままである。

ヨーロッパ人集団内ならびに西および中央アフリカ内の不均一性の程度がほとんど未知のままであるため、不均一性の可能性のある影響は、特に混合マッピングアプローチを考慮する場合、注意を向けられる必要がある。不均一性が混合マッピングの試みに影響を及ぼしうる2つのレベルがある。第一に、不均一性は、マップにおいて用いられたマーカーについての親の頻度の誤った推定へと導きうり、それに従って、混合の推定を偏向させる。混合マッピングの目標が親の混合における連鎖条件付けを推論することであるとすれば、祖先特異的対立遺伝子頻度の誤った特定化を避けることが重要であり、なぜなら、これは、解析の最終結論に影響を及ぼしうるからである。第二に、不均一性は、研究をすることになっている表現型についての遺伝子座の数に影響を及ぼしうる。

混合された集団への遺伝的寄与の推定を偏向させることにおける不均一性の影響は、主な親の集団(ヨーロッパ人およびアフリカ人)内で均一性を示すマーカーを選択することにより低下させられうる。このように、異なる地理学的領域の親集団への寄与の問題が最小限にされ、混合推定における偏向を低下させる。このストラテジーは、以前の混合研究で実行されており(Parraら、前記、1998、2001；Pfaffら、前記、2001)、異なるヨーロッパ人およびアフリカ人集団における情報を与える可能性のあるマーカーが体系的に解析された。例として、現在、アフリカ内の不均一性を検定するために、5つのアフリカ人集団、ナイジェリアから2つ、シエラレオネから2つおよび中央アフリカ共和国から1つ、からのサンプルにおいて、それぞれ情報を与える可能性があるマーカーがジェノタイピングされ、有意な不均一性を示すマーカーは解析から除外された(下記参照)。これらのサンプルのすべては、奴隷貿易により影響を及ぼされた地域から来た。望ましい場合には、アンゴラ、奴隷にされたアフリカ人の約40%の供給源であった領域である、からのサンプルが組み込まれうり、従って、アフリカ人の親集団のもう一つのサンプルを提供する。このストラテジーに加えて、親の頻度の誤った特定化について検定する統計的方法があることに留意することは重要である(例えば、McKeigueら、前記、2000を参照)。

研究されることになっている表現型における不均一性の可能性のある問題に関して、表現型に影響を及ぼす同義遺伝子(遺伝子座不均一性)の存在による不均一性は、任意の他のマッピング方法についてもそうであるが、有意な遺伝子型効果を検出する混合マッピングの検出力を低下させることが予想される。不均一性はまた、特定の遺伝子内の多機能的対立遺伝子のためでありうる(対立遺伝子不均一性)。一つの例はMC1Rであり、およそ6個の比較的共通の変異体がネイティブヨーロッパ人および彼らの子孫集団の間に赤毛、そばかす、および青白い皮膚へ導く。ヨーロッパ人内のこれらの変異体は、異なるハプロタイプバックグラウンドにあり、従って、単一の突然変異が起こり、高頻度まで上昇した場合と比較して関連解析におけるMC1R遺伝子の効果を検出する力を減少させる。しかしながら、混合された集団(例えば、ヨーロッパ人/アフリカ人)において、これらの変異体は、すべて、祖先についての情報を与えるマーカー(例えば、MC1Rマーカー、表1を参照)との対立遺伝子関連にあり、それらはすべて、皮膚を明るくする効果を生じるため、それらの情報は、ヨーロッパ人に固有のたった1つの機能的変異体があるというよりも、混合マッピングによるMC1Rの同定を6個の機能的変異体について異ならないとすることに折り合わされる。特定の親集団内の機能的変異体の効果が同じ方向である(例えば、疾患のリスクを低下させることにおいて)限り、対立遺伝子の不均一性は、混合マッピングにおいて深刻な問題にはならないと思われる。

ヒト個体間の遺伝的変動の大部分(80〜90%)は、個体間である；変動の10〜20%のみが集団差による(例えば、Nei、前記、1987；Cavalli-Sforzaら、前記、1994；Dekaら、前記、1995)。たいていの集団は対立遺伝子を共有し、一つの集団において最も高頻度であるそれらの対立遺伝子は、一般的に、他のものにおいても高頻度である。集団特異的であるかまたは地理学的および民族的に定義された集団間に大きな頻度差をもつかのいずれかの古典的(血液型、血清タンパク質および免疫学的な)またはDNA遺伝マーカーはごく少ない(RoychodhuryおよびNei、前記、1988；Cavalli-Sforzaら、前記、1994)。固有の遺伝マーカーのこの明らかな欠如にもかかわらず、固有の生態学的条件、偶然的遺伝的浮動および性別選択への長期間適応をおそらく反映している、ヒト集団の間の顕著な身体的および生理的差がある。現代の集団において、これらの差は、民族群間の形態学的差、ならびに疾患に対する感受性および耐性における差の両方において明らかである。

混合およびマッピング研究に最も有用な固有の対立遺伝子は、また集団間で対立遺伝子頻度において大きな差をもつものである(Reed、前記、1973；Chakrabortyら、前記、1992；Stephensら、前記、1994)。それらがすべての他の集団には全く存在しないという事実は、統計的計算の一部を簡単にし、より確信的な親の対立遺伝子頻度推定を容易にすることができるが、それらの利用についての主たる理由ではない。集団特異的対立遺伝子(PSA)という名称は、最初は、集団間で大きな対立遺伝子頻度差をもつ遺伝マーカーを記載するために用いられたが(Shriverら、前記、1997；Parraら、前記、1998)、これらのマーカーは、今、より正しくかつ記述的な用語により、祖先情報提供マーカー(Ancestry Informative Marker)(AIM)と呼ばれる。二対立遺伝子マーカーについて、頻度差(δ)は、p_x-p_y(それはq_y-q_xに等しい)に等しく、p_xおよびp_yは集団XおよびYにおける一方の対立遺伝子の頻度であり、q_xおよびq_yは他方の頻度である。主要な民族群間の中央値δレベルは、15%と20%の間の範囲であり、任意に同定された二対立遺伝子の遺伝マーカーの大多数(>95%)はδ<50%をもつ(Deanら、前記、1994、参照として本明細書に組み入れられている)。Fst>0.4をもつマーカーを用いることに基づく混合マッピング研究における検出力の統計的推定は、以前に提示された(McKeigueら、前記、2000)。ゲノムに渡って均等に間隔をおかれた1,000個のそのようなマーカーを用いて、親集団間での2倍の相対的リスクを説明する疾患遺伝子を同定しうる80%の統計的検出力をもつことが可能であることが実証された。

AIMおよび本発明の方法によるそれらの使用は、実施例1〜6に実証されている(下記)。さらに、アフリカ系アメリカ人およびヒスパニック集団における混合マッピングに情報を与えるマーカーについての対立遺伝子頻度データが報告された(Smithら、前記、2001；Collins-Schrammら、前記、2002)。疾患素因または薬物応答性の解析に本発明の方法を適用するために、混合割合および混合動態の推定は重要である。混合された集団において遺伝的構造について制御することは、これらの集団の祖先の割合および遺伝的構造の知識を必要とする。混合割合の信頼性のある推定は、考慮する集団の情報をもっている同定を可能にしうる。ハイブリダイゼーション中に引き起こされる混合LDは混合のレベルに依存するため、サンプリングは、一般的に、より多くの混合があった国のそれらの地域に集中させるべきである。

祖先の割合を知ることに加えて、考慮中の集団に存在する集団構造のレベルを理解することが重要である。均一な集団は、同類の交配がないもの、家族が多かれ少なかれ、ランダムな組み合わせにより、かつDNA遺伝子型にかまわず、形成される任意交配集団である。たいていの大きな世界各地の人々からなる集団において、均一性が予想されかつ見出される。しかしながら、個体がランダムに交配しないような集団内に層別化が存在する場合には、集団は均一にならない。混合は、集団において遺伝的構造を導入する可能な機構の一つであり、この遺伝的構造を考慮に入れることが混合マッピングを促進する。

遺伝的構造の影響は、2つのレベルで考えられる。第一に、親集団は、それらが選択されたAIMの対立遺伝子頻度において不均一性を示すかどうかを決定するために評価される；不均一性は、上で考察されているように、混合割合の推定に影響を及ぼしうる。いくつかの方法は遺伝的構造の存在を検出することができる。これらの方法は、2つの主なカテゴリー、ゲノム制御(GC)方法(DevlinおよびRoeder、前記、1999)および構造化関連(SA)方法(PritchardおよびDonelly、前記、2001)と名付けられる、に分類されうる。両方の方法は、上で考察されているように、サンプリング効果のため、またはサンプリングされた集団における現実の人口統計学的層のためであった可能性がある遺伝的構造の影響について推定かつ補正するために連鎖していないマーカーのパネルのジェノタイピングを必要とする。SA方法(Pritchardら、前記、2000；PritchardおよびDonelly、前記、2001)は、親集団における遺伝的構造について検定するために用いられた。この方法は、集団構造を推論するために連鎖していないマーカーにより提供される遺伝子型情報を用いることに基づき、Jonathan Pritchardから入手可能なソフトウェアプログラムで実行された。さらに、構造の存在について検定するために、プログラムは個体の祖先割合を推定し、本研究のために、このベイズの方法が最大尤推定法を補完するために用いられた。これらの2つの方法は、高く相関している個体の祖先の推定を生じる。

混合された集団における遺伝的構造の第二の源は、混合過程自身のためであり、その過程において新しく引き起こされた連鎖不平衡が混合された集合に導入される。本明細書に例証されるもののようなAIMは、特に、祖先の割合に関連している集団構造の感度の高い指標である。集団構造の存在を評価するために、サンプルは、遺伝子座内(Hardy-Weinberg不平衡)および遺伝子座間(配偶子不平衡)の両方において対立遺伝子の非ランダムな関連について検定され、個体の祖先推定の分布もまた調べられる(Pfaffら、前記、2001；Parraら、前記、2001を参照)。

アフリカ系アメリカ人の歴史は、1619年、最初のアフリカ人が英国の植民地(ジェームズタウン)に着いた年、までさかのぼりうるが、早くも1526年に、アフリカ人奴隷の存在が米国になるであろう所(サウスカロライナ、ジョージア、フロリダおよびニューメキシコ)へのスペインの遠征において報告された。組織化された奴隷制度がほんのすぐ後に始まったが、18世紀初頭になって初めて、奴隷の輸入が、南部植民地におけるタバコ、インジゴおよび米プランテーションを耕作する労働者の需要と平行して、比率の増加に達した；ピークは1790〜1800年の10年間および19世紀の初めの年に生じた。1808年、奴隷貿易は違法となったが、もう数十年間、低率で続いた。米国へ連れてこられた奴隷の総数について異なる推定が提示されており、380,000人と570,000人の間の範囲である数が一般的には認められている。

アフリカ人奴隷の民族起源を正確に決定することは困難であるが、船舶リストからの情報が彼らの地理学的出所のおおよその絵を提供した。奴隷貿易は、西および中央西部アフリカの非常に広い地域、主として、今日の国の北部のセネガルと南部のアンゴラの間の海岸線、に影響を及ぼした。最も重要な領域は、セネガンビア(ガンビアおよびセネガル)、シエラレオネ(ギニアおよびシエラレオネ)、ウィンドワードコースト(象牙海岸(Ivory Coast)およびリベリア)、黄金海岸(Gold Coast)(ガーナ)、ベニン湾(ヴォルタ川からベニン川まで)、ビアフラ湾(ベニン川の東からガボンまで)、ならびにアンゴラ(ガボン、コンゴおよびアンゴラの一部を含む南西アフリカ)であった。Curtin(前記、1969)は、18世紀(大西洋奴隷貿易のピーク)の英国貿易におけるデータに基づいて、地域による比例的寄与の推定を提示し、アンゴラおよびビアフラ湾が北米本土へ輸入された奴隷の最高数を与える領域であることを示した(それぞれ、約25%)。しかしながら、米国における入場の港に依存して民族起源において有意な差があり、ヴァージニアおよびサウスカロライナの植民地についての数字はかなり異なった。

アフリカ系アメリカ人の歴史は、アフリカからの強制移住によるだけでなく、ヨーロッパ人および先住アメリカ人とを含む、彼らが北アメリカに着いた時に出会った他の民族群との混合によっても特徴付けられた。しかしながら、混合の問題を扱う歴史的記録はほとんどない。さらに、奴隷制度の廃止から現在までの期間に、現アフリカ系アメリカ人集団を形成した重要な因子があった。特別な対象となるのは、過去150年間に渡って米国内でのアフリカ系アメリカ人の移住のパターンである。この意味において、19世紀中の南部諸州におけるアフリカ系アメリカ人の再分布、および第一次世界大戦後に始まる田舎の南部から北部の都市地域への大移住が特に関連があり、米国におけるアフリカ系アメリカ人集団の現分布を定めるにおいて莫大な影響力を与えていた(JohnsonおよびCampbell、Black Migration in American: A Social Demographic History; Duke University Press、ダラム、NC、1981)。

ヒスパニックに関して、用語「ヒスパニック」は、主に政治上の人口統計的目的のために造り出され、一般的に、米国に住んでいる、ラテンアメリカ人起源または家系の人を同定するために用いられる。この定義は、非常に異なる歴史的、文化的および言語的背景をもつ人々をいっしょにひとまとめにするが、この分類が広く用いられてきた。中央アメリカ、カリブ海および南アメリカは、何世紀もの間、イベリア帝国の政権(スペインおよびポルトガル)の支配下にあったが、彼らは、植民地時代の前も後も、全く異なる地域の歴史をもっていた。四大陸、北および南アメリカ、ヨーロッパならびにアフリカ、由来の集団は、現代のヒスパニック集団の形成に寄与した。米国に現在住んでいる主な3つのヒスパニック群 − メキシコ系アメリカ人、プエルトリコ人およびキューバ系アメリカ人、併せて、全米国ヒスパニック集団の80%より多くを構成する − の人類学的背景がここで考慮される。

メキシコ系アメリカ人は、3つの前記の群のうち最も高いアメリカインディアンの寄与を示す。16世紀の初頭におけるスペインのメキシコ征服後まもなく、スペイン人男性のアメリカインディアン女性との混合が、結果として、だんだん重要性を増す混合された集団(メスティーソ)を生じ、この人種混合は、「ヌエバエスパーニャ(New Spain)」におけるスペイン支配の3世紀を通して続き、メキシコ人集団を生物学的および文化的の両方ともに形成した。推定の大多数は、30%と40%の間の範囲であるメキシコ系アメリカ人におけるアメリカインディアン構成要素を示した(Hanisら、前記、1986；Longら、1991；Hanisら、Diabetes Care 14:618-627、1991；Merriwetherら、Amer. J. Phys. Anthrop. 102:153-159、1997)。そのうえ、興味深いので指摘するが、いくつかの研究が、社会経済的地位に依存するアメリカインディアン祖先の量における差を示した(Chakrabortyら、Genet. Epidemiol. 3:435-454、1986；Mitchellら、Ethnicity and Disease 3:22-31、1992)。スペイン支配の間のメキシコ属領に実質的なアフリカ人存在もあった。Curtin(前記、1969)は、奴隷貿易の全期間中にメキシコへ輸入されたアフリカ人の総数を約200,000人であると推定した。しかしながら、メキシコ人の遺伝子プールへの彼らの寄与は、ヨーロッパ人およびアメリカインディアンの寄与よりはるかに低くく、ゼロから10%までの範囲であると推定された(例えば、Hanisら、前記、1991を参照)。

カリブ海植民地(キューバおよびプエルトリコ)において、状況は本土とは非常に異なった。先住アメリカ人集団は、はるかに小さく、ヨーロッパ人との最初の接触後まもなくすぐ、苦役および疾患により多くが死んだ。にもかかわらず、植民地化の初期の間の混合の比率は、結果として、アラワク族およびカリブ人、ヒスパニックカリブ人の原住民、からの評価できる遺伝的寄与(約18%)を生じるのに十分高かった(Hanisら、前記、1991)。この領域のもう一つの示差的特徴は、有意なアフリカ人の影響であり、キューバ、プエルトリコおよびドミニカ共和国のような国の現在の社会の多くの局面においても反映されている。アフリカ人奴隷は、大勢で砂糖プランテーションで働くために輸入され、ヨーロッパ人起源の集団を数でまさるまでにもなった(KanellosおよびPerez、Chronology of Hispanic-American history: from pre-Cloumbian times to the present；ニューヨーク、Gale Research、1995)。従って、現代のキューバ人(20%)およびプエルトリコ人(37%)におけるアフリカ人の遺伝的寄与のパーセンテージは、他のヒスパニック集団においてより有意に高い(Hanisら、前記、1991)。

人種が複雑な概念であり、一般的な用法において、人または人々の群の文化的および生物学的の両方の特徴を反映している。集団間の身体的差がしばしば、文化的差を伴うという事実を仮定すれば、これらの2つの要素を分離することは困難であった。人種は単に社会的構築物にすぎないと言明し、その論点を単純化しすぎる動きが科学のいくつかの分野にあった。これはしばしば、人々の間での変動の何の局面が考慮されることになっているかに依存して、真でありうるが、世界の集団間の差の多くの特定の事例にとって偽りでありうる。生物学的差の1つの明らかな例は、皮膚の色である。文化または環境は、人の皮膚における色素形成のレベルにほとんど影響を及ぼさない。今なお、集団に渡って劇的な差がある。色素形成は、もちろん、ただ皮だけであり、我々が住んでいる複雑な環境、ならびにこれらが個体および群の生活の質にどれくらい影響を及ぼすかという観点からすれば全く単純である。

ヒトの種は比較的若く、種として、100,000年前、東アフリカに源を発する可能性が最も高く、群として分岐し地球に定住した(Cavalli-SforzaおよびCavalli-Sforza、The Great Human Diasporas. The History of Diversity and Evolution (Perseus Books、ケンブリッジ、MA、1995))。これらの移住の間、およびそれ以来ずっと、世界の様々な大陸に定住する集団の独立した進展が幾分かあった。この進展の最も単純な証拠は、遺伝マーカーでの対立遺伝子頻度における差に見られる。一般的に、1つの集団に見出される対立遺伝子はまた、すべての集団にも見出され、1つの集団において最もありふれている対立遺伝子はまた、他においてもありふれている。集団間のこれらの類似性は、すべての集団の最近の共通起源に光を当てる。しかしながら、集団間で異なる遺伝マーカーの例があり、本明細書で開示されているように、これらのマーカー、AIM、は人または集団の祖先の起源を推定するために用いられうる。

本発明は、検査個体の少なくとも2つの祖先群の比例的祖先を推定する方法を提供し、特に、比例的祖先に関して信頼水準を提供する。本発明の方法は、検査個体の核酸分子を含む試料を、調べられる各祖先群についてのBGAを示す少なくとも約10個のAIMのパネルのSNPのヌクレオチド出現を検出することができるハイブリダイズするオリゴヌクレオチドに接触させる段階であって、接触段階が、ハイブリダイズするオリゴヌクレオチドにより検査個体のAIMのヌクレオチド出現を検出するのに適した条件下である、段階；および、所定の信頼水準を以て、調べられる祖先群のそれぞれのAIMのヌクレオチド出現と相関する集団構造を同定する段階であって、集団構造が比例的祖先を示している、段階により行われうる。

用語「生物地理学的祖先」または「BGA」は、人種の生物学的または遺伝学的構成要素を記載するために本明細書に用いられる。BGAは、主な集団群(例えば、先住アメリカ人、東アジア人、インドヨーロッパ人、およびサハラ以南アフリカ人)の言葉による、人の祖先の起源の簡単かつ客観的な記載である。BGA推定は、今日の多くの人々および集団の混合された性質を表すことができる。米国を含む多くの国々において、最初は分離されていた集団間に広範囲な混合があった。用語「混合(admixture)」は、そのような集団混合を指すために本明細書に用いられる。この点で、BGA推定は、合計100%となる一連のパーセンテージの形をとる、個体の混合割合として理解されうる。例えば、ある人は、75%インドヨーロッパ人、15%アフリカ人および10%先住アメリカ人をもちうる、または100%インドヨーロッパ人祖先をもちうるなど。

本発明の方法により推定された比例的祖先は、例えば、サハラ以南アフリカ人、先住アメリカ人、インドヨーロッパ人、東アジア人、中東人、または太平洋諸島系の祖先群を含む任意の祖先群の割合でありうり、一般的には、そのような祖先群の2つまたはそれ以上の組み合わせである。このように、検査個体の比例的祖先は、サハラ以南アフリカ人およびインドヨーロッパ人祖先群間の比例的所属を含みうる(例えば、80%サハラ以南アフリカ人および20%インドヨーロッパ人；または60%サハラ以南アフリカ人、20%インドヨーロッパ人および20%の第三の祖先群)；または先住アメリカ人およびインドヨーロッパ人祖先群；東アジア人および先住アメリカ人祖先群；インドヨーロッパ人および東アジア人祖先群などの間の比例的所属を含みうる。

推定は、例えば、3つの祖先群に関する個体の比例的祖先でなされる。この方法において、検査個体のAIMのヌクレオチド出現と相関する個体内の集団構造を同定することは、サハラ以南アフリカ人祖先群、先住アメリカ人祖先群、インドヨーロッパ人祖先群および東アジア人祖先群のそれぞれについて所属の尤度決定を行う段階；その後、個体について最も大きい尤度値をもつ3つの祖先群を選択する段階；最も大きい尤度値をもつ3つの祖先群の中ですべての可能な比例的所属の尤度を決定する段階であって、それにより、検査個体のAIMのヌクレオチド出現と相関する集団構造または比例的所属が同定される、段階；ならびに最大尤度のたった1つの比例的組み合わせを同定する段階により実施されうる。または、AIMのヌクレオチド出現と相関する集団構造を同定することは、それぞれの他の群と比較した各群の所属についての尤度決定を含む6つの二元(二項の)比較を行う段階；その後、すべての比較に渡って最も大きい尤度値をもつ3つの祖先群を選択する段階；最も大きい尤度値をもつ3つの祖先群の中ですべての可能な比例的所属の尤度を決定する段階であって、それにより、検査個体のAIMのヌクレオチド出現と相関する集団構造または比例的所属が同定される、段階；および最大尤度のたった1つの比例的組み合わせを同定する段階により実施されうる。そのような方法は、三元混合の個体に対してに加えて、単一の群に100%所属している個体にも働く。

3つの祖先群の割合を含む個体の比例的祖先の推定はまた、群間で3つの三元比較を行う段階；最も大きい尤度値をもつ3つの祖先群の中でのすべての可能な比例的所属の尤度を決定する段階であって、それにより検査個体のAIMのヌクレオチド出現と相関する集団構造または比例的所属が同定される、段階；および最大尤度のたった1つの比例的組み合わせを同定する段階によりなされうる。本方法の利点は、3つの祖先群の比較のグラフ表示が作成されうることであり、グラフ表示は、各祖先群が三角形の頂点により独立して表されている、三角形を含み、かつ個体についての比例的所属の最大尤度値は、三角形内の点を含む(図2および3を参照)。望ましい場合には、グラフ表示は、比例的祖先を推定することに伴う信頼水準を示す信頼等高線をさらに含みうる。

個体の比例的祖先の推定はまた、比例的祖先が4つの祖先群の割合を含むところにおいてなされうる。この方法の様々な局面において、検査個体のAIMのヌクレオチド出現と相関する集団構造を同定することは、群の間で、6つの二元比較を行う段階、または3つの三元比較を行う段階、または1つの四元比較を行う段階；最も大きい尤度値をもつ4つの祖先群の中でのすべての可能な比例的所属の尤度を決定する段階であって、それにより検査個体のAIMのヌクレオチド出現と相関する集団構造または比例的所属が同定される、段階；および最大尤度のたった1つの比例的組み合わせを同定する段階により実施される。望ましい場合には、方法は、4つの祖先群の比較のグラフ表示を作成する段階をさらに含みうり、グラフ表示は、各祖先群がピラミッドの頂点により独立して表されている、ピラミッドを含み、かつ個体についての比例的所属の最大尤度値は、ピラミッド内の点を含む。望ましい場合には、グラフ表示は、その点を中心とした球を含む信頼等高線をさらに含みうり、球は、比例的祖先を推定することに伴う信頼水準を示す。

本明細書に開示されているように、そのような方法は、例えば、法医学のツールとして有用である。犯罪現場で得られたDNA試料を用いて、方法は、髪、皮膚および目の色素形成に加えて、個体祖先の尤度に関する予想される情報を捜査員に提供することができるため、本方法は、法医学に実質的により多くの情報を提供する。比較して、現在のDNA方法は、それらが、犯罪現場からのDNA試料がデータベースに含まれる、または特定の個体から採取されたDNA試料と比較されることを必要とするため、遡及的情報を与えるのみである。このように、後者の方法は、容疑者が犯罪の犯人である可能性が高いという確証を与えることができるが、容疑者のDNA試料がすでにデータベースへ入力されている場合を除き、容疑者が逮捕されるまで有用な情報を提供しない。

本明細書に開示されているように、検査個体の比例的祖先を推定する方法はまた、一般的に地政学的情報を用いて確立された関係に基づいている系統情報を補うことができるツールを提供する(実施例3参照)。例えば、本方法は、世界の祖先地図を作成するために用いられうる情報を提供し、検査個体の比例的祖先に対応する比例的祖先をもつ集団の位置が祖先地図に示される。それとして、方法は、祖先地図を系統地図でオーバーレイする段階であって、系統地図が検査個体に関して地政学的関連性をもつ集団の位置を示す、段階、および検査個体の家系の最も可能性が高い推定が得られるように祖先地図と系統地図の情報を統計的に結合する段階をさらに含みうる。

本発明の方法により、AIMのヌクレオチド出現と相関する集団構造を同定することは、検査個体のAIMのヌクレオチド出現を、BGAを示すAIMのヌクレオチド出現に対応する既知の比例的祖先と比較することにより行われうる。BGAを示すAIMのヌクレオチド出現に対応する既知の比例的祖先は、表もしくは他のリストに含まれうり、検査個体のヌクレオチド出現は、視覚的に表もしくはリストに比較されうる、またはデータベースに含まれうり、比較は、例えば、コンピューターを用いて、電子的になされうる。本発明の方法の特に有用な適用は、BGAを示すAIMのヌクレオチド出現に対応する既知の比例的祖先を、既知の比例的祖先が決定された人の写真と結びつけ、それに従って、検査個体の身体的特徴をさらに推論する手段を提供することを含む。一つの局面において、写真はデジタル写真であり、デジタル写真のそのようなデジタル情報の複数をさらに含みうるデータベースに含まれうるデジタル情報を含み、それぞれは、写真における人のBGAを示すAIMのヌクレオチド出現に対応する既知の比例的祖先と結びつけられる。

本発明の方法は、検査個体の比例的祖先に対応する比例的祖先をもつ人の写真を同定することをさらに含みうる。そのような同定は、写真の1つまたは複数のファイルを手で調べることによりなされうり、写真は、例えば、写真における人のAIMのヌクレオチド出現に従って系統立てられている。写真を同定することはまた、各ファイルが、既知の比例的祖先をもつ人のデジタル写真に対応するデジタル情報を含んでいる、複数のファイルを含むデータベースをスキャンする段階、および検査個体のBGAを示すAIMのヌクレオチド出現に一致するBGAを示すAIMのヌクレオチド出現をもつ人の少なくとも1つの写真を同定する段階により行われうる。

本発明により、BGAは、開示されたBGA検査のいくつかのバリエーションのいずれかを用いて測定されうり、多数の十分定義された集団サンプルにおいて特徴付けられた祖先情報提供マーカー(AIM)の選択されたパネルを利用する、ANCESTRYbyDNA(商標)1.0検査、ANCESTRYbyDNA(商標)2.0検査、およびANCESTRYbyDNA(商標)3.0検査(DNAPrint genomics, Inc.；サラソタ、FL)と呼ばれる3つのBGA検査を含む。AIMは、集団群間での頻度における実質的な差の表示を基礎として選択され、それとして、祖先が別な方法では知られていない特定の人の起源に関する情報を提供する。例えば、Duffy Null対立遺伝子(FY^＊0)は、すべてのサハラ以南アフリカ人集団において非常にありふれているが(定着または100%の対立遺伝子頻度にほぼ等しい)、アフリカの外側では見出されない。このように、この対立遺伝子をもつ人は、アフリカ人祖先のいくらかのレベルをもつ可能性が非常に高い。未知の起源の人からのDNA試料におけるAIMの解析において、親集団の可能な混合のすべてを計算することにより人が特定の親集団に由来しているという尤度(または確率)が決定されうる。尤度が最高である集団(または集団の組み合わせ)は、その人の祖先の割合の最良推定として採用される；祖先の割合のこれらの点推定における信頼区間もまた計算される。

ヒト祖先の生物学的構成要素の客観的評価は、DNAが調べられるヒトについて重要な知識を提供する。例えば、祖先の生物学的構成要素の解析は、例えば、アフリカ系アメリカ人における高血圧症および糖尿病のより高い比率、またはヨーロッパ系アメリカ人における痴呆症のより高い比率への遺伝的寄与を同定することにより健康不同性を解明することができる。BGAの推定はまた、養子縁組またはいくつかの他の事件により引き離された個体を彼らの祖先集団と出会うのを助けることができる。たとえ、人が祖先と再び出会うことに特に動かされないとしても、彼または彼女は、彼らの家族の過去の覆いをとり、例えば、家族の言い伝えを検証する、または忘れられたルーツを同定することができる。開示された方法はDNAの解析に基づいているため、それは、人口調査とは違って、高度に正確な人口統計データを提供することができる個人的人口統計ツールを提供する。

ミトコンドリアDNA(mtDNA)またはY染色体マーカーを解析するいくつかの商業的に入手可能な検査があり、1人の祖先の起源を知る手段として販売促進された。これらの検査は、人の祖先の一部の起源に関する情報を提供することができるが、検査は非常に制限されている。例えば、1世代前、人は2人の祖先、1人の母親および1人の父親、をもつ；5世代前、人は32人の祖先をもつ；一方、10世代前、人は1024人の祖先をもつ。10世代は、ざっと250年間であり、特に、例えば北アメリカの定住を考慮する場合、十分、系統的対象となる時間枠内である。mtDNAおよびY染色体検査は、ゲノムの小さな部分を見るのみであるため(それぞれ、母系および父系系統)、それらは、人の祖先の非常に小さな部分に関して情報を提供できるだけである。本発明のBGA検査は、人のゲノム中を通じての配列を利用し、それゆえに、より多数の祖先についての情報を提供することができる。

従って、本発明は、所定の信頼水準を以て、検査個体の少なくとも2つの祖先群の比例的祖先を推定する方法を提供する。そのような方法は、「生物地理学的祖先検査」または「BGA検査」と呼ばれているが、例えば、検査個体の核酸分子を含む試料を、調べられる各祖先群についてのBGAを示す少なくとも約10個のAIMのパネルのSNPのヌクレオチド出現を検出することができるハイブリダイズするオリゴヌクレオチドと接触させる段階であって、接触段階が、ハイブリダイズするオリゴヌクレオチドにより検査個体のAIMのヌクレオチド出現を検出するのに適した条件下においてである、段階；および調べられる祖先群のそれぞれのAIMのヌクレオチド出現と相関する集団構造を、所定の信頼水準を以て同定する段階であって、集団構造が比例的祖先を示している、段階により行われうる。

本明細書に用いられる場合、用語「比例的祖先」は、個体が属するそれぞれの(1つより多い場合)祖先群のパーセント寄与を指す。本発明の方法により推定された比例的祖先は、例えば、サハラ以南アフリカ人、先住アメリカ人、インドヨーロッパ人、東アジア人、中東人、または太平洋諸島系祖先群の割合を含む任意の祖先群の割合でありうり、一般的には、そのような祖先群の2つまたはそれ以上の組み合わせである。このように、検査個体の比例的祖先は、サハラ以南アフリカ人およびインドヨーロッパ人祖先群の割合を含みうる(例えば、80%サハラ以南アフリカ人および20%インドヨーロッパ人；または60%サハラ以南アフリカ人、20%インドヨーロッパ人、および20%の第三の祖先群)；または先住アメリカ人およびインドヨーロッパ人祖先群；東アジア人および先住アメリカ人祖先群；インドヨーロッパ人および東アジア人祖先群などの割合を含みうる。同様に、比例的祖先は、先住アメリカ人、東アジア人およびインドヨーロッパ人祖先群；サハラ以南アフリカ人、先住アメリカ人およびインドヨーロッパ人祖先群；サハラ以南アフリカ人、先住アメリカ人および東アジア人祖先群などの割合を含みうる。

個体の比例的祖先を推定するために有用なAIMのパネルは、配列番号：1〜331に示されるAIM、例えば、インドヨーロッパ人、サハラ以南アフリカ人、東アジア人および先住アメリカ人を含む比例的祖先を測定するために有用でありうる配列番号：1〜71に示されるAIM、を含みうる。例えば、配列番号：7、21、23、27、45、54、59、63および72〜152に示されるAIMは、東アジア人およびサハラ以南アフリカ人の比例的祖先を測定するために有用でありうる；配列番号：3、8、9、11、12、33、40、59、63および153〜239に示されるAIMは、東アジア人およびインドヨーロッパ人の比例的祖先を測定するために有用でありうる；ならびに配列番号：1、8、11、21、24、40、172および240〜331に示されるAIMは、インドヨーロッパ人およびサハラ以南アフリカ人の比例的祖先を測定するために有用でありうる。

ANCESTRYbyDNA(商標)1.0検査(DNAPrint genomics, Inc.)は、大陸レベルでの祖先の割合において情報を提供するように特異的に設計されたBGA検査の第一バージョンである。それとして、ANCESTRYbyDNA(商標)1.0検査は、3つの構成要素群として、先住アメリカ人、ヨーロッパ人およびアフリカ人祖先のレベルに関して情報が得られることを可能にする。ANCESTRYbyDNA(商標)2.0検査は、比較して、先住アメリカ人、インドヨーロッパ人(ヨーロッパ人、中東人およびインド人のような南アジア人群を含む)、アフリカ人および東アジア人(太平洋諸島系を含む)を含む、たいていの大陸について大陸レベルでの祖先の割合において情報を提供し、アジアおよび環太平洋地域内で祖先を区別することができる。ANCESTRYbyDNA(商標)3.0検査は、例えば、日本人と中国人、または北ヨーロッパ人と中東人を区別することにより、大陸内で祖先のレベルをさらに限定することができ、それに従って、特定の大陸内で人の祖先がどこに由来しているのかということへのより深い洞察を与える。

ANCESTRYbyDNA(商標)2.0検査について、4つのBGA図への論理的分類がなされ、南アジア人、中東人およびヨーロッパ人は、インドヨーロッパ人と呼ばれる単一の群へ分類されている(実施例2参照)。この分類は、これらの群間の人類学的証拠および文化的結びつき(例えば、彼らの言語は共通の母体に由来している)。本明細書に開示された結果は、これらの群が、他の群とよりも遺伝子配列内容においてお互いにはるかに類似していることを実証している。ANCESTRYbyDNA(商標)2.0検査はまた、太平洋諸島系が東アジア人といっしょに分類される場合、より正確に実行される。それとして、ANCESTRYbyDNA(商標)2.0検査に用いられる4つの分類は、1)先住アメリカ人(すなわち、移住して南および北アメリカに居住した人々)；2)インドヨーロッパ人(ヨーロッパ人、中東人およびインド人のような南アジア人)；3)東アジア人(日本人、中国人、朝鮮人、太平洋諸島系)；および4)アフリカ人(サハラ以南)を含む。ANCESTRYbyDNA(商標)3.0検査は、さらに、南アジア人とヨーロッパ人、および太平洋諸島系と東アジア人を区別することができ、それに従って、6部分(先住アメリカ人、ヨーロッパ人、アフリカ人、南アジア人、東アジア人および太平洋諸島系)を提供するが、信頼区間は、ANCESTRYbyDNA(商標)2.0検査で得られるものよりも大きい。検査へのさらなる改善が与えられ、信頼区間は減少している。補足的パネルを解析し、それにより信頼区間を約50%、改善させることにより、点推定を中心とする信頼区間は減少し、それに従って、検査の正確さを増加させることができる。

祖先の割合を決定するために用いられるアルゴリズムは、個体の試料における祖先の比例をそれらの配列に基づいて推論するために特定の統計的方法を用いることが可能であるという考えに基づいて開発された(実施例6参照；表12も参照)。本アルゴリズムを用いてこの推論をする方法は、他のもののそれと類似しており、集団における対立遺伝子頻度が既知であり、かつこの頻度が集団から集団まで有意に異なる場合には、「最大尤推定値」(MLE)が、その対立遺伝子をもつ人が群の1つに属する確率を決定するために用いられうる。複数の遺伝子座由来の複対立遺伝子および複数の集団を含むように拡大される場合、過程は同じである。簡約として、ベイズの定理は、状況を仮定した場合の事象の確率(事後確率と呼ばれる)は、事象を仮定した場合の状況の頻度(条件付き確率)および事象自身の頻度(事前確率)の関数であると述べている。可能な事象の広い範囲について状況を仮定した場合の事象の確率を決定することにより、最高確率をもつものが選択され、それに従って、確率についてのMLEを得ることができる。

本アルゴリズムにおいて、事象は祖先の比例であり、状況は個体の遺伝子型である。人間の2つの集団における10個のSNPについての少数対立遺伝子頻度が既知であり、かつ10個のSNPのそれぞれにおける人の配列が既知である場合には、2つの群の1つへの簡単な二項分類が、条件付き確率が最も高いものを選択することによりなされうる。これは、DNA試料からBGAを測定するための現行の方法に対してほとんど改善を示していない。本発明により提供されるものは、祖先のより複雑かつ現実的なシナリオについて祖先の比例を得る能力である。99%アフリカ人、1%ヨーロッパ人、0%先住アメリカ人、0%東アジア人；または98%アフリカ人、1%ヨーロッパ人、1%先住アメリカ人、0%東アジア人などのような多くの可能な組み合わせがある。何千という可能性のそれぞれについて事後確率は、彼または彼女の多座位遺伝子型(すなわち、多くのAIMの遺伝子型)を仮定した場合、任意の特定の個体について同じではなく、実際、各遺伝子型について最高の事後確率または尤度をもつものがある。本アルゴリズムが選択するのはこの組み合わせである(すなわち、MLE)。

以前の方法は、推定の信頼がわからなかったという点において制限されていた。本アルゴリズムは、信頼水準が確かめられうるように、MLEを中心とした信頼領域をプロットすることを含む、MLEをグラフを用いてプロットすることによりこの制限に取り組んでいる(図2および3参照)。さらに、MLE計算を行うアルゴリズム(すなわち、ソフロウェアコード)は、著しく効率的な様式で動作する。アルゴリズムにより提供される三角形プロットは、MLE計算およびそれらの信頼区間をグラフで表す独創的な方法である。三角形プロットを読むために(下記参照)、垂線が、三角形の各頂点(三角形の点)から三角形の向かい側の辺(底辺)へ下ろされる(図2A参照)。この図において、円はMLEを表し、線は、先住アメリカ人(NAM)頂点から下の線まで下ろされている；線は、底辺における0%から頂点(または先端)における100%までの、先住アメリカ人祖先のパーセンテージについての尺度として働く。この線上へ円を投影することは、円と同じレベルにおいて三角形の右側へフラッシュライトを保持すること、および円が線上に作る影を観察することを類推されうる。この影が線上に落ちる所が先住アメリカ人祖先のパーセンテージを示す。この例において、個体は、線上にハッシュマークにより示されているように、約15%先住アメリカ人である。

開示された方法を用いて与えられた結果は、個体について最も関連性のある3つの群の割合を表す三角形プロット上の点として示される、個体についてのBGA混合の統計的推定値(最大尤推定値(MLE))を提供する。MLEは最も可能性が高い推定値であるが、個体についての真の値は割合の異なるセットでありうる。MLEより2倍、5倍および10倍、可能性が低い、計算およびプロットされた推定値をもつ三角形プロットが例証されている。MLEを中心とした第一等高線は、推定値が2倍まで可能性が低い空間の範囲を定め、ほとんど2の値を反映している線近くのそれらの位置およびほとんど1のMLE近くのそれらを含む；MLEを中心とした第二等高線は、推定値が、第一等高線から第二等高線まで続行する同じ段階的様式において5倍可能性が低い空間の範囲を定める。第三等高線は、推定値が、5倍(第二等高線近く)から10倍(第三等高線近く)まで可能性が低い空間の範囲を定める。DNA位置の数を読むのが多ければ多いほど、これらの等高線はMLE点に、より近くに近づく。三角形プロット上において、真の値がMLEとは異なる点で表されるという尤度(確率)は、MLEにぶつかるまで増加し、そこにおいて確率が最大である(すなわち、最大尤推定値；MLE)。検定は、マーカーの非常に大きな集合をシーケンシングすることにより、等高線がMLEに極めて近くになるように行われうる。しかしながら、検定を手頃でかつ効率的に保つために、調査は、優良な信頼度を以て最も可能性の高い割合を測定するのに十分であるマーカーの望ましい数(例えば、10個、15個、20個、25個、30個、40個、50個、60個、70個、80個、90個、100個またはそれ以上)に制限されうる。この点では、100個のSNPマーカーの様々な異なるパネルが調べられており、71個のAIMのパネルは、多数の研究において用いられ、175個のAIMのパネルは、真の信頼が達成されるように調べられることになっている。

本発明のBGA検査は、様々なヒト集団においてDNA配列変異体の頻度を測定することにより確証されている。さらに、検査は、広い範囲の祖先群由来の多数の人々を用いて評価されており、推定は、人類学的および歴史的データから知られているものと十分一致していた。例えば、ヒスパニックは、植民地のヨーロッパ人の先住アメリカ人との混合からの民族群として生まれたことが知られており、BGA検査を用いて調べられた何百人というヒスパニックは、ほとんど独占的にこれらの2つの群について整列した。もう一つの例として、ナイジェリア人はほとんど純粋なアフリカ人BGAをもつとしてプロットするが、アフリカ系アメリカ人は、米国におけるアフリカ人とヨーロッパ人との間の混合についての知識から予想されることであるが、この群とヨーロッパ人の間の混合としてより多くプロットする。

方法はまた、血統挑戦を通じて確証された(実施例1参照)；すなわち、BGAが母親および父親から決定される場合、それらの子どものそれはその2人の間のどこかにプロットするはずである。多数の家系図がその検査を用いて調べられ、子どもの祖先の割合は、子どもの両親のそれらの間に常にプロットした。MLE推定が客観的に(目隠しして)検査される場合、それらは祖先の割合の優秀な推定であると証明される。例えば、母親がヨーロッパ人混合であり、父親がほとんどギリシャ人であるヨーロッパ系アメリカ人男性についてのデータは、その男性が85%ヨーロッパ人祖先をもつが、15%先住アメリカ人祖先ももつことを示した(実施例1)。実際、彼の父方の曾祖母は純血のチェロキー族であり、このように検査の結果を確証させた(遺伝学の法則に基づき、その男性は、彼の曾祖母が100%先住アメリカ人であり、かつ彼の他の親族の誰も先住アメリカ人祖先をもたなかった場合には、12%先住アメリカ人祖先をもつことが予想される)。さらに、男性の妻はメキシコ人であり、彼女はほとんど先住アメリカ人であることが測定されたが、いくらかの先住アメリカ人およびアフリカ人ヘリテージをもった。これは、植民地のカリブ海およびラテンアメリカにおけるスペイン人探検家と先住アメリカ人との結婚に由来するヒスパニックの人類学的起源から知られていることに基づいても予想された。その男性と女性の3人の子どものそれぞれは、予想通り、おおよそ、両親の間の中間点でプロットした。どの子どももアジア人または太平洋諸島系祖先を少しも示さなかったが、両親のどちらも少しの有意なアジア人または太平洋諸島系ヘリテージも示さなかったため、不可能であっただろうし(正確な検査を仮定する場合)、どの子どもも彼らの母親より多いアフリカ人祖先をもたないことが見出されたが、父親が実質的にもたないという事実を仮定すれば、それもまた不可能であろう。このように、子どもの結果は、両親のそれらと矛盾がなく、MLE値は、伝記上データから知られていることに対して検定された場合、正確な推定であった。

今までのところ測定された遺伝子型(ヌクレオチド文字)は全く正確である。入手可能な最新の遺伝子読み取り装置が用いられるため、99%正確さより大きい正確さが各部位について日常的に達成される。正確な値が特定の試料における特定部位について得られなかった場合には、その部位についての遺伝子型文字の代わりに、「FL」が示される。少しのFLをもつことは、一般的に、優良な祖先推定を妨げない。試料は、部位についてFLを生じうる、なぜなら、例えば、この部位の周りの染色体の小領域が欠損している、もしくは大部分についてとは異なる配列の特徴をもつからである；またはDNA試料を収集するために用いられた頬側塗布から十分なDNAが得られなかったからである。

ゲノムは、BGA AIMの有用なパネルについてスキャンされ、BGA混合割合を測定するための最尤法アルゴリズムを用いて同定された最良の71個のAIMが選択された(表6)。これらのAIMを用いて、大部分BGA所属は、BGAに関する自己保有概念と一致した様式で測定でき、BGA混合割合は、人種の推論について以前に記載された方法と比較して、有意に改善された精度、正確さおよび信頼性を以て測定できた(実施例2参照；32個のマーカー試験を用いる実施例1も参照)。この検査は、隠れたもしくは微小な集団構造が課する狡猾な影響を低下させるまたは排除するのを助けるために研究設計中に用いられうる。検査はまた、犯罪現場DNAから人種を推論するために精度が悪く、かつ時々不正確な手段を現在用いている法医学科学者にとって有用でありうる。

本発明はまた、1枚または複数の写真を含む製品を提供し、各写真は、BGAを示すAIMのヌクレオチド出現を含む集団構造に対応する既知の比例的祖先をもつ人のものであり、既知の比例的祖先は、品における写真と結びつけられている。本発明の製品(すなわち、写真および比例的祖先情報)は、1つまたは複数のファイルに含まれうる(例えば、1つのファイルに写真および情報、または1つのファイルに写真、かつ写真にリンクしているもしくはリンクされうる第二のファイルに情報)。望ましい場合には、既知の比例的祖先をもつ個体の1枚より多い写真が同じまたはリンクされたファイルに含まれうる、例えば、個体の異なるプロフィールを含む写真または様々な年齢での個体の写真。

同様に、複数の品(すなわち、写真および比例的祖先情報)は1つのファイルに含まれうる、例えば、異なる人の複数の写真を含むファイルであり、その人達の一部またはすべては、BGAを示すAIMのヌクレオチド出現を含む集団構造に対応する同じまたは異なる既知の比例的祖先をもっている。そのような複数の品はまた、異なるファイルに含まれうる、例えば、それぞれが1枚の写真および写真における個体の既知の比例的祖先に関する情報を含んでいる、またはそれぞれが異なる個体の2枚またはそれ以上の写真を含んでいて、その個体のそれぞれが同じ既知の比例的祖先を含む、またはそれぞれが異なる個体の2枚またはそれ以上の写真を含んでいて、個体の一部またはすべてが、写真がそのファイルに含まれている別の個体と比較して異なる比例的祖先をもつ、複数のファイルを含む。従って、複数のそのような品が提供され、複数のファイルも提供されるのだが、各ファイルが、BGAを示すAIMのヌクレオチド出現を含む集団構造に対応する同じもしくは異なる既知の比例的祖先をもつ1人または複数の人のものでありうる、1つまたは複数の品、すなわち写真、を含むことができる；およびその複数のファイルは、それぞれが1人もしくは複数の人の1枚または複数の写真を含み、かつ2人もしくはそれ以上の異なる人の1枚または複数の写真を含む場合、その異なる人は同じまたは異なる既知の比例的祖先をもちうる、ファイルを含みうる。

製品、すなわち、BGAを示すAIMのヌクレオチド出現を含む集団構造に対応する既知の比例的祖先をもつ人の写真は、デジタル写真でありうり、写真画像について、および関連性がありうるまたは所望されうる任意の他の情報(例えば、写真における対象者の年齢、名前もしくは連絡情報、または対象者は彼もしくは彼女の祖先が何であるかと考えているかに関する質問票についての対象者の回答)を含むデジタル情報を含む。1枚または複数のデジタル写真のそのようなデジタル情報は、データベースに含まれうり、それに従って、電子的手段を用いて写真および/または既知の比例的祖先情報の検索を容易にする。それとして、本発明は、それぞれがデジタル情報を含む少なくとも2枚のデジタル写真を含む、複数の製品をさらに提供する。1つまたは複数の品についてのデジタル情報がデータベースに含まれているところにおいて、それは、例えば、コンピューターハードウェアもしくはソフトウェア、磁気テープ、またはフロッピーディスク、CDもしくはDVDのようなコンピューターディスクを含む、そのようなデータベースを含むのに適した任意の媒体に含まれうる。それとして、データベースは、その中にデータベースを含むことができる、データベースを含む媒体を受け入れることができる、または有線もしくは無線のネットワーク、例えば、イントラネットもしくはインターネット、を通してデータベースにアクセスすることができる、コンピューターによりアクセスされうる。

本発明はまた、本発明の方法を実施するために有用なキットを提供する。そのようなキットは、例えば、複数のハイブリダイズするオリゴヌクレオチドを含みうり、それぞれが配列番号：1〜331に示されるポリヌクレオチド(またはそれらに相補的なポリヌクレオチド)の少なくとも15個の連続したヌクレオチドの長さをもち、その複数がそのようなオリゴヌクレオチドの少なくとも5つ(例えば、5、6、7、8、9、10、15、20、25、30など)を含み、それぞれが配列番号：1〜331に示される異なるポリヌクレオチドに基づいている。一つの態様において、ハイブリダイズするオリゴヌクレオチドは、少なくとも5つの、配列番号：1〜71に示されるポリヌクレオチド、または配列番号：1〜71のいずれかに相補的なポリヌクレオチドの、少なくとも15個の連続したヌクレオチドを含む。もう一つの態様において、ハイブリダイズするオリゴヌクレオチドは、配列番号：1〜71に示される少なくとも10個のAIMに特異的である。本発明のキットはまた、例えば、配列番号：7、21、23、27、45、54、59、63および72〜152に示されるAIMに特異的な少なくとも5つ(例えば、5、6、7、8、9、10、11、12、13、14、15など)のハイブリダイズするオリゴヌクレオチドのパネル；または配列番号：3、8、9、11、12、33、40、59、63および153〜239に示されるAIMに特異的な少なくとも5つのハイブリダイズするオリゴヌクレオチドのパネル；または配列番号：1、8、11、21、24、40、172および240〜331に示されるAIMに特異的な少なくとも5つのハイブリダイズするオリゴヌクレオチドのパネル；または、そのようなパネルの2つもしくはそれ以上、および/もしくは配列番号：1〜71に示されるAIMに特異的な少なくとも5つのハイブリダイズするオリゴヌクレオチドのパネルを含む、そのようなハイブリダイズするオリゴヌクレオチドの少なくとも2つのパネルを含みうる。

本発明のキットのハイブリダイズするオリゴヌクレオチドは、AIMのSNP位置における特定のヌクレオチド出現を含む特定のAIMを検出するために有用であるプローブを含みうる；プライマー伸長反応に有用なプライマーおよび核酸増幅反応に有用なプライマー対を含む、プライマーを含みうる；またはそのようなプローブおよびプライマーの組み合わせを含みうる。その複数のハイブリダイズするオリゴヌクレオチドは、必要ではないが、AIMのSNPもしくはDIPのヌクレオチド位置、例えば、配列番号：1〜55および57〜331のいずれかに示されるAIMのヌクレオチド50位、もしくは配列番号：56のヌクレオチド26位、またはそれらに相補的なヌクレオチド配列について、に対応するヌクレオチドを含みうり、そのようなハイブリダイズするオリゴヌクレオチドは、AIMのSNP位置における特定のヌクレオチド出現の存在または非存在を同定するプローブとして有用である。

本発明のキットはまた、SNP位置におけるヌクレオチド出現またはAIMのDIP位置におけるヌクレオチド配列の存在もしくは非存在を検出するために有用な少なくとも1対のハイブリダイズするオリゴヌクレオチドを含みうる。例えば、1対のハイブリダイズするオリゴヌクレオチドは、AIMのSNP位置に隣接しかつ上流にハイブリダイズする1つのオリゴヌクレオチドおよびAIMのSNP位置に隣接しかつ下流にハイブリダイズする第二のオリゴヌクレオチドを含みうり、対の一方または他方は、AIMのSNP位置にあるのではないかと疑われるヌクレオチド出現(すなわち、多型ヌクレオチドの1つ)に相補的なヌクレオチドをさらに含み、そのような1対のハイブリダイズするオリゴヌクレオチドは、オリゴヌクレオチドライゲーションアッセイ法に有用である。もう一つの例において、1対のハイブリダイズするオリゴヌクレオチドは、フォワードプライマーおよびリバースプライマーを含む増幅プライマー対を含みうり、そのような1対のハイブリダイズするオリゴヌクレオチドは、AIMのSNPまたはDIP位置を含むポリヌクレオチド部分を増幅するために有用である。

以下の実施例は、例証するものであるが、本発明を限定するものではない。

実施例1
祖先情報提供マーカーを用いる生物地理学的祖先の測定
この実施例は、32個の祖先情報提供マーカー(AIM)がアフリカ人、ヨーロッパ人および先住アメリカ人の集団からの遺伝的寄与の推定を可能にすることを実証する。

例証された研究に用いられるAIMは、一塩基多型(SNP)、欠失/挿入多型(DIP)およびAlu配列を含む(AIMの同定について実施例2を参照)。30%より大きい親集団間の差を示すマーカーが選択された(表1；配列番号：332〜363も参照)。情報を与える遺伝マーカーは、混合推定のためのマーカーの有用性を確認するために、ヨーロッパ人(スペイン人およびドイツ人)、アフリカ人(ナイジェリア、シエラレオネおよび中央アフリカ共和国から)および先住アメリカ人(マヤ語族および南西部先住アメリカ人)集団のパネルにおいて各候補マーカーを試験することにより同定された。

（表１）祖先情報提供マーカーパネル

マーカー名および染色体バンド、メガベース(Mb)での染色体上におけるマーカーのおおよその位置、ならびにアフリカ人とヨーロッパ人集団(AF/EU)、アフリカ人と先住アメリカ人(AF/NA)およびヨーロッパ人と先住アメリカ人(EU/NA)の間での頻度における差が示されている。30%より大きい差は太字で示されている(参照として本明細書に組み入れられている、Shriverら、前記、2003も参照)。
^＊括弧内の数字はAIMについての配列番号である；NS - 示されていない配列。

公的に利用可能なヒトゲノム配列データベースおよび多型データベースを、優良なAIMであることの判定基準に合うSNPを同定するためにスクリーニングした。対立遺伝子頻度は、3つの集団 − アフリカ人、ヨーロッパ人およびアジア人、に関する公開データベースにおいてそのSNPの多数について入手可能である。これらの頻度は少数のサンプルから得られているため、それらは必ずしも正確であるとは限らない。本明細書での選択の主な判定基準は、これらの頻度を用いることに由来したデルタ値であり、人間の様々な集団間での少数対立遺伝子頻度における差の統計的尺度である。例えば、ヒトゲノムにおける特定の場所でのCまたはG多型は、Cがヨーロッパ人家系の個体に主として存在し、かつGが先住アメリカ人家系の個体に主として存在するのだが、高デルタ値をもち、それゆえに、優良なAIMの資格がある。同様に、ヒトゲノムにおける特定の場所でのAまたはC多型は、Aがアフリカ人家系の個体に主として存在し、かつCがアジア人家系の個体に主として存在するのだが、これらの群間に大きな頻度差、それゆえに、高デルタ値をもち、従って、優良なAIMの資格がある。そのような「候補」AIMのリストが集められ、可能なペアワイズ集団比較のそれぞれについて最も大きいデルタ値から最も小さいデルタ値まで並べられ、一度に1つずつ、「親の」サンプルのパネルに対してスクリーニングされた。親のサンプルは、比較的均一である世界の領域、例えば、サハラ以南アフリカ人についてニジェールまたはコンゴ、先住アメリカ人について南メキシコ、東アジア人について中国、およびヨーロッパ人についてヨーロッパ、由来のサンプルである。

候補AIMの約半分は、それらの実際のデルタ値が公開データベース対立遺伝子頻度から予想されるほど高くなかったため、非常に有用とは言えないことがわかった(いくつかはSNPでさえなかった、または現在のプラットフォームを用いてアッセイされえなかった)。本明細書に例証されているもののような真のAIMとして確証された配列は、混合マッピング、個体の祖先割合を推論すること、および集団群混合割合を推論すること、加えて、それらの祖先情報提供性を通して特定のヒト形質に相関する対立遺伝子に関するマーカーを同定するためにゲノムをスクリーニングすることに有用であった。各候補AIMは最初は、大まかな集団構造差(すなわち、大陸集団)に基づいて公開データベースから選択されたとしても、それらの多数は、ヒト進化を通じてのより大きな群からのヒトの下位群の分離は、それらの配列を固定させるかまたは排除するかのいずれかに作用する遺伝的浮動、創始者効果、および自然淘汰の豊かな機会を与えたため、細かいレベルの構造に関する情報を所有することが見出された。

配列は、5'から3'まで(左から右へ)の配列リストに示され、配列番号：1〜331について、一般的に、しかし必ずしもそうとは限らないが、5'末端からヌクレオチド50位にSNPを含む(配列番号：56、26位を除く)。多型はIUB記号、S=C/G、Y=C/T、R=A/G、K=G/T、W=A/Tなど、で示されている。それとして、開示された配列(配列番号：1〜331)は、調べられることになっている標的(すなわち、多型)に関する情報、加えてSNPをサンプリングする(すなわち、サンプルの遺伝子型を測定する)ためのプライマーおよび増幅プライマー対、ならびにハイブリダイゼーションプローブを調製するための情報を提供する。さらに、開示された配列は、望ましい場合には、追加的な上流および下流ヌクレオチド配列を同定するために公開データベースをスキャンするのに用いられうる。

このマーカーのパネルは、集団サンプルにおいて混合割合を精度を以て推定するのに極めて強力である(標準誤差は典型的には、1%と5%の間)。さらに、AIMは、個体の祖先の手頃な価格の推定を提供し、等価の精度はより多くのマーカーを用いて得られうることを示唆した(実施例2で確認された)。個体の祖先を推定する2つの独立した方法、最大尤推定法(MLE)(Chakrabortyら、前記、1986)およびプログラムSTRUCTUREを用いるベイズの方法(Pritchardら、前記、2000)が用いられた；両方の方法により得られた値は、個体の祖先の推定がワシントンDCからのアフリカ系アメリカ人のサンプルにおけるパーセントアフリカ人の遺伝的寄与の項で比較された場合、高く相関していた(R²=0.9836)。これらのマーカーは、混合された集団からのサンプルに集団構造があるかどうかを測定するのに優秀である。下で考察されているように、混合の過程は、集団に有意な構造、およびその結果として、多数の偽陽性結果(マーカーの疾患原因性遺伝子との物理的連鎖によるのではなく、遺伝的構造により引き起こされる陽性関連)を生じうり、マッピング結果を誤解するリスクを有意に増加させるため、この能力は、混合マッピング適用に関して重要である。

本研究は、AIMが開示された方法を用いて同定されうることを確認し、かつ全ヒトゲノムに及ぶ約1,000個のAIMのパネルを編集するという最終目標へ向けて適用されうる32個のAIMのパネルを提供する。候補AIMは、SNPコンソーシアム(The SNP Consortium)(TSC)により作成されたSNP対立遺伝子頻度データをスクリーニングすることにより得られた。Sanger Centre、Celera Genomics、Washington University、Orchid Biosciences、Motorola、およびWhitehead Instituteを含む6つのサイトは、2003年現在、3つの集団(アフリカ系アメリカ人、ヨーロッパ系アメリカ人およびアジア系アメリカ人)のそれぞれからの42人の個体の中央収集を用いて、ゲノム全体を通じて位置している60,000個のSNPに関する対立遺伝子頻度を作成した。このデータベースは、研究者に自由に利用可能であるが(例えば、ハイパーテキストトランスファープロトコール(「http」)を用いて、URL「snp.cshl.org」を参照)、本結果を提供するために用いられ、それに従って、AIMのゲノムワイドなパネルを編集するための供給源の有用性を実証した。

本研究は、SNPデータベースの正確さおよびそこに存在する候補SNPの数に焦点を合わせた。データベースの正確さに関して、SNPコンソーシアムに含まれる各グループは、データを作成することに異なるアプローチを採用した。それとして、データはどのようにして結合されうるかに関する最初の関心事に取り組んだ。ジェノタイピングのアプローチが各グループについて異なったため、特定のグループのデータに異なって影響を及ぼしうる確認偏向の問題に取り組む必要があった。例えば、グループの大部分は、TSC多様性パネルのサブセットをシーケンシングした後でそれらの対立遺伝子頻度を作成し、その後、3つの集団由来の42人の個体の大きい方の群においてこれらのマーカーに得点をつけた。Washington Universityグループは、領域を通じてのプール化シーケンシングが行われ、対立遺伝子頻度はこの試み中に発見された可変性の位置について計算されるというアプローチを採用した。Orchidグループは、シーケンシングを用いなかったが、その代わりとして、多型であることが知られているTSC SNPデータベースからの遺伝子座から開始した。そのような差異を考慮すれば、体系的特徴付けは、もしあれば、異なる偏向が結果に影響を及ぼした可能性があるという程度としてなされた。

そのような可能性のある偏向を体系的に特徴付けるための一つのアプローチは、1つより多いグループによりジェノタイピングされた遺伝子座についての対立遺伝子頻度を比較することであった。予想されたとおり、45°線を中心としてばらつきがあったが、異なるジェノタイピングおよび確認ストラテジーにより導入された対立遺伝子頻度偏向の程度が制限されていることを示す、異なるグループにより得られた頻度データにおいて一般的な取り決めがあった(R²=0.8762)。これらのデータの正確さを検定する次の段階は、データをサイトにより分類し、ペアワイズ比較を行うことであり、他のサイトと比較した場合、より多くはずれる対立遺伝子頻度推定をもつ特定のサイトの同定を可能にする。

候補AIMの数に関して、TSCにより特徴付けられた60,000個のSNPのうちどれくらいの数が混合マッピングに有用であるかを測定することもまた重要であった。関連性のある集団群間で大きな頻度差を示す(Fst>0.4)約1,000個のマーカーのパネルを編集することが結局は有用でありうるため、入手可能なマーカーのどれくらいのパーセンテージが所望の特徴をもつかを評価することは重要であった。候補AIMは、McKeigueら(前記、2000)の推薦に基づいた。アフリカ人、アジア人およびヨーロッパ人集団に利用できる情報をもつマーカー、各Fstカテゴリー(0.05間隔において0〜1)におけるマーカーの累積的割合および可能な比較のそれぞれについて候補AIMの総数。TSC対立遺伝子頻度プロジェクトからのペアワイズFstの分布は以下のとおりであった：アジア人-ヨーロッパ人(556個の候補AIM/25,110個の総SNP；平均Fst=0.0720)；アジア人-アフリカ人(1026個の候補AIM/25,578個の総SNP；平均Fst=0.0886)；およびヨーロッパ人-アフリカ人(1306個の候補AIM/30,103個の総SNP；平均Fst=0.0861)。それとして、スクリーニングは、マーカーの約2〜5%が混合マッピングに有用でありうることを示した。

米国の混合された集団、特にアフリカ系アメリカ人およびヒスパニック、における混合の地理学的パターンが最初の調査の対象であった。18個より多いアフリカ系アメリカ人集団の混合割合が特徴付けられ、米国におけるいくつかの異なる地理学的地域からのアフリカ系アメリカ人へのヨーロッパ人の遺伝的寄与の推定を示す地図が作成された。ヨーロッパ人混合は、サウスカロライナのガラにおける3.5%からニューオリンズにおける22.5%までの範囲であった(例えば、シカゴにおける18.8%；およびヒューストンにおける16.4%)。これらの推定の大部分は、10個の情報を与えるAIMの最初のパネルを用いて得られた。観察された分布は、アフリカ系アメリカ人の歴史において重要な役割を果たした周知の歴史的および人口統計学的事象の点から解釈された(Parraら、前記、1998；Parraら、前記、2001を参照)。これらのデータは、混合マッピングの適用が複合性疾患に関与する遺伝子を同定するのを可能にする。混合マッピングは高程度の混合を示す集団においてより適しているが、それゆえに、ヨーロッパ人の遺伝的寄与が非常に制限されていたガラ(3.5%)およびジャマイカ人(6.6%)のような集団はこの種の分析に適していない可能性があることが予想される。

ミトコンドリアDNA(mtDNA)を用いる予備的研究において、アフリカ系アメリカ人が、アフリカ系アメリカ人の個体によりしばしば話に出されていた自己申告された先住アメリカ人祖先と一致して、低いが検出可能な先住アメリカ人の遺伝的寄与をもつことが観察された。アフリカ人/先住アメリカ人対比についての情報を与える30個のAIMおよびヨーロッパ人/先住アメリカ人対比についての19個のAIMを同定したが(表1参照；Shriverら、前記、2003も参照)、3つのアフリカ系アメリカ人集団における先住アメリカ人混合の存在が核DNAマーカーを用いて検査された。mtDNA推定(「母系の」寄与情報を提供するのみ)と一致して、アフリカ系アメリカ人サンプルのそれぞれにおいて低い先住アメリカ人の遺伝的寄与の証拠が検出された(ワシントンDC、6%；ロンドンからのアフリカ系カリブ人、5%；およびボーガルーサ、ルイジアナ、6%)。

ヒスパニックにおける混合に関して、サンルイスヴァリーCOからのスペイン系アメリカ人のサンプルにおける関連性のあるヨーロッパ人、先住アメリカ人およびアフリカ人寄与が推定された。59%ヨーロッパ人混合、35%先住アメリカ人混合、および6%アフリカ人混合がこのサンプルにおいて観察され、メキシコ人祖先の集団について以前に記載された推定と良く一致した(Chakrabortyら、前記、1986；Hanisら、前記、1991；Tsengら、Amer. J. Phys. Anthropol. 106:361-371、1998；Collins-Schramら、前記、2002)。実施例2に示されているように、メキシコからの追加のサンプルおよびプエルトリコ人祖先のヒスパニックからの2つのサンプル(ニューヨークおよびプエルトリコ)における混合のさらなる特徴付けが行われた。

ステートカレッジPAに現在住んでいるヨーロッパ人祖先の個体(N=199)のサンプルもまた解析された。このサンプルにおける遺伝的寄与は、大部分はヨーロッパ人起源(91%)であり、いくらかのアフリカ人(3%)および先住アメリカ人(6%)影響の証拠があった。これらの結果は三角形プロットを用いて図4に要約されており、ヨーロッパ系アメリカ人、スペイン系アメリカ人およびアフリカ系アメリカ人の間の平均混合レベルにおける差を明らかに示している。図4に示された三角形プロットは特定のサンプルにおける平均混合推定値を示す；個体の祖先の根底にある分布は複雑であり、異なる個体は、アフリカ人、ヨーロッパ人および先住アメリカ人祖先の広く分散した値を示す(示されず)。アフリカ系アメリカ人において、ほとんどの個体は、主にアフリカ人遺伝的寄与を示したが、いくらかの人は、比較的高いヨーロッパ人寄与、およびまた、より少ない程度で、先住アメリカ人祖先を示した。ヨーロッパ系アメリカ人は、高ヨーロッパ人寄与に対応して極の近くによりみっちりと密集し、先住アメリカ人およびアフリカ人祖先の証拠を示す人はほとんどなかった。スペイン系アメリカ人は、このサンプルにおいて観察される高い混合レベルを仮定した場合に予想されるとおり、個体の祖先の最も高いばらつきを示した。

特に、個体は、ヨーロッパ人および先住アメリカ人祖先の全範囲(100%ヨーロッパ人から100%先住アメリカ人まで)を示し、相対的により低いアフリカ人の遺伝的寄与もいくらかの個体において明らかであった。個体の祖先に観察された変動の一部は、祖先を推論するために用いられたマーカーの制限された数による確率的誤差のためである可能性が高かった。このように、例証された検査に用いられた20〜32個のマーカーは個体の祖先を検出したが、推定の標準誤差はかなり高かった；AIMの数を増加させることは、個体の祖先推定の精度を増加させることが期待される(実施例2参照)。個体の祖先における変動の他の成分は、個体間での祖先における真の差によるものであった。2つの完全に独立した方法、MLおよびSTRUCTURE(上で考察されている)、により得られた個体の祖先の値における顕著な相関は、マーカーのこのパネルが、これらの集団に特有な根底にある個体の祖先パターンを捕らえることができることを示している。下で開示されているように、個体の祖先における変動を制御することは、偽陽性結果の回避を可能にする。

集団構造における混合動態の影響および連鎖不平衡(LD)が調べられた。混合過程に生じる集団構造およびLDに関して混合モデル(ハイブリッド隔離モデル対継続的な遺伝子流動モデル)の重要性は、以前に記載され(Pfaffら、前記、2001)、混合された集団における集団構造のレベルを定量化する2つの方法が提示された。集団構造は、混合マッピング、および混合された集団における任意の遺伝的関連解析の鍵となる局面である。この論点は、以前に利用可能であったものより多くの情報提供マーカーを用いてアフリカ系アメリカ人、スペイン系アメリカ人およびヨーロッパ系アメリカ人において探究された。

構造の存在は、2つの異なる方法で評価された。第一に、有意な関連の観察された数が、連鎖していないマーカー間において、5%有意水準で予想される数と比較された、第二に、個体の祖先の平均相関が遺伝マーカーの2つのサブセットを用いて推定された。以前に報告されたデータと一致して、ワシントンDCからのアフリカ系アメリカ人集団は、偶然により予想されるよりも連鎖していないマーカー間の有意な関連の非常に高い数により反映されている、有意な遺伝的構造を示した(10.5%対5%、図5A)。24 Mbほど遠く離れて位置しているマーカー間に非常に強い関連が観察され(AT3〜F13B、G=15.21、p<0.0001)、これらの有意な関連が混合過程により引き起こされているという明らかな証拠を提供した。関連している対立遺伝子は、いつも、アフリカ人集団において高頻度である対立遺伝子の組み合わせであり、頻度における差が高ければ高いほど、より高頻度の関連がマーカー間に観察された：FYは、アフリカ人とヨーロッパ人の間で頻度において最高の差を示すのだが、9個の連鎖していないマーカーと有意に関連していた。このように、17%ヨーロッパ人祖先を示す、このアフリカ系アメリカ人集団における混合過程は、アフリカ人とヨーロッパ人集団間で高頻度差を示すマーカー間に強い関連を生じた。これらの関連は、マーカーが連鎖している場合、および連鎖していない場合の両方において有意であるが、連鎖しているマーカーは連鎖していないマーカーより高いG値を示す傾向にあり、真の連鎖による関連は、以前に実証されているように(McKeigueら、前記、2000)、遺伝的構造による関連から識別されうることを示した。興味深いことに、有意な関連は、アフリカ人と先住アメリカ人集団間、またはヨーロッパ人と先住アメリカ人集団間で高頻度差を示すマーカー間ではなく、ヨーロッパ人とアフリカ人集団間で高頻度差を示すマーカー間で観察された。この結果は、このサンプルに観察される低い先住アメリカ人祖先(6%)による可能性が高く、そのような小さなサンプルにおいて混合過程による検出可能な関連を生じるには不十分であった。

このアフリカ系アメリカ人サンプルに存在する高レベルの遺伝的構造を実証する証拠のもう一つのラインは、遺伝マーカーの異なるサブセットを用いる個体の祖先の独立した推定間の有意な相関であった。マーカーの独立したサブセットの100個のランダムな選択に対する平均相関は、r=0.40、p<0.0001であった(図5B)。マーカーのより限定されたセットで解析されたワシントンDCアフリカ系アメリカ人および他のアフリカ系アメリカ人サンプル(ジャクソンMIおよび低地地方の地域、サウスカロライナ、Pfaffら、前記、2001)において観察される遺伝的構造およびLDのパターンは、これらの集団における混合過程を説明する最良のモデルが継続的遺伝子流動モデルであることを示した。このモデルへの追加の支持は、D₀(混合過程により起こされるマーカー間の最初の予想される関連)とD_t(マーカー間の現在の関連)間の強い相関から来た。コンピューターシミュレーションを用いて示されるように(Pfaffら、前記、2001)、継続的遺伝子流動モデルに従う集団において、D₀とD_t間の陽性相関が予想され、実際、この結果はアフリカ系アメリカ人集団において観察された。ハイブリッド隔離モデルに従う集団において、D₀とD_t間の有意な相関は予想されない。

解析されたサンルイスヴァリーからのスペイン系アメリカ人サンプルは、アフリカ系アメリカ人集団のいずれよりも少ない遺伝的構造を示した。連鎖していないマーカー間の観察された有意な関連の数は、5%有意水準で予想されるよりもわずかだけ高かった(7.3%対5%、図5A)。この結果は、スペイン系アメリカ人集団がアフリカ系アメリカ人よりかなり多く混合されたことを考えれば興味深く、混合動態の同じモデル下においては、かなり多くの構造を示すことが予想されるものと思われる。独立したマーカーに基づく個体の祖先推定の相関は、有意であるが、アフリカ系アメリカ人集団において観察される値よりずっと低かった(r=0.11、p<0.0001、図5B)。また、サンルイスヴァリーのサンプルにおいて、アフリカ系アメリカ人に観察される結果とは対照的に、D₀とD_tの相関がなかった。これらの結果は、混合動態(集団が形成され、かつ進化した行程)がアフリカ系アメリカ人集団およびサンルイスヴァリー集団において異なっており、前者は、後者より継続的遺伝子流動モデルに近く似ていることを実証している。もちろん、他のヒスパニック集団は、サンルイスヴァリーに観察されたものとは異なる混合動態のパターンを示しうる。

ヨーロッパ系アメリカ人に観察される低い方の混合レベルから予想されるように、ステートカレッジPAからのこのサンプルに混合による遺伝的構造の証拠がなかった(図5Aおよび5B)。連鎖していないマーカー間の有意な関連の数は、偶然により予想される値と類似しており、マーカーの独立したサブセットの個体の祖先推定間に相関がなかった(p=0.149、NS)。

これらの結果は、選択された遺伝マーカー(AIM)の使用が、混合過程の動態、およびこの混合過程の混合された集団におけるLDのパターンへの影響の解析を可能にすることを実証している。ハイブリッド隔離モデル(最初の混合後、親集団のさらなる遺伝的寄与なしに混合された集団の独立した進化が続く)に類似した混合過程をもつ混合された集団において、偽陽性結果はほとんど予想されない(虚偽は、LDまたは連鎖を通して形質を引き起こす遺伝子を探索する「遺伝子ハンター(gene hunter)」について関連しているのであって、分類ツールを開発しようと努力する者についてではないことを想起させる)。継続的遺伝子流動モデル(親集団の1つからその混合された集団への世代ごとの継続的遺伝的寄与)により近く似ている混合された集団において、LDは、よりずっと長い距離に広がることが予想され、偽陽性結果についての問題が起こるであろう。遺伝子ハンターにとって幸運なことに、AIMにより伝達される情報は、遺伝的構造について制御し、偽陽性を最小限にすることができる。そのような制御が適切な統計的方法およびモデル表現型として皮膚色素形成を用いてどのようにして達成されうるかを実証する例が下に提供されている。

皮膚色素形成および個体の祖先がアフリカ系アメリカ人サンプルおよびスペイン系アメリカ人サンプルにおいて調べられた。以前に実証されているように、混合により生じた遺伝的構造は、効果的に制御されうり、連鎖による関連は、適切な統計的検定を用いて遺伝的構造による偽の関連から識別されうる(McKeigueら、前記、2000)。本研究において、同じ方法が、2つの混合されたサンプル(ワシントンDCからのアフリカ系アメリカ人およびサンルイスヴァリーからのスペイン系アメリカ人)における皮膚色素形成の研究において適用された。皮膚色素形成に関する情報は、両方の研究における各個体について収集され、対象はAIMのパネルについてジェノタイピングされ、個体の祖先割合は、最尤法を用いて計算された(Chakrabortyら、前記、1986)。個体の祖先(%アフリカ人または%先住アメリカ人)は、各個体についてのメラニン指数(アフリカ人)または皮膚反射率(先住アメリカ人)に対してプロットされた。親集団間で頻度における高い差を示すAIMのいくつかはまた、色素形成についての候補遺伝子であった。

アフリカ系アメリカ人サンプルにおいて、個体の祖先と、皮膚のメラニン含量を測定するメラニン指数の間に、強くかつ大いに有意な相関(R²=0.1879、p<0.0001)が観察された。より黒い皮膚をもつ個体は、平均して、より高いレベルのアフリカ人祖先をもった。個体の祖先推定は、21個のマーカーに基づいており、それゆえに、相対的に高い分散を受けやすく、それに従って、グラフに観察されるばらつきの少なくとも一部を説明する。これらの結果の興味深い特徴は、右(より多いアフリカ人祖先)から左(より多いヨーロッパ人祖先)へ動くにおいて観察される分散における明らかな減少であった。この結果は、ヨーロッパ人と比較して、アフリカ人集団に見出される皮膚色における高いレベルの変動性と一致している。個体の祖先と皮膚色素形成の間に観察される高い相関は、アフリカ系アメリカ人集団に典型的な集団構造によるものであり、この関係内に含まれる親集団差を測定するために用いられる遺伝子の制限された数に関連しうる。

同様のプロットは、サンルイスヴァリーのサンプルについて調製された。15個の先住アメリカ人/ヨーロッパ人AIMを用いる個体の祖先推定は、PHOTOVOLT 670グリーンフィルターを通して反射される光のパーセントにより測定される色素形成レベルに対してプロットされた。皮膚色素形成は、これらの2つの研究において異なる方式(吸光度対反射率)で測定されたため、グラフで示された場合に観察される傾向は逆転される。スペイン系アメリカ人サンプルにおいて、個体の祖先と皮膚色の間の相関もまた有意であったが(R²=0.0481、p<0.001)、アフリカ系アメリカ人サンプルにおいてより低く、おそらく、このサンプルに存在する低下した遺伝的構造によるものと思われる。

上で考察されたアフリカ系アメリカ人集団サンプルにおいてタイピングされたAIMについての遺伝子型による平均色素形成レベルにおける差についての検定が行われた。AIMのパネルは、3つの候補遺伝子マーカー、OCA2、TYRおよびMC1R、を含んだ。解析は3つの選択的方法において行われた：個体の祖先推定を考慮しない第一の方法(ANOVA)；考慮中の遺伝子座を除外する個体の祖先の影響について制御するための条件付け後の第二の方法(ANCOVA/IAEマイナスマーカー)；および条件付けのために完全な個体の祖先推定を用いる第三の方法(ANCOVA/IAE)。表2に示されているように、マーカーの21個のうち8個(38%)が、3つの遺伝子型の中で有意な差(p<0.05)を示し、4つの候補遺伝子マーカーの2つを含んだ(OCA2およびTYR)。0.05のアルファレベルを用いる場合、検定されたマーカーの5%のみが有意な結果を生じることが予想された。それとして、38%有意差の発見は、集団構造が祖先および色素形成の両方に関連していることを示している(Pfaffら、前記、2001；Parraら、前記、2001)。

集団構造の影響を除去する一つの方法は、個体の祖先推定(IAE)の条件になる差について検定することである。完全なIAEが条件を設けるために用いられる場合(ANCOVA/IAE)、たった1つの遺伝子座、OCA2、ヒトP遺伝子、だけが遺伝子間での有意な平均差を示した。考慮中の遺伝子座が個体の祖先推定から除外される、より保存性の少ない条件付けアプローチが採られた場合(ANCOVA/IAEマイナスマーカー)、4つの有意な結果：OCA2、TYR、FYおよびSGC30055があった。

混合およびマーカー遺伝子型についてのベイズの完全確率モデルもまた設定された(McKeigueら、前記、2000)。連鎖についての得点検定は、個体の祖先(マーカーデータから推定される)を含む回帰モデルにおいて一度に1つずつ、各遺伝子座におけるヨーロッパ人祖先の対立遺伝子の数と色素形成の独立した関連について検定することに基づいた。得点検定についての片側確率は表2に示されており、3つの遺伝子座が0.05のアルファレベルにおいて皮膚色素形成への連鎖の証拠を示した{OCA2(p=0.005)、AT3(p=0.027)、TYR(p=0.033)}。これらの結果を確認するために、OCA2における祖先についての情報を与える他のマーカーが同定され、得点検定方法により解析されることになっている。これらのANOVA結果とベイズの混合マッピングの間の一致は励みになり、両方法は、新しい連鎖していないAIMの追加から恩恵を受け、個体の祖先推定の精度を増加させるものと思われる。

サンルイスヴァリーCOからのスペイン系アメリカ人サンプルもまた、ベイズおよびANOVA方法を用いて連鎖および関連について解析された(表3)。この解析は、祖先についての情報を与える15個のマーカー遺伝子座(DRD2遺伝子における2個のSNPは1つの遺伝子座として扱われる)についてタイピングされた442人の個体を含んだ。CYP19E2マーカー(MYO5A、色素形成候補遺伝子の近くに位置している)は、皮膚色素形成において民族的差との連鎖についての強い証拠を示した。しかしながら、この結果は、慎重に解釈されるべきである、なぜなら、いくつかの、祖先についての情報を与える密接に連鎖したマーカーが、用いられない限り、連鎖についての検定は、祖先特異的対立遺伝子頻度の誤った特定化に対して強靱ではないからである。MYO5Aの周りのSNPがこれらの予備的な結果を確認するために解析されうる。

（表２）アフリカ系アメリカ人サンプルにおける色素形成への単一座遺伝子型の効果についての検定

¹ マーカーは、検定に用いられる祖先情報提供マーカーを示す。太字のイタリック体で示されたマーカーは色素形成についての候補遺伝子である(すなわち、OCA2、MC1R、TYR)。
² 「デルタ」(δ)は、アフリカ人とヨーロッパ人集団の間の対立遺伝子頻度差である。
³ 性別が唯一の共変動である、分散分析有意水準
⁴ 検定される遺伝子座が共変動として除外された個体の祖先推定(M)を用いる一元ANCOVA分析についての有意水準。
⁵ Mがすべての21個のマーカーに基づくことを除いて、3と同じ。
⁶ ベイズの混合マッピング片側確率。

（表３）スペイン系アメリカ人サンプルにおける色素形成への単一座遺伝子型の効果についての検定

¹ マーカーは、検定に用いられる祖先情報提供マーカーを示す。太字のイタリック体で示されたマーカーは、色素形成についての候補遺伝子の中に、または近くにある(すなわち、TYR-192、およびMYO5A近くのCYP19E2)。
² 「デルタ」(δ)は、先住アメリカ人とヨーロッパ人の親集団の間の対立遺伝子頻度差である。
³ 性別が唯一の共変動である、分散分析有意水準
⁴ 検定される遺伝子座が共変動として除外された個体の祖先推定(M)を用いる一元ANCOVA分析についての有意水準。
⁵ Mがすべての15個のマーカーに基づくことを除いて、3と同じ。
⁶ ベイズの混合マッピング片側確率。

SNP区別のペアワイズ集団比較
表4は、ジェノタイピングの結果、およびいくつかの異なるが重要である点を実証する統計的解析を示す(表4における各AIMについての配列は、マーカー番号を用いて、表6への参照により見出されうる)。

（表４）SNP区別のペアワイズ集団比較

主張されたリストからの精選されたAIMについての「デルタ」(δ)値が示されている。
AIM固有識別名は最後の列に示されている。
太字(影がついていない)の番号をもつセルは良いδ値を示す；太字の番号をもち影がついているセルは極めて高いδ値を示す。
AF-アフリカ人、CT-ヨーロッパ人、EA-東アジア人、SA-南アジア人、ME-中東人、PI-太平洋諸島系、AI-先住アメリカ人。

第一に、表4は、公開データベースから電子的に選択された数百個の候補AIMをスクリーニングすることから引き出され、このように、公開データベースからの候補AIMの少数のみが真のAIMであることを実証した。上で考察されているように、公開SNPデータベースは、良い候補AIMを見出すために電子的にスクリーニングされた(頻度データは3つの「人種の」群について提供されているため、3つの群についての混合のレベルは知られていないが)。第二に、様々な大陸およびBGA起源の384人の個体がこれらの部位のそれぞれにおいてジェノタイピングされている：ナイジェリアおよびコンゴから収集された70個のアフリカ人サンプル、北ヨーロッパから収集された65個のヨーロッパ人サンプル、サンフランシスコ、CAへの最近の移民から収集された70個の東アジア人サンプル；トルコから収集された35個の中東人サンプル、インドから収集された35個の南アジア人サンプルおよびフィリピンおよびUSサモアから収集された25個の太平洋諸島系サンプル。

スクリーニングされた175個の候補AIMからスクリーニング過程に合格した約70個のAIMについてのデータのサンプリングが表4に示されている。デルタ(δ)値は、多型についての配列が一方または他方の群への帰属関係を予想するのをどれくらい十分に可能にするか；すなわち、2つの集団がこの多型における配列に関してどれくらい異なるか、という尺度である。δ値は、175個のAIMのうちの69個について示されている；残りの105個は、ペアワイズ集団比較のそれぞれについて0のδ値をもち、それゆえに、真のAIMではなかった。表4におけるAIM1068は、失敗の型を代表している(すべてのペアワイズ比較に渡ってゼロ − 集団ペアに渡ってゼロをもついくつかのAIMが表4に存在するが、それらは、この特定の表に示されていない集団についての情報を与えているからである)。この結果は、公開データベースから選別された候補AIMの大部分が真のAIMではないことを確認し、本発明の価値を目立たせている。

ジェノタイピングおよび解析における比較的大きな投資は、どの候補AIMが真のAIMであるかを同定することを必要とした。この工程は迂回されうる、例えば、単に、100個の候補AIMにおいてサンプルをジェノタイピングし、真にAIMであることが証明されるものからデータを抽出しうるのだが、ジェノタイピングは費用のかかる方法であり、それとして、背負い込む浪費は、検査を経済的に実際的ではないものにする。祖先の割合についての経済的かつ実際的な検査を開発するために、検査は多数の真のAIMについて質問しなければならない。多くの公的に入手可能な候補AIMは、いくらかの情報を提供してはいるが、公開データベースにおける対立遺伝子頻度は、非常に信頼性があるととてもいえるものではないような、例えば、低いサンプルサイズのせいで、真のAIMではない。SNPのランダムな収集における真の(すなわち、確証された)、正しく特徴付けられた(すなわち、集団特異的頻度が確実性を以てわかっている)AIMの頻度は約5%であることが予想されるが、候補AIMの選別されたセットにおける真のAIMの頻度は約50%であり、本明細書に開示されているように進行した後では、SNPの収集物における真のAIMの頻度は100%である。

第二に、表4の結果は、AIMのいくらかはアフリカ人対ヨーロッパ人の決定に適している、別のAIMは先住アメリカ人対アフリカ人の決定に適しているなどを実証している。ヨーロッパ人/アフリカ人/アジア人対立遺伝子頻度差に基づいて選択されているが、いくつかのAIMは、太平洋諸島系、南アジア人および中東人のような他の群の良い識別を提供する。この型の情報は、より大きなサンプルにおいてジェノタイピングすることにより知られうるだけであり、祖先の割合についての検査は、正確であるためにこの段階を通って行かなければならない(例えば、検査が、公的に利用可能であるデータにより与えられる3次元 − ヨーロッパ人、アフリカ人およびアジア人 − において働くのみであったならば、例えば、ヒスパニックについて得られる結果は、あいまいであったであろう)。表4におけるSNPのパネルは、7つの集団群に関する可能なペアワイズ比較のそれぞれについての決定力をもつAIMのよくバランスのとれた混合を提供し、このパネルは、祖先の割合についての良い検査を構成するものと思われる。南アジア人、中東人および太平洋諸島系についてのデータは公開データベースに存在せず、それゆえに、これらの研究のために作成された。比較して、単に、公開SNPデータベースからでたらめに選択された候補AIMにおいてシーケンシングすることにより(すなわち、データ生成を通しての選択なしに)、7次元における祖先の割合についての検査を開発する1つの試みは、集団の特定のペアは、(例えば、共通の言語母体により結合されるより大きなインドヨーロッパ人群を構成する南アジア人およびヨーロッパ人を)決定することが困難であるため、表4にあるもののようなパネルを得るために何千個というSNPの一群を編集する必要がある。

表4に示されるAIMのパネルを用いて得られた結果は、表5に示されている。現在開示されているアルゴリズム(実施例6、表12参照)は、南東部米国に居住する、および彼ら自身をカフカス人であると記載する、96人の個体の群についての割合を計算するために用いられた。

（表５）多数の自己申告されたカフカス人についての祖先の割合

祖先のパーセンテージは各群に関して与えられている：EUR - インドヨーロッパ人、NAM - 先住アメリカ人、EAS - 東アジア人/太平洋諸島系、AFR - アフリカ人。各個体についての自己申告された人種(SELF)、彼らの母親(M)、父親(F)、母方の祖母(MGM)、母方の祖父(MGF)、父方の祖母(PGM)、父方の祖父(PGF)および彼らの出生国が示されている。

表5の結果は、自分自身をカフカス人であると記載するたいていの人々は、本当に、BGA検査を用いて、すなわち、表4におけるマーカーのパネルおよびアルゴリズム(実施例6、表12)を用いて、測定されたように大部分のインドヨーロッパ人祖先をもつことを実証している。これらのカフカス人の約40%は、混合を含まない、100%ヨーロッパ人祖先と測定されたが、60%は検出可能な混合を示した。批判的評価として、得られた割合は、自己申告された混合と比較されうる。彼らの両親および祖父母のすべてが混合されていないカフカス人であると主張している表5の個体について(すべての列に渡って「ca」)、90%またはそれ以上のヨーロッパ人祖先が見出される率は、血統に混合を報告する人について(35%)よりも、血統に混合無しと報告する人について高い(55%)。その人々の半分は、彼らの血統に混合無しと報告したという事実は、たいていの人々が、少なくとも、地政学的と比較しての人類学的名辞において、彼らのBGAについていかに知らないかを示している。

公開データベースは、3つの群(アフリカ系アメリカ人、ヨーロッパ人およびアジア人)のそれぞれについて少数のサンプルを使用した。従って、公開データベースからの、主張されたSNPについての実際の対立遺伝子頻度は不確実であり、本研究からのみ正確さを以て測定された。さらに、親群としてアフリカ系アメリカ人の使用は、本明細書に開示されているように、彼らは混合された集団(アフリカ人とヨーロッパ人の間)であるため、誤りを犯しがちである。本方法に有用であるSNPマーカーを見出すための最良の方法は、世界の主要なBGA群からの多数のサンプルを、群の少なくとも2つの間で明らかに異なる少数対立遺伝子頻度のもののすべてについてジェノタイピングし、δ値を計算し、それらをランク付けすることである。

家系図
祖先の割合を測定するSNP(AIM)の使用のBGA方法は、父親、母親および彼らの3人の子どもの家系図の検査に適用された(図6および7参照)。男性は大部分、ヨーロッパ人であり、彼の妻はメキシコ人である、だから、検査が正確であれば、彼らの3人の子どもは、その男性と彼の妻との間のどこかにプロットするはずであり、これはまさしく、観察されたことである。家系の父親側における父親の祖父母のうちの3人は、比較的純粋なギリシャ人/ヨーロッパ人であるが、1人はほとんど純粋なチェロキー族であった。彼の母親側における彼の祖父母のすべての4人は、ヨーロッパ人混合であった。母親(図6B)および父親(図6A)についてのプロットは示されている。頂点の向かい側の三角形の辺を二等分する線を頂点から引くことにより(頂点が100%、三角形の辺が0%を表す)、父親は約85%ヨーロッパ人、11%先住アメリカ人、4%アフリカ人であることが見られうる(彼は、検出可能な東アジア人、南アジア人または太平洋諸島系の祖先をもたなかった)。11%先住アメリカ人は、彼の父親の祖父母から来たように思われる。彼の曾祖父母の7/8はヨーロッパ人混合であり、1/8は先住アメリカ人であったことを知っている場合、予想されるパーセントは12%(1/8)であり、検査から生じたデータと良く一致している。母親はメキシコ出身であり、ヒスパニック系である。以前に考察されているように、ヒスパニックはヨーロッパ人および先住アメリカ人の寄与をもつ混合された集団である。母親は、11%ヨーロッパ人、76%先住アメリカ人および13%アフリカ人血統をもつことがここで見られうる(検出可能な東アジア人、南アジア人または太平洋諸島系の祖先はなかった)。

3人の子どもはそれぞれ、彼らの母親および父親のそれぞれから1つの染色体を受けたため、彼らは、それぞれ、彼と彼の妻の間のどこかにプロットするはずである。その方法を用いて、子どもは予想通りプロットしている(図7)。予想されることだが、子どもの点推定は両親のそれの間にあることはこれらの結果から明らかである。これらの結果から、子ども1番(図7A；80%ヨーロッパ人、18%先住アメリカ人、2%アフリカ人)は、母親より父親に類似した祖先の割合をもち、子ども2番(図7B；61%ヨーロッパ人、31%先住アメリカ人、8%アフリカ人)および子ども3番(図7C；54%ヨーロッパ人、37%先住アメリカ人、9%アフリカ人)は、2人の親の間の約中間点の祖先の割合をもつ。

各子どもは、母親から1つの染色体および父親から1つを受けているが、母親は大部分、先住アメリカ人血統の染色体をもつとはいっても、なおいくらかはヨーロッパ人およびアフリカ人型をもち、父親は大部分、ヨーロッパ人型の染色体をもつとはいっても、なおいくらかは先住アメリカ人型であるため、子どもは異なる。子どもが受胎される時、彼または彼女は各親から染色体を受けるが、2つのうちどちらを子どもが母親から受けるのかはランダムである(すなわち、「独立組み合わせ」)。母親の染色体対のいくつかはヨーロッパ人型を含む対のメンバーをもつため、子どものいくらかが、「ヨーロッパ人型染色体」を受けて、他の子どもは受けなかったりする。本研究から、子ども1番(図7A)が、その残りの2人の子どもが受けたよりも母親のヨーロッパ人型染色体の多くを受けたことは明らかである。このように、各子どもは、母親および父親の染色体の50/50混合であるが、彼らの祖先の割合は、彼らの両親のそれらの固有かつランダムな関数である。

実施例2
祖先の4元混合推定
この実施例は、4元混合BGA検査が3元BGA検査を用いて得られた同じ結果を提供することを実証している。

上で示されているように、生物地理学的祖先(BGA)は、人種の遺伝性構成要素である。人類を測定するための社会文化的および地政学的測定基準は、人間の作る、自然ではない、構築物であるため、遺伝学研究におけるそれらの使用は、集団の遺伝的構造について制御するのを困難にさせ、BGAとヒト生物学の間の重要な相関を覆い隠す可能性がある。この実施例は、個体内の遺伝的構造を正確に測定するための方法および組成物を提供する。ヒトゲノムは、候補祖先情報提供マーカーへ関心が向けられ、それは、超高処理量ジェノタイピングプラットフォームにおいて確証され、親集団対立遺伝子頻度を確立するために用いられた。染色体の大部分を網羅する、最も情報価値の高いAIMの71個を用い(表6)、かつヒト集団を4つの主な大陸集団群(サハラ以南アフリカ人、東アジア人、インドヨーロッパ人および先住アメリカ人)へ合体させて、MLE方法は、個体のBGA混合割合およびそれらの付随した信頼区間を決定するために用いられた。本明細書に開示されているように、自己申告された集団所属は、2,024個の国際的なサンプルの1つのサンプルについて測定された大部分BGA集団所属とほとんど完全に相関した。BGA混合結果は、驚くほど頻繁であり、観察される場合、一般的に、人類学的および地政学的歴史と矛盾しなかった。作成された混合割合は、家系図において、独立組み合わせの法則と一致した様式でたどっており、シミュレーションにより、群所属を決定することに関連したマーカーが本発明者らのアルゴリズムの範囲内で独立して機能したことが明らかにされた。多数の高δ値マーカーが用いられたため、検査は驚くほど強靱であった；偏りのある親のサンプリングにより引き起こされうるシミュレートされた対立遺伝子頻度誤差の妥当なレベルは、測定されたBGA割合に有意な影響を及ぼさなかった。これらの結果は、BGA混合がDNA試料から信頼性をもって測定されうることを実証している。

サンプル収集：
親のサンプル − 親群対立遺伝子頻度を確立するために、4つの大まかに定義されたヒト集団群の100個の比較的均一な子孫がジェノタイピングされた。これらの4つの群は、集団がサハラ以南アフリカ(サハラ以南アフリカ人)、ヨーロッパおよび中東(インドヨーロッパ人)、北/南アメリカ(先住アメリカ人)および東アジア(東アジア人)の大陸領域へ比較的隔離された地点まで時をさかのぼった、単純化された人類系図の合体に対応した。本質において、現存する集団の極値は、身体的特徴および公知のヒト移住パターンによってとられ、人類系図はそれを仮定することにより単純化された、なぜなら、集団の残りは、これらの極値により定義される連続体に沿って身体的特徴を現しているからであり、人類社会のすべては、内への放散およびこれらの4つの主な大陸群間の混合から生まれた。

収集の努力は、各領域に居住し、自己記載された「人種」によって各群の子孫について比較的均一な所属をもつ個体に焦点を合わせられた；各対象は、各群の子孫に関連した強い身体的外観を現し、その群についての均一な所属を報告した。BGA所属または人種の事実上の究極的審判員は存在しないが、民族性を考慮せずに収集することは、体系的混合が民族性の機能である場合には、所定の群についての頻度推定に体系的誤差を導入しうる。可能であるところにおいて、各親群内でできる限り幅広い種類の民族から収集するように試みられ、各親サンプル内での混合が釣り合うことが期待された。既知の均一な所属の個体から収集することはより良いだろうが、サンプリングが混合または他の集団構造に関して偏向されてなかった場合には、収集するのに実際的であるサンプルに現存する混合は、体系的偏向を導入するよりむしろ、検査の検出力を低下させる傾向にある。各BGA群内の各マーカーについてのハーディ-ワインベルグ平衡の存在は、適度に良いサンプルが得られたことの表示として頼られた。サハラ以南アフリカ人サンプルは、ナイジェリアおよびコンゴ、アフリカにおいて収集された；ヨーロッパ人サンプルは、米国における様々な地元民から収集された；東アジア人サンプルは、日本および中国から収集された；ならびに先住アメリカ人サンプルは、南メキシコの辺鄙な地域に住む「ネティボズ(Nativos)」から収集された。すべてのサンプルは、ヒト集団変動の遺伝的研究を目的としてIRBガイドライン下で収集された。

実験的サンプル − 認可されたIRB同意用紙を読み、サインした後、対象者は、伝記の質問票を完成し、頬側塗布かまたは4 mlの血液のいずれかを提供した。質問票において、対象者は、彼ら自身、彼らの母親、父親ならびに母方および父方の祖父母を「アフリカ人」、「アメリカインディアン」、「アジア人」、「カフカス人」、「ヒスパニック」または「その他」の群に属するとして、各家族メンバーについて「知らない」と報告するという選択肢も含めて、記載した。対象者の一部について、デジタル写真が撮られた；写真が提供されたそれらの対象者から明確な許可を得た。DNAは、循環しているリンパ球または頬側塗布から商業的キット(Qiagen)を用いて抽出され、25 K SNPストリーム超高処理量(UHT)ジェノタイピングシステムを用いるプライマー伸長プロトコールが用いられた(Orchid Biosciences)。

生物地理学的祖先(BGA)の推定
ソフトウェアプログラムは、多座AIM遺伝子型を用いて個体のBGA混合の最大尤推定値(MLE)を決定するために、Hanisら(前記、1986)のアルゴリズムに基づいて書かれた(実施例6；表12も参照)。デルタ(δ)値は、マーカーの祖先情報提供性の表現である(Deanら、前記、1994)。二対立遺伝子マーカーについて、頻度差(δ)は、p_x-p_y(それはq_y-q_xに等しい)に等しく、p_xおよびp_yは集団XおよびYにおける一方の対立遺伝子の頻度であり、q_xおよびq_yは他方の頻度である。遺伝子座内および遺伝子座間において対立遺伝子状態における独立性からの逸脱を検定するために、MLD精密検定が用いられた(Zaykinら、Genetica 96:169-178、1995)。

この実施例に用いられた71個のAIMの収集物は、4次元(サハラ以南アフリカ人、先住アメリカ人、インドヨーロッパ人および東アジア人)の問題の6つの可能なペアのそれぞれの内で累積δ値を最大限にし、ペアのそれぞれの間で累積δ値における差を最小限にするように選択された。アルゴリズムは、一度に3つの群を用いて多座遺伝子型に対応する比例的所属の尤度推定値を得るために集団特異的対立遺伝子頻度を逆にする(主として計算法の便宜上、および4次元混合は比較的まれである可能性が高いから)。例えば、100%インドヨーロッパ人、0%先住アメリカ人、0%東アジア人の尤度が計算される、その後、99%インドヨーロッパ人、1%先住アメリカ人、0%東アジア人が次に計算されるなど、すべての可能なインドヨーロッパ人、先住アメリカ人および東アジア人の割合が考慮されるまであり、その後、その工程は、すべての可能なインドヨーロッパ人、先住アメリカ人およびアフリカ人の割合、ならびにすべての可能な先住アメリカ人、アフリカ人および東アジア人の割合について繰り返される。最大値の尤度が最大尤推定値(MLE)として選択される。

三角形プロット上に単一のMLEをプロットする場合、尤度がMLEの2倍、5倍および10倍内である空間が範囲を定められる(複数のMLEsが単一の三角形プロットに示される場合、これらの区間はプロットされない)。すべての4つのBGA群をいっしょに用いてMLEを計算することについて、手順は同じ精密様式で実行された；3つの可能な3元BGA組み合わせの代わりに、たった1つの4元BGA組み合わせが可能である。この実施例に記載されるすべてのMLEsは、3元計算スキームを用いて計算された。検査のこの型の代替バージョンが可能であり、例えば、人類系図の異なる合体に対応する異なるAIMおよび異なる親群を用いることであり、ここで与えられているものとは異なる人類学的時間尺度に関して意義のある結果を提供することが期待される。

データベースがスクリーニングされた時は、SNPコンソーシアム(TSC)が、頻度が3つの集団(アフリカ系アメリカ人、ヨーロッパ系アメリカ人および東アジア人)において入手可能である約27,000個のSNPについてのデータに貢献した。このデータベースは、候補AIM、すなわち、4つの大陸集団群のいずれか2つの間でδ>0.40のSNP、についてスクリーニングされた(実施例1参照；Shriverら、前記、1997も参照)。サハラ以南アフリカ人(AA)、インドヨーロッパ人(IE)、東アジア人(EA)および先住アメリカ人(NA)の親サンプルは、最も大きいδ値をもつ200個の候補AIMのそれぞれについてスクリーニングされ、これらのうち、71個が、1%より大きく、かつ群のペアの少なくとも1つについてδ>0.40の少数対立遺伝子頻度をもち、真のAIM(すなわち、真のSNP)として確証された。71個のAIMは、配列番号：1〜71として示されている；群のペアについて最上位100個の候補AIMは以下のとおりだった：EA対AA(配列番号：7、21、23、27、45、54、59、63および72〜152)；EA対IE(配列番号：3、8、9、11、12、33、40、59、63および153〜239)；ならびにIE対AA(配列番号：1、8、11、21、24、40、172および240〜331)。1つのペアワイズ比較により同定されたいくつかのAIMがまた第二のペアワイズ比較についてのAIMでありうること(例えば、配列番号：59は、EA対AAおよびEA対IUの比較として同定された)を留意されるべきである、そのようなAIMは例外ではあるが。さらに、71個のAIMの多数は、いずれかのペアについて示される最上位100個の候補AIMのリストにはない(しかし、最上位200個の候補AIMにはあった)；候補AIMは、例えば、それらが、例証されたプラットフォームについて用いられた増幅パラメーターのSNP型のせいで十分にジェノタイピングしなかったため、または本明細書に開示されているような他の理由のために、用いられなかった。

（表６）BGA検査に用いられる71個のAIMについてのペアワイズδ値

AF-サハラ以南アフリカ人、CT-インドヨーロッパ人、EA-東アジア人、AI-先住アメリカ人。AIM固有識別名は、SNP配列のNCBI:dbSNPデータベースへの提出において著者らにより与えられたGenBankアクセッション番号と同様に示されている(AIM)。各ペアワイズ比較についてδ>0.40をもつAIMの数は、リストの一番下に示されている。

例証されたパネルに用いられた71個のAIMは、23個の常染色体の染色体のうちの21個に渡って広がり(図8)、平均の染色体は3個のAIMを含んだ(表6参照)。それぞれは、いっしょに考慮されるすべての4つのBGA群での全体として、および各BGA群内の両方において、ハーディ-ワインベルグ平衡における対立遺伝子をもち、お互いとの連鎖不平衡にあるものは見出されなかった。ソフトウェアプログラムは、最尤法アルゴリズムでこれらのAIMについての個体の遺伝子型を用いた(実施例6、表12参照；実施例1も参照)。このアルゴリズムでの71個のマーカーの使用は、「BGA検査」のもう一つの例を提供する。

BGA検査は、その検査の構築に用いられた親の先住アメリカ人、アフリカ人およびインドヨーロッパ人のサンプルについてBGA混合割合を計算するために用いられた。各サンプルについて混合割合を計算した後、それらは、3元混合の相対的割合が2次元で表されることを可能にするために三角形プロットにプロットされた。これらは親群を含む同じサンプルであり、かつそこから集団対立遺伝子頻度が引き出されたため、それらは、比較的均一なBGA(すなわち、低い混合の)を示すことが予想され、実際、サハラ以南アフリカ人、先住アメリカ人およびヨーロッパ人の親サンプルはすべて、比較的均一なBGAを示した(すなわち、それらは、BGA三角形の適切な頂点へ向かってプロットした)。

BGA検査は、次に、自己申告された人種の1,186人の個体(43人のアフリカ系アメリカ人、1,120人のカフカス人および23人のヒスパニック)についてBGA割合を測定するために用いられた。個体のうちの306人(26%)は、均一なBGAを示した(いずれか1つの群について100%)。1,186人のうち101人(8.5%)は、3つの群について>5%BGA所属を含み、これらの個体について、4群計算を実行するためのソフトウェアの改変がより適切である可能性がある、およびサンプルの大多数が2元混合の特徴があったことを示した。有意により大きいヨーロッパ人混合が、ナイジェリア人のそれと比較してアフリカ系アメリカ人に同定された(サハラ以南アフリカ人頂点から離れた点の分散として視覚化された)。対照的に、インドヨーロッパ人サンプルは、親サンプルがもっているのと同じくらいインドヨーロッパ人頂点にきちんとプロットした、とはいっても、低レベルの先住アメリカ人または東アジア人混合はまれではなかった − おおよそ対象者の2/3が検出可能に含んだが、一般的に低レベルのそのような混合である。ヒスパニックの対象者は、先住アメリカ人/インドヨーロッパ人の軸に沿って対等な分布でプロットし、ヒスパニックが約500年前、植民地のヨーロッパ人と居住の先住アメリカ人の混合から生まれたという知識と一致した。

BGA検査で得られた大部分割合が自己申告された人種で確証したかどうか、およびどの程度までか、を決定するために、BGA混合割合が自己申告された人種の2,048人の個体について計算され、検査から測定された大部分BGAを各個体の自己申告された大部分人種に対して目隠しして(計算法の意味で)比較された。非常に強い一致が検査で測定された大部分BGA群と自己申告された大部分人種の間に観察された(表7)。検査を用いて、1252人/1252人自己記載されたヨーロッパ系アメリカ人(米国生まれのカフカス人)が大部分インドヨーロッパ人BGAを示した。201人の自己記載されたアフリカ系アメリカ人のうちの191人は、大部分サハラ以南BGAを示し、残りの11人は、サハラ以南BGAを小部分所属として、インドヨーロッパ人を大部分所属として示した。ヒスパニックは、インドヨーロッパ人と先住アメリカ人との間に大部分BGAにおいておおよそ等しい分布を示し、三角形プロットに観察された結果およびこの群の人類学的歴史と一致した。

（表７）大部分の生物地理学的祖先と自己申告された人種との比較

^＊小部分割合は先住アメリカ人であった。
^＊＊第二型として有意な先住アメリカ人
^＊＊＊小部分割合は東アジア人であった。

南メキシコからの1人の個体が大部分ヨーロッパ人であったという発見のような、予想されなかった結果が得られた場合でさえも、予想された所属が、全く存在しないというよりむしろ小部分所属であるという点において多かれ少なかれ一致しており、大部分所属(インドヨーロッパ人)は、その地域の歴史(何百年前、スペイン人に植民地化された)に照らしてなるほどと思えた。この特定の場合において、先住アメリカ人祖先の部分は、50%よりわずかだけ少なかった。1つならぬひどい誤りが観察され、例えば、自己申告されたヨーロッパ系アメリカ人が大部分東アジア人として分類された。大部分インドヨーロッパ人BGAの11人の自己記載されたアフリカ系アメリカ人は、ひどい誤りであるように見えるだろうが、結果は同様に一致していた − これらのアフリカ系アメリカ人サンプルのそれぞれは、おおよそ同等のインドヨーロッパ人/アフリカ人割合を示し、混合を示唆し、検査誤差よりむしろ、サンプルが採られた地域の歴史的タペストリーと一致していた。

真の盲検法(計算法の意味において目隠しである検査に対立するものとして)を行うために、サンディエゴ警察鑑識（the San Diego Police Department Crime Lab、SDPD)およびセントラル・フロリダ大学法医科学国立センター（the National Center for Forensic Science at the University of Central Florida、UCF)それぞれが、BGA検査のために数字で符号化されたアイデンティティの10個の頬側塗布を寄託した。BGA検査が行われ、結果はSDPDおよびUCFへ戻され、それぞれは独立してそれらの結果を評価し、サンプルの自己申告された集団所属を明らかにした。BGA混合割合検査から測定された大部分パーセンテージは、自己申告された集団所属と矛盾しなかった(表8参照)。サンプルのいくつかは、混合されていると論理的に考えられる群に所属した個体由来であった − 例えば、フィリピン人(SDPD2、SDPD3、表8)、アフリカ系アメリカ人またはカリブ人(SDPD5、SDPD6、UCF7、UCF8、表8)、メキシコ系アメリカ人(ヒスパニック、SDPD8、SDPD10、表8)およびプエルトリコ人(UCF6、表8)；有意な混合がこれらのサンプルのそれぞれについて検出された。さらになお、検出された混合の型は、所属した集団の人類学的歴史に関して筋が通っていた。例えば、サハラ以南アフリカ人、先住アメリカ人およびインドヨーロッパ人血統の人々はプエルトリコに住んでいるが、東アジア人は比較的まれである、そして、検査されたプエルトリコ人の個体についての検査結果は、インドヨーロッパ人および先住アメリカ人を示したが、東アジア人の混合を示さなかった。

混合のMLEを決定することに加えて、ソフトウェアプログラムは、確率空間を測量し、範囲内では比例的所属の尤度が、正しい答えである可能性がMLEより2倍、5倍および10倍、低いその空間を定義するように設計された(信頼等高線、MLEを中心とした環として三角形プロット上にプロットされる)。MLEおよび信頼等高線を決定するための最尤法アルゴリズムの正確さを検定するための1つの方法は、AIMマーカーの若干数が、「失敗」読みをもつそれぞれについての遺伝子型で置換することにより解析から除去される場合、これらの値は変化するかどうか、およびどれくらい変化するかを観察することであった。例えば、所定のサンプル遺伝子型について、アフリカ人/東アジア人識別について高δ値のマーカーについての遺伝子型のすべてが「失敗」または「データ無し」と置換された場合には、正確な検査は、三角形プロットのこの次元においてのみゆがんだ信頼等高線を示すことが予想されると思われる。従って、BGA検査は、それの付随した信頼区間を以て大部分東アジア人BGAの1つのサンプルをプロットするために用いられ(図9A)、その後、先住アメリカ人対東アジア人BGAについて情報価値のあるδをもつ検査におけるマーカーのすべての24個が除去され、MLEおよび信頼推定は、残りのAIMで再計算された(図9B)。欠けているAIMでの再計算において、信頼環は、東アジア人から先住アメリカ人BGA頂点の方向へ劇的にゆがみ(図9B)、予想されたとおり、東アジア人/先住アメリカ人識別について良いδ値をもつAIMの欠損が東アジア人/先住アメリカ人軸に沿っての信頼が高くない推定を生じたことを示している。たぶん、サンプルは大部分東アジア人として分類され、かつ東アジア人/インドヨーロッパ人および東アジア人/アフリカ人所属の識別についてのAIMは煩わされていないようにしておかれたため、MLEシフト自身は最小限であった；東アジア人/先住アメリカ人軸に沿った不確実性のほとんどは、等高線のシフトにおいて明らかであった。他のサンプルおよびAIMでの同様の実験は同様の結果を生じた。

（表８）サンディエゴ警察およびセントラル・フロリダ大学法医科学センターによるBGA検査の目隠し的挑戦

BGA混合割合測定の再現性および一貫性を測定するために、5つのサンプルが、別々の場合において、ジェノタイピングおよび解析された。ヨーロッパ系アメリカ人、アフリカ系アメリカ人、ヒスパニックおよびアジア人群への自己申告された大部分所属から1つのサンプルが選択され、第五のサンプルは親の先住アメリカ人群から選択された。失敗した遺伝子座を除いては、各個体における各マーカーでの遺伝子型は、実行間で100%一致し、AIMが信頼性をもってジェノタイピングすることを示している。BGA混合割合における1〜3%変動は実行のところどころで観察された；シミュレーション研究は、変動がこれらのジェノタイピング失敗に帰することを示した。この結果は、失敗した遺伝子座が、大部分BGAまたは混合レベルのいずれに関しても、個体についてのBGA混合測定の再現性に対して有意な妨げを与えなかったことを示している。これらのシミュレーションから、サンプルが最小二項混合である場合には、BGA検査は約10個の遺伝子座失敗を許容し、かつ混合のないサンプルについては、失敗した遺伝子座のより大きい数が許容できることが測定された(すなわち、混合パーセンテージにおける変化は5%未満であった)。

家族遺伝の法則を仮定した場合、検査で測定されたBGA混合割合は感知できたかどうかを決定するために、いくつかの家系図から3つの世代についての割合が計算された。典型的な結果が図10に示されており、実質的なヨーロッパ人/先住アメリカ人混合をもつ確認された父系(STR検査を用いる)の家族について得られた比率を描いている。第一世代個体は、自己申告されたヨーロッパ系アメリカ人で、BGA検査で有意な先住アメリカ人混合を含むことが測定されたが、それは、異なる割合で彼らの息子および娘へ伝えられ、独立組み合わせの法則と矛盾しなかった。息子の配偶者は、メキシコ生まれのヒスパニックであり、26%ヨーロッパ人/74%先住アメリカ人混合であることが測定された。彼らの子どものそれぞれは、おおよそ、彼らの両親間の先住アメリカ人とインドヨーロッパ人混合の中間レベルを含み、再び、独立組み合わせの法則と矛盾しなかった。息子の1人は、わずかなパーセンテージの東アジア人祖先をもつとして分類されたが、そのレベル(4%)は、上で考察されているように確立された高信頼限界(約3%)に近かった。検査された他の血統(n=8)は、同様に一致した結果を示し、大部分BGAおよび混合レベルに関して、BGA検査結果が家系図の関係内で感知できたことを示している。

BGA検査は親集団対立遺伝子頻度に頼っているため、検査により作成された混合割合が親の対立遺伝子サンプリング偏向により影響を及ぼされた程度が調べられた。集団のペアが選択され、AIMはこれらの2つの集団間での所属を決定することに関連していたのだが(表6 − 群のこのペアについて最も高いδ値をもつものを選択した)、対立遺伝子頻度は、AIMについてのδ値が20%(これらの2つの群に関して)、低下するように群の1つにおけるこれらのAIMのそれぞれについて調整された。要するに、検査の検出力は、群の特定のペア間での所属の決定について20%、計画的に低下させられた；この低下させられた検査は、祖先2.1EA/EU BGA検査と呼ばれ、EA/EUは、東アジア人(EA)とインドヨーロッパ人(EU)群間の識別における低下を指す。31個のサンプルがランダムに選択され、遺伝子型は、原型(ANCESTRYbyDNA(商標)2.0)の検査についてと全く同じ様式で祖先2.1EA/EU BGA検査に対して実行され、結果は、ANCESTRYbyDNA(商標)2.0検査で得られたものと比較された。

ANCESTRYbyDNA(商標)2.0検査からの結果が、サンプリング偏向により引き起こされた親の対立遺伝子頻度誤差、多くて2、3パーセントのオーダーにあると予想されうるが、に高い感受性がある場合には、祖先2.1EA/EU AIMについて導入された20%変化は、結果として、ANCESTRYbyDNA(商標)2.0のものとは実質的に異なる混合割合を生じるはずである。観察されたインドヨーロッパ人/東アジア人混合の数が、アフリカ人/アジア人混合または先住アメリカ人/アフリカ人混合のような混合の他の型より有意に大きかったので、ヨーロッパ人/東アジア人のペアが第一検査について選択された − 祖先2.1EA/EU −、およびAIMの数および累積δ値が最も低いBGA群ペアは先住アメリカ人/東アジア人であり、このペアについてのδ値は第二検査において変更された − 祖先2.1NA/EA。ANCESTRYbyDNA(商標)2.0と祖先2.1EA/EUの間の混合割合において観察される平均変化は1.4%であった(標準偏差2.44%)。先住アメリカ人/東アジア人のペアについて、ANCESTRYbyDNA(商標)2.0と祖先2.1NA/EAの間の平均変化は1%であった(標準偏差2.3%)。

人種の社会文化的または自己保有の概念は、人種の遺伝性構成要素であるBGAとしてのヒト生物学ときちんと結びつけられている可能性は高くない。それは主観的、非精密および時々、不正確であるため、BGAの推論のための自己同定された人種の使用は、現在、実施されているのだが、いかに、およびなぜ、ヒト生物学がヒト人類学と関連しているかをわかりにくくしている。さらになお、前もって作られた人種の群への患者の融通のきかない区分けは、全く満足させない概念の実施である、なぜなら、多くの個体は、彼らの起源を混合の過程を通しての複数の集団へたどることができるからである。BGAを定義するための反復可能、検査可能な人類学的アプローチは、直接の相関を通してであろうが、および/もしくはより良い研究設計を通してであろうが、BGAと遺伝性疾患の間の関係を引き出しうる手段、またはMALDのような混合過程に頼る遺伝子マッピング方法を通してのようなより繊細な手段を提供することができる。

本明細書に開示されているように、71個のマーカー検査は、BGA割合およびそれらの信頼区間の決定を可能にした。検査は、個体内のBGAの相対的比例の決定を可能にし、このように、BGA検査を、DNAから祖先を推論するために以前に用いられた他の検査と区別した。大部分BGA所属に関して、2200個より多い検査が行われ、人種の自己保有概念と矛盾する結果は得られなかった。以前の祖先の検査は、上部の90%範囲に対してのみ正確であった(Shriverら、前記、1997；Frudakisら、前記、2003も参照、これは参照として本明細書に組み入れられている)。BGA検査で観察される向上した性能は、DNAから祖先を推論するために一般に用いられていたCODISおよび他のSTRは、それらのδ値について選択されず、世界集団におけるそれらの多型複雑性について選択されたからでありうる。本明細書に開示されたBGA検査について、ゲノム全体が体系的にスキャンされ、この目的のための最良のAIMが選択された。さらに、STRまたはAlu配列を用いてDNAから祖先を推論するほとんどの試みは、単一の「人種の」群へサンプルを分類または区分けしようとした。50/50混合のような広範囲な混合の個体について、そのような方法は、「正しい」答えと同じくらいの回数で「間違った」答えを生じるように思われる。対照的に、BGA検査については、祖先は比例的所属に関して決定され、それに従って、この問題を改善する。

BGA検査は、それが染色体の大部分を網羅しいてるSNPを使用する点において他の検査と区別できる。BGA検査を用いる全染色体の適用範囲は、染色体の小部分を網羅するのみであるCODIS STRを用いる検査を凌ぐ実質的な利点を提供する。さらに、BGA方法は、それの答えについての信頼限界を定量化する最初であると思われる。例証されているようなBGA検査は広く発見的であり、世界を、大陸ラインに沿って広く属する4つの主な人類学的群へ分割する。地理学的分割は、ヒト移住の人類学的歴史を重んじているが、4つの群の使用は、実に、非常に複雑な状況の単純化であり、任意であると考えられうる。さらに、比例的所属を決定する問題は、最も可能性が高い3元(4元よりむしろ)の組み合わせを計算することにより単純化された、なぜなら、4次元BGAの個体はまれであると考えられるから、およびそれは計算法の意味においてより便利であるからである。しかしながら、より複雑な検査は、人類学的歴史の実在の詳細のより多くを捕らえることができうるが、大まかな4つの集団検査でさえも、もし結果がこれらの区分および検査の構築に用いられた親のサンプルに関して厳密に解釈されるとすれば、意義のある、かつ歴史的な内容のデータを提供する。

特定の親の群を選択し、かつ一定の群への世界の単純な分割化を選択することにより、合体時間に意味がもたらされ、それにより、検査によって与えられた推論が評価される。実際、4つの世界集団群に基づく検査と25個に基づくより複雑な検査とにより与えられた答えの間の差は、人類学的時間尺度の一つであろうが、「正確さ」ではない。例えば、検査された米国生まれのほとんどのヒスパニックおよび検査されたアメリカインディアン・ヘリテージ型を主張しているほとんどの個体は、インドヨーロッパ人の背景において小部分先住アメリカ人混合を示した。しかしながら、ヒスパニックについての場合とは違って、アメリカインディアン・ヘリテージを主張している個体の一部は、先住アメリカ人混合の代わりに小部分東アジア人混合をもつとして分類された。先住アメリカ人についての創始者は東アジアから、おそらく歴史において異なる時代に異なる動向(wave)で、移住したため、先住アメリカ人と東アジア人の間の遺伝的距離は、先住アメリカ人とサハラ以南アフリカ人またはインドヨーロッパ人の間よりも低い(Cavalli-SforzaおよびCavalli-Sforza、前記、1995)。植民地時代前の北アメリカ人の中で、東アジア人または先住アメリカ人への比例的所属は、祖先が第一の波の部分だった個体について、祖先が後期の波の部分であった個体についてとは異なることが予想される。

本研究に用いられた先住アメリカ人についての親のサンプルは、南メキシコから引き出され、このサンプルから得られた先住アメリカ人について確立されたAIM対立遺伝子頻度は、ベーリング海峡を渡るより初期の移住の波からの祖先をより表していると予想されうる。ラテンアメリカおよび南アメリカからの先住アメリカ人は、例えば、おそらくベーリング海峡を渡る後期の波からの祖先により密接に所属するものと思われるアリュートインディアン(およびその他)のような北アメリカからの者より、より密接に初期の波の祖先に所属する可能性が高いものと思われる。アメリカインディアンへの所属を主張しているそれらの個体についての東アジア人所属は、親の供給源としての南メキシコナティボスの選択、および4群の人類学的スキームのみの使用の副産物である可能性がある、しかしそれでもなお、その答えは、科学的意味において「間違った」答えではない。むしろ、それは、親のサンプルの供給源により定義された合体時間尺度に関する所属およびこの研究のための世界が分割される人類学的に意義のあるやり方を報告している。

北アメリカ人群内の所属をお互いから、および東アジア人から決定しうるより多くのマーカーでの異なる検査は、異なる合体時間尺度において働き、これらの個体を小部分「アメリカインディアン」または「北アメリカの先住アメリカ人」混合として分類される可能性が高いものと思われる。それでもなお、検査に組み込まれた測定基準により明確にされているように、例証されたBGA検査が「先住アメリカ人」祖先の有意な数の個体が先住アメリカ人より東アジア人へのより多い所属を示すという事実は、集団所属の概念に基づく社会的またはヒトの歴史が意味論的、主観的であり、生物学的に意味のあるやり方において必ずしも正確とは限らないというさらにもう一つの例でありうる。たとえ、アリュート人が身体的特徴に関してたいていの先住アメリカ人と同じくらい、またはそれより多くまでも、東アジア人に似ているように思われうるとしても、およびたとえ、彼らが温帯性北アメリカに対してと同じくらい東アジアに対して近位の地理学的場所に土着しているとしても、彼らは、たいていの人により、彼らの家がベーリング海峡の東にあることから、北アメリカインディアンおよび、拡大により、先住アメリカ人であるとみなされる。同様の例は、下に考察されているように、特定の他の集団群について観察され、遺伝マーカーを用いる集団所属の測定と、地理学的および社会的境界から人が人種のアイデンティティを帰するために編み出したことの間の意思疎通の欠如を例証している。

BGA検査の認定を尊重して、いくつかの意義のある人類学的および/または社会学的知識を抽出するために結果を編集することは興味深い。BGA検査を用いて、検査された201人のアフリカ系アメリカ人のうちの11人が大部分インドヨーロッパ人および小部分アフリカ人BGAを示し、大部分アフリカ人血統のプエルトリコ人のは、ほとんどいつも、彼ら自身をヒスパニックと記載し、人造の構築物に基づく二分法による存在物としての人種の現在の概念についての欠陥を再び、指摘している。本研究において観察されているように、Rischら(前記、2002)およびRosenbergら(前記、2002)は、ゲノムマーカーに頼るBGAを報告する方法に対して検査した場合、大部分集団所属は、質問票において全く正確に報告されていることを示した。2,000人を超える個体の本検査は、大部分BGA所属は自己申告された人種から正確に予想されうること、その2つの間の不一致はさほど有意な事象ではないこと、および大部分祖先所属の測定は現行の自己申告している方法について主要な問題ではないことを示している。しかしながら、たぶん、最も驚くべき結果は、検査された各集団についての混合の程度であった。個体が混合を主張した場合、それは、ほとんどいつも、BGA検査で確認された；予想されたサハラ以南アフリカ人と東アジア人混合の各場合は、BGA検査で確認され、メキシコ系のあらゆるヒスパニックは、予想されたとおり、大部分または小部分のいずれかの先住アメリカ人混合を示した。

検査されたすべての「カフカス人」の2/3よりわずかに多くは、小部分東アジア人または先住アメリカ人混合を示し、事実上、これらの個体の誰も彼または彼女の質問票において少しの有意な血統混合も報告しなかった。この混合のいくらかは、民族性の機能であると思われる。比較的均一な自己申告された北および東ヨーロッパ人ヘリテージの個体がより一般に東アジア人BGAを示しただけでなく、Rosenbergら(前記、2002)は、この観察を支える「ヨーロッパ系アメリカ人」または「ヨーロッパ人」集団内に有意な構造があることを示した；具体的には、彼らは、ロシア人が一般に、小部分東アジア人ヘリテージを示すことを示した。そのような東アジア人/インドヨーロッパ人混合が定着した可能性があるところは歴史において多数回あり、例えば、モンゴル人のヨーロッパの侵略、およびコーカソイドのスカンジナビア半島への拡大を含み、そのラップ人の住人は北アジア人起源であり、モンゴル人の特徴を示し、東アジア人と共通した歴史および文化を共有する(Cavalli-SforzaおよびCanvalli-Sforza、前記、1995)。観察された先住アメリカ人混合のいくらかは歴史と一致している；例えば、フィリピン人が広範囲の先住アメリカ人混合を示すことは、スペイン人がラテンアメリカの大部分を征服し、最近までスペインの属領であったこれらの島へ先住アメリカ人奴隷を輸出したということから見ればさほど驚くべきことではない。かなりのフィリピン人について観察された先住アメリカ人混合の程度は実に高く、たぶん、先住アメリカ人混合は世界のこの地域において比較的ありふれたことであること、および多数のフィリピン人についての系図は、高く分極されたBGA割合の個体についての最近の混合よりむしろ、比較的低い先住アメリカ人混合の個体の大きな数で支配されていることを反映している。「カフカス人」に一般に観察される先住アメリカ人混合は、北アメリカにおけるヨーロッパ人と先住アメリカ人の人々の混合から来た。

スカンジナビア人/ロシア系インドヨーロッパ人および東アジア人、米国におけるサハラ以南アフリカ人/インドヨーロッパ人、フィリピンにおける先住アメリカ人/東アジア人混合、または米国におけるインドヨーロッパ人/先住アメリカ人の間のような体系的混合のほとんどの場合、関連した群の地理学的近接および/または歴史的混合は、歴史により十分に確立されている。例えば、アフリカ人/東アジア人混合はこれらの研究においてめったに観察されなかったし、これらの2つの集団が、お互いに、極めて接近して住んでいたまたは混合した時代の例を歴史はほとんど知らない。観察される混合の型はまた、「人種」の自己保有の概念と比較した場合、興味深かった。例えば、アフリカ系アメリカ人は、カフカス人がアフリカ人祖先と混合していたよりもインドヨーロッパ人祖先と多く混合しており、カフカス人およびアフリカ人が彼らのヘリテージをどのように見ているかにおける差を浮き彫りにし、「一滴ルール(one drop rule)」の想起をもたらす。観察された混合の程度を仮定すれば、混合の過程(ヒトの構築物に基づいているため、我々の人類学的文献からは、完全には証明されず、かつ定量化できない過程)から生じる隠されたまたは潜在的なBGA構造は、研究サンプルの群間に大まかな(または細かい)構造差を引き起こすことについて可能性的懸念がある。そのような構造における差は、大集団に基づく研究設計の効力および検出力を低下させることが予想されるものと思われる。

分極され(低い混合)かつ自己申告された人種の2,200人を超える盲検対象者について、大部分祖先が所属の自己保有概念と矛盾しなかった場合、これらのような小部分混合割合の正確さを保証する仕方、および実存としてBGAの究極的な審判員が存在しない(あるいは、家系的情報を除いて、下記参照)とすれば、そのような正確さはどのようにして測定されうるかに関して問題が発生する。この問題に取り組むいくつかの実験が行われ、考え合わせれば、小部分割合は正確に測定されていることを示している。第一に、小部分混合パーセンテージは、独立組み合わせの遺伝的法則に一致した様式で家系図に沿って伝わる。定義により、大きな不偏の誤差は、それを、小部分割合が家系図の関係において矛盾していたようにさせるであろう、すなわち、親の割合が正しいと仮定すると、独立組み合わせの法則を考慮すれば、その結果は起こり得ないであろう。

第二に、小部分混合割合は、平均して、混合の自己保有概念と一致している。BGA所属の推定において大きな、体系的かつ不偏の誤差があった場合には、たいていの個体は比較的分極されたBGA所属をもつため、この誤差は、大きい方の割合パーセンテージの完全性よりも多く、小さい方の割合パーセンテージの完全性に強い影響を及ぼすだろうが、さほど気づかれないほどではない場合には、小さい方の混合割合/存在の、混合の自己保有概念との相関は、おそらく非常に弱いであろう。事実はこのとおりに観察されなかった。例えば、誤差率が20%くらいであった場合には、小部分ヒスパニック祖先を報告している、先住アメリカ人と同じくらい多くの個体が、少量のサハラ以南アフリカ人および東アジア人祖先を示したであろう；本結果は、これが事実ではないことを明らかに実証している。

第三に、北アメリカからの目隠しして検査された約2,200個のサンプルのうち、実質的な(>10%)サハラ以南アフリカ人混合を含む大部分東アジア人、または逆、をもつ個体は全く観察されなかった。そのような個体は、確証サンプルが引き出された北アメリカにおいて極めてまれであるため、この無観察は関連性がある。大きな、不偏かつ体系的な誤差率があった場合には、東アジア人/アフリカ人混合が、高頻度で観察されたヨーロッパ人-アジア人混合と同じくらいの頻度で観察されたであろう。

第四に、高く有意な相関が、アフリカ系アメリカ人において、小部分インドヨーロッパ人混合と皮膚メラニン含有量との間に観察された(実施例1参照)。大きく、不偏の誤差率があった場合には、そのような相関は観察される可能性は高くないであろう。

第五に、2群間の所属の決定に関連したAIMについての真の対立遺伝子頻度が、親のδ値が群の与えられたペアにそれぞれ関連したAIMについて20%、減少していたように、調整される場合、BGA検査の総合的な検出力は、これらの2群間の所属割合を決定することに関して低下したが、本質的には、大部分所属、およびより重要なことには、小部分混合推定の両方に関して、同じ結果が生じた。親のサンプリング偏向は、こういうふうに、親の対立遺伝子頻度推定値およびδ値において不正確を引き起こしうるが、本研究についての親のサンプルが約100個の個体から成り立っていたとすれば、確実に20%未満である。さらに、対立遺伝子頻度推定値における誤差は、存在しうるそのような誤差についての群のペア間の所属を決定することに関連したAIMの大部分について同じ方向で得られなければならないであろう。それにもかかわらず、この結果は、たとえ、そのような誤差が存在したとしても、BGA検査の性能は比較的影響を及ぼされないであろうことを示している。換言すれば、この実験は、BGA検査が親のサンプリング偏向および対立遺伝子頻度推定値をものともせず、比較的強靱であることを実証した。

第六に、ジェノタイピング失敗が関連したものに対応する軸のみに沿った信頼等高線のゆがみが、検査の互いにかみ合う構成要素(AIMのサブセット)中のまともな断絶を示している。換言すれば、サンプルが比例的適合の測定についてのいくつかの鋳型に適合している場合には、これらの鋳型の要素は、妥当であるべき検査について独立しているはずであり、得られた結果はこのとおりであった。

上の6つの観察に照らして、どれくらい有意な体系的かつ不偏の誤差が存在しうるかを想像することは困難である。各観察は、それ自身だけで、正確さの問題点を提供しえないが、その結果をひとまとめにして考えることは、開示されたBGA検査においてほとんどまたは全く、体系的かつ不偏の誤差がないという十分な証拠を提供する。それにもかかわらず、検査における誤差がランダムではなく、線形様式の偏りがあることが議論されうる。しかしながら、第五の観察(上記)は、この可能性の反証となる。例えば、インドヨーロッパ人背景における小部分東アジア人混合の発見は、予想されていたよりも高頻度であり、「正しい」方向で「正しい」数のマーカーにおいて、「正しい」量の対立遺伝子頻度推定誤差が存在した場合(ありそうもない、しかし不可能ではない、状況)に、そのような結果が起こりうる。しかしながら、これらの研究に用いられたAIMマーカーは、特定の群のペアに相互排除的ではないため、そのような誤差は、ただ1つではなく、多くのペアについての所属の決定において顕在化するだろうし、最初の4つの観察(上記)が、これが事実ではないことを示している。また、そのような誤差は、高度に同系交配の群からの親のサンプリングを必要とするように思われる。そのようなサンプリングを避けるために多くの配慮がなされたが、そのように演繹的に行いうる検査は存在しないため、集団の要素がことごとく制御されるとは限らなかった。それとして、シミュレーションが、検査結果への線形誤差の寄与を推定するために行われた(第五の観察、上記)。混合結果がδ値における実質的な(20%)低下に対して比較的抵抗性であったという事実は、本研究で用いられたAIMの量および質が、予想されえた妥当なレベルのサンプリング誤差が結果の質に有意の有害な影響を及ぼさなかったように、十分な検出力をもっていたことを実証している。マーカーの質に関して、AIMの選択過程を考慮すれば、ゲノムにおける最良のマーカーの一部がBGA所属を測定するために用いられたため、この結果は妥当と思われる。マーカーの量に関して、これらの結果は、本明細書に開示されているような71個のマーカー検査からの結果がより早い30個のマーカー検査(Shriverら、前記、2003)から生じたものと非常に類似していたという観察と一致している。このように、平均のマーカー質を保持しながら、マーカーの数を減少させることは、検査を損なわなかった。さらになお、もう一つの研究において、量ではなく、マーカーの質を低下させることは、同じ結果を生じた。全体的に見て、これらの観察は、検査により作成されたBGA割合は、与えられた信頼区間に関して正確であること、および検査は強靱な様式で行われることを示している。

本結果は、BGA混合が以前に考えられていたより、一般であることを実証している。真実とすれば、細かいレベルのBGA混合はヒト生物学、例えば、薬物応答性または疾患素質、と結びつけられるかどうかが問われるべきである。そのような「潜在的な」構造は、大まかな集団構造とは違って、質問票が用いられることができないため、分子検査を用いて測定されうるのみである。質問票を用いて測定されるより粗い大陸のレベルを超える集団構造の細かいレベルが認識されている。例えば、有意な逸話の証拠は、赤毛の人は多くの一般の麻酔薬の20%多い投与量を必要とし、麻酔中の間、高血圧および出血への傾向を示すことを示唆している(Cohen、The Scientist 16:10、2002)。これらの複雑な生理的応答は、赤の髪の色における変化の一部と以前に結びつけられたメラノコルチン-1(MC1R)変異体に基づいて説明するのは困難であるように思われる(Robbinsら、Cell 72:827-834、1993；Smithら、J. Invest. Dermatol. 111:119-122、1998；Flanaganら、Hum. Molec. Genet. 9:2531-2537、2000)。これらの臨床的表現型の原因である可能性が高い特異的な遺伝子変異体があり、これらの変異体が集団構造または微細構造の要素と相関している場合、それらはそうであるように見えるが、マーカーと、関連した表現型活性遺伝子座との間の連鎖またはLDを同定しようとしているいずれの研究も、研究設計段階における最初から困難を背負っているように思われる。社会文化的人種の自己申告により提供されるものより高い精度および客観性は、遺伝学実験の設計を妨げうる構造の要素を同定することが必要とされると思われるため、例証されたBGA検査は、この特定の問題に関連した集団構造の要素を定量化するために、本明細書に開示されたものに加えたAIMを用いて拡張されうる。

実施例3
BGA検査の系図学への適用
この実施例は、BGA混合推定が伝統的な系図学的研究方法を用いて得られた系図学的情報と統合されうることを実証している。

系図学者は、主として、人類学的内容において(例えば、集団混合のどの型がその人の家系図を特徴付けるか)よりむしろ、地政学的内容において(例えば、人の祖先がどの国からであるか、彼らの宗教は何だっかた、および彼らの姓に関するデータ)関連しているデータを収集する。一人の結果において小部分混合を得るための2つの主な供給源がある：1)最近の族外婚混合事象；および2)体系的混合の特徴を持つ民族群への古代の所属。

族外婚事象の結果は、最近の系図学的時間(例えば、この250年間)において測定される。例えば、図11に示されているように、他のすべては均一なインドヨーロッパ人家系図における中国人の曾祖父は、インドヨーロッパ人/東アジア人混合の孫を生じる。100%東アジア人(中国人)である個体は網掛けで示されており(図11)、家系図の一番下の男性(四角)(短い矢印)についての混合結果が対象となる。1人の100%東アジア人の曾祖父および7人の100%インドヨーロッパ人の曾祖父母をもつ人は、12.5%東アジア人混合をもつことが予想される。遺伝的組み合わせの法則により、予想されるレベルは、実際に、数パーセント上下に可能性がある値をもつ、12.5%あたりの範囲である。長い矢印で示された祖母は、約50%/50%東アジア人/インドヨーロッパ人混合であり、彼女の娘、対象者の母親、は25%/75%東アジア人/インドヨーロッパ人混合であると予想される(図11)。

古代の所属(すなわち、人類学的時間枠に関してみなされる)は、族内婚の、比較的、地理学的に隔離された、結びつきの緊密な共同体構造(すなわち、民族性)により現代に保存されている。例えば、今日の人口統計学は、新しい集団を設立するために我々の祖先が行った移住によるだけでなく、世界中を通じてのこれらの集団間の混合により形づけられている。下の地図は、何万年間に渡って生じたY染色体配列から測定された場合のこれらの移住を示している。

それぞれが別々の群として発展した後の、群間の混合は、古代およびずっと最近の歴史を通じて何度も起こり、移住パターンを表している地図上の矢印により表されている。例えば、ロシア人および東ヨーロッパ人において広範囲な東アジア人混合があり(Rosenbergら、前記、2003)、モンゴル人およびフンの侵略が長期間に渡ってこの混合に寄与した可能性がある程度は、謎のままである。先住アメリカ人について明らかなよりいっそう著しい東アジア人混合があった(Rosenbergら、前記、2003)；はるかに多すぎる矢印が必要とされたであろうし、混合事象の大部分は知られていないため、矢印はこの混合について地図上に含まれなかった。それにもかかわらず、彼らの家系図においてかなりの数の先住アメリカ人またはロシア人をもつ人は、100%中国人祖母および3人の他の100%インドヨーロッパ人祖父母をもつ個体と同じくらいの東アジア人混合を非常によく示しえた。

示されてはいないが、時間尺度は、最も意義のある移住が起きた時期を示すように構築され、とても、とても大きな家系図に対応した。家系図は、三角形グラフの一番下の頂点に位置する単一の個体についてである；この人について何万人という祖先がいる場合、60,000年間さかのぼるため、それは大きい。移住についての時間尺度は、その上、大きな家系図に適用する。家系図は、家系地図(図11)に示されたものと同じだったが、ただし、ずっと大きく、祖先を繋ぐ線がなかった(スポットは各祖先を表したが、非常に多くあったので、スポットを繋ぐ線をすべて示すことは実際的ではなかった)。スポットのプールは、「ロシア人」を表し、この例の目的のために、約18,000年前に生まれた民族であると仮定された。追加のスポットは東アジア人を表し、平均ロシア人が10%東アジア人混合を含むという仮定に基づいた。スポットの第三セットは、ロシア人の先駆者を表した；これらの先駆者は未知であるが、この例の目的のために、東ヨーロッパ人であると仮定された。

この例において、この人のロシア人民族性の大部分は、家族の対象者の父親側を表す家系図のその部分であると仮定されうる、家系図の左側から来た。この例が示したように、平均ロシア人が10%東アジア人混合を含み、その人の家系図の半分が主にロシア人である場合には、その人は5%東アジア人混合を含むと予想される。たとえ、その人の祖母、祖父または過去18,000年間内のいずれの他の親類も均一な東アジア人ではなかったとしても、東アジア人混合はこの人について有意である。これを家系図上に視覚化する方法は、すべての「東アジア人」スポットを数え、それらを家系図におけるスポットの総数で割ることであり、それは約5%に達する。このように、比較的均一な東アジア人は、この人についての祖先の総数の約5%を示した。もちろん、いくらかの人々についての家系図は、小さな程度のこの型の混合を特徴とする多数の群を含む。例証されたもののような家系図は、特定の民族について分極化されており、4つのBGA群(サハラ以南アフリカ人、先住アメリカ人、インドヨーロッパ人および東アジア人)のそれぞれの均等な分布をもつ家系図を見ることはまれである、なぜなら、最近まで、および今でさえ、ある程度は、人々は、彼ら自身と同様の他人と子どもをもつ傾向にあったからである。それとして、たいていの家系図は、ランダムな所属の「ごたまぜ」ではなく、例証されているように高度に分極化されている。

ペンシルヴェニアダッチが古代の所属による混合のもう一つの例を提供し、この共同体において、ドイツ人祖先において、1700年より前に、有意な東アジア人含有量が存在したと思われる。これらの祖先は、上部ライン川流域における谷、その後、後になって、ずっとさらに遠くの内陸、に場所を占める共同体を設立した。これらの共同体は比較的隔離されたままであったため、東アジア人のレベルは、約20%レベルのままであった。このレベルの希釈は、東アジア人混合が検出できないフランス人またはサルデーニャ人のような他のインドヨーロッパ人民族との対外的混合を必要とする。この場合、ドイツ人祖先は、実質的な平均東アジア人混合をもったが、おそらく、より不均一なドイツ人集団内からのサンプリングによると思われる。

たいていの系図学者は、族外婚混合の方法により到達した源に見出される混合の型に関心をもつが、それは遠い祖先についての人類学的情報よりむしろ、最近の祖先の地政学的所属についての情報を与える。これは、最近の人と比較して、より遠い祖先についての文書データがほとんど存在しないからである；人が時間をさかのぼるのが遠ければ遠いほど、存在する祖先の数が大きくなり、不可能ではないとしても、研究を困難にさせる；および遠い祖先の現代の人の遺伝的構成への寄与は、より最近の祖先のものより親類あたり平均して低いからである。それとして、系図学者は、最近の混合により何が生じうるかというような情報を捜す傾向にある。例えば、人がアメリカインディアン祖先のうわさまたは伝説を証明するまたは反証を挙げようとしている場合には、10%先住アメリカ人混合結果は、この混合についての機構が最近の族外婚混合事象によったこと；および体系的混合の特徴がある民族群への古代の所属によったのではないことが保証されうるとすれば、非常に有用であるだろう。BGA検査は、族外婚対古代の混合の間の区別を可能にしないが、検査の結果は、系図学的パズルの重要なピースを提供する。

家系図に依存しているいくらかの系図学者にとって、証拠が、混合の機構が最近の事象からであることを強く示唆する場合がある。それとして、家族がアメリカインディアンの曾祖父の文書証拠をもつ人について、BGA検査による10%先住アメリカ人混合結果は、その事象が最近の混合により起きた可能性が高いことを示しうる。比較して、確認された、均一なヨーロッパ人祖先の人について、10%先住アメリカ人混合は、その事象が古代の混合により起きた可能性が高いことを示している。

否定的結果は、系図学者にとって肯定的結果とは異なる意味をもつ。例えば、純血のアフリカ人の曾祖父を示唆している情況的な、しかし低い質の、データがあり、かつBGA検査が100%インドヨーロッパ人と明らかにする場合には、そのうわさの価値が減ぜられるだろう(独立組み合わせの遺伝的法則を考慮に入れる、それは、そのデータが実際、正しかった場合には、そのような結果を可能ではあるが、可能性は低くいものにさせるだろう)。しかしながら、ある人の家族が中国人の曾祖父をもっていたのではないかと思う場合には、族外婚の混合と古代の混合を区別することが可能ではないため、20%東アジア人混合結果からそれを証明することはできない。

系図学者が、混合結果について最も可能性が高い源を再構築するために他の知識を生かすことは重要である。実際、BGA混合データは、家系を再構築しようとしている人にとって独立した手掛かりとしての役割を果たし、それが系図学的知識と共に用いられる場合、その2つは結合して、いずれか単独よりも強力である証拠を形成する。それとして、BGA検査は、古代または非常に古い(系図学的時間枠に関して、この250〜300年間を含む)混合を現代の我々に伝えた人類学的源、およびこの200年間の家系図における事象による族外婚混合に均等に重きをおく様式においてBGA混合結果を提供することにより、家系共同体のためにあつらえられる系を形作るのを助けることができる補助的なツールを提供する。

数千個のBGAプロフィールのデータベースは、世界中の様々な場所の人々から構築されていて、あらかじめ選択された誤差範囲を加えてまたは引いて、プロフィールでデータベースに質問することができる。この型のプロフィールが一般に見出されている場所のリストが提供されうる、または、例えば、色で分類されている世界の地図が提供されうり、色は、混合プロフィール/範囲に対応する可能性が高い地域の所属を示す。換言すれば、BGA混合プロフィールを仮定すれば、地図は、その人の最近の祖先が出てきたと思われる場所を示すことを提供しうる。10%東アジア人および90%インドヨーロッパ人をもつ人は、中国(族外婚混合)またはロシア(家系図を越える民族的均一性と結合されたより古代の混合)からの祖先の起源の高確率を示す。

同様に、系図学者は、人類学的情報よりむしろ地政学的情報に基づいている文書研究から導かれる、同様に色で分類された地図を提供することができる。その2つの地図はその後、オーバーレイされうり、最近の家系の最も可能性が高い推定を提供するためにBGA検査からの情報を文書系図の情報と結合させるベイズの統計的計算がなされうる。

例として、90%インドヨーロッパ人および10%東アジア人BGAならびにルーマニア人/英国人/スペイン人祖先の文書系図をもつ人が、第一に、彼または彼女のBGA結果でデータベースに質問する、源がおそらく東アジア(最近の混合による)、ロシアおよび北/東ヨーロッパ(両方とも、比較的隔離かつ混合された群からの多数のより遠い祖先による)からであるとして示される地図が提供される。色での分類は、適合性のあるBGA群が各地域に見出される頻度に基づいて地域からの起源の確率を与え、それは、混合の型、および世界中でのサンプリングの作用である本発明者らのデータベースの特徴に依存して全く複雑でありうる。第二に、その人は、本発明者らが提供しうる地図製図ツールを用いて、系図学的研究から文書で証明されたもっともらしいルーマニア人/英国人/スペイン人ヘリテージに基づいた別途の地図を提供する(または提供される)。この地図から、最近の均一な東アジア人祖先の見込みは高くないことは明らかである。第三に、プログラムは、10%東アジア人混合の最も可能性が高い起源はルーマニア人祖先(英国人またはスペイン人ではない、かつ例えば、中国人の祖父によるのではない)からであることを決定する。

この型の提示は、人が、系図学的研究のような他の手段を通して得られた以前の知識を用いて、予想外の混合結果の最も可能性が高い源を知ることを可能にする。これは、遺伝的構成の起源を解明しようと努める系図学者にとって価値がある。この補助的なツール無しでは、90%インドヨーロッパ人および10%東アジア人混合をもつ人は、検査が最近の中国人もしくは日本人の祖父/曾祖父を示唆したのか、または小部分東アジア人混合が一般に見出される特定の民族所属を示唆したのかを測定する手っ取り早い手段をもたないものと思われる。

実施例4
虹彩色素形成と生物地理学的祖先の関連
この実施例は、AIMを用いて測定された潜在的集団構造が、虹彩の色のような複雑な遺伝的形質に関する推論を可能にすることを実証している。

共通の多型が虹彩の色の自然の分布と関連しているかどうか、およびどのようにか、を測定するために、主としてヨーロッパ人系の851人の個体が、13個の色素形成遺伝子での335個のSNP遺伝子座、およびゲノム中に分布し、集団構造の特定の要素について情報を与えることが知られているまたは考えられる419個の他のSNPにおいて調べられた。多数のSNP、ハプロタイプおよびディプロタイプ(ハプロタイプの二倍体対)、がOCA2、MYO5A、TYRP1、AIM、DCTおよびTYR遺伝子、ならびに虹彩の色と有意に関連しているCYP1A2-15q22-ter、CYP1B1-2p21、CYP2C8-10q23、CYP2C9-10q24およびMAOA-Xp11.4領域内で同定された。関連したSNPの半分は、染色体15上に位置したが、他の人が以前に連鎖解析から得られた結果と一致している。ハプロタイプおよび/またはディプロタイプをもつ、5個の追加の遺伝子(ASIP、MC1R、POMCおよびSILV)ならびに1個の追加の領域(GSTT2-22q11.23)が同定されたが、虹彩の色に関連した個体のSNP対立遺伝子ではなかった(国際公開公報第02/097047号も参照)。その遺伝子の大部分について、多座の遺伝子様式の遺伝子型配列は、ハプロタイプまたはSNP対立遺伝子より強く虹彩の色に関連していた。これらの遺伝子のディプロタイプが虹彩の色変動の15%を説明する。これらの結果は、変動性虹彩色素形成についての包括的な候補遺伝子研究を提供し、DNAからの虹彩の色の推論に有用な分類モデルを構成する。結果は、ゲノムが適切なAIMでスクリーニングされている場合には、潜在的集団構造が複雑な形質遺伝子マッピングのためのてこの力のツールとしての役割を果たしうることをさらに実証している。

虹彩色素形成は、遺伝学者、人類学者および社会全般に興味を起こさせてから久しい複雑な遺伝的形質であるが、まだ完全には理解されていない。ユーメラニン(褐色色素)は、メラノソームと呼ばれる分化したメラノサイトリソソームにおいて合成される光吸収性ポリマーである。メラノソーム内で、チロシナーゼ(TYR)遺伝子産物は、チロシンの3,4-ジヒドロキシフェニラニンまたはDOPAへの律速ヒドロキシル化を触媒し、その結果生じた産物は、DOPAキノンへ酸化され、ユーメラニン合成のための前駆物質を形成する。TYRはこの過程にとって中心的に重要であるが、動物における色素形成は、単にTYRまたは任意の他の単一なタンパク質産物もしくは遺伝子配列のメンデルの関数ではない。実際、人および様々なモデル系における色素形成形質についての伝達遺伝学の研究は、変動性色素形成は相互作用が全く複雑であるように見える複数の遺伝性の因子の関数であることを示唆している(例えば、Akeyら、前記、2002；Boxら、J. Invest. Dermatol. 116、224-229、2001を参照)。例えば、ヒトの髪の色と違って(Sturmら、Gene 277:49-62、2001)、哺乳動物の虹彩の色の決定について微量優性成分のみがあるようにみえ(BrauerおよびChopra、Anthropol Anz. 36:109-120、1978)、与えられた集団の個体内または個体間において、皮膚、髪と虹彩の色の間に最小限の相関が存在している。対照的に、集団間の比較は、良い一致を示す；黒い方の平均虹彩の色をもつ集団はまた、黒い方の平均皮膚色調および髪の色を示す傾向がある。これらの観察は、様々な組織における色素形成についての遺伝的決定子は別個であること、ならびにこれらの決定子は、世界集団においてそれらの分布を形づくった、共通の1組の体系的および進化的力を受けやすかったことを示唆している。

細胞レベルにおいて、健康なヒトにおける変動性虹彩の色は、虹彩における一定数の間質性メラノサイト内でのメラニン色素顆粒の示差的沈着の結果である。顆粒の密度は、幼少期初期までには遺伝的に決定されたレベルに達するように見え、ごく少数派の個体は人生の後期の間に色の変化を示すが、通常は、後期の人生を通じて不変のままである。血統研究は、虹彩の色変動は、2つの遺伝子座の機能であることを示唆した；皮膚または髪に影響を及ぼさない、色素脱失の原因である一つの遺伝子座、およびすべての組織における色素の減少についてのもう一つの多面発現性の遺伝子(Brues、Amer. J. Phys. Anthropol. 43:387-391、1975)。

色素形成について今知られていることの大部分は、ヒトならびにマウスおよびキイロショウジョウバエ(Drosophila)のようなモデル系におけるまれな色素形成欠陥の分子遺伝学研究から導かれた。例えば、ヒトにおける眼皮膚白皮症(OCA)形質の解剖は、多くの色素形成欠陥がTYR遺伝子における損傷によることを示し、チロシナーゼ(TYR)陰性OCAsとしての名称に帰着した(例えば、OettingおよびKing、Hum. Mutat. 13:99-115、1999を参照；ワールドワイドウェブ(「www」)上のURL「cbc.umn.edu/tad/」における白皮症データベースも参照)。TYRは、メラニン生合成の律速段階を触媒し、ヒト虹彩が着色される程度は、TYRメッセージレベルの振幅と良く相関する。それにもかかわらず、OCA表現型の複雑性は、TYRが虹彩色素形成に関与する唯一の遺伝子ではないことを例証した。たいていのTYR陰性OCA患者は完全に色素脱失しているが、黒色虹彩のアルビノマウス(C44H)およびそれらのヒトIB型眼皮膚白皮症の対応物は、虹彩を除くすべての組織において色素の欠乏を示す(SchmidtおよびBeermann、Proc. Natl. Acad. Sci. USA 24;91:4756-4560、1994)。多数の他のTYR陽性OCA表現型の研究は、TYRに加えて、眼皮膚白皮症2(OCA2；Durham-Pierreら、Nature Genet. 7:176-179、1994；Durham-Pierreら、Hum. Mutat. 7:370-373、1996；Gardnerら、Hum. Mutat. 7:370-373、1992)、チロシナーゼ様タンパク質(TYRP1；Boissyら、Amer. J. Hum. Genet. 58:1145-1156、1996)、メラノコルチン受容体(MC1R)；Robbinsら、前記、1993；Smithら、前記、1998；Flanaganら、前記、2000)およびアダプチン3B(AP3B；Ooiら、EMBO J. 16:4508-4518、1997)遺伝子座、ならびに他の遺伝子(Sturmら、前記、2001に概説されている)が、正常なヒト虹彩色素形成に必要であることを示した。これらの遺伝子のそれぞれは、主要な(TYR)ヒト色素形成経路の部分である。

キイロショウジョウバエにおいて、虹彩色素形成欠陥は、メラノサイトでの様々な細胞過程に寄与する85個を超える遺伝子座おける突然変異のせいにされたが(Ooiら、前記、1997)、マウス研究は、約14個の遺伝子が脊椎動物において優先的に色素形成に影響を及ぼすこと(Strumら、前記、2001に概説されている)、ならびにTYRおよび他のOCA遺伝子の不同性領域が異なる組織において色素形成を決定するについて機能的に別個であることを示唆した。ヒト色素形成遺伝子は、メラノソームの内側表面上でのチロシナーゼ酵素複合体形成についてのもの、ホルモン性および環境的制御、メラニン芽細胞遊走および分化、新しいタンパク質のメラノソームへの細胞内経路設定、ならびにメラノソームの細胞の本体からケラチン生成細胞に向けての樹状突起アームへの適切な輸送を含む、いくつかの生化学経路へと展開する。それにもかかわらず、ヒトOCA変異体の研究は、表現型活性のある色素形成遺伝子座の数が遺伝的解析にとって扱いやすく小さいことを示唆している。

色素突然変異体における研究は、遺伝子の小さなサブセットが主として、マウスおよびヒトにおいて破局的色素形成欠陥の原因であることを明らかにしたが、これらの遺伝子における共通のSNPがヒト虹彩の色における自然の変動へと寄与(または連鎖)しているかどうか、またはどのようにかは不明なままである。褐色虹彩遺伝子座は、OCA2およびMYO5A遺伝子を含む区間に位置し(EibergおよびMohr、Eur. J. Hum. Genet. 4:237-241、1996)、MC1R遺伝子における特定の多型は、比較的隔離された集団において赤毛および青の虹彩の色と関連している(例えば、Robbinsら、前記、1993；Flanaganら、前記、2000；Valverdeら、Nature Genet. 11:328-330、1995；Schiothら、Biochem. Biophys. Res. Comm. 260:488-491、1999を参照)。ASIP多型は、褐色の虹彩および髪の色の両方と関連していることが報告された(Kanetskyら、Amer. J. Hum. Genet. 70:770-775、2002)。しかしながら、これらの対立遺伝子のそれぞれの浸透度は低いように思われ、一般的に、ヒト集団内で虹彩の色における全体的な変動のただごく少量のみを説明するにすぎないと思われる(Spritzら、Nature Genet. 11:225-226、1995)。しかしながら、単一遺伝子研究は、ヒト虹彩の色の複雑な遺伝的性質を理解するための論理的に正しい根拠を提供しなかった。

たいていのヒト形質は複雑な遺伝的起源をもち、全体はしばしば、部分の総和より大きいため、遺伝的複雑性 − 例えば、優性および上位の遺伝的分散の多因子性ならびに/または相既知の成分 − を重んじる、革新的なゲノム科学に基づく研究設計およびコンピューターで遺伝的データをスクリーニングするための解析方法が必要とされる。しかしながら、第一段階は、配列レベルで形質値における分散を説明する遺伝子座の補体を定義することであり、これらのうち、境界的（marginal）または浸透的意味でそのように行うものは、見出すのに最も容易であると思われる。本研究が行われたのはこの目標に向けてである。

非体系的な、仮説に基づくゲノムスクリーニングアプローチは、虹彩の色変動に境界的に(すなわち、独立して)関連した様々なSNP、ハプロタイプおよびディプロタイプを同定するために適用された。この実施例に開示されているように、多数の遺伝子における驚くほど多数の多型が虹彩の色と関連しており、虹彩の色の色素形成の遺伝的性質は全く複雑であることを示している。同定された配列は、DNAからの虹彩の色の推論のための分類器モデルの基盤を提供し、生物地理学的祖先のマーカーとしてのこれらの一部の性質は、他の複雑な形質遺伝子マッピング研究の設計に対して意味をもつ。

方法
検体収集
再シーケンシングのための検体は、キャムデン、ニュージャージーにおけるCoriell Instituteから得られた。ジェノタイピングのための検体は、自己申告されたヨーロッパ系で、異なる年齢、性別、髪、虹彩および皮膚暗度をもち、それらは、IRBガイダンスの下、インフォームドコンセントのガイドラインを用いて収集された。供与者は、青色、緑色、うす茶色、褐色、黒色または知られていない/明確ではない、虹彩の色についてのボックスにチェックし、それぞれは、虹彩の色が彼らの人生行路に渡って変化したかどうか、または各虹彩の色は異なるかどうかを同定する機会をもった。虹彩の色があいまいである、または人生行路に渡って変化した個体は、解析から排除された。

103人の被検者について、虹彩の色は、そのうえ、1〜11の数を用いて報告され、1は、色掲示を用いて同定される、最も暗い褐色/黒色、11は最も明るい青色である。これらの被検者について、被検者が、照明条件および距離を標準化するために一方の側で箱の中を、他方でカメラを凝視した、右の虹彩のデジタル写真が得られ、そこからの判断によりサンプルが色群へ割り当てられた。その2つを比較して、86個の分類が合致した。そうでなかった17個のうち、6個が褐色/うす茶色、7個が緑色/うす茶色、および4個が青色/緑色の不一致であったが、褐色/緑色、褐色/青色またはうす茶色/青色のようなひどい不一致はなかった。そのような誤差は、虹彩の色と境界的に関連した配列を同定することについて許容できるが、デジタル的に定量化された虹彩の色を得ることにより、虹彩の色の分類について本明細書に記載された配列の使用に関して、信頼は増加しうる。

SNP発見
候補SNPは、一般的に遺伝子型に対して可能であるより多くの候補SNPを提供する、NCBI:dsSNPデータベースから得られた。ヒト色素形成および生体異物代謝の遺伝子が調べられ、それらの染色体の位置ではなく、それらの遺伝子アイデンティティに基づいて選択された。いくつかの遺伝子について、データベースにおけるSNPの数は低かった、および/またはSNPのいくつかは虹彩の色と強く関連しており、より深い調査を請け合うものである。これらの遺伝子について、再シーケンシングが行われた；本明細書に開示された遺伝子のうち、113個のSNPが、CYP1A2(7個の遺伝子領域、5個の単位複製配列、10個のSNPが見出された)、CYP2C8(9個の遺伝子領域、8個の単位複製配列、15個のSNPが見出された)、CYP2C9(9個の遺伝子領域、8個の単位複製配列、24個のSNPが見出された)、OCA2(16個の遺伝子領域、15個の単位複製配列、40個のSNPが見出された)、TYR(5個の遺伝子領域、5個の単位複製配列、10個のSNPが見出された)およびTYRP1(7個の遺伝子領域、6個の単位複製配列、14個のSNPが見出された；表9および10を参照；国際公開公報第02/097047号も参照)において発見された。

（表９）ヒト虹彩色素形成に関連した配列について検査された候補遺伝子

これらの遺伝子についての再シーケンシングは、672人の個体(the Coriell Institutes DNA Polymorphism Discovery Resourceから450人の個体、96人の追加のヨーロッパ系アメリカ人、96人のアフリカ系アメリカ人および10人の太平洋諸島系、10人の日本人および10人の中国人；この672個は、本明細書に記載された関連解析に用いられたものとは別々の1組のサンプルを表した)の多民族的パネルからの近位のプロモーター(転写開始部位の平均700 bp上流)、各エキソン(平均1400 bp)、各イントロンの5'および3'末端(イントロン-エキソン接合部を含む、平均サイズ約100 bp)、ならびに3'UTR配列(平均700 bp)を増幅することにより行われた。PCR増幅は、pfu TURBOポリメラーゼを用いて製造会社のガイドライン(Stratagene)に従って達成された。プログラムは、偽遺伝子が共増幅されないこと、または反復の内からの配列が増幅されることを保証するように、ゲノムにおける相同性配列を重んじる様式において再シーケンシングするプライマーを設計するために用いられた。BLAST検索は、用いられたすべてのプライマーの特異性を確認した。増幅産物はpTOPO(登録商標)シーケンシングベクター(Invitrogen)へサブクローニングされ、96個の挿入陽性コロニーがプラスミドDNA単離のために増殖された(増幅段階への670人の個体の使用は、選択された96個のこのサブセットへ1度より多く寄与する個体の尤度を低下させた)。

シーケンシングは、PE Applied Biosystems BDT chemistryを用いるABI3700シーケンサーで行われた；配列は、市販用のリレーショナルデータベースシステム(iFINCH、Geospiza；シアトル、WA)へ入れられた。PHRED認定された配列は、CLUSTAL Xアラインメントプログラムへインポートされ、このアウトプットは、配列間の品質確証された不一致を同定する第二のプログラムで用いられた。PHREDスコア24点またはそれ以上の変異体の少なくとも2つの例が同定されたそれらの配列が選択され、再シーケンシングを通して発見されたこれらのSNPのそれぞれが、ジェノタイピングに用いられた。

ジェノタイピング：
SNPの大部分について、PCRの第一ラウンドが高忠実度DNAポリメラーゼpfu TURBOポリメラーゼおよび適切な再シーケンシングプライマーを用いてサンプルにおいて行われた。その結果生じたPCR産物の代表がアガロースゲル上で確認され、第一ラウンドPCR産物は希釈され、その後、PCRの第二ラウンドのための鋳型として用いられた。質問される遺伝子の多数は、遺伝子ファミリーのメンバーであるため、2ラウンドが必要であった；SNPは、配列相同性の領域に存在し、ジェノタイピングプラットフォームは短い(約100 bp)単位複製配列を必要とした。残っているサンプルについて、PCRの単一ラウンドのみが行われた。ジェノタイピングは、一塩基プライマー伸長プロトコールおよびSNPstream(商標)25K/超高処理量(Ultra High Throughput(UHT)装置(Orchid Biosystems；プリンストン、NJ)を用いて個体のDNA検体について行われた。遺伝子型はいくつかの品質管理を必要とした；2人の科学者は、独立して、>95%について1,000より大きい全体のUHTシグナル強度および各遺伝子型クラスについての平均間での明らかなシグナル差(すなわち、UHT解析ソフトウェアを用いる2-D空間における明らかな遺伝子型クラスター形成)を要求して、コールを合格/不合格の検査をした。

統計的方法
遺伝子座内および間での対立遺伝子状態における独立性からの逸脱を検定するために、MLD精密検定が用いられた(Zaykinら、前記、1995)。ハプロタイプは、ハプロタイプ再構築方法を用いて推論された(Stephensら、前記、2001)。実在の虹彩の色変動が様々なモデルにより説明されうる程度を測定するために、R²値が、表現型の値を青色の目の色について1として、緑色の目の色について2として、うす茶色の目の色について3として、および褐色の目の色について4として、最初に割り当てることにより、SNP、ハプロタイプおよび多座の遺伝子型のデータについて計算された。BGA混合割合は、この目的のために開発されたソフトウェアプログラムの関係内で記載されているように測定された。R²計算法について、以下の関数が用いられた：Adj-R²=1-{(n/(n-P)}(1-R²)、nはモデル自由度であり、n-pは誤差自由度である。複数の検査について補正するために、複数の結果についての経験的ベイズ調整方法が用いられた(Steenlandら、Cancer Epidemiol. 9:895-903、2000、参照として本明細書に組み入れられている)。

結果
変動性ヒト色素形成に関連したSNP遺伝子座を同定するために、色素形成遺伝子(AP3B1、ASIP、DCT、MC1R、OCA2、SILV、TYR、TYRP1、MYO5A、POMC、AIM、AP3D1およびRAB、表9を参照)内の335個のSNPおよびゲノム中に分布した419個の他のSNPを含む、754個のSNPがジェノタイピングされた。これらの後者のSNPについての対立遺伝子は、集団構造の特定の要素についての情報を与えた；インドヨーロッパ人、サハラ以南アフリカ人、先住アメリカ人および東アジア人のBGAについてのそれらの例外的に高いδ値(すなわち、例外的なAIM)に基づいてヒトゲノムのスクリーンから71個が選択され(実施例2；配列番号：1〜71を参照；Shriverら、前記、2003も参照)、残りは、BGAの機能として劇的な配列変異を示す傾向がある生体異物代謝の遺伝子の中または周囲に見出された。これらの754個の候補SNPについての遺伝子型は、自己申告された虹彩の色の851人のヨーロッパ人由来の個体(292人青色、100人緑色、186人うす茶色および273人褐色)について得点化された。

これらの遺伝子型を虹彩の色との関連についてスクリーニングする前に、71個の非生体異物代謝のAIMが各サンプルについてBGA混合割合を測定するために用いられ、BGA混合と虹彩の色との間の相関について検査された。この検査は、851個のカフカス人のサンプルのそれぞれは大部分インドヨーロッパ人BGAをもち、サンプルの58%は有意な(>4%)非インドヨーロッパ人BGA混合をもつが、低レベル(33%未満)の東アジア人、サハラ以南アフリカ人または先住アメリカ人混合と虹彩の色との間に相関はなく、および高レベルの先住アメリカ人混合と虹彩の色との間に相関はなかった；しかしながら、より高レベル(33%より高いが50%より低い)の東アジア人およびサハラ以南アフリカ人混合とより濃い虹彩の色との間に弱い関連があった。

4色(青色、緑色、うす茶色および褐色)または色の群によって虹彩の色を考慮することにより、より良い成功が実現されるかどうか最初から不確かであった。色を分類する一つの方法は、明るい＝青色＋緑色、および暗い＝うす茶色＋褐色であり、この分類は、検出可能レベルのユーメラニン(褐色色素)に関して個体をよりはっきりと区別するように思われる。虹彩の色データが自己申告されたとすれば、サンプルを、褐色と非褐色、または青色と非青色へと分割することは、有意な関連、特に、たった1つの色と関連した対立遺伝子について、を検出するより大きな検出力を提供しうる。これらの4つの方法のそれぞれを利用するために、関連についてSNPをスクリーニングする場合、すべてが考慮された；δ値、カイ二乗および精密検定p値が、a)全4色、b)明るい(青色および緑色)対暗い(うす茶色および褐色)を用いる暗度、c)青色対褐色、およびd)褐色対非褐色(青色、緑色およびうす茶色)の分類について計算された。有意水準は5%に固定され、20個のSNPの対立遺伝子が特定の虹彩の色と、20個が虹彩の色の暗度と、19個が青色/褐色の色比較と、および18個が褐色/非褐色の比較を用いて、関連していた。これらのSNPセット中の重複は高かったが完全ではなかった；4つの基準の少なくとも1つを用いる関連についての有意なp値をもつSNPは、「境界的に」関連しているとして示されている。

複数の同時に存在する仮説がセットp値において検定される場合、拡張I型誤りの可能性がある。それとして、補正手順がこのリスクを補うために用いられた(Steenlandら、前記、2002)；関連の大部分は、この補正後、有意であった。境界的に関連したSNPの大部分は、色素形成遺伝子 − OCA2(色のレベルで11個のSNP)、TYRP1(色のレベルで3つのSNP)、MYO5A(色のレベルで2つのSNP)、AIM(色のレベルで3つのSNP)およびDCT(色のレベルで2つのSNP) − 内であった、とはいっても、いくつかの関連は、10q23でのCYP2C8、10q24でのCYP2C9、2p21でのCYP1B1およびXp11.3でのMAOAのような非色素形成遺伝子内に見出された − これらもまた、境界的に関連したSNPと呼ばれた。色素形成遺伝子SILV、MC1R、ASIP、POMC、RABまたはTYR内に有意なSNP関連は見出されなかった、とはいっても、TYRはp=0.06をもつ1つのSNPをもった。境界的に関連したSNPのうち最も強く関連したものは、関連の強さの順に、OCA2、TYRP1おおびAIM遺伝子由来であった。

このアプローチから同定されたSNPの大部分は、別個の遺伝子または染色体領域へ位置したため、各遺伝子座からのSNPのすべてが群化され、推論されたハプロタイプが偶然性解析を用いて虹彩の色との関連について検定された。このより高度な解析は、境界的SNP関連をもつそれらの遺伝子に限らず、遺伝子のすべてについて群化されたSNPが検定された。各遺伝子について、ハプロタイプが推論され、偶然性解析が、どのハプロタイプが虹彩の色と統計的に関連しているかを決定するために用いられた。カイ二乗および修正残差から、16個の異なる遺伝子座について43個のハプロタイプが、虹彩の色と正に(アゴニスト)かまたは負に(アンタゴニスト)かのいずれかで関連していた(表10)。最強の関連は、境界的に関連したSNPをもつ遺伝子について観察された；これらの遺伝子の大部分は、少なくとも1つの虹彩の色と正に(アゴニスト)または負に(アンタゴニスト)関連したハプロタイプおよびディプロタイプ(時々、多座遺伝子様式遺伝子型またはハプロタイプの二倍体対と呼ばれる)をもった(表10)。境界的に関連したSNPを含まない遺伝子/領域のうちの少しは、虹彩の色と正におよび/または負にかのいずれかで関連したハプロタイプならびにディプロタイプをもった(ASIP遺伝子−1個のハプロタイプ、MC1R−2個のハプロタイプ、表10)。換言すれば、それらのSNPは、遺伝子ハプロタイプまたはディプロタイプの関係内で虹彩の色と関連するのみであった。いくつかについて、虹彩の色との関連は、ディプロタイプの関係内で見出されるのみであったが、SNPまたはハプロタイプのレベル(すなわち、SILVおよびGSTT2-22q11.23)において見出されなかった。

（表１０）16個の虹彩の色遺伝子についての共通のハプロタイプおよびディプロタイプ

¹ 虹彩の色と関連していることが見出された遺伝子座内の最高オーダーの複雑性をもつ配列。少なくとも1つの有意に関連した配列をもつ各遺伝子座についての主要な配列(計数≧13)のすべてが示されている。遺伝子座についてのハプロタイプもディプロタイプも、関連していることが見出されなかった場合には、SNP対立遺伝子のみが示されている。ハプロタイプは遺伝子座について関連していることが見出されなかったが、ディプロタイプは関連していることが見出された場合には、ハプロタイプおよびディプロタイプの両方が示されている。
² アゴニスト色は、配列が正に関連している色を指す。アンタゴニスト色は、配列が負に関連している色を指す。カイ二乗P値が示されている。
³ 851個の本発明者らのサンプルにおいてハプロタイプが観察された回数。

ハプロタイプのレベルにおいて、各遺伝子または領域は、固有の数および関連の型をもった。例えば、OCA2、AIM、DCTおよびTYRP1は、青色虹彩と正に関連した、および褐色虹彩と負に関連した両方のハプロタイプを含んだ(OCA2ハプロタイプ1、37、38、42、AIMハプロタイプ1、DCTハプロタイプ2、およびTYRP1ハプロタイプ1、表10)。AIM、OCA2およびTYRP1のような他の遺伝子は、褐色に正に関連したが、青色と負に関連したハプロタイプを含んだ(AIMハプロタイプ2、OCA2ハプロタイプ2、4、45、47、TYRPハプロタイプ4、表10)、一方、MYO5A、OCA2、TYRP1およびCYP2C8-10q23のような他のものは、1つの色と正に関連したが、いずれの他の色とも負に関連しなかったハプロタイプを含んだ(MYO5Aハプロタイプ5、ハプロタイプ10、OCA2ハプロタイプ19、TYRP1ハプロタイプ3およびCYP2C8-10q23ハプロタイプ1、表10)。MC1R遺伝子は、本発明者らのサンプルにおいて緑色のみ関連したハプロタイプを含み、POMC遺伝子は、虹彩の色と弱く関連した遺伝子型をもつ単一のSNPを含んだ(有意なハプロタイプまたはディプロタイプは見出されなかった)。

全体的に、褐色虹彩と関連したハプロタイプの多様性は、青色虹彩と関連したハプロタイプのそれと類似していた。ハプロタイプの大部分は、多人種のサンプルにおいて虹彩の色とよりいっそう劇的に関連していたが、なぜなら、それらを含む多数のSNPが良いAIMであるからであり、より暗い虹彩の色と関連した変異体は、より暗い平均虹彩の色をもつ世界のそれらの祖先群において濃縮されていた。遺伝子または領域内のSNPの大部分は、その遺伝子または領域において他のものとLDにあった(D'<0.1)；MC1R(1ペア)、OCA2(27ペア)、TYR(2ペア)およびTYRP1(2ペア)遺伝子における32個のSNPペアのみがLDにあることが見出された。

これらの解析は、結果として、SNPが境界的に関連していようがハプロタイプおよび/またはディプロタイプの関係内で関連していようが、1つのレベルまたは別のレベルにおいて虹彩の色と関連した16個の遺伝子/染色体領域における61個のSNPの同定を生じた。これらのSNPの大部分についての少数対立遺伝子頻度は比較的高く(平均f少数対立遺伝子=0.22)、それらの大部分は、ハーディ-ワインベルグの平衡にあった(HWE p>0.05であるもの、28/34、表10)。9個はそうではなく、これらのうち、2個は、比較的低い頻度をもち、不平衡についての証拠は、境界であった(p値ほとんど0.05)。HWEの欠乏は、通常、不十分に設計されたジェノタイピングアッセイ法のしるしであり、残りの7個のSNPのいずれも、本発明者らが以前、そのような問題と関連づけたジェノタイピングパターンを示さなかった(1つの遺伝子型クラスの非存在、またはヘテロ接合体の優性)。実際、HWEの欠乏の証拠が最も強いそれらのうちの1つは、直接的DNAシーケンシングを通して正当なSNPとして確証された。境界的意味において有意に関連したSNPの染色体の分布は、実際に調べられたSNPの分布と無関係であり、関連が単にSNPサンプリングの作用だけではなかったことを示している。

染色体15qは、虹彩の色と境界的に関連していたSNPの大多数(18/34)を含み、これらの染色体15のSNPのうちの14個は、2つの異なる遺伝子OCA2およびMYO5Aに見出された。染色体5pは、境界的に関連した3個のSNPをもって、すべてAIM遺伝子にあり、染色体9pは、関連した5個のSNPをもって、すべてTYRP1遺伝子にあった。複数のSNPが染色体10q上で同定された；CYP2C8-10p23.33領域は2個のSNPをもち、隣接する領域CYP2C9-10p24もまた1個もった。すべての3個のマーカーは、お互いと密接したLDにあった(各可能なペアについてp<0.001)。複数のSNPはまた、染色体2上でも同定された；2p23に位置したPOMC SNPは、境界的に関連しており、CYP1B1-2p21領域由来のSNPは、2-SNPハプロタイプの関係内で関連しており(表10)、これらのSNPはまた、LDにあった(p<0.01)。最後に、OCA2(15q11.2-q12)およびMYO5A(15q21)配列に加えて、単一のSNP(15q22-ter)もまた染色体15q上に含まれたが、これらの3つの遺伝子座のそれぞれの間のSNPは、LDになかった。MC1R(16q24)、SILV(12q13)、TYR(11q)、MAOA-Xp11.4-11.3およびGSTT2-22q11.23領域についてのSNPもまた、ハプロタイプのレベルにおいて関連していた、とはいっても、これらは、関連が見出されたこれらの染色体の唯一の領域であった。

得られたp値は、ディプロタイプが、ハプロタイプまたは個々のSNPより、多くの虹彩の色変動を説明することを示した。これを検定するために、補正されたANOVA解析が、これらの3つのレベルのそれぞれにおけるデータについて行われた。すべての61個のSNPが考慮され、それらのハプロタイプ(表10)およびディプロタイプ(示されず)も考慮された。変数の数について補正した後、ディプロタイプは、変動の15%を説明したが、ハプロタイプは13%を説明し、およびSNPは11%(表4)を説明した。カイ二乗修正残差に基づく、16個の遺伝子/領域について観察された543個の遺伝子型のうちの最も強く関連した68個の遺伝子型は、変動の13%を説明した(行4、表11)。

（表１１）ANOVA-SNPおよびハプロタイプデータ

754個のSNP遺伝子座のスクリーンから、遺伝子内の複雑性の一つのレベルまたは別のレベルにおいて変動性虹彩の色素形成と統計的に関連した61個が同定された。残りのSNPは、遺伝子内の複雑性のいずれのレベルにおいても有意ではないδ値およびカイ二乗p値をもった。これらの61個の対立遺伝子についてのディプロタイプは、サンプルにおける虹彩の色の分散の大部分を説明した；SNPのレベルにおいては、最低量が説明され、虹彩の色決定への遺伝子内の複雑性の要素(すなわち、優性)を示唆した。

同定された61個のSNPの約半分のみが、虹彩の色と独立して関連していた；その残りは、ハプロタイプまたはディプロタイプの関係においてのみ関連していた。複雑性のこのレベルにおいてさえ、単一ではない遺伝子由来の配列が、信頼性のある虹彩の色の推論をするために用いられうり、虹彩の色決定について、おまけに、遺伝子間の複雑性の要素(すなわち、上位性)も示した。同定されたSNPの多数が、多重検定についての補正プロトコールを課した後に有意であったという事実はさておき、証拠の5つのラインが、同定されたSNPが偽で関連しているのではないということを示した。第一に、境界的に関連したSNPとして同定された遺伝子のすべてについて、そのようなSNPの複数が同定された；すなわち、検査された様々な遺伝子の間でのSNPの分布はランダムではなかった。第二に、非色素遺伝子SNPのいくつかは、色素遺伝子、例えばCYP2C8(10q24.1)およびCYP2C9(10q24)(直接的に検査されていない2つの色素遺伝子 − HPS1(10q23.1-4およびHPS6(10q24.34)の近位に位置している)、の近くに位置しており、CYP1B1遺伝子座における染色体2p SNP(CYP1B1-2p21)は、2p23におけるPOMCの近位に位置している(およびPOMC SNPとLDにある)。第三に、おおよそ等しい数の色素形成および非色素形成の遺伝子SNPが検査され、34個の境界的に関連したSNPをもったが、それらのうちの28個(82%)は、色素形成遺伝子にあった。このように、様々な遺伝子の型の間でのSNPの分布もまたランダムではなかった。第四に、関連は、一般的に、遺伝子内ハプロタイプの関係におけるSNPについてより強く、偽で関連したSNPについて必ずしも得られないであろう結果であった(すなわち、結果は、遺伝子配列自身が関連しており、単に、各遺伝子内の単一の多型にすぎないのではないことを示唆している)。第五に、複数の祖先の個体を含むサンプルに適用された場合、結合されたこれらを始めとする遺伝子からの線形および非線形の変数は、大部分ヨーロッパ人祖先の個体にだけ適用された場合よりもいっそう良く実行された。非ヨーロッパ人または小部分ヨーロッパ系のほとんどの個体は、虹彩の色(平均して、ヨーロッパ系の個体より暗い暗度の)において低い変動性を示すため、この向上は、驚くべきようではない場合もある。しかしながら、この結果は、SNPが虹彩の色と真に関連しているのではなかったとすれば、必ずしも得られなかったであろう。

多重検定についての補正は、SNPレベルの関連の大部分をそのままにしておいたが、多数の関連は、多重検定試験を合格しなかった、しかし、可能なII型誤りを避けるために提示されている；配列は、虹彩の色と弱く関連している可能性があり、ひょっとしたら、分類についての複数遺伝子モデル内で関連性があるかもしれない(すなわち、上位性)。これらについて、より高度な関連の検定からのような、SNP同定の下流で、上で記載されたもののような様々な他の基準を用いて、あるいは、複雑な分類モデルの一般化のためのSNPの有用性を用いて、偽陽性を排除することがより賢明であるように思われる。

色素形成遺伝子における突然変異は、眼皮膚白皮症の主たる原因であり、だから、それらの配列における共通の変異が天然の虹彩の色における分散の一部を説明することを期待するのは当然のことであり、実際、この結果は観察された。しかしながら、多数のその関連は、他の型の遺伝子に位置しているSNPについてであった(10q23におけるCYP2C8、10q24におけるCYP2C9、2p21におけるCYP1B1およびXp11.3におけるMAOA)。この研究における非色素形成遺伝子の包含は意図的であった；スクリーンは、色素形成遺伝子SNPに限定されず、AIMの2つの型 − サハラ以南、インドヨーロッパ人、先住アメリカ人および東アジア人集団対立遺伝子頻度の間でのδ値に基づいたゲノムから選択されたもの、ならびに生体異物代謝遺伝子内でのそれらの位置に基づいて選択されたもの − を含んだ。おそらく、生体異物代謝遺伝子産物は土地固有の食物に存在する植物のアルカロイドおよびタンニンの解毒を担い、かつ淘汰および遺伝的浮動がそれらの配列の地理学的分布を形づくったためと思われるが、生体異物代謝遺伝子が並はずれた濃度のAIMを含むこと、およびこれらのAIMのいくつかは「潜在的」集団構造の測定に関連性があることを示す以前の証拠に、一部、基づいて、後者は含まれている。そのような潜在的構造は、たとえ、それらが生物学的機構を解明する助けにならないとしても、正確な分類を可能にする程度で虹彩の色と相関しうる。

a)これらのSNPの一部は、大まかなまたは大陸的集団構造だけでなく、下位構造およびおそらく、微細構造までもの指標である、b)虹彩の色は、カフカス人群内で構造のこれらの要素と相関した、およびc)これらのマーカーが分類または形質値推論の目的のために表現型活性遺伝子座の代用としての役割を果たしうることが仮説とされた。一般にもたれている概念は、遺伝的スクリーニングは連鎖不平衡を通して表現型活性遺伝子座を同定する方向へ厳密に行われるのみであるということである。しかしながら、分類が目標である場合、形質値が構造と相関するならば、および構造についてのマーカーが同定されうるならば、表現型活性遺伝子座の同定よりむしろ、集団構造が助けとなりうる。例えば、虹彩の色分類ツールは、法医学科学者にとって、犯罪現場DNAからの一部分の身体的プロフィールの客観的かつ科学に基づく構築に有用でありうる。現在、法医学捜査員は、驚くほど非科学的な手段を用いて身体的プロフィールを構築する；まれにのみ、目撃者報告が有効であり、しばしば、人間の報告は特定の状況において主観的でかつ信頼できない。法医学適用について、捜査員は、形質値の正確な推論をする能力より、表現型の生物学的機構に関心が少ない。もちろん、表現型活性遺伝子座とのLDにあるマーカー(または表現型活性遺伝子座それら自身)を同定することは、生物学的機構のより良い理解に加えて、より正確な分類を提供するが、不均一な集団におけるこれらのつかまえにくい遺伝子座の捜索は、LDが2、3 Kb間に及ぶのみであり、費用のかかるゲノムワイドのスキャンが必要とされるため、実際的ではない。

虹彩の色と関連しているとして本明細書で同定された多数のSNPが生体異物代謝遺伝子に位置していたということは、同定されたマーカーが、潜在的集団構造との相関を通して虹彩の色と関連していることを示唆している。換言すれば、非色素形成遺伝子マーカーは、おそらく、虹彩の色についての表現型活性遺伝子座と、必ずしもLDにないが、相関していると思われる。そのような相関を通して、マーカーおよび活性のある遺伝子座の両方は、たとえ、それらがお互いとLDにないとしても、インドヨーロッパ人血統の特定の分派において濃縮されている。そのような相関に基づくこれらの結果は、用いられたサンプルに関してのみの分類関係において意味がある。例えば、それらの大陸間δ値に基づいて選択されたAIMは、主としてヨーロッパ系の個体において虹彩の色と関連していなかったが、より国際的なサンプルにおいて虹彩の色と強く関連していた、なぜなら、AIMは、このサンプルにおいて虹彩の色と相関した構造の要素に特異的な関連性があるためである。対照的に、これらの同じAIMは、調べられた大部分ヨーロッパ人起源の個体のサンプル内で虹彩の色と関連していなかったが、なぜなら、このサンプル内の大まかな構造においてほとんど変動がないためである。その代わりとして、任意の(大部分)カフカス人またはヨーロッパ系アメリカ人のサンプル内において、民族的もしくは他の下位集団レベルの所属における変動による下位構造または微細構造(潜在的構造)が存在するように思われ、構造が形質と相関する場合には、この潜在的構造を測定することに特異的に関連したそれらのSNPのみが必要とされるであろう。測定された表現型と関連性がない主としてヨーロッパ人起源の研究サンプルにおける体系的構造は同定されなかったことは、何も生まず、本結果を別の形質について再現するために、認定されたAIMの使用が避けられないことを示している。

本結果の他の解釈が可能である、例えば、関連は、現在まだ、限定された色素形成遺伝子ではないものとのLDを通して観察された可能性があったということである。実際、CYP2C8およびCYP2C9は、染色体10上、HPS1およびHPS2色素形成遺伝子の近くに位置している(直接的に検査されていない)、CYP1A2は、OCA2およびMYO5Aと同じアーム上に15q22-terに位置している、CYP1B1は、2p23におけるPOMC遺伝子の付近で2p21に位置している、ならびにMAOAは、OA1色素形成遺伝子と同じX染色体のアーム(Xp11.4-11.3)上に位置している(直接的に検査されていない)。虹彩の色と関連したこれらの遺伝子座と「隣接」色素形成遺伝子との間の距離は、ゲノムにおけるLDの平均範囲よりはるかに大きく、たとえ、これらの関連がLDを通してであるとしても、再び、集団構造が解釈として引き合いに出される必要があるように思われる。

LDは、最近混合された集団においてメガベースに渡ることが知られていて、2千個ほどの少ないAIMがこれらの集団において全ゲノム適用範囲を得るために用いられうり、この研究に用いられたヨーロッパ系アメリカ人サンプルの3分の2が有意な(4%)BGA混合をもったことは、かなり興味深い。ヨーロッパ系アメリカ人は、伝統的に定義された混合された群(ヒスパニックまたはアフリカ系アメリカ人のような)として認識されていないが、観察されたBGA混合は、細かい、潜在的レベルの集団構造に結びつけられうる。本結果のLDおよび/または集団構造への関連性は明らかではないが、結果が相関よりむしろLDによるとすれば、それらは、まさしくAIMが最近かつ広範囲に混合された集団における形質マッピングのために集団混合を強化するために用いられうる、それらはまた、同様の様式において潜在的集団構造を強化するために用いられうることを示唆しているものと思われる。このように、結果が相関によるか、またはLDによるかにかかわらず、同定された多数の非候補遺伝子関連が、集団構造の測定が薬理ゲノム学および複合性疾患遺伝子分類器の費用効果の高い開発についてのより広い含みをもつことを示している。

連鎖研究は、特定の色素形成遺伝子を色素形成表現型に特異的に関連性があるとして関係づけ、本明細書で同定された色素形成遺伝子SNPの大部分は、OCA2、MYO5A、TYRP1およびAIMのような特定の遺伝子へクラスター形成した。さらに、本件の特定の局面は、以前の文献を支持する。同定されたSNPの大部分は、連鎖解析が「褐色性」の決定のための主たる染色体として同定した、染色体15上にある(EibergおよびMohr、Eur. J. Hum. Genet. 4:237-241、1996)；この遺伝子座(BEY2)を含む区間内の候補遺伝子はOCA2遺伝子である可能性が最も高いことが示唆された、とはいっても、MYO5A遺伝子もまたこの区間内に存在し、かつ、本明細書に開示されているように、虹彩の色と関連していた。OCA2関連は、検査された遺伝子または領域の中で最もはるかに有意であったが、MYO5A SNPは、弱く関連していただけだった(しかし、ハプロタイプおよびディプロタイプはより強かった)。MYO5A対立遺伝子は、OCA2のそれらとLDになく、これらの結果が独立して得られたこと、およびEibergおよびMohrによる結果が2つの別々の遺伝子の活性の反映であった可能性があること(EibergおよびMohr、前記、1996)を示唆している。

2つのOCA2コード変化は、暗い方の虹彩の色と関連していることが報告された(Rebbeckら、Cancer Epidemiol. Biomarkers Prev. 11(8):782-784、2003)。さらに、「赤毛/青色虹彩」SNP対立遺伝子が以前に(Valverdeら、前記、1995；Koppulaら、前記、1997)同定され、これらの配列が虹彩の色素形成と関連していることを確認した、とはいっても、以前に記載された関連は、青色虹彩とで、かつSNPのレベルにおいてであった、ところが、本研究においては、関連は、緑色虹彩とであり、かつハプロタイプおよびディプロタイプのレベルにおいて明らかであったのみであった。関連はまた、ASIP遺伝子において同定されたが(Kanetskyら、前記、2002)、本研究においては、この遺伝子関連は、SNPのレベルにおいてではなかった；本明細書で同定されたASIP SNPの1つ(マーカー861)は、褐色虹彩の色と関連しているとして記載された8818 G-A SNP転換であるが(Kanetskyら、前記、2002)、本研究においては、関連は、ハプロタイプのレベルにおいてうす茶色とであった。

TYRハプロタイプと虹彩の色との間の関連は、比較的弱く、より少ないサンプルにおいて強い関連を見出すことができなかった眼皮膚白皮症の分野の他の人により得られた結果と矛盾していない。本結果は、OCA2、ASIPおよびMC1Rについての発見を独立して検証したが、それらはまた、いくつかの他の色素形成遺伝子が、虹彩の色の自然の分布と関連した対立遺伝子を含むことを示している(TYRP1、AIM、MYO5AおよびDCT)。それとして、本結果は、独立して取り上げられた、色素形成遺伝子の対立遺伝子を虹彩の色と関連づける以前の研究は、より大きく、より複雑な肖像画のほんの一筆を表しているにすぎないことを示している。

興味深いことに、本明細書で同定されたSNPの大部分は、翻訳領域ではない、沈黙表現型かまたは遺伝子近位のプロモーター、イントロンもしくは3'UTRに存在するかのいずれかである。この結果は、全く珍しいことでもないが、SNPが他の表現型活性遺伝子座とLDにある、またはそれは、メッセージ転写および/もしくはターンオーバーにおける変動性がヒト虹彩の色に観察される変動性の一部を説明しうるという反映である可能性があることを示しうる。多数のSNPがスクリーニングされたが、遺伝子のいくつかは、多数の候補SNPを含み、すべてが検査されたとは限らない。例えば、OCA2は、NCBI dbSNPにおいて約200個の既知の候補SNPをもつ。それとして、OCA2遺伝子はまだ、変動性ヒト虹彩色素形成のより多くの情報をもっている可能性があり、そのような情報は、本明細書に開示された方法を用いて入手できる。

実施例5
薬物応答性を予測するためのAIMの使用
この実施例は、多くのヒト遺伝的形質と同様に、多くの薬物応答形質は集団構造の要素と相関するため、AIMが、化学予測的および診断的検査を開発するのに用いられうることを実証している。

染色体アームによるジェノタイピングに有効なSNPの分布は、図12に示されている。調べられた約400個のSNPのそれぞれにおいて、コレステロール(TC)、低密度リポタンパク質(LDL)、肝臓トランスアミナーゼASTSGOTおよびALTGPT測定に関して応答が知られていた、Lipitor(商標)を服用するカフカス人個体(180人)がジェノタイピングされた。TCおよびLDL変化に関しての既知の応答の150人のZocor(商標)患者、ならびに既知の髪および目の色の1,000人の個体もジェノタイピングされた。様々な形質クラス中で有意のデルタ値(δ>0.20)をもつそれらのSNPが選択された。例えば、患者の約70%において、Lipitor(商標)はLDLにおける減少を引き起こしたが、患者の30%において、それは効果を生じなかった。任意の与えられたSNPについて、デルタ値(δ)は、LDLが少なくとも20%減少した個体対LDLがそのように減少しなかった個体の中での少数対立遺伝子頻度における差である。δ値は、各検査(Zocor(商標)：LDL、TC、ASTSGOT、ALTGPT応答；Lipitor(商標)：LDL、TC応答)に対して、図12の各SNPについて測定された。目の色について、δ値は、暗い(うす茶色または褐色)目対明るい(青色または緑色)目によって測定された。髪の色について、δ値は、黒色または褐色対ブロンドによって測定された。

Lipitor(商標)応答について、4つの終点測定のそれぞれについての有意の(δ>0.20)値のSNPの数は図13に示されている。LDLおよびTCの終点測定を用いるZocor(商標)応答についての有意のデルタ値をもつそれらのSNPが、その後、選択された(図14)。次に、虹彩の色について有意のデルタ値をもつそれらのSNPが選択された(図15)；および、同様に、髪の色について(図16)。良いδ値をもつSNPの分布は、特異性の特定の要素を別にすれば、グラフA〜Eにおいて各形質について類似していた。特異性は、染色体アーム6pに焦点を合わせることにより認識されうるが、それは、Lipitor(商標)に対するTC(総コレステロール)応答について多くの重要なSNPを有するが(図13)、Zocor(商標)応答については少しもなかった(図14)。染色体2は、目の色について良いδ値をもつSNPを含むが(図16)、髪の色については含まなかった(図15)。染色体15は、Lipitor(商標)応答性を予測する多くのマーカーを含むが、Zocor(商標)応答については含まなかった。この特異性は、これらの形質のそれぞれについて決定論的な他の遺伝子座との連鎖不平衡の作用である可能性が高いが、残りの形質の発現をどうにかしうるものはもたない；この型の発見は、遺伝子マッピングの伝統的測定の目標である。または、それは、集団構造の特定の要素との相関によるものでありうる。

類似性は、染色体1もそうであるが、染色体10および22が、4つの機構的に関連のない形質のそれぞれについての良いδ値をもつSNPの比較的高い数をもつ点において明らかである。全体的に、1つの形質について重要なSNPの分布は、別のものについてのそれと異ならない。それは、本明細書で対象となる、かつ本方法の価値を例証する、プロフィールの間での類似性である。

4つのグラフが共通してもつ要素は、SNP遺伝子型の数と相関する(図12；図13〜16は大まかに図12に似ている)。第一関門において、この結果は、これらのSNP対立遺伝子についての「重要性」または有意性が偽であり、単に、各染色体アームについてジェノタイピングされたSNPの数の関数にすぎない(すなわち、染色体からジェノタイピングするSNPが多ければ多いほど、その染色体上で見出すであろう良いデルタ値のSNPが多い)ことを示しているように見える。しかしながら、図12におけるSNPは、いずれの型のSNPともちょうどではない；図12における有効なSNPの大部分は、生体異物代謝および色素形成遺伝子SNPであり、ほとんどすべて良いAIMである。

虹彩の色について、SNP関連の大部分が、多重検定についての補正後、有意(カイp<0.05)のままであり、このように、SNP関連が偽ではないことを示している。4つの形質のそれぞれについて関連したSNPの分布が大部分はお互いに似ていること、およびこの分布が、大部分が良いAIMである有効なSNPの分布と類似していることは、これらの実験で測定されたSNPの大部分が集団構造のレポーターであること、ならびに集団構造の類似した要素が、2つの薬物のそれぞれへの応答(どのような方法で測定されたとしても)、加えて髪および虹彩の色の色素形成と相関していることを示している。

これらの4つの形質が機構的に関連がない(少なくとも現行の知識にとって)ようにみえることは注目に値し、髪または目の色が、2つの無作為に選択された薬物への応答にどのように関連しうるかに関して直観的に明らかではない。しかしながら、形質のそれぞれについての重要なSNPに関するプロファイルにおける類似性は、それぞれが共通の1組の染色体マーカーについての配列の知識で、有意な程度で、予測されうることを示唆している。これらのマーカーはBGAの優秀な指標であることが知られているため、その結果は、4つの関連のない形質のそれぞれが、図12〜16における測定された特定のSNPを測定することによるよりもむしろ、BGAを測定することにより、ある程度は予測されうることを示している。

本明細書に開示されているような単純にBGAを測定することは、上でのプロットにおいて特定のAIMを測定することほどの、4つの形質のそれぞれについての予測的力を与えない。しかしながら、図15でのマーカーを用いることは、虹彩の色について良い分類正確さを可能にする。これらの結果は、上のプロットにおける異なるAIMが集団構造または下位集団の異なる要素についての情報を与えることを示し、図12のSNPの大部分が大陸的BGAによる大まかな集団構造の良い指標であるが、それぞれが、スカンジナビア人と地中海人種の祖先の間、または民族群内までものような構造の他の細かいレベルについての情報もどの程度まで与えるかはまだ測定されていない。そのような「潜在的」構造は、本開示の前には、生物地理学的意味のある方法で共通の民族の個体の大きな集団で認識される構造の繊細な要素を定義することは可能ではなかったため、以前には、信頼性のある信頼認定様式で定義されえなかった。例えば、大部分インドヨーロッパ系の赤毛の個体は、他のインドヨーロッパ人(または他の)患者より20%多い麻酔を必要とすることが知られている(Cohen、前記、2002)。これらの赤毛の個体はまた、特定の一般の麻酔薬の影響下で高血圧および出血への傾向を示し、このように、未知の病因の深刻な臨床的問題を提示している。

赤毛の個体は、英国(アイルランドおよびブリテン)ではよくあり、英国はまた、ヨーロッパの他の地域の個体とよりもお互いとより多くの祖先を共有する個体を含む。それとして、それらは、人類系図からはずれた不確定の構造の分派としてみなされうる。たった1つの遺伝子が赤毛色と結びつけられ(MCIR)、この遺伝子がそのような多面発現性効果をもつため、それの配列が多数の麻酔薬に対するもののような多様かつ複雑な生理学的応答における変動性に寄与していると想像することはむずかしい。さらに、赤毛をもつどの人も既知の赤毛MC1R変異体を含むとは限らず、なおたいていは異常型麻酔応答を示す。むしろ、赤毛色が、また麻酔応答と相関する集団構造の要素と相関するということがより可能性が高い；すなわち、赤毛色および異常型麻酔応答についての遺伝子は、これらの2つの形質がよりありふれている人類系図の特定の分派に、固有である、または濃縮されている。このように、赤毛色および異常型麻酔応答についての遺伝子は、集団構造の機能として分布しており、同様に、従って、本明細書に開示されているように、多くの他の形質ももつ。

本明細書に開示されたAIMおよび方法は、大まかな大陸的構造、加えて民族性に関連した構造および潜在的構造までも含む、様々なレベルの構造の測定に適している(例えば、太平洋諸島系を他の東アジア人から分割することができるほとんど30個のマーカーが同定された；すなわち、大陸的構造より細かいレベルの構造)。AIMの情報提供性は、創始者効果、遊走、ボトルネック、遺伝的浮動および/または淘汰を通しての進化的ヒト発生の過程に渡って生まれるが、これらの力が、髪の色または麻酔応答に、生まれたAIMをこれらの2つの型の形質と相関させることがあるとして、焦点をおいている必要はない。北西部大陸のヨーロッパ人において本質的に異なる表現型について情報を与えるAIMがあるにちがいないこの場合とほぼ同様、一般に、インドヨーロッパ人においても本質的に異なる表現型について情報を与えるAIMがあるにちがいない。Lipitor(商標)応答、Zocor(商標)応答、髪の色および目の色について良いデルタ値をもつAIMにおいて類似性を実証している結果(図12〜16)は、これらの表現型のそれぞれについて情報を与える集団構造のレベルを示している。

関連の大きさは形質間で釣り合わないことは留意されるべきである。例えば、虹彩の色について最強のAIMは、Lipitor(商標)応答について最強のAIMではない、など。また、関連の方向は、必ずしも形質中で同じではない；このように、青色虹彩の色についてアゴニスト関連(正に関連した)は、特定のLipitor(商標)応答結果についてアゴニストかまたはアンタゴニスト(負に関連した)かのいずれかでありうる。

アフリカ人と東アジア人の間を特異的に識別するランダムに選択されたAIMは、必要ではないが、特定の組の形質についての情報を含みうる、なぜなら、それらは、必要ではないが、その形質に相関したヒト集団構造の特定の要素(すなわち、これらの形質がよりありふれている人類系図の分派)のマーカーでありうるからである。同様に、インドヨーロッパ人とアフリカ人の間を識別するAIMは、必ずしも、麻酔応答または赤毛の予測を助けるのに必要な情報をそれらと共に保有するとは限らない。形質値が集中しているまたは少ない比率で表示されている人類の特定の分派の個体間を識別する対立遺伝子をもつそれらのAIMのみが、形質値、この例では、麻酔および赤毛、または開示されているように、Lipitor(商標)、Zocor(商標)への応答、髪の色および目の色、を予測するのに必要な情報を保有する。特定のSNPは、集団構造の特定の大まかな要素(ヨーロッパ人対サハラ以南アフリカ人)、または下位構造(北ヨーロッパ人対地中海人種のインドヨーロッパ人)、または微細構造(スコットランド人対アイルランド人対英国人；または赤毛の北ヨーロッパ人対他の髪の色の北ヨーロッパ人；または薬物に応答する北ヨーロッパ人対その薬物に応答しない他の北ヨーロッパ人)についての良いAIMである。いくつかのAIMは、集団構造のいくつかのレベルについて情報を与えるが、他のものはそうではないし、ヒトゲノムにおけるSNPの大部分は、集団構造のいずれのレベルの情報も全く保有しない(すなわち、それらはAIMではない)。

開示された方法の第一次要素は、たいていのヒト形質が、様々なレベルにおいて集団構造と関連したAIMの詳細な測定を通して予測されうる、ただし、その形質が構造のその要素と相関するとの条件である、ことである。第二次要素は、DNAから形質値を予測するための分類器、またはSNPマーカーの収集物、および方法が、集団構造のそのような認識を通してたいていのヒト形質について構築されうることである。本明細書に開示されているように、そのような適用は、ヒスパニックまたはアフリカ系アメリカ人のような特定の混合された群に見出される広範囲のLDを通してだけでなく、相関を通して達成されうるが、対象のいずれのサンプルについても、人種または民族的背景にかかわらず、用いられるAIMは、その形質が相関している集団構造の要素について適切であるとの条件である。本発明の方法は、ゲノムを良いAIMについて採掘し、それらの価値をAIMとして認定し、ヒト表現型の背景に対する集団構造を正確に測定するため、これらの結果は遂げられうる。

図12〜16により表されている研究において観察された傾向は、多くの他の形質について観察されており、SNP関連は、そのような「浸透度」をもつので、それらは多重検定についての補正によく耐える(Steenlandら、前記、2000)。それとして、ヒトゲノムに渡ってAIMを測定することにより、たとえ、マーカーが形質についての表現型活性遺伝子座と連鎖不平衡にないとしても、事実上任意の与えられたヒト形質の値を予測または推論することに関連した集団構造、下位構造または微細構造の要素を知ることができる。あらゆるヒト形質が集団構造の特定の要素と多かれ少なかれ相関しているため、単純なまたは複雑な、臨床の、娯楽の、法医学のもしくは他の価値の、またはそうでない、任意のヒト形質に、この相関は適用する。

個体においてゲノムに渡ってAIMを測定し、どれが(もしあれば)、形質値と相関するかを同定しない限りは、形質が集団構造対下位構造対下位の下位の構造対微細構造について分離するかどうかを演繹的に知ることは可能ではない。事実上任意の形質は、構造の少なくとも1つの要素と相関し、いくつかは大まかな構造と(ヒト皮膚色素形成の場合のような)、いくつかは下位構造と(南アジア系インドヨーロッパ人(インド人)と北ヨーロッパ系インドヨーロッパ人(例えば、アイルランド人)の間での虹彩、髪または皮膚の色素形成の場合のような)、およびいくつかは微細構造と(大陸のヨーロッパ人中での赤毛または麻酔応答の場合のような)、相関する。形質が、その形質の推論のためのAIMを測定かつ見出すために集団構造のどのレベルと相関しているか、を知ることは重要ではない、その形質との統計的関連について複数の一般的AIMを測定かつ検定することが必要なだけである。それとして、ヒト遺伝子配列を形質と結びつけて、それらが予測または推論されうるための方法が提供される。そのような方法は、例えば、臨床および法医学分野において価値がある、なぜなら、一般の形質(薬物への応答または疾患を発生しうる疾病素質)を予測する場合、その一般の形質(薬物応答または疾患素因)の正確な推論をすることが重要であるが、生物学的または機構的に関連した配列が測定されることは重要ではないためである。

実施例6
最大尤推定値のためのアルゴリズム
ソフトウェアプログラムは、多座AIM遺伝子型を用いて個体のBGA混合の最大尤推定値を決定するためにHanisら(前記、1986)のアルゴリズムに基づいて書かれた。比例的祖先を決定するために有用なアルゴリズムを図解しているフローチャートは、表12に提供されている。どのようにアルゴリズムが作動するのかに関する例は表13に示され、祖先割合計算の結果は表14に示されている。

δ値は、マーカーの祖先情報提供性の表現である(Deanら、1994)。二対立遺伝子マーカーについて、頻度差(δ)は、p_x-p_y(q_y-q_xに等しい)に等しく、p_xおよびp_yは集団XおよびYにおける一方の対立遺伝子の頻度であり、q_xおよびq_yは他方の頻度である。遺伝子座内および間において対立遺伝子状態における独立性からの逸脱を検定するために、本発明者らは、MLD精密検定を用いた(Zaykinら、前記、1995)。実施例2に用いられた71個のAIMの収集物は、4次元(サハラ以南アフリカ人、先住アメリカ人、インドヨーロッパ人および東アジア人)の問題の6つの可能なペアのそれぞれの内において累積δ値を最大限にし、かつペアのそれぞれの間で蓄積δ値における差を最小限にするように選択された。

アルゴリズムは、一度に3つの群を用いて多座遺伝子型に対応する比例的所属の尤度推定を得るために集団特異的対立遺伝子頻度を逆にする；主として計算法の便宜上、およびまた、4次元混合は比較的まれである可能性が高いため、3つの群が用いられた。例えば、100%インドヨーロッパ人、0%先住アメリカ人、0%東アジア人の尤度が計算される、その後、99%インドヨーロッパ人、1%先住アメリカ人、0%東アジア人が次に計算されるなど、すべての可能なインドヨーロッパ人、先住アメリカ人および東アジア人の割合が考慮されるまであり、その後、その工程は、すべての可能なインドヨーロッパ人、先住アメリカ人およびアフリカ人の割合、ならびにすべての可能な先住アメリカ人、アフリカ人および東アジア人の割合について繰り返される。最大値の尤度が最大尤推定値(MLE)として選択される。三角形プロット上に単一のMLEをプロットする場合、尤度がMLEの2倍、5倍および10倍内である空間が範囲を定められる(図3参照)；複数のMLEsが単一の三角形プロットに示される場合、これらの区間は一般的にプロットされない。

（表１２）祖先計算のためのアルゴリズム−フローチャート

（表１３）アルゴリズムを用いる比例的祖先決定の例

I. 目隠しサンプルについて最良の3つの集団を選び取る
II. 最大尤度値をもつ割合を得る
1. 最良の3つの集団を選び取る：
アルゴリズム：
すべての集団について
{
すべてのSNPについて
{
集団合計<-集団合計+期待遺伝子型頻度。
}
}
最大値をもつ3つの集団を選び取る。
段階1：
すべての集団について
段階2：
SNP1は不均一の遺伝子型をもつ；対立遺伝子はGおよびTである。
SNP1についての期待遺伝子型=log(2*P(G,1)*P(T,1))；
SNP2は均一の遺伝子型をもつ
SNP2についての期待遺伝子型=log(P(T,1)*P(T,1))；
尤度値集団1=SNP1についての期待GT+SNP2についての期待TT
すべての集団について段階2を繰り返す
それらの4つの集団値から最良の3つの尤度値を選び取る。
それらの選択された3つの集団推定割合について。
1. 以下から始まる
λ₁=0、λ₂=0およびλ₃=1 0+0+1=1
2. 尤度値を計算する：
SNP1について期待遺伝子型を推定する
SNP1は不均一の遺伝子型をもつ；対立遺伝子はGおよびTである。
サンプルからの推定対立遺伝子頻度：
対立遺伝子1推定頻度(A1EF)=λ₁.p(G,1)+λ₂.p(G,2)+λ₃.p(G,3)
p(G,1)−集団1におけるG対立遺伝子頻度
p(G,2)−集団2におけるG対立遺伝子頻度
p(G,3)−集団3におけるG対立遺伝子頻度
混合している割合λ₁、λ₂およびλ₃は未知のパラメーターとして処理される。
対立遺伝子2推定頻度(A2EF)=λ₁.p(T,1)+λ₂.p(T,2)+λ₃.p(T,3)
p(T,1)−集団1におけるT対立遺伝子頻度
p(T,2)−集団2におけるT対立遺伝子頻度
p(T,3)−集団3におけるT対立遺伝子頻度
パラメーターの尤度は、ハーディ-ワインベルグの法則の仮定の下、新しい観察においてそれぞれ観察された遺伝子型についての確率に掛けることにより得られる。
SNP1は不均一の遺伝子型をもつため
SNP1についての期待遺伝子型=log(2*A1EF*A2EF)；
SNP2について期待遺伝子型を推定する
サンプルからの推定対立遺伝子頻度：
対立遺伝子1推定頻度(A1EF)=λ₁.p(T,1)+λ₂.p(T,2)+λ₃.p(T,3)
p(T,1)−集団1におけるT対立遺伝子頻度
p(T,2)−集団2におけるT対立遺伝子頻度
p(T,3)−集団3におけるT対立遺伝子頻度
混合している割合λ₁、λ₂およびλ₃は未知のパラメーターとして処理される。
SNP2は均一の遺伝子型をもつため
SNP2についての期待遺伝子型=log(A1EF*A1EF)；
尤度値
すべてのSNPのすべての期待遺伝子型を加えることにより尤度値を計算する
尤度=SNP1についての期待遺伝子型+SNP2についての期待遺伝子型；
異なる未知のパラメーターを用いることにより尤度値を計算する。(段階2を繰り返す)
3. 最大尤度値および対応する未知のパラメーターを得る。
それらの未知のパラメーターは、割合以外にない。

（表１４）祖先割合計算
祖先頻度表

例

III. 目隠しサンプルについて最良の3つの集団を選び取る
IV. 最大尤度値をもつ割合を得る
a. 3つの最良の集団を選び取る
アフリカ人(目隠しサンプル100%アフリカ人を仮定する)：
SNP1対立遺伝子：G、T
アフリカ人における「G」対立遺伝子頻度 P(G)=0.8
アフリカ人における「T」対立遺伝子頻度 P(T)=0.2
SNP1についての期待遺伝子型値=log(2*P(G)*P(T))
=log(2*0.8*0.2)
=-0.4948
SNP2対立遺伝子：T、T
アフリカ人における「T」対立遺伝子頻度 P(T)=0.7
SNP2についての期待遺伝子型値=log(P(T)*P(T))
=log(0.7*0.7)
=-0.3098
SNP3対立遺伝子：C、T
アフリカ人における「C」対立遺伝子頻度 P(C)=0.9999
アフリカ人における「T」対立遺伝子頻度 P(T)=0.0001
SNP3についての期待遺伝子型値=log(2*P(C)*P(T))
=log(2*0.9999*0.0001)
=-3.6990
アフリカ人についての尤度=-0.4948-0.3098-3.6990
=-4.5036
ヨーロッパ人(目隠しサンプル100%ヨーロッパ人を仮定する)：
SNP1対立遺伝子：G、T
ヨーロッパ人における「G」対立遺伝子頻度 P(G)=0.9
ヨーロッパ人における「T」対立遺伝子頻度 P(T)=0.1
SNP1についての期待遺伝子型値=log(2*P(G)*P(T))
=log(2*0.9*0.1)
=-0.7447
SNP2対立遺伝子：T、T
ヨーロッパ人における「T」対立遺伝子頻度 P(T)=0.7
SNP2についての期待遺伝子型値=log(P(T)*P(T))
=log(0.7*0.7)
=-0.3098
SNP3対立遺伝子：C、T
ヨーロッパ人における「C」対立遺伝子頻度 P(C)=0.8
ヨーロッパ人における「T」対立遺伝子頻度 P(T)=0.2
SNP3についての期待遺伝子型値=log(2*P(C)*P(T))
=log(2*0.8*0.2)
=-0.4948
2. ヨーロッパ人についての尤度=-0.7447-0.3098-0.4948
=-1.5493
先住アメリカ人(目隠しサンプル100%NAを仮定する)：
SNP1対立遺伝子：G、T
NAにおける「G」対立遺伝子頻度 P(G)=0.6
NAにおける「T」対立遺伝子頻度 P(T)=0.4
SNP1についての期待遺伝子型値=log(2*P(G)*P(T))
=log(2*0.6*0.4)
=-0.3187
SNP2対立遺伝子：T、T
NAにおける「T」対立遺伝子頻度 P(T)=0.5
SNP2についての期待遺伝子型値=log(P(T)*P(T))
=log(0.5*0.5)
=-0.6020
SNP3対立遺伝子：C、T
NAにおける「C」対立遺伝子頻度 P(C)=0.7
NAにおける「T」対立遺伝子頻度 P(T)=0.3
SNP3についての期待遺伝子型値=log(2*P(C)*P(T))
=log(2*0.7*0.3)
=-0.3767
3. 先住アメリカ人についての尤度=-0.3187-0.6020-0.3767
=-1.2974
中東(目隠しサンプル100%MEを仮定する)：
SNP1対立遺伝子：G、T
MEにおける「G」対立遺伝子頻度 P(G)=0.7
MEにおける「T」対立遺伝子頻度 P(T)=0.3
SNP1についての期待遺伝子型値=log(2*P(G)*P(T))
=log(2*0.7*0.3)
=-0.3767
SNP2対立遺伝子：T、T
MEにおける「T」対立遺伝子頻度 P(T)=0.9
SNP2についての期待遺伝子型値=log(P(T)*P(T))
=log(0.9*0.9)
=-0.0915
SNP3対立遺伝子：C、T
MEにおける「C」対立遺伝子頻度 P(C)=0.9
MEにおける「T」対立遺伝子頻度 P(T)=0.1
SNP3についての期待遺伝子型値=log(2*P(C)*P(T))
=log(2*0.9*0.1)
=-0.7447
4. 中東についての尤度=-0.3767-0.0915-0.7447
=-1.2129
アフリカ人についての尤度=-4.5036
5. ヨーロッパ人についての尤度=-1.5493
6. 先住アメリカ人についての尤度=-1.2974
7. 中東についての尤度=-1.2129
この場合、本発明者らは、アフリカ人を落とし、割合について他の3つを考える。
最大尤度値
そこで、いくつかの値を未知のパラメーターへ与えることを始める
I=ヨーロッパ人 J=先住アメリカ人 K=中東
常に、I+j+k=1
I=0；j=0；k=1
{
SNP1対立遺伝子：G、T
ヨーロッパ人における「G」対立遺伝子頻度 P(G,1)=0.9
NAにおける「G」対立遺伝子頻度 P(G,2)=0.6
MEにおける「G」対立遺伝子頻度 P(G,3)=0.7
対立遺伝子1推定頻度(A1EF)=I*P(G,1)+J*P(G,2)+K*P(G,3)
=0*0.9+0*0.6+1*0.7
=0.7
ヨーロッパ人における「T」対立遺伝子頻度 P(T,1)=0.1
NAにおける「T」対立遺伝子頻度 P(T,2)=0.4
MEにおける「T」対立遺伝子頻度 P(T,3)=0.3
対立遺伝子2推定頻度(A1EF)=I*P(T,1)+J*P(T,2)+K*P(T,3)
=0*0.1+0*0.4+1*0.3
=0.3
SNP1についての期待遺伝子型値=log(2*A1EF*A2EF)
=log(2*0.7*0.3)
=-0.3767
SNP2対立遺伝子：T、T
ヨーロッパ人における「T」対立遺伝子頻度 P(T,1)=0.7
NAにおける「T」対立遺伝子頻度 P(T,2)=0.5
MEにおける「T」対立遺伝子頻度 P(T,3)=0.9
対立遺伝子1推定頻度(A1EF)=I*P(T,1)+J*P(T,2)+K*P(T,3)
=0*0.7+0*0.5+1*0.9
=0.9
SNP2についての期待遺伝子型値(EGV2)=log(A1EF*A2EF)
=log(0.9*0.9)
=-0.0915
SNP3対立遺伝子：C、T
ヨーロッパ人における「C」対立遺伝子頻度 P(C,1)=0.8
NAにおける「C」対立遺伝子頻度 P(C,2)=0.7
MEにおける「C」対立遺伝子頻度 P(C,3)=0.9
対立遺伝子1推定頻度(A1EF)=I*P(C,1)+J*P(C,2)+K*P(C,3)
=0*0.8+0*0.7+1*0.9
=0.9
ヨーロッパ人における「T」対立遺伝子頻度 P(T,1)=0.2
NAにおける「T」対立遺伝子頻度 P(T,2)=0.3
MEにおける「T」対立遺伝子頻度 P(T,3)=0.1
対立遺伝子2推定頻度(A1EF)=I*P(T,1)+J*P(T,2)+K*P(T,3)
=0*0.2+0*0.3+1*0.1
=0.1
SNP3についての期待遺伝子型値(EGV3)=log(2*A1EF*A2EF)
=log(2*0.9*0.1)
=-0.7447
i. 未知のパラメーターについての尤度値
=EGV1+EGV2+EGV3
=-0.3767-0.0915-0.7447
=-1.2129
ヨーロッパ人=0；NA=0；中東=1について；尤度値は-1.2129である
}
すべての可能な組み合わせについて上のループを繰り返す
0.0,0.0,1.0 -1.2129
1.0,0.0,0.0,
0.0,1.0,0.0,
0.1,0.0,0.9,
0.1,0.1,0.8,
0.1,0.2,0.7,
0.1,0.3,0.6,
0.1,0.4,0.5,
など
最大尤度値を得て、対応する割合が祖先割合である。

本発明は、上の実施例に関して記載されたが、修飾および変化が本発明の真意および範囲内に含まれることは理解されるものと思われる。従って、本発明は、特許請求の範囲によってのみ限定される。

混合された集団において、染色体セグメントが、時間が経てば、組換えにより混合される様式を示す図を提供する。最初は、親集団は、セグメントに沿ってAIMに関して連続的である染色体セグメントを有する。雑種第1代(F1)において、すべての人は、各親集団由来の1つの完全な染色体セグメントを有する。F2世代において、ずっと多い組み合わせが可能である。F2に示される非組換え対組換えの遺伝子型の相対的尤度は、染色体セグメントのサイズに依存している。ほぼヒト染色体のサイズ程度のセグメントは、単一の減数分裂において平均数個の組換え事象を生じると思われる(1個の組換えは同程度に遺伝的距離の50 cMごとである)。F3は、F2世代からの2人の親をもつ人についての可能性が高い遺伝子型の例を示す。F(N)xF1は、1人のF(N)親および1人のF1親をもつ人の遺伝子型を図示する；およびF(N)xF2は、1人のF(N)親および1人のF2親をもつ人の遺伝子型を図示する。実施例6(表12も参照)に記載されるアルゴリズムを用いて作成された三角形グラフを示す。NAM、先住アメリカ人；AFR、サハラ以南アフリカ人；EUR、インドヨーロッパ人。図2Aは、三角形のNAM頂点から向かい側の辺への線の延長を図示し、向かい側の辺は0%先住アメリカ人祖先を表す。円は、推定比例的祖先の位置に示されており(図2B参照)、線上のハッチマークは、先住アメリカ人祖先のパーセント(約15%)を示している。図2Bは、AFRおよびEUR頂点から引かれた追加の線を示す。円の位置に対応する各線上の位置は、各それぞれの祖先の割合；すなわち、15%先住アメリカ人、60%インドヨーロッパ人、および25%アフリカ人、を表す。個体の祖先推定の値および精度を図示する1つのアプローチを描く三角形プロットを示す。3つの集団の典型的分布が示されている(ヨーロッパ系アメリカ人：黒塗りの四角；アフリカ系アメリカ人：白抜きの三角形；およびアフリカ人/先住アメリカ人集団：白抜きの円)。単一の個体もまた示され、信頼区間が点推定値(黒塗りの円)を囲む同心環として表されている。位相的マップのように、各同心環は、1logユニット単位での尤度における減少を表す(おそらく、10回未満)。この例において、個体は、対称かつ円形である尤度区間空間をもっている。区間空間は、質問の対象の混合割合およびタイピングされたマーカーの対立遺伝子頻度に依存して多くの形をとるものである。 3つのアフリカ系アメリカ人サンプル(黒抜き円：WASH-ワシントンDC、AFCAR-アフリカ系カリブ人およびBOG-ボーガルーサ)、ヨーロッパ系アメリカ人サンプル(白抜き円：SCO-ステートカレッジ)およびスペイン系アメリカ人サンプル(白抜きの菱形：SLV-サンルイスヴァリーCO)についての平均混合推定値を示している三角形プロットを提供する。括弧に入れて、平均アフリカ人(AFR)、インドヨーロッパ人(EUR)および先住アメリカ人(NAM)の各サンプルへの遺伝的寄与が示されている。米国居住者集団における遺伝的構造を示す。図5Aは、有意の関連を示す連鎖していないAIMのパーセンテージを示す。期待値は、5%有意水準に基づいている。ワシントンDCサンプルについての値は、33個のAIMに、サンルイスヴァリーCOについては19個のAIMに、およびステートカレッジPAについては34個のAIMに基づいている。図5Bは、情報を与えるマーカーの独立したサブセットに基づいた個体の祖先推定値間の相関を示す。平均相関は100個の複製に基づいている。マーカーの総数は図5Aについてと同じである。対応するp値は、グラフの一番下に示されている。父親(図6A)および母親(図6B)についての三角形プロットを示す。図6に表された父親および母親の3人の子どものそれぞれについての三角形プロットを示す。ゲノムにおけるAIMの分布を示す（Chrom. number、染色体番号）。 AIMを用いるBGA混合割合解析の強靱性を実証する(実施例2を参照)。最大尤推定値(MLE；点)の信頼(等高線)は、特定のペアワイズ比較について情報を与えるAIMの除去により予想通り影響を及ぼされる。MLEから拡張している第一等高線は、尤度がMLEのそれよりも2倍低い三角形プロット空間を定義し、第二等高線は、尤度がMLEより5倍低い空間を定義する。図9Aは、71個のAIMを用いて得られたMLEおよび信頼等高線を示す；実際のパーセンテージが示されている。図9Bは、東アジア人-先住アメリカ人区別について情報を与える解析から図9Aに示された結果を得るために用いられたそれらのAIMを除去した後得られた結果を示す。MLEは比較的影響を及ぼされておらず、東アジア人-インドヨーロッパ人(ヨーロッパ人)軸および先住アメリカ人-ヨーロッパ人軸に沿う信頼等高線は歪められていないままであるが、信頼等高線は、東アジア人-先住アメリカ人軸に沿って歪められている。家系図の8人の個体について測定されたBGA混合割合を示す。円は女性を、四角は男性を表し、各個体についてのBGA所属は、分子がインドヨーロッパ人BGAを表し、分母が先住アメリカ人BGAを表す分数として示されている。アステリスク(*)により示されているもの(個体が4%東アジア人BGAをもつと測定されたことを示している)を除いては、どの個体も、サハラ以南アフリカ人BGAも東アジア人BGAも含まなかった。他のすべてはインドヨーロッパ人の家系図における中国人曾祖父がどのようにしてインドヨーロッパ人/東アジア人祖先をもつ孫を生じうるかを実証している家系図を示す。100%東アジア人(中国人)である個体は網掛けで示されている；家系図の一番下の男性(四角)(短い矢印)についての混合結果が対象となる。長い矢印により示された祖母は、約50%/50%東アジア人/インドヨーロッパ人混合であり、彼女の娘、対象者の母親、は25%/75%東アジア人/インドヨーロッパ人混合であると予想される(実施例3)。上昇したコレステロールレベルについて治療された患者の群について染色体アームによるジェノタイピングに有効なすべてのSNPの分布を示す。コレステロール(lip TC)、低密度リポタンパク質(lip LDL)、肝臓トランスアミナーゼAST-SGOT(lip SGOT)およびALT-GPT(lip GPT)測定に関して応答が知られていたLipitor(商標)を服用するカフカス人個体(n=180)におけるSNPの分布を示す。様々な形質クラス中で有意(>0.20)のデルタ値をもつSNPが選択された。例えば、患者の約70%において、Lipitor(商標)はLDLにおける減少を引き起こした。任意の与えられたSNPについて、デルタ値(δ)は、LDLが少なくとも20%減少した個体対LDLが変化しなかった個体の中での少数対立遺伝子頻度における差である。応答がZocor(商標)での治療後に測定されていること(n=150)、ならびに総コレステロール(zoc TC)およびLDL(zoc LDL)のみが調べられたことを除いては、図13についてと同様の解析を示す。既知の目の色の1,000人の個体についての染色体中のSNPの分布(δ>0.11)を示す。既知の髪および目の色の1,000人の個体についての染色体中のSNPの分布(δ>0.11)を示す。

Claims

以下の段階を含む、個体の形質を所定の信頼水準を以て推論する方法：
a)検査個体の核酸分子を含む試料をハイブリダイズするオリゴヌクレオチドに接触させる段階であって、ハイブリダイズするオリゴヌクレオチドが形質と相関した集団構造を示す少なくとも約10個の祖先情報提供マーカー(AIM)のパネルの一塩基多型(SNP)のヌクレオチド出現を検出することができ、かつ該接触段階が、ハイブリダイズするオリゴヌクレオチドにより検査個体のAIMのヌクレオチド出現を検出するのに適した条件下で行われる、段階；および
b)検査個体においてAIMのヌクレオチド出現と相関する集団構造を所定の信頼水準を以て同定する段階であって、集団構造が形質と相関し、それにより、個体の形質を所定の信頼水準を以て推論する、段階。
パネルが少なくとも約20個のAIMを含む、請求項1記載の方法。
形質が生物地理学的祖先(BGA)を含む、請求項1記載の方法。
パネルが配列番号：1〜331として示されるAIMを含む、請求項3記載の方法。
パネルが配列番号：1〜71として示されるAIMを含む、請求項3記載の方法。
パネルが以下のものとして示されるAIMを含む、請求項3記載の方法：
配列番号：7、21、23、27、45、54、59、63および72〜152；
配列番号：3、8、9、11、12、33、40、59、63および153〜239；
配列番号：1、8、11、21、24、40、172および240〜331；または
それらの組み合わせ。
パネルの少なくとも1個のAIMが形質と結びつけられた遺伝子と連鎖していない、請求項1記載の方法。
BGAがサハラ以南アフリカ人、先住アメリカ人、インドヨーロッパ人、もしくは東アジア人の祖先群、または該祖先群の組み合わせの割合を含む、請求項3記載の方法。
BGAが少なくとも3つの祖先群の割合を含む、請求項8記載の方法。
BGAが、少なくともサハラ以南アフリカ人およびインドヨーロッパ人の祖先群；先住アメリカ人およびインドヨーロッパ人の祖先群；東アジア人および先住アメリカ人の祖先群；またはインドヨーロッパ人および東アジア人の祖先群の割合を含む、請求項3記載の方法。
BGAが、少なくとも先住アメリカ人、東アジア人およびインドヨーロッパ人の祖先群；またはサハラ以南アフリカ人、先住アメリカ人およびインドヨーロッパ人の祖先群の割合を含む、請求項3記載の方法。
形質が個体の薬物への応答性を含む、請求項1記載の方法。
薬物が癌化学療法剤である、請求項12記載の方法。
薬物がスタチンである、請求項12記載の方法。
形質が疾患に対する感受性を含む、請求項1記載の方法。
疾患が民族的素因を有する、請求項15記載の方法。
疾患が癌、糖尿病または高血圧症である、請求項16記載の方法。
癌が前立腺癌である、請求項17記載の方法。
疾患が神経学的障害である、請求項15記載の方法。
統合失調症またはパーキンソン病である、請求項19記載の方法。
疾患がアルコール中毒症である、請求項15記載の方法。
形質が色素形成形質を含む、請求項1記載の方法。
色素形成形質が目の色、皮膚の色、髪の色、またはそれらの組み合わせを含む、請求項22記載の方法。
検査個体においてAIMのヌクレオチド出現と相関する集団構造の下位集団構造を所定の信頼水準を以て同定する段階であって、下位集団構造が形質と相関している、段階をさらに含む、請求項1記載の方法。
ハイブリダイズするオリゴヌクレオチドがオリゴヌクレオチドプライマーを含み、該方法が、プライマー伸長産物の生成に適した条件下で試料をポリメラーゼに接触させる段階をさらに含み、SNPのヌクレオチド出現を測定することがプライマー伸長産物の存在を検出することを含んでいる、請求項1記載の方法。
ハイブリダイズするオリゴヌクレオチドがオリゴヌクレオチドプライマーを含み、該方法が、プライマー伸長産物の生成に適した条件下で試料をポリメラーゼに接触させる段階をさらに含み、SNPのヌクレオチド出現を測定することが、SNPの位置に対応する位置におけるプライマー伸長産物のヌクレオチド配列を測定することを含んでいる、請求項1記載の方法。
ハイブリダイズするオリゴヌクレオチドが増幅プライマー対を含み、該方法が、増幅産物の生成に適した条件下で試料をポリメラーゼに接触させる段階をさらに含み、SNPのヌクレオチド出現を測定することが増幅産物の存在を検出することを含んでいる、請求項1記載の方法。
ハイブリダイズするオリゴヌクレオチドが増幅プライマー対を含み、該方法が、増幅産物の生成に適した条件下で試料をポリメラーゼに接触させる段階をさらに含み、SNPのヌクレオチド出現を測定することが、SNPの位置に対応する位置における増幅産物のヌクレオチド配列を測定することを含んでいる、請求項1記載の方法。
高処理量形式で行われる、請求項1記載の方法。
多重形式で行われる、請求項1記載の方法。
以下の段階を含む、個体の少なくとも2つの祖先群の比例的祖先を所定の信頼水準を以て推定する方法：
a)検査個体の核酸分子を含む試料をハイブリダイズするオリゴヌクレオチドに接触させる段階であって、ハイブリダイズするオリゴヌクレオチドが、調べられる各祖先群についての生物地理学的祖先(BGA)を示す少なくとも約10個の祖先情報提供マーカー(AIM)のパネルの一塩基多型(SNP)のヌクレオチド出現を検出することができ、かつ該接触段階が、ハイブリダイズするオリゴヌクレオチドにより検査個体のAIMのヌクレオチド出現を検出するのに適した条件下である、段階；および
b)調べられる祖先群のそれぞれのAIMのヌクレオチド出現と相関する集団構造を所定の信頼水準を以て同定する段階であって、集団構造が比例的祖先を示し、それにより、個体の比例的祖先を所定の信頼水準を以て推定する、段階。
比例的祖先がサハラ以南アフリカ人祖先群、先住アメリカ人祖先群、インドヨーロッパ人祖先群、東アジア人祖先群、またはそれらの組み合わせの割合を含む、請求項31記載の方法。
比例的祖先が、サハラ以南アフリカ人およびインドヨーロッパ人の祖先群；先住アメリカ人およびインドヨーロッパ人の祖先群；東アジア人および先住アメリカ人の祖先群；またはインドヨーロッパ人および東アジア人の祖先群の割合を含む、請求項31記載の方法。
比例的祖先が、先住アメリカ人、東アジア人およびインドヨーロッパ人の祖先群；サハラ以南アフリカ人、先住アメリカ人およびインドヨーロッパ人の祖先群；またはサハラ以南アフリカ人、先住アメリカ人および東アジア人の祖先群の割合を含む、請求項31記載の方法。
祖先群の少なくとも1つについてのパネルが配列番号：1〜331に示されるAIMを含む、請求項31記載の方法。
祖先群の少なくとも1つについてのパネルが配列番号：1〜71として示されるAIMを含む、請求項31記載の方法。
祖先群の少なくとも1つについてのパネルが以下のものとして示されるAIMを含む、請求項31記載の方法：
配列番号：7、21、23、27、45、54、59、63および72〜152；
配列番号：3、8、9、11、12、33、40、59、63および153〜239；
配列番号：1、8、11、21、24、40、172および240〜331；または
それらの組み合わせ。
パネルの少なくとも1個のAIMが、形質と結びつけられた遺伝子と連鎖していない、請求項31記載の方法。
比例的祖先が3つの祖先群の割合を含み、かつ検査個体のAIMのヌクレオチド出現と相関する集団構造を同定する段階が以下の段階を含む、請求項31記載の方法：
サハラ以南アフリカ人祖先群、先住アメリカ人祖先群、インドヨーロッパ人祖先群および東アジア人祖先群のそれぞれへの所属について尤度決定を行う段階；
その後、最も大きい尤度値をもつ3つの祖先群を選択する段階；
最も大きい尤度値をもつ3つの祖先群の中ですべての可能な比例的所属の尤度を決定する段階であって、それにより検査個体のAIMのヌクレオチド出現と相関する集団構造または比例的所属が同定される、段階；ならびに
最大尤度のたった1つの比例的組み合わせを同定し、それにより個体の比例的祖先を推定する段階。
比例的祖先が3つの祖先群の割合を含み、かつAIMのヌクレオチド出現と相関する集団構造を同定する段階が以下の段階を含む、請求項31記載の方法：
各群のそれぞれの他の群との間での所属についての尤度決定を含む6つの二元比較を行う段階；
その後、最も大きい尤度値をもつ3つの祖先群を選択する段階；
最も大きい尤度値をもつ3つの祖先群の中でのすべての可能な比例的所属の尤度を決定する段階であって、それにより、検査個体のAIMのヌクレオチド出現と相関する集団構造または比例的所属が同定される、段階；および
最大尤度のたった1つの比例的組み合わせを同定し、それにより個体の比例的祖先を推定する段階。
比例的祖先が3つの祖先群の割合を含み、かつ検査個体のAIMのヌクレオチド出現と相関する集団構造を同定する段階が、群の間で3つの三元比較を行う段階、最も大きい尤度値をもつ3つの祖先群の中ですべての可能な比例的所属の尤度を決定する段階であって、それにより検査個体のAIMのヌクレオチド出現と相関する集団構造または比例的所属が同定される、段階；および最大尤度のたった1つの比例的組み合わせを同定し、それにより個体の比例的祖先を推定する段階を含む、請求項31記載の方法。
比例的祖先が4つの祖先群の割合を含み、かつ検査個体のAIMのヌクレオチド出現と相関する集団構造を同定する段階が、群の間で6つの二元比較、3つの三元比較、または1つの四元比較を行う段階；最も大きい尤度値をもつ4つの祖先群の中ですべての可能な比例的所属の尤度を決定する段階であって、それにより検査個体のAIMのヌクレオチド出現と相関する集団構造または比例的所属が同定される、段階；および最大尤度のたった1つの比例的組み合わせを同定し、それにより個体の比例的祖先を推定する段階を含む、請求項31記載の方法。
3つの祖先群の比較のグラフ表示を作成する段階であって、該グラフ表示が、それぞれ祖先群が独立して三角形の頂点により表されている三角形を含み、個体についての比例的所属の最大尤度値が三角形内の点を含んでいる、段階をさらに含む、請求項40記載の方法。
グラフ表示が、比例的祖先を推定することに付随した信頼水準を示す信頼等高線をさらに含む、請求項43記載の方法。
検査個体においてAIMのヌクレオチド出現と相関する集団構造の下位集団構造を所定の信頼水準を以て同定する段階であって、下位集団構造が検査個体の民族性と相関している、段階をさらに含む、請求項31記載の方法。
下位集団構造を同定する段階が以下の段階を含む、請求項45記載の方法：
検査個体の比例的祖先の祖先群を示すAIMを含む検査個体の染色体を同定する段階；
検査個体の核酸分子を含む試料を第二のハイブリダイズするオリゴヌクレオチドに接触させる段階であって、第二のハイブリダイズするオリゴヌクレオチドがAIMの第二パネルのSNPのヌクレオチド出現を検出することができ、かつ第二パネルのAIMが、検査個体の祖先群を示すAIMを含む検査個体の染色体上に存在している、段階；および
第二パネルのAIMのヌクレオチド出現と相関する下位集団構造を同定する段階であって、下位集団が検査個体の祖先群の民族性を示している、段階。
祖先群がインドヨーロッパ人であり、かつ民族性が北ヨーロッパ人または地中海人種を含む、請求項45記載の方法。
世界の祖先地図を作成する段階であって、検査個体の比例的祖先に対応する比例的祖先をもつ集団の位置が祖先地図上に示されている、段階をさらに含む、請求項31記載の方法。
以下の段階をさらに含む、請求項48記載の方法：
a)祖先地図を系統地図でオーバーレイする段階であって、系統地図が検査個体に関して地政学的関連性をもつ集団の位置を示している、段階；および
b)検査個体の家系の最も可能性が高い推定を得るために祖先地図および系統地図の情報を統計的に結合する段階。
AIMのヌクレオチド出現と相関する集団構造を同定する段階が、検査個体のAIMのヌクレオチド出現をBGAを示すAIMのヌクレオチド出現に対応する既知の比例的祖先と比較する段階を含む、請求項31記載の方法。
BGAを示すAIMのヌクレオチド出現に対応する既知の比例的祖先がデータベースに含まれている、請求項50記載の方法。
比較する段階がコンピューターを用いて行われる、請求項51記載の方法。
BGAを示すAIMのヌクレオチド出現に対応する既知の比例的祖先のそれぞれが、既知の比例的祖先が決定された人の写真でさらに構成される、請求項50記載の方法。
写真がデジタル写真を含む、請求項53記載の方法。
デジタル写真を含むデジタル情報がデータベースに含まれている、請求項54記載の方法。
データベースにおけるデジタル情報が、写真における人のBGAを示すAIMのヌクレオチド出現に対応する既知の比例的祖先と結びつけられる、請求項55記載の方法。
検査個体の比例的祖先に対応する比例的祖先をもつ人の写真を同定する段階をさらに含む、請求項51記載の方法。
写真を同定する段階が、各ファイルが既知の比例的祖先をもつ人のデジタル写真に対応するデジタル情報を含んでいる、複数のファイルを含むデータベースをスキャンする段階、および検査個体のBGAを示すAIMのヌクレオチド出現に対応するBGAを示すAIMのヌクレオチド出現をもつ人の少なくとも1枚の写真を同定する段階を含む、請求項57記載の方法。
生物地理学的祖先(BGA)を示すAIMのヌクレオチド出現を含む集団構造に対応する既知の比例的祖先をもつ人の少なくとも1枚の写真を含む、製品。
ファイルに含まれている、請求項59記載の品。
複数のうちのファイルが、BGAを示すAIMのヌクレオチド出現を含む集団構造に対応する既知の比例的祖先をもつ人の少なくとも1枚の写真を含む、請求項59記載の製品を含む複数のファイル。
複数のうちの写真が、BGAを示すAIMのヌクレオチド出現を含む集団構造に対応する既知の比例的祖先をもつ人の写真を含んでいる、複数の写真を含む請求項60記載のファイル。
複数のうちの写真が、同じ既知の比例的祖先をもつ異なる人の写真を含む、請求項62記載のファイル。
複数のうちの写真が、異なる既知の比例的祖先をもつ異なる人の写真を含む、請求項62記載のファイル。
少なくとも1枚の写真がデジタル写真を含む、請求項59記載の製品。
デジタル写真がデジタル情報を含む、請求項65記載の製品。
デジタル情報がデータベースに含まれている、請求項66記載の製品。
複数のデジタル写真を含む、請求項65記載の製品。
少なくとも2枚のデジタル写真を含む、請求項65記載の複数の製品。
デジタル写真がデジタル情報を含む、請求項69記載の複数。
デジタル情報がデータベースに含まれている、請求項70記載の複数。
配列番号：1〜331、またはそれらに相補的なポリヌクレオチド、に示される少なくとも5個のポリヌクレオチドの少なくとも15個の連続したヌクレオチドを含む、複数のハイブリダイズするオリゴヌクレオチドを含む、キット。
ハイブリダイズするオリゴヌクレオチドが、配列番号：1〜71、またはそれらに相補的なポリヌクレオチド、に示される少なくとも5個のポリヌクレオチドの少なくとも15個の連続したヌクレオチドを含む、請求項72記載のキット。
複数のうちのハイブリダイズするオリゴヌクレオチドが、そのポリヌクレオチドまたはそれに相補的なポリヌクレオチドの多型の位置に対応する少なくとも1個のヌクレオチドを含む、請求項72記載のキット。
複数のうちのハイブリダイズするオリゴヌクレオチドが、配列番号：1〜34、36〜49、52〜55、もしくは57〜98、100〜105、107〜162、164〜331、またはそれらに相補的なポリヌクレオチドのいずれかに示されるポリヌクレオチドのヌクレオチド50位を含む、請求項74記載のキット。
複数のうちのハイブリダイズするオリゴヌクレオチドが、少なくとも1つのプローブ、少なくとも1つのプライマー、またはそれらの組み合わせを含む、請求項72記載のキット。
少なくとも1つの増幅プライマーを含む、請求項76記載のキット。
フォワードプライマーおよびリバースプライマーを含む少なくとも1つの増幅プライマー対を含む、請求項76記載のキット。
少なくとも1つの増幅プライマー対を用いる増幅反応を行うための試薬をさらに含む、請求項78記載のキット。
祖先情報提供マーカー(AIM)が、複数のうちのハイブリダイズするオリゴヌクレオチドに対応している、少なくとも1個のAIMをさらに含む、請求項72記載のキット。
複数のうちの少なくとも1つのハイブリダイズするオリゴヌクレオチドに結合されうる、または組み入れられうる検出可能な標識をさらに含む、請求項72記載のキット。
複数のうちのハイブリダイズするオリゴヌクレオチドが検出可能に標識されている、請求項72記載のキット。