JP2004537292A - 体色形質を推測するための組成物および方法 - Google Patents

体色形質を推測するための組成物および方法 Download PDF

Info

Publication number
JP2004537292A
JP2004537292A JP2003500216A JP2003500216A JP2004537292A JP 2004537292 A JP2004537292 A JP 2004537292A JP 2003500216 A JP2003500216 A JP 2003500216A JP 2003500216 A JP2003500216 A JP 2003500216A JP 2004537292 A JP2004537292 A JP 2004537292A
Authority
JP
Japan
Prior art keywords
nucleotide
seq
haplotype
nucleotides
oca2
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003500216A
Other languages
English (en)
Other versions
JP2004537292A5 (ja
Inventor
フルダキス トニー
Original Assignee
ディーエヌエープリント ジェノミクス インコーポレーティッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ディーエヌエープリント ジェノミクス インコーポレーティッド filed Critical ディーエヌエープリント ジェノミクス インコーポレーティッド
Publication of JP2004537292A publication Critical patent/JP2004537292A/ja
Publication of JP2004537292A5 publication Critical patent/JP2004537292A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/172Haplotypes

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本発明は、ヒト対象の遺伝的体色形質を対象の核酸試料またはポリペプチド試料から推測するための方法、およびこのような方法を実施するための組成物に関する。本発明の方法は、一部には、単独または組み合わせにより、毛の濃淡、毛の色、眼の濃淡または眼の色などの遺伝的体色形質に関する推測を導くことを可能とし、さらに人種に関する推測を導くことも可能とする、単一ヌクレオチド多型(SNP)の同定に基づく。本発明の方法は、例えば、核酸試料において、少なくとも1つの体色遺伝子の少なくとも1つの体色関連ハプロタイプアレル、好ましくは体色関連ハプロタイプアレルの組み合わせを同定することによって行うことができる。

Description

【技術分野】
【0001】
発明の背景
発明の分野
本発明は一般に、個体の遺伝的体色形質(genetic pigmentation trait)または人種を推測するための方法に関し、より詳細には、毛の色(hair color)もしくは濃淡(shade)、または眼の色もしくは濃淡、または人種に関する推測をもたらす、核酸試料における単一ヌクレオチド多型およびその組み合わせの検出方法に関する。
【背景技術】
【0002】
背景情報
バイオテクノロジーは法医学の分野に大きな変革をもたらした。より詳細には、ヒトゲノムDNAにおける多型領域の同定は、多型を含むことが知られたゲノムDNA中のいくつかの位置のそれぞれにおける特定のヌクレオチドの出現に基づいて個体を識別する手段を提供している。このため、個体由来のDNAの分析により、恐らくは一卵性双生児を例外として、ヒト集団全体の中の1人の特定の個体に対して本質的に一意的な遺伝子フィンガープリントまたは「バーコード」を構築することが可能となる。
【0003】
1滴の血液もしくは精液または1個の毛包といったわずかな試料からも大量のDNAを調製することを可能にするDNA増幅法と組み合わせることにより、DNA分析は、嫌疑を無罪とする、または場合によっては有罪とする証拠として、刑事事件における日常的な手法となっている。実際、刑事法廷では、嘘発見器による検査の結果を現在も証拠として認めていないが、DNAの証拠は裁判に採用している。さらに、証拠物件から抽出されたDNAは、場合によっては犯罪が行われた後に何年間も保存され、その結果、多くの人々の有罪判決が逆転している。
【0004】
DNAフィンガープリント分析は法医学の分野を大きく進歩させ、人々(場合によっては誤って何年も投獄されていた人もいる)に自由をもたらしたが、現行のDNA分析法には限界がある。詳細には、DNAフィンガープリント分析は、特定の人が、試料の由来となった人であること、またはそうでないことを確証する証拠を提供するのみである。例えば、精液試料中のDNAを用いて特定の「バーコード」が得られるが、それはその試料を残した人に関する情報はもたらさない。実際には、そのバーコードを犯罪容疑者のバーコードと比較することしかできない。バーコードが一致すれば、その人が精液の源である可能性が高いという結論を下せる。しかし、一致しなければ、さらに捜査を続ける必要がある。
【0005】
バーコードのデータベース、特に有罪判決を受けた犯罪者のバーコードを蓄積しようという取り組みが始まっている。このようなデータベースにより、犯罪現場に残された生物試料から得られたバーコードを予測的に用いることが可能になる;すなわち、試料のバーコードを、コンピュータ化された方法を用いて、データベース中のバーコードと比較することができ、その試料がデータベース中にバーコードがある人のものである場合には一致が得られ、それにより、その人が犯罪現場から得られた試料の源である可能性が高いと特定することができる。このようなデータベースを利用しうることは法医学的分析に大きな進展をもたらすが、犯罪現場に生物試料を残した人に関する情報をデータベースに含めなければならないという条件のためにDNA分析の潜在能力は限定され、これを仮に行うとしても、このようなデータベースが集団全体の情報をもたらすまでには長い時間がかかると考えられる。このように、対象の核酸試料から対象に関する予測的情報をもたらしうる方法に対しては需要がある。本発明は、この需要を満たすとともに、さらなる利点を提供する。
【発明の開示】
【0006】
発明の概要
本発明は、ヒト対象の遺伝的体色形質を対象の核酸試料またはポリペプチド試料から推測するための方法、および、このような方法を実施するための組成物に関する。本発明の方法は、一部には、単独または組み合わせにより、毛の濃淡、毛の色、眼の濃淡、または眼の色などの遺伝的体色形質に関する推測を導くことを可能とし、さらに人種に関する推測を導くことも可能とする、単一ヌクレオチド多型(SNP)の同定に基づく。このため、本発明の組成物および方法は、例えば、犯罪現場に存在する核酸試料から犯罪被害者または犯罪者の可能性がある者の身体的特徴に関する情報を入手するための法医学的手法として、および、所望の体色形質を含むように飼い慣らされた動物、家畜などの育種を行うことを補助する手法として有用である。
【0007】
本発明の方法の一つは、例えば、核酸試料において少なくとも1つの体色遺伝子の少なくとも1つの体色関連ハプロタイプアレルを同定することによって行うことができ、この際、体色遺伝子は、眼皮膚型白皮症II(OCA2)、アグーチ(agouti)シグナル伝達タンパク質(ASIP)、チロシナーゼ関連タンパク質1(TYRP1)、チロシナーゼ(TYR)、アダプター関連タンパク質複合体3 β1サブユニット(AP3B1)(アダプチンB1タンパク質(ADP1)としても知られる)、アダプチン3Dサブユニット1(AP3D1)、ドパクロムタウトメラーゼ(dopachrome tautomerase)(DCT)、シルバーホモログ(silver homolog)(SILV)、AIM-1タンパク質(LOC51151)、プロオピオメラノコルチン(POMC)、眼型白皮症1(OA1)、小眼球症関連転写因子(MITF)、ミオシンVA(MYO5A)、RAB27A、凝固第II因子(トロンビン)受容体様1(F2RL1)またはアダプチン3 Dサブユニット1(AP3D1)であり、ハプロタイプアレルは体色形質と関連づけられていて、それによって対象の遺伝的体色形質が推測される。1つの態様において、体色遺伝子にはOCA2、AS1P、TYRP1、TYR、SILV AP3B1、AP3D1、AP3D1、またはDCTの少なくとも1つが含まれ、体色関連ハプロタイプアレルは、核酸試料を入手した対象の体色形質に関する推測を導くことを可能にする浸透性(penetrant)体色関連ハプロタイプアレルである。例えば、遺伝的体色形質が眼の濃淡である場合には、体色関連ハプロタイプアレルをOCA2、TYRP1、またはDCT遺伝子の少なくとも1つで同定しうる。
【0008】
本発明の方法に従って推測しうる遺伝的体色形質は毛の色、毛の濃淡、眼の色もしくは眼の濃淡であってよく、または人種であってもよい。体色関連ハプロタイプアレルは、体色遺伝子の配列中の2つまたはそれ以上のSNPの特定のヌクレオチド・オカレンス(nucleotide occurrence)、特にSNP(これらは体色遺伝子の一方のアレルに存在しても両方のアレルに存在してもよく、同じでも異なってもよい)の特定のヌクレオチド・オカレンスを含む。浸透性体色関連ハプロタイプアレルとは、それ単独で、ヒト対象の遺伝的体色形質がランダムよりも可能性が高いという推測を導くことを可能にするもののことである。潜在性(latent)体色関連ハプロタイプアレルとは、1つまたは複数の浸透性ハプロタイプまたは他の潜在性ハプロタイプの状況下で、浸透性ハプロタイプまたは他の潜在性ハプロタイプアレルのみによる推測よりもより強い推測を導くことを可能にするもののことである。
【0009】
本発明の方法を実施するために有用な試料は、個々の方法に依存して、検討しようとする遺伝子配列を含む核酸分子、またはコードされる対応するポリペプチドを含む、対象の任意の生物試料でありうる。このため、試料は細胞、組織もしくは臓器試料であってもよく、または精液、唾液、血液などの生体液の試料であってもよい。本発明の方法を実施するために有用な核酸試料は、一部には、同定しようとするハプロタイプのSNPがコード領域にあるか、それとも非コード領域にあるかに依存すると考えられる。したがって、同定しようとするSNPの少なくとも1つが非コード領域にある場合には、核酸試料は一般にデオキシリボ核酸(DNA)試料、特にゲノムDNAまたはその増幅産物である。しかし、異核リボ核酸(RNA)(スプライシングを受けていないmRNA前駆体RNA分子を含む)を利用可能な場合には、cDNAまたはその増幅産物を用いることができる。ハプロタイプのSNPのそれぞれが体色遺伝子のコード領域に存在する場合には、核酸試料はDNAもしくはRNA、またはそれらに由来する産物(例えば、増幅産物)のいずれでもよい。さらに、本発明の方法は一般に核酸試料に対して例証されるが、特定のハプロタイプアレルがある遺伝子のコード領域にあって、それが非縮重性コドン変化のために、SNPに対応する位置に異なるアミノ酸を含むポリペプチドを生じさせることは理解されると考えられる。このため、もう1つの面において、本発明の方法を、対象のポリペプチドを含む試料を用いて実施することが可能である。
【0010】
本明細書中に開示するように、少なくとも1つの体色遺伝子の少なくとも1つの浸透性体色関連ハプロタイプアレルの同定により、ヒト対象の遺伝的体色形質に関する推測を導くことが可能になる。本発明の方法によって導かれる推測は、同じ体色遺伝子または1つもしくは複数の他の体色遺伝子にある、第2、第3、第4もしくはそれ以上の浸透性体色関連ハプロタイプアレル、および/または、1つもしくは複数の潜在性体色関連ハプロタイプアレルを同定することによって強化することができる。したがって、もう1つの態様において、本発明の方法は、核酸試料において、第1の体色遺伝子の少なくとも第2の浸透性体色関連ハプロタイプアレル、および/または少なくとも第2の体色遺伝子、例えば、OCA2、ASIP、TYRP1、TYR、AP3B1、AP3D1、DCT、SILV、LOC51151、AIM1、POMC、OA1、MITF、MYO5A、RAB27A、F2RL1、AP3D1、もしくはメラノコルチン-1受容体(MC1R)遺伝子の少なくとも1つの浸透性体色関連ハプロタイプアレルを同定することをさらに含みうる。
【0011】
一例として、本発明の方法は、核酸試料が特定の眼の色または眼の濃淡を有するヒト白人のものであるという推測を導くことを可能にする。1つの局面において、試料が特定の眼の色または眼の濃淡を有する白人のものであることを推測する方法は、以下のうち少なくとも1つを含む浸透性体色関連ハプロタイプアレルを同定することによって行われる:a)DCT-Aハプロタイプに対応するDCT遺伝子のヌクレオチド、これには配列番号:1のヌクレオチド609[702]、配列番号:2のヌクレオチド501[650]および配列番号:3のヌクレオチド256[マーカー675]が含まれる;b)メラノコルチン-1受容体(MC1R)-Aハプロタイプに対応するMC1R遺伝子のヌクレオチド、これには配列番号:4のヌクレオチド442[217438]、配列番号:5のヌクレオチド619[217439]および配列番号:6のヌクレオチド646[217441]が含まれる;c)OCA2-Aハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:7のヌクレオチド135[217458]、配列番号:8のヌクレオチド193[886894]、配列番号:9のヌクレオチド228[マーカー886895]および配列番号:10のヌクレオチド245[マーカー886896];d)OCA2-Bハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:11のヌクレオチド189[マーカー217452]、配列番号:12のヌクレオチド573[マーカー712052]および配列番号:13のヌクレオチド245[マーカー886994]が含まれる;e)OCA2-Cハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:14のヌクレオチド643[712057]、配列番号:15のヌクレオチド539[712058]、配列番号:418のヌクレオチド16[712060]および配列番号:17のヌクレオチド795[712064]が含まれる;f)OCA2-Dハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:18のヌクレオチド535[712054]、配列番号:19のヌクレオチド554[712056]および配列番号:20のヌクレオチド210[886892]が含まれる;g)OCA2-Eハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:21のヌクレオチド225[217455]、配列番号:170のヌクレオチド22[712061]および配列番号:20のヌクレオチド210[886892]が含まれる;h)TYRP1-Bハプロタイプに対応するTYRP1遺伝子のヌクレオチド、これには配列番号:23のヌクレオチド172[886938]もしくは配列番号:24のヌクレオチド216[886943]が含まれる;または以上に列挙した浸透性ハプロタイプの任意の組み合わせ。例えば、MC1R-Aの体色関連ハプロタイプアレルはCCCでありうる;OCA2-Aの体色関連ハプロタイプアレルはTTA、CCAGまたはTTAGでありうる;OCA2-Bの体色関連ハプロタイプアレルはCAA、CGA、CACまたはCGCでありうる;OCA2-Cの体色関連ハプロタイプアレルはGGAA、TGAAまたはTAAAでありうる;OCA2-Dの体色関連ハプロタイプアレルはAGGまたはGGGでありうる;OCA2-Eの体色関連ハプロタイプアレルはGCAでありうる;TYRP1-Bの体色関連ハプロタイプアレルはTCでありうる;および、DCT-Aの体色関連ハプロタイプアレルはCTGまたはGTGでありうる。
【0012】
核酸試料が特定の眼の色または眼の濃淡を有するヒト白人のものであるという推測は、核酸試料において、ある体色遺伝子の潜在性体色関連SNPの少なくとも1つのヌクレオチド・オカレンスを同定することによってさらに強化することができ、この際、潜在性体色関連SNPは、配列番号:25のヌクレオチド61[マーカー560]、配列番号:26のヌクレオチド201[マーカー552]、配列番号:27のヌクレオチド201[マーカー559]、配列番号:28のヌクレオチド201[マーカー468]、配列番号:29のヌクレオチド657[マーカー657]、配列番号:30のヌクレオチド599[マーカー674]、配列番号:31のヌクレオチド267[マーカー632]、配列番号:32のヌクレオチド61[マーカー701]、配列番号:33のヌクレオチド451[マーカー710];配列番号:34のヌクレオチド326[マーカー217456]、配列番号:35のヌクレオチド61[マーカー656]、配列番号:36のヌクレオチド61、配列番号:37のヌクレオチド61[マーカー637]、配列番号:38のヌクレオチド93[マーカー278]、配列番号:39のヌクレオチド114[マーカー386]、配列番号:40のヌクレオチド558[マーカー217480]、配列番号:41のヌクレオチド221[マーカー951497]、配列番号:42のヌクレオチド660[マーカー217468]、配列番号:43のヌクレオチド163[マーカー217473]、配列番号:44のヌクレオチド364[マーカー217485]、配列番号:45のヌクレオチド473[マーカー217486]、配列番号:46のヌクレオチド314[マーカー869787]、配列番号:47のヌクレオチド224[マーカー869745]、配列番号:48のヌクレオチド169[マーカー886933]、配列番号:49のヌクレオチド214[マーカー886937]もしくは配列番号:50のヌクレオチド903[886942]、または以上に列挙した体色関連SNPの組み合わせである。同様に、核酸試料において、ある体色遺伝子の少なくとも1つの潜在性体色関連ハプロタイプアレルを同定することによって推測をさらに強化することができ、この際、潜在性体色関連ハプロタイプアレルには、a)ASIP-Aハプロタイプに対応するASIP遺伝子のヌクレオチド、これには配列番号:26のヌクレオチド201[マーカー552]および配列番号:28のヌクレオチド201[マーカー468]が含まれる;b)DCT-Bハプロタイプに対応するDCT遺伝子のヌクレオチド、これには配列番号:33のヌクレオチド451[マーカー710]および配列番号:29のヌクレオチド657[マーカー657]が含まれる;c)SILV-Aハプロタイプに対応するSILV遺伝子のヌクレオチド、これには配列番号:61のヌクレオチド35[マーカー656]および配列番号:36のヌクレオチド61が含まれる;d)TYR-Aハプロタイプに対応するTYR遺伝子のヌクレオチド、これには配列番号:38のヌクレオチド93[マーカー278]および配列番号:39のヌクレオチド114[マーカー386]が含まれる;e)TY1RP1-Aハプロタイプに対応するTYRP1遺伝子のヌクレオチド、これには配列番号:44のヌクレオチド364[マーカー217485]、配列番号:48のヌクレオチド169[マーカー886933]もしくは配列番号:49のヌクレオチド214[マーカー886937]が含まれる;または以上に列挙した潜在性体色関連ハプロタイプの任意の組み合わせが含まれる。例えば、ASIP-Aの潜在性体色関連ハプロタイプアレルはGT、ATでありうる;DCT-Bの潜在性体色関連ハプロタイプアレルはTA、TGでありうる;SILV-Aの潜在性体色関連ハプロタイプアレルはTC、TTまたはCCでありうる;TYR-Aの潜在性体色関連ハプロタイプアレルはGA、AAまたはGGでありうる;および、TYRP1-Aの潜在性体色関連ハプロタイプアレルはGTG、TTGまたはGTTでありうる。
【0013】
体色関連ハプロタイプアレルを含む、体色関連SNPの同定方法は、ヌクレオチド配列中の特定の位置にある特定のヌクレオチドを同定するために有用な任意の方法を用いて行うことができ、または、ヌクレオチド配列がアミノ酸配列をコードする場合には、SNPのヌクレオチド・オカレンスが異なるアミノ酸をコードするコドンを生じさせるという条件で、ヌクレオチド配列のコドンによってコードされるアミノ酸を同定することによって行うことができる。特に有用な方法には、ハイスループット形式、多重形式またはその両方に容易に適合しうるものが含まれる。さらに、本発明の方法は、色素関連ハプロタイプアレルに関する情報を、フィーチャーモデリング用アルゴリズムを用いて作成された行列に対して適用することをさらに含みうる。例えば、フィーチャーモデリング用アルゴリズムは、二次分類器(quadratic classifier)であるか、またはコレスポンデンス分析を行うことができる。
【0014】
ヌクレオチド変化を検出するための方法には、1つまたは複数のオリゴヌクレオチドプローブまたはプライマー、例えば、1つまたは複数の体色関連SNP位置を含む標的ポリヌクレオチドと選択的にハイブリダイズする増幅プライマー対を利用しうる。本発明の方法の実施に際して有用なオリゴヌクレオチドプローブには、例えば、SNPの位置を含む標的ポリヌクレオチドの一部分に対して相補的であってその全長に及ぶオリゴヌクレオチドが含まれ、この際、その位置に特定のヌクレオチド(すなわち、SNP)が存在することはプローブの選択的ハイブリダイゼーションの有無によって検出される。このような方法はさらに、標的ポリヌクレオチドおよびハイブリダイズしたオリゴヌクレオチドをエンドヌクレアーゼと接触させること、ならびに、SNP部位でのヌクレオチド・オカレンスがプローブの対応するヌクレオチドに対して相補的であるか否かに応じて、プローブの切断産物の存在または欠如を検出することを含みうる。プローブの一方がSNPのヌクレオチド・オカレンスに対して相補的なヌクレオチドを含む、SNP部位の上流および近傍ならびに下流および近傍と特異的にハイブリダイズする一対のプローブを、連結産物の有無によってSNP部位でのヌクレオチド・オカレンスが示されるオリゴヌクレオチド連結アッセイ法に用いることもできる。オリゴヌクレオチドはプライマーとして、例えば、伸長反応の産物(または産物の欠如)によりヌクレオチド・オカレンスが示されるプライマー伸長反応にとって有用な可能性もある。さらに、SNP部位を含む標的ポリヌクレオチドの一部分を増幅するのに有用なプライマー対も有用と考えられ、この場合には、SNP部位でのヌクレオチド・オカレンスを決定するために増幅産物を検討する。
【0015】
SNPの特定のヌクレオチド・オカレンス、または体色関連ハプロタイプの特定のヌクレオチド・オカレンスが、そのヌクレオチド・オカレンスをコードするポリペプチドのアミノ酸変化をもたらすものである場合には、ポリペプチド中の特定のアミノ酸を検出することによってヌクレオチド・オカレンスを同定することができる。アミノ酸を決定するための方法は、例えば、ポリペプチドの構造またはポリペプチド中のアミノ酸に依存すると考えられる。ポリペプチドが特定のSNPによってコードされるアミノ酸の単一のオカレンスのみを含む場合には、ポリペプチドをアミノ酸の存在または欠如に関して検討することができる。例えば、アミノ酸がポリペプチドのアミノ末端もしくはカルボキシ末端またはそれらの近傍にある場合には、末端アミノ酸の単純なシークエンシングを行いうる。または、ポリペプチドを1つまたは複数の酵素で処理し、目的のアミノ酸位置を含むペプチド断片を、例えば、ペプチドのシークエンシングによって、または電気泳動後のペプチドの特定の移動を検出することによって検討することもできる。特定のアミノ酸がポリペプチドのエピトープを含む場合には、エピトープに対して特異的な抗体の特異的結合またはその欠如を検出することができる。ポリペプチドまたはそのペプチド断片における特定のアミノ酸を検出するための他の方法は周知であり、例えば、質量分析計、キャピラリー電気泳動システム、磁気共鳴画像装置などの装置の利便性または利用可能性に基づいて選択することができる。
【0016】
もう1つの態様において、本発明の方法は、対象の核酸試料において、少なくとも1つの体色遺伝子における、例えば、OCA2、ASIP、TYRP1またはMC1Rの少なくとも1つにおける、浸透性体色関連ハプロタイプアレルを同定することにより、ヒト対象の毛の色または毛の濃淡に関する推測を導くことを可能にする。例えば、ヒトからの核酸試料において、以下の少なくとも1つにおける浸透性体色関連ハプロタイプアレルを同定することにより、ヒトの毛の色または毛の濃淡に関する推測を導くことができる:a)ASIP-Bハプロタイプに対応するASIP遺伝子のヌクレオチド、これには配列番号:27のヌクレオチド202[559]および配列番号:25のヌクレオチド61[560]が含まれる;b)MC1R-Aハプロタイプに対応するMC1R遺伝子のヌクレオチド、これには配列番号:4のヌクレオチド442[217438]、配列番号:5のヌクレオチド619[217439]および配列番号:6のヌクレオチド646[217441]が含まれる;c)OCA2-Gハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:16のヌクレオチド418[712060]、配列番号:20のヌクレオチド210、[886892]および配列番号:10のヌクレオチド245[マーカー886896]が含まれる;d)OCA2-Hハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:21のヌクレオチド225[217455]、配列番号:14のヌクレオチド643[712057]および配列番号:8のヌクレオチド193[886894]が含まれる;e)OCA2-Iハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:7のヌクレオチド135[217458]および配列番号:19のヌクレオチド554[712056]が含まれる;e)OCA2-Jハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:18のヌクレオチド535[712054]および配列番号:9のヌクレオチド228[マーカー886895]が含まれる;またはf)TYRP1-Cハプロタイプに対応するTYRP1遺伝子のヌクレオチド、これには配列番号:45のヌクレオチド473[217486]もしくは配列番号:49のヌクレオチド214[886937]が含まれる;または以上に列挙した浸透性体色関連ハプロタイプの任意の組み合わせ。
【0017】
例えば、浸透性体色関連ハプロタイプアレルは以下のものでありうる:a)ASIP-BハプロタイプアレルGAもしくはAA;b)MC1R-AハプロタイプアレルCCC、CTC、TCCもしくはCCT;c)OCA2-GハプロタイプアレルAGGもしくはAGA;d)OCA2-HハプロタイプアレルAGTもしくはATT;e)OCA2-IハプロタイプアレルTG;f)OCA2-JハプロタイプアレルGAもしくはAA;またはg)TYRP1-CハプロタイプアレルAAもしくはTA;または、例えばASIP-Bハプロタイプ、MC1R-Aハプロタイプ、OCA2-Gハプロタイプ、OCA2-Hハプロタイプ、OCA2-Iハプロタイプ、OCA2-JハプロタイプおよびTYRP1-Cハプロタイプを含む、それらの組み合わせ。さらに、本明細書中に開示するように、少なくとも1つの浸透性体色関連ハプロタイプに加えて、核酸試料において、体色遺伝子の少なくとも1つの潜在性体色関連SNP、もしくは少なくとも1つの潜在性体色関連ハプロタイプアレル、またはそれらの組み合わせをさらに同定することにより、毛の色または毛の濃淡に関する推測を強化することができる。
【0018】
さらにもう1つの態様において、本発明の方法は、ヒト対象の人種に関する推測を、対象の核酸試料から導くことを可能にする。このような方法は、例えば、核酸試料において、人種と関連づけられている人種関連SNPのヌクレオチド・オカレンスである、人種関連遺伝子の少なくとも1つの人種関連単一ヌクレオチド多型(SNP)のヌクレオチド・オカレンスを同定することによって行いうる。人種関連遺伝子には、OCA2、ASIP、CYP2D6、TYRP1、CYP2C9、CYP3A4、TYR、MC1R、AP3B1、AP3D1、AP3D1、DCT、SILV、AIM-1タンパク質(LOC51151)、POMC、OA1、MITF、MYO5A、RAB27A、F2RL1、HMGCR、FDPS、AHR、もしくはCYP1A1の少なくとも1つ、または、以上に列挙した遺伝子の任意の2つもしくはそれ以上(遺伝子すべてを含む)における人種関連SNPのヌクレオチド・オカレンスの組み合わせが含まれうる。
【0019】
ヒト対象の人種の推測方法は、例えば、少なくとも2つの人種関連SNPのそれぞれにおけるヌクレオチド・オカレンスを同定し、人種関連SNPの同定されたヌクレオチド・オカレンスを、ハプロタイプアレルと人種との関係が知られている、1つまたは複数の人種関連ハプロタイプアレルにグループ分けすることによって強化しうる。例えば、人種関連ハプロタイプは、以下のような人種関連ハプロタイプでありうる:a)DCT-Aハプロタイプに対応するDCT遺伝子のヌクレオチド、これには配列番号:1のヌクレオチド609[702]、配列番号:2のヌクレオチド501[650]および配列番号:3のヌクレオチド256[マーカー675]が含まれる;b)MC1R-Aハプロタイプに対応するMC1R遺伝子のヌクレオチド、これには配列番号:4のヌクレオチド442[217438]、配列番号:5のヌクレオチド619[217439]および配列番号:6のヌクレオチド646[217441]が含まれる;c)OCA2-Aハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:7のヌクレオチド135[217458]、配列番号:8のヌクレオチド193[886894]、配列番号:9のヌクレオチド228[マーカー886895]および配列番号:10のヌクレオチド245[マーカー886896]が含まれる;d)OCA2-Bハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:11のヌクレオチド189[マーカー217452]、配列番号:12のヌクレオチド573[マーカー712052]および配列番号:13のヌクレオチド245[マーカー886994]が含まれる;e)OCA2-Cハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:14のヌクレオチド643[712057]、配列番号:15のヌクレオチド539[712058]、配列番号:16のヌクレオチド418[712060]および配列番号:17のヌクレオチド795[712064]が含まれる;f)OCA2-Dハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:18のヌクレオチド535[712054]、配列番号:19のヌクレオチド554[712056]もしくは配列番号:20のヌクレオチド210[886892]が含まれる;g)OCA2-Eハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:21のヌクレオチド225[217455]、配列番号:22のヌクレオチド170[712061]および配列番号:20のヌクレオチド210[886892]が含まれる;またはh)TYRP1-Bハプロタイプに対応するTYRP1遺伝子のヌクレオチド、これには配列番号:23のヌクレオチド172[886938]、配列番号:24のヌクレオチド216[886943];または以上に列挙した人種関連ハプロタイプの任意の組み合わせ。
【0020】
核酸試料において、人種関連遺伝子の少なくとも1つの人種関連ハプロタイプアレルを同定することによって推測を強化することもできる。例えば、人種関連ハプロタイプアレルには、以下のものに関するヌクレオチド・オカレンスが含まれうる:a)ASIP-Aハプロタイプに対応するASIP遺伝子のヌクレオチド、これには配列番号:26のヌクレオチド201[マーカー552]および配列番号:28のヌクレオチド201[マーカー468]が含まれる;b)DCT-Bハプロタイプに対応するDCT遺伝子のヌクレオチド、これには配列番号:33のヌクレオチド451[マーカー710]および配列番号:29のヌクレオチド657[マーカー657]が含まれる;c)SILV-Aハプロタイプに対応するSILV遺伝子のヌクレオチド、これには配列番号:35のヌクレオチド61[マーカー656]および配列番号:36のヌクレオチド61が含まれる;d)TYR-Aハプロタイプに対応するTYR遺伝子のヌクレオチド、これには配列番号:38のヌクレオチド93[マーカー278]および配列番号:39のヌクレオチド114[マーカー386]が含まれる;e)TYRP-Bハプロタイプに対応するTYR-B遺伝子のヌクレオチド、これには配列番号:44のヌクレオチド364[マーカー217485]、配列番号:48のヌクレオチド169[マーカー886933]もしくは配列番号:49のヌクレオチド214[マーカー886937]が含まれる;または以上に列挙した人種関連ハプロタイプアレルの任意の組み合わせ。
【0021】
このように、遺伝子型アレル(すなわち、ハプロタイプの二倍体対であるアレル)を含む、人種関連ハプロタイプアレルの組み合わせ、例えば、MC1R-Aハプロタイプ、OCA2-Aハプロタイプ、OCA2-Bハプロタイプ、OCA2-Cハプロタイプ、OCA2-Dハプロタイプ、OCA2-Eハプロタイプ、TYRP1-Bハプロタイプ、およびDCT-Bハプロタイプ;ならびにASIP-Aハプロタイプ、DCT-Bハプロタイプ、SILV-Aハプロタイプ、TYR-Aハプロタイプ、およびTYRP1-Aハプロタイプの組み合わせを同定することにより、人種に関する非常に強い推測を導きうることは理解される。例えば、組み合わせには、MC1R-AハプロタイプアレルCCC;OCA2-AハプロタイプアレルTTAA、CCAGまたはTTAG;OCA2-BハプロタイプアレルCAA、CGA、CACまたはCGC;OCA2-CハプロタイプアレルGGAA、TGAAまたはTAAA;OCA2-DハプロタイプアレルAGGまたはGGG;OCA2-EハプロタイプアレルGCA;TYRP1-BハプロタイプアレルTC;およびDCT-BハプロタイプアレルCTGまたはGTG;およびASIP-AハプロタイプアレルGTまたはAT;DCT-BハプロタイプアレルTAまたはTG;SILV-AハプロタイプアレルTT、TCまたはCC;TYR-AハプロタイプアレルGA、AA、GG;およびTYRP1-AハプロタイプアレルGTG、TTGまたはGTTが含まれうる。
【0022】
もう1つの態様において、ヒト対象の人種を推測するための方法を、OCA2、ASIP、CYP2D6、TYRP1、CYP2C9、CYP3A4、TYR、MC1R、AP3B1、AP3D1、AP3D1、DCT、SILV、AIM-1(LOC51151)、POMC、OA1、MITF、MYO5A、RAB27A、F2RL1、HMGCR、FDPS、AHR、またはCYP1A1などの人種関連遺伝子からの少なくとも1つの人種関連SNPに関して、ヒト対象の人種と関連づけられている、試料におけるヌクレオチド・オカレンスを同定することによって行うこともできる。さらに、本明細書中に開示するように、核酸試料において、OCA2、AS1P、TYRP1、TYR、AP3B1、AP3D1、AP3D1、DCT、SILV、LOC51151、POMC、OA1、MITF、MYO5A、RAB27A、F2RL1、MC1R、CYP2D6、CYP2C9、CYP3A4、AP3B1、HMGCR、FDPS、AHR、またはCYP1A1遺伝子などの少なくとも第2の人種関連遺伝子の少なくとも第2の人種関連SNPに関して、少なくとも1つのヌクレオチド・オカレンスをさらに同定することによって推測を強化することもできる。例えば、ヌクレオチド・オカレンスの位置は以下のものでありうる:配列番号:1のヌクレオチド609[マーカー702]、配列番号:2のヌクレオチド501[マーカー650]、配列番号:3のヌクレオチド256[マーカー675]、配列番号:4のヌクレオチド442[マーカー217438]、配列番号:5のヌクレオチド619[マーカー217439]、配列番号:6のヌクレオチド646[マーカー217441];配列番号:7のヌクレオチド135[マーカー217458]、配列番号:8のヌクレオチド193[マーカー886894]、配列番号:9のヌクレオチド228[マーカー886895]、配列番号:10のヌクレオチド245[マーカー886896]、配列番号:11のヌクレオチド189[217452]、配列番号:12のヌクレオチド573[712052]、配列番号:13のヌクレオチド245[マーカー886994]、配列番号:14のヌクレオチド643[マーカー712057]、配列番号:15のヌクレオチド539[マーカー712058]、配列番号:16のヌクレオチド418[マーカー712060]、配列番号:17のヌクレオチド795[マーカー712064]、配列番号:18のヌクレオチド535[マーカー712054]、配列番号:19のヌクレオチド554[マーカー712056]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:21のヌクレオチド225[マーカー217455]、配列番号:22のヌクレオチド170[マーカー712061]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:23のヌクレオチド172[マーカー886938]、配列番号:24のヌクレオチド216[マーカー886943]、配列番号:25のヌクレオチド61[マーカー560]、配列番号:26のヌクレオチド201[マーカー552]、配列番号:27のヌクレオチド201[マーカー559]、配列番号:28のヌクレオチド201[マーカー468]、配列番号:29のヌクレオチド657[マーカー657]、配列番号:30のヌクレオチド599[マーカー674]、配列番号:31のヌクレオチド267[マーカー632]、配列番号:32のヌクレオチド61[マーカー701]、配列番号:33のヌクレオチド451[マーカー710];配列番号:34のヌクレオチド326[マーカー217456]、配列番号:35のヌクレオチド61[マーカー656]、配列番号:36のヌクレオチド61、配列番号:37のヌクレオチド61[マーカー637]、配列番号:38のヌクレオチド93[マーカー278]、配列番号:39のヌクレオチド114[マーカー386]、配列番号:40のヌクレオチド558[マーカー217480]、配列番号:41のヌクレオチド221[マーカー951497]、配列番号:42のヌクレオチド660[マーカー217468]、配列番号:43のヌクレオチド163[マーカー217473]、配列番号:44のヌクレオチド364[マーカー217485]、配列番号:45のヌクレオチド473[マーカー217486]、配列番号:46のヌクレオチド314[マーカー869787]、配列番号:47のヌクレオチド224[マーカー869745]、配列番号:48のヌクレオチド169[マーカー886933]、配列番号:49のヌクレオチド214[マーカー886937]または配列番号:50のヌクレオチド903[マーカー886942]、配列番号:51のヌクレオチド207[マーカー217459]、配列番号:52のヌクレオチド428[マーカー217460]、配列番号:48のヌクレオチド422[マーカー217487]、配列番号:54のヌクレオチド459[マーカー217489]、配列番号:55のヌクレオチド1528[マーカー554353]、配列番号:56のヌクレオチド1093[マーカー554363]、配列番号:57のヌクレオチド1274[マーカー554368]、配列番号:58のヌクレオチド1024[マーカー554370]、配列番号:59のヌクレオチド1159[マーカー554371]、配列番号:60のヌクレオチド484[マーカー615921]、配列番号:61のヌクレオチド619[マーカー615925]、配列番号:62のヌクレオチド551[マーカー615926]、配列番号:63のヌクレオチド1177[マーカー664784]、配列番号:64のヌクレオチド1185[マーカー664785]、配列番号:65のヌクレオチド1421[664793]、配列番号:66のヌクレオチド1466[マーカー664802]、配列番号:67のヌクレオチド1311[マーカー664803]、配列番号:68のヌクレオチド808[マーカー712037]、配列番号:69のヌクレオチド1005[マーカー712047]、配列番号:70のヌクレオチド743[マーカー712051]、配列番号:71のヌクレオチド418[マーカー712055]、配列番号:72のヌクレオチド884[マーカー712059]、配列番号:73のヌクレオチド744[マーカー712043]、配列番号:74のヌクレオチド360[マーカー756239]、配列番号:75のヌクレオチド455[マーカー756251]、配列番号:76のヌクレオチド519[マーカー809125]、配列番号:77のヌクレオチド277[マーカー869769]、配列番号:78のヌクレオチド227[マーカー869772]、配列番号:79のヌクレオチド270[マーカー869777]、配列番号:80のヌクレオチド216[マーカー869784]、配列番号:81のヌクレオチド172[マーカー869785]、配列番号:82のヌクレオチド176[マーカー869794]、配列番号:83のヌクレオチド145[マーカー869797]、配列番号:84のヌクレオチド164[マーカー869798]、配列番号:85のヌクレオチド166[マーカー869802]、配列番号:86のヌクレオチド213[マーカー869809]、配列番号:87のヌクレオチド218[マーカー869810]、配列番号:88のヌクレオチド157[マーカー869813]、配列番号:89のヌクレオチド837[マーカー886934]、配列番号:90のヌクレオチド229[マーカー886993]、配列番号:91のヌクレオチド160[マーカー951526]、またはそれらの任意の組み合わせ。
【0023】
本発明はまた、ヒト対象の遺伝的体色形質をヒト対象の核酸試料から推測するための方法であって、体色遺伝子がメラノコルチン-1受容体(MC1R)遺伝子ではないという条件で、体色遺伝子からの体色関連SNPに関して、試料におけるヌクレオチド・オカレンスを同定することによる方法にも関する。例えば、本方法は、OCA2、ASIP、CYP2D6、TYRP1、CYP2C9、CYP3A4、TYR、MC1R、AP3B1、AP3D1、AP3D1、DCT、SILV、AIM-1タンパク質(LOC51151)、POMC、OA1、MITF、MYO5A、RAB27A、F2RL1、HMGCR、FDPS、AHR、またはCYP1A1などの体色遺伝子からの少なくとも1つの体色関連SNPに関して、ヒト対象の人種と関連づけられている、試料におけるヌクレオチド・オカレンスを同定することによって行いうる。さらに、本方法は、核酸試料において、OCA2、ASIP、TYRP1、TYR、AP3B1、AP3D1、AP3D1、DCT、SILV、LOC51151、POMC、OA1、MITF、MYO5A、RAB27A、F2RL1、またはMC1Rなどの少なくとも第2の体色遺伝子の少なくとも第2の体色関連SNPの少なくとも1つのヌクレオチド・オカレンスを同定することをさらに含みうる。
【0024】
本発明の方法に従って推測される遺伝的体色形質は毛の色、毛の濃淡、眼の色または眼の濃淡でもよく、さらに人種でもよい。体色形質が眼の濃淡または眼の色である場合には、体色遺伝子はOCA2遺伝子、DCT遺伝子、MC1R遺伝子、もしくはTYRP1遺伝子、またはそれらの任意の組み合わせでありうる。本発明の方法に従って同定されるSNPは、眼の色または眼の濃淡と関連のある浸透性ハプロタイプのSNP、例えば、以下のようなヌクレオチド・オカレンスでありうる:配列番号:1のヌクレオチド609[マーカー702]、配列番号:2のヌクレオチド501[マーカー650]、配列番号:3のヌクレオチド256[マーカー675]、配列番号:4のヌクレオチド442[マーカー217438]、配列番号:5のヌクレオチド619[マーカー217439]、配列番号:6のヌクレオチド646[マーカー217441];配列番号:7のヌクレオチド135[マーカー217458]、配列番号:8のヌクレオチド193[マーカー886894]、配列番号:9のヌクレオチド228[マーカー886895]、配列番号:10のヌクレオチド245[マーカー886896]、配列番号:11のヌクレオチド189[217452]、配列番号:12のヌクレオチド573[712052]、配列番号:13のヌクレオチド245[マーカー886994]、配列番号:14のヌクレオチド643[マーカー712057]、配列番号:15のヌクレオチド539[マーカー712058]、配列番号:16のヌクレオチド418[マーカー712060]、配列番号:17のヌクレオチド795[マーカー712064]、配列番号:18のヌクレオチド535[マーカー712054]、配列番号:19のヌクレオチド554[マーカー712056]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:21のヌクレオチド225[マーカー217455]、配列番号:22のヌクレオチド170[マーカー712061]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:23のヌクレオチド172[マーカー886938]、もしくは配列番号:24のヌクレオチド216[マーカー886943]、またはそれらの任意の組み合わせ。また、SNPは、眼の色または眼の濃淡と関連のある潜在性ハプロタイプのSNP、例えば、以下のようなヌクレオチド・オカレンスでもありうる:配列番号:25のヌクレオチド61[マーカー560]、配列番号:26のヌクレオチド201[マーカー552]、配列番号:27のヌクレオチド201[マーカー559]、配列番号:28のヌクレオチド201[マーカー468]、配列番号:29のヌクレオチド657[マーカー657]、配列番号:30のヌクレオチド599[マーカー674]、配列番号:31のヌクレオチド267[マーカー632]、配列番号:32のヌクレオチド61[マーカー701]、配列番号:33のヌクレオチド451[マーカー710];配列番号:34のヌクレオチド326[マーカー217456]、配列番号:35のヌクレオチド61[マーカー656]、配列番号:36のヌクレオチド61、配列番号:37のヌクレオチド61[マーカー637]、配列番号:38のヌクレオチド93[マーカー278]、配列番号:39のヌクレオチド114[マーカー386]、配列番号:40のヌクレオチド558[マーカー217480]、配列番号:41のヌクレオチド221[マーカー951497]、配列番号:42のヌクレオチド660[マーカー217468]、配列番号:43のヌクレオチド163[マーカー217473]、配列番号:44のヌクレオチド364[マーカー217485]、配列番号:45のヌクレオチド473[マーカー217486]、配列番号:46のヌクレオチド314[マーカー869787]、配列番号:47のヌクレオチド224[マーカー869745]、配列番号:48のヌクレオチド169[マーカー886933]、配列番号:49のヌクレオチド214[マーカー886937]、もしくは配列番号:50のヌクレオチド903[マーカー886942]、またはそれらの任意の組み合わせ。
【0025】
体色形質が毛の色または毛の濃淡である場合には、本発明の方法に従って同定されるSNPは、毛の色または毛の濃淡と関連のある浸透性ハプロタイプのSNP、例えば、以下のようなヌクレオチド・オカレンスでありうる:配列番号:27のヌクレオチド201[マーカー559]、配列番号:25のヌクレオチド61[マーカー560]、配列番号:4のヌクレオチド442[マーカー217438]、配列番号:5のヌクレオチド619[マーカー217439]、配列番号:6のヌクレオチド646[マーカー217441]、配列番号:16のヌクレオチド418[マーカー712060]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:10のヌクレオチド245[マーカー886896]、配列番号:21のヌクレオチド225[マーカー217455]、配列番号:14のヌクレオチド643[マーカー712057]、配列番号:8のヌクレオチド193[マーカー886894]、配列番号:7のヌクレオチド135[マーカー217458]、配列番号:19のヌクレオチド554[マーカー712056]、配列番号:18のヌクレオチド535[マーカー712054]、配列番号:9のヌクレオチド228[マーカー886895]、配列番号:45のヌクレオチド473[217486]、もしくは配列番号:49のヌクレオチド214[886937]、またはそれらの任意の組み合わせ。
【0026】
体色遺伝子からの体色関連SNPに関して試料におけるヌクレオチド・オカレンスを同定することにより、ヒト対象の遺伝的体色形質をヒト対象の核酸試料から推測するための方法は、遺伝子に関する体色関連SNPのヌクレオチド・オカレンスを1つまたは複数のハプロタイプアレルにグループ分けすることをさらに含みうる。続いて、同定されたハプロタイプアレルを既知のハプロタイプアレルと比較することができ、既知のハプロタイプアレルと遺伝的体色形質との関係が知られている場合には、核酸試料を提供した対象の遺伝的体色形質に関する推測を導くことができる。ヌクレオチド・オカレンスの同定は、特定の試料を検査するのに適した任意の方法を用いて行いうる。例えば、試料が核酸分子を含む場合には、同定は、試料中の(またはそれに由来する)ポリヌクレオチド試料と、体色関連SNPを含むポリヌクレオチドの領域に選択的にハイブリダイズする特異的結合対のメンバーとを、結合対のメンバーが体色関連SNPまたはその付近に特異的に結合する条件下で接触させることによって行うことができる。結合対のメンバーは、標的ポリヌクレオチドと特異的に結合または会合する任意の分子であってもよく、これには例えば、抗体またはオリゴヌクレオチドが含まれる。
【0027】
本発明はまた、個体を共通の特性を有する群のメンバーとして分類するための方法にも関する。このような方法は、例えば、以下のものに対応するSNPである、個体のポリヌクレオチドにおけるSNPのヌクレオチド・オカレンスを同定することによって行いうる:配列番号:45のヌクレオチド473[マーカー217486]、配列番号:47のヌクレオチド224[マーカー869745]、配列番号:46のヌクレオチド314[マーカー869787]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:9のヌクレオチド228[マーカー886895]、配列番号:10のヌクレオチド245[マーカー886896]、配列番号:48のヌクレオチド169[マーカー886933]、配列番号:49のヌクレオチド214[マーカー886937]、配列番号:13のヌクレオチド245[マーカー886994]、配列番号:8のヌクレオチド193[マーカー886894]、配列番号:23のヌクレオチド172[マーカー886938]、配列番号:24のヌクレオチド216[マーカー886943]、もしくは配列番号:50のヌクレオチド903[マーカー886942]、またはそれらの任意の組み合わせ。このような方法は、例えば、増幅反応またはプライマー伸長反応を用いて行うことができる。
【0028】
本発明はさらに、ヒト体色遺伝子のSNPに関するヌクレオチド・オカレンスを同定するための方法にも関する。このような方法は、例えば、ポリヌクレオチドを含む試料を、配列番号:45のヌクレオチド473[マーカー217486]、配列番号:47のヌクレオチド224[マーカー869745]、配列番号:46のヌクレオチド314[マーカー869787]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:9のヌクレオチド228[マーカー886895]、配列番号:10のヌクレオチド245[マーカー886896]、配列番号:48のヌクレオチド169[マーカー886933]、配列番号:49のヌクレオチド214[マーカー886937]、配列番号:13のヌクレオチド245[マーカー886994]、配列番号:8のヌクレオチド193[マーカー886894]、配列番号:23のヌクレオチド172[マーカー886938]、配列番号:24のヌクレオチド216[マーカー886943]、もしくは配列番号:50のヌクレオチド903[マーカー886942]またはそれらの任意の組み合わせに対応するヌクレオチド・オカレンスを含む、多型であると疑われるポリヌクレオチド配列またはその付近と特異的に結合しうる特異的結合対のメンバーと接触させること;および、特異的結合対のメンバーの選択的結合を検出すること(選択的結合によってヌクレオチド・オカレンスの存在が示される)によって行うことができる。
【0029】
本発明はまた、ポリヌクレオチド中のSNPのヌクレオチド・オカレンスを決定するために有用と考えられる単離されたプライマー対であって、順方向プライマーが一方の鎖のSNP位置の上流にあるポリヌクレオチドと選択的に結合し、逆方向プライマーが相補鎖のSNP位置の上流にあるポリヌクレオチドと選択的に結合し、SNP位置が以下のものに対応する、単離されたプライマー対にも関する:配列番号:45のヌクレオチド473[マーカー217486]、配列番号:47のヌクレオチド224[マーカー869745]、配列番号:46のヌクレオチド314[マーカー869787]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:9のヌクレオチド228[マーカー886895]、配列番号:10のヌクレオチド245[マーカー886896]、配列番号:48のヌクレオチド169[マーカー886933]、配列番号:49のヌクレオチド214[マーカー886937]、配列番号:13のヌクレオチド245[マーカー886994]、配列番号:8のヌクレオチド193[マーカー886894]、配列番号:23のヌクレオチド172[マーカー886938]、配列番号:24のヌクレオチド216[マーカー886943]、または配列番号:50のヌクレオチド903[マーカー886942]。
【0030】
さらに、本発明は、標的ポリヌクレオチドにおける、特に、本明細書中に開示するように、SNPを含む体色遺伝子または生体異物(xenobiotic)遺伝子の領域における、SNPのヌクレオチド・オカレンスを決定するために有用と考えられる単離された特異的結合対のメンバーにも関する。例えば、本発明の特異的結合対のメンバーは、適切な条件下で、標的ポリヌクレオチドと以下の箇所またはその付近で選択的に結合するオリゴヌクレオチドまたは抗体でありうる:配列番号:45のヌクレオチド473[マーカー217486]、配列番号:47のヌクレオチド224[マーカー869745]、配列番号:46のヌクレオチド314[マーカー869787]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:9のヌクレオチド228[マーカー886895]、配列番号:10のヌクレオチド245[マーカー886896]、配列番号:48のヌクレオチド169[マーカー886933]、配列番号:49のヌクレオチド214[マーカー886937]、配列番号:13のヌクレオチド245[マーカー886994]、配列番号:8のヌクレオチド193[マーカー886894]、配列番号:23のヌクレオチド172[マーカー886938]、配列番号:24のヌクレオチド216[マーカー886943]、または配列番号:50のヌクレオチド903[マーカー886942]。このため、本発明の特異的結合対のメンバーは、標的ポリヌクレオチドと選択的にハイブリダイズしうるオリゴヌクレオチドプローブでありうるが、必ずしもプライマー伸長反応の基質または抗核酸抗体である必要はない。特異的結合対のメンバーは、それが必要に応じて標的ポリヌクレオチドの任意の部分、例えば、SNPを末端ヌクレオチドとして含む標的ポリヌクレオチドの一部分と、選択的に結合するように選択することができる。
【0031】
本発明はまた、遺伝的体色形質と関連のあるSNPを含む遺伝子の一部分を含む単離されたポリヌクレオチドであって、少なくとも約30ヌクレオチド長(例えば、約40、50、100、200、250、または500ヌクレオチド長)である単離されたポリヌクレオチドにも関する。本発明のポリヌクレオチドの例には、以下のものがある:ヒトOCA2遺伝子の少なくとも約30ヌクレオチドを含むポリヌクレオチドであって、配列番号:8のヌクレオチド193に対応するヌクレオチドにあるチミジン残基[マーカー886894]、配列番号:9のヌクレオチド228に対応するヌクレオチドにあるグアニジン残基[マーカー886895]、配列番号:20のヌクレオチド210に対応するヌクレオチドにあるシチジン残基[マーカー886892]、配列番号:10のヌクレオチド245に対応するヌクレオチドにあるチミジン残基[マーカー886896]、配列番号:13のヌクレオチド245に対応するヌクレオチドにあるアデノシン残基[マーカー886994]の少なくとも1つ、またはこのような残基の組み合わせを含むポリヌクレオチド;および、ヒトTYRP遺伝子の少なくとも約30ヌクレオチドを含むポリヌクレオチドであって、配列番号:23のヌクレオチド172に対応するヌクレオチドにあるチミジン残基[マーカー886938]、配列番号:24のヌクレオチド216に対応するヌクレオチドにあるチミジン残基[マーカー886943]、配列番号:45のヌクレオチド473に対応するヌクレオチドにあるチミジン残基[マーカー217486]、配列番号:47のヌクレオチド224に対応するヌクレオチドにあるシチジン残基[マーカー869745]、配列番号:46のヌクレオチド314に対応するヌクレオチドにあるグアニジン残基[マーカー869787]、配列番号:48のヌクレオチド169に対応するヌクレオチドにあるシチジン残基[マーカー886933]、配列番号:49のヌクレオチド214に対応するヌクレオチドにあるチミジン残基[マーカー886937]、配列番号:50のヌクレオチド903に対応するヌクレオチドにあるアデノシン残基[マーカー886942]の少なくとも1つ、またはこのような残基の組み合わせを含むポリヌクレオチド。
【0032】
本発明の単離されたポリヌクレオチドは、一般に少なくとも約30ヌクレオチド長であり、これは例えば、以下のものでもありうる:ヌクレオチドCTGもしくはGTGが、配列番号:1のヌクレオチド609[702]、配列番号:2のヌクレオチド501[マーカー650]および配列番号:3のヌクレオチド256[675]のそれぞれに対応する位置に存在する、DCT遺伝子の単離されたセグメント;または、ヌクレオチドCCCが、配列番号:4のヌクレオチド442[217438]、配列番号:5のヌクレオチド619[217439]および配列番号:6のヌクレオチド646[217441]のそれぞれに対応する位置に存在する、MC1R遺伝子の単離されたセグメント;または、ヌクレオチドTTAA、CCAGもしくはTTAGが、配列番号:7のヌクレオチド135[217458]、配列番号:8のヌクレオチド193[886894]、配列番号:9のヌクレオチド228[886895]および配列番号:10のヌクレオチド245[886896]のそれぞれに対応する位置に存在する、OCA2遺伝子の単離されたセグメント;または、ヌクレオチドCAA、CGA、CACもしくはCGCが、配列番号:11の189位[217452]、配列番号:12の573位[712052]および配列番号:13の245位[886994]のそれぞれに対応する位置に存在する、OCA2遺伝子の単離されたセグメント;または、ヌクレオチドGGAA、TGAAおよびTAAAが、配列番号:14のヌクレオチド643[712057]、配列番号:15のヌクレオチド539[712058]、配列番号:16のヌクレオチド418[712060]および配列番号:17のヌクレオチド795[712064]のそれぞれに対応する位置に存在する、OCA2遺伝子の単離されたセグメント;または、ヌクレオチドAGGもしくはGGGが、配列番号:18のヌクレオチド535[712054]、配列番号:19のヌクレオチド554[712056]および配列番号:20のヌクレオチド210[886892]のそれぞれに対応する位置に存在する、OCA2遺伝子の単離されたセグメント;または、ヌクレオチドGCAが、配列番号:21のヌクレオチド225[217455]、配列番号:22のヌクレオチド170[712061]および配列番号:20のヌクレオチド210[886892]のそれぞれに対応する位置に存在する、OCA2遺伝子の単離されたセグメント;または、ヌクレオチドTCが、配列番号:23のヌクレオチド172[886938]および配列番号:24のヌクレオチド216[886943]のそれぞれに対応する位置に存在する、TYRP1遺伝子の単離されたセグメント。1つの態様において、本発明の単離されたポリヌクレオチドは、OCA2遺伝子に由来し、以下のものの任意の組み合わせを含む:配列番号:7のヌクレオチド135[217458]、配列番号:8のヌクレオチド193[886894]、配列番号:9のヌクレオチド228[886895]および配列番号:10のヌクレオチド245[886896]のそれぞれに対応する位置にあるヌクレオチドTTAA、CCAGまたはTTAG;配列番号:11のY位[217452]、配列番号:12の573位[712052]および配列番号:13の245位[886994]のそれぞれに対応する位置にあるヌクレオチドCAA、CGA、CACまたはCGC;配列番号:14のヌクレオチド643[712057]、配列番号:15のヌクレオチド539[712058]、配列番号:16のヌクレオチド418[712060]および配列番号:17のヌクレオチド795[712064]のそれぞれに対応する位置にあるヌクレオチドGGAA、TGAAおよびTAAA;配列番号:18のヌクレオチド535[712054]、配列番号:19のヌクレオチド554[712056]および配列番号:20のヌクレオチド210[886892]のそれぞれに対応する位置にあるヌクレオチドAGGまたはGGG;および、配列番号:21のヌクレオチド225[217455]、配列番号:22のヌクレオチド170[712061]および配列番号:20のヌクレオチド210[886892]のそれぞれに対応する位置にあるヌクレオチドGCA。
【0033】
また、本発明の単離されたポリヌクレオチドは、例えば、以下のものでもありうる:ヌクレオチドGTもしくはATが、配列番号:26のヌクレオチド201[552]および配列番号:28のヌクレオチド201[468]のそれぞれに対応する位置に存在する、ASIP遺伝子の単離されたセグメント;ヌクレオチドTAもしくはTGが、配列番号:33のヌクレオチド451[710]および配列番号:29のヌクレオチド356[657]のそれぞれに対応する位置に存在する、DCT遺伝子の単離されたセグメント;ヌクレオチドTC、TTもしくはCCが、配列番号:35のヌクレオチド61[656]および配列番号:36のヌクレオチド61[662]のそれぞれに対応する位置に存在する、SILV遺伝子の単離されたセグメント;ヌクレオチドGA、AAもしくはGGが、配列番号:38のヌクレオチド93[278]および配列番号:39のヌクレオチド114[386]のそれぞれに対応する位置に存在する、TYR遺伝子の単離されたセグメント;または、ヌクレオチドGTG、TTG、GTTが、配列番号:44のヌクレオチド442[217485]、配列番号:44のヌクレオチド442[886933]および配列番号:49のヌクレオチド442[886937]のそれぞれに対応する位置に存在する、TYRP1遺伝子の単離されたセグメント。
【0034】
さらに、本発明の単離されたポリヌクレオチドは、例えば、以下のものでもありうる:ヌクレオチドGAまたはAAが、配列番号:27のヌクレオチド201[559]および配列番号:25のヌクレオチド61[560]のそれぞれに対応する位置に存在する、ASIP遺伝子の単離されたセグメント;ヌクレオチドCCC、CTC、TCCもしくはCCTが、配列番号:4のヌクレオチド442[217438]、配列番号:5のヌクレオチド619[217439]および配列番号:6のヌクレオチド646[217441]のそれぞれに対応する位置に存在する、MC1R遺伝子の単離されたセグメント;ヌクレオチドAGGまたはAGAが、配列番号:16のヌクレオチド418[712060]、配列番号:20のヌクレオチド210[886892]および配列番号:10のヌクレオチド245[886896]のそれぞれに対応する位置に存在する、OCA2遺伝子の単離されたセグメント;ヌクレオチドAGTもしくはATTが、配列番号:21のヌクレオチド225[217455]、配列番号:14のヌクレオチド643[712057]および配列番号:8のヌクレオチド193[886894]のそれぞれに対応する位置に存在する、OCA2遺伝子の単離されたセグメント;ヌクレオチドTGが配列番号:7のヌクレオチド135[217458]および配列番号:19のヌクレオチド554[712056]のそれぞれに対応する位置に存在する、OCA2遺伝子の単離されたセグメント;ヌクレオチドAGGもしくはATTが、配列番号:18のヌクレオチド535[712054]および配列番号:9のヌクレオチド228[886895]のそれぞれに対応する位置に存在する、OCA2遺伝子の単離されたセグメント;または、ヌクレオチドAAもしくはTAが、配列番号:45のヌクレオチド442[217486]および配列番号:49のヌクレオチド442[886937]のそれぞれに対応する位置に存在する、TYRP1遺伝子の単離されたセグメント。
【0035】
1つの態様において、本発明の単離されたポリヌクレオチドは、OCA2遺伝子に由来し、以下のものの任意の組み合わせを含む:配列番号:16のヌクレオチド418[712060]、配列番号:20のヌクレオチド210[886892]および配列番号:10のヌクレオチド245[886896]のそれぞれに対応する位置にあるヌクレオチドAGGまたはAGA;ヌクレオチドAGTまたはATTが、配列番号:21のヌクレオチド225[217455]、配列番号:14のヌクレオチド643[712057]および配列番号:8のヌクレオチド193[886894]のそれぞれに対応する位置に存在する、OCA2遺伝子の単離されたセグメント;ヌクレオチドTGが配列番号:7のヌクレオチド135[217458]および配列番号:19のヌクレオチド554[712056]のそれぞれに対応する位置に存在する、OCA2遺伝子の単離されたセグメント;ヌクレオチドGAまたはAAが、配列番号:18のヌクレオチド535[712054]および配列番号:9のヌクレオチド228[886895]のそれぞれに対応する位置に存在する、OCA2遺伝子の単離されたセグメント。
【0036】
本発明はまた、例えば本発明の方法を行うために用いうる、キットにも関する。したがって、1つの態様において、本発明は、体色関連SNPのハプロタイプアレルを同定するためのキットを提供する。このようなキットは例えば、本発明のオリゴヌクレオチドプローブ、プライマーもしくはプライマー対(このようなオリゴヌクレオチドは、例えば、本明細書中に開示するようにSNPまたはハプロタイプアレルを同定するために有用である)を含みうる;または、遺伝的体色形質、人種もしくはそれらの組み合わせと関連のある1つもしくは複数のヌクレオチド・オカレンス(このようなポリヌクレオチドは、例えば、被験試料と並行して検討しうる標準(対照)として有用である)を含む、体色遺伝子、生体異物遺伝子もしくは他の関連遺伝子の一部分に対応する1つもしくは複数のポリヌクレオチドを含みうる。さらに、本発明のキットは、例えば、本発明の方法を行うための試薬も含むことができ、これには例えば、プローブもしくはプライマーを標識するために用いうる、またはプローブもしくはプライマーを用いて生成された産物(例えば、増幅産物)中に組み込まれうる1つもしくは複数の検出可能な標識;プライマー伸長手順もしくは増幅手順を含む方法のために有用でありうる1つもしくは複数のポリメラーゼ、またはオリゴヌクレオチド連結アッセイ法もしくはミスマッチ切断アッセイ法を行うために有用でありうる他の1つもしくは複数の酵素(例えば、リガーゼまたはエンドヌクレアーゼ);および/または、本発明の方法を行うために必要な、もしくはそれを行うことを容易にしうる1つもしくは複数の緩衝液もしくは他の試薬、が含まれる。
【0037】
1つの態様において、本発明のキットは、本発明の1つまたは複数のプライマー対を含み、このようなキットはポリメラーゼ連鎖反応(PCR)などの増幅反応を行うために有用である。また、このようなキットは、例えば、キットのプライマー対を用いてポリヌクレオチドを増幅するための1つまたは複数の試薬も含みうる。プライマー対は、例えば、それらを体色関連SNPのヌクレオチド・オカレンスの決定に用いうるように選択することができ、この際、プライマー対の順方向プライマーは一方の鎖のSNP位置の上流にある標的ポリヌクレオチドの配列と選択的にハイブリダイズし、プライマー対の逆方向プライマーは相補鎖のSNP位置の上流にある標的ポリヌクレオチドの配列と選択的にハイブリダイズする。
【0038】
もう1つの態様において、本発明のキットは、1つもしくは複数のオリゴヌクレオチドプローブまたは1つもしくは複数のプライマーを含む複数の本発明のオリゴヌクレオチドを提供し、これには、順方向および/もしくは逆方向プライマー、またはこのようなプローブおよびプライマーもしくはプライマー対の組み合わせが含まれる。このようなキットは、1つまたは複数のSNPまたはハプロタイプアレルを必要に応じて同定するために有用なプローブおよび/またはプライマーを選択するための好都合な源となる。また、このようなキットは、本発明の方法を多重形式で行うことを都合良く可能にするプローブおよび/またはプライマーも含みうる。
【0039】
本発明はまた、体色関連SNPを同定するための方法にも関する。このような方法は、例えば、体色遺伝子または生体異物代謝遺伝子の候補SNPを同定する段階;統一性のある遺伝パターンを示すアレルを含み、少なくとも1つの人種におけるマイナーアレル頻度が0.01を上回る遺伝子型クラスをその候補SNPが有することを決定し、それによってバリデートされた(validated)SNPを同定する段階;ならびに、バリデートされたSNPが、体色表現型または人種のクラスが異なる個体間で有意に異なる遺伝子型分布およびアレル頻度を示すことを決定し、それによって体色関連SNPを同定する段階によって行いうる。さらに、本発明は、人種関連SNPを同定するための方法にも関する。このような方法は、例えば、体色遺伝子または生体異物代謝遺伝子の候補SNPを同定する段階;そのSNPが遺伝子型クラス、統一性のあるパターンを有すること、および少なくとも1つの人種におけるマイナーアレル頻度が0.01を上回ることを決定し、それによってバリデートされたSNPを同定する段階;ならびに、バリデートされたSNPが人種クラス間で有意に異なる遺伝子型分布およびアレル頻度を示すことを決定し、それによって人種関連SNPを同定する段階によって行いうる。このような方法はいずれも、例えば、それぞれ、体色または人種が判明している他の個体へと盲目的に一般化される1つもしくは複数のバリデートされたSNPまたはバリデートされたSNPのセットを組み入れた抽出分類器を開発するために、線形、二次、コレスポンデンス分析または分類ツリー多変量モデル化を用いることをさらに含みうる。
【0040】
本発明の方法に従って導かれる推測の強さは、複合的な分類器機能を用いることによって高めることができる。したがって、本発明はまた、対象の体色形質または人種に関する推測を分類器機能を用いて導く方法にも関する。分類器機能は、1つのハプロタイプアレルまたは好ましくはハプロタイプアレルの組み合わせなどの1つのSNPまたはSNPのセットに関して同定されたヌクレオチド・オカレンス情報を、体色形質または対象の人種に関する推測を導くための一連の規則に対して適用する。いくつかの例では、分類器機能は、色素関連ハプロタイプアレルを、フィーチャーモデリング用アルゴリズムを用いて生成された行列に適用することを含む。ある種の例では、分類器機能は線形分類器もしくは二次分類器(quadratic classifier)であるか、またはコレスポンデンス分析を遂行する。
【0041】
1つの態様において、本発明は、対象の体色形質を推測するための分類器機能を同定するための方法を含む。本方法は、i)統一性のある遺伝パターンを示すアレルを含む遺伝子型クラスを有し、少なくとも1つの人種におけるマイナーアレル頻度が0.01を上回る、1つまたは複数の体色遺伝子の1つまたは複数の候補SNPを同定し、それによって1つまたは複数のバリデートされたSNPを同定する段階;ii)1つまたは複数のバリデートされたSNPが、体色表現型または人種のクラスが異なる個体間で有意に異なる遺伝子型分布およびアレル頻度を示すことを決定する段階、ならびに、iii)線形、二次、コレスポンデンス分析または分類ツリー多変量モデル化を用いて、既知の体色を有する他の個体へと盲目的に一般化される少なくとも1つのバリデートされたSNPまたはバリデートされたSNPの組み合わせを組み入れた抽出分類器機能を開発し、それによって体色に関連した分類戦略を決定する段階、を含む。
【0042】
もう1つの態様において、本発明は、対象の人種を推定するための分類器機能を同定するための方法を含む。本方法は、i)統一性のある遺伝パターンを示すアレルを含む遺伝子型クラスを有し、少なくとも1つの人種におけるマイナーアレル頻度が0.01を上回る、1つまたは複数の人種関連遺伝子の1つまたは複数の候補SNPを同定し、それによって1つまたは複数のバリデートされたSNPを同定する段階;ii)1つまたは複数のバリデートされたSNPが、体色表現型または人種のクラスが異なる個体間で有意に異なる遺伝子型分布およびアレル頻度を示すことを決定する段階、ならびに、iii)線形、二次、コレスポンデンス分析または分類ツリー多変量モデル化を用いて、既知の人種である他の個体へと盲目的に一般化される少なくとも1つのバリデートされたSNPまたはバリデートされたSNPの組み合わせを組み入れた抽出分類器機能を開発し、それによって対象の人種を推測するための分類器機能を同定する段階、を含む。
【0043】
もう1つの態様において、本発明は、試料を分類するための方法を提供する。本方法は、a)考えられるすべての形質クラスの対に関して遺伝分散/共分散行列を計算する段階;b)ベクトル成分が2進コード、コレスポンデンス分析の主座標、コレスポンデンス分析の因子スコアまたはコレスポンデンス分析の標準座標である、クラス平均値ベクトル(class mean vector)の組み合わせを作成する段階;c)n次元試料ベクトルとして試料を表現する段階;および、d)クラス平均値ベクトルの組み合わせから、試料からの距離が最も短いクラス平均値ベクトルを同定することにより、試料を分類する段階、を含む。
【0044】
発明の詳細な説明
本発明は、哺乳動物対象の遺伝的体色形質を対象の核酸試料またはポリペプチド試料から推測するための方法、および、このような方法を行うための組成物に関する。本発明の方法は、一部には、単独または組み合わせにより、毛の濃淡、毛の色、眼の濃淡または眼の色などの遺伝的体色形質に関する推測を導くことを可能とし、さらに人種に関する推測を導くことも可能とする、一塩基多型(SNP)の同定に基づく。このため、本発明の組成物および方法は、例えば、犯罪現場に存在する核酸試料から犯罪被害者または犯罪者の可能性がある者の身体的特徴に関する情報を入手するための法医学的手法として、および、所望の体色形質を含む飼い慣らされた動物、家畜などの育種を行うことを補助する手法として有用である。
【0045】
1つの局面において、本発明は、哺乳動物対象の遺伝的体色形質を対象の生物試料から推測するための方法であって、生物試料において少なくとも1つの体色遺伝子の少なくとも1つの体色関連ハプロタイプアレルを同定することによる方法を提供する。体色遺伝子は、眼皮膚型白皮症II(OCA2)、アグーチシグナル伝達タンパク質(ASIP)、チロシナーゼ関連タンパク質1(TYRP1)、チロシナーゼ(TYR)、アダプター関連タンパク質複合体3β1サブユニット(AP3B1)(アダプチンB1タンパク質(ADP1)としても知られる)、アダプチン3Dサブユニット1(AP3D1)、ドパクロムタウトメラーゼ(DCT)、シルバーホモログ(SILV)、AIM-1タンパク質(LOC51151)、プロオピオメラノコルチン(POMC)、眼型白皮症1(OA1)、小眼球症関連転写因子(MITF)、ミオシンVA(MYO5A)、RAB27A、または凝固第II因子(トロンビン)受容体様1(F2RL1)でありうる。浸透性体色関連ハプロタイプのハプロタイプアレルは体色形質と関連づけられており、それによって対象の遺伝的体色形質に関する推測を導くことが可能になる。
【0046】
本明細書中に開示するように、少なくとも1つの体色遺伝子の少なくとも1つの浸透性体色関連ハプロタイプアレルの同定により、ヒト対象の遺伝的体色形質に関する推測を導くことが可能になる。本発明の方法によって導かれる推測は、同じ体色遺伝子または1つもしくは複数の他の体色遺伝子にある、第2、第3、第4もしくはそれ以上の浸透性体色関連ハプロタイプアレル、および/または、1つもしくは複数の潜在性体色関連ハプロタイプアレルを同定することによって強化されうる。したがって、もう1つの態様において、本発明の方法は、核酸試料において、少なくとも第2の体色遺伝子の少なくとも1つの浸透性体色関連ハプロタイプアレルを同定することをさらに含みうる。第2の体色遺伝子は、OCA2、ASIP、TYRP1、TYR、AP3B1、AP3D1、DCT、SILV、LOC51151、POMC、OA1、MITF、MYO5A、RAB27A、F2RL1もしくはメラノコルチン-1受容体(MC1R)またはこれらの遺伝子の任意の組み合わせでありうる。
【0047】
一例として、本発明のこの局面に関する体色遺伝子は、OCA2、ASIP、TYRP1、TYR、SILV AP3B1、AP3D1またはDCTのうち少なくとも1つを含みうる。本明細書に含まれる実施例、例えば実施例17および18において開示されるように、これらの遺伝子に対して浸透性および/または潜在性ハプロタイプおよびハプロタイプアレルが提供される。ある種の態様において、体色関連ハプロタイプアレルは浸透性体色関連ハプロタイプアレルである。一例として、体色関連ハプロタイプアレルが浸透性体色関連ハプロタイプアレルである場合、体色形質は眼の濃淡、眼の色、毛の濃淡または毛の色でありうる。さらに、体色形質が眼の濃淡または眼の色である場合、体色関連ハプロタイプアレルは、OCA2、TYRP1またはDCTのうち少なくとも1つに存在しうる。これらの遺伝子から眼の色を推測するための浸透性ハプロタイプは本明細書において同定されている(実施例17参照)。
【0048】
本明細書において用いる場合、「少なくとも1つの」という用語は、遺伝子、SNP、ハプロタイプなどに言及して用いられる場合、例示した体色関連ハプロタイプアレル、体色遺伝子または体色関連SNPのうち1つ、2つ、3つ、4つ、5つ、6つ、7つ、8つ、9つ、10など、最大でそのすべてを含むことを意味する。「少なくとも第2の」遺伝子、SNPなど、例えば体色遺伝子に対する言及は、2つまたはそれ以上、すなわち、2つ、3つ、4つ、5つ、6つ、7つ、8つ、9つ、10などの体色遺伝子のことを意味する。
【0049】
本明細書で用いる「ハプロタイプ」という用語は、遺伝子に存在する2つまたはそれ以上のヌクレオチドSNPのグループ分けのことを指す。本明細書で用いる「ハプロタイプアレル」という用語は、ハプロタイプを構成するSNPのヌクレオチド・オカレンスの非ランダムな組み合わせのことを指す。ハプロタイプアレルは、SNPが染色体上で互いに隣接していない点を除き、連続した配列塩基の連なりに非常に似ている。例えば、SNP OCA2_5およびOCA2_8は同じハプロタイプの一部に含めうるが、それらには互いに約60,000塩基対の隔たりがある。
【0050】
「浸透性体色関連ハプロタイプアレル」とは、体色形質とのその関連性が、単純な遺伝学的アプローチを用いて検出可能な程度に十分に強いハプロタイプアレルのことである。浸透性体色関連ハプロタイプアレルの対応するハプロタイプは、本明細書において「浸透性体色関連ハプロタイプ」と呼ばれる。同様に、SNPの個々のヌクレオチド・オカレンスは、ヌクレオチド・オカレンスの体色形質との関連性が単純な遺伝学的アプローチを用いて単独で検出しうる程度に十分に高ければ、またはヌクレオチド・オカレンスのSNP座位が浸透性ハプロタイプの一部を構成するならば、本明細書において「浸透性体色関連SNPヌクレオチド・オカレンス」と呼ばれる。対応するSNP座位は本明細書において「浸透性体色関連SNP」と呼ばれる。浸透性ハプロタイプのハプロタイプアレルは、本明細書において「浸透性ハプロタイプアレル」または「浸透性遺伝的特徴」とも呼ばれる。浸透性ハプロタイプは本明細書において「浸透性遺伝的特徴SNPの組み合わせ」とも呼ばれる。
【0051】
潜在性体色関連ハプロタイプアレルとは、1つまたは複数の浸透性ハプロタイプの状況下で、遺伝的体色形質の推測を強化するハプロタイプアレルのことである。潜在性体色関連ハプロタイプアレルは一般に、体色形質とのその関連性が、単純な遺伝学的アプローチによって検出される程度には強くないアレルのことである。潜在性体色関連SNPとは、潜在性体色関連ハプロタイプを構成する個々のSNPのことである。実施例17に開示されるように、潜在性体色関連SNPには、白人とアフリカ人/アジア人の総合との間にマイナーアレル頻度に関して特異な差が示されている。このため、本明細書中に開示される開示内容に基づいて、さらなる潜在性体色関連SNPをルーチンの方法を用いて同定しうることは理解されると考えられる。
【0052】
表1は、目の色合いおよび/または毛の色合いと選好的に関連づけられる、本明細書中に開示されるSNPに関する情報を特定および提示している。本発明の方法および組成物のSNPはすべて、毛の濃淡または眼の濃淡に関して選好的に分離されるヌクレオチド・オカレンスを有する。表1は、マーカー番号、ゲノム中のSNPおよび周囲ヌクレオチド配列に関する配列番号、ならびにそのSNPおよび周囲配列の配列表項目内部での位置を示している。この情報から、SNP座位をヒトゲノム内部で特定することができる。
【0053】
(表1) 人種関連SNPおよび/または体色関連SNPの例
Figure 2004537292
Figure 2004537292
Figure 2004537292
【0054】
これらのSNPの多くにおける毛の色または眼の色についてのヌクレオチド・オカレンスに関するデータは、表9-1および18-1にそれぞれ眼の濃淡および毛の濃淡に関して記載されている。さらに、表9-1および18-1には、本明細書において体色および/または人種に関連すると同定されたSNPに関する名称およびマーカー番号、SNPと体色形質との関連を説明する根拠、ならびにSNPが生じた遺伝子の名称およびGenbankアクセッション番号も含まれる。
【0055】
多型とは集団内に存在する対立遺伝子バリアントのことである。多型は遺伝子座に存在する単一ヌクレオチドの違いのこともあり、1つまたは少数のヌクレオチドの挿入または欠失のこともある。このため、一塩基多型(SNP)は、ヒトゲノムなどのゲノム中の特定の遺伝子座で、1つまたは2つ、3つまたは4つのヌクレオチド(すなわち、アデノシン、シトシン、グアノシンまたはチミジン)が集団内に存在することによって特徴づけられる。したがって、本発明の方法は主としてSNPの検出によって例証されるが、開示される方法または当技術分野で知られた他のものを、例示されるまたは他の体色関連遺伝子および/または人種関連遺伝子における他の多型を同定するために同様に用いることもできることは理解されると考えられる。
【0056】
浸透性体色関連ハプロタイプアレルを発見するための単純な遺伝学的アプローチには、特定の体色形質表現型(例えば、青色の眼)を有する個体においてより高いまたはより低い頻度で存在するハプロタイプを発見するために、分析される体色形質に関して表現型の異なる集団内でのアレル頻度を分析することが含まれる。このような単純な遺伝学的方法では、眼の濃淡または毛の濃淡などの異なる体色形質のSNPヌクレオチド・オカレンスをスコア化し、表9-1および18-1に示されるもののように分布頻度が分析される。実施例の項には、浸透性ハプロタイプを発見するための単純な遺伝学的アプローチを例示するとともに、他の体色関連ハプロタイプおよびそれらのアレルを(したがって体色関連ハプロタイプを構成する体色関連SNPを)発見するために用いうる方法を開示している。
【0057】
ハプロタイプは、StephensおよびDonnellyのアルゴリズム(Am. J. Hum. Genet. 68: 978-989, 2001)を用いて、特定のSNPに対応する遺伝子型データから推測することができる。ハプロタイプの相(phase)(すなわち、個体における特有のハプロタイプアレル)を、StephensおよびDonnellyのアルゴリズム(Am. J. Hum. Genet. 68: 978-989, 2001)を用いて決定することもできる。このアルゴリズムを遂行するソフトウエアプログラムが入手可能である(例えば、PHASEプログラム、Department of Statistics, University of Oxford)。
【0058】
ハプロスコープ法(2002年4月11日に提出された「複合的な遺伝的分類器用の遺伝的特徴の同定のための方法(METHOD FOR THE IDENTIFICATION OF GENETIC FEATURES FOR COMPLEX GENETICS CLASSISFIERS)」と題する米国特許出願第10/120,804号を参照されたい)と呼ばれる一例では、遺伝形質と関連のある遺伝子に関して、候補SNPの1つの組み合わせを多数の候補SNPの組み合わせから選択する。この候補SNPの組み合わせと関連のあるハプロタイプデータを複数の個体に関して読み取り、個体に対する所定の形質基準を満たすか否かに基づいて、陽性反応群および陰性反応群にグループ分けする。グループ分けがなされたハプロタイプデータに対して統計分析(以下に考察する)を遂行し、候補SNPの組み合わせと関連づけられる統計学的計測値を得る。選択、読み取り、グループ分けおよび遂行の行為を、最適な統計学的計測値を有する候補SNPの組み合わせを同定するために必要に応じて繰り返す。1つのアプローチでは、SNPの考えられるすべての組み合わせを選択し、統計分析を行う。もう1つのアプローチでは、SNPの組み合わせに対する以前の統計分析の結果に基づく指示下での検索を、最適な統計学的計測値が得られるまで行う。さらに、選択および分析がなされるSNPの組み合わせの数を同時検査手順に基づいて減らしてもよい。
【0059】
本明細書において用いる場合、「推測する」または「推測すること」という用語は、遺伝的体色形質または人種に言及して用いられる場合、対象の核酸試料における1つまたは複数の体色関連SNPまたは人種関連SNPのヌクレオチド・オカレンスを個別的にまたは組み合わせて分析するプロセスを用いて、対象の体色形質または人種に関する結論を導くこと、および、SNPのヌクレオチド・オカレンスの個々または組み合わせを、体色関連SNPまたは人種関連SNPのヌクレオチド・オカレンスの既知の関係と比較することを意味する。本明細書中に開示するように、ヌクレオチド・オカレンスは、核酸分子を検討することによって直接的に同定することもでき、または、多型がコードされるポリペプチドにおけるアミノ酸変化と関連づけられている場合には、特定の遺伝子(例えば、OCA2遺伝子)によってコードされるポリペプチドを検討することによって間接的に同定することもできる。
【0060】
このような比較を行い、比較に基づいて結論に達する方法は本明細書中に例示されている(実施例17参照)。この推測は一般に、既知のアレルまたはヌクレオチド・オカレンスの既知の関係を分類器(classifier)として用いる複合モデルを用いることを含む。実施例17に例示されているように、比較は、対象の体色関連ハプロタイプアレルに関するデータを、分散-共分散行列を用いて盲目的な二次判別分類を行う複合モデルに適用することによって行いうる。種々の分類モデルを本明細書においてさらに詳細に考察し、実施例の項で例示する。
【0061】
ハプロタイプが体色形質の推測に有用であるか否かを判定するために、さまざまな統計分析を行うことができる。アレル頻度をハプロタイプに関して算出し、対でのハプロタイプ頻度をEMアルゴリズムを用いて評価することができる(ExcoffierおよびSlatkin、Mol Biol Evol. 1995 Sep; 12(5): 921-7)。続いて、連鎖不平衡係数を算出することができる。連鎖不平衡係数などの種々のパラメーターに加えて、アレルおよびハプロタイプの頻度(民族群、対照群およびケース群)、χ二乗統計量、ならびにPanmitic指数を含む他の集団遺伝学パラメーターを算出し、ケース群と対照群との間の民族、祖先または他の系統的な違いを調整することもできる。
【0062】
ケース・マトリックスを対照と識別するために有用なマーカー/ハプロタイプがあれば、それを、関連性について記載し、付随(被験およびエフェクト)統計量を伴う数学的形態として提示することができる。実施例17に例示するように、SNPマーカーまたはハプロタイプと体色形質との関連性が、少なくとも80%、85%、90%、95%もしくは99%、最も好ましくは95%の信頼性で、または有意でない確率が0.05未満で認められる統計分析の結果は、浸透性ハプロタイプを同定するために用いうる。これらの統計手法により、被験SNPアレルまたはハプロタイプアレルが群間で有意に異なるという帰無仮説に関する有意性を検定することもできる。この差の有意性が低ければ、アレルが体色形質と関連していないことが示唆される。実施例17に例示するように、ハプロタイプ分岐図(cladogram)ネステッド随伴分析を用いて、浸透性ハプロタイプアレルが発見されたことを検証し、体色に関する遺伝的特徴としてバリデートすることができる。
【0063】
多型を多座ハプロタイプによって表すことは有益であり、これは、本明細書中に提供する実施例において開示するように、世界の集団に存在するハプロタイプの頻度は、ランダムなアレルの組み合わせによる予想に基づいて予測されるよりもはるかに低いためである。例えば、実施例2に開示するように、OCA2遺伝子内部の開示される3つの多型座位、OCA2_5(G/A)、OCA2_8(T/C)およびOCA2_6(G/A)に関して、集団内に観察されるハプロタイプの考えられる組み合わせは2=8通り(すなわち、ATG、ACG、GCG、GTG、ACA、GCA、ATAおよびGTA)であると考えられる。各ハプロタイプアレルにおける最初の文字は第1のSNPであるOCA2_5に対応し、第2の文字はハプロタイプにおける第2のSNP(OCA2_5)のヌクレオチド・オカレンスに対応し、第3の文字はハプロタイプの第3のSNP(OCA2_8)のヌクレオチド・オカレンスに対応する。以上に例示した各種のハプロタイプアレルは、集団におけるOCA2遺伝子の考えられるまたは潜在的な「フレーバー(flavor)」と見なすことができる。しかし、以上に挙げたOCA2 SNPについては、4種のハプロタイプまたは「フレーバー」(すなわち、ATG、ACG、GCGおよびGCA)が世界の人々からの実際のデータで観察されている。考えられるハプロタイプの数よりもはるかに少ない数のハプロタイプが現実には観察されることはよくあり、これは技術の現状に精通した者には一般原則と認識されており、さらにハプロタイプが遺伝学的相関解析の統計学的検出力を強めることは一般に認識されている。この現象は、集団において数百万年にわたって作用し、現在の集団における遺伝学的「パターン」のかなりの部分を作り出している、集団ボトルネック(population bottleneck)、ランダムな遺伝的ドリフト、選択などの系統的な遺伝学的影響力によって生じる。その結果、ハプロタイプによる検討は、解体された遺伝子型による検討よりも、相関および他の遺伝学的現象を検出するためのより強い統計学的検出力を遺伝学者に与える。多型座位の数が多くなると、ハプロタイプの観測数と期待数との格差は、座位の数が少ない場合よりも大きくなる。以上に例示した各種のハプロタイプアレルは、集団におけるOCA2遺伝子の考えられるまたは潜在的なすべての「フレーバー」と見なすことができる。しかし、以上に挙げたOCA2 SNPの場合、世界の人々からの実際のデータではこれまでに4種のハプロタイプまたは「フレーバー」しか観察されていない。多型座位の数が多くなると、ハプロタイプの観測数と期待数との格差は大きくなる可能性がある。このような現象は一部には、集団において数百万年にわたって作用し、現在の集団における遺伝学的「パターン」のかなりの部分を作り出している、集団ボトルネック(population bottleneck)、ランダムな遺伝的ドリフト、選択などの系統的な遺伝学的影響力によって生じる。その結果、ハプロタイプによる検討は、解体された遺伝子型による検討よりも、相関および他の遺伝学的現象を検出するためのより強い統計学的検出力を遺伝学者に与える。
【0064】
ヒトなどの二倍体生物では、二倍体である体細胞が各ハプロタイプについて2つのアレルを含む。このため、場合によっては、ハプロタイプの2つのアレルは本明細書において遺伝子型と呼ばれ、体細胞(犯罪現場で得られた皮膚細胞など)の分析では一般にハプロタイプの各コピーに関してアレルが同定される。これらのアレルは同一でもよく(ホモ接合性)または異なってもよい(ヘテロ接合性)。対象のハプロタイプは、アレルをスラッシュの上および下に示すことによって記号化でき(例えば、ATG/CTAまたはGTT/AGA)、この際、スラッシュの上の配列は母系染色体にある多型アレルの組み合わせを表し、もう一方は父系を表す(またはその反対)。本発明の方法は二倍体細胞の分析を用いて例示されるが(実施例の項を参照)、精子細胞などの一倍体細胞に対しても分析を同様に適用しうる。一倍体配列を用いる場合には、二次判別用の因子スコアを導くために用いられる集団調査による分割表が、一倍体配列に対して体色クラスを配置した表となる。問題の次元が低くなり、そのために分類はより簡単に、迅速に行えるようになり、精度も幾分高くなる。このため、分散-共分散行列は幾分異なる形態をとるが、全体的には同じである。
【0065】
本明細書中に開示するように、体色形質の推測の強さは、浸透性および潜在性のハプロタイプを含む、ハプロタイプの特定の組み合わせを用いることによって向上させうる。例えば、実施例17に示されているように、このような組み合わせは、本発明の方法に従って導かれる推測の精度を向上させる。この結果は、例えば、遺伝子の特定の組み合わせが形質に特有の影響を及ぼすという遺伝的エピスタシスを考慮すれば非現実的というわけではない。
【0066】
本発明の方法および組成物は、眼、毛および皮膚の色合いに関する複雑なゲノム科学的ソリューションを可能にし、これによってさまざまな用途を提供する。例えば、本方法および組成物はヒト対象における法医学的手法として有用である。眼の色に関する体色上のソリューションは、例えば白内障(Cummingら、Am. J. Opthalmol. 130: 237-238, 2000)、晩発性盲目および黒色腫(Brogelliら、Br. J. Dermatol. 125: 349-52, 1991;Palmerら、Am. J. Hum. Genet. 66: 176-86, 2000)を対象とする、体色関連疾患の研究にも重要である。
【0067】
本発明の方法を実施するために有用な試料は、個々の方法に依存して、検討しようとする遺伝子配列を含む核酸分子、またはコードされる対応するポリペプチドを含む、対象の任意の生物試料でありうる。このため、試料は細胞、組織もしくは臓器試料であってもよく、または精液、唾液、血液などの生体液の試料であってもよい。本発明の方法を実施するために有用な核酸試料は、一部には、同定しようとするハプロタイプのSNPがコード領域にあるか、それとも非コード領域にあるかに依存すると考えられる。すなわち、同定しようとするSNPの少なくとも1つが非コード領域にある場合には、核酸試料は一般にデオキシリボ核酸(DNA)試料、特にゲノムDNAまたはその増幅産物である。しかし、異核リボ核酸(RNA)(スプライシングを受けていないmRNA前駆体RNA分子を含む)を利用しうる場合には、cDNAまたはその増幅産物を用いることができる。ハプロタイプのSNPのそれぞれが体色遺伝子のコード領域に存在する場合には、核酸試料はDNAもしくはRNA、またはそれらに由来する産物(例えば、増幅産物)のいずれでもよい。さらに、本発明の方法は一般に核酸試料に対して例証されるが、特定のハプロタイプアレルがある遺伝子のコード領域にあって、それが非縮重性コドン変化のために、SNPに対応する位置に異なるアミノ酸を含むポリペプチドを生じさせることは理解されると考えられる。このため、もう1つの局面において、本発明の方法を、対象のポリペプチドを含む試料を用いて実施することが可能である。
【0068】
本発明の方法はヒト対象に関して行うことができ、このため、法医学的分析に特に有用な可能性がある。本発明の法医学的な用途または方法では、十分に確立された試料採取方法を用いて、ヒト核酸試料を犯罪現場から入手することができる。すなわち、試料は液体試料でも塗沫試料でもよく、例えば、試料は犯罪現場から採取された塗沫試料、血痕、精液痕、毛包もしくは他の生物標本でもよく、犯罪被害者もしくは犯罪者の可能性がある者の生体材料を含むと疑われる土壌試料でもよく、または犯罪被害者の可能性がある者の手指爪から回収した材料でもよく、この際、試料中の核酸(またはポリペプチド)は、本発明の方法に従って体色形質に関する推測を導くための基盤として用いることができる。
【0069】
本発明の方法に従って検討しうる哺乳動物対象は任意の哺乳動物種でありうる。特に、本方法はヒト対象の体色形質に関する推測を導くことに適用しうる。ヒト対象は民族の混在した一般集団からの者でもよく、またはヒト対象が特定の民族的背景もしくは人種であってもよい。例えば、対象は白人であってもよい。
【0070】
一例として、本発明の方法は、ヒト対象からの生物試料を用いて行うことができ、推測される遺伝的体色形質は眼の色または眼の濃淡であってよく、浸透性体色関連ハプロタイプアレルは以下の体色関連ハプロタイプの少なくとも1つである:
a)DCT-Aハプロタイプに対応するDCT遺伝子のヌクレオチド、これには配列番号:1のヌクレオチド609[702]、配列番号:2のヌクレオチド501[650]および配列番号:3のヌクレオチド256[マーカー675]が含まれる;
b)メラノコルチン-1受容体(MC1R)-Aハプロタイプに対応するMC1R遺伝子のヌクレオチド、これには配列番号:4のヌクレオチド442[217438]、配列番号:5のヌクレオチド619[217439]および配列番号:6のヌクレオチド646[217441]が含まれる;
c)OCA2-Aハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:7のヌクレオチド135[217458]、配列番号:8のヌクレオチド193[886894]、配列番号:9のヌクレオチド228[マーカー886895]および配列番号:10のヌクレオチド245[マーカー886896]が含まれる;
d)OCA2-Bハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:11のヌクレオチド189[マーカー217452]、配列番号:12のヌクレオチド573[マーカー712052]および配列番号:13のヌクレオチド245[マーカー886994]が含まれる;
e)OCA2-Cハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:14のヌクレオチド643[712057]、配列番号:15のヌクレオチド539[712058]、配列番号:16のヌクレオチド418[712060]および配列番号:795のヌクレオチド17[712064]が含まれる;
f)OCA2-Dハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:18のヌクレオチド535[712054]、配列番号:19のヌクレオチド554[712056]および配列番号:20のヌクレオチド210[886892]が含まれる;
g)OCA2-Eハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:21のヌクレオチド225[217455]、配列番号:22のヌクレオチド170[712061]および配列番号:20のヌクレオチド210[886892]が含まれる;もしくは
h)TYRP1-Bハプロタイプに対応するTYRP1遺伝子のヌクレオチド、これには配列番号:23のヌクレオチド172[886938]および配列番号:24のヌクレオチド216[886943]が含まれる;またはa)からh)までの浸透性ハプロタイプの任意の組み合わせ。以上に列挙したハプロタイプは、眼の色合いに関する好ましい浸透性体色関連ハプロタイプを提供する(実施例17参照)。推測の強さを向上させるためには、体色関連ハプロタイプは以上に列挙した体色関連ハプロタイプのすべてでありうる。
【0071】
浸透性体色関連SNPのこの一覧は、実施例17に例示するように、眼の色に関する好ましい浸透性体色関連SNPである。
【0072】
本発明が、体色関連ハプロタイプの任意の1つを単独で含むこと、または例えば以上に列挙した8つの体色関連ハプロタイプのすべてを含む、2つ、3つ、4つもしくはそれ以上の任意の組み合わせを含むことは、当業者には理解される。
【0073】
本発明の方法(これには、体色関連ハプロタイプアレルが眼の色合いに関する好ましい浸透性体色関連ハプロタイプに関して決定され、対象がヒトであり、遺伝的体色形質が眼の色または眼の濃淡である方法が含まれうる)は、核酸試料において体色遺伝子の少なくとも1つの潜在性体色関連SNPのヌクレオチド・オカレンスを同定し、それによって眼の色または眼の濃淡の推測の強さを向上させることをさらに含みうる。潜在性体色関連SNPは、例えば、以下のうち1つまたは複数でありうる:配列番号:25のヌクレオチド61[マーカー560]、配列番号:26のヌクレオチド201[マーカー552]、配列番号:27のヌクレオチド201[マーカー559]、配列番号:28のヌクレオチド201[マーカー468]、配列番号:29のヌクレオチド657[マーカー657]、配列番号:30のヌクレオチド599[マーカー674]、配列番号:31のヌクレオチド267[マーカー632]、配列番号:32のヌクレオチド61[マーカー701]、配列番号:33のヌクレオチド451[マーカー710];配列番号:34のヌクレオチド326[マーカー217456]、配列番号:35のヌクレオチド61[マーカー656]、配列番号:36のヌクレオチド61、配列番号:37のヌクレオチド61[マーカー637]、配列番号:38のヌクレオチド93[マーカー278]、配列番号:39のヌクレオチド114[マーカー386]、配列番号:40のヌクレオチド558[マーカー217480]、配列番号:41のヌクレオチド221[マーカー951497]、配列番号:42のヌクレオチド660[マーカー217468]、配列番号:43のヌクレオチド163[マーカー217473]、配列番号:44のヌクレオチド364[マーカー217485]、配列番号:45のヌクレオチド473[マーカー217486]、配列番号:46のヌクレオチド314[マーカー869787]、配列番号:47のヌクレオチド224[マーカー869745]、配列番号:48のヌクレオチド169[マーカー886933]、配列番号:49のヌクレオチド214[マーカー886937]もしくは配列番号:50のヌクレオチド903;[886942]またはそれらの任意の組み合わせ。以上に列挙した潜在性体色関連SNPは、眼の色に関する好ましい潜在性体色関連SNPを提供する(実施例17参照)。本発明の方法のこの局面によれば、潜在性体色関連ハプロタイプアレルは以下のものでありうる:
i)ASIP-Aハプロタイプに対応するASIP遺伝子のヌクレオチド、これには配列番号:26のヌクレオチド201[マーカー552]および配列番号:28のヌクレオチド201[マーカー468]が含まれる;
j)DCT-Bハプロタイプに対応するDCT遺伝子のヌクレオチド、これには配列番号:33のヌクレオチド451[マーカー710]および配列番号:29のヌクレオチド657[マーカー657]が含まれる;
k)SILV-Aハプロタイプに対応するSILY遺伝子のヌクレオチド、これには配列番号:35のヌクレオチド61[マーカー656]および配列番号:36のヌクレオチド61が含まれる;
l)TYR-Aハプロタイプに対応するTYR遺伝子のヌクレオチド、これには配列番号:38のヌクレオチド93[マーカー278]および配列番号:39のヌクレオチド114[マーカー386]が含まれる;もしくは
m)TYRP1-Aハプロタイプに対応するTYRP1-A遺伝子のヌクレオチド、これには配列番号:44のヌクレオチド364[マーカー217485]、配列番号:48のヌクレオチド169[マーカー886933]および配列番号:49のヌクレオチド214[マーカー886937]が含まれる;またはi)からm)までの任意の組み合わせ。
【0074】
さらに、体色関連ハプロタイプアレルが眼の色合いに関する好ましい浸透性体色関連ハプロタイプに関して決定され、対象がヒトであり、遺伝的体色形質が眼の色または眼の濃淡である、本発明の方法のこの局面によれば、本方法は、核酸試料において、以上に列挙した潜在性ハプロタイプのすべてを同定することをさらに含みうる。
【0075】
1つの態様において、眼の色に関する浸透性体色形質関連ハプロタイプは以下の1つまたは複数でありうる:
a)MC1R-AハプロタイプアレルCCC;
b)OCA2-AハプロタイプアレルTTAA、CCAGまたはTTAG;
c)OCA2-BハプロタイプアレルCAA、CGA、CACまたはCGC;
d)OCA2-CハプロタイプアレルGGAA、TGAAまたはTAAA;
e)OCA2-DハプロタイプアレルAGGまたはGGG;
f)OCA2-EハプロタイプアレルGCA;
g)TYRP1-BハプロタイプアレルTC;および
h)DCT-BハプロタイプアレルCTGまたはGTG。
【0076】
実施例17に例示するように、これらのアレルは眼の色に関する好ましい浸透性体色関連ハプロタイプアレルである。
【0077】
推測の強さが高度である好ましい一例において、体色関連ハプロタイプアレルが眼の色または眼の濃淡に関する好ましい浸透性体色関連ハプロタイプに関して決定され、対象がヒトであり、遺伝的体色形質が眼の色または眼の濃淡である本発明の方法は、以下の浸透性体色形質関連ハプロタイプアレル:
a)MC1R-AハプロタイプアレルCCC;
b)OCA2-AハプロタイプアレルTTAA、CCAGまたはTTAG;
c)OCA2-BハプロタイプアレルCAA、CGA、CACまたはCGC;
d)OCA2-CハプロタイプアレルGGAA、TGAAまたはTAAA;
e)OCA2-DハプロタイプアレルAGGまたはGGG;
f)OCA2-EハプロタイプアレルGCA;
g)TYRP1-BハプロタイプアレルTC;および
h)DCT-BハプロタイプアレルCTGまたはGTG;
ならびに以下の潜在性体色関連ハプロタイプアレル:
i)ASIP-AハプロタイプアレルGTまたはAT;
j)DCT-BハプロタイプアレルTAまたはTG;
k)SILV-AハプロタイプアレルTC、TTまたはCC;
l)TYR-AハプロタイプアレルGA、AAまたはGG;および
m)TYRP1-AハプロタイプアレルGTG、TTGまたはGTT、をさらに含む。
【0078】
前の段落に列挙したアレルは、実施例17において同定される浸透性および潜在性体色関連ハプロタイプの群を表している。ハプロタイプのこの組み合わせを、実施例17に開示した分類モデルを用いて眼の色合いを推測するために用いたところ、眼の濃淡を、虹彩の色の濃淡については225人の白人の群を99%の精度で推測し、実際の眼の色の推測については97%の精度であった。
【0079】
もう1つの局面において、本発明は、ヒト対象の眼の濃淡または色を対象の生物試料から推測するための方法であって、ハプロタイプのネステッド随伴(contingency)分析を行うことによる方法を提供する。本方法は、表17-4に記載された段階を行うことを含む。
【0080】
もう1つの局面において、本発明は、哺乳動物対象の毛の色または毛の濃淡を対象の生物試料から推測するための方法であって、生物試料において少なくとも1つの体色遺伝子の少なくとも1つの体色関連ハプロタイプアレルを同定することによる方法を提供する。生物試料は核酸試料でありうる(またはそれを含みうる)。体色関連ハプロタイプは浸透性体色関連ハプロタイプを含むことが好ましい。例えば、体色関連ハプロタイプアレルが浸透性体色関連ハプロタイプアレルである場合には、浸透性体色関連ハプロタイプアレルは、OCA2、ASIP、TYRP1またはMC1R遺伝子のうち少なくとも1つを含む。推測の強さを向上させるために、OCA2、ASIP、TYRP1およびMC1R由来の浸透性体色関連ハプロタイプアレルの組み合わせを同定することができ、毛の色または毛の濃淡の推測に関する浸透性ハプロタイプの例は実施例18に示されている。
【0081】
毛の色または毛の濃淡を推測するための方法は、ヒト対象からの生物試料を用いて行うことができ、浸透性体色関連ハプロタイプアレルは以下の少なくとも1つの体色関連ハプロタイプに存在しうる:
a)以下のものに対応するASIP-Bハプロタイプのヌクレオチド:
配列番号:27のヌクレオチド202[559]、および
配列番号:25のヌクレオチド61[560]
b)以下のものに対応するMC1R-Aハプロタイプのヌクレオチド:
配列番号:4のヌクレオチド442[217438]、
配列番号:5のヌクレオチド619[217439]、および
配列番号:6のヌクレオチド646[217441];
c)以下のものに対応するOCA2-Gハプロタイプのヌクレオチド:
配列番号:16のヌクレオチド418[712060]、
配列番号:20のヌクレオチド210[886892]、および
配列番号:10のヌクレオチド245[マーカー886896];
d)以下のものに対応するOCA2-Hハプロタイプのヌクレオチド:
配列番号:21のヌクレオチド225[217455]、
配列番号:14のヌクレオチド643[712057]、および
配列番号:8のヌクレオチド193[886894];
e)以下のものに対応するOCA2-Iハプロタイプのヌクレオチド:
配列番号:7のヌクレオチド135[217458]、および
配列番号:19のヌクレオチド554[712056];
e)以下のものに対応するOCA2-Jハプロタイプのヌクレオチド:
配列番号:18のヌクレオチド535[712054]、および
配列番号:9のヌクレオチド228[マーカー886895];もしくは
g)以下のものに対応するTYRP1-Cハプロタイプのヌクレオチド:
配列番号:45のヌクレオチド473[217486]、および
配列番号:49のヌクレオチド214[886937];またはそれらの任意の組み合わせ。
【0082】
実施例18に例示するように、以上の要素a)〜g)に挙げたハプロタイプは、毛の色合いに関する好ましい浸透性体色関連ハプロタイプである。
【0083】
推測の強さを向上させるために、毛の色または毛の濃淡に対して導かれる推測を対象とする本発明のこの局面の方法を、以下の体色関連ハプロタイプのすべてにおける浸透性体色関連ハプロタイプアレルを同定することにより、ヒト対象からの生物試料を用いて行うことができる:
a)以下のものに対応するASIP-Bハプロタイプのヌクレオチド:
配列番号:27のヌクレオチド202[559]、および
配列番号:25のヌクレオチド61[560]
b)以下のものに対応するMC1R-Aハプロタイプのヌクレオチド:
配列番号:4のヌクレオチド442[217438]、
配列番号:5のヌクレオチド619[217439]、および
配列番号:6のヌクレオチド646[217441];
c)以下のものに対応するOCA2-Gハプロタイプのヌクレオチド:
配列番号:16のヌクレオチド418[712060]、
配列番号:20のヌクレオチド210[886892]、および
配列番号:10のヌクレオチド245[マーカー886896];
d)以下のものに対応するOCA2-Hハプロタイプのヌクレオチド:
配列番号:21のヌクレオチド225[217455]、
配列番号:14のヌクレオチド643[712057]、および
配列番号:8のヌクレオチド193[886894];
e)以下のものに対応するOCA2-Iハプロタイプのヌクレオチド:
配列番号:7のヌクレオチド135[217458]、および
配列番号:19のヌクレオチド554[712056];
e)以下のものに対応するOCA2-Jハプロタイプのヌクレオチド:
配列番号:18のヌクレオチド535[712054]、および
配列番号:9のヌクレオチド228[マーカー886895];
g)以下のものに対応するTYRP1-Cハプロタイプのヌクレオチド:
配列番号:45のヌクレオチド473[217486]、および
配列番号:49のヌクレオチド214[886937]。
【0084】
毛の色または濃淡を推測するための方法であって、体色関連ハプロタイプアレルが、以上の要素a)〜g)に挙げたハプロタイプに関する体色関連ハプロタイプの任意の1つの組み合わせに関して決定される方法は、以下のアレルのうち少なくとも1つを同定することをさらに含みうる:
a)ASIP-BハプロタイプアレルGAまたはAA;
b)MC1R-AハプロタイプアレルCCC;
c)OCA2-GハプロタイプアレルAGGまたはAGA;
d)OCA2-HハプロタイプアレルAGTまたはATT;
e)OCA2-IハプロタイプアレルTG;
f)OCA2-JハプロタイプアレルGAまたはAA;および
h)TYRP1-CハプロタイプアレルAAまたはTA。
【0085】
推測の強さが向上した一例として、毛の色または濃淡を推測するための本発明の方法では、体色関連ハプロタイプアレルが以上に挙げたアレルのすべてに関して決定される。
【0086】
本発明のこの局面に関する本発明の方法には、体色関連ハプロタイプアレルが以上の要素a)〜h)に列挙されたものである方法、および、毛の色または毛の濃淡に関する推測の強さを向上させるために、核酸試料において体色遺伝子の少なくとも1つの潜在性体色関連SNPを同定することをさらに含む方法が含まれる。
【0087】
哺乳動物対象が、ウシ、ヒツジ、ブタもしくはヤギなどの家畜種、またはネコ、ウマもしくはイヌなどの家飼い動物、またはマウス、ラットもしくはウサギなどの実験動物種であってもよい。本発明の方法は、非ヒト対象に対して行われる場合、その非ヒト対象の種の体色遺伝子を利用する。これらの体色遺伝子には、本明細書中に開示されるヒト体色遺伝子の相同体が含まれる。例えば、マウスではこの種の相同体が存在することが知られており、体色遺伝子の変異を対象とした研究もいくつか行われている。非ヒト種の体色遺伝子のSNPに関してはほとんど明らかになっていないが、MC1R SNPはウマの栗色の毛に関連すると記載されている(Riederら、Mamm. Genome 12 (6) : 450-5 (2001)。
【0088】
哺乳動物種において、特に非ヒト対象において、本発明の方法は、商業的に価値のある体色表現型の予測において、例えば育種において有意義である。例えば、本発明の方法を用いることにより、本発明の方法は、子孫が所望の体色形質を有する可能性が高くなるように哺乳動物対象の育種を行うために用いうる、他の種における類似の方法を導くために用いることができる。さらに、初期胚を単離して、移植の前に所望の体色形質(それは体毛の色、眼の色または体色と関係する任意の他の形質でよい)を有する成体へと成長すると考えられるものを選択するために、本発明の方法を用いて分析することもできる。
【0089】
「遺伝的体色形質(genetic pigmentation trait)」という用語は、本明細書において、メラニンが特定の組織中に沈着する度合いの違いを伴う形質を意味して用いられる。このような沈着は一般に哺乳動物体の発生時に起こり、これはメラニンが合成および分解される度合いの関数である。本明細書において例示するように、体色形質は毛の色合いの程度でもよく、これは毛の色もしくは毛の濃淡に関して分析しうる;または眼の色合いの程度でもよく、これは眼の色もしくは眼の濃淡に関して分析しうる;または皮膚の色合いの程度でもよい。メラニンの合成、分解、沈着および輸送は遺伝子の一群によって行われ、これを本明細書では体色遺伝子(pigmentation gene)と呼ぶ。体色遺伝子は通常、ヒト、ならびにマウスまたはショウジョウバエなどのモデル生物において観察される機能喪失型変異に基づいて定義される。
【0090】
毛の濃淡に関して、個体は一般に、天然の毛の色が濃い人(黒または褐色)および天然の毛の色が薄い人(赤毛、ブロンド)という2つの群に区分される。「眼の色」という用語は、虹彩の色素沈着の程度と同義である;「毛の色」という用語は、毛の色素沈着の程度と同義である。眼の濃淡に関して、個体は通常、2つの群に区分される;天然の眼の色が濃い人(すなわち、虹彩が褐色または黒の個体)および虹彩の色が薄い群の個体(すなわち、虹彩が青色、緑色または薄茶色の個体)。したがって、一例として、本発明の方法は、対象の眼の色が青色、緑色、薄茶色、黒または褐色のいずれであるかを決定しうる。
【0091】
本発明の方法に従った検討のために有用な第1の体色遺伝子、および必要に応じて第2または他の体色遺伝子は、メラニンの産生、分解または輸送に関与する任意の遺伝子でありうる。ある種の好ましい態様において、本発明の方法に従って検討される第1の体色遺伝子はMC1Rではなく、またはMC1RでもASIPでもないが、これらの態様においてMC1RまたはASIP遺伝子は検討される第2、第3、第4または他の体色遺伝子であってもよく、これにより、導かれうる推測が強化される。体色遺伝子は研究室で実験を行うことによって同定することもでき、または実施例の項に例示するように、その変異により体色の検出可能な変化が引き起こされることが公知の遺伝子を記載した研究の刊行報告を同定することによって同定することもできる。ヒトの場合、その変異が高度な低色素症を引き起こす遺伝子は、開示される方法に用いるための体色遺伝子として特に関心がもたれる候補となる。
【0092】
体色遺伝子は、それらをヒトの色素体であるメラニンの合成、分解および/または沈着のいずれかに関係づけている文献および他の情報源からの証拠に基づいて同定することができる。医師用医薬品便覧(The Physicians Desk Reference)、オンラインメンデル遺伝データベース(米国国立バイオテクノロジー情報センター(National Center for Biotechnology Information)のウェブサイトを参照)およびPubMed/Medlineは、このような情報を提供している源の2つの例である。
【0093】
体色遺伝子の例には、OCA2、ASIP、OCA2、SILV、TYRP1、DCT、TYR、MC1RおよびAP3B1が含まれる。本明細書中に開示するように、これらの体色遺伝子は、毛の色合い(すなわち、色および濃淡)および/または眼の色合い(すなわち、色および濃淡)に関する浸透性および/または潜在性SNPハプロタイプの座位を含む。本発明の方法は、1つの体色遺伝子に関する、ならびに、導かれる推測の強さを向上させうる2つまたはそれ以上の体色遺伝子の任意の組み合わせに関する、体色関連ハプロタイプアレルの同定を含む。本発明のいくつかの局面において、推測される体色形質は眼の濃淡であり、体色関連ハプロタイプアレルはOCA2、TYRP1またはDCTの少なくとも1つに存在する。これらの遺伝子は、本明細書において、眼の色および/または濃淡と関連のある浸透性ハプロタイプの座位を含むものとして開示される(実施例17参照)。
【0094】
TYR、MC1R、TYRP1およびOCA遺伝子における変異は、遺伝性眼皮膚型白皮症を決定づけることが示されている(OettingおよびKing、Hum. Mutat. 13: 99-115, 1999に総説がある)。これらの遺伝子のいずれかにおける破局的な変異は、ヒト表皮におけるメラニンの合成および沈着を障害させる。しかし、本研究の前には、白皮症でない集団におけるこれらの遺伝子の差異の程度については比較的わずかしか知られていなかった。例えば、ヒトゲノムプロジェクトは、多くのヒト遺伝子に関するバリアント(SNP)の候補の位置および実体を含む、公開ヒト多型データベースの作成をもたらした。しかし、これらのバリアントの候補が実際にSNPであるか否か、およびそれらが体色形質などの形質と関連しているか否かは報告されていない。
【0095】
オイメラニン(褐色色素)およびフェオメラニン(褐色色素)を含む、メラニンの合成、分解および輸送における体色遺伝子の機能に関する生化学情報を得ることができる。オイメラニンは、メラノサイトと呼ばれる特殊な種類の細胞で、メラノソームと呼ばれる特殊なリソゾームにおいて合成される吸光性重合体である。メラノソームの内部で、チロシナーゼ(TYR)遺伝子産物は、チロシンの(3,4-ジヒドロキシフェニルアラニンまたはDOPAへの)律速的な水酸化、およびその生成産物の(DOPA-キノン)への酸化を触媒し、オイメラニン合成のための前駆物質を生成する。非常に重要ではあるものの、動物における体色は、TYR(または任意の他の)遺伝子配列の単なるメンデル関数ではない。実際、ヒトおよび種々のモデル系における体色形質に関する形質遺伝学の研究からは、さまざまな体色が多数の遺伝因子の関数であり、その相互作用は極めて複雑であることが示唆されている(Akeyら、Hum. Genet. 108: 516-520, 2001;BrauerおよびChopra、Anthropol. Anz. 36 (2) : 109-120、1978;Bitoら、Arch Ophthalmol. 115 (5) : 659-663, 1997;Sturmら、Gene 277:49-62、2001;Boxら、Hum. Mole. Genet. 6: 1891-1897, 1997;Boxら、Am. J. Hum. Genet. 69: 765-773, 2001)。例えば、ヒトの毛の色(Sturmら、Gene 277: 49-62, 2001)とは異なり、哺乳動物の虹彩の色の決定に関して優性因子は存在しないように思われ(BrauerおよびChopra、Anthropol. Anz. 36 (2) : 109-120、1978)、所定の集団の個体内および個体間で皮膚、毛および虹彩の色の間に相関はないように思われる。これとは対照的に、集団間の比較では高度の一致が示されており、虹彩の色の平均が濃い集団は皮膚の色合いおよび毛の色の平均も濃い傾向がある。これらの観察所見は、種々の組織における体色の遺伝的決定因子は異なること、および、これらの決定因子が、世界のさまざまな集団における分布を形作った共通の系統的な影響力のセットにさらされたことを示唆する。
【0096】
細胞レベルでは、健康なヒトにおける虹彩の色のばらつきは、虹彩における一定数の角膜実質メラノサイト内部でのメラニン色素顆粒の沈着の差異の結果である(Imeschら、Surv. Ophthalmol. 41 Suppl 2:S117-S123, 1997)。顆粒の密度は幼児期までには遺伝的に決定されたレベルに達し、通常、それ以降は生涯を通じて一定に保たれるように思われる(しかし、Bitoら、Arch Ophthalmol. 115 (5) : 659-663, 1997を参照)。70年代中頃に行われた家系研究により、虹彩の色のばらつきは2つの座位の関数であることが示唆されている;この際、一方の座位は虹彩の色素脱失の原因となるが皮膚および毛には影響を及ぼさず、もう一方の多面性遺伝子はすべての組織における色素の除去の原因となる(Brues, Am. J. Phys. Anthropol. 43 (3) : 387-391, 1975)。我々が色素沈着に関して学んできたことの大半は、ヒトならびにマウスおよびショウジョウバエなどのモデル系における稀な色素沈着欠損症に関する分子遺伝学的研究によるものである。例えば、ヒトにおける眼皮膚型白皮症(OCA)形質の詳細な分析により、ほとんどの色素沈着欠損症は1つの遺伝子(TYR)の欠陥に起因することが示されており、その結果、これはチロシナーゼ(TYR)陰性OCAと命名されている(OettingおよびKing、Hum. Mutat. 13: 99-115, 1999;OettingおよびKing、Hum. Mutat. 2: 1-6, 1993;OettingおよびKing、Hum. Genet. 90:258-262, 1992;OettingおよびKing、Clin. Res. 39:267A, 1991。TYRはメラニン生合成の律速段階を触媒し、ヒト虹彩の色素沈着の度合いはTYRのmRNAのレベルの強さとよく相関する(Lindseyら、Arch. Opthalmol. 119 (6) : 853-860、2001)。しかし、TYRが虹彩の色合いにかかわる唯一の遺伝子ではないというOCA表現型の複雑さが示されている(Leeら、Hum. Molec. Genet. 3: 2047-2051, 1994)。ほとんどのTYR陰性OCA患者は完全な色素脱失であるが、虹彩の色が濃いアルビノマウス(C44H)およびそれらのヒトIB型眼皮膚型対応物ではすべての組織において色素が欠失しているものの、虹彩は例外である(SchmidtおよびBeermann、Proc. Natl. Acad. Sci.、U.S.A. 91 (11) : 4756-4760, 1994)。
【0097】
他のさまざまなTYR陽性OCA表現型の研究により、TYRのほかに、眼皮膚型2(oculocutaneous 2)(OCA2;Durham-Pierreら、Nature Genet. 7: 176-179, 1994;Durham-Pierreら、Hum. Mutat. 7: 370-373, 1996;Gardnerら、Science 257:1121-1124,1992;Hamabeら、Am. J. Med. Genet. 41: 54-63, 1991)、チロシナーゼ様タンパク質(TYRP1;Chintamaneniら、Biochem. Biophys. Res. Commun. 178: 227-235, 1991;Abbottら、Genomics 11: 471-473, 1991;Boissyら、Am. J. Hum. Genet. 58: 1145-1156, 1996)、メラノコルチン受容体(MC1R;Robbinsら、Cell 72: 827-834, 1993;Smithら、J. Invest. Derm. 111: 119-122, 1998;Flanaganら、Hum. Molec. Genet. 9: 2531-2537, 2000)およびアダプチン3B(AP3B;Ooiら、EMBO J 16 (15) : 4508-4518, 1997)の遺伝子座、ならびに他の遺伝子(Sturmら、Gene 277: 49-62, 2001に総説がある)が、ヒト虹彩の正常な色素沈着には必要であることが示されている。ショウジョウバエでは、虹彩の色素沈着の欠陥は、メラノサイトにおける種々の細胞プロセスにかかわる85種を上回る遺伝子座における変異に起因するとされているが(Ooiら、EMBO J. 16 (15) : 4508-4518, 1997;Lloydら、Trends Cell Biol. 8 (7) : 257-259, 1998)、マウスでの研究からは、脊椎動物の体色には約14種の遺伝子が選好的に影響を及ぼすこと(Sturmら、Gene 277: 49-62, 2001に総説がある)、ならびにTYRおよび他のOCA遺伝子の異なる領域は種々の組織における色素沈着の決定に関して機能的に等価ではないことが示唆されている。
【0098】
色素変異体に関する研究により、遺伝子の小規模なサブセットがマウスおよびヒトにおける破局的な体色欠陥の主な原因であることは明らかにされているが、本開示の前には、これらの遺伝子における頻度の高い一塩基多型(SNP)がヒトの虹彩の色の天然の差異に寄与するか(または連鎖があるか)否かおよびその様式については不明なままであった。褐色虹彩の座位はMC1R遺伝子を含む区間に位置づけられており(EibergおよびMohr、Eur. J. Hum. Genet 4 (4) : 237-241, 1996)、MC1R遺伝子における特定の多型は、比較的孤立的なアイルランド人集団における赤毛および青色虹彩と関連づけられている(Robbinsら、Cell 72: 827-834, 1993;Smithら, J. Invest. Derm. 111: 119-122, 1998;Flanaganら、Hum. Molec. Genet. 9: 2531-2537, 2000;Valverdeら、Nature Genet. 11: 328-330, 1995;Koppulaら、Hum. Mutat. 9:30-36, 1997)。最近、ASIP多型の1つも褐色の虹彩および毛の色と関連づけられている(Kanetskyら, Am J. Hum. Gen. 70: 770-775, 2002)。しかし、MC1RアレルおよびASIPアレルのそれぞれの浸透性は低く、それらは全体的には、ヒト集団における虹彩の色の全体的なばらつきのごく一部しか説明しないように思われる(Spritz, Nature Genet. 11: 225-226, 1995)。遺伝子と形質を関連づけるこの種の研究は、バリアント遺伝子座を記述するアレルを決定的かつ限局的な対象とみなす点で遺伝子を中心においている。しかし、ほとんどのヒト形質は複雑であり、遺伝の総体はその部分の合計よりもしばしば何倍も大規模であることから、これらの方法はこれまで十分な成果を上げていない。このため、遺伝の複雑性(例えば、優性およびエピスタシス遺伝分散の成分)を尊重した、本明細書中に開示する方法のような、遺伝子データをインシリコでスクリーニングするためのゲノム科学に基づく革新的な研究デザインおよび分析方法が必要である。
【0099】
本明細書および当技術分野で知られた他のものには、核酸試料におけるハプロタイプアレルを同定する(ゲノムをサーベイするとも称する)ためのさまざまな方法が開示されている。本明細書中に開示するように、ハプロタイプアレルを構成する個々のSNPに関する核酸オカレンスが決定され、続いて、個々のSNPに関する核酸オカレンスのデータを組み合わせてハプロタイプアレルが同定される。例えば、OCA2-Aハプロタイプの場合には、マーカー217458、886894および886895に対応する各SNP座位での両方のヌクレオチド・オカレンスを組み合わせて、対象の2つのOCA2-Aハプロタイプアレルを決定することができる(すなわち、OCA2-A遺伝子型;実施例17参照)。対象の遺伝子型における各ハプロタイプに関するデータを決定するために、StephensおよびDonnellyのアルゴリズム(Am. J Hum. Genet. 68:978-989, 2001、これは参照として本明細書に組み入れられる)を、対象のSNPマーカーにおける個々のヌクレオチド・オカレンスに関して生成されたデータに適用することができる。対象の遺伝子型における各ハプロタイプに関してアレルを決定するために用いうる他の方法は、例えば、Clarksのアルゴリズム、ならびにRaymondおよびRoussetによって記載されたEMアルゴリズム(Raymondら、1994. GenePop. Ver 3.0. Institut des Siences de l'Evolution. Universite de Montpellier, France. 1994)である。
【0100】
添付の配列表は、本明細書中に開示されるSNPに関する隣接ヌクレオチド配列を提示している。これらの隣接配列はヒトゲノムにおけるSNPの正確な位置の同定に役立つほか、本発明の方法を行うために有用な標的遺伝子セグメントとしても役立つ。標的ポリヌクレオチドは一般に、SNP座位およびそのSNPに隣接する対応する遺伝子のセグメントを含む。標的ポリヌクレオチド配列またはその付近と選択的にハイブリダイズするプライマーおよびプローブ、ならびに標的ポリヌクレオチド配列またはその付近と選択的に結合しうる特異的結合対のメンバーを、本明細書中に開示される遺伝子配列および提供される情報に基づいて決定することができる。
【0101】
本明細書において用いる場合、「選択的ハイブリダイゼーション」または「選択的にハイブリダイズする」という用語は、ヌクレオチド配列が、SNPのヌクレオチド・オカレンスの同定に有用な度合いを十分に上回る程度に、関連性のないヌクレオチド配列よりも選択されたヌクレオチド配列と選好的に会合するような、中程度にストリンジェントな、または高度にストリンジェントな条件下でのハイブリダイゼーションのことを指す。ある程度の量の非特異的ハイブリダイゼーションは避けられないが、標的ヌクレオチド配列に対するハイブリダイゼーションが非特異的な交差ハイブリダイゼーションとは識別しうるように十分に選択的であるならば(例えば、標的核酸分子と結合する標識オリゴヌクレオチドの量を、標的分子以外の核酸分子、特に標的核酸分子以外のかなり類似した(すなわち、相同な)核酸分子と比較して評価した場合に、少なくとも約2倍選択的、一般には少なくとも約3倍選択的、通常は少なくとも約5倍選択的、特に少なくとも約10倍選択的であれば)、それを許容しうることは理解される。選択的ハイブリダイゼーションを可能にする条件は、経験的に決定することもでき、または例えば、ハイブリダイズするオリゴヌクレオチドおよびそれとハイブリダイズする配列の相対的GC:AT含量、ハイブリダイズするオリゴヌクレオチドの長さ、ならびにオリゴヌクレオチドおよびそれとハイブリダイズする配列との間のミスマッチの数(あれば)に基づいて見積もることもできる(例えば、Sambrookら、「分子クローニング:実験マニュアル(Molecular Cloning:A laboratory manual)」(Cold Spring Harbor Laboratory Press 1989)を参照されたい)。
【0102】
ストリンジェンシー条件の一例(徐々に高度になる)は以下の通りである:2×SSC/0.1%SDS、ほぼ室温(ハイブリダイゼーション条件);0.2×SSC/0.1%SDS、ほぼ室温(低ストリンジェンシー条件);0.2×SSC/0.1%SDS、約42EC(中程度のストリンジェンシー条件);および0.1×SSC、約68EC(高ストリンジェンシー条件)。洗浄はこれらの条件、例えば高ストリンジェンシー条件を1回のみ用いて行うこともでき、条件のそれぞれを用いて、例えば、以上に列挙した順に、列挙した段階のいずれかまたはすべてを各10〜15分ずつ繰り返すこともできる。しかし、上記の通り、最適な条件は用いる個々のハイブリダイゼーション反応に依存すると考えられ、それは経験的に決定しうる。
【0103】
「ポリヌクレオチド」という用語は、本明細書において、ホスホジエステル結合によって互いに連結したデオキシリボヌクレオチドまたはリボヌクレオチドの配列を意味して広義に用いられる。便宜上、「オリゴヌクレオチド」という用語は、本明細書において、プライマーまたはプローブとして用いられるポリヌクレオチドを指して用いられる。一般に、選択されたヌクレオチド配列と選択的にハイブリダイズするプローブまたはプライマーとして有用なオリゴヌクレオチドは、少なくとも約15ヌクレオチド長、通常は少なくとも約18ヌクレオチド長、特に約21ヌクレオチド長またはそれ以上の長さである。
【0104】
ポリヌクレオチドはRNAでもDNAでもよく、遺伝子またはその部分、cDNA、合成ポリデオキシリボ核酸配列などでもよく、一本鎖でも二本鎖でもよく、さらにDNA/RNAハイブリッドでもよい。さまざまな態様において、オリゴヌクレオチド(例えば、プローブまたはプライマー)を含め、ポリヌクレオチドには、ヌクレオシドもしくはヌクレオチド類似体、またはホスホジエステル結合以外の主鎖結合が含まれうる。一般に、ポリヌクレオチドを含むヌクレオチドは、アデニン、シトシン、グアニンまたはチミンなどの天然のデオキシリボヌクレオチドが、アデニン、シトシン、グアニンまたはウラシルなどの2'-デオキシリボースまたはリボヌクレオチドと結合し、それがリボースと結合したものである。しかし、ポリヌクレオチドまたはオリゴヌクレオチドには、天然にない合成ヌクレオチドまたは天然のヌクレオチドの改変物を含むヌクレオチド類似体も含まれうる。このようなヌクレオチド類似体は当技術分野で周知であって市販されており、このようなヌクレオチド類似体を含むポリヌクレオチドについても同様である(Linら、Nucl. Acids Res. 22: 5220-5234 (1994);Jellinekら、Biochemistry 34: 11363-11372 (1995);Pagratisら、Nature Biotechnol. 15:68-73 (1997)、これらはそれぞれ参照として本明細書に組み入れられる)。
【0105】
ポリヌクレオチドのヌクレオチドを結合する共有結合は一般にホスホジエステル結合である。しかし、共有結合は、チオジエステル結合、ホスホロチオネート結合、ペプチド様結合、またはヌクレオチドを連結して合成ポリヌクレオチドを作製するために有用であることが当業者に知られた任意の他の結合を含め、さまざまな他の結合のうち任意のものでよい(例えば、Tamら、Nucl. Acids Res. 22: 977-986 (1994);EckerおよびCrooke、BioTechnology 13:351360 (1995)を参照のこと、これらはそれぞれ参照として本明細書に組み入れられる)。天然にないヌクレオチド類似体、またはヌクレオチドもしくは類似体を連結する結合を組み入れることは、ポリヌクレオチドを核酸切断活性を含みうる環境(例えば、組織培養液を含む)に曝露させる場合、または生きた対象に投与する場合には、改変ポリヌクレオチドは分解されにくい可能性があるため、特に有用なことがある。
【0106】
天然のヌクレオチドおよびホスホジエステル結合を含むポリヌクレオチドまたはオリゴヌクレオチドは、化学合成することもでき、または、適切なポリヌクレオチドをテンプレートとして用いる組換えDNA法を用いて作製することもできる。比較すると、ヌクレオチド類似体またはホスホジエステル結合以外の共有結合を含むポリヌクレオチドまたはオリゴヌクレオチドは一般に化学合成されるが、T7ポリメラーゼなどの酵素はある種のヌクレオチド類似体をポリヌクレオチドに組み入れることができるため、適切なテンプレートから組換え法によってこのようなポリヌクレオチドを作製するために用いうる(Jellinekら、前記、1995)。したがって、本明細書で用いるポリヌクレオチドという用語には、細胞から単離しうる天然の核酸分子のほかに、例えば、化学合成法、またはポリメラーゼ連鎖反応(PCR)などによる酵素的方法によって調製しうる合成分子が含まれる。
【0107】
さまざまな態様において、ポリヌクレオチドまたはオリゴヌクレオチドを検出可能なように標識することは有用と考えられる。ポリヌクレオチドまたはオリゴヌクレオチドの検出可能な標識は当技術分野で周知である。検出可能な標識の個々の非制限的な例には、化学発光標識、放射性標識、酵素、ハプテン、または固有のオリゴヌクレオチド配列さえも含まれる。
【0108】
SNPを同定する方法を、特異的結合対のメンバーを用いて行うこともできる。本明細書において用いる場合、「特異的結合対のメンバー」という用語は、特異的結合対の別のメンバーと互いに特異的に結合するか選択的にハイブリダイズする分子のことを指す。特異的結合対のメンバーには、例えば、プローブ、プライマー、ポリヌクレオチド、抗体などが含まれる。例えば、特異的結合対のメンバーには、SNP座位を含む標的ポリヌクレオチドと選択的にハイブリダイズする、または標的ポリヌクレオチドをテンプレートとして用いて生成された増幅産物とハイブリダイズする、プライマーまたはプローブが含まれる。
【0109】
例えば、本発明の特異的結合対のメンバーには、適切な条件下で、標的ポリヌクレオチドと以下の箇所またはその付近で選択的に結合するオリゴヌクレオチドまたは抗体が含まれる:配列番号:45のヌクレオチド473[マーカー217486]、配列番号:47のヌクレオチド224[マーカー869745]、配列番号:46のヌクレオチド314[マーカー869787]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:9のヌクレオチド228[マーカー886895]、配列番号:10のヌクレオチド245[マーカー886896]、配列番号:48のヌクレオチド169[マーカー886933]、配列番号:49のヌクレオチド214[マーカー886937]、配列番号:13のヌクレオチド245[マーカー886994]、配列番号:8のヌクレオチド193[マーカー886894]、配列番号:23のヌクレオチド172[マーカー886938]、配列番号:24のヌクレオチド216[マーカー886943]または配列番号:50のヌクレオチド903[マーカー886942]。このため、本発明の特異的結合対のメンバーは、標的ポリヌクレオチドと選択的にハイブリダイズしうるオリゴヌクレオチドプローブでありうるが、必ずしもプライマー伸長反応の基質または抗核酸抗体である必要はない。特異的結合対のメンバーは、それが必要に応じて標的ポリヌクレオチドの任意の部分と、例えば、SNPを末端ヌクレオチドとして含む標的ポリヌクレオチドの一部分、選択的に結合するように選択することができる。特異的結合対のメンバーは、それが必要に応じて標的ポリヌクレオチドの任意の部分、例えば、SNPを末端ヌクレオチドとして含む標的ポリヌクレオチドの一部分と、選択的に結合するように選択することができる。
【0110】
本明細書において用いる場合、用語「特異的相互作用」または「特異的に結合する」などの用語は、2つの分子が生理的条件下で比較的安定な複合体を形成することを意味する。この用語は本明細書において、例えば、SNP部位を含むポリヌクレオチドと結合する抗体の相互作用;またはSNP部位を含むコドンによってコードされるアミノ酸を含むポリペプチドと結合する抗体の相互作用を含む、さまざまな相互作用に言及して用いられる。本発明の方法によれば、抗体は、SNP部位を含むコドンによってコードされる特定のアミノ酸を含むポリペプチドと選択的に結合しうる。または、抗体は、例えばプライマー伸長アッセイ法を用いて、SNP部位にある特定のヌクレオチド・オカレンスのみに関してSNP部位に組み入れられる特定の改変ヌクレオチドと選好的に結合してもよい。
【0111】
特異的相互作用は、解離定数が少なくとも約1×10−6M、一般に少なくとも約1×10−7M、通常は少なくとも約1×10−8M、とりわけ、少なくとも約1×10−9Mまたは1×10−10Mまたはそれ以上であることによって特徴づけることができる。特異的相互作用は一般に、生理的条件下、例えば、ヒトまたは他の脊椎動物または無脊椎動物などの生きた個体において生じる条件の下、ならびに哺乳動物細胞または別の脊椎動物もしくは無脊椎動物からの細胞を維持するために用いられるような細胞培養下に生じる条件の下で安定である。2つの分子が特異的に相互作用するか否かを決定するための方法は周知であり、これには例えば、平衡透析、表面プラズモン共鳴などが含まれる。
【0112】
当技術分野では、試料における特定のSNPに関してヌクレオチド・オカレンスを決定するためのさまざまな方法が知られている。このような方法には、1つまたは複数のオリゴヌクレオチドプローブまたはプライマーを利用することができ、これには例えば、1つまたは複数の体色関連SNP位置を含む標的ポリヌクレオチドと選択的にハイブリダイズする増幅プライマー対が含まれる。本発明の方法の実施に際して有用なオリゴヌクレオチドプローブには、例えば、SNPの位置を含む標的ポリヌクレオチドの一部分に対して相補的であってその全長に及ぶオリゴヌクレオチドが含まれ、この際、その位置に特定のヌクレオチド(すなわち、SNP)が存在することはプローブの選択的ハイブリダイゼーションの有無によって検出される。このような方法はさらに、標的ポリヌクレオチドおよびハイブリダイズしたオリゴヌクレオチドをエンドヌクレアーゼと接触させること、ならびに、SNP部位でのヌクレオチド・オカレンスがプローブの対応するヌクレオチドに対して相補的であるか否かに応じて、プローブの切断産物の存在または欠如を検出することを含みうる。
【0113】
多型位置でのヌクレオチド・オカレンスを同定するためにオリゴヌクレオチド連結アッセイ法を用いることもでき、この際、一対のプローブがSNP部位の上流および近傍ならびに下流および近傍と特異的にハイブリダイズし、プローブの一方はSNPのヌクレオチド・オカレンスに対して相補的なヌクレオチドを含む。プローブの末端ヌクレオチドがヌクレオチド・オカレンスに対して相補的である場合には、選択的ハイブリダイゼーションは末端ヌクレオチドを含み、リガーゼの存在下で上流および下流のオリゴヌクレオチドが連結される。このため、連結産物の有無によってSNP部位でのヌクレオチド・オカレンスが示される。
【0114】
オリゴヌクレオチドは、プライマーとして、例えば、伸長反応の産物(または産物の欠如)によってヌクレオチド・オカレンスが示されるプライマー伸長反応にも有用な可能性がある。さらに、SNP部位を含む標的ポリヌクレオチドの一部分を増幅するために有用なプライマー対も有用と考えられ、この場合には、SNP部位でのヌクレオチド・オカレンスを決定するために増幅産物を検討する。特に有用な方法には、ハイスループット形式、多重形式またはその両方に容易に適合しうるものが含まれる。プライマー伸長または増幅産物は、当技術分野で知られたさまざまな方法を用いて、直接的もしくは間接的に検出できる、および/またはシークエンシングを行うことができる。SNP座位の全長に及ぶ増幅産物は、SNP座位でのヌクレオチド・オカレンスを決定するために、従来のシークエンシング方法(例えば、「サンガー法」としても知られる「ジデオキシチェーンターミネーター法」(Sanger, F.ら, J. Molec. Biol. 94:441 (1975);Poberら、Science 238: 336-340 (1987))および「マクサム-ギルバート法」としても知られる「化学分解法」(Maxam, A. M.ら、Proc. Natl. Acad. Sci.(U.S.A.)74:560 (1977))、いずれの文献も参照として本明細書に組み入れられる)を用いてシークエンシングを行うことができる。
【0115】
本発明の方法は、SNPでのヌクレオチド・オカレンスを、「マイクロシークエンシング」法を用いて同定することができる。マイクロシークエンシング法は、「所定」の部位での単一ヌクレオチドのみの実体を決定する。このような方法は、標的ポリヌクレオチドにおける多型の存在および実体を決定するのに特に有用である。このようなマイクロシークエンシング方法、さらにはSNP座位でのヌクレオチド・オカレンスを決定するための他の方法は、Boyce-Jacinoら、米国特許第6,294,336号に記載されている(これは参照として本明細書に組み入れられ、本明細書中に要約がなされている)。
【0116】
マイクロシークエンシング法には、Goelet, P.らによって開示された遺伝子ビット(Genetic Bit)解析法(国際公開公報第92/15712号、これは参照として本明細書に組み入れられる)。さらに、DNAにおける多型部位をアッセイするためのプライマーガイド下でのヌクレオチド組み入れ法も記載されている(Komher, J. S.ら、Nucl. Acids. Res. 17:7779-7784 (1989);Sokolov, B. P.、Nucl. Acids Res. 18:3671 (1990);Syvanen, A.-C.ら、Genomics 8: 684-692 (1990);Kuppuswamy, M. N.ら、Proc. Natl. Acad. Sci.(U.S.A.)88:1143-1147 (1991);Prezant, T. R.ら、Hum. Mutat. 1: 159-164 (1992);Ugozzoli, L.ら、GATA 9: 107-112 (1992);Nyren, P.ら、Anal. Biochem. 208: 171-175 (1993);およびWallace, 国際公開公報第89/10414号)。これらの方法は、いずれも多型部位での塩基同士を識別するために標識デオキシヌクレオチドの組み込みに依拠している点で、Genetic Bit(商標)解析法とは異なる。このような形式では、シグナルが組み込まれたデオキシヌクレオチドに比例するため、同じヌクレオチドの連鎖に生じる多型は連鎖の長さに比例するシグナルを生じる(Syvanen, A.-C.ら、Amer. J. Hum. Genet. 52: 46-59 (1993))。
【0117】
代替的なマイクロシークエンシング方法は、Mundy, C.R.(米国特許第4,656,127号)およびCohen, D.ら(フランス特許第2,650,840号;PCT出願・国際公開公報第91/02087号)によって提供されており、これらは多型部位のヌクレオチドの実体を決定するために溶液を用いる方法を考察している。米国特許第4,656,127号のMundyの方法では、多型部位のすぐ3'側にあるアレル配列に対して相補的なプライマーを用いる。
【0118】
配列の分析にゲル電気泳動を用いる際に困難に遭遇したことを受けて、マイクロシークエンシングのための代替的な方法が開発されている。例えば、Macevicz(米国特許第5,002,867号)は、オリゴヌクレオチドプローブの多数の混合物とのハイブリダイゼーションを介して核酸配列を決定するための方法を記載している。このような方法によれば、標的を、1つの位置に不変ヌクレオチドを有し、別の位置にバリアント型ヌクレオチドを有するプローブのセットと逐次的にハイブリダイズさせることにより、標的ポリヌクレオチドの配列を決定する。Maceviczの方法は、標的をプローブのセットとハイブリダイズさせ、続いてセットの少なくとも1つの構成要素が標的とハイブリダイズしうる部位の数(すなわち、「マッチ」の数)を決定することにより、標的のヌクレオチド配列を決定する。この手順を、プローブのセットのそれぞれの構成要素が検討されるまで繰り返す。
【0119】
Boyce-Jacinoら、米国特許第6,294,336号は、ポリヌクレオチド標的とある部位で選択的に結合するプライマーを用いることによる、核酸分子(DNAまたはRNA)の配列を決定するための固相シークエンシング法を提供しており、SNPは標的と選択的に結合した最も3'側のヌクレオチドである。
【0120】
1つまたは複数のSNPのヌクレオチド・オカレンスを同定するために用いうる方法の特に商業的な一例において、試料における体色関連SNPのヌクレオチド・オカレンスは、SNP-IT(商標)法(Orchid BioSciences, Inc., Princeton, NJ)を用いて決定しうる。一般に、SNP-IT(商標)は3段階のプライマー伸長反応である。第1の段階では、捕捉プライマーとのハイブリダイゼーションによって標的ポリヌクレオチドを試料から単離し、これによって第1のレベル特異性を得る。第2の段階では、捕捉プライマーを標的SNP部位における末端ヌクレオチド三リン酸から伸長させ、これによって第2のレベルの特異性を得る。第3の段階では、伸長したヌクレオチド三リン酸を、以下のものを含む種々の公知の形式を用いて検出する:直接蛍光、間接蛍光、間接比色アッセイ法、質量分析、蛍光偏光法など。反応物は384ウェル形式でSNPstream(商標)装置(Orchid BioSciences, Inc., Princeton, NJ)を用いて自動的に処理しうる。
【0121】
OCA2-Aハプロタイプのマーカー217458を同定するための方法の具体的な一例では、配列番号:7(配列番号はマーカー217458に対応する(表1参照))のSNPの5'側の配列とハイブリダイズする順方向プライマー、および配列番号:7のSNPの3'側の配列の反対鎖とハイブリダイズする逆方向プライマーを含むプライマー対を合成する。このプライマー対を用いてマーカー217458を含む標的ポリヌクレオチドを増幅し、増幅産物を生成する。続いて、第3のプライマーをプライマー伸長反応の基質として用いることができる。第3のプライマーは、第3のプライマーの3'ヌクレオチド(例えば、アデノシン)がマーカー217458部位と結合し、プライマー伸長反応に用いられるような形で増幅産物と結合しうる。第3のプライマーの3'ヌクレオチドがSNPでのヌクレオチド・オカレンスに対して相補的である場合のみにプライマー伸長反応が進行するよう(例えば、マーカー217458のヌクレオチド・オカレンスがチミジンであれば進行するが、マーカーのヌクレオチド・オカレンスがシチジンであれば進行しない)、プライマーを設計し、条件を決定することができる。
【0122】
SNPstream(商標)装置による相不明の生データをStephensおよびDonnellyのPHASEプログラムに入力することにより、相の分かるデータを生成しうる。
【0123】
したがって、上記の方法を用いて、体色関連ハプロタイプアレル、または体色関連SNPのヌクレオチド・オカレンスを、増幅反応、プライマー伸長反応またはイムノアッセイ法を用いて同定しうる。体色関連ハプロタイプアレルまたは体色関連SNPは、試料中のポリヌクレオチドまたは試料に由来するポリヌクレオチドと、体色関連SNPを含むポリヌクレオチド領域に選択的にハイブリダイズする特異的結合対のメンバーとを、結合対のメンバーが体色関連SNPまたはその付近に特異的に結合する条件下で接触させることによって同定することもできる。特異的結合対のメンバーは抗体でもポリヌクレオチドでもありうる。
【0124】
本発明の方法に用いられる抗体には、体色関連または人種関連ハプロタイプを含むポリペプチドと特異的に結合する抗体が含まれる。さらに、本発明の抗体は、SNPを含むコドンによってコードされるアミノ酸を含むポリペプチドと結合する。これらの抗体は、SNPによって一部がコードされるアミノ酸を含むポリペプチドと結合する。本抗体は、SNP座位を含むコドンによってコードされる第1のアミノ酸を含むポリペプチドとは特異的に結合しうるが、SNPの箇所に異なるヌクレオチド・オカレンスを含むコドンによってコードされた第2のアミノ酸を含むポリペプチドとは結合しないか、弱く結合する。
【0125】
抗体は当技術分野で周知であり、例えば、米国特許第6,391,589号において考察されている。本発明の抗体には、ポリクローナル抗体、モノクローナル抗体、多重特異性抗体、ヒト抗体、ヒト化抗体またはキメラ抗体、一本鎖抗体、Fab断片、F(ab')断片、Fab発現ライブラリーにより生じた断片、抗イディオタイプ(抗Id)抗体(例えば、本発明の抗体に対する抗Id抗体)、および以上の任意のもののエピトープ結合断片が非制限的に含まれる。「抗体」という用語は、本明細書において用いる場合、免疫グロブリン分子および免疫グロブリン分子の免疫学的活性部分、すなわち、抗原と免疫特異的に結合する抗原結合部分を含む分子のことを指す。本発明の免疫グロブリン分子は、任意のタイプ(例えば、IgG、IgE、1gM、IgD、IgAおよびIgY)、クラス(例えば、IgG1、IgG2、IgG3、IgG4、IgA1およびIgA2)またはサブクラスの免疫グロブリン分子でありうる。
【0126】
本発明の抗体には抗体断片が含まれ、これには、Fab、Fab'およびF(ab')2、Fd、一本鎖Fvs(scFv)、一本鎖抗体、ジスルフィド結合Fvs(sdFv)、およびVLまたはVHドメインのいずれかを含む断片が非制限的に含まれる。抗原結合性の抗体断片(一本鎖抗体を含む)は、可変領域を単独で、または以下の全体もしくは部分との組み合わせを含みうる:ヒンジ領域、CH1、CH2およびCH3ドメイン。可変領域にヒンジ領域、CH1、CH2およびCH3ドメインを組み合わせた任意の組み合わせを含む抗原結合断片も本発明に含まれる。本発明の抗体は、鳥類および哺乳動物を含む任意の動物に由来するものでよい。好ましくは、抗体はヒト、ネズミ科動物(例えば、マウスおよびラット)、ロバ、ウサギ(ship rabbit)、ヤギ、モルモット、ラクダ、ウマまたはニワトリのものである。本発明の抗体は、単一特異性、二重特異性、三重特異性、またはより高度な多重特異性であってもよい。
【0127】
本発明の抗体は、当技術分野で知られた任意の適した方法によって作製しうる。目的の抗原に対するポリクローナル抗体は、当技術分野で周知のさまざまな手順によって作製することができる。例えば、本発明のポリペプチドを、抗原に対して特異的なポリクローナル抗体を含む血清の産生を誘導するために、ウサギ、マウス、ラットなどを非制限的に含む種々の宿主動物に投与する。免疫応答を強めるために種々のアジュバントを用いてもよく、これは宿主種に依存し、フロイントアジュバント(完全および不完全)、水酸化アルミニウムなどの鉱物ゲル、リゾレシチンなどの表面活性物質、プルロニックポリオール、ポリアニオン、ペプチド、油乳剤、キーホールリンペットヘモシアニン、ジニトロフェノール、ならびにBCG(カルメット-ゲラン桿菌)およびコリネバクテリウム・パルブムなどの有用と思われるヒトアジュバントが非制限的に含まれる。このようなアジュバントも当技術分野で周知である。
【0128】
モノクローナル抗体は、ハイブリドーマ、組換えおよびファージディスプレイ技術の使用またはそれらの組み合わせを含む、当技術分野で知られた非常にさまざまな技法を用いて調製しうる。例えば、モノクローナル抗体を、当技術分野で知られ、例えば以下に教示されているものを含む、ハイブリドーマ法を用いて作製することができる;Harlowら、「抗体:実験マニュアル(Antibodies: A Laboratory Manual)」(Cold Spring Harbor Laboratory Press、第2版、1988);Hammerlingら:「モノクローナル抗体およびT細胞ハイブリドーマ(Monoclonal Antibodies and T-Cell Hybridoma)」563-681(Elsevier, N.Y., 1981)(前記の参考文献はその全体が参照として組み入れられる)。「モノクローナル抗体」という用語は、本明細書において用いる場合、ハイブリドーマ技術によって作製された抗体には限定されない。「モノクローナル抗体」という用語は、任意の真核生物、原核生物またはファージクローンを含む単一のクローンに由来する抗体のことを指し、それを作製する方法を指したものではない。
【0129】
SNPの特定のヌクレオチド・オカレンスまたは体色関連ハプロタイプのヌクレオチド・オカレンスが、ヌクレオチド・オカレンスにより、コードされるポリペプチドのアミノ酸に変化が生じるものである場合には、ポリペプチド中の特定のアミノ酸を検出することによってヌクレオチド・オカレンスを間接的に同定しうる。アミノ酸を決定するための方法は、例えば、ポリペプチドの構造ポリペプチド中のアミノ酸の位置に依存すると考えられる。
【0130】
ポリペプチドが、特定のSNPによってコードされるアミノ酸の単一のオカレンスのみを含む場合には、ポリペプチドをアミノ酸の存在または欠如に関して検討することができる。例えば、アミノ酸がポリペプチドのアミノ末端またはカルボキシ末端またはその付近にある場合には、末端アミノ酸の単純なシークエンシングを行いうる。または、ポリペプチドを1つまたは複数の酵素で処理し、目的のアミノ酸位置を含むペプチド断片を、例えば、ペプチドのシークエンシングにより、または電気泳動後にペプチドの特定の移動を検出することにより、検討することもできる。特定のアミノ酸がポリペプチドのエピトープを含む場合には、エピトープに対して特異的な抗体の特異的結合またはその欠如を検出しうる。ポリペプチドまたはそのペプチド断片における特定のアミノ酸を検出するための他の方法も周知であり、例えば、簡便性、または質量分析計、キャピラリー電気泳動システム、磁気共鳴画像装置などの装置の利用可能性に基づいて選択することができる。
【0131】
もう1つの局面において、本発明は、哺乳動物対象の遺伝的体色形質を哺乳動物対象の核酸試料から推測するための方法であって、体色遺伝子からの少なくとも1つの体色関連一塩基多型(SNP)に関して、試料におけるヌクレオチド・オカレンスを同定することを含む方法である。体色遺伝子は、眼皮膚型白皮症II(OCA2)、アグーチシグナル伝達タンパク質(ASIP)、チロシナーゼ関連タンパク質1(TYRP1)、チロシナーゼ(TYR)、アダプター関連タンパク質複合体3β1サブユニット(AP3B1)、AP3D1、ドパクロムタウトメラーゼ(DCT)、シルバーホモログ(SILV)、AIM-1タンパク質(LOC51151)、プロオピオメラノコルチン(POMC)、眼型白皮症1(OA1)、小眼球症関連転写因子(MITF)、ミオシンVA(MYO5A)、RAB27Aまたは凝固第II因子(トロンビン)受容体様1(F2RL1)でありうる。ヌクレオチド・オカレンスは哺乳動物対象の体色形質と関連づけられており、それによって哺乳動物対象の体色形質が推測される。本方法はさらに、核酸試料において、少なくとも第2の体色遺伝子の少なくとも第2の体色関連SNPに関して少なくとも1つのヌクレオチド・オカレンスを同定することを含みうる。単一の体色関連SNPのみを扱うか、または単一の遺伝子における体色関連SNPのみを扱う方法における、ある種の好ましい態様において、体色関連SNPはKenetskyら、Am. J. Hum. Genet.、70:770 (2002)に開示されたASIP SNPではない。
【0132】
本方法はさらに、核酸試料において、少なくとも第2の体色遺伝子の少なくとも第2の体色関連SNPに関してヌクレオチド・オカレンスを同定することを含みうる。第2の体色遺伝子は、OCA2、ASIP、TYRP1、TYR、AP3B1、AP3D1、DCT、SILV、LOC51151、POMC、OM1、MITF、MYO5A、RAB27A、F2RL1もしくはメラノコルチン-1受容体(MC1R)、またはこれらの遺伝子の任意の組み合わせでありうる。
【0133】
本発明のこの局面によるある種の態様において、第1の体色遺伝子にはMC1R遺伝子は含まれない。
【0134】
本発明のこの局面による方法は、眼の色または眼の濃淡を体色形質として推測し、ヌクレオチド・オカレンスを以下の少なくとも1つに関して同定する:
配列番号:1のヌクレオチド609[マーカー702]、配列番号:2のヌクレオチド501[マーカー650]、配列番号:3のヌクレオチド256[マーカー675]、配列番号:4のヌクレオチド442[マーカー217438]、配列番号:5のヌクレオチド619[マーカー217439]、配列番号:6のヌクレオチド646[マーカー217441];配列番号:7のヌクレオチド135[マーカー217458]、配列番号:8のヌクレオチド193[マーカー886894]、配列番号:9のヌクレオチド228[マーカー886895]、配列番号:10のヌクレオチド245[マーカー886896]、配列番号:11のヌクレオチド189[217452]、配列番号:12のヌクレオチド573[712052]、配列番号:13のヌクレオチド245[マーカー886994]、配列番号:14のヌクレオチド643[マーカー712057]、配列番号:15のヌクレオチド539[マーカー712058]、配列番号:16のヌクレオチド418[マーカー712060]、配列番号:17のヌクレオチド795[マーカー712064]、配列番号:18のヌクレオチド535[マーカー712054]、配列番号:19のヌクレオチド554[マーカー712056]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:21のヌクレオチド225[マーカー217455]、配列番号:22のヌクレオチド170[マーカー712061]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:23のヌクレオチド172[マーカー886938]もしくは配列番号:24のヌクレオチド216[マーカー886943]、またはそれらの任意の組み合わせ。この例に挙げたこれらのSNPは、実施例17に例示するように浸透性ハプロタイプを構成するという点で浸透性SNPである。
【0135】
さらに、以上に列挙した浸透性SNPを扱う本発明のこの局面の方法において、本発明の方法は、ヌクレオチド・オカレンスを以下の少なくとも1つに関して同定する:配列番号:25のヌクレオチド61[マーカー560]、配列番号:26のヌクレオチド201[マーカー552]、配列番号:27のヌクレオチド201[マーカー559]、配列番号:28のヌクレオチド201[マーカー468]、配列番号:29のヌクレオチド657[マーカー657]、配列番号:30のヌクレオチド599[マーカー674]、配列番号:31のヌクレオチド267[マーカー632]、配列番号:32のヌクレオチド61[マーカー701]、配列番号:33のヌクレオチド451[マーカー710];配列番号:34のヌクレオチド326[マーカー217456]、配列番号:35のヌクレオチド61[マーカー656]、配列番号:36のヌクレオチド61、配列番号:37のヌクレオチド61[マーカー637]、配列番号:38のヌクレオチド93[マーカー278]、配列番号:39のヌクレオチド114[マーカー386]、配列番号:40のヌクレオチド558[マーカー217480]、配列番号:41のヌクレオチド221[マーカー951497]、配列番号:42のヌクレオチド660[マーカー217468]、配列番号:43のヌクレオチド163[マーカー217473]、配列番号:44のヌクレオチド364[マーカー217485]、配列番号:45のヌクレオチド473[マーカー217486]、配列番号:46のヌクレオチド314[マーカー869787]、配列番号:47のヌクレオチド224[マーカー869745]、配列番号:48のヌクレオチド169[マーカー886933]、配列番号:49のヌクレオチド214[マーカー886937]もしくは配列番号:50のヌクレオチド903[マーカー886942]、またはそれらの任意の組み合わせ。これらのSNPは、実施例17に特定されている潜在性ハプロタイプを構成するという点で、眼の色合いに関する潜在性SNPである。
【0136】
本発明のこの局面による方法は、毛の色または毛の濃淡を体色形質として推測することができ、ヌクレオチド・オカレンスを以下の少なくとも1つに関して同定することができる:配列番号:27のヌクレオチド201[マーカー559]、配列番号:25のヌクレオチド61[マーカー560]、配列番号:4のヌクレオチド442[マーカー217438]、配列番号:5のヌクレオチド619[マーカー217439]、配列番号:6のヌクレオチド646[マーカー217441]、配列番号:16のヌクレオチド418[マーカー712060]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:10のヌクレオチド245[マーカー886896]、配列番号:21のヌクレオチド225[マーカー217455]、配列番号:14のヌクレオチド643[マーカー712057]、配列番号:8のヌクレオチド193[マーカー886894]、配列番号:7のヌクレオチド135[マーカー217458]、配列番号:19のヌクレオチド554[マーカー712056]、配列番号:18のヌクレオチド535[マーカー712054]、配列番号:9のヌクレオチド228[マーカー886895]、配列番号:45のヌクレオチド473[217486]、配列番号:49のヌクレオチド214[886937]またはそれらの任意の組み合わせ。これらのSNPは、実施例18で同定されている浸透性ハプロタイプを構成するという点で、毛の色合いに関する浸透性SNPである。
【0137】
上に考察した通り、試料におけるヌクレオチド・オカレンスを体色遺伝子からの少なくとも1つの体色関連SNPに関して同定することを含む本発明の方法は、好ましい態様において、体色遺伝子に関する体色関連SNPのヌクレオチド・オカレンスを、体色関連ハプロタイプの1つまたは複数の同定されたハプロタイプアレルへとグループ分けすることを含みうる。対象の体色形質を推測するために、続いて、同定されたハプロタイプアレルを、遺伝的体色形質との関係が知られている既知のハプロタイプアレルである、体色関連ハプロタイプの既知のハプロタイプアレルと比較する。
【0138】
もう1つの局面において、本方法は、哺乳動物対象の遺伝的体色形質を哺乳動物対象の生物試料から推測するための方法を提供する。本方法は、試料におけるヌクレオチド・オカレンスを、メラノコルチン-1受容体(MC1R)以外の体色遺伝子からの体色関連一塩基多型(SNP)に関して同定することを含む。ヌクレオチド・オカレンスは哺乳動物対象の体色形質と関連づけられており、それによって哺乳動物対象の体色形質に関する推測を導くことが可能になる。
【0139】
もう1つの局面において、本発明は、ヒト対象の人種をヒト対象の生物試料から推測するための方法を提供する。本方法は、核酸試料において、人種関連遺伝子の少なくとも1つの人種関連一塩基多型(SNP)のヌクレオチド・オカレンスを同定することを含む。人種関連SNPのヌクレオチド・オカレンスは人種と関連づけられており、それによって対象の人種に関する推測を導くことが可能になる。
【0140】
ヒトの識別検査は、多型座位由来の分割された(binned)アレルが、ヒト個体において特有の組み合わせとして分離されるという事実に依拠している。アレルの組み合わせは、ヒト個体を疑いなく識別するための「バーコード」として役立つ。系統的な遺伝学的影響力が現代の人類の遺伝子構造を形作っているため、STRおよびSNPを含むほとんどのヒト多型は、世界のさまざまな集団に不均等に分布しているアレルによって特徴づけられる。STRマーカーの場合には、異なる集団間のアレル頻度の違いが非常に大きいため、STRアレルを正式に認定するためには個体の人種的背景に関する知識が除外計算の点で必要である(Budowleら、J. Forensic Sci. 46 (3) : 453-489, 2001;Levadokouら、J. Forensic Sci. 46 (3) : 736-761, 2001;Budowleら、Clin. Chim. Acta 228(l):3-18, 1994;Kerstingら、Croat Med. J. 42 (3) : 310-314、2001;Meyerら、Int. Int. J. Legal Med. 107 (6) : 314-322, 1995)。
【0141】
誤った集団からのデータベースは数桁もの大きい誤差を招くおそれがある(Monsonら、J. Forensic Sci. 43 (3) : 483-488, 1998)。これらの除外計算は後ろ向きに行うこともできるが、ひとたび犯罪者が特定されれば、後ろ向き(被疑者が確保されている)に加えて前向き(被疑者が特定されていない)にも用いうる人種プロファイリング用の手法としての需要は大きい。人種分類器(racial classifier)は後ろ向きのケースワークを補助しうるが、個体内混在を含むさまざまな理由から、ある種の個体では人種を必ずしも容易には識別できない。個人の人種および民族的背景(混在を含む)を遺伝学的に規定する優れた人種分類手法があれば、除外確率を算出するために用いうる参照データベースの選択が法的に正当化されうる。前向きの局面では、人種分類マーカーは、人種的に除外できない個体に向けて犯罪調査を導くために用いうる(用いられる)。場合によっては、人種分類の結果は被疑者からDNA標本を法的に要求するための正当な理由となる可能性があり、それにより、我々の刑事裁判システムの効率を最大限に高める重要なきっかけが得られると考えられる。
【0142】
異なる集団間での頻度の違いをDNA標本の人種的由来の推測に利用するために、さまざまな確率論的方法が提唱されている(Brenner, Am. J. Hum. Genet., 62 (6) : 1558-1560,1998;Loweら、Forensic Sci. Int. 119 (1) : 17-22, 2001;Brenner, Proceedings 7th Intl. Symposium on Hum. Identification 4892, 1997)。例えば、所定の集団におけるアレル頻度(クラス条件確率)を、DNA試料がその集団の個体に由来するといった事後確率の算出に用いるために、ベイズ統計スキームが用いられている。現在用いられているほとんどのSTRマーカー(すなわち、F13A、TH01、FES/FPSおよびVWA)には、標本が属する可能性のある人種群同士を分離する検出力はほとんどない。アフリカ人の個体を白人系統から識別するための分解能の値は、1つの座位当たり平均で約r=1.7(log10r=0.4)であり、これは別の分類となる事前確率を50%と仮定すると、誤った判断が20%の確率で行われることを意味する。このようなマーカーを集積することにより、ほとんどのケースの人種的由来は有効に分析されると考えられるが、統計分布では分類の5〜10%が不明瞭である(Brenner, Proceedings 7th Intl. Symposium on Hum. Identification 4892, 1997)。明らかに、この検査を法廷での法医学的統計計算に役立てるには(特に被疑者からのDNA標本を要求する裁判所の命令について言えば)、さらに優れた性能が必要である。より顕著な人種バイアス(log10r値が2またはそれ以上)を示すマーカーを発見するか、中程度のマーカーの集成物を非常に多く同定する必要がある。
【0143】
実際に、顕著な人種バイアスがみられるSTRマーカーに関するスクリーニングが行われ、その結果、白人系アメリカ人をアフリカ系アメリカ人から分離しうる座位が10個発見されている(Shriverら、Am. J. Hum. Genet. 60: 957-964, 1997)。これらのSTRマーカーを用いるベイズ人種推測法は非常に強力と思われるが、その厳密さに関してはかなり議論がある。この議論の一部では、人種とは実際には何であるかというあらゆる検査に該当する一般的な問題を対象としているが(Goodman, Am. J. Public Health 90 (11) : 1699-1702、2000)、STR方法に批判的な説得力のある議論の大半は技術的および統計学的な性質のものである(Brenner、Proceedings 7th Intl. Symposium on Hum. Identification 4892, 1997、EricksonおよびSvensmark, Int. J. Legal Med. 106: 254-257, 1994、Evettら、J. Forensic Sci. Soc. 32: 301-306, 1992、Shriverら、Am. J. Hum. Genet. 60: 957-964, 1997)。例えば、集団特異的なアレル頻度の決定はしばしば、参照データベースのリソースにおける不当性およびバイアスのためにSTRマーカーに関する偏りを伴う。STRマーカーは比較的多数のアレル(しばしば20個またはそれ以上)を有し、この複雑性はある種の集団ではアレル頻度の推計における試料採取バイアスの原因となる。試料採取バイアスは頻度の推計値を実際よりも小さく見せたり大きく見せたりし、人種分類の対数尤度比を人為的に(時には顕著に)高めたり低下させたりする(Brenner, Proceedings 7th Intl. Symposium on Hum. Identification 4892, 1997)。このような問題はSTRなどの多アレルマーカーに特有である。
【0144】
STRアレルの複雑性の好ましい副産物は、ヒト個体を識別するための、またはその男性もしくは女性の民族的由来を推測するための各検査で測定する必要のある座位が比較的少数で済むことである。事実、各試料に対して実施する必要のあるアッセイ法の数が減ることが、これらが用いられる一つの理由である。一方、この複雑性の好ましくない副産物は、アレル頻度を推計するために非常に大規模なデータベースが必要なことであり、これは個体識別または人種の除外計算のために必要とされる。この理由から、複雑なアレル構造を有する遺伝子座は、個体識別検査および人種推測の両方に対して特有の統計学的問題をもたらす。これに対して、二多型性(biallelic)検査(すなわち、SNP)では、集団内の各座位については2種のアレルしか存在しないため、より単純なアレル構造を有するより多数の座位の計測により、STRマーカーと同じ統計学的検出力が得られる。しかし、アレルが少数であるため、参照データベースにおけるマイナーアレル頻度の正確な決定のために必要な各集団からの個体数はより少数である。非常に多くのSNPを利用しうるため、マイナーアレル頻度がSTRアレルに比べて比較的高くなるように、マイナーアレル頻度が妥当なものを選択することができる。これによって試料採取バイアスの問題が軽減され、個体識別および人種の除外計算により小規模な参照データベースを用いることが可能になると考えられる。参照データベースの規模が同じであれば、用いうるSNPの絶対数の点から、SNPを用いる個体識別判定および人種推測の統計学的検出力の方が強い可能性が高いと考えられる。
【0145】
これらの統計学的利点に加えて、ハイスループット遺伝子型判定技術の最近の進歩により、SNPを個体識別検査に用いることへの関心が技術的にも経済的にも高まっている。最近までは、単一の標本に対して多数の検査を行う際の費用および技術的問題のために、少数の複雑なアレルの方が多数の複合性の低い座位よりも好まれてきた。最近の技術的進歩によって個々の試料に多数のマーカーで行う型判定の費用が低下したことから、法医学的分子生物学における現在の律速段階はもはや各試料において経済的に型判定を行いうる部位の数ではなく、検査を行いうる個体の数となっている。STRマーカーの場合には、アレル頻度(および他のパラメーター)を正確に推計するためには各集団において数千もの標本が必要であり、この問題は所定の集団における座位当たりのアレル候補の数が多く、マイナーアレルの頻度が低いほど大きくなる。SNPマーカーの場合には、非常に多くのSNPを型判定に用いることができ、妥当な汎人種的マイナーアレル頻度を有する一連のSNPをあらかじめ選択しうるため、このことはそれほど問題とならない。これらの理由から、将来の個体識別判定は何らかのレベルでSNP型判定を含む可能性が高い。法医学的識別検査におけるSNPの使用を阻み続けるおそらく最も大きな障壁は科学的なものでも技術的なものでもなく、商業的な遅滞であると考えられる;すなわち、新たな装置を購入し、新たなデータベースを構築して、新たなアッセイ法をバリデートする必要がある。しかし、これらの要因はいずれも、特に人間の命と秤にかけた場合、劣った方法の使用を弁明するのに大いに足る要因とはならない。
【0146】
SNPに基づく個体識別は今後の流れと考えられるが、SNPに基づくヒト個体識別製品はこれまでに比較的わずかしか開発および/または発表されていない。さらに、DNA標本の人種的由来を正確に推測しうる、SNPに基づく検査も未だ記載されていない。本発明は、対象の特定の人種との関連性が単純な遺伝学的アプローチを用いて検出しうる程度に十分に強いSNPである、64種の「人種有意マーカー」の一群を提供する。実施例14において例示するように、人種有意マーカーは人種別に偏った頻度分布を示す。人種有意マーカーを「人種関連SNP」と呼ぶこともできる。
【0147】
人種の推測に関する本発明のこの局面による方法は、少なくとも2つの人種関連SNPのヌクレオチド・オカレンスを同定する方法を含む。これらの態様において、推測の強さを高めるために、本方法はさらに、人種関連SNPの同定されたヌクレオチド・オカレンスを、人種別に偏った頻度分布を示す1つまたは複数の人種関連ハプロタイプアレルへとグループ分けすることをさらに含みうる。
【0148】
SNPまたはハプロタイプが人種に関連するか否かを判定するために、さまざまな統計分析を行うことができる。アレル頻度をハプロタイプに関して算出し、対でのハプロタイプ頻度をEMアルゴリズムを用いて評価することができる(ExcoffierおよびSlatkin、1995)。続いて、連鎖不平衡係数を算出することができる。連鎖不平衡係数などの種々のパラメーターに加えて、アレルおよびハプロタイプの頻度(民族群、対照群およびケース群)、χ二乗統計量、ならびにPanmitic指数を含む他の集団遺伝学パラメーターを算出し、ケース群と対照群との間の民族、祖先または他の系統的な違いを調整することもできる。
【0149】
ケース・マトリックスを対照と識別するために有用なマーカー/ハプロタイプがあれば、それを、関連性について記載し、付随(被験およびエフェクト)統計量を伴う数学的形態として提示することができる。統計分析の結果により、SNPマーカーまたはハプロタイプと体色形質との関連性は、少なくとも80%、85%、90%、95%もしくは99%、最も好ましくは95%の信頼性で、または有意でない確率が0.05未満で示唆される。これらの統計手法により、被験SNPアレルまたはハプロタイプアレルが群間で有意に異なるという帰無仮説に関する有意性を検定することもできる。
【0150】
本明細書の実施例14において提供する一群の人種有意マーカーは、アジア人、アフリカ人および白人系統の試料においてDNA標本の民族的由来をほぼ完全な精度で推測しうる、主要なヒト体色遺伝子および生体異物代謝遺伝子ならびに他の遺伝子におけるSNPマーカーである。本発明者らは本明細書の実施例17において、眼の色に関する一連の浸透性ハプロタイプおよび一連の潜在性ハプロタイプも提供する。これらの浸透性および潜在性ハプロタイプのSNPは人種有意マーカーでもあり、これらを用いて対象の人種をほぼ完全な精度で推測することができる。推測の強さをさらに向上させるために、これらのSNPを含む実施例17のハプロタイプの組み合わせを人種の推測に用いることもできる。
【0151】
本発明のこの局面における方法の人種関連遺伝子には、遺伝子内に存在するSNPまたはハプロタイプのヌクレオチド・オカレンスに関して、特定の人種または人種群(例えば、アジア人およびアフリカ人集団)との統計学的に有意な関連性が認められている、体色遺伝子または生体異物遺伝子または任意の他の遺伝子が含まれる。人種関連SNPとは、3つの人種群の間で統計学的に異なる遺伝子型分布およびアレル頻度が認められているSNPのことである(例えば、実施例14を参照)。これらの68種のSNPマーカーのそれぞれに関するマイナーアレルは、検討した3つの人種群(アジア人、アフリカ系アメリカ人または白人)の1つに選好的に存在し、これらのSNPの多くには著明な群間差が認められた。以下の考えられる3通りの選好カテゴリーのすべてが観察された;白人集団に選好的に存在する、アジア人集団に選好的に存在する、およびアフリカ系アメリカ人集団に選好的に存在する。
【0152】
人種関連遺伝子には、以下の少なくとも1つが含まれうる:眼皮膚型白皮症II(OCA2)、アグーチシグナル伝達タンパク質(ASIP)、CYP2D6、チロシナーゼ関連タンパク質1(TYRP1)、シトクロムp450-2(CYP2C9)、シトクロムp450-3(CYP3A4)、チロシナーゼ(TYR)、メラノコルチン-1受容体(MC1R)、アダプター関連タンパク質複合体3β1サブユニット(AP3B1)、AP3D1、ドパクロムタウトメラーゼ(DCT)、シルバーホモログ(SILV)、AIM-1タンパク質(LOC51151)、プロオピオメラノコルチン(POMC)、眼型白皮症1(OA1)、小眼球症関連転写因子(MITF)、ミオシンVA(MYO5A)、RAB27A、凝固第II因子(トロンビン)受容体様1(F2RL1)、HMG CoAレダクターゼ(HMGCR)、ファルネシル二リン酸シンターゼ(FDPS)、アリール炭化水素レダクターゼ(AHR)もしくはシトクロムp450-1(CYP1A1)、またはそれらの任意の組み合わせ。
【0153】
本方法はさらに、核酸試料における、少なくとも第2の人種関連遺伝子の少なくとも第2の人種関連SNPに関する少なくとも1つのヌクレオチド・オカレンスを含む。第2の人種関連遺伝子は、OCA2、ASIP、TYRP1、TYR、AP3B1、AP3D1、DCT、SILV、LOC51151、POMC、OA1、MITF、MYO5A、RAB27A、F2RL1、メラノコルチン-1受容体(MC1R)、CYP2D6、CYP2C9、CYP3A4、AP3B1、HMGCR、FDPS、AHRもしくはCYP1A1、またはそれらの任意の組み合わせでありうる。
【0154】
以上に挙げたこれらの人種関連遺伝子のうち、OCA2、SILV、ASIP、TYRP1、DCT、TYR、MC1RおよびAP3B1は体色遺伝子である;AHRおよびCYP1A1は生体異物遺伝子である;CYP2D6、CYP2C9、CYP3A4、HMGCRおよびFDPSは体色遺伝子でも生体異物遺伝子でもない。
【0155】
多くの遺伝子におけるSNPおよび/またはハプロタイプは特定の人種または人種群と妥当な形で関連づけられると予想されるが、実施例14に例示するように、本開示により、体色遺伝子および生体異物遺伝子が異常に多数の人種有意マーカーを含むと思われること、およびこれらのマーカーが人種の強い指標であることが明らかになった。すなわち、本開示により、体色遺伝子および生体異物遺伝子が、これらの種類のSNPを進化の時間を通じて蓄積するための受容部であると思われることが明らかになった。このため、本発明のこの局面における人種関連遺伝子には、1つもしくは複数の体色遺伝子および/または1つもしくは複数の生体異物遺伝子が含まれうる。
【0156】
本明細書中に開示する人種関連SNPは、人種の推測に有用でありうるだけでなく、相関性によって体色形質を推測するためにも有用でありうる。
【0157】
実施例14などの添付した実施例は、個体の人種を推測する方法を例示している。体色形質を推測する実施例17などの実施例の方法は、既知の体色形質関係の代わりに既知の人種関係を用いることにより、人種を推測することができる。推測は一般に、既知のアレルまたはヌクレオチド・オカレンスとの既知の関係を分類器として用いる複合モデルを用いることを含む。実施例17に例示されているように、比較は、対象の体色関連ハプロタイプアレルに関するデータを、分散-共分散行列を用いて盲目的な二次判別分類を行う複合モデルに適用することによって行いうる。種々の分類モデルを本明細書においてさらに詳細に考察し、実施例の項で例示する。
【0158】
人種の推測に関する本発明のこの局面による方法は、少なくとも2つの人種関連SNPのヌクレオチド・オカレンスを同定する方法を含む。これらの態様において、推測の強さを高めるために、本方法はさらに、人種関連SNPの同定されたヌクレオチド・オカレンスを、人種との関係が知られているハプロタイプアレルである、1つまたは複数の人種関連ハプロタイプアレルへとグループ分けすることをさらに含みうる。
【0159】
本発明のこの局面において、人種関連ハプロタイプは、以下の人種関連ハプロタイプの少なくとも1つでありうる:
a)DCT-Aハプロタイプに対応するDCT遺伝子のヌクレオチド、これには配列番号:1のヌクレオチド609[702]、配列番号:2のヌクレオチド501[650]、および配列番号:3のヌクレオチド256[マーカー675]が含まれる;
b)MC1R-Aハプロタイプに対応するMC1R遺伝子のヌクレオチド、これには配列番号:4のヌクレオチド442[217438]、配列番号:5のヌクレオチド619[217439]、および配列番号:6のヌクレオチド646[217441]が含まれる;
c)OCA2-Aハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:7のヌクレオチド135[217458]、配列番号:8のヌクレオチド193[886894]、配列番号:9のヌクレオチド228[マーカー886895]、および配列番号:10のヌクレオチド245[マーカー886896]が含まれる
;d)OCA2-Bハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:11のヌクレオチド189[マーカー217452]、配列番号:12のヌクレオチド573[マーカー712052]、および配列番号:13のヌクレオチド245[マーカー886994]が含まれる;
e)OCA2-Cハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:14のヌクレオチド643[712057]、配列番号:15のヌクレオチド539[712058]、配列番号:16のヌクレオチド418[712060]、および配列番号:17のヌクレオチド795[712064]が含まれる;
f)OCA2-Dハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:18のヌクレオチド535[712054]、配列番号:19のヌクレオチド554[712056]、および配列番号:20のヌクレオチド210[886892]が含まれる;
g)OCA2-Eハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには配列番号:21のヌクレオチド225[217455]、配列番号:22のヌクレオチド170[712061]、および配列番号:20のヌクレオチド210[886892]が含まれる;
h)TYRP1-Bハプロタイプに対応するTYRP1遺伝子のヌクレオチド、これには配列番号:23のヌクレオチド172[886938]もしくは配列番号:24のヌクレオチド216[886943]が含まれる;またはa)からh)までの任意の組み合わせ。
【0160】
以上の人種関連ハプロタイプを扱う本発明のこの局面の方法において、推測の強さを向上させるために、これらの人種関連ハプロタイプはさらに、以下のハプロタイプのうち少なくとも1つを含みうる:
i)ASIP-Aハプロタイプに対応するASIP遺伝子のヌクレオチド、これには以下が含まれる:配列番号:26のヌクレオチド201[マーカー552]および配列番号:28のヌクレオチド201[マーカー468];
j)DCT-Bハプロタイプに対応するDCT遺伝子のヌクレオチド、これには以下が含まれる:配列番号:33のヌクレオチド451[マーカー710]および配列番号:29のヌクレオチド657[マーカー657];
k)SILV-Aハプロタイプに対応するSILV遺伝子のヌクレオチド、これには以下が含まれる:配列番号:35のヌクレオチド61[マーカー656]および配列番号:36のヌクレオチド61;
l)TYR-Aハプロタイプに対応するTYR遺伝子のヌクレオチド、これには以下が含まれる:配列番号:38のヌクレオチド93[マーカー278]および配列番号:39のヌクレオチド114[マーカー386];もしくは
m)TYRP1-Aハプロタイプに対応するTYRP1遺伝子のヌクレオチド、これには以下が含まれる:配列番号:44のヌクレオチド364[マーカー217485]、配列番号:48のヌクレオチド169[マーカー886933]、および配列番号:49のヌクレオチド214[マーカー886937];またはi)からm)までの任意の組み合わせ。
【0161】
好ましい人種関連ハプロタイプおよび好ましい人種関連ハプロタイプを扱う本発明のこの局面の方法において、少なくとも1つの人種関連ハプロタイプアレルには、以下のハプロタイプアレルの組み合わせが含まれる:MC1R-Aハプロタイプ、OCA2-Aハプロタイプ、OCA2Bハプロタイプ、OCA2-Cハプロタイプ、OCA2-Dハプロタイプ、OCA2-Eハプロタイプ、TYRP1-Bハプロタイプ、およびDCT-Bハプロタイプ。好ましい一例として、これらの方法において、以上のa)〜m)の少なくとも1つのハプロタイプアレルは、ASIP-Aハプロタイプ、DCT-Bハプロタイプ、SILV-Aハプロタイプ、TYR-Aハプロタイプ、およびTYRP1-Aハプロタイプのそれぞれにおいて少なくとも1つのハプロタイプアレルを含みうる。
【0162】
以上に開示した人種関連ハプロタイプを扱うある種の方法において、人種関連ハプロタイプアレルは、以下のものを含むハプロタイプアレルの組み合わせである:
a)MC1R-AハプロタイプアレルCCC;
b)OCA2-AハプロタイプアレルTTAA、CCAG、またはTTAG;
c)OCA2-BハプロタイプアレルCAA、CGA、CAC、またはCGC;
d)OCA2-CハプロタイプアレルGGAA、TGAA、またはTAAA;
e)OCA2-DハプロタイプアレルAUGまたはGGG;
f)OCA2-EハプロタイプアレルGCA;
g)TYRP1-BハプロタイプアレルTC;および
h)DCTB遺伝子ハプロタイプアレルCTGまたはGTG。
【0163】
さらに、推測の強さをさらに向上させるために、人種に関するハプロタイプのすべてを含むこの方法はさらに、以下のものを含むハプロタイプアレルの組み合わせを含みうる、
i)ASIP-Aハプロタイプアレル「GT」または「AT」;
j)DCT-Bハプロタイプアレル「TA」または「TG」;
k)SILV-Aハプロタイプアレル「TC」または「CC」;
l)TYR-Aハプロタイプアレル「GA」、「AA」、または「GG」;および
m)TYRP1-Bハプロタイプアレル「GTG」、「GTT」、または「TTT」。
【0164】
もう1つの例として、本発明のこの局面による方法は、眼の濃淡または毛の濃淡に関して選好的に分離されるものとして本明細書中に開示されるSNPの少なくとも1つに関してヌクレオチド・オカレンスを決定することを含みうる。これらのSNPには以下のものが含まれる:
配列番号:1のヌクレオチド609[マーカー702]、配列番号:2のヌクレオチド501[マーカー650]、配列番号:3のヌクレオチド256[マーカー675]、配列番号:4のヌクレオチド442[マーカー217438]、配列番号:5のヌクレオチド619[マーカー217439]、配列番号:6のヌクレオチド646[マーカー217441];配列番号:7のヌクレオチド135[マーカー217458]、配列番号:8のヌクレオチド193[マーカー886894]、配列番号:9のヌクレオチド228[マーカー886895]、配列番号:10のヌクレオチド245[マーカー886896]、配列番号:11のヌクレオチド189[217452]、配列番号:12のヌクレオチド573[712052]、配列番号:13のヌクレオチド245[マーカー886994]、配列番号:14のヌクレオチド643[マーカー712057]、配列番号:15のヌクレオチド539[マーカー712058]、配列番号:16のヌクレオチド418[マーカー712060]、配列番号:17のヌクレオチド795[マーカー712064]、配列番号:18のヌクレオチド535[マーカー712054]、配列番号:19のヌクレオチド554[マーカー712056]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:21のヌクレオチド225[マーカー217455]、配列番号:22のヌクレオチド170[マーカー712061]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:23のヌクレオチド172[マーカー886938]、配列番号:24のヌクレオチド216[マーカー886943]、配列番号:25のヌクレオチド61[マーカー560]、配列番号:26のヌクレオチド201[マーカー552]、配列番号:27のヌクレオチド201[マーカー559]、配列番号:28のヌクレオチド201[マーカー468]、配列番号:29のヌクレオチド657[マーカー657]、配列番号:30のヌクレオチド599[マーカー674]、配列番号:31のヌクレオチド267[マーカー632]、配列番号:32のヌクレオチド61[マーカー701]、配列番号:33のヌクレオチド451[マーカー710];配列番号:34のヌクレオチド326[マーカー217456]、配列番号:35のヌクレオチド61[マーカー656]、配列番号:36のヌクレオチド61、配列番号:37のヌクレオチド61[マーカー637]、配列番号:38のヌクレオチド93[マーカー278]、配列番号:39のヌクレオチド114[マーカー386]、配列番号:40のヌクレオチド558[マーカー217480]、配列番号:41のヌクレオチド221[マーカー951497]、配列番号:42のヌクレオチド660[マーカー217468]、配列番号:43のヌクレオチド163[マーカー217473]、配列番号:44のヌクレオチド364[マーカー217485]、配列番号:45のヌクレオチド473[マーカー217486]、配列番号:46のヌクレオチド314[マーカー869787]、配列番号:47のヌクレオチド224[マーカー869745]、配列番号:48のヌクレオチド169[マーカー886933]、配列番号:49のヌクレオチド214[マーカー886937]、または配列番号:50のヌクレオチド903[マーカー886942]、配列番号:51のヌクレオチド207[マーカー217459]、配列番号:52のヌクレオチド428[マーカー217460]、配列番号:48のヌクレオチド422[マーカー217487]、配列番号:54のヌクレオチド459[マーカー217489]、配列番号:55のヌクレオチド1528[マーカー554353]、配列番号:56のヌクレオチド1093[マーカー554363]、配列番号:57のヌクレオチド1274[マーカー554368]、配列番号:58のヌクレオチド1024[マーカー554370]、配列番号:59のヌクレオチド1159[マーカー554371]、配列番号:60のヌクレオチド484[マーカー615921]、配列番号:61のヌクレオチド619[マーカー615925]、配列番号:62のヌクレオチド551[マーカー615926]、配列番号:63のヌクレオチド1177[マーカー664784]、配列番号:64のヌクレオチド1185[マーカー664785]、配列番号:65のヌクレオチド1421[664793]、配列番号:66のヌクレオチド1466[マーカー664802]、配列番号:67のヌクレオチド1311[マーカー664803]、配列番号:68のヌクレオチド808[マーカー712037]、配列番号:69のヌクレオチド1005[マーカー712047]、配列番号:70のヌクレオチド743[マーカー712051]、配列番号:71のヌクレオチド418[マーカー712055]、配列番号:72のヌクレオチド884[マーカー712059]、配列番号:73のヌクレオチド744[マーカー712043]、配列番号:74のヌクレオチド360[マーカー756239]、配列番号:75のヌクレオチド455[マーカー756251]、配列番号:76のヌクレオチド519[マーカー809125]、配列番号:77のヌクレオチド277[マーカー869769]、配列番号:78のヌクレオチド227[マーカー869772]、配列番号:79のヌクレオチド270[マーカー869777]、配列番号:80のヌクレオチド216[マーカー869784]、配列番号:81のヌクレオチド172[マーカー869785]、配列番号:82のヌクレオチド176[マーカー869794]、配列番号:83のヌクレオチド145[マーカー869797]、配列番号:84のヌクレオチド164[マーカー869798]、配列番号:85のヌクレオチド166[マーカー869802]、配列番号:86のヌクレオチド213[マーカー869809]、配列番号:87のヌクレオチド218[マーカー869810]、配列番号:88のヌクレオチド157[マーカー869813]、配列番号:89のヌクレオチド837[マーカー886934]、配列番号:90のヌクレオチド229[マーカー886993]、配列番号:91のヌクレオチド160[マーカー951526]、またはそれらの任意の組み合わせ。
【0165】
もう1つの例として、本発明のこの局面による方法は、ヌクレオチド・オカレンスを以下の少なくとも1つに関して決定することを含みうる:
配列番号:4のヌクレオチド442[マーカー217438]、配列番号:5のヌクレオチド619[マーカー217439]、配列番号:6のヌクレオチド646[マーカー217441];配列番号:8のヌクレオチド193[マーカー886894]、配列番号:9のヌクレオチド228[マーカー886895]、配列番号:10のヌクレオチド245[マーカー886896]、配列番号:11のヌクレオチド189[217452]、配列番号:12のヌクレオチド573[712052]、配列番号:13のヌクレオチド245[マーカー886994]、配列番号:14のヌクレオチド643[マーカー712057]、配列番号:15のヌクレオチド539[マーカー712058]、配列番号:17のヌクレオチド795[マーカー712064]、配列番号:18のヌクレオチド535[マーカー712054]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:21のヌクレオチド225[マーカー217455]、配列番号:40のヌクレオチド558[マーカー217480]、配列番号:41のヌクレオチド221[マーカー951497]、配列番号:42のヌクレオチド660[マーカー217468]、配列番号:43のヌクレオチド163[マーカー217473]、配列番号:44のヌクレオチド364[マーカー217485]、配列番号:45のヌクレオチド473[マーカー217486]、配列番号:46のヌクレオチド314[マーカー869787]、配列番号:47のヌクレオチド224[マーカー869745]、配列番号:48のヌクレオチド169[マーカー886933]、配列番号:49のヌクレオチド214[マーカー886937]、配列番号:51のヌクレオチド207[マーカー217459]、配列番号:52のヌクレオチド428[マーカー217460]、配列番号:48のヌクレオチド422[マーカー217487]、配列番号:54のヌクレオチド459[マーカー217489]、配列番号:55のヌクレオチド1528[マーカー554353]、配列番号:56のヌクレオチド1093[マーカー554363]、配列番号:57のヌクレオチド1274[マーカー554368]、配列番号:58のヌクレオチド1024[マーカー554370]、配列番号:59のヌクレオチド1159[マーカー554371]、配列番号:60のヌクレオチド484[マーカー615921]、配列番号:61のヌクレオチド619[マーカー615925]、配列番号:62のヌクレオチド551[マーカー615926]、配列番号:63のヌクレオチド1177[マーカー664784]、配列番号:64のヌクレオチド1185[マーカー664785]、配列番号:65のヌクレオチド1421[664793]、配列番号:66のヌクレオチド1466[マーカー664802]、配列番号:67のヌクレオチド1311[マーカー664803]、配列番号:68のヌクレオチド808[マーカー712037]、配列番号:69のヌクレオチド1005[マーカー712047]、配列番号:70のヌクレオチド743[マーカー712051]、配列番号:71のヌクレオチド418[マーカー712055]、配列番号:72のヌクレオチド884[マーカー712059]、配列番号:73のヌクレオチド744[マーカー712043]、配列番号:74のヌクレオチド360[マーカー756239]、配列番号:75のヌクレオチド455[マーカー756251]、配列番号:76のヌクレオチド519[マーカー809125]、配列番号:77のヌクレオチド277[マーカー869769]、配列番号:78のヌクレオチド227[マーカー869772]、配列番号:79のヌクレオチド270[マーカー869777]、配列番号:80のヌクレオチド216[マーカー869784]、配列番号:81のヌクレオチド172[マーカー869785]、配列番号:82のヌクレオチド176[マーカー869794]、配列番号:83のヌクレオチド145[マーカー869797]、配列番号:84のヌクレオチド164[マーカー869798]、配列番号:85のヌクレオチド166[マーカー869802]、配列番号:86のヌクレオチド213[マーカー869809]、配列番号:87のヌクレオチド218[マーカー869810]、配列番号:88のヌクレオチド157[マーカー869813]、配列番号:89のヌクレオチド837[マーカー886934]、配列番号:90のヌクレオチド229[マーカー886993]、配列番号:91のヌクレオチド160[マーカー951526]、またはそれらの任意の組み合わせ。実施例14は、以上に挙げた64種の一群のSNPを用いて、アジア人、アフリカ人、および白人系統の試料におけるDNA標本の民族的由来をほぼ完全な精度で推測しうることを開示している。
【0166】
本発明はまた、個体を共通の特性を有する群のメンバーとして分類するための方法にも関する。このような方法は、例えば、以下のものに対応するSNPである、個体のポリヌクレオチドにおけるSNPのヌクレオチド・オカレンスを同定することによって行いうる:配列番号:45のヌクレオチド473[マーカー217486]、配列番号:47のヌクレオチド224[マーカー869745]、配列番号:46のヌクレオチド314[マーカー869787]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:9のヌクレオチド228[マーカー886895]、配列番号:10のヌクレオチド245[マーカー886896]、配列番号:48のヌクレオチド169[マーカー886933]、配列番号:49のヌクレオチド214[マーカー886937]、配列番号:13のヌクレオチド245[マーカー886994]、配列番号:8のヌクレオチド193[マーカー886894]、配列番号:23のヌクレオチド172[マーカー886938]、配列番号:24のヌクレオチド216[マーカー886943]、もしくは配列番号:50のヌクレオチド903[マーカー886942]、またはそれらの任意の組み合わせ。
【0167】
SNPを同定するための上記の方法は、本発明のこの局面に関するSNPにおけるポリヌクレオチドのオカレンスを同定するために用いることができる。例えば、本発明のこの局面による方法は、SNPのヌクレオチド・オカレンスを同定するための増幅反応、プライマー伸長反応、またはイムノアッセイ法を含みうる。
【0168】
もう1つの局面において、本発明は、ヒト体色遺伝子の一塩基多型(SNP)に関してヌクレオチド・オカレンスを同定するための方法を提供する。本方法は以下を含む:
i)ポリヌクレオチドを含む試料を、特異的結合対のメンバーとともにインキュベートする段階。この際、特異的結合対のメンバーは多型であると疑われるポリヌクレオチドまたはその付近と特異的に結合し、ポリヌクレオチドは以下の少なくとも1つに対応するヌクレオチド・オカレンスの1つを含む:配列番号:45のヌクレオチド473[マーカー217486]、配列番号:47のヌクレオチド224[マーカー869745]、配列番号:46のヌクレオチド314[マーカー869787]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:9のヌクレオチド228[マーカー886895]、配列番号:10のヌクレオチド245[マーカー886896]、配列番号:48のヌクレオチド169[マーカー886933]、配列番号:49のヌクレオチド214[マーカー886937]、配列番号:13のヌクレオチド245[マーカー886994]、配列番号:8のヌクレオチド193[マーカー886894]、配列番号:23のヌクレオチド172[マーカー886938]、配列番号:24のヌクレオチド216[マーカー886943]もしくは配列番号:50のヌクレオチド903[マーカー886942]、またはそれらの任意の組み合わせ;および
ii)特異的結合対のメンバーの選択的結合を検出する段階。
選択的結合によってヌクレオチド・オカレンスの存在が示される。その多型に関するヌクレオチド・オカレンスを検出することができる。
【0169】
もう1つの局面において、本発明は、ポリヌクレオチド中の一塩基多型(SNP)のヌクレオチド・オカレンスを決定するための単離されたプライマー対を提供する。プライマー対の順方向プライマーは一方の鎖のSNP位置の上流にあるポリヌクレオチドと選択的に結合し、逆方向プライマーは相補鎖のSNP位置の上流にあるポリヌクレオチドと選択的に結合する。本発明のこの局面に関して、SNP位置は以下のものに対応する:配列番号:45のヌクレオチド473[マーカー217486]、配列番号:47のヌクレオチド224[マーカー869745]、配列番号:46のヌクレオチド314[マーカー869787]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:9のヌクレオチド228[マーカー886895]、配列番号:10のヌクレオチド245[マーカー886896]、配列番号:48のヌクレオチド169[マーカー886933]、配列番号:49のヌクレオチド214[マーカー886937]、配列番号:13のヌクレオチド245[マーカー886994]、配列番号:8のヌクレオチド193[マーカー886894]、配列番号:23のヌクレオチド172[マーカー886938]、配列番号:24のヌクレオチド216[マーカー886943]または配列番号:50のヌクレオチド903[マーカー886942]。このプライマー対は上記のように増幅反応に用いることができ、これは当技術分野で周知である。
【0170】
もう1つの局面において、本発明は、ポリヌクレオチド中の一塩基多型(SNP)のヌクレオチド・オカレンスを決定するための単離された特異的結合対のメンバーを提供する。本発明のこの局面に関する特異的結合対のメンバーは、ポリヌクレオチドと以下の箇所またはその付近で特異的に結合する:配列番号:45のヌクレオチド473[マーカー217486]、配列番号:47のヌクレオチド224[マーカー869745]、配列番号:46のヌクレオチド314[マーカー869787]、配列番号:20のヌクレオチド210[マーカー886892]、配列番号:9のヌクレオチド228[マーカー886895]、配列番号:10のヌクレオチド245[マーカー886896]、配列番号:48のヌクレオチド169[マーカー886933]、配列番号:49のヌクレオチド214[マーカー886937]、配列番号:13のヌクレオチド245[マーカー886994]、配列番号:8のヌクレオチド193[マーカー886894]、配列番号:23のヌクレオチド172[マーカー886938]、配列番号:24のヌクレオチド216[マーカー886943]または配列番号:50のヌクレオチド903[マーカー886942]。
【0171】
特異的結合対のメンバーは、SNPを同定するための上記の方法を用いて、SNP(例えば、体色関連SNP)でのヌクレオチド・オカレンスを同定するために用いうる。多くの種類の特異的結合対メンバーが当技術分野では知られている。特異的結合対のメンバーは、ポリヌクレオチドプローブ、抗体、またはプライマー伸長反応の基質でありうる。特異的結合対のメンバーがプライマー伸長反応の基質である方法の場合、特異的結合対のメンバーは、SNPを末端ヌクレオチドとして含む配列の箇所でポリヌクレオチドと結合するプライマーである。以上に考察したように、SNP-IT(Orchid BioSciences)などの方法は、SNP座位でのヌクレオチド・オカレンスを同定するために、末端ヌクレオチドがSNP座位にあるヌクレオチドと選択的に結合するプライマーを利用するプライマー伸長反応を用いる。
【0172】
もう1つの局面において、本発明は、ヒトOCA2遺伝子の少なくとも30ヌクレオチドを含む単離されたポリヌクレオチドであって、以下のうち1つまたは複数を含むポリヌクレオチドを提供する:配列番号:8のヌクレオチド193に対応するヌクレオチドにあるチミジン残基[マーカー886894]、配列番号:9のヌクレオチド228に対応するヌクレオチドにあるグアニジン残基[マーカー886895]、配列番号:20のヌクレオチド210に対応するヌクレオチドにあるシチジン残基[マーカー886892]、配列番号:10のヌクレオチド245に対応するヌクレオチドにあるチミジン残基[マーカー886896]、配列番号:13のヌクレオチド245に対応するヌクレオチドにあるアデノシン残基[マーカー886994]またはそれらの組み合わせ。本発明のこの局面のある種の態様において、単離されたポリヌクレオチドは50、100、150、200、250、500、1000ヌクレオチド長などでありうる。本発明のこの局面のある種の態様において、単離されたポリヌクレオチドは少なくとも50、少なくとも100、少なくとも150、少なくとも200、少なくとも250、少なくとも500、少なくとも1000ヌクレオチド長などでありうる。
【0173】
もう1つの局面において、本発明は、ヒトTYRP遺伝子の少なくとも約30ヌクレオチドを含むポリヌクレオチドであって、以下のうち1つまたは複数を含むポリヌクレオチドを提供する:配列番号:23のヌクレオチド172に対応するヌクレオチドにあるチミジン残基[マーカー886938]、配列番号:24のヌクレオチド216に対応するヌクレオチドにあるチミジン残基[マーカー886943]、配列番号:45のヌクレオチド473に対応するヌクレオチドにあるチミジン残基[マーカー217486]、配列番号:47のヌクレオチド224に対応するヌクレオチドにあるシチジン残基[マーカー869745]、配列番号:46のヌクレオチド314に対応するヌクレオチドにあるグアニジン残基[マーカー869787]、配列番号:48のヌクレオチド169に対応するヌクレオチドにあるシチジン残基[マーカー886933]、配列番号:49のヌクレオチド214に対応するヌクレオチドにあるチミジン残基[マーカー886937]、配列番号:50のヌクレオチド903に対応するヌクレオチドにあるアデノシン残基[マーカー886942]またはそれらの組み合わせ。本発明のこの局面のある種の態様において、単離されたポリヌクレオチドは50、100、150、200、250、500、1000ヌクレオチド長などでありうる。本発明のこの局面のある種の態様において、単離されたポリヌクレオチドは少なくとも50、少なくとも100、少なくとも150、少なくとも200、少なくとも250、少なくとも500、少なくとも1000ヌクレオチド長などでありうる。
【0174】
もう1つの局面において、本発明は、少なくとも30ヌクレオチド長である単離されたポリヌクレオチドであって、以下のものを含む単離されたポリヌクレオチドを提供する:
a)ヌクレオチドCTGもしくはGTGが、配列番号:1のヌクレオチド609[マーカー702]、配列番号:2のヌクレオチド501[マーカー650]および配列番号:3のヌクレオチド256[マーカー675]のそれぞれに対応する位置に存在する、DCT遺伝子のセグメント;
b)ヌクレオチドCCC、CTC、TCCもしくはCCTが、配列番号:4のヌクレオチド442[217438]、配列番号:5のヌクレオチド619[217439]および配列番号:6のヌクレオチド646[217441]のそれぞれに対応する位置に存在する、MC1R遺伝子のセグメント;
c)ヌクレオチドTTAA、CCAGもしくはTTAGが、配列番号:7のヌクレオチド135[217458]、配列番号:8のヌクレオチド193[886894]、配列番号:9のヌクレオチド228[886895]および配列番号:10のヌクレオチド245[886896]のそれぞれに対応する位置に存在する、OCA2遺伝子のセグメント;
d)ヌクレオチドCAA、CGA、CACもしくはCGCが、配列番号:11のヌクレオチド189[217452]、配列番号:12のヌクレオチド573[712052]および配列番号:13のヌクレオチド245[886994]のそれぞれに対応する位置に存在する、OCA2遺伝子のセグメント;
e)ヌクレオチドGGAA、TGAAおよびTAAAが、配列番号:14のヌクレオチド643[712057]、配列番号:15のヌクレオチド539[712058]、配列番号:16のヌクレオチド418[712060]および配列番号:17のヌクレオチド795[712064]のそれぞれに対応する位置に存在する、OCA2遺伝子のセグメント;
f)ヌクレオチドAGGもしくはGGGが、配列番号:18のヌクレオチド535[712054]、配列番号:19のヌクレオチド554[712056]および配列番号:20のヌクレオチド210[886892]のそれぞれに対応する位置に存在する、OCA2遺伝子のセグメント;
g)ヌクレオチドGCAが、配列番号:21のヌクレオチド225[217455]、配列番号:22のヌクレオチド170[712061]および配列番号:20のヌクレオチド210[886892]のそれぞれに対応する位置に存在する、OCA2遺伝子のセグメント;または
h)ヌクレオチドTCが、配列番号:23のヌクレオチド172[886938]および配列番号:24のヌクレオチド216[886943]のそれぞれに対応する位置に存在する、TYRP1遺伝子のセグメント。この単離されたヌクレオチドは、眼の色または眼の濃淡に関する浸透性ハプロタイプのアレルを含む。いくつかの例において、単離されたポリヌクレオチドはOCA2遺伝子に由来し、c〜gの任意の組み合わせを含む。
【0175】
もう1つの局面において、本発明は、以下のものを含む、長さが少なくとも30位(position)である単離されたポリヌクレオチドを提供する:
a)ヌクレオチドGTもしくはATが、配列番号:26のヌクレオチド201[552]および配列番号:28のヌクレオチド201[468]のそれぞれに対応する位置に存在する、ASIP遺伝子のセグメント;
b)ヌクレオチドTAもしくはTGが、配列番号:451のヌクレオチド33[710]および配列番号:29のヌクレオチド356[657]のそれぞれに対応する位置に存在する、DCT遺伝子のセグメント;
c)ヌクレオチドTC、TTもしくはCCが、配列番号:35のヌクレオチド61[656]および配列番号:36のヌクレオチド61[662]のそれぞれに対応する位置に存在する、SILV遺伝子のセグメント;
d)ヌクレオチドGA、AAもしくはGGが、配列番号:38のヌクレオチド93[278]および配列番号:39のヌクレオチド114[386]のそれぞれに対応する位置に存在する、TYR遺伝子のセグメント;または
e)ヌクレオチドGTG、TTGもしくはGTTが、配列番号:44のヌクレオチド442[217485]、配列番号:48のヌクレオチド442[886933]および配列番号:49のヌクレオチド442[886937]のそれぞれに対応する位置に存在する、TYRP1遺伝子のセグメント。
【0176】
この単離されたポリヌクレオチドは、眼の色または眼の濃淡に関する潜在性ハプロタイプのアレルを含む。本発明のこの局面のある種の態様において、単離されたポリヌクレオチドは50、100、150、200、250、500、1000ヌクレオチド長などでありうる。
【0177】
もう1つの局面において、本発明は、以下のものを含む、長さが少なくとも30位である単離されたポリヌクレオチドを提供する:
a)ヌクレオチドGAもしくはAAが、配列番号:27のヌクレオチド201[559]および配列番号:25のヌクレオチド61[560]のそれぞれに対応する位置に存在する、ASIP遺伝子のセグメント;
b)ヌクレオチドCCC、CTC、TCCもしくはCCTが、配列番号:4のヌクレオチド442[217438]、配列番号:5のヌクレオチド619[217439]および配列番号:6のヌクレオチド646[217441]のそれぞれに対応する位置に存在する、MC1R遺伝子のセグメント;
c)ヌクレオチドAGGもしくはAGAが、配列番号:16のヌクレオチド418[712060]、配列番号:20のヌクレオチド210[886892]および配列番号:10のヌクレオチド245[886896]のそれぞれに対応する位置に存在する、OCA2遺伝子のセグメント;
d)ヌクレオチドAGTもしくはATTが、配列番号:21のヌクレオチド225[217455]、配列番号:14のヌクレオチド643[712057]および配列番号:8のヌクレオチド193[886894]のそれぞれに対応する位置に存在する、OCA2遺伝子セグメント;
e)ヌクレオチドTGが、配列番号:7のヌクレオチド135[217458]および配列番号:19のヌクレオチド554[712056]のそれぞれに対応する位置に存在する、OCA2遺伝子のセグメント;
f)ヌクレオチドGAもしくはAAが、配列番号:18のヌクレオチド535[712054]および配列番号:9のヌクレオチド228[886895]のそれぞれに対応する位置に存在する、OCA2遺伝子のセグメント;または
g)ヌクレオチドAAもしくはTAが、配列番号:45のヌクレオチド442[217486]および配列番号:49のヌクレオチド442[886937]のそれぞれに対応する位置に存在する、TYRP遺伝子のセグメント、またはそれらの任意の組み合わせ。
【0178】
この単離されたポリヌクレオチドは、眼の色または眼の濃淡に関する浸透性ハプロタイプのアレルの1つまたは任意の組み合わせを含む。ある種の例において、単離されたポリヌクレオチドはOCA2遺伝子に由来し、c〜fの任意の組み合わせを含む。本発明のこの局面のある種の態様において、単離されたポリヌクレオチドは50、100、150、200、250、500、1000ヌクレオチド長などでありうる。本発明のこの局面のある種の態様において、単離されたポリヌクレオチドは少なくとも50、少なくとも100、少なくとも150、少なくとも200、少なくとも250、少なくとも500、少なくとも1000ヌクレオチド長などでありうる。
【0179】
もう1つの局面において、本発明は、体色形質と統計的に関連づけられる、遺伝子(体色遺伝子を含む)SNP、SNPアレル、ハプロタイプおよびハプロタイプアレルを同定するための方法を提供する。本発明のこの局面は、例えば、商業的に価値のある研究手法を提供する。本アプローチは一般に以下の通りに行うことができる:
1)メラニンの合成、分解および沈着に関与する可能性が高い遺伝子をヒトゲノムデータベースから選択する;
2)遺伝子のそれぞれに関して各プロモーター、エクソンおよび3' UTRに隣接するプライマーの設計;統計的に有意な試料を得るためのさまざまな民族的背景を有する十分数のドナー(例えば、約500件の多民族ドナー)において、これらの領域のそれぞれに対応するDNAの増幅およびシークエンシング;ならびに集団内で差異のある各遺伝子の各領域内の位置を同定することを目的とした、配列を互いに比較するためのアルゴリズムの利用;により、選択した遺伝子における共通の遺伝的変異を同定し、関連遺伝子のそれぞれに関するマップを作成する;
3)遺伝子マップを用いて、毛、眼および皮膚の色(ならびに民族性)が既知である、かなりの数の個体、一般には少なくとも100個体、より好ましくは少なくとも200個体を多型に関して評価する、大規模な遺伝子型判定実験を設計および遂行する;ならびに
4)段階3)で得られた結果を用いて、量的および統計的に体色と関連づけられる遺伝子、多型および多型のセット(ハプロタイプを含む)を同定する。
【0180】
実施例4、14および17は、以上に提示した体色関連SNPおよびSNPアレルを発見するための一般的なアプローチを例示している。例えば、体色関連SNPおよびSNPアレルを、さまざまなレベルの眼、皮膚および皮膚の色合い(色)を示す患者の血液試料由来のDNAを用いて発見することができる。眼の色、毛の色、皮膚の色および人種に関するデータを収集し、血液試料を提供した患者に関して分析することもできる。SNPまたはSNP候補のアレルを同定するためのアッセイ法は、例えば、ハイスループット遺伝子型判定のためのOrchid SNPstream 25K装置(Orchid BioSciences, Inc., Princeton, NJ)を用いて実施しうる。SNPの箇所での核酸オカレンスを同定するための上記のような当技術分野で知られた他のアッセイ法をこの段階に用いることもでき、これは当業者には直ちに理解される。
【0181】
患者試料からの標本は、ポリメラーゼ、例えば、Pfuターボ耐熱性DNAポリメラーゼ、Taqポリメラーゼまたはそれらの組み合わせなどを用いる増幅のためのテンプレートとして用いうる。増幅は標準的条件を用いて行いうる。例えば、増幅は1.5mM MgCl2、5mM KCl、1mM Tris、pH 9.0および0.1%Triton X-100非イオン性界面活性剤の存在下で行える。増幅産物をClontech(Palo Alto CA)PCRクローニングキットを用いてT-ベクター中にクローニングし、塩化カルシウムコンビテント細胞(Stratagene;La Jolla CA)中に形質転換により導入した上で、LB-アンピシリンプレートに播いて一晩増殖させてもよい。
【0182】
クローンを各プレートから選択し、プロメガウィザード(Promega Wizard)またはキアゲン(Qiagen)プラスミド精製キットを用いるミニプレップによって単離した上で、PEアプライドバイオシステムズのビッグダイターミネーターシークエンシング化学(PE Applied Biosystems Big Dye Terminator Sequencing Chemistry)などを用いる標準的な方法を用いてシークエンシングを行うことができる。配列からベクター配列を削除し、品質を整えた上で、インターネットを基盤とするリレーショナルデータベースシステムに寄託してもよい。
【0183】
候補SNPを、体色関連または人種関連(以下を参照)遺伝子(「データマイニング(data mining)」)から、例えば、NCBI SNPデータベース、ヒトゲノム固有遺伝子データベース(Unigene;NCBI)を用いて発見することもできる。遺伝子に関する配列ファイルを所有権のあるデータベースまたは公開データベースからダウンロードし、(SNiPDOCSMシステム;DNAPrint genomics, Inc.;Sarasota FL)などのSNP/ハプロタイプ自動パイプライン探索ソフトウエアシステムに入力することができる。このシステムは配列の中から候補SNPを見いだし、これらのSNPの点から配列に対してハプロタイプを記録する。本ソフトウエアは候補SNPを選択する際に、ユーザーが指定したストリンジェンシー変数の使用、PHRED品質管理スコアの使用などを含む、さまざまな品質管理基準を用いる(2001年9月26日に提出された米国特許出願第09/964,059号を参照のこと)。
【0184】
本明細書の実施例の項に例示され、そこでさらに詳細に説明されているように、本発明は、浸透性ハプロタイプアレルを発見するための方法を提供する。例えば、本方法は、反復的な経験的アプローチを用いて、さまざまな形質値を有する個体を統計的に分離する目的で、遺伝子内の考えられるすべてのSNPの組み合わせのハプロタイプアレルを検証することができる。または、集団内に発見された好ましいハプロタイプアレルを分析することもできる。
【0185】
もう1つの局面において、本発明は、体色または人種に関連した一塩基多型(SNP)を同定するための方法を提供する。本方法は以下を含む:
i)体色関連遺伝子または人種関連遺伝子の候補SNPを同定する段階;
ii)SNPが統一性のある遺伝パターンを示すアレルを含む遺伝子型クラスを有し、少なくとも1つの人種におけるマイナーアレル頻度が0.01を上回ることを決定し、それによってバリデートされたSNPを同定する段階;
iii)バリデートされたSNPが、体色表現型または人種のクラスが異なる個体間で有意に異なる遺伝子型分布およびアレル頻度を示すことを決定し、それによって体色関連SNPまたは人種関連SNPを同定する段階。
【0186】
本発明はまた、例えば本発明の方法を行うために用いうる、キットにも関する。したがって、1つの態様において、本発明は、体色関連SNPのハプロタイプアレルを同定するためのキットを提供する。このようなキットは例えば、本発明のオリゴヌクレオチドプローブ、プライマーもしくはプライマー対(このようなオリゴヌクレオチドは、例えば、本明細書中に開示するようにSNPまたはハプロタイプアレルを同定するために有用である)を含みうる;または、遺伝的体色形質、人種もしくはそれらの組み合わせと関連のある1つもしくは複数のヌクレオチド・オカレンス(このようなポリヌクレオチドは、例えば、被験試料と並行して検討しうる標準(対照)として有用である)を含む、体色遺伝子、生体異物遺伝子もしくは他の関連遺伝子の一部分に対応する1つもしくは複数のポリヌクレオチドを含みうる。さらに、本発明のキットは、例えば、本発明の方法を行うための試薬も含むことができ、これには例えば、プローブもしくはプライマーを標識するために用いうる、またはプローブもしくはプライマーを用いて生成された産物(例えば、増幅産物)中に組み込まれうる1つもしくは複数の検出可能な標識;プライマー伸長手順もしくは増幅手順を含む方法のために有用でありうる1つもしくは複数のポリメラーゼ、またはオリゴヌクレオチド連結アッセイ法もしくはミスマッチ切断アッセイ法を行うために有用でありうる他の1つもしくは複数の酵素(例えば、リガーゼまたはエンドヌクレアーゼ);および/または、本発明の方法を行うために必要な、もしくはそれを行うことを容易にしうる1つもしくは複数の緩衝液もしくは他の試薬、が含まれる。
【0187】
1つの態様において、本発明のキットは、本発明の1つまたは複数のプライマー対を含み、このようなキットはポリメラーゼ連鎖反応(PCR)などの増幅反応を行うために有用である。また、このようなキットは、例えば、キットのプライマー対を用いてポリヌクレオチドを増幅するための1つまたは複数の試薬も含みうる。プライマー対は、例えば、それらを体色関連SNPのヌクレオチド・オカレンスの決定に用いうるように選択することができ、この際、プライマー対の順方向プライマーは一方の鎖のSNP位置の上流にある標的ポリヌクレオチドの配列と選択的にハイブリダイズし、プライマー対の逆方向プライマーは相補鎖のSNP位置の上流にある標的ポリヌクレオチドの配列と選択的にハイブリダイズする。増幅反応に併せて用いると、そのSNP座位を含む増幅産物が形成される。
【0188】
プライマー対のほかに、本態様において、キットはさらに、SNPのヌクレオチド・オカレンスの1つの増幅産物とは選択的にハイブリダイズするが、他のヌクレオチド・オカレンスのものとはハイブリダイズしないプローブを含みうる。また、この態様において、キットは、増幅産物をテンプレートとして用いるSNP座位にまたがるプライマー伸長反応のために用いうる第3のプライマーも含みうる。この態様において、第3のプライマーは好ましくは、プライマーの3'末端にあるヌクレオチドがSNP座位のヌクレオチド・オカレンスの1つと相補的であるようにSNP座位と結合する。続いてプライマーを、増幅産物をテンプレートとして用いてポリヌクレオチドを合成するためのプライマー伸長反応(好ましくはヌクレオチド・オカレンスがプライマーの3'ヌクレオチドに対して相補的である箇所のみで)に用いることができる。本キットはさらにプライマー伸長反応の成分も含みうる。
【0189】
もう1つの態様において、本発明のキットは、1つもしくは複数のオリゴヌクレオチドプローブまたは1つもしくは複数のプライマーを含む複数の本発明のオリゴヌクレオチドを含み、これには、順方向および/もしくは逆方向プライマー、またはこのようなプローブおよびプライマーもしくはプライマー対の組み合わせが含まれる。このようなキットは、1つまたは複数のSNPまたはハプロタイプアレルを必要に応じて同定するために有用なプローブおよび/またはプライマーを選択するための好都合な源となる。また、このようなキットは、本発明の方法を多重形式で行うことを都合良く可能にするプローブおよび/またはプライマーも含みうる。
【0190】
本キットは、体色関連ハプロタイプアレルの同定を目的としてプローブまたはプライマーを用いるための説明書も含みうる。
【0191】
本発明の方法に従って導かれる推測の強さは、複合的な分類器機能を用いることによって強められる。したがって、本発明の方法の好ましい例において、対象の体色形質または人種に関する推測は分類器機能を用いることによって導かれる。分類器機能は、1つのSNPまたはSNPのセット(例えば、1つのハプロタイプアレルまたは好ましくはハプロタイプアレルの組み合わせ)に関して同定されたヌクレオチド・オカレンス情報を、対象の体色形質または人種に関する推測を導くための一連の規則に適用する。本明細書に含まれる実施例では、分類器機能の開発および遂行のためのさまざまな戦略を提示している。
【0192】
実施例7は、SNPおよびハプロタイプのさまざまな組み合わせに対する統計分析を最大の精度に達するまで行うことにより、分類スキームを同定しうることを示している。集団における体色形質のばらつきの最大量を説明する遺伝学的ソリューションを開発することを目的として、これらのSNPまたはハプロタイプを用いるために、体色形質が既知の個体におけるこれらの位置のそれぞれを組み入れたハプロタイプをスコア化し、個体をその体色形質に関して分解する(例えば、毛の色の濃い個体と薄い個体とを分ける)ための最適なソリューションを得るためにその結果をさまざまに組み合わせることができる。実施例7は、未知の個体が毛の色の濃い群または薄い群のいずれに属するかを分類するための複合的なネステッド・ソリューションを例示している。
【0193】
いくつかの例においては、体色形質の2つの群(例えば、眼の色の濃い群と薄い群)に関する遺伝子型/家系データマトリックスを、SNiPDOCSSMアルゴリズム(DNAPrint genomics, Inc., Sarasota, FL)などのパターン検出アルゴリズムに用いることができる。パターン検出アルゴリズムの目的は、量的(またはメンデル式)遺伝データを、連続的な形質分布(または離散的な形質分布、場合による)に適合させることである。
【0194】
実施例9に例示しているように、用いうる1つの具体的なアプローチはベイズ法であり、これは例えば眼の色のクラスなどの頻度を事前確率として用い、眼の色のクラスにおけるハプロタイプに基づく遺伝子型の頻度をクラス条件付き密度関数として用いる。対象が眼の色の濃淡の所定のクラスに属するという事後確率は、4つの遺伝子のそれぞれに関して導かれた事後確率と、最も高い確率が選択される眼の色のクラスとの単なる積である。本方法によって導かれる推測の強さは、各ハプロタイプ系に関する事後確率に対し、それぞれが単独で示す分散の量に基づいて重み付けを課すことによって強めることができる。
【0195】
さらに、実施例9に例示しているように、複雑な複合遺伝子型を用いる分類規則を構築するためのネステッド統計スキームを開発することができる。ベイズ分類器をこの作業に用いることもできる。しかし、遺伝的アルゴリズムに類似したルーチンが選択可能である。このスキームにおいて、複合遺伝子型(compound genotype)は多数の遺伝子に由来するエレメント(ハプロタイプ対=遺伝子型)を含む。本スキームは分類樹を段階的な様式で構築する。樹の根(root)はランダムに選択されたハプロタイプ系の遺伝子型である。節(node)はランダムに選択された遺伝子型クラスであり、その内部にはさまざまに異なる構成要素である遺伝子型が存在する。複合遺伝子型クラスは複数の複合遺伝子型を含み、その構成要素はハプロタイプ系の別個の組み合わせに由来する。
【0196】
遺伝的分類器に類似するこれらの分類機能戦略においては、辺が根および節を連結して複合遺伝子型クラスを構成している。樹は、まず根のセットを選択し、結線によって規定される新たな複合遺伝子型クラスの内部における眼の色の濃淡が薄い(青色、緑色)個体と濃い(黒、褐色)個体との間の遺伝的区別に基づいて、辺を節へと伸ばすことによって構築しうる(薄茶色は常に、最もメンバーの多い眼の色の濃淡に割り付けられる)。複合遺伝子型クラスの内部では、ペアワイズF統計およびこれに伴うp値を用いて、眼の色の濃淡がさまざまな個体間の遺伝的構造の違いが計測されるが、直接法(exact test)によるp値を用いた場合も同様の結果が得られている。ハプロタイプクラスが不確かな個体(確実性が75%未満)は棄却し、「分類不能」と分類する。根からのパスにまだ組み込まれていないすべての可能な節を、新たな分枝段階の際に検討する。眼の色の濃淡のクラス間で最も弁別的な区分(すなわち、p値が最も低い)が得られる分枝を選択する。
【0197】
新たな複合遺伝子型クラス内に遺伝的構造が存在しない場合には、考慮すべきハプロタイプ系がこれ以上ない場合、または複合遺伝子型に関するサンプルサイズがある所定の閾値未満である場合(この場合には「判定されず(no-decision)」と指示される)を除き、別の節(ハプロタイプ)を選択して可能な分枝について検討する。新たな複合遺伝子型クラスに関する最も低いp値が有意であれば、有意なχ二乗残差を示す構成要素の複合遺伝子型から規則を作成する。この場合には、複合遺伝子型クラス内の遺伝子型のうち説明可能でない(χ二乗残差が有意でない)ものはクラス内の残りの複合遺伝子型とは分離されて新たなネステッドノードを形成し、そこからさらに分枝を行わせる。ネステッドノードは最初は常に新たな複合遺伝子型クラスを表す。このネステッドノードからの分枝によって分類規則を生成することができなければ、アルゴリズムをネステッドノードの由来である複合遺伝子型クラスに戻し、構成要素であるN個の複合遺伝子型についてN個のネステッドノードを再び生成させる。いずれの場合にも、ネステッドノードは、眼の色の濃淡のクラス間に統計的に有意な集団構造の差が認められる節のみから生成される。その結果、このアルゴリズムは、特定の遺伝的背景において、知ろうとするハプロタイプ系のさまざまな組み合わせによってもたらされる最大量の遺伝分散を可能とする。ひとたび樹が完成すれば、それから生じた規則を、各個体の人種または体色形質、例えば眼の濃淡の予測に用いることができる。予測率が良好であれば(例えば、95%またはそれ以上)このプロセスは終了し、そうでなければ、根に新たなハプロタイプ系を用いてこのプロセスを再び開始する。
【0198】
分類器機能を、他の分類方法、例えば、Leo Brieman Charles J. Stone Richard A. Olshen Jerome H. Friedmanによる「分類樹および回帰樹(Classification and Regression Trees)」(Wadsworth International Group, Belmont, CA, 1984)、または以下のコンピュータプログラムに提供されているものを用いて遂行することもできる(StatSoftから分類分析用に販売されているもの(STATISTICAの商標):QUEST(Loh & Shih, 1997)およびC&RT(Breimanら、1984)プログラム、ならびにFACT(Loh & Vanichestakul, 1988)およびTHAID(Morgan & Messenger, 1973)。
【0199】
分類樹を個々のハプロタイプに対して適用することもでき、または、分類樹を用いて導かれる推測の精度を向上させるために、ハプロタイプの組み合わせに対して適用することもできる。
【0200】
実施例6は、ハプロタイプと表現型との間の遺伝的関連を、分岐図(cladogram)または最節約樹(parsimony tree)を用いて検証するための一般的な方法を考察している。最節約樹において、別のものから1つの変異段階を経たハプロタイプは線によって区分され、遺伝子内の二多型性(biallelic)位置は二進法形式(1および0)で表されている。分岐図または樹の類似領域に存在するハプロタイプは、共通の表現型属性を有する傾向がある。この仮定は、互いに近接した位置にあるハプロタイプはランダムに選択されたハプロタイプよりも多くの配列が共通しており、遺伝子の機能の多くを決定するのはその配列であることからみて妥当なものである。このため、分岐図を用いるハプロタイプ分析は、実施例6にさらに詳細に考察しているように、ハプロタイプの生物的重要性の決定を目的とする多変量解析が容易になるような様式で、遺伝子データを表現するための有用な手段となる。
【0201】
コンピュータソフトウエアを用いて一般に行われる好ましい一例として、既知の体色形質を有する他の個体へと盲目的に一般化される1つまたは複数のSNPまたはSNPのセットを組み入れた分類器機能を開発することを目的として、分類器機能を、線形分析、二次分析もしくはコレスポンデンス分析または分類樹多変量モデル化を用いて開発することができる。
【0202】
複合的な遺伝的分類器を構築するための連合コレスポンデンス分析および線形/二次分析の一例については、2002年5月2日に提出された米国特許第60/377,164号を参照されたい。好ましい一例において、コレスポンデンス分析は、ベクターを作製するために遺伝子型をコード化するために用いられる。これによって次元に伴う問題が克服され、これに続いて、分類器を最適化するためにヒューリスティックアルゴリズムを用いてベクトル成分に重み付けを施す。
【0203】
1つの態様において、本発明は、対象の体色形質を推測するための分類器機能を同定するための方法を含む。本方法は以下を含む:i)統一性のある遺伝パターンを示すアレル(すなわち、それらはハーディ・ワインベルグ平衡にある)を有し、少なくとも1つの人種におけるマイナーアレル頻度が0.01を上回る、1つまたは複数の体色遺伝子の1つまたは複数の候補SNPを同定し、それによって1つまたは複数のバリデートされたSNPを同定する段階;ii)1つまたは複数のバリデートされたSNPが、体色表現型または人種のクラスが異なる個体間で有意に異なる遺伝子型分布およびアレル頻度を示すことを決定する段階、ならびに、iii)線形、二次、コレスポンデンス分析または分類樹多変量モデル化を用いて、既知の体色を有する他の個体へと盲目的に一般化される1つまたは複数のバリデートされたSNPまたはバリデートされたSNPの組み合わせを組み入れた抽出分類器機能を開発し、それによって体色に関連した分類戦略を同定する段階。
【0204】
もう1つの態様において、本発明は、対象の人種を推測するための分類器機能を同定するための方法を含む:i)統一性のある遺伝パターンを示すアレルを含む遺伝子型クラスを有し、少なくとも1つの人種におけるマイナーアレル頻度が0.01を上回る、1つまたは複数の人種関連遺伝子の1つまたは複数の候補SNPを同定し、それによって1つまたは複数のバリデートされたSNPを同定する段階;ii)1つまたは複数のバリデートされたSNPが、体色表現型または人種のクラスが異なる個体間で有意に異なる遺伝子型分布およびアレル頻度を示すことを決定する段階、ならびに、iii)線形、二次、コレスポンデンス分析または分類樹多変量モデル化を用いて、人種が判明している他の個体へと盲目的に一般化される1つまたは複数のバリデートされたSNPまたはバリデートされたSNPの組み合わせを組み入れた抽出分類器機能を開発し、それによって対象の人種を推測するための分類器機能を同定する段階。
【0205】
もう1つの態様において、本発明は、試料の分類のための方法を提供する。本方法は以下を含む:a)考えられるすべての形質クラスの対に関して、遺伝分散/共分散行列を計算する段階;b)ベクトル成分が2進コード、コレスポンデンス分析の主座標、コレスポンデンス分析の因子スコアまたはコレスポンデンス分析の標準座標である、クラス平均値ベクトル(class mean vector)の組み合わせを作成する段階;c)n次元試料ベクトルとして試料を表現する段階;および、 d)クラス平均値ベクトルの組み合わせから、試料からの距離が最も短いクラス平均値ベクトルを同定することにより、試料を分類する段階。このような方法は実施例14に例示されている。
【0206】
実施例17は、ゲノミクスデータに関して改変を加えたパラメトリック多変量二次分類法を用いる分類器機能の使用を例示している。試料が種々の平均値ベクトルおよび共通の分散共分散行列を有する多変量正規分布から採取されるという仮定に立てば、Fisher, R.A.(Annals of Eugenics 1936. 7:179-188)、Rao(1947,1948a,1948b)およびSmith(Smith, C.A.B.ら、Annals of Eugenics 1948;13:272-282)によって以前に導入された分類手順を適用することができる。
【0207】
正規性という仮定に立てば、試料の平均値ベクトルおよび試料の共分散行列は、それらに基づく推測が試料において入手しうる情報のすべてを備えているという点で、最小十分統計量を構成する。したがって、これらの要約的統計量に基づくあらゆる分類規則は、その分析に用いられる試料情報の観点からは最適なはずである。しかし、複雑系の場合には、これらの統計量に反映されない補足的情報はデータからしばしば得られ、この補足的情報をしばしば、これらの統計量に基づく結果を改良するために用いうる。遺伝学の場合、配列は優位性または相加性を介して表現型の差異に寄与することがあり、この場合、独立した分析によるそれらと形質値との関連性はさまざまな程度の強度であるが、統計的に有意である。または、配列がエピスタシスを介して寄与することもあり、この場合は、独立した分析によるそれらと形質値との関連性は弱いか存在しない。
【0208】
エピスタシスの寄与に対して感受性のある二次分類器を作製するために、本発明者らは、二次分析に用いられる虹彩色の群のそれぞれに対して不等な分散-共分散行列を作成するための重み付けスキームを考案した。まず、最も強い関連性のある遺伝子型を同定した。次に、それよりも関連性の弱い遺伝子型をランダムに選択した。通常、共分散行列を構築する際には、Zスコアおよび二進法(個々のベクトルにおいて遺伝子型が存在しなければ0の値、存在すれば1の値)を用いて各因子に対してMを算出する。
【0209】
ランダムに選択された関連性の弱い/ない配列については、各因子に関するMを算出する際に二進法の値xを用いる代わりに1+xを用いる形でこの重み付けスキームを用いた。ここで、xは、その個体に同じく存在する関連性の強い遺伝子型の数である。
【0210】
関連性の弱い/ない体色遺伝子の特徴のランダムな組み合わせを、重み付け、およびこれらの組み合わせに由来するモデルが虹彩色の分類に関して被験試料へといかに適切に一般化されるかの検証のために、連続的に選択することにより、最適な重み付け戦略を得ることができる。この様式による再コード化は一般に、関連性の弱い/ない配列のスコアのばらつきを増大させるため、モデルの識別力を向上させる。このコード化手順は恣意的なように思われるが、これは実際的な観点からは重要である。例えば、比較的精度の高い推測が得られる限り、データに裏づけられた方法が推奨される、時系列または経済の統計予測の分野の場合がある。この場合には、ひとたび最適なモデルが同定されれば、その作成に用いられた重み付けから、複雑な形質のばらつき(すなわち、エピスタシス)を招く異なる遺伝子の遺伝子型間の非線形的関係に関する手がかりが得られる。
【0211】
分類器機能の精度を検証するためには、Monte Carloシミュレーション試験を用いることができる。多変量線形分類確率マトリックスを算出することを目的として、ランダム数発生装置を用いて、2つの体色形質群からのアレル頻度の観測値に基づく有意な数の個体を選択するためのコンピュータプログラムを書く。この実験を多数回(例えば、10000回)繰り返し、分類率および誤分類率ならびにそれらの信頼区間に関する要約的統計量を得ることができる。
【0212】
実施例16では、実施例17で用いた再コード化法、特に試料平均値ベクトルおよび試料共分散行列を扱うものを、分類分析の改良の点からさらに考察している。この方法は、これらの統計量に反映されない補足的情報を利用する。
【0213】
この手順は、個々の試料単位における「最良の」遺伝子型とともに認められる、関連性の弱い遺伝子型を再コード化する。
【0214】
具体的には、本手順は以下を含みうる:
段階1:弱い遺伝子型の交差コード化のために少数の「最良の」遺伝子型を同定する。これは、各遺伝子における「最良の」遺伝子型のサブセットを、それらの相対頻度の変動範囲に従って選択することによって行いうる。最適な選択に達するまで、さまざまな組み合わせを試みることができる。実施例16に報告した試験では、3つの遺伝子型の最適な選択、g(1,1)(OCA2A)、g(3,1)(OCA2C)およびg(4,1)(OCA2D)が明らかになった(注:括弧内の最初の数字はハプロタイプを表し、第2の数字はそのハプロタイプのアレルを表す。G(1,1)は特徴の組み合わせ1に関する遺伝子型1を意味すると考えられる。例えば、OCA2-A SNPの組み合わせについては、ATTA/ATTAを遺伝子型1、ATTA/ATTGを遺伝子型2などとしてよく、組み合わせ数は1である。
段階2:第2の最良の遺伝子型を再コード化する:
遺伝子型が存在しなければコード0を指定する。
コード1+n、ここでnはある個体内にともに存在する、選択された「最良の」遺伝子型の数である。
【0215】
このような再コード化によって一般にスコアのばらつきはすべての色にわたって増大し(通常の判別分析を行う場合)、このため、このような再コード化手順を組み入れる前に得られた結果よりもわずかな改善を期待することができる。
【0216】
以下の実施例は例示を目的としており、本発明を限定するものではない。
【0217】
実施例 1
ヒトにおける体色に関連した TYRP1 多型および OCA 多型の同定
毛、眼、および皮膚の色と統計的に関連のある、集団内の遺伝子および遺伝子バリアントを同定するための多段階アプローチをデザインした。本アプローチは一般に以下の通りに行った:
1)メラニンの合成、分解、および沈着に関与する可能性が高い遺伝子をヒトゲノムデータベースから選択する。
2)遺伝子のそれぞれに関して各プロモーター、エクソン、および3' UTRに隣接するプライマーを設計すること;統計的に有意な試料を得るためのさまざまな民族的背景を有する十分数のドナー(例えば、約500件の多民族ドナー)において、これらの領域のそれぞれに対応するDNAの増幅およびシークエンシングを行うこと;ならびに集団内で差異のある各遺伝子の各領域内の位置を同定することを目的として配列を互いに比較するためのアルゴリズムを利用することにより、選択した遺伝子における共通の遺伝的変異を同定し、関連遺伝子のそれぞれに関するマップを作成する。
3)遺伝子マップを用いて、毛、眼、および皮膚の色(ならびに民族性)が既知である数百の個体を多型に関して評価する、大規模な遺伝子型判定実験を設計および遂行する。
4)段階3)で得られた結果を用いて、量的および統計的に体色と関連づけられる遺伝子、多型、および多型のセット(ハプロタイプを含む)を同定する。
【0218】
当初報告されたTYRP1遺伝子の3つのSNPおよびOCA遺伝子の5つのSNPのいずれについても、ヒト体色との関連はこれまで全く報告されていない。このため、毛、眼、および皮膚の色が既知である数百の個体において多型を評価し、その結果に基づいて統計分析を行った(以下を参照)。本明細書中に開示するように、眼の色と統計的に関連するように思われる、TYRP1遺伝子における1つのSNP(TYRP1_3)、ならびに、眼の色および毛の色と統計的に関連するように思われる、OCA遺伝子における1つのSNP(OCA2_5)が同定された。
【0219】
A.方法:
Orchid Biosciences社から購入して使用権を得た単一ヌクレオチドシークエンシング用のプロトコールおよび装置(Orchid SNPstream 25K装置(Orchid BioSciences, Inc., Princeton, NJ))を用いて多型を評価した。簡潔に述べると、多型に隣接するようにプライマーを設計し(表1〜4参照)、その際、各対の一方のプライマーは5'ポリチオホスホネート基を含むようにした。増幅産物をポリチオホスホネート基を介して固体基質に物理的に結合させ、TNT緩衝液を用いて洗浄した。洗浄した増幅産物を、一本鎖のポリチオホスホネート鎖を生成させるために、エキソヌクレアーゼIII処理にかけた。プライマーをハイブリダイゼーションによって一本鎖分子と結合させ、プライマーを単一の標識ヌクレオチドによって伸長させうるようにした。
【0220】
OCA2_5の遺伝子型判定に用いたプライマーは以下の通りである:
Figure 2004537292
【0221】
TYRP1_3の遺伝子型判定に用いたプライマーは以下の通りである:
Figure 2004537292
【0222】
TYRP1多型については、取り込まれたヌクレオチドがGであれば、モノクローナル抗体を最初の段階で結合させ、二次抗体ハイブリダイゼーションおよび結合物による触媒反応によって比色計で読み取った。取り込まれたヌクレオチドがTである場合は、抗体は結合せず、呈色は認められなかった。2回目のハイブリダイゼーションでは、改変された「T」を認識する抗体を用いた。個体に関する増幅産物がその位置に「T」を含む場合には、抗体は結合し、二次結合および比色計における結合物活性によって読み取られた。「GG」遺伝子型の個体は第1の反応で濃い青色を呈し、これは第2の反応でも変わらなかった。「GT」遺伝子型の個体は第1の反応で薄い青色を呈し、第2の反応では濃い青色となった。「TT」遺伝子型の個体は第1の反応では呈色せず、第2の反応では濃い青色を呈した。OCA遺伝子型については、GG、GA、およびAAに対する読み取りを同じく行った。
【0223】
B.結果
TYRP1_3(マーカー217485)およびOCA2_5(マーカー217455)に関するSNPは表1に示されており、これには、各SNPに対するマーカー数、そのSNPが染色体上で認められる遺伝子の名称、SNPの少なくとも1つのアレルを含む配列の公開配列データベースアクセッション番号(必要に応じて)、SNPのバリアントIUBコードに関する情報のほか、多型のタイプ(コード性または非コード性)などの補足情報が提示されている。
【0224】
2日間にわたって行った同一回の試行によって得られた結果から、マーカーの一部については、眼、毛、または皮膚にかかわらず、遺伝子型と体色との間に関係が認められないことが示された(以下参照;表1-1も参照のこと)。これらの結果(表1-1)から、各アッセイ法において各プレートに用いる「テンプレートなし」、「テンプレートはあるが検出材料はない」、および「水」対照とともに含められる、さらなる陰性対照が得られた。
【0225】
表1-1の結果は、ドナーの体色ならびに民族性に基づいて分離されている。あるSNPアレルが体色の遺伝的決定因子であるか、体色の遺伝的決定因子と連鎖しているならば、平均的なアフリカ系アメリカ人は一般に、平均的な白人よりも、皮膚、眼、および毛の平均的な色が濃い傾向があるため、それは白人よりもアフリカ系アメリカ人に多いはずである。しかし、その逆は真ではない;すなわち、あるSNPアレルが白人よりもアフリカ系アメリカ人に多くても、それは必ずしも体色にかかわるとは言えず、その理由としては、a)ほぼすべてのヒト遺伝子における大半のアレルは民族的な頻度の違いを示し、これは時に非常に大きいことがある上、これらのヒト遺伝子のほとんどは体色に関係しない;および、b)ヒト体色にかかわるあらゆるSNPアレルは、異なる人種群の間だけでなく任意の1つの人種群の内部でも関連性を示す必要がある;すなわち、SNPアレルの体色(または任意の形質)に関するマーカーとしての妥当性は、異なる人種群の個体間の関連性だけでなく任意の1つの人種群の個体間の関連性にも基づく必要があり、SNPアレルを検証するために人種差を用いることは前者のみを取り扱っているに過ぎない。
【0226】
本実施例における結果は、TYRP1_3 SNPおよびOCA2_5にヒトの眼の色に関する予測的な価値があること、および、そのGアレルが、濃い眼の色を決定するハプロタイプを決定するかそれと関連のある多SNPハプロタイプの一部である可能性があることを示している。さらに、OCA2_5 SNPにもヒトの毛の色に関する予測的な価値があると考えられ、そのGアレルは、同じく、濃い毛の色を決定するハプロタイプを決定するかそれと関連のある多SNPハプロタイプの一部である可能性があると考えられる。
【0227】
眼の色
白人におけるTYR_2 SNP(配列番号:217467)の接合性または特定の遺伝子型および眼の色の間には、量的な関係も質的な関係も検出されなかった。Gアレルの頻度は白人の方がアフリカ系アメリカ人またはアジア人よりも低かった(しかし、アジア人のサンプルサイズは小さかった)。
【0228】
TYRP1_3 SNP(配列番号:217485)に関しては、眼の色の薄い白人ではGG、GT、およびGA遺伝子型の比は1:4:4であったが、眼の色の濃い白人では比が1:1:1であった。さらに、アフリカ系アメリカ人におけるこれらの遺伝子型の比は7:2:1であり、一方、白人では1:2.5:3であったことから、Gアレルはヒトにおいて濃い眼の色と関連づけられるという主張が裏づけられた(アフリカ系アメリカ人は白人よりも平均して眼の色が濃い傾向があるため)。さらに、淡褐色の眼の色(褐色)の人における比は、中程度の濃さ(褐色2)または濃い(褐色3)眼の色の人での比よりも低く、これにより、褐色の眼の人の間には量的関係がある可能性が示された。薄い眼の色と濃い眼の色との比較の結果は統計的に有意であった(p=0.01)。これらの結果は、その遺伝子型が単独で、集団における眼の色の差異の100%は説明しないものの、数パーセント(ゼロより多い)を説明するには有用であることを示している。このため、Gアレルは、眼の色を決定するハプロタイプを決定するかそれと関連のある多SNPハプロタイプの一部であると考えられる。
【0229】
OCA2_5遺伝子型については、薄い眼の色(青色、薄茶色、または緑色)の白人におけるGG:GA:AA遺伝子型の比は約0:1:2であり、濃い眼の色の白人における比は約0:1:1であった。人種群の比較では、白人におけるGG:GA:AA遺伝子型の比は0:1:2であり、アフリカ系アメリカ人における比は約2:1:0であったことから、Gアレルの頻度は眼の色の濃い人の方が眼の色の薄い人よりも高いという主張が裏づけられた(この場合も、アフリカ系アメリカ人は平均的な白人よりも眼の色が濃いという事実による)。これらの結果は、この遺伝子型が単独で、集団における眼の色の差異の100%は説明しないものの、差異のうちゼロより多い数パーセントを説明すること、および、Gアレルが、眼の色を決定するハプロタイプを決定するかそれと関連のある多SNPハプロタイプの一部と考えられることを示唆している。
【0230】
OCA2_6遺伝子型については、白人群の内部では、接合性または特定の遺伝子型と眼の色との間に量的な関係も質的な関係も検出されなかった。白人におけるGG:GA:AA遺伝子型の比はアフリカ系アメリカ人またはアジア人とほぼ同じであり(しかし、アジア人に関するサンプルサイズは小さかった)、このことから、このSNPはヒトの眼の色を決定せず、ヒトの眼の色を決定するハプロタイプとも関連しないという主張が裏づけられた。
【0231】
毛の色
TYR_2遺伝子型については、白人および毛の色において、接合性または特定の遺伝子型の間に量的な関係も質的関係も存在しなかった。毛の色の薄い人におけるGG:GA:AA遺伝子型の比は1:1:0であり、これは毛の色の濃い人での比と同じであった。しかし、白人におけるGアレルの頻度はアフリカ系アメリカ人またはアジア人よりも低かった(しかし、アジア人に関するサンプルサイズは小さい)。
【0232】
TYRP1_3遺伝子型については、薄い毛の色(ブロンド、赤褐色)の白人におけるGG:GT:TT遺伝子型の比は約1:1:1であり、濃い毛の色(褐色または黒)の白人における比は約1:3:2であった。しかし、3つの人種群におけるこれらの遺伝子型の比からは、Gアレルが薄い毛の色と関連づけられるという主張は裏づけられなかった;Gアレルの頻度は白人の方がアフリカ系アメリカ人よりも低く、これは、Gアレルの頻度は毛の色の薄い人の方が毛の色の濃い人よりも高いという仮定とは矛盾する。
【0233】
OCA2_5遺伝子型については、相対的に毛の色の薄い白人におけるGG:GA:AA遺伝子型の比は0:0:1であり、相対的に毛の色の濃い白人における比は0:1:1であったことから、Gアレルの頻度は毛の色の薄い白人の方が高いことが示された。人種群の比較では、白人におけるGG:GA:AA遺伝子型の比は0:1:2、アフリカ系アメリカ人では約2:1:0であり、Gアレルの頻度は毛の色の濃い人の方が毛の色の薄い人よりも高いという主張が裏づけられた(これは平均的なアフリカ系アメリカ人の方が平均的な白人よりも毛の色が濃いという事実による)。これらの結果は、この遺伝子型が単独で、集団における毛の色の差異の100%は説明できないものの、差異のうちゼロより多い数パーセントを説明することを示唆する;また、Gアレルが、濃い毛の色を決定するハプロタイプを決定するかそれと関連のある多SNPハプロタイプの一部と考えられることも示唆している。
【0234】
OCA2_6遺伝子型については、白人群の内部では、接合性または特定の遺伝子型と毛の色との間に量的な関係も質的な関係も検出されなかった。白人におけるGG:GA:AA遺伝子型の比はアフリカ系アメリカ人またはアジア人とほぼ同じであり(しかし、アジア人に関するサンプルサイズは小さかった)、このことから、このSNPはヒトの毛の色を決定せず、ヒトの眼の色を決定するハプロタイプとも関連しないという主張が裏づけられた。
【0235】
皮膚の色合い
TYR_2遺伝子型については、皮膚の色の薄い人におけるGG:GA:AA遺伝子型の比は1:1:0であり、中程度の皮膚の色の白人における比と同じであったが、この比は濃い皮膚の色の白人の方が高かった(2:0:0)。しかし、皮膚の色の濃い白人に関するサンプルサイズは、この結果から結論を下すには小さすぎた。しかしながら、Gアレルの頻度は白人の方がアフリカ系アメリカ人またはアジア人よりも低く(しかし、アジア人に関するサンプルサイズは小さい)、このことからこのアレルがヒト皮膚の色にかかわることが示唆された。しかし、この結果の裏づけには、皮膚の色の濃い白人のサンプルサイズを増やした上でのさらなる結果を待つ必要がある。
【0236】
TYRP1_3遺伝子型については、この所定のサンプルサイズでは、GG:GT:TT比に統計的に有意な差は検出されなかった。
【0237】
OCA2_5については、この所定のサンプルサイズでは、GG:GA:AA比に統計的に有意な差は検出されなかった。
【0238】
OCA2_5については、この所定のサンプルサイズでは、GG:GA:AA比に統計的に有意な差は検出されなかった。
【0239】
(表1-1)
Figure 2004537292
Figure 2004537292
褐色は淡褐色の眼の色である;
褐色2は中程度の褐色である;
褐色3は濃い褐色である。
表現型データ(色)はすべて、血液ドナー対象が供血時に質問票に記入した自己報告による。
【0240】
実施例 2
OCA2_8 多型
本実施例ではさらなるOCA多型を記載し、それにより、実施例1において開示した結果の裏づけおよび拡張を行う。SNP位置でヌクレオチド・オカレンスを検出するための方法は実施例1に記載されている。
【0241】
OCA2遺伝子のさらなる分析により、もう1つのマーカーであるOCA2_8も同定され、これはヒトの眼および毛の色素沈着の程度と関連づけられた。OCA2_8多型はY(TまたはC)変化であり、GenBankアクセッション番号13651545のゲノム配列ファイル中の86326位に存在する(OCA2_8、ならびに本明細書中に開示されるSNPマーカーのすべてに関する情報については、表1を参照のこと)。
【0242】
OCA2_8については、種々の眼、毛、および皮膚の色の白人の集計値が表2-1に示されている。TT遺伝子型と対比したCCおよびCT遺伝子型の数は、眼および毛の色の濃い人の方が毛の色の濃い人に比べて多く、このことからCアレルの頻度は毛および眼の色が濃い人の方が毛および眼の色が薄い人よりも高いことが示された。これらの結果は白人によるものであるため、この座位のCアレルが眼の色合いと関連するならば、それは白人よりも濃い体色を示す傾向のある人種群に多いと予想された。実際に、人種群に関するデータからは、Cアレルの頻度はアフリカ系アメリカ人およびアジア人の方が白人よりも有意に高いことが示された(表2-1)。これらの結果は、この座位のCアレルがヒトの眼および毛の色を予測しうることを裏づけるように思われる。皮膚の色に関する結果はサンプルサイズが小さいために確定的ではなかったが、それほど著明ではないものの同様の傾向はみられた。OCA2_8座位に加えて、OCA2遺伝子における他の2つのマーカーも同様の傾向を示しており、実施例1に開示したように、OCA2_5は眼/毛の色合いに関する予測的な価値を示し、OCA2_6にもそれよりは弱い予測的な価値が認められた。
【0243】
OCA2遺伝子における有用な可能性のある3つのマーカー、OCA2_5、OCA2_6、およびOCA2-8を含めたハプロタイプ分析を行った。対象のハプロタイプを3つのマーカーに関して記録したが(例えば、ATG/CTAまたはGTT/AGA;表2-2参照)、ここで、線の上側の配列は母系染色体にある多型アレルの組み合わせを表し、もう一方は父系を表す(またはその反対)。ハプロタイプは多型アレルの連なりであり、SNPが染色体上で互いに隣接していない点を除き、連続した配列塩基の連なりに非常に似ている。実際に、SNP OCA2_5およびOCA2_8の間には互いに約60,000塩基対の隔たりがある。多型を多座ハプロタイプによって表すことは有益であり、これは、本明細書中に提供する実施例において開示するように、世界の集団に存在するハプロタイプの頻度は、ランダムなアレルの組み合わせによる予想に基づいて予測されるよりもはるかに低いためである。例えば、この遺伝子の内部にある開示される3つの多型座位、(G/A)、(T/C)、および(G/A)に関して、集団内に観察されるハプロタイプの考えられる組み合わせは2=8通り(すなわち、ATG、ACG、GCG、GTG、ACA、GCA、ATA、およびGTA)であると考えられる。これらは、集団におけるOCA2遺伝子の可能なまたは潜在的な「フレーバー(flavor)」と見なすことができる。しかし、世界の人々からの実際のデータでは、4種のハプロタイプまたは「フレーバー」しか観察されていない。多型座位の数が多くなると、ハプロタイプの観測数と期待数との格差は、座位の数が少ない場合よりも大きくなる。このよく知られた現象は、集団において数百万年にわたって作用し、現在の集団における遺伝学的「パターン」のかなりの部分を作り出している、集団ボトルネック(population bottleneck)、ランダムな遺伝的ドリフト、選択などの系統的な遺伝学的影響力によって生じる。その結果、ハプロタイプによる検討は、解体された遺伝子型による検討よりも、相関および他の遺伝学的現象を検出するためのより強い統計学的検出力を遺伝学者に与える。
【0244】
毛の色に関して計数した、患者に関するOCA2_5―OCA2_6―OCA2_8ハプロタイプの数値を表2-2に示した。同様の結果が、眼の色について計数した場合にも得られた。OCA2_6のみは弱い関連性を示したが、ハプロタイプの一部としての価値がそれ単独での価値よりも大きいことから、これはこの分析に含められた(他の2つのマーカーについても同じことが成り立つ)。
【0245】
このデータから、ATGハプロタイプが最も頻度の高いハプロタイプであり、相対的に毛の色の薄い人に不均衡に存在することが明らかである。ATG以外のハプロタイプ(ACG、GCG、およびGCAなど)は、相対的に毛の色の薄い人のDNAに存在する傾向がみられた。このデータを観察するもう一つのやり方は、ハプロタイプの対または複合遺伝子型に注目することである(表2-3参照)。このデータの見方は最も生物的に意味のある見方であり、相対的に薄い毛の色(ブロンドおよび赤毛)の人はほぼ常にATG/ATGであるが、相対的に毛の色の濃い人では、ATGおよび他の何らかのハプロタイプを含む別の組み合わせでである可能性が高い(表2-3も参照)。
【0246】
これらの結果は、薄い毛の色(赤毛またはブロンド)の人はほぼ常にATG/ATG遺伝子型(15例中12例)であることを示している。これに対して、毛の色の濃い人は通常、ATGハプロタイプを他の何らかのハプロタイプとの組み合わせで有していた(40例中26例)。1つのATGハプロタイプを他の何らかのハプロタイプとの組み合わせ((ATG/OTHER)で有する標本は、ほぼ常に比較的毛の色の濃い人であった。2つのATGハプロタイプを有する人(ATG/ATG)は、毛の色の薄い人または毛の色の濃い人のいずれかでありうるが、毛の色の薄い人である可能性の方が高い。
【0247】
これらの結果は、人のOCA2_5―OCA2_6―OCA2_8多座遺伝子型に、毛(および眼)色に関する予測的な価値があることを示している。未知のヒト標本を、これらの3つの座位に関するその複合遺伝子型(ハプロタイプ対)を用いて濃いまたは毛の色の薄いクラスに割り当てることの確実性は、公知の統計学的方法を用いて算出しうる。
【0248】
(表2-1)
Figure 2004537292
【0249】
(表2-2)
Figure 2004537292
【0250】
(表2-3)
Figure 2004537292
【0251】
(表2-4)
Figure 2004537292
【0252】
実施例 3
体色に関連したチロシナーゼ( TYR )遺伝子多型の同定
本実施例では、チロシナーゼをコードする、第3の遺伝子における1つのSNPが、ヒトにおける体色と関連していることを示す。SNP位置でのヌクレオチド・オカレンスを検出するための方法は実施例1に記載されている。
【0253】
体色と関連づけられ、TYR_3と命名されたこのSNPは、チロシナーゼ遺伝子において同定された。TYR_3 SNPは表1に示されている。遺伝子、多型の名称、その位置、および参照配列識別名(NCBI:Genbank)は表1に示されている。さらに、バリアントIUBコード、その発見の由来、および多型のタイプ(発現産物のコードアミノ酸配列におけるセリンからチロシンへのアミノ酸変化も示されている;「ポリ」はそれが多型位置として立証されたことを示す)。
【0254】
TYR_3は、ヒト組織の色素沈着の程度と関連するとして本明細書中に開示されるSNPの1つである。非常に多数のさまざまな遺伝子のうち、TYR遺伝子はそのような関連性があるSNPを有することが見いだされた第3の遺伝子である。OCA2、TYRP1、およびこのTYRという3つの遺伝子はそれぞれ、マウスおよびヒトにおける機能喪失型変異体が眼皮膚型白皮症と呼ばれる疾患を呈するという観察所見に基づいて発見された。この疾患に冒された個体は皮膚、毛、および眼に全く色素がなく、さまざまな生理的および社会的困難に遭遇する。眼皮膚型変異体はヒト集団では極めて稀であり、これらの遺伝子における天然の多型バリアントが、世界のさまざまな人々が示すヒトの皮膚、眼、および毛の色の正常な差異と関連するか否か、またはどのように関連するかについてはこれまで不明であった。
【0255】
TYR_3 SNPは、ヒト体色と関連することがチロシナーゼ遺伝子において見いだされた最初のSNPであり、NCBI参照配列アクセッション番号NM000372におけるヌクレオチド657位でのCからAへの変化(IUB記号=M)である。TYR_3多型は公開されているNCBI SNPデータベース(dbSNP)にも存在するが、これはこれまでヒト組織の色素沈着の程度とは関連づけられていなかった。
【0256】
TYR_3は、本明細書中に開示する通りに、体色と関連づけられるSNPの必要条件を満たす独特な多型である。その関連性を示すデータならびにデータの解釈は表3-1および表3-2に提示されている。提示された結果は毛の色に関して統計的に有意である。
【0257】
毛の色
濃い毛の色(黒または褐色)の人におけるCC:CA:AA遺伝子型の比は24:14:3であり、毛の色の薄い人では1:5:3であった。これらの比は、TYR_3座位でのAアレルの頻度は毛の色の薄い人の方が有意に高いと結論づけられる程度には互いに十分に異なる。例えば、毛の色の濃い人におけるCアレルの頻度は(24+(0.5)(14))/41=0.75であり、一方、毛の色の薄い人におけるCアレルの頻度は(1+(0.5)(5))/9=0.39であった;0.75および0.39というこれらの値は大きく異なる。
【0258】
眼の色
この結果は眼の色に関する興味を抱かせるが、決定的なものではない。眼の色の濃い人におけるCC:CA:AA遺伝子型の比は27:12:5、毛の色の薄い人での比は12:20:4であり、これは有意に異なる。しかしながら、この2つのクラスの個体におけるAA遺伝子型の数には有意差はなかった(濃いが5件、薄いが4件)。これらの2つの群の間のホモ接合性CC遺伝子型とヘテロ接合性CA遺伝子型との相対的な数によって示されるように、Cアレルが濃い眼の色と関連しているならば、薄い眼の色のAAホモ接合体の数は濃い眼の色での数を上回ると考えられる。しかし、これは成り立っておらず、このため、この結果は眼の色に関しては(陰性ではないものの)それほど顕著とはいえない。
【0259】
皮膚の色
皮膚の色調が薄い人と中程度の人との比較では、CC:CA:AA遺伝子型の比に明らかな差はみられなかった。皮膚の色調の濃い人におけるCアレルの頻度は皮膚の色調が薄いまたは中程度の人よりも高い可能性があるが、結論を下すにはサンプルサイズが十分ではなかった。
【0260】
民族的な違い
データによって示されるように、Cアレルが相対的に濃い毛の色と関連づけられ、世界中のヒトの色素沈着の程度と機能的に関連しているならば、Cアレルは平均的に毛、眼、および皮膚の色の濃い人の方が多いはずである。アフリカ系アメリカ人はこのような群の一つである。ランダムに選択されたアフリカ系アメリカ人におけるCC:CA:AA遺伝子型の比は84:13:1であり、ランダムに選択された白人(眼、毛、および皮膚の色合いの結果を上に提示したものとは異なる集団)における比は37:49:13であった(表3-2)。事実、この多型座位でのCアレルの頻度は平均的に眼、毛、および皮膚の色の濃い人(アフリカ系アメリカ人)の方が高く、白人群で観察された結果を拡張するとともに、Cアレルがヒトにおける相対的に濃い毛の色と関連づけられるという主張を裏づけている。濃い眼、毛、または皮膚の色と明らかに関連する多型も、平均的に眼、毛、または皮膚の色の濃い人種群に多いものも見いだされていない。
【0261】
(表3-1)
Figure 2004537292
【0262】
(表3-2)
Figure 2004537292
【0263】
実施例 4
体色と関連した多型の同定
被験試料は、さまざまなレベルの眼、皮膚、および皮膚の色合い(色)を呈する数百人の患者からなる。被験者はインフォームド・コンセントを示し、家系質問票に記入した後に血液試料を提供した。試料は直ちに処理してDNAとし、これを試験期間中は-80℃で保存することとした。試料は試験デザインおよびプロジェクトのプロトコールのみに従って用いた。家系データはSun Enterprise 420Rサーバー上で動作するOracleリレーショナルデータベースシステムに入力した。
【0264】
遺伝子マーカーは、それらをヒトの色素原であるメラニンの合成、分解、および/または沈着と関連づけている多くの文献および他の情報源からの知見に基づいて選択した。医師用医薬品便覧(Physicians Desk Reference)、オンラインメンデル遺伝データベース(NCBI)およびPubMed/Medlineは、この種の情報を提供している源の2つの例である。
【0265】
候補SNPは、例えばNCBIのSNPデータベース、ヒトゲノムユニーク遺伝子データベース(Unigene;NCBI)などを用いて、マーカー遺伝子から探索しうる(「データマイニング(deta mining)」)。遺伝子に関する配列ファイルを所有権のあるデータベースまたは公開データベースからダウンロードしてFASTAフォーマットでテキストファイルとして保存し、多配列アライメントツールを用いて分析した。この分析によって得たテキストファイルを、SNP/ハプロタイプ自動パイプライン探索ソフトウエアシステムへの入力として利用した。このシステムは配列の中から候補SNPを見いだし、これらのSNPの点から配列に対してハプロタイプを記録する。本ソフトウエアは候補SNPを選択する際に、ユーザーが指定したストリンジェンシー変数の使用、PHRED品質管理スコアの使用などを含む、さまざまな品質管理基準を用いる(2001年9月26日に提出された米国特許出願第09/964,059号を参照のこと)。
【0266】
SNP特異的キットを用いるアッセイ法は、ハイスループット遺伝子型判定用のOrchid SNPstream 25K装置(Orchid BioSciences, Inc., Princeton, NJ)を用いて行った。この装置はBeckman-Coulterロボット技術を基盤としており、完全に自動化されたプラットフォームとして動作し、DNA標本から被呼アレルまでの全プロセスを遂行して、1日に25,000個の遺伝子型を読み取ることができる。自動化ABI310およびAB13700キャピラリー電気泳動遺伝子分析装置はSNPの探索に用いられる。増幅反応はBeckman自動液体操作システムを用いて設定し、MJ researchサーマルサイクラーまたはPE Applied Biosystems 9700サーマルサイクラーにて増幅する。データ解析はSUN Enterprise 460 Unixサーバーを用いて行い、これにはサーバーによりネットワーク化された6台のPC端末が含まれる。
【0267】
眼、皮膚、および毛の色の情報が不明であるドナーから公開ゲノムデータベースを構築した。さらに、それを5例のドナーのみから構築した。公開ヒトSNPデータベースおよびUnigeneデータベースで十分に評価されていないか、低く評価されている可能性のある新たなSNPを発見するために、Cornell Instituteから入手したDNA標本の大規模プール(n=500)を、開示した方法を用いて収集した標本のいくつかとともに播種した。この合同プールからの標本を、Pfu turbo耐熱性DNAポリメラーゼおよびTaqポリメラーゼの組み合わせを用いる増幅のためのテンプレートとして用いた。増幅は1.5mM MgCl2、5mM KCl、1mM Tris、pH 9.0、および0.1%Triton X-100非イオン性界面活性剤の存在下で行った。増幅産物をClontech(Palo Alto CA)PCRクローニングキットを用いてT-ベクター中にクローニングし、塩化カルシウムコンピテント細胞(Stratagene;La Jolla CA)中に形質転換により導入した上で、LB-アンピシリンプレートに播いて一晩増殖させた。
【0268】
クローンを各プレートから選択し、Promega WizardまたはQiagenプラスミド精製キットを用いるミニプレップによって単離した上で、PE Applied Biosystems Big Dye Terminator Sequencing Chemistryなどを用いる標準的な方法を用いてシークエンシングを行った。配列からベクター配列を削除し、質を整えた上で、インターネットを基盤とするリレーショナルデータベースシステムに寄託した。
【0269】
標本コホート内部の遺伝子型を、クレノウ断片を用いる一塩基プライマー伸長法および自動Orchid Biosciences SNPstream装置(Orchid BioSciences, Inc., Princeton, NJ)を用いることによって調べた。Orchid社の技術は、伸長時に組み込まれた塩基の色素結合免疫化学認識に基づく。反応は384ウェル形式で進行し、一時的データベースアプリケーションに保存された後にUNIXベースのSQLデータベースへと転送される。
【0270】
生じたデータは、公開データベースおよび私的データベースから同定された高頻度の遺伝子ハプロタイプを識別するのに有益なSNPに対応する。詳細な説明の項に記載されている、ハプロタイプを推測するためのアルゴリズム(2001年9月26日に提出された米国特許出願第09/964,059号を参照)を用いて、このデータを、これらのSNPに対応する遺伝子型データからハプロタイプを推測するために用いた。これに加えて、あらかじめ規定されたハプロタイプを考慮しない、そのままの遺伝子型についても経験的に考察した。
【0271】
アレル頻度の算出および対でのハプロタイプ頻度の評価はEMアルゴリズムを用いて行った(ExcoffierおよびSlatkin、1995)。続いて連鎖不平衡係数を算出した。この分析アプローチは常にケースコントロール研究のデザインに基づいていた。両方の群、例えば、眼の色の濃い群と薄い群に関する遺伝子型/家系データマトリックスを、SNiPDOCSSMアルゴリズム(2001年9月26日に提出された米国特許出願第09/964,059号参照)などのパターン検出アルゴリズムに用いることができる。これらのアルゴリズムの目的は、量的(またはメンデル式)遺伝データを、連続的な形質分布(または離散的な形質分布、場合による)に適合させることである。連鎖不平衡係数などの種々のパラメーターに加えて、アレルおよびハプロタイプの頻度(民族群、対照群、およびケース群)、χ二乗統計量、ならびにPanmitic指数を含む他の集団遺伝学パラメーターを算出し、ケース群と対照群との間の民族、祖先、または他の系統的な違いを調整することもできる。ケース・マトリックスを対照と識別するために有用なマーカー/ハプロタイプがあれば、それを、関連性について記載し、付随(被験およびエフェクト)統計量を伴う数学的形態として提示することができる。
【0272】
実施例 5
網膜の色合いおよび毛の色合いを予測する一塩基多型
本実施例では、ヒトにおける虹彩もしくは毛の色合いの程度またはその両方に関して予測的な価値のあるSNPを同定する。さまざまな眼および毛の色の白人から、開示するSNPに関して以下の結果が得られた。すべての表現型データ(色)は血液ドナー対象が供血時に質問票に記入した自己報告による。
【0273】
以下の表5-1において、眼に関する「濃い」は褐色および薄茶色を意味する;眼に関する「薄い」は青色および緑色を意味する。毛に関する「濃い」は黒および褐色を意味する;毛に関する「薄い」はブロンドおよび赤毛/赤褐色を意味する。SNP位置でのヌクレオチド・オカレンスを検出するための方法は実施例4に記載されている。
【0274】
以下に示した結果は、各個体群の体色に基づいて分離されている。以下の結果において、眼の色は網膜の色素沈着の程度と同義である。これは皮膚の色合いおよび毛の色についても同じである。数多くの研究により、ヒトの皮膚、眼および毛の色の差異は、発生過程中に適切な組織にメラニンが沈着する程度の差異に起因すること、ならびに、その程度がメラニンの合成および分解の程度の関数であることが示されている。これまで、メラニン合成遺伝子の多型変異がヒトの眼および毛の色の天然の差異を決定するか否か、または決定するのはどの多型変異については不明であった。
【0275】
これらの実験において調査した各SNPに関する結果
眼の色:
OCA2DBSNP_52401:このマーカーの眼の色との関連性は、褐色群と非褐色群との比較によって調べることができる。褐色群が示したAA:GA:GG遺伝子型の比は14:14:1であり、非褐色群は53:25:2の比を示した。すなわち、褐色群の比は1:1:0の比、非褐色群は約2:1:0の比へと換算され、AA遺伝子型は眼の色が褐色以外のヒトの方が2倍頻度が高い。このマーカーに関して濃い眼の色と薄い眼の色を比較した結果は強いものとは思われない。これは眼の色が薄茶色の人の方が眼の色が褐色の人よりもAA遺伝子型を有する頻度が高いためと思われ、この比を個々の眼の色に関して検討するとこの考えが裏づけられる。すなわち、Aアレルの頻度は、眼の色が薄いまたは非褐色である人の方が高い。
【0276】
OCA1DBSNP_165011:このマーカーの眼の色との関連性は、濃い(褐色+薄茶色)群と薄い(緑色+青色)群との比較によって調べることができる。濃い眼の群に関するAA:GA:GG遺伝子型の比は34:17:1であるが、薄い眼の群の方が42:10:0と高い。これは濃い群については概算比2:1:0、薄い群については4:1:0に換算される。褐色および非褐色の比は同程度であり、褐色は20:9:0、非褐色は56:18:1である。これは褐色については2:1:0、非褐色については3:1:0に換算される。すなわち、Aアレルの頻度は眼の色が薄いまたは非褐色である人の方が高い。
【0277】
OCA2DBSNP_146405:このマーカーの眼の色との関連性は、濃い(褐色+薄茶色)群と薄い(緑色+青色)群との比較によって調べることができる。濃い眼の群に関するAA:GA:GG遺伝子型の比は24:16:9であるが、薄い眼の群に関しては16:29:6に過ぎない。これは濃い群については概算比3:2:1、薄い群については2:3:1に換算される。褐色および非褐色の比の比較にはそれほど説得力はない。全体的には、Aアレルの頻度は眼の色が濃いまたは褐色である人の方が高く、特に薄茶色群を予測すると考えられる。
【0278】
OCA2DBSNP_8321:このマーカーの眼の色との関連性は、濃い(褐色+薄茶色)群と薄い(緑色+青色)群との比較によって調べることができる。濃い眼の群に関するGG:G:TT遺伝子型の比は32:20:2であるが、薄い眼の群では44:11:0である。これは濃い群については概算比1.5:1:0、薄い群については4:0:0に換算され、これは有意に異なる。褐色および非褐色の比の比較にはそれほど説得力はない。全体的には、Gアレルの頻度は眼の色が薄いまたは青色/緑色の人の方が高い。
【0279】
色素:
マーカーの中に、白人の皮膚の色の濃さを予測すると思われるものはなかった。
【0280】
毛の色:
OCA2DBSNP_52401:Gアレルと薄い毛の色との関連性は、毛の色がブロンドの人と非ブロンドの人の比を比較することによって調べることができる。ブロンドの毛の人での比は8:6:0であり、これに対して非ブロンドの毛の人での比は42:23:2である。これはブロンドについては概算比1:1:0、非ブロンドについては2:1:0に換算される。すなわち、Gアレルの頻度はブロンドの毛の人の方が非ブロンドの毛の色の人よりも2倍高い。
【0281】
OCA2DBSNP_165011:Aアレルと濃い毛の色との関連性は、毛の色がブロンドの人と非ブロンドの人の比を比較することによって調べることができる。ブロンドの毛の人での比は8:4:0であり、これに対して非ブロンドの毛の人での比は55:9:1である。これはブロンドについては概算比2:1:0、非ブロンドについては5:1:0に換算される。濃い毛の色の人と薄い毛の色の人とを比較した結果では比は同程度である。
【0282】
すなわち、Aアレルの頻度はブロンドの毛の人の方が非ブロンドの毛の色の人よりも2.5倍高い。
【0283】
OCA2DBSNP_146405:Gアレルと薄い毛の色との関連性は、毛の色がブロンドの人と非ブロンドの人の比、ならびに毛の色が濃い人と薄い人の比を比較することによって調べることができる。ブロンドの毛の人での比は0:6:6であり、これに対して非ブロンドの毛の人での比は29:28:8である。これはブロンドについては概算比0:6:6、非ブロンドについては4:4:1に換算される。濃い毛の色の人と薄い毛の色の人とを比較した結果では比は同程度である。濃い毛の人は26:26:8の比を示すが、薄い毛の色の人は3:8:6の比を示し、これはそれぞれ4:4:1および1:2:2に換算される。これらの比は顕著に異なる。すなわち、Gアレルの頻度は、ブロンドまたは薄い毛の色の人の方が非ブロンドまたは濃い毛の色の人よりも高い。
【0284】
OCA2DBSNP_8321:この実験では、薄い毛の色の人と濃い毛の色の人との比較についてはサンプルサイズが不十分である。
【0285】
これらの結果は、上記のSNPのそれぞれが、ヒトにおける網膜もしくは毛の色合いの程度またはその両方に関して予測的な価値を有することを示している。
【0286】
(表5-1)
Figure 2004537292
Figure 2004537292
Figure 2004537292
Figure 2004537292
【0287】
実施例 6
OCA2 遺伝子バリアントをヒトの眼および毛の色と関連づけるための方法:ハプロタイプの関連における SNP 分析
本実施例における結果は、ハプロタイプと表現型との遺伝的関連を検証するための一般的な方法を提供する。SNP位置でのヌクレオチド・オカレンスを検出するための方法は実施例4に記載されている。
【0288】
以下に記載する結果は、本明細書中に開示したOCA2 SNPが、ヒトの眼および毛の色素沈着の程度に本質的にかかわっていることを示している。本方法は、ヒト集団で観察されるハプロタイプを、ハプロタイプ間の進化的関係を識別できるように分岐図または最節約樹として表現しうるという一般的に知られた原理に依拠している。このような分岐図において、共通の祖先ハプロタイプに由来するハプロタイプは樹の類似領域に存在すると考えられる。さらに、配列内容の類似したハプロタイプ同士は、樹において、類似していないハプロタイプに対してよりも互いに近接して位置すると考えられる。このような樹の一つが図1に示されており、ここでは別のものから1つの変異段階を経たハプロタイプが線によって区分され、遺伝子内の二多型性(biallelic)位置は二進法形式(1および0)で表されている:
【0289】
本方法は、互いに配列内容の類似したハプロタイプ同士はランダムに選択されたハプロタイプよりも共通または類似した表現型値を有する可能性が高いことから、この種のハプロタイプ樹を、ヒト集団における遺伝子バリアントと身体的形質との間の関連性を導く新規な方法のための出発点として用いうるという事実に基づく。すなわち、分岐図または樹の類似領域に存在するハプロタイプは、共通の表現型属性を有する傾向がある。例えば、上の図の分岐図の右下側にあるハプロタイプ00100001の生物学的作用は、分岐図の中でこれと隣接している00110000の方に、分岐図の左上側にある100010000よりも類似している可能性が高い。この仮定は、互いに近接した位置にあるハプロタイプはランダムに選択されたハプロタイプよりも多くの配列が共通しており、遺伝子の機能の多くを決定するのはその配列であることからみて妥当なものである。このため、分岐図を用いるハプロタイプ分析は、実施例6にさらに詳細に考察しているように、ハプロタイプの生物的重要性の決定を目的とする多変量解析が容易になるような様式で、遺伝子データを表現するための有用な手段となる。
【0290】
今回開示するアプローチの主な2つの特徴は、単純なハプロタイプコード化スキームを用いて、ハプロタイプ分岐図中の位置(このため相互関係にも)に反映されるような様式でハプロタイプを図式的に投影することができること(以下を参照);および、個体に存在する両方のハプロタイプがコード化され、ハプロタイプの二倍体の組み合わせが実際にプロットされることである。分析をこの様式で多くの個体に対して行ってプロットすると(単変量解析または二変量解析の場合)、パターンが容易に認識される(または認識されない、これは実験による)。
【0291】
ハプロタイプのそれぞれの二倍体対を、分岐図または樹におけるハプロタイプの相対的位置に忠実となるようにn次元空間に投影した。すなわち、「類似した」ハプロタイプの組み合わせを有する2つの個体に関するベクトルは、類似していないハプロタイプの組み合わせを有するものに対してよりも、プロット中で互いに近接する(分岐図の場合と同じく)。本方法を用いて、さまざまなハプロタイプの組み合わせの個体に関するn次元ベクトルをn次元特徴空間にプロットすることができる。n次元特徴空間におけるプロットにより、優性効果、相加性、またはエピスタシス作用などの他の複雑もしくは量的な遺伝現象に起因する複合的な遺伝パターンを認識すること可能になる。遺伝子データのこの表現方法は、離散的で不連続的に分布する項と従来みなされてきたデータを、より有用な連続的形式で検討することがそれによって可能になることから、ハプロタイプがさまざまなヒト形質を決定する程度を検出および検証するための新たな力となる。
【0292】
ハプロタイプをプロッティング用にコード化するために用いた方法は以下の通りである:一倍体は多次元一倍体空間における点として表す。例えば、8座位のハプロタイプは、(48)個の可能な位置がある8次元の一倍体空間にプロットすることができる。ハプロタイプのヘテロ接合体の対は、2つの点を連結す線として表すことができる。ホモ接合体の場合には、点をそれ自体と連結するループが形成される。眼の色または毛の色などの特徴に関する、ハプロタイプと表現型との間、または遺伝子型と表現型との間の関連性を表すためには、対になった対応するハプロタイプを表す線を見やすいように着色するか、コンピュータ計算に便利なように値を指定する。この分析は、ハプロタイプと表現型との間の関係を明らかにするのに役立つ。複雑な多次元プロットの解釈または視覚化のために、さまざまな数学的方法を考慮してプロットの次元を下げることができる。これを行うことにより、関係性を視認しうるように、多次元プロットを二次元または三次元の実空間(R2またはR3)に投影することができる。
【0293】
本方法の意義は、離散的な遺伝学的組み合わせを連続的な値で表現しうる点にある。遺伝子型またはハプロタイプなどの遺伝的値を連続的な分布として考えることは直観に反するが(結局のところ、遺伝子は離散的な実体である)、そうすることには意義がある。これは、世界中の人口のすべてを表現するデータを得ることは多くの場合困難であることを考えれば理解されると考えられる。世界中のすべての人のシークエンシングを行うことは現実的でもなく実行可能でもない。このため、遺伝子データのセットはより大規模な世界中の集団のサンプルであり、これらのデータから導かれるパラメーターは真のパラメーター値の推計値である。世界中の人々を完全に表現する遺伝子データのセットを生成することは非現実的であるため、個体を遺伝的パラメーターまたは特徴の推計値に基づいて分類することは遺伝学研究に際しての一般的な問題となる。例えば、1000人の個体を用いる研究により、1000人すべてがそれぞれの遺伝的構成に基づいて正しく分類されるような「ソリューション(solution)」を生成する場合、この研究で観察されていない1つのハプロタイプまたはハプロタイプの組み合わせを含む個体をいかにして分類するかを把握することは困難である。本アプローチはこの問題を解決するのに役立つ。
【0294】
遺伝子データを連続的な項として(すなわち、特徴空間において)表現することにより、観察および評価がなされている離散的なハプロタイプ形質イベントと観察および評価がなされていないものとを効果的に分離する、その空間における連続的区分を規定することができる。このため、本方法の適用によって開発されるソリューションは、標準的な多変量解析に基づいて開発されたものよりも包括的であると考えられる。
【0295】
OCA2ハプロタイプの幾何学的モデル化により、ヒトの毛および眼の色に関する予測マーカーとしての個々のSNPマーカーの能力が明らかになる。本明細書中に開示するように、本方法はOCA2遺伝子対象を用いて例証されている。それぞれのアレルが個別にヒトの毛および眼の色素沈着の程度と関連づけられている8つのSNPを用いた。これらのSNPは順にOCA2_5、OCA2_6、OCA2_8、OCA2_RS1800414、OCA2DBSNP_52401、OCA2DBSNP_146405、OCA2DBSNP_165011、およびOCA2DBSNP_8321である。
【0296】
これらはそれぞれ(OCA2_RS1800414はマイナーアレル頻度が低いため除く)単独で、眼または毛の色との顕著な関連性を示した。これらの8つのマーカーのハプロタイプはATGAAAAGなどとして表現しうる。最初のAはある人の染色体のOCA2_5座位にあるアレルを表し、第2のTはその人のOCA2_6座位にあるアレルを表し、以下も同様である。各々の人は2つのハプロタイプを有しており、ATGAAAAG/ATGAAAATなどのハプロタイプ対を形成すると考えられる。StephensおよびDonnellyのアルゴリズム(Am. J. Hum. Genet. 68:978-989, 2001、これは参照として本明細書に組み入れられる)を白人に関するデータに適用することにより、以下の表6-1に示すハプロタイプの一覧が得られた。
【0297】
StephensおよびDonnelly (2001)によって最初に提唱されたアルゴリズムを用いてハプロタイプをコンピュータ計算で推測することにより、OCA2遺伝子における8つのSNPの相(phase)を47人の個体の群について決定した。遺伝子型データから、アルゴリズムはベイズ尤度推定スキームを用いて、47人の白人集団に19種のOCA2ハプロタイプが存在すると予測し、これらの個体のそれぞれに対して具体的なハプロタイプの対を予測した。ここから本アプローチを作用させた。
【0298】
ハプロタイプを視覚的に認識しうるような様式でコード化するために、上記のものよりも単純なアプローチを用いた。ハプロタイプ分岐図を8次元空間にプロットする代わりに、個々のハプロタイプに数値を指定し、各個体に関するハプロタイプ値の対をn次元空間(ここでnは遺伝子またはハプロタイプ系の数である)にプロットし、2次元空間にハプロタイプ分岐図をプロットして、ハプロタイプ対をn次元空間にプロットするために個々のハプロタイプにデカルト座標を指定する。
【0299】
ハプロタイプを用いて、以上に示したものと類似した分岐図または進化樹を構築した。樹は最節約法を用いて構築したが、本質的には表6-2に提示されているため、示していない。第1の段階は、分岐図を用いてハプロタイプを再コード化し、多次元空間へのプロッティングに適用しうる形式にすることであった。本方法は、ハプロタイプ-遺伝子型の組み合わせの場合と同様にハプロタイプ-ハプロタイプの組み合わせにも効果的に作用すると考えられる。
【0300】
本研究に用いた二次元アプローチのためのアルゴリズムは以下の通りである:
1)目的のハプロタイプ系に関するハプロタイプ分岐図を構築する。
2)いずれか1つのハプロタイプ系(すなわち、遺伝子)について、分岐図を二次元グリッドに変換する(表16-2のグリッドを参照)。
3)-nからnまでの値を、{n-(n)}<2となるようにグリッドの列および行に指定する。
4)個々のハプロタイプのそれぞれをこのグラフ内の新たな(x,y)座標へと再コード化する。例えば、ハプロタイプ2は値(-1,2)をとる。ハプロタイプ一覧における各個体はこれで2対の座標を持つことになる。例えば、ハプロタイプ2の1つのコピーおよびハプロタイプ4の1つのコピーを有する人は値(-1,2)および(-2,4)の値を持つ。これにより、各個体に対して2×2行列が生成される(すなわち、{-1,2/-2,4})。
5)他のハプロタイプ系(遺伝子)または環境変数(すなわち、家系データまたは医学的データ)に対して段階2からのプロセスを繰り返す。あるマーカーに対して遺伝子型データしか得られない場合は、各人に関する行列は2×2ではなく1×2行列になると考えられる。1×N行列v=(v1,v2... vn)を構築することにより、非遺伝的データをコード化することができる(ここでNは変数の数であり、vは可能な値の計測範囲を考慮して導かれたデータに関する数値である)。
6)ベクトルp=(pa,.. .,pm)を以下の通りに算出する;p1はハプロタイプ1または遺伝子型1に関する座標値の2×2行列または1×2行列であり、p2はハプロタイプ2または遺伝子型の対2に関する座標値の行列であり、以下も同様である;および
7)ベクトルをm次元空間にプロットする。
【0301】
(表6-1)
OCA2のハプロタイプの一覧
OCA2
ハプロタイプの一覧
Figure 2004537292
【0302】
表6-1は、StephensおよびDonnellyのアルゴリズムをマーカーに関する遺伝子型データに順に適用してハプロタイプを生成させることによって得られた、OCA2遺伝子に関するハプロタイプの一覧である。図2中のグリッドを用いて個々のハプロタイプ対をコード化した。例えば、2,3ハプロタイプの組み合わせを有する人は行列{(-1,4)/(-2,1)}として値(-1,4)および(-2,1)で表されると考えられる。各個体のハプロタイプ対をベクトルとしていったん再コード化した上で、それらをm次元特徴空間にプロットした(図2)。
【0303】
図3では、各個体に関するハプロタイプ対を、座標の第1の対(その人の第1のハプロタイプからコード化される)と座標の第2の対(その人の第2のハプロタイプからコード化される)との間に線を引くことによってプロットした。図3は、個体におけるハプロタイプの二倍体対が毛の色に関して非ランダムに分布することを示している。ブロック矢印は、そのハプロタイプの組み合わせが褐色の毛の色の人のみに認められたことを示す。プロット中に左上象限の左下部分から右上象限へと伸びる線によって表されるハプロタイプ対はブロンドの毛の色の人のみが含む。プロット中に右上象限から左下象限へと伸びる線によって表されるハプロタイプ対は褐色の毛の色の人のみが含む。さらに、左上象限の下部領域から左下象限に伸びる線によって表されるハプロタイプ対は褐色の毛の色の人のみが含み、左上象限の下部領域から右下象限または右上象限へと伸びる線によって表されるハプロタイプ対はブロンドの人のみが含む。このパターンは以下の理由から明らかであった:1)OCA2ハプロタイプはヒト集団におけるさまざまな毛の色を決定する;2)同じまたは類似のハプロタイプを有する個体は類似した毛の色の形質を示す傾向がある;および、3)OCA2ハプロタイプはハプロタイプの組み合わせの点で毛の色と関連づけられている。最後の項目は、一般的に知られている遺伝学の原理(すなわち、遺伝的優位)の観点からみて、理にかなった結論を提示している。
【0304】
曲がった矢印は、黒、褐色、およびブロンドの毛の色の人に別のハプロタイプの組み合わせが認められ、黒毛の色の人におけるTYR_3遺伝子型がCCであり、褐色の毛の色の人ではCAであり、ブロンドの毛の色ではAAであったことを示している。これはデータを分解するのに役立つ上に概念形成を促進する第2の次元(第2の変数)の一例である。この結果は、遺伝子の特定の組み合わせが形質に特有の影響を及ぼすという遺伝的エピスタシスの点からは妥当である。
【0305】
このプロットから一連のパターンを識別することができ、これらのパターンから、ある人が特定の毛の色の群に属することが正しく分類される事後確率の分類を可能にする規則を構築することができる。プロットを二次元ではなく三次元で提示した場合は、さまざまな毛の色群を分離する区分を空間内に描くことができ(この場合は平面と考えられる)、これらの区分はこのような分類判断を行うための判断平面(decision plane)として用いうる。本分析では表現されていない別のハプロタイプが集団内に存在することも可能である。しかし、本方法を用いると、ルーチンの統計検定を用いて、このような未知のハプロタイプの分類の信頼性を計測することができる。所定の毛の色のクラスのメンバーが、本分析において所定のクラスと関連づけられた、または進化的にこのようなハプロタイプと関連づけられる、以前に同定されたハプロタイプを含むと仮定すると、本方法により、彼らはプロット中で、同じ毛の色の人が認められる場所と同じ近傍に位置するようになると考えられる。このため、彼らはその群に関するその既知のハプロタイプの組み合わせと同じ判定平面の側に位置すると考えられ、彼らの分類はこのために正確に行われると考えられる。これはその特定のハプロタイプまたはハプロタイプの組み合わせが本発明者らの研究で観察されていなくても成り立つ。
【0306】
本明細書に提示したデータは、はるかに大規模なデータセットの代表的なサンプリングであり、図を複雑性の点で扱いやすく保つためにデータの一部のみが示されている。8座位のOCA2ハプロタイプおよび1つのTYR SNPに関するこの分析の結果、以下の判定が可能になっている:
1)OCA2ハプロタイプの組み合わせAGTAAGAG/AGTAAAAG(ハプロタイプ6,4、(-3,1)(-2,3)としてコード化される)を含む個体は常に(6例中6例)毛の色が褐色の個体である。これらの2つのハプロタイプは1つの位置が異なるのみであり、このためプロット上で近接している。
2)OCA2ハプロタイプの組み合わせAGTAGGAG/AGTAAAAG(ハプロタイプ3,4、(-2,1)(-2,3)としてコード化される)を含む個体(6例中6例)は、そのTYR_3遺伝子型がCCまたはCAであれば濃い毛の色(褐色または黒)の個体であるが、そのTYR_3遺伝子型がAAであれば毛の色がブロンドまたは赤褐色(淡褐色)の個体である(アレルAは単独で毛の色の薄い表現型と連鎖していた)。
3)OCA2ハプロタイプ対AGTAAAAG/AGTAGGAT(ハプロタイプ(4,9)、(-2,3)(1,3)としてコード化される)を含む個体は個体は常に毛の色が褐色の個体である(2例中2例)。ハプロタイプAGTAGGAT(ハプロタイプ9)およびAGTAAAAG以外のハプロタイプを有する個体はすべて毛の色が褐色の個体である(4例中4例)。
4)OCA2ハプロタイプ対AGCAAGAG/AGTAGGAT(ハプロタイプ9,12、(-3,-1)(1,3)としてコード化される)を含む個体は常に毛の色がブロンドの個体である(2例中2例)。
5)ハプロタイプ12 AGCAAGAG 6(-3,-1)および9(1,3)でない別のハプロタイプを有する個体は毛の色が褐色の個体である(5例中5例)。
6)ハプロタイプAGTAAAGG(ハプロタイプ2、(-1,4)としてコード化される)および任意の他のハプロタイプを有する個体は常に毛の色が褐色の個体である(3例中3例)。明らかに、ハプロタイプAGTAAAGGは褐色の毛に関して優性である。
7)ハプロタイプAGTAAGAG/GACAAAAG(ハプロタイプの組み合わせ(6,8)、(-3,1)(0,-4)としてコード化される)を有する個体は常に毛の色が褐色である(2例中2例)。
8)ハプロタイプGGCAAAAG(ハプロタイプ7、(1,-4)としてコード化される)を有する個体は、ハプロタイプ7(-3,1)を伴う場合を除き、常に毛の色が褐色である(3例中3例)。ハプロタイプ5(2,-4)についても同じであり、(-3,1)を伴わない限り褐色である(3例中3例)。
【0307】
この幾何学的モデル化スキームの意義は結果8に見てとれる。同じ結果がハプロタイプ5および7についても得られたが、これら2つはハプロタイプ分岐図中で並置されており、相互の関連性が高いことを示している。ハプロタイプ5またはハプロタイプ7に関するサンプルサイズは小さいが、ハプロタイプ5+7に関するサンプルサイズは比較的大きく、その結果は統計的な有意性を示す可能性がある。平均的な遺伝的作用が類似している関連性のあるハプロタイプのグループ分けを行うことにより、多変量解析につきまとう限界(主として、変数の数が多いほど、変数の組み合わせの各クラスのサンプルサイズは小さくなること)を克服することができる。
【0308】
多次元におけるプロッティングの意義は結果2に見てとれる。ハプロタイプ3,4の組み合わせ群における個体を分離するためにTYR_3遺伝子型を用いなければ、これらの個体は交絡因子になると考えられる。
【0309】
他のいくつかのハプロタイプ対は、この実験に用いた個体の1例のみに存在している。この研究にはいくつかの交絡因子がある。例えば、ハプロタイプAGTAAAAG/AGTAAAAG(ハプロタイプ(4,4)、(-1,3)(-1,3)としてコード化される)は毛の色が褐色、赤毛、および赤褐色の個体に認められ、TYR_3遺伝子型はこれらの3つの群を分離するには役立たない(図には示されていない)。この対を有するある褐色の毛の人はAA遺伝子型を有し、別の人はCC遺伝子型を有していたが、Cアレルは毛の色の濃い人で最も頻度が高い。この見かけ上の矛盾は、OCA2ハプロタイプ+TYR3遺伝子型は集団における毛の色の差異のすべてを説明するものではないと仮定することによって説明しうる;すなわち、関与する他のTYRアレル、またはこのハプロタイプ対を有する人を分離するために計測する必要のある他の遺伝子における他の遺伝子型/ハプロタイプが存在すると思われる。これは重要な観察所見である:すなわち、ヒトの毛の色は1つの遺伝子によっても、1つの遺伝子および第2の遺伝子の1つのアレルによっても決定されない。これは二多型形質よりも複雑であり、ヒトの毛の着色にはおそらく4〜5つの遺伝子が関与していると思われる。この2つの遺伝子分析で提示された結果から、これらの遺伝子のうち2つが同定されている。これらは以後に分析している遺伝子である可能性もあり、また、それらはまだ分析されていない遺伝子の可能性もある。
【0310】
本分析はヒトの毛の色のばらつきの100%を説明するものではなく、実際、メラニン合成に関与し、その変異がヒト体色に影響を及ぼすことが特定されている遺伝子が4〜5つあることからみて、2つの遺伝子ソリューションでヒトの毛の色のばらつきのすべてを説明することは期待できないが、OCA2の8座位のハプロタイプ+TYR_3遺伝子型に関して得られた結果は、個体の42例中5例を除いてすべてを説明し、24のハプロタイプ対クラスのうち22を説明した。この結果は、ヒトの毛の色の多くの部分を、任意の白人個体に存在する二倍体OCA2ハプロタイプとTYR-3遺伝子型の組み合わせの検討によって説明しうることを示している。
【0311】
(表16-2)
Figure 2004537292
【0312】
表16-2は、ハプロタイプの分岐図を二次元グリッドに重ね合わせることによって得られたOCA2ハプロタイプのグリッドを提示している。ハプロタイプの番号は、表16-1に示されたハプロタイプ配列の番号に対応する(すなわち、ハプロタイプ2はAGTAAAATである)。
【0313】
実施例7
毛の色のハプロタイプの同定およびモデルの開発
本実施例において開示される一塩基多型(SNP)はそれぞれ単独でヒトの毛の色素沈着の程度との関連性を示し、すなわちそれらは浸透性SNPである。さらに、これらのSNPをさまざまに組み合わせることで、ヒト集団におけるさまざまな毛の色を説明することができる。
【0314】
メラニン合成に確定的に関与することが知られている3つの遺伝子である、チロシナーゼ遺伝子(TYR)、チロシナーゼ様タンパク質遺伝子(TYRP1)、および眼皮膚型白皮症2遺伝子(OCA2)のそれぞれにおける共通のSNPバリアントを同定するために「垂直(vertical)」再シークエンシング作業を行った。SNP位置でのヌクレオチド・オカレンスを検出するための方法は実施例4に記載されている。これらの3つの遺伝子で検討した23のSNP位置のうち、3つのSNPはTYR座位で同定され、4つのSNPはヒトの毛の色素沈着の程度に関して予測的な価値のあるOCA2座位で同定された(表16参照)。TYRSNP_8 SNPを除き、以上のSNPのすべてが開示されている。
【0315】
TYRSNP_8はチロシナーゼ遺伝子における多型であり、これは複数の機序によって発見されている。最初にこれは、NCBI UnigeneデータベースからのEST配列を相互に比較する目的で上に示したソフトウエアを用いて同定された。その後、これは企業内での再シークエンシング作業によって再度同定された。TYRSNP_8 SNPは公開SNPデータベース(dbSNP、NCBI)に存在する少数のTYR SNPの一つである。TYRSNP_8マーカーに関するデータは表1に示されている。このマーカーは単独ではヒトの毛の色合いに関する予測ツールとしての価値はほとんどないように思われる(表7-1)。しかし、本明細書に提示する他のTYRマーカーと組み合わせてハプロタイプにするとTYRSNP_8の影響が認められ、それは有意である。
【0316】
7つの座位における相が未確定の(unphased)遺伝子型(表7-2)を189人の個体について評価した。このうち46例は白人であり、彼らについては7つの座位のいずれのデータも欠損しておらず、毛の色も判明していた。TYR遺伝子およびOCA2遺伝子の内部におけるハプロタイプを、StephensおよびDonnelly (2001)のアルゴリズムを用いて推測した。推測したこれらのハプロタイプを各個体に関する表現型情報を含むOracle schemaに保存するためのプログラムを開発し、続いて個体に関する表現型および遺伝子型データを、天然の毛の色が濃い(黒または褐色の)人および天然の毛の色が薄い(赤毛、ブロンドの)人の2群に区分した。
【0317】
表1および表7-2は、複合的ソリューションAを構築するために用いた多型を示している。SNPが内部に存在する遺伝子を列1に示した。SNPの名称は列2に示されており、マーカー番号(識別番号)は列3に示されている。SNPによって課せられるヌクレオチド変化に関するIUBコードは列4に示されており、アミノ酸変化(あれば)は列5に示されている。括弧内のヌクレオチドは欠失を表す。これらのマーカーはすべて本明細書中に開示され、表1には本研究に用いたマーカーに関する補足情報を提示している。
【0318】
これらの2群間の遺伝子構造の集団レベルでの差を検証するために、ペアワイズ差異推定、Slatkin線形化F統計量推定、および帰無仮説(群間差がないとする)を仮定する非差異に関する直接法(exact test)を行った。その結果は、3つの異なる全遺伝子ハプロタイプ系に関して表7-3に示されている。
【0319】
表7-3は、3つの遺伝子(列1)での、2つの異なる群(列2)における、ハプロタイプ判定を行った個体(列3)間の集団レベルでの構造の差を示している。第1の群は濃い毛の色(褐色および黒)の個体を含み、第2の群は薄い毛の色(赤毛およびブロンド)の個体を含んでいた。非差異に関する直接法(列4)は、2つの群に関するハプロタイプ構成要素をランダムに生成するためにランダムに生成された数千個の変異を遂行し、これらの仮想的な群の間に観測群よりも大きな差が認められる頻度について検定する。数値が低ければ、研究で実際に認められたデータが偶然によるものでないことが示される。
【0320】
補正ペアワイズ差異(CORR. PW、列5)は、2つの群から選択されたハプロタイプの内部でランダムに選択された部位間の差の平均数を、各群内で観測された差の平均数に対して補正したものである。数値が大きいほど、2つの群のハプロタイプ構成要素が有意に異なることが示される。この計測に関するP値はエフェクト統計量(effect statistic)であり、列6(PW FST P)に示されている;値が0.05であれば列5に存在する値が統計的に有意であることを意味する。毛の色の群間差に関する第3の計測値であるSlatkin F統計量(SLATKIN)は列7に提示されている;数値が0.05よりも大きければ2群間の差が統計的に有意で有ることを意味する。これらの検定の結果、TYRハプロタイプの構成要素に関して、濃い毛の色群と薄い毛の色群との間には有意差があることが示されている(行1、表7-3)。これに対して、TYRP1ハプロタイプの構成要素にはほとんど差がなく(行2、表7-3)、OCA2ハプロタイプの構成要素に関する差は境界域にあった(行3、表7-3)。
【0321】
TYRハプロタイプの構成に関する集団レベルでの差を詳細に示すために、自動ソフトウエアアプリケーションを用いて、この2つの群のそれぞれの内部のTYRハプロタイプ対を評価した。この解析では、4つの異なるTYRハプロタイプ(ACG、ACA、AAG、およびAGC)および5つの異なるハプロタイプの組み合わせが観察された(AGC/ACA、ACG/AAG、ACG/ACG、AAG/AAG、AAG/ACA;表18)。この解析の結果、観察された4つのTYRハプロタイプについて、毛の色に対する平均的エフェクトには明らかな違いが認められた。少なくとも1つのACGハプロタイプを有することが判明した人(n=32)のうち、これらの個体の96.8%は毛の色が褐色または黒であった。残りの個体(n=15)のうち、ほぼ半数は毛の色が濃く(黒または褐色)、半数は毛の色が赤毛またはブロンド(薄い)であった。ACG TYRハプロタイプの2つのコピーを有する人では(行3、表7-4)、30%が毛の色が黒く、一方、ACGを1つのコピーしか有しない人では9.5%で毛の色が黒かった。
【0322】
表7-4には、毛の色の4つのクラスのそれぞれの個体に関してTYRハプロタイプ対の頻度を示している。ハプロタイプ対は列1および2に示されており、この群内で所定の毛の色を示す個体の頻度は列3〜6に示されている。濃い毛の色と関連のあるハプロタイプは太字で示されている(ACG)。頻度はそれぞれの二倍体対クラスに関する単純な算定個体数によって集計した。
【0323】
ACG TYRハプロタイプの存在は濃い毛の色に関する優れた予測マーカーであったが、交絡因子となる、ACGハプロタイプを持たない濃い毛の色(褐色)の個体も少数あった(n=8)。これらの交絡因子を説明するための試みとして、AGC TYRハプロタイプを持たない毛の色の薄い個体および濃い個体でOCA2ハプロタイプを比較した。ブロンドの毛の個体は、TYR遺伝子にAGCハプロタイプがないことに加えて、OCA2座位でのCACGホモ接合体であるというハプロタイプ判定がなされた。濃い毛の色の交絡個体の半数もCACGハプロタイプに関してホモ接合体の対を有しており(半数は有していなかったが)、ホモ接合性CACG OCA2ハプロタイプという基準に基づく個体のグループ分けはデータを最も有効に区分した;OCA2遺伝子における他のSNPの組み合わせはいずれも、AGC TYRハプロタイプを含まない毛の色の濃い個体と薄い個体を弁別しなかった。
【0324】
本発明者らの研究により、全体的には、TYR AGCハプロタイプおよびCACG OCA2ハプロタイプのホモ接合状態を用いた複合的な結果から、ブロンドの個体の100%および褐色の毛の色の個体の90%が説明された(表7-5)。また、この2つの遺伝子によるソリューションは、本発明者らの研究における個体総数の91.3%を天然の毛の色に関して説明した(表7-5)。表7-5は、白人集団におけるさまざまな毛の色に関する複合的ソリューションを示している。本発明者らのSNPに関する遺伝子ハプロタイプ配列に対する制約条件は列2および3の枠内に示されており、列の下の線は演算子「AND」を示す。例えば、行1は、非AGC TYRハプロタイプおよびCACGホモ接合性ハプロタイプ対を有する個体の100%が毛の色の薄い個体と正しく分類されたことを示している。毛の色の2つのクラスに関してこれらの制約条件によって説明される個体の比率が列4(行1および3)に示されている。この複合的ソリューションによって説明される個体の総数は列4の第4行に示されている。 このソリューションの論理は図3に示されている。本ソリューションの予測の精度は表7-6aおよび表7-6bに示されている。本ソリューションは、白人における正しい天然の毛の色(薄い=ブロンドもしくは赤毛、または濃い=黒もしくは褐色)を90%を上回る精度で予測することができる。正しく分類されなかった10%の部分は、本研究で評価していない赤褐色の毛の個体であった(彼らをどの群に割り付けるかが不明であったため)。この検討を多民族群の個体に対して行ったところ、精度は98%に向上した。この向上の理由は、異なる人種群におけるこれらの各マーカーのアレル頻度が顕著に異なること、および、このソリューションの7つのSNPのそれぞれに関して、白人における濃い毛の色と関連のあるアレルの頻度は毛の色が濃い傾向のある人種群(アフリカ系アメリカ人)で顕著に高いためである。この理由から、本ハプロタイプソリューションは、白人のみに対するよりも世界中の集団に対しての方が適切に適用される;すなわち、アフリカ系アメリカ人およびアジア人を含めることで本ソリューションの成績は向上する。
【0325】
本実施例において考察した実験では、ヒトの毛の色素沈着の程度と個別に関連があるTYR、TYRP1、およびOCA2遺伝子の内部のSNPが同定された。これらのSNPを用いて集団における毛の色の差異を最大量説明する遺伝的ソリューションを開発するために、毛の色が判明している個体におけるこれらの位置のそれぞれを組み入れたハプロタイプを評価し、毛の色の濃い個体と薄い個体を弁別するための最適なソリューションを得るためにその結果をさまざまに組み合わせた。その結果、未知の個体を毛の色の濃い群または薄い群に属するものとして分類するための複合的なネステッドソリューションが明らかになった。
【0326】
本ソリューションは、これらの遺伝子のうち2つ(TYRおよびOCA2)におけるハプロタイプを用いる。本ソリューションの第1の段階では、個体におけるTYR_3、TYR_5およびTYRSNP_8ハプロタイプの二倍体対を判定する。AGCハプロタイプの1つまたは2つのコピーを有する個体は、白人では81%の精度で濃い毛の色の群に属するものと分類され、人種を問わずに個体に適用した場合は98%の精度で分類される。この段階により、正しく分類された濃い毛の色の群(AGCハプロタイプを含む)および毛の色の濃い個体と薄い個体の混合群(非AGCハプロタイプを含む)という2つの群が生じる。第2の段階には、TYR-AGCハプロタイプを持たない個体を用いる。OCA2_2、OCA2_5、OCA2_RS1800405およびOCA2_6ハプロタイプの二倍体対を各個体について判定した。個体がホモ接合性CACGハプロタイプ対を有する場合、彼らは100%の精度で毛の色の薄い群に分類された。そうでない場合、彼らは50%の精度で毛の色の薄い群に分類されたに過ぎなかった。本ソリューションの最終的な精度は、白人群では90%であり、人種を問わずに個体に適用した場合は98%であった。
【0327】
本ソリューションは、DNA標本を用いて、未知の個体を天然の毛の色に関して分類しうる初めての方法であるように思われる。個体の民族がSTR検査などの他の検査によって判明している場合には、判定の精度を正確に見積もることができる。例えば、個体の人種がアフリカ系アメリカ人であれば、本発明者らのソリューションによる濃い色の毛という回答は98%の場合に正しいと考えられる。個体の人種が白人であれば、濃い毛という回答が正しい尤度は90%であり、薄い毛という回答が正しい尤度はほぼ100%である。
【0328】
ACG/ACGハプロタイプ対を有する個体は有意に褐色の毛よりも黒い毛である可能性が高いことから、この結果はACGハプロタイプに用量反応効果があることも示している。ACGの1つのコピーのみを有する個体では毛の色が黒よりも褐色である可能性が高い。興味深いことに、ACG/ACGハプロタイプ対は、毛の色の黒い個体によって主に構成されるアフリカ系アメリカ人群に最も高い頻度で認められるハプロタイプである。個体が有するACGハプロタイプの数に注目することにより、標本が黒い毛の個体または褐色の毛の個体に属する事後確率を算出することができる。すなわち、本明細書中に開示するソリューションは、個体を毛の色に関して、濃い確率が薄い確率よりも高いという観点から弁別することができる。
【0329】
(表7-1)
Figure 2004537292
【0330】
(表7-2)
Figure 2004537292
【0331】
(表7-3)
Figure 2004537292
【0332】
(表7-4)
Figure 2004537292
【0333】
(表7-5)
Figure 2004537292
【0334】
(表7-6a) 正しく分類された白人の総数
Figure 2004537292
【0335】
(表7-6b) 正しく分類された白人、アフリカ系アメリカ人、およびアジア人の総数
Figure 2004537292
【0336】
実施例 8
眼の色に関するハプロタイプの同定および推測モデルの開発
構成要素が眼の色の濃淡と関連しているいくつかのハプロタイプ系が同定されたことから、これらの断片的な成分を、ヒトの眼の色の種々の濃淡を説明するための複雑な遺伝子モザイクへと統合するためのネステッド統計アプローチを開発した。これらの系を用いて開発した分類樹ソリューションは、白人における網膜の色素沈着の程度の遺伝学的な予測に関して96.3%の精度であった。
【0337】
本実施例では、最適なソリューションではないものの、チロシナーゼ(TYR)、眼皮膚型2(OCA2)、チロシナーゼ様タンパク質1(TYRP1)、メラノコルチン受容体(MC1R)、およびアダプチンB1タンパク質(ADP1)、アダプチン3 Dサブユニット1(AP3D1)の座位を、ヒトのさまざまな眼の色を検討するための候補遺伝子として選択した。これは、それらが体色に関係していること、および、変異型OCA表現型を通じてそれらが網膜の色合いに役割を果たしていることがわかっていることが理由である。OCA2遺伝子を除き、公開データベースのリソース(NCBI:dbSNP)中に記録されているSNPは比較的わずかであり、存在するSNPも遺伝子のコード配列の全体に均等に分布しているわけではない。種々のヒト形質に対する共通したハプロタイプの寄与を徹底して調査するためには、包括的なSNPマップ(5'から3'への水平的な意味でも、多数の個体に由来するという垂直的な意味でも)が必要なことから、まず、これらの遺伝子のそれぞれに対して詳細なSNPマップを構築した。SNP位置でのヌクレオチド・オカレンスを検出するための方法は実施例4に記載されている。OCA2遺伝子、TYRP1遺伝子、MC1R遺伝子、TYR遺伝子、およびAPB3遺伝子中にそれぞれ40個、20個、15個、25個、および10個の候補SNPが同定された。体色が判明していない白人133人、アフリカ系アメリカ人133人、およびアジア人40人の個体の群を用いたところ、これらのSNPの約80%は多型としてバリデートされ、これらの60%はこの多民族群におけるマイナーアレル頻度が1%またはそれ以上であり、これらの60%のうち半数は白人集団において二多型性であった(非提示データ、これはOrchid Biosciences社(Princeton, NJ)の援助を得て蓄積された)。これらのSNPを研究の第2相へと通過させた。
【0338】
次に、約300例の白人個体をこれらのSNPのそれぞれの箇所で自己報告による眼の色に関して評価した。このデータから、人種が異なる個体の群ならびに眼の色および眼の色の濃淡が異なる個体の群におけるアレル頻度および遺伝子型頻度を算出することにより、SNPの優先順位を決定した。後者の分類については、薄い眼の色は青色または緑色と定義し、濃い眼の色は黒、褐色、または薄茶色と定義した。SNPは、その二多型性遺伝子型、またはアレルの一方が、χ二乗検定を用いた評価で何らかの眼の色または眼の色の濃淡の群に選好的に認められる場合、3回目の解析へと通過させた。あるSNPがこの検査を通過し、その濃い色のアレルが、白人よりも平均的な眼の色が濃い人種(アフリカ系アメリカ人およびアジア人など)に選好的または単形性に存在していた場合は、それを解析の第3相へと通過させた。実際には、白人における濃い眼の色と関連のあるアレルはいずれも平均的な眼の色の濃い人種で高い比率を占めたため、このうち後者の制約条件は不要であることが判明した(非提示データ)。3つの検査のすべてを通過したSNPを解析の次の段階へと通過させ、そこではそれらをランダムにまとめて種々の重複性および非重複性のハプロタイプ系とした上で、眼の色の濃淡との関連性に関して検定した。解析の統計学的検出力を強めるために、本発明者らは2座位および3座位のハプロタイプ系に対象を絞った。
【0339】
TYR2LOC920
TYR遺伝子の内部には15個の新規な(バリデートされた)SNPが同定された。これらのSNPのうち5つが3つの選択基準を満たした。これらの5つのSNPを用いて5つのハプロタイプ系を構築し、白人の眼の色を特に予測すると思われる1つを同定した(TYR2LOC920、TYR遺伝子の第7エクソン内の2つのSNPを組み入れている)。個々のTYR2LOC920ハプロタイプが眼の色の濃淡と関連するか否かを検定するために、個々のハプロタイプを眼の色の濃淡の2つのクラス(濃い=黒、褐色、または薄茶色;薄い=青色または緑色)のそれぞれとして算定した。眼の色は特定のTYR2LOC920ハプロタイプと関連しないという帰無仮説を、Pearsonのχ二乗検定およびFisherの直接法をハプロタイプ数に対して行うことによって検定した(表8-1)。
【0340】
Pearsonのχ二乗検定値は6.56であり(df=3j、p=0.087)、Fisherの直接法ではp=0.079であった。これらはいずれもp<0.10のレベルでは有意であったが、p<0.05のレベルでは有意でなかった。p=prob(薄い色|ハプロタイプ)という条件付き確率の表現をデータから構築したところ、CAハプロタイプを有するTYR2LOC920個体の眼の色が薄い確率はp=0.39であることが認められ(95%CIは[0.32、0.44)、これはCGハプロタイプを有する個体での確率のほぼ2分の1であった(p=0.51、95%CI[0.43、0.58])。以上を総合すると、この結果は個々のTYR2LOC920ハプロタイプと眼の色の濃淡との間に統計学的関連があることを示唆している。遺伝子型のレベル(ハプロタイプの二倍体対)での解析により、より確実な結果が判明した。遺伝子型と眼の色との間に関連性がないという帰無仮説を検定するために、本発明者らはハプロタイプ系のそれぞれに対してχ二乗検定量およびエフェクト統計量を算出した。表8-2は、観察されたTYR2LOC920遺伝子型の集計数を示している。この結果から、TYR2LOC920遺伝子型と眼の色との間には明らかな関係があることが示唆された;すなわち、G23遺伝子型(AG/CA)を有する個体は眼の色が薄い方がそうでないよりも数が多いが、G11遺伝子型(CG/CG)を有する個体についてはその逆が成り立つ。観察された6つの遺伝子型に関する集計数に対する、Yatesの連続修正を行わないPearsonのχ二乗検定では、自由度5で21.31の値が得られた(p=0.0007)。Fisherの直接法による統計量はP=0.0003のレベルで有意であった。これらの結果から、帰無仮説を棄却し、眼の色(薄い=青色および緑色、濃い=薄茶色、褐色、および黒と定義)が特定のTYR2LOC920遺伝子型と関連しているという仮説を支持することが可能になる。この関連性をより詳細に同定および定量するために、本発明者らは調整残差(これは大標本理論によりN(0,1)分布に従う)を計算した(AR、非提示データ)。ARの値により、遺伝子型G11:CG/CGおよびG22:AG/AGは濃い眼の色との間に有意かつ正の相関があり(p<0.05)、遺伝子型G23:AG/CAは薄い眼の色と相関する(p<0.05)ことが明らかに示された(非提示データ)。
【0341】
OCA3LOC109
OCA2遺伝子の内部には、3つの選択基準を満たす19個の新規SNPが同定された。これらのSNPを用いて、本発明者らは10種のハプロタイプ系を構築し、白人の眼の色を予測するように思われる5つを同定した。これらのハプロタイプ系のうち2つ(OCA3LOC109、OCA2遺伝子内部のエクソン11から3'UTRまでの領域内に均等に分布する3つのSNP(マーカー217458、712054、および886896)を組み入れたもの;OCA3LOC920、OCA2遺伝子の第9および第10エクソン内にある程度均等に広がった3つのSNP(217452、217455、および712061)を組み入れたもの)により、特に強い結果が得られた。
【0342】
OCA3LOC109ハプロタイプと眼の色の濃淡との間に関連はないという帰無仮説を検定するために、本発明者らは、種々の眼の色の濃淡を有する個体のOCA3LOC109ハプロタイプ集計数に対してχ二乗検定および調整残差検定を行った(表8-3)。
【0343】
この解析により、特定のOCA3LOC109ハプロタイプが眼の色の濃淡と関連することが示された(χ二乗=29.47、d.f.=6、p<0.0001)。各ハプロタイプについて調整残差を算出したところ、ハプロタイプH1:ATAは薄い眼の色と有意に関連することが明らかになった(p<0.05)。一方、ハプロタイプH4:GCA、H5:GCG、H6:GTA、およびH7:GTGは濃い眼の色と有意に関連することが判明した(各ハプロタイプともp<0.05)。本発明者らは次に、解析をOCA3LOC109遺伝子型(ハプロタイプの二倍体対)へと拡張した(表8-4)。本発明者らは、OCA3LOC109遺伝子型と眼の色の濃淡との間に関連はないという帰無仮説を検定した。この解析の結果、ある種のOCA3LOC109遺伝子型は眼の色の濃淡と関連することが判明した(χ二乗値=42.5478、d.f.=17、p=0.0006)。これらの結果により、帰無仮説を棄却して、眼の色(薄い=青色および緑色、濃い=薄茶色、褐色、および黒と定義)が特定のOCA3LOC109遺伝子型と関連しているという仮説を支持することが可能になった。この関連性をより詳細に同定および定量するために、本発明者らは遺伝子型の集計数について調整残差を計算した(非提示データ)。この解析により、遺伝子型G12:ATA/ATGは薄い眼の色と統計学的に相関し(p<0.05のレベル)、遺伝子型G25:ATG/GCGおよびG27:ATG/GTGが濃い眼の色と相関することが判明した(それぞれp<0.05)。
【0344】
これらの関連性は非常に強かったため、眼の色の差異に対するアレルの寄与について部位毎の解析を行った。系の第1の座位での変異は眼の色のいずれの差異にも寄与しないという帰無仮説を検定するために、3つの座位のハプロタイプ系における座位1で差異が分離されたOCA3LOC109ハプロタイプの分岐図中のサブグループに対してχ二乗検定を行った。この状況下にある個々のハプロタイプ間の差の有意性の検定により、有意性の高いχ二乗値が判明した;すなわち、眼の色に関するH2:CGC遺伝子型の個体とH3:TGC遺伝子型との比較により、χ二乗値=8.0115、d.f.=1、P=0.0046、およびFisherの直接法によるP値=0.0049が得られた。このハプロタイプ系の部位2および部位3での変異を検討した際にも同様の結果が得られた(それぞれ、χ二乗値=4.3544、d.f.=1、P=0.0369/Fisherの直接法によるP値=0.0571およびχ二乗値=4.4399、d.f.=1、P=0.035/Fisherの直接法によるP値=0.0363)。これらを総合した結果から、OCA3LOC109ハプロタイプ系内部の3つの部位のそれぞれでの変異は眼の色の濃淡の差異に寄与するという結論が得られた。ハプロタイプと眼の色との間のネステッド随伴分析により、これらの所見が裏づけられた。この場合には、本発明者らは7つのハプロタイプを用いた:0段階クレードは以下によって表される:H1:ATA、H2:ATG、H3:ACG、H4:GCA、H5:GCG、H6:GTA、H7:GTG。1段階クレードは以下によって表される:I-1:(H1、H2)、I-2(H3)、I-3:(H4、H5)、I-4:(H6、H7)、および2段階クレード:II-1:(I1、I2)=(H1、H2、H3)、II-2:(I3、I4)=(H4、H5、H6、H7)(図4)。
【0345】
ネステッド随伴分析(薄い=青色、緑色、および薄くない=黒、褐色、および薄茶色の眼の色を用いる)により、2段階クレードの間((H1+H2+H3)と(H4+H5+H6+H7)の有意なχ二乗値が判明した(χ二乗=20.75、p=<0.0001、Fisher法によるP=0.000017)。この結果から、ハプロタイプH1:ATA、H2:ATC、およびH3:ACGは薄い眼の色との間に有意かつ正の相関があり、ハプロタイプH4;GCA、H5:GCG、H6:GTA、およびH7:GTGは薄くない眼の色と有意に相関することが示された。薄い眼の色の個体における(H1+H2+H3)の存在に関するオッズ比は3.134であり、その95%C.I.は[1.8871、5.2051]であった。この結果の解析により、眼の色における有意な差異のほとんどは部位1での変異に遡れることが示された。
【0346】
OCA3LOC920
OCA3LOC920ハプロタイプ系の解析による結果からも、OCA3LOC109系について記載したものと類似の現象が明らかになった。ハプロタイプ数から、本発明者らは、個々のOCA3LOC920ハプロタイプがヒトの眼の色の濃淡と相関することを見いだした(χ二乗値=15.0293、d.f.=3、p=0.0018;Fisherの直接法によるp=0.0021)(表8-5)。
【0347】
OCA3LOC920系に関する調整残差から、p<0.05レベルで、ハプロタイプH1:CACが薄い眼の色と有意に関連し、ハプロタイプH2:CGC、およびH3:TGCが濃い眼の色と有意に関連することが明らかになった。ハプロタイプ系内部の決定的な変異を単離するために、本発明者らは、系内部の部位1、部位2、および部位3での変異は眼の色の濃淡のいずれの差異にも寄与しないという帰無仮説を検定した(非提示データ)。部位1での変異(C←→T、H2:CGC←1→H3:TGC)は眼の色の濃淡とわずかに相関するが(χ二乗値=2.8265、d.f.=1、P=0.0927、およびFisherの直接法によるP値=0.1414)、部位2での変異(A←→G H1:CAC←2→H2:CGC)は眼の色の濃淡と有意に相関することが見いだされた(χ二乗値=6.0122、d.f.=1、P=0.0142、およびFisherの直接法によるP値=0.0185)。濃い眼の色に関するH2:CGCのオッズ比は1.8677であり、その95%C.I.は[1.1275、3.0941]であった。部位3での変異(C←→T H2:CGC←3→H4:CGT)の結果は有意ではなかった。これらの結果から、部位2での変異が、眼の色の濃淡の差異のほとんどに寄与していると推測された。
【0348】
特定のOCA3LOC920遺伝子型(ハプロタイプの二倍体対)が眼の色の濃淡と関連するか否か、および関連するのはどの遺伝子型かを判定するために、OCA3LOC920ハプロタイプと眼の色の濃淡との間には関連はないという帰無仮説を検定した(表8-6)。その結果、OCA3LOC920遺伝子型と眼の色の濃淡との間には実際に関連があることが判明した(χ二乗値=19.5808、d. f.=6、およびP値=0.0033;Fisherの直接法によるP値=0.0027)。
【0349】
これらの結果は有意であったため、本発明者らは次に、ハプロタイプとの眼の色との間のネステッド随伴分析を以下を用いて行った:0段階クレード:H1:CAC、H2:CGC、H3:TGC、H4:CGT、1段階クレード:I-1:(H1)、I-2:(H2、H4)、I-3:(H3)、および2段階クレード:II-1:(I1)=(H1)、II-2:(I2、I3)=(H2、H4、H3)。その結果、眼の色の濃淡に関して二段階クレードの間に有意差があることが判明した(χ二乗=14.9709、d.f.=1、p=0.0001、直接法によるp=0.0003)(図5)。分岐図中のサブグループのハプロタイプ(H2+H3+H4)を有する個体が濃い眼の色の個体であるオッズ比は2.4903であり、その95%C.I.は[1.5534、3.9924]である。この解析により、ハプロタイプH1:CACは薄い眼の色と有意かつ正に相関し、一方、ハプロタイプH2:CGCおよびH3:TGCは濃い眼の色と有意に相関することが判明した。ハプロタイプのサブグループの検証により、本発明者らは、眼の色の濃淡の差異はOCA3LOC920内の部位2での主な変異に遡れると推測した。
【0350】
MCR3LOCおよびTYRP3L105
他の6つの遺伝子(AP3B1、CYP3A4、CYP3A5、CYP2D6、CYP2C9、HMGCR、特にFDPS)におけるSNPに対しても同様の解析を行った(表8-7)。これらの6つの遺伝子の内部には1つの遺伝子当たり平均30個のSNPが発見されたが、眼の色に関する本発明者らの3つの選択基準のそれぞれを満たしたSNPを有したのは遺伝子のうち2つ(MC1RおよびTYRP1)に過ぎなかった(非提示データ)。各遺伝子に関して3つのハプロタイプ系を、特定の眼の濃淡のクラスとの関連について検討し(遺伝子の平均数=2.5)。系のそれぞれに関する結果は、p<0.05レベルでは統計学的に有意でなかった。最適なMC1Rハプロタイプ系はMCR3LOC105ハプロタイプ系であり、これは遺伝子のコード領域にわたってある程度均等に分布する3つのSNP(マーカー217438、217439、および217441)から構成される(p>0.20)。最良のTYRP1ハプロタイプ系はTYRP3LOC105であり、これは第4のエクソンと3'UTRとの間の領域にある程度均等に分布する3つのSNP(マーカー886937、217458、および217486)から構成される(p=0.144)。これらのハプロタイプ系を含むSNPは3つのSNP選択基準を満たし、それらがヒトの眼の色の差異の少なくともわずかな量を説明しうることが示唆されたことから、以下に説明する解析にそれらを組み入れた。構成要素のSNPではなく、これらの遺伝子に関するハプロタイプを用いたが、これはハプロタイプの方が遺伝的関連解析に対して強い統計学的検出力をもたらすためである。
【0351】
次に、眼の色の予測に4つのハプロタイプ系を用いるための分類戦略を開発する試みを行った。試みた第1のアプローチは、眼の色のクラスの頻度を事前確率として用い、眼の色のクラスにおける(ハプロタイプに基づく)遺伝子型の頻度をクラス条件付き密度関数として用いるベイズ方法であった。個体が所定の眼の色の濃淡のクラスに属する事後確率は、4つの遺伝子のそれぞれに関して導かれた事後確率と、最も高い確率が選択される眼の色のクラスとの単なる積である。本発明者らの試験サンプルに適用したところ、本方法によって得られた分類ソリューションの精度は低く(約84%、非提示データ)、有用性も乏しかった(80%未満)。各ハプロタイプ系に関する事後確率に対して、それぞれが単独で示す分散の量に基づいて重み付けを課すことにより、精度は幾分改善されて89%となったが、分類器の有用性は低いままであった(85%未満)。
【0352】
これらの方法に対する代替法として、複雑な複合遺伝子型を用いる分類規則を構築するためのネステッド統計スキームを開発した。この作業にベイズ分類器を用いることも可能であるが、その代わりに遺伝的アルゴリズムに類似したルーチンを選択した。このスキームにおいて、複合遺伝子型は多数の遺伝子に由来するエレメント(ハプロタイプ対=遺伝子型)を含む。本スキームは分類樹を段階的な様式で構築する。樹の根(root)はランダムに選択されたハプロタイプ系の遺伝子型である。節(node)はランダムに選択された遺伝子型クラスであり、その内部にはさまざまに異なる構成要素である遺伝子型が存在する。複合遺伝子型クラスは複数の複合遺伝子型を含み、その構成要素はハプロタイプ系の別個の組み合わせに由来する。辺は根および節を連結して複合遺伝子型クラスを構成する。樹は、まず根のセットを選択し、結線によって規定される新たな複合遺伝子型クラスの内部における眼の色の濃淡が薄い(青色、緑色)個体と濃い(黒、褐色)個体との間の遺伝的区別に基づいて、辺を節へと伸ばすことによって構築しうる(薄茶色は常に、最もメンバーの多い眼の色の濃淡に割り付けられる)。複合遺伝子型クラスの内部では、ペアワイズF統計およびこれに伴うp値を用いて、眼の色の濃淡がさまざまな個体間の遺伝的構造の違いが計測されるが、直接法によるp値を用いた場合も同様の結果が得られている。ハプロタイプクラスが不確かな個体(確実性が75%未満)は棄却し、「分類不能」と分類する。根からのパスにまだ組み込まれていないすべての可能な節を、新たな分枝段階の際に検討する。眼の色の濃淡のクラス間で最も弁別的な区分(すなわち、p値が最も低い)が得られる分枝を選択する。新たな複合遺伝子型クラス内に遺伝的構造が存在しない場合には、考慮すべきハプロタイプ系がこれ以上ない場合、または複合遺伝子型に関するサンプルサイズがある所定の閾値未満である場合(この場合には「判定されず(no-decision)」と指定される)を除き、別の節(ハプロタイプ)を選択して可能な分枝について検討する。新たな複合遺伝子型クラスに関する最も低いp値が有意であれば、有意なχ二乗残差を示す構成要素の複合遺伝子型から規則を作成する。この場合には、複合遺伝子型クラス内の遺伝子型のうち説明可能でない(χ二乗残差が有意でない)ものはクラス内の残りの複合遺伝子型とは分離されて新たなネステッドノードを形成し、そこからさらに分枝を行わせる。ネステッドノードは最初は常に新たな複合遺伝子型クラスを表す。このネステッドノードからの分枝によって分類規則を生成することができなければ、アルゴリズムをネステッドノードの由来である複合遺伝子型クラスに戻し、構成要素であるN個の複合遺伝子型についてN個のネステッドノードを再び生成させる。いずれの場合にも、ネステッドノードは、眼の色の濃淡のクラス間に統計的に有意な集団構造の差が認められる節のみから生成される。その結果、このアルゴリズムは、特定の遺伝的背景において、知ろうとするハプロタイプ系のさまざまな組み合わせによってもたらされる最大量の遺伝分散を可能とする。ひとたび樹が完成すれば、それから生じた規則を、各個体の人種または体色形質、例えば眼の濃淡の予測に用いることができる。予測率が良好であれば(例えば、95%またはそれ以上)このプロセスは終了し、そうでなければ、根に新たなハプロタイプ系を用いてこのプロセスを再び開始する。
【0353】
このアプローチをTYR2LOC920(マーカー217468および217473)、OCA3LOC920(マーカー217452、217455、および712061)、OCA3LOC109(マーカー217458、712054、および886896)、TYRP3L105(マーカー886937、217485および217586)およびMCR3LOC105(マーカー886937、217485、および217486)ハプロタイプ系に用いて分類樹を作成した(表8-8)。選択された最適な樹に関する根は、TYR2LOC920ハプロタイプ系の遺伝子型であった。種々のTYR2LOC920遺伝子型クラスから生じた以後の節の実体および順序は、個々の根によって異なっていた。例えば、TYR2LOC920 AG/CA個体(行1〜12、表8-8)に関して選択された第1の節(第2のハプロタイプ系)はOCA3LOC920システムであったが、TYR2LOC920 AG/AG個体(行15〜22、表8-8)に関して選択された第2の節はMCR3LOC105系であった。分枝プロセスに関するエフェクト統計量は表8-9に示されている。この表を表8-8の具体的な規則と比較すると、複合遺伝子型に関する分類規則を策定するためのすべての決断は、その由来となった複合遺伝子型クラスに集団レベルでの遺伝子構造の違いが存在することによって正当化されたことが明らかである。集団レベルでの遺伝子構造の違いに関する指標を算出できなかった複合遺伝子型クラスから数多くの規則が作成された。これは通常、毛の色の濃淡の群の一方または両方に1つの複合遺伝子型クラスしかなかったためである(検定には各集団内の遺伝的多様性が必要である)。これらの例では、複合遺伝子型に関するχ二乗残差により、それらを組み入れた分類規則の構築が正当化された(p<0.05を要する、非提示データ)。時には、サンプルサイズの小さい複合遺伝子型クラス(すなわち、n<15)に由来する複合遺伝子型に関する規則も構築できたが、これは眼の色の濃淡間での遺伝子型の分布が、χ二乗残差を用いた評価で明らかに区分されたためであった。例えば、TYR2LOC920 AG/AG:MCR3LOC106 他(CCC/CYCでない)複合遺伝子型クラスを構成する個体は9例のみであったが、これらの9個体は複数の眼の色の群に適切に区分され、F統計量P=0.027+/-0.014であった。いくつかの例では、サンプルサイズの極めて小さい複合遺伝子型について有意なχ二乗残差が得られたが、これはこれらの遺伝子型を有する個体がすべて、本発明者らの研究では約1:2の比で少なく存在していた濃い眼の色の濃淡に属したためであった。
【0354】
最適な分類樹の適用によって得られた正しい分類および誤った分類の数を集計することにより(表8-8)、208個体は正しく分類され、誤分類されたのは8個体に過ぎなかったことが観察された。したがって、本ソリューションの精度は96.3%であった(表8-10)。33個体は分類されなかった。稀な場合、これらの確定的でない判定は、複合遺伝子型クラス内のサンプルサイズが小さく、これが毛の色の濃淡のクラス間で複合遺伝子型が良好に分離された場合にもP値に負の影響を与えたためであった。ほとんどの場合には、これらの個体での複合遺伝子型クラスに関するχ二乗統計残差は統計学的に有意でなく、これは複合遺伝子型クラスでは個体の眼の色の濃淡の説明が全くできないためであった。これらの個体に関して4つの遺伝子、5つのハプロタイプ系のモデルを用いたところ、それは全く「機能」しなかった。27個体の(コンピュータ計算により導かれた)ハプロタイプ相は75%レベルでは確定的でなく、このため、彼らについては分類を行えなかった。ハプロタイプ判定を行えなかった不確定的な判定例をまとめると、本発明者らの検討では合計60個体が分類不能であった。すなわち、本ソリューションは検討した白人の81%に対して有用性を示した。しかし、ハプロタイプ内の確実性のある白人(判定に関してより妥当な群、これはハプロタイプの不確実性は検査の利用者により容易に排除されうるためである)では、本ソリューションは白人の87%に有用性を示した。本発明者らは、他の人種(アジア人およびアフリカ系アメリカ人)に対しても本ソリューションを検討した。アフリカ系アメリカ人、白人、およびアジア人に適用した場合、本発明者らのソリューションの精度は99.9%に向上し、個体の98%が分類可能であった。
【0355】
表8-9中の樹は表8-8に示したものと同じ形式に従っており、眼の色の異なる個体の群間の遺伝子構造の違いを推測するために複合遺伝子型クラスの内部で用いたペアワイズF統計によるP値を示している。複合遺伝子型クラス内部の個体をこの検定を用いて統計的に有意な様式で区分しうることは、複合的系の内部の個々の遺伝子型に対する分類規則の策定に関する正当性を示している(本文および表8-8を参照)。規則は、本文中に説明したようにχ二乗残差から構築される。各行(複合遺伝子型)の内部の複合遺伝子型を構築するために用いたハプロタイプ系は各列に示されている。遺伝子型をハプロタイプの名称とともに提示している場合(例えば、OCA3LOC109 ATA/ATR)、節はこれらの遺伝子型のみを有する個体から構成される。縮重ヌクレオチドの位置はIUBコードを用いて示されている。樹は演算子*if*に始まって左から右へと読まれる。第1列は複合遺伝子型クラスの根(本文参照)を含む。次の列へと右に進むと、演算子*and*が、新たな複合遺伝子型クラス内に統計的に有意な区分を作成できるまで、第1の節(あれば)、さらには第2の節(あれば)などを含めるために用いられる。この新たな複合遺伝子型クラス内にある眼の色の濃淡の異なる個体を、統計的に有意な遺伝子構造のサブグループ(本文中に記載。ペアワイズF統計検定を用いる)に区分することができれば、その検定に関する関連P値が示された行に沿ってプロセスは終了する。区分されなければ、このプロセスを次のハプロタイプ系へと右に進める。統計学的有意性に達した場合(または達したら)、複合遺伝子型を用いて該当する個体に対する分類規則を構築する(図4に示されており、本文中でも考察する)。例えば、行1から3までを考えると、TYR2LOC920 AG/CA遺伝子型を有する個体のクラス内ではOCA3LOC920遺伝子型と眼の色との間に統計学的関連性はない。したがって、パスは第2列のMCR3LOC106ハプロタイプ系につながる。このため、複合遺伝子型クラスTYR2LOC920 AG/CA:OCA3LOC109 CAC/CAC(行1および2)の個体は新たな複合遺伝子型クラスを構成する。このクラスのメンバーは、列3のMCR3LOC106ハプロタイプ系を用いて眼の色のクラスに関して区分可能である。例えば、MCR3LOC106 他(CCC/CYCでない)遺伝子型を有するTYR2LOC920 AG/CA:OCA3LOC109 CAC/CAC個体は、眼の色の濃淡の異なるクラスに区分することができ、これはこの複合遺伝子型クラス内部での薄い眼の色(青色、緑色)の個体と濃い色(褐色または黒)の個体との間のMCR3LOC106ハプロタイプの組成に関する統計学的有意差によって示された(P<0.001+/-0.001、n=33)。このようにして、個々の複合的なTYR2LOC920:OCA3LOC920:MCR3LOC106遺伝子型について分類規則を構築した。P=INCALCは、P値が算出不能であったことを意味する。この最も多い理由は、当該の複合遺伝子型に関する、眼の色のクラスの一方または両方における遺伝的均一性である。このペアワイズ方法は群内差の平均数を群間での数と比較して計測し、複合的クラスの最終的なハプロタイプ系の内部にこの遺伝的均一性があれば群内差の計算は技術的に不可能となる。この場合には、分類規則の策定を正当化するためにχ二乗残差を用いた。
【0356】
考察
本実施例では、ヒトの眼の色を遺伝的に予測するための4つの遺伝子、5つのハプロタイプ系によるモデルを説明した。本発明者らの知る限りでは、これはこの種の初めての記載されたモデルである。このモデルに由来するソリューションは、DNAドナーの人種が白人であるという条件下では96.3%の場合に正しい分類が可能である。ドナーの人種が白人、アフリカ人、またはアジア人である確率が等しい場合には、本ソリューションの精度は99.9%に向上し、有用性(判定を下しうる能力)は81%から98%へと向上する。ほとんどの非白人人種群では眼の色に関する差異が少ないため、この向上は驚くには当たらない。しかし、これらの民族群では眼の色の差異は比較的少ないものの、誤ったソリューションであれば、世界のさまざまな集団の個体に対して無条件に適用した場合に必ずしも正確であるとは限らない。遺伝的な不均一性があるにもかかわらず、正しいソリューションはそのように適用された場合により正確であると考えられる。この理由は、白人における濃い眼の色と関連のあるアレルがメラニン産生および眼の色を決定するか、または決定的なアレルと連鎖している場合で、さらに眼の色の決定に関する遺伝的不均一性はわずかであると本発明者らが仮定すると、これらのアレルの頻度は平均的な眼の色の濃い集団の方が高いためである。実際に、本ソリューションの精度は汎民族的に適用した場合に向上するが、これは濃い眼の色と関連のあるハプロタイプのすべてが本ソリューションの一部であること、ならびにその構成要素である個々のSNPが非白人人種群の方が高い頻度で認められることによる。すなわち、複合的ソリューションの精度は汎民族的に適用した場合に向上するという事実から、本ソリューションの有効性が裏づけられるとともに、世界の集団における眼の色に関する遺伝的不均一性はわずかであることが示唆される。
【0357】
本発明者らのソリューションの「分類可能な」個体における精度は96.3%であるが、本発明者らが検討した白人の総数のうち18%は本発明者らのソリューションでは分類不能であった。これらの個体の約半数は稀な複合的ハプロタイプクラスの個体であり、彼らは以下の理由から問題となる:1)彼らのハプロタイプ相の決定はコンピュータ計算による(すなわち、確率論的な)方法を用いても不確実である、および2)彼らが該当する複合遺伝子型クラスのサンプルサイズは統計的に有意な規則を構築するには小規模すぎる(この場合は稀であった)。コンピュータ計算ではなく生化学的なハプロタイプ判定によって群1)の個体はなくせ、より大規模なサンプルサイズ(およびさらなる作業)によって群2)の個体はなくせると考えられる。いずれの場合にも、本実施例に開示したソリューションは、これらの稀なハプロタイプ(それらがそれでも分類可能であれば)にも適応するように強化する必要があると考えられる。しかし、分類不能であった個体群の残る半数は、本発明者らのソリューションによっては全く説明されない。これらは、種々の眼の色の濃淡へと適切に分離されない(すなわち、統計学的に関連づけられない)複合遺伝子型クラス内の個体である。これらの個体に関しては、以下のいずれかであると思われる:1)本発明者らが調査した遺伝子内部の他のSNPが眼の色の濃淡を決定しており、このため本発明者らのソリューションはこれらの4つの遺伝子が形質の多様性に寄与する多様性のすべては説明しない、および/または、2)モデルに由来するある種の遺伝的背景において他の座位が眼の色の濃淡をともに決定する。SNPを探索するための本発明者らのアプローチは包括的であったため、これらの可能性のうち前者の見込みは低いように思われる。後者の可能性はより見込みがあるが、それを想定するには、特定の座位での遺伝子型の寄与はそれが認められる遺伝的背景に依存するという仮定が必要と考えられる。実際に、本発明者らが作成したソリューションの検証によって、これは本ソリューションを構成するほぼすべての遺伝子型に成り立つことが裏づけられている。このため、本発明者らは、本発明者らのソリューションの有用性は既知のTYR、OCA2、MC1R、およびTYRPハプロタイプを有する白人では約87%であること、ならびに、本発明者らのモデルが説明しうる眼の色の濃淡の差異の量はそれよりも幾分多い可能性が高いが、この研究に含まれていない他の座位によるまだ検証されていない部分があるために限定されていることを主張する。
【0358】
本発明者らのものは4遺伝子モデルであるが、これは網膜の色素沈着は主として2つの座位の活性によって制御されるというBrueの主張とは矛盾しない。本発明者らのアルゴリズムによって生じた最適分類樹(すなわち、ソリューション)は、TYR遺伝子由来のハプロタイプ系をルートとして組み入れている。5つの第1節のうち4つは、OCA2遺伝子由来のハプロタイプ系の遺伝子型であった。興味深いことに、本発明者らが分類規則の構築に用いた4つの遺伝子のうち、これらの2つは実際に眼の色と群を抜いて最も有意に相関した。白人の3分の2では正しい分類のために他の遺伝子(MC1RおよびTYRP1)におけるハプロタイプ系が必要であったが、個体の3分の1(68)はTYR遺伝子型およびOCA遺伝子型のみに基づいて正しく分類でき、さらに、本発明者らの研究における眼の色の差異のうち、TYR系およびOCA2系を含まない複合遺伝子型によって説明可能なものはなかった。これらの観察所見を総合すると、TYR遺伝子型およびOCA2遺伝子型の組み合わせによって白人の眼の色の差異のほとんどは説明されること、ならびに他の遺伝子(主にMC1R、TYRP、おそらくは他にも考えられる)による寄与はこの差異のわずかな部分を説明する程度であることが強く示唆される。これらの観察所見はBruesのモデルとは矛盾しない。しかしながら、本発明者らのモデルの複雑性は、分類器検査の開発に関する決定的なポイントを示している。ヒトの眼の色における差異は2つの遺伝子によって説明可能であり、それらのみに基づいて分類機検査を構築しうるものの、本発明者らは、そのようにして開発された検査は、現場または医療機関における使用には受け入れられない精度でしか機能しないことを示した。本実施例において考察した研究の結果は、個々のハプロタイプを複合的な対象の構成要素としてではなく離散的な対象として用いる単純なアプローチでは、性能の低い分類ソリューションが生じることを示している(それらもある程度の性能は発揮するものの)。理論によって制限されることはないが、これは眼の色が複合的な遺伝形質であり、複合的な遺伝の「全体」はしばしばその構成要素である「部分」の合計よりも大きいためとも考えられる。分類確率を個々のハプロタイプ頻度の関数として計測しても、遺伝子の組み合わせによって説明される形質の差異のすべてを捉えることはできない。本発明者らの結果は、明白ではあるが興味深いと思われる概念を示している:すなわち、単純な遺伝学的アプローチは形質の関連性を個々の遺伝子およびそれらにおけるハプロタイプに帰属させるには有用であるが、ほとんどのヒト形質は複雑であるため、これらの遺伝子およびハプロタイプを正確な分類検査の開発に用いるためには複合的な遺伝学的ツールが必要である。本発明者らの場合には、本発明者らは、正確な分類器を開発するために、個体を複合遺伝子型の点から考察する必要があった(すなわち、n次元特徴空間にプロットされるn次元特徴ベクトルと類似している)。この概念はショウジョウバエを用いた研究に先例があり、それによると多数の複雑な形質に関するアレルの浸透性が遺伝的背景の関数であることが示されている。
【0359】
興味深いことに、本実施例に考察した通りに作成したソリューションは、毛および皮膚の色の違いは説明しないように思われる(非提示データ)。実際、これは白人の眼の色に関する優れたソリューションから予想されたことであり、その理由はこの人種群では眼、皮膚および毛の色が独立に遺伝して分布するためである。また、本発明者らのソリューションには通常、個体の正確な眼の色を十分に予測するほどの感度もない。その代わりに、これは生物標本を所定の眼の色の濃淡を有する個体に由来するものと分類するためのみに用いうる。このことは、他の遺伝子および/またはバリアントがこの複雑な形質の決定に関与することを予告するものでもある。他の人種群に属する者における種々の眼の色を説明する本ソリューションの精度は、これらの群における低頻度の眼の色の件数(その入手は困難である)が少ないため、正確には明らかではない。しかしながら、第1の遺伝的ソリューションは匿名で提供されたDNAから質的特徴を帰属させることができており、本発明者らの結果は重要な業績であると考えられる。第1に、それは複雑なヒト形質をハイスループットゲノム科学の技法を用いて弁別するための方法の一つを示した。第2に、本発明者らのソリューションは、法医学用のツールとして、犯罪調査または他の法医学的調査を導くために用いうると考えられる。第3に、研究用ツールとして、本発明者らが同定した高頻度のハプロタイプは、白内障および黒色腫などの体色関連疾患に関するリスクを研究者がより正確に規定するために役立つと思われる。
【0360】
(表8-1)
Figure 2004537292
表8-1.種々の眼の色の濃淡のクラスにおける個々のTYR2LOC920ハプロタイプのクラス。濃い―黒、褐色、または薄茶色、薄い―青色または緑色。各クラスにおいて算定された個体の総数は最下行に示されており、各ハプロタイプの個体の総数は最終列に示されている。
【0361】
(表8-2)
Figure 2004537292
表8-2.種々の眼の色の濃淡のクラスに関するTYR2LOC920遺伝子型の集計数。遺伝子型の名称は表の最も上に示されている。薄くない―黒、褐色、または薄茶色、薄い―青色または緑色。各クラスにおいて算定された個体の総数は最下行に示されており、各ハプロタイプの個体の総数は最終列に示されている。
【0362】
(表8-3)
Figure 2004537292
表8-3.種々の眼の色の濃淡のクラスにおける個々のOCA3LOC109ハプロタイプの集計数。濃い―黒、褐色、または薄茶色、薄い―青色または緑色。各クラスにおいて算定された個体の総数は最下行に示されており、各ハプロタイプの個体の総数は最終列に示されている。
【0363】
(表8-4)
Figure 2004537292
表8-4.種々の眼の色の濃淡のクラスにおけるOCA3LOC109遺伝子型(二倍体ハプロタイプ対)のクラス。濃い―黒、褐色、または薄茶色、薄い―青色または緑色。各クラスにおいて算定された個体の総数は最下行に示されており、各ハプロタイプの個体の総数は最終列に示されている。
【0364】
(表8-5)
Figure 2004537292
表8-5.種々の眼の色の濃淡のクラスにおける個々のOCA3LOC920ハプロタイプのクラス。濃い―黒、褐色、または薄茶色、薄い―青色または緑色。各クラスにおいて算定された個体の総数は最下行に示されており、各ハプロタイプの個体の総数は最終列に示されている。
【0365】
(表8-6)
Figure 2004537292
表8-6.種々の眼の色の濃淡のクラスにおけるOCA3LOC109遺伝子型(二倍体ハプロタイプ対)のクラス。濃い―黒、褐色、または薄茶色、薄い―青色または緑色。各クラスにおいて算定された個体の総数は最下行に示されており、各ハプロタイプの個体の総数は最終列に示されている。
【0366】
(表8-7)
Figure 2004537292
表8-7.単一の遺伝子ハプロタイプ系レベルでの解析の概要。ハプロタイプ系が内部に見いだされた遺伝子を列1(遺伝子)に示している。眼の色の濃淡の薄いクラスと濃いクラスの区別は列2(区分)に示されている。ハプロタイプ系は列3に示されており、統計的に有意な結果が得られた複雑性のレベルは列4に示されている。
【0367】
(表8-8)
Figure 2004537292
表8-8.個体を眼の色の濃い個体または薄い個体として分類するための、本明細書に記載のハプロタイプ系を組み入れた分類樹。
【0368】
(表8-9)
Figure 2004537292
表8-9.表8-8に示された分類樹規則を策定するためのエフェクト統計量。
【0369】
(表8-10)
Figure 2004537292
表8-10.表8-8の分類ソリューションによる最終的な集計数。
【0370】
実施例 9
分類モデルによる眼の色の分析
以下の実施例では、本明細書中に記載した4つの異なる遺伝子に関する最適なハプロタイプ系を用いる眼の色に関する好ましいソリューションを生じた、実施例8において提示した分類モデルについてさらに考察する。本発明者らの目標は、ヒトの眼の色に関する分類ソリューションを開発することであった。約300人のさまざまな眼の色の白人に対して、メラニン産生に関与することが知られた5つの遺伝子における平均30個のSNPマーカーに関する遺伝子型判定を行った。その結果、実施例8で考察したように、TYR遺伝子、TYRP1遺伝子、OCA2遺伝子、およびMC1R遺伝子におけるSNPのアレルはヒトの特定の眼の色および/または濃淡との統計学的関連を示すことが示された。しかし、アレルと眼の色/濃淡との関係はバイアスを伴うものであった。SNPアレルと眼の色/濃淡との間の関連性は単独で統計的に有意であったが、分類の誤り率が高すぎるため、これらのマーカーは予測ツールとしての能力は低かった。このことは、発見されたSNPが、より大規模でより複雑な複合的な実体の断片的な構成要素であることを示唆している。
【0371】
眼の色の遺伝に関して知られている事柄からみて、これは適切でない仮説とはいえない。すなわち、眼の色は複雑な形質であり、単純なメンデル形質ではない。濃い眼の色に関する優性のエレメントはあるものの、母親および父親の眼の色が判明していても子供の眼の色を正確に予測することはできない。この理由は、眼の色が、単一の遺伝子ではなく、互いに相互作用する多数の遺伝子の結果であることによる。ヒトの眼の色に関する情報をもたらすSNPの一群が同定されたことから、SNPを遺伝子間複雑性および遺伝子内複雑性の両方の点から考察した。
【0372】
これを行うために、各遺伝子の内部のマーカーについて、眼の色を説明するための最適な組み合わせを同定した。次の段階では(以下参照)、最終的なソリューションを開発するための遺伝子間分析において、4つの遺伝子のそれぞれに関するこれらの最適なハプロタイプ系を組み合わせた。
【0373】
段階1.遺伝子内複雑性
これらの4つの遺伝子のそれぞれに対して、ハプロタイプ系を構成するためにランダムなSNP(マーカー)の組み合わせを選択した。それぞれのハプロタイプ系について、コンピュータ計算による推測(StephensおよびDonnelly、2000)を用いて遺伝子型の原型をハプロタイプへと変換し、個体を、眼の濃淡に関する2つの群の一方、すなわち薄い群(青色、緑色、灰色、または薄茶色の眼)または濃い群(淡褐色、中程度の褐色、濃い褐色、または黒い眼)にグループ分けした。これらの群の間の集団構造の違いを検証するために、ペアワイズF統計量(または場合によっては、サンプルの差異に関するFisherの直接法)を算出した。F統計量は短い分岐時間での遺伝的距離に基づく。集団の差異に関する直接法では、任意交配の仮説の下でハプロタイプの集団サンプルへの非ランダムな分布について検定する。これらの検定によって算出されたP値を保存した。このプロセスを、遺伝子に関して可能なハプロタイプ系のすべてを検定するまで繰り返した。この時点で、最も低いP値を示すハプロタイプ系を以降の解析のために選択した。
【0374】
例えば、OCA2遺伝子は、眼の濃淡にの2つのクラスの一方に偏りのあるアレルを有する19のSNPを有していた(本実施例においてヒトの眼の色に対する予測的な価値があるとして同定されたSNPの一覧については表9-1を参照されたい)。このアプローチを用いて、それぞれがヒトの眼の色に対する予測的な価値を有する、いくつかのハプロタイプ系が同定された。この検討に用いたハプロタイプ系は、左から右の順に以下の通りに規定される:
Figure 2004537292
【0375】
これらのSNP(マーカー)のそれぞれの説明については、以下の実施例10を参照されたい。これらのマーカーは、請求対象であるSNPの包括的な一覧(表1)にも含まれている。
【0376】
実施例10において考察するように、TYR2LOC920およびOCA3LOC109ハプロタイプ系には特に情報的価値がある。ペアワイズF統計による評価では、眼の色の濃い人は、薄い眼の色の薄い人とは異なるハプロタイプおよびハプロタイプの二倍体での組み合わせ(ハプロタイプ対)を有する傾向がある。これらの統計量に関するP値は以下の表9-2に示されている。統計学的有意性を示すp値が得られなかったTYRP系およびMC1R系に対しても解析を継続したが、これは濃い眼の色と関連することが見いだされたその構成要素であるアレルが、アフリカ系アメリカ人またはアジア人系統の人により高い頻度で認められた(実際、それらは事実上単形性であった)ためである。これらの人種群における平均的な眼の色は白人よりも濃いため、さらにSNPが存在する遺伝子の性質の点から、これらのマーカーは、複雑な遺伝的レベルでは、眼の色に関する有用なマーカーである可能性がある。実際、これは正しいことが明らかになった(表8-8参照)。
【0377】
段階2.遺伝子間複雑性
各遺伝子について興味深いハプロタイプ系が規定されたことから、ネステッド統計アプローチを用いて、これらのハプロタイプ系に基づく分類規則を開発した(実施例12参照)。まず、個体をTYR2LOC920ハプロタイプ系での遺伝子型に基づいて層別化した。例えば、CG/CA遺伝子型を有する個体はそれ以外のものと分離した。これらの個体のすべてまたは大部分が、眼の色が青色、緑色、薄茶色、褐色、薄い(青色もしくは緑色)、または濃い(褐色もしくは薄茶色)の個体であれば(ペアワイズF統計を用いて計測)、個体がTYR2LOC920 CG/CA遺伝子型を有する場合には彼らは適切な眼の色のクラスに属するとする規則を定めた。たまたまこの規則が作成されることはなかった。このため、TYR2LOC920 CG/CAクラスを有する個体は他のいくつかのハプロタイプ系(ランダムに選択された)の遺伝子型に基づいて区分され、新たな種々の複合遺伝子型の個体と種々の眼の色のクラスの個体との間に集団構造の違いがあるか否かを判定するためにペアワイズF統計検定が用いられた。対象を眼の色に基づいて最も適切に区分できたハプロタイプ系を選択した。OCA3遺伝子については、このハプロタイプ系はたまたまOCA3LOC109系であった(P=0.018+/-0.018)。TYR2LOC106 CG/CAクラス内の多くのOCA3LOC109遺伝子型については、分類規則を構築することができた。例えば、TYR2LOC106 CG/CA遺伝子型およびOCA3LOC109 ATG/ATG遺伝子型を有する7個体は7例とも眼の色が薄かった(表8-8参照)。この数字は統計的に有意であった。このため、本発明者らは、ある人がこの複合遺伝子型を有することが判明すれば、彼らは分類された眼の色の薄い群に分類しうるとする規則を構築した。このTYR2LOC920クラス内の他のOCA3LOC109遺伝子型については規則を作成することができなかったため、第2項の場合と同じようにして第3項をモデルに追加した。TYR2LOC920 CG/CA:OCA3LOC109 ATA/ATAの個体を眼の色に基づいて弁別するために最適なハプロタイプ系はMCR3LOC105ハプロタイプ系であった;TYR2LOC920 CG/CA:OCA3LOC109 ATA/ATA:MCR3LOC105 CCC/YYC複合遺伝子型クラスを有する15個体は15例とも眼の色が薄いか薄茶色であった。このため、この観察所見から規則を作成した。
【0378】
以上のようにして策定した規則はすべて、表8-8に提示した分類樹に表記されている。それぞれの分類は統計的判定に起因する。これらの判定に関するエフェクト統計量は表8-10に提示したように分類樹に提示されている。樹は表8-8に示したものと同じ形式に従っており、眼の色の異なる個体の群間の遺伝子構造の違いを推測するために複合遺伝子型クラスの内部で用いたペアワイズF統計によるP値を示している。複合遺伝子型クラス内部の個体をこの検定を用いて統計的に有意な様式で区分しうることは、複合的系の内部の個々の遺伝子型に対する分類規則の策定に関する正当性を示している(本文および表8-8を参照)。
【0379】
樹は左から右へと読まれる。列の内部にはハプロタイプ系が列挙され、その系に関する遺伝子型クラスがすぐ右側に表記されている。ある列に特定されたハプロタイプ内の所定のクラスの個体は、右にある次のハプロタイプ(あれば)に関する遺伝子型クラスに区分される。この新たな複合遺伝子型クラス内にある個体を、眼の色の濃淡に基づいて(本文中に記載)、ハプロタイプ組成に関して統計的に異なるサブグループに区分することができれば(ペアワイズF統計検定を用いる)、プロセスはその検定に関する関連P値が示された行に沿って終了する。統計学的有意性に達した場合(または達したら)、その複合遺伝子型を用いて該当する個体に対する分類規則を構築する(表8-8に示されている)。
【0380】
例えば、行1から3までを考えると、TYR2LOC920 AG/CA遺伝子型を有する個体のクラス内ではOCA3LOC920遺伝子型と眼の色との間に統計学的関連性はない。このため、パスはそれぞれの複合的なTYR2LOC920:OCA2LOC920クラスを有する個体に関するMCR3LOC106ハプロタイプ系につながる。列2に示された例については、複合的なTYR2LOC920 AG/CA、OCA2LOC920 CAC/CAC遺伝子型クラス内で、眼の色の薄い(青色、緑色)個体と濃い(褐色または黒)個体との間にはMCR3LOC106ハプロタイプ組成に関して統計的な有意差があった(P<0. 001+/-0.001、n=33)。このため、特定の複合的TYR2LOC920:OCA3LOC920:MCR3LOC106遺伝子型を有する個体についての分類規則を構築した。
【0381】
ハプロタイプの一部(「P=INCALC」として示したもの)については、P値が算出されなかった。その最も多い理由は、当該の複合遺伝子型に関する、眼の色のクラスの一方または両方における遺伝的均一性である。このペアワイズ方法は群内差の平均数を群間での数と比較して計測し、複合的クラスの最終的なハプロタイプ系の内部にこの遺伝的均一性があれば群内差の計算は技術的に不可能となる。
【0382】
表8-8および表8-10に記載された複合的ソリューション樹によって208個体が正しく分類され、8個体が誤って分類され、33個体に関する結果は不確定的であった(表8-9参照)。すなわち、本ソリューションの精度は96%であり、これはDNAからヒトの眼の色を予測するための有用なツールとなる。
【0383】
(表9-1) 眼の色の濃い白人または薄い白人のいずれかに選好的に分離されるアレルを有するSNP:
Figure 2004537292
正当性の理由:このSNPは、その有用性が本特許の本文中の他の箇所に示されているOCA3LOC920ハプロタイプ系の一部である。この分布から、青色の眼の個体のみがTアレルを有することが見てとれる。
Figure 2004537292
正当性の理由:このSNPは、その有用性が本特許の本文中の他の箇所に示されているOCA3LOC109およびOCA3LOC920ハプロタイプ系の一部である。この分布から見てとれるように、Gアレルは眼の色の濃い(褐色および薄茶色)個体の方が多い。特に、緑色の眼の個体がGアレルを有することは稀である。
Figure 2004537292
正当性の理由:この分布から見てとれるように、Aアレルの頻度は眼の色の濃い個体の方が薄い個体(青色および緑色)よりも高い。眼の色の濃い個体(褐色および薄茶色)における遺伝子型AA:GA:GGの比は0:8:41であるが、薄い(青色および緑色)個体では ):3:41に過ぎない。
Figure 2004537292
正当性の理由:Cアレルは眼の色の濃い個体(褐色および薄茶色)の方が薄い個体よりも多い。前者の群におけるCC:CT:TT遺伝子型の比は4:24:26であるが、後者の群では4:21:34に過ぎない。
Figure 2004537292
正当性の理由:このSNPは、その有用性が本文中に示されているOCA3LOC920ハプロタイプ系の一部である。
Figure 2004537292
正当性の理由:眼の色が褐色の個体のみがGアレルを有し、これは極めて稀なように思われる。
Figure 2004537292
正当性の理由:Gアレルは眼の色の濃い(褐色および薄茶色)個体の方に薄い個体よりも高い頻度で認められる。眼の色の濃い群におけるAA:GA:GG遺伝子型の比は34:25:3であるが、薄い群では40:19:2に過ぎない。
Figure 2004537292
正当性の理由:眼の色の濃い個体(褐色および薄茶色)におけるAA:GA:GG遺伝子型の比は0:14:34であるが、薄い群では1:7:47に過ぎず、Aアレルは濃い群の方に多いことを示している。このSNPは本文中に記載されているOCA3LOC109ハプロタイプ系の一部である。
Figure 2004537292
正当性の理由:色の濃い(褐色および薄茶色)群におけるAA:GA:GG遺伝子型の比は27:18:12であるが、薄い群では19:31:6であり、Gアレルは眼の色の薄い群でより高い頻度で認められることを示している。
Figure 2004537292
正当性の理由:色の濃い群におけるGG:GT:TT遺伝子型の比は35:24:3であるが、薄い群では48:13:0であり、Tアレルは濃い群の方にはるかに高い頻度で認められることを示している。このSNPは本出願の本文中に記載されているOCA3LOC109ハプロタイプ系の一部である。
Figure 2004537292
正当性の理由:眼の色の濃い群におけるAA:AG:GG遺伝子型の比は42:15:0であり、薄い群では51:9:2である。これはそれほど異なるようには思われないが、このSNPは、その有用性が本文中に記載されているOCA3LOC109ハプロタイプ系の一部である。
Figure 2004537292
正当性の理由:毛の色の濃い個体におけるAA:AG:GG遺伝子型の比は22:32:4であるが、薄い群では41:17:4に過ぎない。したがって、Gアレルの頻度は眼の色の濃い群の方が高い。このSNPは、その有用性が本文中に示されているOCA3LOC109ハプロタイプ系の一部である。
Figure 2004537292
正当性の理由:眼の色の濃い個体(褐色および薄茶色)におけるCC:CT:TT遺伝子型の比は3:34:27であるが、眼の色の薄い個体では3:11:13に過ぎない。したがって、Cアレルの頻度は眼の色の濃い群の方が高い(TTホモ接合体よりもヘテロ接合体の方が多い)。
Figure 2004537292
正当性の理由:Cアレルは眼の色が青い人のみに認められる。
Figure 2004537292
正当性の理由:眼の色の濃い個体におけるAA:AG:GG遺伝子型の比は2:11:30であるが、眼の色の薄い人では0:7:46に過ぎない。したがって、Aアレルの頻度は眼の色の濃い人の方が高い。
Figure 2004537292
正当性の理由:眼の色の濃い人におけるCC:CA:AA遺伝子型の比は2:16:38であるが、眼の色の薄い人では0:9:51に過ぎない。したがって、したがって、Cアレルの頻度は眼の色の濃い人の方が高い。
Figure 2004537292
正当性の理由:眼の色の濃い人におけるCC:CA:AA遺伝子型の比は24:21:9であるが、眼の色の薄い人では19:33:4に過ぎない。したがって、Aアレルの頻度は眼の色の薄い人の方が高い。
Figure 2004537292
Figure 2004537292
正当性の理由:眼の色の濃い(褐色および薄茶色)人におけるAA:GA:GG遺伝子型の頻度は0:37:41であるが、眼の色の薄い人では0:46:41である。したがって、Aアレルの頻度は眼の色の薄い人の方が幾分高い。
Figure 2004537292
正当性の理由:眼の色の濃い(褐色および薄茶色)人におけるAA:GA:GG遺伝子型の比は0:16:41であるが、眼の色の薄い人では2:5:54である。眼の色の濃い人ではヘテロ接合性GAの状態がより高い頻度で認められる。
Figure 2004537292
正当性の理由:眼の色の濃い人におけるCC:CT:TT遺伝子型の頻度は54:6:0、眼の色の薄い人では53:5:0であり、この差は有意ではない。しかし、このSNPは、その有用性が本文中に考察されているMCR3LOC105ハプロタイプ系の一部である。
Figure 2004537292
正当性の理由:このSNPは、その有用性が本文中に考察されているMCR3LOC105ハプロタイプ系の一部である。
Figure 2004537292
正当性の理由:このSNPはアフリカ系アメリカ人における変異体としてのみ認められ、白人には存在せず、前者は後者よりも平均的な眼の色が濃い。
Figure 2004537292
正当性の理由:このSNPは、その有用性が本文中に記載されているMCR3LOC105ハプロタイプ系の一部である。
Figure 2004537292
正当性の理由:このSNPはアフリカ系アメリカ人における変異体としてのみ認められ、白人には存在せず、前者は後者よりも平均的な眼の色が濃い。
Figure 2004537292
正当性の理由:このSNPはアフリカ系アメリカ人における変異体としてのみ認められ、白人には存在せず、前者は後者よりも平均的な眼の色が濃い。
Figure 2004537292
正当性の理由:眼の色の濃い(褐色および薄茶色)人におけるGG:GT:TT遺伝子型の比は7:18:16であるが、眼の色の薄い人では3:15:15である。したがって、GG遺伝子型は眼の色の濃い人により高い頻度で認められる。
Figure 2004537292
正当性の理由:眼の色の濃い(褐色および薄茶色)人におけるAA:AT:TT遺伝子型の比は5:24:16であるが、眼の色の薄い人では2:26:22である。したがって、Aアレルの頻度は眼の色の濃い人の方が高い。
Figure 2004537292
正当性の理由:眼の色の濃い(褐色および薄茶色)人におけるCC:CT:TT遺伝子型の比は13:5:0であるが、眼の色の薄い人では14:6:2である。したがって、Tアレルの頻度は眼の色の薄い人の方が高い。
Figure 2004537292
正当性の理由:このSNPはアフリカ系アメリカ人における変異体としてのみ認められ、白人には存在せず、前者は後者よりも平均的な眼の色が濃い。
Figure 2004537292
正当性の理由:このSNPはアフリカ系アメリカ人における変異体としてのみ認められ、白人には存在せず、前者は後者よりも平均的な眼の色が濃い。
Figure 2004537292
正当性の理由:このSNPはアフリカ系アメリカ人における変異体としてのみ認められ、白人には存在せず、前者は後者よりも平均的な眼の色が濃い。
Figure 2004537292
正当性の理由:眼の色の濃い人におけるCC:CT:TT遺伝子型の比は0:5:54であるが、眼の色の薄い人では0:2:60であり、Cアレルの頻度は眼の色の濃い人の方が幾分高いことを示している。
Figure 2004537292
正当性の理由:眼の色の濃い人におけるGG:GT:TT遺伝子型の比は53:6:0であるが、眼の色の薄い人では55:7:0である。この差は有意ではないが、このSNPは、その有用性が本文中に記載されているTYR3L105ハプロタイプ系の一部である。
Figure 2004537292
【0384】
(表9-2)
Figure 2004537292
【0385】
P値が比較的低いものは、そのハプロタイプ系が眼の色の予測に特に有用であることを示している。INSIGはP値が統計的に有意でないことを意味するが、TYRP3L105およびMCR3LOC106系については、それはほぼ有意に近かった。
【0386】
実施例 10
ハプロタイプのさらなる解析
本実施例には、実施例8および9に考察した単一ハプロタイプ系のさらなる解析、ならびにネステッド統計アプローチ以外の分類アプローチを用いた、これらのハプロタイプの新たな組み合わせに関する解析を提供する。表9-1中のデータは、2つの主な眼の色のクラスの個体(薄い=青色または緑色、濃い=褐色または黒)を弁別するための個々のハプロタイプ系のそれぞれの相対値を提示している。これらは、実施例8〜9の本発明者らの解析で、2群間のハプロタイプの違いに関するF統計によるP値を用いて計測され(表9-1における区分)、ヒトの眼の色に関する最善の複合的/複雑なソリューションに向けてのそれらの寄与によって示された、4つの遺伝子のそれぞれの内部に同定された最善のハプロタイプ系である(表8-8)。OCA2などのいくつかの遺伝子に関して、本発明者らは、最適なソリューションへの寄与に関してほぼ程度に優れている他のいくつかのハプロタイプ系を見いだした(OCA3LOC908、OCA3LOC922系については以下の単一ハプロタイプ系を参照されたい)。
【0387】
本発明者らは、本明細書に記載の方法に従ってこれらのハプロタイプ系を用いて、個体を種々の眼の色の群に分類するための規則を定義するために、分類樹を生成するソフトウエアパッケージを用いた(Frudakis、2001年12月3日に提出された特許出願第60/338,734号、「CLASSIFICATION TREE METHODS FOR CONSTRUCTING COMPLEX GENETICS CLASSIFIERS」を参照されたい)。規則はハプロタイプ系(MCR3LOC105、OCA3LOC109、TYRP3L105、およびTYR2LOC920)のそれぞれ単独について作成され、表10-1に示されている。
【0388】
データの解析により、4つのハプロタイプ系のそれぞれを用いて作成された分類規則が妥当な分類成功率をもたらしたことは明らかである;すなわち、これらの4つのハプロタイプ系のそれぞれの成功率は85%を上回り、平均87%である。最も優れた結果はOCA3LOC109およびTYR2LOC920から得られ、表9-1ではこの2つのハプロタイプ系でP値が最も低い。87%という平均成功率は良好に思われるが、これはおそらく現場で十分に用いられる程度には良好ではない。
【0389】
この成功率を向上させるためには(表8-8において最適なソリューションを構築するために本発明者らが用いたネステッド統計アプローチ以外のやり方で)、4つのハプロタイプ系によって生じる分類判定の組み合わせから条件付き規則を構築するとよい。表10-1に示したハプロタイプ系を用いて、4つの規則樹(1つが各ハプロタイプ系)のそれぞれからの分類を、単一の人の内部で組み合わせることができる。例えば、4つの分類のうち少なくとも3つが濃い色である場合、または4つのうち1つのみが濃い色である場合などに、個体を眼の色が濃いとして分類することができる。後者の規則(人を色が濃いとして分類するために必要なのは濃いとの分類が1つだけでよい―これはヒトの眼の色の遺伝に役割を果たしている疑いのある遺伝的優位と整合性がある)を用いたところ、この条件的アプローチにより、本ソリューションの精度は88.5%に向上した。それでも、これはネステッドアプローチによって得られた96%をはるかに下回っている。
【0390】
(表10-1)
Figure 2004537292
表10-1.本文中に考察した単一ハプロタイプ系の分類規則に関する分類成功率
【0391】
実施例 11
眼の色と関連のあるさらなる OCA2 ハプロタイプ
本実施例では、眼の色と関連のある、OCA2遺伝子からのさらなるハプロタイプを提供する。SNP位置でのヌクレオチド・オカレンスを検出するための方法は実施例4に記載されている。OCA3LOC908ハプロタイプ系はマーカー217452、217455および217458を含む(マーカーの説明については表1を参照のこと)。表11-1は、これらのハプロタイプについてのハプロタイプアレルおよび眼の色に関するデータを含む。以下には、OCA3LOC908ハプロタイプ系およびその構成要素であるSNPがヒトの眼の色と関連する(さらにおそらくはそれを決定する)ことを実証したさまざまな統計分析が含まれている。統計的に有意なP値は太字で示されている。成功した結果のほかに、成功しなかった結果も提示されている。
【0392】
OCA遺伝子に関する統計分析、ハプロタイプと眼の色との間の関連
ハプロタイプ:H1:CAT、H2:CAC、H3:CGC、H4:TGC、H5:TAT、H6:CGT
眼の色:褐色および褐色でない。
仮説:H0:眼の色は特定のハプロタイプと関連しない。
H1:眼の色は特定のハプロタイプと関連している。
Pearsonのχ二乗検定およびFisherの直接法をH0の検定に用いた。
【0393】
(表11-1)
Figure 2004537292
【0394】
結果:
Yatesの連続修正を行わないPearsonのχ二乗検定:
χ二乗=19.2502、df=5、p値=0.0017
Fisherの直接法によるP値=0.0014、対立仮説:両側
これらの検定により、H0は棄却され、H1が支持される。
【0395】
ハプロタイプと眼の色との間の関連を判定および定量するために、調整残差(Rij)を算出する。ここで、
Rij=(nij-Mij)/{SQRT[Mij(1-Pi+)(1-P+j)]} & Mij=E(nij)
であり、Rijは大標本理論によりN(0,1)分布に従う。この場合、本発明者らが得たのは以下の通りである:
R11=-1.885、R21=1.885、R12=0.124、R22=-0.124、R13=-0.249、R23=0.249、R14=3.718、R24=-3.718、R15=2.124、R25=-2.124、R16=-0.670、R26=0.670
【0396】
調整残差の値から、ハプロタイプH1:CATは褐色の眼の色よりも褐色でない眼の色と相関し、一方、ハプロタイプH4:TGC およびH5:TATは褐色の眼の色と有意かつ正に相関することは明らかである。
【0397】
ハプロタイプと眼の色との間の関連を推測するために、ハプロタイプを対で検討することにより、オッズ比(OR)を用いることもできる。本発明者らがハプロタイプH4およびH1を検討したところ、褐色に関するH4のサンプルOR(褐色でないに関するH1のOR)=34.61、CI(2.05、583.47)である。
【0398】
H1およびH5の場合には、褐色に関するH5のOR=13.31、95%CI(0.62、284.29)である。
【0399】
H3およびH4の場合、褐色でない、に関するH3のOR=30.79、95%CI(1.57、603.05)である。
【0400】
このサンプルORからも、ハプロタイプH4およびH5が褐色の眼の色とより強く関連し、ハプロタイプH1およびH3が褐色でない眼の色とより強く関連することが裏づけられた。
【0401】
次に変異の影響について検討した。
部位1:変異
部位1での変異:C←→T H1:CAT←→TAT:H5、H3:CGC←→TGC:H4
【0402】
これらの変異および眼の色に対するその影響に関するデータは表11-2に示されている。
仮説:
H0:部位1での変異は眼の色の差異に寄与しない。
H1:部位1での変異は眼の色の差異に寄与する。
ハプロタイプH1およびH5について考察してみる。
本発明者らはPearsonのχ二乗検定およびFisherの直接法を用いる。
【0403】
(表11-2)
Figure 2004537292
【0404】
結果:
Yatesの連続修正を行わないPearsonのχ二乗検定:5.1599、p値=0.0231、Yatesの連続修正を行った場合=2.1908、p値=0.1388
Fisherの直接法によるP値=0.0782
結果:10%レベルで有意
【0405】
ハプロタイプH3およびH4について考察してみる。
【0406】
(表11-3)
Figure 2004537292
【0407】
結果:
Yatesの連続修正を行ったPearsonのχ二乗検定、
χ二乗値=7.7654、df=1、p値=0.0053
Fisherの直接法によるp値=0.0022、対立仮説:両側
結果:有意
【0408】
ハプロタイプH1のH3およびH5との観察所見をH4とともにプールし、眼の色の差異に対する部位1での変異の影響を検討した。
【0409】
ハプロタイプと眼の色との間の相関に関する結果を表11-4に示している。Pearsonのχ二乗検定およびFisherの直接法をH0の検定に用いた。
【0410】
(表11-4)
Figure 2004537292
【0411】
結果:
Yatesの連続修正を行ったPearsonのχ二乗検定、
χ二乗=15.4997、df=1、p値=0.0001
Fisherの直接法、p値=0.0001、対立仮説:両側
H0を0.01%レベルで棄却してH1を支持すること、および部位1での変異を推測することにより、褐色の眼の色と強く関連するハプロタイプが得られた。
【0412】
本発明者らは、表3、4、5に関する関連性を定量するために、サンプルオッズ比(各セルに0.5を加えた後、n22=0)および95%信頼区間(CI)も計算した。H1とH5を比較して検討した場合、褐色に関するH5の(褐色でないに関するH1の)のサンプルOR=13.31、CI=(0.624、284.291)である。H3とH4を比較して検討した場合、サンプルOR=30.789、CI=(1.737、603.05)である。これらのOR値はH5およびH4が褐色の眼の色と強く関連すること、ならびにH1およびH3が褐色でない眼の色と強く関連することを示している。
【0413】
表5において(H1+H3)と(H4+H5)を比較して検討した場合、褐色に関する(H4+H5)のサンプルOR=44.506、CI:(2.517、787.607)である。
【0414】
このことは、ハプロタイプ(H1+H3)が褐色でない眼の色と強く関連し、ハプロタイプ(H4+H5)が褐色の眼の色と強く関連することを示している。
【0415】
本発明者らは、以上の表5に関する調整残差も計算した。
R11=-4.329、R12=4.329、R21=4.329、およびR22=-4.329
【0416】
大標本理論によりRijはN(0、1)として分布するため、残差の値はハプロタイプ(H4+H5)が褐色の眼の色と有意かつ正に相関し、ハプロタイプ(H1+H5)が褐色でない眼の色と有意かつ正に相関することを示している。すなわち、部位1での変異は、ハプロタイプH4およびH5を介して眼の色の有意な差異をもたらす。言い換えると、眼の色に関する表現型の差異は部位1での変異に遡ることができる。
【0417】
ネステッド随伴分析:
ハプロタイプと眼の色との間の関連(褐色と、褐色でないとの比較):
Templetonら、前記(1987)に従い、ハプロタイプは0段階クレードを形成し、単一の変異によって連結されたハプロタイプは1段階クレードを構成し、2つまたはそれ未満の変異によって連結されたハプロタイプ(推測された{.}ものを含む)は2段階クレードを形成し(以下も同様)、その上でネステッド随伴分析を行う。
【0418】
この場合には6つのハプロタイプがある:
H1:(CAT)、H2:CAC)、H3:(CGC)、H4:(TGC)、H5:(TAT)、H6:(CGT)。
【0419】
以下の分岐図は、PAUPバージョン4.0b8ソフトウエア(Sinauer Associates, Inc. Publishers, Sunderland, Massachusetts.http://paup.csit.fsu.edu/index.htmlからダウンロード可能)を用い、最大節約を最適性の基準とすることによって得た。
【0420】
1段階クレードは以下の通りである:I1:(H1、H5)、I2:H2、I3:(H3、H4)、I4:H6。
2段階クレードは以下の通りである:
クレード-1:(I1、I2)=(H1、H5、H2)、クレード-2:(I3、I4)=(H3、H4、H6)。
【0421】
2段階クレードの概略図については図6を参照されたい。
仮説:H0:眼の色は種々のレベルのクレードと関連しない。H1:眼の色は種々のレベルのクレードと関連し、これは特定の変異を表す。
【0422】
本発明者らは、表11-5に示されているように、Pearsonのχ二乗検定およびFisherの直接法をH0の検定に用いた。
【0423】
(表11-5)
Figure 2004537292
注:H1とH5の比較およびH3とH4の比較は、部位1での変異を表し、H1+H2+H5とH3+H4+H6の比較は部位2での変異を表す。
【0424】
推測:
統計分析により、部位1での変異は眼の色の差異の有意な源であることが示されている。言い換えると、眼の色の差異は部位1でのOCA2908遺伝子の変異に遡ることができる。計算の詳細は、表11-6〜11-10に示されたデータに基づいて以下に示されている:
【0425】
(表11-6) H1とH5の比較
Figure 2004537292
χ二乗統計値=2、P値=0、およびFisherの直接法によるP値=0.0782。
【0426】
(表11-7) H3とH4の比較
Figure 2004537292
χ二乗統計値=7.7654、P値=0.0053、およびFisherの直接法によるP値=0.0022。
【0427】
(11-8) (H1+H5)とH2の比較
Figure 2004537292
χ二乗統計値=0.1443、P値=0.7041、およびFisherの直接法によるP値=0.8100。
【0428】
(表11-9) (H3+H4)とH6の比較
Figure 2004537292
χ二乗統計値=0.0000、P値=1.0000、およびFisherの直接法によるP値=1.0000。
【0429】
(表11-10) (H1+H2+H5)と(H3+H4+H6)の比較
Figure 2004537292
χ二乗統計値=1.6155、P値=0.2037、およびFisherの直接法によるP値=0.2409。
【0430】
単一ハプロタイプ系OCA3LOC908
OCA3LOC922ハプロタイプ系はマーカー217455、886993、および217458から構成される(マーカーの説明については表1を参照のこと)。以下には、OCA3LOC922ハプロタイプ系およびその構成要素であるSNPがヒトの眼の色と関連する(さらにおそらくはそれを決定する)ことを実証したさまざまな統計分析が含まれている。統計的に有意なP値は太字で示されている。成功した結果のほかに、成功しなかった結果も提示されている。
【0431】
OCA3LOC922ハプロタイプ系に関する統計分析
遺伝子型と眼の色(濃い、濃くない)との間の関連
仮説:H0:眼の色は特定の遺伝子型と関連しない。
H1:眼の色は特定の遺伝子型と関連している。
【0432】
本発明者らはPearsonのχ二乗検定およびFisherの直接法をH0の検定に用いた。
【0433】
遺伝子型および眼の色に関するデータは表11-11に示されている。
【0434】
(表11-11)
Figure 2004537292
【0435】
結果:
Yatesの連続修正を行わないPearsonのχ二乗検定:
χ二乗=25.6524、df=16、p値=0.0591
【0436】
これらの結果は5%レベルの有意性では有意でない。しかし、10%レベルの有意性では結果は有意である。このレベルでは、データは眼の色と遺伝子型との間に特定の関連が存在することを示している。関連性の判定および定量を行うために、本発明者らは、2つの遺伝子型を同時に検討することにより、オッズ比(OR)および95%信頼区間(CI)を計算した。
【0437】
遺伝子型G11およびG12を検討した場合、濃くない眼の色に関するG11のOR=濃い眼の色=1.846、CI=(0.772、4.410)である。
【0438】
G11、G22の場合、濃い眼の色に関するG22のOR=6.645、CI=(0.583、75.77)である
【0439】
G11、G24の場合、濃い眼の色に関するG24のOR=13.29、CI(1.432、123.32)である。
【0440】
関連性を定量するために、本発明者らは調整残差(AR)Rij(これはSND N(0,1)に従う)も計算した。以下には関心がもたれる少数のARを提示している。R11=-2.0297、R12=2.0297、R91=1.473、R92=-1.473、R111=2.576、およびR112=-2.576。
【0441】
ORおよびARの値から、遺伝子型G11:(AGT,AGT)が濃い眼の色よりも濃くない眼の色と有意に関連していることが明らかに示されている。
【0442】
遺伝子型G12:(AGT,GAC)、G22:(GAC,GAC)、およびG24:(GAC,GGC)は濃くない眼の色よりも濃い眼の色と強く関連している。
【0443】
次に本発明者らはハプロタイプを、それらが眼の色と関連しているか否かに関して個別に検討した。
【0444】
OCA3LOC922遺伝子に関する統計分析 ハプロタイプと眼の色との間の関連
分析したハプロタイプには以下が含まれる:H1:AGT、H2:GAC、H3:AGC、H4:GGC、H5:AAC、H6:GAT、H7:GGT、およびH8:AAT。
【0445】
評価した眼の色には以下が含まれる:濃い(褐色、褐色、褐色2、褐色3、および黒)および「濃くない」(緑色、青色、薄茶色)。
仮説:
H0:眼の色は特定のハプロタイプと関連しない。
H1:眼の色は特定のハプロタイプと関連している。
Pearsonのχ二乗検定をH0の検定に用いた。
【0446】
用いた方法では、検定によって有意性が示されれば、2つのハプロタイプを同時に検討することにより、サンプルオッズ比を95%信頼区間(CI)とともに計算した。ハプロタイプと眼の色との間の関連性を判定および定量するために、大標本理論により標準正規偏差に従って分布する調整残差Rijも計算した。眼の色およびハプロタイプに関するデータは表11-12に示されている。
【0447】
(表11-12)
Figure 2004537292
【0448】
結果:Yatesの連続修正を行わないPearsonのχ二乗検定により、有意な結果が得られた:
χ二乗=15.6375、df=7、p値=0.0286
したがって、H0は棄却されてH1が支持され、眼の色が特定のハプロタイプと関連することが推測される。
【0449】
H1およびH2を検討した場合、濃くない眼の色に関するH1のオッズ比(OR)=濃い眼の色に関するH2のORおよびCIは:OR=2.664、CI(1.405、4.976)である。
【0450】
H1およびH3を検討した場合、濃い眼の色に関するH3のOR=2.198、CI=(0.857、5.634)である。
【0451】
H1およびH4を検討した場合、濃い眼の色に関するH4のOR=1.813、CI=(0.853、3.855)である。
【0452】
調整残差:R11=-2.945、R12=2.945、R21=2.828、R22=-2.828、R31=1.338、R32=-1.338、R41=1.164、R42=-1,164、R51=-0.231、R52=0.231
R61=1.468、R62=-1.468、R71=-0.647、R72=0.647、R81=-0.632、R82=0.632
【0453】
ORとCIとの値および調整残差の値により、ハプロタイプH1:AGTが濃くない眼の色と有意かつ正に相関し、ハプロタイプH2、H3、およびH4が濃くない眼の色よりも濃い眼の色とより強く相関することが明らかに示されている。
【0454】
次に本発明者らは、ネステッド随伴分析を行うことにより、何らかの変異がこの関連性の原因であるか否かを検討した。
【0455】
OCA3LOC922に関する統計分析:ネステッド随伴分析
本発明者らは、OCA3LOC922ハプロタイプと眼の色との間の関連について検討した(濃いと濃くないとの比較)。Templetonら、前記(1987)に従い、ハプロタイプは0段階クレードを形成し、単一の変異によって連結されたハプロタイプは1段階クレードを構成し、2つまたはそれ未満の変異によって連結されたハプロタイプ(推測された{.}ものを含む)は2段階クレードを形成し(以下も同様)、その上でネステッド随伴分析を行う。
【0456】
分析した眼の色には以下が含まれる:濃い(褐色、褐色、褐色2、褐色3、および黒)および濃くない(青色、緑色、薄茶色)。
【0457】
OCA3LOC922に関しては8つのハプロタイプがある{0段階クレード}:
H1:AGT、H2:GAC、H3:AGC、H4:GGC、H5:AAC、H6:GAT、H7:GGT、H8:AAT
以下の分岐図が得られた:
1段階クレード:I1:(H5、H8)、I2:(H7、H1)、I3:(H3、H4)、I4:(H2、H6)。
2段階クレードは以下の通りである:
クレード-1:{I1、I2}={(H5、H8)、(H7、H1)}、クレード-2:{I3、I4}={(H3、H4)、(H2、H6)}。
2段階分岐図:クレード-1 クレード-2については図7を参照されたい。
【0458】
検定した仮説は以下を含む:
H0:眼の色は種々のレベルのクレードと関連しない。
H1:眼の色は種々のレベルのクレードと関連し、これは特定の変異を表す。
Pearsonのχ二乗検定およびFisherの直接法をH0の検定に用いた。
【0459】
褐色の眼の色と褐色でない眼の色との比較に関するネステッド随伴分析の結果は表11-13に示されている:
【0460】
(表11-13)
Figure 2004537292
注:{(H1+H7+H5+H8)と(H3+H4+H2+H6)の比較}は部位3での変異を表し、これは眼の色の有意な差異をもたらした。
【0461】
2レベルクレード間の分析の詳細
検定した仮説は以下を含む:
H0:2レベルクレードと眼の色との間には関連はない。
H1:2レベルクレードは特定の眼の色と関連している。
【0462】
眼の色および2段階クレードに関するこの解析のデータは11-14に示されている。
【0463】
(表11-14)
Figure 2004537292
【0464】
結果:
Yatesの連続修正を行ったPearsonのχ二乗検定によって以下の値が得られた:
χ二乗=12.5967、df=1、p値=0.0004
【0465】
仮説H0は棄却され、二段階クレードは特定の眼の色と関連していることが推測された。
【0466】
関連性を定量するために、オッズ比(OR)を95%信頼区間(CI)および調整残差{Rij}(これは大標本理論によりN(0,1)に従う)とともに計算した。
【0467】
濃い眼の色に関する(H2+H3+H4+H6)のOR=2.327、CI(1.478、3.693)、R11=3.674=R22
濃くない眼の色に関する(H1+H5+H7+H8)のOR=2.327、CI(1.478、3,693)、R21=-3.674=R12
【0468】
ORおよび調整残差の値は、ハプロタイプH2、H3、H4、およびH6が濃い眼の色と有意かつ正に相関し、ハプロタイプH1、H5、H7、およびH8が濃くない眼の色と有意かつ正に相関することを明らかに示している。部位3での変異はこの関連の原因である。言い換えると、眼の色の差異は部位3での変異に遡ることができる。
【0469】
OCA3LOC922に関する統計分析:遺伝子型と眼の色との関連
この分析において検定した仮説は以下を含む:
H0:遺伝子型と眼の色との間に関連はない。
H1:遺伝子型と眼の色との間には関連がある。
【0470】
χ二乗検定およびFisherの直接法によるP値を算出した。この解析についての遺伝子型および眼の色に関するデータは表11-15に示されている。データは薄い(青色+緑色)眼の色と薄くない(褐色+濃い+薄茶色)眼の色との比較に関して算出した。
【0471】
(表11-15)
Figure 2004537292
【0472】
結果:χ二乗統計値(24.2564、d.f.=16、およびP値=0.0841)は有意でなかった。
推測:遺伝子型と眼の色との間に5%レベルで有意差はない。
【0473】
ハプロタイプと眼の色との間の関連[薄い(青色+緑色)および薄くない(褐色+濃い+薄茶色)]
この分析で検定した仮説には以下が含まれる:
H0:ハプロタイプと眼の色との間に関連はない。
H1:ハプロタイプと眼の色との間には関連がある。
【0474】
χ二乗検定およびFisherの直接法によるP値を算出した。遺伝子型および眼の色のデータは表11-16に示されている。
【0475】
(表11-16)
Figure 2004537292
【0476】
結果:この分析に関する結果は有意であった(χ二乗統計値=17.4834、d.f.=7、およびP値=0.0145)。ハプロタイプは特定の眼の色と関連することが見いだされた。
【0477】
(表11-17)
Figure 2004537292
【0478】
ハプロタイプと眼の色との関連に関するネステッド随伴分析
ネステッド随伴分析を行うためには、ハプロタイプは0段階クレードを形成し、単一の変異によって連結されたハプロタイプは1段階クレードを構成し、2つまたはそれ未満の変異によって連結されたハプロタイプは2段階クレードを形成し、以下も同様である(Templetonら、1987)。
【0479】
この場合には8つのハプロタイプがあり、それらは以下に示す0段階クレードを形成する:
0段階クレード:H1:AGT、H2:GAC、H3:AGC、H4:GGC、H5:AAC、H6:GAT、H7:GGT、およびH8:AAT。
【0480】
PAUP Ver. 4.0b8ソフトウエアを用いることにより、以下の2つのクレードを得た。
1段階クレード:I-1:(H5、H8)、I-2:(H7、H1), I-3:(H3、H4)、I-4:(H2、H6)
2段階クレード:II-1:(I1、I2)=(H8、H8、H7、H1)、II-2:(I3、I4)=(H3、H4、H2、H6)
【0481】
2段階分岐図:クレード-1 クレード-2については図8を参照されたい。
【0482】
検定した仮説は以下を含む:
H0:眼の色は種々の段階のクレードとは関連しない。
H1:眼の色は種々の段階のクレードと関連している。
検定統計量:χ二乗検定およびFisherの直接法によるP値を決定した。
【0483】
青色の眼の色と緑色の眼の色との比較に関するネステッド随伴分析は表11-18に示されている:
【0484】
(表11-18)
Figure 2004537292
【0485】
結果:この解析の結果、2レベルクレードは眼の色と関連することが示された(表11-19)。薄い眼の色に関する(H1+H5+H7+H8)のオッズ比=薄くない眼の色に関する(H2+H3+H4+H6)のオッズ比は2.1398であり、95%C.I.は[1.3399、3.4156]である。
【0486】
(表11-19)
Figure 2004537292
【0487】
実施例 12
分類樹アルゴリズム
本実施例には、ソリューションの開発に用いた分類樹アルゴリズムを提示する。分類樹は、一連のデータにおける1つまたは複数の独立/予測変数から従属/応答変数の構成要素を予測するために用いられる。分類樹は主としてデータマイニングに用いられる。分類樹は結果を樹の形態で提示する。あらゆる基本的な樹構造は根、判断節、葉および辺を含む。分類樹は一連の質問に回答することによって構築され、判断はその質問に対する回答に依存して行われ、最終的な回答はそれまでのすべての回答に依存する。
【0488】
樹の根は樹の出発点であり、それは第1の質問を尋ねる。それぞれの判断節は質問を尋ね、その回答に応じて樹は成長を続けるか(次の判断節へと進む)、または最終的な回答を提示する葉節で終了する。辺は根を節および葉と連結する。
【0489】
分類樹では、葉での値は範疇的である(数ではない)。
【0490】
回帰樹では、葉での値は数値である。
【0491】
以下は樹の構築に際しての重要事項である。
1.個々の判断節でどの属性を選択するか。
2.樹を分岐させ、成長を続けさせるために、属性に関する閾値としてどの値を選択すべきか。
3.停止基準は何か。
【0492】
C4.5樹構築アルゴリズム
樹は最初は空白であり、アルゴリズムはそれを根から構築することによって出発し、それが樹の各分枝を下行するにつれて判断節または葉節を加えていく。以下の段階が再帰的に行われる。
1.各属性の情報利得を計算する。
2.情報利得の最も多い属性を節の検証のために選択する。
3.選択した属性が離散的であれば、節をすべての可能な値とともに分岐させる。属性が連続的であれば、最も多い情報利得が得られるカットポイントを選択する。カットポイントは節を2つのセットに分割する:値がカットポイント以下のものと、値がカットポイントを上回るものである。
4.対応する分枝にデータ項を指定する。
5.以上のすべての段階を樹の各分枝において繰り返す。
【0493】
この再帰的方法は、アルゴリズムが、学習した樹を改変するために以前の判断を再検討する目的で逆戻りすることが決してない点で、貪欲なアプローチである。アルゴリズムは停止基準が満たされると停止する。C4.5は大きな樹を成長させ、過剰適合化の問題は剪定段階で解決され、本発明者らは以下の4つのエレメントがC4.5樹構築アルゴリズムの中核を形成することを見てとれる:
【0494】
判断節の属性の選択
樹の構築における中心的な選択は、樹の中の各節を検証するためにどの属性を選択するかである。選択された属性は、分類データのセットに対して最も有用でなければならない。C4.5は情報利得または情報利得比を用いる。訓練セットTを試験Xによって区分することによって得られる情報は以下のように定義される:
Figure 2004537292
ここで、info(T)はTにおける一例のクラスを同定するために必要な情報の平均量である。infox(T)は、試験Xの結果に従ってTがn個のサブセット{Ti}に区分された後の予想情報必要量である。
【0495】
情報利得基準には多くの結果が得られる試験を支持する強いバイアスがあるため、C4.5はデフォルトの分割基準として利得比を用いており、この利得比は以下のように定義される:
Figure 2004537292
ここでsplit info(X)はTをn個のサブセットに区分することによって生じる潜在的情報である。
【0496】
Figure 2004537292
【0497】
分割のための閾値の選択
ひとたび属性が選択されれば、属性の値を節に指定する必要がある。離散的属性Aの場合、節はすべての可能な値に関して分枝する。連続的属性Aの場合には、A≦ΓおよびA>Γの結果が得られる二進法試験を行う。属性Aに関する最適な閾値Γは以下によって見いだされる:まず訓練例をソートし、ソートしたリストにおける2つの隣接値の中点を見いだすことによって閾値を選択する。続いて、最も良い分割基準の値が得られる閾値を選択する。
【0498】
分割停止条件およびクラス指定
C4.5は、節にあるすべての事例が同じクラスCに属するならば分割を停止し、その節は随伴クラスCを有する葉節となる。節にある事例の数が最小必要量よりも少なく、事例が複数のクラスに属する場合には、その節は随伴クラスC(最も頻度の高いクラス)を有する葉節となる。葉の分類の誤りは、そのクラスがCでない事例の数である。
【0499】
樹から規則までの流れ
1.樹の根から葉までのすべての経路が1つの初期規則を形作る。
2.予想されるクラスの識別に役立たない条件を除くことによって各規則を単純化する。
3.精度に寄与しない規則は除く。
4.続いて、クラスに関する規則のセットを誤分類率が低くなるように順列化し、デフォルトのクラスを選択する。
【0500】
実施例 13
複雑な遺伝分析のためのコレスポンデンス分析
以下の実施例では、複雑な遺伝分析のためのコレスポンデンス分析について考察する。コレスポンデンス分析は変数と属性との間の関連を検討するための強力な図式的多変量手順であり、主成分分析および正準相関分析と関連のある尺度化法と見なすことができる(KishinoおよびWaddel、Genome Informatics 11: 83-95, 2000;Benzecri、「コレスポンデンス分析ハンドブック(Correspondence Analysis Handbook)」(Dekker, New York 1992);Benzecri、「ドナーの分析(L'Analyse des donnees)」第2巻:コレスポンデンス分析(L'Analyse des Correspondence)(Dunod, Paris 1973);Greenacre、「コレスポンデンス分析の理論および応用(Theory and Application of Correspondence Analyses)」(London, Academic Press 1984)、これらはそれぞれ参照として本明細書に組み入れられる)。値および属性は、「i」行(TYR2LOC920、OCA3LOC920、MCR3LOC105、OCA3LOC109およびTYRP3L1O6ハプロタイプ系に関する観測ハプロタイプ対)および「j」列(眼の色のクラス)からなる分割表の内部に表現される。この表から、列および列の属性が、行(i)属性間の距離および列(j)属性間の距離が保たれた上でk次元空間にまとめて提示されるように(ここでk=min{i-1、j-i})、直交系軸を主成分によって構築する。k次元空間において互いに近接した2つの行の点は、その2つの行が列にわたって類似したプロフィール(条件的分布)を有することを示す。同様に、2つの列の点が空間内で互いに近接していることは、列属性が行にわたって類似したプロフィール(条件的分布)を共有することを示す。
【0501】
本明細書中に開示するように、行および列の点の近接性により、特定の行-列(ハプロタイプ対、眼の色)の組み合わせが独立性の仮定に基づく予想よりも高い頻度で存在することが示され、それにより、行(ハプロタイプ対)属性および列(眼の色)属性との間の強い関連が示された。コレスポンデンス分析による通常の結果は、プロットされた点の座標(i、行の点;j、列の点)を、各次元において保持される情報量の指標(イナーシアと呼ばれる)とともに示す、データの「最適な」2次元表現を含む。多次元空間は多数の二次元プロットによって表現される。表示座標x1 (g)、g(遺伝子型またはハプロタイプ系)(i=1,2,. . ng)および眼の色xj (c)(j=1,2,..nc)は、平均座標がゼロ、分散=1で、fij≧0であるという制約条件の下で、以下を最小化することによって得られる:
Figure 2004537292
【0502】
費用関数(1)は、分類樹法より直接的な方式で、遺伝子型(ハプロタイプ)を眼の色と関連づける。
【0503】
分類樹分析にはそれ自体が複雑であり、それによって特定の複合遺伝子型クラス内のサンプルサイズが小さくなるという限界がある。分類樹アプローチに統計学的な限界があることから、遺伝子型と眼の色との関連性の検討にコレスポンデンス分析を適用した。コレスポンデンス分析は主として図式的な手法であり、低次元空間における複雑な関連を表現するために用いられる。データを遺伝子型(二倍体ハプロタイプ対)および形質値(眼の色)の散布図によって表される三次元へと圧縮するために、固有値3(形質−1)×49(ハプロタイプ対)の分割表を用いた。
【0504】
三次元のすべてにおいて、遺伝子型および形質値の良好な散布が観察された。次元1および2を組み合わせることによって遺伝子型および表現型の差異の86.5%が説明され、次元1+3および2+3を組み合わせることによって差異のそれぞれ72.5%および41%が説明された。これらのハプロタイプ系の遺伝子型の寄与による眼の色の差異を説明することに加えて、k次元空間内の行属性および列属性のプロットにより、複合遺伝子型クラスのサイズに影響されにくい図式的分類器を構築することも可能である。この場合には、ハプロタイプ相-眼の色が判明しているが隠蔽されている特定の個体に関する遺伝的属性を同定してプロットした。個人内属性を辺と互いに連結することによってk次元物体が生じ、そのモーメントは、j列属性(眼の色のクラス)座標からjユークリッド距離によって相殺される。個体が各クラスに該当する確率をこれらのユークリッド距離によって推測し、これを用いて予測を行って、それを実際の眼の色と比較した。この技法により、検討した白人個体の97%が特定の眼の色の濃淡に属することが正しく分類された(n=254;薄い=青色、緑色;濃い褐色、薄茶色)。具体的な眼の色をほぼ全く予測できなかった分類樹法とは対照的に、コレスポンデンス分析からは、具体的な眼の色を45%の場合に正しく予測することができた。分類樹法は白人の14%には適用されなかったが、コレスポンデンス分析方法を用いた場合に不確定的であったのは検討した白人のうち4%に過ぎなかった。
【0505】
これらの結果は、コレスポンデンス分析が、眼の色の分析といった複雑な遺伝分析を行うための手段となることを示している。すなわち、コレスポンデンス分析は、眼の色、皮膚の色合いまたは毛の色などの複雑な遺伝形質を有する白内障または黒色腫などに対する疾病素因などと関連した遺伝的危険因子を同定するために用いることができる。例えば、特定の薄い眼の色と関連のあるハプロタイプを有する人を異なる薄い眼の色と関連のあるハプロタイプを有する人と比較し、黒色腫の発生率との相関があるか否かについて判定することができる。特定のハプロタイプを黒色腫などの疾患に対する予測マーカーとして同定することは、疾患と関連のあるハプロタイプを有する個体の疾患に対する感受性を調節しうる薬剤の標的を開発するための手段ともなる。
【0506】
実施例 14
人種推測のための遺伝的分類器
以下の実施例では、SNPに基づく人種推測のための遺伝的分類器を提示する。DNAに基づくヒト個体の識別は、人種および/または民族の属性の正確で偏らない判定に依存する。STRマーカーは人種を分類しうることが記載されているが、STRの多アレル的性質には特有の統計学的および技術的な問題がある。人種属性の推測に用いうる二多型性マーカーをDNAから同定するための取り組みとして、ヒト体色遺伝子および生体異物代謝遺伝子における高頻度にみられる一塩基多型について調査した。本実施例でさらに詳細に説明するように、血縁関係のないアジア人、アフリカ系アメリカ人および白人(n=230)の群間にマイナーアレル頻度に関して有意差のある60個のSNPが同定され、線形および二次的な方法の両方を用いてこれらのSNPを分類器モデルに組み入れた。二次モデルの一般化により、血縁関係のない505人の個体の群(白人403人、アフリカ系アメリカ人114人およびアジア人15人)において完璧な精度および感度が明らかになった。これらの結果は、ヒトの体色遺伝子および生体異物代謝遺伝子が人種に関する情報をもたらすSNPの極めて豊富な源であることを示すとともに、強力で系統的な遺伝的影響が、ヒトの進化を通じて、これらの遺伝子配列の分布を形作ってきたことを示唆する。本明細書に開示する人種分類器には、除外確率の計算に用いられる参照集団データベースを評価するための新規な方法を提供することにより、さらには由来不明のDNA試料に身体的特徴を付与することにより、法医学的なDNA識別試験の有用性を拡張する能力がある。
【0507】
方法
データの収集
標本および基本的な家系データは、ランダムに選択された自己報告によるフロリダ州在住のアフリカ人、アジア人および白人系統の個体から、インフォームドコンセントのガイドラインに従って入手した(各参加者は、自らの標本を、本稿に概要を示したことを目的とする法医学的DNA研究に用いることに承諾した)。本発明者らは、市販の(QiagenおよびPromega)調製キットを用いて流血中リンパ球からDNAを抽出し、新規ネステッドPCRアプローチを行った上で、25K SNPstream遺伝子型判定システム(Orchid BioSciences;Princeton NJ)を用いる最先端のプライマー伸長プロトコールを用いた。
【0508】
再シークエンシング
人種のみが判明している血縁関係のない670人の個体からなる多民族集団からの遺伝子配列を増幅することにより、種々の遺伝子に対する垂直的な再シークエンシングを行った。本発明者らの研究に用いる各遺伝子について、本発明者らは近位プロモーター、隣接イントロンを有するエクソンのそれぞれ、および3'UTRを増幅した。PCR増幅は、pfu Turboを用い、製造者の指針(Stratagene)に従って行った。本発明者らは、目的の領域のみが増幅され、偽遺伝子または他の相同遺伝子との交差が起こっていないことを確認する目的で再シークエンシング用プライマーを設計するためのプログラムを開発した。これは、目的の配列ファイルを、この配列との相同性に関するBLAST検索によって同定された他の単層ファイルのすべてと並行して分析することによって行った。本プログラムにより、最大数の関連領域が考えられる最小数のアンプリコンの内部に含まれることも保証された。増幅産物をpTOPO(Invitrogen)シークエンシングベクター中にサブクローニングした。96個のインサート陽性コロニーを増殖させ、プラスミドDNAを単離した上で、PE Applied Biosystems BDT化学分析装置およびABI3700シークエンサーを用いてシークエンシングを行った。配列は、営利的リレーショナルデータベースシステム(iFINCH、Geospiza、Seattle、WA)に寄託した。それぞれの増幅領域内の配列を整列化し、これらの配列間の違いを同定した上でその違いをPHRED品質評価を用いて候補SNPとして認定するために開発された別のプログラムを用いて(Clustal Xを用いる)、この結果得られた配列のアライメントおよび解析を行った。
【0509】
遺伝子型判定
これらの試料に対する1回目のPCRは、高忠実度DNAポリメラーゼpfu turboを用いて行った。この段階用のプライマーは、再シークエンシングに用いたものと同じプライマーであったため、それらはゲノム中の他の競合配列とは交差しないことが判明している。その結果得られたPCR産物をアガロースゲルで確認し、希釈した後に、ホスホチオネート化されたプライマーを組み込む2回目のPCRのためのテンプレートとして用いた。このネステッド遺伝子型判定アプローチを用いた場合には単回の増幅プロトコールを用いた場合よりも高い特異性が認められたが、これはおそらく、本発明者らが標的とした遺伝子のほとんどが多遺伝子ファミリーに属すること、ならびにBLASTアルゴリズムの欠陥および公開配列データベースの限界(不完全性)によると考えられる。個々のDNA標本に対して、一塩基プライマー伸長プロトコールおよびOrchid SNPstream 25Kプラットフォーム(Orchid BioSciences, Inc., Princeton, NJ)を用いて遺伝子型判定を行った。
【0510】
結果
人種分類のために有用なSNPマーカーを同定するために、ヒト体色遺伝子および生体異物代謝遺伝子(TYR、TYRP1、OCA2、MC1R、DCT、AP3B、CYP3A4、CYP2C8、CYP2D6、CYP2C9、CYP1A1およびAHR)ならびにHMGCR遺伝子におけるSNPを標的とした。SNP候補を同定するために、本発明者らは、200個体からなる多様な人種のプールを用いて、各遺伝子についてプロモーター、エクソンおよび3'UTR領域の再シークエンシングを行い、公開データベースのリソース(NCBI:dbSNP)のマイニングによってこれを補った。リソースを組み合わせることにより、遺伝子1つ当たり平均44個の候補SNPが同定された(合計484個のSNP)。2種類のSNP探索法からはかなりの重複が生じ、本発明者らは、情報的価値のあるSNPの大部分(マイナーアレル頻度が高いもの)はすでに公開データベース(NCBI:dbSNP)に存在していることを見いだしたが、これはおそらく公開データベースが少数のドナーから構築されているため、これらのタイプのSNPに関するバイアスがあるためと考えられる。しかしながら、再シークエンシングによって遺伝子1つ当たり数個の新規SNPも同定され、それらの多くは本明細書に開示される分類器の部分となっている。
【0511】
血縁関係のない100人の白人、同じく血縁関係のない100人のアフリカ系アメリカ人および血縁関係のない30人のアジア人に対して(再シークエンシングに用いた例とは異なる個体)、484個のSNPのうち188個における遺伝子型判定を行った(11種の遺伝子のそれぞれについて、遺伝子1つ当たり概ね15個ずつ)。SNPマーカーのうち5つについては、これらの数のほぼ2倍のサンプルサイズで遺伝子型を判定した。マイナーアレル頻度はゼロ(バリデートされなかったSNP)から48%にわたった。本アッセイ法において188個のSNPのうち96個は、統一性のあるパターンを示し(すなわち、競合配列との共増幅がみられない)、3つの人種のうち少なくとも1つにおけるマイナーアレル頻度が0.01を上回る、明らかな遺伝子型クラスであることが判明した(バリデーション率=51%)。この段階で脱落したSNPの大部分は、統一性のある遺伝子型パターンを示したものの、マイナーアレル頻度が0.01未満であった。これらの96個のSNPの多くは、遺伝子型分布およびアレル頻度に関して人種クラス間に有意差がみられなかった(例えば、表14-1参照)。これらのSNPマーカーは本発明者らの分析から除外した。
【0512】
他のものは、遺伝子型分布およびアレル頻度が3つの人種群の間で必ずしも同じではなかったが、χ二乗検定を用いて有意差はみられなかった。通常、これらのSNPに関するマイナーアレル頻度は極めて低く(人種群の1つにおいて少なくとも1%ではあるが;表14-2)、本発明者らはこれらのSNPも以降の分析から除外した。
【0513】
96個のバリデートされたSNPマーカーのうち67個は、3つの人種群で統計学的に異なる遺伝子型分布およびアレル頻度を示すことが判明した(表3)。これらの68個のSNPマーカーのそれぞれに関するマイナーアレルは、検討した3つの主な人種群(アジア人、アフリカ系アメリカ人または白人)の1つに選好的に認められ、これらのSNPの多くは顕著な群間差を示した。考えられる3つの選好カテゴリー、すなわち白人集団に選好的に存在するもの(n=25)、アジア人集団に選好的に存在するもの(n=10)およびアフリカ系アメリカ人集団に選好的に存在するもの(n=32)のすべてが観察された。ほとんどのSNPマーカーはHardy-Wienberg平衡(HWE)下にあるアレルを有していた(非提示データ)。67個のSNPのうち3つはHWE下になく、これはこれらのSNPに関するアッセイが競合配列を共増幅した可能性が高いが、離散的クラスのアレル(すなわち、XX、XYおよびYY)が存在し、結果に再現性があり、遺伝子型に人種差があったことから、本発明者らはそれらをこの解析に含めた。表14-3には、遺伝子型分布およびアレル頻度に関して人種クラス間に有意差がみられたSNPマーカーが示されている。表14-3に挙げたSNPマーカーに関するヌクレオチド組成は表1に示されている(3つは不成功率が高いため除外した)。
【0514】
3つの人種群でマイナーアレル頻度に違いのある遺伝子1つ当たりのSNP数の分析により、有用なSNPの大部分はOCA2遺伝子にあることが判明した(n=18;表14-4)。OCA2は眼皮膚型白皮症遺伝子であり、オイメラニンの合成に働く。人種に関する情報的価値のあるSNPが2番目に多く見いだされたのはCYP2D6遺伝子であった(n=12)。遺伝子型別では、体色遺伝子のSNP(TYR、TYRP1、MC1RおよびOCA2)の85%は人種に関する情報的価値があり(33/39)、このクラスの遺伝子における人種に関する情報的価値があるSNP/検討した総SNPの比の分散は著しくわずかであった(すなわち、遺伝子のそれぞれが同様の比を有する)。これに対して、生体異物代謝SNPのうち人種に関する情報的価値があるものは61%に過ぎなかった(28/46)。体色遺伝子クラスの場合と同じく、人種に関する情報的価値があるSNPの情報的価値のないものとの比の分散は極めて小さかった。さらに、体色遺伝子でも生体異物代謝遺伝子でもない2つの遺伝子由来のSNPも検討したところ、これらのSNPの28%は人種に関する情報的価値があった(6/21)。これらの2つの遺伝子におけるSNPの大部分に関するマイナーアレルは比較的稀であったため、頻度に関して調整した場合、人種に関する情報的価値があるアレルの総数の比率は1%に近い。遺伝子1つ当たりの検討したSNP数によって補正すると、OCA2遺伝子、TYR遺伝子、TYRP1遺伝子(すべて体色遺伝子である)は、マイナーアレル頻度に関して人種群間の差が最も高頻度に認められた。
【0515】
これらのSNPを用いて分類器を開発するために、線形分類アルゴリズムを開発して実行した。本アルゴリズムはすべての可能な形質クラス対に関して分散/共分散行列を計算し、個々の試料をn次元ベクトル(n=マーカーの数)として表現し、これらのベクトルとクラス(人種)平均値ベクトルとの間の平均距離を計測した上で、最も距離の短いクラスに試料を分類する(さらに詳細については実施例15を参照)。反復的なサンプリングスキームを用いると、試料平均値ベクトルはバイアスのない推定値となる。欠損データがあるとこのスキームを用いる解析は複雑になるため、本発明者らは、3つの人種群の少なくとも1つで不成功率が高かったマーカー217487、217439、664784、217460、217473、615925および664785を除外した。この除外後に残った60個のSNPマーカーを用いて、アフリカ人(AA)、アジア人(AT)および白人(CA)系統の230個体について各クラスの平均からの個々の距離を算出し(表3で遺伝子型を判定したのと同じ個体、人種的混在状態にはない)、それぞれを人種群の1つに分類して排除確率行列を作成した(表14-5)。
【0516】
この結果得られたクラス(人種)排除確率行列により、発明者らは、AA個体がAA群から排除される補正確率(さらに詳細については実施例15を参照)が極めて低く(pr=0.0016)、AI個体のAI群からの排除(pr=0.0001)およびCA個体のCA群からの排除(pr<0.0001;表14-5)についても同様であることを見いだした。非補正確率も同じく優れていた(表14-5)。これらの確率は、対数尤度が約3または約1,000分の1と主張された、Shriverら(1997)がSTRマーカーを用いて得たものを上回った(批判については考察の項を参照)。個体を正しくない人種群から排除することに関する補正確率は一般に極めて高く、最も低い場合で10,000分の1であった(CAと誤分類されたAA、行1、列3、表14-5)。
【0517】
遺伝子型判定による費用は検査するマーカー数と直接比例するため、小規模なSNP群についての排除確率も算出した。60個のマーカーから15個のサブセットをランダムに選択し、それらを線形分類器を用いて分類したが(実施例15)、これは選択されたSTRマーカーを用いてlog10=3の排除確率を得るために必要な数と近い(17個;Shriverら、1997)。排除確率は好ましくなかった;AA個体がAA群から排除される確率(pr=0.143)、AI個体がAI群から排除される確率(pr=0.148)およびCA個体がCA群から排除される確率(pr<0.096)は概ね法医学的な目的には適さなかった(表14-6)。二多型性マーカーが有する情報は多アレルマーカーよりも少ないことからみて、この結果は予想外ではなかった。
【0518】
60-SNP分類器モデルが十分に一般化されたか否かを明らかにするために、この分類器を用いて血縁関係のない別の275人の白人および血縁関係のない12人のアフリカ系アメリカ人(個体はいずれも人種的混在状態にない)。これらの個体は再シークエンシング群にも含まれず、分類器モデルの作成に用いた230個体の群にも含まれていない。白人の分類精度は100%(275例中275例が白人と分類)であり、アフリカ人系統の12個体の分類精度も100%であった(12例中12例)。以前に記載した結果を考慮すると、505例中505例が完全に分類された。
【0519】
考察
ヒト体色遺伝子および生体異物代謝遺伝子内に、分類個体DNA標本を3つの主な人種群の1つに確実に分類するために用いうる、60個の一連のSNPが同定された。275個体の試料を用いたところ、同族分類に関する排除確率は極めて低かった(10,000分の1未満)。505個体の分類に適用したところ、この分類器は完璧な精度を示した。DNA配列に基づいて犯罪調査を導くため、または統計学的計算のための特定の参照集団の使用を法的に正当化するためには、人種排除の能力が極めて高くなければならず、本発明者らが記載した分類器はこの必要条件に鑑みて非常に有望であるように思われる。本明細書中に開示した推定値は偏りのないものと考えられるが、次の段階はアフリカ人、白人およびアジア人個体、さらには他の人種群(ラテン系アメリカ人、中近東民族など)のより大規模な集団における排除の推定値を検証することである。さらに、本実施例に開示した分類器を、ある人種内の異なる民族群(すなわち、アジア人群における日本人、韓国人および中国人)を弁別する能力についても検証する必要がある。しかしながら、Shriverら(1997)が STRマーカーを用いて人種プロファイリングを行うまでは、DNA検査は、標本および個体を合致させるための数値的「バーコード」を生成するための単なる量的手法に過ぎなかった。本明細書中に開示した分類器は、これまでに見いだされた第3の定性的な法医学手法(Shriverら、1997)であり、第2の人種分類器である。
【0520】
人種に関する優れたSNPマーカーを見いだすためにヒト体色遺伝子および生体異物遺伝子を標的としたが、これは、これらの遺伝子はヒト進化の過程で一般に強い系統的な遺伝的影響にさらされてきたという仮定による。体色遺伝子については、性淘汰および地理的孤立が世界中の人種群の間の遺伝子配列の分布に影響を及ぼしたと予想した。生体異物遺伝子については、世界中のさまざまな地域における特有の食事が、人種群の内部および群間の配列多様性に対して特有かつ強力な制約条件(すなわち、地理的孤立およびおそらくは淘汰)を課したと推論した。人種に関する情報的価値があるSTRマーカーに関する以前のスクリーニングでは、それが希少なための困難さが判明している。1,000個のSTR座位に対するあるスクリーニングでは(Shriverら、1997)、人種的なアレル分布が認められたのは17個に過ぎなかった(1.7%、これは各STRに用いられたサンプルサイズからみて、ゲノム中のそれらの頻度を過小評価した推定値である可能性が高い)。
【0521】
体色遺伝子でも生体異物代謝遺伝子でもない2つの遺伝子(HMGCR、FDPS)由来の一塩基多型(SNP)について調査したところ、人種の予測に有用なSNPの比率は幾分高いことが示された(約28%)。これらの2つの遺伝子がどの程度代表的かは不明であるが、これらの遺伝子におけるSNPの多くはそれほど高頻度でないため、人種に関するそれらの有用性には議論があると思われる。実際、アレル頻度を調整して、全遺伝子について算定された総数に対するこれらの遺伝子における人種に関する情報的価値があるマイナーアレルの比率を算定すると1%に近い。これに対して、ヒト体色遺伝子および生体異物代謝遺伝子における人種に関する情報的価値があるSNPの頻度は有意に高かった;体色遺伝子SNPの85%(33/39)および生体異物代謝遺伝子SNPの61%(28/46)に人種に関する情報的価値があった。これらの遺伝子から算定されたマイナーアレルの総数は算定された総数の99%以上を含んでいたが、それらはバリデートされた被験SNPの総数の80%(85/106)に過ぎなかった。これらの結果は、系統的な影響力がこれらの3つの人種群における体色遺伝子および生体異物代謝遺伝子のアレル分散を形作ったこと、および、開示した戦略は、これらの遺伝子を標的とすることによって人種に関する情報的価値があるマーカーを同定するために用いうることを裏づける。さらに、これらの結果は、本明細書で作成したモデルを他の人種群にも十分に拡張しうることを示している。
【0522】
本明細書中に開示した人種分類器は、アフリカ人、アジア人および白人系統の230個体から開発された。その能力は別の287個体の群でも確認された。分類器の開発および検証には505個体を用いたが、人種に関する情報的価値があるマーカーの多くは人種群の1つまたは複数では単形性であるため、サンプルサイズがより大規模であればほぼ確実に排除確率は低下すると考えられる。この状況は、それらを、一般により優れた結果が得られる二次分類器とともに用いる妨げになる(実施例15参照)。しかしながら、単形性に伴う統計学的な問題はSTRマーカーの場合よりも影響が少なく、これはa)本発明者らは対数尤度ではなく線形的分類アプローチを用いた、およびb)STRマーカーを用いる場合、単形性は所定の座位のいくつかのアレルに存在する可能性が高く、一方、SNPマーカーでは唯一のものが存在しうる。サンプルサイズを単に2倍に増やすことにより、本発明者らは幾何学的分類器を60個のSNPのすべてに適用しうる可能性が高い。さらに、将来の検討で人種的に混在状態にある個体の数を増やすことにより、開示した線形分類器または二次分類器は、人種的に混在した個体を弁別しうる初の分類器の一つになりうると考えられる。本発明者の分類器は個々のベクトルの平均からの差に依拠しており、混在性個体は大半のアレルに関して均等に混合されている可能性が高いため、均一な人種群からの排除確率は、それらから構成される混合群よりも高い可能性が高い。STRマーカーを用いた従来の方法は(個体内の)人種混在については検証していないが、それらは対数尤度比に依拠している上に彼らのアレルは不均一であるため、それらが、その作成に用いられたサンプルサイズに関して正統的でない数多くの有効数字を行使することなく彼らを十分に適切に弁別しうる程度に強力である可能性は低いと考えられる。
【0523】
アフリカ人系統の個体を正しく分類する精度は、3つの人種群のうちで最も低かった(誤分類が1000分の2)。この結果は、アフリカ人系統の歴史は古く、世界中のさまざまな人種群の中でアフリカ人の遺伝的複雑性は一般に最も大きいことからみて興味深い(Tislikoffら、2000;Mateuら、2001)。
【0524】
従来のSTR方法では、アフリカ人の個体とヨーロッパ由来の個体を区別するための検出力に関してlog10=1.858(r=72)としてアレルを記載している。同じデータの他の統計的指標からは低い値が得られている(log10=1.59;EriksonおよびSvensmark、Int. J. Legal Med. 106: 254-257, 1994)。「誰の目にも、FY座位はアフリカ人の個体と白人由来の個体を区別するための強力なマーカーであり」、さらに「しみを残した未知のドナーがアフリカ系アメリカ人である場合の96%で、この座位は単独で民族的由来に対する疑問に回答しうる」と考えられている(Brenner、Proceedings 7th Intl. Symposium on Hum. Identification 4892, 1997)。しかし、BrennerはMonte Carloコンピュータシミュレーションを行い、それにより、17個のマーカーは人種マーカーとしての真の価値によってではなく、約1000の調査からサンプリングバイアスに起因して発見された可能性を示唆している。このため、Brennerは、用いられた手順により「地域の公園にいる9歳の小児を10歳の小児と識別する10個の座位のセット」の同定にも成功するであろうと提起している。彼はさらに、STR座位間のアレルの関連に関する交絡効果についても興味深い問いかけを行うことによってもSTR法を批判している。
【0525】
STRに基づく人種分類のためのアプローチの主な欠点はここにある。少数の複雑な座位が用いられるため、STRアレルのクラスに対するサンプルサイズが小さくなることが起こる。その結果、推定されるパラメーターは歪曲されるおそれがある(そしてしばしばそうなる)。さらに、座位の数が少ないため、座位間の連鎖効果によってデータの混乱が拡大する。本明細書に開示するようなSNPに基づく方法は、これらの欠点を克服するための代替法となりうる。マイナーアレル頻度がより高く、それは実際に極めて多数の候補SNPから作られるため、アレル頻度の推定値などの推定されるパラメーターには偏りのない可能性が高く、このため、意図した目的に有用である可能性が高い。用いる座位がより多く(本発明者らによる一群は60個であり、これに対してShriverの1997年のSTRの一群は14個である)、サンプルサイズを1つまたは別の結論へと偏らせる連鎖の問題も最小限に抑えられる。本明細書中に開示するようにSNPのアレル頻度はより高く、これらの頻度の推定に用いられるサンプルサイズも大きく、本発明者の頻度推定値の信頼性も優れている。その結果、本明細書に開示する一連のSNPによる識別力はこのSTR法よりも有意に高い(排除確率が10,000分の1を上回るのに対して1000分の1に劣る)。したがって、この分類器は、世界の主な人種群を確実に識別しうる、SNPに基づく初の方法であるだけでなく、この目的のための事実上最善の方法でもある。
【0526】
STRに基づく方法からSNPに基づく方法への変化に関する活動性が低いとしても、一連のSNPは現在の検査アプローチを補完するものとしても有用である。特に、本明細書に開示した一連のものは、試料の完全性が問題となるような場合における人種分類にもヒト識別にも有用である。STR検査は、用いるプライマー間の無傷DNA配列の濃度にかなり感受性のある様式でSTR領域がDNAから増幅されるため、概ね無傷なDNAを必要とする。所定のレベルのDNA分解がある場合、長い標的が適切に増幅される(および型判定が行われる)見込みは短い標的の場合よりも低いが、これはPCRプライマー間の不連続性の確率はプライマーの間の長さが長いほど高くなるためである。多型部位が遺伝子型判定のために適切に増幅される確率は、増幅産物の長さ、用いるDNAの量およびDNA分解の程度の関数であるため、他のすべてのものが等しいとすると、開示される60個の一連のSNPには、用いるDNAが少量である、および/またはDNAが分解されるという利点がある。DNAの量および完全性は法医学的調査の場合は最適でないことが多いため、開示される一連のSNPはSNPに基づく現行の方法に対する有用な付加物になりうる。極めて試料が乏しい場合には、ミトコンドリアDNAアプローチが好ましいが、本発明者らの知る限り、人種分類のためのミトコンドリア法はまだ報告されていない。
【0527】
(表14-1)
Figure 2004537292
【0528】
表14-1は、遺伝子型分布およびアレル頻度に関して人種クラス間に有意差がなかったSNPマーカーの例を提示している。このクラスのSNPマーカーのうち少数のみを示している。各行は「マーカー」と呼ばれる単一のSNPに関するデータを示す。これらのマーカーに関する個々の集計数が示されている。それぞれの人種群(表の上に表記)における、アレル1ホモ接合体クラス(XX):ヘテロ接合体クラス(XY):およびアレル2(YY)ホモ接合体クラスの集計数が示されている。
【0529】
(表14-2)
Figure 2004537292
【0530】
表14-2は、遺伝子型分布およびアレル頻度に関して人種クラス間に有意差がなかったSNPマーカーを示している。このクラスのSNPマーカーのうち少数のみが示されている。各行は単一のSNP(「マーカー」)に関するデータを示す。これらのマーカーに関する個々の集計数が示されている。それぞれの人種群(表の上に表記)における、アレル1ホモ接合体クラス(XX):ヘテロ接合体クラス(XY):およびアレル2(YY)ホモ接合体クラスの集計数が示されている。
【0531】
(表14-3)
Figure 2004537292
Figure 2004537292
【0532】
表14-3は、遺伝子型分布およびアレル頻度に関して人種クラス間に有意差がみられたSNPマーカーを示している。この結果には、アジア人30人、アフリカ人100人および白人100人における遺伝子型の集計数が示されているが、SNPマーカーのうち5つについては、これらの数のほぼ2倍のサンプルサイズで遺伝子型を判定した。SNPの一意的な識別名が列1に示され、XX、XYおよびYYアレルの集計数が表の上に挙げた3つの人種群のそれぞれに関して示されている。
【0533】
(表14-4)
Figure 2004537292
【0534】
(表14-5)
Figure 2004537292
【0535】
表5は、アフリカ人(AA)、アジア人(AI)および白人(CA)系統の個体に対する、本文中に記載した60個のSNPマーカーを用いる線形分類器による人種排除確率行列を示している。この解析におけるアジア人の数(15)はマーカーの数よりも少ないため、本発明者らは解析を15個のマーカーからなる4群に分け、230の全個体を用いてSNPの各群に対して分散共分散行列を計算し、それぞれに対する排除行列を作成した。続いて、x-SNP群1からSNP群4まで各セルに対して排除確率をIIxとして計算することにより、これらを組み合わせて1つの行列にした。505個体の本発明者らの試料によって完璧な分類結果が得られているが、排除確率行列はこの特定のサンプリング方法を実行したためにゼロでない値から構成されている。複合的な分類器を作成するには、ゼロによる乗算を回避するために群内に存在するゼロ確率を恣意的に0.01に調整した(AIサンプルサイズが15であったため、これはAIセルのみに行った)。行列は座標基準が非対称であるため正方である;X座標はクラス平均を表し、Y座標は分類頻度を表す。
【0536】
(表14-6)
Figure 2004537292
【0537】
表6は、アフリカ人(AA)、アジア人(AI)および白人(CA)系統の個体に対する、本文中に記載した60個のSNPマーカーのうちランダムに選択された15個のセットを用いる線形分類器による人種排除確率行列を示している。
【0538】
実施例 15
分類器手法
本実施例には、多座遺伝子型を用いる多変量形質分類のための革新的な線形および二次分類器構築手法を開示する。多数の遺伝的属性を線形および/または二次分類器に組み入れるための、ソフトウエアに基づく方法を開発した。この方法には、コレスポンデンス分析法および分類樹法などの他のアプローチと比べてある種の長所および短所がある。後者の方法は、形質が遺伝的優位にさらされる状況に特に適している。開示される線形および二次方法は、試料平均を分類のための基盤として用いるもので、形質が相加作用の対象ではあるが遺伝的優位の対象とはならない場合に優れている。本方法はハプロタイプ分析または相不明の分析に容易に適用され、マーカーの種類にかかわらずよい成績を示す(RFLP、STR、SNPなど)。
【0539】
任意の個体を、その特定の個体が属する可能性のある複数の集団または群の1つの構成因子であると分類する問題には、例えば、統計学者、遺伝学者、人類学者、分類学者、心理学者および社会学者を含む、多くの科学者が興味を抱いている。分類分析には主に3通りのアプローチ、すなわち、1)パラメトリック法、2)セミパラメトリック法および3)非パラメトリック法、ならびにそれらの強化バージョンがある(Balakrishnanら、Handbook of Statistics 1991;8:145-202)。それぞれのアプローチには、さまざまな著者が多くの貢献をしている(McLachlan, G.J., Wiley, New York, 1992)。線形分類および二次分類の手順は文献中に詳細に記載されているが、複合遺伝学の分野におけるソフトウエアツールとしてそれらを実行するために作成されたアルゴリズムはわずかである。本明細書に開示するものは、パラメトリック多変量線形分類(Fisher, 1936)および二次分類(Anderson, T.W., 「多変量統計分析序論(Introductin to Multivariate Statistical Analysis)」、Wiley, New York 1958;Srivastavaら、Mykosen. 1979 Sep;22 (9) : 311-3;Srivastava, M.S.ら、「多変量統計学序論(An introduction to multivariate statistics)」、North Holland, Amsterdam:1979)を、ゲノム科学データ用の改変(Spilmanら、1976、Smouse, P.E.ら、Genetics 1977;85:733-752)を加えた上で実行することである。
【0540】
試料が、共通の分散共分散行列を有する異なる平均値ベクトルを有する多変量正規分布から採取されたという仮定の下で、Fisher(1936)、Rao(1947、1948a、1948b)またはSmith(1947)により導入された線形分類手順を適用することができる。しかし、集団が異なる分散共分散行列を有する場合には、二次分類を用いる必要がある。線形方法の場合、プールされた集団内分散-共分散行列は以下の式から計算することができる:
Figure 2004537292
ここでYijは、i番目の形質値におけるj番目の個体に関する特徴計測ベクトルである。μiおよびNiはi番目の形質値に関する平均ベクトルおよびサンプルサイズである。これらのベクトルの成分は、ベクトルの各次元が異なる座位を表す、SNPアレルに関する代用値であってもよい。成分は互いに配偶子不平衡下で連鎖してもよく、連鎖していなくともよい(すなわち、それはハプロタイプ系の一部でもそうでなくともよい)。実際、これは本方法の長所であり、これは異なる染色体上のSNPに対しても特定の遺伝子内のものと同じく適用しうる。ij番目の個体のk番目の形質値の平均からの汎距離は以下の式から計算することができる:
Figure 2004537292
ベクトルYijはそれ自体の形質値の平均であるμkを算出するために用いられる。これによって生じる循環性を回避するために、Smouse、前記(1977)(Spielman, R.S.ら、Am. J. Hum Genet. 1976;28:317-331も参照のこと)は、それ自体のクラスを有する要素を比較する場合には補正を用いた。複合遺伝学の場合には、本発明者らはこれを、個体をそれ自体の形質値の平均と比較することによって生じる循環性を補正するために用いた:
Figure 2004537292
【0541】
通常の手順は、ij番目の個体を、(2)/(3)が最小になるような形質値に割り当てることである。クラス内の差と比べてクラス間の距離が大きいことにより、各クラスに対する平均ベクトル値を分類器手法として用いることが正当化される。この場合、未知のベクトルを種々のクラスに関する平均値ベクトルと比較して、(2)および(3)を最小限にするクラスを選択する。種々のクラスに関する(2)の大きさによっては、いくつかの個々のベクトルに不明確さが生じる可能性があり、この場合には分類器はハイブリッド分類(「混合物」の予測)を行うか、または不確定的な結果を提示することができる。(2)および(3)を適用した結果は、種々の形質クラスに関する包含確率行列または排除確率行列である。
【0542】
遺伝的分類のための二次分類手順を実行することもできる。i番目の形質値に関する二次識別スコアは以下の通りである:
Figure 2004537292
【0543】
この場合、分類は単に、ij番目の個体を、(4)が最小になる形質値に割り当てることである。
【0544】
実施例 16
分類の改良のための記録方法
本実施例には、分類分析を改良するための記録方法を開示する。正規性の仮定の下では、試料の平均値ベクトルおよび試料の共分散行列は、それらに基づく推測が試料において入手しうる情報のすべてを備えているという意味で、最小十分統計量を構成する。
【0545】
したがって、これらの要約的統計量に基づくあらゆる分類規則は、その分析に用いられる試料情報の観点からは最適なはずである。しかし、これらの統計量に反映されない補足的情報がデータからしばしば得られるように思われる。したがって、問題は以下の通りである:この補足的情報を用いて、これらの統計量に基づく結果を改良しうるか?
【0546】
遺伝子的な遺伝子型の頻度分布を、所定の試料データに基づいて(10個の遺伝子について)より詳細に吟味することにより、いくつかの遺伝子型は他のものよりも、種々の色の間でオカレンスの頻度に関してより大きな(相対的)差異を示すことが明らかになる(表16-1)。
【0547】
種々の色の間でその(相対)頻度の差異が大きいものほど、色に関する識別能力が優れていることはよく知られている。その文脈から、遺伝子型g(1,1)、g(2,3)、g(3,1)、g(4,1)、g(5,1)、g(6,2)、g(7,2)、g(8,2)、g(9,2)およびg(10.3)は、頻度ならびにその差異の範囲の両方の点で、識別に関して他のものよりも有用な(そして、このためにより強い)可能性があり、g(1,1)、g(3,1)およびg(4,1)はその中でも相対的に強い(コード化キーについては表16-3を参照)。明らかに、各遺伝子において次にランクされる遺伝子型は色の識別に関する強度が落ちる。任意のデータにおいて、そのオカレンスの全体的頻度に着目することにより、各遺伝子において以下の第2のランクの遺伝子型を同定することができる。
g(1,2)、g(2,1)、g(3,2)、g(4,2)、g(5,4)、g(6,1)、g(7,5)、g(8,1)、g(9,1)およびg(10.103)
【0548】
これらの遺伝子型はかなり頻度が高く(それぞれの色において5件以上)、(「最良」とランクされたものよりも)識別能力が弱い(それらの相対頻度はすべての色でほぼ等しいため)ことに注意されたい。これらの遺伝子型からより有用な情報を抽出するための1つの方法は、上記の「最良」の遺伝子型のいずれかまたはすべてとの「関連性の指標」を組み入れることであると考えられる。
【0549】
本解析において用いる手順は、弱い遺伝子型が個々の試料単位において「最良の」遺伝子型とともに認められた場合は常に、それを再コード化することである。詳細には、用いた手順は以下の通りである:
段階1:弱い遺伝子型の交差コード化のために少数の「最良」の遺伝子型を同定する。これは、各遺伝子における「最良」の遺伝子型のサブセットを、それらの相対頻度の変動範囲に従って選択することによって行いうる。最適な選択に達するまで、さまざまな組み合わせを試みることができる。本発明者らの検討では、3つの遺伝子型の最適な選択、g(1,1)(OCA2A)、g(3,1)(OCA2C)およびg(4,1)(OCA2D)が明らかになった
段階2:第2の最良の遺伝子型を再コード化する:
遺伝子型が存在しなければコード0を指定する。
コード1+を指定する(ある個体内にともに存在する、選択された「最良」の遺伝子型の数)。例えば、最良の遺伝子型の2つが個体内に存在する場合、弱い遺伝子型のスコアはその値に1を加えたものと考えられる。このような再コード化によって一般に種々の色の間でのスコアの差異は増大し(通常の判別分析を行う場合)、このため、このような再コード化手順を組み入れる前に得られた結果よりもわずかな改善を期待することができる。
【0550】
提唱した方法にはいくつかの利点および要注意点が伴っている。本方法の利点については、第1に、統計学的にみて、種々の色の間での遺伝子型のスコアの差異を増大させるためのあらゆる試みは、遺伝子型の識別能力を高めることから、より優れた分類につながるはずである。第2に、その結果が相対的に優れることが判明すれば、その方法は、検討中の体色形質などの表現型に関して、異なる遺伝子の遺伝子型の間の関係についての手がかりまたは仮説の源を提供しうる。第3に、このコード化手順は恣意的なように思われるが、改良(もしあれば)を促すことは、特に分類誤差を減らすという文脈で、実際的な観点から重要と思われる。第4に、比較的精度の高い推測が得られる限り、データに裏づけられた方法が推奨されるような時系列または経済の統計予測の分野の場合がある。
【0551】
本方法の要注意点については、第1に、コード化の恣意性が理論的な観点から正当化されなければならない。第2に、サンプルサイズは、作業がデータに特異的とならないように、遺伝子型の再コード化を十分に行える程度に大きい必要がある。
【0552】
本方法を、286個体を含むデータに対して、以下の10種の遺伝子に関連して試みた:OCA2A、OCA2B、OCA2C、OCA2D、OCA2E、MICRA、TYRA、TYRPA、TYRPBおよびDCT B。
【0553】
本方法を成功裏に適用する可能性を探索するために、遺伝子型g(2,1)、g(5,4)、g(6,1)、g(7,5)、g(8,1)、g(9,1)およびg(10.103)を、選択された3つの「最良」の遺伝子型、すなわちg(1,1)(OCA2A)、g(3,1)(OCA2C)およびg(4,1)(OCA2D)を基準として再コード化した後に得られたデータセットに対して再コード化作業を行った。この場合には、各遺伝子型に関する平均スコアを除き、相対頻度は得られなかった(いくつかのコードが1よりも多かったため)(表16-2はこの段階での表16-1を反映したものである)。
【0554】
これらの平均を用いて、3つの「最良」の遺伝子型はg(2,1)、g(3,1)およびg(4,1)として同定された。この段階で、遺伝子型g(1,2)、g(4,5)、g(5,1)、g(7,1)、g(8,1)、g(9,2)およびg(10,1)を、遺伝子型g(2,1)、g(3,1)およびg(4,1)を基準とし、同じ再コード化手順を用いて再コード化した。
【0555】
(表16-1)
Figure 2004537292
Figure 2004537292
Figure 2004537292
(表16-2)
Figure 2004537292
Figure 2004537292
Figure 2004537292
【0556】
(表16-3) コード化キー
Figure 2004537292
【0557】
実施例 17
浸透性および潜在性ハプロタイプアレルの同定ならびに眼の色の推測のための正確な複合的分類器モデルの構築
本実施例では、眼の色を推測するための複合的な分類器モデルに用いられる、浸透性および潜在性ハプロタイプアレル(本明細書では遺伝的特徴とも呼ばれる)の好ましい組み合わせの同定について提示する。これらの結果から、虹彩の色合いなどの複雑な形質に関する予測マーカーの同定を遺伝子間複雑性を尊重した様式で適切に行いうること、および、遺伝的特徴を組み入れた正確な分類モデルを遺伝子内複雑性を尊重した様式で適切に開発しうることが明らかになった。本実施例の浸透性および潜在性ハプロタイプの組み合わせは、本実施例に開示する分類モデルを用いて眼の色合いを推測するために用いたところ、眼の濃淡を、虹彩の色の濃淡については225人の白人の群を99%の精度で推測し、実際の眼の色の推測については97%の精度であった。
【0558】
虹彩の色合いは、遺伝学者および人類学者が長く関心を抱いてきた複雑な遺伝形質であるが、まだ完全には解明されていない。新規な集団遺伝学的アプローチを適用して、さまざまなヒトの虹彩の色合いに関する浸透性の「遺伝的特徴」を同定した。本実施例に記載するように潜在性の遺伝的特徴が推測によって同定され、虹彩の色の正確な推測のための複合的な遺伝学的分類器を開発するために、この両方のタイプの特徴を重み付け二次判別方法を用いてモデル化した。本実施例に提示する結果は、いくつかのヒト体色遺伝子における数千もの考えられるアレルの組み合わせのうち、ヒトの虹彩の色を正確かつ感度良く推測するために必要なのは、これらの遺伝子の8つにおける12の組み合わせに過ぎないことが示された。
【0559】
A.方法
標本
再シークエンシングのための標本はCoriell Institute(Camden, New Jersey)から入手した。SNP評価のための標本は、年齢、性別、毛の色の濃淡、虹彩の色の濃淡および皮膚の濃淡に関してさまざまな個体から、IRBの指導に準拠したインフォームドコンセント指針を用いて収集した。標本には無記名の一意的な識別名を指定し、標準的なDNA単離法(Qiagen Inc.)を用いてそれからDNAを調製した。
【0560】
SNPの探索
670人の個体からなる多民族集団から、近位プロモーター、各エクソンおよび3'UTR配列を増幅することにより、種々の遺伝子に対する垂直的な再シークエンシングを行った。PCR増幅は、pfu Turboポリメラーゼを用い、製造者の指針(Stratagene)に従って行った。本発明者らは、偽遺伝子が共増幅されず、反復配列内部からも増幅されなかったことを確認する目的で、ゲノム中の相同配列を尊重する様式で再シークエンシング用プライマーを設計するためのプログラムを開発した(未発表)。これは、BLAST検索により、用いたすべてのプライマーの特異性が裏づけられた。増幅産物をpTOPO(Invitrogen)シークエンシングベクター中にサブクローニングし、プラスミドDNAの単離のために96個のインサート陽性コロニーを増殖させた。シークエンシングはABI3700をPEアプライドバイオシステムズ(PE Applied Biosystems)BDT化学分析装置とともに用いて行い、本発明者らはその配列を営利的リレーショナルデータベースシステム(iFINCH、Geospiza、Seattle、WA)に寄託した。質的にバリデートされた配列間の差異を同定するために本発明者らが開発した第2のプログラム(未発表)を用いて、PHREDにより検証した配列を整列化して解析した。
【0561】
遺伝子型判定
これらの試料に対する1回目のPCRは、高忠実度DNAポリメラーゼpfu turboおよび同族の再シークエンシング用プライマーを用いて行った。その結果得られたPCR産物をアガロースゲルで確認し、1回目のPCR産物を希釈した後に、ホスホチオネート化されたプライマーを組み込んだ2回目のPCRのためのテンプレートとして用いた。個々のDNA標本に対して、表17-8に記載したプライマーを用い、オーキッド(Orchid)一塩基プライマー伸長プロトコールおよびSNPstream 25K/ウルトラハイスループット(UHT)装置(Orchid BioSciences, Inc., Princeton, NJ)を用いて遺伝子型判定を行った。
【0562】
データ解析
ハプロタイプに関するハプロタイプ頻度を、関数pi=(xi/n)を用いて算出した。ここでxiはハプロタイプiが観察された回数であり、nは群内の患者数である。随伴分析に関して、本発明者らは遺伝子型と眼の色との間に関連はないとする帰無仮説を検定するためにPearson検定を用いた。本発明者らは、調整残差(本発明者らは大標本理論に従ってN(0、1)分布に従うと見なした)を計算することにより、特定の遺伝子型と眼の色との間の関連性の判定および定量も行った。多重ロジスティック回帰分析を行うことによって95%信頼区間を定めた;このアプローチを用いて得た条件付き確率の推定値およびその95%信頼区間は、標準誤差および信頼区間がセル頻度(nij)ではなく総サンプルサイズ(n)に基づけば小さいと考えられる意味で、試料の比率に対比してより安定的であると考えられることに注意されたい。コンピュータ計算によるハプロタイプ再構築法(StephensおよびDonnelly、2001)を用いて、個々のハプロタイプを相不明の遺伝子型から推測した。
【0563】
遺伝的特徴の抽出
さまざまな虹彩の色に関する有用な遺伝的特徴を同定するために、反復的な経験的アプローチを用いて、各遺伝子におけるすべての可能なSNP組み合わせのハプロタイプアレルを、種々の形質値の個体を統計的に弁別する能力に関して検討した。このスクリーニングの目標は、遺伝子のアレルがさまざまな虹彩の色と関連するか否かを明らかにし、もし関連するならば、どのSNPの組み合わせが虹彩の色と最も強く関連するアレルを有するかを明らかにすることであった。本発明者らは、これらのSNP組み合わせの相が判明している予測的アレルをさまざまな虹彩の色に関する「遺伝的特徴」と称する。本発明者らは、SNPの組み合わせ自体は「特徴SNPの組み合わせ」と称する。
【0564】
それぞれの遺伝子に関して、すべての可能なn座位SNPの組み合わせを作成した。本システムは以下を反復的に行った:
a)n座位SNPの組み合わせをランダムに選択する、
b)各個体について、このn-SNP組み合わせに関するハプロタイプ相を推測する(n>2であれば、StephensおよびDonnelly、2001によって記載されたアルゴリズムを用いる)、
c)推測されたハプロタイプ対を色の薄い群と濃い群について集計する、
d)虹彩色の薄い(青色+緑色+薄茶色)個体と濃い(黒+褐色)個体との間に有意なアレルの違いがあるか否かを判定するために、ハプロタイプ対(「多座遺伝子型」)に関してペアワイズF統計量およびFisherの直接法による統計量を算出するとともに、個々のハプロタイプに関してχ二乗調整残差統計値を算出する、ならびに
e)遺伝子内のすべての可能な組み合わせを検討するまで、プロセスを次のn座位SNPの組み合わせに対して繰り返す。
【0565】
このプロセスをそれぞれの遺伝子に対して繰り返した。虹彩の色の濃淡と統計的に関連するアレル(P値<0.05)を有するSNPまたはSNPの組み合わせを「特徴SNPの組み合わせ」として同定するか、および/または有意な調整残差を有するそのアレルをさまざまな虹彩の色に関する「遺伝的特徴」として同定した。すべての可能なn-SNPの組み合わせを検討しなければならない事態を回避するため(これはコンピュータ計算の駆使による)、本発明者らはまず、すべての可能な2-SNPハプロタイプを検討し、これらの結果を用いて、より高次のSNPの組み合わせに関する以降の検討を行った。複数の「遺伝的特徴」が1つの遺伝子内に同定された場合(すなわち、重複性SNPセットの場合)には、その遺伝子においてP値が最も低い(かつ有意な)非重複性のSNPの組み合わせのセットを選択した。多数の非重複性特徴が1つの遺伝子内に同定された場合には、遺伝子型形質クラスのサンプルサイズおよびアレル複雑性のために、単一の(n+m+...)座位SNPの組み合わせのアレルと形質値との関連性は、その成分(n座位、m座位...)である組み合わせ単独の場合よりも弱いことがしばしば観察された。これらの場合には、(n、m、...)の組み合わせを、単一の(n+m+...)特徴を上回る「遺伝的特徴」として選択した。
【0566】
ネステッド随伴分析
同定された遺伝的特徴の検証およびバリデーションのために、ハプロタイプ分岐図のネステッド随伴分析を行った。これを行うためには、検出された変異および検出されなかった変異の両方が集団の進化の歴史における何らかの時点で表現型効果に関する潜在的な寄与因子であったこと、および、これらの変異がハプロタイプ分岐図によって表される歴史的構造に埋め込まれていることを仮定した。クレードはPAUP Ver. 4.0bSソフトウエアを用いることによって得た(外集団法または近隣連結(NJ)法)。本発明者らは、ネステッド分岐図を以下の4つの方法のそれぞれに基づいて得た:(i)最節約法、(ii)近隣連結法、(iii)最大尤度法および(iv)ベイズ法。一般に、本発明者らは樹を用いたが、これに対してはネステッド統計分析が最も良い結果を出した。ネステッド随伴分析は他の者によって記載された通りに行った(Templetonら、前記、1997)。
【0567】
遺伝的特徴のモデリング−二次分類:
ハプロタイプアレルを虹彩の色の推測に用いるために、本発明者らは、ゲノム科学データ用に改変されたパラメトリック多変量二次分類法を用いるソフトウエアプログラムを書いた。試料が、共通の分散共分散行列を有する異なる平均値ベクトルを有する多変量正規分布から採取されたとの仮定の下に、本発明者らは、Fisher (1936)、Rao(Nature 1947:159:30-31;Rao, C.R.、Nature 1948a;160:835-836;Rao, C.R.、JRSS(B)10:159-203)およびSmith (1947)により以前に導入された分類手順を適用した。プールされた集団内分散-共分散行列は以下によって計算しうる:
Figure 2004537292
ここでYijはi番目の群におけるj番目の個体に関する特徴計測ベクトルであり、μiおよびNiはi番目の群に関する平均ベクトルおよびサンプルサイズである。これらのベクトルの成分は、SNPアレル、ハプロタイプ(遺伝的特徴)のほか、好ましい場合にはハプロタイプの二倍体対(遺伝的特徴の多座遺伝子型)などの実体をコードし、ベクトルの各次元は各試料中に観察された異なる実体に関するスコアを表す。本明細書に記載した遺伝学的問題に関して観察される遺伝子型の総数はいずれの虹彩の色の群でも個体の総数を上回るため、本発明者らは分散-共分散行列の単一性の理由から、Fisherの二次判別分析を用いなかった。その代わりに本発明者らはNi×Nj次の分割表K=(kij)を作成したが、ここで行iは多座遺伝子型を表し、列jは虹彩の色を表す(i ={1,2,. . . ,Ni}およびj={1,2,. . .,Nj})。本発明者らは、周辺列
Figure 2004537292
、周辺行
Figure 2004537292
および
Figure 2004537292
の総計を計算した。j番目の行の集団f=k(i)/kおよびj番目の列の集団f=k(j)/kを計算した後に、関数f ={f =kij/k(i)|j∈J}およびf ={f =kij/k(j)|i∈J}をそれぞれ用いて、コレスポンデンス行列(fij)=(kij/k)のi番目の行およびj番目の列のプロファイルを計算した。続いて、(i,j)番目のセルの観測頻度と予想頻度との差dij=(fij-ff)を計算した。主慣性(principal inertia)(固有値)は以下の通りに計算した:スケーリングがなされた行列をS=(Sij)と定義する、ここでsij=dij/(√ff)である。S=(Sij)は、行列を3つの行列の積へと分解することにより、特異値分解(SVD)へと送られる:
S=UΛV(1)
ここでΛは対角行列であり、その対角要素はSの特異値または因子であり、Uは行による固有遺伝子型を表す左固有ベクトルであり、Vは列による固有形質を表す右固有ベクトルである。すなわち、固有形質のすべてが固有遺伝子型のすべてから分離される。主座標は、k番目の因子のi行目の座標に関して、関数Fκ(i)=λκuiκ/√fをk=1,2,...,NFに用いて計算したが、ここでuiκはk番目の因子のi行目の座標の左固有遺伝子型である。同様に、主成分をk番目の因子のj列目の座標に関して、Gκ(j)=λκvjκ/√fをk=1,2,..,NF=Min(r-1 ,c-1)に用いて計算したが、ここでvj κはk番目の因子のi列目の座標の右固有形質である。k番目の因子のi行目のスコアは
Figure 2004537292
によって得られる。同様に、j列目のスコアは
Figure 2004537292
によって計算される。k番目の因子のi番目の遺伝子型のZスコアはZik={Sk(i)-E(sk)}/SD{Sk(i)}によって得られ、ここでE(sk)はk番目の因子の遺伝子型の平均スコアであり、SD[Sk(i)]はk番目の因子の遺伝子型スコアの標準偏差である。さらに、それぞれの遺伝的特徴に関する個々の試料スコアはすべての因子に関してM=XZとして得られるが、ここでX=(xij)=i番目の個体がi番目の遺伝子型を有する場合は1、それ以外は0である。この場合におけるコレスポンデンス分析は有効な次元減少の手法として役立つ;本発明者らが多座遺伝子型を二次判別分析のためにコード化したのは、各因子についてのそれぞれの遺伝的特徴に関するこれらの試料スコアを用いてである。個々のベクトルY=(i,j,.. n)m(ここで、n=コレスポンデンス分析の前のm個の遺伝的特徴に関する多座遺伝子型の数である)は、個体をm個の遺伝的特徴に関して因子x,yおよびzについてコード化することにより、より単純なY={(x),(y),(z)}ベクトルとなる。本発明者らが二次判別分析に用いたのはこれらのベクトルである。虹彩の色の集団がこれらのコード化によって異なる分散共分散行列を提示すると仮定すると(この場合はそうであったが)、i番目の群に関する二次判別スコアの推定値は以下の通りである:
Figure 2004537292
ここでμiはi番目の群の試料平均であり、Siは(1)のように算出した(しかし、試料スコアおよびp=1/gを用いる)i番目の群の新たな試料分散-共分散行列である。クラス内の差と比べてクラス間の距離が大きいことにより、各クラスに対する平均ベクトル値を分類の基盤として用いることが正当化される。分類は、個体を(2)が最大となるようにその群に割り当てることによって行われ、ここで虹彩の色の各クラスにおけるj番目の構成要素の確率p(j|x)は以下の通りに算出される:
Figure 2004537292
Figure 2004537292
【0568】
p(j|x)は、Sの構築のために用いられた個体の分類に適用されるが、第2の群の個体を盲目的に分類することによって1つの群に由来するSを一般化して、分類された虹彩の色の群による虹彩の色が判明している個体の分類確率表を構築する。
【0569】
正規性という仮定の下では、試料の平均値ベクトルおよび試料の共分散行列は、それらに基づく推測が試料において入手しうる情報のすべてを備えているという点で、最小十分統計量を構成する。したがって、これらの要約的統計量に基づくあらゆる分類規則は、その分析に用いられる試料情報の観点からは最適なはずである。しかし、複雑系の場合には、これらの統計量に反映されない補足的情報がデータからしばしば得られ、この補足的情報はしばしば、これらの統計量に基づく結果を改良するために用いうる。遺伝学の場合、配列は優位性または相加性を介して表現型の差異に寄与することがあり、この場合、独立した分析によるそれらと形質値との関連性はさまざまな程度の強度であるが、統計的に有意である。または、配列がエピスタシスを介して寄与することもあり、この場合は、独立した分析によるそれらと形質値との関連性は弱いか存在しない。エピスタシスの寄与に対して感受性のある二次分類器を作製するために、本発明者らは、二次分析に用いられる虹彩色の群のそれぞれに対して不等な分散-共分散行列を作成するための重み付けスキームを考案した。まず、最も強い関連性のある遺伝子型を同定した。次に、それよりも関連性の弱い遺伝子型をランダムに選択した。通常、共分散行列を構築する際には、Zスコアおよび二進法(個々のベクトルにおいて遺伝子型が存在しなければ0の値、存在すれば1の値)を用いて各因子に対してMを算出する。ランダムに選択された関連性の弱い/ない配列については、各因子に関するMを算出する際に二進法の値xを用いる代わりに1+xを用いる形でこの重み付けスキームを用いた。ここでxはその個体に同じく存在する関連性の強い遺伝子型の数である。関連性の弱い/ない体色遺伝子の特徴のランダムな組み合わせを、重み付け、およびこれらの組み合わせに由来するモデルが虹彩色の分類に関して被験試料へといかに適切に一般化されるかの検証のために、連続的に選択することにより、最適な重み付け戦略を得ることができる。この様式による再コード化は一般に、関連性の弱い/ない配列のスコアのばらつきを増大させるため、モデルの識別力を向上させる。このコード化手順は恣意的なように思われるが、これは実際的な観点からは重要である。例えば、比較的精度の高い推測が得られる限り、データに裏づけられた方法が推奨される、時系列または経済の統計予測の分野の場合がある。この場合には、ひとたび最適なモデルが同定されれば、その作成に用いられた重み付けから、複雑な形質のばらつき(すなわち、エピスタシス)を招く異なる遺伝子の遺伝子型間の非線形的関係に関する手がかりが得られる。
【0570】
二次分類器のシミュレーション
Monte Carloシミュレーション試験を用いて、線形/二次分類方法を用いた場合の正しい分類および誤った分類の確率に関する分布および要約的統計量を生成させた。ランダム数発生装置を用いて、虹彩の色の濃淡が薄い群および濃い群の両方からのアレル頻度の観察に基づいて200個体を選択し、これらの個体を用いて多変量線形分類確率行列を算出するためのプログラムを書いた。この実験を10000回繰り返し、分類率および誤分類率ならびにそれらの信頼区間に関する要約的統計量を得た。
【0571】
B.結果
公開データベース(NCBI:Unigene、dbSNP、LocusLink)および文献のマイニングおよび再シークエンシングを行い、8つの体色遺伝子における181個の候補SNP座位(遺伝子1つ当たり平均23個の候補SNP)を同定した(列2、表1)。虹彩の色を自己報告した白人335人(褐色97人、青色117人、緑色36人、薄茶色85人)ならびにさまざまな人種的背景を持つさらなる個体230人(白人100人、アフリカ系アメリカ人100人およびアジア人個体30人)を対象に、これらの候補SNP座位のそれぞれに関して遺伝子型を評価した。すべての可能なn-SNPの組み合わせの相が既知のアレルを、形質値との関連(あれば、ここでn=[1,2,...x]であり、x=SNP座位の数である)についてスクリーニングするためのソフトウエアシステムを開発した。スクリーニングはケースコントロール形式で行い、虹彩の色の濃淡を薄いまたは濃いのいずれかにコード化した(薄い=青色、緑色または薄茶色、濃い=黒および褐色)。本発明者らは合計で411件のn座位SNPの組み合わせのアレルをスクリーニングし、これらのうち、遺伝子の4つにおける最適な判別を行う8つの組み合わせのアレルを、白人のさまざまな虹彩色と強く関連するものとして同定した(列5、表17-1)。これらの組み合わせはOCA2遺伝子(n=5)、TYRP遺伝子(n=1)、DCT遺伝子(n=1)およびMC1R遺伝子(n=1)に不均等に分布していた。それらの虹彩の色との関連は単純な遺伝学的アプローチで検出しうる程度に十分に強かったため、本発明者らは、これらのSNPの組み合わせのハプロタイプアレルを「浸透性遺伝的特徴」と命名し、SNPの組み合わせ自体はさまざまな虹彩の色「浸透性特徴SNPの組み合わせ」と命名した。TYR、SILV、ASIPおよびAP3B1遺伝子には浸透性の遺伝的特徴も浸透性SNPの組み合わせも同定されなかった(列5、表17-1)。8つの浸透性遺伝的特徴は25個のSNPから構成され、平均マイナーアレル頻度は0.21(0.07〜0.47の範囲)であった。これらのうち4つはコード化の変化であり、17はイントロンに位置し、4つはサイレント変化であった(列6、表17-2)。SNPのうち10個は再シークエンシングによって同定されたが(NCBI:dbSNPデータベースにも文献にも存在しない)、これらのうち2つのもののアレル(217439および217441、表2)は、ヒト体色と関連するものとして文献中に以前に同定されていたことがわかった(詳細には赤毛および青色の眼、Valverde, P.ら、Nature Genet. 11: 328-330, 1995)。SNPのうち11個はNCBI dbSNPデータベースから選択された(列7、表17-2)。
【0572】
浸透性遺伝的特徴のバリデーション:
さまざまな虹彩の色の濃淡に関していくつかの浸透性特徴SNPの組み合わせが同定されたため、それらの浸透性遺伝的特徴と特定の眼の色との関連をより詳細に調査するために分析を拡張した。ハプロタイプおよび多座遺伝子型と虹彩の色との関連についての随伴分析(青色、緑色、薄茶色、褐色および黒)により、有意な関連のあるアレルおよびアレルの組み合わせが数多く関連づけられた(表17-3)。χ二乗調整残差により、関連性の多くはハプロタイプレベルで極めて強いことが示された。例えば、OCA2-A TTAAは青色と強く関連し(p=0.0079、行3、列3、表17-3)、OCA2-A CCAGおよびOCA2-B CGAアレルは褐色と強く関連していた(それぞれp=0.0008、行4、列3、表3;p=0.0024、行11、列3、表3)。多座遺伝子型のレベルでの分析では、浸透性遺伝的特徴SNPの組み合わせのそれぞれも眼の色と統計的に関連することが示された(すなわち、8つのSNPの組み合わせのうち、エントリー時に列8がないものはなかった、表17-3)。それらのアレルは虹彩の色の濃淡と関連していたが、DCT-B、TYR-A、OCA2-DおよびOCA2-E特徴のハプロタイプまたは多座アレルに関する随伴分析のχ二乗統計量は有意ではなかった。例えば、DCT-Bの全体的なp値はハプロタイプ(行21、列3、8、表17-3)および多座遺伝子型のレベル(行21、列8、表17-3)では有意でなかった。しかしながら、DCT-Bハプロタイプの2つに関する調整残差からは、全体的なχ二乗統計では有意でなかったものの、これらの特定のアレルは眼の色と強く関連することが示されている(CTGと褐色、p=0.0133、行17、列3、表3、およびGTGと薄茶色、p=0.0249、行18、列3、表17-3)。特定の虹彩の色とは関連しないが虹彩の色の濃淡とは関連する他の特徴SNPの組み合わせについても同じことが観察された;OCA2-D AGG遺伝的特徴と薄茶色の虹彩(p=0.0468、行27、列3、表17-3)、OCA2-D GGG遺伝的特徴と褐色虹彩(p=0.0222、行28、列3、表17-3)およびOCA2-E GCA遺伝的特徴と褐色虹彩(p=0.0004、行31、列3、表17-3)。サンプルサイズおよび関連性の強さを考慮したところ、褐色の虹彩を予測するための最も重要な遺伝的特徴はOCA2-D、OCA2-EおよびDCT-Bの特徴SNPの組み合わせにあり、青色または緑色の虹彩色に関して最も重要なものはMC1R-BおよびTYRP-Bの特徴SNPの組み合わせにあることが見いだされた(列5および6、表17-3)。青色の虹彩の遺伝的特徴の集計数は褐色の2倍であったが(1474に対して664、それぞれの色について列6および11を集計、表17-3)、褐色の遺伝的特徴のタイプは青色の虹彩の2分の1であった(4に対して8、それぞれの色について列4を集計、表17-3)。このことは、褐色の虹彩と関連のあるハプロタイプの多様性は青色の虹彩と関連のあるハプロタイプのものよりも有意に大きいことを示唆する。特徴の組み合わせに関するハプロタイプおよび多座遺伝子型の大部分は、多人種試料において眼の色とより顕著に関連していたが(非提示データ)、これはおそらく、濃い色の虹彩と関連のあるバリアントが、平均的な虹彩の色が白人よりも濃い世界の人種群の方が多いためと考えられる。
【0573】
これらの浸透性遺伝的特徴に関する多座遺伝子型レベルでの関連性からは、ハプロタイプアレルのいくつかは虹彩の色の差異に関する優性成分に寄与することが示唆される。例えば、OCA2-A TTAAハプロタイプは青色の虹彩と強く関連し(p=0.0079、行3、列3、表17-3)、OCA2-A TTAGハプロタイプは褐色の虹彩と強く関連しているが(p=0.0045、行5、列3、表17-3)、OCA2-A TTAA/TTAG多座遺伝子型は褐色の虹彩とは強く関連するが、青色とは関連しない(p=0.0006、行5、列8、表17-3)。優性成分の寄与のすべてが濃い眼の色に向かうわけではない。例えば、OCA2-B CAAは青色の虹彩と強く関連し(p=0.0269、行10、列3、表17-3)、OCA2-B CGAは褐色の虹彩と強く関連していたが(p=0.0024、行11、列3、表17-3)、OCA2-B CAA/CGA多座遺伝子型は青色とは関連があるが、褐色の虹彩とは関連しない(P=0.0.0314、行11、列8、表17-3)。
【0574】
分割表を構築し、多座遺伝子型をコレスポンデンス分析空間にプロットして、低次元での関係および浸透性遺伝的特徴の多座遺伝子型と虹彩色との関連を可視化するとともに、ならびに個体を複合的な遺伝学的ベクトルとしてコード化した。この解析により、青色、緑色および薄茶色の虹彩の浸透性遺伝的特徴の遺伝子型の相互同士の方が、褐色の虹彩に対するよりも類似したプロファイルを共有することが示された。相互に真に関連のある遺伝子型および形質値をプロットすると、直感的に生物学的な意味をなすプロットパターンが生じると考えられる。COAプロットの場合には、遺伝的特徴遺伝子型のプロファイル関数としてプロットされた青色、緑色、薄茶色および褐色の虹彩は、図の中心の周囲を時計回りに進行するようにして認められる。これは褐色色素(オイメラニン)の濃度が高くなる順番となっている。この解析において評価した遺伝子はこの色素の産生に関与しているため、このパターンは直感的な意味をなす。さらに、浸透性特徴SNPの組み合わせの多座遺伝子型は、有意な関連のない組み合わせの遺伝子型よりも図の中心から距離が隔たっている(表3)。中心からの距離は当初の分割表における全体的なχ二乗統計量に対する遺伝子型の寄与に比例するため、これは予想されたことであった。
【0575】
本発明者らの結果を確認し、眼の色の差異の決定における特定の変異の役割を明らかにするために、本発明者らは、浸透性特徴SNPの組み合わせのハプロタイプ分岐図に対してネステッド随伴分析を行った(Templetonら、1987)。すべての遺伝的特徴のハプロタイプ分岐図に、進化的な時間を介して機能的に相互に結びついたバリアントが埋め込まれる。この進化的枠組みはしばしば、パターンをアレルの進化上の歴史に由来する今日の形質の関連性に帰属させ、そうすることにより、遺伝的関連に関する単なる統計的な関連性ではなく生物学的な関連性を示唆しうる。しかし、アレルの関連につながる分岐図パターンを見いだせないことは、必ずしもアレルの関連が実在しないことを示すわけではなく、これは機能的に関連するアレルが最近かつ独立に派生した可能性があるためである。本発明者らは、OCA2-A、OCA2-B、OCA2-C OCA2-DおよびTYRP-Aアレルの関連に関して有意な分岐図パターンを同定したが(表4)、このことは虹彩の色と関連のある変異がこれらの遺伝子配列の進化において比較的早期に生じた可能性を示唆する。特徴SNPの組み合わせのうち2つ(OCA2-BおよびOCA2-C)は、進化上の歴史を区別しうるような複数の機能的に重要な変異を有していたが、他のほとんどについては、虹彩の色の差異の最も大きい部分(すべてはないが)を、特徴の組み合わせの単一の座位での変化によって生じた分枝へと遡って追跡することが可能と考えられる。MC1R-A、OCA2-EまたはDCT-Bの特徴SNPの組み合わせについては有意な分岐図パターンが検出された。これらの場合、虹彩の色に関連したアレルは、OCA2-A、OCA2-B、OCA2-C OCA2-DおよびTYRP-Aアレルよりも、遺伝子配列の進化上の歴史における後の時期に独立して進化したように思われる。
【0576】
潜在性遺伝的特徴
虹彩の色の各形質の頻度は本発明者のサンプル群においても一般集団においても比較的高く、本発明者らが検討したほとんどのSNPのアレル頻度も比較的高かったことから、虹彩の色の存在の程度は、ケースコントロール研究デザインの状況下でSNPの関連を検出するのに妥当であると予想される(Culverhouseら、Am. J. Hum. Genet. 70: 461-471, 2002)。しかしながら、ゲノムに基づくケースコントロール研究デザインの主な欠点(本発明者らがこれまで用いてきた分析方法を想定した場合)は、エピスタシス成分を介して遺伝分散に排他的または実質的に寄与するアレルを検出する検出力がないことである(Culverhouseら、Am. J. Hum. Genet. 70: 461-471, 2002)。表1に記載された浸透性特徴SNPの組み合わせの要素でないSNPは、虹彩の色の差異に対しては寄与しないか、またはエピスタシスの手段を介して寄与すると考えられる。ケースコントロールデザインでは検出不能であるが、エピスタシス成分はケースコントロール研究よりも連鎖研究の方が容易に検出しうるが、これは純粋なエピスタシスモデル(またはそれを主とするもの)は連鎖解析における罹患同胞の間に過剰なアレル共有を生じさせるためである。本発明者らは、白人とアフリカ人/アジア人との間の体色アレル頻度の人種的比較は、人種群が家系の同胞と等価であるという、極めて単純な連鎖研究の極端な例であると考えている。この場合には、後者の2つの人種の個体は白人よりも平均的な虹彩の色が濃いため、連鎖は家系規模ではなく進化的文脈で考慮される。このため、虹彩の色の差異のエピスタシス成分に対して寄与しうるSNPを同定するために、本発明者らは表1に記載された浸透性特徴SNPの組み合わせの要素ではないSNPを、白人群(n=新たな個体100人、未分析)またはアフリカ人/アジア人の連合群(n=新たな個体130人、未分析)のいずれかに多く存在するアレルに関してスクリーニングした。非体色遺伝子におけるほとんどのアレルは2つの人種群で顕著なマイナーアレル頻度の差を示さなかったが(Frudakisら、Human Heredity (2002)の総説;例えば、表5B)、表1の浸透性特徴SNPの組み合わせの要素でない多くのSNPのアレルは、2つの人種群間で著明なマイナーアレル頻度の差を示した(表5A)。本発明者らは、共有性の異なるこれらのSNPアレルが、虹彩の色の差異のエピスタシス成分に対して寄与すると考えている。ハプロタイプアレルは一般に個々のSNPアレルよりも形質値を予測しうるが、これらのどのSNPの組み合わせのどのアレルがこの差異に寄与するかを明らかにすることは不可能である。このため、本発明者らはそれらを組み合わせて、その成分が連鎖不平衡にある任意のSNPの組み合わせとし、これらをさまざまな虹彩の色の「潜在性特徴SNPの組み合わせ」と呼び、そのハプロタイプ(および多座遺伝子型)アレルをさまざまな虹彩の色の「潜在性遺伝的特徴」と呼んでいる。
【0577】
フィーチャーモデリングおよび分類器の構築
浸透性遺伝的特徴を独立した分類器として用いたところ、正しい分類のベイズ事後確率は一部のものでは50%に近かったが、ほとんどのものでは30%〜40%の範囲であった(列5および10、表3)。これらの結果は種々の虹彩の色の判定が複雑なことを意味するとともに、浸透性特徴SNPの組み合わせのアレルは虹彩の色の差異と関連しているものの、いずれの構成要素も単独ではこの差異のわずかな部分を説明するに過ぎず、その独立した分類器としての予測能力は現場で用いるには低すぎることを示唆している。
【0578】
浸透性遺伝的特徴のみを用いた重み付け二次分類
正確な推測を行える程度に虹彩の色の差異のより多くを説明する複雑モデルを作成するために、コレスポンデンス分析による標準座標に基づいて(方法の項を参照)、重み付け二次分類アルゴリズムを開発した。本発明者らはまず、浸透性遺伝的特徴を用いて、330人の白人個体から分散-共分散行列を計算し、重み付けを行った(方法の項を参照)。この行列を、虹彩の色が判明しているが隠蔽されている他の286人の白人における、虹彩の色に関する盲検下での二次判別分類に用いた。第1の分析のために2つの群を定義した;虹彩の濃淡が薄い群は虹彩が青色、緑色または薄茶色の個体と定義し、虹彩の濃淡が濃い群は虹彩が褐色または黒の個体と定義した。多座遺伝子型(遺伝子的な遺伝子型)のレベルでは、この識別に関して得られた全体的精度は98%であった。濃い虹彩の色の濃淡に対する感度は100%であり、薄い眼の色の濃淡に対しては97%であった(行に沿って読む、表6a)。虹彩の色が薄い、における分類の精度は100%であり、虹彩の色が薄い、における分類の精度は94%であった(列を下へと読む、表6b)。この方法を個々のSNPアレル、SNP遺伝子型または個々のハプロタイプアレルのレベルで用いた場合に得られた精度は低く(精度は後者になるほど高かった)、このことから、眼の色の濃淡を正確に推測するには非常に高いレベルの遺伝子内アレル複雑性を要すること、および複雑性のレベルが高いほど予測能力が向上することが示唆された。眼の色の単なる濃淡ではなく、実際の眼の色を推測するために本方法を多座遺伝子型に用いたところ、青色の虹彩の分類については100%の感度が得られ、褐色の虹彩の分類については感度69%、緑色の虹彩の分類については感度100%、薄茶色の虹彩の分類については感度84%であった(行に沿って読む、表6B)。青色の虹彩の分類の精度は67%であり、褐色の虹彩の分類については100%、緑色の虹彩の分類については100%、薄茶色の虹彩の分類では74%であった(列を下へと読む、表6B)。シミュレーションを用いて二次分類器の推測能力を推定したところ、本発明者らが得た対数尤度はr=l.96であった(非提示)。すなわち、この分類器は極めて正確かつ高感度であり、推測能力も高いが、その欠点として虹彩が褐色および薄茶色の個体を青色の虹彩の群に誤分類することが認められた。
【0579】
この解析に潜在性遺伝的特徴を加えることにより(潜在性+浸透性の遺伝的特徴)、最適な重み付け戦略から、薄い虹彩の色の濃淡と濃いものとの識別に関して100%の精度および感度で同じ286人の白人へと盲目的に一般化される共分散行列が得られた。この最適モデルは、実際の虹彩の色の推測についても100%の精度でこの試料へと一般化された(286例中286例が正しく分類;表7Aの対角に沿う)。シミュレーションを用いて二次分類器の推測能力を推定したところ、得られた対数尤度は適切な虹彩の色の群への分類についてr=3.22であった。平均的な虹彩の色が濃い人種群に多く認められるマーカーは、分類器が多民族試料における眼の色を人為的に推測するのを確かに補助すると考えられるが、いかなるこのようなマーカーも、ヒトの虹彩の色合いとの機能的な関連がなければ、虹彩の色の推測を補助するというのは正しくない。これらのマーカーが白人における分類に寄与することにより、それらが虹彩の色の決定と機能的に関連していること、またはそれと機能的な関連のあるマーカーと連鎖していることが示唆される。
【0580】
C.考察
本実施例では、ヒトの虹彩の色をDNAから推測するための複合的な分類器を提示する。本発明者らの知る限り、これはこの種の初めての記載された分類器である。体色遺伝子については詳細な記録があるが、今回の取り組みまでは、少数のSNPアレルが、健康な白人集団における虹彩の色の天然の分布と弱く関連することが知られているのみであった。その理由は、虹彩の色の天然の差異を説明しようと試みたほとんどの研究が、TYR遺伝子(Sturmら、Gene 277: 49-62, 2001)、MC1R遺伝子(Valverdeら、1997)およびASIP(Sturmら、Gene 277: 49-62, 2001)遺伝子を含む単一の遺伝子における単一SNP分析などの単純な遺伝学的アプローチを対象としたためである。新たな複合的な遺伝学的方法を開発し、さまざまな虹彩の色に関する遺伝的特徴の同定およびモデル化のための体系的なアプローチを取り入れることにより、本発明者らは、従来の他のものよりも複雑な遺伝学的レンズを通してこの問題を検討した。しかしながら、本発明者らの結果のほとんどは以前の文献と一致した。TYR発現産物は、チロシンからオイメラニンの合成へと至る触媒連鎖における律速段階であるが、他の者による以前の研究は、TYR多型はヒト体色の正常な差異の基礎をなす根本的な(すなわち、浸透性の)要素であるとの比較的単純な仮説を誤って伝えていた(Sturmら、Gene 277: 49-62, 2001)。今回の検討でも、TYR遺伝子における種々の虹彩の色に関する浸透性遺伝的特徴を同定することはできなかった。さらに、浸透性遺伝的特徴を同定するための本発明者らの体系的なアプローチにより、Valverdeら、Nature Genet. 11: 328-330, 1995およびKoppulaら、Hum. Mutat. 9:30-36, 1997によって記載された「赤毛」SNPアレルが、実際に虹彩の色と関連することが独立に裏づけられた。しかし、本発明者らの研究は、これらの単純な遺伝子的な分析を大きく拡張した。TYR遺伝子には虹彩の色と関連のあるSNPもハプロタイプも同定されなかったが、TYRアレルは虹彩の色の推測という複雑な遺伝学的状況においては重要である。「赤毛」SNPは実際に天然の虹彩の色と関連しているが(アイルランド人の個体で)、それらはMC1R遺伝子における別のコード化の変化という多座的状況において白人の虹彩の色と最も強く関連するように思われ、それもより大規模な全体像の一部であるに過ぎないように思われる。
【0581】
事実、本明細書に提示した研究から引き出すべき最も重要なポイントは、さまざまな虹彩の色を個々の遺伝子のレベルで語ることは形質の複雑性からみて論理的でないということである。実際には、TYRもMC1Rも、さらには本発明者らが調べた他の遺伝子のいずれについても、虹彩の色を単独で予測することは特に重要ではない。これは本発明者らが得たベイズ条件付き確率によって示されており、それによれば最も強い関連のあるアレルでも(浸透性遺伝的特徴)、それを独立した分類器として用いるには不足であった。任意の複雑な表現型の分散は、相加的、優性およびエピスタシス遺伝分散の関数(環境分散に加えて)であることから、あらゆる優れた複合的な遺伝学的分類器は推測を行う際にこれらの3つの成分のそれぞれを捕捉しなければならず、本発明者らが開発した分類器にはこれが可能であるように思われる。相加的な成分は多座アレル(ハプロタイプ)の解析によって最も効率的に捕捉され、優性成分は個体を、成分が重要な各領域に関して多座遺伝子型をコード化したものであるベクトルとして表すことによって捕捉される。本発明者らが成し遂げた最も革新的な進歩は、エピスタシス成分をアルゴリズム的に捕捉することである。本発明者らの研究により、最小限の推測精度のために必要なのは、4つの遺伝子内の8つの座位による25個の浸透性SNPの最小セットであることが示された。しかし、8つの遺伝子のうち7つにおける19の多座環境(浸透性および潜在性の両方)にある57個のSNPの完全なセットが、正確な推測のためには必要であった。潜在性遺伝的特徴が正確な推測に必要なことから、白人集団における虹彩の色の差異には明らかにエピスタシス成分があることが示唆される。アグーチシグナル伝達タンパク質(ASIP)はこのような多型を4つ、シルバー座位(SILV)は3つ有しており、これらはそれぞれ任意に組み合わされて単一の潜在性特徴SNPの組み合わせとされた。DCTおよびTYRはこのような多型をそれぞれ5つおよび6つ有する。ASIP、SILVまたはTYRで浸透性遺伝的特徴が全く同定されなかったことは、これらの遺伝子が主としてエピスタシス手段によって虹彩の色の差異に寄与することを示唆する。潜在性特徴には同程度の予測性はなく、分類時にエピスタシス成分を捕捉するために、本発明者らは種々の状況下にあるアレルにランダムに重み付けを行い、最も適した二次判別が可能な組み合わせを選択した。本発明者らの結果は、この最適な重み付けスキームの詳細な調査によって虹彩の色の遺伝学について学ぶべきことが多くあることを示している。本発明者らは現時点で、COA由来の最適な二次分類器モデルを生じるような様式で特徴が組み合わされた機序を理解していない(本発明者らはこれらのデータを別のところで提示するつもりである)、分かっているのはそれが生じたことと、その組み合わせに虹彩の色を推測するための最大限の実際的有用性があることのみである。本発明者らが得た結果は、虹彩の色が実際に複雑な遺伝形質であり、経験的に決定されたその「全体」はその「部分」の合計よりも大きいことを示唆している。最も一般的なレベルで、本発明者らの結果は、明白ではあるが興味深いと思われる概念を示している:すなわち、単純な遺伝学的アプローチは形質の関連性を個々の遺伝子およびそれらにおけるハプロタイプに帰属させるには有用であるが、ほとんどのヒト形質は複雑であるため、これらの遺伝子およびハプロタイプを正確な分類検査の開発に用いるためには複合的な遺伝学的手法が必要である。遺伝子型判定の誤り、自己報告による虹彩の色および統計学的なハプロタイプ推測の誤りを含む、今回の研究での誤りの由来を考えると、このように複雑な形質に関して、550人という合計サンプルサイズで完全な分類精度が達成されたことは大きな注目に値する。フィーチャーモデリングに関しては、本発明者らが用いた方法の費用関数がCARTよりも直接的なやり方で遺伝子型(ハプロタイプ対)を形質値と関連づけるものであったにもかかわらず、ほぼ同一な結果が分類樹(CARTに基づく)法を用いて得られている(未発表データ)。このため、本発明者らが本明細書において用いた方法は他の分析法によって実証されたと思われ、このことは他の複合的な遺伝学的分類器、例えば薬理ゲノム学または複合的な疾患の遺伝学的分類器の作成に期待を持たせるものと思われる。
【0582】
虹彩の色の差異を説明しうると考えられるプロセスには、発生的および細胞性などさまざまなものがあるが、本発明者らの結果は、たった7個の遺伝子における多型によって集団における眼の色の差異のすべてが説明される可能性を示唆している。この結果は驚きに値する。ショウジョウバエを用いた研究では、85個を上回る遺伝子が虹彩の色合いと関連づけられており(Ooiら、EMBO J. 16 (15) : 4508-4518, 1997;Lloydら、Trends Cell Biol. 8 (7) : 257-259, 1998)、モデル脊椎動物における眼皮膚型白皮症には8個をはるかに上回る遺伝子の関与が考えられている。ヒトにおける虹彩の色の差異のほとんどすべてを、慎重に選択された8つの遺伝子中の7つにおける多型によって説明できたことは、色素沈着の生物学的複雑性を考えると、ある遺伝子があるプロセスに決定的に重要なこと(すなわち、その変異が機能喪失を引き起こす)だけでは、個体間のこのプロセスの天然の分布がこの遺伝子における天然の多型と関連づけられることを必ずしも意味しないことを示している。たとえるならば、自動車エンジンを壊すには、例えば水のホースを取り去るといった数多くのやり方があるが、エンジンの性能の変動のうち、ホースの特性の変動によって引き起こされる部分は事実上皆無である。複雑な遺伝学的「エンジン」のある種の部分は、我々の祖先の進化的分枝の間に、機能的に関連した多型を蓄積するための「シンク」となったように思われる。
【0583】
事実、本発明者らの研究による驚くべき所見の一つは、本発明者らが検討したすべての遺伝子のうち、OCA2遺伝子が虹彩の色の際を最も際立って説明したことである。8つの特徴SNPの組み合わせのうち5つはOCA2遺伝子に由来し、これらの浸透性特徴SNPの組み合わせの要素である25個のSNPのうち17個はOCA2 SNPであった。現在まで、OCA2内部の多型スクリーニングについては記載されておらず(しかし、それが要求されたことはあった。Sturmら、Gene 277: 49-62, 2001を参照)、本研究はこの遺伝子が虹彩の天然の色合いに重要なことを初めて示したものである。OCA2遺伝子の産物はメラノソーム膜に局在し、大腸菌Na+/H+対向輸送体と類似している。TYR活性はメラノソーム内のオイメラニン含量と完全に相関するが(Iozumiら、J. Invest. Dermatol. 100: 806-811, 1993)、その活性はOCA2遺伝子産物により、メラノソーム内pHの制御を通じて調節されると考えられている(Ancansら、J. Invest. Dermatol. 117: 158-159, 2001)。色の濃い皮膚および薄い皮膚から採取したチロシナーゼはインビトロでは同一の機能を果たすが、これはpH依存性が強く、白い皮膚由来のメラノサイトは黒い皮膚からのものよりも酸性である(Fullerら、Exp. Cell. Res. 262: 97-208, 2001、Ancansら、Exp. Cell. Res. 268: 26-35, 2001)。これらの観察所見を考慮すると、OCA2はTYR活性の主な修飾因子であると思われ、これは本発明者の統計の結果と一致する。興味深いことに、分岐図分析のレベルでは、5つのアレルのうち4つでOCA2の特徴SNPの組み合わせに関する関連が認められた。同じく興味深いことに、濃い虹彩の色と関連のあるアレルの多様性は、薄い虹彩の色と関連のあるアレルのものよりも有意に大きい。これらの観察所見を総合すると、薄い色の虹彩はヒトの進化期間における比較的遠い過去に濃い色の虹彩から分枝したこと、およびOCA2遺伝子の改変がこの分枝の手段となったことが示唆される。現代人の起源がアフリカにあるという人類学的および分子的に広く受け入れられている見方では、北欧民族はアフリカの創始者から枝分かれしたとされている。本発明者らの結果は、薄い色の虹彩が北欧に祖先のある個体にほぼ独占的にみられる理由の大部分が、OCA2発現産物の比較的古くからの(そして数多くの)改変に起因することを示唆している。褐色の分類が、潜在性遺伝的特徴を分類器モデルに加える前(後ではない)には、青色と比べてはるかに正確であるという事実は、青色の虹彩が濃い色の虹彩よりも多くのエピスタシスにさらされること、および濃い眼は相対的に(厳密な表現ではないが)優性である傾向があることを示している可能性がある。
【0584】
多人種試料に適用した場合、浸透性特徴(さらには浸透性特徴+潜在性特徴の組み合わせ)に関して、分類器は白人のみに適用した場合よりもかなり優れた精度を示した。ほとんどの非白人人種群は虹彩の色に関する差異が少ないため(白人よりも平均して色が濃い)、この改善は驚くには当たらないように思われる。しかし、正確でないソリューションは世界のさまざまな集団の個体に適用した場合に必ずしも正確でないものの、遺伝的不均一性があるにもかかわらず、正しいソリューションは正確であると考えられる。この理由は、白人において濃い虹彩の色と関連のあるアレルがメラニン産生および虹彩の色を決定するか、またはそれらを決定するアレルと連鎖しているならば、さらに虹彩の色の差異に対する人種性の成分の違いがわずかであると仮定するならば、これらのアレルの頻度は平均的な虹彩の色が濃い集団の方が高いはずである。本発明者のいずれのモデルの精度も汎民族的に適用した場合に高まることから、本発明者らの結果は、本発明者らが記載した浸透性および潜在性の関連が機能的にかかわっている可能性を示唆する。ほとんどのSNPはイントロンまたはサイレント変化であるため、本発明者らは、本発明者らが記載したアレルが他の未確認のアレルと統計的に関連しているか、またはアミノ酸の変化以外(RNA転写、分解、局在化など)を介する形で機能的に関連していると推測している。興味深いことに、アミノ酸変化は極性を変化させる傾向があり、4つのうち3つはアルギニンがかかわる。興味深いことに、本発明者らが虹彩の色用に作成した分類器は、白人における毛の色または皮膚の濃淡の分類に正確性を伴っては拡張されなかった。実際、これは白人の種々の虹彩色に関する優れた複合的な遺伝的モデルから予想されることであり、これは虹彩、皮膚および毛の色がこの人種群では独立に遺伝(および分布)することが知られているためである。本明細書に毛の色に関して記載したものと類似した検討を本発明者らが行ったところ、SNPマーカーのセットには約33%の重複があるが、セットは異なる(データは別のところで提示する予定)。本発明者らは、本明細書において作成した分類器を、少なくとも部分的には、アフリカ人系統の個体における緑色、薄茶色および褐色の虹彩の識別といったように他の人種群にも拡張しうると想定している。これが正しいか否かは今後の研究の対象である。
【0585】
この初の遺伝的ソリューションは匿名で提供されたDNAから質的特徴を帰属させうるため、本発明者らの結果は重要な業績であると考えられる。第1に、それは複雑なヒト形質をハイスループットゲノム科学の技法を用いて弁別するための方法の一つを示した。第2に、本発明者らのソリューションは、法医学用の手法として、犯罪調査または他の法医学的調査を導くために用いうると考えられる(この場合には、比較的明確でない多座遺伝子型の組み合わせを、虹彩の色の濃淡、および特定の虹彩の色の分類に関して提供される条件付き確率の表現に関連して分類しうると考えられる)。第3に、研究用の手法として、本発明者らが同定した高頻度のハプロタイプは、白内障および黒色腫などの体色関連疾患に関するリスクを研究者がより正確に規定するために役立つと思われる。
【0586】
(表17-1) ヒトの眼の色に関する遺伝的特徴抽出の結果
Figure 2004537292
1-虹彩色とのアレルの関連について検討した各遺伝子におけるSNPの総数。
2-本文中に記載した遺伝的特徴抽出アルゴリズムを用いて虹彩色との関連について一倍体アレルを検討した、n座位のSNPの組み合わせの総数。方法の項で説明したように、この数は列2の合計から見いだされたバリデートされたSNPの数に依存し(非提示データ)、より低次(すなわち、1座位、2座位の組み合わせ)でのスクリーニングに起因する。
3-本文中に説明したように、アレルが種々の虹彩色に関する遺伝的特徴として同定された、非重複性のSNPの組み合わせの数。
4-同定された遺伝的特徴のそれぞれに関する名称およびSNP組成。
5-本文中に説明した通りの、虹彩の色が薄い個体と濃い個体との間のハプロタイプ特徴アレル配列組成に関するF統計によるP値。
* この組み合わせに関する1つのハプロタイプは、虹彩色の濃淡と強く相関することが判明したが、観察された他のハプロタイプは有意ではなかった。*このP値は特定のTYR遺伝子背景において得られた。を上回るP値。
【0587】
(表17-2) ハプロタイプの特徴に組み入れられたSNP、および、本文中に記載されたさまざまな眼の色の推測のための分類器モデルの説明
Figure 2004537292
1-サイレント−アミノ酸変化なし、イントロン−SNPが非コード配列に認められた。
2-DbSNP−候補遺伝子配列がNCBI:dbSNPに02/15/02時点で存在する。再シークエンシング−SNP配列が本文中に説明した再シークエンシング作業によって発見された。
3-Valverdeら、Nature Genet. 11: 328-330, 1995およびSchiothら、1999.
4-Frandbergら、Biochem. Biophys. Res. Commun. 245: 490-492, 1998;Smithら、J. Invest. Derm. 111: 119-122, 1998。
遺伝子およびハプロタイプ特徴の名称は列1および2に示されている。本文の全体を通じて考察したSNPの組み合わせは列3に示されている。座位に関する「マーカー」または一意的な識別名は列4にあり、白人集団におけるマイナーアレル頻度は列5にある(fCA(マイナー))。SNPのタイプ(イントロン、サイレントおよびコード性、2つのアミノ酸バリアントが下線によって区分される部位)は列6に示されている。列7にはSNP座位の由来(本発明者らが実験をデザインする際に配列の由来としたもの)を示し、SNP座位の履歴には文献または他の周知の知見において、SNP座位に関して、何らかの組織におけるヒトの体色の濃淡の天然の分布に関して意義があるとされた記載があるか否かを示す。
【0588】
(表17-3) 白人集団における遺伝的特徴アレルと虹彩の色との関連に関するエフェクト統計量
Figure 2004537292
Figure 2004537292
1-Pearsonのχ二乗統計によるP値。虹彩の色と有意な関連があったアレルおよびアレルの組み合わせのみを示している(n>2)。
2-眼の色に関する群におけるアレル頻度をクラス条件付き確率として用いた、眼の色が正しく分類されるベイズ事後確率。
【0589】
(表17-4) 種々の眼の色について同定された遺伝的特徴に関するハプロタイプ分岐図のネステッド随伴分析
Figure 2004537292
1-χ二乗統計によるP値、自由度は各解析とも3とした。
2-ネステッド随伴分析で眼の色における有意な差異を遡れることが示されたSNPの組み合わせの内部の座位。この情報はアレル区分の列にもある。
3-提供したこのネステッド分岐図分析が提供する有用性のよい例である。OCA2-D SNPの組み合わせの2つのアレル(AGGおよびGGG、行27および28、列3、表3)は、χ二乗調整残差分析によれば虹彩の色と相関するが、アレルのすべてを総合した随伴分析に関するχ二乗統計は有意ではなかった(行30、列3、表3)。ネステッド分岐図分析により、これらの2つの配列は進化的に近接することが示され、OCA2-D組み合わせのGG 3'末端は濃い虹彩の色と強く相関することが示唆された(p=0.0014、表4)。見たところ、この有意性は、他の4つのハプロタイプアレルと虹彩色との間に関連性がないために全アレルレベルで生じたノイズに埋もれて失われたように思われる。
【0590】
(表17-5A) 潜在性一倍体遺伝的特徴のアレルに関する人種群間のアレル頻度の差
Figure 2004537292
【0591】
(表17-5B)
Figure 2004537292
1-白人人種群における頻度(N=100)
2-アフリカ人人種群における頻度(N=100)
3-アジア人人種群における頻度(N=30)。
4-白人群(N=100)は、虹彩色の薄い(青色、緑色または薄茶色)人種と命名されたが、これはこれらの虹彩色の頻度がこの群で最も高かったためである。
5-アフリカ人およびアジア人群(N=130)は、虹彩色の濃い(黒および褐色)人種と命名されたが、これは青色、緑色および薄茶色の虹彩の頻度がこの群で最も低かったためである。
【0592】
(表17-5C) 潜在性一倍体遺伝的特徴のアレルに関する人種群間のアレル頻度の差
Figure 2004537292
【0593】
(表17-6) 種々の虹彩色に関する浸透性遺伝的特徴を用いた、コレスポンデンス分析の支援による二次識別に基づく虹彩色の分類
Figure 2004537292
Figure 2004537292
1. 分類されたパーセントが、括弧内に示された分類された個体の数とともに示されている。
A)濃い虹彩色(黒および褐色)と薄い(青色、緑色および薄茶色)虹彩色との分類に関する確率表。B)種々の虹彩色間の分類に関する確率表。
【0594】
(表17-7) 種々の虹彩色に関する浸透性および潜在性の遺伝的特徴を用いた、コレスポンデンス分析の支援による二次識別に基づく虹彩色の分類
Figure 2004537292
Figure 2004537292
1. 分類されたパーセントが、括弧内に示された分類された個体の数とともに示されている。
表27-7.A)濃い虹彩色(黒および褐色)と薄い(青色、緑色および薄茶色)虹彩色との分類に関する確率表。B)種々の虹彩色間の分類に関する確率表。
【0595】
(表17-8) SNPのヌクレオチド・オカレンスの決定のためのプライマー
Figure 2004537292
Figure 2004537292
Figure 2004537292
Figure 2004537292
Figure 2004537292
表17-8.「PCR」は、プライマーをSNPの周囲の標的ポリヌクレオチドを増幅するためのPCR反応に用いたことを示す。「NPCR」は、プライマーを第1のPCR反応の増幅産物の内部の配列を増幅するためのネステッドPCRに用いたことを示す。「プライマー伸長」は、増幅産物をテンプレートとして用いるプライマー伸長反応にプライマーを用いたことを示す。
【0596】
実施例 18
毛の色を推測するための浸透性ハプロタイプの同定
本実施例では、毛の色と関連のある浸透性SNPマーカーおよびマーカーのセットの同定について提示する。遺伝的特徴抽出段階の際に個体を眼の色の濃淡ではなく毛の色の濃淡によって区分した点を除いて、眼の色に関して説明したのと全く同じ手法により、さまざまな毛の色と関連のある浸透性SNPマーカーのセットを同定した。表18-1には同定されたマーカーの一部を列挙するとともに、さまざまな毛の色の個体に関するSNPのアレルの頻度に関するデータ、および、薄い毛の色または濃い毛の色のいずれかに選好的に分離されたSNPを検討する正当性の理由を提示している。特徴抽出の結果は表18-2に示されている。表18-3は同定された個々のSNPの一部を列挙するとともに、表1にも含められたこれらのSNPに関するさらなる情報を提示している。
【0597】
白人の毛の色と関連した浸透性アレルを有するSNPマーカーは以下のものであった:
Figure 2004537292
【0598】
太字で示されているものは、再シークエンシング作業によって見いだされ、文献にも公開データベースにも認められず、本明細書に記載の好ましいある種の毛の色分類器を開発するのに有用であったマーカーである。
【0599】
興味深いことに、浸透性の毛の色SNPおよびハプロタイプについては、浸透性の眼の色SNPおよびハプロタイプと比較して、以下が認められた:
1)ヒトの毛の色を予測するとしてASIP遺伝子内に浸透性SNPが同定されたが、白人の眼の色を予測するとして同定されたものはなかった。
2)白人の毛の色と関連するとしてTYR遺伝子またはDCT遺伝子内に同定された浸透性SNPも浸透性SNPのセットもなかったが、DCTにおける3つは白人の眼の色と関連するとして同定された。
3)白人の毛の色と関連するとして同定された浸透性TYRP SNPは、白人の眼の色と関連するとして同定されたものとは異なる。
4)白人の毛の色と関連するとして同定された浸透性MC1RおよびOCA2 SNPは、白人の眼の色と関連するとして同定されたSNPと同じであるが、白人の眼の色と関連するとして同定されたOCA2 SNPのすべてが、毛の色と関連するセットに含まれるわけではない。
【0600】
これらの観察所見は、毛および眼の色は独立して遺伝するが、毛の色の濃い個体の方が平均的な眼の色の濃淡も濃いことが知られているため、興味深い。白人の毛の色と関連するとして本発明者らが同定したOCA2およびMC1R SNPのセットは、白人の眼の色と関連するとして同定されたサブセットの一部であり、これは眼および毛の色の濃淡が白人(実際には世界中の)集団で同時に生じる傾向がある理由を示すものと思われる。毛または眼の色(場合による)と関連するとして同定されたTYRP、ASIP、TYRおよびDCT SNPは、眼および毛の色の遺伝に関して知られている事柄(すなわち、2つの形質は独立して遺伝される)に対して際立った意味が持つ。例えば、眼の色が青色または緑色で毛の色が褐色または黒い個体さえも存在し、褐色の眼でブロンドの毛の個体も存在する。親の眼の色を知ってもその子孫の眼および毛の色を予測することはできない。親の毛の色がわかれば、その子孫の毛の色をある程度予測しうるが、すべてではない。明らかに、ヒトの毛および眼におけるオイメラニン含有をもたらす遺伝因子は異なっており、本発明者らによる、眼および毛の色に関連のあるヒト多型のセットは異なる(一部重複しているが)という所見は、これらの2つの形質の生物現象に鑑みて非常に説得力があるように思われ、本発明を実証するように思われる。
【0601】
(表18-1) 種々の毛の色の濃淡に関する遺伝的特徴抽出表
毛の色の濃い白人または薄い白人のいずれかに選好的に分離されるアレルを有するSNP:
Figure 2004537292
正当性の理由:このSNPは、その有用性が本特許の本文の別の箇所に示されているOCA3LOC109およびOCA3LOC920ハプロタイプ系の一部である。この分布から見てとれるように、毛の色の濃い(黒+褐色)個体におけるAA:GA:GGアレルの比は39:23:0であるが、毛の色の薄い人では15:2:0に過ぎず、これは有意に異なる。したがって、Gアレルは毛の色の濃い(褐色および薄茶色)個体の方が多い。
Figure 2004537292
正当性の理由:この分布から見てとれるように、Aアレルは毛の色の濃い(黒または褐色)個体のみに観察された。
Figure 2004537292
正当性の理由:Cアレルは毛の色の濃い(黒または褐色)個体の方が薄い個体よりも多い。前者の群におけるCC:CT:TT遺伝子型の比は5:28:36であるが、後者の群では1:6:12であり、これは有意に異なる。
Figure 2004537292
正当性の理由:毛の色の濃い個体におけるGG:GA:AAアレルの比は3:25:45であり、毛の色の薄い個体(ブロンド、赤褐色/赤毛)では0:9:12である。これからはGアレルが毛の色の薄い個体により高い頻度で認められるように思われる。
Figure 2004537292
正当性の理由:毛の色の濃い(黒+褐色)個体におけるAA:GA:GG遺伝子型の比は1:10:42であるが、薄い個体では0:4:20であり、この差は有意ではない。しかしながら、このSNPは、本文中に説明したようにヒトの毛の色に関する妥当な遺伝的特徴であるOCA3LOC109ハプロタイプ系の一部である。
Figure 2004537292
正当性の理由:色の濃い(褐色および黒)群におけるAA:GA:GG遺伝子型の比は31:30:11であるが、色の薄い群では4:8:6、ブロンド群では0:6:6であり、Gアレルは毛の色の薄い群により高い頻度で認められることを示している。
Figure 2004537292
正当性の理由:ブロンド群におけるGG:GT:TT遺伝子型の比は8:6:0であるが、それ以外の群では55:23:2であり、この差は有意ではなかった。しかしながら、このSNPは、本文中に説明したようにヒトの毛の色の予測のために優れた遺伝的特徴(OCA3LOC109ハプロタイプ系)の一部である。
Figure 2004537292
正当性の理由:AA:AG:GG遺伝子型の比に関して、毛の色の異なる濃淡群の間に有意差はなかったが、このSNPは、その有用性が本文中に記載されているOCA3LOC109ハプロタイプ系の一部である。
Figure 2004537292
正当性の理由:AA:AG:GG遺伝子型の比は毛の色の濃い個体では32:29:6であるが、色の薄い群では17:8:1に過ぎない。したがって、Gアレルの頻度は毛の色の濃い群の方が高い。このSNPは、その有用性が本文中に示されているOCA3LOC109ハプロタイプ系の一部である。
Figure 2004537292
正当性の理由:毛の色の濃い個体(褐色および黒)におけるCC:CT:TT遺伝子型の比は3:26:38であるが、毛の色の薄い個体では1:7:18に過ぎない。したがって、Cアレルの頻度は毛の色の濃い群の方が高い(TTホモ接合体よりもヘテロ接合体の方が多い)。
Figure 2004537292
正当性の理由:毛の色の濃い個体におけるAA:AG:GG遺伝子型の比は1:12:42であるが、毛の色の薄い人では0:2:18に過ぎない。したがって、Aアレルの頻度は毛の色の濃い人の方が高い。
Figure 2004537292
正当性の理由:毛の色の濃い人におけるCC:CA:AA遺伝子型の比は1:16:48であるが、毛の色の薄い人では0:2:21に過ぎない。したがって、Cアレルは毛の色の濃い人でより高い頻度で認められる。
Figure 2004537292
正当性の理由:毛の色の濃い人におけるCC:CA:AA遺伝子型の比は28:37:6であるが、毛の色の薄い人では4:9:3に過ぎない。したがって、Aアレルの頻度は毛の色の薄い人の方が高い。
Figure 2004537292
[表も正当性の理由も提示されない]
Figure 2004537292
正当性の理由:ブロンドの毛の色におけるAA:GA:GG遺伝子型の頻度は0:11:14であるが、毛の色の濃い人または赤毛/赤褐色の人では0:58:47である。したがって、Aアレルの頻度は、毛の色が非ブロンドの人の方が幾分高い。
Figure 2004537292
正当性の理由:毛の色の濃い人(褐色および黒)におけるAA:GA:GG遺伝子型の比は、毛の色の薄い人のものと有意差はないが、このSNPは毛の色に関する良好なハプロタイプベースの特徴(本文中に記載されたTYR2LOC920ハプロタイプ系)の一部である。
Figure 2004537292
正当性の理由:毛の色の濃い人におけるCC:CT:TT遺伝子型の比は67:6:0、毛の色の薄い人では19:1:0であり、これは幾分異なる。しかし、このSNPは、その有用性が本文中に考察されているMCR3LOC105ハプロタイプ系の一部である。
Figure 2004537292
正当性の理由:このSNPは、その有用性が本文中に考察されているMCR3LOC105ハプロタイプ系の一部である。Tアレルの頻度は毛の色の薄い個体の方が高い。
Figure 2004537292
正当性の理由:このSNPはアフリカ系アメリカ人における変異体としてのみ認められ、白人には存在せず、前者は後者よりも平均的な毛の色が濃い。
Figure 2004537292
正当性の理由:このSNPは、その有用性が本文中に記載されているMCR3LOC105ハプロタイプ系の一部である。特に、Tアレルの頻度は赤毛/赤褐色のクラスの方が他よりも顕著に高い。
Figure 2004537292
正当性の理由:このSNPはアフリカ系アメリカ人における変異体としてのみ認められ、白人には存在せず、前者は後者よりも平均的な毛の色が濃い。
Figure 2004537292
正当性の理由:このSNPはアフリカ系アメリカ人における変異体としてのみ認められ、白人には存在せず、前者は後者よりも平均的な毛の色が濃い。
Figure 2004537292
正当性の理由:毛の色の濃い人(褐色および黒)におけるGG:GT:TT遺伝子型の比は7:19:20であるが、毛の色の薄い人では2:4:3である。したがって、Gアレルは毛の色の濃い人により高い頻度で認められる。
Figure 2004537292
正当性の理由:毛の色の濃い人(褐色および黒)におけるAA:AT:TT遺伝子型の比は6:35:25であるが、毛の色の薄い人では1:7:4である。したがって、Aアレルの頻度は毛の色の薄い人の方が高い。
Figure 2004537292
正当性の理由:このSNPはアフリカ系アメリカ人における変異体としてのみ認められ、白人には存在せず、前者は後者よりも平均的な毛の色が濃い。
Figure 2004537292
正当性の理由:このSNPはアフリカ系アメリカ人における変異体としてのみ認められ、白人には存在せず、前者は後者よりも平均的な毛の色が濃い。
Figure 2004537292
正当性の理由:このSNPはアフリカ系アメリカ人における変異体としてのみ認められ、白人には存在せず、前者は後者よりも平均的な毛の色が濃い。
Figure 2004537292
正当性の理由:毛の色の濃い人におけるGG:GT:TT遺伝子型の比は59:8:0であるが、毛の色の薄い人では22:4:0である。有意差はないが、このSNPは、その有用性本文中に記載されているTYR3L105ハプロタイプ系の一部である。
Figure 2004537292
[表も正当性の理由も提示されない]
Figure 2004537292
正当性の理由:毛の色の濃い人におけるAA:GA:GG遺伝子型の比は59:11:1であるが、毛の色の薄い人では14:5:0である。したがって、Gアレルは毛の色の薄い個体により高い頻度で認められる。
Figure 2004537292
正当性の理由:毛の色の濃い人におけるGG:GA:AA遺伝子型の比は64:4:0であるが、毛の色の薄い人では23:3:0である。Aアレルの頻度は毛の色の薄い群の方が幾分高いが、このSNPは、その有用性が本文中に記載されているTYR3L105ハプロタイプ系の一部である。
Figure 2004537292
マーカー710
DCT1028805、公開DCT配列NT_009952における3146161位
マーカー702
DCT1028806、公開DCT配列NT_009952における3146003位
マーカー650
DCT2892681、公開DCT配列NT_009952における3165290位
マーカー675
DCT2O31527、公開DCT配列NT_009952における配列3141513
Figure 2004537292
【0602】
(表18-2) さまざまな毛の色の濃淡に関する遺伝的特徴抽出表
Figure 2004537292
1. OCA2遺伝子:マーカー217455、712057、712060、886896、712054、712056、217458、886895、886892、および886894
2. TYR遺伝子:認められず。
3. TYRP遺伝子:マーカー217485、217486、886943
4. DCT遺伝子:マーカー
【0603】
(表18-3)
Figure 2004537292
1-サイレント−アミノ酸変化なし、イントロン−SNPが非コード配列に認められた。
2-DbSNP−候補遺伝子配列がNCBI:dbSNPに02/15/02時点で存在する。再シークエンシング−SNP配列が本文中に説明した再シークエンシング作業によって発見された。
3-Valverdeら、1995;Frandbergら、1998およびSchiothら、1999。
* コード化の変化の状態は特許提出の時点ではまだ知られていない。
【図面の簡単な説明】
【0604】
【図1】ヒト集団において観察されるハプロタイプを、ハプロタイプ間の進化上の関係が識別可能なように表現しうることを示した、分岐図または最節約樹である。この図において、別のものから1つの変異段階を経たハプロタイプは線によって区分され、遺伝子内の二多型性位置は二進法形式(1および0)で表されている。
【図2】本明細書の実施例6に記載されているOCA2 8ハプロタイプのグラフである。簡便性の点からプロットは二次元となっており、第3の次元は、TYR_3遺伝子型(OCA2ハプロタイプ対の3つのクラスに関する)のものは太字で示されている。各々の線は、本文中に述べたように、コードされるハプロタイプの二倍体セットを表している。2つまたはそれ以上の線の起点が同じ座標位置に位置する場合には、描写を簡便にするために線を並べて配置した。例えば、プロットの左上方領域に並んで配置されている、四角印も円印もない6本の線は、毛の色が褐色である異なる個体におけるOCA2ハプロタイプの同じ組み合わせを表している。グリッド内の第3の次元は個体のTYR_3遺伝子型であり、この遺伝子型はプロット内に3つの個別のタイプ(図を扱いやすく保つために3つのみ)に関して示されている。
【図3】未知のDNA標本から天然の毛の色を予測するための複合的なソリューションを示している(実施例7参照)。この特定のソリューションにより、毛の色の濃い白人個体が95%の確率、毛の色の薄い個体が70%の確率で正しく分類された。
【図4】実施例8に記載されているOCA3LOC 109ハプロタイプに関する分岐図および分岐表示である。ハプロタイプは三ヌクレオチド配列として示されており、ハプロタイプの名称は配列の上に記載がある。ハプロタイプは両方向矢印の両側にある改変ヌクレオチドによって示される段階的変異により、分岐図において互いに関連づけられている。二段階分岐表示(II=1、II=2)は、図の上方の点線の上に示されている。
【図5】実施例8に示されているOCA3LOC920ハプロタイプに関する分岐図および分岐表示である。ハプロタイプは三ヌクレオチド配列として示されており、ハプロタイプの名称は配列の上に記載がある。ハプロタイプは両方向矢印の両側にある改変ヌクレオチドによって示される段階的変異により、分岐図において互いに関連づけられている。二段階分岐表示(II=1、II=2)は、図の上方の点線の上に示されている。
【図6】実施例11に記載されている、OCA2ハプロタイプに関する分岐図である。
【図7】実施例11に記載されている、OCA3LOC922に関する分岐図である。
【図8】実施例11に記載されている、OCA3LOC922に関する分岐図である。

Claims (111)

  1. ヒト対象の遺伝的体色形質を対象の核酸試料から推測するための方法であって、核酸試料において少なくとも1つの体色遺伝子の少なくとも1つの体色関連ハプロタイプアレルを同定する段階を含み、体色遺伝子が、眼皮膚型白皮症II(OCA2)、チロシナーゼ関連タンパク質1(TYRP1)、チロシナーゼ(TYR)、アダプター関連タンパク質複合体3 β1サブユニット(AP3B1)、アダプチンB1タンパク質(ADP1)、アダプチン3 Dサブユニット1(AP3D1)、ドパクロムタウトメラーゼ(DCT)、シルバーホモログ(SILV)、AIM-1タンパク質(LOC51151)、プロオピオメラノコルチン(POMC)、眼型白皮症1(OA1)、小眼球症関連転写因子(MITF)、ミオシンVA(MYO5A)、RAB27A、または凝固第II因子(トロンビン)受容体様(receptor-like)1(F2RL1)であり、ハプロタイプアレルが体色形質と関連づけられていて、それによって対象の遺伝的体色形質が推測されるような方法。
  2. 体色遺伝子にOCA2、ASIP、TYRP1、TYR、SILV AP3B1、AP3D1、またはDCTの少なくとも1つが含まれ、体色関連ハプロタイプアレルが浸透性体色関連ハプロタイプアレルである、請求項1記載の方法。
  3. 核酸試料において、少なくとも第2の体色遺伝子の少なくとも1つの体色関連ハプロタイプアレルを同定する段階をさらに含む、請求項2記載の方法。
  4. 少なくとも第2の体色遺伝子がOCA2、ASIP、TYRP1、TYR、AP3B1、AP3D1、DCT、SILV、LOC51151、POMC、OA1、MITF、MYO5A、RAB27A、F2RL1、アグーチシグナル伝達タンパク質(ASIP)、またはメラノコルチン-1受容体(MC1R)である、請求項3記載の方法。
  5. 遺伝的体色形質が毛の色、毛の濃淡、眼の色、または眼の濃淡である、請求項1記載の方法。
  6. 対象がヒトであり、遺伝的体色形質が眼の色または眼の濃淡であり、浸透性体色関連ハプロタイプアレルが以下の少なくとも1つに存在する、請求項1記載の方法:
    a)DCT-Aハプロタイプに対応するDCT遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:1のヌクレオチド609、
    配列番号:2のヌクレオチド501、および
    配列番号:3のヌクレオチド256;
    b)OCA2-Aハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:7のヌクレオチド135、
    配列番号:8のヌクレオチド193、
    配列番号:9のヌクレオチド228、および
    配列番号:10のヌクレオチド245;
    c)OCA2-Bハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:11のヌクレオチド189、
    配列番号:12のヌクレオチド573、および
    配列番号:13のヌクレオチド245;
    d)OCA2-Cハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:14のヌクレオチド643、
    配列番号:15のヌクレオチド539、
    配列番号:16のヌクレオチド418、および
    配列番号:17のヌクレオチド795、
    e)OCA2-Dハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:18のヌクレオチド535、
    配列番号:19のヌクレオチド554、および
    配列番号:20のヌクレオチド210;
    f)OCA2-Eハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:21のヌクレオチド225、
    配列番号:22のヌクレオチド170、および
    配列番号:20のヌクレオチド210;または
    g)TYRP1-Bハプロタイプに対応するTYRP1遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:23のヌクレオチド172、および
    配列番号:24のヌクレオチド216;
    またはa)からg)までの任意の組み合わせ。
  7. 体色形質が眼の濃淡であり、体色関連ハプロタイプアレルがOCA2、TYRP1またはDCTの少なくとも1つに存在する、請求項2記載の方法。
  8. 対象がヒトであり、遺伝的体色形質が眼の色または眼の濃淡であり、浸透性体色関連ハプロタイプアレルが以下の少なくとも1つに存在する、請求項4記載の方法:
    a)DCT-Aハプロタイプに対応するDCT遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:1のヌクレオチド609、
    配列番号:2のヌクレオチド501、および
    配列番号:3のヌクレオチド256;
    b)メラノコルチン-1受容体(MC1R)-Aハプロタイプに対応するMC1R遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:4のヌクレオチド442、
    配列番号:5のヌクレオチド619、および
    配列番号:6のヌクレオチド646;
    c)OCA2-Aハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:7のヌクレオチド135、
    配列番号:8のヌクレオチド193、
    配列番号:9のヌクレオチド228、および
    配列番号:10のヌクレオチド245;
    d)OCA2-Bハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:11のヌクレオチド189、
    配列番号:12のヌクレオチド573、および
    配列番号:13のヌクレオチド245;
    e)OCA2-Cハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:14のヌクレオチド643、
    配列番号:15のヌクレオチド539、
    配列番号:16のヌクレオチド418、および
    配列番号:17のヌクレオチド795、
    f)OCA2-Dハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:18のヌクレオチド535、
    配列番号:19のヌクレオチド554、および
    配列番号:20のヌクレオチド210;
    g)OCA2-Eハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:21のヌクレオチド225、
    配列番号:22のヌクレオチド170、および
    配列番号:20のヌクレオチド210;または
    h)TYRP1-Bハプロタイプに対応するTYRP1遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:23のヌクレオチド172、および
    配列番号:24のヌクレオチド216;
    またはa)からh)までの任意の組み合わせ。
  9. 核酸試料において体色遺伝子の潜在性体色関連SNPの少なくとも1つのヌクレオチド・オカレンスを同定する段階を含み、潜在性体色関連SNPが、配列番号:25のヌクレオチド61、配列番号:26のヌクレオチド201、配列番号:27のヌクレオチド201、配列番号:28のヌクレオチド201、配列番号:29のヌクレオチド657、配列番号:30のヌクレオチド599、配列番号:31のヌクレオチド267、配列番号:32のヌクレオチド61、配列番号:33のヌクレオチド451;配列番号:34のヌクレオチド326、配列番号:35のヌクレオチド61、配列番号:36のヌクレオチド61、配列番号:37のヌクレオチド61、配列番号:38のヌクレオチド93、配列番号:39のヌクレオチド114、配列番号:40のヌクレオチド558、配列番号:41のヌクレオチド221、配列番号:42のヌクレオチド660、配列番号:43のヌクレオチド163、配列番号:44のヌクレオチド364、配列番号:45のヌクレオチド473、配列番号:46のヌクレオチド314、配列番号:47のヌクレオチド224、配列番号:48のヌクレオチド169、配列番号:49のヌクレオチド214、もしくは配列番号:50のヌクレオチド903;またはそれらの組み合わせである、請求項8記載の方法。
  10. 核酸試料において体色遺伝子の少なくとも1つの潜在性体色関連ハプロタイプアレルを同定する段階をさらに含み、潜在性体色関連ハプロタイプアレルが以下のものである、請求項8記載の方法:
    i)ASIP-Aハプロタイプに対応するASIP遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:26のヌクレオチド201、および
    配列番号:28のヌクレオチド201;
    j)DCT-Bハプロタイプに対応するDCT遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:33のヌクレオチド451、および
    配列番号:29のヌクレオチド657;
    k)SILV-Aハプロタイプに対応するSILV遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:35のヌクレオチド61、および
    配列番号:36のヌクレオチド61;
    l)TYR-Aハプロタイプに対応するTYR遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:38のヌクレオチド93、および
    配列番号:39のヌクレオチド114;または
    m)TYRP1-Aハプロタイプに対応するTYRP1遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:44のヌクレオチド364、
    配列番号:48のヌクレオチド169、および
    配列番号:49のヌクレオチド214、
    またはi)からm)までの任意の組み合わせ。
  11. MC1R-Aの体色関連ハプロタイプアレルがCCCである、請求項8記載の方法。
  12. OCA2-Aの体色関連ハプロタイプアレルがTTA、CCAGまたはTTAGである、請求項8記載の方法。
  13. OCA2-Bの体色関連ハプロタイプアレルがCAA、CGA、CACまたはCGCである、請求項8記載の方法。
  14. OCA2-Cの体色関連ハプロタイプアレルがGGAA、TGAAまたはTAAAである、請求項8記載の方法。
  15. OCA2-Dの体色関連ハプロタイプアレルがAGGまたはGGGである、請求項8記載の方法。
  16. OCA2-Eの体色関連ハプロタイプアレルがGCAである、請求項8記載の方法。
  17. TYRP1-Bの体色関連ハプロタイプアレルがTCである、請求項8記載の方法。
  18. DCT-Aの体色関連ハプロタイプアレルがCTGまたはGTGである、請求項8記載の方法。
  19. ASIP-Aの体色関連ハプロタイプアレルがGTまたはATである、請求項10記載の方法。
  20. DCT-Bの体色関連ハプロタイプアレルがTAまたはTGである、請求項10記載の方法。
  21. SILV-Aの体色関連ハプロタイプアレルがTC、TTまたはCCである、請求項20記載の方法。
  22. TYR-Aの体色関連ハプロタイプアレルがGA、AAまたはGGである、請求項10記載の方法。
  23. TYRP1-Bの体色関連ハプロタイプアレルがGTG、TTGまたはGTTである、請求項10記載の方法。
  24. 同定される少なくとも1つの浸透性体色関連ハプロタイプアレルが、MC1R-Aハプロタイプ、OCA2-Aハプロタイプ、OCA2-Bハプロタイプ、OCA2-Cハプロタイプ、OCA2-Dハプロタイプ、OCA2-Eハプロタイプ、TYRP1-BハプロタイプおよびDCT-Bハプロタイプを含む、請求項8記載の方法。
  25. 対象が白人であり、遺伝的体色形質が眼の濃淡または眼の色であり、浸透性体色関連ハプロタイプアレルが以下のものである、請求項24記載の方法:
    a)MC1R-AハプロタイプアレルCCC;
    b)OCA2-AハプロタイプアレルTTAA、CCAGまたはTTAG;
    c)OCA2-BハプロタイプアレルCAA、CGA、CACまたはCGC;
    d)OCA2-CハプロタイプアレルGGAA、TGAAまたはTAAA;
    e)OCA2-DハプロタイプアレルAGGまたはGGG;
    f)OCA2-EハプロタイプアレルGCA;
    g)TYRP1-BハプロタイプアレルTC;および
    h)DCT-BハプロタイプアレルCTGまたはGTG。
  26. 核酸試料において以下のアレルを同定する段階を含む、請求項10記載の方法:
    MC1R-Aハプロタイプ、OCA2-Aハプロタイプ、OCA2-Bハプロタイプ、OCA2-Cハプロタイプ、OCA2-Dハプロタイプ、OCA2-Eハプロタイプ、TYRP1-BハプロタイプおよびDCT-Bハプロタイプ;ならびに
    ASTP-Aハプロタイプ、DCT-Bハプロタイプ、SILV-Aハプロタイプ、TYR-AハプロタイプおよびTYRP1-Aハプロタイプ。
  27. 浸透性体色関連ハプロタイプアレルの組み合わせが、
    a)MC1R-AハプロタイプアレルCCC;
    b)OCA2-AハプロタイプアレルTTAA、CCAGまたはTTAG;
    c)OCA2-BハプロタイプアレルCAA、CGA、CACまたはCGC;
    d)OCA2-CハプロタイプアレルGGAA、TGAAまたはTAAA;
    e)OCA2-DハプロタイプアレルAGGまたはGGG;
    f)OCA2-EハプロタイプアレルGCA;
    g)TYRP1-BハプロタイプアレルTC;および
    h)DCT-BハプロタイプアレルCTGまたはGTGであって、
    潜在性体色関連ハプロタイプアレルの組み合わせが、
    i)ASIP-AハプロタイプアレルGTまたはAT;
    j)DCT-BハプロタイプアレルTAまたはTG;
    k)SILV-AハプロタイプアレルTC、TTまたはCC;
    l)TYR-AハプロタイプアレルGA、AAまたはGG;および
    m)TYRP1-BハプロタイプアレルGTG、TTGまたはGTTである、請求項26記載の方法。
  28. 色素関連ハプロタイプアレルを、フィーチャーモデリング用アルゴリズムを用いて作成された行列または分割表に適用する段階をさらに含む、請求項8記載の方法。
  29. フィーチャーモデリング用アルゴリズムが二次分類器である、コレスポンデンス分析を行う、または二次分類器であってかつコレスポンデンス分析を行う、請求項28記載の方法。
  30. 体色遺伝子がMC1Rをさらに含む、請求項5記載の方法。
  31. 体色遺伝子がMC1Rをさらに含む、請求項6記載の方法。
  32. 体色遺伝子がMC1Rをさらに含む、請求項7記載の方法。
  33. 同定が増幅反応を用いて行われる、請求項1記載の方法。
  34. 同定がプライマー伸長反応を用いて行われる、請求項1記載の方法。
  35. 同定がイムノアッセイ法を用いて行われる、請求項1記載の方法。
  36. ヒト対象の人種をヒト対象の核酸試料から推測するための方法であって、核酸試料において、人種関連遺伝子の少なくとも1つの人種関連単一ヌクレオチド多型(SNP)のヌクレオチド・オカレンスを同定する段階を含み、人種関連SNPのヌクレオチド・オカレンスが人種と関連づけられていて、それによって対象の人種が推測されるような方法。
  37. 人種関連遺伝子が、眼皮膚型白皮症II(OCA2)、アグーチシグナル伝達タンパク質(ASIP)、CYP2D6、チロシナーゼ関連タンパク質1(TYRP1)、シトクロムp450-2(CYP2C9)、シトクロムp450-3(CYP3A4)、チロシナーゼ(TYR)、アダプター関連タンパク質複合体3 β1サブユニット(AP3B1)、AP3D1、ドパクロムタウトメラーゼ(DCT)、シルバーホモログ(SILV)、AIM-1タンパク質(LOC51151)、プロオピオメラノコルチン(POMC)、眼型白皮症I(OA1)、小眼球症関連転写因子(MITF)、ミオシンVA(MYO5A)、RAB27A、凝固第II因子(トロンビン)受容体様1(F2RL1)、HMG CoAレダクターゼ(HMGCR)、ファルネシル二リン酸シンターゼ(FDPS)、アリール炭化水素レダクターゼ(AHR)、もしくはシトクロムp450-1(CYP1A1)、またはそれらの任意の組み合わせのうち少なくとも1つである、請求項36記載の方法。
  38. 少なくとも2つの人種関連SNPのヌクレオチド・オカレンスが同定され、同定された人種関連SNPのヌクレオチド・オカレンスを、人種との関係が知られている少なくとも1つの人種関連ハプロタイプアレルにグループ分けする段階をさらに含む、請求項37記載の方法。
  39. 核酸試料において、以下のうち少なくとも第2の体色遺伝子の少なくとも1つの体色関連ハプロタイプアレルを同定する段階をさらに含む、請求項38記載の方法:眼皮膚型白皮症II(OCA2)、アグーチシグナル伝達タンパク質(ASIP)、CYP2D6、チロシナーゼ関連タンパク質1(TYRP1)、シトクロムp450-2(CYP2C9)、シトクロムp450-3(CYP3A4)、チロシナーゼ(TYR)、メラノコルチン-1受容体(MC1R)、アダプター関連タンパク質複合体3、β1サブユニット(AP3B1)、AP3D1、ドパクロムタウトメラーゼ(DCT)、シルバーホモログ(SILV)、AIM-1タンパク質(LOC51151)、プロオピオメラノコルチン(POMC)、眼型白皮症1(OA1)、小眼球症関連転写因子(MITF)、ミオシンVA(MYO5A)、RAB27A、凝固第II因子(トロンビン)受容体様1(F2RL1)、HMG CoAレダクターゼ(HMGCR)、ファルネシル二リン酸シンターゼ(FDPS)、アリール炭化水素レダクターゼ(AHR)、もしくはシトクロムp450-1(CYP1A1)、またはそれらの任意の組み合わせ。
  40. 人種関連ハプロタイプが、以下の人種関連ハプロタイプの少なくとも1つである、請求項39記載の方法:
    a)DCT-Aハプロタイプに対応するDCT遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:1のヌクレオチド609、
    配列番号:2のヌクレオチド501、および
    配列番号:3のヌクレオチド256;
    b)MC1R-Aハプロタイプに対応するMC1R遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:4のヌクレオチド442、
    配列番号:5のヌクレオチド619、および
    配列番号:6のヌクレオチド646;または
    c)OCA2-Aハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:7のヌクレオチド135、
    配列番号:8のヌクレオチド193、
    配列番号:9のヌクレオチド228、および
    配列番号:10のヌクレオチド245;
    d)OCA2-Bハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:11のヌクレオチド189、
    配列番号:12のヌクレオチド573、および
    配列番号:13のヌクレオチド245;
    e)OCA2-Cハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:14のヌクレオチド643、
    配列番号:15のヌクレオチド539、
    配列番号:16のヌクレオチド418、および
    配列番号:17のヌクレオチド795、
    f)OCA2-Dハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:18のヌクレオチド535、
    配列番号:19のヌクレオチド554、および
    配列番号:20のヌクレオチド210;
    g)OCA2-Eハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:21のヌクレオチド225、
    配列番号:22のヌクレオチド170、および
    配列番号:20のヌクレオチド210;または
    h)TYRP1-Bハプロタイプに対応するTYRP1遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:23のヌクレオチド172、
    配列番号:24のヌクレオチド216;
    またはa)からh)までの任意の組み合わせ。
  41. 核酸試料において、人種関連遺伝子の少なくとも1つの人種関連ハプロタイプアレルを同定する段階をさらに含み、人種関連ハプロタイプアレルが以下のものを含む、請求項40記載の方法:
    i)ASIP-Aハプロタイプに対応するASIP遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:26のヌクレオチド201、および
    配列番号:28のヌクレオチド201;
    j)DCT-Bハプロタイプに対応するDCT遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:33のヌクレオチド451、および
    配列番号:29のヌクレオチド657;
    k)SILV-Aハプロタイプに対応するSILV遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:35のヌクレオチド61、および
    配列番号:36のヌクレオチド61;
    l)TYR-Aハプロタイプに対応するTYR遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:38のヌクレオチド93、および
    配列番号:39のヌクレオチド114;または
    m)TYRP1-Aハプロタイプに対応するTYRP1遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:44のヌクレオチド364、
    配列番号:48のヌクレオチド169、および
    配列番号:49のヌクレオチド214、
    またはi)からm)までの任意の組み合わせ。
  42. 同定される少なくとも1つの人種関連ハプロタイプアレルが、MC1R-Aハプロタイプ、OCA2-Aハプロタイプ、OCA2-Bハプロタイプ、OCA2-Cハプロタイプ、OCA2-Dハプロタイプ、OCA2-Eハプロタイプ、TYRP1-Bハプロタイプ、およびDCT-Bハプロタイプを含み、
    同定される少なくとも1つの人種関連ハプロタイプアレルが、ASIP-Aハプロタイプ、DCT-Bハプロタイプ、SILV-Aハプロタイプ、TYR-Aハプロタイプ、およびTYRP1-Aハプロタイプを含む、請求項41記載の方法。
  43. 人種関連ハプロタイプアレルが、
    a)MC1R-AハプロタイプアレルCCC;
    b)OCA2-AハプロタイプアレルTTAA、CCAGまたはTTAG;
    c)OCA2-BハプロタイプアレルCAA、CGA、CACまたはCGC;
    d)OCA2-CハプロタイプアレルGGAA、TGAAまたはTAAA;
    e)OCA2-DハプロタイプアレルAGGまたはGGG;
    f)OCA2-EハプロタイプアレルGCA;
    g)TYRP1-BハプロタイプアレルTC;および
    h)DCT-BハプロタイプアレルCTGまたはGTGであって、
    人種関連ハプロタイプアレルが、
    i)ASIP-AハプロタイプアレルGTまたはAT;
    j)DCT-BハプロタイプアレルTAまたはTG;
    k)SILV-AハプロタイプアレルTC、TTまたはCC;
    l)TYR-AハプロタイプアレルGA、AAまたはGG;および
    m)TYRP1-AハプロタイプアレルGTG、TTGまたはGTTである、請求項42記載の方法。
  44. 対象がヒトであり、浸透性体色関連ハプロタイプアレルが以下の少なくとも1つに存在する、請求項43記載の方法:
    a)ASIP-Bハプロタイプに対応するASIP遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:27のヌクレオチド202、および
    配列番号:25のヌクレオチド61、
    b)MC1R-Aハプロタイプに対応するMC1R遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:4のヌクレオチド442、
    配列番号:5のヌクレオチド619、および
    配列番号:6のヌクレオチド646;
    c)OCA2-Gハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:16のヌクレオチド418、
    配列番号:20のヌクレオチド210、および
    配列番号:10のヌクレオチド245;
    d)OCA2-Hハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:21のヌクレオチド225、
    配列番号:14のヌクレオチド643、および
    配列番号:8のヌクレオチド193;
    e)OCA2-Iハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:7のヌクレオチド135、および
    配列番号:19のヌクレオチド554;
    f)OCA2-Jハプロタイプに対応するOCA2遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:18のヌクレオチド535、および
    配列番号:9のヌクレオチド228;または
    g)TYRP1-Cハプロタイプに対応するTYRP1遺伝子のヌクレオチド、これには以下が含まれる:
    配列番号:45のヌクレオチド473、および
    配列番号:49のヌクレオチド214;
    またはそれらの任意の組み合わせ。
  45. 浸透性体色関連ハプロタイプアレルが以下のものである、請求項44記載の方法:
    a)ASIP-BハプロタイプアレルGAまたはAA;
    b)MC1R-AハプロタイプアレルCCC、CTC、TCCまたはCCT;
    c)OCA2-GハプロタイプアレルAGGまたはAGA;
    d)OCA2-HハプロタイプアレルAGTまたはATT;
    e)OCA2-IハプロタイプアレルTG;
    f)OCA2-JハプロタイプアレルGAまたはAA;および
    g)TYRP1-CハプロタイプアレルAAまたはTA。
  46. 核酸試料において体色遺伝子の少なくとも1つの潜在性体色関連SNPを同定する段階をさらに含む、請求項44記載の方法。
  47. 同定される少なくとも1つの浸透性体色関連ハプロタイプアレルが、ASIP-Bハプロタイプ、MC1R-Aハプロタイプ、OCA2-Gハプロタイプ、OCA2-Hハプロタイプ、OCA2-Iハプロタイプ、OCA2-JおよびTYRP1-Cハプロタイプを含む、請求項44記載の方法。
  48. ヒト対象の人種をヒト対象の核酸試料から推測するための方法であって、人種関連遺伝子からの少なくとも1つの人種関連単一ヌクレオチド多型(SNP)に関して、試料におけるヌクレオチド・オカレンスを同定する段階を含み、体色遺伝子が、眼皮膚型白皮症II(OCA2)、アグーチシグナル伝達タンパク質(ASIP)、チロシナーゼ関連タンパク質1(TYRP1)、チロシナーゼ(TYR)、アダプター関連タンパク質複合体3 β1サブユニット(AP3B1)、AP3D1、ドパクロムタウトメラーゼ(DCT)、シルバーホモログ(SILV)、AIM-1タンパク質(LOC51151)、プロオピオメラノコルチン(POMC)、眼型白皮症1(OA1)、小眼球症関連転写因子(MITF)、ミオシンVA(MY05A)、RAB27A、または凝固第II因子(トロンビン)受容体様1(F2RL1)であり、ヌクレオチド・オカレンスがヒト対象の人種と関連づけられていて、それによってヒト対象の人種が推測されるような方法。
  49. 核酸試料において、少なくとも第2の人種関連遺伝子の少なくとも第2の人種関連SNPに関して、少なくとも1つのヌクレオチド・オカレンスを同定する段階をさらに含む、請求項48記載の方法。
  50. 少なくとも第2の人種関連遺伝子が、OCA2、ASIP、TYRP1、TYR、AP3B1、AP3D1、DCT、SILV、LOC51151、POMC、OA1、MITF、MYO5A、RAB27A、F2RL1、メラノコルチン-1受容体(MCIR)、CYP2D6、CYP2C9、CYP3A4、AP3B1、HMGCR、FDPS、AHR、またはCYP1A1である、請求項49記載の方法。
  51. ヌクレオチド・オカレンスが、以下の少なくとも1つに関して決定される、請求項48記載の方法:
    配列番号:1のヌクレオチド609、配列番号:2のヌクレオチド501、配列番号:3のヌクレオチド256、配列番号:4のヌクレオチド442、配列番号:5のヌクレオチド619、配列番号:6のヌクレオチド646;配列番号:7のヌクレオチド135、配列番号:8のヌクレオチド193、配列番号:9のヌクレオチド228、配列番号:10のヌクレオチド245、配列番号:11のヌクレオチド189、配列番号:12のヌクレオチド573、配列番号:13のヌクレオチド245、配列番号:14のヌクレオチド643、配列番号:15のヌクレオチド539、配列番号:16のヌクレオチド418、配列番号:17のヌクレオチド795、配列番号:18のヌクレオチド535、配列番号:19のヌクレオチド554、配列番号:20のヌクレオチド210、配列番号:21のヌクレオチド225、配列番号:22のヌクレオチド170、配列番号:20のヌクレオチド210、配列番号:23のヌクレオチド172、配列番号:24のヌクレオチド216、配列番号:25のヌクレオチド61、配列番号:26のヌクレオチド201、配列番号:27のヌクレオチド201、配列番号:28のヌクレオチド201、配列番号:29のヌクレオチド657、配列番号:30のヌクレオチド599、配列番号:31のヌクレオチド267、配列番号:32のヌクレオチド61、配列番号:33のヌクレオチド451;配列番号:34のヌクレオチド326、配列番号:35のヌクレオチド61、配列番号:36のヌクレオチド61、配列番号:37のヌクレオチド61、配列番号:38のヌクレオチド93、配列番号:39のヌクレオチド114、配列番号:40のヌクレオチド558、配列番号:41のヌクレオチド221、配列番号:42のヌクレオチド660、配列番号:43のヌクレオチド163、配列番号:44のヌクレオチド364、配列番号:45のヌクレオチド473、配列番号:46のヌクレオチド314、配列番号:47のヌクレオチド224、配列番号:48のヌクレオチド169、配列番号:49のヌクレオチド214、または配列番号:50のヌクレオチド903、配列番号:51のヌクレオチド207、配列番号:52のヌクレオチド428、配列番号:48のヌクレオチド422、配列番号:54のヌクレオチド459、配列番号:55のヌクレオチド1528、配列番号:56のヌクレオチド1093、配列番号:57のヌクレオチド1274、配列番号:58のヌクレオチド1024、配列番号:59のヌクレオチド1159、配列番号:60のヌクレオチド484、配列番号:61のヌクレオチド619、配列番号:62のヌクレオチド551、配列番号:63のヌクレオチド1177、配列番号:64のヌクレオチド1185、配列番号:65のヌクレオチド1421、配列番号:66のヌクレオチド1466、配列番号:67のヌクレオチド1311、配列番号:68のヌクレオチド808、配列番号:69のヌクレオチド1005、配列番号:70のヌクレオチド743、配列番号:71のヌクレオチド418、配列番号:72のヌクレオチド884、配列番号:73のヌクレオチド744、配列番号:74のヌクレオチド360、配列番号:75のヌクレオチド455、配列番号:76のヌクレオチド519、配列番号:77のヌクレオチド277、配列番号:78のヌクレオチド227、配列番号:79のヌクレオチド270、配列番号:80のヌクレオチド216、配列番号:81のヌクレオチド172、配列番号:82のヌクレオチド176、配列番号:83のヌクレオチド145、配列番号:84のヌクレオチド164、配列番号:85のヌクレオチド166、配列番号:86のヌクレオチド213、配列番号:87のヌクレオチド218、配列番号:88のヌクレオチド157、配列番号:89のヌクレオチド837、配列番号:90のヌクレオチド229、配列番号:91のヌクレオチド160、またはそれらの任意の組み合わせ。
  52. ヒト対象の遺伝的体色形質をヒト対象の核酸試料から推測するための方法であって、体色遺伝子からの体色関連単一ヌクレオチド多型(SNP)に関して、試料におけるヌクレオチド・オカレンスを同定する段階を含み、体色遺伝子がメラノコルチン-1受容体(MC1R)およびアグーチシグナル伝達タンパク質(ASIP)以外のものであり、ヌクレオチド・オカレンスがヒト対象の体色形質と関連づけられていて、それによってヒト対象の体色形質が推測されるような方法。
  53. ヒト対象の遺伝的体色形質をヒト対象の核酸試料から推測するための方法であって、体色遺伝子からの少なくとも1つの体色関連単一ヌクレオチド多型(SNP)に関して、試料におけるヌクレオチド・オカレンスを同定する段階を含み、体色遺伝子が、眼皮膚型白皮症II(OCA2)、チロシナーゼ関連タンパク質1(TYRP1)、チロシナーゼ(TYR)、アダプター関連タンパク質複合体3 β1サブユニット(AP3B1)、AP3D1、ドパクロムタウトメラーゼ(DCT)、シルバーホモログ(SILV)、AIM-1タンパク質(LOC51151)、プロオピオメラノコルチン(POMC)、眼型白皮症1(OA1)、小眼球症関連転写因子(MITF)、ミオシンVA(MYO5A)、RAB27A、または凝固第II因子(トロンビン)受容体様1(F2RL1)であり、ヌクレオチド・オカレンスがヒト対象の体色形質と関連づけられていて、それによってヒト対象の体色形質が推測されるような方法。
  54. 少なくとも第2の体色遺伝子の少なくとも第2の体色関連SNPに関して、核酸試料における少なくとも1つのヌクレオチド・オカレンスを同定する段階をさらに含む、請求項53記載の方法。
  55. 少なくとも第2の体色遺伝子が、OCA2、アグーチシグナル伝達タンパク質(ASIP)、TYRP1、TYR、AP3B1、AP3D1、DCT、SILV、LOC51151、POMC、OA1、MITF、MYO5A、RAB27A、F2RL1、またはメラノコルチン-1受容体(MC1R)である、請求項54記載の方法。
  56. 遺伝的体色形質が毛の色、毛の濃淡、眼の色、または眼の濃淡である、請求項55記載の方法。
  57. 体色形質が眼の濃淡または眼の色であり、体色遺伝子または生体異物遺伝子がOCA2遺伝子、DCT遺伝子、MC1R-A遺伝子もしくはTYRP1遺伝子またはそれらの任意の組み合わせを含む、請求項53記載の方法。
  58. 体色形質が眼の色または眼の濃淡であり、ヌクレオチド・オカレンスが以下の少なくとも1つに関して決定される、請求項53記載の方法:
    配列番号:1ヌクレオチド609、配列番号:2のヌクレオチド501、配列番号:3のヌクレオチド256、配列番号:4のヌクレオチド442、配列番号:5のヌクレオチド619、配列番号:6のヌクレオチド646;配列番号:7のヌクレオチド135、配列番号:8のヌクレオチド193、配列番号:9のヌクレオチド228、配列番号:10のヌクレオチド245、配列番号:11のヌクレオチド189、配列番号:12のヌクレオチド573、配列番号:13のヌクレオチド245、配列番号:14のヌクレオチド643、配列番号:15のヌクレオチド539、配列番号:16のヌクレオチド418、配列番号:17のヌクレオチド795、配列番号:18のヌクレオチド535、配列番号:19のヌクレオチド554、配列番号:20のヌクレオチド210、配列番号:21のヌクレオチド225、配列番号:22のヌクレオチド170、配列番号:20のヌクレオチド210、配列番号:23のヌクレオチド172、もしくは配列番号:24のヌクレオチド216、またはそれらの任意の組み合わせ。
  59. ヌクレオチド・オカレンスが以下の少なくとも1つに関してさらに決定される、請求項58記載の方法:
    配列番号:25のヌクレオチド61、配列番号:26のヌクレオチド201、配列番号:27のヌクレオチド201、配列番号:28のヌクレオチド201、配列番号:29のヌクレオチド657、配列番号:30のヌクレオチド599、配列番号:31のヌクレオチド267、配列番号:32のヌクレオチド61、配列番号:33のヌクレオチド451、配列番号:34のヌクレオチド326、配列番号:35のヌクレオチド61、配列番号:36のヌクレオチド61、配列番号:37のヌクレオチド61、配列番号:38のヌクレオチド93、配列番号:39のヌクレオチド114、配列番号:40のヌクレオチド558、配列番号:41のヌクレオチド221、配列番号:42のヌクレオチド660、配列番号:43のヌクレオチド163、配列番号:44のヌクレオチド364、配列番号:45のヌクレオチド473、配列番号:46のヌクレオチド314、配列番号:47のヌクレオチド224、配列番号:48のヌクレオチド169、配列番号:49のヌクレオチド214、もしくは配列番号:50のヌクレオチド903、またはそれらの任意の組み合わせ。
  60. 遺伝的体色形質が毛の色であり、ヌクレオチド・オカレンスが以下の少なくとも1つに関して決定される、請求項53記載の方法:
    配列番号:27のヌクレオチド201、配列番号:25のヌクレオチド61、配列番号:4のヌクレオチド442、配列番号:5のヌクレオチド619、配列番号:6のヌクレオチド646、配列番号:16のヌクレオチド418、配列番号:20のヌクレオチド210、配列番号:10のヌクレオチド245、配列番号:21のヌクレオチド225、配列番号:14のヌクレオチド643、配列番号:8のヌクレオチド193、配列番号:7のヌクレオチド135、配列番号:19のヌクレオチド554、配列番号:18のヌクレオチド535、配列番号:9のヌクレオチド228、配列番号:45のヌクレオチド473、もしくは配列番号:49のヌクレオチド214;またはそれらの任意の組み合わせ。
  61. 対象が白人対象である、請求項58記載の方法。
  62. 対象が白人対象である、請求項59記載の方法。
  63. 対象が白人対象である、請求項60記載の方法。
  64. 遺伝子に関する体色関連SNPのヌクレオチド・オカレンスを少なくとも1つのハプロタイプアレルにグループ分けする段階、およびハプロタイプアレルを、遺伝的体色形質との関係が知られている既知のハプロタイプアレルと比較する段階をさらに含む、請求項59記載の方法。
  65. ヌクレオチド・オカレンスの同定が、試料中のポリヌクレオチドまたは試料に由来するポリヌクレオチドと、体色関連SNPを含むポリヌクレオチドの領域に選択的にハイブリダイズする特異的結合対のメンバーとを、結合対のメンバーが体色関連SNPまたはその付近に選択的に結合する条件下で接触させることによって行われる、請求項59記載の方法。
  66. 結合対のメンバーが抗体またはポリヌクレオチドである、請求項65記載の方法。
  67. 個体を共通の特性を有する群のメンバーとして分類するための方法であって、個体のポリヌクレオチドにおける単一ヌクレオチド多型(SNP)のヌクレオチド・オカレンスを同定する段階を含み、SNPが配列番号:45のヌクレオチド473、配列番号:47のヌクレオチド224、配列番号:46のヌクレオチド314、配列番号:20のヌクレオチド210、配列番号:9のヌクレオチド228、配列番号:10のヌクレオチド245、配列番号:48のヌクレオチド169、配列番号:49のヌクレオチド214、配列番号:13のヌクレオチド245、配列番号:8のヌクレオチド193、配列番号:23のヌクレオチド172、配列番号:24のヌクレオチド216、もしくは配列番号:50のヌクレオチド903、またはそれらの任意の組み合わせの少なくとも1つに対応し、それによって個体を分類する方法。
  68. 同定が増幅反応を用いて行われる、請求項67記載の方法。
  69. 同定がプライマー伸長反応を用いて行われる、請求項67記載の方法。
  70. ヒト体色遺伝子の単一ヌクレオチド多型(SNP)のヌクレオチド・オカレンスを検出するための方法であって、
    i)ポリヌクレオチドを含む試料を、特異的結合対のメンバーとともにインキュベートする段階であり、この際、特異的結合対のメンバーは、多型であると疑われるポリヌクレオチドまたはその付近と特異的に結合し、ポリヌクレオチドは、配列番号:45のヌクレオチド473、配列番号:47のヌクレオチド224、配列番号:46のヌクレオチド314、配列番号:20のヌクレオチド210、配列番号:9のヌクレオチド228、配列番号:10のヌクレオチド245、配列番号:48のヌクレオチド169、配列番号:49のヌクレオチド214、配列番号:13のヌクレオチド245、配列番号:8のヌクレオチド193、配列番号:23のヌクレオチド172、配列番号:24のヌクレオチド216、配列番号:50のヌクレオチド903、の少なくとも1つ、またはそれらの任意の組み合わせに対応するヌクレオチド・オカレンスの1つを含む;および
    ii)特異的結合対のメンバーの選択的結合を検出し、選択的結合がヌクレオチド・オカレンスの存在を示すことから、それによって多型に関するヌクレオチド・オカレンスを検出する段階、
    を含む方法。
  71. ポリヌクレオチド中に単一ヌクレオチド多型(SNP)を含むポリヌクレオチドを増幅するための単離されたプライマー対であって、順方向プライマーが一方の鎖のSNP位置の上流にあるポリヌクレオチドと選択的に結合し、逆方向プライマーが相補鎖のSNP位置の上流にあるポリヌクレオチドと選択的に結合し、SNP位置が以下のものに対応する、単離されたプライマー対:
    配列番号:45のヌクレオチド473、配列番号:47のヌクレオチド224、配列番号:46のヌクレオチド314、配列番号:20のヌクレオチド210、配列番号:9のヌクレオチド228、配列番号:10のヌクレオチド245、配列番号:48のヌクレオチド169、配列番号:49のヌクレオチド214、配列番号:13のヌクレオチド245、配列番号:8のヌクレオチド193、配列番号:23のヌクレオチド172、配列番号:24のヌクレオチド216、または配列番号:50のヌクレオチド903。
  72. ポリヌクレオチド中の単一ヌクレオチド多型(SNP)のヌクレオチド・オカレンスを決定するための単離されたプライマーであって、一方の鎖のSNP位置の上流にあるポリヌクレオチドと選択的に結合し、SNP位置が以下のものに対応する、単離されたプライマー:
    配列番号:45のヌクレオチド473、配列番号:47のヌクレオチド224、配列番号:46のヌクレオチド314、配列番号:20のヌクレオチド210、配列番号:9のヌクレオチド228、配列番号:10のヌクレオチド245、配列番号:169のヌクレオチド48、配列番号:49のヌクレオチド214、配列番号:13のヌクレオチド245、配列番号:8のヌクレオチド193、配列番号:23のヌクレオチド172、配列番号:24のヌクレオチド216、または配列番号:50のヌクレオチド903。
  73. プライマーの3'ヌクレオチドが体色関連SNPの1つのヌクレオチド・オカレンスに対して相補的である、請求項72記載のプライマー。
  74. ポリヌクレオチド中の単一ヌクレオチド多型(SNP)のヌクレオチド・オカレンスを決定するための単離されたプローブであって、体色関連SNPの特定のヌクレオチド・オカレンスを含むポリヌクレオチドと選択的に結合し、SNP位置が以下のものに対応する、単離されたプローブ:
    配列番号:45のヌクレオチド473、配列番号:47のヌクレオチド224、配列番号:46のヌクレオチド314、配列番号:20のヌクレオチド210、配列番号:9のヌクレオチド228、配列番号:10のヌクレオチド245、配列番号:48のヌクレオチド169、配列番号:49のヌクレオチド214、配列番号:13のヌクレオチド245、配列番号:8のヌクレオチド193、配列番号:23のヌクレオチド172、配列番号:24のヌクレオチド216、または配列番号:50のヌクレオチド903。
  75. ポリヌクレオチド中の単一ヌクレオチド多型(SNP)のヌクレオチド・オカレンスを決定するための単離された特異的結合対のメンバーであって、配列番号:45のヌクレオチド473、配列番号:47のヌクレオチド224、配列番号:46のヌクレオチド314、配列番号:20のヌクレオチド210、配列番号:9のヌクレオチド228、配列番号:10のヌクレオチド245、配列番号:48のヌクレオチド169、配列番号:49のヌクレオチド214、配列番号:13のヌクレオチド245、配列番号:8のヌクレオチド193、配列番号:23のヌクレオチド172、配列番号:24のヌクレオチド216、もしくは配列番号:50のヌクレオチド903、またはそれらの付近でポリヌクレオチドと特異的に結合する、特異的結合対のメンバー。
  76. ポリヌクレオチドプローブである、請求項75記載の特異的結合対のメンバー。
  77. 抗体である、請求項75記載の特異的結合対のメンバー。
  78. プライマー伸長反応のための基質である、請求項75記載の特異的結合対のメンバー。
  79. SNPを末端ヌクレオチドとして含む配列の箇所でポリヌクレオチドと選択的に結合する、請求項75記載の特異的結合対のメンバー。
  80. ヒトOCA2遺伝子の少なくとも30ヌクレオチドを含む単離されたポリヌクレオチドであって、配列番号:8のヌクレオチド193に対応するヌクレオチドにあるチミジン残基、配列番号:9のヌクレオチド228に対応するヌクレオチドにあるグアニジン残基、配列番号:20のヌクレオチド210に対応するヌクレオチドにあるシチジン残基、配列番号:10のヌクレオチド245に対応するヌクレオチドにあるチミジン残基、もしくは配列番号:13のヌクレオチド245に対応するヌクレオチドにあるアデノシン残基の少なくとも1つ、またはそれらの組み合わせを含む、ポリヌクレオチド。
  81. ヒトTYRP遺伝子の少なくとも30ヌクレオチドを含む単離されたポリヌクレオチドであって、配列番号:23のヌクレオチド172に対応するヌクレオチドにあるチミジン残基、配列番号:24のヌクレオチド216に対応するヌクレオチドにあるチミジン残基、配列番号:45のヌクレオチド473に対応するヌクレオチドにあるチミジン残基、配列番号:47のヌクレオチド224に対応するヌクレオチドにあるシチジン残基、配列番号:46のヌクレオチド314に対応するヌクレオチドにあるグアニジン残基、配列番号:48のヌクレオチド169に対応するヌクレオチドにあるシチジン残基、配列番号:49のヌクレオチド214に対応するヌクレオチドにあるチミジン残基もしくは配列番号:50のヌクレオチド903に対応するヌクレオチドにあるアデノシン残基の2つもしくはそれ以上、またはそれらの組み合わせを含む、ポリヌクレオチド。
  82. 少なくとも30ヌクレオチド長の単離されたポリヌクレオチドであって、
    a)ヌクレオチドCTGもしくはGTGが、配列番号:1のヌクレオチド609、配列番号:2のヌクレオチド501、および配列番号:3のヌクレオチド256のそれぞれに対応する位置に存在する、ドパクロムタウトメラーゼ(DCT)遺伝子のセグメント;
    b)ヌクレオチドCCCが、配列番号:4のヌクレオチド442、配列番号:5のヌクレオチド619、および配列番号:6のヌクレオチド646のそれぞれに対応する位置に存在する、メラノコルチン-1受容体(MC1R)遺伝子のセグメント;
    c)ヌクレオチドTTAA、CCAGもしくはTTAGが、配列番号:7のヌクレオチド135、配列番号:8のヌクレオチド193、配列番号:9のヌクレオチド228、および配列番号:10のヌクレオチド245のそれぞれに対応する位置に存在する、眼皮膚型白皮症II(OCA2)遺伝子のセグメント;
    d)ヌクレオチドCAA、CGA、CACもしくはCGCが、配列番号:11のY位、配列番号:12の573位、および配列番号:13の245位のそれぞれに対応する位置に存在する、OCA2遺伝子のセグメント;
    e)ヌクレオチドGGAA、TGAAおよびTAAAが、配列番号:14のヌクレオチド643、配列番号:15のヌクレオチド539、配列番号:16のヌクレオチド418、および配列番号:17のヌクレオチド795のそれぞれに対応する位置に存在する、OCA2遺伝子のセグメント;
    f)ヌクレオチドAGGもしくはGGGが、配列番号:18のヌクレオチド535、配列番号:19のヌクレオチド554、および配列番号:20のヌクレオチド210のそれぞれに対応する位置に存在する、OCA2遺伝子のセグメント;
    g)ヌクレオチドGCAが、配列番号:21のヌクレオチド225、配列番号:22のヌクレオチド170、および配列番号:20のヌクレオチド210のそれぞれに対応する位置に存在する、OCA2遺伝子のセグメント;または
    h)ヌクレオチドTCが配列番号:23のヌクレオチド172、および配列番号:24のヌクレオチド216のそれぞれに対応する位置に存在する、チロシナーゼ関連タンパク質1(TYRP1)遺伝子のセグメント、
    を含む、単離されたセグメント。
  83. OCA2遺伝子に由来し、c〜gの任意の組み合わせを含む、請求項82記載の単離されたポリヌクレオチド。
  84. 長さが少なくとも30位である単離されたポリヌクレオチドであって、
    a)ヌクレオチドGTもしくはATが、配列番号:26のヌクレオチド201、および配列番号:28のヌクレオチド201のそれぞれに対応する位置に存在する、ASIP遺伝子のセグメント;
    b)ヌクレオチドTAもしくはTGが、配列番号:33のヌクレオチド451、および配列番号:29のヌクレオチド356のそれぞれに対応する位置に存在する、DCT遺伝子のセグメント;
    c)ヌクレオチドTC、TTもしくはCCが、配列番号:35のヌクレオチド61、および配列番号:36のヌクレオチド61のそれぞれに対応する位置に存在する、SILV遺伝子のセグメント;
    d)ヌクレオチドGA、AAもしくはGGが、配列番号:38のヌクレオチド93、および配列番号:39のヌクレオチド114のそれぞれに対応する位置に存在する、TYR遺伝子のセグメント;または
    e)ヌクレオチドGTG、TTGもしくはGTTが、配列番号:44のヌクレオチド442、配列番号:44のヌクレオチド442、および配列番号:49のヌクレオチド442のそれぞれに対応する位置に存在する、TYRP1遺伝子のセグメント、
    を含む、単離されたセグメント。
  85. 長さが少なくとも30位である単離されたポリヌクレオチドであって、
    a)ヌクレオチドGAもしくはAAが、配列番号:27のヌクレオチド201、および配列番号:25のヌクレオチド61のそれぞれに対応する位置に存在する、ASIP遺伝子のセグメント;
    b)ヌクレオチドCCC、CTC、TCCもしくはCCTが、配列番号:4のヌクレオチド442、配列番号:5のヌクレオチド619、および配列番号:6のヌクレオチド646のそれぞれに対応する位置に存在する、MC1R遺伝子のセグメント;
    c)ヌクレオチドAGGもしくはAGAが、配列番号:16のヌクレオチド418、配列番号:20のヌクレオチド210、および配列番号:10のヌクレオチド245のそれぞれに対応する位置に存在する、OCA2遺伝子のセグメント;
    d)ヌクレオチドAGTもしくはATTが、配列番号:21のヌクレオチド225、配列番号:14のヌクレオチド643および配列番号:8のヌクレオチド193のそれぞれに対応する位置に存在する、OCA2遺伝子セグメント;
    e)ヌクレオチドTGが、配列番号:7のヌクレオチド135、および配列番号:19のヌクレオチド554のそれぞれに対応する位置に存在する、OCA2遺伝子のセグメント;
    f)ヌクレオチドGAもしくはAAが、配列番号:18のヌクレオチド535、および配列番号:9のヌクレオチド228のそれぞれに対応する位置に存在する、OCA2遺伝子のセグメント;または
    g)ヌクレオチドAAもしくはTAが、配列番号:45のヌクレオチド442、および配列番号:49のヌクレオチド442のそれぞれに対応する位置に存在する、TYRP1遺伝子のセグメント、
    を含む、単離されたポリヌクレオチド。
  86. OCA2遺伝子に由来し、c〜fの任意の組み合わせを含む、請求項85記載の単離されたポリヌクレオチド。
  87. ポリヌクレオチドが少なくとも50ヌクレオチド長である、請求項80〜84のいずれか一項記載の方法。
  88. ポリヌクレオチドが少なくとも100ヌクレオチド長である、請求項80〜84のいずれか一項記載の方法。
  89. ポリヌクレオチドが少なくとも200ヌクレオチド長である、請求項80〜84のいずれか一項記載の方法。
  90. ポリヌクレオチドが少なくとも250ヌクレオチド長である、請求項80〜84のいずれか一項記載の方法。
  91. ポリヌクレオチドが少なくとも500ヌクレオチド長である、請求項80〜84のいずれか一項記載の方法。
  92. 推測が、分類アルゴリズムを用いた分類を行うことによって行われる、請求項3記載の方法。
  93. 分類アルゴリズムがコレスポンデンス分析を用いる、請求項92記載の方法。
  94. 推測が、分類アルゴリズムを用いた分類を行うことによって行われる、請求項8記載の方法。
  95. 推測が、分類アルゴリズムを用いた分類を行うことによって行われる、請求項10記載の方法。
  96. 推測が、分類アルゴリズムを用いた分類を行うことによって行われる、請求項54記載の方法。
  97. 体色関連単一ヌクレオチド多型(SNP)の少なくとも1つのハプロタイプアレルを同定するためのキットであって、請求項71記載の単離されたプライマー対を含むキット。
  98. プライマー対を用いてポリヌクレオチドを増幅するための試薬をさらに含む、請求項97記載のキット。
  99. 体色関連単一ヌクレオチド多型(SNP)の少なくとも1つのハプロタイプアレルを同定するためのキットであって、請求項74記載の単離されたオリゴヌクレオチドプローブ、請求項72記載の単離されたプライマー、もしくは請求項71記載の単離されたプライマー対、またはそれらの組み合わせを含むキット。
  100. プライマー対を用いてポリヌクレオチドを増幅するための試薬をさらに含む、請求項99記載のキット。
  101. 試薬が以下のものを含む、請求項100記載のキット:
    a)単離されたオリゴヌクレオチドプローブ、プライマー、もしくはプライマー対を標識するために用いうる、または単離されたオリゴヌクレオチドプローブ、プライマー、もしくはプライマー対を用いて生成される産物に組み込まれうる、少なくとも1つの検出可能な標識;または
    b)少なくとも1つのポリメラーゼ、リガーゼ、もしくはエンドヌクレアーゼ、またはそれらの組み合わせ。
  102. 少なくとも1つの体色関連SNPまたは人種関連SNPを含む体色関連遺伝子または人種関連遺伝子の一部分に対応する少なくとも1つのポリヌクレオチドをさらに含む、請求項101記載のキット。
  103. 請求項G2記載の単離されたプライマーおよび請求項G4記載の単離されたプライマー対を含む、請求項100記載のキット。
  104. 対象の体色形質を推測する分類器機能を決定するための方法であって、
    i)統一性のある遺伝パターンを示すアレルを有し、少なくとも1つの人種におけるマイナーアレル頻度が0.01よりも大きい、少なくとも1つの体色遺伝子の少なくとも1つの候補SNPを同定し、それによって少なくとも1つのバリデートされたSNPを同定する段階;
    ii)少なくとも1つのバリデートされたSNPが、体色表現型または人種のクラスが異なる個体間で有意に異なる遺伝子型分布およびアレル頻度を示すことを決定する段階;ならびに
    iii)線形、二次、コレスポンデンス分析、または分類ツリー多変量モデル化を用いて、既知の体色を有する他の個体へと盲目的に一般化される少なくとも1つのバリデートされたSNPまたはバリデートされたSNPの組み合わせを組み入れた抽出分類器機能を開発し、それによって体色に関連した分類戦略を決定する段階、
    を含む方法。
  105. 対象の人種を推測するための分類器機能を決定するための方法であって、
    i)統一性のある遺伝パターンを示すアレルを含む遺伝子型クラスを有し、少なくとも1つの人種におけるマイナーアレル頻度が0.01よりも大きい、少なくとも1つの人種関連遺伝子の少なくとも1つの候補SNPを同定し、それによって少なくとも1つのバリデートされたSNPを同定する段階;
    ii)少なくとも1つのバリデートされたSNPが、体色表現型または人種のクラスが異なる個体間で有意に異なる遺伝子型分布およびアレル頻度を示すことを決定する段階;ならびに
    iii)線形、二次、コレスポンデンス分析、または分類ツリー多変量モデル化を用いて、人種が判明している他の個体へと盲目的に一般化される少なくとも1つのバリデートされたSNPまたはバリデートされたSNPの組み合わせを組み入れた抽出分類器機能を開発し、それによって対象の人種を推測するための分類器機能を決定する段階、
    を含む方法。
  106. 試料を分類するための方法であって、
    a)考えられるすべての形質クラスの対に関して、遺伝分散/共分散行列を計算する段階;
    b)ベクトル成分が2進コード、コレスポンデンス分析の主座標、コレスポンデンス分析の因子スコアまたはコレスポンデンス分析の標準座標である、クラス平均値ベクトルの組み合わせを作成する段階;
    c)n次元試料ベクトルとして試料を表現する段階;および
    d)クラス平均値ベクトルの組み合わせから、試料からの距離が最も短いクラス平均値ベクトルを同定することにより、試料を分類する段階、
    を含む方法。
  107. クラスが眼の色、眼の濃淡、毛の色または人種である、請求項106記載の方法。
  108. クラスが人種である、請求項106記載の方法。
  109. クラスが眼の濃淡である、請求項106記載の方法。
  110. クラスが眼の色である、請求項106記載の方法。
  111. クラスが毛の色である、請求項106記載の方法。
JP2003500216A 2001-05-25 2002-05-28 体色形質を推測するための組成物および方法 Pending JP2004537292A (ja)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US29356001P 2001-05-25 2001-05-25
US30018701P 2001-06-21 2001-06-21
US31078101P 2001-08-07 2001-08-07
US32366201P 2001-09-17 2001-09-17
US34441801P 2001-10-26 2001-10-26
US33467401P 2001-11-15 2001-11-15
US34630302P 2002-01-02 2002-01-02
PCT/US2002/016789 WO2002097047A2 (en) 2001-05-25 2002-05-28 Compositions and methods for the inference of pigmentation traits

Publications (2)

Publication Number Publication Date
JP2004537292A true JP2004537292A (ja) 2004-12-16
JP2004537292A5 JP2004537292A5 (ja) 2006-01-05

Family

ID=27569616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003500216A Pending JP2004537292A (ja) 2001-05-25 2002-05-28 体色形質を推測するための組成物および方法

Country Status (5)

Country Link
US (2) US20030211486A1 (ja)
EP (2) EP1423531A4 (ja)
JP (1) JP2004537292A (ja)
CA (1) CA2448569A1 (ja)
WO (1) WO2002097047A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009504189A (ja) * 2005-08-16 2009-02-05 メルロジェン, エルエルシー メルル遺伝子の識別のための方法
US20200143908A1 (en) * 2016-07-30 2020-05-07 Battelle Memorial Institute Systems and methods using dna sequence strings as a common data format for forensic dna typing applications

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2486789A1 (en) 2001-06-29 2003-01-09 Dnaprint Genomics, Inc. Compositions and methods for inferring a response to a statin
FR2853532A1 (fr) * 2003-04-08 2004-10-15 Oreal Genes des chromosomes 6 et 9 impliques dans la canitie precoce
CA2496155A1 (en) * 2002-08-19 2004-02-26 Dnaprint Genomics, Inc. Compositions and methods for inferring ancestry
US20050065809A1 (en) * 2003-07-29 2005-03-24 Blackbaud, Inc. System and methods for maximizing donations and identifying planned giving targets
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
FR2864899A1 (fr) * 2004-01-08 2005-07-15 Oreal Differents genes impliques dans la canitie precoce
WO2005068650A2 (en) * 2004-01-08 2005-07-28 L'oreal Various human chromosomal regions implicated in premature canities
FR2865217B1 (fr) * 2004-01-15 2012-10-19 Oreal Polymorphismes du chromosome 9 impliques dans la canitie precoce
DE602005006727D1 (de) * 2004-01-15 2008-06-26 Oreal Mit vorzeitiger canities in verbindung gebrachte polymorphismen von chromosom 9
US20080193922A1 (en) * 2004-02-13 2008-08-14 Frudakis Tony N Methods and Compositions for Inferring Eye Color and Hair Color
ATE463584T1 (de) * 2004-02-19 2010-04-15 Helicos Biosciences Corp Verfahren zur analyse von polynukleotidsequenzen
US20070021918A1 (en) * 2004-04-26 2007-01-25 Georges Natsoulis Universal gene chip for high throughput chemogenomic analysis
US20060035250A1 (en) * 2004-06-10 2006-02-16 Georges Natsoulis Necessary and sufficient reagent sets for chemogenomic analysis
WO2006004659A1 (en) * 2004-06-30 2006-01-12 Applera Corporation Methods for analyzing short tandem repeats and single nucleotide polymorphisms
US7588892B2 (en) * 2004-07-19 2009-09-15 Entelos, Inc. Reagent sets and gene signatures for renal tubule injury
US20070198653A1 (en) * 2005-12-30 2007-08-23 Kurt Jarnagin Systems and methods for remote computer-based analysis of user-provided chemogenomic data
US20100021885A1 (en) * 2006-09-18 2010-01-28 Mark Fielden Reagent sets and gene signatures for non-genotoxic hepatocarcinogenicity
EP2195448B1 (en) * 2007-08-20 2013-03-13 Erasmus University Medical Center Rotterdam Method to predict iris color
US20100049665A1 (en) * 2008-04-25 2010-02-25 Christopher Allan Ralph Basel adaptive segmentation heuristics
US20100311033A1 (en) * 2009-06-09 2010-12-09 Jhilmil Jain Analytical measures for student-collected articles for educational project having a topic
KR101803980B1 (ko) 2011-08-03 2017-12-04 주식회사 엘지생활건강 민감성 피부 타입 유전자 다형성 마커 및 이의 용도
US9111144B2 (en) * 2011-09-15 2015-08-18 Identigene, L.L.C. Eye color paternity test
US9501522B2 (en) * 2012-08-17 2016-11-22 Sas Institute Inc. Systems and methods for providing a unified variable selection approach based on variance preservation
US9181583B2 (en) * 2012-10-23 2015-11-10 Illumina, Inc. HLA typing using selective amplification and sequencing
CZ2012793A3 (cs) * 2012-11-15 2014-04-09 Univerzita Karlova v Praze, Lékařská fakulta v Plzni Způsob predikce viditelných fenotypových znaků a biogeografického původu, zejména pro forenzní účely
US10210312B2 (en) * 2013-02-03 2019-02-19 Youscript Inc. Systems and methods for quantification and presentation of medical risk arising from unknown factors
KR101538052B1 (ko) * 2013-10-30 2015-07-21 경상북도 (관련부서:경상북도축산기술연구소장) Tyrp1 유전자 내의 단일염기다형성 마커를 이용한 닭의 품종 판별방법
AU2014348566B2 (en) 2013-11-13 2019-02-28 Five3 Genomics, Llc Systems and methods for transmission and pre-processing of sequencing data
KR102485223B1 (ko) * 2017-09-29 2023-01-05 (주)아모레퍼시픽 피부 색소 침착 예측용 유전자 다형성 마커 및 이의 용도
CN109680070B (zh) * 2018-11-01 2021-11-26 天津奥群牧业有限公司 一种与澳洲白绵羊蹄色极显著相关的snp标记、分子标记及应用
US11055380B2 (en) * 2018-11-09 2021-07-06 International Business Machines Corporation Estimating the probability of matrix factorization results
CN109680075B (zh) * 2019-01-11 2020-12-04 山东农业大学 一种基于基因型选择的比利时毛色家兔纯化方法
US11816834B2 (en) * 2020-01-06 2023-11-14 The Texas A&M University System Unmanned aerial system genotype analysis using machine learning routines
CA3178467A1 (en) * 2020-04-02 2021-10-07 Embark Veterinary, Inc. Methods and systems for determining pigmentation phenotypes
WO2022271636A1 (en) * 2021-06-22 2022-12-29 Evqlv, Inc. Computational characterization and selection of sequence variants
CN116626467B (zh) * 2023-05-31 2024-01-05 西安工程大学 快速检出硅光电倍增管芯片次品的检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009504189A (ja) * 2005-08-16 2009-02-05 メルロジェン, エルエルシー メルル遺伝子の識別のための方法
US20200143908A1 (en) * 2016-07-30 2020-05-07 Battelle Memorial Institute Systems and methods using dna sequence strings as a common data format for forensic dna typing applications
US11664088B2 (en) * 2016-07-30 2023-05-30 Battelle Memorial Institute Systems and methods using DNA sequence strings as a common data format for forensic DNA typing applications

Also Published As

Publication number Publication date
EP1423531A2 (en) 2004-06-02
CA2448569A1 (en) 2002-12-05
US20030211486A1 (en) 2003-11-13
WO2002097047A2 (en) 2002-12-05
EP1873257A2 (en) 2008-01-02
EP1423531A4 (en) 2005-06-08
US20070020651A1 (en) 2007-01-25
EP1873257A3 (en) 2008-03-19
WO2002097047A3 (en) 2004-04-01

Similar Documents

Publication Publication Date Title
JP2004537292A (ja) 体色形質を推測するための組成物および方法
JP6430998B2 (ja) 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法
Chen et al. Findings in an independent sample support an association between bipolar affective disorder and the G72/G30 locus on chromosome 13q33
US20070037182A1 (en) Multiplex assays for inferring ancestry
US20040229231A1 (en) Compositions and methods for inferring ancestry
CA2771330C (en) Methods and materials for canine breed identification
JP2008532496A (ja) 祖先を推論するための多重アッセイ
JP2012050432A (ja) 祖先を推論するための組成物および方法
Marsjan et al. Molecular markers, a tool for exploring genetic diversity
US20040023275A1 (en) Methods for genomic analysis
CA3173571A1 (en) Compositions, methods, and systems for paternity determination
AU2002312112A1 (en) Compositions and methods for the inference of pigmentation traits
Ornelas et al. Lack of genetic differentiation between two sympatric species of Astyanax (Characidae: Teleostei) in Lake Catemaco, Mexico
KR20220141659A (ko) 피부색 판단용 유전자 다형성 마커 및 이의 용도
Podini Document Title: Development of a SNP Assay Panel for Ancestral Origin Inference and Individuals Somatic Traits
Dumas Gene copy number variation in human and primate evolution
Babiker Microsatellite variation in populations from Sudan
GAUTAM et al. SINGH SATENDRA
Leboyer et al. Psychiatric genetics
Halushka Dissecting nucleotide variation in hypertension candidate genes
Parker Advancing canine genomics: From map building to population studies
Lavelle Autosomal haplotypes as markers for the histories and structures of human populations

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050523

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080512

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080724

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081015