JP2006503346A - 分類ツリー分析を含む遺伝子学的分類における使用のための方法および装置 - Google Patents

分類ツリー分析を含む遺伝子学的分類における使用のための方法および装置 Download PDF

Info

Publication number
JP2006503346A
JP2006503346A JP2003550120A JP2003550120A JP2006503346A JP 2006503346 A JP2006503346 A JP 2006503346A JP 2003550120 A JP2003550120 A JP 2003550120A JP 2003550120 A JP2003550120 A JP 2003550120A JP 2006503346 A JP2006503346 A JP 2006503346A
Authority
JP
Japan
Prior art keywords
genotype
trait
genetic
classification
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003550120A
Other languages
English (en)
Inventor
フルダキス,トニー・ニック
Original Assignee
ディーエヌエー・プリント・ジェノミックス・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ディーエヌエー・プリント・ジェノミックス・インコーポレイテッド filed Critical ディーエヌエー・プリント・ジェノミックス・インコーポレイテッド
Publication of JP2006503346A publication Critical patent/JP2006503346A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

遺伝形質に関連する少なくとも2種の遺伝子を含む遺伝形質分類において使用するための方法および装置を記載する。1つの例示的方法においては、遺伝形質に関連する複数の形質クラスのうちの1種に個人を分類する際に使用するための値を算出する。該値は、(1)個人に関して識別される少なくとも2種の遺伝子を含む複数の遺伝子型の各遺伝子型に関連する寄与度の合算値、ここで各遺伝子型に関する寄与度は、サンプル集団において識別される遺伝子型と各形質クラスとの間での統計学的関連性から少なくとも部分的に識別され、(2)個人において識別される少なくとも2種の遺伝子間の1または複数の遺伝子型の組合せに関連する寄与度の合算値、ここで、1または複数の遺伝子型の組合せの各々に関する寄与度は、サンプル集団中に識別される遺伝子型の組合せと各形質クラスとの間の統計学的関連性から少なくとも部分的に識別されるものであることに基づいて算出される。好都合には、上位性並びに付加性および優性度の影響を考慮することにより、より正確な遺伝形質分類を行う。

Description

関連出願の相互参照
本出願は、2001年12月3日に出願された「複合遺伝子学分類子を構築するための分類ツリー法」と題し米国特許出願第60/338,734号の優先権を主張するものである。
技術分野
本発明は遺伝子分類、特に、複合遺伝子学的方法を用いた盲検遺伝子学的分類に関する。
遺伝子学的分類の目的は、特定の遺伝形質(例えば眼球色)に関連した複数の遺伝形質クラス(例えばブラウン、ブルー、グリーン等)のうちの1種に個人を正確に分類することを可能にすることである。遺伝子学的分類試験は個人より得た遺伝子試料に基づいて個人がどの形質クラスに分類されるかを高精度で識別することが可能でなければならない。本出願は正確な遺伝子学的分類試験を創出または構築するための複合遺伝子学的分析およびソフトウエアの使用に関するものである。このような分類試験は特に個人化医薬および犯罪捜査の分野において高度に価値ある用途を有している。
本出願はより詳しくは「盲検的」遺伝子学的分類に関する。「盲検的遺伝子学的分類」とは、実際の分類ツールを構築する際には使用されていない個人の遺伝子サンプルの分類である。例えば1000サンプルを考える場合、分類モデルはそのうちの900から作成される。900個人の分類は1つのレベル(使用する遺伝子による)において行われ、そして残りの100の盲検的分類も同様に行わなければならない。しかしながら、盲検的分類はどのように良好に分類モデルが帰納するかに応じて、完全に行われなくてもよい。
遺伝子学またはゲノミクスの分析において用いられている既存の分類方法に伴う問題点の多くは、それらが良好なモデルを作成するものの、モデルが極めて良好に帰納するわけではないという点である。即ち、作成されるモデルは、データに「過剰フィット」している。このことは、これらの方法が複合遺伝子学的分析の特定の条件を考慮しながら開発されたものではないことを考えれば、当然である。例えば、一次判別法およびベイズ確率モデルは単一の遺伝子型の関連性の重要性を過大評価しており、このことは、それらが優性度および付加性の問題に対しても高感度であるが、ただし遺伝子学的に非一次の相互作用或いは上位性と称されるより高次の相互作用を無視していることを意味している。従って、盲検的試みの際は、それらは本明細書に記載した本発明の方法と比較して同じデータセットを用いた場合、期待はずれとなってしまう。
ある方法では複合遺伝子学的パラメータを測定(いわゆる「パラメトリック」法)しており、そのため多くの制約事項を有している。これらの一部は形質値に基づいて遺伝子変異体の付加、優性および相互作用の寄与度を定義している。これらの値を測定するために、プログラムは回帰分析を用いている。これらの方法はモデルの構築に用いられたサンプルに対して試験する場合は高度に正確であるように思われる。 しかし、理由は不明であるが、それらは盲検的分類には本明細書に記載する本発明の方法よりも帰納することがない傾向がある。これはおそらくパラメータの推定が、不十分なサンプルサイズに対し特に感受性があるためと思われる。
皮膚色の形質が2つの遺伝子AおよびBの機能であり、そして、各遺伝子が集団A1、A2、・・・、AnおよびB1、B2、・・・、Bnにおいて種々の形態(即ちハプロタイプ)を有すると仮定する。A1は常に暗色皮膚を特定するがA2はB1と対になった場合に暗色皮膚を、そしてB2と対になった場合に明色皮膚を特定する場合がある。このような場合、A1の影響は優性であり、A2の影響は相互作用的であるといえる。各人間は各遺伝子について2個のコピーを有する。ある人物はA1/A1およびB1/B1を有するが、別の人物はA1/A2およびB1/B3を有する場合がある。個人がA3のコピーを有さない場合、皮膚色は平均より暗色となり、個人がA3を1コピー有する場合は、皮膚色は常時、中間色となり、個人がA3を2コピー有する場合は、皮膚色は極めて明色となる。この場合、A3は皮膚色に対して付加的作用を有するといえる。
形質を決定する遺伝子の信頼性は高く知られているものの、形質の正確な分類を行うためにそれを使用することとは別の問題である。類比すれば、パズルのピースの完全なセットを持っているという理由のみで、それらをどのように嵌め合わせれば画像が構成されるか即座にわかるわけではない。大部分のヒトの形質は数種の遺伝子の付加、優性、および相互作用的影響の関数であり、形質に対する遺伝子の作用をこれら3種の影響に分解することにより、遺伝子学者は形質が特定の遺伝子変異体および遺伝子変異体の組合せによってどのように決定されるかを理解し易くしている。 各遺伝子の各形態が形質の決定にどのように関与しているかを理解することは、遺伝子学の研究者等の基本的な目標である。
このことを知れば、形質クラスに個人を分類することが可能である。可変薬剤応答、または疾患素因の分野において、このような能力は多大な社会的および経済的な意味を有する。形質予測のために遺伝子配列を用いる種々の方法がこれまで開発されており、例えば、一次判別分析およびベイズ分類が挙げられる。残念なことに、これらの方法では、遺伝子ごとの影響の微妙さに着目することや、個人の遺伝子型の影響を十分把握することは、殆どなされていない。
形質に影響する遺伝子の信頼性が高く知られているにもかかわらず遺伝子学的分類を行うことがなぜ困難であるかを説明する例を考える。この例においては、2種の遺伝子AおよびBを特定する。皮膚色調に関して658人に関する以下のサンプル「カウント」を仮定する。
Figure 2006503346
このデータからは、A1遺伝子型を有する人々は通常暗色皮膚を有するが、場合により中間色または明色を有し、A2を有する人々は通常は明色皮膚を有さないことが決定できる。この知識に基づいて分類すると、誤分類はA1個人では僅か28例であるが、A3個人では81例である。この例においては、A1/A1は明色ではない(正答105/108回)、A1/A2は明色ではない(正答55/57回)等のように遺伝子型に基づいて
分類規則を作成するほうがよい。
ここで以下のカウントを有するB遺伝子を考える。
Figure 2006503346
A変異体に沿ってこのようなB遺伝子変異体を考えることは、良好な分類を可能にすると考えられる。この場合、B1を有するものは暗色を有する傾向を示し、B3を有するものは平均してより明色である。しかし暗色を有していた10人のB2/B2個人は他のB2/B2個人からそれらを区別する特定の遺伝子A遺伝子型を有しているのか。実際の遺伝子学的問題については、遺伝子Aを用いて誤分類されたものが遺伝子Bを用いて正確に分類されることはまれであり、10より多い遺伝子がデータの変動性の全てを説明するために必要である場合が多い。このことは形質に影響する遺伝子の信頼性が高く知られているにもかかわらず遺伝子学的分類を行うことがなぜ困難であるかということの一例を示している。
AおよびBの対立遺伝子の特定の組合せが正確な分類を行い易くする場合が多いことは分かっている。しかしながら、これらの組合せが形質値に関係する態様は予測できない。このため良好な遺伝子学的分類をするには、観察が重要であり、本明細書に記載する本発明が依存している方法も観察なのである。例えば、AおよびB遺伝子変異体の組合せが以下のカウントを有するテーブルを与えるとする(部分的に示す)。
Figure 2006503346
表Cより、A1/A1+B1/B2の組合せは常時「明色ではない」を予測し、通常は暗色を予測してきている。また、A1/A3+B1/B2の組合せも常時「中間」色を予測していると考えられる。これらの結果には意外な部分と意外でない部分がある。表Aおよび表Bでは、A1/A1およびB1/B2の両方がそれ自体暗色に関係しており、組合せA1/A1+B1/B2を有する人々が殆ど常時暗色を有することは意外であるとはいえない。これとは対照的に、A1/A3はそれ自体が何れの色とも関係しているとは考えられず、B1/B2は暗色と関係するがA1/A3+B2/B2の組合せでは中間色と関
係している。この場合、A1/A3組合せの存在は表BにおけるB1/B2個人の一部が暗色でないことを説明しており、「B1/B2の存在はA1/A3が存在しなければ暗色を示す」という規則は、「B1/B2が暗色を示す」という規則よりもより高度な盲検的分類の精度を有すると考えられる。
究極的な形質の1つのタイプに関連する変異体対が同じ究極的な形質に関係した別の遺伝子変異体対と対になる場合、中間的形質が生じる場合がある。ある場合においては一緒になって特定の形質値を決定するものが、それ等自体は全く形質に関係しない2種の変異体なのである。形質値に影響する遺伝子変異体の間の相互作用は上位性と称される。これらタイプでの予測されなかった結果は遺伝子学分野では異常なことではない。我々のデータによれば、このタイプのシナリオは全く非一般的なものではなく、本明細書に記載した本発明の方法が重要な進歩であることを説明している。
Aの影響およびBの影響が既知である場合、A+Bの影響が観察前に常時予測できないのはどういうわけであろうか。換言すれば、上位性はどのようにして存在可能となるのか。最も動的な生化学的経路とその影響は複合的なものである。各遺伝子の産物は無数の複合的な生化学的ネットワークの一部であり、力学的生化学的経路における遺伝子産物の修飾は、経路における遺伝子の位置および修飾の種類に応じて、経路の機能に多少の影響を及ぼすと考えられる。多くの生化学的ネットワークは相互に交差しており、1つの経路において修飾がもたらすことのできる複雑性および予測不能性を付加している。大部分の遺伝子学者らは遺伝子変異体を形質に関係付けることは、生化学的研究から推測または推量することよりもむしろ観察に依存していることに合意している。換言すれば、遺伝子学的観察は期待したものと常に合致するわけではない。それは観察が不正確であるからではなく、遺伝子学的が極めて複合的であるためである。このような修飾および変異体がどのように形質形成に関与しているかを、観察を通じて知ることは極めて好都合である。本明細書に記載する本発明の方法はこのような観察のためのツールである。
大部分のヒトの形質では、特定の変異体の組合せ(A1/A1またはA1/A3のような遺伝子型と称される)は形質に関して高度に予測的であるが、他の組合せでは予測的ではない。特定の変異体(例えばA1またはA3)は変異体に特有の種々の範囲においてそれ自体予測的であるが、他のものはそうではない。変異体の組合せにおける特定のもの(遺伝子型)は形質に関係付けられると考えられる。しかしながら、遺伝子型の各々は形質に関係付けたり、組合せのリンケージに基づいて予測される態様で関係付けたり、または組合せリンケージに基づいて予測されない態様で関係付けたりされない場合がある。これらは集団遺伝子学がその研究を実用化しようとする際に取り組まなければならない複合的な問題である。
開発されているものは効率的な数理学的方法における遺伝子変異体の3種の主要な成分すべて(付加性、優性度および相互作用)を把握する遺伝子学的分類のための新しい方法である。本発明の分類方法は既存の方法よりも実質的に高性能であり、例えば色素遺伝子ハプロタイプからのヒトの虹彩色の分類には良好に適用可能であった。本発明の方法は、遺伝形質を予測するために変異体が研究サンプル中に存在する範囲内での組合せに沿って遺伝子変異体に関する統計学的有意性を利用している。方法は直接一次または二次曲線分類、ニューラルネットワーク、方向セッティング規則、ベイズ推定法および標準定量的遺伝子学的パラメータ推定から発生する分類を含む他の方法よりも高性能である。
遺伝形質分類において使用する方法および装置は遺伝形質に関連する遺伝子を少なくと
も2種含む。1つの例示的方法においては、遺伝形質に関連する複数の形質クラスのうちの1種に個人を分類する際に使用するための値を算出する。値は、(1)個人に関して識別される少なくとも2種の遺伝子の複数の遺伝子型の各遺伝子型に関連する寄与度の合算値、ここで、各遺伝子型に関する寄与度は、サンプル集団において識別される遺伝子型と各形質クラスとの間の統計学的関連性から少なくとも部分的に識別されるものであること、および、(2)個人において識別される少なくとも2種の遺伝子間の1または複数の遺伝子型の組合せに関連する寄与度の合算値、ここで、1または複数の遺伝子型の組合せの各々に関する寄与度は、サンプル集団中に識別される遺伝子型の組合せと各形質クラスとの間の統計学的関連性からは少なくとも部分的に識別されるものであるということに基づいて算出される。
好都合には、上位性並びに付加性および優性度の影響を考慮することにより、より正確な遺伝形質分類を行う。有用な分類ツリー分析もまた記載する。
本発明の方法は分類ツリーおよびハプロタイプの組合せを用いた一次判別分類の複合物を構成する分類方法であるp値法として捕らえてよい。本発明の方法は遺伝子の組合せ(例えばSNPまたはハプロタイプ)のリストを作成すること、および、比較的純粋な形質値と遺伝子型そのものの組合せを用いて盲検的遺伝子学的分類を行うことに関するものである。
形質を予測する遺伝子の形態を識別するための方法が開発されており(例えば米国特許出願第10/120,804号「複合遺伝子学的分類のための遺伝子的特徴の識別方法」参照)、これは重要な第1ステップである。本発明の方法は個人の変異体および変異体の組合せに関して予測的能力の測定を好都合に組み込んでいる。このようにすることにより、方法は形質に対する遺伝子の影響を形作る3種の主要な力、即ち付加性、優性度および上位性に対して高感度な分類規則を構築するのである。
数値が特定の変異体(適宜、ハプロタイプまたはSNP)である以下の遺伝子型組合せを考える。
Figure 2006503346
上記データに関わる付加性の作用を検討する場合、遺伝子3の遺伝子型(2,4)は中間色に関係し、遺伝子4の遺伝子型(1,1)もまた中間色に関係するが、それらが共に認められる場合はそれらは暗色と強力に関係している。2種の遺伝子型は平均色よりもさらに暗色をもたらす何らかの化合物の生産に寄与していると考えられ、組み合わせられた場合、この化合物のレベルは極めて高値となり暗色をもたらす。優性度の作用を考えた場合、遺伝子1(1,1)遺伝子型は常時、明色個人で認められ、ある人物が遺伝子1(1
,1)の遺伝子型を有する場合、それらはその個人に存在する他の遺伝子の他の遺伝子型とは無関係に常時明色を有すると考えられる。(1,1)遺伝子1の産物は色素沈着経路における一種の律速段階となり、蓄積しないように色素濃度を維持していると考えられる。類推すれば、この遺伝子は自動車を適切に走行させないための壊れたホースとなっていると考えられる。
上位性作用を上記データとともに考えた場合、遺伝子3(2,4)および遺伝子4(1,1)は明色、中間色または暗色の何れにも関係していないとすれば、それらは無関係であると考えられる。しかしながら共に認められれば遺伝子3(2,4)および遺伝子4(1,1)は常時暗色の個人で認められ(表DのDNAP0002およびDNAP0003参照)、これらの2種は形質の決定に上位的に相互作用を示すことが考えられる。一次判別法またはベイズ確率法のような遺伝子学的分類の既存の従来法は付加性および特に優性度の成分を把握することに優れている傾向がある。しかし、残念ながらこれらの方法は上位性成分の把握には不向きである傾向がある。これとは対照的に、本発明の方法は分類の規則を開発する際にこれらの要素の3点全てを考慮している。
遺伝子1(1,1)および遺伝子2(1,1)がそれ自体で色の予測を行うこれらの遺伝子の何れかに関する唯一の対立遺伝子組合せであると仮定する。遺伝子1(1,1)対立遺伝子は明色に強力に関連(カイ自乗統計値が「明色」との関連性において低いp値を有する)し、遺伝子2(1,1)は暗色と関連するとする。全ての遺伝子iについて、下式
Figure 2006503346
に基づく値を用いて個人を分類する。ここでvi=log(c/pi)であり、cは0.05以上の適当に選択された定数であり、そしてnは種々の形質に対する好都合なダミー変数、例えば明色に関してはn=+1、または暗色に関してはn=−1とする。これから分かるとおり、数式1から得られた値は試料DNAP0002よりもサンプルDNAP0001について高値となる。その理由は前者が明色に有意に関連している(1,1)遺伝子型を有し、後者が暗色に有意に関連している(1,2)遺伝子型を有しているためである。更にまた、遺伝子1(1,1)と明色との間の関連性が強くなるほど、p値(pi)が低下し、スコアviの絶対値が大きくなる(その理由は、リンケージが明色を相手としており、それがより正の数となり、暗色と関係していれば、より負の数となるためである)。
以下の分類規則はこの例に基づいて開発され、即ち、正の値はサンプルが明色に分類されなければならないことを意味し、低値はサンプルを暗色に分類しなければならないことを意味する。この規則を用いながら、2サンプルを適切な群に分類することができる。しかしながら複合的形質の場合は特定の形質を単一の遺伝子がもたらす例は殆どない。遺伝子1は形質値に対して強力な影響を示すが、その影響はそれが存在する範囲内の機能である。
遺伝子2(1,2)+遺伝子3(3,4)の組合せが常時、例えば以下:
Figure 2006503346
のプロフィールが得られたように暗色の人物中において認められ、組合せについて下記のカウントが得られた:
Figure 2006503346
遺伝子2(1,1)+遺伝子3(1,1)の組合せが暗色の個人に認められることが分かる。数値スコアは、その合計スコアを暗色に調節するようなこの遺伝子2/遺伝子3の組合せを有する個人に与えることができ(例えば−1または−0.5または他の値、おそらくは組合せに対する形質値の「純度」に基づく)、それを数式1から得られた他のスコアに付加し、これによりより完全な予測に到達する。
即ち、スコアはまた試料集団において識別される全ての「有意な」遺伝子型組合せに関する式:
Figure 2006503346
に基づいた遺伝子間の遺伝子型の組合せについて編集すべきである。ここでcjはj番目の遺伝子型の組合せのインジケータ関数であり、即ちcj=0または1(j番目の組合せ
が個人に存在しない場合は0、または、存在する場合はcj=1)であり、そして、nは種々の形質に関する好都合なダミー変数、例えばn=+1または−1(+1は明色形質の場合、n=−1は暗色形質の場合)である。「有意な」遺伝子型の組合せは圧倒的に、または統計学的に1つの特定な形質クラス(例えば暗色皮膚)のもの、または、他のもの(例えば明色皮膚)であるサンプル試料中の組合せである(例えば、データセットに基づき、ほぼ常時、または94%の頻度)。
即ち、全ての遺伝子iおよび全ての有意な遺伝子型組合せjに関してより完全な数式を形成する。そして/あるいは最終分類値:
Figure 2006503346
を算出することである。
上記表Fにおいて、遺伝子型組合せは94%超の純度であること、即ち、カウントの94%超が1色であることが必要である。この必要性により、遺伝子2(1,1)+遺伝子3(1,1)の組合せは分類スコアに影響することが示されているものの唯一の組合せとなる。例えばリストが可能な組合せ数千通りに対する数千ページの長さである場合、そして、この組合せがこの必要性を満足する唯一のものである場合、数式2から分類すべき各個人のスコアはこの遺伝子型の組合せにのみ基づいている。この要件に合致する組合せがない場合、数式2から得られるスコアは分類すべき各個人に対してゼロ値となる。或いは、jは該当する遺伝子全てのうちの可能な全ての遺伝子型の組合せとなり、cjは関連性から得られるp値に基づいている。
或いは、数式2は分類を行う場合に上位性を示す観察結果を考慮できるようにする。6種の可能な2遺伝子組合せがある3種の遺伝子があるとする。
1,1
1,2
1,3
2,2
2,3
3,3
これらの遺伝子の各々が遺伝子型を有し、人の集団において、以下の表G:
Figure 2006503346
に示すような観察された組合せのリストが存在するとする。これらの観察された組合せの各々は組合せを有する個人の群を有する。この組合せを有する個人とその色のリストを試験サンプルから作成する場合、リストは他の遺伝子組合せに関しては、以下の通り:
Figure 2006503346
等となる。名称と色によりサンプルをリスト化するよりはむしろ、各組合せのカウントを単に下記:
Figure 2006503346
の通りリスト化してよい(例えば単一の遺伝子について例示する)。表H’において、示された遺伝子1および2に関する遺伝子型は中間色の個人においては表れず、遺伝子1:4,3遺伝子2:1,1の組合せは暗色の個人において8/8回表れている。遺伝子1および遺伝子2は相互に作用して形質を形成するが、遺伝子1および遺伝子4は形成しない場合、前者に関する遺伝子型は上記表H’の場合のように色間で独立して分布しないが、
後者に関するものはそうではない。単純なカイ自乗試験を用いてこの決定を行うことができ、或いは1色に関する純度の%を用いることもできる。
好都合には、数式1および2の両方からの寄与度に基づいて分類を行うことは、遺伝子学的影響のタイプの全3種に対応できるものである。以下のサンプルを考える。
Figure 2006503346
(a)遺伝子1対立遺伝子1が暗色に関係するが、対立遺伝子遺伝子2、対立遺伝子1および遺伝子3、対立遺伝子3および4の何れも色に関係しない、(b)遺伝子1(1,1)組合せは暗色に強力に関連する。そして(c)これらの遺伝子型の何れも、明色に弱く関連している組合せ遺伝子2(1,1)/遺伝子3(3,4)を除いて特定の色に統計学的に関係している組合せの部分として認められると仮定する。
上記に基づく場合、どれが色を最も良く決定するか。適切な分類は、観察項目(a)および(b)が(c)と比較して強力であることから、おそらくは「暗色」である。この場合、遺伝子1に関する1対立遺伝子の付加性または優性度の影響のいずれかが遺伝子2/遺伝子3の組合せの相互作用的影響を圧倒している。好都合にも、本発明の方法は遺伝形質の決定に対する種々の寄与度を把握しており、盲検的サンプルを用いて挑戦する際に良好に作用する複合遺伝子学的モデルを構築することが可能である。
適切な分類を識別するために、遺伝子2/遺伝子3組合せに対する遺伝子1(1,1)組合せの相対的影響を計測しなければならない。数式1から得られる値を数式2から得られるものに付加して得られるスコアがこのことを裏付けている。この場合、(1)から得られるスコアは、個人が暗色と強力に関連する遺伝子型を有するため、極めて負の数(例えば−1.5)である(低p値を有するが、viの絶対値は高値である)。数式2から得られるスコアは僅かに正であるのみである(例えば0.1)。合わせた値はなお全く負である(−1.4)。
即ち、数式1を用いて個人の遺伝子型関連性のp値に基づいてまずスコアを算出し、次にこれを、数式2を用いてサンプルが保有する遺伝子型の組合せの数に基づいたスコアに付加することにより、サンプルを適切な形質クラスに分類し、その際、1種のみの形質クラスの他のものが有する組合せのみを考える。
サンプルが多くの暗色遺伝子型を有する場合、数式1はそれ自体正確な分類を与える。サンプルが多くの暗色遺伝子型および暗色個人にのみ存在する多くの遺伝子型組合せを有する場合、数式1は暗色の分類を示すスコアを与え、そして数式2はスコアの「暗色」の特性を強化する。サンプルが多くの暗色遺伝子型を有する場合、数式1は暗色の分類を示すスコアを与えるが、サンプルが明色個人においてのみ認められる多くの遺伝子型組合せを有する場合は、スコアは数式2を用いてこの観察結果を説明するように補正される。結果は数式1におけるp値の相対的強度および数式2において使用された組合せに依存している。暗色の遺伝子型を有する個人の一部は明色遺伝子型組合せを有すかまたはその逆の場合があり、スコアは暗色または明色のスコア、またおそらくは中間色のスコアを示す場合がある。
数式2については、全ての可能な遺伝子組合せについて全ての観察された遺伝子型組合せのリストがまず形質の関連性とともに作成される。いくつかの遺伝子を用いて作業を行う場合、このリストは通常は極めて長くなる。全ての可能な遺伝子型組合せのリストを作成し、数式2を提供することにより、形質値に影響すると思われるものが分類を行う際に適切に考慮されることを確実にすることができる。
数式1および2の結果を付加することにより得られる値は、長いセットの数を与える。適切な遺伝子および遺伝子型が分析に用いられる場合、それらの値は通常は形質値の優れたコードとなる。これらのコードはその後の分類を行うために使用できる。数式1および2を用いたこれらのスコアの合計から得られるスコアを用いて、例えば閾値を選択することにより分類を行うことができる(例えば−1.5かそれより負数は「暗色」を、−1.5〜0は「中間色」を、そして0より高値は「明色」を意味する。)またその値は、SASまたはSプラスソフトウエアのような市販のソフトウエアパッケージのための入力として使用できる。例えばSASを用いる場合、一次判別法を用いて分類を行う際の値の最も効率的な使用を開発することができる。また、例えばニューラルネットワーク、遺伝子的アルゴリズムまたは分類ツリーを用いることもできる。このことに関し、ニューラルネットワーク、遺伝子的アルゴリズムまたは分類ツリーを用いて(1)および(2)を使用するため、並びに、分類のための(1)および(2)の合計から得られた値の使用方法の決定のための最も良いダミー変数を定義することができる。
数式1および2により与えられる値に対し、遺伝子学者が自ら使用する傾向にあるが優れた結果を与える他の方法の一部を適用しても良い。このような方法の例としては一次判別法またはベイズ確率法が挙げられる。慣用的な結果の検討を行い、特定のスコアを有する個人が特定の形質値の個人である傾向を示すが、異なる値の他の者は他の値の者であることを知り、そしてこれにより分類を行うための値を用いるのに極めて簡単な方法を考案する。例えば、−1.5未満の値を有する全ての個人は「暗色」であり、ゼロ値より大きい値を有する全ての個人は「明色」であるが、−1.5〜0の値の者は混合された形質値の者である場合、−1.5未満の個人は「暗色」であり、ゼロ値より高値の者は明色であり、その他の何れの形質値もニューラルネットワークまたは遺伝子的アルゴリズム(これは極めて簡単な分類ツリーと類似することになる)を用いることなく非決定的な分類を示すと結論できる。
盲検的分類を行う際に使用される閾値は大部分の遺伝子学研究者等が自ら使用している他の一般的な方法を適用することにより決定できる。このような方法にはニューラルネットワーク法、遺伝子的アルゴリズム、一次判別法、または、分類ツリーが包含され、これら各々の方法を試行して最も良い盲検分類率を与える方法を選択して使用できる。即ち、本発明の方法は正確な分類を行うためのデータから得られる観察結果に強力に依存する経験的ツールとして捕らえることができる。一部の問題については、1つの形質値を表示する値は別の値に関するものとは明確に異なっており、分類規則は目視により開発することができる。他の問題については、上記した方法の1つを適用して値を用いることにより正確な分類を行わなければならない。
数式2により与えられた組合せスコアはニューラルネットまたは遺伝子的アルゴリズムを用いることにより変更することができる。例えば、恐らくは1つの形質値のみのものである遺伝子型組合せを最適に作用するモデルを開発するために用いなければならない。これらを「純粋な」組合せと称する。場合により、94%純粋な組合せを用いて最適な結果を得なければならない。どの組合せを用いるべきかは単純なカイ自乗統計値を適用することにより決定される。0.05より低値のp値は一部の問題のための最適な結果のために用いてよいが、0.01未満のp値を有するものは他の問題で最適な結果のために必要である場合がある。可能性の全てを試行することにより請求項に記載した方法の最もよい使
用を行わなければならない。各問題に関し、使用すべき「パラメータ」は独特であり、経験的に求めなければならないと考えられる。各タイプの遺伝子分類問題は特異的な方法で相互作用する遺伝子変異体のそれ自体のセットにより定義される。ヒトの眼球色については、3、4遺伝子組合せが最も情報性があると考えられるが、鎌状赤血球性貧血のような単純な疾患については、組合せは全く必要ではない。ここでもまた、方法は経験的過程の一部として好都合に使用してよい。
場合により、2遺伝子組合せの使用のほうが、3遺伝子または4遺伝子の組合せを使用するモデルよりも盲検的試みにおいて良好に作用するモデルの構築を可能にしている。最も良好に作用するn遺伝子座の組合せのnはここでも経験的に決定され、再度、既存の方法によりnを迅速に決定してよい。n=2、3、4および5のような場合を最低限試験してよい。n=5を超える場合、経済的原理により遺伝子学的研究に与えられるサンプルサイズの制約がある場合は、各組合せのサンプルサイズは信頼性を持って使用するには少な過ぎることがある。
一次および二次曲線判別法およびコレスポンデンス分析に基づく方法、ベイズ確率法、Markov鎖およびニューラルネットワークに基づく他の方法は以前に説明している。これらの方法各々の適用によりモデルを構築するために使用する個人をどの程度良好に分類するかを検討する際、通常は良好に作用するモデルを与える(適切な入力データが問題の「特徴」であると仮定した場合)。一方、盲検的分類にはモデルの構築には関わらない個人を分類することが含まれ、これはどのように良好にモデルを帰納させるかを調べる手段である。同じデータセットに適用されれば、本明細書に記載した方法は盲検的試験においてこれらの他の方法よりも性能が優れている。
即ち、遺伝形質に関連する複数の形質クラスの1種に個人を分類する際に使用する値は、(1)個人に関して識別される少なくとも2種の遺伝子の複数の遺伝子型の各遺伝子型に関連する寄与度の合算値、ここで、各遺伝子型に関する寄与度は、サンプル集団において識別される遺伝子型と各形質クラスとの間の統計学的関連性から少なくとも部分的に識別されるものであること、また(2)個人において識別される少なくとも2種の遺伝子間の1または複数の遺伝子型の組合せに関連する寄与度の合算値、ここで、1または複数の遺伝子型の組合せの各々に関する寄与度は、サンプル集団中に識別される遺伝子型の組合せと各形質クラスとの間の統計学的関連性から少なくとも部分的に識別されるものであることに基づいて算出される。
これより明らかな通り、本発明の方法は他の適当な遺伝形質にも同様に、例えば特定の薬剤に応答する患者または患者が特定の疾患を有するか否か等にも適用される。
1実施例としてのヒト虹彩色および色素沈着ハプロタイプがある。一次判別およびコレスポンデンス分析法は、色素沈着遺伝子ハプロタイプを分析することにより適切な眼球色群への個人の分類を行うために既に使用されている(例えば、「複合遺伝子学的分類子の構築のための複合コレスポンデンス分析および一次/二次曲線分析」と題された米国特許出願第60/377,164号;「複合遺伝子学的分類子のためのコレスポンデンス方法」と題された米国特許出願第60/338,524号;および「複合遺伝子学的分類子を構築するための一次および二次曲線法」と題された米国特許出願第60/338,468号を参照)。上記した方法は約400個人に基づいた有用なモデルを与えており、これにより更に100人の盲検的分類により少なくとも94%の精度が示された。その後、サンプルサイズを881に増加した。これらのうち781を用いてモデルを構築し適切な方法を用いると、盲検的分類の精度は85%まで低下した。
一方、同じ抽出データセットを本明細書に記載の本発明の方法と共に用い、一次判別法
と組合せ、数式1および2から得られた値を用いて分類を行った場合、97%の精度が得られた。これより明らかな通り、本発明の方法は遺伝子学的データの分析が必要とする極めて特異的なパラメータに対してより感度が高い。
本発明の方法はまたより少ない関連遺伝子を用いて分類結果を得るために使用した。他の方法によれば、100のサンプルサイズに対して85%の盲検的分類精度を得るためには781のサンプルサイズに対して7種の遺伝子(OCA2、MYO5A、TYR、TYRP1、AIM、SILVおよびDCT)に由来するハプロタイプ配列を使用する必要があった。本発明の方法によれば、同じサンプルサイズに対して94%の精度が僅かOCA2およびTYRP1ハプロタイプを用いて得られた。OCA2およびTYRP1ハプロタイプに対して数式1および2の合計から得られる値を用いた一次判別法を用いたところ、以下の分類結果が得られた。
Figure 2006503346
「非ブラウン」分類の精度は152/162=0.938であった。「非ブルー」分類の精度は156/166=0.94あった。総精度=94%であった。
図1は本発明の方法を実行してよいコンピュータシステム100のブロック図である。コンピュータシステム100はネットワーク102およびコンピュータホスト104および106を含む。ネットワーク102に接続されているサーバ108およびデータベース110はコンピュータホスト104および106によりアクセス可能である。コンピュータホスト104および106の各々は1または複数のコンピューティングデバイスおよびデータベースを含む。例えばコンピュータネットワーク104はコンピューティングデバイス112およびデータベース114を含み、コンピュータネットワーク106はコンピューティングデバイス116およびデータベース118を含む。コンピューティングデバイスはいずれかの適当なコンピューティングデバイス、入力装置(例えばキーボードまたはマウス)および出力装置(例えばビジュアルディスプレイモニタ)を有するパーソナルコンピュータ(PC)を含んでよい。データベースの何れか1つはサンプル集団のデータ(例えば遺伝子型データおよび統計学的関連性のテーブルまたはリスト等)を保持または保存してよい。本発明のソフトウエアは例えばコンピュータホスト104のコンピューティングデバイス112と接続してこの上で実行してよい。1つのコンピュータシステムを図1に記載して説明したが、種々の変更が可能であるのみならず、当業者の知るとおり多様に行える。
本明細書に記載した方法は図2に示すソフトウエアコンポーネント200を用いて図1に沿って具現化し、実施してよい。ソフトウエアはディスク202またはメモリ204内に内蔵または保存してよく、コンピュータ206またはプロセッサ208内で実行可能である。即ち、本発明の特徴は自らの上に保存されたコンピュータインストラクションを有するコンピュータ記憶媒体中に存在してよく、これにより、コンピュータプロセッサはインストラクションを実行し、コンピュータインストラクション内に記載された方法を行うことができる。このようなソフトウエアは、好ましくはプライベートネットワーク104
のコンピューティングデバイス112に接続され、この上で実行される。好ましくは、システムは中央のSun Enterpriseサーバと共にPCネットワークの範囲内で機能する。プログラムは、LinuxまたはUnix(登録商標)のオペレーションシステムを用いて作動するいずれかのデスクトップPC上にロードされ実行される。他のバージョンもまたWindows(登録商標)環境内で機能させて良い。或いは、ソフトウエアは公開されたサーバ上で作動し、インターネットのような公開されたネットワークを経由して使用可能にすることもできる。
ここで図3のフローチャートを参照しながら、少なくとも2種の遺伝子が関与する遺伝形質分類において使用するための方法を記載する。図3の方法は上記に基づいて行われる1つのアプローチを更に概略化したものである。図3のスタートブロック302から始まり、特定の遺伝形質に関係する遺伝子少なくとも2種の全ての可能な複数の遺伝子型を識別する(ステップ304)。このステップ304はいずれかの適当な従来型または非従来型の方法を用いて実施してよく、例えば「複合遺伝子学的分類のための遺伝子的特徴の識別のための方法」と題された米国特許出願第10/120,804号に記載の方法を用いてよい。少なくとも2種の遺伝子内に関係する遺伝子型が識別されれば、各遺伝子型は特定の遺伝形質に関する複数の形質クラスの各々に属するサンプル集団の個人のカウントに関連する(ステップ306)。例えば、背景技術のセクションの表Aおよび表Bを参照できる。次に少なくとも2種の遺伝子間の全ての可能な遺伝子型組合せの各々を各形質クラスに属するサンプル集団の個人のカウントに関連付ける(ステップ308)。例えば、スペースの都合上、省略して書かれている上記表Hおよび表H’を参照できる(このリストは100〜1000ページの長さとなる)。
ステップ306および308からの関連性に基づき、複数の形質クラスの1種に個人を分類するための値を算出するために1または複数の数式を作成する(ステップ310)。例えば上記した数式1および2、または数式3を関係するデータと共に呈示してよい。これより明らかな通り、数式により個人内に存在する個人の遺伝子型からの寄与度、並びに、個人内に存在する遺伝子型組合せの寄与度が得られる。上記数式1の場合と同様、関連性のp値を算出することにより、各個人の遺伝子型に関する寄与度を求めることができる。上記数式2の場合と同様、遺伝子型組合せの各々は閾値を超えるサンプル集団中のカウントパーセンテージを有する形質クラスに関連する「有意な」遺伝子型組合せのみを含む。
図4のフローチャート中、少なくとも2種の遺伝子が関与する遺伝形質分類において使用するための別の方法を記載する。図4の方法は、特定の遺伝形質に関する複数の形質クラスのうちの1種に個人を分類するための数式の実行を含む上記に基づいて行われる取り組みについての別のより省略された説明である。図4のスタートブロック402から始まり、個人について識別される遺伝子の少なくとも2種が各遺伝子型に関連する寄与度を合計する(ステップ404)。更に、個人について識別される少なくとも2種の遺伝子間の遺伝子型の組合せの各々に関連する寄与度を合計する(ステップ406)。これらの寄与度より、複数の形質クラスのうちの1種に個人を分類するための算出値を得る(ステップ408)。例えば、ステップ404および406からの寄与度を共に付加してよい。算出値に基づき、個人を形質クラスの1種に正確に分類する(ステップ410)。
分類ツリー分析。本出願の核心は表F、HおよびH’において検討した遺伝子学的データが正確な複合遺伝子学的分類に重要であるという点である。関数(1)および(2)は1つの好都合な分類方法において考慮できる。この種のテーブルに基づいた別の好都合な分類方法は分類ツリー分析に基づく。やはり開発されているものは、より高次の遺伝子分類規則を構築するためのネステッド統計学的スキームである。このスキームを開発する動機は複合的な遺伝子学(即ち上位性およびペネトランス)を重視した態様で遺伝子関連性
の「解答を得る」必要性であった。
まず分類ツリーを用いることにより、多数の多変量についての問題の解答が得られている。しかしながら、今日までの大部分の用法は工学的および社会的問題に着目したものであった。蛋白および核酸配列の系統発生学および/または存在論学的分類のために種々の分類ツリー法が使用されてきたが、アプローチは本明細書に記載した複合(または他の)ヒト遺伝子学の分野においてはまだ使用されていないと考えられる。本発明の出願は参照により本明細書に組み込まれる2001年12月3日出願の「複合遺伝子学的分類子の構築のための分類ツリー法」と題された米国特許出願第60/338,734号の優先権を主張する。
本発明のスキームは根部よりスタートし、節部に分岐し、そして分類「葉部」において終了する分類ツリーを構築する。樹状図に沿った経路は個別の混成の遺伝子型または混成の遺伝子型クラスを示す。混成遺伝子型はN個の二倍体相既知遺伝子型値(ハプロタイプ対)を含むN次元のベクトルである。これらの遺伝子型値はハプロタイプ系の可能な値のサブセットであり、これが多形遺伝子座の特定のコレクションに対する全ての観察された相既知のハプロタイプ対の値を示す。従ってN次元の混成遺伝子型ベクトルはN個の異なるハプロタイプ系に由来するN個の遺伝子型値を有する混成遺伝子型である。混成遺伝子型クラスはハプロタイプ系の共通のセットに由来する混成遺伝子型値を組み込んだ混成遺伝子型ベクトルのコレクションである。根部から葉部への経路は独特の混成遺伝子型クラスを含む混成遺伝子型ベクトルまたは混成遺伝子型ベクトルのコレクションを与える。
本発明のスキームは特定の形質値との最良の統計学的関連性を示す混成遺伝子型ベクトルまたは混成遺伝子型ベクトルのクラスを識別することにより分類ツリーを構築する。ツリーは段階的な方法で構築する。モデル(生育経路、または混成遺伝子型クラス)を選択し、項目(新しいハプロタイプ形)をモデルに付加し、新しいモデルを統計学的に試験し、そして、新しい項目は受領または廃除される。受領されれば、いずれかの規則をその構成要員である混成遺伝子型または混成遺伝子型クラスから作成(カイ自乗統計値を用いる)する。そして/または、モデルの要素と形質値との間の関連性の存在および強度に応じて、モデルを拡張する。ツリーの根部は無作為に選択されたハプロタイプ系の遺伝子型である。節部は多くの異なる構成遺伝子型が含まれる無作為に選択された遺伝子型クラスである。端部がX個の根部とN個の節部を連結し、X個のN+1次元の個性遺伝子型クラスが形成される。
分類ツリー法はヒトの眼球色の分類のために有用である。ツリーのためには、まず、関わりにより定義される新しい混成遺伝子型クラス内の明色の眼球色の色調(ブルー、グリーン)および暗色(ブラック、ブラウン)の眼球色の色調の個人の間の遺伝子の相違に基づいて、根部のセットを選択し、端部を節部にまで伸長させる(ヘーゼルは常時大部分の構成員の眼球色の色調に割り付けられる)。現実的な理由から、相違は最終節部ないの遺伝子型値の分布に関してのみ測定する。混成遺伝子型クラス内で、一対F統計値および関連p値を用いて種々の眼球色の色調を有する個人間の遺伝子構造の差を測定するが、直接確率試験のp値またはカイ自乗のp値を用いても同様の結果が得られる。不明瞭な(75%未満の正確度)ハプロタイプクラスの個人は廃除し、「分類不可能」とする。
根部からの経路内にまだ組み込まれていない節部の可能なすべてを各新分岐段階に試験し、眼球色の色調のクラスの間で最も顕著な分別(即ち最小値)を与える分岐部を選択する。新しい混成遺伝子型クラス内に有意な遺伝子構造がない場合は、検討すべきハプロタイプ系が存在しなくなるまで、または、混成遺伝子型クラスのサンプルサイズが所定の特定の閾値未満となるまで(この場合「決定されず」と特定される)、分岐作業を別の分岐(ハプロタイプ系)まで継続する。新しい混成遺伝子型クラスの最小p値が有意である場
合、特定の形質値との関連性について有意なカイ自乗残渣を示しているその構成要員の混成遺伝子型から規則を作成する。この場合、説明不可能である(そのカイ自乗残渣は、あったとしても有意ではない)混成遺伝子型クラス内の遺伝子型を混成遺伝子型クラス内の混成遺伝子型の残余から分離することにより、新しいネステッド節部を形成し、これより、更に分岐を行う。
ネステッド節部は常に、最初に新しい混成遺伝子型クラスを示す。このネステッド節部からの分岐が最終的に分類規則の創出能力をもたらさない場合は、ネステッド節部が誘導された混成遺伝子型クラスまでアルゴリズムは戻り、そして、Y個の構成要員である混成遺伝子型のY個のネステッド節部を再創出する。いずれの場合も、ネステッド節部は眼球色のクラスの色調間で統計学的に有意な集団構造の差を有する節部からのみ創出される。葉部の形成をもたらすカイ自乗統計値を算出するためには、アルゴリズムはまず異なる形質値の線に沿って個人を分配しようとする。これが有意でない場合は、アルゴリズムは類似の値の群に別の形質値を集中させる(例えばブルーおよびグリーンvsブラウンおよびブラック眼球)。
異なる形質値を有する個人群の間の有意な遺伝子構造の差を有する混成遺伝子型クラスの構成員に規則の作成を限定することにより、実際にこのアルゴリズムは学習すべきハプロタイプ系の種々の組合せにより寄与される遺伝子の分散の最大量を与える。ツリーが完成した後、それより、分類葉部に至るツリーに沿った各経路を「読み取る」ことにより規則を作成し、そして、その規則を用いて各個人の形質値を予測する。予測率が良好(例えば95%以上)であれば、処理を終了し、そうでなければ、根部に対する新しいハプロタイプ形から処理を再開する。
ヒト眼球色に分類ツリー分析を提供する例において、5種のハプロタイプ系(TYR2LOC920、OCA3LOC920、OCA3LOC109、TYRP3L105およびMCR3LOC105)を、その構成要員であるハプロタイプがヒト眼球色を予測したとものして識別した。分類ツリー法はTYR2LOC920、OCA3LOC920、OCA3LOC109、TYRP3L105およびMCR3LOC105のハプロイド遺伝子型要素の無作為の組合せからツリーを開発し、眼球色の色調に関連する複合遺伝子クラスを形成するために適用した(以下の表K参照)。
Figure 2006503346
Figure 2006503346
Figure 2006503346
表Kにおいて、混成遺伝子型の要素は本明細書に記載したハプロタイプ系の部分である。各列は独特のハプロタイプ系(テーブルの上部に記載)を示し、各行は混成遺伝子型または混成遺伝子型クラス(記載の通り選択)を示す。ツリーは各行に沿って左から右に読まれる。行の第1の遺伝子型の前に演算子「if」を使用する。列から列に進行するには演算子「and」を必要とする。混成遺伝子型または混成遺伝子型クラスに関する分類は列7において下記の通り、即ち:LT−明色眼球(ブルーまたはグリーン)、HAZ−ヘーゼル眼球、B1−明色ブラウン眼球、およびDK−暗色眼球(ブラックまたは中間色/暗色ブラウン)とする。「NOT OBS」は混成遺伝子型または混成遺伝子型クラスが観察されなかったことを示す。「INCONCL」はサンプルサイズが小さすぎるか、または個人が統計学的に有意な態様で眼球色の色調の間で分配されなかったために分類できなかったことを示す(テキスト参照)。各々の判定的な(INCONCLではない)分類は統計学的に有意なカイ自乗作用の統計値(p<0.05)により正当化された。各混成遺伝子型または混成遺伝子型クラスに関するカウントは列8(CORR−正しく分類された)、9(INCLASS−分類不可能)および10(INCORR−誤って分類された)に示す。例えば、3人の暗色眼球および0人の明色/ヘーゼル眼球の個人がTYR2LOC920 CG/CH:OCA3LOC920 OTHER(NOT CAC/YRC)(行24)の混成遺伝子型クラスに対して観察され;この比率は試験サンプルの構成に基づいた3:8の予測比とは有意に異なっていた。ある行に対する列内の空欄はその列に関するハプロタイプ系がその混成遺伝子型または混成遺伝子型クラスの個人に対する解答の部分ではないことを示している(テキスト中に記載)。この場合、解答は別の遺伝子型または分類に遭遇するまで右に進行する。全体の表作成は最後の2行に示すとおりであり;「*」は分類可能な個人のみを表作成に用いたこと指す(テキスト参照)。有意なカイ自乗値を与えた少ないサンプルサイズの混成遺伝子型はほぼ常時、より明色の眼球色と比較して、我々の試験サンプル中で過小呈示されたより暗色の眼球色を予測するものであった。
選択された最適なツリーの根部はTYR2LOC920ハプロタイプ系の遺伝子型であった。種々のTYR2LOC920遺伝子型クラスから発生している後の節部の識別名および次数は各特定の根部について異なっていた。例えば、TYR2LOC920AG/CAの個人(行1〜12、表K)について選択された第1の節部(第2のハプロタイプ系)はOCA3LOC920系であるが、MCR3LOC105系がTYR2LOC920A
G/ACの個人(行15〜22、表K)に関する第2の節部として選択された。ある場合において分類規則は混成遺伝子型について作成され(1または複数のハプロタイプ系に由来する二倍体ハプロタイプ対の個別のコレクション)、また別の場合には、それらは特定の混成遺伝子型クラスについて作成されている(ハプロタイプ系の共通のセットに由来する要素を組み込んだ混成遺伝子型の同族のコレクション)。
分岐工程に関する作用統計値は以下の表Lに示すとおりである。
Figure 2006503346
表Lにおいて、各行は混成遺伝子型クラス(1または複数の混成遺伝子型を含む)を示し、それは特定の混成遺伝子型またはネステッド遺伝子型クラスが分類規則を構築するために得られたクラスに由来している。分岐の決定に関する一対のF統計値p値は列5に示すとおりであり、これは各混成遺伝子型クラス内の個人の明色または暗色の眼球群の間の遺伝子的相違を測定する。厳密な規則はこれらの混成遺伝子型クラスから得られるものであり、有意なカイ自乗作用統計値により正当化される。各混成遺伝子型クラスの要素(その構成要員であるハプロタイプまたはハプロタイプクラス)は列ごとに示す。縮重ヌクレオチド位置はIUBコードで示す。ツリーは演算子「if」から出発して左から右に読む。第1の列には混成遺伝子型クラスの根部(テキスト参照)が含まれる。右側の次の列への進行の際は、演算子「and」を使用して混成遺伝子型の第2の要素(即ち第1の節部)を含むようにし、次に第3番目(存在する場合)以降について、統計学的に有意な分配
が混成遺伝子型クラス内に作成されるまで(存在する場合)行う。混成遺伝子型クラス内の異なる眼球色の色調の個人が異なる遺伝子構造のサブグループに分配できる場合の工程は試験の該当p値における行に沿って終了し、規則(存在する場合)をカイ自乗の統計値を用いてクラス内の混成遺伝子型から誘導する(表L)。それらが統計学的に有意な態様で分配できない場合は、別の項目をモデルに付加し、工程を右側の次のハプロタイプ系に向かって継続する。P=INCALCとは一対FSTp値が算出されなかったことを意味する。その最も一般的な理由は一対測定法を非現実的なものとしている混成遺伝子型クラスに対する眼球色群の一方または両方内における遺伝子的均質性(僅か1種のみの混成遺伝子型)である。他の場合と同様、有意なカイ自乗作用統計値を用いて混成遺伝子型クラス内の混成遺伝子型に関する分類の葉部(または非決定的ステイタス)に分岐することを正当化した。各混成遺伝子型クラスに関するサンプルサイズは最後の列に示す。
表Lを表Kにおける特定の規則と比較すると、混成遺伝子型に関する分類規則を作成するための最良の決断は、それが由来する混成遺伝子型クラス内における統計学的に有意な集団レベルの遺伝子構造の差の存在により正当化された。多くの規則は、集団レベルの遺伝子構造の差の尺度が算出されなかった混成遺伝子型クラスから作成された。通常これは眼球色または眼球色の色調群の一方または両方に関して僅か1種の混成遺伝子型クラスしか存在しないためである(試験は各集団内の遺伝子的多様性を必要とする)。これらの場合、混成遺伝子型クラスまたは混成遺伝子型から分類基準を作成することの正当化は、眼球色の色調の間での遺伝子型の分布に関する有意なカイ自乗作用統計値(p<0.05)(眼球色の色調間の混成遺伝子型の分布を考慮すれば混成遺伝子型クラスのレベルで、また混成遺伝子型そのもののレベルにおいても)により正当化された。
場合により、より小さいサイズ(即ちn<15)の混成遺伝子型クラスに由来する混成遺伝子型に対して規則が構築されるが、その理由は眼球色の色調間の遺伝子型の分布がカイ自乗検定を用いた測定においては明確に分配されているからである。例えば、僅か9人の個人だけが表LにおけるTYR2LOC920 AG/AG:MCR3LOC106 OTHER(CCC/CYCではない)混成遺伝子型クラスの部分であるが、これら9個人では、F統計値p=0.027±0.014(表Lの行6)で眼球色群の間で良好に分配しており、この混成遺伝子型クラスの2つの構成成分(TYR2LOC920 AG/AG:MCR3LOC106 CCC/TCCおよびTYR2LOC920 AG/AG:MCR3LOC106 CCC/CCT)を明色眼球およびヘーゼルとしてそれぞれ分類するためのカイ自乗p値の各々は0.05未満であった(表Kの行18、19)。
最適な分類ツリーの適用の結果である正確および不正確な分類の数を表作成したところ(表K)、211個人が正確に分類されたのに対し、僅か8人のみが誤分類されていた(即ち混乱要因であった)。即ち、正答率96.3%であった。33個人はそれらが部分を構成している群についてサンプルサイズが小さかったため分類されなかった。残りは十分なサンプルサイズの群であったが、混成遺伝子型(または遺伝子型クラス)のカイ自乗統計値は有意ではなかった。27人の別の個人のハプロタイプの相は75%のレベルで不明であり、このため、これらに関しては分類はできなかった。非決定的結果とハプロタイプ決定不能とを組み合わせると合計で62個人が我々の試験において分類可能ではなかった。即ち、解答は試験した白人の81%に対して有用性を示したが、ハプロタイプ確定個人内においては、解答は86%の有用性を示した。解答はまた他の人種(アジア人およびアフリカ系アメリカ人)の個人についても試験した。眼球色既知白人の第2の群(n=124)に適用した場合、モデルは良好に帰納した(96%正確)。アフリカ系アメリカ人、白人およびアジア人に適用した場合、我々の解答の精度は99.9%にまで向上し、98%の個人が分類可能であった。
最終コメント。開発したものは効率的な数理学的態様において遺伝子分散の主要成分3
種(即ち、付加性、優性度および相互作用)の全てを把握する複合遺伝子学的分類のための新しい方法である。本発明の方法は、遺伝形質を予測するために遺伝子変異体が認められる組合せに沿って変異体に関する統計学的有意差を用いている。全ての観察される遺伝子型および遺伝子型組合せから形質に有意に関連するものとして識別される特定の遺伝子型および遺伝子型組合せの存在に対してコード付けを行い、次に種々の判別手順を用いて分類を行うための「規則」を識別する。分類ツリー法を用いて分類のためのリストから「規則」を識別する。両方の方法の基礎となるものは、全ての観察された遺伝子型および遺伝子型組合せに関する観察された形質クラスのカウントのリストである。
好ましくは、遺伝形質の分類において使用するための方法および装置は遺伝形質に関連する遺伝子を少なくとも2種を含む。1つの例示的方法においては、遺伝形質に関連する複数の形質クラスのうちの1種において個人を分類する際に使用するための値を算出する。値は、(1)個人に関して識別される少なくとも2種の遺伝子を有する複数の遺伝子型の各遺伝子型に関連する寄与度の合算値である。ただし各遺伝子型に関する寄与度は、サンプル集団において識別される遺伝子型と各形質クラスとの間の統計学的関連性から少なくとも部分的に識別されるものであること、および、(2)個人において識別される少なくとも2種の遺伝子間の1または複数の遺伝子型の組合せに関連する寄与度の合算値であること。ただし1または複数の遺伝子型の組合せの各々に関する寄与度は、サンプル集団中に識別される遺伝子型の組合せと各形質クラスとの間の統計学的関連性から少なくとも部分的に識別されるものであること、に基づいて算出される。遺伝形質の分類試験には、コンピュータ記憶媒体およびコンピュータプロセッサ上でこのような方法を実行するためのコンピュータ記憶媒体上に保存されたコンピュータインストラクションを含んでよい。
別の例示的方法においては、少なくとも2種の遺伝子を有する複数の遺伝子型の各々と遺伝形質の複数の形質クラスの各々と関連するサンプル集団の個人のカウントの間に第1の統計学的関連性を創出する。更に、少なくとも2種の遺伝子を有する全ての遺伝子型の組合せの各々1種と遺伝形質の数種のうちの各々1種に関連するサンプル集団の個人のカウントとの間に第2の統計学的関連性を創出する。第1および第2の関連性に基づいて、遺伝形質の複数の形質クラスの1種にサンプル集団外の個人を分類するための1または複数の数式が作成され提供される。例えば、複数のp値を第1の統計学的関連性に基づいて算出し、1または複数の数式は算出された複数のp値に基づいた寄与度と共に提供される。他の例として、閾値を超えるサンプル集団におけるカウントパーセンテージを有する形質クラスに関連する1または複数の遺伝子型の組合せを第2の統計学的関連性から識別し、識別された1または複数の遺伝子型の組合せと関連する寄与度と共に1または複数の数式が提供される。また、遺伝形質分類試験はコンピュータ記憶媒体およびこのような方法を実施するためのコンピュータ記憶媒体上に保存されているコンピュータインストラクションを含んでよい。
本明細書に記載した方法を実施するための1または複数のコンピューティングデバイスを有するコンピュータネットワークを示す。 本明細書に記載した方法のために利用してよい種々のコンピュータのコンポーネントを示す。 特定の遺伝形質に関する複数の形質クラスのうちの1種に個人を分類する際に使用するための方法を記載したフローチャートである。 遺伝形質に関する複数の形質クラスのうちの1種に個人を分類する際に使用するための他の方法を説明するフローチャートである。

Claims (10)

  1. 遺伝形質に関連する少なくとも2種の遺伝子を含む遺伝形質分類における使用のための方法であって、
    遺伝形質に関連する複数の形質クラスの1つに個体を分類するための値を算出する作業を包含し、該算出が、
    個人において識別される少なくとも2種の遺伝子の、複数の遺伝子型の各遺伝子型に関連する寄与度、即ち、サンプル集団において識別される遺伝子型と各形質クラスとの間の統計学的関連性から少なくとも部分的に識別される各遺伝子型に関する寄与度を合算し、
    個人において識別される少なくとも2種の遺伝子間の1または複数の遺伝子型の組合せに関連する寄与度、即ち、サンプル集団中に識別される遺伝子型の組合せと各形質クラスとの間の統計学的関連性から少なくとも部分的に識別される1または複数の遺伝子型の組合せの各々に関する寄与度を合算することに基づく、方法。
  2. 算出された値に基づいて、複数の形質クラスのうちの1種に個人を分類する作業をさらに包含する、請求項1に記載の方法。
  3. 各遺伝子型に関する寄与度がサンプル集団中に識別される遺伝子型と各形質クラスとの間の統計学的関連性から、算出されたp値により少なくとも部分的に識別される、請求項1に記載の方法。
  4. (1)個人において識別される少なくとも2種の遺伝子の、複数の遺伝子型の各遺伝子型に関連する寄与度を合算し、ここで、各遺伝子型に関する寄与度が、サンプル集団において識別される遺伝子型と各形質クラスとの間の統計学的関連性から少なくとも部分的に決定され、(2)個人において識別される少なくとも2種の遺伝子間の1または複数の遺伝子型の組合せに関連する寄与度を合算し、ここで、1または複数の遺伝子型の組合せの各々に関する寄与度は、サンプル集団中に識別される遺伝子型の組合せと各形質クラスとの間の統計学的関連性から少なくとも部分的に決定されることより算出された値に基づいた個人に関する遺伝形質クラス認識物。
  5. 各遺伝子型に関する寄与度が、サンプル集団において識別される遺伝子型と各形質クラスとの間の統計学的関連性から、算出されたp値により少なくとも部分的に識別される、請求項4に記載の遺伝子形質クラス認識物。
  6. 形質クラスに関連する1または複数の遺伝子型の組合せの各々が、閾値を超えたサンプル集団中のカウントパーセンテージを有する、請求項4に記載の遺伝子形質クラス認識物。
  7. 遺伝形質と関連する少なくとも2種の遺伝子を含む遺伝子学的分類における使用のための方法であって、
    遺伝形質の複数の形質クラスの各々に属するサンプル集団の個人の、少なくとも2種の遺伝子の複数の遺伝子型の各々とカウントとの間に第1の関連性を創出する作業と、
    遺伝形質の複数の形質クラスの各々に属するサンプル集団の個人の、少なくとも2種の遺伝子の遺伝子型の全遺伝子型の組合せのうちの各々とカウントとの間に第2の関連性を創出する作業と、
    第1および第2の関連性に基づいて、遺伝形質の複数の形質クラスのうちの1種にサンプル集団外の個人を分類するための1または複数の数式を提供する作業とを包含する、方法。
  8. サンプル集団外の個人を、個人に関して識別される少なくとも2種の遺伝子の遺伝子型に基づく1または複数の数式から値を算出することにより、複数の形質クラスのうちの1種に分類する作業をさらに包含する、請求項7に記載の方法。
  9. 遺伝形質と関連する少なくとも2種の遺伝子を含む遺伝子学的分類において使用するための方法であって、
    遺伝形質の複数の形質クラスの各々に属するサンプル集団の個人の、少なくとも2種の遺伝子の遺伝子型の全遺伝子型の組合せの各々とカウントとの間の統計学的関連性を創出する作業と、
    創出された関連性に基づいて、遺伝形質の複数の形質クラスのうち1種にサンプル集団外の個人を分類するための数式を提供する作業とを包含する、方法。
  10. サンプル集団外の個人を、1または複数の数式を用いて、複数の形質クラスのうちの1種に分類する作業をさらに包含する、請求項9に記載の方法。
JP2003550120A 2001-12-03 2002-12-02 分類ツリー分析を含む遺伝子学的分類における使用のための方法および装置 Pending JP2006503346A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US33873401P 2001-12-03 2001-12-03
PCT/US2002/038309 WO2003048999A2 (en) 2001-12-03 2002-12-02 Methods and apparatus for genetic classification

Publications (1)

Publication Number Publication Date
JP2006503346A true JP2006503346A (ja) 2006-01-26

Family

ID=23325943

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003550120A Pending JP2006503346A (ja) 2001-12-03 2002-12-02 分類ツリー分析を含む遺伝子学的分類における使用のための方法および装置

Country Status (6)

Country Link
US (1) US7593816B2 (ja)
EP (1) EP1451754A2 (ja)
JP (1) JP2006503346A (ja)
AU (1) AU2002352985A1 (ja)
CA (1) CA2468570A1 (ja)
WO (1) WO2003048999A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102709A (ja) * 2005-10-07 2007-04-19 Toshiba Corp 遺伝子診断用のマーカー選定プログラム、該プログラムを実行する装置及びシステム、並びに遺伝子診断システム
JP2014139787A (ja) * 2013-01-21 2014-07-31 International Business Maschines Corporation 表現型予測のためのエピスタシスの効率的なモデル化のための特徴選択方法、情報処理システム、及びコンピュータ・プログラム
JP2016082932A (ja) * 2014-10-28 2016-05-19 花王株式会社 皮膚性状判定のための遺伝子検出方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005031591A1 (en) * 2003-09-30 2005-04-07 Intel Corporation Most probable explanation generation for a dynamic bayesian network
JP6312253B2 (ja) * 2014-11-25 2018-04-18 学校法人 岩手医科大学 形質予測モデル作成方法および形質予測方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5580728A (en) * 1994-06-17 1996-12-03 Perlin; Mark W. Method and system for genotyping
US6291182B1 (en) * 1998-11-10 2001-09-18 Genset Methods, software and apparati for identifying genomic regions harboring a gene associated with a detectable trait

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102709A (ja) * 2005-10-07 2007-04-19 Toshiba Corp 遺伝子診断用のマーカー選定プログラム、該プログラムを実行する装置及びシステム、並びに遺伝子診断システム
JP2014139787A (ja) * 2013-01-21 2014-07-31 International Business Maschines Corporation 表現型予測のためのエピスタシスの効率的なモデル化のための特徴選択方法、情報処理システム、及びコンピュータ・プログラム
US10102333B2 (en) 2013-01-21 2018-10-16 International Business Machines Corporation Feature selection for efficient epistasis modeling for phenotype prediction
US10108775B2 (en) 2013-01-21 2018-10-23 International Business Machines Corporation Feature selection for efficient epistasis modeling for phenotype prediction
US11335434B2 (en) 2013-01-21 2022-05-17 International Business Machines Corporation Feature selection for efficient epistasis modeling for phenotype prediction
US11335433B2 (en) 2013-01-21 2022-05-17 International Business Machines Corporation Feature selection for efficient epistasis modeling for phenotype prediction
JP2016082932A (ja) * 2014-10-28 2016-05-19 花王株式会社 皮膚性状判定のための遺伝子検出方法

Also Published As

Publication number Publication date
WO2003048999A3 (en) 2004-06-17
AU2002352985A1 (en) 2003-06-17
WO2003048999A2 (en) 2003-06-12
CA2468570A1 (en) 2003-06-12
US20070042362A1 (en) 2007-02-22
EP1451754A2 (en) 2004-09-01
US7593816B2 (en) 2009-09-22

Similar Documents

Publication Publication Date Title
US20190316209A1 (en) Multi-Assay Prediction Model for Cancer Detection
US11514627B2 (en) Methods and systems for determining and displaying pedigrees
US7107155B2 (en) Methods for the identification of genetic features for complex genetics classifiers
JP6312253B2 (ja) 形質予測モデル作成方法および形質予測方法
US20210343414A1 (en) Methods and apparatus for phenotype-driven clinical genomics using a likelihood ratio paradigm
Mugal et al. Polymorphism data assist estimation of the nonsynonymous over synonymous fixation rate ratio ω for closely related species
US7640113B2 (en) Methods and apparatus for complex genetics classification based on correspondence analysis and linear/quadratic analysis
Sjödin et al. Estimating divergence times from DNA sequences
Dudoit et al. A score test for the linkage analysis of qualitative and quantitative traits based on identity by descent data from sib-pairs
US20210358568A1 (en) Nucleic acid sample analysis
JP2006503346A (ja) 分類ツリー分析を含む遺伝子学的分類における使用のための方法および装置
Santos rdss: An R package to facilitate the use of Murail et al.'s (1999) approach of sex estimation in past populations
Nugraha et al. Performance analysis of relief and mRMR algorithm combination for selecting features in lupus Genome-Wide Association Study
JP5852902B2 (ja) 遺伝子間相互作用解析システム、その方法及びプログラム
Zhang et al. Ridge regression based hybrid genetic algorithms for multi-locus quantitative trait mapping
US20200013484A1 (en) Machine learning variant source assignment
US20050177316A1 (en) Algorithm for estimating and testing association between a haplotype and quantitative phenotype
Nonyane et al. Multiple imputation and random forests (MIRF) for unobservable, high-dimensional data
Wiens et al. triangulaR: an R package for identifying AIMs and building triangle plots using SNP data from hybrid zones
US20230335217A1 (en) Accelerated hidden markov models for genotype analysis
Lu An embedded method for gene identification in heterogenous data involving unwanted heterogeneity
Sundelin Machine Learning for Genetic Studies
Zhao Theory and Application About Variable Selection Approaches for High Dimensional Genomic Data
Kovacevic et al. Smart variant filtering
Peng et al. A Likelihood Ratio Test for Hybridization Under the Multispecies Coalescent

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090421