JP2006503346A

JP2006503346A - 分類ツリー分析を含む遺伝子学的分類における使用のための方法および装置

Info

Publication number: JP2006503346A
Application number: JP2003550120A
Authority: JP
Inventors: フルダキス，トニー・ニック
Original assignee: ディーエヌエー・プリント・ジェノミックス・インコーポレイテッド
Priority date: 2001-12-03
Filing date: 2002-12-02
Publication date: 2006-01-26
Also published as: WO2003048999A3; AU2002352985A1; WO2003048999A2; CA2468570A1; US20070042362A1; EP1451754A2; US7593816B2

Abstract

遺伝形質に関連する少なくとも２種の遺伝子を含む遺伝形質分類において使用するための方法および装置を記載する。１つの例示的方法においては、遺伝形質に関連する複数の形質クラスのうちの１種に個人を分類する際に使用するための値を算出する。該値は、（１）個人に関して識別される少なくとも２種の遺伝子を含む複数の遺伝子型の各遺伝子型に関連する寄与度の合算値、ここで各遺伝子型に関する寄与度は、サンプル集団において識別される遺伝子型と各形質クラスとの間での統計学的関連性から少なくとも部分的に識別され、（２）個人において識別される少なくとも２種の遺伝子間の１または複数の遺伝子型の組合せに関連する寄与度の合算値、ここで、１または複数の遺伝子型の組合せの各々に関する寄与度は、サンプル集団中に識別される遺伝子型の組合せと各形質クラスとの間の統計学的関連性から少なくとも部分的に識別されるものであることに基づいて算出される。好都合には、上位性並びに付加性および優性度の影響を考慮することにより、より正確な遺伝形質分類を行う。

Description

関連出願の相互参照
本出願は、２００１年１２月３日に出願された「複合遺伝子学分類子を構築するための分類ツリー法」と題し米国特許出願第６０／３３８，７３４号の優先権を主張するものである。

技術分野
本発明は遺伝子分類、特に、複合遺伝子学的方法を用いた盲検遺伝子学的分類に関する。

遺伝子学的分類の目的は、特定の遺伝形質（例えば眼球色）に関連した複数の遺伝形質クラス（例えばブラウン、ブルー、グリーン等）のうちの１種に個人を正確に分類することを可能にすることである。遺伝子学的分類試験は個人より得た遺伝子試料に基づいて個人がどの形質クラスに分類されるかを高精度で識別することが可能でなければならない。本出願は正確な遺伝子学的分類試験を創出または構築するための複合遺伝子学的分析およびソフトウエアの使用に関するものである。このような分類試験は特に個人化医薬および犯罪捜査の分野において高度に価値ある用途を有している。

本出願はより詳しくは「盲検的」遺伝子学的分類に関する。「盲検的遺伝子学的分類」とは、実際の分類ツールを構築する際には使用されていない個人の遺伝子サンプルの分類である。例えば１０００サンプルを考える場合、分類モデルはそのうちの９００から作成される。９００個人の分類は１つのレベル（使用する遺伝子による）において行われ、そして残りの１００の盲検的分類も同様に行わなければならない。しかしながら、盲検的分類はどのように良好に分類モデルが帰納するかに応じて、完全に行われなくてもよい。

遺伝子学またはゲノミクスの分析において用いられている既存の分類方法に伴う問題点の多くは、それらが良好なモデルを作成するものの、モデルが極めて良好に帰納するわけではないという点である。即ち、作成されるモデルは、データに「過剰フィット」している。このことは、これらの方法が複合遺伝子学的分析の特定の条件を考慮しながら開発されたものではないことを考えれば、当然である。例えば、一次判別法およびベイズ確率モデルは単一の遺伝子型の関連性の重要性を過大評価しており、このことは、それらが優性度および付加性の問題に対しても高感度であるが、ただし遺伝子学的に非一次の相互作用或いは上位性と称されるより高次の相互作用を無視していることを意味している。従って、盲検的試みの際は、それらは本明細書に記載した本発明の方法と比較して同じデータセットを用いた場合、期待はずれとなってしまう。

ある方法では複合遺伝子学的パラメータを測定（いわゆる「パラメトリック」法）しており、そのため多くの制約事項を有している。これらの一部は形質値に基づいて遺伝子変異体の付加、優性および相互作用の寄与度を定義している。これらの値を測定するために、プログラムは回帰分析を用いている。これらの方法はモデルの構築に用いられたサンプルに対して試験する場合は高度に正確であるように思われる。しかし、理由は不明であるが、それらは盲検的分類には本明細書に記載する本発明の方法よりも帰納することがない傾向がある。これはおそらくパラメータの推定が、不十分なサンプルサイズに対し特に感受性があるためと思われる。

皮膚色の形質が２つの遺伝子ＡおよびＢの機能であり、そして、各遺伝子が集団Ａ１、Ａ２、・・・、ＡｎおよびＢ１、Ｂ２、・・・、Ｂｎにおいて種々の形態（即ちハプロタイプ）を有すると仮定する。Ａ１は常に暗色皮膚を特定するがＡ２はＢ１と対になった場合に暗色皮膚を、そしてＢ２と対になった場合に明色皮膚を特定する場合がある。このような場合、Ａ１の影響は優性であり、Ａ２の影響は相互作用的であるといえる。各人間は各遺伝子について２個のコピーを有する。ある人物はＡ１／Ａ１およびＢ１／Ｂ１を有するが、別の人物はＡ１／Ａ２およびＢ１／Ｂ３を有する場合がある。個人がＡ３のコピーを有さない場合、皮膚色は平均より暗色となり、個人がＡ３を１コピー有する場合は、皮膚色は常時、中間色となり、個人がＡ３を２コピー有する場合は、皮膚色は極めて明色となる。この場合、Ａ３は皮膚色に対して付加的作用を有するといえる。

形質を決定する遺伝子の信頼性は高く知られているものの、形質の正確な分類を行うためにそれを使用することとは別の問題である。類比すれば、パズルのピースの完全なセットを持っているという理由のみで、それらをどのように嵌め合わせれば画像が構成されるか即座にわかるわけではない。大部分のヒトの形質は数種の遺伝子の付加、優性、および相互作用的影響の関数であり、形質に対する遺伝子の作用をこれら３種の影響に分解することにより、遺伝子学者は形質が特定の遺伝子変異体および遺伝子変異体の組合せによってどのように決定されるかを理解し易くしている。各遺伝子の各形態が形質の決定にどのように関与しているかを理解することは、遺伝子学の研究者等の基本的な目標である。

このことを知れば、形質クラスに個人を分類することが可能である。可変薬剤応答、または疾患素因の分野において、このような能力は多大な社会的および経済的な意味を有する。形質予測のために遺伝子配列を用いる種々の方法がこれまで開発されており、例えば、一次判別分析およびベイズ分類が挙げられる。残念なことに、これらの方法では、遺伝子ごとの影響の微妙さに着目することや、個人の遺伝子型の影響を十分把握することは、殆どなされていない。

形質に影響する遺伝子の信頼性が高く知られているにもかかわらず遺伝子学的分類を行うことがなぜ困難であるかを説明する例を考える。この例においては、２種の遺伝子ＡおよびＢを特定する。皮膚色調に関して６５８人に関する以下のサンプル「カウント」を仮定する。

このデータからは、Ａ１遺伝子型を有する人々は通常暗色皮膚を有するが、場合により中間色または明色を有し、Ａ２を有する人々は通常は明色皮膚を有さないことが決定できる。この知識に基づいて分類すると、誤分類はＡ１個人では僅か２８例であるが、Ａ３個人では８１例である。この例においては、Ａ１／Ａ１は明色ではない（正答１０５／１０８回）、Ａ１／Ａ２は明色ではない（正答５５／５７回）等のように遺伝子型に基づいて
分類規則を作成するほうがよい。

ここで以下のカウントを有するＢ遺伝子を考える。

Ａ変異体に沿ってこのようなＢ遺伝子変異体を考えることは、良好な分類を可能にすると考えられる。この場合、Ｂ１を有するものは暗色を有する傾向を示し、Ｂ３を有するものは平均してより明色である。しかし暗色を有していた１０人のＢ２／Ｂ２個人は他のＢ２／Ｂ２個人からそれらを区別する特定の遺伝子Ａ遺伝子型を有しているのか。実際の遺伝子学的問題については、遺伝子Ａを用いて誤分類されたものが遺伝子Ｂを用いて正確に分類されることはまれであり、１０より多い遺伝子がデータの変動性の全てを説明するために必要である場合が多い。このことは形質に影響する遺伝子の信頼性が高く知られているにもかかわらず遺伝子学的分類を行うことがなぜ困難であるかということの一例を示している。

ＡおよびＢの対立遺伝子の特定の組合せが正確な分類を行い易くする場合が多いことは分かっている。しかしながら、これらの組合せが形質値に関係する態様は予測できない。このため良好な遺伝子学的分類をするには、観察が重要であり、本明細書に記載する本発明が依存している方法も観察なのである。例えば、ＡおよびＢ遺伝子変異体の組合せが以下のカウントを有するテーブルを与えるとする（部分的に示す）。

表Ｃより、Ａ１／Ａ１＋Ｂ１／Ｂ２の組合せは常時「明色ではない」を予測し、通常は暗色を予測してきている。また、Ａ１／Ａ３＋Ｂ１／Ｂ２の組合せも常時「中間」色を予測していると考えられる。これらの結果には意外な部分と意外でない部分がある。表Ａおよび表Ｂでは、Ａ１／Ａ１およびＢ１／Ｂ２の両方がそれ自体暗色に関係しており、組合せＡ１／Ａ１＋Ｂ１／Ｂ２を有する人々が殆ど常時暗色を有することは意外であるとはいえない。これとは対照的に、Ａ１／Ａ３はそれ自体が何れの色とも関係しているとは考えられず、Ｂ１／Ｂ２は暗色と関係するがＡ１／Ａ３＋Ｂ２／Ｂ２の組合せでは中間色と関
係している。この場合、Ａ１／Ａ３組合せの存在は表ＢにおけるＢ１／Ｂ２個人の一部が暗色でないことを説明しており、「Ｂ１／Ｂ２の存在はＡ１／Ａ３が存在しなければ暗色を示す」という規則は、「Ｂ１／Ｂ２が暗色を示す」という規則よりもより高度な盲検的分類の精度を有すると考えられる。

究極的な形質の１つのタイプに関連する変異体対が同じ究極的な形質に関係した別の遺伝子変異体対と対になる場合、中間的形質が生じる場合がある。ある場合においては一緒になって特定の形質値を決定するものが、それ等自体は全く形質に関係しない２種の変異体なのである。形質値に影響する遺伝子変異体の間の相互作用は上位性と称される。これらタイプでの予測されなかった結果は遺伝子学分野では異常なことではない。我々のデータによれば、このタイプのシナリオは全く非一般的なものではなく、本明細書に記載した本発明の方法が重要な進歩であることを説明している。

Ａの影響およびＢの影響が既知である場合、Ａ＋Ｂの影響が観察前に常時予測できないのはどういうわけであろうか。換言すれば、上位性はどのようにして存在可能となるのか。最も動的な生化学的経路とその影響は複合的なものである。各遺伝子の産物は無数の複合的な生化学的ネットワークの一部であり、力学的生化学的経路における遺伝子産物の修飾は、経路における遺伝子の位置および修飾の種類に応じて、経路の機能に多少の影響を及ぼすと考えられる。多くの生化学的ネットワークは相互に交差しており、１つの経路において修飾がもたらすことのできる複雑性および予測不能性を付加している。大部分の遺伝子学者らは遺伝子変異体を形質に関係付けることは、生化学的研究から推測または推量することよりもむしろ観察に依存していることに合意している。換言すれば、遺伝子学的観察は期待したものと常に合致するわけではない。それは観察が不正確であるからではなく、遺伝子学的が極めて複合的であるためである。このような修飾および変異体がどのように形質形成に関与しているかを、観察を通じて知ることは極めて好都合である。本明細書に記載する本発明の方法はこのような観察のためのツールである。

大部分のヒトの形質では、特定の変異体の組合せ（Ａ１／Ａ１またはＡ１／Ａ３のような遺伝子型と称される）は形質に関して高度に予測的であるが、他の組合せでは予測的ではない。特定の変異体（例えばＡ１またはＡ３）は変異体に特有の種々の範囲においてそれ自体予測的であるが、他のものはそうではない。変異体の組合せにおける特定のもの（遺伝子型）は形質に関係付けられると考えられる。しかしながら、遺伝子型の各々は形質に関係付けたり、組合せのリンケージに基づいて予測される態様で関係付けたり、または組合せリンケージに基づいて予測されない態様で関係付けたりされない場合がある。これらは集団遺伝子学がその研究を実用化しようとする際に取り組まなければならない複合的な問題である。

開発されているものは効率的な数理学的方法における遺伝子変異体の３種の主要な成分すべて（付加性、優性度および相互作用）を把握する遺伝子学的分類のための新しい方法である。本発明の分類方法は既存の方法よりも実質的に高性能であり、例えば色素遺伝子ハプロタイプからのヒトの虹彩色の分類には良好に適用可能であった。本発明の方法は、遺伝形質を予測するために変異体が研究サンプル中に存在する範囲内での組合せに沿って遺伝子変異体に関する統計学的有意性を利用している。方法は直接一次または二次曲線分類、ニューラルネットワーク、方向セッティング規則、ベイズ推定法および標準定量的遺伝子学的パラメータ推定から発生する分類を含む他の方法よりも高性能である。

遺伝形質分類において使用する方法および装置は遺伝形質に関連する遺伝子を少なくと
も２種含む。１つの例示的方法においては、遺伝形質に関連する複数の形質クラスのうちの１種に個人を分類する際に使用するための値を算出する。値は、（１）個人に関して識別される少なくとも２種の遺伝子の複数の遺伝子型の各遺伝子型に関連する寄与度の合算値、ここで、各遺伝子型に関する寄与度は、サンプル集団において識別される遺伝子型と各形質クラスとの間の統計学的関連性から少なくとも部分的に識別されるものであること、および、（２）個人において識別される少なくとも２種の遺伝子間の１または複数の遺伝子型の組合せに関連する寄与度の合算値、ここで、１または複数の遺伝子型の組合せの各々に関する寄与度は、サンプル集団中に識別される遺伝子型の組合せと各形質クラスとの間の統計学的関連性からは少なくとも部分的に識別されるものであるということに基づいて算出される。

好都合には、上位性並びに付加性および優性度の影響を考慮することにより、より正確な遺伝形質分類を行う。有用な分類ツリー分析もまた記載する。

本発明の方法は分類ツリーおよびハプロタイプの組合せを用いた一次判別分類の複合物を構成する分類方法であるｐ値法として捕らえてよい。本発明の方法は遺伝子の組合せ（例えばＳＮＰまたはハプロタイプ）のリストを作成すること、および、比較的純粋な形質値と遺伝子型そのものの組合せを用いて盲検的遺伝子学的分類を行うことに関するものである。

形質を予測する遺伝子の形態を識別するための方法が開発されており（例えば米国特許出願第１０／１２０，８０４号「複合遺伝子学的分類のための遺伝子的特徴の識別方法」参照）、これは重要な第１ステップである。本発明の方法は個人の変異体および変異体の組合せに関して予測的能力の測定を好都合に組み込んでいる。このようにすることにより、方法は形質に対する遺伝子の影響を形作る３種の主要な力、即ち付加性、優性度および上位性に対して高感度な分類規則を構築するのである。

数値が特定の変異体（適宜、ハプロタイプまたはＳＮＰ）である以下の遺伝子型組合せを考える。

上記データに関わる付加性の作用を検討する場合、遺伝子３の遺伝子型（２，４）は中間色に関係し、遺伝子４の遺伝子型（１，１）もまた中間色に関係するが、それらが共に認められる場合はそれらは暗色と強力に関係している。２種の遺伝子型は平均色よりもさらに暗色をもたらす何らかの化合物の生産に寄与していると考えられ、組み合わせられた場合、この化合物のレベルは極めて高値となり暗色をもたらす。優性度の作用を考えた場合、遺伝子１（１，１）遺伝子型は常時、明色個人で認められ、ある人物が遺伝子１（１
，１）の遺伝子型を有する場合、それらはその個人に存在する他の遺伝子の他の遺伝子型とは無関係に常時明色を有すると考えられる。（１，１）遺伝子１の産物は色素沈着経路における一種の律速段階となり、蓄積しないように色素濃度を維持していると考えられる。類推すれば、この遺伝子は自動車を適切に走行させないための壊れたホースとなっていると考えられる。

上位性作用を上記データとともに考えた場合、遺伝子３（２，４）および遺伝子４（１，１）は明色、中間色または暗色の何れにも関係していないとすれば、それらは無関係であると考えられる。しかしながら共に認められれば遺伝子３（２，４）および遺伝子４（１，１）は常時暗色の個人で認められ（表ＤのＤＮＡＰ０００２およびＤＮＡＰ０００３参照）、これらの２種は形質の決定に上位的に相互作用を示すことが考えられる。一次判別法またはベイズ確率法のような遺伝子学的分類の既存の従来法は付加性および特に優性度の成分を把握することに優れている傾向がある。しかし、残念ながらこれらの方法は上位性成分の把握には不向きである傾向がある。これとは対照的に、本発明の方法は分類の規則を開発する際にこれらの要素の３点全てを考慮している。

遺伝子１（１，１）および遺伝子２（１，１）がそれ自体で色の予測を行うこれらの遺伝子の何れかに関する唯一の対立遺伝子組合せであると仮定する。遺伝子１（１，１）対立遺伝子は明色に強力に関連（カイ自乗統計値が「明色」との関連性において低いｐ値を有する）し、遺伝子２（１，１）は暗色と関連するとする。全ての遺伝子ｉについて、下式

に基づく値を用いて個人を分類する。ここでｖ_i＝ｌｏｇ（ｃ／ｐ_i）であり、ｃは０．０５以上の適当に選択された定数であり、そしてｎは種々の形質に対する好都合なダミー変数、例えば明色に関してはｎ＝＋１、または暗色に関してはｎ＝−１とする。これから分かるとおり、数式１から得られた値は試料ＤＮＡＰ０００２よりもサンプルＤＮＡＰ０００１について高値となる。その理由は前者が明色に有意に関連している（１，１）遺伝子型を有し、後者が暗色に有意に関連している（１，２）遺伝子型を有しているためである。更にまた、遺伝子１（１，１）と明色との間の関連性が強くなるほど、ｐ値（ｐ_i）が低下し、スコアｖ_iの絶対値が大きくなる（その理由は、リンケージが明色を相手としており、それがより正の数となり、暗色と関係していれば、より負の数となるためである）。

以下の分類規則はこの例に基づいて開発され、即ち、正の値はサンプルが明色に分類されなければならないことを意味し、低値はサンプルを暗色に分類しなければならないことを意味する。この規則を用いながら、２サンプルを適切な群に分類することができる。しかしながら複合的形質の場合は特定の形質を単一の遺伝子がもたらす例は殆どない。遺伝子１は形質値に対して強力な影響を示すが、その影響はそれが存在する範囲内の機能である。

遺伝子２（１，２）＋遺伝子３（３，４）の組合せが常時、例えば以下：

のプロフィールが得られたように暗色の人物中において認められ、組合せについて下記のカウントが得られた：

遺伝子２（１，１）＋遺伝子３（１，１）の組合せが暗色の個人に認められることが分かる。数値スコアは、その合計スコアを暗色に調節するようなこの遺伝子２／遺伝子３の組合せを有する個人に与えることができ（例えば−１または−０．５または他の値、おそらくは組合せに対する形質値の「純度」に基づく）、それを数式１から得られた他のスコアに付加し、これによりより完全な予測に到達する。

即ち、スコアはまた試料集団において識別される全ての「有意な」遺伝子型組合せに関する式：

に基づいた遺伝子間の遺伝子型の組合せについて編集すべきである。ここでｃ_jはｊ番目の遺伝子型の組合せのインジケータ関数であり、即ちｃ_j＝０または１（ｊ番目の組合せ
が個人に存在しない場合は０、または、存在する場合はｃ_j＝１）であり、そして、ｎは種々の形質に関する好都合なダミー変数、例えばｎ＝＋１または−１（＋１は明色形質の場合、ｎ＝−１は暗色形質の場合）である。「有意な」遺伝子型の組合せは圧倒的に、または統計学的に１つの特定な形質クラス（例えば暗色皮膚）のもの、または、他のもの（例えば明色皮膚）であるサンプル試料中の組合せである（例えば、データセットに基づき、ほぼ常時、または９４％の頻度）。

即ち、全ての遺伝子ｉおよび全ての有意な遺伝子型組合せｊに関してより完全な数式を形成する。そして／あるいは最終分類値：

を算出することである。

上記表Ｆにおいて、遺伝子型組合せは９４％超の純度であること、即ち、カウントの９４％超が１色であることが必要である。この必要性により、遺伝子２（１，１）＋遺伝子３（１，１）の組合せは分類スコアに影響することが示されているものの唯一の組合せとなる。例えばリストが可能な組合せ数千通りに対する数千ページの長さである場合、そして、この組合せがこの必要性を満足する唯一のものである場合、数式２から分類すべき各個人のスコアはこの遺伝子型の組合せにのみ基づいている。この要件に合致する組合せがない場合、数式２から得られるスコアは分類すべき各個人に対してゼロ値となる。或いは、ｊは該当する遺伝子全てのうちの可能な全ての遺伝子型の組合せとなり、ｃ_jは関連性から得られるｐ値に基づいている。

或いは、数式２は分類を行う場合に上位性を示す観察結果を考慮できるようにする。６種の可能な２遺伝子組合せがある３種の遺伝子があるとする。

１，１
１，２
１，３
２，２
２，３
３，３
これらの遺伝子の各々が遺伝子型を有し、人の集団において、以下の表Ｇ：

に示すような観察された組合せのリストが存在するとする。これらの観察された組合せの各々は組合せを有する個人の群を有する。この組合せを有する個人とその色のリストを試験サンプルから作成する場合、リストは他の遺伝子組合せに関しては、以下の通り：

等となる。名称と色によりサンプルをリスト化するよりはむしろ、各組合せのカウントを単に下記：

の通りリスト化してよい（例えば単一の遺伝子について例示する）。表Ｈ’において、示された遺伝子１および２に関する遺伝子型は中間色の個人においては表れず、遺伝子１：４，３遺伝子２：１，１の組合せは暗色の個人において８／８回表れている。遺伝子１および遺伝子２は相互に作用して形質を形成するが、遺伝子１および遺伝子４は形成しない場合、前者に関する遺伝子型は上記表Ｈ’の場合のように色間で独立して分布しないが、
後者に関するものはそうではない。単純なカイ自乗試験を用いてこの決定を行うことができ、或いは１色に関する純度の％を用いることもできる。

好都合には、数式１および２の両方からの寄与度に基づいて分類を行うことは、遺伝子学的影響のタイプの全３種に対応できるものである。以下のサンプルを考える。

（ａ）遺伝子１対立遺伝子１が暗色に関係するが、対立遺伝子遺伝子２、対立遺伝子１および遺伝子３、対立遺伝子３および４の何れも色に関係しない、（ｂ）遺伝子１（１，１）組合せは暗色に強力に関連する。そして（ｃ）これらの遺伝子型の何れも、明色に弱く関連している組合せ遺伝子２（１，１）／遺伝子３（３，４）を除いて特定の色に統計学的に関係している組合せの部分として認められると仮定する。

上記に基づく場合、どれが色を最も良く決定するか。適切な分類は、観察項目（ａ）および（ｂ）が（ｃ）と比較して強力であることから、おそらくは「暗色」である。この場合、遺伝子１に関する１対立遺伝子の付加性または優性度の影響のいずれかが遺伝子２／遺伝子３の組合せの相互作用的影響を圧倒している。好都合にも、本発明の方法は遺伝形質の決定に対する種々の寄与度を把握しており、盲検的サンプルを用いて挑戦する際に良好に作用する複合遺伝子学的モデルを構築することが可能である。

適切な分類を識別するために、遺伝子２／遺伝子３組合せに対する遺伝子１（１，１）組合せの相対的影響を計測しなければならない。数式１から得られる値を数式２から得られるものに付加して得られるスコアがこのことを裏付けている。この場合、（１）から得られるスコアは、個人が暗色と強力に関連する遺伝子型を有するため、極めて負の数（例えば−１．５）である（低ｐ値を有するが、ｖｉの絶対値は高値である）。数式２から得られるスコアは僅かに正であるのみである（例えば０．１）。合わせた値はなお全く負である（−１．４）。

即ち、数式１を用いて個人の遺伝子型関連性のｐ値に基づいてまずスコアを算出し、次にこれを、数式２を用いてサンプルが保有する遺伝子型の組合せの数に基づいたスコアに付加することにより、サンプルを適切な形質クラスに分類し、その際、１種のみの形質クラスの他のものが有する組合せのみを考える。

サンプルが多くの暗色遺伝子型を有する場合、数式１はそれ自体正確な分類を与える。サンプルが多くの暗色遺伝子型および暗色個人にのみ存在する多くの遺伝子型組合せを有する場合、数式１は暗色の分類を示すスコアを与え、そして数式２はスコアの「暗色」の特性を強化する。サンプルが多くの暗色遺伝子型を有する場合、数式１は暗色の分類を示すスコアを与えるが、サンプルが明色個人においてのみ認められる多くの遺伝子型組合せを有する場合は、スコアは数式２を用いてこの観察結果を説明するように補正される。結果は数式１におけるｐ値の相対的強度および数式２において使用された組合せに依存している。暗色の遺伝子型を有する個人の一部は明色遺伝子型組合せを有すかまたはその逆の場合があり、スコアは暗色または明色のスコア、またおそらくは中間色のスコアを示す場合がある。

数式２については、全ての可能な遺伝子組合せについて全ての観察された遺伝子型組合せのリストがまず形質の関連性とともに作成される。いくつかの遺伝子を用いて作業を行う場合、このリストは通常は極めて長くなる。全ての可能な遺伝子型組合せのリストを作成し、数式２を提供することにより、形質値に影響すると思われるものが分類を行う際に適切に考慮されることを確実にすることができる。

数式１および２の結果を付加することにより得られる値は、長いセットの数を与える。適切な遺伝子および遺伝子型が分析に用いられる場合、それらの値は通常は形質値の優れたコードとなる。これらのコードはその後の分類を行うために使用できる。数式１および２を用いたこれらのスコアの合計から得られるスコアを用いて、例えば閾値を選択することにより分類を行うことができる（例えば−１．５かそれより負数は「暗色」を、−１．５〜０は「中間色」を、そして０より高値は「明色」を意味する。）またその値は、ＳＡＳまたはＳプラスソフトウエアのような市販のソフトウエアパッケージのための入力として使用できる。例えばＳＡＳを用いる場合、一次判別法を用いて分類を行う際の値の最も効率的な使用を開発することができる。また、例えばニューラルネットワーク、遺伝子的アルゴリズムまたは分類ツリーを用いることもできる。このことに関し、ニューラルネットワーク、遺伝子的アルゴリズムまたは分類ツリーを用いて（１）および（２）を使用するため、並びに、分類のための（１）および（２）の合計から得られた値の使用方法の決定のための最も良いダミー変数を定義することができる。

数式１および２により与えられる値に対し、遺伝子学者が自ら使用する傾向にあるが優れた結果を与える他の方法の一部を適用しても良い。このような方法の例としては一次判別法またはベイズ確率法が挙げられる。慣用的な結果の検討を行い、特定のスコアを有する個人が特定の形質値の個人である傾向を示すが、異なる値の他の者は他の値の者であることを知り、そしてこれにより分類を行うための値を用いるのに極めて簡単な方法を考案する。例えば、−１．５未満の値を有する全ての個人は「暗色」であり、ゼロ値より大きい値を有する全ての個人は「明色」であるが、−１．５〜０の値の者は混合された形質値の者である場合、−１．５未満の個人は「暗色」であり、ゼロ値より高値の者は明色であり、その他の何れの形質値もニューラルネットワークまたは遺伝子的アルゴリズム（これは極めて簡単な分類ツリーと類似することになる）を用いることなく非決定的な分類を示すと結論できる。

盲検的分類を行う際に使用される閾値は大部分の遺伝子学研究者等が自ら使用している他の一般的な方法を適用することにより決定できる。このような方法にはニューラルネットワーク法、遺伝子的アルゴリズム、一次判別法、または、分類ツリーが包含され、これら各々の方法を試行して最も良い盲検分類率を与える方法を選択して使用できる。即ち、本発明の方法は正確な分類を行うためのデータから得られる観察結果に強力に依存する経験的ツールとして捕らえることができる。一部の問題については、１つの形質値を表示する値は別の値に関するものとは明確に異なっており、分類規則は目視により開発することができる。他の問題については、上記した方法の１つを適用して値を用いることにより正確な分類を行わなければならない。

数式２により与えられた組合せスコアはニューラルネットまたは遺伝子的アルゴリズムを用いることにより変更することができる。例えば、恐らくは１つの形質値のみのものである遺伝子型組合せを最適に作用するモデルを開発するために用いなければならない。これらを「純粋な」組合せと称する。場合により、９４％純粋な組合せを用いて最適な結果を得なければならない。どの組合せを用いるべきかは単純なカイ自乗統計値を適用することにより決定される。０．０５より低値のｐ値は一部の問題のための最適な結果のために用いてよいが、０．０１未満のｐ値を有するものは他の問題で最適な結果のために必要である場合がある。可能性の全てを試行することにより請求項に記載した方法の最もよい使
用を行わなければならない。各問題に関し、使用すべき「パラメータ」は独特であり、経験的に求めなければならないと考えられる。各タイプの遺伝子分類問題は特異的な方法で相互作用する遺伝子変異体のそれ自体のセットにより定義される。ヒトの眼球色については、３、４遺伝子組合せが最も情報性があると考えられるが、鎌状赤血球性貧血のような単純な疾患については、組合せは全く必要ではない。ここでもまた、方法は経験的過程の一部として好都合に使用してよい。

場合により、２遺伝子組合せの使用のほうが、３遺伝子または４遺伝子の組合せを使用するモデルよりも盲検的試みにおいて良好に作用するモデルの構築を可能にしている。最も良好に作用するｎ遺伝子座の組合せのｎはここでも経験的に決定され、再度、既存の方法によりｎを迅速に決定してよい。ｎ＝２、３、４および５のような場合を最低限試験してよい。ｎ＝５を超える場合、経済的原理により遺伝子学的研究に与えられるサンプルサイズの制約がある場合は、各組合せのサンプルサイズは信頼性を持って使用するには少な過ぎることがある。

一次および二次曲線判別法およびコレスポンデンス分析に基づく方法、ベイズ確率法、Ｍａｒｋｏｖ鎖およびニューラルネットワークに基づく他の方法は以前に説明している。これらの方法各々の適用によりモデルを構築するために使用する個人をどの程度良好に分類するかを検討する際、通常は良好に作用するモデルを与える（適切な入力データが問題の「特徴」であると仮定した場合）。一方、盲検的分類にはモデルの構築には関わらない個人を分類することが含まれ、これはどのように良好にモデルを帰納させるかを調べる手段である。同じデータセットに適用されれば、本明細書に記載した方法は盲検的試験においてこれらの他の方法よりも性能が優れている。

即ち、遺伝形質に関連する複数の形質クラスの１種に個人を分類する際に使用する値は、（１）個人に関して識別される少なくとも２種の遺伝子の複数の遺伝子型の各遺伝子型に関連する寄与度の合算値、ここで、各遺伝子型に関する寄与度は、サンプル集団において識別される遺伝子型と各形質クラスとの間の統計学的関連性から少なくとも部分的に識別されるものであること、また（２）個人において識別される少なくとも２種の遺伝子間の１または複数の遺伝子型の組合せに関連する寄与度の合算値、ここで、１または複数の遺伝子型の組合せの各々に関する寄与度は、サンプル集団中に識別される遺伝子型の組合せと各形質クラスとの間の統計学的関連性から少なくとも部分的に識別されるものであることに基づいて算出される。

これより明らかな通り、本発明の方法は他の適当な遺伝形質にも同様に、例えば特定の薬剤に応答する患者または患者が特定の疾患を有するか否か等にも適用される。

１実施例としてのヒト虹彩色および色素沈着ハプロタイプがある。一次判別およびコレスポンデンス分析法は、色素沈着遺伝子ハプロタイプを分析することにより適切な眼球色群への個人の分類を行うために既に使用されている（例えば、「複合遺伝子学的分類子の構築のための複合コレスポンデンス分析および一次／二次曲線分析」と題された米国特許出願第６０／３７７，１６４号；「複合遺伝子学的分類子のためのコレスポンデンス方法」と題された米国特許出願第６０／３３８，５２４号；および「複合遺伝子学的分類子を構築するための一次および二次曲線法」と題された米国特許出願第６０／３３８，４６８号を参照）。上記した方法は約４００個人に基づいた有用なモデルを与えており、これにより更に１００人の盲検的分類により少なくとも９４％の精度が示された。その後、サンプルサイズを８８１に増加した。これらのうち７８１を用いてモデルを構築し適切な方法を用いると、盲検的分類の精度は８５％まで低下した。

一方、同じ抽出データセットを本明細書に記載の本発明の方法と共に用い、一次判別法
と組合せ、数式１および２から得られた値を用いて分類を行った場合、９７％の精度が得られた。これより明らかな通り、本発明の方法は遺伝子学的データの分析が必要とする極めて特異的なパラメータに対してより感度が高い。

本発明の方法はまたより少ない関連遺伝子を用いて分類結果を得るために使用した。他の方法によれば、１００のサンプルサイズに対して８５％の盲検的分類精度を得るためには７８１のサンプルサイズに対して７種の遺伝子（ＯＣＡ２、ＭＹＯ５Ａ、ＴＹＲ、ＴＹＲＰ１、ＡＩＭ、ＳＩＬＶおよびＤＣＴ）に由来するハプロタイプ配列を使用する必要があった。本発明の方法によれば、同じサンプルサイズに対して９４％の精度が僅かＯＣＡ２およびＴＹＲＰ１ハプロタイプを用いて得られた。ＯＣＡ２およびＴＹＲＰ１ハプロタイプに対して数式１および２の合計から得られる値を用いた一次判別法を用いたところ、以下の分類結果が得られた。

「非ブラウン」分類の精度は１５２／１６２＝０．９３８であった。「非ブルー」分類の精度は１５６／１６６＝０．９４あった。総精度＝９４％であった。

図１は本発明の方法を実行してよいコンピュータシステム１００のブロック図である。コンピュータシステム１００はネットワーク１０２およびコンピュータホスト１０４および１０６を含む。ネットワーク１０２に接続されているサーバ１０８およびデータベース１１０はコンピュータホスト１０４および１０６によりアクセス可能である。コンピュータホスト１０４および１０６の各々は１または複数のコンピューティングデバイスおよびデータベースを含む。例えばコンピュータネットワーク１０４はコンピューティングデバイス１１２およびデータベース１１４を含み、コンピュータネットワーク１０６はコンピューティングデバイス１１６およびデータベース１１８を含む。コンピューティングデバイスはいずれかの適当なコンピューティングデバイス、入力装置（例えばキーボードまたはマウス）および出力装置（例えばビジュアルディスプレイモニタ）を有するパーソナルコンピュータ（ＰＣ）を含んでよい。データベースの何れか１つはサンプル集団のデータ（例えば遺伝子型データおよび統計学的関連性のテーブルまたはリスト等）を保持または保存してよい。本発明のソフトウエアは例えばコンピュータホスト１０４のコンピューティングデバイス１１２と接続してこの上で実行してよい。１つのコンピュータシステムを図１に記載して説明したが、種々の変更が可能であるのみならず、当業者の知るとおり多様に行える。

本明細書に記載した方法は図２に示すソフトウエアコンポーネント２００を用いて図１に沿って具現化し、実施してよい。ソフトウエアはディスク２０２またはメモリ２０４内に内蔵または保存してよく、コンピュータ２０６またはプロセッサ２０８内で実行可能である。即ち、本発明の特徴は自らの上に保存されたコンピュータインストラクションを有するコンピュータ記憶媒体中に存在してよく、これにより、コンピュータプロセッサはインストラクションを実行し、コンピュータインストラクション内に記載された方法を行うことができる。このようなソフトウエアは、好ましくはプライベートネットワーク１０４
のコンピューティングデバイス１１２に接続され、この上で実行される。好ましくは、システムは中央のＳｕｎＥｎｔｅｒｐｒｉｓｅサーバと共にＰＣネットワークの範囲内で機能する。プログラムは、ＬｉｎｕｘまたはＵｎｉｘ（登録商標）のオペレーションシステムを用いて作動するいずれかのデスクトップＰＣ上にロードされ実行される。他のバージョンもまたＷｉｎｄｏｗｓ（登録商標）環境内で機能させて良い。或いは、ソフトウエアは公開されたサーバ上で作動し、インターネットのような公開されたネットワークを経由して使用可能にすることもできる。

ここで図３のフローチャートを参照しながら、少なくとも２種の遺伝子が関与する遺伝形質分類において使用するための方法を記載する。図３の方法は上記に基づいて行われる１つのアプローチを更に概略化したものである。図３のスタートブロック３０２から始まり、特定の遺伝形質に関係する遺伝子少なくとも２種の全ての可能な複数の遺伝子型を識別する（ステップ３０４）。このステップ３０４はいずれかの適当な従来型または非従来型の方法を用いて実施してよく、例えば「複合遺伝子学的分類のための遺伝子的特徴の識別のための方法」と題された米国特許出願第１０／１２０，８０４号に記載の方法を用いてよい。少なくとも２種の遺伝子内に関係する遺伝子型が識別されれば、各遺伝子型は特定の遺伝形質に関する複数の形質クラスの各々に属するサンプル集団の個人のカウントに関連する（ステップ３０６）。例えば、背景技術のセクションの表Ａおよび表Ｂを参照できる。次に少なくとも２種の遺伝子間の全ての可能な遺伝子型組合せの各々を各形質クラスに属するサンプル集団の個人のカウントに関連付ける（ステップ３０８）。例えば、スペースの都合上、省略して書かれている上記表Ｈおよび表Ｈ’を参照できる（このリストは１００〜１０００ページの長さとなる）。

ステップ３０６および３０８からの関連性に基づき、複数の形質クラスの１種に個人を分類するための値を算出するために１または複数の数式を作成する（ステップ３１０）。例えば上記した数式１および２、または数式３を関係するデータと共に呈示してよい。これより明らかな通り、数式により個人内に存在する個人の遺伝子型からの寄与度、並びに、個人内に存在する遺伝子型組合せの寄与度が得られる。上記数式１の場合と同様、関連性のｐ値を算出することにより、各個人の遺伝子型に関する寄与度を求めることができる。上記数式２の場合と同様、遺伝子型組合せの各々は閾値を超えるサンプル集団中のカウントパーセンテージを有する形質クラスに関連する「有意な」遺伝子型組合せのみを含む。

図４のフローチャート中、少なくとも２種の遺伝子が関与する遺伝形質分類において使用するための別の方法を記載する。図４の方法は、特定の遺伝形質に関する複数の形質クラスのうちの１種に個人を分類するための数式の実行を含む上記に基づいて行われる取り組みについての別のより省略された説明である。図４のスタートブロック４０２から始まり、個人について識別される遺伝子の少なくとも２種が各遺伝子型に関連する寄与度を合計する（ステップ４０４）。更に、個人について識別される少なくとも２種の遺伝子間の遺伝子型の組合せの各々に関連する寄与度を合計する（ステップ４０６）。これらの寄与度より、複数の形質クラスのうちの１種に個人を分類するための算出値を得る（ステップ４０８）。例えば、ステップ４０４および４０６からの寄与度を共に付加してよい。算出値に基づき、個人を形質クラスの１種に正確に分類する（ステップ４１０）。

分類ツリー分析。本出願の核心は表Ｆ、ＨおよびＨ’において検討した遺伝子学的データが正確な複合遺伝子学的分類に重要であるという点である。関数（１）および（２）は１つの好都合な分類方法において考慮できる。この種のテーブルに基づいた別の好都合な分類方法は分類ツリー分析に基づく。やはり開発されているものは、より高次の遺伝子分類規則を構築するためのネステッド統計学的スキームである。このスキームを開発する動機は複合的な遺伝子学（即ち上位性およびペネトランス）を重視した態様で遺伝子関連性
の「解答を得る」必要性であった。

まず分類ツリーを用いることにより、多数の多変量についての問題の解答が得られている。しかしながら、今日までの大部分の用法は工学的および社会的問題に着目したものであった。蛋白および核酸配列の系統発生学および／または存在論学的分類のために種々の分類ツリー法が使用されてきたが、アプローチは本明細書に記載した複合（または他の）ヒト遺伝子学の分野においてはまだ使用されていないと考えられる。本発明の出願は参照により本明細書に組み込まれる２００１年１２月３日出願の「複合遺伝子学的分類子の構築のための分類ツリー法」と題された米国特許出願第６０／３３８，７３４号の優先権を主張する。

本発明のスキームは根部よりスタートし、節部に分岐し、そして分類「葉部」において終了する分類ツリーを構築する。樹状図に沿った経路は個別の混成の遺伝子型または混成の遺伝子型クラスを示す。混成遺伝子型はＮ個の二倍体相既知遺伝子型値（ハプロタイプ対）を含むＮ次元のベクトルである。これらの遺伝子型値はハプロタイプ系の可能な値のサブセットであり、これが多形遺伝子座の特定のコレクションに対する全ての観察された相既知のハプロタイプ対の値を示す。従ってＮ次元の混成遺伝子型ベクトルはＮ個の異なるハプロタイプ系に由来するＮ個の遺伝子型値を有する混成遺伝子型である。混成遺伝子型クラスはハプロタイプ系の共通のセットに由来する混成遺伝子型値を組み込んだ混成遺伝子型ベクトルのコレクションである。根部から葉部への経路は独特の混成遺伝子型クラスを含む混成遺伝子型ベクトルまたは混成遺伝子型ベクトルのコレクションを与える。

本発明のスキームは特定の形質値との最良の統計学的関連性を示す混成遺伝子型ベクトルまたは混成遺伝子型ベクトルのクラスを識別することにより分類ツリーを構築する。ツリーは段階的な方法で構築する。モデル（生育経路、または混成遺伝子型クラス）を選択し、項目（新しいハプロタイプ形）をモデルに付加し、新しいモデルを統計学的に試験し、そして、新しい項目は受領または廃除される。受領されれば、いずれかの規則をその構成要員である混成遺伝子型または混成遺伝子型クラスから作成（カイ自乗統計値を用いる）する。そして／または、モデルの要素と形質値との間の関連性の存在および強度に応じて、モデルを拡張する。ツリーの根部は無作為に選択されたハプロタイプ系の遺伝子型である。節部は多くの異なる構成遺伝子型が含まれる無作為に選択された遺伝子型クラスである。端部がＸ個の根部とＮ個の節部を連結し、Ｘ個のＮ＋１次元の個性遺伝子型クラスが形成される。

分類ツリー法はヒトの眼球色の分類のために有用である。ツリーのためには、まず、関わりにより定義される新しい混成遺伝子型クラス内の明色の眼球色の色調（ブルー、グリーン）および暗色（ブラック、ブラウン）の眼球色の色調の個人の間の遺伝子の相違に基づいて、根部のセットを選択し、端部を節部にまで伸長させる（ヘーゼルは常時大部分の構成員の眼球色の色調に割り付けられる）。現実的な理由から、相違は最終節部ないの遺伝子型値の分布に関してのみ測定する。混成遺伝子型クラス内で、一対Ｆ統計値および関連ｐ値を用いて種々の眼球色の色調を有する個人間の遺伝子構造の差を測定するが、直接確率試験のｐ値またはカイ自乗のｐ値を用いても同様の結果が得られる。不明瞭な（７５％未満の正確度）ハプロタイプクラスの個人は廃除し、「分類不可能」とする。

根部からの経路内にまだ組み込まれていない節部の可能なすべてを各新分岐段階に試験し、眼球色の色調のクラスの間で最も顕著な分別（即ち最小値）を与える分岐部を選択する。新しい混成遺伝子型クラス内に有意な遺伝子構造がない場合は、検討すべきハプロタイプ系が存在しなくなるまで、または、混成遺伝子型クラスのサンプルサイズが所定の特定の閾値未満となるまで（この場合「決定されず」と特定される）、分岐作業を別の分岐（ハプロタイプ系）まで継続する。新しい混成遺伝子型クラスの最小ｐ値が有意である場
合、特定の形質値との関連性について有意なカイ自乗残渣を示しているその構成要員の混成遺伝子型から規則を作成する。この場合、説明不可能である（そのカイ自乗残渣は、あったとしても有意ではない）混成遺伝子型クラス内の遺伝子型を混成遺伝子型クラス内の混成遺伝子型の残余から分離することにより、新しいネステッド節部を形成し、これより、更に分岐を行う。

ネステッド節部は常に、最初に新しい混成遺伝子型クラスを示す。このネステッド節部からの分岐が最終的に分類規則の創出能力をもたらさない場合は、ネステッド節部が誘導された混成遺伝子型クラスまでアルゴリズムは戻り、そして、Ｙ個の構成要員である混成遺伝子型のＹ個のネステッド節部を再創出する。いずれの場合も、ネステッド節部は眼球色のクラスの色調間で統計学的に有意な集団構造の差を有する節部からのみ創出される。葉部の形成をもたらすカイ自乗統計値を算出するためには、アルゴリズムはまず異なる形質値の線に沿って個人を分配しようとする。これが有意でない場合は、アルゴリズムは類似の値の群に別の形質値を集中させる（例えばブルーおよびグリーンｖｓブラウンおよびブラック眼球）。

異なる形質値を有する個人群の間の有意な遺伝子構造の差を有する混成遺伝子型クラスの構成員に規則の作成を限定することにより、実際にこのアルゴリズムは学習すべきハプロタイプ系の種々の組合せにより寄与される遺伝子の分散の最大量を与える。ツリーが完成した後、それより、分類葉部に至るツリーに沿った各経路を「読み取る」ことにより規則を作成し、そして、その規則を用いて各個人の形質値を予測する。予測率が良好（例えば９５％以上）であれば、処理を終了し、そうでなければ、根部に対する新しいハプロタイプ形から処理を再開する。

ヒト眼球色に分類ツリー分析を提供する例において、５種のハプロタイプ系（ＴＹＲ２ＬＯＣ９２０、ＯＣＡ３ＬＯＣ９２０、ＯＣＡ３ＬＯＣ１０９、ＴＹＲＰ３Ｌ１０５およびＭＣＲ３ＬＯＣ１０５）を、その構成要員であるハプロタイプがヒト眼球色を予測したとものして識別した。分類ツリー法はＴＹＲ２ＬＯＣ９２０、ＯＣＡ３ＬＯＣ９２０、ＯＣＡ３ＬＯＣ１０９、ＴＹＲＰ３Ｌ１０５およびＭＣＲ３ＬＯＣ１０５のハプロイド遺伝子型要素の無作為の組合せからツリーを開発し、眼球色の色調に関連する複合遺伝子クラスを形成するために適用した（以下の表Ｋ参照）。

表Ｋにおいて、混成遺伝子型の要素は本明細書に記載したハプロタイプ系の部分である。各列は独特のハプロタイプ系（テーブルの上部に記載）を示し、各行は混成遺伝子型または混成遺伝子型クラス（記載の通り選択）を示す。ツリーは各行に沿って左から右に読まれる。行の第１の遺伝子型の前に演算子「ｉｆ」を使用する。列から列に進行するには演算子「ａｎｄ」を必要とする。混成遺伝子型または混成遺伝子型クラスに関する分類は列７において下記の通り、即ち：ＬＴ−明色眼球（ブルーまたはグリーン）、ＨＡＺ−ヘーゼル眼球、Ｂ１−明色ブラウン眼球、およびＤＫ−暗色眼球（ブラックまたは中間色／暗色ブラウン）とする。「ＮＯＴＯＢＳ」は混成遺伝子型または混成遺伝子型クラスが観察されなかったことを示す。「ＩＮＣＯＮＣＬ」はサンプルサイズが小さすぎるか、または個人が統計学的に有意な態様で眼球色の色調の間で分配されなかったために分類できなかったことを示す（テキスト参照）。各々の判定的な（ＩＮＣＯＮＣＬではない）分類は統計学的に有意なカイ自乗作用の統計値（ｐ＜０．０５）により正当化された。各混成遺伝子型または混成遺伝子型クラスに関するカウントは列８（ＣＯＲＲ−正しく分類された）、９（ＩＮＣＬＡＳＳ−分類不可能）および１０（ＩＮＣＯＲＲ−誤って分類された）に示す。例えば、３人の暗色眼球および０人の明色／ヘーゼル眼球の個人がＴＹＲ２ＬＯＣ９２０ＣＧ／ＣＨ：ＯＣＡ３ＬＯＣ９２０ＯＴＨＥＲ（ＮＯＴＣＡＣ／ＹＲＣ）（行２４）の混成遺伝子型クラスに対して観察され；この比率は試験サンプルの構成に基づいた３：８の予測比とは有意に異なっていた。ある行に対する列内の空欄はその列に関するハプロタイプ系がその混成遺伝子型または混成遺伝子型クラスの個人に対する解答の部分ではないことを示している（テキスト中に記載）。この場合、解答は別の遺伝子型または分類に遭遇するまで右に進行する。全体の表作成は最後の２行に示すとおりであり；「＊」は分類可能な個人のみを表作成に用いたこと指す（テキスト参照）。有意なカイ自乗値を与えた少ないサンプルサイズの混成遺伝子型はほぼ常時、より明色の眼球色と比較して、我々の試験サンプル中で過小呈示されたより暗色の眼球色を予測するものであった。

選択された最適なツリーの根部はＴＹＲ２ＬＯＣ９２０ハプロタイプ系の遺伝子型であった。種々のＴＹＲ２ＬＯＣ９２０遺伝子型クラスから発生している後の節部の識別名および次数は各特定の根部について異なっていた。例えば、ＴＹＲ２ＬＯＣ９２０ＡＧ／ＣＡの個人（行１〜１２、表Ｋ）について選択された第１の節部（第２のハプロタイプ系）はＯＣＡ３ＬＯＣ９２０系であるが、ＭＣＲ３ＬＯＣ１０５系がＴＹＲ２ＬＯＣ９２０Ａ
Ｇ／ＡＣの個人（行１５〜２２、表Ｋ）に関する第２の節部として選択された。ある場合において分類規則は混成遺伝子型について作成され（１または複数のハプロタイプ系に由来する二倍体ハプロタイプ対の個別のコレクション）、また別の場合には、それらは特定の混成遺伝子型クラスについて作成されている（ハプロタイプ系の共通のセットに由来する要素を組み込んだ混成遺伝子型の同族のコレクション）。

分岐工程に関する作用統計値は以下の表Ｌに示すとおりである。

表Ｌにおいて、各行は混成遺伝子型クラス（１または複数の混成遺伝子型を含む）を示し、それは特定の混成遺伝子型またはネステッド遺伝子型クラスが分類規則を構築するために得られたクラスに由来している。分岐の決定に関する一対のＦ統計値ｐ値は列５に示すとおりであり、これは各混成遺伝子型クラス内の個人の明色または暗色の眼球群の間の遺伝子的相違を測定する。厳密な規則はこれらの混成遺伝子型クラスから得られるものであり、有意なカイ自乗作用統計値により正当化される。各混成遺伝子型クラスの要素（その構成要員であるハプロタイプまたはハプロタイプクラス）は列ごとに示す。縮重ヌクレオチド位置はＩＵＢコードで示す。ツリーは演算子「ｉｆ」から出発して左から右に読む。第１の列には混成遺伝子型クラスの根部（テキスト参照）が含まれる。右側の次の列への進行の際は、演算子「ａｎｄ」を使用して混成遺伝子型の第２の要素（即ち第１の節部）を含むようにし、次に第３番目（存在する場合）以降について、統計学的に有意な分配
が混成遺伝子型クラス内に作成されるまで（存在する場合）行う。混成遺伝子型クラス内の異なる眼球色の色調の個人が異なる遺伝子構造のサブグループに分配できる場合の工程は試験の該当ｐ値における行に沿って終了し、規則（存在する場合）をカイ自乗の統計値を用いてクラス内の混成遺伝子型から誘導する（表Ｌ）。それらが統計学的に有意な態様で分配できない場合は、別の項目をモデルに付加し、工程を右側の次のハプロタイプ系に向かって継続する。Ｐ＝ＩＮＣＡＬＣとは一対ＦＳＴｐ値が算出されなかったことを意味する。その最も一般的な理由は一対測定法を非現実的なものとしている混成遺伝子型クラスに対する眼球色群の一方または両方内における遺伝子的均質性（僅か１種のみの混成遺伝子型）である。他の場合と同様、有意なカイ自乗作用統計値を用いて混成遺伝子型クラス内の混成遺伝子型に関する分類の葉部（または非決定的ステイタス）に分岐することを正当化した。各混成遺伝子型クラスに関するサンプルサイズは最後の列に示す。

表Ｌを表Ｋにおける特定の規則と比較すると、混成遺伝子型に関する分類規則を作成するための最良の決断は、それが由来する混成遺伝子型クラス内における統計学的に有意な集団レベルの遺伝子構造の差の存在により正当化された。多くの規則は、集団レベルの遺伝子構造の差の尺度が算出されなかった混成遺伝子型クラスから作成された。通常これは眼球色または眼球色の色調群の一方または両方に関して僅か１種の混成遺伝子型クラスしか存在しないためである（試験は各集団内の遺伝子的多様性を必要とする）。これらの場合、混成遺伝子型クラスまたは混成遺伝子型から分類基準を作成することの正当化は、眼球色の色調の間での遺伝子型の分布に関する有意なカイ自乗作用統計値（ｐ＜０．０５）（眼球色の色調間の混成遺伝子型の分布を考慮すれば混成遺伝子型クラスのレベルで、また混成遺伝子型そのもののレベルにおいても）により正当化された。

場合により、より小さいサイズ（即ちｎ＜１５）の混成遺伝子型クラスに由来する混成遺伝子型に対して規則が構築されるが、その理由は眼球色の色調間の遺伝子型の分布がカイ自乗検定を用いた測定においては明確に分配されているからである。例えば、僅か９人の個人だけが表ＬにおけるＴＹＲ２ＬＯＣ９２０ＡＧ／ＡＧ：ＭＣＲ３ＬＯＣ１０６ＯＴＨＥＲ（ＣＣＣ／ＣＹＣではない）混成遺伝子型クラスの部分であるが、これら９個人では、Ｆ統計値ｐ＝０．０２７±０．０１４（表Ｌの行６）で眼球色群の間で良好に分配しており、この混成遺伝子型クラスの２つの構成成分（ＴＹＲ２ＬＯＣ９２０ＡＧ／ＡＧ：ＭＣＲ３ＬＯＣ１０６ＣＣＣ／ＴＣＣおよびＴＹＲ２ＬＯＣ９２０ＡＧ／ＡＧ：ＭＣＲ３ＬＯＣ１０６ＣＣＣ／ＣＣＴ）を明色眼球およびヘーゼルとしてそれぞれ分類するためのカイ自乗ｐ値の各々は０．０５未満であった（表Ｋの行１８、１９）。

最適な分類ツリーの適用の結果である正確および不正確な分類の数を表作成したところ（表Ｋ）、２１１個人が正確に分類されたのに対し、僅か８人のみが誤分類されていた（即ち混乱要因であった）。即ち、正答率９６．３％であった。３３個人はそれらが部分を構成している群についてサンプルサイズが小さかったため分類されなかった。残りは十分なサンプルサイズの群であったが、混成遺伝子型（または遺伝子型クラス）のカイ自乗統計値は有意ではなかった。２７人の別の個人のハプロタイプの相は７５％のレベルで不明であり、このため、これらに関しては分類はできなかった。非決定的結果とハプロタイプ決定不能とを組み合わせると合計で６２個人が我々の試験において分類可能ではなかった。即ち、解答は試験した白人の８１％に対して有用性を示したが、ハプロタイプ確定個人内においては、解答は８６％の有用性を示した。解答はまた他の人種（アジア人およびアフリカ系アメリカ人）の個人についても試験した。眼球色既知白人の第２の群（ｎ＝１２４）に適用した場合、モデルは良好に帰納した（９６％正確）。アフリカ系アメリカ人、白人およびアジア人に適用した場合、我々の解答の精度は９９．９％にまで向上し、９８％の個人が分類可能であった。

最終コメント。開発したものは効率的な数理学的態様において遺伝子分散の主要成分３
種（即ち、付加性、優性度および相互作用）の全てを把握する複合遺伝子学的分類のための新しい方法である。本発明の方法は、遺伝形質を予測するために遺伝子変異体が認められる組合せに沿って変異体に関する統計学的有意差を用いている。全ての観察される遺伝子型および遺伝子型組合せから形質に有意に関連するものとして識別される特定の遺伝子型および遺伝子型組合せの存在に対してコード付けを行い、次に種々の判別手順を用いて分類を行うための「規則」を識別する。分類ツリー法を用いて分類のためのリストから「規則」を識別する。両方の方法の基礎となるものは、全ての観察された遺伝子型および遺伝子型組合せに関する観察された形質クラスのカウントのリストである。

好ましくは、遺伝形質の分類において使用するための方法および装置は遺伝形質に関連する遺伝子を少なくとも２種を含む。１つの例示的方法においては、遺伝形質に関連する複数の形質クラスのうちの１種において個人を分類する際に使用するための値を算出する。値は、（１）個人に関して識別される少なくとも２種の遺伝子を有する複数の遺伝子型の各遺伝子型に関連する寄与度の合算値である。ただし各遺伝子型に関する寄与度は、サンプル集団において識別される遺伝子型と各形質クラスとの間の統計学的関連性から少なくとも部分的に識別されるものであること、および、（２）個人において識別される少なくとも２種の遺伝子間の１または複数の遺伝子型の組合せに関連する寄与度の合算値であること。ただし１または複数の遺伝子型の組合せの各々に関する寄与度は、サンプル集団中に識別される遺伝子型の組合せと各形質クラスとの間の統計学的関連性から少なくとも部分的に識別されるものであること、に基づいて算出される。遺伝形質の分類試験には、コンピュータ記憶媒体およびコンピュータプロセッサ上でこのような方法を実行するためのコンピュータ記憶媒体上に保存されたコンピュータインストラクションを含んでよい。

別の例示的方法においては、少なくとも２種の遺伝子を有する複数の遺伝子型の各々と遺伝形質の複数の形質クラスの各々と関連するサンプル集団の個人のカウントの間に第１の統計学的関連性を創出する。更に、少なくとも２種の遺伝子を有する全ての遺伝子型の組合せの各々１種と遺伝形質の数種のうちの各々１種に関連するサンプル集団の個人のカウントとの間に第２の統計学的関連性を創出する。第１および第２の関連性に基づいて、遺伝形質の複数の形質クラスの１種にサンプル集団外の個人を分類するための１または複数の数式が作成され提供される。例えば、複数のｐ値を第１の統計学的関連性に基づいて算出し、１または複数の数式は算出された複数のｐ値に基づいた寄与度と共に提供される。他の例として、閾値を超えるサンプル集団におけるカウントパーセンテージを有する形質クラスに関連する１または複数の遺伝子型の組合せを第２の統計学的関連性から識別し、識別された１または複数の遺伝子型の組合せと関連する寄与度と共に１または複数の数式が提供される。また、遺伝形質分類試験はコンピュータ記憶媒体およびこのような方法を実施するためのコンピュータ記憶媒体上に保存されているコンピュータインストラクションを含んでよい。

本明細書に記載した方法を実施するための１または複数のコンピューティングデバイスを有するコンピュータネットワークを示す。本明細書に記載した方法のために利用してよい種々のコンピュータのコンポーネントを示す。特定の遺伝形質に関する複数の形質クラスのうちの１種に個人を分類する際に使用するための方法を記載したフローチャートである。遺伝形質に関する複数の形質クラスのうちの１種に個人を分類する際に使用するための他の方法を説明するフローチャートである。

Claims

遺伝形質に関連する少なくとも２種の遺伝子を含む遺伝形質分類における使用のための方法であって、
遺伝形質に関連する複数の形質クラスの１つに個体を分類するための値を算出する作業を包含し、該算出が、
個人において識別される少なくとも２種の遺伝子の、複数の遺伝子型の各遺伝子型に関連する寄与度、即ち、サンプル集団において識別される遺伝子型と各形質クラスとの間の統計学的関連性から少なくとも部分的に識別される各遺伝子型に関する寄与度を合算し、
個人において識別される少なくとも２種の遺伝子間の１または複数の遺伝子型の組合せに関連する寄与度、即ち、サンプル集団中に識別される遺伝子型の組合せと各形質クラスとの間の統計学的関連性から少なくとも部分的に識別される１または複数の遺伝子型の組合せの各々に関する寄与度を合算することに基づく、方法。
算出された値に基づいて、複数の形質クラスのうちの１種に個人を分類する作業をさらに包含する、請求項１に記載の方法。
各遺伝子型に関する寄与度がサンプル集団中に識別される遺伝子型と各形質クラスとの間の統計学的関連性から、算出されたｐ値により少なくとも部分的に識別される、請求項１に記載の方法。
（１）個人において識別される少なくとも２種の遺伝子の、複数の遺伝子型の各遺伝子型に関連する寄与度を合算し、ここで、各遺伝子型に関する寄与度が、サンプル集団において識別される遺伝子型と各形質クラスとの間の統計学的関連性から少なくとも部分的に決定され、（２）個人において識別される少なくとも２種の遺伝子間の１または複数の遺伝子型の組合せに関連する寄与度を合算し、ここで、１または複数の遺伝子型の組合せの各々に関する寄与度は、サンプル集団中に識別される遺伝子型の組合せと各形質クラスとの間の統計学的関連性から少なくとも部分的に決定されることより算出された値に基づいた個人に関する遺伝形質クラス認識物。
各遺伝子型に関する寄与度が、サンプル集団において識別される遺伝子型と各形質クラスとの間の統計学的関連性から、算出されたｐ値により少なくとも部分的に識別される、請求項４に記載の遺伝子形質クラス認識物。
形質クラスに関連する１または複数の遺伝子型の組合せの各々が、閾値を超えたサンプル集団中のカウントパーセンテージを有する、請求項４に記載の遺伝子形質クラス認識物。
遺伝形質と関連する少なくとも２種の遺伝子を含む遺伝子学的分類における使用のための方法であって、
遺伝形質の複数の形質クラスの各々に属するサンプル集団の個人の、少なくとも２種の遺伝子の複数の遺伝子型の各々とカウントとの間に第１の関連性を創出する作業と、
遺伝形質の複数の形質クラスの各々に属するサンプル集団の個人の、少なくとも２種の遺伝子の遺伝子型の全遺伝子型の組合せのうちの各々とカウントとの間に第２の関連性を創出する作業と、
第１および第２の関連性に基づいて、遺伝形質の複数の形質クラスのうちの１種にサンプル集団外の個人を分類するための１または複数の数式を提供する作業とを包含する、方法。
サンプル集団外の個人を、個人に関して識別される少なくとも２種の遺伝子の遺伝子型に基づく１または複数の数式から値を算出することにより、複数の形質クラスのうちの１種に分類する作業をさらに包含する、請求項７に記載の方法。
遺伝形質と関連する少なくとも２種の遺伝子を含む遺伝子学的分類において使用するための方法であって、
遺伝形質の複数の形質クラスの各々に属するサンプル集団の個人の、少なくとも２種の遺伝子の遺伝子型の全遺伝子型の組合せの各々とカウントとの間の統計学的関連性を創出する作業と、
創出された関連性に基づいて、遺伝形質の複数の形質クラスのうち１種にサンプル集団外の個人を分類するための数式を提供する作業とを包含する、方法。
サンプル集団外の個人を、１または複数の数式を用いて、複数の形質クラスのうちの１種に分類する作業をさらに包含する、請求項９に記載の方法。