JP2005516310A - 遺伝子を特定し、形質に関連する経路を明らかにするコンピュータ・システムおよび方法 - Google Patents
遺伝子を特定し、形質に関連する経路を明らかにするコンピュータ・システムおよび方法 Download PDFInfo
- Publication number
- JP2005516310A JP2005516310A JP2003564802A JP2003564802A JP2005516310A JP 2005516310 A JP2005516310 A JP 2005516310A JP 2003564802 A JP2003564802 A JP 2003564802A JP 2003564802 A JP2003564802 A JP 2003564802A JP 2005516310 A JP2005516310 A JP 2005516310A
- Authority
- JP
- Japan
- Prior art keywords
- gene
- quantitative trait
- clustering
- analysis
- genes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Abstract
ある1つの種からの複数の生物中の1つまたは複数の生物によって示される形質に遺伝子を関連付ける方法。遺伝マーカー地図を、複数の生物に関連する1セットの遺伝マーカーから構築する。複数の遺伝子の各遺伝子に対して、遺伝マーカー地図および量的形質を使用して、量的形質遺伝子座分析を実施する。量的形質遺伝子座分析によって、量的形質遺伝子座データが作成される。量的形質は、遺伝子の発現統計量を含む。遺伝子の発現統計量は、複数の生物の各生物における遺伝子に対応する細胞構成成分レベルから導出される。量的形質遺伝子座データは、各量的形質遺伝子座分析からクラスター化されて、量的形質遺伝子座相互作用地図を作成する。地図中の遺伝子のクラスターは、候補経路グループとして同定される。発現クラスター地図を使用して、候補経路グループを精緻化する。多変量解析を使用して、遺伝的に相互作用する1セットの遺伝子として候補経路グループを検証する。
Description
本発明の分野は、遺伝子、および複合形質に関連する生物学的経路を特定するコンピュータ・システムおよび方法に関する。特に、本発明は、遺伝子-遺伝子相互作用、遺伝子-表現型相互作用、および複合形質に関連する生物学的経路を特定する、細胞の構成レベルのデータおよび遺伝子データの両方を使用するコンピュータ・システムおよび方法に関する。
本願は、その全体を参照により本明細書に援用する、2002年2月1日に出願された米国仮特許出願第60/353,416号の利益を、35 U.S.C. §119(e)のもとに主張するものである。本願は、その全体を参照により本明細書に援用する、2002年5月16日に出願された米国仮特許出願第60/381,437号の利益を、35 U.S.C. §119(e)のもとに主張するものでもある。
ヒトの疾患などの複合形質に関連する遺伝子および経路を特定するために様々な手法が取られてきた。一手法においては、そのような形質に関連する遺伝子および経路を特定する遺伝子発現データを使用する試みがなされた。別の手法においては、遺伝情報を使用して、複合形質に関連する遺伝子および経路を特定する試みがなされた。例えば、集団に臨床的措置を講じて、集団に見られる疾患などの複合形質を研究することができる。形質に対する危険因子を、これらの臨床的措置から確立することができる。さらに、形質に関する変化を説明するために、人口統計要因および環境要因も使用される。また、疾患関連形質などの形質に関連する遺伝的変異、ならびに疾患自体を利用して、疾患に関連するゲノム中の領域が特定される。例えば、集団における遺伝的変異を利用して、一塩基多型(SNP)、ハプロタイプまたは短鎖縦列反復(STR)マーカーの遺伝的変異によって説明可能な目的集団における形質変化割合を決定することができる。しかし、後述するように、遺伝子発現または遺伝子発現手法を使用して、疾患などの複合形質に影響を及ぼす生物学的経路に関与する遺伝子を解明することには問題があり、一般に、失敗に終わることが多い。
2.1. 複合形質に関連する遺伝子および経路を特定する遺伝子発現測定データの使用
ここ十年来、いくつかの技術によって、多数の転写物の発現レベルを常時モニターすることが可能になった(例えば、Schena等、1995、Quantitative monitoring of gene expression patterns with a complementary DNA microarray、Science 270:467〜470; Lockhart等、1996、Expression monitoring by hybridization to high-density oligonucleotide arrays、Nature Biotechnology 14:1675〜1680; Blanchard等、1996、Sequence to array: Probing the genome's secrets、Nature Biotechnology 14、1649; 1996年10月29日にAshby他に発行された米国特許第5,569,588号、「Methods for Drug Screening」を参照されたい)。完全なゲノムが判明している生物においては、細胞内のすべての遺伝子の転写物を解析することが可能である。ゲノムの知見が増えつつある他の生物では、細胞内の多数の遺伝子を同時にモニターすることが可能である。
ここ十年来、いくつかの技術によって、多数の転写物の発現レベルを常時モニターすることが可能になった(例えば、Schena等、1995、Quantitative monitoring of gene expression patterns with a complementary DNA microarray、Science 270:467〜470; Lockhart等、1996、Expression monitoring by hybridization to high-density oligonucleotide arrays、Nature Biotechnology 14:1675〜1680; Blanchard等、1996、Sequence to array: Probing the genome's secrets、Nature Biotechnology 14、1649; 1996年10月29日にAshby他に発行された米国特許第5,569,588号、「Methods for Drug Screening」を参照されたい)。完全なゲノムが判明している生物においては、細胞内のすべての遺伝子の転写物を解析することが可能である。ゲノムの知見が増えつつある他の生物では、細胞内の多数の遺伝子を同時にモニターすることが可能である。
このようなモニタリング技術は、様々な疾患または生理学的状態において上方制御または下方制御される遺伝子の特定、細胞の状態を情報伝達するメンバーの分析、および様々な薬物標的の特定に適用されてきた。例えば、FriendおよびHartwell、米国特許第6,165,709号; Stoughton、米国特許第6,132,969号; StoughtonおよびFriend、米国特許第5,965,352号; FriendおよびStoughton、米国特許第6,324,479号;ならびにFriendおよびStoughton、米国特許第6,218,122号を参照されたい。これらすべてを、参照により本明細書に援用する。
細胞の様々な構成成分のレベルは、薬物療法、および他の細胞の生物学的状態の乱れに応じて変化することが知られている。したがって、複数のこのような「細胞構成成分」の測定値には、乱れの効果、および細胞の生物学的状態に対するそれらの効果についての多量の情報が含まれている。このような測定値には、一般に、上述したタイプの遺伝子発現レベルの測定値が含まれるが、タンパク質存在量、タンパク質活性レベル、またはタンパク質相互作用など、ただし決してこれらだけに限定されない他の細胞成分のレベルも含まれ得る。また、「細胞構成成分」という用語には、ホルモン、マトリックス・メタロプロテイナーゼ、および血清タンパク質(例えば、顆粒球コロニー刺激因子、ヒト成長ホルモンなど)を含めて、ただしこれらだけに限定されない、細胞によって分泌される生体分子が含まれる。そのような測定値のコレクションは、一般に、細胞の生物学的状態の「プロファイル」と称される。プロファイル・データの統計的バイオインフォマティクス分析を使用して、遺伝子調節現象を解明することが試みられた。この分析に使用される統計的バイオインフォマティクス技術は、階層的クラスター分析、参照または教師付き分類手法(reference or supervised classification approaches)および相関に基づく分析を含む。例えば、Tamayo等、1999、Interpreting patterns of gene expression with self-organizing maps: methods and application of hematopoietic differentiation、Proc. Natl. Acad. Sci. U.S.A. 96:2907〜2912; Brown等、2000、Knowledge-based analysis of microarray gene expression data by using support vector machines、Proc. Natl. Acad. Sci. U.S.A.: 97、262〜267; GaasterlandおよびBekinraov、Making the most of microarray data、Nat. Genet.: 24、204〜206; Cohen等、2000、A computational analysis of whole-genome expression data reveals chromosomal domains of gene expression、Nat. Genet. 24: 5〜6; 2000を参照されたい。
遺伝子を特定し、複合形質に関連する経路を解明する遺伝子発現データの使用は、一般に、様々な条件にわたり遺伝子発現データをクラスター化することに依拠している。例えば、Roberts等、2000、Signaling and circuitry of multiple MAPK pathways revealed by a matrix of global gene expression profiles; Science 287:873; Hughes等、2000、Functional Discovery via a Compendium of Expression Profiles、Cell 102: 109を参照されたい。しかし、遺伝子発現のクラスター化にはいくつかの欠点がある。第1に、遺伝子発現のクラスター化は、偽陽性を生じる傾向にある。このような偽陽性は、例えば、2つの遺伝子が同時に様々な条件にわたり相関した発現プロファイルを有するときに生じる。第2に、遺伝子発現のクラスター化は、遺伝子間相互作用についての情報を提供するが、生物学的経路のトポロジーについての情報を提供しない。例えば、様々な条件にわたり遺伝子発現データをクラスター化して、遺伝子Aと遺伝子Bが相互作用することを明らかにすることができる。しかし、遺伝子発現のクラスター化は、一般に、生物学的経路において遺伝子Aが遺伝子Bの下流にあるのか上流にあるのかを明らかにするのに十分な情報を提供しない。第3に、標的が実際に有効である信頼度を高めるために、遺伝子発現データのクラスター化から特定される任意の遺伝子の関与を確認するには、生物学的な直接実験を必要とすることが多い。これらの理由のため、様々な複雑なヒトの疾患などの複合形質に関与する遺伝子を特定するために、遺伝子発現データのみを使用することは、失敗に終わることが多い。
2.2. 複合形質に関連する遺伝子および経路を特定する遺伝学データの使用
遺伝学データは、複合形質分析の分野で、そのような形質に影響を及ぼす遺伝子を特定しようとして使用されてきた。そのような研究における主要な進歩は、分子/遺伝マーカーの巨大なコレクションが開発されたことであり、これを、ヒトなどの種の詳細な遺伝地図を構築するために使用することができる。これらの地図は、単一マーカー・マッピング、間隔マッピング、コンポジット間隔マッピング、複数形質マッピングなどの量的形質遺伝子座(QTL)マッピング方法に使用される。総説として、Doerge、2002、Mapping and analysis of quantitative trait loci in experimental populations、Nature Reviews: Genetics 3:43〜62を参照されたい。QTLマッピング方法は、複合形質に影響を及ぼすゲノム領域を理解し精査することを目的とした、表現型と遺伝子型の関連性の統計解析を行うものである。
遺伝学データは、複合形質分析の分野で、そのような形質に影響を及ぼす遺伝子を特定しようとして使用されてきた。そのような研究における主要な進歩は、分子/遺伝マーカーの巨大なコレクションが開発されたことであり、これを、ヒトなどの種の詳細な遺伝地図を構築するために使用することができる。これらの地図は、単一マーカー・マッピング、間隔マッピング、コンポジット間隔マッピング、複数形質マッピングなどの量的形質遺伝子座(QTL)マッピング方法に使用される。総説として、Doerge、2002、Mapping and analysis of quantitative trait loci in experimental populations、Nature Reviews: Genetics 3:43〜62を参照されたい。QTLマッピング方法は、複合形質に影響を及ぼすゲノム領域を理解し精査することを目的とした、表現型と遺伝子型の関連性の統計解析を行うものである。
量的形質遺伝子座(QTL)は、目的とする量的形質に何割かの変化をもたらすゲノム領域である。特定の複合表現型に関連するそのような領域のすべてを同定するという目標は、一般に、QTL、QTL間の可能なエピスタシスまたは相互作用、ならびにモデル化および検出が困難であり得るその他多くの変動源の純粋な数が多いことから達成が困難である。これらの問題に対処して、複合表現型を精査できる確率を向上させるために、含まれる変動源の数が限定されるようにQTL実験を設計することができる。一般に、全集団を代表し、観測可能な数の組換えを与え、検査中の形質の完全な評価を可能にするために、多量の個体試料を収集しなければならない。QTLを検出しまたは位置決めするいくつかの方法の1つとともに、この情報を用いて、複合形質の遺伝的基盤を理解するためのステップとして、量的形質と遺伝マーカーが関連付けられる。
QTL手法の欠点は、複合形質と統計的に有意な関連性を有するゲノム領域が特定されたときでも、そのような領域が通常は大き過ぎて、その領域における特異的原因遺伝子を特定するのに使用される後続実験は時間がかかり厄介なものになる。ゲノム領域の高密度マーカー地図が必要である。また、そのような領域を物理的に再配列させることが必要になることが多い。実際、特定されたゲノム領域のサイズのために、そのような領域内の原因遺伝子を簡単に特定できない恐れがある。それがうまくいき、複合形質変化の原因遺伝子を含むゲノム領域が解明されても、このプロセスの最初から最後までの費用と時間は、複雑なヒトの疾患などの複合形質に関連する遺伝子および経路を特定するには余りにもかかりすぎることが多い。
ヒトの場合、形質に関連する遺伝子および経路を特定する遺伝学の使用は、極めて標準的なパラダイムに従う。第1に、家族をもとにしたデータにおけるゲノム全体の連鎖を数百の遺伝マーカーを用いて試験して、形質に関連する広範な領域を特定する。この標準的な連鎖解析の結果、形質を制御する領域が特定され、それによって30,000を超える遺伝子が、形質に関連する特定のゲノム領域中のおそらくはわずか500〜1000遺伝子にまで焦点が絞られる。しかし、連鎖解析を用いて特定された領域は、依然として、形質に関連する候補遺伝子を特定するには広すぎる。したがって、そのような連鎖研究は、一般に、連鎖領域においてより高密度のマーカーを用いて連鎖領域を詳細にマッピングし、分析における家族数を増やし、別の試験集団を特定することによって追跡調査される。これらの努力によって、形質に関連する特定領域中の約100個の遺伝子のより狭いゲノム領域にさらに焦点が絞られる。このより狭く定義された連鎖領域でさえ、検証すべき遺伝子数は、依然として、非現実的に多い。したがって、この段階での検討は、この領域中の既知の遺伝子または予測される遺伝子の推定される機能、およびその機能と形質との可能性のある関連性に基づいて、候補遺伝子を特定することに焦点が絞られる。この手法は、遺伝子についての現在の知見の制約を受けるので問題がある。そのような知見は限られており、解釈次第であることが多い。その結果、研究者は道に迷うことが多く、形質に影響を及ぼす遺伝子を特定できない。
一般的なヒトの疾患などの複合形質に関連する遺伝子、またはそのような複合形質に関連する生物学的経路を特定するのに標準的な遺伝的手法があまり成功していない理由は多数ある。第1に、心疾患、肥満、癌、骨粗しょう症、精神分裂病、その他多くの疾患など一般的なヒトの疾患は、多遺伝子である点で複雑である。すなわち、いくつかの異なる生物学的経路にわたって多数の遺伝子が関与している可能性があり、遺伝的なシグネチャーをあいまいにする複雑な遺伝子-環境相互作用が関与している。第2に、疾患が複雑なために、疾患を生じ得る様々な生物学的経路に不均一性が生じる。したがって、あらゆる所与の不均一な集団においては、疾患を生じ得るいくつかの異なる経路全体に欠陥が存在し得る。そのため、任意の所与の経路に対して遺伝的シグナルを特定することが困難になる。遺伝的試験に参加している多数の集団は、疾患に関して不均一であるので、複数の経路にわたる複数の欠陥が集団内で作用して疾患を生じる。第3に、上で概説したように、複雑性疾患(complex disease)に対する連鎖に関連するゲノム領域は大きく、疾患に関連し得るいくつかの遺伝子および可能な変異体を含むことが多い。第4に、形質および病態自体が明確に定義されないことが多い。したがって、部分表現型(subphenotype)が、異なる生物学的経路セットを包含していても、これらの部分表現型は見過ごされることが多い。そのため、関連性を検出力が低下する。第5に、遺伝子発現と形質が高度に相関しても、その遺伝子が同じ遺伝的シグネチャーを与えない可能性がある。第6に、遺伝子発現と形質が適度に相関する場合、またはまったく相関しない場合でも、その遺伝子が同じ遺伝的シグネチャーを与える可能性がある。
上述した不均一性の問題に加えて、遺伝学データを使用した、複雑なヒトの疾患などの複合形質に関連する遺伝子および生物学的経路の特定は、ヒト対象を使用したときにヒトの一般的な遺伝子技術および給源を使用することができないので混乱に陥る。例えば、ヒトは、制御された実験において交雑させることができない。したがって、一般に、ヒトに対して利用可能な系統データは極めて少ない。ヒトにおける複雑性疾患に関連する遺伝子の解明も困難である。というのは、ヒトが、各有核細胞中に2つのゲノムを含む二倍体生物であり、一倍体ゲノムのDNA配列を決定することが極めて困難だからである。これらの制約のために、複雑なヒトの疾患に関連する遺伝子および生物学的経路を発見する遺伝的手法は不満足なものである。
deCode Genetics (Reykjavik、Iceland)などの会社は、隔離されており、したがって疾患に関してより均一である集団を研究し、それによって関連性の検出力を高めている。多数の疾患に対する創始者効果が顕著になるにつれ、このような集団における疾患の変化自体は大きく減少する(すなわち、このような集団における特異的形態の疾患は、集団の単一または少数の創始者から生じる可能性が最も高い)。Sequenome (San Diego、California)などの他社は、双子のコホートを使用して複雑性疾患を研究している。一卵生双生児は、形質の遺伝的成分を証明する強力なツールである。形質の遺伝的成分は、所与の形質が遺伝的な制御下にある、程度として定義される。二卵性双生児は、年齢、性別および環境が一致しており、遺伝的試験の能力を低下させることが多い交絡因子の多くを削減するのに役立つ。また、ゲノム領域は、疾患に関連する新規候補遺伝子を特定するアブ・イニシオ遺伝子予測ソフトウェアを用いて注釈をつけることができるので、ヒト・ゲノムおよびマウス・ゲノムの完成によって、連鎖領域内の候補遺伝子を特定する仕事がはるかに容易になり、既知の遺伝子のみを考慮することに依存することが少なくなる。また、より精巧なモデルにおいて人口統計データ、疫学的データおよび臨床データを使用すると、集団における形質変化の多くを説明するのに役立つ。このようにして全体の変動を低下させることによって、遺伝的変異の検出力が高まる。数百万のSNPを同定することによって、任意の所与のゲノム領域のより精細なマッピング、および極めて大きな症例/対照集団の直接的な関連性試験が可能になり、それによって、家族を試験する必要性が減少し、任意の遺伝子変異体が所与の集団に影響を及ぼす程度をより直接的に明らかにすることが可能になる。最後に、本発明者らの疾患の理解および所与の疾患の部分表現型を決定する必要性がこれでより十分に理解され、検討中の疾患の不均一性を低下させるのに役立つ。マイクロアレイなどの技術は、所与の疾患の疾患サブタイプを下位分類する能力を多いに強化するものである。しかし、これらの方法はすべて、複雑性疾患に関連する遺伝子および経路を効率良く特定することに関してはまだ不十分である。
2.3. 肥満
肥満は、最も一般的な体重障害であり、西側世界における最も重要な栄養障害であり、その罹患率は中年集団で30%〜50%と推定される。神経性食欲不振症、神経性過食症などの他の体重障害も、西側世界の女性集団の約0.2%が罹患しており、健康への重大な脅威となっている。また、食欲不振症、悪液質(るいそう)などの障害も、癌、嚢胞性線維症、AIDSなどの他の疾患の顕著な特徴である。
肥満は、最も一般的な体重障害であり、西側世界における最も重要な栄養障害であり、その罹患率は中年集団で30%〜50%と推定される。神経性食欲不振症、神経性過食症などの他の体重障害も、西側世界の女性集団の約0.2%が罹患しており、健康への重大な脅威となっている。また、食欲不振症、悪液質(るいそう)などの障害も、癌、嚢胞性線維症、AIDSなどの他の疾患の顕著な特徴である。
全アメリカ人の半数が過体重と推定されている。米国内では、男性の約24%、女性の27%が中度から重度の肥満に入る。理想体重指針よりも20%多い個体は肥満と見なされる。肥満は、軽度(20〜40%過体重)、中度(41〜100%過体重)、および重度(>100%)過体重に分類される。重度肥満は、比較的稀であり、全肥満個体の0.5%未満、全集団の約0.1%が罹患している。
肥満を測定するために、個体の体重をキログラム(kg)で計り、この値を個体の身長(メートル)の二乗で割って、体重/身長比を計算することができる。あるいは、個体の体重(ポンド(lbs))に703を掛け、この値を個体の身長(インチ(in))の二乗で割って、個体の体重/身長比を求めることができる。これらの比は、一般に、BMIと称する。したがって、BMI = kg/m2、またはBMI = (lbs.×703)/(in)2である。BMIを肥満の指標として利用する場合、BMI値が25.0〜29.9のときに個体は過体重とみなされる。肥満は、30.0以上のBMI値として定義される。世界保健機構は、BMI値を以下のように割り当てている。25.0〜29.9、肥満グレードI(中度の過体重); 30〜39.9、肥満グレードII(重度の過体重);および40.0以上、肥満グレードIII(甚だしい/病的肥満)。体重表を用いて、肥満は、軽度(20〜40%過体重)、中度(41〜100%過体重)、および重度(>100%)過体重に分類される。理想体重指針よりも20%多い個体は肥満と見なされる。理想体重よりも1〜19.9%多い個体は過体重に分類される。
肥満は、他の疾患の一因となる。例えば、この障害は、冠状動脈疾患、高血圧、発作、糖尿病、高脂血症、ある種の癌などの疾患の発生率の増加の原因になる(例えば、Nishina, P. M.等、1994、Metab. 43: 554〜558; Grundy, S. M. & Barnett、J. P.、1990、Dis. Mon. 36:641〜731を参照されたい)。肥満は、単なる行動上の問題、すなわち、自らの過食の結果ではない。そうではなく、肥満と正常対象とで認められる身体組成の違いは、代謝と神経/代謝相互作用の両方の違いから生じる。これらの違いは、ある程度、遺伝子発現、および/または遺伝子産物もしくは活性のレベルの違いのためと考えられる(Friedman, J. M.等、1991、Mammalian Gene 1: 130〜144)。
肥満の疫学は、障害が遺伝特性を有することを強く示している(Stunkard、1990、N. Eng. J. Med. 322: 1438)。Moll等は、多数の集団において、肥満が数個の遺伝子座によって制御されると考えられることを報告した(Moll等、1991、Am. J. Hum. Gen. 49: 1243)。また、ヒトの双子の研究は、体重制御における実質的な遺伝的基盤を強く示唆しており、遺伝率は80〜90%と推定される(Simopoulos, A. P. & Childs, B.編、1989、in 「Genetic Variation and Nutrition in Obesity」 World Review of Nutrition and Diabetes 63、S. Karger、Basel、Switzerland; Borjeson, M.、1976、Acta. Paediatr. Scand. 65: 279〜287)。
別の研究では、意図的な過食によって故意に体重増加を試みた非肥満の人は、このような体重増加に対してより抵抗性があり、極めて高カロリーを摂取することによってのみ体重増加を維持できることが判明した。これに対して、自然発症的な肥満の個体は、通常のカロリー摂取、またはほんのわずか高いカロリー摂取によってその状態を維持することができる。また、異なる系統のブタ、ウシなどが肥満に対して異なる素因を有することは畜産ではありふれたことである。ヒトの肥満の遺伝学、および肥満の動物モデルの研究は、肥満が、食物摂取、食物により誘発されるエネルギー消費、および脂質と除脂肪同化のバランスの複雑な不完全な調節から生じることを示している。
ヒトおよび他の種には、しばしば異形(dysmorphic features)および精神発達遅滞とともに、そのより顕著な症状の中でも肥満を特徴とするいくつかの遺伝的疾患がある。例えば、プラダー・ウィリー症候群(PWS; Knoll, J.H.等、1993、Am. J. Med. Genet. 46: 2〜6に総説がある)は、20,000の生児出生あたり約1件で発症し、新生児の筋緊張不良、顔および生殖器の奇形、および一般に肥満を伴う。
PWSに加えて、多数の他の多面的な症候群が、症状として肥満を含む特徴を有する。これらの症候群は、遺伝的に直接的であり、常染色体劣性対立遺伝子が関与すると考えられる。そのような疾患としては、なかでも、アールストローム(Ahlstroem)症候群、カーペンター症候群、バルデー-ビードル症候群、コーエン症候群、モルガニー-スチュワート-モネル症候群などがある。
肥満の研究にはいくつかのモデルが存在する(例えば、Bray、1992、Prog. Brain Res. 93: 333〜341;およびBray、1989、Amer. J. Clin. Nutr. 5: 891〜902を参照されたい)。例えば、肥満症状を含む症候群をもたらす突然変異を有する動物も明らかにされている。そのような動物を肥満研究のモデルとして利用する試みがなされており、遺伝的な肥満に対して現在まで最も研究されている動物モデルはマウスである。総説として、例えば、Friedman等、1991、Mamm. Gen. 1: 130〜144; FriedmanおよびLiebel、1992、Cell 69: 217〜220を参照されたい。
マウスを利用した研究から、肥満は、高い遺伝率を有する極めて複雑な形質であることが確認された。肥満表現型をもたらす、いくつかの遺伝子座における突然変異が特定された。これらには、病的な肥満(ob)、糖尿病(db)、まるまるとした肥満(fat)、ずんぐりとした肥満(tubby)(tub)などの常染色体劣性突然変異がある。したがって、肥満などの複合形質に影響を及ぼす遺伝子および生物学的経路を特定する方法が当分野で求められている。
上記背景から、当分野で求められているのは、疾患などの複合形質に影響を及ぼす遺伝子および生物学的経路を特定する改良方法である。本明細書における参考文献の考察または引用は、このような参考文献が本発明の従来技術であることを認めるものと解釈すべきではない。
本発明は、目的とする集団内の複数の遺伝子の転写レベルを複数の分子表現型として扱い、同時にこれらの表現型の各々を考慮することによって、従来技術を改良するものである。本発明は、これらの転写レベル表現型を、複雑性疾患および病態のリスク形質などのより基本的な表現型と統合する。目的形質のほとんど、および形質変化の独立変数として認められる要因の多くの根底にあるのは、転写レベルの変化である。したがって、目的集団全体の転写レベル変化を十分にまとめることによって、形質に関連する遺伝的変異との直接的関係が与えられ、遺伝学、環境および転写物量を単一ユニットとして結び付けて疾患に関連する形質変化を説明することによって、分子レベルでの疾患プロセスを解明する助けとなる。本発明の一実施形態においては、目的集団における複数の遺伝子中の各遺伝子の量的形質遺伝子座(QTL)分析を実施してQTLデータを作成する。次いで、検討中の形質に関連する遺伝子を特定するために、このQTLデータをクラスター化する。
本発明の一実施形態は、複数の生物中の1つまたは複数の生物によって示される形質と標的遺伝子を関連付ける方法を提供する。複数の生物に関連する1セットの遺伝マーカーから遺伝マーカー地図を構築する。複数の生物のゲノム中の複数の遺伝子の各遺伝子Gに対して、遺伝マーカー地図および量的形質を用いて、量的形質遺伝子座分析を実施する。量的トレイル遺伝子座分析の各々に使用される量的形質は、複数の生物の各生物に対する遺伝子Gの発現統計量を含む。量的形質遺伝子座分析によって、量的形質遺伝子座データが作成される。各量的形質遺伝子座分析から得られる量的形質遺伝子座データを、量的形質遺伝子座相互作用地図を作成するためにクラスター化する。次いで、量的形質遺伝子座相互作用地図中で標的遺伝子を特定し、それによって、その標的遺伝子を、複数の生物中の1つまたは複数の生物によって示される形質と関連付ける。
本発明の一部の実施形態においては、各遺伝子Gの発現統計量は、複数の生物の各生物に対する遺伝子Gの発現レベル測定値を変換することによって計算される。一実施形態においては、この変換には、発現統計量を形成するために遺伝子Gの発現レベル測定値を正規化することが含まれる。本発明に従って使用される正規化ルーチンとしては、強度のZ-スコア、強度中央値、強度中央値の対数、強度のZ-スコア標準偏差対数、対数強度のZ-スコア平均絶対偏差、較正DNA遺伝子セット、ユーザー正規化遺伝子セット、強度中央値の比率補正(ratio median intensity correction)、強度バックグラウンド補正などがあるが、これらだけに限定されない。
本発明の一部の実施形態において、各量的形質遺伝子座分析は、(i)[a]複数の生物のゲノムの染色体中の位置と、[b]量的形質遺伝子座分析に使用される量的形質との関連を試験するステップと、(ii)染色体中の位置をある量だけ進めるステップと、(iii)染色体の端部に到達するまでステップ(i)および(ii)を繰り返すステップとを含む。一部の実施形態においては、それぞれの量的形質遺伝子座分析から作成される量的形質遺伝子座データは、各試験位置において計算されるオッズ・スコアの対数を含む。一部の実施形態においては、量的形質遺伝子座ベクトルは、染色体中で試験される各量的形質に対して作製される。そのような実施形態においては、量的形質遺伝子座ベクトルは、量的形質に対応する量的形質遺伝子座分析によって試験された各位置におけるLODスコアを含む。一部の実施形態においては、各量的形質遺伝子座分析から得られる量的形質遺伝子座データのクラスター化は、各量的形質遺伝子座ベクトルのクラスター化を含む。いくつかの異なるタイプの類似尺度をこのようなクラスター化の基礎として使用することができる。代表的な尺度としては、ユークリッド距離、ユークリッド平方距離、ユークリッド平方和、マンハッタン計量、ピアソン相関係数、二乗ピアソン相関係数などがあるが、これらだけに限定されない。このような尺度は、量的形質遺伝子座ベクトル対間で計算される。
本発明の一部の実施形態においては、各量的形質遺伝子座分析から得られる量的形質遺伝子座データのクラスター化は、階層型クラスタリング技術の適用、k平均技術の適用、ファジーk平均技術の適用、Jarvis-Patrickクラスタリングの適用、自己組織化地図の適用、またはニューラル・ネットワークの適用を含む。一部の実施形態においては、階層型クラスタリング技術は、統合型クラスタリング (agglomerative clustering)手順である。別の実施形態においては、統合型クラスタリング手順は、最短距離アルゴリズム、最長距離アルゴリズム、平均連結アルゴリズム、セントロイド・アルゴリズムまたは平方和アルゴリズムである。さらに別の実施形態においては、階層型クラスタリング技術は、分割型クラスタリング (divisive clustering)手順である。
本発明の一部の実施形態は、さらに、変換ステップによって作成された各発現統計量から遺伝子発現クラスター地図を構築するステップを含む。一実施形態においては、遺伝子発現クラスター地図は、(i)複数の遺伝子発現ベクトルを作製するステップであって、複数の遺伝子発現ベクトルの各遺伝子発現ベクトルが複数の遺伝子中のある遺伝子であるステップと、(ii)複数の相関係数を計算するステップであって、複数の相関係数の各相関係数を、複数の遺伝子発現ベクトル中の遺伝子発現ベクトル対間で計算するステップ、および(iii)複数の遺伝子発現ベクトルを複数の相関係数に基づいてクラスター化して遺伝子発現クラスター地図を作成するステップによって作成される。本発明の一部の実施形態においては、標的遺伝子は、候補経路グループを得るために量的形質遺伝子座相互作用地図を選別した後に、量的形質遺伝子座相互作用地図中で特定される。一部の実施形態においては、複数の遺伝子発現ベクトルのクラスター化は、階層型クラスタリング技術の適用、k平均技術の適用、ファジーk平均技術の適用、Jarvis-Patrickクラスタリングの適用、自己組織化地図の適用、またはニューラル・ネットワークの適用を含む。
本発明のさらに別の実施形態においては、標的遺伝子は、候補経路グループを得るために量的形質遺伝子座相互作用地図を選別することによって、量的形質遺伝子座相互作用地図中で特定される。一部の実施形態においては、この選別は、候補経路グループに対して、量的形質遺伝子座相互作用地図中の別の量的形質遺伝子座と最も強く相互作用する量的形質遺伝子座を選択することを含む。一部の実施形態においては、量的形質遺伝子座相互作用地図中の別の量的形質遺伝子座と最も強く相互作用する量的形質遺伝子座は、量的形質遺伝子座相互作用地図中の各量的形質遺伝子座間で計算されるすべての相関係数の75%、85%または95%よりも高い相関係数を、量的形質遺伝子座相互作用地図中の別の量的形質遺伝子座と共有する、量的形質遺伝子座相互作用地図中の量的形質遺伝子座である。
本発明の一部の実施形態においては、クラスター化された量的形質遺伝子座データ中の標的遺伝子の特定は、さらに、候補経路グループを構成する各量的形質遺伝子座がともに属する程度を試験するために、多変量統計モデルを候補経路グループに適合させるステップを含む。一部の実施形態においては、多変量統計モデルは、複数の量的形質を同時に考慮する。一部の実施形態においては、多変量統計モデルは、候補経路グループ中の量的形質遺伝子座間のエピスタシス相互作用(epistatic interaction)をモデル化したものである。
本発明の一部の実施形態においては、複数の生物の各生物からの1つまたは複数の細胞中の対応する細胞構成成分の量を測定することによって、各発現レベルを測定する。一部の実施形態においては、対応する細胞構成成分の量は、生物の1つまたは複数の細胞中に存在するRNA種の量を含む。一部の実施形態においては、この存在量は、遺伝子転写物アレイを、1つまたは複数の細胞からのRNA、またはそれらに由来するcDNAと接触させるステップを含む方法によって測定される。そのような実施形態においては、遺伝子転写物アレイは、核酸または核酸模倣物が付着した表面を備え、核酸または核酸模倣物は、RNA種、またはそれに由来するcDNAとハイブリッド形成可能である。
本発明の一部の実施形態においては、遺伝マーカー地図を構築するために使用する遺伝マーカー・セットは、一塩基多型(SNP)、ミクロサテライト・マーカー、制限断片長多型、短鎖縦列反復、DNAメチル化マーカー、または配列長多型を含む。本発明のさらに別の実施形態においては、標的遺伝子と、複数の生物中の1つまたは複数の生物によって示される形質との関連性によって、標的遺伝子は、同じ生物学的経路または関係する生物学的経路の一部である遺伝子を含む経路グループ中に位置付けられる。
本発明の一部の実施形態においては、複数の生物に関連する遺伝マーカー・セットに加えて、遺伝子型データを使用して遺伝マーカー地図を構築する。この遺伝子型データは、複数の生物の各生物における、遺伝マーカー・セット中の各マーカーに対する対立遺伝子を含む。本発明の別の実施形態においては、系統データを使用して、複数の生物に関連する遺伝マーカー・セットから遺伝マーカー地図を構築する。この系統データは、複数の生物における各生物間の1つまたは複数の関係を示したものである。一部の実施形態においては、複数の生物はヒトであり、複数の生物における生物間の1つまたは複数の関係が系統データである。さらに別の実施形態においては、複数の生物はF2集団を含み、複数の生物における各生物間の1つまたは複数の関係は、複数の生物における各生物がF2集団のメンバーであることを示している。
本発明の別の実施形態は、コンピュータ・システムとともに使用されるコンピュータ・プログラム製品を提供する。コンピュータ・プログラム製品は、コンピュータ読み取り可能な記憶媒体およびその中に埋め込まれたコンピュータ・プログラム機構を備える。コンピュータ・プログラム機構は、マーカー地図構築モジュール、量的形質遺伝子座分析モジュール、およびクラスタリング・モジュールを含む。マーカー地図構築モジュールは、複数の生物に関連する1セットの遺伝マーカーから遺伝マーカー地図を構築するためのものである。量的形質遺伝子座分析モジュールは、量的形質遺伝子座データを作成するために、複数の生物のゲノム中の複数の遺伝子の各遺伝子Gに対して、遺伝マーカー地図と量的形質を用いて量的形質遺伝子座分析を実施するためのものである。各量的トレイル遺伝子座分析に使用される量的形質は、複数の生物の各生物に対する遺伝子Gの発現統計量を含む。クラスタリング・モジュールは、各量的形質遺伝子座分析から得られる量的形質遺伝子座データをクラスター化して量的形質遺伝子座相互作用地図を作成するためのものである。標的遺伝子は、量的形質遺伝子座相互作用地図中で特定されるときに、複数の生物中の1つまたは複数の生物によって示される形質と関連付けられる。
本発明のさらに別の実施形態は、複数の生物中の1つまたは複数の生物によって示される形質と標的遺伝子を関連付けるコンピュータ・システムを提供する。このコンピュータ・システムは、中央処理装置および中央処理装置に接続されたメモリを備える。このメモリは、マーカー地図構築モジュール、量的形質遺伝子座分析モジュールおよびクラスタリング・モジュールを保存する。マーカー地図構築モジュールは、複数の生物に関連する1セットの遺伝マーカーから遺伝マーカー地図を構築するためのものである。量的形質遺伝子座分析モジュールは、量的形質遺伝子座データを作成するために、複数の生物のゲノム中の複数の遺伝子の各遺伝子Gに対して、遺伝マーカー地図と量的形質を用いて量的形質遺伝子座分析を実施するためのものである。各量的トレイル遺伝子座分析に使用される量的形質は、複数の生物の各生物に対する遺伝子Gの発現統計量を含む。クラスタリング・モジュールは、各量的形質遺伝子座分析から得られる量的形質遺伝子座データをクラスター化して量的形質遺伝子座相互作用地図を作成するためのものである。この実施形態においては、標的遺伝子は、量的形質遺伝子座相互作用地図中で特定されるときに、形質と関連付けられる。
本発明の別の実施形態は、複数の生物中の1つまたは複数の生物によって示される形質と標的遺伝子を関連付けるコンピュータ・システムを提供する。このコンピュータ・システムは、中央処理装置およびメモリを備える。メモリは中央処理装置に接続されている。メモリは、クラスタリング・モジュールおよびデータベースを保存する。このデータベースは、複数の量的形質遺伝子座分析から得られる量的形質遺伝子座データを保存する。量的形質遺伝子座データを作成するために、遺伝マーカー地図および量的形質を用いて、複数の生物のゲノム中の複数の遺伝子中の遺伝子Gに対して、複数の量的形質遺伝子座分析の各量的形質遺伝子座分析を実施する。各量的形質遺伝子座分析では、量的形質は、複数の生物の各生物に由来する、量的形質遺伝子座分析が実施される遺伝子Gの発現統計量を含む。また、遺伝マーカー地図は、複数の生物に関連する1セットの遺伝マーカーから構築される。クラスタリング・モジュールは、データベース中に保存された量的形質遺伝子座データをクラスター化して、量的形質遺伝子座相互作用地図を作成する。標的遺伝子は、量的形質遺伝子座相互作用地図中で特定されるときに、複数の生物中の1つまたは複数の生物によって示される形質に関連付けられる。
本発明の一実施形態は、ある種内の生物学的経路のメンバーを特定する方法を提供する。この方法は、(a)複数の量的形質遺伝子座分析から得られる量的形質遺伝子座データをクラスター化して量的形質遺伝子座相互作用地図を作成するステップであって、
量的形質遺伝子座データを作成するために、遺伝マーカー地図および量的形質を用いて、その種のゲノム中の複数の遺伝子中の遺伝子に対して複数の量的形質遺伝子座分析の各量的形質遺伝子座分析を実施し、各量的形質遺伝子座分析では、量的形質が、その種のメンバーである複数の生物の各生物に対する、量的形質遺伝子座分析を実施した遺伝子の発現統計量を含み、
遺伝マーカー地図を、その種と関連する1セットの遺伝マーカーから構築するステップと、
(b)量的形質遺伝子座相互作用地図中で遺伝子のクラスターを特定し、それによって、生物学的経路のメンバーを特定するステップを含む。
量的形質遺伝子座データを作成するために、遺伝マーカー地図および量的形質を用いて、その種のゲノム中の複数の遺伝子中の遺伝子に対して複数の量的形質遺伝子座分析の各量的形質遺伝子座分析を実施し、各量的形質遺伝子座分析では、量的形質が、その種のメンバーである複数の生物の各生物に対する、量的形質遺伝子座分析を実施した遺伝子の発現統計量を含み、
遺伝マーカー地図を、その種と関連する1セットの遺伝マーカーから構築するステップと、
(b)量的形質遺伝子座相互作用地図中で遺伝子のクラスターを特定し、それによって、生物学的経路のメンバーを特定するステップを含む。
一部の実施形態においては、この方法は、さらに、クラスター化の前に、複数の生物に関連する遺伝マーカー・セットから遺伝マーカー地図を構築するステップを含む。
本発明の別の実施形態は、コンピュータ・システムとともに使用されるコンピュータ・プログラム製品を提供する。このコンピュータ・プログラム製品は、コンピュータ読み取り可能な記憶媒体およびその中に埋め込まれたコンピュータ・プログラム機構を備える。このコンピュータ・プログラム機構は、ある種内の生物学的経路のメンバーを特定する特定モジュールを備える。この特定モジュールは、(a)複数の量的形質遺伝子座分析から得られる量的形質遺伝子座データをクラスター化して量的形質遺伝子座相互作用地図を作成する命令であって、量的形質遺伝子座データを作成するために、遺伝マーカー地図および量的形質を用いて、種のゲノム中の複数の遺伝子中の遺伝子に対して複数の量的形質遺伝子座分析の各量的形質遺伝子座分析を実施し、各量的形質遺伝子座分析では、量的形質が、種のメンバーである複数の生物の各生物に対する、量的形質遺伝子座分析を実施した遺伝子の発現統計量を含み、遺伝マーカー地図を、種と関連する1セットの遺伝マーカーから構築する命令と、(b)量的形質遺伝子座相互作用地図中で遺伝子のクラスターを特定し、それによって、生物学的経路のメンバーを特定する命令を含む。
本発明は、ある1つの種の複数の生物中の1つまたは複数の生物によって示される形質に遺伝子を関連付ける装置および方法を提供する。例示的な生物としては、植物、動物などがあるが、これらだけに限定されない。具体的な実施形態においては、例示的な生物は、トウモロコシ、マメ、イネ、タバコ、ジャガイモ、トマト、キュウリ、リンゴの木、オレンジの木、キャベツ、レタス、コムギなどの植物であるが、これらだけに限定されない。具体的な実施形態においては、例示的な生物は、哺乳動物、霊長類、ヒト、マウス、ネズミ、イヌ、ネコ、ヒヨコ、ウマ、ウシ、ブタ、サルなどの動物であるが、これらだけに限定されない。さらに他の具体的な実施形態においては、生物は、ショウジョウバエ、酵母、ウイルス、線虫などであるが、これらだけに限定されない。ある場合には、遺伝子は、遺伝子産物が関与する生物学的経路を特定することによって、形質に関連付けられる。本発明の一部の実施形態においては、対象とする形質は、ヒトの疾患などの複合形質である。例示的なヒトの疾患は、糖尿病、癌、喘息、精神分裂病、関節炎、多発性硬化症、リウマチ症などであるが、これらだけに限定されない。複合形質についてのさらなる情報は、以下のセクション5.15にある。一部の実施形態においては、対象とする形質は、高血圧、異常なトリグリセリド・レベル、異常なコレステロール・レベル、または異常な高密度リポタンパク質/低密度リポタンパク質レベルなど、ただしこれらだけに限定されない疾患の前臨床の指標である。本発明の具体的な実施形態においては、形質は、特定の昆虫または病原体による感染に対する低抵抗性である。さらなる例示的な疾患は、以下のセクション5.12にある。本発明においては、複数の生物の各々における各細胞構成成分のレベルを、対応する発現統計量に変換する。「細胞構成成分のレベル」は、例えば、そのコードされたRNA(またはcDNA)またはタンパク質のレベル、またはコードされたタンパク質の活性レベルによって決定される遺伝子の発現レベル測定値とすることができる。一部の実施形態においては、この変換は、未処理の遺伝子発現データを正規化して、平均対数比、対数強度、およびバックグラウンド補正された強度を生じる正規化ルーチンである。また、遺伝マーカー地図78(図1)を、複数の生物に関連する1セットの遺伝マーカーから構築する。次いで、集団中の生物によって発現される複数の遺伝子中の各遺伝子Gに対して、QTLデータを作成するために、遺伝マーカー地図を用いて量的形質遺伝子座(QTL)分析が実施される。1セットの発現統計量は、各QTL解析に使用される量的形質を表す。QTL解析を、図2の要素210とともに以下でより詳細に説明する。任意の所与の遺伝子Gに対するこの発現統計量セットは、複数の生物中の各生物に対する遺伝子Gの発現統計量を含む。次に、各QTL解析から得られるQTLデータをクラスター化して、QTL相互作用地図を作成する。QTL相互作用地図における密にクラスター化されたQTLの特定は、遺伝相互作用する遺伝子を特定するのに役立つ。この情報は、次に、ヒトの疾患などの複合形質によって影響を受ける生物学的経路を解明するのに役立つ。本発明の一部の実施形態においては、QTL相互作用地図中の密にクラスター化されたQTLは、候補経路グループと考えられる。これらの候補経路グループは、候補経路グループ中の遺伝子が、特定の複合形質に影響を及ぼすかどうかを確認するために、多変量解析にかけられる。
本発明の一実施形態は、ある1つの種の複数の生物中の1つまたは複数の生物によって示される形質に遺伝子を関連付ける方法を提供する。この方法においては、複数の量的形質遺伝子座分析から得られる量的形質遺伝子座データがクラスター化されて、量的形質遺伝子座相互作用地図を作成する。量的形質遺伝子座データを作成するために、複数の生物のゲノム中の複数の遺伝子中の遺伝子Gに対して、遺伝マーカー地図および量的形質を用いて、複数の量的形質遺伝子座分析の各量的形質遺伝子座分析を実施する。各量的形質遺伝子座分析の場合、量的形質は、複数の生物の各生物に対する、量的形質遺伝子座分析を実施する遺伝子Gの発現統計量を含む。遺伝マーカー地図は、複数の生物に関連する1セットの遺伝マーカーから構築される。また、この方法においては、量的形質遺伝子座相互作用地図が解析されて、形質に関連する遺伝子が特定され、それによって、複数の生物中の1つまたは複数の生物によって示される形質に遺伝子を関連付ける。
5.1. 本発明の概要
図1に、本発明の一実施形態によって操作されるシステム10を示す。また、図2に、本発明の一実施形態によって実施される処理ステップを示す。本発明の利点および特徴を明らかにするために、これらの図をこのセクションで参照する。システム10は、少なくとも1つのコンピュータ20を備える(図1)。コンピュータ20は、中央処理装置22、プログラム・モジュールおよびデータ構造を保存する(高速ランダム・アクセス・メモリ、およびディスク記憶装置などの不揮発性記憶装置を含めた)メモリ24、ユーザー入力/出力装置26、サーバー20を通信ネットワーク(図示せず)を介して他のコンピュータに接続するネットワーク・インターフェース28、ならびにこれらの部品を相互に接続する1つまたは複数のバス34を含めて、標準部品を備える。ユーザー入力/出力装置26には、マウス36、ディスプレイ38、キーボード8などの1つまたは複数のユーザー入力/出力部品が含まれる
メモリ24は、本発明によって使用されるいくつかのモジュールおよびデータ構造を含む。システム操作中のどの時点においても、メモリ24に保存されたモジュールおよび/またはデータ構造の一部はランダム・アクセス・メモリに保存され、一方、モジュールおよび/またはデータ構造の別の部分は不揮発性記憶装置に保存されることを理解されたい。典型的な実施形態においては、メモリ24は、オペレーティング・システム40を含む。オペレーティング・システム40は、様々な基本的システム・サービスを取扱う手順、およびハードウェアに依存するタスクを実施する手順を含む。メモリ24は、さらに、ファイル管理のためのファイル・システム42を含む。一部の実施形態においては、ファイル・システム42は、オペレーティング・システム40の構成要素である。
図1に、本発明の一実施形態によって操作されるシステム10を示す。また、図2に、本発明の一実施形態によって実施される処理ステップを示す。本発明の利点および特徴を明らかにするために、これらの図をこのセクションで参照する。システム10は、少なくとも1つのコンピュータ20を備える(図1)。コンピュータ20は、中央処理装置22、プログラム・モジュールおよびデータ構造を保存する(高速ランダム・アクセス・メモリ、およびディスク記憶装置などの不揮発性記憶装置を含めた)メモリ24、ユーザー入力/出力装置26、サーバー20を通信ネットワーク(図示せず)を介して他のコンピュータに接続するネットワーク・インターフェース28、ならびにこれらの部品を相互に接続する1つまたは複数のバス34を含めて、標準部品を備える。ユーザー入力/出力装置26には、マウス36、ディスプレイ38、キーボード8などの1つまたは複数のユーザー入力/出力部品が含まれる
メモリ24は、本発明によって使用されるいくつかのモジュールおよびデータ構造を含む。システム操作中のどの時点においても、メモリ24に保存されたモジュールおよび/またはデータ構造の一部はランダム・アクセス・メモリに保存され、一方、モジュールおよび/またはデータ構造の別の部分は不揮発性記憶装置に保存されることを理解されたい。典型的な実施形態においては、メモリ24は、オペレーティング・システム40を含む。オペレーティング・システム40は、様々な基本的システム・サービスを取扱う手順、およびハードウェアに依存するタスクを実施する手順を含む。メモリ24は、さらに、ファイル管理のためのファイル・システム42を含む。一部の実施形態においては、ファイル・システム42は、オペレーティング・システム40の構成要素である。
ステップ202。本発明は、(例えば、遺伝子発現試験から得られる)細胞構成成分のデータ44、ならびに(ヒトを使用しない場合の)実験的交雑または検討中のヒト・コホートからの遺伝子型および/または系統データ68から始まる(図1;図2、ステップ202)。一実施形態においては、細胞構成成分データ44は、検討中の集団内の各個体(生物)46について処理されたマイクロアレイ・イメージからなる。一部の実施形態においては、このようなデータは、各個体46に対して、マイクロアレイ上で表される各遺伝子48の強度情報50、バックグラウンド・シグナル情報52、および遺伝子プローブを表現する関連注釈情報54(図1)を含む。一部の実施形態においては、細胞構成成分データは、実際には、検討中の生物における様々なタンパク質のタンパク質レベルである。本発明の一態様においては、目的集団内の生物における遺伝子発現レベルは、その生物の1つまたは複数の細胞中の遺伝子に対応する少なくとも1つの対応する細胞構成成分の量を測定することによって決定される。本明細書で使用する「細胞構成成分」という用語は、例えば、当業者によって生物学的実験において一般に測定される個々の遺伝子、タンパク質、遺伝子を発現するmRNA、および/または任意の他の可変細胞構成成分またはタンパク質活性、タンパク質修飾(例えば、リン酸化)の程度を含む。本発明の理解を容易にするために、本開示は、単一の細胞に言及することが多いが、本発明の任意の特定のステップを、例えば、培養細胞系からの複数の遺伝的に類似した細胞を用いて実施する方が多いことを、当業者は理解されたい。このような類似した細胞を、本明細書では「細胞型」と称する。一実施形態においては、測定される少なくとも1つの細胞構成成分の量は、1つまたは複数の細胞中に存在する少なくとも1つのRNA種の量を含む。このような存在量は、生物の1つまたは複数の細胞からのRNA、またはそれに由来するcDNAと遺伝子転写物アレイを接触させるステップを含む方法によって測定することができる。遺伝子転写物アレイは、核酸または核酸模倣物が付着した表面を備える。核酸または核酸模倣物は、RNA種またはRNA種から誘導されるcDNAとハイブリッド形成可能である。一部の実施形態においては、細胞構成成分データ44は、検討中の複合形質に関連する組織から採取される。例えば、検討中の複合形質がヒトの肥満である非限定的な一実施形態においては、遺伝子発現データは、2〜3例を挙げると、肝臓、脳または脂肪組織から採取される。
本発明の一部の実施形態においては、細胞構成成分データ44は、検討中の各生物46(図1)の複数の組織から測定される。例えば、一部の実施形態においては、細胞構成成分データ44は、肝臓、脳、心臓、骨格筋、1つまたは複数の場所からの白色脂肪、および血液からなる群から選択される1つまたは複数の組織から収集される。そのような実施形態においては、データは、図3Cに開示されるものなどの例示的なデータ構造に保存される。このデータ構造を以下により詳細に記述する。
遺伝子型および/または系統データ68(図1)は、これら各個体間の関係に加えて、検討中の各個体において各遺伝マーカー・タイプに対する実際の対立遺伝子を含む。検討中の各個体間の関係の程度は、F2集団と同程度に単純である場合も、広範なヒトの家系と同程度に複雑な場合もある。遺伝子型および系統データの例示的な出所を、以下のセクション6.1に記述する。本発明の一部の実施形態においては、系統データを任意に選択する。
検討中のゲノム全体にわたる規則的な間隔のマーカー・データ70、または対象の遺伝子領域中のマーカー・データ70を使用して、目的集団における分離をモニターし、または関連性を検出する。マーカー・データ70は、検討中の集団に使用して遺伝子型を評価するマーカーを含む。一実施形態においては、マーカー・データ70は、マーカー名、マーカーのタイプ(例えば、SNP、ミクロサテライトなど)、ゲノム配列におけるマーカーの物理的位置および遺伝的位置を含む。例示的なマーカーのタイプは、制限断片長多型「RFLP」、ランダム増幅多型DNA「RAPD」、増幅断片長多型「AFLP」、単純配列反復「SSR」、一塩基多型「SNP」、ミクロサテライトなどであるが、これらだけに限定されない。また、一部の実施形態においては、マーカー・データ70は、各マーカーに関連する異なる対立遺伝子を含む。例えば、「CA」繰り返しからなる特定のミクロサテライト・マーカーは、検討中の集団における10個の異なる対立遺伝子を表すことができ、この10個の異なる対立遺伝子の各々はいくつかの繰り返しからなる。本発明の一実施形態による代表的なマーカー・データ70を以下のセクション5.2に示す。本発明の一実施形態においては、使用する遺伝マーカーは、一塩基多型(SNP)、ミクロサテライト・マーカー、制限断片長多型、短鎖縦列反復、DNAメチル化マーカーおよび/または配列長多型を含む。
ステップ204。出発データを集めた後、細胞構成成分データ44を、細胞構成成分データ44中の各遺伝子転写物存在量を量的形質として扱うために使用する発現統計量に変換する(図2、ステップ204)。一部の実施形態においては、細胞構成成分データ44(図1)は、複数の遺伝子についての遺伝子発現データを含む。一実施形態においては、複数の遺伝子は、少なくとも5つの遺伝子を含む。別の実施形態においては、複数の遺伝子は、少なくとも100個の遺伝子、少なくとも1,000個の遺伝子、少なくとも20,000個の遺伝子、または30,000個を超える遺伝子を含む。本発明の一実施形態における分析において量的形質として一般に使用される発現統計量としては、平均対数比、対数強度、バックグラウンド補正強度などがあるが、これらだけに限定されない。別の実施形態においては、他のタイプの発現統計量を量的形質として使用する。一実施形態においては、この変換(図2、ステップ204)は、正規化モジュール72(図1)を用いて実施される。そのような実施形態においては、検討中の各生物における複数の遺伝子の発現レベルが正規化される。正規化モジュール72によってあらゆる正規化ルーチンを使用することができる。代表的な正規化ルーチンとしては、強度のZ-スコア、強度中央値、強度中央値の対数、強度のZ-スコア標準偏差対数、対数強度のZ-スコア平均絶対偏差較正DNA遺伝子セット、ユーザー正規化遺伝子セット、強度中央値の比率補正、強度バックグラウンド補正などがあるが、これらだけに限定されない。また、正規化ルーチンを組み合わせて実行することができる。本発明による例示的な正規化ルーチンを、以下のセクション5.3にさらに詳細に記述する。次いで、この変換から形成される発現統計量を発現/遺伝子型ウェアハウス76に保存し、そこで、発現統計量を最終的に対応する遺伝子型情報と整合させる。
ステップ206。細胞構成成分データ44からの発現統計量の作成に加えて、遺伝マーカー地図78を遺伝マーカー70から作成する(図1;図2、ステップ206)。本発明の一実施形態においては、遺伝マーカー地図を、マーカー地図構築モジュール74(図1)を用いて作成する。また、一実施形態においては、検討中の個体に対する遺伝子型確率分布を計算する。遺伝子型確率分布は、親のマーカー情報、各マーカー間の既知の遺伝距離、各マーカー間の推定遺伝距離などの情報を考慮したものである。遺伝子型確率分布の計算には、一般に、系統データが必要である。本発明の一部の実施形態においては、系統データは提供されず、遺伝子型確率分布は計算されない。
ステップ208。発現データを、対応する発現統計量に変換し、遺伝マーカー地図78を構築した後、QTL解析ソフトウェアに入力するために、すべてのマーカー、遺伝子型および発現データが関連する構造にデータを変換する。この構造を、発現/遺伝子型ウェアハウス76に保存する(図l;図2、ステップ208)。
ステップ210。量的形質遺伝子座(QTL)分析を、複数の遺伝子の各遺伝子に対応するデータを量的形質として用いて実施する(図2、ステップ210)。20,000個の遺伝子の場合、これは、20,000回の別個のQTL解析となる。各生物に対して複数の組織試料を収集する実施形態の場合、これは、さらに多くの個別のQTL解析となる。例えば、2つの異なる組織から試料を収集する実施形態においては、20,000個の遺伝子を分析するには、40,000回の個別のQTL解析が必要である。一実施形態においては、遺伝分析モジュール80によって各QTL解析を実施する(図1)。一例においては、各QTL解析は、目的生物のゲノム中の各染色体を通って進む。検討中の遺伝子に対する連鎖を、各ステップまたは染色体の長さに沿った場所で試験する。そのような実施形態においては、各ステップまたは染色体の長さに沿った場所を、規則的に規定された間隔とすることができる。一部の実施形態においては、これらの規則的に規定された間隔は、モルガンで定義され、より典型的には、センチモルガン(cM)で定義される。モルガンは、染色体上のマーカー間の遺伝距離を表す単位である。モルガンは、1回の産生で配偶子1つ当たり1つの組換え現象が起こると予想される染色体上の距離として定義される。一部の実施形態においては、規則的に規定された各間隔は、100 cM未満である。別の実施形態においては、規則的に規定された各間隔は、10 cM未満、5 cM未満または2.5 cM未満である。
各QTL解析においては、検討中の複数の生物中の遺伝子の発現レベルに対応するデータを量的形質として使用する。より具体的には、任意の所与の遺伝子の場合、QTL解析に使用する量的形質は、セット304(図3A)などの発現統計量セットである。発現統計量セット304は、検討中の集団内の生物306のすべてまたは一部から得られる遺伝子302に対応する発現統計量308を含む。図3Bに、本発明の一実施形態による例示的な発現統計量セット304を示す。例示的な発現統計量セット304としては、複数の生物の各生物に由来する遺伝子G(または遺伝子Gに対応する細胞構成成分)の発現レベル308がある。例えば、複数の生物中に10個の生物が存在し、10個の生物の各々が遺伝子Gを発現する場合を考える。この場合、発現統計量セット304は10個のエントリーを含み、各エントリーは、複数の生物中の10個の生物のうちの異なる1つに対応する。また、各エントリーは、このエントリーによって表される生物中の遺伝子G(または遺伝子Gに対応する細胞構成成分)の発現レベルである。したがって、エントリー「1」(308-G-1)は、生物1の遺伝子G(または遺伝子Gに対応する細胞構成成分)の発現レベルに対応し、エントリー「2」(308-G-2)は、生物2の遺伝子G(または遺伝子Gに対応する細胞構成成分)の発現レベルに対応し、以下同様である。
図3Cを参照すると、本発明の一部の実施形態においては、検討中の各生物306(図1、46)の複数の組織試料から発現データを収集する。この場合、データを、図3Cに示す例示的なデータ構造に保存することができる。図3Cでは、複数の遺伝子302が示されている。また、各遺伝子302について発現統計量セット304が存在する。各発現統計量セット304は、複数の生物306(図1、46)の各々における遺伝子の発現レベル(308)、またはその遺伝子に対応する細胞構成成分(308)の存在量である。一例においては、細胞構成成分は特定のタンパク質であり、ある遺伝子がその細胞構成成分をコードするときには、その細胞構成成分はその遺伝子に対応する。
本発明の一実施形態においては、各QTL解析(図2、ステップ210)は、(i)染色体中の位置と、量的形質遺伝子座(QTL)分析に使用する量的形質(例えば、複数の生物の各生物中の特定の遺伝子の発現値)との関連を試験するステップと、(ii)染色体中の位置をある量だけ進めるステップと、(iii)染色体の端部に到達するまでステップ(i)および(ii)を繰り返すステップとを含む。典型的な実施形態においては、量的形質は、図3Bに示すセットなどの発現統計量セット304である。一部の実施形態においては、染色体中の所与の位置と発現統計量セット304の関連を試験するステップは、単一のマーカー試験を利用して、発現レベル統計量304に存在する発現レベルの差を、所与の位置における遺伝子型の相違と相関させるステップを含む。単一マーカー試験の例は、t検定、分散分析または単回帰統計であるが、これらだけに限定されない。例えば、Statistical Methods、Snedecor and Cochran、1985、Iowa State University Press、Ames、Iowaを参照されたい。しかし、発現統計量セット304と染色体中の所与の位置との関連を試験する多数の他の方法がある。特に、発現統計量セット04を表現型(この場合、量的表現型)として扱う場合、Doerge、2002、Mapping and analysis of quantitative trait loci in experimental populations、Nature Reviews: Genetics 3:43〜62に開示されたような方法を使用することができる。上記ステップ(i)〜(iii)に関して、所与の染色体の遺伝子長がN cMであり、1 cMステップを使用する場合、連鎖に対してN回の異なる試験を所与の染色体に対して実施する。複数の染色体を有する生物の場合、このプロセスをゲノム中の各染色体に対して繰り返す。
一部の実施形態においては、それぞれのQTL解析から生成するQTLデータは、検討中のゲノム中の各試験位置において計算されるオッズ・スコアの対数(LOD)を含む。LODスコアは、2つの遺伝子座が染色体上で互いに近くにある可能性があるかどうか、故に、遺伝的に関連している可能性があるかどうかの統計的推定値である。本発明の場合、LODスコアは、検討中のゲノム中の所与の位置が、所与の遺伝子に対応する量的形質に関連しているかどうかの統計的推定値である。LODスコアを、以下のセクション5.4でさらに定義する。一般に、3以上のLODスコアは、2つの遺伝子座が遺伝的に関連していることを示唆し、4以上のLODスコアは、2つの遺伝子座が遺伝的に関連していることの強力な証拠であり、5以上のLODスコアは、2つの遺伝子座が遺伝的に関連していることの極めて強力な証拠である。しかし、任意の所与のLODスコアの有意性は、実際には、使用モデルによって種ごとに変わる。LODスコアを作成するには系統データが必要である。したがって、LODスコアを作成する実施形態においては、処理ステップ210は、以下のセクション5.13に記載するように、本質的に連鎖解析である。
系統データを利用できない状況では、各発現統計量304と関連するQTLを特定するために、遺伝マーカー地図70中の各マーカーに対して生物46(図1)の各々から得られる遺伝子型データを、以下のセクション5.14に記載するように、対立遺伝子関連解析によって各量的形質(発現統計量セット304)と比較することができる。関連解析の一形態においては、罹患集団を対照集団と比較する。特に、特定のハプロタイプまたは対立遺伝子が、対照試料よりも罹患試料間でかなり高頻度で存在するかどうかを判定するために、罹患集団におけるハプロタイプまたは対立遺伝子頻度を、対照集団におけるハプロタイプまたは対立遺伝子頻度と比較する。カイ二乗検定などの統計試験を使用して、対立遺伝子または遺伝子型分布に差があるかどうかを明らかにする。
ステップ212。連鎖解析、関連解析、またはそれらのある組み合せをステップ210に使用するかどうかにかかわらず、各QTL解析の結果は、QTL結果データベース82に保存される(図1;図2、ステップ212)。各量的形質84(発現統計量304)について、QTL結果データベース82は、当該量的形質84との関連を試験した生物のゲノム中のすべての位置86を含む。位置86は、遺伝マーカー地図70から得られる。また、各位置86では、遺伝子型データ68は、検討中の複数の生物の各生物に対して、位置86における遺伝子型を与える。QTL解析によって分析されるこうした各位置86に対して、位置と量的形質84の最大LODスコアなどの統計的測定値(例えば、統計スコア88)が列挙される。LODスコアを使用する場合、試験集団全体に対するLODスコア、および検討中の個体の各々に対する個々のLODスコアがある。したがって、データ構造82は、試験した各量的形質84に遺伝的に関連する目的生物のゲノム中のすべての位置を含む。
図4は、QTL結果データベース82のより詳細な図である。各統計スコア88(例えば、LODスコア)は、検討中の生物/個体の染色体の所与の位置86が、対応する形質84(例えば、発現統計量セット304)に関連する度合いを測定する。また、各個体の各細胞構成成分に対する統計スコア(すなわち、これらの統計スコアの合計は、所与の位置に対する全統計スコアを与える)も、遺伝的な相互作用の程度を決定するのに使用するために保存される、図11は、取り込まれた情報のタイプを示すプロットである。x軸に沿ってプロットされているのは、トウモロコシ・ゲノム中の5番染色体に沿ったセンチモルガン位置である。y軸に沿ってプロットされているのは、トウモロコシの76個の穂葉(ear-leaf)組織全体にわたって測定された2つの遺伝子発現形質のLODスコアである。この場合、これらの形質の連鎖領域は完全に一致する。これは、主に、トウモロコシからの76個の穂葉組織において測定された発現値に関して、これら2つの形質が強く相関しているためである。この場合、遺伝子自体は、QTLと一致するゲノム中の位置にあり、2つの遺伝子間の遺伝的なレベルでの相互作用を示していることに注目されたい。
任意の所与の量的形質84に対する統計スコア88のセットは、遺伝子分析ベクトルと考えることができる(みなすことができる)。したがって、本発明の一部の実施形態においては、遺伝子分析ベクトルは、試験生物の染色体中の試験される各遺伝子に対して作製される。遺伝子分析ベクトルの各要素は、検討中の種のゲノム中の異なる位置における統計スコア(例えば、LODスコア)である。遺伝子発現/細胞構成成分データ44が、検討中の各生物の複数の組織試料から収集される一部の実施形態においては、データ44が収集された各組織タイプに対して別個の遺伝子分析ベクトルが作製される。例えば、データ44(図1)が、検討中の各生物46に由来する2つの異なる組織タイプ・タイプから収集される例を考える。そのような実施形態においては、2つの遺伝子分析ベクトルは、試験する各細胞構成成分(例えば、遺伝子、タンパク質)48に対して作製される。所与の遺伝子/細胞構成成分48に対する第1の遺伝子分析ベクトルは、1つの組織タイプ試料に対応し、所与の遺伝子/細胞構成成分48に対する第2の遺伝子分析ベクトルは、第2の組織タイプ試料に対応する。したがって、事実上、複数の組織からデータが収集される一部の実施形態においては、各組織タイプからのデータは、処理ステップ202〜220上で、あたかもそれらのデータが個々の生物から収集されたかのように扱われる。しかし、ステップ222においては、複数の組織タイプからのデータは、場合によっては、連鎖解析に対して組織タイプが有する効果を明らかにするために比較される。複数の組織タイプからデータを取り込む方法を、下記ステップ222および下記セクション5.6に関連してより詳細に記述する。
一部の実施形態においては、遺伝子分析ベクトル84を、試験生物のゲノム全体の試験する各遺伝子に対して作製する。したがって、試験する遺伝子が1,000個の場合、1000個の遺伝子分析ベクトル84になる。各遺伝子分析ベクトル84は、遺伝子に対応する量的形質遺伝子座(QTL)分析によって試験される各染色体の位置86における統計スコア88を含む。
遺伝子分析ベクトル84に加えて、遺伝子発現ベクトルを、変換された遺伝子発現データ44から構築することができる。各遺伝子発現ベクトルは、目的集団内の各生物に由来する遺伝子の変換された発現レベルを示す。したがって、任意の所与の遺伝子発現ベクトル304は、目的集団内の複数の異なる生物に由来する遺伝子の変換された発現レベルを含む。したがって、遺伝子発現ベクトルは、単に、例えば、図3Aに示す所与の遺伝子302に対する発現統計量セット304である。
ステップ214。本発明の次のステップは、作製された遺伝子分析ベクトルを用いて、遺伝子分析ベクトルからQTL相互作用地図を作成するものである(図2、ステップ214)。本発明の目標は、検討中の生物のどの遺伝子が制御されるか、または検討中の生物のどの遺伝子が同じ染色体領域を制御するかを明らかにすることであるので、ステップ214は重要である。遺伝子分析ベクトル84は、QTLをたどってベクトル84に対応する遺伝子を突きとめる。本明細書で使用するQTLは、(i)複数の生物における遺伝子の発現パターンと(ii)複数の生物における位置86の遺伝子型(生物全体のゲノムの変化)との相関を示す統計スコア88を有する遺伝子分析ベクトル84内の位置86である。例えば、統計スコア88がLODスコアである場合、かなりのLODスコアを受ける位置86はQTLである。QTL相互作用地図は、同じ位置86にQTLを有する傾向にある遺伝子をクラスター化する。
本発明の一部の実施形態においては、QTL相互作用地図は、クラスタリング・モジュール92によって作成される。1つの組織における遺伝子発現は、別の組織における発現を誘発し得るので、遺伝子分析ベクトル84がいくつかの異なる組織タイプから作製される実施形態においては、様々な組織タイプからの遺伝子分析ベクトル84がクラスター化される。一部の実施形態においては、多様な組織タイプを示すQTLがクラスター化される。換言すると、同じ遺伝子であるが異なる組織に由来する遺伝子に対して、2つ以上の遺伝子発現ベクトル84がある場合、各ベクトルは、それらが異なる生物由来の遺伝子であるかのように、互いに完全に独立に扱われる。
遺伝子分析ベクトル84は、そのようなベクトルにおける統計スコア88が相関している場合、同じグループにクラスター化される。説明のために、5つの異なる染色体位置における異なるQTL(例えば、異なる発現統計量セット304)に対するQTL解析を実施することによって作製される仮定の遺伝子分析ベクトル84を考える。このようなベクトル84は、5つの値を有する。5つの値の各々は、5つの染色体位置、すなわち、
例示的な遺伝子分析ベクトル84-1: {0、5、5.5、0、0}
例示的な遺伝子分析ベクトル84-2: {0、4.9、5.4、0、0}
例示的な遺伝子分析ベクトル84-3: {6、0、3、3、5}
の1つにおけるQTL解析を示す統計スコア88である。
例示的な遺伝子分析ベクトル84-1: {0、5、5.5、0、0}
例示的な遺伝子分析ベクトル84-2: {0、4.9、5.4、0、0}
例示的な遺伝子分析ベクトル84-3: {6、0、3、3、5}
の1つにおけるQTL解析を示す統計スコア88である。
例示的な遺伝子分析ベクトル84-1、84-2および84-3のクラスター化によって、2つのクラスターが生じる。第1のクラスターは、ベクトル84-1および84-2を含む。というのは、各ベクトル内の統計スコア88が相関しているからである(染色体位置1における0と0、染色体位置2における5と4.9、染色体位置3における5.5と5.4 、染色体位置4における0と0、および染色体位置5における0と0)。第2のクラスターは、例示的なベクトル84-3を含む。というのは、ベクトル84-3におけるスコア88のパターンが、ベクトル84-1および84-2内のスコア88のパターンに類似していないからである。ここで、例示的な遺伝子分析ベクトル84-1、84-2および84-3に対して報告された仮想上の値がLODスコアである場合を考える。ベクトル84-1および84-2の位置2および3には有意なQTLがあることは明白である。しかし、ベクトル84-3は、位置2および3に有意なQTLを持たない。しかし、ベクトル84-3は、優位なQTLを位置1および5に有する。したがって、ベクトル84-3は、ベクトル84-1および84-2と同時にクラスターを形成しない。
本発明の一実施形態においては、統合型階層型クラスタリングを遺伝子分析ベクトル84に適用する。このクラスター化においては、遺伝子分析ベクトル対間のピアソン相関係数を用いて類似度を決定する。別の実施形態においては、各QTL解析からのQTLデータのクラスター化は、階層型クラスタリング技術の適用、k平均技術の適用、ファジーk平均技術の適用、Jarvis-Patrickクラスタリング技術の適用、または自己組織化地図の適用またはニューラル・ネットワークの適用を含む。一部の実施形態においては、階層型クラスタリング技術は、統合型クラスタリング手順である。別の実施形態においては、統合型クラスタリング手順は、最短距離アルゴリズム、最長距離アルゴリズム、平均連結アルゴリズム、セントロイド・アルゴリズムまたは平方和アルゴリズムである。さらに別の実施形態においては、階層型クラスタリング技術は、分割型クラスタリング手順である。クラスター遺伝子分析ベクトルに使用することができる説明のためのクラスタリング技術を以下のセクション5.5に記載する。好ましい実施形態においては、ノンパラマトリック・クラスタリング・アルゴリズムを遺伝子分析ベクトル84に適用する。一部の実施形態においては、スピアマンのR、ケンドールのτ、またはガンマ係数を使用して、遺伝子分析ベクトル84をクラスター化する。
ステップ216。本発明の一部の態様では、QTL相互作用地図から引き出される情報を遺伝子発現データと結び付けて、複合形質に影響を及ぼす生物学的経路を解明する助けとすることが有利である。本発明の一実施形態においては、遺伝子発現クラスター地図を、細胞構成レベルの統計から構築する(図2、ステップ216)。複数の遺伝子発現ベクトルが作製される。複数の遺伝子発現ベクトルの各遺伝子発現ベクトルは、目的集団内の各生物における発現レベル、活性、あるいは遺伝子、遺伝子産物などの特定の細胞構成成分の改変度を表す。本質的に、各遺伝子発現ベクトルは、例えば、図3Aに示す所与の遺伝子302に対する発現統計量セット304である。複数の相関係数が計算される。複数の相関係数の各相関係数は、複数の遺伝子発現ベクトルの遺伝子発現ベクトル対間の相関を示す。遺伝子発現ベクトル対は、任意の2つの発現統計量セット304である。次いで、複数の遺伝子発現ベクトルを、遺伝子発現クラスター地図を作成するために、複数の相関係数に基づいてクラスター化する。
図2のステップ216において実施される遺伝子発現ベクトル・クラスタリング・ステップを生じるプロセスを説明するために、3つの仮想上の遺伝子発現ベクトル(発現統計量セット304)の値、すなわち、
例示的な発現ベクトル304-1: {1000、100、1000、100、1000)
例示的な発現ベクトル304-2: {1100、120、1100、120、1100)
例示的な発現ベクトル304-3: {100、1200、10100、1020、0)
を考える。
例示的な発現ベクトル304-1: {1000、100、1000、100、1000)
例示的な発現ベクトル304-2: {1100、120、1100、120、1100)
例示的な発現ベクトル304-3: {100、1200、10100、1020、0)
を考える。
この場合、発現ベクトル304-1と304-2はともにクラスター化され、一方、発現ベクトル304-3は別個のクラスターを形成する。発現ベクトル304-1と304-2は、2つのベクトルにおける発現統計量308間に相関がある(1000と1100、100と120、1000と1100、100と120、1000と1100)のでともにクラスター化される。発現ベクトル304-1と304-3は、2つのベクトルにおける発現統計量308間にはあったとしてもごくわずかの相関しかないので(1000と100、100と1200、1000と10100、100と1020、および1000と0)、一緒にはクラスター化されない(低い相関係数を有する)。
本発明の一実施形態においては、ステップ216において計算される複数の相関係数の各相関係数はピアソン相関係数である。本発明の別の実施形態においては、複数の遺伝子発現ベクトルのクラスター化は、階層型クラスタリング技術の適用、k平均技術の適用、ファジーk平均技術の適用、自己組織化地図の適用、またはニューラル・ネットワークの適用を含む。本発明の一実施形態においては、階層型クラスタリング技術は、最短距離アルゴリズム、最長距離アルゴリズム、平均連結アルゴリズム、セントロイド・アルゴリズム、平方和アルゴリズムなどの統合型クラスタリング手順である。本発明の別の実施形態においては、階層型クラスタリング技術は、分割型クラスタリング手順である。遺伝子発現ベクトルをクラスター化するために使用することができる説明のためのクラスタリング技術を以下のセクション5.5に記載する。一部の実施形態においては、ノンパラメトリックな方法を用いて発現ベクトル304をクラスター化する。
ステップ218。本発明の一実施形態においては、QTL相互作用地図から得られるQTL相互作用のクラスター(ステップ214)および遺伝子発現クラスター地図から得られる遺伝子発現相互作用のクラスター(ステップ216)は、クラスター・データベース94中に示される(図l;図2、ステップ218)。一部の実施形態においては、クラスター・データベース94を使用して、多変量QTL解析を与えるパターンを明らかにする。遺伝子分析ベクトルおよび遺伝子発現ベクトル・クラスター情報に加えて、QTLおよび遺伝子の物理的位置がクラスター・データベース94に示される。クラスター・データベース94を、QTL相互作用地図と遺伝子発現クラスター地図を比較する基礎として使用する。
図5および6に、QTL相互作用地図(図5)と遺伝子発現クラスター地図(図6)を比較する有用性を示す。図5は、光化学系1経路に関与することが知られている6つの遺伝子グループがともに密接にクラスター化されたトウモロコシ遺伝子分析ベクトル用のQTL相互作用地図である。図6は、同じ生物に対する遺伝子発現クラスター地図である。図6において標識された遺伝子は、図5において標識された遺伝子と同じである。図5と図6を比較してわかるように、光化学系1経路の遺伝子は、遺伝的にともにグループ化されても、発現に基づくと、ともにグループ化されない。
QTL相互作用と遺伝子発現相互作用データを統合する階層クラスターの構築は、一般的な遺伝的制御下にあるが相関した発現値を持たない遺伝子を特定するのに役立つ。この点を、図7および8で説明する。図7は、x軸に沿った1つの遺伝子の発現値と、y軸に沿った別の遺伝子の発現値を、トウモロコシから得た76個を超える穂葉組織に対してプロットしたものである。これら2つの遺伝子はQTLが一致し、これら2つの遺伝子の発現値間の極めて高い線形相関は、各遺伝子に対する遺伝子発現値が同じ情報を提供するとして、QTLが一致していることを説明するものである。図8も、x軸に沿った1つの遺伝子の発現値と、y軸に沿った別の遺伝子の発現値を、トウモロコシから得た76個を超える穂葉組織に対してプロットしたものである。しかし、図7と異なり、2つの遺伝子間の発現値は、図8では相関していない。図8にプロットした2つの遺伝子は一致したQTLを有するものの、各遺伝子の2つの主要なQTLは強く相互作用し、これらの遺伝子が類似した遺伝的制御下にあることを示唆している。この情報は、発現パターンを見るだけでは、あるいは遺伝子型またはより基本的な情報のみを見るだけでは識別できない。しかし、このような情報を一緒に考えると、この情報は、生物学的経路を解明する強力な機序を提供する。
ステップ220。ステップ214で作成されるQTL相互作用地図は、検討中の生物における個々の遺伝子間の遺伝的連鎖についての情報を提供する。QTL相互作用地図においてともにクラスターを形成する遺伝子分析ベクトル84によって示される遺伝子は、同じ染色体位置によって場合によっては制御され、かつ/または同じ染色体位置にある遺伝子に影響を及ぼす。したがって、ステップ214で作成されるQTL相互作用地図を使用して、候補経路グループの本性を定義し、または本性をさらに精密にすることができる。一実施形態においては、候補経路グループは、複合形質に影響を及ぼす生物学的経路のメンバーである1セットの遺伝子である。別の実施形態においては、候補経路グループは、複合形質に影響を及ぼす単なる1セットの遺伝子である。そのような遺伝子は、互いに遺伝的に関連していてもよい。
ステップ220においては、QTL相互作用地図および/または遺伝子発現クラスター地図は、1つまたは複数の候補経路グループを特定するために選別される。一部の実施形態においては、候補経路グループを特定するためにQTL相互作用地図を選別するステップは、候補経路グループとしてQTL相互作用地図中でクラスターを形成する遺伝子分析ベクトル84に対応する遺伝子を指定するステップを含む。
本発明の一部の実施形態においては、QTL相互作用地図中でクラスターを形成する遺伝子分析ベクトル84に対応する遺伝子として規定された候補経路グループは、遺伝子発現クラスター地図を用いてさらに精緻化される。このさらなる精緻化においては、遺伝子発現クラスター地図中でやはりクラスターを形成する候補経路グループ中の遺伝子は、候補クラスター・グループから除外される。特定の理論に拘泥するつもりはないが、この精緻化の合理性は、遺伝子発現クラスター地図中でともにクラスターを形成する遺伝子が、生物学的経路において潜在的により興味深い上流の関係遺伝子(participant)ではなく、下流の関係遺伝子である傾向がある点にある。
ステップ220を説明するために、一実施形態においては、遺伝子分析ベクトル84-1、84-5、84-10、84-12、および84-20〜84-100が、QTL相互作用地図においてともにクラスターを形成する。したがって、ベクトル84-1によって表される遺伝子(細胞構成成分48、図1;遺伝子302、図3C)、ベクトル84-5によって表される遺伝子(細胞構成成分48、図1;遺伝子302、図3C)、ベクトル84-10によって表される遺伝子(細胞構成成分48、図1;遺伝子302、図3C)などが候補経路グループを規定する。これは、それ自体、重要な結果である。この結果は、この遺伝子セットが複合形質に影響を及ぼす生物学的経路であり得ることを示している。しかし、グループはそのままでは85個の遺伝子を含む。85個の遺伝子の発現パターンの多変量解析は複雑で望ましくない。したがって、候補経路グループ中の遺伝子の数を減少させるために、ステップ216から得られる遺伝子発現クラスター地図を、候補経路グループ中の遺伝子数を減少させるために使用することができる。例として、遺伝子分析ベクトル84-21〜84-100によって表される遺伝子が、遺伝子発現クラスター地図においてともにクラスターを形成する場合を考える。したがって、一実施形態においては、遺伝子分析ベクトル84-21〜84-100によって表される遺伝子は、候補経路グループから除外される。したがって、精緻化後、候補経路グループには、候補経路グループ中のベクトル84-1、84-5、84-10、84-12および84-20によって表される遺伝子が残る。したがって、候補経路グループは、85個の遺伝子から5個の遺伝子セットに減少する。遺伝子セットにおける発現パターンの変化が、集団で考えて、遺伝子セットを独立に考慮したときよりも統計的に有意に高いLODスコアを有する、検討中の種のゲノム中のQTLを生じるかどうかを明らかにするために、この5個の遺伝子セットを多変量解析にかけられることが有利である。遺伝子セットを集団で考えたときに、このような高いLODスコアが見られる場合、これは、遺伝子セットが、ある形態の遺伝経路において遺伝的に相互作用していることを示している。
別の実施形態においては、(QTL相互作用地図ではなく)遺伝子発現クラスター地図(ステップ216)に見られる各遺伝子発現クラスターは、それぞれ同じ候補経路グループにあると考えることができる。そのような実施形態においては、QTL相互作用地図(ステップ214)を使用して、候補経路グループ中の他の遺伝子よりも、候補経路グループ中でともに「近い」遺伝子を特定することができる。すなわち、遺伝子相互作用地図(発現データ)とQTL相互作用地図(QTL連鎖データ)の両方においてともにクラスターを形成する遺伝子を、候補経路グループ中でともに「近い」遺伝子として特定することができる。
一部の実施形態においては、(QTL相互作用地図によって示されるように)遺伝的にまったく相互作用しておらず、遺伝子発現地図中にある遺伝子発現クラスター(ステップ216)の遺伝子は、遺伝的に相互作用する遺伝子よりも軽視してよい。このようにして、QTL相互作用地図は、遺伝子発現クラスター地図中に特定される候補経路グループを精緻化するのに役立つ。
本発明の一部の実施形態においては、この方法は、さらに、生物学的経路に関連する臨床形質を決定するステップを含む。この臨床形質は、複数の生物において測定される表現型、または測定可能な表現型である。そのような臨床形質を生物学的経路と関連付けることができる方法が多数ある。一部の実施形態においては、これは、あたかもそれが遺伝子発現ベクトル304であるかのように、臨床形質(例えば、病態、目の色、化合物の血中濃度、臨床肥満測定)を扱うことによって達成される。唯一の違いは、各生物306(図3A)から発現統計量308が与えられるのではなく、各生物306における臨床形質の測定値である定量値が与えられる点にある。このようにして、量的形質分析(例えば、連鎖解析、関連解析、またはそれらのある組み合せ)を使用して、臨床形質用の遺伝子分析ベクトル84を作製することができる。次いで、臨床形質用の遺伝子分析ベクトル84を様々な方法で使用して、候補経路グループが臨床形質に遺伝的に結び付けられるかどうかを明らかにすることができる。一手法においては、臨床形質用の遺伝子分析ベクトル84は、他のすべての遺伝子分析ベクトル84とともにクラスター化される。臨床形質用の遺伝子分析ベクトル84内のQTLパターンが、候補経路グループ内の遺伝子を表す遺伝子分析ベクトル84の各々に対するQTLパターンに対応する場合、臨床形質用の遺伝子分析ベクトル84は、これらのベクトル84ともにクラスターを形成する。このような同時クラスタリング(QTLの共存/遺伝子の同時クラスタリング)は、臨床形質が、候補経路グループを含む遺伝子に遺伝的に結び付けられることを示している。別の手法においては、候補経路グループ内の遺伝子を、候補経路グループ内の遺伝子の各々に対する注釈情報を検討する生物学的経路と関連付けることができる。このような注釈情報は、公開遺伝子配列データ・データベース、タンパク質配列データベース、ならびにジャーナルの記事に見出すことができる。
ステップ222。上述したQTL相互作用地図が多数使用されているにもかかわらず、QTL相互作用地図は、候補経路グループの実際のトポロジーを与えない。経路グループ(生物学的経路)の説明のためのトポロジーは、例えば、遺伝子Aが遺伝子Bの上流にあるといったようなものである。遺伝子発現クラスター地図(ステップ216)に照らして解釈されないQTL相互作用地図(ステップ214)の別の欠点は、QTL相互作用地図が偽陽性を含み得ることである。例えば、QTL相互作用地図内のクラスターは、遺伝的に相互作用しない遺伝子を含むことができる。複雑性疾患に関連する生物学的経路のトポロジーを明らかにし、偽陽性遺伝子を除外するために、処理ステップ222を実施する。
ステップ222の一実施形態においては、遺伝子が、実際に、同じ経路の一部であるかどうかを試験するために、候補経路グループを遺伝的なモデルに適合させることによって経路グループを検証する。本発明による一実施形態においては、候補経路グループを構成する各遺伝子が、他の遺伝子とともに、候補経路グループ内に属する程度を、多変量統計モデルを候補経路グループ(図2; ステップ222)に適合させることによって試験する。多変量統計モデルは、複数の量的形質を同時に考慮し、遺伝子間のエピスタシス相互作用をモデル化し、候補経路グループの遺伝子が同じまたは関係する生物学的経路に属するかどうかを決定する他の重要な変化を試験することが可能である。具体的な試験を実施して、検討中の形質が、実際に、同じQTLによって制御されるかどうか(多面発現効果)、あるいはそれらが独立かどうかを決定することができる。本発明に従って使用することができる例示的な多変量統計モデルを以下のセクション5.6に記載する。
多変量解析の結果は、候補経路グループを「検証する」ために使用される。次いで、これらの検証されたグループは、データベースに表され、経路の再構築を含む最終分析ステージで利用可能になる。このステージにおいて、データベースは、ある種の一般的な遺伝的制御下にある遺伝子であって、発現レベルである程度相互作用し、これらの異なるレベルにおいて、同じ経路または関係する経路におそらく属するのに十分な強さで相互作用することが示された遺伝子を含む。したがって、いくつかの例においては、遺伝子と目的集団内の1つまたは複数の生物によって示される形質との関連性によって、同じ経路または関係する経路の一部である遺伝子を含む経路グループ中に遺伝子が配置される。
一部の実施形態においては、所与の経路グループ内の経路を部分的に再構築する試みがなされる。各候補経路グループでは、代表的な遺伝子分析ベクトルと遺伝子発現ベクトルの相互作用を検討することができる。また、QTLおよびプローブ位置情報を使用して、原因経路の継ぎ合わせを開始することができる。また、グラフィカル・モデルを、相互作用強度、QTLオーバーラップ、および前のステップから蓄積された物理的位置情報を用いてデータに適合させて、候補経路グループ中の遺伝子を連結する端部を重み付けし誘導することができる。このようなグラフィカル・モデルの適用を、候補経路グループにより近く連結された遺伝子を決定し、したがって、経路のトポロジーに制約を加えるモデルを示唆するために利用する。したがって、このようなモデルは、相互作用、QTLオーバーラップ、および物理的QTL/プローブ位置によって提供される証拠が与えられたとして、候補経路が特定の方向に進む可能性が高いかどうかを試験する。発現データ、遺伝子型データおよびマーカー・データから始まった後のこのプロセスの最終結果は、同じ経路または関係する経路の一部をなすものとして支持される遺伝子からなる1セットの経路グループ、および経路中の遺伝子(または、経路中の部分的な遺伝子セット)の正確な関係を示す因果情報である。
5.2. マーカー・データ源
マーカー地図78を構築するために使用するいくつかの形式の遺伝マーカーが当分野で知られている。一般的な遺伝マーカーは、一塩基多型(SNP)である。SNPは、ゲノム中の600塩基対ごとに約1つ存在する。例えば、KruglyakおよびNickerson、2001、Nature Genetics 27、235を参照されたい。本発明は、遺伝マーカー源としてSNPデータベースなどの遺伝子型データベースの使用を企図する。物理的に近接したこのようなSNPのブロックを構成する各対立遺伝子は相関していることが多く、遺伝的変異性を減少させ、各々が単一の祖先の染色体からの遺伝を反映した限定された数の「SNPハプロタイプ」を規定する。Fullerton等、2000、Am. J. Hum. Genet. 67、881を参照されたい。このようなハプロタイプ構造は、分析のための適切な遺伝的変異体を選択するのに有用である。Patil等は、一般的なハプロタイプ情報のすべてを取り込むために、極めて高密度のSNPセットが必要であることを見出した。一般的なハプロタイプ情報が利用可能になった後、それを使用して、包括的な全ゲノムの研究に有用なはるかに小さいSNPサブセットを特定することができる。Patil等、2001、Science 294、1719〜1723を参照されたい。
マーカー地図78を構築するために使用するいくつかの形式の遺伝マーカーが当分野で知られている。一般的な遺伝マーカーは、一塩基多型(SNP)である。SNPは、ゲノム中の600塩基対ごとに約1つ存在する。例えば、KruglyakおよびNickerson、2001、Nature Genetics 27、235を参照されたい。本発明は、遺伝マーカー源としてSNPデータベースなどの遺伝子型データベースの使用を企図する。物理的に近接したこのようなSNPのブロックを構成する各対立遺伝子は相関していることが多く、遺伝的変異性を減少させ、各々が単一の祖先の染色体からの遺伝を反映した限定された数の「SNPハプロタイプ」を規定する。Fullerton等、2000、Am. J. Hum. Genet. 67、881を参照されたい。このようなハプロタイプ構造は、分析のための適切な遺伝的変異体を選択するのに有用である。Patil等は、一般的なハプロタイプ情報のすべてを取り込むために、極めて高密度のSNPセットが必要であることを見出した。一般的なハプロタイプ情報が利用可能になった後、それを使用して、包括的な全ゲノムの研究に有用なはるかに小さいSNPサブセットを特定することができる。Patil等、2001、Science 294、1719〜1723を参照されたい。
他の適切な遺伝マーカー源は、点状のマイクロアレイ(マイクロアレイ)、高密度オリゴヌクレオチド・アレイ(HDA)、ハイブリッド形成フィルター(フィルター)、遺伝子発現の連続分析(SAGE)データなどのタイプのプラットフォームからの様々なタイプの遺伝子発現データを有するデータベースなどである。使用可能な遺伝子データベースの別の例は、DNAメチル化データベースである。代表的なDNAメチル化データベースの詳細については、Grunau等、MethDB- a public database for DNA methylation data、Nucleic Acids Research、印刷中またはURL: http://genome.imb-jena.de/public.htmlを参照されたい。
本発明の一実施形態においては、遺伝マーカー・セットは、目的生物のゲノム変化を追う任意のタイプの遺伝子データベースから誘導される。一般にこのようなデータベースに示される情報は、目的生物のゲノム内の遺伝子座の集合である。各遺伝子座では、遺伝的変異情報が利用可能な系統が示される。示された各系統では、変化の情報が提供される。変化の情報は、任意のタイプの遺伝的変異情報である。代表的な遺伝的変異情報は、単一のヌクレオチド多型、制限断片長多型、ミクロサテライト・マーカー、制限断片長多型、短鎖縦列反復などであるが、これらだけに限定されない。したがって、適切な遺伝子型データベースは、以下のとおりであるが、これらだけに限定されない。
また、本発明の方法によって使用される遺伝的変異は、目的生物の実際に確認されたゲノム組成変化ではなく、遺伝子発現レベルの違いであってもよい。したがって、本発明の範囲内の遺伝子型データベースは、URL: http://www.ncbi.nlm.nih.gov/geo/にあるものなどの広範な発現プロファイル・データベースを含む。
マーカー地図78を構築するために使用することができる別の形式の遺伝マーカーは、制限断片長多型(RFLP)である。RFLPは、ヌクレオチド配列変異性によって生じるDNA制限断片間の対立遺伝子差による生成物である。当業者には周知のように、RFLPは、一般に、ゲノムDNAの抽出および制限エンドヌクレアーゼによる消化によって検出される。一般に、得られた断片は、サイズに従って分離され、プローブとハイブリッド形成される。単一のコピー・プローブが好ましい。その結果、相同染色体からの制限断片が出現する。対立遺伝子間の断片サイズの差は、RFLPということになる(例えば、Helentjaris等、1985、Plant Mol. Bio. 5:109〜118、および米国特許第5,324,631号を参照されたい)。マーカー地図78を構築するために使用することができる別の形式の遺伝マーカーは、ランダム増幅多型DNA(RAPD)である。「ランダム増幅多型DNA」または「RAPD」という句は、DNAの対向する鎖の異なる部位に出現する単一のオリゴヌクレオチド・プライマーに相同なDNA配列間の距離の増幅産物を意味する。結合部位におけるまたは結合部位間の突然変異または再配列は、増幅産物の有無によって検出される多型をもたらす(例えば、WelshおよびMcClelland、1990、Nucleic Acids Res. 18:7213〜7218; HuおよびQuiros、1991、Plant Cell Rep. 10:505〜511を参照されたい)。マーカー地図78を構築するために使用することができるさらに別の形式の遺伝マーカー地図は、増幅断片長多型(AFLP)である。AFLP技術は、多数のランダムに分布した分子マーカーを生成するように設計されたプロセスである(例えば、欧州特許出願第0534858号A1を参照されたい)。マーカー地図78を構築するために使用することができるさらに別の形式の遺伝マーカー地図は、「単純配列反復」または「SSR」である。SSRは、ゲノム内のジ-、トリ-またはテトラ-ヌクレオチド縦列反復である。反復領域は遺伝子型によって長さが変わり得るが、この反復に隣接するDNAは保存されるので、同じプライマーが複数の遺伝子型において働く。2つの遺伝子型間の多型は、2つの隣接する保存DNA配列間
の異なる長さの反復である(例えば、Akagi等、1996、Theor. Appl. Genet. 93、1071〜1077; Bligh等、1995、Euphytica 86:83〜85; Struss等、1998、Theor. Appl. Genet. 97、308〜315; Wu等、1993、Mol. Gen. Genet. 241、225〜235;および米国特許第5,075,217号を参照されたい)。SSRは、サテライトまたはミクロサテライトとしても知られる。
の異なる長さの反復である(例えば、Akagi等、1996、Theor. Appl. Genet. 93、1071〜1077; Bligh等、1995、Euphytica 86:83〜85; Struss等、1998、Theor. Appl. Genet. 97、308〜315; Wu等、1993、Mol. Gen. Genet. 241、225〜235;および米国特許第5,075,217号を参照されたい)。SSRは、サテライトまたはミクロサテライトとしても知られる。
上述したように、本発明の使用に適切な多数の遺伝マーカーが公的に利用可能である。当業者は、適切なマーカーを調製することも容易にできる。分子マーカー法については、一般に、Genome Mapping in Plants (Andrew H. Paterson編)中のAndrew H. Paterson、The DNA Revolution (第2章)、1996、Academic Press/R. G. Landis Company、Austin、Tex.、7〜21を参照されたい。
5.3. 例示的な正規化ルーチン
正規化モジュール72によるいくつかの異なる正規化プロトコルを使用して、遺伝子発現データ44を正規化することができる。いくつかのそのような正規化プロトコルをこのセクションで述べる。一般に、正規化は、目的集団内の生物によって発現される複数の遺伝子の各遺伝子の発現レベル測定値を正規化することを含む。このセクションで記述する正規化プロトコルの多くは、マイクロアレイ・データを正規化するために使用される。本発明によって使用することができる多数の他の適切な正規化プロトコルがあることを理解されたい。そのようなプロトコルはすべて本発明の範囲内にある。このセクションにある正規化プロトコルの多くは、Microarray Explorer (Image Processing Section、Laboratory of Experimental and Computational Biology、National Cancer Institute、Frederick、MD 21702、USA.)などの公的に利用可能なソフトウェア中にある。
正規化モジュール72によるいくつかの異なる正規化プロトコルを使用して、遺伝子発現データ44を正規化することができる。いくつかのそのような正規化プロトコルをこのセクションで述べる。一般に、正規化は、目的集団内の生物によって発現される複数の遺伝子の各遺伝子の発現レベル測定値を正規化することを含む。このセクションで記述する正規化プロトコルの多くは、マイクロアレイ・データを正規化するために使用される。本発明によって使用することができる多数の他の適切な正規化プロトコルがあることを理解されたい。そのようなプロトコルはすべて本発明の範囲内にある。このセクションにある正規化プロトコルの多くは、Microarray Explorer (Image Processing Section、Laboratory of Experimental and Computational Biology、National Cancer Institute、Frederick、MD 21702、USA.)などの公的に利用可能なソフトウェア中にある。
正規化プロトコルの1つは、強度のZ-スコアである。このプロトコルにおいては、未処理の発現強度を、試料中のすべてのスポットに対する未処理の強度の(平均強度)/(標準偏差)によって正規化する。マイクロアレイ・データの場合、強度のZ-スコア方法は、その試料中のすべてのスポットに対する未処理の強度の平均および標準偏差によって、ハイブリッド形成された各試料を正規化する。平均強度mnIiおよび標準偏差sdIiを、対照遺伝子の未処理強度に対して計算する。これは、平均を(0.0に)標準化し、ハイブリッド形成された試料間のデータ範囲を約-3.0〜+3.0に標準化するために有用である。Z-スコアを使用するときには、比ではなくZ差(z differences)(Zdiff)を計算する。プローブi(ハイブリッド形成プローブ、タンパク質、または他の結合要素)およびスポットjの強度Iijに対するZ-スコア強度(Z-スコアij)を以下のように計算する。
Z-スコアij = (Iij - mnIi)/sdIi
および
Zdiffj(x,y) = Z-スコアxj - Z-スコアyj
式中、
xは、xチャネルを表し、yはyチャネルを表す。
および
Zdiffj(x,y) = Z-スコアxj - Z-スコアyj
式中、
xは、xチャネルを表し、yはyチャネルを表す。
別の正規化プロトコルは、各試料中のすべてのスポットに対する未処理強度が、未処理強度の中央値によって正規化される強度中央値正規化プロトコルである。マイクロアレイ・データでは、強度中央値正規化方法は、その試料中のすべてのスポットに対する対照遺伝子の未処理強度の中央値(中央値Ii)によって、ハイブリッド形成された各試料を正規化する。したがって、強度中央値正規化方法によって正規化すると、プローブiおよびスポットjに対する未処理強度Iijは、値Imijを有することになる。ここで、
Imij = (Iij/中央値Ii)
である。
Imij = (Iij/中央値Ii)
である。
別の正規化プロトコルは、対数強度中央値のプロトコルである。このプロトコルにおいては、試料中のすべてのスポットに対する未処理発現強度を、代表的なスポットの中央値スケールの未処理強度の対数によって正規化する。マイクロアレイ・データの場合、対数強度中央値の方法では、ハイブリッド形成された各試料を、その試料中のすべてのスポットに対して、対照遺伝子の中央値スケールの未処理強度(中央値Ii)の対数によって正規化する。本明細書で使用する対照遺伝子は、再現性のある正確に測定された発現値を有する1セットの遺伝子である。強度がゼロであるときにlog(0.0)となるのを避けるために、強度値に値1.0を加算する。強度中央値正規化方法による正規化によって、プローブiおよびスポットjに対する未処理強度Iijは値Imijを有する。ここで、
Imij = log(1.0 + (Iij/中央値Ii))
である。
Imij = log(1.0 + (Iij/中央値Ii))
である。
さらに別の正規化プロトコルは、強度のZ-スコア標準偏差対数プロトコルである。このプロトコルにおいては、未処理の発現強度を、平均対数強度(mnLIi)および標準偏差対数強度(sdLIi)によって正規化する。マイクロアレイ・データの場合、平均対数強度および標準偏差対数強度を、対照遺伝子の未処理強度の対数に対して計算する。したがって、プローブiおよびスポットjに対するZ-スコア強度ZlogSijは、
ZlogSij = (log(Iij) - mnLIi)/sdLIi
となる。
ZlogSij = (log(Iij) - mnLIi)/sdLIi
となる。
さらに別の正規化プロトコルは、対数強度のZ-スコア平均絶対偏差プロトコルである。このプロトコルにおいては、未処理の発現強度を、式(log(強度) - 平均対数)/標準偏差対数による対数強度のZ-スコアによって正規化する。マイクロアレイ・データの場合、対数強度のZ-スコア平均絶対偏差プロトコルは、試料中のすべてのスポットに対して、未処理強度の対数の平均および平均絶対偏差によって各結合試料を正規化する。平均対数強度mnLIiおよび平均絶対偏差対数強度madLIiを、対照遺伝子の未処理強度の対数に対して計算する。したがって、プローブiおよびスポットjに対するZ-スコア強度ZlogAijは、
ZlogAij = (log(Iij) - mnLIi)/madLIi
となる。
ZlogAij = (log(Iij) - mnLIi)/madLIi
となる。
別の正規化プロトコルは、ユーザー正規化遺伝子セット・プロトコルである。このプロトコルにおいては、未処理の発現強度を、各試料におけるユーザー定義遺伝子セット中の遺伝子の合計によって正規化する。この方法は、遺伝子サブセットが、1セットの試料にわたって比較的一定して発現するように決定された場合に有用である。さらに別の正規化プロトコルは、各試料が較正DNA遺伝子の合計によって正規化される較正DNA遺伝子セット・プロトコルである。本明細書で使用する較正DNA遺伝子は、正確に測定される再現性のある発現値を生成する遺伝子である。このような遺伝子は、いくつかの異なるマイクロアレイの各々で同じ発現値を有する傾向にある。このアルゴリズムは、上述したユーザー正規化遺伝子セット・プロトコルと同じであるが、このセットは、較正DNAとして標識された遺伝子としてあらかじめ定義される。
さらに別の正規化プロトコルは、強度中央値の比率補正プロトコルである。このプロトコルは、2色の蛍光標識および検出スキームが使用される実施形態に有用である。(セクション5.8.1.5参照)。2色の蛍光標識および検出スキームの2つの蛍光体がCy3およびCy5である場合、比(Cy3/Cy5)に中央値Cy5/中央値Cy3強度を掛けて測定値を正規化する。バックグラウンド補正が可能である場合、比(Cy3/Cy5)に(中央値Cy5 - 中央値BkgdCy5)/(中央値Cy3 - 中央値BkgdCy3)を掛けて測定値を正規化する。ここで、中央値Bkgdは、中央値バックグラウンド・レベルを意味する。
一部の実施形態においては、強度バックグラウンド補正を使用して測定値を正規化する。スポット定量化プログラムから得られるバックグラウンド強度データを、スポット強度を補正するために使用することができる。バックグラウンドは、全体値としても、スポット当たりでも規定することができる。アレイ・イメージのバックグラウンドが低い場合、強度バックグラウンド補正が不要なこともある。
5.4. オッズ・スコアの対数
すべての遺伝子型を受け継ぐ同時確率をP(g)、遺伝子型次第であるすべての観測データx(形質およびマーカー種)の同時確率をP(x|g)とすると、1セットのデータに対する尤度Lは、
L = ΣP(g)P(x|g)
である。ここで、この合計は、すべての系統メンバーに対して可能な複合遺伝子型g(形質およびマーカー)の全体にわたる。この尤度における未知数は、P(g)が依存する組換え率θである。
すべての遺伝子型を受け継ぐ同時確率をP(g)、遺伝子型次第であるすべての観測データx(形質およびマーカー種)の同時確率をP(x|g)とすると、1セットのデータに対する尤度Lは、
L = ΣP(g)P(x|g)
である。ここで、この合計は、すべての系統メンバーに対して可能な複合遺伝子型g(形質およびマーカー)の全体にわたる。この尤度における未知数は、P(g)が依存する組換え率θである。
組換え率θは、減数分裂中に2つの遺伝子座が組み換わる(独立に分離する)確率である。組換え率θは、2つの遺伝子座間の距離と相関する。定義によれば、遺伝距離は、異なる染色体上の遺伝子座間で無限大であると定義され(非シンテニック(nonsyntenic)遺伝子座)、そのような離れた遺伝子座ではθ = 0.5である。同じ染色体上で関連する遺伝子座(シンテニック遺伝子座)ではθ < 0.5であり、遺伝距離はθの単調な関数となる。例えば、Ott、1985、Analysis of Human Genetic Linkage、第1版、Baltimore、MD、John Hopkins University Pressを参照されたい。セクション5.13に記載する連鎖解析の本質は、組換え率θを推定し、θ = 0.5であるかどうかを試験することである。ゲノム中の1つの遺伝子座の位置が判明すると、遺伝連鎖を利用して、第1の遺伝子座に対する第2の遺伝子座の染色体位置を推定することができる。セクション5.13に記載した連鎖解析においては、連鎖解析を使用して、遺伝地図中の多数のマーカー遺伝子座に対して、様々な量的表現型の素因となる遺伝子の未知の位置をマッピングする。組換えおよび非組換え減数分裂を明確に数えることができる理想的な状況においては、大きな減数分裂試料における組換え減数分裂の頻度によってθが推定される。2つの遺伝子座が関連している場合、非組換え減数分裂の数Nは、組換え減数分裂の数Rよりも大きいことが予想される。新しい遺伝子座と各マーカーの組換え率は、
として推定することができる。
として推定することができる。
目的とする尤度は、
L = ΣP(g|θ)P(x|g)
であり、試験組換え率θについての推定は、尤度比Λ = L(θ)/L(1/2)または同じくその対数に基づく。
L = ΣP(g|θ)P(x|g)
であり、試験組換え率θについての推定は、尤度比Λ = L(θ)/L(1/2)または同じくその対数に基づく。
したがって、典型的な臨床遺伝学試験においては、形質および単一マーカーの尤度は、1つまたは複数の関連する系統にわたって計算される。この尤度関数L(θ)は、形質(例えば、古典的形質または量的形質)とマーカー遺伝子座の組換え率θの関数である。標準対数尤度Z(θ) = log10[L(θ)/L(1/2)]は、LODスコアと称する。ここで、「LOD」は、「オッズの対数」の略語である。LODスコアは、連鎖の証拠を可視化するものである。一般的な経験則として、ヒトの試験においては、その最大θにおいて間隔[0,1/2]で
である場合、遺伝学者は、暫定的に連鎖を受け容れる。ここで、
は、その間隔での最大θである。また、連鎖は、
Z(θ) ≦ -2
であれば、特定のθにおいて暫定的に棄却される。
である場合、遺伝学者は、暫定的に連鎖を受け容れる。ここで、
は、その間隔での最大θである。また、連鎖は、
Z(θ) ≦ -2
であれば、特定のθにおいて暫定的に棄却される。
許容と却下は、非対称的に扱われる。というのは、22対のヒト常染色体では、ランダム・マーカーが形質遺伝子座と同じ染色体上にあり得ないからである。Lange、1997、Mathematical and Statistical Methods for Genetic Analysis、Springer-Verlag、New York; Olson、1999、Tutorial in Biostatistics: Genetic Mapping of Complex Traits、Statistics in Medicine 18、2961〜2981を参照されたい。
Lの値が大きいとき、既知の位置のマーカー遺伝子座に対する連鎖がない帰無仮説、L(1/2)は棄却され、量的形質に対応する遺伝子座の相対的位置を
によって推定することができる。したがって、LODスコアによって、連鎖距離を計算する方法、ならびに2つの遺伝子(および/またはQTL)が結び付けられる確率を推定する方法が提供される。
によって推定することができる。したがって、LODスコアによって、連鎖距離を計算する方法、ならびに2つの遺伝子(および/またはQTL)が結び付けられる確率を推定する方法が提供される。
LODスコア方法の一部の実施形態においては、一連のLODスコアを、いくつかの提案された連鎖距離から計算する。まず、連鎖距離を推定し、その推定をもとに、所与の出生配列(birth sequence)の確率を計算する。次いで、その値を、遺伝子(および/またはQTL)が同一連鎖群に属さない(L(1/2))と仮定して、所与の出生配列の確率で除算する。この値の対数を計算し、その値がこの推定連鎖距離に対するLODスコアである。同じプロセスを、別の推定連鎖距離を用いて繰り返す。一連のこれらのLODスコアが様々な連鎖距離を用いて得られ、最高のLODスコアを与える連鎖距離が連鎖距離の推定値と考えられる。
当業者は、LODスコアの計算が種に依存することを理解されたい。例えば、マウスのLODスコアを計算する方法は、このセクションに記載した方法とは異なる。しかし、LODスコアを計算する方法は当分野で知られており、このセクションに記載した方法は、単に説明のためのものであって、限定するためのものではない。
5.5. クラスタリング技術
下記サブセクションは、QTL相互作用地図を作成するためのクラスタリング遺伝子分析ベクトルの例示的な方法を記述したものである。遺伝子発現クラスター地図を作成するために、同じ技術を遺伝子発現ベクトルに適用することができる。これらの技術においては、遺伝子分析ベクトル84または遺伝子発現ベクトル304は、遺伝子分析84ベクトル間または遺伝子発現ベクトル304間の相互作用の強さに基づいてクラスター化される。クラスタリング技術についてのより詳細な情報は、KaufmanおよびRousseeuw、1990、Finding Groups in Data: An Introduction to Cluster Analysis、Wiley、New York、NY; Everitt、1993、Cluster analysis (3d ed.)、Wiley、New York、NY; Backer、1995、Computer-Assisted Reasoning in Cluster Analysis、Prentice Hall、Upper Saddle River、New Jersey;およびDuda等、2001、Pattern Classification、John Wiley & Sons、New York、NYにある。
下記サブセクションは、QTL相互作用地図を作成するためのクラスタリング遺伝子分析ベクトルの例示的な方法を記述したものである。遺伝子発現クラスター地図を作成するために、同じ技術を遺伝子発現ベクトルに適用することができる。これらの技術においては、遺伝子分析ベクトル84または遺伝子発現ベクトル304は、遺伝子分析84ベクトル間または遺伝子発現ベクトル304間の相互作用の強さに基づいてクラスター化される。クラスタリング技術についてのより詳細な情報は、KaufmanおよびRousseeuw、1990、Finding Groups in Data: An Introduction to Cluster Analysis、Wiley、New York、NY; Everitt、1993、Cluster analysis (3d ed.)、Wiley、New York、NY; Backer、1995、Computer-Assisted Reasoning in Cluster Analysis、Prentice Hall、Upper Saddle River、New Jersey;およびDuda等、2001、Pattern Classification、John Wiley & Sons、New York、NYにある。
5.5.1. 階層型クラスタリング技術
階層クラスター分析は、測定した諸特性に基づいてエレメントの比較的均一なクラスターを見出す統計方法である。n個の試料からc個のクラスターへの一連の分割を考える。最初は、各クラスターが正確に1つの試料を含むn個のクラスターへの分割である。次は、n-1個のクラスターへの分割、その次は、n-2個への分割、そして、試料のすべてが1つのクラスターを形成するn番目まで同様である。この一連の分割におけるレベルkは、c = n - k + 1のときに起こる。したがって、レベル1は、n個のクラスターに対応し、レベルnは、1つのクラスターに対応する。任意の2つの試料xおよびx*が与えられたとして、これらはともに、あるレベルで同じクラスターにグループ化される。シーケンスが、2つの試料がレベルkの同じクラスターにあるときはいつでも、より高次のすべてのレベルでも一緒である特性を有する場合、このシーケンスは階層型クラスタリングと呼ばれる。Duda等、2001、Pattern Classification、John Wiley & Sons、New York、2001、p. 551。
階層クラスター分析は、測定した諸特性に基づいてエレメントの比較的均一なクラスターを見出す統計方法である。n個の試料からc個のクラスターへの一連の分割を考える。最初は、各クラスターが正確に1つの試料を含むn個のクラスターへの分割である。次は、n-1個のクラスターへの分割、その次は、n-2個への分割、そして、試料のすべてが1つのクラスターを形成するn番目まで同様である。この一連の分割におけるレベルkは、c = n - k + 1のときに起こる。したがって、レベル1は、n個のクラスターに対応し、レベルnは、1つのクラスターに対応する。任意の2つの試料xおよびx*が与えられたとして、これらはともに、あるレベルで同じクラスターにグループ化される。シーケンスが、2つの試料がレベルkの同じクラスターにあるときはいつでも、より高次のすべてのレベルでも一緒である特性を有する場合、このシーケンスは階層型クラスタリングと呼ばれる。Duda等、2001、Pattern Classification、John Wiley & Sons、New York、2001、p. 551。
5.5.1.1. 統合型クラスタリング
一部の実施形態においては、遺伝子分析ベクトル84または遺伝子発現ベクトル304をクラスター化するために使用される階層型クラスタリング技術は、統合型クラスタリング手順である。統合型(ボトムアップ・クラスタリング)手順は、n個の単集合クラスター(singleton cluster)で始まり、クラスターを連続的に合体させることによって一連の区画を形成する。統合型クラスタリングにおける主要ステップは、以下の手順に含まれる。ここで、cは、所望の最終クラスター数であり、DiおよびDjはクラスターであり、xiは遺伝子分析ベクトル84または遺伝子発現ベクトル304であり、n個のそのようなベクトルが存在する。
一部の実施形態においては、遺伝子分析ベクトル84または遺伝子発現ベクトル304をクラスター化するために使用される階層型クラスタリング技術は、統合型クラスタリング手順である。統合型(ボトムアップ・クラスタリング)手順は、n個の単集合クラスター(singleton cluster)で始まり、クラスターを連続的に合体させることによって一連の区画を形成する。統合型クラスタリングにおける主要ステップは、以下の手順に含まれる。ここで、cは、所望の最終クラスター数であり、DiおよびDjはクラスターであり、xiは遺伝子分析ベクトル84または遺伝子発現ベクトル304であり、n個のそのようなベクトルが存在する。
このアルゴリズムにおいては、a ←bは、変数aに新しい値bを割り当てることである。上述したように、この手順は、指定数のクラスターが得られたときに終了し、1セットのポイントとしてクラスターを戻す。このアルゴリズムのキー・ポイントは、2つのクラスターDiとDjの距離をどのように測定するかである。クラスターDiとDjの距離を定義するために使用される方法は、使用される統合型クラスタリング技術のタイプを規定する。代表的な技術としては、最短距離アルゴリズム、最長距離アルゴリズム、平均連結アルゴリズム、セントロイド・アルゴリズム、平方和アルゴリズムなどがある。
最短距離アルゴリズム。最短距離アルゴリズムは、クラスター間の距離を測定する以下の式を使用する。
このアルゴリズムは、最小アルゴリズムとしても知られる。また、最近接クラスター間の距離が任意のしきい値を超えるときにアルゴリズムが終了する場合、単連結アルゴリズムと称する。データ・ポイントがグラフのノードであり、エッジが同じサブセットDi中のノード間に経路を形成する例を考える。dmin()を使用してサブセット間の距離を測定するとき、最近接ノードは、最近接サブセットを規定する。DiとDjの合体は、DiおよびDjにおけるノードの最近接パリ(pari)間にエッジを加えることに相当する。クラスターを連結するエッジは、常に、異なるクラスターの間に入るので、得られたグラフは、いかなる閉鎖ループまたは回路も決して含まない。グラフ理論用語においては、この手順は、ツリーを生成する。サブセットのすべてが連結されるまで続けることが可能な場合、全域木が得られる。全域木は、任意のノードから他の任意のノードまでの経路を有するツリーである。また、得られたツリーのエッジ長さの合計は、その試料セットに対する他のあらゆる全域木のエッジ長さの合計を超えないことがわかる。したがって、距離の尺度としてdmin()を使用することによって、統合型クラスタリング手順は、最小全域木を生成するアルゴリズムになる。Duda等、同上、pp. 553〜554を参照されたい。
最長距離アルゴリズム。最長距離アルゴリズムは、クラスター間の距離を測定する以下の式を使用する。
このアルゴリズムは、最大アルゴリズムとしても知られる。最近接クラスター間の距離が任意のしきい値を超えるときにクラスター化が終了する場合、完全連結アルゴリズムと称する。最長距離アルゴリズムは、長いクラスターの成長を阻止する。この手順の適用は、クラスター中のノードのすべてをエッジが接続するグラフを生成するものと考えることができる。グラフ理論用語では、すべてのクラスターは、完全な部分グラフを含む。2つのクラスター間の距離は、2つのクラスター中の最も遠いノードで終結する。最近接クラスターを合体させるとき、2つのクラスター中のすべてのノード対間にエッジを追加することによってグラフを変える。
平均連結アルゴリズム。別の統合型クラスタリング技術は、平均連結アルゴリズムである。平均連結アルゴリズムは、クラスター間の距離を測定する以下の式を使用する。
階層クラスター分析を、1セットの量的形質遺伝子座ベクトルまたは遺伝子発現ベクトル中のすべての遺伝子分析ベクトル84または遺伝子発現ベクトル304を対ごとに比較することによって開始する。セット中のすべての要素対の類似性を評価した後に、距離行列を構築する。距離行列においては、最短距離(すなわち、最も類似した値)にある一対のベクトルを選択する。次いで、平均連結アルゴリズムを使用するときに、2つのベクトルを平均することによって、「ノード」(「クラスター」)を構築する。2つの結合された要素を置換する新しい「ノード」(「クラスター」)で類似度行列を更新し、単一の要素のみが残るまでこのプロセスをn-1回繰り返す。以下の値を有する6つの要素A〜Fを考える。
A{4.9}、B{8.2}、C{3.0}、D{5.2}、E{8.3}、F{2.3}
第1の分割においては、平均連結アルゴリズムを用いて、計算し得る1つの行列(解1)は、
(解1) A{4.9}、B-E{8.25}、C{3.0}、D{5.2}、F{2.3}
である。
第1の分割においては、平均連結アルゴリズムを用いて、計算し得る1つの行列(解1)は、
(解1) A{4.9}、B-E{8.25}、C{3.0}、D{5.2}、F{2.3}
である。
あるいは、平均連結アルゴリズムを用いた第1の分割によって、以下の行列、
(解2) A{4.9}、C{3.0}、D{5.2}、E-B{8.25}、F{2.3}
が生成し得る。
(解2) A{4.9}、C{3.0}、D{5.2}、E-B{8.25}、F{2.3}
が生成し得る。
解1が第1の分割において求められたとして、平均連結アルゴリズムを用いた第2の分割によって、
(解1-1) A-D{5.05}、B-E{8.25}、C{3.0}、F{2.3}
または
(解1-2) B-E{8.25}、C{3.0}、D-A{5.05}、F{2.3}
が生成する。
(解1-1) A-D{5.05}、B-E{8.25}、C{3.0}、F{2.3}
または
(解1-2) B-E{8.25}、C{3.0}、D-A{5.05}、F{2.3}
が生成する。
解2が第1の分割において求められたとして、平均連結アルゴリズムの第2の分割によって、
(解2-1) A-D{5.05}、C{3.0}、E-B{8.25}、F{2.3}
または
(解2-2) C{3.0}、D-A{5.05}、E-B{8.25}、F{2.3}
が生成する。
(解2-1) A-D{5.05}、C{3.0}、E-B{8.25}、F{2.3}
または
(解2-2) C{3.0}、D-A{5.05}、E-B{8.25}、F{2.3}
が生成する。
したがって、平均連結アルゴリズムにおける単なる2回の分割の後に、すでに4つの行列が存在する。Duda等、Pattern Classification、John Wiley & Sons、New York、2001、p. 551を参照されたい。
セントロイド・アルゴリズム。セントロイド方法においては、距離または類似度が、クラスターDの重心間で計算される。
平方和アルゴリズム。平方和方法は、「ワード法」としても知られる。ワード法では、クラスターの帰属関係は、クラスター平均からの総偏差平方和を計算することによって評価される。LanceおよびWilliams、1967、A general theory of classificatory sorting strategies、Computer Journal 9: 373〜380を参照されたい。
5.5.1.2. ピアソン相関係数を用いたクラスター化
本発明の一実施形態においては、遺伝子分析ベクトル84または遺伝子発現ベクトル304を、ピアソン相関係数を用いた統合型階層型クラスタリングによってクラスター化する。この形式のクラスター化においては、遺伝子分析ベクトル対間または遺伝子発現ベクトル対間のピアソン相関係数を用いて類似度を決定する。ピアソン相関係数に加えて、使用可能な他の尺度は、ユークリッド距離、ユークリッド平方距離、ユークリッド平方和、マンハッタン計量、二乗ピアソン相関係数などであるが、これらだけに限定されない。このような尺度は、SAS (Statistics Analysis Systems Institute、Cary、North Carolina)またはS-Plus (Statistical Sciences, Inc.、Seattle、Washington)を用いて計算することができる。
本発明の一実施形態においては、遺伝子分析ベクトル84または遺伝子発現ベクトル304を、ピアソン相関係数を用いた統合型階層型クラスタリングによってクラスター化する。この形式のクラスター化においては、遺伝子分析ベクトル対間または遺伝子発現ベクトル対間のピアソン相関係数を用いて類似度を決定する。ピアソン相関係数に加えて、使用可能な他の尺度は、ユークリッド距離、ユークリッド平方距離、ユークリッド平方和、マンハッタン計量、二乗ピアソン相関係数などであるが、これらだけに限定されない。このような尺度は、SAS (Statistics Analysis Systems Institute、Cary、North Carolina)またはS-Plus (Statistical Sciences, Inc.、Seattle、Washington)を用いて計算することができる。
5.5.1.3. 分割型クラスター化
一部の実施形態においては、遺伝子分析ベクトル84または遺伝子発現ベクトル304をクラスター化するために使用する階層型クラスタリング技術は、分割型クラスター化手順である。分割型(トップダウン・クラスタリング)手順は、1つのクラスター中の試料のすべてを用いて始まり、クラスターを首尾よく分割することによってシーケンスを形成させる。分割型クラスター化技術は、多形質的方法または単形質的方法のいずれかに分類される。多形質的手法は、クラスターを任意のサブセットに分割する。
一部の実施形態においては、遺伝子分析ベクトル84または遺伝子発現ベクトル304をクラスター化するために使用する階層型クラスタリング技術は、分割型クラスター化手順である。分割型(トップダウン・クラスタリング)手順は、1つのクラスター中の試料のすべてを用いて始まり、クラスターを首尾よく分割することによってシーケンスを形成させる。分割型クラスター化技術は、多形質的方法または単形質的方法のいずれかに分類される。多形質的手法は、クラスターを任意のサブセットに分割する。
5.5.2. K平均クラスター化
k平均クラスター化においては、遺伝子分析ベクトル84または遺伝子発現ベクトル304のセットを、Kユーザー指定クラスターにランダムに割り当てる。各クラスターの重心を、各クラスター中のベクトルの値を平均することによって計算する。次いで、各i=1、...、Nに対して、ベクトルxiとクラスター重心の各々との距離を計算する。次いで、各ベクトルxiを、重心が最も近いクラスターに再度割り当てる。次に、影響を受けた各クラスターの重心を再計算する。このプロセスを、それ以上再割り当てがなくなるまで繰り返す。Duda等、同上、pp. 526〜528を参照されたい。関係する手法は、ファジーc平均アルゴリズムとしても知られるファジーk平均クラスタリング・アルゴリズムである。ファジーk平均クラスタリング・アルゴリズムにおいては、すべての遺伝子分析ベクトル84または遺伝子発現ベクトル304が、任意の所与の時間、正確に1つのクラスター中にあるという仮定が緩和され、すべてのベクトルがクラスター中のある段階的または「ファジー」な帰属関係にある。Duda等、同上、pp. 528〜530を参照されたい。
k平均クラスター化においては、遺伝子分析ベクトル84または遺伝子発現ベクトル304のセットを、Kユーザー指定クラスターにランダムに割り当てる。各クラスターの重心を、各クラスター中のベクトルの値を平均することによって計算する。次いで、各i=1、...、Nに対して、ベクトルxiとクラスター重心の各々との距離を計算する。次いで、各ベクトルxiを、重心が最も近いクラスターに再度割り当てる。次に、影響を受けた各クラスターの重心を再計算する。このプロセスを、それ以上再割り当てがなくなるまで繰り返す。Duda等、同上、pp. 526〜528を参照されたい。関係する手法は、ファジーc平均アルゴリズムとしても知られるファジーk平均クラスタリング・アルゴリズムである。ファジーk平均クラスタリング・アルゴリズムにおいては、すべての遺伝子分析ベクトル84または遺伝子発現ベクトル304が、任意の所与の時間、正確に1つのクラスター中にあるという仮定が緩和され、すべてのベクトルがクラスター中のある段階的または「ファジー」な帰属関係にある。Duda等、同上、pp. 528〜530を参照されたい。
5.5.3. JARVIS-PATRICKクラスタリング
Jarvis-Patrickクラスタリングは、1セットのオブジェクトが、共有される最近接の数に基づいてクラスターに分割される最短距離非階層型クラスタリング方法である。JarvisおよびPatrick、1973、IEEE Trans. Comput.、C-22:1025〜1034が唱える標準的な方法では、前処理ステージで、データ・セット中の各オブジェクトのK最近接を特定する。続くクラスター化ステージにおいては、(i)iが、jのK最近接の1つであり、(ii)jが、iのK最近接の1つであり、(iii)iとjがK最近接の少なくともkminを共有する場合、2つのオブジェクトiとjが同じクラスターに加わる。ここで、Kおよびkminは、ユーザー定義パラメータである。この方法は、断片デスクリプタに基づいてクラスタリング化学構造に広範に適用され、階層方法よりもコンピュータ的な要求の厳しくない利点を有し、したがって、大きなデータベースにより適している。Jarvis-Patrickクラスタリングは、Jarvis-Patrick Clustering Package 3.0 (Barnard Chemical Information, Ltd.、Sheffield、United Kingdom)を用いて実施することができる。
Jarvis-Patrickクラスタリングは、1セットのオブジェクトが、共有される最近接の数に基づいてクラスターに分割される最短距離非階層型クラスタリング方法である。JarvisおよびPatrick、1973、IEEE Trans. Comput.、C-22:1025〜1034が唱える標準的な方法では、前処理ステージで、データ・セット中の各オブジェクトのK最近接を特定する。続くクラスター化ステージにおいては、(i)iが、jのK最近接の1つであり、(ii)jが、iのK最近接の1つであり、(iii)iとjがK最近接の少なくともkminを共有する場合、2つのオブジェクトiとjが同じクラスターに加わる。ここで、Kおよびkminは、ユーザー定義パラメータである。この方法は、断片デスクリプタに基づいてクラスタリング化学構造に広範に適用され、階層方法よりもコンピュータ的な要求の厳しくない利点を有し、したがって、大きなデータベースにより適している。Jarvis-Patrickクラスタリングは、Jarvis-Patrick Clustering Package 3.0 (Barnard Chemical Information, Ltd.、Sheffield、United Kingdom)を用いて実施することができる。
5.5.4. ニューラル・ネットワーク
ニューラル・ネットワークは、重みの層によって出力ユニット層に接続された入力ユニット(およびバイアス)層を含む層構造を有する。多層ニューラル・ネットワークにおいては、入力ユニット、隠れユニットおよび出力ユニットがある。実際に、入力から出力までのあらゆる機能を、3層ネットワークとして実行することができる。そのようなネットワークにおいては、重みは、訓練パターンおよび所望の出力に基づいて設定される。多層ニューラル・ネットワークの教師あり訓練の1つの方法は逆伝播法である。逆伝播法によって、各隠れユニットの実効誤差の計算、したがってニューラル・ネットワークの入力-隠れ重みに対する学習規則の誘導が可能になる。
ニューラル・ネットワークは、重みの層によって出力ユニット層に接続された入力ユニット(およびバイアス)層を含む層構造を有する。多層ニューラル・ネットワークにおいては、入力ユニット、隠れユニットおよび出力ユニットがある。実際に、入力から出力までのあらゆる機能を、3層ネットワークとして実行することができる。そのようなネットワークにおいては、重みは、訓練パターンおよび所望の出力に基づいて設定される。多層ニューラル・ネットワークの教師あり訓練の1つの方法は逆伝播法である。逆伝播法によって、各隠れユニットの実効誤差の計算、したがってニューラル・ネットワークの入力-隠れ重みに対する学習規則の誘導が可能になる。
ニューラル・ネットワークを使用する基本的手法は、訓練を受けていないネットワークで始まり、入力層に訓練パターンを与え、ネットを通してシグナルを送り、出力層で出力を測定する。次いで、これらの出力を標的値と比較する。あらゆる相違が、誤差に対応する。この誤差または基準関数は、重みのスカラー関数であり、ネットワーク出力が所望の出力と一致したときに最小になる。したがって、重みを調整してこの誤差測定値を減少させる。一般に使用される3つの訓練プロトコルは、確率、バッチ、およびオンラインである。確率的訓練においては、パターンが訓練セットからランダムに選択され、ネットワーク重みが、各パターン提示に対して更新される。確率的な逆伝播法などの勾配降下法によって訓練された多層非線形ネットワークは、ネットワーク・トポロジーによって定義されたモデルにおいて、重み値の最尤推定法を実行する。バッチ訓練においては、すべてのパターンが、学習する前にネットワークに提示される。一般に、バッチ訓練においては、いくつかのパスが訓練データを介してなされる。オンライン訓練においては、各パターンがネットに1回で、1回だけ提示される。
5.5.5. 自己組織化地図
自己組織化地図は、分割型クラスター化手法に基づくニューラル・ネットワークである。その目的は、遺伝子を、それらの発現ベクトルと各区画に対して規定された参照ベクトルとの類似度に基づいて一連の区画に割り当てることである。2つの異なる実験からの2つのマイクロアレイが存在する例を考える。2つの実験における任意の所与の遺伝子の発現レベルにすべてのスポットが対応する二次元構築体を作ることが可能である。二次元グリッドが作製され、二次元構築体のいくつかの区画が得られる。次に、遺伝子がランダムに選択され、その選択した遺伝子に最も近い参照ベクトル(ノード)の本性が距離行列に基づいて決定される。次いで、参照ベクトルを調節して、割り当てた遺伝子のベクトルにより近似させる。すなわち、参照ベクトルをx軸およびy軸上で1距離ユニット動かして、割り当てた遺伝子により近くする。他のノードをすべて、割り当てた遺伝子に合わせて調整する。ただし、1/2または1/4距離ユニットしか動かさない。このサイクルを数十万回繰り返して、参照ベクトルがグリッドが安定な場所に一定の値に収束する。このとき、すべての参照ベクトルは、遺伝子グループの中心にある。最後に、最も類似している参照ベクトルに応じて、関連する区画にその遺伝子をマップする。
自己組織化地図は、分割型クラスター化手法に基づくニューラル・ネットワークである。その目的は、遺伝子を、それらの発現ベクトルと各区画に対して規定された参照ベクトルとの類似度に基づいて一連の区画に割り当てることである。2つの異なる実験からの2つのマイクロアレイが存在する例を考える。2つの実験における任意の所与の遺伝子の発現レベルにすべてのスポットが対応する二次元構築体を作ることが可能である。二次元グリッドが作製され、二次元構築体のいくつかの区画が得られる。次に、遺伝子がランダムに選択され、その選択した遺伝子に最も近い参照ベクトル(ノード)の本性が距離行列に基づいて決定される。次いで、参照ベクトルを調節して、割り当てた遺伝子のベクトルにより近似させる。すなわち、参照ベクトルをx軸およびy軸上で1距離ユニット動かして、割り当てた遺伝子により近くする。他のノードをすべて、割り当てた遺伝子に合わせて調整する。ただし、1/2または1/4距離ユニットしか動かさない。このサイクルを数十万回繰り返して、参照ベクトルがグリッドが安定な場所に一定の値に収束する。このとき、すべての参照ベクトルは、遺伝子グループの中心にある。最後に、最も類似している参照ベクトルに応じて、関連する区画にその遺伝子をマップする。
5.6. 多変量統計モデル
本発明の方法を用いて、QTL相互作用地図データおよび遺伝子発現クラスター地図の分析から候補経路グループを特定する。各候補経路グループは、いくつかの遺伝子を含む。本発明の方法は、クラスター化技術を利用して、目的集団のゲノム中の数千にもなり得る遺伝子を数個の候補経路グループに選別するので有利である。典型的な例においては、候補経路グループは、遺伝子発現クラスター地図中で密にクラスターを形成する遺伝子グループである。一部の実施形態においては、候補経路グループ中の遺伝子も、QTL相互作用地図中で密にクラスターを形成する。QTL相互作用地図は、候補経路グループ中の遺伝子を規定する相補的手法として役立つ。例えば、遺伝子A、BおよびCが、遺伝子発現クラスター地図中で密にクラスターを形成する例を考える。また、遺伝子A、B、CおよびDは、対応するQTL相互作用地図中で密にクラスターを形成する。この例においては、遺伝子発現クラスター地図の分析のみでは、遺伝子A、B、Cが候補経路グループを形成することが示唆される。しかし、QTL相互作用地図と遺伝子発現クラスター地図の両方の分析によって、候補経路グループが実際は遺伝子A、B、CおよびDを含むことが示唆される。
本発明の方法を用いて、QTL相互作用地図データおよび遺伝子発現クラスター地図の分析から候補経路グループを特定する。各候補経路グループは、いくつかの遺伝子を含む。本発明の方法は、クラスター化技術を利用して、目的集団のゲノム中の数千にもなり得る遺伝子を数個の候補経路グループに選別するので有利である。典型的な例においては、候補経路グループは、遺伝子発現クラスター地図中で密にクラスターを形成する遺伝子グループである。一部の実施形態においては、候補経路グループ中の遺伝子も、QTL相互作用地図中で密にクラスターを形成する。QTL相互作用地図は、候補経路グループ中の遺伝子を規定する相補的手法として役立つ。例えば、遺伝子A、BおよびCが、遺伝子発現クラスター地図中で密にクラスターを形成する例を考える。また、遺伝子A、B、CおよびDは、対応するQTL相互作用地図中で密にクラスターを形成する。この例においては、遺伝子発現クラスター地図の分析のみでは、遺伝子A、B、Cが候補経路グループを形成することが示唆される。しかし、QTL相互作用地図と遺伝子発現クラスター地図の両方の分析によって、候補経路グループが実際は遺伝子A、B、CおよびDを含むことが示唆される。
候補経路グループが特定されると、多変量統計モデルを適用して、候補経路グループ中の遺伝子の各々が、複雑性疾患形質などの特定の形質に影響を及ぼすかどうかを明らかにすることができる。本発明の一部の実施形態において使用する多変量統計分析の形式は、利用可能な遺伝子型および/または系統データ68(図1)のタイプによって決まる。一般に、試験すべき集団が植物または動物の場合、より多くの系統データが利用可能である。このような場合、使用する多変量統計モデルは、JiangおよびZeng、1995、Multiple trait analysis of genetic mapping for quantitative trait loci、Nature Genetics 140: 1111〜1127のモデル、ならびにQTL地図製作者が行う技術(BastenおよびZeng、1994、Zmap-a QTL cartographer、Proceedings of the 5th World Congress on Genetics Applied to Livestock Production: Computing Strategies and Software、Smith等編、22: 65〜66、The Organizing Committee、5th World Congress on Genetics Applied to Livestock Production、Guelph、Ontario、Canada; Basten等、2001、QTL Cartographer、Version 1.15、Department of Statistics、North Carolina State University、Raleigh、North Carolinaに従う。ヒトの遺伝子型と系統のデータ68(図1)の場合、Amos等、1990、A Multivariate Method for Detecting Genetic Linkage, with Application to a Pedigree with an Adverse Lipoprotein Protein、Am J. Hum. Genetics 47:247〜254の方法を含めて、Allison、1998、Multiple Phenotype Modeling in Gene-Mapping Studies of Quantitative Traits: Power Advantages、Am J. Hum. Genetics 63:1190〜1201に記載された方法が使用されるが、これらだけに限定されない。
一部の実施形態においては、遺伝子発現データ44が、複数のタイプの組織に対して収集される。そのような場合、多変量解析を使用して、複雑性疾患の本質を明らかにすることができる。本発明のこの実施形態に使用される多変量技術は、Williams等、1999、Am J Hum Genet 65(4): 1134〜47; Amos等、1990、Am J Hum Genet 47(2): 247〜54、ならびにJiangおよびZeng、1995、Nature Genetics 140: 1111〜1127にある程度記載されている。
喘息は、複数のタイプの組織から得られる発現データを用いて試験することができる複雑性疾患の一例である。喘息は、肺だけでなく血中の免疫系反応による影響をある程度受けると考えられる。肺および血中における遺伝子の発現を測定することによって、以下のモデルを用いて、モデル・システム、例えば、F2マウス交雑種において共有される遺伝的効果を精査することができる。
yj1 = α1 + b1xj + d1zj + ej1
yj2 = α2 + b2xj + d2zj + ej2
...
yjm = αm + bmxj + dmzj + ejm
式中、個体jおよび推定QTLに対して、
yj1,..., yjmは、喘息に関連する表現型、肺における遺伝子発現に対する発現データ、および血中の遺伝子発現に対する発現データからなり、
xjは、特定の親系統に由来するQTL対立遺伝子の数であり、
zjは、個体がQTLに対して異型接合である場合は1であり、それ以外は0であり、
αiは、表現型iの平均であり、
biおよびdiは、表現型iに対するQTLの添加効果および優性効果であり、
ejiは、個体jおよび表現型iに対する残差である。
yj2 = α2 + b2xj + d2zj + ej2
...
yjm = αm + bmxj + dmzj + ejm
式中、個体jおよび推定QTLに対して、
yj1,..., yjmは、喘息に関連する表現型、肺における遺伝子発現に対する発現データ、および血中の遺伝子発現に対する発現データからなり、
xjは、特定の親系統に由来するQTL対立遺伝子の数であり、
zjは、個体がQTLに対して異型接合である場合は1であり、それ以外は0であり、
αiは、表現型iの平均であり、
biおよびdiは、表現型iに対するQTLの添加効果および優性効果であり、
ejiは、個体jおよび表現型iに対する残差である。
一般に、残差は、個体間で相関せず、個体内の残差間の相関は、Cov(ejk, ejl) = ρklσkσlとしてモデル化されると考えられる。残差に対して多変量正規分布を想定すると、尤度分析を利用して、形質ベクトルに対するQTLのジョイント連鎖(joint linkage)を試験し、多面発現効果と近接連鎖(close linkage)を試験することができる。そのような情報を用いて、血中で発現する1セットの遺伝子、および重複している可能性があるが、肺において発現する1セットの遺伝子に対して、遺伝子発現を変化させることによって、喘息の罹病性に影響を及ぼすQTLを検出することが可能である。本発明によるこのような多変量解析を、複数の組織にわたる発現データを含む高品位表現型データと組み合わせて、複雑性疾患への罹患性に真に影響を及ぼす遺伝子の検出を改善することができる。
5.7. 分析キットの使用
好ましい実施形態においては、本発明の方法は、生物学的試料の応答または状態を判定するキットを使用して実施することができる。そのようなキットは、以下のサブセクションに記載するものなどのマイクロアレイを含む。そのようなキットに含まれるマイクロアレイは、固相の既知の位置においてプローブがハイブリッド形成または結合する固相、例えば、表面を備える。好ましくは、これらのプローブは、既知の異なる配列の核酸からなり、各核酸は、RNA種またはそれから誘導されるcDNA種にハイブリッド形成可能である。特定の実施形態においては、本発明のキットに含まれるプローブは、目的生物から収集される細胞中のRNA種に由来する核酸配列に特異的にハイブリッド形成可能な核酸である。
好ましい実施形態においては、本発明の方法は、生物学的試料の応答または状態を判定するキットを使用して実施することができる。そのようなキットは、以下のサブセクションに記載するものなどのマイクロアレイを含む。そのようなキットに含まれるマイクロアレイは、固相の既知の位置においてプローブがハイブリッド形成または結合する固相、例えば、表面を備える。好ましくは、これらのプローブは、既知の異なる配列の核酸からなり、各核酸は、RNA種またはそれから誘導されるcDNA種にハイブリッド形成可能である。特定の実施形態においては、本発明のキットに含まれるプローブは、目的生物から収集される細胞中のRNA種に由来する核酸配列に特異的にハイブリッド形成可能な核酸である。
一実施形態においては、本発明のキットは、コンピュータ読み取り可能な媒体にエンコードされた、図1の上述した1つまたは複数のデータベース、および/または遠隔のネットワーク・コンピュータから上述したデータベースを使用するアクセス許可も含む。
別の実施形態においては、本発明のキットは、さらに、図1に示した上述したものなどのコンピュータ・システムのメモリに読み込み可能なソフトウェアを含む。本発明のキットに含まれるソフトウェアは、図1とともに上述したソフトウェアと本質的に同じものである。本発明の分析方法を実施する別のキットも、当業者には明らかであり、添付した特許請求の範囲に包含されるものである。
5.8. 転写状態の測定
このセクションは、細胞構成成分の1タイプである遺伝子の発現レベルを測定するいくつかの例示的な方法を提供する。当業者は、本発明が、複数の生物の各生物における遺伝子の発現レベルを測定する以下の特定の方法に限定されないことを理解されたい。
このセクションは、細胞構成成分の1タイプである遺伝子の発現レベルを測定するいくつかの例示的な方法を提供する。当業者は、本発明が、複数の生物の各生物における遺伝子の発現レベルを測定する以下の特定の方法に限定されないことを理解されたい。
5.8.1. マイクロアレイを用いた転写物アッセイ
このセクションに記載する技術は、発現プロファイルをモニターすることによって、細胞または細胞型または他のあらゆる細胞試料の発現状態または転写状態を明らかにするのに特に有用である。これらの技術は、複数の遺伝子の発現レベルを同時に決定するポリヌクレオチド・プローブ・アレイを用意することを含む。これらの技術は、さらに、そのようなポリヌクレオチド・プローブ・アレイを設計し作製する方法も提供する。
このセクションに記載する技術は、発現プロファイルをモニターすることによって、細胞または細胞型または他のあらゆる細胞試料の発現状態または転写状態を明らかにするのに特に有用である。これらの技術は、複数の遺伝子の発現レベルを同時に決定するポリヌクレオチド・プローブ・アレイを用意することを含む。これらの技術は、さらに、そのようなポリヌクレオチド・プローブ・アレイを設計し作製する方法も提供する。
遺伝子中のヌクレオチド配列の発現レベルを、任意のハイスループット技術によって測定することができる。どう測定しても、その結果は、転写物の絶対量もしくは相対量、または存在量もしくは存在割当量(abundance rations)を表す値を含めて、ただしこれらだけに限定されない応答データのどちらかである。発現プロファイルの測定は、このサブセクションに記載された転写物アレイへのハイブリッド形成によってなされることが好ましい。一実施形態においては、本発明は、「転写物アレイ」または「プロファイリング・アレイ」を利用する。転写物アレイは、 細胞試料における発現プロファイルを分析するために使用することができ、特に、特定の組織タイプもしくは発生状態の細胞試料、または目的薬物または対象とする生物学的経路の撹乱源に曝された細胞試料の発現プロファイルを測定するために使用することができる。
一実施形態においては、発現プロファイルは、細胞中に存在するmRNA転写物中のヌクレオチド配列である検出可能に標識されたポリヌクレオチド(例えば、全細胞mRNAから合成された蛍光標識cDNA)をマイクロアレイにハイブリッド形成させることによって得られる。マイクロアレイは、細胞または生物のゲノム、好ましくは大部分またはほとんどすべての遺伝子におけるヌクレオチド配列の多くを表す、担体上の位置的にアドレス指定可能な結合(例えば、ハイブリッド形成)部位のアレイである。そのような結合部位の各々は、担体上の所定領域に結合したポリヌクレオチド・プローブからなる。マイクロアレイは、いくつかの方法で作製することができ、そのいくつかを本明細書の以下に記述する。どう作製しても、マイクロアレイは、ある特性を有する。アレイは再現性があり、所与のアレイの複数のコピーを作製することができ、互いに容易に比較することができる。マイクロアレイは、結合(例えば、核酸ハイブリッド形成)条件下で安定な材料で作製されることが好まし。マイクロアレイは、小さいことが好ましく、例えば、約1 cm2〜25 cm2、好ましくは約1〜3 cm2である。しかし、より大きなアレイもより小さなアレイも企図され、例えば、極めて多数の様々なプローブを同時に評価する場合に好ましいことがある。
マイクロアレイ中の所与の結合部位または独特な結合部位セットは、細胞または生物からの単一の遺伝子のヌクレオチド配列(例えば、特定のmRNAまたはそれに由来する特定のcDNAのエキソン)に特異的に結合する(例えば、ハイブリッド形成する)ことが好ましい。
本発明の方法および組成物に使用されるマイクロアレイは、1つまたは複数の試験プローブを備え、その各々が、検出しようとするRNAまたはDNAの部分配列に相補的であるポリヌクレオチド配列を有する。各プローブは、好ましくは、異なる核酸配列を有し、アレイの固体表面上の各プローブの位置は既知であることが好ましい。実際、マイクロアレイは、好ましくは、アドレス可能なアレイであり、より好ましくは、位置的にアドレス可能なアレイである。より具体的には、アレイの各プローブは、好ましくは、固体担体上の所定の既知の位置にあり、各プローブの本性(すなわち、配列)を、アレイ上(すなわち、担体上または表面)のその位置から決定することができる。本発明の一部の実施形態においては、アレイは、順序づけられたアレイである。
マイクロアレイまたは1セットのマイクロアレイ上のプローブの密度は、様々な(すなわち、同一でない)プローブが約100個/cm2以上であることが好ましい。より好ましくは、本発明の方法に使用するマイクロアレイは、少なくとも550個/cm2のプローブ、少なくとも1,000個/cm2のプローブ、少なくとも1,500個/cm2のプローブ、または少なくとも2,000個/cm2のプローブを有する。特に好ましい実施形態においては、マイクロアレイは、好ましくは異なるプローブが少なくとも約2,500個/cm2の密度を有する高密度アレイである。したがって、本発明に使用するマイクロアレイは、好ましくは、少なくとも2,500個、少なくとも5,000個、少なくとも10,000個、少なくとも15,000個、少なくとも20,000個、少なくとも25,000個、少なくとも50,000個、または少なくとも55,000個の様々な(すなわち、同一でない)プローブを含む。
一実施形態においては、マイクロアレイは、各位置が、遺伝子によってコードされる転写物のヌクレオチド配列に対して(例えば、mRNAまたはそれに由来するcDNAのエキソンに対して)別個の結合部位を表すアレイ(すなわち、行列)である。マイクロアレイ上の結合部位の集団は、複数の遺伝子に対する結合部位セットを含む。例えば、様々な実施形態においては、本発明のマイクロアレイは、生物のゲノム中の50%未満の遺伝子によってコードされる産物用の結合部位を含むことができる。あるいは、本発明のマイクロアレイは、生物のゲノム中の少なくとも50%、少なくとも75%、少なくとも85%、少なくとも90%、少なくとも95%、少なくとも99%または100%の遺伝子によってコードされる産物用の結合部位を有することができる。別の実施形態においては、本発明のマイクロアレイは、生物の細胞によって発現される遺伝子の50%未満、少なくとも50%、少なくとも75%、少なくとも85%、少なくとも90%、少なくとも95%、少なくとも99%または100%によってコードされる産物用の結合部位を有することができる。結合部位は、特定のRNAが特異的にハイブリッド形成することができるDNAまたはDNAアナログとすることができる。例えば、DNAまたはDNAアナログは、例えばエキソンに対応する合成オリゴマーまたは遺伝子断片とすることができる。
本発明の一部の実施形態においては、遺伝子または遺伝子中のエキソンは、プロファイリング・アレイにおいて、遺伝子またはエキソンの様々な配列セグメントに相補的である様々なポリヌクレオチドを含むプローブを含む1セットの結合部位によって表される。一部の実施形態においては、そのようなポリヌクレオチドは、15〜200塩基長である。別の実施形態においては、そのようなポリヌクレオチドは、20〜100塩基長である。さらに別の実施形態においては、そのようなポリヌクレオチドは、40〜60塩基長である。しかし、そのようなポリヌクレオチドのサイズは、用途に大きく依存する。したがって、他のサイズも可能である。各プローブ配列は、その標的配列に相補的である配列に加えて、リンカー配列を含むこともできることを理解されたい。本明細書で使用するリンカー配列とは、その標的配列に相補的である配列と担体表面との間の配列を意味する。例えば、好ましい実施形態においては、本発明のプロファイリング・アレイは、各標的遺伝子またはエキソンに特異的である1本のプローブを含む。しかし、所望であれば、プロファイリング・アレイは、いくつかの標的遺伝子またはエキソンに特異的である少なくとも2、5、10、100、1000本またはそれ以上のプローブを含むことができる。例えば、アレイは、遺伝子の最長のmRNAアイソフォーム配列にわたって一塩基ステップで並べられたプローブを含むことができる。
本発明の具体的な実施形態においては、エキソンが別のスプライシング・バリアントを含むとき、連続した重複配列の1セットのポリヌクレオチド・プローブ、すなわち、エキソンの最長変異体を含むゲノム領域にわたって並べられた配列を、エキソン・プロファイリング・アレイに含めることができる。ポリヌクレオチド・プローブ・セットは、所定の塩基間隔のステップ、例えば1、5または10塩基間隔のステップで連続した重複配列を含むことができ、最長の変異体を含むmRNAの全体に及んでいるか、またはmRNAの全体にわたって並べられている。したがって、このようなプローブ・セットを用いて、すべてのエキソン変異体を含むゲノム領域を走査して、発現される変異体またはエキソン変異体を求めて、発現される変異体またはエキソン変異体を求めることができる。それとは別に、またはそれに加えて、エキソン特異的プローブおよび/または変異体接合プローブを含む1セットのポリヌクレオチド・プローブを、エキソン・プロファイリング・アレイに含めることができる。本明細書で使用する変異体接合プローブとは、特定のエキソン変異体および隣接エキソンの接合領域に特異的なプローブを意味する。好ましい実施形態においては、プローブ・セットは、エキソンのすべての異なるスプライス接合配列の各々に特異的にハイブリッド形成可能な変異体接合プローブを含む。別の好ましい実施形態においては、プローブ・セットは、エキソンのすべての異なる変異体中の一般的な配列に特異的にハイブリッド形成可能なエキソン特異的プローブ、および/またはエキソンの異なるスプライス接合配列に特異的にハイブリッド形成可能な変異体接合プローブを含む。
いくつかの例においては、エキソンは、エキソン・プロファイリング・アレイにおいて、完全長エキソンに相補的であるポリヌクレオチドを含むプローブによって表される。そのような実施形態においては、エキソンは、プロファイリング・アレイ上の単一結合部位によって表される。本発明の好ましい一部の実施形態においては、エキソンは、プロファイリング・アレイ上の1つまたは複数の結合部位によって表され、結合部位の各々は、標的エキソンの重要な部分であるRNA断片に相補的であるポリヌクレオチド配列を有するプローブを含む。このようなプローブの長さは、通常、約15〜600塩基、好ましくは約20〜200塩基、より好ましくは約30〜100塩基、および最も好ましくは約40〜80塩基である。エキソンの平均長さは、約50塩基である(The Genome Sequencing Consortium、2001、Initial sequencing and analysis of the human genome、Nature 409、860〜921)。長さ約40〜80のプローブは、それより長さの短いプローブよりもエキソンのより特異的な結合が可能になり、それによって標的エキソンに対するプローブの特異性が高くなる。ある種の遺伝子では、1つまたは複数の標的エキソンは、約40〜80塩基未満の配列長さとすることができる。そのような場合、標的エキソンよりも長い配列を含むプローブを使用するときには、隣接する構成的スプライス・エキソン(constitutively splice exon)からの配列によって隣接される標的エキソン全体を含む配列を含むプローブを、プローブ配列がmRNA中の対応する配列セグメントに相補的であるように設計することが望ましいことがある。ゲノムのフランキング配列、すなわち、イントロン配列ではなく、隣接する構成的にスプライスされたエキソンからのフランキング配列によって、同じ長さの他のプローブと同等のハイブリッド形成ストリンジェンシーが可能になる。使用するフランキング配列は、どんな代替経路にも関与しない、隣接する構成的にスプライスされたエキソンから得られることが好ましい。使用されるフランキング配列は、隣接するエキソンの配列の重要な部分を含まず、交差ハイブリッド形成が最小限に抑えられることがより好ましい。一部の実施形態においては、所望のプローブ長さよりも短い標的エキソンが選択的スプライシングに関与するとき、選択的にスプライシングされた様々なmRNA中のフランキング配列を含むプローブは、選択的にスプライシングされた様々なmRNA中で発現されるエキソンの発現レベルが測定できるように設計される。
いくつかの例においては、選択的スプライシング経路および/または別個の遺伝子におけるエキソン複製を区別しようとするとき、DNAアレイまたはアレイ・セットは、2つの隣接するエキソンの接合領域にまたがる配列に相補的であるプローブを含むこともできる。そのようなプローブは、各個々のエキソンに対するプローブと実質的に重複しない2つのエキソンからの配列を含み、交差ハイブリッド形成が最小限に抑えられることが好ましい。1つを超えるエキソンからの配列を含むプローブは、エキソンが、選択的にスプライシングされた1つもしくは複数のmRNAおよび/または複製されたエキソンを含む1つもしくは複数の別個の遺伝子中に存在するが、選択的にスプライシングされた他のmRNAおよび/または複製されたエキソンを含む他の遺伝子中には存在しない場合、選択的スプライシング経路および/または別個の遺伝子中の複製されたエキソンの発現を識別するのに有用である。あるいは、別個の遺伝子中の複製エキソンでは、異なる遺伝子からのエキソンが配列相同性に実質的な違いを示す場合、異なる遺伝子からのエキソンを識別できるように異なるプローブを含むことが好ましい。
上記プローブ・スキームのいずれも、同じプロファイリング・アレイ上で、および/または同じセットのプロファイリング・アレイ内の異なるアレイ上で組み合わせて、複数の遺伝子に対する発現プロファイルをより正確に決定することができることは当業者には明白である。異なるプローブ・スキームを、プロファイリングにおける異なるレベルの確度に対して使用できることも当業者には明白である。例えば、各エキソンに対する小セットのプローブを含むプロファイリング・アレイまたはアレイ・セットを使用して、ある特定の条件下で関連遺伝子および/またはRNAスプライシング経路を明らかにすることもできる。次いで、目的エキソンに対するより大きなプローブ・セットを含むアレイまたはアレイ・セットを使用して、そのような特定の条件下でエキソン発現プロファイルをより正確に求める。異なるプローブ・スキームをより有利に使用することを可能にする他のDNAアレイ戦略も包含される。
本発明に使用するマイクロアレイは、目的薬物の作用に関連する、または目的とする生物学的経路における1つもしくは複数の遺伝子に対するエキソン・セットの結合部位(すなわち、プローブ)を有することが好ましい。上述したように、「遺伝子」は、5'非翻訳領域(「UTR」)、イントロン、エキソンおよび3'UTRを含むことができる、RNAポリメラーゼによって転写されたDNAの一部として特定される。ゲノム中の遺伝子数は、細胞または生物によって発現されるmRNAの数から、またはゲノムのうち特性が十分明らかな部分から推定することによって推測することができる。目的生物のゲノム配列を決定すると、DNA配列を分析してORF数を求め、mRNAコード領域を明らかにすることができる。例えば、Saccharomyces cerevisiaeのゲノム配列は完全に決定されており、99アミノ酸残基長よりも長い配列をコードする約6275個のORFを有することが報告されている。これらのORFの分析から、タンパク質産物をコードしている可能性が高い5,885個のORFがあることが示されている(Goffeau等、1996、Science 274: 546〜567)。これに対して、ヒト・ゲノムは、約30,000〜40,000個の遺伝子を含むと推定される(Venter等、2001、The Sequence of the Human Genome、Science 291: 1304〜1351を参照されたい)。本発明の一部の実施形態においては、生物のゲノム中のすべての既知のエキソンまたは予想されるエキソンに対する全プローブを含むアレイ・セットを提供する。非限定的な例として、本発明は、ヒト・ゲノム中の既知または予想される各エキソンに対する1つまたは2つのプローブを含むアレイ・セットを提供する。
細胞のRNAに相補的なcDNAを作製し、適切なハイブリッド形成条件下でマイクロアレイにハイブリッド形成させるとき、任意の特定の遺伝子のエキソンに対応するアレイ中の部位に対するハイブリッド形成のレベルは、その遺伝子から転写されるエキソンを含むmRNAの細胞における支配率を反映していることを理解されたい。例えば、全細胞のmRNAに相補的である(例えば、蛍光団で)検出可能に標識されたcDNAをマイクロアレイにハイブリッド形成させるとき、細胞中で転写されず、またはRNAスプライシング中に除去された遺伝子のエキソンに対応する(すなわち、遺伝子発現の産物に特異的に結合可能である)アレイ上の部位は、ほとんどまたはまったくシグナル(例えば、蛍光性シグナル)を示さず、エキソンを発現するコードされたmRNAが優勢な遺伝子のエキソンは、比較的強いシグナルを示す。次いで、選択的スプライシングによって同じ遺伝子から産生される異なるmRNAの相対存在量を、遺伝子に対してモニターされるエキソンのセット全体にわたるシグナル強度パターンから決定する。
一実施形態においては、2つの異なる条件から得られる細胞試料のcDNAを、2色プロトコル(two-color protocol)によってマイクロアレイの結合部位にハイブリッド形成する。薬物応答の場合、1つの細胞試料を薬物に曝し、同じタイプのもう1つの細胞試料を薬物に曝さない。経路応答の場合、1つの細胞を経路の乱れに曝し、同じタイプのもう1つの細胞を経路の乱れに曝さない。2つの細胞型の各々に由来するcDNAは、(例えば、Cy3およびCy5で)異なって標識され、そのため識別することができる。一実施形態においては、例えば、薬物で処理した(または経路の乱れに曝した)細胞からのcDNAを蛍光標識dNTPを用いて合成し、薬物に曝していない第2の細胞からのcDNAをローダミン標識dNTPを用いて合成する。2つのcDNAを混合し、マイクロアレイにハイブリッド形成させるとき、各cDNAセットからのシグナルの相対強度をアレイ上の各部位に対して測定し、特定のエキソンの存在量の相対差を検出する。
上述した例では、薬物処理した(または経路を撹乱させた)細胞からのcDNAは、蛍光団が刺激されると緑色の蛍光を発し、未処理細胞からのcDNAは赤色の蛍光を発する。その結果、細胞中の特定の遺伝子の転写および/または転写後のスプライシングに対して、直接的でも間接的でも薬物療法の効果がないとき、両方の細胞においてエキソンの発現パターンは識別できず、逆転写すると、赤色標識されたcDNAおよび緑色標識されたcDNAが等しく優勢である。マイクロアレイにハイブリッド形成させると、そのRNA種に対する結合部位は、両方の蛍光団に特徴的な波長を放出する。これに対して、薬物に曝す細胞を、細胞中の特定の遺伝子の転写および/または転写後のスプライシングを直接的でも間接的でも変える薬物で処理すると、各エキソン結合部位に対する緑色と赤色の蛍光比によって表されるエキソンの発現パターンが変化する。薬物が、mRNAの優勢を強めると、mRNA中で発現する各エキソンの比が増加するのに対し、薬物がmRNAの優勢を弱めると、mRNA中で発現する各エキソンの比が減少する。
遺伝子発現の変化を明確にする2色蛍光標識および検出スキームの使用については、mRNAの検出と関連して、例えば、Shena等、1995、Quantitative monitoring of gene expression patterns with a complementary DNA microarray、Science 270: 467〜470に記載されている。この全体を参照により本明細書に援用する。このスキームは、エキソンの標識および検出に等しく適用可能である。2つの異なる蛍光団で標識されたcDNAを使用する利点は、2つの細胞状態にある各遺伝子アレイに対応するmRNAまたはエキソン発現レベルの直接比較および内部対象比較を行うことができ、実験条件(例えば、ハイブリッド形成条件)のわずかな違いによる変化は、後続の分析に影響を及ぼさない点にある。しかし、単一細胞のcDNAを使用し、例えば、薬物処理細胞または経路撹乱細胞および未処理細胞中の特定のエキソンの絶対量を比較することも可能であることを認識されたい。また、3色以上で標識することも本発明では企図される。本発明の一部の実施形態においては、様々な色、少なくとも5、10、20または100種の色素を標識に使用することができる。そのような標識によって、識別可能に標識されたcDNA集団を同じアレイに同時にハイブリッド形成することができ、したがって測定することができ、場合によっては、3つ以上の試料から得られるmRNA分子の発現レベルを比較することができる。使用可能な色素としては、フルオレセインおよびその誘導体、ローダミンおよびその誘導体、テキサス・レッド、5'カルボキシ-フルオレセイン(「FMA」)、2',7'-ジメトキシ-4',5'-ジクロロ-6-カルボキシフルオレセイン(「JOE」)、N,N,N',N'-テトラメチル-6-カルボキシ-ローダミン(「TAMRA」)、6'カルボキシ-X-ローダミン(「ROX」)、HEX、TET、IRD40、およびIRD41、Cy3、Cy3.5およびCy5を含めて、ただしこれらだけに限定されないシアミン色素、BODIPY-FL、BODIPY-TR、BODIPY-TMR、BODIPY-630/650およびBODIPY-650/670を含めて、ただしこれらだけに限定されないBODIPY色素、ALEXA-488、ALEXA-532、ALEXA-546、ALEXA568およびALEXA-594を含めて、ただしこれらだけに限定されないALEXA色素、ならびに当業者に既知の他の蛍光色素などがあるが、これらだけに限定されない。
本発明の一部の実施形態においては、ハイブリッド形成データを、複数の異なるハイブリッド形成時間で測定し、その結果、ハイブリッド形成レベルが平衡に達するのを確認することができる。そのような実施形態においては、ハイブリッド形成レベルは、最も好ましくは、0から、標識ポリヌクレオチドによって結合ポリヌクレオチド(すなわち、プローブ)をサンプリングするのに必要な時間以上にわたるハイブリッド形成時間で測定され、その結果、混合物は、平衡に近いか、実質的に平衡に達し、二本鎖は、拡散ではなく親和性および存在量に依存する濃度になる。しかし、ハイブリッド形成時間は十分短く、標識ポリヌクレオチドとプローブおよび/または表面との不可逆結合相互作用が起こらない、または少なくとも限定されることが好ましい。例えば、ポリヌクレオチド・アレイを用いて、断片化されたポリヌクレオチドの複雑な混合物を精査する実施形態においては、典型的なハイブリッド形成時間を約0〜72時間とすることができる。別の実施形態の適切なハイブリッド形成時間は、使用する特定のポリヌクレオチド配列およびプローブに依存し、当業者が決定することができる(例えば、Sambrook等編、1989、Molecular Cloning: A Laboratory Manual、2nd ed.、Vol. 1〜3、Cold Spring Harbor Laboratory、Cold Spring Harbor、New Yorkを参照されたい)。
一実施形態においては、異なるハイブリッド形成時間におけるハイブリッド形成レベルを、異なる同一のマイクロアレイで別個に測定する。そのような各測定では、ハイブリッド形成レベルを測定するハイブリッド形成時間において、好ましくは室温で、高濃度から中濃度の塩(例えば、0.5〜3 M塩濃度)の水性溶液中、結合またはハイブリッド形成したポリヌクレオチドのすべてが保持され、未結合ポリヌクレオチドのすべてが除去される条件下で、マイクロアレイを簡単に洗浄する。次いで、各プローブ上に残留したハイブリッド形成したポリヌクレオチド分子上の検出可能な標識を、使用した特定の標識方法に適切な方法によって測定する。次いで、得られたハイブリッド形成レベルを組み合わせて、ハイブリッド形成曲線を形成する。別の実施形態においては、ハイブリッド形成レベルを、単一のマイクロアレイを用いて実時間で測定する。この実施形態においては、マイクロアレイは、中断することなく試料にハイブリッド形成され、各ハイブリッド形成時間において非侵襲的方法で調べられる。さらに別の実施形態においては、1つのアレイを使用し、短時間ハイブリッド形成し、洗浄し、ハイブリッド形成レベルを測定し、同じ試料に戻し、別の時間ハイブリッド形成し、洗浄し、再度測定して、ハイブリッド形成時間曲線を得ることができる。
好ましくは、2つの異なるハイブリッド形成時間で少なくとも2つのハイブリッド形成レベルを測定し、あるハイブリッド形成時間における第1のハイブリッド形成レベルは交差ハイブリッド形成平衡の時間スケールに近く、第2のハイブリッド形成レベルは第1のハイブリッド形成時間よりも長いハイブリッド形成時間で測定される。交差ハイブリッド形成平衡の時間スケールは、特に、試料組成およびプローブ配列に依存し、当業者が決定することができる。好ましい実施形態においては、第1のハイブリッド形成レベルは1〜10時間で測定され、第2のハイブリッド形成時間は、第1のハイブリッド形成時間の約2、4、6、10、12、16、18、48または72倍である。
5.8.1.1. マイクロアレイ用プローブの調製
上述したように、エキソンなどの特定のポリヌクレオチド分子が、本発明によって特異的にハイブリッド形成する「プローブ」は、相補的ポリヌクレオチド配列である。1つまたは複数のプローブを、各標的エキソンに対して選択することが好ましい。例えば、最低数のプローブをエキソンの検出に使用するとき、プローブは、通常、約40塩基長を超えるヌクレオチド配列を含む。あるいは、過剰なプローブの大きなセットをエキソンに使用するとき、プローブは、通常、約40〜60塩基のヌクレオチド配列を含む。プローブは、完全長のエキソンに相補的な配列を含むこともできる。エキソンの長さは、50塩基未満から200塩基を超える範囲とすることができる。したがって、エキソンよりも長いプローブ長さを使用するとき、プローブ配列が標的エキソンを含む連続mRNA断片に相補的であるように、エキソン配列を、隣接する構成的にスプライスされたエキソン配列で補うことが好ましい。これによって、エキソン・プロファイリング・アレイのプローブ間のハイブリッド形成ストリンジェンシーを同等にすることができる。各プローブ配列は、その標的配列に相補的である配列に加えて、リンカー配列を含むこともできることを理解されたい。
上述したように、エキソンなどの特定のポリヌクレオチド分子が、本発明によって特異的にハイブリッド形成する「プローブ」は、相補的ポリヌクレオチド配列である。1つまたは複数のプローブを、各標的エキソンに対して選択することが好ましい。例えば、最低数のプローブをエキソンの検出に使用するとき、プローブは、通常、約40塩基長を超えるヌクレオチド配列を含む。あるいは、過剰なプローブの大きなセットをエキソンに使用するとき、プローブは、通常、約40〜60塩基のヌクレオチド配列を含む。プローブは、完全長のエキソンに相補的な配列を含むこともできる。エキソンの長さは、50塩基未満から200塩基を超える範囲とすることができる。したがって、エキソンよりも長いプローブ長さを使用するとき、プローブ配列が標的エキソンを含む連続mRNA断片に相補的であるように、エキソン配列を、隣接する構成的にスプライスされたエキソン配列で補うことが好ましい。これによって、エキソン・プロファイリング・アレイのプローブ間のハイブリッド形成ストリンジェンシーを同等にすることができる。各プローブ配列は、その標的配列に相補的である配列に加えて、リンカー配列を含むこともできることを理解されたい。
プローブは、生物のゲノム中の各遺伝子の各エキソンの一部に対応するDNAまたはDNA「模倣物」(例えば、誘導体およびアナログ)を含むことができる。一実施形態においては、マイクロアレイのプローブは、相補的RNAまたはRNA模倣物である。DNA模倣物は、DNAと特異的ワトソン-クリック様ハイブリッド形成が可能なサブユニット、またはRNAと特異的ハイブリッド形成が可能なサブユニットで構成されるポリマーである。核酸は、塩基部分、糖部分、またはリン酸エステル骨格において修飾することができる。例示的なDNA模倣物としては、例えば、ホスホロチオエートがある。DNAは、例えば、ゲノムDNA、cDNA(例えば、RT-PCRによって)、またはクローン配列からのエキソン・セグメントをポリメラーゼ連鎖反応(PCR)増幅して得ることができる。PCRプライマーは、独特の断片(すなわち、マイクロアレイ上の他の断片と、10塩基を超える隣接同一配列を共有しない断片)の増幅をもたらすエキソンまたはcDNAの既知の配列に基づいて選択されることが好ましい。Oligo version 5.0 (National Biosciences)などの当分野で周知のコンピュータ・プログラムが、必要な特異性および最適な増幅特性を有するプライマーを設計するのに有用である。マイクロアレイ上の各プローブは、一般には20塩基〜600塩基であり、通常は30〜200塩基長である。PCR方法は当分野で周知であり、例えば、Innis等編、1990、PCR Protocols: A Guide to Methods and Applications、Academic Press Inc.、San Diego、CAに記載されている。制御されたロボット・システムが、核酸を単離し増幅するのに有用であることは、当業者には明らかである。
マイクロアレイのポリヌクレオチド・プローブを作製する別の好ましい手段は、例えば、N-ホスホネートまたはホスホアミダイト化学を用いて、合成ポリヌクレオチドまたはオリゴヌクレオチドを合成するものである(Froehler等、1986、Nucleic Acid Res. 14: 5399〜5407; McBride等、1983、Tetrahedron Lett. 24: 246〜248)。合成配列は、一般に、約15〜約600塩基長であり、より典型的には約20〜約100塩基であり、最も好ましくは約40〜約70塩基長である。一部の実施形態においては、合成核酸としては、イノシンなど、ただしこれだけに限らない非天然塩基などがある。上述したように、核酸アナログを、ハイブリッド形成の結合部位として使用することができる。適切な核酸アナログの例は、ペプチド核酸である(例えば、Egholm等、1993、Nature 363: 566〜568; 米国特許第5,539,083号を参照されたい)。
別の実施形態においては、ハイブリッド形成部位(すなわち、プローブ)は、遺伝子のプラスミド・クローンまたはファージ・クローン、cDNA(例えば、発現配列タグ)、またはそれらの挿入断片から作製される(Nguyen等、1995、Genomics 29: 207〜209)。
5.8.1.2. 固体表面への核酸の付着
あらかじめ形成されたポリヌクレオチド・プローブを担体上に置いてアレイを形成することができる。あるいは、ポリヌクレオチド・プローブを、担体上で直接合成してアレイを形成させることができる。プローブは、例えば、ガラス、プラスチック(例えば、ポリプロピレン、ナイロン)、ポリアクリルアミド、ニトロセルロース、ゲル、他の多孔質材料または非多孔質材料などでできた固体担体または表面に付着する。
あらかじめ形成されたポリヌクレオチド・プローブを担体上に置いてアレイを形成することができる。あるいは、ポリヌクレオチド・プローブを、担体上で直接合成してアレイを形成させることができる。プローブは、例えば、ガラス、プラスチック(例えば、ポリプロピレン、ナイロン)、ポリアクリルアミド、ニトロセルロース、ゲル、他の多孔質材料または非多孔質材料などでできた固体担体または表面に付着する。
核酸を表面に付着させる好ましい方法は、Schena等、1995、Science 270: 467〜470に概略記載されているようにガラス・プレート上に印刷することによるものである。この方法は、cDNAのマイクロアレイを調製するのに特に有用である(DeRisi等、1996、Nature Genetics 14: 457〜460; Shalon等、1996、Genome Res. 6: 639〜645;およびSchena等、1995、Proc. Natl. Acad Sci. U.S.A. 93: 10539〜11286も参照されたい)。
マイクロアレイを作製する第2の好ましい方法は、高密度ポリヌクレオチド・アレイを作製することによるものである。表面上の規定位置の規定配列に相補的である数千のオリゴヌクレオチドを含むアレイを、in situで合成用フォトリソグラフィ技術を用いて生成する技術(Fodor等、1991、Science 251: 767〜773; Pease等、1994、Proc. Natl. Acad. Sci. U.S.A. 91: 5022〜5026; Lockhart等、1996、Nature Biotechnology 14: 1675; 米国特許第5,578,832号; 同5,556,752号;および同5,510,270号を参照されたい)、または規定オリゴヌクレオチドを迅速に合成し付着させる他の方法(Blanchard等、Biosensors & Bioelectronics 11: 687〜690)が知られている。これらの方法を使用するとき、既知配列のオリゴヌクレオチド(例えば、60量体)は、スライドガラス誘導体などの表面上で直接合成される。作製されたアレイは、エキソン1つ当たりいくつかのポリヌクレオチド分子が重複していてもよい。
マイクロアレイを作製する他の方法、例えば、マスキング(MaskosおよびSouthern、1992、Nucl. Acids. Res. 20: 1679〜1684)を使用することもできる。原則的には、上述したように、あらゆるタイプのアレイ、例えば、ナイロン・ハイブリッド形成膜上のドット・ブロット(Sambrook等、同上参照)を使用することができる。しかし、当業者によって認識されているように、ハイブリッド形成体積がより小さくなるので、極めて小さなアレイが好ましいことが多い。
特に好ましい実施形態においては、本発明のマイクロアレイを、例えば、Blanchard、1998年9月24日に公開された国際公開第98/41531号; Blanchard等、1996、Biosensors and Bioelectronics 11: 687〜690; Blanchard、1998、Synthetic DNA Arrays in Genetic Engineering、Vol. 20、J.K. Setlow編、Plenum Press、New York、111〜123ページ;およびBlanchard、米国特許第6,028,189号に記載された方法およびシステムを用いて、オリゴヌクレオチド合成用インクジェット式印刷装置手段によって製造する。具体的には、このようなマイクロアレイ中のポリヌクレオチド・プローブを、アレイ中、例えば、スライドガラス上で、炭酸プロピレンなどの表面張力の高い溶媒の「微小液滴」中の個々のヌクレオチド塩基を連続的に付着させることによって合成することが好ましい。微小液滴は、体積が小さく(例えば、100 pL以下、より好ましくは、50 pL以下)、マイクロアレイ上で(例えば、疎水性ドメインによって)互いに分離されて、アレイ・エレメント(すなわち、様々なプローブ)の位置を規定する環状表面張力ウェルを形成する。ポリヌクレオチド・プローブは、通常、ポリヌクレオチドの3'末端で表面に共有結合する。あるいは、ポリヌクレオチド・プローブは、ポリヌクレオチドの5'末端で表面に共有結合することができる(例えば、Blanchard、1998、Synthetic DNA Arrays in Genetic Engineering、Vol. 20、J.K. Setlow編、Plenum Press、New York、111〜123ページを参照されたい)。
5.8.1.3. 標的ポリヌクレオチド分子
本発明の方法および組成物によって分析することができる標的ポリヌクレオチドとしては、メッセンジャーRNA(mRNA)分子、リボソームRNA(rRNA)分子、cRNA分子(すなわち、インビボで転写されるcDNA分子から調製されるRNA分子)およびそれらの断片など、ただしこれらだけに決して限定されないRNA分子が含まれる。やはり本発明の方法および組成物によって分析することができる標的ポリヌクレオチドとしては、ゲノムDNA分子、cDNA分子、およびオリゴヌクレオチド、EST、STSなどを含めたそれらの断片など、ただしこれらだけに限定されないDNA分子が含まれる。
本発明の方法および組成物によって分析することができる標的ポリヌクレオチドとしては、メッセンジャーRNA(mRNA)分子、リボソームRNA(rRNA)分子、cRNA分子(すなわち、インビボで転写されるcDNA分子から調製されるRNA分子)およびそれらの断片など、ただしこれらだけに決して限定されないRNA分子が含まれる。やはり本発明の方法および組成物によって分析することができる標的ポリヌクレオチドとしては、ゲノムDNA分子、cDNA分子、およびオリゴヌクレオチド、EST、STSなどを含めたそれらの断片など、ただしこれらだけに限定されないDNA分子が含まれる。
標的ポリヌクレオチドは、あらゆる出所のものとすることができる。例えば、標的ポリヌクレオチド分子は、分子生物から単離されるゲノムDNAまたはゲノム外DNA分子、生物から単離されるmRNA分子などのRNA分子などの天然核酸分子とすることができる。あるいは、例えば、cDNA分子などのインビボまたはインビトロで酵素的に合成される核酸分子、PCRによって合成されるポリヌクレオチド分子、インビトロでの転写によって合成されるRNA分子などを含めたポリヌクレオチド分子を合成することができる。標的ポリヌクレオチド試料は、例えば、DNA分子、RNA分子、またはDNAとRNAのコポリマー分子を含むことができる。好ましい実施形態においては、本発明の標的ポリヌクレオチドは、特定の遺伝子または特定の遺伝子転写物(例えば、細胞中で発現される特定のmRNA配列、またはそのようなmRNA配列から誘導される特定のcDNA配列)に相当する。しかし、多数の実施形態においては、特にポリヌクレオチド分子が哺乳動物細胞から得られる実施形態においては、標的ポリヌクレオチドは、遺伝子転写物の特定の断片に対応し得る。例えば、標的ポリヌクレオチドは、同じ遺伝子の異なるエキソンに対応し、その結果、例えば、その遺伝子の異なるスプライス変異体を検出し、かつ/または分析することができる。
好ましい実施形態においては、分析する標的ポリヌクレオチドを、細胞から抽出される核酸からインビトロで調製する。例えば、一実施形態においては、RNAを、細胞(例えば、全細胞RNA、ポリ(A)+メッセンジャーRNA、それらの一部)から抽出し、メッセンジャーRNAを、全抽出RNAから精製する。全RNAおよびポリ(A)+RNAを調製する方法は当分野で周知であり、一般に、例えば、Sambrook等、同上に記載されている。一実施形態においては、本発明において対象とする様々なタイプの細胞をチオシアン酸グアニジウム溶解後、CsCl遠心分離し、オリゴdT精製してRNAを抽出する(Chirgwin等、1979、Biochemistry 18: 5294〜5299)。別の実施形態においては、細胞をチオシアン酸グアニジウム溶解後、RNeasyカラム(Qiagen)で精製してRNAを抽出する。次いで、例えば、オリゴ-dTまたはランダム・プライマーを用いて、精製したmRNAからcDNAを合成する。好ましい実施形態においては、標的ポリヌクレオチドは、細胞から抽出された精製メッセンジャーRNAから調製されるcRNAである。本明細書で使用するcRNAは、もとのRNAに相補的であるRNAとして定義される。抽出したRNAを、二本鎖cDNAをRNAから、アンチセンスRNAの転写を誘導することができる方向に、RNAポリメラーゼ・プロモーターに結合したプライマーを用いて合成するプロセスによって増幅させる。次いで、アンチセンスRNAまたはcRNAを、二本鎖cDNAの2番目の鎖からRNAポリメラーゼを用いて転写する(例えば、米国特許第5,891,636号、同5,716,785号;同5,545,522号および同6,132,997号を参照されたい。また、米国特許第6,271,002号、および2002年6月6日の国際公開第02/44399号を参照されたい)。RNAポリメラーゼ・プロモーターまたはその補体を含むオリゴ-dTプライマー(米国特許第5,545,522号および同6,132,997号)またはランダム・プライマー(2002年6月6日の国際公開第02/44399号)を使用することができる。標的ポリヌクレオチドは、細胞の最初の核酸集団に代表的な短鎖および/または断片ポリヌクレオチド分子であることが好ましい。
本発明の方法および組成物によって分析される標的ポリヌクレオチドは、検出可能に標識されていることが好ましい。例えば、cDNAを、例えば、ヌクレオチド・アナログで直接標識することができ、または、例えば、第1の鎖をテンプレートとして使用して第2の標識cDNA鎖を作製することによって、間接的に標識することができる。あるいは、二本鎖cDNAを転写してcRNAとし、標識することができる。
検出可能な標識は、例えば、ヌクレオチド・アナログを組み込むことによる蛍光性標識であることが好ましい。本発明における使用に適切な他の標識は、ビオチン、イミノビオチン、抗原、補因子、ジニトロフェノール、リポ酸、オレフィン化合物、検出可能なポリペプチド、電子に富む分子、基質に作用して検出可能なシグナルを発生可能な酵素、放射性同位体などであるが、これらだけに限定されない。好ましい放射性同位体としては、32P、35S、14C、15N、125Iなどがある。本発明に適切な蛍光性分子としては、フルオレセインおよびその誘導体、ローダミンおよびその誘導体、テキサス・レッド、5'カルボキシ-フルオレセイン(「FMA」)、2',7'-ジメトキシ-4',5'-ジクロロ-6-カルボキシ-フルオレセイン(「JOE」)、N,N,N',N'-テトラメチル-6-カルボキ-シローダミン(「TAMRA」)、6'カルボキシ-X-ローダミン(「ROX」)、HEX、TET、IRD40、IRD41などがあるが、これらだけに限定されない。本発明に適切な蛍光性分子としては、さらに、Cy3、Cy3.5およびCy5を含めて、ただしこれらだけに限定されないシアミン色素、BODIPY-FL、BODIPY-TR、BODIPY-TMR、BODIPY-630/650およびBODIPY-650/670を含めて、ただしこれらだけに限定されないBODIPY色素、ALEXA-488、ALEXA-532、ALEXA-546、ALEXA568およびALEXA-594を含めて、ただしこれらだけに限定されないALEXA色素、ならびに当業者に既知の他の蛍光色素などがある。本発明に適切な、電子に富む指示薬分子としては、フェリチン、ヘモシアニン、コロイド状金などがあるが、これらだけに限定されない。あるいは、さほど好ましくない実施形態においては、第1のグループとポリヌクレオチドの特異的な複合体を形成させることによって、標的ポリヌクレオチドを標識することができる。指示薬分子に共有結合し、第1のグループに対して親和性を有する第2のグループを使用して、標的ポリヌクレオチドを間接的に検出することができる。そのような実施形態においては、第1のグループとして使用するのに適切な化合物は、ビオチン、イミノビオチンなどであるが、これらだけに限定されない。第2のグループと
して使用するのに適切な化合物は、アビジン、ストレプトアビジンなどであるが、これらだけに限定されない。
して使用するのに適切な化合物は、アビジン、ストレプトアビジンなどであるが、これらだけに限定されない。
5.8.1.4. マイクロアレイとのハイブリッド形成
上述したように、核酸ハイブリッド形成および洗浄条件を、本発明によって分析されるポリヌクレオチド分子(本明細書では「標的ポリヌクレオチド分子と称する)が、アレイ、好ましくはその相補DNAが存在する特異的アレイ部位の相補的ポリヌクレオチド配列に特異的に結合または特異的にハイブリッド形成するように選択する。
上述したように、核酸ハイブリッド形成および洗浄条件を、本発明によって分析されるポリヌクレオチド分子(本明細書では「標的ポリヌクレオチド分子と称する)が、アレイ、好ましくはその相補DNAが存在する特異的アレイ部位の相補的ポリヌクレオチド配列に特異的に結合または特異的にハイブリッド形成するように選択する。
その上に位置する二本鎖プローブDNAを含むアレイは、DNAを一本鎖にする変性条件にかけてから、標的ポリヌクレオチド分子と接触させることが好ましい。一本鎖プローブDNA(例えば、合成オリゴデオキシリボ核酸)を含むアレイは、標的ポリヌクレオチド分子と接触させる前に、例えば、自己相補的配列のために形成されるヘアピンまたは2量体を除去するために、変性する必要がある場合がある。
最適ハイブリッド形成条件は、プローブと標的核酸の長さ(例えば、オリゴマーと200塩基よりも大きなポリヌクレオチド)およびタイプ(例えば、RNAまたはDNA)によって決まる。核酸に対する特異的(すなわち、ストリンジェントな)ハイブリッド形成条件の一般的パラメータは、Sambrook等、(同上)、およびAusubel等、1987、Current Protocols in Molecular Biology、Greene Publishing and Wiley-Interscience、New Yorkに記載されている。Schena等のcDNAマイクロアレイを使用するときには、典型的なハイブリッド形成条件は、5 X SSCと0.2%SDS中で65℃で4時間のハイブリッド形成と、その後の低ストリンジェンシー洗浄緩衝剤(1 X SSCと0.2%SDS)による25℃での洗浄と、その後のより高いストリンジェンシーの洗浄緩衝剤(0.1 X SSCと0.2%SDS)による25℃で10分間の洗浄である(Shena等、1996、Proc. Natl. Acad Sci. U.S.A. 93:10614)。有用なハイブリッド形成条件は、例えば、Tijessen、1993、Hybridization With Nucleic Acid Probes、Elsevier Science Publishers B.V.およびKricka、1992、Nonisotopic DNA Probe Techniques、Academic Press、San Diego、CAにも記載されている。
本発明のスクリーニングおよび/または情報伝達チップとともに使用される特に好ましいハイブリッド形成条件は、プローブの平均融解温度またはその近くの温度(例えば、5℃以内、より好ましくは2℃以内)における、1M NaCl、50 mM MES緩衝剤(pH 6.5)、0.5%サルコシンナトリウムおよび30%ホルムアミド中でのハイブリッド形成などである。
5.8.1.5. シグナル検出およびデータ分析
細胞のRNAに相補的である標的配列、例えば、cDNAまたはcRNAを作製し、適切なハイブリッド形成条件下でマイクロアレイにハイブリッド形成させるとき、任意の特定の遺伝子のエキソンに対応するアレイ中の部位に対するハイブリッド形成のレベルは、その遺伝子から転写されるエキソンを含むmRNAの細胞における支配率を反映していることを理解されたい。例えば、全細胞のmRNAに相補的である(例えば、蛍光団で)検出可能に標識されたcDNAをマイクロアレイにハイブリッド形成させるとき、細胞中で転写されない、またはRNAスプライシング中に除去された遺伝子のエキソンに対応する(すなわち、遺伝子発現の産物に特異的に結合可能である)アレイ上の部位は、ほとんどまたはまったくシグナル(例えば、蛍光性シグナル)を持たず、エキソンを発現するコードされたmRNAが優勢である遺伝子のエキソンは、比較的強いシグナルを有する。次いで、選択的スプライシングによって同じ遺伝子から産生される異なるmRNAの相対存在量を、遺伝子に対してモニターされるエキソンのセット全体にわたるシグナル強度パターンから決定する。
細胞のRNAに相補的である標的配列、例えば、cDNAまたはcRNAを作製し、適切なハイブリッド形成条件下でマイクロアレイにハイブリッド形成させるとき、任意の特定の遺伝子のエキソンに対応するアレイ中の部位に対するハイブリッド形成のレベルは、その遺伝子から転写されるエキソンを含むmRNAの細胞における支配率を反映していることを理解されたい。例えば、全細胞のmRNAに相補的である(例えば、蛍光団で)検出可能に標識されたcDNAをマイクロアレイにハイブリッド形成させるとき、細胞中で転写されない、またはRNAスプライシング中に除去された遺伝子のエキソンに対応する(すなわち、遺伝子発現の産物に特異的に結合可能である)アレイ上の部位は、ほとんどまたはまったくシグナル(例えば、蛍光性シグナル)を持たず、エキソンを発現するコードされたmRNAが優勢である遺伝子のエキソンは、比較的強いシグナルを有する。次いで、選択的スプライシングによって同じ遺伝子から産生される異なるmRNAの相対存在量を、遺伝子に対してモニターされるエキソンのセット全体にわたるシグナル強度パターンから決定する。
好ましい実施形態においては、2つの異なる細胞からの標的配列、例えば、cDNAまたはcRNAを、マイクロアレイの結合部位にハイブリッド形成させる。薬物応答の場合、1つの細胞試料を薬物に曝し、同じタイプのもう1つの細胞試料を薬物に曝さない。経路応答の場合、1つの細胞を経路の乱れに曝し、同じタイプのもう1つの細胞を経路の乱れに曝さない。2つの細胞型の各々に由来するcDNAまたはcRNAは異なって標識され、そのため識別することができる。一実施形態においては、例えば、薬物で処理した(または経路の乱れに曝した)細胞からのcDNAを蛍光標識dNTPを用いて合成し、薬物に曝していない第2の細胞からのcDNAをローダミン標識NTPを用いて合成する。2つのcDNAを混合し、マイクロアレイにハイブリッド形成させるとき、各cDNAセットからのシグナルの相対強度をアレイ上の各部位に対して測定し、特定のエキソンの存在量の相対差を検出する。
上述した例では、薬物処理した(または経路を撹乱させた)細胞からのcDNAは、蛍光団が刺激されると緑色の蛍光を発し、未処理細胞からのcDNAは赤色の蛍光を発する。その結果、細胞中の特定の遺伝子の転写および/または転写後のスプライシングに対して、直接的でも間接的でも薬物療法の効果がないとき、両方の細胞においてエキソンの発現パターンは識別できず、逆転写すると、赤色標識されたcDNAおよび緑色標識されたcDNAが等しく優勢である。マイクロアレイにハイブリッド形成させると、そのRNA種に対する結合部位は、両方の蛍光団に特徴的な波長を放出する。これに対して、薬物に曝す細胞を、細胞中の特定の遺伝子の転写および/または転写後のスプライシングを直接的でも間接的でも変える薬物で処理すると、各エキソン結合部位に対する緑色と赤色の蛍光比によって表されるエキソンの発現パターンが変化する。薬物が、mRNAの優勢を強めると、mRNA中で発現する各エキソンの比が増加するのに対し、薬物がmRNAの優勢を弱めると、mRNA中で発現する各エキソンの比が減少する。
遺伝子発現の変化を明確にする2色蛍光標識および検出スキームの使用については、mRNAの検出と関連して、例えば、Shena等、1995、Quantitative monitoring of gene expression patterns with a complementary DNA microarray、Science 270: 467〜470に記載されている。この全体を参照により本明細書に援用する。このスキームは、エキソンの標識および検出に等しく適用可能である。2つの異なる蛍光団で標識された標的配列、例えば、cDNAまたはcRNAを使用する利点は、2つの細胞状態にある各遺伝子アレイに対応するmRNAまたはエキソン発現レベルの直接比較および内部対象比較を行うことができ、実験条件(例えば、ハイブリッド形成条件)のわずかな違いによる変化は、後続の分析に影響を及ぼさない点にある。しかし、単一細胞のcDNAを使用し、例えば、薬物処理細胞または経路撹乱細胞および未処理細胞中の特定のエキソンの絶対量を比較することも可能であることを認識されたい。
蛍光標識プローブを使用するときには、転写物アレイの各部位における蛍光放出を、走査型共焦点レーザー顕微鏡によって検出できることが好ましい。一実施形態においては、適切な励起ラインを用いた別々の走査を、使用する2つの蛍光団の各々に対して実施する。あるいは、2つの蛍光団に特有の波長で同時に試料を照射し、2つの蛍光団からの発光を同時に分析することができるレーザーを使用することができる(Shalon等、1996、Genome Res. 6: 639〜645を参照されたい)。好ましい実施形態においては、コンピュータ制御されたX-Yステージおよび顕微鏡対物レンズを備えたレーザー蛍光スキャナーでアレイを走査する。マルチライン混合ガス・レーザーを用いて、2つの蛍光団が連続して励起され、放出された光は、波長によって分割され、2つの光電子増倍管で検出される。このような蛍光レーザー走査装置は、例えば、Schena等、1996、Genome Res. 6: 639〜645に記載されている。あるいは、Ferguson等、1996、Nature Biotech. 14: 1681〜1684に記載された光ファイバー束を使用して、mRNAの存在レベルを多数の部位において同時にモニターすることができる。
シグナルを記録し、好ましい実施形態においては、コンピュータによって、例えば、12ビット・アナログ・トゥ・デジタル・ボードを用いて解析する。一実施形態においては、グラフィックス・プログラム(例えば、Hijaak Graphics Suite)を用いて走査イメージから染みを除去し、次いで、各部位において各波長で平均ハイブリッド形成のスプレッドシートを作成するイメージ・グリッディング・プログラムを用いて解析する。必要に応じて、2つの蛍光体に対するチャネル間の「クロストーク」(またはオーバーラップ)に対して実験的に決定した補正を行うことができる。転写物アレイ上の特定のハイブリッド形成部位に対して、2つの蛍光団の発光比を計算することができる。この比は、同族の遺伝子の絶対的な発現レベルには無関係であるが、薬物投与、遺伝子欠失、または他の任意の試験済みの現象によって発現がかなり調整される遺伝子に有用である。
本発明による方法によれば、2つの細胞または細胞系中のmRNAおよび/またはmRNA中で発現されるエキソンの相対存在量は、撹乱される(すなわち、存在量が、試験するmRNAの2つの出所で異なる)ものとして、または撹乱されない(すなわち、相対存在量が同じ)ものとして記録される。少なくとも約25%(すなわち、一方の出所のRNAが、他方の出所のRNAよりも25%多い)、より一般的には約50%、さらにより一般的には約2倍(すなわち、2倍の量)、3倍(3倍の量)、または5倍(5倍の量)の本明細書で使用する2つのRNA出所間の差が乱れとして記録される。本発明の検出方法は、約1.5倍〜約3倍の差を信頼性よく検出できる。
しかし、これは、2つの細胞または2つの細胞系におけるmRNAおよび/またはmRNA中で発現されるエキソンの存在量の相対差の程度を明らかにするのにも有利である。これは、上述したように、示差的な標識に使用される2つの蛍光団の発光比を計算することによって、または当業者には容易に明らかな類似の方法によって実施することができる。
5.8.2. 転写状態測定の他の方法
細胞の転写状態を、当分野で既知の他の遺伝子発現技術によって測定することができる。2種類の制限酵素による消化を位相プライマー(phasing primer)と組み合わせた方法(例えば、1992年9月24日にZabeau他によって出願された欧州特許第O 534858号A1を参照されたい)、規定されたmRNA末端に最も近い部位を有する制限断片を選択する方法(例えば、Prashar等、1996、Proc. Natl. Acad. Sci. USA 93: 659〜663を参照されたい)などいくつかのこのような技術は、電気泳動分析に対して、複雑さの限定された制限断片のプールを生成する。他の方法は、複数のcDNAの各々における十分な塩基(例えば、20〜50塩基)の配列を決定して各cDNAを特定することによって、または規定されたmRNA末端に対して既知の位置において生成する短いタグ(例えば、9〜10塩基)の配列を決定することなどによって、cDNAのプールを統計的にサンプリングする(例えば、Velculescu、1995、Science 270:484〜487を参照されたい)。
細胞の転写状態を、当分野で既知の他の遺伝子発現技術によって測定することができる。2種類の制限酵素による消化を位相プライマー(phasing primer)と組み合わせた方法(例えば、1992年9月24日にZabeau他によって出願された欧州特許第O 534858号A1を参照されたい)、規定されたmRNA末端に最も近い部位を有する制限断片を選択する方法(例えば、Prashar等、1996、Proc. Natl. Acad. Sci. USA 93: 659〜663を参照されたい)などいくつかのこのような技術は、電気泳動分析に対して、複雑さの限定された制限断片のプールを生成する。他の方法は、複数のcDNAの各々における十分な塩基(例えば、20〜50塩基)の配列を決定して各cDNAを特定することによって、または規定されたmRNA末端に対して既知の位置において生成する短いタグ(例えば、9〜10塩基)の配列を決定することなどによって、cDNAのプールを統計的にサンプリングする(例えば、Velculescu、1995、Science 270:484〜487を参照されたい)。
5.9. 生物学的状態の他の態様の測定
本発明の様々な実施形態においては、翻訳状態、活性状態、混合態様など、転写状態以外の生物学的状態の態様を測定することができる。したがって、そのような実施形態においては、細胞構成成分データ44(図1)は、翻訳状態の測定またはタンパク質発現の測定までも含むことができる。実際、一部の実施形態においては、遺伝子発現に基づく遺伝子発現相互作用地図を使用するのではなく、タンパク質発現地図に基づくタンパク質発現相互作用地図を使用する。転写状態以外の生物学的状態の態様を以下のセクションにおいて記載する実施形態の詳細。
本発明の様々な実施形態においては、翻訳状態、活性状態、混合態様など、転写状態以外の生物学的状態の態様を測定することができる。したがって、そのような実施形態においては、細胞構成成分データ44(図1)は、翻訳状態の測定またはタンパク質発現の測定までも含むことができる。実際、一部の実施形態においては、遺伝子発現に基づく遺伝子発現相互作用地図を使用するのではなく、タンパク質発現地図に基づくタンパク質発現相互作用地図を使用する。転写状態以外の生物学的状態の態様を以下のセクションにおいて記載する実施形態の詳細。
5.10. 翻訳状態の測定
翻訳状態の測定を、いくつかの方法によって実施することができる。例えば、タンパク質のゲノム全体(すなわち、「プロテオーム」、Goffeau等、同上)のモニタリングを、細胞ゲノムによってコードされる複数のタンパク質種に特異的である固定化抗体、好ましくは固定化モノクローナル抗体を結合部位が含むマイクロアレイを構築することによって実施することができる。抗体は、コードされたタンパク質の実質的部分、または少なくとも目的薬物の作用に関連するタンパク質に対して存在することが好ましい。モノクローナル抗体を作製する方法は周知である(例えば、その全体を援用する、HarlowおよびLane、1988、Antibodies: A Laboratory Manual、Cold Spring Harbor、New Yorkを参照されたい)。好ましい実施形態においては、モノクローナル抗体は、細胞のゲノム配列に基づいて設計された合成ペプチド断片に対して産生される。そのような抗体アレイを用いて、細胞から得られるタンパク質をアレイに接触させ、それらの結合を当分野で既知のアッセイによって分析する。
翻訳状態の測定を、いくつかの方法によって実施することができる。例えば、タンパク質のゲノム全体(すなわち、「プロテオーム」、Goffeau等、同上)のモニタリングを、細胞ゲノムによってコードされる複数のタンパク質種に特異的である固定化抗体、好ましくは固定化モノクローナル抗体を結合部位が含むマイクロアレイを構築することによって実施することができる。抗体は、コードされたタンパク質の実質的部分、または少なくとも目的薬物の作用に関連するタンパク質に対して存在することが好ましい。モノクローナル抗体を作製する方法は周知である(例えば、その全体を援用する、HarlowおよびLane、1988、Antibodies: A Laboratory Manual、Cold Spring Harbor、New Yorkを参照されたい)。好ましい実施形態においては、モノクローナル抗体は、細胞のゲノム配列に基づいて設計された合成ペプチド断片に対して産生される。そのような抗体アレイを用いて、細胞から得られるタンパク質をアレイに接触させ、それらの結合を当分野で既知のアッセイによって分析する。
あるいは、二次元ゲル電気泳動システムによってタンパク質を分離させることができる。二次元ゲル電気泳動は、当業者によく知られており、一般に、一次元に沿った等電点電気泳動と、その後の二次元に沿ったSDS-PAGE電気泳動を含む。例えば、Hames等、1990、Gel Electrophoresis of Proteins: A Practical Approach、IRL Press、New York; Shevchenko等、1996、Proc. Natl. Acad. Sci. USA 93: 1440〜1445; Sagliocco等、1996、Yeast 12: 1519〜1533; Lander、1996、Science 274: 536〜539を参照されたい。得られた電気泳動図は、質量分析法、ウエスタン・ブロット法、ポリクローナル抗体およびモノクローナル抗体を用いた免疫ブロット分析、内部およびN末端のミクロシークエンシングを含めた多数の技術によって分析することができる。これらの技術を用いて、薬物に曝された細胞中(例えば、酵母中)、または例えば、特定の遺伝子の欠失または過剰発現によって改変された細胞中を含めて、所与の生理学的条件下で産生される全タンパク質の実質的部分を同定することができる。
5.11. 生物学的状態の他の態様の測定
本発明の方法は、遺伝子発現または翻訳を含む実施形態によって説明されるが、本発明の方法は、モニター可能なあらゆる細胞構成成分に適用可能である。例えば、タンパク質の活性が測定可能である場合、本発明の実施形態をそのような測定に使用することができる。活性の測定は、特性が明らかにされる特定の活性に適切である任意の機能的手段、生化学的手段、または物理的手段によって実施することができる。活性が化学変換を伴う場合、細胞のタンパク質を天然の基質に接触させ、変換速度を測定することができる。活性が、多量体ユニット中の会合、例えばDNAとの活性DNA結合複合体の会合を含む場合、会合タンパク質の量、または転写されたmRNAの量などの会合の二次的な結果を測定することができる。また、例えば、細胞周期の制御におけるように、機能上の活性のみが既知の場合、その機能の働きを観察することができる。既知であっても測定しても、タンパク質活性の変化は、本発明の上述の方法によって分析される応答データを形成する。
本発明の方法は、遺伝子発現または翻訳を含む実施形態によって説明されるが、本発明の方法は、モニター可能なあらゆる細胞構成成分に適用可能である。例えば、タンパク質の活性が測定可能である場合、本発明の実施形態をそのような測定に使用することができる。活性の測定は、特性が明らかにされる特定の活性に適切である任意の機能的手段、生化学的手段、または物理的手段によって実施することができる。活性が化学変換を伴う場合、細胞のタンパク質を天然の基質に接触させ、変換速度を測定することができる。活性が、多量体ユニット中の会合、例えばDNAとの活性DNA結合複合体の会合を含む場合、会合タンパク質の量、または転写されたmRNAの量などの会合の二次的な結果を測定することができる。また、例えば、細胞周期の制御におけるように、機能上の活性のみが既知の場合、その機能の働きを観察することができる。既知であっても測定しても、タンパク質活性の変化は、本発明の上述の方法によって分析される応答データを形成する。
本発明の一部の実施形態においては、細胞構成成分の測定は、細胞の表現型技術から派生する。そのような細胞の表現型技術の1つは、汎用レポーターとして細胞呼吸を使用する。一実施形態においては、各ウェルが独特の化学反応性を含む96ウェルのマイクロタイター・プレートが提供される。独特な各化学反応性は、特定の表現型を試験するように設計されている。目的生物46(図1)からの細胞を、ピペットで各ウェルに移す。細胞が適切な表現型を示す場合、細胞は呼吸し、テトラゾリウム色素を活発に還元して、濃い紫色を形成する。表現型が弱いと、色が薄くなる。無色は、細胞が特定の表現型を持たないことを意味する。色の変化は、毎時何回も記録することができる。1回のインキュベーション中、5,000を超える表現型を試験することができる。例えば、Bochner等、2001、Genome Research 11、1246〜55を参照されたい。
本発明の一部の実施形態においては、測定される細胞構成成分(遺伝子発現データ44)は代謝産物である。代謝産物としては、アミノ酸、金属、可溶性糖、糖リン酸、複雑な炭水化物などがあるが、これらだけに限定されない。このような代謝産物は、例えば、熱分解質量分析法(Irwin、1982、Analytical Pyrolysis: A Comprehensive Guide、Marcel Dekker、New York; Meuzelaar 等、1952、Pyrolysis Mass Spectrometry of Recent and Fossil Biomaterials、Elsevier、Amsterdam)、フーリエ変換赤外分光法(Griffithsおよびde Haseth、1986、Fourier transform infrared spectrometry、John Wiley、New York; Helm等、1991、J. Gen. Microbiol. 137、69〜79; Naumann等、1991、Nature 351、81〜82; Naumann等、1991、Modern techniques for rapid microbiological analysis、43〜96、Nelson、W.H.編、VCH Publishers、New York)、ラマン分光法、ガスクロマトグラフィー-質量分析(GC-MS)(Fiehn等、2000、Nature Biotechnology 18、1157〜1161、キャピラリー電気泳動法(CE)/MS、高圧液体クロマトグラフィー/質量分析(HPLC/MS)、ならびに液体クロマトグラフィー(LC)-エレクトロスプレー、cap-LC-タンデム-エレクトロスプレー質量分析などの方法によって細胞全体のレベルで測定することができる。このような方法は、密接に関係する試料を特定するために、人工ニューラル・ネットワークおよび遺伝プログラミングを利用する既成の計量化学法と組み合わせることができる。
5.12. 例示的な疾患
上述したように、本発明は、遺伝子を、ある1つの種(例えば、単一種)の複数の生物中の1つまたは複数の生物によって示される形質と関連付ける装置および方法を提供する。いくつかの例においては、遺伝子を、遺伝子産物が関与する生物学的経路を特定することによって、形質に関連付ける。本発明の一部の実施形態においては、対象とする形質は、疾患、例えば、ヒトの疾患などの複合形質である。例示的な疾患としては、アレルギー、喘息、および恐慌障害、恐怖症、心的外傷後ストレス障害などの強迫性障害がある。
上述したように、本発明は、遺伝子を、ある1つの種(例えば、単一種)の複数の生物中の1つまたは複数の生物によって示される形質と関連付ける装置および方法を提供する。いくつかの例においては、遺伝子を、遺伝子産物が関与する生物学的経路を特定することによって、形質に関連付ける。本発明の一部の実施形態においては、対象とする形質は、疾患、例えば、ヒトの疾患などの複合形質である。例示的な疾患としては、アレルギー、喘息、および恐慌障害、恐怖症、心的外傷後ストレス障害などの強迫性障害がある。
例示的な疾患としては、さらに、アジソン病などの自己免疫障害、円形脱毛症、強直性脊椎炎、抗リン脂質抗体症候群、ベーチェット病、慢性疲労症候群、クローン病および潰よう性大腸炎、糖尿病、線維筋痛、グッドパスチャー症候群、移植片対宿主病、ループス、メニエール病、多発性硬化症、重症筋無力症、筋炎、尋常性天ぽうそう、原発性胆汁性肝硬変、乾せん、リウマチ熱、サルコイドーシス、強皮症、血管炎、白斑、ウェゲナー肉芽腫症などがある。
例示的な疾患としては、さらに、軟骨形成不全、骨肉腫、進行性骨化性線維形成異常症、繊維性骨異形成症、レッグ・カルベ・ペルテス病、骨髄腫、骨形成不全症、骨髄炎、骨粗しょう症、パジェット病、脊柱側弯症などの骨疾患がある。例示的な疾患としては、膀胱癌、骨癌、脳腫瘍、乳癌、子宮頚癌、結腸癌、婦人科癌、ホジキン病、腎臓癌、喉頭癌、白血病、肝臓癌、肺癌、リンパ腫、口頭癌、卵巣癌、膵癌、前立腺癌、皮膚癌、睾丸癌などの癌がある。
例示的な疾患としては、さらに、軟骨形成不全、色盲、酸性マルターゼ欠損症、副腎白質萎縮症、アイカルディ症候群、アルファ-1抗トリプシン欠乏症、アンドロゲン不応症、アペール症候群、異形成、毛細血管拡張性運動失調症、青色ゴムまり様母斑症候群、カナバン病、ネコ鳴き症候群、嚢胞性線維症、ダーカム病、ファンコニ貧血症、進行性骨化性線維形成異常症、脆弱X染色体症候群、ガラクトース血症、ゴーシェ病、血色素症、血友病、ハンチントン病、ハーラー症候群、低ホスファターゼ症、クラインフェルター症候群、クラッベ病、ランガー・ギーディオン症候群、白質萎縮症、QT延長症候群、マルファン症候群、メビウス症候群、ムコ多糖症(mps)、爪膝蓋骨症候群、腎原発性の、尿崩症、神経線維腫症、ニーマン・ピック病、骨形成不全症、ポルフィリン症、プラダー・ウィリー症候群、早老症、プロテウス症候群、網膜芽細胞腫、レット症候群、ルビンスタイン・テイビ症候群、サンフィリポ症候群、シュバックマン症候群、鎌状赤血球疾患、スミス・マゲニス症候群、スティックラー症候群、テイ・サックス病、血小板減少とう骨欠損(tar)症候群、トリーチャー・コリンズ症候群、三染色体性、結節性硬化症、ターナー症候群、尿素サイクル障害、フォンヒッペル・リンダウ病、ワールデンブルグ症候群、ウィリアムズ症候群、ウィルソン病などの遺伝的障害がある。
例示的な疾患としては、さらに、狭心症、異形成、アテローム性動脈硬化症/動脈硬化症、先天性心疾患、心内膜炎、高コレステロール、高血圧、QT延長症候群、僧帽弁逸脱症候群、体位性頻脈症候群、血栓症などがある。
5.13. 連鎖解析
このセクションは、処理ステップ210(図2)の様々な実施形態に使用可能である、いくつかの標準の量的形質遺伝子座(QTL)連鎖解析アルゴリズムについて記述する。これらのアルゴリズムの目的は、1つまたは複数の生物46によって示される表現型形質のQTLを特定することである。QTLは、検討中の種の表現型形質における変化率をもたらす、種のゲノム領域である。QTLは、系統データを用いて、グループ中の生物の遺伝子型を、そのグループによって示される表現型と比較することによって特定される。遺伝地図78中の複数のマーカーの各マーカーにおける各生物46の遺伝子型を、各生物46の所与の表現型と比較する。遺伝地図は、遺伝マーカーを遺伝(線形)地図の順に配置することによって作成され、その結果、マーカー間の関係が理解される。マーカー地図によって与えられるマーカー間の関係を知ることから得られる情報によって、QTL効果とQTL位置の関係を処理する設定が与えられる。例示的なマーカーとしては、所与の種において生じる一塩基多型がある。
このセクションは、処理ステップ210(図2)の様々な実施形態に使用可能である、いくつかの標準の量的形質遺伝子座(QTL)連鎖解析アルゴリズムについて記述する。これらのアルゴリズムの目的は、1つまたは複数の生物46によって示される表現型形質のQTLを特定することである。QTLは、検討中の種の表現型形質における変化率をもたらす、種のゲノム領域である。QTLは、系統データを用いて、グループ中の生物の遺伝子型を、そのグループによって示される表現型と比較することによって特定される。遺伝地図78中の複数のマーカーの各マーカーにおける各生物46の遺伝子型を、各生物46の所与の表現型と比較する。遺伝地図は、遺伝マーカーを遺伝(線形)地図の順に配置することによって作成され、その結果、マーカー間の関係が理解される。マーカー地図によって与えられるマーカー間の関係を知ることから得られる情報によって、QTL効果とQTL位置の関係を処理する設定が与えられる。例示的なマーカーとしては、所与の種において生じる一塩基多型がある。
本発明は、QTL解析を実施するのに使用可能である表現型データのタイプを限定するものではないことを理解されたい。表現型データは、例えば、生物のコレクションにおける定量可能な表現型形質の一連の測定値である。そのような定量可能な表現型形質としては、例えば、尾の長さ、寿命、目の色、サイズおよび体重がある。あるいは、表現型データを、ある表現型形質の有無を追跡記録する2進数形式とすることができる。例として、「1」は、目的生物の特定の種が所与の表現型形質を有することを示し、「0」は、目的生物の特定の種が表現型形質を欠くことを示すことができる。表現型形質は、各生物46の表現型に代表的な任意の形式の生物学的データとすることができる。表現型形質は定量化されるので、量的表現型と呼ばれることが多い。
QTL解析に必要な遺伝子型データを提供するために、遺伝マーカー地図78中の各マーカーの遺伝子型を各生物46に対して決定する。遺伝子型の代表的な形式としては、一塩基多型、ミクロサテライト・マーカー、制限断片長多型、短鎖縦列反復、配列長多型、およびDNAメチル化パターンなどがあるが、これらだけに限定されない。
連鎖解析は、マーカーの分離を統計的にモデル化するために、各生物46の系統データを必要とする。一部の実施形態においては、検討中の集団は、同型接合的な親の近交系から生じる集団から構築される。得られたF1系は、すべての遺伝子座において異型接合的である。F1集団から、交雑種を作製する。例示的な交雑種としては、戻し交配による雑種およびF2交雑雑種がある。したがって、本発明の一部の実施形態においては、生物46はF2集団などの集団であり、F2集団の系統データは既知である。この系統データを使用して、オッズの対数(LOD)スコアを、以下にさらに詳細に記述するように計算する。
間隔マッピングなどの連鎖解析は、任意の所与の量的形質に対するQTLの位置の枠組みとして遺伝地図を使用する。マーカーの順序対によって規定される間隔を、段階的(例えば、2 cM)に増量しながら探索し、統計方法を用いて、QTLが間隔内の位置に存在する可能性があるかどうかを試験する。一実施形態においては、量的遺伝分析210(図2)は、遺伝地図中の順序付けられたマーカー全体にわたり、各増分において単一のQTLを統計的に試験する。試験結果をLODスコアとして表し、帰無仮説(QTL無し)下での尤度関数の評価を、有望なQTLを位置付ける目的で対立仮説(試験位置におけるQTL)と比較する。LODスコアの詳細は、セクション5.4に記載されている。間隔マッピングは、順序付けられた遺伝マーカーを系統的線形(一次元)式にくまなく探索し、同じ帰無仮説を試験し、各増分において同じ形式の尤度を使用する。
本発明の一実施形態においては、連鎖解析は、LanderおよびBotstein、1989、「Mapping mendelian factors underlying quantitative traits using RFLP linkage maps」、Genetics 121: 185〜199によって最初に提案されたものから誘導されたアルゴリズムによるQTL間隔マッピングを含む。間隔マッピングの原理は、2つの位置付けられたマーカー遺伝子座間の多数の位置においてQTLの有無についてモデルを試験することである。モデルを適合させ、最尤法によってその適合度を試験する。最尤理論は、QTLが2つの両アレル・マーカー間に位置するときに、遺伝子型(すなわち、倍加半数体子孫のAABB、AAbb、aaBB、aabb)がそれぞれ量的形質遺伝子座(QTL)の混合遺伝子型を含むと仮定している。最大尤度は、各マーカー・クラスに対して観察される量的形質分布に対して、最適近似を与えるQTLパラメータを検索する必要がある。モデルは、QTL効果に適合してもしなくても、観察された分布の尤度を計算することによって評価される。
本発明の一部の実施形態においては、処理ステップ210を、GeneHunterなどのプログラム中で実行されるLanderのアルゴリズムを用いて実施する。例えば、Kruglyak等、1996、Parametric and Nonparametric Linkage Analysis: A Unified Multipoint Approach、American Journal of Human Genetics 58: 1347〜1363、KzuglyakおよびLander、1998、Journal of Computational Biology 5: 1〜7; Kruglyak、1996、American Journal of Human Genetics 58、1347〜1363を参照されたい。そのような実施形態においては、系統サイズを抑えることによって非限定的なマーカーを使用することができる。別の実施形態においては、MENDELを使用する。(http://bimas.dcrt.nih.gov/linkage/Itools.html参照)。そのような実施形態においては、系統サイズを無限にすることができるが、使用可能なマーカーの数は制限される。当業者は、処理ステップ210に使用可能な他のいくつかのプログラムおよびアルゴリズムがあることを理解されたい。そのようなプログラムおよびアルゴリズムはすべて本発明の範囲に含まれる。
本発明の一部の実施形態においては、処理ステップ210(図2)は、最尤法によって得られるのとほぼ同じQTL位置および効果を推定する回帰マッピングである。回帰マッピングと最大尤度の近似は、遺伝マーカー地図に大きな間隙があり、または多数の欠損遺伝子型がある場所でのみ外れる。回帰マッピングは、表現型をQTL遺伝子型に対して回帰推定する以外は、基本的なQTL解析方法(コードされたマーカー遺伝子型に対する回帰)と本質的に同じである。QTL遺伝子型は未知であるので、最近接フランキング・マーカーから推定される確率によって置き換えられる。例えば、HaleyおよびKnott、1992、「A simple regression method for mapping quantitative trait loci in line crosses using flanking markers」、Heredity 69、315〜324を参照されたい。
多数の既知のプログラムを使用して、本発明のこの態様によって処理ステップ210(図2)を実施することができる。そのようなプログラムの1つは、MapMaker/QTLである。これは、MapMakerの同伴プログラムであり、オリジナルのQTLマッピングソフトウェアである。MapMaker/QTLは、標準の間隔マッピング(LanderおよびBotstein、同上)を用いて、F2または戻し交配データを分析する。別のそのようなプログラムは、QTL Cartographerである。これは、単一マーカー回帰、間隔マッピング(LanderおよびBotstein、同上)、およびコンポジット間隔マッピング(Zeng、1993、PNAS 90: 10972〜10976;およびZeng、1994、Genetics 136: 1457〜1468)を実行する。QTL Cartographerは、F2または戻し交配集団から分析することが可能である。QTL Cartographerは、http://statgen.ncsu.edu/qtlcart/cartographer.html (North Carolina State University)から入手可能である。処理ステップ114によって使用可能である別のプログラムはQgeneである。これは、単一マーカー回帰または間隔回帰のいずれかによってQTLマッピングを実施する(MartinezおよびCurnow 1994 Heredity 73: 198〜206)。Qgeneを用いて、(すべて近親交配から得られた)11の異なるタイプの集団を分析することができる。Qgeneは、http://www.qgene.org/から入手可能である。さらに別のプログラムはMapQTLである。これは、標準の間隔マッピング(LanderおよびBotstein、同上)、マルチプルQTLマッピング(MQM)(Jansen、1993、Genetics 135: 205〜211; Jansen、1994、Genetics 138: 871〜881)、およびノンパラメトリック・マッピング(Kruskal-Wallis順位和検定)を実行する。MapQTLは、非近交系統(他家受粉媒介者(cross pollinator))を含めて様々な系統タイプを分析することができる。MapQTLは、Plant Research International、Plant Research International、P.O. Box 16、6700 AA Wageningen、The Netherlands; http://www.plant.wageningen-ur.nl/default.asp?section=productsから入手可能である)。処理ステップ210の一部の実施形態において使用可能であるさらに別のプログラムは、QTLマッピング・プログラム(ManlyおよびOlson、1999、Mamm Genome 10: 327〜334)のMap Manager QTである。Map Manager QTは、単一マーカー回帰分析、回帰ベースのシンプル間隔マッピング(HaleyおよびKnott、1992、Heredity 69、315〜324)、コンポジット間隔マッピング(Zeng 1993、PNAS 90: 10972〜10976)、および並べ替え検定を実施する。Map Manager QTは、参考文献のManlyおよびOlson、1999、Overview of QTL mapping software and introduction to Map Manager QT、Mammalian Genome 10: 327〜334に説明されている。
処理ステップ210の一部の実施形態において使用可能であるさらに別のプログラムは、植物集団中のQTLをマップするMultiCross QTLである。MultiCross QTLは、線形回帰モデル手法を使用し、間隔マッピング、全マーカー・マッピング、コファクターを含むマルチプルQTLマッピングなどの様々な方法を扱う。このプログラムは、近交系種および非近交系種の多種多様な簡単なマッピング集団を扱うことができる。MultiCross QTLは、Unite de Biometrie et Intelligence Artificielle、INRA、31326 Castanet Tolosan、Franceから入手可能である。
処理ステップ210に使用することができるさらに別のプログラムは、QTL Cafeである。このプログラムは、F2交雑、バックロス(backrosses)、組換え近交系、倍加半数体系などの純系交配から誘導されるほとんどの集団を分析することができる。QTL Cafeは、Haley & Knottの隣接マーカー回帰ならびにMarker回帰のJava(登録商標)実装を取り入れ、複数のQTLを扱うことができる。このプログラムは、単一マーカーANOVA、マーカー回帰(KearseyおよびHyne、1994、Theor. Apps. Genet.、89: 698〜702)、および回帰による間隔マッピング(HaleyおよびKnott、1992、Heredity 69: 315〜324)の3タイプのQTL解析が可能である。QTL Cafeは、http://web.bham.ac.uk/g.g.seaton/から入手可能である。
処理ステップ210に使用することができるさらに別のプログラムは、間隔マッピング(HayashiおよびUkai、Theor. Appl. Genet. 87: 1021〜1027)または分散分析のいずれかによってQTL解析を実施するMAPLである。所与の自家生殖世代後のF2、戻し交配、F2または戻し交配から得られる組換え近交系、およびカイコF2を含めて異なるタイプの集団を分析することができる。計量的多次元尺度構成法によって、自動グループ化および多数のマーカーの順序付けが可能である。MAPLは、Institute of Statistical Genetics on Internet (ISGI)、Yasuo、UKAI、http://peach.ab.a.u-tokyo.ac.jp/~ukai/から入手可能である。
処理ステップ210に使用することができるさらに別のプログラムは、R/qtlである。このプログラムは、実験交配中のQTLをマップするインタラクティブ環境を提供する。R/qtlは、欠損遺伝子型データを扱う隠れマルコフ・モデル(HMM)技術を使用したものである。R/qtlは、戻し交配、異種交配、および相既知の(phase-known)四系交雑に対して、遺伝子型の決定誤差が存在することを考慮に入れて、多数のHMMアルゴリズムを実行する。R/qtlは、Haley-Knott回帰を含む間隔マッピングおよび多重代入法によって遺伝地図を推定し、遺伝子型の決定誤差を明らかにし、単一QTLゲノム走査および2つのQTLの二次元ゲノム走査を実行する。R/qtlは、Karl W. Broman、Johns Hopkins University、http://biosun0l.biostat.jhsph.edu/~kbroman/qtl/から入手可能である。
5.14. 関連解析
このセクションは、処理ステップ210(図2)の様々な実施形態に使用可能ないくつかの標準の関連解析を記述する。関連解析は、疾患と対立遺伝子が集団において相関するかどうかを試験するのに対し、連鎖解析(セクション5.13、同上)は、系統における遺伝に相関があるかどうかを試験する。いくつかの場合においては、関連解析は、集団からの無関係に罹患した個体と罹患していない個体との比較に基づく症例対照研究である。目的遺伝子の対立遺伝子Aは、罹患個体において対照個体よりもかなり高い頻度で存在する場合、量的表現型に関連すると言われている。関連解析は、任意のランダムなDNA多型に対して実施することができるが、形質との明確な生物学的関係を有する遺伝子の機能的に重要な変化に適用するときに最も意味がある。関連解析についてのより詳細な情報は、LanderおよびSchork、1994、Science 265: 2037に記載されている。
このセクションは、処理ステップ210(図2)の様々な実施形態に使用可能ないくつかの標準の関連解析を記述する。関連解析は、疾患と対立遺伝子が集団において相関するかどうかを試験するのに対し、連鎖解析(セクション5.13、同上)は、系統における遺伝に相関があるかどうかを試験する。いくつかの場合においては、関連解析は、集団からの無関係に罹患した個体と罹患していない個体との比較に基づく症例対照研究である。目的遺伝子の対立遺伝子Aは、罹患個体において対照個体よりもかなり高い頻度で存在する場合、量的表現型に関連すると言われている。関連解析は、任意のランダムなDNA多型に対して実施することができるが、形質との明確な生物学的関係を有する遺伝子の機能的に重要な変化に適用するときに最も意味がある。関連解析についてのより詳細な情報は、LanderおよびSchork、1994、Science 265: 2037に記載されている。
関連解析は、HLA複合体を自己免疫疾患の病因に関係付けるために使用されてきた。例えば、対立遺伝子HLA-B27は、強直性脊椎炎患者の90%に存在するが、通常集団ではわずか9%である。Ryder、Anderson、Svejgaard編、HLA and Disease Registry、Third Report (Munksgaard、Copenhagen、1979)を参照されたい。また、I型糖尿病、リウマチ様関節炎、多発性硬化症、セリアック病、全身性エリテマトーデスなどの疾患を含めていくつかがHLAと関連する。例えば、Braun、1979、HLA and Disease (CRC、Boca Raton、FL)を参照されたい。
本発明の一部の実施形態においては、処理ステップ210(図2)は、関連解析である。特定の分析においては、処理ステップ210は関連解析であり、対照グループが、(罹患家族に基づく対照方法(affected family-based control method)としても知られる)ハプロタイプ相対危険方法を用いて作成される。ハプロタイプ相対危険方法においては、対立遺伝子頻度に対して「内部対照」を作成する。「内部対照」の使用を説明するために、親の遺伝子型がA1/A2およびA3/A4であり、罹患個体の遺伝子型がA1/A3である例を考える。このとき、(罹患個体が受け継いでいない2つの対立遺伝子からなる)遺伝子型A2/A4は、民族の祖先に十分一致した「人為的対照」となる。「内部対照」の使用に関するさらなる詳細は、次の例示的な参考文献にある。FalkおよびRubinstein、1957、Ann. Hum. Genet. 51: 227; Thompson等、1989、Genet. Epidemiol. 6: 43、Ott、Analysis of Human Genetic Linkage、第1版、Baltimore、MD、John Hopkins University Press、127; TerwilligerおよびOtt、1992、Hum. Hered. 42: 337;およびKnapp等、1993、Am. J. Hum. Genet. 52: 1085。
5.15. 複合形質
本発明の一部の実施形態においては、「複合形質」という用語は、古典メンデル性遺伝を示さない任意の臨床形質Tを意味する。一部の実施形態においては、「複合形質」という用語は、2つ以上の遺伝子座による影響を受ける形質を意味する。一部の実施形態においては、「複合形質」という用語は、年齢、性別、習慣および環境を含めて、ただしこれらだけに限定されない1つまたは複数の要因に加えて、2つ以上の遺伝子座による影響を受ける形質を意味する。例えば、LanderおよびSchork、1994、Science 265: 2037を参照されたい。このような「複合」形質としては、心疾患、高血圧、糖尿病、肥満、癌、感染などに対する感受性があるが、これらだけに限定されない。複合形質は、同じ遺伝子型が(偶然、環境または他の遺伝子との相互作用の効果のために)異なる表現型を生じ、または異なる遺伝子型が同じ表現型を生じることによって、遺伝子型と表現型の単純な対応が壊れたときに発生する。
本発明の一部の実施形態においては、「複合形質」という用語は、古典メンデル性遺伝を示さない任意の臨床形質Tを意味する。一部の実施形態においては、「複合形質」という用語は、2つ以上の遺伝子座による影響を受ける形質を意味する。一部の実施形態においては、「複合形質」という用語は、年齢、性別、習慣および環境を含めて、ただしこれらだけに限定されない1つまたは複数の要因に加えて、2つ以上の遺伝子座による影響を受ける形質を意味する。例えば、LanderおよびSchork、1994、Science 265: 2037を参照されたい。このような「複合」形質としては、心疾患、高血圧、糖尿病、肥満、癌、感染などに対する感受性があるが、これらだけに限定されない。複合形質は、同じ遺伝子型が(偶然、環境または他の遺伝子との相互作用の効果のために)異なる表現型を生じ、または異なる遺伝子型が同じ表現型を生じることによって、遺伝子型と表現型の単純な対応が壊れたときに発生する。
一部の実施形態においては、複合形質は、不完全な浸透度、表現型模写および/または非遺伝的要因(例えば、年齢、性別、環境、および感情(affect)または他の遺伝子)のために、形質との完全な同時分離を示す遺伝マーカーが存在しない形質である。不完全な浸透度とは、素因となる対立遺伝子を受け継いでいない一部の個体が、疾患を顕在化させないことがあることを意味する。表現型模写とは、素因となる対立遺伝子を受け継いでいない一部の個体が、それにもかかわらず環境または偶然の原因により疾患に罹り得ることを意味する。したがって、所与の遺伝子座における遺伝子型は、疾患確率に影響を及ぼし得るが、その結果を完全には決定しない。各遺伝子型Gの疾患確率を規定する浸透度関数f(G)は、年齢、性別、環境、他の遺伝子などの非遺伝的要因にも左右され得る。例えば、BCRA1遺伝子座に突然変異を有する女性における40歳、55歳および80歳での乳癌のリスクは、37%、66%および85%であるのに対し、ノンキャリアにおいては0.4%、3%および8%である(Easton等、1993、Cancer Surv. 18: 1995; Ford等、1994、Lancet 343: 692)。このような場合においては、遺伝マッピングは、素因となる対立遺伝子が、一部の罹患していない個体に存在し、または一部の罹患している個体に存在しないことがあるという事実によって妨げられる。
一部の実施形態においては、いくつかの遺伝子のうちの任意の1つが同一の表現型を生じ得るので(遺伝的な不均一性)、複合形質が起こる。遺伝的な不均一性がある場合、2つの患者が、異なる遺伝的な理由のために同じ疾患に罹るかどうかは、遺伝子をマップするまで判定が困難なことがある。ヒトにおける遺伝的な不均一性のために生じる複雑性疾患の例は、多発性嚢胞腎(Reeders等、1987、Human Genetics 76: 348)、早期発症型アルツハイマー病(George-Hyslop等、1990、Nature 347: 194)、若年発症成人型糖尿病(Barbosa等、1976、Diabete Metab. 2: 160)、遺伝性非腺腫性大腸癌(Fishel等、1993、Cell 75: 1027)毛細血管拡張性運動失調症(JaspersおよびBootsma、1982、Proc. Natl. Acad. Sci. U.S.A. 79: 2641)、肥満、非アルコール性脂肪性肝炎(NASH)(James & Day、1998、J. Hepatol. 29: 495〜501)、非アルコール性脂肪肝(NAFL)(Younossi等、2002、Hepatology 35、746〜752)、および色素性乾皮症(De Weerd-Kastelein、Nat. New Biol. 238: 80)である。遺伝的な不均一性は、一部の家族においては染色体領域が疾患と同時分離し得るが、別の家族においては同時分離しないので、遺伝マッピングを妨げている。
さらに別の実施形態においては、複合形質は、ポリジーン遺伝現象のために生じる。ポリジーン遺伝は、形質が、複数の遺伝子における突然変異の同時発生を必要とするときに起こる。ヒトにおけるポリジーン遺伝の例は、網膜色素変性症の一形式であり、これは、ペルフェリン(perpherin)/RDSおよびROM1遺伝子における異型接合的な突然変異の存在を必要とする(Kajiwara等、1994、Science 264: 1604)。RDSおよびROM1によってコードされるタンパク質は、光受容体外部顔料膜性円板(photoreceptor outer pigment disc membranes)において相互作用すると考えられる。ポリジーン遺伝は、単一遺伝子座が、はっきり区別された形質または高い値の量的形質を生じることを厳密に必要とされないので、遺伝マッピングを複雑にする。
さらに別の実施形態においては、複合形質は、疾患を引き起こす対立遺伝子「D」の頻度が高いために起こる。集団において疾患を引き起こす対立遺伝子が高頻度で存在する場合、疾患を引き起こす対立遺伝子の頻度が高いと、簡単な形質でさえマップするのが困難になる。これは、複数の独立したDのコピーが系統中で分離し、一部の個体がDに対して同型接合的であり、2つの相同染色体のうちのいずれかが、影響を受けた子孫に受け継がれるので、近傍の遺伝マーカーにおいてDと特異的対立遺伝子の連鎖が見られない問題によって、予想される疾患のメンデル性遺伝パターンが混乱に陥るからである。遅発性アルツハイマー病は、疾患を引き起こす対立遺伝子が高頻度であることによって生じる問題の一例である。初期の連鎖解析によって、19q染色体との連鎖の弱い証拠が見出されたが、LODスコア(連鎖の対数尤度比)が比較的低いままであり、どんな精度でも連鎖の位置を正確に示すことが困難であったので、多数の観測者によって棄却された(Pericak-Vance等、1991、Am J. Hum. Genet. 48: 1034)。この混乱は、アポリポタンパク質E4型対立遺伝子が、染色体19上の主要な原因遺伝子であると考えられる発見によって、最終的に解決された。高頻度の対立遺伝子(ほとんどの集団において約16%)は、従来の連鎖解析を妨害した(Corder等、1993、Science 261: 921)。疾患を引き起こす対立遺伝子が高頻度であることは、遺伝的な不均一性が存在する場合には、さらに大きな問題になる。
5.16. 実施例
以下の実施例は、これまで記述してきた発明を説明するためのものであって、その記述を限定するためのものではない。
以下の実施例は、これまで記述してきた発明を説明するためのものであって、その記述を限定するためのものではない。
5.16.1. 遺伝子型と系統のデータの例示的な源
マウス。本発明の方法は、遺伝的変異をたどることができるあらゆる生きた生物に適用可能である。したがって、例として、遺伝子型および/または系統データ63(図1)が、遺伝子型決定情報および関連する臨床形質情報が提供される実験交配またはヒト集団から得られる。複雑なヒトの疾患に対するマウス・モデルのそのような実験計画の1つを図9に示す。図9においては、交配されてF1世代が得られる2つの親近交系がある。F1世代を異種交配してF2世代が得られる。この時点で、F2集団の遺伝子型が決定され、集団中の各F2に対する生理的表現型が決定されて、遺伝子型と系統のデータ68が得られる。これらの同じ決定が、親ならびにF1集団の採取試料に対してなされる。
マウス。本発明の方法は、遺伝的変異をたどることができるあらゆる生きた生物に適用可能である。したがって、例として、遺伝子型および/または系統データ63(図1)が、遺伝子型決定情報および関連する臨床形質情報が提供される実験交配またはヒト集団から得られる。複雑なヒトの疾患に対するマウス・モデルのそのような実験計画の1つを図9に示す。図9においては、交配されてF1世代が得られる2つの親近交系がある。F1世代を異種交配してF2世代が得られる。この時点で、F2集団の遺伝子型が決定され、集団中の各F2に対する生理的表現型が決定されて、遺伝子型と系統のデータ68が得られる。これらの同じ決定が、親ならびにF1集団の採取試料に対してなされる。
トウモロコシ。トウモロコシにおいてなされた実験的交配に基づくデータを図10に示す。この特定の交配は、F2世代が自殖してF3世代が得られる、図9とともに考察したマウス系とは異なる。次いで、F3植物のプールが同じF2親から誘導されて表現型情報(生理的表現型および遺伝子発現表現型)が得られ、一方、遺伝子型情報はF2世代から得られた。これは、わずかに異なるデータ解析統計方法を提供するものの、その概念は依然として同じである(遺伝子発現、遺伝学および他の表現型データを統合して、目的形質を制御する遺伝子および経路を特定する)。
QTL解析を実施するために、以下の仮定をした。Fy植物の形質は、FyのQTL遺伝子型によって決まると仮定した。すなわち、yQQ〜f(μ1,σ1 2)、yQq〜f(μ2,σ2 2)、yqq〜f(μ3,σ3 2)。QTLの推定位置では、QQの確率Pr(QQ)、Qqの確率Pr(Qq)、およびqqの確率Pr(qq)を、フランキング・マーカーにおける遺伝子型、マーカー地図および育種設計5を用いて推定した。
生物学的変化の性質のために、mRNA転写物量の遺伝的制御の基になる遺伝子は、相乗的に相互作用すると予想された。そのような遺伝子-遺伝子相互作用を検出するには多数の方法がある。そのような方法の1つは、2つの遺伝子の各々に対する連鎖情報を利用し、この情報が個体間でどのように相関するかを評価する(Cox等、1999、Loci on chromosomes 2 (NIDDM1) and 15 interact to increase susceptibility to diabetes in Mexican Americans、Nat Genet. 21(2): 213〜215を参照されたい)。N回のF2:3観測のi番目では、i番目のF2個体に対するマーカー・データおよびそれらのF3プールに対する表現型が与えられたとして、位置1におけるQTLの存在に対する尤度をY1iとする。同様に、位置2におけるQTLの存在に対応する情報をY2iとする。変数Y1iとY2iの相関を、
として推定する。
として推定する。
統計的有意性を、自由度がN-2のt-分布によって評価した。検定に対する公称P値を、この分布の確率変数が以下の検定統計量の絶対値を超える確率によって決定した。
可能なすべての遺伝子-遺伝子相互作用を評価するのに必要な大規模な試験のために、複数の試験補正(testing correction)を適用することが好ましい。そのような複数の試験補正方法の1つは、実施した総試験数を掛けることによって公称P値を調整するボンフェローニ補正である。
同一連鎖群に属さない2つの遺伝子座の連鎖情報間の相関が有意であれば、それらの相互作用機序に見通しが得られる。特に、遺伝子座の正の相関は、2つの遺伝子が、同じ生物学的経路または相互作用している生物学的経路において特定のmRNAの転写物量に影響を及ぼしていることを示している。一方、遺伝子座の負の相関は、1つの遺伝子が、1セットの観測におけるmRNA量の変化に影響を及ぼし、別個の遺伝子が、他の観測におけるmRNA量の変化に影響を及ぼしている疾患の不均一性の証拠となる。遺伝子-遺伝子相互作用の証拠のよりどころは、2つの試験遺伝子座の遺伝子型分布を検討することによってさらに評価される。試験位置の数が多いために、相互作用は、2つの遺伝子座間の遺伝子型が相関しているためである可能性がある。これは、遺伝子座が同一連鎖群に属さなくても、偶然に起こり得る。非独立性(non-independence)のための遺伝子型分布を、フィッシャーの正確確率検定によって試験した。非独立性を示さない遺伝子-遺伝子相互作用は、生物学的相互作用の強力な証拠と考えられた。
ヒト集団。本発明は、モデル・システムに制約されず、ヒト集団に直接適用することができる。例えば、Cephファミリーに対する系統および他の遺伝子型の情報が公的に利用可能であり(Center for Medical Genetics、Marshfield、Wisconsin)、これらのファミリー中の個体から得られるリンパ芽球状細胞系を、Coriell Institute for Medical Research (Camden、New Jersey)から購入することができ、本発明の発現プロファイリング実験に使用することができる。このセクションで考察する植物、マウスおよびヒト集団は、本発明に使用する遺伝子型および/または系統の非限定的な例である。
5.16.2. 転写を広範に制御する領域の特定
量的形質としてのすべての遺伝子のゲノム全体にわたる考察、データベース中の個々のQTL解析結果の表示、およびQTL解析を実施したすべての位置におけるすべての遺伝子の重複度を集計することによって、転写を極めて広範に制御する領域を特定することが可能になる。所与の生物の場合、これによって、発現されるほとんどの遺伝子にわたる基礎レベルの転写レベルに対して制御され得る領域を特定することが可能になる。図12は、76個の穂葉組織全体にわたって測定したトウモロコシのデータにおけるその有用性を強調したものである。このプロットには3つの曲線が示されている。x軸は、アレイ上の各遺伝子に対するQTL解析において考慮したトウモロコシ・ゲノム全体にわたるすべての間隔である。y軸は、指定位置においてあらかじめ規定されたLODスコアしきい値を超えるQTLを有する遺伝子数のカウントである。
量的形質としてのすべての遺伝子のゲノム全体にわたる考察、データベース中の個々のQTL解析結果の表示、およびQTL解析を実施したすべての位置におけるすべての遺伝子の重複度を集計することによって、転写を極めて広範に制御する領域を特定することが可能になる。所与の生物の場合、これによって、発現されるほとんどの遺伝子にわたる基礎レベルの転写レベルに対して制御され得る領域を特定することが可能になる。図12は、76個の穂葉組織全体にわたって測定したトウモロコシのデータにおけるその有用性を強調したものである。このプロットには3つの曲線が示されている。x軸は、アレイ上の各遺伝子に対するQTL解析において考慮したトウモロコシ・ゲノム全体にわたるすべての間隔である。y軸は、指定位置においてあらかじめ規定されたLODスコアしきい値を超えるQTLを有する遺伝子数のカウントである。
曲線1202は、指定位置におけるLODスコアが3.0〜6.0のQTL数のカウントであり、曲線1204は、4.0〜6.0のQTLのカウントであり、曲線1206は、6.0以上のQTLのカウントである。この分析では約25,000個の遺伝子を考慮した。これらの25,000個の遺伝子のうち、約15,000個は少なくとも1つのQTLがLODスコア4.0を超えた。図12に示すように、(15,000個のうち)ほぼ9,000個の遺伝子は、5番染色体上の単一遺伝子座においてQTLのLODが4.0〜6.0であった(図12の40のすぐ右の位置)。したがって、有意なQTLを有する遺伝子のほぼ60%が、5番染色体遺伝子座によって有意に制御される転写レベルであった。さらに、連鎖しきい値を6.0に増加させると、QTLホットスポットのすべてが消失し、最も有意な遺伝的サイン(genetic signature)を有するこれらの遺伝子が、QTLホットスポットの制御下にないことを示していることに注意されたい。
一般に、ゲノム全体のQTL解析によって、遺伝子は、2つのクラスに分割される。すなわち、1)中度の遺伝的サインを有し、少数の遺伝子座と中度の連鎖を有し、やはり同じQTLの適度な制御下にあるかなりの数の他の遺伝子と有意に相関していると考えられる遺伝子、および2)強い遺伝的サインを有するが、多数の他の遺伝子とあまり高度な相関を示さない遺伝子である。中度の遺伝的サインを有する遺伝子は、制御されている遺伝子である。強い遺伝的サインを有する遺伝子は、他の遺伝子に対して、制御されたクラスの遺伝子よりも独立に挙動する制御遺伝子である。これらのクラスは、生物学的経路および/または生物学的経路間の相互作用を制御する遺伝子を特定し、場合によっては小さな遺伝子セットによって伝達されるシグナルに単純に応答する遺伝子からこれらの遺伝子を分離する、本発明の方法によって提供される重要な有用性を証明するものである。
このセクションで与えられる結果は、マイクロアレイ・データのパターン認識の現状に直観的に反するものである。すなわち、現在の考え方は、有意に同時制御されるいくつかの関連条件にわたって、発現パターンを特定することである(クラスター分析および他のパターン検出スキームのほとんどすべての形式がこれに依存している)。一方、この実施例は、最も強く遺伝的に制御された遺伝子が、実際は他の遺伝子に最も類似しておらず、最も同時制御されないことを示している。これは主に、最も強く遺伝的に制御された遺伝子が、他のすべての遺伝子とやや独立に挙動するためである。本発明の方法は、このクラスの遺伝子の特定を可能にし、これらの遺伝子は、極めて多数の経路の適切な機能化に表面上は重要であるので、経路および疾患原因の制御をさらに解明するものである。
5.16.3. 小集団において遺伝的制御下にある遺伝子を同定する
本発明の方法を使用し、比較的小さなサイズの集団において、遺伝的制御下にある遺伝子を特定することによって、集団内の疾患用標的を特定することができる。例えば、図13は、4つのCephファミリーにわたる2,726個の遺伝子に対して実施される分離比分析のp値のヒストグラムである。有意なp値は、ファミリー中で転写レベルが分離している証拠があることを示しており、形質値に対する遺伝率成分が有意であることを示している。この場合、試験遺伝子の29%は、有意なp値を有し、偶然による期待値の5%をはるかに上回っている。個体全体の発現値をランダム化すると、0.05の有意水準を超える遺伝子は1%未満になり、やはり観測された29%は極めて有意であることを示唆している。このような小さな試料サイズを有するこれらの遺伝子の29%において有意な遺伝率が検出されたことから、これらの遺伝子は、おそらく、遺伝的なレベルでより高度に制御されており、これらの形質における変化は、検出可能な表現型を生じることが期待できるので、複雑性疾患形質のよりもっともな候補である。
本発明の方法を使用し、比較的小さなサイズの集団において、遺伝的制御下にある遺伝子を特定することによって、集団内の疾患用標的を特定することができる。例えば、図13は、4つのCephファミリーにわたる2,726個の遺伝子に対して実施される分離比分析のp値のヒストグラムである。有意なp値は、ファミリー中で転写レベルが分離している証拠があることを示しており、形質値に対する遺伝率成分が有意であることを示している。この場合、試験遺伝子の29%は、有意なp値を有し、偶然による期待値の5%をはるかに上回っている。個体全体の発現値をランダム化すると、0.05の有意水準を超える遺伝子は1%未満になり、やはり観測された29%は極めて有意であることを示唆している。このような小さな試料サイズを有するこれらの遺伝子の29%において有意な遺伝率が検出されたことから、これらの遺伝子は、おそらく、遺伝的なレベルでより高度に制御されており、これらの形質における変化は、検出可能な表現型を生じることが期待できるので、複雑性疾患形質のよりもっともな候補である。
6. 引用文献
本明細書で引用したすべての文献を、各個々の出版物または特許または特許出願が具体的かつ個別に参照によりその全体が本明細書に援用されるのと同じ程度に、その全体を参照により本明細書に援用する。
本明細書で引用したすべての文献を、各個々の出版物または特許または特許出願が具体的かつ個別に参照によりその全体が本明細書に援用されるのと同じ程度に、その全体を参照により本明細書に援用する。
本発明は、コンピュータ読み取り可能な記憶媒体に埋め込まれたコンピュータ・プログラム機構を含むコンピュータ・プログラム製品として実施することができる。例えば、このコンピュータ・プログラム製品は、図1に示すプログラム・モジュールを含むことができる。これらのプログラム・モジュールは、CD-ROM、磁気ディスク記憶装置、または任意の他のコンピュータ読み取り可能なデータもしくはプログラム記憶装置に保存することができる。コンピュータ・プログラム製品中のソフトウェア・モジュールは、インターネット経由、または搬送波上の(ソフトウェア・モジュールが埋め込まれた)コンピュータ・データ・シグナルの送信によって電子的に配布することもできる。
当業者に明らかなように、本発明の精神および範囲から逸脱することなく、本発明の多数の改変形態および変更形態を作成することができる。本明細書に記載する具体的実施形態は、例としてのみ提供されるものであって、本発明は、このような特許請求の範囲の権利が与えられるあらゆる等価物とともに、添付した特許請求の範囲の用語によってのみ限定されるものである。
図面のいくつかの図を通して、同じ参照番号は対応する部品を示す。
Claims (163)
- ある種内の生物学的経路のメンバーを特定する方法であって、
(a)複数の量的形質遺伝子座分析から得られる量的形質遺伝子座データをクラスター化して量的形質遺伝子座相互作用地図を作成するステップと、
ここで、前記量的形質遺伝子座データを作成するために、遺伝マーカー地図および量的形質を用いて、前記種のゲノム中の複数の遺伝子中の1つの遺伝子について、前記複数の量的形質遺伝子座分析中の各量的形質遺伝子座分析を実施し、その場合、各量的形質遺伝子座分析では、前記量的形質が、前記種のメンバーである複数の生物中の各生物に対する、前記量的形質遺伝子座分析を実施した前記遺伝子の発現統計量を含み、
前記遺伝マーカー地図は前記種と関連する1セットの遺伝マーカーから構築される、
(b)前記量的形質遺伝子座相互作用地図中で遺伝子のクラスターを特定し、それによって、前記生物学的経路のメンバーを特定するステップとを含む方法。 - 前記クラスター化の前に、前記複数の生物に関連する前記遺伝マーカー・セットから前記遺伝マーカー地図を構築するステップをさらに含む、請求項1に記載の方法。
- 前記クラスター化の前に、前記複数の量的形質遺伝子座分析中の前記各量的形質遺伝子座分析を実施するステップをさらに含む、請求項1に記載の方法。
- 前記実施ステップの前に、前記複数の生物に関連する前記遺伝マーカー・セットから前記遺伝マーカー地図を構築するステップをさらに含む、請求項3に記載の方法。
- 前記複数の生物中の各生物に由来する前記遺伝子の発現レベル測定値を変換するステップによって、前記遺伝子の前記発現統計量を計算する、請求項1に記載の方法。
- 前記変換ステップが、前記発現統計量を形成するために前記遺伝子の前記発現レベル測定値を正規化するステップを含む、請求項5に記載の方法。
- 前記発現統計量を形成するために前記遺伝子の前記発現レベル測定値を正規化するステップを、強度のZ-スコア、強度中央値、強度中央値の対数、強度のZ-スコア標準偏差対数、対数強度のZ-スコア平均絶対偏差、較正DNA遺伝子セット、ユーザー正規化遺伝子セット、強度中央値の比率補正および強度バックグラウンド補正からなる群から選択される正規化技術によって実施する、請求項6に記載の方法。
- 前記各量的形質遺伝子座分析が、
(i)前記複数の生物のゲノムの染色体中の位置と、前記量的形質遺伝子座分析に使用される前記量的形質との関連を試験するステップと、
(ii)前記染色体中の位置をある量だけ進めるステップと、
(iii)前記染色体の端部に到達するまでステップ(i)および(ii)を繰り返すステップとを含む、請求項1に記載の方法。 - 前記ゲノムの各染色体に対してステップ(i)〜(iii)を繰り返す、請求項8に記載の方法。
- 前記量が100センチモルガン未満である、請求項8に記載の方法。
- 前記量が10センチモルガン未満である、請求項8に記載の方法。
- 前記量が5センチモルガン未満である、請求項8に記載の方法。
- 前記量が2.5センチモルガン未満である、請求項8に記載の方法。
- 前記試験ステップが、連鎖解析または関連解析を実施するステップを含む、請求項8に記載の方法。
- それぞれの量的形質遺伝子座分析から作成される前記量的形質遺伝子座データが、前記各位置において計算されるオッズ・スコアの対数を含む、請求項1に記載の方法。
- 前記複数の量的形質遺伝子座分析中の各量的形質遺伝子座分析によって、量的形質遺伝子座ベクトルが生成され、
前記量的形質遺伝子座ベクトルが、前記量的形質遺伝子座分析を実施した遺伝子を表し、
前記量的形質遺伝子座ベクトルが、前記量的形質遺伝子座分析によって試験された各位置に対する統計スコアを含み、
前記統計スコアが、(i)前記遺伝子の前記発現統計量と(ii)前記位置における前記複数の生物中のゲノムの変化との相関を表す、請求項1に記載の方法。 - 前記統計スコアが、オッズ・スコアの対数である、請求項16に記載の方法。
- 前記遺伝子のクラスターが、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトル間で計算される全相関係数の75%よりも高い相関係数を、前記量的形質遺伝子座相互作用地図中の前記中の別の遺伝子分析ベクトルと共有する、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトルによって表される遺伝子である、請求項16に記載の方法。
- 前記遺伝子のクラスターが、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトル間で計算される全相関係数の85%よりも高い相関係数を、前記量的形質遺伝子座相互作用地図中の前記中の別の遺伝子分析ベクトルと共有する、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトルによって表される遺伝子である、請求項16に記載の方法。
- 前記遺伝子のクラスターが、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトル間で計算される全相関係数の95%よりも高い相関係数を、前記量的形質遺伝子座相互作用地図中の前記中の別の遺伝子分析ベクトルと共有する、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトルによって表される遺伝子である、請求項16に記載の方法。
- 前記クラスター化ステップ(a)が、前記各量的形質遺伝子座ベクトルをクラスター化するステップを含む、請求項16に記載の方法。
- 類似尺度が、前記クラスター化ステップ(a)中にあり、前記類似尺度が、ユークリッド距離、ユークリッド平方距離、ユークリッド平方和、マンハッタン計量、ピアソン相関係数または二乗ピアソン相関係数であり、前記類似尺度が量的形質遺伝子座ベクトル対間で計算される、請求項1に記載の方法。
- 前記クラスター化ステップ(a)が、ノンパラメトリックなクラスタリング技術を用いて実施される、請求項1に記載の方法。
- 前記クラスター化ステップ(a)が、階層型クラスタリング技術を適用するステップ、k平均技術を適用するステップ、ファジーk平均技術を適用するステップ、Jarvis-Patrickクラスタリングを適用するステップ、自己組織化地図技術を適用するステップ、またはニューラル・ネットワーク技術を適用するステップを含む、請求項1に記載の方法。
- 前記クラスター化ステップ(a)が、統合型クラスタリング手順を適用するステップを含む、請求項1に記載の方法。
- 前記統合型クラスタリング手順が、最短距離アルゴリズム、最長距離アルゴリズム、平均連結アルゴリズム、セントロイド・アルゴリズムまたは平方和アルゴリズムである、請求項25に記載の方法。
- 前記クラスター化ステップ(a)が、分割型クラスタリング手順を適用するステップを含む、請求項1に記載の方法。
- 遺伝子発現クラスター地図を構築するステップであって、前記遺伝子発現クラスター地図が複数の遺伝子発現ベクトルを含み、前記複数の遺伝子発現ベクトル中の各遺伝子発現ベクトルが前記複数の遺伝子中の1つの遺伝子の発現統計量を含むステップをさらに含む、請求項1に記載の方法。
- 前記遺伝子発現クラスター地図を構築する前記ステップが、
複数の相関係数を計算するステップであって、前記複数の相関係数中の各相関係数を前記複数の遺伝子発現ベクトル中の一対の遺伝子発現ベクトル間で計算するステップと、
前記複数の遺伝子発現ベクトルを前記複数の相関係数を用いてクラスター化するステップとを含む、請求項28に記載の方法。 - 前記複数の相関係数中の各相関係数がピアソン相関係数である、請求項29に記載の方法。
- 前記複数の遺伝子発現ベクトルをクラスター化する前記ステップが、
階層型クラスタリング技術を適用するステップ、k平均技術を適用するステップ、ファジーk平均技術を適用するステップ、Jarvis-Patrickクラスタリングを適用するステップ、自己組織化地図技術を適用するステップ、またはニューラル・ネットワーク技術を適用するステップを含む、請求項29に記載の方法。 - 前記複数の遺伝子発現ベクトルをクラスター化する前記ステップが、統合型クラスタリング手順を適用するステップを含む、請求項29に記載の方法。
- 前記統合型クラスタリング手順が、最短距離アルゴリズム、最長距離アルゴリズム、平均連結アルゴリズム、セントロイド・アルゴリズムまたは平方和アルゴリズムである、請求項32に記載の方法。
- 前記複数の遺伝子発現ベクトルをクラスター化する前記ステップが、分割型クラスタリング手順を適用するステップを含む、請求項29に記載の方法。
- 前記遺伝子発現クラスター地図を構築する前記ステップが、
複数の尺度を計算するステップであって、前記複数の尺度中の各尺度を前記複数の遺伝子発現ベクトル中の遺伝子発現ベクトル対間で計算するステップと、
前記遺伝子発現クラスター地図を作成するために、前記複数の尺度に基づいて前記複数の遺伝子発現ベクトルをクラスター化するステップとを含む、請求項28に記載の方法。 - 前記複数の尺度中の各尺度が、ユークリッド距離、ユークリッド平方距離、ユークリッド平方和、マンハッタン計量、ピアソン相関係数および二乗ピアソン相関係数からなる群から選択される、請求項35に記載の方法。
- 前記複数の遺伝子発現ベクトルをクラスター化する前記ステップが、階層型クラスタリング技術を適用するステップ、k平均技術を適用するステップ、ファジーk平均技術を適用するステップ、Jarvis-Patrickクラスタリングを適用するステップ、自己組織化地図技術を適用するステップ、またはニューラル・ネットワーク技術を適用するステップを含む、請求項35に記載の方法。
- 前記複数の遺伝子発現ベクトルをクラスター化する前記ステップが、統合型クラスタリング手順を適用するステップを含む、請求項35に記載の方法。
- 前記統合型クラスタリング手順が、最短距離アルゴリズム、最長距離アルゴリズム、平均連結アルゴリズム、セントロイド・アルゴリズムまたは平方和アルゴリズムである、請求項38に記載の方法。
- 前記複数の遺伝子発現ベクトルをクラスター化する前記ステップが、分割型クラスタリング手順を適用するステップを含む、請求項38に記載の方法。
- 前記方法が、さらに、
(c)前記生物学的経路に関連する臨床形質を決定するステップを含む、請求項1に記載の方法。 - 前記決定ステップ(c)が、前記臨床形質および前記遺伝マーカー地図を用いて量的形質遺伝子座分析を実施するステップを含み、前記臨床形質を用いた量的形質遺伝子座分析から生じるQTLが、前記遺伝子クラスターと関連するQTLと共存するときに、前記臨床形質が前記生物学的経路と関連付けられる、請求項41に記載の方法。
- 前記決定ステップ(c)が、前記遺伝子クラスター中の遺伝子の遺伝子注釈情報を、前記臨床形質と相関させるステップを含む、請求項41に記載の方法。
- 前記決定ステップ(c)が、前記臨床形質および前記遺伝マーカー地図を用いて量的形質遺伝子座分析を実施するステップを含み、前記臨床形質を用いた量的形質遺伝子座分析の結果が、前記遺伝子クラスターとともにクラスターを形成するとき、前記臨床形質が前記生物学的経路と関連付けられる、請求項41に記載の方法。
- 前記方法が、さらに、前記遺伝子クラスターを多変量解析に使用して、前記遺伝子が遺伝的に相互作用しているかどうかを明らかにするステップを含む、請求項1に記載の方法。
- 前記複数の遺伝子が少なくとも5個の遺伝子を含む、請求項1に記載の方法。
- 前記複数の遺伝子が少なくとも100個の遺伝子を含む、請求項1に記載の方法。
- 前記複数の遺伝子が少なくとも1000個の遺伝子を含む、請求項1に記載の方法。
- 前記複数の遺伝子が少なくとも20,000個の遺伝子を含む、請求項1に記載の方法。
- 前記遺伝子の前記発現レベル測定値を、前記複数の生物中の各生物に由来する1つまたは複数の細胞中の前記遺伝子によってコードされる細胞構成成分の量を測定することによって決定する、請求項5に記載の方法。
- 前記細胞構成成分の量が、前記各生物の前記1つまたは複数の細胞中に存在するRNA種、あるいは前記各生物の前記1つまたは複数の細胞によって分泌されるRNA種の存在量を含む、請求項50に記載の方法。
- 前記存在量を、前記1つまたは複数の細胞から得られるRNA種、あるいは前記RNA種から誘導される核酸と遺伝子転写物アレイを接触させることによって測定し、前記遺伝子転写物アレイが、核酸または核酸模倣物が付着した、位置的にアドレス可能な表面を備え、前記核酸または核酸模倣物が前記RNA種、または前記RNA種から誘導される核酸とハイブリッド形成可能である、請求項51に記載の方法。
- 前記遺伝マーカー・セットが、前記複数の生物中の各生物に対する一塩基多型(SNP)、ミクロサテライト・マーカー、制限断片長多型、短鎖縦列反復、DNAメチル化マーカー、配列長多型、ランダム増幅多型DNA、増幅断片長多型または単純配列反復を含む、請求項1に記載の方法。
- 系統データを前記構築ステップに使用し、前記系統データが、前記複数の生物中の各生物間の1つまたは複数の関係を示す、請求項2に記載の方法。
- 前記種がヒトである、請求項1に記載の方法。
- 前記複数の生物がF2集団を含み、前記複数の生物中の各生物間の前記1つまたは複数の関係によって、前記複数の生物中のどの生物が前記F2集団のメンバーであるかが示される、請求項1に記載の方法。
- コンピュータ読み取り可能な記憶媒体およびその中に埋め込まれたコンピュータ・プログラム機構を備えた、コンピュータ・システムとともに使用されるコンピュータ・プログラム製品であって、前記コンピュータ・プログラム機構が、
ある種内の生物学的経路のメンバーを特定する特定モジュールを含み、前記特定モジュールが、
(a)複数の量的形質遺伝子座分析から得られる量的形質遺伝子座データをクラスター化して、量的形質遺伝子座相互作用地図を作成する命令と、
ここで、前記量的形質遺伝子座データを作成するために、遺伝マーカー地図および量的形質を用いて、前記種のゲノム中の複数の遺伝子中の1つの遺伝子について、前記複数の量的形質遺伝子座分析中の各量的形質遺伝子座分析を実施し、各量的形質遺伝子座分析では、前記量的形質が、前記種のメンバーである複数の生物中の各生物に対する、前記量的形質遺伝子座分析を実施した前記遺伝子の発現統計量を含み、
前記遺伝マーカー地図は前記種と関連する1セットの遺伝マーカーから構築される、
(b)前記量的形質遺伝子座相互作用地図中で遺伝子のクラスターを特定し、それによって、前記生物学的経路のメンバーを特定する命令とを含む、コンピュータ・プログラム製品。 - 前記特定モジュールが、さらに、前記クラスター化命令の前に実行される、前記複数の生物に関連する前記遺伝マーカー・セットから前記遺伝マーカー地図を構築する命令を含む、請求項57に記載のコンピュータ・プログラム製品。
- 前記特定モジュールが、さらに、前記クラスター化命令の前に実行される、前記複数の量的形質遺伝子座分析中の前記各量的形質遺伝子座分析を実施する命令を含む、請求項57に記載のコンピュータ・プログラム製品。
- 前記特定モジュールが、さらに、前記実施命令の前に実行される、前記複数の生物に関連する前記遺伝マーカー・セットから前記遺伝マーカー地図を構築する命令を含む、請求項57に記載のコンピュータ・プログラム製品。
- 前記遺伝子の前記発現統計量を、前記複数の生物中の各生物に由来する前記遺伝子の発現レベル測定値を変換するステップによって計算する、請求項57に記載のコンピュータ・プログラム製品。
- 前記変換ステップが、前記発現統計量を形成するために、前記遺伝子の前記発現レベル測定値を正規化するステップを含む、請求項61に記載のコンピュータ・プログラム製品。
- 前記発現統計量を形成するために、前記遺伝子の前記発現レベル測定値を正規化するステップを、強度のZ-スコア、強度中央値、強度中央値の対数、強度のZ-スコア標準偏差対数、対数強度のZ-スコア平均絶対偏差、較正DNA遺伝子セット、ユーザー正規化遺伝子セット、強度中央値の比率補正および強度バックグラウンド補正からなる群から選択される正規化技術によって実施する、請求項61に記載のコンピュータ・プログラム製品。
- 前記各量的形質遺伝子座分析が、
(i)前記複数の生物のゲノムの染色体中の位置と、前記量的形質遺伝子座分析に使用される前記量的形質との関連を試験するステップと、
(ii)前記染色体中の位置をある量だけ進めるステップと、
(iii)前記染色体の端部に到達するまでステップ(i)および(ii)を繰り返すステップとを含む、請求項57に記載のコンピュータ・プログラム製品。 - 前記ゲノムの各染色体に対してステップ(i)〜(iii)を繰り返す、請求項64に記載のコンピュータ・プログラム製品。
- 前記量が100センチモルガン未満である、請求項64に記載のコンピュータ・プログラム製品。
- 前記量が10センチモルガン未満である、請求項64に記載のコンピュータ・プログラム製品。
- 前記量が5センチモルガン未満である、請求項64に記載のコンピュータ・プログラム製品。
- 前記量が2.5センチモルガン未満である、請求項64に記載のコンピュータ・プログラム製品。
- 前記試験ステップが、連鎖解析または関連解析を実施するステップを含む、請求項64に記載のコンピュータ・プログラム製品。
- それぞれの量的形質遺伝子座分析から作成される前記量的形質遺伝子座データが、前記各位置において計算されるオッズ・スコアの対数を含む、請求項57に記載のコンピュータ・プログラム製品。
- 前記複数の量的形質遺伝子座分析中の各量的形質遺伝子座分析によって、量的形質遺伝子座ベクトルが生成され、
前記量的形質遺伝子座ベクトルが、前記量的形質遺伝子座分析を実施した遺伝子であり、
前記量的形質遺伝子座ベクトルが、前記量的形質遺伝子座分析によって試験される各位置に対する統計スコアを含み、
前記統計スコアが、(i)前記遺伝子の前記発現統計量と(ii)前記位置における前記複数の生物中のゲノムの変化との相関を表す、請求項57に記載のコンピュータ・プログラム製品。 - 前記統計スコアが、オッズ・スコアの対数である、請求項72に記載のコンピュータ・プログラム製品。
- 前記遺伝子のクラスターが、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトル間で計算される全相関係数の75%よりも高い相関係数を、前記量的形質遺伝子座相互作用地図中の前記中の別の遺伝子分析ベクトルと共有する、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトルによって表される遺伝子である、請求項72に記載のコンピュータ・プログラム製品。
- 前記遺伝子のクラスターが、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトル間で計算される全相関係数の85%よりも高い相関係数を、前記量的形質遺伝子座相互作用地図中の前記中の別の遺伝子分析ベクトルと共有する、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトルによって表される遺伝子である、請求項72に記載のコンピュータ・プログラム製品。
- 前記遺伝子のクラスターが、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトル間で計算される全相関係数の95%よりも高い相関係数を、前記量的形質遺伝子座相互作用地図中の前記中の別の遺伝子分析ベクトルと共有する、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトルによって表される遺伝子である、請求項72に記載のコンピュータ・プログラム製品。
- 前記クラスター化ステップ(a)が、前記各量的形質遺伝子座ベクトルをクラスター化するステップを含む、請求項72に記載のコンピュータ・プログラム製品。
- 類似尺度が、前記クラスター化ステップ(a)中にあり、前記類似尺度が、ユークリッド距離、ユークリッド平方距離、ユークリッド平方和、マンハッタン計量、ピアソン相関係数または二乗ピアソン相関係数であり、前記類似尺度が量的形質遺伝子座ベクトル対間で計算される、請求項57に記載のコンピュータ・プログラム製品。
- クラスター化の前記命令を、ノンパラメトリックなクラスター化技術を用いて実施する、請求項57に記載のコンピュータ・プログラム製品。
- クラスター化の前記命令が、階層型クラスタリング技術を適用する命令、k平均技術を適用する命令、ファジーk平均技術を適用する命令、Jarvis-Patrickクラスタリングを適用する命令、自己組織化地図技術を適用する命令、またはニューラル・ネットワーク技術を適用する命令を含む、請求項57に記載のコンピュータ・プログラム製品。
- クラスター化の前記命令が、統合型クラスタリング手順を適用する命令を含む、請求項57に記載のコンピュータ・プログラム製品。
- 前記統合型クラスタリング手順が、最短距離アルゴリズム、最長距離アルゴリズム、平均リンケージ・アルゴリズム、セントロイド・アルゴリズムまたは平方和アルゴリズムである、請求項81に記載のコンピュータ・プログラム製品。
- クラスター化の前記命令が、分割型クラスタリング手順を適用する命令を含む、請求項57に記載のコンピュータ・プログラム製品。
- 前記特定が、さらに、遺伝子発現クラスター地図を構築する命令であって、前記遺伝子発現クラスター地図が複数の遺伝子発現ベクトルを含み、前記複数の遺伝子発現ベクトル中の各遺伝子発現ベクトルが前記複数の遺伝子中の1つの遺伝子の発現統計量を含む命令を含む、請求項57に記載のコンピュータ・プログラム製品。
- 前記遺伝子発現クラスター地図を構築する前記命令が、
複数の相関係数を計算する命令であって、前記複数の相関係数中の各相関係数を、前記複数の遺伝子発現ベクトル中の一対の遺伝子発現ベクトル間で計算する命令と、
前記複数の遺伝子発現ベクトルを前記複数の相関係数を用いてクラスター化する命令とを含む、請求項84に記載のコンピュータ・プログラム製品。 - 前記複数の相関係数中の各相関係数がピアソン相関係数である、請求項85に記載のコンピュータ・プログラム製品。
- 前記複数の遺伝子発現ベクトルをクラスター化する前記命令が、階層型クラスタリング技術を適用する命令、k平均技術を適用する命令、ファジーk平均技術を適用する命令、Jarvis-Patrickクラスタリングを適用する命令、自己組織化地図技術を適用する命令、またはニューラル・ネットワーク技術を適用する命令を含む、請求項85に記載のコンピュータ・プログラム製品。
- 前記複数の遺伝子発現ベクトルをクラスター化する前記命令が、統合型クラスタリング手順を適用する命令を含む、請求項85に記載のコンピュータ・プログラム製品。
- 前記統合型クラスタリング手順が、最短距離アルゴリズム、最長距離アルゴリズム、平均連結アルゴリズム、セントロイド・アルゴリズムまたは平方和アルゴリズムである、請求項88に記載のコンピュータ・プログラム製品。
- 前記複数の遺伝子発現ベクトルをクラスター化する前記命令が、分割型クラスタリング手順を適用する命令を含む、請求項88に記載のコンピュータ・プログラム製品。
- 前記遺伝子発現クラスター地図を構築する前記命令が、
複数の尺度を計算する命令であって、前記複数の尺度中の各尺度を、前記複数の遺伝子発現ベクトル中の遺伝子発現ベクトル対間で計算する命令と、
前記遺伝子発現クラスター地図を作成するために、前記複数の尺度に基づいて、前記複数の遺伝子発現ベクトルをクラスター化する命令とを含む、請求項88に記載のコンピュータ・プログラム製品。 - 前記複数の尺度中の各尺度が、ユークリッド距離、ユークリッド平方距離、ユークリッド平方和、マンハッタン計量、ピアソン相関係数および二乗ピアソン相関係数からなる群から選択される、請求項91に記載のコンピュータ・プログラム製品。
- 前記複数の遺伝子発現ベクトルをクラスター化する前記命令が、階層型クラスタリング技術を適用する命令、k平均技術を適用する命令、ファジーk平均技術を適用する命令、Jarvis-Patrickクラスタリングを適用する命令、自己組織化地図技術を適用する命令、またはニューラル・ネットワーク技術を適用する命令を含む、請求項91に記載のコンピュータ・プログラム製品。
- 前記複数の遺伝子発現ベクトルをクラスター化する前記命令が、統合型クラスタリング手順を適用する命令を含む、請求項91に記載のコンピュータ・プログラム製品。
- 前記統合型クラスタリング手順が、最短距離アルゴリズム、最長距離アルゴリズム、平均連結アルゴリズム、セントロイド・アルゴリズムまたは平方和アルゴリズムである、請求項94に記載のコンピュータ・プログラム製品。
- 前記複数の遺伝子発現ベクトルをクラスター化する前記命令が、分割型クラスタリング手順を適用する命令を含む、請求項94に記載のコンピュータ・プログラム製品。
- 前記特定モジュールが、さらに、
(c)前記生物学的経路に関連する臨床形質を決定する命令を含む、請求項57に記載のコンピュータ・プログラム製品。 - 前記決定命令(c)が、前記臨床形質および前記遺伝マーカー地図を用いて量的形質遺伝子座分析を実施する命令を含み、前記臨床形質を用いた量的形質遺伝子座分析から生じるQTLが、前記遺伝子クラスターと関連するQTLと共存するときに、前記臨床形質が前記生物学的経路と関連付けられる、請求項97に記載のコンピュータ・プログラム製品。
- 前記決定命令(c)が、前記遺伝子クラスター中の遺伝子に対する遺伝子注釈情報を前記臨床形質と相関させる命令を含む、請求項98に記載のコンピュータ・プログラム製品。
- 前記決定命令(c)が、前記臨床形質および前記遺伝マーカー地図を用いて量的形質遺伝子座分析を実施する命令を含み、前記臨床形質を用いた量的形質遺伝子座分析の結果が、前記遺伝子クラスターとともにクラスターを形成するときに、前記臨床形質が前記生物学的経路と関連付けられる、請求項97に記載のコンピュータ・プログラム製品。
- 前記特定モジュールが、さらに、前記遺伝子クラスターを多変量解析に使用して、前記遺伝子が遺伝的に相互作用しているかどうかを明らかにする命令を含む、請求項57に記載のコンピュータ・プログラム製品。
- 前記複数の遺伝子が少なくとも5個の遺伝子を含む、請求項57に記載のコンピュータ・プログラム製品。
- 前記複数の遺伝子が少なくとも100個の遺伝子を含む、請求項57に記載のコンピュータ・プログラム製品。
- 前記複数の遺伝子が少なくとも1000個の遺伝子を含む、請求項57に記載のコンピュータ・プログラム製品。
- 前記複数の遺伝子が少なくとも20,000個の遺伝子を含む、請求項57に記載のコンピュータ・プログラム製品。
- 前記遺伝マーカー・セットが、前記複数の生物中の各生物に対する一塩基多型(SNP)、ミクロサテライト・マーカー、制限断片長多型、短鎖縦列反復、DNAメチル化マーカー、配列長多型、ランダム増幅多型DNA、増幅断片長多型または単純配列反復を含む、請求項57に記載のコンピュータ・プログラム製品。
- 前記構築命令によって系統データが使用され、前記系統データが前記複数の生物中の各生物間の1つまたは複数の関係を示めす、請求項58に記載のコンピュータ・プログラム製品。
- 前記種がヒトである、請求項57に記載のコンピュータ・プログラム製品。
- 前記複数の生物がF2集団を含み、前記複数の生物中の各生物間の前記1つまたは複数の関係によって、前記複数の生物中のどの生物が前記F2集団のメンバーであるかが示される、請求項57に記載のコンピュータ・プログラム製品。
- 複数の生物中の1つまたは複数の生物によって示される形質に遺伝子を関連付けるコンピュータ・システムであって、
中央処理装置と、
前記中央処理装置に接続され、ある種内の生物学的経路のメンバーを特定する前記特定モジュールを保存するメモリとを備え、前記特定モジュールが、
複数の量的形質遺伝子座分析から得られる量的形質遺伝子座データをクラスター化して、量的形質遺伝子座相互作用地図を作成するクラスタリング・モジュールを備え、
(a)複数の量的形質遺伝子座分析から得られる量的形質遺伝子座データをクラスター化して量的形質遺伝子座相互作用地図を作成する命令と、
ここで、前記量的形質遺伝子座データを作成するために、遺伝マーカー地図および量的形質を用いて、前記種のゲノム中の複数の遺伝子中の1つの遺伝子について、前記複数の量的形質遺伝子座分析中の各量的形質遺伝子座分析を実施し、各量的形質遺伝子座分析では、前記量的形質が、前記種のメンバーである複数の生物中の各生物に対する、量的形質遺伝子座分析を実施した遺伝子の発現統計量を含み、
前記遺伝マーカー地図は、前記種と関連する1セットの遺伝マーカーから構築される
(b)前記量的形質遺伝子座相互作用地図中で遺伝子のクラスターを特定し、それによって、前記生物学的経路のメンバーを特定する命令であるコンピュータ・システム。 - 前記特定モジュールが、さらに、前記クラスター化命令の前に実行される、前記複数の生物に関連する前記遺伝マーカー・セットから前記遺伝マーカー地図を構築する命令を含む、請求項110に記載のコンピュータ・システム。
- 前記特定モジュールが、さらに、前記クラスター化命令の前に実行される、前記複数の量的形質遺伝子座分析中の前記各量的形質遺伝子座分析を実施する命令を含む、請求項110に記載のコンピュータ・システム。
- 前記特定モジュールが、さらに、前記実施命令の前に実行される、前記複数の生物に関連する前記遺伝マーカー・セットから前記遺伝マーカー地図を構築する命令を含む、請求項110に記載のコンピュータ・システム。
- 前記遺伝子の前記発現統計量を、前記複数の生物中の各生物に由来する前記遺伝子の発現レベル測定値を変換するステップによって計算する、請求項110に記載のコンピュータ・システム。
- 前記変換ステップが、前記発現統計量を形成するために、前記遺伝子の前記発現レベル測定値を正規化するステップを含む、請求項114に記載のコンピュータ・システム。
- 前記発現統計量を形成するために、前記遺伝子の前記発現レベル測定値を正規化するステップを、強度のZ-スコア、強度中央値、強度中央値の対数、強度のZ-スコア標準偏差対数、対数強度のZ-スコア平均絶対偏差、較正DNA遺伝子セット、ユーザー正規化遺伝子セット、強度中央値の比率補正および強度バックグラウンド補正からなる群から選択される正規化技術によって実施する、請求項114に記載のコンピュータ・システム。
- 前記各量的形質遺伝子座分析が、
(i)前記複数の生物のゲノムの染色体中の位置と、前記量的形質遺伝子座分析に使用される前記量的形質との関連を試験するステップと、
(ii)前記染色体中の位置をある量だけ進めるステップと、
(iii)前記染色体の端部に到達するまでステップ(i)および(ii)を繰り返すステップとを含む、請求項110に記載のコンピュータ・システム。 - 前記ゲノムの各染色体に対してステップ(i)〜(iii)を繰り返す、請求項117に記載のコンピュータ・システム。
- 前記量が100センチモルガン未満である、請求項117に記載のコンピュータ・システム。
- 前記量が10センチモルガン未満である、請求項117に記載のコンピュータ・システム。
- 前記量が5センチモルガン未満である、請求項117に記載のコンピュータ・システム。
- 前記量が2.5センチモルガン未満である、請求項117に記載のコンピュータ・システム。
- 前記試験ステップが、連鎖解析または関連解析を実施するステップを含む、請求項117に記載のコンピュータ・システム。
- それぞれの量的形質遺伝子座分析から作成される前記量的形質遺伝子座データが、前記各位置において計算されるオッズ・スコアの対数を含む、請求項110に記載のコンピュータ・システム。
- 前記複数の量的形質遺伝子座分析中の各量的形質遺伝子座分析によって、量的形質遺伝子座ベクトルが生成され、
前記量的形質遺伝子座ベクトルが、前記量的形質遺伝子座分析を実施した遺伝子を表し、
前記量的形質遺伝子座ベクトルが、前記量的形質遺伝子座分析によって試験された各位置に対する統計スコアを含み、
前記統計スコアが、(i)前記遺伝子の前記発現統計量と、(ii)前記位置における前記複数の生物中のゲノムの変化との相関を表す、請求項110に記載のコンピュータ・システム。 - 前記統計スコアが、オッズ・スコアの対数である、請求項125に記載のコンピュータ・システム。
- 前記遺伝子のクラスターが、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトル間で計算される全相関係数の75%よりも高い相関係数を、前記量的形質遺伝子座相互作用地図中の前記中の別の遺伝子分析ベクトルと共有する、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトルによって表される遺伝子である、請求項125に記載のコンピュータ・システム。
- 前記遺伝子のクラスターが、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトル間で計算される全相関係数の85%よりも高い相関係数を、前記量的形質遺伝子座相互作用地図中の前記中の別の遺伝子分析ベクトルと共有する、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトルによって表される遺伝子である、請求項125に記載のコンピュータ・システム。
- 前記遺伝子のクラスターが、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトル間で計算される全相関係数の95%よりも高い相関係数を、前記量的形質遺伝子座相互作用地図中の前記中の別の遺伝子分析ベクトルと共有する、前記量的形質遺伝子座相互作用地図中の遺伝子分析ベクトルによって表される遺伝子である、請求項125に記載のコンピュータ・システム。
- 前記クラスター化ステップ(a)が、前記各量的形質遺伝子座ベクトルをクラスター化するステップを含む、請求項125に記載のコンピュータ・システム。
- 類似尺度が、前記クラスター化ステップ(a)中にあり、前記類似尺度が、ユークリッド距離、ユークリッド平方距離、ユークリッド平方和、マンハッタン計量、ピアソン相関係数または二乗ピアソン相関係数であり、前記類似尺度が量的形質遺伝子座ベクトル対間で計算される、請求項110に記載のコンピュータ・システム。
- クラスター化の前記命令を、ノンパラメトリックなクラスター化技術を用いて実施する、請求項110に記載のコンピュータ・システム。
- クラスター化の前記命令が、階層型クラスタリング技術を適用する命令、k平均技術を適用する命令、ファジーk平均技術を適用する命令、Jarvis-Patrickクラスタリングを適用する命令、自己組織化地図技術を適用する命令、またはニューラル・ネットワーク技術を適用する命令を含む、請求項110に記載のコンピュータ・システム。
- クラスター化の前記命令が、統合型クラスタリング手順を適用する命令を含む、請求項110に記載のコンピュータ・システム。
- 前記統合型クラスタリング手順が、最短距離アルゴリズム、最長距離アルゴリズム、平均リンケージ・アルゴリズム、セントロイド・アルゴリズムまたは平方和アルゴリズムである、請求項134に記載のコンピュータ・システム。
- クラスター化の前記命令が、分割型クラスタリング手順を適用する命令を含む、請求項110に記載のコンピュータ・システム。
- 前記特定が、さらに、遺伝子発現クラスター地図を構築する命令であって、前記遺伝子発現クラスター地図が複数の遺伝子発現ベクトルを含み、前記複数の遺伝子発現ベクトル中の各遺伝子発現ベクトルが前記複数の遺伝子中の1つの遺伝子の発現統計量を含む命令を含む、請求項110に記載のコンピュータ・システム。
- 前記遺伝子発現クラスター地図を構築する前記命令が、
複数の相関係数を計算する命令であって、前記複数の相関係数中の各相関係数を、前記複数の遺伝子発現ベクトル中の一対の遺伝子発現ベクトル間で計算する命令と、
前記複数の遺伝子発現ベクトルを前記複数の相関係数を用いてクラスター化する命令とを含む、請求項137に記載のコンピュータ・システム。 - 前記複数の相関係数中の各相関係数がピアソン相関係数である、請求項138に記載のコンピュータ・システム。
- 前記複数の遺伝子発現ベクトルをクラスター化する前記命令が、階層型クラスタリング技術を適用する命令、k平均技術を適用する命令、ファジーk平均技術を適用する命令、Jarvis-Patrickクラスタリングを適用する命令、自己組織化地図技術を適用する命令、またはニューラル・ネットワーク技術を適用する命令を含む、請求項138に記載のコンピュータ・システム。
- 前記複数の遺伝子発現ベクトルをクラスター化する前記命令が、統合型クラスタリング手順を適用する命令を含む、請求項138に記載のコンピュータ・システム。
- 前記統合型クラスタリング手順が、最短距離アルゴリズム、最長距離アルゴリズム、平均連結アルゴリズム、セントロイド・アルゴリズムまたは平方和アルゴリズムである、請求項138に記載のコンピュータ・システム。
- 前記複数の遺伝子発現ベクトルをクラスター化する前記命令が、分割型クラスタリング手順を適用する命令を含む、請求項138に記載のコンピュータ・システム。
- 前記遺伝子発現クラスター地図を構築する前記命令が、
複数の尺度を計算する命令であって、前記複数の尺度中の各尺度を、前記複数の遺伝子発現ベクトル中の遺伝子発現ベクトル対間で計算する命令と、
前記遺伝子発現クラスター地図を作成するために、前記複数の尺度に基づいて、前記複数の遺伝子発現ベクトルをクラスター化する命令とを含む、請求項138に記載のコンピュータ・システム。 - 前記複数の尺度中の各尺度が、ユークリッド距離、ユークリッド平方距離、ユークリッド平方和、マンハッタン計量、ピアソン相関係数、および二乗ピアソン相関係数からなる群から選択される、請求項144に記載のコンピュータ・システム。
- 前記複数の遺伝子発現ベクトルをクラスター化する前記命令が、階層型クラスタリング技術を適用する命令、k平均技術を適用する命令、ファジーk平均技術を適用する命令、Jarvis-Patrickクラスタリングを適用する命令、自己組織化地図技術を適用する命令、またはニューラル・ネットワーク技術を適用する命令を含む、請求項144に記載のコンピュータ・システム。
- 前記複数の遺伝子発現ベクトルをクラスター化する前記命令が、統合型クラスタリング手順を適用する命令を含む、請求項144に記載のコンピュータ・システム。
- 前記統合型クラスタリング手順が、最短距離アルゴリズム、最長距離アルゴリズム、平均連結アルゴリズム、セントロイド・アルゴリズムまたは平方和アルゴリズムである、請求項147に記載のコンピュータ・システム。
- 前記複数の遺伝子発現ベクトルをクラスター化する前記命令が、分割型クラスタリング手順を適用する命令を含む、請求項147に記載のコンピュータ・システム。
- 前記特定モジュールが、さらに、
(c)前記生物学的経路に関連する臨床形質を決定する命令を含む、請求項110に記載のコンピュータ・システム。 - 前記決定命令(c)が、前記臨床形質および前記遺伝マーカー地図を用いて量的形質遺伝子座分析を実施する命令を含み、前記臨床形質を用いた量的形質遺伝子座分析から生じるQTLが、前記遺伝子クラスターと関連するQTLと共存するときに、前記臨床形質が前記生物学的経路と関連付けられる、請求項150に記載のコンピュータ・システム。
- 前記決定命令(c)が、前記遺伝子クラスター中の遺伝子に対する遺伝子注釈情報を前記臨床形質と相関させる命令を含む、請求項151に記載のコンピュータ・システム。
- 前記決定命令(c)が、前記臨床形質および前記遺伝マーカー地図を用いて量的形質遺伝子座分析を実施する命令を含み、前記臨床形質を用いた量的形質遺伝子座分析の結果が、前記遺伝子クラスターとともにクラスターを形成するときに、前記臨床形質が前記生物学的経路と関連付けられる、請求項150に記載のコンピュータ・システム。
- 前記特定モジュールが、さらに、前記遺伝子クラスターを多変量解析に使用して、前記遺伝子が遺伝的に相互作用しているかどうかを明らかにする命令を含む、請求項110に記載のコンピュータ・システム。
- 前記複数の遺伝子が少なくとも5個の遺伝子を含む、請求項110に記載のコンピュータ・システム。
- 前記複数の遺伝子が少なくとも100個の遺伝子を含む、請求項110に記載のコンピュータ・システム。
- 前記複数の遺伝子が少なくとも1000個の遺伝子を含む、請求項110に記載のコンピュータ・システム。
- 前記複数の遺伝子が少なくとも20,000個の遺伝子を含む、請求項110に記載のコンピュータ・システム。
- 前記遺伝マーカー・セットが、前記複数の生物中の各生物に対する一塩基多型(SNP)、ミクロサテライト・マーカー、制限断片長多型、短鎖縦列反復、DNAメチル化マーカー、配列長多型、ランダム増幅多型DNA、増幅断片長多型または単純配列反復を含む、請求項110に記載のコンピュータ・システム。
- 系統データが前記構築命令によって使用され、前記系統データが、前記複数の生物中の各生物間の1つまたは複数の関係を示す、請求項111に記載のコンピュータ・システム。
- 前記種がヒトである、請求項110に記載のコンピュータ・システム。
- 前記複数の生物がF2集団を含み、前記複数の生物中の各生物間の前記1つまたは複数の関係が、前記複数の生物中のどの生物が前記F2集団のメンバーであるかを示す、請求項110に記載のコンピュータ・システム。
- ある種内の生物学的経路のメンバーを特定するコンピュータ・システムであって、
中央処理装置と、
前記中央処理装置に接続されて、特定モジュールおよびデータベースを保存するメモリと、
複数の量的形質遺伝子座分析から得られる量的形質遺伝子座データを保存する前記データベースであって、前記量的形質遺伝子座データを作成するために、遺伝マーカー地図および量的形質を用いて、前記種のゲノム中の複数の遺伝子中の1つの遺伝子について、前記複数の量的形質遺伝子座分析中の各量的形質遺伝子座分析を実施し、各量的形質遺伝子座分析では、前記量的形質が、前記種のメンバーである複数の生物中の各生物に由来する遺伝子であって、前記量的形質遺伝子座分析を実施した前記遺伝子の発現統計量を含み、前記遺伝マーカー地図が、前記種に関連する1セットの遺伝マーカーから構築されるデータベースと、
前記データベースに保存された前記量的形質遺伝子座データをクラスター化して、量的形質遺伝子座相互作用地図を作成する特定モジュールであって、前記量的形質遺伝子座相互作用地図中の遺伝子のクラスターが特定され、それによって、前記生物学的経路のメンバーが特定される特定モジュールとを備える、コンピュータ・システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US35341602P | 2002-02-01 | 2002-02-01 | |
US38143702P | 2002-05-16 | 2002-05-16 | |
PCT/US2003/003100 WO2003065282A1 (en) | 2002-02-01 | 2003-02-03 | Computer systems and methods for identifying genes and determining pathways associated with traits |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005516310A true JP2005516310A (ja) | 2005-06-02 |
Family
ID=27669105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003564802A Pending JP2005516310A (ja) | 2002-02-01 | 2003-02-03 | 遺伝子を特定し、形質に関連する経路を明らかにするコンピュータ・システムおよび方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7035739B2 (ja) |
EP (1) | EP1483720A1 (ja) |
JP (1) | JP2005516310A (ja) |
CA (1) | CA2474982A1 (ja) |
IS (1) | IS7387A (ja) |
WO (1) | WO2003065282A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101247401B1 (ko) * | 2011-03-24 | 2013-03-25 | 한양대학교 산학협력단 | 효율적 검색을 위한 배아 데이터의 계층적 조직화 방법 및 장치 |
JP2016118515A (ja) * | 2014-12-24 | 2016-06-30 | 理研ビタミン株式会社 | ワカメの生育海域を判別する方法 |
JP2018530815A (ja) * | 2015-08-17 | 2018-10-18 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 生体データにおけるパターン認識のマルチレベルアーキテクチャ |
WO2019093695A1 (ko) * | 2017-11-13 | 2019-05-16 | 한양대학교 산학협력단 | 게놈 모듈 네트워크에 기반한 샘플 데이터 분석 방법 |
Families Citing this family (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030032395A (ko) * | 2001-10-24 | 2003-04-26 | 김명호 | 서포트 벡터 머신을 이용한 다중 에스엔피(snp)와질병의 상관관계 분석 방법 |
JP2005516310A (ja) | 2002-02-01 | 2005-06-02 | ロゼッタ インファーマティクス エルエルシー | 遺伝子を特定し、形質に関連する経路を明らかにするコンピュータ・システムおよび方法 |
EP1514213A2 (en) * | 2002-05-20 | 2005-03-16 | Rosetta Inpharmactis LLC. | Computer systems and methods for subdividing a complex disease into component diseases |
US20050027729A1 (en) * | 2002-05-22 | 2005-02-03 | Allan Kuchinsky | System and methods for visualizing and manipulating multiple data values with graphical views of biological relationships |
US20040027350A1 (en) * | 2002-08-08 | 2004-02-12 | Robert Kincaid | Methods and system for simultaneous visualization and manipulation of multiple data types |
WO2004013727A2 (en) * | 2002-08-02 | 2004-02-12 | Rosetta Inpharmatics Llc | Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits |
US8131471B2 (en) * | 2002-08-08 | 2012-03-06 | Agilent Technologies, Inc. | Methods and system for simultaneous visualization and manipulation of multiple data types |
US20050216459A1 (en) * | 2002-08-08 | 2005-09-29 | Aditya Vailaya | Methods and systems, for ontological integration of disparate biological data |
WO2004061616A2 (en) | 2002-12-27 | 2004-07-22 | Rosetta Inpharmatics Llc | Computer systems and methods for associating genes with traits using cross species data |
US20040146870A1 (en) * | 2003-01-27 | 2004-07-29 | Guochun Liao | Systems and methods for predicting specific genetic loci that affect phenotypic traits |
US7825929B2 (en) * | 2003-04-04 | 2010-11-02 | Agilent Technologies, Inc. | Systems, tools and methods for focus and context viewing of large collections of graphs |
US7729864B2 (en) | 2003-05-30 | 2010-06-01 | Merck Sharp & Dohme Corp. | Computer systems and methods for identifying surrogate markers |
US20070038386A1 (en) * | 2003-08-05 | 2007-02-15 | Schadt Eric E | Computer systems and methods for inferring casuality from cellular constituent abundance data |
US20050096850A1 (en) * | 2003-11-04 | 2005-05-05 | Center For Advanced Science And Technology Incubation, Ltd. | Method of processing gene expression data and processing program |
US7259258B2 (en) | 2003-12-17 | 2007-08-21 | Illumina, Inc. | Methods of attaching biological compounds to solid supports using triazine |
US20060084067A1 (en) * | 2004-02-03 | 2006-04-20 | Zohar Yakhini | Method and system for analysis of array-based, comparative-hybridization data |
US7660709B2 (en) * | 2004-03-18 | 2010-02-09 | Van Andel Research Institute | Bioinformatics research and analysis system and methods associated therewith |
US7035740B2 (en) * | 2004-03-24 | 2006-04-25 | Illumina, Inc. | Artificial intelligence and global normalization methods for genotyping |
WO2005107412A2 (en) * | 2004-04-30 | 2005-11-17 | Rosetta Inpharmatics Llc | Systems and methods for reconstruction gene networks in segregating populations |
US20060059112A1 (en) * | 2004-08-25 | 2006-03-16 | Jie Cheng | Machine learning with robust estimation, bayesian classification and model stacking |
US8024128B2 (en) * | 2004-09-07 | 2011-09-20 | Gene Security Network, Inc. | System and method for improving clinical decisions by aggregating, validating and analysing genetic and phenotypic data |
KR100707192B1 (ko) * | 2005-05-27 | 2007-04-13 | 삼성전자주식회사 | 거리 계산을 이용한 유전자형 판별 방법 |
US20070027636A1 (en) * | 2005-07-29 | 2007-02-01 | Matthew Rabinowitz | System and method for using genetic, phentoypic and clinical data to make predictions for clinical or lifestyle decisions |
US11111543B2 (en) | 2005-07-29 | 2021-09-07 | Natera, Inc. | System and method for cleaning noisy genetic data and determining chromosome copy number |
US10081839B2 (en) | 2005-07-29 | 2018-09-25 | Natera, Inc | System and method for cleaning noisy genetic data and determining chromosome copy number |
US20070178501A1 (en) * | 2005-12-06 | 2007-08-02 | Matthew Rabinowitz | System and method for integrating and validating genotypic, phenotypic and medical information into a database according to a standardized ontology |
US9424392B2 (en) | 2005-11-26 | 2016-08-23 | Natera, Inc. | System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals |
US11111544B2 (en) | 2005-07-29 | 2021-09-07 | Natera, Inc. | System and method for cleaning noisy genetic data and determining chromosome copy number |
US8532930B2 (en) | 2005-11-26 | 2013-09-10 | Natera, Inc. | Method for determining the number of copies of a chromosome in the genome of a target individual using genetic data from genetically related individuals |
US8515679B2 (en) * | 2005-12-06 | 2013-08-20 | Natera, Inc. | System and method for cleaning noisy genetic data and determining chromosome copy number |
US10083273B2 (en) | 2005-07-29 | 2018-09-25 | Natera, Inc. | System and method for cleaning noisy genetic data and determining chromosome copy number |
JP6121642B2 (ja) | 2005-11-26 | 2017-04-26 | ナテラ, インコーポレイテッド | 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法 |
US7769561B2 (en) * | 2005-12-01 | 2010-08-03 | Siemens Corporation | Robust sensor correlation analysis for machine condition monitoring |
WO2007075488A2 (en) * | 2005-12-16 | 2007-07-05 | Nextbio | System and method for scientific information knowledge management |
US9183349B2 (en) | 2005-12-16 | 2015-11-10 | Nextbio | Sequence-centric scientific information management |
US8285486B2 (en) * | 2006-01-18 | 2012-10-09 | Dna Tribes Llc | Methods of determining relative genetic likelihoods of an individual matching a population |
US20070178500A1 (en) * | 2006-01-18 | 2007-08-02 | Martin Lucas | Methods of determining relative genetic likelihoods of an individual matching a population |
US20070185658A1 (en) * | 2006-02-06 | 2007-08-09 | Paris Steven M | Determining probabilities of inherited and correlated traits |
WO2008003053A2 (en) * | 2006-06-28 | 2008-01-03 | Applera Corporation | Minimizing effects of dye crosstalk |
US7849088B2 (en) * | 2006-07-31 | 2010-12-07 | City University Of Hong Kong | Representation and extraction of biclusters from data arrays |
US7844609B2 (en) * | 2007-03-16 | 2010-11-30 | Expanse Networks, Inc. | Attribute combination discovery |
US20090043752A1 (en) * | 2007-08-08 | 2009-02-12 | Expanse Networks, Inc. | Predicting Side Effect Attributes |
KR100930799B1 (ko) * | 2007-09-17 | 2009-12-09 | 한국전자통신연구원 | 자동화된 클러스터링 방법 및 이를 이용한 이동통신환경에서 다중 경로의 클러스터링 방법 및 장치 |
WO2009105531A1 (en) * | 2008-02-19 | 2009-08-27 | Gene Security Network, Inc. | Methods for cell genotyping |
WO2009146335A1 (en) * | 2008-05-27 | 2009-12-03 | Gene Security Network, Inc. | Methods for embryo characterization and comparison |
ES2620431T3 (es) * | 2008-08-04 | 2017-06-28 | Natera, Inc. | Métodos para la determinación de alelos y de ploidía |
US8285719B1 (en) | 2008-08-08 | 2012-10-09 | The Research Foundation Of State University Of New York | System and method for probabilistic relational clustering |
WO2010045252A1 (en) * | 2008-10-14 | 2010-04-22 | Casework Genetics | System and method for inferring str allelic genotype from snps |
US8386519B2 (en) | 2008-12-30 | 2013-02-26 | Expanse Networks, Inc. | Pangenetic web item recommendation system |
US8108406B2 (en) | 2008-12-30 | 2012-01-31 | Expanse Networks, Inc. | Pangenetic web user behavior prediction system |
EP3276526A1 (en) | 2008-12-31 | 2018-01-31 | 23Andme, Inc. | Finding relatives in a database |
US10017812B2 (en) | 2010-05-18 | 2018-07-10 | Natera, Inc. | Methods for non-invasive prenatal ploidy calling |
US20120185176A1 (en) | 2009-09-30 | 2012-07-19 | Natera, Inc. | Methods for Non-Invasive Prenatal Ploidy Calling |
WO2011075818A1 (en) * | 2009-12-23 | 2011-06-30 | The Governors Of The University Of Alberta | Automated, objective and optimized feature selection in chemometric modeling (cluster resolution) |
US11939634B2 (en) | 2010-05-18 | 2024-03-26 | Natera, Inc. | Methods for simultaneous amplification of target loci |
US10316362B2 (en) | 2010-05-18 | 2019-06-11 | Natera, Inc. | Methods for simultaneous amplification of target loci |
US11339429B2 (en) | 2010-05-18 | 2022-05-24 | Natera, Inc. | Methods for non-invasive prenatal ploidy calling |
US11322224B2 (en) | 2010-05-18 | 2022-05-03 | Natera, Inc. | Methods for non-invasive prenatal ploidy calling |
US9677118B2 (en) | 2014-04-21 | 2017-06-13 | Natera, Inc. | Methods for simultaneous amplification of target loci |
US11408031B2 (en) | 2010-05-18 | 2022-08-09 | Natera, Inc. | Methods for non-invasive prenatal paternity testing |
US11326208B2 (en) | 2010-05-18 | 2022-05-10 | Natera, Inc. | Methods for nested PCR amplification of cell-free DNA |
US11332793B2 (en) | 2010-05-18 | 2022-05-17 | Natera, Inc. | Methods for simultaneous amplification of target loci |
CA2798758C (en) | 2010-05-18 | 2019-05-07 | Natera, Inc. | Methods for non-invasive prenatal ploidy calling |
US20190010543A1 (en) | 2010-05-18 | 2019-01-10 | Natera, Inc. | Methods for simultaneous amplification of target loci |
US11332785B2 (en) | 2010-05-18 | 2022-05-17 | Natera, Inc. | Methods for non-invasive prenatal ploidy calling |
WO2012088456A2 (en) | 2010-12-22 | 2012-06-28 | Natera, Inc. | Methods for non-invasive prenatal paternity testing |
EP2710152A4 (en) | 2011-05-17 | 2015-04-08 | Nat Ict Australia Ltd | COMPUTER IMPLEMENTED METHOD AND SYSTEM FOR DETERMINING INTERCONNECTION OF THE DNA LOCI |
EP4008270A1 (en) | 2012-06-22 | 2022-06-08 | Preprogen LLC | Method for obtaining fetal cells and fetal cellular components |
US20190025297A1 (en) * | 2013-03-15 | 2019-01-24 | Nri R&D Patent Licensing, Llc | Stepwise and Blockwise Biochemical Network Laboratory Breadboard Systems and Techniques for Signaling, Disease Research, Drug Discovery, Cell Biology, and Other Applications |
US9499870B2 (en) | 2013-09-27 | 2016-11-22 | Natera, Inc. | Cell free DNA diagnostic testing standards |
US10262755B2 (en) | 2014-04-21 | 2019-04-16 | Natera, Inc. | Detecting cancer mutations and aneuploidy in chromosomal segments |
US10577655B2 (en) | 2013-09-27 | 2020-03-03 | Natera, Inc. | Cell free DNA diagnostic testing standards |
WO2015148236A1 (en) * | 2014-03-27 | 2015-10-01 | The Procter & Gamble Company | Methods for evaluating effects of a treatment on biological processes and pathways |
RU2717641C2 (ru) | 2014-04-21 | 2020-03-24 | Натера, Инк. | Обнаружение мутаций и плоидности в хромосомных сегментах |
US10614910B2 (en) | 2014-05-30 | 2020-04-07 | Nantomics, Llc | Systems and methods for comprehensive analysis of molecular profiles across multiple tumor and germline exomes |
US20160073897A1 (en) * | 2014-09-13 | 2016-03-17 | ARC Devices, Ltd | Non-touch detection of body core temperature |
US11479812B2 (en) | 2015-05-11 | 2022-10-25 | Natera, Inc. | Methods and compositions for determining ploidy |
EP3439547A4 (en) * | 2016-04-07 | 2019-08-28 | White Anvil Innovations, LLC | METHOD FOR ANALYZING DIGITAL DATA |
WO2018067517A1 (en) | 2016-10-04 | 2018-04-12 | Natera, Inc. | Methods for characterizing copy number variation using proximity-litigation sequencing |
US10011870B2 (en) | 2016-12-07 | 2018-07-03 | Natera, Inc. | Compositions and methods for identifying nucleic acid molecules |
AU2018225348A1 (en) | 2017-02-21 | 2019-07-18 | Natera, Inc. | Compositions, methods, and kits for isolating nucleic acids |
US20180239866A1 (en) * | 2017-02-21 | 2018-08-23 | International Business Machines Corporation | Prediction of genetic trait expression using data analytics |
US11525159B2 (en) | 2018-07-03 | 2022-12-13 | Natera, Inc. | Methods for detection of donor-derived cell-free DNA |
CN109830261B (zh) * | 2019-01-23 | 2023-05-05 | 西南大学 | 一种筛选数量性状候选基因的方法 |
US10671632B1 (en) | 2019-09-03 | 2020-06-02 | Cb Therapeutics, Inc. | Automated pipeline |
CN113674799B (zh) * | 2020-05-14 | 2023-11-10 | 中国科学院分子细胞科学卓越创新中心 | 一种基因网络数量性状定位检测方法和系统 |
CN116622881B (zh) * | 2023-04-27 | 2024-03-15 | 贵州省烟草科学研究院 | 一种烟草全基因组snp位点组合、探针、芯片及其应用 |
CN117092255A (zh) * | 2023-10-19 | 2023-11-21 | 广州恒广复合材料有限公司 | 一种洗护组合物中季铵盐质量检测分析方法及装置 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0317239A3 (en) * | 1987-11-13 | 1990-01-17 | Native Plants Incorporated | Method and device for improved restriction fragment length polymorphism analysis |
US5075217A (en) * | 1989-04-21 | 1991-12-24 | Marshfield Clinic | Length polymorphisms in (dC-dA)n ·(dG-dT)n sequences |
US5143854A (en) * | 1989-06-07 | 1992-09-01 | Affymax Technologies N.V. | Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof |
US5545522A (en) * | 1989-09-22 | 1996-08-13 | Van Gelder; Russell N. | Process for amplifying a target polynucleotide sequence using a single primer-promoter complex |
EP0534858B2 (en) | 1991-09-24 | 2005-04-27 | Keygene N.V. | Selective restriction fragment amplification : a general method for DNA fingerprinting |
US5578832A (en) * | 1994-09-02 | 1996-11-26 | Affymetrix, Inc. | Method and apparatus for imaging a sample on a device |
US5539083A (en) * | 1994-02-23 | 1996-07-23 | Isis Pharmaceuticals, Inc. | Peptide nucleic acid combinatorial libraries and improved methods of synthesis |
US5556752A (en) * | 1994-10-24 | 1996-09-17 | Affymetrix, Inc. | Surface-bound, unimolecular, double-stranded DNA |
US5569588A (en) * | 1995-08-09 | 1996-10-29 | The Regents Of The University Of California | Methods for drug screening |
US6165709A (en) * | 1997-02-28 | 2000-12-26 | Fred Hutchinson Cancer Research Center | Methods for drug target screening |
EP0970101A2 (en) | 1997-03-20 | 2000-01-12 | University Of Washington | Solvent for biopolymer synthesis, solvent microdroplets and methods of use |
US6028189A (en) * | 1997-03-20 | 2000-02-22 | University Of Washington | Solvent for oligonucleotide synthesis and methods of use |
CA2303327A1 (en) | 1997-09-08 | 1999-03-18 | Jerome I. Rotter | A method for determining the in vivo function of dna coding sequences |
US5965352A (en) * | 1998-05-08 | 1999-10-12 | Rosetta Inpharmatics, Inc. | Methods for identifying pathways of drug action |
US6324479B1 (en) * | 1998-05-08 | 2001-11-27 | Rosetta Impharmatics, Inc. | Methods of determining protein activity levels using gene expression profiles |
US6218122B1 (en) * | 1998-06-19 | 2001-04-17 | Rosetta Inpharmatics, Inc. | Methods of monitoring disease states and therapies using gene expression profiles |
US6132969A (en) * | 1998-06-19 | 2000-10-17 | Rosetta Inpharmatics, Inc. | Methods for testing biological network models |
US6132997A (en) * | 1999-05-28 | 2000-10-17 | Agilent Technologies | Method for linear mRNA amplification |
US6271002B1 (en) * | 1999-10-04 | 2001-08-07 | Rosetta Inpharmatics, Inc. | RNA amplification method |
US6368806B1 (en) * | 2000-10-05 | 2002-04-09 | Pioneer Hi-Bred International, Inc. | Marker assisted identification of a gene associated with a phenotypic trait |
US7229765B2 (en) | 2000-11-28 | 2007-06-12 | Rosetta Inpharmatics Llc | Random-primed reverse transcriptase-in vitro transcription method for RNA amplification |
JP2005516310A (ja) | 2002-02-01 | 2005-06-02 | ロゼッタ インファーマティクス エルエルシー | 遺伝子を特定し、形質に関連する経路を明らかにするコンピュータ・システムおよび方法 |
EP1514213A2 (en) | 2002-05-20 | 2005-03-16 | Rosetta Inpharmactis LLC. | Computer systems and methods for subdividing a complex disease into component diseases |
WO2004013727A2 (en) | 2002-08-02 | 2004-02-12 | Rosetta Inpharmatics Llc | Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits |
WO2004061616A2 (en) | 2002-12-27 | 2004-07-22 | Rosetta Inpharmatics Llc | Computer systems and methods for associating genes with traits using cross species data |
-
2003
- 2003-02-03 JP JP2003564802A patent/JP2005516310A/ja active Pending
- 2003-02-03 US US10/356,857 patent/US7035739B2/en active Active
- 2003-02-03 WO PCT/US2003/003100 patent/WO2003065282A1/en not_active Application Discontinuation
- 2003-02-03 CA CA002474982A patent/CA2474982A1/en not_active Abandoned
- 2003-02-03 EP EP03707668A patent/EP1483720A1/en not_active Withdrawn
-
2004
- 2004-08-05 IS IS7387A patent/IS7387A/is unknown
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101247401B1 (ko) * | 2011-03-24 | 2013-03-25 | 한양대학교 산학협력단 | 효율적 검색을 위한 배아 데이터의 계층적 조직화 방법 및 장치 |
JP2016118515A (ja) * | 2014-12-24 | 2016-06-30 | 理研ビタミン株式会社 | ワカメの生育海域を判別する方法 |
JP2018530815A (ja) * | 2015-08-17 | 2018-10-18 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 生体データにおけるパターン認識のマルチレベルアーキテクチャ |
JP7041614B2 (ja) | 2015-08-17 | 2022-03-24 | コーニンクレッカ フィリップス エヌ ヴェ | 生体データにおけるパターン認識のマルチレベルアーキテクチャ |
JP7041614B6 (ja) | 2015-08-17 | 2022-05-31 | コーニンクレッカ フィリップス エヌ ヴェ | 生体データにおけるパターン認識のマルチレベルアーキテクチャ |
WO2019093695A1 (ko) * | 2017-11-13 | 2019-05-16 | 한양대학교 산학협력단 | 게놈 모듈 네트워크에 기반한 샘플 데이터 분석 방법 |
Also Published As
Publication number | Publication date |
---|---|
IS7387A (is) | 2004-08-05 |
US20030224394A1 (en) | 2003-12-04 |
EP1483720A1 (en) | 2004-12-08 |
US7035739B2 (en) | 2006-04-25 |
CA2474982A1 (en) | 2003-08-07 |
WO2003065282A1 (en) | 2003-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7035739B2 (en) | Computer systems and methods for identifying genes and determining pathways associated with traits | |
Plassais et al. | Whole genome sequencing of canids reveals genomic regions under selection and variants influencing morphology | |
Taliun et al. | Sequencing of 53,831 diverse genomes from the NHLBI TOPMed Program | |
US7653491B2 (en) | Computer systems and methods for subdividing a complex disease into component diseases | |
Nicod et al. | Genome-wide association of multiple complex traits in outbred mice by ultra-low-coverage sequencing | |
US7729864B2 (en) | Computer systems and methods for identifying surrogate markers | |
Hermsen et al. | Genomic landscape of rat strain and substrain variation | |
Stranger et al. | Population genomics of human gene expression | |
Willing et al. | Paired-end RAD-seq for de novo assembly and marker design without available reference | |
Voight et al. | The metabochip, a custom genotyping array for genetic studies of metabolic, cardiovascular, and anthropometric traits | |
US8185367B2 (en) | Systems and methods for reconstructing gene networks in segregating populations | |
US20060111849A1 (en) | Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits | |
US8600718B1 (en) | Computer systems and methods for identifying conserved cellular constituent clusters across datasets | |
Yang et al. | Accelerated deciphering of the genetic architecture of agricultural economic traits in pigs using a low-coverage whole-genome sequencing strategy | |
Yan et al. | SR4R: an integrative SNP resource for genomic breeding and population research in rice | |
Kang et al. | Discovering single nucleotide polymorphisms regulating human gene expression using allele specific expression from RNA-seq data | |
Farber et al. | Integrating global gene expression analysis and genetics | |
Theofanopoulou et al. | Oxytocin and vasotocin receptor variation and the evolution of human prosociality | |
Sahana et al. | Invited review: Good practices in genome-wide association studies to identify candidate sequence variants in dairy cattle | |
Hajiloo et al. | ETHNOPRED: a novel machine learning method for accurate continental and sub-continental ancestry identification and population stratification correction | |
Lasky-Su | Statistical techniques for genetic analysis | |
US20210027855A1 (en) | Methods for Predicting Genomic Variation Effects on Gene Transcription | |
Frei et al. | Improved functional mapping with GSA-MiXeR implicates biologically specific gene-sets and estimates enrichment magnitude | |
US20080268443A1 (en) | Broad-based disease association from a gene transcript test | |
Lozano et al. | Comparative evolutionary analysis and prediction of deleterious mutation patterns between sorghum and maize |