JP2016165286A

JP2016165286A - 転写物測定値数が減少した、遺伝子発現プロファイリング

Info

Publication number: JP2016165286A
Application number: JP2016052125A
Authority: JP
Inventors: ジャスティン・ラム; Lamb Justin; トッド・アール・ゴルブ; Todd R Golub; アラヴァインド・スブラマニアン; Subramanian Arvind; ディヴィッド・ディー・ペック; D Peck David
Original assignee: Dana Farber Cancer Institute Inc; Massachusetts Institute of Technology; Broad Institute Inc
Current assignee: Dana Farber Cancer Institute Inc; Massachusetts Institute of Technology; Broad Institute Inc
Priority date: 2010-04-06
Filing date: 2016-03-16
Publication date: 2016-09-15
Also published as: GB201218698D0; SG10201501626SA; WO2011127150A2; SG184466A1; ZA201207363B; CA2795554C; EP2556185A4; CN103168118A; KR20130048217A; JP2013523154A; CA2795554A1; AU2011237688A1; EP2556185B1; EP2556185A2; WO2011127150A3; AU2011237688B2; GB2491795A

Abstract

【課題】トランスクリプトームワイドmRNA発現プロファイリングプラットフォームのためのセントロイド転写物を選択する方法の提供。【解決手段】以下のステップを含む方法。1)第１の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データのライブラリーにおいて、複数の転写物クラスターが生成されるように計算的分析を実施し、セントロイド転写物を選定するステップ。2）第２の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データのライブラリーにおいて、前記セントロイド転写物の発現レベルが非セントロイド転写物のレベルを推量できるかを検証し、有用なセントロイド転写物を特定するステップ。【選択図】なし

Description

政府支援の言明
本発明は、National Institutes of Healthによって授与された認可番号CA133834による政府支援で行われた。政府は本発明において一定の権利を有する。

本発明は、ゲノム情報および遺伝子発現プロファイリングの分野に関連している。遺伝子発現プロファイルは、細胞または組織の相対的状態に関する複雑な分子フィンガープリントを提供する。器質的状態(すなわち、例えば、正常細胞および/または組織、ならびに罹患細胞および/または組織)の間での遺伝子発現プロファイルの類似性は、分子分類法(molecular taxonomies)、分類(classification)、および診断を提供する。様々な外部的撹乱(すなわち、例えば、特定の遺伝子の切除もしくは強制的発現、および/または小分子、および/または環境変化)に起因する遺伝子発現プロファイルの類似性は、経路および作用機構の解明において価値がある、これらの撹乱因子(perturbagen)間の機能的類似性を明らかにする。器質的状態(例えば、疾患)と誘導状態(例えば、小分子による)との間の遺伝子発現プロファイルの類似性は、臨床的に有効な治療を特定することができる。本明細書に記載された改良により、同じクラスター内における他の転写物の発現レベルを予測するクラスターセントロイドランドマーク転写物(cluster centroid landmark transcript)を特定することによる完全トランスクリプトーム遺伝子発現プロファイルの効率的かつ経済的な作成が可能になる。

高密度の全トランスクリプトームDNAマイクロアレイは、バイアスがかかっていない遺伝子発現プロファイリングについての選択方法である。これらのプロファイルは、小分子の作用機構の分類および解明、ならびに新しい治療学の特定において、疾患の分類および診断、治療に対する患者応答の予測、生物学的機構の探索に有用であることが見出されている。van de Vijverら、「A gene expression signature as a predictor of survival in breast cancer」N Engl J Med 347:1999〜2009頁(2002)、Lambら、「A mechanism of cyclin D1 action encoded in the patterns of gene expression in human cancer」Cell 114:323〜334頁(2003)、Glasら、「Gene expression profiling in follicular lymphoma to assess clinical aggressiveness and to guide the choice of treatment」Blood 105:301〜307頁(2005)、Burczynskiら、「Molecular classification of Crohn's disease and ulcerative colitis patients using transcriptional profiles in peripheral blood mononuclear cells」J Mol Diagn 8:51〜61頁(2006)、Golubら、「Molecular classification of cancer: class discovery and class prediction by gene expression monitoring」Science 286:531頁(1999)、Ramaswamyら、「Multiclass cancer diagnosis using tumor gene expression signatures」Proc Natl Acad Sci 98: 15149頁(2001)、Lambら、「The Connectivity Map: using gene-expression signatures to connect small molecules, genes and disease」Science 313:1929頁(2006)。しかしながら、これらの方法の全体的な成功率および幅広い使用は、現行のトランスクリプトーム分析テクノロジーの高費用および低処理量によりかなり限られている。例えば、所望の生物学的効果を有する小分子についてスクリーニングするために遺伝子発現プロファイリングを用いることは、通常のマイクロアレイの費用より著しく低い費用で1日あたり数千個の化合物を分析することができる場合のみ現実的である。

当技術分野において必要とされることは、外部的撹乱により誘導された何千個という組織検体および細胞状態の分析を可能にする、簡単で、柔軟で、対費用効果が高く、かつ高処理量のトランスクリプトームワイド遺伝子発現プロファイリング解法である。これは、そこにコードされた医学関係の関連の発見速度を大いに加速するであろう。多数の試料における少数の転写物の発現を迅速にアッセイするための方法は開発されており、例えば、Peckら、「A method for high-throughput gene expression signature analysis」Genome Biol 7:R61頁(2006)である。他の転写物の発現レベルを忠実に予測する転写物を特定することができたならば、そのような中程度に多重化したアッセイ方法を用いた1セットのそのような「ランドマーク」転写物の測定が、それらの測定から非ランドマーク転写物のレベルを計算するアルゴリズムと協調して、求められている完全トランスクリプトーム遺伝子発現分析解法を提供することは、考えられ得る。

米国特許第4,683,195号米国特許第4,683,202号米国特許第3,817,837号米国特許第3,850,752号米国特許第3,939,350号米国特許第3,996,345号米国特許第4,277,437号米国特許第4,275,149号米国特許第4,366,241号米国特許第7,542,959号米国特許第6,873,914号米国特許第5,846,717号米国特許第6,090,543号米国特許第6,001,567号米国特許第5,985,557号米国特許第5,994,069号米国特許第5,962,233号米国特許第5,538,848号米国特許第5,639,606号米国特許第5,643,765号米国特許第5,876,978号 WO 93/23564 WO 89/09283 WO98/13523 WO 98/28440 WO 00/43540 米国特許第5,885,530号米国特許第4,981,785号米国特許第6,159,750号米国特許第5,358,691号米国特許第5,599,677号米国特許第5,672,480号

van de Vijverら、「A gene expression signature as a predictor of survival in breast cancer」N Engl J Med 347:1999〜2009頁(2002) Lambら、「A mechanism of cyclin D1 action encoded in the patterns of gene expression in human cancer」Cell 114:323〜334頁(2003) Glasら、「Gene expression profiling in follicular lymphoma to assess clinical aggressiveness and to guide the choice of treatment」Blood 105:301〜307頁(2005) Burczynskiら、「Molecular classification of Crohn's disease and ulcerative colitis patients using transcriptional profiles in peripheral blood mononuclear cells」J Mol Diagn 8:51〜61頁(2006) Golubら、「Molecular classification of cancer: class discovery and class prediction by gene expression monitoring」Science 286:531頁(1999) Ramaswamyら、「Multiclass cancer diagnosis using tumor gene expression signatures」Proc Natl Acad Sci 98: 15149頁(2001) Lambら、「The Connectivity Map: using gene-expression signatures to connect small molecules, genes and disease」Science 313:1929頁(2006) Peckら、「A method for high-throughput gene expression signature analysis」Genome Biol 7:R61頁(2006) Andersonら、「Quantitative Filter Hybridization」、Nucleic Acid Hybridization (1985) Dieffenbach C. W.およびG. S. Dveksler (1995)、PCR Primer, a Laboratory Manual、Cold Spring Harbor Press、Plainview、N.Y. Sambrook, J.ら、(1989) Molecular Cloning: A Laboratory Manual、Cold Spring Harbor Press、NY、9.31〜9.58頁 Sambrook, J.ら、(1989) Molecular Cloning: A Laboratory Manual、Cold Spring Harbor Press、NY、7.39〜7.52頁。 Lamb、「The Connectivity Map: a new tool for biomedical research」Nature Reviews Cancer 7: 54〜60頁(2007) Capobianco E.、「Model Validation For Gene Selection And Regulation Maps」Funct Integr Genomics 8(2):87〜99頁(2008) Hilarioら、「Approaches To Dimensionality Reduction In Proteomic Biomarker Studies」Brief Bioinform 9(2):102〜118頁(2008) Korenら、「Robust Linear Dimensionality Reduction」IEEE Trans Vis Comput Graph. 10(4):459〜470頁(2004) Finn WG.、「Diagnostic Pathology And Laboratory Medicine In The Age Of ''omics''」J Mol Diagn. 9(4):431〜436頁(2007) Motsingerら、「Multifactor Dimensionality Reduction: An Analysis Strategy For Modeling And Detecting Gene-Gene Interactions In Human Genetics And Pharmacogenomics Studies」Hum Genomics 2(5):318〜328頁(2006) Hoshidaら、「Gene Expression in Fixed Tissues and Outcome in Hepatocellular Carcinoma」New Engl J Med 259:19頁(2008) Glaserら、「Gene expression profiling of multiple histone deacetylase (HDAC) inhibitors: defining a common gene set produced by HDAC inhibition in T24 and MDA carcinoma cell lines.」Mol Cancer Ther 2:151〜163頁(2003) Montiら「Consensus Clustering: A resampling-based method for class discovery and visualization of gene expression microarray data」Machine Learning Journal 52: 91〜118頁2003 Rossら、「Systematic variation in gene expression patterns in human cancer cell lines」Nature Genetics 24: 227〜235頁(2000) Subramanianら、「Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles」Proc Natl Acad Sci 102: 15545〜15550頁2005 Qinら、「LPS induces CD40 gene expression through the activation of NF-κB and STAT-1α in macrophages and microglia」Blood 106: 3114〜3122頁2005

本発明は、ゲノム情報および遺伝子発現プロファイリングの分野に関連している。遺伝子発現プロファイルは、細胞または組織の相対的状態に関する複雑な分子フィンガープリントを提供する。器質的状態(すなわち、例えば、正常細胞および/または組織、ならびに罹患細胞および/または組織)の間での遺伝子発現プロファイルの類似性は、分子分類法、分類、および診断を提供する。様々な外部的撹乱(すなわち、例えば、特定の遺伝子の切除もしくは強制的発現、および/または小分子、および/または環境変化)に起因する遺伝子発現プロファイルの類似性は、経路および作用機構の解明において価値がある、これらの撹乱因子間の機能的類似性を明らかにする。器質的状態(例えば、疾患)と誘導状態(例えば、小分子による)との間の遺伝子発現プロファイルの類似性は、臨床的に有効な治療を特定することができる。本明細書に記載された改良により、同じクラスター内における他の転写物の発現レベルを予測するクラスターセントロイドランドマーク転写物を特定することによる完全トランスクリプトーム遺伝子発現プロファイルの効率的かつ経済的な作成が可能になる。

一実施形態において、本発明は、トランスクリプトームより下位の数の転写物測定値を用いてトランスクリプトームワイドmRNA発現プロファイリングプラットフォームを作成するための方法であって、a)i)第1の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第1のライブラリー; ii)第2の生体試料コレクション; iii)前記第2の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第2のライブラリー; iv)転写物発現レベルを測定する能力がある装置を供給するステップと、b)複数の転写物クラスターが生成されるように前記第1のライブラリーで計算的分析を実施するステップであって、前記クラスターの数が全転写物の総数より実質的に少ないステップと、c)前記複数の転写物クラスターのそれぞれの内部でセントロイド転写物を特定し、それにより、複数のセントロイド転写物を生成するステップであって、前記残りの転写物が非セントロイド転写物であるステップと、d)前記第2の生体試料コレクション由来の転写物の少なくとも一部分の発現レベルを前記装置で測定するステップであって、前記転写物の部分が前記第1のライブラリー由来の前記セントロイド転写物として特定された転写物を含むステップと、e)前記セントロイド転写物の発現レベルの前記測定値の能力を決定して、前記第2ライブラリー由来の転写物の少なくとも一部分のレベルを推量するステップであって、前記部分が非セントロイド転写物で構成されるステップと、f)セントロイド転写物（その発現レベルが、前記非セントロイド転写物の部分のレベルを推量する前記能力を有する）を選択するステップとを含む方法を企図する。一実施形態において、複数のセントロイド転写物は、約1000個のセントロイド転写物である。一実施形態において、装置は、マイクロアレイ、ビーズアレイ、液体アレイ、または核酸シークエンサーを含む群から選択される。一実施形態において、計算的分析は、クラスター分析を含む。一実施形態において、方法は、前記複数の転写物クラスターのそれぞれについて確証されたセントロイド転写物が特定されるまで、ステップc)〜f)を繰り返すことをさらに含む。一実施形態において、複数の転写物クラスターは、直交性である。一実施形態において、複数の転写物クラスターは非重複性である
。一実施形態において、決定ステップに、前記セントロイド転写物の前記発現レベルと前記非セントロイド転写物の前記発現レベルとの間の相関が関与する。一実施形態において、1セットの実質的に不変の転写物の発現レベルは、前記第2の生体試料コレクションにおいて前記装置で追加的に測定される。一実施形態において、前記装置で作成された前記セントロイド転写物の測定値、ならびに前記第1および第2のライブラリー由来の前記mRNA発現データは、1セットの実質的に不変の転写物の発現レベルに対して正規化される。

一実施形態において、本発明は、トランスクリプトーム内の予測転写物部分集団を特定するための方法であって、a)i)第1の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第1のライブラリー; ii)第2の生体試料コレクション; iii)前記第2の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第2のライブラリー; iv)転写物発現レベルを測定する能力がある装置を供給するステップと、b)複数の転写物クラスターが生成されるように前記第1のライブラリーで計算的分析を実施するステップであって、前記クラスターの数が前記第1のライブラリーにおける全転写物の総数より少ないステップと、c)前記転写物クラスターのそれぞれの内部でセントロイド転写物を特定し、それにより、複数のセントロイド転写物を生成するステップであって、前記残りの転写物が非セントロイド転写物であるステップと、d)前記セントロイド転写物の発現レベルを測定するために、前記装置において前記第2の生体試料コレクション由来の転写物を処理するステップと、e)前記装置において測定された前記複数のセントロイド転写物のどれが、トランスクリプトームワイドデータの前記第2のライブラリーにおける前記非セントロイド転写物のレベルを予測するかを決定するステップとを含む方法を企図する。一実施形態において、複数のセントロイド転写物は、約1000個のセントロイド転写物である。一実施形態において、装置は、マイクロアレイ、ビーズアレイ、液体アレイ、または核酸シークエンサーを含む群から選択される。一実施形態において、計算的分析は、クラスター分析を含む。一実施形態において、決定ステップに、前記セントロイド転写物と前記非セントロイド転写物との間の相関が関与する。一実施形態において、方法は、ステップc)〜e)を繰り返すことをさらに含む。

一実施形態において、本発明は、トランスクリプトーム内の約1000個の予測転写物部分集団を特定するための方法であって、a)i)1000個より多い異なる転写物を表す、第1の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第1のライブラリー、およびii)第2の生体試料コレクション由来の転写物を供給するステップと、b)複数の転写物クラスターが生成されるように前記第1のライブラリーで計算的分析を実施するステップであって、前記クラスターの数が約1000個であり、かつ前記第1のライブラリーにおける全転写物の総数より少ないステップと、c)前記転写物クラスターのそれぞれの内部でセントロイド転写物を特定するステップであって、前記残りの転写物が非セントロイド転写物であるステップと、d)非セントロイド転写物の発現レベルを測定して、第1の測定値を生成し、かつセントロイド転写物の発現レベルを測定して、第2の測定値を生成するために、前記第2の生体試料コレクション由来の転写物を処理するステップと、e)前記第2の測定値に基づいたどのセントロイド転写物が、前記第1の測定値に基づいた前記非セントロイド転写物のレベルを予測するかを決定し、それにより、トランスクリプトーム内の予測転写物部分集団を特定するステップとを含む方法を企図する。一実施形態において、方法は、前記セントロイド転写物の発現レベルを測定する能力がある装置をさらに含む。一実施形態において、装置は、約1000個の前記セントロイド転写物の発現レベルを測定する能力がある。一実施形態において、計算的分析は、クラスター分析を含む。一実施形態において、決定ステップに、前記セントロイド転写物と前記非セントロイド転写物との間の相関が関与する。一実施形態において、方法は、ステップc)〜e)を繰り返すことをさらに含む。

一実施形態において、本発明は、第2の転写物集団の発現レベルを測定することによって第1の転写物集団の発現レベルを予測するための方法であって、a)i)第2の不均一な転写物集団を含む第1の不均一な転写物集団であって、前記第2の集団が前記第1の集団のサブセットを含む、第1の不均一な転写物集団、ii)前記第2の集団内にはない、前記第1の集団内の転写物の発現レベルを予測する能力があるアルゴリズムであって、前記予測が、前記第2の集団内の転写物の測定された発現レベルに基づいているアルゴリズムを供給するステップと、b)前記第2の転写物集団のみを表す複数の異なる鋳型が生成されるような条件下で、前記第1の不均一な転写物集団を処理するステップと、c)前記異なる鋳型のそれぞれの量を測定して複数の測定値を生成するステップと、d)前記複数の測定値に前記アルゴリズムを適用し、それにより、前記第2の集団内にはない前記第1の集団内の転写物の発現レベルを予測するステップとを含む方法を企図する。一実施形態において、第1の不均一な転写物集団は、複数の非セントロイド転写物を含む。一実施形態において、第2の不均一な転写物集団は、複数のセントロイド転写物を含む。一実施形態において、方法は、約1000個の前記異なる鋳型の量を測定する能力がある装置をさらに含む。一実施形態において、装置は、マイクロアレイ、ビーズアレイ、液体アレイ、または核酸シークエンサーを含む群から選択される。一実施形態において、アルゴリズムに、依存マトリックスが関与する。

一実施形態において、本発明は、遺伝子発現をアッセイする方法であって、a)i)約1000個の異なるバーコード配列; ii)各ビーズが均一な1セットの核酸プローブを含み、各セットが前記約1000個のバーコード配列の異なるバーコード配列に相補的である、約1000個のビーズ; iii)各転写物が遺伝子特異的配列を含む、1000個より多い異なる転写物の集団; iv)測定されない転写物の発現レベルを予測する能力があるアルゴリズムを供給するステップ; b)各鋳型が、異なる遺伝子特異的配列に操作可能に結合した前記約1000個のバーコード配列のうちの1個を含む、約1000個の異なる鋳型を生成するように前記転写物集団を処理するステップであって、前記約1000個の異なる鋳型が、前記集団内の総数より少ない転写物を表すステップと、c)前記約1000個の異なる鋳型のそれぞれの量を測定して、複数の測定値を生成するステップと、d)前記複数の測定値に前記アルゴリズムを適用し、それにより、前記集団内の測定されない転写物の発現レベルを予測するステップとを含む方法を企図する。一実施形態において、方法は、前記約1000個の異なる鋳型のそれぞれの量を測定する能力がある装置をさらに含む。一実施形態において、ビーズは光学的にアドレス指定される。一実施形態において、処理ステップは、ライゲーション媒介性増幅を含む。一実施形態において、測定ステップは、前記光学的にアドレス指定されたビーズを検出することを含む。一実施形態において、測定ステップは、前記約1000個の異なる鋳型を前記約1000個のビーズに、前記約1000個のバーコード配列に相補的な前記核酸プローブを通してハイブリダイズさせることを含む。一実施形態において、測定ステップは、フローサイトメーターを含む。一実施形態において、アルゴリズムに、依存マトリックスが関与する。

一実施形態において、本発明は、増幅された核酸配列を含む組成物であって、前記配列が、クラスターセントロイド転写物配列の少なくとも一部分およびバーコード配列を含み、前記組成物が光学的にアドレス指定されたビーズをさらに含み、前記ビーズが前記バーコードにハイブリダイズする捕獲プローブ核酸配列を含む組成物を企図する。一実施形態において、バーコード配列は、前記捕獲プローブ核酸に少なくとも部分的に相補的である。一実施形態において、増幅された核酸配列はビオチン化される。一実施形態において、光学的にアドレス指定されたビーズは、フローサイトメトリーシステムで検出可能である。一実施形態において、フローサイトメトリーシステムは、約500〜1000個の間の光学的にアドレス指定されたビーズを識別する。

一実施形態において、本発明は、ゲノムワイド発現プロファイルを生成するための方法であって、a)i)生体試料由来の複数のゲノム転写物; ii)前記ゲノム転写物の少なくとも一部分を含む複数のセントロイド転写物であって、前記残りの転写物が非セントロイド転写物である、複数のセントロイド転写物を供給するステップと、b)前記複数のセントロイド転写物の発現レベルを測定するステップと、c)前記セントロイド転写物発現レベルから前記非セントロイド転写物の発現レベルを推量し、それにより、ゲノムワイド発現プロファイルを生成するステップとを含む方法を企図する。一実施形態において、複数のセントロイド転写物は約1,000個の転写物を含む。一実施形態において、測定ステップは、マイクロアレイ、ビーズアレイ、液体アレイ、または核酸シークエンサーを含む群から選択される装置を含む。一実施形態において、推量ステップに、依存マトリックスが関与する。ゲノムワイド発現プロファイルは、前記生体試料を罹患しているものとして特定する。一実施形態において、ゲノムワイド発現プロファイルは、生体試料を健康であるものとして特定する。一実施形態において、ゲノムワイド発現プロファイルは、撹乱因子の作用の機能的読み取りを提供する。一実施形態において、ゲノムワイド発現プロファイルは、関連性マップに用いるのに適した発現プロファイルを含む。一実施形態において、発現プロファイルを、類似性についてクエリーシグネチャーと比較する。一実施形態において、ゲノムワイド発現プロファイルは、関連性マップに適合したクエリーシグネチャーを含む。一実施形態において、クエリーシグネチャーを、類似性について既知のゲノムワイド発現プロファイルと比較する。

一実施形態において、本発明は、a)トランスクリプトーム由来の複数のセントロイド転写物を含む第1の容器;b)生体試料内の前記複数のセントロイド転写物の発現レベルを測定することに適合した緩衝液および試薬を含む第2の容器;c)前記複数のセントロイド転写物の発現レベルに基づいて、前記生体試料内の非セントロイド転写物の発現レベルを推量するための1セットの使用説明書を含むキットを企図する。一実施形態において、複数のセントロイド転写物は約1,000個の転写物である。

一実施形態において、本発明は、トランスクリプトームワイドmRNA発現プロファイルを作成するための方法であって、a)i)全転写物の総数より実質的に少ない数からなる確証されたセントロイド転写物の組成物;ii)前記確証されたセントロイド転写物の発現レベルを測定する能力がある装置;iii)前記装置により測定された前記確証されたセントロイド転写物の発現レベル、および生体試料コレクション由来のトランスクリプトームワイドmRNA発現データのライブラリーから生成された転写物クラスター情報から、前記確証されたセントロイド転写物のセットの中にはない転写物の発現レベルを実質的に計算する能力があるアルゴリズム;ならびにiv)生体試料を供給するステップと、b)前記生体試料を前記装置にアプライし、それにより、前記生体試料における前記確証されたセントロイド転写物の発現レベルが測定されるステップと、c)前記アルゴリズムを前記測定値に適用し、それにより、トランスクリプトームワイドmRNA発現プロファイルを生成するステップとを含む方法を企図する。一実施形態において、確証されたセントロイド転写物は、約1,000個の転写物を含む。一実施形態において、装置は、マイクロアレイ、ビーズアレイ、液体アレイ、または核酸シークエンサーを含む群から選択される。一実施形態において、1セットの実質的に不変の転写物の発現レベルが、前記生体試料において追加的に測定される。一実施形態において、前記確証されたセントロイド転写物の発現レベルは、前記不変転写物の前記発現レベルに対して正規化される。

一実施形態において、本発明は、トランスクリプトームワイドmRNA発現プロファイリングプラットフォームを作成するための方法であって、a)i)第1の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第1のライブラリー;ii)第2の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第2のライブラリー;iii)転写物発現レベルを測定する能力がある装置を供給するステップと、b)複数の転写物クラスターが生成されるように前記第1のライブラリーで計算的分析を実施するステップであって、前記クラスターの数が全転写物の総数より実質的に少ないステップと、c)前記複数の転写物クラスターのそれぞれの内部でセントロイド転写物を特定し、それにより、複数のセントロイド転写物を生成するステップと、d)前記第1のライブラリーから1セットの実質的に不変の転写物を特定するステップと、e)前記第2の生体試料コレクション由来の転写物の少なくとも一部分の発現レベルを前記装置で測定するステップであって、前記転写物の部分が、前記第1のライブラリーから前記セントロイド転写物および前記不変転写物として特定された転写物を含むステップと、f)前記複数のセントロイド転写物の発現レベルの前記測定値の能力を決定して、前記第2のライブラリー由来の非セントロイド転写物の少なくとも一部分のレベルを推量するステップとを含む方法を企図する。一実施形態において、複数のセントロイド転写物は約1000個のセントロイド転写物である。一実施形態において、装置は、ゲノムワイドマイクロアレイを含む。一実施形態において、方法は、前記複数の転写物クラスターのそれぞれについての確証されたセントロイド転写物が特定されるまで、ステップc〜fを繰り返すことをさらに含む。一実施形態において、複数の転写物クラスターは直交性である。一実施形態において、複数の転写物クラスターは非重複性である。

一実施形態において、本発明は、トランスクリプトーム内の転写物レベルを予測するための方法であって、a)i)第1の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第1のライブラリー;ii)第2の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第2のライブラリー;iii)転写物発現レベルを測定する能力がある装置を供給するステップと、b)複数の転写物クラスターが生成されるように前記第1のライブラリーで計算的分析を実施するステップであって、前記クラスターの数が前記第1のライブラリーにおける全転写物の総数より少ないステップと、c)前記転写物クラスターのそれぞれの内部でセントロイド転写物を特定し、それにより、複数のセントロイド転写物を生成するステップであって、前記残りの転写物が非セントロイド転写物であるステップと、d)前記セントロイド転写物の発現レベルを測定するために、前記装置において前記第2のライブラリー転写物を処理するステップと、e)前記装置において測定された前記複数のセントロイド転写物のどれが、トランスクリプトームワイドデータの前記第2のライブラリーにおける前記非セントロイド転写物のレベルを予測するかを決定するステップとを含む方法を企図する。一実施形態において、複数のセントロイド転写物は約1000個のセントロイド転写物である。一実施形態において、装置は、マイクロアレイ、ビーズアレイ、または液体アレイを含む群から選択される。一実施形態において、計算的分析は、クラスター分析を含む。一実施形態において、特定ステップは、ステップc)〜e)を繰り返すことを含む。一実施形態において、処理ステップは、フローサイトメーターを利用する。一実施形態において、決定ステップは、前記セントロイド転写物と前記非セントロイド転写物との間の相関を特定する。

一実施形態において、本発明は、トランスクリプトームワイドmRNA発現プロファイリングプラットフォームを作成するための方法であって、a)i)第1の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第1のライブラリー;ii)第2の生体試料コレクション;iii)前記第2の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第2のライブラリー;iv)転写物発現レベルを測定する能力がある装置を供給するステップと、b)複数の転写物クラスターが生成されるように前記第1のライブラリーで計算的分析を実施するステップであって、前記クラスターの数が全転写物の総数より実質的に少ないステップと、c)前記転写物クラスターのそれぞれの内部でセントロイド転写物を特定し、それにより、複数のセントロイド転写物を生成するステップと、d)前記第2の生体試料コレクション由来の少なくとも一部分の転写物の発現レベルを前記装置で測定するステップであって、前記転写物の部分が、前記第1のライブラリーから前記セントロイド転写物として特定された転写物を含むステップと、e)前記セントロイド転写物の発現レベルの前記測定値が、前記第2のライブラリー由来の転写物の少なくとも一部分のレベルを推量する能力を決定するステップであって、前記部分が非セントロイド転写物で構成されるステップとを含む方法を企図する。一実施形態において、複数のセントロイド転写物は約1000個のセントロイド転写物である。一実施形態において、装置はマイクロアレイを含む。一実施形態において、装置はビーズアレイを含む。一実施形態において、装置は液体アレイを含む。方法は、前記複数の転写物クラスターのそれぞれについての確証されたセントロイド転写物が特定されるまで、ステップc〜eを繰り返すことをさらに含む。一実施形態において、複数の転写物クラスターは直交性である。一実施形態において、複数の転写物クラスターは非重複性である。一実施形態において、決定ステップに、前記セントロイド転写物と前記非セントロイド転写物との間の相関が関与する。一実施形態において、1セットの実質的に不変の転写物の発現レベルが、前記第2の生体試料コレクションにおいて前記装置で追加的に測定される。一実施形態において、前記装置で生じた前記セントロイド転写物の測定値、ならび
に前記第1および第2のライブラリー由来の前記mRNA発現データは、1セットの実質的に不変の転写物の発現レベルに対して正規化される。

一実施形態において、本発明は、トランスクリプトーム内の約1000個の予測転写物部分集団を特定するための方法であって、a)i)1000個より多い異なる転写物を表す第1の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第1のライブラリー、およびii)第2の生体試料コレクション由来の転写物を供給するステップと、b)複数の転写物クラスターが生成されるように前記第1のライブラリーで計算的分析を実施するステップであって、前記クラスターの数が約1000個であり、かつ前記第1のライブラリーにおける全転写物の総数より少ないステップと、c)前記転写物クラスターのそれぞれの内部でセントロイド転写物を特定するステップであって、前記残りの転写物が非セントロイド転写物であるステップと、d)非セントロイド転写物の発現レベルを測定して第1の測定値を生成し、かつセントロイド転写物の発現レベルを測定して第2の測定値を生成するために、前記第2の生体試料コレクション由来の転写物を処理するステップとe)前記第2の測定値に基づいたどのセントロイド転写物が、前記第1の測定値に基づいた前記非セントロイド転写物のレベルを予測するかを決定し、それにより、トランスクリプトーム内の予測転写物部分集団を特定するステップとを含む方法を企図する。一実施形態において、方法は、前記セントロイド転写物と付着する能力がある装置をさらに含む。一実施形態において、装置は、約1000個の前記セントロイド転写物と付着する。一実施形態において、計算的分析は、クラスター分析を含む。一実施形態において、特定ステップは、ステップc)〜e)を繰り返すことを含む。一実施形態において、処理ステップは、フローサイトメーターを利用する。一実施形態において、決定ステップは、前記セントロイド転写物と前記非セントロイド転写物との間の相関を特定する。

一実施形態において、本発明は、第2の転写物集団の発現レベルを測定することによって第1の転写物集団の発現レベルを予測するための方法であって、a)i)第2の不均一な転写物集団を含む第1の不均一な転写物集団であって、前記第2の集団が前記第1の集団のサブセットを含む、第1の不均一な転写物集団、ii)前記第2の集団内にはない、前記第1の集団内の転写物の発現レベルを予測する能力があるアルゴリズムであって、前記予測が前記第2の集団内の転写物の測定された発現レベルに基づいているアルゴリズムを供給するステップと、b)前記第2の転写物集団のみを表す複数の異なる鋳型が生成されるような条件下で、前記第1の不均一な転写物集団を処理するステップと、c)前記異なる鋳型のそれぞれの量を測定して、複数の測定値を生成するステップと、d)前記複数の測定値に前記アルゴリズムを適用し、それにより、前記第2の集団内にはない、前記第1の集団内の転写物の発現レベルを予測するステップとを含む方法を企図する。一実施形態において、第1の不均一な転写物集団は、複数の非セントロイド転写物を含む。一実施形態において、第2の不均一な転写物集団は、複数のセントロイド転写物を含む。一実施形態において、方法は、約1000個の前記セントロイド転写物と付着する能力がある装置をさらに含む。一実施形態において、測定ステップはフローサイトメーターを含む。一実施形態において、前記アルゴリズムを適用するステップは、前記セントロイド転写物と前記非セントロイド転写物との間の相関を特定する。

一実施形態において、本発明は、遺伝子発現をアッセイする方法であって、a)i)約1000個の異なるバーコード配列;ii)各ビーズが均一な1セットの核酸プローブを含み、各セットが前記約1000個のバーコード配列の異なるバーコード配列に相補的である、約1000個のビーズ;iii)各転写物が遺伝子特異的配列を含む、1000個より多い異なる転写物の集団;iv)測定されない転写物の発現レベルを予測する能力があるアルゴリズムを供給するステップと、b)各鋳型が、異なる遺伝子特異的配列に操作可能に結合した前記約1000個のバーコード配列のうちの1個を含む、約1000個の異なる鋳型を生成するように前記転写物集団を処理するステップであって、前記約1000個の異なる鋳型が、前記集団内の総数より少ない転写物を表すステップと、c)前記約1000個の異なる鋳型のそれぞれの量を測定して、複数の測定値を生成するステップと、d)前記複数の測定値に前記アルゴリズムを適用し、それにより、前記集団内の測定されない転写物の発現レベルを予測するステップとを含む方法を企図する。一実施形態において、方法は、約1000個の前記セントロイド転写物と付着する能力がある装置をさらに含む。一実施形態において、処理ステップは、ライゲーション媒介性増幅を含む。一実施形態において、ビーズは、光学的にアドレス可能である。一実施形態において、測定ステップは、前記光学的にアドレス可能なビーズを検出することを含む。一実施形態において、前記アルゴリズムを適用するステップは、前記測定される転写物と前記測定されない転写物との間の相関を特定することを含む。

一実施形態において、本発明は、増幅された核酸配列を含む組成物であって、前記配列が、クラスターセントロイドランドマーク転写物配列の少なくとも一部分およびバーコード配列を含み、前記組成物が光学的にアドレス可能なビーズをさらに含み、前記ビーズが前記バーコードにハイブリダイズする捕獲プローブ核酸配列を含む組成物を企図する。一実施形態において、バーコード配列は、前記捕獲プローブ核酸に少なくとも部分的に相補的である。一実施形態において、光学的にアドレス可能なビーズは色分けされている。一実施形態において、増幅された核酸配列はビオチン化されている。一実施形態において、光学的にアドレス可能なビーズは、フローサイトメトリーシステムで検出可能である。一実施形態において、フローサイトメトリーシステムは、約500〜1000個の間の光学的にアドレス可能なビーズを同時に識別する。

一実施形態において、本発明は、ゲノムワイド発現プロファイルを生成するための方法であって、a)i)生体試料由来の複数のゲノム転写物;およびii)前記ゲノム転写物の少なくとも一部分を含む複数のセントロイド転写物であって、前記残りのゲノム転写物が非セントロイド転写物である、複数のセントロイド転写物を供給するステップと、b)前記複数のセントロイド転写物の発現レベルを測定するステップと、c)前記セントロイド転写物発現レベルから前記非セントロイド転写物の発現レベルを推量し、それにより、ゲノムワイド発現プロファイルを生成するステップとを含む方法を企図する。一実施形態において、複数のセントロイド転写物は約1,000個の転写物を含む。一実施形態において、ゲノムワイド発現プロファイルは、前記生体試料を罹患しているものとして特定する。一実施形態において、ゲノムワイド発現プロファイルは、生体試料を健康であるものとして特定する。一実施形態において、ゲノムワイド発現プロファイルは、関連性マップに適合したクエリーシグネチャーを含む。一実施形態において、クエリーシグネチャーを、類似性について既知のゲノムワイド発現プロファイルと比較する。

一実施形態において、本発明は、トランスクリプトーム内の予測転写物部分集団を特定するための方法であって、a)i)転写物の発現レベルを測定するための装置、ii)第1の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第1のライブラリー、およびiii)第2の生体試料コレクション由来の転写物を供給するステップと、b)複数の転写物クラスターが生成されるように前記第1ライブラリーで計算的分析を実施するステップであって、前記クラスターの数が前記第1ライブラリーにおける全転写物の総数より少ないステップと、c)前記転写物クラスターのそれぞれの内部でセントロイド転写物を特定するステップであって、前記残りの転写物が非セントロイド転写物であるステップと、d)前記装置を用いて、非セントロイド転写物の発現レベルを測定して第1の測定値を生成し、かつセントロイド転写物の発現レベルを測定して第2の測定値を生成するために、前記第2の生体試料コレクション由来の転写物を処理するステップと、e)前記第2の測定値に基づいたどのセントロイド転写物が、前記第1の測定値に基づいた前記非セントロイド転写物のレベルを予測するかを決定し、それにより、トランスクリプトーム内の予測転写物部分集団を特定するステップとを含む方法を企図する。一実施形態において、装置はマイクロアレイを含む。一実施形態において、計算的分析はクラスター分析を含む。一実施形態において、特定ステップは反復性確証アルゴリズムを含む。一実施形態において、処理ステップはクラスター依存マトリックスを利用する。一実施形態において、決定ステップは、前記セントロイド転写物と前記非セントロイド転写物との間の依存マトリックスを特定する。

一実施形態において、本発明は、トランスクリプトーム内の約1000個の予測転写物部分集団を特定するための方法であって、a)i)転写物の発現レベルを測定するための装置、ii)1000個より多い異なる転写物を表す、第1の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第1のライブラリー、およびiii)第2の生体試料コレクション由来の転写物を供給するステップと、b)複数の転写物クラスターが生成されるように前記第1のライブラリーで計算的分析を実施するステップであって、前記クラスターの数が約1000個であり、かつ前記第1のライブラリーにおける全転写物の総数より少ないステップと、c)前記転写物クラスターのそれぞれの内部でセントロイド転写物を特定するステップであって、前記残りの転写物が非セントロイド転写物であるステップと、d)前記装置を用いて、非セントロイド転写物の発現レベルを測定して第1の測定値を生成し、かつセントロイド転写物の発現レベルを測定して第2の測定値を生成するために、前記第2の生体試料コレクション由来の転写物を処理するステップと、e)前記第2の測定値に基づいたどのセントロイド転写物が、前記第1の測定値に基づいた前記非セントロイド転写物のレベルを予測するかを決定し、それにより、トランスクリプトーム内の予測転写物部分集団を特定するステップとを含む方法を企図する。一実施形態において、装置はマイクロアレイを含む。一実施形態において、計算的分析はクラスター分析を含む。一実施形態において、特定ステップは反復性確証アルゴリズムを含む。一実施形態において、処理ステップはクラスター依存マトリックスを利用する。一実施形態において、決定ステップは、前記セントロイド転写物と前記非セントロイド転写物との間の依存マトリックスを特定する。

一実施形態において、本発明は、第2の転写物集団の発現レベルを測定することによって第1の転写物集団の発現レベルを予測するための方法であって、a)i)第2の不均一な転写物集団を含む第1の不均一な転写物集団であって、前記第2の集団が前記第1の集団のサブセットを含む、第1の不均一な転写物集団、ii)装置、iii)前記第2の集団内にはない、前記第1の集団内の転写物の発現レベルを予測する能力があるアルゴリズムであって、前記予測が、前記第2の集団内の転写物の測定された発現レベルに基づいているアルゴリズムを供給するステップと、b)前記第2の転写物集団のみを表す複数の異なる鋳型が生成されるような条件下で、前記第1の不均一な転写物集団を処理するステップと、c)前記異なる鋳型のそれぞれの量を前記装置で測定して複数の測定値を生成するステップと、d)前記複数の測定値に前記アルゴリズムを適用し、それにより、前記第2の集団内にはない、前記第1の集団内の転写物の発現レベルを予測するステップとを含む方法を企図する。一実施形態において、第1の不均一な転写物集団は、複数の非セントロイド転写物を含む。一実施形態において、第2の不均一な転写物集団は、複数のセントロイド転写物を含む。一実施形態において、装置はマイクロアレイを含む。一実施形態において、処理ステップは、次元減少およびクラスター分析からなる群から選択される計算法を含む。一実施形態において、前記アルゴリズムを適用するステップは、前記セントロイド転写物と前記非セントロイド転写物との依存マトリックスを特定する。

一実施形態において、本発明は、遺伝子発現をアッセイする方法であって、a)i)約1000個の異なるバーコード配列;ii)各ビーズが均一な1セットの核酸プローブを含み、各セットが前記約1000個のバーコード配列の異なるバーコード配列に相補的である、約1000個のビーズ;iii)各転写物が遺伝子特異的配列を含む、1000個より多い異なる転写物の集団;iv)装置;およびv)測定されない転写物の発現レベルを予測する能力があるアルゴリズムを供給するステップと、b)各鋳型が、異なる遺伝子特異的配列に操作可能に結合した前記約1000個のバーコード配列のうちの1個を含む、約1000個の異なる鋳型を生成するように前記転写物集団を処理するステップであって、前記約1000個の異なる鋳型が、前記集団内の総数より少ない転写物を表すステップと、c)前記約1000個の異なる鋳型のそれぞれの量を前記装置で測定して、複数の測定値を生成するステップと、d)前記複数の測定値に前記アルゴリズムを適用し、それにより、前記集団内の測定されない転写物の発現レベルを予測するステップとを含む方法を企図する。一実施形態において、装置はマイクロアレイを含む。一実施形態において、処理ステップは、ライゲーション媒介性増幅を含む。一実施形態において、ビーズは、光学的にアドレス可能である。一実施形態において、測定ステップは、前記光学的にアドレス可能なビーズを検出することを含む。一実施形態において、前記アルゴリズムを適用するステップは、前記測定される転写物と前記測定されない転写物との間の依存マトリックスを特定する。

一実施形態において、本発明は、トランスクリプトームワイドmRNA発現プロファイリングプラットフォームを作成するための方法であって、a)第1の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第1のライブラリーを供給するステップと、b)複数の(直交性/非重複性)転写物クラスターが生成されるように前記ライブラリーで計算的分析を実施するステップであって、前記クラスターの数が全転写物の総数より実質的に少ないステップと、c)前記転写物クラスターのそれぞれの内部でセントロイド転写物を特定するステップと、d)そのレベルが前記第1の生体試料コレクションにわたって実質的に不変である、前記トランスクリプトームワイドmRNA発現データライブラリーから1セットの転写物を特定するステップ;e)前記セントロイド転写物および前記不変転写物の少なくとも一部分のレベルを(同時に)測定するための装置を供給するステップと、f)前記装置を用いて作成されたセントロイド転写物の前記測定値が、第2の生体試料コレクション由来のそれのクラスター内の他の転写物のレベルを表す能力を決定するステップと、g)前記複数の転写物クラスターのそれぞれについての確証されたセントロイド転写物が特定されるまで、ステップc〜fを繰り返すステップとを含む方法を企図する。

一実施形態において、本発明は、トランスクリプトームワイドmRNA発現プロファイリングプラットフォームを用いるための方法であって、a)i)全転写物の総数より実質的に少ない数からなる確証されたセントロイド転写物の組成物;ii)前記確証されたセントロイド転写物のレベルを測定する能力がある装置;iii)前記装置により測定された前記確証されたセントロイド転写物の発現レベル、および生体試料コレクション由来のトランスクリプトームワイドmRNA発現データのライブラリーから生成された転写物クラスター情報から、前記確証されたセントロイド転写物のセットの中にはない転写物のレベルを実質的に計算する能力があるアルゴリズム;ならびにiv)生体試料を供給するステップと、b)前記生体試料を前記装置にアプライし、それにより、前記生体試料における前記確証されたセントロイド転写物のレベルが測定されるステップと、c)前記アルゴリズムを前記測定値に適用し、それにより、トランスクリプトームワイドmRNA発現プロファイルを生成するステップとを含む方法を企図する。

定義
本明細書で用いられる場合、用語「装置」とは、転写物の発現レベルを測定する能力がある任意の構成物を指す。例えば、装置は、核酸と付着する能力がある固体の平面状基板(すなわち、オリゴヌクレオチドマイクロアレイ)を含んでもよい。あるいは、装置は、溶液に基づいたビーズアレイを含んでもよく、核酸がビーズに付着し、フローサイトメーターを用いて検出される。あるいは、装置は、核酸シークエンサーを含んでもよい。他の例において、装置は、本発明によって企図されているような複数のクラスターセントロイドランドマーク転写物を含んでもよい。

本明細書で用いられる場合、用語「捕獲プローブ」とは、核酸(すなわち、例えば、バーコード核酸)に付着および/または結合する能力がある任意の分子を指す。例えば、捕獲プローブは、ビーズに付着したオリゴヌクレオチドであってもよく、そのオリゴヌクレオチドは別のオリゴヌクレオチドに少なくとも部分的に相補的である。あるいは、捕獲プローブは、ポリエチレングリコールリンカー、抗体、ポリクローナル抗体、モノクローナル抗体、Fab断片、生物学的受容体複合体、酵素、ホルモン、抗原、および/またはそれらの断片もしくは部分を含んでもよい。

本明細書で用いられる場合、用語「LMF」とは、ライゲーション(ligation)媒介性増幅と、光学的にアドレス指定され、かつバーコード付加されたミクロスフェア(microspheres)と、フロー(flow)サイトメトリー検出とを組み合わせた任意の方法についての頭字語を指す。Peckら、「A method for high-throughput gene expression signature analysis」Genome Biol 7:R61頁(2006)を参照されたい。

本明細書で用いられる場合、用語「転写物」は、一般的にmRNAとして特徴づけられる、DNA転写の任意の産物を指す。発現した転写物は、遺伝子発現の信頼できる指標として認識されている。

本明細書で用いられる場合、用語「遺伝子発現プロファイル」とは、ゲノム内のかなりの部分の遺伝子の発現レベルを表す任意のデータセット(すなわち、例えば、トランスクリプトーム)を指す。

本明細書で用いられる場合、用語「セントロイド転写物」とは、転写物クラスターの中心部分内にある、または転写物クラスターを代表する任意の転写物を指す。さらに、セントロイド転写物の発現レベルは、同じクラスター内の非セントロイド転写物の発現レベルを予測し得る。

本明細書で用いられる場合、用語「非セントロイド転写物」とは、セントロイド転写物ではない、転写物クラスターにおける任意の転写物を指す。非セントロイド転写物の発現レベルは、セントロイド転写物の発現レベルによって予測(例えば、推量)され得る。

本明細書で用いられる場合、用語「クラスターセントロイドランドマーク転写物」とは、セントロイド転写物として特定された任意の転写物であり、それの発現レベルが、同じクラスター内の非セントロイド転写物の発現レベルを予測(例えば、推量)し、任意で、他のクラスターにおける非セントロイド転写物の発現レベルの予測に寄与し得る。

本明細書で用いられる場合、用語「計算的分析」とは、転写物クラスターの特定を生じる任意の数学的過程を指し、その転写物はトランスクリプトームに由来する。例えば、計算的分析における特定のステップには、次元減少および/またはクラスター分析を挙げることができるが、それらに限定されない。

本明細書で用いられる場合、用語「依存マトリックス」とは、複数のセントロイドランドマーク転写物の発現レベルを、トランスクリプトームワイド遺伝子発現プロファイルのライブラリーの数学的分析(すなわち、例えば、回帰)によって作成された非セントロイド転写物の発現レベルと関連づける重み(すなわち、因子)の表を指す。クラスター依存マトリックスは、遺伝子発現プロファイルの不均一なライブラリー、または特定の組織、器官、もしくは疾患クラス由来の遺伝子発現プロファイルのライブラリーから作成されてもよい。

本明細書で用いられる場合、用語「転写物の発現レベルを予測する能力があるアルゴリズム」とは、クラスターセントロイドランドマーク転写物および依存マトリックスの発現レベルを仮定すれば、非セントロイド転写物の発現レベルを計算する任意の数学的過程を指す。

本明細書で用いられる場合、用語「不変転写物」とは、細胞型もしくは組織型、または撹乱作用物質(すなわち、例えば、撹乱因子)の存在に関係なく、およそ同じレベルのままである任意の転写物を指す。不変転写物またはそのセットは、遺伝子発現データを正規化するための内部対照として有用であり得る。

本明細書で用いられる場合、用語「中程度に多重化したアッセイプラットフォーム」とは、トランスクリプトームにおけるわずかな(すなわち、例えば、約10個より多く、かつ約2,000個より少ない)転写物の発現レベルの同時的測定をもたらす能力がある任意のテクノロジーを指す。

本明細書で用いられる場合、用語「関連性マップ(Connectivity Map)」とは、Lambら、「The Connectivity Map: using gene-expression signatures to connect small molecules, genes and disease」Science 313:1929頁(2006)によって記載されているように、複数の撹乱因子で処理された培養ヒト細胞由来のトランスクリプトームワイド遺伝子発現プロファイル、ならびにそれらのプロファイルと外部の遺伝子発現データとの間の有意な類似性のスコアリングおよび特定のためのパターンマッチングアルゴリズムの公開データベースを指す。関連性マップのBuild02は、1,309個の小分子撹乱因子の生物学的効果を示すAffymetrix高密度オリゴヌクレオチドマイクロアレイを用いて作成された7,056個の完全トランスクリプトーム遺伝子発現プロファイルを含有し、broadinstitute.org/cmapで利用できる。

本明細書で用いられる場合、用語「クエリーシグネチャー」とは、関連性マップに質問するのに適している遺伝子発現プロファイルに由来した、2つの細胞状態間(例えば、小分子で処理された細胞、対その小分子が消失している媒体で処理された細胞)の上方制御遺伝子および下方制御遺伝子の任意のセットを指す。例えば、「クエリーシグネチャー」は、全ての遺伝子をそれらのそれぞれの発現レベルで明示する「発現プロファイル」とは対照的に、関心対象となる識別(例えば、疾患対正常)において示差的に発現した遺伝子のリストを含み得る。

本明細書で用いられる場合、用語「関連性スコア」とは、クエリーシグネチャーを作成するために用いられた撹乱因子の生物学的効果の、関連性マップに示された撹乱因子の生物学的効果との類似性の、その撹乱因子での単回処理の遺伝子発現プロファイルに基づいた相対的測定値を指す。例えば、既知のヒストンデアセチラーゼ(HDAC)阻害剤であるボリノスタットでのあらゆる処理事例が、HDAC阻害剤のパネルでの処理の効果から作成されたクエリーシグネチャーと高い関連性スコアを有することが予想される。

本明細書で用いられる場合、用語「濃縮スコア」とは、クエリーシグネチャーを作成するために用いられた撹乱因子の生物学的効果の、関連性マップに示された撹乱因子の生物学的効果との類似性の、その撹乱因子での複数回の独立した処理の遺伝子発現プロファイルに基づいた測定値を指す。

本明細書で用いられる場合、用語「鋳型」とは、クラスターセントロイドランドマーク遺伝子転写物核酸配列の少なくとも一部分を表す任意の安定な核酸構造を指す。鋳型は、相補的な核酸配列の作製を可能にする役割を果たし得る。

本明細書で用いられる場合、用語「由来する」とは、生体試料の源を指し、その試料は核酸配列を含んでもよい。一つの関係において、試料または配列は、生物体または特定の種に由来してもよい。別の関係において、試料または配列は、より大きい組成物または配列に由来してもよい(すなわち、例えば、より小さい部分および/または断片)。

本明細書で用いられる場合、用語「精製された」または「単離された」とは、様々な他の成分を除去するための処理(すなわち、例えば、分画)を受けている組成物の成分を指すことができる。用語「実質的に精製された」が用いられる場合、この意味は、組成物の約50%、約60%、約70%、約80%、約90%、約95%、またはそれ以上(すなわち、例えば、重量/重量および/または重量/体積)を構成するなどの、核酸配列が組成物の主要な成分を形成する組成物を指す。用語「均一まで精製された」とは、単一の核酸種があるように(すなわち、例えば、SDS-PAGEまたはHPLC分析に基づいて)「見かけの均一」まで精製されている組成物を含むように用いられる。精製された組成物は、いくつかの微量不純物が残存する可能性があることを意味するものではない。

本明細書で用いられる場合、用語「実質的に精製された」とは、核酸配列などの分子が、それらの天然の環境から取り出され、単離または分離され、かつそれらが天然で付随している他の成分を少なくとも60%含まない、好ましくは75%含まない、より好ましくは90%含まない、分子を指す。したがって、「単離されたポリヌクレオチド」は実質的に精製されたポリヌクレオチドである。

本明細書で用いられる場合、「核酸配列」および「ヌクレオチド配列」とは、一本鎖でも二本鎖でもよく、かつセンス鎖またはアンチセンス鎖を表してもよい、ゲノム起源または合成起源の、オリゴヌクレオチドまたはポリヌクレオチド、およびその断片または部分、ならびにDNAまたはRNAを指す。

本明細書で用いられる場合、用語「単離された核酸」とは、それの天然状態から取り出されている(例えば、細胞から取り出されており、好ましい実施形態において、他のゲノム核酸を含まない)任意の核酸分子を指す。

ヌクレオチド配列に関して用いられる場合、用語「部分または断片」とは、そのヌクレオチド配列のより小さいサブセットを指す。例えば、そのような部分または断片は、5ヌクレオチド残基から、全ヌクレオチド配列マイナス1核酸残基までのサイズの範囲であり得る。

本明細書で用いられる場合、用語「有機小分子」とは、医薬品において一般的に用いられる有機分子に匹敵するサイズの任意の分子を指す。その用語は、生体高分子(例えば、タンパク質、核酸など)を除外する。好ましい有機小分子は、およそ10Daから約5000Daまで、より好ましくは2000Daまで、最も好ましくは約1000Daまでのサイズの範囲である。

本明細書で用いられる場合、用語「試料」は、それの最も広い意味で用いられ、それには、環境試料および生体試料が挙げられる。環境試料には、土壌および水などの環境からの材料が挙げられる。生体試料は、ヒトを含む動物、液体(例えば、血液、血漿、および血清)、固体(例えば、糞便)、組織、液体食物(例えば、乳)、および固体食物(例えば、野菜)であってもよい。例えば、肺性試料は、肺組織由来の液体および細胞を含む気管支肺胞洗浄(BAL)によって収集されてもよい。生体試料は、細胞、組織抽出物、体液、細胞から単離された染色体または染色体外要素、(溶液中、またはサザンブロット分析用などの固体支持体に結合した)ゲノムDNA、(溶液中、またはノーザンブロット分析用などの固体支持体に結合した) RNA、(溶液中、または固体支持体に結合した) cDNAなどを含んでもよい。

本明細書で用いられる場合、用語「機能的等価のコドン」とは、同じアミノ酸をコードする異なるコドンを指す。この現象は、遺伝暗号の「縮重」と呼ばれることが多い。例えば、6つの異なるコドンがアミノ酸アルギニンをコードする。

ヌクレオチドの「変異体」は、欠失、挿入、および置換を有することによって参照オリゴヌクレオチドと異なる新規なヌクレオチド配列として定義される。これらは、様々な方法(例えば、シークエンシング、ハイブリダイゼーションアッセイなど)を用いて検出することができる。

「欠失」は、天然配列に対して1個または複数のヌクレオチドが欠如している、ヌクレオチド配列における変化として定義される。

「挿入」または「付加」は、結果として天然配列に対して1個または複数のヌクレオチドの付加が生じている、ヌクレオチド配列における変化である。「置換」は、1個または複数のヌクレオチドの、異なるヌクレオチドまたはアミノ酸、それぞれによる置き換えによって生じ、天然配列と同じ長さであってもよいが、異なる配列を有する。

本明細書で用いられる場合、用語「誘導体」とは、核酸の任意の化学的修飾を指す。そのような修飾の実例としては、アルキル基、アシル基、またはアミノ基による水素の置き換えである。例えば、核酸誘導体は、本質的な生物学的特性を保持するポリペプチドをコードする。

本明細書で用いられる場合、用語「相補的な」または「相補性」は、塩基対形成ルールによって関連づけられた、(ヌクレオチドの配列に言及する交換可能な用語である)「ポリヌクレオチド」および「オリゴヌクレオチド」に関して用いられる。例えば、配列「C-A-G-T」は、配列「G-T-C-A」に相補的である。相補性は、「部分的」または「全体的」であり得る。「部分的」相補性は、1個または複数の核酸塩基が塩基対形成ルールに従ってマッチングしていない場合である。核酸間の「全体的」または「完全」相補性は、ありとあらゆる核酸塩基が塩基対形成ルールによりもう一つの塩基とマッチングしている場合である。核酸鎖間の相補性の程度は、核酸鎖間のハイブリダイゼーションの効率および強度に有意な効果を生じる。これは、増幅反応、および核酸間の結合に依存する検出方法において特に重要である。

ヌクレオチド配列に関して本明細書で用いられる場合、用語「相同性」および「相同の」とは、他のヌクレオチド配列との相補性の程度を指す。部分的相同性または完全相同性(すなわち、同一性)があり得る。核酸配列と部分的に相補的である、すなわち、ヌクレオチド配列と「実質的に相同である」ヌクレオチド配列は、完全に相補的な配列が標的核酸配列にハイブリダイズするのを少なくとも部分的に阻害するものである。完全に相補的な配列の標的配列へのハイブリダイゼーションの阻害は、低ストリンジェンシーの条件下でハイブリダイゼーションアッセイ(サザンまたはノーザンブロット、溶液ハイブリダイゼーションなど)を用いて調べることができる。実質的に相同の配列またはプローブは、低ストリンジェンシーの条件下で、完全に相同の配列の標的配列への結合(すなわち、ハイブリダイゼーション)において競合し、かつそれを阻害するであろう。これは、低ストリンジェンシーの条件が非特異的結合を可能にすると言っているわけではない;低ストリンジェンシー条件は、2つの配列のお互いとの結合が特異的(すなわち、選択的)相互作用であることを必要とする。非特異的結合が存在しないことは、部分的程度の相補性さえも欠く(例えば、約30%未満の同一性)第2の標的配列を用いることにより試験することができる;非特異的結合の非存在下において、プローブは第2の非相補的標的にハイブリダイズしないであろう。

アミノ酸配列に関して本明細書で用いられる場合、用語「相同性」および「相同の」とは、2つのアミノ酸配列間の一次構造の同一性の程度を指す。そのような同一性の程度は、各アミノ酸配列の一部に対するものでもよく、またはアミノ酸配列の全長に対するものでもよい。「実質的に相同」である2つ以上のアミノ酸配列は、少なくとも50%同一性、好ましくは少なくとも75%同一性、より好ましくは少なくとも85%同一性、最も好ましくは少なくとも95%同一性、または100%同一性を有し得る。

「相同」であるオリゴヌクレオチド配列は、本明細書では、100bpまたはそれ以上の長さを有する配列を比較する場合、配列に対して50%以上の同一性を示すオリゴヌクレオチド配列として定義される。

低ストリンジェンシーの条件は、約500ヌクレオチド長のプローブが用いられる場合、5×SSPE(43.8g/l NaCl、6.9g/l NaH2PO4・H2O、および1.85g/l EDTA、NaOHで7.4に調整されたpH)、0.1%SDS、5×デンハルト液{50×デンハルト液は、500mlあたり、5g Ficoll(Type 400、Pharmacia)、5 g BSA (Fraction V;Sigma)を含有する}、および100μg/ml変性サケ精子DNAからなる溶液中、42℃における結合またはハイブリダイゼーション、続いて5×SSPE、0.1%SDSを含む溶液中、42℃における洗浄と等価の条件を含む。低ストリンジェンシーの条件を構成する多数の等価の条件もまた用いられてもよい;プローブの長さおよび性質(DNA、RNA、塩基組成)、ならびに標的の性質(DNA、RNA、塩基組成、溶液中に存在し、または固定化されているなど)、ならびに塩および他の成分(例えば、ホルムアミド、デキストラン硫酸、ポリエチレングリコールの存在または非存在)の濃度、加えて、ハイブリダイゼーション溶液の成分などの因子は、上記に列挙された条件とは異なるが、等価である低ストリンジェンシーのハイブリダイゼーション条件を生じるように変更されてもよい。さらに、高ストリンジェンシーの条件(ハイブリダイゼーションおよび/または洗浄ステップの温度の上昇、ハイブリダイゼーション溶液中のホルムアミドの使用など)下でハイブリダイゼーションを促進する条件もまた用いられてもよい。

本明細書で用いられる場合、用語「ハイブリダイゼーション」は、核酸鎖が、塩基対形成を通して相補鎖と結合してハイブリダイゼーション複合体を形成する任意の過程を用いる相補的核酸の対形成に関して用いられる。ハイブリダイゼーションおよびハイブリダイゼーションの強度(すなわち、核酸間での会合の強度)は、核酸間の相補性の程度、関与する条件のストリンジェンシー、形成されるハイブリッドのTm、および核酸内のG:C比などの因子によって影響される。

本明細書で用いられる場合、用語「ハイブリダイゼーション複合体」は、相補的なG塩基とC塩基との間、および相補的なA塩基とT塩基との間の水素結合の形成によって2つの核酸配列間に形成される複合体を指す;これらの水素結合は、塩基スタッキング相互作用によってさらに安定化され得る。2つの相補的核酸配列は、逆平行配置で水素結合する。ハイブリダイゼーション複合体は、溶液中で(例えば、C0 tまたはR0 t分析)、または溶液中に存在する一方の核酸配列と固体支持体(例えば、サザンおよびノーザンブロッティング、ドットブロッティングに用いられるようなナイロン膜もしくはニトロセルロースフィルター、またはFISH(蛍光インサイチュハイブリダイゼーション)を含むインサイチュハイブリダイゼーションに用いられるようなガラススライド)に固定化されたもう一方の核酸配列との間で形成されてもよい。

本明細書で用いられる場合、用語「Tm」は、「融解温度」に関して用いられる。融解温度は、二本鎖核酸分子の集団の半分が一本鎖に解離するようになる温度である。標準的基準によって示されているように、Tm値の簡単な見積もりは、核酸が1M NaClの水溶液中にある場合、式:Tm=81.5+0.41(%G+C)によって計算することができる。Andersonら、「Quantitative Filter Hybridization」、Nucleic Acid Hybridization (1985)。より精巧な算出は、Tmの計算について構造的特性および配列特性を考慮に入れる。

本明細書で用いられる場合、用語「ストリンジェンシー」は、核酸ハイブリダイゼーションが行われる、温度、イオン強度、および有機溶媒などの他の化合物の存在の条件に関して用いられる。「ストリンジェンシー」は、典型的には、約Tmから、Tmより約20℃〜25℃低い温度までの範囲で生じる。「ストリンジェントなハイブリダイゼーション」は、同一のポリヌクレオチド配列を特定もしくは検出するために、または類似もしくは関連したポリヌクレオチド配列を特定もしくは検出するために用いることができる。例えば、配列番号2の断片がストリンジェントな条件下でハイブリダイゼーション反応に用いられる場合、固有の配列(すなわち、配列番号2と非相同である領域か、または配列番号2と約50%未満の相同性もしくは相補性を含む領域かのいずれか)を含有する配列番号2の断片のハイブリダイゼーションが好ましい。あるいは、「弱い」または「低い」ストリンジェンシーの条件が用いられる場合、ハイブリダイゼーションは、遺伝的に多様である生物体(すなわち、例えば、相補配列の頻度が通常、そのような生物体間では低い)に由来する核酸について起こり得る。

本明細書で用いられる場合、用語「増幅可能な核酸」は、任意の増幅方法によって増幅され得る核酸に関して用いられる。「増幅可能な核酸」は通常、「試料鋳型」を含むことが企図される。

本明細書で用いられる場合、用語「試料鋳型」は、関心対象となる標的配列の存在について分析される試料から生じる核酸を指す。対照的に、「バックグラウンド鋳型」は、試料に存在する可能性もあるし、存在しない可能性もある、試料鋳型以外の核酸に関して用いられる。バックグラウンド鋳型は、ほとんどの場合、不注意による。それはキャリーオーバーの結果である場合もあるし、または試料から精製して除去しようとされた核酸夾雑物の存在による場合もある。例えば、検出されることになっているもの以外の生物体由来の核酸が、試験試料においてバックグラウンドとして存在する可能性がある。

「増幅」は、核酸配列の追加のコピーの産生として定義され、一般的に、ポリメラーゼ連鎖反応を用いて行われる。Dieffenbach C. W.およびG. S. Dveksler (1995)、PCR Primer, a Laboratory Manual、Cold Spring Harbor Press、Plainview、N.Y.。

本明細書で用いられる場合、用語「ポリメラーゼ連鎖反応」(「PCR」)とは、参照により本明細書に組み入れられたK. B. Mullis、米国特許第4,683,195号および第4,683,202号の方法を指し、その特許は、クローニングまたは精製なしに、ゲノムDNAの混合物において標的配列のセグメントの濃度を増加させるための方法を記載する。所望の標的配列の増幅されたセグメントの長さは、2つのオリゴヌクレオチドプライマーのお互いに対する相対的な位置によって決定され、したがって、この長さは制御可能なパラメータである。その過程を繰り返すという側面によって、その方法は「ポリメラーゼ連鎖反応」(以下「PCR」)と呼ばれる。標的配列の所望の増幅されたセグメントは、混合物において(濃度の点から)優勢な配列となるため、それらは「PCR増幅されている」と言われる。PCRに関して、ゲノムDNAにおける特定の標的配列の単一コピーを、いくつかの異なる方法体系(例えば、標識プローブでのハイブリダイゼーション;ビオチン化プライマーの取り込み、続いてアビジン-酵素コンジュゲートの検出;32P標識された、dCTPまたはdATPなどのデオキシヌクレオチド三リン酸の増幅されたセグメントへの取り込み)により検出可能なレベルまで増幅することが可能である。ゲノムDNAに加えて、任意のオリゴヌクレオチド配列が、適切なセットのプライマー分子で増幅することができる。特に、PCR工程自体によって生じた増幅されたセグメントが、それら自体、次のPCR増幅の効率的な鋳型である。

本明細書で用いられる場合、用語「プライマー」は、精製された制限酵素消化物においてのように天然に存在しようと、合成的に作製されていようとに関わらず、核酸鎖に相補的であるプライマー伸長産物の合成が誘導される条件下に置かれた場合(すなわち、ヌクレオチドおよびDNAポリメラーゼなどの誘導剤の存在下で、かつ適切な温度およびpHにおいて)、合成の開始点として働く能力があるオリゴヌクレオチドを指す。プライマーは、好ましくは、増幅における最大効率のために一本鎖であるが、代わりとして、二本鎖であってもよい。二本鎖である場合には、プライマーは、伸長産物を調製するために用いられる前に、まず、その鎖を分離するように処理される。好ましくは、プライマーはオリゴデオキシ-リボヌクレオチドである。プライマーは、誘導剤の存在下で伸長産物の合成をプライムするのに十分長くなければならない。プライマーの正確な長さは、温度、プライマーの源、および方法の用途を含む多くの因子に依存する。

本明細書で用いられる場合、用語「プローブ」は、精製された制限酵素消化物においてのように天然に存在しようと、合成的に、組換えで、またはPCR増幅によって作製されていようとに関わらず、関心対象となる別のオリゴヌクレオチドにハイブリダイズする能力があるオリゴヌクレオチド(すなわち、ヌクレオチドの配列)を指す。プローブは一本鎖でも二本鎖でもよい。プローブは、特定の遺伝子配列の検出、特定、および単離において有用である。本発明に用いられる任意のプローブが任意の「レポーター分子」で標識され、それによって任意の検出系において検出可能であることが企図され、その検出系には、酵素系(例えば、ELISA、および酵素に基づいた組織化学的アッセイ)、蛍光系、放射性系、および発光系が挙げられるが、それらに限定されない。本発明は、いかなる特定の検出系または標識にも限定されるものではない。

本明細書で用いられる場合、用語「制限エンドヌクレアーゼ」および「制限酵素」とは、それぞれが、二本鎖DNAを特定のヌクレオチド配列で、またはそれの近くで切断する、細菌酵素を指す。

DNA分子は、「5'末端」および「3'末端」を有すると言われ、その理由は、モノヌクレオチドが、1個のモノヌクレオチド五炭糖環の5'リン酸がそれの隣接するヌクレオチドの3'酸素へホスホジエステル結合を介して一方向に付着するような様式で、オリゴヌクレオチドを生成するように反応するからである。したがって、オリゴヌクレオチドの末端は、それの5'リン酸がモノヌクレオチド五炭糖環の3'酸素に連結されていない場合には、「5'末端」と呼ばれる。オリゴヌクレオチドの末端は、それの3'酸素が別のモノヌクレオチド五炭糖環の5'リン酸に連結されていない場合には、「3'末端」と呼ばれる。本明細書で用いられる場合、核酸配列は、より大きいオリゴヌクレオチドの内部にある場合でさえもまた、5'末端および3'末端を有すると言われてもよい。線状または環状DNA分子のいずれにおいても、別個のエレメントは、「下流」または3'側のエレメントの「上流」または5'側にあると呼ばれる。この用語法は、転写がDNA鎖に沿って5'から3'への様式で進行するという事実を反映している。連結された遺伝子の転写を方向づけるプロモーターおよびエンハンサーのエレメントは、一般的に、コード領域の5'側または上流に位置する。しかしながら、エンハンサーエレメントは、プロモーターエレメントおよびコード領域の3'側に位置する場合でも、それらの効果を発揮することができる。転写終結およびポリアデニル化シグナルは、コード領域の3'側または下流に位置する。

本明細書で用いられる場合、用語「遺伝子をコードするヌクレオチド配列を有するオリゴヌクレオチド」は、遺伝子のコード領域を含む核酸配列、すなわち、遺伝子産物をコードする核酸配列を意味する。コード領域は、cDNA、ゲノムDNA、またはRNAの形で存在し得る。DNAの形で存在する場合、オリゴヌクレオチドは、一本鎖(すなわち、センス鎖)でも二本鎖でもよい。エンハンサー/プロモーター、スプライス接合部、ポリアデニル化シグナルなどの適切な調節エレメントは、正しい転写開始を可能にし、および/または一次RNA転写物のプロセシングを修正することを必要とされる場合には、遺伝子のコード領域に極めて接近して配置されてもよい。あるいは、本発明の発現ベクターに利用されるコード領域は、内因性エンハンサー/プロモーター、スプライス接合部、介在配列、ポリアデニル化シグナルなど、または内因性調節エレメントと外因性調節エレメントの両方の組み合わせを含有してもよい。

本明細書で用いられる場合、用語「ポリA部位」または「ポリA配列」は、新生RNA転写物の終結およびポリアデニル化の両方を命令するDNA配列を意味する。ポリAテールを欠く転写物は不安定で、かつ急速に分解されるため、組換え転写物の効率的なポリアデニル化が望ましい。発現ベクターに利用されるポリAシグナルは、「異種性」でも「内因性」でもよい。内因性ポリAシグナルは、ゲノムにおいて所定の遺伝子のコード領域の3'末端で自然に見出されるものである。異種性ポリAシグナルは、1つの遺伝子から単離され、別の遺伝子の3'側に配置されているものである。真核細胞における組換えDNA配列の効率的な発現は、生じた転写物の効率的な終結およびポリアデニル化を命令するシグナルの発現に関係する。転写終結シグナルは、一般的に、ポリアデニル化シグナルの下流に見出され、長さが数百個のヌクレオチドである。

本明細書で用いられる場合、用語「をコードする核酸分子」、「をコードするDNA配列」、および「をコードするDNA」とは、デオキシリボ核酸の鎖に沿ったデオキシリボヌクレオチドの順番または配列を指す。これらのデオキシリボヌクレオチドの順番は、ポリペプチド(タンパク質)鎖に沿ったアミノ酸の順番を決定する。したがって、DNA配列はアミノ酸配列をコードする。

用語「サザンブロット」とは、アガロースゲルまたはアクリルアミドゲル上でDNAをサイズに従って分画し、その後、ゲルからニトロセルロース膜またはナイロン膜などの固体支持体へDNAを転写して固定化する、DNAの分析を指す。その後、固定化されたDNAは、標識オリゴデオキシリボヌクレオチドプローブまたはDNAプローブで探索されて、用いられたプローブに相補的なDNA種が検出される。DNAは、電気泳動の前に制限酵素で切断されてもよい。電気泳動後、DNAは、固体支持体への転写前または転写中に、部分的に脱プリン化され、変性されてもよい。サザンブロットは、分子生物学者の標準的ツールである。Sambrook, J.ら、(1989) Molecular Cloning: A Laboratory Manual、Cold Spring Harbor Press、NY、9.31〜9.58頁。

本明細書で用いられる場合、用語「ノーザンブロット」とは、アガロースゲル上でRNAを電気泳動して、サイズに従いRNAを分画し、その後、ゲルからニトロセルロース膜またはナイロン膜などの固体支持体へRNAを転写することによる、RNAの分析を指す。その後、固定化されたRNAは、標識オリゴデオキシリボヌクレオチドプローブまたはDNAプローブで探索されて、用いられたプローブに相補的なRNA種が検出される。ノーザンブロットは、分子生物学者の標準的ツールである。Sambrook, J.ら、(1989)前記、7.39〜7.52頁。

本明細書で用いられる場合、用語「逆ノーザンブロット」とは、アガロースゲル上でDNAを電気泳動して、サイズに基づいてDNAを分画し、その後、分画されたDNAをゲルからニトロセルロース膜またはナイロン膜などの固体支持体へ転写することによるDNAの分析を指す。その後、固定化されたDNAは、標識オリゴリボヌクレオチドプローブまたはRNAプローブで探索されて、用いられたリボプローブに相補的なDNA種が検出される。

本明細書で用いられる場合、構造遺伝子に関して用いられるときの用語「コード領域」とは、mRNA分子の翻訳の結果として新生ポリペプチドに見出されるアミノ酸をコードするヌクレオチド配列を指す。コード領域は、真核生物において、イニシエータのメチオニンをコードするヌクレオチドトリプレット「ATG」により5'側に結合され、停止コドンを特定する3つのトリプレット(すなわち、TAA、TAG、TGA)のうちの1つにより3'側に結合されている。

本明細書で用いられる場合、用語「構造遺伝子」は、RNAまたはタンパク質をコードするDNA配列を指す。対照的に、「制御遺伝子」は、他の遺伝子の発現を調節する産物(例えば、転写因子)をコードする構造遺伝子である。

本明細書で用いられる場合、用語「遺伝子」は、構造遺伝子のコード領域を含み、かつ遺伝子が完全長mRNAの長さに対応するように、コード領域の5'末端および3'末端の両方に、どちらの末端においても約1kbの間で、隣接して位置する配列を含む、デオキシリボヌクレオチド配列を意味する。コード領域の5'側に位置し、かつmRNAに存在する配列は、5'非翻訳配列と呼ばれる。コード領域の3'側または下流に位置し、かつmRNAに存在する配列は、3'非翻訳配列を呼ばれる。用語「遺伝子」は、遺伝子のcDNAの形およびゲノムの形の両方を包含する。遺伝子のゲノム形またはクローンは、「イントロン」、または「介在領域」、または「介在配列」と名付けられた非コード配列で中断されるコード領域を含有する。イントロンは、ヘテロ核RNA(hnRNA)へ転写される遺伝子のセグメントである;イントロンは、エンハンサーなどの制御エレメントを含有する場合がある。イントロンは、核転写物または一次転写物から除去され、または「スプライシングで切り出される」;したがって、イントロンは、メッセンジャーRNA(mRNA)転写物に存在しない。mRNAは、翻訳の間、新生ポリペプチドにおけるアミノ酸の配列または順番を特定するように機能する。

イントロンを含有することに加えて、遺伝子のゲノム形はまた、RNA転写物に存在する配列の5'末端および3'末端の両方に位置する配列を含む場合がある。これらの配列は、「フランキング」配列または領域と呼ばれる(これらのフランキング配列は、mRNA転写物に存在する非翻訳配列の5'側または3'側に位置する)。5'フランキング領域は、遺伝子の転写を調節し、またはそれに影響するプロモーターおよびエンハンサーなどの制御配列を含有する場合がある。3'フランキング領域は、転写の終結、転写後の切断、およびポリアデニル化を命令する配列を含有する場合がある。

用語「標識」または「検出可能な標識」は、分光学的、光化学的、生化学的、免疫化学的、電気的、光学的、または化学的手段によって検出可能な任意の組成物を指すように本明細書で用いられる。そのような標識には、標識ストレプトアビジンコンジュゲートでの染色のためのビオチン、磁気ビーズ(例えば、Dynabeads(登録商標))、蛍光色素(例えば、フルオレセイン、テキサスレッド、ローダミン、緑色蛍光タンパク質など)、放射標識(例えば、3H、125I、35S、14C、または32P)、酵素(例えば、西洋ワサビペルオキシダーゼ、アルカリフォスファターゼ、およびELISAに一般的に用いられる他のもの)、およびコロイド金または着色ガラスもしくは着色プラスチック(例えば、ポリスチレン、ポリプロピレン、ラテックスなど)のビーズなどの比色標識が挙げられる。そのような標識の使用を教示する特許には、米国特許第3,817,837号、第3,850,752号、第3,939,350号、第3,996,345号、第4,277,437号、第4,275,149号、および第4,366,241号(全て、参照により本明細書に組み入れられている)が挙げられるが、それらに限定されない。本発明において企図された標識は、多くの方法によって検出することができる。例えば、放射標識は、写真フィルムまたはシンチレーションカウンターを用いて検出することができ、蛍光マーカーは、放射光を検出する光検出器を用いて検出することができる。酵素標識は、典型的には、酵素を基質と共に供給し、酵素の基質への作用により生成された反応生成物を検出することによって検出され、比色標識は、着色標識を単純に可視化することによって検出される。

本特許のファイルは、カラーで作成された少なくとも1つの図面を含有する。カラー図面を含む本特許のコピーは、要請および必要手数料の納付によってPatent and Trademark Officeによって提供されるであろう。

k個の別個のクラスター(灰色の円)を特定するためのk-平均による固有空間における転写物(紫色の点)のPCA負荷のクラスタリングを示す、例示的なシミュレートしたデータを提示する図である。クラスターの平均に最も近い転写物を、「クラスターセントロイドランドマーク転写物」(たった1個の赤色の点)として選択した。 184個のクエリーシグネチャーと、約22,000個の転写物を測定することにより作成された遺伝子発現プロファイルとの間で観察される関連性の約80%が、約1,000個の転写物のみを測定し、かつ残りの発現レベルを予測することにより生成された遺伝子発現プロファイルを用いて回収されることを実証する、関連性マップデータを用いる例示的な結果を提示する図である。ライゲーション媒介性増幅および光学的にアドレス指定されたミクロスフェアを用いて複数の転写物の発現レベルを同時に測定するための方法の一実施形態を提示する図である。 LMFおよびAffymetrixマイクロアレイにより測定された384個の生体試料における代表的なクラスターセントロイドランドマーク転写物(217995_at:SQRDL)の正規化発現レベルについての例示的なデータを提示する図である。単純な(1型)クラスターセントロイドランドマーク転写物確証失敗(円)を示す例示的なデータを提示する図である。軸は、正規化発現レベルである。複雑な(2型)クラスターセントロイドランドマーク転写物確証失敗を示す例示的なデータを提示する図である。代表的な確証された転写物/プローブ対(青色、218039_at:NUSAP1)および代表的な失敗した転写物/プローブ対(オレンジ色、217762_s_at:RAB31)についての正規化発現レベルのプロットの図である。複雑な(2型)クラスターセントロイドランドマーク転写物確証失敗を示す例示的なデータを提示する図である。図6Aからの確証された転写物/プローブ対(青色矢印)およびそれの関連した非セントロイド転写物(青色棒);ならびに図6Aからの失敗した転写物/プローブ対(オレンジ色矢印)およびそれの関連した非セントロイド転写物(オレンジ色棒)についての正規化発現レベルを示すヒストグラムの図である。赤色×印は、遺伝子発現レベルの非相関を示す。約22,000個の転写物に関して報告するAffymetrixマイクロアレイを用いて作成された遺伝子発現プロファイルで構成される関連性マップデータセットのパフォーマンス(左)と、1,000個のランドマーク転写物のライゲーション媒介性増幅およびLuminex光学的にアドレス指定されたミクロスフェアアッセイならびに残りの転写物の発現レベルの推量を加えて作成された遺伝子発現プロファイルで構成される関連性マップデータセットのパフォーマンス(右)を比較する、例示的なデータを提示する図である。両方のデータセットを、独立したHDAC阻害剤クエリーシグネチャーで質問した。示された「棒図」は、それぞれ、6,100本の横線および782本の横線から構成され、各線が個々の処理事例を表し、関連性スコア順に並べられている。HDAC阻害剤である、ボリノスタットの全事例は、黒色に彩色されている。残りの事例に適用された色は、それらの関連性スコアを反映している(緑色、陽性;灰色、ゼロ;赤色、陰性)。 Affymetrixマイクロアレイを用いて作成されたヒト細胞系についての遺伝子発現プロファイルのコンセンサスクラスタリング樹状図(A)と、本明細書で企図されているようなランドマーク転写物測定および推量方法の一実施形態を用いて作成されたヒト細胞系についての遺伝子発現プロファイルのコンセンサスクラスタリング樹状図(B)を比較する例示的なデータを提示する図である。組織型は以下である:CO=colon(結腸);LE=血液(leukemia(白血病));ME=皮膚(melanoma(黒色腫));CNS=脳(central nervous system(中枢神経系));OV= ovary (卵巣);およびRE=腎臓(renal(腎臓の))。

本発明は、ゲノム情報および遺伝子発現プロファイリングの分野に関連している。遺伝子発現プロファイルは、細胞または組織の相対的状態に関する複雑な分子フィンガープリントを提供する。器質的状態間(すなわち、例えば、正常細胞および/または組織、ならびに罹患細胞および/または組織)の遺伝子発現プロファイルの類似性は、分子分類法、分類、および診断を提供する。様々な外部的撹乱(すなわち、例えば、特定の遺伝子の切除もしくは強制的発現、および/または小分子、および/または環境変化)に起因する遺伝子発現プロファイルの類似性は、経路および作用機構の解明において価値がある、これらの撹乱因子間の機能的類似性を明らかにする。器質的状態(例えば、疾患)と誘導状態(例えば、小分子による)との間の遺伝子発現プロファイルの類似性は、臨床的に有効な治療を特定することができる。本明細書に記載された改良により、同じクラスター内における他の転写物の発現レベルを予測するクラスターセントロイドランドマーク転写物を特定することによる完全トランスクリプトーム遺伝子発現プロファイルの効率的かつ経済的な作成が可能になる。

本発明のいくつかの実施形態は、高価で多くの時間と労力を要するマイクロアレイテクノロジー(すなわち、例えば、Affymetrix GeneChipマイクロアレイ)に頼らずに、非限定的に、疾患分類および診断を含む適用のためのゲノムワイド転写プロファイリングを実施することを企図する。他の用途として、情報データベース(すなわち、例えば、関連性マップ)内で、および情報データベースと共に用いる遺伝子発現データを作成することが挙げられるが、それに限定されない。関連性マップは、典型的には、類似パターンマッチングソフトウェアと共に、多数の遺伝子発現プロファイルのコレクションを含む。プロファイルのコレクションは、関心対象となる生物学的状態に由来する遺伝子発現データに類似しているプロファイルを、パターンマッチングアルゴリズムで検索される。この検索およびパターンマッチング実行の有用性は、類似した生物学的状態が、共通の遺伝子発現変化の一過性特徴を通して特定することができるという信念に存在する。関連性マップにおける遺伝子発現プロファイルは、既知の細胞状態、または既知の化学的もしくは遺伝的撹乱因子で処理された細胞もしくは組織に由来してもよい。このモードにおいて、関連性マップは、関心対象となる生物学的状態の機能予測のためのツールである。あるいは、関連性マップは、これまで特性化されていない、または新規の撹乱因子で処理された細胞または組織由来の遺伝子発現プロファイルで構成されている。このモードにおいて、関連性マップは、スクリーニングツールとして機能する。ほとんどの場合、関連性マップは、両方の型のプロファイルで構成されている。関連性マップは、一般的に、疾患状態と、遺伝子産物機能と、小分子作用との間で生物学的に関係した関連を確立する。特に、関連性マップは、広範囲にわたる適用をもち、その適用には、未知の遺伝子および生物学的状態の機能予測、小分子の作用様式または機能クラスの特定、ならびに潜在薬として治療上の利益に向けての疾患状態を調節し、または逆転させる撹乱因子の特定が挙げられるが、それらに限定されない。Lambら、「The Connectivity Map: using gene-expression signatures to connect small molecules, genes and dis
ease」Science 313: 1929〜1935頁(2006)、およびLamb、「The Connectivity Map: a new tool for biomedical research」Nature Reviews Cancer 7: 54〜60頁(2007)を参照。しかしながら、遺伝子発現プロファイルを作成する費用が高いことが、関連性マップのサイズおよび範囲を著しく制限している。工業用小分子薬物スクリーニングライブラリー、飽和コンビナトリアルもしくは多様性志向化学ライブラリー、粗製もしくは精製植物もしくは動物抽出物の包括的コレクションのあらゆるメンバーに由来する、または哺乳類ゲノムにおけるあらゆる遺伝子の遺伝的切除もしくは強制的発現に由来する遺伝子発現プロファイルで構成された関連性マップは、例えば、既存の関連性マップのものより、より多く、かつより深遠な生物学的発見を促すことが期待されるであろう。発明の機構を理解することは必要ではないが、遺伝子発現プロファイリングのための本開示の方法は、これらのプロファイルを作成する費用を30分の1より少なく低下させると考えられる。本発明は、少なくとも100,000個の遺伝子発現プロファイル、最終的には、何百万個という遺伝子発現プロファイルを有する関連性マップの生成を企図する。

I. クラスターセントロイドランドマーク転写物特定
本発明は、総数の転写物の選択されたサブセットのみの発現レベルを測定するトランスクリプトームワイド遺伝子発現プロファイリングプラットフォームを作成し、かつ用いるための組成物および方法を企図する。遺伝子発現は高度に相関していると考えられるため、少数(例えば、1,000個)の適切に選択された「ランドマーク」転写物の直接的測定により、その残りの発現レベルを推量することが可能になる。したがって、本発明は、全転写物が測定されることを必要とする周知の従来型アプローチと比較して、完全トランスクリプトーム遺伝子発現プロファイリングの費用を低下させ、かつ処理量を増加させる潜在性を有する。

一実施形態において、本発明は、トランスクリプトームワイド遺伝子発現プロファイルの大きなコレクションの計算的分析からランドマーク転写物を特定することを企図する。一実施形態において、プロファイルは、ゲノムにおける既知の転写物の大部分(好ましくは、70%より多く)のアイデンティティおよび発現レベルを含有する。一つの好ましい実施形態において、プロファイルは、非限定的にAffymetrix、Agilent、およびIlluminaから市販されている高密度DNAマイクロアレイを用いることによって作成される。適切なプロファイルはまた、非限定的に遺伝子発現の連続分析(Serial Analysis of Gene Expression)(SAGE)および高深度cDNAシークエンシング(deep cDNA sequencing)を含む他のトランスクリプトーム分析方法によって作成されてもよい。一つの好ましい実施形態において、全プロファイルは、同じ分析方法で作成される。一つの特に好ましい実施形態において、全プロファイルは、Affymetrixオリゴヌクレオチドマイクロアレイを用いて作成される。一実施形態において、コレクションにおけるプロファイルの数は、1,000個を上回り、好ましくは、10,000個より多い。一つの好ましい実施形態において、プロファイルは、幅広く多様な正常組織および/または細胞型、ならびに罹患組織および/または細胞型に由来する。当業者に知られているように、適切な遺伝子発現プロファイルのコレクションは、公開および非公開の商業的供給源から利用可能である。一つの好ましい実施形態において、遺伝子発現プロファイルは、NCBIのGene Expression Omnibus (GEO)から入手される。一実施形態において、コレクションのプロファイルにおける発現レベルは、お互いに対してスケーリングされる。当業者は、そのような正規化を達成するための様々な方法を知っているであろうし、その方法には、分位正規化(quantile normalization)(好ましくはRMA)が挙げられるが、それに限定されない。一つの好ましい実施形態において、コレクションのプロファイルにおける発現レベルは、トランスクリプトームワイド遺伝子発現プロファイル(少なくとも1,000個、好ましくは約7,000個からなる)の独立したコレクションから観察される発現レベルの範囲にわたるように選択された、いくつか(好ましくは約14個)の発現レベルのそれぞれにおいて全転写物の最低の変動係数(CV)を有する1セットの転写物(約100個、好ましくは約350個からなる)を用いて、お互いに対してスケーリングされる。

一つの好ましい実施形態において、ランドマーク転写物を特定するために用いられるプロファイルは、データ品質についての最低基準(すなわち、例えば、品質管理(QC)分析)を超えることが必要とされる。QC分析を合格した試料は、コアデータセットとして特定される。適切なデータ品質測定法は、当業者に知られており、それには、Pコールのパーセンテージ(percentage-of-P-calls)、および3'対5'の比(3'-to-5'ratios)が挙げられるが、それらに限定されない。一実施形態において、データ品質測定値の経験分布が構築され、異常値プロファイルがコレクションから除去される。一つの好ましい実施形態において、その分布の95パーセンタイルを超えるデータ品質測定値を有するプロファイルは、コレクションから除去される。一つの好ましい実施形態において、コレクションの全プロファイルにおいて代表される転写物セットが特定され、その残りは全部のプロファイルから除去される。一実施形態において、プロファイルの大部分(好ましくは99%)における検出限界より下の転写物セットは、プロファイルから除去される。

一実施形態において、本発明は、測定される転写物(すなわち、例えば、ランドマーク転写物)を選択するためにクラスター分析と組み合わせた次元減少を用いることを企図する。次元減少はいくつかの公知の方法によって実施されてもよいが、本明細書に記載された実施形態は、主成分分析を利用する。一実施形態において、方法は、線形次元減少法を用いる(すなわち、例えば、固有ベクトルを用いる)ことをさらに含む。一実施形態において、クラスター分析は、複数のクラスターを生成し、各クラスターが単一のクラスターセントロイドランドマーク転写物および複数のクラスター非セントロイド転写物を含む。図1を参照。一つの好ましい実施形態において、クラスターは、k平均クラスタリングを用いることにより達成され、k平均クラスタリングは何回か、繰り返され、コンセンサスマトリックス(すなわち、例えば、gene-by-gene pairwise consensus matrix)が構築されることを可能にする。

一つの好ましい実施形態において、高い局所相関のポケットは、gene-by-gene pairwise consensus matrixを階層的にクラスタリングすることによって特定される。当業者に知られているように、その後、階層的クラスタリングからの木(tree)は複数のレベルで切断することができる。各レベルにおいて、多数のノードがあり、各ノードにおける葉(leaves)(すなわち、例えば、本明細書において転写物として図示される)が密集したクラスターを表す。各密集したクラスターについて、代表的なセントロイド「ランドマーク」転写物は、個々のプロファイルが密集したクラスターの平均プロファイルと最も密接に相関している転写物を選び取ることによって選択することができる。一つの好ましい実施形態において、クラスター分析は、複数(好ましくは、3個より多く、かつ10個より少ない)のセントロイドランドマーク転写物を特定する。本発明の機構を理解する必要はないが、クラスターセントロイドランドマーク転写物の発現レベルが、関連したクラスター非セントロイド転写物の発現レベルを推量するために用いることができると考えられる。

一実施形態において、本発明は、クラスターセントロイドランドマーク転写物発現レベル測定値からのみなるデータから遺伝子発現プロファイルを生成することを含む方法を企図する。一実施形態において、生体試料間の医学関係の類似性は、クラスターセントロイドランドマーク転写物の空間において作成されたそれらの対応する遺伝子発現プロファイルにおける類似性によって特定される。

一つの好ましい実施形態において、新しい生体試料における、測定されない転写物のレベルが、依存マトリックスを参照してランドマーク転写物の測定値から推量され(すなわち、例えば、予測され)、それにより、完全トランスクリプトーム遺伝子発現プロファイルが生成される。一実施形態において、依存マトリックスは、トランスクリプトームワイド発現プロファイルのコレクションにおいて各クラスターセントロイドランドマーク遺伝子(g)の発現レベルと全ての非ランドマーク転写物(G)の発現レベルとの線形回帰を実行することによって構築される。一つの好ましい実施形態において、類似逆が依存マトリックス(G非ランドマーク転写物x gランドマーク転写物)を構築するために用いられる。一つの好ましい実施形態において、依存マトリックスを構築するために用いられるトランスクリプトームワイド発現プロファイルのコレクションは、クラスターセントロイドランドマーク転写物を特定するために用いられるコレクションと同じである。別の実施形態において、依存マトリックスを構築するために用いられるトランスクリプトームワイド発現プロファイルのコレクションは、クラスターセントロイドランドマーク転写物を特定するために用いられるコレクションと異なる。一つの好ましい実施形態において、複数の依存マトリックスは、トランスクリプトームワイド発現プロファイルのコレクションから構築され、各コレクションは、同じ型の正常組織もしくは細胞または罹患組織もしくは細胞に由来するプロファイルで構成される。一実施形態において、推量に用いるための依存マトリックスの選択は、試料の組織、細胞、および/または病理学的状態の知識に基づいてなされる。一つの好ましい実施形態において、新しい生体試料における各非ランドマーク転写物の発現レベルは、各ランドマーク転写物の発現レベルに、依存マトリックスから検索された対応する重みを掛け、それらの積を合計することによって推量される。

一つの好ましい実施形態において、本発明は、複数のランドマーク転写物の測定値および非ランドマーク転写物レベルの推量を用いて完全トランスクリプトーム遺伝子発現プロファイルの生成を含む方法であって、それらのプロファイルが、遺伝子発現プロファイリングの有用な適用における全転写物の直接的測定によって作成された遺伝子発現プロファイルのパフォーマンスの少なくとも80%を有する、方法を企図する。

II. クラスターセントロイドランドマーク転写物の適切な数の決定
一実施形態において、本発明は、トランスクリプトームワイド遺伝子発現プロファイルの生成に適したクラスターセントロイドランドマーク転写物の数を実験によって決定することを企図する。一実施形態において、トランスクリプトームワイド遺伝子発現プロファイルの生成に適したクラスターセントロイドランドマーク転写物の数は、シミュレーションによって決定される。

本明細書(実施例IおよびII)に提示された計算的シミュレーションは、次元減少が、複数のクラスターセントロイドランドマーク転写物の特定に適用することができ、かつ驚くべきことに、わずかなランドマーク転写物測定値が、完全トランスクリプトームプロファイルを忠実に再現するのに十分であることを実証している。たった1,000個のクラスターセントロイドランドマーク転写物(すなわち、例えば、トランスクリプトームにおける<5%の転写物)の発現レベルが、調べられたプロファイル類似性について80%の試験において、全転写物が直接測定されたプロファイルと同じくらい良いパフォーマンスを示す完全トランスクリプトームプロファイルを再現するために用い得ることが示されている。さらに、これらのデータは、500個のセントロイドランドマーク転写物(すなわち、例えば、トランスクリプトームにおける<2.5%の転写物)がそのような類似性の約50%を回収することを実証している(図2)。

一つの好ましい実施形態において、本発明は、約1,000個のクラスターセントロイドランドマーク転写物を含み、それらから、トランスクリプトームの残りの発現レベルを推量することができる方法を企図する。

III. クラスターセントロイドランドマーク転写物の測定
一実施形態において、本発明は、複数の転写物を含む生体試料において1セットのクラスターセントロイドランドマーク転写物の発現レベルを測定し、対応する依存マトリックスを用いて、測定されない転写物の発現レベルを予測し、それにより、完全トランスクリプトームプロファイルを生成することを企図する。一つの好ましい実施形態において、セットのクラスターセントロイドランドマーク転写物の発現レベルが同時に測定される。別の好ましい実施形態において、測定されるクラスターセントロイドランドマーク転写物の数は、約1,000個である。別の好ましい実施形態において、セットのクラスターセントロイドランドマーク転写物の発現レベルは、中程度に多重化したアッセイプラットフォームを用いて測定される。当業者によく知られているように、中程度の数(すなわち、約10個〜約1,000個)の転写物の発現レベルを同時に決定することができる可能性がある多くの方法がある。これらには、多重化ヌクレアーゼ保護アッセイ、多重化RT-PCR、DNAマイクロアレイ、核酸シークエンシング、および非限定的に、Panomics、High Throughput Genomics、NanoString、Fluidigm、Nimblegen、Affymetrix、Agilent、およびIlluminaを含む会社によって提供される様々な市販の解決法が挙げられるが、それらに限定されない。

一つの好ましい実施形態において、本発明は、複数の転写物を含む生体試料において1セットのクラスターセントロイドランドマーク転写物の発現レベルを同時に測定し、対応する依存マトリックスを用いて、測定されない転写物の発現レベルを予測することにより完全トランスクリプトーム遺伝子発現プロファイルを作成するための方法であって、前記同時測定が、核酸シークエンシングを用いて行われる方法を企図する。

一つの好ましい実施形態において、本発明は、複数の転写物を含む生体試料において1セットのクラスターセントロイドランドマーク転写物の発現レベルを同時に測定し、対応する依存マトリックスを用いて、測定されない転写物の発現レベルを予測することにより完全トランスクリプトーム遺伝子発現プロファイルを作成するための方法であって、前記同時測定が、Luminex FlexMAP光学的にアドレス指定され、かつバーコード付加されたミクロスフェアおよびフローサイトメトリー検出を組み合わせた、多重化ライゲーション媒介性増幅(LMF)(Peckら、「A method for high-throughput gene expression signature analysis」Genome Biology 7:R61 (2006))を用いて行われる方法を企図する。図3参照。この技術において、転写物は、固定化ポリdT上に捕獲され、逆転写される。関心対象となる各転写物について2つのオリゴヌクレオチドプローブが設計される。上流プローブは、ユニバーサルプライマー(T7)部位に相補的な20ヌクレオチド、1セットの固有24ヌクレオチドのバーコード配列のうちの1つ、および対応する一本鎖cDNAに相補的な20ヌクレオチド配列を含有する。下流プローブは、5'リン酸化されており、対応する上流プローブの遺伝子特異的断片と隣接した20ヌクレオチド、および20ヌクレオチドのユニバーサルプライマー(T3)部位を含有する。プローブは、標的cDNAにアニールされ、遊離プローブは除去され、並列したプローブがリガーゼ酵素の作用によって連結されて、104ヌクレオチドの増幅鋳型を生じる。PCRは、T3プライマーおよび5'ビオチン化T7プライマーを用いて実施される。ビオチン化されたバーコード付加単位複製配列は、それぞれがバーコードに相補的な捕獲プローブを発現している光学的にアドレス指定されたミクロスフェアのプールに対してハイブリダイズし、ビオチン部分を蛍光で標識するためにストレプトアビジン-フィコエリトリンとインキュベートされる。捕獲された標識単位複製配列は、定量化され、ビーズは、Luminex検出器においてフローサイトメトリーによって解読される。上記の報告されたLMF方法は、100個の光学的アドレスのみが利用できるため、100個の転写物を同時に測定することに制限された。一実施形態において、本発明は、増大した数(約500個、好ましくは1,000個)のバーコード配列と両立し得るクラスターセントロイドランドマーク転写物のレベルの同時測定、および光学的にアドレス指定されたミクロスフェア、および対応するフローサイトメトリー検出装置を用いて、遺伝子発現プロファイルを作成するための方法を企図する。一実施形態において、本発明は、生体試料あたり2つのアッセイを含む方法を企図し、各アッセイが約500個のクラスターセントロイド転写物の発現レベルを測定する能力がある。一実施形態において、本発明は、約1,000個のクラスターセントロイドランドマーク転写物の発現レベルが、1,000個未満の光学的にアドレス指定されたミクロスフェア集団を用いて、ミクロスフェアがバーコードに相補的な1つより多い型の捕獲プローブを発現するように設定することによって、生体試料あたり1つのアッセイにおいて測定される方法を企図する。一実施形態において、本発明は、各アッセイが1,000個のクラスターセントロイドランドマーク転写物の発現レベルを測定する能力がある、試料あたり1つのアッセイを含む方法を企図する。

A. 測定されるランドマーク転写物のプラットフォーム特異的選択
当業者によく知られているように、1つの方法(例えば、RT-PCR)で行われた転写物の発現レベルの見積もりは、別の方法(例えば、DNAマイクロアレイ)で行われた同じ生体試料におけるその同じ転写物の発現レベルの見積もりと常に一致するとは限らない。一実施形態において、本発明は、実験による全ての可能なクラスターセントロイドランドマーク転写物のセットから、測定されない転写物の発現レベルを予測し、それにより、完全トランスクリプトーム遺伝子発現プロファイルを生成することを目的として、所定の中程度に多重化したアッセイプラットフォームにより測定されるクラスターセントロイドランドマーク転写物のセットを選択するための方法を企図する。一つの好ましい実施形態において、所定の中程度に多重化したアッセイプラットフォームにより測定されるクラスターセントロイドランドマーク転写物のセットは、そのプラットフォームによって生じたクラスターセントロイドランドマーク転写物の発現レベルの測定値と、クラスターセントロイドランドマーク転写物の母集団が最初に選択された遺伝子発現プロファイルのコレクションを作成するために用いられたトランスクリプトームワイド遺伝子発現プロファイリングテクノロジーを用いて生じた測定値との間の一致を実験的に確認することにより選択される。一つの特に好ましい実施形態において、(好ましくは、約384個からなる)生体試料のコレクションにおける(好ましくは、約1,300個からなる)全ての可能なクラスターセントロイドランドマーク転写物の発現レベルは、LMFおよびAffymetrixオリゴヌクレオチドマイクロアレイの両方によって見積もられ、Affymetrixオリゴヌクレオチドマイクロアレイは、可能なクラスターセントロイドランドマーク転写物の母集団が選択されたトランスクリプトームワイド遺伝子発現プロファイルを作成するために用いられており、LMFによって見積もられた発現レベルが、Affymetrixオリゴヌクレオチドマイクロアレイによって見積もられた発現レベルと一貫して一致する、(好ましくは、約1,100個からなる)1セットのクラスターセントロイドランドマーク転写物の特定を生じる。本明細書(実施例III)に提示されたデータは、LMFとAffymetrixオリゴヌクレオチドマイクロアレイを用いて生じた発現レ
ベル測定値間の予期せぬ不一致を示している。

B. クラスターにおける非セントロイド転写物について忠実に伝えないクラスターセントロイドランドマーク転写物の除去
一実施形態において、本発明は、実験による全ての可能なクラスターセントロイドランドマーク転写物のセットから、測定されない転写物の発現レベルを予測し、それにより、完全トランスクリプトーム遺伝子発現プロファイルを作成することを目的として、所定の中程度に多重化したアッセイプラットフォームにより測定されるクラスターセントロイドランドマーク転写物の最終セットを選択するための方法を企図する。一つの好ましい実施形態において、所定の中程度に多重化したアッセイプラットフォームにより測定されるクラスターセントロイドランドマーク転写物のセットは、そのプラットフォームによって生じたそれらの発現レベルの測定値を用いて、クラスターセントロイドランドマーク転写物の母集団が選択された遺伝子発現プロファイルのコレクションを作成するために用いられたトランスクリプトームワイド遺伝子発現プロファイリングテクノロジーを用いて測定されたそれらのクラスターにおける非ランドマーク転写物の発現レベルを予測できることを実験的に確認することにより、選択される。

一つの特に好ましい実施形態において、(好ましくは、約384個からなる)生体試料のコレクションにおける(好ましくは、約1,300個からなる)全ての可能なクラスターセントロイドランドマーク転写物の発現レベルがLMFによって測定され、生体試料の同じコレクションにおいて全ての非ランドマーク転写物の発現レベルがAffymetrixオリゴヌクレオチドマイクロアレイによって測定され、Affymetrixオリゴヌクレオチドマイクロアレイは、可能なクラスターセントロイドランドマーク転写物の母集団が選択されたトランスクリプトームワイド遺伝子発現プロファイルを作成するために用いられており、LMFによって見積もられた発現レベルが、Affymetrixオリゴヌクレオチドマイクロアレイによって測定されたようにクラスターにおける転写物の発現レベルを予測するために一貫して用いることができる、(好ましくは、約1,000個からなる)クラスターセントロイドランドマーク転写物の最終セットの特定をもたらす。本明細書(実施例III)に提示されたデータは、Affymetrixオリゴヌクレオチドマイクロアレイを用いて測定されたクラスターにおける転写物の発現レベルを予測するのに有用である、LMFを用いて生じた特定のクラスターセントロイドランドマークの発現レベルの測定値の予期せぬ失敗を示している。

一実施形態において、本発明は、所定の中程度に多重化したアッセイプラットフォームについて選択されたクラスターセントロイドランドマーク転写物の最終セットに特異的な依存マトリックスを生成することを企図する。

本明細書(実施例IV、V、VI、VII)に提示されたデータは、特定の中程度に多重化したアッセイプラットフォームについて用いるために選択された1セットのクラスターセントロイドランドマーク転写物の発現レベルの測定値からの有用なトランスクリプトームワイド遺伝子発現プロファイルの作成を実証している。

C. 不変転写物を用いるデータ正規化
一実施形態において、本発明は、シグナル強度における日ごと、または検出器ごとの変動性を補正するために、遺伝子発現データの正規化を含む方法(すなわち、例えば、スケーリング)を企図する。本発明の機構を理解する必要はないが、トランスクリプトームワイド遺伝子発現プロファイル(すなわち、例えば、約20,000個の次元を有する高密度マイクロアレイデータ)において、転写物の大部分が所定の状態において変化しないと、慣例では仮定されていると考えられる。そのような仮定により、全転写物についての発現レベルの合計を総シグナル強度の測定値としてみなすことができる。それゆえ、従来のシステムを用いる者は、その総シグナル強度値に対して、各転写物の発現レベルを正規化する。

しかしながら、より低い次元性の遺伝子発現プロファイル(すなわち、例えば、1,000個の転写物)を用いる場合、それらの転写物の少数のみが変化すると想定することは、特に、転写物が選択されたクラスターセントロイドランドマーク転写物の特別の場合においては、妥当ではなく、その理由の一つには、それぞれが、多様な試料にわたって異なるレベルを示すからである。それゆえに、全転写物のレベルの合計に対する正規化は適切ではない。

一実施形態において、本発明は、多様な試料の大きなコレクションにわたってレベルが変化しない1セットの転写物(すなわち、例えば、不変転写物)に対して遺伝子発現プロファイルを正規化することを企図する。そのような工程は、qRT-PCRにおける参照としてのいわゆるハウスキーピング遺伝子(すなわち、例えば、GAPDH)の使用と大まかに似ている。本発明の機構を理解することは必要ではないが、本明細書に記載された正規化は、他の公知の正規化技術より優れていると考えられ、それは、不変転写物が、幅広く多様な試料にわたって不変な発現を有することが実験的に決定されているからである。

一実施形態において、(少なくとも1,000個、好ましくは約7,000個からなる)トランスクリプトームワイド遺伝子発現プロファイルのコレクションから観察された発現レベルの範囲にわたるように選択された、いくつか(好ましくは、約14個)の発現レベルのそれぞれにおいて全転写物の最低の変動係数(CV)を有する、(10個から50個の間、好ましくは25個からなる)転写物のセットが不変転写物として特定される。一つの好ましい実施形態において、不変転写物を選択するために用いられるトランスクリプトームワイド遺伝子発現プロファイルのコレクションは、関連性マップデータセット(broadinstitute.org/cmap)のbuild02である。一つの好ましい実施形態において、所定の中程度に多重化したアッセイプラットフォームを用いて生じたクラスターセントロイドランドマーク転写物の発現レベルの測定値を正規化するために用いられる(14個から98個の間、好ましくは80個からなる)不変転写物の最終セットは、そのプラットフォームによって生じたそれらの発現レベルの測定値と、不変転写物が最初に特定された遺伝子発現プロファイルのコレクションを作成するために用いられたトランスクリプトームワイド遺伝子発現プロファイリングテクノロジーを用いて生じた測定値との一致を実験的に確認し、かつそれらの発現レベルが、(好ましくは、約384個からなる)生体試料のコレクションにおいて、実際、実質的に不変であることを確認することによって、全不変転写物のセットから選択される。

本明細書(実施例IV、V、VI、VII)に提示されたデータは、選択された中程度に多重化したアッセイプラットフォームで測定された1セットのクラスターセントロイドランドマーク転写物の発現レベルの測定値を、同じプラットフォームで一緒に測定された1セットの不変転写物の発現レベルに対してスケーリングした測定値からの有用なトランスクリプトームワイド遺伝子発現プロファイルの作成を実証している。

IV. 遺伝子発現プロファイリングにおける次元減少
クラスタリング技術と組み合わせた次元減少を用いて、遺伝子制御がゲノムレベルで研究され得ることが報告されている。例えば、遺伝子同時制御は、次元減少された生物学的データセットを用いて遺伝子同時発現動態(すなわち、例えば、遺伝子-遺伝子相互作用)から推量することができる。Capobianco E.、「Model Validation For Gene Selection And Regulation Maps」Funct Integr Genomics 8(2):87-99 (2008)。このアプローチは、主成分分析および/または独立成分分析と組み合わせたクラスタリング分析(すなわち、例えば、k平均)により、最も大きく異なる発現を有する遺伝子を検出することができる3つの特徴抽出方法を示唆する。例えば、トランスクリプトミクスにおいて、クラスターは、類似した発現パターンを有する遺伝子によって形成され得る。しかしながら、次元減少は、主に、有用な生物学的情報から「ノイズ」を除去するために用いられる。固有値(すなわち、例えば、モードのエネルギー)および固有ベクトル(すなわち、例えば、γ、各モードにおいてエネルギーを最大にすることによって決定される)を含む固有システムに従って分解が適用される相関マトリックスを、計算することができる。代表的な異なって発現する遺伝子を選択することは、最も大きく異なる発現レベルを有する遺伝子を選び取るようにクラスター異常値を単離する「縮小による正則化」によって行うことができる。

他の次元減少方法は、プロテオミクスバイオマーカー研究において用いられている。例えば、質量スペクトルに基づいたプロテオミクスプロファイルは、小さい試料サイズのプロテオミクスデータの極めて高い次元(すなわち、特徴または変数の数)をもつデータセットを作成する疾患バイオマーカーとして用いられている。これらの方法の中で、一つの報告は、記載された特徴選択方法をセントロイド縮小として用いることを示唆しており、データセットは、因果推量技術を用いて評価することができる。クラスセントロイドを特定するために訓練試料が用いられ、試験試料は、最も近いセントロイドに属するクラスに割り当てられる。Hilarioら、「Approaches To Dimensionality Reduction In Proteomic Biomarker Studies」Brief Bioinform 9(2):102〜118頁(2008)。セントロイド縮小分析は、以前には、癌を診断するために遺伝子発現分析に用いられていた。

一つの次元減少報告では、特徴の大きなセット内から特徴のサブセットを特定している。そのような選択工程は、分類子重みに従って特徴をランク付けるようにサポートベクターマシンを訓練することによって実行される。例えば、医学的状態間(すなわち、例えば、癌対非癌)を正確に識別する能力がある最小の数の遺伝子を選択することができる。主成分分析は、遺伝子発現データをクラスタリングする能力があり、特定の遺伝子が、癌の発現と高度に相関している場合、各クラスター内で選択される。癌に関する遺伝子機能を予測するGolubの固有空間ベクトル方法は、直接、比較され、より劣る方法として対比される。Barnhillら、「Feature Selection Method Using Support Vector Machine Classifier」米国特許第7,542,959号(35〜49欄)。

線形変換(すなわち、例えば、主成分分析)もまた、データの構造を最適に保存する形で、多変量データの低次元埋め込みを特定する能力があり得る。特に、次元減少のパフォーマンスは強化され得る。さらに、生じた次元減少は、データ座標およびデータ要素間のペアワイズ(pairwise)関係を維持することができる。その後の分解情報のクラスタリングは、クラスター間の分離およびそれらの内部構造を明らかに示す線形変換に統合することができる。Korenら、「Robust Linear Dimensionality Reduction」IEEE Trans Vis Comput Graph. 10(4):459〜470頁(2004)。

さらに、複雑かつ共通点のないデータを組織化するための方法および系。主成分分析は、18個の異なる除草剤で処理されたシロイヌナズナ植物から収集された表現型、遺伝子発現、および代謝産物のデータを評価するために用いることができる。遺伝子発現および転写分析は、細胞機能の関連において遺伝子発現を評価することに限定された。Winfieldら、「Methods And Systems For Analyzing Complex Biological Systems」米国特許第6,873,914号。

数百個または数千個の発現した遺伝子またはタンパク質の同時分析を伴う機能ゲノミクスおよびプロテオミクスを研究することができる。これらの大きなデータセットから、次元減少ストラテジーが、莫大な実験データセットから臨床的に利用できるバイオマーカーを特定するために用いられている。トランスクリプトミクスの分野は、マイクロアレイを用いる高処理量方法において次元減少方法を用いることで恩恵を受けることができた。Finn WG.、「Diagnostic Pathology And Laboratory Medicine In The Age Of''omics''」J Mol Diagn. 9(4):431〜436頁(2007)。

多因子次元減少(MDR)もまた、一塩基多型(SNP)の特定を含むエピスタシスを検出し、かつモデル化することに有用であり得る。MDRは、多次元データをたった1次元へ減少させるために「高リスク」群と「低リスク」群、または「応答」群と「非応答」群へ遺伝子型をプールする。MDRは、散発性乳癌、多発性硬化症、および本態性高血圧などの疾患において遺伝子-遺伝子相互作用を検出している。MDRは、多数の遺伝的および環境的変数の非線形相互作用により引き起こされる最も一般的な疾患を評価するのに有用であり得る。Motsingerら、「Multifactor Dimensionality Reduction: An Analysis Strategy For Modeling And Detecting Gene-Gene Interactions In Human Genetics And Pharmacogenomics Studies」Hum Genomics 2(5):318〜328頁(2006)。

別の報告では、発現するとは予想されない遺伝子について測定することを避ける目的で、トランスクリプトーム全体を代表する6,100個の転写物を用いようと試みられた。Hoshidaら、「Gene Expression in Fixed Tissues and Outcome in Hepatocellular Carcinoma」New Engl J Med 259:19頁(2008)。

V. 検出方法
A. 核酸の検出
mRNA発現を任意の適切な方法によって測定してもよく、その方法には、下記で開示されたものが挙げられるが、それらに限定されない。

いくつかの実施形態において、RNAはノーザンブロット分析によって検出される。ノーザンブロット分析は、RNAの分離および相補的標識プローブのハイブリダイゼーションを含む。

他の実施形態において、RNA発現は、特定の構造の酵素切断によって検出される(INVADERアッセイ、Third Wave Technologies;米国特許第5,846,717号、第6,090,543号、第6,001,567号、第5,985,557号、および第5,994,069号を参照;各特許は、参照により本明細書に組み入れられている)。INVADERアッセイは、構造特異的酵素を用いて、重複したオリゴヌクレオチドプローブのハイブリダイゼーションによって形成された複合体を切断することによって特定の核酸(例えば、RNA)配列を検出する。

なおさらなる実施形態において、RNA(または対応するcDNA)は、オリゴヌクレオチドプローブへのハイブリダイゼーションによって検出される。ハイブリダイゼーションおよび検出のための様々なテクノロジーを用いる様々なハイブリダイゼーションアッセイが利用できる。例えば、いくつかの実施形態において、TaqManアッセイ(PE Biosystems、Foster City、Calif.;例えば、米国特許第5,962,233号および第5,538,848号参照;各特許は参照により本明細書に組み入れられている)が利用される。そのアッセイは、PCR反応中に行われる。TaqManアッセイは、AMPLITAQ GOLD DNAポリメラーゼの5'-3'エキソヌクレアーゼ活性を活用する。5'-レポーター色素(例えば、蛍光色素)および3'-クエンチャー色素を有するオリゴヌクレオチドからなるプローブがPCR反応に含まれる。PCR中、プローブがそれの標的に結合したならば、AMPLITAQ GOLDポリメラーゼの5'-3'核酸分解活性は、プローブをレポーター色素とクエンチャー色素の間で切断する。レポーター色素のクエンチャー色素からの分離は、結果として、蛍光の増加を生じる。シグナルはPCRのサイクルのたびに蓄積し、蛍光光度計でモニターすることができる。

さらに他の実施形態において、逆転写酵素PCR(RT-PCR)が、RNAの発現を検出するために用いられる。RT-PCRにおいて、RNAは、相補DNAまたは「cDNA」へ逆転写酵素を用いて酵素的に変換される。その後、cDNAは、PCR反応の鋳型として用いられる。PCR産物は、任意の適切な方法によって検出することができ、その方法には、ゲル電気泳動、およびDNA特異的染色または標識プローブへのハイブリダイゼーションでの染色が挙げられるが、それらに限定されない。いくつかの実施形態において、米国特許第5,639,606号、第5,643,765号、および第5,876,978号(各特許は参照により本明細書に組み入れられている)に記載された、競合鋳型方法の標準化混合物での定量的逆転写酵素PCR方法が利用される。

核酸シークエンシングについて、または標的塩基を特定することについての基礎として最も一般的に用いられる方法は、Sangerの酵素的鎖終結法である。伝統的には、そのような方法は、それらのサイズに従って分離するゲル電気泳動に依存しており、核酸断片はより大きな核酸セグメントから生成される。しかしながら、近年は、質量分析およびアレイテクノロジーなどの一連の異なる検出ストラテジーに依存する様々なシークエンシングテクノロジーが進化している。

当技術分野において重要と思われる、一つのクラスのシークエンシング方法は、検出ストラテジーとしてPPi放出の検出に依存するものである。そのような方法は、高処理量で比較的費用効率が高いユニットが必要とされる、ラージスケールのゲノムプロジェクトまたは臨床的シークエンシングもしくはスクリーニングに対して実にみごとに機能することが見出されている。

ポリメラーゼ反応中に放出される無機ピロリン酸塩(PPi)を検出するという概念に基づいたシークエンシングの方法は、例えば、WO 93/23564、WO 89/09283、WO98/13523、およびWO 98/28440の文献に記載されている。ポリメラーゼ反応中、各ヌクレオチドが成長する核酸鎖に付加されるため、ピロリン酸塩分子が放出される。これらの条件下で放出されるピロリン酸塩は、例えば、酵素的に、例えば、ルシフェラーゼ-ルシフェリン反応における光の発生によって、容易に検出することができることが見出されている。そのような方法により、電気泳動および標識の使用の必要性を回避しながら、標的位置において塩基を特定して、簡単かつ迅速にDNAをシークエンシングすることが可能になる。

それの最も基本的なことにおいて、PPiに基づいたシークエンシング反応は、単に、プライマー指令ポリメラーゼ伸長反応を行い、PPiが放出されたかどうかを検出することによってそのヌクレオチドが取り込まれたかどうかを検出することを含む。便利には、このPPi放出の検出は、酵素的に、最も便利には、ELIDAと名付けられた、ルシフェラーゼに基づく光検出反応を用いて、達成することができる(さらには下記参照)。

取り込み用のヌクレオチドとして付加されるdATPは、PPi検出に用いられるルシフェラーゼ反応に干渉することが見出されている。したがって、基本的なPPiに基づいたシークエンシング方法への主要な改良は、dATPの代わりに、dATP類似体(特に、dATPα)を用いることであり、そのdATP類似体は、ルシフェラーゼの基質として働くことができないが、それでもポリメラーゼ酵素によりヌクレオチド鎖へ取り込まれる能力がある(WO 98/13523)。

基本的なPPiに基づいたシークエンシング技術へのさらなる改良には、WO 98/28440に記載されているように、取り込まれていないヌクレオチドが分解されるように、ポリメラーゼのステップ中にアピラーゼなどのヌクレオチド分解酵素を用いること、およびWO 00/43540に記載されているように、偽シグナルの数を減少させることに有益な効果を生じることが見出されている、プライマーの鋳型へのアニーリング後に反応混合物に一本鎖核酸結合タンパク質を用いることが挙げられる。

B. タンパク質の検出
他の実施形態において、遺伝子発現を、タンパク質またはポリペプチドの発現を測定することによって検出してもよい。タンパク質発現は、任意の適切な方法によって検出することができる。いくつかの実施形態において、タンパク質は免疫組織化学法によって検出される。他の実施形態において、タンパク質は、そのタンパク質に対して産生された抗体へのそれらの結合によって検出される。抗体の作製は下に記載されている。

抗体結合は、多くの異なる技術によって検出することができ、その技術には、例えば、放射免疫アッセイ、ELISA(酵素結合免疫吸着アッセイ)、「サンドイッチ」イムノアッセイ、免疫放射定量アッセイ、ゲル核酸沈降反応、免疫拡散アッセイ、(例えば、コロイド金、酵素、または放射性同位元素標識を用いる)インサイチュイムノアッセイ、ウェスタンブロット、沈降反応、凝集アッセイ(例えば、ゲル凝集アッセイ、血球凝集アッセイなど)、補体結合アッセイ、免疫蛍光アッセイ、プロテインAアッセイ、および免疫電気泳動アッセイなどが挙げられるが、それらに限定されない。

一実施形態において、抗体結合は、一次抗体上の標識を検出することによって検出される。別の実施形態において、一次抗体は、一次抗体への二次抗体または試薬の結合を検出することによって検出される。さらなる実施形態において、二次抗体は標識される。

いくつかの実施形態において、自動化検出アッセイが利用される。イムノアッセイの自動化のための方法には、米国特許第5,885,530号、第4,981,785号、第6,159,750号、および第5,358,691号に記載されたもの(それぞれは参照により本明細書に組み入れられている)が挙げられる。いくつかの実施形態において、結果の分析および表示もまた自動化されている。例えば、いくつかの実施形態において、癌マーカーに対応する一連のタンパク質の存在または非存在に基づいた予後を作成するソフトウェアが利用される。

他の実施形態において、イムノアッセイは、米国特許第5,599,677号および第5,672,480号(それぞれは参照により本明細書に組み入れられている)に記載されている。

C. 遠隔検出系
いくつかの実施形態において、コンピュータに基づいた分析プログラムが、臨床医または研究者のために、検出アッセイによって生じた生データ(例えば、所定の転写物(複数可)の存在、非存在、または量)を予測値のデータへ変換するために用いられる。臨床医または研究者は、任意の適切な手段を用いて予測値にアクセスすることができる。したがって、いくつかの好ましい実施形態において、本発明は、遺伝学またはゲノミクスにおいて訓練されている可能性が少ない臨床医または研究者が、生データを理解する必要がないというさらなる利点を提供する。データは、それの最も有用な形で臨床医または研究者に直接、提示される。その後、臨床医または研究者は、対象のケアを最適化し、または発見目的物を発展させるために、その情報をすぐに利用することができる。

本発明は、アッセイを行う実験室へ、および実験室から、情報を受け、処理し、および送る能力がある任意の方法を企図し、その情報は、医療関係者および/または対象および/または研究者へ提供される。例えば、本発明のいくつかの実施形態において、試料(例えば、生検、または血清もしくは尿試料、または撹乱された細胞もしくは組織)は、対象または実験手順から入手され、世界のどこにあろうとも、(例えば、対象が住み、実験が実施され、または情報が最終的に用いられる国とは異なる国にある)プロファイリングサービス(例えば、医療施設における臨床検査室、ゲノムプロファイリングビジネス)へ提出されて、生データが作成される。試料が組織または他の生体試料を含む場合、対象は、試料を採取して、プロファイリングセンターへ送付してもらうために、医療センターを訪問してもよいし、または対象は、自分自身で試料(例えば、尿試料)を収集し、それをプロファイリングセンターへ直接送ってもよい。試料は、以前に決定された生物学的情報を含む場合、その情報は、対象によりプロファイリングサービスへ直接、送られてもよい(例えば、その情報を含有する情報カードが、コンピュータによってスキャンされ、そのデータが、電子通信システムを用いてプロファイリングセンターのコンピュータへ送信されてもよい)。プロファイリングサービスによって受領されるとすぐに、試料は、処理され、対象に望まれる診断情報もしくは予後情報、または研究者の発見目的物に特異的なプロファイル(すなわち、発現データ)が作成される。

その後、プロファイルデータは、処置を行う臨床医または研究者による解釈に適した型式で調製される。例えば、生発現データを提供するよりむしろ、調製された型式は、特定の処置の選択肢の推奨、または作用機構、タンパク質標的予測、または実験的撹乱因子についての治療に用いる潜在性と共に、対象についての診断またはリスク評価を表すことができる。データは、任意の適切な方法によって、臨床医または研究者に表示されてもよい。例えば、いくつかの実施形態において、プロファイリングサービスは、臨床医または研究者のために(例えば、ケア時点または実験時点で)印刷することができ、またはコンピュータモニター上で臨床医または研究者に表示することができる報告書を作成する。

いくつかの実施形態において、情報は、まず、ケア時点もしくは実験時点で、または地域施設において分析される。その後、生データは、さらなる分析のために、および/または生データを臨床医、患者、もしくは研究者に有用な情報に変換するために、中央処理施設へ送られる。中央処理施設は、データ分析のプライバシー(全データは、統一セキュリティプロトコールにしたがって中央施設に保存される)、速度、および均一性という利点をもつ。その後、中央処理施設は、対象の処置後または実験の終了後のデータの行方を管理することができる。例えば、電子通信システムを用いて、中央施設は、臨床医、対象、または研究者にデータを提供することができる。

いくつかの実施形態において、対象は、電子通信システムを用いてデータに直接、アクセスすることができる。対象は、その結果に基づいてさらなる治療介入またはカウンセリングを選択してもよい。いくつかの実施形態において、データは研究用途に用いられる。例えば、データは、特定の状態または病期の有用な指標としてマーカーの包含または除去をさらに最適化するために用いられてもよい。

VI. キット
一実施形態において、本発明は、本発明の方法の実施のためのキットを企図する。キットは、好ましくは、本発明の方法を実施するための様々な組成物および/または試薬を含有する1つまたは複数の容器を含む。キットは、任意で、複数のクラスターセントロイドランドマーク転写物を含むことができる。キットは、任意で、複数の核酸配列を含むことができ、その配列は、クラスターセントロイドランドマーク転写物配列の少なくとも一部分に相補的であり、かつその配列は、任意で、プライマー配列および/またはバーコード核酸配列を含んでもよい。キットは、任意で、複数の光学的にアドレス指定されたビーズを含むことができ、そのビーズはそれぞれ、バーコード核酸配列と相補的である、異なる核酸配列を含む。

キットは、任意で、PCRを実行する能力がある酵素(すなわち、例えば、DNAポリメラーゼ、耐熱性ポリメラーゼ)を含むことができる。キットは、任意で、核酸ライゲーションを実行する能力がある酵素(例えば、リガーゼ)を含むことができる。キットは、任意で、緩衝剤、賦形剤、希釈剤、生化学物質、および/または他の酵素もしくはタンパク質を含むことができる。キットはまた、任意で、光または他の有害な条件による試薬の分解を防ぐために適切なシステム(例えば、不透明な容器)または安定剤(例えば、抗酸化剤)を含んでもよい。

キットは、任意で、本明細書に記載された任意の方法の実施における試薬の使用法を提供する指示を含む使用説明資料(すなわち、プロトコール)を含んでもよい。使用説明資料は、典型的には、書面による、または印刷された資料を含むが、そのようなものに限定されない。そのような使用説明書を保存し、かつそれらをエンドユーザーに通信する能力がある任意の媒体が、本発明によって企図される。そのような媒体には、電子記憶媒体(例えば、磁気ディスク、テープ、カートリッジ、チップ)、光学式媒体(例えば、CD-ROM)などが挙げられるが、それらに限定されない。そのような媒体は、そのような使用説明資料を提供するインターネットサイトへのアドレスを含んでもよい。

キットは、任意で、本明細書に記載された任意の方法の実施、本明細書に記載された任意の方法の単純化もしくは自動化、またはそれらによって作成されたデータの操作、分析、表示、もしくは可視化を提供するコンピュータソフトウェア(すなわち、アルゴリズム、式、機器の設定、ロボットへの命令など)を含んでもよい。そのようなソフトウェアを保存し、かつそれをエンドユーザーへ伝達する能力がある任意の媒体が、本発明によって企図される。そのような媒体には、電子記憶媒体(例えば、磁気ディスク)、光学式媒体(例えば、CD-ROM)などが挙げられるが、それらに限定されない。そのような媒体は、そのようなソフトウェアを提供するインターネットサイトへのアドレスを含んでもよい。

(実施例)
(実施例I)
クラスターセントロイドランドマーク転写物の特定および依存マトリックスの生成
本実施例は、推量的関係をもつクラスターセントロイドランドマーク転写物の特定のための一つの方法を記載する。

Affymetrix U133ファミリーのオリゴヌクレオチドマイクロアレイを用いて作成された35,867個のトランスクリプトームワイド遺伝子発現プロファイルを、.celファイルの形でNCBIのGene Expression Omnibus (GEO)リポジトリからダウンロードした。.celファイルを、MAS5 (Affymetrix)を用いて、各プローブセットについての平均差分値(すなわち、発現レベル)を生じるように前処理をした。その後、発現レベルが全体として、観察された発現レベルの範囲にわたる、350個の前もって決定された不変プローブセットの発現レベルに対して、各ファイルにおける発現レベルをスケーリングした。データセットにおける最小の共通特徴空間が22,268個のプローブセットであると決定された。

各プロファイルの品質を、2つのデータ品質測定法:Pコールのパーセンテージおよび3':5'比を参照することにより評価した。両方の測定法の経験分布を構築し、各分布の両極値における10%のプロファイルを、さらなる検討から除去した。この品質フィルタリング後、合計16,428個のプロファイルが残った。さらに1,941個のプロファイルが、単一の源に由来することが見出され、またそれらを除去した。

そのプロファイルの99%より多くにおける20個の平均差分単位のあらかじめ決定された任意検出閾値より下のプローブセットを除去し、検討中のプローブセットの総数は14,812個になった。

その後、主成分分析(PCA)次元減少を、データセット(すなわち、14,487個の試料×14,812個の特徴)に適用した。データセットにおける変動の90%を解明する287個の成分を特定した。その後、固有空間における特徴のPCA負荷のマトリックス(すなわち、287×14,812)を、k平均を用いてクラスタリングした。高次元マトリックスは、出発の種に基づいて非決定性に分割を獲得するため、k平均クラスタリングを何回か繰り返し、その結果を用いて、gene-by-gene pairwise consensus matrixを構築した。

高い局所的相関のポケットを、gene-by-gene pairwise consensus matrixを階層的にクラスタリングすることによって特定した。樹状図「木」の各ノードにおける葉は共に、クラスターを構成する。その後、木を複数のレベルに切り分け、100個、300個、500個、700個、1,000個、1,500個、2,000個、5,000個、および10,000個のクラスターを特定した。

全ての14,487個のプロファイルにわたる個々の発現レベルベクトルが各クラスターにおける全プローブセットの平均の発現レベルと最も密接に相関したプローブセットを、そのクラスターのセントロイドとして選択した。これは100個、300個、500個、700個、1,000個、1,500個、2,000個、5,000個、および10,000個のセントロイドプローブセットのセットを作成した。複数の個々のプローブセットは、任意の所定のクラスターのセントロイドプローブセットの定義に近い属性を有した。

14,487個のプロファイルの空間におけるg個のセントロイドプローブセットの発現レベルと残りの14,812-g個のプローブセットの発現レベルとの間の線形回帰により、セントロイドプローブセットの各セットについて依存マトリックスが生成した。プロファイルの数が、必ずしもモデリングされることになっている特徴の数と一致するとは限らないため、疑似逆を用いた。それによって、各非セントロイドプローブセットの発現レベルを各セントロイドプローブセットの発現レベルに関連づける重み(すなわち、因子)で、依存マトリックスが構成された。

各セントロイドプローブセットによって示される転写物のアイデンティティおよび遺伝子記号を、Affymetrix (affymetrix.com)によって提供されるマッピングを用いて決定し、「クラスターセントロイドランドマーク転写物」として採用した。非セントロイドプローブセットを、同じ方法で遺伝子暗号にマッピングした。

(実施例II)
クラスターセントロイドランドマーク転写物の適切な数の決定
本実施例は、有用なトランスクリプトームワイド遺伝子発現プロファイルを生成するのに必要とされるクラスターセントロイドランドマーク転写物の数を選択するための一つの方法を記載する。この方法は、公開の関連性マップ供給源(broadinstitute.org/cmap)のbuild02に提供されたAffymetrixオリゴヌクレオチドマイクロアレイで作成された、小分子撹乱因子で処理された培養ヒト細胞から生じるトランスクリプトームワイド遺伝子発現プロファイルの大きなコレクションを用いる。関連性マップの一つの用途は、小分子撹乱因子の生物学的効果の間での類似性の特定である。これは、細胞をそれらの撹乱因子で処理することによって生じた遺伝子発現プロファイルにおいて類似性を検出することによって達成され(Lambら、「The Connectivity Map: using gene-expression signatures to connect small molecules, genes and disease」Science 313:1929頁2006)、トランスクリプトームワイド遺伝子発現プロファイリングの一つの価値のある適用を表す。本方法の概要において、実施例I(上記)に従って特定されたクラスターセントロイドランドマーク転写物のセット(具体的には、それらの対応するプローブセット)についての発現値を、関連性マップデータから抽出し、同じく実施例I(上記)に従って作成された依存マトリックスを用いてトランスクリプトームワイド遺伝子発現プロファイルを生成するために用いた。実施例Iに用いられた発現プロファイルのコレクションは、いかなる関連性マップデータも含まなかったことに留意されたい。異なる数のクラスターセントロイドランドマーク転写物測定値から生成された推定トランスクリプトームワイド遺伝子発現プロファイルによっても特定された、実際のトランスクリプトームワイド遺伝子発現プロファイルを用いて特定された類似の割合を、その後、比較した。

まず、LambらおよびMolecular Signatures Database (MSigDB;リリース1.5; broadinstitute.org/gsea/msigdb)から入手された184個の独立したクエリーシグネチャーを、記載されているように(Lambら)、完全な関連性マップデータセットに対して実行することによって、濃縮スコアのマトリックスを構築し、「参照関連性マトリックス」を生じた(すなわち、184個のクエリー×1,309個の処理)。

7,056個のトランスクリプトームワイド遺伝子発現プロファイルを、関連性マップウェブサイトから.celファイルの形でダウンロードした。その後、MAS5 (Affymetrix)を用いて、各プローブセットについて平均差分値(すなわち、発現レベル)を生じるように.celファイルを前処理した。セントロイドプローブセットの各セットについての発現レベルを抽出し、9×7,056個のトランスクリプトームワイド遺伝子発現プロファイルのセットが、対応する依存マトリックスを用いて生成された;非セントロイドプローブセットの発現レベルは、各セントロイドプローブセットの発現レベルにそれらの依存マトリックス因子を掛けることによって計算され、合計された。プローブセットの序列リストを、記載されているように(Lambら)、これらの(推定)トランスクリプトームワイド遺伝子発現プロファイルを用いて、処理と媒体の各ペアについて計算した。参照関連性マトリックスを生成するために行ったのと全く同様に、184個のクエリーシグネチャーのセットを用いて、9個のデータセットのそれぞれについて濃縮スコアのマトリックスが生成された。

参照関連性マトリックスにおける最高濃縮スコアでの処理がまた、9個の推定データセットのそれぞれから生じた関連性マトリックスにおける最上位のスコアリング処理であったクエリーシグネチャーの数を、プロットした(図2)。1,000個のみのセントロイドプローブセットについての発現値を用いて作成されたデータセットは、184個のうちの147個(80%)の事例において、全ての22,283個のプローブセットについての発現値を用いて作成されたデータセットと同じ処理を特定した。これらの所見は、1,000個のクラスターセントロイドランドマーク転写物が有用なトランスクリプトームワイド遺伝子発現プロファイルを生成するために用い得ることを示している。

(実施例III)
クラスターセントロイドランドマーク転写物のプラットフォーム特異的選択
この実施例は、選択された中程度に多重化したアッセイプラットフォームにおけるクラスターセントロイドランドマーク転写物のパフォーマンスを確証するための一つの方法を記載する。この実施例は、Peckら、「A method for high-throughput gene expression signature analysis」Genome Biology 7:R61頁(2006)のLMF方法を用いた、Affymetrixマイクロアレイを用いて作成された遺伝子発現プロファイルに由来するクラスターセントロイドランドマーク転写物の発現レベルの測定値に特に関連している。図3参照。

プローブ対を、Peckらによって記載されているように、実施例I(上記)に従って選択された1,000個のクラスターセントロイドランドマーク転写物について設計した。これらの転写物の発現レベルを、撹乱されていない細胞系、生理活性小分子で処理された細胞系、およびAffymetrixマイクロアレイを用いて作成されたトランスクリプトームワイド遺伝子発現プロファイルが利用可能である組織検体を含む384個の生体試料のコレクションにおいてLMFによって測定した。全ての384個の生体試料にわたって代表的なクラスターセントロイドランドマーク転写物(217995_at:SQRDL)についてAffymetrixマイクロアレイによって測定された正規化発現レベルに対する、LMFによって測定された正規化発現レベルのプロットは図4に示されている。全ての384個の試料にわたる発現レベルのベクトルを、両方の測定プラットフォーム由来のあらゆる特徴について構築した。

各クラスターセントロイドランドマーク転写物について、対応するLMFベクトルを、最近隣分析における指標として用い、Affymetrixプローブセットをランク付けした。クラスターセントロイドランドマーク転写物を、そのクラスターセントロイドランドマーク転写物に位置するAffymetrixプローブセットが5以上のランクを有し、かつ対応するクラスターにおける非セントロイド転写物の80%以上に位置するAffymetrixプローブセットが100以上のランクを有する場合、LMFによる測定値について「確証された」とみなした。

確証されたクラスターセントロイドランドマーク転写物を生成しようとする全ての試みが、成功したわけではなかった。確証判定基準を満たすことができない転写物は、以下の2つの型であることが見出された:(1)単純な型(セントロイド転写物自体の測定値が384個の試料にわたって相関性が弱かった場合);および(2)複雑な型(セントロイド転写物の測定値は、そのクラスター由来の非セントロイド転写物のそれらと十分相関していたが、それらのレベルは、十分には相関していなかった場合)。失敗のどちらの型も、予想することができなかった。384個の生体試料のうちの1個における3つの確証された転写物(218039_at:NUSAP1、201145_at:HAX1、217874_at:SUCLG1)、1つの代表的な1型の失敗(202209_at:LSM3)、および1つの代表的な2型の失敗(217762_at:RAB31)についてのLMFおよびAffymetrixマイクロアレイによって決定された正規化発現レベルのプロットは図5として提示されている。384個の生体試料のうちの異なる1つにおけるこれらの確証された転写物の1つおよび同じ代表的な2型の失敗についてのLMFおよびAffymetrixマイクロアレイによって決定された正規化発現レベルのプロットは図6Aとして提示されている。図6Bは、(Affymetrixマイクロアレイのみを用いて測定された)同じ生体試料における同じ転写物の発現レベルを、それらのクラスター由来の3つの転写物の発現レベルと共に示している。確証された転写物(218039_at:NUSAP1)の発現レベルだけが、それのクラスターにおける転写物(35685_at:RING1、36004_at:IKBKG、41160_at:MBD3)のレベルと相関した。2型の失敗した転写物(217762_at:RAB31)の発現レベルは、それのクラスターにおける転写物(48612_at:N4BP1、57516_at:ZNF764、57539_at:ZGPAT)の全てのレベルと相関していない。単純な(1型)失敗を示す転写物の代表的なリストを、それらのLMFプローブ対の遺伝子特異的部分と共に、Table 1(表1)として提供されている。複雑な(2型)失敗を示す転写物の代表的なリストを、それらのLMFプローブ対の遺伝子特異的部分と共に、Table 2(表2)として提供されている。

代わりのプローブ対を用いることにより、ある割合の失敗したクラスターセントロイドランドマーク転写物を確証することができた。これが成功しなかった場合、失敗したクラスターセントロイドランドマーク転写物を、同じクラスター由来の他の転写物と置換した。全ての1,000個のクラスターについての確証されたクラスターセントロイドランドマーク転写物が得られるまで、この工程を続けた。これらのランドマーク転写物のリストは、それらの対応するLMFプローブ対の遺伝子特異的部分と共に、Table 3(表3)に提供されている。確証されたランドマーク転写物のこのセットに特異的な依存マトリックスは、実施例I(上記)に従って生成された。

(実施例IV)
1,000個の転写物の測定により生じるトランスクリプトームワイド遺伝子発現プロファイルの作成および使用
この実施例は、トランスクリプトームより下位の数のクラスターセントロイドランドマーク転写物の発現レベルの測定値を用いるトランスクリプトームワイド遺伝子発現プロファイルの作成のための一つの方法を記載する。本方法は、Peckら(「A method for high-throughput gene expression signature analysis」Genome Biology 7:R61頁2006)によって記載されたLMFの中程度に多重化した遺伝子発現分析プラットフォーム、Luminex FlexMAP 3D光学的にアドレス指定されたミクロスフェアおよびフローサイトメトリー検出システム、実施例III(上記)からLMFについて確証された1,000個のクラスターセントロイドランドマーク転写物(および対応する遺伝子特異的配列)、実施例III(上記)からの対応する依存マトリックス、観察された発現レベルの範囲にわたる発現レベルを有する50個の実験的に決定された不変転写物、ならびに開発された1,050個のバーコード配列を用いる。FlexMAP 3Dシステムは、384ウェルのプレートのウェルにアレイされた試料において500個の別々の分析物の同時定量化を可能にする。したがって、1,000個のランドマーク転写物と50個の不変転写物の発現レベルの測定を、3つのウェルにわたって分配した。400個のランドマーク転写物を1つのウェルにおいてアッセイし、300個のランドマーク転写物を2個の追加のウェルのそれぞれにおいてアッセイした。50個の不変遺伝子を全ての3つのウェルにおいてアッセイした。その後、本明細書でL1000と呼ばれる、この全体的方法を用いて、137個の別々の生理活性小分子のそれぞれで処理された培養ヒト細胞からの合計1,152個のトランスクリプトームワイド遺伝子発現プロファイルを作成した。これらのデータを用いて、ほんの一部の関連性マップの類似物を新たに生成し、L1000バージョンの相対的パフォーマンスを、オリジナルのパフォーマンスと比較した。

LMFプローブ対を、各対が1,050個のバーコード配列の1つを組み込むように、1,000個のランドマーク転写物および50個の不変転写物のそれぞれについて構築した。プローブを等モルの量で混合し、プローブ対のプールを形成した。バーコード配列のそれぞれに相補的な捕獲プローブを入手し、標準手順を用いて光学的に識別可能なミクロスフェアの500個の同種集団のうちの1つに結合させた。捕獲プローブ発現ミクロスフェアの以下の3つのプールを作製した:ランドマークプローブ対のうちの400個におけるバーコードと相補的な捕獲プローブに結合したビーズを含有する1つのプール、異なる300個のランドマークプローブとマッチングするビーズを含有する第2のプール、および残りの300個のランドマークプローブとマッチングするビーズを含有する第3のプール。各プールは、50個の不変転写物に対応するプローブ対にマッチングするバーコードを発現するビーズを含有した。

MCF7細胞を、384ウェルプレート中で小分子および対応する媒体で処理した。細胞を溶解し、mRNAを捕獲し、一本鎖cDNAを合成し、公開されたLMF方法(Peckら)に従って、1,000個のランドマークプローブ対と50個の不変転写物のプローブ対のプールを用いてライゲーション媒介性増幅を実施した。PCRステップ後に得られた単位複製配列プールを、新しい384ウェルプレートの3つのウェルの間で分配し、それぞれを、同じく公開されたLMF方法に従って、ウェルあたり各アドレスの約500個のビーズのビーズ密度で3つのビーズプールのうちの1つにハイブリダイズさせた。捕獲された単位複製配列を、フィコエリトリンで標識し、生じたミクロスフェア集団を、FlexMAP 3D装置を用い、製造会社の使用説明書に従って、分析した。

各検出ウェル由来の各ミクロスフェア集団からの蛍光強度中央(MFI)値を、それらの対応する転写物および試料に関連づけた。各ランドマーク転写物についてのMFI値を、同じ検出ウェルから得られた不変転写物のセットについてのMFI値に対してスケーリングし、同じ試料由来の全てのスケーリングされたMFI値を結びつけて、各処理試料における1,000個のランドマーク転写物のそれぞれについての正規化発現レベルのリストを作成した。

測定されなかった転写物についての予測発現レベルを、ランドマーク転写物のそれぞれの発現レベルに依存マトリックスに含有される重みを掛けることによって、計算し、合計した。計算された発現レベルと測定された発現レベルを組み合わせて、各試料についての完全トランスクリプトーム遺伝子発現プロファイルを生成した。転写物の序列リストを、Lambら(「The Connectivity Map: using gene-expression signatures to connect small molecules, genes and disease」Science 313: 1929〜1935頁2006)によって記載されているように、処理プロファイルと対応する媒体-対照プロファイルの各ペアについて計算し、合計782個の小分子処理事例を含有する関連性マップデータセットの類似物を生じた。

(Affymetrixマイクロアレイで生成された)オリジナルの関連性マップおよびL1000類似物における撹乱因子のそれぞれについての濃縮スコアを、3つの生化学的に検証されたヒストンデアセチラーゼ(HDAC)阻害剤化合物の効果の独立したトランスクリプトームワイド遺伝子発現分析に由来する公開されたクエリーシグネチャーについてLambらの方法に従って、計算した。Glaserら、「Gene expression profiling of multiple histone deacetylase (HDAC) inhibitors: defining a common gene set produced by HDAC inhibition in T24 and MDA carcinoma cell lines.」Mol Cancer Ther 2:151〜163頁(2003)。予測されたように、オリジナルのAffymetrix関連性マップにおいて最高スコアを有する小分子は、確立されたHDAC阻害剤である、ボリノスタットであった(濃縮スコア=0.973、n=12、p値< 0.001)。しかしながら、ボリノスタットはまた、L1000データセットにおける最高スコアリング撹乱因子でもあった(スコア=0.921、n=8、p値< 0.001)。図7参照。追加の95個のクエリーシグネチャーを両方のデータセットに対して実行した。オリジナルの関連性マップにおいて最高スコアを有する撹乱因子はまた、それらの事例の79個(83%)においてL1000データセットでも最高スコアを有した。

これらのデータは、L1000が、トランスクリプトームワイド遺伝子発現プロファイリングの一つの有用な適用において、トランスクリプトームにおける全転写物の発現レベルを直接測定するテクノロジー - 具体的には、Affymetrix高密度オリゴヌクレオチドマイクロアレイ - の代わりになり得ることを示している。

(実施例V)
細胞系のクラスタリングのための1,000個の転写物の測定値により作成されたトランスクリプトームワイド遺伝子発現プロファイルの使用
実施例IVに記載されたL1000方法に従って、6つの組織型に由来した44個の培養ヒト癌細胞系から単離された全RNAから、トランスクリプトームより下位の数のクラスターセントロイド転写物の発現レベルの測定および残りの転写物の推量を用いて、トランスクリプトームワイド遺伝子発現プロファイルを作成した。比較のために、これらの同じ全RNA試料からAffymetrix U133 Plus 2.0高密度オリゴヌクレオチドマイクロアレイを用いて、完全トランスクリプトーム遺伝子発現データを作成した。

細胞系を、それらの対応する遺伝子発現プロファイルのコンセンサス階層的クラスタリングに従って一緒にグループ化した(Montiら「Consensus Clustering: A resampling-based method for class discovery and visualization of gene expression microarray data」Machine Learning Journal 52: 91〜118頁2003)。用いられた類似性マトリックスはピアソン相関であった。125回のクラスタリング反復を行った。各反復において、試料の38個(85%)を用い、6個を除外した。

予測されたように、Affymetrixデータで行われたコンセンサスクラスタリングの結果は、同じ組織由来の細胞系を樹状図の同じ枝に配置し、例外はほんのわずかしかなかった(図8A)。多くの類似したそのような所見が報告されている。Rossら、「Systematic variation in gene expression patterns in human cancer cell lines」Nature Genetics 24: 227〜235頁(2000)。注目すべきことには、L1000データのクラスタリングもまた、源が同じ組織である細胞系を樹状図の同じ枝に配置した(図8B)。

この実施例は、L1000が、トランスクリプトームワイド遺伝子発現プロファイリング;すなわち、生物学的類似性に基づいた試料のグループ化の第二の有用な適用において、トランスクリプトームにおける全転写物の発現レベルを直接測定するテクノロジー - 具体的には、Affymetrix高密度オリゴヌクレオチドマイクロアレイ - の代わりになり得ることを示している。

(実施例VI)
遺伝子セット濃縮分析のための1,000個の転写物の測定値により作成されたトランスクリプトームワイド遺伝子発現プロファイルの使用
実施例IVに記載されたL1000方法に従って、1,000個のクラスターセントロイド転写物の発現レベルを、リポ多糖(LPS)または媒体対照での処理後、一次ヒトマクロファージにおいて測定し、それらを用いて、22,268個の転写物の発現レベルで構成される遺伝子発現プロファイルを生成した。これらのデータを、Molecular Signatures Databaseのバージョン3由来の512個の遺伝子セットのライブラリーでの遺伝子セット濃縮分析(GSEA)のための入力として用いた(Subramanianら、「Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles」Proc Natl Acad Sci 102: 15545〜15550頁2005)。

LPSは、NF-κB転写因子複合体の強力なアクチベーターであることが知られている(Qinら、「LPS induces CD40 gene expression through the activation of NF-κB and STAT-1α in macrophages and microglia」Blood 106: 3114〜3122頁2005)。したがって、基準のNF-κBシグナル伝達経路(BIOCARTA_NFKB_PATHWAY)の23個のメンバーで構成される遺伝子セットが、試験された全遺伝子セットの最高スコアを受けた(p<0.001)ことは予想外ではなかった。

この実施例は、L1000が、完全トランスクリプトーム遺伝子発現プロファイリングの第三の有用な適用;すなわち、遺伝子セット濃縮分析に適合したデータを作成し得ることを示している。しかしながら、その分析のより厳密な検査により、BIOCARTA_NFKB_PATHWAY遺伝子セットにおける23個の転写物のいずれも、明確に測定されていなかったことが明らかになった。それゆえ、この実施例はまた、関心対象となる転写物の全ての発現レベルが推量される極端な場合においてさえもその方法の有用性を実証している。

(実施例VII)
前例のないサイズの完全トランスクリプトーム遺伝子発現データセットの生成
実施例IVに記載されたL1000方法を用いて、一連の用量および処理期間において多様な化学的および遺伝学的撹乱で処理された培養ヒト細胞のパネル由来の100,000個を超過する完全トランスクリプトーム遺伝子発現プロファイルを有する関連性マップを生成した。

このサイズのデータセットの生成は、現行のトランスクリプトームワイド遺伝子発現プロファイリングテクノロジー(例えば、Affymetrix GeneChip)では高費用および低処理量のため、実行不可能である。それゆえに、この実施例は、一般的には、遺伝子発現プロファイリングの分野への本発明の革命的な効果、特に、医学関係問題に影響を与えるそれの潜在能力を実証している。

Claims

トランスクリプトームより下位の数の転写物測定値を用いてトランスクリプトームワイドmRNA発現プロファイリングプラットフォームを作成するための方法であって、
a)i)第1の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第1のライブラリー;
ii)第2の生体試料コレクション;
iii)前記第2の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第2のライブラリー;
iv)転写物発現レベルを測定する能力がある装置
を供給するステップと、
b)複数の転写物クラスターが生成されるように前記第1のライブラリーで計算的分析を実施するステップであって、前記クラスターの数が全転写物の総数より実質的に少ないステップと、
c)前記複数の転写物クラスターのそれぞれの内部でセントロイド転写物を特定し、それにより、複数のセントロイド転写物を生成するステップであって、前記残りの転写物が非セントロイド転写物であるステップと、
d)前記第2の生体試料コレクション由来の転写物の少なくとも一部分の発現レベルを前記装置で測定するステップであって、前記転写物の部分が前記第1のライブラリー由来の前記セントロイド転写物として特定された転写物を含むステップと、
e)前記セントロイド転写物の発現レベルの前記測定値の能力を決定して、前記第2ライブラリー由来の転写物の少なくとも一部分のレベルを推量するステップであって、前記部分が非セントロイド転写物で構成されるステップと、
f)その発現レベルが前記非セントロイド転写物の部分のレベルを推量する前記能力を有するセントロイド転写物を選択するステップと
を含む方法。
前記複数のセントロイド転写物が約1000個のセントロイド転写物である、請求項1に記載の方法。
前記装置がマイクロアレイ、ビーズアレイ、液体アレイ、および核酸シークエンサーからなる群から選択される、請求項1に記載の方法。
前記計算的分析がクラスター分析を含む、請求項1に記載の方法。
前記複数の転写物クラスターのそれぞれについての確証されたセントロイド転写物が特定されるまで、ステップc)〜f)を繰り返すことをさらに含む、請求項1に記載の方法。
前記複数の転写物クラスターが直交性である、請求項1に記載の方法。
前記複数の転写物クラスターが非重複性である、請求項1に記載の方法。
前記決定ステップに、前記セントロイド転写物の前記発現レベルと前記非セントロイド転写物の前記発現レベルとの間の相関が関与する、請求項1に記載の方法。
1セットの実質的に不変の転写物の発現レベルが、前記第2の生体試料コレクションにおいて前記装置で追加的に測定される、請求項1に記載の方法。
前記装置で作成された前記セントロイド転写物の前記測定値、および前記第1と第2のライブラリー由来の前記mRNA発現データが、1セットの実質的に不変の転写物の発現レベルに対して正規化される、請求項9に記載の方法。
トランスクリプトーム内の予測転写物部分集団を特定するための方法であって、
a)i)第1の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第1のライブラリー;
ii)第2の生体試料コレクション;
iii)前記第2の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第2のライブラリー;
iv)転写物発現レベルを測定する能力がある装置
を供給するステップと、
b)複数の転写物クラスターが生成されるように前記第1のライブラリーで計算的分析を実施するステップであって、前記クラスターの数が前記第1のライブラリーにおける全転写物の総数より少ないステップと、
c)前記転写物クラスターのそれぞれの内部でセントロイド転写物を特定し、それにより、複数のセントロイド転写物を生成するステップであって、前記残りの転写物が非セントロイド転写物であるステップと、
d)前記セントロイド転写物の発現レベルを測定するために、前記装置において前記第2の生体試料コレクション由来の転写物を処理するステップと、
e)前記装置において測定された前記複数のセントロイド転写物のどれが、トランスクリプトームワイドデータの前記第2のライブラリーにおける前記非セントロイド転写物のレベルを予測するかを決定するステップと
を含む方法。
前記複数のセントロイド転写物が約1000個のセントロイド転写物である、請求項11に記載の方法。
前記装置がマイクロアレイ、ビーズアレイ、液体アレイ、および核酸シークエンサーからなる群から選択される、請求項11に記載の方法。
前記計算的分析がクラスター分析を含む、請求項11に記載の方法。
前記決定ステップに、前記セントロイド転写物と前記非セントロイド転写物との間の相関が関与する、請求項11に記載の方法。
ステップc)〜e)を繰り返すことをさらに含む、請求項11に記載の方法。
トランスクリプトーム内の約1000個の予測転写物部分集団を特定するための方法であって、
a)i)1000個より多い異なる転写物を表す、第1の生体試料コレクション由来のトランスクリプトームワイドmRNA発現データの第1のライブラリー、および
ii)第2の生体試料コレクション由来の転写物
を供給するステップと、
b)複数の転写物クラスターが生成されるように前記第1のライブラリーで計算的分析を実施するステップであって、前記クラスターの数が約1000個であり、かつ前記第1のライブラリーにおける全転写物の総数より少ないステップと、
c)前記転写物クラスターのそれぞれの内部でセントロイド転写物を特定するステップであって、前記残りの転写物が非セントロイド転写物であるステップと、
d)非セントロイド転写物の発現レベルを測定して、第1の測定値を生成し、かつセントロイド転写物の発現レベルを測定して、第2の測定値を生成するために、前記第2の生体試料コレクション由来の転写物を処理するステップと、
e)前記第2の測定値に基づいたどのセントロイド転写物が、前記第1の測定値に基づいた前記非セントロイド転写物のレベルを予測するかを決定し、それにより、トランスクリプトーム内の予測転写物部分集団を特定するステップと
を含む方法。
前記セントロイド転写物の発現レベルを測定する能力がある装置をさらに含む、請求項17に記載の方法。
前記装置が、約1000個の前記セントロイド転写物の発現レベルを測定する能力がある、請求項18に記載の方法。
前記計算的分析がクラスター分析を含む、請求項17に記載の方法。
前記決定ステップに、前記セントロイド転写物と前記非セントロイド転写物との間の相関が関与する、請求項17に記載の方法。
ステップc)〜e)を繰り返すことをさらに含む、請求項17に記載の方法。
第2の転写物集団の発現レベルを測定することによって第1の転写物集団の発現レベルを予測するための方法であって、
a)i)第2の不均一な転写物集団を含む第1の不均一な転写物集団であって、前記第2の集団が前記第1の集団のサブセットを含む、第1の不均一な転写物集団、
ii)前記第2の集団内にはない、前記第1の集団内の転写物の発現レベルを予測する能力があるアルゴリズムであって、前記予測が、前記第2の集団内の転写物の測定された発現レベルに基づいているアルゴリズム
を供給するステップと、
b)前記第2の転写物集団のみを表す複数の異なる鋳型が生成されるような条件下で、前記第1の不均一な転写物集団を処理するステップと、
c)前記異なる鋳型のそれぞれの量を測定して複数の測定値を生成するステップと、
d)前記複数の測定値に前記アルゴリズムを適用し、それにより、前記第2の集団内にはない、前記第1の集団内の転写物の発現レベルを予測するステップと
を含む方法。
前記第1の不均一な転写物集団が複数の非セントロイド転写物を含む、請求項23に記載の方法。
前記第2の不均一な転写物集団が複数のセントロイド転写物を含む、請求項23に記載の方法。
約1000個の前記異なる鋳型の量を測定する能力がある装置をさらに含む、請求項23に記載の方法。
前記装置が、マイクロアレイ、ビーズアレイ、液体アレイ、および核酸シークエンサーからなる群から選択される、請求項26に記載の方法。
前記アルゴリズムに依存マトリックスが関与する、請求項23に記載の方法。
遺伝子発現をアッセイする方法であって、
a)i)約1000個の異なるバーコード配列;
ii)各ビーズが均一な1セットの核酸プローブを含み、各セットが前記約1000個のバーコード配列の異なるバーコード配列に相補的である、約1000個のビーズ;
iii)各転写物が遺伝子特異的配列を含む、1000個より多い異なる転写物の集団;
iv)測定されない転写物の発現レベルを予測する能力があるアルゴリズム
を供給するステップと、
b)各鋳型が、異なる遺伝子特異的配列に操作可能に結合した前記約1000個のバーコード配列のうちの1個を含む、約1000個の異なる鋳型を生成するように前記転写物集団を処理するステップであって、前記約1000個の異なる鋳型が、前記集団内の総数より少ない数の転写物を表すステップと、
c)前記約1000個の異なる鋳型のそれぞれの量を測定して、複数の測定値を生成するステップと、
d)前記複数の測定値に前記アルゴリズムを適用し、それにより、前記集団内の測定されない転写物の発現レベルを予測するステップと
を含む方法。
前記約1000個の異なる鋳型のそれぞれの量を測定する能力がある装置をさらに含む、請求項29に記載の方法。
前記ビーズが光学的にアドレス指定されている、請求項29に記載の方法。
前記処理ステップがライゲーション媒介性増幅を含む、請求項29に記載の方法。
前記測定ステップが、前記光学的にアドレス指定されたビーズを検出することを含む、請求項31に記載の方法。
前記測定ステップが、前記約1000個の異なる鋳型を前記約1000個のビーズに、前記約1000個のバーコード配列に相補的な前記核酸プローブを通してハイブリダイズさせることを含む、請求項31に記載の方法。
前記測定ステップがフローサイトメーターを含む、請求項31に記載の方法。
前記アルゴリズムに依存マトリックスが関与する、請求項29に記載の方法。
増幅された核酸配列を含む組成物であって、前記配列が、クラスターセントロイド転写物配列の少なくとも一部分およびバーコード配列を含み、前記組成物が光学的にアドレス指定されたビーズをさらに含み、前記ビーズが前記バーコードにハイブリダイズする捕獲プローブ核酸配列を含む組成物。
前記バーコード配列が、前記捕獲プローブ核酸に少なくとも部分的に相補的である、請求項37に記載の組成物。
前記増幅された核酸配列がビオチン化されている、請求項37に記載の組成物。
前記光学的にアドレス指定されたビーズがフローサイトメトリーシステムで検出可能である、請求項37に記載の組成物。
前記フローサイトメトリーシステムが約500〜1000個の光学的にアドレス指定されたビーズ間を識別する、請求項40に記載の組成物。
ゲノムワイド発現プロファイルを生成するための方法であって、
a)i)生体試料由来の複数のゲノム転写物;
ii)前記ゲノム転写物の少なくとも一部分を含む複数のセントロイド転写物であって、前記残りのゲノム転写物が非セントロイド転写物である、複数のセントロイド転写物
を供給するステップと、
b)前記複数のセントロイド転写物の発現レベルを測定するステップと、
c)前記セントロイド転写物発現レベルから前記非セントロイド転写物の発現レベルを推量し、それにより、ゲノムワイド発現プロファイルを生成するステップと
を含む方法。
前記複数のセントロイド転写物が約1,000個の転写物を含む、請求項42に記載の方法。
前記測定ステップが、マイクロアレイ、ビーズアレイ、液体アレイ、および核酸シークエンサーからなる群から選択される装置を含む、請求項42に記載の方法。
前記推量ステップに依存マトリックスが関与する、請求項42に記載の方法。
前記ゲノムワイド発現プロファイルが前記生体試料を罹患しているものとして特定する、請求項42に記載の方法。
前記ゲノムワイド発現プロファイルが前記生体試料を健康であるものとして特定する、請求項42に記載の方法。
前記ゲノムワイド発現プロファイルが撹乱因子の作用の機能的読み取りを提供する、請求項42に記載の方法。
前記ゲノムワイド発現プロファイルが、関連性マップに用いるのに適した発現プロファイルを含む、請求項42に記載の方法。
前記発現プロファイルを、類似性についてクエリーシグネチャーと比較する、請求項49に記載の方法。
前記ゲノムワイド発現プロファイルが、関連性マップに適合したクエリーシグネチャーを含む、請求項42に記載の方法。
前記クエリーシグネチャーを、類似性について既知のゲノムワイド発現プロファイルと比較する、請求項51に記載の方法。
a)トランスクリプトーム由来の複数のセントロイド転写物を含む第1の容器;
b)生体試料内の前記複数のセントロイド転写物の発現レベルを測定することに適合した緩衝液および試薬を含む第2の容器;
c)前記複数のセントロイド転写物の発現レベルに基づいて、前記生体試料内の非セントロイド転写物の発現レベルを推量するための1セットの使用説明書
を含むキット。
前記複数のセントロイド転写物が約1,000個の転写物である、請求項53に記載のキット。
トランスクリプトームワイドmRNA発現プロファイルを作成するための方法であって、
a)i)全転写物の総数より実質的に少ない数からなる確証されたセントロイド転写物の組成物;
ii)前記確証されたセントロイド転写物の発現レベルを測定する能力がある装置;
iii)前記装置により測定された前記確証されたセントロイド転写物の発現レベル、および生体試料コレクション由来のトランスクリプトームワイドmRNA発現データのライブラリーから生成された転写物クラスター情報から、前記確証されたセントロイド転写物のセットの中にはない転写物の発現レベルを実質的に計算する能力があるアルゴリズム;ならびに
iv)生体試料
を供給するステップと、
b)前記生体試料を前記装置にアプライし、それにより、前記生体試料における前記確証されたセントロイド転写物の発現レベルが測定されるステップと、
c)前記アルゴリズムを前記測定値に適用し、それにより、トランスクリプトームワイドmRNA発現プロファイルを生成するステップと
を含む方法。
前記確証されたセントロイド転写物が約1,000個の転写物を含む、請求項55に記載の方法。
前記装置が、マイクロアレイ、ビーズアレイ、液体アレイ、および核酸シークエンサーからなる群から選択される、請求項55に記載の方法。
1セットの実質的に不変の転写物の発現レベルが前記生体試料において追加的に測定される、請求項55に記載の方法。
前記確証されたセントロイド転写物の前記発現レベルが、前記不変転写物の前記発現レベルに対して正規化される、請求項55に記載の方法。