JP2004521407A - 大きなデータアレイを解析するための統計学的モデリング - Google Patents

大きなデータアレイを解析するための統計学的モデリング Download PDF

Info

Publication number
JP2004521407A
JP2004521407A JP2002523776A JP2002523776A JP2004521407A JP 2004521407 A JP2004521407 A JP 2004521407A JP 2002523776 A JP2002523776 A JP 2002523776A JP 2002523776 A JP2002523776 A JP 2002523776A JP 2004521407 A JP2004521407 A JP 2004521407A
Authority
JP
Japan
Prior art keywords
data
model
heterogeneity
analysis method
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002523776A
Other languages
English (en)
Inventor
ザオ、ルー・ピー
プレンティス、ロス
ブリーデン、リンダ
Original Assignee
フレッド・ハッチソン・キャンサー・リサーチ・センター
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フレッド・ハッチソン・キャンサー・リサーチ・センター filed Critical フレッド・ハッチソン・キャンサー・リサーチ・センター
Publication of JP2004521407A publication Critical patent/JP2004521407A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Software Systems (AREA)
  • Primary Health Care (AREA)
  • Signal Processing (AREA)
  • Complex Calculations (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

【課題】
【解決手段】大きなデータアレイを解析する方法が提供される。1つの観点では、本発明は2つ以上のデータアレイからのデータを解析する方法を提供する。各アレイは、複数のメンバを含み、各メンバはシグナルを提供し、データは1つ以上のパラメータによってインデックス付けされる。1つの実施形態では、この方法は、モデルをデータに適合させることと、適合の統計学的有意性を評価することによって適合度を決定することと、シグナルの統計学的有意性を決定することを含む。別の実施形態では、この方法は、モデルをデータに適合させるより前にメンバ間の異質性に関するデータを補正することをさらに含む。
【選択図】図1

Description

【0001】
【発明の属する技術分野】
本発明は、大きなデータアレイを解析する方法に関する。
【0002】
【従来の技術】
リファレンス
ここに参照された刊行物の引用のすべては、明細書の末尾、請求項の直前に記載されている。本発明で参照された各引用例の開示は、参照によりその全体がここに取り込まれる。
【0003】
マイクロアレイ技術の進歩(フォードール他、1991年、シェーナ他、1995年、シェーナ他、1996年、デライジ他、1997年、ランダー、1999年)は、研究者がゲノムワイドのスケールでの動態転写動態を調査することを可能にしてきた。マイクロアレイの発達はまた、プロテオミック検出を可能にしてきた。現在の課題は、これら大きなデータセットから有益かつ信頼できる情報を抽出することにある。マイクロアレイデータは、多くの固有の制限がある。これらのチップにおける発現レベルの評価は、チップ表面の差異、プローブ調製が不均一であること、信号強度の相隣効果など、多くの技術的困難により影響を受けるおそれがある。チップにおけるクロスハイブリダイゼーションもまた、誤相関をもたらすおそれがある。さらに、各サンプルにおけるmRNAの量が変化し、サンプル間の異質性をもたらすかもしれない。これらの制限は異なる影響を持つ一方で、これらの制限の存在が定量解析に課題を与えている。
【0004】
発現データを解析する統計学的方法はほとんど発達してこなかった。現時点での最も生産的な方法はクラスタ解析であり、その価値は長い間認められてきた。アリストテレスもクラスタ解析を用いて500種類の動物を分類したと伝えられている。そして、この方法は、1753年のリンネの時代までに確立された。この方法は、大きなデータセットの複雑さを緩和し、データ内の顕著なパターンを認識するには価値がある。しかしながら、この方法には、1)アルゴリズムに一貫性のある適切な定義が欠けている、2)クラスタ数の決定が裁量的である、3)クラスタの構成が再現できない場合がある、4)確率モデルあるいは、事例と変数を同時にクラスタ化するモデルの明確な選択肢がない、などの制限がある。
【0005】
クラスタ解析の第1の目的は、類似の変化パターンを持つ遺伝子をクラスタに分類することである。この方法は、大きなデータセットの複雑さを緩和し、データ内の顕著なパターンを認識するには価値がある。しかしながら、雑音の影響を最小にするためには、これらの大きなデータセットから個々の遺伝子に関する情報を抽出する付加的な方法が必要となる。
【0006】
発現データを解析するために、いくつかのクラスタ化アルゴリズムが提案されてきた。最も広く用いられている主なものの1つは、階層クラスタ化アルゴリズムである。基本的に、このアルゴリズムは遺伝子発現のペアワイズの相関係数を演算することを伴う。そして、この相関係数の大きさに基づいて、このアルゴリズムはすべての遺伝子を単一の階層ツリーに分類する。2つの遺伝子発現パターン間の相関が高いほど、このツリーにおいて遺伝子はより近くに位置する(アイゼン他、1998年)。このアルゴリズムは、複数の遺伝子の同時制御について多くの有用な発見をもたらしてきたが(スペルマン他、1998年)、すべての遺伝子発現パターンをむりやり単一のツリーに分類することは極端な単純化とされるに違いない。
【0007】
他のクラスタ化アルゴリズムには、セルフオーガナイジングマップがある(タマヨ他、1999年)。この方法は、解析に対する予備的情報として遺伝子のクラスタに偏幾何学的構造を重ね、類似の水平パターンを持つ遺伝子のクラスタを相互に同定する。最近の別の方法は、遺伝子をクラスタ化するためのK平均アルゴリズムである(タバゾイエ他、1999年)。これはアンスーパーバイズド的で反復的なアルゴリズムであり、クラスタの差異の中で最小化し、クラスタの差異の間で最大化するクラスタを検索する。これらの方法の両方に固有の課題は、任意の中間パラメータによって作成されるクラスタが主観的に選択されるおそれがあるという点である。異なる選択をすれば、異なるクラスタが作成されることになる。
【0008】
アルゴリズムをクラスタ解析することに関しては一般的にいくつかの付随的な課題もある。まず、クラスタ化の方法は、相関係数あるいは“距離”測定値を用いて、遺伝子の発現パターンの類似性に基づいて遺伝子を分類することを目的としている。確かにこのような類似性は意味があるものとなりうる。しかし、これらは実験上の変化からも生じうるのである。さらに言えば、クラスタ解析方法の一般的な結果である同族の複合ツリー(系統樹)は、互いに比較が難しく、クラスタの統計学的有意性を示さない。この形式はさらに、その根底にある構成を理解するために必要な、異なる変異歴または異なる生理学的状態におけるクラスタのパターンの詳細かつ厳密な比較を妨げてしまう。これらの課題がクラスタ解析を補完するモデリング法の発展を動機づけたのである。
【0009】
モデリングは、データのより客観的な処理の可能性を提供するために、クラスタ解析を発展させたものである。鍵となるアイデアは遺伝子発現をネットワークとしてモデリングし、モデリングを通じて時の経過によるダイナミックな変化を特徴づけることである。そのようなモデルの1つは、1組の微分方程式からなる。しかしながら、このような動態システムのモデリングは、時間の経過にわたって連続的に集積されたデータを必要とし、これは、現在の技術では容易に利用できない。さらに、このようなダイナミックなシステムから解を得ることは演算上高度で困難である。この演算を簡単化するために、リャング他(1986年)は、発現レベルを二分化し、時間スケールを離散化させることを提案し、これらはいわゆるブールネットワークとなった。このような簡単化は、モデルの構築および適合を大変容易にしており、この方法は発現データ解析にも有益に適用されている。細胞生物学に関する基本的な興味は、例えば、30秒毎に遺伝子調節ネットワークに対する洞察を得ることである。
【0010】
【発明が解決しようとする課題】
現在の方法は、生物体組織においてより高度の分解能を達成することを妨げる、以下の未解決の課題に直面している:(1)細胞は同調可能だがその同調は完全なものではない;(2)マイクロアレイ技術は高いスループットを持つが、結果データの質は向上しないままである;(3)mRNA抽出およびサンプル調製の現在の方法は、サンプルを得ることができる頻度に実用上の制限がある;(4)実験上の変化は、状態が十分に制御されていたとしても、時間経過にわたって大きなままである。同様の制限は、例えばプロテオミック解析などを含むさまざまな原因のうちの任意の1つから導出される大きなデータアレイの解析においても存する。
【0011】
本発明は大きなマイクロアレイデータセットのクラスタ解析を補強する相補的な方法を提供する。
【0012】
【課題を解決するための手段】
本発明は、例えば、ゲノムの発現データおよびプロテオミックデータのような関連シグナルおよび解析データを抽出するための統計ツールを使用した方法を提供する。本発明は、統計学的モデリングを使用して大きなデータアレイにおける刺激応答プロファイルを同定する方法を提供する。
【0013】
1つの観点では、本発明は、2つ以上のデータアレイからのデータを解析する方法を提供する。各アレイは複数のメンバを含み、各メンバはシグナルを提供し、データは1つ以上のパラメータによってインデックス付けされる。データは、例えば、アレイ中のx−y位置によってインデックス付けされてもよく、また、既知の遺伝子との対応によって、あるいは刺激によってインデックス付けされてもよい。データは1つ以上の共変数と関連づけられている。共変数は、いくつかの異なるタイプであってもよい。臨床研究においては、共変数は、患者に対する診断、病歴、投薬歴、病理学的状態、およびバイオマーカー情報を含んでいてもよい。母集団調査のためには、共変数は年齢、性別、体重、身長、民族、生活様式、ダイエット、および質問事項を評価する他の情報を含んでいてもよい。基礎生物研究のためには、共変数は候補遺伝子、時間経過検査における時間、温度、細胞型、細胞のタイミング、用量応答調査における用量、あるいは刺激または薬に応答した細胞株の特性の存在を含んでいてもよい。共変数が薬に応答した細胞株の特性である場合、本発明の1つの実施形態では、薬に対する応答はED50である。本発明の1つの観点では、データアレイのメンバによって提供されるシグナルは薬の投薬量に応答している。別の実施形態では、シグナルは共変数の変化に応答している。さらに別の実施形態では、シグナルは1つより大きい共変数の変化に対応している。
【0014】
1つの観点では、本発明は、2つ以上のデータアレイからのデータを解析する方法を提供し、各アレイは複数のメンバを含み、各メンバはシグナルを提供し、データは1つ以上の共変数に関連づけられ、この方法は、モデルをデータアレイおよび共変数に適合させることを含む。本発明の1つの実施形態では、モデルをデータアレイに適合させることは、共変数値を推定することを含む。別の実施形態では、モデルをデータアレイに適合させることは、少なくとも線形回帰モデル、指数モデル、パラメトリックモデル、ノンパラメトリックモデル、およびセミパラメトリックモデルのうちの少なくとも1つである既知のモデルを適合させることを含む。本発明の別の実施形態において、モデルをデータアレイに適合させることは、派生モデルを適合させることを含む。1つの実施形態で、派生モデルは単一パルスモデルを含む。本発明の別の実施形態で、モデルは線形モデルである。さらに別の実施形態で、モデルは二次モデルである。
【0015】
1つの実施形態では、この方法は、モデルをデータアレイおよび共変数に適合させること、適合の統計学的有意性を評価することによって適合度を決定すること、およびシグナルの統計学的有意性を決定することを含む。別の実施形態では、この方法は、モデルにデータを適合させるより前に、メンバ間の異質性についてデータを補正することを含む。1つの実施形態では、メンバ間の異質性についてデータを補正することは、データを正規化することを含む。別の実施形態では、シグナルの統計学的有意性は、シグナルシグナル対雑音比を評価することによって決定される。この方法の1つの実施形態では、共変数値は加重最小2乗法によって推定される。
【0016】
本発明の1つの実施形態では、データアレイは、同調化実験によって導出されたデータを含む。別の実施形態では、この方法は、可変同調がなされている場合に発現を解析することを含む。さらに別の実施形態では、この方法は、同調が悪化している場合に、発現を解析することを含む。本発明のある観点において、この方法は、細胞周期における単一転写物の発現を解析することを含む。本発明の他の実施形態では、この方法は、細胞周期における複数の転写物の発現を解析することを含む。別の実施形態では、この方法は、複数の細胞型における1つ以上の転写物の発現を解析することを含む。本発明の1つの観点では、データアレイは時の経過にしたがって得られたデータを有する。本発明の1つの観点では、データアレイは正常および異常組織に由来するデータを含む。
【0017】
さらなる実施形態では、本発明は、2つ以上のデータアレイからデータを獲得することを含むデータの解析方法を提供し、各アレイは複数のメンバを含み、各メンバは被検査変数に応答するシグナルを提供する。この方法は、メンバ間の異質性を推定すること、所定のパターンとは異なるメンバを同定すること、所定のパターンとは異なるメンバについてデータを補正すること、データで推定可能な1つ以上のパラメータによってインデックス付けされているモデルを、データアレイに適用すること、共変数値を推定することによってモデルをデータに適合させることと、シグナルの統計学的有意性を決定することを含む。この方法では、適合度は、適合の統計学的有意性を評価することによって決定される。1つの実施形態では、適合の統計学的有意性の評価は、モデルによって説明される観察される変動の範囲を決定することを含む。別の実施形態では、シグナルの統計学的有意性はシグナルシグナル対雑音比の有意性を決定することを含む。本発明の実施形態では、異質性の推定は、メンバの応答が被検査変数によって変化しないと仮定することを含む。さらに別の実施形態では、メンバ間の異質性の推定は、加算的および/または乗算的異質性因子を推定することを含む。別の実施形態では、異質性因子は、適切な方法の1つの例が加重最小2乗法である統計学的方法によって推定される。この方法の別の実施形態では、異質性因子は、所定のパターンとは異なるメンバについてデータを補正し、補正値を提供するために用いられる。
【0018】
別の実施形態では、本発明は、2つ以上のデータアレイからデータを獲得することを含むデータの解析方法を提供し、各アレイは複数のメンバを含み、各メンバは、被検査変数に応答するシグナルを提供する。この方法は2つ以上のデータアレイからデータを獲得することを含み、各データアレイはサンプルのアレイから導出され、各サンプルはシグナルを提供し、シグナルは被検査変数に応答する。このデータから、サンプル固有の異質性について補正因子を推定し、アレイ固有の異質性について補正因子を推定し、データで推定可能な1つ以上のパラメータによりインデックス付けされたモデルを適用し、各パラメータは値を有しており、モデルに適合するパラメータ値を決定し、適合の統計学的有意性を評価することによって、モデルに対するパラメータ値の適合度を決定し、シグナルの統計学的有意性を決定する。1つの実施形態では、適合度は、Zスコア、p値、およびRからなるグループから選択された統計基準によって決定される。本発明の1つの実施形態では、補正因子は加算的因子である。
【0019】
本発明の別の観点では、2つ以上のデータセット間のメンバ固有パラメータ値の変化を解析する方法であって、各データセットはメンバのアレイから導出され、各データセットは1つ以上の変数に関連する。この方法は、データセット全体にわたって、異質性を推定し、データセットに関係するパラメータを含む統計モデルを適用し、モデルに適合するメンバ固有パラメータ値を推定し、適合の統計学的有意性を評価することによってモデルに対するメンバ固有パラメータ値の適合度を決定し、シグナルの統計学的有意性を決定することを含む。本発明の1つの実施形態では、各メンバは、単一遺伝子からの転写物を有し、メンバ固有パラメータ値は、転写物の発現のレベルを有する。本発明の1つの実施形態では、メンバ固有パラメータ値を推定することは、回帰解析を含む。さらに別の実施形態では、異質性を推定し、メンバ固有パラメータを推定することは、残差の2乗の和を最小にすることを含む。別の実施形態では、異質性を推定することは、メンバ固有パラメータ値がデータセット間で変化しないと仮定することを含む。別の実施形態では、この方法は、データセットが安定パターンと異なるときに、データセットのすべてのメンバについてデータを補正することを含む。別の実施形態では、異質性を推定することは、異質性因子を決定することを含む。別の実施形態では、異質性因子は、以下の合計の最小2乗を最小にすることによって推定され、
【数2】
Figure 2004521407
ここで、Y=(Y1k,Y2k,...,YJk)はアレイを示し、Yjkはk番目のデータセットのj番目のメンバのパラメータ値を示しており(j=1,2,...,J;k=1,2,...,K)、(δ,λ)はサンプル固有の加算的異質性因子および乗算的異質性因子であり、(a,b)は回帰係数であり、加重の範囲は0から1であり、合計は全メンバと全データセットに対するものである。さらに別の実施形態では、異質性因子は加算的因子または乗算的因子である。
【0020】
本発明の1つの観点は、本発明の方法を実行するためのコンピュータ実行可能命令を有するコンピュータ読み取り可能媒体を提供する。別の実施形態では、本発明は、プロセッサ、メモリ、および動作環境を有するコンピュータシステムを具備する。このコンピュータシステムは、本発明の方法を実行するために動作可能である。
【0021】
本発明の1つの観点は、統計学的モデリング方法を提供し、大きなデータセットからの刺激に応答する転写物を持つ遺伝子を同定する。このモデルは、システマティックな異質性について補償し、提供された遺伝子固有の情報の統計学的有意性を評価する。
【0022】
1つの実施形態では、本発明は、マイクロアレイデータにおいて細胞周期で調製された転写物を同定するための単一パルスモデル(SPM)を提供する。この実施形態にしたがうと、この方法は、SPMの変化を用いることによって補正因子を推定し;SPMの変化を用いることによって補正因子を推定し、SPM変動を用いることによって細胞周期間隔を推定し;可変同調に対応する標準偏差を推定し、活性化時間、不活性化時間、基底レベルおよび高められたレベルを、これらの標準誤差、Zスコア、および変化の割合とともに含む遺伝子に特異的なパラメータを推定し;SPMの周期間隔を時間経過の終点に対して設定し、全観察を通じて1つのパルスにデータを適合させることによって、単一非振動ピーク(SNOP)プロファイルを同定し;レイ中の遺伝子に関するSPMにより説明される変化の割合を定量化することによって細胞周期で調製された転写物を同定し;パルス高のしきい値を設定し、SPMへの適合に対するSNOPへの適合の比を演算することを含む。
【0023】
別の観点では、本発明は、刺激に応答した転写の誘導または抑制を受ける遺伝子を同定するための方法を提供する。
【0024】
1つの実施形態は、疾病に関連した遺伝子を同定し、これらを臨床結果と相関させる方法を提供する。さらなる実施形態では、本発明は、腫瘍の発現プロファイルに基づく腫瘍のサブタイプの分類と、このようなサブタイプと臨床結果との相関に対する方法を提供する。
【0025】
【発明の実施の形態】
前述の観点および本発明の多くの付随的な利点は、添付の図面とともに以下の詳細な説明を参照することによってより容易に認められるだろう。
【0026】
本発明は、関連シグナルを抽出し、ゲノムの発現データやプロテオミックデータのようなデータを解析するために統計ツールが用いられる方法を提供する。本発明は、統計学的モデリングを利用して大きなデータアレイのプロファイルを同定する方法を提供する。
【0027】
1つの実施形態では、本発明は、その転写物プロファイルが刺激に応答する遺伝子を同定する統計学的方法を提供する。一般的な用語では、このアプローチは、1組の判断可能なパラメータを用いて、一般的な応答あるいはシグナルと、例えば、タイミング、細胞型、温度、または投薬量のような特定の実験変数との関係をモデリングすることを含む。他の変数も含まれるが、時間経過調査の時間、病状、温度、細胞型、刺激への暴露、用量応答調査における用量、臨床結果、および細胞周期のタイミング、年齢、性別、体重、身長、人種、民族、ダイエット、および生活様式、患者に対する診断、病歴、投薬歴、病理学上の分類、およびバイオマーカー情報には限定されない。あるいは、変数は薬に対する応答における細胞株の性質であり、例えば、薬に対する応答の適切な性質は、ED50である。
【0028】
1つの目的は、刺激に対する転写物応答に関連した特定の仮定を検証する目的とともに、個々の転写物について関連するパラメータを推定することである。統計モデルが特定の遺伝子またはタンパク質に関する発現データの適切な表現を提供すれば、対応するモデルパラメータ推定値は、その遺伝子またはタンパク質に対してある応答特性を提供することができる。例えば、モデルパラメータは、その応答の大きさ、期間、またはタイミングを記述することができる。このモデリング戦略は、2つのグループの比較に用いることができ、その目的は、正常組織と異常組織の間で、異なるフェーズもしくは細胞周期で、異なった分化の段階で、または薬剤開発研究において、差次的に発現される遺伝子またはタンパク質を同定することであり、その目的は投薬量の影響を受けた転写物を同定することである。パラメータまたは共変数値は、多くの方法で推定されてもよいが、1つの例は、加重最小2乗法による。
【0029】
本発明の方法において、アレイのメンバのそれぞれがシグナルを提供する場合、2つ以上のアレイからのデータが調査され、アレイにわたる異質性を推定する。異質性は加算的または乗算的であってもよく、例えば、加重最小2乗法によって演算可能である。これらのデータメンバは、(SPMのようなモデルによって定量化された)所定のパターンを確認した後、異なるアレイからのこれらのデータメンバを正規化するよう補正され、アレイ間の比較を容易にする。ここでは、所定のパターンとは異なるこれらのデータメンバは正規化によって補正される。このモデルはデータアレイに適用され、モデルは1つ以上の生物学的パラメータによってインデックス付けされる。この生物学的パラメータは利用可能なデータによって推定可能な共変数に関連づけられてもよく、このモデルはパラメータ値を推定することによってデータに適合され、適合度は適合の統計学的有意性を評価することによって決定される。適合度は、例えば、Rおよびχ統計量によって決定することができる。シグナルの統計学的有意性は、例えば、Z統計量やp値を用いることで実現できる。このようなZ統計量は、シグナル対雑音比の有意性を測定する。
【0030】
典型的な発現データは、高スループットであるが、十分に構造化されており、複数のサンプル(k=1,2,...,K)による何千もの遺伝子(j=1,2,...,J)の観察の行列として示される。さらにYjkは、刺激実験におけるk番目のサンプルにおけるj番目の遺伝子についての発現レベルを示す。研究される遺伝子の数Jはしばしば、一般的に何千もの高い次元からなることが多い一方で、サンプル数Kは比較的少なくてもよい。標準的な統計的アプローチは、k番目のサンプルについて、ベクトル応答Y=(Y1k,...,YJk)の平均を、対応するベクトルx=(x1k,...,xpk)に関連づける。このベクトルは、k番目のサンプルの刺激のカテゴリおよび予想される他の特性を、回帰関数、すなわちΔ(x,θ)’={Δ1k(x,θ),...,ΔJk(x,θ)}を用いて符号化し、ここでθ’=(θ,...,θ)は、遺伝子に特異的なパラメータおよび他のパラメータを含んでいてよく、また、推定されるべきものである。このような回帰モデルに基づいて、差分ベクトルY−Δ(x,θ)の成分は平均値0を有するが、例えば、mRNAの抽出、増幅、およびサンプル間の評価の変化のために、相関されるよう期待されてもよい。このような変化は、ここで異質性パラメータとして参照されている付加的なパラメータをYの平均についてのモデルに導入することによって確認可能である。実際、サンプルkについて加算的異質性パラメータδおよび乗算的異質性パラメータλの両方を導入することができ、Yjkの期待値に関するモデルδ+λΔjk(x,θ)を与える。δのものとλのものの平均は、それぞれ0および1に制限され、当初の対象の回帰パラメータθと関連する、可能性ある同定可能性問題が回避される。Yの高い次元によって、これらの異質性パラメータが正確に推定できるようになる。これらのパラメータを含めることは、特にインビボ実験に関して所定xに対するYがほぼ独立しているという仮定をもっともらしいものにすることができる。このような仮定の下で、モデリングおよびθの推定のための数的処理が簡単化される。
【0031】
以下のリャングおよびゼガー(1986年)による、生殖統計学論文(64)において説明されたアプローチにしたがい、平均パラメータベクトルη’={δ,...,δ,λ,...,λ,θ}の推定は、Yについて“作用する”共分散行列を特定することにより処理することができる。これは、上述の独立仮定の下で、V=対角(ν ,...,ν )として記される対角行列により近似されるので、J個の遺伝子のそれぞれについての発現レベルが別個の分散を持つことができる。
【0032】
平均パラメータηのベクトルの推定は、η’^={δ^,...,δ^,λ^,...,λ^,θ^}として推定することができ、
推定式の解は以下の式で求められ、
【数3】
Figure 2004521407
【0033】
ここで、DはパラメータηについてのYの平均値の偏導関数の行列であり、V^は、各ν が一致推定ν ^で置換されたVを示し、1は、長さJのものの列ベクトルを示している。上述のモデリングの仮定の下で、η^は、JおよびKの両方が大きい場合にほぼ共正規分布し、η^の分散は(JおよびKが大きくなるにつれて)標準”サンドイッチ”公式(64;8)により一致推定が可能である。
【0034】
ここで概説された平均パラメータ推定方法は、さまざまなタイプのマイクロアレイデータセットに有効であると予測される。これは、遺伝子に特異的な有意なパラメータを推定して、刺激に応答した発現レベルを特徴づけることを可能にし、この意味において、パターンの特性に重点をおかずに、同様の発現パターンを有する遺伝子を探し出すというクラスタ解析に対して相補的である。例えば、疾病組織と非疾病組織間で発現パターンを比較する場合、非疾病組織サンプルについて値0をとり、疾病組織サンプルについて値1をとるバイナリインジケータxを定義し、回帰関数Δjk(x,θ)=θj0+θj1を特定することができ、ここで、j番目の遺伝子は、θj1≠0のとき、正常組織と異常組織との間で差次的に発現するだろう。回帰変数xは、回帰関数がk番目のサンプル(あるいはk番目の研究対象)の他の測定された特性に基づくことが可能であるよう拡張されてもよい。同様に、時間の経過に伴う発現の変化の調査において、x=tを定義し、tは収集されるべきk番目のサンプルのタイミングであり、線形関数または他の関数形態を選択して、回帰関数Δjk(x,θ)をモデリングすることができる。
【0035】
任意の所定のアプリケーションにおいて、同定されたプロファイルは、使用される特定のモデルに適合するものであるが、構成可能なモデル数は限定されない。当業者にとって明らかなように、モデルの選択は線形または二次であってよく、既知のモデルまたは派生モデルであってよい。この場合、本発明で用いられる既知のモデルは、線形回帰モデル、指数モデル、パラメトリックモデル、ノンパラメトリックモデル、およびセミパラメトリックモデルのうちの少なくとも1つを含むことができるがこれらに限定されない。本発明で有効な派生モデルは、単一パルスモデルを含むがこれに限定されない。適合度は、当業者にとって自明な多くの手段によって決定可能である。適合度を決定する適切な方法の例には、Zスコア、p値、およびRが含まれるがこれらに限定されない。
【0036】
さらに、この戦略は演算の負担を大幅に減らし、大きなデータセットを調査し、雑音の影響を最小にすることができる。さらに、研究者がこれらを直接検索して、どのような既存の情報をも活用することを可能にする。このように、本発明は2つのグループを比較するために利用できるモデリングアプローチを提供する。例えば、この方法は、正常組織と異常組織との間で差次的に発現する遺伝子あるいはタンパク質を同定するための目的での場合に利用可能である。あるいは、薬物発見調査において、投薬量によって変化する転写物を同定する目的である場合にも利用可能である。後者の場合、特定の用量応答パターンを持つ転写物を捜すことができ、このようなパターンを特徴づけるパラメータは、変化の傾きやピーク応答に必要な投薬量を含むことが可能である。
【0037】
このアプローチの有効性を示すために、発芽イーストサッカロミセスセレビジアの周期転写遺伝子を同定するモデルが形成された。この場合、刺激は、細胞を固定制止位置から解放することにより細胞周期と同調的に再開される。応答は転写物のパルスであり、鍵となる実験上の変数は細胞周期のタイミングである(2;3;11)。4つの同調した細胞周期データセットが生成され、一般的な調査のために利用可能となっている(2;11)。これらの大きなデータセットは、視覚検査(2)、フーリエ変換および階層クラスタ化(11)、K平均(13)およびQTクラスタ化(113)、セルフオーガナイジングマップ(12)および特異値分解(114;115)によって解析されている。3つのデータセットのフーリエ変換解析は、周期性についてのしきい値が既知の周期的な遺伝子の行動に基づいた場合、800周期転写遺伝子が存するとの報告を導き出した(11)。次に、K平均クラスタ化は1つのデータセットに適用され、524メンバを有する5つの周期クラスタが同定された(13)。しかしながら、両方のアプローチによっては330遺伝子しか同定されない。比較として、本発明の方法は、統計学的モデリングを用いて、これらの大きなデータセット内の規則的に振動しているプロファイルを捜す。このアプローチはクラスタ化方法を補完する。クラスタ化方法では、同様の発現パターンを持つ遺伝子を1つにグループ分けしようとするよりも、所定の刺激により影響を受けた転写物を直接同定し、個々の応答パターンに関する特定の情報を提供する。以下で詳説されるように、この方法はさらに、サンプル間の応答パターンの異質性が予想された強さであるタイプの実験上の変数に対する応答パラメータの推論を可能にする。
【0038】
本発明の方法を示すために同調化実験が考えられる。これは、細胞周期毎に1度転写されるmRNAを同定するものである。j番目のmRNAが活性化すると、高められたレベル(α+β)に達し、不活性となると、基底発現レベル(α)に落ちる(図1)。その後、βは、平均化されたピークと谷の発現レベル間の差分として解釈される。不完全な同調で、複数細胞の中で連続回数転写され消失したj番目のmRNAの複数のコピーについて検討すると、時間tにおけるこのj番目の転写物の平均発現レベルは、以下ようにモデリングすることができる:
【数4】
Figure 2004521407
ここで、j=1,2,...,Jおよびk=1,2,...,K、全K回の時間点における全J個の転写物であり、(ζ、ξ)は、j番目の遺伝子についての活性化および不活性化時間をそれぞれ示し、t*=t+τにおいて、τは、実際の細胞周期のタイミングと観測されたタイミングとの差分を示し、これは一般的にはフェーズとして知られている。Θは細胞周期間隔であり、総和は複数の細胞周期c=0,1,2...の全体に対するものである。標準偏差σは、t周辺の“真の”細胞固有タイミングの変化を示す。この変動は平均tを有する正規分布にしたがい、平均モデルでは累積正規分布関数φ(・)となると仮定している。また、(δ,λ)は、上述したように、k番目のサンプルに対する加算的および乗算的異質性パラメータであり、ここでx=tである。上記単一パルスモデル(SPM)は、細胞周期が進むにつれて、各遺伝子の平均発現に関するモデルを特定する。遺伝子固有の活性化および不活性化時間は、背景および高められた発現レベルと同様に、遺伝子ごとに推定される。SPMは、サンプル間の変動、同調が完全でない事実、および以下で説明するように、時を経て悪化する同調も許容する。SPMの開発のさらなる詳細は例1で示されている。結果として示された平均発現モデルが視覚的に示されており、従来的な方法で測定された周期的な転写物について観察されたプロファイルを再現している。
【0039】
上述のSPMは、すでに概略が示された平均モデル推定方法を用いて適用することができる。数字的側面を簡単化するために、マルチステージ方法が用いられた:1)異質性パラメータ(δ,λ)、k=1,2,...,Kは、パルス高が0に設定されている場合、すべての遺伝子を用いて推定される。2)細胞周期間隔Θは、パルスモデル下での既知の細胞周期遺伝子のグループを用いて推定される。3)同調変動量、σ、k=1,2,...,K、は、既知の遺伝子の同一のグループを用いて推定される。4)遺伝子に特異的なパラメータ(α,β,ζ,ξ)、j=1,...,Jが推定される一方で、他の推定パラメータはそれの推定値で固定していると扱われる。上記の推定式[1]を用いた同時推定アプローチが好ましいが、それらの分散推定値の遺伝子に特異的なパラメータの推定における影響は、遺伝子に特異的なパラメータが他のパラメータと弱く相関することから最小となりやすい。細胞周期間隔およびサンプル固有パラメータを固定することにより、J遺伝子のそれぞれについて、遺伝子に特異的なパラメータの推定値、およびそれらの分散推定値の別々の単純演算が可能となる。これらの演算のさらなる詳細は例1で示される。
【0040】
SPMの適合をテストするために平均モデルの時間の付加的な多項式関数が導入され、多項係数が同様に0であるという仮説がテストされた。具体的には、SPMが強化され、以下の式で書かれており、
【数5】
Figure 2004521407
SPMからのずれが許容される。(γj1,γj2,γj3)=(0,0,0)についてのスコアタイプのテスト統計が、上述の漸近正規理論を用いて構築された。このスコア統計量χ は、十分大きなJおよびKについて、SPMモデルの下で3つの自由度を持つ近似χ分布を有する。SPMから大きくずれた、11.3、パターンを持つ遺伝子を同定するために、このχ分布の上位1%が使用された。cdc28データセットに関して、例えば、262個の遺伝子しか、臨界値を超えるテスト統計量を与えない。当業者にとって明らかなように、これらの多項式の項以外の他の偏差も特定可能である。
【0041】
発現パターンがSPMから大きくずれていない遺伝子について、活性化時間(ζ)、不活性化時間(ξ)、基底発現レベル(α)および間隔中の発現レベルの高まり(β)が、それらの推定標準偏差とともに推定される。SPMの下で、β≠0の場合のみ、発現レベルは細胞周期で調製される。各Zの絶対値について臨界値5が選択され、ヌル仮定を排除する。このZは、推定標準偏差に対する推定値βの比である。この値は、正規分布の末端ではなれており、検査される6000個程度の遺伝子の場合でさえ、0.3%(両側)のゲノムワイドの有意レベルを保つよう予測される。SPMからのずれの証拠を示したいくつかの遺伝子は、細胞周期とともに変化する発現パターンも持ちうる。上述の強化された平均モデルμ〜(t)の場合にこれらの遺伝子についてもβ=0をテストすることができるが、そのようなテストの解釈は強化モデルの妥当性次第である。
【0042】
3つのデータセットがこの解析で利用された。cdc28データセットはチョウ他(1998年)によって生成され(2)、温度感知可能なcdc28の突然変異を利用して同調が確立され、G1で細胞を可逆的に停止させる。簡単に言えば、オリゴヌクレオチドアレイは、各サンプルで作られた蛍光ラベル付けされたcDNAにハイブリダイゼーションされ、絶対蛍光強度値は、各ターゲットサンプルの各転写物の量に比例すると仮定される(3)。これらのアレイからのデータはhttp://genomics.stanford.edu.からダウンロードされた。データの他の2つのセット(アルファ因子およびcdc15)は、アルファ因子媒介されたG1の停止および、温度感知可能なcdc15の突然変異を利用して、スペルマン他(1998年)によって生成され(11)、それぞれ可逆Mフェーズの停止を誘導した。簡単に言えば、蛍光ラベル付けされたcDNAは、各時間点からのRNAで作られ、第2の蛍光染料は、非同調制御培養で作られたcDNAをラベル付けするために用いられた。制御およびテストcDNAは混合され、PRC増幅されたイーストのオープンリーディングフレーム(ORF)のアレイにハイブリダイゼーションされた。両染料の蛍光強度値が測定され、テスト対制御値の対数比が生成された。得られる比率は、テスト対制御mRNAレベルの対応する真の比率を近似すると仮定された(11)。これらのデータおよびcdc28データは、比率データを模倣するよう再スケールされており、パブリックドメインサイト(http://cellcycle−www.stanford.edu)からアクセスされた。その結果はこれらのデータセットの解析に基づき、これら配列されたサンプルの調製および処理に伴う変化のすべての原因の影響を受けた。
【0043】
SPMの主な仮定は、で調製された転写物が周期毎に1度だけピークをとり、これらのパルスは、連続周期において一定回数生じるというものである。SPMには、サンプルにわたる加算的および乗算的異質性を調製できる項が含まれる。図2は、各データセットについて演算されたこれらの値を示している。加算的異質性は対数比が用いられるとき最小である。cdc28データセットについて絶対強度が検討されるとき、加算的異質性は、90分の時間点で最も明らかとなる。これは、この特定の時間点にわたる懸念を確認し(2)、その異質性について補正する手段を提供する。
【0044】
104個の既知の細胞周期で調製された遺伝子のセットと、可能性ある細胞周期間隔の範囲に対するプロファイリングとを用いて、各データセットについて細胞周期間隔が推定された(例1を参照)。予測されるように、細胞周期間隔は各同調方法により異なる。アルファ因子およびcdc15データセットに関する細胞周期間隔は、二モード分布を示す(図2)。これらは、第1の周期に差次的に影響を与え、転写物のサブセットのタイミングを変更させるリカバリーアーティファクトによるものかもしれない。ある2乗の加重和を最小にする推定細胞周期間隔が用いられ、アルファ因子の同調について58分の値を与え、cdc15の細胞については115分、cdc28の培養については85分の値を与えている。図2はさらに、時の経過による同調の損失に関連する推定標準偏差も示している。いったんこれらの値が得られると、j=1,...,Jのj番目の遺伝子についてχ 値が演算され、遺伝子に特異的なパラメータが、SPMと一致する転写物パターンを持つすべての遺伝子について推定される(すなわち、χ が11.3より少ない値をとる)。遺伝子に特異的なパラメータは、平均活性化および不活性化時間、ならびに基底および高められたレベルを含む。
【0045】
図3は、5つの周期的遺伝子についてのマイクロアレイデータ(実線)およびこれらのプロファイルに対する適合SPM(点線)を示している。明らかなことは、モデルが、データのプロファイルに非常に近似し、観察されたパターンと一致する平均活性化および不活性化時間(かっこ書き)を提供している。これらの振動に対するZ値は、cdc15データセットにおけるRFA1に対する約18から、アルファ因子データセットにおけるMCM3に対する約3.5まで変化する。MCM3の周期的な行動がなお明らかなままであるという事実は、かなり控えめなしきい値が各Zjに対して設定されたという確信を与えている。上位3つの転写物はG1固有のMCB調製された遺伝子として分類されている(11)。しかしながら、PDS1パルスは他の2つと比べて遅延している。RFA1およびCLB6は、ほぼ同時に活性化しているが、CLB6mRNAのパルスは短命である。これらの差はSPMによって各遺伝子について演算された活性化および不活性化時間に影響しており、相互調製された転写物を同定するのに用いることができる。
【0046】
合計607個の遺伝子は、cdc28データから直接の絶対蛍光強度測定値を用いて、周期性についてのSPMしきい値を満たした(すなわち、Zの絶対値が5以上)(2)。ほぼ同数の遺伝子が、この強度の対数あるいはスペルマン他によって生成された強度の対数比(9;10;11)のいずれかを用いることによって得られた。しかしながら、約500個の遺伝子しか3つの解析のすべてで同定されなかった。したがって、任意の単一データ変換は約20%の潜在的な陽性を見逃すおそれがある。それは、Z値がわれわれのしきい値に近いためである。すべてのその後の解析において、アルファ因子およびcdc15データと調和させるために、cdc28データの対数比が用いられた。
【0047】
cdc28データセットにおける細胞周期で調製された遺伝子のリストが視覚調査(2)およびK平均クラスタ化(13)によって編集されている。SPM解析は、これらの割当ての大部分を確認し、より多くの候補振動転写物を同定する。タバゾイエ他(1999年)によって提出されたK平均アプローチについての応用(13)は、3000個のイースト遺伝子を選択するために初期のフィルタリング方法を採用しており、この方法は、時間経過による変化の最も高い係数を示している。その後、反復型K平均方法が、すべての3000個のプロファイルを30のクラスタに区分するために用いられた。すべての3000個のプロファイルを30のクラスタのうちの1つに適合させるという要求は、緩やかに相関された発現のパターンと大きなクラスタとのアセンブリを必要とした。これらのクラスタのうちの5つは、平均テンポラルプロファイルを有し、これは2つの細胞周期にわたってあきらかに周期的であった。しかしながら、524クラスタメンバのプロファイルの約半数だけしか、SPMにおける周期性についてのしきい値を超えなかった。
【0048】
SPMが周期遺伝子の緊密なクラスタを同定できるか否かを判断するために、QTクラストアルゴリズムを用いて3つの異なるしきい値でアセンブルされたG1固有転写物のクラスタについてχおよびZ値が演算された。この場合、最も緊密なクラスタメンバのすべては、SPMにおいて設定された周期性についてのしきい値を超えたか、非常に近接しているかのいずれかである(図4上段)。制限事例の調査によって、これらは周期的である可能性が高く、これにより我々のZ値のしきい値は控えめであることが示された。クラスタのしきい値がより低く設定されている場合、ナンバーシップは2倍になり、ほとんどすべてのプロファイルは再びSPMのしきい値にあるか、あるいはそれよりも十分高くなる(図4中段)。しかしながら、参照文献(113)の著者によって記されているように、272のプロファイルを含むためにクラスタのしきい値をさらに緩和することによって、多くの一致が乏しいパターンを含むことが導かれ、これは、SPMによる低いZ値も有する(図4下段)。このことは、最も周期的な転写物を同定するのにどちらのアプローチも効果的であることを示している。さらに、意味のあるしきい値を確立し、より低いロバスト応答パターンを特徴づけるために、全く異なる2つのデータ解析方法を有することの意義を示している。
【0049】
SPMのもう一つの特徴は、遺伝子に特異的なパラメータの推定にある。図4は、クラスタメンバーシップが増加するにつれ、どのように活性化および不活性化時間の分布が広がるかも示している。これは、非周期的プロファイルを含むことに加えて、このグループが、発現の異なる反応速度を持つ遺伝子を含むことを示す。したがって、SPMは、同様の発現パターンのこれらのクラスタが、対象とする質問にしたがってさらに細分できるようにする。
【0050】
これらの細胞周期データセットの1つの制限は、少ない数のサンプルと、任意の時間点での複数の測定の欠如にある。このことは、間違った陽性および間違った陰性の同定を問題のあるものにする。この問題を軽減するために、SPMを用いてcdc28、cdc15およびアルファ因子のデータセットから周期的な転写物を別々に同定して、その結果を比較した。SPMは、他の2つの同時性のもののいずれかと比べて約2倍程度のcdc28データセットの周期遺伝子を同定し(図5)、少なくとも1つのデータセットにおいて有意な振動を示す遺伝子が全部で1088個存する。SPMによって同定されたこれら1088個の候補周期遺伝子の中には、104個の既知の周期遺伝子の81%が含まれる。254個の遺伝子は、少なくとも2つのデータベースで大きく振動する。これは、すべての遺伝子のうちの4%を示すが、既知の周期遺伝子のうちの46%を含んでいる。したがって、SPMは、偶然により予想されるレベルよりも十分高い既知の周期的な転写物を同定する。3つのデータセットのすべてにおいて周期的として得点づけられた71個の遺伝子には、既知の周期遺伝子の4分の1だけしかない。834個の遺伝子は1つのデータセットにおいてのみ周期的であると考えられ、よって遺伝子のこの大きなグループが不明確でなく分類できるためにはさらなるデータ収集が必要である。
【0051】
スペルマン他(1998年)(11)は、同一の3つのデータセットからの結合されたデータのフーリエ解析を用いて、周期的な転写物を同定した。既知の周期遺伝子をこれらのしきい値を設定するためのガイドとして用いることにより、彼らは、799個の遺伝子が周期的であると推定した。これらの遺伝子のうちの65%だけが、少なくとも1つのデータセットにおいて周期的であるとしてSPMによってピックアップされている。この差は、Zについての控えめなしきい値によってある程度説明することができる。なぜなら、Zについてのしきい値の値を4.0に減らすことによって、これらの遺伝子の79%が少なくとも1つのデータセットにおいて周期的であると分類されるからである。
【0052】
少なくとも2つのデータセットにおいて、SPMによって、周期性についてのしきい値を超える遺伝子のほぼすべても、スペルマン他(1998年)の方法により確認されている(11)。ここで再び、クラスタ化によって、最もロバストな周期パターンが両方の方法によって同定されている。しかしながら、少なくとも1つのデータセットにおいてSPM基準によって周期的であると考えられたが、スペルマン他(1998年)(11)によってそのようには分類されていない571個の遺伝子がある。上述のように、これらはさらなる裏付けデータなしでは、不明確とならないようにして周期的であると分類することはできない。それらは、2つのデータセットにおける間違った陰性か、1つのデータセットにおける間違った陽性のいずれかである。実験上の変動は、スムーズに振動するプロファイルを生成するよりも、非同調的パターンをもたらす可能性が非常に高い。SPMでは、ピークも、連続した細胞周期において同時に生じなければならず、ピークと谷は、プロファイルにおいて、単一のポイントで表される場合には認識されない(例1を参照)。これらの制限は、雑音の影響を低減させ、間違った陽性のより低い誤差比率をもたらすに違いない。しかしながら、データ中の雑音の影響を除去することはできず、これらの割り当てに基礎をおくこのように少ないデータポイントでは、多くが曖昧なままとなっている。2つのデータセットで周期的であると得点がつけられた254個の遺伝子は、合理的に高い確信をもって周期的であると考え得るが、これらは既知の遺伝子の約半分しか含んでおらず、明らかにその数を過小評価している。より多くのデータが生成されないかぎり、他の転写物の分類はあいまいなままであろう。言い換えれば、ほぼ50万のデータポイントを累算しているのに、発芽イーストの周期転写物の約半分しか高い確信をもって同定できない。統計的方法は多数の独立サンプルが存在するときに最も信頼性を有するという事実と相まって、これらのあいまいさは、この重要なモデル生物体の周期的な転写物をより完全に同定し、順序づけるために、2つの細胞周期全体にわたり、そしてより近い時間点を有する別のデータセットが要求されると示唆している。
【0053】
これら1088個の遺伝子の半分が実際に周期的である場合(図5の脚注を参照)、これらはすべての発芽イースト遺伝子の約10%を含むであろう。特に、この調製がなされる多くの異なる方法がある場合には、細胞に対する膨大な調製の負担と見られるかもしれない。一方、この調製を行う20の異なるサーキットしかなく、遺伝子生成物が、これらに対する細胞の要求に基づいてこれら制限された発現パターンに放出されたのであれば、細胞への生合成負荷を制限する、非常に限られた方法としてとらえることができよう。
【0054】
このように、本発明の1つの実施形態は、統計モデル(SPM)を採用し、連続した細胞周期において一定回数生じる転写物の単一パルスを同定し、特徴づけている。SPMは統計学的モデリングの特定アプリケーションであるが、基本的な方法を、任意の大きなデータセットに適用して、刺激に対する転写物応答を受ける遺伝子を同定することができる。統計学的モデリングは比較的簡単なので、付加的なフィルタを採用することなく、大きなデータセットを調査して、解析されるべき遺伝子数を減らすために利用することができる。統計学的モデリングは、データセットの雑音の影響を低減する傾向のある異質性パラメータをさらに含む。SPMは、多量の転写物あるいはピークの高さまたはタイミングと関係なく、規則的に振動する転写物を同定し、活性化および不活性化の平均時間の推定値を提供する。これらの値は推定値にすぎないが、仮定SPMのもとでバイアスされておらず、個々の遺伝子の特性を規定していると考えられる。最適なグループ分けがなされ、さらなる解析の対象となるよう、SPMはパラメータ推定値の質に対する統計測定値も提供する。統計学的モデリングのこれらの特徴は、マイクロアレイデータを解析するために用いられる他の方法を補完し、強化する。
【0055】
本発明の方法で測定されている細胞の構成要素は、細胞の生物学的な状態の任意の側面からのものであってよい。それらは、RNA存在度が測定される転写状態、タンパク質存在度が測定される変換状態、タンパク質の活動が測定される活動状態からのものであってもよい。細胞の特性もまた混合された側面からのものでよく、例えば、1つ以上のタンパク質の活動が、他の細胞の構成要素のRNAの存在度(遺伝子発現)とともに測定される。
【0056】
本発明の方法は2つ以上のデータアレイからのデータを解析する。用語“データアレイ”は複数のメンバに関連するデータの行列に関係しており、各メンバはシグナルを提供しており、データは1つ以上の共変数に関連づけられている。各データアレイは一般的に、例えば、500個以上の多数の観察を含む。データアレイは天然におけるゲノムの(核酸アレイ)、あるいはプロテオミックの(タンパク質またはペプチドアレイ)ものであってもよい。
【0057】
マイクロアレイは一般的に表面からなり、その表面には、遺伝子生成物(例えば、cDNA、mRNA、cRNA、ポリペプチド、およびこれらのフラグメント)と順次対応しているプローブが、既知の位置で特にハイブリダイゼーションされ、あるいは結合可能である。1つの実施形態では、マイクロアレイはアレイ(すなわち、行列)であり、アレイでは各位置が、遺伝子(例えば、タンパク質またはRNA)によって符号化された生成物に対する別個の結合部位を示し、結合部位が、生物体のゲノムにおける大部分またはほとんど全ての遺伝子の生成物に対して存在している。
【0058】
1つの実施形態では、本発明は“転写物アレイ”(ここで“マイクロアレイ”とも呼ばれている)を利用している。転写物アレイは、細胞内の転写状態を解析するために採用され、特に、グレード付けされたレベルの対象とする薬に、あるいは生物体モデルに投入された細胞の構成要素へのグレード付けされた一時的変異/外乱に暴露された細胞の転写状態を測定するために採用されてもよい。
【0059】
別の実施形態では、本発明は、タンパク質チップアレイまたはプロテオミックアレイを活用している。例えば、データアレイは質量分析法または等価計測によって得られる飛行時間にわたる強度値のベクトルであってもよい。このように、本発明の方法は質量分析データアレイを解析するために利用することができる。質量分析アレイは、さまざまなソースから得ることができる。このソースには、例えば、タンパク質およびペプチドアレイが含まれる。適切なタンパク質およびペプチドアレイは、例えば、サイファーゲンから入手可能なタンパク質チップを含む。
【0060】
1つの実施形態では、転写物アレイは細胞中に存するmRNAの転写物(例えば、所定から合成された、蛍光ラベル付けされたcDNA)を表し、検出可能なようラベル付けされた、ポリヌクレオチドをマイクロアレイに対してハイブリダイゼーションすることによって生成される。マイクロアレイは、細胞または生物体のゲノム中の多くの遺伝子、好ましくはほとんどまたはほぼすべての遺伝子の生成物に対する結合(例えば、ハイブリダイゼーション)部位の順序づけされたアレイを持つ表面である。マイクロアレイは多くの方法で作ることができ、そのうちのいくつかが以下で説明される。生成されるとはいえ、マイクロアレイはある特性を共有している。それは、アレイが複製可能であり、所定のアレイの複数のコピーを作成し、容易に互いを比較可能である。マイクロアレイは小さいのが好ましく、通常は5cmよりも小さく、結合(例えば、核酸のハイブリダイゼーション)状態で安定な物質から作成されることが好ましい。マイクロアレイにおける所定の結合部位または結合部位の固有のセットが、細胞内の単一遺伝子の生成物と特に結合される。特定のmRNA毎に1つより多い物理的な結合部位(以下、“部位”と呼ぶ)があってもよいが、以下の議論を明確にするために、単一の部位のみが存すると仮定する。具体的な実施形態では、各位置で既知の配列の固定された核酸を含む、位置付け可能なアレイが用いられる。
【0061】
細胞のRNAに対して相補的なcDNAが作られ、適切なハイブリダイゼーション状態の下でマイクロアレイにハイブリダイゼーションされるとき、任意の特定の遺伝子に対応するアレイにおける部位へのハイブリダイゼーションのレベルは、その遺伝子から転写したmRNAの、細胞における優勢さに影響を与える。例えば、検出可能なようラベル付け(例えば、蛍光体で)された、全細胞mRNAに対して相補的なcDNAが、マイクロアレイにハイブリダイゼーションされるとき、細胞内で転写されない遺伝子に対応する(すなわち、特に遺伝子の生成物を結合可能である)アレイ上の部位は、シグナル(例えば、蛍光シグナル)をわずかしか持たないか、あるいは全く持たず、符号化されたmRNAが優勢な遺伝子は比較的強いシグナルを持つ。
【0062】
ある実施形態では、2つの異なる細胞からのcDNAがマイクロアレイの結合部位に対してハイブリダイゼーションされる。薬に対する応答の場合は、ある細胞は薬に対して暴露され、同一タイプの別の細胞は薬に対して暴露されていない。細胞の構成要素への一時的変異/外乱に対する応答の場合は、ある細胞はそのような一時的変異/外乱に対して暴露され、同一タイプの別の細胞は経路外乱に対して暴露されていない。
【0063】
遺伝子発現データは反復実験により組み合わされ、ランダムに生じる実験上の誤差を低減させ、特徴づけることができる。
【0064】
1つの実施形態で、マイクロアレイは、ターゲット生物体のゲノムにおけるすべてまたはほぼすべての遺伝子の生成物に対する結合部位を含むが、かかる範囲の広さは必ずしも要求されていない。ふつう、マイクロアレイは、ゲノム中の遺伝子の少なくとも約50%に対応する結合部位を有し、しばしば少なくとも約75%、たいていの場合少なくとも約85%、さらに多くの場合少なくとも約90%、最も多くの場合少なくとも約99%の遺伝子に対応する結合部位を持つ。マイクロアレイは検査と関連した遺伝子に対する結合部位を持つこともできる。“遺伝子”は、好ましくは少なくとも50,75,または99個のアミノ酸のオープンリーディングフレーム(ORF)として同定される。生物体(例えば、単一の細胞の場合)あるいは多細胞の生物体におけるいくつかの細胞中に、このアミノ酸からメッセンジャーRNAが転写される。ゲノム中の遺伝子の数は、生物体により、あるいはゲノムのはっきり特徴づけられた部分からの推定により表されたmRNAの数から推定可能である。対象となる生物体のゲノムが順番に配列されているとき、ORFの数を決定し、mRNAの符号化領域をDNA配列の解析によって同定することが可能である。しばしば、設計チップが特定のセットの遺伝子だけでつくられる。このような技術は、現在アクセス可能であり、例えば、臨床業務のような定常業務について経済的である。
【0065】
上述のように、核酸の場合、特定の同種のcDNAが特にハイブリダイゼーションしている“結合部位”は、通常、この結合部位に結びつけられた核酸あるいは核酸相似物である。1つの実施形態では、マイクロアレイの結合部位は、生物体のゲノム中の各遺伝子の少なくとも一部分に対応するDNAポリヌクレオチドである。これらのDNAは、例えば、ゲノムのDNA、cDNA(例えば、RT−PCRによる)、またはクローン配列からの遺伝子セグメントのポリメラーゼ連鎖反応法(PCR)増幅などにより得られる。遺伝子またはcDNAの既知の配列に基づいてPCRが選ばれ、固有のフラグメント(すなわち、マイクロアレイ上の他の任意のフラグメントと、隣接した同一の配列の10より多いベースを共有しないフラグメント)の増幅をもたらす。
【0066】
マイクロアレイに対して核酸を生成する代替手段は、例えば、N−ホスホネートまたはホスホラミディート化学を用いた、合成ポリヌクレオチドまたはオリゴヌクレオチドの合成による(フレーラー他、1986年、核酸リサーチ14:5399−5407;マックブライド他、1983年、四面体報24:245−248)。
【0067】
核酸またはその相似物は固体の支持体に結びつけられており、この支持体は、ガラス、プラスティック(例えば、ポリプロピレン、ナイロン)、ポリアクリルアミド、ニトロセルロース、または他の物質から作られてもよい。核酸を表面に結びつける1つの方法はガラス板上にプリンティングすることによるものであり、一般的には、シェーナ他、1995年、サイエンス、270:467−470で説明されている。この方法はcDNAのマイクロアレイを調製するのに特に有用である。デライジ他1996年、ネイチャーゲネティックス14:457−460;シャロン他1996年、ゲノムリサーチ6:639−645;およびシェーナ他1995年、ナショナル科学アカデミー報USA93:10539−11286も参照。
【0068】
別のマイクロアレイ作成方法は、高密度のオリゴヌクレオチドアレイを作成することによる。技術的には、生体内原位置における合成のためのフォトリソグラフィック技術を用いて、表面上の定められた位置において、定められた配列に相補的な何千ものオリゴヌクレオチドを含むアレイを生産する技術(フォードール他、1991年、サイエンス251:767−773;ピーズ他、1994年、ナショナル科学アカデミー報USA91:5022−5026;ロックハート他、1996年、ネイチャーバイオテック14:1675;米国特許第5,578,832号;第5,556,752号;および第5,510,270号を参照)、あるいは、定められたオリゴヌクレオチドの急速な合成およびディポジションを行う他の方法(ブランチャード他、1996年、バイオセンサアンドバイオエレクトロニクス11:687−90を参照)が知られている。これらの方法が用いられる場合、既知の配列のオリゴヌクレオチド(例えば、20mers)は変性スライドガラスのような表面上に直接合成される。通常、生成されたアレイは冗長であり、RNA毎にいくつかのオリゴヌクレオチド分子を有している。オリゴヌクレオチドプローブを選択して、交互に接合されたmRNAを検出することができる。
【0069】
例えば、マスキング(マスコスとサザン、1992年、核酸リサーチ20:1679−1684を参照)によりマイクロアレイを作成する他の方法もまた用いられてもよい。基本的には、例えばナイロンハイブリタイゼーション膜上のドットブロット(サムブローク他、分子クローニング−ラボラトリマニュアル(第2版)Vol.1−3、コールドスプリングハーバーラボラトリ、コールドスプリング、ニューヨーク、1989年を参照)のような、任意のタイプのアレイを用いることができる。いくつかの実施形態では、非常に小さなアレイが好まれる。というのも、ハイブリタイゼーション量がより少なくて済むからである。
【0070】
全部およびポリ(A)+RNAの調製方法はよく知られており、一般的にサムブローク他(前掲)で説明されている。1つの実施形態では、グアニジウムチオシアン酸塩溶解を用いて、本発明で対象としているさまざまなタイプの細胞からRNAが抽出され(チャーグウィン他、1979年、バイオケミストリ18:5294−5299を参照)、その後CsCl遠心分離が続いてなされる。
【0071】
蛍光ラベル付けされたプローブが用いられる場合、多くの適したフルオロフォアが知られている。これらの蛍光体には、フルオレセイン、リサーマイン、フィコエリトリン、ローダミン(パーキンエルマーセタス)、Cy2,Cy3,Cy3.5,Cy5,Cy5.5,Cy7、フルオロX(アメルシャム)およびその他のものが含まれる(例として、クリッカ、1992年、非同位体DNAプローブ技術、アカデミックプレス、サンディエゴ、カリフォルニアを参照)。容易に区別されるように、別個の発光スペクトルを持つ1対の蛍光体が選択されることが認められるだろう。
【0072】
別の実施形態では蛍光ラベル以外のラベルが用いられる。例えば、放射性ラベルあるいは別個の発光スペクトルを持つ一対の放射性ラベルが用いられてもよい(チャオ他、1995年、遺伝子156:207;ピエトゥー他、1996年、ゲノムリサーチ6:492を参照)。しかしながら、放射性粒子を散乱することや広くスペースを空けた結合部位をその結果必要とするせいで、放射性同位体を利用した実施形態はあまり好まれない。
【0073】
特定のアレイ部位に対して、プローブが“特に結合し”、あるいは“特にハイブリダイゼーション”するよう核酸のハイブリダイゼーションおよび洗浄条件が選択される。すなわち、プローブは相補核酸配列を持つ配列アレイ部位にハイブリダイゼーションし、デュプレクスし、あるいは結合するが、非相補核酸配列を持つ部位にはハイブリダイゼーションしない。最適なハイブリダイゼーション状態は、長さ(例えば、200ベースよりも大きいポリヌクレオチド対オリゴメル)、およびラベル付けされたプローブおよび固定化ポリヌクレオチドまたはオリゴヌクレオチドのタイプ(例えば、RNA、DNA、PNA)に基づく。核酸に対する特定の(すなわち、厳密な)ハイブリダイゼーション状態についての一般的なパラメータは、サムブローク他(前掲)、およびアウスベル他、1987年、分子生物学におけるカレントプロトコル、グリーン出版アンドワイリーインターサイエンス、ニューヨーク、で説明されている。シェーナ他のcDNAマイクロアレイが用いられる場合、一般的なハイブリダイゼーション状態は、65℃で4時間、5X SSCプラス0.2%SDSにおけるハイブリダイゼーションであり、その後、低い厳密性の洗浄バッファ(1 X SSCプラス0.2%SDS)で25℃で洗浄され、その後、高い厳密性の洗浄バッファ(0.1 X SSCプラス0.2%SDS)で、25℃で10分間洗浄される(シェーナ他、1996年、ナショナル科学アカデミー報USA、93:10614)。実用的なハイブリダイゼーション状態は、例えば、タイジェッセン、1993年、核酸プローブによるハイブリダイゼーション、エルスヴィアサイエンス出版B.V.、およびクリッカ、1992年、非同位体DNAプローブ技術、アカデミックプレスサンディエゴ、カリフォルニア、でも示されている。
【0074】
蛍光ラベル付けされたプローブが用いられると、転写物アレイの各部位での蛍光発光は、走査共焦点レーザー顕微鏡法により検出できることが好ましい。1つの実施形態では、適切な励起線を使用して、用いられている2つの蛍光体のそれぞれについて別々の走査が行われる。代替的に、レーザーが用いられることにより、2つの蛍光体に特有の波長での同時標本照射を可能として、2つの蛍光体からの発光を同時に解析することもできる(シャロン他、1996年、ゲノムリサーチ6:639−645を参照)。好ましい実施形態では、コンピュータ制御可能なX−Yステージと顕微鏡対物レンズを持つレーザー蛍光スキャナでアレイが走査される。2つの蛍光体の連続的な励起はマルチライン、混合ガスレーザーによって実現され、発光線は波長によって分割され、2つの光電子増倍管によって検出される。蛍光レーザー走査装置はシェーナ他、1996年、ゲノムリサーチ6:639−645、およびここに引用されている他の参照文献において説明されている。代替的に、フェルグソン他、1996年、ネイチャーバイオテック14:1681−1684に記載の光ファイバーの束を用いて、多数の部位におけるmRNAの存在度のレベルを同時にモニタすることができる。
【0075】
シグナルは記録され、好ましい実施形態では、例えば、12ビットアナログ・デジタルボードを用いてコンピュータにより解析される。1つの実施形態では、走査はグラフィックプログラムを用いて一般化され、その後画像グリッディングプログラムを用いて解析される。このプログラムは、各部位の各波長で平均的なハイブリダイゼーションのスプレッドシートを作成する。必要ならば、2つの蛍光体に対するチャネル間の“クロストーク”(またはオーバーラップ)について実験的に決定される補正がなされてもよい。転写物アレイ上の、任意の特定のハイブリダイゼーション部位について、2つの蛍光体の発光の比率が演算されるのが好ましい。この比率は同種の遺伝子の絶対的な発現レベルとは独立しているが、薬投与、遺伝子の除去、または他の任意のテストされたイベントによって発現が大きく調整された遺伝子に関して有用である。
【0076】
本発明の方法にしたがうと、2つの細胞型または細胞株におけるmRNAの相対存在度が、外乱および決定されたその大きさとして(すなわち、存在度はテストされたmRNAの2つのソースで異なる)、あるいは外乱されないものとして(すなわち、相対的な存在度は同一)としてスコアが付けられる。ここで使用されているように、少なくとも約25%(1つのソースからのRNAは他のソースよりも1つのソースにおいて25%さらに存在度が高い)、さらに一般的には約50%、さらに多くの場合には約2倍(2倍の存在度)、約3倍(3倍の存在度)、または約5倍(5倍の存在度)だけ、RNAのソース間の差が外乱としてスコア付けされる。
【0077】
本発明の1つの実施形態では、対象とする細胞の転写状態を反映している転写物アレイは、それぞれが、対象とされた異なる細胞のmRNAに対応した(すなわち、相補的な)2つの別々にラベル付けされたプローブの混合物をマイクロアレイに対してハイブリダイゼーションすることによって作られる。本発明にしたがうと、2つの細胞は同一のタイプ、すなわち、同一の種および株からなるが、遺伝学的に少ない数の遺伝座で異なっていてもよい(例えば、1,2,3、または5、好ましくは1)。代わりに、これらは同質遺伝子であり、これらの環境歴が異なっている(例えば、薬への暴露対非暴露)。
【0078】
本発明のある実施形態では、グレード付けされた薬の暴露および一時的変異/外乱制御パラメータのグレード付けされたレベルの測定を行う利点がある。これは、グレード付けされた暴露および一時的変異が、飽和レベルを明確に同定するために用いられるときに利点がある。この場合、グレード付けされた薬の暴露およびグレード付けされた外乱制御パラメータのレベルの密度は、個々の遺伝子応答における鋭さおよび構造によって左右される――応答の最も急な部分がより急になるにしたがい、応答を適切に分析するのに必要なレベルがより密になる。100倍の全範囲のうち、6から10レベルの外乱または暴露が、遺伝子発現応答を分析するのに十分であることが好ましい。しかしながら、この経路をより良く示すためにはより多くの暴露が好ましい。
【0079】
さらに、実験上の誤差を低減するために、個々の遺伝子またはアレイスポット位置に特有のバイアスが低減されるよう、2色の差分的ハイブリダイゼーション実験において蛍光ラベルを反転することに利点があるだろう。まず、測定されている2つの細胞からのmRNAの1つのラベル付け(例えば、第1の蛍光色素で、第1の投入状態に対して暴露された細胞と、第2の蛍光色素で、第2の投入状態に対して露光された細胞をラベル付けすること)によって遺伝子発現を測定し、次に反転されたラベル付け(第2の蛍光色素で、第1の投入状態に対して露光された細胞と、第1の蛍光色素で、第2の投入状態に対して露光された細胞をラベル付けすること)によって2つの細胞からの遺伝子発現を測定することが好ましい。
【0080】
これらの投入状態の複数の測定により、実験上の誤差の付加的な表示および制御が提供される。さらに、グレード付けされた一時的変異/外乱の場合、暴露レベルおよび一時的変異/外乱制御パラメータレベルに対する複数の測定は、付加的な実験上の誤差の制御を提供する。
【0081】
細胞の転写状態は、技術的に知られた他の遺伝子発現技術によって測定されてもよい。このような技術のいくつかは、電気泳動解析のために制限された複雑さの制限フラグメントのプールを生成する。それは、例えば、二重制限消化酵素をフェージングプライマに結合させる方法(1992年9月24日に出願された、ザボー他による欧州特許出願番号第0 534 858 A1号等を参照)あるいは、定められたmRNA端に最も近い部位を持つ制限フラグメントを選択する方法(プラシャー他、1996年、ナショナル科学アカデミー報USA93:659−663等を参照)などがある。他の方法は、例えば、各cDNAを同定するために複数のcDNAの各々において十分なベース(例えば、20−50ベース)を配列することによって、あるいは規定されたmRNA端に対する既知の位置で生成されたショートタグ(例えば、9−10ベース)を配列することによって、cDNAのプールを統計学的にサンプル付けする(ベルクレスク、1995年、サイエンス270:484−487等を参照)。
【0082】
本発明のさまざまな実施形態で、例えば、翻訳状態、活動状態、あるいはこれらの混合した側面のような、転写状態以外の生物学的状態の側面が、薬や経路応答を得るために測定されてもよい。翻訳状態の測定は、いくつかの方法にしたがって実行することができる。例えば、タンパク質のゲノム全体のモニタリング(すなわち、“プロテオーム”、ゴッフォー他、前掲)が、マイクロアレイを構成することによって実行されてもよく、マイクロアレイにおいて、結合部位は、細胞ゲノムによって符号化された複数のタンパク質種に固有の、固定化され、好ましくはモノクローナル抗体を有する。抗体は、符号化されたタンパク質の相当な割合に対して存在しているか、あるいは、少なくとも、対象とする生物学的ネットワークモデルをテストまたは確認することに関連したタンパク質のために存在することが好ましい。モノクローナル抗体の生成方法はよく知られている(ハーローとレイン、1988年、抗体:ラボラトリマニュアル、コールドスプリングハーバー、ニューヨーク等を参照)。好ましい実施形態では、モノクローナル抗体は、細胞のゲノム配列に基づいて設計された、合成ペプチドフラグメントに対して産生される。このような抗体アレイによって、細胞からのタンパク質がアレイに接触し、これらの結合は、技術的に知られた分析法によって分析される。
【0083】
代替的に、タンパク質は二次元ゲル電気泳動システムによって分離することができる。二次元ゲル電気泳動は技術的によく知られており、一般的に第1の次元に沿った等電点電気泳動を含み、その後第2の次元に沿ったSDS−PAGE電気泳動がなされる。ハメス他、1990年、タンパク質のゲル電気泳動;プラクティカルアプローチ、IRLプレス、ニューヨーク;シェブチェンコ他、1996年、ナショナル科学アカデミー報USA93:1440−1445;サグリオッコ他、1996年、イースト12:1519−1533;ランダー、1996年、サイエンス274:536−539等を参照。結果として示された電気泳動図は、多くの技術によって解析することができ、質量分析法、ポリクローナルおよびモノクローナル抗体を利用したウェスタンブロッティングおよび免疫ブロット解析、ならびに内部およびNターミナルマイクロシーケンシングが含まれる。これらの技術を用いて、所定の生理学的状態の下で生成されたすべてのタンパク質の相当な割合を同定できるようになる。この状態には、薬に対して暴露された細胞(例えば、イースト)内、あるいは、例えば、特定の遺伝子の除去または過発現により変更された細胞内という状態が含まれる。
【0084】
示された実施形態において、生物学的なシステムのネットワークモデルを形成し、テストするパワフルかつ便利な機能を提供するために、上述の方法の演算ステップが、コンピュータシステム上、または、ネットワーク化された1つ以上のコンピュータシステム上で実現される。いくつかの実施形態では、コンピュータシステムは、ハンドヘルド装置、サーバコンピュータ、デスクトップパーソナルコンピュータ、ポータブルコンピュータ、あるいは移動体電話を含むことができるがこれらに限定されない。代表的なコンピュータシステムは、内部コンポーネントを有し、外部コンポーネントとリンクしているシングルハードウェアプラットホームである。このコンピュータシステムの内部コンポーネントは、主メモリと内部接続されたプロセッサエレメントを含む。
【0085】
コンピュータシステムは、プロセッシングユニット、ディスプレイ、入力/出力(I/O)インターフェースおよびマスメモリを含み、これらはすべて通信バス、あるいは他の通信装置によって接続されている。I/Oインターフェースは、TCP/IP、X10、デジタルI/O、RS−232、RS−485などを含むさまざまな通信プロトコルにより、さまざまなモニタリング装置との対話を容易にするハードウェアおよびソフトウェアコンポーネントを含む。さらに、I/Oインターフェースは、地上電話回線、ワイヤレスネットワーク(セルラ、デジタルおよびラジオネットワークを含む)、ケーブルネットワークなどを含むさまざまな通信媒体による通信を容易にする。本発明の実際の実施形態では、I/Oインターフェースは、サーバハードウェアとソフトウェアアプリケーションとの間のレイヤとして構成されている。関連技術の当業者であれば、代替インターフェース構成が本発明によって実用可能であることを理解するだろう。
【0086】
外部コンポーネントはマスストレージを含む。マスメモリは一般的に、RAM、ROMおよび、ハードディスクドライブ、テープドライブ、光ドライブ、フロッピーディスクドライブ、またはこれらの組み合わせのようなパーマネントマスストレージ装置を有する。マスメモリは、宅内サーバのオペレーションを制御するオペレーティングシステムを記憶する。このコンポーネントが、UNIX、LINUX、またはマイクロソフトウィンドウズNTのような当業者によって知られている汎用サーバオペレーティングシステムを有していてもよいことが認められるであろう。メモリはさらに、WWWにアクセスするためのネットエスケープナビゲータまたはマイクロソフトインターネットエクスプローラブラウザのようなWWWブラウザも含む。このマスストレージは1つ以上のハードディスクであってもよい(一般的にプロセッサおよびメモリとともに実装されている)。他の外部コンポーネントは、ユーザインターフェース装置を含む。これは、“マウス”または他のグラフィック入力装置のような指示装置とともに、モニタやキーボードとすることができる。一般的に、コンピュータシステムは、他のローカルコンピュータシステム、遠隔コンピュータシステム、あるいは、インターネットのような広域通信ネットワークにもリンクしている。このネットワークリンクは、コンピュータシステムが他のコンピュータシステムとデータを共有および処理タスクできるようにする。
【0087】
このシステムのオペレーション中にメモリに読み込まれたものは、いくつかのソフトウェアコンポーネントであり、これは、技術的に標準なものと本発明に特有なものの両方である。これらのソフトウェアコンポーネントは共同でコンピュータシステムに対して、本発明の方法にしたがった機能を行わせる。これらのソフトウェアコンポーネントは一般的にマスストレージに記憶されている。代替的に、ソフトウェアコンポーネントは、フロッピーディスク、CD−ROM、または他のネットワークに接続された装置のようなリムーバブル媒体に記憶されていてもよい。ソフトウェアコンポーネントは、オペレーティングシステムを表しており、これは、コンピュータシステムやそのネットワーク内部接続を管理する役割を果たす。このオペレーティングシステムは例えば、マイクロソフトウィンドウズシリーズ、UNIXオペレーティングシステム、あるいはLINUXベースのオペレーションシステムであってよい。別のソフトウェアコンポーネントは、共通言語およびこのシステム上で便利に存する機能を表し、本発明固有の方法を実現するプログラムをアシストする。本発明の解析方法をプログラムミングするために用いることのできる言語は、C、C++、あるいはあまり好ましくはないが、JAVAなどである。本発明の方法は、数理的ソフトウェアパッケージでプログラムされるのがもっとも好ましく、これは、式のシンボル入力および、アルゴリズムを含む処理の高レベルな仕様が用いられるようにすることができる。これにより、個々の式やアルゴリズムの手続的なプログラムの必要性からユーザを解放する。このようなパッケージは、例えば、マスワークス(ナチック、マサチューセッツ)のMATLAB、ウオルフマンリサーチ(キャンペイン、イリノイ)のMATHEMATICA、およびマスソフト(ケンブリッジ、マサチューセッツ)のMASCADなどを含む。本発明の解析方法は、手続型言語またはシンボリックパッケージでプログラムされてもよい。
【0088】
マスメモリは一般的に、RAM,ROMおよびハードディスクドライブ、テープドライブ、光ドライブ、フロッピーディスクドライブ、またはこれらの組み合わせのようなパーマネントマスストレージ装置を有している。マスメモリは、宅内サーバのオペレーションを制御するオぺレーティングシステムを記憶する。このコンポーネントが、UNIX、LINUX、またはマイクロソフトウィンドウズNTのような当業者に知られている汎用サーバオペレーティングシステムからなってもよいことが認められるだろう。このメモリは、WWWにアクセスするためのネットエスケープナビゲータ、またはマイクロソフトインターネットエクスプローラブラウザのようなWWWブラウザも含む。
【0089】
マスメモリはさらに、さまざまな宅内モニタリング装置とインターフェースし、モニタリング装置データを処理し、データを中央サーバに送信するプログラムコードおよびデータも記憶する。より具体的には、マスメモリは、本発明にしたがった装置インターフェースアプリケーションを記憶する。このアプリケーションは、モニタリング装置データをさまざまな装置から獲得し、中央サーバが処理するデータを操作する。装置インターフェースアプリケーションは、コンピュータ実行可能な指令を有し、この指令は、宅内サーバによって実行されるときに、以下でより詳細に説明されるように装置データを獲得して送信する。マスメモリはさらに、装置データを中央サーバに送信して、中央サーバとモニタリング装置間の通信を容易にする、データ送信アプリケーションプログラムも記憶する。これらのコンポーネントがコンピュータ読み取り可能媒体上に記憶され、フロッピー、CD−ROM、DVD−ROMドライブ、あるいはネットワークドライブのようなコンピュータ読み取り可能な媒体に関係するドライブメカニズムを利用して宅内サーバのメモリに読み込まれてもよいことが認められるであろう。
【0090】
本発明の解析方法を実現する代替システムおよび方法が当業者にとって明らかであり、添付の特許請求の範囲内で理解されるよう意図されている。特に、添付の特許請求の範囲は、本発明の方法を実現する代替プログラム構成を含むよう意図され、当業者が容易に理解できるだろう。
【0091】
以下の例は本発明を説明する目的で示されるものであり、本発明を制限するものではない。
【0092】
実施例
例1
単一パルスモデルおよび推定
この例では、本発明の代表的な方法、単一パルスモデル(SPM)を説明する。
【0093】
単一パルスモデルはいくつかのステップで開発することができる。第1のステップはバイナリプロセスとして細胞周期にわたって単一細胞中の単一転写物をモデリングする。
【数6】
Figure 2004521407
【0094】
ここで、Y(t)は時間‘t’における発現レベルを示し、(0≦ζ<ξ≦Θ)としての(ζ,ξ)は活性化時間および不活性化時間、Θは細胞周期間隔であり、c=0,1,2,...は第1、第2、第3、...の細胞周期を示す。代わりに、上記表示は以下のように書くことができる。
【数7】
Figure 2004521407
【0095】
第1、第2、第3、...周期に対する和であり、I{・}は恒等関数である。
【0096】
第2のステップは単一細胞内の複数の転写物を考慮し、背景および高められた発現レベル(α〜,α〜+β〜)と活性化および不活性化時間(ζ,ξ)を有する細胞に対する発現パルスを提供する(図1)。細胞についての予測される発現レベルに対するモデルは以下のように書くことができる。
【数8】
Figure 2004521407
【0097】
第3のステップは、複数の細胞がプールされ、同調化されるが、同調化が完全でない事実を確認する。tがターゲットタイミングを示すとしよう。単一細胞の実際のタイミングTはtのまわりにランダムに分散され、平均tと標準偏差σを持つ正規分布を有すると仮定される。
【0098】
記述として、以下のようにする。
【数9】
Figure 2004521407
【0099】
ここで、Nは共時性中の細胞数であり、(t+T)はi番目の細胞の年齢(タイミング)であり、Y はi番目の細胞における特定の遺伝子の発現レベルである。SPMによる平均発現レベルYをモデリングすることは以下のようにY (t+T)の予測値を与える。
【数10】
Figure 2004521407
【0100】
共時性に対する平均発現はN個の細胞に対する総和から生じ、ランダムタイミング(T)に対する期待値をとる。いくつかの簡単な代数にしたがうと、時間tにおける平均発現レベルは以下のように書けることを示すことができる。
【数11】
Figure 2004521407
【0101】
ここで、φ(x)はガウス累積分布関数であり、α=Nα〜およびβ=Nβ〜である。
【0102】
第4のステップは、時間に対して同調化がすべての同調プロトコルによる固有の制限を悪化させることを確認する。時間tでσを単調増加できるようにすることによりこの悪化をモデリングする。特に、サンプルk中の細胞のタイミングに対する標準偏差が以下の指数形態モデルにしたがうことを仮定する。
【数12】
Figure 2004521407
【0103】
ここで、(γ,γ)は推定されるべきパラメータである。
【0104】
第5のステップはサンプル間の乗算的(λ)および加算的(δ)異質性因子を組み入れる。mRNA抽出、増幅および評価における変動はサンプル間の異質性となり得る。先に言及したように、このような異質性を調製する要求は平均発現レベルに対する以下のモデルに導く。
【数13】
Figure 2004521407
【0105】
ここで、δおよびλはk番目のサンプルに特有であり、δおよびλはKサンプルに対してそれぞれ0と1に平均化する。既述したように、モデルは多量の転写物の測定値に直接適用することができる。転写レベルの比を解析するために、乗算的異質性因子(λ≡1)を削除することを選択する。
【0106】
各遺伝子はその自己の活性化および不活性化時間ならびにその自己の背景および高められた発現レベルを持つことを許容されており、j番目の遺伝子に対する平均発現についてのSPMモデルを以下のように提供する。
【数14】
Figure 2004521407
【0107】
ここで、j=1,2,...,Jおよびk=1,2,...,KはK個のすべてのサンプル中におけるJ個のすべての遺伝子を示す。
【0108】
推定式[A1]を解くパラメータ推定値を見つけるために、2乗の加重和を最小にすることができる。
【数15】
Figure 2004521407
【0109】
平均の活性化および不活性化時間は変化点を表し、制限される(ζ≧0,ξ≧0およびξ>ζ)ので、(ζ,ξ)に対する良好なグリッド値における各点の他のパラメータに関して上記2乗和[A1]を最小にし、[A1]に対して全体を最小にする1組みのパラメータ推定値を選択する。少なくとも2つのt値において含まれる点(ζ,ξ)にプロファイル処理を制限する。計算における加重関数は以下のように規定される。
【数16】
Figure 2004521407
【0110】
ここで、μ(t)=δ^+λ^α^は、β=0を要求する場合のμ(t)の推定値を示す。すべてのモデルパラメータを推定する際に、以下の式は単に遺伝子jに対する発現レベルの変動のパーセンテージであり、異質性パラメータ調製にしたがい、これはSPMモデルの周期側面により説明したことにも留意すべきである。
【数17】
Figure 2004521407
【0111】
したがって、1に近づくR 値は、SPMがj番目の遺伝子に対する観測された発現プロファイルの良好な表示を提供していることを意味する。
【0112】
方法セクションで言及したように、複数のステージでパラメータ推定を実行して計算を簡単化した。第1のステージは、すべてのβ値を0に制限して、[A1]を最小にすることにより、(δ^,λ^)の推定値に導き、k=1,...,Kとした。この制限のもとで、以下の式も有するので、μ(t)値と加重νを計算することができる。
【数18】
Figure 2004521407
【0113】
次に細胞周期間隔推定Θ^は単一パルスモデルのもとで[A1]を最小にすることにより計算された。ほとんどの転写物は細胞周期で調製されていないことから、1組の104の既知の周期的転写物のみを使用して、細胞周期間隔の適切な推定を確実にした。この計算は例えば1分の単位で40分から80分のcdc28データセットについての細胞周期間隔Θに対するプロファイリングに関係する。同じ組の遺伝子において、[A1]を最小化することにより同調変動σを推定した。
【0114】
これらのパラメータを固定化すると、j番目の遺伝子に対するパラメータ(ζ,ξ,α,β)に関する[A1]の最小化は単にj=1,...,Jに対して個々に以下の式の最小化が必要となり、計算が非常に簡単化される。
【数19】
Figure 2004521407
【0115】
これらのパラメータ推定値に対する推定標準偏差は、モデル仮定およびxを与えるYの独立仮定のもと、サンドイッチ式(15)をj番目の遺伝子に対するデータだけに適用することから生じる。これらの計算は統計値Z、その標準偏差に対するβ^の比を与え、これは各j=1,...,Jに対してβ=0であるならば、ほぼ標準正規分布を有する。このような標準正規分布のもとで、絶対値でZが5を超える確率は約5.7×10−7であるので、β^値の任意の1つ、例えば6000遺伝子が5を超える確率は、すべてのβ値が0に等しい場合に、ボンフェロニ近似を使用して、6000×5.7×10−7=0.003として、控えめに推定される。特に、ボンフェロニ補正は控えめであるから、これは5のしきい値は極端過ぎるかもしれないことを示唆しているが、特に、サンプル数(K)がかなり小さい場合には、Zに対する標準正規分布近似はむしろ自由にすることができる。したがって、5のかなり極端なしきい値を保持することを選択した。
【0116】
先に概説した数値処理は、すべてのモデルパラメータのパラメータ推定値をデータ上の最小制約のもとで確実に得ることができるにする(例えば、異質性補正値(Yjk−δ^)/λ^はサンプルにわたって何らかの変動を示さなければならない)。複数ステージ推定処理が、すべてのモデルパラメータを同時に推定する処理と比較して、Z統計値に最小の影響を確実に持つようにし、モデルパラメータ推定値の分布に対する漸近正規近似に関係する保守性を調査するために、さらに統計開発することが望まれる。方法セクションで言及した2グループ比較問題および時間経過解析の状況において、各Z値は、異質性および回帰パラメータが複数ステージでまたは共同で推定されるか否かにそれ程依存していない。しかしながら漸近正規近似は、サンプル間の回帰変数のさまざまな組み合わせのもとで、Z値を比較することにより生じるZ分布に対するある経験的近似よりも、かなり端部においてさらに自由であると思われる。
【0117】
例2
遺伝子発現を解析するための代表的なセミパラメータ方法の例示
この例では、本発明の代表的な方法を使用して遺伝子発現を解析するセミパラメータ方法の例示を説明する。
【0118】
同調化実験
単一転写物。代表的な同調化実験が図6に例示されている。図6を参照すると、転写発現レベルは細胞周期タイミングに対してプロットされている。図では、背景(α)より上の転写発現(β)は各細胞周期で生じる。シンボルに対する鍵は以下の通りである。
【数20】
Figure 2004521407
【0119】
単一細胞内の複数転写物。単一細胞内において、複数転写物が時間にわたって転写され、消失され、三角形状のパルスとなる。単一細胞内の複数転写物に対する代表的な同調化実験が図7に示されている。図7を参照すると、転写発現レベルが細胞周期タイミングに対してプロットされている。図では、背景(α)より上の転写発現(β)が各細胞周期で生じている。
【0120】
この方法では、転写プロセスは消失プロセスと同様に均一に分散されることが仮定される。単一パルスモデル(SPM)による近似、本発明の代表的な方法は、転写時間の推定された中間時間と、mRNAの半分の寿命を生み出す。単一細胞内のmRNAパターンを近似すると、SPMは以下のように書くことができる。
【数21】
Figure 2004521407
【0121】
複数細胞との可変同調化。典型的な同調化実験は数千または数百万の細胞をポーリングして、細胞周期タイミングに対してそれらを同調化させようと試みる。同調化技術の進歩にかかわらず、同調化において変動がある。個々の細胞の実際のタイミングは同一ではない。単一細胞の実際のタイミングTはランダムであり、正規分布を有すると仮定され、平均予測タイミングt、標準偏差σである。
【0122】
時間tkにおける観測された発現レベルは以下の通りである。
【数22】
Figure 2004521407
【0123】
複数細胞との可変同調化に対する代表的な同調化実験が図8に示されている。図8を参照すると、転写発現レベルが細胞周期タイミングに対してプロットされている。図では、背景(α)より上の転写発現(β)が各細胞周期で生じている。
【0124】
複数細胞に対するSPMは以下のように導出することができる。N個の細胞(Nは非常に大きい。例えば>100,000)を考える。各細胞は、T(i=1,2,...,N)として示される、その自己のタイミングにしたがう。時間tにおいて細胞を同調化するために、すべてのTはtのまわりにランダムに分散され、その分布はガウス分布と仮定される。この仮定のもと、N個の細胞の観測発現レベルは以下の式により近似することができる。
【0125】
中央制限理論
【数23】
Figure 2004521407
【0126】
インジケータ関数に対するラベリングおよび予測
【数24】
Figure 2004521407
【0127】
標準化
【数25】
Figure 2004521407
【0128】
悪化する同調化。悪化する同調化は、従来の同調プロトコルによる固有の制限である。悪化する同調化を示す転写物に対する代表的な同調化実験が図9に示されている。図9を参照すると、転写発現レベルは細胞周期タイミングに対してプロットされている。図では、背景(α)より上の転写発現(β)が各細胞周期で生じている。
【0129】
悪化する同調化は、同調化変動を変化させることにより、すなわち時間tでσが単調増加することによりモデリングすることができる。指数モデルでは以下の式のようになる。
【数26】
Figure 2004521407
【0130】
ここで、(γ,γ)はデータから推定されるべきパラメータである。γ=0の場合には、同調細胞が考慮されている時間フレーム内に十分にそれらの同調を保持していることをこれは意味している。一般的に、正γ>0では、変数は図10に示されているように単調に増加する。細胞周期タイミングの関数としての同調変動が図10に示されている。
【0131】
悪化する同調化を組み込むために、SPMは以下のように修正することができる。
【数27】
Figure 2004521407
【0132】
サンプル間の異質性。mRNA抽出、増幅および評価における変動のために、観測された発現レベルは変動振動し、サンプル間の異質性となる。サンプル間の異質性を示す転写物に対する代表的な同調化実験が図11に示されている。図11を参照すると、転写発現レベルが細胞周期タイミングに対してプロットされている。図では、背景(α)より上の転写発現(β)が各細胞周期で生じている。
【0133】
このような異質性がチップ上のmRNAの量に純粋に関係しているのであれば、乗算的異質性因子をSPMに導入して、以下の式を提供することができる。
【数28】
Figure 2004521407
【0134】
以下の制約がパラメータの同定可能性を確実にするために課される。
【数29】
Figure 2004521407
【0135】
2つのサンプルで、この補正はx−yプロット上の回転を表す。
【0136】
乗算的異質性から拡張すると、加算的異質性を考慮して、加算的スケール上の異質性を補正することもできる。モデルは以下のように書くことができる。
【数30】
Figure 2004521407
【0137】
ここで、δは0平均の制約を有する加算的異質性である。
【0138】
遺伝子特定ビュー。遺伝子の機能は異なっており、それぞれそれ自体の活性化および不活性化時間ならびにそれ自体の背景および高められた発現レベルを持つ。下付文字“j”を使用することにより、SPMは以下のように書くことができる。
【数31】
Figure 2004521407
【0139】
未知の原因によるランダム変動。他の多くの原因が遺伝子発現レベルの変動に寄与する。ランダム変動に対処するために雑音因子をSPMに導入することができる。SPMは以下のように書くことができる。
【数32】
Figure 2004521407
【0140】
鍵となる仮定は、これらのランダム変動が平均0を持つことである。
【0141】
分布仮定はなされていないことに留意すべきである。さもなければ、LOD SCORE等価方法を発展させることが可能であり、それからの結果は分布仮定に必然的に依存する。
【0142】
一般的に、統計学者は以下の表現を使用する傾向がある。
【数33】
Figure 2004521407
【0143】
予測値
パラメータ推定。推定されるべきパラメータは以下のものを含む。
【0144】
Θ…細胞周期間隔
σにおける(γ,γ)…同調化変動に対する標準偏差
(δ,λ)…加算的および乗算的な異質性因子
(ζ,ξ)…活性化および不活性化時間
(α,β)…背景および高められた発現レベル。
【0145】
上記パラメータを推定する基本メカニズムは、2乗残差の以下の和を最小にすることである。
【数34】
Figure 2004521407
【0146】
方法に対する2つの重要な統計値。方法に対する2つの重要な統計値はZスコアとRである。
【0147】
Zスコアを使用してヌル仮定Hをテストする。J=0、すなわち周期性の欠如である。
【0148】
はSPMにより説明される変動の割合を測定する。
【数35】
Figure 2004521407
【0149】
選択基準は(R>0.5、Z>4およびSPMはSNOPに好都合である)ことである。
【0150】
時間経過実験
SPMを拡張して一般的にタイミング因子を組み込むと、遺伝子発現に対する一般モデルは以下のようになる。
【数36】
Figure 2004521407
【0151】
線形モデル。遺伝子発現に対する代表的な線形SPMが図12に示されている。図12を参照すると、転写発現レベル(β)が細胞周期タイミングに対してプロットされている。線形SPMは以下の通りである。
【数37】
Figure 2004521407
【0152】
二次モデル。遺伝子発現に対する代表的な二次SPMが図13に示されている。図13を参照すると、転写発現レベル(β)が細胞周期タイミングに対してプロットされている。二次SPMは以下の通りである。
【数38】
Figure 2004521407
【0153】
解析の目的は次のものを推定することである。
Β…時間依存性
τ…ピーク時間
α…背景発現値
(δλ)…異質性補正。
【0154】
正常および異常組織の比較
モデルを拡張して正常および異常組織を比較することができる。インジケータ関数xは時間変数tを置換し、xはバイナリ値を持つ。
【数39】
Figure 2004521407
【0155】
対応モデルは以下のように書くことができる。
【数40】
Figure 2004521407
【0156】
この方法により正常および異常組織を比較する代表的な結果が図14に示されている。
【0157】
例3
人間の癌において差次的に発現した遺伝子の解析のための代表的方法
この例では、本発明の代表的な方法を使用して人間の癌において差次的に発現した遺伝子を同定する。
【0158】
この例は、DNAマイクロアレイ実験から関連情報を抽出する統計学的モデリングアプローチを説明する。これは2つの予め定められたサンプルグループ間、例えば健康な組織対癌組織との間で差次的に発現した遺伝子を発見することに向けられている。このモデルは十分に規定された仮定に基づいており、正確でよく特徴付けられた統計測定値を使用して、ゲノム発現プロファイルの特定の側面を問い合わせ、データの異質性およびゲノム複雑性に対処する。共通の全体的な発現プロファイルを共有する遺伝子および/またはサンプルのグループを規定しようとするクラスタ解析と対照的に、このモデリングアプローチは“既知のクラスタメンバーシップ”(すなわち、2つの予め定められたサンプルグループ)を利用して、高感度で強力な方法で個々の遺伝子の発現プロファイルに焦点を合わせる。さらに、このアプローチを使用して、特定の遺伝子の発現について前もって考えた仮定を生成し、テストすることができる。この方法論を例示するために、マイクロアレイデータが38個の急性白血病サンプルおよび10個の小児髄芽細胞腫脳腫瘍から得られた。
【0159】
DNAマイクロアレイ技術は単一サンプルからの数千のmRNA分子の発現レベルを同時問い合わせできるようにし、したがって機能性ゲノム研究(31,38)の基礎である。これらの実験から得られるデータの量はデータ解析へのチャレンジ:すなわち、どのように、高いスループットデータの“海”から関連情報を効率的に抽出することができるか(21,22,41)?を表す。遺伝子発現データを解析する高感度で強力な理論上のフレームワークを確立させなければならない。
【0160】
現在、マイクロアレイデータを解析するために最も一般的に使用されている計算アプローチはクラスタ解析である。クラスタ解析は類似する発現プロファイルに基づいて遺伝子またはサンプルを“クラスタ”にグループ分けし、共有クラスタメンバーシップを通して遺伝子の機能または規則性あるいはサンプルの類似性に対する手がかりを提供する(41,97,98)。いくつかのクラスタ化方法がゲノムワイドな発現データの解析に有効に適用されており、大きく3つのカテゴリに分類することができる。すなわち(1)ツリーベースのアプローチは相関係数のような遺伝子間の距離測定値を使用して、遺伝子を階層ツリーにグループ分けし(33)、(2)第2のカテゴリは、クラスタ内の変動を最小にし、クラスタ間の変動を最大にするように遺伝子をクラスタ分けし(97,98)、(3)第3のカテゴリは遺伝子をブロックにグループ分けし、それらの中では相関が最大化され、それらの間では相関が最小化される(19)。
【0161】
マイクロアレイ研究に対するクラスタ解析の力は、類似する発現プロファイルを示す遺伝子転写物またはサンプルを発見することにある。例は時間経過に対して同時調製されると思われる転写物の同定子(29,92)、あるいは以前に未知のサンプルグループ化を発見すること(15,16)を含む。しかしながら、“同様な”グループの同定子は必ずしもマイクロアレイ研究における目的ではない。例えば、マイクロアレイはパワフルな高スループット方法を提供し、正常組織対癌性組織のような予め定められたサンプルグループ間で差次的に発現した遺伝子を発見する(16,30)。クラスタ解析は個々の遺伝子に焦点を当てないことから、このタイプの研究のためには高感度な方法ではない。
【0162】
マイクロアレイ研究からのグループ比較に対してもっとも一般的に適用されている技術は、各グループに対する平均強度間の2倍またはそれ以上の差を持つ遺伝子を単に探すことである。しかしながら、相対的な平均比較はサンプル変動に対処できず、100%より少ない発現レベルの差が非常に現実的で意味のある生物学的影響を持つことがある事実を無視する。実際、ノーザンブロットのパネルの比較や、あるいは健康および癌組織サンプル間の酵素分析法のような、単一遺伝子における解析に焦点を当てるときに、科学者達は類似する基準をめったに利用しない。グループ間のマイクロアレイ発現プロファイルを比較するための非常に改良された方法が最近提供され、この方法では、修正された人の係数およびデータ変動に対処する隣近解析アプローチを使用して、サンプルグループが比較される(44)。
【0163】
この例は統計学的モデリングアプローチを説明し、よく理解されており、強力な統計基準を使用して、2つのサンプルグループ間で差次的に発現した遺伝子を同定する。統計学的モデリング技術の2つの例示が含まれている。38人の白血病患者からの発現プロファイルが調査され、そのうちの27人が急性リンパ球性白血病(ALL)として診断される一方、11人が急性骨髄性白血病(AML)(44)として診断された。このデータセットはクラスタ解析を通して元々解析され、発現ベースの分類モデルが開発され、AML(44)からALLを同定した。第2の目的は新規なデータセットを解析して、NEUROD3/神経性1−ポジティブ対ネガティブ−小児髄芽細胞腫脳腫瘍において差次的に発現した遺伝子を発見することであった(74)。発見は、統計学的モデリングが高感度で強力な手段を提供してDNAマイクロアレイからの情報を抽出することを示す。
【0164】
方法論。オリゴヌクレオチドアレイ発現プロファイルの統計解析における第1のステップは、データの事前処理および/または変換である。これにはスパイクオリゴヌクレオチド制御の除去が含まれる。第2のステップは、サンプルに特異的な異質性とともにチップに特異的な異質性に対する補正因子を推定し、これらの因子を使用してデータを正規化することである。最後のステップは回帰解析を実行し、強力な統計技術を使用して各遺伝子転写物に対する関連モデルパラメータ(方法中の式1)を推定することである。結果は各転写物に対するZスコアの絶対値によりランク付けされる。Zスコアが高くなると、対応する遺伝子が2つのグループ間で差次的に発現したことの信頼レベルがより高くなる。
【0165】
方法論はMATLAB(MATH WORKS,Inc.により開発されたコンピュータ言語)を使用するコンピュータプログラムで実現することができる。
【0166】
複数比較。比較的少ない数のサンプルで非常に多量の比較を実行するときの問題は、複数比較から生じる不正確な高ポジティブレートである。この懸念を取り扱うために、有意性レベルが確実にゲノムスケールに適用可能なように、差次的に発現した転写物を宣言する統計しきい値が高められた。控えめな選択はボンフェロニ補正であり(53)、これは所要のゲノムワイド有意性、例えば1%を解析される遺伝子の総数で割る。例えば、7070のプローブを含むアフィイメトリックス6800遺伝子チップオリゴヌクレオチドアレイでは、調製された有意性レベルは約1/7070%である。Zスコアは正規分布にしたがうことを仮定すると、ゲノムレベルにおける対応する1%有意性しきい値は4.8のZスコアである。差次的に発現した複数の遺伝子を検出する力を向上させるために、各遺伝子に対する有意性値(すなわちp値)はホッケベルグにより提案された修正されたボンフェロニ補正を使用して計算された(52)。
【0167】
白血病研究。以前の研究は、38人の白血病患者(27人はALLで11人はAML)からのmRAN発現プロファイルを調べ、急性白血病に対する発現ベースの分類方法を開発した(44)。この研究からのデータセットはモデリング技術を例示するのに理想的であった。その理由は多量の患者を含み、十分に特徴付けられていたからである(41)。さらに、白血病に関する多量の文献があり、これらの文献から発見の有効性を評価することができる。
【0168】
統計学的モデリングアプローチは、4.8以上のZスコアで、AMLとALLとの間で差次的に発現した141の転写物を同定した。これらのうち23がAMLにおいてより高いレベルで発現した一方、114がALLで差次的に発現した。テーブル1および2はmRNAに対応するトップ25遺伝子をリストアップし、これらはいずれかのサンプルグループでさらに高く発現している。これらのテーブルには、修正された人の相関係数方法論に基づいたグラウブ氏らによる各所定プローブの場合の、AML対ALLについての平均間の相対差と、対応ランキングとを含む(44)。2つの方法間のランキングにおける差は比較的小さい平均発現差および/または発現レベルを持つ遺伝子に向けての統計学的モデリング方法における増加した感度から生じるものと思われる。これは重要な問題である。その理由はこれらの基準のいずれもタンパク質の生物学的特異性と必ずしも相関していないからである。例えば、テーブル1は、トロンボスポンディン1(TSP1)はAML対ALLで差次的に発現した一方、相対的および絶対的平均発現レベル差の両者は非常にわずかであった(それぞれ1.8倍および125)ことを示している。それにもかかわらず、TSP1は骨髄巨核球ろう(28)をネガティブに制御し、骨髄性白血病細胞増殖(101)に影響を与えることが知られている。
【0169】
マイクロアレイ研究の大部分はAML/ALL比較における38個のサンプルよりも少ないサンプルサイズで実行されることから、統計学的モデリング方法は、11人のAML患者間のトロンボポエテイン(TPO)との発現プロファイルの関係を調査するために適用された(44)。TPOは骨髄前駆の巨大核細胞(24)への遷移の原因となる主なサイトカインであるが、造血幹細胞からすべてのタイプの前駆への分化においてさらに一般的な役割も果たす(58)。さらに、TPOは多数のAML細胞株で発現することが知られている(46)。トロンボポエテイン(TPO)発現プロファイルのシャープな図形が患者28,30,32,34,36および38対、患者29,31,33,35および37との間で発見され、したがって、統計学的モデリング技術を使用してこれらの患者グループが比較された。8個の転写物が4.8より上のZスコアを持っていた。TPO自体は最高のランキングを生じさせた(テーブル3)。この解析からの15個の最高ランキングmRNAのうち、3個の対応する遺伝子生成物がTPOにより影響を受け、あるいはTPOと直接的に相互作用することが知られており、2個は詳しく特徴付けられなかったが、TPOと相互作用するタンパク質と非常に相同しており、他の8個は骨髄造血に関係している。TPOはAML芽細胞の増殖を刺激することができ(65,70)、グルーピングが芽細胞の高いまたは低いパーセンテージを持つサンプルのラインに沿って大きく落ちることに着目することは興味深い(www.genome.wi.mit.edu/MPR参照(44))。
【0170】
治療の成功または失敗と遺伝子発現の関係が調査された。11人のAML患者のうち、6人の患者(患者28−33)は治療に応答することがない一方、5人の患者(患者34−38)は生き延びた(www.genome.wi.mit.edu/MPR参照(44))。この解析からの25個の最も重要な転写物がテーブル4にリストアップされている。対応する遺伝子の染色体位置が調査された。その理由は染色体異常が白血病では優勢であり、予知的な密接関係を持っていることが多いからである(34,85)。テーブル4にリストアップされている遺伝子のほとんどすべては、異常をAMLおよび他の形態の白血病に含めるために以前に同定された領域に入る。さらに、遺伝子のうちの3個は5q11−31にエンコードされ、4個は2q領域に入り、2個は1q32−26内であり、他の2個は6p12−p11で見出される(テーブル4)。6800+遺伝子のランダムプールからのトップ25遺伝子における染色体位置の5個の“ミニクラスタ”の同定子が目を引く。注目すべきことは、領域5q11−31はAMLで頻繁に失われており、予知に影響を与えることが知られている(34,90,103)。さらに、Set(63)およびHoxA9(61)はAML進行で役割を果たすことが知られており、COL4A4(105)、チオレドキシン(71,91)、カスパーゼ−8(76)、インテグリンベータ5(25)、アルファチューブリン(51)、およびSPS2(91)は病気によく寄与するかもしれない。臨床結果は患者年齢、診断時期、および処置プロトコルを含む多くの非遺伝子要因により影響されるが、上記発見はゲノムワイドのマイクロアレイ解析を使用して予知インジケータの発見を約束していることを心に留めておくべきである。
【0171】
髄芽細胞腫研究。NEUROD3/神経性1は基本的ならせん−ループ−らせん転写因子であり、その発現は小児髄芽細胞腫に対するネガティブ予知インジケータである(84)。白血病データを解析することからの有望な結果にしたがって、mRNA発現プロファイルが10個の小児髄芽細胞腫組織サンプルから調査され、そのNEUROD3ステータスがノーザンブロットを使用してあいまいさなく決定された(74)。主目的はNEUROD3で差次的に発現した遺伝子を発見することであった。マイクロアレイ発現プロファイルの統計学的モデリングは、4.8を超えるZスコアを持つNEUROD3+またはNEUROD3−腫瘍間で差次的に発現した22個の遺伝子を明らかにした(テーブル5)。多数のこれらの遺伝子は髄芽細胞腫の腫瘍形成において潜在的な役割を持ち、これには細胞周期で調製された遺伝子Skp2(26)およびSmN(25);ERF−1(Berg36)、細胞消滅で役割を果たすかもしれない推定核細胞転写因子;微小管タンパク質および原腫瘍形成遺伝子プロファイル(55)、これは染色体領域17p13.3にあり、髄芽細胞腫の約50%で失われ(68);ホスファチジルイノシトール4−キナーゼ、これは神経発育因子(NGF)のトランスポートに関係しており(83);Kid、分裂紡錘フォーメーションに関係するタンパク質で、さまざまな癌細胞で発現する(100);Rar、人間の海馬状隆起(http://www.ncbi.nlm.nih.gov/entrez/utils/qmap.cgi?form=6&db=n&dopt=g&uid=u05227参照)から分離されたものであり、マウス中のras原腫瘍形成遺伝子ファミリーの脳特定メンバと相同であり(17);ADH7、レチノイン酸合成で機能するかもしれないものであり(50);転写因子SOX9(112)およびpolIIIサブユニットRPC62(107);RING3、転写因子および推定腫瘍形成遺伝子(75);およびMYBL2腫瘍形成遺伝子、神経芽細胞腫瘍中のプア予知因子(80)が含まれる。
【0172】
オリゴヌクレオチドマイクロアレイ技術の開発は、単一実験における数千の遺伝子のmRNA転写レベルのモニタリングを可能にする。実際、科学者は完全なDNA配列が既知である酵母のような生物に対する全ゲノムの発現プロファイルを既に調査し始めている(29,36,60,92)。調査および発見のこの力は、同時に1つの遺伝子に焦点を合わせる伝統的な実験アプローチをはるかに超えて進行する。さもなければ、マイクロアレイ研究から得ることができるおびただしい量のデータがデータ解析に対するチャレンジを提供する(21)。この例では、十分な基礎がある統計処理が説明され、この処理はゲノムデータの複雑性を考慮に入れながら、2つのサンプルグループ間の個々の遺伝子の発現プロファイルを比較する。
【0173】
統計処理に隠れたモチベーションは単純なコンセプトに基づいている。すなわち個々の遺伝子について、それぞれ予め定められたサンプルグループ中のその転写レベルの平均および標準偏差を計算し、Zスコア、p値またはRのような典型的な統計基準に基づいて発現プロファイルが異なっている尤度を決定する。同時に、この方法はゲノムワイドな情報を利用して、サンプル異質性および複数比較問題を取り扱う。白血病データについて得られた結果は、モデリングアプローチが遺伝子発現を定量化するかなり高感度な方法を生み出すことを示す。
【0174】
何らかの特別なフィルタリング方法を生蛍光データに適用することなく、白血病および髄芽細胞腫データセットが解析されたことに着目することは重要である。例えば、蛍光シグナル強度に基づいて“背景”雑音レベルはデータから減算されなかった、あるいは “発現しなかった”遺伝子を取り除かれなかった。これらのフィルタリング技術は、データをグラスタリングするとき、あるいは単一サンプルで遺伝子が発現したかまたはしなかったかを問うときに、最強の関連付けを行うことが要求される。しかしながら、フィルタリングは対象とする潜在的な遺伝子、特に低いものから適度な発現レベルを持つ潜在的な遺伝子を除去し、したがって、発見の力を減らすことがある。例えば、細胞毎に数転写物からゼロ転写物のみの差は、特別なフィルタリング技術を適用した後に検出できなくなることがあるが、そうでなければ、非常に現実的な生物的有意性を持つか、あるいは治療のために細胞を特にターゲットにするかなりの機会を提供する。
【0175】
統計学的モデリングの顕著な利点は、この技術はデータ中のランダム変動(すなわち“雑音”を利用することである。例えば、活性化誘導Cタイプレクチン(AICL)の平均発現レベルはAMLにおいてALLより3倍高く、絶対平均差は826ユニットで相当であった。AICLがさまざまな造血誘導細胞株で発現することを考えると(49)、AICLはこの証拠に基づいてAMLで実際に過剰発現したと合理的に結論するかもしれない。しかしながら、モデリングアプローチは0.91のみのZスコアをAICLに与えた。この明白な不一致は、AMLセット中のAICLサンプルの1つが他の任意のものよりも5倍以上高い強度値を持っていた事実により説明される。38個のサンプルからこの1つだけを排除すると、AMLとALLとの間のAICLに対する相対および絶対平均差はそれぞれ1.3倍および−94+/−216であった。明らかに、統計学的モデリングは倍数変化の単純比較よりも非常に意味のある結果を生み出す。
【0176】
モデリングアプローチは拡張することができる。第1に、非線形モデルを組み込むことができ、あるいは他の変換を観測された発現レベルに適用して、蛍光強度における非線形性に対処することができる。第2に、モデル(方法中の式1)を自然に拡張して付加的な共変量を組み込むことができる。例えば、複数の患者の臨床研究では、いくつかの臨床変数と発現プロファイルとの関係を評価することができる。第3に、たとえば非線形用量応答関係の評価において、連続的な共変量に対して非パラメータ平滑関数を組み込むことによりモデル(式1)を拡張することができる。第4に、複数の遺伝子の遺伝子調製回路についての我々の知識が蓄積するので、回帰係数α(π)(α,α,...,α)およびβ(π)(β,β,...,β)に対する“高レベル”モデルを仮定することにより遺伝子間の機能関係を公式化することができる。ここでπは全体的な遺伝子調製回路を特徴付けるパラメータの共通セットとすることができる。推定式を使用して、このような遺伝子回路モデルがどれくらい上手くデータに適合するかをテストすることができる。
【0177】
現在のアプローチの主な制限はp値の計算に関係している。先に着目したように、4.8のZスコアはゲノムワイドの有意性がアフィイメトリックス6800遺伝子チップに対して1%で確実に制御されるように選択される。しかしながら、対応するp値の計算はZスコアに対する漸近正規分布に基づいている。小さいものから適度なサンプルサイズで、この正常性は疑わしく、このようなしきい値は控えめではない。小さいサンプルサイズでの発見科学のために、Zスコア4.8しきい値は暫定的ガイドラインとして取り扱うべきであることに着目することも重要である。特定の候補遺伝子との関係をテストする状況では、単一遺伝子に対して確実に1%の誤り誤差率とするための許容しきい値は2.58のZスコアである。最後に、ボンフェロニ補正またはその変形は遺伝子発現の共変量を考慮にいれず、これはp値に対して控えめな推定となる。
【0178】
回帰モデル。遺伝子発現プロファイルのアレイを結果のベクトルとして概念化することができる。Y=(Y1k,Y2k,...,YJk)’がアレイを示すとする。ここでYjkはk番目のサンプル中のj番目の発現を示す(j=1,2,...,J;k=1,2,...,K)。xが各k番目のサンプルに関係する共変量を示すものとする。例えば、マーカー遺伝子の存在に対してx=1、その不存在に対してx=0である。k番目のサンプルにおけるj番目の遺伝子の発現レベルに対する回帰モデルを以下のように提案する。
【数41】
Figure 2004521407
【0179】
ここで、(a,b)は遺伝子に特異な回帰係数であり、(δ,λ)はそれぞれサンプルに特異な加算的および乗算的異質性因子であり、εjkは既知の共変量およびサンプル間のシステマティックな異質性により同定されたもの以外の原因による変動を反映するランダム変数である。xはバイナリであることから、aは正常サンプル(x=0)中のj番目の遺伝子の平均発現レベルを測定し、bは2つのサンプルグループ間のj番目の遺伝子の平均化発現レベルの差を測定する。
【0180】
異質性因子(δ,λ)は複数のmRNAサンプルを調製する際の変動に対処するために導入される。このような補正は2つのサンプルを比較する際に十分に考えられた。これらの2つのサンプル間に全体的な差次的発現がないヌル仮定のもとでは、サンプルデータを正規化して対角線上で共通技術に入れることによりこの異質性を調製することができる(111)。数値的安定性を確保するために切片も推定することができる。切片が0とは異なる場合には、補償するために対角線が上下に移動される。この補正を形式化して、典型的なゲノムワイドの発現パターンが安定であることを仮定することができ、線形モデルμjk=δ+λを使用して、すべてのサンプルおけるすべての遺伝子に対する平均発現値を特徴付けることができる。これらの異質性因子は加重最小2乗法により推定される(27)。推定された異質性因子を使用して(Yjk−δ^)/λ^として観測された発現レベルを調製し、補正された発現値を使用して上記モデル(式1)のもとにさらに解析をする。
【0181】
ランダム変動εjkを使用して未知のすべての原因による変動を示す。特に、この変動はサンプリング調製、遺伝子のクロスハイブリダイゼーション、またはマイクロアレイにおける他の異常と関係付けることができる。これらのランダム変動の確率分布は一般的に未知であり、正規分布のようなよく知られている何らかの分布にしたがう傾向がない。したがって、分布仮定は行われない。
【0182】
分析戦略。オリゴヌクレオチドアレイ発現プロファイルの統計解析における第1のステップはデータの前処理であり、これには必要に応じて制御遺伝子の除去およびデータの変換(例えば、対数変換)が含まれる。
【0183】
第2のステップは加算的および乗算的異質性要因(δ、λ)を推定することによりサンプル間の異質性を調査することである。推定は以下の加重最小2乗を最小にすることにより得られる。
【数42】
Figure 2004521407
【0184】
ここで、和はすべての遺伝子およびサンプルに対するものである(27)。加重はすべての遺伝子の寄与が0と1との範囲で標準化されるように選択される。結果的に、上記の加重最小2乗は、サンプルが同質のときの遺伝子数に等しい。推定されたパラメータを使用してデータを補正する。
【0185】
残余についての分散仮定は課されていないことから、第3のステップは加重最小2乗を使用して(54)、モデル(式1)中の遺伝子に特異なパラメータ(a,b)を推定することである(78)。(a^,b^)により示される各遺伝子についての回帰推定を得るほかに、各遺伝子に対する対応する強力な標準誤差が推定公式理論を使用して計算される(42,64)。推定されたパラメータおよび標準誤差を使用してZスコアを計算することができ、これは対応する標準誤差に対する平均差の比に等しい。有意性を決定するときに複数比較問題を取り扱うために、ホックベルグにより提案された修正されたボンフェロニ補正を使用してZスコアをp値に変換し、これが研究結果の有意性を測定する。
【0186】
白血病研究。アフィイメトリックス6800遺伝子チップオリゴヌクレオチドアレイは4つのチップからなり、これらには6817個の個々の遺伝子に対して結合された総7070オリゴヌクレオチドプローブ(制御遺伝子を除く)が含まれている。MITの研究者は38人の白血病患者(27人のALLおよび11人のAML)から血液サンプルを集め、アフィイメトリックス6800遺伝子チップオリゴヌクレオチドアレイを使用して、遺伝子発現プロファイルを評価した(44)。この研究ではもっぱらトレーニングデータセットが調査された。その理由はこのデータセットがグラウブ氏らにより最も特徴付けられていたからである(44)。マイクロアレイ解析を実行するために使用される実験プロトコルおよび得られたデータ値は(http://waldo.wi.mit.edu/mpr/pubs.html)で公衆に利用可能である。
【0187】
脳腫瘍研究。アフィイメトリックス6800遺伝子チップを使用して髄芽細胞腫と診断された10人の小児患者からの組織サンプルのmRNA発現プロファイルを解析した。
【0188】
【表1】
Figure 2004521407
【0189】
【表2】
Figure 2004521407
【0190】
【表3】
Figure 2004521407
【0191】
【表4】
Figure 2004521407
【表5】
Figure 2004521407
これは、発現値が正規分布にしたがうときには経験的確率となる。右列の図は、悪化同調と関連づけられた、推定標準偏差を示している。
【0192】
リファレンス
1. Breeden, L. L. (1997) Methods in Enzymology 283, 332−341.
2. Cho, R. J., Campbell, M. J., Winzeler, E A., Steinmetz, L., Conway, A., Wodicka, L., Wolfsberg, T. G., Gabrielian, A. E., Landsman, D. et al (1998a) Molecular Cell 2, 65−73.
3. Cho, R. J., Fromont−Racine, M., Wodicka, L., Feierbach, B., Steams, T., Legrain, P., Lockhart, D. J., & Davis, R. W. (1998b) Proc. Nat Acad. Sci. USA 95, 3752−3757.
4. DeRisi, J. L., Lyer, V. R., & Brown, P. O. (1997) Science 278, 680−686.
5. Fodor, S. P. A., Read, J. J., Pirrung. M. C., Stryer, L., Lu, A. T., & Solas, D. (1991) Science 251, 767−773.
6. Lander, E. S. (1999) Nature Genetics Supplement 21, 3−4.
7. Liang, K. Y. & Zeger, S. L. (1986) Biometrika 73, 13−22.
8. Prentice, R. L. & Zhao, L. P. (1991) Biometrics 47, 825−839.
9. Schena, M., Shalon, D., Davis, R. W., & Brown, P. O. (1995) Science 270, 467−470.
10. Schena, M., Shalon, D., Heller, R., Chai, A., Brown, P. O., & Davis, R. W. (1996) Proc. Natl. Acad. Sci. USA 93, 10614−10619.
11. Spellman, P. T., Sherlock, G., Zhang, M. Q., Vishwanath, R. I., Anders, K., Eisen, M. B., Brown, P. O., Botstein, D., & Futcher, B. (1998) Molecular biology of the cell 9, 3273−3279.
12. Tamayo, P., Slonim, D., Mesirov, J., Zhu, Q., Kitareewan, S., Dimtrovaky, E., Lander, E. S., & Golub, T. R. (1999) Proc. Natl. Acad. Sci. USA 96, 2907−2913.
13. Tavazoie, S., Hughes, J. D., Cambell, M. J., Cho, R. J., & Church, G. M. (1999) Nature Genetics 22, 28 1−285.
14. Aguiar, R. C. et al. Characterization of a t(10;12)(q24;p13) in a case of CML in transformation. Genes Chromosomes Cancer 20, 408−11(1997).
15. Alizadeh, A. A. et al. Distinct types of diffuse large B−cell lymphoma identified by gene expression profiling. Nature 403, 503−11(2000).
16. Alon, U. et al. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays. Proc Natl Acad Sci U S A 96, 6 745−50 (1999).
17. Ayala, J. et al. Developmental and regional expression of three new members of the ras−gene family in the mouse brain. J Neurosci Res 22 , 384−9 (1989).
18. Bajalica−Lagercrantz, S., Tingaard Pedersen, N., Sorensen, A. G., & Nordenskjold, M. Duplication of 2q31−qter as a sole aberration in a case of non− Hodgkin’s lymphoma. Cancer Genet Cytogenet 90, 102−5 (1996).
19. Ben−Dot, A., Shamir, R., & Yakhini, Z. Clustering gene expression patterns. J Comput Biol 6, 281−97 (1999).
20. Berget, R., Le Coniat, M., Derre, J., Vecchione, D., & Jonveaux, P. Cytogenetic studies in acute promyelocytic leukemia: a survey of secondary chromosomal abnormalities. Genes Chromosomes Cancer 3,332−7(1991).
21. Brent, R. Genomic biology. Cell 100, 169−83 (2000).
22. Brown, P. O. & Botstein, D. Exploring the new world of the genome with DNA microarrays. Nat Genet 21, 33−7 (1999).
23. Bundgaard, J. R., Sengelov, H., Borregaard, N., & Kjeldsen, L. Molecular cloning and expression of a cDNA encoding NGAL: a lipocalin expressed in human neutrophils. Biochem Biophys Res Commun 202, 1468−75 (1994).
24. Caen, J. P., Han, Z. C., Bellucci, S., & Alemany, M. Regulation of megakaryocytopoiesis. Haemostasis 29,27−40 (1999).
25. Campbell, L. et al. Direct interaction of Smn with dp103, a putative RNA helicase: a role for Smn in transcription regulation? Hum Mol Genet 9, 1093−100 (2000).
26. Carrano, A. C., Eytan, E., Hershko, A., & Pagano, M. SKP2 is required for ubiquitin−mediated degradation of the CDK inhibitor p27. Nat Cell Biol 1, 193−9 (1999).
27. Carroll, R. J. & Ruppert, D. Transformation and weighting in regression, Chapman and Hall, London (1988).
28. Chen, Y. Z. et al. Thrombospondin, a negative modulator of megakaryocytopoiesis. J Lab Crin Med 129,231−8 (1997).
29. Chu, S. et al. The transcriptional program of sporulation in budding yeast. Science 282, 699−705 (1998).
30. Coller, H. A. et al. Expression analysis with oligonucleotide microarrays reveals that MYC regulates genes involved in growth, cell cycle, signaling, and adhesion. Proc Nail Acad Sci U S A 97, 3260−5 (2000).
31. DeRisi, J. et al. Use of a cDNA microarray to analyse gene expression patterns in human cancer. Nat Genet 14,457−60 (1996).
32. DeRisi, J. L., Iyer, V. R., & Brown, P.O. Exploring the metabolic and genetic control of gene expression on a genomic scale. Science 278, 680−6(1997).
33. Eisen, M. B., Spellman, P. T., Brown, P. 0., & Botstein, D. Cluster analysis and display of genome−wide expression patterns. Proc Natl Acad Sci U S A 95, 14863−8 (1998).
34. El−Rifal, W., Elonen, E., Larramendy, M., Ruutu, T., & Knuutila, S. Chromosomal breakpoints and changes in DNA copy number in refractory acute myeloid leukemia. Leukemia 11 , 958−63 (1997).
35. Feng, X., Teitelbaum, S. L., Quiroz, M. E., Towler, D. A., & Ross, F. P. Cloning of the murine beta5 integrin subunit promoter. Identification of a novel sequence mediating granulocyte−macrophage colony−stimulating factor−dependent repression of beta5 integrin gene transcription. J Biol Chem 274, 1366−74 (1999).
36. Ferea, T. L., Botstein, D., Brown, P. O., & Rosenzweig, R. F. Systematic changes in gene expression patterns following adaptive evolution in yeast. Proc Natl Acad Sci U S A 96, 9721−6 (1999).
37. Fioretos, T. et al. Isocbromosome 17q in blast crisis of chronic myeloid leukemia and in other hematologic malignancies is the result of clustered breakpoints in 17p11 and is not associated with coding TP53 mutations. Blood 94, 225−32 (1999).
38. Fodor, S. P. et at Light−directed, spatially addressable parallel chemical synthesis. Science 251, 767−73 (1991).
39. Fontenay−Roupie, M. et al. Tbrombopoietin activates human platelets and induces tyrosine phosphorylation of p80/85 cortactin. Thromb Haemost 79, 195−201 (1998).
40. Fracchiolla, N. S., Colombo, G., Finelli, P., Maiolo, A. T., & Nert, A. EHT, a new member of the MTG8/ETO gene family, maps on 20q11 region and is deleted in acute myeloid leukemias. Blood 92, 3481−4 (1998).
41. Gaasterland, T. & Bekiranov, S. Making the most of niicroarray data. Nat Genet 24,204−6(2000).
42. Godambe, V. P. An optimum property of regular maximum likelihood estimation. Annals of Mathematical Statistics 31, 1208−12 (1960).
43. Gogineni, S. K. et al. Variant complex translocations involving chromosomes 1, 9, 9, 15 and 17 in acute promyelocytic leukemia without RAR alpha/PML gene fusion rearrangement. Leukemia 11, 514−8 (1997).
44. Golub, T. R. et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science 286, 531−7 (1999).
45. Gotoh, A., Ritchie, A., Takabira, H., & Broxmeyer, H. E. Thrombopoietin and erytbropoietin activate inside−out signaling of integrin and enhance adhesion to immobilized fibronectin in human growth−factor−dependent hematopoietic cells. Ann Hematol 75, 207−13 (1997).
46. Graf G., Dehmel, U., & Drexler, H. G.Expression of thrombopoietin and tbrombopoietin receptor MPL in human leukemia−lymphoma and solid tumor cell lines. Leuk Res 20, 831−8 (1996).
47. Grimwade, D. et al. Characterization of cryptic rearrangements and variant translocations in acute promyelocytic leukemia. Blood 90, 4876−85 (1997).
48. Haase, D. et al. Evidence for malignant transformation in acute myeloid leukemia at the level of early hematopoietic stem cells by cytogenetic analysis of CD34+ subpopulations. Blood 86, 2906−12 (1995).
49. Hamann, J., Montgomery, K. T., Lau, S., Kucherlapati, R., & van Lier, R. A. AICL: a new activation−induced antigen encoded by the human NK gene complex. Iinmunogenetics 45 , 295−300 (1997).
50. Haselbeck, R. J. & Duester, G. ADH4−lacZ transgenic mouse reveals alcohol dehydrogenase localization in embryonic midbrainlhindbrain, otic vesicles, and mesencephalic, trigeminal, facial, and olfactory neural crest. Alcohol Chin Exp Res 22, 1607−13 (1998).
51. Hirose, Y. & Takiguchi, T. Microtubule changes in hematologic malignant cells treated with paclitaxel and comparison with vincristine cytotoxicity. Blood Cells Mol Dis 21, 119−30 (1995).
52. Hochberg, Y. A sharper Bonferroni procedure for multiple test of significance. Biometrika 75, 800−802 (1988).
53. Hsu, J. C. Multiple comparisons: theory and methods, Chapman & Hall, London (1996).
54. Huber, P. J. The behavior of maximum likelihood estimates under nonstandard condition. in Proceedings of the Fifth Berkeley Symposium in Mathematical Statistics and Probability 221−233 UC Press, Berkeley, (67).
55. Janke, J. et al. Suppression of tumorigenicity in breast cancer cells by the microfilament protein profilin 1. J Exp Med 191, 1675−86 (2000).
56. Kagan, J. et al. Clustering of breakpoints on chromosome 10 in acute T−cell leukemias with the t(10;14) chromosome translocation. Proc Natl Acad Sci U S A 86, 4161−5 (1989).
57. Kate, T. et al. Thrombin cleaves recombinant human thrombopoietin: one of the proteolytic events that generates truncated forms of thrombopoietin. Proc Natl Acad Sci U S A 94, 4669−74 (1997).
58. Kaushansky, K. Thrombopoietin and hematopoietic stem cell development. Ann N Y Acad Sci 872, 314−9 (1999).
59. Kharbanda, S. et al. Stimulation of human monocytes with macrophage colony−simulating factor induces a Grb2−mediated association of the focal adhesion kinase pp125 FAK and dynamin. Proc Natl Acad Sci U S A 92, 6132−6 (1995).
60. Lasbkari, D. A. et al. Yeast microarrays for genome wide parallel genetic and gene expression analysis. Proc Natl Acad Sci U S A 94, 13057−62 (1997).
61. Lawrence, H. J. et al. Frequent co−expression of the HOXA9 and MEISl homeobox genes in human myeloid leukemias. Leukemia 13, 1993−9 (1999).
62. Lc Cabec, V., Calafat, J., & Borregaard, N. Sorting of the specific granule protein, NGAL, during granulocytic maturation of HL−60 cells. Blood 89, 2113−21 (1997).
63. Li, M., Makkinje, A., & Damuni, Z. The myeloid leukemia−associated protein SET is a potent inhibitor of protein phosphatase 2A. J Biol Chem 271, 11059−62 (1996).
64. Liang, K. Y. & Zeger, S. L. Longitudinal data analysis using generalized linear models. Biometrika 73, 13−22 (1986).
65. Luo, S. S., Ogata, K., Yokose, N., Kato, T., & Dan, K. Effect of thrombopoietin on proliferation of blasts from patients with myelodysplastic syndromes. Stem Cells 18, 112−9 (2000).
66. Mancini, M. et al. Use of dual−color interphase FISH for the detection of inv(16) in acute myeloid leukemia at diagnosis, relapse and during follow−up: a study of 23 patients. Leukemia 14, 364−8 (2000).
67. Marlton, P. et al. Molecular characterization of l6p deletions associated with inversion 16 defines the critical fusion for leukemogenesis. Blood 85, 772−9 (1995).
68. McDonald, J. D. et al. Physical mapping of chromosome 17p13.3 in the region of a putative tumor suppressor gene important in medulloblastoma. Genomics 23, 229−32 (1994).69. Melnick, A. et al. Identification of novel chromosomal rearrangements in acute myelogenous leukemia involving loci on chromosome 2p23, 15q22 and 17q2l. Leukemia 13, 1534−8 (1999).
70. Motoji, T. et al. Growth stimulatory effect of thrombopoietin on the blast cells of acute myelogenous leukemia. Br J Haematol 94, 513−6 (1996).
71. Nilsson, J., Soderberg, O., Nilsson, K., & Rosen, A. Thioredoxin prolongs survival of B−type chronic lymphocytic leukemia cells. Blood 95, 1420−6 (2000).
72. Ning, Z. Q., Norton, J. D., Li, J., & Murphy, J. J. Distinct mechanisms for rescue from apoptosis in Ramos human B cells by signaling through CD4O and interleukin−4 receptor: role for inhibition of an early response gene, Bergs6. Eur J Iminunol 26, 23 56−63 (1996).
73. Nowell, P. C. et al. The most common chromosome change in 86 chronic B cell or T cell tumors: a l4q32 translocation. Cancer Genet Cytogenet 19, 219−27 (1986).
74. Olson, J. M. et al. NEUROD3/neurogenin−1−positive medulloblastomas share a distinct cohort of preferentially expressed genes: implications for therapeutic stratagies (personal communication).
75. Ostrowski, J., Florie, S. K., Denis, G. V., Suzuki, H., & Bomsztyk, K. Stimulation of p85/RlNG3 kinase in multiple organs after systemic administration of rnitogens into mice. Oncogene 16, 1223−7 (1998).
76. Pervaiz, S., Seyed, M. A., Hirpara, J. L., Clement, M. V., & Lon, K. W. Purified photoproducts of merocyanine 540 trigger cytochrome C release and caspase 8−dependent apoptosis in human leukemia and melanoma cells. Blood 93, 4096−108 (1999).
77. Pinto do, O. P. Kolterud, A., & Carlsson, L. Expression of the LIM−homeobox gene LH2 generates immortalized steel factor−dependent multipotent hematopoietic precursors. EMBO J 17, 5744−56 (1998).
78. Prentice, R. L. & Zhao, L. P. Estimating equations for parameters in means and covariances of multivariate discrete continuous responses. Biometrics 47, 825−839 (1991).
79. Ragione, F. D. & Iolascon, A. Inactivation of cyclin−dependent kinase inhibitor genes and development of human acute leukemias. Leuk Lymphoma 25, 23−35 (1997).
80. Raschella, G. et al. Expression of B−myb in neuroblastoma tumors is a poor prognostic factor independent from MYCN amplification. Cancer Res 59, 3365−8 (1999).
81. Raynaud, S. D. et al. Recurrent cytogenetic abnormalities observed in complete remission of acute myeloid leukemia do not necessarily mark preleukemic cells. Leukemia 8, 245−9 (1994).
82. Rebli, M., Krause, S. W., Kreutz, M., & Andreesen, R. Carboxypeptidase M is identical to the MAX. 1 antigen and its expression is associated with monocyte to macrophage differentiation. J Bio1 Chem 270, 15644−9 (1995).
83. Reynolds, A. J., Heydon, K., Bartlett, S. E., & Hendry, I. A. Evidence for phosphatidylinositol 4−kinase and actin involvement .in the regulation of 125I−beta−nerve growth factor retrograde axonal transport. J Neurochem 73, 87−95 (1999).
84. Rostomily, R. C. et al. Expression of neurogenic basic helix−loop−helix genes in primitive neuroectodermal tumors. Cancer Res 57, 3526−31 (1997).
85. Rawley, J. D. Molecular genetics in acute leukemia. Leukemia 14, 513−7 (2000).
86. Salvati, P. D., Watt, P. M., Thomas, W. R., & Kees, U. R. Molecular characterization of a complex chromosomal translocation breakpoint t(10;14) including the HOXI 1 oncogene locus. Leukemia 13, 975−9 (1999).
87. Schroeder, T. & Just, U.〜 Notch signaling via RBP−J promotes myeloid differentiation. EMBO J 19, 2558−68 (2000).
88. Selypes, A. & Laszlo, A. A new translocation t(1;4;11) in congenital acute nonlymphocytic leukemia (acute myeloblastic leukemia). Hum Genet 76, 106−8 (1987).
89. Shimizu, S. et al. Identification of breakpoint cluster regions at 1p36.3 and 3q2l in hematologic malignancies with t(1;3)(p36;q21). Genes Chromosomes Cancer 27, 229−38 (2000).
90. Shipley, J., Weber−Hall, S., & Birdsall, S. Loss of the chromosomal region 5q11−q31 in the myeloid cell line HL−60: characterization by comparative genomic hybridization and fluorescence in situ hybridization. Genes Chromosomes Cancer 15, 182−6 (1996).
91. Soderberg, A., Sahaf B., & Rosen, A. Thioredoxin reductase, a redox−active selenoprotein, is secreted by normal and neoplastic cells: presence in human plasma. Cancer Res 60, 2281−9 (2000).
92. Spellman, P. T. et al. Comprehensive identification of cell cycle−regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization. Mol Biol Cell 9, 3273−97 (1998).
93. Stanley, W. S. et al. Constitutional inversion of chromosome 7 and hematologic cancers. Cancer Genet Cytogenet 96, 46−9 (1997).
94. Stern, M. H. [Oncogenesis of T−cell prolymphocytic leukemia (editorial)]. Pathol Bio1 (Paris) 44, 689−93 (1996).
95. Streit, M. et al. Thrombospondin−2: a potent endogenous inhibitor of tumor growth and angiogenesis. Proc Natl Acad Sci U S A 96, 14888−93 (1999).
96. Suske, G. The Sp−family of transcription factors. Gene 238, 291−300 (1999).
97. Tamayo, P. et al. Interpreting patterns of gene expression with self−organizing maps: methods and application to hematopoletic differentiation. Proc Natl Acad Sci U S A 96, 2907−12 (1999).
98. Tavazoie, S., Hughes, J. D., Campbell, M. J., Cho, R. J., & Church, G. M. Systematic determination of genetic network architecture. Nat Genet 22, 281−5 (1999).
99. Testoni, N. et al. 3q2l and 3q26 cytogenetic abnormalities in acute myeloblastic leukemia: biological and clinical features. Haematologica 84, 690−4 (1999).
100. Tokai, N. et al. Kid, a novel kinesin−like DNA binding protein, is localized to chromosomes and the mitotic spindle. EMBO J 15, 457−67 (1996).
101. Touhami, M., Fauvel−Lafeve, F., Da Silva, N., Chomienne, C., & Legrand, C. Induction of thrombospondin−1 by all−trans retinoic acid modulates growth and differentiation of HL−60 myeloid leukemia cells. Leukemia 11, 2137−42 (1997).
102. Tsuboi, A. et al. Constitutive expression of the Wilms’ tumor gene WT1 inhibits the differentiation of myeloid progenitor cells but promotes their proliferation in response to granulocyte−colony stimulating factor (G−CSF). Leulc Res 23, 499−505 (1999).103. Van den Berghe, H. & Michaux, L. 5q−, twenty−five years later: a synopsis. Cancer Genet Cytogenet 94, 1−7 (1997).
104. van Willigen, G., Gorter, G., & Akkerman, J. W. Thrombopoietin increases platelet sensitivity to alpha−thrombin via activation of the ERK2−cPLA2 pathway. Thromb Haemost 83 , 610−6 (2000).
105. Verfaillie, C. M., McCarthy, J. B., & McGlave, P. B. Mechanisms underlying abnormal trafficking of malignant progenitors in chronic myelogenous leukemia. Decreased adhesion to stroma and fibronectin but increased adhesion to the basement membrane components laminin and collagen type IV. J Crin Invest 90, 1232−41 (1992).
106. von Lindern, M. et al. Can, a putative oncogene associated with myeloid leukemogenesis, may be activated by fusion of its 3’ half to different genes: characterization of the set gene. Mol Cell Biol 12, 3346−55 (1992).
107. Wang, Z. & Roeder, R. G. Three human RNA polymerase III−specific subunits form a subcomplex with a selective function in specific transcription initiation. Genes Dev 11, 1315−26 (1997).
108. Wang, Z., Zhang, Y., Lu, J., Sun, S., & Ravid, K. Mp1 ligand enhances the transcription of the cyclin D3 gene: a potential role for Sp1 transcription factor. Blood 93, 4208−21(1999).
109. Weis, J., DeVito, V., Allen, L., Linder, D., & Magenis, E. Translocation X;10 in a case of congenital acute monocytic leukemia. Cancer Gent Cytogenet 16, 357−64 (1985).110. Whang−Peng, J., Lee, E. C., Kao−Shan, C. S., & Schechter, G. Ring chromosome in a case of acute myelomonocytic leukemia: its significance and a review of the literature. Hematol Pathol 1, 57−65 (1987).
111. Wodicka, L., Dong, H., Mittmann, M., Ho, M. H., & Lockhart, D. J. Genome−wide expression monitoring in Saccharomyces cerevisiae. Nat Biotechnol 15, 1359−67 (1997).
112. Zhao, Q., Eberspaecher, H., Lefebvre, V., & De Crombrugghe, B. Parallel expression of Sox9 and Col2a1 in cells undergoing chondrogenesis. Dev Dyn 209, 377−86 (1997).
113. Heyer et al., Genome Research 9, 1106−1115(1999).
114. Helter et al., Proc. Nail. Acad. Sci. USA 97, 8409−8414 (2000).
115. Alter et al., Proc. Nail. Acad. Sci. USA 97, 10101−10106 (2000).
本発明の好ましい実施形態が図示され、説明されたが、本発明の精神と範囲から逸脱することなく、さまざまな変化がなされてもよいことが認められるであろう。
【図面の簡単な説明】
【図1】
図1は、本発明の代表的な方法である単一パルスモデル(SPM)の基本仮定であり、細胞周期で調製された転写物が、ある一定時間で転写され、細胞周期中の次の時間に消失する。A.例えば、発現の基底レベル(α=0)から誘導レベル(α+β=1)の長さ(Θ=80’)の2つの連続した細胞周期中に、(ζ=10’)で活性化し、(ζ=55’)で不活性化する単一転写物。B.典型的な同調化実験において、複数の転写物が細胞毎に作られ、RNAはいくつかの細胞から採取される。これらの細胞は完全には同調しておらず、同調は時間とともに悪化する。これにより、単純パルス(破線)が、時間とともに減衰する(実線)なめらかなピーク(点線)に弱まる。示されている例において、細胞の年齢は標準偏差3分から19分へ変化する。C.得られた発現値(ポイント)は、モデル化されていたものを超える付加的な変動性と同様に、加算的および乗算的異質性両方の対象となり、これらの差は残差として知られる。これらの残差の標準偏差が推定され、Zスコアによって、この標準偏差に関連するパルス高の有意性が評価された。
【図2】
図2は、アルファ因子(表A)、cdc15(表B)、およびcdc28(比率データに関する表C、絶対強度に関する表D)のデータセットによる同調からのデータセットに対して推定されたパラメータの図である。左列は各時間点について推定された加算的異質性を反映しており、中列は各同調について推定された細胞周期間隔を、確率スケール上のプロファイルされた加重最小2乗として示している。視覚的に検査しやすいように、この2乗の和は以下の式を用いて確率スケールに変換された。
【数43】
Figure 2004521407
【図3】
図3は、5つの周期的に転写された遺伝子について3つの異なる同調細胞周期からのマイクロアレイデータ(実線)への単一パルスモデル(点線)の適合を示す。データ対時間の対数比は、アルファ因子(右段)、cdc15(中段)、およびcdc28(左段)の同調について作図されている。各作図の下に、各転写物についての活性化および不活性化時間がかっこ内に示され、これに続いて、SPMのもとで演算され、SPMからのパルス高および偏差の有意性をそれぞれ示すZスコアおよびΧ統計量が記されている。
【図4】
図4では、周期的な転写を示し、G1フェーズにおけるピークが、QT_クラストアルゴリズムを用いて同定され、クラスタ直径のしきい値が<0.3(上位41個の遺伝子)から、<0.5(83個の遺伝子)、<1.2(272個の遺伝子)へ変化していた。これらの連続的により大きいG1クラスタのメンバに関する転写物プロファイルがSPMによって解析され、それらのZスコアおよびΧ値が作図されている(左)。SPMのZスコアおよびΧしきい値がこれらの作図に重ねられており、これらのプロファイルの比率が周期的だとして分類されることを示している(各プロットの右下の象限)。右列の図で、各グループについての平均活性化・不活性化時間の分布が作図されている。これらのパラメータの推定値は、SPMしきい値を超えるこれらのプロファイルについてのみ、SPMにより演算された。
【図5】
図5は、Zスコアの絶対値>5およびχ<11.3のしきい値を持つSPMによって同定された周期的な転写物を示し、3つのデータセット間の一致の範囲が示されている。3つのデータセットのそれぞれに関する対数比データがSPMによって解析された。各データセットにおいて同定された周期遺伝子の総数が示され、円で表されている。データセット間の一致は、円の交わりによって示されている。全1088個の遺伝子は、少なくとも1つのデータベースにおいてSPMしきい値に一致する。71個の遺伝子は、3つのデータセットすべてにおいて周期性に対するSPMのしきい値に一致する。254個の遺伝子は少なくとも2つのデータベースにおいて周期的であるとして記録されている。834個の遺伝子は1つのデータセットのみで周期性を表している。R>0.6のような付加的な基準が採用され、モデルが60%以上の発現データ変動に関する説明を提供するこれら834個の遺伝子間のプロファイルを同定する場合、473個のプロファイルが同定される。
【図6】
図6は、代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図7】
図7は、単一細胞内での複数の転写物についての代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図8】
図8は、複数の細胞の可変同調を示す細胞についての代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図9】
図9は、悪化同調を示す転写物についての代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図10】
図10は、細胞周期のタイミングの機能としての同調変動性の図である。
【図11】
図11は、サンプル間の異質性を示す転写物についての代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図12】
図12は、遺伝子発現についての代表的な線形SPMの図であり、転写物発現レベル(β)が細胞周期のタイミングについて作図されている。
【図13】
図13は、遺伝子発現についての代表的な二次SPMの図であり、転写物発現レベル(β)が細胞周期のタイミングについて作図されている。
【図14】
図14は、正常組織と異常組織とを本発明の方法によって比較した代表的な結果の図である。

Claims (53)

  1. それぞれが複数のメンバを含む2つ以上のデータアレイからのデータを解析する方法であって、各メンバはシグナルを提供し、データは1つ以上の共変数と関連づけられており、この方法は、
    モデルをデータアレイと共変数に適合させ、
    この適合の統計学的有意性を評価することによって適合度を決定し、
    シグナルの統計学的有意性を決定することを含む解析方法。
  2. モデルをデータに適合させるより前に、メンバ間の異質性についてデータを補正することをさらに含む請求項1記載の解析方法。
  3. メンバ間の異質性についてデータを補正することは、データを正規化することを含む請求項2記載の解析方法。
  4. モデルを適合させることは、共変数パラメータ値を含む請求項1記載の解析方法。
  5. モデルをデータアレイに適合させることは、既知のモデルを適合させることを含む請求項1記載の解析方法。
  6. 既知のモデルは、線形回帰モデル、指数モデル、パラメトリックモデル、ノンパラメトリックモデル、セミパラメトリックモデルのうちの少なくとも1つである請求項5記載の解析方法。
  7. モデルをデータアレイに適合させることは、派生モデルを適合させることを含む請求項1記載の解析方法。
  8. 派生モデルは、単一パルスモデルを含む請求項7記載の解析方法。
  9. 1つ以上の共変数は、時間経過調査における時間、病状、温度、細胞型、刺激への暴露、用量応答調査における用量、臨床結果、および細胞周期のタイミングのうちの少なくとも1つである請求項1記載の方法。
  10. 1つ以上の共変数は、年齢、性別、体重、身長、人種、民族、ダイエット、および生活様式のうちの少なくとも1つである請求項1記載の解析方法。
  11. 1つ以上の共変数は、患者に対する診断、病歴、投薬歴、病理学上の分類、およびバイオマーカー情報のうち少なくとも1つである請求項10記載の解析方法。
  12. 1つ以上の共変数は、薬に応答した細胞株の特性である請求項1記載の解析方法。
  13. 薬に応答した細胞株の特性は、ED50である請求項12記載の解析方法。
  14. 共変数値は加重最小2乗法によって推定される請求項4記載の解析方法。
  15. シグナルの統計学的有意性は、シグナルシグナル対雑音比を評価することによって決定される請求項1記載の解析方法。
  16. データアレイは、同調化実験から導出されるデータを含む請求項1記載の解析方法。
  17. 方法は細胞周期における単一の転写物の発現を解析することを含む請求項16記載の解析方法。
  18. 方法は細胞周期における複数の転写物の発現を解析することを含む請求項16記載の解析方法。
  19. 方法は複数の細胞型における1つ以上の転写物の発現を解析することを含む請求項16記載の解析方法。
  20. 方法は可変同調化実験を示す複数の細胞型の発現を解析することを含む請求項19記載の解析方法。
  21. 方法は悪化同調を示す複数の細胞型の発現を解析することを含む請求項16記載の解析方法。
  22. データアレイは時間経過調査によって導出されるデータを含む請求項1記載の解析方法。
  23. モデルは線形モデルである請求項1記載の解析方法。
  24. モデルは二次モデルである請求項1記載の解析方法。
  25. データアレイは、正常および異常組織から導出されるデータを含む請求項1記載の解析方法。
  26. シグナルは薬の服用量に応答する請求項1記載の解析方法。
  27. シグナルは共変数の変化に応答する請求項1記載の解析方法。
  28. シグナルは1つより多い共変数の変化に応答する請求項1記載の解析方法。
  29. 2つ以上のデータアレイからデータを獲得し、各アレイが複数のメンバを含み、各メンバはシグナルを提供し、シグナルは被検査変数に応答し、
    メンバ間の異質性を推定し、
    所定のパターンとは異なるメンバを同定し、
    所定のパターンとは異なるメンバに関するデータを補正し、
    モデルをデータアレイに適用し、モデルはデータで推定可能な1つ以上のパラメータによってインデックス付けされ、
    パラメータ値を推定することによりモデルをデータに適合させ、適合度は、この適合の統計学的有意性を評価することによって決定し、
    シグナルの統計学的有意性を決定することを含むデータ解析方法。
  30. 適合の統計学的有意性を評価することは、モデルによって説明される観察された変動の範囲を決定することを含む請求項29記載の解析方法。
  31. シグナルの統計学的有意性を決定することは、シグナルシグナル対雑音比の有意性を決定することを含む請求項29記載の解析方法。
  32. 異質性を推定することは、メンバの応答が被検査変数に対して不変であると仮定することを含む請求項29記載の解析方法。
  33. メンバ間の異質性を推定することは加算的および乗算的異質性因子を推定することを含む請求項29記載の解析方法。
  34. 異質性因子は統計的方法によって推定される請求項33記載の解析方法。
  35. 統計的方法は加重最小2乗法を含む請求項34記載の解析方法。
  36. 異質性因子は、所定のパターンとは異なるメンバに関するデータを補正して補正値を提供するために用いられる請求項33記載の解析方法。
  37. 各データアレイがサンプルのアレイから導出された、2つ以上のデータアレイを解析する方法であって、
    (a)2つ以上のデータアレイからデータを獲得し、各データアレイがサンプルのアレイから導出され、各サンプルがシグナルを提供し、シグナルは被検査変数に応答し、
    (b)サンプル固有の異質性に関する補正因子を推定し、
    (c)アレイ固有の異質性に関する補正因子を推定し、
    (d)データで推定可能な1つ以上のパラメータによってインデックス付けされたモデルを適用し、各パラメータは値を有し、
    (e)モデルに適合するパラメータ値を決定し、
    (f)適合の統計学的有意性を評価することによってモデルに対するパラメータ値の適合度を決定し、
    (g)シグナルの統計学的有意性を決定することを含む解析方法。
  38. 適合度は、Zスコア、p値、およびRからなるグループから選択された統計基準によって決定される請求項37記載の解析方法。
  39. 補正因子は乗算的因子である請求項37記載の解析方法。
  40. 補正因子は加算的因子である請求項37記載の解析方法。
  41. 2つ以上のデータセット間のメンバ固有パラメータ値の変化を解析する方法であって、各データセットはメンバのアレイから導出され、各データセットは1つ以上の変数と関係しており、この方法は、
    (a)データセット全体の異質性を推定し、
    (b)データセットに関係するパラメータを有する統計モデルを適用し、
    (c)このモデルに適合するメンバ固有パラメータ値を推定し、
    (d)適合の統計学的有意性を評価することによってモデルに対するメンバ固有パラメータ値の適合度を決定し、
    (e)シグナルの統計学的有意性を決定することを含む解析方法。
  42. 1つ以上の変数は、時間、病状、温度、細胞型、薬への暴露、臨床結果、および細胞周期のタイミングからなるグループから選択される請求項41記載の解析方法。
  43. 各メンバは単一遺伝子からの転写物を有し、メンバ固有パラメータ値は転写物の発現のレベルを有する請求項41記載の解析方法。
  44. 異質性を推定することは、メンバ固有パラメータ値がデータセット間で変化しないと仮定することを含む請求項41記載の解析方法。
  45. データセットが安定パターンと異なる場合に、データセットのすべてのメンバに関するデータを補正することをさらに含む請求項41記載の解析方法。
  46. 異質性を推定することは異質性因子を決定することを含む請求項41記載の解析方法。
  47. 異質性因子は加算的因子である請求項46記載の解析方法。
  48. 異質性因子は乗算的因子である請求項46記載の解析方法。
  49. 異質性因子は以下の合計の最小2乗を最小にすることによって推定され、
    Figure 2004521407
    ここで、Y=(Y1k,Y2k,...,YJk)はアレイを示し、Yjkはk番目のデータセットのj番目のメンバのパラメータ値を示しており(j=1,2,...,J;k=1,2,...,K)、
    (δ,λ)はサンプル固有の加算的および乗算的異質性因子であり、
    (a,b)は回帰係数であり、
    加重の範囲は0から1であり、
    合計は全メンバと全データセットに対するものである請求項46記載の解析方法。
  50. メンバ固有パラメータ値を推定することは回帰解析を含む請求項41記載の解析方法。
  51. 異質性を推定することおよびメンバ固有パラメータを推定することは、残差の2乗の和を最小にすることを含む請求項41記載の解析方法。
  52. 請求項1、29、37または41いずれか1項に記載の解析方法を実行するためのコンピュータ実行可能命令を有するコンピュータ読み取り可能媒体。
  53. プロセッサ、メモリ、および動作環境を有し、請求項1、29、37または41いずれか1項に記載の解析方法を実行するよう動作可能なコンピュータシステム。
JP2002523776A 2000-09-01 2001-08-30 大きなデータアレイを解析するための統計学的モデリング Pending JP2004521407A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US22986600P 2000-09-01 2000-09-01
US28224501P 2001-04-06 2001-04-06
PCT/US2001/027273 WO2002019602A2 (en) 2000-09-01 2001-08-30 Statistical modeling to analyze large data arrays

Publications (1)

Publication Number Publication Date
JP2004521407A true JP2004521407A (ja) 2004-07-15

Family

ID=26923683

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002523776A Pending JP2004521407A (ja) 2000-09-01 2001-08-30 大きなデータアレイを解析するための統計学的モデリング

Country Status (5)

Country Link
US (1) US20030219797A1 (ja)
JP (1) JP2004521407A (ja)
AU (1) AU2001287010A1 (ja)
CA (1) CA2421221A1 (ja)
WO (1) WO2002019602A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006039862A (ja) * 2004-07-26 2006-02-09 Mitsubishi Electric Corp データ類別装置
JP2007312653A (ja) * 2006-05-24 2007-12-06 Nec Soft Ltd 時系列遺伝子発現量データの特徴抽出と比較分類を目的とする解析方法、および該解析方法に基づく解析装置
JP2017097884A (ja) * 2013-06-28 2017-06-01 ナントミクス,エルエルシー 診断テストを特定するための経路分析

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005518008A (ja) * 2002-02-11 2005-06-16 シンジェンタ・パティシペーションズ・アクチェンゲゼルシャフト 遺伝子発現データを用いた遺伝子機能推定
US7242989B2 (en) 2003-05-30 2007-07-10 Fisher-Rosemount Systems, Inc. Apparatus and method for batch property estimation
US20050010541A1 (en) * 2003-07-07 2005-01-13 Rietman Edward A. Method and system for computing categories and prediction of categories utilizing time-series classification data
JP2006347701A (ja) * 2005-06-16 2006-12-28 Komori Corp シート状物押え装置
US20070226099A1 (en) * 2005-12-13 2007-09-27 General Electric Company System and method for predicting the financial health of a business entity
US20070136115A1 (en) * 2005-12-13 2007-06-14 Deniz Senturk Doganaksoy Statistical pattern recognition and analysis
US8364417B2 (en) * 2007-02-15 2013-01-29 454 Life Sciences Corporation System and method to correct out of phase errors in DNA sequencing data by use of a recursive algorithm
CN101390101B (zh) * 2006-02-16 2012-05-23 454生命科学公司 用于校正核酸序列数据中的引物延伸误差的系统和方法
US9330127B2 (en) * 2007-01-04 2016-05-03 Health Care Productivity, Inc. Methods and systems for automatic selection of classification and regression trees
US7412356B1 (en) * 2007-01-30 2008-08-12 Lawrence Livermore National Security, Llc Detection and quantification system for monitoring instruments
FI20085302A0 (fi) * 2008-04-10 2008-04-10 Valtion Teknillinen Rinnakkaisilta mittalaitteilta tulevan biologisten signaalien mittausten korjaaminen
US8090558B1 (en) * 2008-06-09 2012-01-03 Kla-Tencor Corporation Optical parametric model optimization
AU2011226792A1 (en) 2010-06-11 2012-01-12 Life Technologies Corporation Alternative nucleotide flows in sequencing-by-synthesis methods
EP2585957A4 (en) * 2010-06-24 2014-12-24 Valtion Teknillinen STATE DEDUCTION IN A HETEROGENEOUS SYSTEM
WO2012058459A2 (en) 2010-10-27 2012-05-03 Life Technologies Corporation Predictive model for use in sequencing-by-synthesis
US10273540B2 (en) 2010-10-27 2019-04-30 Life Technologies Corporation Methods and apparatuses for estimating parameters in a predictive model for use in sequencing-by-synthesis
WO2012118555A1 (en) 2010-12-29 2012-09-07 Life Technologies Corporation Time-warped background signal for sequencing-by-synthesis operations
EP2658999B1 (en) 2010-12-30 2019-03-13 Life Technologies Corporation Models for analyzing data from sequencing-by-synthesis operations
US10241075B2 (en) 2010-12-30 2019-03-26 Life Technologies Corporation Methods, systems, and computer readable media for nucleic acid sequencing
US20130060482A1 (en) 2010-12-30 2013-03-07 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
EP3366782B1 (en) 2011-04-08 2021-03-10 Life Technologies Corporation Phase-protecting reagent flow orderings for use in sequencing-by-synthesis
US10704164B2 (en) 2011-08-31 2020-07-07 Life Technologies Corporation Methods, systems, computer readable media, and kits for sample identification
US9646132B2 (en) 2012-05-11 2017-05-09 Life Technologies Corporation Models for analyzing data from sequencing-by-synthesis operations
US10329608B2 (en) 2012-10-10 2019-06-25 Life Technologies Corporation Methods, systems, and computer readable media for repeat sequencing
US20140296080A1 (en) 2013-03-14 2014-10-02 Life Technologies Corporation Methods, Systems, and Computer Readable Media for Evaluating Variant Likelihood
WO2015051338A1 (en) 2013-10-04 2015-04-09 Life Technologies Corporation Methods and systems for modeling phasing effects in sequencing using termination chemistry
WO2016060974A1 (en) 2014-10-13 2016-04-21 Life Technologies Corporation Methods, systems, and computer-readable media for accelerated base calling
EP4220645A3 (en) 2015-05-14 2023-11-08 Life Technologies Corporation Barcode sequences, and related systems and methods
US10619205B2 (en) 2016-05-06 2020-04-14 Life Technologies Corporation Combinatorial barcode sequences, and related systems and methods
US11419558B2 (en) 2017-05-24 2022-08-23 Covidien Lp Determining a limit of autoregulation
US10660530B2 (en) 2018-04-25 2020-05-26 Covidien Lp Determining changes to autoregulation
US10674964B2 (en) 2018-04-25 2020-06-09 Covidien Lp Determining changes to autoregulation
US10610164B2 (en) 2018-04-25 2020-04-07 Covidien Lp Determining changes to autoregulation
US11026586B2 (en) 2018-04-25 2021-06-08 Covidien Lp Determining changes to autoregulation

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5639619A (en) * 1994-10-13 1997-06-17 Regents Of The University Of California Screening assay for anti-HIV drugs using the Vpr gene
US5909278A (en) * 1996-07-29 1999-06-01 The Regents Of The University Of California Time-resolved fluorescence decay measurements for flowing particles

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006039862A (ja) * 2004-07-26 2006-02-09 Mitsubishi Electric Corp データ類別装置
JP4536445B2 (ja) * 2004-07-26 2010-09-01 三菱電機株式会社 データ類別装置
JP2007312653A (ja) * 2006-05-24 2007-12-06 Nec Soft Ltd 時系列遺伝子発現量データの特徴抽出と比較分類を目的とする解析方法、および該解析方法に基づく解析装置
JP4555256B2 (ja) * 2006-05-24 2010-09-29 Necソフト株式会社 時系列遺伝子発現量データの特徴抽出と比較分類を目的とする解析方法、および該解析方法に基づく解析装置
JP2017097884A (ja) * 2013-06-28 2017-06-01 ナントミクス,エルエルシー 診断テストを特定するための経路分析
JP2019023871A (ja) * 2013-06-28 2019-02-14 ナントミクス,エルエルシー 診断テストを特定するための経路分析
US11011273B2 (en) 2013-06-28 2021-05-18 Nantomics, Llc Pathway analysis for identification of diagnostic tests

Also Published As

Publication number Publication date
AU2001287010A1 (en) 2002-03-13
US20030219797A1 (en) 2003-11-27
CA2421221A1 (en) 2002-03-07
WO2002019602A3 (en) 2004-11-25
WO2002019602A2 (en) 2002-03-07

Similar Documents

Publication Publication Date Title
JP2004521407A (ja) 大きなデータアレイを解析するための統計学的モデリング
Causton et al. Microarray gene expression data analysis: a beginner's guide
Wu Analysing gene expression data from DNA microarrays to identify candidate genes
Zweiger Knowledge discovery in gene-expression-microarray data: mining the information output of the genome
McLoughlin Microarrays for pathogen detection and analysis
US20200347444A1 (en) Gene-expression profiling with reduced numbers of transcript measurements
US6516276B1 (en) Method and apparatus for analysis of data from biomolecular arrays
US20090319244A1 (en) Binary prediction tree modeling with many predictors and its uses in clinical and genomic applications
Ringnér et al. Analyzing array data using supervised methods
US20050282227A1 (en) Treatment discovery based on CGH analysis
Greenberg DNA microarray gene expression analysis technology and its application to neurological disorders
EP2556185B1 (en) Gene-expression profiling with reduced numbers of transcript measurements
WO2005017807A2 (en) Apparatus and method for classifying multi-dimensional biological data
Kuo et al. A primer on gene expression and microarrays for machine learning researchers
Page et al. Microarray analysis
Shioda Application of DNA microarray to toxicological research
US20060265135A1 (en) Bio-information analyzer, bio-information analysis method and bio-information analysis program
Slonim Transcriptional profiling in cancer: the path to clinical pharmacogenomics
Liang et al. Computational analysis of microarray gene expression profiles: clustering, classification, and beyond
Beltrame et al. Using pathway signatures as means of identifying similarities among microarray experiments
Kuo et al. Gene expression profiling by DNA microarrays and its application to dental research
Chen et al. Microarray gene expression
Sievertzon et al. Improving reliability and performance of DNA microarrays
McConnell et al. An introduction to DNA microarrays
Gibbons et al. Sequential prediction bounds for identifying differentially expressed genes in replicated microarray experiments