JP2004521407A

JP2004521407A - 大きなデータアレイを解析するための統計学的モデリング

Info

Publication number: JP2004521407A
Application number: JP2002523776A
Authority: JP
Inventors: ザオ、ルー・ピー; プレンティス、ロス; ブリーデン、リンダ
Original assignee: フレッド・ハッチソン・キャンサー・リサーチ・センター
Priority date: 2000-09-01
Filing date: 2001-08-30
Publication date: 2004-07-15
Also published as: AU2001287010A1; US20030219797A1; CA2421221A1; WO2002019602A3; WO2002019602A2

Abstract

【課題】
【解決手段】大きなデータアレイを解析する方法が提供される。１つの観点では、本発明は２つ以上のデータアレイからのデータを解析する方法を提供する。各アレイは、複数のメンバを含み、各メンバはシグナルを提供し、データは１つ以上のパラメータによってインデックス付けされる。１つの実施形態では、この方法は、モデルをデータに適合させることと、適合の統計学的有意性を評価することによって適合度を決定することと、シグナルの統計学的有意性を決定することを含む。別の実施形態では、この方法は、モデルをデータに適合させるより前にメンバ間の異質性に関するデータを補正することをさらに含む。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、大きなデータアレイを解析する方法に関する。
【０００２】
【従来の技術】
リファレンス
ここに参照された刊行物の引用のすべては、明細書の末尾、請求項の直前に記載されている。本発明で参照された各引用例の開示は、参照によりその全体がここに取り込まれる。
【０００３】
マイクロアレイ技術の進歩（フォードール他、１９９１年、シェーナ他、１９９５年、シェーナ他、１９９６年、デライジ他、１９９７年、ランダー、１９９９年）は、研究者がゲノムワイドのスケールでの動態転写動態を調査することを可能にしてきた。マイクロアレイの発達はまた、プロテオミック検出を可能にしてきた。現在の課題は、これら大きなデータセットから有益かつ信頼できる情報を抽出することにある。マイクロアレイデータは、多くの固有の制限がある。これらのチップにおける発現レベルの評価は、チップ表面の差異、プローブ調製が不均一であること、信号強度の相隣効果など、多くの技術的困難により影響を受けるおそれがある。チップにおけるクロスハイブリダイゼーションもまた、誤相関をもたらすおそれがある。さらに、各サンプルにおけるｍＲＮＡの量が変化し、サンプル間の異質性をもたらすかもしれない。これらの制限は異なる影響を持つ一方で、これらの制限の存在が定量解析に課題を与えている。
【０００４】
発現データを解析する統計学的方法はほとんど発達してこなかった。現時点での最も生産的な方法はクラスタ解析であり、その価値は長い間認められてきた。アリストテレスもクラスタ解析を用いて５００種類の動物を分類したと伝えられている。そして、この方法は、１７５３年のリンネの時代までに確立された。この方法は、大きなデータセットの複雑さを緩和し、データ内の顕著なパターンを認識するには価値がある。しかしながら、この方法には、１）アルゴリズムに一貫性のある適切な定義が欠けている、２）クラスタ数の決定が裁量的である、３）クラスタの構成が再現できない場合がある、４）確率モデルあるいは、事例と変数を同時にクラスタ化するモデルの明確な選択肢がない、などの制限がある。
【０００５】
クラスタ解析の第１の目的は、類似の変化パターンを持つ遺伝子をクラスタに分類することである。この方法は、大きなデータセットの複雑さを緩和し、データ内の顕著なパターンを認識するには価値がある。しかしながら、雑音の影響を最小にするためには、これらの大きなデータセットから個々の遺伝子に関する情報を抽出する付加的な方法が必要となる。
【０００６】
発現データを解析するために、いくつかのクラスタ化アルゴリズムが提案されてきた。最も広く用いられている主なものの１つは、階層クラスタ化アルゴリズムである。基本的に、このアルゴリズムは遺伝子発現のペアワイズの相関係数を演算することを伴う。そして、この相関係数の大きさに基づいて、このアルゴリズムはすべての遺伝子を単一の階層ツリーに分類する。２つの遺伝子発現パターン間の相関が高いほど、このツリーにおいて遺伝子はより近くに位置する（アイゼン他、１９９８年）。このアルゴリズムは、複数の遺伝子の同時制御について多くの有用な発見をもたらしてきたが（スペルマン他、１９９８年）、すべての遺伝子発現パターンをむりやり単一のツリーに分類することは極端な単純化とされるに違いない。
【０００７】
他のクラスタ化アルゴリズムには、セルフオーガナイジングマップがある（タマヨ他、１９９９年）。この方法は、解析に対する予備的情報として遺伝子のクラスタに偏幾何学的構造を重ね、類似の水平パターンを持つ遺伝子のクラスタを相互に同定する。最近の別の方法は、遺伝子をクラスタ化するためのＫ平均アルゴリズムである（タバゾイエ他、１９９９年）。これはアンスーパーバイズド的で反復的なアルゴリズムであり、クラスタの差異の中で最小化し、クラスタの差異の間で最大化するクラスタを検索する。これらの方法の両方に固有の課題は、任意の中間パラメータによって作成されるクラスタが主観的に選択されるおそれがあるという点である。異なる選択をすれば、異なるクラスタが作成されることになる。
【０００８】
アルゴリズムをクラスタ解析することに関しては一般的にいくつかの付随的な課題もある。まず、クラスタ化の方法は、相関係数あるいは“距離”測定値を用いて、遺伝子の発現パターンの類似性に基づいて遺伝子を分類することを目的としている。確かにこのような類似性は意味があるものとなりうる。しかし、これらは実験上の変化からも生じうるのである。さらに言えば、クラスタ解析方法の一般的な結果である同族の複合ツリー（系統樹）は、互いに比較が難しく、クラスタの統計学的有意性を示さない。この形式はさらに、その根底にある構成を理解するために必要な、異なる変異歴または異なる生理学的状態におけるクラスタのパターンの詳細かつ厳密な比較を妨げてしまう。これらの課題がクラスタ解析を補完するモデリング法の発展を動機づけたのである。
【０００９】
モデリングは、データのより客観的な処理の可能性を提供するために、クラスタ解析を発展させたものである。鍵となるアイデアは遺伝子発現をネットワークとしてモデリングし、モデリングを通じて時の経過によるダイナミックな変化を特徴づけることである。そのようなモデルの１つは、１組の微分方程式からなる。しかしながら、このような動態システムのモデリングは、時間の経過にわたって連続的に集積されたデータを必要とし、これは、現在の技術では容易に利用できない。さらに、このようなダイナミックなシステムから解を得ることは演算上高度で困難である。この演算を簡単化するために、リャング他（１９８６年）は、発現レベルを二分化し、時間スケールを離散化させることを提案し、これらはいわゆるブールネットワークとなった。このような簡単化は、モデルの構築および適合を大変容易にしており、この方法は発現データ解析にも有益に適用されている。細胞生物学に関する基本的な興味は、例えば、３０秒毎に遺伝子調節ネットワークに対する洞察を得ることである。
【００１０】
【発明が解決しようとする課題】
現在の方法は、生物体組織においてより高度の分解能を達成することを妨げる、以下の未解決の課題に直面している：（１）細胞は同調可能だがその同調は完全なものではない；（２）マイクロアレイ技術は高いスループットを持つが、結果データの質は向上しないままである；（３）ｍＲＮＡ抽出およびサンプル調製の現在の方法は、サンプルを得ることができる頻度に実用上の制限がある；（４）実験上の変化は、状態が十分に制御されていたとしても、時間経過にわたって大きなままである。同様の制限は、例えばプロテオミック解析などを含むさまざまな原因のうちの任意の１つから導出される大きなデータアレイの解析においても存する。
【００１１】
本発明は大きなマイクロアレイデータセットのクラスタ解析を補強する相補的な方法を提供する。
【００１２】
【課題を解決するための手段】
本発明は、例えば、ゲノムの発現データおよびプロテオミックデータのような関連シグナルおよび解析データを抽出するための統計ツールを使用した方法を提供する。本発明は、統計学的モデリングを使用して大きなデータアレイにおける刺激応答プロファイルを同定する方法を提供する。
【００１３】
１つの観点では、本発明は、２つ以上のデータアレイからのデータを解析する方法を提供する。各アレイは複数のメンバを含み、各メンバはシグナルを提供し、データは１つ以上のパラメータによってインデックス付けされる。データは、例えば、アレイ中のｘ−ｙ位置によってインデックス付けされてもよく、また、既知の遺伝子との対応によって、あるいは刺激によってインデックス付けされてもよい。データは１つ以上の共変数と関連づけられている。共変数は、いくつかの異なるタイプであってもよい。臨床研究においては、共変数は、患者に対する診断、病歴、投薬歴、病理学的状態、およびバイオマーカー情報を含んでいてもよい。母集団調査のためには、共変数は年齢、性別、体重、身長、民族、生活様式、ダイエット、および質問事項を評価する他の情報を含んでいてもよい。基礎生物研究のためには、共変数は候補遺伝子、時間経過検査における時間、温度、細胞型、細胞のタイミング、用量応答調査における用量、あるいは刺激または薬に応答した細胞株の特性の存在を含んでいてもよい。共変数が薬に応答した細胞株の特性である場合、本発明の１つの実施形態では、薬に対する応答はＥＤ_５０である。本発明の１つの観点では、データアレイのメンバによって提供されるシグナルは薬の投薬量に応答している。別の実施形態では、シグナルは共変数の変化に応答している。さらに別の実施形態では、シグナルは１つより大きい共変数の変化に対応している。
【００１４】
１つの観点では、本発明は、２つ以上のデータアレイからのデータを解析する方法を提供し、各アレイは複数のメンバを含み、各メンバはシグナルを提供し、データは１つ以上の共変数に関連づけられ、この方法は、モデルをデータアレイおよび共変数に適合させることを含む。本発明の１つの実施形態では、モデルをデータアレイに適合させることは、共変数値を推定することを含む。別の実施形態では、モデルをデータアレイに適合させることは、少なくとも線形回帰モデル、指数モデル、パラメトリックモデル、ノンパラメトリックモデル、およびセミパラメトリックモデルのうちの少なくとも１つである既知のモデルを適合させることを含む。本発明の別の実施形態において、モデルをデータアレイに適合させることは、派生モデルを適合させることを含む。１つの実施形態で、派生モデルは単一パルスモデルを含む。本発明の別の実施形態で、モデルは線形モデルである。さらに別の実施形態で、モデルは二次モデルである。
【００１５】
１つの実施形態では、この方法は、モデルをデータアレイおよび共変数に適合させること、適合の統計学的有意性を評価することによって適合度を決定すること、およびシグナルの統計学的有意性を決定することを含む。別の実施形態では、この方法は、モデルにデータを適合させるより前に、メンバ間の異質性についてデータを補正することを含む。１つの実施形態では、メンバ間の異質性についてデータを補正することは、データを正規化することを含む。別の実施形態では、シグナルの統計学的有意性は、シグナルシグナル対雑音比を評価することによって決定される。この方法の１つの実施形態では、共変数値は加重最小２乗法によって推定される。
【００１６】
本発明の１つの実施形態では、データアレイは、同調化実験によって導出されたデータを含む。別の実施形態では、この方法は、可変同調がなされている場合に発現を解析することを含む。さらに別の実施形態では、この方法は、同調が悪化している場合に、発現を解析することを含む。本発明のある観点において、この方法は、細胞周期における単一転写物の発現を解析することを含む。本発明の他の実施形態では、この方法は、細胞周期における複数の転写物の発現を解析することを含む。別の実施形態では、この方法は、複数の細胞型における１つ以上の転写物の発現を解析することを含む。本発明の１つの観点では、データアレイは時の経過にしたがって得られたデータを有する。本発明の１つの観点では、データアレイは正常および異常組織に由来するデータを含む。
【００１７】
さらなる実施形態では、本発明は、２つ以上のデータアレイからデータを獲得することを含むデータの解析方法を提供し、各アレイは複数のメンバを含み、各メンバは被検査変数に応答するシグナルを提供する。この方法は、メンバ間の異質性を推定すること、所定のパターンとは異なるメンバを同定すること、所定のパターンとは異なるメンバについてデータを補正すること、データで推定可能な１つ以上のパラメータによってインデックス付けされているモデルを、データアレイに適用すること、共変数値を推定することによってモデルをデータに適合させることと、シグナルの統計学的有意性を決定することを含む。この方法では、適合度は、適合の統計学的有意性を評価することによって決定される。１つの実施形態では、適合の統計学的有意性の評価は、モデルによって説明される観察される変動の範囲を決定することを含む。別の実施形態では、シグナルの統計学的有意性はシグナルシグナル対雑音比の有意性を決定することを含む。本発明の実施形態では、異質性の推定は、メンバの応答が被検査変数によって変化しないと仮定することを含む。さらに別の実施形態では、メンバ間の異質性の推定は、加算的および／または乗算的異質性因子を推定することを含む。別の実施形態では、異質性因子は、適切な方法の１つの例が加重最小２乗法である統計学的方法によって推定される。この方法の別の実施形態では、異質性因子は、所定のパターンとは異なるメンバについてデータを補正し、補正値を提供するために用いられる。
【００１８】
別の実施形態では、本発明は、２つ以上のデータアレイからデータを獲得することを含むデータの解析方法を提供し、各アレイは複数のメンバを含み、各メンバは、被検査変数に応答するシグナルを提供する。この方法は２つ以上のデータアレイからデータを獲得することを含み、各データアレイはサンプルのアレイから導出され、各サンプルはシグナルを提供し、シグナルは被検査変数に応答する。このデータから、サンプル固有の異質性について補正因子を推定し、アレイ固有の異質性について補正因子を推定し、データで推定可能な１つ以上のパラメータによりインデックス付けされたモデルを適用し、各パラメータは値を有しており、モデルに適合するパラメータ値を決定し、適合の統計学的有意性を評価することによって、モデルに対するパラメータ値の適合度を決定し、シグナルの統計学的有意性を決定する。１つの実施形態では、適合度は、Ｚスコア、ｐ値、およびＲ^２からなるグループから選択された統計基準によって決定される。本発明の１つの実施形態では、補正因子は加算的因子である。
【００１９】
本発明の別の観点では、２つ以上のデータセット間のメンバ固有パラメータ値の変化を解析する方法であって、各データセットはメンバのアレイから導出され、各データセットは１つ以上の変数に関連する。この方法は、データセット全体にわたって、異質性を推定し、データセットに関係するパラメータを含む統計モデルを適用し、モデルに適合するメンバ固有パラメータ値を推定し、適合の統計学的有意性を評価することによってモデルに対するメンバ固有パラメータ値の適合度を決定し、シグナルの統計学的有意性を決定することを含む。本発明の１つの実施形態では、各メンバは、単一遺伝子からの転写物を有し、メンバ固有パラメータ値は、転写物の発現のレベルを有する。本発明の１つの実施形態では、メンバ固有パラメータ値を推定することは、回帰解析を含む。さらに別の実施形態では、異質性を推定し、メンバ固有パラメータを推定することは、残差の２乗の和を最小にすることを含む。別の実施形態では、異質性を推定することは、メンバ固有パラメータ値がデータセット間で変化しないと仮定することを含む。別の実施形態では、この方法は、データセットが安定パターンと異なるときに、データセットのすべてのメンバについてデータを補正することを含む。別の実施形態では、異質性を推定することは、異質性因子を決定することを含む。別の実施形態では、異質性因子は、以下の合計の最小２乗を最小にすることによって推定され、
【数２】

ここで、Ｙ_ｋ＝（Ｙ_１ｋ，Ｙ_２ｋ，．．．，Ｙ_Ｊｋ）はアレイを示し、Ｙ_ｊｋはｋ番目のデータセットのｊ番目のメンバのパラメータ値を示しており（ｊ＝１，２，．．．，Ｊ；ｋ＝１，２，．．．，Ｋ）、（δ_ｋ，λ_ｋ）はサンプル固有の加算的異質性因子および乗算的異質性因子であり、（ａ_ｊ，ｂ_ｊ）は回帰係数であり、加重の範囲は０から１であり、合計は全メンバと全データセットに対するものである。さらに別の実施形態では、異質性因子は加算的因子または乗算的因子である。
【００２０】
本発明の１つの観点は、本発明の方法を実行するためのコンピュータ実行可能命令を有するコンピュータ読み取り可能媒体を提供する。別の実施形態では、本発明は、プロセッサ、メモリ、および動作環境を有するコンピュータシステムを具備する。このコンピュータシステムは、本発明の方法を実行するために動作可能である。
【００２１】
本発明の１つの観点は、統計学的モデリング方法を提供し、大きなデータセットからの刺激に応答する転写物を持つ遺伝子を同定する。このモデルは、システマティックな異質性について補償し、提供された遺伝子固有の情報の統計学的有意性を評価する。
【００２２】
１つの実施形態では、本発明は、マイクロアレイデータにおいて細胞周期で調製された転写物を同定するための単一パルスモデル（ＳＰＭ）を提供する。この実施形態にしたがうと、この方法は、ＳＰＭの変化を用いることによって補正因子を推定し；ＳＰＭの変化を用いることによって補正因子を推定し、ＳＰＭ変動を用いることによって細胞周期間隔を推定し；可変同調に対応する標準偏差を推定し、活性化時間、不活性化時間、基底レベルおよび高められたレベルを、これらの標準誤差、Ｚスコア、および変化の割合とともに含む遺伝子に特異的なパラメータを推定し；ＳＰＭの周期間隔を時間経過の終点に対して設定し、全観察を通じて１つのパルスにデータを適合させることによって、単一非振動ピーク（ＳＮＯＰ）プロファイルを同定し；レイ中の遺伝子に関するＳＰＭにより説明される変化の割合を定量化することによって細胞周期で調製された転写物を同定し；パルス高のしきい値を設定し、ＳＰＭへの適合に対するＳＮＯＰへの適合の比を演算することを含む。
【００２３】
別の観点では、本発明は、刺激に応答した転写の誘導または抑制を受ける遺伝子を同定するための方法を提供する。
【００２４】
１つの実施形態は、疾病に関連した遺伝子を同定し、これらを臨床結果と相関させる方法を提供する。さらなる実施形態では、本発明は、腫瘍の発現プロファイルに基づく腫瘍のサブタイプの分類と、このようなサブタイプと臨床結果との相関に対する方法を提供する。
【００２５】
【発明の実施の形態】
前述の観点および本発明の多くの付随的な利点は、添付の図面とともに以下の詳細な説明を参照することによってより容易に認められるだろう。
【００２６】
本発明は、関連シグナルを抽出し、ゲノムの発現データやプロテオミックデータのようなデータを解析するために統計ツールが用いられる方法を提供する。本発明は、統計学的モデリングを利用して大きなデータアレイのプロファイルを同定する方法を提供する。
【００２７】
１つの実施形態では、本発明は、その転写物プロファイルが刺激に応答する遺伝子を同定する統計学的方法を提供する。一般的な用語では、このアプローチは、１組の判断可能なパラメータを用いて、一般的な応答あるいはシグナルと、例えば、タイミング、細胞型、温度、または投薬量のような特定の実験変数との関係をモデリングすることを含む。他の変数も含まれるが、時間経過調査の時間、病状、温度、細胞型、刺激への暴露、用量応答調査における用量、臨床結果、および細胞周期のタイミング、年齢、性別、体重、身長、人種、民族、ダイエット、および生活様式、患者に対する診断、病歴、投薬歴、病理学上の分類、およびバイオマーカー情報には限定されない。あるいは、変数は薬に対する応答における細胞株の性質であり、例えば、薬に対する応答の適切な性質は、ＥＤ_５０である。
【００２８】
１つの目的は、刺激に対する転写物応答に関連した特定の仮定を検証する目的とともに、個々の転写物について関連するパラメータを推定することである。統計モデルが特定の遺伝子またはタンパク質に関する発現データの適切な表現を提供すれば、対応するモデルパラメータ推定値は、その遺伝子またはタンパク質に対してある応答特性を提供することができる。例えば、モデルパラメータは、その応答の大きさ、期間、またはタイミングを記述することができる。このモデリング戦略は、２つのグループの比較に用いることができ、その目的は、正常組織と異常組織の間で、異なるフェーズもしくは細胞周期で、異なった分化の段階で、または薬剤開発研究において、差次的に発現される遺伝子またはタンパク質を同定することであり、その目的は投薬量の影響を受けた転写物を同定することである。パラメータまたは共変数値は、多くの方法で推定されてもよいが、１つの例は、加重最小２乗法による。
【００２９】
本発明の方法において、アレイのメンバのそれぞれがシグナルを提供する場合、２つ以上のアレイからのデータが調査され、アレイにわたる異質性を推定する。異質性は加算的または乗算的であってもよく、例えば、加重最小２乗法によって演算可能である。これらのデータメンバは、（ＳＰＭのようなモデルによって定量化された）所定のパターンを確認した後、異なるアレイからのこれらのデータメンバを正規化するよう補正され、アレイ間の比較を容易にする。ここでは、所定のパターンとは異なるこれらのデータメンバは正規化によって補正される。このモデルはデータアレイに適用され、モデルは１つ以上の生物学的パラメータによってインデックス付けされる。この生物学的パラメータは利用可能なデータによって推定可能な共変数に関連づけられてもよく、このモデルはパラメータ値を推定することによってデータに適合され、適合度は適合の統計学的有意性を評価することによって決定される。適合度は、例えば、Ｒ^２およびχ^２統計量によって決定することができる。シグナルの統計学的有意性は、例えば、Ｚ統計量やｐ値を用いることで実現できる。このようなＺ統計量は、シグナル対雑音比の有意性を測定する。
【００３０】
典型的な発現データは、高スループットであるが、十分に構造化されており、複数のサンプル（ｋ＝１，２，．．．，Ｋ）による何千もの遺伝子（ｊ＝１，２，．．．，Ｊ）の観察の行列として示される。さらにＹ_ｊｋは、刺激実験におけるｋ番目のサンプルにおけるｊ番目の遺伝子についての発現レベルを示す。研究される遺伝子の数Ｊはしばしば、一般的に何千もの高い次元からなることが多い一方で、サンプル数Ｋは比較的少なくてもよい。標準的な統計的アプローチは、ｋ番目のサンプルについて、ベクトル応答Ｙ_ｋ＝（Ｙ_１ｋ，．．．，Ｙ_Ｊｋ）の平均を、対応するベクトルｘ_ｋ＝（ｘ_１ｋ，．．．，ｘ_ｐｋ）に関連づける。このベクトルは、ｋ番目のサンプルの刺激のカテゴリおよび予想される他の特性を、回帰関数、すなわちΔ（ｘ_ｋ，θ）’＝｛Δ_１ｋ（ｘ_ｋ，θ），．．．，Δ_Ｊｋ（ｘ_ｋ，θ）｝を用いて符号化し、ここでθ’＝（θ_１，．．．，θ_Ｊ）は、遺伝子に特異的なパラメータおよび他のパラメータを含んでいてよく、また、推定されるべきものである。このような回帰モデルに基づいて、差分ベクトルＹ_ｋ−Δ_ｋ（ｘ_ｋ，θ）の成分は平均値０を有するが、例えば、ｍＲＮＡの抽出、増幅、およびサンプル間の評価の変化のために、相関されるよう期待されてもよい。このような変化は、ここで異質性パラメータとして参照されている付加的なパラメータをＹ_ｋの平均についてのモデルに導入することによって確認可能である。実際、サンプルｋについて加算的異質性パラメータδ_ｋおよび乗算的異質性パラメータλ_ｋの両方を導入することができ、Ｙ_ｊｋの期待値に関するモデルδ_ｋ＋λ_ｋΔ_ｊｋ（ｘ_ｋ，θ）を与える。δ_ｋのものとλ_ｋのものの平均は、それぞれ０および１に制限され、当初の対象の回帰パラメータθと関連する、可能性ある同定可能性問題が回避される。Ｙ_ｋの高い次元によって、これらの異質性パラメータが正確に推定できるようになる。これらのパラメータを含めることは、特にインビボ実験に関して所定ｘ_ｋに対するＹ_ｋがほぼ独立しているという仮定をもっともらしいものにすることができる。このような仮定の下で、モデリングおよびθの推定のための数的処理が簡単化される。
【００３１】
以下のリャングおよびゼガー（１９８６年）による、生殖統計学論文（６４）において説明されたアプローチにしたがい、平均パラメータベクトルη’＝｛δ_１，．．．，δ_Ｋ，λ_１，．．．，λ_Ｋ，θ｝の推定は、Ｙ_ｋについて“作用する”共分散行列を特定することにより処理することができる。これは、上述の独立仮定の下で、Ｖ_ｋ＝対角（ν_１ ^２，．．．，ν_Ｊ ^２）として記される対角行列により近似されるので、Ｊ個の遺伝子のそれぞれについての発現レベルが別個の分散を持つことができる。
【００３２】
平均パラメータηのベクトルの推定は、η’＾＝｛δ_１＾，．．．，δ_Ｋ＾，λ_１＾，．．．，λ_Ｋ＾，θ＾｝として推定することができ、
推定式の解は以下の式で求められ、
【数３】

【００３３】
ここで、Ｄ_ｋはパラメータηについてのＹ_ｋの平均値の偏導関数の行列であり、Ｖ_ｋ＾は、各ν_Ｊ ^２が一致推定ν_Ｊ ^２＾で置換されたＶ_ｋを示し、１は、長さＪのものの列ベクトルを示している。上述のモデリングの仮定の下で、η＾は、ＪおよびＫの両方が大きい場合にほぼ共正規分布し、η＾の分散は（ＪおよびＫが大きくなるにつれて）標準”サンドイッチ”公式（６４；８）により一致推定が可能である。
【００３４】
ここで概説された平均パラメータ推定方法は、さまざまなタイプのマイクロアレイデータセットに有効であると予測される。これは、遺伝子に特異的な有意なパラメータを推定して、刺激に応答した発現レベルを特徴づけることを可能にし、この意味において、パターンの特性に重点をおかずに、同様の発現パターンを有する遺伝子を探し出すというクラスタ解析に対して相補的である。例えば、疾病組織と非疾病組織間で発現パターンを比較する場合、非疾病組織サンプルについて値０をとり、疾病組織サンプルについて値１をとるバイナリインジケータｘ_ｋを定義し、回帰関数Δ_ｊｋ（ｘ_ｋ，θ）＝θ_ｊ０＋θ_ｊ１ｘ_ｋを特定することができ、ここで、ｊ番目の遺伝子は、θ_ｊ１≠０のとき、正常組織と異常組織との間で差次的に発現するだろう。回帰変数ｘ_ｋは、回帰関数がｋ番目のサンプル（あるいはｋ番目の研究対象）の他の測定された特性に基づくことが可能であるよう拡張されてもよい。同様に、時間の経過に伴う発現の変化の調査において、ｘ_ｋ＝ｔ_ｋを定義し、ｔ_ｋは収集されるべきｋ番目のサンプルのタイミングであり、線形関数または他の関数形態を選択して、回帰関数Δ_ｊｋ（ｘ_ｋ，θ）をモデリングすることができる。
【００３５】
任意の所定のアプリケーションにおいて、同定されたプロファイルは、使用される特定のモデルに適合するものであるが、構成可能なモデル数は限定されない。当業者にとって明らかなように、モデルの選択は線形または二次であってよく、既知のモデルまたは派生モデルであってよい。この場合、本発明で用いられる既知のモデルは、線形回帰モデル、指数モデル、パラメトリックモデル、ノンパラメトリックモデル、およびセミパラメトリックモデルのうちの少なくとも１つを含むことができるがこれらに限定されない。本発明で有効な派生モデルは、単一パルスモデルを含むがこれに限定されない。適合度は、当業者にとって自明な多くの手段によって決定可能である。適合度を決定する適切な方法の例には、Ｚスコア、ｐ値、およびＲ^２が含まれるがこれらに限定されない。
【００３６】
さらに、この戦略は演算の負担を大幅に減らし、大きなデータセットを調査し、雑音の影響を最小にすることができる。さらに、研究者がこれらを直接検索して、どのような既存の情報をも活用することを可能にする。このように、本発明は２つのグループを比較するために利用できるモデリングアプローチを提供する。例えば、この方法は、正常組織と異常組織との間で差次的に発現する遺伝子あるいはタンパク質を同定するための目的での場合に利用可能である。あるいは、薬物発見調査において、投薬量によって変化する転写物を同定する目的である場合にも利用可能である。後者の場合、特定の用量応答パターンを持つ転写物を捜すことができ、このようなパターンを特徴づけるパラメータは、変化の傾きやピーク応答に必要な投薬量を含むことが可能である。
【００３７】
このアプローチの有効性を示すために、発芽イーストサッカロミセスセレビジアの周期転写遺伝子を同定するモデルが形成された。この場合、刺激は、細胞を固定制止位置から解放することにより細胞周期と同調的に再開される。応答は転写物のパルスであり、鍵となる実験上の変数は細胞周期のタイミングである（２；３；１１）。４つの同調した細胞周期データセットが生成され、一般的な調査のために利用可能となっている（２；１１）。これらの大きなデータセットは、視覚検査（２）、フーリエ変換および階層クラスタ化（１１）、Ｋ平均（１３）およびＱＴクラスタ化（１１３）、セルフオーガナイジングマップ（１２）および特異値分解（１１４；１１５）によって解析されている。３つのデータセットのフーリエ変換解析は、周期性についてのしきい値が既知の周期的な遺伝子の行動に基づいた場合、８００周期転写遺伝子が存するとの報告を導き出した（１１）。次に、Ｋ平均クラスタ化は１つのデータセットに適用され、５２４メンバを有する５つの周期クラスタが同定された（１３）。しかしながら、両方のアプローチによっては３３０遺伝子しか同定されない。比較として、本発明の方法は、統計学的モデリングを用いて、これらの大きなデータセット内の規則的に振動しているプロファイルを捜す。このアプローチはクラスタ化方法を補完する。クラスタ化方法では、同様の発現パターンを持つ遺伝子を１つにグループ分けしようとするよりも、所定の刺激により影響を受けた転写物を直接同定し、個々の応答パターンに関する特定の情報を提供する。以下で詳説されるように、この方法はさらに、サンプル間の応答パターンの異質性が予想された強さであるタイプの実験上の変数に対する応答パラメータの推論を可能にする。
【００３８】
本発明の方法を示すために同調化実験が考えられる。これは、細胞周期毎に１度転写されるｍＲＮＡを同定するものである。ｊ番目のｍＲＮＡが活性化すると、高められたレベル（α_ｊ＋β_ｊ）に達し、不活性となると、基底発現レベル（α_ｊ）に落ちる（図１）。その後、β_ｊは、平均化されたピークと谷の発現レベル間の差分として解釈される。不完全な同調で、複数細胞の中で連続回数転写され消失したｊ番目のｍＲＮＡの複数のコピーについて検討すると、時間ｔ_ｋにおけるこのｊ番目の転写物の平均発現レベルは、以下ようにモデリングすることができる：
【数４】

ここで、ｊ＝１，２，．．．，Ｊおよびｋ＝１，２，．．．，Ｋ、全Ｋ回の時間点における全Ｊ個の転写物であり、（ζ_ｊ、ξ_ｊ）は、ｊ番目の遺伝子についての活性化および不活性化時間をそれぞれ示し、ｔ_ｋ＊＝ｔ_ｋ＋τにおいて、τは、実際の細胞周期のタイミングと観測されたタイミングとの差分を示し、これは一般的にはフェーズとして知られている。Θは細胞周期間隔であり、総和は複数の細胞周期ｃ＝０，１，２．．．の全体に対するものである。標準偏差σ_ｋは、ｔ_ｋ周辺の“真の”細胞固有タイミングの変化を示す。この変動は平均ｔ_ｋを有する正規分布にしたがい、平均モデルでは累積正規分布関数φ（・）となると仮定している。また、（δ_ｋ，λ_ｋ）は、上述したように、ｋ番目のサンプルに対する加算的および乗算的異質性パラメータであり、ここでｘ_ｋ＝ｔ_ｋである。上記単一パルスモデル（ＳＰＭ）は、細胞周期が進むにつれて、各遺伝子の平均発現に関するモデルを特定する。遺伝子固有の活性化および不活性化時間は、背景および高められた発現レベルと同様に、遺伝子ごとに推定される。ＳＰＭは、サンプル間の変動、同調が完全でない事実、および以下で説明するように、時を経て悪化する同調も許容する。ＳＰＭの開発のさらなる詳細は例１で示されている。結果として示された平均発現モデルが視覚的に示されており、従来的な方法で測定された周期的な転写物について観察されたプロファイルを再現している。
【００３９】
上述のＳＰＭは、すでに概略が示された平均モデル推定方法を用いて適用することができる。数字的側面を簡単化するために、マルチステージ方法が用いられた：１）異質性パラメータ（δ_ｋ，λ_ｋ）、ｋ＝１，２，．．．，Ｋは、パルス高が０に設定されている場合、すべての遺伝子を用いて推定される。２）細胞周期間隔Θは、パルスモデル下での既知の細胞周期遺伝子のグループを用いて推定される。３）同調変動量、σ_ｋ、ｋ＝１，２，．．．，Ｋ、は、既知の遺伝子の同一のグループを用いて推定される。４）遺伝子に特異的なパラメータ（α_ｊ，β_ｊ，ζ_ｊ，ξ_ｊ）、ｊ＝１，．．．，Ｊが推定される一方で、他の推定パラメータはそれの推定値で固定していると扱われる。上記の推定式［１］を用いた同時推定アプローチが好ましいが、それらの分散推定値の遺伝子に特異的なパラメータの推定における影響は、遺伝子に特異的なパラメータが他のパラメータと弱く相関することから最小となりやすい。細胞周期間隔およびサンプル固有パラメータを固定することにより、Ｊ遺伝子のそれぞれについて、遺伝子に特異的なパラメータの推定値、およびそれらの分散推定値の別々の単純演算が可能となる。これらの演算のさらなる詳細は例１で示される。
【００４０】
ＳＰＭの適合をテストするために平均モデルの時間の付加的な多項式関数が導入され、多項係数が同様に０であるという仮説がテストされた。具体的には、ＳＰＭが強化され、以下の式で書かれており、
【数５】

ＳＰＭからのずれが許容される。（γ_ｊ１，γ_ｊ２，γ_ｊ３）＝（０，０，０）についてのスコアタイプのテスト統計が、上述の漸近正規理論を用いて構築された。このスコア統計量χ_ｊ ^２は、十分大きなＪおよびＫについて、ＳＰＭモデルの下で３つの自由度を持つ近似χ^２分布を有する。ＳＰＭから大きくずれた、１１．３、パターンを持つ遺伝子を同定するために、このχ^２分布の上位１％が使用された。ｃｄｃ２８データセットに関して、例えば、２６２個の遺伝子しか、臨界値を超えるテスト統計量を与えない。当業者にとって明らかなように、これらの多項式の項以外の他の偏差も特定可能である。
【００４１】
発現パターンがＳＰＭから大きくずれていない遺伝子について、活性化時間（ζ_ｊ）、不活性化時間（ξ_ｊ）、基底発現レベル（α_ｊ）および間隔中の発現レベルの高まり（β_ｊ）が、それらの推定標準偏差とともに推定される。ＳＰＭの下で、β_ｊ≠０の場合のみ、発現レベルは細胞周期で調製される。各Ｚ_ｊの絶対値について臨界値５が選択され、ヌル仮定を排除する。このＺ_ｊは、推定標準偏差に対する推定値β_ｊの比である。この値は、正規分布の末端ではなれており、検査される６０００個程度の遺伝子の場合でさえ、０．３％（両側）のゲノムワイドの有意レベルを保つよう予測される。ＳＰＭからのずれの証拠を示したいくつかの遺伝子は、細胞周期とともに変化する発現パターンも持ちうる。上述の強化された平均モデルμ_ｊ〜（ｔ_ｋ）の場合にこれらの遺伝子についてもβ_ｊ＝０をテストすることができるが、そのようなテストの解釈は強化モデルの妥当性次第である。
【００４２】
３つのデータセットがこの解析で利用された。ｃｄｃ２８データセットはチョウ他（１９９８年）によって生成され（２）、温度感知可能なｃｄｃ２８の突然変異を利用して同調が確立され、Ｇ１で細胞を可逆的に停止させる。簡単に言えば、オリゴヌクレオチドアレイは、各サンプルで作られた蛍光ラベル付けされたｃＤＮＡにハイブリダイゼーションされ、絶対蛍光強度値は、各ターゲットサンプルの各転写物の量に比例すると仮定される（３）。これらのアレイからのデータはｈｔｔｐ：／／ｇｅｎｏｍｉｃｓ．ｓｔａｎｆｏｒｄ．ｅｄｕ．からダウンロードされた。データの他の２つのセット（アルファ因子およびｃｄｃ１５）は、アルファ因子媒介されたＧ１の停止および、温度感知可能なｃｄｃ１５の突然変異を利用して、スペルマン他（１９９８年）によって生成され（１１）、それぞれ可逆Ｍフェーズの停止を誘導した。簡単に言えば、蛍光ラベル付けされたｃＤＮＡは、各時間点からのＲＮＡで作られ、第２の蛍光染料は、非同調制御培養で作られたｃＤＮＡをラベル付けするために用いられた。制御およびテストｃＤＮＡは混合され、ＰＲＣ増幅されたイーストのオープンリーディングフレーム（ＯＲＦ）のアレイにハイブリダイゼーションされた。両染料の蛍光強度値が測定され、テスト対制御値の対数比が生成された。得られる比率は、テスト対制御ｍＲＮＡレベルの対応する真の比率を近似すると仮定された（１１）。これらのデータおよびｃｄｃ２８データは、比率データを模倣するよう再スケールされており、パブリックドメインサイト（ｈｔｔｐ：／／ｃｅｌｌｃｙｃｌｅ−ｗｗｗ．ｓｔａｎｆｏｒｄ．ｅｄｕ）からアクセスされた。その結果はこれらのデータセットの解析に基づき、これら配列されたサンプルの調製および処理に伴う変化のすべての原因の影響を受けた。
【００４３】
ＳＰＭの主な仮定は、で調製された転写物が周期毎に１度だけピークをとり、これらのパルスは、連続周期において一定回数生じるというものである。ＳＰＭには、サンプルにわたる加算的および乗算的異質性を調製できる項が含まれる。図２は、各データセットについて演算されたこれらの値を示している。加算的異質性は対数比が用いられるとき最小である。ｃｄｃ２８データセットについて絶対強度が検討されるとき、加算的異質性は、９０分の時間点で最も明らかとなる。これは、この特定の時間点にわたる懸念を確認し（２）、その異質性について補正する手段を提供する。
【００４４】
１０４個の既知の細胞周期で調製された遺伝子のセットと、可能性ある細胞周期間隔の範囲に対するプロファイリングとを用いて、各データセットについて細胞周期間隔が推定された（例１を参照）。予測されるように、細胞周期間隔は各同調方法により異なる。アルファ因子およびｃｄｃ１５データセットに関する細胞周期間隔は、二モード分布を示す（図２）。これらは、第１の周期に差次的に影響を与え、転写物のサブセットのタイミングを変更させるリカバリーアーティファクトによるものかもしれない。ある２乗の加重和を最小にする推定細胞周期間隔が用いられ、アルファ因子の同調について５８分の値を与え、ｃｄｃ１５の細胞については１１５分、ｃｄｃ２８の培養については８５分の値を与えている。図２はさらに、時の経過による同調の損失に関連する推定標準偏差も示している。いったんこれらの値が得られると、ｊ＝１，．．．，Ｊのｊ番目の遺伝子についてχ_ｊ ^２値が演算され、遺伝子に特異的なパラメータが、ＳＰＭと一致する転写物パターンを持つすべての遺伝子について推定される（すなわち、χ_ｊ ^２が１１．３より少ない値をとる）。遺伝子に特異的なパラメータは、平均活性化および不活性化時間、ならびに基底および高められたレベルを含む。
【００４５】
図３は、５つの周期的遺伝子についてのマイクロアレイデータ（実線）およびこれらのプロファイルに対する適合ＳＰＭ（点線）を示している。明らかなことは、モデルが、データのプロファイルに非常に近似し、観察されたパターンと一致する平均活性化および不活性化時間（かっこ書き）を提供している。これらの振動に対するＺ値は、ｃｄｃ１５データセットにおけるＲＦＡ１に対する約１８から、アルファ因子データセットにおけるＭＣＭ３に対する約３．５まで変化する。ＭＣＭ３の周期的な行動がなお明らかなままであるという事実は、かなり控えめなしきい値が各Ｚｊに対して設定されたという確信を与えている。上位３つの転写物はＧ１固有のＭＣＢ調製された遺伝子として分類されている（１１）。しかしながら、ＰＤＳ１パルスは他の２つと比べて遅延している。ＲＦＡ１およびＣＬＢ６は、ほぼ同時に活性化しているが、ＣＬＢ６ｍＲＮＡのパルスは短命である。これらの差はＳＰＭによって各遺伝子について演算された活性化および不活性化時間に影響しており、相互調製された転写物を同定するのに用いることができる。
【００４６】
合計６０７個の遺伝子は、ｃｄｃ２８データから直接の絶対蛍光強度測定値を用いて、周期性についてのＳＰＭしきい値を満たした（すなわち、Ｚ_ｊの絶対値が５以上）（２）。ほぼ同数の遺伝子が、この強度の対数あるいはスペルマン他によって生成された強度の対数比（９；１０；１１）のいずれかを用いることによって得られた。しかしながら、約５００個の遺伝子しか３つの解析のすべてで同定されなかった。したがって、任意の単一データ変換は約２０％の潜在的な陽性を見逃すおそれがある。それは、Ｚ値がわれわれのしきい値に近いためである。すべてのその後の解析において、アルファ因子およびｃｄｃ１５データと調和させるために、ｃｄｃ２８データの対数比が用いられた。
【００４７】
ｃｄｃ２８データセットにおける細胞周期で調製された遺伝子のリストが視覚調査（２）およびＫ平均クラスタ化（１３）によって編集されている。ＳＰＭ解析は、これらの割当ての大部分を確認し、より多くの候補振動転写物を同定する。タバゾイエ他（１９９９年）によって提出されたＫ平均アプローチについての応用（１３）は、３０００個のイースト遺伝子を選択するために初期のフィルタリング方法を採用しており、この方法は、時間経過による変化の最も高い係数を示している。その後、反復型Ｋ平均方法が、すべての３０００個のプロファイルを３０のクラスタに区分するために用いられた。すべての３０００個のプロファイルを３０のクラスタのうちの１つに適合させるという要求は、緩やかに相関された発現のパターンと大きなクラスタとのアセンブリを必要とした。これらのクラスタのうちの５つは、平均テンポラルプロファイルを有し、これは２つの細胞周期にわたってあきらかに周期的であった。しかしながら、５２４クラスタメンバのプロファイルの約半数だけしか、ＳＰＭにおける周期性についてのしきい値を超えなかった。
【００４８】
ＳＰＭが周期遺伝子の緊密なクラスタを同定できるか否かを判断するために、ＱＴクラストアルゴリズムを用いて３つの異なるしきい値でアセンブルされたＧ１固有転写物のクラスタについてχ^２およびＺ値が演算された。この場合、最も緊密なクラスタメンバのすべては、ＳＰＭにおいて設定された周期性についてのしきい値を超えたか、非常に近接しているかのいずれかである（図４上段）。制限事例の調査によって、これらは周期的である可能性が高く、これにより我々のＺ値のしきい値は控えめであることが示された。クラスタのしきい値がより低く設定されている場合、ナンバーシップは２倍になり、ほとんどすべてのプロファイルは再びＳＰＭのしきい値にあるか、あるいはそれよりも十分高くなる（図４中段）。しかしながら、参照文献（１１３）の著者によって記されているように、２７２のプロファイルを含むためにクラスタのしきい値をさらに緩和することによって、多くの一致が乏しいパターンを含むことが導かれ、これは、ＳＰＭによる低いＺ値も有する（図４下段）。このことは、最も周期的な転写物を同定するのにどちらのアプローチも効果的であることを示している。さらに、意味のあるしきい値を確立し、より低いロバスト応答パターンを特徴づけるために、全く異なる２つのデータ解析方法を有することの意義を示している。
【００４９】
ＳＰＭのもう一つの特徴は、遺伝子に特異的なパラメータの推定にある。図４は、クラスタメンバーシップが増加するにつれ、どのように活性化および不活性化時間の分布が広がるかも示している。これは、非周期的プロファイルを含むことに加えて、このグループが、発現の異なる反応速度を持つ遺伝子を含むことを示す。したがって、ＳＰＭは、同様の発現パターンのこれらのクラスタが、対象とする質問にしたがってさらに細分できるようにする。
【００５０】
これらの細胞周期データセットの１つの制限は、少ない数のサンプルと、任意の時間点での複数の測定の欠如にある。このことは、間違った陽性および間違った陰性の同定を問題のあるものにする。この問題を軽減するために、ＳＰＭを用いてｃｄｃ２８、ｃｄｃ１５およびアルファ因子のデータセットから周期的な転写物を別々に同定して、その結果を比較した。ＳＰＭは、他の２つの同時性のもののいずれかと比べて約２倍程度のｃｄｃ２８データセットの周期遺伝子を同定し（図５）、少なくとも１つのデータセットにおいて有意な振動を示す遺伝子が全部で１０８８個存する。ＳＰＭによって同定されたこれら１０８８個の候補周期遺伝子の中には、１０４個の既知の周期遺伝子の８１％が含まれる。２５４個の遺伝子は、少なくとも２つのデータベースで大きく振動する。これは、すべての遺伝子のうちの４％を示すが、既知の周期遺伝子のうちの４６％を含んでいる。したがって、ＳＰＭは、偶然により予想されるレベルよりも十分高い既知の周期的な転写物を同定する。３つのデータセットのすべてにおいて周期的として得点づけられた７１個の遺伝子には、既知の周期遺伝子の４分の１だけしかない。８３４個の遺伝子は１つのデータセットにおいてのみ周期的であると考えられ、よって遺伝子のこの大きなグループが不明確でなく分類できるためにはさらなるデータ収集が必要である。
【００５１】
スペルマン他（１９９８年）（１１）は、同一の３つのデータセットからの結合されたデータのフーリエ解析を用いて、周期的な転写物を同定した。既知の周期遺伝子をこれらのしきい値を設定するためのガイドとして用いることにより、彼らは、７９９個の遺伝子が周期的であると推定した。これらの遺伝子のうちの６５％だけが、少なくとも１つのデータセットにおいて周期的であるとしてＳＰＭによってピックアップされている。この差は、Ｚについての控えめなしきい値によってある程度説明することができる。なぜなら、Ｚについてのしきい値の値を４．０に減らすことによって、これらの遺伝子の７９％が少なくとも１つのデータセットにおいて周期的であると分類されるからである。
【００５２】
少なくとも２つのデータセットにおいて、ＳＰＭによって、周期性についてのしきい値を超える遺伝子のほぼすべても、スペルマン他（１９９８年）の方法により確認されている（１１）。ここで再び、クラスタ化によって、最もロバストな周期パターンが両方の方法によって同定されている。しかしながら、少なくとも１つのデータセットにおいてＳＰＭ基準によって周期的であると考えられたが、スペルマン他（１９９８年）（１１）によってそのようには分類されていない５７１個の遺伝子がある。上述のように、これらはさらなる裏付けデータなしでは、不明確とならないようにして周期的であると分類することはできない。それらは、２つのデータセットにおける間違った陰性か、１つのデータセットにおける間違った陽性のいずれかである。実験上の変動は、スムーズに振動するプロファイルを生成するよりも、非同調的パターンをもたらす可能性が非常に高い。ＳＰＭでは、ピークも、連続した細胞周期において同時に生じなければならず、ピークと谷は、プロファイルにおいて、単一のポイントで表される場合には認識されない（例１を参照）。これらの制限は、雑音の影響を低減させ、間違った陽性のより低い誤差比率をもたらすに違いない。しかしながら、データ中の雑音の影響を除去することはできず、これらの割り当てに基礎をおくこのように少ないデータポイントでは、多くが曖昧なままとなっている。２つのデータセットで周期的であると得点がつけられた２５４個の遺伝子は、合理的に高い確信をもって周期的であると考え得るが、これらは既知の遺伝子の約半分しか含んでおらず、明らかにその数を過小評価している。より多くのデータが生成されないかぎり、他の転写物の分類はあいまいなままであろう。言い換えれば、ほぼ５０万のデータポイントを累算しているのに、発芽イーストの周期転写物の約半分しか高い確信をもって同定できない。統計的方法は多数の独立サンプルが存在するときに最も信頼性を有するという事実と相まって、これらのあいまいさは、この重要なモデル生物体の周期的な転写物をより完全に同定し、順序づけるために、２つの細胞周期全体にわたり、そしてより近い時間点を有する別のデータセットが要求されると示唆している。
【００５３】
これら１０８８個の遺伝子の半分が実際に周期的である場合（図５の脚注を参照）、これらはすべての発芽イースト遺伝子の約１０％を含むであろう。特に、この調製がなされる多くの異なる方法がある場合には、細胞に対する膨大な調製の負担と見られるかもしれない。一方、この調製を行う２０の異なるサーキットしかなく、遺伝子生成物が、これらに対する細胞の要求に基づいてこれら制限された発現パターンに放出されたのであれば、細胞への生合成負荷を制限する、非常に限られた方法としてとらえることができよう。
【００５４】
このように、本発明の１つの実施形態は、統計モデル（ＳＰＭ）を採用し、連続した細胞周期において一定回数生じる転写物の単一パルスを同定し、特徴づけている。ＳＰＭは統計学的モデリングの特定アプリケーションであるが、基本的な方法を、任意の大きなデータセットに適用して、刺激に対する転写物応答を受ける遺伝子を同定することができる。統計学的モデリングは比較的簡単なので、付加的なフィルタを採用することなく、大きなデータセットを調査して、解析されるべき遺伝子数を減らすために利用することができる。統計学的モデリングは、データセットの雑音の影響を低減する傾向のある異質性パラメータをさらに含む。ＳＰＭは、多量の転写物あるいはピークの高さまたはタイミングと関係なく、規則的に振動する転写物を同定し、活性化および不活性化の平均時間の推定値を提供する。これらの値は推定値にすぎないが、仮定ＳＰＭのもとでバイアスされておらず、個々の遺伝子の特性を規定していると考えられる。最適なグループ分けがなされ、さらなる解析の対象となるよう、ＳＰＭはパラメータ推定値の質に対する統計測定値も提供する。統計学的モデリングのこれらの特徴は、マイクロアレイデータを解析するために用いられる他の方法を補完し、強化する。
【００５５】
本発明の方法で測定されている細胞の構成要素は、細胞の生物学的な状態の任意の側面からのものであってよい。それらは、ＲＮＡ存在度が測定される転写状態、タンパク質存在度が測定される変換状態、タンパク質の活動が測定される活動状態からのものであってもよい。細胞の特性もまた混合された側面からのものでよく、例えば、１つ以上のタンパク質の活動が、他の細胞の構成要素のＲＮＡの存在度（遺伝子発現）とともに測定される。
【００５６】
本発明の方法は２つ以上のデータアレイからのデータを解析する。用語“データアレイ”は複数のメンバに関連するデータの行列に関係しており、各メンバはシグナルを提供しており、データは１つ以上の共変数に関連づけられている。各データアレイは一般的に、例えば、５００個以上の多数の観察を含む。データアレイは天然におけるゲノムの（核酸アレイ）、あるいはプロテオミックの（タンパク質またはペプチドアレイ）ものであってもよい。
【００５７】
マイクロアレイは一般的に表面からなり、その表面には、遺伝子生成物（例えば、ｃＤＮＡ、ｍＲＮＡ、ｃＲＮＡ、ポリペプチド、およびこれらのフラグメント）と順次対応しているプローブが、既知の位置で特にハイブリダイゼーションされ、あるいは結合可能である。１つの実施形態では、マイクロアレイはアレイ（すなわち、行列）であり、アレイでは各位置が、遺伝子（例えば、タンパク質またはＲＮＡ）によって符号化された生成物に対する別個の結合部位を示し、結合部位が、生物体のゲノムにおける大部分またはほとんど全ての遺伝子の生成物に対して存在している。
【００５８】
１つの実施形態では、本発明は“転写物アレイ”（ここで“マイクロアレイ”とも呼ばれている）を利用している。転写物アレイは、細胞内の転写状態を解析するために採用され、特に、グレード付けされたレベルの対象とする薬に、あるいは生物体モデルに投入された細胞の構成要素へのグレード付けされた一時的変異／外乱に暴露された細胞の転写状態を測定するために採用されてもよい。
【００５９】
別の実施形態では、本発明は、タンパク質チップアレイまたはプロテオミックアレイを活用している。例えば、データアレイは質量分析法または等価計測によって得られる飛行時間にわたる強度値のベクトルであってもよい。このように、本発明の方法は質量分析データアレイを解析するために利用することができる。質量分析アレイは、さまざまなソースから得ることができる。このソースには、例えば、タンパク質およびペプチドアレイが含まれる。適切なタンパク質およびペプチドアレイは、例えば、サイファーゲンから入手可能なタンパク質チップを含む。
【００６０】
１つの実施形態では、転写物アレイは細胞中に存するｍＲＮＡの転写物（例えば、所定から合成された、蛍光ラベル付けされたｃＤＮＡ）を表し、検出可能なようラベル付けされた、ポリヌクレオチドをマイクロアレイに対してハイブリダイゼーションすることによって生成される。マイクロアレイは、細胞または生物体のゲノム中の多くの遺伝子、好ましくはほとんどまたはほぼすべての遺伝子の生成物に対する結合（例えば、ハイブリダイゼーション）部位の順序づけされたアレイを持つ表面である。マイクロアレイは多くの方法で作ることができ、そのうちのいくつかが以下で説明される。生成されるとはいえ、マイクロアレイはある特性を共有している。それは、アレイが複製可能であり、所定のアレイの複数のコピーを作成し、容易に互いを比較可能である。マイクロアレイは小さいのが好ましく、通常は５ｃｍ^２よりも小さく、結合（例えば、核酸のハイブリダイゼーション）状態で安定な物質から作成されることが好ましい。マイクロアレイにおける所定の結合部位または結合部位の固有のセットが、細胞内の単一遺伝子の生成物と特に結合される。特定のｍＲＮＡ毎に１つより多い物理的な結合部位（以下、“部位”と呼ぶ）があってもよいが、以下の議論を明確にするために、単一の部位のみが存すると仮定する。具体的な実施形態では、各位置で既知の配列の固定された核酸を含む、位置付け可能なアレイが用いられる。
【００６１】
細胞のＲＮＡに対して相補的なｃＤＮＡが作られ、適切なハイブリダイゼーション状態の下でマイクロアレイにハイブリダイゼーションされるとき、任意の特定の遺伝子に対応するアレイにおける部位へのハイブリダイゼーションのレベルは、その遺伝子から転写したｍＲＮＡの、細胞における優勢さに影響を与える。例えば、検出可能なようラベル付け（例えば、蛍光体で）された、全細胞ｍＲＮＡに対して相補的なｃＤＮＡが、マイクロアレイにハイブリダイゼーションされるとき、細胞内で転写されない遺伝子に対応する（すなわち、特に遺伝子の生成物を結合可能である）アレイ上の部位は、シグナル（例えば、蛍光シグナル）をわずかしか持たないか、あるいは全く持たず、符号化されたｍＲＮＡが優勢な遺伝子は比較的強いシグナルを持つ。
【００６２】
ある実施形態では、２つの異なる細胞からのｃＤＮＡがマイクロアレイの結合部位に対してハイブリダイゼーションされる。薬に対する応答の場合は、ある細胞は薬に対して暴露され、同一タイプの別の細胞は薬に対して暴露されていない。細胞の構成要素への一時的変異／外乱に対する応答の場合は、ある細胞はそのような一時的変異／外乱に対して暴露され、同一タイプの別の細胞は経路外乱に対して暴露されていない。
【００６３】
遺伝子発現データは反復実験により組み合わされ、ランダムに生じる実験上の誤差を低減させ、特徴づけることができる。
【００６４】
１つの実施形態で、マイクロアレイは、ターゲット生物体のゲノムにおけるすべてまたはほぼすべての遺伝子の生成物に対する結合部位を含むが、かかる範囲の広さは必ずしも要求されていない。ふつう、マイクロアレイは、ゲノム中の遺伝子の少なくとも約５０％に対応する結合部位を有し、しばしば少なくとも約７５％、たいていの場合少なくとも約８５％、さらに多くの場合少なくとも約９０％、最も多くの場合少なくとも約９９％の遺伝子に対応する結合部位を持つ。マイクロアレイは検査と関連した遺伝子に対する結合部位を持つこともできる。“遺伝子”は、好ましくは少なくとも５０，７５，または９９個のアミノ酸のオープンリーディングフレーム（ＯＲＦ）として同定される。生物体（例えば、単一の細胞の場合）あるいは多細胞の生物体におけるいくつかの細胞中に、このアミノ酸からメッセンジャーＲＮＡが転写される。ゲノム中の遺伝子の数は、生物体により、あるいはゲノムのはっきり特徴づけられた部分からの推定により表されたｍＲＮＡの数から推定可能である。対象となる生物体のゲノムが順番に配列されているとき、ＯＲＦの数を決定し、ｍＲＮＡの符号化領域をＤＮＡ配列の解析によって同定することが可能である。しばしば、設計チップが特定のセットの遺伝子だけでつくられる。このような技術は、現在アクセス可能であり、例えば、臨床業務のような定常業務について経済的である。
【００６５】
上述のように、核酸の場合、特定の同種のｃＤＮＡが特にハイブリダイゼーションしている“結合部位”は、通常、この結合部位に結びつけられた核酸あるいは核酸相似物である。１つの実施形態では、マイクロアレイの結合部位は、生物体のゲノム中の各遺伝子の少なくとも一部分に対応するＤＮＡポリヌクレオチドである。これらのＤＮＡは、例えば、ゲノムのＤＮＡ、ｃＤＮＡ（例えば、ＲＴ−ＰＣＲによる）、またはクローン配列からの遺伝子セグメントのポリメラーゼ連鎖反応法（ＰＣＲ）増幅などにより得られる。遺伝子またはｃＤＮＡの既知の配列に基づいてＰＣＲが選ばれ、固有のフラグメント（すなわち、マイクロアレイ上の他の任意のフラグメントと、隣接した同一の配列の１０より多いベースを共有しないフラグメント）の増幅をもたらす。
【００６６】
マイクロアレイに対して核酸を生成する代替手段は、例えば、Ｎ−ホスホネートまたはホスホラミディート化学を用いた、合成ポリヌクレオチドまたはオリゴヌクレオチドの合成による（フレーラー他、１９８６年、核酸リサーチ１４：５３９９−５４０７；マックブライド他、１９８３年、四面体報２４：２４５−２４８）。
【００６７】
核酸またはその相似物は固体の支持体に結びつけられており、この支持体は、ガラス、プラスティック（例えば、ポリプロピレン、ナイロン）、ポリアクリルアミド、ニトロセルロース、または他の物質から作られてもよい。核酸を表面に結びつける１つの方法はガラス板上にプリンティングすることによるものであり、一般的には、シェーナ他、１９９５年、サイエンス、２７０：４６７−４７０で説明されている。この方法はｃＤＮＡのマイクロアレイを調製するのに特に有用である。デライジ他１９９６年、ネイチャーゲネティックス１４：４５７−４６０；シャロン他１９９６年、ゲノムリサーチ６：６３９−６４５；およびシェーナ他１９９５年、ナショナル科学アカデミー報ＵＳＡ９３：１０５３９−１１２８６も参照。
【００６８】
別のマイクロアレイ作成方法は、高密度のオリゴヌクレオチドアレイを作成することによる。技術的には、生体内原位置における合成のためのフォトリソグラフィック技術を用いて、表面上の定められた位置において、定められた配列に相補的な何千ものオリゴヌクレオチドを含むアレイを生産する技術（フォードール他、１９９１年、サイエンス２５１：７６７−７７３；ピーズ他、１９９４年、ナショナル科学アカデミー報ＵＳＡ９１：５０２２−５０２６；ロックハート他、１９９６年、ネイチャーバイオテック１４：１６７５；米国特許第５，５７８，８３２号；第５，５５６，７５２号；および第５，５１０，２７０号を参照）、あるいは、定められたオリゴヌクレオチドの急速な合成およびディポジションを行う他の方法（ブランチャード他、１９９６年、バイオセンサアンドバイオエレクトロニクス１１：６８７−９０を参照）が知られている。これらの方法が用いられる場合、既知の配列のオリゴヌクレオチド（例えば、２０ｍｅｒｓ）は変性スライドガラスのような表面上に直接合成される。通常、生成されたアレイは冗長であり、ＲＮＡ毎にいくつかのオリゴヌクレオチド分子を有している。オリゴヌクレオチドプローブを選択して、交互に接合されたｍＲＮＡを検出することができる。
【００６９】
例えば、マスキング（マスコスとサザン、１９９２年、核酸リサーチ２０：１６７９−１６８４を参照）によりマイクロアレイを作成する他の方法もまた用いられてもよい。基本的には、例えばナイロンハイブリタイゼーション膜上のドットブロット（サムブローク他、分子クローニング−ラボラトリマニュアル（第２版）Ｖｏｌ．１−３、コールドスプリングハーバーラボラトリ、コールドスプリング、ニューヨーク、１９８９年を参照）のような、任意のタイプのアレイを用いることができる。いくつかの実施形態では、非常に小さなアレイが好まれる。というのも、ハイブリタイゼーション量がより少なくて済むからである。
【００７０】
全部およびポリ（Ａ）＋ＲＮＡの調製方法はよく知られており、一般的にサムブローク他（前掲）で説明されている。１つの実施形態では、グアニジウムチオシアン酸塩溶解を用いて、本発明で対象としているさまざまなタイプの細胞からＲＮＡが抽出され（チャーグウィン他、１９７９年、バイオケミストリ１８：５２９４−５２９９を参照）、その後ＣｓＣｌ遠心分離が続いてなされる。
【００７１】
蛍光ラベル付けされたプローブが用いられる場合、多くの適したフルオロフォアが知られている。これらの蛍光体には、フルオレセイン、リサーマイン、フィコエリトリン、ローダミン（パーキンエルマーセタス）、Ｃｙ２，Ｃｙ３，Ｃｙ３．５，Ｃｙ５，Ｃｙ５．５，Ｃｙ７、フルオロＸ（アメルシャム）およびその他のものが含まれる（例として、クリッカ、１９９２年、非同位体ＤＮＡプローブ技術、アカデミックプレス、サンディエゴ、カリフォルニアを参照）。容易に区別されるように、別個の発光スペクトルを持つ１対の蛍光体が選択されることが認められるだろう。
【００７２】
別の実施形態では蛍光ラベル以外のラベルが用いられる。例えば、放射性ラベルあるいは別個の発光スペクトルを持つ一対の放射性ラベルが用いられてもよい（チャオ他、１９９５年、遺伝子１５６：２０７；ピエトゥー他、１９９６年、ゲノムリサーチ６：４９２を参照）。しかしながら、放射性粒子を散乱することや広くスペースを空けた結合部位をその結果必要とするせいで、放射性同位体を利用した実施形態はあまり好まれない。
【００７３】
特定のアレイ部位に対して、プローブが“特に結合し”、あるいは“特にハイブリダイゼーション”するよう核酸のハイブリダイゼーションおよび洗浄条件が選択される。すなわち、プローブは相補核酸配列を持つ配列アレイ部位にハイブリダイゼーションし、デュプレクスし、あるいは結合するが、非相補核酸配列を持つ部位にはハイブリダイゼーションしない。最適なハイブリダイゼーション状態は、長さ（例えば、２００ベースよりも大きいポリヌクレオチド対オリゴメル）、およびラベル付けされたプローブおよび固定化ポリヌクレオチドまたはオリゴヌクレオチドのタイプ（例えば、ＲＮＡ、ＤＮＡ、ＰＮＡ）に基づく。核酸に対する特定の（すなわち、厳密な）ハイブリダイゼーション状態についての一般的なパラメータは、サムブローク他（前掲）、およびアウスベル他、１９８７年、分子生物学におけるカレントプロトコル、グリーン出版アンドワイリーインターサイエンス、ニューヨーク、で説明されている。シェーナ他のｃＤＮＡマイクロアレイが用いられる場合、一般的なハイブリダイゼーション状態は、６５℃で４時間、５ＸＳＳＣプラス０．２％ＳＤＳにおけるハイブリダイゼーションであり、その後、低い厳密性の洗浄バッファ（１ＸＳＳＣプラス０．２％ＳＤＳ）で２５℃で洗浄され、その後、高い厳密性の洗浄バッファ（０．１ＸＳＳＣプラス０．２％ＳＤＳ）で、２５℃で１０分間洗浄される（シェーナ他、１９９６年、ナショナル科学アカデミー報ＵＳＡ、９３：１０６１４）。実用的なハイブリダイゼーション状態は、例えば、タイジェッセン、１９９３年、核酸プローブによるハイブリダイゼーション、エルスヴィアサイエンス出版Ｂ．Ｖ．、およびクリッカ、１９９２年、非同位体ＤＮＡプローブ技術、アカデミックプレスサンディエゴ、カリフォルニア、でも示されている。
【００７４】
蛍光ラベル付けされたプローブが用いられると、転写物アレイの各部位での蛍光発光は、走査共焦点レーザー顕微鏡法により検出できることが好ましい。１つの実施形態では、適切な励起線を使用して、用いられている２つの蛍光体のそれぞれについて別々の走査が行われる。代替的に、レーザーが用いられることにより、２つの蛍光体に特有の波長での同時標本照射を可能として、２つの蛍光体からの発光を同時に解析することもできる（シャロン他、１９９６年、ゲノムリサーチ６：６３９−６４５を参照）。好ましい実施形態では、コンピュータ制御可能なＸ−Ｙステージと顕微鏡対物レンズを持つレーザー蛍光スキャナでアレイが走査される。２つの蛍光体の連続的な励起はマルチライン、混合ガスレーザーによって実現され、発光線は波長によって分割され、２つの光電子増倍管によって検出される。蛍光レーザー走査装置はシェーナ他、１９９６年、ゲノムリサーチ６：６３９−６４５、およびここに引用されている他の参照文献において説明されている。代替的に、フェルグソン他、１９９６年、ネイチャーバイオテック１４：１６８１−１６８４に記載の光ファイバーの束を用いて、多数の部位におけるｍＲＮＡの存在度のレベルを同時にモニタすることができる。
【００７５】
シグナルは記録され、好ましい実施形態では、例えば、１２ビットアナログ・デジタルボードを用いてコンピュータにより解析される。１つの実施形態では、走査はグラフィックプログラムを用いて一般化され、その後画像グリッディングプログラムを用いて解析される。このプログラムは、各部位の各波長で平均的なハイブリダイゼーションのスプレッドシートを作成する。必要ならば、２つの蛍光体に対するチャネル間の“クロストーク”（またはオーバーラップ）について実験的に決定される補正がなされてもよい。転写物アレイ上の、任意の特定のハイブリダイゼーション部位について、２つの蛍光体の発光の比率が演算されるのが好ましい。この比率は同種の遺伝子の絶対的な発現レベルとは独立しているが、薬投与、遺伝子の除去、または他の任意のテストされたイベントによって発現が大きく調整された遺伝子に関して有用である。
【００７６】
本発明の方法にしたがうと、２つの細胞型または細胞株におけるｍＲＮＡの相対存在度が、外乱および決定されたその大きさとして（すなわち、存在度はテストされたｍＲＮＡの２つのソースで異なる）、あるいは外乱されないものとして（すなわち、相対的な存在度は同一）としてスコアが付けられる。ここで使用されているように、少なくとも約２５％（１つのソースからのＲＮＡは他のソースよりも１つのソースにおいて２５％さらに存在度が高い）、さらに一般的には約５０％、さらに多くの場合には約２倍（２倍の存在度）、約３倍（３倍の存在度）、または約５倍（５倍の存在度）だけ、ＲＮＡのソース間の差が外乱としてスコア付けされる。
【００７７】
本発明の１つの実施形態では、対象とする細胞の転写状態を反映している転写物アレイは、それぞれが、対象とされた異なる細胞のｍＲＮＡに対応した（すなわち、相補的な）２つの別々にラベル付けされたプローブの混合物をマイクロアレイに対してハイブリダイゼーションすることによって作られる。本発明にしたがうと、２つの細胞は同一のタイプ、すなわち、同一の種および株からなるが、遺伝学的に少ない数の遺伝座で異なっていてもよい（例えば、１，２，３、または５、好ましくは１）。代わりに、これらは同質遺伝子であり、これらの環境歴が異なっている（例えば、薬への暴露対非暴露）。
【００７８】
本発明のある実施形態では、グレード付けされた薬の暴露および一時的変異／外乱制御パラメータのグレード付けされたレベルの測定を行う利点がある。これは、グレード付けされた暴露および一時的変異が、飽和レベルを明確に同定するために用いられるときに利点がある。この場合、グレード付けされた薬の暴露およびグレード付けされた外乱制御パラメータのレベルの密度は、個々の遺伝子応答における鋭さおよび構造によって左右される――応答の最も急な部分がより急になるにしたがい、応答を適切に分析するのに必要なレベルがより密になる。１００倍の全範囲のうち、６から１０レベルの外乱または暴露が、遺伝子発現応答を分析するのに十分であることが好ましい。しかしながら、この経路をより良く示すためにはより多くの暴露が好ましい。
【００７９】
さらに、実験上の誤差を低減するために、個々の遺伝子またはアレイスポット位置に特有のバイアスが低減されるよう、２色の差分的ハイブリダイゼーション実験において蛍光ラベルを反転することに利点があるだろう。まず、測定されている２つの細胞からのｍＲＮＡの１つのラベル付け（例えば、第１の蛍光色素で、第１の投入状態に対して暴露された細胞と、第２の蛍光色素で、第２の投入状態に対して露光された細胞をラベル付けすること）によって遺伝子発現を測定し、次に反転されたラベル付け（第２の蛍光色素で、第１の投入状態に対して露光された細胞と、第１の蛍光色素で、第２の投入状態に対して露光された細胞をラベル付けすること）によって２つの細胞からの遺伝子発現を測定することが好ましい。
【００８０】
これらの投入状態の複数の測定により、実験上の誤差の付加的な表示および制御が提供される。さらに、グレード付けされた一時的変異／外乱の場合、暴露レベルおよび一時的変異／外乱制御パラメータレベルに対する複数の測定は、付加的な実験上の誤差の制御を提供する。
【００８１】
細胞の転写状態は、技術的に知られた他の遺伝子発現技術によって測定されてもよい。このような技術のいくつかは、電気泳動解析のために制限された複雑さの制限フラグメントのプールを生成する。それは、例えば、二重制限消化酵素をフェージングプライマに結合させる方法（１９９２年９月２４日に出願された、ザボー他による欧州特許出願番号第０５３４８５８Ａ１号等を参照）あるいは、定められたｍＲＮＡ端に最も近い部位を持つ制限フラグメントを選択する方法（プラシャー他、１９９６年、ナショナル科学アカデミー報ＵＳＡ９３：６５９−６６３等を参照）などがある。他の方法は、例えば、各ｃＤＮＡを同定するために複数のｃＤＮＡの各々において十分なベース（例えば、２０−５０ベース）を配列することによって、あるいは規定されたｍＲＮＡ端に対する既知の位置で生成されたショートタグ（例えば、９−１０ベース）を配列することによって、ｃＤＮＡのプールを統計学的にサンプル付けする（ベルクレスク、１９９５年、サイエンス２７０：４８４−４８７等を参照）。
【００８２】
本発明のさまざまな実施形態で、例えば、翻訳状態、活動状態、あるいはこれらの混合した側面のような、転写状態以外の生物学的状態の側面が、薬や経路応答を得るために測定されてもよい。翻訳状態の測定は、いくつかの方法にしたがって実行することができる。例えば、タンパク質のゲノム全体のモニタリング（すなわち、“プロテオーム”、ゴッフォー他、前掲）が、マイクロアレイを構成することによって実行されてもよく、マイクロアレイにおいて、結合部位は、細胞ゲノムによって符号化された複数のタンパク質種に固有の、固定化され、好ましくはモノクローナル抗体を有する。抗体は、符号化されたタンパク質の相当な割合に対して存在しているか、あるいは、少なくとも、対象とする生物学的ネットワークモデルをテストまたは確認することに関連したタンパク質のために存在することが好ましい。モノクローナル抗体の生成方法はよく知られている（ハーローとレイン、１９８８年、抗体：ラボラトリマニュアル、コールドスプリングハーバー、ニューヨーク等を参照）。好ましい実施形態では、モノクローナル抗体は、細胞のゲノム配列に基づいて設計された、合成ペプチドフラグメントに対して産生される。このような抗体アレイによって、細胞からのタンパク質がアレイに接触し、これらの結合は、技術的に知られた分析法によって分析される。
【００８３】
代替的に、タンパク質は二次元ゲル電気泳動システムによって分離することができる。二次元ゲル電気泳動は技術的によく知られており、一般的に第１の次元に沿った等電点電気泳動を含み、その後第２の次元に沿ったＳＤＳ−ＰＡＧＥ電気泳動がなされる。ハメス他、１９９０年、タンパク質のゲル電気泳動；プラクティカルアプローチ、ＩＲＬプレス、ニューヨーク；シェブチェンコ他、１９９６年、ナショナル科学アカデミー報ＵＳＡ９３：１４４０−１４４５；サグリオッコ他、１９９６年、イースト１２：１５１９−１５３３；ランダー、１９９６年、サイエンス２７４：５３６−５３９等を参照。結果として示された電気泳動図は、多くの技術によって解析することができ、質量分析法、ポリクローナルおよびモノクローナル抗体を利用したウェスタンブロッティングおよび免疫ブロット解析、ならびに内部およびＮターミナルマイクロシーケンシングが含まれる。これらの技術を用いて、所定の生理学的状態の下で生成されたすべてのタンパク質の相当な割合を同定できるようになる。この状態には、薬に対して暴露された細胞（例えば、イースト）内、あるいは、例えば、特定の遺伝子の除去または過発現により変更された細胞内という状態が含まれる。
【００８４】
示された実施形態において、生物学的なシステムのネットワークモデルを形成し、テストするパワフルかつ便利な機能を提供するために、上述の方法の演算ステップが、コンピュータシステム上、または、ネットワーク化された１つ以上のコンピュータシステム上で実現される。いくつかの実施形態では、コンピュータシステムは、ハンドヘルド装置、サーバコンピュータ、デスクトップパーソナルコンピュータ、ポータブルコンピュータ、あるいは移動体電話を含むことができるがこれらに限定されない。代表的なコンピュータシステムは、内部コンポーネントを有し、外部コンポーネントとリンクしているシングルハードウェアプラットホームである。このコンピュータシステムの内部コンポーネントは、主メモリと内部接続されたプロセッサエレメントを含む。
【００８５】
コンピュータシステムは、プロセッシングユニット、ディスプレイ、入力／出力（Ｉ／Ｏ）インターフェースおよびマスメモリを含み、これらはすべて通信バス、あるいは他の通信装置によって接続されている。Ｉ／Ｏインターフェースは、ＴＣＰ／ＩＰ、Ｘ１０、デジタルＩ／Ｏ、ＲＳ−２３２、ＲＳ−４８５などを含むさまざまな通信プロトコルにより、さまざまなモニタリング装置との対話を容易にするハードウェアおよびソフトウェアコンポーネントを含む。さらに、Ｉ／Ｏインターフェースは、地上電話回線、ワイヤレスネットワーク（セルラ、デジタルおよびラジオネットワークを含む）、ケーブルネットワークなどを含むさまざまな通信媒体による通信を容易にする。本発明の実際の実施形態では、Ｉ／Ｏインターフェースは、サーバハードウェアとソフトウェアアプリケーションとの間のレイヤとして構成されている。関連技術の当業者であれば、代替インターフェース構成が本発明によって実用可能であることを理解するだろう。
【００８６】
外部コンポーネントはマスストレージを含む。マスメモリは一般的に、ＲＡＭ、ＲＯＭおよび、ハードディスクドライブ、テープドライブ、光ドライブ、フロッピーディスクドライブ、またはこれらの組み合わせのようなパーマネントマスストレージ装置を有する。マスメモリは、宅内サーバのオペレーションを制御するオペレーティングシステムを記憶する。このコンポーネントが、ＵＮＩＸ、ＬＩＮＵＸ、またはマイクロソフトウィンドウズＮＴのような当業者によって知られている汎用サーバオペレーティングシステムを有していてもよいことが認められるであろう。メモリはさらに、ＷＷＷにアクセスするためのネットエスケープナビゲータまたはマイクロソフトインターネットエクスプローラブラウザのようなＷＷＷブラウザも含む。このマスストレージは１つ以上のハードディスクであってもよい（一般的にプロセッサおよびメモリとともに実装されている）。他の外部コンポーネントは、ユーザインターフェース装置を含む。これは、“マウス”または他のグラフィック入力装置のような指示装置とともに、モニタやキーボードとすることができる。一般的に、コンピュータシステムは、他のローカルコンピュータシステム、遠隔コンピュータシステム、あるいは、インターネットのような広域通信ネットワークにもリンクしている。このネットワークリンクは、コンピュータシステムが他のコンピュータシステムとデータを共有および処理タスクできるようにする。
【００８７】
このシステムのオペレーション中にメモリに読み込まれたものは、いくつかのソフトウェアコンポーネントであり、これは、技術的に標準なものと本発明に特有なものの両方である。これらのソフトウェアコンポーネントは共同でコンピュータシステムに対して、本発明の方法にしたがった機能を行わせる。これらのソフトウェアコンポーネントは一般的にマスストレージに記憶されている。代替的に、ソフトウェアコンポーネントは、フロッピーディスク、ＣＤ−ＲＯＭ、または他のネットワークに接続された装置のようなリムーバブル媒体に記憶されていてもよい。ソフトウェアコンポーネントは、オペレーティングシステムを表しており、これは、コンピュータシステムやそのネットワーク内部接続を管理する役割を果たす。このオペレーティングシステムは例えば、マイクロソフトウィンドウズシリーズ、ＵＮＩＸオペレーティングシステム、あるいはＬＩＮＵＸベースのオペレーションシステムであってよい。別のソフトウェアコンポーネントは、共通言語およびこのシステム上で便利に存する機能を表し、本発明固有の方法を実現するプログラムをアシストする。本発明の解析方法をプログラムミングするために用いることのできる言語は、Ｃ、Ｃ＋＋、あるいはあまり好ましくはないが、ＪＡＶＡなどである。本発明の方法は、数理的ソフトウェアパッケージでプログラムされるのがもっとも好ましく、これは、式のシンボル入力および、アルゴリズムを含む処理の高レベルな仕様が用いられるようにすることができる。これにより、個々の式やアルゴリズムの手続的なプログラムの必要性からユーザを解放する。このようなパッケージは、例えば、マスワークス（ナチック、マサチューセッツ）のＭＡＴＬＡＢ、ウオルフマンリサーチ（キャンペイン、イリノイ）のＭＡＴＨＥＭＡＴＩＣＡ、およびマスソフト（ケンブリッジ、マサチューセッツ）のＭＡＳＣＡＤなどを含む。本発明の解析方法は、手続型言語またはシンボリックパッケージでプログラムされてもよい。
【００８８】
マスメモリは一般的に、ＲＡＭ，ＲＯＭおよびハードディスクドライブ、テープドライブ、光ドライブ、フロッピーディスクドライブ、またはこれらの組み合わせのようなパーマネントマスストレージ装置を有している。マスメモリは、宅内サーバのオペレーションを制御するオぺレーティングシステムを記憶する。このコンポーネントが、ＵＮＩＸ、ＬＩＮＵＸ、またはマイクロソフトウィンドウズＮＴのような当業者に知られている汎用サーバオペレーティングシステムからなってもよいことが認められるだろう。このメモリは、ＷＷＷにアクセスするためのネットエスケープナビゲータ、またはマイクロソフトインターネットエクスプローラブラウザのようなＷＷＷブラウザも含む。
【００８９】
マスメモリはさらに、さまざまな宅内モニタリング装置とインターフェースし、モニタリング装置データを処理し、データを中央サーバに送信するプログラムコードおよびデータも記憶する。より具体的には、マスメモリは、本発明にしたがった装置インターフェースアプリケーションを記憶する。このアプリケーションは、モニタリング装置データをさまざまな装置から獲得し、中央サーバが処理するデータを操作する。装置インターフェースアプリケーションは、コンピュータ実行可能な指令を有し、この指令は、宅内サーバによって実行されるときに、以下でより詳細に説明されるように装置データを獲得して送信する。マスメモリはさらに、装置データを中央サーバに送信して、中央サーバとモニタリング装置間の通信を容易にする、データ送信アプリケーションプログラムも記憶する。これらのコンポーネントがコンピュータ読み取り可能媒体上に記憶され、フロッピー、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭドライブ、あるいはネットワークドライブのようなコンピュータ読み取り可能な媒体に関係するドライブメカニズムを利用して宅内サーバのメモリに読み込まれてもよいことが認められるであろう。
【００９０】
本発明の解析方法を実現する代替システムおよび方法が当業者にとって明らかであり、添付の特許請求の範囲内で理解されるよう意図されている。特に、添付の特許請求の範囲は、本発明の方法を実現する代替プログラム構成を含むよう意図され、当業者が容易に理解できるだろう。
【００９１】
以下の例は本発明を説明する目的で示されるものであり、本発明を制限するものではない。
【００９２】
実施例
例１
単一パルスモデルおよび推定
この例では、本発明の代表的な方法、単一パルスモデル（ＳＰＭ）を説明する。
【００９３】
単一パルスモデルはいくつかのステップで開発することができる。第１のステップはバイナリプロセスとして細胞周期にわたって単一細胞中の単一転写物をモデリングする。
【数６】

【００９４】
ここで、Ｙ（ｔ）は時間‘ｔ’における発現レベルを示し、（０≦ζ＜ξ≦Θ）としての（ζ，ξ）は活性化時間および不活性化時間、Θは細胞周期間隔であり、ｃ＝０，１，２，．．．は第１、第２、第３、．．．の細胞周期を示す。代わりに、上記表示は以下のように書くことができる。
【数７】

【００９５】
第１、第２、第３、．．．周期に対する和であり、Ｉ｛・｝は恒等関数である。
【００９６】
第２のステップは単一細胞内の複数の転写物を考慮し、背景および高められた発現レベル（α〜，α〜＋β〜）と活性化および不活性化時間（ζ，ξ）を有する細胞に対する発現パルスを提供する（図１）。細胞についての予測される発現レベルに対するモデルは以下のように書くことができる。
【数８】

【００９７】
第３のステップは、複数の細胞がプールされ、同調化されるが、同調化が完全でない事実を確認する。ｔ_ｋがターゲットタイミングを示すとしよう。単一細胞の実際のタイミングＴ_ｋはｔ_ｋのまわりにランダムに分散され、平均ｔ_ｋと標準偏差σを持つ正規分布を有すると仮定される。
【００９８】
記述として、以下のようにする。
【数９】

【００９９】
ここで、Ｎは共時性中の細胞数であり、（ｔ＋Ｔ_ｉ）はｉ番目の細胞の年齢（タイミング）であり、Ｙ_ｉ ^＊はｉ番目の細胞における特定の遺伝子の発現レベルである。ＳＰＭによる平均発現レベルＹ_ｉをモデリングすることは以下のようにＹ_ｉ ^＊（ｔ＋Ｔ_ｉ）の予測値を与える。
【数１０】

【０１００】
共時性に対する平均発現はＮ個の細胞に対する総和から生じ、ランダムタイミング（Ｔ_ｉ）に対する期待値をとる。いくつかの簡単な代数にしたがうと、時間ｔ_ｋにおける平均発現レベルは以下のように書けることを示すことができる。
【数１１】

【０１０１】
ここで、φ（ｘ）はガウス累積分布関数であり、α＝Ｎα〜およびβ＝Ｎβ〜である。
【０１０２】
第４のステップは、時間に対して同調化がすべての同調プロトコルによる固有の制限を悪化させることを確認する。時間ｔでσを単調増加できるようにすることによりこの悪化をモデリングする。特に、サンプルｋ中の細胞のタイミングに対する標準偏差が以下の指数形態モデルにしたがうことを仮定する。
【数１２】

【０１０３】
ここで、（γ_０，γ_１）は推定されるべきパラメータである。
【０１０４】
第５のステップはサンプル間の乗算的（λ_ｋ）および加算的（δ_ｋ）異質性因子を組み入れる。ｍＲＮＡ抽出、増幅および評価における変動はサンプル間の異質性となり得る。先に言及したように、このような異質性を調製する要求は平均発現レベルに対する以下のモデルに導く。
【数１３】

【０１０５】
ここで、δ_ｋおよびλ_ｋはｋ番目のサンプルに特有であり、δ_ｋおよびλ_ｋはＫサンプルに対してそれぞれ０と１に平均化する。既述したように、モデルは多量の転写物の測定値に直接適用することができる。転写レベルの比を解析するために、乗算的異質性因子（λ_ｋ≡１）を削除することを選択する。
【０１０６】
各遺伝子はその自己の活性化および不活性化時間ならびにその自己の背景および高められた発現レベルを持つことを許容されており、ｊ番目の遺伝子に対する平均発現についてのＳＰＭモデルを以下のように提供する。
【数１４】

【０１０７】
ここで、ｊ＝１，２，．．．，Ｊおよびｋ＝１，２，．．．，ＫはＫ個のすべてのサンプル中におけるＪ個のすべての遺伝子を示す。
【０１０８】
推定式［Ａ１］を解くパラメータ推定値を見つけるために、２乗の加重和を最小にすることができる。
【数１５】

【０１０９】
平均の活性化および不活性化時間は変化点を表し、制限される（ζ_ｊ≧０，ξ_ｊ≧０およびξ_ｊ＞ζ_ｊ）ので、（ζ_ｊ，ξ_ｊ）に対する良好なグリッド値における各点の他のパラメータに関して上記２乗和［Ａ１］を最小にし、［Ａ１］に対して全体を最小にする１組みのパラメータ推定値を選択する。少なくとも２つのｔ_ｋ値において含まれる点（ζ_ｊ，ξ_ｊ）にプロファイル処理を制限する。計算における加重関数は以下のように規定される。
【数１６】

【０１１０】
ここで、μ_ｊ＾^０（ｔ_ｋ）＝δ_ｋ＾＋λ_ｋ＾α_ｊ＾は、β_ｊ＝０を要求する場合のμ_ｊ（ｔ_ｋ）の推定値を示す。すべてのモデルパラメータを推定する際に、以下の式は単に遺伝子ｊに対する発現レベルの変動のパーセンテージであり、異質性パラメータ調製にしたがい、これはＳＰＭモデルの周期側面により説明したことにも留意すべきである。
【数１７】

【０１１１】
したがって、１に近づくＲ_ｊ ^２値は、ＳＰＭがｊ番目の遺伝子に対する観測された発現プロファイルの良好な表示を提供していることを意味する。
【０１１２】
方法セクションで言及したように、複数のステージでパラメータ推定を実行して計算を簡単化した。第１のステージは、すべてのβ_ｊ値を０に制限して、［Ａ１］を最小にすることにより、（δ_ｋ＾，λ_ｋ＾）の推定値に導き、ｋ＝１，．．．，Ｋとした。この制限のもとで、以下の式も有するので、μ_ｊ＾^０（ｔ_ｋ）値と加重ν_ｊ＾^２を計算することができる。
【数１８】

【０１１３】
次に細胞周期間隔推定Θ＾は単一パルスモデルのもとで［Ａ１］を最小にすることにより計算された。ほとんどの転写物は細胞周期で調製されていないことから、１組の１０４の既知の周期的転写物のみを使用して、細胞周期間隔の適切な推定を確実にした。この計算は例えば１分の単位で４０分から８０分のｃｄｃ２８データセットについての細胞周期間隔Θに対するプロファイリングに関係する。同じ組の遺伝子において、［Ａ１］を最小化することにより同調変動σ_ｋを推定した。
【０１１４】
これらのパラメータを固定化すると、ｊ番目の遺伝子に対するパラメータ（ζ_ｊ，ξ_ｊ，α_ｊ，β_ｊ）に関する［Ａ１］の最小化は単にｊ＝１，．．．，Ｊに対して個々に以下の式の最小化が必要となり、計算が非常に簡単化される。
【数１９】

【０１１５】
これらのパラメータ推定値に対する推定標準偏差は、モデル仮定およびｘ_ｋを与えるＹ_ｋの独立仮定のもと、サンドイッチ式（１５）をｊ番目の遺伝子に対するデータだけに適用することから生じる。これらの計算は統計値Ｚ_ｊ、その標準偏差に対するβ_ｊ＾の比を与え、これは各ｊ＝１，．．．，Ｊに対してβ_ｊ＝０であるならば、ほぼ標準正規分布を有する。このような標準正規分布のもとで、絶対値でＺ_ｊが５を超える確率は約５．７×１０^−７であるので、β_ｊ＾値の任意の１つ、例えば６０００遺伝子が５を超える確率は、すべてのβ_ｊ値が０に等しい場合に、ボンフェロニ近似を使用して、６０００×５．７×１０^−７＝０．００３として、控えめに推定される。特に、ボンフェロニ補正は控えめであるから、これは５のしきい値は極端過ぎるかもしれないことを示唆しているが、特に、サンプル数（Ｋ）がかなり小さい場合には、Ｚ_ｊに対する標準正規分布近似はむしろ自由にすることができる。したがって、５のかなり極端なしきい値を保持することを選択した。
【０１１６】
先に概説した数値処理は、すべてのモデルパラメータのパラメータ推定値をデータ上の最小制約のもとで確実に得ることができるにする（例えば、異質性補正値（Ｙ_ｊｋ−δ_ｋ＾）／λ_ｋ＾はサンプルにわたって何らかの変動を示さなければならない）。複数ステージ推定処理が、すべてのモデルパラメータを同時に推定する処理と比較して、Ｚ統計値に最小の影響を確実に持つようにし、モデルパラメータ推定値の分布に対する漸近正規近似に関係する保守性を調査するために、さらに統計開発することが望まれる。方法セクションで言及した２グループ比較問題および時間経過解析の状況において、各Ｚ_ｊ値は、異質性および回帰パラメータが複数ステージでまたは共同で推定されるか否かにそれ程依存していない。しかしながら漸近正規近似は、サンプル間の回帰変数のさまざまな組み合わせのもとで、Ｚ_ｊ値を比較することにより生じるＺ_ｊ分布に対するある経験的近似よりも、かなり端部においてさらに自由であると思われる。
【０１１７】
例２
遺伝子発現を解析するための代表的なセミパラメータ方法の例示
この例では、本発明の代表的な方法を使用して遺伝子発現を解析するセミパラメータ方法の例示を説明する。
【０１１８】
同調化実験
単一転写物。代表的な同調化実験が図６に例示されている。図６を参照すると、転写発現レベルは細胞周期タイミングに対してプロットされている。図では、背景（α）より上の転写発現（β）は各細胞周期で生じる。シンボルに対する鍵は以下の通りである。
【数２０】

【０１１９】
単一細胞内の複数転写物。単一細胞内において、複数転写物が時間にわたって転写され、消失され、三角形状のパルスとなる。単一細胞内の複数転写物に対する代表的な同調化実験が図７に示されている。図７を参照すると、転写発現レベルが細胞周期タイミングに対してプロットされている。図では、背景（α）より上の転写発現（β）が各細胞周期で生じている。
【０１２０】
この方法では、転写プロセスは消失プロセスと同様に均一に分散されることが仮定される。単一パルスモデル（ＳＰＭ）による近似、本発明の代表的な方法は、転写時間の推定された中間時間と、ｍＲＮＡの半分の寿命を生み出す。単一細胞内のｍＲＮＡパターンを近似すると、ＳＰＭは以下のように書くことができる。
【数２１】

【０１２１】
複数細胞との可変同調化。典型的な同調化実験は数千または数百万の細胞をポーリングして、細胞周期タイミングに対してそれらを同調化させようと試みる。同調化技術の進歩にかかわらず、同調化において変動がある。個々の細胞の実際のタイミングは同一ではない。単一細胞の実際のタイミングＴ_ｋはランダムであり、正規分布を有すると仮定され、平均予測タイミングｔ_ｋ、標準偏差σである。
【０１２２】
時間ｔｋにおける観測された発現レベルは以下の通りである。
【数２２】

【０１２３】
複数細胞との可変同調化に対する代表的な同調化実験が図８に示されている。図８を参照すると、転写発現レベルが細胞周期タイミングに対してプロットされている。図では、背景（α）より上の転写発現（β）が各細胞周期で生じている。
【０１２４】
複数細胞に対するＳＰＭは以下のように導出することができる。Ｎ個の細胞（Ｎは非常に大きい。例えば＞１００，０００）を考える。各細胞は、Ｔ_ｉ（ｉ＝１，２，．．．，Ｎ）として示される、その自己のタイミングにしたがう。時間ｔにおいて細胞を同調化するために、すべてのＴ_ｉはｔのまわりにランダムに分散され、その分布はガウス分布と仮定される。この仮定のもと、Ｎ個の細胞の観測発現レベルは以下の式により近似することができる。
【０１２５】
中央制限理論
【数２３】

【０１２６】
インジケータ関数に対するラベリングおよび予測
【数２４】

【０１２７】
標準化
【数２５】

【０１２８】
悪化する同調化。悪化する同調化は、従来の同調プロトコルによる固有の制限である。悪化する同調化を示す転写物に対する代表的な同調化実験が図９に示されている。図９を参照すると、転写発現レベルは細胞周期タイミングに対してプロットされている。図では、背景（α）より上の転写発現（β）が各細胞周期で生じている。
【０１２９】
悪化する同調化は、同調化変動を変化させることにより、すなわち時間ｔでσが単調増加することによりモデリングすることができる。指数モデルでは以下の式のようになる。
【数２６】

【０１３０】
ここで、（γ_０，γ_１）はデータから推定されるべきパラメータである。γ_１＝０の場合には、同調細胞が考慮されている時間フレーム内に十分にそれらの同調を保持していることをこれは意味している。一般的に、正γ_１＞０では、変数は図１０に示されているように単調に増加する。細胞周期タイミングの関数としての同調変動が図１０に示されている。
【０１３１】
悪化する同調化を組み込むために、ＳＰＭは以下のように修正することができる。
【数２７】

【０１３２】
サンプル間の異質性。ｍＲＮＡ抽出、増幅および評価における変動のために、観測された発現レベルは変動振動し、サンプル間の異質性となる。サンプル間の異質性を示す転写物に対する代表的な同調化実験が図１１に示されている。図１１を参照すると、転写発現レベルが細胞周期タイミングに対してプロットされている。図では、背景（α）より上の転写発現（β）が各細胞周期で生じている。
【０１３３】
このような異質性がチップ上のｍＲＮＡの量に純粋に関係しているのであれば、乗算的異質性因子をＳＰＭに導入して、以下の式を提供することができる。
【数２８】

【０１３４】
以下の制約がパラメータの同定可能性を確実にするために課される。
【数２９】

【０１３５】
２つのサンプルで、この補正はｘ−ｙプロット上の回転を表す。
【０１３６】
乗算的異質性から拡張すると、加算的異質性を考慮して、加算的スケール上の異質性を補正することもできる。モデルは以下のように書くことができる。
【数３０】

【０１３７】
ここで、δ_ｋは０平均の制約を有する加算的異質性である。
【０１３８】
遺伝子特定ビュー。遺伝子の機能は異なっており、それぞれそれ自体の活性化および不活性化時間ならびにそれ自体の背景および高められた発現レベルを持つ。下付文字“ｊ”を使用することにより、ＳＰＭは以下のように書くことができる。
【数３１】

【０１３９】
未知の原因によるランダム変動。他の多くの原因が遺伝子発現レベルの変動に寄与する。ランダム変動に対処するために雑音因子をＳＰＭに導入することができる。ＳＰＭは以下のように書くことができる。
【数３２】

【０１４０】
鍵となる仮定は、これらのランダム変動が平均０を持つことである。
【０１４１】
分布仮定はなされていないことに留意すべきである。さもなければ、ＬＯＤＳＣＯＲＥ等価方法を発展させることが可能であり、それからの結果は分布仮定に必然的に依存する。
【０１４２】
一般的に、統計学者は以下の表現を使用する傾向がある。
【数３３】

【０１４３】
予測値
パラメータ推定。推定されるべきパラメータは以下のものを含む。
【０１４４】
Θ…細胞周期間隔
σ_ｋにおける（γ_０，γ_１）…同調化変動に対する標準偏差
（δ_ｋ，λ_ｋ）…加算的および乗算的な異質性因子
（ζ_ｊ，ξ_ｊ）…活性化および不活性化時間
（α_ｊ，β_ｊ）…背景および高められた発現レベル。
【０１４５】
上記パラメータを推定する基本メカニズムは、２乗残差の以下の和を最小にすることである。
【数３４】

【０１４６】
方法に対する２つの重要な統計値。方法に対する２つの重要な統計値はＺスコアとＲ^２である。
【０１４７】
Ｚスコアを使用してヌル仮定Ｈ_０をテストする。Ｊ_ｊ＝０、すなわち周期性の欠如である。
【０１４８】
Ｒ^２はＳＰＭにより説明される変動の割合を測定する。
【数３５】

【０１４９】
選択基準は（Ｒ^２＞０．５、Ｚ＞４およびＳＰＭはＳＮＯＰに好都合である）ことである。
【０１５０】
時間経過実験
ＳＰＭを拡張して一般的にタイミング因子を組み込むと、遺伝子発現に対する一般モデルは以下のようになる。
【数３６】

【０１５１】
線形モデル。遺伝子発現に対する代表的な線形ＳＰＭが図１２に示されている。図１２を参照すると、転写発現レベル（β）が細胞周期タイミングに対してプロットされている。線形ＳＰＭは以下の通りである。
【数３７】

【０１５２】
二次モデル。遺伝子発現に対する代表的な二次ＳＰＭが図１３に示されている。図１３を参照すると、転写発現レベル（β）が細胞周期タイミングに対してプロットされている。二次ＳＰＭは以下の通りである。
【数３８】

【０１５３】
解析の目的は次のものを推定することである。
Β_ｊ…時間依存性
τ_ｊ…ピーク時間
α_ｊ…背景発現値
（δ_ｋλ_ｋ）…異質性補正。
【０１５４】
正常および異常組織の比較
モデルを拡張して正常および異常組織を比較することができる。インジケータ関数ｘ_ｋは時間変数ｔ_ｋを置換し、ｘ_ｋはバイナリ値を持つ。
【数３９】

【０１５５】
対応モデルは以下のように書くことができる。
【数４０】

【０１５６】
この方法により正常および異常組織を比較する代表的な結果が図１４に示されている。
【０１５７】
例３
人間の癌において差次的に発現した遺伝子の解析のための代表的方法
この例では、本発明の代表的な方法を使用して人間の癌において差次的に発現した遺伝子を同定する。
【０１５８】
この例は、ＤＮＡマイクロアレイ実験から関連情報を抽出する統計学的モデリングアプローチを説明する。これは２つの予め定められたサンプルグループ間、例えば健康な組織対癌組織との間で差次的に発現した遺伝子を発見することに向けられている。このモデルは十分に規定された仮定に基づいており、正確でよく特徴付けられた統計測定値を使用して、ゲノム発現プロファイルの特定の側面を問い合わせ、データの異質性およびゲノム複雑性に対処する。共通の全体的な発現プロファイルを共有する遺伝子および／またはサンプルのグループを規定しようとするクラスタ解析と対照的に、このモデリングアプローチは“既知のクラスタメンバーシップ”（すなわち、２つの予め定められたサンプルグループ）を利用して、高感度で強力な方法で個々の遺伝子の発現プロファイルに焦点を合わせる。さらに、このアプローチを使用して、特定の遺伝子の発現について前もって考えた仮定を生成し、テストすることができる。この方法論を例示するために、マイクロアレイデータが３８個の急性白血病サンプルおよび１０個の小児髄芽細胞腫脳腫瘍から得られた。
【０１５９】
ＤＮＡマイクロアレイ技術は単一サンプルからの数千のｍＲＮＡ分子の発現レベルを同時問い合わせできるようにし、したがって機能性ゲノム研究（３１，３８）の基礎である。これらの実験から得られるデータの量はデータ解析へのチャレンジ：すなわち、どのように、高いスループットデータの“海”から関連情報を効率的に抽出することができるか（２１，２２，４１）？を表す。遺伝子発現データを解析する高感度で強力な理論上のフレームワークを確立させなければならない。
【０１６０】
現在、マイクロアレイデータを解析するために最も一般的に使用されている計算アプローチはクラスタ解析である。クラスタ解析は類似する発現プロファイルに基づいて遺伝子またはサンプルを“クラスタ”にグループ分けし、共有クラスタメンバーシップを通して遺伝子の機能または規則性あるいはサンプルの類似性に対する手がかりを提供する（４１，９７，９８）。いくつかのクラスタ化方法がゲノムワイドな発現データの解析に有効に適用されており、大きく３つのカテゴリに分類することができる。すなわち（１）ツリーベースのアプローチは相関係数のような遺伝子間の距離測定値を使用して、遺伝子を階層ツリーにグループ分けし（３３）、（２）第２のカテゴリは、クラスタ内の変動を最小にし、クラスタ間の変動を最大にするように遺伝子をクラスタ分けし（９７，９８）、（３）第３のカテゴリは遺伝子をブロックにグループ分けし、それらの中では相関が最大化され、それらの間では相関が最小化される（１９）。
【０１６１】
マイクロアレイ研究に対するクラスタ解析の力は、類似する発現プロファイルを示す遺伝子転写物またはサンプルを発見することにある。例は時間経過に対して同時調製されると思われる転写物の同定子（２９，９２）、あるいは以前に未知のサンプルグループ化を発見すること（１５，１６）を含む。しかしながら、“同様な”グループの同定子は必ずしもマイクロアレイ研究における目的ではない。例えば、マイクロアレイはパワフルな高スループット方法を提供し、正常組織対癌性組織のような予め定められたサンプルグループ間で差次的に発現した遺伝子を発見する（１６，３０）。クラスタ解析は個々の遺伝子に焦点を当てないことから、このタイプの研究のためには高感度な方法ではない。
【０１６２】
マイクロアレイ研究からのグループ比較に対してもっとも一般的に適用されている技術は、各グループに対する平均強度間の２倍またはそれ以上の差を持つ遺伝子を単に探すことである。しかしながら、相対的な平均比較はサンプル変動に対処できず、１００％より少ない発現レベルの差が非常に現実的で意味のある生物学的影響を持つことがある事実を無視する。実際、ノーザンブロットのパネルの比較や、あるいは健康および癌組織サンプル間の酵素分析法のような、単一遺伝子における解析に焦点を当てるときに、科学者達は類似する基準をめったに利用しない。グループ間のマイクロアレイ発現プロファイルを比較するための非常に改良された方法が最近提供され、この方法では、修正された人の係数およびデータ変動に対処する隣近解析アプローチを使用して、サンプルグループが比較される（４４）。
【０１６３】
この例は統計学的モデリングアプローチを説明し、よく理解されており、強力な統計基準を使用して、２つのサンプルグループ間で差次的に発現した遺伝子を同定する。統計学的モデリング技術の２つの例示が含まれている。３８人の白血病患者からの発現プロファイルが調査され、そのうちの２７人が急性リンパ球性白血病（ＡＬＬ）として診断される一方、１１人が急性骨髄性白血病（ＡＭＬ）（４４）として診断された。このデータセットはクラスタ解析を通して元々解析され、発現ベースの分類モデルが開発され、ＡＭＬ（４４）からＡＬＬを同定した。第２の目的は新規なデータセットを解析して、ＮＥＵＲＯＤ３／神経性１−ポジティブ対ネガティブ−小児髄芽細胞腫脳腫瘍において差次的に発現した遺伝子を発見することであった（７４）。発見は、統計学的モデリングが高感度で強力な手段を提供してＤＮＡマイクロアレイからの情報を抽出することを示す。
【０１６４】
方法論。オリゴヌクレオチドアレイ発現プロファイルの統計解析における第１のステップは、データの事前処理および／または変換である。これにはスパイクオリゴヌクレオチド制御の除去が含まれる。第２のステップは、サンプルに特異的な異質性とともにチップに特異的な異質性に対する補正因子を推定し、これらの因子を使用してデータを正規化することである。最後のステップは回帰解析を実行し、強力な統計技術を使用して各遺伝子転写物に対する関連モデルパラメータ（方法中の式１）を推定することである。結果は各転写物に対するＺスコアの絶対値によりランク付けされる。Ｚスコアが高くなると、対応する遺伝子が２つのグループ間で差次的に発現したことの信頼レベルがより高くなる。
【０１６５】
方法論はＭＡＴＬＡＢ（ＭＡＴＨＷＯＲＫＳ，Ｉｎｃ．により開発されたコンピュータ言語）を使用するコンピュータプログラムで実現することができる。
【０１６６】
複数比較。比較的少ない数のサンプルで非常に多量の比較を実行するときの問題は、複数比較から生じる不正確な高ポジティブレートである。この懸念を取り扱うために、有意性レベルが確実にゲノムスケールに適用可能なように、差次的に発現した転写物を宣言する統計しきい値が高められた。控えめな選択はボンフェロニ補正であり（５３）、これは所要のゲノムワイド有意性、例えば１％を解析される遺伝子の総数で割る。例えば、７０７０のプローブを含むアフィイメトリックス６８００遺伝子チップオリゴヌクレオチドアレイでは、調製された有意性レベルは約１／７０７０％である。Ｚスコアは正規分布にしたがうことを仮定すると、ゲノムレベルにおける対応する１％有意性しきい値は４．８のＺスコアである。差次的に発現した複数の遺伝子を検出する力を向上させるために、各遺伝子に対する有意性値（すなわちｐ値）はホッケベルグにより提案された修正されたボンフェロニ補正を使用して計算された（５２）。
【０１６７】
白血病研究。以前の研究は、３８人の白血病患者（２７人はＡＬＬで１１人はＡＭＬ）からのｍＲＡＮ発現プロファイルを調べ、急性白血病に対する発現ベースの分類方法を開発した（４４）。この研究からのデータセットはモデリング技術を例示するのに理想的であった。その理由は多量の患者を含み、十分に特徴付けられていたからである（４１）。さらに、白血病に関する多量の文献があり、これらの文献から発見の有効性を評価することができる。
【０１６８】
統計学的モデリングアプローチは、４．８以上のＺスコアで、ＡＭＬとＡＬＬとの間で差次的に発現した１４１の転写物を同定した。これらのうち２３がＡＭＬにおいてより高いレベルで発現した一方、１１４がＡＬＬで差次的に発現した。テーブル１および２はｍＲＮＡに対応するトップ２５遺伝子をリストアップし、これらはいずれかのサンプルグループでさらに高く発現している。これらのテーブルには、修正された人の相関係数方法論に基づいたグラウブ氏らによる各所定プローブの場合の、ＡＭＬ対ＡＬＬについての平均間の相対差と、対応ランキングとを含む（４４）。２つの方法間のランキングにおける差は比較的小さい平均発現差および／または発現レベルを持つ遺伝子に向けての統計学的モデリング方法における増加した感度から生じるものと思われる。これは重要な問題である。その理由はこれらの基準のいずれもタンパク質の生物学的特異性と必ずしも相関していないからである。例えば、テーブル１は、トロンボスポンディン１（ＴＳＰ１）はＡＭＬ対ＡＬＬで差次的に発現した一方、相対的および絶対的平均発現レベル差の両者は非常にわずかであった（それぞれ１．８倍および１２５）ことを示している。それにもかかわらず、ＴＳＰ１は骨髄巨核球ろう（２８）をネガティブに制御し、骨髄性白血病細胞増殖（１０１）に影響を与えることが知られている。
【０１６９】
マイクロアレイ研究の大部分はＡＭＬ／ＡＬＬ比較における３８個のサンプルよりも少ないサンプルサイズで実行されることから、統計学的モデリング方法は、１１人のＡＭＬ患者間のトロンボポエテイン（ＴＰＯ）との発現プロファイルの関係を調査するために適用された（４４）。ＴＰＯは骨髄前駆の巨大核細胞（２４）への遷移の原因となる主なサイトカインであるが、造血幹細胞からすべてのタイプの前駆への分化においてさらに一般的な役割も果たす（５８）。さらに、ＴＰＯは多数のＡＭＬ細胞株で発現することが知られている（４６）。トロンボポエテイン（ＴＰＯ）発現プロファイルのシャープな図形が患者２８，３０，３２，３４，３６および３８対、患者２９，３１，３３，３５および３７との間で発見され、したがって、統計学的モデリング技術を使用してこれらの患者グループが比較された。８個の転写物が４．８より上のＺスコアを持っていた。ＴＰＯ自体は最高のランキングを生じさせた（テーブル３）。この解析からの１５個の最高ランキングｍＲＮＡのうち、３個の対応する遺伝子生成物がＴＰＯにより影響を受け、あるいはＴＰＯと直接的に相互作用することが知られており、２個は詳しく特徴付けられなかったが、ＴＰＯと相互作用するタンパク質と非常に相同しており、他の８個は骨髄造血に関係している。ＴＰＯはＡＭＬ芽細胞の増殖を刺激することができ（６５，７０）、グルーピングが芽細胞の高いまたは低いパーセンテージを持つサンプルのラインに沿って大きく落ちることに着目することは興味深い（ｗｗｗ．ｇｅｎｏｍｅ．ｗｉ．ｍｉｔ．ｅｄｕ／ＭＰＲ参照（４４））。
【０１７０】
治療の成功または失敗と遺伝子発現の関係が調査された。１１人のＡＭＬ患者のうち、６人の患者（患者２８−３３）は治療に応答することがない一方、５人の患者（患者３４−３８）は生き延びた（ｗｗｗ．ｇｅｎｏｍｅ．ｗｉ．ｍｉｔ．ｅｄｕ／ＭＰＲ参照（４４））。この解析からの２５個の最も重要な転写物がテーブル４にリストアップされている。対応する遺伝子の染色体位置が調査された。その理由は染色体異常が白血病では優勢であり、予知的な密接関係を持っていることが多いからである（３４，８５）。テーブル４にリストアップされている遺伝子のほとんどすべては、異常をＡＭＬおよび他の形態の白血病に含めるために以前に同定された領域に入る。さらに、遺伝子のうちの３個は５ｑ１１−３１にエンコードされ、４個は２ｑ領域に入り、２個は１ｑ３２−２６内であり、他の２個は６ｐ１２−ｐ１１で見出される（テーブル４）。６８００＋遺伝子のランダムプールからのトップ２５遺伝子における染色体位置の５個の“ミニクラスタ”の同定子が目を引く。注目すべきことは、領域５ｑ１１−３１はＡＭＬで頻繁に失われており、予知に影響を与えることが知られている（３４，９０，１０３）。さらに、Ｓｅｔ（６３）およびＨｏｘＡ９（６１）はＡＭＬ進行で役割を果たすことが知られており、ＣＯＬ４Ａ４（１０５）、チオレドキシン（７１，９１）、カスパーゼ−８（７６）、インテグリンベータ５（２５）、アルファチューブリン（５１）、およびＳＰＳ２（９１）は病気によく寄与するかもしれない。臨床結果は患者年齢、診断時期、および処置プロトコルを含む多くの非遺伝子要因により影響されるが、上記発見はゲノムワイドのマイクロアレイ解析を使用して予知インジケータの発見を約束していることを心に留めておくべきである。
【０１７１】
髄芽細胞腫研究。ＮＥＵＲＯＤ３／神経性１は基本的ならせん−ループ−らせん転写因子であり、その発現は小児髄芽細胞腫に対するネガティブ予知インジケータである（８４）。白血病データを解析することからの有望な結果にしたがって、ｍＲＮＡ発現プロファイルが１０個の小児髄芽細胞腫組織サンプルから調査され、そのＮＥＵＲＯＤ３ステータスがノーザンブロットを使用してあいまいさなく決定された（７４）。主目的はＮＥＵＲＯＤ３で差次的に発現した遺伝子を発見することであった。マイクロアレイ発現プロファイルの統計学的モデリングは、４．８を超えるＺスコアを持つＮＥＵＲＯＤ３＋またはＮＥＵＲＯＤ３−腫瘍間で差次的に発現した２２個の遺伝子を明らかにした（テーブル５）。多数のこれらの遺伝子は髄芽細胞腫の腫瘍形成において潜在的な役割を持ち、これには細胞周期で調製された遺伝子Ｓｋｐ２（２６）およびＳｍＮ（２５）；ＥＲＦ−１（Ｂｅｒｇ３６）、細胞消滅で役割を果たすかもしれない推定核細胞転写因子；微小管タンパク質および原腫瘍形成遺伝子プロファイル（５５）、これは染色体領域１７ｐ１３．３にあり、髄芽細胞腫の約５０％で失われ（６８）；ホスファチジルイノシトール４−キナーゼ、これは神経発育因子（ＮＧＦ）のトランスポートに関係しており（８３）；Ｋｉｄ、分裂紡錘フォーメーションに関係するタンパク質で、さまざまな癌細胞で発現する（１００）；Ｒａｒ、人間の海馬状隆起（ｈｔｔｐ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｅｎｔｒｅｚ／ｕｔｉｌｓ／ｑｍａｐ．ｃｇｉ？ｆｏｒｍ＝６＆ｄｂ＝ｎ＆ｄｏｐｔ＝ｇ＆ｕｉｄ＝ｕ０５２２７参照）から分離されたものであり、マウス中のｒａｓ原腫瘍形成遺伝子ファミリーの脳特定メンバと相同であり（１７）；ＡＤＨ７、レチノイン酸合成で機能するかもしれないものであり（５０）；転写因子ＳＯＸ９（１１２）およびｐｏｌＩＩＩサブユニットＲＰＣ６２（１０７）；ＲＩＮＧ３、転写因子および推定腫瘍形成遺伝子（７５）；およびＭＹＢＬ２腫瘍形成遺伝子、神経芽細胞腫瘍中のプア予知因子（８０）が含まれる。
【０１７２】
オリゴヌクレオチドマイクロアレイ技術の開発は、単一実験における数千の遺伝子のｍＲＮＡ転写レベルのモニタリングを可能にする。実際、科学者は完全なＤＮＡ配列が既知である酵母のような生物に対する全ゲノムの発現プロファイルを既に調査し始めている（２９，３６，６０，９２）。調査および発見のこの力は、同時に１つの遺伝子に焦点を合わせる伝統的な実験アプローチをはるかに超えて進行する。さもなければ、マイクロアレイ研究から得ることができるおびただしい量のデータがデータ解析に対するチャレンジを提供する（２１）。この例では、十分な基礎がある統計処理が説明され、この処理はゲノムデータの複雑性を考慮に入れながら、２つのサンプルグループ間の個々の遺伝子の発現プロファイルを比較する。
【０１７３】
統計処理に隠れたモチベーションは単純なコンセプトに基づいている。すなわち個々の遺伝子について、それぞれ予め定められたサンプルグループ中のその転写レベルの平均および標準偏差を計算し、Ｚスコア、ｐ値またはＲ^２のような典型的な統計基準に基づいて発現プロファイルが異なっている尤度を決定する。同時に、この方法はゲノムワイドな情報を利用して、サンプル異質性および複数比較問題を取り扱う。白血病データについて得られた結果は、モデリングアプローチが遺伝子発現を定量化するかなり高感度な方法を生み出すことを示す。
【０１７４】
何らかの特別なフィルタリング方法を生蛍光データに適用することなく、白血病および髄芽細胞腫データセットが解析されたことに着目することは重要である。例えば、蛍光シグナル強度に基づいて“背景”雑音レベルはデータから減算されなかった、あるいは “発現しなかった”遺伝子を取り除かれなかった。これらのフィルタリング技術は、データをグラスタリングするとき、あるいは単一サンプルで遺伝子が発現したかまたはしなかったかを問うときに、最強の関連付けを行うことが要求される。しかしながら、フィルタリングは対象とする潜在的な遺伝子、特に低いものから適度な発現レベルを持つ潜在的な遺伝子を除去し、したがって、発見の力を減らすことがある。例えば、細胞毎に数転写物からゼロ転写物のみの差は、特別なフィルタリング技術を適用した後に検出できなくなることがあるが、そうでなければ、非常に現実的な生物的有意性を持つか、あるいは治療のために細胞を特にターゲットにするかなりの機会を提供する。
【０１７５】
統計学的モデリングの顕著な利点は、この技術はデータ中のランダム変動（すなわち“雑音”を利用することである。例えば、活性化誘導Ｃタイプレクチン（ＡＩＣＬ）の平均発現レベルはＡＭＬにおいてＡＬＬより３倍高く、絶対平均差は８２６ユニットで相当であった。ＡＩＣＬがさまざまな造血誘導細胞株で発現することを考えると（４９）、ＡＩＣＬはこの証拠に基づいてＡＭＬで実際に過剰発現したと合理的に結論するかもしれない。しかしながら、モデリングアプローチは０．９１のみのＺスコアをＡＩＣＬに与えた。この明白な不一致は、ＡＭＬセット中のＡＩＣＬサンプルの１つが他の任意のものよりも５倍以上高い強度値を持っていた事実により説明される。３８個のサンプルからこの１つだけを排除すると、ＡＭＬとＡＬＬとの間のＡＩＣＬに対する相対および絶対平均差はそれぞれ１．３倍および−９４＋／−２１６であった。明らかに、統計学的モデリングは倍数変化の単純比較よりも非常に意味のある結果を生み出す。
【０１７６】
モデリングアプローチは拡張することができる。第１に、非線形モデルを組み込むことができ、あるいは他の変換を観測された発現レベルに適用して、蛍光強度における非線形性に対処することができる。第２に、モデル（方法中の式１）を自然に拡張して付加的な共変量を組み込むことができる。例えば、複数の患者の臨床研究では、いくつかの臨床変数と発現プロファイルとの関係を評価することができる。第３に、たとえば非線形用量応答関係の評価において、連続的な共変量に対して非パラメータ平滑関数を組み込むことによりモデル（式１）を拡張することができる。第４に、複数の遺伝子の遺伝子調製回路についての我々の知識が蓄積するので、回帰係数α（π）（α_１，α_２，．．．，α_Ｊ）およびβ（π）（β_１，β_２，．．．，β_Ｊ）に対する“高レベル”モデルを仮定することにより遺伝子間の機能関係を公式化することができる。ここでπは全体的な遺伝子調製回路を特徴付けるパラメータの共通セットとすることができる。推定式を使用して、このような遺伝子回路モデルがどれくらい上手くデータに適合するかをテストすることができる。
【０１７７】
現在のアプローチの主な制限はｐ値の計算に関係している。先に着目したように、４．８のＺスコアはゲノムワイドの有意性がアフィイメトリックス６８００遺伝子チップに対して１％で確実に制御されるように選択される。しかしながら、対応するｐ値の計算はＺスコアに対する漸近正規分布に基づいている。小さいものから適度なサンプルサイズで、この正常性は疑わしく、このようなしきい値は控えめではない。小さいサンプルサイズでの発見科学のために、Ｚスコア４．８しきい値は暫定的ガイドラインとして取り扱うべきであることに着目することも重要である。特定の候補遺伝子との関係をテストする状況では、単一遺伝子に対して確実に１％の誤り誤差率とするための許容しきい値は２．５８のＺスコアである。最後に、ボンフェロニ補正またはその変形は遺伝子発現の共変量を考慮にいれず、これはｐ値に対して控えめな推定となる。
【０１７８】
回帰モデル。遺伝子発現プロファイルのアレイを結果のベクトルとして概念化することができる。Ｙ_ｋ＝（Ｙ_１ｋ，Ｙ_２ｋ，．．．，Ｙ_Ｊｋ）’がアレイを示すとする。ここでＹ_ｊｋはｋ番目のサンプル中のｊ番目の発現を示す（ｊ＝１，２，．．．，Ｊ；ｋ＝１，２，．．．，Ｋ）。ｘ_ｋが各ｋ番目のサンプルに関係する共変量を示すものとする。例えば、マーカー遺伝子の存在に対してｘ_ｋ＝１、その不存在に対してｘ_ｋ＝０である。ｋ番目のサンプルにおけるｊ番目の遺伝子の発現レベルに対する回帰モデルを以下のように提案する。
【数４１】

【０１７９】
ここで、（ａ_ｊ，ｂ_ｊ）は遺伝子に特異な回帰係数であり、（δ_ｋ，λ_ｋ）はそれぞれサンプルに特異な加算的および乗算的異質性因子であり、ε_ｊｋは既知の共変量およびサンプル間のシステマティックな異質性により同定されたもの以外の原因による変動を反映するランダム変数である。ｘ_ｋはバイナリであることから、ａ_ｊは正常サンプル（ｘ_ｋ＝０）中のｊ番目の遺伝子の平均発現レベルを測定し、ｂ_ｊは２つのサンプルグループ間のｊ番目の遺伝子の平均化発現レベルの差を測定する。
【０１８０】
異質性因子（δ_ｋ，λ_ｋ）は複数のｍＲＮＡサンプルを調製する際の変動に対処するために導入される。このような補正は２つのサンプルを比較する際に十分に考えられた。これらの２つのサンプル間に全体的な差次的発現がないヌル仮定のもとでは、サンプルデータを正規化して対角線上で共通技術に入れることによりこの異質性を調製することができる（１１１）。数値的安定性を確保するために切片も推定することができる。切片が０とは異なる場合には、補償するために対角線が上下に移動される。この補正を形式化して、典型的なゲノムワイドの発現パターンが安定であることを仮定することができ、線形モデルμ_ｊｋ＝δ_ｋ＋λ_ｋａ_ｊを使用して、すべてのサンプルおけるすべての遺伝子に対する平均発現値を特徴付けることができる。これらの異質性因子は加重最小２乗法により推定される（２７）。推定された異質性因子を使用して（Ｙ_ｊｋ−δ_ｋ＾）／λ_ｋ＾として観測された発現レベルを調製し、補正された発現値を使用して上記モデル（式１）のもとにさらに解析をする。
【０１８１】
ランダム変動ε_ｊｋを使用して未知のすべての原因による変動を示す。特に、この変動はサンプリング調製、遺伝子のクロスハイブリダイゼーション、またはマイクロアレイにおける他の異常と関係付けることができる。これらのランダム変動の確率分布は一般的に未知であり、正規分布のようなよく知られている何らかの分布にしたがう傾向がない。したがって、分布仮定は行われない。
【０１８２】
分析戦略。オリゴヌクレオチドアレイ発現プロファイルの統計解析における第１のステップはデータの前処理であり、これには必要に応じて制御遺伝子の除去およびデータの変換（例えば、対数変換）が含まれる。
【０１８３】
第２のステップは加算的および乗算的異質性要因（δ_ｋ、λ_ｋ）を推定することによりサンプル間の異質性を調査することである。推定は以下の加重最小２乗を最小にすることにより得られる。
【数４２】

【０１８４】
ここで、和はすべての遺伝子およびサンプルに対するものである（２７）。加重はすべての遺伝子の寄与が０と１との範囲で標準化されるように選択される。結果的に、上記の加重最小２乗は、サンプルが同質のときの遺伝子数に等しい。推定されたパラメータを使用してデータを補正する。
【０１８５】
残余についての分散仮定は課されていないことから、第３のステップは加重最小２乗を使用して（５４）、モデル（式１）中の遺伝子に特異なパラメータ（ａ_ｊ，ｂ_ｊ）を推定することである（７８）。（ａ_ｊ＾，ｂ_ｊ＾）により示される各遺伝子についての回帰推定を得るほかに、各遺伝子に対する対応する強力な標準誤差が推定公式理論を使用して計算される（４２，６４）。推定されたパラメータおよび標準誤差を使用してＺスコアを計算することができ、これは対応する標準誤差に対する平均差の比に等しい。有意性を決定するときに複数比較問題を取り扱うために、ホックベルグにより提案された修正されたボンフェロニ補正を使用してＺスコアをｐ値に変換し、これが研究結果の有意性を測定する。
【０１８６】
白血病研究。アフィイメトリックス６８００遺伝子チップオリゴヌクレオチドアレイは４つのチップからなり、これらには６８１７個の個々の遺伝子に対して結合された総７０７０オリゴヌクレオチドプローブ（制御遺伝子を除く）が含まれている。ＭＩＴの研究者は３８人の白血病患者（２７人のＡＬＬおよび１１人のＡＭＬ）から血液サンプルを集め、アフィイメトリックス６８００遺伝子チップオリゴヌクレオチドアレイを使用して、遺伝子発現プロファイルを評価した（４４）。この研究ではもっぱらトレーニングデータセットが調査された。その理由はこのデータセットがグラウブ氏らにより最も特徴付けられていたからである（４４）。マイクロアレイ解析を実行するために使用される実験プロトコルおよび得られたデータ値は（ｈｔｔｐ：／／ｗａｌｄｏ．ｗｉ．ｍｉｔ．ｅｄｕ／ｍｐｒ／ｐｕｂｓ．ｈｔｍｌ）で公衆に利用可能である。
【０１８７】
脳腫瘍研究。アフィイメトリックス６８００遺伝子チップを使用して髄芽細胞腫と診断された１０人の小児患者からの組織サンプルのｍＲＮＡ発現プロファイルを解析した。
【０１８８】
【表１】

【０１８９】
【表２】

【０１９０】
【表３】

【０１９１】
【表４】

【表５】

これは、発現値が正規分布にしたがうときには経験的確率となる。右列の図は、悪化同調と関連づけられた、推定標準偏差を示している。
【０１９２】
リファレンス
１．Ｂｒｅｅｄｅｎ，Ｌ．Ｌ．（１９９７）ＭｅｔｈｏｄｓｉｎＥｎｚｙｍｏｌｏｇｙ２８３，３３２−３４１．
２．Ｃｈｏ，Ｒ．Ｊ．，Ｃａｍｐｂｅｌｌ，Ｍ．Ｊ．，Ｗｉｎｚｅｌｅｒ，ＥＡ．，Ｓｔｅｉｎｍｅｔｚ，Ｌ．，Ｃｏｎｗａｙ，Ａ．，Ｗｏｄｉｃｋａ，Ｌ．，Ｗｏｌｆｓｂｅｒｇ，Ｔ．Ｇ．，Ｇａｂｒｉｅｌｉａｎ，Ａ．Ｅ．，Ｌａｎｄｓｍａｎ，Ｄ．ｅｔａｌ（１９９８ａ）ＭｏｌｅｃｕｌａｒＣｅｌｌ２，６５−７３．
３．Ｃｈｏ，Ｒ．Ｊ．，Ｆｒｏｍｏｎｔ−Ｒａｃｉｎｅ，Ｍ．，Ｗｏｄｉｃｋａ，Ｌ．，Ｆｅｉｅｒｂａｃｈ，Ｂ．，Ｓｔｅａｍｓ，Ｔ．，Ｌｅｇｒａｉｎ，Ｐ．，Ｌｏｃｋｈａｒｔ，Ｄ．Ｊ．，＆Ｄａｖｉｓ，Ｒ．Ｗ．（１９９８ｂ）Ｐｒｏｃ．ＮａｔＡｃａｄ．Ｓｃｉ．ＵＳＡ９５，３７５２−３７５７．
４．ＤｅＲｉｓｉ，Ｊ．Ｌ．，Ｌｙｅｒ，Ｖ．Ｒ．，＆Ｂｒｏｗｎ，Ｐ．Ｏ．（１９９７）Ｓｃｉｅｎｃｅ２７８，６８０−６８６．
５．Ｆｏｄｏｒ，Ｓ．Ｐ．Ａ．，Ｒｅａｄ，Ｊ．Ｊ．，Ｐｉｒｒｕｎｇ．Ｍ．Ｃ．，Ｓｔｒｙｅｒ，Ｌ．，Ｌｕ，Ａ．Ｔ．，＆Ｓｏｌａｓ，Ｄ．（１９９１）Ｓｃｉｅｎｃｅ２５１，７６７−７７３．
６．Ｌａｎｄｅｒ，Ｅ．Ｓ．（１９９９）ＮａｔｕｒｅＧｅｎｅｔｉｃｓＳｕｐｐｌｅｍｅｎｔ２１，３−４．
７．Ｌｉａｎｇ，Ｋ．Ｙ．＆Ｚｅｇｅｒ，Ｓ．Ｌ．（１９８６）Ｂｉｏｍｅｔｒｉｋａ７３，１３−２２．
８．Ｐｒｅｎｔｉｃｅ，Ｒ．Ｌ．＆Ｚｈａｏ，Ｌ．Ｐ．（１９９１）Ｂｉｏｍｅｔｒｉｃｓ４７，８２５−８３９．
９．Ｓｃｈｅｎａ，Ｍ．，Ｓｈａｌｏｎ，Ｄ．，Ｄａｖｉｓ，Ｒ．Ｗ．，＆Ｂｒｏｗｎ，Ｐ．Ｏ．（１９９５）Ｓｃｉｅｎｃｅ２７０，４６７−４７０．
１０．Ｓｃｈｅｎａ，Ｍ．，Ｓｈａｌｏｎ，Ｄ．，Ｈｅｌｌｅｒ，Ｒ．，Ｃｈａｉ，Ａ．，Ｂｒｏｗｎ，Ｐ．Ｏ．，＆Ｄａｖｉｓ，Ｒ．Ｗ．（１９９６）Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ９３，１０６１４−１０６１９．
１１．Ｓｐｅｌｌｍａｎ，Ｐ．Ｔ．，Ｓｈｅｒｌｏｃｋ，Ｇ．，Ｚｈａｎｇ，Ｍ．Ｑ．，Ｖｉｓｈｗａｎａｔｈ，Ｒ．Ｉ．，Ａｎｄｅｒｓ，Ｋ．，Ｅｉｓｅｎ，Ｍ．Ｂ．，Ｂｒｏｗｎ，Ｐ．Ｏ．，Ｂｏｔｓｔｅｉｎ，Ｄ．，＆Ｆｕｔｃｈｅｒ，Ｂ．（１９９８）Ｍｏｌｅｃｕｌａｒｂｉｏｌｏｇｙｏｆｔｈｅｃｅｌｌ９，３２７３−３２７９．
１２．Ｔａｍａｙｏ，Ｐ．，Ｓｌｏｎｉｍ，Ｄ．，Ｍｅｓｉｒｏｖ，Ｊ．，Ｚｈｕ，Ｑ．，Ｋｉｔａｒｅｅｗａｎ，Ｓ．，Ｄｉｍｔｒｏｖａｋｙ，Ｅ．，Ｌａｎｄｅｒ，Ｅ．Ｓ．，＆Ｇｏｌｕｂ，Ｔ．Ｒ．（１９９９）Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ９６，２９０７−２９１３．
１３．Ｔａｖａｚｏｉｅ，Ｓ．，Ｈｕｇｈｅｓ，Ｊ．Ｄ．，Ｃａｍｂｅｌｌ，Ｍ．Ｊ．，Ｃｈｏ，Ｒ．Ｊ．，＆Ｃｈｕｒｃｈ，Ｇ．Ｍ．（１９９９）ＮａｔｕｒｅＧｅｎｅｔｉｃｓ２２，２８１−２８５．
１４．Ａｇｕｉａｒ，Ｒ．Ｃ．ｅｔａｌ．Ｃｈａｒａｃｔｅｒｉｚａｔｉｏｎｏｆａｔ（１０；１２）（ｑ２４；ｐ１３）ｉｎａｃａｓｅｏｆＣＭＬｉｎｔｒａｎｓｆｏｒｍａｔｉｏｎ．ＧｅｎｅｓＣｈｒｏｍｏｓｏｍｅｓＣａｎｃｅｒ２０，４０８−１１（１９９７）．
１５．Ａｌｉｚａｄｅｈ，Ａ．Ａ．ｅｔａｌ．ＤｉｓｔｉｎｃｔｔｙｐｅｓｏｆｄｉｆｆｕｓｅｌａｒｇｅＢ−ｃｅｌｌｌｙｍｐｈｏｍａｉｄｅｎｔｉｆｉｅｄｂｙｇｅｎｅｅｘｐｒｅｓｓｉｏｎｐｒｏｆｉｌｉｎｇ．Ｎａｔｕｒｅ４０３，５０３−１１（２０００）．
１６．Ａｌｏｎ，Ｕ．ｅｔａｌ．Ｂｒｏａｄｐａｔｔｅｒｎｓｏｆｇｅｎｅｅｘｐｒｅｓｓｉｏｎｒｅｖｅａｌｅｄｂｙｃｌｕｓｔｅｒｉｎｇａｎａｌｙｓｉｓｏｆｔｕｍｏｒａｎｄｎｏｒｍａｌｃｏｌｏｎｔｉｓｓｕｅｓｐｒｏｂｅｄｂｙｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅａｒｒａｙｓ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ９６，６７４５−５０（１９９９）．
１７．Ａｙａｌａ，Ｊ．ｅｔａｌ．Ｄｅｖｅｌｏｐｍｅｎｔａｌａｎｄｒｅｇｉｏｎａｌｅｘｐｒｅｓｓｉｏｎｏｆｔｈｒｅｅｎｅｗｍｅｍｂｅｒｓｏｆｔｈｅｒａｓ−ｇｅｎｅｆａｍｉｌｙｉｎｔｈｅｍｏｕｓｅｂｒａｉｎ．ＪＮｅｕｒｏｓｃｉＲｅｓ２２，３８４−９（１９８９）．
１８．Ｂａｊａｌｉｃａ−Ｌａｇｅｒｃｒａｎｔｚ，Ｓ．，ＴｉｎｇａａｒｄＰｅｄｅｒｓｅｎ，Ｎ．，Ｓｏｒｅｎｓｅｎ，Ａ．Ｇ．，＆Ｎｏｒｄｅｎｓｋｊｏｌｄ，Ｍ．Ｄｕｐｌｉｃａｔｉｏｎｏｆ２ｑ３１−ｑｔｅｒａｓａｓｏｌｅａｂｅｒｒａｔｉｏｎｉｎａｃａｓｅｏｆｎｏｎ− Ｈｏｄｇｋｉｎ’ｓｌｙｍｐｈｏｍａ．ＣａｎｃｅｒＧｅｎｅｔＣｙｔｏｇｅｎｅｔ９０，１０２−５（１９９６）．
１９．Ｂｅｎ−Ｄｏｔ，Ａ．，Ｓｈａｍｉｒ，Ｒ．，＆Ｙａｋｈｉｎｉ，Ｚ．Ｃｌｕｓｔｅｒｉｎｇｇｅｎｅｅｘｐｒｅｓｓｉｏｎｐａｔｔｅｒｎｓ．ＪＣｏｍｐｕｔＢｉｏｌ６，２８１−９７（１９９９）．
２０．Ｂｅｒｇｅｔ，Ｒ．，ＬｅＣｏｎｉａｔ，Ｍ．，Ｄｅｒｒｅ，Ｊ．，Ｖｅｃｃｈｉｏｎｅ，Ｄ．，＆Ｊｏｎｖｅａｕｘ，Ｐ．Ｃｙｔｏｇｅｎｅｔｉｃｓｔｕｄｉｅｓｉｎａｃｕｔｅｐｒｏｍｙｅｌｏｃｙｔｉｃｌｅｕｋｅｍｉａ：ａｓｕｒｖｅｙｏｆｓｅｃｏｎｄａｒｙｃｈｒｏｍｏｓｏｍａｌａｂｎｏｒｍａｌｉｔｉｅｓ．ＧｅｎｅｓＣｈｒｏｍｏｓｏｍｅｓＣａｎｃｅｒ３，３３２−７（１９９１）．
２１．Ｂｒｅｎｔ，Ｒ．Ｇｅｎｏｍｉｃｂｉｏｌｏｇｙ．Ｃｅｌｌ１００，１６９−８３（２０００）．
２２．Ｂｒｏｗｎ，Ｐ．Ｏ．＆Ｂｏｔｓｔｅｉｎ，Ｄ．ＥｘｐｌｏｒｉｎｇｔｈｅｎｅｗｗｏｒｌｄｏｆｔｈｅｇｅｎｏｍｅｗｉｔｈＤＮＡｍｉｃｒｏａｒｒａｙｓ．ＮａｔＧｅｎｅｔ２１，３３−７（１９９９）．
２３．Ｂｕｎｄｇａａｒｄ，Ｊ．Ｒ．，Ｓｅｎｇｅｌｏｖ，Ｈ．，Ｂｏｒｒｅｇａａｒｄ，Ｎ．，＆Ｋｊｅｌｄｓｅｎ，Ｌ．ＭｏｌｅｃｕｌａｒｃｌｏｎｉｎｇａｎｄｅｘｐｒｅｓｓｉｏｎｏｆａｃＤＮＡｅｎｃｏｄｉｎｇＮＧＡＬ：ａｌｉｐｏｃａｌｉｎｅｘｐｒｅｓｓｅｄｉｎｈｕｍａｎｎｅｕｔｒｏｐｈｉｌｓ．ＢｉｏｃｈｅｍＢｉｏｐｈｙｓＲｅｓＣｏｍｍｕｎ２０２，１４６８−７５（１９９４）．
２４．Ｃａｅｎ，Ｊ．Ｐ．，Ｈａｎ，Ｚ．Ｃ．，Ｂｅｌｌｕｃｃｉ，Ｓ．，＆Ａｌｅｍａｎｙ，Ｍ．Ｒｅｇｕｌａｔｉｏｎｏｆｍｅｇａｋａｒｙｏｃｙｔｏｐｏｉｅｓｉｓ．Ｈａｅｍｏｓｔａｓｉｓ２９，２７−４０（１９９９）．
２５．Ｃａｍｐｂｅｌｌ，Ｌ．ｅｔａｌ．ＤｉｒｅｃｔｉｎｔｅｒａｃｔｉｏｎｏｆＳｍｎｗｉｔｈｄｐ１０３，ａｐｕｔａｔｉｖｅＲＮＡｈｅｌｉｃａｓｅ：ａｒｏｌｅｆｏｒＳｍｎｉｎｔｒａｎｓｃｒｉｐｔｉｏｎｒｅｇｕｌａｔｉｏｎ？ＨｕｍＭｏｌＧｅｎｅｔ９，１０９３−１００（２０００）．
２６．Ｃａｒｒａｎｏ，Ａ．Ｃ．，Ｅｙｔａｎ，Ｅ．，Ｈｅｒｓｈｋｏ，Ａ．，＆Ｐａｇａｎｏ，Ｍ．ＳＫＰ２ｉｓｒｅｑｕｉｒｅｄｆｏｒｕｂｉｑｕｉｔｉｎ−ｍｅｄｉａｔｅｄｄｅｇｒａｄａｔｉｏｎｏｆｔｈｅＣＤＫｉｎｈｉｂｉｔｏｒｐ２７．ＮａｔＣｅｌｌＢｉｏｌ１，１９３−９（１９９９）．
２７．Ｃａｒｒｏｌｌ，Ｒ．Ｊ．＆Ｒｕｐｐｅｒｔ，Ｄ．Ｔｒａｎｓｆｏｒｍａｔｉｏｎａｎｄｗｅｉｇｈｔｉｎｇｉｎｒｅｇｒｅｓｓｉｏｎ，ＣｈａｐｍａｎａｎｄＨａｌｌ，Ｌｏｎｄｏｎ（１９８８）．
２８．Ｃｈｅｎ，Ｙ．Ｚ．ｅｔａｌ．Ｔｈｒｏｍｂｏｓｐｏｎｄｉｎ，ａｎｅｇａｔｉｖｅｍｏｄｕｌａｔｏｒｏｆｍｅｇａｋａｒｙｏｃｙｔｏｐｏｉｅｓｉｓ．ＪＬａｂＣｒｉｎＭｅｄ１２９，２３１−８（１９９７）．
２９．Ｃｈｕ，Ｓ．ｅｔａｌ．Ｔｈｅｔｒａｎｓｃｒｉｐｔｉｏｎａｌｐｒｏｇｒａｍｏｆｓｐｏｒｕｌａｔｉｏｎｉｎｂｕｄｄｉｎｇｙｅａｓｔ．Ｓｃｉｅｎｃｅ２８２，６９９−７０５（１９９８）．
３０．Ｃｏｌｌｅｒ，Ｈ．Ａ．ｅｔａｌ．ＥｘｐｒｅｓｓｉｏｎａｎａｌｙｓｉｓｗｉｔｈｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅｍｉｃｒｏａｒｒａｙｓｒｅｖｅａｌｓｔｈａｔＭＹＣｒｅｇｕｌａｔｅｓｇｅｎｅｓｉｎｖｏｌｖｅｄｉｎｇｒｏｗｔｈ，ｃｅｌｌｃｙｃｌｅ，ｓｉｇｎａｌｉｎｇ，ａｎｄａｄｈｅｓｉｏｎ．ＰｒｏｃＮａｉｌＡｃａｄＳｃｉＵＳＡ９７，３２６０−５（２０００）．
３１．ＤｅＲｉｓｉ，Ｊ．ｅｔａｌ．ＵｓｅｏｆａｃＤＮＡｍｉｃｒｏａｒｒａｙｔｏａｎａｌｙｓｅｇｅｎｅｅｘｐｒｅｓｓｉｏｎｐａｔｔｅｒｎｓｉｎｈｕｍａｎｃａｎｃｅｒ．ＮａｔＧｅｎｅｔ１４，４５７−６０（１９９６）．
３２．ＤｅＲｉｓｉ，Ｊ．Ｌ．，Ｉｙｅｒ，Ｖ．Ｒ．，＆Ｂｒｏｗｎ，Ｐ．Ｏ．Ｅｘｐｌｏｒｉｎｇｔｈｅｍｅｔａｂｏｌｉｃａｎｄｇｅｎｅｔｉｃｃｏｎｔｒｏｌｏｆｇｅｎｅｅｘｐｒｅｓｓｉｏｎｏｎａｇｅｎｏｍｉｃｓｃａｌｅ．Ｓｃｉｅｎｃｅ２７８，６８０−６（１９９７）．
３３．Ｅｉｓｅｎ，Ｍ．Ｂ．，Ｓｐｅｌｌｍａｎ，Ｐ．Ｔ．，Ｂｒｏｗｎ，Ｐ．０．，＆Ｂｏｔｓｔｅｉｎ，Ｄ．Ｃｌｕｓｔｅｒａｎａｌｙｓｉｓａｎｄｄｉｓｐｌａｙｏｆｇｅｎｏｍｅ−ｗｉｄｅｅｘｐｒｅｓｓｉｏｎｐａｔｔｅｒｎｓ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ９５，１４８６３−８（１９９８）．
３４．Ｅｌ−Ｒｉｆａｌ，Ｗ．，Ｅｌｏｎｅｎ，Ｅ．，Ｌａｒｒａｍｅｎｄｙ，Ｍ．，Ｒｕｕｔｕ，Ｔ．，＆Ｋｎｕｕｔｉｌａ，Ｓ．ＣｈｒｏｍｏｓｏｍａｌｂｒｅａｋｐｏｉｎｔｓａｎｄｃｈａｎｇｅｓｉｎＤＮＡｃｏｐｙｎｕｍｂｅｒｉｎｒｅｆｒａｃｔｏｒｙａｃｕｔｅｍｙｅｌｏｉｄｌｅｕｋｅｍｉａ．Ｌｅｕｋｅｍｉａ１１，９５８−６３（１９９７）．
３５．Ｆｅｎｇ，Ｘ．，Ｔｅｉｔｅｌｂａｕｍ，Ｓ．Ｌ．，Ｑｕｉｒｏｚ，Ｍ．Ｅ．，Ｔｏｗｌｅｒ，Ｄ．Ａ．，＆Ｒｏｓｓ，Ｆ．Ｐ．Ｃｌｏｎｉｎｇｏｆｔｈｅｍｕｒｉｎｅｂｅｔａ５ｉｎｔｅｇｒｉｎｓｕｂｕｎｉｔｐｒｏｍｏｔｅｒ．Ｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆａｎｏｖｅｌｓｅｑｕｅｎｃｅｍｅｄｉａｔｉｎｇｇｒａｎｕｌｏｃｙｔｅ−ｍａｃｒｏｐｈａｇｅｃｏｌｏｎｙ−ｓｔｉｍｕｌａｔｉｎｇｆａｃｔｏｒ−ｄｅｐｅｎｄｅｎｔｒｅｐｒｅｓｓｉｏｎｏｆｂｅｔａ５ｉｎｔｅｇｒｉｎｇｅｎｅｔｒａｎｓｃｒｉｐｔｉｏｎ．ＪＢｉｏｌＣｈｅｍ２７４，１３６６−７４（１９９９）．
３６．Ｆｅｒｅａ，Ｔ．Ｌ．，Ｂｏｔｓｔｅｉｎ，Ｄ．，Ｂｒｏｗｎ，Ｐ．Ｏ．，＆Ｒｏｓｅｎｚｗｅｉｇ，Ｒ．Ｆ．Ｓｙｓｔｅｍａｔｉｃｃｈａｎｇｅｓｉｎｇｅｎｅｅｘｐｒｅｓｓｉｏｎｐａｔｔｅｒｎｓｆｏｌｌｏｗｉｎｇａｄａｐｔｉｖｅｅｖｏｌｕｔｉｏｎｉｎｙｅａｓｔ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ９６，９７２１−６（１９９９）．
３７．Ｆｉｏｒｅｔｏｓ，Ｔ．ｅｔａｌ．Ｉｓｏｃｂｒｏｍｏｓｏｍｅ１７ｑｉｎｂｌａｓｔｃｒｉｓｉｓｏｆｃｈｒｏｎｉｃｍｙｅｌｏｉｄｌｅｕｋｅｍｉａａｎｄｉｎｏｔｈｅｒｈｅｍａｔｏｌｏｇｉｃｍａｌｉｇｎａｎｃｉｅｓｉｓｔｈｅｒｅｓｕｌｔｏｆｃｌｕｓｔｅｒｅｄｂｒｅａｋｐｏｉｎｔｓｉｎ１７ｐ１１ａｎｄｉｓｎｏｔａｓｓｏｃｉａｔｅｄｗｉｔｈｃｏｄｉｎｇＴＰ５３ｍｕｔａｔｉｏｎｓ．Ｂｌｏｏｄ９４，２２５−３２（１９９９）．
３８．Ｆｏｄｏｒ，Ｓ．Ｐ．ｅｔａｔＬｉｇｈｔ−ｄｉｒｅｃｔｅｄ，ｓｐａｔｉａｌｌｙａｄｄｒｅｓｓａｂｌｅｐａｒａｌｌｅｌｃｈｅｍｉｃａｌｓｙｎｔｈｅｓｉｓ．Ｓｃｉｅｎｃｅ２５１，７６７−７３（１９９１）．
３９．Ｆｏｎｔｅｎａｙ−Ｒｏｕｐｉｅ，Ｍ．ｅｔａｌ．Ｔｂｒｏｍｂｏｐｏｉｅｔｉｎａｃｔｉｖａｔｅｓｈｕｍａｎｐｌａｔｅｌｅｔｓａｎｄｉｎｄｕｃｅｓｔｙｒｏｓｉｎｅｐｈｏｓｐｈｏｒｙｌａｔｉｏｎｏｆｐ８０／８５ｃｏｒｔａｃｔｉｎ．ＴｈｒｏｍｂＨａｅｍｏｓｔ７９，１９５−２０１（１９９８）．
４０．Ｆｒａｃｃｈｉｏｌｌａ，Ｎ．Ｓ．，Ｃｏｌｏｍｂｏ，Ｇ．，Ｆｉｎｅｌｌｉ，Ｐ．，Ｍａｉｏｌｏ，Ａ．Ｔ．，＆Ｎｅｒｔ，Ａ．ＥＨＴ，ａｎｅｗｍｅｍｂｅｒｏｆｔｈｅＭＴＧ８／ＥＴＯｇｅｎｅｆａｍｉｌｙ，ｍａｐｓｏｎ２０ｑ１１ｒｅｇｉｏｎａｎｄｉｓｄｅｌｅｔｅｄｉｎａｃｕｔｅｍｙｅｌｏｉｄｌｅｕｋｅｍｉａｓ．Ｂｌｏｏｄ９２，３４８１−４（１９９８）．
４１．Ｇａａｓｔｅｒｌａｎｄ，Ｔ．＆Ｂｅｋｉｒａｎｏｖ，Ｓ．Ｍａｋｉｎｇｔｈｅｍｏｓｔｏｆｎｉｉｃｒｏａｒｒａｙｄａｔａ．ＮａｔＧｅｎｅｔ２４，２０４−６（２０００）．
４２．Ｇｏｄａｍｂｅ，Ｖ．Ｐ．Ａｎｏｐｔｉｍｕｍｐｒｏｐｅｒｔｙｏｆｒｅｇｕｌａｒｍａｘｉｍｕｍｌｉｋｅｌｉｈｏｏｄｅｓｔｉｍａｔｉｏｎ．ＡｎｎａｌｓｏｆＭａｔｈｅｍａｔｉｃａｌＳｔａｔｉｓｔｉｃｓ３１，１２０８−１２（１９６０）．
４３．Ｇｏｇｉｎｅｎｉ，Ｓ．Ｋ．ｅｔａｌ．Ｖａｒｉａｎｔｃｏｍｐｌｅｘｔｒａｎｓｌｏｃａｔｉｏｎｓｉｎｖｏｌｖｉｎｇｃｈｒｏｍｏｓｏｍｅｓ１，９，９，１５ａｎｄ１７ｉｎａｃｕｔｅｐｒｏｍｙｅｌｏｃｙｔｉｃｌｅｕｋｅｍｉａｗｉｔｈｏｕｔＲＡＲａｌｐｈａ／ＰＭＬｇｅｎｅｆｕｓｉｏｎｒｅａｒｒａｎｇｅｍｅｎｔ．Ｌｅｕｋｅｍｉａ１１，５１４−８（１９９７）．
４４．Ｇｏｌｕｂ，Ｔ．Ｒ．ｅｔａｌ．Ｍｏｌｅｃｕｌａｒｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｃａｎｃｅｒ：ｃｌａｓｓｄｉｓｃｏｖｅｒｙａｎｄｃｌａｓｓｐｒｅｄｉｃｔｉｏｎｂｙｇｅｎｅｅｘｐｒｅｓｓｉｏｎｍｏｎｉｔｏｒｉｎｇ．Ｓｃｉｅｎｃｅ２８６，５３１−７（１９９９）．
４５．Ｇｏｔｏｈ，Ａ．，Ｒｉｔｃｈｉｅ，Ａ．，Ｔａｋａｂｉｒａ，Ｈ．，＆Ｂｒｏｘｍｅｙｅｒ，Ｈ．Ｅ．Ｔｈｒｏｍｂｏｐｏｉｅｔｉｎａｎｄｅｒｙｔｂｒｏｐｏｉｅｔｉｎａｃｔｉｖａｔｅｉｎｓｉｄｅ−ｏｕｔｓｉｇｎａｌｉｎｇｏｆｉｎｔｅｇｒｉｎａｎｄｅｎｈａｎｃｅａｄｈｅｓｉｏｎｔｏｉｍｍｏｂｉｌｉｚｅｄｆｉｂｒｏｎｅｃｔｉｎｉｎｈｕｍａｎｇｒｏｗｔｈ−ｆａｃｔｏｒ−ｄｅｐｅｎｄｅｎｔｈｅｍａｔｏｐｏｉｅｔｉｃｃｅｌｌｓ．ＡｎｎＨｅｍａｔｏｌ７５，２０７−１３（１９９７）．
４６．ＧｒａｆＧ．，Ｄｅｈｍｅｌ，Ｕ．，＆Ｄｒｅｘｌｅｒ，Ｈ．Ｇ．ＥｘｐｒｅｓｓｉｏｎｏｆｔｈｒｏｍｂｏｐｏｉｅｔｉｎａｎｄｔｂｒｏｍｂｏｐｏｉｅｔｉｎｒｅｃｅｐｔｏｒＭＰＬｉｎｈｕｍａｎｌｅｕｋｅｍｉａ−ｌｙｍｐｈｏｍａａｎｄｓｏｌｉｄｔｕｍｏｒｃｅｌｌｌｉｎｅｓ．ＬｅｕｋＲｅｓ２０，８３１−８（１９９６）．
４７．Ｇｒｉｍｗａｄｅ，Ｄ．ｅｔａｌ．Ｃｈａｒａｃｔｅｒｉｚａｔｉｏｎｏｆｃｒｙｐｔｉｃｒｅａｒｒａｎｇｅｍｅｎｔｓａｎｄｖａｒｉａｎｔｔｒａｎｓｌｏｃａｔｉｏｎｓｉｎａｃｕｔｅｐｒｏｍｙｅｌｏｃｙｔｉｃｌｅｕｋｅｍｉａ．Ｂｌｏｏｄ９０，４８７６−８５（１９９７）．
４８．Ｈａａｓｅ，Ｄ．ｅｔａｌ．ＥｖｉｄｅｎｃｅｆｏｒｍａｌｉｇｎａｎｔｔｒａｎｓｆｏｒｍａｔｉｏｎｉｎａｃｕｔｅｍｙｅｌｏｉｄｌｅｕｋｅｍｉａａｔｔｈｅｌｅｖｅｌｏｆｅａｒｌｙｈｅｍａｔｏｐｏｉｅｔｉｃｓｔｅｍｃｅｌｌｓｂｙｃｙｔｏｇｅｎｅｔｉｃａｎａｌｙｓｉｓｏｆＣＤ３４＋ｓｕｂｐｏｐｕｌａｔｉｏｎｓ．Ｂｌｏｏｄ８６，２９０６−１２（１９９５）．
４９．Ｈａｍａｎｎ，Ｊ．，Ｍｏｎｔｇｏｍｅｒｙ，Ｋ．Ｔ．，Ｌａｕ，Ｓ．，Ｋｕｃｈｅｒｌａｐａｔｉ，Ｒ．，＆ｖａｎＬｉｅｒ，Ｒ．Ａ．ＡＩＣＬ：ａｎｅｗａｃｔｉｖａｔｉｏｎ−ｉｎｄｕｃｅｄａｎｔｉｇｅｎｅｎｃｏｄｅｄｂｙｔｈｅｈｕｍａｎＮＫｇｅｎｅｃｏｍｐｌｅｘ．Ｉｉｎｍｕｎｏｇｅｎｅｔｉｃｓ４５，２９５−３００（１９９７）．
５０．Ｈａｓｅｌｂｅｃｋ，Ｒ．Ｊ．＆Ｄｕｅｓｔｅｒ，Ｇ．ＡＤＨ４−ｌａｃＺｔｒａｎｓｇｅｎｉｃｍｏｕｓｅｒｅｖｅａｌｓａｌｃｏｈｏｌｄｅｈｙｄｒｏｇｅｎａｓｅｌｏｃａｌｉｚａｔｉｏｎｉｎｅｍｂｒｙｏｎｉｃｍｉｄｂｒａｉｎｌｈｉｎｄｂｒａｉｎ，ｏｔｉｃｖｅｓｉｃｌｅｓ，ａｎｄｍｅｓｅｎｃｅｐｈａｌｉｃ，ｔｒｉｇｅｍｉｎａｌ，ｆａｃｉａｌ，ａｎｄｏｌｆａｃｔｏｒｙｎｅｕｒａｌｃｒｅｓｔ．ＡｌｃｏｈｏｌＣｈｉｎＥｘｐＲｅｓ２２，１６０７−１３（１９９８）．
５１．Ｈｉｒｏｓｅ，Ｙ．＆Ｔａｋｉｇｕｃｈｉ，Ｔ．Ｍｉｃｒｏｔｕｂｕｌｅｃｈａｎｇｅｓｉｎｈｅｍａｔｏｌｏｇｉｃｍａｌｉｇｎａｎｔｃｅｌｌｓｔｒｅａｔｅｄｗｉｔｈｐａｃｌｉｔａｘｅｌａｎｄｃｏｍｐａｒｉｓｏｎｗｉｔｈｖｉｎｃｒｉｓｔｉｎｅｃｙｔｏｔｏｘｉｃｉｔｙ．ＢｌｏｏｄＣｅｌｌｓＭｏｌＤｉｓ２１，１１９−３０（１９９５）．
５２．Ｈｏｃｈｂｅｒｇ，Ｙ．ＡｓｈａｒｐｅｒＢｏｎｆｅｒｒｏｎｉｐｒｏｃｅｄｕｒｅｆｏｒｍｕｌｔｉｐｌｅｔｅｓｔｏｆｓｉｇｎｉｆｉｃａｎｃｅ．Ｂｉｏｍｅｔｒｉｋａ７５，８００−８０２（１９８８）．
５３．Ｈｓｕ，Ｊ．Ｃ．Ｍｕｌｔｉｐｌｅｃｏｍｐａｒｉｓｏｎｓ：ｔｈｅｏｒｙａｎｄｍｅｔｈｏｄｓ，Ｃｈａｐｍａｎ＆Ｈａｌｌ，Ｌｏｎｄｏｎ（１９９６）．
５４．Ｈｕｂｅｒ，Ｐ．Ｊ．Ｔｈｅｂｅｈａｖｉｏｒｏｆｍａｘｉｍｕｍｌｉｋｅｌｉｈｏｏｄｅｓｔｉｍａｔｅｓｕｎｄｅｒｎｏｎｓｔａｎｄａｒｄｃｏｎｄｉｔｉｏｎ．ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＦｉｆｔｈＢｅｒｋｅｌｅｙＳｙｍｐｏｓｉｕｍｉｎＭａｔｈｅｍａｔｉｃａｌＳｔａｔｉｓｔｉｃｓａｎｄＰｒｏｂａｂｉｌｉｔｙ２２１−２３３ＵＣＰｒｅｓｓ，Ｂｅｒｋｅｌｅｙ，（６７）．
５５．Ｊａｎｋｅ，Ｊ．ｅｔａｌ．Ｓｕｐｐｒｅｓｓｉｏｎｏｆｔｕｍｏｒｉｇｅｎｉｃｉｔｙｉｎｂｒｅａｓｔｃａｎｃｅｒｃｅｌｌｓｂｙｔｈｅｍｉｃｒｏｆｉｌａｍｅｎｔｐｒｏｔｅｉｎｐｒｏｆｉｌｉｎ１．ＪＥｘｐＭｅｄ１９１，１６７５−８６（２０００）．
５６．Ｋａｇａｎ，Ｊ．ｅｔａｌ．Ｃｌｕｓｔｅｒｉｎｇｏｆｂｒｅａｋｐｏｉｎｔｓｏｎｃｈｒｏｍｏｓｏｍｅ１０ｉｎａｃｕｔｅＴ−ｃｅｌｌｌｅｕｋｅｍｉａｓｗｉｔｈｔｈｅｔ（１０；１４）ｃｈｒｏｍｏｓｏｍｅｔｒａｎｓｌｏｃａｔｉｏｎ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ８６，４１６１−５（１９８９）．
５７．Ｋａｔｅ，Ｔ．ｅｔａｌ．Ｔｈｒｏｍｂｉｎｃｌｅａｖｅｓｒｅｃｏｍｂｉｎａｎｔｈｕｍａｎｔｈｒｏｍｂｏｐｏｉｅｔｉｎ：ｏｎｅｏｆｔｈｅｐｒｏｔｅｏｌｙｔｉｃｅｖｅｎｔｓｔｈａｔｇｅｎｅｒａｔｅｓｔｒｕｎｃａｔｅｄｆｏｒｍｓｏｆｔｈｒｏｍｂｏｐｏｉｅｔｉｎ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ９４，４６６９−７４（１９９７）．
５８．Ｋａｕｓｈａｎｓｋｙ，Ｋ．Ｔｈｒｏｍｂｏｐｏｉｅｔｉｎａｎｄｈｅｍａｔｏｐｏｉｅｔｉｃｓｔｅｍｃｅｌｌｄｅｖｅｌｏｐｍｅｎｔ．ＡｎｎＮＹＡｃａｄＳｃｉ８７２，３１４−９（１９９９）．
５９．Ｋｈａｒｂａｎｄａ，Ｓ．ｅｔａｌ．Ｓｔｉｍｕｌａｔｉｏｎｏｆｈｕｍａｎｍｏｎｏｃｙｔｅｓｗｉｔｈｍａｃｒｏｐｈａｇｅｃｏｌｏｎｙ−ｓｉｍｕｌａｔｉｎｇｆａｃｔｏｒｉｎｄｕｃｅｓａＧｒｂ２−ｍｅｄｉａｔｅｄａｓｓｏｃｉａｔｉｏｎｏｆｔｈｅｆｏｃａｌａｄｈｅｓｉｏｎｋｉｎａｓｅｐｐ１２５ＦＡＫａｎｄｄｙｎａｍｉｎ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ９２，６１３２−６（１９９５）．
６０．Ｌａｓｂｋａｒｉ，Ｄ．Ａ．ｅｔａｌ．Ｙｅａｓｔｍｉｃｒｏａｒｒａｙｓｆｏｒｇｅｎｏｍｅｗｉｄｅｐａｒａｌｌｅｌｇｅｎｅｔｉｃａｎｄｇｅｎｅｅｘｐｒｅｓｓｉｏｎａｎａｌｙｓｉｓ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ９４，１３０５７−６２（１９９７）．
６１．Ｌａｗｒｅｎｃｅ，Ｈ．Ｊ．ｅｔａｌ．Ｆｒｅｑｕｅｎｔｃｏ−ｅｘｐｒｅｓｓｉｏｎｏｆｔｈｅＨＯＸＡ９ａｎｄＭＥＩＳｌｈｏｍｅｏｂｏｘｇｅｎｅｓｉｎｈｕｍａｎｍｙｅｌｏｉｄｌｅｕｋｅｍｉａｓ．Ｌｅｕｋｅｍｉａ１３，１９９３−９（１９９９）．
６２．ＬｃＣａｂｅｃ，Ｖ．，Ｃａｌａｆａｔ，Ｊ．，＆Ｂｏｒｒｅｇａａｒｄ，Ｎ．Ｓｏｒｔｉｎｇｏｆｔｈｅｓｐｅｃｉｆｉｃｇｒａｎｕｌｅｐｒｏｔｅｉｎ，ＮＧＡＬ，ｄｕｒｉｎｇｇｒａｎｕｌｏｃｙｔｉｃｍａｔｕｒａｔｉｏｎｏｆＨＬ−６０ｃｅｌｌｓ．Ｂｌｏｏｄ８９，２１１３−２１（１９９７）．
６３．Ｌｉ，Ｍ．，Ｍａｋｋｉｎｊｅ，Ａ．，＆Ｄａｍｕｎｉ，Ｚ．Ｔｈｅｍｙｅｌｏｉｄｌｅｕｋｅｍｉａ−ａｓｓｏｃｉａｔｅｄｐｒｏｔｅｉｎＳＥＴｉｓａｐｏｔｅｎｔｉｎｈｉｂｉｔｏｒｏｆｐｒｏｔｅｉｎｐｈｏｓｐｈａｔａｓｅ２Ａ．ＪＢｉｏｌＣｈｅｍ２７１，１１０５９−６２（１９９６）．
６４．Ｌｉａｎｇ，Ｋ．Ｙ．＆Ｚｅｇｅｒ，Ｓ．Ｌ．Ｌｏｎｇｉｔｕｄｉｎａｌｄａｔａａｎａｌｙｓｉｓｕｓｉｎｇｇｅｎｅｒａｌｉｚｅｄｌｉｎｅａｒｍｏｄｅｌｓ．Ｂｉｏｍｅｔｒｉｋａ７３，１３−２２（１９８６）．
６５．Ｌｕｏ，Ｓ．Ｓ．，Ｏｇａｔａ，Ｋ．，Ｙｏｋｏｓｅ，Ｎ．，Ｋａｔｏ，Ｔ．，＆Ｄａｎ，Ｋ．Ｅｆｆｅｃｔｏｆｔｈｒｏｍｂｏｐｏｉｅｔｉｎｏｎｐｒｏｌｉｆｅｒａｔｉｏｎｏｆｂｌａｓｔｓｆｒｏｍｐａｔｉｅｎｔｓｗｉｔｈｍｙｅｌｏｄｙｓｐｌａｓｔｉｃｓｙｎｄｒｏｍｅｓ．ＳｔｅｍＣｅｌｌｓ１８，１１２−９（２０００）．
６６．Ｍａｎｃｉｎｉ，Ｍ．ｅｔａｌ．Ｕｓｅｏｆｄｕａｌ−ｃｏｌｏｒｉｎｔｅｒｐｈａｓｅＦＩＳＨｆｏｒｔｈｅｄｅｔｅｃｔｉｏｎｏｆｉｎｖ（１６）ｉｎａｃｕｔｅｍｙｅｌｏｉｄｌｅｕｋｅｍｉａａｔｄｉａｇｎｏｓｉｓ，ｒｅｌａｐｓｅａｎｄｄｕｒｉｎｇｆｏｌｌｏｗ−ｕｐ：ａｓｔｕｄｙｏｆ２３ｐａｔｉｅｎｔｓ．Ｌｅｕｋｅｍｉａ１４，３６４−８（２０００）．
６７．Ｍａｒｌｔｏｎ，Ｐ．ｅｔａｌ．Ｍｏｌｅｃｕｌａｒｃｈａｒａｃｔｅｒｉｚａｔｉｏｎｏｆｌ６ｐｄｅｌｅｔｉｏｎｓａｓｓｏｃｉａｔｅｄｗｉｔｈｉｎｖｅｒｓｉｏｎ１６ｄｅｆｉｎｅｓｔｈｅｃｒｉｔｉｃａｌｆｕｓｉｏｎｆｏｒｌｅｕｋｅｍｏｇｅｎｅｓｉｓ．Ｂｌｏｏｄ８５，７７２−９（１９９５）．
６８．ＭｃＤｏｎａｌｄ，Ｊ．Ｄ．ｅｔａｌ．Ｐｈｙｓｉｃａｌｍａｐｐｉｎｇｏｆｃｈｒｏｍｏｓｏｍｅ１７ｐ１３．３ｉｎｔｈｅｒｅｇｉｏｎｏｆａｐｕｔａｔｉｖｅｔｕｍｏｒｓｕｐｐｒｅｓｓｏｒｇｅｎｅｉｍｐｏｒｔａｎｔｉｎｍｅｄｕｌｌｏｂｌａｓｔｏｍａ．Ｇｅｎｏｍｉｃｓ２３，２２９−３２（１９９４）．６９．Ｍｅｌｎｉｃｋ，Ａ．ｅｔａｌ．Ｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｎｏｖｅｌｃｈｒｏｍｏｓｏｍａｌｒｅａｒｒａｎｇｅｍｅｎｔｓｉｎａｃｕｔｅｍｙｅｌｏｇｅｎｏｕｓｌｅｕｋｅｍｉａｉｎｖｏｌｖｉｎｇｌｏｃｉｏｎｃｈｒｏｍｏｓｏｍｅ２ｐ２３，１５ｑ２２ａｎｄ１７ｑ２ｌ．Ｌｅｕｋｅｍｉａ１３，１５３４−８（１９９９）．
７０．Ｍｏｔｏｊｉ，Ｔ．ｅｔａｌ．Ｇｒｏｗｔｈｓｔｉｍｕｌａｔｏｒｙｅｆｆｅｃｔｏｆｔｈｒｏｍｂｏｐｏｉｅｔｉｎｏｎｔｈｅｂｌａｓｔｃｅｌｌｓｏｆａｃｕｔｅｍｙｅｌｏｇｅｎｏｕｓｌｅｕｋｅｍｉａ．ＢｒＪＨａｅｍａｔｏｌ９４，５１３−６（１９９６）．
７１．Ｎｉｌｓｓｏｎ，Ｊ．，Ｓｏｄｅｒｂｅｒｇ，Ｏ．，Ｎｉｌｓｓｏｎ，Ｋ．，＆Ｒｏｓｅｎ，Ａ．ＴｈｉｏｒｅｄｏｘｉｎｐｒｏｌｏｎｇｓｓｕｒｖｉｖａｌｏｆＢ−ｔｙｐｅｃｈｒｏｎｉｃｌｙｍｐｈｏｃｙｔｉｃｌｅｕｋｅｍｉａｃｅｌｌｓ．Ｂｌｏｏｄ９５，１４２０−６（２０００）．
７２．Ｎｉｎｇ，Ｚ．Ｑ．，Ｎｏｒｔｏｎ，Ｊ．Ｄ．，Ｌｉ，Ｊ．，＆Ｍｕｒｐｈｙ，Ｊ．Ｊ．ＤｉｓｔｉｎｃｔｍｅｃｈａｎｉｓｍｓｆｏｒｒｅｓｃｕｅｆｒｏｍａｐｏｐｔｏｓｉｓｉｎＲａｍｏｓｈｕｍａｎＢｃｅｌｌｓｂｙｓｉｇｎａｌｉｎｇｔｈｒｏｕｇｈＣＤ４Ｏａｎｄｉｎｔｅｒｌｅｕｋｉｎ−４ｒｅｃｅｐｔｏｒ：ｒｏｌｅｆｏｒｉｎｈｉｂｉｔｉｏｎｏｆａｎｅａｒｌｙｒｅｓｐｏｎｓｅｇｅｎｅ，Ｂｅｒｇｓ６．ＥｕｒＪＩｍｉｎｕｎｏｌ２６，２３５６−６３（１９９６）．
７３．Ｎｏｗｅｌｌ，Ｐ．Ｃ．ｅｔａｌ．Ｔｈｅｍｏｓｔｃｏｍｍｏｎｃｈｒｏｍｏｓｏｍｅｃｈａｎｇｅｉｎ８６ｃｈｒｏｎｉｃＢｃｅｌｌｏｒＴｃｅｌｌｔｕｍｏｒｓ：ａｌ４ｑ３２ｔｒａｎｓｌｏｃａｔｉｏｎ．ＣａｎｃｅｒＧｅｎｅｔＣｙｔｏｇｅｎｅｔ１９，２１９−２７（１９８６）．
７４．Ｏｌｓｏｎ，Ｊ．Ｍ．ｅｔａｌ．ＮＥＵＲＯＤ３／ｎｅｕｒｏｇｅｎｉｎ−１−ｐｏｓｉｔｉｖｅｍｅｄｕｌｌｏｂｌａｓｔｏｍａｓｓｈａｒｅａｄｉｓｔｉｎｃｔｃｏｈｏｒｔｏｆｐｒｅｆｅｒｅｎｔｉａｌｌｙｅｘｐｒｅｓｓｅｄｇｅｎｅｓ：ｉｍｐｌｉｃａｔｉｏｎｓｆｏｒｔｈｅｒａｐｅｕｔｉｃｓｔｒａｔａｇｉｅｓ（ｐｅｒｓｏｎａｌｃｏｍｍｕｎｉｃａｔｉｏｎ）．
７５．Ｏｓｔｒｏｗｓｋｉ，Ｊ．，Ｆｌｏｒｉｅ，Ｓ．Ｋ．，Ｄｅｎｉｓ，Ｇ．Ｖ．，Ｓｕｚｕｋｉ，Ｈ．，＆Ｂｏｍｓｚｔｙｋ，Ｋ．Ｓｔｉｍｕｌａｔｉｏｎｏｆｐ８５／ＲｌＮＧ３ｋｉｎａｓｅｉｎｍｕｌｔｉｐｌｅｏｒｇａｎｓａｆｔｅｒｓｙｓｔｅｍｉｃａｄｍｉｎｉｓｔｒａｔｉｏｎｏｆｒｎｉｔｏｇｅｎｓｉｎｔｏｍｉｃｅ．Ｏｎｃｏｇｅｎｅ１６，１２２３−７（１９９８）．
７６．Ｐｅｒｖａｉｚ，Ｓ．，Ｓｅｙｅｄ，Ｍ．Ａ．，Ｈｉｒｐａｒａ，Ｊ．Ｌ．，Ｃｌｅｍｅｎｔ，Ｍ．Ｖ．，＆Ｌｏｎ，Ｋ．Ｗ．Ｐｕｒｉｆｉｅｄｐｈｏｔｏｐｒｏｄｕｃｔｓｏｆｍｅｒｏｃｙａｎｉｎｅ５４０ｔｒｉｇｇｅｒｃｙｔｏｃｈｒｏｍｅＣｒｅｌｅａｓｅａｎｄｃａｓｐａｓｅ８−ｄｅｐｅｎｄｅｎｔａｐｏｐｔｏｓｉｓｉｎｈｕｍａｎｌｅｕｋｅｍｉａａｎｄｍｅｌａｎｏｍａｃｅｌｌｓ．Ｂｌｏｏｄ９３，４０９６−１０８（１９９９）．
７７．Ｐｉｎｔｏｄｏ，Ｏ．Ｐ．Ｋｏｌｔｅｒｕｄ，Ａ．，＆Ｃａｒｌｓｓｏｎ，Ｌ．ＥｘｐｒｅｓｓｉｏｎｏｆｔｈｅＬＩＭ−ｈｏｍｅｏｂｏｘｇｅｎｅＬＨ２ｇｅｎｅｒａｔｅｓｉｍｍｏｒｔａｌｉｚｅｄｓｔｅｅｌｆａｃｔｏｒ−ｄｅｐｅｎｄｅｎｔｍｕｌｔｉｐｏｔｅｎｔｈｅｍａｔｏｐｏｉｅｔｉｃｐｒｅｃｕｒｓｏｒｓ．ＥＭＢＯＪ１７，５７４４−５６（１９９８）．
７８．Ｐｒｅｎｔｉｃｅ，Ｒ．Ｌ．＆Ｚｈａｏ，Ｌ．Ｐ．Ｅｓｔｉｍａｔｉｎｇｅｑｕａｔｉｏｎｓｆｏｒｐａｒａｍｅｔｅｒｓｉｎｍｅａｎｓａｎｄｃｏｖａｒｉａｎｃｅｓｏｆｍｕｌｔｉｖａｒｉａｔｅｄｉｓｃｒｅｔｅｃｏｎｔｉｎｕｏｕｓｒｅｓｐｏｎｓｅｓ．Ｂｉｏｍｅｔｒｉｃｓ４７，８２５−８３９（１９９１）．
７９．Ｒａｇｉｏｎｅ，Ｆ．Ｄ．＆Ｉｏｌａｓｃｏｎ，Ａ．Ｉｎａｃｔｉｖａｔｉｏｎｏｆｃｙｃｌｉｎ−ｄｅｐｅｎｄｅｎｔｋｉｎａｓｅｉｎｈｉｂｉｔｏｒｇｅｎｅｓａｎｄｄｅｖｅｌｏｐｍｅｎｔｏｆｈｕｍａｎａｃｕｔｅｌｅｕｋｅｍｉａｓ．ＬｅｕｋＬｙｍｐｈｏｍａ２５，２３−３５（１９９７）．
８０．Ｒａｓｃｈｅｌｌａ，Ｇ．ｅｔａｌ．ＥｘｐｒｅｓｓｉｏｎｏｆＢ−ｍｙｂｉｎｎｅｕｒｏｂｌａｓｔｏｍａｔｕｍｏｒｓｉｓａｐｏｏｒｐｒｏｇｎｏｓｔｉｃｆａｃｔｏｒｉｎｄｅｐｅｎｄｅｎｔｆｒｏｍＭＹＣＮａｍｐｌｉｆｉｃａｔｉｏｎ．ＣａｎｃｅｒＲｅｓ５９，３３６５−８（１９９９）．
８１．Ｒａｙｎａｕｄ，Ｓ．Ｄ．ｅｔａｌ．Ｒｅｃｕｒｒｅｎｔｃｙｔｏｇｅｎｅｔｉｃａｂｎｏｒｍａｌｉｔｉｅｓｏｂｓｅｒｖｅｄｉｎｃｏｍｐｌｅｔｅｒｅｍｉｓｓｉｏｎｏｆａｃｕｔｅｍｙｅｌｏｉｄｌｅｕｋｅｍｉａｄｏｎｏｔｎｅｃｅｓｓａｒｉｌｙｍａｒｋｐｒｅｌｅｕｋｅｍｉｃｃｅｌｌｓ．Ｌｅｕｋｅｍｉａ８，２４５−９（１９９４）．
８２．Ｒｅｂｌｉ，Ｍ．，Ｋｒａｕｓｅ，Ｓ．Ｗ．，Ｋｒｅｕｔｚ，Ｍ．，＆Ａｎｄｒｅｅｓｅｎ，Ｒ．ＣａｒｂｏｘｙｐｅｐｔｉｄａｓｅＭｉｓｉｄｅｎｔｉｃａｌｔｏｔｈｅＭＡＸ．１ａｎｔｉｇｅｎａｎｄｉｔｓｅｘｐｒｅｓｓｉｏｎｉｓａｓｓｏｃｉａｔｅｄｗｉｔｈｍｏｎｏｃｙｔｅｔｏｍａｃｒｏｐｈａｇｅｄｉｆｆｅｒｅｎｔｉａｔｉｏｎ．ＪＢｉｏ１Ｃｈｅｍ２７０，１５６４４−９（１９９５）．
８３．Ｒｅｙｎｏｌｄｓ，Ａ．Ｊ．，Ｈｅｙｄｏｎ，Ｋ．，Ｂａｒｔｌｅｔｔ，Ｓ．Ｅ．，＆Ｈｅｎｄｒｙ，Ｉ．Ａ．Ｅｖｉｄｅｎｃｅｆｏｒｐｈｏｓｐｈａｔｉｄｙｌｉｎｏｓｉｔｏｌ４−ｋｉｎａｓｅａｎｄａｃｔｉｎｉｎｖｏｌｖｅｍｅｎｔ．ｉｎｔｈｅｒｅｇｕｌａｔｉｏｎｏｆ１２５Ｉ−ｂｅｔａ−ｎｅｒｖｅｇｒｏｗｔｈｆａｃｔｏｒｒｅｔｒｏｇｒａｄｅａｘｏｎａｌｔｒａｎｓｐｏｒｔ．ＪＮｅｕｒｏｃｈｅｍ７３，８７−９５（１９９９）．
８４．Ｒｏｓｔｏｍｉｌｙ，Ｒ．Ｃ．ｅｔａｌ．Ｅｘｐｒｅｓｓｉｏｎｏｆｎｅｕｒｏｇｅｎｉｃｂａｓｉｃｈｅｌｉｘ−ｌｏｏｐ−ｈｅｌｉｘｇｅｎｅｓｉｎｐｒｉｍｉｔｉｖｅｎｅｕｒｏｅｃｔｏｄｅｒｍａｌｔｕｍｏｒｓ．ＣａｎｃｅｒＲｅｓ５７，３５２６−３１（１９９７）．
８５．Ｒａｗｌｅｙ，Ｊ．Ｄ．Ｍｏｌｅｃｕｌａｒｇｅｎｅｔｉｃｓｉｎａｃｕｔｅｌｅｕｋｅｍｉａ．Ｌｅｕｋｅｍｉａ１４，５１３−７（２０００）．
８６．Ｓａｌｖａｔｉ，Ｐ．Ｄ．，Ｗａｔｔ，Ｐ．Ｍ．，Ｔｈｏｍａｓ，Ｗ．Ｒ．，＆Ｋｅｅｓ，Ｕ．Ｒ．Ｍｏｌｅｃｕｌａｒｃｈａｒａｃｔｅｒｉｚａｔｉｏｎｏｆａｃｏｍｐｌｅｘｃｈｒｏｍｏｓｏｍａｌｔｒａｎｓｌｏｃａｔｉｏｎｂｒｅａｋｐｏｉｎｔｔ（１０；１４）ｉｎｃｌｕｄｉｎｇｔｈｅＨＯＸＩ１ｏｎｃｏｇｅｎｅｌｏｃｕｓ．Ｌｅｕｋｅｍｉａ１３，９７５−９（１９９９）．
８７．Ｓｃｈｒｏｅｄｅｒ，Ｔ．＆Ｊｕｓｔ，Ｕ．〜ＮｏｔｃｈｓｉｇｎａｌｉｎｇｖｉａＲＢＰ−Ｊｐｒｏｍｏｔｅｓｍｙｅｌｏｉｄｄｉｆｆｅｒｅｎｔｉａｔｉｏｎ．ＥＭＢＯＪ１９，２５５８−６８（２０００）．
８８．Ｓｅｌｙｐｅｓ，Ａ．＆Ｌａｓｚｌｏ，Ａ．Ａｎｅｗｔｒａｎｓｌｏｃａｔｉｏｎｔ（１；４；１１）ｉｎｃｏｎｇｅｎｉｔａｌａｃｕｔｅｎｏｎｌｙｍｐｈｏｃｙｔｉｃｌｅｕｋｅｍｉａ（ａｃｕｔｅｍｙｅｌｏｂｌａｓｔｉｃｌｅｕｋｅｍｉａ）．ＨｕｍＧｅｎｅｔ７６，１０６−８（１９８７）．
８９．Ｓｈｉｍｉｚｕ，Ｓ．ｅｔａｌ．Ｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｂｒｅａｋｐｏｉｎｔｃｌｕｓｔｅｒｒｅｇｉｏｎｓａｔ１ｐ３６．３ａｎｄ３ｑ２ｌｉｎｈｅｍａｔｏｌｏｇｉｃｍａｌｉｇｎａｎｃｉｅｓｗｉｔｈｔ（１；３）（ｐ３６；ｑ２１）．ＧｅｎｅｓＣｈｒｏｍｏｓｏｍｅｓＣａｎｃｅｒ２７，２２９−３８（２０００）．
９０．Ｓｈｉｐｌｅｙ，Ｊ．，Ｗｅｂｅｒ−Ｈａｌｌ，Ｓ．，＆Ｂｉｒｄｓａｌｌ，Ｓ．Ｌｏｓｓｏｆｔｈｅｃｈｒｏｍｏｓｏｍａｌｒｅｇｉｏｎ５ｑ１１−ｑ３１ｉｎｔｈｅｍｙｅｌｏｉｄｃｅｌｌｌｉｎｅＨＬ−６０：ｃｈａｒａｃｔｅｒｉｚａｔｉｏｎｂｙｃｏｍｐａｒａｔｉｖｅｇｅｎｏｍｉｃｈｙｂｒｉｄｉｚａｔｉｏｎａｎｄｆｌｕｏｒｅｓｃｅｎｃｅｉｎｓｉｔｕｈｙｂｒｉｄｉｚａｔｉｏｎ．ＧｅｎｅｓＣｈｒｏｍｏｓｏｍｅｓＣａｎｃｅｒ１５，１８２−６（１９９６）．
９１．Ｓｏｄｅｒｂｅｒｇ，Ａ．，ＳａｈａｆＢ．，＆Ｒｏｓｅｎ，Ａ．Ｔｈｉｏｒｅｄｏｘｉｎｒｅｄｕｃｔａｓｅ，ａｒｅｄｏｘ−ａｃｔｉｖｅｓｅｌｅｎｏｐｒｏｔｅｉｎ，ｉｓｓｅｃｒｅｔｅｄｂｙｎｏｒｍａｌａｎｄｎｅｏｐｌａｓｔｉｃｃｅｌｌｓ：ｐｒｅｓｅｎｃｅｉｎｈｕｍａｎｐｌａｓｍａ．ＣａｎｃｅｒＲｅｓ６０，２２８１−９（２０００）．
９２．Ｓｐｅｌｌｍａｎ，Ｐ．Ｔ．ｅｔａｌ．Ｃｏｍｐｒｅｈｅｎｓｉｖｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｃｅｌｌｃｙｃｌｅ−ｒｅｇｕｌａｔｅｄｇｅｎｅｓｏｆｔｈｅｙｅａｓｔＳａｃｃｈａｒｏｍｙｃｅｓｃｅｒｅｖｉｓｉａｅｂｙｍｉｃｒｏａｒｒａｙｈｙｂｒｉｄｉｚａｔｉｏｎ．ＭｏｌＢｉｏｌＣｅｌｌ９，３２７３−９７（１９９８）．
９３．Ｓｔａｎｌｅｙ，Ｗ．Ｓ．ｅｔａｌ．Ｃｏｎｓｔｉｔｕｔｉｏｎａｌｉｎｖｅｒｓｉｏｎｏｆｃｈｒｏｍｏｓｏｍｅ７ａｎｄｈｅｍａｔｏｌｏｇｉｃｃａｎｃｅｒｓ．ＣａｎｃｅｒＧｅｎｅｔＣｙｔｏｇｅｎｅｔ９６，４６−９（１９９７）．
９４．Ｓｔｅｒｎ，Ｍ．Ｈ．［ＯｎｃｏｇｅｎｅｓｉｓｏｆＴ−ｃｅｌｌｐｒｏｌｙｍｐｈｏｃｙｔｉｃｌｅｕｋｅｍｉａ（ｅｄｉｔｏｒｉａｌ）］．ＰａｔｈｏｌＢｉｏ１（Ｐａｒｉｓ）４４，６８９−９３（１９９６）．
９５．Ｓｔｒｅｉｔ，Ｍ．ｅｔａｌ．Ｔｈｒｏｍｂｏｓｐｏｎｄｉｎ−２：ａｐｏｔｅｎｔｅｎｄｏｇｅｎｏｕｓｉｎｈｉｂｉｔｏｒｏｆｔｕｍｏｒｇｒｏｗｔｈａｎｄａｎｇｉｏｇｅｎｅｓｉｓ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ９６，１４８８８−９３（１９９９）．
９６．Ｓｕｓｋｅ，Ｇ．ＴｈｅＳｐ−ｆａｍｉｌｙｏｆｔｒａｎｓｃｒｉｐｔｉｏｎｆａｃｔｏｒｓ．Ｇｅｎｅ２３８，２９１−３００（１９９９）．
９７．Ｔａｍａｙｏ，Ｐ．ｅｔａｌ．Ｉｎｔｅｒｐｒｅｔｉｎｇｐａｔｔｅｒｎｓｏｆｇｅｎｅｅｘｐｒｅｓｓｉｏｎｗｉｔｈｓｅｌｆ−ｏｒｇａｎｉｚｉｎｇｍａｐｓ：ｍｅｔｈｏｄｓａｎｄａｐｐｌｉｃａｔｉｏｎｔｏｈｅｍａｔｏｐｏｌｅｔｉｃｄｉｆｆｅｒｅｎｔｉａｔｉｏｎ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ９６，２９０７−１２（１９９９）．
９８．Ｔａｖａｚｏｉｅ，Ｓ．，Ｈｕｇｈｅｓ，Ｊ．Ｄ．，Ｃａｍｐｂｅｌｌ，Ｍ．Ｊ．，Ｃｈｏ，Ｒ．Ｊ．，＆Ｃｈｕｒｃｈ，Ｇ．Ｍ．Ｓｙｓｔｅｍａｔｉｃｄｅｔｅｒｍｉｎａｔｉｏｎｏｆｇｅｎｅｔｉｃｎｅｔｗｏｒｋａｒｃｈｉｔｅｃｔｕｒｅ．ＮａｔＧｅｎｅｔ２２，２８１−５（１９９９）．
９９．Ｔｅｓｔｏｎｉ，Ｎ．ｅｔａｌ．３ｑ２ｌａｎｄ３ｑ２６ｃｙｔｏｇｅｎｅｔｉｃａｂｎｏｒｍａｌｉｔｉｅｓｉｎａｃｕｔｅｍｙｅｌｏｂｌａｓｔｉｃｌｅｕｋｅｍｉａ：ｂｉｏｌｏｇｉｃａｌａｎｄｃｌｉｎｉｃａｌｆｅａｔｕｒｅｓ．Ｈａｅｍａｔｏｌｏｇｉｃａ８４，６９０−４（１９９９）．
１００．Ｔｏｋａｉ，Ｎ．ｅｔａｌ．Ｋｉｄ，ａｎｏｖｅｌｋｉｎｅｓｉｎ−ｌｉｋｅＤＮＡｂｉｎｄｉｎｇｐｒｏｔｅｉｎ，ｉｓｌｏｃａｌｉｚｅｄｔｏｃｈｒｏｍｏｓｏｍｅｓａｎｄｔｈｅｍｉｔｏｔｉｃｓｐｉｎｄｌｅ．ＥＭＢＯＪ１５，４５７−６７（１９９６）．
１０１．Ｔｏｕｈａｍｉ，Ｍ．，Ｆａｕｖｅｌ−Ｌａｆｅｖｅ，Ｆ．，ＤａＳｉｌｖａ，Ｎ．，Ｃｈｏｍｉｅｎｎｅ，Ｃ．，＆Ｌｅｇｒａｎｄ，Ｃ．Ｉｎｄｕｃｔｉｏｎｏｆｔｈｒｏｍｂｏｓｐｏｎｄｉｎ−１ｂｙａｌｌ−ｔｒａｎｓｒｅｔｉｎｏｉｃａｃｉｄｍｏｄｕｌａｔｅｓｇｒｏｗｔｈａｎｄｄｉｆｆｅｒｅｎｔｉａｔｉｏｎｏｆＨＬ−６０ｍｙｅｌｏｉｄｌｅｕｋｅｍｉａｃｅｌｌｓ．Ｌｅｕｋｅｍｉａ１１，２１３７−４２（１９９７）．
１０２．Ｔｓｕｂｏｉ，Ａ．ｅｔａｌ．ＣｏｎｓｔｉｔｕｔｉｖｅｅｘｐｒｅｓｓｉｏｎｏｆｔｈｅＷｉｌｍｓ’ ｔｕｍｏｒｇｅｎｅＷＴ１ｉｎｈｉｂｉｔｓｔｈｅｄｉｆｆｅｒｅｎｔｉａｔｉｏｎｏｆｍｙｅｌｏｉｄｐｒｏｇｅｎｉｔｏｒｃｅｌｌｓｂｕｔｐｒｏｍｏｔｅｓｔｈｅｉｒｐｒｏｌｉｆｅｒａｔｉｏｎｉｎｒｅｓｐｏｎｓｅｔｏｇｒａｎｕｌｏｃｙｔｅ−ｃｏｌｏｎｙｓｔｉｍｕｌａｔｉｎｇｆａｃｔｏｒ（Ｇ−ＣＳＦ）．ＬｅｕｌｃＲｅｓ２３，４９９−５０５（１９９９）．１０３．ＶａｎｄｅｎＢｅｒｇｈｅ，Ｈ．＆Ｍｉｃｈａｕｘ，Ｌ．５ｑ−，ｔｗｅｎｔｙ−ｆｉｖｅｙｅａｒｓｌａｔｅｒ：ａｓｙｎｏｐｓｉｓ．ＣａｎｃｅｒＧｅｎｅｔＣｙｔｏｇｅｎｅｔ９４，１−７（１９９７）．
１０４．ｖａｎＷｉｌｌｉｇｅｎ，Ｇ．，Ｇｏｒｔｅｒ，Ｇ．，＆Ａｋｋｅｒｍａｎ，Ｊ．Ｗ．Ｔｈｒｏｍｂｏｐｏｉｅｔｉｎｉｎｃｒｅａｓｅｓｐｌａｔｅｌｅｔｓｅｎｓｉｔｉｖｉｔｙｔｏａｌｐｈａ−ｔｈｒｏｍｂｉｎｖｉａａｃｔｉｖａｔｉｏｎｏｆｔｈｅＥＲＫ２−ｃＰＬＡ２ｐａｔｈｗａｙ．ＴｈｒｏｍｂＨａｅｍｏｓｔ８３，６１０−６（２０００）．
１０５．Ｖｅｒｆａｉｌｌｉｅ，Ｃ．Ｍ．，ＭｃＣａｒｔｈｙ，Ｊ．Ｂ．，＆ＭｃＧｌａｖｅ，Ｐ．Ｂ．Ｍｅｃｈａｎｉｓｍｓｕｎｄｅｒｌｙｉｎｇａｂｎｏｒｍａｌｔｒａｆｆｉｃｋｉｎｇｏｆｍａｌｉｇｎａｎｔｐｒｏｇｅｎｉｔｏｒｓｉｎｃｈｒｏｎｉｃｍｙｅｌｏｇｅｎｏｕｓｌｅｕｋｅｍｉａ．ＤｅｃｒｅａｓｅｄａｄｈｅｓｉｏｎｔｏｓｔｒｏｍａａｎｄｆｉｂｒｏｎｅｃｔｉｎｂｕｔｉｎｃｒｅａｓｅｄａｄｈｅｓｉｏｎｔｏｔｈｅｂａｓｅｍｅｎｔｍｅｍｂｒａｎｅｃｏｍｐｏｎｅｎｔｓｌａｍｉｎｉｎａｎｄｃｏｌｌａｇｅｎｔｙｐｅＩＶ．ＪＣｒｉｎＩｎｖｅｓｔ９０，１２３２−４１（１９９２）．
１０６．ｖｏｎＬｉｎｄｅｒｎ，Ｍ．ｅｔａｌ．Ｃａｎ，ａｐｕｔａｔｉｖｅｏｎｃｏｇｅｎｅａｓｓｏｃｉａｔｅｄｗｉｔｈｍｙｅｌｏｉｄｌｅｕｋｅｍｏｇｅｎｅｓｉｓ，ｍａｙｂｅａｃｔｉｖａｔｅｄｂｙｆｕｓｉｏｎｏｆｉｔｓ３’ ｈａｌｆｔｏｄｉｆｆｅｒｅｎｔｇｅｎｅｓ：ｃｈａｒａｃｔｅｒｉｚａｔｉｏｎｏｆｔｈｅｓｅｔｇｅｎｅ．ＭｏｌＣｅｌｌＢｉｏｌ１２，３３４６−５５（１９９２）．
１０７．Ｗａｎｇ，Ｚ．＆Ｒｏｅｄｅｒ，Ｒ．Ｇ．ＴｈｒｅｅｈｕｍａｎＲＮＡｐｏｌｙｍｅｒａｓｅＩＩＩ−ｓｐｅｃｉｆｉｃｓｕｂｕｎｉｔｓｆｏｒｍａｓｕｂｃｏｍｐｌｅｘｗｉｔｈａｓｅｌｅｃｔｉｖｅｆｕｎｃｔｉｏｎｉｎｓｐｅｃｉｆｉｃｔｒａｎｓｃｒｉｐｔｉｏｎｉｎｉｔｉａｔｉｏｎ．ＧｅｎｅｓＤｅｖ１１，１３１５−２６（１９９７）．
１０８．Ｗａｎｇ，Ｚ．，Ｚｈａｎｇ，Ｙ．，Ｌｕ，Ｊ．，Ｓｕｎ，Ｓ．，＆Ｒａｖｉｄ，Ｋ．Ｍｐ１ｌｉｇａｎｄｅｎｈａｎｃｅｓｔｈｅｔｒａｎｓｃｒｉｐｔｉｏｎｏｆｔｈｅｃｙｃｌｉｎＤ３ｇｅｎｅ：ａｐｏｔｅｎｔｉａｌｒｏｌｅｆｏｒＳｐ１ｔｒａｎｓｃｒｉｐｔｉｏｎｆａｃｔｏｒ．Ｂｌｏｏｄ９３，４２０８−２１（１９９９）．
１０９．Ｗｅｉｓ，Ｊ．，ＤｅＶｉｔｏ，Ｖ．，Ａｌｌｅｎ，Ｌ．，Ｌｉｎｄｅｒ，Ｄ．，＆Ｍａｇｅｎｉｓ，Ｅ．ＴｒａｎｓｌｏｃａｔｉｏｎＸ；１０ｉｎａｃａｓｅｏｆｃｏｎｇｅｎｉｔａｌａｃｕｔｅｍｏｎｏｃｙｔｉｃｌｅｕｋｅｍｉａ．ＣａｎｃｅｒＧｅｎｔＣｙｔｏｇｅｎｅｔ１６，３５７−６４（１９８５）．１１０．Ｗｈａｎｇ−Ｐｅｎｇ，Ｊ．，Ｌｅｅ，Ｅ．Ｃ．，Ｋａｏ−Ｓｈａｎ，Ｃ．Ｓ．，＆Ｓｃｈｅｃｈｔｅｒ，Ｇ．Ｒｉｎｇｃｈｒｏｍｏｓｏｍｅｉｎａｃａｓｅｏｆａｃｕｔｅｍｙｅｌｏｍｏｎｏｃｙｔｉｃｌｅｕｋｅｍｉａ：ｉｔｓｓｉｇｎｉｆｉｃａｎｃｅａｎｄａｒｅｖｉｅｗｏｆｔｈｅｌｉｔｅｒａｔｕｒｅ．ＨｅｍａｔｏｌＰａｔｈｏｌ１，５７−６５（１９８７）．
１１１．Ｗｏｄｉｃｋａ，Ｌ．，Ｄｏｎｇ，Ｈ．，Ｍｉｔｔｍａｎｎ，Ｍ．，Ｈｏ，Ｍ．Ｈ．，＆Ｌｏｃｋｈａｒｔ，Ｄ．Ｊ．Ｇｅｎｏｍｅ−ｗｉｄｅｅｘｐｒｅｓｓｉｏｎｍｏｎｉｔｏｒｉｎｇｉｎＳａｃｃｈａｒｏｍｙｃｅｓｃｅｒｅｖｉｓｉａｅ．ＮａｔＢｉｏｔｅｃｈｎｏｌ１５，１３５９−６７（１９９７）．
１１２．Ｚｈａｏ，Ｑ．，Ｅｂｅｒｓｐａｅｃｈｅｒ，Ｈ．，Ｌｅｆｅｂｖｒｅ，Ｖ．，＆ＤｅＣｒｏｍｂｒｕｇｇｈｅ，Ｂ．ＰａｒａｌｌｅｌｅｘｐｒｅｓｓｉｏｎｏｆＳｏｘ９ａｎｄＣｏｌ２ａ１ｉｎｃｅｌｌｓｕｎｄｅｒｇｏｉｎｇｃｈｏｎｄｒｏｇｅｎｅｓｉｓ．ＤｅｖＤｙｎ２０９，３７７−８６（１９９７）．
１１３．Ｈｅｙｅｒｅｔａｌ．，ＧｅｎｏｍｅＲｅｓｅａｒｃｈ９，１１０６−１１１５（１９９９）．
１１４．Ｈｅｌｔｅｒｅｔａｌ．，Ｐｒｏｃ．Ｎａｉｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ９７，８４０９−８４１４（２０００）．
１１５．Ａｌｔｅｒｅｔａｌ．，Ｐｒｏｃ．Ｎａｉｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ９７，１０１０１−１０１０６（２０００）．
本発明の好ましい実施形態が図示され、説明されたが、本発明の精神と範囲から逸脱することなく、さまざまな変化がなされてもよいことが認められるであろう。
【図面の簡単な説明】
【図１】
図１は、本発明の代表的な方法である単一パルスモデル（ＳＰＭ）の基本仮定であり、細胞周期で調製された転写物が、ある一定時間で転写され、細胞周期中の次の時間に消失する。Ａ．例えば、発現の基底レベル（α＝０）から誘導レベル（α＋β＝１）の長さ（Θ＝８０’）の２つの連続した細胞周期中に、（ζ＝１０’）で活性化し、（ζ＝５５’）で不活性化する単一転写物。Ｂ．典型的な同調化実験において、複数の転写物が細胞毎に作られ、ＲＮＡはいくつかの細胞から採取される。これらの細胞は完全には同調しておらず、同調は時間とともに悪化する。これにより、単純パルス（破線）が、時間とともに減衰する（実線）なめらかなピーク（点線）に弱まる。示されている例において、細胞の年齢は標準偏差３分から１９分へ変化する。Ｃ．得られた発現値（ポイント）は、モデル化されていたものを超える付加的な変動性と同様に、加算的および乗算的異質性両方の対象となり、これらの差は残差として知られる。これらの残差の標準偏差が推定され、Ｚスコアによって、この標準偏差に関連するパルス高の有意性が評価された。
【図２】
図２は、アルファ因子（表Ａ）、ｃｄｃ１５（表Ｂ）、およびｃｄｃ２８（比率データに関する表Ｃ、絶対強度に関する表Ｄ）のデータセットによる同調からのデータセットに対して推定されたパラメータの図である。左列は各時間点について推定された加算的異質性を反映しており、中列は各同調について推定された細胞周期間隔を、確率スケール上のプロファイルされた加重最小２乗として示している。視覚的に検査しやすいように、この２乗の和は以下の式を用いて確率スケールに変換された。
【数４３】

【図３】
図３は、５つの周期的に転写された遺伝子について３つの異なる同調細胞周期からのマイクロアレイデータ（実線）への単一パルスモデル（点線）の適合を示す。データ対時間の対数比は、アルファ因子（右段）、ｃｄｃ１５（中段）、およびｃｄｃ２８（左段）の同調について作図されている。各作図の下に、各転写物についての活性化および不活性化時間がかっこ内に示され、これに続いて、ＳＰＭのもとで演算され、ＳＰＭからのパルス高および偏差の有意性をそれぞれ示すＺスコアおよびΧ^２統計量が記されている。
【図４】
図４では、周期的な転写を示し、Ｇ１フェーズにおけるピークが、ＱＴ＿クラストアルゴリズムを用いて同定され、クラスタ直径のしきい値が＜０．３（上位４１個の遺伝子）から、＜０．５（８３個の遺伝子）、＜１．２（２７２個の遺伝子）へ変化していた。これらの連続的により大きいＧ１クラスタのメンバに関する転写物プロファイルがＳＰＭによって解析され、それらのＺスコアおよびΧ^２値が作図されている（左）。ＳＰＭのＺスコアおよびΧ^２しきい値がこれらの作図に重ねられており、これらのプロファイルの比率が周期的だとして分類されることを示している（各プロットの右下の象限）。右列の図で、各グループについての平均活性化・不活性化時間の分布が作図されている。これらのパラメータの推定値は、ＳＰＭしきい値を超えるこれらのプロファイルについてのみ、ＳＰＭにより演算された。
【図５】
図５は、Ｚスコアの絶対値＞５およびχ^２＜１１．３のしきい値を持つＳＰＭによって同定された周期的な転写物を示し、３つのデータセット間の一致の範囲が示されている。３つのデータセットのそれぞれに関する対数比データがＳＰＭによって解析された。各データセットにおいて同定された周期遺伝子の総数が示され、円で表されている。データセット間の一致は、円の交わりによって示されている。全１０８８個の遺伝子は、少なくとも１つのデータベースにおいてＳＰＭしきい値に一致する。７１個の遺伝子は、３つのデータセットすべてにおいて周期性に対するＳＰＭのしきい値に一致する。２５４個の遺伝子は少なくとも２つのデータベースにおいて周期的であるとして記録されている。８３４個の遺伝子は１つのデータセットのみで周期性を表している。Ｒ^２＞０．６のような付加的な基準が採用され、モデルが６０％以上の発現データ変動に関する説明を提供するこれら８３４個の遺伝子間のプロファイルを同定する場合、４７３個のプロファイルが同定される。
【図６】
図６は、代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図７】
図７は、単一細胞内での複数の転写物についての代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図８】
図８は、複数の細胞の可変同調を示す細胞についての代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図９】
図９は、悪化同調を示す転写物についての代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図１０】
図１０は、細胞周期のタイミングの機能としての同調変動性の図である。
【図１１】
図１１は、サンプル間の異質性を示す転写物についての代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図１２】
図１２は、遺伝子発現についての代表的な線形ＳＰＭの図であり、転写物発現レベル（β）が細胞周期のタイミングについて作図されている。
【図１３】
図１３は、遺伝子発現についての代表的な二次ＳＰＭの図であり、転写物発現レベル（β）が細胞周期のタイミングについて作図されている。
【図１４】
図１４は、正常組織と異常組織とを本発明の方法によって比較した代表的な結果の図である。

Claims

それぞれが複数のメンバを含む２つ以上のデータアレイからのデータを解析する方法であって、各メンバはシグナルを提供し、データは１つ以上の共変数と関連づけられており、この方法は、
モデルをデータアレイと共変数に適合させ、
この適合の統計学的有意性を評価することによって適合度を決定し、
シグナルの統計学的有意性を決定することを含む解析方法。
モデルをデータに適合させるより前に、メンバ間の異質性についてデータを補正することをさらに含む請求項１記載の解析方法。
メンバ間の異質性についてデータを補正することは、データを正規化することを含む請求項２記載の解析方法。
モデルを適合させることは、共変数パラメータ値を含む請求項１記載の解析方法。
モデルをデータアレイに適合させることは、既知のモデルを適合させることを含む請求項１記載の解析方法。
既知のモデルは、線形回帰モデル、指数モデル、パラメトリックモデル、ノンパラメトリックモデル、セミパラメトリックモデルのうちの少なくとも１つである請求項５記載の解析方法。
モデルをデータアレイに適合させることは、派生モデルを適合させることを含む請求項１記載の解析方法。
派生モデルは、単一パルスモデルを含む請求項７記載の解析方法。
１つ以上の共変数は、時間経過調査における時間、病状、温度、細胞型、刺激への暴露、用量応答調査における用量、臨床結果、および細胞周期のタイミングのうちの少なくとも１つである請求項１記載の方法。
１つ以上の共変数は、年齢、性別、体重、身長、人種、民族、ダイエット、および生活様式のうちの少なくとも１つである請求項１記載の解析方法。
１つ以上の共変数は、患者に対する診断、病歴、投薬歴、病理学上の分類、およびバイオマーカー情報のうち少なくとも１つである請求項１０記載の解析方法。
１つ以上の共変数は、薬に応答した細胞株の特性である請求項１記載の解析方法。
薬に応答した細胞株の特性は、ＥＤ_５０である請求項１２記載の解析方法。
共変数値は加重最小２乗法によって推定される請求項４記載の解析方法。
シグナルの統計学的有意性は、シグナルシグナル対雑音比を評価することによって決定される請求項１記載の解析方法。
データアレイは、同調化実験から導出されるデータを含む請求項１記載の解析方法。
方法は細胞周期における単一の転写物の発現を解析することを含む請求項１６記載の解析方法。
方法は細胞周期における複数の転写物の発現を解析することを含む請求項１６記載の解析方法。
方法は複数の細胞型における１つ以上の転写物の発現を解析することを含む請求項１６記載の解析方法。
方法は可変同調化実験を示す複数の細胞型の発現を解析することを含む請求項１９記載の解析方法。
方法は悪化同調を示す複数の細胞型の発現を解析することを含む請求項１６記載の解析方法。
データアレイは時間経過調査によって導出されるデータを含む請求項１記載の解析方法。
モデルは線形モデルである請求項１記載の解析方法。
モデルは二次モデルである請求項１記載の解析方法。
データアレイは、正常および異常組織から導出されるデータを含む請求項１記載の解析方法。
シグナルは薬の服用量に応答する請求項１記載の解析方法。
シグナルは共変数の変化に応答する請求項１記載の解析方法。
シグナルは１つより多い共変数の変化に応答する請求項１記載の解析方法。
２つ以上のデータアレイからデータを獲得し、各アレイが複数のメンバを含み、各メンバはシグナルを提供し、シグナルは被検査変数に応答し、
メンバ間の異質性を推定し、
所定のパターンとは異なるメンバを同定し、
所定のパターンとは異なるメンバに関するデータを補正し、
モデルをデータアレイに適用し、モデルはデータで推定可能な１つ以上のパラメータによってインデックス付けされ、
パラメータ値を推定することによりモデルをデータに適合させ、適合度は、この適合の統計学的有意性を評価することによって決定し、
シグナルの統計学的有意性を決定することを含むデータ解析方法。
適合の統計学的有意性を評価することは、モデルによって説明される観察された変動の範囲を決定することを含む請求項２９記載の解析方法。
シグナルの統計学的有意性を決定することは、シグナルシグナル対雑音比の有意性を決定することを含む請求項２９記載の解析方法。
異質性を推定することは、メンバの応答が被検査変数に対して不変であると仮定することを含む請求項２９記載の解析方法。
メンバ間の異質性を推定することは加算的および乗算的異質性因子を推定することを含む請求項２９記載の解析方法。
異質性因子は統計的方法によって推定される請求項３３記載の解析方法。
統計的方法は加重最小２乗法を含む請求項３４記載の解析方法。
異質性因子は、所定のパターンとは異なるメンバに関するデータを補正して補正値を提供するために用いられる請求項３３記載の解析方法。
各データアレイがサンプルのアレイから導出された、２つ以上のデータアレイを解析する方法であって、
（ａ）２つ以上のデータアレイからデータを獲得し、各データアレイがサンプルのアレイから導出され、各サンプルがシグナルを提供し、シグナルは被検査変数に応答し、
（ｂ）サンプル固有の異質性に関する補正因子を推定し、
（ｃ）アレイ固有の異質性に関する補正因子を推定し、
（ｄ）データで推定可能な１つ以上のパラメータによってインデックス付けされたモデルを適用し、各パラメータは値を有し、
（ｅ）モデルに適合するパラメータ値を決定し、
（ｆ）適合の統計学的有意性を評価することによってモデルに対するパラメータ値の適合度を決定し、
（ｇ）シグナルの統計学的有意性を決定することを含む解析方法。
適合度は、Ｚスコア、ｐ値、およびＲ^２からなるグループから選択された統計基準によって決定される請求項３７記載の解析方法。
補正因子は乗算的因子である請求項３７記載の解析方法。
補正因子は加算的因子である請求項３７記載の解析方法。
２つ以上のデータセット間のメンバ固有パラメータ値の変化を解析する方法であって、各データセットはメンバのアレイから導出され、各データセットは１つ以上の変数と関係しており、この方法は、
（ａ）データセット全体の異質性を推定し、
（ｂ）データセットに関係するパラメータを有する統計モデルを適用し、
（ｃ）このモデルに適合するメンバ固有パラメータ値を推定し、
（ｄ）適合の統計学的有意性を評価することによってモデルに対するメンバ固有パラメータ値の適合度を決定し、
（ｅ）シグナルの統計学的有意性を決定することを含む解析方法。
１つ以上の変数は、時間、病状、温度、細胞型、薬への暴露、臨床結果、および細胞周期のタイミングからなるグループから選択される請求項４１記載の解析方法。
各メンバは単一遺伝子からの転写物を有し、メンバ固有パラメータ値は転写物の発現のレベルを有する請求項４１記載の解析方法。
異質性を推定することは、メンバ固有パラメータ値がデータセット間で変化しないと仮定することを含む請求項４１記載の解析方法。
データセットが安定パターンと異なる場合に、データセットのすべてのメンバに関するデータを補正することをさらに含む請求項４１記載の解析方法。
異質性を推定することは異質性因子を決定することを含む請求項４１記載の解析方法。
異質性因子は加算的因子である請求項４６記載の解析方法。
異質性因子は乗算的因子である請求項４６記載の解析方法。
異質性因子は以下の合計の最小２乗を最小にすることによって推定され、

ここで、Ｙ_ｋ＝（Ｙ_１ｋ，Ｙ_２ｋ，．．．，Ｙ_Ｊｋ）はアレイを示し、Ｙ_ｊｋはｋ番目のデータセットのｊ番目のメンバのパラメータ値を示しており（ｊ＝１，２，．．．，Ｊ；ｋ＝１，２，．．．，Ｋ）、
（δ_ｋ，λ_ｋ）はサンプル固有の加算的および乗算的異質性因子であり、
（ａ_ｊ，ｂ_ｊ）は回帰係数であり、
加重の範囲は０から１であり、
合計は全メンバと全データセットに対するものである請求項４６記載の解析方法。
メンバ固有パラメータ値を推定することは回帰解析を含む請求項４１記載の解析方法。
異質性を推定することおよびメンバ固有パラメータを推定することは、残差の２乗の和を最小にすることを含む請求項４１記載の解析方法。
請求項１、２９、３７または４１いずれか１項に記載の解析方法を実行するためのコンピュータ実行可能命令を有するコンピュータ読み取り可能媒体。
プロセッサ、メモリ、および動作環境を有し、請求項１、２９、３７または４１いずれか１項に記載の解析方法を実行するよう動作可能なコンピュータシステム。