JP2004357550A

JP2004357550A - 遺伝子発現データの解析方法

Info

Publication number: JP2004357550A
Application number: JP2003158454A
Authority: JP
Inventors: Daniel Rajniak; ライニアックダニエル
Original assignee: Sankyo Co Ltd
Current assignee: Sankyo Co Ltd
Priority date: 2003-06-03
Filing date: 2003-06-03
Publication date: 2004-12-24

Abstract

【課題】本発明は、遺伝子発現量を表す量と転写産物濃度との関係の正当性を評価する方法を提供することを目的とする。
【解決手段】遺伝子発現量に対して発現エラーを算出し、さらに、関連する複数のオリゴヌクレオチドアレイに対して同一の遺伝子の発現量解析を行なう場合、発現量の矛盾を引き起こさないようにプローブアウトライアーを検出し、より精度の高い発現量を再解析する。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は生物学的データ分析に関し、詳細には生物学的データを分析するための方法であり、遺伝子サンプルの遺伝子発現情報の解析方法に関する。特に、本発明はオリゴヌクレオチドアレイを使用して遺伝子発現量に対するエラーを統計的に解析して評価する方法に関する。さらに本発明は、かかる遺伝子サンプルの遺伝子発現解析の複数実験（複数遺伝子転写物サンプルをそれぞれハイブリダイゼーションさせたオリゴヌクレオチドアレイ）に対して核酸プローブのプローブアウトライアー（Ｏｕｔｌｉｅｒ、はずれ値）を検出し、かかるプローブアウトライアーを考慮して遺伝子発現量の再解析方法に関する。
【０００２】
【従来の技術】
遺伝子の本体であるＤＮＡの塩基配列を解析する技術として、ノーザンブロッティング法やディフェレンシャルハイブリダイゼーションなどが従来から公知であるが、サンプルを一つずつ解析していたので、膨大な時間と労力が必要とされていた。近年、迅速な遺伝子解析方法として、病気に関連する遺伝子の有無などを調べる診断ツールである、ＤＮＡチップなどが注目されている。ＤＮＡチップとは、基板に固定した何通りもの塩基配列と未知のＲＮＡを反応させてＤＮＡの塩基配列を決定させるものであり、数千個以上の異なる遺伝子（ＤＮＡ断片）を高密度に整列させてある。コンピューターのマイクロチップは大量の情報を高速に処理する道具として開発されたものであるが、ＤＮＡチップも同様に小さな半導体基板を用いて大量の遺伝子発現情報やＤＮＡ多型情報を得るために開発されたツールである。特に、アフィメトリクス社（米国、カリフォルニア州、サンタクララ）のオリゴヌクレオチドアレイである、ＧｅｎｅＣｈｉｐ（登録商標）は大量の遺伝子情報を得るための最も一般的なツールとして使用されている。かかるオリゴヌクレオチドアレイの方法において、遺伝子発現の解析方法の基本は、パーフェクトマッチプローブとミスマッチプローブから構成されるプローブペアを使用する。パーフェクトマッチプローブ（これより以下ではＰＭプローブと記載する）は、参照とする配列に対して相補的となるように設計されたプローブである。ミスマッチプローブ（これより以下ではＭＭプローブと記載する）は、参照とする配列に対して中央部位（例えば、２５塩基のプローブの１３番目）でのホモマー塩基ミスマッチを有することを除いて、参照配列に相補的なプローブであり、クロスハイブリダイゼーション及び非特異的なハイブリダイゼーションにおいてコントロールとしての役割をする。ＰＭプローブとＭＭプローブの強度差は遺伝子発現の測定値として得られる。個々のプローブデザインと同様に、無作為な現象に関するエラーを排除するために、各遺伝子は、通常２０、１６又は１１ペアのマッチ−ミスマッチプローブによって表される。遺伝子の発現は、統計的なアプローチに基づきすべてのプローブペアに依存する。さらに、チップのユーザによって最も頻繁に使用される主要なパラメータはアベレージディファレンス（ＡｖｅｒａｇｅＤｉｆｆｅｒｅｎｃｅ、アフィメトリクス社の以前のアルゴリズムＭＡＳ４）及びシグナル（Ｓｉｇｎａｌ、アフィメトリクス社のアルゴリズムＭＡＳ５）である。アフィメトリクス社製のＧｅｎｅＣｈｉｐアルゴリズムの取り扱い説明書である、ＧｅｎｅＣｈｉｐ３．１ＥｘｐｒｅｓｓｉｏｎＡｎａｌｙｓｉｓＡｌｇｏｒｉｔｈｍＴｕｔｏｒｉａｌに記載されているように、アベレージディファレンスは遺伝子発現量値を表し、アウトライアーとして認識されないプローブにおいてパーフェクトマッチとミスマッチとのシグナル間の平均差として定義される。アウトライアーは遺伝子発現の間違った情報を与えるプローブペアである。近年の研究において、アウトライアー検出の問題が指摘され、アウトライアーを同定する演算法が提案されている（例えば、非特許文献１，２を参照）。
【０００３】
アフィメトリクス社のアルゴリズムはすべて、ＰＭプローブとＭＭプローブの解析に基づいて遺伝子発現量を計算する。アフィメトリクス社の以前のアルゴリズムＭＡＳ４は以下のような問題がある。（１）発現エラーを評価するパラメータを算出しない。したがって発現量自体の信頼性を定量的に表すことができない。（２）関連する複数実験に対して同一の遺伝子の発現量解析を行なう場合、ＭＡＳ４のアウトライアー検出法は発現量の矛盾を引き起こす。
【０００４】
最近のアフィメトリクス社のアルゴリズムＭＡＳ５は、プローブペアからの遺伝子発現を評価するために統計的手法を用いてｐ値を算出することにより上に記述したようなＭＡＳ４の欠点を部分的に解決したが、依然として発現エラー自体を提供しない。ＭＡＳ４と違ってＭＡＳ５では、プローブアウトライアーのコンセプトがなく、ある遺伝子を構成するプローブに対してＰＭプローブ強度値からＭＭプローブ強度値を引いた値（ＰＭ−ＭＭ）すべての重みつき平均を計算し、それを遺伝子発現量としている。しかしながら、単一の実験のデータに基づいてのみ（すなわち関連実験中の対応するＰＭ，ＭＭプローブ強度値を用いずに）重みを計算するため、関連実験中の発現量の矛盾を完全に解消することはできない。
【０００５】
【非特許文献１】
ＣｈｅｎｇＬｉ，ＷｉｎｇＨｕｎｇＷｏｎｇ：Ｍｏｄｅｌｂａｓｅｄａｎａｌｙｓｉｓｏｆｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅａｒｒａｙｓ：ｍｏｄｅｌｖａｌｉｄａｔｉｏｎ，ｄｅｓｉｇｎｉｓｓｕｅｓａｎｄｓｔａｎｄａｒｄｅｒｒｏｒａｐｐｌｉｃａｔｉｏｎ，ＧｅｎｏｍｅＢｉｏｌｏｇｙ，２（８）（２００１）
【０００６】
【非特許文献２】
ＦｅｌｉｘＮａｅｆ，ＤａｎｉｅｌＡ．Ｌｉｍ，ＮｉｌａＰａｔｉｌ，ａｎｄＭａｒｃｅｌｏＯ．Ｍａｇｎａｓｃｏ：Ｆｒｏｍｆｅａｔｕｒｅｓｔｏｅｘｐｒｅｓｓｉｏｎ：Ｈｉｇｈ−ｄｅｎｓｉｔｙｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅａｒｒａｙａｎａｌｙｓｉｓｒｅｖｉｓｉｔｅｄ，ｈｔｔｐ：／／ａｓｔｅｒｉｏｎ．ｒｏｃｋｅｆｅｌｌｅｒ．ｅｄｕ／ｍａｒｃｅｌｏ／Ｒｅｐｒｉｎｔｓ／３０ｆｅａｔｕｒｅｓ２ｅｘｐｒｅｓｓｉｏｎｓ−ｐｒｅ．ｐｄｆ
【０００７】
【発明が解決しようとする課題】
従来のアフィメトリクス社製のＧｅｎｅＣｈｉｐであるオリゴヌクレオチドアレイは、広範囲の遺伝子発現プロファイル解析用として最も使用されているツールの一つであるが、ＧｅｎｅＣｈｉｐで得られた遺伝子発現量と転写産物濃度との関係を完全に評価できる手段ではない。
【０００８】
したがって、本発明は、上述の点に鑑みてなされたものであり、遺伝子発現量のエラー（統計的変動）を評価する方法を提供することを目的とする。かかる変動は測定したアベレージディファレンスに影響を与えるすべての要因、例えばＲＮＡの質、ハイブリダイゼーション及びスキャニング、プローブデザイン、電子ノイズなどを反映した結果である。さらに、本発明は、関連する複数の遺伝子解析実験に対して同一の遺伝子の発現量解析を行なう場合、発現量の矛盾を引き起こさないようにプローブアウトライアーを検出し、より精度の高い発現量を再解析する方法を提供することを目的とする。
【０００９】
【課題を解決するための手段】
請求項１に係る発明によれば、オリゴヌクレオチドアレイを使用する遺伝子転写物サンプルの遺伝子発現データの解析方法であって、
（１）遺伝子において発現していないと予測される遺伝子を選択する、ステップと、
（２）前記（１）のステップで選択した遺伝子の各ＰＭプローブ及びＭＭプローブペアに対して、強度サンプル及びエラーサンプルを算出する、ステップと、
（３）前記（２）のステップで求めたすべての前記強度サンプル及び前記エラーサンプルを利用し、強度値と該強度値のエラー値の一般的な関係を導く、ステップと、
（４）すべての遺伝子を対象として、遺伝子ごとに前記（３）のステップの前記強度値と該強度値のエラー値の一般的な関係を利用してすべてのＰＭプローブ強度値及びＭＭプローブ強度値に対して強度エラー値を求める、ステップと、
（５）前記強度エラー値（σ_Ｐｉ，σ_Ｍｉ）を用いて遺伝子発現量のエラー（σ_{ＡｖｇＤｉｆｆ}）を算出する、ステップと、
よりなる遺伝子発現データの解析方法を提供することができる。
【００１０】
請求項２の発明は、請求項１の発明において、前記遺伝子において発現していないと予測される遺伝子は、アベレージディファレンス＜０であることを特徴とする。
【００１１】
請求項３の発明は、請求項１の発明において、前記アベレージディファレンスが、
【００１２】
【数６】

〔式中、ＰＭ_ｉ、ＭＭ_ｉはｉ番目のプローブペアのシグナル強度であり、ｎ_ａｖｇはアベレージディファレンスを算出するための使用するプローブペア数である。〕で定義されることを特徴とする。
【００１３】
請求項４の発明は、請求項１の発明において、前記アベレージディファレンスは遺伝子発現量を表し、前記ＰＭプローブと前記ＭＭプローブの一つのプローブペアに対する前記強度サンプル及び前記サエラーサンプルが、次式
【００１４】
【数７】

〔式中、ＰＭはＰＭプローブのシグナル強度であり、ＭＭは同一のプローブペアにおけるＭＭプローブのシグナル強度であり、左辺の添字ＰＭ及びＭＭはプローブタイプを示す。〕を用いて算出することを特徴とする。
【００１５】
請求項５の発明は、請求項１の発明において、前記強度値と該強度値のエラー値の一般的な関係に必要な前記強度のエラー値が、前記強度サンプルがある一定範囲内に属するエラーサンプルの標準偏差（σ）として算出されることを特徴とする。
【００１６】
請求項６の発明は、請求項１の発明において、一つのｉ番目の前記ＰＭプローブと前記ＭＭプローブのプローブペアに対する前記ＰＭプローブ強度値と前記ＭＭプローブ強度値の差分の前記強度エラー値（σ_ｉ）が、
【００１７】
【数８】

〔式中、σ_Ｐｉ，σ_ＭｉはＰＭ_ｉとＭＭ_ｉ強度のそれぞれのエラー値である。〕を用いて算出することを特徴とする。
【００１８】
請求項７の発明は、請求項４の発明において、前記発現量のエラー（σ_{ＡｖｇＤｉｆｆ}）は、
【００１９】
【数９】

を用いて算出することを特徴とする。
【００２０】
請求項８に係る発明によれば、複数の遺伝子転写物サンプルをそれぞれハイブリダイゼーションさせたオリゴヌクレオチドアレイ群から得られた遺伝子発現データの解析方法であって、
（１）オフセットの影響がすべてのハイブリダイゼーションデータで等価であるように、すべての前記オリゴヌクレオチドアレイ群において、バックグラウンド強度値を同じレベルに調節する、ステップと、
（２）前記オリゴヌクレオチドアレイ群に対して参照オリゴヌクレオチドアレイを選択するステップと、
（３）前記遺伝子ごとに、前記参照オリゴヌクレオチドアレイと前記複数のオリゴヌクレオチドアレイ群から前記参照オリゴヌクレオチドアレイを除いたオリゴヌクレオチドアレイとで対応する前記プローブペアからｒ_ＰＭを前記オリゴヌクレオチドアレイ群で使用するすべての前記プローブペアに対して算出を行なうステップと、
（４）最大値と最低値を取り除いた前記ステップ（３）で求めたｒ_ＰＭから平均値と標準偏差を算出し、前記プローブペアに関して該平均値から標準偏差のｋ倍以上外れたｒ_ＰＭを有するプローブペアをアウトライアーとして同定するステップと、
（５）前記参照オリゴヌクレオチドアレイと前記オリゴヌクレオチドアレイ群から前記参照オリゴヌクレオチドアレイを除いた前記オリゴヌクレオチドアレイとの間のすべての組みあわせに対して前記ステップ（４）を適用するステップと、
（６）前記オリゴヌクレオチドアレイ群において全オリゴヌクレオチドアレイを通した前記アウトライアーを指定し、少なくとも一つのオリゴヌクレオチドアレイでアウトライアーとして同定された前記プローブは全オリゴヌクレオチドアレイに対する前記アウトライアーとなることを特徴とする、ステップと、
（７）前記オリゴヌクレオチドアレイ群にわたって共通の前記アウトライアーを検出し、該アウトライアーを除去したうえで遺伝子発現量を再解析するステップと、
よりなる遺伝子発現データの解析方法を提供することができる。
【００２１】
請求項９の発明は、請求項８の発明において、前記ｒ_ＰＭはオリゴヌクレオチドアレイの各遺伝子に対する前記遺伝子プローブのパーフェクトマッチ及びミスマッチのセットすべてにわたって一定であることを特徴とする。
【００２２】
請求項１０の発明は、請求項８の発明において、前記ｒ_ＰＭの前記平均値はすべての前記遺伝子において、ほぼ１であることを特徴とする。
【００２３】
請求項１１の発明は、請求項８の発明において、前記アウトライアーは前記ｒ_ＰＭの不変性を用いて矛盾した振舞いにより抽出可能であることを特徴とする。
【００２４】
請求項１２の発明は、請求項８の発明において、前記参照オリゴヌクレオチドアレイは、前記アウトライアーを同定するための基準となる前記ｒ_ＰＭを導くオリゴヌクレオチドアレイであり、
【００２５】
【数１０】

〔式中、ＰＭ_ｉ，ｐ、ＭＭ_ｉ，ｐ、ＰＭ_ｉ，ｑ、及びＭＭ_ｉ，ｑは、対応するオリゴヌクレオチドアレイｐ又はｑのプローブセットのプローブペアｉのパーフェクトマッチ又はミスマッチ強度を示す。〕のパラメータｑで表されることを特徴とする。
【００２６】
請求項１３の発明は、請求項１又は８の発明において、前記オリゴヌクレオチドアレイはＰＭプローブ及びＭＭプローブを有するアフィメトリクス社のＧｅｎｅＣｈｉｐのオリゴヌクレオチドアレイ又は前記ＰＭプローブ及び前記ＭＭプローブと同じ機能を備えるオリゴヌクレオチドアレイであることを特徴とする。
【００２７】
【発明の実施の形態】
本発明は、図面を参照して下記において詳細に記載される。
【００２８】
解析される遺伝子情報はオリゴヌクレオチドアレイ又はｃＤＮＡマイクロアレイにより分析される遺伝子情報である。使用することができるオリゴヌクレオチドアレイとしては、アフィメトリクス社製ＧｅｎｅＣｈｉｐを用いる。かかるチップを用い、特定の転写物の発現は、複数のプローブにより検出され得る。各ターゲットは、下記の２つのプローブを用いて検出され、それらは、ターゲット配列から決定された参照配列に完全に相補的であるように設計されるＰＭプローブと、ターゲットの配列との間のハイブリダイゼーションに有意に影響し得る、幾つかのミスマッチ以外は参照配列に相補的であるように設計されるプローブである、ＭＭプローブである。好ましい実施態様では、ＭＭプローブは、中央（例えば、２５塩基のプローブの１３番目）位置でのホモマー塩基ミスマッチ以外は、参照配列に相補的であるように設計される。ＭＭプローブは、通常、クロスハイブリダ−ゼーション又は非特異的なハイブリダイゼーションなどにおけるコントロールとして用いられる。一般的に、プローブペアはＰＭ及びその対応するＭＭプローブからなる。ＰＭプローブとＭＭプローブとの間の差異は、これらのプローブに対応する遺伝子発現量に相当する量である。
【００２９】
同じプールから取得した４サンプルのハイブリダイゼーションのデータ解析結果を図１に示す。アベレージディファレンスが増加するにつれてアベレージディファレンスの標準偏差が増加する傾向があることを示している。このことはＰＭ、ＭＭハイブリダイゼーション強度が同じ傾向を表すと考えられる。
【００３０】
ここで、遺伝子発現量エラーの評価方法（エラーモデル）を考察する。
【００３１】
一般的に、あるパラメータに対するエラー（ノイズ）を評価するためにはそのパラメータの複数サンプルが必要である。本方法においては、単一の実験からでも、遺伝子を構成している複数のプローブ情報を用いることにより、発現量エラーを得ることができる。
【００３２】
遺伝子発現量に関するエラーを得るために最初にパーフェクトマッチとミスマッチプローブ強度値とそのエラーの一般的な関係を導く。かかる関係を発現していない遺伝子のＰＭプローブ及びＭＭプローブ強度値から求めた後、オリゴヌクレオチドアレイ上に搭載されているすべての遺伝子（すなわち遺伝子が発現しているものも含めてすべて）に対して適用し、各遺伝子ごとに発現エラーを計算する。
【００３３】
発現量エラーを算出するための重要な仮定は以下のとおりである。
【００３４】
（１）遺伝子が発現していない場合、又は遺伝子発現量がわずかで装置の検出限界以下である場合には、パーフェクトマッチとミスマッチ強度値は非特異的なハイブリダイゼーションなどのノイズ要因を反映したものである。この場合、ＰＭプローブ及びＭＭプローブは判別不能であり、単にノイズが重畳された二つの信号サンプルとして扱うことができる。なお、発現していない遺伝子を決定するために、そのような遺伝子のアベレージディファレンスが負値であるという仮定を使用する。
【００３５】
無作為に選択された１０の実験において、実験につきアベレージディファレンス＜０であるすべてのコール（ｃａｌｌ）に対してアベレージディファレンス＜０のＡコール（デフォルト設定においてアフィメトリクス社製のアルゴリズムである、アフィメトリクスアブソリュートコール（ＡｆｆｙｍｅｔｒｉｘＡｂｓｏｌｕｔｅＣａｌｌ）を使用した呼び出しであり、Ａコールは遺伝子が発現していないことをあらわす）の平均値は、ＭＧ＿Ｕ７４ｖ２Ａタイプのチップにおいて９９．８９％である。Ｍｕ１９ＫｓｕｂＡタイプのチップにおける同様のパラメータは９９．１％であり、上述の仮定を正当化する。エラーの算出において、アベレージディファレンスが０より小さいもの以外のすべての転写産物を無視する。
【００３６】
すべてのプローブにおいて、ターゲットとのハイブリダイゼーション、又は蛍光物質のラベリング等を含む熱力学的挙動は等しい。この仮定により、発現していない遺伝子から得られた発現量と発現量エラーの関係（前述の仮定（１））をオリゴヌクレオチドアレイ上のすべての遺伝子に拡大適用することができる。
【００３７】
図２を参照するに、遺伝子発現量に対して発現エラーを評価する方法が示される。
【００３８】
アベレージディファレンスが負値の遺伝子を選択する。アベレージディファレンスは式１５で定義されており、式中、ＰＭ_ｉ、ＭＭ_ｉはｉ番目のプローブペアの強度であり、ｎ_ａｖｇはアベレージディファレンスを算出するために使用するプローブペア数である（アフィメトリクス社製のＧｅｎｅＣｈｉｐアルゴリズムの取り扱い説明書である、ＧｅｎｅＣｈｉｐ３．１ＥｘｐｒｅｓｓｉｏｎＡｎａｌｙｓｉｓＡｌｇｏｒｉｔｈｍＴｕｔｏｒｉａｌを参照）。
【００３９】
【数１１】

選択した遺伝子の各ＰＭ及びＭＭプローブペアに対して、ハイブリダイゼーションシグナル強度とそのエラー（変動）を評価するために、下記の式１６、式１７、式１８を使用する。
【００４０】
【数１２】

式中、ＰＭはＰＭプローブのシグナル強度であり、ＭＭは同一のプローブペアにおけるＭＭプローブのシグナル強度である。左辺の添字ＰＭ及びＭＭはプローブタイプを示す。
【００４１】
一般的な関係の強度値と該強度のエラーにおいて、エラーは強度値が一定範囲に属するエラーサンプルの標準偏差として計算される。このようにして、アベレージディファレンス＜０の転写産物におけるエラーとプローブ強度の関係を得る。Ｍｕ１９Ｋチップでのハイブリダイゼーションにおけるエラーと強度関係の曲線が図３に示されている。３つの直線は様々なＳ／Ｎ比を表し、上のグラフから順にそれぞれＳ／Ｎ比が２，３及び４である。エラーと強度の関係は、すべての個々のパーフェクトマッチシグナルとミスマッチシグナルの効果的なエラーを評価するために使用される。エラーの特定値は、エラーと強度関係の曲線から得られる。
【００４２】
次いで、プローブペアの差、ＰＭ_ｉ−ＭＭ_ｉのエラー（σ_ｉ）は、式１９によって与えられ、式中、σ_Ｐｉ，σ_ＭｉはＰＭ_ｉとＭＭ_ｉ強度のそれぞれのエラー値である。これらの値を用いて、発現量のエラー（σ_{ＡｖｇＤｉｆｆ}）は式２０によって表すことができる。すべての遺伝子を対象として、遺伝子ごとにこれらの計算を行なう。
【００４３】
【数１３】

式２０のエラー（σ_{ＡｖｇＤｉｆｆ}）は、すべてのエラー要因を表す統計的な値である。本方法である、ここに提案されたモデルの利点は、単一のハイブリダイゼーションから総エラーを決定するための性能を有することである。
【００４４】
次いで、遺伝子発現解析の複数実験におけるアウトライアーの検出及び遺伝子発現量の解析方法を考察する。
【００４５】
オリゴヌクレオチドアレイは何千もの遺伝子転写産物の解析を可能にするが、エラーの発生から逃れられず、これは遺伝子解析を煩雑にする。オリゴヌクレオチドアレイデータにおけるエラー発生の原因は、アレイ自体に起因するものと実験上発生する原因がある。アレイ自体に起因の要因は、プローブデザイン、アレイの製造不良等である。実験上の要因は、サンプルの品質（汚染度合い）、サンプル処理方法、ハイブリダイゼーション及び他のプロトコール、スキャニング、サンプルの取り扱いなどである。一般的に、実験上派生する要因に対しては何らかの手段でエラーを抑制することができるが、アレイ自体に起因するエラーに対しては有効な手段は存在しない。
【００４６】
パーフェクトマッチ及びミスマッチデータを用いた解析が、図４，５に示されている。値ｒ_ＰＭは各遺伝子とオリゴヌクレオチドアレイとの間で対応するプローブペアで計算された。平均的な値ｒ_ＰＭは同じプローブセットを通して行なわれた。遺伝子のプローブセットすべてにわたって式２１のｒ_ＰＭの平均値は一定であり、オリゴヌクレオチドアレイｐ、ｑの組合せに関係なく、すべての遺伝子においてｒ_ＰＭの平均値はほぼ１である。
【００４７】
【数１４】

式中、ＰＭ_ｉ，ｐ、ＭＭ_ｉ，ｐ、ＰＭ_ｉ，ｑ、及びＭＭ_ｉ，ｑは、対応するオリゴヌクレオチドアレイｐ又はｑのプローブセットのプローブペアｉのパーフェクトマッチ又は又はミスマッチ強度である。
【００４８】
すなわち、式２２の左辺の値は、オリゴヌクレオチドアレイｐ、ｑのすべてのペアにおける同一の転写産物に属するｉ番目のプローブペアで統計的に一定に維持される。
【００４９】
【数１５】

一定のｌ_ｐｑはオリゴヌクレオチドアレイの選択されたペアにわずかに依存するが、ほとんどの場合でほぼ１である。パラメータｒ_ＰＭの値は狭い範囲に限定され、値１．８をほとんど超過しないことが確認された。それに対して、２つの実験で発現量が２倍以上変動した遺伝子の数は数十個から数百個である。これらの事実は、発現量の変動にかかわらずｒ_ＰＭがほぼ一定に保たれていることを示しており、パラメータｒ_ＰＭの不変性を用いて矛盾した振る舞いをしているプローブを抽出可能であることを意味する。すなわち、ｒ_ＰＭがある一定の間隔（平均±標準偏差（ＳＤ）のｋ倍）からはずれるようなプローブペアをアウトライアーとして検出することができる。
【００５０】
本方法は、アフィメトリクス社オリゴヌクレオチドアレイに基づいており、かかるアレイおいて、全プローブペアに関してパーフェクトマッチからミスマッチ強度値を引き算し（ＰＭ−ＭＭ）、その値を平均した値はＲＮＡ濃度に正比例することが報告されている（ＤａｖｉｄＪ．Ｌｏｃｋｈａｒｔｅｔａｌ．：Ｅｘｐｒｅｓｓｉｏｎｍｏｎｉｔｏｒｉｎｇｂｙｈｙｂｒｉｄｉｚａｔｉｏｎｔｏｈｉｇｈ−ｄｅｎｓｉｔｙｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅａｒｒａｙｓ，ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ，１４，１６７５−１６８０（１９９６Ｄｅｃｅｍｂｅｒ）４を参照）。これは式２３に表され、式中、ｋは定数であり、ｃはＲＮＡ濃度であり、ｎは非線形を表す定数である。
【００５１】
【数１６】

さらに、ハイブリダイゼーションメカニズムがすべてのプローブペアにおいて等しく、式２３が個々のペアからの応答の一次結合であることにより、単一プローブペアのための式２４を導くことができる。
【００５２】
【数１７】

式２４のＰＭ_ｉ、ＭＭ_ｉは未知変数であるが、これらは式２５、２６及び２７により満たされる。
【００５３】
【数１８】

変数式２５、２６に示されるように１次の比例関係の場合には（ｎ＝１）、式２２に式２５及び２６を代入すると２実験で決定されるｒ_ＰＭはオリゴヌクレオチドアレイの組み合わせに関わらず１になることがわかる。これが、実験データから得られた事実（ｒ_ＰＭが平均１の狭い範囲に限定されること（図４、５））の理論的根拠である。
【００５４】
本方法を活用するために、どのようにエラー要因が本方法の結果に影響するかを考慮する（ｎ＝１）。エラー要因を３グループに分類する。（１）無作為な要因、例えばクロスハイブリダイゼーション、汚染度、製造不良などである。（２）系統的なエラー要因。（３）非特異的なハイブリダイゼーションによって表される、付加的な要因である。これらのエラー要因を考慮して式２５、２６を拡張したものを式２８、２９に示す（添字ｉは省略）。パーフェクトマッチシグナルにおける式２８において、無作為な要因は、ｋ_ＰＣｃ_Ｃ（クロスハイブリダイゼーション）に反映され、付加的な要因はｋ_ＰＮｃ_Ｃ（非特異的なハイブリダイゼーション）によって反映され、その他のエラー要因はεによって反映される。式中、ｋ_ＰＣはクロスハイブリダイゼーションするプローブ能力を反映する有効な係数であり、ｃ_Ｃはプローブとクロスハイブリダイゼーションする遺伝子の効果的なＲＮＡ濃度であり、ｋ_ＰＮはプローブの非特異的ハイブリダイゼーションを反映する有効な係数であり、ｃ_Ｎは非特異的なハイブリダイゼーションに含まれる産物の効果的な濃度である。ミスマッチシグナルにおける式２９のパラメータの意味は式２８と同様である。
【００５５】
【数１９】

これらすべての３要素は、理想的なデータにエラーをもたらし、一連の実験におけるデータ値の矛盾に帰着する。
【００５６】
図６は同一のプローブセットにおけるパーフェクトマッチとミスマッチシグナルの様々なレベルを例示する。これは、定数ｋ_Ｐとｋ_Ｍが同一のプローブセットのプローブペアにおいて可変であることを実証する。同一のプローブペアのセットであっても異なるプローブペアが異なるシグナルの絶対強度値を与えるので、アベレージディファレンスの計算において異なる重みを有する。アベレージディファレンスが遺伝子発現の量的なパラメータとして使用される場合、すべてのオリゴヌクレオチドアレイを通して同一のプローブペアから一連のオリゴヌクレオチドアレイのアベレージディファレンスを計算することが必要である。各オリゴヌクレオチドアレイにおけるプローブセットでアウトライアーが決定されると、少なくとも一つのオリゴヌクレオチドアレイでアウトライアーとして同定されたすべてのプローブペアは排除される。
【００５７】
ここにアウトライアーを検出するための演算法が示される。
【００５８】
アウトライアーの検出方法は式２２に基づく。理想的には、式２２の値は１である。アウトライアーの同定は、単に値ｒ_ＰＭのモニタリングによって達成できる。許容範囲外の値ｒ_ＰＭを有するプローブペアはアウトライアーとして考慮される。
【００５９】
しかしながら、オリゴヌクレオチドアレイデータで処理する場合、エラー要因がｒ_ＰＭに基づく結果に対してどのように影響するかを考慮すべきである。非特異的なハイブリダイゼーションの要因と同様に、すべてのエラー要因、無作為な要因、エラー要因は、値ｒ_ＰＭを１にしない。非特異的なハイブリダイゼーションが効果的なシグナル強度を覆い隠すだけであるが、データの傾向性を変化しない一方で、無作為な要因とエラー要因はデータの傾向性を変化し、一貫性のないデータの振舞いを主に引き起こすものとして処理される。この時点で、非特異的ハイブリダイゼーションの要因をゼロと仮定する。考慮すべきことは、転写された遺伝子の濃度の測定能力がシステムの検出限界（ＤＬ）によって制限される場合、たとえどのようなオリゴヌクレオチドアレイの状況においても、ｒ_ＰＭの値が１として不変であるかどうかということある。そこで、３つの場合を考察した。
【００６０】
（ａ）遺伝子がｐとｑの両オリゴヌクレオチドアレイの検出限界を超過して発現した場合、すなわち、ｃ_ｐ、ｃ_ｑ＞＞ＤＬである場合、アウトライアーの検出式は原理的には変化しない。両オリゴヌクレオチドアレイのＰＭ／ＭＭの比率はターゲットである転写産物とハイブリダイズするプローブ性能を反映する。この性能はＲＮＡ濃度とは関係ないので、無作為な要因が存在しない限り、値ｒ_ＰＭは１に限りなく近い。
【００６１】
（ｂ）一つのオリゴヌクレオチドアレイの遺伝子の発現が検出限界に近似する場合、そのオリゴヌクレオチドアレイのパーフェクトマッチとミスマッチシグナルは、ターゲット遺伝子の転写産物とハイブリダイズするプローブ能力における多くの情報を含まない。ノイズ作用が無視できないために、値ｒ_ＰＭはもはや１ではない。問題の複雑性により、値ｒ_ＰＭを厳密に決定することは不可能である。オリゴヌクレオチドアレイｑの遺伝子発現はわずかであり、ｋ_Ｐｃ_ｑ−ｋ_Ｍｃ_ｑ＜εの条件を満たすことを仮定すると、おおまかな値ｒ_ＰＭは式３０として記載される。
【００６２】
【数２０】

式３０は値ｒ_ＰＭがｋ_Ｐ／ｋ_Ｍとわずかに転写された遺伝子の濃度ｃ_ｑの両者に依存することを示している。したがって、値ｒ_ＰＭが遺伝子発現か又はターゲットにハイブリダイズするプローブの特異性に対してもはや不変であるとは考えることはできない。
【００６３】
濃度ｃ_ｑはプローブペアセットのすべてのプローブペアに対して共通であり、プローブセットでのｋ_Ｐ／ｋ_Ｍ比率が事前に利用可能であるならば、値ｒ_ＰＭはアウトライアー検出において使用できる。
【００６４】
（ｃ）遺伝子発現がオリゴヌクレオチドアレイｑの検出限界以下である場合、すなわち、ｃ_ｑ＜＜ＤＬである場合、値ｒ_ＰＭはノイズ変動を強度に反映し、アウトライアーを検出するために有効に使用できない。かかる値の使用は、過剰なほど多くのアウトライアー数を潜在的に導くだろう。これは、付加的な非特異的ハイブリダイゼーションの要因を完全に除外することが好ましくなく、オフセットの要因はノイズ作用を覆い隠し、特に低発現レベルにおいてアウトライアーの数を調整するために効果的に使用できる。付加的な要因の存在は値ｒ_ＰＭを１に導かない。付加的な要因が増大すると、値ｒ_ＰＭは極限まで達し、さらに付加的な要因が増大すると、値ｒ_ＰＭは再度１に接近する。これは、付加的な要因のマスキング作用に対応するためである。
【００６５】
図７を参照するに、本発明による複数のオリゴヌクレオチドアレイにおけるアウトライアー検出及び遺伝子発現量の再解析方法が示される。
【００６６】
アウトライアーの検出は値ｒ_ＰＭに基づき、実施されるアルゴリズムは、次のステップからなる。
【００６７】
（１）オフセットの影響がすべてのハイブリダイゼーションデータで等価であるように、すべてのオリゴヌクレオチドアレイ群において、バックグラウンド強度値を同じレベルに調節する。
【００６８】
（２）参照オリゴヌクレオチドアレイを選択する。参照オリゴヌクレオチドアレイとは、ｒ_ＰＭ計算の基準となるオリゴヌクレオチドアレイであり、式２１で表される。
【００６９】
（３）遺伝子ごとに、参照オリゴヌクレオチドアレイと複数のオリゴヌクレオチドアレイ群から参照オリゴヌクレオチドアレイを除いたオリゴヌクレオチドアレイとで対応するプローブペアからｒ_ＰＭを計算する。計算はすべてのプローブペアに対して行なう。
【００７０】
（４）（３）で求めたｒ_ＰＭ（最大値と最低値を取り除いて）から平均値と標準偏差を計算する。プローブペアに関して平均値からｋ倍のＳＤ以上外れたｒ_ＰＭを有するプローブペアをアウトライアーとする。
【００７１】
（５）オリゴヌクレオチドアレイ群から参照オリゴヌクレオチドアレイを除いたオリゴヌクレオチドアレイと参照オリゴヌクレオチドアレイとの間のすべての組み合わせに対して、前述のステップ（４）を適用する。
【００７２】
（６）オリゴヌクレオチドアレイ群において全オリゴヌクレオチドアレイを通したアウトライアーを指定する。少なくとも一つのオリゴヌクレオチドアレイでアウトライアーとして同定されたプローブは全オリゴヌクレオチドアレイに対するアウトライアーとなる。
【００７３】
（７）オリゴヌクレオチドアレイ群にわたって共通のアウトライアーを検出し、これらアウトライアーを除去したうえで発現量を再解析する。
【００７４】
したがって、オリゴヌクレオチドアレイ群にわたって矛盾を生じることなく発現量の再解析が可能となる。
【００７５】
プローブデザインに起因するエラーを考慮するに、通常の場合、大半のプローブは正確に設計されていると推定されるが、アウトライアー数が全プローブペアの半数以上である場合は、アベレージディファレンスが生物学上意味のある結果を示すことを確証しない可能性がある。その場合は、アウトライアーを減らすために前記ｋ値を増やす。
【００７６】
アウトライアーを検出する本方法の利点は、
（１）実施が容易であり、追加的なデータを必要とせず、煩雑でなく、効率的な解析であり、したがってオンライン処理に適する。
【００７７】
（２）オフセット要因のために、低発現の遺伝子におけるアウトライアー数は極端に多くない。
【００７８】
（３）アウトライアーの閾値レベルは調節可能である。
【００７９】
【実施例】
以下に実施例を挙げて本発明をさらに説明するが、本発明は以下の実施例に限定されるものではない。
【００８０】
本発明のエラーモデルにより遺伝子発現量をアベレージディファレンス±エラーとして表現することが可能となり発現量の信頼区間の評価が可能となる。図８は、いくつかの遺伝子に対してそれぞれのエラー区間を含んだ発現レベルを示す。エラーバーは遺伝子発現の信頼区間を示す。信頼区間は±１ＳＤに対応する。例えば、ＭＩＰ１−Ｂ＿ａｔは、発現量自体は大きいがエラーは発現量以上であり発現の信頼性が低い。それに対しＴＮＦＲＩＩ＿ａｔは、発現量自体はＭＩＰ１−Ｂ＿ａｔよりも低いがエラー区間が非常に狭いため、この遺伝子に関しては高い確率で発現していると推察される。信頼性に関する１つの指標としてＣＩ（ＣｏｎｆｉｄｅｎｃｅＩｎｄｅｘ、信頼性の指標）＝アベレージディファレンス／エラーを導入し、ＣＩ＞１の場合に発現していると考えた場合、ＭＩＰ１−Ｂ＿ａｔは発現しているがＴＮＦＲＩＩ＿ａｔは発現していない。
【００８１】
本発明の方法を同一プールから採取した２つのサンプルのハイブリダイゼーション実験データに適用し、再計算したアベレージディファレンス値及び発現の信頼性をアフィメトリクス社製の解析アルゴリズムである、アブソリュートアナリシス（ＡｂｓｏｌｕｔｅＡｎａｌｙｓｉｓ）のＭＡＳ４又はＭＡＳ５を用いて得たデータと比較した。ハイブリダイゼーションはＭＧ＿Ｕ７４Ａチップで行なわれた。図９のデータは前述のアフィメトリクス社のＭＡＳ４解析アルゴリズムを用いて前述の実験を解析した結果の散布図である。また、図１０ａのデータは本発明による方法を用いて前述の実験を解析した結果の散布図である。さらに、図１０ｂ及び１０ｃは、本発明による方法及びＭＡＳ５解析アルゴリズムを用いて前述の実験を解析した結果の散布図である。アフィメトリクス社のＭＡＳ４で得たＰ−コール（アフィメトリクス社が発現していると判定したもの）判定の遺伝子と本発明の方法で選んだ発現している遺伝子（ＣＩ＞１）が表示してある。本方法で発現していると判定した遺伝子の数はアフィメトリクスが発現していると判定した遺伝子より多いにもかかわらず、理想的データ（４５°度の線）からの偏差は小さい。アフィメトリクス社のＭＡＳ５で得たデータと比較すると、本方法で得たデータの偏差のほうが少ない。これは、遺伝子発現解析での新しい方法の優位性を示している。
【００８２】
プローブアウトライアーによるアベレージディファレンスの再解析の効果をＭｏｕｓｅ１１ｋのマウスチップを利用し、１８のハイブリダイゼーション実験のデータで検討した（表１）。
【００８３】
【表１】

すなわち、６実験における１０遺伝子の発現量に関して、各遺伝子のＴａｑＭａｎＰＣＲ（登録商標）の発現データを基準のデータとし、これらとある閾値範囲内で発現量が一致しないと判定される実験の数をアフィメトリクス社のＭＡＳ４、ＭＡＳ５アルゴリズム及び本方法で比較した。本データは図１１ａ，１１ｂ，１１ｃに示され、図１１ａ乃至１１ｃにおいて、ＴＭＮはＴａｑＭａｎＰＣＲを示し、ＡＦＦＹＮはＭＡＳ４を示し、ＡＦＦＹ５ＮはＭＡＳ５を示し、ＲＡＤＮは本発明の方法を示す。表１において、ＴＭＮはＴａｑＭａｎＰＣＲを示し、ＡｆｆｙはＭＡＳ４を示し、Ａｆｆｙ５はＭＡＳ５を示し、Ｒａｄは本発明の方法を示す。括弧内の値（１．５または２．０）は閾値をあらわす。特に、閾値が１．５の場合において、本方法はＭＡＳ４，ＭＡＳ５に比べて一致しない遺伝子の数が顕著に少なく、本方法の優位性は明白である。
【００８４】
本発明をある好ましい実施例を参照して説明したが、本発明の趣旨及び範囲内において変形及び修正を行なえることは理解されるであろう。
【００８５】
【発明の効果】
上述の如く、本発明によれば、遺伝子発現量に対して発現エラーを評価し、プローブ強度の解析を通して得られた発現モデルに基づくアウトライアーの検出により、複数のオリゴヌクレオチドアレイ間で発現量の矛盾をなくし、より精度の高い発現量の再計算が可能となった。
【図面の簡単な説明】
【図１】同じサンプルプールから採取した４つのマウスサンプルのハイブリダイゼーション実験（ＭＧ＿Ｕ７４Ａチップ）から得られた標準偏差対アベレージディファレンスのグラフである。
【図２】本発明による遺伝子発現量に対して発現エラーを評価する方法を概略するフローチャートである。
【図３】Ｍｕ１９ＫｓｕｂＡチップを用いたハイブリダイゼーション実験におけるエラーと強度のグラフである。
【図４】Ｍｕ１１ＫｓｕｂＡチップでの平均値ｒ_ＰＭのヒストグラムである。
【図５】ＭＧ＿Ｕ７４Ａｖ２チップでの平均値ｒ_ＰＭのヒストグラムである。
【図６】遺伝子ｗ１３５９５＿ｓ＿ａｔの２０のプローブペアにおけるパーフェクトマッチとミスマッチシグナル強度値を示すグラフである。
【図７】本発明による複数実験におけるアウトライアー検出及び遺伝子発現量の再解析方法を概略するフローチャートである。
【図８】ＭＧ＿Ｕ７４Ａチップで２０のコントロール遺伝子におけるアベレージディファレンス及びエラーを示すグラフである。
【図９】ＭＡＳ４で得た２つのハイブリダイゼーション実験のデータの散布図である。
【図１０ａ】本発明による方法で得た２つのハイブリダイゼーション実験のデータの散布図である。
【図１０ｂ】本発明による方法及びＭＡＳ５で得た発現データを示すグラフである。
【図１０ｃ】本発明による方法及びＭＡＳ５で得た発現データを示すグラフである。
【図１１ａ】正規化した遺伝子プロファイルを示すグラフである。
【図１１ｂ】正規化した遺伝子プロファイルを示すグラフである。
【図１１ｃ】正規化した遺伝子プロファイルを示すグラフである。

Claims

オリゴヌクレオチドアレイを使用する遺伝子転写物サンプルの遺伝子発現データの解析方法であって、
（１）遺伝子において発現していないと予測される遺伝子を選択する、ステップと、
（２）前記（１）のステップで選択した遺伝子の各パーフェクトマッチプローブ及びミスマッチプローブペアに対して、強度サンプル及びエラーサンプルを算出する、ステップと、
（３）前記（２）のステップで求めたすべての前記強度サンプル及び前記エラーサンプルを利用し、強度値と該強度値のエラー値の一般的な関係を導く、ステップと、
（４）すべての遺伝子を対象として、遺伝子ごとに前記（３）のステップの前記強度値と該強度値のエラー値の一般的な関係を利用してすべてのパーフェクトマッチプローブ強度値及びミスマッチプローブ強度値に対する強度エラー値を求める、ステップと、
（５）前記強度エラー値（σ_Ｐｉ，σ_Ｍｉ）を用いて遺伝子発現量のエラー（σ_{ＡｖｇＤｉｆｆ}）を算出する、ステップと、
よりなる遺伝子発現データの解析方法。
前記遺伝子において発現していないと予測される遺伝子は、アベレージディファレンス＜０であることを特徴とする請求項１に記載の遺伝子発現データの解析方法。
前記アベレージディファレンスは、

〔式中、ＰＭ_ｉ、ＭＭ_ｉはｉ番目のプローブペアのシグナル強度であり、ｎ_ａｖｇはアベレージディファレンスを算出するために使用するプローブペア数である。〕で定義されることを特徴とする請求項１に記載の遺伝子発現データの解析方法。
前記アベレージディファレンスは遺伝子発現量を表し、前記パーフェクトマッチプローブと前記ミスマッチプローブの一つのプローブペアに対する前記強度サンプル及び前記エラーサンプルは、次式

〔式中、ＰＭはＰＭプローブのシグナル強度であり、ＭＭは同一のプローブペアにおけるＭＭプローブのシグナル強度であり、左辺の添字ＰＭ及びＭＭはプローブタイプを示す。〕を用いて算出することを特徴とする請求項１に記載の遺伝子発現データの解析方法。
前記強度値と該強度値のエラー値の一般的な関係に必要な前記強度のエラー値は、前記強度サンプルがある一定範囲内に属するエラーサンプルの標準偏差（σ）として算出されることを特徴とする請求項１に記載の遺伝子発現データの解析方法。
一つのｉ番目の前記パーフェクトマッチプローブと前記ミスマッチプローブのプローブペアに対する前記パーフェクトマッチプローブ強度値と前記ミスマッチプローブ強度値の差分の前記強度エラー値（σ_ｉ）は、

〔式中、σ_Ｐｉ，σ_ＭｉはＰＭ_ｉとＭＭ_ｉ強度のそれぞれのエラー値である。〕を用いて算出することを特徴とする請求項１に記載の遺伝子発現データの解析方法。
前記発現量のエラー（σ_{ＡｖｇＤｉｆｆ}）は、

を用いて算出することを特徴とする請求項４に記載の遺伝子発現データの解析方法。
複数の遺伝子転写物サンプルをそれぞれハイブリダイゼーションさせたオリゴヌクレオチドアレイ群から得られた遺伝子発現データの解析方法であって、
（１）オフセットの影響がすべてのハイブリダイゼーションデータで等価であるように、すべての前記オリゴヌクレオチドアレイ群において、バックグラウンド強度値を同じレベルに調節する、ステップと、
（２）前記オリゴヌクレオチドアレイ群に対して参照オリゴヌクレオチドアレイを選択する、ステップと、
（３）前記遺伝子ごとに、前記参照オリゴヌクレオチドアレイと前記複数のオリゴヌクレオチドアレイ群から前記参照オリゴヌクレオチドアレイを除いたオリゴヌクレオチドアレイとで対応する前記プローブペアからｒ_ＰＭを前記オリゴヌクレオチドアレイ群で使用するすべての前記プローブペアに対して算出を行なう、ステップと、
（４）最大値と最低値を取り除いた前記ステップ（３）で求めたｒ_ＰＭから平均値と標準偏差を算出し、前記プローブペアに関して該平均値から標準偏差のｋ倍以上外れたｒ_ＰＭを有するプローブペアをアウトライアーとして同定する、ステップと、
（５）前記参照オリゴヌクレオチドアレイと前記オリゴヌクレオチドアレイ群から前記参照オリゴヌクレオチドアレイを除いた前記オリゴヌクレオチドアレイとの間のすべての組みあわせに対して前記ステップ（４）を適用するステップと、
（６）前記オリゴヌクレオチドアレイ群において全オリゴヌクレオチドアレイを通した前記アウトライアーを指定し、少なくとも一つのオリゴヌクレオチドアレイでアウトライアーとして同定された前記プローブは全オリゴヌクレオチドアレイに対する前記アウトライアーとなることを特徴とする、ステップと、
（７）前記オリゴヌクレオチドアレイ群にわたって共通の前記アウトライアーを検出し、該アウトライアーを除去したうえで遺伝子発現量を再解析するステップと、
よりなる遺伝子発現データの解析方法。
前記ｒ_ＰＭはオリゴヌクレオチドアレイの各遺伝子に対する前記遺伝子プローブのパーフェクトマッチ及びミスマッチのセットすべてにわたって一定であることを特徴とする請求項８に記載の遺伝子発現データの解析方法。
前記ｒ_ＰＭの前記平均値はすべての前記遺伝子において、ほぼ１であることを特徴とする請求項８に記載の遺伝子発現データの解析方法。
前記アウトライアーは前記ｒ_ＰＭの不変性を用いて矛盾した振舞いにより抽出可能であることを特徴とする請求項８に記載の遺伝子発現データの解析方法。
前記参照オリゴヌクレオチドアレイは、前記アウトライアーを同定するための基準となる前記ｒ_ＰＭを導くオリゴヌクレオチドアレイであり、

〔式中、ＰＭ_ｉ，ｐ、ＭＭ_ｉ，ｐ、ＰＭ_ｉ，ｑ、及びＭＭ_ｉ，ｑは、対応するオリゴヌクレオチドアレイｐ又はｑのプローブセットのプローブペアｉのパーフェクトマッチ又はミスマッチ強度を示す。〕のパラメータｑで表されることを特徴とする、請求項８に記載の遺伝子発現情報のデータ解析方法。
前記オリゴヌクレオチドアレイはパーフェクトマッチプローブ及びミスマッチプローブを有するアフィメトリクス社のＧｅｎｅＣｈｉｐのオリゴヌクレオチドアレイ又は前記パーフェクトマッチプローブ及び前記ミスマッチプローブと同じ機能を備えるオリゴヌクレオチドアレイであることを特徴とする請求項１又は８に記載の遺伝子発現データの解析方法。